JP7438272B2 - 検索インテント単位のブロックを生成する方法、コンピュータ装置、およびコンピュータプログラム - Google Patents

検索インテント単位のブロックを生成する方法、コンピュータ装置、およびコンピュータプログラム Download PDF

Info

Publication number
JP7438272B2
JP7438272B2 JP2022100151A JP2022100151A JP7438272B2 JP 7438272 B2 JP7438272 B2 JP 7438272B2 JP 2022100151 A JP2022100151 A JP 2022100151A JP 2022100151 A JP2022100151 A JP 2022100151A JP 7438272 B2 JP7438272 B2 JP 7438272B2
Authority
JP
Japan
Prior art keywords
block
intent
document
search
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022100151A
Other languages
English (en)
Other versions
JP2023165384A (ja
Inventor
ジェホ チェ
サンオク シム
チャンフン パク
サンボム キム
ジンホン キム
ジヒョン イ
ジョンア パク
ヨンテク オ
サンフン イ
ジュンス チョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2023165384A publication Critical patent/JP2023165384A/ja
Application granted granted Critical
Publication of JP7438272B2 publication Critical patent/JP7438272B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching

Description

特許法第30条第2項適用 2021年6月23日、https://blog.naver.com/naver_search/222407697222 にて公開
特許法第30条第2項適用 2021年7月28日、https://n.news.naver.com/mnews/article/138/0002107696 にて公開
特許法第30条第2項適用 2021年9月29日、https://blog.naver.com/naver_search/222520396793 にて公開
特許法第30条第2項適用 2021年10月7日、https://blog.naver.com/naver_search/222529717953 にて公開
特許法第30条第2項適用 2021年10月28日、https://www.navercorp.com/promotion/pressReleasesView/30702 にて公開
特許法第30条第2項適用 2021年11月4日、https://blog.naver.com/naver_search/222558626946 にて公開
特許法第30条第2項適用 2021年11月24日、https://blog.naver.com/naver_search/222577259238 にて公開
特許法第30条第2項適用 2021年11月25日、https://blog.naver.com/naver_search/222578279955 にて公開
特許法第30条第2項適用 2021年12月2日、https://blog.naver.com/naver_search/222584588816 にて公開
以下の説明は、個人化された検索結果を提供する技術に関する。
検索エンジン(searchengine)とは、インターネット上の資料を容易に探索できるようにサポートするソフトウェアまたはウェブサイトを意味する。このような検索エンジンは、ユーザが入力した検索語に基づいてデータベースを検索し、これに対する検索結果を抽出してユーザに提供する。
このような検索結果を提供する技術の一例として、特許文献1(公開日2004年9月16日)には、検索エンジンで検索語に対する検索結果リストを生成する技術が開示されている。
韓国公開特許第10-2004-0079604号公報
検索インテントを細分化した新たな検索結果単位であるブロックを利用して、個人のインテントと趣向を考慮した検索結果を提供する。
文書分類によってトピック(topic)とジャンル(genre)を抽出することができ、トピックとジャンルの組み合わせによって検索インテント単位のブロックを生成する。
キーワードごとに、当該キーワードに対応するトピックとジャンルの組み合わせによってブロックを生成した後、当該ブロックで表示する文書をマッチングして、リアルタイム検索に利用することができるデータとして構築する。
検索語によるユーザの検索インテントとともに当該ユーザのコンテキストによる個人趣向を考慮して、個人化されたブロックで検索結果を提供する。
検索インテントに応じて、正解型検索結果が含まれる正解型ブロック、ユーザ趣向基盤のカスタマイズ型検索結果が含まれる探索型ブロック、ユーザ反応基盤のリアルタイム検索結果が含まれる反応型ブロックを自由自在に組み合わせ、最適化した検索結果を提供する。
コンピュータ装置で実行されるインテントブロック生成方法であって、前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記インテントブロック生成方法は、前記少なくとも1つのプロセッサにより、インターネット上の文書を対象に文書分析によってトピック(topic)とジャンル(genre)を抽出する段階、および前記少なくとも1つのプロセッサにより、前記トピックと前記ジャンルを組み合わせてインテント単位で検索結果を表示するためのブロックを生成する段階を含む、インテントブロック生成方法を提供する。
一側面によると、前記抽出する段階は、前記文書に対するトピックモデリングによってインテント分類のための前記トピックを抽出する段階、および前記文書を文書形式によって分類することによって前記トピックを細分化するための前記ジャンルを抽出する段階を含んでよい。
他の側面によると、前記インテント分類のための前記トピックを抽出する段階は、文書基盤のネットワーク情報に基づいて、前記ネットワーク情報による文書グループを利用して前記トピックを抽出する段階を含んでよい。
また他の側面によると、前記トピックを細分化するための前記ジャンルを抽出する段階は、文書に含まれたテキストに対するフィーチャ、文書に含まれた属性情報に対するフィーチャ、文書の構造情報に対するフィーチャ、文書に含まれたイメージに対するフィーチャ、文書に含まれた特定の表現に対するフィーチャのうちの少なくとも1つを含む分類器によって前記文書形式を分類する段階を含んでよい。
また他の側面によると、前記生成する段階は、ブロック生成のためのキーワードを選定する段階、前記キーワードそれぞれに対して前記トピックと前記ジャンルを組み合わせて前記ブロックのネーミングを決定する段階、および前記ブロックそれぞれに対して当該ブロックで検索結果として表示する文書を連結する段階を含んでよい。
また他の側面によると、前記決定する段階は、前記キーワードと前記トピックとの関連性に基づいて前記キーワードに少なくとも1つのトピックをマッピングする段階、および前記キーワードにマッピングされたトピックと当該トピックを細分化したジャンルを組み合わせて前記キーワードに対するブロック名を生成する段階を含んでよい。
また他の側面によると、前記決定する段階は、前記トピックと前記ジャンルを組み合わせてブロック名候補を生成する段階、および前記トピックと前記ジャンルで分類された文書比重によって前記ブロック名候補のうちの一部をフィルタリングする段階を含んでよい。
また他の側面によると、前記決定する段階は、前記キーワードと前記トピックと前記ジャンルを互いに異なる順で組み合わせたブロック名候補を生成する段階、および前記ブロック名候補に対し、言語モデルを利用した予測確率に基づいて最終名を選定する段階を含んでよい。
また他の側面によると、前記連結する段階は、前記ブロックのネーミングを利用した文書検索によって、当該ブロックのトピックとジャンルに属する少なくとも1つの文書を前記ブロックのキャッシュに保存する段階を含んでよい。
また他の側面によると、前記生成する段階は、前記各キーワードのブロック情報と前記各ブロックの文書情報をリアルタイム検索のためのキャッシュに周期的にアップデートする段階を含んでよい。
前記インテントブロック生成方法をコンピュータに実行させるためのコンピュータプログラムを提供する。
コンピュータ装置であって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、インターネット上の文書を対象に文書分析によってトピックとジャンルを抽出し、前記トピックと前記ジャンルを組み合わせてインテント単位で検索結果を表示するためのブロックを生成することを特徴とする、コンピュータ装置を提供する。
本発明の実施形態によると、検索インテントを細分化した新たな検索結果単位であるブロックを利用して、個人のインテントと趣向を考慮した検索結果を提供することができる。
本発明の実施形態によると、文書分類によってトピックとジャンルを抽出することができ、コンテンツの種類や出処などではなく、トピックとジャンルの組み合わせによって検索インテント単位のブロックを生成することができる。
本発明の実施形態によると、キーワードごとに当該キーワードと対応するトピックとジャンルの組み合わせによってブロックを生成した後、当該ブロックで表示する文書をマッチングして、リアルタイム検索に利用可能なデータとして構築することができる。
本発明の実施形態によると、検索語によるユーザの検索インテントとともに当該ユーザのコンテキストによる個人趣向を考慮することで、個人化されたブロックで検索結果を提供することができる。
本発明の実施形態によると、検索インテントに応じて、正解型検索結果が含まれる正解型ブロック、ユーザ趣向基盤のカスタマイズ型検索結果が含まれる探索型ブロック、ユーザ反応基盤のリアルタイム検索結果が含まれる反応型ブロックを自由自在に組み合わせ、最適化した検索結果を提供することができる。
本発明の一実施形態における、ネットワーク環境の例を示した図である。 本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。 本発明の一実施形態における、個人化検索サービスのための全体システム構造を示した図である。 本発明の一実施形態における、インテント分類方法の一例を示したフローチャートである。 本発明の一実施形態における、インテント分類による文書構造化の一例を示した図である。 本発明の一実施形態における、インテントブロック生成方法の一例を示したフローチャートである。 本発明の一実施形態における、インテントブロックのネーミング過程を説明するための例示図である。 本発明の一実施形態における、インテントブロックのネーミング過程を説明するための例示図である。 本発明の一実施形態における、インテントブロックのネーミング過程を説明するための例示図である。 本発明の一実施形態における、インテントブロックのネーミング過程を説明するための例示図である。 本発明の一実施形態における、検索結果提供方法の一例を示したフローチャートである。 本発明の一実施形態における、インテントブロック検索過程を説明するための例示図である。 本発明の一実施形態における、インテントブロック単位の検索結果を表示するユーザインタフェース画面の一例を示した図である。 本発明の一実施形態における、インテントブロック単位の検索結果を表示するユーザインタフェース画面の一例を示した図である。 本発明の一実施形態における、インテントブロック単位の検索結果を表示するユーザインタフェース画面の一例を示した図である。 本発明の一実施形態における、インテントブロック単位の検索結果を表示するユーザインタフェース画面の一例を示した図である。 本発明の一実施形態における、インテントブロック単位の検索結果を表示するユーザインタフェース画面の一例を示した図である。 本発明の一実施形態における、インテントブロック単位の検索結果を表示するユーザインタフェース画面の一例を示した図である。 本発明の一実施形態における、インテントブロック単位の検索結果を表示するユーザインタフェース画面の一例を示した図である。 本発明の一実施形態における、インテントブロック単位の検索結果を表示するユーザインタフェース画面の一例を示した図である。
以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。
本発明の実施形態は、個人化された検索結果を提供する技術に関する。
本明細書で具体的に開示する事項を含む実施形態は、検索インテント(intent)を細分化した新たな検索結果単位であるブロックを利用して、個人のインテントと趣向を考慮した検索結果を提供することができる。本発明の実施形態に係る個人化検索システムは、少なくとも1つのコンピュータ装置によって実現されてよく、本発明の実施形態に係る個人化検索方法は、個人化検索システムに含まれる少なくとも1つのコンピュータ装置によって実行されてよい。このとき、コンピュータ装置においては、本発明の一実施形態に係るコンピュータプログラムがインストールされて実行されてよく、コンピュータ装置は、実行されたコンピュータプログラムの制御にしたがって本発明の実施形態に係る個人化検索方法を実行してよい。上述したコンピュータプログラムは、コンピュータ装置と結合して個人化検索方法をコンピュータに実行させるためにコンピュータ読み取り可能な記録媒体に記録されてよい。
図1は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図1のネットワーク環境は、複数の電子機器110、120、130、140、複数のサーバ150、160、およびネットワーク170を含む例を示している。このような図1は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図1のように限定されることはない。また、図1のネットワーク環境は、本実施形態に適用可能な環境のうちの一例を説明したものに過ぎず、本実施形態に適用可能な環境が図1のネットワーク環境に限定されることはない。
複数の電子機器110、120、130、140は、コンピュータ装置によって実現される固定端末や移動端末であってよい。複数の電子機器110、120、130、140の例としては、スマートフォン、携帯電話、ナビゲーション、PC(personal computer)、ノート型PC、デジタル放送用端末、PDA(Personal Digital Assistant)、PMP(Portable Multimedia Player)、タブレットなどがある。一例として、図1では、電子機器110の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器110は、実質的に無線または有線通信方式を利用し、ネットワーク170を介して他の電子機器120、130、140および/またはサーバ150、160と通信することができる多様な物理的なコンピュータ装置のうちの1つを意味してよい。
通信方式が限定されることはなく、ネットワーク170が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網)を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク170は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク170は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター-バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。
サーバ150、160それぞれは、複数の電子機器110、120、130、140とネットワーク170を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する1つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ150は、ネットワーク170を介して接続した複数の電子機器110、120、130、140にサービス(一例として、検索サービス)を提供するシステムであってよい。
図2は、本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。上述した複数の電子機器110、120、130、140それぞれやサーバ150、160それぞれは、図2に示したコンピュータ装置200によって実現されてよい。
このようなコンピュータ装置200は、図2に示すように、メモリ210、プロセッサ220、通信インタフェース230、および入力/出力インタフェース240を含んでよい。メモリ210は、コンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ROMやディスクドライブのような永続的大容量記録装置は、メモリ210とは区分される別の永続的記録装置としてコンピュータ装置200に含まれてもよい。また、メモリ210には、オペレーティングシステムと、少なくとも1つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ210とは別のコンピュータ読み取り可能な記録媒体からメモリ210にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース230を通じてメモリ210にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク170を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置200のメモリ210にロードされてよい。
プロセッサ220は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ210または通信インタフェース230によって、プロセッサ220に提供されてよい。例えば、プロセッサ220は、メモリ210のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
通信インタフェース230は、ネットワーク170を介してコンピュータ装置200が他の装置(一例として、上述した記録装置)と互いに通信するための機能を提供してよい。一例として、コンピュータ装置200のプロセッサ220がメモリ210のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース230の制御にしたがってネットワーク170を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク170を経てコンピュータ装置200の通信インタフェース230を通じてコンピュータ装置200に受信されてよい。通信インタフェース230を通じて受信された信号や命令、データなどは、プロセッサ220やメモリ210に伝達されてよく、ファイルなどは、コンピュータ装置200がさらに含むことのできる記録媒体(上述した永続的記録装置)に記録されてよい。
入力/出力インタフェース240は、入力/出力装置250とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、またはマウスなどの装置を、出力装置は、ディスプレイ、スピーカのような装置を含んでよい。他の例として、入力/出力インタフェース240は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置250は、コンピュータ装置200と1つの装置で構成されてもよい。
また、他の実施形態において、コンピュータ装置200は、図2の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータ装置200は、上述した入力/出力装置250のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、データベースなどのような他の構成要素をさらに含んでもよい。
以下では、検索インテント単位のブロックを利用して検索結果を提供する方法とシステムの具体的な実施形態について説明する。
図3は、本発明の一実施形態における、個人化検索サービスのためのシステム構造の全体を示した図である。
図3は、インテント分類サーバ310、インテントブロックサーバ320、および検索サーバ330を示している。インテント分類サーバ310、インテントブロックサーバ320、および検索サーバ330は、図2を参照しながら説明したコンピュータ装置200によって実現されてよい。
一例として、インテント分類サーバ310、インテントブロックサーバ320、および検索サーバ330は個別のシステムで実現され、システム同士の連係によって個人化検索サービスを提供してよい。実施形態によっては、インテント分類サーバ310、インテントブロックサーバ320、および検索サーバ330は1つのシステムで実現されてもよい。例えば、インテント分類サーバ310、インテントブロックサーバ320、および検索サーバ330は、個人化検索サービスを提供するためにサーバ150においてインストールされて実行されるソフトウェアモジュールであってよい。
インテント分類サーバ310は、インターネット上の文書をユーザが消費するインテント単位に分類する役割を担う。インテント分類サーバ310は、当該文書を消費するユーザのインテントを文書分析によって識別してよい。
一例として、インテントは、トピックとジャンルを利用して識別してよい。本実施形態では、文書をインテント単位に分類するための基準として、文書のトピック(文書が具体的に何を説明しているか)とともに、ジャンル(文書がどのような性質の内容を含んでいるか、あるいは文書がどのような方式や類型で内容を伝達しているか)を活用してよい。言い換えれば、インテント分類サーバ310は、ユーザが消費している文書を対象に文書分析によってトピックとジャンルを抽出してよく、各文書をトピックとジャンルからなる2次元構造のインテント単位に構造化してよい。
また他の例として、インテントは、特定の条件(例えば、レビューが高い商品、30代の女性が多く購入した商品など)や、テーマ(例えば、子連れで行きやすいキャンプ場など)を利用して識別してよい。
以下では、本発明の一実施形態として、トピックとジャンルを利用した例について記述するが、これに限定されてはならず、多様なユーザインテントの反映が可能であることは言うまでもない。
また、インテントブロックを生成するにあたり、ユーザの意図の他にも、新たなランキングロジック(例えば、最新順など)、文書の出処あるいは形態(例えば、短い画像など)などが追加で考慮されてよい。このようなブロックは、検索サービスを消費するユーザの意図に応じて使用してよい。例えば、短い画像を消費しようとするユーザには、短い画像だけで構成されたインテントブロックを提供してよい。
インテントブロックサーバ320は、インターネット上の文書をユーザが消費するインテント単位でブロック化する役割を担う。例えば、インテントブロックサーバ320は、トピックとジャンルに基づく新たな検索結果単位である検索インテント単位のブロック(以下、「インテントブロック」をする)を生成してよい。このとき、インテントブロックサーバ320は、事前に選定されたキーワードそれぞれに対してキーワードに対応するインテントブロックを設定した後、インターネット上に存在する様々な出処の文書のうちからインテントブロックに該当する文書を予めマッチングしてよい。インテントブロックサーバ320は、キーワードごとに当該キーワードに対応するトピックとジャンルの組み合わせによってブロックを生成した後、当該ブロックで表示する文書をマッチングすることにより、リアルタイム検索に利用可能なデータとして構築してよい。
検索サーバ330は、予め生成されたインテントブロックを利用してリアルタイム検索を提供する役割を担う。検索サーバ330は、検索語に対する検索結果を、文書の出処や種類の単位ではなく、インテント単位でブロック化して提供してよい。検索サーバ330は、ユーザから検索語が入力される場合、検索語にマッチングするインテントブロックを選定した後、選定されたインテントブロックを組み合わせて検索結果を提供してよい。特に、検索サーバ330は、検索語にマッチングするインテントブロックの組み合わせにおいて、ユーザの性別、年齢、地域などが含まれたプロフィール情報と、ユーザの検索履歴、ショッピング履歴、コンテンツ消費履歴などが含まれた履歴情報を利用したランキングに基づいて個人化された検索結果を提供してよい。
図4は、本発明の一実施形態における、インテント分類方法の一例を示したフローチャートである。
本実施形態に係るインテント分類方法は、インテント分類サーバ310を実現するコンピュータ装置200によって実行されてよい。この場合、コンピュータ装置200のプロセッサ220はメモリ210が含むオペレーティングシステムのコードと、少なくとも1つのプログラムのコードとによる制御命令(instruction)を実行するように実現されてよい。ここで、プロセッサ220は、コンピュータ装置200に記録されたコードが提供する制御命令にしたがってコンピュータ装置200が図4のインテント分類方法に含まれる段階410~430を実行するようにコンピュータ装置200を制御してよい。
図4を参照すると、段階410で、プロセッサ220は、ユーザが消費している文書を対象に、文書分類によって文書インテントを分類する基準の1つであるトピックを抽出してよい。一例として、プロセッサ220は、文書分類体系に該当するカテゴリごとに、各カテゴリに属する文書を分析してトピックを選定してよい。例えば、プロセッサ220は、文書を検索するときに使用される検索語、文書で頻繁に登場するキーワード、文書に対してユーザが設定したカテゴリやタグなどを利用してトピックを選定してよい。このとき、プロセッサ220は、各カテゴリに属する文書を対象に、TF-IDF(TermFrequency-Inverse Document Frequency)または文書グループクラスタリングによって主要キーワードを選定することによってトピックを抽出してよい。トピックモデリングのためにBERT(Bidirectional Encoder Representations from Transformers)、LDA(Latent Dirichlet Allocation)などのディープラーニング基盤の分類器を活用してよい。他の例として、プロセッサ220は、文書基盤のネットワーク情報に基づいて文書グループを生成してトピックを抽出してよい。1つの文書は多様なメタデータを含むことがあることから、例えば、作成者情報、タグ、位置情報、カテゴリ情報などのメタデータを基準に文書を分類してよい。同じメタデータを含む文書は同じトピックの文書であるということを前提に、メタデータを基準に文書を分類してよい。文書分類において、メタデータと文書が同じベクトル空間に埋め込まれるように学習したディープラーニングモデルを活用してよく、埋め込みが類似する文書を集め、集めた文書のグループからトピックを選出してよい。このとき、ディープラーニングモデルの学習のためのデータセットのノイズをフィルタリングするためにラベルノイズ除去ロジックを適用してよい。例えば、ラベリング文書に対して互いに異なるデータを利用して複数の分類モデル(Logistic Regression、Random Forest、MLPなど)をそれぞれ学習した後、学習された分類モデルを利用して学習データセットをフィルタリングしてよい。
段階420で、プロセッサ220は、ユーザが消費している文書を対象に、文書分類によって文書インテントを分類する基準の他のうちの他の1つであるジャンルを抽出してよい。プロセッサ220は、形式によって文書を分類することによって文書のジャンルを選定してよく、文書ジャンルのうちでユーザ選好度が高い、すなわち、文書数が多い主要ジャンルを選定してよい。これは、トピックを基準にして分類された文書よりも細分化された基準、すなわち、ジャンルによって追加で分類するためである。プロセッサ220は、文書の多様なフィーチャを利用して文書形式を分類してよい。文書形式によって分類に使用するフィーチャを異なるように構成してよい。一例として、プロセッサ220は、文書のテキストフィーチャ(タイトルフィーチャ、本文フィーチャなど)と文書の属性情報を活用した属性フィーチャが含まれた分類器によって2つ以上の対象を比較する形式の文書を分類してよい。例えば、文書に登場する属性情報として、属性頻度値(例えば、属性値の数、登場した文章の数など)、属性DF(Document Frequency)やTF(Term Frequency)、属性カテゴリ(各属性がどのカテゴリに属するか)などを利用して比較文書形式を分類するためのフィーチャ(すなわち、属性フィーチャ)を生成してよい。他の例として、プロセッサ220は、文書のテキストフィーチャと文書の構造情報を利用したフィーチャが含まれた分類器によって少なくとも1つの対象を推薦する形式の文書を分類してよい。プロセッサ220は、文書の構造分析によって強調されるスタイルや並列的なコンテンツ羅列構造などを探索してよく、このような文書構造情報を利用して推薦文書形式を分類するためのフィーチャを生成してよい。また他の例として、プロセッサ220は、文書のテキストフィーチャ、属性フィーチャ、構造フィーチャ、イメージフィーチャ、または作成者関連フィーチャが含まれた分類器によって対象をガイドする(how to、know-how、tipなど)形式の文書を分類してよい。文書のテキストフィーチャを利用してガイド文書であるかどうかを分類してよく、テキストフィーチャの他にも、属性フィーチャ、構造フィーチャ、イメージフィーチャ、作成者関連フィーチャなどの多様なフィーチャを利用して質の高いガイド文書を分類してよい。さらに他の例として、プロセッサ220は、文書のテキストフィーチャと経験関連フィーチャが含まれた分類器によってレビュー形式の文書を分類してよい。文書に登場する経験表現(例えば、行って来た、訪問したなど)、主体表現(例えば、友達、家族、私など)、時間表現(例えば、1泊2日、3日目、1ヶ月など)、意見表現(例えば、いいね、推薦など)など経験と関連する特性を定義し、これを文書分類のためのフィーチャとして活用してよい。文書の経験関連フィーチャを利用してレビュー文書であるかどうかを分類してよく、レビュー文書の場合は、肯定的意見の文書と否定的意見の文書に分類してよい。
段階430で、プロセッサ220は、文書をトピックとジャンルの2次元構造で分類してよい。プロセッサ220は、文書をトピックとジャンルで構造化することによってインテント単位で分類してよい。図5に示すように、プロセッサ220は、文書をインテント単位で分類するための基準としてトピック501とジャンル502を定義してよい。ユーザが消費した文書を分析することによって文書インテントを区分するためのトピック501とジャンル502を抽出してよく、これによって文書をトピック501とジャンル502で分類してよい。例えば、「テントの張り方」に関する文書の場合、トピック501では「レジャー>キャンプ」文書に該当し、ジャンル502では「How-To」文書(ガイド文書形式)に該当してよい。
プロセッサ220は、トピック基盤の文書分類とジャンル基盤の文書分類のために、BERTモデル、LDAモデル、ロジスティック回帰モデル、ランダムフォレストモデル、MLP(multi-layer perceptron)モデルなどの多様なディープラーニングモデルを活用してよく、単一モデルはもちろん、2つ以上のモデルを組み合わせたアンサンブルモデルを活用してよい。一例として、互いに異なるモデルを結合した後に投票(voting)によって最終結果を取得してよく、2つ以上の分類器モデルを組み合わせるためにGNN(graph neural network)などを活用してよい。
図6は、本発明の一実施形態における、インテントブロック生成方法の一例を示したフローチャートである。
本実施形態に係るインテントブロック生成方法は、インテントブロックサーバ320を実現するコンピュータ装置200によって実行されてよい。この場合、コンピュータ装置200のプロセッサ220は、メモリ210が含むオペレーティングシステムのコードと、少なくとも1つのプログラムのコードとによる制御命令を実行するように実現されてよい。ここで、プロセッサ220は、コンピュータ装置200に記録されたコードが提供する制御命令にしたがってコンピュータ装置200が図6のインテントブロック生成方法に含まれる段階610~630を実行するようにコンピュータ装置200を制御してよい。
図6を参照すると、段階610で、プロセッサ220は、ブロック生成のためのキーワードを選定してよい。プロセッサ220は、インターネット上で検索語として使用されるキーワードのうちからブロック生成のためのキーワードプールを生成するが、一例として、検索語としての使用頻度を分析し、一定のレベル以上の使用頻度のあるキーワードを選定してよい。
段階620で、プロセッサ220は、段階610で選定された各キーワードに対し、トピックとジャンルを組み合わせてインテントブロックを生成するためのネーミング(naming)を実行してよい。先ず、図7を参照すると、プロセッサ220は、各キーワード710に対して少なくとも1つのトピック720をマッピングしてよい。トピック720には、継続して繰り返されるスタディートピック721と、ここ最近に頻繁に登場するトレンドトピック722が含まれてよい。プロセッサ220は、キーワード710とトピック720との関連性に基づいて各キーワード710に適するトピック720をマッピングしてよい。次に、図8を参照すると、プロセッサ220は、キーワード710ごとに、キーワード710にマッピングされたトピック720と各トピック720を細分化したジャンル830を組み合わせてブロック名候補840を生成してよい。ジャンル830には、文書に基づいて定義したジャンル831はもちろん、出処に基づいて定義したジャンル832が含まれてよい。このとき、プロセッサ220は、文書比重を利用してブロック名候補840に対するフィルタリングを実行してよい。図9を参照すると、プロセッサ220は、トピック720とジャンル830で分類された文書比重によってブロック名候補40の一部を除外してよい。例えば、トピックは「キャンプ場」に分類されてジャンルはレビュー文書形式である「レビュー」に分類される文書の個数が閾値未満の場合、トピック「キャンプ場」とジャンル「レビュー」の組み合わせによって生成された「キャンプ場レビュー」はインテントブロック生成対象から除外してよい。プロセッサ220は、文書比重を利用したブロック名フィルタリングによって最終ブロック名候補950を選定してよい。この後、プロセッサ220は、キーワード710と最終ブロック名候補950を互いに異なる順で組み合わせた後、言語モデルを利用して言語構造的により自然な名称を決定してよい。例えば、図10に示すように、キーワード「自転車」、トピック「漢江」、ジャンル「レビュー」が与えられた場合、キーワード、トピック、およびジャンルの組み合わせ順の変更が可能なネーミング候補<漢江自転車レビュー>、<レビュー漢江自転車>、<自転車レビュー漢江>などを生成した後、言語モデル1000を利用した予測確率によって最終ネーミング(例えば、クロスエントロピー損失が最も少ないネーミング<漢江自転車レビュー>)を選定してよい。プロセッサ220は、上述したネーミング過程を経て、キーワード710それぞれに少なくとも1つのインテントブロックを生成してよい。
インテントブロック生成過程におけるネーミングにおいて単語組み合わせ形態のネーミングについて説明したが、これに限定されてはならず、完成文章型などの多様な形態のネーミングが可能である。例えば、キーワード「自転車」、トピック「漢江」、ジャンル「推薦」が与えられた場合、<漢江自転車コースで一番人気のコースはどこですか?>、<漢江自転車ライドに最適な時期はいつですか?>などのような質問形式の文章でブロック名を生成してよい。質問形式の文章を利用したブロックネーミングにより、Q&A(質疑回答)性質のインテントブロックを生成することができる。
再び図6を参照すると、段階630で、プロセッサ220は、最終ネーミングが決定されたインテントブロックそれぞれに対し、当該ブロックで表示する文書を連結してよい。プロセッサ220は、各キーワードに対し、インテントブロックごとに当該ブロックに表示する文書をマッチングしてよい。一例として、プロセッサ220は、インテントブロックのネーミングを利用してインターネット上の多様な出処の文書を検索してよく、検索結果に含まれた少なくとも1つの文書を当該ブロックのキャッシュに保存してよい。プロセッサ220は、インテントブロックのトピックとジャンルに属する文書を中心に当該ブロックに引入してよい。
したがって、プロセッサ220は、インターネット上で使用される主要キーワードに対してトピックとジャンルの組み合わせによってブロックネーミングを決定した後、ネーミングが決定されたブロックに文書を予めマッチングすることによってインテントブロックを生成することができる。プロセッサ220は、リアルタイム検索に利用可能なようにインテントブロックの文書を多様な出処から予め生成しておいてよく、このとき、各キーワードのインテントブロック情報と各インテントブロックの文書情報をリアルタイム検索のためのキャッシュに周期的にアップデートしてよい。
一方、上述したトピックとジャンルの組み合わせによってブロックネーミングを決定する方法以外の方法によってインテントブロックを生成することも可能である。主要客体性キーワードに頻繁に現われる属性を組み合わせてブロックを生成してもよい。例えば、(自動車モデル名)+「試乗レポート」、(食品材料名)+「保管法」、(書籍名)+「感想文」のように、客体性キーワードと頻繁に現われる属性とを組み合わせる。特定の客体性キーワードと関連する文書に頻繁に現われる表現を総合して属性を抽出して生成してよい。また、ここ最近に作成された文書コーパスから核心語句を抽出(keyphrase extraction)し、同じ核心語句を共有する文書を束ねてブロックを生成してもよい。例えば、検索流入クエリおよびユーザタグを共有する文書の文章ベクトルをディープラーニングモデルで生成し、この平均が類似する文書に当該タグを組み合わせて付与する方法を利用してよい。このように、多様なインテントブロック生成方法は、必要によって組み合わせたり相互補完的に使用したりすることができる。
図11は、本発明の一実施形態における、検索結果提供方法の一例を示したフローチャートである。
本実施形態に係る検索結果提供方法は、検索サーバ330を実現するコンピュータ装置200によって実行されてよい。この場合、コンピュータ装置200のプロセッサ220は、メモリ210が含むオペレーティングシステムのコードと、少なくとも1つのプログラムのコードとによる制御命令を実行するように実現されてよい。ここで、プロセッサ220は、コンピュータ装置200に記録されたコードが提供する制御命令にしたがってコンピュータ装置200が図11の検索結果提供方法に含まれる段階1110~1130を実行するようにコンピュータ装置200を制御してよい。
図11を参照すると、段階1110で、プロセッサ220は、ユーザから検索語が入力されれば、事前に生成されたインテントブロックのうちから検索語に対応するインテントブロックを検索してよい。一例として、プロセッサ220は、伝統的なタームマッチング方式により、検索語とマッチングするキーワードが名称に含まれたインテントブロックを検索してよい。他の例として、プロセッサ220は、ディープマッチング検索モデルによって、検索語と意味的に類似するキーワード(同義語、略語、フルネームなど)を拡張してインテントブロックを検索してよい。プロセッサ220は、インテントブロックに属する文書を対象に、文書を検索するときに使用される検索語、文書で頻繁に登場するキーワード、文書に対してユーザが設定したカテゴリやタグなどを利用して当該ブロックと関連する拡張キーワードを収集してよい。図12を参照すると、ネーミング過程を経て生成されたインテントブロック1201それぞれに対し、当該ブロック1201に事前マッチングされた文書1202を利用して拡張キーワード1210を収集してよい。検索サーバ330は、検索語に対し、インテントブロックの名称はもちろん、各ブロックと関連する拡張キーワード1210を検索することによって検索語に対応するインテントブロックを検索してよい。拡張キーワード1210を利用したブロック検索のために、キーワードと文書に対するBERT基盤の稀少表現を学習するニューラルネットワークモデル(例えば、SPLADEなど)をディープマッチング検索モデルとして活用してよい。
再び図11を参照すると、段階1120で、プロセッサ220は、検索語に対応するインテントブロックのランキングを決定してよい。プロセッサ220は、個人化された検索結果を提供するために、ユーザのプロフィール情報と履歴情報に基づいてインテントブロックのランキングを決定してよい。個人化のために、ユーザの趣向(関心事や選好度など)を把握することが可能な情報を活用してよい。プロフィール情報は、ユーザの性別、年齢、地域などを含んでよく、履歴情報は、検索履歴、ショッピング履歴、コンテンツ消費履歴などを含んでよい。プロセッサ220は、ユーザ情報(プロフィール情報と履歴情報)に対する埋め込みベクトルであるユーザフィーチャと、検索語に対する埋め込みベクトルである検索語フィーチャ、さらにインテントブロックに対する埋め込みベクトルであるブロックフィーチャ(トピックフィーチャとジャンルフィーチャを含む)を利用したランキングモデルを利用して検索語に対応するインテントブロックの個人化ランキングを実行してよい。
段階1130で、プロセッサ220は、段階1120で決定されたランキングにしたがって検索語に対応するインテントブロックを整列してユーザに個人化された検索結果を表示してよい。プロセッサ220は、ユーザ趣向が反映されたランキングによって検索語に対応するインテントブロックを整列して検索結果を提供してよい。
プロセッサ220は、検索語に対応する検索結果を様々な類型のブロック単位に分類して提供してよい。プロセッサ220は、検索語に対する正解型検索結果が含まれる正解型ブロックを提供してよい。正解型ブロックは、検索語に対応する検索結果の1つであり、ロジックによって自動で決定される少なくとも1つの文書を含んでよい。プロセッサ220は、ユーザ趣向基盤のカスタマイズ型検索結果が含まれる探索型ブロックを提供してよい。探索型ブロックは、ユーザの検索インテントはもちろん、ユーザの趣向が反映された検索結果として、段階1110~1120のディープマッチングおよび個人化によって選定されたインテントブロックを含んでよい。
プロセッサ220は、正解型ブロックと探索型ブロックの他にも、ユーザ反応基盤の反応型ブロックを提供してもよい。反応型ブロックは、探索型ブロックと同様に、ユーザの検索インテントと趣向が反映された検索結果を提供してよく、ユーザが検索結果でクリックした文書と以前の検索履歴を参考した上で、最適な検索結果をリアルタイムで読み込んで表示してよい。正解型ブロックと探索型ブロックは、当該ブロックで表示する文書が事前にマッチングされた事前生成方式のブロックである反面、反応型ブロックは、当該ブロックで表示する文書がクリック文書に基づいてリアルタイムで決定されるリアルタイム生成方式のブロックである。例えば、ユーザがクリックするか長く反応した文書から選出されたユーザの興味や趣向などを把握し、関連する反応型ブロックをリアルタイムで生成して提供してよい。このとき、プロセッサ220は、当該ブロックと関連する文書を動的に集めて提供するか、既に生成されていたブロックのうちからユーザの反応に適したブロックを選んで提供してよい。
正解型ブロックは、ロジックによって自動で決定され、すべてのユーザに共通に提供される検索結果であり、探索型ブロックと反応型ブロックは、ユーザごとに異なる検索結果を提供する個人化ブロックに該当してよい。正解型ブロックは、1つのインテントブロックで構成されてよく、探索型ブロックと反応型ブロックは、多様なトピックやジャンルの検索結果を提供するために2つ以上のインテントブロックで構成されてよい。正解型ブロックと探索型ブロックおよび反応型ブロックの他にも、検索結果単位であるブロックを分類するために多様な基準を活用して拡張された検索結果を提供してもよい。例えば、ユーザの検索語と直接/間接的に関連する他の検索語(例えば、他のユーザの検索履歴で検索語の以前または以後に連続的に利用される検索語など)の文書、またはユーザとプロフィールが類似する他のユーザによる検索頻度が高い新たな検索語の文書などが含まれた発見型ブロックを追加で利用して検索結果を拡張してよい。
プロセッサ220は、検索語の類型によって、正解型ブロックと探索型ブロックおよび反応型ブロックの整列順を決定してよい。正解インテントが強い検索語の場合は正解型ブロックを上位に配列してよく、探索インテントが強い検索語の場合は、多様なトピックやジャンルの結果を提供するために探索型ブロックを上位に配列してよい。プロセッサ220は、ユーザ選好度が反映された探索型ブロックとともに、ユーザの文書クリックにリアルタイムで反応する反応型ブロックによって拡張された検索結果を提供してよい。また、プロセッサ220は、検索語やユーザ選好度などによって、正解型ブロックと探索型ブロックおよび反応型ブロックのうちの少なくとも1つを表示対象から除外してよい。例えば、探索インテントが強い検索語の場合は、正解型ブロックは省略し、探索型ブロックと反応型ブロックだけで検索結果を提供してよい。
したがって、プロセッサ220は、検索語に対応するインテントブロックを、正解型ブロック、探索型ブロック、反応型ブロックなどの特性に適合するように分類して組み合わせることにより、ユーザの検索インテントに最適化した検索結果を提供することができる。
図13~19は、本発明の一実施形態における、インテントブロック単位の検索結果を表示するユーザインタフェース画面の一例を示した図である。
図13を参照すると、プロセッサ220は、検索語に対応する検索結果1300を、正解型ブロック1310、探索型ブロック1320、および反応型ブロック1330に分類して提供してよい。
検索結果1300は、検索語を利用したブロック検索によって選定されたインテントブロックで構成されてよい。
正解型ブロック1310は、正解型文書がマッチングされたインテントブロックで構成されてよい。例えば、正解型ブロック1310は、1つのインテントブロックで構成されてよく、文書ランキングに基づいて最上位文書が表示されてよい。
探索型ブロック1320は、ユーザのプロフィール情報と履歴情報を利用した個人化ランキングによって選定されたインテントブロックで構成されてよい。探索型ブロック1320は、ユーザが入力した検索語に対し、検索語に対応するインテントブロックのうちから個人化ランキングによって選定されたインテントブロックで構成されてよい。例えば、プロセッサ220は、上位10個のインテントブロックを探索型ブロック1320として分類して表示してよい。
反応型ブロック1330は、探索型ブロック1320における文書クリックによってリアルタイムで文書がマッチングされるインテントブロックで構成されてよい。プロセッサ220は、ユーザが関心をあると思われる新たな結果を、グラフニューラルネットワークモデル(例えば、GCNモデルなど)を利用して推薦してよい。このために、検索語と文書の関係をグラフで構築した後、グラフ上のノードをグラフニューラルネットワークによって埋め込み、ユーザがクリックした文書と類似する文書を反応型ブロック1330として推薦してよい。反応型ブロック1330は、1つのインテントブロックで構成されてよく、探索型ブロック1320でユーザがクリックした文書と類似する少なくとも1つの文書が表示されてよい。
または、反応型ブロック1330は、ユーザの文書クリックに基づいてユーザのインテントを追加で把握し、既に生成されている探索型ブロックのうちでこれと関連するブロックによって構成されてよい。例えば、ユーザが「済州島旅行」クエリを検索し、クリックした文書が「済州島オシャレ宿」と関連する内容であるとき、「済州島オシャレ宿」と関連する探索型ブロックが予め生成されていれば、当該ブロックを反応型ブロック1330として提供してよい。
図14を参照すると、プロセッサ220は、検索語によって、正解型ブロック1310、探索型ブロック1320、および反応型ブロック1330のうちの少なくとも1つを選択的に組み合わせて検索結果を表示してよい。例えば、検索語iの場合は、検索語iに対応する検索結果を正解型ブロック1310と探索型ブロック1320および反応型ブロック1330に分類して表示する反面、検索語iiの場合は、正解型ブロック1310は省略し、検索語iiに対応する検索結果を探索型ブロック1320と反応型ブロック1330に分類して表示してよい。
プロセッサ220は、検索語によって、正解型ブロック1310と探索型ブロック1320および反応型ブロック1330の整列順を調整することも可能である。
特に、プロセッサ220は、個人化された検索結果として探索型ブロック1320を表示してよい。プロセッサ220は、検索語に対応するインテントブロックのうちからユーザのプロフィール情報と履歴情報を利用したランキングによって複数のインテントブロックを選定してよく、このとき、選定されたインテントブロックを探索型ブロック1320で分類して表示してよい。例えば、図15に示すように、同じ検索語に対し、ユーザIの個人化による探索型ブロック1320はインテントブロックBlock_A、N、X、Fで構成されてよく、ユーザIIの個人化による探索型ブロック1320はインテントブロックBlock_E、Q、B、Aで構成されてよい。
プロセッサ220は、探索型ブロック1320を構成する各インテントブロックで、当該ブロックに事前マッチングされた文書を表示してよい。インテントブロックにマッチングされた文書の類型や出処などによって当該ブロックで表示する文書の個数や表示方式(テキストリスト型、イメージ型など)、インタフェース方式(上下スクロール、左右スワイプなど)などが決定されてよい。図16に示すように、探索型ブロック1320を構成するインテントブロック1620それぞれは、当該ブロックに表示される文書1621の個数、表示方式、インタフェース方式などが異なるように構成されてよい。また、インテントブロックの表示方法も、ユーザの反応や選好度を考慮した上で個人ごとに異なるように構成されてよい。例えば、上下にスクロールするテキストリスト型よりも左右にスワイプするイメージ型構成により多くの反応を示したか好むように判断されたユーザには、当該方式に高い加重値を与えてインテントブロックを構成して表示してよい。
探索型ブロック1320の個人化はもちろん、探索型ブロック1320を構成するインテントブロックそれぞれを個人化してよい。インテントブロックに事前にマッチングされた文書を対象にユーザのプロフィール情報と履歴情報を利用したランキングを適用して、インテントブロックそれぞれを個人化することも可能である。
プロセッサ220は、個人化された検索結果として、探索型ブロック1320とともに、ユーザ反応基盤のリアルタイム検索結果が含まれる反応型ブロック1330を表示してよい。一例として、図17を参照すると、プロセッサ220は、探索型ブロック1320で表示される文書のうちからユーザが特定の文書1701をクリックする場合、クリック文書1701と類似する文書1700を反応型ブロック1330で表示してよい。ユーザが入力した検索語には含まれていないインテントをユーザがクリックする文書1701から予測することができ、クリック文書1701から予測されたインテントの文書1700を反応型ブロック1330によってリアルタイムで推薦してよい。言い換えれば、反応型ブロック1330上の文書1700は、検索語とクリック文書をランキングフィーチャに利用するグラフニューラルネットワーク基盤の推薦モデルによって決定されてよい。
プロセッサ220は、検索語によって、正解型ブロック1310、探索型ブロック1320、および反応型ブロック1330のうちの少なくとも1つを選択的に組み合わせて検索結果を表示してよい。
例えば、図18を参照すると、プロセッサ220は、「YouTube」のような正解性クエリが入力される場合、クエリ「YouTube」に対する正解型文書が含まれた正解型ブロック1810を上端に表示してよい。プロセッサ220は、正解型ブロック1810の次に、クエリ「YouTube」に対するユーザ趣向基盤のカスタマイズ型検索結果が含まれる探索型ブロック1820を表示してよい。このとき、プロセッサ220は、事前に生成されたインテントブロックうちからインテントブロックの名称と各ブロックと関連する拡張キーワードを検索してクエリ「YouTube」に対応するインテントブロックを検索してよい。また、プロセッサ220は、クエリ「YouTube」に対応するインテントブロックのうちからユーザのプロフィール情報と履歴情報を利用したランキングによって一部のインテントブロックを選定して探索型ブロック1820を個人化してよい。探索型ブロック1820を構成するインテントブロックそれぞれに対して当該ブロックにマッチングされた文書の一部を表示し、ユーザからさらなる表示要請がある場合、文書の一部を追加で表示するか、文書の全体を表示してよい。また、プロセッサ220は、クエリ「YouTube」と関連する検索タイトルを推薦してよいが、このとき、クエリ「YouTube」に対応するインテントブロックの名称を利用してタイトル推薦リスト1801を構成してよい。実施形態によっては、個人化ランキングによって選定されたインテントブロックだけでタイトル推薦リスト1801を構成してもよい。ユーザがタイトル推薦リスト1801から特定のタイトルを選択する場合、画面のビュー領域を選択タイトルのインテントブロックに移動し、当該ブロックにマッチングされた文書を表示してよい。ユーザが推薦タイトルのうちから「人気チャンネル」を選択する場合、検索結果画面がインテントブロック「人気チャンネル」の位置に自動でスクロールされてよい。
図19を参照すると、プロセッサ220は、「済州島旅行」のような探索型クエリが入力される場合、正解型ブロックは省略し、クエリ「済州島旅行」に対するユーザ趣向基盤のカスタマイズ型検索結果が含まれる探索型ブロック1920を表示してよい。このとき、プロセッサ220は、事前に生成されたインテントブロックのうちからインテントブロックの名称と各ブロックと関連する拡張キーワードを検索してクエリ「済州島旅行」に対応するインテントブロックを検索してよい。また、プロセッサ220は、クエリ「済州島旅行」に対応するインテントブロックのうちからユーザのプロフィール情報と履歴情報を利用したランキングによって一部のインテントブロックを選定して探索型ブロック1920を個人化してよい。探索型ブロック1920を構成するインテントブロックそれぞれに対して当該ブロックにマッチングされた文書の一部を表示し、ユーザからさらなる表示要請がある場合、文書の一部を追加で表示するか、文書の全体を表示してよい。また、プロセッサ220は、クエリ「済州島旅行」と関連する検索タイトルを推薦してよいが、このとき、クエリ「済州島旅行」に対応するインテントブロックの名称を利用してタイトル推薦リスト1901を構成してよい。実施形態によっては、個人化ランキングによって選定されたインテントブロックだけでタイトル推薦リスト1901を構成してもよい。ユーザがタイトル推薦リスト1901から特定のタイトルを選択する場合、選択タイトルのインテントブロックにアクセスして当該ブロックにマッチングされた文書を提供してよい。ユーザが推薦タイトルのうちから「済州島観光地」を選択する場合、検索結果画面がインテントブロック「済州島観光地」の位置に自動でスクロールされてよい。
プロセッサ220は、個人化された検索結果として、クエリ「済州島旅行」に対するユーザ趣向基盤のカスタマイズ型検索結果が含まれる探索型ブロック1920とともに、ユーザ反応基盤のリアルタイム検索結果が含まれる反応型ブロック(図示せず)を表示してよい。プロセッサ220は、クエリ「済州島旅行」に対する探索型ブロック1920で表示される文書のうちからユーザが特定の文書をクリックする場合、クリック文書と類似する文書を反応型ブロックとして表示してよい。したがって、プロセッサ220は、探索型ブロック1920でのクリック文書に基づいてリアルタイム検索された文書を追加で表示することにより、拡張された検索結果を提供することができる。
一方、このように、ユーザの意図に合ったインテントブロックを生成してブロック単位で検索結果を提供することにより、コンテンツ創作者にどのようなコンテンツを生成すればよいかを知らせることができ、コンテンツ創作を誘導することができるという効果がある。図20を参照すると、本発明の一実施形態では、各インテントブロック2000と関連する位置に当該インテントブロック2000と関連するコンテンツ(文書)を生成するための参加ボタン2001が追加で提供されてよい。このとき、検索対象コンテンツの品質を高めるために、インテントブロック2000に対する参加ボタン2001は、予め検証済みであるか当該インテントブロックと関連するコンテンツを多く生産したユーザだけに表示されるようにしてよい。このように作成されたコンテンツは、当該インテントブロック2000の文書プールに直ぐに反映されてよい。必要によっては、一般のコンテンツとともにランキングして表示したり、参加として生成されたコンテンツだけを個別に分離して表示したりしてよい。
このように、本発明の実施形態によると、検索インテントを細分化した新たな検索結果単位であるブロックを利用して、個人のインテントと趣向を考慮した検索結果を提供することができる。本発明の実施形態によると、文書分類によってトピックとジャンルを抽出することができ、コンテンツの種類や出処などではなく、トピックとジャンルの組み合わせによって検索インテント単位のブロックを生成することができる。本発明の実施形態によると、キーワードごとに当該キーワードと対応するトピックとジャンルの組み合わせによってブロックを生成した後、当該ブロックで表示する文書をマッチングして、リアルタイム検索に利用可能なデータとして構築することができる。本発明の実施形態によると、検索語によるユーザの検索インテントとともに、当該ユーザのコンテキストによる個人趣向を考慮することで、個人化されたブロックで検索結果を提供することができる。本発明の実施形態によると、検索インテントによって、正解型検索結果が含まれる正解型ブロック、ユーザ趣向基盤のカスタマイズ型検索結果が含まれる探索型ブロック、ユーザ反応基盤のリアルタイム検索結果が含まれる反応型ブロックを自由自在に組み合わせ、最適化した検索結果を提供することができる。
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者であれば、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
310:インテント分類サーバ
320:インテントブロックサーバ
330:検索サーバ

Claims (12)

  1. コンピュータ装置で実行されるインテントブロック生成方法であって、
    前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
    前記インテントブロック生成方法は、
    前記少なくとも1つのプロセッサにより、インターネット上の文書を対象に文書分析によってトピック(topic)とジャンル(genre)を抽出する段階、および
    前記少なくとも1つのプロセッサにより、前記トピックと前記ジャンルを組み合わせてインテント単位で検索結果を表示するためのブロックを生成する段階
    を含む、インテントブロック生成方法。
  2. 前記抽出する段階は、
    前記文書に対するトピックモデリングによってインテント分類のための前記トピックを抽出する段階、および
    前記文書を文書形式によって分類することにより、前記トピックを細分化するための前記ジャンルを抽出する段階
    を含む、請求項1に記載のインテントブロック生成方法。
  3. 前記抽出する段階は、
    前記文書のメタデータに基づいて、前記メタデータによる文書グループを利用して前記トピックを抽出する段階
    を含む、請求項に記載のインテントブロック生成方法。
  4. 前記トピックを細分化するための前記ジャンルを抽出する段階は、
    文書に含まれたテキストに対するフィーチャ、文書に含まれた属性情報に対するフィーチャ、文書の構造情報に対するフィーチャ、文書に含まれたイメージに対するフィーチャ、文書に含まれた特定の表現に対するフィーチャのうちの少なくとも1つを含む分類器によって前記文書形式を分類する段階
    を含む、請求項2に記載のインテントブロック生成方法。
  5. 前記生成する段階は、
    ブロック生成のためのキーワードを選定する段階、
    前記キーワードそれぞれに対して前記トピックと前記ジャンルを組み合わせて前記ブロックのネーミングを決定する段階、および
    前記ブロックそれぞれに対して当該ブロックで検索結果として表示する文書をマッチングする段階
    を含む、請求項1に記載のインテントブロック生成方法。
  6. 前記決定する段階は、
    前記キーワードと前記トピックとの関連性に基づいて前記キーワードに少なくとも1つのトピックをマッピングする段階、および
    前記キーワードにマッピングされたトピックと当該トピックを細分化したジャンルを組み合わせて前記キーワードに対するブロック名を生成する段階
    を含む、請求項5に記載のインテントブロック生成方法。
  7. 前記決定する段階は、
    前記トピックと前記ジャンルを組み合わせてブロック名候補を生成する段階、および
    前記トピックと前記ジャンルに分類された文書比重によって前記ブロック名候補の一部をフィルタリングする段階
    を含む、請求項5に記載のインテントブロック生成方法。
  8. 前記決定する段階は、
    前記キーワードと前記トピックと前記ジャンルを互いに異なる順に組み合わせたブロック名候補を生成する段階、および
    前記ブロック名候補に対し、言語モデルを利用した予測確率に基づいて最終名を選定する段階
    を含む、請求項5に記載のインテントブロック生成方法。
  9. 前記マッチングする段階は、
    前記ブロックのネーミングを利用した文書検索によって、当該ブロックのトピックとジャンルに属する少なくとも1つの文書を前記ブロックのキャッシュに保存する段階
    を含む、請求項5に記載のインテントブロック生成方法。
  10. 前記生成する段階は、
    各キーワードのブロック情報と各ブロックの文書情報をリアルタイム検索のためのキャッシュに周期的にアップデートする段階
    を含む、請求項5に記載のインテントブロック生成方法。
  11. 請求項1~10のうちのいずれか一項に記載のインテントブロック生成方法をコンピュータに実行させるためのコンピュータプログラム。
  12. コンピュータ装置であって、
    少なくとも1つのプロセッサと、
    請求項11に記載のコンピュータプログラムを記憶するメモリとを有し、
    前記少なくとも1つのプロセッサは、前記コンピュータプログラムを実行することにより、請求項1~10のうちのいずれか一項に記載のインテントブロック生成方法の各ステップを実行する、
    コンピュータ装置。
JP2022100151A 2022-05-02 2022-06-22 検索インテント単位のブロックを生成する方法、コンピュータ装置、およびコンピュータプログラム Active JP7438272B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2022-0054473 2022-05-02
KR1020220054473A KR20230154711A (ko) 2022-05-02 2022-05-02 검색 인텐트 단위의 블록을 생성하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램

Publications (2)

Publication Number Publication Date
JP2023165384A JP2023165384A (ja) 2023-11-15
JP7438272B2 true JP7438272B2 (ja) 2024-02-26

Family

ID=88742867

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022100151A Active JP7438272B2 (ja) 2022-05-02 2022-06-22 検索インテント単位のブロックを生成する方法、コンピュータ装置、およびコンピュータプログラム

Country Status (2)

Country Link
JP (1) JP7438272B2 (ja)
KR (1) KR20230154711A (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130282702A1 (en) 2012-04-18 2013-10-24 Yahoo! Inc. Method and system for search assistance
JP2014517364A (ja) 2012-02-09 2014-07-17 楽天株式会社 サーフショッピングのための関連抽出のシステム及び方法
JP2014215633A (ja) 2013-04-22 2014-11-17 日本電信電話株式会社 インテント分類装置、方法及びプログラム、サービス選択支援装置、方法及びプログラム
JP2020064498A (ja) 2018-10-18 2020-04-23 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP2020513128A (ja) 2017-04-06 2020-04-30 ネイバー コーポレーションNAVER Corporation トピック構造化方法、検索結果提供方法、コンピュータプログラムおよびトピック構造化システム
CN113486252A (zh) 2021-07-30 2021-10-08 北京字节跳动网络技术有限公司 搜索结果展示方法、装置、设备和介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014517364A (ja) 2012-02-09 2014-07-17 楽天株式会社 サーフショッピングのための関連抽出のシステム及び方法
US20130282702A1 (en) 2012-04-18 2013-10-24 Yahoo! Inc. Method and system for search assistance
JP2014215633A (ja) 2013-04-22 2014-11-17 日本電信電話株式会社 インテント分類装置、方法及びプログラム、サービス選択支援装置、方法及びプログラム
JP2020513128A (ja) 2017-04-06 2020-04-30 ネイバー コーポレーションNAVER Corporation トピック構造化方法、検索結果提供方法、コンピュータプログラムおよびトピック構造化システム
JP2020064498A (ja) 2018-10-18 2020-04-23 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
CN113486252A (zh) 2021-07-30 2021-10-08 北京字节跳动网络技术有限公司 搜索结果展示方法、装置、设备和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
大塚 淳史,情報要求の言語化支援のためのコンテキスト提示型クエリ拡張法の提案と評価,マルチメディア,分散,協調とモバイル(DICOMO2011)シンポジウム論文集 情報処理学会シンポジウムシリーズ Vol.2011 No.1 [CD-ROM],一般社団法人情報処理学会,2011年06月29日,第2011巻, 第1号,pp.22~29

Also Published As

Publication number Publication date
JP2023165384A (ja) 2023-11-15
KR20230154711A (ko) 2023-11-09

Similar Documents

Publication Publication Date Title
US11720572B2 (en) Method and system for content recommendation
US11341144B2 (en) Methods of and systems for searching by incorporating user-entered information
US10217058B2 (en) Predicting interesting things and concepts in content
US7912849B2 (en) Method for determining contextual summary information across documents
WO2018072071A1 (zh) 知识图谱构建系统及方法
US20130060769A1 (en) System and method for identifying social media interactions
US20180181662A1 (en) Selecting User Posts Related to Trending Topics on Online Social Networks
JP7252914B2 (ja) 検索提案を提供する方法、装置、機器及び媒体
KR20130016339A (ko) 무한 브라우즈
Khatter et al. An intelligent personalized web blog searching technique using fuzzy-based feedback recurrent neural network
KR100902674B1 (ko) 문서 탐색 서비스 제공 방법 및 시스템
RU2683482C2 (ru) Метод отображения релевантной контекстно-зависимой информации
KR101074820B1 (ko) 인터넷을 활용한 추천 검색 시스템 및 그 방법
Galitsky et al. A content management system for chatbots
Yu et al. Web service recommendation for mashup creation based on graph network
CN111259136A (zh) 一种基于用户偏好自动生成主题评价摘要的方法
JP7438272B2 (ja) 検索インテント単位のブロックを生成する方法、コンピュータ装置、およびコンピュータプログラム
KR20230154710A (ko) 검색 인텐트 단위의 블록을 이용하여 검색 결과를 제공하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
KR20230154712A (ko) 인텐트 블록 단위의 검색 결과를 표시하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
Schneider New approaches to interactive multimedia content retrieval from different sources
Vagliano et al. Training researchers with the moving platform
Zhang et al. A deep recommendation framework for completely new users in mashup creation
KR102451020B1 (ko) 웹 크롤링 기능을 이용한 기업용 지능형 콘텐츠 큐레이션 방법
CN112860940B (zh) 基于描述逻辑知识库上有序概念空间的音乐资源检索方法
Santos et al. StoryTracker: A Semantic-Oriented Tool for Automatic Tracking Events by Web Documents

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220622

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20220711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231031

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240213

R150 Certificate of patent or registration of utility model

Ref document number: 7438272

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150