JP2020513128A

JP2020513128A - トピック構造化方法、検索結果提供方法、コンピュータプログラムおよびトピック構造化システム

Info

Publication number: JP2020513128A
Application number: JP2019554996A
Authority: JP
Inventors: ミン，ヘジン; キム，ジンホン; パク，チャンフン; キム，クァンヒョン
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2017-04-06
Filing date: 2018-03-09
Publication date: 2020-04-30
Anticipated expiration: 2038-03-09
Also published as: KR101958729B1; KR20180113438A; JP6808851B2

Abstract

クエリに適したサブトピックを自動で抽出して構造化する技術を提供する。トピック構造化方法は、主題別に前記主題と関連するサブトピックを抽出する段階、前記サブトピックに対して前記主題の階層情報を利用してトピックツリーを生成する段階、および検索のためのクエリが与えられると、前記クエリが属する主題のトピックツリーに基づき、前記クエリに対する関連検索語として前記サブトピックを階層形で提供する段階を含む。

Description

以下の説明は、クエリに適したサブトピックを自動抽出して構造化する技術に関する。

検索システムは、ユーザが入力したクエリに対して検索結果を提供するときに、検索条件にマッチングされた文書の他に、ユーザの追加探索をサポートする多様な機能も提供する。ユーザの追加探索をサポートする代表的なものとしては、関連検索語、関連タグ、検索語自動完成などがある。これらは、単語がペアとしてともに示される程度である共起（Ｃｏ−ｏｃｃｕｒｒｅｎｃｅ）を基盤とし、クエリとして頻繁に登場する検索語やタグを把握することを基本としている。

例えば、韓国公開特許第１０−２０１２−００９６８０６号公報（公開日２０１２年０８月３１日）には、ユーザ端末の位置情報に基づいて推薦検索語を選定してユーザに提供する検索語推薦システムおよび検索語推薦方法が開示されている。

一方、ショッピング検索システムでは、ショッピングの意図があるクエリの場合、製品のブランド、カラー、値段などのような階層情報を活用して商品の探索をサポートする機能が提供される場合もある。

韓国公開特許第１０−２０１２−００９６８０６号公報

主題が明らかなクエリのトピックを提供し、効率的な情報探索のためのトピックの構造化が必要である。

特定の主題が与えられたときに、該当の主題に適したサブトピックだけを抽出して特定の主題に対して自動で構築された階層情報を活用することにより、ユーザが所望する程度（細分化）に応じて適切に構造化して提示する方法を提供する。

コンピュータが実現するトピック構造化方法であって、主題別に前記主題と関連するサブトピックを抽出する段階、前記サブトピックに対して前記主題の階層情報を利用してトピックツリーを生成する段階、および検索のためのクエリが与えられると、前記クエリが属する主題のトピックツリーに基づき、前記クエリに対する関連検索語として前記サブトピックを階層形で提供する段階を含む、トピック構造化方法を提供する。

一側面によると、前記抽出する段階は、前記主題を決定する核心オブジェクトと関連する単語を分析して前記サブトピックを抽出してよい。

他の側面によると、前記サブトピックを文書出現頻度と検索頻度のうちの少なくとも１つによってフィルタリングする段階をさらに含んでよい。

また他の側面によると、前記サブトピックを類義語またはサブストリング（部分文字列）関係によってクラスタリングして各クラスタの代表を選定する段階をさらに含んでよい。

また他の側面によると、前記生成する段階は、前記サブトピックを前記階層情報の各クラス名にラベリング（ｌａｂｅｌｉｎｇ）して前記トピックツリーを生成してよい。

また他の側面によると、前記生成する段階は、前記サブトピックに対して単語埋め込み（ＷｏｒｄＥｍｂｅｄｄｉｎｇ）データから類似単語を抽出する段階、前記類似単語を類義語またはサブストリング（部分文字列）関係によってクラスタリングする段階、および前記クラスタリングされた単語を言語分類学上の各クラスにマッピングすることによってラベリングする段階を含んでよい。

また他の側面によると、前記トピックツリーの幅（ｂｒｅａｄｔｈ）と深さ（ｄｅｐｔｈ）のうちの少なくとも１つを減らして前記トピックツリーに対するリバランシング（ｒｅｂａｌａｎｃｉｎｇ）を実行する段階をさらに含んでよい。

さらに他の側面によると、前記提供する段階は、前記クエリと前記サブトピックの関連性を示す主題点数、前記サブトピックに対応する文書数、および前記クエリに対する正解性トピックの有無のうちの少なくとも１つの条件によって前記サブトピックをフィルタリングする段階を含んでよい。

コンピュータが実現する検索結果提供方法であって、検索のためのクエリが与えられると、前記クエリに対応する検索結果を提供する段階、前記クエリが属する主題の階層情報に基づき、前記クエリに対する関連検索語として前記主題と関連するサブトピックを複数の深さ（ｄｅｐｔｈ）を有する階層形で提供する段階、および前記サブトピックのうちの少なくとも１つの検索語が選択される場合、前記選択された検索語を含んだ前記クエリに対応する検索結果を提供する段階を含む、検索結果提供方法を提供する。

コンピュータシステムと結合してトピック構造化方法を実行させるためにコンピュータ読み取り可能な記録媒体に記録されたコンピュータプログラムであって、前記トピック構造化方法は、主題別に前記主題と関連するサブトピックを抽出する段階、前記サブトピックに対して前記主題の階層情報を利用してトピックツリーを生成する段階、および検索のためのクエリが与えられると、前記クエリが属する主題のトピックツリーに基づき、前記クエリに対する関連検索語として前記サブトピックを階層形で提供する段階を含む、コンピュータプログラムを提供する。

コンピュータが実現するトピック構造化システムであって、コンピュータ読み取り可能な命令を実行するように実現される少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、主題別に前記主題と関連するサブトピックを抽出する抽出部、前記サブトピックに対して前記主題の階層情報に基づいてトピックツリーを生成する生成部、および検索のためのクエリが与えられると、前記クエリが属する主題のトピックツリーに基づき、前記クエリに対する関連検索語として前記サブトピックを階層形で提供する提供部を備える、トピック構造化システムを提供する。

本発明の実施形態によると、特定の主題が与えられたときに、該当の主題に適したサブトピックだけを抽出して特定の主題に適した階層情報を自動で構築した後、ユーザが所望する程度（細分化）に応じて適切に構造化して提示することにより、主題に適しながらも該当のクエリと関連する詳細な属性／小主題をユーザが効率的に把握することができ、実質的な追加探索をサポートすることに寄与することができる。

本発明の一実施形態における、ネットワーク環境の例を示した図である。本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。本発明の一実施形態における、パターン化されたクエリを階層化する過程の例を示した図である。本発明の一実施形態における、サーバのプロセッサが含むことのできる構成要素の例を示した図である。本発明の一実施形態における、サーバが実行することのできる方法の例を示したフローチャートである。本発明の一実施形態における、「グアム」および「じゃがいも」というクエリに対し、サブトピック候補をフィルタリングおよびグルーピングする過程の一例を示した図である。本発明の一実施形態における、階層情報を構築する過程の一例を説明するためのフローチャートである。旅行の主題に対し、クラスタリングおよび言語分類学を利用して構築した階層情報の一例を示した図である。本発明の一実施形態における、構築されたトピックネットワークを深さが２であるツリー（２−デプスツリー）に変換する過程の例を示した図である。本発明の一実施形態における、ツリーリバランシング過程の一例を説明するためのフローチャートである。本発明の一実施形態における、ツリーリバランシング過程の例を示した図である。本発明の一実施形態における、ツリーリバランシング過程の例を示した図である。本発明の一実施形態における、２−デプストピック構造が反映された検索結果画面の例を示した図である。本発明の一実施形態における、２−デプストピック構造が反映された検索結果画面の例を示した図である。

以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。

本発明の実施形態は、クエリに適したサブトピックを自動抽出して構造化する技術に関する。

本明細書で具体的に開示される事項などを含む実施形態は、主題が明らかなクエリのトピックを提供し、効率的な情報探索のためのトピックを構造化することができ、これによって正確性、効率性、拡張性、費用節減などの側面において相当な長所を達成する。

図１は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図１のネットワーク環境は、複数の電子機器１１０、１２０、１３０、１４０、複数のサーバ１５０、１６０、およびネットワーク１７０を含む例を示している。このような図１は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図１のように限定されることはない。

複数の電子機器１１０、１２０、１３０、１４０は、コンピュータ装置によって実現される固定端末や移動端末であってよい。複数の電子機器１１０、１２０、１３０、１４０の例としては、スマートフォン、携帯電話、タブレット、ナビゲーション、ＰＣ（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ）、ノート型パンコン、デジタル放送用端末、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ＰＭＰ（ＰｏｒｔａｂｌｅＭｕｌｔｉｍｅｄｉａＰｌａｙｅｒ）などがある。一例として、第１電子機器１１０は、無線または有線通信方式を利用し、ネットワーク１７０を介して他の電子機器１２０、１３０、１４０および／またはサーバ１５０、１６０と通信してよい。

通信方式が限定されることはなく、ネットワーク１７０が含むことのできる通信網（一例として、移動通信網、有線インターネット、無線インターネット、放送網）を活用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク１７０は、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークのうちの１つ以上の任意のネットワークを含んでよい。さらに、ネットワーク１７０は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター−バスネットワーク、ツリーまたは階層的（ｈｉｅｒａｒｃｈｉｃａｌ）ネットワークなどを含むネットワークトポロジのうちの任意の１つ以上を含んでもよいが、これらに限定されることはない。

サーバ１５０、１６０それぞれは、電子機器１１０、１２０、１３０、１４０とネットワーク１７０を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する１つ以上のコンピュータ装置によって実現されてよい。

一例として、サーバ１６０は、ネットワーク１７０を介して接続した第１電子機器１１０にアプリケーションのインストールのためのファイルを提供してよい。この場合、第１電子機器１１０は、サーバ１６０から提供されたファイルを利用してアプリケーションをインストールしてよい。また、第１電子機器１１０が含むオペレーティングシステム（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ：ＯＳ）および少なくとも１つのプログラム（一例として、ブラウザや前記インストールされたアプリケーション）の制御にしたがってサーバ１５０に接続し、サーバ１５０が提供するサービスやコンテンツの提供を受けてよい。例えば、第１電子機器１１０がアプリケーションの制御にしたがい、ネットワーク１７０を介してサービス要求メッセージをサーバ１５０に送信すると、サーバ１５０はサービス要求メッセージに対応するコードを第１電子機器１１０に送信してよく、第１電子機器１１０はアプリケーションの制御にしたがってコードに基づいた画面を構成して表示することにより、ユーザにコンテンツを提供してよい。

図２は、本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。図２では、１つの電子機器に対する例として第１電子機器１１０の内部構成を、１つのサーバに対する例としてサーバ１５０の内部構成を説明する。他の電子機器１２０、１３０、１４０やサーバ１６０も、同一または類似の内部構成を有してよい。

第１電子機器１１０とサーバ１５０は、メモリ２１１、２２１、プロセッサ２１２、２２２、通信モジュール２１３、２２３、および入力／出力インタフェース２１４、２２４を含んでよい。メモリ２１１、２２１は、コンピュータ読み取り可能な記録媒体であって、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、およびディスクドライブのような永久大容量記憶装置（ｐｅｒｍａｎｅｎｔｍａｓｓｓｔｏｒａｇｅｄｅｖｉｃｅ）を含んでよい。また、メモリ２１１、２２１には、オペレーティングシステムと、少なくとも１つのプログラムコード（一例として、第１電気機器１１０にインストールされて駆動するアプリケーションなどのためのコード）が記録されてよい。このようなソフトウェア構成要素は、メモリ２１１、２２１とは別のコンピュータ読み取り可能な記録媒体からロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー（登録商標）ドライブ、ディスク、テープ、ＤＶＤ／ＣＤ−ＲＯＭドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信モジュール２１３、２２３を通じてメモリ２１１、２２１にロードされてもよい。例えば、少なくとも１つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システム（一例として、上述したサーバ１６０）がネットワーク１７０を介して提供するファイルによってインストールされるプログラム（一例として、上述したアプリケーション）に基づいてメモリ２１１、２２１にロードされてよい。

プロセッサ２１２、２２２は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ２１１、２２１または通信モジュール２１３、２２３によって、プロセッサ２１２、２２２に提供されてよい。例えば、プロセッサ２１２、２２２は、メモリ２１１、２２１のような記録装置に格納されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。

通信モジュール２１３、２２３は、ネットワーク１７０を介して第１電子機器１１０とサーバ１５０とが互いに通信するための機能を提供してもよいし、他の電子機器（一例として、第２電子機器１２０）または他のサーバ（一例として、サーバ１６０）と通信するための機能を提供してもよい。一例として、第１電子機器１１０のプロセッサ２１２がメモリ２１１のような記録装置に格納されたプログラムコードにしたがって生成した要求（一例として、検索要求）が、通信モジュール２１３の制御にしたがってネットワーク１７０を介してサーバ１５０に伝達されてよい。これとは逆に、サーバ１５０のプロセッサ２２２の制御にしたがって提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール２２３とネットワーク１７０を経て第１電子機器１１０の通信モジュール２１３を通じて第１電子機器１１０に受信されてもよい。例えば、通信モジュール２１３を通じて受信したサーバ１５０の制御信号や命令などは、プロセッサ２１２やメモリ２１１に伝達されてよく、コンテンツやファイルなどは、第１電子機器１１０がさらに含むことのできる格納媒体に格納されてよい。

入力／出力インタフェース２１４は、入力／出力装置２１５とのインタフェースのための手段であってよい。例えば、入力装置は、キーボードまたはマウスなどの装置を含んでよいし、出力装置は、アプリケーションの通信セッションを表示するためのディスプレイのような装置を含んでよい。他の例として、入力／出力インタフェース２１４は、タッチスクリーンのように入力と出力のための機能が１つに統合された装置とのインタフェースのための手段であってもよい。より具体的な例として、第１電子機器１１０のプロセッサ２１２は、メモリ２１１にロードされたコンピュータプログラムの命令を処理するにあたってサーバ１５０や第２電子機器１２０が提供するデータを利用して構成されるサービス画面やコンテンツが、入力／出力インタフェース２１４を通じてディスプレイに表示されるようにしてよい。入力／出力インタフェース２２４も同様に、サーバ１５０のプロセッサ２２２がメモリ２２１にロードされたコンピュータプログラムの命令を処理するにあたってサーバ１５０が提供するデータを利用して構成される情報を出力してよい。

また、他の実施形態において、第１電子機器１１０およびサーバ１５０は、図２の構成要素よりも多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、第１電子機器１１０は、上述した入力／出力装置２１５のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。より具体的な例として、第１電子機器１１０がスマートフォンである場合、一般的にスマートフォンが含んでいる加速度センサやジャイロセンサ、カメラ、物理的な各種ボタン、タッチパネルを利用したボタン、入力／出力ポート、振動のための振動器などのような多様な構成要素が第１電子機器１１０にさらに含まれるように実現されてよい。

以下では、主題別クエリのサブトピック自動抽出および構造化のためのトピック構造化方法、およびトピック構造化システムの具体的な実施形態について説明する。

一度のクエリに対して最大限多様な検索結果を提供することで効率的な情報探索ができるようにするためには、トピックの構造化（グループ化および階層化）が必要となる。

検索システムがユーザによって入力されたクエリに対して検索結果を提供するときに、検索条件にマッチングされた文書の他に、ユーザの追加探索をサポートする多様な機能も提供する。代表的なものとして、関連検索語、連関タグ、検索語自動完成などが存在する。このような機能は、次のような点で有用性があると考えられる。

第１に、ユーザが知りたい情報に関連する明確なクエリ名が分からない場合、クエリを推薦する機能をする。

第２に、該当のクエリと関連する詳細な属性／小主題をユーザが間接的に把握できるようにする。

しかしながら、「関連」という関係には、次のような問題がある。

第１に、「関連」という関係が曖昧であり、該当のクエリとの具体的な関係（例：上／下位概念、類義語、または兄弟概念）が分からない。したがって、提供される検索語やタグの数が多くなれば構造的に整理することが困難となり、ユーザの利用性の観点から、ユーザに提供する検索語やタグの数を減らさざるを得なくなってしまう。

第２に、クエリが多意性を有する場合、各意味によって関連する検索語やタグが整理されない状態で提供され、追加探索のサポートに繋がりにくくなってしまう。

一方、ショッピングを意図したクエリの場合、ユーザが所望する商品の探索をサポートするために提供される階層情報が存在する。製品のブランド、カラー、値段などのように階層が極めて体系的であるため、迅速かつ効率的な探索のサポートにはなるが、このような情報は各販売会社などが手動で入力した情報であるため拡張性に限界があり、さらにショッピングクエリだけに対して適用される傾向にあるという問題がある。

本発明では、ユーザの追加探索をサポートするとともに、該当のクエリと関連する詳細な属性／小主題をユーザが効率的に把握できるようにする機能を果たしながら、上述したような限界を解決することのできるサブトピック自動抽出および構造化技術を提案する。

本発明の実施形態に係るトピック構造化システムの核心内容は、次のとおりとなる。

（１）トピック構造化システムは、主題別の主要クエリを「メインオブジェクト＋サブトピック」にパターン化する。このとき、メインオブジェクトとは、主題を決定する核心オブジェクトを意味し、サブトピックとは、サブオブジェクトと属性のうちの少なくとも１つを含む。サブオブジェクトとは、主題を具体化するオブジェクトを意味し、属性とは、ｓｕｆｆｉｘまたはｐｒｅｆｉｘなどとして主題の属性を示す単語を意味する。

（２）トピック構造化システムは、サブオブジェクトと属性の意味関係に基づいてパターン化されたクエリを階層化する。図３は、本発明の一実施形態における、パターン化されたクエリを階層化する過程の例を示した図である。図３に示すように、特定の主題のクエリ、すなわち、メインオブジェクト（ＭａｉｎＯｂｊ）を基準にメインオブジェクト（ＭａｉｎＯｂｊ）とサブトピック（ＳｕｂＯｂｊ、Ｓｕｆｆｉｘ）を階層化してよい。

（３）トピック構造化システムは、階層化されたクエリとサブトピックを検索結果（文書）とともにユーザに提供してよい。このとき、トピック構造化システムは、ユーザが所望する程度（細分化）に応じてサブトピックを適切に構造化して提示することにより、主題に適しながらも該当のクエリと関連する詳細なサブトピックをユーザが効率的に把握することができ、実質的な追加探索のサポートに寄与することができる。

図４は、本発明の一実施形態における、サーバのプロセッサが含むことのできる構成要素の例を示した図であり、図５は、本発明の一実施形態における、サーバが実行することのできる方法の例を示したフローチャートである。

図４に示すように、サーバ１５０のプロセッサ２２２は、構成要素として、抽出部４１０、精製部４２０、生成部４３０、調整部４４０、および提供部４５０を含んでよい。このようなプロセッサ２２２およびプロセッサ２２２の構成要素は、図５の方法が含む段階５１０〜５５０を実行するようにサーバ１５０を制御してよい。このとき、プロセッサ２２２およびプロセッサ２２２の構成要素は、メモリ２２１が含むオペレーティングシステムのコードと、少なくとも１つのプログラムのコードによる命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行するように実現されてよい。また、プロセッサ２２２の構成要素は、オペレーティングシステムや少なくとも１つのプログラムが提供する制御命令にしたがってプロセッサ２２２によって実行される互いに異なる機能（ｄｉｆｆｅｒｅｎｔｆｕｎｃｔｉｏｎｓ）の表現であってよい。例えば、プロセッサ２２２が上述した制御命令にしたがってメインオブジェクトとサブトピックを抽出する機能的表現として抽出部４１０が使用されてよい。

プロセッサ２２２の構成要素を詳察すれば、次のとおりとなる。

抽出部４１０のＭａｉｎＯｂｊ＋ＳｕｆｆｉｘＥｘｔｒａｃｔｏｒ（抽出モジュール）は、主題別にメインオブジェクトおよび属性を抽出する。メインオブジェクトと属性を抽出するためには、自然言語理解（ＮａｔｕｒａｌＬａｎｇｕａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ）技術が用いられてよい。

抽出部４１０のＳｕｂＯｂｊＥｘｔｒａｃｔｏｒ（抽出モジュール）は、各主題に対してメインオブジェクト＋（属性）があるときにサブオブジェクトを抽出する。サブオブジェクトを抽出するためには、多様な統計情報（例えば、クリック数、いいね数、コメント数、作成者数など）や辞書（ｄｉｃｔｉｏｎａｒｙ）情報などが利用されてよい。

精製部４２０のＲａｎｋｅｒ（ＳｕｆｆｉｘＲａｎｋｅｒ、ＳｕｂＯｂｊＲａｎｋｅｒ）モジュールは、メインオブジェクトに対してサブオブジェクトおよび／または属性のランキングを重要度順に決定する。このとき、重要度を決定するために、ユーザからのクリック数、いいね数、コメント数、作成者数などのような多様な情報が活用されてよい。

精製部４２０のＰｏｓｔ−Ｐｒｏｃｅｓｓｏｒ（Ｐｏｓｔ−ＰｒｏｃｅｓｓｏｒＲａｎｋｅｒ、Ｐｏｓｔ−ＰｒｏｃｅｓｓｏｒＲａｎｋｅｒ）モジュールは、ランキングが決定されたサブオブジェクトおよび／または属性を受け、類義語やサブストリング（部分文字列）関係に基づいてこれをクラスタリングすることによって各クラスタの代表値を選定する。

生成部４３０のＴｏｐｉｃＧｒａｐｈＴｏＴｒｅｅモジュールは、クラスタリングされたサブオブジェクトおよび／または属性を集め、クエリや文書でどのくらいともに示されるか関係強度を検索した後、これをネットワーク（グラフ）構造で生成した後、ツリー（検索／クラスタ基盤ツリー）に変換するようになる。具体的な検索／クラスタ基盤ツリーについては、以下で説明する。

生成部４３０のＴｒｅｅＣｏｎｓｔｒｕｃｔｏｒモジュールは、辞書基盤ツリーと検索／クラスタ基盤ツリー構造を統合して最終トピックツリー（例えば、２−デプスツリー構造）を構成する。

調整部４４０のＴｏｐｉｃｒｅｒａｎｋｅｒモジュールは、トピックツリーに対してフィルタリング条件（一例として、文書数、主題適合度、正解性など）によって追加でフィルタリングする。

調整部４４０のＮｅｗＯｂｊｅｃｔＡｓｓｉｇｎｅｒモジュールは、メインオブジェクトと関連する新たなアイテムを抽出してツリー構造に割り当てる。ツリー構造に割り当たらないほどアイテムが新たに増えた場合は、最初からプロセスを行って新たなツリーを構成する。

提供部４５０のＤｏｃｕｍｅｎｔＦｉｎｄｉｎｇＡＰＩモジュールは、最終トピックツリーに基づいてクエリを構成して適合文書を抽出する。このとき、フィルタリング機能が含まれてもよい。

提供部４５０のＡｕｔｏ−Ｔａｇｇｅｒモジュールは、最終トピックツリーに基づいてトピックタグを構成して適合文書にタギングする。

上述した構成要素を含むプロセッサ２２２により、図５の方法が含む段階５１０〜５５０が実行されてよい。

図５において、段階５１０で、抽出部４１０は、各主題別に該当の主題を決定する核心オブジェクトであるメインオブジェクトと、該当の主題を具体化するサブトピックを抽出してよい。このとき、抽出部４１０は、文書上にメインオブジェクトとともに頻繁に登場する単語を分析したり、検索システムでメインオブジェクトとともに検索に頻繁に利用される単語を分析したりすることにより、サブオブジェクトおよび／または属性候補を抽出してよい。

段階５２０で、精製部４２０は、サブトピックを文書内の出現頻度や検索頻度によってフィルタリングした後、単語同士の関係に基づいてグルーピングを実行してよい。候補フィルタリング過程では、サブオブジェクトおよび／または属性候補のうちの少なくとも一部をフィルタリングして使用してよい。具体的な一例として、精製部４２０は、文書内の出現頻度およびユーザの検索頻度のうちの少なくとも１つによってサブオブジェクトおよび／または属性をフィルタリングしてよい。また、出現頻度を特定の期間のデータに限定してフィルタリングしてよい。このとき、フィルタリング方法は、主題の特性に応じて異なってよく、例えば、示意性（時宜性）の高い主題であればここ最近の一定期間（例えば、現在から１週間前までの期間）のデータをフィルタリングしてよい。また、精製部４２０は、候補フィルタリング過程によって選定されたサブオブジェクトおよび／または属性候補を類義語やサブストリング関係などを考慮してグルーピングしてよく、グルーピング後には各グループから代表を選定してよい。代表を選定する方法は多様であってよく、一実施形態としては、検索頻度が最も高いものを代表として選定してよい。言い換えれば、精製部４２０は、サブトピックを重要度（例えば、文書内の出現頻度や検索頻度など）順にランキングした後、ランキングされたサブトピックを類義語やサブストリング関係によってクラスタリングすることで各クラスタの代表を選定してよい。上述したサブトピックの抽出および精製過程は、候補選定、グルーピング／代表選定過程でなされる。図６は、本発明の一実施形態における、「グアム」および「じゃがいも」というクエリに対し、候補をフィルタリングおよびグルーピングし、代表トピックを選定する過程の一例を示した図である。図６において、ＷＴＲＩＰおよびＦＯＯＤとは、クエリの主題を示す分類コード（カテゴリ分類コード）であり、単語の横に記載されている数字は、クエリとともに関連して検索された頻度数を示すものである。

再び図５において、段階５３０で、生成部４３０は、グルーピングされたサブトピックに対し、該当の主題の階層情報を利用してトピックツリーを生成してよい。生成部４３０は、各グルーピングされたサブトピックを、階層情報を活用して階層の各クラス名に合うようにラベリング（ｌａｂｅｌｉｎｇ）することによってトピックツリーを生成してよい。主題によっては、階層情報が存在する場合と階層情報が存在しない場合がある。例えば、多様な種類のコンテンツを含んでいるデータベースで構築された辞書情報は、階層情報に有効に活用することのできる情報の１つである。このとき、生成部４３０は、辞書情報のように予め存在する階層情報がある場合には、これに基づいてトピックツリーを生成してよい。例えば、料理やレシピの主題は、料理百科辞書に基づいて豊富な階層情報が存在する。この反面、旅行やショッピングの主題は、階層情報が存在せず、時期に応じて多様なサブトピックが生成されたり変更されたりする。生成部４３０は、階層情報が存在しない場合に、単語埋め込み（ｗｏｒｄｅｍｂｅｄｄｉｎｇ）基盤のクラスタリング技法と言語分類学（ｔａｘｏｎｏｍｙ）に基づいて階層情報を構築してトピックツリーの生成に活用してよい。本発明は、階層情報が存在しない場合でも自動的にトピックを階層化することができるという点に長所がある。

図７は、本発明の一実施形態における、単語埋め込み基盤のクラスタリング技法と言語分類学を利用して階層情報を構築する過程の一例を説明するためのフローチャートである。図７を参照すると、生成部４３０は、サブトピックに対して単語埋め込みデータから類似単語を抽出し（Ｓ７０１）、抽出された単語を類義語やサブストリング関係に基づいてクラスタリングした後（Ｓ７０２）、クラスタリングされた単語を言語分類学に基づいてラベリングしてよい（Ｓ７０３）。図８は、旅行の主題に対し、クラスタリングおよび言語分類学を利用して構築した階層情報の一例を示した図である。単語埋め込み基盤のクラスタリング過程Ｓ７０２では、主題別文書（例えば、ブログ掲示文など）として単語埋め込みデータを学習し、このような学習データからクラスタリングが必要なサブトピックのワードベクトル値を把握した後、ワードベクトル値に基づいてクラスタリングを行う。このとき、クラスタリングは、階層的クラスタリング（ｈｉｅｒａｒｃｈｉｃａｌｃｌｕｓｔｅｒｉｎｇ）、Ｋ−平均アルゴリズム（Ｋ−ｍｅａｎｓａｌｇｏｒｉｔｈｍ）、密度クラスタリング（ｄｅｎｓｉｔｙｃｌｕｓｔｅｒｉｎｇ）などのような多様な方法が活用されてよい。また、言語分類学活用過程Ｓ７０３では、クラスタリングされた結果を言語分類学上の各クラスにマッピングすることによってラベリングしてよい。このとき、言語分類学は汎用的であるため、主題に特化された階層情報と比較するときに不必要なクラスが多く存在する。したがって、不必要なクラスを削除する作業が必要となるが、これについては、後述する調整部４４０のリバランシング（ｒｅｂａｌａｎｃｉｎｇ）過程で説明する。

トピック階層化段階では、クラスタリングされたサブトピックを集め、クエリや文書でどのくらい共に示されるか関係強度を検索してネットワーク（グラフ）構造で生成した後、トピックツリーに変換し（クラスタ基盤ツリー）、辞書基盤で構築されたトピックツリーとクラスタリング基盤で構築されたトピックツリーとを統合して最終ツリー構造を構成してよい。

再び図５において、段階５４０で、調整部４４０は、生成部４３０のトピック階層化段階で構築されたトピックツリー対し、ユーザやシステムの目的に応じてリバランシングを実行してよい。また、調整部４４０は、トピックツリーに対して主題適合度、検索意図、検索結果の量などを考慮して適切にプルーニング（Ｐｒｕｎｉｎｇ）を実行してよい。

表１は、本発明の一実施形態に係るトピックネットワークの定義を示したものである。

（表１）

生成部４３０は、検索頻度とクラスタリングを利用して構築した情報を利用してトピックツリーを生成する。先ず、各単語をノード（ｎｏｄｅ）とし、各単語同士の関連関係をエッジ（ｅｄｇｅ）で示してトピックネットワーク（Ｇ）を構築する。本発明の一実施形態に係るトピックネットワーク（Ｇ）におけるノード（Ｖ）およびエッジ（Ｅ）は、表１のように定義されてよい。このとき、生成部４３０は、検索頻度を考慮してトピックネットワークをトピックツリーに変更する。図９は、本発明の一実施形態によって構築されたトピックネットワークを深さが２であるツリー（２−デプスツリー）に変換する過程の例を示した図である。ネットワークをツリーに変更する方法としては多様なアルゴリズムが存在してよく、例えば、加重値グラフにおける最小全域木（ｍｉｎｉｍｕｍｓｐａｎｎｉｎｇｔｒｅｅ）構築アルゴリズムなどが応用されてよい。この後、調整部４４０は、言語分類学を基盤としたツリーと検索頻度／クラスタリングを基盤としたツリーとを合わせ、ユーザやシステムの目的に応じてリバランシングを実行してよい。図１０は、本発明の一実施形態における、ツリーリバランシング過程の一例を説明するためのフローチャートである。図１０を参照すると、調整部４４０は、クラスタリング基盤ツリーでリーフノードに該当するクラスタを辞書基盤ツリーの該当のクラスに挿入してよい（Ｓ１００１）。トピックツリーの幅（ｂｒｅａｄｔｈ）と深さ（ｄｅｐｔｈ）はクエリ別にそれぞれ異なり、ユーザが活用するものとしては概して深さおよび幅の両方の値が大きい傾向にあるため、これを減らす作業が必要となる（Ｓ１００２〜Ｓ１００３）。幅と深さを減らす方法は、言語分類学を基盤としたツリーと検索頻度／クラスタリングを基盤としたツリーとを結合する過程からなる。トピックツリーの幅値と深さ値は、システムの必要事項に応じて異なるように設定してよく、本発明の実施形態では深さが２であると仮定する（２ｄｅｐｔｈｔｒｅｅ化）。この後、調整部４４０は、主題適合度、検索意図、検索結果の量などを考慮してトピックツリーのプルーニングを実行してよい（Ｓ１００４）。図１１は、ツリーリバランシング過程中に幅を減らすためのいくつかの方法を示すものであって、ボトムアップ（ｂｏｔｔｏｍ−ｕｐ）ノード移動、および／またはトップダウン（ｔｏｐ−ｄｏｗｎ）ノード移動によってトピックツリーの幅を減らしてよい。また、図１２は、ツリーリバランシング過程中に深さを減らすためのいくつかの方法を示すものであって、一部のノードを子ノードに交換する方式によってトピックツリーの深さを減らしてよい。

再び図５において、段階５５０で、提供部４５０は、クエリが属する主題のトピックツリーを利用し、サブトピックを該当のクエリに対応する検索結果とともに提供してよい。このとき、提供部４５０は、クエリに対する関連検索語としてサブトピックを多様な条件によってフィルタリングした後、検索結果とともに提供してよい。一例として、提供部４５０は、クエリの主題適合度によってサブトピックをフィルタリングしてよい。検索のためのクエリが与えられると、該当のクエリが属する主題を確認するようになるが、このとき、クエリが複数の主題に属する場合には、与えられた主題に適合しないトピックをフィルタリングする場合がある。このために、クエリとサブトピックの関連性を示す点数である「クエリ＋サブトピック」の主題点数を活用してよい。主題点数把握方法としては、テキスト分類（Ｔｅｘｔｃａｔｅｇｏｒｉｚａｔｉｏｎ）アルゴリズム（例えば、ＳＶＭ（ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ）、ｋＮＮ（ｋ−ＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ）、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）など）が利用されてよい。他の例として、提供部４５０は、サブトピックに対応する文書数を利用してサブトピックをフィルタリングしてよい。検索結果に含まれる文書数が一定の件数以下と少なければ、有用性が低下するため、該当のサブトピックは除外してよい。また他の例として、提供部４５０は、クエリに対する正解性トピックの有無に応じてサブトピックをフィルタリングしてよい。検索結果として多くの文書を提供するよりも正解性のある情報を提供する方が適切なサブトピックとなる場合（例えば、グアムの天気のように正解性のある情報が求められる場合）、クエリに対する関連検索語として含ませてよい。

提供部４５０は、ユーザが検索のために入力したクエリに対し、関連検索語として該当のクエリと関連する詳細なサブトピック（サブオブジェクトおよび／または属性）を階層形で表示してよい。主題別のトピックツリーは、一定の周期を単位としてアップデートされてよく、主題に応じて該当の主題の特性などを考慮してトピックツリーのアップデート周期が決定されてよい。

図１３および図１４は、本発明の一実施形態における、２デプスのトピック構造が反映された検索結果画面の例を示した図である。例えば、ユーザが入力したクエリに対し、入力クエリに対応する検索結果を提供する過程において、入力クエリに該当する主題の階層情報に基づいて入力クエリの関連検索語としてｄｅｐｔｈ１のクエリとｄｅｐｔｈ２のクエリを提供してよい。図１３を参照すると、ユーザが検索ウィンドウ１３０１にクエリ「グアム」を入力した場合、入力クエリに対応する検索結果とともに、該当の主題「グアム」の階層情報に基づき、入力クエリ「グアム」の関連検索語としてｄｅｐｔｈ１のクエリ１３１０とｄｅｐｔｈ２のクエリ１３２０を提供してよい。このとき、関連検索語として提供されるクエリそれぞれは、ユーザによって選択可能な形態で構成され、ユーザが選択したクエリが検索ウィンドウ１３０１に自動で追加入力される。図１３に示すように、ユーザが初期クエリ「グアム」の関連検索語として提供されるｄｅｐｔｈ１のクエリ１３１０のうちから「グルメ店」を選択した場合、検索ウィンドウ１３０１には「グルメ店」が追加で入力され、「グアムグルメ店」をクエリとしたｄｅｐｔｈ１の検索結果１３０２が表示されてよい。次に、図１４に示すように、ユーザがｄｅｐｔｈ２のクエリ１３２０のうちからクエリ「手作りハンバーガー」を選択した場合、検索ウィンドウ１３０１には「手作りハンバーガー」が追加で入力され、「グアムグルメ店手作りハンバーガー」をクエリとしたｄｅｐｔｈ２の検索結果１４０２が表示されてよい。

このように、本発明の実施形態によると、検索結果（文書）を階層構造のトピックとともに提供することによって効率的な追加探索をサポートし、一度のクエリとして最大限多様な検索結果を提供することができる。さらに、階層化されたトピック構造を検索ランキングに活用することもできる。言い換えれば、サブオブジェクトおよび属性が含まれた文書は、相対的に高品質の文書である可能性が高いため、検索ランキング時にこのような文書をブースティングするのに活用することができる。

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および／またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）および前記ＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでもよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、所望の動作をするように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ格納媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータで読み取り可能な記録媒体に格納されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータで読み取り可能な媒体に記録されてよい。このとき、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合された形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピーディスク、および磁気テープのような磁気媒体、ＣＤ−ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体も挙げられる。

以上のように、実施形態を、限定された実施形態と図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付の特許請求の範囲に属する。

２２２：プロセッサ
４１０：抽出部
４２０：精製部
４３０：生成部
４４０：調整部

Claims

コンピュータが実現するトピック構造化方法であって、
主題別に前記主題と関連するサブトピックを抽出する段階、
前記サブトピックに対して前記主題の階層情報を利用してトピックツリーを生成する段階、および
検索のためのクエリが与えられると、前記クエリが属する主題のトピックツリーに基づき、前記クエリに対する関連検索語として前記サブトピックを階層形で提供する段階
を含む、トピック構造化方法。
前記抽出する段階は、
前記主題を決定する核心オブジェクトと関連する単語を分析して前記サブトピックを抽出すること
を特徴とする、請求項１に記載のトピック構造化方法。
前記サブトピックを文書出現頻度と検索頻度のうちの少なくとも１つによってフィルタリングする段階
をさらに含む、請求項１に記載のトピック構造化方法。
前記サブトピックを類義語またはサブストリング関係によってクラスタリングして各クラスタの代表を選定する段階
をさらに含む、請求項１に記載のトピック構造化方法。
前記生成する段階は、
前記サブトピックを前記階層情報の各クラス名にラベリングして前記トピックツリーを生成すること
を特徴とする、請求項１に記載のトピック構造化方法。
前記生成する段階は、
前記サブトピックに対して単語埋め込みデータから類似単語を抽出する段階、
前記類似単語を類義語またはサブストリング関係によってクラスタリングする段階、および
前記クラスタリングされた単語を言語分類学上の各クラスにマッピングすることによってラベリングする段階
を含む、請求項１に記載のトピック構造化方法。
前記トピックツリーの幅と深さのうちの少なくとも１つを減らして前記トピックツリーに対するリバランシングを実行する段階
をさらに含む、請求項１に記載のトピック構造化方法。
前記提供する段階は、
前記クエリと前記サブトピックの関連性を示す主題点数と、前記サブトピックに対応する文書数、および前記クエリに対する正解性トピックのうちの少なくとも１つの条件によって前記サブトピックをフィルタリングする段階
を含む、請求項１に記載のトピック構造化方法。
コンピュータが実現する検索結果提供方法であって、
検索のためのクエリが与えられると、前記クエリに対応する検索結果を提供する段階、
前記クエリが属する主題の階層情報に基づき、前記クエリに対する関連検索語として前記主題と関連するサブトピックを複数のデプスを有する階層形で提供する段階、および
前記サブトピックのうちの少なくとも１つの検索語が選択される場合、前記選択された検索語を含んだ前記クエリに対応する検索結果を提供する段階
を含む、検索結果提供方法。
コンピュータシステムと結合してトピック構造化方法を実行させるためにコンピュータ読み取り可能な記録媒体に記録されたコンピュータプログラムであって、
前記トピック構造化方法は、
主題別に前記主題と関連するサブトピックを抽出する段階、
前記サブトピックに対して前記主題の階層情報を利用してトピックツリーを生成する段階、および
検索のためのクエリが与えられると、前記クエリが属する主題のトピックツリーに基づき、前記クエリに対する関連検索語として前記サブトピックを階層形で提供する段階
を含む、コンピュータプログラム。
コンピュータが実現するトピック構造化システムであって、
コンピュータ読み取り可能な命令を実行するように実現される少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサは、
主題別に前記主題と関連するサブトピックを抽出する抽出部、
前記サブトピックに対して前記主題の階層情報を利用してトピックツリーを生成する生成部、および
検索のためのクエリが与えられると、前記クエリが属する主題のトピックツリーに基づき、前記クエリに対する関連検索語として前記サブトピックを階層形で提供する提供部
を備える、トピック構造化システム。