JP7388256B2

JP7388256B2 - 情報処理装置及び情報処理方法

Info

Publication number: JP7388256B2
Application number: JP2020041293A
Authority: JP
Inventors: 慶行坂巻
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2023-11-29
Anticipated expiration: 2040-03-10
Also published as: JP2021144348A

Description

本発明は、情報処理装置及び情報処理方法に関する。

近年、データマーケットでは、通常、指定のキーワードとの類似度が高い情報を検索結果として提供している。キーワードとの一致性による類似度では、ユーザが所望する情報を適切に検索できない場合がある。そのため、Word2Vec技術を用いて、語句同士の類似度を算出して得られた意味関係に基づいて、類似語句によって検索処理を行う技術等が知られている。

特開２０１９－０７４９８２号公報

上述した技術では、キーワードと、キーワードとの意味関係において類似する類似語とにより、抽出する情報の幅を広げることができる。しかしながら、ユーザが指定したキーワードに加えて類似語をも用いて情報検索（文書検索ともいう）を行うことになる。一般に、文書の全内容の解析には処理時間が掛かる。文書量が多い場合には、キーワードと類似語とを用いた検索には、より多くの処理時間を要する。

したがって、１つの側面では、文書検索の計算量を低減することを目的とする。

一態様によれば、単語の意味的な類似性を考慮した文書を検索する情報処理装置において、検索キーワードを分かち書きした単語ごとに類似する語を、単語埋め込みによる学習済みモデルで推論された類似度順に所定個を取得する取得部と、前記検索キーワードの単語を索引語とするインデックスに対応する第１の要素には１を設定し、前記類似する語を索引語とするインデックスに対応する第２の要素には得られた類似度に応じて０から１の範囲で値を設定し、該第１の要素及び該第２の要素以外の第３の要素には０を設定したクエリベクトルを作成する作成部と、前記文書を分かち書きすることで得られた単語を用いて該文書の特徴を表す特徴ベクトルを作成する特徴ベクトル化処理部と、前記クエリベクトルと前記特徴ベクトルとの類似度を算出する算出部と、前記算出部によって算出された前記類似度の大きい順に前記文書と該文書に係るタグ情報とを示した検索結果を出力する出力部とを有する情報処理装置が提供される。

文書検索の計算量を低減することができる。

情報検索システムの概要を示す図である。情報処理装置のハードウェア構成例を示す図である。端末のハードウェア構成例を示す図である。本実施例における情報処理装置の機能構成例を示す図である。本実施例における初期設定処理部の機能構成例を示す図である。本実施例における特徴ベクトル化処理部の機能構成例を示す図である。本実施例における検索処理部の機能構成例を示す図である。初期設定処理を説明するためのフローチャートである。特徴ベクトル化処理を説明するためのフローチャートである。検索処理の第一の例を説明するためのフローチャートである。検索処理の第二の例を説明するためのフローチャートである。類似語の考慮無しの検索処理例を説明するための図である。本実施例における検索処理の第一例を説明するための図である。本実施例における検索処理の第二例を説明するための図である。本実施例における検索画面例を示す図である。

以下、本発明の実施の形態を図面に基づいて説明する。先ず、情報検索システムの概要について説明する。図１は、情報検索システムの概要を示す図である。

図１より、情報検索システム１０００では、情報処理装置１００と、ユーザ２が利用する端末２００とを有する。端末２００は、ネットワークを介して情報処理装置１００に接続可能である。情報処理装置１００には、情報を検索しようとするユーザ２の端末２００が接続可能である。

端末２００では、ユーザ２が検索キーワード７を入力すると、キーワード検索２１が実行され、検索キーワード７を指定したクエリにより検索要求がネットワークを介して情報処理装置１００へ送信される。情報処理装置１００では、端末２００からの検索要求に応じて、検索キーワード７を取り出し、取り出された検索キーワード７を用いて検索処理４１ｐが実行される。

一方、情報処理装置１００は、文書データ３が登録されるごとに、文書前処理４５ｐを実行し、文書データ３から抽出した新たな単語を検索用中間データ６０に記憶しておく。そのようにすることで、検索処理４１ｐは、検索キーワード７との一致、類似性により特定された索引語１ｄを最も多く含む順に文書データ３を取得する。検索用中間データ６０は、検索処理に用いる、索引語リスト５８及び特徴ベクトル群５９（図６）を保持する。

検索処理４１ｐは、取得した文書データ３を検索結果データ５９に含めてネットワークを介して端末２００に送信する。検索結果データ５９には、検索キーワード７に適合した文書データ３が含まれる。

文書データ３それぞれは、１文書の全内容を示してもよいが、文章の概要を説明した説明文のみであってもよい。また、文書データ３は、必ずしも言語による文書の説明文でなくてもよく、画像、音声等のマルチメディアに対する説明文であってもよい。また、文書データ３から抽出された索引語は、メタデータで検索用中間データ６０に管理されてもよい。

本実施例では、文書の内容全体を検索することなく、単語の意味的な類似性に基づく検索ランキングの計算量を低減する仕組みを開示する。本実施例では、曖昧な検索キーワード７（検索クエリともいう）で検索する際に、文書データ３のランキングは、検索する検索キーワード７と一致する単語及び意味的な類似度が高い単語を含む文書データ３を上位にする。

図２は、情報処理装置のハードウェア構成例を示す図である。図２より、情報処理装置１００は、コンピュータであって、ＣＰＵ１１１と、主記憶装置１１２と、補助記憶装置１１３と、入力装置１１４と、表示装置１１５と、通信Ｉ／Ｆ１１７と、ドライブ装置１１８とを有し、バスＢ１に接続される。主記憶装置１１２と、補助記憶装置１１３、及び情報処理装置１００がアクセス可能な外部記憶装置を含めて、記憶部１３０という。

ＣＰＵ１１１は、情報処理装置１００を制御するプロセッサに相当し、記憶部１３０に格納されたプログラムを実行することで、以下に説明する本実施例に係る様々な処理を実現する。入力装置１１４は、ユーザ２によって操作され、操作に応じてデータを入力し、表示装置１１５は、ユーザーインタフェースとして様々な画面を表示する。通信Ｉ／Ｆ１１７は、外部装置との通信を制御する。

記憶媒体１１９（例えば、ＣＤ－ＲＯＭ（Compact Disc Read-Only Memory）等）に記憶された本実施例における検索に係るさまざまな処理を実現するためのプログラムは、ドライブ装置１１８を介して記憶部１３０にインストールされ、ＣＰＵ１１１によって実行可能となる。

尚、本実施例におけるプログラムを格納する記憶媒体１１９はＣＤ－ＲＯＭに限定されず、コンピュータが読み取り可能な、構造（structure）を有する１つ以上の非一時的（non-transitory）な、有形（tangible）な媒体であればよい。コンピュータ読取可能な記憶媒体として、ＣＤ－ＲＯＭの他に、ＤＶＤ（Digital Versatile Disk）ディスク、ＵＳＢメモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリであっても良い。

図３は、端末のハードウェア構成例を示す図である。図３より、端末３は、コンピュータによって制御されるタブレット型、携帯電話等の情報処理端末であって、ＣＰＵ２１１と、主記憶装置２１２と、ユーザＩ／Ｆ（インターフェース）２１６と、通信Ｉ／Ｆ２１７と、ドライブ装置２１８とを有し、バスＢ２に接続される。主記憶装置２１２、記憶媒体２１９等を総称して記憶部２３０という。

ＣＰＵ２１１、端末３を制御するプロセッサに相当し、記憶部２３０に格納されたプログラムに従ってプログラムを実行することで、以下に説明する本実施例に係る様々な処理を実現する。ユーザＩ／Ｆ２１６は、ＣＰＵ２１１の制御のもとに必要な各種情報を表示し、また、ユーザ２による操作入力を可能とするタッチパネル等である。通信Ｉ／Ｆ２１７による通信は無線又は有線に限定されるものではない。

端末３によって行われる処理を実現するプログラムは、ネットワークを介して外部装置からダウンロードされる。或いは、予め端末３の主記憶装置２１２又は記憶媒体２１９に記憶されていても良い。

ドライブ装置２１８は、ドライブ装置２１８にセットされた記憶媒体２１９（例えば、ＳＤ（Secure Digital）メモリカード等）と端末３とのインターフェースを行う。尚、記憶媒体２１９は、コンピュータが読み取り可能な、構造（structure）を有する１つ以上の非一時的（non-transitory）な、有形（tangible）な媒体であればよい。

端末３は、デスクトップ型、ノートブック型、ラップトップ型等の情報処理端末であっても良く、そのハードウェア構成は、図２のハードウェア構成と同様であるので、その説明を省略する。

図４は、本実施例における情報処理装置の機能構成例を示す図である。図４より、情報処理装置１００は、主に、初期設定処理部４０と、特徴ベクトル化処理部４１と、検索処理部４２とを有する。各処理部４０～４２は、情報処理装置１００にインストールされたプログラムが、情報処理装置１００のＣＰＵ１１に実行させる処理により実現される。また、記憶部１３０には、主には、学習用コーパス５１、学習済みモデル５５、メタデータＤＢ５６、特徴ベクトル群５９、検索結果リスト６５、検索結果タグ情報６６等のデータが記憶される。

初期設定処理部４０は、インターネットを利用して、Ｗｅｂ上に存在する様々な分野の情報（ホームページ等）を参照する等を行うことで得られる大規模な自然言語で表現される文章の集合体について、その情報内で表される文脈的な単語の共起性を用いて、ニューラルネットワークを利用したword2vec等によって学習し、単語の使われ方に基づいて単語ベクトルを作成する。

学習用コーパス５１は、インターネットを介して収集する等して作成した様々な分野の文章の集合体に相当し、学習済みモデル５５は、入力された単語をベクトル（単語ベクトル）で表すニューラルネットワーク等から生成されたパラメータの集合である。作成された単語ベクトルは、２００次元程度の密なベクトルである。学習用コーパス５１の中で文脈的に同じ使われ方の単語同士は、経験的に意味が近しい単語であるとみなせる。具体的には、それらの単語ベクトルのコサイン類似度は大きくなる。このようなニューラルネットワークとして、CBOW（Continuous Bag-of-Word）モデル、Skip-Gramモデル等の手法を用いたword2vecを利用すればよいが、この例に限定されない。

そして、本実施例では、検索処理部４２による検索処理において、学習済みモデル５５を利用することで、ある語（検索キーワード７から得られるそれぞれの単語）に対して意味の類似する単語を取得できる。

特徴ベクトル化処理部４１は、検索対象となる文書データ３の入力に応じて、文書データ３に含まれる単語ごとにその出現頻度を示した特徴ベクトル５９ｖを作成し、特徴ベクトル群５９に蓄積する。

検索キーワード７と文書データ３とをベクトルに変換し、それを用いて検索する手法をベクトル空間モデルという。ベクトル空間モデルの中で、単語の出現頻度に基づき文書データ３の特徴ベクトル５９ｖへと変換する手法がある。

ｔｆ（Term Frequency：単語の出現頻度）、ｉｄｆ（Inverse Document Frequency：逆文書頻度）、及び、それらの組み合わせで計算するｔｆ－ｉｄｆによる特徴ベクトル変換方法が知られている。特徴ベクトル５９ｖの要素番号は、索引語のインデックスに対応付けられ、次元は索引語の個数となる。

文書データ３は、文章全体の内容を示すデータの代わりに要約等のような説明文を示すデータであり、メタデータが用いられてもよい。文書データ３は、特徴ベクトル化処理部４１によって、メタデータＤＢ５６に格納される。

本実施例では、文書データ３から得られる説明文に含まれる単語を索引語として抽出し、新たな単語を検出するごとに、インデックスが割り当てられ索引語として索引語リスト５８（図７）に登録する。説明文に含まれる単語の出現頻度を解析することで特徴ベクトル５９ｖを得る。得られた特徴ベクトル５９ｖは、その各要素を索引語のインデックスに対応付けた疎なベクトルで表現される。

検索処理部４２は、検索キーワード７と、検索キーワード７の類似語とを用いて、文書データ３を特定し、類似順に一覧にした検索結果リスト６５を取得作成し、端末２００に提供する。検索処理部４２は、学習済みモデル５５を参照して、検索キーワード７に類似する類似語を取得し、検索キーワード７と、取得した類似語とを索引語とし、インデックスに値を設定したクエリベクトル６３ｖを作成する。クエリベクトル６３ｖについても、要素番号は索引語のインデックスに対応付けられ、次元は索引語の個数となる。

検索処理部４２は、クエリベクトル６３ｖに対して最も類似する特徴ベクトル５９ｖを、特徴ベクトル群５９から検索することで、検索キーワード７に対して、より適切な文書データ３を特定することができる。類似度順に文書データ３が示された検索結果リスト６５が端末２００へ提供される。

また、検索処理部４２は、特定した文書データ３がメタデータである場合には、検索結果タグ情報６６を取得し、検索結果リスト６５と検索結果タグ情報６６とに基づいて、検索範囲の絞り込みを可能としてもよい。検索結果タグ情報６６には、文書データ３ごとのカテゴリ、日付等のタグとその値とが示される。検索結果リスト６５と検索結果タグ情報６６とに基づいて、カテゴリ、日付等の１以上のタグを示し、タグの選択により絞り込み可能な検索結果データ６９を、端末２００に送信してもよい。

端末２００では、表示された検索結果データ６９から選択によりタグとその値とを指定した再検索が行われることで、ユーザ２が意図する検索に、より適合した検索結果リスト６５を得ることができ、精度よい検索結果を端末２００に提供可能となる。

次に、初期設定処理部４０、特徴ベクトル化処理部４１、及び検索処理部４２のそれぞれの機能構成例について説明する。

図５は、本実施例における初期設定処理部の機能構成例を示す図である。図５より、初期設定処理部４０は、コーパス前処理部４０ａと、文書前処理部４０ｂと、単語埋め込み部４０ｃとを有する。記憶部１３０には、初期設定処理部４０に関して、学習用コーパス５１及び学習済みモデル５５に加えて、前処理済みコーパス５２、分かち書きデータ５３、辞書５４等が記憶される。

コーパス前処理部４０ａは、学習用コーパス５１の情報から事前言語で記述された文書を取得し、記憶部１３０内に前処理済みコーパス５２として蓄積する。

学習用コーパス５１は、単語間の類似性を多次元空間（凡そ２００次元のドキュメント空間）で学習するために、インターネットを介して収集したホームページ等の情報を蓄積している。学習用コーパス５１に保持する対象となる情報は、例えば、百科事典、用語集、辞書など、ある単語又は用語を定義又は説明したまとまりのある情報群を用いることが好ましい。ある単語又は用語と、それを定義又は説明に用いた単語との間には、関連性や類似性があると考えられ、学習を効率的かつ精度良く行える。

文書前処理部４０ｂは、前処理済みコーパス５２に対して、辞書５４を用いて、文書前処理４５ｐを行い、分かち書きデータ５３を取得する。前処理済みコーパス５２に対しては、分かち書きに加えて、不要語を削除し、表記を統一することが好ましい。本実施例における分かち書きデータ５３は、分かち書き、不要語の削除、及び表記の統一がなされたデータとする。

辞書５４には、分かち書きを効率的に行うために蓄積された単語（主に、名詞、動詞、及び形容詞などの自立語）がまとめられている。初期設定処理部４０では、文書前処理部４０ｂにより、前処理済みコーパス５２に対して分かち書きが行われる。

単語埋め込み部４０ｃは、分かち書きデータ５３をニューラルネットワークに学習させ、学習済みモデル５５を取得する。取得した学習済みモデル５５は、検索処理部４２で利用される。

図６は、本実施例における特徴ベクトル化処理部の機能構成例を示す図である。図６より、特徴ベクトル化処理部４１は、説明文抽出部４１ａと、文書前処理部４１ｂと、特徴ベクトル作成部４１ｃとを有する。記憶部１３０には、特徴ベクトル化処理部４１に関して、メタデータＤＢ５６、説明文５６ｄ、分かち書きメタデータ５７、索引語リスト５８、辞書５４、特徴ベクトル群５９等が記憶される。

説明文抽出部４１ａは、検索対象となる文書データ３から自然言語で記述される説明文５６ｄを抽出し記憶部１３０に記憶する。説明文抽出部４１ａは、新たな文書データ３が入力されるごとに、メタデータＤＢ５６に登録し、説明文５６ｄを抽出する。

メタデータＤＢ５６には、検索により提供可能な文書データ３が保持され、このように情報提供用のデータが収集されたデータベースは、一例としてデータマーケットで利用され、文書データ３は、ＸＭＬ（eXtensible Markup Language）等のデータ構造を有する形式で保存される。

文書前処理部４１ｂは、説明文５６ｄに対して、初期設定処理部４０の文書前処理部４０ｂと同様の文書前処理４５ｐを行って分かち書きメタデータ５７を取得する。文書前処理部４１ｂにおいても、説明文５６ｄに対して、分かち書きに加えて、不要語を削除し、表記を統一することが好ましい。本実施例における分かち書きデータ５３は、分かち書き、不要語の削除、及び表記の統一がなされたデータとする。分かち書きメタデータ５７は、文書データ３と関連付けて記憶部１３０に記憶される。

また、文書前処理部４１ｂは、説明文５６ｄに対する文書前処理４５ｐにおいて分かち書きにより得られた複数の単語を、文書データ３（説明文５６ｄ）と関連付けて索引語リスト５８に格納する。索引語リスト５８では、高速化のためにハッシュインデックスとすることが好ましい。

特徴ベクトル作成部４１ｃは、分かち書きメタデータ５７と索引語リスト５８とを参照して、特徴ベクトル５９ｖを作成し、文書データ３と関連付けて特徴ベクトル群５９に蓄積する。特徴ベクトル５９ｖは、索引語をインデックスに持つ疎なベクトルである。インデックスの値の一例として、単語の出現回数又は単語の出現回数に基づく量（先に述べたｔｆ、ｉｄｆ等）が設定されればよい。

図７は、本実施例における検索処理部の機能構成例を示す図である。図７より、検索処理部４２は、キーワード受信部４２ａと、文書前処理部４２ｂと、単語埋め込み部４２ｃと、クエリベクトル作成部４２ｄと、類似度算出部４２ｅと、タグ情報抽出部４２ｆと、結果送信部４２ｇとを有する。記憶部１３０には、検索処理部４２に関連して、検索キーワード７、分かち書き検索キーワード６１、辞書５４、学習済みモデル５５、類似語単語群６２、索引語リスト５８、クエリベクトル６３ｖ、特徴ベクトル群５９、類似度リスト６４、メタデータＤＢ５６、検索結果リスト６５、検索結果タグ情報６６等が記憶される。

キーワード受信部４２ａは、端末２００から検索キーワード７を受信すると、記憶部１３０に記憶する。

文書前処理部４２ｂは、検索キーワード７の受信に応じて、検索キーワード７に対して、初期設定処理部４０の文書前処理部４０ｂと同様の文書前処理４５ｐを行って分かち書き検索キーワード６１を取得する。

単語埋め込み部４２ｃは、学習済みモデル５５を用いて、分かち書き検索キーワード６１それぞれを入力することで、各分かち書き検索キーワード６１に対して、類似度に基づいて類似順にＮ個の単語を取得し、類似単語群６２を出力する。ここで、Ｎは例えば件数設定領域７０ｃで設定される整数であり、類似単語個数６２ｗに格納されるものである。

クエリベクトル作成部４２ｄは、検索キーワード７と類似単語群６２とを用いて、クエリベクトル６３ｖを作成する。作成されたクエリベクトル６３ｖは、検索キーワード７と、類似単語群６２に含まれる各類似単語とを索引語とし、対応するインデックスには類似度が設定され、それ以外の単語に対応するインデックスには０が設定された疎ベクトルを示す。

類似度算出部４２ｅは、クエリベクトル６３ｖと、特徴ベクトル群５９に含まれるそれぞれの特徴ベクトル５９ｖとの類似度を算出し、類似度が大きい順に説明文５６ｄ等を示した検索結果リスト６５を出力する。本実施例では、類似度の算出に、コサイン類似度を用いるが、これに限定されない。

まず、類似度算出部４２ｅは、算出した類似度を、特徴ベクトル５９ｖに関連付けられた文書データ３と対応付けして、類似度リスト６４を記憶部１３０に出力する。そして、類似度算出部４２ｅは、類似度リスト６４において、類似度が大きい順に、メタデータＤＢ５６から特徴ベクトル５９ｖに関連付けられた文書データ３を取得して検索結果リスト６５を作成する。

タグ情報抽出部４２ｆは、検索結果リスト６５で指定される文書データ３ごとに、タグ情報を取得して検索結果タグ情報６６を作成し出力する。

結果送信部４２ｇは、検索結果リスト６５と検索結果タグ情報６６とに基づく検索結果データ６９を端末２００に送信する。ユーザ２は、検索結果データ６９で検索結果を確認し、検索結果タグ情報６６に基づくカテゴリ、日付等の１以上の項目（以下、絞り込み項目という）で検索範囲の絞り込みを行ってもよい。キーワード、絞り込み項目等の変更又は追加により検索キーワード７が更新される。

更新された検索キーワード７の受信に応じて、検索処理部４２では、キーワード受信部４２ａ等により上述した同様の処理が繰り返される。この場合、類似度算出部４２ｅは、カテゴリ、日付等の絞り込み項目と一致する文書データ３に絞り込み、該当する特徴ベクトル５９ｖとにおいて、クエリベクトル６３ｖとの類似度を算出し、類似度リスト６４を出力する。類似度リスト６４の更新に応じて、検索結果リスト６５も更新される。また、検索結果リスト６５の更新に応じて、タグ情報抽出部４２ｆは、検索結果タグ情報６６を更新する。

一方、上記機能構成例において、タグ情報抽出部４２ｆは、省略可能である。タグ情報抽出部４２ｆを省略した場合、類似度算出部４２ｅによる検索結果リスト６５の記憶部１３０への出力に応じて、検索結果データ６９が端末２００へ提供されればよい。

次に、初期設定処理部４０による初期設定処理と、特徴ベクトル化処理部４１による特徴ベクトル化処理と、検索処理部４２による検索処理のそれぞれについて、フローチャートで説明する。

図８は、初期設定処理を説明するためのフローチャートである。図８より、初期設定処理部４０では、コーパス前処理部４０ａが、学習用コーパス５１の各コーパスから自然言語の記述部分を抽出して前処理済みコーパス５２を生成する（ステップＳ４０１）。生成された前処理済みコーパス５２は、記憶部１３０に記憶される。

次に、文書前処理部４０ｂが、前処理済みコーパス５２に対して分かち書き、不要語の削除、表記の統一等の文書前処理４５ｐを行い、得られたデータを類似単語学習用の分かち書きデータ５３として記憶部１３０に保存する（ステップＳ４０２）。

そして、単語埋め込み部４０ｃが、類似単語学習用の分かち書きデータ５３に含まれるそれぞれの単語をベクトルで表現し、ニューラルネットワークにより類似性を学習させて、学習済みモデル５５を作成する（ステップＳ４０３）。一例として、word2vec等により、学習用コーパス５１の中で文脈的な単語の共起性を用いて学習を行い、単語の使われ方に基づいて単語ベクトルを作成すればよい。作成された学習済みモデル５５は、記憶部１３０に記憶される。そして、初期設定処理は終了する。

図９は、特徴ベクトル化処理を説明するためのフローチャートである。図９より、特徴ベクトル化処理部４１では、検索対象となる文書データ３を受信すると、説明文抽出部４１ａが、文書データ３に対して、自然言語で記述された説明文５６ｄを抽出する（ステップＳ４１１）。

説明文抽出部４１ａは、文書データ３をメタデータ形式で受信した場合は、文書データ３から説明文５６ｄを抽出して、文書データ３をそのままメタデータＤＢ５６に蓄積し、自然言語の記載のみで受信した場合には、データ構造に説明文５６ｄを含めたメタデータをメタデータＤＢ５６に蓄積する。

そして、文書前処理部４１ｂは、抽出した説明文５６ｄを、分かち書きし、不要語を削除し、表記を統一して、分かち書きメタデータ５７を取得する（ステップＳ４１２）。また、文書前処理部４１ｂは、分かち書きメタデータ５７より、索引語リスト５８を作成又は更新する（ステップＳ４１３）。辞書５４を用いて、形態素解析により分かち書きを行えばよい。

特徴ベクトル作成部４１ｃは、検索対象の各文章の分かち書きメタデータ５７から特徴ベクトル５９ｖを作成し、特徴ベクトル群５９を得る（ステップＳ４１４）。一例として、ｔｆ－ｉｄｆを用いて、特徴ベクトル５９ｖを算出する。
ｉｄｆ（Inverse Document Frequency：逆文書頻度）は、例えば、

により得る。数１において、Ｎは全メタデータの個数を示し、ｎは索引語ｔを含む文書の個数を示す。ｔｆ（Term Frequency：単語の出現頻度）は、例えば、

により得る。数２において、ｏｃｃｓ_ｔは文書ｄの中の索引語ｔの個数を示し、ｌｅｎｇｔｈ_ｄは文書ｄの中の索引語の個数を示す。

上記処理を、新たな文書データ３ごとに行ってもよいし、文書データ３を記憶部１３０に保持しておき、所定間隔で上記処理を行ってもよい。全ての文書データ３について特徴ベクトル５９ｖが作成されると、特徴ベクトル化処理は終了する。

図１０は、検索処理の第一の例を説明するためのフローチャートである。第一の例では、図７に示す機能構成例において、タグ情報抽出部４２ｆが省略された場合で説明する。図１０より、検索処理部４２では、キーワード受信部４２ａが、検索キーワード７を受信すると、記憶部１３０に記憶する（ステップＳ４２１）。

文書前処理部４２ｂは、検索キーワード７を分かち書きし、不要語を削除し、表記を統一することで、分かち書き検索キーワード６１を取得する（ステップＳ４２２）。辞書５４を用いて、形態素解析により分かち書きを行えばよい。

分かち書き検索キーワード６１を得ると、単語埋め込み部４２ｃが、得られた分かち書き検索キーワード６１ごとに、学習済みモデル５５を用いて、類似単語個数６２ｗに保存される整数Ｎについて、類似度順に上位Ｎ個の類似単語と、その類似度とを取得する（ステップＳ４２３）。類似単語と得られた類似とを示す類似単語群６２が記憶部１３０に記憶される。

クエリベクトル作成部４２ｄは、検索キーワード７に対応する索引語のインデックスの値を１に、類似単語に対応する索引語のインデックスの値を類似単語群６２から得られる類似度に、その他の索引語のインデックスの値を０に設定したクエリベクトル６３ｖ（疎なベクトル）を作成する（ステップＳ４２４）。

類似度算出部４２ｅは、クエリベクトル６３ｖと、メタデータごとに定まる特徴ベクトル５９ｖそれぞれとのコサイン類似度に基づいて、類似度順に文書データ３を並べた検索結果リスト６５を出力する（ステップＳ４２５）。コサイン類似度は、

で表される。クエリベクトル６３ｖと特徴ベクトル５９ｖとの内積に対して、各ベクトルの長さを乗算した値で除算（正規化）することにより得られる。類似度の算出は、コサイン類似度に限定されない。

結果送信部４２ｇは、検索結果リスト６５に基づく検索結果データ６９を送信して、端末２００に表示させる（ステップＳ４２６）。その後、検索処理は終了する。

図１１は、検索処理の第二の例を説明するためのフローチャートである。第二の例では、図７に示す機能構成例において、タグ情報抽出部４２ｆを含む場合で説明する。図１１に示すステップＳ４２１～Ｓ４２５の処理は、図１０と同様であるため、その説明を省略する。従って、第一の例とは異なるステップＳ４３０～Ｓ４３４の処理について説明する。

検索処理部４２において、検索結果リスト６５が記憶部１３０に記憶されると、タグ情報抽出部４２ｆが、検索結果リスト６で特定される各文書データ３のタグ情報を取得し、取得したタ情報を示す検索結果タグ情報６６を記憶部１３０に出力する（ステップＳ４３０）。そして、結果送信部４３１は、検索結果リスト６５と検索結果タグ情報６６とに基づく検索結果データ６９を端末２００に送信する（ステップＳ４３１）。

検索結果データ６９を送信後、再検索の要求があったか否か、即ち、端末２００から検索キーワード７を再度受信したか否かを判定する（ステップＳ４３２）。再検索である場合（ステップＳ４３２のＹＥＳ）、キーワード受信部４２ａは、受信した検索キーワード７に付加されているタグ指定等を取得し（ステップＳ４３３）、取得したタグ指定等に従って、記憶部１３０に記憶された検索キーワードを更新する（ステップＳ４３４）。タグ指定の他に対象期間が指定されていてもよい。

その後、検索処理は、ステップＳ４２２から上述した同様の処理を繰り返す。この場合、ステップＳ４２５において、類似度算出部４２ｅは、タグ指定と一致するメタデータを対象として、クエリベクトル６３ｖとの類似度を算出する。

一方、再検索でない場合（ステップＳ４３２のＮＯ）、検索処理は終了する。一例として、定めた時間以上、検索キーワード７を受信しなかった場合、検索処理は終了する。

次に、検索キーワード７の類似語を考慮しない検索処理例と、検索キーワード７の類似語を考慮する機能を有する本実施例における検索処理例とについて説明する。いずれの検索処理例においても検索キーワード７は、同じ「布団乾燥」とする。説明を簡潔にするため、類似語の考慮無しの検索処理例においても、本実施例における検索処理例と同様に疎なベクトルを用いて類似度の算出を行うものとする。他方、疎なベクトルを用いない構成である場合には、より一層の計算処理を要する。

図１２は、類似語の考慮無しの検索処理例を説明するための図である。図１２において、検索キーワード７として指定された「布団乾燥」に対して、分かち書き、不要語の削除、表記の統一等の文書前処理４５ｐが施され、「布団乾燥」の分かち書き検索キーワード６１を得る。

分かち書き検索キーワード６１から、「布団」と「乾燥」の２つの単語が抽出される。文書データ３とのコサイン類似度を計算するために、予め定められた索引語との一致に応じて、インデックスの値を設定し疎なベクトルを作成する。この例では、クエリベクトル４ｖをOne-hot表現とした例で説明するが、他の表現方法であってもよい。クエリベクトル４ｖを初期化し、全インデックスの値をゼロに設定する。そして、この例では、「布団」に対応付けられている３番目のインデックスと、「乾燥」に対応付けられている１０７番目のインデックスとに対して、それぞれの値を「１」に設定する。

この例では、３番目と１０７番目のインデックスに「１」が設定されたクエリベクトル４ｖを、
（３：１、１０７：１）
のような疎ベクトル表現４ｐで示す。この疎ベクトル表現４ｐ（即ち、クエリベクトル４ｖ）が、文書データ３とのコサイン類似度を求める際に利用されるベクトルである。

一方、メタデータＤＢ５６で保持される複数の文書データ３のうち、文書データ３－１が「布団乾燥機、ドライ機能」であり、文書データ３－２が「布団と毛布を乾かすのにドライ機能」であるとする。文書データ３－１から「布団」、「乾燥」、及び「ドライ」が抽出される。また、文書データ３－２から「布団」、「毛布」、「乾く」、及び「ドライ」が抽出される。これらの単語「布団」、「毛布」、「乾く」、「乾燥」、及び「ドライ」は、３番目、６番目、８番目、１０６番目、１０７番目、６１３番目のインデックスにそれぞれ対応付けられる。

この場合、文書データ３－１の特徴ベクトル５９ｖ－１では、３番目のインデックスの値に「４」、７番目のインデックスの値に「４」、１０７番目のインデックスの値に「１」、及び６１３番目のインデックスの値に「１」が設定されている。また、文書データ３－２の特徴ベクトル５９ｖ－２では、３番目のインデックスの値に「６」、６番目のインデックスの値に「１」、１０６番目のインデックスの値に「７」、及び６１３番目のインデックスの値に「３」が設定されている。

そして、文書データ３－１の特徴ベクトル５９ｖ－１は、
（３：４、７：４、１０７：１、６１３：１）
の疎ベクトル表現５ｐ－１で示され、文書データ３－２の特徴ベクトル５９ｖ－２は、
（３：６、６：１、１０６：７、６１３5：３）
の疎ベクトル表現５ｐ－２で示される。

特徴ベクトル５９ｖ－１は、クエリベクトル４ｖの「１」が設定された３番目と１０７番目のインデックスを含んでいる。一方、特徴ベクトル５９ｖ－２は、クエリベクトル４ｖの「１」が設定された３番目のみを含んでいる。

コサイン類似度（数３）を計算する。まず、
数３の分子の値は、クエリベクトル４ｖと特徴ベクトル５９ｖ－１の内積を求めることで、
（１×４）＋（１×１）＝５
となる。
クエリベクトル４ｖと特徴ベクトル５９ｖ－１のそれぞれの長さの２乗は、
１^２＋１^２＝２、
４^２＋４^２＋１^２＋１^２＝３４
である。
そして、数３の分母の値は、「２」と「３４」とを乗算して平方根を求めると、
√６８＝８．２４６
となる。よって、クエリベクトル４ｖと特徴ベクトル５９ｖ－１のコサイン類似度は、
５÷８．２４６＝０．６０６
となる。

また、クエリベクトル４ｖと特徴ベクトル５９ｖ－２のコサイン類似度を求める。まず、
数３の分子の値は、クエリベクトル４ｖと特徴ベクトル５９ｖ－２の内積を求めることで、
（１×６）＝６
となる。
クエリベクトル４ｖと特徴ベクトル５９ｖ－２のそれぞれの長さの２乗は、
１^２＋１^２＝２、
６^２＋１^２＋７^２＋３^２＝９５
である。
そして、数３の分母の値は、「２」と「９５」とを乗算して平方根を求めると、
√１９０＝１３．７８４
となる。よって、クエリベクトル４ｖと特徴ベクトル５９ｖ－２のコサイン類似度は、
６÷１３．７８４＝０．４３５
となる。この例では、文書データ３－１の方が、文書データ３－２より、検索キーワード７に類似している、という結果を得る。

図１３は、本実施例における検索処理の第一例を説明するための図である。図１３において、検索キーワード７として指定された「布団乾燥」に対して、分かち書き、不要語の削除、表記の統一等の文書前処理４５ｐが施され、「布団乾燥」の分かち書き検索キーワード６１を得る。

本実施例では、更に、初期設定処理部４０において、作成された学習済みモデル５５を用いて、分かち書き検索キーワード６１の各単語に対して学習済みモデル５５を用いて、最も類似する類似語をＮ個ずつ抽出し、得られた類似度をクエリベクトル６３ｖのインデックスの値として設定する。

この例では、類似語の抽出数がＮ＝３の場合を示しているが、この抽出数に限定されない。また、学習済みモデル５５から得られる結果には、分かち書き検索キーワード６１の各単語そのものの値も含まれるため、単語以外で抽出される類似語はＮ－１個となる。

具体的には、分かち書き検索キーワード６１から「布団」と「乾燥」とを得る。「布団」について、学習済みモデル５５を用いて、類似度の大きい順に２つの単語を抽出する。学習済みモデル５５で得られる類似度は、コサイン類似度を示す。この例では、
「毛布」（類似度＝０．８）、「マット」（類似度＝０．７）
を得る。また、「乾燥」について、学習済みモデル５５を用いて、類似度の大きい順に２つの単語を抽出する。即ち、
「乾く」（類似度＝０．９）、「ドライ」（類似度＝０．７）
を得る。

分かち書き検索キーワード６１で得られた２の単語「布団」と「乾燥」とに、得られたこれらの４つの単語「毛布」、「マット」、「乾く」、及び「ドライ」を加えて、クエリベクトル６３ｖが作成される。本実施例において、クエリベクトル６３ｖの作成は、以下のようにして行う。
（１）分かち書き検索キーワード６１で得られた単語を索引語とし、対応するインデックスの値として「１」を設定する。
分かち書き検索キーワード６１で得られた単語、即ち、「完全一致」となる単語を可能な限り優先するために、インデックスの値を最大値とする。
（２）学習済みモデル５５を用いて得られた類似語を索引語とし、対応するインデックスの値として、学習済みモデル５５で得られた類似度（１．０以下）を設定する。
（３）分かち書き検索キーワード６１で得られた単語と、当該単語の類似語以外の索引語に対応するインデックスの値は、「０」を示すものとする。
上述より、本実施例におけるクエリベクトル６３ｖの各要素は、０から１を示す。

次に、クエリベクトル６３ｖと、特徴ベクトル群５９の全ての特徴ベクトル５９ｖとに対してコサイン類似度を計算する。クエリベクトル６３ｖは、ｔｆ－ｉｄｆと同じく疎なベクトルで扱うことが可能である。つまり、クエリベクトル６３ｖは、
（３：１、６：０．８、８：０．７、１０６：０．９、１０７：１、６１３：０．７）
のような疎ベクトル表現５ｐ－０で示される。

また、コサイン類似度の計算回数も、分かち書き検索キーワード６１で得られた単語の個数分だけである。類似語を考慮したクエリベクトル６３ｖを用いたコサイン類似度の計算量は、図１２の類似語の考慮無しの場合と比べても、計算量に多きな差はない。

図１２の類似語の考慮無しの場合と同様に、検索キーワードに対して文書データ３－１と文書データ３－２のそれぞれとにおいて類似度を計算する。先ず、クエリベクトル６３ｖと特徴ベクトル５９ｖ－１について、数３の分子の値は、クエリベクトル４ｖと特徴ベクトル５９ｖ－１の内積を求めることで、
（１×４）＋（１×１）＋（０．７×１）＝５．７
となる。
クエリベクトル４ｖと特徴ベクトル５９ｖ－１のそれぞれの長さの２乗は、
１^２＋０．８^２＋０．７^２＋０．９^２＋１^２＋０．７^２＝４．４３、
４^２＋４^２＋１^２＋１^２＝３４
である。
そして、数３の分母の値は、「４．４３」と「３４」とを乗算して平方根を求めると、
√１５０．６２＝１２．２７３
となる。よって、クエリベクトル６３ｖと特徴ベクトル５９ｖ－１のコサイン類似度は、
５．７÷１２．２７３＝０．４６４
となる。

また、クエリベクトル６３ｖと特徴ベクトル５９ｖ－２とを用いてコサイン類似度を算出する。クエリベクトル６３ｖと特徴ベクトル５９ｖ－２について、数３の分子の値は、
（１×６）＋（０．８×１）＋（０．９×７）＋（０．７×３）＝１５．２
となる。
クエリベクトル４ｖと特徴ベクトル５９ｖ－２のそれぞれの長さの２乗は、
１^２＋０．８^２＋０．７^２＋０．９^２＋１^２＋０．７^２＝４．４３、
６^２＋１^２＋７^２＋３^２＝９５
である。
そして、数３の分母の値は、「４．４３」と「９５」とを乗算して平方根を求めると、
√４２０．８５＝２０．５１５
となる。よって、クエリベクトル６３ｖと特徴ベクトル５９ｖ－２のコサイン類似度は、
１５．２÷２０．５１５＝０．７４１
となる。この例では、文書データ３－２の方が、文書データ３－１より、検索キーワード７に類似している、という結果を得る。図１２の類似語の考慮無しの場合とは異なる類似度順となる。

クエリベクトル６３ｖに４つの類似語を加えたことで、特徴ベクトル５９ｖ－１では、一致するインデックスの数が３個であるのに対して、特徴ベクトル５９ｖ－２では、４個になっていることが影響していると考えられる。

これらのことから、本願発明では、文書データ３が示す内容の文脈的な意味が考慮されると考えられ、文章内容の意味的に精度良く検索キーワード７に適合する文書データ３を示すことができる。

本実施例では、更に、類似語を追加することで、検索キーワード７に含まれる単語が、索引語リスト５８に登録されていない場合であっても、文書データ３の類似性を精度良く判別することが可能である。

図１４は、本実施例における検索処理の第二例を説明するための図である。図１４において、検索キーワード７として、索引語リスト５８に存在しない単語「ＰＣ」が指定されたとする。単語「ＰＣ」に対して、分かち書き検索キーワード６１は「ＰＣ」である。

学習済みモデル５５によって、分かち書き検索キーワード６１に類似する２つの単語「パソコン」と「計算機」とを得る。分かち書き検索キーワード６１の単語「ＰＣ」は、索引語リスト５８に存在しないためインデックスを得られない。一方、単語「パソコン」と「計算機」とは索引語リスト５８に存在するため、それぞれのインデックスとして２番目と２０番目とを特定する。従って、クエリベクトル６３ｖでは、２つの単語「パソコン」と「計算機」に対応するインデックスの値に「１」が設定される。それらのインデックス以外では「０」が設定される。インデックスに値「１」が設定されたクエリベクトル６３ｖは、疎ベクトル表現５ｐ－０で示される。

この検索処理の第二例では、特徴ベクトル群５９において、文書データ３－３には、「パソコン」、「使用」、及び「履歴」の３つの単語が含まれ、それぞれの出現頻度が、対応する２番目、１００番目、及び１５０番目のインデックスに設定されている。また、文書データ３－４には、「計算機」、「実験」、及び「設備」の３つの単語が含まれ、それぞれの出現頻度が、対応する２０番目、９９番目、及び２１０番目のインデックスに設定されている。

クエリベクトル６３ｖと特徴ベクトル５９ｖ－３、５９ｖ－４（疎ベクトル表現５ｐ－３、５ｐ－４で示される）それぞれとの類似度を得て、それら値は、「0.44」、「0.38」である。これらの結果から、分かち書き検索キーワード６１が索引語リスト５８に存在しない場合であっても、ユーザ２が目的とする内容に近い文書データ３を検索することができる。

このように、本実施例によれば、分かち書き検索キーワード６１の単語が索引語リスト５８に存在しない場合であっても、予め学習して得られた学習済みモデル５５を用いて類似語を推論し、推論した類似語を用いて文書データ３を選択する。従って、ユーザ２が所望する文章内容に近い文書データ３を適切に選択し、ユーザ２に検索結果として提示することができる。

図１５は、本実施例における検索画面例を示す図である。図１５に示す検索画面Ｇ７０は、入力領域７０ａ、検索ボタン７０ｂ、件数設定領域７０ｃ、タグ情報指定領域７０ｄ、対象期間指定領域７０ｅ、検索結果表示領域７０ｆ等の画面部品を有する。

入力領域７０ａは、検索キーワード７を入力する領域である。検索ボタン７０ｂは、選択されることによって、入力領域７０ａに入力された検索キーワード７を情報処理装置１００へ送信する。

件数設定領域７０ｃは、単語ごとに類似度順に抽出する語彙数を指定可能とする領域である。タグ情報指定領域７０ｄは、検索結果データ６９に基づいて、タグ情報から得られる項目ごとの指定値の一覧を表示し、ユーザ２による選択を可能とする領域である。

対象期間指定領域７０ｅは、検索対象とする文書データ３に係る日付の範囲を指定する領域である。文書データ３の公開日等が指定されればよい。検索結果表示領域７０ｆは、検索結果データ６９に含まれる文書データ３を一覧で表示し、ユーザ２が一覧から文書データ３を選択可能とする領域であり、チェック領域、項目ＩＤ、説明文、種別、公開日、サイズ等の項目を有する。

この検索画面Ｇ７０では、ユーザ２が入力領域７０ａへ検索キーワード７を入力し、検索ボタン７０ｂを選択したことによって検索結果が表示された状態例を示している。検索結果表示領域７０ｆでは、４件以上の文書データ３が検索キーワード７と類似語とにより該当する文書データとして一覧表示されている。ユーザ２は、所望の文書データ３のチェック領域にチェックを入れることで、文書データ３を表示させることができる。

一方、タグ情報指定領域７０ｄ及び対象期間指定領域７０ｅに入力し検索ボタン７０ｂを選択することで、検索対象の範囲を絞り込むことが可能である。タグ情報指定領域７０ｄ及び対象期間指定領域７０ｅに入力された値は、検索キーワード７に含めて情報処理装置１００へ送信されればよい。

上述したように、本実施例では、検索キーワード７を分かち書き等の文書前処理４５ｐにより得られた分かち書き検索キーワード６１の単語ごとに学習済みモデル５５を用いて類似語を推論する。また、分かち書きで得た単語と類似度順に上位Ｎ個の類似語とを対象として、定めた設定方法でインデックスに値を設定した、疎なベクトルであるクエリベクトル６３ｖを作成し、文書データ３のそれぞれから生成した特徴ベクトル５９ｖとにおいて類似度を算出する。

このような仕組みにより、検索キーワード７と文書データ３とにおいて、コサイン類似度を用いた検索ランキング（類似性の高い文書データ３のランキング）の計算量を低減することができる。

実施例において、文書データ３は、文章の一例であり、検索キーワード７は、検索クエリの一例であり、単語埋め込み部４２ｃは、取得部の一例であり、クエリベクトル作成部４２ｄは、作成部の一例であり、類似度算出部４２ｅは、算出部の一例である。また、結果送信部４２ｇは、出力部の一例である。

本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

以上の本実施例を含む実施形態に関し、更に以下の付記を開示する。
（付記１）
単語の意味的な類似性を考慮した文書を検索する情報処理装置において、
検索キーワードを分かち書きした単語ごとに類似する語を、単語埋め込みによる学習済みモデルで推論された類似度順に所定個を取得する取得部と、
前記検索キーワードの単語を索引語とするインデックスに対応する第１の要素には１を設定し、前記類似する語を索引語とするインデックスに対応する第２の要素には得られた類似度に応じて０から１の範囲で値を設定し、該第１の要素及び該第２の要素以外の第３の要素には０を設定したクエリベクトルを作成する作成部と、
前記文書を分かち書きすることで得られた単語を用いて該文書の特徴を表す特徴ベクトルを作成する特徴ベクトル化処理部と、
前記クエリベクトルと前記特徴ベクトルとの類似度を算出する算出部と
を有する情報処理装置。
（付記２）
インターネットを介して収集した公開情報を用いて、該公開情報に含まれる単語間の類似性を前記単語埋め込みにより学習し、前記学習済みモデルを作成する初期設定処理部
を有することを特徴とする付記１記載の情報処理装置。
（付記３）
前記算出部によって算出された前記類似度の大きい順に前記文書と該文書に係るタグ情報とを示した検索結果を出力する出力部を有し、
前記検索結果に対して前記タグ情報の少なくとも１つの値を指定した検索要求の受け付けに応じて、検索範囲を絞り込む
ことを特徴とする付記２記載の情報処理装置。
（付記４）
前記検索キーワードに含まれる単語が前記索引語に対応しない場合、前記クエリベクトルは前記類似する語を用いて作成される
ことを特徴とする付記１乃至３のいずれか一項記載の情報処理装置。
（付記５）
前記クエリベクトルの次元数と、前記特徴ベクトルの次元数と、前記索引語の個数とは一致することを特徴とする付記４記載の情報処理装置。
（付記６）
単語の意味的な類似性を考慮した文書を検索する情報処理方法において、
検索キーワードを分かち書きした単語ごとに類似する語を、単語埋め込みによる学習済みモデルで推論された類似度順に所定個を取得し、
前記検索キーワードの単語を索引語とするインデックスに対応する第１の要素には１を設定し、前記類似する語を索引語とするインデックスに対応する第２の要素には得られた類似度に応じて０から１の範囲で値を設定し、該第１の要素及び該第２の要素以外の第３の要素には０を設定したクエリベクトルを作成し、
前記文書を分かち書きすることで得られた単語を用いて該文書の特徴を表す特徴ベクトルを作成し、
前記クエリベクトルと前記特徴ベクトルとの類似度を算出する
処理をコンピュータが実行する情報処理方法。
（付記７）
単語の意味的な類似性を考慮した文書を検索する情報処理プログラムにおいて、
検索キーワードを分かち書きした単語ごとに類似する語を、単語埋め込みによる学習済みモデルで推論された類似度順に所定個を取得し、
前記検索キーワードの単語を索引語とするインデックスに対応する第１の要素には１を設定し、前記類似する語を索引語とするインデックスに対応する第２の要素には得られた類似度に応じて０から１の範囲で値を設定し、該第１の要素及び該第２の要素以外の第３の要素には０を設定したクエリベクトルを作成し、
前記文書を分かち書きすることで得られた単語を用いて該文書の特徴を表す特徴ベクトルを作成し、
前記クエリベクトルと前記特徴ベクトルとの類似度を算出する
処理をコンピュータに行わせる情報処理プログラム。

２ユーザ
３文書データ
７検索キーワード
４０初期設定処理部
４０ａコーパス前処理部
４０ｂ文書前処理部
４０ｃ単語埋め込み部
４１特徴ベクトル化処理部
４１ａ説明文抽出部
４１ｂ文書前処理部
４１ｃ特徴ベクトル作成部
４２検索処理部
４２ａキーワード受信部
４２ｂ文書前処理部
４２ｃ単語埋め込み部
４２ｄクエリベクトル作成部
４２ｅ類似度算出部
４２ｆタグ情報抽出部
４２ｇ結果送信部
１００情報処理装置
２００端末

Claims

単語の意味的な類似性を考慮した文書を検索する情報処理装置において、
検索キーワードを分かち書きした単語ごとに類似する語を、単語埋め込みによる学習済みモデルで推論された類似度順に所定個を取得する取得部と、
前記検索キーワードの単語を索引語とするインデックスに対応する第１の要素には１を設定し、前記類似する語を索引語とするインデックスに対応する第２の要素には得られた類似度に応じて０から１の範囲で値を設定し、該第１の要素及び該第２の要素以外の第３の要素には０を設定したクエリベクトルを作成する作成部と、
前記文書を分かち書きすることで得られた単語を用いて該文書の特徴を表す特徴ベクトルを作成する特徴ベクトル化処理部と、
前記クエリベクトルと前記特徴ベクトルとの類似度を算出する算出部と、
前記算出部によって算出された前記類似度の大きい順に前記文書と該文書に係るタグ情報とを示した検索結果を出力する出力部と
を有する情報処理装置。
インターネットを介して収集した公開情報を用いて、該公開情報に含まれる単語間の類似性を前記単語埋め込みにより学習し、前記学習済みモデルを作成する初期設定処理部
を有することを特徴とする請求項１記載の情報処理装置。
前記検索結果に対して前記タグ情報の少なくとも１つの値を指定した検索要求の受け付けに応じて、検索範囲を絞り込む
ことを特徴とする請求項２記載の情報処理装置。
前記検索キーワードに含まれる単語が前記索引語に対応しない場合、前記クエリベクトルは前記類似する語を用いて作成される
ことを特徴とする請求項１乃至３のいずれか一項記載の情報処理装置。
単語の意味的な類似性を考慮した文書を検索する情報処理方法において、
検索キーワードを分かち書きした単語ごとに類似する語を、単語埋め込みによる学習済みモデルで推論された類似度順に所定個を取得し、
前記検索キーワードの単語を索引語とするインデックスに対応する第１の要素には１を設定し、前記類似する語を索引語とするインデックスに対応する第２の要素には得られた類似度に応じて０から１の範囲で値を設定し、該第１の要素及び該第２の要素以外の第３の要素には０を設定したクエリベクトルを作成し、
前記文書を分かち書きすることで得られた単語を用いて該文書の特徴を表す特徴ベクトルを作成し、
前記クエリベクトルと前記特徴ベクトルとの類似度を算出し、
算出された前記類似度の大きい順に前記文書と該文書に係るタグ情報とを示した検索結果を出力する、
処理をコンピュータが実行する情報処理方法。