JP7388256B2 - 情報処理装置及び情報処理方法 - Google Patents

情報処理装置及び情報処理方法 Download PDF

Info

Publication number
JP7388256B2
JP7388256B2 JP2020041293A JP2020041293A JP7388256B2 JP 7388256 B2 JP7388256 B2 JP 7388256B2 JP 2020041293 A JP2020041293 A JP 2020041293A JP 2020041293 A JP2020041293 A JP 2020041293A JP 7388256 B2 JP7388256 B2 JP 7388256B2
Authority
JP
Japan
Prior art keywords
word
search
similarity
index
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020041293A
Other languages
English (en)
Other versions
JP2021144348A (ja
Inventor
慶行 坂巻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2020041293A priority Critical patent/JP7388256B2/ja
Publication of JP2021144348A publication Critical patent/JP2021144348A/ja
Application granted granted Critical
Publication of JP7388256B2 publication Critical patent/JP7388256B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、情報処理装置及び情報処理方法に関する。
近年、データマーケットでは、通常、指定のキーワードとの類似度が高い情報を検索結果として提供している。キーワードとの一致性による類似度では、ユーザが所望する情報を適切に検索できない場合がある。そのため、Word2Vec技術を用いて、語句同士の類似度を算出して得られた意味関係に基づいて、類似語句によって検索処理を行う技術等が知られている。
特開2019-074982号公報
上述した技術では、キーワードと、キーワードとの意味関係において類似する類似語とにより、抽出する情報の幅を広げることができる。しかしながら、ユーザが指定したキーワードに加えて類似語をも用いて情報検索(文書検索ともいう)を行うことになる。一般に、文書の全内容の解析には処理時間が掛かる。文書量が多い場合には、キーワードと類似語とを用いた検索には、より多くの処理時間を要する。
したがって、1つの側面では、文書検索の計算量を低減することを目的とする。
一態様によれば、単語の意味的な類似性を考慮した文書を検索する情報処理装置において、検索キーワードを分かち書きした単語ごとに類似する語を、単語埋め込みによる学習済みモデルで推論された類似度順に所定個を取得する取得部と、前記検索キーワードの単語を索引語とするインデックスに対応する第1の要素には1を設定し、前記類似する語を索引語とするインデックスに対応する第2の要素には得られた類似度に応じて0から1の範囲で値を設定し、該第1の要素及び該第2の要素以外の第3の要素には0を設定したクエリベクトルを作成する作成部と、前記文書を分かち書きすることで得られた単語を用いて該文書の特徴を表す特徴ベクトルを作成する特徴ベクトル化処理部と、前記クエリベクトルと前記特徴ベクトルとの類似度を算出する算出部と、前記算出部によって算出された前記類似度の大きい順に前記文書と該文書に係るタグ情報とを示した検索結果を出力する出力部とを有する情報処理装置が提供される。
文書検索の計算量を低減することができる。
情報検索システムの概要を示す図である。 情報処理装置のハードウェア構成例を示す図である。 端末のハードウェア構成例を示す図である。 本実施例における情報処理装置の機能構成例を示す図である。 本実施例における初期設定処理部の機能構成例を示す図である。 本実施例における特徴ベクトル化処理部の機能構成例を示す図である。 本実施例における検索処理部の機能構成例を示す図である。 初期設定処理を説明するためのフローチャートである。 特徴ベクトル化処理を説明するためのフローチャートである。 検索処理の第一の例を説明するためのフローチャートである。 検索処理の第二の例を説明するためのフローチャートである。 類似語の考慮無しの検索処理例を説明するための図である。 本実施例における検索処理の第一例を説明するための図である。 本実施例における検索処理の第二例を説明するための図である。 本実施例における検索画面例を示す図である。
以下、本発明の実施の形態を図面に基づいて説明する。先ず、情報検索システムの概要について説明する。図1は、情報検索システムの概要を示す図である。
図1より、情報検索システム1000では、情報処理装置100と、ユーザ2が利用する端末200とを有する。端末200は、ネットワークを介して情報処理装置100に接続可能である。情報処理装置100には、情報を検索しようとするユーザ2の端末200が接続可能である。
端末200では、ユーザ2が検索キーワード7を入力すると、キーワード検索21が実行され、検索キーワード7を指定したクエリにより検索要求がネットワークを介して情報処理装置100へ送信される。情報処理装置100では、端末200からの検索要求に応じて、検索キーワード7を取り出し、取り出された検索キーワード7を用いて検索処理41pが実行される。
一方、情報処理装置100は、文書データ3が登録されるごとに、文書前処理45pを実行し、文書データ3から抽出した新たな単語を検索用中間データ60に記憶しておく。そのようにすることで、検索処理41pは、検索キーワード7との一致、類似性により特定された索引語1dを最も多く含む順に文書データ3を取得する。検索用中間データ60は、検索処理に用いる、索引語リスト58及び特徴ベクトル群59(図6)を保持する。
検索処理41pは、取得した文書データ3を検索結果データ59に含めてネットワークを介して端末200に送信する。検索結果データ59には、検索キーワード7に適合した文書データ3が含まれる。
文書データ3それぞれは、1文書の全内容を示してもよいが、文章の概要を説明した説明文のみであってもよい。また、文書データ3は、必ずしも言語による文書の説明文でなくてもよく、画像、音声等のマルチメディアに対する説明文であってもよい。また、文書データ3から抽出された索引語は、メタデータで検索用中間データ60に管理されてもよい。
本実施例では、文書の内容全体を検索することなく、単語の意味的な類似性に基づく検索ランキングの計算量を低減する仕組みを開示する。本実施例では、曖昧な検索キーワード7(検索クエリともいう)で検索する際に、文書データ3のランキングは、検索する検索キーワード7と一致する単語及び意味的な類似度が高い単語を含む文書データ3を上位にする。
図2は、情報処理装置のハードウェア構成例を示す図である。図2より、情報処理装置100は、コンピュータであって、CPU111と、主記憶装置112と、補助記憶装置113と、入力装置114と、表示装置115と、通信I/F117と、ドライブ装置118とを有し、バスB1に接続される。主記憶装置112と、補助記憶装置113、及び情報処理装置100がアクセス可能な外部記憶装置を含めて、記憶部130という。
CPU111は、情報処理装置100を制御するプロセッサに相当し、記憶部130に格納されたプログラムを実行することで、以下に説明する本実施例に係る様々な処理を実現する。入力装置114は、ユーザ2によって操作され、操作に応じてデータを入力し、表示装置115は、ユーザーインタフェースとして様々な画面を表示する。通信I/F117は、外部装置との通信を制御する。
記憶媒体119(例えば、CD-ROM(Compact Disc Read-Only Memory)等)に記憶された本実施例における検索に係るさまざまな処理を実現するためのプログラムは、ドライブ装置118を介して記憶部130にインストールされ、CPU111によって実行可能となる。
尚、本実施例におけるプログラムを格納する記憶媒体119はCD-ROMに限定されず、コンピュータが読み取り可能な、構造(structure)を有する1つ以上の非一時的(non-transitory)な、有形(tangible)な媒体であればよい。コンピュータ読取可能な記憶媒体として、CD-ROMの他に、DVD(Digital Versatile Disk)ディスク、USBメモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリであっても良い。
図3は、端末のハードウェア構成例を示す図である。図3より、端末3は、コンピュータによって制御されるタブレット型、携帯電話等の情報処理端末であって、CPU211と、主記憶装置212と、ユーザI/F(インターフェース)216と、通信I/F217と、ドライブ装置218とを有し、バスB2に接続される。主記憶装置212、記憶媒体219等を総称して記憶部230という。
CPU211、端末3を制御するプロセッサに相当し、記憶部230に格納されたプログラムに従ってプログラムを実行することで、以下に説明する本実施例に係る様々な処理を実現する。ユーザI/F216は、CPU211の制御のもとに必要な各種情報を表示し、また、ユーザ2による操作入力を可能とするタッチパネル等である。通信I/F217による通信は無線又は有線に限定されるものではない。
端末3によって行われる処理を実現するプログラムは、ネットワークを介して外部装置からダウンロードされる。或いは、予め端末3の主記憶装置212又は記憶媒体219に記憶されていても良い。
ドライブ装置218は、ドライブ装置218にセットされた記憶媒体219(例えば、SD(Secure Digital)メモリカード等)と端末3とのインターフェースを行う。尚、記憶媒体219は、コンピュータが読み取り可能な、構造(structure)を有する1つ以上の非一時的(non-transitory)な、有形(tangible)な媒体であればよい。
端末3は、デスクトップ型、ノートブック型、ラップトップ型等の情報処理端末であっても良く、そのハードウェア構成は、図2のハードウェア構成と同様であるので、その説明を省略する。
図4は、本実施例における情報処理装置の機能構成例を示す図である。図4より、情報処理装置100は、主に、初期設定処理部40と、特徴ベクトル化処理部41と、検索処理部42とを有する。各処理部40~42は、情報処理装置100にインストールされたプログラムが、情報処理装置100のCPU11に実行させる処理により実現される。また、記憶部130には、主には、学習用コーパス51、学習済みモデル55、メタデータDB56、特徴ベクトル群59、検索結果リスト65、検索結果タグ情報66等のデータが記憶される。
初期設定処理部40は、インターネットを利用して、Web上に存在する様々な分野の情報(ホームページ等)を参照する等を行うことで得られる大規模な自然言語で表現される文章の集合体について、その情報内で表される文脈的な単語の共起性を用いて、ニューラルネットワークを利用したword2vec等によって学習し、単語の使われ方に基づいて単語ベクトルを作成する。
学習用コーパス51は、インターネットを介して収集する等して作成した様々な分野の文章の集合体に相当し、学習済みモデル55は、入力された単語をベクトル(単語ベクトル)で表すニューラルネットワーク等から生成されたパラメータの集合である。作成された単語ベクトルは、200次元程度の密なベクトルである。学習用コーパス51の中で文脈的に同じ使われ方の単語同士は、経験的に意味が近しい単語であるとみなせる。具体的には、それらの単語ベクトルのコサイン類似度は大きくなる。このようなニューラルネットワークとして、CBOW(Continuous Bag-of-Word)モデル、Skip-Gramモデル等の手法を用いたword2vecを利用すればよいが、この例に限定されない。
そして、本実施例では、検索処理部42による検索処理において、学習済みモデル55を利用することで、ある語(検索キーワード7から得られるそれぞれの単語)に対して意味の類似する単語を取得できる。
特徴ベクトル化処理部41は、検索対象となる文書データ3の入力に応じて、文書データ3に含まれる単語ごとにその出現頻度を示した特徴ベクトル59vを作成し、特徴ベクトル群59に蓄積する。
検索キーワード7と文書データ3とをベクトルに変換し、それを用いて検索する手法をベクトル空間モデルという。ベクトル空間モデルの中で、単語の出現頻度に基づき文書データ3の特徴ベクトル59vへと変換する手法がある。
tf(Term Frequency:単語の出現頻度)、idf(Inverse Document Frequency:逆文書頻度)、及び、それらの組み合わせで計算するtf-idfによる特徴ベクトル変換方法が知られている。特徴ベクトル59vの要素番号は、索引語のインデックスに対応付けられ、次元は索引語の個数となる。
文書データ3は、文章全体の内容を示すデータの代わりに要約等のような説明文を示すデータであり、メタデータが用いられてもよい。文書データ3は、特徴ベクトル化処理部41によって、メタデータDB56に格納される。
本実施例では、文書データ3から得られる説明文に含まれる単語を索引語として抽出し、新たな単語を検出するごとに、インデックスが割り当てられ索引語として索引語リスト58(図7)に登録する。説明文に含まれる単語の出現頻度を解析することで特徴ベクトル59vを得る。得られた特徴ベクトル59vは、その各要素を索引語のインデックスに対応付けた疎なベクトルで表現される。
検索処理部42は、検索キーワード7と、検索キーワード7の類似語とを用いて、文書データ3を特定し、類似順に一覧にした検索結果リスト65を取得作成し、端末200に提供する。検索処理部42は、学習済みモデル55を参照して、検索キーワード7に類似する類似語を取得し、検索キーワード7と、取得した類似語とを索引語とし、インデックスに値を設定したクエリベクトル63vを作成する。クエリベクトル63vについても、要素番号は索引語のインデックスに対応付けられ、次元は索引語の個数となる。
検索処理部42は、クエリベクトル63vに対して最も類似する特徴ベクトル59vを、特徴ベクトル群59から検索することで、検索キーワード7に対して、より適切な文書データ3を特定することができる。類似度順に文書データ3が示された検索結果リスト65が端末200へ提供される。
また、検索処理部42は、特定した文書データ3がメタデータである場合には、検索結果タグ情報66を取得し、検索結果リスト65と検索結果タグ情報66とに基づいて、検索範囲の絞り込みを可能としてもよい。検索結果タグ情報66には、文書データ3ごとのカテゴリ、日付等のタグとその値とが示される。検索結果リスト65と検索結果タグ情報66とに基づいて、カテゴリ、日付等の1以上のタグを示し、タグの選択により絞り込み可能な検索結果データ69を、端末200に送信してもよい。
端末200では、表示された検索結果データ69から選択によりタグとその値とを指定した再検索が行われることで、ユーザ2が意図する検索に、より適合した検索結果リスト65を得ることができ、精度よい検索結果を端末200に提供可能となる。
次に、初期設定処理部40、特徴ベクトル化処理部41、及び検索処理部42のそれぞれの機能構成例について説明する。
図5は、本実施例における初期設定処理部の機能構成例を示す図である。図5より、初期設定処理部40は、コーパス前処理部40aと、文書前処理部40bと、単語埋め込み部40cとを有する。記憶部130には、初期設定処理部40に関して、学習用コーパス51及び学習済みモデル55に加えて、前処理済みコーパス52、分かち書きデータ53、辞書54等が記憶される。
コーパス前処理部40aは、学習用コーパス51の情報から事前言語で記述された文書を取得し、記憶部130内に前処理済みコーパス52として蓄積する。
学習用コーパス51は、単語間の類似性を多次元空間(凡そ200次元のドキュメント空間)で学習するために、インターネットを介して収集したホームページ等の情報を蓄積している。学習用コーパス51に保持する対象となる情報は、例えば、百科事典、用語集、辞書など、ある単語又は用語を定義又は説明したまとまりのある情報群を用いることが好ましい。ある単語又は用語と、それを定義又は説明に用いた単語との間には、関連性や類似性があると考えられ、学習を効率的かつ精度良く行える。
文書前処理部40bは、前処理済みコーパス52に対して、辞書54を用いて、文書前処理45pを行い、分かち書きデータ53を取得する。前処理済みコーパス52に対しては、分かち書きに加えて、不要語を削除し、表記を統一することが好ましい。本実施例における分かち書きデータ53は、分かち書き、不要語の削除、及び表記の統一がなされたデータとする。
辞書54には、分かち書きを効率的に行うために蓄積された単語(主に、名詞、動詞、及び形容詞などの自立語)がまとめられている。初期設定処理部40では、文書前処理部40bにより、前処理済みコーパス52に対して分かち書きが行われる。
単語埋め込み部40cは、分かち書きデータ53をニューラルネットワークに学習させ、学習済みモデル55を取得する。取得した学習済みモデル55は、検索処理部42で利用される。
図6は、本実施例における特徴ベクトル化処理部の機能構成例を示す図である。図6より、特徴ベクトル化処理部41は、説明文抽出部41aと、文書前処理部41bと、特徴ベクトル作成部41cとを有する。記憶部130には、特徴ベクトル化処理部41に関して、メタデータDB56、説明文56d、分かち書きメタデータ57、索引語リスト58、辞書54、特徴ベクトル群59等が記憶される。
説明文抽出部41aは、検索対象となる文書データ3から自然言語で記述される説明文56dを抽出し記憶部130に記憶する。説明文抽出部41aは、新たな文書データ3が入力されるごとに、メタデータDB56に登録し、説明文56dを抽出する。
メタデータDB56には、検索により提供可能な文書データ3が保持され、このように情報提供用のデータが収集されたデータベースは、一例としてデータマーケットで利用され、文書データ3は、XML(eXtensible Markup Language)等のデータ構造を有する形式で保存される。
文書前処理部41bは、説明文56dに対して、初期設定処理部40の文書前処理部40bと同様の文書前処理45pを行って分かち書きメタデータ57を取得する。文書前処理部41bにおいても、説明文56dに対して、分かち書きに加えて、不要語を削除し、表記を統一することが好ましい。本実施例における分かち書きデータ53は、分かち書き、不要語の削除、及び表記の統一がなされたデータとする。分かち書きメタデータ57は、文書データ3と関連付けて記憶部130に記憶される。
また、文書前処理部41bは、説明文56dに対する文書前処理45pにおいて分かち書きにより得られた複数の単語を、文書データ3(説明文56d)と関連付けて索引語リスト58に格納する。索引語リスト58では、高速化のためにハッシュインデックスとすることが好ましい。
特徴ベクトル作成部41cは、分かち書きメタデータ57と索引語リスト58とを参照して、特徴ベクトル59vを作成し、文書データ3と関連付けて特徴ベクトル群59に蓄積する。特徴ベクトル59vは、索引語をインデックスに持つ疎なベクトルである。インデックスの値の一例として、単語の出現回数又は単語の出現回数に基づく量(先に述べたtf、idf等)が設定されればよい。
図7は、本実施例における検索処理部の機能構成例を示す図である。図7より、検索処理部42は、キーワード受信部42aと、文書前処理部42bと、単語埋め込み部42cと、クエリベクトル作成部42dと、類似度算出部42eと、タグ情報抽出部42fと、結果送信部42gとを有する。記憶部130には、検索処理部42に関連して、検索キーワード7、分かち書き検索キーワード61、辞書54、学習済みモデル55、類似語単語群62、索引語リスト58、クエリベクトル63v、特徴ベクトル群59、類似度リスト64、メタデータDB56、検索結果リスト65、検索結果タグ情報66等が記憶される。
キーワード受信部42aは、端末200から検索キーワード7を受信すると、記憶部130に記憶する。
文書前処理部42bは、検索キーワード7の受信に応じて、検索キーワード7に対して、初期設定処理部40の文書前処理部40bと同様の文書前処理45pを行って分かち書き検索キーワード61を取得する。
単語埋め込み部42cは、学習済みモデル55を用いて、分かち書き検索キーワード61それぞれを入力することで、各分かち書き検索キーワード61に対して、類似度に基づいて類似順にN個の単語を取得し、類似単語群62を出力する。ここで、Nは例えば件数設定領域70cで設定される整数であり、類似単語個数62wに格納されるものである。
クエリベクトル作成部42dは、検索キーワード7と類似単語群62とを用いて、クエリベクトル63vを作成する。作成されたクエリベクトル63vは、検索キーワード7と、類似単語群62に含まれる各類似単語とを索引語とし、対応するインデックスには類似度が設定され、それ以外の単語に対応するインデックスには0が設定された疎ベクトルを示す。
類似度算出部42eは、クエリベクトル63vと、特徴ベクトル群59に含まれるそれぞれの特徴ベクトル59vとの類似度を算出し、類似度が大きい順に説明文56d等を示した検索結果リスト65を出力する。本実施例では、類似度の算出に、コサイン類似度を用いるが、これに限定されない。
まず、類似度算出部42eは、算出した類似度を、特徴ベクトル59vに関連付けられた文書データ3と対応付けして、類似度リスト64を記憶部130に出力する。そして、類似度算出部42eは、類似度リスト64において、類似度が大きい順に、メタデータDB56から特徴ベクトル59vに関連付けられた文書データ3を取得して検索結果リスト65を作成する。
タグ情報抽出部42fは、検索結果リスト65で指定される文書データ3ごとに、タグ情報を取得して検索結果タグ情報66を作成し出力する。
結果送信部42gは、検索結果リスト65と検索結果タグ情報66とに基づく検索結果データ69を端末200に送信する。ユーザ2は、検索結果データ69で検索結果を確認し、検索結果タグ情報66に基づくカテゴリ、日付等の1以上の項目(以下、絞り込み項目という)で検索範囲の絞り込みを行ってもよい。キーワード、絞り込み項目等の変更又は追加により検索キーワード7が更新される。
更新された検索キーワード7の受信に応じて、検索処理部42では、キーワード受信部42a等により上述した同様の処理が繰り返される。この場合、類似度算出部42eは、カテゴリ、日付等の絞り込み項目と一致する文書データ3に絞り込み、該当する特徴ベクトル59vとにおいて、クエリベクトル63vとの類似度を算出し、類似度リスト64を出力する。類似度リスト64の更新に応じて、検索結果リスト65も更新される。また、検索結果リスト65の更新に応じて、タグ情報抽出部42fは、検索結果タグ情報66を更新する。
一方、上記機能構成例において、タグ情報抽出部42fは、省略可能である。タグ情報抽出部42fを省略した場合、類似度算出部42eによる検索結果リスト65の記憶部130への出力に応じて、検索結果データ69が端末200へ提供されればよい。
次に、初期設定処理部40による初期設定処理と、特徴ベクトル化処理部41による特徴ベクトル化処理と、検索処理部42による検索処理のそれぞれについて、フローチャートで説明する。
図8は、初期設定処理を説明するためのフローチャートである。図8より、初期設定処理部40では、コーパス前処理部40aが、学習用コーパス51の各コーパスから自然言語の記述部分を抽出して前処理済みコーパス52を生成する(ステップS401)。生成された前処理済みコーパス52は、記憶部130に記憶される。
次に、文書前処理部40bが、前処理済みコーパス52に対して分かち書き、不要語の削除、表記の統一等の文書前処理45pを行い、得られたデータを類似単語学習用の分かち書きデータ53として記憶部130に保存する(ステップS402)。
そして、単語埋め込み部40cが、類似単語学習用の分かち書きデータ53に含まれるそれぞれの単語をベクトルで表現し、ニューラルネットワークにより類似性を学習させて、学習済みモデル55を作成する(ステップS403)。一例として、word2vec等により、学習用コーパス51の中で文脈的な単語の共起性を用いて学習を行い、単語の使われ方に基づいて単語ベクトルを作成すればよい。作成された学習済みモデル55は、記憶部130に記憶される。そして、初期設定処理は終了する。
図9は、特徴ベクトル化処理を説明するためのフローチャートである。図9より、特徴ベクトル化処理部41では、検索対象となる文書データ3を受信すると、説明文抽出部41aが、文書データ3に対して、自然言語で記述された説明文56dを抽出する(ステップS411)。
説明文抽出部41aは、文書データ3をメタデータ形式で受信した場合は、文書データ3から説明文56dを抽出して、文書データ3をそのままメタデータDB56に蓄積し、自然言語の記載のみで受信した場合には、データ構造に説明文56dを含めたメタデータをメタデータDB56に蓄積する。
そして、文書前処理部41bは、抽出した説明文56dを、分かち書きし、不要語を削除し、表記を統一して、分かち書きメタデータ57を取得する(ステップS412)。また、文書前処理部41bは、分かち書きメタデータ57より、索引語リスト58を作成又は更新する(ステップS413)。辞書54を用いて、形態素解析により分かち書きを行えばよい。
特徴ベクトル作成部41cは、検索対象の各文章の分かち書きメタデータ57から特徴ベクトル59vを作成し、特徴ベクトル群59を得る(ステップS414)。一例として、tf-idfを用いて、特徴ベクトル59vを算出する。
idf(Inverse Document Frequency:逆文書頻度)は、例えば、
Figure 0007388256000001



により得る。数1において、Nは全メタデータの個数を示し、nは索引語tを含む文書の個数を示す。tf(Term Frequency:単語の出現頻度)は、例えば、
Figure 0007388256000002

により得る。数2において、occsは文書dの中の索引語tの個数を示し、lengthは文書dの中の索引語の個数を示す。
上記処理を、新たな文書データ3ごとに行ってもよいし、文書データ3を記憶部130に保持しておき、所定間隔で上記処理を行ってもよい。全ての文書データ3について特徴ベクトル59vが作成されると、特徴ベクトル化処理は終了する。
図10は、検索処理の第一の例を説明するためのフローチャートである。第一の例では、図7に示す機能構成例において、タグ情報抽出部42fが省略された場合で説明する。図10より、検索処理部42では、キーワード受信部42aが、検索キーワード7を受信すると、記憶部130に記憶する(ステップS421)。
文書前処理部42bは、検索キーワード7を分かち書きし、不要語を削除し、表記を統一することで、分かち書き検索キーワード61を取得する(ステップS422)。辞書54を用いて、形態素解析により分かち書きを行えばよい。
分かち書き検索キーワード61を得ると、単語埋め込み部42cが、得られた分かち書き検索キーワード61ごとに、学習済みモデル55を用いて、類似単語個数62wに保存される整数Nについて、類似度順に上位N個の類似単語と、その類似度とを取得する(ステップS423)。類似単語と得られた類似とを示す類似単語群62が記憶部130に記憶される。
クエリベクトル作成部42dは、検索キーワード7に対応する索引語のインデックスの値を1に、類似単語に対応する索引語のインデックスの値を類似単語群62から得られる類似度に、その他の索引語のインデックスの値を0に設定したクエリベクトル63v(疎なベクトル)を作成する(ステップS424)。
類似度算出部42eは、クエリベクトル63vと、メタデータごとに定まる特徴ベクトル59vそれぞれとのコサイン類似度に基づいて、類似度順に文書データ3を並べた検索結果リスト65を出力する(ステップS425)。コサイン類似度は、
Figure 0007388256000003
で表される。クエリベクトル63vと特徴ベクトル59vとの内積に対して、各ベクトルの長さを乗算した値で除算(正規化)することにより得られる。類似度の算出は、コサイン類似度に限定されない。
結果送信部42gは、検索結果リスト65に基づく検索結果データ69を送信して、端末200に表示させる(ステップS426)。その後、検索処理は終了する。
図11は、検索処理の第二の例を説明するためのフローチャートである。第二の例では、図7に示す機能構成例において、タグ情報抽出部42fを含む場合で説明する。図11に示すステップS421~S425の処理は、図10と同様であるため、その説明を省略する。従って、第一の例とは異なるステップS430~S434の処理について説明する。
検索処理部42において、検索結果リスト65が記憶部130に記憶されると、タグ情報抽出部42fが、検索結果リスト6で特定される各文書データ3のタグ情報を取得し、取得したタ情報を示す検索結果タグ情報66を記憶部130に出力する(ステップS430)。そして、結果送信部431は、検索結果リスト65と検索結果タグ情報66とに基づく検索結果データ69を端末200に送信する(ステップS431)。
検索結果データ69を送信後、再検索の要求があったか否か、即ち、端末200から検索キーワード7を再度受信したか否かを判定する(ステップS432)。再検索である場合(ステップS432のYES)、キーワード受信部42aは、受信した検索キーワード7に付加されているタグ指定等を取得し(ステップS433)、取得したタグ指定等に従って、記憶部130に記憶された検索キーワードを更新する(ステップS434)。タグ指定の他に対象期間が指定されていてもよい。
その後、検索処理は、ステップS422から上述した同様の処理を繰り返す。この場合、ステップS425において、類似度算出部42eは、タグ指定と一致するメタデータを対象として、クエリベクトル63vとの類似度を算出する。
一方、再検索でない場合(ステップS432のNO)、検索処理は終了する。一例として、定めた時間以上、検索キーワード7を受信しなかった場合、検索処理は終了する。
次に、検索キーワード7の類似語を考慮しない検索処理例と、検索キーワード7の類似語を考慮する機能を有する本実施例における検索処理例とについて説明する。いずれの検索処理例においても検索キーワード7は、同じ「布団乾燥」とする。説明を簡潔にするため、類似語の考慮無しの検索処理例においても、本実施例における検索処理例と同様に疎なベクトルを用いて類似度の算出を行うものとする。他方、疎なベクトルを用いない構成である場合には、より一層の計算処理を要する。
図12は、類似語の考慮無しの検索処理例を説明するための図である。図12において、検索キーワード7として指定された「布団乾燥」に対して、分かち書き、不要語の削除、表記の統一等の文書前処理45pが施され、「布団 乾燥」の分かち書き検索キーワード61を得る。
分かち書き検索キーワード61から、「布団」と「乾燥」の2つの単語が抽出される。文書データ3とのコサイン類似度を計算するために、予め定められた索引語との一致に応じて、インデックスの値を設定し疎なベクトルを作成する。この例では、クエリベクトル4vをOne-hot表現とした例で説明するが、他の表現方法であってもよい。クエリベクトル4vを初期化し、全インデックスの値をゼロに設定する。そして、この例では、「布団」に対応付けられている3番目のインデックスと、「乾燥」に対応付けられている107番目のインデックスとに対して、それぞれの値を「1」に設定する。
この例では、3番目と107番目のインデックスに「1」が設定されたクエリベクトル4vを、
(3:1、107:1)
のような疎ベクトル表現4pで示す。この疎ベクトル表現4p(即ち、クエリベクトル4v)が、文書データ3とのコサイン類似度を求める際に利用されるベクトルである。
一方、メタデータDB56で保持される複数の文書データ3のうち、文書データ3-1が「布団乾燥機、ドライ機能」であり、文書データ3-2が「布団と毛布を乾かすのにドライ機能」であるとする。文書データ3-1から「布団」、「乾燥」、及び「ドライ」が抽出される。また、文書データ3-2から「布団」、「毛布」、「乾く」、及び「ドライ」が抽出される。これらの単語「布団」、「毛布」、「乾く」、「乾燥」、及び「ドライ」は、3番目、6番目、8番目、106番目、107番目、613番目のインデックスにそれぞれ対応付けられる。
この場合、文書データ3-1の特徴ベクトル59v-1では、3番目のインデックスの値に「4」、7番目のインデックスの値に「4」、107番目のインデックスの値に「1」、及び613番目のインデックスの値に「1」が設定されている。また、文書データ3-2の特徴ベクトル59v-2では、3番目のインデックスの値に「6」、6番目のインデックスの値に「1」、106番目のインデックスの値に「7」、及び613番目のインデックスの値に「3」が設定されている。
そして、文書データ3-1の特徴ベクトル59v-1は、
(3:4、7:4、107:1、613:1)
の疎ベクトル表現5p-1で示され、文書データ3-2の特徴ベクトル59v-2は、
(3:6、6:1、106:7、6135:3)
の疎ベクトル表現5p-2で示される。
特徴ベクトル59v-1は、クエリベクトル4vの「1」が設定された3番目と107番目のインデックスを含んでいる。一方、特徴ベクトル59v-2は、クエリベクトル4vの「1」が設定された3番目のみを含んでいる。
コサイン類似度(数3)を計算する。まず、
数3の分子の値は、クエリベクトル4vと特徴ベクトル59v-1の内積を求めることで、
(1×4)+(1×1)=5
となる。
クエリベクトル4vと特徴ベクトル59v-1のそれぞれの長さの2乗は、
+1=2、
+4+1+1=34
である。
そして、数3の分母の値は、「2」と「34」とを乗算して平方根を求めると、
√68=8.246
となる。よって、クエリベクトル4vと特徴ベクトル59v-1のコサイン類似度は、
5÷8.246=0.606
となる。
また、クエリベクトル4vと特徴ベクトル59v-2のコサイン類似度を求める。まず、
数3の分子の値は、クエリベクトル4vと特徴ベクトル59v-2の内積を求めることで、
(1×6)=6
となる。
クエリベクトル4vと特徴ベクトル59v-2のそれぞれの長さの2乗は、
+1=2、
+1+7+3=95
である。
そして、数3の分母の値は、「2」と「95」とを乗算して平方根を求めると、
√190=13.784
となる。よって、クエリベクトル4vと特徴ベクトル59v-2のコサイン類似度は、
6÷13.784=0.435
となる。この例では、文書データ3-1の方が、文書データ3-2より、検索キーワード7に類似している、という結果を得る。
図13は、本実施例における検索処理の第一例を説明するための図である。図13において、検索キーワード7として指定された「布団乾燥」に対して、分かち書き、不要語の削除、表記の統一等の文書前処理45pが施され、「布団 乾燥」の分かち書き検索キーワード61を得る。
本実施例では、更に、初期設定処理部40において、作成された学習済みモデル55を用いて、分かち書き検索キーワード61の各単語に対して学習済みモデル55を用いて、最も類似する類似語をN個ずつ抽出し、得られた類似度をクエリベクトル63vのインデックスの値として設定する。
この例では、類似語の抽出数がN=3の場合を示しているが、この抽出数に限定されない。また、学習済みモデル55から得られる結果には、分かち書き検索キーワード61の各単語そのものの値も含まれるため、単語以外で抽出される類似語はN-1個となる。
具体的には、分かち書き検索キーワード61から「布団」と「乾燥」とを得る。「布団」について、学習済みモデル55を用いて、類似度の大きい順に2つの単語を抽出する。学習済みモデル55で得られる類似度は、コサイン類似度を示す。この例では、
「毛布」(類似度=0.8)、「マット」(類似度=0.7)
を得る。また、「乾燥」について、学習済みモデル55を用いて、類似度の大きい順に2つの単語を抽出する。即ち、
「乾く」(類似度=0.9)、「ドライ」(類似度=0.7)
を得る。
分かち書き検索キーワード61で得られた2の単語「布団」と「乾燥」とに、得られたこれらの4つの単語「毛布」、「マット」、「乾く」、及び「ドライ」を加えて、クエリベクトル63vが作成される。本実施例において、クエリベクトル63vの作成は、以下のようにして行う。
(1)分かち書き検索キーワード61で得られた単語を索引語とし、対応するインデックスの値として「1」を設定する。
分かち書き検索キーワード61で得られた単語、即ち、「完全一致」となる単語を可能な限り優先するために、インデックスの値を最大値とする。
(2)学習済みモデル55を用いて得られた類似語を索引語とし、対応するインデックスの値として、学習済みモデル55で得られた類似度(1.0以下)を設定する。
(3)分かち書き検索キーワード61で得られた単語と、当該単語の類似語以外の索引語に対応するインデックスの値は、「0」を示すものとする。
上述より、本実施例におけるクエリベクトル63vの各要素は、0から1を示す。
次に、クエリベクトル63vと、特徴ベクトル群59の全ての特徴ベクトル59vとに対してコサイン類似度を計算する。クエリベクトル63vは、tf-idfと同じく疎なベクトルで扱うことが可能である。つまり、クエリベクトル63vは、
(3:1、6:0.8、8:0.7、106:0.9、107:1、613:0.7)
のような疎ベクトル表現5p-0で示される。
また、コサイン類似度の計算回数も、分かち書き検索キーワード61で得られた単語の個数分だけである。類似語を考慮したクエリベクトル63vを用いたコサイン類似度の計算量は、図12の類似語の考慮無しの場合と比べても、計算量に多きな差はない。
図12の類似語の考慮無しの場合と同様に、検索キーワードに対して文書データ3-1と文書データ3-2のそれぞれとにおいて類似度を計算する。先ず、クエリベクトル63vと特徴ベクトル59v-1について、数3の分子の値は、クエリベクトル4vと特徴ベクトル59v-1の内積を求めることで、
(1×4)+(1×1)+(0.7×1)=5.7
となる。
クエリベクトル4vと特徴ベクトル59v-1のそれぞれの長さの2乗は、
+0.8+0.7+0.9+1+0.7=4.43、
+4+1+1=34
である。
そして、数3の分母の値は、「4.43」と「34」とを乗算して平方根を求めると、
√150.62=12.273
となる。よって、クエリベクトル63vと特徴ベクトル59v-1のコサイン類似度は、
5.7÷12.273=0.464
となる。
また、クエリベクトル63vと特徴ベクトル59v-2とを用いてコサイン類似度を算出する。クエリベクトル63vと特徴ベクトル59v-2について、数3の分子の値は、
(1×6)+(0.8×1)+(0.9×7)+(0.7×3)=15.2
となる。
クエリベクトル4vと特徴ベクトル59v-2のそれぞれの長さの2乗は、
+0.8+0.7+0.9+1+0.7=4.43、
+1+7+3=95
である。
そして、数3の分母の値は、「4.43」と「95」とを乗算して平方根を求めると、
√420.85=20.515
となる。よって、クエリベクトル63vと特徴ベクトル59v-2のコサイン類似度は、
15.2÷20.515=0.741
となる。この例では、文書データ3-2の方が、文書データ3-1より、検索キーワード7に類似している、という結果を得る。図12の類似語の考慮無しの場合とは異なる類似度順となる。
クエリベクトル63vに4つの類似語を加えたことで、特徴ベクトル59v-1では、一致するインデックスの数が3個であるのに対して、特徴ベクトル59v-2では、4個になっていることが影響していると考えられる。
これらのことから、本願発明では、文書データ3が示す内容の文脈的な意味が考慮されると考えられ、文章内容の意味的に精度良く検索キーワード7に適合する文書データ3を示すことができる。
本実施例では、更に、類似語を追加することで、検索キーワード7に含まれる単語が、索引語リスト58に登録されていない場合であっても、文書データ3の類似性を精度良く判別することが可能である。
図14は、本実施例における検索処理の第二例を説明するための図である。図14において、検索キーワード7として、索引語リスト58に存在しない単語「PC」が指定されたとする。単語「PC」に対して、分かち書き検索キーワード61は「PC」である。
学習済みモデル55によって、分かち書き検索キーワード61に類似する2つの単語「パソコン」と「計算機」とを得る。分かち書き検索キーワード61の単語「PC」は、索引語リスト58に存在しないためインデックスを得られない。一方、単語「パソコン」と「計算機」とは索引語リスト58に存在するため、それぞれのインデックスとして2番目と20番目とを特定する。従って、クエリベクトル63vでは、2つの単語「パソコン」と「計算機」に対応するインデックスの値に「1」が設定される。それらのインデックス以外では「0」が設定される。インデックスに値「1」が設定されたクエリベクトル63vは、疎ベクトル表現5p-0で示される。
この検索処理の第二例では、特徴ベクトル群59において、文書データ3-3には、「パソコン」、「使用」、及び「履歴」の3つの単語が含まれ、それぞれの出現頻度が、対応する2番目、100番目、及び150番目のインデックスに設定されている。また、文書データ3-4には、「計算機」、「実験」、及び「設備」の3つの単語が含まれ、それぞれの出現頻度が、対応する20番目、99番目、及び210番目のインデックスに設定されている。
クエリベクトル63vと特徴ベクトル59v-3、59v-4(疎ベクトル表現5p-3、5p-4で示される)それぞれとの類似度を得て、それら値は、「0.44」、「0.38」である。これらの結果から、分かち書き検索キーワード61が索引語リスト58に存在しない場合であっても、ユーザ2が目的とする内容に近い文書データ3を検索することができる。
このように、本実施例によれば、分かち書き検索キーワード61の単語が索引語リスト58に存在しない場合であっても、予め学習して得られた学習済みモデル55を用いて類似語を推論し、推論した類似語を用いて文書データ3を選択する。従って、ユーザ2が所望する文章内容に近い文書データ3を適切に選択し、ユーザ2に検索結果として提示することができる。
図15は、本実施例における検索画面例を示す図である。図15に示す検索画面G70は、入力領域70a、検索ボタン70b、件数設定領域70c、タグ情報指定領域70d、対象期間指定領域70e、検索結果表示領域70f等の画面部品を有する。
入力領域70aは、検索キーワード7を入力する領域である。検索ボタン70bは、選択されることによって、入力領域70aに入力された検索キーワード7を情報処理装置100へ送信する。
件数設定領域70cは、単語ごとに類似度順に抽出する語彙数を指定可能とする領域である。タグ情報指定領域70dは、検索結果データ69に基づいて、タグ情報から得られる項目ごとの指定値の一覧を表示し、ユーザ2による選択を可能とする領域である。
対象期間指定領域70eは、検索対象とする文書データ3に係る日付の範囲を指定する領域である。文書データ3の公開日等が指定されればよい。検索結果表示領域70fは、検索結果データ69に含まれる文書データ3を一覧で表示し、ユーザ2が一覧から文書データ3を選択可能とする領域であり、チェック領域、項目ID、説明文、種別、公開日、サイズ等の項目を有する。
この検索画面G70では、ユーザ2が入力領域70aへ検索キーワード7を入力し、検索ボタン70bを選択したことによって検索結果が表示された状態例を示している。検索結果表示領域70fでは、4件以上の文書データ3が検索キーワード7と類似語とにより該当する文書データとして一覧表示されている。ユーザ2は、所望の文書データ3のチェック領域にチェックを入れることで、文書データ3を表示させることができる。
一方、タグ情報指定領域70d及び対象期間指定領域70eに入力し検索ボタン70bを選択することで、検索対象の範囲を絞り込むことが可能である。タグ情報指定領域70d及び対象期間指定領域70eに入力された値は、検索キーワード7に含めて情報処理装置100へ送信されればよい。
上述したように、本実施例では、検索キーワード7を分かち書き等の文書前処理45pにより得られた分かち書き検索キーワード61の単語ごとに学習済みモデル55を用いて類似語を推論する。また、分かち書きで得た単語と類似度順に上位N個の類似語とを対象として、定めた設定方法でインデックスに値を設定した、疎なベクトルであるクエリベクトル63vを作成し、文書データ3のそれぞれから生成した特徴ベクトル59vとにおいて類似度を算出する。
このような仕組みにより、検索キーワード7と文書データ3とにおいて、コサイン類似度を用いた検索ランキング(類似性の高い文書データ3のランキング)の計算量を低減することができる。
実施例において、文書データ3は、文章の一例であり、検索キーワード7は、検索クエリの一例であり、単語埋め込み部42cは、取得部の一例であり、クエリベクトル作成部42dは、作成部の一例であり、類似度算出部42eは、算出部の一例である。また、結果送信部42gは、出力部の一例である。
本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上の本実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
単語の意味的な類似性を考慮した文書を検索する情報処理装置において、
検索キーワードを分かち書きした単語ごとに類似する語を、単語埋め込みによる学習済みモデルで推論された類似度順に所定個を取得する取得部と、
前記検索キーワードの単語を索引語とするインデックスに対応する第1の要素には1を設定し、前記類似する語を索引語とするインデックスに対応する第2の要素には得られた類似度に応じて0から1の範囲で値を設定し、該第1の要素及び該第2の要素以外の第3の要素には0を設定したクエリベクトルを作成する作成部と、
前記文書を分かち書きすることで得られた単語を用いて該文書の特徴を表す特徴ベクトルを作成する特徴ベクトル化処理部と、
前記クエリベクトルと前記特徴ベクトルとの類似度を算出する算出部と
を有する情報処理装置。
(付記2)
インターネットを介して収集した公開情報を用いて、該公開情報に含まれる単語間の類似性を前記単語埋め込みにより学習し、前記学習済みモデルを作成する初期設定処理部
を有することを特徴とする付記1記載の情報処理装置。
(付記3)
前記算出部によって算出された前記類似度の大きい順に前記文書と該文書に係るタグ情報とを示した検索結果を出力する出力部を有し、
前記検索結果に対して前記タグ情報の少なくとも1つの値を指定した検索要求の受け付けに応じて、検索範囲を絞り込む
ことを特徴とする付記2記載の情報処理装置。
(付記4)
前記検索キーワードに含まれる単語が前記索引語に対応しない場合、前記クエリベクトルは前記類似する語を用いて作成される
ことを特徴とする付記1乃至3のいずれか一項記載の情報処理装置。
(付記5)
前記クエリベクトルの次元数と、前記特徴ベクトルの次元数と、前記索引語の個数とは一致することを特徴とする付記4記載の情報処理装置。
(付記6)
単語の意味的な類似性を考慮した文書を検索する情報処理方法において、
検索キーワードを分かち書きした単語ごとに類似する語を、単語埋め込みによる学習済みモデルで推論された類似度順に所定個を取得し、
前記検索キーワードの単語を索引語とするインデックスに対応する第1の要素には1を設定し、前記類似する語を索引語とするインデックスに対応する第2の要素には得られた類似度に応じて0から1の範囲で値を設定し、該第1の要素及び該第2の要素以外の第3の要素には0を設定したクエリベクトルを作成し、
前記文書を分かち書きすることで得られた単語を用いて該文書の特徴を表す特徴ベクトルを作成し、
前記クエリベクトルと前記特徴ベクトルとの類似度を算出する
処理をコンピュータが実行する情報処理方法。
(付記7)
単語の意味的な類似性を考慮した文書を検索する情報処理プログラムにおいて、
検索キーワードを分かち書きした単語ごとに類似する語を、単語埋め込みによる学習済みモデルで推論された類似度順に所定個を取得し、
前記検索キーワードの単語を索引語とするインデックスに対応する第1の要素には1を設定し、前記類似する語を索引語とするインデックスに対応する第2の要素には得られた類似度に応じて0から1の範囲で値を設定し、該第1の要素及び該第2の要素以外の第3の要素には0を設定したクエリベクトルを作成し、
前記文書を分かち書きすることで得られた単語を用いて該文書の特徴を表す特徴ベクトルを作成し、
前記クエリベクトルと前記特徴ベクトルとの類似度を算出する
処理をコンピュータに行わせる情報処理プログラム。
2 ユーザ
3 文書データ
7 検索キーワード
40 初期設定処理部
40a コーパス前処理部
40b 文書前処理部
40c 単語埋め込み部
41 特徴ベクトル化処理部
41a 説明文抽出部
41b 文書前処理部
41c 特徴ベクトル作成部
42 検索処理部
42a キーワード受信部
42b 文書前処理部
42c 単語埋め込み部
42d クエリベクトル作成部
42e 類似度算出部
42f タグ情報抽出部
42g 結果送信部
100 情報処理装置
200 端末

Claims (5)

  1. 単語の意味的な類似性を考慮した文書を検索する情報処理装置において、
    検索キーワードを分かち書きした単語ごとに類似する語を、単語埋め込みによる学習済みモデルで推論された類似度順に所定個を取得する取得部と、
    前記検索キーワードの単語を索引語とするインデックスに対応する第1の要素には1を設定し、前記類似する語を索引語とするインデックスに対応する第2の要素には得られた類似度に応じて0から1の範囲で値を設定し、該第1の要素及び該第2の要素以外の第3の要素には0を設定したクエリベクトルを作成する作成部と、
    前記文書を分かち書きすることで得られた単語を用いて該文書の特徴を表す特徴ベクトルを作成する特徴ベクトル化処理部と、
    前記クエリベクトルと前記特徴ベクトルとの類似度を算出する算出部と
    前記算出部によって算出された前記類似度の大きい順に前記文書と該文書に係るタグ情報とを示した検索結果を出力する出力部と
    を有する情報処理装置。
  2. インターネットを介して収集した公開情報を用いて、該公開情報に含まれる単語間の類似性を前記単語埋め込みにより学習し、前記学習済みモデルを作成する初期設定処理部
    を有することを特徴とする請求項1記載の情報処理装置。
  3. 前記検索結果に対して前記タグ情報の少なくとも1つの値を指定した検索要求の受け付けに応じて、検索範囲を絞り込む
    ことを特徴とする請求項2記載の情報処理装置。
  4. 前記検索キーワードに含まれる単語が前記索引語に対応しない場合、前記クエリベクトルは前記類似する語を用いて作成される
    ことを特徴とする請求項1乃至3のいずれか一項記載の情報処理装置。
  5. 単語の意味的な類似性を考慮した文書を検索する情報処理方法において、
    検索キーワードを分かち書きした単語ごとに類似する語を、単語埋め込みによる学習済みモデルで推論された類似度順に所定個を取得し、
    前記検索キーワードの単語を索引語とするインデックスに対応する第1の要素には1を設定し、前記類似する語を索引語とするインデックスに対応する第2の要素には得られた類似度に応じて0から1の範囲で値を設定し、該第1の要素及び該第2の要素以外の第3の要素には0を設定したクエリベクトルを作成し、
    前記文書を分かち書きすることで得られた単語を用いて該文書の特徴を表す特徴ベクトルを作成し、
    前記クエリベクトルと前記特徴ベクトルとの類似度を算出し、
    算出された前記類似度の大きい順に前記文書と該文書に係るタグ情報とを示した検索結果を出力する、
    処理をコンピュータが実行する情報処理方法。
JP2020041293A 2020-03-10 2020-03-10 情報処理装置及び情報処理方法 Active JP7388256B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020041293A JP7388256B2 (ja) 2020-03-10 2020-03-10 情報処理装置及び情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020041293A JP7388256B2 (ja) 2020-03-10 2020-03-10 情報処理装置及び情報処理方法

Publications (2)

Publication Number Publication Date
JP2021144348A JP2021144348A (ja) 2021-09-24
JP7388256B2 true JP7388256B2 (ja) 2023-11-29

Family

ID=77766614

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020041293A Active JP7388256B2 (ja) 2020-03-10 2020-03-10 情報処理装置及び情報処理方法

Country Status (1)

Country Link
JP (1) JP7388256B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2021412681A1 (en) 2020-12-28 2023-07-27 Suntory Holdings Limited Oral composition having enhanced sweetness
JP2024024504A (ja) * 2022-08-09 2024-02-22 堺化学工業株式会社 学習済モデル選択方法、学習済モデル選択装置および学習済モデル選択プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001043236A (ja) 1999-07-30 2001-02-16 Matsushita Electric Ind Co Ltd 類似語抽出方法、文書検索方法及びこれらに用いる装置
JP2002073680A (ja) 2000-08-30 2002-03-12 Mitsubishi Research Institute Inc 技術情報検索システム
JP2007219722A (ja) 2006-02-15 2007-08-30 Just Syst Corp 文書検索サーバおよび文書検索方法
WO2016001998A1 (ja) 2014-06-30 2016-01-07 楽天株式会社 類似度算出システム、類似度算出方法およびプログラム
JP2017072885A (ja) 2015-10-05 2017-04-13 日本電信電話株式会社 情報検索装置、辞書作成装置、方法、及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001043236A (ja) 1999-07-30 2001-02-16 Matsushita Electric Ind Co Ltd 類似語抽出方法、文書検索方法及びこれらに用いる装置
JP2002073680A (ja) 2000-08-30 2002-03-12 Mitsubishi Research Institute Inc 技術情報検索システム
JP2007219722A (ja) 2006-02-15 2007-08-30 Just Syst Corp 文書検索サーバおよび文書検索方法
WO2016001998A1 (ja) 2014-06-30 2016-01-07 楽天株式会社 類似度算出システム、類似度算出方法およびプログラム
JP2017072885A (ja) 2015-10-05 2017-04-13 日本電信電話株式会社 情報検索装置、辞書作成装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2021144348A (ja) 2021-09-24

Similar Documents

Publication Publication Date Title
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
US10678820B2 (en) System and method for computerized semantic indexing and searching
JP7388256B2 (ja) 情報処理装置及び情報処理方法
KR102059743B1 (ko) 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템
CN111194457A (zh) 专利评估判定方法、专利评估判定装置以及专利评估判定程序
JP2011248596A (ja) 画像入り文書の検索システム及び検索方法
JP6908644B2 (ja) 文書検索装置及び文書検索方法
CN114141384A (zh) 用于检索医学数据的方法、设备和介质
JP6867963B2 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
JP6653833B1 (ja) 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
JP3930168B2 (ja) 文書検索方法、装置および文書検索プログラムを記録した記録媒体
US20140358522A1 (en) Information search apparatus and information search method
WO2020079752A1 (ja) 文献検索方法および文献検索システム
JP2021086592A (ja) 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
JP5533272B2 (ja) データ出力装置、データ出力方法およびデータ出力プログラム
US20220083736A1 (en) Information processing apparatus and non-transitory computer readable medium
CN108614821B (zh) 地质资料互联互查系统
JP2008197952A (ja) テキストセグメンテーション方法,その装置,そのプログラムおよびコンピュータ読み取り可能な記録媒体
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
JP2007072610A (ja) 情報処理方法及び装置及びプログラム
WO2020079751A1 (ja) 文献検索方法および文献検索システム
JP2010009237A (ja) 多言語間類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP2012243130A (ja) 情報検索装置、方法、及びプログラム
Parinov Extraction and visualisation of citation relationships and its attributes for papers in PDF

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231004

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231017

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231030

R150 Certificate of patent or registration of utility model

Ref document number: 7388256

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150