JP7016237B2 - 情報検索装置、検索処理方法、およびプログラム - Google Patents

情報検索装置、検索処理方法、およびプログラム Download PDF

Info

Publication number
JP7016237B2
JP7016237B2 JP2017201556A JP2017201556A JP7016237B2 JP 7016237 B2 JP7016237 B2 JP 7016237B2 JP 2017201556 A JP2017201556 A JP 2017201556A JP 2017201556 A JP2017201556 A JP 2017201556A JP 7016237 B2 JP7016237 B2 JP 7016237B2
Authority
JP
Japan
Prior art keywords
search
similar
words
phrases
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017201556A
Other languages
English (en)
Other versions
JP2019074982A (ja
Inventor
迪利 吉井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Heavy Industries Ltd
Original Assignee
Mitsubishi Heavy Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Heavy Industries Ltd filed Critical Mitsubishi Heavy Industries Ltd
Priority to JP2017201556A priority Critical patent/JP7016237B2/ja
Publication of JP2019074982A publication Critical patent/JP2019074982A/ja
Application granted granted Critical
Publication of JP7016237B2 publication Critical patent/JP7016237B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書検索技術に関し、特に検索語句の意味関係を考慮して検索結果を取得可能とする情報検索装置、情報検索方法、およびプログラムに関する。
文章表現から所望の情報を抽出するために、文書中に存在する語句に対してキーワード検索を用いることが一般的に行われている。キーワード検索では、ユーザが入力したキーワードに一致する語が検索対象内に存在するか否かが判断され、一致する語があった場合はその結果がユーザに提供される。一方で、検索対象の文書中に、所望する情報についてのキーワードそのものが存在しない場合、その情報および文章表現を見つけることができない。言い換えれば、文章表現の中に検索キーワードが暗黙的に意味する表現、またはより具体な情報が記載されているが、検索キーワード自体が示されていない場合、その検索キーワードが暗黙的に意味する表現、または具体的な情報を検索結果として取得することができなかった。例えば、ある文書中において、「32インチのディスプレイを一台用意して欲しい」という文が存在しているとする。ユーザが「画面サイズ」についての情報をその文書の中から得たいと考え、「画面サイズ」という語句をキーワードとして用いて検索しても、上記文書に含まれる「32インチ」という情報はマッチせず、検索結果なしという結果が返却されることになる。
従って「画面サイズ」と「32インチ」は関連するものであるのに、そのような関連性に基づいて柔軟な検索を行うことは不可能であった。言葉の関連性を考慮した技術として、文字入力した語と類似する語句を変換候補として提供することが提案されているものの(特許文献1参照)、このような発明によっても上記のような柔軟な検索という目的を達成することができない。
特許第5262190号公報
本発明は、上記課題に鑑みてなされたものであって、その目的は、暗黙的に表現される情報をキーワード検索によって検索可能にすることである。具体的には、検索対象となる文書内の語句について「意味関係」を考慮して検索結果を取得可能とする情報検索装置、情報検索方法、およびプログラムを提供することにある。
本発明の第1の態様によれば、情報検索装置は、1つまたは複数の文書を受け付けて、当該1つまたは複数の文書に含まれる語句同士の意味的な類似度を示す意味関係を構築する意味関係構築処理部と、検索語の入力を受け付けて、検索対象とする文書群について前記検索語を用いて検索処理を行う文書検索処理部と、前記意味関係から、前記検索語と所定の値よりも高い類似度を有する語句を類似語句として抽出する類似語句抽出部と、を備え、前記文書検索処理部は、さらに、前記類似語句を用いて前記文書群について検索処理を行う。
また、本発明の第2の態様によれば、情報検索装置は、前記検索対象とする文書群を取得し、検索処理のために記憶装置に記憶する検索対象文書群登録処理部をさらに備える。
また、本発明の第3の態様によれば、前記意味関係構築処理部が、前記1つまたは複数の文書に含まれる語句を、数値ベクトルとして定量化し、前記数値ベクトル同士のコサイン類似度に基づき、前記1つまたは複数の文書に含まれる語句同士の類似度を算出する。
また、本発明の第4の態様によれば、前記文書検索処理部は、前記検索語を用いた検索処理により検索結果が得られない場合に、前記類似語句を用いて前記文書群について検索処理を行う。
また、本発明の第5の態様によれば、前記類似語句抽出部が、さらに、前記意味関係から、前記抽出された類似語句と所定の値よりも高い類似度を有する語句を第2の類似語句として抽出し、前記文書検索処理部が、さらに、前記第2の類似語句を用いて前記文書群について検索処理を行う。
また、本発明の第6の態様によれば、前記文書検索処理部は、前記検索語を用いた検索処理により検索結果が得られない場合に、前記類似語句を用いて前記文書群について検索処理を行い、前記類似語句を用いた検索処理により検索結果が得られない場合に、第2の類似語句を用いて前記文書群について検索処理を行う。
また、本発明の第7の態様によれば、前記文書検索処理部は、前記抽出された類似語句の中で類似度が高い類似語句から順に検索処理を行い、所定の検索結果が得られるまで前記検索処理を継続する。
また、本発明の第8の態様によれば、情報検索装置によって実行される検索処理方法は、1つまたは複数の文書を受け付けて、当該1つまたは複数の文書に含まれる語句同士の意味的な類似度を示す意味関係を構築するステップと、検索語の入力を受け付けて、検索対象とする文書群について前記検索語を用いて検索処理を行うステップと、前記意味関係から、前記検索語と所定の値よりも高い類似度を有する語句を類似語句として抽出するステップと、前記類似語句を用いて前記文書群について検索処理を行うステップと
を含む。
また、本発明の第9の態様によれば、コンピュータに、本発明の上記第8の態様に係る方法を実行させるための命令を含むプログラム。
上述の情報検索装置、情報検索方法、およびプログラムによれば、文章に記載されない所謂「行間」の情報を認識することが可能となり、文章処理においてより高精度な分析および認識が可能となる。
第1の実施形態に係る情報検索装置1の機能構成を示す図である。 第1の実施形態に係る、語句同士の関係性を示すネットワークの概念図である。 第1の実施形態に係る検索処理フローを示す図である。 第1の実施形態に係る、例示的な2つの語句に対応する数値ベクトルのコサイン類似度の算出方法を説明するための図である。 第1の実施形態に係る、語句同士の類似度を示すデータテーブルを示す図である。
<第1の実施形態>
以下、第1の実施形態に係る情報検索装置について、図1~図5を参照しながら説明する。
(情報検索装置の機能構成)
図1は、第1の実施形態に係る情報検索装置1の機能構成を示す図である。情報検索装置1は、テキスト検索機能を提供する装置であり、予め「意味関係」または「オントロジー」と呼ばれる語句同士の類似性を示す情報を構築する。情報検索装置1は、所定の検索語についての検索処理を行う際に、検索語による検索処理に加えて、またはそれと独立して、構築した「意味関係」に基づく類似語句によって検索処理を行う。従って、文書中に検索語そのものが欠落していても、検索語に近しい意味を有する語句を検索結果として返却することを可能とする。情報検索装置1は、例えばデータサーバ等のコンピューティングデバイスであることが想定されるが、ラップトップコンピュータ、ノートブックコンピュータ、タブレット、スマートフォン等として実装されてもよく、実施の態様は限定されない。
図1が示すように、第1の実施形態に係る情報検索装置1は、CPU10および記憶部20を備える。CPU10は、情報検索装置1全体の制御を司るプロセッサであって、予め用意されたプログラムに従って動作する。記憶部20は、下記でより詳細に説明する所定の情報を記録するためのコンピュータ読み取り可能な記録媒体を含む。説明を容易にするために第1の実施形態に係る情報検索装置1は、その内部に記憶部20を備えるが、他の実施形態では、記憶部20が情報検索装置1の外部記憶装置として実装され、情報検索装置1が外部記憶装置から情報を取得することも可能である。
CPU10は、プログラムに従って動作することで、意味関係構築処理部101、検索対象文書群登録処理部102、文書検索処理部103、および類似語句抽出部104として機能する。以下では、これらの機能構成について説明を行う。
意味関係構築処理部101は、意味関係を構築するための元情報である1つまたは複数の文書(以下、「情報1」と呼ぶ)を入力として、情報1に出現する語句同士の関係性を示す情報(以下「情報2」と呼ぶ)を作成し、情報2を記憶部20内の意味関係記憶部201に記憶する。従って、意味関係構築処理部101は、入力される1つまたは複数の文書内で登場する語句同士の意味関係を計算する。語句同士の「意味関係」とは、単に、表記ゆれ、および類義語にとどまらず、特定の分野においてAという語句とBという語句が近しい意味を有するという関係性のことを意味してよい。例えば、「画面サイズ」という語句と「32インチ」という語句は、表記ゆれ、および類義語ではないものの、特定の分野において「32インチ」は「画面サイズ」の具体的な表現として認識されるものであり、これら2つの語句は近しい意味を有する語句であるといえる。語句同士の意味関係を算出するための技術の例としては、「ワードツーベック(Word2Vec)」が知られている。この技術では、語句を多次元ベクトル空間上の1つの数値ベクトルとして定量化する。語句同士の類似性は、語句に対応する数値ベクトル同士のコサイン類似度として算出される。語句と数値ベクトルとのマッピングについては、対象となる文書群において、その語句がどのような文脈で使用されたかを判断するために、文中の前後語句との関係性が考慮される。従って、同じような文脈で登場した語句は、互換可能な語句であるとして一般的に高い類似度を有することとなる。このような数値ベクトルの算出には、ニューラルネットワーク技術に基づくトレーニングモデルが用いられる。従って、興味のある分野において精度のよい意味関係を得るためには、トレーニングに用いる文書群の分野を限定することが有利である。意味関係構築処理部101は、上述の技術を用いることによって、情報1内の語句同士の意味関係を算出することができる。
意味関係構築処理部101は、上記のように情報1内の語句同士の意味関係を算出する結果として、語句同士の意味関係を示すネットワークを構築することが可能である。図2は、意味関係構築処理部101により構築された語句同士のネットワークの概念図を示す。図2において、語句同士を繋ぐ線は、所定の値よりも高い類似度を有する語句同士の関係を示している。従って、図2において、単語Aおよび単語B、単語Cおよび単語D、単語Dおよび単語E、ならびに単語Dおよび単語Fは、所定の値よりも高い類似度を有する関係にあることを示している。例えば、単語Dについては、単語C、単語E、および単語Fと類似の関係性を有しているといえるが、そのうち類似度が0.9である単語Cに最も類似しているといえる。意味関係構築処理部101は、情報1内の語句同士の意味関係をそれぞれ計算した後、当該結果(つまり「情報2」)を意味関係記憶部201に記憶する。
検索対象文書群登録処理部102は、検索対象となる文書群情報(以下「情報3」と呼ぶ)を取得し、文書記憶部202に記憶する。上記の例を引き続き用いれば、情報3とは、ユーザがその中に「画面サイズ」についての情報が記載されているかも知れないと考える文書群に対応する。上記の通り情報3は、情報1と分野的に類似する文書群とすることでより精度のよい検索結果を得ることが可能となる。
文書検索処理部103は、検索語であるキーワード情報(以下「情報4」と呼ぶ)を受け付けて、文書記憶部202に記憶されている情報3に対して検索処理を行う。具体的には、文書検索処理部103は、情報3に含まれる、情報4に一致する語句についての情報を検索結果として出力してよい。
類似語句抽出部104は、文書検索処理部103が受け付けたキーワード情報である情報4と類似する語句を、語句同士の意味関係を示す情報2に基づき判断する。さらに類似語句抽出部104は、類似すると判断した語句情報(以下、「情報5」と呼ぶ)を、類似語句として文書検索処理部103に対して渡す。文書検索処理部103は、受け付けた情報5についてさらに検索処理を行う。従って、情報検索装置1は、ユーザが入力するキーワードのみならず、当該キーワードと近しい意味を有する語句についても検索処理を行うことが可能である。上記の例を引き続き用いれば、仮にユーザが「画面サイズ」というキーワードを情報検索装置1に入力したとしても、情報検索装置1は、「画面サイズ」という語句によるキーワード検索を行うにとどまらず、「画面サイズ」と近しい意味を有すると判断された「32インチ」という語句によっても検索処理を行うことが可能であり、このような構成により、より柔軟な検索処理を提供することができる。
記憶部20は、意味関係記憶部201および文書記憶部202を含む。意味関係記憶部201は、上記の通り、意味関係構築処理部101が出力する情報1内の語句同士の意味関係(情報2)を記憶する。また、文書記憶部202は、検索対象となる文書群情報(情報3)を記憶する。第1の実施形態に係る情報検索装置1では、記憶部20が意味関係記憶部201および文書記憶部202を含むが、その他の実施形態では、意味関係記憶部201および/または文書記憶部202は、情報検索装置1に対して外部記憶装置として存在してもよい。意味関係記憶部201および文書記憶部202が外部記憶装置として存在する場合、各々は別個の外部記憶装置として実施されてもよいし、1つの外部記憶装置として実施されてもよい。
(検索処理フロー)
図3は、第1の実施形態における検索処理フローを示す図である。また、図4は、例示的な語句同士について、コサイン類似度が如何に算出されるかを示す図である。また、図5は、第1の実施形態に係る意味関係記憶部201が記憶する語句同士の意味関係のデータ構造を示す図である。
S101にて、意味関係構築処理部101は、意味関係を構築するための1つまたは複数の文書である情報1を受け付け、情報1内で用いられる語句同士の数値ベクトルに基づく類似度を算出する。情報1に含まれる語句について、語句同士の可能な全ての組み合わせで類似度が算出されてよい。上記の通り、語句同士の類似度は、ワードツーベック技術を用いて算出されてよい。具体的な例を挙げると、「Japan」という語句と「The US」という語句は、図4に示されるような数値ベクトルして表現可能である。これらの2つのベクトル間のコサイン類似度を算出することによって、単語間の類似度を算出することが可能である。その後、意味関係構築処理部101は、当該類似度を用いて、情報1内に含まれる語句同士の類似度を示す意味関係を構築してよい。この「意味関係」の具体的な実装例の一つは図5に示されるようなデータテーブルである。図5は、概念的な意味関係のネットワークを示す図2についての、より具体的な実装例を示すものである。図5の例示では、単語A~Fの間の類似度が示されている。例えば、単語Cおよび単語Dの間の類似度は0.9である一方で、単語Dおよび単語Eの間の類似度は0.3である。また図5では、説明を容易にするために、類似度が所定の値(例えば、0.1)よりも小さい場合には「-」として記載しているが、実際には何らかの値を有していることに留意されたい。意味関係構築処理部101は、上記のように構築された例えばデータテーブルで実装されうる意味関係を、意味関係記憶部201に記憶する。
また、意味関係を構築するための文書としては、同じ分野の文書を大量に用意することがより精度のよい意味関係を構築するために有利である。例えば「キャリア」という単語について、この単語が、ある分野では通信信号の搬送波を示すことが一般的であり、例えば「帯域」という語句と関連することもあれば、異なる分野では、経歴・職歴等を意味することが一般的であり、例えば「経験」という単語と関連する場合もある。従って、これらの異なる分野の文書が情報1として入力されると、意図しない語句が類似用語として関連付けられることがある。検索キーワードについて、より効果的な検索を行うためには、検索キーワードと同じ分野の文書を情報1として入力することが有利である。
S102にて、検索対象文書群登録処理部102は、検索対象となる文書群情報(情報3)を取得し、文書記憶部202に記憶する。情報3は、ローカルに保存される書類データであってもよいし、インターネット上の文書情報としてもよい。従って、情報3は、ユーザが、検索を行いたいと考える任意の文書群全体のことであってよい。
S103にて、文書検索処理部103は、検索語であるキーワード情報(情報4)を受け付けて、文書記憶部202に記憶されている情報3に対して検索語を用いて検索処理を行う。より詳細には、ユーザは、情報検索装置1に電気的に結合される電子デバイス(図示せず)または情報検索装置1が提供する入力手段(図示せず)によって、所望のキーワードを入力することが可能である。文書検索処理部103は、入力されたキーワード情報である情報4を受け付け、情報3内に一致する語句があるか否かを判断する。一致する語句がある場合には、情報3内の一致する語句についての情報を検索結果(情報6)として出力してよい。
S104にて、類似語句抽出部104は、S101で意味関係記憶部201に記憶された意味関係から、S103において文書検索処理部103が受け付けたキーワード情報(情報4)と類似度が高い類似語句(情報5)を抽出する。ここにおいて抽出される類似語句は、最も類似度が高い語句であってもよいし、所定の類似度よりも高い類似度を有する1つまたは複数の類似語句を抽出してもよい。
S105にて、文書検索処理部103は、S104において抽出された1つまたは複数の類似語句(情報5)を受け付けて、各類似語句について、情報3に対して検索処理を行う。文書検索処理部103は、S103と同様に、情報3内に一致する語句があるか否かを、受け付けた各類似語句に対して判断し、一致する語句がある場合には、情報3内の一致する語句についての情報を検索結果(情報6)として出力してよい。
S105の後、第1の実施形態に係る検索処理フローは終了してよい。一方で、その他の実施形態として、上記の各ステップの順序を変更する、または条件付きで実行する等の様々な形態が存在する。
例えば、一実施形態では、S103において、文書検索処理部103が、情報3内に情報4と一致する語句があるか否かを判断し、一致する語句がないと判断した場合にのみ、S104およびS105の処理が実行されてもよい。
また、一実施形態では、S105の後に、類似語句(情報5)をキーワード情報(情報4)として用いて、S104およびS105の処理を再度行ってもよい。従って、当該処理は、類似語句に対する類似語句でさらに検索処理を行うことを意味する。図2に示される例を用いれば、初期の検索語が「単語C」である場合、類似語句が「単語D」であり、さらに類似する語句が「単語E」または「単語F」に対応する。1回目のS104およびS105の処理フローを「1ステップ目」と呼ぶとすれば、上述の2回目のS104およびS105の処理(以下、S104’およびS105’と呼ぶ)を「2ステップ目」と呼ぶことが可能である。上記の例においては初期の検索語が「単語C」であり、その類似語が「単語D」であるので、「2ステップ目」の処理では、「単語E」または「単語F」を用いて検索処理を行う。S104’およびS105’の処理は、S104およびS105の処理で検索結果が得られないことに応答して、または検索結果が得られたとしてもユーザから検索結果に満足しない旨の入力を情報検索装置1が直接的に、もしくは間接的に受け付けることに応答して、実行されてよい。
上記実施形態の処理をより詳細に説明すると、S105に後続する2ステップ目の処理において、類似語句抽出部104は、例えばデータテーブルでありうる意味関係から、類似語(情報5)と所定の値よりも高い類似度を有する語句を、2ステップ目の類似語句として抽出する(S104’)。初期の検索語が「単語C」である上記の例を引き続き用いれば、「単語C」の類似語が「単語D」であることから、S104’では、図5のデータテーブルを参照し、「単語D」と所定の類似度よりも高い類似度を有する「単語F」および「単語E」を「2ステップ目の類似語句」として抽出することができる。当然のことながら、この場合初期の検索語「単語C」は抽出対象から除かれてよい。また当該動作は、検索の範囲を広げることを目的にしていることから、既に1ステップ目において類似語として検索のために抽出され語句も抽出対象から除外されてよい。文書検索処理部103は、S104’において抽出された2ステップ目の1つまたは複数の類似語句を受け付けて、当該語句で情報3に対して検索処理を行う(S105’)。文書検索処理部103は、S103と同様に、情報3内に一致する語句があるか否かを、2ステップ目の各類似語句(上記の例では、「単語F」および「単語E」)に対して判断し、一致する語句がある場合には、情報3内の箇所の情報を検索結果(情報6)として出力してよい。また、同様にして、検索語の類似語によってS104およびS105を順次ループ実行することも可能である。
また、S103において類似語句として抽出する条件は、検索時においてユーザが所定のユーザインタフェース上で選択可能であってよい。抽出の条件とは、例えば、最も類似度が高い語句のみを抽出するか、または所定の類似度よりも高い類似度を有する類似語句を抽出するかという条件であってもよいし、また所定の類似度よりも高い類似度を有する類似語句を抽出する場合では、類似度の閾値であってもよい。さらに上記で説明したS104およびS105の処理のループ回数(ステップ数)がユーザにより設定可能であってもよい。
また、一実施形態では、抽出する類似度の閾値を徐々に下げる、またはステップ数を増やすことによって、所定の検索結果が得られるまで処理を継続してもよい。ここで「所定の検索結果」とは、例えば、検索結果の有無、検索結果の数等であってよい。検索処理フローは、所定の検索結果が得られたことを条件として終了してよい。
上記実施形態の理解を容易にするために、図2および図5の例を用いて、情報検索装置1が検索語として「単語D」を受け付けたことを想定する。一方でこれらの具体的な説明は単なる例示に過ぎないことに留意されたい。仮に「単語D」を用いても情報3について検索結果が得られない場合、まず類似度の閾値「0.9」以上と設定され、S104において「単語C」が類似語として抽出されてよい。その後S105において「単語C」を用いて情報3について検索を行う。検索結果が得られない場合、さらに類似度の閾値を下げて「単語D」の類似語を抽出してよい。この例においては、閾値「0.6」以上と設定することで、「単語F」が次の類似語として抽出される。情報検索装置1は、「単語F」で情報3について検索を行い、検索結果が得られた場合には検索処理フローを終了してよい。「単語F」によって検索結果が得られない場合には、さらに閾値を下げて「単語E」を抽出してもよいし、1ステップ目の類似語句の抽出を終了し、例えば「単語C」の類似語(2ステップ目の類似語句)により検索を行ってよい。
さらなる実施形態では、上記の検索処理は、抽出された類似語句の中で類似度が高い類似語句から順に検索処理を行い、所定の検索結果が得られるまで検索処理を継続してもよい。当該実施形態においても検索処理フローは、所定の検索結果が得られたことを条件として終了してよい。
(作用・効果)
以上、第1の実施形態に係る情報検索装置1によれば、ユーザが入力する語句そのものを用いたキーワード検索のみならず、ユーザが意図する分野において近しい意味を有する語句によっても検索することが可能であり、このような構成により、より柔軟な検索処理を提供することができる。
以上の説明では、検索の対象がテキストデータである場合について説明を行ったが、データ検索の形式は本質的にテキストデータに限られない。つまり、本発明は、一般に、ニューラルネットワークまたはその他の技術により情報間で何らかの類似関係を定義可能な検索対象を含む情報群に対する情報検索に適用可能である。
また、上述の実施形態においては、上述した情報検索装置1のCPU10は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって上記各種処理が行われる。また、コンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
上記プログラムは、上述した機能の一部を実現するためのものであってもよい。さらに、上述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。更に、情報検索装置1は、他の実施形態においては、1台のコンピュータで構成されていても良いし、通信可能に接続された複数のコンピュータで構成されていてもよい。
以上、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1 情報検索装置
20 記憶部
101 意味関係構築処理部
102 検索対象文書群登録処理部
103 文書検索処理部
104 類似語句抽出部
201 意味関係記憶部
202 文書記憶部

Claims (9)

  1. 1つまたは複数の文書を受け付けて、当該1つまたは複数の文書に含まれる語句同士の意味的な類似度を示す意味関係を構築する意味関係構築処理部と、
    検索語の入力を受け付けて、検索対象とする文書群について前記検索語を用いて検索処理を行う文書検索処理部と、
    前記意味関係から、前記検索語と所定の閾値よりも高い類似度を有する語句を類似語句として抽出する類似語句抽出部と、
    を備え、
    前記文書検索処理部は、さらに、前記類似語句を用いて前記文書群について検索処理を行い、
    前記類似語句抽出部は、前記類似語句を用いた検索処理により検索結果が得られない場合に、前記閾値を下げて類似語句を抽出
    前記文書検索処理部は、前記抽出された類似語句の中で類似度が高い類似語句から順に、前記検索処理を設定された回数行う、
    情報検索装置。
  2. 前記検索対象とする文書群を取得し、検索処理のために記憶装置に記憶する検索対象文書群登録処理部をさらに備える、請求項1に記載の情報検索装置。
  3. 前記意味関係構築処理部が、前記1つまたは複数の文書に含まれる語句を、数値ベクトルとして定量化し、前記数値ベクトル同士のコサイン類似度に基づき、前記1つまたは複数の文書に含まれる語句同士の類似度を算出する、請求項1に記載の情報検索装置。
  4. 前記文書検索処理部は、前記検索語を用いた検索処理により検索結果が得られない場合に、前記類似語句を用いて前記文書群について検索処理を行う、請求項1に記載の情報検索装置。
  5. 前記類似語句抽出部が、さらに、前記意味関係から、前記抽出された類似語句と所定の値よりも高い類似度を有する語句を第2の類似語句として抽出し、
    前記文書検索処理部が、さらに、前記第2の類似語句を用いて前記文書群について検索処理を行う、請求項1に記載の情報検索装置。
  6. 前記文書検索処理部は、
    前記検索語を用いた検索処理により検索結果が得られない場合に、前記類似語句を用いて前記文書群について検索処理を行い、
    前記類似語句を用いた検索処理により検索結果が得られない場合に、第2の類似語句を用いて前記文書群について検索処理を行う、請求項5に記載の情報検索装置。
  7. 前記文書検索処理部は、
    前記抽出された類似語句の中で類似度が高い類似語句から順に検索処理を行い、所定の検索結果が得られるまで、前記設定された回数を上限として前記検索処理を継続する、請求項1に記載の情報検索装置。
  8. 情報検索装置によって実行される検索処理方法であって、
    1つまたは複数の文書を受け付けて、当該1つまたは複数の文書に含まれる語句同士の意味的な類似度を示す意味関係を構築するステップと、
    検索語の入力を受け付けて、検索対象とする文書群について前記検索語を用いて検索処理を行うステップと、
    前記意味関係から、前記検索語と所定の閾値よりも高い類似度を有する語句を類似語句として抽出するステップと、
    前記類似語句を用いて前記文書群について検索処理を行うステップと、
    前記類似語句を用いた検索処理により検索結果が得られない場合に、前記閾値を下げて類似語句を抽出するステップと
    を含
    前記検索処理を行うステップは、前記抽出された類似語句の中で類似度が高い類似語句から順に、前記検索処理を設定された回数行う、
    検索処理方法。
  9. コンピュータに、請求項8に記載の方法を実行させるための命令を含むプログラム。
JP2017201556A 2017-10-18 2017-10-18 情報検索装置、検索処理方法、およびプログラム Active JP7016237B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017201556A JP7016237B2 (ja) 2017-10-18 2017-10-18 情報検索装置、検索処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017201556A JP7016237B2 (ja) 2017-10-18 2017-10-18 情報検索装置、検索処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2019074982A JP2019074982A (ja) 2019-05-16
JP7016237B2 true JP7016237B2 (ja) 2022-02-04

Family

ID=66544150

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017201556A Active JP7016237B2 (ja) 2017-10-18 2017-10-18 情報検索装置、検索処理方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP7016237B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807239B (zh) * 2019-09-16 2021-11-16 北京理工大学 一种基于装配语义的快速装配仿真方法、装置及系统
CN117076652B (zh) * 2023-10-17 2023-12-29 天启黑马信息科技(北京)有限公司 一种用于中短句的语义文本检索方法、系统及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001043236A (ja) 1999-07-30 2001-02-16 Matsushita Electric Ind Co Ltd 類似語抽出方法、文書検索方法及びこれらに用いる装置
JP2002108912A (ja) 2000-09-30 2002-04-12 Keyence Corp 検索システムおよび検索方法
JP2004192374A (ja) 2002-12-12 2004-07-08 Ricoh Co Ltd 文書検索装置、プログラムおよび記録媒体
JP2005173847A (ja) 2003-12-10 2005-06-30 Fujitsu Ltd 情報検索装置、情報検索方法、プログラム及び該プログラムを記録した記録媒体
JP2017152042A (ja) 2017-05-10 2017-08-31 アイマトリックス株式会社 グラフ理論を用いた解析方法、解析プログラムおよび解析システム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04152468A (ja) * 1990-10-17 1992-05-26 Hitachi Ltd 文書検索装置
JP3172706B2 (ja) * 1998-04-17 2001-06-04 松下電器産業株式会社 反射型液晶表示素子

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001043236A (ja) 1999-07-30 2001-02-16 Matsushita Electric Ind Co Ltd 類似語抽出方法、文書検索方法及びこれらに用いる装置
JP2002108912A (ja) 2000-09-30 2002-04-12 Keyence Corp 検索システムおよび検索方法
JP2004192374A (ja) 2002-12-12 2004-07-08 Ricoh Co Ltd 文書検索装置、プログラムおよび記録媒体
JP2005173847A (ja) 2003-12-10 2005-06-30 Fujitsu Ltd 情報検索装置、情報検索方法、プログラム及び該プログラムを記録した記録媒体
JP2017152042A (ja) 2017-05-10 2017-08-31 アイマトリックス株式会社 グラフ理論を用いた解析方法、解析プログラムおよび解析システム

Also Published As

Publication number Publication date
JP2019074982A (ja) 2019-05-16

Similar Documents

Publication Publication Date Title
CN108319627B (zh) 关键词提取方法以及关键词提取装置
CN108334490B (zh) 关键词提取方法以及关键词提取装置
WO2015135455A1 (en) Natural language question answering method and apparatus
US10176228B2 (en) Identification and evaluation of lexical answer type conditions in a question to generate correct answers
US10108602B2 (en) Dynamic portmanteau word semantic identification
US20180039911A1 (en) Method and system of selecting training features for a machine learning algorithm
US11556573B2 (en) Semantic cluster formation in deep learning intelligent assistants
CN111159343A (zh) 基于文本嵌入的文本相似性搜索方法、装置、设备和介质
KR20230075052A (ko) 언어 모델을 이용하여 도메인에 특화된 대화를 제공하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
US10592542B2 (en) Document ranking by contextual vectors from natural language query
US10474747B2 (en) Adjusting time dependent terminology in a question and answer system
CN104462085A (zh) 检索关键词纠错方法及装置
US10083398B2 (en) Framework for annotated-text search using indexed parallel fields
KR102059743B1 (ko) 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템
US20200372117A1 (en) Proximity information retrieval boost method for medical knowledge question answering systems
CN112214584A (zh) 使用知识图利用实体关系来发现答案
CN112214583A (zh) 使用外部数据源扩展知识图
EP3404553A1 (en) Open information extraction method and system for extracting reified ternary relationship
JP7016237B2 (ja) 情報検索装置、検索処理方法、およびプログラム
CN117076636A (zh) 一种智能客服的信息查询方法、系统和设备
US9904674B2 (en) Augmented text search with syntactic information
KR102053419B1 (ko) 개체명 연결 방법, 장치, 시스템 및 컴퓨터 프로그램
US9946765B2 (en) Building a domain knowledge and term identity using crowd sourcing
JP2010267047A (ja) 類義語辞書構築装置及び方法、コンピュータプログラム
US12073299B2 (en) Systems and methods for using contrastive pre-training to generate text and code embeddings

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200720

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220111

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220125