JP6334491B2 - 概念ベース生成装置、概念検索装置、方法、及びプログラム - Google Patents

概念ベース生成装置、概念検索装置、方法、及びプログラム Download PDF

Info

Publication number
JP6334491B2
JP6334491B2 JP2015197646A JP2015197646A JP6334491B2 JP 6334491 B2 JP6334491 B2 JP 6334491B2 JP 2015197646 A JP2015197646 A JP 2015197646A JP 2015197646 A JP2015197646 A JP 2015197646A JP 6334491 B2 JP6334491 B2 JP 6334491B2
Authority
JP
Japan
Prior art keywords
concept
search
search target
word
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015197646A
Other languages
English (en)
Other versions
JP2017072884A (ja
Inventor
克人 別所
克人 別所
淳史 大塚
淳史 大塚
中村 孝
孝 中村
松尾 義博
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015197646A priority Critical patent/JP6334491B2/ja
Publication of JP2017072884A publication Critical patent/JP2017072884A/ja
Application granted granted Critical
Publication of JP6334491B2 publication Critical patent/JP6334491B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ユーザが入力した検索クエリに概念的に適合する検索対象文書を検索するための概念ベース生成装置、概念検索装置、方法、及びプログラムに関する。
概念検索は、検索対象となる文書である検索対象文書の集合から、ユーザが入力した検索クエリに概念的に適合する検索対象文書を検索するというものである。
以下の非特許文献1では、コーパスから、単語と該単語の概念を表す単語概念ベクトルとの組の集合である単語概念ベースを生成する。各検索対象文書に対し、該検索対象文書中の単語の、単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索対象文書の概念ベクトルである検索対象文書概念ベクトルを生成する。検索クエリに対し、該検索クエリ中の単語の、単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索クエリの概念ベクトルである検索クエリ概念ベクトルを生成し、各検索対象文書に対し、該検索クエリ概念ベクトルと、該検索対象文書の概念ベクトルとの類似度を算出する。検索結果として、類似度の降順にランキングした検索対象文書を表示する。あるいは、ある閾値以上の類似度をもつ検索対象文書を表示する。
別所克人, 内山俊郎, 内山匡, 片岡良治, 奥雅博,"単語・意味属性間共起に基づくコーパス概念ベースの生成方式,"情報処理学会論文誌, Vol.49, No.12, pp.3997-4006, Dec. 2008.
検索クエリと、該検索クエリに概念的に適合する検索対象文書である正解文書の集合との、組の集合が与えられているとする。この正解情報は、検索精度を向上させる可能性をもっていると考えられるが、従来の概念検索技術では、この情報を扱えなかった。
本発明の目的は、この正解情報を用いて、検索精度を向上させる概念ベース生成装置、概念検索装置、方法、及びプログラムを提供することにある。
上記課題を解決するため、第1の発明に係る概念ベース生成装置は、単語と該単語の概念を表す単語概念ベクトルとの組の集合である単語概念ベースと、検索対象となる文書である検索対象文書の集合Aと、検索クエリと、該検索クエリに概念的に適合する前記集合A中の検索対象文書である正解文書の集合との、組の集合Bを入力とし、前記集合B中の各正解文書に対し、前記集合Bにおいて該正解文書に対応づけられている検索クエリのそれぞれを、該正解文書に連結することにより、前記集合A中の該正解文書を更新する学習手段と、前記集合A中の各検索対象文書に対し、該検索対象文書中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索対象文書の概念ベクトルである検索対象文書概念ベクトルを生成し、該検索対象文書と前記検索対象文書概念ベクトルとの組の集合を格納する検索対象文書概念ベースを生成する検索対象文書概念ベース生成手段と、を含んで構成されている。
第2の発明に係る概念検索装置は、単語と該単語の概念を表す単語概念ベクトルとの組の集合である単語概念ベースと、検索対象となる文書である検索対象文書の集合Aであって、かつ検索クエリと、該検索クエリに概念的に適合する前記集合A中の検索対象文書である正解文書の集合との、組の集合B中の各正解文書に対し、前記集合Bにおいて該正解文書に対応づけられている検索クエリのそれぞれを、該正解文書に連結することにより該正解文書を更新された前記集合A中の各検索対象文書に対し、該検索対象文書中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより生成された、該検索対象文書の概念ベクトルである検索対象文書概念ベクトルと、該検索対象文書との組の集合を格納する検索対象文書概念ベースと、新規の検索クエリに対し、該検索クエリ中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索クエリの概念ベクトルである検索クエリ概念ベクトルを生成し、前記検索対象文書概念ベース中の各検索対象文書に対し、該検索クエリ概念ベクトルと、該検索対象文書の概念ベクトルとの類似度を算出する検索手段と、を含んで構成されている。
第3の発明に係る概念検索装置は、単語と該単語の概念を表す単語概念ベクトルとの組の集合である単語概念ベースと、検索対象となる文書である検索対象文書の集合Aと、検索クエリと、該検索クエリに概念的に適合する前記集合A中の検索対象文書である正解文書の集合との、組の集合Bを入力とし、前記集合B中の各正解文書に対し、前記集合Bにおいて該正解文書に対応づけられている検索クエリのそれぞれを、該正解文書に連結することにより、前記集合A中の該正解文書を更新する学習手段と、前記集合A中の各検索対象文書に対し、該検索対象文書中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索対象文書の概念ベクトルである検索対象文書概念ベクトルを生成し、該検索対象文書と前記検索対象文書概念ベクトルとの組の集合を格納する検索対象文書概念ベースを生成する検索対象文書概念ベース生成手段と、新規の検索クエリに対し、該検索クエリ中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索クエリの概念ベクトルである検索クエリ概念ベクトルを生成し、前記検索対象文書概念ベース中の各検索対象文書に対し、該検索クエリ概念ベクトルと、該検索対象文書の概念ベクトルとの類似度を算出する検索手段と、を含んで構成されている。
また、第4の発明に係る概念ベース生成方法は、単語と該単語の概念を表す単語概念ベクトルとの組の集合である単語概念ベース、検索対象となる文書である検索対象文書の集合A、学習手段、及び検索対象文書概念ベース生成手段を含む概念ベース生成装置における概念ベース生成方法であって、前記学習手段が、検索クエリと、該検索クエリに概念的に適合する前記集合A中の検索対象文書である正解文書の集合との、組の集合Bを入力とし、前記集合B中の各正解文書に対し、前記集合Bにおいて該正解文書に対応づけられている検索クエリのそれぞれを、該正解文書に連結することにより、前記集合A中の該正解文書を更新するステップと、前記検索対象文書概念ベース生成手段が、前記集合A中の各検索対象文書に対し、該検索対象文書中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索対象文書の概念ベクトルである検索対象文書概念ベクトルを生成し、該検索対象文書と前記検索対象文書概念ベクトルとの組の集合を格納する検索対象文書概念ベースを生成するステップと、を含んで構成されている。
また、第5の発明に係る概念検索方法は、単語と該単語の概念を表す単語概念ベクトルとの組の集合である単語概念ベースと、検索対象となる文書である検索対象文書の集合Aであって、かつ検索クエリと、該検索クエリに概念的に適合する前記集合A中の検索対象文書である正解文書の集合との、組の集合B中の各正解文書に対し、前記集合Bにおいて該正解文書に対応づけられている検索クエリのそれぞれを、該正解文書に連結することにより該正解文書を更新された前記集合A中の各検索対象文書に対し、該検索対象文書中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより生成された、該検索対象文書の概念ベクトルである検索対象文書概念ベクトルと、該検索対象文書との組の集合を格納する検索対象文書概念ベースと、検索手段とを含む概念検索装置における概念検索方法であって、前記検索手段が、新規の検索クエリに対し、該検索クエリ中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索クエリの概念ベクトルである検索クエリ概念ベクトルを生成し、前記検索対象文書概念ベース中の各検索対象文書に対し、該検索クエリ概念ベクトルと、該検索対象文書の概念ベクトルとの類似度を算出するステップを含んで構成されている。
また、第6の発明に係る概念検索方法は、単語と該単語の概念を表す単語概念ベクトルとの組の集合である単語概念ベース、検索対象となる文書である検索対象文書の集合A、学習手段、検索対象文書概念ベース生成手段、及び検索手段を含む概念検索装置における概念検索方法であって、前記学習手段が、検索クエリと、該検索クエリに概念的に適合する前記集合A中の検索対象文書である正解文書の集合との、組の集合Bを入力とし、前記集合B中の各正解文書に対し、前記集合Bにおいて該正解文書に対応づけられている検索クエリのそれぞれを、該正解文書に連結することにより、前記集合A中の該正解文書を更新するステップと、前記検索対象文書概念ベース生成手段が、前記集合A中の各検索対象文書に対し、該検索対象文書中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索対象文書の概念ベクトルである検索対象文書概念ベクトルを生成し、該検索対象文書と前記検索対象文書概念ベクトルとの組の集合を格納する検索対象文書概念ベースを生成するステップと、前記検索手段が、新規の検索クエリに対し、該検索クエリ中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索クエリの概念ベクトルである検索クエリ概念ベクトルを生成し、前記検索対象文書概念ベース中の各検索対象文書に対し、該検索クエリ概念ベクトルと、該検索対象文書の概念ベクトルとの類似度を算出するステップと、を含んで構成されている。
また、本発明のプログラムは、コンピュータを、上記の概念ベース生成装置若しくは上記の概念検索装置の各手段として機能させるための、又はコンピュータに、上記の概念ベース生成方法若しくは上記の概念検索方法の各ステップを実行させるためのプログラムである。
本発明では、学習手段と検索対象文書概念ベース生成手段の処理までが、検索の事前処理であり、検索手段の処理が検索処理である。
本発明の概念ベース生成装置、概念検索装置、方法、及びプログラムによれば、正解情報を用いて、検索精度を向上させることができる。
本発明の実施の形態に係る概念検索装置の機能的構成を示すブロック図である。 検索対象文書集合の構成例を示す図である。 正解情報の構成例を示す図である。 更新後の検索対象文書集合の構成例を示す図である。 単語概念ベース26の例を示す図である。 検索対象文書概念ベース30の例を示す図である。 本発明の実施の形態に係る概念検索装置の学習手段及び検索対象文書概念ベース生成手段における処理ルーチンを示すフローチャート図である。 本発明の実施の形態に係る概念検索装置の検索手段における処理ルーチンを示すフローチャート図である。
以下、図面とともに本発明の実施の形態を説明する。
<本発明の実施の形態の概要>
本発明の実施の形態の学習手段は、検索対象文書Xを、対応する検索クエリのそれぞれを包含するように更新する。更新後の検索対象文書X中の単語の集合は、対応する検索クエリp中の単語の集合を包含する。したがって、検索対象文書概念ベース生成手段において、検索対象文書X中の単語の概念ベクトルを合成して得られる検索対象文書概念ベクトルは、対応する検索クエリp中の単語の概念ベクトルを合成して得られる検索クエリ概念ベクトル(この概念ベクトルは検索対象文書概念ベース生成手段において生成するわけではない)の方へ、更新前と比べて近づく。検索手段において、対応する検索クエリpに概念的に近い新規の検索クエリgが入力されたとき、新規検索クエリgの概念ベクトルは、対応する検索クエリpの概念ベクトルと近い。このため、検索対象文書Xの概念ベクトルは、新規検索クエリgの概念ベクトルの方へ、更新前と比べて近づく。これにより、新規検索クエリgに対し、概念的に適合する検索対象文書Xとの類似度が、更新前と比べ高くなる。
<概念検索装置の構成>
本発明の実施の形態に係る概念検索装置の構成について説明する。図1は、本発明の請求項3の概念検索装置の構成例である。図1に示すように、本発明の実施の形態に係る概念検索装置100は、CPUと、RAMと、後述する各処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この概念検索装置100は、機能的には図1に示すように入力手段10と、演算手段20と、出力手段40とを備えている。
入力手段10は、検索対象文書の集合である検索対象文書集合と、正解情報とを入力として受け付ける。
図2は、検索対象文書集合の構成例である。各レコードは、検索対象となる文書である検索対象文書を一意に特定する検索対象文書IDと、検索対象文書テキストからなる。正解情報は、検索クエリと、該検索クエリに概念的に適合する検索対象文書集合中の検索対象文書である正解文書の集合との、組の集合である。正解文書のそれぞれが、該検索クエリに概念的に適合する。図3は、正解情報の構成例である。各レコードは、検索クエリテキストと、それに概念的に適合する正解文書のIDの集合とからなる。
また、入力手段10は、新規の検索クエリを受け付ける。
演算手段20は、学習手段22と、更新後検索対象文書集合データベース24と、単語概念ベース26と、検索対象文書概念ベース生成手段28と、検索対象文書概念ベース30と、検索手段32と、を含んで構成されている。なお、学習手段22と、単語概念ベース26と、検索対象文書概念ベース生成手段28とが、概念ベース生成装置の一例である。
学習手段22は、正解情報中の各正解文書に対し、正解情報において該正解文書に対応づけられている検索クエリのそれぞれを、該正解文書に連結することにより、検索対象文書集合中の該正解文書を更新する。以下、詳細に説明する。
図4は、更新後の検索対象文書集合の構成例である。図3の正解情報において、正解文書Xに対応付けられている検索クエリは、テキストp、テキストq、テキストsである。そこで、図4の正解文書Xのレコードのように、正解文書Xのテキストxに、テキストp、テキストq、テキストsを連結する。連結する際は、連結後のテキストに対する単語分割処理で、各連結対象テキストを別々に処理できるように、テキスト間に、改行ないし空白等の識別文字が入るようにする。図3の他の正解文書(Y、Z、・・・)についても、同様の処理を行う。
なお、連結対象テキストで、文字列が全く同じものが複数あれば、そのようなテキストの内、2番目以降のものは連結しないというようにしてもよい。
図3の正解情報では、1つの検索クエリに対し、正解文書IDの集合が対応付けられているが、1つの正解文書IDに対し、検索クエリの集合が対応付けられている構成例をとっていてもよい。この場合は、正解文書に連結する検索クエリテキストの集合が、既に得られていることになる。
また、学習手段22は、更新後の検索対象文書集合を、更新後検索対象文書集合データベース24に格納する。
検索対象文書概念ベース生成手段28は、更新後検索対象文書集合中の各検索対象文書に対し、該検索対象文書中の単語の、単語概念ベース26における対応する単語概念ベクトルを合成することにより、該検索対象文書の概念ベクトルである検索対象文書概念ベクトルを生成し、該検索対象文書とその検索対象文書概念ベクトルとの組の集合を格納する検索対象文書概念ベース30を生成する。以下、詳細に説明する。
単語概念ベース26は、単語と該単語の概念を表す単語概念ベクトルとの組の集合である。図5は、単語概念ベース26の例である。単語概念ベース26は、例えば、非特許文献1の手法によって生成する。
単語概念ベース26には名詞、動詞、形容詞等の内容語のみを登録するというようにしてもよい。単語概念ベース26において単語は、該単語の終止形で登録されており、単語概念ベース26を検索する際は、単語の終止形で検索する。
各単語の単語概念ベクトルは長さ1に正規化されたd次元ベクトルであり、概念的に近い単語の概念ベクトルは、近くに配置されている。
検索対象文書概念ベース生成手段28の処理では、検索対象文書の更新後のテキストを単語分割する。単語分割結果における各単語で単語概念ベース26を検索し、取得した単語概念ベクトルを加算し、その結果得られた概念ベクトルを長さ1に正規化したものを、該検索対象文書の概念ベクトルとする。
ここで、単語分割結果における単語の内、内容語のみを使用して、検索対象文書概念ベクトルを生成してもよい。また、同一の単語が複数ある場合は、対応する単語概念ベクトルを、その個数分加算してもよいし、1回だけ加算してもよい。また、取得した単語概念ベクトルに対し、対応する単語の所属する連結対象テキストによって、異なる重みを該単語概念ベクトルに乗じた上で加算するというようにしてもよい。
図6は、検索対象文書概念ベース30の構成例である。各検索対象文書に対し、そのIDと検索対象文書概念ベクトルとの組を、検索対象文書概念ベース30の1レコードとして登録する。
検索手段32の処理では、入力手段10によって受け付けた新規の検索クエリに対し、そのテキストを単語分割する。単語分割結果における各単語で単語概念ベース26を検索し、取得した単語概念ベクトルを加算し、その結果得られた概念ベクトルを長さ1に正規化したものを、該検索クエリの概念ベクトルとする。
ここで、単語分割結果における単語の内、内容語のみを使用して、検索クエリ概念ベクトルを生成してもよい。また、同一の単語が複数ある場合は、対応する単語概念ベクトルを、その個数分加算してもよいし、1回だけ加算してもよい。
検索対象文書概念ベース30中の各検索対象文書に対し、該検索クエリ概念ベクトルと、該検索対象文書の概念ベクトルとの類似度を算出する。類似度として、例えばコサイン類似度をとることができる。
出力手段40は、検索結果として、類似度の降順にランキングした検索対象文書を表示する。あるいは、ある閾値以上の類似度をもつ検索対象文書を表示する。
なお、本発明の構成において、学習手段22の処理を行わず、更新前の検索対象文書集合を入力として検索対象文書概念ベース生成手段28の処理を行って検索対象文書概念ベース30を生成し、その検索対象文書概念ベース30を使用して、検索手段32の処理を行うことも、もちろん可能である。
図7は、学習手段22及び検索対象文書概念ベース生成手段28の処理フローの一例である。入力手段10が、検索対象文書集合と正解情報とを受け付けると、図7に示す検索対象文書概念ベース生成処理ルーチンが実行される。
まず、ステップS100において、学習手段22は、入力手段10によって受け付けた、検索対象文書集合及び正解情報を取得する。
そして、ステップS102において、学習手段22は、上記ステップS100で取得された検索対象文書集合及び正解情報に基づいて、正解情報中の各正解文書に対し、正解情報において該正解文書に対応づけられている検索クエリのそれぞれを、該正解文書に連結することにより、検索対象文書集合中の該正解文書を更新し、更新後検索対象文書集合データベース24に格納する。
ステップS104において、検索対象文書概念ベース生成手段28は、上記ステップS102で更新後検索対象文書集合データベース24に格納された更新後の検索対象文書の各々について、更新後の検索対象文書のテキストを単語分割する。そして、検索対象文書概念ベース生成手段28は、更新後の検索対象文書の各々について、単語分割結果における各単語で単語概念ベース26を検索し、取得した単語概念ベクトルを加算し、その結果得られた概念ベクトルを長さ1に正規化したものを、該検索対象文書の概念ベクトルとする。そして、検索対象文書概念ベース生成手段28は、検索対象文書のIDと検索対象文書の概念ベクトルとの組を、検索対象文書概念ベース30に格納し、学習処理ルーチンを終了する。
図8は、検索手段32の処理フローの一例である。入力手段10が、新規の検索クエリを受け付けると、図8に示す検索処理ルーチンが実行される。
まず、ステップS200において、検索手段32は、入力手段10によって受け付けた新規の検索クエリを取得する。
次に、ステップS202において、検索手段32は、上記ステップS200で取得した新規の検索クエリに対し、そのテキストを単語分割する。そして、検索手段32は、単語分割結果における各単語で単語概念ベース26を検索し、取得した単語概念ベクトルを加算し、その結果得られた概念ベクトルを長さ1に正規化したものを、該検索クエリの概念ベクトルとする。
次に、ステップS204において、検索手段32は、検索対象文書概念ベース30中の各検索対象文書に対し、上記ステップS202で生成された新規の検索クエリの概念ベクトルと、該検索対象文書の概念ベクトルとの類似度を算出する。
そして、ステップS206において、出力手段40は、検索結果として、上記ステップS204で算出された類似度の降順にランキングした検索対象文書を表示する。あるいは、ある閾値以上の類似度をもつ検索対象文書を表示する。
これまで述べた処理をプログラムとして構築し、当該プログラムを通信回線または記録媒体からインストールし、CPU等の手段で実施することが可能である。
なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
本発明は、ユーザが入力した検索クエリに概念的に適合する検索対象文書を検索する概念検索技術に適用可能である。
10 入力手段
20 演算手段
22 学習手段
24 更新後検索対象文書集合データベース
26 単語概念ベース
28 検索対象文書概念ベース生成手段
30 検索対象文書概念ベース
32 検索手段
40 出力手段
100 概念検索装置

Claims (7)

  1. 単語と該単語の概念を表す単語概念ベクトルとの組の集合である単語概念ベースと、
    検索対象となる文書である検索対象文書の集合Aと、
    検索クエリと、該検索クエリに概念的に適合する前記集合A中の検索対象文書である正解文書の集合との、組の集合Bを入力とし、前記集合B中の各正解文書に対し、前記集合Bにおいて該正解文書に対応づけられている検索クエリのそれぞれを、該正解文書に連結することにより、前記集合A中の該正解文書を更新する学習手段と、
    前記集合A中の各検索対象文書に対し、該検索対象文書中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索対象文書の概念ベクトルである検索対象文書概念ベクトルを生成し、該検索対象文書と前記検索対象文書概念ベクトルとの組の集合を格納する検索対象文書概念ベースを生成する検索対象文書概念ベース生成手段と、
    を含むことを特徴とする概念ベース生成装置。
  2. 単語と該単語の概念を表す単語概念ベクトルとの組の集合である単語概念ベースと、
    検索対象となる文書である検索対象文書の集合Aであって、かつ検索クエリと、該検索クエリに概念的に適合する前記集合A中の検索対象文書である正解文書の集合との、組の集合B中の各正解文書に対し、前記集合Bにおいて該正解文書に対応づけられている検索クエリのそれぞれを、該正解文書に連結することにより該正解文書を更新された前記集合A中の各検索対象文書に対し、該検索対象文書中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより生成された、該検索対象文書の概念ベクトルである検索対象文書概念ベクトルと、該検索対象文書との組の集合を格納する検索対象文書概念ベースと、
    新規の検索クエリに対し、該検索クエリ中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索クエリの概念ベクトルである検索クエリ概念ベクトルを生成し、前記検索対象文書概念ベース中の各検索対象文書に対し、該検索クエリ概念ベクトルと、該検索対象文書の概念ベクトルとの類似度を算出する検索手段と、
    を含むことを特徴とする概念検索装置。
  3. 単語と該単語の概念を表す単語概念ベクトルとの組の集合である単語概念ベースと、
    検索対象となる文書である検索対象文書の集合Aと、
    検索クエリと、該検索クエリに概念的に適合する前記集合A中の検索対象文書である正解文書の集合との、組の集合Bを入力とし、前記集合B中の各正解文書に対し、前記集合Bにおいて該正解文書に対応づけられている検索クエリのそれぞれを、該正解文書に連結することにより、前記集合A中の該正解文書を更新する学習手段と、
    前記集合A中の各検索対象文書に対し、該検索対象文書中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索対象文書の概念ベクトルである検索対象文書概念ベクトルを生成し、該検索対象文書と前記検索対象文書概念ベクトルとの組の集合を格納する検索対象文書概念ベースを生成する検索対象文書概念ベース生成手段と、
    新規の検索クエリに対し、該検索クエリ中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索クエリの概念ベクトルである検索クエリ概念ベクトルを生成し、前記検索対象文書概念ベース中の各検索対象文書に対し、該検索クエリ概念ベクトルと、該検索対象文書の概念ベクトルとの類似度を算出する検索手段と、
    を含むことを特徴とする概念検索装置。
  4. 単語と該単語の概念を表す単語概念ベクトルとの組の集合である単語概念ベース、検索対象となる文書である検索対象文書の集合A、学習手段、及び検索対象文書概念ベース生成手段を含む概念ベース生成装置における概念ベース生成方法であって、
    前記学習手段が、検索クエリと、該検索クエリに概念的に適合する前記集合A中の検索対象文書である正解文書の集合との、組の集合Bを入力とし、前記集合B中の各正解文書に対し、前記集合Bにおいて該正解文書に対応づけられている検索クエリのそれぞれを、該正解文書に連結することにより、前記集合A中の該正解文書を更新するステップと、
    前記検索対象文書概念ベース生成手段が、前記集合A中の各検索対象文書に対し、該検索対象文書中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索対象文書の概念ベクトルである検索対象文書概念ベクトルを生成し、該検索対象文書と前記検索対象文書概念ベクトルとの組の集合を格納する検索対象文書概念ベースを生成するステップと、
    を含むことを特徴とする概念ベース生成方法。
  5. 単語と該単語の概念を表す単語概念ベクトルとの組の集合である単語概念ベースと、検索対象となる文書である検索対象文書の集合Aであって、かつ検索クエリと、該検索クエリに概念的に適合する前記集合A中の検索対象文書である正解文書の集合との、組の集合B中の各正解文書に対し、前記集合Bにおいて該正解文書に対応づけられている検索クエリのそれぞれを、該正解文書に連結することにより該正解文書を更新された前記集合A中の各検索対象文書に対し、該検索対象文書中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより生成された、該検索対象文書の概念ベクトルである検索対象文書概念ベクトルと、該検索対象文書との組の集合を格納する検索対象文書概念ベースと、検索手段とを含む概念検索装置における概念検索方法であって、
    前記検索手段が、新規の検索クエリに対し、該検索クエリ中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索クエリの概念ベクトルである検索クエリ概念ベクトルを生成し、前記検索対象文書概念ベース中の各検索対象文書に対し、該検索クエリ概念ベクトルと、該検索対象文書の概念ベクトルとの類似度を算出するステップ
    を含むことを特徴とする概念検索方法。
  6. 単語と該単語の概念を表す単語概念ベクトルとの組の集合である単語概念ベース、検索対象となる文書である検索対象文書の集合A、学習手段、検索対象文書概念ベース生成手段、及び検索手段を含む概念検索装置における概念検索方法であって、
    前記学習手段が、検索クエリと、該検索クエリに概念的に適合する前記集合A中の検索対象文書である正解文書の集合との、組の集合Bを入力とし、前記集合B中の各正解文書に対し、前記集合Bにおいて該正解文書に対応づけられている検索クエリのそれぞれを、該正解文書に連結することにより、前記集合A中の該正解文書を更新するステップと、
    前記検索対象文書概念ベース生成手段が、前記集合A中の各検索対象文書に対し、該検索対象文書中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索対象文書の概念ベクトルである検索対象文書概念ベクトルを生成し、該検索対象文書と前記検索対象文書概念ベクトルとの組の集合を格納する検索対象文書概念ベースを生成するステップと、
    前記検索手段が、新規の検索クエリに対し、該検索クエリ中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索クエリの概念ベクトルである検索クエリ概念ベクトルを生成し、前記検索対象文書概念ベース中の各検索対象文書に対し、該検索クエリ概念ベクトルと、該検索対象文書の概念ベクトルとの類似度を算出するステップと、
    を含むことを特徴とする概念検索方法。
  7. コンピュータを、請求項1記載の概念ベース生成装置若しくは請求項2〜請求項3の何れか1項記載の概念検索装置の各手段として機能させるための、又はコンピュータに、請求項4記載の概念ベース生成方法若しくは請求項5〜請求項6の何れか1項記載の概念検索方法の各ステップを実行させるためのプログラム。
JP2015197646A 2015-10-05 2015-10-05 概念ベース生成装置、概念検索装置、方法、及びプログラム Active JP6334491B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015197646A JP6334491B2 (ja) 2015-10-05 2015-10-05 概念ベース生成装置、概念検索装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015197646A JP6334491B2 (ja) 2015-10-05 2015-10-05 概念ベース生成装置、概念検索装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017072884A JP2017072884A (ja) 2017-04-13
JP6334491B2 true JP6334491B2 (ja) 2018-05-30

Family

ID=58537688

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015197646A Active JP6334491B2 (ja) 2015-10-05 2015-10-05 概念ベース生成装置、概念検索装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6334491B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL137305A (en) * 2000-07-13 2005-08-31 Clicksoftware Technologies Ld Method and system for sharing knowledge
JP2004070636A (ja) * 2002-08-06 2004-03-04 Mitsubishi Electric Corp 概念検索装置
JP4711761B2 (ja) * 2005-07-08 2011-06-29 株式会社ジャストシステム データ検索装置、データ検索方法、データ検索プログラムおよびコンピュータに読み取り可能な記録媒体

Also Published As

Publication number Publication date
JP2017072884A (ja) 2017-04-13

Similar Documents

Publication Publication Date Title
CN109408526B (zh) Sql语句生成方法、装置、计算机设备及存储介质
JP5661813B2 (ja) セマンティックオブジェクトの特徴付けおよび検索
JP6722615B2 (ja) クエリクラスタリング装置、方法、及びプログラム
US8478704B2 (en) Decomposable ranking for efficient precomputing that selects preliminary ranking features comprising static ranking features and dynamic atom-isolated components
JP2017162190A (ja) 類似文書検索プログラム、類似文書検索装置、及び類似文書検索方法
KR20150070171A (ko) 스트링 변환의 귀납적 합성을 위한 랭킹 기법
US20060179039A1 (en) Method and system for performing secondary search actions based on primary search result attributes
CN111813930B (zh) 相似文档检索方法及装置
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN112612875B (zh) 一种查询词自动扩展方法、装置、设备及存储介质
CN104067273A (zh) 将搜索结果分组为简档页面
WO2023144413A1 (en) Augmenting machine learning language models using search engine results
JP2011204225A (ja) 属性抽出装置および方法
JP7388256B2 (ja) 情報処理装置及び情報処理方法
JP4266222B2 (ja) 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体
CN117076636A (zh) 一种智能客服的信息查询方法、系统和设备
JP6495206B2 (ja) 文書概念ベース生成装置、文書概念検索装置、方法、及びプログラム
JP2017146869A (ja) 情報検索プログラム及び情報検索装置
CN110019714A (zh) 基于历史结果的多意图查询方法、装置、设备及存储介质
JP6334491B2 (ja) 概念ベース生成装置、概念検索装置、方法、及びプログラム
JP6698061B2 (ja) 単語ベクトル変換装置、方法、及びプログラム
JP5008137B2 (ja) 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体
JP4099197B2 (ja) 概念ベクトル推定方法及び装置及びプログラム及びコンピュータ読取可能な記憶媒体
CN110414680A (zh) 基于众包标注的知识加工系统
CN105426490A (zh) 一种基于树形结构的索引方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170223

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180424

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180426

R150 Certificate of patent or registration of utility model

Ref document number: 6334491

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150