JP6722615B2 - クエリクラスタリング装置、方法、及びプログラム - Google Patents

クエリクラスタリング装置、方法、及びプログラム Download PDF

Info

Publication number
JP6722615B2
JP6722615B2 JP2017077069A JP2017077069A JP6722615B2 JP 6722615 B2 JP6722615 B2 JP 6722615B2 JP 2017077069 A JP2017077069 A JP 2017077069A JP 2017077069 A JP2017077069 A JP 2017077069A JP 6722615 B2 JP6722615 B2 JP 6722615B2
Authority
JP
Japan
Prior art keywords
concept
search
target document
word
search target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017077069A
Other languages
English (en)
Other versions
JP2018180789A (ja
Inventor
克人 別所
克人 別所
久子 浅野
久子 浅野
松尾 義博
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017077069A priority Critical patent/JP6722615B2/ja
Publication of JP2018180789A publication Critical patent/JP2018180789A/ja
Application granted granted Critical
Publication of JP6722615B2 publication Critical patent/JP6722615B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ユーザが入力した検索クエリに概念的に適合する検索対象文書を検索するためのクエリクラスタリング装置、方法、及びプログラムに関する。
概念検索は、検索対象となる文書である検索対象文書のリストから、ユーザが入力した検索クエリに意味的に適合する検索対象文書を検索するというものである。
以下の非特許文献1では、コーパスから、単語と該単語の概念を表す単語概念ベクトルとの組のリストである単語概念ベースを生成する。各検索対象文書に対し、該検索対象文書中の単語の、単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索対象文書の概念ベクトルである検索対象文書概念ベクトルを生成する。検索クエリに対し、該検索クエリ中の単語の、単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索クエリの概念ベクトルである検索クエリ概念ベクトルを生成し、各検索対象文書に対し、該検索クエリ概念ベクトルと、該検索対象文書の概念ベクトルとの類似度を算出する。検索結果として、類似度の降順にランキングした検索対象文書を表示する。あるいは、ある閾値以上の類似度をもつ検索対象文書を表示する。
別所克人, 内山俊郎, 内山匡, 片岡良治, 奥雅博,"単語・意味属性間共起に基づくコーパス概念ベースの生成方式,"情報処理学会論文誌, Vol.49, No.12, pp.3997-4006, Dec. 2008.
検索対象文書に複数の話題が混在している場合、上記従来手法で生成される一つの検索対象文書概念ベクトルは、いずれかの話題に関する単語の概念ベクトルのいずれとも遠い、曖昧性をもった概念ベクトルとなる。このため、いずれかの話題に関する検索クエリが入力されたとき、正解の検索対象文書との類似度が低くなり、検索精度に問題があった。
本発明の目的は、この課題を解決し、検索精度を向上させるクエリクラスタリング装置、方法、及びプログラムを提供することにある。
上記課題を解決するため、第1の発明に係るクエリクラスタリング装置は、単語と該単語の概念を表す単語概念ベクトルとの組のリストである単語概念ベースと、検索対象となる文書である検索対象文書と、該検索対象文書と意味的に適合する検索クエリのリストとの、組のリストAを入力とし、該リストA中の各要素において、該要素中の検索対象文書及び検索クエリの各テキストに対し、該テキスト中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該テキストの概念ベクトルであるテキスト概念ベクトルを生成し、該テキスト概念ベクトルのリストをクラスタリングすることにより、テキスト概念ベクトルのクラスタの概念ベクトルのリストBを生成し、該検索対象文書と該リストBとの組のリストを格納する検索対象文書概念ベースを生成する検索対象文書概念ベース生成手段と、を含んで構成されている。
第2の発明に係るクエリクラスタリング装置は、新規の検索クエリに対し、該検索クエリ中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索クエリの概念ベクトルである検索クエリ概念ベクトルを生成し、前記検索対象文書概念ベース中の各検索対象文書に対し、該検索クエリ概念ベクトルと、該検索対象文書の各概念ベクトルとの類似度の最大値を、該検索対象文書の類似度として算出する検索手段をさらに含んで構成されている。
また、第3の発明に係るクエリクラスタリング方法は、単語と該単語の概念を表す単語概念ベクトルとの組のリストである単語概念ベースと、検索対象文書概念ベース生成手段とを含むクエリクラスタリング装置におけるクエリクラスタリング方法であって、前記検索対象文書概念ベース生成手段が、検索対象となる文書である検索対象文書と、該検索対象文書と意味的に適合する検索クエリのリストとの、組のリストAを入力とし、該リストA中の各要素において、該要素中の検索対象文書及び検索クエリの各テキストに対し、該テキスト中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該テキストの概念ベクトルであるテキスト概念ベクトルを生成し、該テキスト概念ベクトルのリストをクラスタリングすることにより、テキスト概念ベクトルのクラスタの概念ベクトルのリストBを生成し、該検索対象文書と該リストBとの組のリストを格納する検索対象文書概念ベースを生成するステップを含んで構成されている。
また、第4の発明に係るクエリクラスタリング方法は、検索手段をさらに含むクエリクラスタリング方法であって、前記検索手段が、新規の検索クエリに対し、該検索クエリ中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索クエリの概念ベクトルである検索クエリ概念ベクトルを生成し、前記検索対象文書概念ベース中の各検索対象文書に対し、該検索クエリ概念ベクトルと、該検索対象文書の各概念ベクトルとの類似度の最大値を、該検索対象文書の類似度として算出するステップをさらに含んで構成されている。
また、本発明のプログラムは、コンピュータを、本発明のクエリクラスタリング装置の各手段として機能させるためのプログラムである。
本発明では、検索対象文書概念ベース生成手段の処理が、検索の事前処理であり、検索手段の処理が検索処理である。
本発明のクエリクラスタリング装置、方法、及びプログラムによれば、検索精度を向上させることができる。
本発明の実施の形態の効果を説明するための説明図である。 本発明の実施の形態に係るクエリクラスタリング装置の機能的構成を示すブロック図である。 検索対象文書リストの構成例を示す図である。 検索対象文書と、該検索対象文書と意味的に適合する検索クエリのリストとの、組のリストAの構成例を示す図である。 単語概念ベース24の例を示す図である。 検索対象文書概念ベース26の構成例を示す図である。 本発明の実施の形態に係るクエリクラスタリング装置の検索対象文書概念ベース生成手段における処理ルーチンを示すフローチャート図である。 本発明の実施の形態に係るクエリクラスタリング装置の検索手段における処理ルーチンを示すフローチャート図である。
以下、図面とともに本発明の実施の形態を説明する。
<本発明の実施の形態の概要>
図1は、本発明の効果を説明するための図である。
ある検索対象文書Gに二つの話題が混在しているとする。本発明の実施の形態では、検索対象文書概念ベース生成手段が、Gに対応するテキスト概念ベクトルリストをクラスタリングし、その結果、2個のクラスタが形成され、各クラスタの概念ベクトルa,bが生成される。従来手法では、概念ベクトルa,bの重心ないしは重心に近い一つの検索対象文書概念ベクトルcが生成される。
別の検索対象文書Hにも二つの話題が混在しているとする。本発明の実施の形態では、検索対象文書概念ベース生成手段が、Hに対応するテキスト概念ベクトルリストをクラスタリングし、その結果、2個のクラスタが形成され、各クラスタの概念ベクトルp,qが生成される。従来手法では、概念ベクトルp,qの重心ないしは重心に近い一つの検索対象文書概念ベクトルrが生成される。
概念ベクトルaに対応する話題に関する検索クエリが入力された場合、検索対象文書Gの方が、検索対象文書Hよりも類似度が高くなるのが望ましい。該検索クエリの概念ベクトルxは、概念ベクトルaの近くにプロットされる。
図1のような位置関係の場合、従来手法では、概念ベクトルrの方が、概念ベクトルcよりも、概念ベクトルxに近いため、検索対象文書Hの方が、検索対象文書Gよりも類似度が高くなってしまう。
本発明の実施の形態では、検索対象文書Gに対しては、概念ベクトルaの方が、概念ベクトルbよりも、概念ベクトルxとの類似度が高いため、概念ベクトルaとの類似度が、検索対象文書Gの類似度となる。検索対象文書Hに対しては、概念ベクトルpの方が、概念ベクトルqよりも、概念ベクトルxとの類似度が高いため、概念ベクトルpとの類似度が、検索対象文書Hの類似度となる。概念ベクトルaの方が、概念ベクトルpよりも、概念ベクトルxとの類似度が高いため、検索対象文書Gの方が、検索対象文書Hよりも類似度が高くなる。
このようにして、本発明の実施の形態では、各検索対象文書に対し、包含する話題ごとに、対応するクラスタの概念ベクトルであるクラスタ概念ベクトルを生成し、クラスタ概念ベクトルとの類似度の最大値を、該検索対象文書の類似度とするので、検索クエリと意味的に適合する話題を包含する検索対象文書の類似度が高くなり、検索精度が従来手法より高くなる。
<クエリクラスタリング装置の構成>
本発明の実施の形態に係るクエリクラスタリング装置の構成について説明する。図2は、本発明のクエリクラスタリング装置の構成例である。図2に示すように、本発明の実施の形態に係るクエリクラスタリング装置100は、CPUと、RAMと、後述する各処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このクエリクラスタリング装置100は、機能的には図2に示すように入力手段10と、演算手段20と、出力手段30とを備えている。
入力手段10は、検索対象となる文書である検索対象文書と、該検索対象文書と意味的に適合する検索クエリのリストとの、組のリストAを入力として受け付ける。また、入力手段10は、新規の検索クエリを受け付ける。
演算手段20は、検索対象文書概念ベース生成手段22と、単語概念ベース24と、検索対象文書概念ベース26と、検索手段28と、を含んで構成されている。
検索対象文書概念ベース生成手段22は、検索対象となる文書である検索対象文書と、該検索対象文書と意味的に適合する検索クエリのリストとの、組のリストAを入力とし、該リストA中の各要素において、該要素中の検索対象文書及び検索クエリの各テキストに対し、該テキスト中の単語の、単語概念ベース24における対応する単語概念ベクトルを合成することにより、該テキストの概念ベクトルであるテキスト概念ベクトルを生成し、該テキスト概念ベクトルのリストをクラスタリングすることにより、テキスト概念ベクトルのクラスタの概念ベクトルのリストBを生成し、該検索対象文書と該リストBとの組のリストを格納する検索対象文書概念ベース26を生成する。以下、詳細に説明する。
図3は、検索対象文書リストの構成例である。各レコードは、検索対象となる文書である検索対象文書を一意に特定する検索対象文書IDと、検索対象文書テキストからなる。
図4は、検索対象文書と、該検索対象文書と意味的に適合する検索クエリのリストとの、組のリストAの構成例である。各レコードは、検索対象文書IDと、対応するテキストのリストからなる。対応するテキストのリストは、当該検索対象文書のテキストと、該検索対象文書と意味的に適合する検索クエリから構成される。例えば、図4に示されるように、本実施の形態では、1レコードがテキストと検索クエリのリストとの2つからなるため組と称し、この組が複数あるためリストAと称する。リストAの要素は1レコードであり、検索クエリのリストの要素は検索クエリである。
単語概念ベース24は、単語と該単語の概念を表す単語概念ベクトルとの組のリストである。図5は、単語概念ベース24の例である。単語概念ベース24は、例えば、非特許文献1の手法によって生成する。
単語概念ベース24には名詞、動詞、形容詞等の内容語のみを登録するというようにしてもよい。単語概念ベース24において単語は、該単語の終止形で登録されており、単語概念ベース24を検索する際は、単語の終止形で検索する。
各単語の単語概念ベクトルはd次元ベクトルであり、概念的に近い単語の概念ベクトルは、近くに配置されている。単語概念ベクトルは、長さ1に正規化しておいてもよい。
検索対象文書概念ベース生成手段22の処理では、入力手段10で受け付けたリストA中の各要素において、該要素中の検索対象文書テキスト及び検索クエリの各テキストに対し、単語分割を行う。各テキストに対し、単語分割結果における各単語で単語概念ベース24を検索し、取得した単語概念ベクトルを加算したものを、該テキストの概念ベクトルであるテキスト概念ベクトルとする。テキスト概念ベクトルは、長さ1に正規化しておいてもよい。
ここで、単語分割結果における単語の内、内容語のみを使用して、テキスト概念ベクトルを生成してもよい。また、同一の単語が複数ある場合は、対応する単語概念ベクトルを、その個数分加算してもよいし、1回だけ加算してもよい。
図4の検索対象文書IDがXのレコードに対しては、テキストx、検索クエリp、q、sのそれぞれに対し、テキスト概念ベクトルが生成される。
検索対象文書概念ベース生成手段22の処理では、その後、リストA中の各要素において、生成したテキスト概念ベクトルのリストをクラスタリングする。図4の検索対象文書IDがXのレコードに対しては、テキストx、検索クエリp、q、sそれぞれから生成した4個のテキスト概念ベクトルをクラスタリングすることになる。
クラスタリングの手法としては、ウォード法やk-means法など、各種クラスタリングの手法が考えられる。クラスタリングにより、該要素が包含する話題に対応する、テキスト概念ベクトルのクラスタが生成され、また、各クラスタに対応する概念ベクトルであるクラスタ概念ベクトルが生成される。クラスタ概念ベクトルは、長さ1に正規化しておいてもよい。このようにして、リストA中の各要素に対し、クラスタ概念ベクトルのリストBが生成される。
ここで、検索対象文書テキストの概念ベクトルは、それだけで一つのクラスタ概念ベクトルとし、検索クエリ概念ベクトルリストに対しクラスタリングを行うというようにしてもよい。クラスタリングの結果得られたクラスタ概念ベクトルのリストと、検索対象文書テキストの概念ベクトルを合わせたものを、リストBとする。
検索対象文書概念ベース生成手段22の処理では、リストA中の各要素において、検索対象文書IDとリストBとの組を、検索対象文書概念ベース26に1レコードとして格納する。図6は、検索対象文書概念ベース26の構成例である。図4の検索対象文書IDがXのレコードに対しては、クラスタリングの結果、3個のクラスタ概念ベクトルからなるリストBが生成され、図6のように、XとリストBとの組が格納されている。
検索手段28は、入力手段10で受け付けた新規の検索クエリに対し、該検索クエリ中の単語の、単語概念ベース24における対応する単語概念ベクトルを合成することにより、該検索クエリの概念ベクトルである検索クエリ概念ベクトルを生成し、検索対象文書概念ベース26中の各検索対象文書に対し、該検索クエリ概念ベクトルと、該検索対象文書の各概念ベクトルとの類似度の最大値を、該検索対象文書の類似度として算出する。以下、詳細に説明する。
検索手段28の処理では、新規の検索クエリに対し、単語分割を行う。単語分割結果における各単語で単語概念ベース24を検索し、取得した単語概念ベクトルを加算したものを、該検索クエリの概念ベクトルである検索クエリ概念ベクトルとする。検索クエリ概念ベクトルは、長さ1に正規化しておいてもよい。
ここで、単語分割結果における単語の内、内容語のみを使用して、検索クエリ概念ベクトルを生成してもよい。また、同一の単語が複数ある場合は、対応する単語概念ベクトルを、その個数分加算してもよいし、1回だけ加算してもよい。
検索手段28の処理では、その後、検索対象文書概念ベース26中の各検索対象文書IDに対し、該検索クエリ概念ベクトルと、該検索対象文書IDに対応する各概念ベクトルとの類似度を算出する。類似度として、例えばコサイン類似度をとることができる。算出した類似度の最大値を、該検索対象文書IDの類似度とする。
検索手段28の処理では、検索結果として、類似度の降順にランキングした検索対象文書IDを表示する。あるいは、ある閾値以上の類似度をもつ検索対象文書IDを表示する。
そして、出力手段30は、検索手段28によって得られた結果を出力する。
図7は、検索対象文書概念ベース生成手段22の処理フローの一例である。入力手段10が、検索対象文書と、該検索対象文書と意味的に適合する検索クエリのリストとの、組のリストAを入力として受け付けると、図7に示す検索対象文書概念ベース生成処理ルーチンが実行される。
まず、ステップS100において、検索対象文書概念ベース生成手段22は、リストA中の各要素において、該要素中の検索対象文書テキスト及び検索クエリの各テキストに対し、単語分割を行う。
そして、ステップS102において、検索対象文書概念ベース生成手段22は、各テキストに対し、単語分割結果における各単語で単語概念ベース24を検索し、取得した単語概念ベクトルを加算したものを、該テキストの概念ベクトルであるテキスト概念ベクトルとする。
ステップS104において、検索対象文書概念ベース生成手段22は、リストA中の各要素において、上記ステップS102で生成したテキスト概念ベクトルのリストをクラスタリングして、リストBを得る。
ステップS106において、検索対象文書概念ベース生成手段22は、リストA中の各要素において、検索対象文書IDとリストBとの組を、検索対象文書概念ベース26に1レコードとして格納し、検索対象文書概念ベース生成処理ルーチンを終了する。
図8は、検索手段28の処理フローの一例である。入力手段10が、新規の検索クエリを受け付けると、図8に示す検索処理ルーチンが実行される。
まず、ステップS200において、検索手段28は、新規の検索クエリに対し、単語分割を行う。
次に、ステップS202において、検索手段28は、上記ステップS200で得られた単語分割結果における各単語で単語概念ベース24を検索し、取得した単語概念ベクトルを加算したものを、該検索クエリの概念ベクトルである検索クエリ概念ベクトルとする。
次に、ステップS204において、検索手段28は、検索対象文書概念ベース26中の各検索対象文書IDに対し、上記ステップS202で得られた該検索クエリ概念ベクトルと、該検索対象文書IDに対応する各概念ベクトルとの類似度を算出する。算出した類似度の最大値を、該検索対象文書IDの類似度とする。
そして、ステップS206において、検索手段28は、検索結果として、上記ステップS204で得られた類似度の降順にランキングした検索対象文書IDを表示する。あるいは、ある閾値以上の類似度をもつ検索対象文書IDを表示する。
出力手段30は、上記ステップS206で得られた結果を出力する。
これまで述べた処理をプログラムとして構築し、当該プログラムを通信回線または記録媒体からインストールし、CPU等の手段で実施することが可能である。
なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
本発明は、ユーザが入力した検索クエリに概念的に適合する検索対象文書を検索する概念検索技術に適用可能である。
10 入力手段
20 演算手段
22 検索対象文書概念ベース生成手段
24 単語概念ベース
26 検索対象文書概念ベース
28 検索手段
30 出力手段
100 クエリクラスタリング装置

Claims (5)

  1. 単語と該単語の概念を表す単語概念ベクトルとの組のリストである単語概念ベースと、
    検索対象となる文書である検索対象文書と、該検索対象文書と意味的に適合する検索クエリのリストとの、組のリストAを入力とし、該リストA中の各要素において、該要素中の検索対象文書及び検索クエリの各テキストに対し、該テキスト中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該テキストの概念ベクトルであるテキスト概念ベクトルを生成し、該テキスト概念ベクトルのリストをクラスタリングすることにより、テキスト概念ベクトルのクラスタの概念ベクトルのリストBを生成し、該検索対象文書と該リストBとの組のリストを格納する検索対象文書概念ベースを生成する検索対象文書概念ベース生成手段と、
    を含むことを特徴とするクエリクラスタリング装置。
  2. 新規の検索クエリに対し、該検索クエリ中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索クエリの概念ベクトルである検索クエリ概念ベクトルを生成し、前記検索対象文書概念ベース中の各検索対象文書に対し、該検索クエリ概念ベクトルと、該検索対象文書の各概念ベクトルとの類似度の最大値を、該検索対象文書の類似度として算出する検索手段をさらに含むことを特徴とする請求項1記載のクエリクラスタリング装置。
  3. 単語と該単語の概念を表す単語概念ベクトルとの組のリストである単語概念ベースと、検索対象文書概念ベース生成手段とを含むクエリクラスタリング装置におけるクエリクラスタリング方法であって、
    前記検索対象文書概念ベース生成手段が、検索対象となる文書である検索対象文書と、該検索対象文書と意味的に適合する検索クエリのリストとの、組のリストAを入力とし、該リストA中の各要素において、該要素中の検索対象文書及び検索クエリの各テキストに対し、該テキスト中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該テキストの概念ベクトルであるテキスト概念ベクトルを生成し、該テキスト概念ベクトルのリストをクラスタリングすることにより、テキスト概念ベクトルのクラスタの概念ベクトルのリストBを生成し、該検索対象文書と該リストBとの組のリストを格納する検索対象文書概念ベースを生成するステップ
    を含むことを特徴とするクエリクラスタリング方法。
  4. 検索手段をさらに含むクエリクラスタリング方法であって、
    前記検索手段が、新規の検索クエリに対し、該検索クエリ中の単語の、前記単語概念ベースにおける対応する単語概念ベクトルを合成することにより、該検索クエリの概念ベクトルである検索クエリ概念ベクトルを生成し、前記検索対象文書概念ベース中の各検索対象文書に対し、該検索クエリ概念ベクトルと、該検索対象文書の各概念ベクトルとの類似度の最大値を、該検索対象文書の類似度として算出するステップをさらに含むことを特徴とする
    請求項3記載のクエリクラスタリング方法。
  5. コンピュータを、請求項1又は請求項2記載のクエリクラスタリング装置の各手段として機能させるためのプログラム。
JP2017077069A 2017-04-07 2017-04-07 クエリクラスタリング装置、方法、及びプログラム Active JP6722615B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017077069A JP6722615B2 (ja) 2017-04-07 2017-04-07 クエリクラスタリング装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017077069A JP6722615B2 (ja) 2017-04-07 2017-04-07 クエリクラスタリング装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018180789A JP2018180789A (ja) 2018-11-15
JP6722615B2 true JP6722615B2 (ja) 2020-07-15

Family

ID=64275475

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017077069A Active JP6722615B2 (ja) 2017-04-07 2017-04-07 クエリクラスタリング装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6722615B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582796A (zh) * 2018-12-05 2019-04-05 深圳前海微众银行股份有限公司 企业舆情事件网络的生成方法、装置、设备及存储介质
EP3958147A4 (en) 2019-04-19 2022-07-06 Fujitsu Limited IDENTIFICATION METHOD, GENERATION METHOD, SIZE REDUCTION METHOD, DISPLAY METHOD AND INFORMATION PROCESSING DEVICE
JP7177013B2 (ja) * 2019-07-01 2022-11-22 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
CN111753069B (zh) * 2020-06-09 2024-05-07 北京小米松果电子有限公司 语义检索方法、装置、设备及存储介质
CN113268565B (zh) * 2021-04-27 2022-03-25 山东大学 一种基于概念文本的词向量快速生成方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4711761B2 (ja) * 2005-07-08 2011-06-29 株式会社ジャストシステム データ検索装置、データ検索方法、データ検索プログラムおよびコンピュータに読み取り可能な記録媒体
JP4906123B2 (ja) * 2008-07-18 2012-03-28 日本電信電話株式会社 文書分類装置、文書分類方法、プログラム及び記録媒体
US9009148B2 (en) * 2011-12-19 2015-04-14 Microsoft Technology Licensing, Llc Clickthrough-based latent semantic model
JP2015088064A (ja) * 2013-10-31 2015-05-07 日本電信電話株式会社 テキスト要約装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2018180789A (ja) 2018-11-15

Similar Documents

Publication Publication Date Title
JP6722615B2 (ja) クエリクラスタリング装置、方法、及びプログラム
KR101661198B1 (ko) 단문/복문 구조의 자연어 질의에 대한 검색 및 정보 제공 방법 및 시스템
US20160306800A1 (en) Reply recommendation apparatus and system and method for text construction
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
CN103914569B (zh) 输入提示方法、装置及字典树模型的创建方法、装置
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
Agrawal et al. A novel algorithm for automatic document clustering
Lin et al. Automatic tagging web services using machine learning techniques
CN110362652B (zh) 基于空间-语义-数值相关度的空间关键字Top-K查询方法
Yadav et al. Sanity check: A strong alignment and information retrieval baseline for question answering
Renjit et al. CUSAT NLP@ AILA-FIRE2019: Similarity in Legal Texts using Document Level Embeddings.
Shah et al. Similarity driven unsupervised learning for materials science terminology extraction
JP2017072885A (ja) 情報検索装置、辞書作成装置、方法、及びプログラム
CN117076636A (zh) 一种智能客服的信息查询方法、系统和设备
JP2005149014A (ja) 文書関連語彙獲得方法及び装置及びプログラム
JP6495206B2 (ja) 文書概念ベース生成装置、文書概念検索装置、方法、及びプログラム
CN104376034B (zh) 信息处理设备,信息处理方法和程序
US9547701B2 (en) Method of discovering and exploring feature knowledge
US20220318318A1 (en) Systems and methods for automated information retrieval
Onal et al. Utilizing word embeddings for result diversification in tweet search
JP2019087157A (ja) 単語ベクトル変換装置、方法、及びプログラム
CN110738042B (zh) 纠错词典创建方法、装置、终端及计算机存储介质
KR102411778B1 (ko) 다중 지식의 비교 우위를 추론하는 서버, 방법 및 컴퓨터 프로그램
JP6334491B2 (ja) 概念ベース生成装置、概念検索装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190626

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200609

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200622

R150 Certificate of patent or registration of utility model

Ref document number: 6722615

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150