JP5213742B2 - 概念検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 - Google Patents

概念検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 Download PDF

Info

Publication number
JP5213742B2
JP5213742B2 JP2009024157A JP2009024157A JP5213742B2 JP 5213742 B2 JP5213742 B2 JP 5213742B2 JP 2009024157 A JP2009024157 A JP 2009024157A JP 2009024157 A JP2009024157 A JP 2009024157A JP 5213742 B2 JP5213742 B2 JP 5213742B2
Authority
JP
Japan
Prior art keywords
vector
search
concept
vectors
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009024157A
Other languages
English (en)
Other versions
JP2010182041A (ja
Inventor
匡 内山
俊郎 内山
克人 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009024157A priority Critical patent/JP5213742B2/ja
Publication of JP2010182041A publication Critical patent/JP2010182041A/ja
Application granted granted Critical
Publication of JP5213742B2 publication Critical patent/JP5213742B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、概念検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体に係り、特に、単語や、新聞記事、ウェブ等の文書を対象として、単語間、文書間、単語−文書間の類似性を判定するための概念検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体に関する。
単語間の類似性を判定し、類義語を検索し、また、関連文書を検索するためのデータベースの一つとして概念ベースが用いられている。
この「概念ベース」は、単語とその単語に対応する概念ベクトルの組からなるデータベースである。概念ベースとして、国語辞典の語義文から作成される辞書概念ベース(例えば、特許文献1参照)と、記事新聞等の文書を大量に集めたコーパスから作成されるコーパス概念ベース(例えば、非特許文献1参照)とが知られている。
また、所定の単語の「概念ベクトル」は、上記所定の単語が属する範囲(例えば、文)内で、予め決められた複数の共起語のそれぞれと共起する頻度に応じて算出される。辞書概念ベースにおける共起語として、単語を辞書引きして得られる語義文中に出現する単語が用いられ、コーパス概念ベースにおける共起語として、コーパス中に高頻度で出現する単語が用いられる。各単語を行とし、共起語を列とし、単語と共起語との共起頻度を行列の成分とする共起行列を作成する。
辞書概念ベースの場合、上記共起行列における各行の行ベクトルが、単語の概念ベクトルであり、通常は語義文中に含まれる単語について、孫引きすることによって得られる語義文等を用いて概念ベクトルの精錬が行われる。
コーパス概念ベースにおいて、特異値分解によって共起行列の列の次元を圧縮した行列を作成し、この圧縮した行列の各行の行ベクトルが概念ベクトルである。このようにして作成された概念ベースは、単語間の類似性が高い程、単語の概念ベクトル間の距離が近いという性質を持つので、単語間の類似性を判定する場合に有効である。つまり、2つの単語間の概念ベクトルの距離が近い程、上記2つの単語間の類似性が高いと判断できる。
文書の概念ベクトルは、文書を形態素解析して抽出される単語の概念ベクトルの平均として定義される。文書の概念ベクトルは、単語の概念ベクトルと全く同様に取り扱うことができ、各概念ベクトル間の距離に基づいて、文書間、単語−文書間の類似性を判定することができる。
概念ベクトル間の距離を測定する測度として、Euclid距離やKullback-Leibler距離が用いられる。検索ベクトルをp→=(p,…,p)、被検索ベクトルをq→=(q,…,q)(『→』はベクトルを表す)とするととき、Euclid距離D(p→,q→)は、
Figure 0005213742
Kullback-Leibler距離DKL(p→,r→)は、
Figure 0005213742
でそれぞれ定義される。図10に従来技術におけるベクトル間の距離の概念を示した。同図では、検索ベクトルOP→、被検索ベクトルOQ→との距離Dを点線で表している。
特許第3379603号公報
H. Schutze, "Dimensions of meaning", Proceedings of Supercomputing '92, pp.787-796, 1992年
しかしながら、概念ベクトル間の距離に基づいて、単語間、文書間、単語−文書間の類似性を判定する方法では、通常のウェブ検索のような、指定した複数の概念を含むOR検索や、指定した概念を含まないNOT検索ができないという問題がある。
本発明は、上記の点に鑑みなされたもので、指定した複数の概念を含むOR検索や、指定した概念を含まないNOT検索を行うことができ、追加した概念、除きたい概念を詳細に指定して目的とする文書を精度よく抽出することが可能な概念検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体を提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、単語または文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、単語間または文書間または単語−文書間の類似性を判定する概念検索方法において、
検索ベクトル入力手段が、検索語または検索文書の概念ベクトル(検索ベクトル)を1つ取得する検索ベクトル入力ステップ(ステップ1)と、
検索条件ベクトル入力手段が、検索ベクトルに対するOR条件となるN個の、単語または文書の概念ベクトル(検索条件ベクトル)を取得する検索条件ベクトル入力ステップ(ステップ2)と、
被検索ベクトル取得手段が、検索される複数の単語または複数の文書の概念ベクトル(被検索ベクトル)が格納された概念ベクトル蓄積手段から被検索ベクトルを取得する被検索ベクトル取得ステップ(ステップ3)と、
距離計算手段が、検索ベクトルとN個の検索条件ベクトルとが成すN次元平面と、被検索条件ベクトルとの距離を計算し、ベクトル距離計算記憶手段に格納する距離計算ステップ(ステップ4)と、からなる。
発明(請求項2)は、単語または文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、単語間または文書間または単語−文書間の類似性を判定する概念検索方法において、
検索ベクトル入力手段が、検索語または検索文書の概念ベクトル(検索ベクトル)を1つ取得する検索ベクトル入力ステップと、
検索条件ベクトル入力手段が、検索ベクトルに対するNOT条件となるN個の、単語または文書の概念ベクトル(検索条件ベクトル)を取得する検索条件ベクトル入力ステップと、
被検索ベクトル取得手段が、検索される複数の単語または複数の文書の概念ベクトル(被検索ベクトル)が格納された概念ベクトル蓄積手段から被検索ベクトルを取得する被検索ベクトル取得ステップと、
距離計算手段が、被検索ベクトルとN個の検索条件ベクトルとによるN次元平面と、検索条件ベクトルとの距離を計算し、ベクトル距離計算記憶手段に格納する距離計算ステップと、からなる。
図2は、本発明の原理構成図である。
本発明(請求項)は、単語または文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、単語間または文書間または単語−文書間の類似性を判定する概念検索装置であって、
検索語または検索文書の概念ベクトル(検索ベクトル)を1つ取得する検索ベクトル入力手段101と、
検索ベクトルに対するOR条件となるN個の、単語または文書の概念ベクトル(検索条件ベクトル)を取得する検索条件ベクトル入力手段102と、
検索される複数の単語または複数の文書の概念ベクトル(被検索ベクトル)が格納された概念ベクトル蓄積手段103から被検索ベクトルを取得する被検索ベクトル取得手段104と、
検索ベクトルとN個の検索条件ベクトルとが成すN次元平面と、被検索条件ベクトルとの距離を計算し、ベクトル距離計算記憶手段107に格納する距離計算手段105と、を有する。
本発明(請求項4)は、単語または文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、単語間または文書間または単語−文書間の類似性を判定する概念検索装置であって、
検索語または検索文書の概念ベクトル(検索ベクトル)を1つ取得する検索ベクトル入力手段と、
前記検索ベクトルに対するNOT条件となるN個の、単語または文書の概念ベクトル(検索条件ベクトル)を取得する検索条件ベクトル入力手段と、
検索される複数の単語または複数の文書の概念ベクトル(被検索ベクトル)が格納された概念ベクトル蓄積手段から被検索ベクトルを取得する被検索ベクトル取得手段と、
前記被検索ベクトルと前記N個の検索条件ベクトルとによるN次元平面と、前記検索条件ベクトルとの距離を計算し、ベクトル距離計算記憶手段に格納する距離計算手段と、
を有する。
本発明(請求項)は、請求項1または2のいずれか1項記載の概念検索方法の各ステップを実行するコンピュータを機能させるための概念検索プログラムである。
本発明(請求項)は、請求項記載の概念検索プログラムを格納したことを特徴とするコンピュータ読取可能な記録媒体である。
上記のように、本発明では、検索条件を概念ベクトルとして与え、被検索ベクトルと、検索ベクトル及び検索条件ベクトルとの距離に基づいて、単語間、文書間、単語−文書間の類似性を判定することによって指定した複数の概念を含むOR検索や、指定した概念を含まないNOT検索を行うことにより、入力したテキストに概念的に類似する文書を検索することが可能な概念検索において、更に追加したい概念、除きたい概念を詳細に指定して、目的とする文書をより精度よく抽出することが可能になる。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の一実施の形態における概念検索装置の構成図である。 本発明の一実施の形態における動作のフローチャートである。 本発明の一実施の形態におけるOR検索時の距離の求め方を説明するための図である。 本発明の一実施の形態におけるNOT検索時の距離の求め方を説明するための図である。 本発明の一実施の形態におけるOR検索とNOT検索を同時に適用する場合の距離の求め方を説明するための図である。 本発明の一実施の形態におけるNOT検索条件が複数ある場合の距離の求め方を説明するための図である。 本発明の一実施の形態におけるOR及びNOT検索条件が複数ある場合の距離の求め方を説明するための図である。 従来技術におけるベクトル間の距離の概念を示す図である。
以下、図面と共に本発明の実施の形態を説明する。
最初に、以下で用いる「検索ベクトル」、「検索条件ベクトル」、「被検索ベクトル」について、キーワード(単語)による文書検索を想定して説明する。
(1)OR条件の場合:
検索条件が「単語Aを含むか、単語Bを含むか、単語Cを含むか」である場合は、
検索ベクトル:単語Aの概念ベクトル;
検索条件ベクトル:単語Bの概念ベクトル、及び単語Cの概念ベクトル;
被検索ベクトル:検索対象の各文書の概念ベクトル;
となる。
(2)NOT条件の場合:
検索条件が「単語Aを含み、且つ単語Bを含まない、且つ単語Cを含まない」である場合は、
検索ベクトル:単語Aの概念ベクトル;
検索条件ベクトル:単語Bの概念ベクトル、及び単語Cの概念ベクトル;
被検索ベクトル:検索対象の各文書の概念ベクトル;
となる。
図3は、本発明の一実施の形態における概念検索装置の構成を示す。
同図に示す概念検索装置は、検索ベクトル入力部101、検索条件ベクトル入力部102、概念ベクトル蓄積部103、被検索ベクトル取得部104、距離計算部105、結果出力部106から構成される。
検索ベクトル入力部101は、端末からキーボードを用いて単語や文書が入力されると、これを概念ベクトル(検索ベクトル)に変換する。
検索条件ベクトル入力部102は、端末からキーボードを用いて単語や文書が入力されると、概念ベクトル(検索条件ベクトル)に変換する。
概念ベクトル蓄積部103は、従来の概念ベースに相当するものであり、検索される概念ベクトルを蓄積し、被検索ベクトル取得部104によって検索される。
被検索ベクトル取得部104は、検索される単語または文書の概念ベクトル(被検索ベクトル)を概念ベクトル蓄積部103から取得する。
距離計算部105は、被検索ベクトル取得部104から被検索ベクトル、検索ベクトル入力部101から検索ベクトル、検索条件ベクトル入力部102から検索条件ベクトルを取得して、各被検索ベクトルについて、検索ベクトル、検索条件ベクトルの距離を計算し、距離計算結果記憶部107に格納する。
結果出力部106は、距離計算結果記憶部107に格納されている距離を昇順にソートして、距離の小さい順に被検索ベクトルに対応する単語や文書を検索結果として出力する。
次に、上記の構成における動作を説明する。
図4は、本発明の一実施の形態における動作のフローチャートである。
まず、検索ベクトル入力部101に検索ベクトルが入力され(ステップ201)、検索条件ベクトル入力部102に検索条件ベクトルが入力される(ステップ202)。より具体的には、検索ベクトル入力部101、検索条件ベクトル入力部102は、端末からキーボードを用いて入力された単語や文書を概念ベクトルに変換する。
距離計算部105は、入力された検索ベクトル及び検索条件ベクトルと被検索ベクトル取得部104で概念ベクトル蓄積部103より取得した各被検索ベクトルとの距離計算を逐次行い、その結果を距離計算結果記憶部107に格納する(ステップ203)。具体的な距離計算の方法については後述する。
その後、結果出力部106は、距離計算部105により計算され、距離計算結果記憶部107に格納されている距離を昇順にソートし(ステップ204)、検索結果を出力する(ステップ205)。
以下に、ステップ203における距離計算部105の距離計算方法について、OR検索の場合と、NOT検索の場合に分けて説明する。なお、各概念ベクトルは、各要素pについて以下の条件を満足するよう予め正規化されているものとする。
Figure 0005213742
[OR検索時の距離計算]
まず、OR検索の場合の距離計算方法を図5に従って説明する。
検索ベクトルをOP→=(p,…,p)、OR検索条件として与えられる検索条件ベクトルをOU→=(u,…,u),被検索ベクトルをOQ→=(q,…,q)とする。
検索ベクトルで与えられる概念と、検索条件ベクトルで与えられる概念の混合概念に対応する混合概念ベクトルOR→=(r,…,r)を混合度λとして、
Figure 0005213742
で定義し、被検索ベクトルOQ→と、検索ベクトルOP→及び検索条件ベクトルOU→との距離を、
Figure 0005213742
で定義する。ここで、R*は、
Figure 0005213742
である。R*は、図5において、点Qから直線PUへ下ろした垂線と直線PUとの交点であり、
Figure 0005213742
は点Qと直線PUとの最小距離に相当する。これによって、指定した検索ベクトルとOR検索条件として指定した検索条件ベクトルの混合概念ベクトルに近い被検索ベクトルを選択することができる。
なお、距離
Figure 0005213742
の計算については、距離測度として、Euclid距離、Kullback-Leibler距離などを適用することができる。Euclid距離は、
Figure 0005213742
Kullback-Leibler距離は、
Figure 0005213742
でそれぞれ与えられる。Newton法などを用いて
Figure 0005213742
または、
Figure 0005213742
から最適なλを求めて、距離
Figure 0005213742
を得ることができる。
上記の図5は、検索条件が「単語Aを含むか、単語Bを含むか」(OR検索)の場合を示している。つまり、単語が2個であるので、検索ベクトルと検索条件ベクトルの2つのベクトル(P,U)を結ぶと直線となり、これと被検索ベクトルが指示する点Qからの最短距離(距離測度としてEuclid距離を採用した場合はQから直線へ下ろした垂線の長さ)によって、
Figure 0005213742
の距離が定まる。これを拡張して、単語がn個になった場合は、n個のベクトル(PとU)によるn次元平面とQとの最短距離(距離測度としてEuclid距離を採用した場合はQからこの平面へ下ろした垂線の長さ)によって、
Figure 0005213742
の距離が定まる。
[NOT検索時の距離]
次に、NOT検索の場合の距離計算方法を図6に従って説明する。
検索ベクトルをOP→=(p,…,p)、NOT検索条件として与えられる検索条件ベクトルをOV→=v(v,…,v)、被検索ベクトルをOQ→=(q,…,q)とする。
被検索ベクトルで与えられる概念と、検索条件ベクトルで与えられる概念の混合概念に対応する混合概念ベクトルOS→=(s,…,s)を混合度μとして、
Figure 0005213742
で定義し、被検索ベクトルOQ→と、検索ベクトルOP→及び検索条件ベクトルOV→との距離を、
Figure 0005213742
で定義する。ここで、
Figure 0005213742
である。S*は、図6において点Pから直線QVへ下ろした垂線と直線QVとの交点であり、
Figure 0005213742
は、点Pと直線QVとの最小距離に相当する。これによって、被検索ベクトルから、NOT検索条件として与えられる検索条件ベクトルの成分を除いて、検索ベクトルとの距離を求めることができる。
OR検索と同様に、Euclid距離は、
Figure 0005213742
Kullback-Leibler距離は、
Figure 0005213742
それぞれ与えられる。Newton法などを用いて
Figure 0005213742
または、
Figure 0005213742
から最適なμを求めて、距離
Figure 0005213742
を得ることができる。
[OR検索・NOT検索を同時に適用する場合の距離計算]
OR検索及びNOT検索を同時に適用する場合の距離計算方法を図7に従って説明する。
検索ベクトルをOP→=(p,…,p)、OR検索条件として与えられる検索条件ベクトルをOU→=(u,…,u)、NOT検索条件として与えられる検索条件ベクトルをOV→=(v,…,v)、被検索ベクトルをOQ→=(q,…,q)とする。
この場合は、OR検索時の
Figure 0005213742
または、NOT検索時の
Figure 0005213742
に代えて、図7に示すように、
Figure 0005213742
を採用する。Euclid距離は、
Figure 0005213742
Kullback-Lebler距離は、
Figure 0005213742
それぞれ与えられるから、前述のOR検索やNOT検索と同様にして、最適なλ、μを求めることにより、距離
Figure 0005213742
を得ることができる。概念ベクトルは数百次元〜数千次元の高次元のベクトルであるから、図7の直線OR*及び直線OS*は一般にねじれの位置にある。
上記の手順で求められる距離
Figure 0005213742
は、これらねじれの位置にある直線間の最小距離に対応する。
さらに、検索条件ベクトルをOR検索及びNOT検索毎に複数指定することも可能である。
L個のOR検索条件、M個のNOT検索条件がある場合、
Figure 0005213742
などとして、最適なλ,…,λ及びμ,…,μを求めることにより、距離
Figure 0005213742
を得ることができる。
[NOT検索条件が複数ある場合の距離計算]
図8は、NOT検索条件が複数ある場合を示している。この場合、OR検索条件が指定されないため、OR→=OP→であるから、距離
Figure 0005213742
は、点Pと三点Q,V,Vが規定する平面との最小距離に相当する。
図8に示すように、NOT条件の場合は、前述のOR条件の場合と比較すると、PとQの立場が入れ替わるだけである。従って距離は、V,V、Qで定まる2次元平面とPとの最短距離(距離測度としてEuclid距離を採用した場合はPからこの平面へ下ろした垂線の長さ)で与えられる。
[OR検索条件、NOT検索条件がそれぞれ複数ある場合の距離計算]
図9に、OR検索条件、NOT検索条件がそれぞれ複数ある場合を示した。この場合、距離
Figure 0005213742
は、三点P,U,Uが規定する平面と、三点Q,V,Vが規定する平面との最小距離に相当する。
一般的には、L個のOR検索条件、M個のNOT検索条件がある場合、距離
Figure 0005213742
は、L+1個の点P,U,…,Uが規定するL次元空間と、M+1個の点Q,V,…,Vが規定するM次元空間との最小距離によって与えられる。
図9に示すように、OR検索条件とNOT検索条件が混在した場合は、U,…,U,Pで定まるL次元平面(OR条件関係)及び、V,…,V、Qで定まるM次元平面(NOT条件関係)を考え、これらの平面間の最短距離を求める。
上記のように、更に追加したい概念や、除きたい概念を詳細に指定して距離計算を行うことにより、効率的に文書を抽出することが可能となる。
上記の概念検索装置の動作の各ステップをプログラムとして構築し、概念検索装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、概念ベクトル間の距離に基づいて類似検索する文書検索に適用可能である。
101 検索ベクトル入力手段、検索ベクトル入力部
102 検索条件ベクトル入力手段、検索条件ベクトル入力部
103 概念ベクトル蓄積手段、概念ベクトル蓄積部
104 被検索ベクトル取得手段、被検索ベクトル取得部
105 距離計算手段、距離計算部
106 結果出力部
107 距離計算結果記憶手段、距離計算結果記憶部

Claims (6)

  1. 単語または文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、単語間または文書間または単語−文書間の類似性を判定する概念検索方法において、
    検索ベクトル入力手段が、検索語または検索文書の概念ベクトル(検索ベクトル)を1つ取得する検索ベクトル入力ステップと、
    検索条件ベクトル入力手段が、前記検索ベクトルに対するOR条件となるN個の、単語または文書の概念ベクトル(検索条件ベクトル)を取得する検索条件ベクトル入力ステップと、
    被検索ベクトル取得手段が、検索される複数の単語または複数の文書の概念ベクトル(被検索ベクトル)が格納された概念ベクトル蓄積手段から被検索ベクトルを取得する被検索ベクトル取得ステップと、
    距離計算手段が、前記検索ベクトルと前記N個の検索条件ベクトルとが成すN次元平面と、前記被検索条件ベクトルとの距離を計算し、ベクトル距離計算記憶手段に格納する距離計算ステップと、
    からなることを特徴とする概念検索方法。
  2. 単語または文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、単語間または文書間または単語−文書間の類似性を判定する概念検索方法において、
    検索ベクトル入力手段が、検索語または検索文書の概念ベクトル(検索ベクトル)を1つ取得する検索ベクトル入力ステップと、
    検索条件ベクトル入力手段が、前記検索ベクトルに対するNOT条件となるN個の、単語または文書の概念ベクトル(検索条件ベクトル)を取得する検索条件ベクトル入力ステップと、
    被検索ベクトル取得手段が、検索される複数の単語または複数の文書の概念ベクトル(被検索ベクトル)が格納された概念ベクトル蓄積手段から被検索ベクトルを取得する被検索ベクトル取得ステップと、
    距離計算手段が、前記被検索ベクトルと前記N個の検索条件ベクトルとによるN次元平面と、前記検索条件ベクトルとの距離を計算し、ベクトル距離計算記憶手段に格納する距離計算ステップと、
    からなることを特徴とする概念検索方法。
  3. 単語または文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、単語間または文書間または単語−文書間の類似性を判定する概念検索装置であって、
    検索語または検索文書の概念ベクトル(検索ベクトル)を1つ取得する検索ベクトル入力手段と、
    前記検索ベクトルに対するOR条件となるN個の、単語または文書の概念ベクトル(検索条件ベクトル)を取得する検索条件ベクトル入力手段と、
    検索される複数の単語または複数の文書の概念ベクトル(被検索ベクトル)が格納された概念ベクトル蓄積手段から被検索ベクトルを取得する被検索ベクトル取得手段と、
    前記検索ベクトルと前記N個の検索条件ベクトルとが成すN次元平面と、前記被検索条件ベクトルとの距離を計算し、ベクトル距離計算記憶手段に格納する距離計算手段と、
    を有することを特徴とする概念検索装置。
  4. 単語または文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、単語間または文書間または単語−文書間の類似性を判定する概念検索装置であって、
    検索語または検索文書の概念ベクトル(検索ベクトル)を1つ取得する検索ベクトル入力手段と、
    前記検索ベクトルに対するNOT条件となるN個の、単語または文書の概念ベクトル(検索条件ベクトル)を取得する検索条件ベクトル入力手段と、
    検索される複数の単語または複数の文書の概念ベクトル(被検索ベクトル)が格納された概念ベクトル蓄積手段から被検索ベクトルを取得する被検索ベクトル取得手段と、
    前記被検索ベクトルと前記N個の検索条件ベクトルとによるN次元平面と、前記検索条件ベクトルとの距離を計算し、ベクトル距離計算記憶手段に格納する距離計算手段と、
    を有することを特徴とする概念検索装置。
  5. 請求項1または2のいずれか1項記載の概念検索方法の各ステップを実行するコンピュータを機能させるための概念検索プログラム。
  6. 請求項記載の概念検索プログラムを格納したことを特徴とするコンピュータ読取可能な記録媒体。
JP2009024157A 2009-02-04 2009-02-04 概念検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 Expired - Fee Related JP5213742B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009024157A JP5213742B2 (ja) 2009-02-04 2009-02-04 概念検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009024157A JP5213742B2 (ja) 2009-02-04 2009-02-04 概念検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2010182041A JP2010182041A (ja) 2010-08-19
JP5213742B2 true JP5213742B2 (ja) 2013-06-19

Family

ID=42763597

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009024157A Expired - Fee Related JP5213742B2 (ja) 2009-02-04 2009-02-04 概念検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体

Country Status (1)

Country Link
JP (1) JP5213742B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112017006785B4 (de) * 2017-02-14 2023-01-19 Mitsubishi Electric Corporation Datenanalysator und Datenanalyseverfahren

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3948090B2 (ja) * 1998-01-22 2007-07-25 富士ゼロックス株式会社 情報検索装置、情報検索方法および情報検索プログラムを記録した記憶媒体
JP3862059B2 (ja) * 2001-01-22 2006-12-27 Kddi株式会社 検索式拡張方法および検索システム
JP3875510B2 (ja) * 2001-05-10 2007-01-31 日本電信電話株式会社 情報検索装置、その方法、そのプログラム及びそのプログラムが記録された記録媒体
GB2395808A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval
JP5061870B2 (ja) * 2006-12-06 2012-10-31 幸生 陳 コンテンツ検索システム、コンテンツ検索方法及びコンテンツ検索プログラム
JP2007220144A (ja) * 2007-05-18 2007-08-30 Seiko Epson Corp 特許検索装置、特許検索装置の制御方法および制御プログラム

Also Published As

Publication number Publication date
JP2010182041A (ja) 2010-08-19

Similar Documents

Publication Publication Date Title
US11682226B2 (en) Method and system for assessing similarity of documents
US8341112B2 (en) Annotation by search
WO2020143184A1 (zh) 知识融合方法、装置、计算机设备和存储介质
JP5661813B2 (ja) セマンティックオブジェクトの特徴付けおよび検索
JP6176017B2 (ja) 検索装置、検索方法、およびプログラム
JP2020500371A (ja) 意味的検索のための装置および方法
US20090300006A1 (en) Techniques for computing similarity measurements between segments representative of documents
JP2007328311A (ja) マルチメディアデータ管理方法とその装置
JP2011248596A (ja) 画像入り文書の検索システム及び検索方法
JP2016018286A (ja) 行動タイプ判定装置、行動タイプ判定方法及び行動タイプ判定プログラム
CN116561388A (zh) 一种获取标签的数据处理系统
CN106933824A (zh) 在多个文档中确定与目标文档相似的文档集合的方法和装置
JP4325370B2 (ja) 文書関連語彙獲得装置及びプログラム
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
JP2009277099A (ja) 類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP5213742B2 (ja) 概念検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP2021144348A (ja) 情報処理装置及び情報処理方法
Dinov et al. Natural language processing/text mining
JP5533272B2 (ja) データ出力装置、データ出力方法およびデータ出力プログラム
JP5164876B2 (ja) 代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
WO2018150453A1 (ja) データ分析装置およびデータ分析方法
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP4813312B2 (ja) 電子文書検索方法、電子文書検索装置及びプログラム
Dhar et al. Mathematical document retrieval system based on signature hashing
Dhumal et al. Retrieval and extraction of unique patterns from compressed text data using the SVD technique on Hadoop Apache MAHOUT framework

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110104

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121127

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130226

R150 Certificate of patent or registration of utility model

Ref document number: 5213742

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160308

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees