JP5115741B2 - 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム - Google Patents
検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム Download PDFInfo
- Publication number
- JP5115741B2 JP5115741B2 JP2008534383A JP2008534383A JP5115741B2 JP 5115741 B2 JP5115741 B2 JP 5115741B2 JP 2008534383 A JP2008534383 A JP 2008534383A JP 2008534383 A JP2008534383 A JP 2008534383A JP 5115741 B2 JP5115741 B2 JP 5115741B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- information
- similarity
- group
- same
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 66
- 238000004364 calculation method Methods 0.000 title claims description 49
- 238000003860 storage Methods 0.000 claims description 168
- 230000010365 information processing Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 description 21
- 238000012545 processing Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
(1) データベース(以下、DBと称する)の重複レコード照合
DBの重複レコード照合は、DB内の実質的に同じレコードをグルーピングすることをいい、例えば、異なる人、場所、方法によって管理された表記のゆれを含む顧客DBを統合する際のデータクリーニングや、コンタクトセンターの問い合わせ事例の重複削除に必要となる。1レコードを1文書とみなすことで同一文書照合の問題とみなすことができる。
(2) トピック分析
トピック分析は、Blogなどの書き込みデータをグルーピングすることをいい、Blogで同じトピックが、いつ、どのあたりで話題になっているかを把握するために必要となる。
2 記憶装置
3 対象データベース
4 入力装置
5 出力データベース
10 文書解析手段
11 同一文書候補グループ作成手段
12 同一文書グループ作成手段
20 単語群記憶部
21 優先順位記憶部
22 同一文書候補グループ記憶部
尚、上述の説明では、類似度の閾値の設定を以上としたが、割合の算出方法によって所定の類似度閾値を含まず、所定の類似度閾値を超えない文書対を検索するようにしても良い。また、文書で共通する文字の優先順位は、異なる文書群の検索処理毎に決定しても良いし、一度決定したものを繰り返し用いても良い。
1.文書を単語の集合と考える場合
記号の定義
データベースに含まれる文書集合: D = {di| 0<=i<=|D|}、
データベースに含まれる単語集合: T = {tl| 0<=l<=|T|}、
diに含まれる単語の異なり数: |di|、
diに含まれる単語集合: di = {tl| 0<=l<=|di|}、
tlの優先順位: Pr(tl)、
tlの重要度: w(tl) # Pr(tl)はw(tl)の大きさから求めても良い
diとdjの類似度: sim(di,dj)、
類似度閾値: ST
と定義する。
定理1-1:
sdiを
sdi⊆di { sdi∩∀dk[sim(di,dk)>= ST]≠φ ∧ Pr(∀tl∈sdi) > Pr(∀tl∈-sdi) }
(-sdiはsdiの補集合)
により定義する。
この時、PrがDで一意に定まり、sdi, sdjが定まれば、
sim(di, dj) >= STのとき、
sdi∩sdj≠φが成立する。
証明:
まず、sdi,sdjの定義により、
sim(di, dj) >= STのとき、
sdi∩dj≠φ
sdj∩di≠φ
が成立する。
ここで、
sdi∩dj≠φ ∧ sdi∩sdj=φ
と仮定すると、
djにおける単語の重要度は、
Pr(∀tl∈sdj) > Pr(∀tl∈sdi)となる。
この時、sdi∩sdj=φであるから
sdj∩di≠φ ∧ sdj∩sdi=φ
が同時に成立する。
そのため、
diにおける単語の重要度は、Pr(∀tl∈sdi) > Pr(∀tl∈sdj)になる。
これは、PrがDで一意に定まることと矛盾する。
iとjを置き換えた場合でも同様である。
sim(∀di∈D, ∀dj∈D)を求める前にsdiを求めることができることを示す。
定理1-2:
sim(di, dj) =
(Σtl∈di∩dj w(tl)^2) / ((√Σtl∈di w(tl)^2) * √(Σtl∈dj w(tl)^2))
で定義されるcosine類似度を用いる場合、
sdi∈di { (Σtl∈sdl w(tl)^2) / (Σtl∈di w(tl)^2) > 1- ST^2 ∧ Pr(∀tl∈sdi) > Pr(∀tl∈-sdi) }
で定義されるならば、
sdi∩∀dk[sim(di,dk) >= ST]≠φ ∧ Pr(∀tl∈sdi) > Pr(∀tl∈-sdi)
が成立する。
証明:
まず、
sim(di, dj) >= ST
ならば
(Σtl∈di∩dj w(ti)^2) / (Σtl∈di w(tl)^2)>= ST^2
が成立することを証明する。
(Σtl∈dj w(tl)^2)>= (Σtl∈di∩dj w(tl)^2)
であるから
ST <= sim(di, dj) = (Σti∈di∩dj w(ti)^2) / ((√Σtl∈di w(tl)^2) * (√Σtl∈dj w(tl)^2))
<= (Σti∈dj w(ti)^2) / ((√Σtl∈di w(tl)^2) * (√Σtl∈dj w(tl)^2))
= (√Σtl∈di∩dj w(tl)^2) / (√Σtl∈di w(tl)^2)
したがって、
(Σtl∈di∩dj w(tl)^2) / (Σtl∈di w(tl)^2)>= ST^2
次に、
sdi∈di { (Σl=1..|sdi|w(tl)^2) / (Σtl∈di w(tl)^2) } > 1- ST^2
で定義されるならば、
sdi∩∃dk[sim(di, dk)>=ST]=φ
であると仮定する。
このとき、
sim(di,dk) >= ST
であるから、上記より、
(Σti∈di∩dk w(tl)^2) / (Σtl∈di w(tl)^2)>= ST^2
が成立し、
また、
(Σtl∈sdi w(tl)^2) / (Σtl∈di w(tl)^2) > 1- ST^2
であるから、2つを足して
((Σti∈di∩dk w(tl)^2) + (Σtl∈sdi w(tl)^2)) / (Σtl∈di w(tl)^2) > 1
((Σti∈di∩dk w(tl)^2) + (Σtl∈sdi w(tl)^2))> (Σtl∈di w(tl)^2)
となる。
ここで、
sdi∩dk=φ
であるから、
(Σti∈(di∩dk)∪sdi w(tl)^2) > (Σtl∈di w(tl)^2)
となるが、
(di∩dk)∪sdi ⊆ di
であるから成立せず矛盾する。
したがって、
sdi = sdi∈di { (Σtl∈sdi w(tl)^2) / (Σtl∈di w(tl)^2) } > 1- ST^2
で定義されるならば、
sdi∩∀dk[sim(di,dk) >= ST]≠φ
が成立する。
上記は、sdiにどの単語から選んでいったとしても成立するので定理1-2は成立する。
2.文書を文字の集合と考える場合
記号の定義:
データベースに含まれる文書集合: D = {di| 0<=i<=|D|}
データベースに含まれる文字集合: T = {tl| 0<=l<=|T|}
diに含まれる文字の異なり数:|di|
diに含まれる文字集合: di = {tl| 0<=l<=|di|}
diにおけるtlの出現回数: fq(di,tl)
diに含まれる文字数: fq(di)
tlの優先順位: Pr(tl)
tlの重要度: w(tl) # Pr(tl)はw(tl)の大きさから求めても良い
diとdjの類似度: sim(di,dj)
類似度閾値: ST
定理2-1:
sdiを
sdi⊆di { sdi∩∀dk[sim(di,dk)>= ST]≠φ ∧ Pr(∀tl∈sdi) > Pr(∀tl∈-sdi) }
により定義する。
この時、
PrがDで一意に定まり、
sdi, sdjが定まれば、
sim(di, dj) >= STのとき
sdi∩sdj≠φ
が成立する。
証明:
定理1-1と同一の証明となる。
定理2-2:
sim(di, dj) =
(fq(di) + fq(dj) - edit_dis(di,dj)) / (fq(di) + fq(dj))
で定義される関数を用いる場合
sdi = sdi∈di { (Σl=1..|sdi|fq(di,tl)) / fq(di) > 1 - (ST / (2-ST)) ∧ Pr(∀tl∈sdi) > Pr(∀tl∈-sdi) }
で定義されるならば、
sdi∩∀dk[sim(di,dk) >= ST]≠φ ∧ Pr(∀tl∈sdi) > Pr(∀tl∈-sdi)
が成立する。
尚、edit_dis(di,dj)はdiとdjの編集距離を意味する。
証明:
まず、
sim(di, dj) >= ST
ならば
(Σtl∈di∩dj fq(di,tl)) / fq(di) >= ST / (2-ST)
が成立することを証明する。
edit_dis(di,dj) >= fq(di) + fq(dj) - 2 x (Σtl∈di∩dj min(fq(di,tl), fq(dj,tl)))
であるから、
ST <= sim(di,dj)
= (fq(di) + fq(dj) - edit_dis(di,dj)) / (fq(di) + fq(dj))
<= 2 x (Σtl∈di∩dj min(fq(di,tl), fq(dj,tl))) / (fq(di) + fq(dj))
また、
fq(dj) >= (Σtl∈di∩dj min(fq(di,tl), fq(dj,tl)))
であるから
ST <= 2 x (Σtl∈di∩dj min(fq(di,tl), fq(dj,tl))) / (fq(di) + (Σtl∈di∩dj min(fq(di,tl), fq(dj,tl))))
したがって、
(Σtl∈di∩dj min(fq(di,tl), fq(dj,tl))) / fq(di) >= ST / (2-ST)
ここで、
fq(di,tl) >= min(fq(di,tl), fq(dj,tl))
であるから
(Σtl∈di∩dj fq(di,tl)) / fq(di) >= ST / (2-ST)
次に、
sdi∈di { (Σtl∈sdi fq(di,tl)) / fq(di) } > 1 - (ST / (2-ST)) }
で定義されるならば、
sdi∩∃dk[sim(di, dk)>=ST]=φ
であると仮定する。
sim(di,dk) >= ST
であるから、上記より、
Σtl∈di∩dk fq(di,tl) / fq(di) >= ST / (2-ST)
が成立し、
また、
sdi∈di { (Σtl∈sdi fq(di,tl)) / fq(di) } > 1 - (ST / (2-ST)) }
であるから、
(Σtl∈di∩dk fq(di,tl)) / fq(di) + (Σtl∈sdi fq(di,tl)) / fq(di) > 1
(Σtl∈di∩dk fq(di,tl)) + (Σtl∈sdi fq(di,tl)) > fq(di)
となる。
ここで、
sdi∩dk=φ
であるから、
(Σtl∈(di∩dk)∪sdi fq(di,tl)) > fq(di)
となるが、
(di∩dk)∪sdi ⊆ di
であるから成立せず矛盾する。
したがって、
sdi = sdi∈di { (Σtl∈sdi fq(di,tl)) / fq(di) } > 1- (ST / (2-ST)) }
で定義されるならば、
sdi∩∀dk[sim(di,dk) >= ST]≠φ
が成立する。
上記は、sdiにどの文字から選んでいったとしても成立するので定理2-2は成立する。
本発明の第1の実施の形態を説明する。
単語群記憶部20は、文書とその文書に含まれる単語群との対応関係が格納される。
更に、単語を選択する際に適用される共通の優先順位を、出現文書数が少ない単語ほど、優先順位が高くなるように設定すれば、類似度閾値以上にならない文書対をより多く検索することができる。その結果、同一文書候補グループ作成手段11により、同一文書候補グループに登録される文書数を少なく抑えられるため、同一文書グループ作成手段12において類似度計算の回数を少なくすることが可能となる。
<第2の実施の形態>
第2の実施の形態を説明する。
優先順位記憶部21は、第1の実施の形態と同様である。同一文書候補グループ記憶部22は、第1の実施の形態と同様である。出力データベース5は、第1の実施の形態と同様である。
<第3の実施の形態>
図23を参照すると本発明の第3の実施の形態は、第1の実施の形態と構成をほぼ同一とするが、単語群の優先順位をそれぞれ異なる基準で設定する複数の同一文書候補グループ作成手段11と、それに対応する複数の同一文書候補グループ記憶部22を用いている点、および、同一文書グループ作成手段12が、複数ある同一文書候補グループ記憶部22にすべてにおいていずれかの同一の同一文書候補グループに所属する文書対の中で、類似度閾値以上の文書対を同一文書グループとする、または、共通する文書を含む類似度閾値以上の文書対を統合した文書グループを同一文書グループとする点で異なる。
Score(a,n) = p x (aの出現文書数) + q x (n-1回目までに同一文書候補グループ作成された文書数の総数)
と表すことができ、Scoreの小さい単語ほど優先順位を高くする。ここで、pとqは実数の定数である。同一文書グループ作成手段12では、ステップS321,ステップS327のような文書iのそれぞれの選択単語をIDとする同一文書グループの論理和の文書群を求める処理をn回行いn個の論理和の文書群を求め、ステップS328では、n個の論理和の文書群の論理積を求めるようにすれば良い。
<第4の実施の形態>
図36を参照すると本発明の第4の実施の形態は、第2の実施の形態と構成をほぼ同一とするが、文字群の優先順位をそれぞれ異なる基準で設定する複数の同一文書候補グループ作成手段11と、それに対応する複数の同一文書候補グループ記憶部22を用いている点、および、同一文書グループ作成手段12が、複数ある同一文書候補グループ記憶部22にすべてにおいていずれかの同一の同一文書候補グループに所属する文書対の中で、類似度閾値以上の文書対を同一文書グループとする、または、共通する文書を含む類似度閾値以上の文書対を統合した文書グループを同一文書グループとする点で異なる。
ステップS3の動作の詳細を、第2の実施の形態との違いを中心に図38を用いて説明する。
Score(a,n) = p x (aの出現文書数) + q x (n-1回目までにaが同一文書候補グループ作成手段で選択された文書数の総数)
と表すことができ、Scoreの小さい単語ほど優先順位を高くする。ここで、pとqは実数の定数である。同一文書グループ作成手段12では、ステップS321,ステップS327のような文書iのそれぞれの選択文字をIDとする同一文書グループの論理和の文書群を求める処理をn回行いn個の論理和の文書群を求め、ステップS328では、n個の論理和の文書群の論理積を求めるようにすれば良い。
Claims (10)
- 所定の類似度以上とはならない情報対を検索する検索方法であって、
情報対が少なくとも所定の類似度以上となるために、情報を構成する情報要素が情報間で共通する割合を求め、
前記割合に基づく、各情報の情報要素の選択数を決定し、
照合対象となる情報群で共通して適用される情報要素の優先順位に従って、前記各情報から前記選択数の情報要素を選択し、
選択した情報要素が情報間で全て共通しない情報対を検索する
ことを特徴とする検索方法。 - 所定の類似度以上となる情報対の類似度を計算する類似度計算方法であって、
情報対が少なくとも所定の類似度以上となるために、情報を構成する情報要素が情報間で共通する割合を求め、
前記割合に基づく、各情報の情報要素の選択数を決定し、
類似度の計算対象となる情報群で共通して適用される情報要素の優先順位に従って、前記各情報から前記選択数の情報要素を選択し、
選択した情報要素が情報間で全て共通しない情報対以外の情報対に対して、類似度の計算を行う
ことを特徴とする類似度計算方法。 - 前記情報が文書であり、前記情報要素が前記文書に含まれる単語または文字であることを特徴とする請求項2に記載の類似度計算方法。
- 前記優先順位は、出現情報数が少ない情報要素が高い優先順位となるように決定することを特徴とする請求項2又は請求項3に記載の類似度計算方法。
- 複数の優先順位毎に、各情報から前記選択数の情報要素を選択し、
いずれかの優先順位に基づいて選択した情報要素が情報間で全て共通しない情報対以外の情報対に対して類似度の計算を行う
ことを特徴とする請求項2から請求項4のいずれかに記載の類似度計算方法。 - 所定の類似度以上となる情報対の類似度を計算する類似度計算システムであって、
類似度の計算対象となる情報群で共通して適用され、情報を構成する情報要素の優先順位が格納された優先順位記憶部と、
前記情報の情報対が少なくとも所定の類似度以上となるために、情報間で前記情報要素が共通する割合を求め、この割合に基づいた各情報の情報要素の選択数を決定し、前記優先順位に従って、前記各情報から前記選択数の情報要素を選択する情報要素選択手段と、
選択した情報要素が情報間で全て共通しない情報対以外の情報対に対して、類似度の計算を行う類似度計算手段と
を有することを特徴とする類似度計算システム。 - 前記情報が文書であり、前記情報要素が前記文書に含まれる単語または文字であることを特徴とする請求項6に記載の類似度計算システム。
- 前記優先順位は、出現情報数が少ない情報要素が高い優先順位となるように決定することを特徴とする請求項6又は請求項7に記載の類似度計算システム。
- 前記優先順位記憶部には、異なる複数の優先順位が記憶され、
前記情報要素選択手段は、前記異なる優先順位毎に、前記各情報から前記選択数の情報要素を選択するように構成され、
前記類似度計算手段は、異なる優先順位毎に類似度の計算を行うように構成されていることを特徴とする請求項6から請求項8のいずれかに記載の類似度計算システム。 - 所定の類似度以上となる情報対の類似度を計算する類似度計算プログラムであって、
情報対が少なくとも所定の類似度以上となるために、情報を構成する情報要素が情報間で共通する割合を求める処理と、
前記割合に基づく、各情報の情報要素の選択数を決定する処理と、
類似度の計算対象となる情報群で共通して適用される情報要素の優先順位に従って、前記各情報から前記選択数の情報要素を選択する処理と、
選択した情報要素が情報間で全て共通しない情報対以外の情報対に対して、類似度の計算を行う処理と
を情報処理に実行させることを特徴とする類似度計算プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008534383A JP5115741B2 (ja) | 2006-09-14 | 2007-09-13 | 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006249429 | 2006-09-14 | ||
JP2006249429 | 2006-09-14 | ||
PCT/JP2007/067831 WO2008032780A1 (fr) | 2006-09-14 | 2007-09-13 | Procédé de recherche, procédé de calcul de similarité, calcul de similarité, système d'appariement de mêmes documents et programme de ceux-ci |
JP2008534383A JP5115741B2 (ja) | 2006-09-14 | 2007-09-13 | 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012165641A Division JP5605583B2 (ja) | 2006-09-14 | 2012-07-26 | 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2008032780A1 JPWO2008032780A1 (ja) | 2010-01-28 |
JP5115741B2 true JP5115741B2 (ja) | 2013-01-09 |
Family
ID=39183834
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008534383A Expired - Fee Related JP5115741B2 (ja) | 2006-09-14 | 2007-09-13 | 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム |
JP2012165641A Expired - Fee Related JP5605583B2 (ja) | 2006-09-14 | 2012-07-26 | 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012165641A Expired - Fee Related JP5605583B2 (ja) | 2006-09-14 | 2012-07-26 | 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8606779B2 (ja) |
JP (2) | JP5115741B2 (ja) |
WO (1) | WO2008032780A1 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008032780A1 (fr) * | 2006-09-14 | 2008-03-20 | Nec Corporation | Procédé de recherche, procédé de calcul de similarité, calcul de similarité, système d'appariement de mêmes documents et programme de ceux-ci |
US9081852B2 (en) * | 2007-10-05 | 2015-07-14 | Fujitsu Limited | Recommending terms to specify ontology space |
JPWO2011010434A1 (ja) * | 2009-07-23 | 2012-12-27 | 日本電気株式会社 | 情報提示システム及び情報提示方法 |
US8515972B1 (en) | 2010-02-10 | 2013-08-20 | Python 4 Fun, Inc. | Finding relevant documents |
US8660986B2 (en) * | 2010-10-27 | 2014-02-25 | Microsoft Corporation | Preserving user intent in merging ordered objects |
US9551166B2 (en) * | 2011-11-02 | 2017-01-24 | Ford Global Technologies, Llc | Electronic interior door release system |
US11003567B2 (en) * | 2017-12-06 | 2021-05-11 | International Business Machines Corporation | Method and apparatus for test modeling |
CN111144104B (zh) * | 2018-11-02 | 2023-06-20 | 中国电信股份有限公司 | 文本相似度的确定方法、装置和计算机可读存储介质 |
US10540381B1 (en) | 2019-08-09 | 2020-01-21 | Capital One Services, Llc | Techniques and components to find new instances of text documents and identify known response templates |
CN110737751B (zh) * | 2019-09-06 | 2023-10-20 | 平安科技(深圳)有限公司 | 基于相似度值的搜索方法、装置、计算机设备和存储介质 |
CN111241811B (zh) * | 2020-01-06 | 2024-05-10 | 平安科技(深圳)有限公司 | 确定搜索词权重的方法、装置、计算机设备和存储介质 |
CN112100469B (zh) * | 2020-09-23 | 2021-07-27 | 云宝宝大数据产业发展有限责任公司 | 基于大数据的信息数据存储整合系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08272813A (ja) * | 1995-03-31 | 1996-10-18 | Canon Inc | ファイリング装置 |
JPH1153387A (ja) * | 1997-08-06 | 1999-02-26 | Ibm Japan Ltd | 文書の関連付け方法及びそのシステム |
JP2003263443A (ja) * | 2002-03-07 | 2003-09-19 | Fujitsu Ltd | 文書類似度算出装置、クラスタリング装置および文書抽出装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04175874A (ja) | 1990-11-07 | 1992-06-23 | Chugoku Nippon Denki Software Kk | 推論機能付き検索システム |
US6542889B1 (en) * | 2000-01-28 | 2003-04-01 | International Business Machines Corporation | Methods and apparatus for similarity text search based on conceptual indexing |
JP3759438B2 (ja) | 2001-08-03 | 2006-03-22 | 日本電信電話株式会社 | 類似部分系列検出方法および装置、類似部分系列検出プログラムならびにその記録媒体 |
US7392262B1 (en) * | 2004-02-11 | 2008-06-24 | Aol Llc | Reliability of duplicate document detection algorithms |
US7406479B2 (en) * | 2006-02-10 | 2008-07-29 | Microsoft Corporation | Primitive operator for similarity joins in data cleaning |
US8010534B2 (en) * | 2006-08-31 | 2011-08-30 | Orcatec Llc | Identifying related objects using quantum clustering |
WO2008032780A1 (fr) * | 2006-09-14 | 2008-03-20 | Nec Corporation | Procédé de recherche, procédé de calcul de similarité, calcul de similarité, système d'appariement de mêmes documents et programme de ceux-ci |
-
2007
- 2007-09-13 WO PCT/JP2007/067831 patent/WO2008032780A1/ja active Application Filing
- 2007-09-13 US US12/310,975 patent/US8606779B2/en active Active
- 2007-09-13 JP JP2008534383A patent/JP5115741B2/ja not_active Expired - Fee Related
-
2012
- 2012-07-26 JP JP2012165641A patent/JP5605583B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08272813A (ja) * | 1995-03-31 | 1996-10-18 | Canon Inc | ファイリング装置 |
JPH1153387A (ja) * | 1997-08-06 | 1999-02-26 | Ibm Japan Ltd | 文書の関連付け方法及びそのシステム |
JP2003263443A (ja) * | 2002-03-07 | 2003-09-19 | Fujitsu Ltd | 文書類似度算出装置、クラスタリング装置および文書抽出装置 |
Also Published As
Publication number | Publication date |
---|---|
US8606779B2 (en) | 2013-12-10 |
JP5605583B2 (ja) | 2014-10-15 |
WO2008032780A1 (fr) | 2008-03-20 |
JPWO2008032780A1 (ja) | 2010-01-28 |
US20100023505A1 (en) | 2010-01-28 |
JP2012230713A (ja) | 2012-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5115741B2 (ja) | 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム | |
Mathur et al. | Detecting offensive tweets in hindi-english code-switched language | |
Jung | Semantic vector learning for natural language understanding | |
CN111460798B (zh) | 近义词推送方法、装置、电子设备及介质 | |
US20150154316A1 (en) | Search suggestions of related entities based on co-occurrence and/or fuzzy-score matching | |
RU2556425C1 (ru) | Способ автоматической итеративной кластеризации электронных документов по семантической близости, способ поиска в совокупности кластеризованных по семантической близости документов и машиночитаемые носители | |
Zu et al. | Resume information extraction with a novel text block segmentation algorithm | |
CN113961666B (zh) | 关键词识别方法、装置、设备、介质及计算机程序产品 | |
JP2014120053A (ja) | 質問応答装置、方法、及びプログラム | |
Wang et al. | DM_NLP at semeval-2018 task 12: A pipeline system for toponym resolution | |
Wang et al. | News recommendation via multi-interest news sequence modelling | |
Singh et al. | Analytics of similar-sounding names from the web with phonetic based clustering | |
CN109885641A (zh) | 一种数据库中文全文检索的方法及系统 | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
JP6260678B2 (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
US9507834B2 (en) | Search suggestions using fuzzy-score matching and entity co-occurrence | |
JP5812534B2 (ja) | 質問応答装置、方法、及びプログラム | |
Suresh et al. | Data mining and text mining—a survey | |
US9547701B2 (en) | Method of discovering and exploring feature knowledge | |
JP4640593B2 (ja) | 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム | |
JP2018101244A (ja) | データクレンジングシステム、データクレンジング方法及びデータクレンジングプログラム | |
CN112949287B (zh) | 热词挖掘方法、系统、计算机设备和存储介质 | |
Aghaebrahimian et al. | Named entity disambiguation at scale | |
JP4844737B2 (ja) | 代表情報選択方法、代表情報選択システム及びプログラム | |
Liu et al. | Deep Search Query Intent Understanding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100715 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120530 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120726 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120919 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121002 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5115741 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151026 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |