JP5605583B2 - 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム - Google Patents
検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム Download PDFInfo
- Publication number
- JP5605583B2 JP5605583B2 JP2012165641A JP2012165641A JP5605583B2 JP 5605583 B2 JP5605583 B2 JP 5605583B2 JP 2012165641 A JP2012165641 A JP 2012165641A JP 2012165641 A JP2012165641 A JP 2012165641A JP 5605583 B2 JP5605583 B2 JP 5605583B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- same
- group
- documents
- candidate group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 58
- 238000004364 calculation method Methods 0.000 title description 32
- 238000003860 storage Methods 0.000 claims description 169
- 238000012545 processing Methods 0.000 claims description 12
- 230000010365 information processing Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 21
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
(1) データベース(以下、DBと称する)の重複レコード照合
DBの重複レコード照合は、DB内の実質的に同じレコードをグルーピングすることをいい、例えば、異なる人、場所、方法によって管理された表記のゆれを含む顧客DBを統合する際のデータクリーニングや、コンタクトセンターの問い合わせ事例の重複削除に必要となる。1レコードを1文書とみなすことで同一文書照合の問題とみなすことができる。
(2) トピック分析
トピック分析は、Blogなどの書き込みデータをグルーピングすることをいい、Blogで同じトピックが、いつ、どのあたりで話題になっているかを把握するために必要となる。
1.文書を単語の集合と考える場合
記号の定義
データベースに含まれる文書集合: D = {di| 0<=i<=|D|}、
データベースに含まれる単語集合: T = {tl| 0<=l<=|T|}、
diに含まれる単語の異なり数: |di|、
diに含まれる単語集合: di = {tl| 0<=l<=|di|}、
tlの優先順位: Pr(tl)、
tlの重要度: w(tl) # Pr(tl)はw(tl)の大きさから求めても良い
diとdjの類似度: sim(di,dj)、
類似度閾値: ST
と定義する。
定理1-1:
sdiを
sdi⊆di { sdi∩∀dk[sim(di,dk) >= ST]≠φ ∧ Pr(∀tl∈sdi) > Pr(∀tl∈-sdi) }
(-sdiはsdiの補集合)
により定義する。
この時、PrがDで一意に定まり、sdi, sdjが定まれば、
sim(di, dj) >= STのとき、
sdi∩sdj≠φが成立する。
証明:
まず、sdi,sdjの定義により、
sim(di, dj) >= STのとき、
sdi∩dj≠φ
sdj∩di≠φ
が成立する。
ここで、
sdi∩dj≠φ ∧ sdi∩sdj=φ
と仮定すると、
djにおける単語の重要度は、
Pr(∀tl∈sdj) > Pr(∀tl∈sdi)となる。
この時、sdi∩sdj=φであるから
sdj∩di≠φ ∧ sdj∩sdi=φ
が同時に成立する。
そのため、
diにおける単語の重要度は、Pr(∀tl∈sdi) > Pr(∀tl∈sdj)になる。
これは、PrがDで一意に定まることと矛盾する。
iとjを置き換えた場合でも同様である。
sim(∀di∈D, ∀dj∈D)を求める前にsdiを求めることができることを示す。
定理1-2:
sim(di, dj) =
(Σtl∈di∩dj w(tl)^2) / ((√Σtl∈di w(tl)^2) * √(Σtl∈dj w(tl)^2))
で定義されるcosine類似度を用いる場合、
sdi∈di { (Σtl∈sdl w(tl)^2) / (Σtl∈di w(tl)^2) > 1- ST^2 ∧ Pr(∀tl∈sdi) > Pr(∀tl∈-sdi) }
で定義されるならば、
sdi∩∀dk[sim(di,dk) >= ST]≠φ ∧ Pr(∀tl∈sdi) > Pr(∀tl∈-sdi)
が成立する。
証明:
まず、
sim(di, dj) >= ST
ならば
(Σtl∈di∩dj w(ti)^2) / (Σtl∈di w(tl)^2) >= ST^2
が成立することを証明する。
(Σtl∈dj w(tl)^2) >= (Σtl∈di∩dj w(tl)^2)
であるから
ST <= sim(di, dj) = (Σti∈di∩dj w(ti)^2) / ((√Σtl∈di w(tl)^2) * (√Σtl∈dj w(tl)^2))
<= (Σti∈dj w(ti)^2) / ((√Σtl∈di w(tl)^2) * (√Σtl∈dj w(tl)^2))
= (√Σtl∈di∩dj w(tl)^2) / (√Σtl∈di w(tl)^2)
したがって、
(Σtl∈di∩dj w(tl)^2) / (Σtl∈di w(tl)^2) >= ST^2
次に、
sdi∈di { (Σl=1..|sdi| w(tl)^2) / (Σtl∈di w(tl)^2) } > 1- ST^2
で定義されるならば、
sdi∩∃dk[sim(di, dk)>=ST]=φ
であると仮定する。
このとき、
sim(di,dk) >= ST
であるから、上記より、
(Σti∈di∩dk w(tl)^2) / (Σtl∈di w(tl)^2) >= ST^2
が成立し、
また、
(Σtl∈sdi w(tl)^2) / (Σtl∈di w(tl)^2) > 1- ST^2
であるから、2つを足して
((Σti∈di∩dk w(tl)^2) + (Σtl∈sdi w(tl)^2)) / (Σtl∈di w(tl)^2) > 1
((Σti∈di∩dk w(tl)^2) + (Σtl∈sdi w(tl)^2)) > (Σtl∈di w(tl)^2)
となる。
ここで、
sdi∩dk=φ
であるから、
(Σti∈(di∩dk)∪sdi w(tl)^2) > (Σtl∈di w(tl)^2)
となるが、
(di∩dk)∪sdi ⊆ di
であるから成立せず矛盾する。
したがって、
sdi = sdi∈di { (Σtl∈sdi w(tl)^2) / (Σtl∈di w(tl)^2) } > 1- ST^2
で定義されるならば、
sdi∩∀dk[sim(di,dk) >= ST]≠φ
が成立する。
上記は、sdiにどの単語から選んでいったとしても成立するので定理1-2は成立する。
2.文書を文字の集合と考える場合
記号の定義:
データベースに含まれる文書集合: D = {di| 0<=i<=|D|}
データベースに含まれる文字集合: T = {tl| 0<=l<=|T|}
diに含まれる文字の異なり数:|di|
diに含まれる文字集合: di = {tl| 0<=l<=|di|}
diにおけるtlの出現回数: fq(di,tl)
diに含まれる文字数: fq(di)
tlの優先順位: Pr(tl)
tlの重要度: w(tl) # Pr(tl)はw(tl)の大きさから求めても良い
diとdjの類似度: sim(di,dj)
類似度閾値: ST
定理2-1:
sdiを
sdi⊆di { sdi∩∀dk[sim(di,dk) >= ST]≠φ ∧ Pr(∀tl∈sdi) > Pr(∀tl∈-sdi) }
により定義する。
この時、
PrがDで一意に定まり、
sdi, sdjが定まれば、
sim(di, dj) >= STのとき
sdi∩sdj≠φ
が成立する。
証明:
定理1-1と同一の証明となる。
定理2-2:
sim(di, dj) =
(fq(di) + fq(dj) - edit_dis(di,dj)) / (fq(di) + fq(dj))
で定義される関数を用いる場合
sdi = sdi∈di { (Σl=1..|sdi|fq(di,tl)) / fq(di) > 1 - (ST / (2-ST)) ∧ Pr(∀tl∈sdi) > Pr(∀tl∈-sdi) }
で定義されるならば、
sdi∩∀dk[sim(di,dk) >= ST]≠φ ∧ Pr(∀tl∈sdi) > Pr(∀tl∈-sdi)
が成立する。
尚、edit_dis(di,dj)はdiとdjの編集距離を意味する。
証明:
まず、
sim(di, dj) >= ST
ならば
(Σtl∈di∩dj fq(di,tl)) / fq(di) >= ST / (2-ST)
が成立することを証明する。
edit_dis(di,dj) >= fq(di) + fq(dj) - 2 x (Σtl∈di∩dj min(fq(di,tl), fq(dj,tl)))
であるから、
ST <= sim(di,dj)
= (fq(di) + fq(dj) - edit_dis(di,dj)) / (fq(di) + fq(dj))
<= 2 x (Σtl∈di∩dj min(fq(di,tl), fq(dj,tl))) / (fq(di) + fq(dj))
また、
fq(dj) >= (Σtl∈di∩dj min(fq(di,tl), fq(dj,tl)))
であるから
ST <= 2 x (Σtl∈di∩dj min(fq(di,tl), fq(dj,tl))) / (fq(di) + (Σtl∈di∩dj min(fq(di,tl), fq(dj,tl))))
したがって、
(Σtl∈di∩dj min(fq(di,tl), fq(dj,tl))) / fq(di) >= ST / (2-ST)
ここで、
fq(di,tl) >= min(fq(di,tl), fq(dj,tl))
であるから
(Σtl∈di∩dj fq(di,tl)) / fq(di) >= ST / (2-ST)
次に、
sdi∈di { (Σtl∈sdi fq(di,tl)) / fq(di) } > 1 - (ST / (2-ST)) }
で定義されるならば、
sdi∩∃dk[sim(di, dk)>=ST]=φ
であると仮定する。
sim(di,dk) >= ST
であるから、上記より、
Σtl∈di∩dk fq(di,tl) / fq(di) >= ST / (2-ST)
が成立し、
また、
sdi∈di { (Σtl∈sdi fq(di,tl)) / fq(di) } > 1 - (ST / (2-ST)) }
であるから、
(Σtl∈di∩dk fq(di,tl)) / fq(di) + (Σtl∈sdi fq(di,tl)) / fq(di) > 1
(Σtl∈di∩dk fq(di,tl)) + (Σtl∈sdi fq(di,tl)) > fq(di)
となる。
ここで、
sdi∩dk=φ
であるから、
(Σtl∈(di∩dk)∪sdi fq(di,tl)) > fq(di)
となるが、
(di∩dk)∪sdi ⊆ di
であるから成立せず矛盾する。
したがって、
sdi = sdi∈di { (Σtl∈sdi fq(di,tl)) / fq(di) } > 1- (ST / (2-ST)) }
で定義されるならば、
sdi∩∀dk[sim(di,dk) >= ST]≠φ
が成立する。
上記は、sdiにどの文字から選んでいったとしても成立するので定理2-2は成立する。
本発明の第1の実施の形態を説明する。
第2の実施の形態を説明する。
優先順位記憶部21は、第1の実施の形態と同様である。同一文書候補グループ記憶部22は、第1の実施の形態と同様である。出力データベース5は、第1の実施の形態と同様である。
図23を参照すると本発明の第3の実施の形態は、第1の実施の形態と構成をほぼ同一とするが、単語群の優先順位をそれぞれ異なる基準で設定する複数の同一文書候補グループ作成手段11と、それに対応する複数の同一文書候補グループ記憶部22を用いている点、および、同一文書グループ作成手段12が、複数ある同一文書候補グループ記憶部22にすべてにおいていずれかの同一の同一文書候補グループに所属する文書対の中で、類似度閾値以上の文書対を同一文書グループとする、または、共通する文書を含む類似度閾値以上の文書対を統合した文書グループを同一文書グループとする点で異なる。
Score(a,n) = p x (aの出現文書数) + q x (n-1回目までに同一文書候補グループ作成された文書数の総数)
と表すことができ、Scoreの小さい単語ほど優先順位を高くする。ここで、pとqは実数の定数である。同一文書グループ作成手段12では、ステップS321,ステップS327のような文書iのそれぞれの選択単語をIDとする同一文書グループの論理和の文書群を求める処理をn回行いn個の論理和の文書群を求め、ステップS328では、n個の論理和の文書群の論理積を求めるようにすれば良い。
図36を参照すると本発明の第4の実施の形態は、第2の実施の形態と構成をほぼ同一とするが、文字群の優先順位をそれぞれ異なる基準で設定する複数の同一文書候補グループ作成手段11と、それに対応する複数の同一文書候補グループ記憶部22を用いている点、および、同一文書グループ作成手段12が、複数ある同一文書候補グループ記憶部22にすべてにおいていずれかの同一の同一文書候補グループに所属する文書対の中で、類似度閾値以上の文書対を同一文書グループとする、または、共通する文書を含む類似度閾値以上の文書対を統合した文書グループを同一文書グループとする点で異なる。
Score(a,n) = p x (aの出現文書数) + q x (n-1回目までにaが同一文書候補グループ作成手段で選択された文書数の総数)
と表すことができ、Scoreの小さい単語ほど優先順位を高くする。ここで、pとqは実数の定数である。同一文書グループ作成手段12では、ステップS321,ステップS327のような文書iのそれぞれの選択文字をIDとする同一文書グループの論理和の文書群を求める処理をn回行いn個の論理和の文書群を求め、ステップS328では、n個の論理和の文書群の論理積を求めるようにすれば良い。
2 記憶装置
3 対象データベース
4 入力装置
5 出力データベース
10 文書解析手段
11 同一文書候補グループ作成手段
12 同一文書グループ作成手段
20 単語群記憶部
21 優先順位記憶部
22 同一文書候補グループ記憶部
Claims (8)
- 与えられた文書間で実質的に同一の文書群をグルーピングする同一文書照合システムであって、
単語または文字で識別され、実質的に同一の候補である文書のグループである同一文書候補グループと、そのグループに属する文書との対応関係が記憶される同一文書候補グループ記憶部と、
文書間で少なくとも所定の類似度閾値以上となるために、文書間で単語または文字が共通する割合を求め、この割合に基づいて、文書照合の対象となるすべての文書間で共通する優先順位で単語または文字を選択し、選択したそれぞれの単語または文字で識別される同一文書候補グループにその文書を対応付けて前記同一文書候補グループ記憶部に記憶する同一文書候補グループ作成手段と、
前記同一文書候補グループ記憶部に記憶されている同一の同一文書候補グループに対応付けられた2つの異なる文書の対である文書対に対して類似度を計算し、この類似度が前記類似度閾値以上の文書対を同一文書グループとして登録する同一文書グループ作成手段と
を有することを特徴とする同一文書照合システム。 - 前記同一文書グループ作成手段は、共通する文書を含む同一文書グループを統合して同一文書グループとするように構成されていることを特徴とする請求項1に記載の同一文書照合システム。
- 同一文書候補グループ作成手段が、前記優先順位を、出現文書数が少ない単語または文字が高い優先順位となるように決定することを特徴とする請求項1又は請求項2に記載の同一文書照合システム。
- 前記同一文書候補グループ作成手段及び前記複数の同一文書候補グループ記憶部を、異なる優先順位毎に設け、
前記同一文書グループ作成手段が、複数ある同一文書候補グループ記憶部のすべてにおいていずれかの同一の同一文書候補グループに所属する文書対の中で、類似度閾値以上の文書対を同一文書グループとするように構成されていることを特徴とする請求項1から請求項3のいずれかに記載の同一文書照合システム。 - 前記複数の同一文書候補グループ作成手段が、異なる優先順位を設定する際に、
n回目の同一文書候補グループ作成手段を実行する際の単語または文字の優先順位を、その出現文書数とそれがn−1回目までの同一文書候補グループ作成手段で選択された文書数の総数の重み付き和が小さい単語又は文字ほど優先順位を高く設定するように構成されていることを特徴とする請求項4に記載の同一文書照合システム。 - 前記同一文書候補グループ作成手段が、文書に含まれる単語から類似度閾値以上の文書間で少なくとも一つが必ず共通するような種類の単語を選択する際に、
単語tlの重要度をw(tl)とし、
2つの文書di={tl|0<=l<=|di|}、dj={tl|0<=l<=|dj|}の類似度sim(di,dj)が、
sim(di, dj) = (Σtl∈di∩dj w(tl)^2)
/ (√(Σtl∈di w(tl)^2) * √(Σtl∈dj w(tl)^2))
のcosine類似度で定義される場合、
類似度閾値がST(0<=ST<=1)の時、文書di(0<=i<=n)(nは同一照合の対象となる文書数)から、
sdi∈di {(Σtl∈sdi w(tl)^2) / (Σtl∈d
w(tl)^2) > 1- ST^2}
を満たす単語群sdiを選択する
ように構成されていることを特徴とする請求項1から請求項5のいずれかに記載の同一文書照合システム。 - 同一文書候補グループ作成手段が、文書に含まれる文字から類似度閾値以上の文書間で少なくとも一つが必ず共通するような数の文字群を選択する際に、
2つの文書di={tl|0<=l<=|di|}、dj={tl|0<=l<=|dj|}の編集距離をedit_dis(di,dj)とし、
diの文字数をfq(di)、diにおけるtlの出現回数をfq(di,tl)とし、
diとdjのの類似度sim(di,dj)が、
sim(di, dj) = (fq(di) + fq(dj) -
edit_dis(di,dj)) / (fq(di) + fq(dj))
で定義される場合、
類似度閾値がST(0<=ST<=1)の時、文書di(0<=i<=n)(nは同一照合の対象となる文書数)から、
sdi∈di {(Σtl∈sdi fq(di,tl)) / fq(di)
> 1 - (ST / (2-ST))}
を満たす文字群sdiを選択する
ように構成されていることを特徴とする請求項1から請求項5のいずれかに記載の同一文書照合システム。 - 与えられた文書間で実質的に同一の文書群をグルーピングする同一文書照合プログラムあって、
文書間で少なくとも所定の類似度閾値以上となるために、文書間で単語または文字が共通する割合を求める処理と、
前記割合に基づいて、文書照合の対象となるすべての文書間で共通する優先順位で単語または文字を選択する処理と、
前記選択したそれぞれの単語または文字で識別される同一文書候補グループにその文書を対応付けて記憶する処理と、
前記記憶されている同一の同一文書候補グループに対応付けられた2つの異なる文書の対である文書対に対して類似度を計算し、この類似度が前記類似度閾値以上の文書対を同一文書グループとして登録する処理と
を情報処理装置に実行させることを特徴とする同一文書照合プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012165641A JP5605583B2 (ja) | 2006-09-14 | 2012-07-26 | 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006249429 | 2006-09-14 | ||
JP2006249429 | 2006-09-14 | ||
JP2012165641A JP5605583B2 (ja) | 2006-09-14 | 2012-07-26 | 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008534383A Division JP5115741B2 (ja) | 2006-09-14 | 2007-09-13 | 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012230713A JP2012230713A (ja) | 2012-11-22 |
JP5605583B2 true JP5605583B2 (ja) | 2014-10-15 |
Family
ID=39183834
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008534383A Active JP5115741B2 (ja) | 2006-09-14 | 2007-09-13 | 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム |
JP2012165641A Expired - Fee Related JP5605583B2 (ja) | 2006-09-14 | 2012-07-26 | 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008534383A Active JP5115741B2 (ja) | 2006-09-14 | 2007-09-13 | 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8606779B2 (ja) |
JP (2) | JP5115741B2 (ja) |
WO (1) | WO2008032780A1 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008032780A1 (fr) * | 2006-09-14 | 2008-03-20 | Nec Corporation | Procédé de recherche, procédé de calcul de similarité, calcul de similarité, système d'appariement de mêmes documents et programme de ceux-ci |
US9081852B2 (en) * | 2007-10-05 | 2015-07-14 | Fujitsu Limited | Recommending terms to specify ontology space |
US20120169771A1 (en) * | 2009-07-23 | 2012-07-05 | Nec Corporation | Information presenting system, information presenting method, and storage medium |
US8515972B1 (en) | 2010-02-10 | 2013-08-20 | Python 4 Fun, Inc. | Finding relevant documents |
US8660986B2 (en) * | 2010-10-27 | 2014-02-25 | Microsoft Corporation | Preserving user intent in merging ordered objects |
US9551166B2 (en) * | 2011-11-02 | 2017-01-24 | Ford Global Technologies, Llc | Electronic interior door release system |
US11003567B2 (en) * | 2017-12-06 | 2021-05-11 | International Business Machines Corporation | Method and apparatus for test modeling |
CN111144104B (zh) * | 2018-11-02 | 2023-06-20 | 中国电信股份有限公司 | 文本相似度的确定方法、装置和计算机可读存储介质 |
US10540381B1 (en) | 2019-08-09 | 2020-01-21 | Capital One Services, Llc | Techniques and components to find new instances of text documents and identify known response templates |
CN110737751B (zh) * | 2019-09-06 | 2023-10-20 | 平安科技(深圳)有限公司 | 基于相似度值的搜索方法、装置、计算机设备和存储介质 |
CN111241811B (zh) * | 2020-01-06 | 2024-05-10 | 平安科技(深圳)有限公司 | 确定搜索词权重的方法、装置、计算机设备和存储介质 |
CN113239252A (zh) * | 2020-09-23 | 2021-08-10 | 潘倩雯 | 基于大数据的信息数据存储整合系统 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04175874A (ja) * | 1990-11-07 | 1992-06-23 | Chugoku Nippon Denki Software Kk | 推論機能付き検索システム |
JP3673553B2 (ja) * | 1995-03-31 | 2005-07-20 | キヤノン株式会社 | ファイリング装置 |
JPH1153387A (ja) * | 1997-08-06 | 1999-02-26 | Ibm Japan Ltd | 文書の関連付け方法及びそのシステム |
US6542889B1 (en) * | 2000-01-28 | 2003-04-01 | International Business Machines Corporation | Methods and apparatus for similarity text search based on conceptual indexing |
JP3759438B2 (ja) * | 2001-08-03 | 2006-03-22 | 日本電信電話株式会社 | 類似部分系列検出方法および装置、類似部分系列検出プログラムならびにその記録媒体 |
JP4142881B2 (ja) * | 2002-03-07 | 2008-09-03 | 富士通株式会社 | 文書類似度算出装置、クラスタリング装置および文書抽出装置 |
US7392262B1 (en) * | 2004-02-11 | 2008-06-24 | Aol Llc | Reliability of duplicate document detection algorithms |
US7406479B2 (en) * | 2006-02-10 | 2008-07-29 | Microsoft Corporation | Primitive operator for similarity joins in data cleaning |
US8010534B2 (en) * | 2006-08-31 | 2011-08-30 | Orcatec Llc | Identifying related objects using quantum clustering |
WO2008032780A1 (fr) * | 2006-09-14 | 2008-03-20 | Nec Corporation | Procédé de recherche, procédé de calcul de similarité, calcul de similarité, système d'appariement de mêmes documents et programme de ceux-ci |
-
2007
- 2007-09-13 WO PCT/JP2007/067831 patent/WO2008032780A1/ja active Application Filing
- 2007-09-13 JP JP2008534383A patent/JP5115741B2/ja active Active
- 2007-09-13 US US12/310,975 patent/US8606779B2/en active Active
-
2012
- 2012-07-26 JP JP2012165641A patent/JP5605583B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012230713A (ja) | 2012-11-22 |
JP5115741B2 (ja) | 2013-01-09 |
WO2008032780A1 (fr) | 2008-03-20 |
US8606779B2 (en) | 2013-12-10 |
US20100023505A1 (en) | 2010-01-28 |
JPWO2008032780A1 (ja) | 2010-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5605583B2 (ja) | 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム | |
Mathur et al. | Detecting offensive tweets in hindi-english code-switched language | |
Bennani-Smires et al. | Simple unsupervised keyphrase extraction using sentence embeddings | |
Jung | Semantic vector learning for natural language understanding | |
US9230041B2 (en) | Search suggestions of related entities based on co-occurrence and/or fuzzy-score matching | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
CN107506472B (zh) | 一种学生浏览网页分类方法 | |
Wang et al. | DM_NLP at semeval-2018 task 12: A pipeline system for toponym resolution | |
Singh et al. | Analytics of similar-sounding names from the web with phonetic based clustering | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
CN113961666A (zh) | 关键词识别方法、装置、设备、介质及计算机程序产品 | |
Suresh et al. | Data mining and text mining—a survey | |
JP4640593B2 (ja) | 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム | |
US9208204B2 (en) | Search suggestions using fuzzy-score matching and entity co-occurrence | |
JP6470249B2 (ja) | データクレンジングシステム、データクレンジング方法及びデータクレンジングプログラム | |
US9547701B2 (en) | Method of discovering and exploring feature knowledge | |
JP6260678B2 (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
Aghaebrahimian et al. | Named entity disambiguation at scale | |
Yang et al. | Exploring word similarity to improve chinese personal name disambiguation | |
Chou et al. | On the Construction of Web NER Model Training Tool based on Distant Supervision | |
JP4844737B2 (ja) | 代表情報選択方法、代表情報選択システム及びプログラム | |
CN112507687A (zh) | 一种基于二次排序的工单检索方法 | |
Pilaluisa et al. | Contextual word embeddings for tabular data search and integration | |
CN112949287B (zh) | 热词挖掘方法、系统、计算机设备和存储介质 | |
Sierra et al. | A case study in authorship attribution: The Mondrigo |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131225 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140730 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140812 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5605583 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |