JP4844737B2 - 代表情報選択方法、代表情報選択システム及びプログラム - Google Patents
代表情報選択方法、代表情報選択システム及びプログラム Download PDFInfo
- Publication number
- JP4844737B2 JP4844737B2 JP2006249430A JP2006249430A JP4844737B2 JP 4844737 B2 JP4844737 B2 JP 4844737B2 JP 2006249430 A JP2006249430 A JP 2006249430A JP 2006249430 A JP2006249430 A JP 2006249430A JP 4844737 B2 JP4844737 B2 JP 4844737B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- document
- group
- representative
- same
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
(1) データベース(以下、DBと称する)の重複レコード照合
DBの重複レコード照合は、DB内の実質的に同じレコードをグルーピングすることをいい、例えば、異なる人/場所/方法によって管理された表記のゆれを含む顧客DBを統合する際のデータクリーニングやコンタクトセンターの問い合わせ事例の重複削除に必要となる。1レコードを1文書とみなすことで同一文書照合の問題とみなすことができる。
(2) トピック分析
トピック分析は、Blogなどの書き込みデータをグルーピングすることをいい、Blogで同じトピックが、いつ/どのあたりで話題になっているかを把握するために必要となる。
同一情報グループに属する所定の類似度以上の情報対のデータを参照して、所定の類似度以上の関係となる情報に関する総和値を算出し、算出した総和値が多い順に代表情報を選択する処理を、代表情報群と前記代表情報群との類似度が所定の類似度閾値以上になる情報群とを合わせた情報群が、同一情報グループの情報群と一致するまで繰り返すことにより同一情報グループから代表情報群を選択する代表情報群選択手段を備えることを特徴とする。
1.文書を単語の集合と考える場合
記号の定義
データベースに含まれる文書集合: D = {di| 0<=i<=|D|}、
データベースに含まれる単語集合: T = {tl| 0<=l<=|T|}、
diに含まれる単語の異なり数: |di|、
diに含まれる単語集合: di = {tl| 0<=l<=|di|}、
tlの優先順位: Pr(tl)、
tlの重要度: w(tl) # Pr(tl)はw(tl)の大きさから求めても良い
diとdjの類似度: sim(di,dj)、
類似度閾値: ST
と定義する。
定理1-1:
sdiを
sdi⊆di { sdi∩∀dk[sim(di,dk) >= ST]≠φ ∧ Pr(∀tl∈sdi) > Pr(∀tl∈-sdi) }
(-sdiはsdiの補集合)
により定義する。
この時、PrがDで一意に定まり、sdi, sdjが定まれば、
sim(di, dj) >= STのとき、
sdi∩sdj≠φが成立する。
証明:
まず、sdi,sdjの定義により、
sim(di, dj) >= STのとき、
sdi∩dj≠φ
sdj∩di≠φ
が成立する。
ここで、
sdi∩dj≠φ ∧ sdi∩sdj=φ
と仮定すると、
djにおける単語の重要度は、
Pr(∀tl∈sdj) > Pr(∀tl∈sdi)となる。
この時、sdi∩sdj=φであるから
sdj∩di≠φ ∧ sdj∩sdi=φ
が同時に成立する。
そのため、
diにおける単語の重要度は、Pr(∀tl∈sdi) > Pr(∀tl∈sdj)になる。
これは、PrがDで一意に定まることと矛盾する。
iとjを置き換えた場合でも同様である。
sim(∀di∈D, ∀dj∈D)を求める前にsdiを求めることができることを示す。
定理1-2:
sim(di, dj) =
(Σtl∈di∩dj w(tl)^2) / ((√Σtl∈di w(tl)^2) * √(Σtl∈dj w(tl)^2))
で定義されるcosine類似度を用いる場合、
sdi∈di { (Σtl∈sdl w(tl)^2) / (Σtl∈di w(tl)^2) > 1- ST^2 ∧ Pr(∀tl∈sdi) > Pr(∀tl∈-sdi) }
で定義されるならば、
sdi∩∀dk[sim(di,dk) >= ST]≠φ ∧ Pr(∀tl∈sdi) > Pr(∀tl∈-sdi)
が成立する。
証明:
まず、
sim(di, dj) >= ST
ならば
(Σtl∈di∩dj w(ti)^2) / (Σtl∈di w(tl)^2) >= ST^2
が成立することを証明する。
(Σtl∈dj w(tl)^2) >= (Σtl∈di∩dj w(tl)^2)
であるから
ST
<= sim(di, dj) = (Σti∈di∩dj w(ti)^2) / ((√Σtl∈di w(tl)^2) * (√Σtl∈dj w(tl)^2))
<= (Σti∈dj w(ti)^2) /
((√Σtl∈di w(tl)^2) * (√Σtl∈dj w(tl)^2))
= (√Σtl∈di∩dj w(tl)^2) / (√Σtl∈di w(tl)^2)
したがって、
(Σtl∈di∩dj w(tl)^2) / (Σtl∈di w(tl)^2) >= ST^2
次に、
sdi∈di { (Σl=1..|sdi| w(tl)^2) / (Σtl∈di w(tl)^2) } > 1- ST^2
で定義されるならば、
sdi∩∃dk[sim(di, dk)>=ST]=φ
であると仮定する。
このとき、
sim(di,dk) >= ST
であるから、上記より、
(Σti∈di∩dk w(tl)^2) / (Σtl∈di w(tl)^2) >= ST^2
が成立し、
また、
(Σtl∈sdi w(tl)^2) / (Σtl∈di w(tl)^2) > 1- ST^2
であるから、であるから、2つを足して
((Σti∈di∩dk w(tl)^2) + (Σtl∈sdi w(tl)^2)) / (Σtl∈di w(tl)^2) > 1
((Σti∈di∩dk w(tl)^2) + (Σtl∈sdi w(tl)^2)) > (Σtl∈di w(tl)^2)
となる。
ここで、
sdi∩dk=φ
であるから、
(Σti∈(di∩dk)∪sdi w(tl)^2) > (Σtl∈di w(tl)^2)
となるが、
(di∩dk)∪sdi ⊆ di
であるから成立せず矛盾する。
したがって、
sdi = sdi∈di { (Σtl∈sdi w(tl)^2) / (Σtl∈di w(tl)^2) } > 1- ST^2
で定義されるならば、
sdi∩∀dk[sim(di,dk) >= ST]≠φ
が成立する。
上記は、sdiにどの単語から選んでいったとしても成立するので定理1-2は成立する。
2.文書を文字の集合と考える場合
記号の定義:
データベースに含まれる文書集合: D = {di| 0<=i<=|D|}
データベースに含まれる文字集合: T = {tl| 0<=l<=|T|}
diに含まれる文字の異なり数:|di|
diに含まれる文字集合: di = {tl| 0<=l<=|di|}
diにおけるtlの出現回数: fq(di,tl)
diに含まれる文字数: fq(di)
tlの優先順位: Pr(tl)
tlの重要度: w(tl) # Pr(tl)はw(tl)の大きさから求めても良い
diとdjの類似度: sim(di,dj)
類似度閾値: ST
定理2-1:
sdiを
sdi⊆di { sdi∩∀dk[sim(di,dk) >= ST]≠φ ∧ Pr(∀tl∈sdi) > Pr(∀tl∈-sdi) }
により定義する。
この時、
PrがDで一意に定まり、
sdi, sdjが定まれば、
sim(di, dj) >= STのとき
sdi∩sdj≠φ
が成立する。
証明:
定理1-1と同一の証明となる。
定理2-2:
sim(di, dj) =
(fq(di) + fq(dj) - edit_dis(di,dj)) / (fq(di) + fq(dj))
で定義される関数を用いる場合
sdi = sdi∈di { (Σl=1..|sdi|fq(di,tl)) / fq(di) > 1 - (ST / (2-ST)) ∧ Pr(∀tl∈sdi) > Pr(∀tl∈-sdi) }
で定義されるならば、
sdi∩∀dk[sim(di,dk) >= ST]≠φ ∧ Pr(∀tl∈sdi) > Pr(∀tl∈-sdi)
が成立する。
尚、edit_dis(di,dj)はdiとdjの編集距離を意味する。
証明:
まず、
sim(di, dj) >= ST
ならば
(Σtl∈di∩dj fq(di,tl)) / fq(di) >= ST / (2-ST)
が成立することを証明する。
edit_dis(di,dj) >= fq(di) + fq(dj) - 2 x (Σtl∈di∩dj min(fq(di,tl), fq(dj,tl)))
であるから、
ST <= sim(di,dj)
= (fq(di) + fq(dj) - edit_dis(di,dj)) / (fq(di) + fq(dj))
<= 2 x (Σtl∈di∩dj min(fq(di,tl), fq(dj,tl))) / (fq(di) + fq(dj))
また、
fq(dj) >= (Σtl∈di∩dj min(fq(di,tl), fq(dj,tl)))
であるから
ST <= 2 x (Σtl∈di∩dj min(fq(di,tl), fq(dj,tl))) / (fq(di) + (Σtl∈di∩dj min(fq(di,tl), fq(dj,tl))))
したがって、
(Σtl∈di∩dj min(fq(di,tl), fq(dj,tl))) / fq(di) >= ST / (2-ST)
ここで、
fq(di,tl) >= min(fq(di,tl), fq(dj,tl))
であるから
(Σtl∈di∩dj fq(di,tl)) / fq(di) >= ST / (2-ST)
次に、
sdi∈di { (Σtl∈sdi fq(di,tl)) / fq(di) } > 1 - (ST / (2-ST)) }
で定義されるならば、
sdi∩∃dk[sim(di, dk)>=ST]=φ
であると仮定する。
sim(di,dk) >= ST
であるから、上記より、
Σtl∈di∩dk fq(di,tl) / fq(di) >= ST / (2-ST)
が成立し、
また、
sdi∈di { (Σtl∈sdi fq(di,tl)) / fq(di) } > 1 - (ST / (2-ST)) }
であるから、
(Σtl∈di∩dk fq(di,tl)) / fq(di) + (Σtl∈sdi fq(di,tl)) / fq(di) > 1
(Σtl∈di∩dk fq(di,tl)) + (Σtl∈sdi fq(di,tl)) > fq(di)
となる。
ここで、
sdi∩dk=φ
であるから、
(Σtl∈(di∩dk)∪sdi fq(di,tl)) > fq(di)
となるが、
(di∩dk)∪sdi ⊆ di
であるから成立せず矛盾する。
したがって、
sdi = sdi∈di { (Σtl∈sdi fq(di,tl)) / fq(di) } > 1- (ST / (2-ST)) }
で定義されるならば、
sdi∩∀dk[sim(di,dk) >= ST]≠φ
が成立する。
上記は、sdiにどの文字から選んでいったとしても成立するので定理2-2は成立する。
単語群記憶部20は、文書とその文書に含まれる単語群の対応関係を格納する。
優先順位記憶部21は、第2の実施の形態と同様である。同一文書候補グループ記憶部22は、第2の実施の形態と同様である。同一文書グループ5は、第1の実施の形態と同様である。代表文書記憶部6は、第1の実施の形態と同様である。
(1)DBの重複レコード照合
DBの重複レコード照合は、DB内の実質的に同じレコードをグルーピングすることをいい、例えば、例えば、異なる人/場所/方法によって管理された表記のゆれを含む顧客DBを統合する際のデータクリーニングやコンタクトセンターの問い合わせ事例の重複削除に利用できる。1レコードを1文書とみなすことで同一文書照合の問題とみなすことができる。
(2)トピック分析
トピック分析は、Blogなどの書き込みデータをグルーピングすることをいい、Blogで同じトピックが、いつ/どのあたりで話題になっているかを把握するために利用できる。
2 記憶装置
3 対象データベース
4 入力装置
5 同一文書グループ記憶部
6 代表文書記憶部
10 文書解析手段
11 同一文書候補グループ作成手段
12 同一文書グループ作成手段
13 代表文書選択手段
20 単語群記憶部
21 優先順位記憶部
22 同一文書候補グループ記憶部
Claims (27)
- 情報の集合である同一情報グループから、前記同一情報グループを代表する代表情報を選択する代表情報選択方法であって、
前記集合に含まれる全ての情報は、該集合に含まれる他の情報と所定の類似度以上の関係を持ってつながっており、
情報処理装置が、同一情報グループに属する所定の類似度以上の情報対のデータを参照して、所定の類似度以上の関係となる情報に関する総和値を算出し、算出した総和値が多い順に代表情報を選択する処理を、前記代表情報と、前記代表情報と所定類似度以上の関係となる情報とを前記同一情報グループから除いたときに空となるまで繰り返すことを特徴とする代表情報選択方法。 - 前記情報処理装置が、前記代表情報と、前記代表情報と所定類似度以上の関係となる情報とを前記同一情報グループから除いたときに空となるまで、所定類似度以上の関係となる情報が多い順に代表情報を選択することを特徴とする請求項1に記載の代表情報選択方法。
- 前記情報処理装置が、情報対の類似度に応じて設定された重みのデータを参照して、前記代表情報と、前記代表情報と所定類似度以上の関係となる情報とを前記同一情報グループから除いたときに空となるまで、所定類似度以上の関係となる情報との重みの総和が大きい順に代表情報を選択することを特徴とする請求項1に記載の代表情報選択方法。
- 前記情報が文書であることを特徴とする請求項1から請求項3のいずれかに記載の代表情報選択方法。
- 前記情報処理装置が、類似度の計算対象となる情報群に含まれる情報で共通して適用される、情報を構成する情報要素の優先順位を決定し、
前記情報処理装置が、前記情報群に含まれる各情報について、情報間の類似度が類似度閾値未満となる情報要素の異なり数を、情報を構成する情報要素の数と類似度閾値を用いる所定の演算式に基づいて算出して選択数とし、
前記情報処理装置が、前記優先順位に従って、前記各情報から前記選択数の情報要素を選択し、
前記情報処理装置が、前記選択した情報要素の少なくとも一つが情報間で共通する情報対のみについて類似度の計算を行い、
前記情報処理装置が、前記計算の結果、所定の類似度以上となる情報対を同一情報グループとするとともに、前記所定の類似度以上となる情報対のうち、共通する情報を含む情報対についてはそれらの情報対を統合して同一情報グループとする
ことを特徴とする請求項1から請求項4のいずれかに記載の代表情報選択方法。 - 前記情報が文書であり、前記情報要素が前記文書に含まれる単語または文字であることを特徴とする請求項5に記載の代表情報選択方法。
- 情報の集合である同一情報グループから、前記同一情報グループを代表する代表情報を選択する代表情報選択システムであって、
前記集合に含まれる全ての情報は、該集合に含まれる他の情報と所定の類似度以上の関係を持ってつながっており、
同一情報グループに属する所定の類似度以上の情報対のデータを参照して、所定の類似度以上の関係となる情報に関する総和値を算出し、算出した総和値が多い順に代表情報を選択する処理を、前記選択した代表情報と、前記代表情報と所定類似度以上の関係となる情報を前記同一情報グループから除いたときに空となるまで繰り返す代表情報選択手段を有することを特徴とする代表情報選択システム。 - 前記代表情報選択手段は、前記代表情報と、前記代表情報と所定類似度以上の関係となる情報とを前記同一情報グループから除いたときに空となるまで、所定類似度以上の関係となる情報が多い順に代表情報を選択することを特徴とする請求項7に記載の代表情報選択システム。
- 前記代表情報選択手段は、情報対の類似度に応じて設定された重みのデータを参照して、前記代表情報と、前記代表情報と所定類似度以上の関係となる情報とを前記同一情報グループから除いたときに空となるまで、所定類似度以上の関係となる情報との重みの総和が大きい順に代表情報を選択することを特徴とする請求項7に記載の代表情報選択システム。
- 前記情報が文書であることを特徴とする請求項7から請求項9のいずれかに記載の代表情報選択システム。
- 類似度の計算対象となる情報群に含まれる情報で共通して適用され、情報を構成する情報要素の優先順位が格納された優先順位記憶部と、
前記情報群に含まれる各情報について、情報間の類似度が類似度閾値未満となる情報要素の異なり数を、情報を構成する情報要素の数と類似度閾値を用いる所定の演算式に基づいて算出して選択数とする手段と、
前記優先順位に従って、前記各情報から前記選択数の情報要素を選択する情報要素選択手段と、
前記選択した情報要素の少なくとも一つが情報間で共通する情報対のみについて類似度の計算を行い、前記計算の結果、所定の類似度以上となる情報対を同一情報グループとするとともに、前記所定の類似度以上となる情報対のうち、共通する情報を含む情報対についてはそれらの情報対を統合して同一情報グループとする同一情報グループ生成手段と
を有することを特徴とする請求項7から請求項10のいずれかに記載の代表情報選択システム。 - 前記情報が文書であり、前記情報要素が前記文書に含まれる単語または文字であることを特徴とする請求項11に記載の代表情報選択システム。
- 同一文書照合システムであって、
所定の類似度以上となる文書の対の関係を示す文書対が格納された同一文書グループ記憶手段と、
前記同一文書グループ記憶手段に格納された文書対に従って、所定の類似度以上の関係となる文書に関する総和値を算出し、算出した総和値が多い順に代表文書を選択する処理を、前記代表文書と、前記代表文書と所定類似度以上の関係となる文書とを前記同一文書グループ記憶手段から除いたときに空となるまで繰り返す代表文書選択手段と
を有することを特徴とする同一文書照合システム。 - 前記代表文書選択手段は、前記代表文書と、前記代表文書と所定類似度以上の関係となる文書とを前記同一文書グループ記憶手段から除いたときに空となるまで、対の関係となる文書が多い順に代表文書を選択することを特徴とする請求項13に記載の同一文書照合システム。
- 前記代表情報選択手段は、文書対の類似度に応じて設定された重みのデータを参照して、前記代表文書と、前記代表文書と所定類似度以上の関係となる文書とを前記同一情報グループ記憶手段から除いたときに空となるまで、対の関係となる文書との重みの総和が大きい順に代表文書を選択することを特徴とする請求項13に記載の同一文書照合システム。
- 単語または文字で識別され、実質的に同一の候補である文書のグループである同一文書候補グループと、そのグループに属する文書との対応関係が記憶される同一文書候補グループ記憶部と、
前記同一文書候補グループに属する各文書について、文書間の類似度が類似度閾値未満となる単語又は文字の異なり数を、文書を構成する単語又は文字の数と類似度閾値を用いる所定の演算式に基づいて算出し、文書照合の対象となるすべての文書間で共通する単語または文字の優先順位に従って、前記異なり数の単語または文字を選択し、選択したそれぞれの単語または文字で識別される同一文書候補グループにその文書を対応付けて前記同一文書候補グループ記憶部に記憶する同一文書候補グループ作成手段と、
前記同一文書候補グループ記憶部に記憶されている同一の同一文書候補グループに対応付けられた2つの異なる文書の対である文書対に対して類似度を計算し、この類似度が前記類似度閾値以上の文書対を前記同一文書グループ記憶部に登録するとともに、前記所定の類似度以上となる文書対のうち、共通する文書を含む文書対についてはそれらの文書対を統合して同一文書グループとして前記同一文書グループ記憶部に登録する同一文書グループ作成手段と
を有することを特徴とする請求項13から請求項15のいずれかに記載の同一文書照合システム。 - 情報の集合である同一情報グループから、前記同一情報グループを代表する代表情報を選択するための代表情報選択プログラムであって、
前記集合に含まれる全ての情報は、該集合に含まれる他の情報と所定の類似度以上の関係を持ってつながっており、
同一情報グループに属する所定の類似度以上の情報対のデータを参照して、所定の類似度以上の関係となる情報に関する総和値を算出し、算出した総和値が多い順に代表情報を選択する処理を、前記代表情報と、前記代表情報と所定類似度以上の関係となる情報とを前記同一情報グループから除いたときに空となるまで繰り返す処理を情報処理装置に実行させることを特徴とする代表情報選択プログラム。 - 同一文書照合のプログラムであって、
同一文書グループとして記憶領域に格納された所定の類似度以上となる文書の対の関係を示す文書対に従って、所定の類似度以上の関係となる文書に関する総和値を算出し、算出した総和値が多い順に代表文書を選択する処理を、前記代表文書と、前記代表文書と所定類似度以上の関係となる文書とを前記同一文書グループから除いたときに空となるまで繰り返す処理
を情報処理装置に実行させることを特徴とする同一文書照合のプログラム。 - 与えられた情報間で実質的に同一の情報群がグルーピングされた同一情報グループから代表情報群を選択する代表情報群選択方法であって、
情報処理装置が、同一情報グループに属する所定の類似度以上の情報対のデータを参照して、所定の類似度以上の関係となる情報に関する総和値を算出し、算出した総和値が多い順に代表情報を選択する処理を、代表情報群と前記代表情報群との類似度が所定の類似度閾値以上になる情報群とを合わせた情報群が、同一情報グループの情報群と一致するまで繰り返すことにより同一情報グループから代表情報群を選択することを特徴とする代表情報群選択方法。 - 前記情報処理装置が、既に選択された代表情報群と前記代表情報群との類似度が所定の類似度閾値以上となる情報群とを、同一情報グループの情報群から除いた残りの情報群の最も多くと類似度が前記所定の類似度閾値以上になる情報を、代表情報として選択する処理を、前記残りの情報群がなくなるまで繰り返し、代表情報を選択する
ことを特徴とした請求項19に記載の代表情報群選択方法。 - 前記情報処理装置が、情報対の類似度に応じて設定された重みのデータを参照して、既に選択された代表情報群と前記代表情報群との類似度が所定の類似度閾値以上となる情報群とを、同一情報グループの情報群から除いた残りの情報群との重みの総和が最も大きい情報を、代表情報として選択する処理を、前記残りの情報群がなくなるまで繰り返し、代表情報を選択する
ことを特徴とした請求項19に記載の代表情報群選択方法。 - 前記情報が文書であることを特徴とする請求項19から請求項21のいずれかに記載の代表情報選択方法。
- 与えられた情報間で実質的に同一の情報群がグルーピングされた同一情報グループから代表情報群を選択する代表情報群選択システムであって、
同一情報グループに属する所定の類似度以上の情報対のデータを参照して、所定の類似度以上の関係となる情報に関する総和値を算出し、算出した総和値が多い順に代表情報を選択する処理を、代表情報群と前記代表情報群との類似度が所定の類似度閾値以上になる情報群とを合わせた情報群が、同一情報グループの情報群と一致するまで繰り返すことにより同一情報グループから代表情報群を選択する代表情報群選択手段を備えることを特徴とする代表情報群選択システム。 - 前記代表情報群選択手段は、
既に選択された代表情報群と前記代表情報群との類似度が所定の類似度閾値以上となる情報群とを、同一情報グループの情報群から除いた残りの情報群の最も多くと類似度が前記所定の類似度閾値以上になる情報を、代表情報として選択する処理を、前記残りの情報群がなくなるまで繰り返し、代表情報を選択する
ように構成されていることを特徴とした請求項23に記載の代表情報群選択システム。 - 前記代表情報群選択手段は、
情報対の類似度に応じて設定された重みのデータを参照して、既に選択された代表情報群と前記代表情報群との類似度が所定の類似度閾値以上となる情報群とを、同一情報グループの情報群から除いた残りの情報群との重みの総和が最も大きい情報を、代表情報として選択する処理を、前記残りの情報群がなくなるまで繰り返し、代表情報を選択する
ように構成されていることを特徴とした請求項23に記載の代表情報群選択システム。 - 前記情報が文書であることを特徴とする請求項23から請求項25のいずれかに記載の代表情報選択システム。
- 与えられた情報間で実質的に同一の情報群がグルーピングされた同一情報グループから代表情報群を選択するためのプログラムであって、
同一情報グループに属する所定の類似度以上の情報対のデータを参照して、所定の類似度以上の関係となる情報に関する総和値を算出し、算出した総和値が多い順に代表情報を選択する処理を、代表情報群と、前記代表情報群との類似度が所定の類似度閾値以上になる情報群とを合わせた情報群が、同一情報グループの情報群と一致するまで繰り返すことにより同一情報グループから代表情報群を選択する処理
を情報処理装置に実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006249430A JP4844737B2 (ja) | 2006-09-14 | 2006-09-14 | 代表情報選択方法、代表情報選択システム及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006249430A JP4844737B2 (ja) | 2006-09-14 | 2006-09-14 | 代表情報選択方法、代表情報選択システム及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008071136A JP2008071136A (ja) | 2008-03-27 |
JP4844737B2 true JP4844737B2 (ja) | 2011-12-28 |
Family
ID=39292662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006249430A Expired - Fee Related JP4844737B2 (ja) | 2006-09-14 | 2006-09-14 | 代表情報選択方法、代表情報選択システム及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4844737B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5188372B2 (ja) * | 2008-11-26 | 2013-04-24 | 株式会社デンソーアイティーラボラトリ | 情報提示装置、方法およびプログラム |
JP5273735B2 (ja) * | 2009-10-13 | 2013-08-28 | 日本電信電話株式会社 | テキスト要約方法、その装置およびプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3850014B2 (ja) * | 2000-06-21 | 2006-11-29 | 日本電信電話株式会社 | 個人向け情報収集サーバ、個人向け情報収集方法および記録媒体 |
-
2006
- 2006-09-14 JP JP2006249430A patent/JP4844737B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008071136A (ja) | 2008-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5605583B2 (ja) | 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム | |
Hong et al. | Improving the estimation of word importance for news multi-document summarization | |
CN104462085B (zh) | 检索关键词纠错方法及装置 | |
AU2015203818B2 (en) | Providing contextual information associated with a source document using information from external reference documents | |
WO2010119615A1 (ja) | 学習データ生成装置、及び固有表現抽出システム | |
US20120310630A1 (en) | Tokenization platform | |
CN109657053A (zh) | 多文本摘要生成方法、装置、服务器及存储介质 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN109791570B (zh) | 高效且精确的命名实体识别方法和装置 | |
CN111325030A (zh) | 文本标签构建方法、装置、计算机设备和存储介质 | |
CN109800427B (zh) | 一种分词方法、装置、终端及计算机可读存储介质 | |
KR101379128B1 (ko) | 사전 생성 장치, 사전 생성 방법 및 사전 생성 프로그램을 기억하는 컴퓨터 판독 가능 기록 매체 | |
JP6470249B2 (ja) | データクレンジングシステム、データクレンジング方法及びデータクレンジングプログラム | |
CN114037007A (zh) | 数据集的构建方法、装置、计算机设备及存储介质 | |
JP4844737B2 (ja) | 代表情報選択方法、代表情報選択システム及びプログラム | |
CN113591476A (zh) | 一种基于机器学习的数据标签推荐方法 | |
CN110019659B (zh) | 裁判文书的检索方法及装置 | |
CN109727591B (zh) | 一种语音搜索的方法及装置 | |
JP2007200252A (ja) | 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体 | |
CN109947947B (zh) | 一种文本分类方法、装置及计算机可读存储介质 | |
CN113010642A (zh) | 语义关系的识别方法、装置、电子设备及可读存储介质 | |
CN115310564B (zh) | 一种分类标签更新方法及系统 | |
JP5533197B2 (ja) | 検索装置、ならびに、コンピュータプログラム | |
JP5601123B2 (ja) | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム | |
CN114116953A (zh) | 基于词向量的高效率语义拓展检索方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090812 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110609 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110622 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110819 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110914 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110927 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141021 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |