JP4844737B2 - 代表情報選択方法、代表情報選択システム及びプログラム - Google Patents

代表情報選択方法、代表情報選択システム及びプログラム Download PDF

Info

Publication number
JP4844737B2
JP4844737B2 JP2006249430A JP2006249430A JP4844737B2 JP 4844737 B2 JP4844737 B2 JP 4844737B2 JP 2006249430 A JP2006249430 A JP 2006249430A JP 2006249430 A JP2006249430 A JP 2006249430A JP 4844737 B2 JP4844737 B2 JP 4844737B2
Authority
JP
Japan
Prior art keywords
information
document
group
representative
same
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006249430A
Other languages
English (en)
Other versions
JP2008071136A (ja
Inventor
健二 立石
大 久寿居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2006249430A priority Critical patent/JP4844737B2/ja
Publication of JP2008071136A publication Critical patent/JP2008071136A/ja
Application granted granted Critical
Publication of JP4844737B2 publication Critical patent/JP4844737B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、与えられた情報間で実質的に同一の情報群から、それを代表する代表情報を選択する技術に関し、特に、代表度の閾値の設定/調整を必要とせずに、情報群の内容全体を要約する適切な数の代表情報を選択できる代表情報選択方法、代表情報選択システム及びプログラムに関する。
文書、画像等の情報の同一性又は類似度を判断する技術は数多く提案されており、その中でも、文書の同一性を判断する同一文書照合の技術が有名である。同一文書照合とは、文書間で実質的に同一の文書群をグルーピングすることを言う。実質的に同一であるとは、表記上は異なるが人が見れば同一と判断できることをいう。
(1) データベース(以下、DBと称する)の重複レコード照合
DBの重複レコード照合は、DB内の実質的に同じレコードをグルーピングすることをいい、例えば、異なる人/場所/方法によって管理された表記のゆれを含む顧客DBを統合する際のデータクリーニングやコンタクトセンターの問い合わせ事例の重複削除に必要となる。1レコードを1文書とみなすことで同一文書照合の問題とみなすことができる。
(2) トピック分析
トピック分析は、Blogなどの書き込みデータをグルーピングすることをいい、Blogで同じトピックが、いつ/どのあたりで話題になっているかを把握するために必要となる。
同一文書照合システムは、対象となる文書集合と、実質的に同一とみなす条件である類似度閾値を入力として、同一文書グループを出力する。例えば、図1の(a)のような5つの文書と、類似度閾値として90%が入力された場合で説明する。ここでは、全ての文書はそれぞれ10個のアルファベットの文字から構成されており、また、文書xと文書yの類似度が90%であるとは、xとyの10個の文字のうち9個が共通することを意味する。この時システムは、図1の(b)のように、まず類似度が90%以上となる2つの異なる文書の対を求め、その後、共通する文書を含む文書対を統合した図1の(c)を同一文書グループとする。
同一文書照合では、ぞれぞれの同一文書グループの代表文書を選択する。代表文書とは、その同一文書グループの全体の内容を最も適切に要約する文書を意味する。代表文書は、(1)のDBの重複レコード照合では、重複レコードの中で代表として残すレコードの候補として活用できる。また、(2)のトピック分析では、各トピック(同一文書グループ)の概要把握のために活用できる。
同一文書照合の際に各同一文書グループから代表文書を選択する方法として、従来は同一文書グループに所属する個々の文書の代表度を計算し、代表度が最大の文書を代表文書としていた。例えば、特許文献1の代表度算出部258では、各同一文書グループ(クラスタ)の個々の文書について、文書に含まれる単語の重みの総和を代表度として求め、その代表度が最大の文書を代表文書として選択する。特許文献2の代表文選択部16では、各同一文書グループに所属する最も類似度が高い文書対の内で、文書に含まれる単語の重みの総和が大きい一方を代表文書として選択する。単語の重みは、その単語が出現する文書数で定義されている。
特開2003−30224号公報 特開2003−263443号公報
このような従来の技術の課題は、選択された代表文書が同一文書グループの内容の全体を必ずしも要約しないことである。図2は同一文書グループの一例を示す。それぞれの円(D1からD14)は、同一文書グループに所属する文書を表し、類似度が閾値以上の文書対には実線を引いている。特許文献1や特許文献2の方法は、各文書に含まれる単語の種類によってD1からD14のいずれも代表文書として選択される可能性がある。しかし、仮にD1が選択された場合、D1と類似度が閾値以上の文書はD3のみなので、その他の文書はD1とは内容が異なり、D1がグループの内容全体を要約しないことになる。
また、従来の技術の他の課題は、各同一文書グループから複数の代表文書を選択するためには、代表度の閾値を設定/調整する必要があることである。図2の例から分かるように、同一文書グループは全ての文書間の類似度が閾値以上になるとは限らないので、複数の代表文書によってグループの内容全体を要約することがある。しかし、特許文献1や特許文献2の方法を用いて代表文書を複数選択するためには、代表度の閾値を設定/調整する必要がある。全てのグループで適切な数の代表文書を選択するような閾値を設定するのは困難である。
そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、代表度の閾値の設定/調整を必要とせずに、実質的に同一とみなされる情報群から、その内容を要約するに適切な数の代表情報を選択することができる代表情報選択方法、代表情報選択システム及びプログラムを提供することにある。
また、本発明の目的は、代表度の閾値の設定/調整を必要とせずに、実質的に同一とみなされる同一文書グループの内容全体を要約するに適切な数の代表文書を選択することができる同一文書照合システム及びプログラムを提供することにある。
上記課題を解決する本発明は、情報の集合である同一情報グループから、前記同一情報グループを代表する代表情報を選択する代表情報選択方法であって、前記集合に含まれる全ての情報は、該集合に含まれる他の情報と所定の類似度以上の関係を持ってつながっており、情報処理装置が、同一情報グループに属する所定の類似度以上の情報対のデータを参照して、所定の類似度以上の関係となる情報に関する総和値を算出し、算出した総和値が多い順に代表情報を選択する処理を、前記代表情報と、前記代表情報と所定類似度以上の関係となる情報とを前記同一情報グループから除いたときに空となるまで繰り返すことを特徴とする。
上記課題を解決する本発明は、情報の集合である同一情報グループから、前記同一情報グループを代表する代表情報を選択する代表情報選択システムであって、前記集合に含まれる全ての情報は、該集合に含まれる他の情報と所定の類似度以上の関係を持ってつながっており、同一情報グループに属する所定の類似度以上の情報対のデータを参照して、所定の類似度以上の関係となる情報に関する総和値を算出し、算出した総和値が多い順に代表情報を選択する処理を、前記選択した代表情報と、前記代表情報と所定類似度以上の関係となる情報を前記同一情報グループから除いたときに空となるまで繰り返す代表情報選択手段を有することを特徴とする。
上記課題を解決する本発明は、同一文書照合システムであって、所定の類似度以上となる文書の対の関係を示す文書対が格納された同一文書グループ記憶手段と、前記同一文書グループ記憶手段に格納された文書対に従って、所定の類似度以上の関係となる文書に関する総和値を算出し、算出した総和値が多い順に代表文書を選択する処理を、前記代表文書と、前記代表文書と所定類似度以上の関係となる文書とを前記同一文書グループ記憶手段から除いたときに空となるまで繰り返す代表文書選択手段とを有することを特徴とする。
上記課題を解決する本発明は、情報の集合である同一情報グループから、前記同一情報グループを代表する代表情報を選択するための代表情報選択プログラムであって、前記集合に含まれる全ての情報は、該集合に含まれる他の情報と所定の類似度以上の関係を持ってつながっており、同一情報グループに属する所定の類似度以上の情報対のデータを参照して、所定の類似度以上の関係となる情報に関する総和値を算出し、算出した総和値が多い順に代表情報を選択する処理を、前記代表情報と、前記代表情報と所定類似度以上の関係となる情報とを前記同一情報グループから除いたときに空となるまで繰り返す処理を情報処理装置に実行させることを特徴とする。
上記課題を解決する本発明は、同一文書照合のプログラムであって、同一文書グループとして記憶領域に格納された所定の類似度以上となる文書の対の関係を示す文書対に従って、所定の類似度以上の関係となる文書に関する総和値を算出し、算出した総和値が多い順に代表文書を選択する処理を、前記代表文書と、前記代表文書と所定類似度以上の関係となる文書とを前記同一文書グループから除いたときに空となるまで繰り返す処理を情報処理装置に実行させることを特徴とする。
上記課題を解決する本発明は、与えられた情報間で実質的に同一の情報群がグルーピングされた同一情報グループから代表情報群を選択する代表情報群選択方法であって、情報処理装置が、同一情報グループに属する所定の類似度以上の情報対のデータを参照して、所定の類似度以上の関係となる情報に関する総和値を算出し、算出した総和値が多い順に代表情報を選択する処理を、代表情報群と前記代表情報群との類似度が所定の類似度閾値以上になる情報群とを合わせた情報群が、同一情報グループの情報群と一致するまで繰り返すことにより同一情報グループから代表情報群を選択することを特徴とする。
上記課題を解決する本発明は、与えられた情報間で実質的に同一の情報群がグルーピングされた同一情報グループから代表情報群を選択する代表情報群選択システムであって、
同一情報グループに属する所定の類似度以上の情報対のデータを参照して、所定の類似度以上の関係となる情報に関する総和値を算出し、算出した総和値が多い順に代表情報を選択する処理を、代表情報群と前記代表情報群との類似度が所定の類似度閾値以上になる情報群とを合わせた情報群が、同一情報グループの情報群と一致するまで繰り返すことにより同一情報グループから代表情報群を選択する代表情報群選択手段を備えることを特徴とする。
上記課題を解決する本発明は、与えられた情報間で実質的に同一の情報群がグルーピングされた同一情報グループから代表情報群を選択するためのプログラムであって、同一情報グループに属する所定の類似度以上の情報対のデータを参照して、所定の類似度以上の関係となる情報に関する総和値を算出し、算出した総和値が多い順に代表情報を選択する処理を、代表情報群と前記代表情報群との類似度が所定の類似度閾値以上になる情報群とを合わせた情報群が、同一情報グループの情報群と一致するまで繰り返すことにより同一情報グループから代表情報群を選択する処理を情報処理装置に実行させることを特徴とする。
本発明の効果は、代表度の閾値の設定/調整を必要とせずに、各同一情報グループの内容全体を要約する適切な数の代表情報を選択することが可能なことである。選択された代表情報群が同一文書グループの内容全体を要約することができる理由は、同一情報グループの情報群は、代表情報群のいずれかとの類似度が必ず類似度閾値以上になるからである。また、代表度の閾値の設定/調整を必要とせずに同一文書グループの代表情報を選択することができる理由は、類似度が閾値以上となる情報対のみを与えれば自動的に代表文書が決定されるからである。
まず、本発明の概要を説明する。尚、以下の説明にあたって、文書を情報の例として説明するが、これに限られない。例えば、情報の例としては画像、音等でも良い。
本発明では、少なくとも一つ以上の情報と所定の類似度以上となり、所定の類似度以上の情報を介して他の情報とも類似とみなされる情報の集合である同一情報グループから、同一情報グループを代表する代表情報を選択する際、代表情報を除く各情報が少なくとも一つ以上の代表情報と所定類似度以上の関係となるように代表情報を選択することを特徴とする。
例えば、図2では文書を情報の例として説明しており、文書D1から文書D14がひとつの同一文書グループを構成している。各文書D1−D14は、少なくとも一つ以上の文書と所定の類似度以上である。以下、所定の類似度以上にある文書の組を文書対と称する。また、ひとつの文書は、文書対となる文書を介して他の文書と類似の関係にあると推定される。但し、文書対となる文書を介して類似の関係にあると推定される文書は、かならずしも所定の類似度以上になるとは限らない。例えば、文書D1は文書D3と文書対の関係にあり、文書D1と文書D3との類似度は所定の類似度(以下、類似度閾値と称する)以上である。しかし、文書D3と文書対の関係にある文書D4と文書D1との類似度は類似度閾値以上であるとは限らない。
このような同一文書グループから、同一文書グループを代表する代表文書を選択する際、代表文書を除く各文書が少なくとも一つ以上の代表文書と類似度閾値以上の関係となるように、すなわち、文書対の関係となるように代表文書を選択する。
これは、代表文書群と、この代表文書群との類似度が類似度閾値以上になる文書群とを合わせた文書群が、同一文書グループの文書群と一致することも意味する。
具体的には、図3のように文書D3、文書D5、文書D10の3つの文書を代表文書として選択すれば、文書D1と文書D2とは代表文書D3と類似度閾値以上の関係にあり、文書D4は代表文書D3、D5と類似度閾値以上の関係にあり、文書D6と文書D7と文書8と文書D9とは代表文書D5と類似度閾値以上の関係にあり、文書D11と文書D12と文書13と文書D14とは代表文書D10と類似度閾値以上の関係にあり、代表文書を除く各文書が少なくとも一つ以上の代表文書と類似度閾値以上の関係となる。
また、代表文書群(文書D3、文書D5、文書D10)と、この代表文書群と類似度閾値以上の関係にある文書群(文書D1、文書D2、文書D4、文書D6、文書D7、文書8、文書D9、文書D11、文書D12、文書13、文書D14)とを合わせた文書群(文書D1から文書D14)が、同一文書グループの文書群(文書D1から文書D14)とも一致している。
このようにするとこにより、同一文書グループの文書群は、代表文書群のいずれかとの類似度が必ず類似度閾値以上になるので、選択された代表文書群は同一文書グループの内容全体を要約することができる。
また、類似度が閾値以上となる情報対のみを与えれば自動的に代表文書が決定されので、代表度の閾値の設定/調整を必要とせずに同一文書グループの代表文書を選択することができる。
ここで、代表文書の選択の順序であるが、類似度閾値以上の関係となる文書が多い順に、すなわち、多くの文書と文書対となっている文書から代表文書を選択し、選択された代表文書を除く各文書が少なくとも一つ以上の代表文書と文書対の関係となるまで代表文書の選択を行う方法が考えられる。すなわち、既に選択された代表文書群と前記代表文書群との類似度が所定の類似度閾値以上となる文書群とを、同一文書グループの文書群から除いた残りの文書群の最も多くと類似度が前記所定の類似度閾値以上になる情報を、代表文書として選択し、残りの文書群がなくなるまで繰り返し、代表文書を選択するのである。
図3の例では、文書D5は、文書D3、文書D4、文書D6、文書D7、文書D8、文書D9、文書D10の7個の文書と文書対の関係にあり、最も多くの文書と文書対の関係にあるので、文書D5を第1の代表文書として選択する。第1の代表文書として文書D5を選択した時点では、代表文書D5と文書対の関係となっていない文書D1、文書D2、文書D11、文書D12、文書D13、文書D14が存在する。すなわち、同一グループ文書の文書群から、代表文書群(文書D5)と、この代表文書群(文書D5)と所定の類似度閾値以上の文書群(文書D3、文書D4、文書D6、文書D7、文書D8、文書D9、文書D10)とを引いた残りの文書群(文書D1、文書D2、文書D11、文書D12、文書D13、文書D14)が存在する。そこで、代表文書の選択を続ける。
文書D10は、代表文書D5と文書対の関係となっていない文書D1、文書D2、文書D11、文書D12、文書D13、文書D14のうち、文書D11、文書D12、文書D13、文書D14の4個の文書と文書対の関係にあり、文書D5の次に多くの文書と文書対の関係にあるので、文書D10を第2の代表文書として選択する。第1、第2の代表文書として文書D5、文書D10を選択した時点では、代表文書D5と文書D10とのいずれかの代表文書とも文書対の関係となっていない文書D1、文書D2が存在する。すなわち、同一グループ文書の文書群から、代表文書群(文書D5、文書D10)と、この代表文書群(文書D5、文書D10)と所定の類似度閾値以上の文書群(文書D3、文書D4、文書D6、文書D7、文書D8、文書D9、文書D10、文書D11、文書D12、文書D13、文書D14)とを引いた残りの文書群(文書D1、文書D2)が存在する。そこで、代表文書の選択を続ける。そこで、代表文書の選択を続ける。
文書D3は、代表文書D5と文書D10とのいずれかの代表文書とも文書対の関係となっていない文書D1、文書D2と文書対の関係にあり、文書D5、D10の次に多くの文書と文書対の関係にあるので、文書D3を第3の代表文書として選択する。第1、第2、第3の代表文書として文書D5、文書D10、文書D3を選択した時点では、代表文書を除く各文書が、代表文書D5と代表文書D10と代表文書D3との少なくともいずれかの代表文書と文書対の関係となっている。すなわち、同一グループ文書の文書群から、代表文書群(文書D5、文書D10、文書D3)と、この代表文書群(文書D5、文書D10、文書D3)と所定の類似度閾値以上の文書群(文書D1、文書D2、文書D3、文書D4、文書D6、文書D7、文書D8、文書D9、文書D10、文書D11、文書D12、文書D13、文書D14)とを引くと、文書群は存在しない。そこで、代表文書の選択を終了し、この文書グループの代表文書として、文書D5、文書D10、文書D3を選択する。
このように、多くの文書と文書対にある文書を代表文書として選択していくので、同一文書グループの内容をより適切に表現できる代表文書を選択できる。
尚、代表文書を選択する方法として、文書対に重みがある場合、この重みを考慮するようにしても良い。例えば、ある文書対では重みが10、他の文書対では重みが1のように各文書対に重みがある場合、文書対に重みの総和が最も大きい文書順に、代表文書を選択するようにしても良い。
以下、本発明の実施の形態を詳細に説明する。
本発明の第1の実施の形態を説明する。
図5を参照すると、本発明の第1の実施の形態は、プログラム制御により動作するデータ処理装置1と、同一文書グループ記憶部5と、代表文書記憶部6から構成されている。
同一文書グループ記憶部5は、同一文書グループと文書との対応関係と、類似度閾値以上となる文書対を格納している。代表文書記憶部6は、同一文書グループと代表文書と代表度の対応関係を格納している。データ処理装置1は、代表文書選択手段13を含む。
代表文書選択手段13は、同一文書グループから、代表文書を除く各文書が少なくとも一つ以上の代表文書と類似度閾値以上の関係となるように、すなわち、文書対の関係となるように代表文書を選択する。これは、代表文書群とそれらとの類似度が類似度閾値以上になる文書群を合わせた文書群が、同一文書グループの文書群と一致するように代表文書群を選択するともいえる。
次に、図6を参照して第1の実施の形態の動作について詳細に説明する。
代表文書選択手段13は、代表文書を除く各文書が少なくとも一つ以上の代表文書と類似度閾値以上の関係となるように、すなわち、文書対の関係となるように代表文書を選択する(図6のステップS4)。
ここで、図7を参照して、代表文書選択手段13の動作の詳細を説明する。
まず、同一文書グループ記憶部に格納された同一文書グループをグループi(1<=i<=n)として、グループi=1を選択する(図7のステップS41)。図8に同一文書グループ記憶部の例を示す。図8の(a)には2つの同一文書グループ(ID1,ID2)とそれぞれに所属する文書IDの対応関係が格納されている。同一文書グループに所属する文書は、必ずその中のいずれかの文書(すべててある必要はない)との類似度が閾値以上になる。図8の(b)には類似度が類似度閾値以上となる文書対が格納されている。
次に、代表文書を除く各文書が少なくとも一つ以上の代表文書と類似度閾値以上の関係となるようにグループiの代表文書群を選択する(図7のステップS42)。図9に代表文書記憶部の格納例を示す。例えば、同一文書グループ記憶部のグループID1の代表文書は、第1の代表文書がID3、第2の代表文書がID5、第3の代表文書がID10であることを示している。
次に、i>=nである場合かを判断し(図7のステップS43)し、i>=nである場合は処理を終了する。i<nの場合は、グループi=グループ{i+1}(図7のステップS44)としてステップS42に戻る。
ここで、グループi=1である場合を例として、ステップS42の動作の詳細を、図10を用いて説明する。
まず、未選択代表文書バッファ、未選択文書バッファに同一文書グループ記憶部に格納されたグループiに所属する文書IDを格納し、代表文書番号=1とする。(図10のステップS421)。図8の同一文書グループ記憶部からグループ1に関する文書ID1−ID14を未選択代表文書バッファ、未選択文書バッファに格納した例を図11に示す。
次に、未選択代表文書バッファのそれぞれの文書の中で、未選択文書バッファの文書との類似度が閾値以上となる文書対の数が最大の文書を代表文書番号=iとして選択し、代表文書記憶部6に格納する(図10のステップS422)。図8の同一文書グループ記憶部のグループ1に関する文書群をグラフ表示したものを図12に示す。円は文書、実線は類似度が閾値以上となる文書対を示す。この時、類似度閾値以上となる文書対の数が7個と最大の文書である大きな円で囲んだD5が代表文書番号=1となる。
次に、ステップS422で選択した代表文書を未選択代表文書バッファから削除し、さらにステップS422で選択した代表文書とそれとの類似度が閾値以上の文書を未選択文書バッファから削除する(図10のステップS423)。図12の例では、代表文書番号=1としてD5が選択されたので、D5を未選択代表文書バッファから削除し、さらに、D5および、D5と類似度が閾値以上となるD3,D4,D6,D7,D8,D9,D10を未選択文書バッファから削除する。その結果を図13に示す。
次に、未選択文書バッファに文書が残っているかを判断し(図10のステップS424)、残っていない場合は処理を修了する。残っている場合は、代表文書番号=i+1としてステップS422に戻る。図13の未選択文書バッファは空ではないので、ステップS422に戻る。
次に、ステップS422で代表文書番号=2の代表文書を再度選択し、代表文書記憶部6に格納する。図8の同一文書グループ記憶部のグループ1に関する文書群と図13のバッファの状態をグラフ表示したものを図14に示す。大きい円は選択済みの代表文書(未選択代表文書バッファから取り除かれた文書)、色つきの円は選択済みの文書(未選択文書バッファから取り除かれた文書)を示す。この時、代表文書番号=2として選ばれるのは、図15のように最も多くの未選択の文書D11,D13,D14,D12と類似度が閾値以上となるD10となる。
次に、ステップS423では、代表文書番号=2としてD10が選ばれたので、未選択代表文書バッファからD10が削除され、さらに、D10(すでに削除されているが)および、D10と類似度が類似度閾値以上のD11,D13,D14,D12を未選択文書バッファから削除する。その結果を図16に示す。
次に、未選択文書バッファは空ではないので、ステップS422で代表文書番号=3の代表文書を再度選択し、代表文書記憶部6に格納する。図16のバッファの状態をグラフ表示したものを図17に示す。この時、代表文書番号=3として選ばれるのは、図18のように最も多くの未選択の文書D1,D2と類似度が類似度閾値以上となるD3となる。
ステップS423では、代表文書番号=3としてD3が選ばれたので、未選択代表文書バッファからD3が削除し、さらに、D3(すでに削除されているが)および、D3と類似度が閾値以上となるD1,D2を未選択文書バッファから削除する。その結果を図19に示す。
ステップS424では、未選択代表文書バッファは空なので処理を終了する。
最終的には、代表文書記憶部6は、図9のように格納される。
以上、代表文書選択手段13の動作を説明したが、ステップS422において、未選択代表文書バッファのそれぞれの文書の中で、未選択文書バッファの文書との類似度が閾値以上となる文書対の「重みの総和」が最大の文書を代表文書番号=iとして選択するようにしても良い。この場合、文書対の重みは、同一文書グループ記憶部にあらかじめ登録しておく。図40にその例を示す。この場合、上述した例では、代表文書番号=1の代表文書はD5であるが、図41に示すように、その重みの総和は、2+1+1+1+1+2+2=10である。一方、D10の重みの総和は、1+1+3+1+5=11となり最大となるので、代表文書番号=1の代表文書は、D10となる。
尚、文書対の重みを全て1に設定すると最初のステップS422の動作と同じになる。文書対の重みは、例えば、文書対の類似度が大きいほど大きな値を設定する。
本発明の効果は、代表度の閾値の設定/調整を必要とせずに、各同一文書グループの内容全体を要約する適切な数の代表文書を選択することが可能なことである。選択された代表文書群が同一文書グループの内容全体を要約することができる理由は、同一文書グループの文書群は、代表文書群のいずれかとの類似度が必ず閾値以上になるからである。
また、代表度の閾値の設定/調整を必要とせずに同一文書グループの代表文書を選択することができる理由は、類似度が閾値以上となる情報対のみを与えれば自動的に代表文書が決定されるからである。
第2の実施の形態を説明する。
第1の実施の形態では、同一文書グループ記憶部5に同一文書グループと文書との対応関係と、類似度閾値以上となる文書対とが既に格納されているものとして説明した。第2の実施の形態は、上述した第1の実施の形態の構成に加えて、同一文書グループ記憶部5に同一文書グループと文書との対応関係と、類似度閾値以上となる文書対とを格納するまでの構成を追加したことを特徴とする。
第2の実施の形態の構成の特徴は、類似度の計算対象となる文書群で共通して適用される、文書を構成する文書要素の優先順位を決定し、文書対が少なくとも所定の類似度以上となるために、文書間で文書要素が共通する割合を求め、この割合に基づく、各文書の文書要素の選択数を決定し、前記優先順位に従って、前記各文書から前記選択数の文書要素を選択し、選択した文書要素が文書間で全て共通しない文書対以外の文書対に対して、類似度の計算を行い、計算の結果、所定の類似度以上となる文書対を同一情報グループとすることを特徴とする。尚、文書要素とは、単語群や文字群である。
以下、図4を用いて、第2の実施の形態の特徴の概要を説明する。
尚、以下の説明にあたって、情報の例として文書を、情報要素の例として文字を例にして説明するが、これに限られない。例えば、情報の例としては画像、音等でも良く、それを構成する情報要素としては、画像中の特定の絵柄や、特定の音等が考えられる。
また、以下の説明にあたって、図4に示される文書1から文書5に対して、与えられた類似度閾値90%であり、類似度が90%以上にならない文書の組(以下、文書対と称する)を検索する場合を説明する。
まず、5つの文書で共通する文字の優先順位を決める。例えば、図4の(d)のように文書群全体で出現文書数が少ない文字ほど、優先順位が高くなるように定める。尚、出現文書数が同じ場合はアルファベット順で若い文字を優先順位が高くなるように定められているものとする。
次に、文書対が少なくとも類似度90%以上となるために、文書間で文字が共通する割合を求め、この割合に基づいて、1文書から選択する文字数を決定する。
類似度90%以上となるためには文書対の文書間で文字が90%以上共通すれば良い。これは、文書対の文書間で少なくとも9個の文字が共通しなければ、類似度90%以上にはならないといことである。
別の言い方をすると、文書xから選んだ2つの文字のどちらも文書yに含まれなければ、文書xと文書yとは共通する単語が8個以下ということになり、類似度は90%未満となるということになり、文書xと文書yとの類似度が90%以上であるという前提と矛盾する。これは、文書yと文書xを置き換えた場合でも同様である。従って、1文書から選択する文字数は2個である。尚、本例では、文書1から文書5が10文字で構成されているため、いずれの文書も選択する文字数が2個であるが、例えば、一文書が5文字で構成されている場合には、選択する文字数は1個である。
続いて、各文書から優先順位に基づいて2個の文字を選択する。図4(a)の例では、文書1で選択する文字はAとIであり、文書2で選択する文字はKとLであり、文書3で選択する文字はIとLであり、文書4で選択する文字はKとLであり、文書5で選択する文字はAとMである。
そして、選択した文字が文書間で全て共通しない文書対を検索する。図4(a)の例では、文書1と文書2との文書対では共通する文字がなく、文書1と文書3との文書対ではIが共通し、文書1と文書4との文書対では共通する文字がなく、文書1と文書5との文書対ではAが共通する。また、文書2と文書3との文書対ではLが共通し、文書2と文書4との文書対ではKとLとが共通し、文書2と文書5との文書対では共通する文字がない。また、文書3と文書4との文書対ではLが共通し、文書3と文書5との文書対では共通する文字がない。また、文書4と文書5との文書対では共通する文字がない。従って、共通する文字がない文書対は、文書1と文書2との文書対と、文書1と文書4との文書対と、文書2と文書5との文書対と、文書3と文書5との文書対と、文書4と文書5との文書対との5個である。これらの5個の文書対は、類似度が90%以上にはならない文書対である。
このようになる理由は、文書xと文書yとの類似度が90%以上であるならば、さらに、選ぶ文字の優先順位が全ての文書間で一意に定められているならば、文書x(文書y)から優先順位に従い選んだ2つの文字のいずれかは、文書y(文書x)から選んだ2つの文字のいずれかに含まれるからである。
文書xから選んだ2つの文字{x1,x2}のいずれかもしくは両方が文書yに含まれるが、それが文書yから選んだ2つの文字{y1,y2}には含まれないとすると、文書yにおける文字の優先度は{y1,y2}>{x1,x2}となる。この時、{x1,x2}∩{y1,y2}=φになるため、同時に、文書yから選んだ2つの文字{y1,y2}のいずれかもしくは両方が文書xに含まれるが、それが文書xから選んだ2つの文字{x1,x2}には含まれないことになる。この時、文書xにおける文字の優先度は{x1,x2}>{y1,y2}となる。これは、文書xと文書yとで選択する文字の優先順位が異なることになり、選ぶ文字の優先順位が全ての文書間で一意に定められていることに矛盾する。文書yと文書xを置き換えた場合でも同様である。
このように、類似度閾値以上にはならない文書対を検索することができる。
更に、類似度閾値以上にはならない文書対を検索することにより、所定の類似度以上となる文書対の類似度を求めるシステムにおいても、類似度の計算回数を減らすことができる。例えば、図4の例のように、90%以上の類似度となる文書対の類似度を求める場合、90%以上の類似度とはならない文書対を類似度計算の対象から外すことにより、類似度の計算回数を減らすことができる。図4の(a)の例では、従来の類似度計算においては、類似度計算を(5×4)/(2×1)=10回行わなければならない。しかし、文書1と文書2との文書対と、文書1と文書4との文書対と、文書2と文書5との文書対と、文書3と文書5との文書対と、文書4と文書5との文書対との5個の文書対は、90%以上の類似度とはならない文書対であるため、類似度計算の対象から外すと、類似度計算の回数は、10−5=5回となる。
次に、上記の説明をより一般化する。
1.文書を単語の集合と考える場合
記号の定義
データベースに含まれる文書集合: D = {di| 0<=i<=|D|}、
データベースに含まれる単語集合: T = {tl| 0<=l<=|T|}、
diに含まれる単語の異なり数: |di|、
diに含まれる単語集合: di = {tl| 0<=l<=|di|}、
tlの優先順位: Pr(tl)、
tlの重要度: w(tl) # Pr(tl)はw(tl)の大きさから求めても良い
diとdjの類似度: sim(di,dj)、
類似度閾値: ST
と定義する。
定理1-1:
sdiを
sdi⊆di { sdi∩∀dk[sim(di,dk) >= ST]≠φ ∧ Pr(∀tl∈sdi) > Pr(∀tl∈-sdi) }
(-sdiはsdiの補集合)
により定義する。
この時、PrがDで一意に定まり、sdi, sdjが定まれば、
sim(di, dj) >= STのとき、
sdi∩sdj≠φが成立する。
証明:
まず、sdi,sdjの定義により、
sim(di, dj) >= STのとき、
sdi∩dj≠φ
sdj∩di≠φ
が成立する。
ここで、
sdi∩dj≠φ ∧ sdi∩sdj=φ
と仮定すると、
djにおける単語の重要度は、
Pr(∀tl∈sdj) > Pr(∀tl∈sdi)となる。
この時、sdi∩sdj=φであるから
sdj∩di≠φ ∧ sdj∩sdi=φ
が同時に成立する。
そのため、
diにおける単語の重要度は、Pr(∀tl∈sdi) > Pr(∀tl∈sdj)になる。
これは、PrがDで一意に定まることと矛盾する。
iとjを置き換えた場合でも同様である。
したがって、定理1-1は成立する。
次に、
sim(∀di∈D, ∀dj∈D)を求める前にsdiを求めることができることを示す。
定理1-2:
sim(di, dj) =
(Σtl∈di∩dj w(tl)^2) / ((√Σtl∈di w(tl)^2) * √(Σtl∈dj w(tl)^2))
で定義されるcosine類似度を用いる場合、
sdi∈di { (Σtl∈sdl w(tl)^2) / (Σtl∈di w(tl)^2) > 1- ST^2 ∧ Pr(∀tl∈sdi) > Pr(∀tl∈-sdi) }
で定義されるならば、
sdi∩∀dk[sim(di,dk) >= ST]≠φ ∧ Pr(∀tl∈sdi) > Pr(∀tl∈-sdi)
が成立する。
証明:
まず、
sim(di, dj) >= ST
ならば
(Σtl∈di∩dj w(ti)^2) / (Σtl∈di w(tl)^2) >= ST^2
が成立することを証明する。
(Σtl∈dj w(tl)^2) >= (Σtl∈di∩dj w(tl)^2)
であるから
ST
<= sim(di, dj) = (Σti∈di∩dj w(ti)^2) / ((√Σtl∈di w(tl)^2) * (√Σtl∈dj w(tl)^2))
<= (Σti∈dj w(ti)^2) /
((√Σtl∈di w(tl)^2) * (√Σtl∈dj w(tl)^2))
= (√Σtl∈di∩dj w(tl)^2) / (√Σtl∈di w(tl)^2)
したがって、
(Σtl∈di∩dj w(tl)^2) / (Σtl∈di w(tl)^2) >= ST^2

次に、
sdi∈di { (Σl=1..|sdi| w(tl)^2) / (Σtl∈di w(tl)^2) } > 1- ST^2
で定義されるならば、
sdi∩∃dk[sim(di, dk)>=ST]=φ
であると仮定する。
このとき、
sim(di,dk) >= ST
であるから、上記より、
(Σti∈di∩dk w(tl)^2) / (Σtl∈di w(tl)^2) >= ST^2
が成立し、
また、
(Σtl∈sdi w(tl)^2) / (Σtl∈di w(tl)^2) > 1- ST^2
であるから、であるから、2つを足して
((Σti∈di∩dk w(tl)^2) + (Σtl∈sdi w(tl)^2)) / (Σtl∈di w(tl)^2) > 1
((Σti∈di∩dk w(tl)^2) + (Σtl∈sdi w(tl)^2)) > (Σtl∈di w(tl)^2)
となる。
ここで、
sdi∩dk=φ
であるから、
(Σti∈(di∩dk)∪sdi w(tl)^2) > (Σtl∈di w(tl)^2)
となるが、
(di∩dk)∪sdi ⊆ di
であるから成立せず矛盾する。
したがって、
sdi = sdi∈di { (Σtl∈sdi w(tl)^2) / (Σtl∈di w(tl)^2) } > 1- ST^2
で定義されるならば、
sdi∩∀dk[sim(di,dk) >= ST]≠φ
が成立する。
上記は、sdiにどの単語から選んでいったとしても成立するので定理1-2は成立する。
2.文書を文字の集合と考える場合
記号の定義:
データベースに含まれる文書集合: D = {di| 0<=i<=|D|}
データベースに含まれる文字集合: T = {tl| 0<=l<=|T|}
diに含まれる文字の異なり数:|di|
diに含まれる文字集合: di = {tl| 0<=l<=|di|}
diにおけるtlの出現回数: fq(di,tl)
diに含まれる文字数: fq(di)
tlの優先順位: Pr(tl)
tlの重要度: w(tl) # Pr(tl)はw(tl)の大きさから求めても良い
diとdjの類似度: sim(di,dj)
類似度閾値: ST
定理2-1:
sdiを
sdi⊆di { sdi∩∀dk[sim(di,dk) >= ST]≠φ ∧ Pr(∀tl∈sdi) > Pr(∀tl∈-sdi) }
により定義する。
この時、
PrがDで一意に定まり、
sdi, sdjが定まれば、
sim(di, dj) >= STのとき
sdi∩sdj≠φ
が成立する。
証明:
定理1-1と同一の証明となる。
定理2-2:
sim(di, dj) =
(fq(di) + fq(dj) - edit_dis(di,dj)) / (fq(di) + fq(dj))
で定義される関数を用いる場合
sdi = sdi∈di { (Σl=1..|sdi|fq(di,tl)) / fq(di) > 1 - (ST / (2-ST)) ∧ Pr(∀tl∈sdi) > Pr(∀tl∈-sdi) }
で定義されるならば、
sdi∩∀dk[sim(di,dk) >= ST]≠φ ∧ Pr(∀tl∈sdi) > Pr(∀tl∈-sdi)
が成立する。
尚、edit_dis(di,dj)はdiとdjの編集距離を意味する。
diとdjの編集距離とは、diからdj又はdjからdiに変換するために必要となる最小の挿入又は削除の回数を意味し、距離が小さいほど2つの文書は似ていることを意味する。
証明:
まず、
sim(di, dj) >= ST
ならば
(Σtl∈di∩dj fq(di,tl)) / fq(di) >= ST / (2-ST)
が成立することを証明する。
edit_dis(di,dj) >= fq(di) + fq(dj) - 2 x (Σtl∈di∩dj min(fq(di,tl), fq(dj,tl)))
であるから、
ST <= sim(di,dj)
= (fq(di) + fq(dj) - edit_dis(di,dj)) / (fq(di) + fq(dj))
<= 2 x (Σtl∈di∩dj min(fq(di,tl), fq(dj,tl))) / (fq(di) + fq(dj))

また、
fq(dj) >= (Σtl∈di∩dj min(fq(di,tl), fq(dj,tl)))
であるから
ST <= 2 x (Σtl∈di∩dj min(fq(di,tl), fq(dj,tl))) / (fq(di) + (Σtl∈di∩dj min(fq(di,tl), fq(dj,tl))))

したがって、
(Σtl∈di∩dj min(fq(di,tl), fq(dj,tl))) / fq(di) >= ST / (2-ST)
ここで、
fq(di,tl) >= min(fq(di,tl), fq(dj,tl))
であるから
(Σtl∈di∩dj fq(di,tl)) / fq(di) >= ST / (2-ST)
次に、
sdi∈di { (Σtl∈sdi fq(di,tl)) / fq(di) } > 1 - (ST / (2-ST)) }
で定義されるならば、
sdi∩∃dk[sim(di, dk)>=ST]=φ
であると仮定する。
sim(di,dk) >= ST
であるから、上記より、
Σtl∈di∩dk fq(di,tl) / fq(di) >= ST / (2-ST)
が成立し、
また、
sdi∈di { (Σtl∈sdi fq(di,tl)) / fq(di) } > 1 - (ST / (2-ST)) }
であるから、
(Σtl∈di∩dk fq(di,tl)) / fq(di) + (Σtl∈sdi fq(di,tl)) / fq(di) > 1
(Σtl∈di∩dk fq(di,tl)) + (Σtl∈sdi fq(di,tl)) > fq(di)
となる。
ここで、
sdi∩dk=φ
であるから、
(Σtl∈(di∩dk)∪sdi fq(di,tl)) > fq(di)
となるが、
(di∩dk)∪sdi ⊆ di
であるから成立せず矛盾する。
したがって、
sdi = sdi∈di { (Σtl∈sdi fq(di,tl)) / fq(di) } > 1- (ST / (2-ST)) }
で定義されるならば、
sdi∩∀dk[sim(di,dk) >= ST]≠φ
が成立する。
上記は、sdiにどの文字から選んでいったとしても成立するので定理2-2は成立する。
このように、第2の実施の形態では、類似度計算の回数を減らして高速に同一文書グループを作成し、そして、この同一文書グループの内容を代表する代表文書を選択することを特徴とする。
以下、図20を用いてシステムの説明を行う。
図20を参照すると、本発明の第2の実施の形態は、プログラム制御により動作するデータ処理装置1と、情報を記憶する記憶装置2と、対象データベース3と、キーボード等の入力装置4と、同一文書グループ記憶部5と、代表文書記憶部6とを含む。
対象データベース3は、いわゆるデータベースであり、複数の文書が記憶されている。単一のデータベースであっても、複数のデータベースを仮想的にマージしたデータベースであってもよい。
入力装置4からは、同一文書照合システムの利用者が類似度閾値を入力する。2つの文書対の類似度がこの類似度閾値以上であれば同一文書とみなす。
データ処理装置1は、文書解析手段10と、同一文書候補グループ作成手段11と、同一文書グループ作成手段12と、代表文書選択手段13とを含む。
文書解析手段10は、対象データベース3に格納された各文書に含まれる単語群を抽出して単語群記憶部20に格納し、さらに、対象データベース3に出現する全ての単語に関するすべての文書で共通する優先順位を判定して優先順位記憶部21に格納する。
同一文書候補グループ作成手段11は、単語群記憶部20に格納された文書に含まれる単語群の中から、入力装置4から入力された類似度閾値以上の文書間で少なくとも一つが必ず共通するような種類の単語群を、優先順位記憶部21に格納された同一文書照合の対象となるすべての文書で共通する優先順位で選択した後、同一文書候補グループ記憶部22を参照して選択したそれぞれの単語をIDとした同一文書候補グループにその文書を追加する。
同一文書グループ作成手段12は、同一文書候補グループ記憶部22に格納された同一の同一文書候補グループに所属する文書対の類似度を単語群記憶部20を参照して計算して、入力装置4から入力された類似度閾値以上の文書対を同一文書グループとする、または、共通する文書を含む類似度閾値以上の文書対を統合した文書グループを同一文書グループとして判定し、その結果を対象データベース3に格納する。
代表文書選択手段13は、第1の実施の形態と同様である。
記憶装置2は、単語群記憶部20と、優先順位記憶部21と、同一文書候補グループ記憶部22とを含む。記憶装置2は処理の高速化の都合上、メモリ内に格納することが望ましいが、HDD等の磁器記憶媒体であっても良い
単語群記憶部20は、文書とその文書に含まれる単語群の対応関係を格納する。
優先順位記憶部21は、単語とその優先順位の対応関係を格納する。
同一文書候補グループ記憶部22は、同一文書候補グループと文書の対応関係を格納する。
同一文書グループ記憶部5は、第1の実施の形態と同様である。
代表文書文書記憶部6は、第1の実施の形態と同様である。
次に、図21を参照して第2の実施の形態の動作について詳細に説明する。なお、入力装置4から入力された類似度閾値は75%として説明する。
文書解析手段10は、対象データベース3に格納された各文書に含まれる単語群を抽出して単語群記憶部20に格納し、さらに、対象データベース3に出現する全ての単語に関するすべての文書で共通する優先順位を判定して優先順位記憶部21に格納する(図21のステップS1)。
文書から抽出する単語群は、文書を形態素解析して切り出した単語群とする。切り出した単語群のうち、特定の品詞、例えば、名詞、形容動詞、形容詞、動詞、未知語を持つ単語群のみを使用するようにしても良い。例えば、ある文書「情報検索で検索」の場合は{情報,検索}が単語群となる。このように、単語の文書内の出現回数は後の処理では用いないので、1つの文書に同じ単語が複数出現する場合でもそのうち1つを単語群としてもよい。
形態素解析は、日本語や中国語のような文書に単語の区切りが存在しない言語に対して本発明を適用する際に必要となる。一方、英語や韓国語、ドイツ語、フランス語、スペイン語等、文書に単語の区切りが存在する言語に対しては必ずしも必要ではない。
図22に単語群記憶部20の格納例を示す。なお、動作を分かりやすくするために、ここではそれぞれの単語をアルファベットとして記号化した上で、アルファベット毎に列を揃えて表記している。
単語の優先順位は、優先順位が一意であれば、どのような基準で決定しても本発明の実施には影響しない。ただし、出現文書数が少ない単語に高い優先順位を与えれば、同一文書候補グループ作成手段11において同一文書候補グループに登録される文書数を少なく抑えられるため、同一文書グループ作成手段12において類似度計算の回数を少なくすることが可能である。
図23に優先順位記憶部21の格納例を示す。ここでは、単語とその出現文書数、優先順位の対応関係を格納している。単語の優先順位は、単語の出現文書数が小さいほど高く、出現文書数が同じ場合は、文字コードの若い単語、すなわち、アルファベット順で若い単語ほど優先順位を高くしている。
同一文書候補グループ作成手段11は、単語群記憶部20に格納された文書に含まれる単語群の中から、入力装置4から入力された類似度閾値以上の文書間で少なくとも一つが必ず共通するような種類の単語群を、優先順位記憶部21に格納された同一文書照合の対象となるすべての文書で共通する優先順位で選択した後、同一文書候補グループ記憶部22を参照して選択したそれぞれの単語をIDとした同一文書候補グループにその文書を追加する(図21のステップS2)。
ここで図24を用いて、ステップS2の動作の詳細を説明する。
まず、単語群記憶部20に格納された先頭の文書IDを持つ文書を選択する(図24のステップS20)。文書を選択する順番は本発明の実施とは無関係であり任意の順番でよい。ここでは、説明をわかりやすくするために、文書には文書1から文書nのIDが振られており、i番目の文書は文書iで現し、また、ステップS20では文書i = 文書1が選択されたとして説明する。
次に、文書iに含まれる単語のうち、入力装置4から入力された類似度閾値以上の文書間で少なくとも一つが必ず共通するような種類の単語群を、優先順位記憶部21に格納された同一文書照合の対象となるすべての文書で共通する優先順位で選択する(図24のステップS21)。ここでは、類似度を定理1-2のcosine類似度で計算する場合で説明する。
文書iに含まれる各単語の重みw(tl)はどのように決定しても本発明の実施には影響しない。例えば、w(tl)=1のように単語の重み全て同一にするか、w(tl)=log2(総文書数 / tlの出現文書数)のように出現文書数が少ないほど重要度が高くなるように設定することができる。ここでは、w(tl)=1として説明する。なお、w(tl)=log2(総文書数 / tlの出現文書数)で計算する場合は、tlの出現文書数は、優先順位記憶部21から得ることが可能である。
文書iから選択する単語群は、定義1-2に従う。例えば、入力装置4から入力された類似度閾値は75%であるから、図22の単語群記憶部20の文書1から選択する単語は、定理1-2に従い、(選択する単語の異なり数) / 9 > 1-0.75^2を満たす最小の単語の異なり数である4個を選択すればよい。
文書iから選択する単語の順序は、優先順位記憶部21に格納された優先順位に従う。文書1から選択する4個の単語は、{A,I,B,C}となる。
次に、ステップS21で選択した単語群の先頭の単語IDを持つ単語を選択する(図24のステップS22)。単語を選択する順番は本発明の実施とは無関係であり任意の順番でよい。ここでは、説明をわかりするために、単語には単語1から単語mのIDが振られており、j番目の単語は単語jで表し、またステップS22では単語j = 単語1から選択されたとして説明する。
次に、同一文書候補グループ記憶部22に単語jをIDとした同一文書候補グループが存在するかを参照する(図24のステップS23)。もし存在しない場合は、単語jをIDとした同一文書候補グループを新たに作成し、それに文書iを追加する(図24のステップS24)。存在する場合は、単語jをIDとした同一文書候補グループに文書iを追加する(図24のステップS25)。
次に、ステップS22の単語IDがj >= mを満たすかを判断し(図24のステップS26)、満たす場合はステップS29へ進む、満たさない場合は、単語j=単語{j+1}として(図24のステップS27)、ステップS22へ戻る。
次に、ステップS21の文書IDがi >= nを満たすかを判断し(図24のステップS29)、満たす場合はステップS3に進み、満たさない場合は、文書i=文書{i+1}として(図24のステップS28)、ステップS21へ戻る。
以上、ステップS2の同一文書候補グループ作成手段11を説明した。類似度閾値が75%の場合、同一文書候補グループ作成手段11は、図22の単語群記憶部20の文書1から{A,I,B,C}を、文書2から{G,L,E}を、文書3から{I,B,C,D}を、文書4から{G,K,L}を、文書5から{A,M,B,C}を、文書6から{K}選択し、それを同一文書候補グループ記憶部22に図25のように格納する。
同一文書グループ作成手段12は、同一文書候補グループ記憶部22を参照して同一の同一文書候補グループに所属する文書対の類似度を単語群記憶部20を参照して計算して、入力装置4から入力された類似度閾値以上の文書対を同一文書グループとする、または、共通する文書を含む類似度閾値以上の文書対を統合した文書グループを同一文書グループとして判定し、その結果を同一文書グループ記憶部5に格納する(図21のステップS3)。
ステップS3の動作の詳細を説明する。なおステップS3の動作は、2通りの方法があり、まず一つ目を図10を用いて説明する。
まず、同一文書候補グループ記憶部22に格納された先頭の単語IDを持つ単語を選択する(図26のステップS310)。単語を選択する順番は本発明の実施とは無関係であり任意の順番でよい。ここでは、説明をわかりやすくするために、単語には単語1から単語nのIDが振られており、i番目の単語は単語iで現し、また、ステップS310では単語i = 単語1が選択されたとして説明する。
次に、単語iをIDとする同一文書候補グループのうち先頭の文書IDを持つ文書を選択する(図26のステップS311)。文書を選択する順番は本発明の実施とは無関係であり任意の順番でよい。ここでは、説明をわかりやすくするために、単語iをIDとする同一文書候補グループの文書には文書1から文書mのIDが振られており、j番目の文書は文書jで現し、また、ステップS311では文書j = 文書1が選択されたとして説明する。
単語iをIDとする同一文書候補グループのうち文書k=文書j+1の文書IDを持つ文書を選択する(図26のステップS312)。
次に、単語群記憶部20を参照して文書jと文書kの類似度を求め、類似度が入力装置4から入力された類似度閾値以上の場合は、同一文書グループとして出力データベース5に登録する(図26のステップS313)。類似度の計算式は、ステップS2の同一文書候補グループ作成手段11と同一のものを用いる。例えば、図25の同一文書候補グループ記憶部22の単語AをIDとする同一文書グループに登録された文書1と文書5の類似度を単語の重みをw(tl)=1とした定義2のcosine類似度で計算すると、cosine(文書1,文書5)= 6 / √9 x √7 = 0.76となり、類似度閾値は75%であるから、同一文書グループとして同一文書グループ記憶部5に登録する。
次に、ステップS312の文書IDがk >= mを満たすかを判断し(図26のステップS314)、満たす場合はステップS316へ進む、満たさない場合は、文書k=文書{k+1}として(図26のステップS315)、ステップS312へ戻る。
次に、ステップS311の文書IDがj >= mを満たすかを判断し(図26のステップS316)、満たす場合はステップS318へ進む、満たさない場合は、文書j=文書{j+1}(図26のステップS317)として、ステップS311へ戻る。
次に、ステップS310の単語IDがi >= nを満たすかを判断し(図26のステップS318)、満たす場合はステップS4に進み、満たさない場合は、単語i=単語{i+1}(図26のステップS319)として、ステップS310へ戻る。
以上、一つ目のステップS3の同一文書グループ作成手段12の動作を説明した。類似度敷居値が75%の場合、同一文書グループ作成手段12は、図25の同一文書候補グループ記憶部22の単語AをIDとする同一文書候補グループの{文書1,文書5}、単語Bのグループの{文書1,文書3},{文書1,文書5},{文書3,文書5}、単語Cのグループの{文書1,文書3},{文書1,文書5},{文書3,文書5}、単語Gのグループの{文書2,文書4}、単語Iのグループの{文書1,文書3}、単語Kのグループの{文書4,文書6}、単語Lのグループの{文書2,文書4}と、類似度を計11回計算し(類似度の計算結果は図27を参照のこと)、同一文書グループ記憶部5に同一文書グループを図28のように出力する。
このように、従来の総当りの方法では、図22の単語群記憶部20に対して類似度は6x5/2=15回計算する必要があるが、本発明では11回で同一の結果を出力できる。ステップS3の同一文書グループ作成手段12の説明は、同一の文書対に対しても何度も類似度計算する単純な方法を採用しているが、既に類似度を求めた文書対を記憶装置2に保持することで、同一の文書対を1度だけ計算すれば良いようにできる。この時、ステップS3の同一文書グループ作成手段12は図25の同一文書候補グループ記憶部22に対して類似度は5回計算するだけで良い。
同一文書グループ記憶部5への同一文書グループの格納方法は、図28の(a)(b)(c)が考えられる。
(a)は、類似度閾値以上のそれぞれの文書対を同一文書グループとして格納している。各レコードが一つの同一文書グループを意味する。
(b)は、共通する文書を含む類似度閾値以上の文書対を統合した文書群を同一文書グループとして格納している。1列目のフィールドの値が一つの同一文書グループのIDを意味する。
(c)は、ある文書との類似度が閾値以上となる文書群を、その文書に対する同一文書グループとして格納している。第1列の文書IDが、その文書IDに対する同一文書グループを意味する。例えば、文書1に対する同一文書グループとして文書3と文書5が、文書2に対しては文書4が登録されている。
第1の実施の形態では、このうち(b)と(c)が同一文書グループ記憶部に格納されていることを前提としている。
ステップS3の2つ目の動作の詳細を図30を用いて説明する。2つ目の動作を実現するためには、ステップS2の同一文書候補グループ作成手段11において、各文書と選択した単語群との対応関係を選択単語記憶部へ出力することが必要である。選択単語記憶部の例を図29に示す。
まず、選択単語記憶部に格納された先頭の文書IDを持つ文書を選択する(図30のステップS320)。文書を選択する順番は本発明の実施とは無関係であり任意の順番でよい。ここでは、説明をわかりやすくするために、文書には文書1から文書nのIDが振られており、i番目の文書は文書iで現し、また、ステップS320では文書i = 文書1が選択されたとして説明する。
次に、同一文書候補グループ記憶部22を参照して、文書iのそれぞれの選択単語をIDとする同一文書候補グループの論理和の文書群を求める(図30のステップS321)。例えば、文書i=文書1の場合、文書1の選択単語は、図29を参照すると{A,B,C,I}となっている。それぞれの選択単語をIDとした同一文書候補グループの文書群は、図25を参照すると単語Aについては{文書1,文書5}、単語Bについては{文書1,文書3,文書5}、単語Cについては{文書1,文書3,文書5}、単語Iについては{文書1,文書3}となっている。これらの論理和の文書群は、{文書1,文書3,文書5}となる。
次に、ステップS321で求めた文書群から文書jを取り出す(図30のステップS322)。文書を取り出す順番は本発明の実施とは無関係であり任意の順番でよい。
次に、j>iならば、文書iと文書jの類似度を計算し、類似度閾値以上の場合は同一文書グループとして出力データベース5に登録する(図14のステップS323) 。例えば、文書i=文書1のとき、ステップS322では、{文書1,文書3,文書5}が論理和の単語群となるが、文書j=文書3、文書j=文書5のときにのみ類似度を計算することとなる。類似度の計算式は、ステップS2の同一文書候補グループ作成手段11と同一のものを用いるが、この点に関しては、一つ目の同一文書グループ作成手段12の動作と同様なので省略する。
次に、ステップS322で求めた論理和の単語群に残りがある場合はステップS322に戻り、残りがない場合はステップS325に進む(図30のステップS324)。
次に、ステップS320の文書IDがi >= nを満たすかを判断し(図30のステップS325)、満たす場合はステップS4へ進み、満たさない場合は、文書i=文書{i+1}(図30のステップS326)として、ステップS320へ戻る。
以上、2つ目のステップS3の同一文書グループ作成手段12の動作を説明した。類似度閾値が75%の場合、文書1に対する論理和の単語群は{文書1,文書3,文書5}、文書2に対する論理和の単語群は{文書2,文書4}、文書3に対する論理和の単語群は{文書1,文書3,文書5}、文書4に対する論理和の単語群は{文書2,文書4,文書6}、文書5に対する論理和の単語群は{文書1,文書3,文書5}、文書6に対する論理和の単語群は{文書4,文書6}となり、類似度は、{文書1,文書3}、{文書1,文書5}、{文書2,文書4}、{文書3,文書5}、{文書4,文書6}の計5回計算し、同一文書グループ記憶部5に同一文書グループを図28のように出力する。
次に、代表文書選択手段13は、同一文書グループから、代表文書を除く各文書が少なくとも一つ以上の代表文書と類似度閾値以上の関係となるように、すなわち、文書対の関係となるように代表文書を選択する。これは、代表文書群とそれらとの類似度が類似度閾値以上になる文書群を合わせた文書群が、同一文書グループの文書群と一致するように代表文書群を選択するともいえる。この動作は、第1の実施の形態と同様なのでここでは省略する。
本発明の効果は、第1の実施の形態の効果に加え、グループ数の指定が事前に必要なく、照合漏れのない厳密解で、かつ、グループ数が多くなっても高速に同一文書の照合が可能なことである。高速である理由は、類似度計算の対象となる文書対を、同一の同一文書候補グループに所属する文書対に限定するためである。
また、照合漏れのない厳密解である理由は、文書に含まれる単語群の中から類似度閾値以上の文書間で少なくとも一つが必ず共通するような種類の単語群を選択して文書グループ作成に用いるためである。さらに、同一文書グループ数を事前に指定しなくてもよく、同一文書グループ数が多くなっても高速な理由は、同一文書グループ数があらかじめ与えられていなくても同一文書グループを作成することが可能なためである。
第3の実施の形態を説明する。
第3の実施の形態は、文書の文字群に着目する場合を説明する。
図31を参照すると、本発明の第3の実施の形態は、プログラム制御により動作するデータ処理装置1と、情報を記憶する記憶装置2と、対象データベース3とキーボード等の入力装置4と同一文書グループ記憶部5と、代表文書記憶部6とを含む。
対象データベース3については、第2の実施の形態と同様である。入力装置4については、第2の実施の形態と同様である。
データ処理装置1は、文書解析手段10と、同一文書候補グループ作成手段11と、同一文書グループ作成手段12と、代表文書選択手段13を有する。
文書解析手段10は、対象データベース3に出現する全ての文字に関するすべての文書で共通する優先順位を判定して優先順位記憶部21に格納する。
同一文書候補グループ作成手段11は、対象データベース3に格納された文書に含まれる文字群の中から、入力装置4から入力された類似度閾値以上の文書間で少なくとも一つが必ず共通するような数の文字群を、優先順位記憶部21に格納された同一文書照合の対象となるすべての文書で共通する優先順位で選択した後、同一文書候補グループ記憶部22を参照して選択したそれぞれの文字をIDとした同一文書候補グループにその文書を追加する。
同一文書グループ作成手段11は、同一文書候補グループ記憶部22に格納された同一の同一文書候補グループに所属する文書対の類似度を対象データベース3を参照して計算して、入力装置4から入力された類似度閾値以上の文書対を同一文書グループとする、または、共通する文書を含む類似度閾値以上の文書対を統合した文書グループを同一文書グループとして判定し、その結果を同一文書グループ記憶部5に格納する。
記憶装置2は、優先順位記憶部21と、同一文書候補グループ記憶部22とを含む。記憶装置2は処理の高速化の都合上、メモリ内に格納することが望ましいが、HDD等の磁器記憶媒体であっても良い
優先順位記憶部21は、第2の実施の形態と同様である。同一文書候補グループ記憶部22は、第2の実施の形態と同様である。同一文書グループ5は、第1の実施の形態と同様である。代表文書記憶部6は、第1の実施の形態と同様である。
次に、図32を参照して本発明を実施するための最良の形態の動作について詳細に説明する。なお、入力装置4から入力された類似度閾値は75%として説明する。
文書解析手段10は、対象データベース3に出現する全ての文字に関するすべての文書で共通する優先順位を判定して優先順位記憶部21に格納する(図32のステップS1)。
文字の優先順位は、優先順位が一意であれば、どのような基準で決定しても本発明の実施には影響しない。ただし、出現文書数が少ない文字に高い優先順位を与えれば、同一文書候補グループ作成手段11において同一文書候補グループに登録される文書数を少なく抑えられるため、同一文書グループ作成手段12において類似度計算の回数を少なくすることが可能である。
図23に図22の対象データベース3を参照して求めた優先順位記憶部21の格納例を示す。ここでは、文字とその出現文書数、優先順位の対応関係を格納している。文字の優先順位は、文字の出現文書数が小さいほど高く、出現文書数が同じ場合は、文字コードの若い文字、すなわち、アルファベット順で若い文字ほど優先順位を高くしている。
同一文書候補グループ作成手段11は、対象データベース3に格納された文書に含まれる文字群の中から、入力装置4から入力された類似度閾値以上の文書間で少なくとも一つが必ず共通するような数の文字群を、優先順位記憶部21に格納された同一文書照合の対象となるすべての文書で共通する優先順位で選択した後、同一文書候補グループ記憶部22を参照して選択したそれぞれの文字をIDとした同一文書候補グループにその文書を追加する(図32のステップS2)。
ここで図33を用いて、ステップS2の動作の詳細を説明する。
まず、対象データベース3に格納された先頭の文書IDを持つ文書を選択する(図33のステップS20)。文書を選択する順番は本発明の実施とは無関係であり任意の順番でよい。ここでは、説明をわかりやすくするために、文書には文書1から文書nのIDが振られており、i番目の文書は文書iで現し、また、ステップS20では文書i = 文書1が選択されたとして説明する。
次に、文書iに含まれる文字のうち、入力装置4から入力された類似度閾値以上の文書間で少なくとも一つが必ず共通するような数の文字群を、対象データベース3に格納された同一文書照合の対象となるすべての文書で共通する優先順位で選択する(図33のステップS21)。ここでは、類似度を定義2-2の類似度で計算する場合で説明する。
文書iから選択する文字数は、定義2-2に従う。例えば、入力装置4から入力された類似度閾値は75%であるから、図22の対象データベース3の文書1から選択する文字は、定義2-2に従い、(選択する文字数) / 9 > 1-0.75/(2-0.75)を満たす最小の選択文字数である4個を選択すればよい。
文書iから選択する文字の順序は、優先順位記憶部21に格納された優先順位に従う。文書1から選択する4個の文字は、{A,I,B,C}となる。
次に、ステップS21で選択した文字群の先頭の文字IDを持つ文字を選択する(図33のステップS22)。文字を選択する順番は本発明の実施とは無関係であり任意の順番でよい。ここでは、説明をわかりやすくするために、文字には文字1から文字mのIDが振られており、j番目の文字は文字jで表し、またステップS22では文字j = 文字1から選択されたとして説明する。
次に、同一文書候補グループ記憶部22に文字jをIDとした同一文書候補グループが存在するかを参照する(図33のステップS23)。もし存在しない場合は、文字jをIDとした同一文書候補グループを新たに作成し、それに文書iを追加する(図33のステップS24)。存在する場合は、文字jをIDとした同一文書候補グループに文書iを追加する(図33のステップS25)。
次に、ステップS22の文字IDがj >= mを満たすかを判断し(図33のステップS26)、満たす場合はステップS29へ進む、満たさない場合は、文字j=文字{j+1}(図33のステップS27)として、ステップS22へ戻る。
次に、ステップS22の文書IDがi >= nを満たすかを判断し(図33のステップS29)、満たす場合はステップS3に進み、満たさない場合は、文書i=文書{i+1}(図33のステップS28)として、ステップS21へ戻る。
以上、ステップS2の同一文書候補グループ作成手段11を説明した。類似度敷居値が75%の場合、同一文書候補グループ作成手段11は、図22の対象データベース3の文書1から{A,I,B,C}を、文書2から{G,L,E}を、文書3から{I,B,C}を、文書4から{G,K,L}を、文書5から{A,M,B}を、文書6から{K}選択し、それを同一文書候補グループ記憶部22に図34のように格納する。
同一文書グループ作成手段12は、同一文書候補グループ記憶部22を参照して同一の同一文書候補グループに所属する文書対の類似度を対象データベース3を参照して計算して、入力装置4から入力された類似度閾値以上の文書対を同一文書グループとする、または、共通する文書を含む類似度閾値以上の文書対を統合した文書グループを同一文書グループとして判定し、その結果を同一文書グループ記憶部5に格納する(図32のステップS3)。
ステップS3の動作の詳細を説明する。なおステップS3の動作は2通りの方法があり、まず一つ目を、図35を用いて説明する。
まず、同一文書候補グループ記憶部22に格納された先頭の文字IDを持つ文字を選択する(図35のステップS310)。文字を選択する順番は本発明の実施とは無関係であり任意の順番でよい。ここでは、説明をわかりやすくするために、文字には文字1から文字nのIDが振られており、i番目の文字は文字iで現し、また、ステップS310では文字i = 文字1が選択されたとして説明する。
次に、文字iをIDとする同一文書候補グループのうち先頭の文書IDを持つ文書を選択する(図35のステップS311)。文書を選択する順番は本発明の実施とは無関係であり任意の順番でよい。ここでは、説明をわかりやすくするために、文字iをIDとする同一文書候補グループの文書には文書1から文書mのIDが振られており、j番目の文書は文書jで現し、また、ステップS311では文書j = 文書1が選択されたとして説明する。
次に、文字iをIDとする同一文書候補グループのうち文書k=文書j+1の文書IDを持つ文書を選択する(図35のステップS312)。
次に、対象データベース3を参照して文書jと文書kの類似度を求め、類似度が入力装置4から入力された類似度閾値以上の場合は、同一文書グループとして出力データベース5に登録する(図35のステップS313)。類似度の計算式は、ステップS2の同一文書候補グループ作成手段11と同一のものを用いる。例えば、図34の同一文書候補グループ記憶部22の文字AをIDとする同一文書グループに登録された文書1と文書5の類似度を定義2-2の類似度で計算すると、sim(文書1,文書5)= (9+7-4)/(9+7) = 0.75となり、類似度閾値は75%であるから、同一文書グループとして同一文書グループ記憶部5に登録する。
次に、ステップS312の文書IDがk >= mを満たすかを判断し(図35のステップS314)、満たす場合はステップS316へ進む、満たさない場合は、文書k=文書{k+1}(図35のステップS315)として、ステップS312へ戻る。
次に、ステップS311の文書IDがj >= mを満たすかを判断し(図35のステップS316)、満たす場合はステップS318へ進む、満たさない場合は、文書j=文書{j+1}(図35のステップS317)として、ステップS311へ戻る。
次に、ステップSの文字IDがi >= nを満たすかを判断し(図35のステップS318)、満たす場合はステップS4へ進み、満たさない場合は、文字i=文字{i+1}(図35のステップS319)として、ステップS310へ戻る。
以上、一つ目のステップS3の同一文書グループ作成手段12の動作を説明した。類似度敷居値が75%の場合、同一文書グループ作成手段12は、図18の同一文書候補グループ記憶部22の文字AをIDとする同一文書候補グループの{文書1,文書5}、文字Bのグループの{文書1,文書3},{文書1,文書5},{文書3,文書5}、文字Cのグループの{文書1,文書3}、文字Gのグループの{文書2,文書4}、文字Iのグループの{文書1,文書3}、文字Kのグループの{文書4,文書6}、文字Lのグループの{文書2,文書4}と、類似度を計9回計算し(類似度の計算結果は図36を参照のこと)、出力データベース5に同一文書グループを図28のように出力する。
ステップS2の同一文書グループ作成手段12の説明は、同一の文書対に対しても何度も類似度計算する単純な方法を採用しているが、既に類似度を求めた文書対を記憶装置2に保持することで、同一の文書対を1度だけ計算すれば良いようにできる。この時、ステップS3の同一文書グループ作成手段12は図34の同一文書候補グループ記憶部22に対して類似度は5回計算するだけで良い。
ステップS3の2つ目の動作の詳細を図38を用いて説明する。2つ目の動作を実現するためには、ステップS2の同一文書候補グループ作成手段11において、各文書と選択した文字群との対応関係を選択文字記憶部へ出力することが必要である。選択文字記憶部の例を図37に示す。
まず、選択文字記憶部に格納された先頭の文書IDを持つ文書を選択する(図38のステップS320)。文書を選択する順番は本発明の実施とは無関係であり任意の順番でよい。ここでは、説明をわかりやすくするために、文書には文字1から文字nのIDが振られており、i番目の文字は文字iで現し、また、ステップS320では文字i = 文字1が選択されたとして説明する。
次に、同一文書候補グループ記憶部22を参照して、文書iのそれぞれの選択文字をIDとする同一文書候補グループの論理和の文書群を求める(図38のステップS321)。例えば、文書i=文書1の場合、文書1の選択文字は、図37を参照すると{A,B,C,I}となっている。それぞれの選択文字をIDとした同一文書候補グループの文書群は、図34を参照すると文字Aについては{文書1,文書5}、文字Bについては{文書1,文書3,文書5}、文字Cについては{文書1,文書3}、文字Iについては{文書1,文書3}となっている。これらの論理和の文書群は、{文書1,文書3,文書5}となる。
次に、ステップS321で求めた文書群から文書jを取り出す(図38のステップS322)。文書を取り出す順番は本発明の実施とは無関係であり任意の順番でよい。
次に、j>iならば、文書iと文書jの類似度を計算し、類似度閾値以上の場合は同一文書グループとして出力データベース5に登録する(図38のステップS323)。例えば、文書i=文書1のとき、ステップS321では、{文書1,文書3,文書5}が論理和の文字群となるが、文書j=文書3、文書j=文書5のときにのみ類似度を計算することとなる。類似度の計算式は、ステップS2の同一文書候補グループ作成手段11と同一のものを用いるが、この点に関しては、一つ目の同一文書グループ作成手段12の動作と同様なので省略する。
次に、ステップS321で求めた論理和の文字群に残りがある場合はステップS322に戻り、残りがない場合はステップS325に進む(図38のステップS324)。
次に、ステップS320の文書IDがi >= nを満たすかを判断し(図38のステップS325)、満たす場合はステップS4へと進み、満たさない場合は、文書i=文書{i+1}(図38のステップS326)として、ステップS320へ戻る。
以上、2つ目のステップS3の同一文書グループ作成手段12の動作を説明した。類似度閾値が75%の場合、文書1に対する論理和の文字群は{文書1,文書3,文書5}、文書2に対する論理和の文字群は{文書2,文書4}、文書3に対する論理和の文字群は{文書1,文書3,文書5}、文書4に対する論理和の文字群は{文書2,文書4,文書6}、文書5に対する論理和の文字群は{文書1,文書3,文書5}、文書6に対する論理和の文字群は{文書4,文書6}となり、類似度は、{文書1,文書3}、{文書1,文書5}、{文書2,文書4}、{文書3,文書5}、{文書4,文書6}の計5回計算し、同一文書グループ記憶部5に同一文書グループを図28のように出力する。
次に、代表文書選択手段13は、代表文書を除く各文書が少なくとも一つ以上の代表文書と類似度閾値以上の関係となるように、すなわち、文書対の関係となるように代表文書を選択する((図32のステップS4)。この動作は、第1の実施の形態と同様なのでここでは省略する。
本発明の効果は、第1の実施の形態の効果に加えて、グループ数の指定が事前に必要なく、照合漏れのない厳密解で、かつ、グループ数が多くなっても高速に同一文書の照合が可能なことである。高速である理由は、類似度計算の対象となる文書対を、同一の同一文書候補グループに所属する文書対に限定するためである。また、照合漏れのない厳密解である理由は、文書に含まれる文字群の中から類似度閾値以上の文書間で少なくとも一つが必ず共通するような数の文字群を選択して文書グループ作成に用いるためである。さらに、同一文書グループ数を事前に指定しなくてもよく、同一文書グループ数が多くなっても高速な理由は、同一文書グループ数があらかじめ与えられていなくても同一文書グループを作成することが可能なためである。
以上説明した第1から第3の実施の形態の同一文書照合システム7によれば、図39に示す如く、利用者から照合対象のデータベースを受け取り、同一文書グループの作成、および、代表文書の選択を行い、同一文書記憶部、代表文書記憶部を利用者に提供することができる。
また、本発明は次のような場合に利用できる。
(1)DBの重複レコード照合
DBの重複レコード照合は、DB内の実質的に同じレコードをグルーピングすることをいい、例えば、例えば、異なる人/場所/方法によって管理された表記のゆれを含む顧客DBを統合する際のデータクリーニングやコンタクトセンターの問い合わせ事例の重複削除に利用できる。1レコードを1文書とみなすことで同一文書照合の問題とみなすことができる。
(2)トピック分析
トピック分析は、Blogなどの書き込みデータをグルーピングすることをいい、Blogで同じトピックが、いつ/どのあたりで話題になっているかを把握するために利用できる。
背景技術において同一文書照合を説明する為の図である。 同一文書グループを説明する為の図である。 本発明を説明する為の図である。 第2の実施の形態の概要を説明する為の図である。 本発明の第1の実施の形態の構成を示すブロック図である。 本発明の第1の実施の形態の動作を示す流れ図である。 本発明の第1の実施の形態の代表文書選択手段の動作の詳細を示す流れ図である。 本発明の第1の実施の形態の同一文書グループ記憶部の格納例である。 本発明の第1の実施の形態の代表文書記憶部の格納例である。 本発明の第1の実施の形態の代表文書選択手段のステップS42の動作の詳細を示す流れ図である。 本発明の第1の実施の形態の未選択代表文書バッファ、未選択文書バッファの格納例である。 本発明の第1の実施の形態の代表文書の選択状態を示す図である。 本発明の第1の実施の形態の未選択代表文書バッファ、未選択文書バッファの格納例である。 本発明の第1の実施の形態の代表文書の選択状態を示す図である。 本発明の第1の実施の形態の代表文書の選択状態を示す図である。 本発明の第1の実施の形態の未選択代表文書バッファ、未選択文書バッファの格納例である。 本発明の第1の実施の形態の代表文書の選択状態を示す図である。 本発明の第1の実施の形態の代表文書の選択状態を示す図である。 本発明の第1の実施の形態の未選択代表文書バッファ、未選択文書バッファの格納例である。 本発明の第2の実施の形態の構成を示すブロック図である。 本発明の第2の実施の形態の動作を示す流れ図である。 本発明の第2の実施の形態の単語記憶部20、および、第2の実施の形態の対象データベース3の格納例である。 本発明の第2の実施の形態と第2の実施の形態の優先順位記憶部21の格納例である。 本発明の第2の実施の形態の同一文書候補グループ作成手段11の動作を示す流れ図である。 本発明の第2の実施の形態の同一文書候補グループ記憶部22の格納例である。 本発明の第2の実施の形態の1つ目の同一文書グループ作成手段12の動作を示す流れ図である。 本発明の第2の実施の形態の類似度計算の例を示す図である。 本発明の第2の実施の形態と第2の実施の形態の出力データベース5の格納例を示す図である。 本発明の第2の実施の形態の選択単語記憶部の格納例である。 本発明の第2の実施の形態の2つ目の同一文書候補グループ作成手段12の動作を示す流れ図である。 本発明の第3の実施の形態の構成を示すブロック図である。 本発明の第3の実施の形態の動作を示す流れ図である。 本発明の第3の実施の形態の同一文書候補グループ作成手段11の動作を示す流れ図である。 本発明の第3の実施の形態の同一文書候補グループ記憶部22の格納例である。 本発明の第3の実施の形態の1つ目の同一文書グループ作成手段12の動作を示す流れ図である。 本発明の第3の実施の形態の類似度計算の例を示す図である。 本発明の第3の実施の形態の選択文字記憶部の格納例である。 本発明の第3の実施の形態の2つ目の同一文書候補グループ作成手段12の動作を示す流れ図である。 本発明の利用例を示す図である。 本発明の第1の実施の形態の変形例を説明する為の図である。 本発明の第1の実施の形態の変形例を説明する為の図である。
符号の説明
1 データ処理装置
2 記憶装置
3 対象データベース
4 入力装置
5 同一文書グループ記憶部
6 代表文書記憶部
10 文書解析手段
11 同一文書候補グループ作成手段
12 同一文書グループ作成手段
13 代表文書選択手段
20 単語群記憶部
21 優先順位記憶部
22 同一文書候補グループ記憶部

Claims (27)

  1. 情報の集合である同一情報グループから、前記同一情報グループを代表する代表情報を選択する代表情報選択方法であって、
    前記集合に含まれる全ての情報は、該集合に含まれる他の情報と所定の類似度以上の関係を持ってつながっており、
    情報処理装置が、同一情報グループに属する所定の類似度以上の情報対のデータを参照して、所定の類似度以上の関係となる情報に関する総和値を算出し、算出した総和値が多い順に代表情報を選択する処理を、前記代表情報と、前記代表情報と所定類似度以上の関係となる情報とを前記同一情報グループから除いたときに空となるまで繰り返すことを特徴とする代表情報選択方法。
  2. 前記情報処理装置が、前記代表情報と、前記代表情報と所定類似度以上の関係となる情報とを前記同一情報グループから除いたときに空となるまで、所定類似度以上の関係となる情報が多い順に代表情報を選択することを特徴とする請求項1に記載の代表情報選択方法。
  3. 前記情報処理装置が、情報対の類似度に応じて設定された重みのデータを参照して、前記代表情報と、前記代表情報と所定類似度以上の関係となる情報とを前記同一情報グループから除いたときに空となるまで、所定類似度以上の関係となる情報との重みの総和が大きい順に代表情報を選択することを特徴とする請求項1に記載の代表情報選択方法。
  4. 前記情報が文書であることを特徴とする請求項1から請求項3のいずれかに記載の代表情報選択方法。
  5. 前記情報処理装置が、類似度の計算対象となる情報群に含まれる情報で共通して適用される、情報を構成する情報要素の優先順位を決定し、
    前記情報処理装置が、前記情報群に含まれる各情報について、情報間の類似度が類似度閾値未満となる情報要素の異なり数を、情報を構成する情報要素の数と類似度閾値を用いる所定の演算式に基づいて算出して選択数とし、
    前記情報処理装置が、前記優先順位に従って、前記各情報から前記選択数の情報要素を選択し、
    前記情報処理装置が、前記選択した情報要素の少なくとも一つが情報間で共通する情報対のみについて類似度の計算を行い、
    前記情報処理装置が、前記計算の結果、所定の類似度以上となる情報対を同一情報グループとするとともに、前記所定の類似度以上となる情報対のうち、共通する情報を含む情報対についてはそれらの情報対を統合して同一情報グループとする
    ことを特徴とする請求項1から請求項4のいずれかに記載の代表情報選択方法。
  6. 前記情報が文書であり、前記情報要素が前記文書に含まれる単語または文字であることを特徴とする請求項5に記載の代表情報選択方法。
  7. 情報の集合である同一情報グループから、前記同一情報グループを代表する代表情報を選択する代表情報選択システムであって、
    前記集合に含まれる全ての情報は、該集合に含まれる他の情報と所定の類似度以上の関係を持ってつながっており、
    同一情報グループに属する所定の類似度以上の情報対のデータを参照して、所定の類似度以上の関係となる情報に関する総和値を算出し、算出した総和値が多い順に代表情報を選択する処理を、前記選択した代表情報と、前記代表情報と所定類似度以上の関係となる情報を前記同一情報グループから除いたときに空となるまで繰り返す代表情報選択手段を有することを特徴とする代表情報選択システム。
  8. 前記代表情報選択手段は、前記代表情報と、前記代表情報と所定類似度以上の関係となる情報とを前記同一情報グループから除いたときに空となるまで、所定類似度以上の関係となる情報が多い順に代表情報を選択することを特徴とする請求項7に記載の代表情報選択システム。
  9. 前記代表情報選択手段は、情報対の類似度に応じて設定された重みのデータを参照して、前記代表情報と、前記代表情報と所定類似度以上の関係となる情報とを前記同一情報グループから除いたときに空となるまで、所定類似度以上の関係となる情報との重みの総和が大きい順に代表情報を選択することを特徴とする請求項7に記載の代表情報選択システム。
  10. 前記情報が文書であることを特徴とする請求項7から請求項9のいずれかに記載の代表情報選択システム。
  11. 類似度の計算対象となる情報群に含まれる情報で共通して適用され、情報を構成する情報要素の優先順位が格納された優先順位記憶部と、
    前記情報群に含まれる各情報について、情報間の類似度が類似度閾値未満となる情報要素の異なり数を、情報を構成する情報要素の数と類似度閾値を用いる所定の演算式に基づいて算出して選択数とする手段と、
    前記優先順位に従って、前記各情報から前記選択数の情報要素を選択する情報要素選択手段と、
    前記選択した情報要素の少なくとも一つが情報間で共通する情報対のみについて類似度の計算を行い、前記計算の結果、所定の類似度以上となる情報対を同一情報グループとするとともに、前記所定の類似度以上となる情報対のうち、共通する情報を含む情報対についてはそれらの情報対を統合して同一情報グループとする同一情報グループ生成手段と
    を有することを特徴とする請求項7から請求項10のいずれかに記載の代表情報選択システム。
  12. 前記情報が文書であり、前記情報要素が前記文書に含まれる単語または文字であることを特徴とする請求項11に記載の代表情報選択システム。
  13. 同一文書照合システムであって、
    所定の類似度以上となる文書の対の関係を示す文書対が格納された同一文書グループ記憶手段と、
    前記同一文書グループ記憶手段に格納された文書対に従って、所定の類似度以上の関係となる文書に関する総和値を算出し、算出した総和値が多い順に代表文書を選択する処理を、前記代表文書と、前記代表文書と所定類似度以上の関係となる文書とを前記同一文書グループ記憶手段から除いたときに空となるまで繰り返す代表文書選択手段と
    を有することを特徴とする同一文書照合システム。
  14. 前記代表文書選択手段は、前記代表文書と、前記代表文書と所定類似度以上の関係となる文書とを前記同一文書グループ記憶手段から除いたときに空となるまで、対の関係となる文書が多い順に代表文書を選択することを特徴とする請求項13に記載の同一文書照合システム。
  15. 前記代表情報選択手段は、文書対の類似度に応じて設定された重みのデータを参照して、前記代表文書と、前記代表文書と所定類似度以上の関係となる文書とを前記同一情報グループ記憶手段から除いたときに空となるまで、対の関係となる文書との重みの総和が大きい順に代表文書を選択することを特徴とする請求項13に記載の同一文書照合システム。
  16. 単語または文字で識別され、実質的に同一の候補である文書のグループである同一文書候補グループと、そのグループに属する文書との対応関係が記憶される同一文書候補グループ記憶部と、
    前記同一文書候補グループに属する各文書について、文書間の類似度が類似度閾値未満となる単語又は文字の異なり数を、文書を構成する単語又は文字の数と類似度閾値を用いる所定の演算式に基づいて算出し、文書照合の対象となるすべての文書間で共通する単語または文字の優先順位に従って、前記異なり数の単語または文字を選択し、選択したそれぞれの単語または文字で識別される同一文書候補グループにその文書を対応付けて前記同一文書候補グループ記憶部に記憶する同一文書候補グループ作成手段と、
    前記同一文書候補グループ記憶部に記憶されている同一の同一文書候補グループに対応付けられた2つの異なる文書の対である文書対に対して類似度を計算し、この類似度が前記類似度閾値以上の文書対を前記同一文書グループ記憶部に登録するとともに、前記所定の類似度以上となる文書対のうち、共通する文書を含む文書対についてはそれらの文書対を統合して同一文書グループとして前記同一文書グループ記憶部に登録する同一文書グループ作成手段と
    を有することを特徴とする請求項13から請求項15のいずれかに記載の同一文書照合システム。
  17. 情報の集合である同一情報グループから、前記同一情報グループを代表する代表情報を選択するための代表情報選択プログラムであって、
    前記集合に含まれる全ての情報は、該集合に含まれる他の情報と所定の類似度以上の関係を持ってつながっており、
    同一情報グループに属する所定の類似度以上の情報対のデータを参照して、所定の類似度以上の関係となる情報に関する総和値を算出し、算出した総和値が多い順に代表情報を選択する処理を、前記代表情報と、前記代表情報と所定類似度以上の関係となる情報とを前記同一情報グループから除いたときに空となるまで繰り返す処理を情報処理装置に実行させることを特徴とする代表情報選択プログラム。
  18. 同一文書照合のプログラムであって、
    同一文書グループとして記憶領域に格納された所定の類似度以上となる文書の対の関係を示す文書対に従って、所定の類似度以上の関係となる文書に関する総和値を算出し、算出した総和値が多い順に代表文書を選択する処理を、前記代表文書と、前記代表文書と所定類似度以上の関係となる文書とを前記同一文書グループから除いたときに空となるまで繰り返す処理
    を情報処理装置に実行させることを特徴とする同一文書照合のプログラム。
  19. 与えられた情報間で実質的に同一の情報群がグルーピングされた同一情報グループから代表情報群を選択する代表情報群選択方法であって、
    情報処理装置が、同一情報グループに属する所定の類似度以上の情報対のデータを参照して、所定の類似度以上の関係となる情報に関する総和値を算出し、算出した総和値が多い順に代表情報を選択する処理を、代表情報群と前記代表情報群との類似度が所定の類似度閾値以上になる情報群とを合わせた情報群が、同一情報グループの情報群と一致するまで繰り返すことにより同一情報グループから代表情報群を選択することを特徴とする代表情報群選択方法。
  20. 前記情報処理装置が、既に選択された代表情報群と前記代表情報群との類似度が所定の類似度閾値以上となる情報群とを、同一情報グループの情報群から除いた残りの情報群の最も多くと類似度が前記所定の類似度閾値以上になる情報を、代表情報として選択する処理を、前記残りの情報群がなくなるまで繰り返し、代表情報を選択する
    ことを特徴とした請求項19に記載の代表情報群選択方法。
  21. 前記情報処理装置が、情報対の類似度に応じて設定された重みのデータを参照して、既に選択された代表情報群と前記代表情報群との類似度が所定の類似度閾値以上となる情報群とを、同一情報グループの情報群から除いた残りの情報群との重みの総和が最も大きい情報を、代表情報として選択する処理を、前記残りの情報群がなくなるまで繰り返し、代表情報を選択する
    ことを特徴とした請求項19に記載の代表情報群選択方法。
  22. 前記情報が文書であることを特徴とする請求項19から請求項21のいずれかに記載の代表情報選択方法。
  23. 与えられた情報間で実質的に同一の情報群がグルーピングされた同一情報グループから代表情報群を選択する代表情報群選択システムであって、
    同一情報グループに属する所定の類似度以上の情報対のデータを参照して、所定の類似度以上の関係となる情報に関する総和値を算出し、算出した総和値が多い順に代表情報を選択する処理を、代表情報群と前記代表情報群との類似度が所定の類似度閾値以上になる情報群とを合わせた情報群が、同一情報グループの情報群と一致するまで繰り返すことにより同一情報グループから代表情報群を選択する代表情報群選択手段を備えることを特徴とする代表情報群選択システム。
  24. 前記代表情報群選択手段は、
    既に選択された代表情報群と前記代表情報群との類似度が所定の類似度閾値以上となる情報群とを、同一情報グループの情報群から除いた残りの情報群の最も多くと類似度が前記所定の類似度閾値以上になる情報を、代表情報として選択する処理を、前記残りの情報群がなくなるまで繰り返し、代表情報を選択する
    ように構成されていることを特徴とした請求項23に記載の代表情報群選択システム。
  25. 前記代表情報群選択手段は、
    情報対の類似度に応じて設定された重みのデータを参照して、既に選択された代表情報群と前記代表情報群との類似度が所定の類似度閾値以上となる情報群とを、同一情報グループの情報群から除いた残りの情報群との重みの総和が最も大きい情報を、代表情報として選択する処理を、前記残りの情報群がなくなるまで繰り返し、代表情報を選択する
    ように構成されていることを特徴とした請求項23に記載の代表情報群選択システム。
  26. 前記情報が文書であることを特徴とする請求項23から請求項25のいずれかに記載の代表情報選択システム。
  27. 与えられた情報間で実質的に同一の情報群がグルーピングされた同一情報グループから代表情報群を選択するためのプログラムであって、
    同一情報グループに属する所定の類似度以上の情報対のデータを参照して、所定の類似度以上の関係となる情報に関する総和値を算出し、算出した総和値が多い順に代表情報を選択する処理を、代表情報群と前記代表情報群との類似度が所定の類似度閾値以上になる情報群とを合わせた情報群が、同一情報グループの情報群と一致するまで繰り返すことにより同一情報グループから代表情報群を選択する処理
    を情報処理装置に実行させることを特徴とするプログラム。
JP2006249430A 2006-09-14 2006-09-14 代表情報選択方法、代表情報選択システム及びプログラム Expired - Fee Related JP4844737B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006249430A JP4844737B2 (ja) 2006-09-14 2006-09-14 代表情報選択方法、代表情報選択システム及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006249430A JP4844737B2 (ja) 2006-09-14 2006-09-14 代表情報選択方法、代表情報選択システム及びプログラム

Publications (2)

Publication Number Publication Date
JP2008071136A JP2008071136A (ja) 2008-03-27
JP4844737B2 true JP4844737B2 (ja) 2011-12-28

Family

ID=39292662

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006249430A Expired - Fee Related JP4844737B2 (ja) 2006-09-14 2006-09-14 代表情報選択方法、代表情報選択システム及びプログラム

Country Status (1)

Country Link
JP (1) JP4844737B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5188372B2 (ja) * 2008-11-26 2013-04-24 株式会社デンソーアイティーラボラトリ 情報提示装置、方法およびプログラム
JP5273735B2 (ja) * 2009-10-13 2013-08-28 日本電信電話株式会社 テキスト要約方法、その装置およびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3850014B2 (ja) * 2000-06-21 2006-11-29 日本電信電話株式会社 個人向け情報収集サーバ、個人向け情報収集方法および記録媒体

Also Published As

Publication number Publication date
JP2008071136A (ja) 2008-03-27

Similar Documents

Publication Publication Date Title
JP5605583B2 (ja) 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム
Hong et al. Improving the estimation of word importance for news multi-document summarization
CN104462085B (zh) 检索关键词纠错方法及装置
AU2015203818B2 (en) Providing contextual information associated with a source document using information from external reference documents
WO2010119615A1 (ja) 学習データ生成装置、及び固有表現抽出システム
US20120310630A1 (en) Tokenization platform
CN109657053A (zh) 多文本摘要生成方法、装置、服务器及存储介质
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN109791570B (zh) 高效且精确的命名实体识别方法和装置
CN111325030A (zh) 文本标签构建方法、装置、计算机设备和存储介质
CN109800427B (zh) 一种分词方法、装置、终端及计算机可读存储介质
KR101379128B1 (ko) 사전 생성 장치, 사전 생성 방법 및 사전 생성 프로그램을 기억하는 컴퓨터 판독 가능 기록 매체
JP6470249B2 (ja) データクレンジングシステム、データクレンジング方法及びデータクレンジングプログラム
CN114037007A (zh) 数据集的构建方法、装置、计算机设备及存储介质
JP4844737B2 (ja) 代表情報選択方法、代表情報選択システム及びプログラム
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
CN110019659B (zh) 裁判文书的检索方法及装置
CN109727591B (zh) 一种语音搜索的方法及装置
JP2007200252A (ja) 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体
CN109947947B (zh) 一种文本分类方法、装置及计算机可读存储介质
CN113010642A (zh) 语义关系的识别方法、装置、电子设备及可读存储介质
CN115310564B (zh) 一种分类标签更新方法及系统
JP5533197B2 (ja) 検索装置、ならびに、コンピュータプログラム
JP5601123B2 (ja) Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム
CN114116953A (zh) 基于词向量的高效率语义拓展检索方法、装置及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090812

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110609

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110622

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110819

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110914

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110927

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141021

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees