JP2004318527A - Information extracting system, program and method, and document extracting system, program and method - Google Patents

Information extracting system, program and method, and document extracting system, program and method Download PDF

Info

Publication number
JP2004318527A
JP2004318527A JP2003111982A JP2003111982A JP2004318527A JP 2004318527 A JP2004318527 A JP 2004318527A JP 2003111982 A JP2003111982 A JP 2003111982A JP 2003111982 A JP2003111982 A JP 2003111982A JP 2004318527 A JP2004318527 A JP 2004318527A
Authority
JP
Japan
Prior art keywords
document
document data
similarity
information
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003111982A
Other languages
Japanese (ja)
Inventor
Naoki Kayahara
直樹 萱原
Hirotaka Ohashi
洋貴 大橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2003111982A priority Critical patent/JP2004318527A/en
Publication of JP2004318527A publication Critical patent/JP2004318527A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide an information extracting system which can execute information extraction conforming to a user's requirement for excluding the overlap of contents and reduce a cost required for work. <P>SOLUTION: The information extracting system is provided with a document data registration DB 12, a similarity computing section 14 which computes similarity among the document data of the document data registration DB 12, a document data classifying section 16 which classifies hierarchically the document data of the document data registration DB 12 based on the similarity computed by the similarity computing section 14, and a document data extracting section 20 which extracts the document data from document data groups classified by the document data classifying section 16 based on a prescribed value and a prescribed classification rule. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、ニュース等の文書をユーザの好みに応じて自動的に配信する文書配信システム等に係り、特に、内容の重複を排除することについてユーザの希望に適合した情報抽出を行うことができ、作業に要するコストを低減するのに好適な情報抽出システム、文書抽出システム、情報抽出プログラムおよび文書抽出プログラム、並びに情報抽出方法および文書抽出方法に関する。
【0002】
【従来の技術】
ユーザごとにカスタマイズが可能な情報配信システムは、ユーザがフィルタリング条件を設定し、リアルタイムで送られてくるニュース等の各種情報(以下、文字情報を主体とした文書という。)のなかからコンピュータが自動的にその設定されたフィルタリング条件に合う文書のみを抽出してユーザに配信する形態が一般的である。
【0003】
このような形態の文書配信システムの場合、フィルタリング条件によっては、配信される文書が偏りすぎたり、また、同じような内容の文書が繰り返し送られてくるといった問題点がある。特に、後者の問題点に関しては、文書の内容が重複することにより、配信される情報に無駄が多くなったり、文書掲載スペースが限られている場合には他の重要な文書がカットされてしまう等の不都合を招き、文書配信システム自体の利便性や信頼性等を大きく損なう結果となる。
【0004】
そのため、このような文書の重複配信を防止すべく必要な文書のみを効率的に抽出するためのフィルタリング、または分類技術が極めて重要となっている。これらに関する従来技術としては、例えば、以下の特許文献1ないし3に示すような技術が提案されている。
特許文献1(特開平10−275160号公報)には、すべての文書にキーワードを付与し、そのキーワードから文書をベクトル化し、ある文書Aが他の文書Bに包含されているときに最大値をとるような類似度評価尺度を導入して、代表文書、従属文書、独立文書等を認識して適宜関係のある文書をまとめる等の技術が開示されている。
【0005】
特許文献2(特開平9−101990号公報)には、ユーザが指定した検索条件と情報との類似度を算出し、類似度順に一定数の記事または一定の閾値以上の記事を抽出する技術が開示されている。
特許文献3(特開2000−148770号公報)には、分類対象となる文書の特徴量を計算し、それら各特徴量の類似度を求めたのち、数学的、統計的なクラスタ分析によって文書を分類する等の技術が開示されている。
【0006】
【特許文献1】
特開平10−275160号公報
【特許文献2】
特開平9−101990号公報
【特許文献3】
特開2000−148770号公報
【0007】
【発明が解決しようとする課題】
このように、特許文献1ないし3記載の技術にあってはいずれも、情報を関連付けてユーザに提示するために、クラスタリング手法またはグルーピング手法により関連性の高い情報をグループ化するようになっている。
ところで、ユーザごとにカスタマイズが可能な情報配信システムでは、関連性の高い記事をグループ化するだけでは足りず、グループ化した記事のなかから、ユーザの希望に添って配信対象となる記事を抽出しなければならない。例えば、ユーザが許容できる重複の範囲内で記事を配信する場合、各ユーザごとに重複の許容範囲を設定しておき、関連の高い記事をグループ化したのちは、記事の内容の重複がユーザの許容範囲内となるようにグループ化した記事のなかから配信対象となる記事を抽出することが必要である。
【0008】
しかしながら、特許文献1ないし3記載の技術にあってはいずれも、グループ化する手法までは開示されているものの、グループ化したのちに情報を抽出する手法までは開示されていない。したがって、内容の重複を排除することについてユーザの希望に適合した情報抽出を行うことができないという問題があった。
また、特許文献1記載の技術にあっては、すべての文書にキーワード等の特徴を付与する必要性があるが、すべての文書に対してキーワードを付与する作業には多くのコストがかかる。
【0009】
そこで、本発明は、このような従来の技術の有する未解決の課題に着目してなされたものであって、内容の重複を排除することについてユーザの希望に適合した情報抽出を行うことができ、作業に要するコストを低減するのに好適な情報抽出システム、文書抽出システム、情報抽出プログラムおよび文書抽出プログラム、並びに情報抽出方法および文書抽出方法を提供することを目的としている。
【0010】
【課題を解決するための手段】
〔発明1〕
上記目的を達成するために、発明1の情報抽出システムは、
抽出対象となる複数の情報のなかから情報を抽出するシステムであって、
前記複数の情報についてそれら情報相互間の類似度を算出する類似度算出手段と、前記類似度算出手段で算出した類似度に基づいて前記複数の情報を階層的に分類する情報分類手段と、前記情報分類手段で分類した情報群のなかから所定値および所定の分類規則に基づいて前記情報を抽出する情報抽出手段とを備えることを特徴とする。
【0011】
このような構成であれば、類似度算出手段により、複数の情報についてそれら情報相互間の類似度が算出され、情報分類手段により、算出された類似度に基づいて複数の情報が階層的に分類される。そして、情報抽出手段により、分類された情報群のなかから所定値および所定の分類規則に基づいて情報が抽出される。
これにより、類似度が大きい情報同士は選択されにくくなるので、内容が類似するような情報を重複して抽出する可能性を低減することができる。したがって、従来に比して、内容の重複を排除することについてユーザの希望に比較的適合した情報抽出を行うことができるという効果が得られる。また、情報の抽出に際しては各情報にキーワードを付与する等の作業を要しないので、その作業に要するコストを低減することができるという効果も得られる。
【0012】
ここで、情報には、文書データのほか、画像データ、音楽データまたはその他の種別のデータが含まれる。以下、発明13の情報抽出プログラム、および発明15の情報抽出方法において同じである。
また、本システムは、単一の装置、端末その他の機器として実現するようにしてもよいし、複数の装置、端末その他の機器を通信可能に接続したネットワークシステムとして実現するようにしてもよい。後者の場合、各構成要素は、それぞれ通信可能に接続されていれば、複数の機器等のうちいずれに属していてもよい。以下、発明2および3の文書抽出システムにおいて同じである。
〔発明2〕
一方、上記目的を達成するために、発明2の文書抽出システムは、
抽出対象となる複数の文書のなかから文書を抽出するシステムであって、
前記複数の文書についてそれら文書相互間の類似度を算出する類似度算出手段と、前記類似度算出手段で算出した類似度に基づいて前記複数の文書を階層的に分類する文書分類手段と、前記文書分類手段で分類した文書群のなかから所定値および所定の分類規則に基づいて前記文書を抽出する文書抽出手段とを備えることを特徴とする。
【0013】
このような構成であれば、類似度算出手段により、複数の文書についてそれら文書相互間の類似度が算出され、文書分類手段により、算出された類似度に基づいて複数の文書が階層的に分類される。そして、文書抽出手段により、分類された文書群のなかから所定値および所定の分類規則に基づいて文書が抽出される。
これにより、類似度が大きい文書同士は選択されにくくなるので、内容が類似するような文書を重複して抽出する可能性を低減することができる。したがって、従来に比して、内容の重複を排除することについてユーザの希望に比較的適合した文書抽出を行うことができるという効果が得られる。また、文書の抽出に際しては各文書にキーワードを付与する等の作業を要しないので、その作業に要するコストを低減することができるという効果も得られる。
〔発明3〕
さらに、発明3の文書抽出システムは、
抽出対象となる複数の文書のなかから文書を抽出するシステムであって、
複数の文書データを記憶するための文書データ記憶手段と、前記文書データ記憶手段の文書データについてそれら文書データ相互間の類似度を算出する類似度算出手段と、前記類似度算出手段で算出した類似度に基づいて前記文書データ記憶手段の文書データを階層的に分類する文書データ分類手段と、前記文書データ分類手段で分類した文書データ群のなかから所定値および所定の分類規則に基づいて前記文書データを抽出する文書データ抽出手段とを備えることを特徴とする。
【0014】
このような構成であれば、類似度算出手段により、文書データ記憶手段の文書データについてそれら文書データ相互間の類似度が算出され、文書データ分類手段により、算出された類似度に基づいて文書データ記憶手段の文書データが階層的に分類される。そして、文書データ抽出手段により、分類された文書データ群のなかから所定値および所定の分類規則に基づいて文書データが抽出される。
【0015】
これにより、類似度が大きい文書同士は選択されにくくなるので、内容が類似するような文書を重複して抽出する可能性を低減することができる。したがって、従来に比して、内容の重複を排除することについてユーザの希望に比較的適合した文書抽出を行うことができるという効果が得られる。また、文書の抽出に際しては各文書にキーワードを付与する等の作業を要しないので、その作業に要するコストを低減することができるという効果も得られる。
【0016】
ここで、文書データ記憶手段は、文書データをあらゆる手段でかつあらゆる時期に記憶するものであり、文書データをあらかじめ記憶してあるものであってもよいし、文書データをあらかじめ記憶することなく、本システムの動作時に外部からの入力等によって文書データを記憶するようになっていてもよい。
〔発明4〕
さらに、発明4の文書抽出システムは、発明3の文書抽出システムにおいて、
前記文書データ分類手段は、前記類似度算出手段で算出した類似度に基づいて、前記文書データを分類したときの分類間の距離であって分類間の類似度が大きいものほど距離が小さくなるクラスタ間距離を算出し、算出したクラスタ間距離に基づいて、類似度が大きい文書データ同士ほど近い階層となるように、前記文書データ記憶手段の文書データを階層的に分類するようになっており、
前記文書データ抽出手段は、前記文書データ分類手段で分類した階層構造のうち階層下のクラスタ間距離に相当する冗長度が所定値以下となる点を特定し、特定した点の階層下の文書データを前記文書データ群のなかから抽出するようになっていることを特徴とする。
【0017】
このような構成であれば、文書データ分類手段により、算出された類似度に基づいて、文書データを分類したときの分類間のクラスタ間距離が算出され、算出されたクラスタ間距離に基づいて、類似度が大きい文書データ同士ほど近い階層となるように、文書データ記憶手段の文書データが階層的に分類される。そして、文書データ抽出手段により、分類された階層構造のうち階層下のクラスタ間距離に相当する冗長度が所定値以下となる点が特定され、特定された点の階層下の文書データが文書データ群のなかから抽出される。
【0018】
これにより、各文書データをその類似度に応じて比較的適切に分類・抽出することができるので、内容が類似するような文書を重複して抽出する可能性をさらに低減することができる。したがって、内容の重複を排除することについてユーザの希望にさらに適合した文書抽出を行うことができるという効果も得られる。
〔発明5〕
さらに、発明5の文書抽出システムは、発明3および4のいずれかの文書抽出システムにおいて、
前記文書データ分類手段は、クラスタリング手法またはグルーピング手法により前記文書データ記憶手段の文書データを階層的に分類するようになっていることを特徴とする。
【0019】
このような構成であれば、文書データ分類手段により、クラスタリング手法またはグルーピング手法により文書データ記憶手段の文書データが階層的に分類される。
これにより、各文書データをその類似度に応じて比較的適切に分類することができるので、内容が類似するような文書を重複して抽出する可能性をさらに低減することができる。したがって、内容の重複を排除することについてユーザの希望にさらに適合した文書抽出を行うことができるという効果も得られる。
〔発明6〕
さらに、発明6の文書抽出システムは、発明3ないし5のいずれかの文書抽出システムにおいて、
さらに、ユーザに関するユーザ情報を記憶するためのユーザ情報記憶手段と、前記ユーザ情報記憶手段のユーザ情報に基づいて前記文書データ記憶手段のなかから複数の文書データを選択する文書データ選択手段とを備え、
前記類似度算出手段および前記文書データ分類手段は、前記文書データ選択手段で選択した文書データを対象として前記類似度の算出および前記文書データの分類を行うようになっていることを特徴とする。
【0020】
このような構成であれば、文書データ選択手段により、ユーザ情報記憶手段のユーザ情報に基づいて文書データ記憶手段のなかから複数の文書データが選択される。次いで、類似度算出手段により、選択された文書データについてそれら文書データ相互間の類似度が算出され、文書データ分類手段により、算出された類似度に基づいて、選択された文書データが階層的に分類される。そして、文書データ抽出手段により、分類された文書データ群のなかから所定値および所定の分類規則に基づいて文書データが抽出される。
【0021】
これにより、ユーザの希望に適合した内容の文書データが選択されたのちに、そのなかから類似度が大きい文書データが除外されるので、ユーザの好みによる偏りを大きくし、情報の均一性よりもユーザの好みを重視した文書抽出を行うことができるという効果も得られる。例えば、幅広い情報よりも自己の好みに適合した情報を求めているユーザに対しては、好適な情報提供を行うことができる。
【0022】
ここで、ユーザ情報記憶手段は、ユーザ情報をあらゆる手段でかつあらゆる時期に記憶するものであり、ユーザ情報をあらかじめ記憶してあるものであってもよいし、ユーザ情報をあらかじめ記憶することなく、本システムの動作時に外部からの入力等によってユーザ情報を記憶するようになっていてもよい。以下、発明7の文書抽出システムにおいて同じである。
〔発明7〕
さらに、発明7の文書抽出システムは、発明3ないし5のいずれかの文書抽出システムにおいて、
さらに、ユーザに関するユーザ情報を記憶するためのユーザ情報記憶手段と、前記文書データ抽出手段で抽出した文書データ群のなかから前記ユーザ情報記憶手段のユーザ情報に基づいて文書データを選択する文書データ選択手段とを備えることを特徴とする。
【0023】
このような構成であれば、文書データ抽出手段により、分類された文書データ群のなかから所定値および所定の分類規則に基づいて文書データが抽出され、文書データ選択手段により、ユーザ情報記憶手段のユーザ情報に基づいて、抽出された文書データ群のなかから文書データが選択される。
これにより、類似度が大きい文書データが除外されたのちに、そのなかからユーザの希望に適合した内容の文書データが選択されるので、ユーザの好みによる偏りを小さくし、ユーザの好みよりも情報の均一性を重視した文書抽出を行うことができるという効果も得られる。例えば、自己の好みに適合した情報よりも幅広い情報を求めているユーザに対しては、好適な情報提供を行うことができる。
〔発明8〕
さらに、発明8の文書抽出システムは、発明6および7のいずれかの文書抽出システムにおいて、
前記ユーザ情報は、前記所定値を含み、
前記文書データ分類手段は、前記ユーザ情報記憶手段のユーザ情報および前記類似度算出手段で算出した類似度に基づいて前記文書データ記憶手段の文書データを階層的に分類するようになっていることを特徴とする。
【0024】
このような構成であれば、文書データ分類手段により、ユーザ情報記憶手段のユーザ情報および算出された類似度に基づいて文書データ記憶手段の文書データが階層的に分類される。
これにより、ユーザは、自己が設定した重複の許容範囲で冗長性が除外された文書データを得ることができるので、ユーザの希望にさらに適合した文書抽出を行うことができるという効果も得られる。
〔発明9〕
さらに、発明9の文書抽出システムは、発明3ないし8のいずれかの文書抽出システムにおいて、
前記類似度算出手段は、前記文書データ記憶手段の各文書データの文書を所定の文字要素に分割する文書分割手段と、前記文書分割手段で分割した文字要素の出現頻度に基づいて前記文書データ記憶手段の各文書データについて文書ベクトルを生成する文書ベクトル生成手段と、前記文書ベクトル生成手段で生成した文書ベクトルに基づいて前記文書データ記憶手段の文書データ相互間の類似度を算出するベクトル演算類似度算出手段とを有することを特徴とする。
【0025】
このような構成であれば、文書分割手段により、文書データ記憶手段の各文書データの文書が所定の文字要素に分割され、文書ベクトル生成手段により、分割された文字要素の出現頻度に基づいて文書データ記憶手段の各文書データについて文書ベクトルが生成される。そして、ベクトル演算類似度算出手段により、生成された文書ベクトルに基づいて文書データ記憶手段の文書データ相互間の類似度が算出される。
【0026】
これにより、各文書データ相互間の類似度を比較的適切に算出することができるので、内容が類似するような文書を重複して抽出する可能性をさらに低減することができる。したがって、内容の重複を排除することについてユーザの希望にさらに適合した文書抽出を行うことができるという効果も得られる。
ここで、文字要素は、文字列を含むほか、単一の文字も含まれる。単一の文字としては、例えば、助詞(「の」、「は」、「が」、「に」、「を」、「や」)がある。
【0027】
また、文書ベクトル生成手段は、文字要素の出現頻度に基づいて文書ベクトルを生成するようになっていればどのような構成であってもよく、例えば、文字要素の出現頻度から文書ベクトルを直接生成するようになっていてもよいし、文字要素の出現頻度から中間生成物(例えば、他のベクトル)を生成し、生成した中間生成物から文書ベクトルを生成するようになっていてもよい。
〔発明10〕
さらに、発明10の文書抽出システムは、発明9の文書抽出システムにおいて、
前記文書分割手段は、形態素解析、n−gramおよびストップワードのいずれかの文字要素分割方式を用いて前記文書データ記憶手段の各文書データの文書を所定の文字要素に分割するようになっていることを特徴とする。
【0028】
このような構成であれば、文書分割手段により、形態素解析、n−gramおよびストップワードのいずれかの文字要素分割方式を用いて文書データ記憶手段の各文書データの文書が所定の文字要素に分割される。
形態素解析、n−gramおよびストップワードといった文字列分割方式は、従来から多用されている信頼性に優れた方式であり、これらを本発明の文書分割手段として用いることにより、各文書を比較的適切に文字要素に分割できることは勿論、これらいずれかの方式を用いることにより様々な形態の文書にも対応することができるという効果も得られる。
〔発明11〕
さらに、発明11の文書抽出システムは、発明9および10のいずれかの文書抽出システムにおいて、
前記文書ベクトル生成手段は、前記文字要素が出現する文書における当該文字要素の出現頻度、および前記複数の文書における前記文字要素の出現頻度に基づいて、前記文書データ記憶手段の各文書データについてTFIDFで重み付けした文書ベクトルを生成するようになっていることを特徴とする。
【0029】
このような構成であれば、文書ベクトル生成手段により、文字要素が出現する文書におけるその文字要素の出現頻度、および複数の文書における文字要素の出現頻度に基づいて、文書データ記憶手段の各文書データについてTFIDFで重み付けした文書ベクトルが生成される。
各文書の文書ベクトルを生成するに際し、分割された文字要素の出現頻度をそのまま用いてもよいが、TFIDFという文字要素の重要度を反映した公知の重み付け方法を用いると各文書の特徴を反映した文書ベクトルを生成することができる。そのため、各文書データ相互間の類似度をさらに適切に算出することができるので、内容が類似するような文書を重複して抽出する可能性をさらに低減することができる。したがって、内容の重複を排除することについてユーザの希望にさらに適合した文書抽出を行うことができるという効果も得られる。
〔発明12〕
さらに、発明12の文書抽出システムは、発明9ないし11のいずれかの文書抽出システムにおいて、
前記ベクトル演算類似度算出手段は、前記文書ベクトル生成手段で生成した文書ベクトルに基づいてベクトル空間法により文書データ相互間の類似度を算出するようになっていることを特徴とする。
【0030】
このような構成であれば、ベクトル演算類似度算出手段により、生成された文書ベクトルに基づいてベクトル空間法により文書データ相互間の類似度が算出される。
各文書データ相互間の類似度を算出する方式としてベクトル空間法を用いれば、2つの文書ベクトルの類似度は2つのベクトルのなす角の余弦値(0〜1)として定量的に表現することが可能となり、文書抽出をより的確に行うことが可能となるという効果も得られる。
〔発明13〕
一方、上記目的を達成するために、発明13の情報抽出プログラムは、
抽出対象となる複数の情報のなかから情報を抽出するプログラムであって、
前記複数の情報についてそれら情報相互間の類似度を算出する類似度算出手段、前記類似度算出手段で算出した類似度に基づいて前記複数の情報を階層的に分類する情報分類手段、並びに前記情報分類手段で分類した情報群のなかから所定値および所定の分類規則に基づいて前記情報を抽出する情報抽出手段として実現される処理をコンピュータに実行させるためのプログラムであることを特徴とする。
【0031】
このような構成であれば、コンピュータによってプログラムが読み取られ、読み取られたプログラムに従ってコンピュータが処理を実行すると、発明1の情報抽出システムと同等の作用および効果が得られる。
〔発明14〕
一方、上記目的を達成するために、発明14の文書抽出プログラムは、
抽出対象となる複数の文書のなかから文書を抽出するプログラムであって、
前記複数の文書についてそれら文書相互間の類似度を算出する類似度算出手段、前記類似度算出手段で算出した類似度に基づいて前記複数の文書を階層的に分類する文書分類手段、並びに前記文書分類手段で分類した文書群のなかから所定値および所定の分類規則に基づいて前記文書を抽出する文書抽出手段として実現される処理をコンピュータに実行させるためのプログラムであることを特徴とする。
【0032】
このような構成であれば、コンピュータによってプログラムが読み取られ、読み取られたプログラムに従ってコンピュータが処理を実行すると、発明2の文書抽出システムと同等の作用および効果が得られる。
〔発明15〕
一方、上記目的を達成するために、発明15の情報抽出方法は、
抽出対象となる複数の情報のなかから情報を抽出する方法であって、
前記複数の情報についてそれら情報相互間の類似度を算出する類似度算出ステップと、前記類似度算出ステップで算出した類似度に基づいて前記複数の情報を階層的に分類する情報分類ステップと、前記情報分類ステップで分類した情報群のなかから所定値および所定の分類規則に基づいて前記情報を抽出する情報抽出ステップとを含むことを特徴とする。
【0033】
これにより、発明1の情報抽出システムと同等の効果が得られる。
〔発明16〕
一方、上記目的を達成するために、発明16の文書抽出方法は、
抽出対象となる複数の文書のなかから文書を抽出する方法であって、
前記複数の文書についてそれら文書相互間の類似度を算出する類似度算出ステップと、前記類似度算出ステップで算出した類似度に基づいて前記複数の文書を階層的に分類する文書分類ステップと、前記文書分類ステップで分類した文書群のなかから所定値および所定の分類規則に基づいて前記文書を抽出する文書抽出ステップとを含むことを特徴とする。
【0034】
これにより、発明2の文書抽出システムと同等の効果が得られる。
【0035】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照しながら説明する。図1ないし図18は、本発明に係る情報抽出システム、文書抽出システム、情報抽出プログラムおよび文書抽出プログラム、並びに情報抽出方法および文書抽出方法の実施の形態を示す図である。
【0036】
本実施の形態は、本発明に係る情報抽出システム、文書抽出システム、情報抽出プログラムおよび文書抽出プログラム、並びに情報抽出方法および文書抽出方法を、図1に示すように、内容の重複が少ない複数の文書をユーザに提供する場合について適用したものである。
まず、本発明に係る文書抽出装置10の構成を図1を参照しながら説明する。
【0037】
図1は、本発明に係る文書抽出装置10の実施の一形態を示したものである。
文書抽出装置10は、図1に示すように、複数の文書データを登録する文書データ登録データベース(以下、データベースのことを単にDBと略記する。)12と、文書データ登録DB12の文書データについてそれら文書データ相互間の類似度を算出する類似度算出部14と、類似度算出部14で算出した類似度に基づいて文書データ登録DB12の文書データを階層的に分類する文書データ分類部16と、ユーザ情報を登録したユーザ情報登録DB18と、文書データ分類部16で分類した文書データ群のなかからユーザ情報登録DB18のユーザ情報に基づいて文書データを抽出する文書データ抽出部20とで構成されている。
【0038】
文書データ登録DB12は、インターネット等の情報通信網内にある情報供給源Sから供給されるいくつかの情報をそれぞれ文書データとして登録するようになっている。
文書データ分類部16は、類似度算出部14で算出した類似度に基づいて、文書データを分類したときの分類(クラスタ)間の距離であってクラスタ間の類似度が大きいものほど距離が小さくなるクラスタ間距離を算出し、算出したクラスタ間距離に基づいて、類似度が大きい文書データ同士ほど近い階層となるように、文書データ登録DB12の文書データを階層的に分類するようになっている。階層的分類手法としては、例えば、従来のクラスタリング手法やグルーピング手法を採用することができるが、本実施の形態では、クラスタリング手法により文書データを分類する。
【0039】
文書データ抽出部20は、ユーザ情報登録DB18のユーザ情報に基づいて、文書データ分類部16で分類した階層構造のうち階層下のクラスタ間距離に相当する冗長度が所定値(ユーザ設定の冗長度)以下となる点を特定し、特定した点の階層下の文書データを文書データ群のなかから抽出するようになっている。
類似度算出部14は、図1に示すように、文書データ登録DB12の各文書データの文書を所定の文字列に分割する文書分割部30と、文書分割部30で分割した文字列の出現頻度に基づいて文書データ登録DB12の各文書データについて文書ベクトルを生成する文書ベクトル生成部32と、文書ベクトル生成部32で生成した文書ベクトルに基づいて文書データ登録DB12の文書データ相互間の類似度を算出するベクトル演算類似度算出部34とで構成されている。
【0040】
類似度算出部14は、まず、文書データ登録DB12から選択した各文書データの文書を文書分割部30によって文字列ごとに分割したのち、分割した各文字列の出現頻度を文書ベクトル生成部32によって算出して各文書データの文書ベクトルを生成する。その後、文書ベクトル生成部32で得られた各文書ベクトル相互の類似度をベクトル演算類似度算出部34によって算出する。
【0041】
文書抽出装置10は、図2に示すような構成をしたコンピュータ100により実現されることになる。
図2は、コンピュータ100の構成を示すブロック図である。
コンピュータ100は、図2に示すように、制御プログラムに基づいて演算および装置全体を制御するCPU50と、所定領域にあらかじめCPU50の制御プログラム等を格納しているROM52と、ROM52等から読み出したデータやCPU50の演算過程で必要な演算結果を格納するためのRAM54と、外部装置に対してデータの入出力を媒介するI/F58とで構成されており、これらは、データを転送するための信号線であるバス59で相互にかつデータ授受可能に接続されている。
【0042】
I/F58には、外部装置として、データ入力が可能なキーボードやマウス等からなる入力装置60と、画像信号に基づいて画面を表示する表示装置64と、文書データ登録DB12と、ユーザ情報登録DB18とが接続されている。
文書データ登録DB12は、例えば、ハードディスク等の外部記憶装置であり、インターネット等の情報供給源Sから所定の情報が定期的にまたは随時供給されるようになっている。
【0043】
CPU50は、マイクロプロセッシングユニット(MPU)等からなり、ROM52の所定領域に格納されている文書抽出プログラムを起動させ、そのプログラムに従って、類似度算出部14、文書データ分類部16および文書データ抽出部20として実現される文書データ抽出処理(図8)を実行するようになっている。
【0044】
次に、本実施の形態の動作を説明する。
図1に示すように、まず、文書データ登録DB12には、情報供給源Sからユーザの好みに対応した内容の文書データが一定の時間ごとまたは不定期に供給されて一時的に蓄積され、その文書データ数が所定数に達したとき、または保存時間が一定時間経過したならば、一旦、その蓄積された文書データのすべてが類似度算出部14に送られ、ここで各文書データ相互間の類似度が算出される。
【0045】
まず、類似度算出部14に送られてきた各文書データは、文書分割部30によってその文書が文字列に分割される。
図3は、形態素解析による文字列分割の一例を示す図である。
文字列の分割方式(手法)は、特に限定されるものではないが、例えば、図3に示すように、各文書D〜Dを文字列に分割するに際して形態素解析を用いた場合は、形態素解析辞書を参照しながら文法的な区切りで文字列(単語)に分割することができる。ここで、形態素解析には、様々な手法があり、辞書の善し悪しによっても結果は異なるが、例えば、図3の「無線/の/セキュリティ/が/話題/に/なっ/ている/。/…」等のように、名詞、動詞、形容詞助詞、助動詞等の単語に分けることができる。また、形態素解析は、分割の精度がよいが、以前では精度を維持するために辞書の作成やメンテナンスにコストが掛かるといった欠点があったが、最近では、長年十分に作り込まれてきた辞書が資産として使えるため、コストの問題も次第に解消されてきており、現在最もよく使われる文字列分割方法である。ただし、形態素解析は、日本語用の辞書は日本語に限って使用できるものであり、英語や中国語などの他の言語にはその言語用の辞書が必要になるといった不利な面もある。
【0046】
また、各文書D〜Dを文字列に分割するに際して形態素解析ではなく、一定間隔ごとに文字列を切っていくn−gramという文字列分割方式を用いることも可能である。
図4は、n−gramによる文字列分割の一例を示す図である。
n−gram方式を用いた場合、文書は、図4に示すように分割される。すなわち、n−gramの「n」とは何バイトごと(または何文字ごと)かを表す数字で、図4の場合では、2文字ごとなので2−gramと書くことができる。ただし、日本語などの2バイト文字の場合、2文字=4バイトなので4−gramと書く場合もあるかもしれないが、ここでは、その数字の正確さは問題とするところではない。n−gramは、意味のある単語を塊として切り出すことは困難であるが、分割したものをそのまま統計的に処理するだけであれば必ずしも意味のある単語が塊になっている必要がない場合もある。また、n−gramは、形態素解析に比べてアルゴリズムが単純でどの言語に対しても使えるというメリットがある。
【0047】
また、各文書D〜Dを文字列に分割するに際して形態素解析およびn−gramではなく、ストップワードという文字列分割方式を用いることも可能である。
図5は、ストップワードによる文字列分割の一例を示す図である。
ストップワード方式とは、文書のなかで切れ目となる文字や規則を登録し、それに従って分割していく方法である。例えば、図5に示す例では、▲1▼助詞だと思われる「の」「は」「が」「に」「を」「や」、▲2▼句読点「、」「。」、▲3▼漢字、カタカナ、アルファベット等の字種の変わり目、等といった3つのルールのいずれかが成立するところで分割したものである。なお、ストップワードは、ある程度意味のある単語を抜き出すことが可能であるが、「情報通信技術」等といった長い熟語や「インターネットテクノロジー」等といった長いカタカナの複合語などは分割できないという問題もある。また、英語であれば、▲1▼スペース、▲2▼カンマ、ピリオド、コロン、セミコロン、その他の記号、▲3▼アルファベット、数字、記号などの字種の変わり目等といったルールをもとに、単語の活用形を落とすステミングという手法を使うことである程度の文字列分割を行うことができる。
【0048】
このように、文書分割部30によってすべての文書D〜Dについての文字列分割が行われたならば、次に、文書ベクトル生成部32によって文字列頻度を算出し、図6に示すような文字列−文書行列を作成する。
図6は、文字列−文書行列を示す図である。
図7は、形態素解析による文字列分割結果を示す図である。
【0049】
文字列−文書行列は、図6に示すように、各文書D〜Dとユニークな文字列T〜Tとの対応関係を示したものであり、各文字列T〜Tが各文書D〜Dのなかに何回出現するかを数え、それを示したものである。例えば、文字列分割方式として形態素解析を用いた分割結果の場合では、図7に示すように、文書Dのなかには「無線」(網掛け文字)という文字列(T)は3回出現しており、そのW11に相当する行列の要素は、その出現回数をそのまま用いた場合では「3」となる。
【0050】
ここで、Wmnに相当する行列の各要素は、文字列の出現回数をそのまま用いてもよいが、TFIDFという文字列の重要度を反映した重み付け方法を用いると、各文書の特徴をよく表現した文書ベクトルが生成できることが知られており、後の相互類似度算出で活用することができる。
すなわち、TFIDFは、下式(1)に示すように、ある文書D内での文字列Tの出現頻度(TF:Term Frequency)と、文書集合全体で文字列Tが出現する文書数の頻度を逆数(IDF:Inverse Document Frequency)の積で求め、数値が大きいほどその文字列Tが重要であることを表すものである。TFは、頻出する文字列は重要であるという指標であり、ある文書中に文字列が出現する頻度が増加すると大きくなる性質を持っている。IDFは、多くの文書中に出現する文字列は重要でない、つまり特定の文書に出現する文字列が重要であるという指標であり、ある文字列が使われている文書数が減少すると大きくなるという性質を持っている。したがって、TFIDFの値は、特定の文書に頻繁に出現する文字列に対しては大きくなる性質を持っており、逆に、頻繁に出現するが多くの文書に出現する文字列(接続詞や助詞等)や、特定の文書にのみ出現しその文書に低頻度で出現する文字列に対しては小さくなる性質を持っている。TFIDFによって文書中の文字列は数値化され、文字列の重要度を加味したその数値を要素として文書をベクトル化することができる。
【0051】
【数1】

Figure 2004318527
【0052】
図8は、文書データ抽出処理の一部を示すフローチャートである。
文書データ抽出処理は、図8に示すように、まず、ステップS100に移行するようになっている。なお、図8のフローチャートに示す処理は、文書データ抽出処理のうち類似度算出部14として実現される処理である。
ステップS100では、文書データ登録DB12に登録された文書データが一つずつ選択され、ステップS102に移行して、選択された各文書データの文書が文字列ごとに分割され、ステップS104に移行する。
【0053】
ステップS104では、文書と文字列との対応関係を示す文字列−文書行列に文字列の頻度情報が記憶され、ステップS106に移行して、文書データ登録DB12に未処理の文書データが残っているか否かが判定され、未処理の文書データが残っていると判定されたとき(Yes)は、その文書データが選択されて同様な処理が行われ、すべての文書データがなくなるまでこれが繰り返される。
【0054】
一方、ステップS106で、文書データ登録DB12に未処理の文書データが残っていないと判定されたとき(No)は、ステップS108に移行して、完成した文字列−文書行列の頻度情報を基にTFIDFによって重み付けし直した文字列−文書行列が生成される。これにより、すべての文書データは、それらに出現するユニークな文字列の数と同じ次元(数千〜数十万)の文書ベクトルとして表現できることになる。
【0055】
このように、すべての文書データがベクトル化されたならば、ベクトル演算類似度算出部34によって各文書データ相互間の類似度が算出される。具体的には、ベクトル演算類似度算出部34は、公知のベクトル空間法を採用するものであり、TFIDFによって求められた各文書ベクトルは、ベクトル空間法によって相互の類似度が定義されることになる。すなわち、対比する2つの文書ベクトルの類似度は、図9に示すように、2つのベクトルのなす角θの余弦値(0〜1)として定義することができることから、文書データ同士の類似度は、図10に示すような対称行列で表現できる。
【0056】
図9は、文書ベクトルおよびその相関関係を示す図である。
図10および図11は、文書−文書間の対称行列を示す図である。
その後、その対称行列をもとに類似情報のグルーピングやカットを行うことで類似文書を除外した文書抽出が実現可能となる。例えば、図10のような対称行列では、図11に示すように、文書Dと文書Dの類似度が「0.9」、文書Dと文書Dの類似度が「0.3」というように各文書データ相互間の類似度が定量的に示される。
【0057】
このように、類似度算出部14によって各文書データ相互間の類似度が定量的に求められたならば、文書データ分類部16により、類似度算出部14で算出された類似度に基づいてクラスタリング手法により文書データ登録DB12の文書データが階層的に分類される。
クラスタリング手法は、多変量を統計的に分析する一手法である。文書ベクトルD〜Dは、多次元空間(ユニークな文字列の数と同じ次元数であり、一般には1万〜十万次元)空間内での一点を指しているとも考えられるので、それぞれの文書ベクトル同士には距離を定義することができる。その距離が、文書D〜Dを分類したときのクラスタ間距離である。クラスタ間距離の定義方法として、例えば、従来の最短距離法、最長距離法、群平均法、重心法、メジアン法、ウォード法を採用することができるが、本実施の形態では、重心法を用いて文書−文書間の対称行列からクラスタ分析を行う。なお、クラスタ間距離は、クラスタ間の類似度ではなく距離なので、図12に示すように、0〜1に正規化されている類似度に対して「1−類似度」の関係となる。
【0058】
図12は、図11の文書−文書間の類似度の対称行列をクラスタ間距離に変換したものである。
次に、クラスタ間距離に変換した図12の場合を例にとって文書D〜Dを分類する場合を説明する。
最も類似しているクラスタp,qを統合して新たなクラスタtを構成した場合、クラスタtと他のクラスタrとのクラスタ間距離Strは、下式(2)により算出することができる。
【0059】
【数2】
Figure 2004318527
【0060】
上式(2)において、Sprはクラスタp,rのクラスタ間距離、Sqrはクラスタq,rのクラスタ間距離、Spqはクラスタp,qのクラスタ間距離である。また、npはクラスタpに含まれる文書数、nqはクラスタqに含まれる文書数、nrはクラスタrに含まれる文書数である。
図13および図14は、文書D〜Dが属するクラスタのクラスタ間距離を算出する場合を説明するための図である。
【0061】
まず、図12に示すように、文書D〜Dのうち文書D,Dが距離「0.1」と最も近いので、その2つを統合して新たなクラスタD’を構成する。クラスタD’と他のクラスタとのクラスタ間距離は、p=D、q=D、t=D’として上式(2)により算出される。
クラスタD’と他のクラスタ(文書D)とのクラスタ間距離St3は、図13に示すように、上式(2)により「0.8」となる。また、クラスタD’と他のクラスタ(文書D)とのクラスタ間距離St4は、図13に示すように、上式(2)により「0.375」となる。
【0062】
次に、図13に示すように、クラスタD’とクラスタDが距離「0.3」と最も近いので、その2つのクラスタを統合して新たなクラスタD’’を構成する。クラスタD’’と他のクラスタとのクラスタ間距離は、p=D’、q=D、t=D’’として上式(2)により算出される。
クラスタD’’と他のクラスタ(文書D)とのクラスタ間距離St3は、図14に示すように、上式(2)により「0.85」となる。
【0063】
図15は、クラスタ分析によって構成された文書D〜Dの階層構造を示す図である。
これにより、文書D〜Dは、図15に示すように、階層的に分類されることになる。
このように、文書データ分類部16によって文書D〜Dが階層的に分類されたならば、文書データ抽出部20により、文書データ分類部16で分類された文書データ群のなかからユーザ情報登録DB18のユーザ情報に基づいて文書データが抽出される。
【0064】
図16は、文書データ分類部16で分類した文書データ群のなかから文書データを抽出する場合を説明するための図である。
ここで、ユーザA,Bが設定した冗長度は、ユーザAが「0.7」、ユーザBが「0.4」であるとする。つまり、ユーザAは、ある程度重複は許容してもよいと考えているが、ユーザBは、あまり重複は許容しないと考えている。
【0065】
ユーザBの許容する冗長度は「0.4」なので、ユーザBに対しては、図16の階層構造との関係から、文書D,D,Dのうちいずれかと、文書Dとの2つの文書を提供すればよいことが分かる。つまり、文書D,D,Dのクラスタと、文書Dのクラスタとはそれだけ十分に離れている(内容的に類似してない)ということになる。
【0066】
具体的に、文書D〜DのなかからユーザBに提供する文書を選択する方法を図17を参照しながら詳細に説明する。
図17は、文書D〜DのなかからユーザBに提供する文書を選択する場合を説明するための図である。
まず、ユーザBが設定している冗長度「0.4」に対して、図17の階層構造との交点を求めると、文書Dのクラスタから伸びている線と、文書D,D,Dのクラスタから伸びている線の2つに交わることが分かる。この時点で、文書Dが確定となり、残りは文書D,D,Dから1つ選択するということにする。
【0067】
既に文書Dが確定しているので、類似度算出部14の結果である図11の文書−文書間の対称行列から、文書Dと、残る文書D,D,Dとの類似度との関係で判断する。基本的に、文書D,D,Dからどれでも1つ選べば冗長度「0.4」以下という大枠の要求はクリアしていることになる。仮に、ユーザBが冗長度「0.4」以下で、さらにできるだけ冗長度を低くということを希望している属性が設定可能で、それを設定していたとすれば、文書Dと最も類似度の低い文書Dを選択する。
【0068】
また、場合によっては、必ずしも冗長度の低いものばかりを選択するとは限らない。ある程度の冗長度を排除しながらも、ある程度の関連性をもった文書を選択することも可能である。図17の例では、まず、文書Dを選択することで冗長度「0.4」以下という条件を満たしているため、そのなかで可能な限りる類似している文書(D,D)を選択すれば、可能な限り冗長性を排除することができるとともに、可能な限り設定した冗長度に近い文書選択が可能になる。図17の例では、文書Dの類似度と、文書D,Dの類似度が等しいため、どれか1つに絞るための明確な例とはならないが、実際には、何百〜何十万超の次元の文書ベクトルを扱うので、同値になる可能性はほとんどなく、多くの場合、数値的な大小で上述の2つの方法(冗長度を小さくする選択方法および設定した冗長度に近くする選択方法)で文書選択が可能となる。
【0069】
一方、ユーザAの許容する冗長度は「0.7」なので、ユーザAに対しては、図16の階層構造との関係から、文書D,Dのうちいずれかと、文書D,Dとの3つの文書を提供すればよいことが分かる。つまり、文書D,Dのクラスタと、文書Dのクラスタと、文書Dのクラスタとはそれだけ十分に離れている(内容的に類似してない)ということになる。文書D,Dのクラスタからどれを選択するかについては、例えば、ランダムでもよいし、より重複の少ない組み合わせにするのであれば、図11の文書−文書間の対称行列から、文書D,Dとの類似度が小さいものを選択すればよい。
【0070】
この場合、文書Dを選択すると、文書Dとは「0.3」、文書Dとは「0.5」となり、文書Dを選択すると、文書Dとは「0.2」、文書Dとは「0.8」となるので、単純に類似度の総和で考えるなら文書Dを選択する。文書Dを選択すると、既に選択されている文書D,Dとの類似度の総和が小さくなる。また、図16の例では、結果が変わらない場合もあるが、図11に示すように、既に選択されている文書Dとの関係で類似度が最大値となる文書Dを避けて文書Dを選択するとか、逆に、既に選択されている文書Dとの関係で類似度が最小値となる文書Dを選択するとか、様々に考えられる。
【0071】
具体的に、文書D〜DのなかからユーザAに提供する文書を選択する方法を図18を参照しながら詳細に説明する。
図18は、文書D〜DのなかからユーザAに提供する文書を選択する場合を説明するための図である。
まず、ユーザAが設定している冗長度「0.7」に対して、図18の階層構造との交点を求めると、文書Dのクラスタから伸びている線と、文書Dのクラスタから伸びている線と、文書D,Dのクラスタから伸びている線の3つに交わることが分かる。この時点で、文書D,Dが確定となり、残りは文書D,Dから1つ選択するということになる。
【0072】
文書D,Dが確定しているので、文書D,Dのうちいずれかおよび文書D,Dを含む3つの文書の組み合わせについて冗長度を算出し、取り得るすべての組み合わせのなかから、算出した冗長度が所定値以下となる組み合わせを決定し、決定した組み合わせとなるように残りの1つを選択する。
文書D,Dのいずれかおよび文書D,Dの組み合わせは、(D,D,D)および(D,D,D)の2通りであるが、冗長度は、各組み合わせにごとに、その組み合わせの文書群のなかから2個の文書を選択した場合のすべての組み合わせについての類似度を総和し、その値を平均したものを冗長度として算出する。
【0073】
第1に、(D,D,D)の組み合わせについてそのなかから2個の文書を選択する場合は、(D,D)、(D,D)および(D,D)の3通りである。そして、それぞれの類似度は、図11に示すように、「0.3」、「0.5」および「0.3」であるので、それらの総和は、「1.1」となる。したがって、その平均値は、「0.37」となり、この値が(D,D,D)の組み合わせについての冗長度として算出される。
【0074】
第2に、(D,D,D)の組み合わせについてそのなかから2個の文書を選択する場合は、(D,D)、(D,D)および(D,D)の3通りである。そして、それぞれの類似度は、図11に示すように、「0.2」、「0.8」および「0.3」であるので、それらの総和は、「1.3」となる。したがって、その平均値は、「0.43」となり、この値が(D,D,D)の組み合わせについての冗長度として算出される。
【0075】
ここで、ユーザAが設定した冗長度は、「0.7」であるので、(D,D,D)および(D,D,D)の組み合わせはユーザAにとって許容範囲内である。したがって、ユーザAには、文書D〜Dのうちそれらの組み合わせのものを提供するのが望ましい。この場合、冗長度が低いものを選択するのであれば、文書Dを選択し、設定された冗長度に近いものを選択するのであれば、文書Dを選択すればよい。
【0076】
このようにして、本実施の形態では、複数の文書データを登録した文書データ登録DB12と、文書データ登録DB12の文書データについてそれら文書データ相互間の類似度を算出する類似度算出部14と、類似度算出部14で算出した類似度に基づいて文書データ登録DB12の文書データを階層的に分類する文書データ分類部16と、文書データ分類部16で分類した文書データ群のなかから所定値および所定の分類規則に基づいて文書データを抽出する文書データ抽出部20とを備える。
【0077】
これにより、類似度が大きい文書同士は選択されにくくなるので、内容が類似するような文書を重複して抽出する可能性を低減することができる。したがって、従来に比して、内容の重複を排除することについてユーザの希望に比較的適合した文書抽出を行うことができる。また、文書の抽出に際しては各文書にキーワードを付与する等の作業を要しないので、その作業に要するコストを低減することができる。
【0078】
さらに、本実施の形態では、文書データ分類部16は、類似度算出部14で算出した類似度に基づいて、文書データを分類したときのクラスタ間距離を算出し、算出したクラスタ間距離に基づいて、類似度が大きい文書データ同士ほど近い階層となるように、文書データ登録DB12の文書データを階層的に分類するようになっており、文書データ抽出部20は、文書データ分類部16で分類した階層構造のうち階層下のクラスタ間距離に相当する冗長度が所定値以下となる点を特定し、特定した点の階層下の文書データを文書データ群のなかから抽出するようになっている。
【0079】
これにより、各文書データをその類似度に応じて比較的適切に分類・抽出することができるので、内容が類似するような文書を重複して抽出する可能性をさらに低減することができる。したがって、内容の重複を排除することについてユーザの希望にさらに適合した文書抽出を行うことができる。
さらに、本実施の形態では、文書データ分類部16は、クラスタリング手法またはグルーピング手法により文書データ登録DB12の文書データを階層的に分類するようになっている。
【0080】
これにより、各文書データをその類似度に応じて比較的適切に分類することができるので、内容が類似するような文書を重複して抽出する可能性をさらに低減することができる。したがって、内容の重複を排除することについてユーザの希望にさらに適合した文書抽出を行うことができる。
さらに、本実施の形態では、類似度算出部14は、文書データ登録DB12の各文書データの文書を所定の文字列に分割する文書分割部30と、文書分割部30で分割した文字列の出現頻度に基づいて文書データ登録DB12の各文書データについて文書ベクトルを生成する文書ベクトル生成部32と、文書ベクトル生成部32で生成した文書ベクトルに基づいて文書データ登録DB12の文書データ相互間の類似度を算出するベクトル演算類似度算出部34とを有する。
【0081】
これにより、各文書データ相互間の類似度を比較的適切に算出することができるので、内容が類似するような文書を重複して抽出する可能性をさらに低減することができる。したがって、内容の重複を排除することについてユーザの希望にさらに適合した文書抽出を行うことができる。
さらに、本実施の形態では、文書分割部30は、形態素解析、n−gramおよびストップワードのいずれかの文字列分割方式を用いて文書データ登録DB12の各文書データの文書を所定の文字列に分割するようになっている。
【0082】
形態素解析、n−gramおよびストップワードといった文字列分割方式は、従来から多用されている信頼性に優れた方式であり、これらを本発明の文書分割部30として用いることにより、各文書を比較的適切に文字列に分割できることは勿論、これらいずれかの方式を用いることにより様々な形態の文書にも対応することができる。
【0083】
さらに、本実施の形態では、文書ベクトル生成部32は、文字列が出現する文書におけるその文字列の出現頻度、および複数の文書における文字列の出現頻度に基づいて、文書データ登録DB12の各文書データについてTFIDFで重み付けした文書ベクトルを生成するようになっている。
各文書の文書ベクトルを生成するに際し、分割された文字列の出現頻度をそのまま用いてもよいが、TFIDFという文字列の重要度を反映した公知の重み付け方法を用いると各文書の特徴を反映した文書ベクトルを生成することができる。そのため、各文書データ相互間の類似度をさらに適切に算出することができるので、内容が類似するような文書を重複して抽出する可能性をさらに低減することができる。したがって、内容の重複を排除することについてユーザの希望にさらに適合した文書抽出を行うことができる。
【0084】
さらに、本実施の形態では、ベクトル演算類似度算出部34は、文書ベクトル生成部32で生成した文書ベクトルに基づいてベクトル空間法により文書データ相互間の類似度を算出するようになっている。
各文書データ相互間の類似度を算出する方式としてベクトル空間法を用いれば、2つの文書ベクトルの類似度は2つのベクトルのなす角の余弦値(0〜1)として定量的に表現することが可能となり、文書抽出をより的確に行うことが可能となる。
【0085】
上記実施の形態において、文書データ登録DB12は、発明3ないし5、9ないし11の文書データ記憶手段に対応し、類似度算出部14は、発明1ないし4、9、13または14の類似度算出手段に対応し、類似度算出部14による算出は、発明15または16の類似度算出ステップに対応している。また、文書データ分類部16は、発明1若しくは13の情報分類手段、発明2若しくは14の文書分類手段、または発明3ないし5の文書データ分類手段に対応し、文書データ分類部16による分類は、発明15の情報分類ステップ、または発明16の文書分類ステップに対応している。
【0086】
また、上記実施の形態において、文書データ抽出部20は、発明1若しくは13の情報抽出手段、発明2若しくは14の文書抽出手段、または発明3若しくは4の文書データ抽出手段に対応し、文書データ抽出部20は、発明15の情報抽出ステップ、または発明16の文書抽出ステップに対応している。また、文書分割部30は、発明9または10の文書分割手段に対応し、文書ベクトル生成部32は、発明9、11または12の文書ベクトル生成手段に対応し、ベクトル演算類似度算出部34は、発明9または12のベクトル演算類似度算出手段に対応している。
【0087】
なお、上記実施の形態においては、文書の重複度合いについてのみユーザの好みを反映させるように構成したが、これに限らず、文書の内容についてもユーザの好みを反映させるように構成することもできる。具体的には、例えば、次の2つの構成を提案することができる。
図19は、本発明に係る文書抽出装置10の他の実施の形態を示したものである。
【0088】
文書抽出装置10は、図19に示すように、文書データ登録DB12と、ユーザ情報登録DB18と、ユーザ情報登録DB18のユーザ情報に基づいて文書データ登録DB12のなかから文書データを選択する文書データ選択部22と、文書データ選択部22で選択した文書データについてそれら文書データ相互間の類似度を算出する類似度算出部14と、類似度算出部14で算出した類似度に基づいて文書データ選択部22で選択した文書データを階層的に分類する文書データ分類部16と、ユーザ情報を登録したユーザ情報登録DB18と、文書データ分類部16で分類した文書データ群のなかからユーザ情報登録DB18のユーザ情報に基づいて文書データを抽出する文書データ抽出部20とで構成されている。
【0089】
これにより、ユーザの希望に適合した内容の文書データが選択されたのちに、そのなかから類似度が大きい文書データが除外されるので、ユーザの好みによる偏りを大きくし、情報の均一性よりもユーザの好みを重視した文書抽出を行うことができる。例えば、幅広い情報よりも自己の好みに適合した情報を求めているユーザに対しては、好適な情報提供を行うことができる。
【0090】
この場合において、文書データ登録DB12は、発明6または8の文書データ記憶手段に対応し、ユーザ情報登録DB18は、発明6または8のユーザ情報記憶手段に対応し、類似度算出部14は、発明6または8の類似度算出手段に対応し、文書データ分類部16は、発明6または8の文書データ分類手段に対応している。また、文書データ選択部22は、発明6の文書データ選択手段に対応している。
【0091】
図20は、本発明に係る文書抽出装置10の他の実施の形態を示したものである。
文書抽出装置10は、図20に示すように、文書データ登録DB12と、ユーザ情報登録DB18と、文書データ登録DB12の文書データについてそれら文書データ相互間の類似度を算出する類似度算出部14と、類似度算出部14で算出した類似度に基づいて文書データ登録DB12の文書データを階層的に分類する文書データ分類部16と、ユーザ情報を登録したユーザ情報登録DB18と、文書データ分類部16で分類した文書データ群のなかからユーザ情報登録DB18のユーザ情報に基づいて文書データを抽出する文書データ抽出部20と、文書データ抽出部20で抽出した文書データ群のなかからユーザ情報登録DB18のユーザ情報に基づいて文書データを選択する文書データ選択部22とで構成されている。
【0092】
これにより、類似度が大きい文書データが除外されたのちに、そのなかからユーザの希望に適合した内容の文書データが選択されるので、ユーザの好みによる偏りを小さくし、ユーザの好みよりも情報の均一性を重視した文書抽出を行うことができる。例えば、自己の好みに適合した情報よりも幅広い情報を求めているユーザに対しては、好適な情報提供を行うことができる。
【0093】
この場合において、ユーザ情報登録DB18は、発明7または8のユーザ情報記憶手段に対応し、文書データ抽出部20は、発明7の文書データ抽出手段に対応し、文書データ選択部22は、発明7の文書データ選択手段に対応している。図19の構成を構成Aとし、図20の構成を構成Bとして、構成A,Bの違いについて詳細に説明する。
【0094】
ユーザAの文書データ選択のための属性として、ニュースカテゴリが「大リーグ」関係、それが少なければ上位の概念である「スポーツ」に選択範囲を広げる。そして、文書データ選択部22で選択されるニュースは5個と指定されているものとする。「大リーグ」や「スポーツ」は、キーワードが直接指定されていることをも含めて、キーワード群や、関連文章や、その他何らかの公知技術を使って情報カテゴリが指定されているものとする。冗長性排除の属性は、別途同様に設定されているものとするが、簡略化のため、以下の例で「重複」の欄に記事番号が書かれているものが、その記事と重複しており冗長性排除によって排除される候補であることを示している。
【0095】
図21および図22は、図19の構成と図20の構成との違いを説明するための図である。
図21および図22において、「適合度」とは、ユーザAが設定した情報カテゴリに、各記事がどれぐらい適合するかを文書データ選択部22によって計算した結果得られる数値である。「重複」の欄には、別途指定されている冗長性排除のための属性に従って計算した結果、その欄に書かれてある記事と重複しているため、排除される候補になることを示している。図21および図22の例では、記事1は記事3と重複しており、記事1の方が排除候補になるということを示している。
【0096】
この例では、構成A,Bの違いが、記事10があるかないかに現れている。これは、図21の例(構成A)では、よりユーザの嗜好を重視しよりその嗜好に偏った記事選択が行われるのに対して、図22の例(構成B)では、ユーザの嗜好を重視しながらも、それを逸脱しない範囲で冗長性が排除された記事選択が行われているといえる。
【0097】
この結果からは、通常は、冗長性を排除しながらも、情報量が指定した5つになる図22の例の方が好ましい構成と考えられる。図21の例は、絶対記事数が5以下になる可能性が大きい(数が保証される可能性が小さい)のに対して、図22の例は数が保証される可能性が大きい。ただし、適合度の判定、重複の判定に左右される可能性が大いにあり、一概にどちらがよいとはいえない。
【0098】
また、上記実施の形態において、文書D,Dのうちいずれかおよび文書D,Dを含む3つの文書の組み合わせについて冗長度を算出にあたって相加平均を用いているが、これに限らず、積をとって平方根等を求めその値を冗長度とする方法、各文書データ相互間の類似度のうち最大値または最小値を冗長度とする方法を採用することもできる。
【0099】
長方形の面積で、「縦+横」の長さが一定ならば正方形に近い方が面積が大きくなる原理と同じく、相乗平均は、相加平均と比較して以下のような特徴が挙げられる。
(a)文書データ相互間の類似度のばらつきが大きい組み合わせは、算出結果として小さくなる傾向がある。
(b)文書データ相互間の類似度のばらつきが小さい組み合わせは、算出結果として大きくなる(小さくならない)傾向がある。
例えば、上記実施の形態において3個の文書を選択する組み合わせについて、相加平均を用いて冗長度を算出した場合は、次のようになる。ここで、(1)は(D,D,D)についての計算結果であり、(2)は(D,D,D)についての計算結果である。
(1)(0.3+0.5+0.3)/3 = 0.37
(2)(0.2+0.8+0.3)/3 = 0.43
また、上記実施の形態において3個の文書を選択する組み合わせについて、相乗平均を用いて冗長度を算出した場合は、次のようになる。ここで、(1)は(D,D,D)についての計算結果であり、(2)は(D,D,D)についての計算結果である。
(1)3√(0.3*0.5*0.3) = 0.356
(2)3√(0.2*0.8*0.3) = 0.363
相加平均の(1)(2)と、相乗平均の(1)(2)の結果を比較すると(2)の結果がほぼ同じなのに対して、相乗平均の(1)の結果は、相加平均の(1)に比べて小さくなっている。これは、(2)が文書データ相互間の類似度にばらつきのある組み合わせであるためであって、相加平均では、1つの高い数値に平均が押し上げられる場合であっても、相乗平均の方法を用いれば、部分的に類似している程度の冗長性であれば影響を受けない結果となる。したがって、相加平均の場合は、一部にでも文書データ相互間の類似度の大きい組み合わせが混じっているとリニアに影響を受ける文書群の冗長性算出方法といえる。この方法を用いれば、大部分の文書データ相互間の類似度が大きい場合は、文書群の冗長性が大きいと判定するが、一部の文書データ相互間の類似度が大きいだけでは(つまり、類似していない文書も多数含まれている文書群の場合は)、冗長度が低いと判断する特徴を持つことになる。相加平均および相乗平均の場合はいずれも、冗長度が低いものを選択するのであれば、文書Dを選択し、設定された冗長度に近いものを選択するのであれば、文書Dを選択すればよい。
【0100】
また、上記実施の形態において3個の文書を選択する組み合わせについて、各文書データ相互間の類似度のうち最小値を用いて冗長度を算出した場合は、次のようになる。ここで、(1)は(D,D,D)についての計算結果であり、(2)は(D,D,D)についての計算結果である。
(1)min(0.3,0.5,0.3) = 0.3
(2)min(0.2,0.8,0.3) = 0.2
文書データ相互間の類似度の組み合わせのなかから、最小値をその文書群の冗長度とする方法である。ある文書群のなかに少なくとも冗長度の小さい組み合わせが存在する場合に小さくなる。言い換えれば、全部類似しているわけではなく、少なくとも何らかの特徴的な文書が含まれている場合に小さくなる指標といえる。これは、文書群の冗長性を全体的に表現する指標としては最適でないかもしれない。しかし、例えば、通常は、冗長度が大きいものばかりで、時々文書群のなかに混じってくる特徴的な文書を見逃さないようにするような局所的な指標が必要とされる場合に有効である。この場合、冗長度が低いものを選択するのであれば、文書Dを選択し、設定された冗長度に近いものを選択するのであれば、文書Dを選択すればよい。
【0101】
また、上記実施の形態において3個の文書を選択する組み合わせについて、各文書データ相互間の類似度のうち最大値を用いて冗長度を算出した場合は、次のようになる。ここで、(1)は(D,D,D)についての計算結果であり、(2)は(D,D,D)についての計算結果である。
(1)max(0.3,0.5,0.3) = 0.5
(2)max(0.2,0.8,0.3) = 0.8
文書データ相互間の類似度の組み合わせのなかから、最大値をその文書群の冗長度とする方法である。ある文書群のなかに少なくとも冗長度の大きい組み合わせが存在する場合に大きくなる。言い換えれば、少しでも類似している文書がある場合に大きくなる指標といえる。これは、文書群の冗長性を全体的に表現する指標としては最適でないかもしれない。しかし、例えば、少しでも冗長な文書の組み合わせは選択したくないときや、文書の冗長性はある閾値以下に完全に排除したいときなど、局所的な指標が必要とされる場合に有効である。この場合、冗長度が低いものを選択するのであれば、文書Dを選択し、設定された冗長度に近いものを選択するのであれば、文書Dを選択すればよい。
【0102】
また、上記実施の形態においては、文書ベクトル同士の距離を利用するように構成したが、これに限らず、文書ベクトル同士の角度(余弦値)を利用するように構成することもできる。
また、上記実施の形態において、図8のフローチャートに示す処理を実行するにあたっては、ROM52にあらかじめ格納されている制御プログラムを実行する場合について説明したが、これに限らず、これらの手順を示したプログラムが記憶された記憶媒体から、そのプログラムをRAM54に読み込んで実行するようにしてもよい。
【0103】
ここで、記憶媒体とは、RAM、ROM等の半導体記憶媒体、FD、HD等の磁気記憶型記憶媒体、CD、CDV、LD、DVD等の光学的読取方式記憶媒体、MO等の磁気記憶型/光学的読取方式記憶媒体であって、電子的、磁気的、光学的等の読み取り方法のいかんにかかわらず、コンピュータで読み取り可能な記憶媒体であれば、あらゆる記憶媒体を含むものである。
【0104】
また、上記実施の形態においては、本発明に係る情報抽出システム、文書抽出システム、情報抽出プログラムおよび文書抽出プログラム、並びに情報抽出方法および文書抽出方法を、図1に示すように、内容の重複が少ない複数の文書をユーザに提供する場合について適用したが、これに限らず、本発明の主旨を逸脱しない範囲で他の場合にも適用可能である。
【図面の簡単な説明】
【図1】本発明に係る文書抽出装置10の実施の一形態を示したものである。
【図2】コンピュータ100の構成を示すブロック図である。
【図3】形態素解析による文字列分割の一例を示す図である。
【図4】n−gramによる文字列分割の一例を示す図である。
【図5】ストップワードによる文字列分割の一例を示す図である。
【図6】文字列−文書行列を示す図である。
【図7】形態素解析による文字列分割結果を示す図である。
【図8】文書データ抽出処理の一部を示すフローチャートである。
【図9】文書ベクトルおよびその相関関係を示す図である。
【図10】文書−文書間の対称行列を示す図である。
【図11】文書−文書間の対称行列を示す図である。
【図12】図11の文書−文書間の類似度の対称行列をクラスタ間距離に変換したものである。
【図13】文書D〜Dが属するクラスタのクラスタ間距離を算出する場合を説明するための図である。
【図14】文書D〜Dが属するクラスタのクラスタ間距離を算出する場合を説明するための図である。
【図15】クラスタ分析によって構成された文書D〜Dの階層構造を示す図である。
【図16】文書データ分類部16で分類した文書データ群のなかから文書データを抽出する場合を説明するための図である。
【図17】文書D〜DのなかからユーザBに提供する文書を選択する場合を説明するための図である。
【図18】文書D〜DのなかからユーザAに提供する文書を選択する場合を説明するための図である。
【図19】本発明に係る文書抽出装置10の他の実施の形態を示したものである。
【図20】本発明に係る文書抽出装置10の他の実施の形態を示したものである。
【図21】図19の構成と図20の構成との違いを説明するための図である。
【図22】図19の構成と図20の構成との違いを説明するための図である。
【符号の説明】
10…文書抽出装置,12…文書データ登録DB,14…類似度算出部,16…文書データ分類部,18…ユーザ情報登録DB,20…文書データ抽出部,22…文書データ選択部,30…文書分割部,32…文書ベクトル生成部,34…ベクトル演算類似度算出部,50…CPU,52…ROM,54…RAM,58…I/F,60…入力装置,64…表示装置,100…コンピュータ,D〜D…文書,S…情報供給源[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a document distribution system or the like that automatically distributes a document such as news according to a user's preference, and in particular, can perform information extraction suitable for a user's desire for eliminating duplication of contents. The present invention relates to an information extraction system, a document extraction system, an information extraction program, a document extraction program, and an information extraction method and a document extraction method suitable for reducing costs required for work.
[0002]
[Prior art]
In an information distribution system that can be customized for each user, a user sets filtering conditions, and a computer automatically extracts various information such as news sent in real time (hereinafter referred to as a document mainly composed of character information). Generally, only a document that meets the set filtering conditions is extracted and distributed to the user.
[0003]
In the case of the document distribution system having such a configuration, there are problems in that the distributed documents are excessively biased or that documents having similar contents are repeatedly sent depending on the filtering conditions. In particular, regarding the latter problem, the duplication of the document content leads to wasteful information to be distributed, and other important documents are cut when the space for document publication is limited. As a result, the convenience and reliability of the document distribution system itself are greatly impaired.
[0004]
For this reason, filtering or classification technology for efficiently extracting only necessary documents to prevent such duplicate distribution of documents is extremely important. As conventional techniques relating to these, for example, techniques as shown in the following Patent Documents 1 to 3 have been proposed.
Patent Document 1 (Japanese Patent Application Laid-Open No. 10-275160) discloses that a keyword is assigned to all documents, a document is vectorized from the keywords, and a maximum value is set when one document A is included in another document B. A technique has been disclosed in which a similarity evaluation scale is introduced to recognize a representative document, a dependent document, an independent document, and the like, and appropriately combine related documents.
[0005]
Patent Document 2 (Japanese Patent Application Laid-Open No. 9-101990) discloses a technique for calculating a similarity between a search condition specified by a user and information and extracting a certain number of articles or articles having a certain threshold or more in the order of similarity. It has been disclosed.
Patent Document 3 (Japanese Patent Laid-Open No. 2000-148770) discloses a method of calculating a feature amount of a document to be classified, calculating the similarity of each feature amount, and then analyzing the document by mathematical and statistical cluster analysis. Techniques such as classification are disclosed.
[0006]
[Patent Document 1]
JP-A-10-275160
[Patent Document 2]
JP-A-9-101990
[Patent Document 3]
JP 2000-148770 A
[0007]
[Problems to be solved by the invention]
As described above, in the technologies described in Patent Documents 1 to 3, in order to associate and present information to a user, highly relevant information is grouped by a clustering method or a grouping method. .
By the way, in an information distribution system that can be customized for each user, it is not enough to group only highly relevant articles. Articles to be distributed are extracted from the grouped articles according to the user's wishes. There must be. For example, when distributing articles within the range of duplication that the user can tolerate, set the duplication range for each user, group related articles, and then repeat It is necessary to extract articles to be distributed from articles grouped so as to be within the allowable range.
[0008]
However, all of the techniques described in Patent Documents 1 to 3 disclose a technique of grouping, but do not disclose a technique of extracting information after grouping. Therefore, there has been a problem that it is not possible to perform information extraction that meets the user's desire for eliminating duplicate content.
In addition, in the technology described in Patent Document 1, it is necessary to assign a characteristic such as a keyword to all documents, but the task of assigning a keyword to all documents requires a lot of cost.
[0009]
Therefore, the present invention has been made by focusing on such unresolved problems of the conventional technology, and it is possible to perform information extraction suitable for a user's desire for eliminating duplication of contents. Another object of the present invention is to provide an information extraction system, a document extraction system, an information extraction program, a document extraction program, and an information extraction method and a document extraction method suitable for reducing the cost required for work.
[0010]
[Means for Solving the Problems]
[Invention 1]
In order to achieve the above object, an information extraction system according to Invention 1 includes:
A system for extracting information from a plurality of pieces of information to be extracted,
A similarity calculating unit that calculates a similarity between the plurality of pieces of information, an information classifying unit that hierarchically classifies the plurality of pieces of information based on the similarity calculated by the similarity calculating unit; An information extraction unit that extracts the information from the information group classified by the information classification unit based on a predetermined value and a predetermined classification rule.
[0011]
With such a configuration, the similarity calculating means calculates the similarity between the pieces of information for a plurality of pieces of information, and the information classifying means classifies the plurality of pieces of information hierarchically based on the calculated similarity. Is done. Then, the information extracting means extracts information from the classified information group based on a predetermined value and a predetermined classification rule.
This makes it difficult to select information having a high degree of similarity, thereby reducing the possibility of redundantly extracting information having similar contents. Therefore, an effect is obtained that, compared to the related art, it is possible to perform information extraction that is relatively suitable for the user's desire for eliminating duplication of contents. In addition, since information extraction does not require a task such as assigning a keyword to each piece of information, it is possible to reduce the cost required for the task.
[0012]
Here, the information includes image data, music data, or other types of data in addition to the document data. Hereinafter, the same applies to the information extraction program of invention 13 and the information extraction method of invention 15.
The present system may be realized as a single device, terminal, or other device, or may be realized as a network system in which a plurality of devices, terminals, or other devices are communicably connected. In the latter case, each component may belong to any of a plurality of devices and the like as long as they are communicably connected to each other. Hereinafter, the same applies to the document extraction systems of Inventions 2 and 3.
[Invention 2]
On the other hand, in order to achieve the above object, the document extraction system of Invention 2
A system for extracting a document from a plurality of documents to be extracted,
A similarity calculating unit that calculates a similarity between the plurality of documents, a document classifying unit that hierarchically classifies the plurality of documents based on the similarity calculated by the similarity calculating unit; Document extraction means for extracting the document from the document group classified by the document classification means based on a predetermined value and a predetermined classification rule.
[0013]
With such a configuration, the similarity calculating means calculates the similarity between the documents with respect to the plurality of documents, and the document classifying means classifies the plurality of documents hierarchically based on the calculated similarity. Is done. Then, the document extracting unit extracts the document from the classified document group based on a predetermined value and a predetermined classification rule.
This makes it difficult to select documents having a high degree of similarity, thereby reducing the possibility of redundantly extracting documents having similar contents. Therefore, an effect is obtained that, compared to the related art, a document can be extracted which is relatively suited to the user's desire for eliminating duplication of contents. In addition, since a task such as assigning a keyword to each document is not required at the time of document extraction, an effect that costs required for the task can be reduced can be obtained.
[Invention 3]
Further, the document extraction system according to the third aspect of the present invention includes:
A system for extracting a document from a plurality of documents to be extracted,
Document data storage means for storing a plurality of document data; similarity calculation means for calculating similarity between the document data of the document data in the document data storage means; and similarity calculated by the similarity calculation means Document data classifying means for hierarchically classifying document data in the document data storage means based on the degree, and document data based on a predetermined value and a predetermined classification rule from a document data group classified by the document data classifying means. Document data extracting means for extracting data.
[0014]
With such a configuration, the similarity calculating means calculates the similarity between the document data in the document data in the document data storing means, and the document data classifying means calculates the document data based on the calculated similarity. The document data in the storage means is hierarchically classified. Then, the document data extracting means extracts the document data from the classified document data group based on a predetermined value and a predetermined classification rule.
[0015]
This makes it difficult to select documents having a high degree of similarity, thereby reducing the possibility of redundantly extracting documents having similar contents. Therefore, an effect is obtained that, compared to the related art, a document can be extracted which is relatively suited to the user's desire for eliminating duplication of contents. In addition, since a task such as assigning a keyword to each document is not required at the time of document extraction, an effect that costs required for the task can be reduced can be obtained.
[0016]
Here, the document data storage means stores the document data by any means and at any time, and may store the document data in advance, or without storing the document data in advance. The document data may be stored by an external input or the like during the operation of the present system.
[Invention 4]
Further, the document extraction system according to a fourth aspect is the document extraction system according to the third aspect,
The document data classifying unit is a cluster based on the similarity calculated by the similarity calculating unit, wherein the distance between the classes when the document data is classified, and the larger the similarity between the classes, the smaller the distance. Based on the calculated inter-cluster distance, based on the calculated inter-cluster distance, the document data of the document data storage means is hierarchically classified so that the document data having a higher similarity has a closer hierarchy.
The document data extracting means specifies a point in the hierarchical structure classified by the document data classifying means, the point at which the redundancy corresponding to the inter-cluster distance below the hierarchy is equal to or less than a predetermined value, and the document data under the specified point in the hierarchy Is extracted from the document data group.
[0017]
With such a configuration, the inter-cluster distance between the classes when the document data is classified is calculated by the document data classifying unit based on the calculated similarity, and based on the calculated inter-cluster distance, The document data in the document data storage means is hierarchically classified such that document data having a higher similarity has a closer hierarchy. Then, the document data extracting means specifies a point in the classified hierarchical structure where the redundancy corresponding to the inter-cluster distance below the hierarchy is equal to or less than a predetermined value, and the document data below the specified point in the hierarchy is the document data. Extracted from the group.
[0018]
This makes it possible to relatively appropriately classify and extract each document data according to the degree of similarity, thereby further reducing the possibility of redundantly extracting documents having similar contents. Therefore, it is possible to obtain an effect that it is possible to extract a document that is more suitable for the user's desire for eliminating duplicate contents.
[Invention 5]
Further, the document extraction system according to the fifth aspect is the document extraction system according to any one of the third and fourth aspects,
The document data classification means is characterized in that the document data in the document data storage means is hierarchically classified by a clustering technique or a grouping technique.
[0019]
With such a configuration, the document data in the document data storage unit is hierarchically classified by the clustering method or the grouping method by the document data classification unit.
As a result, each document data can be relatively appropriately classified according to the similarity, and the possibility of redundantly extracting documents having similar contents can be further reduced. Therefore, it is possible to obtain an effect that it is possible to extract a document that is more suitable for the user's desire for eliminating duplicate contents.
[Invention 6]
Further, the document extraction system according to the sixth aspect is the document extraction system according to any one of the third to fifth aspects, wherein
The apparatus further includes user information storage means for storing user information relating to a user, and document data selection means for selecting a plurality of document data from the document data storage means based on the user information in the user information storage means. ,
The similarity calculating means and the document data classifying means are configured to calculate the similarity and classify the document data for the document data selected by the document data selecting means.
[0020]
With such a configuration, the document data selection unit selects a plurality of document data from the document data storage unit based on the user information in the user information storage unit. Next, similarity between the document data is calculated for the selected document data by the similarity calculating means, and the selected document data is hierarchically determined based on the calculated similarity by the document data classifying means. being classified. Then, the document data extracting means extracts the document data from the classified document data group based on a predetermined value and a predetermined classification rule.
[0021]
As a result, after selecting the document data having the content suitable for the user's desire, the document data having a large similarity is excluded from the selected document data. An effect is also obtained that a document can be extracted with emphasis on user preference. For example, it is possible to provide suitable information to a user who seeks information that suits his or her preference rather than wide information.
[0022]
Here, the user information storage means stores the user information by any means and at any time, and may store the user information in advance, or without storing the user information in advance, The user information may be stored by an external input or the like during the operation of the present system. Hereinafter, the same applies to the document extraction system of the seventh aspect.
[Invention 7]
Further, the document extraction system according to the seventh aspect is the document extraction system according to any one of the third to fifth aspects, wherein
A user information storage unit for storing user information relating to the user; and a document data selection unit for selecting document data from a group of document data extracted by the document data extraction unit based on the user information in the user information storage unit. Means.
[0023]
With such a configuration, the document data extraction unit extracts the document data from the classified document data group based on the predetermined value and the predetermined classification rule, and the document data selection unit stores the document data in the user information storage unit. Document data is selected from the extracted document data group based on the user information.
As a result, after the document data having a high degree of similarity is excluded, the document data having the content suitable for the user's request is selected from the document data. Therefore, the bias due to the user's preference is reduced, and the information is more than the user's preference. An effect is also obtained that a document can be extracted with emphasis on the uniformity of the document. For example, it is possible to appropriately provide information to a user who requests information wider than information suitable for his / her preference.
[Invention 8]
Further, the document extraction system according to the eighth aspect is the document extraction system according to any one of the sixth and seventh aspects,
The user information includes the predetermined value,
The document data classification means hierarchically classifies the document data of the document data storage means based on the user information of the user information storage means and the similarity calculated by the similarity calculation means. Features.
[0024]
With such a configuration, the document data in the document data storage unit is hierarchically classified by the document data classification unit based on the user information in the user information storage unit and the calculated similarity.
This allows the user to obtain document data from which redundancy has been excluded within the allowable range of duplication set by the user, so that it is also possible to obtain an effect that it is possible to perform document extraction more suitable for the user's wish.
[Invention 9]
Further, the document extraction system according to the ninth aspect is the document extraction system according to any one of the third to eighth aspects,
The similarity calculating unit includes a document dividing unit that divides a document of each document data in the document data storing unit into predetermined character elements, and stores the document data based on an appearance frequency of the character elements divided by the document dividing unit. A document vector generating means for generating a document vector for each document data of the means, and a vector operation similarity calculating a similarity between the document data in the document data storage means based on the document vector generated by the document vector generating means. Calculating means.
[0025]
With such a configuration, the document of each document data in the document data storage unit is divided into predetermined character elements by the document division unit, and the document is generated based on the appearance frequency of the divided character elements by the document vector generation unit. A document vector is generated for each document data in the data storage means. Then, the similarity between the document data in the document data storage unit is calculated by the vector operation similarity calculation unit based on the generated document vector.
[0026]
This makes it possible to relatively appropriately calculate the similarity between the respective document data, so that it is possible to further reduce the possibility of redundantly extracting documents having similar contents. Therefore, it is possible to obtain an effect that it is possible to extract a document that is more suitable for the user's desire for eliminating duplicate contents.
Here, the character element includes a character string as well as a single character. As a single character, for example, there are particles (“no”, “ha”, “ga”, “ni”, “wo”, “ya”).
[0027]
Further, the document vector generation means may have any configuration as long as the document vector is generated based on the appearance frequency of the character element. For example, the document vector generation unit directly generates the document vector from the appearance frequency of the character element. Alternatively, an intermediate product (for example, another vector) may be generated from the appearance frequency of the character element, and a document vector may be generated from the generated intermediate product.
[Invention 10]
Further, the document extraction system according to the tenth aspect is the document extraction system according to the ninth aspect,
The document division unit divides a document of each document data in the document data storage unit into predetermined character elements by using any one of morphological analysis, n-gram, and stop word. It is characterized by the following.
[0028]
With such a configuration, the document division unit divides the document of each document data in the document data storage unit into predetermined character elements using any one of morphological analysis, n-gram, and stop word character element division methods. Is done.
Character string division methods such as morphological analysis, n-gram, and stop word are highly reliable methods that have been frequently used in the past. Of course, it is possible to divide documents into character elements, and by using any of these methods, it is possible to obtain an effect that various forms of documents can be handled.
[Invention 11]
Further, the document extraction system according to the eleventh aspect is the document extraction system according to any one of the ninth and tenth aspects,
The document vector generation unit is configured to perform a TFIDF for each document data in the document data storage unit based on an appearance frequency of the character element in a document in which the character element appears and an appearance frequency of the character element in the plurality of documents. It is characterized in that a weighted document vector is generated.
[0029]
With such a configuration, the document vector generation unit stores each document data in the document data storage unit based on the appearance frequency of the character element in the document in which the character element appears and the appearance frequency of the character element in a plurality of documents. Are generated by TFIDF.
When generating the document vector of each document, the frequency of appearance of the divided character elements may be used as it is, but if a known weighting method that reflects the importance of the character element TFIDF is used, the characteristics of each document are reflected. Document vectors can be generated. Therefore, the similarity between the respective document data can be more appropriately calculated, and the possibility of redundantly extracting documents having similar contents can be further reduced. Therefore, it is possible to obtain an effect that it is possible to extract a document that is more suitable for the user's desire for eliminating duplicate contents.
[Invention 12]
Further, the document extraction system according to the twelfth aspect is the document extraction system according to any one of the ninth to eleventh aspects,
The vector operation similarity calculating means calculates similarity between document data by a vector space method based on the document vector generated by the document vector generating means.
[0030]
With such a configuration, the similarity between the document data is calculated by the vector space method based on the generated document vector by the vector operation similarity calculation means.
If the vector space method is used as a method for calculating the similarity between the respective document data, the similarity between the two document vectors can be quantitatively expressed as the cosine value (0 to 1) of the angle formed by the two vectors. This makes it possible to extract documents more accurately.
[Invention 13]
On the other hand, in order to achieve the above object, an information extraction program of Invention 13
A program for extracting information from a plurality of pieces of information to be extracted,
A similarity calculating unit that calculates a similarity between the plurality of pieces of information, an information classifying unit that hierarchically classifies the plurality of pieces of information based on the similarity calculated by the similarity calculating unit, and the information The program is a program for causing a computer to execute processing realized as information extracting means for extracting the information from a group of information classified by the classifying means based on a predetermined value and a predetermined classification rule.
[0031]
With such a configuration, when the program is read by the computer and the computer executes the processing in accordance with the read program, an operation and an advantage equivalent to those of the information extraction system of Aspect 1 can be obtained.
[Invention 14]
On the other hand, in order to achieve the above object, a document extraction program according to invention 14 is
A program for extracting a document from a plurality of documents to be extracted,
A similarity calculating unit that calculates a similarity between the plurality of documents, a document classifying unit that hierarchically classifies the plurality of documents based on the similarity calculated by the similarity calculating unit, and the document The program is a program for causing a computer to execute processing realized as document extracting means for extracting the document from a group of documents classified by the classifying means based on a predetermined value and a predetermined classification rule.
[0032]
With such a configuration, when the program is read by the computer and the computer executes the processing in accordance with the read program, an operation and an advantage equivalent to those of the document extraction system of Aspect 2 are attained.
[Invention 15]
On the other hand, in order to achieve the above object, an information extraction method according to Invention 15 includes:
A method of extracting information from a plurality of pieces of information to be extracted,
A similarity calculation step of calculating a similarity between the plurality of pieces of information, and an information classification step of hierarchically classifying the plurality of pieces of information based on the similarity calculated in the similarity calculation step; An information extracting step of extracting the information based on a predetermined value and a predetermined classification rule from the information group classified in the information classification step.
[0033]
Thereby, an effect equivalent to that of the information extraction system of the first aspect is obtained.
[Invention 16]
On the other hand, in order to achieve the above object, a document extracting method according to Invention 16 includes:
A method for extracting a document from a plurality of documents to be extracted,
A similarity calculation step of calculating a similarity between the plurality of documents, a document classification step of hierarchically classifying the plurality of documents based on the similarity calculated in the similarity calculation step; A document extraction step of extracting the document from the document group classified in the document classification step based on a predetermined value and a predetermined classification rule.
[0034]
Thereby, the same effect as that of the document extraction system according to the second aspect can be obtained.
[0035]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIGS. 1 to 18 are diagrams showing an embodiment of an information extraction system, a document extraction system, an information extraction program, a document extraction program, and an information extraction method and a document extraction method according to the present invention.
[0036]
In the present embodiment, as shown in FIG. 1, an information extraction system, a document extraction system, an information extraction program, a document extraction program, and an information extraction method and a document extraction method according to the present invention This is applied to a case where a document is provided to a user.
First, the configuration of a document extraction device 10 according to the present invention will be described with reference to FIG.
[0037]
FIG. 1 shows an embodiment of a document extracting apparatus 10 according to the present invention.
As shown in FIG. 1, the document extraction device 10 includes a document data registration database (hereinafter, simply abbreviated as DB) 12 for registering a plurality of document data, and a document data registration DB 12 for the document data. A similarity calculating unit 14 for calculating the similarity between the document data, a document data classifying unit 16 for hierarchically classifying the document data of the document data registration DB 12 based on the similarity calculated by the similarity calculating unit 14, A user information registration DB 18 that registers user information, and a document data extraction unit 20 that extracts document data from the document data group classified by the document data classification unit 16 based on the user information of the user information registration DB 18 I have.
[0038]
The document data registration DB 12 registers some pieces of information supplied from an information supply source S in an information communication network such as the Internet as document data.
The document data classifying unit 16 is based on the similarity calculated by the similarity calculating unit 14, and is the distance between the classifications (clusters) when the document data is classified. The inter-cluster distance is calculated, and based on the calculated inter-cluster distance, the document data of the document data registration DB 12 is hierarchically classified such that the document data having a higher similarity has a closer hierarchy. As the hierarchical classification method, for example, a conventional clustering method or grouping method can be adopted. In the present embodiment, the document data is classified by the clustering method.
[0039]
Based on the user information in the user information registration DB 18, the document data extraction unit 20 sets the redundancy corresponding to the inter-cluster distance below the hierarchy in the hierarchical structure classified by the document data classification unit 16 to a predetermined value (user-set redundancy). The following points are specified, and the document data below the specified point is extracted from the document data group.
As shown in FIG. 1, the similarity calculating unit 14 divides a document of each document data in the document data registration DB 12 into a predetermined character string, and an appearance frequency of the character string divided by the document dividing unit 30. A document vector generation unit 32 that generates a document vector for each document data in the document data registration DB 12 based on the document vector, and a similarity between the document data in the document data registration DB 12 based on the document vector generated by the document vector generation unit 32. And a vector operation similarity calculation unit 34 to be calculated.
[0040]
The similarity calculation unit 14 first divides the document of each document data selected from the document data registration DB 12 for each character string by the document division unit 30, and then calculates the appearance frequency of each divided character string by the document vector generation unit 32. By calculation, a document vector of each document data is generated. After that, the vector operation similarity calculator 34 calculates the similarity between the respective document vectors obtained by the document vector generator 32.
[0041]
The document extracting device 10 is realized by a computer 100 having a configuration as shown in FIG.
FIG. 2 is a block diagram showing a configuration of the computer 100.
As shown in FIG. 2, the computer 100 includes a CPU 50 that controls operations and the entire apparatus based on the control program, a ROM 52 that stores a control program of the CPU 50 in a predetermined area in advance, data read from the ROM 52, and the like. The RAM 50 includes a RAM 54 for storing a calculation result required in a calculation process of the CPU 50, and an I / F 58 for mediating input / output of data with respect to an external device. These are signal lines for transferring data. Are connected to each other and capable of exchanging data.
[0042]
The I / F 58 includes, as external devices, an input device 60 such as a keyboard or a mouse capable of inputting data, a display device 64 for displaying a screen based on an image signal, a document data registration DB 12, and a user information registration DB 18. And are connected.
The document data registration DB 12 is, for example, an external storage device such as a hard disk, and is configured such that predetermined information is supplied regularly or as needed from an information source S such as the Internet.
[0043]
The CPU 50 is constituted by a microprocessing unit (MPU) or the like, starts a document extraction program stored in a predetermined area of the ROM 52, and according to the program, the similarity calculation unit 14, the document data classification unit 16, and the document data extraction unit 20. The document data extraction process (FIG. 8) realized as (1) is executed.
[0044]
Next, the operation of the present embodiment will be described.
As shown in FIG. 1, first, document data having contents corresponding to the user's preference is supplied from the information supply source S to the document data registration DB 12 at regular time intervals or irregularly and temporarily stored therein. When the number of document data reaches a predetermined number or when the storage time has elapsed for a certain period of time, all of the stored document data is once sent to the similarity calculation unit 14, where each document data A similarity is calculated.
[0045]
First, the document dividing unit 30 divides each document data sent to the similarity calculating unit 14 into character strings.
FIG. 3 is a diagram illustrating an example of character string division by morphological analysis.
The division method (method) of the character string is not particularly limited. For example, as shown in FIG. 1 ~ D m When morphological analysis is used to divide a character string into a character string, the character string can be divided into character strings (words) at grammatical breaks while referring to a morphological analysis dictionary. Here, there are various methods of morphological analysis, and the results differ depending on the quality of the dictionary. For example, in FIG. 3, “wireless / of / security / is / topic / becomes / is /. / ... Such as noun, verb, adjective particle, auxiliary verb, etc. In addition, morphological analysis has a good accuracy of division, but in the past, there was a drawback that dictionary creation and maintenance were costly to maintain accuracy, but recently, dictionaries that have been fully built for many years Since it can be used as an asset, the problem of cost is gradually solved, and it is the most commonly used character string division method at present. However, in the morphological analysis, a dictionary for Japanese can be used only in Japanese, and there is a disadvantage that a dictionary for that language is required for other languages such as English and Chinese.
[0046]
In addition, each document D 1 ~ D m Can be divided into character strings, not by morphological analysis, but by a character string division method called n-gram in which a character string is cut at regular intervals.
FIG. 4 is a diagram illustrating an example of character string division by n-gram.
When the n-gram method is used, a document is divided as shown in FIG. That is, "n" in n-gram is a number indicating how many bytes (or how many characters) it is. In FIG. 4, since it is every two characters, it can be written as 2-gram. However, in the case of two-byte characters such as Japanese, since two characters are four bytes, there may be a case where 4-gram is written, but here, the accuracy of the number is not a problem. In n-gram, it is difficult to cut out a meaningful word as a chunk, but there are also cases where a meaningful word does not necessarily need to be clumped if only the divided words are statistically processed as they are. is there. Also, n-gram has the advantage that the algorithm is simpler than morphological analysis and can be used for any language.
[0047]
In addition, each document D 1 ~ D m Can be divided into character strings by using a character string division method called a stop word instead of morphological analysis and n-gram.
FIG. 5 is a diagram illustrating an example of character string division using stop words.
The stop word method is a method of registering characters and rules that become breaks in a document and dividing the documents according to the rules. For example, in the example shown in FIG. 5, (1) "no", "ha", "ga", "ni", "wo", "ya", which are considered to be particles, (2) punctuation marks ","".", And (3) It is divided where any of the three rules, such as the change of the character type such as kanji, katakana, and the alphabet, is satisfied. Although a stop word can extract a meaningful word to some extent, there is a problem that a long idiom such as “information and communication technology” or a long katakana compound word such as “Internet technology” cannot be divided. In addition, if it is English, the word is based on the rules such as (1) space, (2) comma, period, colon, semicolon, other symbols, (3) change of character types such as alphabets, numbers, symbols, etc. Character string division can be performed to some extent by using a technique called stemming that reduces the utilization form of.
[0048]
In this way, all the documents D 1 ~ D m Then, the character string frequency is calculated by the document vector generation unit 32, and a character string-document matrix as shown in FIG. 6 is created.
FIG. 6 is a diagram showing a character string-document matrix.
FIG. 7 is a diagram showing a character string division result by morphological analysis.
[0049]
The character string-document matrix is, as shown in FIG. 1 ~ D m And a unique string T 1 ~ T n Shows the corresponding relationship with each character string T 1 ~ T n Is each document D 1 ~ D m It counts how many times it appears in a, and indicates that. For example, in the case of a segmentation result using morphological analysis as a character string segmentation method, as shown in FIG. 1 There is a character string "T" (shaded characters) (T 1 ) Appears three times and its W 11 Is “3” when the number of appearances is used as it is.
[0050]
Where W mn For each element of the matrix corresponding to, the number of appearances of the character string may be used as it is, but if a weighting method that reflects the importance of the character string TFIDF is used, a document vector that well expresses the characteristics of each document is generated. It is known that it can be used, and can be used in later calculation of the degree of mutual similarity.
That is, as shown in the following expression (1), TFIDF indicates the frequency of occurrence of the character string T in a certain document D (TF: Term Frequency) and the frequency of the number of documents in which the character string T appears in the entire document set. It is obtained by the product of an inverse number (IDF: Inverse Document Frequency), and indicates that the larger the numerical value, the more important the character string T is. The TF is an index indicating that a frequently appearing character string is important, and has a property of increasing as the frequency of occurrence of the character string in a certain document increases. IDF is an index that a character string appearing in many documents is not important, that is, a character string appearing in a specific document is important. The IDF increases as the number of documents using a certain character string decreases. Has nature. Therefore, the value of TFIDF has the property of increasing for a character string that frequently appears in a specific document, and conversely, a character string that frequently appears but appears in many documents (such as conjunctions and particles). ) Or a character string that appears only in a specific document and appears infrequently in that document. The character string in the document is digitized by the TFIDF, and the document can be vectorized using the numerical value in consideration of the importance of the character string as an element.
[0051]
(Equation 1)
Figure 2004318527
[0052]
FIG. 8 is a flowchart showing a part of the document data extraction processing.
As shown in FIG. 8, the document data extraction process first proceeds to step S100. The process shown in the flowchart of FIG. 8 is a process realized as the similarity calculation unit 14 in the document data extraction process.
In step S100, the document data registered in the document data registration DB 12 is selected one by one, and the process proceeds to step S102, where the document of each selected document data is divided for each character string, and the process proceeds to step S104.
[0053]
In step S104, the frequency information of the character string is stored in the character string-document matrix indicating the correspondence between the document and the character string, and the process proceeds to step S106 to determine whether unprocessed document data remains in the document data registration DB 12. If it is determined whether or not unprocessed document data remains (Yes), the document data is selected, the same processing is performed, and this process is repeated until all the document data is exhausted.
[0054]
On the other hand, when it is determined in step S106 that unprocessed document data does not remain in the document data registration DB 12 (No), the process proceeds to step S108, and based on the frequency information of the completed character string-document matrix. A character string-document matrix re-weighted by TFIDF is generated. As a result, all document data can be represented as a document vector having the same dimension (thousands to hundreds of thousands) as the number of unique character strings appearing in them.
[0055]
As described above, when all the document data are vectorized, the vector operation similarity calculation unit 34 calculates the similarity between the respective document data. Specifically, the vector operation similarity calculation unit 34 employs a known vector space method, and each document vector obtained by the TFIDF has a similarity defined by the vector space method. Become. That is, the similarity between two document vectors to be compared can be defined as the cosine value (0 to 1) of the angle θ formed by the two vectors as shown in FIG. , Can be represented by a symmetric matrix as shown in FIG.
[0056]
FIG. 9 is a diagram showing document vectors and their correlations.
10 and 11 are diagrams showing a symmetric matrix between documents.
Thereafter, by performing grouping or cutting of similar information based on the symmetric matrix, document extraction excluding similar documents can be realized. For example, in a symmetric matrix as shown in FIG. 10, as shown in FIG. 1 And Document D 2 Document D has a similarity of "0.9" 1 And Document D 3 , The similarity between document data is quantitatively indicated, for example, the similarity is “0.3”.
[0057]
As described above, when the similarity between the respective document data is quantitatively calculated by the similarity calculator 14, the clustering is performed by the document data classifier 16 based on the similarity calculated by the similarity calculator 14. The document data in the document data registration DB 12 is hierarchically classified according to the method.
The clustering technique is a technique for statistically analyzing multivariates. Document vector D 1 ~ D n Is considered to indicate a point in a multidimensional space (having the same number of dimensions as the number of unique character strings, generally 10,000 to 100,000 dimensions). Can be defined. The distance is document D 1 ~ D n Is the distance between clusters when is classified. As a method of defining the distance between clusters, for example, a conventional shortest distance method, longest distance method, group average method, centroid method, median method, Ward method can be adopted, but in the present embodiment, the centroid method is used. Then, cluster analysis is performed from a symmetric matrix between documents. Note that the inter-cluster distance is not a similarity between clusters but a distance, and thus, as shown in FIG. 12, the similarity normalized to 0 to 1 has a relationship of “1-similarity”.
[0058]
FIG. 12 is a diagram in which the symmetric matrix of the similarity between documents in FIG. 11 is converted into an inter-cluster distance.
Next, taking the case of FIG. 12 converted into the distance between clusters as an example, the document D 1 ~ D 4 The case of classifying will be described.
When the most similar clusters p and q are integrated to form a new cluster t, the inter-cluster distance Str between the cluster t and another cluster r can be calculated by the following equation (2).
[0059]
(Equation 2)
Figure 2004318527
[0060]
In the above equation (2), Spr is the distance between the clusters p and r, Sqr is the distance between the clusters q and r, and Spq is the distance between the clusters p and q. Further, np is the number of documents included in the cluster p, nq is the number of documents included in the cluster q, and nr is the number of documents included in the cluster r.
FIG. 13 and FIG. 1 ~ D 4 FIG. 9 is a diagram for describing a case of calculating an inter-cluster distance of a cluster to which.
[0061]
First, as shown in FIG. 1 ~ D 4 Document D of 1 , D 2 Is closest to the distance “0.1”, the two are integrated to form a new cluster D 1 Make up '. Cluster D 1 'And the distance between other clusters is p = D 1 , Q = D 2 , T = D 1 Is calculated by the above equation (2).
Cluster D 1 'And another cluster (Document D 3 ) Is “0.8” according to the above equation (2), as shown in FIG. Also, cluster D 1 'And another cluster (Document D 4 ) Is “0.375” according to the above equation (2), as shown in FIG.
[0062]
Next, as shown in FIG. 1 'And cluster D 4 Is closest to the distance “0.3”, the two clusters are integrated to form a new cluster D 1 Make up ''. Cluster D 1 '' And the distance between other clusters are p = D 1 ', Q = D 4 , T = D 1 '' Is calculated by the above equation (2).
Cluster D 1 '' And other clusters (Document D 3 ) Is “0.85” according to the above equation (2), as shown in FIG.
[0063]
FIG. 15 shows a document D constructed by cluster analysis. 1 ~ D 4 FIG. 3 is a diagram showing a hierarchical structure of FIG.
Thereby, the document D 1 ~ D 4 Are hierarchically classified as shown in FIG.
As described above, the document D 1 ~ D 4 Are hierarchically classified, the document data extraction unit 20 extracts document data from the document data group classified by the document data classification unit 16 based on the user information in the user information registration DB 18.
[0064]
FIG. 16 is a diagram for explaining a case where document data is extracted from the document data group classified by the document data classification unit 16.
Here, it is assumed that the redundancy set by the users A and B is “0.7” for the user A and “0.4” for the user B. That is, the user A thinks that some overlap may be allowed, but the user B thinks that the overlap is not so much allowed.
[0065]
Since the redundancy allowed by the user B is “0.4”, the user B is given a document D based on the hierarchical structure shown in FIG. 1 , D 2 , D 4 And document D 3 It can be seen that the two documents of the above should be provided. That is, document D 1 , D 2 , D 4 Cluster and document D 3 Clusters are far enough away (not similar in content).
[0066]
Specifically, document D 1 ~ D 4 A method of selecting a document to be provided to the user B from among them will be described in detail with reference to FIG.
FIG. 17 shows the document D 1 ~ D 4 FIG. 9 is a diagram for explaining a case where a document to be provided to a user B is selected from among the documents.
First, for the redundancy “0.4” set by the user B, the intersection with the hierarchical structure in FIG. 3 Line extending from the cluster of 1 , D 2 , D 4 It can be seen that they intersect two lines extending from the cluster of. At this point, Document D 3 Is confirmed, and the rest is document D 1 , D 2 , D 4 Let's choose one.
[0067]
Document D already 3 Is determined, the document D is obtained from the document-document symmetric matrix of FIG. 3 And the remaining document D 1 , D 2 , D 4 Is determined based on the relationship with the similarity. Basically, Document D 1 , D 2 , D 4 Therefore, if any one of them is selected, the general requirement that the redundancy is "0.4" or less is satisfied. If the user B can set an attribute whose redundancy is “0.4” or less and desires that the redundancy be as low as possible, and if the attribute is set, the document D 3 Document D with the lowest similarity to 2 Select
[0068]
In some cases, it is not always the case that only those with low redundancy are selected. It is also possible to select documents that have some degree of relevance while eliminating some degree of redundancy. In the example of FIG. 3 To satisfy the condition that the redundancy is not more than "0.4", the documents (D 1 , D 4 ), It is possible to eliminate the redundancy as much as possible and to select a document as close to the set redundancy as possible. In the example of FIG. 3 And document D 1 , D 4 Is not a clear example of narrowing down to any one because the similarities of are the same, but in practice, hundreds to hundreds of thousands of dimensional document vectors are handled, so the possibility of being equivalent is almost In many cases, it is possible to select a document by the above two methods (a selection method for reducing the redundancy and a selection method for approaching the set redundancy) in numerical values.
[0069]
On the other hand, since the redundancy allowed by the user A is “0.7”, the document D is given to the user A based on the relationship with the hierarchical structure in FIG. 1 , D 2 And document D 3 , D 4 It can be understood that the three documents of the above should be provided. That is, document D 1 , D 2 Cluster and document D 3 Cluster and document D 4 Clusters are far enough away (not similar in content). Document D 1 , D 2 Is selected from the clusters of, for example, random or a combination with less overlap can be selected from the document-document symmetric matrix of FIG. 3 , D 4 What is necessary is just to select the one with a small similarity with.
[0070]
In this case, document D 1 Is selected, the document D 3 Is "0.3", Document D 4 Is "0.5", and the document D 2 Is selected, the document D 3 Is "0.2", Document D 4 Is “0.8”, so if we simply consider the sum of similarities, 1 Select Document D 1 Is selected, the already selected document D 3 , D 4 And the sum of the similarities becomes smaller. Further, in the example of FIG. 16, the result may not change, but as shown in FIG. 4 Document D whose similarity has the maximum value in relation to 2 Avoid Document D 1 Or, on the contrary, the already selected document D 3 Document D whose similarity has the minimum value in relation to 2 There are various possibilities.
[0071]
Specifically, document D 1 ~ D 4 A method for selecting a document to be provided to the user A from among them will be described in detail with reference to FIG.
FIG. 18 shows the document D 1 ~ D 4 FIG. 9 is a diagram for explaining a case where a document to be provided to a user A is selected from among the documents.
First, for the redundancy “0.7” set by the user A, the intersection with the hierarchical structure in FIG. 3 Line extending from the cluster of 4 Line extending from the cluster of 1 , D 2 It intersects three of the lines extending from the cluster of. At this point, Document D 3 , D 4 Is confirmed, and the rest is document D 1 , D 2 Will be selected.
[0072]
Document D 3 , D 4 Is determined, the document D 1 , D 2 And any of Document D 3 , D 4 Is calculated with respect to a combination of three documents including the above, and among all possible combinations, a combination in which the calculated redundancy is equal to or smaller than a predetermined value is determined, and the remaining one is determined so as to be the determined combination. select.
Document D 1 , D 2 And Document D 3 , D 4 Is a combination of (D 1 , D 3 , D 4 ) And (D 2 , D 3 , D 4 ), The redundancy is calculated for each combination by summing up the similarities of all combinations when two documents are selected from the document group of the combination, and averaging the values. This is calculated as the redundancy.
[0073]
First, (D 1 , D 3 , D 4 ), Two documents are selected from the combination. 1 , D 3 ), (D 1 , D 4 ) And (D 3 , D 4 ). Then, as shown in FIG. 11, the similarities are “0.3”, “0.5”, and “0.3”, and their sum is “1.1”. Therefore, the average value is “0.37”, and this value is (D 1 , D 3 , D 4 ) Is calculated as the redundancy for the combination.
[0074]
Second, (D 2 , D 3 , D 4 ), Two documents are selected from the combination. 2 , D 3 ), (D 2 , D 4 ) And (D 3 , D 4 ). Then, as shown in FIG. 11, the similarities are “0.2”, “0.8”, and “0.3”, and their sum is “1.3”. Therefore, the average value is “0.43”, and this value is (D 2 , D 3 , D 4 ) Is calculated as the redundancy for the combination.
[0075]
Here, since the redundancy set by the user A is “0.7”, (D 1 , D 3 , D 4 ) And (D 2 , D 3 , D 4 ) Is within the allowable range for the user A. Therefore, user A has document D 1 ~ D 4 It is desirable to provide a combination thereof. In this case, if a document with low redundancy is selected, the document D 1 Is selected, and a document close to the set redundancy is selected, the document D 2 You just have to select
[0076]
As described above, in the present embodiment, a document data registration DB 12 in which a plurality of document data are registered, a similarity calculation unit 14 that calculates the similarity between the document data in the document data in the document data registration DB 12, A document data classification unit 16 that hierarchically classifies the document data in the document data registration DB 12 based on the similarity calculated by the similarity calculation unit 14, and a predetermined value from a document data group classified by the document data classification unit 16. A document data extracting unit that extracts document data based on a predetermined classification rule;
[0077]
This makes it difficult to select documents having a high degree of similarity, thereby reducing the possibility of redundantly extracting documents having similar contents. Therefore, compared to the related art, it is possible to perform the document extraction that is relatively suitable for the user's desire for eliminating the duplication of the contents. In addition, since a task such as assigning a keyword to each document is not required at the time of document extraction, the cost required for the task can be reduced.
[0078]
Further, in the present embodiment, the document data classifying unit 16 calculates the inter-cluster distance when the document data is classified based on the similarity calculated by the similarity calculating unit 14, and based on the calculated inter-cluster distance. Therefore, the document data in the document data registration DB 12 is hierarchically classified so that the document data having a higher similarity has a closer hierarchy. The document data extracting unit 20 classifies the document data by the document data classifying unit 16. In the hierarchical structure, a point at which the redundancy corresponding to the inter-cluster distance below the hierarchy is equal to or less than a predetermined value is specified, and document data below the specified point at the hierarchy is extracted from the document data group.
[0079]
This makes it possible to relatively appropriately classify and extract each document data according to the degree of similarity, thereby further reducing the possibility of redundantly extracting documents having similar contents. Therefore, it is possible to extract a document that is more suitable for the user's desire for eliminating duplicate contents.
Further, in the present embodiment, the document data classifying section 16 classifies the document data of the document data registration DB 12 hierarchically by a clustering technique or a grouping technique.
[0080]
As a result, each document data can be relatively appropriately classified according to the similarity, and the possibility of redundantly extracting documents having similar contents can be further reduced. Therefore, it is possible to extract a document that is more suitable for the user's desire for eliminating duplicate contents.
Further, in the present embodiment, the similarity calculation unit 14 includes a document division unit 30 that divides the document of each document data of the document data registration DB 12 into a predetermined character string, and an appearance of the character string divided by the document division unit 30. A document vector generation unit 32 that generates a document vector for each document data of the document data registration DB 12 based on the frequency, and a similarity between the document data of the document data registration DB 12 based on the document vector generated by the document vector generation unit 32 And a vector operation similarity calculation unit 34 for calculating.
[0081]
This makes it possible to relatively appropriately calculate the similarity between the respective document data, so that it is possible to further reduce the possibility of redundantly extracting documents having similar contents. Therefore, it is possible to extract a document that is more suitable for the user's desire for eliminating duplicate contents.
Further, in the present embodiment, the document division unit 30 converts the document of each document data of the document data registration DB 12 into a predetermined character string using any one of the character string division methods of morphological analysis, n-gram, and stop word. It is designed to be split.
[0082]
Character string division methods such as morphological analysis, n-gram, and stop word are conventionally used methods with excellent reliability, and by using these as the document division unit 30 of the present invention, each document can be relatively divided. Of course, it can be appropriately divided into character strings, and it is possible to cope with various forms of documents by using any of these methods.
[0083]
Further, in the present embodiment, the document vector generation unit 32 determines each document in the document data registration DB 12 based on the appearance frequency of the character string in the document where the character string appears and the appearance frequency of the character string in a plurality of documents. A document vector in which data is weighted by TFIDF is generated.
When generating the document vector of each document, the appearance frequency of the divided character string may be used as it is, but if a known weighting method that reflects the importance of the character string TFIDF is used, the characteristics of each document are reflected. Document vectors can be generated. Therefore, the similarity between the respective document data can be more appropriately calculated, and the possibility of redundantly extracting documents having similar contents can be further reduced. Therefore, it is possible to extract a document that is more suitable for the user's desire for eliminating duplicate contents.
[0084]
Further, in the present embodiment, the vector operation similarity calculation unit 34 calculates the similarity between document data by the vector space method based on the document vector generated by the document vector generation unit 32.
If the vector space method is used as a method for calculating the similarity between the respective document data, the similarity between the two document vectors can be quantitatively expressed as the cosine value (0 to 1) of the angle formed by the two vectors. This makes it possible to perform document extraction more accurately.
[0085]
In the above embodiment, the document data registration DB 12 corresponds to the document data storage means of Inventions 3 to 5, 9 to 11, and the similarity calculation unit 14 calculates the similarity of Invention 1 to 4, 9, 13, or 14. The calculation by the similarity calculating section 14 corresponds to the similarity calculating step of the invention 15 or 16. The document data classifying unit 16 corresponds to the information classifying unit of the invention 1 or 13, the document classifying unit of the invention 2 or 14, or the document data classifying unit of the inventions 3 to 5. This corresponds to the information classification step of invention 15 or the document classification step of invention 16.
[0086]
Further, in the above embodiment, the document data extracting unit 20 corresponds to the information extracting means of the invention 1 or 13, the document extracting means of the invention 2 or 14, or the document data extracting means of the invention 3 or 4, and The unit 20 corresponds to the information extraction step of the invention 15 or the document extraction step of the invention 16. The document division unit 30 corresponds to the document division unit of the invention 9 or 10, the document vector generation unit 32 corresponds to the document vector generation unit of the invention 9, 11, or 12, and the vector operation similarity calculation unit 34 , Or the vector operation similarity calculating means of the invention 9 or 12.
[0087]
In the above-described embodiment, the configuration is such that the user's preference is reflected only on the degree of duplication of the document. However, the present invention is not limited to this, and the configuration may be such that the user's preference is also reflected on the content of the document. . Specifically, for example, the following two configurations can be proposed.
FIG. 19 shows another embodiment of the document extracting apparatus 10 according to the present invention.
[0088]
As shown in FIG. 19, the document extracting device 10 selects a document data from the document data registration DB 12 based on the user information in the document data registration DB 12, the user information registration DB 18, and the user information registration DB 18. Unit 22, a similarity calculating unit 14 for calculating the similarity between the document data selected by the document data selecting unit 22, and a document data selecting unit based on the similarity calculated by the similarity calculating unit 14. 22, a user data registration DB 18 in which user information is registered, and a user of the user information registration DB 18 from among the document data groups classified by the document data classification unit 16. And a document data extraction unit 20 for extracting document data based on the information.
[0089]
As a result, after selecting the document data having the content suitable for the user's desire, the document data having a large similarity is excluded from the selected document data. Document extraction can be performed with emphasis on user preference. For example, it is possible to provide suitable information to a user who seeks information that suits his or her preference rather than wide information.
[0090]
In this case, the document data registration DB 12 corresponds to the document data storage unit of the invention 6 or 8, the user information registration DB 18 corresponds to the user information storage unit of the invention 6 or 8, and the similarity calculation unit 14 The document data classification unit 16 corresponds to the sixth or eighth similarity calculation means, and corresponds to the document data classification means of the sixth or eighth invention. Further, the document data selecting section 22 corresponds to the document data selecting means of the sixth aspect.
[0091]
FIG. 20 shows another embodiment of the document extracting apparatus 10 according to the present invention.
As shown in FIG. 20, the document extraction device 10 includes a document data registration DB 12, a user information registration DB 18, and a similarity calculation unit 14 that calculates the similarity between the document data of the document data in the document data registration DB 12. A document data classification unit 16 that hierarchically classifies document data in the document data registration DB 12 based on the similarity calculated by the similarity calculation unit 14, a user information registration DB 18 in which user information is registered, and a document data classification unit 16 A document data extraction unit 20 for extracting document data from the document data group classified by the user information based on the user information of the user information registration DB 18, and a user data registration DB 18 for extracting the document data from the document data group extracted by the document data extraction unit 20. A document data selection unit 22 for selecting document data based on user information.
[0092]
As a result, after the document data having a high degree of similarity is excluded, the document data having the content suitable for the user's wish is selected from the document data. A document can be extracted with emphasis on the uniformity of the document. For example, it is possible to appropriately provide information to a user who requests information wider than information suitable for his / her preference.
[0093]
In this case, the user information registration DB 18 corresponds to the user information storage unit of the invention 7 or 8, the document data extraction unit 20 corresponds to the document data extraction unit of the invention 7, and the document data selection unit 22 corresponds to the invention 7 or 8. Document data selection means. The configuration of FIG. 19 is referred to as Configuration A and the configuration of FIG. 20 is referred to as Configuration B, and differences between Configurations A and B will be described in detail.
[0094]
As an attribute for selecting the document data of the user A, the selection range is expanded to the news category of "major league" and, if the news category is small, to the upper concept "sports". It is assumed that the number of news items selected by the document data selection unit 22 is five. It is assumed that the information category of “major league” and “sports” is specified using a keyword group, a related sentence, or some other known technique, including that the keyword is directly specified. The attribute of redundancy exclusion is assumed to be set in the same way separately, but for simplicity, the article number is written in the column of "duplicate" in the following example, Indicates that the candidate is excluded by redundancy exclusion.
[0095]
FIGS. 21 and 22 are diagrams for explaining the difference between the configuration of FIG. 19 and the configuration of FIG.
In FIGS. 21 and 22, the “degree of relevance” is a numerical value obtained as a result of calculating by the document data selection unit 22 how much each article matches the information category set by the user A. The "duplicate" column shows that the result of calculation according to the attribute for eliminating redundancy specified separately is a candidate to be excluded because it is duplicated with the article written in that column I have. In the examples of FIGS. 21 and 22, article 1 overlaps with article 3, indicating that article 1 is a candidate for exclusion.
[0096]
In this example, the difference between the configurations A and B appears whether or not the article 10 exists. This is because, in the example of FIG. 21 (Configuration A), the user's preference is more emphasized and article selection more biased toward that preference is performed, whereas in the example of FIG. It can be said that, while emphasizing, articles are selected without redundancy without departing from the scope.
[0097]
From this result, it can be considered that the example of FIG. 22 in which the information amount is usually five while the redundancy is excluded is more preferable. In the example of FIG. 21, the absolute article number is likely to be 5 or less (the number is unlikely to be guaranteed), whereas in the example of FIG. 22, the number is likely to be guaranteed. However, there is a great possibility of being influenced by the determination of the matching degree and the determination of the overlap, and it is not always clear which is better.
[0098]
In the above embodiment, the document D 1 , D 2 And any of Document D 3 , D 4 The arithmetic mean is used to calculate the redundancy for a combination of three documents including the above. However, the present invention is not limited to this. It is also possible to adopt a method in which the maximum value or the minimum value among the similarities is used as the redundancy.
[0099]
The geometric mean has the following characteristics as compared to the arithmetic mean, similar to the principle that, if the length of “rectangle + width” is constant in the area of the rectangle, the area becomes larger as the square becomes closer to the square.
(A) A combination having a large variation in similarity between document data tends to be small as a calculation result.
(B) Combinations with small variations in similarity between document data tend to be large (not small) as a calculation result.
For example, when the redundancy is calculated using arithmetic averaging for a combination of selecting three documents in the above embodiment, the result is as follows. Here, (1) is (D 1 , D 3 , D 4 ), And (2) is the result of (D 2 , D 3 , D 4 ) Is the calculation result.
(1) (0.3 + 0.5 + 0.3) /3=0.37
(2) (0.2 + 0.8 + 0.3) /3=0.43
In the above embodiment, when the redundancy is calculated using the geometric mean with respect to the combination for selecting three documents, the result is as follows. Here, (1) is (D 1 , D 3 , D 4 ), And (2) is the result of (D 2 , D 3 , D 4 ) Is the calculation result.
(1) 3√ (0.3 * 0.5 * 0.3) = 0.356
(2) 3√ (0.2 * 0.8 * 0.3) = 0.363
Comparing the arithmetic mean (1) and (2) with the geometric mean (1) and (2), the result of (2) is almost the same, while the result of geometric mean (1) is It is smaller than the average (1). This is because (2) is a combination in which the similarity between document data varies, and in the arithmetic averaging, even if the average is pushed up to one higher numerical value, the method of geometric mean averaging is used. Is used, if the degree of redundancy is partially similar, the result is unaffected. Therefore, in the case of arithmetic averaging, it can be said that the method of calculating redundancy of a document group that is linearly affected when a combination having a large similarity between document data is mixed even in a part. According to this method, when the similarity between most pieces of document data is large, it is determined that the redundancy of the document group is large. However, when the similarity between some pieces of document data is large only (that is, In the case of a group of documents including many dissimilar documents), the document has a feature of determining that the redundancy is low. In both cases of arithmetic mean and geometric mean, if a document with low redundancy is selected, the document D 1 Is selected, and a document close to the set redundancy is selected, the document D 2 You just have to select
[0100]
Further, in the above embodiment, when the redundancy is calculated using the minimum value among the similarities between the respective document data with respect to the combination for selecting three documents, the result is as follows. Here, (1) is (D 1 , D 3 , D 4 ), And (2) is the result of (D 2 , D 3 , D 4 ) Is the calculation result.
(1) min (0.3, 0.5, 0.3) = 0.3
(2) min (0.2, 0.8, 0.3) = 0.2
In this method, the minimum value among the combinations of similarities between document data is used as the redundancy of the document group. It becomes smaller when there is at least a combination with a small degree of redundancy in a certain document group. In other words, not all are similar, and it can be said that the index is reduced when at least some characteristic document is included. This may not be the best indicator of overall document group redundancy. However, for example, it is effective when a local index is generally required so as not to overlook a characteristic document which is usually included in a document group and has a high degree of redundancy. . In this case, if a document with low redundancy is selected, the document D 2 Is selected, and a document close to the set redundancy is selected, the document D 1 You just have to select
[0101]
Further, in the above embodiment, when the redundancy is calculated using the maximum value among the similarities between the respective document data for the combination of selecting three documents, the result is as follows. Here, (1) is (D 1 , D 3 , D 4 ), And (2) is the result of (D 2 , D 3 , D 4 ) Is the calculation result.
(1) max (0.3,0.5,0.3) = 0.5
(2) max (0.2, 0.8, 0.3) = 0.8
In this method, the maximum value among combinations of similarities between document data is used as the redundancy of the document group. It becomes larger when there is at least a combination having a large redundancy in a certain document group. In other words, it can be said that the index increases when there is a document that is slightly similar. This may not be the best indicator of overall document group redundancy. However, this is effective when a local index is required, for example, when it is not desired to select a combination of documents that are even slightly redundant, or when it is desired to completely eliminate document redundancy below a certain threshold. In this case, if a document with low redundancy is selected, the document D 1 Is selected, and a document close to the set redundancy is selected, the document D 2 You just have to select
[0102]
Further, in the above-described embodiment, the configuration is such that the distance between the document vectors is used. However, the configuration is not limited to this, and the configuration may be such that the angle (cosine value) between the document vectors is used.
Further, in the above-described embodiment, the case where the control program stored in the ROM 52 is executed in executing the processing shown in the flowchart of FIG. 8 has been described. However, the present invention is not limited to this. The program may be read from the storage medium storing the program into the RAM 54 and executed.
[0103]
Here, the storage medium is a semiconductor storage medium such as a RAM or a ROM, a magnetic storage type storage medium such as an FD or HD, an optical read type storage medium such as a CD, CDV, LD, or DVD, or a magnetic storage type storage such as an MO. / Optical reading type storage media, including any storage media that can be read by a computer, regardless of an electronic, magnetic, optical, or other reading method.
[0104]
In the above embodiment, the information extraction system, the document extraction system, the information extraction program, the document extraction program, and the information extraction method and the document extraction method according to the present invention, as shown in FIG. Although the present invention has been applied to the case where a small number of documents are provided to the user, the present invention is not limited to this, and can be applied to other cases without departing from the gist of the present invention.
[Brief description of the drawings]
FIG. 1 shows an embodiment of a document extraction device 10 according to the present invention.
FIG. 2 is a block diagram illustrating a configuration of a computer 100.
FIG. 3 is a diagram showing an example of character string division by morphological analysis.
FIG. 4 is a diagram showing an example of character string division by n-gram.
FIG. 5 is a diagram showing an example of character string division by a stop word.
FIG. 6 is a diagram showing a character string-document matrix.
FIG. 7 is a diagram showing a character string division result by morphological analysis.
FIG. 8 is a flowchart illustrating a part of a document data extraction process.
FIG. 9 is a diagram showing document vectors and their correlations.
FIG. 10 is a diagram showing a symmetric matrix between documents.
FIG. 11 is a diagram showing a symmetric matrix between documents.
FIG. 12 is a diagram obtained by converting a symmetric matrix of the similarity between documents in FIG.
FIG. 13: Document D 1 ~ D 4 FIG. 9 is a diagram for describing a case of calculating an inter-cluster distance of a cluster to which.
FIG. 14: Document D 1 ~ D 4 FIG. 9 is a diagram for describing a case of calculating an inter-cluster distance of a cluster to which.
FIG. 15 shows a document D constructed by cluster analysis. 1 ~ D 4 FIG. 3 is a diagram showing a hierarchical structure of FIG.
FIG. 16 is a diagram for explaining a case where document data is extracted from a document data group classified by the document data classification unit 16;
FIG. 17: Document D 1 ~ D 4 FIG. 9 is a diagram for explaining a case where a document to be provided to a user B is selected from among the documents.
FIG. 18: Document D 1 ~ D 4 FIG. 9 is a diagram for explaining a case where a document to be provided to a user A is selected from among the documents.
FIG. 19 shows another embodiment of the document extracting apparatus 10 according to the present invention.
FIG. 20 shows another embodiment of the document extracting apparatus 10 according to the present invention.
FIG. 21 is a diagram for explaining a difference between the configuration of FIG. 19 and the configuration of FIG. 20;
FIG. 22 is a diagram for explaining a difference between the configuration in FIG. 19 and the configuration in FIG. 20;
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 10 ... Document extraction apparatus, 12 ... Document data registration DB, 14 ... Similarity calculation part, 16 ... Document data classification part, 18 ... User information registration DB, 20 ... Document data extraction part, 22 ... Document data selection part, 30 ... Document division unit, 32 Document vector generation unit, 34 Vector operation similarity calculation unit, 50 CPU, 52 ROM, 54 RAM, 58 I / F, 60 input device, 64 display device, 100 Computer, D 1 ~ D m … Document, S… Information source

Claims (16)

抽出対象となる複数の情報のなかから情報を抽出するシステムであって、
前記複数の情報についてそれら情報相互間の類似度を算出する類似度算出手段と、前記類似度算出手段で算出した類似度に基づいて前記複数の情報を階層的に分類する情報分類手段と、前記情報分類手段で分類した情報群のなかから所定値及び所定の分類規則に基づいて前記情報を抽出する情報抽出手段とを備えることを特徴とする情報抽出システム。
A system for extracting information from a plurality of pieces of information to be extracted,
A similarity calculating unit that calculates a similarity between the plurality of pieces of information; an information classifying unit that hierarchically classifies the plurality of pieces of information based on the similarity calculated by the similarity calculating unit; An information extraction system comprising: an information extraction unit that extracts the information from a group of information classified by the information classification unit based on a predetermined value and a predetermined classification rule.
抽出対象となる複数の文書のなかから文書を抽出するシステムであって、
前記複数の文書についてそれら文書相互間の類似度を算出する類似度算出手段と、前記類似度算出手段で算出した類似度に基づいて前記複数の文書を階層的に分類する文書分類手段と、前記文書分類手段で分類した文書群のなかから所定値及び所定の分類規則に基づいて前記文書を抽出する文書抽出手段とを備えることを特徴とする文書抽出システム。
A system for extracting a document from a plurality of documents to be extracted,
A similarity calculating unit that calculates a similarity between the plurality of documents, a document classifying unit that hierarchically classifies the plurality of documents based on the similarity calculated by the similarity calculating unit; A document extraction unit for extracting the document from a group of documents classified by the document classification unit based on a predetermined value and a predetermined classification rule.
抽出対象となる複数の文書のなかから文書を抽出するシステムであって、
複数の文書データを記憶するための文書データ記憶手段と、前記文書データ記憶手段の文書データについてそれら文書データ相互間の類似度を算出する類似度算出手段と、前記類似度算出手段で算出した類似度に基づいて前記文書データ記憶手段の文書データを階層的に分類する文書データ分類手段と、前記文書データ分類手段で分類した文書データ群のなかから所定値及び所定の分類規則に基づいて前記文書データを抽出する文書データ抽出手段とを備えることを特徴とする文書抽出システム。
A system for extracting a document from a plurality of documents to be extracted,
Document data storage means for storing a plurality of document data; similarity calculation means for calculating similarity between the document data in the document data storage means; and similarity calculated by the similarity calculation means Document data classifying means for classifying the document data in the document data storage means hierarchically based on the degree; A document extraction system comprising: document data extraction means for extracting data.
請求項3において、
前記文書データ分類手段は、前記類似度算出手段で算出した類似度に基づいて、前記文書データを分類したときの分類間の距離であって分類間の類似度が大きいものほど距離が小さくなるクラスタ間距離を算出し、算出したクラスタ間距離に基づいて、類似度が大きい文書データ同士ほど近い階層となるように、前記文書データ記憶手段の文書データを階層的に分類するようになっており、
前記文書データ抽出手段は、前記文書データ分類手段で分類した階層構造のうち階層下のクラスタ間距離に相当する冗長度が所定値以下となる点を特定し、特定した点の階層下の文書データを前記文書データ群のなかから抽出するようになっていることを特徴とする文書抽出システム。
In claim 3,
The document data classifying unit is a cluster based on the similarity calculated by the similarity calculating unit, wherein the distance between the classes when the document data is classified, and the larger the similarity between the classes, the smaller the distance. Based on the calculated inter-cluster distance, based on the calculated inter-cluster distance, the document data of the document data storage means is hierarchically classified so that the document data having a higher similarity has a closer hierarchy.
The document data extracting means specifies a point in the hierarchical structure classified by the document data classifying means, at which the redundancy corresponding to the inter-cluster distance under the hierarchy is equal to or less than a predetermined value, and the document data under the hierarchy of the specified point Is extracted from the document data group.
請求項3及び4のいずれかにおいて、
前記文書データ分類手段は、クラスタリング手法又はグルーピング手法により前記文書データ記憶手段の文書データを階層的に分類するようになっていることを特徴とする文書抽出システム。
In any one of claims 3 and 4,
The document extraction system, wherein the document data classification means classifies the document data in the document data storage means hierarchically by a clustering technique or a grouping technique.
請求項3乃至5のいずれかにおいて、
さらに、ユーザに関するユーザ情報を記憶するためのユーザ情報記憶手段と、前記ユーザ情報記憶手段のユーザ情報に基づいて前記文書データ記憶手段のなかから複数の文書データを選択する文書データ選択手段とを備え、
前記類似度算出手段及び前記文書データ分類手段は、前記文書データ選択手段で選択した文書データを対象として前記類似度の算出及び前記文書データの分類を行うようになっていることを特徴とする文書抽出システム。
In any one of claims 3 to 5,
The apparatus further includes user information storage means for storing user information relating to a user, and document data selection means for selecting a plurality of document data from the document data storage means based on the user information in the user information storage means. ,
The document, wherein the similarity calculating means and the document data classifying means calculate the similarity and classify the document data for the document data selected by the document data selecting means. Extraction system.
請求項3乃至5のいずれかにおいて、
さらに、ユーザに関するユーザ情報を記憶するためのユーザ情報記憶手段と、前記文書データ抽出手段で抽出した文書データ群のなかから前記ユーザ情報記憶手段のユーザ情報に基づいて文書データを選択する文書データ選択手段とを備えることを特徴とする文書抽出システム。
In any one of claims 3 to 5,
A user information storage unit for storing user information relating to the user; and a document data selection unit for selecting document data from a document data group extracted by the document data extraction unit based on the user information in the user information storage unit. And a document extraction system.
請求項6及び7のいずれかにおいて、
前記ユーザ情報は、前記所定値を含み、
前記文書データ分類手段は、前記ユーザ情報記憶手段のユーザ情報及び前記類似度算出手段で算出した類似度に基づいて前記文書データ記憶手段の文書データを階層的に分類するようになっていることを特徴とする文書抽出システム。
In any one of claims 6 and 7,
The user information includes the predetermined value,
The document data classification means classifies the document data of the document data storage means hierarchically based on the user information of the user information storage means and the similarity calculated by the similarity calculation means. Document extraction system to be characterized.
請求項3乃至8のいずれかにおいて、
前記類似度算出手段は、前記文書データ記憶手段の各文書データの文書を所定の文字要素に分割する文書分割手段と、前記文書分割手段で分割した文字要素の出現頻度に基づいて前記文書データ記憶手段の各文書データについて文書ベクトルを生成する文書ベクトル生成手段と、前記文書ベクトル生成手段で生成した文書ベクトルに基づいて前記文書データ記憶手段の文書データ相互間の類似度を算出するベクトル演算類似度算出手段とを有することを特徴とする文書抽出システム。
In any one of claims 3 to 8,
The similarity calculating unit includes a document dividing unit that divides a document of each document data in the document data storing unit into predetermined character elements, and stores the document data based on an appearance frequency of the character elements divided by the document dividing unit. A document vector generating means for generating a document vector for each document data of the means, and a vector operation similarity calculating a similarity between the document data in the document data storage means based on the document vector generated by the document vector generating means. A document extraction system comprising: a calculation unit.
請求項9において、
前記文書分割手段は、形態素解析、n−gram及びストップワードのいずれかの文字要素分割方式を用いて前記文書データ記憶手段の各文書データの文書を所定の文字要素に分割するようになっていることを特徴とする文書抽出システム。
In claim 9,
The document division unit divides each document data document in the document data storage unit into predetermined character elements by using any one of morphological analysis, n-gram, and stop word character element division methods. A document extraction system characterized in that:
請求項9及び10のいずれかにおいて、
前記文書ベクトル生成手段は、前記文字要素が出現する文書における当該文字要素の出現頻度、及び前記複数の文書における前記文字要素の出現頻度に基づいて、前記文書データ記憶手段の各文書データについてTFIDF(Term Frequency & Inverse Document Frequency)で重み付けした文書ベクトルを生成するようになっていることを特徴とする文書抽出システム。
In any one of claims 9 and 10,
The document vector generation unit is configured to determine, for each document data in the document data storage unit, a TFIDF () based on the frequency of occurrence of the character element in the document in which the character element appears and the frequency of occurrence of the character element in the plurality of documents. A document extraction system characterized by generating a document vector weighted by Term Frequency & Inverse Document Frequency).
請求項9乃至11のいずれかにおいて、
前記ベクトル演算類似度算出手段は、前記文書ベクトル生成手段で生成した文書ベクトルに基づいてベクトル空間法により文書データ相互間の類似度を算出するようになっていることを特徴とする文書抽出システム。
In any one of claims 9 to 11,
The document extraction system according to claim 1, wherein said vector operation similarity calculating means calculates similarity between document data by a vector space method based on the document vectors generated by said document vector generating means.
抽出対象となる複数の情報のなかから情報を抽出するプログラムであって、
前記複数の情報についてそれら情報相互間の類似度を算出する類似度算出手段、前記類似度算出手段で算出した類似度に基づいて前記複数の情報を階層的に分類する情報分類手段、並びに前記情報分類手段で分類した情報群のなかから所定値及び所定の分類規則に基づいて前記情報を抽出する情報抽出手段として実現される処理をコンピュータに実行させるためのプログラムであることを特徴とする情報抽出プログラム。
A program for extracting information from a plurality of pieces of information to be extracted,
A similarity calculating unit that calculates a similarity between the plurality of pieces of information, an information classifying unit that hierarchically classifies the plurality of pieces of information based on the similarity calculated by the similarity calculating unit, and the information An information extraction method characterized by being a program for causing a computer to execute processing realized as information extraction means for extracting the information from a group of information classified by the classification means based on a predetermined value and a predetermined classification rule. program.
抽出対象となる複数の文書のなかから文書を抽出するプログラムであって、
前記複数の文書についてそれら文書相互間の類似度を算出する類似度算出手段、前記類似度算出手段で算出した類似度に基づいて前記複数の文書を階層的に分類する文書分類手段、並びに前記文書分類手段で分類した文書群のなかから所定値及び所定の分類規則に基づいて前記文書を抽出する文書抽出手段として実現される処理をコンピュータに実行させるためのプログラムであることを特徴とする文書抽出プログラム。
A program for extracting a document from a plurality of documents to be extracted,
A similarity calculating unit that calculates a similarity between the plurality of documents, a document classifying unit that hierarchically classifies the plurality of documents based on the similarity calculated by the similarity calculating unit, and the document Document extraction characterized by being a program for causing a computer to execute processing realized as document extraction means for extracting the document from a group of documents classified by the classification means based on a predetermined value and a predetermined classification rule. program.
抽出対象となる複数の情報のなかから情報を抽出する方法であって、
前記複数の情報についてそれら情報相互間の類似度を算出する類似度算出ステップと、前記類似度算出ステップで算出した類似度に基づいて前記複数の情報を階層的に分類する情報分類ステップと、前記情報分類ステップで分類した情報群のなかから所定値及び所定の分類規則に基づいて前記情報を抽出する情報抽出ステップとを含むことを特徴とする情報抽出方法。
A method of extracting information from a plurality of pieces of information to be extracted,
A similarity calculation step of calculating a similarity between the plurality of pieces of information, an information classification step of hierarchically classifying the plurality of pieces of information based on the similarity calculated in the similarity calculation step; An information extraction step of extracting the information from the information group classified in the information classification step based on a predetermined value and a predetermined classification rule.
抽出対象となる複数の文書のなかから文書を抽出する方法であって、
前記複数の文書についてそれら文書相互間の類似度を算出する類似度算出ステップと、前記類似度算出ステップで算出した類似度に基づいて前記複数の文書を階層的に分類する文書分類ステップと、前記文書分類ステップで分類した文書群のなかから所定値及び所定の分類規則に基づいて前記文書を抽出する文書抽出ステップとを含むことを特徴とする文書抽出方法。
A method for extracting a document from a plurality of documents to be extracted,
A similarity calculation step of calculating a similarity between the plurality of documents, a document classification step of hierarchically classifying the plurality of documents based on the similarity calculated in the similarity calculation step; A document extraction step of extracting the document from a group of documents classified in the document classification step based on a predetermined value and a predetermined classification rule.
JP2003111982A 2003-04-16 2003-04-16 Information extracting system, program and method, and document extracting system, program and method Pending JP2004318527A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003111982A JP2004318527A (en) 2003-04-16 2003-04-16 Information extracting system, program and method, and document extracting system, program and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003111982A JP2004318527A (en) 2003-04-16 2003-04-16 Information extracting system, program and method, and document extracting system, program and method

Publications (1)

Publication Number Publication Date
JP2004318527A true JP2004318527A (en) 2004-11-11

Family

ID=33472384

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003111982A Pending JP2004318527A (en) 2003-04-16 2003-04-16 Information extracting system, program and method, and document extracting system, program and method

Country Status (1)

Country Link
JP (1) JP2004318527A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008041364A1 (en) * 2006-09-29 2008-04-10 Justsystems Corporation Document searching device, document searching method, and document searching program
JP2012212329A (en) * 2011-03-31 2012-11-01 Tottori Univ Information analyzer for analyzing redundancy of text data
JP2012234522A (en) * 2011-05-04 2012-11-29 Nhn Corp Improved similar document detecting method, device, and computer-readable recording medium
JPWO2011078186A1 (en) * 2009-12-22 2013-05-09 日本電気株式会社 Document clustering system, document clustering method and program
CN109446397A (en) * 2018-10-24 2019-03-08 杭州凡闻科技有限公司 A kind of data digging method and system

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008041364A1 (en) * 2006-09-29 2008-04-10 Justsystems Corporation Document searching device, document searching method, and document searching program
JP2008090401A (en) * 2006-09-29 2008-04-17 Just Syst Corp Document retrieval apparatus, method and program
JPWO2011078186A1 (en) * 2009-12-22 2013-05-09 日本電気株式会社 Document clustering system, document clustering method and program
JP5817531B2 (en) * 2009-12-22 2015-11-18 日本電気株式会社 Document clustering system, document clustering method and program
JP2012212329A (en) * 2011-03-31 2012-11-01 Tottori Univ Information analyzer for analyzing redundancy of text data
JP2012234522A (en) * 2011-05-04 2012-11-29 Nhn Corp Improved similar document detecting method, device, and computer-readable recording medium
US9448999B2 (en) 2011-05-04 2016-09-20 Nhn Corporation Method and device to detect similar documents
CN109446397A (en) * 2018-10-24 2019-03-08 杭州凡闻科技有限公司 A kind of data digging method and system

Similar Documents

Publication Publication Date Title
Peng et al. Information extraction from research papers using conditional random fields
JP3781005B2 (en) Document extraction apparatus, document extraction program, and document extraction method
RU2628431C1 (en) Selection of text classifier parameter based on semantic characteristics
RU2628436C1 (en) Classification of texts on natural language based on semantic signs
CN108763402B (en) Class-centered vector text classification method based on dependency relationship, part of speech and semantic dictionary
US8090724B1 (en) Document analysis and multi-word term detector
TWI536181B (en) Language identification in multilingual text
JP7251181B2 (en) Parallel translation processing method and parallel translation processing program
EP2477125A1 (en) Word pair acquisition device, word pair acquisition method, and program
JP5754019B2 (en) Synonym extraction system, method and program
CN114254653A (en) Scientific and technological project text semantic extraction and representation analysis method
CN111090731A (en) Electric power public opinion abstract extraction optimization method and system based on topic clustering
JP2011227688A (en) Method and device for extracting relation between two entities in text corpus
JPWO2014002775A1 (en) Synonym extraction system, method and recording medium
JP4979637B2 (en) Compound word break estimation device, method, and program for estimating compound word break position
Zhang et al. Product classification using microdata annotations
JP4356347B2 (en) Document extraction system
JP2006301959A (en) Document processing device, document processing method, document processing program, and computer-readable recording medium
JP2004318527A (en) Information extracting system, program and method, and document extracting system, program and method
Pal et al. Word sense disambiguation in Bengali: An unsupervised approach
CN110688559A (en) Retrieval method and device
JP2004086262A (en) Visual information classification method, visual information classification device, visual information classification program, and recording medium storing the program
WO2015159702A1 (en) Partial-information extraction system
CN113919352A (en) Database sensitive data identification method and device
JP2004318526A (en) Information extracting system, program and method; and document extracting system, program and method