JP2004164036A

JP2004164036A - 文書の共通性評価方法

Info

Publication number: JP2004164036A
Application number: JP2002326157A
Authority: JP
Inventors: Takahiko Kawatani; 隆彦川谷
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 2002-11-08
Filing date: 2002-11-08
Publication date: 2004-06-10
Also published as: US7392175B2; US20040093557A1

Abstract

【課題】自然言語処理において３個以上の文書がどの程度話題を共通にしているかを表す尺度はこれまで知られていなかった。また、必ずしも話題が同じでない文書集合からの共通の話題を述べた文書の抽出、各文書、各文への共通話題への近さに応じたスコア‐の付与は、従来のクラスタリング技術では完全ではなかった。
【解決手段】各文を各成分が対応する用語の有無を表す２値ベクトルで表したうえで、文書間の共通ベクトルの概念を導入する。共通ベクトルは、各文書から１つづつ取り出した文ベクトル群において全てのベクトルで１となる成分のみが１となり他はゼロとなるようなベクトルである。各共通ベクトルにおける値が非ゼロの成分数の全共通ベクトルに対する和、もしくは２乗和を用いることにより、文書集合の共通度を求める。また、各文を全共通ベクトルに射影し、射影値の和等により、各文が共通話題にどの程度近いかを求める。
【選択図】図３

Description

【０００１】
【産業上の利用分野】
本発明は文書の要約をはじめとする自然言語処理に関するものであり、特に多数の文書間の話題の共通性を定量的に評価できるようにすることによって前記処理の高性能化を図るものである。
【０００２】
【従来の技術】
複数の文書からなる文書集合が与えられたとして、この文書集合の話題共通性の定量的な評価のためには次のような技術が必須である。
（Ａ）文書集合に共通の話題が存在するか否かを判断できるよう、各文書の話題がどの程度共通しているか数値で示す。
（Ｂ）共通の話題に近い話題の文書、または文を文書集合から選択して全文書の共通の話題を把握できるよう、共通の話題への近さに応じて各文書、または各文にスコア−を与える。
（Ｃ）話題が全文書に共通していなくとも、話題の共通する文書群があればそれを抽出する。
【０００３】
これらの内、Ａ）については、２文書の場合には話題の共通性のスコアーはその２文書間の類似度そのものと考えることができ、これまで種々の類似度の尺度が提案されてきた。最も代表的なのは余弦類似度であり、これは文書に現れる各用語の頻度を成分とするベクトルで文書を表現しておき、２文書間の類似度をそれぞれのベクトルのなす余弦によって定義するというものである。
また、Ｂ）、Ｃ）は文書集合からの共通話題の抽出に関わる技術である。このような処理は複数文書要約やＴＤＴ（ＴｏｐｉｃＤｅｔｅｃｔｉｏｎａｎｄＴｒａｃｋｉｎｇ）などで重要な技術となっている。従来は、共通話題の抽出は、文書のクラスタリングを行った後、クラスター毎にクラスターを代表しうる文や文書タイトルを選択することにより行われていた。また、最近は文やパッセージ単位にクラスタリングを行い、クラスター毎に重要なパッセージを選択することで共通話題を抽出する方法も現れている。何れにせよこれまでは共通話題の抽出にクラスタリングは欠かせない技術となっている。クラスタリングは階層的手法と非階層的な手法に大別される。
【０００４】
階層的な手法は、さらにボトムアップのアプローチとトップダウンのアプローチに分けられる。前者では、初期状態として各文書をクラスターの核とし、最も近いクラスターをマージするという処理をクラスター数が１になるまで繰り返す。これにより文書集合は木構造で表現されるようになる。後者では、全文書が１つのクラスターに属するという状態から出発し、例えばひとつのクラスター中のあらゆる文書対の中で最も低い類似度が閾値以下の場合、そのクラスターを分割するという処理を繰り返す。非階層的な手法では、予め指定された数のクラスターが何らかの基準を満たすように作成される。よく知られている方法は、ステップ１：指定されたクラスター数の文書をランダムに選択して各クラスターの中心とする、ステップ２：各文書について各クラスター中心との近さを求め、各文書を最も近いクラスターに帰属させる、ステップ３：各クラスターに帰属する文書ベクトルの平均により各クラスターの中心を求める、ステップ４：ステップ２）の処理を実行し、各文書の帰属するクラスターに変化がなければ終了、そうでなければステップ３へ、という方法である。
【０００５】
【発明が解消しようとする課題】
Ａ）については、上述のように、３文書以上の場合に対しては、２文書のときの類似度に相当する尺度は知られていなかった。そのため、同じような話題を述べている３文書の組と、４文書の組が存在したとき、“どちらの組が内容が揃っているか？”というような問題には答えようがなかった。本発明では、このような問題に対しても答えられるような尺度を提供する。
また、Ｂ）、Ｃ）の共通話題の抽出において、ボトムアップの階層的なクラスタリング処理では、各レベルのクラスターが意味のあるグルーピングとなっている保証はない。意味のあるグルーピングを指向するには、類似度が閾値を超えるクラスター対のみをマージするようにすればよいが、閾値を如何に決定するかが問題となる。トップダウンの階層的なクラスタリング処理の場合も、クラスターを分割するか否かの閾値を如何に決定するかが問題となる。また、階層的な手法では処理量の問題も無視できない。非階層的な手法では、与えられた文書集合が何個のクラスターから構成されるか事前の知識が要求されるが、これは一般的には得られない情報であり、クラスター数を正しく指定することは困難である。このようにクラスタリング技術そのものは完成された技術ではないので、共通話題の抽出を従来のクラスタリング技術を用いて行っても最適であるという保証はなかった。このようなことから本発明では従来のクラスタリング技術に依らない共通話題抽出方法を提供する。
【０００６】
【課題を解決するための手段】
本発明において、Ａ）に関する課題を解決するための基本的な考え方は、文書間の情報共通量を求め、次いで求められた情報共通量を文書の長さや文書数に依存しないように正規化を行うというものである。従って、文書間の情報共通量を如何に定義して如何に求めるかが重要となるが、本発明では以下のように行っている。先ず、２つの文を考えると、２つの文の間の情報共通量は共通する用語の数で決まると考える。また、２つの文書間の情報共通量は、各文書から文を１つづつ取り出して組み合わせたとして、組み合わされた文の対における共通用語数の全組み合わせに対する和、もしくは２乗和で決まるとする。この場合文の組み合わせは各文書の文数の積通り存在することになる。３文書以上の場合も、文書間の全ての文の組み合わせを考えればよい。このような文の組み合わせにおける共通用語数の算出を容易にするため、本発明では、各文を各成分が対応する用語の有無を表す２値ベクトルで表したうえで、各文書を文ベクトルの集合で表す。また、２つ以上の文ベクトルの組み合わせに対して、共通ベクトルの概念を導入する。２つのベクトルａ＝（ａ_ｎ）、ｂ＝（ｂ_ｎ）の共通ベクトルをｃ＝（ｃ_ｎ）とする時、本発明の場合、文ベクトルは２値なので、共通ベクトルの成分はＣ_ｎ＝ａ_ｎ×ｂ_ｎによって求めることができる。例えばベクトル（０，１，１，０）と（１，１，０，１）との共通ベクトルは（０，１，０，０）となる。３個以上のベクトルの共通ベクトルの成分は、対応する成分同士の積となる。
【０００７】
簡単な例として、６個の用語が出現し、それぞれが４、３、３個の文からなる文書Ｄ_１、Ｄ_２、Ｄ_３を考える。
【０００８】
【表１】

【０００９】
文書Ｄ_ｒ（ｒ＝１，２，３）のｙ番目の文をＤ_ｒｙで表すこととする。表１はそのような文書Ｄ_１、Ｄ_２、Ｄ_３の文ベクトルの例を示している。表１では文書Ｄ_ｒ（ｒ＝１，２，３）のｙ番目の文をＤ_ｒｙで表している。表１の文書Ｄ_１、Ｄ_２、Ｄ_３の文の組み合わせは４×３×３＝３６通り存在することになるが、表２はそのうちの６通りについて共通ベクトルと共通用語数を示している。
【００１０】
【表２】

【００１１】
文Ｄ_１１、Ｄ_２１、Ｄ_３１の組み合わせの場合、３文書とも１となる文ベクトルの成分は、３番目と６番目であり、共通ベクトルは３番目と６番目のみが値１をとるベクトルとなる。文Ｄ_１１、Ｄ_２１、Ｄ_３１の共通用語数は共通ベクトルで値が１の成分数であるから、２となる。文Ｄ_１１、Ｄ_２１、Ｄ_３２の組み合わせの場合には、共通ベクトルは３番目の成分のみが値１となり、共通用語数は１となる。文書Ｄ_１、Ｄ_２、Ｄ_３の情報共通量は、３６個の文の組み合わせの各々における共通用語数の和、もしくは共通用語数の２乗和である。
また本発明では、共通用語数の和、もしくは２乗和の算出を容易にするため、共通ベクトルの共起行列の概念を導入する。共通ベクトルの共起行列をＳ^Ｃとすると、その成分Ｓ^Ｃ _ｍｎは各共通ベクトルのｍ番目の成分とｎ番目の成分との積を求め、その積の値をすべての共通ベクトルについて合計したものである。上記の例では３６個の共通ベクトルを用いてＳ^Ｃを求めることになる。共通ベクトルの共起行列を用いると、共通用語数の和は共通ベクトルの共起行列の対角成分の和で、共通用語数の２乗和は共通ベクトルの共起行列の全成分の和で与えられる。従って、共通ベクトルの共起行列を如何に効率的に求めるかが重要と成るが、本発明では共通ベクトルを得ることなく求める方法を提供する。
【００１２】
また、Ｂ）における課題を解決するためのアプローチとしては以下の２通りの考えられる。ひとつは、対象となる文書もしくは文を本来の文書集合に加えて新しい文書集合を作成し、新しい文書集合での情報共通量を求めると、本来の文書集合の共通の話題に近い文書・文ほど上記情報共通量の値は大きくなるであろうという考え方である。２番目は、対象となる文書もしくは文と本来の文書集合から求められる共通ベクトル集合との間で類似度を求めると、この類似度の高い文書・文ほど本来の文書集合の共通の話題に近いであろうという考え方である。
【００１３】
Ｃ）は話題が全文書に共通せず、部分的に共通性が存在する場合を対象にしている。Ｃ）における課題を解決するためのアプローチは次の通りである。上記では、共通ベクトルは、組み合わされた文ベクトル群において全文書が値１となる成分に限って値１を与えていた。言わば全文書一致形の共通ベクトルであった。それに対して、ここでは特定の成分に着目したとき、その成分の値が１となる文ベクトルの数がある閾値を越えたときに共通ベクトルの当該成分に値１を与えるようにする。これは不一致許容形の共通ベクトルとも呼ぶべきものである。このように得られた共通ベクトル集合を用いて上記Ｂ）のアプローチを採用すれば、閾値を適当に設定することにより、部分的に存在する共通話題に対する各文書・文の近さが求められる。
【００１４】
上述のように、本発明によれば複数の文書の話題がどの程度共通するかをスコアーで示すことができるようになり、これは文書の話題共通性の解析の重要な基本技術となる。また、全文書で話題が一致していなくとも、（１）話題を同じにする文書が含まれていればそれらを抽出し、（２）抽出された文書の話題の共通の程度のスコアーを求め、（３）抽出された文書が共有する話題が端的にユーザに分かるよう共通話題に最も近い文を抽出する、という一連の処理が可能となる。これらのうち（１）（３）は従来技術によっても可能な処理であるが、本発明では各文書の各文の間の共通ベクトルという新しい概念を用いた処理がベースになっており、従来に比べより適確な結果が期待できる。
【００１５】
【実施例】
図１は、本発明の概要を示すブロック図である。１１０は文書入力ブロック、１２０は文書前処理ブロック、１３０は文書情報処理ブロック、１４０は出力ブロックを示す。文書入力ブロック１１０には、処理したい文書、文、文書セグメント等が入力される。文書前処理ブロック１２０では、入力された文書の用語検出、形態素解析、文書セグメント区分け等が行われる。文書セグメントについて説明する。文書セグメントは文書を構成する要素であり、その最も基本的な単位は文である。英文の場合、文はピリオドで終わり、その後ろにスペースが続くので文の切出しは容易に行うことができる。その他の文書セグメントへの区分け法としては、ひとつの文が複文からなる場合主節と従属節に分けておく方法、用語の数がほぼ同じになるように複数の文をまとめて文書セグメントとする方法、文書の先頭から含まれる用語の数が同じになるように文とは関係なく区分けする方法などがある。文書情報処理ブロック１３０は以下に詳細に説明するが、情報処理を行い、文書集合共通度、文書・文書集合共通度、文書セグメント・文書集合共通度を求めたり、共通の話題に近い文書、文書セグメント等を抽出する。出力ブロック１４０は文書情報処理ブロック１３０で得られた結果を、ディスプレー等の出力装置に出力する。
【００１６】
図３は与えられた文書集合に対して、各文書の話題がどの程度共通しているかを示す文書集合共通度を算出し、共通の話題への近さに応じて各文書、または各文書セグメントにスコアーを与える本発明の第１の実施例を示す。この発明の方法は、汎用コンピュータ上でこの発明を組み込んだプログラムを走らせることによって実施することができる。図３は、そのようなプログラムを走らせている状態でのコンピュータのフローチャートである。３１は文書集合入力、ブロック３２は用語検出、ブロック３３は形態素解析、ブロック３４は文書セグメント区分けである。ブロック３５は文書セグメントベクトル作成、ブロック３６は文書毎の共起行列算出、３７は共通共起行列算出、３８は文書集合共通度算出、３９は文書（文書セグメント）・文書集合共通度算出である。以下、英文文書を例に実施例を説明する。
【００１７】
先ず、文書集合入力３１において対象となる文書集合が入力される。用語検出３２において、各入力文書から単語、数式、記号系列などを検出する。ここでは、単語や記号系列などを総称して全て用語と呼ぶ。英文の場合、用語同士を分けて書く正書法が確立しているので用語の検出は容易である。次に、形態素解析３３は、各入力文書に対して用語の品詞付けなどの形態素解析を行う。次に文書セグメント区分け３４において各入力文書に対して文書セグメントへの区分けを行う。文書セグメントベクトル作成３５は、先ず文書全体に出現する用語から作成すべきベクトルの次元数および各次元と各用語との対応を決定する。この際に出現する全ての用語の種類にベクトルの成分を対応させなければならないということはなく、品詞付け処理の結果を用い、例えば名詞と動詞と判定された用語のみを用いてベクトルを作成するようにしてもよい。次いで、各文書セグメントに出現する用語に対応する成分のみが値１、他は０となるような文書セグメントベクトルを作成する。
【００１８】
文書毎の共起行列算出３６では、各文書で用語の出現頻度、用語間の共起頻度を反映するような共起行列を作成する。以降、文を文書セグメントとした場合について説明を続ける。ここでは、現れる用語集合が｛ｗ_１，．．，ｗ_Ｍ｝で与えられ、Ｒ個の文書から成る集合Ｄを考える。さらに、ｒ番目の文書をＤ_ｒとすると、Ｄ_ｒはＹ_ｒ個の文からなるものとし、ｙ番目の文及びその文ベクトルをＤ_ｒｙ、ｄ_ｒｙ＝（ｄ_{ｒｙ１，．．，} ｄ_ｒｙＭ）^Ｔとする。ここで、Ｔはベクトルの転置を表す。ｄ_ｒｙは２値ベクトルであり、ｄ_ｒｙｍはｍ番目の用語の有無を表す。文書のＤ_ｒの共起行列をＳ ^ｒとすると、これは
【００１９】
【数５】

【００２０】
で与えられる。式（１）から分かるように、Ｓ^ｒのｍｎ成分は

により与えられる。従って、Ｓ ^ｒ _ｍｍは文書Ｄ_ｒにおいて用語ｍが生起する文の数、Ｓ ^ｒ _ｍｎは用語ｍとｎとが共起する文の数を表すことになる。もし同じ用語が同じ文に２回以上出現しないのであれば、Ｓ ^ｒ _ｍｍは文書Ｄ_ｒにおける用語ｍの出現頻度となる。共通共起行列算出３７では共通ベクトルを対象に共起行列Ｓ^Ｃを求める。これを共通共起行列と呼ぶ。前述のように、各文書から文ベクトルを１つづつ取り出して組み合わせた場合の共通ベクトルの各成分の値は各文ベクトルの対応する成分の積で与えられる。
本実施例の場合、文ベクトルはバイナリなので、共通ベクトルの成分はＣ_ｎ＝ａ_ｎ×ｂ_ｎによって求めることができる。例えばベクトル（０，１，１，０）と（１，１，０，１）との共通ベクトルは（０，１，０，０）となる。３個以上のベクトルの共通ベクトル成分は、対応する成分同士の積となる。ここで、説明を簡単にする為に、３つの文書、Ｄ_１、Ｄ_２、Ｄ_３間の全ての文の組み合わせに対して求められるＹ_１×Ｙ_２×Ｙ_３通りの共通文ベクトルの共起行列Ｓ^Ｃを求める。Ｄ_１、Ｄ_２、Ｄ_３のそれぞれのｉ、ｊ、ｋ番目のベクトルｄ_１ｉ、ｄ_２ｊ、ｄ_３ｋの共通文ベクトルをｃ^ｉｊｋ＝（ｃ^ｉｊｋ _ｍ）で表すと、前述のように、ｃ^ｉｊｋ _ｍはｃ^ｉｊｋ _ｍ＝ｄ_１ｉｍｄ_２ｊｍｄ_３ｋｍで求められる。Ｓ^Ｃの各成分は
【００２１】
【数６】

【００２２】
により与えられる。さらに一般化して説明を続ける。Ｒ文書の場合、文の組み合わせにおいて文書Ｄ_ｒからｋ（ｒ）番目の文が取り出されたとして、共通ベクトルを

と書くと、

と表わすことが出来るので、Ｓ^Ｃのｍｎ成分は次の式で与えられる。
【００２３】
【数７】

【００２４】
式（２）は共通共起行列の各成分は各文書の共起行列の対応する成分同士の積として求められることを示しており、共通共起行列は共通ベクトルを実際に求めることなく得ることができる。また、前述のように、同じ用語が同じ文に２回以上出現しないのであれば、Ｓ ^ｒ _ｍｍは文書Ｄ_ｒにおける用語ｍの出現頻度となる。同じ用語が同じ文に２回以上出現する頻度は少ないと考えられるので、Ｓ^Ｃの各対角成分は対応する用語の各文書の出現頻度の積によって近似することもできる。
文書集合共通度算出３７では、各文書の話題がどの程度共通しているかを示すスコアーを算出する。前述のように、本発明では各共通ベクトルで値が１の成分数の全共通ベクトルに対する和、もしくは２乗和をもとに各文書の文書集合共通度を求める。前者を線形モデル、後者を２次モデルと呼ぶ。先ず前者の線形モデルの場合について述べる。各共通ベクトルで値が１の成分数の和をＧ_ｌ（Ｄ_１，．．，Ｄ_Ｒ）とする。これは、
【００２５】
【数８】

【００２６】
のように求めることができ、Ｇ_ｌ（Ｄ_１，．．，Ｄ_Ｒ）は共通共起行列の対角成分の和で表される。式（３）は文書集合における各文書の情報共通量を表すが、情報共通量の値は文書の長さや文書数に依存した値になるので、これらの影響を受けないように以下のように正規化し、文書集合共通度ｃｏｍ_ｌ（Ｄ）とする。
【００２７】
【数９】

２次モデルについて述べる。各共通ベクトルで値が１の成分数の２乗和をＧ_ｓ（Ｄ_１，．．，Ｄ_Ｒ）とする。これは、
【００２８】
【数１０】

のように、共通共起行列の各成分の和で求められる。２次モデルの場合の文書集合共通度をｃｏｍ_ｓ（Ｄ）とすると、これは以下のように求めることができる。
【００２９】
【数１１】

【００３０】
文書（文書セグメント）・文書集合共通度算出３９では、対象とする文書または文をＰとして、Ｐが文書集合Ｄの共通の話題にどれだけ近いかを示す尺度として、文書・文書集合共通度を求める。これには、次の２つの方法が存在する。
第１の方法は、Ｐを文書集合Ｄに加えた新しい文書集合の文書集合共通度を文書・文書集合共通度とする方法である。文書Ｐの共起行列をＳ^Ｐとして、線形モデル、２次モデルの場合の文書・文書集合共通度をそれぞれｃｏｍ_ｌ（Ｄ＋Ｐ）、ｃｏｍ_ｓ（Ｄ＋Ｐ）とすると、これらは以下のように求めることができる。
【００３１】
【数１２】

【００３２】
【数１３】

【００３３】
第２の方法は、Ｐから求められる共起行列と共通共起行列との類似度により文書・文書集合共通度を定義する方法である。これには共起行列の対角成分のみを用いる場合と全成分を用いる場合の２通りが考えられる。文書・文書集合共通度を前者についてｃｏｍ_ｌ（Ｄ，Ｐ）、後者についてｃｏｍ_ｓ（Ｄ，Ｐ）と表記すると、
【００３４】
【数１４】

【００３５】
【数１５】

【００３６】
によって求めることができる。第１の方法、第２の方法とも対象とする文書もしくは文の共起行列と共通共起行列の全成分もしくは対角成分の積和をもとに求められる。
図４は、話題が必ずしも共通しない文書集合から話題の共通する文書群を抽出する本発明の第２の実施例を示す。この発明の方法は、汎用コンピュータ上でこの発明を組み込んだプログラムを走らせることによって実施することができる。図４は、そのようなプログラムを走らせている状態でのコンピュータのフローチャートである。３１は文書集合入力、ブロック３２は用語検出、ブロック３３は形態素解析、ブロック３４は文書セグメント区分けである。ブロック３５は文書セグメントベクトル作成、ブロック３６は文書毎の共起行列算出、ブロック４７は不一致許容形共通共起行列及び共起計数行列の算出、ブロック４８は不一致許容閾値設定、ブロック４９は不一致許容形文書集合共通度算出、ブロック５０は不一致許容形文書・文書集合共通度算出、及び文書選択、ブロック５１は選択された文書集合の文書集合共通度算出、及び妥当性判定、ブロック５２は不一致許容閾値変更である。これらのうち、３１〜３６は図３に示したものと全く同じである。
【００３７】
図３の場合と同じように文が文書セグメントとなっていることを想定する。不一致許容形共通共起行列及び共起計数行列の算出４７における不一致許容形共通共起行列の各成分の算出では、各文書の共起行列の内その成分の値がゼロでない共起行列のみが用いられる。従って、ある用語、用語共起が文書集合Ｄに必ず現れる限り、不一致許容形共通共起行列の対応成分は０以外の値をとる。このような行列をＴと表記する。さらに、４７では各用語、または各用語対の生起、または共起した回数を保持する行列Ｕを求める。行列ＴとＵは、図２に示されるように以下のような手順で求めることができる。
ステップ６１ｒ＝１とおく。Ｔの全成分は１、Ｕのそれは０とする。
ステップ６２．Ｓ ^ｒ _ｍｎ＞０のとき、
Ｔ _ｍｎ＝Ｓ ^ｒ _ｍｎＴ _ｍｎ
Ｕ _ｍｎ＝Ｕ _ｍｎ＋１（ステップ６３）
ステップ６４．ｒ＝Ｒで終了。そうでなければｒ＝ｒ＋１（ステップ６５）としてステップ６２へ行く。
【００３８】
不一致許容閾値設定４８では後段の処理のために閾値Ａの初期値を設定する。閾値Ａは不一致許容形共通共起行列ＴにおいてＡ個以上の文書で現れる用語、もしくは用語共起のみを有効にするために用いられる。閾値Ａの初期値は共起計数行列Ｕの各成分の中での最大値である。
ブロック４９では、Ａ個以上の文書で現れる用語、もしくは用語共起に対応する成分以外は値を０とした不一致許容形共通共起行列を用いて不一致許容形の文書集合共通度を算出し、閾値処理を行ってブロック５０の処理に移行するか否かの判断を行う。上記のように修正された不一致許容形共通共起行列をＴ^Ａとすると、行列Ｔ^Ａのｍｎ成分は以下のように決められる。
Ｔ ^Ａ _ｍｎ＝Ｔ _ｍｎ，ｉｆＵ _ｍｎ＞＝Ａ，
Ｔ ^Ａ _ｍｎ＝０ｏｔｈｅｒｗｉｓｅ．
図３の場合は共通ベクトルにおいて値が１となる成分は文の組み合わせにおいて全ての文ベクトルで値が１となる成分のみであったが、ここでは、Ａ文書以上で現れる用語に対応する成分が値１となるように共通ベクトルを決定したことになる。行列Ｔ^Ａは、そのように決定された全共通ベクトルから求められる共通共起行列である。式（４）式（６）において行列Ｓ^Ｃの替りに行列Ｔ ^Ａを用いた文書集合共通度を不一致許容形の文書集合共通度と呼ぶこととして、線形モデルの場合は
【００３９】
【数１６】

により、２次モデルの場合は
【００４０】
【数１７】

【００４１】
のように求める。ｃｏｍ_ｌ（Ｄ；Ｔ ^Ａ）、ｃｏｍ_ｓ（Ｄ；Ｔ ^Ａ）は行列Ｔ ^Ａを共通共起行列として用いて求められる文書集合共通度という意味である。ｃｏｍ_ｌ（Ｄ；Ｔ^Ｒ）、ｃｏｍ_ｓ（Ｄ；Ｔ^Ｒ）はｃｏｍ_ｌ（Ｄ）、ｃｏｍ_ｓ（Ｄ）とそれぞれ等価である。
ここで、文書集合ＤではＲより少ないＢ個の文書が話題を共通にしており、他は互いに関連のないものと仮定する。このとき、Ａの値がＢと等しいか小さければＢ個の文書に現れる用語の寄与によって行列Ｔ^Ａにおいて値が０でない成分の和は大きくなり、不一致許容形の文書集合共通度も大きくなる筈である。一方、ＡがＲ〜Ｂ＋１の間にあるときは、偶発的にＢ個以上の文書で現れる用語があったにしてもその用語の各文書内の頻度は高くないものと想定され、Ｔ^Ａでの０でない成分の和は小さく、不一致許容形の文書集合共通度も小さいものと考えられる。従って、ブロック４９では求められた不一致許容形の文書集合共通度と予め決められた閾値との比較を行い、閾値以上のときには、行列Ｔ^Ａは話題を共有する文書の影響を受けている可能性が高いと判断してブロック５０に進む。閾値よりも小さければブロック５２に進む。この場合の閾値は実験的に決めておく。
【００４２】
ブロック５０では、行列Ｔ^Ａを用いて各文書に対して不一致許容形の文書・文書集合共通度を算出し、その値が一定値を越える文書を選択する。Ｔ^Ａを用いる不一致許容形の文書・文書集合共通度は式（７）式（８）式（９）式（１０）において、Ｓ^Ｃ _ｍｎをＴ^Ａ _ｍｎにより置き換えることにより得ることができる。例えば、式（９）式（１０）を用いる場合、文書Ｄ_ｒに対する文書・文書集合共通度を線形モデルではｃｏｍ_ｌ（Ｄ，Ｄ_ｒ；Ｔ^Ａ）、２次モデルではｃｏｍ_ｓ（Ｄ，Ｄ_ｒ；Ｔ^Ａ）と表記すると、これらは以下のように求めることができる。
【００４３】
【数１８】

【００４４】
【数１９】

【００４５】
文書選択では、線形モデルを採用する場合にはｃｏｍ_ｌ（Ｄ，Ｄ_ｒ；Ｔ^Ａ）が、２次モデルを採用する場合はｃｏｍ_ｓ（Ｄ，Ｄ_ｒ；Ｔ^Ａ）が予め設定された閾値を越える文書を選択する。閾値は実験的に決めておく。
ブロック５１では、ブロック５０において選択された文書集合の文書集合共通度を算出し、文書集合として話題が共通しているか否かを判断するために閾値処理を行う。選択された文書集合の文書集合共通度は線形モデルを採用する場合には式（４）、２次モデルを採用する場合は式（６）を用いて求めることができる。文書集合共通度が閾値以上の場合、またはＡ＝１の場合には処理を終了し、閾値未満の場合には、ブロック５２において不一致許容閾値を小さくなるように変更してブロック４９に戻り、処理を続行する。
【００４６】
【発明の効果】
ここで本発明の効果を説明する為に図４の実施例に沿った実験結果を示す。実験に用いたデータは文書分類用コーパスＲｅｕｔｅｒｓ−２１５７８から取り出した２１記事であり、話題によって３グループに分けられる。内容は、
グループ１：カテゴリ”ａｃｑｕｉｓｉｔｉｏｎ”から取り出したＧｅｎＣｏｒｐ社の企業買収に関する１２記事、
グループ２：カテゴリ”ｃｒｕｄｅ”から取り出したエクアドルの地震に関する６記事、
グループ３：カテゴリ”ｍｏｎｅｙ−ｆｘ”から取り出したＪａｍｅｓＢａｋｅｒ氏の発言に関する３記事、
である。
【００４７】
この実験の目的は、２１記事の中から文書数の最も多いグループ１を抽出し、さらにグループ１の共通話題を最もよく表す３つの文を選択することである。文数は２５０で、全用語数は１１４７であった。ブロック４７での共起計数行列Ｕの各成分の中での最大値は１２でなく、１３であった。これは特定の用語がグループ１とグループ２の両方の文書に現れたためである。そこで、Ａの初期値を１３として図４の４９→５０→５１→５２→４９の繰り返し処理を行った。ブロック４９で得られた不一致許容形の文書集合共通度は、Ａ＝１３の場合線形モデル、２次モデルとも０．２２、Ａ＝１２の場合には同じく０．３９であった。この場合、最も文書数の多いグループ１は文書数が１２なので、Ａ＝１２の不一致許容形の文書集合共通度の方が値が大きいことが期待されたが、結果は期待に沿うものであった。しかし、Ａ＝１３の場合も値は十分に小さいとは言えないので、Ａ＝１３の場合もブロック５０に進むとした。ブロック５０では文書選択のための閾値を線形モデル、２次モデルとも０．０２と設定すると、Ａ＝１３の場合には１３文書（グループ１の９文書とグループ２の３文書）、Ａ＝１２の場合には１２文書（全てグループ１）が選択された。選択された文書に対して文書集合共通度を求めると、Ａ＝１３の場合線形モデルで０．２９、２次モデルで０．３３、Ａ＝１２の場合にはそれぞれ０．８５、０．９０と得られた。従って、ブロック５１における閾値が０．５となっていれば、Ａ＝１２のときに選択された１２文書が話題の揃った文書として出力されることになるが、前述のようにこれらは全てグループ１に属している。
【００４８】
また、選択された文書に対し、式（９）を用いて各文の文・文書集合共通度を求め、値の大きな文を３個選択した結果を以下に示す。
１位：ＧｅｎｅｒａｌＰａｒｔｎｅｒｓｓａｉｄｉｔｉｓａｓｋｉｎｇＧｅｎＣｏｒｐｆｏｒｉｔｓｓｈａｒｅｈｏｌｄｅｒｌｉｓｔｓｆｏｒｈｅｌｐｉｎｄｉｓｓｅｍｉｎａｔｉｎｇｔｈｅｏｆｆｅｒ．
２位：Ｅａｒｌｉｅｒｔｏｄａｙ，ＧｅｎｅｒａｌＰａｒｔｎｅｒｓ，ｏｗｎｅｄｂｙＷａｇｎｅｒａｎｄＢｒｏｗｎａｎｄＡＦＧＩｎｄｕｓｔｒｉｅｓＩｎｃ，ｌａｕｎｃｈｅｄａ１００ｄｌｒｐｅｒｓｈａｒｅｔｅｎｄｅｒｏｆｆｅｒｆｏｒＧｅｎＣｏｒｐ．
３位：ＧｅｎｅｒａｌＡｃｑｕｉｓｉｔｉｏｎＣｏｓａｉｄｉｔｗａｓｄｉｓａｐｐｏｉｎｔｅｄｂｙＧｅｎｃｏｒｐ’ｓｒｅｓｐｏｎｓｅｔｏｉｔｓｔｅｎｄｅｒｏｆｆｅｒａｎｄａｓｋｅｄｈｏｗｔｈｅｃｏｍｐａｎｙｍｉｇｈｔｇｉｖｅｂｅｔｔｅｒｖａｌｕｅ
ｔｏｓｈａｒｅｈｏｌｄｅｒｓ．
これにより、文書集合で最も優勢な話題はＧｅｎＣｏｒｐ社の企業吸収に関するものであることが分かる。また、文書集合から選択された文書を除去して同様な処理を行えば２番目に優勢な話題を述べた文書（この場合にはグループ２）を抽出することができる。
【００４９】
このように本発明によれば、文書集合中で最も優勢な話題を共有する文書群を取り出し、同時に共通話題に最も近い文をユーザに提示することができる。そのためユーザの情報取得の効率性が高められる。
【図面の簡単な説明】
【図１】本発明の概略を示すブロック図である。
【図２】本発明の不一致許容形共通共起行列をの作成方法を示す図である。
【図３】文書集合が入力された段階から文書集合共通度、文書（文書セグメント）・文書集合共通度が決定されるまでの手順を示す図である。
【図４】文書集合が入力された段階から最も優勢な話題を述べた文書が抽出されるまでの手順を示す図である。
【符号の説明】
１１０：文書入力ブロック
１２０：文書前処理ブロック
１３０：文書情報処理ブロック
１４０：出力ブロック

Claims

以下の（ａ）から（ｄ）のステップを有する、一つまたは複数の文書セグメントを持つ複数の文書から成る文書集合に対して、前記文書集合の各文書が話題を共通にする程度を示す文書集合共通度を求める方法、
（ａ）前記文書セグメント毎に、前記文書セグメントに出現する用語に対応する成分の値を１、他の値は０とする文書セグメントベクトルを生成するステップと、
（ｂ）前記文書集合の各文書に対して文書セグメントベクトルより共起行列を生成するステップと、
（ｃ）各文書の各共起行列の同一行同一列の成分の値の積により前記行前記列の成分の値を与えることによって共通共起行列を生成するステップと、
（ｄ）前記共通共起行列の全成分、又は対角成分の和をもとに文書集合共通度を求めるステップ。
以下の（ａ）から（ｄ）のステップを有する、一つまたは複数の文書セグメントを持つ複数の文書から成る文書集合に対して、各文書もしくは各文書セグメントが前記文書集合に共通する話題にどの程度近いかを示す、文書・文書集合共通度、又は文書セグメント・文書集合共通度を求める方法、
（ａ）前記文書セグメント毎に、前記文書セグメントに出現する用語に対応する成分の値を１、他の値は０とする文書セグメントベクトルを生成するステップと、
（ｂ）前記文書集合の各文書に対して文書セグメントベクトルより共起行列を生成するステップと、
（ｃ）各文書の各共起行列の同一行同一列の成分の値の積により前記行前記列の成分の値を与えることによって共通共起行列を生成するステップと、
（ｄ）前記文書もしくは文書セグメントの共起行列と共通共起行列の全成分との積和、又は対角成分の積和をもとに、文書・文書集合共通度、又は文書セグメント・文書集合共通度を求めるステップ。
以下の（ａ）から（ｅ）のステップを有する、一つまたは複数の文書セグメントを持つ複数の文書から成る文書集合に対して、文書集合共通度を算出する方法、
（ａ）前記文書セグメント毎に、前記文書セグメントに出現する用語に対応する成分の値を１、他の値は０とする文書セグメントベクトルを生成するステップと、
（ｂ）前記文書集合の各文書に対して文書セグメントベクトルより共起行列を生成するステップと、
（ｃ）各文書の各共起行列の同一行同一列の成分の値の積により、但し前記同一行同一列の成分の値が０の場合を除く、不一致許容形の共通共起行列を生成するステップと、
（ｄ）各文書の共起行列の各成分について値がゼロかどうかをチェックし、ゼロでない文書数を計数した共起計数行列を作成するステップと、
（ｅ）共起計数行列の各成分について、値が所定の閾値未満の場合、前記不一致許容形の共通共起行列の対応する成分をゼロとなるように修正し、修正された前記不一致許容形の共通共起行列の全成分、又は対角成分の和をもとに不一致許容形の文書集合共通度を求めるステップ。
以下の（ａ）から（ｇ）のステップを有する、一つまたは複数の文書セグメントを持つ複数の文書から成る文書集合から話題の共通する文書を抽出する方法、
（ａ）前記文書セグメント毎に、前記文書セグメントに出現する用語に対応する成分の値を１、他の値は０とする文書セグメントベクトルを生成するステップと、
（ｂ）前記文書集合の各文書に対して文書セグメントベクトルより共起行列を生成するステップと、
（ｃ）各文書の各共起行列の同一行同一列の成分の値の積により、但し前記同一行同一列の成分の値が０の場合を除く、不一致許容形の共通共起行列を生成するステップと、
（ｄ）各文書の共起行列の各成分について値がゼロかどうかをチェックし、ゼロでない文書数を計数した共起計数行列を作成するステップと、
（ｅ）共起計数行列の各成分について、値が所定の閾値未満の場合、前記不一致許容形の共通共起行列の対応する成分をゼロとなるように修正し、修正された前記不一致許容形の共通共起行列の全成分、又は対角成分の和をもとに不一致許容形の文書集合共通度を求めるステップと、
（ｆ）不一致許容形の文書集合共通度がある閾値以上の場合に、各文書について前記各文書の前記共起行列の全成分と前記修正された不一致許容形の共通共起行列の全成分との積和、もしくは各文書の共起行列の対角成分と前記修正された不一致許容形の共通共起行列の対角成分との積和をもとに不一致許容形文書‐文書集合共通共通度を求めるステップと、
（ｇ）前記不一致許容形文書‐文書集合共通共通度が所定の閾値を越える文書を話題が共通する文書として抽出するステップ。
前記出現する用語の種類数がＭで与えられ、Ｒ個の文書からなる文書集合Ｄにおいて、ｒ番目の文書をＤ_ｒ、Ｄｒの文書セグメント数をＹ_ｒ、Ｄｒのｙ番目の文書セグメントベクトルをｄ_ｒｙ＝（ｄ_{ｒｙ１，．．，} ｄ_ｒｙＭ）^Ｔとすると、ここで、Ｔはベクトルの転置を表す、文書Ｄ_ｒの前記共起行列Ｓ ^ｒは、

で与えられることを特徴とする請求項１から４に記載の方法。
文書集合Ｄの共通共起行列Ｓ^Ｃのｍｎ成分Ｓ^Ｃ _ｍｎは、

で計算されることを特徴とする請求項１から４に記載の方法。
文書集合Ｄの共通共起行列Ｓ^Ｃの各対角成分は対応する用語の各文書の出現頻度の積によって近似することを特徴とする請求項１から４に記載の方法。
以下の（ａ）から（ｄ）のステップを有する、一つまたは複数の文書セグメントを持つ複数の文書から成る文書集合に対して、前記文書集合の各文書が話題を共通にする程度を示す文書集合共通度を求める方法を情報処理装置に実現させるプログラム、
（ａ）前記文書セグメント毎に、前記文書セグメントに出現する用語に対応する成分の値を１、他の値は０とする文書セグメントベクトルを生成するステップと、
（ｂ）前記文書集合の各文書に対して文書セグメントベクトルより共起行列を生成するステップと、
（ｃ）各文書の各共起行列の同一行同一列の成分の値の積により前記行前記列の成分の値を与えることによって共通共起行列を生成するステップと、
（ｄ）前記共通共起行列の全成分、又は対角成分の和をもとに文書集合共通度を求めるステップ。
以下の（ａ）から（ｄ）のステップを有する、一つまたは複数の文書セグメントを持つ複数の文書から成る文書集合に対して、各文書もしくは各文書セグメントが前記文書集合に共通する話題にどの程度近いかを示す、文書・文書集合共通度、又は文書セグメント・文書集合共通度を求める方法を情報処理装置に実現させるプログラム、
（ａ）前記文書セグメント毎に、前記文書セグメントに出現する用語に対応する成分の値を１、他の値は０とする文書セグメントベクトルを生成するステップと、
（ｂ）前記文書集合の各文書に対して文書セグメントベクトルより共起行列を生成するステップと、
（ｃ）各文書の各共起行列の同一行同一列の成分の値の積により前記行前記列の成分の値を与えることによって共通共起行列を生成するステップと、
（ｄ）前記文書もしくは文書セグメントの共起行列と共通共起行列の全成分との積和、又は対角成分の積和をもとに、文書・文書集合共通度、又は文書セグメント・文書集合共通度を求めるステップ。
以下の（ａ）から（ｅ）のステップを有する、一つまたは複数の文書セグメントを持つ複数の文書から成る文書集合に対して、文書集合共通度を算出する方法を情報処理装置に実現させるプログラム、
（ａ）前記文書セグメント毎に、前記文書セグメントに出現する用語に対応する成分の値を１、他の値は０とする文書セグメントベクトルを生成するステップと、
（ｂ）前記文書集合の各文書に対して文書セグメントベクトルより共起行列を生成するステップと、
（ｃ）各文書の各共起行列の同一行同一列の成分の値の積により、但し前記同一行同一列の成分の値が０の場合を除く、不一致許容形の共通共起行列を生成するステップと、
（ｄ）各文書の共起行列の各成分について値がゼロかどうかをチェックし、ゼロでない文書数を計数した共起計数行列を作成するステップと、
（ｅ）共起計数行列の各成分について、値が所定の閾値未満の場合、前記不一致許容形の共通共起行列の対応する成分をゼロとなるように修正し、修正された前記不一致許容形の共通共起行列の全成分、又は対角成分の和をもとに不一致許容形の文書集合共通度を求めるステップ。
以下の（ａ）から（ｇ）のステップを有する、一つまたは複数の文書セグメントを持つ複数の文書から成る文書集合から話題の共通する文書を抽出する方法を情報処理装置に実現させるプログラム、
（ａ）前記文書セグメント毎に、前記文書セグメントに出現する用語に対応する成分の値を１、他の値は０とする文書セグメントベクトルを生成するステップと、
（ｂ）前記文書集合の各文書に対して文書セグメントベクトルより共起行列を生成するステップと、
（ｃ）各文書の各共起行列の同一行同一列の成分の値の積により、但し前記同一行同一列の成分の値が０の場合を除く、不一致許容形の共通共起行列を生成するステップと、
（ｄ）各文書の共起行列の各成分について値がゼロかどうかをチェックし、ゼロでない文書数を計数した共起計数行列を作成するステップと、
（ｅ）共起計数行列の各成分について、値が所定の閾値未満の場合、前記不一致許容形の共通共起行列の対応する成分をゼロとなるように修正し、修正された前記不一致許容形の共通共起行列の全成分、又は対角成分の和をもとに不一致許容形の文書集合共通度を求めるステップと、
（ｆ）不一致許容形の文書集合共通度がある閾値以上の場合に、各文書について前記各文書の前記共起行列の全成分と前記修正された不一致許容形の共通共起行列の全成分との積和、もしくは各文書の共起行列の対角成分と前記修正された不一致許容形の共通共起行列の対角成分との積和をもとに不一致許容形文書・文書集合共通共通度を求めるステップと、
（ｇ）前記不一致許容形文書・文書集合共通共通度が所定の閾値を越える文書を話題が共通する文書として抽出するステップ。
前記出現する用語の種類数がＭで与えられ、Ｒ個の文書からなる文書集合Ｄにおいて、ｒ番目の文書をＤ_ｒ、Ｄｒの文書セグメント数をＹ_ｒ、Ｄｒのｙ番目の文書セグメントベクトルをｄ_ｒｙ＝（ｄ_{ｒｙ１，．．，} ｄ_ｒｙＭ）^Ｔとすると、ここで、Ｔはベクトルの転置を表す、文書のＤ_ｒの前記共起行列をＳ ^ｒが、

で与えられることを特徴とする請求項８から１１に記載のプログラム。
文書集合Ｄの共通共起行列Ｓ^Ｃのｍｎ成分Ｓ^Ｃ _ｍｎは、

で計算されることを特徴とする請求項８から１１に記載のプログラム。