JP4452012B2

JP4452012B2 - 文書の特有性評価方法

Info

Publication number: JP4452012B2
Application number: JP2002195375A
Authority: JP
Inventors: 隆彦川谷
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 2002-07-04
Filing date: 2002-07-04
Publication date: 2010-04-21
Anticipated expiration: 2022-07-04
Also published as: US20040006736A1; US7200802B2; EP1378838A3; EP1378838B1; EP1378838A2; CN1495644B; DE60316227D1; JP2004038606A; CN1495644A; DE60316227T2

Description

【０００１】
【産業上の利用分野】
本発明は文書の要約をはじめとする自然言語処理に関するものであり、特に2つの文書もしくは文書集合を比べた時の一方の文書、もしくは文書集合の構成要素（文、用語、句など）の特有性を定量的に評価できるようにすることによって前記処理の高性能化を図るものである。
【０００２】
【従来の技術】
２つの文書、もしくは文書集合を比較した時に、両者の間の相違部分を抽出する処理は、多文書要約などにおいて重要な処理となっている。ここでは文書の対について述べることとし、相違部分が抽出される文書を着目文書、その比較相手を比較文書と呼ぶこととする。従来は、着目文書、比較文書の両方を小さな要素に分割したうえで、要素同士を突き合わせ、対応のつかない要素を相違部分としていた。要素としては、文、パラグラフ、自動的に抽出した話題の変化点で文書を分割した時の個々の領域などが扱われている。このような場合、要素同士の突き合せは、ベクトル空間モデルが多く用いられている。ベクトル空間モデルで各要素を表した場合、ベクトルの各成分は文書に現れる各用語に対応し、各成分の値には各要素における各用語の頻度、もしくはそれに関連する量が与えられる。
【０００３】
また、要素同士の対応の良し悪しはベクトル同士の余弦類似度を用いることができ、余弦類似度が予め決定された閾値よりも高い場合、その要素同士は対応していると判断される。従って、着目文書中の要素で、比較文書のどの要素に対しても類似度が閾値よりも小さい要素が相違部分と見なされる。また、両文書をグラフを用いて表したうえでグラフ要素の対応関係を求め、対応のつかないグラフ要素から相違部分を求める方法も知られている。
【０００４】
【発明が解消しようとする課題】
ところで、相違部分の抽出に対しては以下の2つの観点があるように思われる。即ち、
（Ａ）表す情報が異なる部分を抽出する。
（Ｂ）両文書が文書全体として表す概念の違いを反映する部分を抽出する。
である。このような観点から従来の多文書要約の方法を見ると、その多くは（Ａ）に基づいており、単に両文書間の相違部分のみが抽出され、相違部分の着目文書における重要性は評価されてない。そのため、情報としてはあまり重要ではない部分が、単に比較文書と異なるという理由だけで相違部分として抽出されるということが起こりえた。本発明は、上記（Ｂ）の立場に立ち、以下の条件を満たすような相違部分の抽出を可能とするものである。
【０００５】
即ち、
（１）着目文書から抽出された相違部分は同時に着目文書では重要な部分であること。即ち、相違性と重要性の間でバランスがとれていること。この条件を満たす相違部分は単なる相違部分というより、着目文書の特有な部分と表した方がより適切と思われる。そこで、これ以降、この条件を満たす相違部分を特有部分と呼ぶこととする。
（２）着目文書の各文に対して、特有さの程度について評価値が求められること。
（３）抽出された特有部分に対して、どのような用語、もしくは用語系列が主な要因となっているのか説明ができるように、用語、用語系列の特有度について評価値が求められること。
である。
【０００６】
【課題を解決するための手段】
上述の条件を満たすような着目文書の特有性評価方法を実現するための第1の手段は以下の通りである。第１の実施例として、着目文書の中から特有度の高い文書セグメントを抽出する方法について説明する。先ず、両文書を適当な単位の文書セグメントに区分けし、文書セグメントに出現する用語の出現頻度を成分とする文書セグメントのベクトルを生成する。最も自然な文書セグメントは文であるので、文を文書セグメントとして説明を続ける。従って、両文書は文ベクトルの集合として表現される。次いで、ある射影軸に両文書の全文ベクトルを射影したとし、（着目文書からの射影値の2乗和）／（比較文書からの射影値の2乗和）を最大にするような射影軸を求める。そのような射影軸に対しては着目文書の文ベクトルの射影値の2乗和は大きく、比較文書のそれは小さくなるので、着目文書には多く存在し、比較文書には存在しにくい情報が反映される。その結果射影軸に文ベクトルを射影すると、文の内容が比較文書と異なる場合は射影値の絶対値は着目文書では大きくなり、着目文書の各文の特有度算出のベースとすることができる。
【０００７】
第２の実施例として、特有度の高い用語を選択する方法に付いて説明する。用語については、各文における着目語の頻度と各文の特有度との間の相関を求め、相関値が大きくなる用語を選択したとする。このような用語は特有度の大きい文にのみ現れている筈なので特有な用語と見なすことができる。従って、この相関値をもとに用語の特有度を求めることが可能となる。
また、着目文書に現れる句やパターンなどの用語系列についても文や用語の場合と同様な方法で特有度を評価する。各用語系列について、例えば着目用語系列に含まれる用語に対応する成分は１、他は０となるようなベクトルを作成することにより、文特有度を求めた方法で各用語系列の特有度を求めることができる。あるいは、各文における各用語系列の頻度を求めておけば、用語特有度を求めた方法において各用語系列の頻度を各用語の頻度の替りに用いることにより用語系列の特有度を評価することができる。
【０００８】
さらに、本発明においては着目文書の特有性を評価するために以下のような第２の手段を実施例３として開示する。ここでも文を文書セグメントとして説明を続ける。第２の手段では、文書セグメントのベクトルの生成までは第１の手段と共通であるが、その後、着目文書の各文について、着目文書全体との類似度、及び比較文書全体との類似度を求める。着目文書の中で重要な文は着目文書全体との類似度が大きくなり、また比較文書とは異なる内容の文は比較文書全体との類似度が小さくなる。そのため、（着目文書全体との類似度）／（比較文書全体との類似度）を用いることにより相違性と重要性の間でバランスのとれた特有度を定義することができる。さらに、第１の手段と同じように各文の特有度と用語頻度との相関を求めることにより、用語の特有度を求めることができる。各用語系列についても、第１の手段と同じように用語系列から求められるベクトルと着目文書全体との類似度、及び比較文書全体との類似度を求めることにより特有度を算出することができる。また、各文における各用語系列の頻度と各文の特有度との間の相関から各用語系列特有度を算出することもできる。
【０００９】
本発明によれば、２つの文書を比較したときに一方の着目文書を構成する各文、各句、各語に対して特有度を求めることができる。比較文書と着目文書とが例えば同じ事件について述べた新聞記事であった場合、着目文書から特有度の大きい文を選択することにより、比較文書とは異なる話題を述べている文を抽出することができるようになる。例えば、ある交通事故について、比較文書では“事故の概要”と“被害者、加害者”について、着目文書では、“事故の概要”に加えて“警察の見解”などについて述べているような場合、着目文書では“警察の見解”に関する文の特有度が高くなって“警察の見解”に関連する部分が取り出せる。もし、ユーザが比較文書は既に目を通した後であれば、ユーザはユーザにとって未知の“警察の見解”の部分のみを取り出して読むことが可能となる。これにより情報取得の効率化を図ることができる。また、アンケート調査において、着目文書をある母集団からの回答の集合、比較文書を別の母集団からの回答の集合とすると、本発明を適用することにより、着目文書の母集団に特有な回答の傾向を把握することができる。このように本発明を適用すれば着目文書からの情報の取得、解析が容易になる。
【００１０】
【実施例】
本願発明の実施例を示すブロック図を図４に示す。ブロック１１０は文書入力部であり、比較文書及び着目文書が入力される。ブロック１２０はデータ処理部であり、入力された文書の用語検出、形態素解析、文書セグメント区分け等が行われる。ブロック１３０は選択エンジンであり、文書の中で、特有度の高い文書セグメントあるいは特有度のの高い用語の選択が行われる。ブロック１４０は出力部であり、選択された特有文書セグメントあるいは特有用語が出力される。
第１の実施例として、着目文書の中から特有度の高い文書セグメントを抽出する方法について説明する。図１は文書セグメントの特有度を評価する本発明の第１の実施例の流れ図である。この発明の方法は、汎用コンピュータ上でこの発明を組み込んだプログラムを走らせることによって実施することができる。図１は、そのようなプログラムを走らせている状態でのコンピュータのフローチャートである。ブロック１１は比較・着目文書入力、ブロック１２は用語検出、ブロック１３は形態素解析、ブロック１４は文書セグメント区分けである。ブロック１５は文書セグメントベクトル作成、ブロック１６はトピック差分因子分析、ブロック１７は文書セグメントベクトル射影、ブロック１８はトピック差分因子の各次毎の文書セグメント特有度算出、ブロック１９は文書セグメント総合特有度算出、ブロック２０は特有文書セグメント選択である。以下、英文文書を例に実施例を説明する。
【００１１】
先ず、比較・着目文書入力１１において着目文書と比較文書とが入力される。用語検出１２において、両方の文書から単語、数式、記号系列などを検出する。ここでは、単語や記号系列などを総称して全て用語と呼ぶ。英文の場合、用語同士を分けて書く正書法が確立しているので用語の検出は容易である。次に、形態素解析１３は、両方の文書に対して用語の品詞付けなどの形態素解析を行う。次に文書セグメント区分け１４において両方の文書に対して文書セグメントへの区分けを行う。文書セグメントの最も基本的な単位は文である。英文の場合、文はピリオドで終わり、その後ろにスペースが続くので文の切出しは容易に行うことができる。その他の文書セグメントへの区分け法としては、ひとつの文が複文からなる場合主節と従属節に分けておく方法、用語の数がほぼ同じになるように複数の文をまとめて文書セグメントとする方法、文書の先頭から含まれる用語の数が同じになるように文とは関係なく区分けする方法などがある。
【００１２】
文書セグメントベクトル作成１５は、先ず文書全体に出現する用語から作成すべきベクトルの次元数および各次元と各用語との対応を決定する。この際に出現する全ての用語の種類にベクトルの成分を対応させなければならないということはなく、品詞付け処理の結果を用い、例えば名詞と動詞と判定された用語のみを用いてベクトルを作成するようにしてもよい。次いで、各文書セグメントに出現する用語の種類とその頻度を求め、その値に重みを乗じて対応する成分の値を決定し、文書セグメントベクトルを作成する。重みの与え方としては従来の技術を用いることができる。
【００１３】
トピック差分因子分析では、全文書セグメントベクトルの射影値の２乗和に関する両文書の比を最大にするような射影軸を求める。以降、文を文書セグメントとした場合について説明を続ける。現れる用語の集合が{w₁,..,w_J}で与えられ、それぞれM、N個の文からなる文書D、Tを考えることとする。文書Dを着目文書、文書Tを比較文書とする。各文書は文ベクトルの集合により表現され、それぞれのk番目の文の文ベクトルをd_k=(d_k1,.., d_kJ)^T、t_k=(t_k1,.., t_kJ)^Tにより表す。図５に文書セグメントを文とした場合の概念図を示す。着目文書Ｄは、Ｍ個の文から構成され（ａ）、そのｋ番目の文から文ベクトルd_k（ｂ）が生成される。d_kのｗ_jに対応する成分がd_kjとして示されている。d_kjは、ｋ番目の文における用語ｗ_jの頻度を表わすので、例に示すような値を取る。同図（ｃ）及び（ｄ）は比較文書について説明している。求めるべき射影軸をαとする。一先ず‖α‖＝１とする。文書D、Tの全文ベクトルをαへ射影したときの射影値の2乗和をP_D、P_Tとすると、求めるべき射影軸は評価基準J(α)=P_D/P_Tを最大にするようなαとして与えられる。P_D、P_Tは
【００１４】
【数１】

【００１５】
【数２】

【００１６】
【数３】

【００１７】
【数４】

と表されるので、評価基準J(α)は
【００１８】
【数５】

と書くことができる。
【００１９】
「数５」で与えられる評価基準J(α)を最大にするαはJ(α)をαで微分した値を0とするようなαとして求めることが出来る。これは、
【００２０】
【数６】

なる一般固有値問題の固有ベクトルとして与えられる。これは、ある射影軸に両文書の全文ベクトルを射影したとし、（着目文書からの射影値の2乗和）／（比較文書からの射影値の2乗和）を最大にするような射影軸を求めたことに相当する。そのような射影軸に対しては着目文書の文ベクトルの射影値の2乗和は大きく、比較文書のそれは小さくなるので、着目文書には多く存在し、比較文書には存在しにくい情報が反映される。「数６」の固有値、固有ベクトルは一般に複数求めることができる。i次の固有値、固有ベクトルをλ_i、α_iとすると、i次の固有ベクトルは着目文書Dには存在し、比較文書Tには存在しない情報を反映するi番目の要因を表すとみることができる。そこでi次の固有ベクトルα_iを着目文書Dのi次のトピック差分因子ベクトルと呼ぶ。ブロック１６（トピック因子分析）ではこのトピック差分因子ベクトルを求める。λ_i=α_i ^TS_Dα_i/α_i ^TS_Tα_iなので、λ_iはα_iを用いた時の評価基準の値そのものである。
【００２１】
従って、各次のトピック差分因子ベクトルに反映された両文書間の相違の程度は互いに異なるので、相違の程度に応じて各次のトピック差分因子ベクトルに重みを与えておいた方がよい。これは

となるようにα_iのノルムを決定することにより可能となる。そうすると、

が成り立ち、α_iと着目文書Ｄの各文ベクトルの内積の2乗和はλ_iと等しくなる。また、「数６」の場合、固有ベクトルが求められるためには行列S_Tは正則行列でなければならない。しかし、実際には比較文書の文の数が用語数よりも小さい、特定の用語対が常に共起するような場合にはS_Tは正則行列として求められない。このような場合S_Tを次式により正則化することにより固有ベクトルを求めることができる。
【００２２】
【数７】

但し、β²はパラメータ、Iを単位行列である。「数７」を用いる場合には評価基準J(α)は
【００２３】
【数８】

としたことに相当する。
文書セグメントベクトル射影１７では、着目文書の各文ベクトルを各次のトピック差分因子ベクトルへ射影し、その値を求める。着目文書の文kの文ベクトルd_kのi次のトピック差分因子ベクトルα_iへの射影値をy_kiとすると、これは
【００２４】
【数９】

により求められる。しかし、この定義による射影値は長い文ほど大きくなる傾向があるので、文の長さによらないようにするため、‖d_k‖による正規化を行ってもよい。この場合、射影値y_kiは
【００２５】
【数１０】

により与えられる。
トピック差分因子の各次毎の文書セグメント特有度算出１８では、y_kiをもとに文ベクトルd_kのi次特有度distinc(d_k, i)を求める。y_kiは一般に正もしくは負の値をとり、その絶対値は、文kの内容が着目文書Dのそれと近いほど、また比較文書Tと異なるほど大きな値をとる。そこで、distinc(d_k, i)を
【００２６】
【数１１】

または
【００２７】
【数１２】

のように定義することができる。このように求められるi次特有度はいわばi番目の要因のみによる特有さであり、文kの特有さを正確に表すには複数の要因による特有度を組み合わせる必要がある。そのため、
【００２８】
【数１３】

により文kの文書セグメント総合特有度を算出する（ブロック１９）。ここで、Lは文特有の算出に用いられるトピック差分因子ベクトルの数であり、適当な値は実験的に決定する必要がある。Lの最大値は値が1以上となる固有値の数である。特有文書セグメント選択２０では、求められた各次の特有度、総合特有度をもとに着目文書に特有な文を選択する。これは以下のように行うことができる。最も簡単な方法は総合特有度が一定値以上の文を選択する方法である。また次のような方法も可能である。先ず、特定の次数のトピック差分因子ベクトルに対して，各文を、各文ベクトルとそのトピック差分因子ベクトルとの射影値が正となるグループ，負となるグループに分ける。次いで、それぞれのグループから各次の特有度が一定値以上の文を選択する．これを一定次数Lまでのトピック差分因子ベクトルの全てに行い、重複を排除することによって特有文を選択する。どちらの方法を用いても特有な文を選択することができる。
【００２９】
さらに、第1の実施例では以下のようにすることにより、文書セグメントばかりでなく、句、係り受けの関係にある用語群、用語系列パターンなど用語の組み合わせの特有度を評価することができる。例えば、「横浜で行われたサッカーの試合」という表現を例にとると、「サッカーの」は名詞の「試合」を修飾するので「サッカーの試合」は名詞句となる。さらに、「横浜で行われた」は名詞句の「サッカーの試合」を修飾するので、上述の表現全体で名詞句となる。細かくみるとさらに、「横浜で」は動詞句の「行われた」を修飾するので、「横浜で行われた」は係り受けの関係にある用語群となる。また、「××で行われたサッカーの試合」と云う表現が、××に色々な地名が入りつつ何度も現れる場合、「で行われたサッカーの試合」は用語系列のパターンとなる。
【００３０】
ブロック１３では形態素解析に加え、評価の対象となる用語の組合わせを抽出する。句や係り受けの関係にある用語群の場合には、統語解析を実行することにより抽出できる。また、頻出する用語系列パターンの抽出にはすでに色々な方法がすでに考案されており、問題なく用いることができる。ブロック１５ではブロック１６で用いる文書セグメントベクトル以外に、評価の対象となる用語の組合わせに対してベクトルp=(p₁,..,p_J)^Tを作成する。pは、用語の組合わせに含まれる用語に対応する成分に対しては1、他の成分は0となるベクトルである。
ここでベクトルpの具体的な例を示すと次のようになる。「横浜で行われたサッカーの試合」という表現の場合には、pは用語「横浜」、「行われた」、「サッカー」、「試合」に対応する成分のみが1となり、他は0となるベクトルとなる。ブロック１７、１８、１９においてこのようなpを文ベクトルd_kの替りに用いることにより、評価対象の用語の組合わせの特有度を求めることができる。従って、ブロック２０において文の場合と同様に特有な用語の組合わせを選択することができる。
【００３１】
第２の実施例として、着目文書の中から特有度の高い用語を選択する方法に付いて説明する。用語については、各文における着目語の頻度と各文の特有度との間の相関を求め、相関値が大きくなる用語を選択する。この相関値をもとに用語の特有度を求める。図２は用語の特有度を評価する本発明の第２の実施例を示す流れ図である。この発明の方法は、汎用コンピュータ上でこの発明を組み込んだプログラムを走らせることによって実施することができる。図２は、そのようなプログラムを走らせている状態でのコンピュータのフローチャートである。ブロック１１は比較・着目文書入力、ブロック１２は用語検出、ブロック１３は形態素解析、ブロック１４は文書セグメント区分けである。ブロック１５は文書セグメントベクトル作成、ブロック１６はトピック差分因子分析、ブロック２７は文書セグメントベクトル射影、ブロック２８はトピック差分因子の各次毎の用語特有度算出、ブロック２９は用語総合特有度算出、ブロック３０は特有用語選択である。これらのうち、ブロック１１〜１６は図１に示したものと全く同じである。
図１の場合と同じように文を文書セグメントとする例について説明する。文書セグメントベクトル射影２７では、図１の１７における着目文書Dの文ベクトルの射影に加え、比較文書Tの全文ベクトルの射影も行われる。比較文書Tの文ベクトルt_kのi次のトピック差分因子ベクトルα_iへの射影値をz_kiとすると、これは
【００３２】
【数１４】

もしくは
【００３３】
【数１５】

により求められる。
トピック差分因子の各次毎の用語特有度算出では、先ず、各文の射影値と各文における用語頻度との間の相関を求める。着目文書、比較文書における各文ベクトルのj番目の用語w_jに対応する成分の値と各文ベクトルのi次のトピック差分因子ベクトルα_iへの射影値との間の相関係数をcorrel(w_j, i)とする。文ベクトルd_k、ｔ_kのj番目の成分はd_kj、ｔ_kj、α_iへの射影値はy_ki、z_kiなので、相関係数は
【００３４】
【数１６】

により求められる。用語w_jに対して相関係数が高くなるのは、d_kもしくはt_kにおける用語w_jに対応する成分の値と文ベクトルのα_iへの射影値との間に比例関係が成り立つときである。即ち、用語w_jが現れる時には文のi次特有度は大きく、現れない時には小さくなるという場合に相関係数が高くなる。このような場合、用語w_jは各文のi次特有度を支配する特有な用語と見なすことができる。従って、i次の用語特有度をdistinc(w_j, i)とすると、これは、
【００３５】
【数１７】

もしくは
【００３６】
【数１８】

により求めることができる（ブロック２８）。
用語総合特有度算出では図1の場合と同様に、複数の要因を組み合わせて各用語に対する総合特有度を求める。用語w_jの総合特有度をdistinc(w_j)とすると、これは、
【００３７】
【数１９】

で求めることができる（ブロック２９）。
特有用語選択３０では、求められた各次の特有度、総合特有度をもとに着目文書に特有な用語を選択する。これは以下のように行うことができる。最も簡単な方法は総合特有度が一定値以上の用語を選択する方法である。また次のような方法も可能である。先ず、特定の次数のトピック差分因子ベクトルに対して，各用語を、各文ベクトルとそのトピック差分因子ベクトルとの射影値と各用語の頻度との相関係数が正となるグループ，負となるグループに分ける。次いで、それぞれのグループから各次の特有度が一定値以上の用語を選択する．これを一定次数Lまでのトピック差分因子ベクトルの全てに行い、重複を排除することによって特有用語を選択する。どちらの方法を用いても特有な用語を選択することができる。
【００３８】
さらに、第2の実施例では以下のようにすることにより、用語ばかりでなく、句、係り受けの関係にある用語群、用語系列パターンなど用語の組み合わせの特有度を評価することができる。第1の実施例と同様に、ブロック13では形態素解析に加え、評価の対象となる用語の組合わせを抽出する。句や係り受けの関係にある用語群の場合には、統語解析を実行することにより抽出できる。また、頻出する用語系列パターンの抽出にはすでに色々な方法がすでに考案されており、問題なく用いることができる。ブロック15ではブロック16で用いる文書セグメントベクトルを作成する以外に、各文書セグメントにおいて評価対象の用語の組み合わせが現れる頻度を求める。着目文書Dの文kにおける頻度をp_Dk、比較文書Tの文kにおける頻度をp_Tk、とすると、ブロック28、29において、d_kjの替りにp_Dk、t_kiの替りにp_Tk、を用いることにより、用語w_jの替りに評価対象の用語の組み合わせの特有度を求めることができる。その結果、ブロック30において用語の場合と同様に特有な用語の組合わせを選択することができる。
【００３９】
次に、着目文書の特有性を評価するために、以下のような第２の手段を実施例３として開示する。第２の手段では、文書セグメントのベクトルの生成１５までは第１の手段（実施例１及び実施例２）と共通であるが、その後、着目文書の各文について、着目文書全体との類似度、及び比較文書全体との類似度を求める。図３は文書セグメント、及び用語の特有度を評価する本発明の第３の実施例を示す流れ図である。この発明の方法は、汎用コンピュータ上でこの発明を組み込んだプログラムを走らせることによって実施することができる。図３は、そのようなプログラムを走らせている状態でのコンピュータのフローチャートである。
【００４０】
１１は比較・着目文書入力、ブロック１２は用語検出、ブロック１３は形態素解析、ブロック１４は文書セグメント区分けである。ブロック１５は文書セグメントベクトル作成、ブロック３６は類似度算出、ブロック３７は文書セグメント特有度算出、ブロック３８は用語特有度算出である。ブロック３９は特有文書セグメント・用語選択である。これらのうち、ブロック１１〜1５は図１に示したものと全く同じである。
類似度算出では着目文書、比較文書の各文ベクトルと着目文書全体、比較文書全体との類似度を求める。着目文書の文ベクトルd_kの着目文書全体との類似度をsim(D, d_k)、比較文書全体との類似度をsim(T, d_k)とすると、これらはd_kと着目文書、比較文書の全文ベクトルとの内積の2乗和をベースに
【００４１】
【数２０】

【００４２】
【数２１】

のように求めることができる。あるいは、着目文書、比較文書の平均文ベクトルをそれぞれ

とすると、以下のように求めることもできる。
【００４３】
【数２２】

【００４４】
【数２３】

なお、類似度算出では後段の用語特有度算出をするために比較文書の全文ベクトルについても着目文書全体、比較文書全体との類似度を求めておく（ブロック３６）。文書セグメント特有度算出では着目文書の全文ベクトルについて特有度を求める。着目文書の中で重要な文は着目文書全体との類似度が大きくなり、また比較文書とは異なる内容の文は比較文書全体との類似度が小さくなる。そのため、（着目文書全体との類似度）／（比較文書全体との類似度）を用いることにより相違性と重要性の間でバランスのとれた特有度を定義することができる。従がって着目文書の文kの特有度distinc(d_k)は以下のように求めることができる（ブロック３７）。
【００４５】
【数２４】

このように求められる文kの特有度は、文kが着目文書とは類似度が高く、比較文書とは低い場合に大きくなる。なお、文書セグメント特有度算出では次の用語特有度算出に用いるため、比較文書Ｔの文特有度も求めておく。比較文書Ｔの文kの特有度はdistinc(t_k)により表すこととする。
用語特有度算出では、各文の特有度と各文における用語頻度との間の相関係数から用語特有度を求める。用語w_jの特有度をdistinc(w_j)とすると、
【００４６】
【数２５】

により求めることができる（ブロック３８）。用語w_jに対して相関係数が高くなるのは、d_kもしくはt_kにおける用語w_jに対応する成分の値と文の特有度との間に比例関係が成り立つときである。即ち、用語w_jが現れる時には文の特有度は大きく、現れない時には小さくなるという場合に相関係数が高くなる。このような場合、用語w_jは各文の特有度を支配する特有な用語と見なすことができる。
特有文書セグメント３９および特有用語選択４０では、文特有度が一定値以上の文、用語特有度が一定値以上の用語を選択することにより特有な文、用語を得ることができる。
【００４７】
本実施例では以下のようにすることにより、文書セグメントばかりでなく、句、係り受けの関係にある用語群、用語系列パターンなど用語の組み合わせの特有度を評価することができる。ブロック１３では形態素解析に加え、評価の対象となる用語の組合わせを抽出する。句や係り受けの関係にある用語群の場合には、統語解析を実行することにより抽出できる。また、頻出するパターンの抽出にはすでに色々な方法がすでに考案されており、問題なく用いることができる。ブロック１５ではブロック１６で用いる文書セグメントベクトル以外に、評価対象となる用語の組合わせに対してベクトルp=(p₁,..,p_J)^Tを作成する。pは、評価対象となる用語の組合わせに含まれる用語に対応する成分に対しては1、他の成分は0となるベクトルである。次に、ブロック３６、３７においてこのようなpを文ベクトルd_kの替りに用いることによりpと着目文書との類似度sim(D, p)、pと比較文書との類似度sim(T, p)を求める。数２０、２１と同様にこれらは以下のように定義することができる。
【００４８】
【数２６】

【００４９】
【数２７】

あるいは、数２２、２３と同様に以下のように定義してもよい。
【００５０】
【数２８】

【００５１】
【数２９】

これらの類似度を用いて評価対象の用語の組合わせの特有度distinc(p)を以下のように求めることができる。
【００５２】
【数３０】

ブロック４０においては特有度が一定値以上の用語の組み合わせを特有な用語の組み合わせとして選択する。
さらに、本実施例では、複数の用語から構成される句や係り受けの関係にある用語群や用語系列パターンの特有度を以下のように求めることもできる。ブロック１５ではブロック１６で用いる文書セグメントベクトルを作成する以外に、各文書セグメントにおいて評価対象の用語の組み合わせが現れる頻度を求める。着目文書Dの文kにおける頻度をp_Dk、比較文書Tの文kにおける頻度をp_Tk、とすると、ブロック３８において、d_kjの替りにp_Dk、t_kiの替りにp_Tk、を用いることにより、用語w_jの替りに評価対象の用語の組み合わせの特有度を求めることができる。ブロック３９においては特有度が一定値以上の用語の組み合わせを特有な用語の組み合わせとして選択する。
【００５３】
【発明の効果】
ここで本発明の効果を説明する為に「数式１３」を用いた実験結果を示す。実験に用いたデータは文書分類用コーパスReuters-21578の最初のカテゴリ“acq”から適当な長さを持ち、かつ類似度が高いことという基準で２つの文書を選んだ。これらのidは1836と2375である。これらの間の余弦類似度は0.955であった。文書1836は43文、2375は32文から構成されている。これらは同じ日のニュース記事であるが、より後に発信されたと思われる2375を着目文書Dとして、1836を比較文書Tとして、着目文書Dから特有文などを抽出することにした。内容的には、これらは米国航空会社TWAによる米国航空会社USAirの買収に関するものであり、D-1〜D-4が記事としてのまとめ、D-5〜D-24が買収劇の経緯、D-25以降がTWA社の分析となっており、文書Tにない情報はD-1〜D-4、D-5〜D-24の中の幾つかの文、D-25以降に多く含まれている。これらの文書の全文を本願明細書の最後に「実験文書データ」として示す。
【００５４】
本発明の実施例１に従い実験を行った結果、特有値の高い文として、Ｄ−１、Ｄ−８、Ｄ−１１、Ｄ−２４、Ｄ−２５、Ｄ−２７、Ｄ−２８、Ｄ−３０の８個の文が選択された。これらは人間の読み比べ実験においても比較文書とは関係が薄くかつ着目文書に特有な文と認められるものであった。
また「数式１９」に従がって特有度の高い単語を選択した結果を以下に示す。特有度の高い１０個の単語に対して、各単語の特有度、着目文書Dにおける出現頻度、及び比較文書Tにおける出現頻度を示す。
【００５５】

これらの結果より、比較文書Tでの出現頻度が低くかつ着目文書Dでの出現頻度の高い単語が選択できた。
これの応用として次の例が考えられる。先にある記事を読んで内容を把握した場合、その後に入ってきた記事から、先の記事に記載されていない内容のキーワードが抽出出来る。従がって、後から入ってきた記事を詳しく読む必要があるかどうかを判断することが出来る。上記の”ｓｕｃｃｅｅｄ”と”ｃｌｅａｒ”のように着目文書と比較文書における頻度が全く同じとなってしまう２つの用語についても異なる特有度が求められ、どちらがより特有かの判断ができるのが本発明の特長である。
【００５６】
【実験文書データ】
以下に本発明で使用した文書を記載する。
比較文書 T （Ｒｅｕｔｅｒ−ｉｄ１８３６）
Trans World Airlines Inc complicated the bidding for Piedmont Aviation Inc by offering either to buy Piedmont suitor USAir Group or, alternatively, to merge with Piedmont and USAir. Piedmont's board was meeting today, and Wall Street speculated the board was discussing opposing bids from Norfolk Southern Corp and USAir. The TWA offer was announced shortly after the Piedmont board meeting was scheduled to begin. TWA offered to buy USAir for 52 dlrs cash per share. It also said it was the largest shareholder of USAir and threatened to go directly to USAir shareholders with an offer for 51 pct of the stock at a lower price. TWA also said it believed its offer was a better deal for USAir shareholders than an acquisition of Piedmont, but it said it alternatively would discuss a three way combination of the airlines. Market sources and analysts speculated that TWA chairman Carl Icahn made the offer in order to put his own airline into the takeover arena. We're just wondering if he's not just trying to get TWA into play.
【００５７】
There's speculation on the street he just wants to move onto somthing else, said one arbitrager. We think TWA might just be putting up a trial balloon. Analysts said the offer must be taken seriously by USAir, but that the airline will probably reject it because the price is relatively low compared to other airline deals. They also said Icahn must prove his offer credible by revealing financing arrangements. They need to show their commitment and their ability to finance. I think it's a credible offer, said Timothy Pettee, a Bear Stearns analyst. I think it's certainly on the low end of relative values of airline deals, said Pettee. Pettee estimated 58 dlrs would be in a more reasonable range based on other airline mergers. USAir stock soared after TWA made public its offer.
【００５８】
A spokesman for USAir declined comment, and said USAir had not changed its offer for Piedmont. USAir offered of buy 50 pct of that airline's stock for 71 dlrs cash per share and the balance for 73 dlrs per share in USAir stock. USAir closed up 5-3/8 at 49-1/8 on volume of 1.9 mln shares. Piedmont, which slipped 1/2 to close at 69-5/8, also remained silent on the TWA action. Piedmont has an outstanding 65 dlr cash per share offer from Norfolk Southern Corp. Norfolk Southern declined comment, but said it stuck with its offer for Piedmont. Norfolk owns about 20 pct of Piedmont and opened the bidding when it said it would propose a takeover of Piedmont. Some analysts said Icahn may be trying to acquire USAir to make his own airline a more attractive takeover target. Icahn I think had wanted to sell his airline and there were no takers. I think the strategy might have called for making his investment more attractive.
【００５９】
One way to accomplish that specific objective is to go out and acquire other airlines, said Andrew Kim of Eberstadt Fleming. I don't know whose going to buy them, but at least this way it becomes a much more viable package, said Kim. But Icahn's financing ability for such a transaction remains in doubt, in part because of TWA's heavy debt load. Wall street sources said TWA has some cash with which to do the offer. The sources said Icahn has not lined up outside financial advisers and plans to make his own arrangements. Icahn earlier this year abandoned plans to buy USX Corp <X> and still retains 11 pct of that company's stock. Some Wall street sources said the financier's USX plan was impacted by the cloud hanging over his adviser, Drexel Burnham Lambert Inc, because of Wall Street's insider trading scandal. Industry sources also predicted USAir might reject the TWA offer on price and financing concerns. It's littered with contingencies and it doesn't even have a financing arrangement, said one executive at another major airline. But the executive conceded a merged TWA USAir would be a strong contender with USAir's east coast route system and planned west coast presence from PSA. USAir could feed the intenrational flights of TWA, which has a midwest presence in its St. Louis hub. Adding Piedmont, dominant in the southeast, to the mix would develop an even stronger force. The combined entity would also have TWA's pars reservation system. Such a merger would be complex and analysts said it would result in an airline iwth an 18 pct market share.
【００６０】
着目文書 D（Ｒｅｕｔｅｒ−ｉｄ２３７５）
D-1 Carl Icahn's bold takeover bid for USAir Group has clouded the fate of Piedmont Aviation Inc, which was being courted by USAir.
D-2 Yesterday, Icahn's Transworld Airlines Inc <TWA> made a 1.4 billion dlr offer for USAir Group.
D-3 The move complicated a USAir takeover offer for Piedmont, which was believed to be close to accepting the bid.
D-4 Today, USAir rejected Icahn's 52 dlr per share offer and said the bid was a last minute effort to interfere in its takeover of Piedmont.
D-5 Icahn was unavailable for comment.
D-6 Piedmont fell one to 68-5/8 on volume of 963,000.
D-7 TWA was off 3/8 to 31-1/2.
D-8 USAir fell 1-3/8 to 47-3/4 as doubt spread it would be taken over.
D-9 Analysts and market sources view the TWA bid as an attempt to either trigger a counter offer from USAir or to attract a suitor who might want both airlines once they merged.
D-10 The next move is either Icahn starts a tender offer or Piedmont and USAir announce a deal, speculated one arbitrager.
【００６１】
D-11 Some arbitragers said there is now some risk in the current price of Piedmont since it is not clear that USAir's bid will succeed.
D-12 Piedmont's largest shareholder and other suitor, Norfolk Southern Corp <NSC> has offered 65 dlrs per share for the company.
D-13 USAir offered 71 dlrs cash per share for half of Piedmont stock, and 73 dlrs per share in stock for the balance.
D-14 Some arbitragers, however, believe the depressed price of Piedmont offers a buying opportunity since the airline is destined to be acquired by someone.
D-15 USAir, they said, is the least likely to be bought.
D-16 Icahn, who has long talked about further consolidation in the airline industry, also offered USAir the alternative of a three way airline combination, including TWA and Piedmont.
D-17 But Wall Street has given little credibility to Icahn's offer, which lacked financing and was riddled with contingencies.
D-18 Still, he has succeeded in holding up a merger of two airlines both of which analysts said would fit well with TWA.
D-19 You can't discount him, said one arbitrager.
D-20 Analysts, however, said Icahn would have to prove he is serious by following through with his threats or making a new offer.
【００６２】
D-21 In making the offer for USAir, Icahn threatened to go directly to shareholders for 51 pct of the stock at a lower price if USAir rejected his offer.
D-22 It's clear Icahn wants to sell and he's bluffing, said one arbitrager.
D-23 Analysts said the 52 dlr per share offer was underpriced by about six dlrs per share.
D-24 Some analysts believe Icahn's proposed three way airline combination might face insurmountable regulatory hurdles, but others believe it could be cleared if the companies are acquired separately.
D-25 TWA would have to be the surviving company for the deal to work, said one analyst.
D-26 Analysts said such a merger would be costly and complicated.
D-27 TWA has the best cost structure, since Icahn succeeded in winning concessions from its unions.
D-28 In order for the other carriers to come down to TWA's wage scale in a merger, TWA would have to be the surviving entity, analysts said.
D-29 Such a move does not necessarily free Icahn of TWA, they said.
D-30 They said he showed skill in reducing Ozark Airlines' costs when he merged it into TWA last year, and he might be a necessary ingredient for a merger to work.
D-31 However, other analysts speculated the managements of Piedmont and USAir would not tolerate Icahn as head of a new company.
D-32 They said a USAir acquisition of TWA might be a way for him to exit the company if USAir's airline is then merged into TWA.
【図面の簡単な説明】
【図１】本発明の第１の実施例を示す図であり、文書が入力された段階から文書セグメントの特有度が決定されるまでの手順を示している。
【図２】本発明の第２の実施例を示す図であり、文書が入力された段階から用語の特有度が決定されるまでの手順を示している。
【図３】本発明の第３の実施例を示す図であり、文書が入力された段階から文書セグメント及び用語の特有度が決定されるまでの手順を示している。
【図４】本発明のブロック図である。
【図５】本発明の着目文書・比較文書の文ベクトルを説明する図である。
【符号の説明】
１１０：文書入力部
１２０：データ処理部
１３０：選択エンジン
１４０：特有文書セグメント・特有用語出力部

Claims

一つ以上の文書セグメントから成る比較文書Ｔに対する一つ以上の文書セグメントから成る着目文書Ｄに含まれる用語の特有度を評価して、特有な用語を選択する方法であって、
（ａ）前記比較文書Ｔと前記着目文書Ｄとに含まれる前記文書セグメント毎に、前記文書セグメントに出現する用語の出現頻度に関連した値を成分とする文書セグメントベクトルｔ _ｋ，ｄ _ｋであって、
前記比較文書Ｔに含まれるｋ番目の文書セグメントの文書セグメントベクトルｔ _ｋは、ｔ _ｋ＝（ｔ _ｋ１，...，ｔ _ｋＪ） ^Ｔと表され（Ｔはベクトルの転置を表わし、Ｊは前記着目文書Ｄと前記比較文書Ｔに現れる用語の種類数の大きいほうを表す）、
前記着目文書Ｄに含まれるｋ番目の文書セグメントの文書セグメントベクトルｄ _ｋは、ｄ _ｋ＝（ｄ _ｋ１，...，ｄ _ｋＪ） ^Ｔと表される
文書セグメントベクトルを生成するステップと、
（ｂ）前記文書セグメントベクトルｄ _ｋ，ｔ _ｋより、前記比較文書Ｔと前記着目文書Ｄに対応する平方和行列Ｓ _Ｔ，Ｓ _Ｄそれぞれを生成するステップと、
（ｃ）前記比較文書Ｔと前記着目文書Ｄとに対応する平方和行列Ｓ _Ｔ，Ｓ _Ｄから着目文書Ｄのｉ次のトピック差分因子ベクトルであって、Ｓ _Ｄ α＝λＳ _Ｔ αなる一般固有値問題のｉ次の固有ベクトルα _ｉにより計算されるｉ次のトピック差分因子ベクトルを、一定次数Ｌまで求めるステップと、
（ｄ）前記着目文書Ｄ及び前記比較文書Ｔの各文書セグメントに対して、対応する文書セグメントベクトルｄ _ｋ，ｔ _ｋそれぞれと、前記一定次数Ｌまでのｉ次のトピック差分因子ベクトルそれぞれとの内積の値ｙ _ki ，ｚ _ki それぞれを求めるステップと、
（ｅ）前記着目文書Ｄと前記比較文書Ｔとに含まれる各用語の文書セグメントベクトルｄ _ｋ，ｔ _ｋそれぞれと、前記一定次数Ｌまでのトピック差分因子ベクトルそれぞれとの内積の値ｙ _{ｋ i} ，ｚ _ki それぞれの大きさに対応する前記一定次数Ｌまでのｉ次の特有度ｄｉｓｔｉｎｃ（ｗ _ｊ，ｉ）、及び、前記一定次数までのｉ次の特有度の合計に対応する総合特有度ｄｉｓｔｉｎｃ（ｗ _ｊ）を求めるステップと、
（ｆ）前記一定次数Ｌまでのｉ次の特有度ｄｉｓｔｉｎｃ（ｗ _ｊ，ｉ）それぞれまたは総合特有度ｄｉｓｔｉｎｃ（ｗ _ｊ）に基づいて、着目文書Ｄに特有な用語を選択するステップと
をコンピュータに実行させる方法であって、
前記着目文書Ｄおよび前記比較文書Ｔに含まれる各用語の前記一定次数Ｌまでのｉ次の特有度ｄｉｓｔｉｎｃ（ｗ _ｊ，ｉ）それぞれは、各用語の各文書セグメントにおける頻度と、前記文書セグメントベクトルｄ _ｋ，ｔ _ｋと前記一定次数Ｌまでのｉ次の特有度ｄｉｓｔｉｎｃ（ｗ _ｊ，ｉ）それぞれとの内積値ｙ _ki ，ｚ _ki との間の相関係数の絶対値もしくは２乗値により決定され、総合特有度ｄｉｓｔｉｎｃ（ｗ _ｊ）は各次の特有度を一定次数加えて決定されること
を特徴とする方法。
前記着目文書Ｄにおいて、
前記文書セグメントｄ _ｋの数がＭ個であり、
前記ｋは、ｋ＝１，．．，Ｍと表され、
ｄ _ｋｊは前記文書セグメントに出現するｊ番目の用語の出現頻度に関連した値を表わす、
とした場合、
前記着目文書Ｄの平方和行列Ｓ _Ｄが、

となるように求められ、
前記比較文書Ｔにおいて、前記文書セグメントの数がＮであり、
ｔ _ｋｊは前記文書セグメントに出現するｊ番目の用語の出現頻度に関連した値を表わす、
とした場合、
前記比較文書Ｔの平方和行列Ｓ _Ｔが

で計算されること
を特徴とする請求項１に記載の方法。
一つ以上の文書セグメントから成る比較文書Ｔに対する一つ以上の文書セグメントから成る着目文書Ｄに含まれる文書セグメントの特有度を評価し、特有な文書セグメントを選択する方法であって、
（ａ）前記比較文書Ｔと前記着目文書Ｄとに含まれる前記文書セグメント毎に、前記文書セグメントに出現する用語の出現頻度に関連した値を成分とする文書セグメントベクトルｔ _ｋ，ｄ _ｋであって、
前記比較文書Ｔに含まれるｋ番目の文書セグメントの文書セグメントベクトルｔ _ｋは、ｔ _ｋ＝（ｔ _ｋ１，...，ｔ _ｋＪ） ^Ｔと表され（Ｔはベクトルの転置を表わし、Ｊは前記着目文書Ｄと前記比較文書Ｔに現れる用語の種類数の大きいほうを表す）、
前記着目文書Ｄに含まれるｋ番目の文書セグメントの文書セグメントベクトルｄ _ｋは、ｄ _ｋ＝（ｄ _ｋ１，...，ｄ _ｋＪ） ^Ｔと表される
文書セグメントベクトルを生成するステップと、
（ｂ）前記着目文書Ｄの各文書セグメントに対して、対応する文書セグメントベクトルｄ _ｋと着目文書Ｄとの類似度ｓｉｍ（Ｄ，ｄ _ｋ）及び比較文書Ｔとの類似度ｓｉｍ（Ｔ，ｄ _ｋ）を、下式により求めるステップと、

（ｃ）前記着目文書Ｄの各文書セグメントに対して、前記着目文書Ｄとの類似度ｓｉｍ（Ｄ，ｄ _ｋ）及び前記比較文書Ｔとの類似度ｓｉｍ（Ｔ，ｄ _ｋ）を用いて、下式により特有度ｄｉｓｔｉｎｃ（ｄ _ｋ）を求めるステップと、

（ｄ）前記特有度ｄｉｓｔｉｎｃ（ｄ _ｋ）に基づいて着目文書Ｄに特有な文書セグメントを選択するステップと
をコンピュータに実行させる方法。
一つ以上の文書セグメントから成る比較文書Ｔに対する一つ以上の文書セグメントから成る着目文書Ｄに含まれる文書セグメントの特有度を評価し、特有な文書セグメントを選択する方法であって、
（ａ）前記比較文書Ｔと前記着目文書Ｄとに含まれる前記文書セグメント毎に、前記文書セグメントに出現する用語の出現頻度に関連した値を成分とする文書セグメントベクトルｔ _ｋ，ｄ _ｋであって、
前記比較文書Ｔに含まれるｋ番目の文書セグメントの文書セグメントベクトルｔ _ｋは、ｔ _ｋ＝（ｔ _ｋ１，...，ｔ _ｋＪ） ^Ｔと表され（Ｔはベクトルの転置を表わし、Ｊは前記着目文書Ｄと前記比較文書Ｔに現れる用語の種類数の大きいほうを表す）、
前記着目文書Ｄに含まれるｋ番目の文書セグメントの文書セグメントベクトルｄ _ｋは、ｄ _ｋ＝（ｄ _ｋ１，...，ｄ _ｋＪ） ^Ｔと表される
文書セグメントベクトルを生成するステップと、
（ｂ）前記着目文書Ｄの各文書セグメントに対して、対応する文書セグメントベクトルｄ _ｋと着目文書Ｄとの類似度ｓｉｍ（Ｄ，ｄ _ｋ）及び比較文書Ｔとの類似度ｓｉｍ（Ｔ，ｄ _ｋ）を、下式により求めるステップであって、
前記着目文書Ｄの平均文ベクトル及び前記比較文書Ｔの平均文ベクトルそれぞれを、

としたときに、
前記着目文書Ｄの類似度ｓｉｍ（Ｄ，ｄ _ｋ）は、下式

により求められ、
前記比較文書Ｔの類似度ｓｉｍ（Ｔ，ｄ _ｋ）は、下式

により求められる
ステップと、
（ｃ）前記着目文書Ｄの各文書セグメントに対して、前記着目文書Ｄとの類似度ｓｉｍ（Ｄ，ｄ _ｋ）及び前記比較文書Ｔとの類似度ｓｉｍ（Ｔ，ｄ _ｋ）を用いて、下式により特有度ｄｉｓｔｉｎｃ（ｄ _ｋ）を求めるステップと、

（ｄ）前記特有度ｄｉｓｔｉｎｃ（ｄ _ｋ）から着目文書Ｄに特有な文書セグメントを選択するステップと
をコンピュータに実行させる方法。
一つ以上の文書セグメントから成る比較文書に対して一つ以上の文書セグメントから成る着目文書に含まれる用語の特有度を評価し、特有な用語を選択する方法であって、
（ａ）前記比較文書Ｔと前記着目文書Ｄとに含まれる前記文書セグメント毎に、前記文書セグメントに出現する用語の出現頻度に関連した値を成分とする文書セグメントベクトルｔ _ｋ，ｄ _ｋであって、
前記比較文書Ｔに含まれるｋ番目の文書セグメントの文書セグメントベクトルｔ _ｋは、ｔ _ｋ＝（ｔ _ｋ１，...，ｔ _ｋＪ） ^Ｔと表され（Ｔはベクトルの転置を表わし、Ｊは前記着目文書Ｄと前記比較文書Ｔに現れる用語の種類数の大きいほうを表す）、
前記着目文書Ｄに含まれるｋ番目の文書セグメントの文書セグメントベクトルｄ _ｋは、ｄ _ｋ＝（ｄ _ｋ１，...，ｄ _ｋＪ） ^Ｔと表される
文書セグメントベクトルを生成するステップと、
（ｂ）前記着目文書Ｄの各文書セグメントに対して、対応する文書セグメントベクトルｄ _ｋと着目文書Ｄとの類似度ｓｉｍ（Ｄ，ｄ _ｋ）及び比較文書Ｔとの類似度ｓｉｍ（Ｔ，ｄ _ｋ）を、下式により求めるステップと、

（ｃ）前記着目文書Ｄの各文書セグメントに対して、前記着目文書Ｄとの類似度ｓｉｍ（Ｄ，ｄ _ｋ）及び前記比較文書Ｔとの類似度ｓｉｍ（Ｔ，ｄ _ｋ）を用いて、下式により特有度ｄｉｓｔｉｎｃ（ｄ _ｋ）を求めるステップと、

（ｄ）前記比較文書Ｔの各文書セグメントに対して、前記着目文書Ｄとの類似度ｓｉｍ（Ｄ，ｔ _ｋ）及び前記比較文書Ｔとの類似度ｓｉｍ（Ｔ，ｄ _ｋ）を用いて特有度ｄｉｓｔｉｎｃ（ｔ _ｋ）を求めるステップと、
（ｅ）Ｍを着目文書Ｄの文書セグメントの数とし、Ｎを前記比較文書Ｔの文書セグメントの数として、下式に基づいて、用語ｗ _ｊの特有度ｄｉｓｔｉｎｃ（ｗ _ｊ）を求めるステップと、

（ｆ）前記特有度ｄｉｓｔｉｎｃ（ｗ _ｊ）に基づいて、着目文書に特有な用語を選択するステップと
をコンピュータに実行させる方法。
（ａ）前記比較文書Ｔと前記着目文書Ｄとに含まれる前記文書セグメント毎に、前記文書セグメントに出現する用語の出現頻度に関連した値を成分とする文書セグメントベクトルｔ _ｋ，ｄ _ｋであって、
前記比較文書Ｔに含まれるｋ番目の文書セグメントの文書セグメントベクトルｔ _ｋは、ｔ _ｋ＝（ｔ _ｋ１，...，ｔ _ｋＪ） ^Ｔと表され（Ｔはベクトルの転置を表わし、Ｊは前記着目文書Ｄと前記比較文書Ｔに現れる用語の種類数の大きいほうを表す）、
前記着目文書Ｄに含まれるｋ番目の文書セグメントの文書セグメントベクトルｄ _ｋは、ｄ _ｋ＝（ｄ _ｋ１，...，ｄ _ｋＪ） ^Ｔと表される
文書セグメントベクトルを生成するステップと、
（ｂ）前記着目文書Ｄの各文書セグメントに対して、対応する文書セグメントベクトルｄ _ｋと着目文書Ｄとの類似度ｓｉｍ（Ｄ，ｄ _ｋ）及び比較文書Ｔとの類似度ｓｉｍ（Ｔ，ｄ _ｋ）を、下式により求めるステップであって、
前記着目文書Ｄの平均文ベクトル及び前記比較文書Ｔの平均文ベクトルそれぞれを、

としたときに、
前記着目文書Ｄの類似度ｓｉｍ（Ｄ，ｄ _ｋ）は、下式

により求められ、
前記比較文書Ｔの類似度ｓｉｍ（Ｔ，ｄ _ｋ）は、下式

により求められる
ステップと、
（ｃ）前記着目文書Ｄの各文書セグメントに対して、前記着目文書Ｄとの類似度ｓｉｍ（Ｄ，ｄ _ｋ）及び前記比較文書Ｔとの類似度ｓｉｍ（Ｔ，ｄ _ｋ）を用いて、下式により特有度ｄｉｓｔｉｎｃ（ｄ _ｋ）を求めるステップと、

（ｄ）前記比較文書Ｔの各文書セグメントに対して、前記着目文書Ｄとの類似度ｓｉｍ（Ｄ，ｔ _ｋ）及び前記比較文書Ｔとの類似度ｓｉｍ（Ｔ，ｄ _ｋ）を用いて特有度ｄｉｓｔｉｎｃ（ｔ _ｋ）を求めるステップと、
（ｅ）Ｍを着目文書Ｄの文書セグメントの数とし、Ｎを前記比較文書Ｔの文書セグメントの数として、下式に基づいて、用語ｗ _ｊの特有度ｄｉｓｔｉｎｃ（ｗ _ｊ）を求めるステップと、

（ｆ）前記特有度ｄｉｓｔｉｎｃ（ｗ _ｊ）に基づいて、着目文書に特有な用語を選択するステップと
をコンピュータに実行させる方法。