JP4452012B2 - 文書の特有性評価方法 - Google Patents

文書の特有性評価方法 Download PDF

Info

Publication number
JP4452012B2
JP4452012B2 JP2002195375A JP2002195375A JP4452012B2 JP 4452012 B2 JP4452012 B2 JP 4452012B2 JP 2002195375 A JP2002195375 A JP 2002195375A JP 2002195375 A JP2002195375 A JP 2002195375A JP 4452012 B2 JP4452012 B2 JP 4452012B2
Authority
JP
Japan
Prior art keywords
document
segment
interest
comparison
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002195375A
Other languages
English (en)
Other versions
JP2004038606A (ja
JP2004038606A5 (ja
Inventor
隆彦 川谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HP Inc
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Priority to JP2002195375A priority Critical patent/JP4452012B2/ja
Priority to US10/460,469 priority patent/US7200802B2/en
Priority to EP03254238A priority patent/EP1378838B1/en
Priority to DE60316227T priority patent/DE60316227T2/de
Priority to CN031546242A priority patent/CN1495644B/zh
Publication of JP2004038606A publication Critical patent/JP2004038606A/ja
Publication of JP2004038606A5 publication Critical patent/JP2004038606A5/ja
Application granted granted Critical
Publication of JP4452012B2 publication Critical patent/JP4452012B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【産業上の利用分野】
本発明は文書の要約をはじめとする自然言語処理に関するものであり、特に2つの文書もしくは文書集合を比べた時の一方の文書、もしくは文書集合の構成要素(文、用語、句など)の特有性を定量的に評価できるようにすることによって前記処理の高性能化を図るものである。
【0002】
【従来の技術】
2つの文書、もしくは文書集合を比較した時に、両者の間の相違部分を抽出する処理は、多文書要約などにおいて重要な処理となっている。ここでは文書の対について述べることとし、相違部分が抽出される文書を着目文書、その比較相手を比較文書と呼ぶこととする。従来は、着目文書、比較文書の両方を小さな要素に分割したうえで、要素同士を突き合わせ、対応のつかない要素を相違部分としていた。要素としては、文、パラグラフ、自動的に抽出した話題の変化点で文書を分割した時の個々の領域などが扱われている。このような場合、要素同士の突き合せは、ベクトル空間モデルが多く用いられている。ベクトル空間モデルで各要素を表した場合、ベクトルの各成分は文書に現れる各用語に対応し、各成分の値には各要素における各用語の頻度、もしくはそれに関連する量が与えられる。
【0003】
また、要素同士の対応の良し悪しはベクトル同士の余弦類似度を用いることができ、余弦類似度が予め決定された閾値よりも高い場合、その要素同士は対応していると判断される。従って、着目文書中の要素で、比較文書のどの要素に対しても類似度が閾値よりも小さい要素が相違部分と見なされる。また、両文書をグラフを用いて表したうえでグラフ要素の対応関係を求め、対応のつかないグラフ要素から相違部分を求める方法も知られている。
【0004】
【発明が解消しようとする課題】
ところで、相違部分の抽出に対しては以下の2つの観点があるように思われる。即ち、
(A)表す情報が異なる部分を抽出する。
(B)両文書が文書全体として表す概念の違いを反映する部分を抽出する。
である。このような観点から従来の多文書要約の方法を見ると、その多くは(A)に基づいており、単に両文書間の相違部分のみが抽出され、相違部分の着目文書における重要性は評価されてない。そのため、情報としてはあまり重要ではない部分が、単に比較文書と異なるという理由だけで相違部分として抽出されるということが起こりえた。本発明は、上記(B)の立場に立ち、以下の条件を満たすような相違部分の抽出を可能とするものである。
【0005】
即ち、
(1)着目文書から抽出された相違部分は同時に着目文書では重要な部分であること。即ち、相違性と重要性の間でバランスがとれていること。この条件を満たす相違部分は単なる相違部分というより、着目文書の特有な部分と表した方がより適切と思われる。そこで、これ以降、この条件を満たす相違部分を特有部分と呼ぶこととする。
(2)着目文書の各文に対して、特有さの程度について評価値が求められること。
(3)抽出された特有部分に対して、どのような用語、もしくは用語系列が主な要因となっているのか説明ができるように、用語、用語系列の特有度について評価値が求められること。
である。
【0006】
【課題を解決するための手段】
上述の条件を満たすような着目文書の特有性評価方法を実現するための第1の手段は以下の通りである。第1の実施例として、着目文書の中から特有度の高い文書セグメントを抽出する方法について説明する。先ず、両文書を適当な単位の文書セグメントに区分けし、文書セグメントに出現する用語の出現頻度を成分とする文書セグメントのベクトルを生成する。最も自然な文書セグメントは文であるので、文を文書セグメントとして説明を続ける。従って、両文書は文ベクトルの集合として表現される。次いで、ある射影軸に両文書の全文ベクトルを射影したとし、(着目文書からの射影値の2乗和)/(比較文書からの射影値の2乗和)を最大にするような射影軸を求める。そのような射影軸に対しては着目文書の文ベクトルの射影値の2乗和は大きく、比較文書のそれは小さくなるので、着目文書には多く存在し、比較文書には存在しにくい情報が反映される。その結果射影軸に文ベクトルを射影すると、文の内容が比較文書と異なる場合は射影値の絶対値は着目文書では大きくなり、着目文書の各文の特有度算出のベースとすることができる。
【0007】
第2の実施例として、特有度の高い用語を選択する方法に付いて説明する。用語については、各文における着目語の頻度と各文の特有度との間の相関を求め、相関値が大きくなる用語を選択したとする。このような用語は特有度の大きい文にのみ現れている筈なので特有な用語と見なすことができる。従って、この相関値をもとに用語の特有度を求めることが可能となる。
また、着目文書に現れる句やパターンなどの用語系列についても文や用語の場合と同様な方法で特有度を評価する。各用語系列について、例えば着目用語系列に含まれる用語に対応する成分は1、他は0となるようなベクトルを作成することにより、文特有度を求めた方法で各用語系列の特有度を求めることができる。あるいは、各文における各用語系列の頻度を求めておけば、用語特有度を求めた方法において各用語系列の頻度を各用語の頻度の替りに用いることにより用語系列の特有度を評価することができる。
【0008】
さらに、本発明においては着目文書の特有性を評価するために以下のような第2の手段を実施例3として開示する。ここでも文を文書セグメントとして説明を続ける。第2の手段では、文書セグメントのベクトルの生成までは第1の手段と共通であるが、その後、着目文書の各文について、着目文書全体との類似度、及び比較文書全体との類似度を求める。着目文書の中で重要な文は着目文書全体との類似度が大きくなり、また比較文書とは異なる内容の文は比較文書全体との類似度が小さくなる。そのため、(着目文書全体との類似度)/(比較文書全体との類似度)を用いることにより相違性と重要性の間でバランスのとれた特有度を定義することができる。さらに、第1の手段と同じように各文の特有度と用語頻度との相関を求めることにより、用語の特有度を求めることができる。各用語系列についても、第1の手段と同じように用語系列から求められるベクトルと着目文書全体との類似度、及び比較文書全体との類似度を求めることにより特有度を算出することができる。また、各文における各用語系列の頻度と各文の特有度との間の相関から各用語系列特有度を算出することもできる。
【0009】
本発明によれば、2つの文書を比較したときに一方の着目文書を構成する各文、各句、各語に対して特有度を求めることができる。比較文書と着目文書とが例えば同じ事件について述べた新聞記事であった場合、着目文書から特有度の大きい文を選択することにより、比較文書とは異なる話題を述べている文を抽出することができるようになる。例えば、ある交通事故について、比較文書では“事故の概要”と“被害者、加害者”について、着目文書では、“事故の概要”に加えて“警察の見解”などについて述べているような場合、着目文書では“警察の見解”に関する文の特有度が高くなって“警察の見解”に関連する部分が取り出せる。もし、ユーザが比較文書は既に目を通した後であれば、ユーザはユーザにとって未知の“警察の見解”の部分のみを取り出して読むことが可能となる。これにより情報取得の効率化を図ることができる。また、アンケート調査において、着目文書をある母集団からの回答の集合、比較文書を別の母集団からの回答の集合とすると、本発明を適用することにより、着目文書の母集団に特有な回答の傾向を把握することができる。このように本発明を適用すれば着目文書からの情報の取得、解析が容易になる。
【0010】
【実施例】
本願発明の実施例を示すブロック図を図4に示す。ブロック110は文書入力部であり、比較文書及び着目文書が入力される。ブロック120はデータ処理部であり、入力された文書の用語検出、形態素解析、文書セグメント区分け等が行われる。ブロック130は選択エンジンであり、文書の中で、特有度の高い文書セグメントあるいは特有度のの高い用語の選択が行われる。ブロック140は出力部であり、選択された特有文書セグメントあるいは特有用語が出力される。
第1の実施例として、着目文書の中から特有度の高い文書セグメントを抽出する方法について説明する。図1は文書セグメントの特有度を評価する本発明の第1の実施例の流れ図である。この発明の方法は、汎用コンピュータ上でこの発明を組み込んだプログラムを走らせることによって実施することができる。図1は、そのようなプログラムを走らせている状態でのコンピュータのフローチャートである。ブロック11は比較・着目文書入力、ブロック12は用語検出、ブロック13は形態素解析、ブロック14は文書セグメント区分けである。ブロック15は文書セグメントベクトル作成、ブロック16はトピック差分因子分析、ブロック17は文書セグメントベクトル射影、ブロック18はトピック差分因子の各次毎の文書セグメント特有度算出、ブロック19は文書セグメント総合特有度算出、ブロック20は特有文書セグメント選択である。以下、英文文書を例に実施例を説明する。
【0011】
先ず、比較・着目文書入力11において着目文書と比較文書とが入力される。用語検出12において、両方の文書から単語、数式、記号系列などを検出する。ここでは、単語や記号系列などを総称して全て用語と呼ぶ。英文の場合、用語同士を分けて書く正書法が確立しているので用語の検出は容易である。次に、形態素解析13は、両方の文書に対して用語の品詞付けなどの形態素解析を行う。次に文書セグメント区分け14において両方の文書に対して文書セグメントへの区分けを行う。文書セグメントの最も基本的な単位は文である。英文の場合、文はピリオドで終わり、その後ろにスペースが続くので文の切出しは容易に行うことができる。その他の文書セグメントへの区分け法としては、ひとつの文が複文からなる場合主節と従属節に分けておく方法、用語の数がほぼ同じになるように複数の文をまとめて文書セグメントとする方法、文書の先頭から含まれる用語の数が同じになるように文とは関係なく区分けする方法などがある。
【0012】
文書セグメントベクトル作成15は、先ず文書全体に出現する用語から作成すべきベクトルの次元数および各次元と各用語との対応を決定する。この際に出現する全ての用語の種類にベクトルの成分を対応させなければならないということはなく、品詞付け処理の結果を用い、例えば名詞と動詞と判定された用語のみを用いてベクトルを作成するようにしてもよい。次いで、各文書セグメントに出現する用語の種類とその頻度を求め、その値に重みを乗じて対応する成分の値を決定し、文書セグメントベクトルを作成する。重みの与え方としては従来の技術を用いることができる。
【0013】
トピック差分因子分析では、全文書セグメントベクトルの射影値の2乗和に関する両文書の比を最大にするような射影軸を求める。以降、文を文書セグメントとした場合について説明を続ける。現れる用語の集合が{w1,..,wJ}で与えられ、それぞれM、N個の文からなる文書D、Tを考えることとする。文書Dを着目文書、文書Tを比較文書とする。各文書は文ベクトルの集合により表現され、それぞれのk番目の文の文ベクトルをdk=(dk1,.., dkJ)T、tk=(tk1,.., tkJ)Tにより表す。図5に文書セグメントを文とした場合の概念図を示す。着目文書Dは、M個の文から構成され(a)、そのk番目の文から文ベクトルdk(b)が生成される。dkのwjに対応する成分がdkjとして示されている。dkjは、k番目の文における用語wjの頻度を表わすので、例に示すような値を取る。同図(c)及び(d)は比較文書について説明している。求めるべき射影軸をαとする。一先ず‖α‖=1とする。文書D、Tの全文ベクトルをαへ射影したときの射影値の2乗和をPD、PTとすると、求めるべき射影軸は評価基準J(α)=PD/PTを最大にするようなαとして与えられる。PD、PT
【0014】
【数1】
Figure 0004452012
【0015】
【数2】
Figure 0004452012
【0016】
【数3】
Figure 0004452012
【0017】
【数4】
Figure 0004452012
と表されるので、評価基準J(α)は
【0018】
【数5】
Figure 0004452012
と書くことができる。
【0019】
「数5」で与えられる評価基準J(α)を最大にするαはJ(α)をαで微分した値を0とするようなαとして求めることが出来る。これは、
【0020】
【数6】
Figure 0004452012
なる一般固有値問題の固有ベクトルとして与えられる。これは、ある射影軸に両文書の全文ベクトルを射影したとし、(着目文書からの射影値の2乗和)/(比較文書からの射影値の2乗和)を最大にするような射影軸を求めたことに相当する。そのような射影軸に対しては着目文書の文ベクトルの射影値の2乗和は大きく、比較文書のそれは小さくなるので、着目文書には多く存在し、比較文書には存在しにくい情報が反映される。「数6」の固有値、固有ベクトルは一般に複数求めることができる。i次の固有値、固有ベクトルをλi、αiとすると、i次の固有ベクトルは着目文書Dには存在し、比較文書Tには存在しない情報を反映するi番目の要因を表すとみることができる。そこでi次の固有ベクトルαiを着目文書Dのi次のトピック差分因子ベクトルと呼ぶ。ブロック16(トピック因子分析)ではこのトピック差分因子ベクトルを求める。λii TSDαii TSTαiなので、λiはαiを用いた時の評価基準の値そのものである。
【0021】
従って、各次のトピック差分因子ベクトルに反映された両文書間の相違の程度は互いに異なるので、相違の程度に応じて各次のトピック差分因子ベクトルに重みを与えておいた方がよい。これは
Figure 0004452012
となるようにαiのノルムを決定することにより可能となる。そうすると、
Figure 0004452012
が成り立ち、αiと着目文書Dの各文ベクトルの内積の2乗和はλiと等しくなる。また、「数6」の場合、固有ベクトルが求められるためには行列STは正則行列でなければならない。しかし、実際には比較文書の文の数が用語数よりも小さい、特定の用語対が常に共起するような場合にはSTは正則行列として求められない。このような場合STを次式により正則化することにより固有ベクトルを求めることができる。
【0022】
【数7】
Figure 0004452012
但し、β2はパラメータ、Iを単位行列である。「数7」を用いる場合には評価基準J(α)は
【0023】
【数8】
Figure 0004452012
としたことに相当する。
文書セグメントベクトル射影17では、着目文書の各文ベクトルを各次のトピック差分因子ベクトルへ射影し、その値を求める。着目文書の文kの文ベクトルdkのi次のトピック差分因子ベクトルαiへの射影値をykiとすると、これは
【0024】
【数9】
Figure 0004452012
により求められる。しかし、この定義による射影値は長い文ほど大きくなる傾向があるので、文の長さによらないようにするため、‖dk‖による正規化を行ってもよい。この場合、射影値yki
【0025】
【数10】
Figure 0004452012
により与えられる。
トピック差分因子の各次毎の文書セグメント特有度算出18では、ykiをもとに文ベクトルdkのi次特有度distinc(dk, i)を求める。ykiは一般に正もしくは負の値をとり、その絶対値は、文kの内容が着目文書Dのそれと近いほど、また比較文書Tと異なるほど大きな値をとる。そこで、distinc(dk, i)を
【0026】
【数11】
Figure 0004452012
または
【0027】
【数12】
Figure 0004452012
のように定義することができる。このように求められるi次特有度はいわばi番目の要因のみによる特有さであり、文kの特有さを正確に表すには複数の要因による特有度を組み合わせる必要がある。そのため、
【0028】
【数13】
Figure 0004452012
により文kの文書セグメント総合特有度を算出する(ブロック19)。ここで、Lは文特有の算出に用いられるトピック差分因子ベクトルの数であり、適当な値は実験的に決定する必要がある。Lの最大値は値が1以上となる固有値の数である。特有文書セグメント選択20では、求められた各次の特有度、総合特有度をもとに着目文書に特有な文を選択する。これは以下のように行うことができる。最も簡単な方法は総合特有度が一定値以上の文を選択する方法である。また次のような方法も可能である。先ず、特定の次数のトピック差分因子ベクトルに対して,各文を、各文ベクトルとそのトピック差分因子ベクトルとの射影値が正となるグループ,負となるグループに分ける。次いで、それぞれのグループから各次の特有度が一定値以上の文を選択する.これを一定次数Lまでのトピック差分因子ベクトルの全てに行い、重複を排除することによって特有文を選択する。どちらの方法を用いても特有な文を選択することができる。
【0029】
さらに、第1の実施例では以下のようにすることにより、文書セグメントばかりでなく、句、係り受けの関係にある用語群、用語系列パターンなど用語の組み合わせの特有度を評価することができる。例えば、「横浜で行われたサッカーの試合」という表現を例にとると、「サッカーの」は名詞の「試合」を修飾するので「サッカーの試合」は名詞句となる。さらに、「横浜で行われた」は名詞句の「サッカーの試合」を修飾するので、上述の表現全体で名詞句となる。細かくみるとさらに、「横浜で」は動詞句の「行われた」を修飾するので、「横浜で行われた」は係り受けの関係にある用語群となる。また、「××で行われたサッカーの試合」と云う表現が、××に色々な地名が入りつつ何度も現れる場合、「で行われたサッカーの試合」は用語系列のパターンとなる。
【0030】
ブロック13では形態素解析に加え、評価の対象となる用語の組合わせを抽出する。句や係り受けの関係にある用語群の場合には、統語解析を実行することにより抽出できる。また、頻出する用語系列パターンの抽出にはすでに色々な方法がすでに考案されており、問題なく用いることができる。ブロック15ではブロック16で用いる文書セグメントベクトル以外に、評価の対象となる用語の組合わせに対してベクトルp=(p1,..,pJ)Tを作成する。pは、用語の組合わせに含まれる用語に対応する成分に対しては1、他の成分は0となるベクトルである。
ここでベクトルpの具体的な例を示すと次のようになる。「横浜で行われたサッカーの試合」という表現の場合には、pは用語「横浜」、「行われた」、「サッカー」、「試合」に対応する成分のみが1となり、他は0となるベクトルとなる。ブロック17、18、19においてこのようなpを文ベクトルdkの替りに用いることにより、評価対象の用語の組合わせの特有度を求めることができる。従って、ブロック20において文の場合と同様に特有な用語の組合わせを選択することができる。
【0031】
第2の実施例として、着目文書の中から特有度の高い用語を選択する方法に付いて説明する。用語については、各文における着目語の頻度と各文の特有度との間の相関を求め、相関値が大きくなる用語を選択する。この相関値をもとに用語の特有度を求める。 図2は用語の特有度を評価する本発明の第2の実施例を示す流れ図である。この発明の方法は、汎用コンピュータ上でこの発明を組み込んだプログラムを走らせることによって実施することができる。図2は、そのようなプログラムを走らせている状態でのコンピュータのフローチャートである。ブロック11は比較・着目文書入力、ブロック12は用語検出、ブロック13は形態素解析、ブロック14は文書セグメント区分けである。ブロック15は文書セグメントベクトル作成、ブロック16はトピック差分因子分析、ブロック27は文書セグメントベクトル射影、ブロック28はトピック差分因子の各次毎の用語特有度算出、ブロック29は用語総合特有度算出、ブロック30は特有用語選択である。これらのうち、ブロック11〜16は図1に示したものと全く同じである。
図1の場合と同じように文を文書セグメントとする例について説明する。文書セグメントベクトル射影27では、図1の17における着目文書Dの文ベクトルの射影に加え、比較文書Tの全文ベクトルの射影も行われる。比較文書Tの文ベクトルtkのi次のトピック差分因子ベクトルαiへの射影値をzkiとすると、これは
【0032】
【数14】
Figure 0004452012
もしくは
【0033】
【数15】
Figure 0004452012
により求められる。
トピック差分因子の各次毎の用語特有度算出では、先ず、各文の射影値と各文における用語頻度との間の相関を求める。着目文書、比較文書における各文ベクトルのj番目の用語wjに対応する成分の値と各文ベクトルのi次のトピック差分因子ベクトルαiへの射影値との間の相関係数をcorrel(wj, i)とする。文ベクトルdk、tkのj番目の成分はdkj、tkj、αiへの射影値はyki、zkiなので、相関係数は
【0034】
【数16】
Figure 0004452012
により求められる。用語wjに対して相関係数が高くなるのは、dkもしくはtkにおける用語wjに対応する成分の値と文ベクトルのαiへの射影値との間に比例関係が成り立つときである。即ち、用語wjが現れる時には文のi次特有度は大きく、現れない時には小さくなるという場合に相関係数が高くなる。このような場合、用語wjは各文のi次特有度を支配する特有な用語と見なすことができる。従って、i次の用語特有度をdistinc(wj, i)とすると、これは、
【0035】
【数17】
Figure 0004452012
もしくは
【0036】
【数18】
Figure 0004452012
により求めることができる(ブロック28)。
用語総合特有度算出では図1の場合と同様に、複数の要因を組み合わせて各用語に対する総合特有度を求める。用語wjの総合特有度をdistinc(wj)とすると、これは、
【0037】
【数19】
Figure 0004452012
で求めることができる(ブロック29)。
特有用語選択30では、求められた各次の特有度、総合特有度をもとに着目文書に特有な用語を選択する。これは以下のように行うことができる。最も簡単な方法は総合特有度が一定値以上の用語を選択する方法である。また次のような方法も可能である。先ず、特定の次数のトピック差分因子ベクトルに対して,各用語を、各文ベクトルとそのトピック差分因子ベクトルとの射影値と各用語の頻度との相関係数が正となるグループ,負となるグループに分ける。次いで、それぞれのグループから各次の特有度が一定値以上の用語を選択する.これを一定次数Lまでのトピック差分因子ベクトルの全てに行い、重複を排除することによって特有用語を選択する。どちらの方法を用いても特有な用語を選択することができる。
【0038】
さらに、第2の実施例では以下のようにすることにより、用語ばかりでなく、句、係り受けの関係にある用語群、用語系列パターンなど用語の組み合わせの特有度を評価することができる。第1の実施例と同様に、ブロック13では形態素解析に加え、評価の対象となる用語の組合わせを抽出する。句や係り受けの関係にある用語群の場合には、統語解析を実行することにより抽出できる。また、頻出する用語系列パターンの抽出にはすでに色々な方法がすでに考案されており、問題なく用いることができる。ブロック15ではブロック16で用いる文書セグメントベクトルを作成する以外に、各文書セグメントにおいて評価対象の用語の組み合わせが現れる頻度を求める。着目文書Dの文kにおける頻度をpDk、比較文書Tの文kにおける頻度をpTk、とすると、ブロック28、29において、dkjの替りにpDk、tkiの替りにpTk、を用いることにより、用語wjの替りに評価対象の用語の組み合わせの特有度を求めることができる。その結果、ブロック30において用語の場合と同様に特有な用語の組合わせを選択することができる。
【0039】
次に、着目文書の特有性を評価するために、以下のような第2の手段を実施例3として開示する。第2の手段では、文書セグメントのベクトルの生成15までは第1の手段(実施例1及び実施例2)と共通であるが、その後、着目文書の各文について、着目文書全体との類似度、及び比較文書全体との類似度を求める。図3は文書セグメント、及び用語の特有度を評価する本発明の第3の実施例を示す流れ図である。この発明の方法は、汎用コンピュータ上でこの発明を組み込んだプログラムを走らせることによって実施することができる。図3は、そのようなプログラムを走らせている状態でのコンピュータのフローチャートである。
【0040】
11は比較・着目文書入力、ブロック12は用語検出、ブロック13は形態素解析、ブロック14は文書セグメント区分けである。ブロック15は文書セグメントベクトル作成、ブロック36は類似度算出、ブロック37は文書セグメント特有度算出、ブロック38は用語特有度算出である。ブロック39は特有文書セグメント・用語選択である。これらのうち、ブロック11〜15は図1に示したものと全く同じである。
類似度算出では着目文書、比較文書の各文ベクトルと着目文書全体、比較文書全体との類似度を求める。着目文書の文ベクトルdkの着目文書全体との類似度をsim(D, dk)、比較文書全体との類似度をsim(T, dk)とすると、これらはdkと着目文書、比較文書の全文ベクトルとの内積の2乗和をベースに
【0041】
【数20】
Figure 0004452012
【0042】
【数21】
Figure 0004452012
のように求めることができる。あるいは、着目文書、比較文書の平均文ベクトルをそれぞれ
Figure 0004452012
とすると、以下のように求めることもできる。
【0043】
【数22】
Figure 0004452012
【0044】
【数23】
Figure 0004452012
なお、類似度算出では後段の用語特有度算出をするために比較文書の全文ベクトルについても着目文書全体、比較文書全体との類似度を求めておく(ブロック36)。文書セグメント特有度算出では着目文書の全文ベクトルについて特有度を求める。着目文書の中で重要な文は着目文書全体との類似度が大きくなり、また比較文書とは異なる内容の文は比較文書全体との類似度が小さくなる。そのため、(着目文書全体との類似度)/(比較文書全体との類似度)を用いることにより相違性と重要性の間でバランスのとれた特有度を定義することができる。従がって着目文書の文kの特有度distinc(dk)は以下のように求めることができる(ブロック37)。
【0045】
【数24】
Figure 0004452012
このように求められる文kの特有度は、文kが着目文書とは類似度が高く、比較文書とは低い場合に大きくなる。なお、文書セグメント特有度算出では次の用語特有度算出に用いるため、比較文書Tの文特有度も求めておく。比較文書Tの文kの特有度はdistinc(tk)により表すこととする。
用語特有度算出では、各文の特有度と各文における用語頻度との間の相関係数から用語特有度を求める。用語wjの特有度をdistinc(wj)とすると、
【0046】
【数25】
Figure 0004452012
により求めることができる(ブロック38)。用語wjに対して相関係数が高くなるのは、dkもしくはtkにおける用語wjに対応する成分の値と文の特有度との間に比例関係が成り立つときである。即ち、用語wjが現れる時には文の特有度は大きく、現れない時には小さくなるという場合に相関係数が高くなる。このような場合、用語wjは各文の特有度を支配する特有な用語と見なすことができる。
特有文書セグメント39および特有用語選択40では、文特有度が一定値以上の文、用語特有度が一定値以上の用語を選択することにより特有な文、用語を得ることができる。
【0047】
本実施例では以下のようにすることにより、文書セグメントばかりでなく、句、係り受けの関係にある用語群、用語系列パターンなど用語の組み合わせの特有度を評価することができる。ブロック13では形態素解析に加え、評価の対象となる用語の組合わせを抽出する。句や係り受けの関係にある用語群の場合には、統語解析を実行することにより抽出できる。また、頻出するパターンの抽出にはすでに色々な方法がすでに考案されており、問題なく用いることができる。ブロック15ではブロック16で用いる文書セグメントベクトル以外に、評価対象となる用語の組合わせに対してベクトルp=(p1,..,pJ)Tを作成する。pは、評価対象となる用語の組合わせに含まれる用語に対応する成分に対しては1、他の成分は0となるベクトルである。次に、ブロック36、37においてこのようなpを文ベクトルdkの替りに用いることによりpと着目文書との類似度sim(D, p)、pと比較文書との類似度sim(T, p)を求める。数20、21と同様にこれらは以下のように定義することができる。
【0048】
【数26】
Figure 0004452012
【0049】
【数27】
Figure 0004452012
あるいは、数22、23と同様に以下のように定義してもよい。
【0050】
【数28】
Figure 0004452012
【0051】
【数29】
Figure 0004452012
これらの類似度を用いて評価対象の用語の組合わせの特有度distinc(p)を以下のように求めることができる。
【0052】
【数30】
Figure 0004452012
ブロック40においては特有度が一定値以上の用語の組み合わせを特有な用語の組み合わせとして選択する。
さらに、本実施例では、複数の用語から構成される句や係り受けの関係にある用語群や用語系列パターンの特有度を以下のように求めることもできる。ブロック15ではブロック16で用いる文書セグメントベクトルを作成する以外に、各文書セグメントにおいて評価対象の用語の組み合わせが現れる頻度を求める。着目文書Dの文kにおける頻度をpDk、比較文書Tの文kにおける頻度をpTk、とすると、ブロック38において、dkjの替りにpDk、tkiの替りにpTk、を用いることにより、用語wjの替りに評価対象の用語の組み合わせの特有度を求めることができる。ブロック39においては特有度が一定値以上の用語の組み合わせを特有な用語の組み合わせとして選択する。
【0053】
【発明の効果】
ここで本発明の効果を説明する為に「数式13」を用いた実験結果を示す。実験に用いたデータは文書分類用コーパスReuters-21578の最初のカテゴリ“acq”から適当な長さを持ち、かつ類似度が高いことという基準で2つの文書を選んだ。これらのidは1836と2375である。これらの間の余弦類似度は0.955であった。文書1836は43文、2375は32文から構成されている。これらは同じ日のニュース記事であるが、より後に発信されたと思われる2375を着目文書Dとして、1836を比較文書Tとして、着目文書Dから特有文などを抽出することにした。内容的には、これらは米国航空会社TWAによる米国航空会社USAirの買収に関するものであり、D-1〜D-4が記事としてのまとめ、D-5〜D-24が買収劇の経緯、D-25以降がTWA社の分析となっており、文書Tにない情報はD-1〜D-4、D-5〜D-24の中の幾つかの文、D-25以降に多く含まれている。これらの文書の全文を本願明細書の最後に「実験文書データ」として示す。
【0054】
本発明の実施例1に従い実験を行った結果、特有値の高い文として、D−1、D−8、D−11、D−24、D−25、D−27、D−28、D−30の8個の文が選択された。これらは人間の読み比べ実験においても比較文書とは関係が薄くかつ着目文書に特有な文と認められるものであった。
また「数式19」に従がって特有度の高い単語を選択した結果を以下に示す。特有度の高い10個の単語に対して、各単語の特有度、着目文書Dにおける出現頻度、及び比較文書Tにおける出現頻度を示す。
【0055】
Figure 0004452012
これらの結果より、比較文書Tでの出現頻度が低くかつ着目文書Dでの出現頻度の高い単語が選択できた。
これの応用として次の例が考えられる。先にある記事を読んで内容を把握した場合、その後に入ってきた記事から、先の記事に記載されていない内容のキーワードが抽出出来る。従がって、後から入ってきた記事を詳しく読む必要があるかどうかを判断することが出来る。上記の”succeed”と”clear”のように着目文書と比較文書における頻度が全く同じとなってしまう2つの用語についても異なる特有度が求められ、どちらがより特有かの判断ができるのが本発明の特長である。
【0056】
【実験文書データ】
以下に本発明で使用した文書を記載する。
比較文書 T (Reuter−id1836)
Trans World Airlines Inc complicated the bidding for Piedmont Aviation Inc by offering either to buy Piedmont suitor USAir Group or, alternatively, to merge with Piedmont and USAir. Piedmont's board was meeting today, and Wall Street speculated the board was discussing opposing bids from Norfolk Southern Corp and USAir. The TWA offer was announced shortly after the Piedmont board meeting was scheduled to begin. TWA offered to buy USAir for 52 dlrs cash per share. It also said it was the largest shareholder of USAir and threatened to go directly to USAir shareholders with an offer for 51 pct of the stock at a lower price. TWA also said it believed its offer was a better deal for USAir shareholders than an acquisition of Piedmont, but it said it alternatively would discuss a three way combination of the airlines. Market sources and analysts speculated that TWA chairman Carl Icahn made the offer in order to put his own airline into the takeover arena. We're just wondering if he's not just trying to get TWA into play.
【0057】
There's speculation on the street he just wants to move onto somthing else, said one arbitrager. We think TWA might just be putting up a trial balloon. Analysts said the offer must be taken seriously by USAir, but that the airline will probably reject it because the price is relatively low compared to other airline deals. They also said Icahn must prove his offer credible by revealing financing arrangements. They need to show their commitment and their ability to finance. I think it's a credible offer, said Timothy Pettee, a Bear Stearns analyst. I think it's certainly on the low end of relative values of airline deals, said Pettee. Pettee estimated 58 dlrs would be in a more reasonable range based on other airline mergers. USAir stock soared after TWA made public its offer.
【0058】
A spokesman for USAir declined comment, and said USAir had not changed its offer for Piedmont. USAir offered of buy 50 pct of that airline's stock for 71 dlrs cash per share and the balance for 73 dlrs per share in USAir stock. USAir closed up 5-3/8 at 49-1/8 on volume of 1.9 mln shares. Piedmont, which slipped 1/2 to close at 69-5/8, also remained silent on the TWA action. Piedmont has an outstanding 65 dlr cash per share offer from Norfolk Southern Corp. Norfolk Southern declined comment, but said it stuck with its offer for Piedmont. Norfolk owns about 20 pct of Piedmont and opened the bidding when it said it would propose a takeover of Piedmont. Some analysts said Icahn may be trying to acquire USAir to make his own airline a more attractive takeover target. Icahn I think had wanted to sell his airline and there were no takers. I think the strategy might have called for making his investment more attractive.
【0059】
One way to accomplish that specific objective is to go out and acquire other airlines, said Andrew Kim of Eberstadt Fleming. I don't know whose going to buy them, but at least this way it becomes a much more viable package, said Kim. But Icahn's financing ability for such a transaction remains in doubt, in part because of TWA's heavy debt load. Wall street sources said TWA has some cash with which to do the offer. The sources said Icahn has not lined up outside financial advisers and plans to make his own arrangements. Icahn earlier this year abandoned plans to buy USX Corp <X> and still retains 11 pct of that company's stock. Some Wall street sources said the financier's USX plan was impacted by the cloud hanging over his adviser, Drexel Burnham Lambert Inc, because of Wall Street's insider trading scandal. Industry sources also predicted USAir might reject the TWA offer on price and financing concerns. It's littered with contingencies and it doesn't even have a financing arrangement, said one executive at another major airline. But the executive conceded a merged TWA USAir would be a strong contender with USAir's east coast route system and planned west coast presence from PSA. USAir could feed the intenrational flights of TWA, which has a midwest presence in its St. Louis hub. Adding Piedmont, dominant in the southeast, to the mix would develop an even stronger force. The combined entity would also have TWA's pars reservation system. Such a merger would be complex and analysts said it would result in an airline iwth an 18 pct market share.
【0060】
着目文書 D(Reuter−id2375)
D-1 Carl Icahn's bold takeover bid for USAir Group has clouded the fate of Piedmont Aviation Inc, which was being courted by USAir.
D-2 Yesterday, Icahn's Transworld Airlines Inc <TWA> made a 1.4 billion dlr offer for USAir Group.
D-3 The move complicated a USAir takeover offer for Piedmont, which was believed to be close to accepting the bid.
D-4 Today, USAir rejected Icahn's 52 dlr per share offer and said the bid was a last minute effort to interfere in its takeover of Piedmont.
D-5 Icahn was unavailable for comment.
D-6 Piedmont fell one to 68-5/8 on volume of 963,000.
D-7 TWA was off 3/8 to 31-1/2.
D-8 USAir fell 1-3/8 to 47-3/4 as doubt spread it would be taken over.
D-9 Analysts and market sources view the TWA bid as an attempt to either trigger a counter offer from USAir or to attract a suitor who might want both airlines once they merged.
D-10 The next move is either Icahn starts a tender offer or Piedmont and USAir announce a deal, speculated one arbitrager.
【0061】
D-11 Some arbitragers said there is now some risk in the current price of Piedmont since it is not clear that USAir's bid will succeed.
D-12 Piedmont's largest shareholder and other suitor, Norfolk Southern Corp <NSC> has offered 65 dlrs per share for the company.
D-13 USAir offered 71 dlrs cash per share for half of Piedmont stock, and 73 dlrs per share in stock for the balance.
D-14 Some arbitragers, however, believe the depressed price of Piedmont offers a buying opportunity since the airline is destined to be acquired by someone.
D-15 USAir, they said, is the least likely to be bought.
D-16 Icahn, who has long talked about further consolidation in the airline industry, also offered USAir the alternative of a three way airline combination, including TWA and Piedmont.
D-17 But Wall Street has given little credibility to Icahn's offer, which lacked financing and was riddled with contingencies.
D-18 Still, he has succeeded in holding up a merger of two airlines both of which analysts said would fit well with TWA.
D-19 You can't discount him, said one arbitrager.
D-20 Analysts, however, said Icahn would have to prove he is serious by following through with his threats or making a new offer.
【0062】
D-21 In making the offer for USAir, Icahn threatened to go directly to shareholders for 51 pct of the stock at a lower price if USAir rejected his offer.
D-22 It's clear Icahn wants to sell and he's bluffing, said one arbitrager.
D-23 Analysts said the 52 dlr per share offer was underpriced by about six dlrs per share.
D-24 Some analysts believe Icahn's proposed three way airline combination might face insurmountable regulatory hurdles, but others believe it could be cleared if the companies are acquired separately.
D-25 TWA would have to be the surviving company for the deal to work, said one analyst.
D-26 Analysts said such a merger would be costly and complicated.
D-27 TWA has the best cost structure, since Icahn succeeded in winning concessions from its unions.
D-28 In order for the other carriers to come down to TWA's wage scale in a merger, TWA would have to be the surviving entity, analysts said.
D-29 Such a move does not necessarily free Icahn of TWA, they said.
D-30 They said he showed skill in reducing Ozark Airlines' costs when he merged it into TWA last year, and he might be a necessary ingredient for a merger to work.
D-31 However, other analysts speculated the managements of Piedmont and USAir would not tolerate Icahn as head of a new company.
D-32 They said a USAir acquisition of TWA might be a way for him to exit the company if USAir's airline is then merged into TWA.
【図面の簡単な説明】
【図1】本発明の第1の実施例を示す図であり、文書が入力された段階から文書セグメントの特有度が決定されるまでの手順を示している。
【図2】本発明の第2の実施例を示す図であり、文書が入力された段階から用語の特有度が決定されるまでの手順を示している。
【図3】本発明の第3の実施例を示す図であり、文書が入力された段階から文書セグメント及び用語の特有度が決定されるまでの手順を示している。
【図4】本発明のブロック図である。
【図5】本発明の着目文書・比較文書の文ベクトルを説明する図である。
【符号の説明】
110:文書入力部
120:データ処理部
130:選択エンジン
140:特有文書セグメント・特有用語出力部

Claims (6)

  1. 一つ以上の文書セグメントから成る比較文書に対する一つ以上の文書セグメントから成る着目文書に含まれる用語の特有度を評価し、特有な用語を選択する方法であって、
    (a)前記比較文書と前記着目文書Dとに含まれる前記文書セグメント毎に、前記文書セグメントに出現する用語の出現頻度に関連した値を成分とする文書セグメントベクトル ,d であって、
    前記比較文書Tに含まれるk番目の文書セグメントの文書セグメントベクトルt は、t =(t k1 ,...,t kJ と表され(Tはベクトルの転置を表わし、Jは前記着目文書Dと前記比較文書Tに現れる用語の種類数の大きいほうを表す)、
    前記着目文書Dに含まれるk番目の文書セグメントの文書セグメントベクトルd は、d =(d k1 ,...,d kJ と表される
    文書セグメントベクトルを生成するステップと、
    (b)前記文書セグメントベクトル ,t より、前記比較文書と前記着目文書に対応する平方和行列 ,S それぞれを生成するステップと、
    (c)前記比較文書と前記着目文書Dとに対応する平方和行列 ,S から着目文書Dのi次のトピック差分因子ベクトルであって、S α=λS αなる一般固有値問題のi次の固有ベクトルα により計算されるi次のトピック差分因子ベクトルを、一定次数Lまで求めるステップと、
    (d)前記着目文書及び前記比較文書の各文書セグメントに対して、対応する文書セグメントベクトル ,t それぞれと、前記一定次数Lまでのi次のトピック差分因子ベクトルそれぞれとの内積の値 ki ,z ki それぞれを求めるステップと、
    (e)前記着目文書Dと前記比較文書Tとに含まれる各用語の文書セグメントベクトルd ,t それぞれと、前記一定次数Lまでのトピック差分因子ベクトルそれぞれとの内積の値y i ,z ki それぞれの大きさに対応する前記一定次数Lまでのi次の特有度distinc(w ,i)、及び、前記一定次数までのi次の特有度の合計に対応する総合特有度distinc(w )を求めるステップと、
    (f)前記一定次数Lまでのi次の特有度distinc(w ,i)それぞれまたは総合特有度distinc(w )に基づいて、着目文書に特有な用語を選択するステップ
    をコンピュータに実行させる方法であって、
    前記着目文書Dおよび前記比較文書Tに含まれる各用語の前記一定次数Lまでのi次の特有度distinc(w ,i)それぞれは、各用語の各文書セグメントにおける頻度と、前記文書セグメントベクトルd ,t と前記一定次数Lまでのi次の特有度distinc(w ,i)それぞれとの内積値y ki ,z ki との間の相関係数の絶対値もしくは2乗値により決定され、総合特有度distinc(w )は各次の特有度を一定次数加えて決定されること
    を特徴とする方法。
  2. 前記着目文書において、
    前記文書セグメント の数がM個であり、
    前記kは、k=1,..,Mと表され、
    kj は前記文書セグメントに出現するj番目の用語の出現頻度に関連した値を表わす、
    とした場合、
    前記着目文書の平方和行列 が、
    Figure 0004452012
    となるように求められ、
    前記比較文書において、前記文書セグメントの数がNであり、
    kj は前記文書セグメントに出現するj番目の用語の出現頻度に関連した値を表わす、
    とした場合、
    前記比較文書の平方和行列
    Figure 0004452012
    で計算されること
    を特徴とする請求項に記載の方法。
  3. 一つ以上の文書セグメントから成る比較文書に対する一つ以上の文書セグメントから成る着目文書に含まれる文書セグメントの特有度を評価し、特有な文書セグメントを選択する方法であって、
    (a)前記比較文書と前記着目文書Dとに含まれる前記文書セグメント毎に、前記文書セグメントに出現する用語の出現頻度に関連した値を成分とする文書セグメントベクトル ,d であって、
    前記比較文書Tに含まれるk番目の文書セグメントの文書セグメントベクトルt は、t =(t k1 ,...,t kJ と表され(Tはベクトルの転置を表わし、Jは前記着目文書Dと前記比較文書Tに現れる用語の種類数の大きいほうを表す)、
    前記着目文書Dに含まれるk番目の文書セグメントの文書セグメントベクトルd は、d =(d k1 ,...,d kJ と表される
    文書セグメントベクトルを生成するステップと、
    (b)前記着目文書の各文書セグメントに対して、対応する文書セグメントベクトル と着目文書との類似度sim(D, d )及び比較文書Tとの類似度sim(T, d )を、下式により求めるステップと、
    Figure 0004452012
    Figure 0004452012
    (c)前記着目文書の各文書セグメントに対して、前記着目文書との類似度sim(D, d 及び前記比較文書との類似度sim(T, d を用いて、下式により特有度distinc(d を求めるステップと、
    Figure 0004452012
    (d)前記特有度distinc(d )に基づいて着目文書に特有な文書セグメントを選択するステップ
    をコンピュータに実行させる方法。
  4. 一つ以上の文書セグメントから成る比較文書に対する一つ以上の文書セグメントから成る着目文書に含まれる文書セグメントの特有度を評価し、特有な文書セグメントを選択する方法であって、
    (a)前記比較文書と前記着目文書Dとに含まれる前記文書セグメント毎に、前記文書セグメントに出現する用語の出現頻度に関連した値を成分とする文書セグメントベクトル ,d であって、
    前記比較文書Tに含まれるk番目の文書セグメントの文書セグメントベクトルt は、t =(t k1 ,...,t kJ と表され(Tはベクトルの転置を表わし、Jは前記着目文書Dと前記比較文書Tに現れる用語の種類数の大きいほうを表す)、
    前記着目文書Dに含まれるk番目の文書セグメントの文書セグメントベクトルd は、d =(d k1 ,...,d kJ と表される
    文書セグメントベクトルを生成するステップと、
    (b)前記着目文書の各文書セグメントに対して、対応する文書セグメントベクトル と着目文書との類似度sim(D, d )及び比較文書Tとの類似度sim(T, d )を、下式により求めるステップであって、
    前記着目文書Dの平均文ベクトル及び前記比較文書Tの平均文ベクトルそれぞれを、
    Figure 0004452012
    としたときに、
    前記着目文書Dの類似度sim(D, d )は、下式
    Figure 0004452012
    により求められ、
    前記比較文書Tの類似度sim(T, d )は、下式
    Figure 0004452012
    により求められる
    ステップと、
    (c)前記着目文書の各文書セグメントに対して、前記着目文書との類似度sim(D, d 及び前記比較文書との類似度sim(T, d を用いて、下式により特有度distinc(d を求めるステップと、
    Figure 0004452012
    (d)前記特有度distinc(d から着目文書に特有な文書セグメントを選択するステップ
    をコンピュータに実行させる方法。
  5. 一つ以上の文書セグメントから成る比較文書に対して一つ以上の文書セグメントから成る着目文書に含まれる用語の特有度を評価し、特有な用語を選択する方法であって、
    (a)前記比較文書Tと前記着目文書Dとに含まれる前記文書セグメント毎に、前記文書セグメントに出現する用語の出現頻度に関連した値を成分とする文書セグメントベクトルt ,d であって、
    前記比較文書Tに含まれるk番目の文書セグメントの文書セグメントベクトルt は、t =(t k1 ,...,t kJ と表され(Tはベクトルの転置を表わし、Jは前記着目文書Dと前記比較文書Tに現れる用語の種類数の大きいほうを表す)、
    前記着目文書Dに含まれるk番目の文書セグメントの文書セグメントベクトルd は、d =(d k1 ,...,d kJ と表される
    文書セグメントベクトルを生成するステップと、
    (b)前記着目文書Dの各文書セグメントに対して、対応する文書セグメントベクトルd と着目文書Dとの類似度sim(D, d )及び比較文書Tとの類似度sim(T, d )を、下式により求めるステップと、
    Figure 0004452012
    Figure 0004452012
    (c)前記着目文書Dの各文書セグメントに対して、前記着目文書Dとの類似度sim(D, d )及び前記比較文書Tとの類似度sim(T, d )を用いて、下式により特有度distinc(d )を求めるステップと、
    Figure 0004452012
    (d)前記比較文書Tの各文書セグメントに対して、前記着目文書Dとの類似度sim(D, t )及び前記比較文書Tとの類似度sim(T, d )を用いて特有度distinc(t )を求めるステップと、
    (e)Mを着目文書Dの文書セグメントの数とし、Nを前記比較文書Tの文書セグメントの数として、下式に基づいて、用語w の特有度distinc(w を求めるステップと、
    Figure 0004452012
    (f)前記特有度distinc(w )に基づいて、着目文書に特有な用語を選択するステップと
    をコンピュータに実行させる方法。
  6. (a)前記比較文書Tと前記着目文書Dとに含まれる前記文書セグメント毎に、前記文書セグメントに出現する用語の出現頻度に関連した値を成分とする文書セグメントベクトルt ,d であって、
    前記比較文書Tに含まれるk番目の文書セグメントの文書セグメントベクトルt は、t =(t k1 ,...,t kJ と表され(Tはベクトルの転置を表わし、Jは前記着目文書Dと前記比較文書Tに現れる用語の種類数の大きいほうを表す)、
    前記着目文書Dに含まれるk番目の文書セグメントの文書セグメントベクトルd は、d =(d k1 ,...,d kJ と表される
    文書セグメントベクトルを生成するステップと、
    (b)前記着目文書Dの各文書セグメントに対して、対応する文書セグメントベクトルd と着目文書Dとの類似度sim(D, d )及び比較文書Tとの類似度sim(T, d )を、下式により求めるステップであって、
    前記着目文書Dの平均文ベクトル及び前記比較文書Tの平均文ベクトルそれぞれを、
    Figure 0004452012
    としたときに、
    前記着目文書Dの類似度sim(D, d )は、下式
    Figure 0004452012
    により求められ、
    前記比較文書Tの類似度sim(T, d )は、下式
    Figure 0004452012
    により求められる
    ステップと、
    (c)前記着目文書Dの各文書セグメントに対して、前記着目文書Dとの類似度sim(D, d )及び前記比較文書Tとの類似度sim(T, d )を用いて、下式により特有度distinc(d )を求めるステップと、
    Figure 0004452012
    (d)前記比較文書Tの各文書セグメントに対して、前記着目文書Dとの類似度sim(D, t )及び前記比較文書Tとの類似度sim(T, d )を用いて特有度distinc(t )を求めるステップと、
    (e)Mを着目文書Dの文書セグメントの数とし、Nを前記比較文書Tの文書セグメントの数として、下式に基づいて、用語w の特有度distinc(w )を求めるステップと、
    Figure 0004452012
    (f)前記特有度distinc(w )に基づいて、着目文書に特有な用語を選択するステップと
    をコンピュータに実行させる方法。
JP2002195375A 2002-07-04 2002-07-04 文書の特有性評価方法 Expired - Fee Related JP4452012B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2002195375A JP4452012B2 (ja) 2002-07-04 2002-07-04 文書の特有性評価方法
US10/460,469 US7200802B2 (en) 2002-07-04 2003-06-13 Evaluating distinctiveness of document
EP03254238A EP1378838B1 (en) 2002-07-04 2003-07-03 Evaluating distinctiveness of document
DE60316227T DE60316227T2 (de) 2002-07-04 2003-07-03 Bewertung der Eigenartigkeit eines Dokuments
CN031546242A CN1495644B (zh) 2002-07-04 2003-07-04 评估文件的特殊性的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002195375A JP4452012B2 (ja) 2002-07-04 2002-07-04 文書の特有性評価方法

Publications (3)

Publication Number Publication Date
JP2004038606A JP2004038606A (ja) 2004-02-05
JP2004038606A5 JP2004038606A5 (ja) 2005-11-04
JP4452012B2 true JP4452012B2 (ja) 2010-04-21

Family

ID=29720287

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002195375A Expired - Fee Related JP4452012B2 (ja) 2002-07-04 2002-07-04 文書の特有性評価方法

Country Status (5)

Country Link
US (1) US7200802B2 (ja)
EP (1) EP1378838B1 (ja)
JP (1) JP4452012B2 (ja)
CN (1) CN1495644B (ja)
DE (1) DE60316227T2 (ja)

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004348706A (ja) * 2003-04-30 2004-12-09 Canon Inc 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
US8954420B1 (en) 2003-12-31 2015-02-10 Google Inc. Methods and systems for improving a search ranking using article information
US7293019B2 (en) 2004-03-02 2007-11-06 Microsoft Corporation Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics
US8099407B2 (en) 2004-03-31 2012-01-17 Google Inc. Methods and systems for processing media files
US7333976B1 (en) 2004-03-31 2008-02-19 Google Inc. Methods and systems for processing contact information
US7725508B2 (en) * 2004-03-31 2010-05-25 Google Inc. Methods and systems for information capture and retrieval
US7941439B1 (en) 2004-03-31 2011-05-10 Google Inc. Methods and systems for information capture
US8346777B1 (en) 2004-03-31 2013-01-01 Google Inc. Systems and methods for selectively storing event data
US8386728B1 (en) 2004-03-31 2013-02-26 Google Inc. Methods and systems for prioritizing a crawl
US7680888B1 (en) 2004-03-31 2010-03-16 Google Inc. Methods and systems for processing instant messenger messages
US8631076B1 (en) 2004-03-31 2014-01-14 Google Inc. Methods and systems for associating instant messenger events
US8161053B1 (en) 2004-03-31 2012-04-17 Google Inc. Methods and systems for eliminating duplicate events
US8275839B2 (en) * 2004-03-31 2012-09-25 Google Inc. Methods and systems for processing email messages
US20050234929A1 (en) * 2004-03-31 2005-10-20 Ionescu Mihai F Methods and systems for interfacing applications with a search engine
US7567959B2 (en) 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7702618B1 (en) 2004-07-26 2010-04-20 Google Inc. Information retrieval system for archiving multiple document versions
US7599914B2 (en) * 2004-07-26 2009-10-06 Google Inc. Phrase-based searching in an information retrieval system
US7711679B2 (en) * 2004-07-26 2010-05-04 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US7580921B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase identification in an information retrieval system
US7580929B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase-based personalization of searches in an information retrieval system
US7536408B2 (en) 2004-07-26 2009-05-19 Google Inc. Phrase-based indexing in an information retrieval system
US7584175B2 (en) 2004-07-26 2009-09-01 Google Inc. Phrase-based generation of document descriptions
US7199571B2 (en) * 2004-07-27 2007-04-03 Optisense Network, Inc. Probe apparatus for use in a separable connector, and systems including same
US7567895B2 (en) * 2004-08-31 2009-07-28 Microsoft Corporation Method and system for prioritizing communications based on sentence classifications
WO2006129224A1 (en) * 2005-05-31 2006-12-07 Koninklijke Philips Electronics N.V. Calculating transformation parameters for image processing
US20110219003A1 (en) * 2005-10-20 2011-09-08 Jiandong Bi Determination of passages and formation of indexes based on paragraphs
US20070112908A1 (en) * 2005-10-20 2007-05-17 Jiandong Bi Determination of passages and formation of indexes based on paragraphs
US9262446B1 (en) 2005-12-29 2016-02-16 Google Inc. Dynamically ranking entries in a personal data book
US20070282812A1 (en) * 2006-03-08 2007-12-06 Superior Edge, Inc. Process execution support system
US8676802B2 (en) 2006-11-30 2014-03-18 Oracle Otc Subsidiary Llc Method and system for information retrieval with clustering
US20110106720A1 (en) * 2009-11-05 2011-05-05 Jerome Dale Johnson Expert system for gap analysis
US8166045B1 (en) 2007-03-30 2012-04-24 Google Inc. Phrase extraction using subphrase scoring
US7925655B1 (en) 2007-03-30 2011-04-12 Google Inc. Query scheduling using hierarchical tiers of index servers
US7702614B1 (en) 2007-03-30 2010-04-20 Google Inc. Index updating using segment swapping
US8166021B1 (en) 2007-03-30 2012-04-24 Google Inc. Query phrasification
US8086594B1 (en) 2007-03-30 2011-12-27 Google Inc. Bifurcated document relevance scoring
US7693813B1 (en) 2007-03-30 2010-04-06 Google Inc. Index server architecture using tiered and sharded phrase posting lists
WO2009003050A2 (en) 2007-06-26 2008-12-31 Endeca Technologies, Inc. System and method for measuring the quality of document sets
US8935249B2 (en) 2007-06-26 2015-01-13 Oracle Otc Subsidiary Llc Visualization of concepts within a collection of information
US20090063470A1 (en) * 2007-08-28 2009-03-05 Nogacom Ltd. Document management using business objects
US8117223B2 (en) 2007-09-07 2012-02-14 Google Inc. Integrating external related phrase information into a phrase-based indexing information retrieval system
JP5264136B2 (ja) * 2007-09-27 2013-08-14 キヤノン株式会社 医用診断支援装置及びその制御方法、ならびにコンピュータプログラム及び記憶媒体
US8196030B1 (en) 2008-06-02 2012-06-05 Pricewaterhousecoopers Llp System and method for comparing and reviewing documents
JP5036636B2 (ja) * 2008-06-12 2012-09-26 キヤノン株式会社 画像処理装置、方法、及び、プログラム
TW201025035A (en) * 2008-12-18 2010-07-01 Univ Nat Taiwan Analysis algorithm of time series word summary and story plot evolution
US8694454B2 (en) 2011-02-17 2014-04-08 Superior Edge, Inc. Methods, apparatus and systems for generating, updating and executing a vegetation control plan
US20130159346A1 (en) * 2011-12-15 2013-06-20 Kas Kasravi Combinatorial document matching
US9113590B2 (en) 2012-08-06 2015-08-25 Superior Edge, Inc. Methods, apparatus, and systems for determining in-season crop status in an agricultural crop and alerting users
US9501506B1 (en) 2013-03-15 2016-11-22 Google Inc. Indexing system
US9483568B1 (en) 2013-06-05 2016-11-01 Google Inc. Indexing system
WO2015117074A1 (en) * 2014-01-31 2015-08-06 Global Security Information Analysts, LLC Document relationship analysis system
US9489576B2 (en) 2014-03-26 2016-11-08 F12 Solutions, LLC. Crop stand analysis
US10025773B2 (en) 2015-07-24 2018-07-17 International Business Machines Corporation System and method for natural language processing using synthetic text
EP3193265A1 (en) * 2016-01-18 2017-07-19 Wipro Limited System and method for classifying and resolving software production incident tickets
CN107870927B (zh) * 2016-09-26 2021-08-13 博彦泓智科技(上海)有限公司 文件评估方法和装置
US10402473B2 (en) * 2016-10-16 2019-09-03 Richard Salisbury Comparing, and generating revision markings with respect to, an arbitrary number of text segments
US10460035B1 (en) 2016-12-26 2019-10-29 Cerner Innovation, Inc. Determining adequacy of documentation using perplexity and probabilistic coherence
US10915707B2 (en) * 2017-10-20 2021-02-09 MachineVantage, Inc. Word replaceability through word vectors
JP2021152696A (ja) * 2020-03-24 2021-09-30 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2973944B2 (ja) * 1996-06-26 1999-11-08 富士ゼロックス株式会社 文書処理装置および文書処理方法
US5857179A (en) * 1996-09-09 1999-01-05 Digital Equipment Corporation Computer method and apparatus for clustering documents and automatic generation of cluster keywords
US5943670A (en) * 1997-11-21 1999-08-24 International Business Machines Corporation System and method for categorizing objects in combined categories
JP3598211B2 (ja) * 1998-01-13 2004-12-08 富士通株式会社 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体
JP3855551B2 (ja) * 1999-08-25 2006-12-13 株式会社日立製作所 検索方法及び検索システム
US6757646B2 (en) * 2000-03-22 2004-06-29 Insightful Corporation Extended functionality for an inverse inference engine based web search
JP2002169834A (ja) * 2000-11-20 2002-06-14 Hewlett Packard Co <Hp> 文書のベクトル解析を行うコンピュータおよび方法
JP2002197083A (ja) * 2000-12-12 2002-07-12 Hewlett Packard Co <Hp> 文書分割方法

Also Published As

Publication number Publication date
US20040006736A1 (en) 2004-01-08
DE60316227D1 (de) 2007-10-25
EP1378838B1 (en) 2007-09-12
EP1378838A3 (en) 2005-10-26
JP2004038606A (ja) 2004-02-05
DE60316227T2 (de) 2008-06-05
CN1495644A (zh) 2004-05-12
EP1378838A2 (en) 2004-01-07
CN1495644B (zh) 2010-05-26
US7200802B2 (en) 2007-04-03

Similar Documents

Publication Publication Date Title
JP4452012B2 (ja) 文書の特有性評価方法
Al-Khawaldeh et al. Lexical cohesion and entailment based segmentation for arabic text summarization (lceas)
CN109190117A (zh) 一种基于词向量的短文本语义相似度计算方法
Devika et al. A novel approach for book recommendation systems
Sakaji et al. Discovery of rare causal knowledge from financial statement summaries
Herdiyeni et al. Text feature weighting for summarization of documents in bahasa indonesia using genetic algorithm
Doshi et al. Movie genre detection using topological data analysis
Naik et al. Extractive text summarization by feature-based sentence extraction using rule-based concept
Zhang et al. DCWord: a novel deep learning approach to deceptive review identification by word vectors
Basili et al. NLP-driven IR: Evaluating performances over a text classification task
CN112668838A (zh) 一种基于自然语言解析的评分标准词库建立方法及装置
Bollegala et al. Minimally supervised novel relation extraction using a latent relational mapping
Barushka et al. The effect of text preprocessing strategies on detecting fake consumer reviews
Selamat et al. Neural networks for web page classification based on augmented PCA
Wanas et al. A study of local and global thresholding techniques in text categorization
Premakumara et al. Optimized Text Summarization method based on fuzzy logic
Syed et al. Automatic discovery of semantic relations using MindNet
Abbas et al. Tr-classifier and knn evaluation for topic identification tasks
Arivarasan et al. Data mining K-means document clustering using tfidf and word frequency count
CN115470322B (zh) 一种基于人工智能的关键词生成系统及方法
Chanda et al. A novel graph based clustering approach to document topic modeling
Tong et al. Classification trees for document routing
Chakraborty et al. Emotion Analysis of Social Platform, Blogs and Audio Speeches of People
Qin et al. Product selection method based on feature level fusion of heterogeneous product data
Woo et al. User-centered filtering and document ranking

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20030116

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20030121

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061011

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20061228

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20061229

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070109

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070315

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070416

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091224

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100129

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130205

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130205

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130205

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130205

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130205

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140205

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees