JP2004164036A - 文書の共通性評価方法 - Google Patents

文書の共通性評価方法 Download PDF

Info

Publication number
JP2004164036A
JP2004164036A JP2002326157A JP2002326157A JP2004164036A JP 2004164036 A JP2004164036 A JP 2004164036A JP 2002326157 A JP2002326157 A JP 2002326157A JP 2002326157 A JP2002326157 A JP 2002326157A JP 2004164036 A JP2004164036 A JP 2004164036A
Authority
JP
Japan
Prior art keywords
document
common
occurrence matrix
components
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002326157A
Other languages
English (en)
Other versions
JP2004164036A5 (ja
Inventor
Takahiko Kawatani
隆彦 川谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HP Inc
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Priority to JP2002326157A priority Critical patent/JP2004164036A/ja
Priority to US10/694,773 priority patent/US7392175B2/en
Publication of JP2004164036A publication Critical patent/JP2004164036A/ja
Publication of JP2004164036A5 publication Critical patent/JP2004164036A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】自然言語処理において3個以上の文書がどの程度話題を共通にしているかを表す尺度はこれまで知られていなかった。また、必ずしも話題が同じでない文書集合からの共通の話題を述べた文書の抽出、各文書、各文への共通話題への近さに応じたスコア‐の付与は、従来のクラスタリング技術では完全ではなかった。
【解決手段】各文を各成分が対応する用語の有無を表す2値ベクトルで表したうえで、文書間の共通ベクトルの概念を導入する。共通ベクトルは、各文書から1つづつ取り出した文ベクトル群において全てのベクトルで1となる成分のみが1となり他はゼロとなるようなベクトルである。各共通ベクトルにおける値が非ゼロの成分数の全共通ベクトルに対する和、もしくは2乗和を用いることにより、文書集合の共通度を求める。また、各文を全共通ベクトルに射影し、射影値の和等により、各文が共通話題にどの程度近いかを求める。
【選択図】図3

Description

【0001】
【産業上の利用分野】
本発明は文書の要約をはじめとする自然言語処理に関するものであり、特に多数の文書間の話題の共通性を定量的に評価できるようにすることによって前記処理の高性能化を図るものである。
【0002】
【従来の技術】
複数の文書からなる文書集合が与えられたとして、この文書集合の話題共通性の定量的な評価のためには次のような技術が必須である。
(A)文書集合に共通の話題が存在するか否かを判断できるよう、各文書の話題がどの程度共通しているか数値で示す。
(B)共通の話題に近い話題の文書、または文を文書集合から選択して全文書の共通の話題を把握できるよう、共通の話題への近さに応じて各文書、または各文にスコア−を与える。
(C)話題が全文書に共通していなくとも、話題の共通する文書群があればそれを抽出する。
【0003】
これらの内、A)については、2文書の場合には話題の共通性のスコアーはその2文書間の類似度そのものと考えることができ、これまで種々の類似度の尺度が提案されてきた。最も代表的なのは余弦類似度であり、これは文書に現れる各用語の頻度を成分とするベクトルで文書を表現しておき、2文書間の類似度をそれぞれのベクトルのなす余弦によって定義するというものである。
また、B)、C)は文書集合からの共通話題の抽出に関わる技術である。このような処理は複数文書要約やTDT(Topic Detection and Tracking)などで重要な技術となっている。従来は、共通話題の抽出は、文書のクラスタリングを行った後、クラスター毎にクラスターを代表しうる文や文書タイトルを選択することにより行われていた。また、最近は文やパッセージ単位にクラスタリングを行い、クラスター毎に重要なパッセージを選択することで共通話題を抽出する方法も現れている。何れにせよこれまでは共通話題の抽出にクラスタリングは欠かせない技術となっている。クラスタリングは階層的手法と非階層的な手法に大別される。
【0004】
階層的な手法は、さらにボトムアップのアプローチとトップダウンのアプローチに分けられる。前者では、初期状態として各文書をクラスターの核とし、最も近いクラスターをマージするという処理をクラスター数が1になるまで繰り返す。これにより文書集合は木構造で表現されるようになる。後者では、全文書が1つのクラスターに属するという状態から出発し、例えばひとつのクラスター中のあらゆる文書対の中で最も低い類似度が閾値以下の場合、そのクラスターを分割するという処理を繰り返す。非階層的な手法では、予め指定された数のクラスターが何らかの基準を満たすように作成される。よく知られている方法は、ステップ1:指定されたクラスター数の文書をランダムに選択して各クラスターの中心とする、ステップ2:各文書について各クラスター中心との近さを求め、各文書を最も近いクラスターに帰属させる、ステップ3:各クラスターに帰属する文書ベクトルの平均により各クラスターの中心を求める、ステップ4:ステップ2)の処理を実行し、各文書の帰属するクラスターに変化がなければ終了、そうでなければステップ3へ、という方法である。
【0005】
【発明が解消しようとする課題】
A)については、上述のように、3文書以上の場合に対しては、2文書のときの類似度に相当する尺度は知られていなかった。そのため、同じような話題を述べている3文書の組と、4文書の組が存在したとき、“どちらの組が内容が揃っているか?”というような問題には答えようがなかった。本発明では、このような問題に対しても答えられるような尺度を提供する。
また、B)、C)の 共通話題の抽出において、ボトムアップの階層的なクラスタリング処理では、各レベルのクラスターが意味のあるグルーピングとなっている保証はない。意味のあるグルーピングを指向するには、類似度が閾値を超えるクラスター対のみをマージするようにすればよいが、閾値を如何に決定するかが問題となる。トップダウンの階層的なクラスタリング処理の場合も、クラスターを分割するか否かの閾値を如何に決定するかが問題となる。また、階層的な手法では処理量の問題も無視できない。非階層的な手法では、与えられた文書集合が何個のクラスターから構成されるか事前の知識が要求されるが、これは一般的には得られない情報であり、クラスター数を正しく指定することは困難である。このようにクラスタリング技術そのものは完成された技術ではないので、共通話題の抽出を従来のクラスタリング技術を用いて行っても最適であるという保証はなかった。このようなことから本発明では従来のクラスタリング技術に依らない共通話題抽出方法を提供する。
【0006】
【課題を解決するための手段】
本発明において、A)に関する課題を解決するための基本的な考え方は、文書間の情報共通量を求め、次いで求められた情報共通量を文書の長さや文書数に依存しないように正規化を行うというものである。従って、文書間の情報共通量を如何に定義して如何に求めるかが重要となるが、本発明では以下のように行っている。先ず、2つの文を考えると、2つの文の間の情報共通量は共通する用語の数で決まると考える。また、2つの文書間の情報共通量は、各文書から文を1つづつ取り出して組み合わせたとして、組み合わされた文の対における共通用語数の全組み合わせに対する和、もしくは2乗和で決まるとする。この場合文の組み合わせは各文書の文数の積通り存在することになる。3文書以上の場合も、文書間の全ての文の組み合わせを考えればよい。このような文の組み合わせにおける共通用語数の算出を容易にするため、本発明では、各文を各成分が対応する用語の有無を表す2値ベクトルで表したうえで、各文書を文ベクトルの集合で表す。また、2つ以上の文ベクトルの組み合わせに対して、共通ベクトルの概念を導入する。2つのベクトルa=(a)、b=(b)の共通ベクトルをc=(c)とする時、本発明の場合、文ベクトルは2値なので、共通ベクトルの成分はC=a×bによって求めることができる。例えばベクトル(0,1,1,0)と(1,1,0,1)との共通ベクトルは(0,1,0,0)となる。3個以上のベクトルの共通ベクトルの成分は、対応する成分同士の積となる。
【0007】
簡単な例として、6個の用語が出現し、それぞれが4、3、3個の文からなる文書D、D、Dを考える。
【0008】
【表1】
Figure 2004164036
【0009】
文書D(r=1,2,3)のy番目の文をDryで表すこととする。表1はそのような文書D、D、Dの文ベクトルの例を示している。表1では文書D(r=1,2,3)のy番目の文をDryで表している。表1の文書D、D、Dの文の組み合わせは4×3×3=36通り存在することになるが、表2はそのうちの6通りについて共通ベクトルと共通用語数を示している。
【0010】
【表2】
Figure 2004164036
【0011】
文D11、D21、D31の組み合わせの場合、3文書とも1となる文ベクトルの成分は、3番目と6番目であり、共通ベクトルは3番目と6番目のみが値1をとるベクトルとなる。文D11、D21、D31の共通用語数は共通ベクトルで値が1の成分数であるから、2となる。文D11、D21、D32の組み合わせの場合には、共通ベクトルは3番目の成分のみが値1となり、共通用語数は1となる。文書D、D、Dの情報共通量は、36個の文の組み合わせの各々における共通用語数の和、もしくは共通用語数の2乗和である。
また本発明では、共通用語数の和、もしくは2乗和の算出を容易にするため、共通ベクトルの共起行列の概念を導入する。共通ベクトルの共起行列をSとすると、その成分S mnは各共通ベクトルのm番目の成分とn番目の成分との積を求め、その積の値をすべての共通ベクトルについて合計したものである。上記の例では36個の共通ベクトルを用いてSを求めることになる。共通ベクトルの共起行列を用いると、共通用語数の和は共通ベクトルの共起行列の対角成分の和で、共通用語数の2乗和は共通ベクトルの共起行列の全成分の和で与えられる。従って、共通ベクトルの共起行列を如何に効率的に求めるかが重要と成るが、本発明では共通ベクトルを得ることなく求める方法を提供する。
【0012】
また、B)における課題を解決するためのアプローチとしては以下の2通りの考えられる。ひとつは、対象となる文書もしくは文を本来の文書集合に加えて新しい文書集合を作成し、新しい文書集合での情報共通量を求めると、本来の文書集合の共通の話題に近い文書・文ほど上記情報共通量の値は大きくなるであろうという考え方である。2番目は、対象となる文書もしくは文と本来の文書集合から求められる共通ベクトル集合との間で類似度を求めると、この類似度の高い文書・文ほど本来の文書集合の共通の話題に近いであろうという考え方である。
【0013】
C)は話題が全文書に共通せず、部分的に共通性が存在する場合を対象にしている。C)における課題を解決するためのアプローチは次の通りである。上記では、共通ベクトルは、組み合わされた文ベクトル群において全文書が値1となる成分に限って値1を与えていた。言わば全文書一致形の共通ベクトルであった。それに対して、ここでは特定の成分に着目したとき、その成分の値が1となる文ベクトルの数がある閾値を越えたときに共通ベクトルの当該成分に値1を与えるようにする。これは不一致許容形の共通ベクトルとも呼ぶべきものである。このように得られた共通ベクトル集合を用いて上記B)のアプローチを採用すれば、閾値を適当に設定することにより、部分的に存在する共通話題に対する各文書・文の近さが求められる。
【0014】
上述のように、本発明によれば複数の文書の話題がどの程度共通するかをスコアーで示すことができるようになり、これは文書の話題共通性の解析の重要な基本技術となる。また、全文書で話題が一致していなくとも、(1)話題を同じにする文書が含まれていればそれらを抽出し、(2)抽出された文書の話題の共通の程度のスコアーを求め、(3)抽出された文書が共有する話題が端的にユーザに分かるよう共通話題に最も近い文を抽出する、という一連の処理が可能となる。これらのうち(1)(3)は従来技術によっても可能な処理であるが、本発明では各文書の各文の間の共通ベクトルという新しい概念を用いた処理がベースになっており、従来に比べより適確な結果が期待できる。
【0015】
【実施例】
図1は、本発明の概要を示すブロック図である。110は文書入力ブロック、120は文書前処理ブロック、130は文書情報処理ブロック、140は出力ブロックを示す。文書入力ブロック110には、処理したい文書、文、文書セグメント等が入力される。文書前処理ブロック120では、入力された文書の用語検出、形態素解析、文書セグメント区分け等が行われる。文書セグメントについて説明する。文書セグメントは文書を構成する要素であり、その最も基本的な単位は文である。英文の場合、文はピリオドで終わり、その後ろにスペースが続くので文の切出しは容易に行うことができる。その他の文書セグメントへの区分け法としては、ひとつの文が複文からなる場合主節と従属節に分けておく方法、用語の数がほぼ同じになるように複数の文をまとめて文書セグメントとする方法、文書の先頭から含まれる用語の数が同じになるように文とは関係なく区分けする方法などがある。文書情報処理ブロック130は以下に詳細に説明するが、情報処理を行い、文書集合共通度、文書・文書集合共通度、文書セグメント・文書集合共通度を求めたり、共通の話題に近い文書、文書セグメント等を抽出する。出力ブロック140は文書情報処理ブロック130で得られた結果を、ディスプレー等の出力装置に出力する。
【0016】
図3は与えられた文書集合に対して、各文書の話題がどの程度共通しているかを示す文書集合共通度を算出し、共通の話題への近さに応じて各文書、または各文書セグメントにスコアーを与える本発明の第1の実施例を示す。この発明の方法は、汎用コンピュータ上でこの発明を組み込んだプログラムを走らせることによって実施することができる。図3は、そのようなプログラムを走らせている状態でのコンピュータのフローチャートである。31は文書集合入力、ブロック32は用語検出、ブロック33は形態素解析、ブロック34は文書セグメント区分けである。ブロック35は文書セグメントベクトル作成、ブロック36は文書毎の共起行列算出、37は共通共起行列算出、38は文書集合共通度算出、39は文書(文書セグメント)・文書集合共通度算出である。以下、英文文書を例に実施例を説明する。
【0017】
先ず、文書集合入力31において対象となる文書集合が入力される。用語検出32において、各入力文書から単語、数式、記号系列などを検出する。ここでは、単語や記号系列などを総称して全て用語と呼ぶ。英文の場合、用語同士を分けて書く正書法が確立しているので用語の検出は容易である。次に、形態素解析33は、各入力文書に対して用語の品詞付けなどの形態素解析を行う。次に文書セグメント区分け34において各入力文書に対して文書セグメントへの区分けを行う。文書セグメントベクトル作成35は、先ず文書全体に出現する用語から作成すべきベクトルの次元数および各次元と各用語との対応を決定する。この際に出現する全ての用語の種類にベクトルの成分を対応させなければならないということはなく、品詞付け処理の結果を用い、例えば名詞と動詞と判定された用語のみを用いてベクトルを作成するようにしてもよい。次いで、各文書セグメントに出現する用語に対応する成分のみが値1、他は0となるような文書セグメントベクトルを作成する。
【0018】
文書毎の共起行列算出36では、各文書で用語の出現頻度、用語間の共起頻度を反映するような共起行列を作成する。以降、文を文書セグメントとした場合について説明を続ける。ここでは、現れる用語集合が{w,..,w}で与えられ、R個の文書から成る集合Dを考える。さらに、r番目の文書をDとすると、DはY個の文からなるものとし、y番目の文及びその文ベクトルをDry、 dry=(dry1,..,ryMとする。ここで、Tはベクトルの転置を表す。dryは2値ベクトルであり、drymはm番目の用語の有無を表す。文書のDの共起行列をS とすると、これは
【0019】
【数5】
Figure 2004164036
Figure 2004164036
【0020】
で与えられる。式(1)から分かるように、Sのmn成分は
Figure 2004164036
により与えられる。従って、S mmは文書Dにおいて用語mが生起する文の数、S mnは用語mとnとが共起する文の数を表すことになる。もし同じ用語が同じ文に2回以上出現しないのであれば、S mmは文書Dにおける用語mの出現頻度となる。共通共起行列算出37では共通ベクトルを対象に共起行列Sを求める。これを共通共起行列と呼ぶ。前述のように、各文書から文ベクトルを1つづつ取り出して組み合わせた場合の共通ベクトルの各成分の値は各文ベクトルの対応する成分の積で与えられる。
本実施例の場合、文ベクトルはバイナリなので、共通ベクトルの成分はC=a×bによって求めることができる。例えばベクトル(0,1,1,0)と(1,1,0,1)との共通ベクトルは(0,1,0,0)となる。3個以上のベクトルの共通ベクトル成分は、対応する成分同士の積となる。ここで、説明を簡単にする為に、3つの文書、D、D、D間の全ての文の組み合わせに対して求められるY×Y×Y通りの共通文ベクトルの共起行列Sを求める。D、D、Dのそれぞれのi、j、k番目のベクトルd1i、d2j、d3kの共通文ベクトルをcijk =(cijk )で表すと、前述のように、cijk は cijk = d1im2jm3km で求められる。Sの各成分は
【0021】
【数6】
Figure 2004164036
【0022】
により与えられる。さらに一般化して説明を続ける。R文書の場合、文の組み合わせにおいて文書Dからk(r)番目の文が取り出されたとして、共通ベクトルを
Figure 2004164036
と書くと、
Figure 2004164036
と表わすことが出来るので、Sのmn成分は次の式で与えられる。
【0023】
【数7】
Figure 2004164036
Figure 2004164036
【0024】
式(2)は共通共起行列の各成分は各文書の共起行列の対応する成分同士の積として求められることを示しており、共通共起行列は共通ベクトルを実際に求めることなく得ることができる。また、前述のように、同じ用語が同じ文に2回以上出現しないのであれば、S mmは文書Dにおける用語mの出現頻度となる。同じ用語が同じ文に2回以上出現する頻度は少ないと考えられるので、Sの各対角成分は対応する用語の各文書の出現頻度の積によって近似することもできる。
文書集合共通度算出37では、各文書の話題がどの程度共通しているかを示すスコアーを算出する。前述のように、本発明では各共通ベクトルで値が1の成分数の全共通ベクトルに対する和、もしくは2乗和をもとに各文書の文書集合共通度を求める。前者を線形モデル、後者を2次モデルと呼ぶ。先ず前者の線形モデルの場合について述べる。各共通ベクトルで値が1の成分数の和をG(D, .., D)とする。これは、
【0025】
【数8】
Figure 2004164036
Figure 2004164036
【0026】
のように求めることができ、G(D, .., D)は共通共起行列の対角成分の和で表される。式(3)は文書集合における各文書の情報共通量を表すが、情報共通量の値は文書の長さや文書数に依存した値になるので、これらの影響を受けないように以下のように正規化し、文書集合共通度com(D)とする。
【0027】
【数9】
Figure 2004164036
Figure 2004164036
2次モデルについて述べる。各共通ベクトルで値が1の成分数の2乗和をG(D, .., D)とする。これは、
【0028】
【数10】
Figure 2004164036
Figure 2004164036
のように、共通共起行列の各成分の和で求められる。2次モデルの場合の文書集合共通度をcom(D)とすると、これは以下のように求めることができる。
【0029】
【数11】
Figure 2004164036
Figure 2004164036
【0030】
文書(文書セグメント)・文書集合共通度算出39では、対象とする文書または文をPとして、Pが文書集合Dの共通の話題にどれだけ近いかを示す尺度として、文書・文書集合共通度を求める。これには、次の2つの方法が存在する。
第1の方法は、Pを文書集合Dに加えた新しい文書集合の文書集合共通度を文書・文書集合共通度とする方法である。文書Pの共起行列をSとして、線形モデル、2次モデルの場合の文書・文書集合共通度をそれぞれcom(D+P)、com(D+P)とすると、これらは以下のように求めることができる。
【0031】
【数12】
Figure 2004164036
Figure 2004164036
【0032】
【数13】
Figure 2004164036
【0033】
第2の方法は、Pから求められる共起行列と共通共起行列との類似度により文書・文書集合共通度を定義する方法である。これには共起行列の対角成分のみを用いる場合と全成分を用いる場合の2通りが考えられる。文書・文書集合共通度を前者についてcom(D, P)、後者についてcom(D, P)と表記すると、
【0034】
【数14】
Figure 2004164036
Figure 2004164036
【0035】
【数15】
Figure 2004164036
Figure 2004164036
【0036】
によって求めることができる。第1の方法、第2の方法とも対象とする文書もしくは文の共起行列と共通共起行列の全成分もしくは対角成分の積和をもとに求められる。
図4は、話題が必ずしも共通しない文書集合から話題の共通する文書群を抽出する本発明の第2の実施例を示す。この発明の方法は、汎用コンピュータ上でこの発明を組み込んだプログラムを走らせることによって実施することができる。図4は、そのようなプログラムを走らせている状態でのコンピュータのフローチャートである。31は文書集合入力、ブロック32は用語検出、ブロック33は形態素解析、ブロック34は文書セグメント区分けである。ブロック35は文書セグメントベクトル作成、ブロック36は文書毎の共起行列算出、ブロック47は不一致許容形共通共起行列及び共起計数行列の算出、ブロック48は不一致許容閾値設定、ブロック49は不一致許容形文書集合共通度算出、ブロック50は不一致許容形文書・文書集合共通度算出、及び文書選択、ブロック51は選択された文書集合の文書集合共通度算出、及び妥当性判定、ブロック52は不一致許容閾値変更である。これらのうち、31〜36は図3に示したものと全く同じである。
【0037】
図3の場合と同じように文が文書セグメントとなっていることを想定する。不一致許容形共通共起行列及び共起計数行列の算出47における不一致許容形共通共起行列の各成分の算出では、各文書の共起行列の内その成分の値がゼロでない共起行列のみが用いられる。従って、ある用語、用語共起が文書集合Dに必ず現れる限り、不一致許容形共通共起行列の対応成分は0以外の値をとる。このような行列をTと表記する。さらに、47では各用語、または各用語対の生起、または共起した回数を保持する行列Uを求める。行列TとUは、図2に示されるように以下のような手順で求めることができる。
ステップ61 r=1とおく。Tの全成分は1、Uのそれは0とする。
ステップ62. S mn>0 のとき、
mn = S mnmn
mn = U mn +1 (ステップ63)
ステップ64. r=Rで終了。そうでなければr=r+1(ステップ65)としてステップ62へ行く。
【0038】
不一致許容閾値設定48では後段の処理のために閾値Aの初期値を設定する。閾値Aは不一致許容形共通共起行列TにおいてA個以上の文書で現れる用語、もしくは用語共起のみを有効にするために用いられる。閾値Aの初期値は共起計数行列Uの各成分の中での最大値である。
ブロック49では、A個以上の文書で現れる用語、もしくは用語共起に対応する成分以外は値を0とした不一致許容形共通共起行列を用いて不一致許容形の文書集合共通度を算出し、閾値処理を行ってブロック50の処理に移行するか否かの判断を行う。上記のように修正された不一致許容形共通共起行列をTとすると、行列Tのmn成分は以下のように決められる。
mn= T mn,if U mn >=A,
mn= 0 otherwise.
図3の場合は共通ベクトルにおいて値が1となる成分は文の組み合わせにおいて全ての文ベクトルで値が1となる成分のみであったが、ここでは、A文書以上で現れる用語に対応する成分が値1となるように共通ベクトルを決定したことになる。行列Tは、そのように決定された全共通ベクトルから求められる共通共起行列である。式(4)式(6)において行列Sの替りに行列T を用いた文書集合共通度を不一致許容形の文書集合共通度と呼ぶこととして、線形モデルの場合は
【0039】
【数16】
Figure 2004164036
Figure 2004164036
により、2次モデルの場合は
【0040】
【数17】
Figure 2004164036
Figure 2004164036
【0041】
のように求める。com (D;T )、com (D;T )は行列T を共通共起行列として用いて求められる文書集合共通度という意味である。com(D;T)、com (D;T)はcom (D)、com (D)とそれぞれ等価である。
ここで、文書集合DではRより少ないB個の文書が話題を共通にしており、他は互いに関連のないものと仮定する。このとき、Aの値がBと等しいか小さければB個の文書に現れる用語の寄与によって行列Tにおいて値が0でない成分の和は大きくなり、不一致許容形の文書集合共通度も大きくなる筈である。一方、AがR 〜B+1の間にあるときは、偶発的にB個以上の文書で現れる用語があったにしてもその用語の各文書内の頻度は高くないものと想定され、Tでの0でない成分の和は小さく、不一致許容形の文書集合共通度も小さいものと考えられる。従って、ブロック49では求められた不一致許容形の文書集合共通度と予め決められた閾値との比較を行い、閾値以上のときには、行列Tは話題を共有する文書の影響を受けている可能性が高いと判断してブロック50に進む。閾値よりも小さければブロック52に進む。この場合の閾値は実験的に決めておく。
【0042】
ブロック50では、行列Tを用いて各文書に対して不一致許容形の文書・文書集合共通度を算出し、その値が一定値を越える文書を選択する。Tを用いる不一致許容形の文書・文書集合共通度は式(7)式(8)式(9)式(10)において、S mnをT mnにより置き換えることにより得ることができる。例えば、式(9)式(10)を用いる場合、文書Dに対する文書・文書集合共通度を線形モデルではcom(D, D;T)、2次モデルではcom(D, D;T)と表記すると、これらは以下のように求めることができる。
【0043】
【数18】
Figure 2004164036
Figure 2004164036
【0044】
【数19】
Figure 2004164036
Figure 2004164036
【0045】
文書選択では、線形モデルを採用する場合にはcom(D, D;T)が、2次モデルを採用する場合はcom(D, D;T)が予め設定された閾値を越える文書を選択する。閾値は実験的に決めておく。
ブロック51では、ブロック50において選択された文書集合の文書集合共通度を算出し、文書集合として話題が共通しているか否かを判断するために閾値処理を行う。選択された文書集合の文書集合共通度は線形モデルを採用する場合には式(4)、2次モデルを採用する場合は式(6)を用いて求めることができる。文書集合共通度が閾値以上の場合、またはA=1の場合には処理を終了し、閾値未満の場合には、ブロック52において不一致許容閾値を小さくなるように変更してブロック49に戻り、処理を続行する。
【0046】
【発明の効果】
ここで本発明の効果を説明する為に図4の実施例に沿った実験結果を示す。実験に用いたデータは文書分類用コーパスReuters−21578から取り出した21記事であり、話題によって3グループに分けられる。内容は、
グループ1:カテゴリ”acquisition”から取り出したGenCorp社の企業買収に関する12記事、
グループ2:カテゴリ”crude”から取り出したエクアドルの地震に関する6記事、
グループ3:カテゴリ”money−fx”から取り出したJames Baker氏の発言に関する3記事、
である。
【0047】
この実験の目的は、21記事の中から文書数の最も多いグループ1を抽出し、さらにグループ1の共通話題を最もよく表す3つの文を選択することである。文数は250で、全用語数は1147であった。ブロック47での共起計数行列Uの各成分の中での最大値は12でなく、13であった。これは特定の用語がグループ1とグループ2の両方の文書に現れたためである。そこで、Aの初期値を13として図4の49→50→51→52→49の繰り返し処理を行った。ブロック49で得られた不一致許容形の文書集合共通度は、A=13の場合線形モデル、2次モデルとも0.22、A=12の場合には同じく0.39であった。この場合、最も文書数の多いグループ1は文書数が12なので、A=12の不一致許容形の文書集合共通度の方が値が大きいことが期待されたが、結果は期待に沿うものであった。しかし、A=13の場合も値は十分に小さいとは言えないので、A=13の場合もブロック50に進むとした。ブロック50では文書選択のための閾値を線形モデル、2次モデルとも0.02と設定すると、A=13の場合には13文書(グループ1の9文書とグループ2の3文書)、A=12の場合には12文書(全てグループ1)が選択された。選択された文書に対して文書集合共通度を求めると、A=13の場合線形モデルで0.29、2次モデルで0.33、A=12の場合にはそれぞれ0.85、0.90と得られた。従って、ブロック51における閾値が0.5となっていれば、A=12のときに選択された12文書が話題の揃った文書として出力されることになるが、前述のようにこれらは全てグループ1に属している。
【0048】
また、選択された文書に対し、式(9)を用いて各文の文・文書集合共通度を求め、値の大きな文を3個選択した結果を以下に示す。
1位:General Partners said it is asking GenCorp for its shareholder lists for help in disseminating the offer.
2位:Earlier today, General Partners, owned by Wagner and Brown and AFG Industries Inc, launched a 100 dlr per share tender offer for GenCorp.
3位:General Acquisition Co said it was disappointed by Gencorp’s response to its tender offer and asked how the company might give better value
to shareholders.
これにより、文書集合で最も優勢な話題はGenCorp社の企業吸収に関するものであることが分かる。また、文書集合から選択された文書を除去して同様な処理を行えば2番目に優勢な話題を述べた文書(この場合にはグループ2)を抽出することができる。
【0049】
このように本発明によれば、文書集合中で最も優勢な話題を共有する文書群を取り出し、同時に共通話題に最も近い文をユーザに提示することができる。そのためユーザの情報取得の効率性が高められる。
【図面の簡単な説明】
【図1】本発明の概略を示すブロック図である。
【図2】本発明の不一致許容形共通共起行列をの作成方法を示す図である。
【図3】文書集合が入力された段階から文書集合共通度、文書(文書セグメント)・文書集合共通度が決定されるまでの手順を示す図である。
【図4】文書集合が入力された段階から最も優勢な話題を述べた文書が抽出されるまでの手順を示す図である。
【符号の説明】
110:文書入力ブロック
120:文書前処理ブロック
130:文書情報処理ブロック
140:出力ブロック

Claims (13)

  1. 以下の(a)から(d)のステップを有する、一つまたは複数の文書セグメントを持つ複数の文書から成る文書集合に対して、前記文書集合の各文書が話題を共通にする程度を示す文書集合共通度を求める方法、
    (a)前記文書セグメント毎に、前記文書セグメントに出現する用語に対応する成分の値を1、他の値は0とする文書セグメントベクトルを生成するステップと、
    (b)前記文書集合の各文書に対して文書セグメントベクトルより共起行列を生成するステップと、
    (c)各文書の各共起行列の同一行同一列の成分の値の積により前記行前記列の成分の値を与えることによって共通共起行列を生成するステップと、
    (d)前記共通共起行列の全成分、又は対角成分の和をもとに文書集合共通度を求めるステップ。
  2. 以下の(a)から(d)のステップを有する、一つまたは複数の文書セグメントを持つ複数の文書から成る文書集合に対して、各文書もしくは各文書セグメントが前記文書集合に共通する話題にどの程度近いかを示す、文書・文書集合共通度、又は文書セグメント・文書集合共通度を求める方法、
    (a)前記文書セグメント毎に、前記文書セグメントに出現する用語に対応する成分の値を1、他の値は0とする文書セグメントベクトルを生成するステップと、
    (b)前記文書集合の各文書に対して文書セグメントベクトルより共起行列を生成するステップと、
    (c)各文書の各共起行列の同一行同一列の成分の値の積により前記行前記列の成分の値を与えることによって共通共起行列を生成するステップと、
    (d)前記文書もしくは文書セグメントの共起行列と共通共起行列の全成分との積和、又は対角成分の積和をもとに、文書・文書集合共通度、又は文書セグメント・文書集合共通度を求めるステップ。
  3. 以下の(a)から(e)のステップを有する、一つまたは複数の文書セグメントを持つ複数の文書から成る文書集合に対して、文書集合共通度を算出する方法、
    (a)前記文書セグメント毎に、前記文書セグメントに出現する用語に対応する成分の値を1、他の値は0とする文書セグメントベクトルを生成するステップと、
    (b)前記文書集合の各文書に対して文書セグメントベクトルより共起行列を生成するステップと、
    (c)各文書の各共起行列の同一行同一列の成分の値の積により、但し前記同一行同一列の成分の値が0の場合を除く、不一致許容形の共通共起行列を生成するステップと、
    (d)各文書の共起行列の各成分について値がゼロかどうかをチェックし、ゼロでない文書数を計数した共起計数行列を作成するステップと、
    (e)共起計数行列の各成分について、値が所定の閾値未満の場合、前記不一致許容形の共通共起行列の対応する成分をゼロとなるように修正し、修正された前記不一致許容形の共通共起行列の全成分、又は対角成分の和をもとに不一致許容形の文書集合共通度を求めるステップ。
  4. 以下の(a)から(g)のステップを有する、一つまたは複数の文書セグメントを持つ複数の文書から成る文書集合から話題の共通する文書を抽出する方法、
    (a)前記文書セグメント毎に、前記文書セグメントに出現する用語に対応する成分の値を1、他の値は0とする文書セグメントベクトルを生成するステップと、
    (b)前記文書集合の各文書に対して文書セグメントベクトルより共起行列を生成するステップと、
    (c)各文書の各共起行列の同一行同一列の成分の値の積により、但し前記同一行同一列の成分の値が0の場合を除く、不一致許容形の共通共起行列を生成するステップと、
    (d)各文書の共起行列の各成分について値がゼロかどうかをチェックし、ゼロでない文書数を計数した共起計数行列を作成するステップと、
    (e)共起計数行列の各成分について、値が所定の閾値未満の場合、前記不一致許容形の共通共起行列の対応する成分をゼロとなるように修正し、修正された前記不一致許容形の共通共起行列の全成分、又は対角成分の和をもとに不一致許容形の文書集合共通度を求めるステップと、
    (f)不一致許容形の文書集合共通度がある閾値以上の場合に、各文書について前記各文書の前記共起行列の全成分と前記修正された不一致許容形の共通共起行列の全成分との積和、もしくは各文書の共起行列の対角成分と前記修正された不一致許容形の共通共起行列の対角成分との積和をもとに不一致許容形文書‐文書集合共通共通度を求めるステップと、
    (g)前記不一致許容形文書‐文書集合共通共通度が所定の閾値を越える文書を話題が共通する文書として抽出するステップ。
  5. 前記出現する用語の種類数がMで与えられ、R個の文書からなる文書集合Dにおいて、r番目の文書をD、Drの文書セグメント数をY、Drのy番目の文書セグメントベクトルをdry=(dry1,..,ryMとすると、ここで、Tはベクトルの転置を表す、文書Dの前記共起行列S は、
    Figure 2004164036
    で与えられることを特徴とする請求項1から4に記載の方法。
  6. 文書集合Dの共通共起行列Sのmn成分S mnは、
    Figure 2004164036
    で計算されることを特徴とする請求項1から4に記載の方法。
  7. 文書集合Dの共通共起行列Sの各対角成分は対応する用語の各文書の出現頻度の積によって近似することを特徴とする請求項1から4に記載の方法。
  8. 以下の(a)から(d)のステップを有する、一つまたは複数の文書セグメントを持つ複数の文書から成る文書集合に対して、前記文書集合の各文書が話題を共通にする程度を示す文書集合共通度を求める方法を情報処理装置に実現させるプログラム、
    (a)前記文書セグメント毎に、前記文書セグメントに出現する用語に対応する成分の値を1、他の値は0とする文書セグメントベクトルを生成するステップと、
    (b)前記文書集合の各文書に対して文書セグメントベクトルより共起行列を生成するステップと、
    (c)各文書の各共起行列の同一行同一列の成分の値の積により前記行前記列の成分の値を与えることによって共通共起行列を生成するステップと、
    (d)前記共通共起行列の全成分、又は対角成分の和をもとに文書集合共通度を求めるステップ。
  9. 以下の(a)から(d)のステップを有する、一つまたは複数の文書セグメントを持つ複数の文書から成る文書集合に対して、各文書もしくは各文書セグメントが前記文書集合に共通する話題にどの程度近いかを示す、文書・文書集合共通度、又は文書セグメント・文書集合共通度を求める方法を情報処理装置に実現させるプログラム、
    (a)前記文書セグメント毎に、前記文書セグメントに出現する用語に対応する成分の値を1、他の値は0とする文書セグメントベクトルを生成するステップと、
    (b)前記文書集合の各文書に対して文書セグメントベクトルより共起行列を生成するステップと、
    (c)各文書の各共起行列の同一行同一列の成分の値の積により前記行前記列の成分の値を与えることによって共通共起行列を生成するステップと、
    (d)前記文書もしくは文書セグメントの共起行列と共通共起行列の全成分との積和、又は対角成分の積和をもとに、文書・文書集合共通度、又は文書セグメント・文書集合共通度を求めるステップ。
  10. 以下の(a)から(e)のステップを有する、一つまたは複数の文書セグメントを持つ複数の文書から成る文書集合に対して、文書集合共通度を算出する方法を情報処理装置に実現させるプログラム、
    (a)前記文書セグメント毎に、前記文書セグメントに出現する用語に対応する成分の値を1、他の値は0とする文書セグメントベクトルを生成するステップと、
    (b)前記文書集合の各文書に対して文書セグメントベクトルより共起行列を生成するステップと、
    (c)各文書の各共起行列の同一行同一列の成分の値の積により、但し前記同一行同一列の成分の値が0の場合を除く、不一致許容形の共通共起行列を生成するステップと、
    (d)各文書の共起行列の各成分について値がゼロかどうかをチェックし、ゼロでない文書数を計数した共起計数行列を作成するステップと、
    (e)共起計数行列の各成分について、値が所定の閾値未満の場合、前記不一致許容形の共通共起行列の対応する成分をゼロとなるように修正し、修正された前記不一致許容形の共通共起行列の全成分、又は対角成分の和をもとに不一致許容形の文書集合共通度を求めるステップ。
  11. 以下の(a)から(g)のステップを有する、一つまたは複数の文書セグメントを持つ複数の文書から成る文書集合から話題の共通する文書を抽出する方法を情報処理装置に実現させるプログラム、
    (a)前記文書セグメント毎に、前記文書セグメントに出現する用語に対応する成分の値を1、他の値は0とする文書セグメントベクトルを生成するステップと、
    (b)前記文書集合の各文書に対して文書セグメントベクトルより共起行列を生成するステップと、
    (c)各文書の各共起行列の同一行同一列の成分の値の積により、但し前記同一行同一列の成分の値が0の場合を除く、不一致許容形の共通共起行列を生成するステップと、
    (d)各文書の共起行列の各成分について値がゼロかどうかをチェックし、ゼロでない文書数を計数した共起計数行列を作成するステップと、
    (e)共起計数行列の各成分について、値が所定の閾値未満の場合、前記不一致許容形の共通共起行列の対応する成分をゼロとなるように修正し、修正された前記不一致許容形の共通共起行列の全成分、又は対角成分の和をもとに不一致許容形の文書集合共通度を求めるステップと、
    (f)不一致許容形の文書集合共通度がある閾値以上の場合に、各文書について前記各文書の前記共起行列の全成分と前記修正された不一致許容形の共通共起行列の全成分との積和、もしくは各文書の共起行列の対角成分と前記修正された不一致許容形の共通共起行列の対角成分との積和をもとに不一致許容形文書・文書集合共通共通度を求めるステップと、
    (g)前記不一致許容形文書・文書集合共通共通度が所定の閾値を越える文書を話題が共通する文書として抽出するステップ。
  12. 前記出現する用語の種類数がMで与えられ、R個の文書からなる文書集合Dにおいて、r番目の文書をD、Drの文書セグメント数をY、Drのy番目の文書セグメントベクトルをdry=(dry1,..,ryMとすると、ここで、Tはベクトルの転置を表す、文書のDの前記共起行列をS が、
    Figure 2004164036
    で与えられることを特徴とする請求項8から11に記載のプログラム。
  13. 文書集合Dの共通共起行列Sのmn成分S mnは、
    Figure 2004164036
    で計算されることを特徴とする請求項8から11に記載のプログラム。
JP2002326157A 2002-11-08 2002-11-08 文書の共通性評価方法 Pending JP2004164036A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2002326157A JP2004164036A (ja) 2002-11-08 2002-11-08 文書の共通性評価方法
US10/694,773 US7392175B2 (en) 2002-11-08 2003-10-29 Evaluating commonality of documents using segment vector, co-occurrence matrix, and common co-occurrence matrix

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002326157A JP2004164036A (ja) 2002-11-08 2002-11-08 文書の共通性評価方法

Publications (2)

Publication Number Publication Date
JP2004164036A true JP2004164036A (ja) 2004-06-10
JP2004164036A5 JP2004164036A5 (ja) 2006-01-26

Family

ID=32211962

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002326157A Pending JP2004164036A (ja) 2002-11-08 2002-11-08 文書の共通性評価方法

Country Status (2)

Country Link
US (1) US7392175B2 (ja)
JP (1) JP2004164036A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7698740B2 (en) 2004-09-10 2010-04-13 Japan Science And Technology Agency Sequential data examination method using Eigen co-occurrence matrix for masquerade detection
JP2010231766A (ja) * 2009-03-02 2010-10-14 Fujitsu Ltd 文書検査装置、コンピュータ読み取り可能な記録媒体および文書検査方法
JP2011192273A (ja) * 2010-03-11 2011-09-29 Ricoh Co Ltd 画像集合における代表画像の検索システム、方法及びプログラム
WO2015029809A1 (ja) * 2013-08-29 2015-03-05 日本電気株式会社 データ分析方法、プログラム、及び装置
CN115359914A (zh) * 2022-08-26 2022-11-18 山东心法科技有限公司 基于量化描述向量的心理状态区分方法、设备及介质

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7409685B2 (en) 2002-04-12 2008-08-05 Hewlett-Packard Development Company, L.P. Initialization and update of software and/or firmware in electronic devices
WO2002041147A1 (en) * 2000-11-17 2002-05-23 Biftone Corporation System and method for updating and distributing information
US8479189B2 (en) 2000-11-17 2013-07-02 Hewlett-Packard Development Company, L.P. Pattern detection preprocessor in an electronic device update generation system
JP4828091B2 (ja) * 2003-03-05 2011-11-30 ヒューレット・パッカード・カンパニー クラスタリング方法プログラム及び装置
US8555273B1 (en) 2003-09-17 2013-10-08 Palm. Inc. Network for updating electronic devices
US7657423B1 (en) * 2003-10-31 2010-02-02 Google Inc. Automatic completion of fragments of text
US7904895B1 (en) 2004-04-21 2011-03-08 Hewlett-Packard Develpment Company, L.P. Firmware update in electronic devices employing update agent in a flash memory card
US8526940B1 (en) 2004-08-17 2013-09-03 Palm, Inc. Centralized rules repository for smart phone customer care
US7630980B2 (en) * 2005-01-21 2009-12-08 Prashant Parikh Automatic dynamic contextual data entry completion system
US8312021B2 (en) * 2005-09-16 2012-11-13 Palo Alto Research Center Incorporated Generalized latent semantic analysis
US8249871B2 (en) 2005-11-18 2012-08-21 Microsoft Corporation Word clustering for input data
US8209676B2 (en) 2006-06-08 2012-06-26 Hewlett-Packard Development Company, L.P. Device management in a network
US8209175B2 (en) * 2006-06-08 2012-06-26 Microsoft Corporation Uncertainty interval content sensing within communications
US8752044B2 (en) 2006-07-27 2014-06-10 Qualcomm Incorporated User experience and dependency management in a mobile device
US20080086496A1 (en) * 2006-10-05 2008-04-10 Amit Kumar Communal Tagging
JP5011947B2 (ja) * 2006-10-19 2012-08-29 オムロン株式会社 Fmeaシートの作成方法およびfmeaシート自動作成装置
US8060390B1 (en) * 2006-11-24 2011-11-15 Voices Heard Media, Inc. Computer based method for generating representative questions from an audience
US20080228700A1 (en) 2007-03-16 2008-09-18 Expanse Networks, Inc. Attribute Combination Discovery
US20090043752A1 (en) 2007-08-08 2009-02-12 Expanse Networks, Inc. Predicting Side Effect Attributes
WO2010061537A1 (ja) * 2008-11-26 2010-06-03 日本電気株式会社 検索装置、検索方法、及びプログラムが格納された記録媒体
US20100161539A1 (en) * 2008-12-18 2010-06-24 Verizon Data Services India Private Ltd. System and method for analyzing tickets
US8255403B2 (en) 2008-12-30 2012-08-28 Expanse Networks, Inc. Pangenetic web satisfaction prediction system
US8108406B2 (en) 2008-12-30 2012-01-31 Expanse Networks, Inc. Pangenetic web user behavior prediction system
US20100169338A1 (en) * 2008-12-30 2010-07-01 Expanse Networks, Inc. Pangenetic Web Search System
US8386519B2 (en) 2008-12-30 2013-02-26 Expanse Networks, Inc. Pangenetic web item recommendation system
JP2011095905A (ja) * 2009-10-28 2011-05-12 Sony Corp 情報処理装置および方法、並びにプログラム
US8799327B2 (en) * 2010-04-01 2014-08-05 Salesforce.Com, Inc. System, method and computer program product for deriving commonalities among data entries
US8725771B2 (en) * 2010-04-30 2014-05-13 Orbis Technologies, Inc. Systems and methods for semantic search, content correlation and visualization
US20120254166A1 (en) * 2011-03-30 2012-10-04 Google Inc. Signature Detection in E-Mails
US9015080B2 (en) 2012-03-16 2015-04-21 Orbis Technologies, Inc. Systems and methods for semantic inference and reasoning
JP5869948B2 (ja) * 2012-04-19 2016-02-24 株式会社日立製作所 パッセージ分割方法、装置、及びプログラム
US20130332221A1 (en) * 2012-06-12 2013-12-12 Siemens Aktiengesellschaft Method And System For Determining Critical Information Interfaces
US9189531B2 (en) 2012-11-30 2015-11-17 Orbis Technologies, Inc. Ontology harmonization and mediation systems and methods
US8930181B2 (en) 2012-12-06 2015-01-06 Prashant Parikh Automatic dynamic contextual data entry completion
CN107766318B (zh) * 2016-08-17 2021-03-16 北京金山安全软件有限公司 一种关键词的抽取方法、装置及电子设备
KR20180077690A (ko) * 2016-12-29 2018-07-09 주식회사 엔씨소프트 문서의 내러티브 학습 장치 및 방법, 문서의 내러티브 생성 장치 및 방법
US10169331B2 (en) * 2017-01-29 2019-01-01 International Business Machines Corporation Text mining for automatically determining semantic relatedness
US11003866B1 (en) 2018-01-17 2021-05-11 Narrative Science Inc. Applied artificial intelligence technology for narrative generation using an invocable analysis service and data re-organization
US11126798B1 (en) 2018-02-19 2021-09-21 Narrative Science Inc. Applied artificial intelligence technology for conversational inferencing and interactive natural language generation
US11416534B2 (en) * 2018-12-03 2022-08-16 Fujitsu Limited Classification of electronic documents
US11341330B1 (en) 2019-01-28 2022-05-24 Narrative Science Inc. Applied artificial intelligence technology for adaptive natural language understanding with term discovery

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5675819A (en) * 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US5787422A (en) * 1996-01-11 1998-07-28 Xerox Corporation Method and apparatus for information accesss employing overlapping clusters
US6356864B1 (en) * 1997-07-25 2002-03-12 University Technology Corporation Methods for analysis and evaluation of the semantic content of a writing based on vector length
US7130848B2 (en) 2000-08-09 2006-10-31 Gary Martin Oosta Methods for document indexing and analysis
US7610313B2 (en) 2003-07-25 2009-10-27 Attenex Corporation System and method for performing efficient document scoring and clustering

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7698740B2 (en) 2004-09-10 2010-04-13 Japan Science And Technology Agency Sequential data examination method using Eigen co-occurrence matrix for masquerade detection
JP2010231766A (ja) * 2009-03-02 2010-10-14 Fujitsu Ltd 文書検査装置、コンピュータ読み取り可能な記録媒体および文書検査方法
US9785635B2 (en) 2009-03-02 2017-10-10 Fujitsu Limited Document checking apparatus, computer-readable recording medium, and document checking method
JP2011192273A (ja) * 2010-03-11 2011-09-29 Ricoh Co Ltd 画像集合における代表画像の検索システム、方法及びプログラム
WO2015029809A1 (ja) * 2013-08-29 2015-03-05 日本電気株式会社 データ分析方法、プログラム、及び装置
JPWO2015029809A1 (ja) * 2013-08-29 2017-03-02 日本電気株式会社 データ分析方法、プログラム、及び装置
CN115359914A (zh) * 2022-08-26 2022-11-18 山东心法科技有限公司 基于量化描述向量的心理状态区分方法、设备及介质

Also Published As

Publication number Publication date
US7392175B2 (en) 2008-06-24
US20040093557A1 (en) 2004-05-13

Similar Documents

Publication Publication Date Title
JP2004164036A (ja) 文書の共通性評価方法
Natt och Dag et al. A feasibility study of automated natural language requirements analysis in market-driven development
Litvak et al. A new approach to improving multilingual summarization using a genetic algorithm
JP2004288168A (ja) クラスタリング方法プログラム及び装置
Smith et al. Evaluating visual representations for topic understanding and their effects on manually generated topic labels
US7398196B1 (en) Method and apparatus for summarizing multiple documents using a subsumption model
Abdi et al. A question answering system in hadith using linguistic knowledge
Al-Omari et al. Arabic light stemmer (ARS)
Zheng et al. Dynamic knowledge-base alignment for coreference resolution
Alian et al. Arabic semantic similarity approaches-review
Weerasinghe et al. Feature Vector Difference based Authorship Verification for Open-World Settings.
Singh et al. Writing Style Change Detection on Multi-Author Documents.
Basili et al. Effective use of WordNet semantics via kernel-based learning
Lakhanpal et al. Discover trending domains using fusion of supervised machine learning with natural language processing
Och Dag et al. Evaluating automated support for requirements similarity analysis in market-driven development
Pal et al. Word sense disambiguation in Bengali: An unsupervised approach
Saeed et al. An abstractive summarization technique with variable length keywords as per document diversity
JPH06282587A (ja) 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置
Patel et al. Influence of Gujarati STEmmeR in supervised learning of web page categorization
JP2003167894A (ja) 関連語自動抽出方法、関連語自動抽出装置、複数重要語抽出プログラムおよび重要語上下階層関係抽出プログラム
Ratna et al. Word level auto-correction for latent semantic analysis based essay grading system
Büchler et al. Scaling historical text re-use
Kocher et al. Author clustering using spatium
Sandul et al. Keyword extraction from single Russian document
Petmanson Authorship identification using correlations of frequent features

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051108

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071113

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081028

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090127

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090428

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20091023

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20091127

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20091130

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100105

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20100212

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111021

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111026