JP2004164036A - 文書の共通性評価方法 - Google Patents
文書の共通性評価方法 Download PDFInfo
- Publication number
- JP2004164036A JP2004164036A JP2002326157A JP2002326157A JP2004164036A JP 2004164036 A JP2004164036 A JP 2004164036A JP 2002326157 A JP2002326157 A JP 2002326157A JP 2002326157 A JP2002326157 A JP 2002326157A JP 2004164036 A JP2004164036 A JP 2004164036A
- Authority
- JP
- Japan
- Prior art keywords
- document
- common
- occurrence matrix
- components
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】各文を各成分が対応する用語の有無を表す2値ベクトルで表したうえで、文書間の共通ベクトルの概念を導入する。共通ベクトルは、各文書から1つづつ取り出した文ベクトル群において全てのベクトルで1となる成分のみが1となり他はゼロとなるようなベクトルである。各共通ベクトルにおける値が非ゼロの成分数の全共通ベクトルに対する和、もしくは2乗和を用いることにより、文書集合の共通度を求める。また、各文を全共通ベクトルに射影し、射影値の和等により、各文が共通話題にどの程度近いかを求める。
【選択図】図3
Description
【産業上の利用分野】
本発明は文書の要約をはじめとする自然言語処理に関するものであり、特に多数の文書間の話題の共通性を定量的に評価できるようにすることによって前記処理の高性能化を図るものである。
【0002】
【従来の技術】
複数の文書からなる文書集合が与えられたとして、この文書集合の話題共通性の定量的な評価のためには次のような技術が必須である。
(A)文書集合に共通の話題が存在するか否かを判断できるよう、各文書の話題がどの程度共通しているか数値で示す。
(B)共通の話題に近い話題の文書、または文を文書集合から選択して全文書の共通の話題を把握できるよう、共通の話題への近さに応じて各文書、または各文にスコア−を与える。
(C)話題が全文書に共通していなくとも、話題の共通する文書群があればそれを抽出する。
【0003】
これらの内、A)については、2文書の場合には話題の共通性のスコアーはその2文書間の類似度そのものと考えることができ、これまで種々の類似度の尺度が提案されてきた。最も代表的なのは余弦類似度であり、これは文書に現れる各用語の頻度を成分とするベクトルで文書を表現しておき、2文書間の類似度をそれぞれのベクトルのなす余弦によって定義するというものである。
また、B)、C)は文書集合からの共通話題の抽出に関わる技術である。このような処理は複数文書要約やTDT(Topic Detection and Tracking)などで重要な技術となっている。従来は、共通話題の抽出は、文書のクラスタリングを行った後、クラスター毎にクラスターを代表しうる文や文書タイトルを選択することにより行われていた。また、最近は文やパッセージ単位にクラスタリングを行い、クラスター毎に重要なパッセージを選択することで共通話題を抽出する方法も現れている。何れにせよこれまでは共通話題の抽出にクラスタリングは欠かせない技術となっている。クラスタリングは階層的手法と非階層的な手法に大別される。
【0004】
階層的な手法は、さらにボトムアップのアプローチとトップダウンのアプローチに分けられる。前者では、初期状態として各文書をクラスターの核とし、最も近いクラスターをマージするという処理をクラスター数が1になるまで繰り返す。これにより文書集合は木構造で表現されるようになる。後者では、全文書が1つのクラスターに属するという状態から出発し、例えばひとつのクラスター中のあらゆる文書対の中で最も低い類似度が閾値以下の場合、そのクラスターを分割するという処理を繰り返す。非階層的な手法では、予め指定された数のクラスターが何らかの基準を満たすように作成される。よく知られている方法は、ステップ1:指定されたクラスター数の文書をランダムに選択して各クラスターの中心とする、ステップ2:各文書について各クラスター中心との近さを求め、各文書を最も近いクラスターに帰属させる、ステップ3:各クラスターに帰属する文書ベクトルの平均により各クラスターの中心を求める、ステップ4:ステップ2)の処理を実行し、各文書の帰属するクラスターに変化がなければ終了、そうでなければステップ3へ、という方法である。
【0005】
【発明が解消しようとする課題】
A)については、上述のように、3文書以上の場合に対しては、2文書のときの類似度に相当する尺度は知られていなかった。そのため、同じような話題を述べている3文書の組と、4文書の組が存在したとき、“どちらの組が内容が揃っているか?”というような問題には答えようがなかった。本発明では、このような問題に対しても答えられるような尺度を提供する。
また、B)、C)の 共通話題の抽出において、ボトムアップの階層的なクラスタリング処理では、各レベルのクラスターが意味のあるグルーピングとなっている保証はない。意味のあるグルーピングを指向するには、類似度が閾値を超えるクラスター対のみをマージするようにすればよいが、閾値を如何に決定するかが問題となる。トップダウンの階層的なクラスタリング処理の場合も、クラスターを分割するか否かの閾値を如何に決定するかが問題となる。また、階層的な手法では処理量の問題も無視できない。非階層的な手法では、与えられた文書集合が何個のクラスターから構成されるか事前の知識が要求されるが、これは一般的には得られない情報であり、クラスター数を正しく指定することは困難である。このようにクラスタリング技術そのものは完成された技術ではないので、共通話題の抽出を従来のクラスタリング技術を用いて行っても最適であるという保証はなかった。このようなことから本発明では従来のクラスタリング技術に依らない共通話題抽出方法を提供する。
【0006】
【課題を解決するための手段】
本発明において、A)に関する課題を解決するための基本的な考え方は、文書間の情報共通量を求め、次いで求められた情報共通量を文書の長さや文書数に依存しないように正規化を行うというものである。従って、文書間の情報共通量を如何に定義して如何に求めるかが重要となるが、本発明では以下のように行っている。先ず、2つの文を考えると、2つの文の間の情報共通量は共通する用語の数で決まると考える。また、2つの文書間の情報共通量は、各文書から文を1つづつ取り出して組み合わせたとして、組み合わされた文の対における共通用語数の全組み合わせに対する和、もしくは2乗和で決まるとする。この場合文の組み合わせは各文書の文数の積通り存在することになる。3文書以上の場合も、文書間の全ての文の組み合わせを考えればよい。このような文の組み合わせにおける共通用語数の算出を容易にするため、本発明では、各文を各成分が対応する用語の有無を表す2値ベクトルで表したうえで、各文書を文ベクトルの集合で表す。また、2つ以上の文ベクトルの組み合わせに対して、共通ベクトルの概念を導入する。2つのベクトルa=(an)、b=(bn)の共通ベクトルをc=(cn)とする時、本発明の場合、文ベクトルは2値なので、共通ベクトルの成分はCn=an×bnによって求めることができる。例えばベクトル(0,1,1,0)と(1,1,0,1)との共通ベクトルは(0,1,0,0)となる。3個以上のベクトルの共通ベクトルの成分は、対応する成分同士の積となる。
【0007】
簡単な例として、6個の用語が出現し、それぞれが4、3、3個の文からなる文書D1、D2、D3を考える。
【0008】
【表1】
【0009】
文書Dr(r=1,2,3)のy番目の文をDryで表すこととする。表1はそのような文書D1、D2、D3の文ベクトルの例を示している。表1では文書Dr(r=1,2,3)のy番目の文をDryで表している。表1の文書D1、D2、D3の文の組み合わせは4×3×3=36通り存在することになるが、表2はそのうちの6通りについて共通ベクトルと共通用語数を示している。
【0010】
【表2】
【0011】
文D11、D21、D31の組み合わせの場合、3文書とも1となる文ベクトルの成分は、3番目と6番目であり、共通ベクトルは3番目と6番目のみが値1をとるベクトルとなる。文D11、D21、D31の共通用語数は共通ベクトルで値が1の成分数であるから、2となる。文D11、D21、D32の組み合わせの場合には、共通ベクトルは3番目の成分のみが値1となり、共通用語数は1となる。文書D1、D2、D3の情報共通量は、36個の文の組み合わせの各々における共通用語数の和、もしくは共通用語数の2乗和である。
また本発明では、共通用語数の和、もしくは2乗和の算出を容易にするため、共通ベクトルの共起行列の概念を導入する。共通ベクトルの共起行列をSCとすると、その成分SC mnは各共通ベクトルのm番目の成分とn番目の成分との積を求め、その積の値をすべての共通ベクトルについて合計したものである。上記の例では36個の共通ベクトルを用いてSCを求めることになる。共通ベクトルの共起行列を用いると、共通用語数の和は共通ベクトルの共起行列の対角成分の和で、共通用語数の2乗和は共通ベクトルの共起行列の全成分の和で与えられる。従って、共通ベクトルの共起行列を如何に効率的に求めるかが重要と成るが、本発明では共通ベクトルを得ることなく求める方法を提供する。
【0012】
また、B)における課題を解決するためのアプローチとしては以下の2通りの考えられる。ひとつは、対象となる文書もしくは文を本来の文書集合に加えて新しい文書集合を作成し、新しい文書集合での情報共通量を求めると、本来の文書集合の共通の話題に近い文書・文ほど上記情報共通量の値は大きくなるであろうという考え方である。2番目は、対象となる文書もしくは文と本来の文書集合から求められる共通ベクトル集合との間で類似度を求めると、この類似度の高い文書・文ほど本来の文書集合の共通の話題に近いであろうという考え方である。
【0013】
C)は話題が全文書に共通せず、部分的に共通性が存在する場合を対象にしている。C)における課題を解決するためのアプローチは次の通りである。上記では、共通ベクトルは、組み合わされた文ベクトル群において全文書が値1となる成分に限って値1を与えていた。言わば全文書一致形の共通ベクトルであった。それに対して、ここでは特定の成分に着目したとき、その成分の値が1となる文ベクトルの数がある閾値を越えたときに共通ベクトルの当該成分に値1を与えるようにする。これは不一致許容形の共通ベクトルとも呼ぶべきものである。このように得られた共通ベクトル集合を用いて上記B)のアプローチを採用すれば、閾値を適当に設定することにより、部分的に存在する共通話題に対する各文書・文の近さが求められる。
【0014】
上述のように、本発明によれば複数の文書の話題がどの程度共通するかをスコアーで示すことができるようになり、これは文書の話題共通性の解析の重要な基本技術となる。また、全文書で話題が一致していなくとも、(1)話題を同じにする文書が含まれていればそれらを抽出し、(2)抽出された文書の話題の共通の程度のスコアーを求め、(3)抽出された文書が共有する話題が端的にユーザに分かるよう共通話題に最も近い文を抽出する、という一連の処理が可能となる。これらのうち(1)(3)は従来技術によっても可能な処理であるが、本発明では各文書の各文の間の共通ベクトルという新しい概念を用いた処理がベースになっており、従来に比べより適確な結果が期待できる。
【0015】
【実施例】
図1は、本発明の概要を示すブロック図である。110は文書入力ブロック、120は文書前処理ブロック、130は文書情報処理ブロック、140は出力ブロックを示す。文書入力ブロック110には、処理したい文書、文、文書セグメント等が入力される。文書前処理ブロック120では、入力された文書の用語検出、形態素解析、文書セグメント区分け等が行われる。文書セグメントについて説明する。文書セグメントは文書を構成する要素であり、その最も基本的な単位は文である。英文の場合、文はピリオドで終わり、その後ろにスペースが続くので文の切出しは容易に行うことができる。その他の文書セグメントへの区分け法としては、ひとつの文が複文からなる場合主節と従属節に分けておく方法、用語の数がほぼ同じになるように複数の文をまとめて文書セグメントとする方法、文書の先頭から含まれる用語の数が同じになるように文とは関係なく区分けする方法などがある。文書情報処理ブロック130は以下に詳細に説明するが、情報処理を行い、文書集合共通度、文書・文書集合共通度、文書セグメント・文書集合共通度を求めたり、共通の話題に近い文書、文書セグメント等を抽出する。出力ブロック140は文書情報処理ブロック130で得られた結果を、ディスプレー等の出力装置に出力する。
【0016】
図3は与えられた文書集合に対して、各文書の話題がどの程度共通しているかを示す文書集合共通度を算出し、共通の話題への近さに応じて各文書、または各文書セグメントにスコアーを与える本発明の第1の実施例を示す。この発明の方法は、汎用コンピュータ上でこの発明を組み込んだプログラムを走らせることによって実施することができる。図3は、そのようなプログラムを走らせている状態でのコンピュータのフローチャートである。31は文書集合入力、ブロック32は用語検出、ブロック33は形態素解析、ブロック34は文書セグメント区分けである。ブロック35は文書セグメントベクトル作成、ブロック36は文書毎の共起行列算出、37は共通共起行列算出、38は文書集合共通度算出、39は文書(文書セグメント)・文書集合共通度算出である。以下、英文文書を例に実施例を説明する。
【0017】
先ず、文書集合入力31において対象となる文書集合が入力される。用語検出32において、各入力文書から単語、数式、記号系列などを検出する。ここでは、単語や記号系列などを総称して全て用語と呼ぶ。英文の場合、用語同士を分けて書く正書法が確立しているので用語の検出は容易である。次に、形態素解析33は、各入力文書に対して用語の品詞付けなどの形態素解析を行う。次に文書セグメント区分け34において各入力文書に対して文書セグメントへの区分けを行う。文書セグメントベクトル作成35は、先ず文書全体に出現する用語から作成すべきベクトルの次元数および各次元と各用語との対応を決定する。この際に出現する全ての用語の種類にベクトルの成分を対応させなければならないということはなく、品詞付け処理の結果を用い、例えば名詞と動詞と判定された用語のみを用いてベクトルを作成するようにしてもよい。次いで、各文書セグメントに出現する用語に対応する成分のみが値1、他は0となるような文書セグメントベクトルを作成する。
【0018】
文書毎の共起行列算出36では、各文書で用語の出現頻度、用語間の共起頻度を反映するような共起行列を作成する。以降、文を文書セグメントとした場合について説明を続ける。ここでは、現れる用語集合が{w1,..,wM}で与えられ、R個の文書から成る集合Dを考える。さらに、r番目の文書をDrとすると、DrはYr個の文からなるものとし、y番目の文及びその文ベクトルをDry、 dry=(dry1,.., dryM)Tとする。ここで、Tはベクトルの転置を表す。dryは2値ベクトルであり、drymはm番目の用語の有無を表す。文書のDrの共起行列をS rとすると、これは
【0019】
【数5】
【0020】
で与えられる。式(1)から分かるように、Srのmn成分は
により与えられる。従って、S r mmは文書Drにおいて用語mが生起する文の数、S r mnは用語mとnとが共起する文の数を表すことになる。もし同じ用語が同じ文に2回以上出現しないのであれば、S r mmは文書Drにおける用語mの出現頻度となる。共通共起行列算出37では共通ベクトルを対象に共起行列SCを求める。これを共通共起行列と呼ぶ。前述のように、各文書から文ベクトルを1つづつ取り出して組み合わせた場合の共通ベクトルの各成分の値は各文ベクトルの対応する成分の積で与えられる。
本実施例の場合、文ベクトルはバイナリなので、共通ベクトルの成分はCn=an×bnによって求めることができる。例えばベクトル(0,1,1,0)と(1,1,0,1)との共通ベクトルは(0,1,0,0)となる。3個以上のベクトルの共通ベクトル成分は、対応する成分同士の積となる。ここで、説明を簡単にする為に、3つの文書、D1、D2、D3間の全ての文の組み合わせに対して求められるY1×Y2×Y3通りの共通文ベクトルの共起行列SCを求める。D1、D2、D3のそれぞれのi、j、k番目のベクトルd1i、d2j、d3kの共通文ベクトルをcijk =(cijk m)で表すと、前述のように、cijk mは cijk m= d1imd2jmd3km で求められる。SCの各成分は
【0021】
【数6】
【0022】
により与えられる。さらに一般化して説明を続ける。R文書の場合、文の組み合わせにおいて文書Drからk(r)番目の文が取り出されたとして、共通ベクトルを
と書くと、
と表わすことが出来るので、SCのmn成分は次の式で与えられる。
【0023】
【数7】
【0024】
式(2)は共通共起行列の各成分は各文書の共起行列の対応する成分同士の積として求められることを示しており、共通共起行列は共通ベクトルを実際に求めることなく得ることができる。また、前述のように、同じ用語が同じ文に2回以上出現しないのであれば、S r mmは文書Drにおける用語mの出現頻度となる。同じ用語が同じ文に2回以上出現する頻度は少ないと考えられるので、SCの各対角成分は対応する用語の各文書の出現頻度の積によって近似することもできる。
文書集合共通度算出37では、各文書の話題がどの程度共通しているかを示すスコアーを算出する。前述のように、本発明では各共通ベクトルで値が1の成分数の全共通ベクトルに対する和、もしくは2乗和をもとに各文書の文書集合共通度を求める。前者を線形モデル、後者を2次モデルと呼ぶ。先ず前者の線形モデルの場合について述べる。各共通ベクトルで値が1の成分数の和をGl(D1, .., DR)とする。これは、
【0025】
【数8】
【0026】
のように求めることができ、Gl(D1, .., DR)は共通共起行列の対角成分の和で表される。式(3)は文書集合における各文書の情報共通量を表すが、情報共通量の値は文書の長さや文書数に依存した値になるので、これらの影響を受けないように以下のように正規化し、文書集合共通度coml(D)とする。
【0027】
【数9】
2次モデルについて述べる。各共通ベクトルで値が1の成分数の2乗和をGs(D1, .., DR)とする。これは、
【0028】
【数10】
のように、共通共起行列の各成分の和で求められる。2次モデルの場合の文書集合共通度をcoms(D)とすると、これは以下のように求めることができる。
【0029】
【数11】
【0030】
文書(文書セグメント)・文書集合共通度算出39では、対象とする文書または文をPとして、Pが文書集合Dの共通の話題にどれだけ近いかを示す尺度として、文書・文書集合共通度を求める。これには、次の2つの方法が存在する。
第1の方法は、Pを文書集合Dに加えた新しい文書集合の文書集合共通度を文書・文書集合共通度とする方法である。文書Pの共起行列をSPとして、線形モデル、2次モデルの場合の文書・文書集合共通度をそれぞれcoml(D+P)、coms(D+P)とすると、これらは以下のように求めることができる。
【0031】
【数12】
【0032】
【数13】
【0033】
第2の方法は、Pから求められる共起行列と共通共起行列との類似度により文書・文書集合共通度を定義する方法である。これには共起行列の対角成分のみを用いる場合と全成分を用いる場合の2通りが考えられる。文書・文書集合共通度を前者についてcoml(D, P)、後者についてcoms(D, P)と表記すると、
【0034】
【数14】
【0035】
【数15】
【0036】
によって求めることができる。第1の方法、第2の方法とも対象とする文書もしくは文の共起行列と共通共起行列の全成分もしくは対角成分の積和をもとに求められる。
図4は、話題が必ずしも共通しない文書集合から話題の共通する文書群を抽出する本発明の第2の実施例を示す。この発明の方法は、汎用コンピュータ上でこの発明を組み込んだプログラムを走らせることによって実施することができる。図4は、そのようなプログラムを走らせている状態でのコンピュータのフローチャートである。31は文書集合入力、ブロック32は用語検出、ブロック33は形態素解析、ブロック34は文書セグメント区分けである。ブロック35は文書セグメントベクトル作成、ブロック36は文書毎の共起行列算出、ブロック47は不一致許容形共通共起行列及び共起計数行列の算出、ブロック48は不一致許容閾値設定、ブロック49は不一致許容形文書集合共通度算出、ブロック50は不一致許容形文書・文書集合共通度算出、及び文書選択、ブロック51は選択された文書集合の文書集合共通度算出、及び妥当性判定、ブロック52は不一致許容閾値変更である。これらのうち、31〜36は図3に示したものと全く同じである。
【0037】
図3の場合と同じように文が文書セグメントとなっていることを想定する。不一致許容形共通共起行列及び共起計数行列の算出47における不一致許容形共通共起行列の各成分の算出では、各文書の共起行列の内その成分の値がゼロでない共起行列のみが用いられる。従って、ある用語、用語共起が文書集合Dに必ず現れる限り、不一致許容形共通共起行列の対応成分は0以外の値をとる。このような行列をTと表記する。さらに、47では各用語、または各用語対の生起、または共起した回数を保持する行列Uを求める。行列TとUは、図2に示されるように以下のような手順で求めることができる。
ステップ61 r=1とおく。Tの全成分は1、Uのそれは0とする。
ステップ62. S r mn>0 のとき、
T mn = S r mn T mn
U mn = U mn +1 (ステップ63)
ステップ64. r=Rで終了。そうでなければr=r+1(ステップ65)としてステップ62へ行く。
【0038】
不一致許容閾値設定48では後段の処理のために閾値Aの初期値を設定する。閾値Aは不一致許容形共通共起行列TにおいてA個以上の文書で現れる用語、もしくは用語共起のみを有効にするために用いられる。閾値Aの初期値は共起計数行列Uの各成分の中での最大値である。
ブロック49では、A個以上の文書で現れる用語、もしくは用語共起に対応する成分以外は値を0とした不一致許容形共通共起行列を用いて不一致許容形の文書集合共通度を算出し、閾値処理を行ってブロック50の処理に移行するか否かの判断を行う。上記のように修正された不一致許容形共通共起行列をTAとすると、行列TAのmn成分は以下のように決められる。
T A mn= T mn,if U mn >=A,
T A mn= 0 otherwise.
図3の場合は共通ベクトルにおいて値が1となる成分は文の組み合わせにおいて全ての文ベクトルで値が1となる成分のみであったが、ここでは、A文書以上で現れる用語に対応する成分が値1となるように共通ベクトルを決定したことになる。行列TAは、そのように決定された全共通ベクトルから求められる共通共起行列である。式(4)式(6)において行列SCの替りに行列T Aを用いた文書集合共通度を不一致許容形の文書集合共通度と呼ぶこととして、線形モデルの場合は
【0039】
【数16】
により、2次モデルの場合は
【0040】
【数17】
【0041】
のように求める。coml (D;T A)、coms (D;T A)は行列T Aを共通共起行列として用いて求められる文書集合共通度という意味である。coml(D;TR)、coms (D;TR)はcoml (D)、coms (D)とそれぞれ等価である。
ここで、文書集合DではRより少ないB個の文書が話題を共通にしており、他は互いに関連のないものと仮定する。このとき、Aの値がBと等しいか小さければB個の文書に現れる用語の寄与によって行列TAにおいて値が0でない成分の和は大きくなり、不一致許容形の文書集合共通度も大きくなる筈である。一方、AがR 〜B+1の間にあるときは、偶発的にB個以上の文書で現れる用語があったにしてもその用語の各文書内の頻度は高くないものと想定され、TAでの0でない成分の和は小さく、不一致許容形の文書集合共通度も小さいものと考えられる。従って、ブロック49では求められた不一致許容形の文書集合共通度と予め決められた閾値との比較を行い、閾値以上のときには、行列TAは話題を共有する文書の影響を受けている可能性が高いと判断してブロック50に進む。閾値よりも小さければブロック52に進む。この場合の閾値は実験的に決めておく。
【0042】
ブロック50では、行列TAを用いて各文書に対して不一致許容形の文書・文書集合共通度を算出し、その値が一定値を越える文書を選択する。TAを用いる不一致許容形の文書・文書集合共通度は式(7)式(8)式(9)式(10)において、SC mnをTA mnにより置き換えることにより得ることができる。例えば、式(9)式(10)を用いる場合、文書Drに対する文書・文書集合共通度を線形モデルではcoml(D, Dr;TA)、2次モデルではcoms(D, Dr;TA)と表記すると、これらは以下のように求めることができる。
【0043】
【数18】
【0044】
【数19】
【0045】
文書選択では、線形モデルを採用する場合にはcoml(D, Dr;TA)が、2次モデルを採用する場合はcoms(D, Dr;TA)が予め設定された閾値を越える文書を選択する。閾値は実験的に決めておく。
ブロック51では、ブロック50において選択された文書集合の文書集合共通度を算出し、文書集合として話題が共通しているか否かを判断するために閾値処理を行う。選択された文書集合の文書集合共通度は線形モデルを採用する場合には式(4)、2次モデルを採用する場合は式(6)を用いて求めることができる。文書集合共通度が閾値以上の場合、またはA=1の場合には処理を終了し、閾値未満の場合には、ブロック52において不一致許容閾値を小さくなるように変更してブロック49に戻り、処理を続行する。
【0046】
【発明の効果】
ここで本発明の効果を説明する為に図4の実施例に沿った実験結果を示す。実験に用いたデータは文書分類用コーパスReuters−21578から取り出した21記事であり、話題によって3グループに分けられる。内容は、
グループ1:カテゴリ”acquisition”から取り出したGenCorp社の企業買収に関する12記事、
グループ2:カテゴリ”crude”から取り出したエクアドルの地震に関する6記事、
グループ3:カテゴリ”money−fx”から取り出したJames Baker氏の発言に関する3記事、
である。
【0047】
この実験の目的は、21記事の中から文書数の最も多いグループ1を抽出し、さらにグループ1の共通話題を最もよく表す3つの文を選択することである。文数は250で、全用語数は1147であった。ブロック47での共起計数行列Uの各成分の中での最大値は12でなく、13であった。これは特定の用語がグループ1とグループ2の両方の文書に現れたためである。そこで、Aの初期値を13として図4の49→50→51→52→49の繰り返し処理を行った。ブロック49で得られた不一致許容形の文書集合共通度は、A=13の場合線形モデル、2次モデルとも0.22、A=12の場合には同じく0.39であった。この場合、最も文書数の多いグループ1は文書数が12なので、A=12の不一致許容形の文書集合共通度の方が値が大きいことが期待されたが、結果は期待に沿うものであった。しかし、A=13の場合も値は十分に小さいとは言えないので、A=13の場合もブロック50に進むとした。ブロック50では文書選択のための閾値を線形モデル、2次モデルとも0.02と設定すると、A=13の場合には13文書(グループ1の9文書とグループ2の3文書)、A=12の場合には12文書(全てグループ1)が選択された。選択された文書に対して文書集合共通度を求めると、A=13の場合線形モデルで0.29、2次モデルで0.33、A=12の場合にはそれぞれ0.85、0.90と得られた。従って、ブロック51における閾値が0.5となっていれば、A=12のときに選択された12文書が話題の揃った文書として出力されることになるが、前述のようにこれらは全てグループ1に属している。
【0048】
また、選択された文書に対し、式(9)を用いて各文の文・文書集合共通度を求め、値の大きな文を3個選択した結果を以下に示す。
1位:General Partners said it is asking GenCorp for its shareholder lists for help in disseminating the offer.
2位:Earlier today, General Partners, owned by Wagner and Brown and AFG Industries Inc, launched a 100 dlr per share tender offer for GenCorp.
3位:General Acquisition Co said it was disappointed by Gencorp’s response to its tender offer and asked how the company might give better value
to shareholders.
これにより、文書集合で最も優勢な話題はGenCorp社の企業吸収に関するものであることが分かる。また、文書集合から選択された文書を除去して同様な処理を行えば2番目に優勢な話題を述べた文書(この場合にはグループ2)を抽出することができる。
【0049】
このように本発明によれば、文書集合中で最も優勢な話題を共有する文書群を取り出し、同時に共通話題に最も近い文をユーザに提示することができる。そのためユーザの情報取得の効率性が高められる。
【図面の簡単な説明】
【図1】本発明の概略を示すブロック図である。
【図2】本発明の不一致許容形共通共起行列をの作成方法を示す図である。
【図3】文書集合が入力された段階から文書集合共通度、文書(文書セグメント)・文書集合共通度が決定されるまでの手順を示す図である。
【図4】文書集合が入力された段階から最も優勢な話題を述べた文書が抽出されるまでの手順を示す図である。
【符号の説明】
110:文書入力ブロック
120:文書前処理ブロック
130:文書情報処理ブロック
140:出力ブロック
Claims (13)
- 以下の(a)から(d)のステップを有する、一つまたは複数の文書セグメントを持つ複数の文書から成る文書集合に対して、前記文書集合の各文書が話題を共通にする程度を示す文書集合共通度を求める方法、
(a)前記文書セグメント毎に、前記文書セグメントに出現する用語に対応する成分の値を1、他の値は0とする文書セグメントベクトルを生成するステップと、
(b)前記文書集合の各文書に対して文書セグメントベクトルより共起行列を生成するステップと、
(c)各文書の各共起行列の同一行同一列の成分の値の積により前記行前記列の成分の値を与えることによって共通共起行列を生成するステップと、
(d)前記共通共起行列の全成分、又は対角成分の和をもとに文書集合共通度を求めるステップ。 - 以下の(a)から(d)のステップを有する、一つまたは複数の文書セグメントを持つ複数の文書から成る文書集合に対して、各文書もしくは各文書セグメントが前記文書集合に共通する話題にどの程度近いかを示す、文書・文書集合共通度、又は文書セグメント・文書集合共通度を求める方法、
(a)前記文書セグメント毎に、前記文書セグメントに出現する用語に対応する成分の値を1、他の値は0とする文書セグメントベクトルを生成するステップと、
(b)前記文書集合の各文書に対して文書セグメントベクトルより共起行列を生成するステップと、
(c)各文書の各共起行列の同一行同一列の成分の値の積により前記行前記列の成分の値を与えることによって共通共起行列を生成するステップと、
(d)前記文書もしくは文書セグメントの共起行列と共通共起行列の全成分との積和、又は対角成分の積和をもとに、文書・文書集合共通度、又は文書セグメント・文書集合共通度を求めるステップ。 - 以下の(a)から(e)のステップを有する、一つまたは複数の文書セグメントを持つ複数の文書から成る文書集合に対して、文書集合共通度を算出する方法、
(a)前記文書セグメント毎に、前記文書セグメントに出現する用語に対応する成分の値を1、他の値は0とする文書セグメントベクトルを生成するステップと、
(b)前記文書集合の各文書に対して文書セグメントベクトルより共起行列を生成するステップと、
(c)各文書の各共起行列の同一行同一列の成分の値の積により、但し前記同一行同一列の成分の値が0の場合を除く、不一致許容形の共通共起行列を生成するステップと、
(d)各文書の共起行列の各成分について値がゼロかどうかをチェックし、ゼロでない文書数を計数した共起計数行列を作成するステップと、
(e)共起計数行列の各成分について、値が所定の閾値未満の場合、前記不一致許容形の共通共起行列の対応する成分をゼロとなるように修正し、修正された前記不一致許容形の共通共起行列の全成分、又は対角成分の和をもとに不一致許容形の文書集合共通度を求めるステップ。 - 以下の(a)から(g)のステップを有する、一つまたは複数の文書セグメントを持つ複数の文書から成る文書集合から話題の共通する文書を抽出する方法、
(a)前記文書セグメント毎に、前記文書セグメントに出現する用語に対応する成分の値を1、他の値は0とする文書セグメントベクトルを生成するステップと、
(b)前記文書集合の各文書に対して文書セグメントベクトルより共起行列を生成するステップと、
(c)各文書の各共起行列の同一行同一列の成分の値の積により、但し前記同一行同一列の成分の値が0の場合を除く、不一致許容形の共通共起行列を生成するステップと、
(d)各文書の共起行列の各成分について値がゼロかどうかをチェックし、ゼロでない文書数を計数した共起計数行列を作成するステップと、
(e)共起計数行列の各成分について、値が所定の閾値未満の場合、前記不一致許容形の共通共起行列の対応する成分をゼロとなるように修正し、修正された前記不一致許容形の共通共起行列の全成分、又は対角成分の和をもとに不一致許容形の文書集合共通度を求めるステップと、
(f)不一致許容形の文書集合共通度がある閾値以上の場合に、各文書について前記各文書の前記共起行列の全成分と前記修正された不一致許容形の共通共起行列の全成分との積和、もしくは各文書の共起行列の対角成分と前記修正された不一致許容形の共通共起行列の対角成分との積和をもとに不一致許容形文書‐文書集合共通共通度を求めるステップと、
(g)前記不一致許容形文書‐文書集合共通共通度が所定の閾値を越える文書を話題が共通する文書として抽出するステップ。 - 文書集合Dの共通共起行列SCの各対角成分は対応する用語の各文書の出現頻度の積によって近似することを特徴とする請求項1から4に記載の方法。
- 以下の(a)から(d)のステップを有する、一つまたは複数の文書セグメントを持つ複数の文書から成る文書集合に対して、前記文書集合の各文書が話題を共通にする程度を示す文書集合共通度を求める方法を情報処理装置に実現させるプログラム、
(a)前記文書セグメント毎に、前記文書セグメントに出現する用語に対応する成分の値を1、他の値は0とする文書セグメントベクトルを生成するステップと、
(b)前記文書集合の各文書に対して文書セグメントベクトルより共起行列を生成するステップと、
(c)各文書の各共起行列の同一行同一列の成分の値の積により前記行前記列の成分の値を与えることによって共通共起行列を生成するステップと、
(d)前記共通共起行列の全成分、又は対角成分の和をもとに文書集合共通度を求めるステップ。 - 以下の(a)から(d)のステップを有する、一つまたは複数の文書セグメントを持つ複数の文書から成る文書集合に対して、各文書もしくは各文書セグメントが前記文書集合に共通する話題にどの程度近いかを示す、文書・文書集合共通度、又は文書セグメント・文書集合共通度を求める方法を情報処理装置に実現させるプログラム、
(a)前記文書セグメント毎に、前記文書セグメントに出現する用語に対応する成分の値を1、他の値は0とする文書セグメントベクトルを生成するステップと、
(b)前記文書集合の各文書に対して文書セグメントベクトルより共起行列を生成するステップと、
(c)各文書の各共起行列の同一行同一列の成分の値の積により前記行前記列の成分の値を与えることによって共通共起行列を生成するステップと、
(d)前記文書もしくは文書セグメントの共起行列と共通共起行列の全成分との積和、又は対角成分の積和をもとに、文書・文書集合共通度、又は文書セグメント・文書集合共通度を求めるステップ。 - 以下の(a)から(e)のステップを有する、一つまたは複数の文書セグメントを持つ複数の文書から成る文書集合に対して、文書集合共通度を算出する方法を情報処理装置に実現させるプログラム、
(a)前記文書セグメント毎に、前記文書セグメントに出現する用語に対応する成分の値を1、他の値は0とする文書セグメントベクトルを生成するステップと、
(b)前記文書集合の各文書に対して文書セグメントベクトルより共起行列を生成するステップと、
(c)各文書の各共起行列の同一行同一列の成分の値の積により、但し前記同一行同一列の成分の値が0の場合を除く、不一致許容形の共通共起行列を生成するステップと、
(d)各文書の共起行列の各成分について値がゼロかどうかをチェックし、ゼロでない文書数を計数した共起計数行列を作成するステップと、
(e)共起計数行列の各成分について、値が所定の閾値未満の場合、前記不一致許容形の共通共起行列の対応する成分をゼロとなるように修正し、修正された前記不一致許容形の共通共起行列の全成分、又は対角成分の和をもとに不一致許容形の文書集合共通度を求めるステップ。 - 以下の(a)から(g)のステップを有する、一つまたは複数の文書セグメントを持つ複数の文書から成る文書集合から話題の共通する文書を抽出する方法を情報処理装置に実現させるプログラム、
(a)前記文書セグメント毎に、前記文書セグメントに出現する用語に対応する成分の値を1、他の値は0とする文書セグメントベクトルを生成するステップと、
(b)前記文書集合の各文書に対して文書セグメントベクトルより共起行列を生成するステップと、
(c)各文書の各共起行列の同一行同一列の成分の値の積により、但し前記同一行同一列の成分の値が0の場合を除く、不一致許容形の共通共起行列を生成するステップと、
(d)各文書の共起行列の各成分について値がゼロかどうかをチェックし、ゼロでない文書数を計数した共起計数行列を作成するステップと、
(e)共起計数行列の各成分について、値が所定の閾値未満の場合、前記不一致許容形の共通共起行列の対応する成分をゼロとなるように修正し、修正された前記不一致許容形の共通共起行列の全成分、又は対角成分の和をもとに不一致許容形の文書集合共通度を求めるステップと、
(f)不一致許容形の文書集合共通度がある閾値以上の場合に、各文書について前記各文書の前記共起行列の全成分と前記修正された不一致許容形の共通共起行列の全成分との積和、もしくは各文書の共起行列の対角成分と前記修正された不一致許容形の共通共起行列の対角成分との積和をもとに不一致許容形文書・文書集合共通共通度を求めるステップと、
(g)前記不一致許容形文書・文書集合共通共通度が所定の閾値を越える文書を話題が共通する文書として抽出するステップ。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002326157A JP2004164036A (ja) | 2002-11-08 | 2002-11-08 | 文書の共通性評価方法 |
US10/694,773 US7392175B2 (en) | 2002-11-08 | 2003-10-29 | Evaluating commonality of documents using segment vector, co-occurrence matrix, and common co-occurrence matrix |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002326157A JP2004164036A (ja) | 2002-11-08 | 2002-11-08 | 文書の共通性評価方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004164036A true JP2004164036A (ja) | 2004-06-10 |
JP2004164036A5 JP2004164036A5 (ja) | 2006-01-26 |
Family
ID=32211962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002326157A Pending JP2004164036A (ja) | 2002-11-08 | 2002-11-08 | 文書の共通性評価方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7392175B2 (ja) |
JP (1) | JP2004164036A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7698740B2 (en) | 2004-09-10 | 2010-04-13 | Japan Science And Technology Agency | Sequential data examination method using Eigen co-occurrence matrix for masquerade detection |
JP2010231766A (ja) * | 2009-03-02 | 2010-10-14 | Fujitsu Ltd | 文書検査装置、コンピュータ読み取り可能な記録媒体および文書検査方法 |
JP2011192273A (ja) * | 2010-03-11 | 2011-09-29 | Ricoh Co Ltd | 画像集合における代表画像の検索システム、方法及びプログラム |
WO2015029809A1 (ja) * | 2013-08-29 | 2015-03-05 | 日本電気株式会社 | データ分析方法、プログラム、及び装置 |
CN115359914A (zh) * | 2022-08-26 | 2022-11-18 | 山东心法科技有限公司 | 基于量化描述向量的心理状态区分方法、设备及介质 |
Families Citing this family (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7409685B2 (en) | 2002-04-12 | 2008-08-05 | Hewlett-Packard Development Company, L.P. | Initialization and update of software and/or firmware in electronic devices |
WO2002041147A1 (en) * | 2000-11-17 | 2002-05-23 | Biftone Corporation | System and method for updating and distributing information |
US8479189B2 (en) | 2000-11-17 | 2013-07-02 | Hewlett-Packard Development Company, L.P. | Pattern detection preprocessor in an electronic device update generation system |
JP4828091B2 (ja) * | 2003-03-05 | 2011-11-30 | ヒューレット・パッカード・カンパニー | クラスタリング方法プログラム及び装置 |
US8555273B1 (en) | 2003-09-17 | 2013-10-08 | Palm. Inc. | Network for updating electronic devices |
US7657423B1 (en) * | 2003-10-31 | 2010-02-02 | Google Inc. | Automatic completion of fragments of text |
US7904895B1 (en) | 2004-04-21 | 2011-03-08 | Hewlett-Packard Develpment Company, L.P. | Firmware update in electronic devices employing update agent in a flash memory card |
US8526940B1 (en) | 2004-08-17 | 2013-09-03 | Palm, Inc. | Centralized rules repository for smart phone customer care |
US7630980B2 (en) * | 2005-01-21 | 2009-12-08 | Prashant Parikh | Automatic dynamic contextual data entry completion system |
US8312021B2 (en) * | 2005-09-16 | 2012-11-13 | Palo Alto Research Center Incorporated | Generalized latent semantic analysis |
US8249871B2 (en) | 2005-11-18 | 2012-08-21 | Microsoft Corporation | Word clustering for input data |
US8209676B2 (en) | 2006-06-08 | 2012-06-26 | Hewlett-Packard Development Company, L.P. | Device management in a network |
US8209175B2 (en) * | 2006-06-08 | 2012-06-26 | Microsoft Corporation | Uncertainty interval content sensing within communications |
US8752044B2 (en) | 2006-07-27 | 2014-06-10 | Qualcomm Incorporated | User experience and dependency management in a mobile device |
US20080086496A1 (en) * | 2006-10-05 | 2008-04-10 | Amit Kumar | Communal Tagging |
JP5011947B2 (ja) * | 2006-10-19 | 2012-08-29 | オムロン株式会社 | Fmeaシートの作成方法およびfmeaシート自動作成装置 |
US8060390B1 (en) * | 2006-11-24 | 2011-11-15 | Voices Heard Media, Inc. | Computer based method for generating representative questions from an audience |
US20080228700A1 (en) | 2007-03-16 | 2008-09-18 | Expanse Networks, Inc. | Attribute Combination Discovery |
US20090043752A1 (en) | 2007-08-08 | 2009-02-12 | Expanse Networks, Inc. | Predicting Side Effect Attributes |
WO2010061537A1 (ja) * | 2008-11-26 | 2010-06-03 | 日本電気株式会社 | 検索装置、検索方法、及びプログラムが格納された記録媒体 |
US20100161539A1 (en) * | 2008-12-18 | 2010-06-24 | Verizon Data Services India Private Ltd. | System and method for analyzing tickets |
US8255403B2 (en) | 2008-12-30 | 2012-08-28 | Expanse Networks, Inc. | Pangenetic web satisfaction prediction system |
US8108406B2 (en) | 2008-12-30 | 2012-01-31 | Expanse Networks, Inc. | Pangenetic web user behavior prediction system |
US20100169338A1 (en) * | 2008-12-30 | 2010-07-01 | Expanse Networks, Inc. | Pangenetic Web Search System |
US8386519B2 (en) | 2008-12-30 | 2013-02-26 | Expanse Networks, Inc. | Pangenetic web item recommendation system |
JP2011095905A (ja) * | 2009-10-28 | 2011-05-12 | Sony Corp | 情報処理装置および方法、並びにプログラム |
US8799327B2 (en) * | 2010-04-01 | 2014-08-05 | Salesforce.Com, Inc. | System, method and computer program product for deriving commonalities among data entries |
US8725771B2 (en) * | 2010-04-30 | 2014-05-13 | Orbis Technologies, Inc. | Systems and methods for semantic search, content correlation and visualization |
US20120254166A1 (en) * | 2011-03-30 | 2012-10-04 | Google Inc. | Signature Detection in E-Mails |
US9015080B2 (en) | 2012-03-16 | 2015-04-21 | Orbis Technologies, Inc. | Systems and methods for semantic inference and reasoning |
JP5869948B2 (ja) * | 2012-04-19 | 2016-02-24 | 株式会社日立製作所 | パッセージ分割方法、装置、及びプログラム |
US20130332221A1 (en) * | 2012-06-12 | 2013-12-12 | Siemens Aktiengesellschaft | Method And System For Determining Critical Information Interfaces |
US9189531B2 (en) | 2012-11-30 | 2015-11-17 | Orbis Technologies, Inc. | Ontology harmonization and mediation systems and methods |
US8930181B2 (en) | 2012-12-06 | 2015-01-06 | Prashant Parikh | Automatic dynamic contextual data entry completion |
CN107766318B (zh) * | 2016-08-17 | 2021-03-16 | 北京金山安全软件有限公司 | 一种关键词的抽取方法、装置及电子设备 |
KR20180077690A (ko) * | 2016-12-29 | 2018-07-09 | 주식회사 엔씨소프트 | 문서의 내러티브 학습 장치 및 방법, 문서의 내러티브 생성 장치 및 방법 |
US10169331B2 (en) * | 2017-01-29 | 2019-01-01 | International Business Machines Corporation | Text mining for automatically determining semantic relatedness |
US11003866B1 (en) | 2018-01-17 | 2021-05-11 | Narrative Science Inc. | Applied artificial intelligence technology for narrative generation using an invocable analysis service and data re-organization |
US11126798B1 (en) | 2018-02-19 | 2021-09-21 | Narrative Science Inc. | Applied artificial intelligence technology for conversational inferencing and interactive natural language generation |
US11416534B2 (en) * | 2018-12-03 | 2022-08-16 | Fujitsu Limited | Classification of electronic documents |
US11341330B1 (en) | 2019-01-28 | 2022-05-24 | Narrative Science Inc. | Applied artificial intelligence technology for adaptive natural language understanding with term discovery |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5675819A (en) * | 1994-06-16 | 1997-10-07 | Xerox Corporation | Document information retrieval using global word co-occurrence patterns |
US5787422A (en) * | 1996-01-11 | 1998-07-28 | Xerox Corporation | Method and apparatus for information accesss employing overlapping clusters |
US6356864B1 (en) * | 1997-07-25 | 2002-03-12 | University Technology Corporation | Methods for analysis and evaluation of the semantic content of a writing based on vector length |
US7130848B2 (en) | 2000-08-09 | 2006-10-31 | Gary Martin Oosta | Methods for document indexing and analysis |
US7610313B2 (en) | 2003-07-25 | 2009-10-27 | Attenex Corporation | System and method for performing efficient document scoring and clustering |
-
2002
- 2002-11-08 JP JP2002326157A patent/JP2004164036A/ja active Pending
-
2003
- 2003-10-29 US US10/694,773 patent/US7392175B2/en not_active Expired - Fee Related
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7698740B2 (en) | 2004-09-10 | 2010-04-13 | Japan Science And Technology Agency | Sequential data examination method using Eigen co-occurrence matrix for masquerade detection |
JP2010231766A (ja) * | 2009-03-02 | 2010-10-14 | Fujitsu Ltd | 文書検査装置、コンピュータ読み取り可能な記録媒体および文書検査方法 |
US9785635B2 (en) | 2009-03-02 | 2017-10-10 | Fujitsu Limited | Document checking apparatus, computer-readable recording medium, and document checking method |
JP2011192273A (ja) * | 2010-03-11 | 2011-09-29 | Ricoh Co Ltd | 画像集合における代表画像の検索システム、方法及びプログラム |
WO2015029809A1 (ja) * | 2013-08-29 | 2015-03-05 | 日本電気株式会社 | データ分析方法、プログラム、及び装置 |
JPWO2015029809A1 (ja) * | 2013-08-29 | 2017-03-02 | 日本電気株式会社 | データ分析方法、プログラム、及び装置 |
CN115359914A (zh) * | 2022-08-26 | 2022-11-18 | 山东心法科技有限公司 | 基于量化描述向量的心理状态区分方法、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
US7392175B2 (en) | 2008-06-24 |
US20040093557A1 (en) | 2004-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004164036A (ja) | 文書の共通性評価方法 | |
Natt och Dag et al. | A feasibility study of automated natural language requirements analysis in market-driven development | |
Litvak et al. | A new approach to improving multilingual summarization using a genetic algorithm | |
JP2004288168A (ja) | クラスタリング方法プログラム及び装置 | |
Smith et al. | Evaluating visual representations for topic understanding and their effects on manually generated topic labels | |
US7398196B1 (en) | Method and apparatus for summarizing multiple documents using a subsumption model | |
Abdi et al. | A question answering system in hadith using linguistic knowledge | |
Al-Omari et al. | Arabic light stemmer (ARS) | |
Zheng et al. | Dynamic knowledge-base alignment for coreference resolution | |
Alian et al. | Arabic semantic similarity approaches-review | |
Weerasinghe et al. | Feature Vector Difference based Authorship Verification for Open-World Settings. | |
Singh et al. | Writing Style Change Detection on Multi-Author Documents. | |
Basili et al. | Effective use of WordNet semantics via kernel-based learning | |
Lakhanpal et al. | Discover trending domains using fusion of supervised machine learning with natural language processing | |
Och Dag et al. | Evaluating automated support for requirements similarity analysis in market-driven development | |
Pal et al. | Word sense disambiguation in Bengali: An unsupervised approach | |
Saeed et al. | An abstractive summarization technique with variable length keywords as per document diversity | |
JPH06282587A (ja) | 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置 | |
Patel et al. | Influence of Gujarati STEmmeR in supervised learning of web page categorization | |
JP2003167894A (ja) | 関連語自動抽出方法、関連語自動抽出装置、複数重要語抽出プログラムおよび重要語上下階層関係抽出プログラム | |
Ratna et al. | Word level auto-correction for latent semantic analysis based essay grading system | |
Büchler et al. | Scaling historical text re-use | |
Kocher et al. | Author clustering using spatium | |
Sandul et al. | Keyword extraction from single Russian document | |
Petmanson | Authorship identification using correlations of frequent features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051108 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071102 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071113 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081028 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20090127 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20090130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090428 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090630 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091020 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091023 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20091023 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20091127 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20091130 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20100105 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20100212 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20111021 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20111026 |