JP2003050807A - Method for extracting important term/phrase/sentence - Google Patents

Method for extracting important term/phrase/sentence

Info

Publication number
JP2003050807A
JP2003050807A JP2002158163A JP2002158163A JP2003050807A JP 2003050807 A JP2003050807 A JP 2003050807A JP 2002158163 A JP2002158163 A JP 2002158163A JP 2002158163 A JP2002158163 A JP 2002158163A JP 2003050807 A JP2003050807 A JP 2003050807A
Authority
JP
Japan
Prior art keywords
document
vector
sentence
term
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002158163A
Other languages
Japanese (ja)
Other versions
JP4349480B2 (en
Inventor
Takahiko Kawatani
隆彦 川谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HP Inc
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Priority to JP2002158163A priority Critical patent/JP4349480B2/en
Publication of JP2003050807A publication Critical patent/JP2003050807A/en
Application granted granted Critical
Publication of JP4349480B2 publication Critical patent/JP4349480B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To solve the problems that words and phrases not so related to the concept of a document are considered as important and the words and phrases which are just frequently used are extracted as important words and phrases since it is not always clear how much the extracted important words and phrases reflect the central concept of the document in a conventional method in the case of automatically extracting the important words and phrases from the document. SOLUTION: In this method for extracting the important words and phrases, an input document is divided into the document segments of an appropriate unit and a sum-of-squares matrix is generated from the document segments. The importance of a term and the phrase under consideration is decided on the basis of the intrinsic vector and intrinsic value of the matrix. Thus, the important term/phase/sentence related to the central concept of the document are selected.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は文書から重要な語・句・
文を自動的に抽出する方法に関するものであり、特に文
書の表現方法の高度化と語や句の重要度に関する新しい
尺度の導入によってその性能の改善を図るものである。
BACKGROUND OF THE INVENTION The present invention relates to important words, phrases, ...
The present invention relates to a method of automatically extracting a sentence, and particularly, to improve its performance by improving the expression method of a document and introducing a new measure for the importance of words and phrases.

【0002】[0002]

【従来の技術】文書から重要な語や句を自動的に抽出す
る方法は文書検索や情報検索の分野で古くから研究開発
が行われてきた。これらはヒューリスティクスな方法と
統計的な方法とに大別できる。ヒューリスティクスな方
法としては、文書の見出し情報、文書における位置情
報、手がかり的な表現を用いる方法などが知られてい
る。文書の見出し情報を用いる方法では、“文書のタイ
トルや見出しは文書の内容を簡潔に表現しており、重要
な用語が含まれている”との考えのもとに、タイトルや
見出しに含まれる用語群から冠詞や前置詞などの明らか
に重要でない用語を除いた用語を重要語とするものであ
る。この方法ではタイトルや見出しの存在が前提となっ
ており、これらが存在しない文書には適用できない。文
書における位置情報を用いる方法は、新聞記事などでは
意図的に重要な文が前の方に書かれているということに
着目し、記事の中から前の方に存在する文から重要語を
抽出するものである。この方法は新聞記事のように文書
の重要な部分の存在する場所が事前に分かる場合にのみ
適用できる方法である。手がかり的な表現を用いる方法
は、“As a result”のように特定のフレーズで始まる
文は重要であるとの前提のもとに、そのようなフレーズ
を自然言語解析によって抽出し、重要語の抽出の範囲を
それらを含む文に限定するというものである。この方法
は前提となる手がかり的な表現がなければ適用できな
い。
2. Description of the Related Art A method for automatically extracting important words or phrases from a document has been researched and developed for a long time in the field of document retrieval and information retrieval. These can be roughly divided into a heuristic method and a statistical method. As a heuristic method, there are known a method of using heading information of a document, position information of the document, and a clue expression. In the method that uses the document heading information, it is included in the title and heading based on the idea that "the document title and heading express the contents of the document concisely and contain important terms". Important terms are terms that exclude apparently insignificant terms such as articles and prepositions from the term group. This method assumes the presence of titles and headings and cannot be applied to documents that do not have them. The method of using position information in a document is to extract important words from sentences existing in the front of the article, paying attention to the fact that important sentences are intentionally written in the front of newspaper articles. To do. This method can be applied only when the location of an important part of a document is known in advance, such as a newspaper article. The method using clues is to extract such phrases by natural language analysis, assuming that a sentence starting with a particular phrase such as “As a result” is important, The scope of extraction is limited to the sentences containing them. This method cannot be applied without the underlying clues.

【0003】統計的な方法で古くから知られているの
は、対象とする文書の中で頻繁に現れる用語を重要語と
する方法である。この方法では文書内の出現頻度(tf)
を重要度の尺度としている。しかし、この方法にはひと
つの文書の中で頻度が高く出現する用語が常に重要とは
限らないという問題があった。この問題を解消するため
の方法として、tf-idfモデルがある。tf-idfモデルで
は、「多数の文書に現れる用語は重要度が低く、現れる
文書の数が少ないほど重要度は高い」との考えのもと
に、対象とする文書が含まれるコーパスの中で各用語に
つきその用語を含む文書数(df)を求め、その逆数(id
f)をコーパス内の用語重要度とし、文書内重要度とし
てのtfとの積tf-idfを求めて用語重要度とする。このモ
デルはよく知られている方法であるが、コーパス内の用
語重要度と文書内重要度との積で定義するため、依然と
して文書内重要度を如何に精度良く求めるかという問題
は存在する。
A statistical method that has been known for a long time is a method in which a term that frequently appears in a target document is regarded as an important word. With this method, the frequency of occurrence in documents (tf)
Is used as a measure of importance. However, this method has a problem that terms frequently appearing in one document are not always important. As a method to solve this problem, there is a tf-idf model. In the tf-idf model, the term that appears in many documents is less important, and the less the number of documents that appear is, the more important it is. For each term, find the number of documents containing that term (df), and calculate the reciprocal (id
Let f) be the term importance in the corpus, and find the product tf-idf with tf as the in-document importance to obtain the term importance. This model is a well-known method, but since it is defined by the product of the term importance in the corpus and the in-document importance, there is still the problem of how to accurately calculate the in-document importance.

【0004】[0004]

【発明が解消しようとする課題】上記のようにひとつの
文書が与えられたとき、各用語の文書内重要度を如何に
求めるかが重要な課題となる。この文書内重要度の算出
は所与の文書に含まれる情報のみ用いるということが前
提である。上記のコーパス内の用語重要度は各用語がひ
とつの文書に出現する確率に関わる量であり、情報量と
関係する量である。一方、文書内重要度はひとつの文書
に閉じて求められるものであるから、文書の内容、即ち
文書の概念をどの程度代表しうるかの尺度となっている
ことが望ましい。従って、文書からの重要語句抽出にお
いては、その文書が中心的に表している概念に近い概念
を表す語句を優先して抽出すべきである。このためには
文書が表す中心概念の抽出、各語句と文書の中心概念の
関係の把握が必須である。しかしながら、従来の方法に
おいては抽出された重要語句が文書の中心的な概念をど
れだけ反映しているかは必ずしも明確ではなかった。こ
のため、文書の概念とは関係の薄い語句が重要と見なさ
れたり、単に頻度が高いだけの語句が重要語句として抽
出されたりしていた。
When one document is given as described above, how to obtain the in-document importance of each term becomes an important subject. The calculation of the degree of importance within a document is based on the premise that only the information included in a given document is used. The term importance in the corpus is a quantity related to the probability that each term appears in one document, and is a quantity related to the amount of information. On the other hand, since the degree of importance in a document is obtained by closing it in one document, it is desirable that it be a measure of how much the content of the document, that is, the concept of the document can be represented. Therefore, when extracting important words and phrases from a document, words and phrases representing a concept close to the concept that the document mainly represents should be preferentially extracted. For this purpose, it is essential to extract the central concept represented by the document and grasp the relationship between each word and the central concept of the document. However, in the conventional method, it is not always clear how the extracted important words reflect the central concept of the document. For this reason, words and phrases that have little relation to the concept of the document are regarded as important, and words and phrases with a high frequency are extracted as important words and phrases.

【0005】[0005]

【課題を解決するための手段】上記のような問題を解決
するため、この発明による重要語句抽出方法は、入力文
書に出現する用語を検出し、入力文書を適当な単位の文
書セグメントに区分けし、文書セグメントに出現する用
語の出現頻度を成分とする文書セグメントのベクトルを
生成し、文書セグメントベクトルの平方和行列の固有ベ
クトルおよび固有値を算出し、全固有ベクトルから重要
語句決定のための一定数の固有ベクトルを選択し、着目
する用語に対応する成分が値1をとり他は0となる用語ベ
クトル、もしくは着目する句に現れる用語に対応する成
分が値1をとり他は0となる句ベクトルを前記固有ベクト
ルに射影し、その射影値の2乗と対応する固有値との積
を求め、この値に基づいて着目する用語や句の重要度を
決定していく。
In order to solve the above problems, the method of extracting important words according to the present invention detects a term appearing in an input document and divides the input document into document segments of appropriate units. , Generate a vector of the document segment that has the frequency of appearance of the term that appears in the document segment, calculate the eigenvectors and eigenvalues of the sum of squares matrix of the document segment vector, and use a fixed number of eigenvectors for determining important terms from all the eigenvectors. Select a term vector whose component corresponding to the term of interest has a value of 1 and is 0 otherwise, or a phrase vector whose component corresponding to the term appearing in the phrase of interest has a value of 1 and is 0 Then, the product of the square of the projected value and the corresponding eigenvalue is calculated, and the importance of the term or phrase of interest is determined based on this value.

【0006】文書セグメントベクトルとは文書セグメン
ト中で各用語が現れる回数すなわち頻度をもとに決定し
た値を成分とするベクトルであり、その文書セグメント
の概念を表す。文書セグメントの最も自然な単位は、文
章である。次いで文書セグメントベクトルの集合に対し
て求められる平方和行列の固有ベクトル、固有値を求め
ることにより、文書セグメントベクトルの集合を互いに
直交する固有ベクトルおよび固有値により展開する。固
有ベクトルは用語の組合わせにより表現されるベクトル
なのでそれ自体が概念を持つ。固有ベクトルは文書固有
に決まるので固有ベクトルが表す概念を固有概念と呼ん
でもよい。また、固有値は固有ベクトルの表す概念の強
さ、もしくはエネルギーと見なすことができる。従って
大きな固有値に対応する固有ベクトル、即ち低次の固有
ベクトルは文書の中心的な概念を表すとみなすことがで
きる。
The document segment vector is a vector whose component is a value determined based on the number of times each term appears in the document segment, that is, the frequency, and represents the concept of the document segment. The most natural unit of a document segment is a sentence. Then, the eigenvectors and eigenvalues of the sum-of-squares matrix obtained for the set of document segment vectors are obtained to develop the set of document segment vectors by eigenvectors and eigenvalues orthogonal to each other. The eigenvector has a concept in itself because it is a vector expressed by a combination of terms. Since the eigenvector is unique to the document, the concept represented by the eigenvector may be called an eigenconcept. Further, the eigenvalue can be regarded as the strength of the concept represented by the eigenvector or the energy. Therefore, eigenvectors corresponding to large eigenvalues, that is, low-order eigenvectors can be regarded as representing a central concept of a document.

【0007】用語ベクトル、もしくは句ベクトルをある
固有ベクトルに射影した値は、用語ベクトル、もしくは
句ベクトルがその固有ベクトルに対応する固有概念方向
に持つ成分であり、射影値を2乗した値は上記成分のエ
ネルギーを表す。ここでは上記射影値を2乗した値と対
応する固有値との積を、着目する用語ベクトル、もしく
は句ベクトルの着目する固有概念に対する重要度とし、
これをもとに重要な用語や句を選択していく。そのため
文書が有する概念と関連を持つ用語や句が選択されるよ
うになる。
A value obtained by projecting a term vector or phrase vector onto a certain eigenvector is a component that the term vector or phrase vector has in the proper concept direction corresponding to the eigenvector, and the value obtained by squaring the projection value is the above component. Represents energy. Here, the product of the value obtained by squaring the projection value and the corresponding eigenvalue, the term vector of interest, or the importance to the unique concept of interest of the phrase vector,
Select important terms and phrases based on this. Therefore, terms and phrases related to the concept of the document will be selected.

【0008】[0008]

【実施例】 図1は重要用語を抽出する本発明の第一の
実施例を示す。この発明の方法は、汎用コンピュータ上
でこの発明を組み込んだプログラムを走らせることによ
って実施することができる。図1は、そのようなプログ
ラムを走らせている状態でのコンピュータのフローチャ
ートである。ブロック11は用語検出部、ブロック12は形
態素解析部、ブロック13は文書セグメント区分け部であ
る。ブロック14は文書セグメントベクトル作成部、ブロ
ック15は平方和行列算出部、ブロック16は固有値・固有
ベクトル算出部、ブロック17は主要固有ベクトル選択
部、ブロック18は重要度算出部である。また、ブロック
19は重要用語出力部を表す。以下、英文文書を例に実施
例を説明する。
Embodiment FIG. 1 shows a first embodiment of the present invention for extracting important terms. The method of the present invention can be implemented by running a program incorporating the present invention on a general-purpose computer. FIG. 1 is a flow chart of a computer in a state where such a program is running. A block 11 is a term detection unit, a block 12 is a morphological analysis unit, and a block 13 is a document segment division unit. A block 14 is a document segment vector creation unit, a block 15 is a sum of squares matrix calculation unit, a block 16 is an eigenvalue / eigenvector calculation unit, a block 17 is a main eigenvector selection unit, and a block 18 is an importance degree calculation unit. Also block
19 represents an important term output part. An embodiment will be described below by taking an English document as an example.

【0009】入力された文書について、先ず用語検出部
11において、文書から単語及び数詞などの記号系列を検
出する。ここでは、単語や記号系列を総称して用語と呼
ぶ。英文の場合、単語同士を分けて書く正書法が確立し
ているので単語の検出は容易である。次に、形態素解析
部12は、用語の品詞付けなどの形態素解析を行う。次に
文書セグメントへの区分けを行う。文書セグメントへの
最も基本的な単位は文である。英文の場合、文はピリオ
ドで終わり、その後ろにスペースが続くので文の切出し
は容易に行うことができる。その他の文書セグメントへ
の区分け法としては、ひとつの文が複文からなる場合主
節と従属節に分けておく方法、用語の数がほぼ同じにな
るように複数の文をまとめて文書セグメントとする方
法、文書の先頭から含まれる用語の数が同じになるよう
に文とは関係なく区分けする方法などがある。
Regarding the input document, first, the term detection unit
At 11, the symbol series such as words and numbers is detected from the document. Here, words and symbol sequences are generically called terms. In the case of English sentences, it is easy to detect words because the orthography for writing words separately is established. Next, the morpheme analysis unit 12 performs a morpheme analysis such as adding a word part of speech. Next, the document segmentation is performed. The most basic unit for a document segment is a sentence. In the case of English sentences, the sentence ends with a period and a space after it, making it easy to cut out a sentence. As a method of dividing into other document segments, when one sentence consists of multiple sentences, it is divided into main clauses and subordinate clauses, and multiple sentences are grouped into document segments so that the number of terms is almost the same. There are methods, such as a method of classifying regardless of the sentence so that the number of terms included from the beginning of the document is the same.

【0010】文書セグメントベクトル作成部14は、先ず
文書全体に出現する用語から作成すべきベクトルの次元
数および各次元と各用語との対応を決定する。この際に
出現する全ての用語の種類にベクトルの成分を対応させ
なければならないということはなく、品詞付け処理の結
果を用い、例えば名詞と動詞と判定された用語のみを用
いてベクトルを作成するようにしてもよい。次いで、各
文書セグメントに出現する用語の種類とその頻度を求
め、その値に重みを乗じて対応する成分の値を決定し、
文書セグメントベクトルを作成する。重みの与え方とし
ては従来の技術を用いることができる。
The document segment vector creation unit 14 first determines the number of dimensions of a vector to be created from the terms appearing in the entire document and the correspondence between each dimension and each term. It is not necessary to make the components of the vector correspond to all types of terms that appear at this time, and the vector is created using only the terms determined to be nouns and verbs, for example, using the result of the part-of-speech processing. You may do it. Then, determine the type of term that appears in each document segment and its frequency, and multiply the value by the weight to determine the value of the corresponding component,
Create a document segment vector. Conventional techniques can be used to give weights.

【0011】平方和行列算出部15は、各文書セグメント
ベクトルの平方和行列の算出を行う。N個の用語が現れ
る入力文書がM個の文書セグメントに区分けされたとし
て、m番目の文書セグメントベクトルdm (m=1,..,M)を(d
m1,..,dmN) Tにより表すと、平方和行列S=(Sij)は、次
式により算出することができる。ここで、Tはベクトル
の転置を表わす。
The sum-of-squares matrix calculator 15 calculates the sum-of-squares matrix of each document segment vector. Assuming that the input document in which N terms appear is divided into M document segments, the m-th document segment vector d m (m = 1, .., M) is (d
When expressed by m1 , .., d mN ) T , the sum of squares matrix S = (S ij ) can be calculated by the following equation. Here, T represents the transposition of the vector.

【0012】[0012]

【数1】 固有値・固有ベクトル算出部16は、行列Sの固有値・固有
ベクトルの算出を行う。求められたk次の固有ベクト
ル、固有値をΦk、λkとする。Φ1は各文書セグメント
ベクトルを射影した時の射影値の自乗和を最大にする軸
であるので、各文書セグメントに最も共通する概念を表
すことになる。また、λ1はその射影値の自乗和そのも
のであり、Φ1が表す概念の強さ、もしくはエネルギー
を表すとみなすことができる。Φ2はΦ1と直交すると言
う条件のもとで射影値の自乗和を最大にする軸である。
Φ3以降も同様である。このようにして求められた固有
ベクトルが文書セグメントベクトルの集合を近似する部
分空間の基底となる。固有ベクトルをL次まで用いれば
部分空間の次元数はLとなり、入力文書の概念が互いに
直交する概念を持つL個の固有ベクトルにより展開され
たことになる。
[Equation 1] The eigenvalue / eigenvector calculation unit 16 calculates the eigenvalue / eigenvector of the matrix S. The k-th order eigenvectors and eigenvalues obtained are Φ k and λ k . Since Φ 1 is the axis that maximizes the sum of squares of the projection values when projecting each document segment vector, it represents the concept most common to each document segment. Further, λ 1 is the sum of squares of the projection values itself, and can be regarded as representing the strength of the concept represented by Φ 1 or the energy. Φ 2 is the axis that maximizes the sum of squares of the projection values under the condition that it is orthogonal to Φ 1 .
The same applies to Φ 3 and after. The eigenvectors thus obtained become the basis of the subspace approximating the set of document segment vectors. If the eigenvectors are used up to the Lth order, the dimensionality of the subspace is L, and the concept of the input document is expanded by L eigenvectors having the concepts that are orthogonal to each other.

【0013】主要固有ベクトル選択部17は、Lの値を具
体的に決定する。行列SのランクをRとするとSからはR個
の固有ベクトルが求められるので、その文書は本来はR
個の固有概念を有することになる。部分空間は、このう
ちの(R−L)個の固有概念を捨ててL個の固有概念の組
み合わせで文書の中心概念を表す。部分空間の基底ベク
トルはL次までの固有ベクトルである。中心概念が本来
の概念に対してどの程度の割合を占めていたかは、次式
で表される。この式はLの値を実際に決めるときの目安
にすることができる。
The main eigenvector selection unit 17 concretely determines the value of L. If the rank of the matrix S is R, then S eigenvectors are obtained from S, so the document is originally R
Will have unique concepts. The subspace expresses the central concept of the document by abandoning (R−L) unique concepts among these and combining L unique concepts. The subspace basis vectors are eigenvectors up to the Lth order. The ratio of the central concept to the original concept is expressed by the following equation. This formula can be used as a guide when actually determining the value of L.

【0014】[0014]

【数2】 重要度算出部18では選択された固有ベクトルに対応する
固有概念に対する重要度を各用語について求める。n番
目の用語wnに着目することとし、着目用語のみが現れる
文書セグメントベクトル、即n番目の成分だけが値1、他
は0となるベクトル(用語ベクトル)をvnとする。先
ず、全ての文書セグメントベクトルのvnへの射影エネル
ギーEを求めてみる。Eは次式で与えられる。
[Equation 2] The importance calculation unit 18 obtains the importance of each term for the eigenconcept corresponding to the selected eigenvector. Let us focus on the n-th term w n , and let v n be the document segment vector in which only the term of interest appears, the vector (term vector) in which only the n-th component has the value 1 and the others have 0. First, try to find the projection energy E of all document segment vectors to v n . E is given by the following equation.

【0015】[0015]

【数3】 各文書セグメントで同じ用語が2回以上現れなければSnn
はn番目の用語wnの文書中の出現頻度となり、文書内の
出現頻度(tf)をwnの重要度とみなす従来の方法はEをw
nの重要度とみなすのと同等となる。本発明では、数3を
次のように変形する。
[Equation 3] S nn if the same term does not appear more than once in each document segment
Is the frequency of occurrence of the n-th term w n in the document, and the conventional method that regards the frequency of occurrence (tf) in the document as the importance of w n is E
It is equivalent to the importance of n . In the present invention, Equation 3 is transformed as follows.

【0016】[0016]

【数4】 数4の導出では の関係を用いている。数4はEを各次数の固有概念からの
寄与の総和として与えるものである。従って、imp(wn,
k)をwnのk番目の固有概念に対する重要度とすると、im
p(wn, k)は次式で定義することができる。
[Equation 4] In the derivation of number 4, Is used. Equation 4 gives E as the sum of contributions from eigenconcepts of each degree. Therefore, imp (w n ,
Let k) be the importance of w n for the kth eigenconcept, then im
p (w n , k) can be defined by the following equation.

【0017】[0017]

【数5】 ここで、ΦknはΦkのn番目の成分である。数5の定義で
は、imp(wn, k)はwnの出現頻度の値に直接影響を受け
る。そのため、数5においてSnnで正規化した値を重要度
とすることもできる。この場合には重要度は以下のよう
になる。
[Equation 5] Here, Φ kn is the n-th component of Φ k . In the definition of Expression 5, imp (w n , k) is directly affected by the value of the frequency of occurrence of w n . Therefore, the value normalized by S nn in Formula 5 can be used as the importance. In this case, the importance is as follows.

【0018】[0018]

【数6】 重要用語出力部19は各imp(wn, k)の値をもとに入力文書
の重要用語を決定し出力する。これには次のような2つ
の方法が考えられる。 (1)最初の方法では、数式5あるいは数式6に従い一
定次数Lまでの各固有概念に対し重要語を重要度の順に
一定個抽出して出力する。各kに対し何個の重要語を抽
出するかが問題となるが、例えばλkの値に応じて各kの
抽出重要語数を決めるという方法がある。 (2)2番目の方法では、数式7あるいは数式8に従い
先ず各imp(wn, k)についてk=1からRまでの和を取り
全体の文書に対する重要度を定義し、次いで全体の文書
に対する重要度の大きい順に一定個の用語を抽出し出力
する。前述のように低次の固有概念ほど文書の中心概念
に近いと考えられるので、低次のimp(wn,k)ほど強調す
べきと考えられる。用語wnの文書に対する重要度をimp
(wn)とするとき、ωkをk次の固有概念に対する重みとし
て、
[Equation 6] The important term output unit 19 determines and outputs the important term of the input document based on the value of each imp (w n , k). There are two possible ways to do this. (1) In the first method, a certain number of important words in order of importance are extracted and output for each unique concept up to a constant degree L according to Equation 5 or Equation 6. The problem is how many important words are extracted for each k. For example, there is a method of determining the number of important words extracted for each k according to the value of λ k . (2) In the second method, the sum of k = 1 to R is first taken for each imp (w n , k) according to Equation 7 or Equation 8 to define the importance for the entire document, and then for the entire document. A certain number of terms are extracted and output in descending order of importance. As described above, the lower-order eigenconcepts are considered to be closer to the central concept of the document, so it is considered that the lower-order imp (w n , k) should be emphasized. Imp to the importance of the term w n to the document
(w n ), ω k is the weight for the kth eigenconcept, and

【0019】[0019]

【数7】 もしくは[Equation 7] Or

【0020】[0020]

【数8】 により定義することができる。ωkは低次ほど大きな値
を設定すべきなので、与え方としては、例えば、
[Equation 8] Can be defined by Since ω k should be set to a larger value for lower orders, as a way of giving, for example,

【0021】[0021]

【数9】 を用いることができる。ここでωkはkが大きいほど小
さい値をとるので、数8においてk=1からRまでの和
ではなく、k=1からLまでの和としてもよい。
[Equation 9] Can be used. Here, since ω k takes a smaller value as k increases, the sum from k = 1 to L in Equation 8 may be used instead of the sum from k = 1 to R.

【0022】図2は重要句を抽出する本発明の第二の実
施例を示す。この発明の方法は、汎用コンピュータ上で
この発明を組み込んだプログラムを走らせることによっ
て実施することができる。図2は、そのようなプログラ
ムを走らせている状態でのコンピュータのフローチャー
トである。ブロック11は用語検出部、ブロック22は形態
素解析・統語解析部、ブロック13は文書セグメント区分
け部である。ブロック14は文書セグメントベクトル作成
部、ブロック28は重要度算出部である。また、ブロック
29は重要句出力部を表す。これらのうち、ブロック11、
13、14までは図1に示したものと同じである。ブロック2
2は図1のブロック12で行う形態素解析以外に統語解析を
行い、重要度の評価対象としての句の検出を行う。句と
はいくつかの用語が組み合わされてひとつの品詞の働き
をするものである。ここで検出された句の中から重要な
句が選択される。
FIG. 2 shows a second embodiment of the present invention for extracting important phrases. The method of the present invention can be implemented by running a program incorporating the present invention on a general-purpose computer. FIG. 2 is a flowchart of the computer in a state where such a program is running. A block 11 is a term detection unit, a block 22 is a morphological analysis / syntactic analysis unit, and a block 13 is a document segment classification unit. Block 14 is a document segment vector creation unit, and block 28 is an importance calculation unit. Also block
29 indicates an important phrase output part. Of these, block 11,
13 and 14 are the same as those shown in FIG. Block 2
2 performs syntactic analysis in addition to the morphological analysis performed in block 12 of FIG. 1 to detect a phrase as an object of importance evaluation. A phrase is a combination of several terms that serves as a part of speech. An important phrase is selected from the phrases detected here.

【0023】重要度算出部28では各句に対してその重要
度を求める。複数の用語から成るひとつの句の句ベクト
ルをp=(p1,.., pN)Tとする。pは、句を構成する用語に
対応する成分には句の中の出現数が与えられ、他の部分
は0となるベクトルである。ここでは句の重要度imp(p)
を全ての文書セグメントベクトルとpとの内積の2乗和に
より定義する。imp(p)は次のように記述できる。
The importance calculator 28 calculates the importance of each phrase. Let p = (p 1, .., p N ) T be the phrase vector of one phrase consisting of multiple terms. p is a vector in which the number of occurrences in the phrase is given to the components corresponding to the terms that make up the phrase, and 0 in the other parts. Here, the importance of the phrase imp (p)
Is defined as the sum of squares of the inner products of all document segment vectors and p. imp (p) can be described as follows.

【0024】[0024]

【数12】 これは、句ベクトル方向の文書エネルギー×句エネルギ
ーが重要度を表すとみなしたものである。ところで数12
の定義では、句の長さが重要度に影響する可能性があ
る。そこで句ベクトルのノルムの2乗で正規化した
[Equation 12] This assumes that the document energy in the phrase vector direction × phrase energy represents the degree of importance. By the way, the number 12
In the definition of, phrase length can affect importance. Therefore, we normalized the norm squared of the phrase vector.

【0025】[0025]

【数13】 を重要度としてもよい。また数12、数13に共通して現れ
る全ての文書セグメントベクトルとpとの内積の2乗和
は、図1の平方和行列算出部15で求められる平方和行列
S=(Sij)を用いて次のように算出することができる。
[Equation 13] May be used as the degree of importance. Further, the sum of squares of the inner products of all the document segment vectors that appear commonly in Expressions 12 and 13 and p is the sum of squares matrix calculated by the sum of squares matrix calculating unit 15 in FIG.
It can be calculated as follows using S = (S ij ).

【0026】[0026]

【数14】 従って、図2において図1の平方和行列算出部15と同様
の処理を行うようにし、数14を用いて数12または数13で
定義される重要度を求めるようにしてもよい。重要句出
力部29は各句に対して求められた重要度の大きい順に一
定個の句を選択して出力する。
[Numerical equation 14] Therefore, in FIG. 2, the same process as that of the sum of squares matrix calculating unit 15 in FIG. 1 may be performed, and the importance defined by the formula 12 or the formula 13 may be obtained by using the formula 14. The important phrase output unit 29 selects and outputs a certain number of phrases in descending order of importance calculated for each phrase.

【0027】第二の実施例においては以下のようにする
ことにより、重要な文を抽出することができる。即ち、
ブロック13において、ブロック14に用いる文書セグメン
ト以外に全ての文を抽出しておき、ブロック28では句ベ
クトルの代わりに、文の中での用語の出現数を対応する
成分の値とする文ベクトルを用いればよい。
In the second embodiment, important sentences can be extracted by the following procedure. That is,
In block 13, all sentences other than the document segment used in block 14 are extracted, and in block 28, instead of the phrase vector, a sentence vector whose value of the corresponding component is the number of appearances of the term in the sentence is used. You can use it.

【0028】図3は重要句を抽出する本発明の第三の実
施例を示す。この発明の方法は、汎用コンピュータ上で
この発明を組み込んだプログラムを走らせることによっ
て実施することができる。図3は、そのようなプログラ
ムを走らせている状態でのコンピュータのフローチャー
トである。ブロック11は用語検出部、ブロック22は形態
素解析・統語解析部、ブロック13は文書セグメント区分
け部である。ブロック14は文書セグメントベクトル作成
部、ブロック15は平方和行列算出部、ブロック16は固有
値・固有ベクトル算出部、ブロック17は主要固有ベクト
ル選択部、ブロック38は重要度算出部である。また、ブ
ロック39は重要句出力部を表す。これらのうち、ブロッ
ク11、及びブロック13から17までは図1に示したものと
同じである。また、ブロック22は図2に示したものと同
じである。
FIG. 3 shows a third embodiment of the present invention for extracting important phrases. The method of the present invention can be implemented by running a program incorporating the present invention on a general-purpose computer. FIG. 3 is a flow chart of a computer in a state where such a program is running. A block 11 is a term detection unit, a block 22 is a morphological analysis / syntactic analysis unit, and a block 13 is a document segment classification unit. A block 14 is a document segment vector creation unit, a block 15 is a sum of squares matrix calculation unit, a block 16 is an eigenvalue / eigenvector calculation unit, a block 17 is a main eigenvector selection unit, and a block 38 is an importance degree calculation unit. Block 39 represents an important phrase output section. Of these, block 11 and blocks 13 to 17 are the same as those shown in FIG. The block 22 is the same as that shown in FIG.

【0029】重要度算出部38では選択された固有ベクト
ルに対応する固有概念に対する重要度を各句について求
める。図2と同様に複数の用語から成るひとつの句の句
ベクトルをp=(p1,.., pN)Tとする。数12で定義される重
要度imp(p)は
The importance calculating section 38 obtains the importance of each unique phrase for the unique concept corresponding to the selected eigenvector. As in Fig. 2, let p = (p 1, .., p N ) T be the phrase vector of one phrase consisting of multiple terms. The importance imp (p) defined by equation 12 is

【0030】[0030]

【数15】 のように書け、imp(p)は各次の固有概念に対する句の重
要度の和をとったものとみなすことが出来る。そこでこ
こでは、imp(p,k)を次のように定義してその算出を行
う。
[Equation 15] Can be written as, and imp (p) can be regarded as the sum of the importance of the phrases for each unique concept of each degree. Therefore, here, imp (p, k) is defined as follows and its calculation is performed.

【0031】[0031]

【数16】 また、数16の定義では重要度は数15で定義されるimp(p)
の値が大きいほど、またpのノルムの2乗値が大きいほ
ど、大きくなる傾向がある。そこで数14で与えられるim
p(p)の値で正規化し、imp(p,k)をimp(p)の値によらない
相対的な値として定義するようにしてもよい。この場
合、imp(p,k)は次のように定義できる。
[Equation 16] Also, in the definition of Equation 16, the importance is defined by Equation 15 imp (p)
The larger the value of, and the larger the squared norm of p, the larger the tendency. Then im given by the number 14
The value of p (p) may be normalized, and imp (p, k) may be defined as a relative value that does not depend on the value of imp (p). In this case, imp (p, k) can be defined as follows.

【0032】[0032]

【数17】 もしくは、各imp(p,k)の値とpのノルムの2乗値とを独立
にするため、
[Numerical formula 17] Or, to make each imp (p, k) value and the squared norm of p independent,

【数18】 によりimp(p,k)を算出してもよい。重要句出力部39は各
imp(p,k)の値をもとに入力文書の重要句を決定し出力す
る。これには図1におけるブロック19と同様に次のよう
な2つの方法が考えられる。 (1)最初の方法では、数式16あるいは数式17に従
い一定次数Lまでの各固有概念に対し重要句を重要度の
順に一定個抽出して出力する。各kに対し何個の重要句
を抽出するかが問題となるが、例えばλkの値に応じて
各kの抽出重要句数を決めるという方法がある。 (2)2番目の方法では先ず数式19に従い各imp(p,k)
についてk=1からRまでの和を取り全体の文書に対す
る重要度imp(p)を定義し直し、次いで全体の文書に対す
る重要度の大きい順に一定個の句を抽出し出力する。前
述のように低次の固有概念ほど文書の中心概念に近いと
考えられるので、低次のimp(p,k)ほど強調すべきと考え
られる。ωkをk次の固有概念に対する重みとして、
[Equation 18] May be used to calculate imp (p, k). Each important phrase output section 39
The important phrase of the input document is determined and output based on the value of imp (p, k). There are two possible methods for this, as in block 19 of FIG. (1) In the first method, a certain number of important phrases are extracted and output in order of importance for each eigenconcept up to a constant degree L according to Formula 16 or Formula 17. The problem is how many important phrases are extracted for each k. For example, there is a method of determining the number of extracted important phrases for each k according to the value of λ k . (2) In the second method, first imp (p, k)
For k = 1 to R, the importance imp (p) for the entire document is redefined, and then a certain number of phrases are extracted and output in descending order of importance for the entire document. As mentioned above, the lower-order eigenconcepts are considered to be closer to the central concept of the document, so it is thought that the lower-order imp (p, k) should be emphasized. Let ω k be the weight for the unique concept of order k ,

【0033】[0033]

【数19】 により定義することができる。ωkの与え方としては、
数9に示すような方法を用いることができる。ここでωk
はkが大きいほど小さい値をとるので、数19において
k=1からRまでの和ではなく、k=1からLまでの和
としてもよい。
[Formula 19] Can be defined by To give ω k ,
It is possible to use the method as shown in Formula 9. Where ω k
Since k takes a smaller value as k increases, the sum from k = 1 to L in Equation 19 may be used instead of the sum from k = 1 to R.

【0034】第三の実施例においては以下のようにする
ことにより、重要な文を抽出することができる。即ち、
ブロック13において、ブロック14に用いる文書セグメン
ト以外に全ての文を抽出しておき、ブロック38では句ベ
クトルの代わりに、文の中での用語の出現数を対応する
成分の値とする文ベクトルを用いればよい。図4は、本
願発明の重要用語、重要句、重要文抽出装置100の基
本構成図を示す。入力部110からユーザが抽出したい
用語、句、文を含んだ文書を入力する。ユーザ操作部1
30から、抽出したい用語、句、文等の単位を指定す
る。演算部120で、本願発明に従い、重要用語、重要
句、重要文を抽出する。出力部140から、抽出された
重要用語、重要句、重要文を出力する。
In the third embodiment, important sentences can be extracted by the following procedure. That is,
In block 13, all sentences other than the document segment used in block 14 are extracted, and in block 38, instead of the phrase vector, a sentence vector whose value is the number of occurrences of the term in the sentence is used as the corresponding component value. You can use it. FIG. 4 is a basic configuration diagram of the important term, important phrase, and important sentence extracting device 100 of the present invention. From the input unit 110, the user inputs a document including terms, phrases, and sentences that the user wants to extract. User operation unit 1
From 30, the unit of terms, phrases, sentences, etc. to be extracted is specified. The arithmetic unit 120 extracts important terms, important phrases, and important sentences according to the present invention. The output unit 140 outputs the extracted important terms, important phrases, and important sentences.

【0035】[0035]

【発明の効果】58個の文からなる英文文書から2回以上
出現する44個の名詞を用語として用い、文単位に文書セ
グメントベクトルを作成し、重要語の抽出を行った結果
では得られた結果は人間の感覚とよく一致しており、人
間が重要と思う語が重要な語として抽出されていた。こ
のように本発明によれば文書の中心概念に沿った語が重
要語として抽出されるので、重要語抽出の能力が著しく
高められる。
[Effects of the Invention] The results obtained by extracting important words by creating a document segment vector for each sentence using 44 nouns that appear twice or more from an English document consisting of 58 sentences as terms. The results were in good agreement with human senses, and words that humans think were important were extracted as important words. As described above, according to the present invention, the words along the central concept of the document are extracted as the important words, so that the ability of extracting the important words is significantly enhanced.

【図面の簡単な説明】[Brief description of drawings]

【図1】 本発明の第1の実施例を示す図である。FIG. 1 is a diagram showing a first embodiment of the present invention.

【図2】 本発明の第2の実施例を示す図である。FIG. 2 is a diagram showing a second embodiment of the present invention.

【図3】 本発明の第3の実施例を示す図である。FIG. 3 is a diagram showing a third embodiment of the present invention.

【図4】 本発明の装置の基本構成図である。FIG. 4 is a basic configuration diagram of the device of the present invention.

【符号の説明】[Explanation of symbols]

100:重要用語・句・文抽出装置 110:入力部 120:演算部 130:ユーザ操作部 140:出力部 100: Important term / phrase / sentence extraction device 110: Input section 120: arithmetic unit 130: User operation unit 140: output unit

フロントページの続き Fターム(参考) 5B009 QA01 QA12 5B075 ND03 NK02 NK32 NR05 NR20 PP25 PQ75 PR04 5B091 AA15 CA01 EA24 Continued front page    F-term (reference) 5B009 QA01 QA12                 5B075 ND03 NK02 NK32 NR05 NR20                       PP25 PQ75 PR04                 5B091 AA15 CA01 EA24

Claims (24)

【特許請求の範囲】[Claims] 【請求項1】以下の(a)から(f)のステップを有す
る、一つまたは複数の文書セグメントを含む入力文書か
ら重要な用語を抽出する方法、(a)前記文書セグメン
ト毎に、前記文書セグメントに出現する用語の出現頻度
に関連した値を成分とする文書セグメントベクトルを生
成するステップと、(b)前記文書セグメントベクトル
より平方和行列を生成し、前記平方和行列の固有ベクト
ルおよび固有値を算出するステップと、(c)前記固有
ベクトルと固有値から、所定数の固有ベクトルと固有値
を選択するステップと、(d)前記入力文書内の用語に
対して、前記用語に対応する成分のみが1であり他は0
である用語ベクトルを生成するステップと、(e)前記
用語の重要度を、前記所定数の固有ベクトル、前記所定
数の固有値、及び前記用語ベクトルとを用いて求めるス
テップと、(f)前記重要度を用いて前記入力文書の重
要用語を選択し出力するステップ。
1. A method for extracting important terms from an input document including one or a plurality of document segments, comprising the following steps (a) to (f): (a) the document for each document segment Generating a document segment vector having a value related to the frequency of appearance of a term appearing in the segment, and (b) generating a square sum matrix from the document segment vector, and calculating an eigenvector and an eigenvalue of the square sum matrix. And (c) selecting a predetermined number of eigenvectors and eigenvalues from the eigenvectors and eigenvalues, and (d) for the term in the input document, only the component corresponding to the term is 1 and the other Is 0
And (e) determining the importance of the term by using the predetermined number of eigenvectors, the predetermined number of eigenvalues, and the term vector, and (f) the importance. Selecting and outputting key terms of the input document using.
【請求項2】前記用語の数がN個、前記文書セグメント
の数がM個であり、m番目の文書セグメントベクトルを
dm =(dm1,..,dmN) T(m=1,..,M)、但しTはベクトル
の転置を表わし、dmnは前記文書セグメントに出現する
n番目の用語の出現頻度に関連した値を表わす、とした
場合、前記平方和行列が で計算されることを特徴とする請求項1に記載の方法。
2. The number of the terms is N, the number of the document segments is M, and the m-th document segment vector is
d m = (d m1 , .., d mN ) T (m = 1, .., M), where T represents the transposition of the vector, and d mn is the frequency of occurrence of the n-th term in the document segment. , Where the sum of squares matrix is The method of claim 1, wherein the method is calculated as:
【請求項3】各次数の固有ベクトルに対する前記用語の
重要度を、前記各次数の固有ベクトルと前記用語ベクト
ルの内積の二乗値と、前記各次数の固有値との積によっ
て求めることを特徴とする請求項1に記載の方法。
3. The degree of importance of the term with respect to the eigenvector of each degree is determined by the product of the squared value of the inner product of the eigenvector of each degree and the term vector and the eigenvalue of each degree. The method according to 1.
【請求項4】前記用語の入力文書全体に対する重要度
を、前記各次数の固有値から計算された重み係数を用
い、前記各次数の固有ベクトルと前記用語ベクトルの内
積の二乗値と、前記各次数の固有値との積の前記所定数
の次数に渡る加重和によって求めることを特徴とする請
求項1に記載の方法。
4. The importance of the term with respect to the entire input document is calculated by using a weighting factor calculated from the eigenvalue of each degree, and the squared value of the dot product of the eigenvector of each degree and the term vector and the degree of each of the degrees. The method according to claim 1, wherein the weighting sum is obtained by multiplying a product of an eigenvalue and an order of the predetermined number.
【請求項5】前記用語の重要度を、前記平方和行列にお
ける各用語に対応する対角項の値もしくはそれに関連す
る値で正規化を行う請求項3、4に記載の方法。
5. The method according to claim 3, wherein the importance of the term is normalized by a value of a diagonal term corresponding to each term in the sum of squares matrix or a value related thereto.
【請求項6】以下の(a)から(d)のステップを有す
る、一つまたは複数の文書セグメントを含む入力文書か
ら重要な句を抽出する方法、(a)前記文書セグメント
に出現する用語の出現頻度に関連した値を成分とする文
書セグメントベクトルを生成するステップと、(b)前
記入力文書内の句に対して、前記句に含まれる用語に対
応する成分には前記句の中の前記用語の出現数が与えら
れ、他は0となる句ベクトルを生成するステップと、
(c)前記句ベクトルと、全ての文書セグメントベクト
ルとの内積の二乗の和を用いて、前記句の重要度を求め
るステップ、(d)前記重要度を用いて前記入力文書の
重要句を選択し出力するステップ。
6. A method for extracting an important phrase from an input document containing one or more document segments, comprising the following steps (a) to (d): (a) a term appearing in the document segment. Generating a document segment vector having a value related to the frequency of appearance as a component, and (b) for a phrase in the input document, a component corresponding to a term included in the phrase is Generating a phrase vector in which the number of occurrences of a term is given and the others are 0;
(C) determining the degree of importance of the phrase by using the sum of squares of inner products of the phrase vector and all document segment vectors, (d) selecting the important phrase of the input document using the degree of importance And output.
【請求項7】前記句の重要度を、前記句ベクトルのノル
ムの2乗値で正規化することを特徴とする請求項6記載
の方法。
7. The method according to claim 6, wherein the importance of the phrase is normalized by the square of the norm of the phrase vector.
【請求項8】以下の(a)から(f)のステップを有す
る、一つまたは複数の文書セグメントを含む入力文書か
ら重要な句を抽出する方法、(a)前記文書セグメント
毎に、前記文書セグメントに出現する用語の出現頻度に
関連した値を成分とする文書セグメントベクトルを生成
するステップと、(b)前記文書セグメントベクトルよ
り平方和行列を生成し、前記平方和行列の固有ベクトル
および固有値を算出するステップと、(c)前記固有ベ
クトルと固有値から、所定数の固有ベクトルと固有値を
選択するステップと、(d)前記入力文書内の句に対し
て、前記句に含まれる用語に対応する成分には前記句の
中の前記用語の出現数が与えられ、他は0となる句ベク
トルを生成するステップと、(e)前記句の重要度を、
前記所定数の固有ベクトル、前記所定数の固有値、及び
前記句ベクトルとを用いて求めるステップと、(f)前
記重要度を用いて前記入力文書の重要句を選択し出力す
るステップ。
8. A method of extracting an important phrase from an input document including one or a plurality of document segments, comprising the following steps (a) to (f): (a) the document for each document segment Generating a document segment vector having a value related to the frequency of appearance of a term appearing in the segment, and (b) generating a square sum matrix from the document segment vector, and calculating an eigenvector and an eigenvalue of the square sum matrix. And (c) selecting a predetermined number of eigenvectors and eigenvalues from the eigenvectors and eigenvalues, and (d) for a phrase in the input document, a component corresponding to a term included in the phrase Generating a phrase vector in which the number of occurrences of the term in the phrase is given and the others are 0, and (e) the importance of the phrase,
Obtaining using the predetermined number of eigenvectors, the predetermined number of eigenvalues, and the phrase vector, and (f) selecting and outputting an important phrase of the input document using the importance.
【請求項9】前記用語の数がN個、前記文書セグメント
の数がM個であり、m番目の文書セグメントベクトルを
dm =(dm1,..,dmN) T(m=1,..,M)、但しTはベクトル
の転置を表わし、dmnは前記文書セグメントに出現する
n番目の用語の出現頻度に関連した値を表わす、とした
場合、前記平方和行列が で計算されることを特徴とする請求項8に記載の方法。
9. The number of the terms is N, the number of the document segments is M, and the m-th document segment vector is
d m = (d m1 , .., d mN ) T (m = 1, .., M), where T represents the transposition of the vector, and d mn is the frequency of occurrence of the n-th term in the document segment. , Where the sum of squares matrix is 9. The method of claim 8 calculated as:
【請求項10】各次数の固有ベクトルに対する前記句の
重要度を、前記各次数の固有ベクトルと前記句ベクトル
の内積の二乗値と、前記各次数の固有値との積によって
求めることを特徴とする請求項8に記載の方法。
10. The degree of importance of the phrase with respect to the eigenvector of each degree is determined by the product of the squared value of the inner product of the eigenvector of each degree and the phrase vector and the eigenvalue of each degree. The method according to 8.
【請求項11】前記句の入力文書全体に対する重要度
を、前記各次数の固有値から計算された重み係数を用
い、前記各次数の固有ベクトルと前記句ベクトルの内積
の二乗値と、前記各次数の固有値との積の前記所定数の
次数に渡る加重和によって求めることを特徴とする請求
項8に記載の方法。
11. The degree of importance of the phrase with respect to the entire input document is calculated using the weighting factor calculated from the eigenvalues of the respective degrees, and the squared value of the inner product of the eigenvectors of the respective degrees and the phrase vector, and the degree of each of the degrees. 9. The method according to claim 8, wherein the weighting sum is calculated over the predetermined number of orders of products of eigenvalues.
【請求項12】前記句の重要度を、前記句ベクトルのノ
ルムの2乗値もしくは全文書セグメントベクトルと句ベ
クトルの内積の二乗和の値もしくはそれらに関連する値
で正規化を行う請求項10、11に記載の方法。
12. The importance of the phrase is normalized by a squared value of the norm of the phrase vector, a sum of squared dot products of all document segment vectors and the phrase vector, or a value related thereto. , 11.
【請求項13】以下の(a)から(d)のステップを有
する、一つまたは複数の文書セグメントを含む入力文書
から重要な文を抽出する方法、(a)前記文書セグメン
トに出現する用語の出現頻度に関連した値を成分とする
文書セグメントベクトルを生成するステップと、(b)
前記入力文書内の文に対して、前記文に含まれる用語に
対応する成分には前記文の中の前記用語の出現数が与え
られ、他は0となる文ベクトルを生成するステップと、
(c)前記文ベクトルと、全ての文書セグメントベクト
ルとの内積の二乗の和を用いて、前記文の重要度を求め
るステップ、(d)前記重要度を用いて前記入力文書の
重要文を選択し出力するステップ。
13. A method of extracting an important sentence from an input document including one or a plurality of document segments, comprising the steps (a) to (d) below: (a) a term appearing in the document segment Generating a document segment vector whose component is a value related to the frequency of appearance, and (b)
Generating a sentence vector in which, with respect to the sentence in the input document, the number of occurrences of the term in the sentence is given to the component corresponding to the term included in the sentence, and 0 otherwise.
(C) determining the importance of the sentence using the sum of squares of inner products of the sentence vector and all document segment vectors, (d) selecting the important sentence of the input document using the importance And output.
【請求項14】前記文の重要度を、前記文ベクトルのノ
ルムの2乗値で正規化することを特徴とする請求項13
記載の方法。
14. The degree of importance of the sentence is normalized by a square value of the norm of the sentence vector.
The method described.
【請求項15】以下の(a)から(f)のステップを有
する、一つまたは複数の文書セグメントを含む入力文書
から重要な文を抽出する方法、(a)前記文書セグメン
ト毎に、前記文書セグメントに出現する用語の出現頻度
に関連した値を成分とする文書セグメントベクトルを生
成するステップと、(b)前記文書セグメントベクトル
より平方和行列を生成し、前記平方和行列の固有ベクト
ルおよび固有値を算出するステップと、(c)前記固有
ベクトルと固有値から、所定数の固有ベクトルと固有値
を選択するステップと、(d)前記入力文書内の文に対
して、前記文に含まれる用語に対応する成分には前記文
の中の前記用語の出現数が与えられ、他は0となる文ベ
クトルを生成するステップと、(e)前記文の重要度
を、前記所定数の固有ベクトル、前記所定数の固有値、
及び前記文ベクトルとを用いて求めるステップと、
(f)前記重要度を用いて前記入力文書の重要文を選択
し出力するステップ。
15. A method for extracting an important sentence from an input document including one or a plurality of document segments, comprising the following steps (a) to (f): (a) the document for each document segment. Generating a document segment vector having a value related to the frequency of appearance of a term appearing in the segment, and (b) generating a square sum matrix from the document segment vector, and calculating an eigenvector and an eigenvalue of the square sum matrix. And (c) selecting a predetermined number of eigenvectors and eigenvalues from the eigenvectors and eigenvalues, and (d) for a sentence in the input document, a component corresponding to a term included in the sentence Generating a sentence vector in which the number of occurrences of the term in the sentence is given and 0 in the other cases, and (e) the importance of the sentence is fixed to the predetermined number. Vector, said predetermined number of eigenvalues,
And a step of obtaining using the sentence vector,
(F) A step of selecting and outputting an important sentence of the input document using the degree of importance.
【請求項16】前記用語の数がN個、前記文書セグメン
トの数がM個であり、m番目の文書セグメントベクトル
をdm =(dm1,..,dmN) T(m=1,..,M)、但しTはベクト
ルの転置を表わし、dmnは前記文書セグメントに出現す
るn番目の用語の出現頻度に関連した値を表わす、とし
た場合、前記平方和行列が で計算されることを特徴とする請求項15に記載の方
法。
16. The number of the terms is N, the number of the document segments is M, and the m-th document segment vector is d m = (d m1 , .., d mN ) T (m = 1, .., M), where T represents the transpose of the vector and d mn represents the value associated with the frequency of occurrence of the nth term appearing in the document segment, then the sum of squares matrix is The method of claim 15, wherein the method is calculated as:
【請求項17】各次数の固有ベクトルに対する前記文の
重要度を、前記各次数の固有ベクトルと前記文ベクトル
の内積の二乗値と、前記各次数の固有値との積によって
求めることを特徴とする請求項15に記載の方法。
17. The degree of importance of the sentence with respect to the eigenvector of each degree is calculated by multiplying the square value of the inner product of the eigenvector of each degree and the sentence vector by the eigenvalue of each degree. 15. The method according to 15.
【請求項18】前記文の入力文書全体に対する重要度
を、前記各次数の固有値から計算された重み係数を用
い、前記各次数の固有ベクトルと前記文ベクトルの内積
の二乗値と、前記各次数の固有値との積の前記所定数の
次数に渡る加重和によって求めることを特徴とする請求
項15に記載の方法。
18. The importance of the sentence with respect to the entire input document is calculated by using a weighting factor calculated from the eigenvalue of each degree, and the square value of the inner product of the eigenvector of each degree and the sentence vector, and the degree of each of the degrees. 16. The method according to claim 15, wherein the weighting sum is obtained by multiplying the product of an eigenvalue and the predetermined number of orders.
【請求項19】前記文の重要度を、全文書セグメントベ
クトルと文ベクトルの内積の二乗和の値もしくはそれに
関連する値で正規化を行う請求項17、18に記載の方
法。
19. The method according to claim 17, wherein the importance of the sentence is normalized by a value of a sum of squares of inner products of all document segment vectors and a sentence vector or a value related thereto.
【請求項20】以下の(a)から(d)の手段を有す
る、一つまたは複数の文書セグメントを含む入力文書か
ら重要な句を抽出する装置、(a)前記文書セグメント
に出現する用語の出現頻度に関連した値を成分とする文
書セグメントベクトルを生成する手段と、(b)前記入
力文書内の句に対して、前記句に含まれる用語に対応す
る成分には前記句の中の前記用語の出現数が与えられ、
他は0となる句ベクトルを生成する手段と、(c)前記
句ベクトルと、全ての文書セグメントベクトルとの内積
の二乗の和を用いて、前記句の重要度を求める手段、
(d)前記重要度を用いて前記入力文書の重要句を選択
し出力する手段。
20. An apparatus for extracting an important phrase from an input document including one or a plurality of document segments, which comprises the following means (a) to (d): (a) a term appearing in the document segment Means for generating a document segment vector having a value related to the frequency of appearance as a component, and (b) for a phrase in the input document, a component corresponding to a term included in the phrase is Given the number of occurrences of the term,
A means for generating a phrase vector that is otherwise 0; and (c) a means for determining the importance of the phrase by using the sum of squares of inner products of the phrase vector and all document segment vectors,
(D) A means for selecting and outputting an important phrase of the input document using the importance.
【請求項21】以下の(a)から(f)の手段を有す
る、一つまたは複数の文書セグメントを含む入力文書か
ら重要な文を抽出する装置、(a)前記文書セグメント
毎に、前記文書セグメントに出現する用語の出現頻度に
関連した値を成分とする文書セグメントベクトルを生成
する手段と、(b)前記文書セグメントベクトルより平
方和行列を生成し、前記平方和行列の固有ベクトルおよ
び固有値を算出する手段と、(c)前記固有ベクトルと
固有値から、所定数の固有ベクトルと固有値を選択する
手段と、(d)前記入力文書内の文に対して、前記文に
含まれる用語に対応する成分には前記文の中の前記用語
の出現数が与えられ、他は0となる文ベクトルを生成す
る手段と、(e)前記文の重要度を、前記所定数の固有
ベクトル、前記所定数の固有値、及び前記文ベクトルと
を用いて求める手段と、(f)前記重要度を用いて前記
入力文書の重要文を選択し出力する手段。
21. An apparatus for extracting an important sentence from an input document including one or a plurality of document segments, comprising: (a) to (f) below; (a) the document for each document segment Means for generating a document segment vector having a value associated with the frequency of appearance of a term appearing in a segment; and (b) generating a sum of squares matrix from the document segment vectors, and calculating an eigenvector and an eigenvalue of the sum of squares matrix. Means, (c) means for selecting a predetermined number of eigenvectors and eigenvalues from the eigenvectors and eigenvalues, and (d) for a sentence in the input document, a component corresponding to a term included in the sentence. A means for generating a sentence vector in which the number of occurrences of the term in the sentence is given and 0 for the others; and (e) the importance of the sentence, the predetermined number of eigenvectors, the predetermined number. Eigenvalues, and means for determining using said sentence vector, (f) means for outputting selecting key sentences of the input document using the importance degree.
【請求項22】前記用語の数がN個、前記文書セグメン
トの数がM個であり、m番目の文書セグメントベクトル
をdm =(dm1,..,dmN) T(m=1,..,M)、但しTはベクト
ルの転置を表わし、dmnは前記文書セグメントに出現す
るn番目の用語の出現頻度に関連した値を表わす、とし
た場合、前記平方和行列が で計算されることを特徴とする請求項21に記載の装
置。
22. The number of the terms is N, the number of the document segments is M, and the m-th document segment vector is d m = (d m1 , .., d mN ) T (m = 1, .., M), where T represents the transpose of the vector and d mn represents the value associated with the frequency of occurrence of the nth term appearing in the document segment, then the sum of squares matrix is 22. The device of claim 21, calculated as:
【請求項23】各次数の固有ベクトルに対する前記文の
重要度を、前記各次数の固有ベクトルと前記文ベクトル
の内積の二乗値と、前記各次数の固有値との積によって
求めることを特徴とする請求項21に記載の装置。
23. The importance of the sentence with respect to the eigenvector of each degree is obtained by multiplying the squared value of the inner product of the eigenvector of each degree and the sentence vector by the eigenvalue of each degree. 21. The device according to 21.
【請求項24】前記文の入力文書全体に対する重要度
を、前記各次数の固有値から計算された重み係数を用
い、前記各次数の固有ベクトルと前記文ベクトルの内積
の二乗値と、前記各次数の固有値との積の前記所定数の
次数に渡る加重和によって求めることを特徴とする請求
項21に記載の装置。
24. The importance of the sentence with respect to the entire input document is calculated by using a weighting factor calculated from the eigenvalue of each degree, and the squared value of the inner product of the eigenvector of each degree and the sentence vector, and the degree of each degree. 22. The apparatus according to claim 21, wherein the apparatus obtains a weighted sum of products of eigenvalues over the predetermined number of orders.
JP2002158163A 2001-05-30 2002-05-30 Important phrase / sentence extraction method and apparatus Expired - Fee Related JP4349480B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002158163A JP4349480B2 (en) 2001-05-30 2002-05-30 Important phrase / sentence extraction method and apparatus

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001204062 2001-05-30
JP2001-204062 2001-05-30
JP2002158163A JP4349480B2 (en) 2001-05-30 2002-05-30 Important phrase / sentence extraction method and apparatus

Publications (2)

Publication Number Publication Date
JP2003050807A true JP2003050807A (en) 2003-02-21
JP4349480B2 JP4349480B2 (en) 2009-10-21

Family

ID=26618154

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002158163A Expired - Fee Related JP4349480B2 (en) 2001-05-30 2002-05-30 Important phrase / sentence extraction method and apparatus

Country Status (1)

Country Link
JP (1) JP4349480B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250682A (en) * 2004-03-02 2005-09-15 Oki Electric Ind Co Ltd Information extraction system
JP2006073012A (en) * 2004-09-02 2006-03-16 Microsoft Corp System and method of managing information by answering question defined beforehand of number decided beforehand
JP2011113289A (en) * 2009-11-26 2011-06-09 Ntt Docomo Inc System and method for supporting document decoration
KR101086510B1 (en) 2003-03-05 2011-11-23 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피. Document and pattern clustering method and apparatus
DE102012224488A1 (en) 2012-01-13 2013-07-18 International Business Machines Corp. System, method and program for extracting a non-topic part from a conversation

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101086510B1 (en) 2003-03-05 2011-11-23 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피. Document and pattern clustering method and apparatus
JP2005250682A (en) * 2004-03-02 2005-09-15 Oki Electric Ind Co Ltd Information extraction system
JP2006073012A (en) * 2004-09-02 2006-03-16 Microsoft Corp System and method of managing information by answering question defined beforehand of number decided beforehand
JP2011113289A (en) * 2009-11-26 2011-06-09 Ntt Docomo Inc System and method for supporting document decoration
DE102012224488A1 (en) 2012-01-13 2013-07-18 International Business Machines Corp. System, method and program for extracting a non-topic part from a conversation
US9002843B2 (en) 2012-01-13 2015-04-07 International Business Machines Corporation System and method for extraction of off-topic part from conversation

Also Published As

Publication number Publication date
JP4349480B2 (en) 2009-10-21

Similar Documents

Publication Publication Date Title
US8171026B2 (en) Method and vector analysis for a document
Heigold et al. An extensive empirical evaluation of character-based morphological tagging for 14 languages
Xie et al. Using corpus and knowledge-based similarity measure in maximum marginal relevance for meeting summarization
JP5216063B2 (en) Method and apparatus for determining categories of unregistered words
CN110688836A (en) Automatic domain dictionary construction method based on supervised learning
CN110704621A (en) Text processing method and device, storage medium and electronic equipment
JP2004355483A (en) Morpheme analysis device, morpheme analysis method and morpheme analysis program
CN104216968A (en) Rearrangement method and system based on document similarity
JP4534666B2 (en) Text sentence search device and text sentence search program
Lagus et al. Topic identification in natural language dialogues using neural networks
JP4349480B2 (en) Important phrase / sentence extraction method and apparatus
JP2000163437A (en) Method and device for classifying document and recording medium where document classifying program is recorded
US20030028558A1 (en) Method of extracting important terms, phrases, and sentences
Yuan et al. Personalized sentence generation using generative adversarial networks with author-specific word usage
Han et al. Unsupervised Word Sense Disambiguation based on Word Embedding and Collocation.
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
JP4055638B2 (en) Document processing device
JP2003263441A (en) Keyword determination database preparing method, keyword determining method, device, program and recording medium
JP2003108571A (en) Document summary device, control method of document summary device, control program of document summary device and recording medium
JP4592556B2 (en) Document search apparatus, document search method, and document search program
CN114444491A (en) New word recognition method and device
CN111814025A (en) Viewpoint extraction method and device
JP2002197083A (en) Document segmentation method
CN111259159A (en) Data mining method, device and computer readable storage medium
JP7435740B2 (en) Voice recognition device, control method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050425

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050630

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071102

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071113

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080526

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080825

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080828

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080924

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081126

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090223

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090406

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090616

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090714

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120731

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees