JP2005141428A - Word string extracting method and device, and recording medium with word string extracting program recorded - Google Patents

Word string extracting method and device, and recording medium with word string extracting program recorded Download PDF

Info

Publication number
JP2005141428A
JP2005141428A JP2003376196A JP2003376196A JP2005141428A JP 2005141428 A JP2005141428 A JP 2005141428A JP 2003376196 A JP2003376196 A JP 2003376196A JP 2003376196 A JP2003376196 A JP 2003376196A JP 2005141428 A JP2005141428 A JP 2005141428A
Authority
JP
Japan
Prior art keywords
word string
domain
score
document
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003376196A
Other languages
Japanese (ja)
Inventor
Tsutomu Hirao
努 平尾
Hideki Isozaki
秀樹 磯崎
Jun Suzuki
潤 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003376196A priority Critical patent/JP2005141428A/en
Publication of JP2005141428A publication Critical patent/JP2005141428A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To decide a score under the consideration of not only respective words but also the combination of words. <P>SOLUTION: When a document set belonging to a certain domain of a document DB10 is applied, a word string extracting device extracts a word string, and performs a low order square test between the word string and the previously extracted word string for a document group included in the predetermined domain and the others, and compares it with a threshold to authorize the word string which is characteristics to the domain, and calculates scores by applying predetermined weight to the authorized word string to extract a sentence whose score is high from among a plurality of documents belonging to the certain domain. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、文書データベース中の所定の分類項目(ドメイン)に含まれる文書群の特徴を表す文を抽出し、文書の要約を作成する用途に好適な、単語列抽出方法、装置及び単語列抽出プログラムを記録した記録媒体に関する。   The present invention relates to a word string extraction method, apparatus, and word string extraction suitable for use in extracting a sentence representing the characteristics of a document group included in a predetermined classification item (domain) in a document database and creating a document summary. The present invention relates to a recording medium on which a program is recorded.

通信技術や半導体技術の進歩により電子化文書の作成保管が容易になった。このため至るところに電子化文書が氾濫しており、こうした状況を背景に文書の要約技術に対する期待が高まっている。例えば、ある話題に関する一連の文書集合を纏めて要約を作成することができれば、文書の理解に必要となる負担を大いに減らすことができる。   Advances in communication technology and semiconductor technology have made it easier to create and store electronic documents. For this reason, computerized documents are flooding everywhere, and the expectations for document summarization techniques are increasing against this background. For example, if a summary can be created by collecting a series of documents related to a certain topic, the burden required for understanding the document can be greatly reduced.

前記した要約の作成に関して、対象となる文書から関係する文を抽出する手法に文スコア決定法がある。従来の文スコア決定法は、文中に出現する個々の単語に重みを与え、その和を文スコアとし、スコアの高い文を候補として抽出する手法である(例えば、非特許文献1参照)。   A sentence score determination method is known as a technique for extracting a related sentence from a target document regarding the creation of the summary. The conventional sentence score determination method is a method of assigning weights to individual words appearing in a sentence, extracting the sum as a sentence score, and extracting a sentence with a high score as a candidate (see, for example, Non-Patent Document 1).

非特許文献1によれば、文を形態素解析して単語に分割し、重み付け対象となる単語を品詞によって決定した後、個々の単語の重みを決定して文のスコアとしている。正確な文スコアの定義式は以下の(1)式で表される。   According to Non-Patent Document 1, a sentence is divided into words by morphological analysis, and after the word to be weighted is determined based on the part of speech, the weight of each word is determined and used as the score of the sentence. An accurate sentence score defining formula is expressed by the following formula (1).

Figure 2005141428
Figure 2005141428

ここで、tf(t,Si)は、単語tの文Siでの頻度、ω(t)は単語tの重みである。ω(t)としては、TF(Term Frequency)、IDF(Inverse Document Frequency)、TF・IDFなどが用いられる。   Here, tf (t, Si) is the frequency of the word t in the sentence Si, and ω (t) is the weight of the word t. As ω (t), TF (Term Frequency), IDF (Inverse Document Frequency), TF / IDF, or the like is used.

以下、「暗証番号を入力する。」を例文として、従来の文スコア決定方法について説明する。まず、形態素解析を行うことにより、以下の表1で示す結果が得られる。   In the following, a conventional sentence score determination method will be described using the example of “input password” as an example sentence. First, the results shown in Table 1 below are obtained by performing morphological analysis.

Figure 2005141428
Figure 2005141428

いま、重み付け対象単語を名詞及び動詞に絞ると、「暗証」、「番号」、「入力」、「する」が選ばれる。従って、文のスコアはこれら単語の重みの総和となるため、6+3+3.5+0.9=13.4となる。なお、単語の重みには以下の(2)式で示されるIDFを用いた。   Now, if the word to be weighted is narrowed down to nouns and verbs, “password”, “number”, “input”, and “do” are selected. Therefore, since the sentence score is the sum of the weights of these words, 6 + 3 + 3.5 + 0.9 = 13.4. In addition, IDF shown by the following (2) formula was used for the weight of a word.

Figure 2005141428
Figure 2005141428

ここで、DBは文書データベースであり、|DB|は、DBに含まれる要素の数である。df(t)は、DB中で単語tを含む文書の数である。|DB|は大きければ大きいほどよいが、特に指定はなく、新聞記事10年分程度あればさらに良い。
Klaus Zechner、”Fast Generation of Abstracts from General Document”、The 16th International Conference Computational Linguistics、pp.986-989、1996
Here, DB is a document database, and | DB | is the number of elements included in the DB. df (t) is the number of documents including the word t in the DB. | DB | is better as it is larger, but is not particularly specified, and it is better if it is about 10 years of newspaper articles.
Klaus Zechner, “Fast Generation of Abstracts from General Document”, The 16th International Conference Computational Linguistics, pp. 986-989, 1996

ところで前記した従来の文スコア決定法によれば、文中に出現する個々の単語を独立に評価することにより実行される。しかしながら、文の重要度は個々の単語だけではなく、単語の組み合わせも考慮しなければならない。
本発明は前記した事情に鑑みてなされたものであり、文中のn(≧1)個以上の単語の組み合わせ(単語列)を抽出し、さらにそれらから所定の分類項目(ドメイン)に特徴的な単語列を選抜して文のスコアを決定することで、検索結果等を高い信頼性の下で効率良く要約することができ、文書を読む際の人間への負担の軽減を可能とする、単語列抽出方法、装置及び単語列抽出プログラムを記録した記録媒体を提供することを目的とする。
By the way, according to the conventional sentence score determination method described above, it is executed by independently evaluating individual words appearing in the sentence. However, the importance of a sentence must consider not only individual words but also word combinations.
The present invention has been made in view of the above circumstances, and extracts a combination (word string) of n (≧ 1) or more words in a sentence, and is further characterized by a predetermined classification item (domain). By selecting a word string and determining the score of a sentence, the search results can be summarized efficiently with high reliability, and the word that can reduce the burden on humans when reading a document. It is an object of the present invention to provide a recording medium on which a sequence extraction method, an apparatus, and a word sequence extraction program are recorded.

前記課題を解決するため、本発明は以下のような構成とした。請求項1に記載の発明である文書データベース中の所定のドメインに属する文書群の特徴を表す単語列を抽出する単語列抽出方法は、単語列抽出処理機能と、単語列認定処理機能と、重み付与機能と、スコア決定処理機能を備えており、あるドメインに属する文書集合が与えられた場合に、単語列抽出処理機能が、前記文書データベースから長さ1以上の単語列を抽出するステップと、単語列認定処理機能が、前記抽出された単語列から前記ドメインに特徴的な単語列を認定するステップと、重み付与機能が、前記認定された単語列に所定の重み付けを付与するステップと、スコア決定処理機能が、前記単語列の重みに基づいて文のスコアを決定し、スコアの高い単語列を抽出するステップとを実行する構成とした。   In order to solve the above problems, the present invention has the following configuration. A word string extraction method for extracting a word string representing a feature of a document group belonging to a predetermined domain in a document database according to claim 1, a word string extraction processing function, a word string recognition processing function, a weight A step of extracting a word string having a length of 1 or more from the document database when a document set belonging to a certain domain is provided, the word string extraction processing function having a grant function and a score determination processing function; A step of authorizing a word string characteristic of the domain from the extracted word string, a step of assigning a predetermined weight to the certified word string, The determination processing function determines a sentence score based on the weight of the word string and extracts a word string having a high score.

本発明によれば、あるドメインに属する文書集合が与えられた場合に文書データベースから長さ1以上の単語列を抽出し、抽出された単語列からドメインに特徴的な単語列を認定し、認定された単語列に所定の重みを付与して文のスコアを決定しスコアの高い単語列を抽出することで、個々の単語を重み付けの対象とせずに単語列に対して重み付けを行いスコア評価することができ、このことにより単語等を用いて検索した結果である文書を信頼性高く効率的に要約することが可能となり、文書を読む側の負担軽減がはかれる。   According to the present invention, when a document set belonging to a certain domain is given, a word string having a length of 1 or more is extracted from the document database, a word string characteristic of the domain is identified from the extracted word string, and recognition is performed. By assigning a predetermined weight to the word sequence, the score of the sentence is determined, and a word sequence having a high score is extracted, so that each word sequence is weighted without being subjected to weighting, and score evaluation is performed. As a result, it is possible to efficiently and efficiently summarize a document that is a result of searching using a word or the like, thereby reducing the burden on the side of reading the document.

請求項2に記載の発明である単語列を認定するステップは、前記文書データベース中の所定のドメインに含まれる文書群とそれ以外とに対し、前記抽出された単語列との間でカイ二乗検定を行い、その結果と閾値との比較を行って前記ドメインに特徴的な単語列を認定するサブステップを含む構成とした。   The step of recognizing a word string according to claim 2 comprises a chi-square test between a document group included in a predetermined domain in the document database and the others and the extracted word string. And comparing the result with a threshold value to include a sub-step for recognizing a word string characteristic of the domain.

本発明によれば、文書データベース中の所定のドメインに含まれる文書群とそれ以外に対し、抽出された単語列との間でカイ二乗検定を行い、閾値との比較を行うことでドメインに特徴的な単語列を認定することができる。   According to the present invention, it is possible to perform a chi-square test between a document group included in a predetermined domain in the document database and the extracted word string for the other document groups, and compare the result with a threshold value. A typical word string can be recognized.

請求項3に記載の発明である文書データベース中の所定のドメインに属する文書群の特徴を表す単語列を抽出する単語列抽出装置は、あるドメインに属する文書集合が与えられた場合に、前記文書データベースから長さ1以上の単語列を抽出する単語列抽出処理部と、
前記抽出された単語列から前記ドメインに特徴的な単語列を認定する単語列認定処理部と、前記認定された単語列に所定の重みを付与する重み付与部と、前記単語列の重みに基づいて文のスコアを決定し、スコアの高い単語列を抽出するスコア決定処理部とを備える構成とした。
A word string extraction device for extracting a word string representing a feature of a document group belonging to a predetermined domain in a document database according to the invention described in claim 3 is provided when a document set belonging to a certain domain is given. A word string extraction processing unit that extracts a word string having a length of 1 or more from a database;
Based on a word string recognition processing unit that recognizes a word string characteristic of the domain from the extracted word string, a weighting unit that gives a predetermined weight to the recognized word string, and a weight of the word string And a score determination processing unit for determining a sentence score and extracting a word string having a high score.

本発明によれば、単語列認定処理部が、あるドメインに属する文書集合が与えられた場合に単語列抽出処理部によって文書データベースから抽出される単語列からドメインに特徴的な単語列を認定する。そして、重み付与部によって認定された単語列に所定の重み付けが付与され、スコア決定部でその重みに基づいて文のスコアが決定され、スコアの高い単語列を抽出することで、個々の単語を重み付けの対象とせずに単語列に対して重み付けを行いスコア評価することができ、このことにより単語等を用いて検索した結果である文書を信頼性高く効率的に要約することが可能となり、文書を読む側の負担軽減がはかれる単語列抽出装置を提供することができる。   According to the present invention, the word string recognition processing unit recognizes a word string characteristic of a domain from the word string extracted from the document database by the word string extraction processing unit when a document set belonging to a certain domain is given. . Then, a predetermined weight is assigned to the word string recognized by the weight assigning unit, the score determination unit determines the score of the sentence based on the weight, and the individual word is extracted by extracting the word sequence having a high score. A word string can be weighted without being subject to weighting and score evaluation can be performed, which makes it possible to efficiently and efficiently summarize documents obtained as a result of searching using words, etc. It is possible to provide a word string extraction device that can reduce the burden on the reader.

請求項4に記載の発明である文書データベース中の所定のドメインに属する文書群の特徴を表す単語列を抽出する単語列抽出プログラムを記録したコンピュータ読み取り可能な記録媒体は、あるドメインに属する文書集合が与えられた場合に、前記コンピュータに、前記文書データベースから長さ1以上の単語列を抽出する単語列抽出処理機能と、前記抽出された単語列から前記ドメインに特徴的な単語列を認定する単語列認定処理機能と、前記認定された単語列に所定の重み付けを付与する重み付与機能と、前記単語列の重みに基づいて文のスコアを決定し、スコアの高い文を抽出するスコア決定処理機能とを実行させる構成とした。   A computer-readable recording medium on which a word string extraction program for extracting a word string representing a feature of a document group belonging to a predetermined domain in a document database according to the invention is a document set belonging to a certain domain Is given to the computer, a word string extraction processing function for extracting a word string having a length of 1 or more from the document database, and a word string characteristic for the domain from the extracted word string are recognized. A word string recognition processing function, a weighting function for assigning a predetermined weight to the recognized word string, and a score determination process for determining a sentence score based on the weight of the word string and extracting a sentence with a high score The function is executed.

本発明によれば、前記したプログラムをコンピュータに実行させることにより、あるドメインに属する文書集合が与えられた場合に文書データベースから長さ1以上の単語列を抽出し、抽出された単語列からドメインに特徴的な単語列を認定し、認定された単語列に所定の重み付けを付与して文のスコアを決定しスコアの高い単語列を抽出することができ、個々の単語を重み付けの対象とせずに単語列に対して重み付けを行いスコア評価し、このことにより検索結果などを信頼性高く効率的に要約することが可能となり、文書を読む側の負担軽減をはかることができる。   According to the present invention, by causing a computer to execute the above-described program, when a document set belonging to a certain domain is given, a word string having a length of 1 or more is extracted from the document database, and the domain is extracted from the extracted word string. It is possible to identify word strings that are distinctive to each other, assign a predetermined weight to the recognized word strings, determine sentence scores, and extract high-scoring word strings, so that individual words are not subject to weighting. The word strings are weighted and score evaluation is performed. This makes it possible to summarize search results and the like reliably and efficiently, and to reduce the burden on the side of reading the document.

本発明によれば、文中の単語の組み合わせ(単語列)を抽出し、さらに所定の分類項目(ドメイン)に特徴的な単語列を選抜して文のスコアを決定することで検索結果などを信頼性高く効率的に要約することができる。このため、電子化文書が氾濫している中で、ある話題に対する一連の文書を纏めて要約することなどが可能となり、読む側の負担が大幅に軽減される。   According to the present invention, a combination of words in a sentence (word string) is extracted, and a word string characteristic of a predetermined classification item (domain) is selected to determine a sentence score, thereby trusting a search result or the like. Summarize efficiently and efficiently. For this reason, it is possible to summarize a series of documents for a certain topic in a flood of digitized documents, which greatly reduces the burden on the reading side.

以下、本発明実施形態につき図面を参照して説明する。図1は、本実施形態の単語列抽出装置の内部構成を示すブロック図であり、(a)に機能展開して示した構成図を、(b)にハードウェア構成図を示す。
本実施形態の単語列抽出装置1は、機能的に大別すれば、文書データベース(以後、文書DBと略記する)10と、単語列抽出処理部11と、単語列認定処理部12と、重み付与部13と、スコア決定処理部14で構成される。
Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing the internal configuration of the word string extraction apparatus of the present embodiment, in which (a) shows a functional diagram and (b) shows a hardware configuration diagram.
The word string extraction device 1 according to the present embodiment can be roughly classified into a document database (hereinafter abbreviated as a document DB) 10, a word string extraction processing unit 11, a word string recognition processing unit 12, and a weight. It comprises an assigning unit 13 and a score determination processing unit 14.

文書DB10には、あらかじめ文書群が格納されてあるものとする。単語列抽出処理部11は、文書DB10中の所定の分類項目(ドメイン)に属する文書集合が与えられた場合に、文書DB10から長さ1以上の単語列を抽出する機能を持ち、ここで抽出された単語列は、単語列認定処理部12へ供給される。単語列認定処理部12は、抽出された単語列からドメインに特徴的な単語列を認定する機能を持ち、具体的には、文書DB10中の所定のドメインに含まれる文書群とそれ以外に対し、抽出された単語列との間でカイ二乗(χ2)検定を行い、その結果と閾値との比較を行ってドメインに特徴的な単語列を認定する。
また、重み付与部13は、単語列認定処理部12で認定された単語列に所定の演算式を実行して重みを付与する機能を持ち、スコア決定処理部14は、単語列の重みに基づいて文のスコアを決定し、スコアの高い単語列を抽出する機能を持つ。
It is assumed that a document group is stored in the document DB 10 in advance. The word string extraction processing unit 11 has a function of extracting a word string having a length of 1 or more from the document DB 10 when a document set belonging to a predetermined classification item (domain) in the document DB 10 is given. The obtained word string is supplied to the word string recognition processing unit 12. The word string recognition processing unit 12 has a function of recognizing a word string characteristic of the domain from the extracted word string, specifically, for a document group included in a predetermined domain in the document DB 10 and the others Then, a chi-square (χ 2 ) test is performed on the extracted word string, and the result is compared with a threshold value to identify a word string characteristic of the domain.
The weight assigning unit 13 has a function of executing a predetermined arithmetic expression on the word string recognized by the word string authorization processing unit 12 and assigning a weight, and the score determination processing unit 14 is based on the weight of the word string. The sentence score is determined, and a word string having a high score is extracted.

なお、図1(b)に示すハードウェア構成図は、前記した単語列抽出処理部11と、単語列認定処理部12と、重み付与部13と、スコア決定処理部14が持つ機能を実行する主制御装置21と、文書DB10が構築される記憶装置22と、主制御装置21に対して入力されるドメイン指定、あるいは主制御装置21から出力されるスコア決定出力を表示するなどのマンマシンインタフェースとなる入出力装置23およびNIC(Network Interface Unit)24が、アドレス、データ、コントロールのためのラインが複数本で構成されるシステムバスを介して共通接続され、構成される。
なお、主制御装置21は、プログラムが格納されるRAMと、RAMに格納されたプログラムを読み出し逐次実行するCPUで構成される。
Note that the hardware configuration diagram shown in FIG. 1B executes the functions of the word string extraction processing unit 11, the word string recognition processing unit 12, the weighting unit 13, and the score determination processing unit 14. A man-machine interface for displaying the main control device 21, the storage device 22 in which the document DB 10 is constructed, the domain designation input to the main control device 21, or the score determination output output from the main control device 21 The input / output device 23 and the NIC (Network Interface Unit) 24 are commonly connected and configured via a system bus including a plurality of lines for address, data, and control.
The main controller 21 includes a RAM that stores a program and a CPU that reads and sequentially executes the program stored in the RAM.

本発明の単語列抽出方法について以下に詳細説明を行う。ここでは、文書DB10を{D1、D2、…、Di、…、Dn}と表し、そこに含まれる文集合をS={S1、S2、…、Sj、…、Sm}と表すものとする。ここで、S中の文に含まれる単語列の抽出には、系列パターンマイニングアルゴリズムを適用することができる。このためには、例えば、「PrefixSpan」等、頻出パターンを抽出する周知のデーマイニングツールを用いればよい。 The word string extraction method of the present invention will be described in detail below. Here, the document DB10 {D 1, D 2, ..., D i, ..., D n} and represents, S = {S 1 a set of sentences contained therein, S 2, ..., S j , ..., S m }. Here, a sequence pattern mining algorithm can be applied to extraction of a word string included in a sentence in S. For this purpose, for example, a known day mining tool for extracting a frequent pattern such as “PrefixSpan” may be used.

ここで、文書DB10中の文書群を、あるドメイン(たとえば、「経済」)とそれ以外に分割することを考える。そして、ドメインに属する文書群をDdom、それ以外をDotherと表し、それぞれに属する文集合をSdom 、Sother と表す。
いま、Sdomから得られた単語列の集合をPとし、P中の要素をPiとする。Piに関して表2で示す分割表を得ることができる。
Here, it is considered that a document group in the document DB 10 is divided into a certain domain (for example, “economy”) and the others. A group of documents belonging to the domain is represented as D dom , the others are represented as D other, and a sentence set belonging to each is represented as S dom and S other .
Now, let P be a set of word strings obtained from S dom , and let P i be an element in P. The contingency table shown in Table 2 for P i can be obtained.

Figure 2005141428
Figure 2005141428

11は、Sdomにおいて、単語列Piが出現する文の数であり、n12は、Sotherで、Piが出現する文の数であり、n21は、SdomPiが出現しない文の数である。ここで「¬Pi」は、Piが存在することの否定であり、Piが出現しないことを意味する。Piがドメインに特徴的か否かをχ2検定を用いて決定する。χ2値は以下の(3)式により求められる。 n 11 is the number of sentences in which word string P i appears in S dom , n 12 is the number of sentences in which Pi appears in Sother, and n 21 is the number of sentences in which Sdom P i does not appear. It is. Here, the "¬P i" is a denial of the presence of P i, which means that P i does not appear. Determine whether P i is characteristic of the domain using the χ 2 test. The χ 2 value is obtained by the following equation (3).

Figure 2005141428
Figure 2005141428

ここで、χ2値が閾値である3.8415以上(自由度1の、χ2分布から求まる有意水準)であれば、Piはドメイン特徴的な単語列であるといえる。こうして得たχ2値が3.8514以上である単語列集合をPsigとする。単語列集合Psigに属する単語列pに対して、以下の(4)式を実行することにより重み付けを行う。 Here, if the χ 2 value is equal to or higher than the threshold value of 3.8415 (significance level obtained from the χ 2 distribution with 1 degree of freedom), it can be said that P i is a domain characteristic word string. A word string set having a χ 2 value of 3.8514 or more obtained in this way is defined as P sig . The word string p belonging to the word string set P sig is weighted by executing the following equation (4).

Figure 2005141428
Figure 2005141428

ここで、f(p、Sdom)は、要約対象であるドメインに属する文集合Sdomにおける単語列pの出現文数、f(p、S)は全データにおける単語列pの出現文数であり、|S|は、Sの要素数である文数、len(p)は単語列の長さ(単語数)を示す。
なお、前記した(4)式は、ある一定の出現頻度があればそれぞれに大きな差をつけずに評価する意味で用いられるものであって、例えば、前記した(4)式の分母を除いた演算式、あるいは、分子の第1項からlogを除いた演算式等、種々考えられる。
Here, f (p, S dom ) is the number of appearing sentences of the word string p in the sentence set S dom belonging to the domain to be summarized, and f (p, S) is the number of appearing sentences of the word string p in all data. Yes, | S | indicates the number of sentences that is the number of elements of S, and l en (p) indicates the length of the word string (number of words).
In addition, the above-described equation (4) is used for the purpose of evaluating without giving a large difference to each if there is a certain appearance frequency. For example, the denominator of the above-described equation (4) is excluded. Various formulas are conceivable, such as an arithmetic expression or an arithmetic expression obtained by removing log from the first term of the numerator.

最終的に、このようにして決定した単語列の重みω(p)を用いて以下の(5)式で文のスコアを決定する。   Finally, the sentence score is determined by the following equation (5) using the weight ω (p) of the word string thus determined.

Figure 2005141428
Figure 2005141428

図2は、本発明の単語列抽出装置の動作を説明するために引用したフローチャート、図3は、その具体例を説明するために引用した動作概念図である。なお、図2に示すフローチャートは、本発明の単語列抽出プログラムの処理手順も示している。
以下、図2、図3を参照しながら図1に示す単語列抽出装置の動作について詳細に説明する。
FIG. 2 is a flowchart cited for explaining the operation of the word string extraction apparatus of the present invention, and FIG. 3 is an operation conceptual diagram quoted for explaining a specific example thereof. The flowchart shown in FIG. 2 also shows the processing procedure of the word string extraction program of the present invention.
Hereinafter, the operation of the word string extraction apparatus shown in FIG. 1 will be described in detail with reference to FIGS.

まず、本発明の単語列抽出装置に対して、スコアを得たい文が入力される。これに対し、単語列抽出処理部11は、形態素解析を行い(S21)、品詞による絞込みを行って名詞と動詞を選択し(S22)、ここで得られた単語のみを対象として系列パターンマイニングを適用して単語列を生成する(S23)。   First, a sentence for which a score is to be obtained is input to the word string extraction device of the present invention. On the other hand, the word string extraction processing unit 11 performs morphological analysis (S21), narrows down by part of speech to select nouns and verbs (S22), and performs sequence pattern mining for only the words obtained here. A word string is generated by application (S23).

具体的には、例えば図3に示すように、文「暗証番号を入力する。」が入力されると、形態素解析による解析と品詞による絞り込みにより、名詞と動詞である「暗証 番号 入力 する」が得られる。次に、これらに対して系列パターンマイニングを適用することにより、単語列「暗証−番号−入力−する」、「暗証−番号−入力」、「暗証−番号−する」、「暗証−入力−する」、「番号−入力−する」、「暗証−番号」、「暗証−入力」、「暗証−する」、「番号−入力」、「番号−する」、「入力−する」、「暗証」、「番号」、「入力」、「する」、が生成され、単語列認定処理部12へ引き渡される。   Specifically, for example, as shown in FIG. 3, when a sentence “input a PIN” is input, a noun and a verb “PIN” are input by analysis by morphological analysis and narrowing down by part of speech. can get. Next, by applying sequence pattern mining to these, the word strings “password-number-input-”, “password-number-input”, “password-number-input”, “password-input-” are performed. ”,“ Number-input-enable ”,“ password-number ”,“ password-input ”,“ password-enable ”,“ number-input ”,“ number-enable ”,“ input-enable ”,“ password ”, “Number”, “Input”, and “Yes” are generated and delivered to the word string recognition processing unit 12.

単語列認定処理部12では、文書DB10中の所定のドメインに含まれる文書群とそれ以外に対し、単語列抽出処理部11で抽出された単語列との間でχ2検定を行う(S24)。その結果と閾値αとを比較することにより、その単語列がドメインに特徴的か否かを決定する(S25)。 The word string recognition processing unit 12 performs a χ 2 test between the document group included in the predetermined domain in the document DB 10 and the other word strings extracted by the word string extraction processing unit 11 (S24). . By comparing the result with the threshold value α, it is determined whether or not the word string is characteristic of the domain (S25).

ここでは、前記した単語列に対し、前記した演算式(3)を適用することにより、それぞれχ2値「6.7」、「5.5」、「4.5」、「3.5」、「2.1」、「5」、「3.1」、「3.3」、「2.1」、「1.1」、「0.9」、「5.8」、「2.2」、「1.2」、「0.2」が生成される(S24)。そして、それぞれを閾値αである「3.8415」と比較することにより、その単語列がドメインに特徴的か否かを決定する(S25)。ここでは、「暗証−番号−入力−する」、「暗証−番号−入力」、「暗証−番号−する」、「暗証−番号」、「暗証」の5つの単語列が選択され、ドメインに特徴的な単語列であるものとして抽出される。 Here, by applying the arithmetic expression (3) to the above-described word string, the χ 2 values “6.7”, “5.5”, “4.5”, and “3.5” are respectively obtained. , “2.1”, “5”, “3.1”, “3.3”, “2.1”, “1.1”, “0.9”, “5.8”, “2. 2 ”,“ 1.2 ”, and“ 0.2 ”are generated (S24). Then, by comparing each with a threshold value “3.8415”, it is determined whether or not the word string is characteristic of the domain (S25). Here, five word strings of “password-number-input-do”, “password-number-input”, “password-number-do”, “password-number”, and “password” are selected and characterized by the domain. Extracted as a typical word string.

次に、重み付与部13において、前記のように選択された単語列に対し(4)式を適用することにより重みが付与される(S26)。図3に示す例では、抽出された単語列のそれぞれに、「15.1」、「7.2」、「6.1」、「4.2」、「0.1」の重みが付与される。   Next, the weight assigning unit 13 assigns a weight by applying the expression (4) to the word string selected as described above (S26). In the example illustrated in FIG. 3, weights “15.1”, “7.2”, “6.1”, “4.2”, and “0.1” are assigned to each extracted word string. The

そして、スコア決定処理部14において(5)式を適用することにより重みの総和を計算し、文のスコアを決定する(S27)。図3に示す例では、15.1+7.2+6.1+4.2+0.1=32.7によりスコアを得ている。   Then, the sum of weights is calculated by applying the formula (5) in the score determination processing unit 14, and the score of the sentence is determined (S27). In the example shown in FIG. 3, the score is obtained by 15.1 + 7.2 + 6.1 + 4.2 + 0.1 = 32.7.

このようにしてスコアを決定した後、スコアの高い単語列を選択して要約等の作成に用いる。   After determining the score in this way, a word string having a high score is selected and used for creating a summary or the like.

以上、説明したように本発明は、文書DB10の所定のドメインに含まれる文書群の特徴を表す文を抽出し、文書の要約を作成することを可能にする。そのために、文書DB10の所定のドメインに含まれる文書群とそれ以外とに対し、χ2検定を行い、その結果であるχ2値に閾値処理を施し、さらに閾値処理後の単語列に対して重みを与えてスコアを決定し、スコアの高い文を抽出する構成とするものである。すなわち、形態素解析の結果である個々の単語を重み付けの対象とするのではなく、単語列に対して重み付けを行うことで単語の組み合わせによるスコア評価を可能とするものである。 As described above, the present invention makes it possible to extract a sentence representing the characteristics of a document group included in a predetermined domain of the document DB 10 and create a document summary. For this purpose, the χ 2 test is performed on the document group included in the predetermined domain of the document DB 10 and other documents, threshold value processing is performed on the resulting χ 2 value, and the word string after the threshold processing is further processed. A score is determined by giving a weight, and a sentence with a high score is extracted. In other words, it is possible to perform score evaluation based on a combination of words by weighting a word string, instead of using individual words that are the result of morphological analysis as weighting targets.

このことにより、あるドメインに属する複数の文書からスコアの高い文を抽出することができ信頼性の高い要約等を作成することが可能となる。従って、検索結果などを効率的に要約することが可能となり、人間が文書を読む際の負担が軽減される。   This makes it possible to extract a sentence with a high score from a plurality of documents belonging to a certain domain, and to create a highly reliable summary or the like. Therefore, it is possible to efficiently summarize search results and the like, and the burden on humans when reading a document is reduced.

なお、本発明は、図1に示す単語列抽出処理部11と、単語列認定処理部12と、重み付与部13と、スコア決定処理部14のそれぞれで実行される手順をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによっても本発明を実現することができるものである。ここでいうコンピュータシステムとは、OSや周辺機器等のハードウェアを含む。   It should be noted that the present invention is a computer-readable record of the procedure executed by each of the word string extraction processing unit 11, the word string recognition processing unit 12, the weighting unit 13, and the score determination processing unit 14 shown in FIG. The present invention can also be realized by recording on a medium, causing a computer system to read and execute a program recorded on the recording medium. The computer system here includes an OS and hardware such as peripheral devices.

本発明実施形態の内部構成を示すブロック図である。It is a block diagram which shows the internal structure of this embodiment. 本発明実施形態の動作を説明するために引用したフローチャートである。It is the flowchart quoted in order to demonstrate operation | movement of this invention embodiment. 本発明実施形態の動作を概念的に示した動作概念図である。It is the operation | movement conceptual diagram which showed notionally the operation | movement of this invention embodiment.

符号の説明Explanation of symbols

10 文書DB
11 単語列抽出処理部
12 単語列認定処理部
13 重み付与部
14 スコア決定処理部
10 Document DB
DESCRIPTION OF SYMBOLS 11 Word sequence extraction process part 12 Word string recognition process part 13 Weight assignment part 14 Score determination process part

Claims (4)

単語列抽出処理機能と、単語列認定処理機能と、重み付与機能と、スコア決定処理機能を備え、文書データベース中の所定のドメインに属する文書群の特徴を表す単語列を抽出する単語列抽出方法であって、
ドメインに属する文書集合が与えられた場合に、
単語列抽出処理機能が、前記文書データベースから長さ1以上の単語列を抽出するステップと、
単語列認定処理機能が、前記抽出された単語列から前記ドメインに特徴的な単語列を認定するステップと、
重み付与機能が、前記認定された単語列に所定の重み付けを付与するステップと、
スコア決定処理機能が、前記単語列の重みに基づいて文のスコアを決定し、スコアの高い単語列を抽出するステップと
を有することを特徴とする単語列抽出方法。
A word string extraction method for extracting a word string representing a feature of a document group belonging to a predetermined domain in a document database, comprising a word string extraction processing function, a word string recognition processing function, a weighting function, and a score determination processing function Because
Given a set of documents belonging to a domain,
A word string extraction processing function extracting a word string having a length of 1 or more from the document database;
A word string recognition processing function for recognizing a word string characteristic of the domain from the extracted word string;
A step of assigning a predetermined weight to the recognized word string;
The score determination processing function includes a step of determining a score of a sentence based on the weight of the word string and extracting a word string having a high score.
前記単語列を認定するステップは、
前記文書データベース中の所定のドメインに含まれる文書群とそれ以外とに対し、前記抽出された単語列との間でカイ二乗検定を行い、その結果と閾値との比較を行って前記ドメインに特徴的な単語列を認定するサブステップを含むこと
を特徴とする請求項1に記載の単語列抽出方法。
The step of authorizing the word string includes
A chi-square test is performed between the extracted word string and the document group included in the predetermined domain in the document database and the others, and the result is compared with a threshold value to characterize the domain. The word string extraction method according to claim 1, further comprising a sub-step of identifying a typical word string.
文書データベース中の所定のドメインに属する文書群の特徴を表す単語列を抽出する単語列抽出装置であって、
ドメインに属する文書集合が与えられた場合に、
前記文書データベースから長さ1以上の単語列を抽出する単語列抽出処理部と、
前記抽出された単語列から前記ドメインに特徴的な単語列を認定する単語列認定処理部と、
前記認定された単語列に所定の重みを付与する重み付与部と、
前記単語列の重みに基づいて文のスコアを決定し、スコアの高い単語列を抽出するスコア決定処理部と
を備えたことを特徴とする単語列抽出装置。
A word string extraction device for extracting a word string representing the characteristics of a document group belonging to a predetermined domain in a document database,
Given a set of documents belonging to a domain,
A word string extraction processing unit for extracting a word string having a length of 1 or more from the document database;
A word string recognition processing unit that recognizes a word string characteristic of the domain from the extracted word string;
A weighting unit that gives a predetermined weight to the certified word string;
A word string extraction apparatus comprising: a score determination processing unit that determines a score of a sentence based on a weight of the word string and extracts a word string having a high score.
文書データベース中の所定のドメインに属する文書群の特徴を表す単語列を抽出する単語列抽出プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
ドメインに属する文書集合が与えられた場合に、
前記コンピュータに、
前記文書データベースから長さ1以上の単語列を抽出する単語列抽出処理機能と、
前記抽出された単語列から前記ドメインに特徴的な単語列を認定する単語列認定処理機能と、
前記認定された単語列に所定の重み付けを付与する重み付与機能と、
前記単語列の重みに基づいて文のスコアを決定し、スコアの高い文を抽出するスコア決定処理機能と
を実行させることを特徴とする単語列抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
A computer-readable recording medium on which a word string extraction program for extracting a word string representing the characteristics of a document group belonging to a predetermined domain in a document database is recorded,
Given a set of documents belonging to a domain,
In the computer,
A word string extraction processing function for extracting a word string having a length of 1 or more from the document database;
A word string recognition processing function for recognizing a word string characteristic of the domain from the extracted word string;
A weighting function for giving a predetermined weight to the certified word string;
A computer-readable recording medium recorded with a word string extraction program, wherein a score determination processing function for determining a score of a sentence based on the weight of the word string and extracting a sentence with a high score is executed.
JP2003376196A 2003-11-05 2003-11-05 Word string extracting method and device, and recording medium with word string extracting program recorded Pending JP2005141428A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003376196A JP2005141428A (en) 2003-11-05 2003-11-05 Word string extracting method and device, and recording medium with word string extracting program recorded

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003376196A JP2005141428A (en) 2003-11-05 2003-11-05 Word string extracting method and device, and recording medium with word string extracting program recorded

Publications (1)

Publication Number Publication Date
JP2005141428A true JP2005141428A (en) 2005-06-02

Family

ID=34687339

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003376196A Pending JP2005141428A (en) 2003-11-05 2003-11-05 Word string extracting method and device, and recording medium with word string extracting program recorded

Country Status (1)

Country Link
JP (1) JP2005141428A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008077459A (en) * 2006-09-22 2008-04-03 Yokohama National Univ Interactive multiple document summarization device
JP2009093402A (en) * 2007-10-09 2009-04-30 Fuji Xerox Co Ltd Document-processing device and program
JP2010015395A (en) * 2008-07-03 2010-01-21 Kddi Corp Word score calculator, document label determination system, and word score calculation program
JP2011154469A (en) * 2010-01-26 2011-08-11 Nippon Telegr & Teleph Corp <Ntt> Apparatus, method and program for extracting pattern
CN102081601B (en) * 2009-11-27 2013-01-09 北京金山软件有限公司 Field word identification method and device
JP2015169969A (en) * 2014-03-04 2015-09-28 Nttコムオンライン・マーケティング・ソリューション株式会社 Conversation subject specification device and method
JP7409942B2 (en) 2020-03-31 2024-01-09 株式会社オービック Document classification support device, document classification support method, and document classification support program

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008077459A (en) * 2006-09-22 2008-04-03 Yokohama National Univ Interactive multiple document summarization device
JP2009093402A (en) * 2007-10-09 2009-04-30 Fuji Xerox Co Ltd Document-processing device and program
JP2010015395A (en) * 2008-07-03 2010-01-21 Kddi Corp Word score calculator, document label determination system, and word score calculation program
CN102081601B (en) * 2009-11-27 2013-01-09 北京金山软件有限公司 Field word identification method and device
JP2011154469A (en) * 2010-01-26 2011-08-11 Nippon Telegr & Teleph Corp <Ntt> Apparatus, method and program for extracting pattern
JP2015169969A (en) * 2014-03-04 2015-09-28 Nttコムオンライン・マーケティング・ソリューション株式会社 Conversation subject specification device and method
JP7409942B2 (en) 2020-03-31 2024-01-09 株式会社オービック Document classification support device, document classification support method, and document classification support program

Similar Documents

Publication Publication Date Title
CN105897714B (en) Botnet detection method based on DNS traffic characteristics
Fleischman et al. Multi-document person name resolution
US20210149994A1 (en) Device and method for machine reading comprehension question and answer
JP6828335B2 (en) Search program, search device and search method
JP5216063B2 (en) Method and apparatus for determining categories of unregistered words
CN111444330A (en) Method, device and equipment for extracting short text keywords and storage medium
Posadas-Duran et al. Complete syntactic n-grams as style markers for authorship attribution
JP2005141428A (en) Word string extracting method and device, and recording medium with word string extracting program recorded
JP4969209B2 (en) Search system
KR20060043583A (en) Compression of logs of language data
Kulkarni et al. Knowledge discovery in text mining using association rule extraction
JPH09282331A (en) Device and method for judging document similarity
JP2010231526A (en) Device, method and program for constructing dictionary
Ehsan et al. A Pairwise Document Analysis Approach for Monolingual Plagiarism Detection.
KR20100073163A (en) Compound noun recognition apparatus and its method
JP2009151390A (en) Information analyzing device and information analyzing program
KR102519955B1 (en) Apparatus and method for extracting of topic keyword
JP2003263441A (en) Keyword determination database preparing method, keyword determining method, device, program and recording medium
JP4148247B2 (en) Vocabulary acquisition method and apparatus, program, and computer-readable recording medium
JP4401269B2 (en) Parallel translation judgment device and program
JP7135730B2 (en) Summary generation method and summary generation program
Kumari et al. Real Life Implementation of Text Summarization Technique
JP2007199876A (en) Question answering system, question answering processing method, and question answering program
MacNamara et al. Neural networks for language identification: a comparative study
EP4293956A1 (en) Method for predicting malicious domains