JP2003085170A - Fixed form sentence clustering device and method - Google Patents

Fixed form sentence clustering device and method

Info

Publication number
JP2003085170A
JP2003085170A JP2001274396A JP2001274396A JP2003085170A JP 2003085170 A JP2003085170 A JP 2003085170A JP 2001274396 A JP2001274396 A JP 2001274396A JP 2001274396 A JP2001274396 A JP 2001274396A JP 2003085170 A JP2003085170 A JP 2003085170A
Authority
JP
Japan
Prior art keywords
word
sentence
gram
fixed
predetermined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001274396A
Other languages
Japanese (ja)
Inventor
Naoto Kato
直人 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2001274396A priority Critical patent/JP2003085170A/en
Publication of JP2003085170A publication Critical patent/JP2003085170A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a fixed form sentence clustering device and a method capable of collecting, clustering, and outputting similar fixed form sentences as one class. SOLUTION: This fixed form sentence clustering device comprises a means 10 for dividing respective sentences in a corpus with every word, a word n gram dictionary means 20 for forming word n grams by linking the words obtained by division, and extracting and preserving the word n grams for satisfying a prescribed condition from the word n grams, a fixed form sentence extracting means 30 for forming a set of word n grams by combining a part or the whole in the preserved word n grams, and extracting a sentence becoming a prescribed threshold value or more in a rate including the set as a fixed form sentence form the corpus, a means 40 for preserving the extracted fixed form sentence and the set of word n grams, and a means 50 for calculating similarity of mutual classes to classes being a cluster of prescribed sentences included in corpus, and merging two classes having the highest similarity into one.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、複数ある定型文の
うち類似した文同士を集めてクラスに分類するクラスタ
リング装置および方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a clustering apparatus and method for collecting similar sentences from a plurality of fixed phrases and classifying them into classes.

【0002】[0002]

【従来の技術】従来、単語が一定のパターンで配列され
た単語列を含む文(以下、このパターンを定型パターン
といい、この文を定型文という。)を複数文の集合の中
から抽出する場合、文単位で抽出していた。定型文の抽
出方法は、例えば、加藤直人著、「定型パターンを含む
文の機械翻訳手法」、情報処理学会論文誌、Vo1.3
6、No.9、pp.2081−2090、1995に開示
されているように、大まかに以下に示す3つのステップ
から構成される。
2. Description of the Related Art Conventionally, a sentence including a word string in which words are arranged in a fixed pattern (hereinafter, this pattern is referred to as a fixed pattern and this sentence is referred to as a fixed sentence) is extracted from a set of a plurality of sentences. In this case, it was extracted in sentence units. A method of extracting a fixed form sentence is described in, for example, Naoto Kato, “Machine Translation Method for Sentences Containing Fixed Form Pattern”, IPSJ Journal, Vo1.3
6, No. 9, pp. As disclosed in 2081-2090, 1995, it is roughly composed of the following three steps.

【0003】ステップ1で、単語nグラム辞書(nは、
1以上の自然数。)を作成する。ステップ2で、複数文
の集合の各文に対して単語nグラムを含む割合(以下、
含有率という。)を計算する。ステップ3で、上記の含
有率がしきい値以上になる文を定型文として抽出する。
In step 1, the word n-gram dictionary (n is
A natural number of 1 or more. ) Is created. In step 2, for each sentence of the set of multiple sentences, the ratio including the word n-gram (hereinafter,
It is called the content rate. ) Is calculated. In step 3, a sentence whose content rate is equal to or higher than a threshold value is extracted as a fixed sentence.

【0004】次に、経済ニュースから定型文を抽出する
場合を例に取り、上記の従来の方法について説明する。
まず、ステップ1で、単語がn個連なった単語列である
単語nグラムを形成し、その単語nグラムを構成要素と
する単語nグラム辞書を作成する。ここで、単語nグラム
辞書は、形成された単語nグラムのうち、コーパス中の
文中に高い頻度で出現する単語nグラムを抽出して作成
される。
Next, the above-mentioned conventional method will be described by taking as an example the case where a fixed phrase is extracted from economic news.
First, in step 1, a word n-gram that is a word string in which n words are connected is formed, and a word n-gram dictionary having the word n-gram as a constituent element is created. Here, the word n-gram dictionary is created by extracting, from the formed word n-grams, the word n-grams that frequently appear in the sentences in the corpus.

【0005】経済ニュースを用いて作成した単語nグラ
ム辞書1は、例えば、図5(a)に示すような単語nグ
ラムW1、W2、W3によって構成される。実際、経済ニ
ュースでは定型パターンの配列を有する単語列を含む表
現が多く、経済ニュース中から多数の単語nグラムが抽
出される。なお、図5(a)における記号「/」は、単
語の切れ目を表している。
The word n-gram dictionary 1 created using economic news is composed of, for example, word n-grams W1, W2, W3 as shown in FIG. In fact, in economic news, many expressions include word strings having a fixed pattern arrangement, and a large number of word n-grams are extracted from economic news. The symbol “/” in FIG. 5A represents a word break.

【0006】次に、ステップ2で、経済ニュース中の各
文に対して、ステップ1で得られた単語nグラムを含む
割合である含有率を計算する。例えば、図5(a)に示
す単語nグラム辞書1と図5(b)に示す4つの例文と
を用いて含有率を計算した例を図5(c)に示す。
Next, in step 2, the content rate, which is the rate including the word n-gram obtained in step 1, is calculated for each sentence in the economic news. For example, FIG. 5C shows an example in which the content rate is calculated using the word n-gram dictionary 1 shown in FIG. 5A and the four example sentences shown in FIG. 5B.

【0007】図5(b)に示す例文1、例文2、例文4
にはそれぞれ、単語nグラム辞書1中の単語nグラムW
1、W2、W3がそれぞれ1つずつ含まれており、例文3
にはW1のみが含まれている。図5(c)に示す含有率
の計算式において、分母は含有率の計算対象の文を構成
する単語の総数であり、分子は対象の文に含まれる各単
語nグラムW1、W2、W3を構成する単語数(ここで
は、n=3)の総和である。
Example sentence 1, example sentence 2, and example sentence 4 shown in FIG.
For each word n-gram W in the word n-gram dictionary 1.
Each one contains 1, W2, W3, example sentence 3
Contains only W1. In the formula for calculating the content shown in FIG. 5C, the denominator is the total number of words constituting the sentence for which the content is to be calculated, and the numerator is each word n-gram W1, W2, W3 contained in the target sentence. It is the sum total of the number of constituent words (here, n = 3).

【0008】ステップ3で、予め決められた含有率のし
きい値以上の含有率となる文を抽出する。例えば、しき
い値を0.5と仮定すると、上記の図5(b)に示す例
文1、例文2、例文4は定型文として抽出されるが、例
文3は抽出されない。一般に、定型文は、言語現象を人
手によって分析する場合等において利用される。そのよ
うな場合には、類似した文を集めておいた方が処理しや
すいということが起こる。
In step 3, sentences having a content rate equal to or higher than a predetermined content rate threshold value are extracted. For example, assuming that the threshold value is 0.5, the example sentence 1, the example sentence 2, and the example sentence 4 shown in FIG. 5B are extracted as the standard sentences, but the example sentence 3 is not extracted. Generally, fixed phrases are used when analyzing language phenomena manually. In such a case, it may be easier to process by collecting similar sentences.

【0009】[0009]

【発明が解決しようとする課題】しかしながら、従来の
定型文の抽出方法では、定型文を一連の類似した文の集
合(以下、クラスという。)単位ではなく文単位でしか
抽出できないため、言語現象を分析する際にすべての文
を見る必要があり、効率的でないという問題がある。実
際、類似した定型文は数十文〜数百文も得られることが
あり、そのすべてを人手によって調査することは困難で
ある。そのため、類似した定型文は、1つのクラスとし
てまとめられている方が分析しやすい。
However, according to the conventional method of extracting a fixed sentence, the fixed sentence can be extracted only in units of sentences, not in units of a set of a series of similar sentences (hereinafter referred to as a class). There is a problem in that it is inefficient to look at all sentences when analyzing. In fact, tens to hundreds of similar fixed phrases may be obtained, and it is difficult to manually investigate all of them. Therefore, similar fixed phrases are easier to analyze when they are grouped as one class.

【0010】本発明は、かかる問題を解決するためにな
されたものであり、その目的は、類似した定型文を1つ
のクラスにまとめてクラスタリングし、出力することが
可能な定型文クラスタリング装置および方法を提供する
ことにある。
The present invention has been made to solve such a problem, and an object thereof is a fixed sentence clustering apparatus and method capable of collectively clustering similar fixed sentences into one class and outputting them. To provide.

【0011】[0011]

【課題を解決するための手段】以上の点を考慮して、請
求項1に係る発明は、所定の文の集合であるコーパスに
含まれる各文を、前記各文を構成する単語毎に分割する
形態素解析手段と、前記コーパスに含まれる各文を分割
して得られた前記単語を、所定の規則に基づいて連ねて
単語nグラム(nは1以上の自然数。)を生成し、前記
単語nグラムの中から所定の条件を満たす単語nグラム
を抽出して保存する単語nグラム辞書手段と、前記単語n
グラム辞書手段によって保存された単語nグラムにおけ
る所定種類の単語nグラムを組み合わせて単語nグラム
の組を生成し、前記単語nグラムの組を含む割合が所定
しきい値以上となる文を前記コーパスに含まれる文の中
から定型文として抽出する定型文抽出手段と、前記定型
文抽出手段によって抽出された定型文および前記定型文
に含まれる前記単語nグラムの組を保存する定型文保存
手段と、前記コーパスに含まれる所定の文の集合である
クラスに対して前記クラス相互の類似度を計算し、前記
類似度が最も高い2つのクラスを1つのクラスとするマ
ージを行う定型文クラスタリング手段とを備えた構成を
有している。
In view of the above points, the invention according to claim 1 divides each sentence included in a corpus, which is a set of predetermined sentences, into words constituting each sentence. The morpheme analysis means and the words obtained by dividing each sentence included in the corpus are connected based on a predetermined rule to generate a word n-gram (n is a natural number of 1 or more), and the word a word n-gram dictionary means for extracting and storing word n-grams satisfying a predetermined condition from n-grams;
The n-grams of a predetermined type in the n-grams stored by the gram dictionary means are combined to generate a set of word n-grams, and a sentence in which the ratio including the set of word n-grams is a predetermined threshold value or more is the corpus. A fixed sentence extracting means for extracting as a fixed sentence from among the sentences included in the fixed sentence, a fixed sentence saving means for saving the fixed sentence extracted by the fixed sentence extracting means and the set of the word n-gram included in the fixed sentence, A fixed sentence clustering means for calculating a similarity between the classes with respect to a class which is a set of predetermined sentences included in the corpus, and performing merging in which the two classes having the highest similarity are merged into one class. It has a configuration including.

【0012】この構成により、定型文クラスタリング手
段を設けて類似した定型文を検出してマージするため、
コーパスから抽出した定型文のうちの類似した定型文を
1つのクラスにまとめ、定型文のクラスとして出力する
ことが可能な定型文クラスタリング装置を実現すること
ができる。
With this configuration, since the fixed phrase clustering means is provided to detect and merge similar fixed phrases,
It is possible to realize a fixed sentence clustering device that can combine similar fixed phrases among the fixed phrases extracted from the corpus into one class and output them as a fixed phrase class.

【0013】また、請求項2に係る発明は、請求項1に
おいて、さらに、前記単語nグラム辞書手段で抽出する
単語nグラムが満たす前記所定の条件が、前記抽出され
る文中に前記単語nグラムが出現する回数である生起回
数が所定回数以上である構成を有している。この構成に
より、定型文クラスタリング手段を設けて類似した定型
文を検出してマージするため、コーパスから抽出した定
型文のうちの類似した定型文を1つのクラスにまとめ、
定型文のクラスとして出力することが可能な定型文クラ
スタリング装置を実現することができる。
The invention according to claim 2 is the method according to claim 1, wherein the predetermined condition satisfied by the word n-gram extracted by the word n-gram dictionary means is the word n-gram in the extracted sentence. The number of occurrences, which is the number of occurrences of, is greater than or equal to a predetermined number. With this configuration, the fixed phrase clustering means is provided to detect and merge similar fixed phrases, so that similar fixed phrases among the fixed phrases extracted from the corpus are combined into one class,
It is possible to realize a fixed sentence clustering device that can output as a fixed sentence class.

【0014】また、請求項3に係る発明は、所定の文の
集合であるコーパスに含まれる各文を、前記各文を構成
する単語毎に分割するステップと、前記コーパスに含ま
れる各文を分割して得られた前記単語を、所定の規則に
基づいて連ねて単語nグラム(nは1以上の自然数。)
を生成し、前記単語nグラムの中から所定の条件を満た
す単語nグラムを抽出して保存する単語nグラム辞書ステ
ップと、前記単語nグラム辞書ステップによって保存さ
れた単語nグラムにおける所定種類の単語nグラムを組み
合わせて単語nグラムの組を生成し、前記単語nグラム
の組を含む割合が所定しきい値以上となる文を前記コー
パスに含まれる文の中から定型文として抽出する定型文
抽出ステップと、前記定型文抽出ステップによって抽出
された定型文および前記定型文に含まれる前記単語nグ
ラムの組を保存するステップと、前記コーパスに含まれ
る所定の文の集合であるクラスに対して前記クラス相互
の類似度を計算し、前記類似度が最も高い2つのクラス
を1つのクラスとするマージを行うステップとを備えた
構成を有している。
In the invention according to claim 3, a step of dividing each sentence included in the corpus, which is a set of predetermined sentences, into words constituting each sentence, and each sentence included in the corpus are divided. The words obtained by dividing the words are connected based on a predetermined rule to form a word n-gram (n is a natural number of 1 or more.).
And a word n-gram dictionary step of extracting and storing word n-grams satisfying a predetermined condition from the word n-grams, and a predetermined type of word in the word n-grams saved by the word n-gram dictionary step. A standard sentence extraction for generating a set of word n-grams by combining n-grams, and extracting a sentence having a ratio including the set of word n-grams equal to or more than a predetermined threshold value as a standard sentence from the sentences included in the corpus. A step, a step of saving a set of the fixed phrase extracted by the fixed phrase extraction step and the word n-gram included in the fixed phrase, and the class that is a set of predetermined sentences included in the corpus And a step of calculating the degree of similarity between the classes and merging the two classes having the highest degree of similarity into one class.

【0015】この構成により、類似した定型文を検出し
てマージするステップを設けたため、コーパスから抽出
した定型文のうちの類似した定型文を1つのクラスにま
とめ、定型文のクラスとして出力することが可能な定型
文クラスタリング方法を実現することができる。
With this configuration, a step of detecting and merging similar fixed phrases is provided. Therefore, similar fixed phrases among the fixed phrases extracted from the corpus are combined into one class and output as a fixed phrase class. It is possible to realize a fixed sentence clustering method that enables

【0016】また、請求項4に係る発明は、請求項3に
おいて、さらに、 前記単語nグラム辞書ステップで抽
出する単語nグラムが満たす前記所定の条件は、前記抽
出される文中に前記単語nグラムが出現する回数である
生起回数が所定回数以上である構成を有している。この
構成により、類似した定型文を検出してマージするステ
ップを設けたため、コーパスから抽出した定型文のうち
の類似した定型文を1つのクラスにまとめ、定型文のク
ラスとして出力することが可能な定型文クラスタリング
方法を実現することができる。
The invention according to claim 4 is the method according to claim 3, wherein the predetermined condition satisfied by the word n-gram extracted in the word n-gram dictionary step is the word n-gram in the extracted sentence. The number of occurrences, which is the number of occurrences of, is greater than or equal to a predetermined number. With this configuration, since a step of detecting and merging similar fixed phrases is provided, it is possible to combine similar fixed phrases among the fixed phrases extracted from the corpus into one class and output them as a fixed phrase class. A fixed-form sentence clustering method can be realized.

【0017】また、請求項5に係る発明は、請求項3ま
たは4において、さらに、 前記単語nグラム辞書ステ
ップで単語nグラムを生成する際に基づく所定の規則
は、前記各文を構成する単語の配列の順番を保ちながら
n個(nは1以上の自然数。)連ねて単語nグラムを生
成する規則である構成を有している。この構成により、
類似した定型文を検出してマージするステップを設けた
ため、コーパスから抽出した定型文のうちの類似した定
型文を1つのクラスにまとめ、定型文のクラスとして出
力することが可能な定型文クラスタリング方法を実現す
ることができる。
The invention according to claim 5 is the method according to claim 3 or 4, further comprising: a predetermined rule based on the generation of the word n-gram in the word n-gram dictionary step, While maintaining the order of the array of n, n (n is a natural number of 1 or more) is connected to generate a word n-gram. With this configuration,
Since a step of detecting and merging similar fixed phrases is provided, a fixed phrase clustering method capable of collecting similar fixed phrases among the fixed phrases extracted from the corpus into one class and outputting as a fixed phrase class. Can be realized.

【0018】[0018]

【発明の実施の形態】以下、添付図面を参照し、本発明
の第1の実施の形態に係る定型文クラスタリング装置に
ついて説明する。図1に、本発明の第1の実施の形態に
係る定型文クラスタリング装置のブロック構成図を示
す。図1において、定型文クラスタリング装置100
は、形態素解析手段10、単語nグラム辞書手段(nは
1以上の自然数。)20、定型文抽出手段30、定型文
保存手段40、および定型文クラスタリング手段50に
よって構成される。
BEST MODE FOR CARRYING OUT THE INVENTION A fixed phrase clustering apparatus according to a first embodiment of the present invention will be described below with reference to the accompanying drawings. FIG. 1 shows a block configuration diagram of a fixed text clustering apparatus according to a first exemplary embodiment of the present invention. In FIG. 1, the fixed-form sentence clustering apparatus 100.
Is composed of a morpheme analysis unit 10, a word n-gram dictionary unit (n is a natural number of 1 or more) 20, a fixed sentence extraction unit 30, a fixed sentence storage unit 40, and a fixed sentence clustering unit 50.

【0019】形態素解析手段10は、定型文クラスタリ
ング装置100に外部から入力された公知のコーパスに
含まれる各文を、各文を構成する単語に分割する(以
下、形態素解析という。)ための手段である。単語nグ
ラム辞書手段20は、上記のコーパスに含まれる各文を
分割して得られた単語を、所定の規則に基づいて連ねて
単語nグラム(nは1以上の自然数。)を生成し、単語
nグラムの中から所定の条件を満たす単語nグラムを抽
出して保存するための手段である。
The morphological analysis means 10 divides each sentence included in a publicly known corpus externally input to the standard sentence clustering apparatus 100 into words constituting each sentence (hereinafter referred to as morphological analysis). Is. The word n-gram dictionary means 20 connects the words obtained by dividing each sentence included in the corpus according to a predetermined rule to generate a word n-gram (n is a natural number of 1 or more), This is a means for extracting and saving word n-grams satisfying a predetermined condition from the word n-grams.

【0020】ここで、上記の所定の条件として、抽出さ
れる文中に単語nグラムが出現する回数(以下、生起回
数という。)が所定回数以上であることを条件とするの
でも良い。また、上記の所定の規則として、各文を構成
する単語の配列の順番を保ちながらn個(nは1以上の
自然数。)連ねて単語nグラムを生成するという規則で
も良い。
Here, the predetermined condition may be that the number of times the word n-gram appears in the extracted sentence (hereinafter, referred to as the occurrence number) is a predetermined number or more. The predetermined rule may be a rule that n words (n is a natural number greater than or equal to 1) are continuously formed to generate a word n-gram while maintaining the order of arrangement of the words forming each sentence.

【0021】定型文抽出手段30は、単語nグラム辞書
手段20によって保存された単語nグラムにおける所定
種類の単語nグラムを組み合わせて単語nグラムの組を
生成し、単語nグラムの組を含む割合が所定しきい値以
上となる文を上記のコーパスに含まれる文の中から定型
文として抽出するための手段である。定型文保存手段4
0は、定型文抽出手段30によって抽出された定型文お
よびその定型文に含まれる単語nグラムの組を保存する
ための手段である。
The fixed phrase extraction means 30 combines word n-grams of a predetermined type in the word n-gram dictionary means 20 to generate a set of word n-grams, and a ratio including the set of word n-grams. Is a means for extracting a sentence having a predetermined threshold value or more from the sentences included in the corpus as a fixed sentence. Fixed phrase storage means 4
Reference numeral 0 is a means for storing a fixed sentence extracted by the fixed sentence extracting means 30 and a set of word n-grams included in the fixed sentence.

【0022】定型文クラスタリング手段50は、上記の
コーパスに含まれる所定の文の集合であるクラスに対し
てクラス相互の類似度を計算し、類似度が最も高い2つ
のクラスを1つのクラスとするマージを行うための手段
である。
The standard sentence clustering means 50 calculates the degree of similarity between classes for a class which is a set of predetermined sentences included in the corpus, and sets the two classes having the highest degree of similarity as one class. It is a means for merging.

【0023】なお、本発明の第1の実施の形態において
は、日本語を処理の対象にした場合について説明した
が、英語、フランス語、その他の外国語を処理対象とす
る場合でも、同様に、定型文を抽出し、クラスタリング
することが可能である。それらを対象とする定型文クラ
スタリング装置については、上記の記載から自明である
ため、その説明を省略する。
In the first embodiment of the present invention, the case where Japanese is the object of processing has been described, but the same applies when English, French and other foreign languages are the objects of processing. It is possible to extract fixed phrases and perform clustering. The fixed-form sentence clustering device for them is obvious from the above description, and therefore its explanation is omitted.

【0024】以上説明したように、本発明の第1の実施
の形態に係る定型文クラスタリング装置は、定型文クラ
スタリング手段を設けて類似した定型文を検出してマー
ジするため、コーパスから抽出した定型文のうちの類似
した定型文を1つのクラスにまとめてクラスタリング
し、定型文のクラスとして出力することができる。
As described above, the fixed-form sentence clustering apparatus according to the first embodiment of the present invention is provided with fixed-form sentence clustering means to detect and merge similar fixed-form sentences. It is possible to cluster similar similar fixed phrases into one class and output them as a fixed phrase class.

【0025】図2は、本発明の第2の実施の形態に係る
定型文クラスタリング方法における処理の流れを示すフ
ローチャートである。なお、本発明の第2の実施の形態
に係る定型文クラスタリング方法が実行される装置の構
成は、図1に示す本発明の第1の実施の形態に係る定型
文クラスタリング装置の構成と同じであり、その説明は
省略する。
FIG. 2 is a flow chart showing the flow of processing in the fixed text clustering method according to the second embodiment of the present invention. The configuration of the device for executing the boilerplate clustering method according to the second embodiment of the present invention is the same as the configuration of the boilerplate clustering device according to the first embodiment of the present invention shown in FIG. Therefore, the description thereof will be omitted.

【0026】ステップS201で、形態素解析手段10
は、公知のコーパス中の全ての文を対象に形態素解析す
る。具体的には、外部からコーパスが入力されると、コ
ーパスに含まれる各文を分割してそれを構成する単語に
する。ステップS202で、単語nグラム辞書手段20
は、上記のコーパスに含まれる各文を分割して得られた
単語を、所定の規則に基づいて連ねて単語nグラム(n
は1以上の自然数。)を生成し、単語nグラムの中から
所定の条件を満たす単語nグラムを抽出して保存する。
In step S201, the morphological analysis means 10
Performs morphological analysis on all sentences in a known corpus. Specifically, when a corpus is input from the outside, each sentence included in the corpus is divided into words that compose it. In step S202, the word n-gram dictionary means 20.
Is a word obtained by dividing each sentence included in the above corpus based on a predetermined rule.
Is a natural number of 1 or more. ) Is generated, a word n-gram satisfying a predetermined condition is extracted from the word n-grams and stored.

【0027】ここで、上記の所定の条件として、抽出さ
れる文中に単語nグラムが出現する回数(以下、生起回
数という。)が所定回数以上であることを条件とするの
でも良い。また、上記の所定の規則として、各文を構成
する単語の配列の順番を保ちながらn個(nは1以上の
自然数。)連ねて単語nグラムを生成するという規則で
も良い。
Here, the predetermined condition may be that the number of times the word n-gram appears in the extracted sentence (hereinafter referred to as the number of occurrences) is a predetermined number or more. The predetermined rule may be a rule that n words (n is a natural number greater than or equal to 1) are continuously formed to generate a word n-gram while maintaining the order of arrangement of the words forming each sentence.

【0028】ステップS203で、定型文抽出手段30
は、ステップS202で得られた単語nグラム辞書を使
って、所定種類の単語nグラムを組み合わせて単語nグ
ラムの組を生成し、コーパス中の各文についてその単語
nグラムの組の含有率を算出する。ステップS204
で、定型文抽出手段30は、ステップS203で算出し
た含有率が所定しきい値以上となる文を上記のコーパス
に含まれる文の中から定型文として抽出し、その定型文
とともにそれを与える単語nグラムの組を集めて定型文
の集合を作成する。ここで、上記で抽出された定型文や
定型文の集合を、定型文保存手段40に保存しておくの
でも良い。
In step S203, the fixed phrase extraction means 30
Generates a set of word n-grams by combining word n-grams of a predetermined type using the word n-gram dictionary obtained in step S202, and determines the content rate of the word n-gram set for each sentence in the corpus. calculate. Step S204
Then, the fixed phrase extraction means 30 extracts a sentence whose content ratio calculated in step S203 is equal to or more than a predetermined threshold value as a fixed phrase from the sentences included in the corpus, and gives the fixed phrase together with the fixed phrase. Collect a set of n-grams to create a set of fixed phrases. Here, the fixed sentence or a set of fixed sentences extracted above may be stored in the fixed sentence storage unit 40.

【0029】ステップS205で、定型文クラスタリン
グ手段50は、予め決められた自然数を定型文のクラス
数Cとして、ステップS204で作成された定型文の集
合からC+1個の定型文を取り出し、各定型文に対応す
る1文からなるクラスを作り、各クラス間の類似度を計
算する。ステップS206で、定型文クラスタリング手
段50は、ステップS205で求められた各クラス間の
類似度の中で最も類似度が高い2つのクラスをマージす
る。
In step S205, the fixed phrase clustering means 50 extracts C + 1 fixed phrases from the set of fixed phrases created in step S204, using a predetermined natural number as the number of classes of fixed phrases, C, and extracts each fixed sentence. A class consisting of one sentence corresponding to is created and the similarity between the classes is calculated. In step S206, the fixed phrase clustering unit 50 merges the two classes having the highest similarity among the classes obtained in step S205.

【0030】ステップS207で、定型文クラスタリン
グ手段50は、ステップS205または後述するステッ
プS208で所定個数の文が取り出された後の定型文の
集合(以下、残りの定型文の集合という。)が空集合か
否かを判断する。ステップS207で残りの定型文の集
合が空集合でないと判断された場合、ステップS208
で、定型文クラスタリング手段50は、残りの定型文の
集合から、さらに1個の定型文を取り出して新たなクラ
スを作り、各クラス間の類似度を計算する。
In step S207, the fixed-form sentence clustering unit 50 has an empty set of fixed-form sentences (hereinafter, referred to as a set of remaining fixed-form sentences) after a predetermined number of sentences are extracted in step S205 or step S208 described later. Judge whether it is a set or not. If it is determined in step S207 that the remaining set of fixed phrases is not an empty set, step S208
Then, the fixed-form sentence clustering unit 50 extracts one more fixed-form sentence from the remaining set of fixed-form sentences, creates a new class, and calculates the similarity between the classes.

【0031】ステップS208での処理が終了したら、
処理はステップS206に戻り上記の処理を繰り返す。
ステップS207で残りの定型文の集合が空集合である
と判断された場合、定型文クラスタリング手段50は、
定型文をクラスに分類(以下、クラスタリングとい
う。)した結果を出力する。
When the processing in step S208 is completed,
The process returns to step S206 to repeat the above process.
When it is determined in step S207 that the remaining set of fixed phrases is an empty set, the fixed phrase clustering unit 50
The result of classifying fixed phrases into classes (hereinafter referred to as clustering) is output.

【0032】以下に、日本語を対象にして上記各ステッ
プでの処理について説明する。また、以下の説明では、
外部から入力されたコーパスに、図3(a)に例文とし
て示す6つの文が含まれていたものとする。ステップS
201で、形態素解析手段10は、例文1〜6を対象
に、各文を単語に分割する。例文1を形態素解析した結
果を図3(b)に示す。
The processing in each of the above steps will be described below for Japanese. Also, in the following explanation,
It is assumed that the corpus input from the outside includes six sentences shown as example sentences in FIG. Step S
At 201, the morphological analysis unit 10 divides each sentence into words for the example sentences 1 to 6. The result of morphological analysis of example sentence 1 is shown in FIG.

【0033】ステップS202で、単語nグラム辞書手
段20は、上記のコーパスに含まれる各文を分割して得
られた単語を用いて、所定の条件を満たす単語nグラム
を求める。この例に示すコーパスに対して生成された単
語nグラムの例を図3(c)に示す。図3(c)に示す
nが3の場合の単語3グラムは、連続する3つの単語
(「現在」、「は」、および「、」)がその順番を保ち
ながら単語列を形成する構成となっている。
In step S202, the word n-gram dictionary means 20 obtains a word n-gram satisfying a predetermined condition by using the words obtained by dividing each sentence included in the corpus. An example of the word n-gram generated for the corpus shown in this example is shown in FIG. The word 3 gram when n is 3 shown in FIG. 3C has a configuration in which three consecutive words (“present”, “ha”, and “,”) form a word string while maintaining their order. Has become.

【0034】コーパス中のすべての文に対して上記と同
様の処理を行い、得られた単語nグラムを集計して出現
頻度を計算する。例えば、図3(d)に示すように算出
される。ここで、上記のある条件として、例えば「出現
頻度が800回以上の単語nグラム」とすると、単語n
グラム辞書には図3(d)における単語3グラム「現在
/は/、」は登録されるが、単語4グラム「現在/は
/、/きのう」は登録されない。
The same processing as above is performed on all the sentences in the corpus, and the obtained word n-grams are totaled to calculate the appearance frequency. For example, it is calculated as shown in FIG. Here, as one of the above-mentioned certain conditions, for example, if "word n gram whose appearance frequency is 800 times or more" is used, the word n
The word 3 gram “current / wa /,” in FIG. 3 (d) is registered in the gram dictionary, but the word 4 gram “current / wa /, / yes” is not registered.

【0035】同様にして、この条件を満たす単語nグラ
ムを集めて、単語nグラム辞書を作成する。例えば、図
4(a)に示すようなエントリーをもつ単語nグラム辞
書が得られる。ステップS203で、定型文抽出手段3
0は、ステップS202で得られた単語nグラム辞書を
用いて所定の単語nグラムの組を形成し、コーパス中の
各文におけるこの単語nグラムの組を含む割合である含
有率を算出する。
Similarly, word n-grams satisfying this condition are collected to create a word n-gram dictionary. For example, a word n-gram dictionary having entries as shown in FIG. 4 (a) can be obtained. In step S203, the fixed phrase extraction means 3
In the case of 0, a predetermined set of word n-grams is formed using the word n-gram dictionary obtained in step S202, and the content rate, which is the ratio including this set of word n-grams in each sentence in the corpus, is calculated.

【0036】図3(a)に示す例2の各文については、
図4(a)に示す単語nグラム辞書2を用いて、図4
(b)に示すように含有率が計算される。以下、図3
(a)に示す例2における例文1を用いて説明する。例
文1には、図4(c)に示すように、図4(a)に示す
単語nグラムW1、W2、W3が各1つずつ含まれる。
図4(b)における含有率の計算では、分母に含有率の
計算対象の文を構成する単語の総数をとり、分子にその
文に含まれる各単語nグラムを構成する単語の総数をと
る。
For each sentence of Example 2 shown in FIG.
Using the word n-gram dictionary 2 shown in FIG.
The content rate is calculated as shown in (b). Below, FIG.
A description will be given using Example sentence 1 in Example 2 shown in (a). As illustrated in FIG. 4C, the example sentence 1 includes one word n-gram W1, W2, and W3 illustrated in FIG. 4A, respectively.
In the calculation of the content rate in FIG. 4B, the denominator is the total number of words constituting the sentence whose content rate is to be calculated, and the numerator is the total number of words constituting each word n-gram included in the sentence.

【0037】例文1の場合は、例文1を構成する単語の
総数は14であり、例文1に含まれる各単語nグラムW
1、W2、W3の各々を構成する単語数は、それぞれ、
3、3、3である。ステップS204で、定型文抽出手
段30は、コーパス中の文のうち、ステップS203で
算出された含有率が所定のしきい値以上となる文を定型
文として抽出し、抽出された定型文と共にそれを与える
単語nグラムの組を出力する。
In the case of the example sentence 1, the total number of words forming the example sentence 1 is 14, and each word n-gram W included in the example sentence 1 is W.
The number of words forming each of 1, W2 and W3 is
Three, three and three. In step S204, the fixed phrase extraction unit 30 extracts, from the sentences in the corpus, the sentence whose content rate calculated in step S203 is equal to or more than a predetermined threshold as a fixed phrase, and extracts it together with the extracted fixed phrase. Output a set of word n-grams that gives.

【0038】以下では、含有率のしきい値を例えば0.
5として説明する。この場合、例文1、例文2、例文
4、例文5、例文6については、各含有率が0.5以上
であるため、定型文として抽出される。しかし、例文3
については、含有率が0.25であって0.5以下であ
るため、定型文としては抽出されない。抽出された定型
文とそれを与える単語nグラムの組との対とし、その対
を集めて定型文の集合を作成する。
In the following, the threshold value of the content rate is, for example, 0.
5 will be described. In this case, since the content rates of the example sentence 1, the example sentence 2, the example sentence 4, the example sentence 5, and the example sentence 6 are 0.5 or more, they are extracted as the standard sentences. However, example sentence 3
For, the content rate is 0.25 and is 0.5 or less, so it is not extracted as a fixed phrase. A pair of the extracted fixed sentence and a set of word n-grams giving it is made into a pair, and the pair is collected to form a set of fixed sentence.

【0039】定型文の集合は、例えば、図4(c)に示
すように構成される。図4(c)において、例文1は、
単語nグラムW1、W2、W3によって構成される単語
nグラムの組を含むことを示す。ステップS205で、
定型文クラスタリング手段50は、予め決められた自然
数を定型文のクラス数Cとして、ステップS204で作
成された定型文の集合からC+1個の文を取り出し、各
文に対応する1文からなるクラスを作り、各クラス間の
類似度を計算する。
The set of fixed phrases is constructed, for example, as shown in FIG. In FIG. 4C, the example sentence 1 is
It is shown to include a set of word n-grams composed of word n-grams W1, W2, W3. In step S205,
The fixed-form sentence clustering means 50 takes a predetermined natural number as the number of classes of fixed-form sentences C, extracts C + 1 sentences from the set of fixed-form sentences created in step S204, and classifies one sentence corresponding to each sentence. Create and calculate the similarity between each class.

【0040】以下では、クラス数Cを2として説明す
る。ステップS205では、ステップS204で生成し
た定型文の集合から、例えば、3個の文、例文1、例文
2、例文5を取り出し、それぞれをクラス1(例文1か
らなるクラス)、クラス2(例文2からなるクラス)、
クラス3(例文5からなるクラス)の構成要素とする。
ステップS205でさらに計算されるクラス間の類似度
として、例えば、以下の式(1)に定義される関数Si
m(xi,xj)を用いることとする。
In the following description, the number of classes C is 2. In step S205, for example, three sentences, example sentence 1, example sentence 2, and example sentence 5 are extracted from the set of fixed-form sentences generated in step S204, and each of them is classified into class 1 (class consisting of example sentence 1) and class 2 (example sentence 2). Class consisting of),
It is a constituent element of class 3 (class consisting of example sentence 5).
As the similarity between the classes further calculated in step S205, for example, the function Si defined in the following equation (1) is used.
Let us use m (x i , x j ).

【0041】[0041]

【数1】 ここで、[Equation 1] here,

【数2】 である。[Equation 2] Is.

【0042】si、sjは、i番目のクラス、j番目のク
ラスを識別する記号である。また、xiは、クラスsi
含まれる単語nグラムの組であり、p種類の単語nグラ
ムxi 1〜xi pによって構成される。fiは、単語nグラ
ムの組を構成する各単語nグラムxi 1〜xi pが文中に含
まれる回数(以下、生起回数という。)fi 1〜fi pによ
って構成されるデータの組である。
Si, SjIs the i-th class, j-th class
It is a symbol that identifies a lath. Also, xiIs the class siTo
It is a set of included word n-grams, and p types of word n-grams.
Muxi 1~ Xi pComposed by. fiIs the word n
Each word n-gram that makes up a set of frames xi 1~ Xi pIs included in the sentence
Number of occurrences (hereinafter referred to as the number of occurrences) fi 1~ Fi pBy
Is a set of data that is composed of

【0043】同様に、xjは、クラスsjに含まれる単語
nグラムの組であり、q種類の単語nグラムxj 1〜xj q
によって構成される。fjは、単語nグラムの組を構成
する各単語nグラムxj 1〜xj qの生起回数fi 1〜fi p
よって構成されるデータの組である。また、分子に表れ
る総和の記号Σの下に位置する記号および式は、クラス
i、sjに含まれる単語nグラムの組xi、xjを構成す
る単語nグラムのうち同じ単語nグラム(例えば、xi r
とxj s)について、それらの生起回数(この例では、f
i rとfj s)を加算処理することを示す。図4(d)に示
す2つのクラスを例にとって説明する。
Similarly, x j is a word included in the class s j
It is a set of n-grams, and q kinds of words n-grams x j 1 to x j q.
Composed by. f j is a set of data composed of the occurrence times f i 1 ~f i p for each word n-gram x j 1 ~x j q constituting the set of word n-grams. Further, the symbols and expressions located below the summation symbol Σ appearing in the numerator are the same word n-gram among the word n-grams forming the pairs x i , x j of the word n-grams included in the classes s i , s j. (For example, x i r
And x j s ), their occurrences (in this example, f
i r and f j s ) are added. The two classes shown in FIG. 4D will be described as an example.

【0044】図4(d)に示す2つのクラス間の類似度
は、図4(d)に示す各生起回数を上記の式(1)に代
入して、
The degree of similarity between the two classes shown in FIG. 4D is obtained by substituting each occurrence number shown in FIG. 4D into the above equation (1).

【数3】 となる。[Equation 3] Becomes

【0045】ステップS206で、定型文クラスタリン
グ手段50は、ステップS205で求められた各クラス
間の類似度の中で最も類似度が高い2つのクラスをマー
ジする。上記の例2では、クラス1(例文1からなるク
ラス)とクラス2(例文2からなるクラス)、クラス1
とクラス3(例文5からなるクラス)、クラス2とクラ
ス3について類似度が計算される。
In step S206, the fixed text clustering means 50 merges the two classes having the highest similarity among the similarities obtained in step S205. In the above example 2, class 1 (class consisting of example sentence 1), class 2 (class consisting of example sentence 2), class 1
And class 3 (class consisting of example sentence 5) and class 2 and class 3 are calculated in similarity.

【0046】上記の例2では、クラス1とクラス2に出
現する各単語nグラム種類および出現回数(いずれも
1)が同じであるため、クラス1とクラス2間の類似度
は1.0となるが、クラス1とクラス3間の類似度、ク
ラス2とクラス3間の類似度については、出現する各単
語nグラム種類が全く異なるため、0となる。そのた
め、クラス1とクラス2間の類似度が最大と判断され、
クラス1とクラス2とがマージされて1つのクラス(例
文1と例文2からなるクラス)とされる。
In the above-described example 2, since each word n-gram type and the number of appearances (1 in each case) appearing in class 1 and class 2 are the same, the similarity between class 1 and class 2 is 1.0. However, the similarity between the class 1 and the class 3 and the similarity between the class 2 and the class 3 are 0 because the respective word n-gram types that appear are completely different. Therefore, the similarity between class 1 and class 2 is judged to be the maximum,
Class 1 and class 2 are merged into one class (class consisting of example sentence 1 and example sentence 2).

【0047】マージ後のクラスの単語nグラムは、例え
ば、マージ前の2つのクラスに含まれる全ての種類の単
語nグラムを含み、同一の種類の単語nグラムについて
は、2つのクラスでの生起回数を合計したものとする。
例えば、図4(d)に示すクラスs1とクラスs2とをマ
ージしたクラスs3は、 x3=(W27,W441,W78,W84),f3=(3,
3,1,1,3) と表される。
The word n-grams of the class after merging include, for example, word n-grams of all kinds included in the two classes before merging, and the word n-grams of the same kind occur in two classes. It shall be the total number of times.
For example, the class s 3 obtained by merging the class s 1 and the class s 2 shown in FIG. 4D is x 3 = (W27, W441, W78, W84), f 3 = (3,
3,1,1,3).

【0048】ステップS207で、定型文クラスタリン
グ手段50は、ステップS205またはステップS20
8で所定個数の文が取り出された後の定型文の集合が空
集合か否かを判断する。ステップS207で「残りの定
型文の集合」が空集合でないと判断された場合、ステッ
プS208で、定型文クラスタリング手段50は、残り
の定型文の集合から、さらに1個の定型文を取り出して
新たなクラスを作り、各クラス間の類似度を計算する。
In step S207, the fixed-form sentence clustering means 50 uses step S205 or step S20.
In step 8, it is determined whether the set of fixed phrases after the predetermined number of sentences have been extracted is an empty set. When it is determined in step S207 that the "remaining fixed phrase set" is not an empty set, the fixed phrase clustering unit 50 extracts one more fixed phrase from the remaining fixed phrase set and newly creates it in step S208. Create different classes and calculate the similarity between each class.

【0049】上記の例2に示す文を用いた場合では、ス
テップS207での処理の後、例えば、例文4を取り出
し、クラス4(例文4からなるクラス)の構成要素と
し、ステップS206での処理後に存在するC個の各ク
ラスとの類似度を計算する。すなわち、クラス1とクラ
ス4との類似度、クラス3とクラス4の類似度を計算
し、その後、処理はステップS206に戻る。
When the sentence shown in Example 2 above is used, after the processing in step S207, for example, the example sentence 4 is taken out and is made a constituent element of class 4 (class consisting of example sentence 4), and the process in step S206 is performed. Compute the similarity with each of the C classes that exist later. That is, the similarity between class 1 and class 4 and the similarity between class 3 and class 4 are calculated, and then the process returns to step S206.

【0050】ステップS206以降で、定型文の集合が
空になるまで上記と同様の処理が繰り返される。ステッ
プS207で「残りの定型文の集合」が空集合であると
判断された場合、定型文クラスタリング手段50は、定
型文をクラスタリングした結果を出力する。例えば、例
文1、例文2、例文4からなるクラス1と、例文5、例
文6からなるクラス5の2つのクラスが出力される。
After step S206, the same processing as described above is repeated until the set of fixed phrases becomes empty. If it is determined in step S207 that the "set of remaining fixed texts" is an empty set, the fixed text clustering unit 50 outputs the result of clustering the fixed texts. For example, two classes, that is, class 1 including example sentence 1, example sentence 2, and example sentence 4 and class 5 including example sentence 5 and example sentence 6, are output.

【0051】なお、本発明の第2の実施の形態において
は、日本語を処理の対象にした場合について説明した
が、英語、フランス語、その他の外国語を処理対象とす
る場合でも、同様に、定型文を抽出し、クラスタリング
することが可能である。それらを対象とする定型文クラ
スタリング方法については、上記の記載から自明である
ため、その説明を省略する。
In the second embodiment of the present invention, the case where Japanese is the object of processing has been described, but the same applies when English, French, and other foreign languages are the objects of processing. It is possible to extract fixed phrases and perform clustering. The fixed-form sentence clustering method for them is obvious from the above description, and therefore its explanation is omitted.

【0052】以上説明したように、本発明の第2の実施
の形態に係る定型文クラスタリング方法は、類似した定
型文を検出してマージするステップを設けたため、コー
パスから抽出した定型文のうちの類似した定型文を1つ
のクラスにまとめてクラスタリングし、定型文のクラス
として出力することができる。
As described above, the fixed phrase clustering method according to the second embodiment of the present invention has a step of detecting and merging similar fixed phrases, and therefore, among fixed phrases extracted from the corpus. It is possible to cluster similar similar phrases into one class and output as a fixed phrase class.

【0053】[0053]

【発明の効果】以上説明したように、本発明は、コーパ
スから抽出した定型文のうちの類似した定型文を1つの
クラスにまとめてクラスタリングし、定型文のクラスと
して出力することが可能な定型文クラスタリング装置お
よび方法を実現することができる。
As described above, according to the present invention, the fixed phrases that are similar to each other among the fixed phrases extracted from the corpus are clustered into one class and can be output as the fixed phrase class. A sentence clustering apparatus and method can be realized.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の第1の実施の形態に係る定型文クラス
タリング装置のブロック構成図である。
FIG. 1 is a block configuration diagram of a fixed sentence clustering device according to a first exemplary embodiment of the present invention.

【図2】本発明の第2の実施の形態に係る定型文クラス
タリング方法における処理の流れを示すフローチャート
である。
FIG. 2 is a flowchart showing a flow of processing in a boilerplate clustering method according to a second embodiment of the present invention.

【図3】本発明の第2の実施の形態に係る定型文クラス
タリング方法における処理の説明図である。
FIG. 3 is an explanatory diagram of processing in a boilerplate clustering method according to the second embodiment of the present invention.

【図4】本発明の第2の実施の形態に係る定型文クラス
タリング方法における処理の説明図である。
FIG. 4 is an explanatory diagram of processing in a boilerplate clustering method according to the second embodiment of the present invention.

【図5】従来の定型文抽出方法における処理の説明図で
ある。
FIG. 5 is an explanatory diagram of processing in a conventional fixed text extraction method.

【符号の説明】[Explanation of symbols]

10 形態素解析手段 20 単語nグラム辞書手段 30 定型文抽出手段 40 定型文保存手段 50 定型文クラスタリング手段 100 定型文クラスタリング装置 10 Morphological analysis means 20-word n-gram dictionary means 30 Fixed phrase extraction means 40 Fixed phrase storage means 50 Fixed sentence clustering means 100 Fixed sentence clustering device

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】所定の文の集合であるコーパスに含まれる
各文を、前記各文を構成する単語毎に分割する形態素解
析手段と、前記コーパスに含まれる各文を分割して得ら
れた前記単語を、所定の規則に基づいて連ねて単語nグ
ラム(nは1以上の自然数。)を生成し、前記単語nグ
ラムの中から所定の条件を満たす単語nグラムを抽出し
て保存する単語nグラム辞書手段と、前記単語nグラム辞
書手段によって保存された単語nグラムにおける所定種
類の単語nグラムを組み合わせて単語nグラムの組を生
成し、前記単語nグラムの組を含む割合が所定しきい値
以上となる文を前記コーパスに含まれる文の中から定型
文として抽出する定型文抽出手段と、前記定型文抽出手
段によって抽出された定型文および前記定型文に含まれ
る前記単語nグラムの組を保存する定型文保存手段と、
前記コーパスに含まれる所定の文の集合であるクラスに
対して前記クラス相互の類似度を計算し、前記類似度が
最も高い2つのクラスを1つのクラスとするマージを行
う定型文クラスタリング手段とを備えたことを特徴とす
る定型文クラスタリング装置。
1. A morphological analysis means for dividing each sentence included in a corpus, which is a set of predetermined sentences, into words constituting each sentence, and obtained by dividing each sentence included in the corpus. A word for generating a word n-gram (n is a natural number of 1 or more) by connecting the words in accordance with a predetermined rule, and extracting a word n-gram satisfying a predetermined condition from the word n-gram and storing the word. The n-gram dictionary means and the word n-gram stored in the word n-gram dictionary means are combined to generate a set of word n-grams, and a ratio including the set of word n-grams is predetermined. A fixed sentence extraction unit that extracts a sentence having a threshold value or more as a fixed sentence from sentences included in the corpus, a fixed sentence extracted by the fixed sentence extraction unit and the word n-gram included in the fixed sentence. Pair Fixed phrase storage means to save,
A fixed sentence clustering unit that calculates a similarity between the classes with respect to a class that is a set of predetermined sentences included in the corpus and performs merging with the two classes having the highest similarity as one class. A fixed-form sentence clustering device characterized by being provided.
【請求項2】前記単語nグラム辞書手段で抽出する単語
nグラムが満たす前記所定の条件は、前記抽出される文
中に前記単語nグラムが出現する回数である生起回数が
所定回数以上であることを特徴とする請求項1記載の定
型文クラスタリング装置。
2. The predetermined condition satisfied by the word n-gram extracted by the word n-gram dictionary means is that the number of occurrences of the word n-gram in the extracted sentence is a predetermined number or more. The fixed-form sentence clustering device according to claim 1.
【請求項3】所定の文の集合であるコーパスに含まれる
各文を、前記各文を構成する単語毎に分割するステップ
と、前記コーパスに含まれる各文を分割して得られた前
記単語を、所定の規則に基づいて連ねて単語nグラム
(nは1以上の自然数。)を生成し、前記単語nグラム
の中から所定の条件を満たす単語nグラムを抽出して保
存する単語nグラム辞書ステップと、前記単語nグラム辞
書ステップによって保存された単語nグラムにおける所
定種類の単語nグラムを組み合わせて単語nグラムの組
を生成し、前記単語nグラムの組を含む割合が所定しき
い値以上となる文を前記コーパスに含まれる文の中から
定型文として抽出する定型文抽出ステップと、前記定型
文抽出ステップによって抽出された定型文および前記定
型文に含まれる前記単語nグラムの組を保存するステッ
プと、前記コーパスに含まれる所定の文の集合であるク
ラスに対して前記クラス相互の類似度を計算し、前記類
似度が最も高い2つのクラスを1つのクラスとするマー
ジを行うステップとを備えたことを特徴とする定型文ク
ラスタリング方法。
3. A step of dividing each sentence included in a corpus, which is a set of predetermined sentences, into words constituting each sentence, and the word obtained by dividing each sentence included in the corpus. To generate a word n-gram (n is a natural number of 1 or more.) Based on a predetermined rule, and extract a word n-gram satisfying a predetermined condition from the word n-gram and store it. A combination of the dictionary step and a predetermined type of word n-gram in the word n-gram stored by the word n-gram dictionary step is combined to generate a set of word n-grams, and a ratio including the set of word n-grams is a predetermined threshold value. The fixed sentence extraction step of extracting the above sentence as a fixed sentence from the sentences included in the corpus, the fixed sentence extracted by the fixed sentence extraction step and the word n group included in the fixed sentence. Storing a set of rams, and calculating a degree of similarity between the classes, which is a set of predetermined sentences included in the corpus, and regards two classes having the highest degree of similarity as one class. A fixed-form sentence clustering method comprising a step of merging.
【請求項4】前記単語nグラム辞書ステップで抽出する
単語nグラムが満たす前記所定の条件は、前記抽出され
る文中に前記単語nグラムが出現する回数である生起回
数が所定回数以上であることを特徴とする請求項3記載
の定型文クラスタリング方法。
4. The predetermined condition satisfied by the word n-gram extracted in the word n-gram dictionary step is that the number of occurrences of the word n-gram in the extracted sentence is a predetermined number or more. The fixed sentence clustering method according to claim 3, wherein:
【請求項5】前記単語nグラム辞書ステップで単語nグ
ラムを生成する際に基づく所定の規則は、前記各文を構
成する単語の配列の順番を保ちながらn個(nは1以上
の自然数。)連ねて単語nグラムを生成する規則である
ことを特徴とする請求項3または4記載の定型文クラス
タリング方法。
5. A predetermined rule based on generating the word n-gram in the word n-gram dictionary step is n pieces (n is a natural number of 1 or more) while maintaining the order of arrangement of the words forming each sentence. 5. The fixed sentence clustering method according to claim 3 or 4, wherein the rule is a concatenation to generate a word n-gram.
JP2001274396A 2001-09-11 2001-09-11 Fixed form sentence clustering device and method Pending JP2003085170A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001274396A JP2003085170A (en) 2001-09-11 2001-09-11 Fixed form sentence clustering device and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001274396A JP2003085170A (en) 2001-09-11 2001-09-11 Fixed form sentence clustering device and method

Publications (1)

Publication Number Publication Date
JP2003085170A true JP2003085170A (en) 2003-03-20

Family

ID=19099428

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001274396A Pending JP2003085170A (en) 2001-09-11 2001-09-11 Fixed form sentence clustering device and method

Country Status (1)

Country Link
JP (1) JP2003085170A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005208483A (en) * 2004-01-26 2005-08-04 Neikusu:Kk Device and program for speech recognition, and method and device for language model generation
JP2015172880A (en) * 2014-03-12 2015-10-01 株式会社デンソーアイティーラボラトリ Template generation device and template generation program
WO2020044558A1 (en) * 2018-08-31 2020-03-05 富士通株式会社 Classification rule generation program, classification rule generation method, and classification rule generation device

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005208483A (en) * 2004-01-26 2005-08-04 Neikusu:Kk Device and program for speech recognition, and method and device for language model generation
JP2015172880A (en) * 2014-03-12 2015-10-01 株式会社デンソーアイティーラボラトリ Template generation device and template generation program
WO2020044558A1 (en) * 2018-08-31 2020-03-05 富士通株式会社 Classification rule generation program, classification rule generation method, and classification rule generation device
JPWO2020044558A1 (en) * 2018-08-31 2021-04-30 富士通株式会社 Classification rule generator, classification rule generation method and classification rule generator
JP7044162B2 (en) 2018-08-31 2022-03-30 富士通株式会社 Classification rule generator, classification rule generation method and classification rule generator

Similar Documents

Publication Publication Date Title
CN106847288B (en) Error correction method and device for voice recognition text
CN107797991B (en) Dependency syntax tree-based knowledge graph expansion method and system
WO2019080863A1 (en) Text sentiment classification method, storage medium and computer
CN111353306B (en) Entity relationship and dependency Tree-LSTM-based combined event extraction method
CN110853625B (en) Speech recognition model word segmentation training method and system, mobile terminal and storage medium
CN110008474A (en) A kind of key phrase determines method, apparatus, equipment and storage medium
JP4534666B2 (en) Text sentence search device and text sentence search program
CN107526721A (en) A kind of disambiguation method and device to electric business product review vocabulary
JP5564705B2 (en) Sentence structure analyzing apparatus, sentence structure analyzing method, and sentence structure analyzing program
JP2007219620A (en) Text retrieval device, program, and method
JP2003085170A (en) Fixed form sentence clustering device and method
Ahmed et al. Gold dataset for the evaluation of bangla stemmer
JP2003323426A (en) Translation rule extracting program, translation rule integration program and translation program
JP2004341948A (en) Concept extraction system, concept extraction method, program therefor, and storing medium thereof
CN110069780B (en) Specific field text-based emotion word recognition method
JP4088171B2 (en) Text analysis apparatus, method, program, and recording medium recording the program
JP3919720B2 (en) Paraphrasing device and computer program
JP2005025555A (en) Thesaurus construction system, thesaurus construction method, program for executing the method, and storage medium with the program stored thereon
JP2009140411A (en) Text summarization device and text summarization method
JP4940251B2 (en) Document processing program and document processing apparatus
JPH103478A (en) Concept similarity discrimination method
JP2001249921A (en) Compound word analysis method and device and recording medium having compound word analysis program recorded thereon
JPH0743728B2 (en) Summary sentence generation method
JP5521670B2 (en) Pattern matching device, translation device, translation system, and translation program
JP5366709B2 (en) Information processing apparatus, common character string output method, and program