JPH08221434A - Corpus preparing method - Google Patents

Corpus preparing method

Info

Publication number
JPH08221434A
JPH08221434A JP7024942A JP2494295A JPH08221434A JP H08221434 A JPH08221434 A JP H08221434A JP 7024942 A JP7024942 A JP 7024942A JP 2494295 A JP2494295 A JP 2494295A JP H08221434 A JPH08221434 A JP H08221434A
Authority
JP
Japan
Prior art keywords
keyword
sentence
corpus
keywords
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7024942A
Other languages
Japanese (ja)
Inventor
Junichi Matsuda
純一 松田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP7024942A priority Critical patent/JPH08221434A/en
Publication of JPH08221434A publication Critical patent/JPH08221434A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE: To attain the reconstruction of a corpus by providing processing time corresponding to the usage purpose of the corpus by imparting a keyword to each sentence in the corpus and extracting representative example sentence while using the including relation of the keyword. CONSTITUTION: A keyword number table is searched to calculate a sentence number IM of a sentence for which a representative sentence flag is '0' and the number of keywords is maximum (504). Then, a sentence S (IM) of an IM-th record in a large scale corpus is read (506) and written in a small scale corpus (507). Further, a representative sentence flag F (IM) of the keyword number table is changed into 1 (508). Besides, the keyword table is searched to successively read keywords K (IM, k) [0<<=m(IM)] of the snetence having the sentence number IM, and existing flag G(j) of the same keyword K(j) in the keyword table is turned to 1 (512). This processing is performed until all the existing flags of the keyword table are turned to 1 and all the keywords are covered.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、文書データを作成する
方法に関し、特に、大規模コーパスから小規模コーパス
を作成する方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for creating document data, and more particularly to a method for creating a small scale corpus from a large scale corpus.

【0002】[0002]

【従来の技術】コーパスは、自然言語処理や文書処理で
利用するための蓄積されたテキストデータのことであ
る。具体的な利用方法としては、例えば、翻訳支援シス
テムで、翻訳したい文と類似した例文をコーパス中から
検索して参照することが考えられる。
2. Description of the Related Art A corpus refers to accumulated text data for use in natural language processing and document processing. As a specific usage method, for example, a translation support system may be used to search and refer to an example sentence similar to the sentence to be translated from the corpus.

【0003】従来、コーパスには、ありのままの文を累
積して蓄積することが一般的であるが、ただ文を蓄積し
ていくと容量が大きくなることがある。この場合、デー
タ圧縮技術を用いて、容量を少なくすることが行われて
いる。
Conventionally, it is general to accumulate and store unsent sentences in the corpus, but the capacity may increase as the sentences are simply accumulated. In this case, a data compression technique is used to reduce the capacity.

【0004】[0004]

【発明が解決しようとする課題】しかし、文の数が何百
万文ともなると、データ圧縮だけでは、コーパスをアク
セスするときに、実用的な処理時間が得られない可能性
がある。
However, when the number of sentences reaches millions, data compression alone may not be able to obtain a practical processing time when accessing the corpus.

【0005】本発明の目的は、コーパスの使用目的に応
じて実用的な処理時間を得られるようにコーパスを再構
築することにある。
An object of the present invention is to reconstruct a corpus so that a practical processing time can be obtained according to the purpose of use of the corpus.

【0006】[0006]

【課題を解決するための手段】大規模コーパス中には、
類似した文がいくつも含まれている可能性があるので、
類似した文を削除することによって、文数を減らすこと
ができる。ただし、単なる文字列マッチングによる類似
度の計算では、類似した文の異なる部分に重要語が含ま
れていることがあり、文数を減らしたときに貴重な情報
をも減らしてしまう可能性がある。
[Means for Solving the Problems] During a large corpus,
Since it may contain several similar sentences,
The number of sentences can be reduced by deleting similar sentences. However, when calculating the degree of similarity by simple string matching, important words may be included in different parts of similar sentences, and valuable information may be reduced when the number of sentences is reduced. .

【0007】本発明は、上記目的を達成するために、コ
ーパス中の各文にキーワードを付与し、キーワードの包
含関係を用いて、代表的な例文を抽出する。
In order to achieve the above object, the present invention assigns a keyword to each sentence in a corpus and extracts a representative example sentence by using the inclusion relation of the keywords.

【0008】[0008]

【作用】コーパス中の各文にキーワードを付与し、キー
ワードの多いものから優先的に文を選択し、できるだけ
少ない文数で、すべての、又は、できるだけ多くのキー
ワードを網羅するように文を選択する。
[Function] Gives a keyword to each sentence in the corpus, preferentially selects a sentence with a large number of keywords, and selects a sentence so as to cover all or as many keywords as possible with the smallest number of sentences. To do.

【0009】[0009]

【実施例】図1は、本発明のコーパス作成処理全体のブ
ロック図である。大規模コーパス11に対してキーワー
ド付与処理部12でキーワードを付与し、キーワードを
記入した大規模コーパス13を作成する。さらに、代表
文選択処理部14で代表文を選び、小規模コーパス15
を作成する。キーワード付与処理部12は、形態素解析
処理部,訳語対応付け処理部,機械翻訳処理部などから
構成される。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENT FIG. 1 is a block diagram of the entire corpus creation process of the present invention. Keywords are added to the large-scale corpus 11 by the keyword addition processing unit 12, and the large-scale corpus 13 in which the keywords are entered is created. Furthermore, the representative sentence selection processing unit 14 selects a representative sentence, and the small-scale corpus 15 is selected.
Create The keyword assignment processing unit 12 is composed of a morphological analysis processing unit, a translated word association processing unit, a machine translation processing unit, and the like.

【0010】まず、キーワード付与処理部を説明する。
キーワードを付与する方法は、目的によって幾つかの方
法がある。
First, the keyword assignment processing section will be described.
There are several methods of assigning keywords depending on the purpose.

【0011】図6は、大規模コーパスの構造を示したも
のである。大規模コーパスの各レコードは、文番号61
と文62から構成される。
FIG. 6 shows the structure of a large-scale corpus. Each record in the large corpus has a sentence number 61
And a sentence 62.

【0012】図7は、形態素解析結果記憶テーブルの構
造を示したものである。形態素解析結果記憶テーブル
は、単語番号71,単語72,品詞73から構成され
る。
FIG. 7 shows the structure of the morphological analysis result storage table. The morphological analysis result storage table includes word numbers 71, words 72, and parts of speech 73.

【0013】図8は、文とキーワードの対応関係を表し
たキーワードテーブルの構造を示したものである。キー
ワードテーブルは、文番号81とキーワード82から構
成される。
FIG. 8 shows the structure of a keyword table showing the correspondence between sentences and keywords. The keyword table includes sentence numbers 81 and keywords 82.

【0014】図9は、文とキーワード数の対応関係を表
したキーワード数テーブルの構造を示したものである。
キーワード数テーブルは、文番号91とキーワード数9
2,代表文フラグ93から構成される。代表文フラグ9
3には、初期値0が記述されている。
FIG. 9 shows the structure of a keyword number table showing the correspondence between sentences and keyword numbers.
The keyword number table has a sentence number 91 and a keyword number 9
2. It consists of a representative sentence flag 93. Representative sentence flag 9
In 3, the initial value 0 is described.

【0015】図10は、キーワードが現れる文番号を表
示したキーワードテーブル2の構造を示したものであ
る。キーワードテーブル2は、キーワード101と文番
号102,既出フラグ103から構成される。文番号102
には、キーワードの表れた文の番号が、任意個カンマで
区切られて記述されている。既出フラグ103には、初
期値0が記述されている。
FIG. 10 shows the structure of the keyword table 2 displaying the sentence numbers in which the keywords appear. The keyword table 2 includes a keyword 101, a sentence number 102, and a flag 103 that has already appeared. Sentence number 102
In, the numbers of the sentences in which the keywords appear are described separated by arbitrary commas. An initial value 0 is described in the already-existing flag 103.

【0016】キーワード抽出の第1の方法は、予め決め
られた品詞H(k)(0≦k≦n3)をキーワードにする
方法である。この方法を、図2に示したフローチャート
に従って説明する。
The first method of keyword extraction is to use a predetermined part of speech H (k) (0≤k≤n3) as a keyword. This method will be described with reference to the flowchart shown in FIG.

【0017】まず、大規模コーパス中の各レコードの文
S(i)(0≦i≦n1)を順に読み込み(202)、
形態素解析する(203)。形態素解析の方法について
は、公知の技術を用いればよいので、詳細な説明は省略
する。形態素解析結果は、形態素解析結果テーブルに、
単語番号71,単語72,品詞73として記述する。な
お、単語72は、活用語の場合、終止形を記述する。単
語番号j(0≦i≦n2)の順に、形態素解析結果テー
ブルをサーチし、品詞I(i,j)が品詞H(k)と等
しいかどうかをチェックし(206)、等しければ、単
語番号jの単語W(i,j)をキーワードテーブルおよ
びキーワードテーブル2に登録する(207)。すべて
の単語について処理を終えたら、各文のキーワード数を
計算して(210)、キーワード数テーブルのキーワード
数欄92に登録する(212)。
First, the sentence S (i) (0≤i≤n1) of each record in the large-scale corpus is read in order (202),
Morphological analysis is performed (203). Since a known technique may be used for the method of morphological analysis, detailed description thereof will be omitted. The morphological analysis result is stored in the morphological analysis result table as
Described as a word number 71, a word 72, and a part of speech 73. It should be noted that the word 72 describes an end form in the case of an inflection word. The morphological analysis result table is searched in the order of word numbers j (0 ≦ i ≦ n2), and it is checked whether the part of speech I (i, j) is equal to the part of speech H (k) (206). The word W (i, j) of j is registered in the keyword table and the keyword table 2 (207). After processing all words, the number of keywords in each sentence is calculated (210) and registered in the keyword number column 92 of the keyword number table (212).

【0018】キーワード付与の第2の方法は、予め決め
られた単語X(k)(0<i≦n3)をキーワードにする
方法である。この場合、図2の品詞のマッチング処理
を、単語のマッチング処理に置き換える。すなわち、ス
テップ206を、W(i,j)=X(k)に置き換えれ
ばよい。
The second method of assigning a keyword is to use a predetermined word X (k) (0 <i≤n3) as a keyword. In this case, the part-of-speech matching process of FIG. 2 is replaced with a word matching process. That is, step 206 may be replaced with W (i, j) = X (k).

【0019】大規模コーパスが対訳コーパスであった場
合、キーワード付与の第3の方法として、対訳関係が正
しく特定できない部分をキーワードとする方法がある。
対訳関係が特定できないということは、単純に翻訳でき
ない翻訳の難しい部分であるとみなすことができ、翻訳
支援システムでの検索キーとして有効である。この処理
方法を、図3に示したフローチャートに従って説明す
る。
When the large-scale corpus is a bilingual corpus, a third method of assigning a keyword is to use a portion where the bilingual relationship cannot be correctly identified as a keyword.
The fact that the bilingual relationship cannot be specified can be regarded as a difficult part of translation that cannot be simply translated, and is effective as a search key in the translation support system. This processing method will be described with reference to the flowchart shown in FIG.

【0020】図11は、対訳コーパスの構造を示したも
のである。対訳コーパスの各レコードは、文番号110
1と原文1102,訳文1103から構成される。
FIG. 11 shows the structure of the bilingual corpus. Each record in the bilingual corpus has a sentence number 110.
1 and an original sentence 1102 and a translated sentence 1103.

【0021】まず、対訳コーパスの各文の原文S(i)と
訳文T(i)を順に読み込み(302)、翻訳用辞書を参照
しながら、対訳関係にある語を対応付ける(303)。
この方法については、例えば、特願平3−315981 号明細
書に記載された技術を用いることができる。この技術
は、文中に同一語句が2回出現したときのように、単な
る辞書の対訳関係だけでは対応付けができない場合に、
構文情報を利用して正しい対応付けを行うことができ
る。この結果、対訳語の対応が付いた単語は、形態素解
析結果テーブルの73の欄に対訳語I(i,j)として
記述する。次に、単語番号jの順に、形態素解析結果テ
ーブルをサーチして対訳語があるかをチェックし(30
5)、何も対訳語が記述されていなければ、単語番号j
の単語W(i,j)をキーワードとして、キーワードテ
ーブルおよびキーワードテーブル2に登録する(30
6)。すべての単語について処理を終えたら、各文のキ
ーワード数を計算して(309)、キーワード数テーブ
ルのキーワード数欄92に登録する(310)。
First, the original sentence S (i) and the translated sentence T (i) of each sentence of the bilingual corpus are read in order (302), and the words having a bilingual relationship are associated with each other while referring to the translation dictionary (303).
For this method, for example, the technique described in Japanese Patent Application No. 3-315981 can be used. This technique, when the same phrase appears twice in a sentence, when it is not possible to make a correspondence only by the parallel translation of a dictionary,
Correct correspondence can be made using syntactic information. As a result, the word associated with the parallel translation word is described as the parallel translation word I (i, j) in the column 73 of the morphological analysis result table. Next, the morphological analysis result table is searched in the order of the word number j to check whether there is a bilingual word (30
5), if no parallel word is described, word number j
Is registered in the keyword table and the keyword table 2 with the word W (i, j) of (30
6). After processing all words, the number of keywords in each sentence is calculated (309) and registered in the keyword number column 92 of the keyword number table (310).

【0022】大規模コーパスが対訳コーパスであって、
かつ、機械翻訳システムが使用できる場合、キーワード
付与の第4の方法として、翻訳結果が正しくない部分を
キーワードとすることができる。翻訳結果が正しくない
ということは、翻訳の難しい部分であるとみなすことが
でき、翻訳支援システムでの検索キーとして有効であ
る。また、機械翻訳システムの評価用例文として利用価
値が高い。この処理方法を、図4に示したフローチャー
トに従って説明する。
The large-scale corpus is a bilingual corpus,
In addition, when the machine translation system can be used, as a fourth method of assigning a keyword, a portion having an incorrect translation result can be used as a keyword. An incorrect translation result can be regarded as a difficult part of translation and is effective as a search key in the translation support system. It is also highly useful as an example sentence for evaluation of machine translation systems. This processing method will be described with reference to the flowchart shown in FIG.

【0023】図12は、翻訳結果テーブルの構造を示し
たものである。翻訳結果テーブルは、原文単語番号12
01,原文単語1202,訳語1203から構成されて
いる。まず、大規模コーパス中の原文S(i)を機械翻
訳し(402)、その結果を翻訳結果テーブルに書き込
む(403)。この機械翻訳結果と対訳コーパス中の訳
文T(i)を比較して、機械翻訳結果の各訳語E(i,
j)が訳文T(i)中に出現するかどうかをチェックし
(405)、出現しなければ、その単語が対応する原文
中の単語W(i,j)を翻訳結果テーブルから取り出
し、キーワードテーブルおよびキーワードテーブル2に
登録する(406)。すべての単語について処理を終え
たら、各文のキーワード数を計算して(409)、キー
ワード数テーブルのキーワード数欄92に登録する(4
10)。
FIG. 12 shows the structure of the translation result table. The translation result table is the original word number 12
01, an original sentence word 1202, and a translated word 1203. First, the original sentence S (i) in the large-scale corpus is machine translated (402), and the result is written in the translation result table (403). This machine translation result is compared with the translated sentence T (i) in the bilingual corpus, and each translated word E (i,
It is checked whether (j) appears in the translated text T (i) (405), and if it does not appear, the word W (i, j) in the original text to which the word corresponds is extracted from the translation result table, and the keyword table And it is registered in the keyword table 2 (406). After processing all words, the number of keywords in each sentence is calculated (409) and registered in the keyword number column 92 of the keyword number table (4).
10).

【0024】次に、代表文を選択する方法について述べ
る。ここでは、できるだけ少ない文数でできるだけ多く
のキーワードを網羅するように代表文を選択する。具体
的な処理方法を図5に示すフローチャートに従って説明
する。
Next, a method of selecting a representative sentence will be described. Here, the representative sentence is selected so as to cover as many keywords as possible with the smallest number of sentences. A specific processing method will be described with reference to the flowchart shown in FIG.

【0025】図13は、代表的な文だけを格納する小規
模コーパスの構造を示したものである。この小規模コー
パスは、代表文番号1301,文1302,大規模コー
パス文番号1303から構成される。
FIG. 13 shows the structure of a small corpus that stores only representative sentences. This small-scale corpus is composed of a representative sentence number 1301, a sentence 1302, and a large-scale corpus sentence number 1303.

【0026】まず、キーワード数テーブルをサーチし
て、代表文フラグが0であり、かつ、キーワード数が最
大である文の文番号IMを求める(504)。大規模コ
ーパスのIM番目のレコードの文S(IM)を読み込み
(506)、小規模コーパスに書き込む(507)。さ
らに、キーワード数テーブルの代表文フラグF(IM)
を1に変更する(508)。また、キーワードテーブル
をサーチして、文番号IMの文のキーワードK(IM,
k)(0<k≦m(IM))を順に読み込み、キーワー
ドテーブル2中の同一キーワードK(j)の既出フラグ
G(j)を1にする(512)。以上の処理を、キーワ
ードテーブル2のすべての既出フラグが1になり、キー
ワードがすべて網羅されるまで行う。
First, the keyword number table is searched to obtain the sentence number IM of the sentence in which the representative sentence flag is 0 and the number of keywords is maximum (504). The sentence S (IM) of the IMth record of the large-scale corpus is read (506) and written in the small-scale corpus (507). Further, the representative sentence flag F (IM) of the keyword number table
Is changed to 1 (508). Also, by searching the keyword table, the keyword K (IM,
k) (0 <k ≦ m (IM)) is sequentially read, and the already-existing flag G (j) of the same keyword K (j) in the keyword table 2 is set to 1 (512). The above processing is performed until all the existing flags in the keyword table 2 become 1 and all the keywords are covered.

【0027】小規模コーパスの登録文数に上限がある場
合には、登録文数が上限値に達した時点で処理を終了す
る方法も考えられる。この場合、上記の代表文選択処理
のステップ514を「代表文登録文数が上限値に達した
か」に変更すればよい。
If the number of registered sentences in the small corpus has an upper limit, a method of terminating the process when the number of registered sentences reaches the upper limit can be considered. In this case, step 514 of the representative sentence selection process may be changed to "whether the number of representative sentence registration sentences has reached the upper limit value".

【0028】以下、実例を用いて本発明の処理例を説明
する。
The processing example of the present invention will be described below by using an actual example.

【0029】図14は、大規模コーパスの例を示したも
のである。大規模コーパスは、文番号1401と文14
02からなる。
FIG. 14 shows an example of a large-scale corpus. The large corpus has sentence numbers 1401 and 14
It consists of 02.

【0030】図15は、形態素解析結果記憶テーブルの
例を示したものである。このテーブルは、単語番号15
01,単語1502,品詞1503からなる。
FIG. 15 shows an example of a morphological analysis result storage table. This table uses word number 15
01, a word 1502, and a part of speech 1503.

【0031】図16は、キーワードテーブルの例を示し
たものである。このテーブルは、文番号1601とキー
ワード1602からなる。
FIG. 16 shows an example of the keyword table. This table includes sentence numbers 1601 and keywords 1602.

【0032】図17は、キーワード数テーブルの例を示
したものである。このテーブルは、文番号1701とキ
ーワード数1702,代表文フラグ1703からなる。
FIG. 17 shows an example of the keyword number table. This table includes a sentence number 1701, a number of keywords 1702, and a representative sentence flag 1703.

【0033】図18は、キーワードテーブル2の例を示
したものである。このテーブルは、キーワード1801
と文番号1802,既出フラグ1803からなる。
FIG. 18 shows an example of the keyword table 2. This table contains keywords 1801
And a sentence number 1802 and an already-existing flag 1803.

【0034】図19は、対訳コーパスの例を示したもの
である。対訳コーパスは、文番号1901と対訳文19
02からなる。
FIG. 19 shows an example of a bilingual corpus. The bilingual corpus consists of sentence number 1901 and bilingual sentence 19.
It consists of 02.

【0035】図20は、翻訳結果テーブルの例を示した
ものである。このテーブルは、原文単語番号2001と
原文単語2002,訳語2003からなる。
FIG. 20 shows an example of the translation result table. This table is composed of original text word numbers 2001, original text words 2002, and translated words 2003.

【0036】図21は、小規模コーパスの例を示したも
のである。小規模コーパスは、文番号2101と文21
02,大規模コーパスの文番号2103からなる。
FIG. 21 shows an example of a small corpus. For small corpus, sentence number 2101 and sentence 21
02, the sentence number 2103 of the large-scale corpus.

【0037】図14に示すような大規模コーパスを対象
にして処理を行うと、例えば、4番目の文の形態素解析
結果は、図15に示すようになる。キーワードを動詞と
すると、各文ごとのキーワードを表したキーワードテー
ブルは、図16のようになり、キーワードごとの出現す
る文番号を表したキーワードテーブル2は図18のよう
になる。また、キーワード数テーブルは図17のように
なる。ここでは、1番目の文S(1)と2番目の文S
(2)のキーワードが一致し、4番目の文S(4)のキーワ
ードが3番目の文S(3)のキーワードに含まれるの
で、代表文としては、1,3,5の3文が選択されるこ
とになる。この結果、図21に示すような小規模コーパ
スができることになる。
When processing is performed on a large-scale corpus as shown in FIG. 14, the morphological analysis result of the fourth sentence is as shown in FIG. If the keyword is a verb, the keyword table showing the keyword for each sentence is as shown in FIG. 16, and the keyword table 2 showing the sentence number that appears for each keyword is as shown in FIG. The keyword number table is as shown in FIG. Here, the first sentence S (1) and the second sentence S
Since the keyword of (2) matches and the keyword of the fourth sentence S (4) is included in the keyword of the third sentence S (3), three sentences 1, 3, 5 are selected as the representative sentence. Will be done. As a result, a small-scale corpus as shown in FIG. 21 can be created.

【0038】もうひとつの実例として、図19に示す日
英対訳コーパスを用いた場合を考えてみる。例えば、2
番目の文の日英の翻訳結果テーブルは、図20のように
なる。ここでは、8番目の単語‘wait’が対訳コーパス
の訳文中に出現しないので、‘wait’に対応する日本語
「お待ちする」がキーワードとなる。
As another example, consider the case where the Japanese-English parallel corpus shown in FIG. 19 is used. For example, 2
The Japanese-English translation result table for the second sentence is as shown in FIG. Here, since the eighth word'wait 'does not appear in the translated sentence of the bilingual corpus, the Japanese word "wait" corresponding to'wait' is a keyword.

【0039】[0039]

【発明の効果】本発明によれば、大規模コーパスから、
使用目的に合った文だけを取り出して、小規模なコーパ
スを作成することができ、例えば、検索効率を向上させ
ることが可能になる。また、対訳コーパスを用いてキー
ワードを抽出した場合には、機械翻訳の困難な単語がキ
ーワードになるため、機械翻訳評価用の小規模コーパス
として使用することも可能である。
According to the present invention, from a large corpus,
A small corpus can be created by extracting only sentences that match the purpose of use, and, for example, it is possible to improve search efficiency. Further, when a keyword is extracted using a parallel translation corpus, a word that is difficult to machine translate becomes a keyword, and therefore it can be used as a small-scale corpus for machine translation evaluation.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明のコーパス作成処理のブロック図。FIG. 1 is a block diagram of corpus creation processing according to the present invention.

【図2】キーワードを抽出する処理の第1の方法のフロ
ーチャート。
FIG. 2 is a flowchart of a first method of processing for extracting a keyword.

【図3】キーワードを抽出する処理の第3の方法のフロ
ーチャート。
FIG. 3 is a flowchart of a third method of processing for extracting a keyword.

【図4】キーワードを抽出する処理の第4の方法のフロ
ーチャート。
FIG. 4 is a flowchart of a fourth method of processing for extracting a keyword.

【図5】代表文を選択する処理のフローチャート。FIG. 5 is a flowchart of processing for selecting a representative sentence.

【図6】大規模コーパスの説明図。FIG. 6 is an explanatory diagram of a large-scale corpus.

【図7】形態素解析結果記憶テーブルの説明図。FIG. 7 is an explanatory diagram of a morphological analysis result storage table.

【図8】キーワードテーブルの説明図。FIG. 8 is an explanatory diagram of a keyword table.

【図9】キーワード数テーブルの説明図。FIG. 9 is an explanatory diagram of a keyword count table.

【図10】キーワードテーブル2の説明図。FIG. 10 is an explanatory diagram of a keyword table 2.

【図11】対訳コーパスの説明図。FIG. 11 is an explanatory diagram of a bilingual corpus.

【図12】翻訳結果テーブルの説明図。FIG. 12 is an explanatory diagram of a translation result table.

【図13】小規模コーパスの説明図。FIG. 13 is an explanatory diagram of a small corpus.

【図14】大規模コーパスの説明図。FIG. 14 is an explanatory diagram of a large scale corpus.

【図15】形態素解析結果記憶テーブルの説明図。FIG. 15 is an explanatory diagram of a morphological analysis result storage table.

【図16】キーワードテーブルの説明図。FIG. 16 is an explanatory diagram of a keyword table.

【図17】キーワード数テーブルの説明図。FIG. 17 is an explanatory diagram of a keyword count table.

【図18】キーワードテーブル2の説明図。FIG. 18 is an explanatory diagram of a keyword table 2.

【図19】対訳コーパスの説明図。FIG. 19 is an explanatory diagram of a bilingual corpus.

【図20】翻訳結果テーブルの説明図。FIG. 20 is an explanatory diagram of a translation result table.

【図21】小規模コーパスの説明図。FIG. 21 is an explanatory diagram of a small corpus.

【符号の説明】[Explanation of symbols]

11,13…大規模コーパス、12…キーワード付与処
理、14…代表文選択処理、15…小規模コーパス。
11, 13 ... Large-scale corpus, 12 ... Keyword assignment processing, 14 ... Representative sentence selection processing, 15 ... Small-scale corpus.

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】コーパス中の各々の文にキーワードを付与
するステップと、各文のキーワード集合の演算を行うス
テップとを設け、前記コーパス中の文章を選択し、小規
模コーパスを作成することを特徴とするコーパス作成方
法。
1. A step of assigning a keyword to each sentence in a corpus and a step of calculating a keyword set of each sentence are provided, a sentence in the corpus is selected, and a small-scale corpus is created. Characteristic corpus creation method.
【請求項2】請求項1において、各文のキーワード集合
の和集合がすべてのキーワードを網羅するように文を選
択するコーパス作成方法。
2. The corpus creating method according to claim 1, wherein the sentences are selected so that the union of the keyword sets of each sentence covers all the keywords.
【請求項3】請求項1において、キーワードの多い文か
ら順に文を選択するコーパス作成方法。
3. The corpus creating method according to claim 1, wherein sentences are selected in order from a sentence having a large number of keywords.
【請求項4】請求項1において、前記コーパスにキーワ
ードを付与する際に、予め決められた単語や品詞をキー
ワードの候補とするコーパス作成方法。
4. The corpus creating method according to claim 1, wherein when a keyword is added to the corpus, a predetermined word or part of speech is used as a keyword candidate.
【請求項5】請求項1において、前記コーパスが対訳コ
ーパスである場合、キーワードを付与する際に、原文と
訳文の対応関係が付かない単語をキーワードとするコー
パス作成方法。
5. The corpus creation method according to claim 1, wherein, when the corpus is a parallel translation corpus, when a keyword is added, a word having no correspondence between an original sentence and a translated sentence is used as the keyword.
【請求項6】請求項1において、前記コーパスが対訳コ
ーパスである場合、キーワードを付与する際に、原文の
機械翻訳結果と訳文との相違部分の単語をキーワードと
するコーパス作成方法。
6. The corpus creation method according to claim 1, wherein, when the corpus is a parallel translation corpus, when a keyword is added, a word at a different portion between a machine translation result of an original sentence and a translated sentence is used as a keyword.
JP7024942A 1995-02-14 1995-02-14 Corpus preparing method Pending JPH08221434A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7024942A JPH08221434A (en) 1995-02-14 1995-02-14 Corpus preparing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7024942A JPH08221434A (en) 1995-02-14 1995-02-14 Corpus preparing method

Publications (1)

Publication Number Publication Date
JPH08221434A true JPH08221434A (en) 1996-08-30

Family

ID=12152095

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7024942A Pending JPH08221434A (en) 1995-02-14 1995-02-14 Corpus preparing method

Country Status (1)

Country Link
JP (1) JPH08221434A (en)

Similar Documents

Publication Publication Date Title
KR100453227B1 (en) Similar sentence retrieval method for translation aid
US6131082A (en) Machine assisted translation tools utilizing an inverted index and list of letter n-grams
JP3272288B2 (en) Machine translation device and machine translation method
JP4654780B2 (en) Question answering system, data retrieval method, and computer program
KR101130444B1 (en) System for identifying paraphrases using machine translation techniques
US20070055493A1 (en) String matching method and system and computer-readable recording medium storing the string matching method
EP0378848A2 (en) Method for use of morphological information to cross reference keywords used for information retrieval
JPH11110416A (en) Method and device for retrieving document from data base
JP2005520251A (en) Translate named entities
Smadja et al. Translating collocations for use in bilingual lexicons
JP2009205357A (en) Device, method and program for determining parts-of-speech in chinese,
KR100288144B1 (en) Foreign language coding method in Korean and search method using the same
JP2960936B2 (en) Dependency analyzer
JP5298834B2 (en) Example sentence matching translation apparatus, program, and phrase translation apparatus including the translation apparatus
JP2008204133A (en) Answer search apparatus and computer program
Buitelaar et al. Integrating different strategies for cross-language information retrieval in the MIETTA project
JP2005202924A (en) Translation determination system, method, and program
JP3326646B2 (en) Dictionary / rule learning device for machine translation system
JPH08221434A (en) Corpus preparing method
JP2000250913A (en) Example type natural language translation method, production method and device for list of bilingual examples and recording medium recording program of the production method and device
JPH0561902A (en) Mechanical translation system
JP3419748B2 (en) Dictionary creation device and method, and recording medium recording dictionary creation program
JP3353647B2 (en) Dictionary / rule learning device for machine translation system and storage medium storing dictionary / rule learning program for machine translation system
JPH0540783A (en) Natural language analysis device
JP3388393B2 (en) Translation device for tense, aspect or modality using database