JP2003016067A - Processing method for translation of tense, aspect and modality, and system therefor - Google Patents

Processing method for translation of tense, aspect and modality, and system therefor

Info

Publication number
JP2003016067A
JP2003016067A JP2001201010A JP2001201010A JP2003016067A JP 2003016067 A JP2003016067 A JP 2003016067A JP 2001201010 A JP2001201010 A JP 2001201010A JP 2001201010 A JP2001201010 A JP 2001201010A JP 2003016067 A JP2003016067 A JP 2003016067A
Authority
JP
Japan
Prior art keywords
tense
modality
features
feature
case
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001201010A
Other languages
Japanese (ja)
Other versions
JP3870251B2 (en
Inventor
Maki Murata
真樹 村田
Sei Ba
青 馬
Seiki Uchimoto
清貴 内元
Hitoshi Isahara
均 井佐原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communications Research Laboratory
Original Assignee
Communications Research Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communications Research Laboratory filed Critical Communications Research Laboratory
Priority to JP2001201010A priority Critical patent/JP3870251B2/en
Publication of JP2003016067A publication Critical patent/JP2003016067A/en
Application granted granted Critical
Publication of JP3870251B2 publication Critical patent/JP3870251B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To accurately translate tense, aspect and modality of a translation target when performing a machine translation. SOLUTION: A tense/feature set extracting part 12 extracts tense, an aspect and modality (hereafter called tens and the like 4) and a set of features by case from a database 11 on tense, aspect and modality, a machine leaning part 13 learns which feature has a tendency to become which tense from the extracted set and stores a result of the leaning into a leaning result database 14, a feature extracting part 15 extracts the set when Japanese text 3 to be translated is inputted, an estimation processing part 16 for tense, aspect and modality of translation destination estimates that to which tense and the like the feature of the text 3 has the tendency to become from the set in reference to the database 14 to output the estimated tense and the like 4.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は,コンピュータによ
る翻訳システムの分野において,特に,機械学習法を用
いてテンス(時制),アスペクト(相),またはモダリ
ティ(様相)を翻訳する翻訳処理方法および翻訳システ
ムに関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to the field of computer-based translation systems, and more particularly, to a translation processing method and translation for translating a tense, an aspect, or a modality using a machine learning method. It is about the system.

【0002】[0002]

【従来の技術】近年,WWW(World Wide Web)などの
インターネットの発展とともに機械翻訳の必要性が高ま
り続けている。この機械翻訳において,テンス・アスペ
クト・モダリティは翻訳が難しい問題として知られてい
る。
2. Description of the Related Art In recent years, with the development of the Internet such as WWW (World Wide Web), the need for machine translation continues to increase. In this machine translation, the tense aspect modality is known to be a difficult problem to translate.

【0003】テンス・アスペクト・モダリティとは,動
詞部分の時制(テンス),進行形や完了形などの相(ア
スペクト),または英文における助動詞相当句である様
相(モダリティ)についての情報である。
The tense-aspect-modality is information about the tense of a verb part (tense), a phase (aspect) such as a progressive form or a complete form, or a modality that is an auxiliary verb equivalent phrase in an English sentence.

【0004】従来,テンス・アスペクト・モダリティの
表現は,人手により作成されたルールによって扱われて
いた。しかしながら,近年では,用例ベース(k近傍
法)の方法などのコーパスデータにもとづくアプローチ
でも処理されるようになってきた。用例ベースの方法で
は,集めた実例ごとに,どの場合にどの時制などを使う
かを記したデータを対応づけた用例データベースを用意
しておき,入力された文と良く似た実例に基づいてテン
ス・アスペクト・モダリティを翻訳するといったことが
行なわれていた。[参考文献1]村田真樹 馬青 内元
清貴 井佐原均,用例ベースによるテンス・アスペクト
・モダリティの日英翻訳,人工知能学会誌,Vol.16,N
o.1,2001参考文献1に記載されている研究では,日本
文から英文への機械翻訳のテンス・アスペクト・モダリ
ティの判定の際に,日本文のテンス・アスペクト・モダ
リティは文末に表されることに着目して,入力された日
本文の文末の所定の長さの文字列と,予め用意したコー
パスデータとの類似度をk近傍法により判断してテンス
・アスペクト・モダリティを決定する手法を用いてい
る。k近傍法とは,最もよく似た一つの事例の代わり
に,最もよく似たk個の事例を用い,このk個の事例で
の多数決によって分類先を求める手法である。
Conventionally, the expression of the tenth aspect modality has been handled by a rule created manually. However, in recent years, an approach based on corpus data such as an example-based (k-nearest neighbor) method has also come to be used. In the example-based method, an example database is prepared in which data that describes in which case which tense is used is associated with each collected example, and a tense is created based on an example that is similar to the input sentence.・ Translation of aspect modalities was performed. [Reference 1] Masaki Murata Ma Qing Kiyotaka Uchimoto Hitoshi Isahara, Japanese-English translation of tense aspect modality based on example, Journal of Artificial Intelligence, Vol.16, N
o.1, 2001 In the research described in Reference 1, when determining the tense / aspect / modality of machine translation from Japanese to English, the tense / aspect / modality of Japanese is expressed at the end of the sentence. Focusing on this, a method of determining the tense aspect modality by determining the similarity between the character string of a predetermined length at the end of the input Japanese sentence and the corpus data prepared in advance by the k-nearest neighbor method. I am using. The k-nearest neighbor method is a method in which instead of one most similar case, the most similar k cases are used, and the classification destination is obtained by the majority vote of these k cases.

【0005】[0005]

【発明が解決しようとする課題】しかし,人手でルール
を記述し,このルールをもとにテンス・アスペクト・モ
ダリティを分類する方法では,人的資源の問題や,人手
による作業の精度などの問題がある。
However, in the method of manually describing the rules and classifying the tense / aspect / modality based on the rules, there are problems of human resources and accuracy of manual work. There is.

【0006】また,入力文とよく似た実例を使う手法で
は,入力文と実例の類似度を定義する必要があり,例え
ば文末の文字列のように類似度を定義することができる
ような平易な情報しか扱うことができなかった。そのた
め,参考文献1に記載された研究の手法において,文末
の文字列の情報のみによってテンス・アスペクト・モダ
リティの分類を判定することで,判定結果の精度が低く
なる場合が生じる。
Further, in the method of using an actual example that is very similar to the input sentence, it is necessary to define the similarity between the input sentence and the actual example. For example, it is easy to define the similarity like a character string at the end of a sentence. I could handle only such information. Therefore, in the method of the research described in Reference Document 1, when the classification of the tense / aspect / modality is judged only by the information of the character string at the end of the sentence, the accuracy of the judgment result may be lowered.

【0007】例えば,実例データ「もう行きました。」
のテンス・アスペクト・モダリティが「過去完了」であ
る場合に,「昨日行きました。」という文が入力された
とする。この入力文の正しいテンス・アスペクト・モダ
リティは「過去」であるにもかかわらず,文字列「まし
た$($=文末)」の表示の類似度から,実例データと
同様に「過去完了」と判定されてしまう場合がある。
[0007] For example, the example data “I have already gone.”
Suppose that the sentence "I went yesterday." Was input when the tenth aspect modality of was "past completed". Even though the correct tense / aspect / modality of this input sentence is "past", the similarity of the display of the character string "Matte $ ($ = end of sentence)" indicates that "past completed" as in the example data. It may be judged.

【0008】したがって,参考文献1の研究の手法のよ
うに文末の一致する文字列だけでなく,例えば,この場
合の「昨日」のように,文末の文字列とは異なる形式の
情報を合わせて用いることが有効であると考えられる。
Therefore, in addition to the character string at the end of the sentence as in the method of the research in Reference 1, information in a format different from the character string at the end of the sentence, such as "Yesterday" in this case, is combined. It is considered effective to use.

【0009】しかし,テンス・アスペクト・モダリティ
を解析するための情報(素性)として,形態素情報(形
態素素性),意味解析情報(単語素性など),構文解析
情報(構文解析素性)などの異なる形式の素性を組み合
わせて用いることが有効であるとしても,参考文献1の
研究で用いたk近傍法のような類似度を定義する必要が
ある判定手法では,複数の形式の素性を用いることがで
きないという問題があった。
However, as information (features) for analyzing the tenth aspect modality, morpheme information (morpheme feature), semantic analysis information (word feature, etc.), syntactic analysis information (syntactic analysis feature), and other formats are used. Even if it is effective to use a combination of features, it is not possible to use multiple forms of features in the determination method that requires the definition of similarity, such as the k-nearest neighbor method used in the study of Reference 1. There was a problem.

【0010】本発明は,上記問題点の解決を図り,変換
元言語の事例やその事例に関連するデータから抽出した
異なる形式の素性を取り扱うことができる機械学習手法
を用いて,どのような素性の場合にどのようなテンス・
アスペクト・モダリティになるかを学習し,その学習結
果を用いて入力文の変換先のテンス・アスペクト・モダ
リティを精度よく翻訳できる手段を提供することを目的
とする。
The present invention solves the above-mentioned problems by using a machine learning method capable of handling a case of a conversion source language and a feature of a different format extracted from data related to the case. What tense in case of
It is an object of the present invention to provide a means for learning whether an aspect modality will be obtained, and using the learning result to accurately translate the tense aspect modality of the conversion destination of the input sentence.

【0011】[0011]

【課題を解決するための手段】上記課題を解決するた
め,本発明に係る方法は,予め備えられた変換元言語の
事例と当該事例のテンス・アスペクト・モダリティとを
記憶するデータベースから,テンス・アスペクト・モダ
リティと当該事例または当該事例に関連するデータから
抽出した,複数の形式の素性の集合とからなるテンス−
素性組を事例ごとに抽出する過程と,前記テンス−素性
組のうちのすべてまたはいくつかの素性を用いて,機械
学習法により変換先言語のテンス・アスペクト・モダリ
ティを判定するための学習データを作成し保存する過程
と,変換元言語の入力文から,当該入力文の素性の集合
を抽出する過程と,前記入力文の素性の集合のうちのす
べてまたはいくつかの素性をもとに,前記学習データを
参照して前記入力文のテンス・アスペクト・モダリティ
を推定する過程とを備えることを特徴としている。
In order to solve the above-mentioned problems, the method according to the present invention uses a database that stores a case of a conversion source language and a tense / aspect / modality of the case, which are stored in advance. A tense consisting of an aspect modality and a set of features in multiple formats extracted from the case or data related to the case-
Using the process of extracting a feature set for each case, and learning data for determining the tense, aspect, and modality of the target language by a machine learning method using all or some of the features in the above-mentioned tense-feature set. Based on the process of creating and storing, the process of extracting the set of features of the input sentence from the input sentence of the source language, and the features of all or some of the features of the input sentence, A process of estimating the tense / aspect / modality of the input sentence with reference to learning data.

【0012】本発明では,従来の手法のように,文末の
文字列のように単一の種類の素性だけを用いてテンス・
アスペクト・モダリティの解析を行うのでなく,文字列
の他,一文全体の形態素素性,意味的素性,構文的素
性,前文のテンス・アスペクト・モダリティ,または対
訳データの該当する構成部分データなど,二以上の異な
る形式の素性を任意に用いて解析処理を行う点が,従来
の手法と異なる。
According to the present invention, as in the conventional method, a tense is generated by using only a single type of feature such as a character string at the end of a sentence.
Instead of analyzing the aspect modality, in addition to the character string, morphological features, semantic features, syntactic features of the whole sentence, the tense aspect modality of the preceding sentence, or the corresponding component data of the bilingual data, etc. This is different from the conventional method in that the analysis processing is performed by arbitrarily using the features of different formats.

【0013】また,本発明では,多くの形式の素性を自
由に用いることができる,類似度を設定する必要のない
種々の機械学習手法を用いて解析処理を行う点が,類似
度の定義を必要とする従来のk近傍法のような手法によ
る判定と異なる。
Further, in the present invention, the definition of the similarity is that the analysis processing is performed by using various machine learning methods in which many types of features can be freely used and the similarity need not be set. This is different from the required determination by a method such as the conventional k-nearest neighbor method.

【0014】以上の本発明に係る処理方法またはシステ
ムは,その処理過程や手段,構成,要素をコンピュータ
に実行させるプログラムによっても実現することができ
る。このプログラムは,コンピュータが読み取り可能
な,可搬媒体メモリ,半導体メモリ,ハードディスクな
どの適当な記録媒体に格納することができ,これらの記
録媒体に記録して提供され,または通信インタフェース
を介して種々の通信網を利用した送受信により提供され
る。
The processing method or system according to the present invention described above can also be realized by a program that causes a computer to execute the processing steps, means, configurations, and elements thereof. This program can be stored in an appropriate recording medium such as a computer-readable portable medium memory, a semiconductor memory, or a hard disk, provided by being recorded in these recording media, or via a communication interface. It is provided by transmitting and receiving using the communication network of.

【0015】[0015]

【発明の実施の形態】以下に,本発明の実施の形態を図
を用いて説明する。本実施の形態では,日本文から英文
への翻訳に際しテンス・アスペクト・モダリティを翻訳
する場合を例とする。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below with reference to the drawings. In the present embodiment, the case where the tense aspect modality is translated when translating a Japanese sentence into an English sentence is taken as an example.

【0016】図1に,本発明のシステム構成例を示す。
図1中,1は本発明に係るテンス・アスペクト・モダリ
ティ翻訳システムを表す。テンス・アスペクト・モダリ
ティ翻訳システム1はCPU,メモリなどで構成され,
テンス・アスペクト・モダリティ・データベース11,
テンス−素性組抽出部12,機械学習部13,学習結果
データベース14,素性抽出部15,変換先テンス・ア
スペクト・モダリティ推定処理部16を持つ。
FIG. 1 shows an example of the system configuration of the present invention.
In FIG. 1, reference numeral 1 represents a tense aspect modality translation system according to the present invention. Tens Aspect Modality Translation System 1 is composed of CPU, memory, etc.
Tens Aspect Modality Database 11,
It has a tense-feature set extraction unit 12, a machine learning unit 13, a learning result database 14, a feature extraction unit 15, and a conversion destination tense / aspect / modality estimation processing unit 16.

【0017】テンス−素性組抽出部12は,予め用意し
ておいたテンス・アスペクト・モダリティ用コーパスで
あるテンス・アスペクト・モダリティ・データベース1
1から,事例ごとに,テンス・アスペクト・モダリティ
と事例の素性の集合との組を抽出する手段である。
The tense-feature set extraction unit 12 is a tense-aspect-modality database 1 which is a previously prepared corpus for tense-aspect-modality.
It is a means for extracting a set of tense / aspect modality and a set of features of a case from 1 for each case.

【0018】機械学習部13は,テンス−素性組抽出部
12で抽出されたテンス・アスペクト・モダリティと素
性の集合との組から,どのような素性のときに,どのよ
うなテンス・アスペクト・モダリティになりやすいかを
機械学習法により学習し,その学習結果を学習結果デー
タベース14に保存する手段である。
The machine learning unit 13 determines, based on the set of the tense / aspect modality and the set of features extracted by the tense / feature set extracting unit 12, what kind of feature / tense / aspect / modality. It is a means for learning whether or not the result is likely to occur by a machine learning method and storing the learning result in the learning result database 14.

【0019】素性抽出部15は,入力された日本文3か
ら素性の集合を抽出し,それらを変換先テンス・アスペ
クト・モダリティ推定処理部16へ渡す手段である。
The feature extraction unit 15 is a means for extracting a set of features from the input Japanese sentence 3 and passing them to the conversion destination tense / aspect / modality estimation processing unit 16.

【0020】変換先テンス・アスペクト・モダリティ推
定処理部16は,学習結果データベース14を参照し
て,渡された素性の集合の場合に,変換先の言語におい
てどのようなテンス・アスペクト・モダリティになりや
すいかを推定し,日本文3の変換先のテンス・アスペク
ト・モダリティ4を出力する手段である。
The transformation-destination tense-aspect-modality estimation processing unit 16 refers to the learning result database 14, and in the case of the set of the passed features, what tense-aspect-modality in the transformation-destination language becomes. It is a means for estimating whether it is easy and outputting the tense aspect modality 4 of the conversion destination of Japanese sentence 3.

【0021】本発明の処理の流れの概略を説明する。図
2は,図1に示すシステムの処理フローチャートであ
る。
An outline of the processing flow of the present invention will be described. FIG. 2 is a processing flowchart of the system shown in FIG.

【0022】図2に示す処理を開始する前に,テンス・
アスペクト・モダリティ・データベース11を予め用意
しておく。テンス・アスペクト・モダリティ・データベ
ース11は,機械翻訳用の日英の対訳コーパスであり,
日本語と英語の対訳データにテンス・アスペクト・モダ
リティの情報が付与されている。
Before starting the process shown in FIG.
The aspect modality database 11 is prepared in advance. The Tens Aspect Modality Database 11 is a Japanese-English parallel translation corpus for machine translation,
Information on tense, aspect, and modality is added to Japanese and English bilingual data.

【0023】日英の対訳データに付与するテンス・アス
ペクト・モダリティの分類として,例えば以下のものを
用いる。以下の分類は,対訳の英語文の動詞がどのよう
な形になっているかによって定められる。 (1)各助動詞相当語句 (be able to, be going to, c
an, have to, had better, may, must, need, ought, s
hall, used to, will の12種類) がつくかどうかと,
{現在形,過去形}と{進行形,進行形でない}と{完
了,完了でない}のすべての組み合わせ(助動詞相当語
句が複数つく場合も許している。) : 215種類 (2)命令形 (1種類) (3)名詞句 (1種類) (4)分詞構文 (1種類) (5)動詞省略 (1種類) (6)間投詞,挨拶文など (1種類) (7)日本語と英語で動詞の対応がとれない場合 (1種
類) (8)作業不可 (1種類) ただし,上記の分類のうち,「(3)名詞句」から
「(8)作業不可」までの6つの分類はテンス・アスペ
クト・モダリティの分類としては扱う必要がないか,も
しくはテンス・アスペクト・モダリティの翻訳を行なう
必要がないと思われるので,本形態では省略している。
As the classification of the tense aspect modality to be given to the bilingual data in English and Japanese, for example, the following is used. The following classifications are determined by the verb form of the English translations. (1) Each auxiliary verb equivalent phrase (be able to, be going to, c
an, have to, had better, may, must, need, ought, s
(12 kinds of hall, used to, will))
All combinations of {present tense, past tense}, {progressive, non-progressive} and {complete, not complete} (even when there are multiple auxiliary verb equivalent phrases): 2 15 types (2) imperative (1 type) (3) Noun phrase (1 type) (4) Participle construction (1 type) (5) Verb omission (1 type) (6) Interjections, greetings, etc. (1 type) (7) Japanese and English If the verb does not correspond to (1 type) (8) work not possible (1 type) However, among the above classifications, the six categories from "(3) noun phrase" to "(8) work not possible" It is not necessary to handle it as a classification of tense / aspect / modality, or it is not necessary to translate tense / aspect / modality, so it is omitted in this embodiment.

【0024】また,これらの分類は,「英語の主節の動
詞部分」と「日本語の主節の動詞に対応する英語の動詞
部分」の二か所にふられる。しかし,日英翻訳において
日本語のテンス・アスペクト・モダリティに対応するの
は「英語の主節の動詞部分」であろうと考えられるの
で,本発明に係るテンス・アスペクト・モダリティ翻訳
システム1では,日本文3を与えて変換先の「英語の主
節の動詞部分」のテンス・アスペクト・モダリティの分
類を推定し,推定結果であるテンス・アスペクト・モダ
リティ4を出力することとしている。
Further, these classifications are described in two places: "verb part of main clause of English" and "verb part of English corresponding to verb of main clause of Japanese language". However, in Japanese-English translation, it is considered that the "verb part of the English main clause" may correspond to the Japanese tense / aspect / modality, so in the tense / aspect / modality translation system 1 according to the present invention, Sentence 3 is given to estimate the classification of the tense / aspect / modality of the "verb part of the English main clause" of the conversion destination, and the estimated result, tense / aspect / modality 4, is output.

【0025】ステップS1:まず,テンス−素性組抽出
部12により,用意されたテンス・アスペクト・モダリ
ティ・データベース11から,各事例ごとに,テンス・
アスペクト・モダリティと事例の素性の集合との組を抽
出する。
Step S1: First, the tense-feature pair extraction unit 12 extracts a tense for each case from the prepared tense aspect modality database 11.
Extract a set of aspect modalities and a set of feature cases.

【0026】テンス−素性組抽出部12では,素性の集
合として,文字列素性,形態素素性,単語素性,構文的
素性,一前文のテンス・アスペクト・モダリティの情
報,英文対訳データの動詞部分など,種々の形式の素性
のうち,所定の素性を抽出することができる。
In the tenth-feature set extraction unit 12, as a set of features, a character string feature, a morphological feature, a word feature, a syntactic feature, information on the tense aspect modality of the preceding sentence, a verb portion of English bilingual data, and the like. A predetermined feature can be extracted from various types of features.

【0027】図3に抽出する素性の集合とテンス・アス
ペクト・モダリティの組を示す。図3に示すように,テ
ンス−素性組抽出部12により,テンス・アスペクト・
モダリティ・データベース11の事例「もう登録しまし
た。」から,テンス・アスペクト・モダリティと,文字
列素性「もう登録しました$」,「う登録しました
$」,・・・,「た$」,単語素性「もう」,「登録」
「し」「まし」「た」などの素性の集合との組を抽出す
る。なお,ここでは,抽出した文字列素性には入力され
た文全体の形態素列と区別できるように末尾に$をつけ
ている。また,文末表現の正規化のため,句点などは消
している。
FIG. 3 shows a set of features to be extracted and a set of tense / aspect / modality. As shown in FIG. 3, the tense-feature pair extraction unit 12 allows the tense aspect
From the case of modality database 11 “Already registered.”, The tense aspect modality and the character string features “Already registered $”, “U registered $”, ..., “Ta $”, Word features "Already", "Registration"
A set with a set of features such as “shi”, “mashi”, “ta” is extracted. In addition, here, the extracted character string feature is suffixed with $ so that it can be distinguished from the morpheme string of the entire input sentence. In addition, punctuation has been eliminated to normalize sentence end expressions.

【0028】ステップS2:続いて,機械学習部13に
より,抽出されたテンス・アスペクト・モダリティと素
性の集合との組から,どのような素性のときにどのよう
なテンス・アスペクト・モダリティになりやすいかを機
械学習し,その学習結果を学習結果データベース14に
保存する。
Step S2: Subsequently, the machine learning unit 13 makes it easy to obtain what kind of tense / aspect / modality when the set of the extracted tense / aspect / modality and the set of the characteristics is set. Machine learning is performed, and the learning result is stored in the learning result database 14.

【0029】機械学習では,例えば,所定の長さの文末
の文字列素性,事例の全文の形態素素性,単語素性のう
ち,いくつかの素性を用いて処理を行ってもよい。
In the machine learning, for example, the processing may be performed by using some features among a character string feature at the end of a sentence of a predetermined length, a morphological feature of all sentences of a case, and a word feature.

【0030】機械学習の手法は,種々の形式の素性の集
合を扱うことができるような機械学習法であればよく,
例えば,以下に示すような決定リスト法,最大エントロ
ピー法,サポートベクトルマシン法などを用いる。
The machine learning method may be any machine learning method that can handle a set of features in various forms.
For example, the following decision list method, maximum entropy method, support vector machine method, etc. are used.

【0031】(1)決定リスト法 決定リスト法は,あらかじめ設定しておいた素性fj (
∈F, 1≦j≦k)のうち,いずれか一つの素性のみを
文脈として各分類の確率値を求めて,その確率値が最も
大きい分類を求める分類とする方法である。
(1) Decision List Method In the decision list method, the feature f j (
ΕF, 1 ≦ j ≦ k), the probability value of each classification is obtained by using only one of the features as a context, and the classification having the largest probability value is used as the classification.

【0032】ある文脈bで分類aを出力する確率は以下
の式によって与えられる。
The probability of outputting the classification a in a certain context b is given by the following equation.

【0033】 p(a|b)=p(a|fmax ) (1) ただし,fmax は以下の式によって与えられる。P (a | b) = p (a | f max ) (1) where f max is given by the following equation.

【0034】[0034]

【数1】 [Equation 1]

【0035】また,In addition,

【0036】[0036]

【数2】 [Equation 2]

【0037】は,素性fj を文脈に持つ場合の分類ai
の出現の割合である。
Is the classification a i when the feature has f j in the context
Is the rate of appearance.

【0038】具体的には,各素性ごとに,どのようなテ
ンス・アスペクト・モダリティの分類になるのかの確率
を求めておき,入力文のすべての素性のうち最大確率の
素性の分類を用いてテンス・アスペクト・モダリティの
分類を推定する。
Specifically, for each feature, the probability of what kind of tense / aspect / modality classification will be obtained, and using the feature classification with the maximum probability among all the features of the input sentence. Estimate the classification of tense / aspect / modality.

【0039】決定リスト法にもとづく分類は簡便ではあ
るが,ある一つの素性のみを文脈としてテンス・アスペ
クト・モダリティの分類の推定を行なうので,機械学習
の手法としては少々貧弱なものとなっている。
Although the classification based on the decision list method is simple, since the classification of the tense / aspect / modality is estimated in the context of only one feature, it is a little poor machine learning method. .

【0040】(2)最大エントロピー法 最大エントロピー法は,あらかじめ設定しておいた素性
j (1≦j≦k)の集合をFとするとき,以下の式
(3)を満足しながらエントロピーを意味する式(4)
を最大にするときの確率分布p(a,b)を求め,その
確率分布にしたがって求まる各分類の確率のうち,もっ
とも大きい確率値を持つ分類を求める分類とする方法で
ある。
(2) Maximum entropy method When the set of features f j (1 ≦ j ≦ k) set in advance is F, the maximum entropy method satisfies entropy while satisfying the following expression (3). Expression (4) meaning
In this method, the probability distribution p (a, b) when maximizing is calculated, and among the probabilities of the respective classifications obtained according to the probability distribution, the classification having the largest probability value is determined.

【0041】[0041]

【数3】 [Equation 3]

【0042】ただし,A,Bは分類と文脈の集合を意味
し,gj (a,b)は文脈bに素性fj があって,なお
かつ分類がaの場合1となり,それ以外で0となる関数
を意味する。また,
However, A and B mean a set of classification and context, and g j (a, b) is 1 when the context b has a feature f j and the classification is a, and is 0 otherwise. Means a function. Also,

【0043】[0043]

【数4】 [Equation 4]

【0044】は,既知データでの(a,b)の出現の割
合を意味する。
Means the rate of appearance of (a, b) in the known data.

【0045】式(3) は確率pと出力と素性の組の出現
を意味する関数gをかけることで出力と素性の組の頻度
の期待値を求めることになっており,右辺の既知データ
における期待値と,左辺の求める確率分布に基づいて計
算される期待値が等しいことを制約として,エントロピ
ー最大化( 確率分布の平滑化) を行なって,出力と文脈
の確率分布を求めるものとなっている。最大エントロピ
ー法の詳細については,以下の参考文献2および参考文
献3を参照されたい。 [参考文献2]Eric Sven Ristad, Maximum Entropy Mo
deling for Natural Language,(ACL/EACL Tutorial Pro
gram,Madrid,,1997) [参考文献3]Eric Sven Ristad, Maximum Entropy Mo
deling Toolkit, Release 1.6beta,(http://www.mnemon
ic.com/software/memt,1998) 本手法の利用は,もともと訳出対象となる入力データの
素性と同一な素性が既知のコーパス中に多数存在するこ
とは稀であり,コーパスでの素性の出現確率をそのまま
使用することはできないが,等価な状態は等価な確率を
持つことを前提に確率分布を平滑化すれば,コーパスに
おける素性出現の期待値を用いることができると考えら
れることによる。
Equation (3) is to obtain the expected value of the frequency of the output and the feature set by multiplying the probability p by the function g which means the appearance of the output and the feature set. Entropy maximization (smoothing of probability distribution) is performed with the constraint that the expected value and the expected value calculated based on the probability distribution on the left side are equal, and the probability distribution of output and context is obtained. There is. See references 2 and 3 below for details of the maximum entropy method. [Reference 2] Eric Sven Ristad, Maximum Entropy Mo
deling for Natural Language, (ACL / EACL Tutorial Pro
(gram, Madrid, 1997) [Reference 3] Eric Sven Ristad, Maximum Entropy Mo
deling Toolkit, Release 1.6beta, (http: //www.mnemon
(ic.com/software/memt, 1998) In the use of this method, it is rare that a large number of features that are the same as the features of the input data to be translated originally exist in a known corpus, and the features appear in the corpus. Although the probabilities cannot be used as they are, it is considered that the expected value of feature appearance in the corpus can be used if the probability distribution is smoothed on the assumption that equivalent states have equivalent probabilities.

【0046】(3)サポートベクトルマシン法 サポートベクトルマシン法は,空間を超平面で分割する
ことにより,2つの分類からなるデータを分類する手法
である。図4にサポートベクトルマシン法のマージン最
大化の概念を示す。図4において,白丸は正例,黒丸は
負例を意味し,実線は空間を分割する超平面を意味し,
破線はマージン領域の境界を表す面を意味する。図4
(A)は,正例と負例の間隔が狭い場合(スモールマー
ジン)の概念図,図4(B)は,正例と負例の間隔が広
い場合(ラージマージン)の概念図である。
(3) Support Vector Machine Method The support vector machine method is a method for classifying data consisting of two classifications by dividing a space by a hyperplane. FIG. 4 shows a concept of margin maximization of the support vector machine method. In FIG. 4, white circles represent positive examples, black circles represent negative examples, solid lines represent hyperplanes that divide the space,
A broken line means a surface representing the boundary of the margin area. Figure 4
4A is a conceptual diagram when the positive example and the negative example have a narrow interval (small margin), and FIG. 4B is a conceptual diagram when the positive example and the negative example have a large interval (large margin).

【0047】このとき,2 つの分類が正例と負例からな
るものとすると,学習データにおける正例と負例の間隔
(マージン) が大きいものほどオープンデータで誤った
分類をする可能性が低いと考えられ,図4(B)に示す
ように,このマージンを最大にする超平面を求めそれを
用いて分類を行なう。
At this time, if the two classifications consist of a positive example and a negative example, the larger the interval (margin) between the positive example and the negative example in the learning data, the lower the possibility of misclassification in open data. Therefore, as shown in FIG. 4 (B), a hyperplane that maximizes this margin is obtained and classification is performed using it.

【0048】基本的には上記のとおりであるが,通常,
学習データにおいてマージンの内部領域に少数の事例が
含まれてもよいとする手法の拡張や,超平面の線形の部
分を非線型にする拡張(カーネル関数の導入) がなされ
たものが用いられる。この拡張された方法は,以下の識
別関数を用いて分類することと等価であり,その識別関
数の出力値が正か負かによって二つの分類を判別するこ
とができる。
Although it is basically as described above,
In the training data, the method that allows a small number of cases to be included in the marginal area and the method that makes the linear part of the hyperplane non-linear (the introduction of a kernel function) are used. This extended method is equivalent to classification using the following discriminant function, and two classifications can be discriminated depending on whether the output value of the discriminant function is positive or negative.

【0049】[0049]

【数5】 [Equation 5]

【0050】ただし,xは識別したい事例の文脈(素性
の集合) を,xi とyj (i=1,…,l,yj
{1,−1})は学習データの文脈と分類先を意味し,
関数sgnは, sgn(x)=1(x≧0) (6) −1(otherwise ) であり,また,各αi は式(8)と式(9)の制約のも
と式(7)を最大にする場合のものである。
However, x is the context (set of features) of the case to be identified, and x i and y j (i = 1, ..., 1, y j ε)
{1, -1}) means the context of the learning data and the classification destination,
The function sgn is sgn (x) = 1 (x ≧ 0) (6) −1 (otherwise), and each α i is expressed by the formula (7) under the constraint of the formulas (8) and (9). Is for maximizing.

【0051】[0051]

【数6】 [Equation 6]

【0052】また,関数Kはカーネル関数と呼ばれ,様
々なものが用いられるが,本形態では以下の多項式のも
のを用いる。
The function K is called a kernel function and various functions are used. In the present embodiment, the following polynomial function is used.

【0053】 K(x,y)=(x・y+1)d (10) C,dは実験的に設定される定数である。後述する具体
例ではCはすべての処理を通して1に固定した。また,
dは,1と2の二種類を試している。ここで,α i >0
となるxi は,サポートベクトルと呼ばれ,通常,式
(5) の和をとっている部分はこの事例のみを用いて計
算される。つまり,実際の解析には学習データのうちサ
ポートベクトルと呼ばれる事例のみしか用いられない。
[0053]     K (x, y) = (x · y + 1)d              (10) C and d are constants set experimentally. Specifics described below
In the example C was fixed at 1 throughout all treatments. Also,
For d, two types of 1 and 2 are tried. Where α i> 0
XiIs called the support vector, and is usually an expression
The part taking the sum of (5) is calculated using only this example.
Calculated. In other words, in the actual analysis, the
Only the case called the port vector is used.

【0054】なお,拡張されたサポートベクトルマシン
法の詳細については,以下の参考文献4および参考文献
5を参照されたい。 [参考文献4]Nello Cristianini and John Shawe-Tay
lor, An Introduction to Support Vector Machines an
d other kernel-based learning methods,(Cambridge U
niversity Press,2000) [参考文献5]Taku Kudoh, Tinysvm:Support Vector m
achines,(http://cl.aist-nara.ac.jp/taku-ku//softwa
re/Tiny SVM/index.html,2000) サポートベクトルマシン法は,分類の数が2個のデータ
を扱うもので,通常これにペアワイズ手法を組み合わせ
て用いることで,分類の数が3個以上のデータを扱うこ
とになる。
For details of the extended support vector machine method, refer to References 4 and 5 below. [Reference 4] Nello Cristianini and John Shawe-Tay
lor, An Introduction to Support Vector Machines an
d other kernel-based learning methods, (Cambridge U
niversity Press, 2000) [Reference 5] Taku Kudoh, Tinysvm: Support Vector m
achines, (http://cl.aist-nara.ac.jp/taku-ku//softwa
re / Tiny SVM / index.html, 2000) The support vector machine method handles data with two classifications. Usually, by combining this with a pairwise method, the number of classifications is three or more. You will be dealing with data.

【0055】ペアワイズ手法とは,N個の分類を持つデ
ータの場合,異なる二つの分類先のあらゆるペア(N
(N−1)/2個) を作り,各ペアごとにどちらがよい
かを2値分類器(ここではサポートベクトルマシン法に
よるもの)で求め,最終的にN(N−1)/2個の2値
分類器の分類先の多数決により,分類先を求める方法で
ある。
The pairwise method means that, in the case of data having N classifications, every pair of two different classification destinations (N
(N-1) / 2) is made, and which is better for each pair is obtained by a binary classifier (here, by the support vector machine method), and finally N (N-1) / 2 This is a method of obtaining a classification destination by majority voting of the classification destinations of the binary classifier.

【0056】本形態における2値分類器としてのサポー
トベクトルマシンは,サポートベクトルマシン法とペア
ワイズ手法を組み合わせることによって実現するもので
あり,以下の参考文献6により工藤氏が作成したTin
ySVMを利用している。 [参考文献6]工藤拓 松本裕治,Support vector mac
hineを用いたchunk 同定, 自然言語処理研究会, 2000-N
L-140,(2000) 具体的には,テンス・アスペクト・モダリティの各分類
ごとに最大マージンの超平面を求めておく。そして,入
力された未知の素性が,例えばテンスが現在(正例)で
あるか過去(負例)であるかなどについて,それぞれに
ついて正例の領域と負例の領域のどちらに属するかを判
定していき,その判定結果の多数決により,最終的にテ
ンス・アスペクト・モダリティを推定する。
The support vector machine as the binary classifier in this embodiment is realized by combining the support vector machine method and the pairwise method, and Tin created by Mr. Kudo according to the following reference document 6 is used.
It uses ySVM. [Reference 6] Taku Kudo Yuji Matsumoto, Support vector mac
chunk identification using hine, Natural Language Processing Research Group, 2000-N
L-140, (2000) Specifically, the hyperplane with the maximum margin is obtained for each classification of tense, aspect, and modality. Then, it is determined whether the input unknown feature belongs to the positive example region or the negative example region, for example, regarding whether the tense is the present (positive example) or the past (negative example). Then, the tense, aspect, and modality are finally estimated by the majority of the judgment results.

【0057】ステップS3:テンス・アスペクト・モダ
リティを訳出したい日本文3が入力される。
Step S3: The Japanese sentence 3 for which the tense aspect modality is to be translated is input.

【0058】ステップS4:素性抽出部15では,テン
ス−素性組抽出部12での処理とほぼ同様に,入力され
た日本文3から素性の集合を取り出し,それらを変換先
テンス・アスペクト・モダリティ推定処理部16へ渡
す。図5に,抽出した素性の集合の例を示す。入力され
た日本文「もう行きました。」から,文字列素性「もう
行きました$」,「う行きました$」,・・・,「た
$」および単語素性「もう」,「行き」,「まし」,
「た」などが抽出される。
Step S4: The feature extraction unit 15 extracts a set of features from the input Japanese sentence 3 and estimates them as the transformation destination tense / aspect / modality in the same manner as the process of the tense-feature set extraction unit 12. It is passed to the processing unit 16. FIG. 5 shows an example of the extracted feature set. From the input Japanese sentence "I already went.", The character string features "I already went $", "U went" $, ..., "Ta $" and the word features "Already" and "Go."","Better",
“Ta” and the like are extracted.

【0059】ステップS5:変換先テンス・アスペクト
・モダリティ推定処理部16では,学習結果データベー
ス14をもとに,渡された素性の集合の場合にどのよう
なテンス・アスペクト・モダリティになりやすいかを特
定し,特定したテンス・アスペクト・モダリティ4を出
力する。例えば,「過去,完了」,「過去,完了,進行
形」,「現在,shall 付」,「過去;be able to付」な
どのデータを出力する。
Step S5: Based on the learning result database 14, the conversion destination tense / aspect / modality estimation processing unit 16 determines what kind of tense / aspect / modality is likely to occur in the case of the passed feature set. The specified tenth aspect modality 4 is output. For example, data such as "past, completed", "past, completed, progressive", "current, with a challenge", "past; with a beable to" is output.

【0060】入力された日本文「もう行きました。」の
素性の集合について,学習結果データベース14に記憶
された学習結果を使用すると「過去完了」でよいとわか
るので,テンス・アスペクト・モダリティ4として「過
去完了」を出力する。この場合に,従来のように単純に
文末の文字列だけを用いて推定したときは,「ました
$」の表現の一致からテンスが「現在完了」と推定され
てしまう。しかし,本発明では,文字列以外に全文の単
語素性のうちのいくつかの素性を用いて学習した結果を
参照することにより「過去完了」と正しく推定できる。
Using the learning results stored in the learning result database 14 for the set of features of the input Japanese sentence "I'm already gone.", It can be seen that "past completion" is sufficient. Therefore, the tenth aspect modality 4 "Past complete" is output as. In this case, when the estimation is performed simply by using only the character string at the end of the sentence as in the conventional case, the tense is estimated to be “currently completed” from the matching of the expression “Matte $”. However, in the present invention, “past completion” can be correctly estimated by referring to the result of learning using some of the word features of the whole sentence other than the character string.

【0061】また,入力された日本文3が「昨日行きま
した」である場合には,同様に,従来の手法では「まし
た$」の表現の一致からテンスが「現在完了」と推定さ
れてしまう。しかし,学習結果データベース14に「昨
日登録しました。」にテンスが「過去」であるという学
習結果が記憶されていれば,「昨日」という単語素性を
もとに正しく「過去」と推定することができる。
When the input Japanese sentence 3 is "I went yesterday", similarly, in the conventional method, the tense is estimated to be "currently completed" from the coincidence of the expression "tas $". Will end up. However, if the learning result that the tense is "past" is stored in "I registered yesterday" in the learning result database 14, correctly estimate it as "past" based on the word feature "yesterday". You can

【0062】以上では,主に素性の集合として形態素素
性と単語素性を用いた場合を例に説明したが,テンス−
素性組抽出部12では,形態素素性や単語素性だけでな
く,一前文(事例)のテンス・アスペクト・モダリティ
を素性として抽出してもよい。これは,テンス(時制)
は継続しやすいという性質を利用するものである。すな
わち,一前文に付与されたテンスが「現在」であれば,
対象事例も「現在」で記述したほうがよいと学習するも
のである。特に論文の実験の記述で時制を統一する必要
がある場合には有用である。
In the above, the case where the morphological feature and the word feature are mainly used as the set of features has been described as an example.
The feature set extraction unit 12 may extract not only the morphological feature and the word feature but also the tense aspect modality of the preceding sentence (case) as a feature. This is a tense
Uses the property of being easy to continue. That is, if the tense given to the preceding sentence is "present",
It is learned that it is better to describe the target case as “current”. This is especially useful when it is necessary to unify the tense in the description of the experiment in the paper.

【0063】また,テンス−素性組抽出部12では,事
例の英文対訳データの該当する語句(動詞部分)などを
素性として抽出してもよい。これは,訳出される英語文
の構造がかわると用いるべきモダリティも変化する場合
があることにもとづく。
Further, the tense-feature set extraction unit 12 may extract the corresponding word / phrase (verb part) of the English parallel translation data of the case as a feature. This is based on the fact that the modality to be used may change when the structure of the translated English sentence changes.

【0064】以下の事例で説明する。 例文1)和文: 彼は質実な生活を{送っている} 英訳: He{lives }a sober and simple life. 例文2)和文: 彼は惰性的に怠惰な生活を{送ってい
る} 英訳: He{is leading}a lazy life out of habit. 例えば,例文1の「送っている」のモダリティは「現在
形」であるが,例文2の「送っている」のモダリティは
「進行形」である。これらはほとんど意味の同じ文であ
り同じモダリティを持っていると考えてもよいものだ
が,訳出に用いる動詞を「live」と「lead」とかえただ
けでこのような違いが出てくる。
The case will be described below. Example sentence 1) Japanese sentence: He {lives} a sober and simple life. Example sentence 2) Japanese sentence: He is {lives} {lives} a sober and simple life. {Is leading} a lazy life out of habit. For example, the modality of "sending" in example sentence 1 is "present tense", but the modality of "sending" in example sentence 2 is "progressive". Although these can be thought of as sentences that have almost the same meaning and have the same modality, such a difference can be seen only by changing the verbs used for translation to “live” and “lead”.

【0065】なお,この場合に,入力される日本文3に
仮訳された英文が付与されることになり,素性抽出部1
5では,日本文3に付与された英文の動詞部分が素性と
して抽出される。
In this case, a provisionally translated English sentence is added to the input Japanese sentence 3, and the feature extraction unit 1
In 5, the verb part of the English sentence added to the Japanese sentence 3 is extracted as a feature.

【0066】高品質な処理を行ないたい場合,このよう
に,素性の取り出しの際に,日本語側だけでなく英文対
訳データのうち機械翻訳システムの構造解析部が想定し
ている英語側の構造(あるいは動詞) を取り出すという
ことが,テンス・アスペクト・モダリティの翻訳の向上
に有効である。
When high quality processing is desired, the structure on the English side assumed by the structure analysis unit of the machine translation system in the English parallel translation data is assumed not only in the Japanese side but in the feature extraction as described above. Extracting (or verb) is effective in improving the translation of tense, aspect, and modality.

【0067】以下,本発明を一実施例によりさらに詳細
に説明する。
Hereinafter, the present invention will be described in more detail with reference to an embodiment.

【0068】〔テンス・アスペクト・モダリティ・デー
タベース〕図6に,実施例で用いるテンス・アスペクト
・モダリティ・データベース11である対訳コーパスの
一部を示す。この対訳コーパスは,例えば,以下の参考
文献7にもとづいて作成する。 [参考文献7]村田真樹 内山将夫 内元清貴 馬青
井佐原均,機械学習を用いた機械翻訳用モダリティコー
パスの修正,言語処理学会第7回年次大会,(2001) 図6中,英語側の文には以下の二か所のタグが付与され
ている。 ・英語の主節の動詞部分を<v>,</v>のタグで囲
む。 ・日本語の主節の動詞に対応する英語の動詞部分を<v
j>,</vj>のタグで囲む。
[Tense Aspect Modality Database] FIG. 6 shows a part of the bilingual corpus which is the tenth aspect modality database 11 used in the embodiment. This parallel translation corpus is created, for example, based on the following reference document 7. [Reference 7] Maki Murata Masao Uchiyama Kiyotaka Uchimoto Masei
Hitoshi Isahara, Modification of modality corpus for machine translation using machine learning, 7th Annual Conference of Linguistic Processing Society, (2001) In Fig. 6, English sentences have the following two tags. There is.・ Enclose the verb part of the English main clause with the tags <v> and </ v>.・ <V for the English verb part that corresponds to the Japanese main clause verb
Enclose with tags of j> and </ vj>.

【0069】また,日本語側の文の先頭に“c”や
“d”といった記号がふられているが,これらはこの対
訳データのテンス・アスペクト・モダリティを意味す
る。例えば,“c”はcanを,“d”は過去形を意味
する。
Further, symbols such as "c" and "d" are added to the head of the sentence on the Japanese side, which means the tense aspect modality of this bilingual data. For example, "c" means can and "d" means past tense.

【0070】図6に示すコーパスの一つめのデータには
“,”があるが,これは<vj>を用いるときに使われ
るもので,“,”の左に<v>で囲まれた動詞に対する
テンス・アスペクト・モダリティが,右に<vj>で囲
まれた動詞に対するテンス・アスペクト・モダリティが
記述される。なお,このコーパスでは現在形の出現が多
いのでその場合はタグをふらなかった。このた
め,“,”の左右が空欄となってこの部分には“,”だ
けが付与されている。
The first data of the corpus shown in FIG. 6 has ",", which is used when <vj> is used. The verb enclosed by <v> to the left of ",". The tense aspect modality for is described, and the tenth aspect modality for the verb surrounded by <vj> is described on the right. In this corpus, the present tense often appears, so in that case, no tag was added. Therefore, the left and right of "," are blank, and only "," is added to this part.

【0071】また,「日本語に対応する英語の動詞部
分」と「英語の主節の動詞部分」が一致する場合は「英
語の主節の動詞部分」のタグのみ付与した。また,「日
本語に対応する英語の動詞部分」の方はそれほど綿密に
タグ付与は行なっておらず,「日本語に対応する英語の
動詞部分」と「英語の主節の動詞部分」が一致しない場
合にもタグ付与をしなかった場合もある。
Further, when the "English verb part corresponding to Japanese" and the "English main verb part" match, only the "English main verb part" tag is added. Also, the "English verb part corresponding to Japanese" is not so carefully tagged, and the "English verb part corresponding to Japanese" and the "verb part of the English main clause" match. In some cases, the tag may not be added even when the tag is not attached.

【0072】日英の対訳データに付与するテンス・アス
ペクト・モダリティの分類として,前述した分類のう
ち,以下の(1)および(2)を用いた。 (1)各助動詞相当語句 (be able to, be going to, c
an, have to, had better, may, must, need, ought, s
hall, used to, will の12種類) がつくかどうかと,
{現在形,過去形}と{進行形,進行形でない}と{完
了,完了でない}のすべての組み合わせ(助動詞相当語
句が複数つく場合も許している。) : 215種類 (2)命令形 (1種類) 本発明に係るシステムで扱うテンス・アスペクト・モダ
リティの分類は英語の表層表現に基づいて定めたもので
あり,日本語文だけを与えてこの分類を推定できれば,
モダリティ表現の日英翻訳ができあがる。このため,本
例では,原則として,テンス・アスペクト・モダリティ
の分類を示すタグと日本語文のみを用いている。また,
前述したように,これらの分類は,「英語の主節の動詞
部分」と「日本語の主節の動詞に対応する英語の動詞部
分」の二か所にふられるが,日本文3を与えて「英語の
主節の動詞部分」のテンス・アスペクト・モダリティの
分類を推定することを問題設定としている。
The following (1) and (2) of the above classifications were used as the classifications of the tense aspect modality to be added to the bilingual data in Japanese and English. (1) Each auxiliary verb equivalent phrase (be able to, be going to, c
an, have to, had better, may, must, need, ought, s
(12 kinds of hall, used to, will))
All combinations of {present tense, past tense}, {progressive, non-progressive} and {complete, not complete} (even when there are multiple auxiliary verb equivalent phrases): 2 15 types (2) imperative (1 type) The classification of the tense / aspect / modality handled by the system according to the present invention is defined based on the surface expression in English. If only Japanese sentences can be given to estimate this classification,
Japanese-English translation of modality expressions is completed. For this reason, in this example, in principle, only tags indicating the classification of tense, aspect, and modality and Japanese sentences are used. Also,
As mentioned above, these classifications are referred to in two places, "the verb part of the English main clause" and "the English verb part corresponding to the verb of the Japanese main clause". The problem is to estimate the tense / aspect / modality classification of the “verb part of the English main clause”.

【0073】本例では,テンス・アスペクト・モダリテ
ィ・データベース11として,以下の二種類の対訳コー
パスを用いた。 ・K社和英辞典の例文 (事例総数は39,660個,分類の総
数は46個) ・白書データ (事例総数は5,805 個,分類の総数は30
個) これらのコーパスは,人手により確認しながらタグづけ
を行ない,さらに参考文献7および以下の参考文献8に
示すコーパス修正の方法を利用して作成しており,非常
に高精度なものとなっている。 [参考文献8]村田真樹 内山将夫 内元清貴 馬青
井佐原均,決定リスト,用例ベース手法を用いたコーパ
ス誤り検出・誤り訂正,自然言語処理研究会,2000-NL-
136(2000)
In this example, the following two types of bilingual corpus are used as the tenth aspect modality database 11.・ Example sentence of K-Japanese dictionary (total number of cases is 39,660, total number of classification is 46) ・ White paper data (total number of cases is 5,805, total number of classification is 30)
Each of these corpora is tagged with checking manually, and is also created by using the corpus correction method shown in Reference 7 and Reference 8 below, which is extremely accurate. ing. [Reference 8] Maki Murata Masao Uchiyama Kiyotaka Uchimoto Masei
Hitoshi Isahara, Decision List, Corpus Error Detection / Error Correction Using Example-Based Method, Natural Language Processing Research Group, 2000-NL-
136 (2000)

【0074】〔抽出する素性〕本例では,日本文3の入
力を与えられたときにテンス・アスペクト・モダリティ
4として分類を出力する。このため,素性は入力される
日本文3から取り出すことになる。ここでは,素性集合
として以下の三種類のものに対して処理を行った。 (1)素性集合F1 日本語文末の1〜10gramの文字列と入力された文全体
の形態素列を素性の集合とする。 例:「ない$」「しなかった$」「今日」「は」「走
る」 この場合に,素性の数は,K社データで230,134
個,白書データで25,958個となる。 (2) 素性集合F2 日本語文末の1〜10gramの文字列を素性の集合とす
る。 例:「ない$」「しなかった$」 この場合に,素性の数は,K社データで199,199
個,白書データで16,610個となる。 (3)素性集合F3 入力された文全体の形態素列を素性の集合とする。 例:「今日」「は」「走る」 この場合に,素性の数は,K社データで30,935
個,白書データで9,348個となる。
[Features to be extracted] In this example, when the input of Japanese sentence 3 is given, the classification is output as the tenth aspect modality 4. Therefore, the feature is taken out from the input Japanese sentence 3. Here, we processed the following three types of feature sets. (1) Feature set F1 A character string of 1 to 10 gram at the end of a Japanese sentence and a morpheme sequence of the entire input sentence are set as a feature set. Example: “No $” “Did not do $” “Today” “Ha” “Run” In this case, the number of features is 230,134 in K company data.
The number of white paper data is 25,958. (2) Feature set F2 A character string of 1 to 10 gram at the end of a Japanese sentence is set as a feature set. Example: “None $” “Don't do $” In this case, the number of features is 199,199 in K company data.
The number of white paper data is 16,610. (3) Feature set F3 The morpheme string of the entire input sentence is used as a feature set. Example: “Today” “Ha” “Run” In this case, the number of features is 30,935 in K company data.
The number of white paper data is 9,348.

【0075】入力された文を形態素列に分解するのに
は,JUMANを用いた。JUMANの詳細な説明につ
いては,以下の参考文献9に記載されている。 [参考文献9]黒橋禎夫 長尾真,日本語形態素解析シ
ステムJUMAN使用説明書,version 3.6 (京都大学
大学院工学研究科,1998) 素性集合F1は,素性集合F2と素性集合F3との組合
わせである。素性集合F2は,上記の参考文献1の研究
を参考にして作成したものであり,日本語文においてテ
ンス・アスペクト・モダリティを示す表現は文末の動詞
にあらわれることが多いことから,日本語文の文末の文
字列を素性としている。素性集合F3は,「明日」「昨
日」などの副詞もテンス・アスペクト・モダリティを示
す表現であり,用いるべきだと考えて作成したもので,
入力された文全体の形態素列とするものである。 〔機械学習によるテンス・アスペクト・モダリティの分
類〕本例では,機械学習の手法として,決定リスト法,
最大エントロピー法,サポートベクトルマシン法を用い
た。さらに,本発明に係るシステムで用いる機械学習法
と従来の手法との処理結果の比較のためにk近傍法を用
いた処理も行った。
JUMAN was used to decompose the input sentence into morpheme strings. A detailed description of JUMAN can be found in Reference 9 below. [Reference 9] Sadao Kurohashi, Shin Nagao, Japanese Morphological Analysis System JUMAN Instruction Manual, version 3.6 (Kyoto University Graduate School of Engineering, 1998) The feature set F1 is a combination of the feature set F2 and the feature set F3. is there. The feature set F2 was created by referring to the research in Reference 1 above, and the expression indicating the tense, aspect, and modality in a Japanese sentence often appears in the verb at the end of the sentence. Character string is the feature. The feature set F3 is an expression in which adverbs such as "tomorrow" and "yesterday" also indicate tense, aspect, and modality, and was created with the thought that it should be used.
This is a morpheme string of the entire input sentence. [Classification of Tens, Aspect, and Modality by Machine Learning] In this example, as a method of machine learning, the decision list method,
The maximum entropy method and the support vector machine method were used. Further, processing using the k-nearest neighbor method was also performed for comparison of processing results between the machine learning method used in the system according to the present invention and the conventional method.

【0076】k近傍法は,素性集合だけでなく事例同士
の類似度を定義する必要がある。しかし,本例では素性
集合F1と素性集合F3は入力された文全体の形態素列
をも素性の集合とするので,類似度の定義が困難であ
る。そのため,k近傍法では素性集合F2だけを用いる
ことにする。素性集合F2での類似度の定義としては,
事例間で一致した文字列の最長がx−gramのとき,
類似度をxとすることにした。
The k-nearest neighbor method needs to define not only the feature set but also the similarity between cases. However, in this example, since the feature set F1 and the feature set F3 include the morpheme sequence of the entire input sentence as a feature set, it is difficult to define the similarity. Therefore, only the feature set F2 is used in the k-nearest neighbor method. As the definition of similarity in the feature set F2,
When the longest matching character string between cases is x-gram,
The similarity is decided to be x.

【0077】なお,他の機械学習の手法としては,他に
C4.5などの決定木学習を利用する方法があるが,本
例では,種々の問題で決定木学習手法が他の手法に比べ
て劣っていること,また,本例で扱う問題は属性の種類
の数が多くC4.5が実行できるまで属性の数を減らす
と精度が落ちるであろうことの二つの理由により用いて
いない。
As another machine learning method, there is a method of utilizing decision tree learning such as C4.5. In this example, the decision tree learning method is different from other methods due to various problems. The problem to be dealt with in this example is not used for two reasons: the number of types of attributes is large, and the accuracy will decrease if the number of attributes is reduced until C4.5 can be executed.

【0078】〔第1の例〕まず,K社和英辞典の例文の
データを用いた処理を行なった。その処理結果の精度を
図7に示す。本例では,クローズとオープンの二種類の
処理を行なった。オープンの実験は10分割のクロスバ
リデーションで行なった。図7の括弧内の数字はクロー
ズでの精度を意味する。
[First Example] First, a process using the example sentence data of the K Company Japanese-English dictionary was performed. The accuracy of the processing result is shown in FIG. In this example, two types of processing, closed and open, were performed. The open experiment was carried out by 10-fold cross validation. The numbers in parentheses in FIG. 7 mean the accuracy at close.

【0079】この処理結果から以下のことがわかる。 ・決定リスト法は素性集合F2を用いるときに,k近傍
法と同程度の精度を得ている。 ・最大エントロピー法は,k近傍法または決定リスト法
に比べて高い精度を得ている。 ・サポートベクトルマシン法は,常に他の手法に比べて
高い精度をあげている。 ・素性集合の比較としては,最大エントロピー法および
決定リスト法では,素性集合F2が最も精度が高く,素
性集合F1のように形態素の情報を追加すると逆に精度
が下がる結果となっている。これは,素性が増えても不
要な素性も増えるために精度が低下したものと思われ
る。 ・サポートベクトルマシン法での素性集合の比較では,
素性集合F1で最も高い精度をあげている。これは,サ
ポートベクトルマシン法では形態素の情報の追加が効果
があったことを意味する。他の手法では形態素の情報の
追加では逆に精度が下がったので,サポートベクトルマ
シン法では不要な素性を除去し有用な素性を選択する素
性選択の能力も他の手法に比べて高いと推測される。
The following can be seen from the processing result. The decision list method obtains the same degree of accuracy as the k-nearest neighbor method when using the feature set F2. -The maximum entropy method has higher accuracy than the k-nearest neighbor method or the decision list method.・ The support vector machine method always gives higher accuracy than other methods. As a comparison of the feature sets, the maximum entropy method and the decision list method have the highest precision in the feature set F2, and conversely the precision decreases when the morpheme information like the feature set F1 is added. It is considered that this is because the accuracy decreases because the number of unnecessary features increases even if the number of features increases.・ In the comparison of feature sets by the support vector machine method,
The feature set F1 has the highest accuracy. This means that the addition of morphological information was effective in the support vector machine method. On the other hand, the accuracy of addition of morpheme information decreased with other methods. Therefore, it is assumed that the support vector machine method has a higher ability of feature selection to remove unnecessary features and select useful features than other methods. It

【0080】この結果に対し,手法の理論的な側面から
は以下のような説明をつけることができる。 ・決定リスト手法は,ある一つの素性のみから解を求め
る方法のため,不要な素性が多い場合その不要な素性の
みを文脈として解を求めてしまいがちになり,不要な素
性が多い場合精度が低下する。 ・最大エントロピー法は,常にほとんどすべての素性を
用いるので,不要な素性が多い場合には精度が低下す
る。 ・これらに対し,サポートベクトルマシン法では,サポ
ートベクトルとなる事例のみを用いそれ以外の事例を用
いないといった事例を捨てる操作があるため,多くの不
要な素性をこの事例とともに捨てることになり,不要な
素性が多くてもそれほど精度低下を招かない傾向があ
る。
The following explanation can be given to this result from the theoretical side of the method.・ Since the decision list method is a method of finding a solution from only one feature, if there are many unnecessary features, it is easy to find a solution with only those unnecessary features as contexts. If there are many unnecessary features, the accuracy is high. descend. -The maximum entropy method always uses almost all features, so the accuracy decreases when there are many unnecessary features. -On the other hand, in the support vector machine method, there is an operation that discards cases in which only the cases that are the support vectors are used and other cases are not used, so many unnecessary features are discarded together with this case, which is unnecessary. Even if there are many such features, there is a tendency that the accuracy is not lowered so much.

【0081】以上のように,全手法通じて最も精度が高
かったのは,d=1, 素性集合F1のときのサポートベ
クトルマシン法であった。
As described above, the most accurate method among all the methods is the support vector machine method when d = 1 and the feature set F1.

【0082】上記の結果のうち,サポートベクトルマシ
ン法において,素性集合F1を用いる方が素性集合F2
を用いるよりも良かった,すなわち,形態素の情報の追
加が効果があった,という結果が有意なことなのかを調
べるために符合検定を行なった。これは,d=1の方が
精度がよかったのでd=1で行なった。全事例39,6
60個のうち,素性集合F1で正しく素性集合F2で誤
った事例は648個であり,素性集合F2で正しく素性
集合F1で誤った事例は427個であったが,これを符
合検定にかけると0.00000001%(計算では8
桁で切っていたため,実際の値はこの値よりももっと小
さい可能性がある。)以下の危険率で有意な差があると
判定された。このことにより,サポートベクトルマシン
法において,形態素の情報を追加する効果があったこと
は,ほぼ間違いないと考えてよい。
Among the above results, in the support vector machine method, using the feature set F1 is the feature set F2.
We performed a sign test to see if the result that it was better than using, that is, the addition of morphological information was effective was significant. This was done with d = 1 because the precision was better when d = 1. All cases 39,6
Of the 60 cases, there were 648 cases where the feature set F1 was correct and the feature set F2 was erroneous, and 427 cases where the feature set F2 was correct and the feature set F1 was erroneous. 0.00000001% (8 in calculation
The actual value may be much smaller than this value because it was divided into digits. ) It was judged that there was a significant difference in the following risk factors. Therefore, it is almost certain that the support vector machine method had the effect of adding morpheme information.

【0083】次に形態素の情報といっても,実際にどの
ような素性が有効に働いているかを調べることにした。
これは,素性集合F1で正しく素性集合F2で誤った事
例は,648個に偏って出現している素性を調べること
によって行なうことにした。ここでは二項検定を利用し
て,全事例39,660個での出現確率よりも有意水準
1%で大きいと判断されたものを偏って出現しているも
のとした。
Next, it was decided to investigate what kind of features actually worked effectively even though it was morpheme information.
This is done by checking the features that are biased to 648 in the case where the feature set F1 is correct and the feature set F2 is incorrect. Here, using the binomial test, it is assumed that the ones judged to be larger at the significance level of 1% than the appearance probabilities in all 39,660 cases are biasedly appearing.

【0084】この有効に働いたと思われる形態素素性の
頻度の大きいもの上位20個を図8に示す。図8では,
「もう」「最近」「だろう」「まだ」「なければ」「ま
しょう」「あす」など,テンス・アスペクト・モダリテ
ィの推定に役立ちそうな形態素素性が得られており,実
際にこういった素性によって精度が向上したものと推測
される。
FIG. 8 shows the top 20 most frequently occurring morphological features that seem to have worked effectively. In Figure 8,
Morphological features that can be useful for estimating tense aspect modality, such as "already", "recently", "would", "still", "if not", "let's", and "tomorrow" have been obtained, and actually such morphological features have been obtained. It is presumed that the accuracy was improved by the feature.

【0085】〔第2の例〕次に白書データを用いて処理
を行った。この場合には,精度の良かったサポートベク
トルマシン法を用いて行なった。本例でも10分割のク
ロスバリデーションを行なうことでオープンでの精度を
求めている。処理結果の精度を図9に示す。
[Second Example] Next, processing was performed using white paper data. In this case, the support vector machine method, which had good accuracy, was used. Also in this example, open precision is obtained by performing 10-fold cross validation. The accuracy of the processing result is shown in FIG.

【0086】この処理結果より以下のことがわかる。 ・白書データの精度は,最大で64.67%であった。 ・白書データでも文末文字列のみを用いる素性集合F2
よりも一文全体の形態素情報も加えて用いる素性集合F
1の方が高い精度を得ている。また,白書データでは素
性集合F2よりも,一文全体の形態素情報を用いる素性
集合F3の方が精度が高い。これらの結果はさらに,一
文全体の形態素情報の素性としての有効性を確かめるも
のとなっている。
The following can be seen from this processing result.・ The accuracy of the white paper data was 64.67% at maximum.・ Feature set F2 that uses only end-of-sentence character strings even in white paper data
Feature set F that uses morpheme information of the whole sentence rather than
1 is higher accuracy. Further, in the white paper data, the feature set F3 using the morpheme information of the entire sentence has higher accuracy than the feature set F2. These results further confirm the effectiveness of the whole sentence as morphological information features.

【0087】〔第3の例〕次に,K社データを学習デー
タとして,白書データをテストデータとしたような場
合,すなわち異分野のデータを教師データとした処理を
行なった。本例により,異なる分野のデータを用いると
精度がどのようにかわるのかを調べることができた。こ
の処理では精度の良かったd=1およびd=2のデータ
を対象として, 素性集合F1のサポートベクトルマシン
法を用いて行なった。この処理でも学習データとテスト
データが重なる場合は重なった部分において10分割の
クロスバリデーションを行なうことでオープンでの精度
を求めている。処理結果の精度を図10に示す。
[Third Example] Next, a process was performed in which K company data was used as learning data and white paper data was used as test data, that is, data in a different field was used as teacher data. With this example, we were able to investigate how the accuracy changes when using data from different fields. In this processing, the support vector machine method of the feature set F1 was performed on the data of d = 1 and d = 2, which had good accuracy. Even in this process, if the learning data and the test data overlap, the open precision is obtained by performing 10-division cross validation in the overlapped portion. The accuracy of the processing result is shown in FIG.

【0088】この処理結果により以下のことがわかる。 ・異なる分野のデータを用いると精度が非常に下がっ
た。( 白書データを学習データとしてK社データを解析
したり,K社データを学習データとして白書データを解
析したりすると,精度は10%〜20%程度に落ち
た。) このことから,入力されるデータと同分野の学習
データを用いることが有効であることがわかる。
The results of this processing reveal the following. -Using data from different fields resulted in very poor accuracy. (When the white paper data is used as the learning data to analyze the K company data or the K company data is used as the learning data to analyze the white paper data, the accuracy drops to about 10% to 20%.) It turns out that it is effective to use learning data in the same field as the data.

【0089】人手で書いた規則を用いる手法では異分野
に適応したシステムを作るのが難しい。これに対して本
発明のような機械学習を用いる方法であれば,学習デー
タをかえて学習し直すことにより,分野ごとに適応した
システムを作るのが容易となる。 ・K社と白書の両方を学習データとして用いた場合は,
精度はほとんどかわらないか,もしくは少し下がる程度
であった。このことから,学習データは多ければよいと
いうものではなく,異分野のデータの場合は,混在させ
て学習データを用いてもそれほど効果がないことがわか
る。
It is difficult to make a system adapted to a different field by the method using the rules written by hand. On the other hand, with the method using machine learning as in the present invention, it is easy to create a system adapted for each field by changing learning data and re-learning.・ If both company K and the white paper are used as learning data,
The accuracy was almost unchanged or slightly lowered. From this, it can be seen that it is not necessary to have a large amount of learning data, and in the case of data of different fields, it is not so effective to use learning data mixedly.

【0090】本例において,テンス・アスペクト・モダ
リティの翻訳の処理を,k近傍法も含めて様々な機械学
習手法を用いて行なった。また検証のため,機械学習法
のうちどの方法がもっともよいかを調べた。
In this example, the processing of translating the tense aspect modality was performed using various machine learning methods including the k-nearest neighbor method. Also, for verification, we investigated which of the machine learning methods is the best.

【0091】従来の手法(参考文献1等)では,テンス
・アスペクト・モダリティの翻訳の際に,素性として文
末の文字列しか用いていなかった。本発明では文末の文
字列以外にその一文中の形態素情報を追加して用いた。
In the conventional method (reference document 1 and the like), only the character string at the end of a sentence is used as a feature when translating a tense aspect modality. In the present invention, in addition to the character string at the end of a sentence, morpheme information in the sentence is additionally used.

【0092】その結果,従来では用いていなかった一文
中の形態素情報の利用が,処理精度を向上させる効果が
あることを検定を用いて確認した。
As a result, it was confirmed using a test that the use of morpheme information in one sentence, which has not been used conventionally, has the effect of improving processing accuracy.

【0093】また,機械学習手法として,決定リスト
法,最大エントロピー法,またはサポートベクトルマシ
ン法のいずれか一の手法を用いても,従来のk近傍法よ
りも高い精度でテンス・アスペクト・モダリティの翻訳
を行なうことができた。
Further, even if any one of the decision list method, the maximum entropy method, and the support vector machine method is used as the machine learning method, the tense / aspect / modality method can be used with higher accuracy than the conventional k-nearest neighbor method. I was able to translate.

【0094】特に,サポートベクトルマシン法による方
法が最も高い精度を得て,従来手法のk近傍法による手
法よりも高い精度で,テンス・アスペクト・モダリティ
の翻訳を行なうことができた。
In particular, the method using the support vector machine method has the highest accuracy, and the tense aspect modality can be translated with higher accuracy than the method using the k-nearest neighbor method of the conventional method.

【0095】また,異なる分野( 本例では,K社英和辞
典データと白書データ) のコーパスを用いた処理の例を
行なった。この処理では,異なる分野のデータを用いる
と精度が格段に落ちることを確認し,異なる分野ごとに
テンス・アスペクト・モダリティの翻訳システムを構築
する必要があることを確認した。このことは,異分野に
適応するシステムを人手で作成することが困難であるこ
とを考えれば,機械学習手法を用いる本発明の有用性を
示すことになる。
Further, an example of processing using corpus of different fields (in this example, the English-Japanese dictionary data of K company and white paper data) was performed. In this process, it was confirmed that the accuracy was significantly reduced when using data from different fields, and it was confirmed that it was necessary to construct a translation system of tense, aspect, and modality for each different field. This shows the usefulness of the present invention using the machine learning method considering that it is difficult to manually create a system adapted to a different field.

【0096】以上,本発明をその実施の態様により説明
したが,本発明はその主旨の範囲において種々の変形が
可能である。例えば,本発明の実施の形態では,本発明
に係るテンス・アスペクト・モダリティ翻訳システム1
は独立して構成されるものとして説明してきたが,他の
機械翻訳システムの一部として構成されることも可能で
ある。
Although the present invention has been described with reference to the embodiments, the present invention can be variously modified within the scope of the gist thereof. For example, in the embodiment of the present invention, the tense aspect modality translation system 1 according to the present invention is used.
Has been described as being configured independently, but can be configured as part of another machine translation system.

【0097】また,機械学習部13で用いる機械学習法
は,決定リスト法,最大エントロピー法,サポートベク
トルマシン法に限らず,異なる形式の素性を組み合わせ
て扱うことができる方法であればどのような手法であっ
てもよく,また,テンス−素性組抽出部12または素性
抽出部15で抽出する素性は,対象となる事例もしくは
入力文から抽出可能な素性であれば種類は限定されない
ことは当然である。
The machine learning method used by the machine learning unit 13 is not limited to the decision list method, the maximum entropy method, and the support vector machine method, but any method can be used as long as it can handle features of different forms in combination. The method may be used, and the features extracted by the tense-feature pair extraction unit 12 or the feature extraction unit 15 are not limited in kind as long as they are features that can be extracted from the target case or input sentence. is there.

【0098】[0098]

【発明の効果】以上説明したように,本発明は以下のよ
うな格別の効果を奏する。 ・本発明では,テンス・アスペクト・モダリティの翻訳
の問題で,サポートベクトルマシン法に代表される,複
数の形式の解析情報(素性)を取り扱うことができるよ
うな機械学習法を用いる。これにより,従来の類似度を
用いるk近傍法よりも高い精度でテンス・アスペクト・
モダリティの翻訳を行なうことができる,テンス・アス
ペクト・モダリティ翻訳処理方法および翻訳システムを
提供することができる。 ・本発明では,テンス・アスペクト・モダリティの翻訳
の際に,文末の文字列以外にその一文中の形態素情報を
新たに追加して用いている。これにより,素性として文
末の文字列しか用いていなかった従来の手法に比べて精
度の高い翻訳を行うことができる。 ・本発明では,機械学習部13で用いるテンス・アスペ
クト・モダリティと素性の集合の組を抽出するテンス・
アスペクト・モダリティ・データベースとして,種々の
分野のコーパスを利用することができ,さらにそのコー
パスにもとづいて人手によらずに学習結果を取得するこ
とができる。これにより,異分野ごとに適応するテンス
・アスペクト・モダリティ翻訳システムを容易に実現す
ることができる。
As described above, the present invention has the following special effects. The present invention uses a machine learning method capable of handling analysis information (features) in a plurality of formats, which is represented by the support vector machine method, due to the problem of translating tense aspect modality. As a result, the tenth aspect ratio can be calculated with higher accuracy than the conventional k-nearest neighbor method using similarity.
A tense / aspect / modality translation processing method and translation system capable of performing modality translation can be provided. In the present invention, the morpheme information in the sentence is newly added in addition to the character string at the end of the sentence when the tense aspect modality is translated. As a result, it is possible to perform highly accurate translation as compared with the conventional method in which only the character string at the end of a sentence is used as a feature. In the present invention, a tense for extracting a set of a set of tense / aspect / modality and features used in the machine learning unit 13
As an aspect modality database, corpora in various fields can be used, and learning results can be acquired based on the corpora without human intervention. This makes it possible to easily realize a tense / aspect / modality translation system that adapts to different fields.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明にかかるシステムの構成例を示す図であ
る。
FIG. 1 is a diagram showing a configuration example of a system according to the present invention.

【図2】本発明にかかるシステムの処理フローチャート
である。
FIG. 2 is a processing flowchart of a system according to the present invention.

【図3】テンス・アスペクト・モダリティと素性の集合
の組の例を示す図である。
FIG. 3 is a diagram showing an example of a set of a set of a tenth aspect modality and a feature.

【図4】サポートベクトルマシン法におけるマージン最
大化を説明するための図である。
FIG. 4 is a diagram for explaining margin maximization in a support vector machine method.

【図5】入力文からの素性の集合の抽出の例を示す図で
ある。
FIG. 5 is a diagram showing an example of extraction of a feature set from an input sentence.

【図6】実施例におけるテンス・アスペクト・モダリテ
ィ・データベースの一部の例を示す図である。
FIG. 6 is a diagram showing an example of a part of a tenth aspect modality database in an embodiment.

【図7】第1の例におけるテンス・アスペクト・モダリ
ティの翻訳の精度を比較するための図である。
FIG. 7 is a diagram for comparing the translation accuracy of the tenth aspect modality in the first example.

【図8】有効に働いたと思われる形態素素性の例を示す
図である。
FIG. 8 is a diagram showing an example of a morphological feature that seems to have worked effectively.

【図9】第2の例におけるテンス・アスペクト・モダリ
ティの翻訳処理の精度を比較するための図である。
FIG. 9 is a diagram for comparing the accuracy of the translation processing of the tenth aspect modality in the second example.

【図10】第3の例におけるテンス・アスペクト・モダ
リティの翻訳処理の精度を比較するための図である。
FIG. 10 is a diagram for comparing the accuracy of the translation processing of the tenth aspect modality in the third example.

【符号の説明】 1 テンス・アスペクト・モダリティ翻訳システム 11 テンス・アスペクト・モダリティ・データベース 12 テンス−素性組抽出部 13 機械学習部 14 学習結果データベース 15 素性抽出部 16 変換先テンス・アスペクト・モダリティ推定処理
[Explanation of Codes] 1 Tence Aspect Modality Translation System 11 Tence Aspect Modality Database 12 Tence-Feature Pair Extraction Unit 13 Machine Learning Unit 14 Learning Result Database 15 Feature Extraction Unit 16 Destination Tense Aspect Modality Estimate Processing Department

─────────────────────────────────────────────────────
─────────────────────────────────────────────────── ───

【手続補正書】[Procedure amendment]

【提出日】平成14年7月29日(2002.7.2
9)
[Submission date] July 29, 2002 (2002.7.2)
9)

【手続補正1】[Procedure Amendment 1]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】特許請求の範囲[Name of item to be amended] Claims

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【特許請求の範囲】[Claims]

【手続補正2】[Procedure Amendment 2]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0011[Correction target item name] 0011

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0011】[0011]

【課題を解決するための手段】上記課題を解決するた
め,本発明に係る方法は,コンピュータにより一の言語
から他の言語へ翻訳処理をする際に,変換元言語から変
換先言語のテンス・アスペクト・モダリティを翻訳する
方法であって,予め備えられた変換元言語の事例と当該
事例の変換先言語におけるテンス・アスペクト・モダリ
ティとの組を記憶するデータベースであるテンス・アス
ペクト・モダリティ・データベースにアクセスする過程
と,前記テンス・アスペクト・モダリティ・データベー
スの各事例ごとに,テンス・アスペクト・モダリティと
当該テンス・アスペクト・モダリティに対応する事例か
ら抽出した単語素性および文字列素性を含む複数の形式
の素性の集合とからなるテンス−素性組を抽出する過程
と,前記テンス−素性組を教師データとして用いて複数
素性の出現パターンについて,それぞれのパターンの
ときになりやすいテンス・アスペクト・モダリティを,
決定リスト法,最大エントロピー法,またはサポートベ
クトルマシン法のいずれか一の機械学習法により学習す
る過程と前記機械学習する過程における学習結果を,
入力文の変換先言語のテンス・アスペクト・モダリティ
を判定するための学習データとして学習結果データベー
スに保存する過程と,変換元言語の入力文から,当該入
力文の素性の集合を抽出する過程と,前記入力文の素性
の集合をもとに,前記機械学習法により,前記学習デー
ベースに保存された学習データを参照して前記素性の
集合の素性の出現のパターンについて,なりやすいテン
ス・アスペクト・モダリティを特定し,前記入力文のテ
ンス・アスペクト・モダリティの推定解として出力する
過程とを備えることを特徴としている。
In order to solve the above-mentioned problems, the method according to the present invention is a computer-based language.
When translating from a source language into another language,
Translate the Tens, Aspect, and Modality in the target language
A method, which is a database that stores a set of a case of a conversion source language and a tense aspect modality in a conversion destination language of the case, which is a database.
The process of accessing the Pect Modality database
And the tense aspect modality database
Scan for each instance of, and a set of multiple types of feature including word identity and String feature extracted from case corresponding to the Tenth Aspect modality and the Tenth Aspect Modality Tense - feature sets a process to extract the said tense - for the appearance patterns of a plurality of feature using the feature set as teacher data, for each pattern
Tens, Aspect, and Modality
Decision list method, maximum entropy method, or support vector
Learning by any one of the cuttle machine methods
And the learning result in the machine learning process,
Tense, aspect, modality of the target language of the input sentence
As the learning data for determining
And the process to save the scan, from the input sentence of the source language, and the process of extracting a set of identity of the input sentence, on the basis of the collection of the identity of the input sentence, by the machine learning method, the learning data with reference to the learning data stored in <br/> data base of the identity
Regarding the pattern of appearance of set features,
Of the input sentence, and outputting as an estimated solution of the tenth aspect modality of the input sentence.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 内元 清貴 東京都小金井市貫井北町4−2−1 独立 行政法人通信総合研究所内 (72)発明者 井佐原 均 東京都小金井市貫井北町4−2−1 独立 行政法人通信総合研究所内 Fターム(参考) 5B091 AA15 AB13 BA03 CC03 CC16 EA01    ─────────────────────────────────────────────────── ─── Continued front page    (72) Inventor Kiyotaka Uchimoto             4-2-1 Kanaikitamachi, Koganei City, Tokyo Independent             Communications Research Laboratory (72) Inventor Hitoshi Isahara             4-2-1 Kanaikitamachi, Koganei City, Tokyo Independent             Communications Research Institute F term (reference) 5B091 AA15 AB13 BA03 CC03 CC16                       EA01

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 コンピュータにより一の言語から他の言
語へ翻訳処理をする際に,変換元言語から変換先言語の
テンス・アスペクト・モダリティを翻訳する方法であっ
て,予め備えられた変換元言語の事例と当該事例のテン
ス・アスペクト・モダリティとを記憶するデータベース
から,テンス・アスペクト・モダリティと当該事例また
は当該事例に関連するデータから抽出した,複数の形式
の素性の集合とからなるテンス−素性組を事例ごとに抽
出する過程と,前記テンス−素性組のうちのすべてまた
はいくつかの素性を用いて,機械学習法により変換先言
語のテンス・アスペクト・モダリティを判定するための
学習データを作成し保存する過程と,変換元言語の入力
文から,当該入力文の素性の集合を抽出する過程と,前
記入力文の素性の集合のうちのすべてまたはいくつかの
素性をもとに,前記学習データを参照して前記入力文の
テンス・アスペクト・モダリティを推定する過程とを備
えることを特徴とするテンス・アスペクト・モダリティ
翻訳処理方法。
1. A method for translating a tense aspect modality of a source language from a source language when translating from one language to another language by a computer, the source language being provided in advance. -A feature consisting of a set of features in multiple formats extracted from the tense / aspect modality and the case or data related to the case from a database that stores the case and the tense / aspect / modality of the case. Using the process of extracting a set for each case and all or some of the features in the tense-feature set, create learning data for determining the tense / aspect / modality of the target language by a machine learning method. Then, the process of storing the features, the process of extracting the set of features of the input sentence from the input sentence in the source language, and the feature set of the input sentence. A process of estimating the tense / aspect / modality of the input sentence with reference to the learning data based on all or some of the features Method.
【請求項2】 請求項1に記載のテンス・アスペクト・
モダリティ翻訳処理方法において,前記機械学習法とし
て,決定リスト法,最大エントロピー法,またはサポー
トベクトルマシン法のいずれか一の手法を用いることを
特徴とするテンス・アスペクト・モダリティ翻訳処理方
法。
2. The tense aspect according to claim 1.
In the modality translation processing method, any one of a decision list method, a maximum entropy method, and a support vector machine method is used as the machine learning method, and the tenth aspect modality translation processing method is characterized.
【請求項3】 コンピュータにより一の言語から他の言
語へ翻訳処理をする際に,変換元言語から変換先言語の
テンス・アスペクト・モダリティを翻訳するシステムで
あって,予め備えられた変換元言語の事例と当該事例の
テンス・アスペクト・モダリティとを記憶するデータベ
ースから,テンス・アスペクト・モダリティと当該事例
または当該事例に関連するデータから抽出した,複数の
形式の素性の集合とからなるテンス−素性組を事例ごと
に抽出するテンス−素性組抽出手段と,前記テンス−素
性組のうちのすべてまたはいくつかの素性を用いて,機
械学習法により変換先言語のテンス・アスペクト・モダ
リティを判定するための学習データを作成し保存する機
械学習手段と,変換元言語の入力文から,当該入力文の
素性の集合を抽出する素性抽出手段と,前記入力文の素
性の集合のうちのすべてまたはいくつかの素性をもと
に,前記学習データを参照して前記入力文のテンス・ア
スペクト・モダリティを推定する変換先テンス・アスペ
クト・モダリティ推定処理手段とを備えることを特徴と
するテンス・アスペクト・モダリティ翻訳システム。
3. A system for translating a tense aspect modality of a source language from a source language when translating from one language to another language by a computer, the source language being provided in advance. -A feature consisting of a set of features in multiple formats extracted from the tense / aspect modality and the case or data related to the case from a database that stores the case and the tense / aspect / modality of the case. To determine the tense / aspect / modality of the target language by machine learning using the tense-feature set extraction means for extracting the set for each case and all or some of the features of the tense-feature set Machine learning means for creating and storing learning data of and the set of features of the input sentence is extracted from the input sentence of the source language. Based on all or some of the features of the input sentence, and a transformation destination tense for estimating the tense aspect modality of the input sentence by referring to the learning data. A tense aspect modality translation system, comprising: an aspect modality estimation processing means.
【請求項4】 請求項3に記載のテンス・アスペクト・
モダリティ翻訳システムにおいて,前記機械学習部で
は,決定リスト法,最大エントロピー法,またはサポー
トベクトルマシン法のいずれか一の手法を用いて学習す
ることを特徴とするテンス・アスペクト・モダリティ翻
訳システム。
4. The tense aspect according to claim 3,
In the modality translation system, the machine learning unit performs learning using any one of a decision list method, a maximum entropy method, and a support vector machine method, which is a tenth aspect modality translation system.
JP2001201010A 2001-07-02 2001-07-02 Tens / aspect / modality translation processor Expired - Lifetime JP3870251B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001201010A JP3870251B2 (en) 2001-07-02 2001-07-02 Tens / aspect / modality translation processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001201010A JP3870251B2 (en) 2001-07-02 2001-07-02 Tens / aspect / modality translation processor

Publications (2)

Publication Number Publication Date
JP2003016067A true JP2003016067A (en) 2003-01-17
JP3870251B2 JP3870251B2 (en) 2007-01-17

Family

ID=19038040

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001201010A Expired - Lifetime JP3870251B2 (en) 2001-07-02 2001-07-02 Tens / aspect / modality translation processor

Country Status (1)

Country Link
JP (1) JP3870251B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006315813A (en) * 2005-05-13 2006-11-24 Murata Mach Ltd Movable body diagnosis system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006315813A (en) * 2005-05-13 2006-11-24 Murata Mach Ltd Movable body diagnosis system

Also Published As

Publication number Publication date
JP3870251B2 (en) 2007-01-17

Similar Documents

Publication Publication Date Title
JP5356197B2 (en) Word semantic relation extraction device
JP4065936B2 (en) Language analysis processing system using machine learning method and language omission analysis processing system using machine learning method
CN110427618B (en) Countermeasure sample generation method, medium, device and computing equipment
US20080270109A1 (en) Method and System for Translating Information with a Higher Probability of a Correct Translation
US11537795B2 (en) Document processing device, document processing method, and document processing program
US9262400B2 (en) Non-transitory computer readable medium and information processing apparatus and method for classifying multilingual documents
CN111930929A (en) Article title generation method and device and computing equipment
CN111274829A (en) Sequence labeling method using cross-language information
Shu et al. Word segmentation in Chinese language processing
Puri et al. An efficient hindi text classification model using svm
JP5678774B2 (en) An information analysis device that analyzes the redundancy of text data
Sazzed Improving sentiment classification in low-resource bengali language utilizing cross-lingual self-supervised learning
US20090063127A1 (en) Apparatus, method, and computer program product for creating data for learning word translation
JP5366179B2 (en) Information importance estimation system, method and program
Bloodgood et al. Data cleaning for xml electronic dictionaries via statistical anomaly detection
JP2003323425A (en) Parallel translation dictionary creating device, translation device, parallel translation dictionary creating program, and translation program
JP2003016067A (en) Processing method for translation of tense, aspect and modality, and system therefor
Murata et al. Using a support-vector machine for Japanese-to-English translation of tense, aspect, and modality
JP3780341B2 (en) Language analysis processing system and sentence conversion processing system
Chu Integrated parallel data extraction from comparable corpora for statistical machine translation
JP5099498B2 (en) Data processing apparatus and data processing method
Seresangtakul et al. Thai-Isarn dialect parallel corpus construction for machine translation
Bar et al. Arabic multiword expressions
Antonova et al. Improving the precision of automatically constructed human-oriented translation dictionaries
Astuti et al. Code-Mixed Sentiment Analysis using Transformer for Twitter Social Media Data

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20030128

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060728

R150 Certificate of patent or registration of utility model

Ref document number: 3870251

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term