JPH06243162A - Machine translation system - Google Patents

Machine translation system

Info

Publication number
JPH06243162A
JPH06243162A JP5070870A JP7087093A JPH06243162A JP H06243162 A JPH06243162 A JP H06243162A JP 5070870 A JP5070870 A JP 5070870A JP 7087093 A JP7087093 A JP 7087093A JP H06243162 A JPH06243162 A JP H06243162A
Authority
JP
Japan
Prior art keywords
speech
target language
language
word
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5070870A
Other languages
Japanese (ja)
Inventor
Yoshihisa Oguro
慶久 大黒
Hideo Ito
秀夫 伊東
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP5070870A priority Critical patent/JPH06243162A/en
Publication of JPH06243162A publication Critical patent/JPH06243162A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PURPOSE:To facilitate reading and understanding of object language by selecting and presenting only information on target language of a part of speech and a translated word, etc. CONSTITUTION:An input document 31 is inputted by an OCR 32, etc. In that case, not only the contents of the document, but also information (font, multiple column, etc.) related to a format of the document are stored simultaneously. The inputted document is divided into morphemes by a morpheme analysis processing, and allowed to consult a dictionary. To a part of speech of the divided morpheme, a part-of-speech estimation processing is performed, based on part-of-speech connection probability, and an optimal part of speech is determined with respect to each morpheme. In accordance with the determined optimal part of speech, information (translated word, etc.) of second language is retrieved. A first language sentence and information of second language are allowed to correspond to each other, and in accordance with format information stored previously, an output form in shaped. In the end, a parallel translation document is outputted by a printer, etc.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【技術分野】本発明は、機械翻訳装置に関し、より詳細
には、対象言語文に対応する目的言語情報を、対象言語
文書の書式にしたがって表示あるいは印刷する機能を有
する機械翻訳装置に関する。
TECHNICAL FIELD The present invention relates to a machine translation device, and more particularly to a machine translation device having a function of displaying or printing target language information corresponding to a target language sentence according to a format of a target language document.

【0002】[0002]

【従来技術】従来、第1言語(対象言語)文からそれに
対応する第2言語(目的言語)情報を得る手段として
は、例えば、特開平1−234977号公報に「イメー
ジスキャナ付き電子辞書」が提案されている。この公報
のものは、入力部としてイメージスキャナーを備え、読
み取った第1言語を電子化された辞書(以下、電子辞
書)によって第2言語に変換する方法である。この方法
では、読み取った第1言語を原形(標準形)に変形し、
電子辞書を検索することによって、第2言語情報を出力
するものである。
2. Description of the Related Art Conventionally, as means for obtaining second language (target language) information corresponding to a first language (target language) sentence, for example, "Electronic Dictionary with Image Scanner" is disclosed in Japanese Patent Laid-Open No. 1-234977. Proposed. The method of this publication is a method in which an image scanner is provided as an input unit and the read first language is converted into a second language by an electronic dictionary (hereinafter, electronic dictionary). In this method, the first language read is transformed into the original form (standard form),
The second language information is output by searching the electronic dictionary.

【0003】しかしながら、この方法は、読み取った電
子辞書から第1言語を検索し、当該箇所に記述している
情報を、単に出力するものである。一つの言語単位
(文、句、単語)は、一般的に複数の解釈が可能であ
り、電子辞書にも一つの見出し項目に複数の解釈が記載
されている場合が多い。したがって、前述した特開平1
−234977号公報に基づく方法では、複数出力され
た第2言語情報を利用者が随時選択しなければならな
い。この作業は、第1言語によって記述された内容を第
2言語によって理解する際には、多大な負担となる。他
にも従来技術としては、特開平2−138660号公報
に「訳語表示装置」があるが、前述した特開平1−23
4977号公報と同様に、入力された第1言語の項目を
電子辞書から検索し、記載されている第2言語の情報を
単に出力するものであり、第1言語文の理解に適した第
2言語の情報を選択するものではない。
However, according to this method, the first language is retrieved from the read electronic dictionary and the information described in the relevant part is simply output. In general, one linguistic unit (sentence, phrase, word) can have a plurality of interpretations, and an electronic dictionary often has a plurality of interpretations in one heading item. Therefore, the above-mentioned JP-A-1
In the method based on Japanese Patent No. 234977, the user must select a plurality of output second language information at any time. This work becomes a great burden when understanding the contents described in the first language in the second language. As another conventional technique, there is a "translation display device" in Japanese Patent Laid-Open No. 138660/1990.
As in Japanese Patent No. 4977, the input first language item is searched from the electronic dictionary, and the described second language information is simply output, which is suitable for understanding the first language sentence. It does not select language information.

【0004】OCRミスや辞書の見出し語登録不足など
によって、第1言語原文に未知語が含まれている場合が
ある。語の並びの統計に基づいて品詞を推定するので、
第1言語文中に未知語が多くなると、語の並びの統計が
利用できない場合が多くなる。未知語に対しては全品詞
を候補として仮定すれば、隣接する語が未知語である場
合には語の並びの統計が確度の低いものになってしま
う。したがって、間違って訂正してしまう例も増えるの
で、品詞推定精度が下がってしまう。また、複数の文の
集合である文書を一括して翻訳するにあたり、一文単位
に分割してから言語的な処理を実施するのが通常であ
る。しかしながら、一文単位に自動分割することは難し
いので、先に提案した特願平4−121277号では、
物理的な行単位にしか分割していない。該特願平4−1
21277号では、構文制約を局所的に適用して品詞推
定するので、処理単位が一文全体でなくても致命的な問
題にはならない。しかし、物理行の両端の単語は、本来
ならば隣接している単語が前行または次行に分離してい
るので、連接情報が利用できない。そのために、物理行
の両端付近の単語の品詞推定精度が下がることがあっ
た。
An unknown word may be included in the first language original sentence due to an OCR error or insufficient entry of a dictionary entry in the dictionary. Since the part of speech is estimated based on the statistics of the word sequence,
When the number of unknown words in the first language sentence increases, the statistics of the word arrangement often cannot be used. Assuming all part-of-speech as candidates for unknown words, the statistics of word sequences will be less accurate if adjacent words are unknown words. Therefore, the number of cases in which correction is made by mistake is increased, and the accuracy of part-of-speech estimation is reduced. Further, when collectively translating a document that is a set of a plurality of sentences, it is usual to divide the sentence into sentence units and then perform linguistic processing. However, since it is difficult to automatically divide the sentence by sentence, in Japanese Patent Application No. 4-121277 proposed earlier,
It is only divided into physical lines. The Japanese Patent Application No. 4-1
In No. 21277, since the part-of-speech is estimated by locally applying the syntax constraint, it is not a fatal problem even if the processing unit is not the whole sentence. However, as for words at both ends of the physical line, the concatenated information cannot be used because the adjacent word is separated into the previous line or the next line. As a result, the accuracy of part-of-speech estimation for words near both ends of a physical line may decrease.

【0005】[0005]

【目的】本発明は、上述のごとき実情に鑑みなされたも
ので、第1言語の品詞の連接確率を記憶し、連接確率に
基づいて、第1言語文の各単語の品詞を決定し、決定さ
れた品詞にしたがって電子辞書から第1言語に対応する
第2言語情報(訳語)を検索し、第1言語の文書の書式
にのっとって表示あるいは印刷出力する機能を有する機
械翻訳装置を提供することを目的としてなされたもので
ある。
[Object] The present invention has been made in view of the above situation, stores the concatenation probability of the part of speech in the first language, and determines and determines the part of speech of each word in the first language sentence based on the concatenation probability. To provide a machine translation device having a function of retrieving second language information (translated word) corresponding to a first language from an electronic dictionary according to a generated part-of-speech, and displaying or printing out in accordance with a format of a document in the first language. It was made for the purpose.

【0006】[0006]

【構成】本発明は、上記目的を達成するために、(1)
少なくとも、対象言語文を入力するための入力手段と、
該入力手段により入力された対象言語文を記憶する記憶
手段と、言語解析に必要な知識を記憶している解析辞書
と、前記対象言語文及びその翻訳結果である目的言語文
を表示するための表示手段とを備えた言語処理系におい
て、対象言語の品詞を推定する品詞推定手段と、該品詞
推定手段によって推定された品詞にしたがって、前記解
析辞書から対象言語に対応する目的言語の情報(訳語)
を抽出する抽出手段とから成ること、更には、(2)前
記品詞推定手段が、対象言語の品詞の連接確率を記憶す
る第1の記憶手段と、該連接確率に基づいて、対象言語
文の各単語の品詞を決定する決定手段とを有すること、
更には、(3)前記入力手段が光学的文字読取装置手段
を使用するものであること、更には、(4)前記表示手
段が、対象言語文と目的言語情報を対応させて、表示あ
るいは印刷出力する出力手段を有すること、更には、
(5)前記(4)において、前記出力手段が、対象言語
の文書の書式を記憶する第2の記憶手段と、対象言語の
文書の書式に基づいて、対象言語文と目的言語の情報と
を表示あるいは印刷出力する出力手段を有すること、或
いは、(6)少なくとも、対象言語文を入力するための
入力手段と、該入力手段により入力された対象言語文を
記憶する記憶手段と、言語解析に必要な知識を記憶して
いる解析辞書と、前記対象言語文及びその翻訳結果であ
る目的言語文を表示するための表示手段と、対象言語の
品詞を推定する品詞推定手段と、該品詞推定手段によっ
て推定された品詞にしたがって、前記解析辞書から対象
言語に対応する目的言語の情報を抽出する抽出手段とを
備えた言語処理系において、単語間の連接に関する情報
を用いて多品詞語の品詞を推定する品詞推定手段と、現
在行の他に、直前行および直後行を記憶する記憶手段
と、該記憶手段で記憶した直前行および直後行を現在行
に連結する連結手段と、該連結手段で作成した連結後の
行に対して品詞を推定する品詞推定手段とから成るこ
と、更には、(7)前記(6)において、前記対象言語
文に含まれる未知語を判定する判定手段と、該判定手段
で判定した未知語の数を計数する計数手段と、該計数手
段の計数結果に基づいて品詞推定処理を実施するか否か
を判断する判断手段から成ること、更には、(8)前記
(6)において、対象言語文において基本的な語を判定
する判定手段と、該判定手段の判定結果に基づいて目的
言語情報の出力を抑制する抑制手段とから成ること、更
には、(9)前記(6)において、品詞推定した品詞の
辞書中の優先度を判定する判定手段と、該判定手段に基
づいて目的言語情報の出力を抑制する抑制手段とから成
ること、更には、(10)前記(6)において、品詞推
定によって品詞の可能性の順位を求める認定手段と、該
認定手段による順位にしたがって、上位複数個の品詞候
補の対応する第2言語情報を出力する出力手段とから成
ること、更には、(11)前記(6)において、品詞推
定によって品詞の複数の可能性を求める認定手段と、該
認定手段の可能性の程度を評価する評価手段と、該評価
の可能性の程度を複数個用いて第1解の確度を判定する
判定手段と、該判定手段の判定結果に基づいて、出力す
る解の個数を変更する変更手段とから成ること、或い
は、(12)少なくとも、対象言語文を入力するための
入力手段と、該入力手段により入力された対象言語文を
記憶する記憶手段と、言語解析に必要な知識を記憶して
いる解析辞書と、前記対象言語文及びその翻訳結果であ
る目的言語文を表示するための表示手段と、対象言語の
品詞を推定する品詞推定手段と、該品詞推定手段によっ
て推定された品詞にしたがって、前記解析辞書から対象
言語に対応する目的言語の情報を抽出する抽出手段とを
備えた言語処理系において、単語間の連接に関する情報
を用いて多品詞語の品詞を推定する品詞推定手段と、対
象言語の熟語の構文型を記述するところの熟語テンプレ
ートを、対応する目的言語情報(訳語,品詞等)を併せ
て記憶する記憶手段と、記憶されたテンプレートと対象
言語文とを照合する照合手段と、該照合手段において熟
語テンプレート中の要素に対応する対象言語文中の単語
あるいは語句を抽出する抽出手段と、前記照合手段と前
記抽出手段の実施結果に基づいて、熟語テンプレートに
対応する目的言語情報を表示する表示手段とを有するこ
と、更には、(13)前記(12)において、熟語テン
プレートの目的言語情報と、当該テンプレート中の要素
に合致した対象言語文中の単語(語句)に対応する目的
言語情報とを分離して出力する出力手段とを有するこ
と、更には、(14)前記(12)において、熟語テン
プレートの目的言語情報と、当該テンプレート中の要素
に合致した対象言語文中の単語あるいは語句に対応する
目的言語情報とを基に変形・合成し、一つの目的言語語
句として出力する出力手段とを有すること、更には、
(15)前記(12)において、対象言語文中の未知語
を検出する検出手段と、対象言語の語の変形パターンと
変形後の構文的カテゴリ(品詞等)を記憶する記憶手段
と、前記検出手段で検出された未知語に対して、前記変
形パターンを適用し、変形前の語を求める認定手段と、
該認定手段で求めた変形前の語を第1言語解析辞書にお
いて検索する検索手段と、該検索手段の結果にしたがっ
て、未知語の構文的カテゴリを決定する決定手段とを有
すること、更には、(16)前記(15)において、前
記検索手段の結果にしたがって、変形前の対象言語単語
の目的言語情報と、変形情報とを併せて表示する表示手
段とを有すること、更には、(17)前記(16)にお
いて、前記検索手段の結果にしたがって、変形前の対象
言語単語の目的言語情報を対象言語文における変形情報
で変形した後に表示する表示手段とを有することを特徴
としたものである。以下、本発明の実施例に基づいて説
明する。
In order to achieve the above object, the present invention provides (1)
At least an input means for inputting a target language sentence,
A storage unit that stores the target language sentence input by the input unit, an analysis dictionary that stores knowledge necessary for language analysis, and a target language sentence that is the translation result of the target language sentence. In a language processing system including a display means, part-of-speech estimation means for estimating the part-of-speech of the target language, and information on the target language corresponding to the target language from the analysis dictionary according to the part-of-speech estimated by the part-of-speech estimation means )
And (2) the part-of-speech estimating means stores the concatenation probability of the part-of-speech of the target language, and the part of the target language sentence based on the concatenation probability. And a determining means for determining the part of speech of each word,
Further, (3) the input means uses an optical character reading device means, and (4) the display means displays or prints the target language sentence and the target language information in association with each other. Having output means for outputting,
(5) In the above (4), the output means stores the target language sentence and the target language information based on the second storage means for storing the format of the document in the target language and the format of the document in the target language. Or (6) at least input means for inputting a target language sentence, storage means for storing the target language sentence input by the input means, and language analysis An analysis dictionary that stores necessary knowledge, a display unit for displaying the target language sentence and a target language sentence that is a translation result thereof, a part-of-speech estimation unit that estimates the part-of-speech of the target language, and the part-of-speech estimation unit. According to the part-of-speech estimated by the above, in a language processing system equipped with an extracting means for extracting information of a target language corresponding to a target language from the analysis dictionary, a multi-part-of-speech word is obtained by using information on connection between words. Part-of-speech estimating means for estimating a part-of-speech, storage means for storing the immediately preceding row and the immediately following row in addition to the current row, connecting means for connecting the immediately preceding row and the immediately following row stored in the storage means to the current row, and the connection A part of speech estimating means for estimating a part of speech for the line after connection created by the means, and (7) in (6), a determining means for determining an unknown word included in the target language sentence. And counting means for counting the number of unknown words judged by the judging means, and judging means for judging whether or not to perform the part-of-speech estimation processing based on the counting result of the counting means. ) In the above (6), it comprises a judging means for judging a basic word in the target language sentence, and a suppressing means for suppressing the output of the target language information based on the judgment result of the judging means, and further, ( 9) In (6) above, part of speech The determination unit for determining the priority of the determined part of speech in the dictionary, and the suppression unit for suppressing the output of the target language information based on the determination unit; The method further comprises: an authenticating unit that obtains the rank of the possibility of part-of-speech by estimation, and an output unit that outputs the second language information corresponding to a plurality of high-ranking part-of-speech candidates according to the rank by the authenticating unit. ) In the above (6), an authenticating means for obtaining a plurality of possibilities of a part of speech by part-of-speech estimation, an evaluating means for evaluating the degree of possibility of the authenticating means, and a plurality of degrees of possibility of the evaluation are used. It comprises a judging means for judging the accuracy of one solution and a changing means for changing the number of solutions to be output based on the judgment result of the judging means, or (12) at least for inputting a target language sentence Typing hands A column, a storage unit for storing the target language sentence input by the input unit, an analysis dictionary storing knowledge necessary for language analysis, the target language sentence and a target language sentence as a translation result thereof. A display unit for displaying, a part-of-speech estimating unit that estimates the part-of-speech of the target language, and an extracting unit that extracts information of a target language corresponding to the target language from the analysis dictionary according to the part-of-speech estimated by the part-of-speech estimating unit. In a language processing system equipped with, a part-of-speech estimation means for estimating a part-of-speech of a multi-part-of-speech word using information about concatenation of words and a compound word template for describing a syntactic type of a compound word of a target language Storage means for also storing information (translation word, part of speech, etc.), collation means for collating the stored template with the target language sentence, and elements in the phrase template in the collation means And a display unit for displaying the target language information corresponding to the idiom template based on the execution result of the collating unit and the extracting unit, and further including an extracting unit for extracting a word or a phrase in the corresponding target language sentence. (13) In (12), output means for separating and outputting the target language information of the idiom template and the target language information corresponding to the word (phrase) in the target language sentence that matches the element in the template. And (14) in (12), the target language information of the phrase template and the target language information corresponding to the word or phrase in the target language sentence that matches the element in the template are modified. · Having output means for synthesizing and outputting as one target language phrase, and further,
(15) In the above (12), a detection unit that detects an unknown word in the target language sentence, a storage unit that stores a transformation pattern of a word in the target language and a syntactic category (part of speech etc.) after the transformation, and the detection unit. For the unknown word detected in, by applying the deformation pattern, an authenticating means for obtaining the word before the deformation,
And a search means for searching the first language analysis dictionary for the untransformed word obtained by the recognizing means, and a determining means for determining the syntactic category of the unknown word according to the result of the search means. (16) In (15) above, according to the result of the search means, there is provided a display means for displaying the target language information of the target language word before transformation and the transformation information together, further, (17) In (16) above, there is provided display means for displaying the target language information of the target language word before transformation after transforming it with the transformation information of the target language sentence according to the result of the search means. . Hereinafter, description will be given based on examples of the present invention.

【0007】図1は、本発明による適訳語選択機能を有
する機械翻訳装置の一実施例を説明するための構成図
で、図中、1は表示装置、2は表示制御部、3は言語処
理部、4は入力制御部、5は入力装置である。入力装置
5により入力された第1言語(対象言語)は入力制御部
4を介して言語処理部3で第2言語(目的言語)に翻訳
される。翻訳された第2言語は、表示制御部2を介して
表示装置1で表示される。
FIG. 1 is a block diagram for explaining an embodiment of a machine translation device having a proper word selection function according to the present invention. In the figure, 1 is a display device, 2 is a display control unit, and 3 is language processing. The unit, 4 is an input control unit, and 5 is an input device. The first language (target language) input by the input device 5 is translated into the second language (target language) by the language processing unit 3 via the input control unit 4. The translated second language is displayed on the display device 1 via the display control unit 2.

【0008】図2は、本発明による対訳文書作成機能を
有する機械翻訳装置における対訳文書作成処理のブロッ
ク図で、図中、21はキーボード、OCR(Optical Ch
aracter Reader;光学式文字読取装置)などの第1言語
の入力手段、22は第1言語文を形態素に分割する形態
素解析手段、23は形態素解析で使用する言語情報が記
載されている解析辞書、24は第1言語文に対する最適
品詞を求める品詞推定手段、25は品詞推定手段が使用
する品詞連接確率表、26は第1言語と第2言語の情報
とを対応させた出力を作成する出力形態決定手段、27
は出力形態決定手段によって作成された内容に従って出
力装置に出力する手段である。
FIG. 2 is a block diagram of a bilingual document creating process in a machine translation apparatus having a bilingual document creating function according to the present invention. In the figure, 21 is a keyboard and OCR (Optical Ch
aracter Reader; an optical character reader, etc., a first language input means, 22 a morphological analysis means for dividing the first language sentence into morphemes, 23 an analysis dictionary in which language information used in morphological analysis is described, Reference numeral 24 is a part-of-speech estimation means for obtaining an optimum part-of-speech for a first language sentence, 25 is a part-of-speech concatenation probability table used by the part-of-speech estimation means, and 26 is an output form for producing an output in which information of the first language and second language is associated with each other. Deciding means, 27
Is a means for outputting to the output device according to the contents created by the output form determining means.

【0009】第1言語文を入力するための入力手段(O
CRなど)21により入力された第1言語文(原文)は
記憶手段により記憶される。言語解析に必要な知識を記
憶している解析辞書23を利用して形態素解析手段22
により形態素解析される。第1言語文(原文)及びその
翻訳結果である第2言語文は表示手段により表示され
る。第1言語の品詞の連接確率は連接確率表25として
記憶される。上記5の連接確率に基づいて、第1言語文
の各単語の品詞を品詞推定手段24により推定し、該連
接手段によって推定された品詞にしたがって、解析辞書
23から第1言語に対応する第2言語の情報(訳語)を
抽出し、また、第1言語文と第2言語の情報を対応させ
て、出力形態を決定手段26により決定し、出力手段2
7により表示あるいは印刷出力する。第1言語の文書の
書式に基づいて、第1言語文と第2言語の情報を出力手
段27により表示あるいは印刷出力する。これによっ
て、不必要な情報を提示されることなく、第1言語文を
第2言語によって円滑に理解することができる。
Input means (O) for inputting the first language sentence
The first language sentence (original sentence) input by (CR etc.) 21 is stored by the storage means. Morphological analysis means 22 using an analysis dictionary 23 that stores knowledge necessary for language analysis.
Morphological analysis is performed by. The first language sentence (original sentence) and the second language sentence which is the translation result thereof are displayed by the display means. The connection probability of the part of speech in the first language is stored as a connection probability table 25. The part-of-speech of each word of the first language sentence is estimated by the part-of-speech estimating means 24 based on the above-mentioned concatenation probability, and the second part corresponding to the first language from the analysis dictionary 23 is estimated according to the part-of-speech estimated by the connecting means. The information (translated word) of the language is extracted, and the output form is determined by the determination means 26 by associating the information of the first language sentence with the information of the second language.
Displayed or printed out according to 7. Based on the format of the document in the first language, the output unit 27 displays or prints out the information in the first language and the information in the second language. As a result, the first language sentence can be smoothly understood in the second language without presenting unnecessary information.

【0010】図3は、対訳文書作成処理部の構成図で、
図中、31は第1言語で記述された入力文書の例、32
はOCR、33は対訳作成処理、34は印刷装置、35
が第2言語の情報を付与された出力文書例である。入力
文書31はOCR装置32などによって入力される。そ
の際、文書の内容だけでなく、文書の書式に関する情報
(フォント、段組みなど)も同時に記憶する。入力され
た文書は、形態素解析処理によって形態素に分割され、
辞書引きされる。分割された形態素の品詞に品詞連接確
率に基づいて品詞推定処理を施し、各形態素に対して最
適な品詞を決定する。決定された最適品詞にしたがって
第2言語の情報(訳語など)を検索する。そして第1言
語文と第2言語の情報とを対応させ、先に記憶しておい
た書式情報にしたがって出力形態を整形する。最後に、
プリンタなどで対訳文書を出力する。図では、第1言語
文に対する対訳は、第1言語文の下で破線で示した。訳
語を付与する場合には、第1言語の単語の下にその第2
言語訳を出力すれば、2言語間対応が視覚的にとりやす
い。
FIG. 3 is a block diagram of the bilingual document creation processing section.
In the figure, 31 is an example of an input document described in the first language, 32
Is OCR, 33 is parallel translation creation processing, 34 is a printing device, and 35 is
Is an example of an output document to which the information of the second language is added. The input document 31 is input by the OCR device 32 or the like. At that time, not only the content of the document but also information about the format of the document (font, column, etc.) is stored at the same time. The input document is divided into morphemes by the morphological analysis process,
Look up in the dictionary. Part-of-speech estimation processing is performed on the part-of-speech of the divided morphemes based on the part-of-speech concatenation probability, and the optimum part-of-speech for each morpheme is determined. The second language information (translated word, etc.) is searched according to the determined optimum part-of-speech. Then, the first language sentence and the information of the second language are made to correspond to each other, and the output form is shaped according to the previously stored format information. Finally,
Output the bilingual document with a printer. In the figure, the parallel translation for the first language sentence is indicated by a broken line below the first language sentence. When assigning a translated word, the second word is added below the word in the first language.
If a language translation is output, correspondence between the two languages can be easily taken visually.

【0011】以下、本発明を構成する各手段について説
明する。以下、特にことわらない限り英日機械翻訳を例
に説明するが、他の2言語間においても同様に成立する
ものである。 (1)入力手段 第1言語の文書を、キーボードによるタイプ入力、スキ
ャナによるOCR入力、などによって機械翻訳システム
に入力する。第1言語の文書の書式情報には、文書の大
きさ、使用フォント、文書中の各単語の位置、段組み
数、などがあり、文書内容と併せて記憶する。
Each means constituting the present invention will be described below. Hereinafter, unless otherwise specified, the English-Japanese machine translation will be described as an example, but the same applies to other two languages. (1) Input means A document in the first language is input to the machine translation system by type input using a keyboard, OCR input using a scanner, or the like. The format information of the document in the first language includes the size of the document, the font used, the position of each word in the document, the number of columns, etc., and is stored together with the document content.

【0012】(2)形態素解析手段 第1言語文を、形態素(単語に相当)に分割する。英語
のように単語と単語との間に空白をいれて別ち書きする
言語では、活用変化表によって原形(標準形)に戻し、
辞書引きして、活用、品詞、訳語などを求める。日本語
のようにべた書きされる言語の場合、最長一致法、最小
文節法などの規別に基づいて、最適な単語範囲が求めら
れる。
(2) Morphological analysis means The first language sentence is divided into morphemes (corresponding to words). In languages such as English, which have spaces between words and are written separately, it is returned to the original form (standard form) by the utilization change table,
Look up the dictionary and ask for usage, parts of speech, translations, etc. In the case of a solid language such as Japanese, the optimum word range is obtained based on the rules such as the longest match method and the minimum phrase method.

【0013】(3)品詞推定手段 品詞タグの付けられた第1言語コーパスから品詞の連接
確率を推定し、その連接確率に基づいて翻訳対象である
第1言語文のとり得る品詞列の出現確率を算出し、その
内で確率が最大である品詞列を選択する。すなわち、言
語の確率モデルとして以下を仮定する。品詞列T=t1,
2,t3,…,tnが出現する確率P(T)は
(3) Part-of-Speech Estimating Means The part-of-speech concatenation probability is estimated from the first-language corpus tagged with the part-of-speech tag, and the probability of occurrence of a part-of-speech string that can be taken by the first language sentence to be translated is estimated based on the concatenation probability. Is calculated, and the part-of-speech sequence having the highest probability is selected. That is, the following is assumed as a probabilistic model of language. Part-of-speech sequence T = t 1 ,
The probability P (T) that t 2 , t 3 , ..., tn appears is

【0014】[0014]

【数1】 [Equation 1]

【0015】で示される。ここでP(ti|t1,t2,t3,
…,ti-1)は、品詞列t1,t2,t3,…,ti-1が出現した
後にtiが連接する確率である。しかし、実際にP(ti
|t1,t2,t3,…,ti-1)を求めることは困難である。
例えば、品詞種数をVとすれば、t1,t2,t3,…,ti-1
の異なる品詞列数はVの(i-1)乗となり、これらの各
々について確率を求めておくことは不可能である(V=
100とすれば、V10=1020通りになる)。連接確率
P(ti|t1,t2,t3,…,ti-1)は近似的に求めざるを
得ない。
It is indicated by Where P (ti | t 1 , t 2 , t 3 ,
, T i-1 ) is the probability that ti is connected after the part -of- speech sequence t 1 , t 2 , t 3 , ..., T i-1 appears. However, P (ti
It is difficult to obtain | t 1 , t 2 , t 3 , ..., T i-1 ).
For example, if the part-of-speech type is V, t 1 , t 2 , t 3 , ..., T i-1
The number of different part-of-speech sequences of V is V to the power of (i-1), and it is impossible to obtain the probability for each of these (V =
If it is 100, V 10 = 10 20 ways). The connection probability P (ti | t 1 , t 2 , t 3 , ..., T i-1 ) has to be obtained approximately.

【0016】そこで品詞の連接に影響する品詞を直前2
品詞までに制限するtrigramモデル P(ti|t1,t2,t3,…,ti-1)=P(ti|ti-2,t
i-1) が使用する。trigramモデルを仮定すれば、品詞列Tの
出現確率は
Therefore, the part of speech that influences the concatenation of parts of speech is immediately preceding 2
Trigram model P (ti | t 1 , t 2 , t 3 , ..., T i-1 ) = P (ti | t i-2 , t
i-1 ) used. Assuming the trigram model, the appearance probability of the part-of-speech sequence T is

【0017】[0017]

【数2】 [Equation 2]

【0018】で近似できる。連接確率P(ti|ti-2,t
i-1)は、品詞タグの付けられた英文コーパスから、次
式のように二つ組(bigram)と三つ組(trigram)の出
現頻度C(ti-2,ti-1)とC(ti-2,ti-1,ti)の比
によって推定できる。
Can be approximated by Concatenation probability P (ti | t i-2 , t
i-1 ) is the appearance frequency C (t i-2 , t i-1 ), C (t i-2 , t i-1 ) and C (t i-2 , t i-1 ) from the English corpus with the part -of- speech tag as shown in the following equation. It can be estimated by the ratio of t i-2 , t i-1 , t i ).

【0019】[0019]

【数3】 [Equation 3]

【0020】多品詞語は、等確率に各品詞が使用される
わけではなく、各名詞が使用される確率には偏りがあ
る。この情報を併用すれば、更に精度よく品詞列出現確
率を推定することができる。(3.3)式は、品詞列の
出現確率であり単語列の出現確率ではない。機械翻訳で
は入力として既に単語列が与えられているので、(3.
3)式を「単語列W=w1,w2,…,wnかつ、その品詞列
がTである確率」に拡張する。そのために、単語内相対
品詞出現確率 P(ti・wi):単語wiが出現し、その品詞がtiであ
る同時確率 を求める。P(ti・wi)は、タグ付きコーパスから次
式によって容易に求めることができる。
In the multi-part-of-speech word, each part-of-speech is not used with equal probability, and there is a bias in the probability of using each noun. If this information is used together, the part-of-speech sequence appearance probability can be estimated more accurately. Expression (3.3) is the appearance probability of the part-of-speech sequence, not the appearance probability of the word sequence. In machine translation, a word string is already given as an input, so (3.
3) The expression is expanded to “the word string W = w 1 , w 2 , ..., Wn and the probability that the part-of-speech string is T”. Therefore, the relative probability of word part-of-speech occurrence P (ti · wi): The joint probability that the word wi appears and the part-of-speech is ti is calculated. P (ti · wi) can be easily obtained from the tagged corpus by the following equation.

【0021】[0021]

【数4】 [Equation 4]

【0022】対数確率を用いれば、乗算部分が加算にな
るので確率計算を高速化できる。
If the logarithmic probability is used, the multiplication part becomes an addition, so that the probability calculation can be speeded up.

【0023】第1言語の各単語に最適な品詞を割り当て
るには、(3.3)式あるいは(3.5)式において最大
確率である品詞列Tを品詞候補の集合(形態素解析処理
結果)から選択しなければならない。形態素解析後の結
果は、 単語の範囲(複数単語が連結する場合あり) 単語原形 その範囲の品詞 ペナルティ などが一組となった形態素の集合である。この集合から
Left-to-Rightに形態素を選択していく。基本的にはビ
ームサーチ・アルゴリズムである。その際、一つの形態
素が複数単語から構成される場合があるために、形態素
数に同期して処理を進めるのではなく、形態素の終端点
に同期して処理を進めねばらない。
In order to assign an optimum part-of-speech to each word in the first language, the part-of-speech sequence T having the maximum probability in the expression (3.3) or (3.5) is set as a part-of-speech candidate (result of morphological analysis). You have to choose from. The result after morphological analysis is a set of morphemes in which a range of words (in some cases multiple words are connected), a prototypical word, and a part-of-speech penalty in that range are set. From this set
Select morphemes for Left-to-Right. It is basically a beam search algorithm. At that time, since one morpheme may be composed of a plurality of words, the process should be advanced in synchronization with the terminal point of the morpheme, not in synchronization with the morpheme number.

【0024】図4(a)〜(c)は、最大出現確率品詞
列選択手順を示す図で、図(a)は形態素解析結果、図
(b)は選択処理の進行、図(c)は解の管理方法を各
々示している。選択アルゴリズムをまとめると次のよう
になる。 文頭から始まる形態素を記憶テーブルにストアする。
ビーム幅を越える場合には上位ビーム幅個をストアす
る。 形態素終端点i=1,2,3,…,Iまでを実行す
る。 ビーム幅w=1,2,3,…,Wまでを実行する。 終端点iに連接し得る形態素を探し、品詞列パスPath
(i,w)と連結後の出現確率を求める。
4 (a) to 4 (c) are diagrams showing a procedure for selecting the maximum appearance probability part-of-speech sequence. FIG. 4 (a) is a morphological analysis result, FIG. 4 (b) is the selection process, and FIG. Each method of solution management is shown. The selection algorithms are summarized below. The morpheme starting from the beginning of the sentence is stored in the memory table.
When the beam width is exceeded, the upper beam width pieces are stored. The morpheme terminal points i = 1, 2, 3, ..., I are executed. The beam width w = 1, 2, 3, ..., W is executed. Search for a morpheme that can be connected to the terminal point i, and use the part-of-speech sequence path Path
The appearance probability after connection with (i, w) is calculated.

【0025】連結後の終端位置の記憶テーブルを次の
要領で更新する。 ○もし、記憶テーブルに余裕があれば(ビーム幅未満な
らば)、で求めた連結後のパスの履歴と出現確率をス
トアする。 ○もし、記憶テーブルに余裕がなければ(ビーム幅が満
たされているなら)、記憶テーブルに記憶されている品
詞列パスの内で出現確率最小のパスを選ぶ。それがで
求めた出現確率より ★低ければ、代わりにで求めた連結後のパス履歴と出
現確率をストアする。 ★高ければ、で求めたパスを棄却する。 文末であるところの、終端位置i=Iの記憶テーブル
に保持されている品詞列パスを出現確率でソートする。
The storage table of the end position after connection is updated in the following manner. If the storage table has room (less than the beam width), the history and appearance probability of the path after connection obtained in step 3 are stored. ○ If there is no room in the storage table (if the beam width is satisfied), the path with the smallest appearance probability is selected from the part-of-speech sequence paths stored in the storage table. If it is lower than the appearance probability obtained in, store the path history after connection and the appearance probability obtained in. ★ If it is too high, reject the pass you asked for. The part-of-speech sequence paths stored in the storage table at the end position i = I, which is the end of the sentence, are sorted by the appearance probability.

【0026】図5は、最大出現確率品詞列選択手順のフ
ローチャートを示す図である。以下、各ステップに従っ
て順に説明する。step1 ;文頭から始まる形態素を初期化済みの記憶テー
ブルにビーム幅個をストアする。ビーム幅を越える場合
には出現確率上位ビーム幅個をストアする。step2へ進
む。step2 ;位置カウンタを、step1でストアされた形態素
の内、最も文頭に近い終端位置(すなわち最も短い形態
素の終端位置)にセットする。step3へ進む。step3 ;位置カウンタが文尾の位置であれば、step13
へ進む。文尾に達していなければstep4へ進む。step4 ;ビーム幅カウンタをクリアする。step5へ進
む。step5 ;ビーム幅を越えたか、あるいは現ビーム位置に
解候補が無ければstep12へ進む。ビーム幅未満で、か
つ現ビーム位置に解候補があればstep6へ進む。 step6 ;現解候補に、連結可能な形態素を抽出する。st
ep7へ進む。
FIG. 5 is a flowchart of the maximum appearance probability part-of-speech sequence selection procedure.
It is a figure which shows a row chart. Follow the steps below
Will be explained in order.step1 ; A memory table whose morphemes starting from the beginning have been initialized
Store the beam width pieces in the bull. When beam width is exceeded
The upper beam widths of the appearance probability are stored in. Go to step 2
Mu.step2 The position counter is the morpheme stored in step 1.
End position closest to the beginning of the sentence (that is, the shortest form
Set to the end position of the element. Proceed to step 3.step3 If the position counter is at the tail position, step13
Go to. If the tail end has not been reached, proceed to step 4.step4 ; Clear the beam width counter. Go to step 5
Mu.step5 ; Beam width exceeded or at current beam position
If there is no solution candidate, go to step 12. Less than the beam width,
If there is a solution candidate at the current beam position, go to step 6. step6 ; Extract connectable morphemes from the current solution candidates. st
Go to ep7.

【0027】step7;連結可能な形態素が無ければstep
11へ進む。あれば、step8へ進む。 step8 ;連結可能な形態素を一つ取り出す。step9へ進
む。step9 ;現解候補と取り出した形態素を連結し、連結後
の解候補の出現確率を(3.3)式あるいは(3.5)式
によって算出する。step10へ進む。step10 ;連結後の解候補を解候補更新処理に入力す
る。step7へ進む。step11 ;ビーム幅カウンタをインクリメントする。st
ep5へ進む。step12 ;位置カウンタをインクリメントする。step3
へ進む。step13 ;文尾位置に記憶されている解候補を出現確率
の高い順にソートする。第1位の解候補が最適品詞列で
ある。
[0027]step7; Step if there is no connectable morpheme
Proceed to 11. If there is, go to step 8. step8 ; Take out one connectable morpheme. Go to step 9
Mu.step9 ; Current candidate and extracted morpheme are connected, and after connection
The probability of occurrence of the solution candidate of (3.3) or (3.5)
Calculate by Go to step 10.step10 ; Input the combined solution candidates to the solution candidate update process.
It Go to step 7.step11 The beam width counter is incremented. st
Go to ep5.step12 The position counter is incremented. step3
Go to.step13 ; Probability of appearance of solution candidates stored at the tail position
Sort from highest to lowest. The first solution candidate is the optimal part-of-speech sequence
is there.

【0028】図6は、解候補更新処理のフローチャート
を示す図である。以下、各ステップに従って順に説明す
る。step10-1 ;連結後の解候補の終端位置の記憶テーブル
がビーム幅未満であればstep10-2へ進む。ビーム幅が
満たされていればstep10-4へ進む。step10-2 ;連結後の解候補を終端位置の記憶テーブル
にストアする。step10-3へ進む。step10-3 ;連結後の解候補を終端位置の記憶テーブル
のビーム幅カウンタをインクリメントする。step11へ
進む。step10-4 ;連結後の終端位置の記憶テーブルにストア
されている解候補の中で、最も低出現確率である解候補
を求める。step10-5へ進む。step10-5 ;step10-4で求めた出現確率が、連結後の
解候補の出現確率より低ければ、連結後の解候補を、st
ep10-4で求めた解候補の代わりにストアし、step11
へ進む。高ければ、更新処理は行なわずstep11へ進
む。
FIG. 6 is a flowchart showing a solution candidate updating process. Hereinafter, each step will be described in order. step 10-1 ; If the storage table of the end position of the solution candidate after connection is less than the beam width, the process proceeds to step 10-2. If the beam width is satisfied, proceed to step 10-4. step10-2 ; Store the solution candidates after connection in the storage table at the end position. Go to step 10-3. step10-3 ; increment the beam width counter of the storage table of the end position of the solution candidate after connection. Go to step 11. step10-4 ; Among the solution candidates stored in the storage table of the end positions after connection, the solution candidate having the lowest appearance probability is obtained. Go to step 10-5. step10-5 ; If the appearance probability obtained in step10-4 is lower than the appearance probability of the solution candidate after connection, the solution candidate after connection is set to st
Store in place of the solution candidate found in ep10-4, step11
Go to. If it is higher, the updating process is not performed and the process proceeds to step 11.

【0029】(4)出力形態決定手段 品詞推定処理によって第1言語の単語の品詞が推定さ
れ、その品詞に対応した第2言語の情報を辞書から得ら
れる。本処理では、第1言語文と対応する第2言語の情
報を第1言語の文書の書式に基づいて表示あるいは印刷
出力するべく、出力内容を整形する。(1)の入力手段
において、第1言語の文書の書式情報は記憶してあるの
で、第1言語文は、それにしたがって出力すればよい。
対応する第2言語の情報は、第1言語文の下にルビのよ
うに出力すれば、視覚的に2言語間の対応がとれるので
都合がよい。ルビのように出力するには、第1言語文の
書式情報から行間の空白距離を計算し、その距離におさ
まるフォントを選択し、対応する各単語の位置からフォ
ントの大きさだけ行空白方向(縦書きなら左に、横書き
なら下に)ずらした位置に、第2言語の情報を出力すれ
ばよい。
(4) Output Form Determining Means The part of speech of the word in the first language is estimated by the part of speech estimation processing, and the information in the second language corresponding to the part of speech is obtained from the dictionary. In this processing, the output content is shaped so that the information in the second language corresponding to the first language sentence is displayed or printed out based on the format of the document in the first language. Since the format information of the document in the first language is stored in the input means (1), the first language sentence may be output in accordance with it.
It is convenient to output the corresponding information in the second language like ruby under the first language sentence, because the correspondence between the two languages can be visually obtained. To output like ruby, calculate the blank distance between lines from the format information of the first language sentence, select the font that fits in that distance, and select the font size from the position of each corresponding word to the line blank direction ( The information of the second language may be output at a position shifted to the left for vertical writing and to the bottom for horizontal writing.

【0030】このように、品詞推定手段によって第1言
語の品詞を推定し、それに対応する第2言語の情報だけ
を利用者に提示する。品詞推定手段は実施例で述べた方
法以外に、品詞候補を構文解析し、構文解析によって適
当な言語単位(文、句など)にまとまる品詞を各単語の
品詞と推定する方法や言語モデルとしてHMM(Hidden
Markov Model:隠れマルコフモデル)を用いる方法が
ある。
As described above, the part-of-speech estimating means estimates the part-of-speech in the first language and presents only the corresponding second-language information to the user. In addition to the method described in the embodiment, the part-of-speech estimating means parses a part-of-speech candidate and estimates the part-of-speech collected in an appropriate linguistic unit (sentence, phrase, etc.) by the syntactic analysis as the part-of-speech of each word, or as a language model HMM. (Hidden
Markov Model: Hidden Markov Model).

【0031】以上が実施例1,2(請求項1,2)につ
いての説明である。次に、実施例3(請求項3)につい
て説明する。特に入力手段にOCR処理を利用する場合
には、入力速度が著しく向上し、かつ人手を煩わせるこ
とがないために、利用者は出力結果の理解に専念するこ
とができるので、第1言語文を読解するための負担が著
しく軽減される。
The above is a description of the first and second embodiments (claims 1 and 2). Next, a third embodiment (claim 3) will be described. In particular, when the OCR processing is used for the input means, the input speed is remarkably improved and the user can concentrate on understanding the output result because the user does not have to bother with the first language sentence. The burden of reading is significantly reduced.

【0032】次に、実施例4(請求項4)について説明
する。自然言語はあいまいであるので、(3)の品詞推
定手段によっても必ず正解品詞を選ぶことは困難であ
る。したがって、得られた第2言語の情報と、その元と
なった第1言語文とを対照させながら、読解していかね
ばならない。出力形態決定手段において、視覚的に2言
語間の対応がとれるよう、第2言語の情報を第1言語の
ルビであるがごとく出力すれば、利用者は2言語を容易
に対照することができるので、読解にかかる負担が著し
く軽減される。
Next, a fourth embodiment (claim 4) will be described. Since natural language is ambiguous, it is difficult to always select the correct part of speech by the part-of-speech estimating means in (3). Therefore, it is necessary to compare the obtained information in the second language with the first language sentence as the source of the information. If the output form determining means outputs the information of the second language as if it were the ruby of the first language so that the correspondence between the two languages can be visually obtained, the user can easily compare the two languages. Therefore, the burden of reading comprehension is significantly reduced.

【0033】次に、実施例5(請求項5)について説明
する。第1言語文の書式を保存し、第2言語の情報を付
与した後の結果を第1言語の文書のイメージのまま出力
すれば、第1言語の文書の印象を損うことなく第2言語
の情報も理解できる。例えば、図表を含んだ第1言語の
文書や、段組みなどを行なっている第1言語の文書を書
式を保存することなく出力した場合、利用者は、第1言
語の文書と本発明で得られる2言語文との2つの文書を
照合させながら読解をすすめねばならない。第1言語の
文書の図表や段組などの書式情報にのっとって、本発明
による2言語文書を出力すれば、利用者は本発明による
文書だけに専念することができ、読解にかかる負担が著
しく軽減される。
Next, a fifth embodiment (claim 5) will be described. By saving the format of the first language sentence and outputting the result after adding the information of the second language as an image of the document of the first language, the second language can be displayed without losing the impression of the document of the first language. Can understand the information. For example, when a document in the first language including a chart or a document in the first language having columns is output without saving the format, the user obtains the document in the first language and the present invention. It is necessary to make a reading comprehension while collating two documents with a bilingual sentence. If the bilingual document according to the present invention is output according to the format information such as the chart or column of the document in the first language, the user can concentrate only on the document according to the present invention, and the burden of reading comprehension is significant. It will be reduced.

【0034】文の集合である文書を一括して処理する場
合、品詞推定処理などの言語処理を実施する前に一文単
位に分割することが通常である。しかしながら、一文単
位に自動分割することは難しく、使用者による確認・修
正が必要である。一方、実施例において説明した trigr
am を用いた品詞推定法は品詞推定処理構文制約を局所
的に適用して品詞推定するので、処理単位が一文全体で
なくても致命的な問題にはならないので都合がよい。し
かし、物理行の両端の単語は、本来ならば隣接している
単語が前行または次行に分離しているので、連接情報が
利用できない。そのために、物理行の両端付近の単語の
品詞推定精度が下がることがあった。そこで、直前行と
直後行を記憶し現在行と連結し、連結後の行に対して上
述の品詞推定処理を実施すれば、行両端付近の単語は行
の中間になるので、品詞推定精度は下がることがない。
When a document, which is a set of sentences, is processed in a batch, it is usual to divide it into sentence units before performing language processing such as part-of-speech estimation processing. However, it is difficult to automatically divide each sentence, and it is necessary for the user to confirm and correct it. On the other hand, trigr described in the embodiment
The part-of-speech estimation method using am is convenient because the part-of-speech estimation processing syntax constraint is locally applied to estimate the part-of-speech, so that it is not a fatal problem even if the processing unit is not a whole sentence. However, as for words at both ends of the physical line, the concatenated information cannot be used because the adjacent word is separated into the previous line or the next line. As a result, the accuracy of part-of-speech estimation for words near both ends of a physical line may decrease. Therefore, if the previous line and the immediately following line are stored and connected to the current line and the above-described part-of-speech estimation processing is performed on the connected line, the words near both ends of the line are in the middle of the line, so the part-of-speech estimation accuracy is It never falls.

【0035】図7は、直前行と直後行とを現在行に連結
する品詞推定処理のフローチャートである。以下、各ス
テップに従って順に説明する。step1 :直前行記憶バッファ、現在行記憶バッファ、直
後行記憶バッファの内容をクリアする。step2 :行が終了ならば、step6に進む。終了でなけれ
ば、step3に進む。step3 :現在行記憶バッファに一行読み込む。step4 :行が終了ならば、step6に進む。終了でなけれ
ば、step5に進む。step5 :直後行記憶バッファに一行読み込む。step6 :直前行記憶バッファ、現在行記憶バッファ、直
後行記憶バッファ、各バッファの内容を連結し、入力行
を作成する。
FIG. 7 is a flowchart of a part-of-speech estimation process for connecting the immediately preceding line and the immediately following line to the current line. Hereinafter, each step will be described in order. step 1 : Clear the contents of the immediately preceding line storage buffer, the current line storage buffer, and the immediately following line storage buffer. step2 : If the line is completed, go to step6. If not, go to step 3. step3 : Read one line into the current line storage buffer. step4: If the line is ended, the process advances to the step6. If not, go to step 5. step5 : Immediately after, one line is read into the line storage buffer. step 6 : The input line is created by concatenating the contents of the immediately preceding line storage buffer, the current line storage buffer, the next line storage buffer, and each buffer.

【0036】step7:連結後の行に対して品詞推定処理
を実施する。step8 :品詞推定処理の結果に基づいて、現在行に関す
る対訳を作成する。step9 :現在行記憶バッファの内容を直前行記憶バッフ
ァに複写する。直後行記憶バッファの内容を現在行バッ
ファに複写する。step10 :直後行記憶バッファに一行読み込む。step11 :行が終了ならば、step12に進む。終了でな
ければ、step6に戻る。 step12 :直前行記憶バッファ内容と現在行記憶バッフ
ァ内容とを連結し、入力行を作成する。step13 :連結後の行に対して品詞推定処理を実施す
る。step14 :品詞推定処理の結果に基づいて、現在行に関
する対訳を作成する。
[0036]step7: Part-of-speech estimation processing for the combined line
Carry out.step8 : Based on the result of part-of-speech estimation processing,
Create a parallel translation.step9 : The contents of the current line storage buffer are stored in the previous line storage buffer
Copy it to the user. Immediately after the contents of the line storage buffer are
Copy to fa.step10 : Immediately after, read one line in the line storage buffer.step11 : If the line ends, go to step 12. At the end
If so, return to step 6. step12 : Previous line storage buffer contents and current line storage buffer
Create an input line by concatenating with the contents of the key.step13 : Perform part-of-speech estimation processing on the line after connection
Itstep14 : Based on the result of part-of-speech estimation processing,
Create a parallel translation.

【0037】実施例では直前行および直後行の全体を現
在行に連結したが、隣接する数単語のみを現在行に連結
しても同様な効果が得られる。更に、入力行が短くなる
ので処理時間が短縮されるという利点もある。以上が、
請求項6についての説明である。
Although the immediately preceding line and the immediately following line are all connected to the current line in the embodiment, the same effect can be obtained by connecting only a few adjacent words to the current line. Further, there is also an advantage that the processing time is shortened because the input line is shortened. More than,
It is an explanation of claim 6.

【0038】次に、請求項7について説明する。OCR
ミスや辞書の見出し語登録不足などによって、第1言語
原文に未知語が含まれている場合がある。語の並びの統
計に基づいて品詞を推定するので、第1言語文中に未知
語が多くなると、語の並びの統計が利用できない場合が
多くなる。未知語に対しては全品詞を候補として仮定す
れば、隣接する語が未知語である場合には語の並びの統
計が確度の低いものになってしまう。したがって、間違
って訂正してしまう例も増えるので、品詞推定精度が下
がってしまう。
Next, claim 7 will be described. OCR
An unknown word may be included in the first language original sentence due to a mistake or a lack of entry of the entry word in the dictionary. Since the part-of-speech is estimated based on the word sequence statistics, when the number of unknown words in the first language sentence increases, the word sequence statistics often cannot be used. Assuming all part-of-speech as candidates for unknown words, the statistics of word sequences will be less accurate if adjacent words are unknown words. Therefore, the number of cases in which correction is made by mistake is increased, and the accuracy of part-of-speech estimation is reduced.

【0039】そこで、入力行中に含まれる未知語の割合
が設定値を越えた場合には、品詞推定処理を実施せず、
辞書中の第1品詞を無条件に選択する方法に切り替え
る。未知語か否かの判定は当該単語が辞書の見出し語に
無ければ未知語であると容易に判断できる。また、一行
中の未知語の割合を算出するには、一行中の単語カウン
タと未知語カウンタとを用意し、一行中の単語数と未知
語数を計数すればよい。未知語率を次式で定義する。 未知語率=未知語数/全単語数 これが、設定値よりも大きければ品詞推定処理を実施し
ない。これによって、未知語が多い行に対して誤って品
詞推定してしまうことを避けることができる。
Therefore, when the ratio of unknown words contained in the input line exceeds the set value, the part-of-speech estimation processing is not executed,
Switch to a method that unconditionally selects the first part of speech in the dictionary. Whether or not it is an unknown word can be easily determined as an unknown word if the word is not an entry word in the dictionary. To calculate the ratio of unknown words in one line, a word counter in one line and an unknown word counter may be prepared, and the number of words in one line and the number of unknown words may be counted. The unknown word rate is defined by the following equation. Unknown word rate = unknown word count / total word count If this is larger than the set value, the part-of-speech estimation process is not performed. This can prevent erroneous part-of-speech estimation for lines with many unknown words.

【0040】図8は、未知語の割合に基づく、品詞推定
処理の実施の判断のフローチャートである。以下、各ス
テップに従って順に説明する。step1 :単語が終了ならば、step9に進む。終了でなけ
れば、step2に進む。step2 :一単語読み込む。step3 :単語カウンタをインクリメントする。step4 :読み込んだ単語を辞書引きする。step5 :辞書引きした結果、見出し語が存在しているな
らば、step6へ進む。見出し語が無いならば、step7に
進む。step6 :辞書情報を格納する。step7 :未知語に対してデフォルト情報を格納する。step8 :未知語カウンタをインクリメントする。step9 :当該行の入力が終ったので、当該行の未知語率
を算出する。step10 :未知語率が設定値よりも大きければ、品詞推
定処理は行なわないのでstep12に進む。未知語率が設
定値よりも小さければ、品詞推定処理を行なうので ste
p11に進む。
FIG. 8 is a flow chart for judging whether to execute the part-of-speech estimation processing based on the ratio of unknown words. Hereinafter, each step will be described in order. step1 : If the word ends, proceed to step9. If not finished, proceed to step 2. step2 : Read one word. step3 : increment the word counter. step4 : Look up the read word in the dictionary. step5 : If the entry is found as a result of looking up the dictionary, go to step6. If there is no entry word, proceed to step 7. step6 : Store dictionary information. step7 : Store default information for unknown words. step8 : increment the unknown word counter. step9 : Since the input of the line is completed, the unknown word rate of the line is calculated. step10 : If the unknown word rate is higher than the set value, the part-of-speech estimation process is not performed, and the process proceeds to step12. If the unknown word rate is smaller than the set value, part of speech estimation processing is performed.
Go to p11.

【0041】次に、請求項8について説明する。第1言
語文に対応する第2言語情報の内、よく知られた内容が
頻繁に出力されるのは煩わしい。そこで、出力を抑制す
る単語のリストを予め設定しておき、このリストに該当
する単語については、その第2言語情報の出力を抑制す
る。出力を抑制する単語リストは、辞書中に出力抑制欄
を設けておき、出力を抑制したい単語については、出力
抑制欄にマークしておくことによって容易に実現でき
る。出力抑制欄を設けた辞書の例を図9に示す。
Next, claim 8 will be described. Of the second language information corresponding to the first language sentence, it is troublesome that well-known contents are frequently output. Therefore, a list of words whose output is suppressed is set in advance, and the output of the second language information is suppressed for the words corresponding to this list. The word list whose output is suppressed can be easily realized by providing an output suppression column in the dictionary and marking the word whose output is to be suppressed in the output suppression column. FIG. 9 shows an example of a dictionary provided with an output suppression field.

【0042】図9において、「出力抑制」欄に〇印のあ
る見出し語については、第2言語情報表示の際、その出
力を抑制する。これによって、第2言語情報がよく知ら
れた第1言語については出力が抑制され、使用者は使用
者にとって必要な情報に集中できるので、使用感が著し
く改善される。
In FIG. 9, the output of the entry word with a circle in the "output suppression" column is suppressed when the second language information is displayed. As a result, the output is suppressed for the first language in which the second language information is well known, and the user can concentrate on the information necessary for the user, so the usability is significantly improved.

【0043】次に、請求項9について説明する。複数の
用法がある見出し語の内、一つの用法は非常によく知ら
れており、その用法に関する第2言語情報は出力する必
要がないと思われる語でも、他の用法で使用されている
場合には、その第2言語情報を出力する。例えば、英単
語“book”はほとんどの場合、名詞として使われ、動詞
として使われることは比較的少ない。したがって、名詞
として使用されている場合にその第2言語情報を出力す
ることは繁雑になるが、動詞として使用されている場合
にはその第2言語情報を出力することは非常に有効であ
る。使用者は、一般的に稀な用法であるゆえに、よく知
られていない第2言語情報を見失うことがない。
Next, claim 9 will be described. Of the headwords with multiple usages, one usage is very well known and the second language information about that usage does not need to be output, but it is used in another usage. Outputs the second language information. For example, the English word "book" is almost always used as a noun and relatively rarely as a verb. Therefore, it is complicated to output the second language information when it is used as a noun, but it is very effective to output the second language information when it is used as a verb. The user does not lose sight of the unfamiliar second language information because the usage is generally rare.

【0044】稀な用法を判断する一例には、図10に示
すように用法毎に優先度を数値で記入しておく手段があ
る。優先度の数値が大きくなるほど、その用法を優先す
る。優先度に対して予めしきい値を設定しておき、しき
い値を越える優先度をもつ用法は、よく知られた情報で
あると判断し、その第2言語情報の出力を抑制すればよ
い。あるいは、優先度を数値化して記入するのは多大な
労力を必要とするので、図9のように、優先する順に用
法を並べておいても構わない。この場合には、「出力抑
制」欄に〇印があれば、最優先用法(第1番目)だけ、
その第2言語情報の出力を抑制する。本発明にしたがう
表示例を図11に示す。英単語“book”が名詞用法の場
合にはその第2言語情報を表示しないが、動詞用法の場
合には第2言語情報を表示する。
As an example of determining a rare usage, there is a means for entering the priority by a numerical value for each usage as shown in FIG. The larger the priority number, the more preferred the usage. A threshold value may be set in advance for the priority, and the usage having the priority exceeding the threshold may be determined as well-known information, and the output of the second language information may be suppressed. . Alternatively, since it takes a lot of labor to enter the numerical values of the priority, it is possible to arrange the usages in order of priority as shown in FIG. In this case, if there is a circle in the "Output suppression" column, only the highest priority usage (first),
The output of the second language information is suppressed. A display example according to the present invention is shown in FIG. If the English word "book" has a noun usage, the second language information is not displayed, but if it has a verb usage, the second language information is displayed.

【0045】次に、請求項10について説明する。自然
言語の機械処理は完成しておらず、その精度は十分高い
とはいえない状態である。品詞推定処理も全ての場合に
おいて正しいとは限らない。そこで、正解である確度を
付けて複数個の解を求める場合が多い。本実施例で述べ
た品詞推定処理の一例では、解の確度として品詞推定結
果の出現確率を求めている。品詞推定処理の第1解に対
応する第2言語情報のみを出力する場合、もしこの解が
誤っていれば、使用者は正しい第2言語情報を得ること
ができない。そこで、第2言語情報を品詞推定結果の確
度の順に出力すれば、使用者は複数解を確度の高い順に
得ることができるので、仮に品詞推定結果が誤っていて
も、第2言語情報を全く得られなくなることを避けるこ
とができる。全解を順に出力するだけでなく、上位解を
いくつ出力するかを予め設定しておいてもよい。図12
は複数解を出力する一例を示す図である。
Next, claim 10 will be described. Machine processing of natural language has not been completed, and its accuracy is not sufficiently high. The part-of-speech estimation process is not always correct in all cases. Therefore, it is often the case that a plurality of solutions are obtained with the accuracy as a correct answer. In the example of the part-of-speech estimation processing described in the present embodiment, the probability of appearance of the part-of-speech estimation result is obtained as the accuracy of the solution. When outputting only the second language information corresponding to the first solution of the part-of-speech estimation process, if this solution is incorrect, the user cannot obtain correct second language information. Therefore, if the second language information is output in the order of the accuracy of the part-of-speech estimation result, the user can obtain a plurality of solutions in the order of high accuracy. Therefore, even if the part-of-speech estimation result is incorrect, the second language information is not output at all. You can avoid getting lost. In addition to outputting all the solutions in order, how many higher order solutions may be output may be set in advance. 12
FIG. 3 is a diagram showing an example of outputting a plurality of solutions.

【0046】次に、請求項11について説明する。上述
したように自然言語処理においては、唯一解を求めるの
でなく、確度を付けて複数解を求める場合が多い。した
がって、非常に確度の高い解についてはその解だけを出
力し、あいまいな解については複数解出力すれば、不要
な解が過剰に出力されることを避けることができるの
で、使用感が著しく改善される。確度の高い解を判定す
るには、求めた複数解の確度(数値化されている場合が
多い)を比較すればよい。例えば、先の英単語“book”
の場合、 book 名詞である確度:100 book 動詞である確度: 50 と求められているとする。確度は数値が大きくなるほど
正解である可能性が高いことを表わす。確度が予め設定
してある値よりも大きければ、正解である可能性がある
と判断して、対応する第2言語情報を出力する。設定値
が30である場合、 book 本 予約する と、名詞および動詞の各々の訳語が出力される。
Next, claim 11 will be described. As described above, in natural language processing, it is often the case that multiple solutions are obtained with certainty, instead of obtaining only one solution. Therefore, by outputting only the highly accurate solution and outputting multiple ambiguous solutions, it is possible to avoid excessive output of unnecessary solutions, which significantly improves the usability. To be done. In order to determine a highly accurate solution, it is only necessary to compare the obtained accuracy of the plurality of solutions (often quantified). For example, the previous English word "book"
In the case of, it is assumed that the probability of being a book noun: 100 and the probability of being a book verb: 50 are required. The larger the numerical value, the higher the probability that the correct answer is. If the accuracy is higher than a preset value, it is determined that the answer may be correct, and the corresponding second language information is output. If the set value is 30, booked book book will output the translated words of noun and verb.

【0047】確度にしきい値を設ける方法の他に、第1
解の確度と第2解の確度の比が大きければ、第1解と第
2解の確度の差が大きいわけであるから、第1解が正解
である可能性が高いと判断する方法もある。例えば、第
1解と第2解の比が10:6以上であれば、第1解だけ
を出力するとすれば、先の例においては book 名詞である確度 : book 動詞である確度 =100:50 = 10:5 となるので、第1解のみを出力する。他にも、上位複数
解の確度の平均値を求め、平均値を越える解だけを出力
する方法もある。
In addition to the method of setting the threshold value for accuracy,
If the ratio of the accuracy of the solution and the accuracy of the second solution is large, the difference between the accuracy of the first solution and the accuracy of the second solution is large. Therefore, there is a method of determining that the first solution is highly likely to be the correct solution. . For example, if the ratio of the first solution to the second solution is 10: 6 or more, and only the first solution is output, in the above example, the probability of being a book noun: the probability of being a book verb = 100: 50. = 10: 5, only the first solution is output. In addition, there is also a method of obtaining an average value of the accuracies of the top multiple solutions and outputting only the solutions exceeding the average value.

【0048】次に、請求項12について説明する。第1
言語原文に未知語が含まれている場合がある。請求項1
〜5記載の発明では、語の並びの統計に基づいて品詞を
推定するので、第1言語文中に未知語が多くなると、語
の並びの統計が利用できない場合が多くなる。未知語に
対しては、全品詞を候補として仮定すれば、隣接する語
が未知語である場合には、語の並びの統計が確度の低い
ものになってしまう。したがって、間違って訂正してし
まう例も増えるので、品詞推定精度が下がってしまう。
また、英語における相関語句(例 "would rather … t
han 〜":「〜するくらいなら…したほうがましだ」)な
どのように、複数単語から構成され、かつ全単語が連接
していない場合には、離れている語の並びの情報が利用
しにくく、請求項6〜11記載の発明では、これに対応
する第2言語情報を求めることができなかった。
Next, claim 12 will be described. First
The original language may contain unknown words. Claim 1
In the inventions described in to 5, since the part-of-speech is estimated based on the word sequence statistics, when the number of unknown words in the first language sentence increases, the word sequence statistics often cannot be used. Assuming that all parts of speech are candidates for unknown words, the statistics of word sequences will be less accurate if adjacent words are unknown words. Therefore, the number of cases in which correction is made by mistake is increased, and the accuracy of part-of-speech estimation is reduced.
Also, correlative phrases in English (eg "would rather… t
han ~ ":"It's better if you do ... "), etc., and when all words are not concatenated, the information of the word sequences that are separated is used. It is difficult to obtain the second language information corresponding to this in the inventions described in claims 6 to 11.

【0049】連接していない複数の単語から構成される
熟語・相関語句(以下、相関語句)を扱うには、英文中
に当該相関語句が含まれているか否かを判定しなくては
ならない。そのためには、相関語句をパターン化して記
憶し、英文と照合すればよい。具体的には以下の手順で
照合処理を行う。 相関語句を構成する複数単語の内、表層の定まって
いない語については(例"would rather … than 〜" に
おける "〜","…" に相当する語)、その構文的カテゴ
リを定めて(先の例では動詞あるいは動詞句)、以下の
表1のようにテンプレートを作成する(以下、熟語テン
プレート)。表1において、表層単語の間に記述されて
いるのは、識別子とその構文的カテゴリを示す。例え
ば、 A(名詞句):識別子A,その構文的カテゴリは名詞句 を表わす。ここで使用する構文的カテゴリは、表1にも
添付しているが、文脈自由文法によって定義されてい
る。
In order to handle a compound phrase / correlation phrase composed of a plurality of non-connected words (hereinafter, correlation phrase), it is necessary to judge whether or not the correlation phrase is included in the English sentence. For that purpose, the correlation terms may be patterned and stored, and may be collated with the English sentence. Specifically, the matching process is performed according to the following procedure. Of the multiple words that make up the correlation phrase, for the words whose surface is not defined (eg, the words that correspond to "~", "…" in "would rather… than ~"), define their syntactic categories (previously In the above example, a template is created as shown in Table 1 below (a verb or a verb phrase) (hereinafter, an idiom template). In Table 1, what is written between the surface words is an identifier and its syntactic category. For example, A (noun phrase): identifier A, whose syntactic category represents a noun phrase. The syntactic categories used here are defined by the context-free grammar, also attached to Table 1.

【0050】[0050]

【表1】 [Table 1]

【0051】 [0051]

【0052】 入力文を先に述べたように形態素解析
する。 入力文と表1の熟語テンプレートとを照合する。例
えば、入力文が "I would rather die than disgrace myself." …(4) とする。表1の「第1言語による熟語パターン」欄と入
力文とを比較照合する。表層単語の文字列照合により、 熟語パターン:would rather A(動詞) than B(動詞句) …(5) が合致する。このとき、 A(動詞句):die …(6) B(動詞句):disgrace myself …(7) との対応がある。既に実施済みの形態素解析により、 であることがわかっている。したがって、構文カテゴリ
「動詞句」が、前記(6)および(7)の対応を満足す
ることは、「動詞句」の(文脈自由文法による)定義か
ら容易に確認できる。文脈自由文法による定義と形態素
結果との照合処理は、一般的な文脈自由文法の解析法で
実現できる。
Morphological analysis is performed on the input sentence as described above. The input sentence is collated with the idiom template in Table 1. For example, the input sentence is "I would rather die than disgrace myself." (4). The “phrase pattern in the first language” column of Table 1 and the input sentence are compared and collated. By the string matching of the surface words, the idiom pattern: would rather A (verb) than B (verb phrase) (5) is matched. At this time, there is a correspondence with A (verb phrase): die ... (6) B (verb phrase): disgrace myself ... (7). By the morphological analysis already performed, I know that. Therefore, it can be easily confirmed from the definition (in context-free grammar) of the "verb phrase" that the syntactic category "verb phrase" satisfies the correspondences of the above (6) and (7). The matching process between the definition by the context-free grammar and the morpheme result can be realized by a general analysis method of the context-free grammar.

【0053】 照合処理によって、入力文に適合す
る熟語テンプレートは、 would rather A(動詞句) than B(動詞句)
By the matching process, the idiom template that matches the input sentence is rather rather A (verb phrase) than B (verb phrase).

【相】BするくらいならAするほうがましだ …(8) であることがわかったので、これを形態素候補に追加す
る。例えば、以下の形式でまとめる。 (開始位置,終了位置,第1言語表層,品詞,第2言語情報) =(2,7, would rather die than disgrace myself.
[Phase] It is better to perform A than B. (8), so add this to the morpheme candidate. For example, it is summarized in the following format. (Start position, end position, first language surface layer, part of speech, second language information) = (2,7, would rather die than disgrace myself.

【相】BするくらいならAするほうがましだ) 以上の処理の結果、相関語句の候補を従来通りの形態素
候補の形式で扱うことができる。したがって、先に述べ
た実施例の品詞多義解消処理を変更することなく、品詞
多義を解消できる。
[Phase] B is better than B) As a result of the above processing, the correlation word candidates can be handled in the conventional morpheme candidate format. Therefore, the part-of-speech disambiguation can be resolved without changing the part-of-speech disambiguation processing of the above-described embodiment.

【0054】次に、請求項13について説明する。請求
項12によって、第1言語において連接していない複数
単語から構成される熟語・相関語句の第2言語情報を得
ることができるようになるが、先の方法では、相関語句
の第2言語情報は得られるが、相関語句中の不定な要素
に関する第2言語情報は得られない。先の例では、 BするくらいならAするほうがましだ のみ表示されるので、熟語テンプレートの不定要素に対
応する A(動詞句):die …(6) B(動詞句):disgrace myself …(7) の情報は表示されない。熟語だけの第2言語情報では、
当該英文を読解するに十分であるとはいえない。
Next, claim 13 will be described. According to claim 12, it becomes possible to obtain the second language information of the phrase / correlated phrase composed of a plurality of words that are not concatenated in the first language. In the above method, the second language information of the correlated phrase is obtained. However, the second language information regarding the indefinite element in the correlation phrase cannot be obtained. In the previous example, only A is better than B is displayed, so A (verb phrase): die ... (6) B (verb phrase): disgrace myself ... (7 ) Information is not displayed. In the second language information of only idioms,
It is not enough to read the English sentence.

【0055】そこで、熟語の情報に加えて、熟語テンプ
レートの不定要素に関する情報も併せて表示すれば、当
該英文を読解するに必要な第2言語情報がそろう。例え
ば、以下のように表示する。 BするくらいならAするほうがましだ(A:死ぬ,B:の
恥となる 私自身) 熟語テンプレート中の識別子A,Bを残し、A,Bに対応
する第2言語情報を識別子とともに後続させる。A,B
に対応する第2言語情報は、前記(3),(4)の対応
関係および形態素解析結果によって容易に求められる。
この実施例では、第1言語における熟語パターンでの出
現順に識別子を付与し、その順に対応する第2言語情報
を表示したが、第2言語情報における識別子の出現順
に、対応する第2言語情報を表示しても構わない。これ
に従えば、 BするくらいならAするほうがましだ(B:の恥となる
私自身,A:死ぬ) となる。したがって、各々の情報を単に連結するだけで
あるから、高度な言語処理を必要としない。
Therefore, if the information about the indefinite element of the idiom template is also displayed in addition to the idiom information, the second language information necessary for reading the English sentence will be provided. For example, the following is displayed. A is better than B (A: Die, B: Shame on myself) I leave the identifiers A and B in the idiom template, and follow the second language information corresponding to A and B together with the identifier. A, B
The second language information corresponding to is easily obtained by the correspondence relationship of (3) and (4) and the morphological analysis result.
In this embodiment, the identifiers are given in the order of appearance of the phrase patterns in the first language, and the second language information corresponding to that order is displayed. However, the corresponding second language information is displayed in the order of appearance of the identifiers in the second language information. You can display it. According to this, it is better to do A than to B (it becomes a shame of B:
I myself will die: A). Therefore, high-level linguistic processing is not required because each piece of information is simply connected.

【0056】次に、請求項14について説明する。請求
項13は、高度な言語処理を必要としないが、識別子が
残ってしまうので、第2言語としての自然さを損ねてし
まう。そこで、第2言語において言語処理を行うことに
よって、熟語全体にわたって自然な第2言語情報を作成
する。これによって第2言語による不自然さは著しく改
善され、理解容易性が向上する。以下、実施例を示す。
第2言語において変形・合成するために、第2言語にお
いて、活用のある語は活用情報を辞書に追加する。 die
Next, claim 14 will be described. According to the thirteenth aspect, although the advanced language processing is not required, since the identifier remains, the naturalness of the second language is impaired. Therefore, by performing language processing in the second language, natural second language information is created over the entire idiom. As a result, the unnaturalness due to the second language is significantly improved, and the easiness of understanding is improved. Examples will be shown below.
In order to transform / synthesize in the second language, in the second language, utilization information is added to the dictionary for words that have utilization. die

【動】死ぬ(ナ・五段) disgrace[Verb] die (na ・ 5dan) disgrace

【名】不名誉[Name] Disgrace

【動】の恥となる(ナ・五段) myself[Verb] becomes a shame (Na ・ 5dan) myself

【名】私自身 構文的カテゴリの定義において、第2言語における語順
を加える。例えば、英語においては、 動詞 名詞:例 disgrace myself の順であるが、日本語では、 名詞 動詞:例 私自身 の恥となる となる。表1における構文カテゴリに対する一例を示
す。 ":" より左が第1言語の語順、右が第2言語の語
順である。
[Name] I myself add the word order in the second language in the definition of syntactic categories. For example, in English, the order is verb noun: eg disgrace myself, but in Japanese, it is a noun verb: eg my own shame. An example for the syntax categories in Table 1 is shown. The word order of the first language is on the left of the ":", and the word order of the second language is on the right.

【0057】このように、第2言語における語順と、形
態素候補の第2言語活用情報を整備することによって、
形態素候補 "would rather die than disgrace myself" の第2言語情報は、 「私自身の恥となるくらいなら死ぬほうがましだ」 となる。この変形・合成処理は、機械翻訳等の一般的な
文生成の手法である。このように、第2言語に関する言
語処理を実施することによって、識別子などが不要にな
るので、第2言語において自然な形式で表示することが
でき、読解性を著しく向上させる。
As described above, by preparing the word order in the second language and the second language utilization information of morpheme candidates,
The second language information of the morpheme candidate "would rather die than disgrace myself" is "It is better to die than to be ashamed of myself." This transformation / synthesis processing is a general sentence generation method such as machine translation. As described above, by performing the language processing on the second language, the identifier and the like are unnecessary, so that the second language can be displayed in a natural format, and the readability is remarkably improved.

【0058】次に、請求項15について説明する。OC
Rミスや辞書の見出し語登録不足などによって、第1言
語原文に未知語が含まれている場合がある。前述した実
施例では、語の並びの統計に基づいて品詞を推定するの
で、第1言語文中に未知語が多くなると、語の並びの統
計が利用できない場合が多くなる。未知語に対しては全
品詞を候補として仮定すれば、隣接する語が未知語であ
る場合には、語の並びの統計が確度の低いものになって
しまう。したがって、間違って訂正してしまう例も増え
るので、品詞推定精度が下がってしまう。
Next, claim 15 will be described. OC
An unknown word may be included in the first language original sentence due to an R mistake, insufficient entry of a dictionary entry in the dictionary, or the like. In the above-described embodiment, since the part-of-speech is estimated based on the word sequence statistics, when the number of unknown words in the first language sentence increases, the word sequence statistics often cannot be used. Assuming all parts of speech as candidates for unknown words, if adjacent words are unknown words, the word sequence statistics will be less accurate. Therefore, the number of cases in which correction is made by mistake is increased, and the accuracy of part-of-speech estimation is reduced.

【0059】ところで、一般的に同じ構文的カテゴリに
属する単語には、特徴的な表層パターンが見受けられ
る。例えば、英語の場合、動詞(まれには形容詞)に "
ment"を語尾に連結することによって名詞化する。他に
も "able", "ish" で終る語は形容詞である。このよう
に、特徴的な表層パターンに注目することによって、当
該単語の構文的カテゴリを推定することができる。上述
したように、この実施例において、未知語には、 A.OCRミスに起因するもの B.辞書の見出し語に存在しないもの の2種がある。いずれの場合でも、表層パターンを検出
することができれば、当該未知語の構文的カテゴリを推
定することができる。以下、実施例を用いて説明する。
表層パターンを以下の表2のようにまとめる。
By the way, a characteristic surface pattern is generally found in words belonging to the same syntactic category. For example, in English, the verb (rarely adjective) is "
The word "ment" is connected to the end of the word to make it a noun. Other words that end in "able" and "ish" are adjectives. Thus, by paying attention to the characteristic surface pattern, the syntax of the word As described above, in this embodiment, there are two types of unknown words: A. Caused by an OCR miss and B. Not found in a dictionary entry word. Even in such a case, if the surface layer pattern can be detected, the syntactic category of the unknown word can be estimated.
The surface patterns are summarized in Table 2 below.

【0060】[0060]

【表2】 [Table 2]

【0061】辞書引きの結果、該当する見出し語がない
場合に、当該未知語の構文的カテゴリを推定することを
試みる。未知語に対して表2の表層パターンを適用し、
合致した場合、パターンの属する構文カテゴリを未知語
の構文カテゴリと決定する。合致する表層パターンがな
ければ、全構文カテゴリを候補にする。この処理によっ
て、未知語の構文カテゴリを推定できるので、未知語に
起因する品詞推定精度の低下を抑えることができる。
As a result of the dictionary lookup, when there is no corresponding entry word, an attempt is made to estimate the syntactic category of the unknown word. Apply the surface pattern of Table 2 to unknown words,
If they match, the syntactic category to which the pattern belongs is determined as the syntactic category of the unknown word. If there is no matching surface pattern, all syntax categories are candidates. By this processing, the syntactic category of the unknown word can be estimated, so that it is possible to suppress the deterioration of the accuracy of part-of-speech estimation due to the unknown word.

【0062】図13は、請求項15の表層パターンを用
いる未知語の構文カテゴリ推定処理のフローチャートで
ある。step1 :まず、単語を読み込み、step2に進む。step2 :次に、辞書を検索し、step3に進む。step3 :辞書の見出し語に当該単語が存在していれば、
step5に進む。存在していなければ、step4に進む。step4 :当該単語を構文カテゴリ推定用表層パターンと
照合し、step6に進む。 step5 :辞書に基づいて、当該単語の構文カテゴリを決
定する。step6 :当該単語に合致する表層パターンがあるならst
ep8に進む。ないならばstep7に進む。step7 :当該単語を未知語であると判定する。step8 :合致する表層パターンに対応する構文カテゴリ
を当該単語の構文カテゴリに決定する。
FIG. 13 uses the surface layer pattern of claim 15.
In the flowchart of the process of estimating the syntactic category of an unknown word
is there.step1 : First, read the word and go to step 2.step2 : Next, search the dictionary and proceed to step 3.step3 : If the word exists in the dictionary headword,
Proceed to step 5. If it does not exist, go to step 4.step4 : The word is used as a surface pattern for syntax category estimation.
Collate and proceed to step 6. step5 : Determine the syntactic category of the word based on the dictionary
Set.step6 : St if there is a surface pattern that matches the word
Go to ep8. If not, proceed to step 7.step7 : Determine that the word is an unknown word.step8 : Syntax category corresponding to the matching surface pattern
To the syntactic category of the word.

【0063】次に、請求項16について説明する。未知
語の内、辞書に見出し語が存在しないために未知語と判
定されるものがある。全くの新語は見出し語として登録
されていないのは当然であるが、基本語が容易に導出で
きる派生語も登録されていない場合も多い。このような
派生語は、基本語を表2の表層パターンに基づいて変形
させたものである。したがって、表2の表層パターンを
未知語に対して適用し、基本語に戻してから再度辞書を
検索し、基本語が存在しているならば、その第2言語情
報と表層パターン情報とを併せて表示する。表示例を図
14に示す。英単語 "embellishment" は使用頻度の低
い語であり、簡易的な辞書には記載されていないことが
多い。したがって、見出し語数の多い辞書を使用しない
と、未知語と判定されやすい。このような難解な語で
も、その第2言語情報を不完全ながら得ることができ
る。図14の例は、"embellish"(
Next, claim 16 will be described. Among unknown words, there is a word that is determined as an unknown word because there is no entry word in the dictionary. It is natural that a completely new word is not registered as a headword, but there are many cases where a derivative word from which a basic word can be easily derived is not registered. Such a derivative word is a modification of the basic word based on the surface layer pattern of Table 2. Therefore, the surface pattern of Table 2 is applied to the unknown word, the word is returned to the basic word, and the dictionary is searched again. If the basic word exists, the second language information and the surface pattern information are combined. To display. A display example is shown in FIG. The English word "embellishment" is a word that is used infrequently and is often not listed in a simple dictionary. Therefore, unless a dictionary with a large number of headwords is used, it is likely to be determined as an unknown word. Even with such difficult words, the second language information can be obtained incompletely. In the example of FIG. 14, "embellish" (

【動】美しくする)が存在し、"embellishment" が存在
していなかった場合を示す。これによって、未知語の構
文カテゴリを決定できるだけでなく、未知語の第2言語
情報も不完全ながら表示することができ、当該未知語を
含んだ英文の読解を著しく容易にする。また、辞書の見
出し語数を増加させることなく、見かけの未知語(全く
の新語を除いた語)を減少させることができる。
[Verb] Make it beautiful), and "embellishment" does not exist. As a result, not only the syntactic category of the unknown word can be determined, but also the second language information of the unknown word can be displayed incompletely, and reading of an English sentence including the unknown word is significantly facilitated. Also, apparent unknown words (words excluding completely new words) can be reduced without increasing the number of index words in the dictionary.

【0064】図15は、請求項16の表層パターンを用
いる、未知語の第2言語情報の合成処理のフローチャー
トである。step1 :まず、単語を読み込み、step2に進む。step2 :次に、辞書を検索し、step3に進む。step3 :辞書の見出し語に当該単語が存在していればst
ep5に進む。存在していなければstep4に進む。step4 :当該単語を構文カテゴリ推定用表層パターンと
照合し、step6に進む。 step5 :辞書に基づいて、当該単語の第2言語情報を決
定する。step6 :当該単語に合致する表層パターンがあるならst
ep8に進む。ないならばstep7に進む。step7 :当該単語は未知語であると判定し、step12に進
む。step8 :表層パターンを元に、当該単語を基本形に戻
し、step9に進む。step9 :前記step8において求めた基本形を辞書検索
し、step10に進む。step10 :辞書の見出し語に当該単語の基本形が存在して
いればstep11に進む。存在していなければstep13に進
む。step11 :構文カテゴリ推定用表層パターンから得た第2
言語情報と、基本形を辞書検索して得た第2言語情報と
を合成する。step12 :第2言語情報は空とする。step13 :第2言語情報は空とする。
FIG. 15 uses the surface layer pattern of claim 16.
Flow chart for synthesizing unknown language second language information
It isstep1 : First, read the word and go to step 2.step2 : Next, search the dictionary and proceed to step 3.step3 : St if the word is present in the dictionary entry
Proceed to ep5. If it does not exist, go to step 4.step4 : The word is used as a surface pattern for syntax category estimation.
Collate and proceed to step 6. step5 : Determine the second language information of the word based on the dictionary
Set.step6 : St if there is a surface pattern that matches the word
Go to ep8. If not, proceed to step 7.step7 : The word is judged as an unknown word and proceed to step 12.
Mu.step8 : Return the word to the basic form based on the surface pattern
Then, proceed to step 9.step9 : Dictionary search for the basic form found in step 8 above
And proceed to step 10.step10 : There is a basic form of the word in the dictionary entry
If so, proceed to step 11. If it does not exist, proceed to step 13.
Mu.step11 : Second obtained from surface pattern for syntax category estimation
The language information and the second language information obtained by searching the basic form in a dictionary
To synthesize.step12 : The second language information is empty.step13 : The second language information is empty.

【0065】請求項16によって、未知語に関する第2
言語情報を得ることができるが、第2言語としては不自
然な、第1言語における構文カテゴリ名(図14におけ
According to claim 16, the second word concerning the unknown word
Although the linguistic information can be obtained, the syntactic category name in the first language, which is unnatural for the second language (in FIG. 14,

【名】)が表示されてしまう。使用者は、第2言語情報
(「美しくする」)と第1言語における構文カテゴリ(
[Name]) is displayed. The user selects the second language information (“beautify”) and the syntax category (

【名】)との異なった2種類の情報を組み合わせてから
理解しなくてはならないので、円滑さを損ねてしまう。
そこで、第2言語情報を第1言語の構文カテゴリを示す
ように典型的に変形すれば、第1言語の構文カテゴリを
併わせて表示する必要がなくなる。
Since it is necessary to understand after combining two kinds of information different from (name)), smoothness is impaired.
Therefore, if the second language information is typically transformed to indicate the syntax category of the first language, it is not necessary to display the syntax category of the first language together.

【0066】以下、本発明を実施例を用いて説明する。
表2のように第1言語の構文カテゴリを表現する、第2
言語の典型的な表現をまとめておく。例えば、語尾が "
ish" である第1言語(英語)単語の構文的カテゴリは
形容詞であり、第2言語(日本語)における、それを示
す典型的な表現は「〜のような」である。この表現と、
この表現の元になった部分以外の第2言語情報とを組み
合わす。先の例の "embellishment" は、"embellish"
+ "ment"であるから、 embellish:美しくする ment :〜こと との第2言語情報が求められ、これらを組み合わせる
と、 embellishment:美しくすること が求められる。
The present invention will be described below with reference to examples.
The second, which expresses the syntax category of the first language as shown in Table 2,
Here is a summary of typical language expressions. For example, the ending is "
The syntactic category of a first language (English) word that is "ish" is an adjective, and a typical expression in the second language (Japanese) that indicates it is "like". This expression and
It is combined with the second language information other than the part that is the source of this expression. In the previous example, "embellishment" is "embellish"
+ "Ment", so the second language information about embellish: beautify ment: ~ is required, and by combining these, embellishment: beautification is required.

【0067】この実施例では、第2言語における言語処
理を実施するので、第2言語情報には変形情報(活用の
型など)を合わせて記憶しておかなくてはならない。こ
の第2言語での言語処理は、機械翻訳等の一般的な文生
成の手法である。なお、通常の方法によって得た第2言
語情報と、本発明によって得た第2言語情報とを区別す
るために、本発明による第2言語情報を表示する際に
は、以下のように、ハイフン("−"),かっ
こ("(",")")などの記号を用いて変形の範囲を明示し
てもよい。 embellishment 美しくする−こと 美しくする(こと) 美しくする+こと
In this embodiment, since language processing is performed in the second language, modification information (type of utilization etc.) must be stored together with the second language information. The language processing in the second language is a general sentence generation method such as machine translation. In order to distinguish the second language information obtained by the normal method from the second language information obtained by the present invention, when displaying the second language information according to the present invention, a hyphen is displayed as follows. The range of deformation may be specified using symbols such as ("-") and parentheses ("(", ")"). embellishment beautify-thing beautify (thing) beautify +

【0068】さらに、OCR装置と印刷装置とを併合
し、2言語文書作成処理を内蔵し、コピーマシン様の装
置にまとめれば、利用者は文書を複写する感覚で2言語
文書を得ることができるので、図3のように個々の装置
を組み合わせて実現した場合と比較して、使用感が著し
く改善される。加えて、OCR装置のスキャニング工程
と印刷装置の印刷工程とは、市販のコピーマシンの複写
工程に非常に似ており、本発明をコピーマシンに実装す
る際のコスト向上はわずかで済む。図16に対訳複写機
の装置イメージを示す。
Furthermore, if the OCR device and the printing device are merged, the bilingual document creation processing is built in, and the devices are put together in a copy machine-like device, the user can obtain the bilingual document as if copying the document. Therefore, the usability is remarkably improved as compared with the case where the individual devices are combined as shown in FIG. In addition, the scanning process of the OCR device and the printing process of the printing device are very similar to the copying process of a commercially available copy machine, and there is only a slight cost increase when implementing the present invention on the copy machine. FIG. 16 shows a device image of the parallel translation copying machine.

【0069】本発明は以上の実施例に限定されるもので
はなく、 1.第1言語の品詞を推定する手段 2.第1言語文と第2言語情報を対応させて、表示ある
いは印刷出力する手段 3.第1言語の文書の書式を記憶する手段 4.第1言語の文書の書式に基づいて、第1言語文と第
2言語の情報とを表示あるいは印刷出力する手段 5.OCR(光学的文字読取装置)と印刷装置を併合
し、コピーマシン様の装置にまとめ、コピーマシンの使
用感をまねることによって、利用者に繁雑な操作を強い
ることなく、第1言語の文書の第2言語による読解を助
ける機能を有する機械翻訳装置を提供することに本質が
ある。
The present invention is not limited to the above embodiments, and Means for estimating the part of speech in the first language 1. Means for displaying or printing out the first language sentence and the second language information in association with each other. 3. Means for storing the format of the first language document 4. Means for displaying or printing out the first language sentence and second language information based on the format of the first language document. By combining OCR (optical character reading device) and printing device and putting them together in a copy machine-like device to imitate the feeling of use of the copy machine, the first language document of It is essential to provide a machine translation device having a function of helping reading in a second language.

【0070】また、 6.第1言語文を入力するための入力手段 7.第1言語文(原文)記憶手段 8.言語解析に必要な知識を記憶している解析辞書 9.第1言語文(原文)及び、その翻訳結果である第2
言語文を表示するための表示手段 10.第1言語の品詞を推定する手段 11.前記10の推定手段によって推定された品詞にし
たがって、解析辞書から第1言語に対応する第2言語情
報(訳語)を抽出する手段 を備えた言語処理系において、 12.単語間の連接に関する情報を用いて多品詞語の品
詞を推定する手段 13.現在行の他に、直前行および直後行を記憶する手
段 14.前記13で記憶した直前行および直後行を現在行
に連結する手段 15.前記14で作成した連結後の行に対して品詞を推
定する手段 16.第1言語文に含まれる未知語を判定する手段 17.前記16で判定した未知語の数を計数する手段 18.前記17の計数結果に基づいて品詞推定処理を実
施するか否かを判断する手段 19.第1言語文において基本的な語を判定する手段 20.前記19の判定結果に基づいて第2言語情報の出
力を抑制する手段 21.品詞推定した品詞の辞書中の優先度を判定する手
段 22.前記21の判定手段に基づいて第2言語情報の出
力を抑制する手段 23.品詞推定によって、品詞の可能性の順位を求める
手段 24.前記23の順位にしたがって、上位複数個の品詞
候補の対応する第2言語情報を出力する手段 を備えることによって、使用者にとって必要な第2言語
情報だけを高精度に出力する機能を有する機械翻訳装置
を提供することに本質がある。
Also, 6. Input means for inputting first language sentence 7. First language sentence (original sentence) storage means 8. 8. An analysis dictionary that stores the knowledge necessary for linguistic analysis. The first language sentence (original sentence) and its translation result, the second sentence
Display means for displaying language sentence 10. Means for estimating the part of speech of the first language 11. 12. A language processing system comprising: means for extracting second language information (translated word) corresponding to a first language from an analysis dictionary in accordance with the part of speech estimated by the estimating means of 10. 13. A means for estimating the part-of-speech of a multi-part-of-speech word using information about the connection between words Means for storing the immediately preceding line and the immediately following line in addition to the current line 14. 14. A means for connecting the immediately preceding row and the immediately following row stored in 13 to the current row. 15. A means for estimating a part of speech for the line after connection created in the above 14. 17. Means for determining unknown word included in first language sentence 17. A means for counting the number of unknown words determined in the above 16. 18. A means for judging whether or not to perform the part-of-speech estimation processing based on the counting result of the above 17. 20. Means for determining a basic word in the first language sentence 20. A means for suppressing the output of the second language information based on the judgment result of 19 above. Part-of-speech means for determining priority of estimated part-of-speech in dictionary 22. 23. A means for suppressing the output of the second language information based on the judging means of 21. 24. A means for obtaining the rank of the possibility of part-of-speech by part-of-speech estimation A machine translation having a function of outputting only the second language information required by the user with high accuracy by providing means for outputting the second language information corresponding to the plurality of high-ranking part-of-speech candidates according to the order of 23 above. There is an essence in providing the device.

【0071】また、 25.第1言語文を入力するための入力手段 26.第1言語文(原文)記憶手段 27.言語解析に必要な知識を記憶している解析辞書 28.第1言語文(原文)及びその翻訳結果である第2
言語文を表示するための表示手段 29.第1言語の品詞を推定する手段 30.前記29の推定手段によって推定された品詞にし
たがって、解析辞書から第1言語に対応する第2言語情
報(訳語)を抽出する手段を備えた言語処理系におい
て、 31.単語間の連接に関する情報を用いて多品詞語の品
詞を推定する手段 32.第1言語の熟語の構文型を記述するところの熟語
テンプレートを対応する第2言語情報(訳語,品詞等)
を併せて記憶する手段 33.前記32で記憶したテンプレートと第1言語文と
を照合する手段 34.前記33の照合手段において、熟語テンプレート
中の要素に対応する第1言語文中の単語(語句)を抽出
する手段 35.前記33の照合手段と前記34の抽出手段の実施
結果に基づいて熟語テンプレートに対応する第2言語情
報を表示する手段を持つことを特徴とする機械翻訳装
置。 36.熟語テンプレートの第2言語情報と、当該テンプ
レート中の要素に合致した第1言語文中の単語(語句)
に対応する第2言語情報とを分離して出力する手段を持
つことを特徴とする機械翻訳装置。 37.熟語テンプレートの第2言語情報と当該テンプレ
ート中の要素に合致した第1言語文中の単語(語句)に
対応する第2言語情報とを基に変形・合成し、一つの第
2言語語句として出力する手段 38.第1言語文中の未知語を検出する手段 39.第1言語の語の変形パターンと変形後の構文的カ
テゴリ(品詞等)を記憶する手段 40.前記37の検出手段によって検出された未知語に
対して、14の変形パターンを適用し、変形前の語を求
める手段 41.前記40で求めた変形前の語を第1言語解析辞書
において検索する手段 42.前記41の検索手段の結果にしたがって変形前の
第1言語単語の第2言語情報と変形情報とを併せて表示
する手段を持つことを特徴とする機械翻訳装置。 43.前記41の検索手段の結果にしたがって、変形前
の第1言語単語の第2言語情報を、第1言語文における
変形情報にしたがって変形した後、表示する手段を備え
ることによって、使用者にとって必要な第2言語情報だ
けを高精度に出力する機能を有する機械翻訳装置を提供
することに本質がある。
25. Input means for inputting first language sentence 26. First language sentence (original sentence) storage means 27. 28. An analysis dictionary that stores the knowledge necessary for language analysis 28. First language sentence (original sentence) and its translation result, second sentence
Display means for displaying language sentence 29. A means for estimating the part of speech of the first language 30. 31. In a language processing system including means for extracting second language information (translated word) corresponding to a first language from an analysis dictionary according to a part of speech estimated by the estimating means of 29. 32. A means for estimating the part of speech of a multi-part-of-speech word using information about the connection between words. Second language information (translation word, part of speech, etc.) corresponding to the idiom template that describes the syntactic type of the idiom in the first language
33. Means for storing together 34. A means for collating the template stored in 32 with the first language sentence. 34. A means for extracting the word (phrase) in the first language sentence corresponding to the element in the idiom template in the matching means of 33. A machine translation device comprising: means for displaying the second language information corresponding to the idiom template based on the execution results of the matching means of 33 and the extracting means of 34. 36. The second language information of the phrase template and the words (phrases) in the first language sentence that match the elements in the template
A machine translation device having means for separating and outputting the second language information corresponding to. 37. The second language information of the phrase template and the second language information corresponding to the word (phrase) in the first language sentence that matches the element in the template are transformed / combined and output as one second language phrase. Means 38. 39. Means for detecting an unknown word in the first language sentence A means for storing the transformation pattern of the word of the first language and the syntactic category (part of speech etc.) after transformation 41. Means for applying 14 transformation patterns to the unknown word detected by the 37 detection means to obtain a word before transformation 41. 42. A unit for retrieving the untransformed word obtained in 40 in the first language analysis dictionary. A machine translation apparatus having means for displaying together the second language information and the transformation information of the first language word before transformation according to the result of the search means of 41. 43. According to the result of the search means of 41, the second language information of the first language word before the transformation is transformed according to the transformation information in the first language sentence, and then the means for displaying the transformed second language information is necessary for the user. It is essential to provide a machine translation device having a function of outputting only the second language information with high accuracy.

【0072】[0072]

【効果】以上の説明から明らかなように、本発明による
と、以下のような効果がある。 (1)請求項1,2においては、第1言語文を理解する
のに必要な第2言語の情報(品詞、訳語など)だけを選
択して利用者に提示することができ、第1言語文の読解
に要する負担を著しく軽減することができる。 (2)請求項3においては、入力速度が著しく向上し、
人手を煩わすことがないために、利用者は出力結果の理
解に専念することができるので、第1言語文を読解する
ための負担が著しく軽減される。 (3)請求項4においては、視覚的に2言語間の対応が
とれるよう、第2言語の情報を第1言語のルビであるが
ごとく出力すれば、利用者は2言語を容易に照合するこ
とができるので、読解にかかる負担が著しく軽減され
る。 (4)請求項5においては、第1言語の文書の図表や段
組などの書式情報にのっとって、本発明による2言語文
書を出力すれば、利用者は、元原稿を参照する必要がな
いので、本発明による文書だけに専念することができ、
読解にかかる負担が著しく軽減される。 (5)請求項6においては、行の両端付近でも連接制約
を利用できるようになるので品詞推定精度が低下するこ
とを避けることができる。 (6)請求項7においては、未知語の多い行に対して品
詞推定処理を実施することを避けることができるので、
品詞推定精度が下がることを避けることができる。 (7)請求項8においては、既知の情報の出力が抑制さ
れるので、使用者は未知の情報の理解に専念でき、使用
感が著しく改善される。 (8)請求項9においては、稀な用法に関する第2言語
情報が出力されるので、使用者の理解を助けることがで
きる。 (9)請求項10においては、複数解を優先順位につけ
て出力するので、品詞推定処理を誤っている場合でも、
使用者は適切な解を自ら選択して読解を続けることがで
きる。 (10)請求項11においては、あいまいな解に限って
解を複数個出力するので、使用者は正解である可能性の
高い解については不要な情報を見ることなく、あいまい
な解については複数から適切な解を選択することがで
き、読解にかかる負担を著しく軽減することができる。 (11)請求項12においては、連接していない複数単
語から構成される第1言語の熟語・相関語句の第2言語
情報を得ることができるので、第1言語文の読解を著し
く容易にする。 (12)請求項13においては、連接していない複数単
語から構成される第1言語の熟語相関語句の第2言語情
報を、第2言語において言語処理せずに出力するので、
第2言語に関する言語処理を具備する必要がない。 (13)請求項14においては、連接していない複数単
語から構成される第1言語の熟語・相関語句の第2言語
情報を、第2言語において言語処理することによって変
形・合成できるので、第2言語による読解容易性を著し
く向上させる。 (14)請求項15においては、未知語に対する構文的
カテゴリ候補を限定することができるので、隣接する単
語の品詞推定精度を下げることを避けられる。 (15)請求項16においては、未知語に対する構文的
カテゴリ候補を限定することができ、かつ当該未知語の
第2言語情報を第2言語としては不自然ながらも出力す
ることができるので、第2言語に関する言語処理を具備
することなく、第2言語による読解容易性を著しく向上
させる。 (16)請求項17においては、未知語に対する構文的
カテゴリ候補を限定することができ、かつ当該未知語の
第2言語情報を第2情報として自然な形態で出力するこ
とができるので、第2言語による読解容易性を著しく向
上させる。
As is apparent from the above description, the present invention has the following effects. (1) In claims 1 and 2, only the information in the second language (part of speech, translation, etc.) necessary for understanding the first language sentence can be selected and presented to the user. The burden of reading and comprehending sentences can be significantly reduced. (2) In claim 3, the input speed is remarkably improved,
Since the user can concentrate on understanding the output result because it does not bother humans, the burden of reading the first language sentence is significantly reduced. (3) In claim 4, if the information of the second language is output as if it is the ruby of the first language so that the correspondence between the two languages can be visually obtained, the user can easily collate the two languages. Therefore, the burden of reading comprehension is significantly reduced. (4) In claim 5, if the bilingual document according to the present invention is output according to the format information such as the chart or column of the document in the first language, the user does not need to refer to the original document. So we can concentrate exclusively on the document according to the invention,
The reading burden is significantly reduced. (5) According to the sixth aspect, the concatenation constraint can be used near both ends of the line, so that it is possible to avoid a decrease in part-of-speech estimation accuracy. (6) In claim 7, since it is possible to avoid performing the part-of-speech estimation process on a line with many unknown words,
It is possible to avoid lowering the accuracy of part-of-speech estimation. (7) According to claim 8, the output of known information is suppressed, so that the user can concentrate on understanding unknown information, and the usability is significantly improved. (8) According to the ninth aspect, the second language information regarding the rare usage is output, which can help the user to understand. (9) In claim 10, since a plurality of solutions are output in order of priority, even if the part-of-speech estimation process is incorrect,
The user can select an appropriate solution and continue reading. (10) In claim 11, since a plurality of solutions are output only for ambiguous solutions, the user does not see unnecessary information about solutions that are likely to be correct, and there are a plurality of ambiguous solutions. An appropriate solution can be selected from, and the burden on reading comprehension can be significantly reduced. (11) According to claim 12, the second language information of the idiom / correlated phrase of the first language, which is composed of a plurality of words that are not connected, can be obtained, so that the reading of the first language sentence is significantly facilitated. . (12) In claim 13, the second language information of the phrase correlation phrase of the first language, which is composed of a plurality of words that are not connected, is output without performing language processing in the second language.
It is not necessary to have language processing for the second language. (13) In claim 14, the second language information of the idiom / correlated phrase in the first language, which is composed of a plurality of words that are not connected, can be transformed / combined by performing language processing in the second language. Improves readability in two languages significantly. (14) In claim 15, since the syntactic category candidates for the unknown word can be limited, it is possible to avoid lowering the accuracy of part-of-speech estimation of the adjacent word. (15) In claim 16, the syntactic category candidates for the unknown word can be limited, and the second language information of the unknown word can be output although it is unnatural as the second language. The readability in the second language is significantly improved without providing the language processing for the two languages. (16) In claim 17, the syntactic category candidates for the unknown word can be limited, and the second language information of the unknown word can be output as the second information in a natural form. Significantly improve readability in language.

【図面の簡単な説明】[Brief description of drawings]

【図1】 本発明による機械翻訳装置の一実施例を説明
するための構成図である。
FIG. 1 is a configuration diagram for explaining an embodiment of a machine translation device according to the present invention.

【図2】 本発明による対訳文書作成処理のブロック図
である。
FIG. 2 is a block diagram of bilingual document creation processing according to the present invention.

【図3】 本発明による対訳文書作成処理部の構成図で
ある。
FIG. 3 is a configuration diagram of a bilingual document creation processing unit according to the present invention.

【図4】 本発明による最大出現確率品詞列選択手順を
示す図である。
FIG. 4 is a diagram showing a maximum appearance probability part-of-speech string selection procedure according to the present invention.

【図5】 本発明による最大出現確率品詞列選択手順の
フローチャートを示す図である。
FIG. 5 is a diagram showing a flowchart of a maximum appearance probability part-of-speech string selection procedure according to the present invention.

【図6】 本発明による解候補更新処理のフローチャー
トを示す図である。
FIG. 6 is a diagram showing a flowchart of a solution candidate updating process according to the present invention.

【図7】 本発明による直前行と直後行とを現在行に連
結する品詞推定処理のフローチャートを示す図である。
FIG. 7 is a diagram showing a flowchart of part-of-speech estimation processing for connecting the immediately preceding line and the immediately following line to the current line according to the present invention.

【図8】 本発明による未知語率に基づく品詞推定処理
実施の判断のフローチャートを示す図である。
FIG. 8 is a diagram showing a flowchart of a judgment of execution of part-of-speech estimation processing based on an unknown word rate according to the present invention.

【図9】 本発明による出力抑制欄のある辞書の例を示
す図である。
FIG. 9 is a diagram showing an example of a dictionary having an output suppression field according to the present invention.

【図10】 本発明による品詞優先度のある辞書の例を
示す図である。
FIG. 10 is a diagram showing an example of a dictionary having a part-of-speech priority according to the present invention.

【図11】 本発明による頻出用法に対する出力抑制の
一例を示す図である。
FIG. 11 is a diagram showing an example of output suppression for frequent usage according to the present invention.

【図12】 本発明による複数解を出力する一例を示す
図である。
FIG. 12 is a diagram showing an example of outputting a plurality of solutions according to the present invention.

【図13】 本発明による表層パターンを用いる未知語
の構文カテゴリ推定処理のフローチャートである。
FIG. 13 is a flowchart of an unknown word syntax category estimation process using a surface pattern according to the present invention.

【図14】 本発明による未知語の第2言語情報の表示
例である。
FIG. 14 is a display example of second language information of an unknown word according to the present invention.

【図15】 本発明による表層パターンを用いる未知語
の第2言語情報の合成処理のフローチャートである。
FIG. 15 is a flowchart of a synthesis process of second language information of an unknown word using a surface layer pattern according to the present invention.

【図16】 本発明による対訳複写機の装置のイメージ
を示す図である。
FIG. 16 is a diagram showing an image of a device of a parallel translation copying machine according to the present invention.

【符号の説明】[Explanation of symbols]

1…表示装置、2…表示制御部、3…言語処理部、4…
入力制御部、5…入力装置、21…第1言語の入力手
段、22…形態素解析手段、23…解析辞書、24…品
詞推定手段、25…品詞連接確率表、26…出力形態決
定手段、27…出力手段。
1 ... Display device, 2 ... Display control unit, 3 ... Language processing unit, 4 ...
Input control section, 5 ... Input device, 21 ... First language input means, 22 ... Morphological analysis means, 23 ... Analysis dictionary, 24 ... Part of speech estimation means, 25 ... Part of speech concatenation probability table, 26 ... Output form determination means, 27 … Output means.

Claims (17)

【特許請求の範囲】[Claims] 【請求項1】 少なくとも、対象言語文を入力するため
の入力手段と、該入力手段により入力された対象言語文
を記憶する記憶手段と、言語解析に必要な知識を記憶し
ている解析辞書と、前記対象言語文及びその翻訳結果で
ある目的言語文を表示するための表示手段とを備えた言
語処理系において、対象言語の品詞を推定する品詞推定
手段と、該品詞推定手段によって推定された品詞にした
がって、前記解析辞書から対象言語に対応する目的言語
の情報を抽出する抽出手段とから成ることを特徴とする
機械翻訳装置。
1. An input unit for inputting at least a target language sentence, a storage unit for storing the target language sentence input by the input unit, and an analysis dictionary for storing knowledge necessary for language analysis. In a language processing system including the target language sentence and a display unit for displaying a target language sentence that is a translation result of the target language sentence, a part-of-speech estimating unit that estimates the part-of-speech of the target language, and the part-of-speech estimating unit estimates the part of speech. A machine translation device comprising: an extracting unit that extracts information of a target language corresponding to a target language from the analysis dictionary according to a part of speech.
【請求項2】 前記品詞推定手段が、対象言語の品詞の
連接確率を記憶する第1の記憶手段と、該連接確率に基
づいて、対象言語文の各単語の品詞を決定する決定手段
とを有することを特徴とする請求項1記載の機械翻訳装
置。
2. The part-of-speech estimating unit includes a first storage unit that stores a concatenation probability of a part-of-speech of a target language, and a determining unit that determines a part-of-speech of each word of the target language sentence based on the concatenation probability. The machine translation device according to claim 1, characterized by comprising.
【請求項3】 前記入力手段が光学的文字読取装置手段
を使用するものであることを特徴とする請求項1記載の
機械翻訳装置。
3. The machine translation device according to claim 1, wherein the input means uses an optical character reader means.
【請求項4】 前記表示手段が、対象言語文と目的言語
情報を対応させて、表示あるいは印刷出力する出力手段
を有することを特徴とする請求項1記載の機械翻訳装
置。
4. The machine translation device according to claim 1, wherein the display unit has an output unit that displays or prints out the target language sentence and the target language information in association with each other.
【請求項5】 前記出力手段が、対象言語の文書の書式
を記憶する第2の記憶手段と、対象言語文書の書式に基
づいて、対象言語文と目的言語の情報とを表示あるいは
印刷出力する出力手段を有することを特徴とする請求項
4記載の機械翻訳装置。
5. The output means displays or prints out the target language sentence and the target language information based on the second storage means for storing the format of the target language document and the format of the target language document. The machine translation device according to claim 4, further comprising output means.
【請求項6】 少なくとも、対象言語文を入力するため
の入力手段と、該入力手段により入力された対象言語文
を記憶する記憶手段と、言語解析に必要な知識を記憶し
ている解析辞書と、前記対象言語文及びその翻訳結果で
ある目的言語文を表示するための表示手段と、対象言語
の品詞を推定する品詞推定手段と、該品詞推定手段によ
って推定された品詞にしたがって、前記解析辞書から対
象言語に対応する目的言語の情報を抽出する抽出手段と
を備えた言語処理系において、単語間の連接に関する情
報を用いて多品詞語の品詞を推定する品詞推定手段と、
現在行の他に、直前行および直後行を記憶する記憶手段
と、該記憶手段で記憶した直前行および直後行を現在行
に連結する連結手段と、該連結手段で作成した連結後の
行に対して品詞を推定する品詞推定手段とから成ること
を特徴とする機械翻訳装置。
6. At least an input means for inputting a target language sentence, a storage means for storing the target language sentence input by the input means, and an analysis dictionary storing knowledge necessary for language analysis. A display unit for displaying the target language sentence and a target language sentence that is a translation result thereof, a part-of-speech estimation unit for estimating a part-of-speech of the target language, and the analysis dictionary according to the part-of-speech estimated by the part-of-speech estimation unit. In a language processing system having an extracting means for extracting information of a target language corresponding to a target language from, a part-of-speech estimating means for estimating a part-of-speech of a multi-part-of-speech word using information about connection between words,
In addition to the current row, a storage means for storing the immediately preceding row and the immediately following row, a connecting means for connecting the immediately preceding row and the immediately following row stored in the storage means to the current row, and a connected row created by the connecting means A machine translation device comprising: a part-of-speech estimating means for estimating a part-of-speech.
【請求項7】 前記対象言語文に含まれる未知語を判定
する判定手段と、該判定手段で判定した未知語の数を計
数する計数手段と、該計数手段の計数結果に基づいて品
詞推定処理を実施するか否かを判断する判断手段から成
ることを特徴とする請求項6記載の機械翻訳装置。
7. A determination unit that determines an unknown word included in the target language sentence, a counting unit that counts the number of unknown words determined by the determination unit, and a part-of-speech estimation process based on the counting result of the counting unit. 7. The machine translation device according to claim 6, further comprising a determination unit that determines whether or not to execute.
【請求項8】 対象言語文において基本的な語を判定す
る判定手段と、該判定手段の判定結果に基づいて目的言
語情報の出力を抑制する抑制手段とから成ることを特徴
とする請求項6記載の機械翻訳装置。
8. A determination means for determining a basic word in a target language sentence, and a suppression means for suppressing output of target language information based on a determination result of the determination means. The machine translation device described.
【請求項9】 品詞推定した品詞の辞書中の優先度を判
定する判定手段と、該判定手段に基づいて目的言語情報
の出力を抑制する抑制手段とから成ることを特徴とする
請求項6記載の機械翻訳装置。
9. The method according to claim 6, further comprising: a determination unit that determines the priority of the part-of-speech estimated part-of-speech in the dictionary, and a suppression unit that suppresses the output of the target language information based on the determination unit. Machine translation device.
【請求項10】 品詞推定によって品詞の可能性の順位
を求める認定手段と、該認定手段による順位にしたがっ
て、上位複数個の品詞候補の対応する第2言語情報を出
力する出力手段とから成ることを特徴とする請求項6記
載の機械翻訳装置。
10. An authenticating means for obtaining a rank of likelihood of part of speech by part-of-speech estimation, and an output means for outputting second language information corresponding to a plurality of high-ranking part-of-speech candidates in accordance with the ranking by the acknowledging means. 7. The machine translation device according to claim 6, wherein:
【請求項11】 品詞推定によって品詞の複数の可能性
を求める認定手段と、該認定手段の可能性の程度を評価
する評価手段と、該評価の可能性の程度を複数個用いて
第1解の確度を判定する判定手段と、該判定手段の判定
結果に基づいて、出力する解の個数を変更する変更手段
とから成ることを特徴とする請求項6記載の機械翻訳装
置。
11. A first solution using a qualifying means for obtaining a plurality of possibilities of a part of speech by part-of-speech estimation, an evaluation means for evaluating the degree of possibility of the recognizing means, and a plurality of the degree of possibility of the evaluation. 7. The machine translation apparatus according to claim 6, further comprising: a determining unit that determines the accuracy of the above, and a changing unit that changes the number of solutions to be output based on the determination result of the determining unit.
【請求項12】 少なくとも、対象言語文を入力するた
めの入力手段と、該入力手段により入力された対象言語
文を記憶する記憶手段と、言語解析に必要な知識を記憶
している解析辞書と、前記対象言語文及びその翻訳結果
である目的言語文を表示するための表示手段と、対象言
語の品詞を推定する品詞推定手段と、該品詞推定手段に
よって推定された品詞にしたがって、前記解析辞書から
対象言語に対応する目的言語の情報を抽出する抽出手段
とを備えた言語処理系において、単語間の連接に関する
情報を用いて多品詞語の品詞を推定する品詞推定手段
と、対象言語の熟語の構文型を記述するところの熟語テ
ンプレートを、対応する目的言語情報を併せて記憶する
記憶手段と、記憶されたテンプレートと対象言語文とを
照合する照合手段と、該照合手段において熟語テンプレ
ート中の要素に対応する対象言語文中の単語あるいは語
句を抽出する抽出手段と、前記照合手段と前記抽出手段
の実施結果に基づいて、熟語テンプレートに対応する目
的言語情報を表示する表示手段とを有することを特徴と
する機械翻訳装置。
12. At least an input means for inputting a target language sentence, a storage means for storing the target language sentence input by the input means, and an analysis dictionary for storing knowledge necessary for language analysis. A display unit for displaying the target language sentence and a target language sentence that is a translation result thereof, a part-of-speech estimation unit for estimating a part-of-speech of the target language, and the analysis dictionary according to the part-of-speech estimated by the part-of-speech estimation unit. In a language processing system equipped with an extraction means for extracting information of a target language corresponding to a target language, a part-of-speech estimation means for estimating a part-of-speech of a multi-part-of-speech word using information about concatenation of words A storage unit for storing the compound phrase template for describing the syntactic type of, together with corresponding target language information, and a collation unit for collating the stored template with the target language sentence; Extraction means for extracting the word or phrase in the target language sentence corresponding to the element in the phrase template in the matching means, and the target language information corresponding to the phrase template based on the execution results of the matching means and the extraction means A machine translation device comprising:
【請求項13】 熟語テンプレートの目的言語情報と、
当該テンプレート中の要素に合致した対象言語文中の単
語あるいは語句に対応する目的言語情報とを分離して出
力する出力手段とを有することを特徴とする請求項12
記載の機械翻訳装置。
13. The target language information of the idiom template,
13. An output unit that separates and outputs target language information corresponding to a word or a phrase in a target language sentence that matches an element in the template.
The machine translation device described.
【請求項14】 熟語テンプレートの目的言語情報と、
当該テンプレート中の要素に合致した対象言語文中の単
語あるいは語句に対応する目的言語情報とを基に変形・
合成し、一つの目的言語語句として出力する出力手段と
を有することを特徴とする請求項12記載の機械翻訳装
置。
14. The target language information of the idiom template,
Transformation based on the target language information corresponding to the word or phrase in the target language sentence that matches the element in the template
13. The machine translation device according to claim 12, further comprising an output unit that synthesizes and outputs as one target language phrase.
【請求項15】 対象言語文中の未知語を検出する検出
手段と、対象言語の語の変形パターンと変形後の構文的
カテゴリを記憶する記憶手段と、前記検出手段で検出さ
れた未知語に対して、前記変形パターンを適用し、変形
前の語を求める認定手段と、該認定手段で求めた変形前
の語を第1言語解析辞書において検索する検索手段と、
該検索手段の結果にしたがって、未知語の構文的カテゴ
リを決定する決定手段とを有することを特徴とする請求
項12記載の機械翻訳装置。
15. A detection unit for detecting an unknown word in a target language sentence, a storage unit for storing a transformation pattern of a word in the target language and a syntactic category after transformation, and an unknown word detected by the detection unit. An applying means for applying the transformation pattern to obtain a pre-transformation word, and a searching means for searching the first language analysis dictionary for the pre-transformation word found by the identification means.
13. The machine translation device according to claim 12, further comprising: determining means for determining a syntactic category of an unknown word according to a result of the searching means.
【請求項16】 前記検索手段の結果にしたがって、変
形前の対象言語単語の目的言語情報と、変形情報とを併
せて表示する表示手段とを有することを特徴とする請求
項15記載の機械翻訳装置。
16. The machine translation according to claim 15, further comprising display means for displaying together target language information of the target language word before transformation and transformation information according to the result of the search means. apparatus.
【請求項17】 前記検索手段の結果にしたがって、変
形前の対象言語単語の目的言語情報を対象言語文におけ
る変形情報で変形した後に表示する表示手段とを有する
ことを特徴とする請求項16記載の機械翻訳装置。
17. The display means for displaying the target language information of the target language word before transformation after transforming the target language information of the target language word with the transformation information of the target language sentence according to the result of the search means. Machine translation device.
JP5070870A 1992-04-15 1993-03-05 Machine translation system Pending JPH06243162A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5070870A JPH06243162A (en) 1992-04-15 1993-03-05 Machine translation system

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP12127792 1992-04-15
JP35664592 1992-12-22
JP4-356645 1992-12-22
JP4-121277 1992-12-22
JP5070870A JPH06243162A (en) 1992-04-15 1993-03-05 Machine translation system

Publications (1)

Publication Number Publication Date
JPH06243162A true JPH06243162A (en) 1994-09-02

Family

ID=27300462

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5070870A Pending JPH06243162A (en) 1992-04-15 1993-03-05 Machine translation system

Country Status (1)

Country Link
JP (1) JPH06243162A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0749075A2 (en) * 1995-06-14 1996-12-18 Sharp Kabushiki Kaisha Machine translation system
US5978798A (en) * 1996-06-14 1999-11-02 Sharp Kabushiki Kaisha Apparatus for and method of accessing a database
JP5497230B1 (en) * 2013-06-10 2014-05-21 株式会社バイトルヒクマ Translation system, translation program, and translation method
JP5586772B1 (en) * 2013-11-22 2014-09-10 株式会社バイトルヒクマ Translation system, translation program, and translation method

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0749075A2 (en) * 1995-06-14 1996-12-18 Sharp Kabushiki Kaisha Machine translation system
EP0749075A3 (en) * 1995-06-14 1997-01-22 Sharp Kabushiki Kaisha Machine translation system
US5873055A (en) * 1995-06-14 1999-02-16 Sharp Kabushiki Kaisha Sentence translation system showing translated word and original word
US5978798A (en) * 1996-06-14 1999-11-02 Sharp Kabushiki Kaisha Apparatus for and method of accessing a database
JP5497230B1 (en) * 2013-06-10 2014-05-21 株式会社バイトルヒクマ Translation system, translation program, and translation method
JP2014238772A (en) * 2013-06-10 2014-12-18 株式会社バイトルヒクマ Translation system, translation program, and translation method
WO2014199681A1 (en) * 2013-06-10 2014-12-18 株式会社バイトルヒクマ Translation system, translation program, and translation method
JP5586772B1 (en) * 2013-11-22 2014-09-10 株式会社バイトルヒクマ Translation system, translation program, and translation method
JP2014238808A (en) * 2013-11-22 2014-12-18 株式会社バイトルヒクマ Translation system, translation program, and translation method

Similar Documents

Publication Publication Date Title
JP4047885B2 (en) Machine translation apparatus, machine translation method, and machine translation program
Cowan et al. A discriminative model for tree-to-tree translation
US5010486A (en) System and method for language translation including replacement of a selected word for future translation
US8407040B2 (en) Information processing device, method and program
JPH096787A (en) Translation allocating machine translation device
WO2000062193A1 (en) System for chinese tokenization and named entity recognition
JP5097802B2 (en) Japanese automatic recommendation system and method using romaji conversion
JP3903993B2 (en) Sentiment recognition device, sentence emotion recognition method and program
JP4886244B2 (en) Machine translation apparatus and machine translation program
JPH08263478A (en) Single/linked chinese character document converting device
JP2007072594A (en) Translation device, translation method, translation program and medium
JPH06243162A (en) Machine translation system
Hajic et al. Czech language processing, POS tagging.
JPH08315078A (en) Method and device for recognizing japanese character
JPH08212216A (en) Natural language processor and natural language processing method
JPH052605A (en) Machine translation system
JP3305953B2 (en) Translation pattern creation method and apparatus
JPS61248160A (en) Document information registering system
JP2688020B2 (en) Derivative word processing method
Nederhof Automatic alignment of hieroglyphs and transliteration
JP3692711B2 (en) Machine translation device
JP4021813B2 (en) Compound word registration program and registration device
JPS62224859A (en) Japanese language processing system
JP3999771B2 (en) Translation support program, translation support apparatus, and translation support method
JP2000029882A (en) Summary preparing device