JP4298771B2 - Machine translation apparatus and program - Google Patents

Machine translation apparatus and program Download PDF

Info

Publication number
JP4298771B2
JP4298771B2 JP2007242642A JP2007242642A JP4298771B2 JP 4298771 B2 JP4298771 B2 JP 4298771B2 JP 2007242642 A JP2007242642 A JP 2007242642A JP 2007242642 A JP2007242642 A JP 2007242642A JP 4298771 B2 JP4298771 B2 JP 4298771B2
Authority
JP
Japan
Prior art keywords
translation
description part
category
translated
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007242642A
Other languages
Japanese (ja)
Other versions
JP2009075748A (en
Inventor
美和子 島津
裕美子 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2007242642A priority Critical patent/JP4298771B2/en
Publication of JP2009075748A publication Critical patent/JP2009075748A/en
Application granted granted Critical
Publication of JP4298771B2 publication Critical patent/JP4298771B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、第一言語の文章を第二言語の文章に自動的に翻訳する機械翻訳装置及びプログラムに関する。   The present invention relates to a machine translation device and a program that automatically translate a sentence in a first language into a sentence in a second language.

コンピュータを利用して第一言語(原言語)の文章を第二言語(目的言語)の文章に自動的に翻訳する機械翻訳装置においては、まず、入力原文を形態素解析及び構文解析によって、語句等の所定の翻訳単位に区分する。次に処理単位ごとに翻訳辞書を検索して適用する翻訳規則を決定し、対応する訳語句等を決定する。決定した訳語句を所定の訳文生成規則に従って結合して、入力原文に対する訳文を得るようになっている。   In a machine translation device that automatically translates sentences in the first language (source language) into sentences in the second language (target language) using a computer, the input source sentence is first analyzed by morphological analysis and syntax analysis. Is divided into predetermined translation units. Next, the translation dictionary is searched for each processing unit, a translation rule to be applied is determined, and a corresponding translated phrase is determined. The determined translation phrases are combined according to a predetermined translation generation rule to obtain a translation for the input original sentence.

文書末尾に添えられる参考文献の記述部分などのようにある一定の書式に則って配列された語句・文は、文法上の文構造を有しておらず、一般の文とは異なった構造をしており、要素によって適切な翻訳方法が異なる。そのため、参考文献の記述部分を1行ずつ取り出して、すべての要素に対して、一律に機械翻訳を行う方法では目的言語での参考文献の記述の体裁をなさず、翻訳精度の悪化を招いていた。例えば、「橋本治(2005)『ちゃんと話すための敬語の本』筑摩書房」は”Osamu Hashimoto (2005) "book of honorific for talking perfectly" Chikuma Shobo”となる。   Words / sentences arranged according to a certain format, such as the description part of a reference attached to the end of the document, do not have a grammatical sentence structure and have a structure different from that of ordinary sentences. The appropriate translation method varies depending on the element. For this reason, the method of extracting the description part of the reference line by line and performing machine translation on all elements uniformly does not form the description of the reference form in the target language, resulting in deterioration of translation accuracy. It was. For example, “Osamu Hashimoto (2005)“ book of honorific for talking perfectly ”Chikuma Shobo” becomes “Osamu Hashimoto (2005)“ book of honorific for talking perfectly ”.

このような場合、参考文献の記述部分を検出して翻訳を行わず、原文のまま表示するといったものがある(例えば、特許文献1参照)。原文のまま表示するのは、第一言語が英語であるときに通用することであり、第一言語がアルファベット文字を使わない言語の場合は翻訳しなければならないことが多く、目的を果たさない。少なくとも、日英翻訳においてはそうである。The Chicago Manual of Style (14th edition, p. 541)にも以下のように説明されている。”The titles in languages other than English are treated the same as English. When it is desirable to provide readers with translation of a title, the translation follows the title and is enclosed in parenthesis (sometimes in square brackets.)”かといって、単純に翻訳すればいいというものでもない。例えば、参考文献の記述部分を構成する要素の一つである書名は読者が原典にあたることができるように原則として意訳のみにしないのが一般的といわれている。   In such a case, there is a method in which a description part of a reference document is detected and translated, and the original text is displayed (for example, see Patent Document 1). The original text is displayed when the first language is English, and if the first language is a language that does not use alphabetic characters, it often has to be translated and does not serve the purpose. At least in Japanese-English translation. The Chicago Manual of Style (14th edition, p. 541) explains as follows. `` The titles in languages other than English are treated the same as English.When it is desirable to provide readers with translation of a title, the translation follows the title and is enclosed in parenthesis (sometimes in square brackets.) It's not just a simple translation. For example, it is generally said that book titles, which are one of the elements that make up the description part of a bibliography, are generally not translated into meanings so that readers can refer to the source.

一方、通常モードの機械翻訳では、文の翻訳を前提とした句読点の用いられ方をキーに構文解析を行うので、参考文献の記述部分にこれを適用すると、語の出力順序までも崩れることがある。そこで、参考文献の項目として要求される著者名、書名、出版社、出版年/発行年、ページ、出版地といった要素を人手で分類し、この分類項目に基づき、意味による訳か音訳(ローマ字変換)、またはそれらの併用を使い分けている。機械翻訳の訳として、日本語の読みをローマ字変換して、その翻訳として提示するものがある(例えば、特許文献2、特許文献3参照)。これらはいずれも固有名詞に限定している。
特許第3394856号公報 特開平7−121542号公報 特開2000−163421号公報
On the other hand, in normal mode machine translation, syntax analysis is performed based on the use of punctuation marks premised on sentence translation, so if this is applied to the description part of a reference, the output order of words may be broken. is there. Therefore, the elements such as author name, book title, publisher, publication / publishing year, page, and place of publication, which are required as items in the bibliography, are manually classified, and based on this classification item, translation or transliteration by meaning (Roman conversion) ), Or a combination of both. As a translation of machine translation, there is one that converts Japanese readings into Romaji and presents them as translations (see, for example, Patent Document 2 and Patent Document 3). These are all limited to proper nouns.
Japanese Patent No. 3394856 JP-A-7-121542 JP 2000-163421 A

しかし、書名の場合には、固有名詞はもちろん、句、文など制限がない。この場合、どのようにしてローマ字変換後の文字列を適切に分かち書きするかの観点が入っていない。また、固有名詞であれば、一律に語頭を大文字化すればよいが、書名をローマ字変換し、分かち書きした後、どこを大文字化し、どこを小文字のままとするかという点が考慮されていなかった。また、第一言語の参考文献の記述部分を正しく目的言語の書式に置き換えることができたとして、それにさらに原典の翻訳本が刊行されている場合、その書誌情報も提示できれば第一言語の知識をまったく有しない読者にとって有益である。   However, in the case of book titles, there are no restrictions such as phrases and sentences as well as proper nouns. In this case, there is no point of how to appropriately write the character string after Romaji conversion. In addition, if it is a proper noun, it is only necessary to capitalize the beginning of the word uniformly, but after converting the book name into Roman letters and dividing it, there was no consideration of where to capitalize and where to keep it lowercase. . Also, assuming that the description part of the bibliography of the first language can be correctly replaced with the format of the target language, and if a translated book of the original source has been published, knowledge of the first language can be obtained if bibliographic information can also be presented. Useful for readers who have nothing at all.

さらに、別の問題として第一言語の参考文献の書式と、第二言語の参考文献の書式は一対一対応していない。これを前提にしていない機械翻訳では、例えば、日本語を英語に翻訳する場合、句読点など、それぞれの要素の区切りを示す各種記号は対応する英語記号(例えば、二重括弧はダブルクオテーション、中点はカンマ)に置き換えているのみである。加えて、同じ日本語であっても参考文献の書き方は学問分野ごとに書式が規定されており、統一見解はない。英語についても同様である。   Further, as another problem, the format of the reference document in the first language does not correspond to the format of the reference document in the second language. In machine translation that does not assume this, for example, when translating Japanese into English, various symbols indicating the delimiter of each element such as punctuation marks are the corresponding English symbols (for example, double quotation marks, double quotation marks, The point is simply replaced with a comma). In addition, even if the Japanese language is the same, there is no unified view of how to write a bibliography. The same applies to English.

英語では、どの書式であれ書名や雑誌名は原則としてイタリック体にするのが一般的とされている。従来の機械翻訳では大文字小文字の使い分けはされていたが、イタリック体や太字などは原文がイタリック体や太字でない限り、訳文をイタリック体や太字の書式に変換するものはないと思われる。そのため、人手で書名、雑誌名をイタリック体に変換する必要があった。従って、参考文献の記述の件数が多い場合は労力を要し、かつ書名の範囲を誤るおそれもあった。   In English, it is common for book titles and journal names to be in italics in principle. In conventional machine translation, uppercase and lowercase letters were used properly, but it appears that there is nothing to convert the translated text to italic or bold format unless the original is italic or bold. Therefore, it was necessary to manually convert the titles of books and magazines to italics. Therefore, if the number of references described is large, labor is required and the range of titles may be wrong.

このように、従来は、参考文献の記述部分の翻訳については翻訳対象外とされるか、または著者名、書名、出版社名、出版年/発行年といった要素を考慮せず、一律に翻訳していたために、機械翻訳では高精度な翻訳結果が得られないという問題があった。これに加え、第二言語の文書に必要な調整がされていなかったために、第二言語の参考文献の要件を満たさず、最悪の場合は、翻訳結果を見ただけではどの部分が著者名に相当し、どの部分が書名に相当するかといった判別がといった判別が困難になるという問題があった。   Thus, conventionally, translation of the description part of a reference is not subject to translation, or it is uniformly translated without considering factors such as author name, book title, publisher name, and publication year / issue year. Therefore, there is a problem that machine translation cannot obtain a highly accurate translation result. In addition, the necessary adjustments were not made to the second language document, so it did not meet the requirements of the second language bibliography. There is a problem that it is difficult to determine which part corresponds to a book title.

本発明の目的は、参考文献の記述部分を構成する要素に対してそれぞれにふさわしい翻訳を行うとともに、訳文を構成する上でも第二言語の規定する書式に変換して出力することができる機械翻訳装置及びプログラムを提供することである。   The object of the present invention is to perform translation suitable for each of the elements constituting the description part of the reference document, and to convert the translated sentence into a format prescribed by the second language and to output the machine translation It is to provide an apparatus and a program.

本発明の機械翻訳装置は、機械翻訳プログラム、翻訳に必要な知識・規則を蓄積した翻訳辞書部、参考文献の記述部分であることを識別するための品詞や括弧・句読点の用いられ方を記した知識データを格納した参考文献識別データベース、参考文献の記述部分の前後の記号類や位置関係を参照して参考文献の記述部分を構成する要素がどのカテゴリに属するかを決定するための知識データを格納した参考文献書式知識ベースを記憶した記憶装置と、翻訳対象の第一言語の原文を入力するとともに操作に必要な情報を入力する入力装置と、翻訳対象の第一言語の原文や翻訳後の第二言語の訳文を表示する表示装置と、前記機械翻訳プログラムを演算実行するCPUとを備えた機械翻訳装置において、前記参考文献識別データベースに格納された参考文献の記述部分であることを識別するための品詞や括弧・句読点の用いられ方を記した知識データを用いて、前記入力装置から入力された原文のデータから参考文献の記述部分を検出する参考文献検出部と、前記参考文献検出部で検出された参考文献の記述部分の文字列とその文字列を区分けするセパレータとに分割する参考文献解析部と、前記参考文献書式知識ベースに格納された参考文献の記述部分の前後の記号類や位置関係を参照して参考文献の記述部分を構成する要素がどのカテゴリに属するかを決定するための知識データを用いて、前記参考文献解析部で得られた文字列に対して参考文献の記述部分を構成する要素のカテゴリを決定し前記文字列にカテゴリを付与するカテゴリ決定部と、前記翻訳対象の原文の参考文献の記述部分については前記カテゴリ決定部で付与されたカテゴリに基づいて参考文献の記述部分の文字列を前記翻訳辞書部を用いて翻訳する翻訳部とを備えたことを特徴とする。 The machine translation apparatus according to the present invention describes how to use a machine translation program, a translation dictionary that stores knowledge and rules necessary for translation, and parts of speech, parentheses, and punctuation marks for identifying a reference part. Reference data database that stores selected knowledge data, knowledge data for determining which category the elements constituting the reference part of the reference belong to by referring to the symbols and positional relationships before and after the reference part of the reference A storage device that stores a reference form knowledge base that stores information, an input device that inputs a source language in a first language to be translated and information necessary for operation, and a source language in a first language to be translated and a post-translation a display device for displaying a translated sentence of the second language, the machine translation apparatus and a CPU for execution of the machine translation program, stored in the reference identification database With knowledge data that describes how used a part of speech and parentheses, punctuation for identifying that a written portion of the reference, detects the description portion references the textual data input from said input device Stored in the bibliography detector , the bibliography analyzer that divides the character string of the description part of the bibliography detected by the bibliography detector and the separator that divides the character string, and the bibliography format knowledge base The reference analysis unit uses the knowledge data for determining which category the elements constituting the reference part of the reference belong to by referring to the symbols and positional relationships before and after the reference part of the reference. A category determination unit for determining a category of an element constituting a description part of a reference for the obtained character string and assigning the category to the character string, and description of the reference document of the original text to be translated The part is characterized in that a translation unit for translating using said translation dictionary unit strings description part references based on the category that has been granted by the category determining unit.

本発明によれば、参考文献の記述部分を構成する要素に対してそれぞれにふさわしい翻訳を行うとともに、訳文を構成する上でも第二言語の規定する書式に変換して出力することができる。   According to the present invention, the elements composing the description part of the reference can be translated appropriately, and can be converted into a format prescribed by the second language and output in constructing the translation.

図1は、本発明の実施の形態に係わる機械翻訳装置の構成図である。機械翻訳装置11は、第一言語を第二言語に翻訳して出力するものであり、例えば一般的なコンピュータに機械翻訳プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムがCPU12において実行されることにより実現される。機械翻訳装置11は、CPU12、ROM(Read Only Memory)13及びRAM(Random Access Memory)14がバス15を介して接続されている。バス15には、入力装置16、表示装置17及び記憶装置19が接続されている。   FIG. 1 is a configuration diagram of a machine translation apparatus according to an embodiment of the present invention. The machine translation apparatus 11 translates and outputs a first language into a second language. For example, a software program such as a machine translation program is installed in a general computer, and the software program is executed by the CPU 12. It is realized by. In the machine translation apparatus 11, a CPU 12, a ROM (Read Only Memory) 13, and a RAM (Random Access Memory) 14 are connected via a bus 15. An input device 16, a display device 17, and a storage device 19 are connected to the bus 15.

記憶装置19には、機械翻訳プログラム20が記憶されるとともに、翻訳辞書部21、参考文献識別データベース22、参考文献データ格納部23、参考文献書式知識ベース24、対話画面記憶部30が記憶される。   The storage device 19 stores a machine translation program 20, and also stores a translation dictionary unit 21, a reference document identification database 22, a reference document data storage unit 23, a reference document format knowledge base 24, and an interactive screen storage unit 30. .

機械翻訳プログラム20は、制御部25、翻訳部26、参考文献検出部27、参考文献解析部28、カテゴリ決定部29を有している。翻訳辞書部21には、活用変化辞書21a、解析文法辞書21b、単語・熟語辞書21c、変換文法辞書21d、生成文法辞書21e、形態素生成成文法辞書21f、読み辞書21g、ローマ字変換表21h、参考文献書式変換規則21i、分かち書き規則21jなどが格納されている。   The machine translation program 20 includes a control unit 25, a translation unit 26, a reference document detection unit 27, a reference document analysis unit 28, and a category determination unit 29. The translation dictionary unit 21 includes a utilization change dictionary 21a, an analysis grammar dictionary 21b, a word / idiom dictionary 21c, a conversion grammar dictionary 21d, a generation grammar dictionary 21e, a morpheme generation synthesis grammar dictionary 21f, a reading dictionary 21g, a romaji conversion table 21h, and a reference document. The format conversion rule 21i, the division writing rule 21j, and the like are stored.

CPU12は、入力装置16からの入力信号に基づいてROM13から機械翻訳装置11を起動するためのブートプログラムを読み出して実行し、さらに記憶装置19に記憶された図示省略のオペレーティングシステムを読み出す。CPU12は、入力装置16の入力信号に基づいて、各装置の制御を行い、記憶装置19などに記憶された機械翻訳プログラム20及び翻訳辞書部21のデータを読み出してRAM14にロードするとともに、RAM14から読み出されたプログラムのコマンドに基づいて、後述の処理を実現する。   The CPU 12 reads out and executes a boot program for starting the machine translation device 11 from the ROM 13 based on an input signal from the input device 16, and further reads an operating system (not shown) stored in the storage device 19. The CPU 12 controls each device based on the input signal of the input device 16, reads out the data of the machine translation program 20 and the translation dictionary unit 21 stored in the storage device 19 and the like and loads the data into the RAM 14. Based on the read program command, the following processing is realized.

入力装置16は、第一言語の翻訳対象原文の文字データやファイルデータ等のデータやコマンドを入力する入力手段であり、通常、キーボードやマウス・タッチパネルなどのポインティングデバイス、音声認識や文字認識機能、あるいは、CDドライブなどの外部記憶媒体読取装置、ネットワーク入力装置などによって実現される。すなわち、入力装置16は、制御部25に対して翻訳対象となる文の入力、翻訳指示や辞書登録指示などの各種コマンドの入力を行うものである。また、翻訳対象文の入力には、OCR、フレキシブルディスク、磁気テープ、磁気ディスク、インターネットからの読み込み、あるいはマイクで発話文を取りこんでディクテーション装置によって自然言語の文字列に変換したものの読み込みなどの入力も含まれる。マイクによる音声入力は各種コマンドの入力にも用いることができる。   The input device 16 is an input means for inputting data and commands such as character data and file data of the original text to be translated in the first language. Usually, the input device 16 is a pointing device such as a keyboard or a mouse / touch panel, a voice recognition or character recognition function, Alternatively, it is realized by an external storage medium reading device such as a CD drive, a network input device, or the like. That is, the input device 16 inputs a command to be translated, such as a sentence to be translated, and various commands such as a translation instruction and a dictionary registration instruction. In addition, for input of translation target sentence, input such as reading from OCR, flexible disk, magnetic tape, magnetic disk, the Internet, or reading the sentence sentence taken with a microphone and converted into a natural language character string by a dictation device, etc. Is also included. Voice input using a microphone can also be used to input various commands.

表示装置17は、入力装置16から入力されたデータや翻訳結果の出力手段であり、画面や翻訳結果等をCRTや液晶ディスプレイなどの表示装置に表示する場合、翻訳結果等をファイルに保存する場合などがある。すなわち、表示装置17は、翻訳部26の出力である翻訳結果を出力したり、入力文に対する翻訳用例を用例辞書部22から検索して表示させる指示命令など、制御部25への各種命令に対する制御部25からの応答を表示出力したりする。表示装置17としては各種ディスプレイなどの表示手段が通常であるが、翻訳結果の出力には、印刷機などの印字手段、あるいは直接フレキシブルディスク、磁気テープ、磁気ディスクへ出力する手段や他のメディアへ送信する送信手段でもよい。また、スピーカーへの音声出力でもよい。   The display device 17 is a means for outputting data input from the input device 16 and translation results. When displaying the screen, translation results, etc. on a display device such as a CRT or a liquid crystal display, the translation results, etc. are stored in a file. and so on. That is, the display device 17 controls various commands to the control unit 25, such as an instruction command that outputs a translation result that is an output of the translation unit 26 or searches and displays a translation example for the input sentence from the example dictionary unit 22. The response from the unit 25 is displayed and output. The display device 17 is usually a display means such as various displays, but the output of the translation result is to a printing means such as a printing machine, a means for directly outputting to a flexible disk, magnetic tape, magnetic disk or other media. Transmission means for transmitting may be used. Moreover, the audio | voice output to a speaker may be sufficient.

機械翻訳プログラム20の制御部25は、機械翻訳装置11の全体の制御を司るものであり、機械翻訳プログラム20全体の制御や入力装置16及び表示装置17とのデータの転送を行うものである。   The control unit 25 of the machine translation program 20 controls the entire machine translation apparatus 11 and controls the entire machine translation program 20 and transfers data to and from the input device 16 and the display device 17.

翻訳部26は、制御部25からの指示に従って、翻訳辞書部21を用いて入力装置16によって入力された翻訳対象原文に対する翻訳処理を行い、翻訳結果を制御部25へ出力する。参考文献検出部27は翻訳対象の原文から参考文献の記述部分を検出するものであり、参考文献解析部28は、参考文献検出部27で検出された参考文献の記述部分の文字列とその文字列を区分けするためのセパレータとに分割するものであり、カテゴリ決定部29は参考文献解析部28で得られた文字列に対して、参考文献の記述部分を構成する要素の著者名、書名、出版社名といったカテゴリを決定し、文字列にカテゴリを付与するものである。   The translation unit 26 performs a translation process on the translation target original text input by the input device 16 using the translation dictionary unit 21 according to an instruction from the control unit 25, and outputs the translation result to the control unit 25. The reference detection unit 27 detects the description part of the reference from the original text to be translated, and the reference analysis unit 28 detects the character string of the description part of the reference detected by the reference detection unit 27 and its character. The category determination unit 29 divides the column into separators for dividing the column, and the authors, titles, and the like of the elements constituting the description part of the reference for the character string obtained by the reference analysis unit 28. A category such as a publisher name is determined, and the category is assigned to the character string.

翻訳部26は、翻訳対象原文から参考文献検出部27で検出された参考文献の記述部分について、カテゴリ決定部29で付与されたカテゴリに基づいて参考文献の記述部分の要素の文字列も翻訳する。   The translation unit 26 also translates the character string of the element of the description part of the reference based on the category assigned by the category determination unit 29 for the description part of the reference detected by the reference detection unit 27 from the original text to be translated. .

翻訳辞書部21には、第一言語から第二言語への翻訳を行うための辞書であり、翻訳部26が翻訳処理を行う際に使用する各種辞書データが格納されている。翻訳辞書部21の活用変化辞書21aは語尾等に変化のある単語・熟語をその原形に変換する辞書、解析文法辞書21bは第一言語を解析するための文法を記憶した辞書、単語・熟語辞書21cは第一言語の単語・熟語に対応する第二言語の訳語がその品詞情報と共に記憶された辞書、変換文法辞書21dは第一言語の文法から第二言語の文法に変換するための変換情報が記憶された辞書、生成文法辞書21eは文の構造を決定する辞書、さらに形態素生成文法辞書21fは語尾等の語形を変化させて翻訳文を完成させる辞書、読み辞書21gは第一言語の見出しの読み方が記憶された読み辞書、ローマ字変換表21hは仮名文字ごとにそれに相当する読みを有するローマ字つづりが対応づけられ記憶されている変換表、参考文献書式変換規則21iは各カテゴリに適切な翻訳方法を明示した規則、分かち書き規則21jは分かち書きの規則である。
The translation dictionary unit 21 is a dictionary for performing translation from the first language into the second language, and stores various dictionary data used when the translation unit 26 performs translation processing. Utilization change dictionary 21a of translation dictionary unit 21 is a dictionary that converts words / idioms whose endings are changed to their original form, and analysis grammar dictionary 21b is a dictionary that stores grammar for analyzing the first language, word / idiom dictionary 21c is a dictionary in which translated words in the second language corresponding to the first language words and idioms are stored together with the part of speech information, and a conversion grammar dictionary 21d is conversion information for converting from the first language grammar to the second language grammar. The generation grammar dictionary 21e is a dictionary that determines sentence structure, the morpheme generation grammar dictionary 21f is a dictionary that completes translated sentences by changing word forms such as endings, and the reading dictionary 21g is a first language heading. dictionary readings reading of stored, conversion table Romanized are stored in correspondence romaji conversion table 21h is having a reading corresponding thereto for each kana character, reference format conversion Law 21i rules that clearly the appropriate translation method in each category, leaving a space between words rules 21j is a rule of leaving a space between words.

参考文献識別データベース22には、参考文献検出部27が参考文献の記述部分であることを識別するためのデータが格納されている。参考文献データ格納部23には、参考文献解析部28によって割り当てられた要素とそのカテゴリとが組にして記憶される。参考文献書式知識ベース24には、参考文献記述部分の前後の記号類や位置関係を参照して、参考文献の記述部分を構成する要素(著者名、書名、出版社、出版年/発行年、ページ、出版地といった要素)が、どのカテゴリに属するかを決定するためデータが記憶されている。   The reference document identification database 22 stores data for identifying the reference document detection unit 27 as a description part of a reference document. In the reference data storage unit 23, elements assigned by the reference analysis unit 28 and their categories are stored in pairs. The reference format knowledge base 24 refers to the symbols and positional relationships before and after the reference description part, and the elements constituting the description part of the reference (author name, title, publisher, publication year / issue year, Data is stored to determine which category the element (page, publication place, etc.) belongs to.

以下の説明では、第一言語は日本語であり第二言語は英語である場合について説明する。まず、参考文献の形式をもった箇所は、典型的には括弧類や句読点、各種記号の使用状況によって検出することができる。例えば、社会科学や人文科学における日本語の参考文献の場合、通常、行末が句読点なしになっている、二重括弧または一重括弧が用いられているといったことが挙げられる。なお、これは簡単化のために参考文献またはそれ相当の見出しがある行の次の入力行からが参考文献の中身とみなしてもよい。   In the following description, a case where the first language is Japanese and the second language is English will be described. First, a location having a reference format can be detected typically by the use status of parentheses, punctuation marks, and various symbols. For example, in the case of Japanese bibliography in social sciences and humanities, there are usually no punctuation at the end of the line, double parenthesis or single parenthesis is used. For the sake of simplicity, this may be regarded as the contents of the reference from the input line next to the line with the reference or equivalent heading.

参考文献検出部27は、こういった特徴のある箇所を検出した場合には、翻訳対象の文書のうち、検出箇所を参考文献解析部28に送信する。参考文献解析部28は、当該内部構造を解析して、カテゴリ決定部29では当該内部構造内の要素にカテゴリを参考文献書式知識ベース24を用いて割り当てる。参考文献データ格納部23は、カテゴリ決定部29によって割り当てられた要素とそのカテゴリを組にして記憶する。記憶された情報は然るべき時期、例えば当該「参考文献」の翻訳が終了したときなどに消去される。   If the reference detecting unit 27 detects such a characteristic part, the reference detecting part 27 transmits the detected part of the document to be translated to the reference analyzing part 28. The reference analysis unit 28 analyzes the internal structure, and the category determination unit 29 assigns categories to elements in the internal structure using the reference format knowledge base 24. The reference data storage unit 23 stores the element assigned by the category determination unit 29 and its category as a set. The stored information is deleted at an appropriate time, for example, when the translation of the “reference document” is completed.

対話画面記憶部30にはユーザが入力装置16及び表示装置17を介して機械翻訳システムと対話するための対話画面が予め記憶されている。   The dialog screen storage unit 30 stores in advance a dialog screen for the user to interact with the machine translation system via the input device 16 and the display device 17.

図2は翻訳対象原文の参考文献記述部分の一例の説明図、図3は本発明の実施の形態に係わる機械翻訳装置の処理動作を示すフローチャートである。翻訳対象原文として、図2に示す参考文献記述部分を有した文書が入力装置16に入力されたとすると、入力装置16はその原文データを制御部25に送信する。制御部25では入力された原文が通常の文のみよりなる文書か、「参考文献」の箇所を含む文書かどうかを判定する(S1)。   FIG. 2 is an explanatory diagram of an example of a reference document description portion of the original text to be translated, and FIG. 3 is a flowchart showing the processing operation of the machine translation apparatus according to the embodiment of the present invention. Assuming that a document having the reference document description portion shown in FIG. 2 is input to the input device 16 as the original text to be translated, the input device 16 transmits the original text data to the control unit 25. The control unit 25 determines whether the input original sentence is a document composed only of a normal sentence or a document including a portion of “reference document” (S1).

「参考文献」の箇所を含むか否かは、主として、文字列を区分けするセパレータである括弧類、カンマの使用具合や品詞の出現度合いから判定する。つまり、参考文献検出部27は、参考文献識別データベース22に格納された参考文献の記述部分であることを識別するためのデータに基づいて参考文献か否かを判断する。すなわち、参考文献識別データベース22には、参考文献に特徴的な品詞や括弧、句読点の用いられ方を記した知識が格納されており、参考文献検出部27は、この知識に照らし合わせて参考文献か否かを判断する。   Whether or not the location of “reference document” is included is determined mainly from the use of parentheses, which are separators for separating character strings, the usage of commas, and the degree of appearance of parts of speech. That is, the reference document detection unit 27 determines whether or not the document is a reference document based on the data for identifying the description part of the reference document stored in the reference document identification database 22. That is, the reference identification database 22 stores knowledge describing how to use characteristic parts of speech, parentheses, and punctuation marks in the reference, and the reference detection unit 27 checks the reference according to this knowledge. Determine whether or not.

図2の一例の場合は、第3行目以降において行末が句点になっていない点、行中に括弧、読点の使用が多い点、行末までいかずに改行されている点において、通常の文とは異なった形式をしている。また、括弧の内側の要素でない限り、助詞が用いられていない点、また、動詞が全く用いられていない点でも通常と異なることが分かる。そこで、このような知識が格納されている参考文献識別データベース22に照らし合わせ、参考文献検出部27は、第3行目以降を参考文献の記述部分と判断する。   In the case of the example in FIG. 2, the normal sentence in the point that the end of the line is not a punctuation in the third line and after, the point that parentheses are often used in the line, and the line is broken without going to the end of the line. It has a different form. In addition, unless the element is inside the parentheses, it is understood that the particle is not used and the verb is not used at all. Accordingly, the reference document detection unit 27 determines that the third and subsequent lines are the description part of the reference document in light of the reference document identification database 22 in which such knowledge is stored.

参考文献の記述部分を有していると判断されたときは、さらに、参考文献検出部27は翻訳対象原文は通常の文の形式をもった部分を含むかどうかを判断する(S2)。すなわち、参考文献の書式に該当しない通常文の形式があるかどうかを文法や品詞等には着目せずに文書全体の文字の使用状況のみに着目して判定する(S2)。   When it is determined that the reference portion has a description part, the reference detection unit 27 further determines whether or not the original text to be translated includes a part having a normal sentence format (S2). That is, it is determined whether or not there is a normal sentence format that does not correspond to the format of the reference document, noting the grammar, the part of speech, etc., but focusing only on the character usage status of the entire document (S2).

図2の一例では、第3行目から第5行目は参考文献相当、第1行目は通常の文、第2行目は空行ということがわかる(S2:YES)。そこで、参考文献検出部27は、通常の文にあたる部分と「参考文献」の部分(第3行目1文字目から始まる「国領」から第5行目の最後の文字列「(2006)」まで)に分割する(S3)。そして、制御部25は翻訳処理を開始する際に、翻訳対象原文の文字列データが通常の文か否かを判定し(S4)、通常の文であるとき(S4:YES)、例えば、図2の一例の第1行目や第2行目は、そのまま翻訳部26に送る。これにより、翻訳部26は図2の一例の第1行目や第2行目について通常の翻訳を行う(S5)。   In the example of FIG. 2, it can be seen that the third to fifth lines correspond to references, the first line is a normal sentence, and the second line is a blank line (S2: YES). Therefore, the reference detection unit 27 includes a part corresponding to a normal sentence and a part of “references” (from “country” starting from the first character on the third line to the last character string “(2006)” on the fifth line. (S3). Then, when starting the translation process, the control unit 25 determines whether or not the character string data of the original text to be translated is a normal sentence (S4), and when it is a normal sentence (S4: YES), for example, FIG. The first line and the second line of an example of 2 are sent to the translation unit 26 as they are. Thereby, the translation part 26 performs normal translation about the 1st line and 2nd line of an example of FIG. 2 (S5).

一方、通常の文でなく参考文献の記述部分であると判定したときは(S4:NO)、制御部25はそのデータを参考文献解析部28に送信する。参考文献解析部28では、送られた「参考文献」箇所のデータを文字列と括弧・記号類に分類する(S6)。この場合、図2の一例の第3行目、第4行目、第5行目は、それぞれ以下の文字列や記号等よりなっていることを検出する。
<第3行目>
文字列1
・(中点)一つ
文字列2
・(中点)一つ
文字列3
『(二重括弧開き)
文字列4
』(二重括弧閉じ)
文字列5
((丸括弧開き)
文字列6
)(丸括弧閉じ)
改行
<第4行目>
文字列1
『(二重括弧開き)
文字列2
』(二重括弧閉じ)
文字列3
((丸括弧開き)
文字列4
)(丸括弧閉じ)
改行
<第5行目>
文字列1
「(一重括弧開き)
文字列2
」(一重括弧閉じ)
『(二重括弧開き)
文字列3
』(二重括弧閉じ)
文字列4
((丸括弧開き)
文字列5
)(丸括弧閉じ)
改行
文字列部分を除くと、第3行目は・、・、『、』、(、)、改行であり、第4行目は『、』、(、)、改行であり、第5行目は「、」、『、』、(、)、改行である。そこで、参考文献解析部28はこれら3行に何らかの共通性があるか否かを判定する(S7)。これには、一般に知られている文字列一致の手法を用いる。すると、多少構成は違うが、お互いに部分的に一致していることがわかる。具体的には、いずれも「二重括弧開き、二重括弧閉じ、丸括弧開き、丸括弧閉じ、改行」の並びがあることは共通している。
On the other hand, when it is determined that it is not a normal sentence but a description part of a reference (S4: NO), the control unit 25 transmits the data to the reference analysis unit 28. The reference document analysis unit 28 classifies the sent data of the “reference document” portion into a character string and parentheses / symbols (S6). In this case, it is detected that the third line, the fourth line, and the fifth line in the example of FIG. 2 are composed of the following character strings and symbols, respectively.
<Third line>
String 1
・ (Midpoint) One character string 2
・ (Midpoint) One character string 3
"(Open double parenthesis)
String 4
] (Closed in double brackets)
String 5
((Open parenthesis)
String 6
) (Close parentheses)
Line feed <4th line>
String 1
"(Open double parenthesis)
String 2
] (Closed in double brackets)
String 3
((Open parenthesis)
String 4
) (Close parentheses)
Line feed <5th line>
String 1
"(Open single parenthesis)
String 2
"(Close single parenthesis)
"(Open double parenthesis)
String 3
] (Closed in double brackets)
String 4
((Open parenthesis)
String 5
) (Close parentheses)
Line breaks Excluding the character string part, the third line is ",", ",", (,), new line, the fourth line is ",", (,), new line, and the fifth line Are ",", ",", (,), and line feed. Therefore, the reference document analysis unit 28 determines whether or not these three lines have some commonality (S7). For this, a generally known character string matching method is used. Then, although it is a little different, it can be seen that they partially match each other. Specifically, it is common that there is a sequence of “open double parenthesis, close double parenthesis, open parenthesis, close parenthesis, line feed”.

以上の検出を終えると文字列の集合、すなわち、ここでは「国領二郎」「野中郁次郎」「片岡雅憲」「ネットワーク社会の知識経営」「NTT出版」「2003」「人工知能学会編」「人工知能学事典」「共立出版」「2003」「野中郁次郎」「知識経営の戦略」「情報処理」「47巻」「5号」「547−552頁」「2006」を参考文献解析部28は抽出し、制御部25はこれらの情報を参考文献データ格納部23に送る(S8)。なお、「人工知能学事典」「情報処理」といった文字列は、参考文献の記載部分を構成する要素である。   When the above detection is completed, a set of character strings, that is, “Jiro Kokuryo”, “Jujiro Nonaka”, “Masaka Kataoka”, “Knowledge Management in Network Society”, “NTT Publishing”, “2003”, “Artificial Intelligence Society”, “Artificial Intelligence” The bibliography analysis section 28 is based on the “Science of Intelligence”, “Kyoritsu Publishing”, “2003”, “Junjiro Nonaka”, “Strategy of Knowledge Management”, “Information Processing”, “Volume 47”, “No. 5”, “pp. 547-552”, “2006” Then, the control unit 25 sends these pieces of information to the reference data storage unit 23 (S8). Note that character strings such as “artificial intelligence encyclopedia” and “information processing” are elements constituting the description part of the reference.

参考文献データ格納部23には、参考文献解析部28で抽出されたデータが格納される。このとき、該当の行において要素が何番目の要素であるか、何行目に属するか、前後を囲む括弧は何かといった情報が分かるように格納する。   The reference data storage unit 23 stores the data extracted by the reference analysis unit 28. At this time, the information is stored so that information such as what element the element is in the corresponding line, what line the element belongs to, and what parentheses surround it are understood.

図4は参考文献データ格納部23に格納された参考文献データの格納形式の一例の説明図である。参考文献データは、例えば、図4に示すように座標形式で格納される。「国領二郎」は(3,1,,・)、「人工知能学事典」は(4, 2, 『,』)のように座標形式で格納される。「国領二郎」の座標(3,1,,・)は、3行目の第1列に「国領二郎」が位置し、セパレータ「・」で区分されることを意味する。また、「人工知能学事典」の(4, 2, 『,』)は、4行目の第2列に「人工知能学事典」が位置し、セパレータ「『,』」で区分されることを意味する。   FIG. 4 is an explanatory diagram showing an example of a storage format of the reference data stored in the reference data storage unit 23. The reference data is stored, for example, in a coordinate format as shown in FIG. "Kokuryo Jiro" is stored in the coordinate format, such as (3,1 ,, ...) and "Artificial Intelligence Dictionary" (4, 2, ","). The coordinates (3, 1,...) Of “Kokuryo Jiro” means that “Kokuryo Jiro” is located in the first column of the third row and is separated by a separator “·”. Also, (4, 2, “,”) in the “Artificial Intelligence Encyclopedia” indicates that the “Artificial Intelligence Encyclopedia” is located in the second column of the fourth row and is separated by the separator ““, ””. means.

次に、カテゴリ決定部29では、図2の第3行目から第5行目の部分の各要素を順番に取り出し、参考文献書式知識ベース24を用いて、各要素がどのカテゴリに属するかを決定する(S9)。この参考文献書式知識ベース24は前後の記号類や位置関係を参照して要素がどのカテゴリに属するかを決定するためのものである。具体的には、先頭の要素は著者とし、要素の前後が二重括弧であり、かつ同一行に一重括弧があれば雑誌名、なければ書名とし、また、前後が丸括弧で囲まれた4文字の数字は出版年/発行年である、最初の要素と中点で連結している複数の要素は共著者であるといった知識を含んでいる。   Next, the category determination unit 29 sequentially extracts each element of the portion from the third line to the fifth line in FIG. 2 and uses the reference format knowledge base 24 to determine which category each element belongs to. Determine (S9). This reference document format knowledge base 24 is for determining which category an element belongs by referring to the preceding and following symbols and positional relationships. Specifically, the first element is the author, the element is enclosed in double parentheses, and if there are single parentheses on the same line, it is the journal name, if not, the book name, and the front and back are enclosed in parentheses. The number of letters contains the knowledge that it is the year of publication / issue, and that the elements connected with the first element at the midpoint are co-authors.

「参考文献」の書式には様々なものがあり(広く知られているものとしては、科学技術情報流通技術基準や社会学評論スタイルガイドなど)、例えば、情報処理の分野では、図2に挙げた一例とは異なり、論文名、書名、雑誌名は二重括弧や一重括弧を一切使わず、コロンを使うのが一般的である。そこで、この参考文献書式知識ベース24は、どの書式にも当てはまる汎用的な知識(例えば最初の要素は著者名である)の適用順位が高く設定されており、上から順に適用していくよう、下に行くほど分野特有の知識があり、その適用順位は低くなっている。   There are various forms of “references” (generally known are the science and technology information distribution technical standards and the sociological critique style guide). For example, in the field of information processing, they are listed in FIG. Unlike the example, paper names, book titles, and journal names generally use colons instead of double or single parentheses. Therefore, in this bibliography format knowledge base 24, the general-purpose knowledge applicable to any format (for example, the first element is the author name) is set high in order of application. There is knowledge specific to the field as you go down, and the order of application is lower.

各要素は参考文献解析部28で付与された情報(「人工知能学事典」「情報処理」といった文字列が何行目に属するか、該当の行において要素が何番目の要素であるか、前後を囲む括弧は何かといった情報)とカテゴリ決定部29で判定されたカテゴリとともに制御部25により参考文献データ格納部23から翻訳部26に送られる。   Each element is information given by the reference document analysis unit 28 (what line the character string such as “artificial intelligence science encyclopedia” “information processing” belongs to, what element the element is in the corresponding line, And the category determined by the category determination unit 29 and the control unit 25 sends the information from the reference data storage unit 23 to the translation unit 26.

また、カテゴリ決定手段29は、参考文献の記述部の各要素に対して、図2の一例の場合、参考文献書式知識ベース24を用いて、「国領二郎」「野中郁次郎」「片岡雅憲」「人工知能学会編」「野中郁次郎」は著者名、「ネットワーク社会の知識経営」「人工知能学事典」は書名、「知識経営の戦略」は論文名、「情報処理」は雑誌名、「2006」「2003」「2003」は出版年/発行年であるとカテゴリを判定する。   Further, the category determination means 29 uses the reference format knowledge base 24 for each element of the description part of the reference document, using the reference format knowledge base 24, “Jiro Kokuryo” “Yujiro Nonaka” “Masaka Kataoka” "The Society of Artificial Intelligence" "Yujiro Nonaka" is the author name, "Knowledge Management in the Network Society" "Artificial Intelligence Encyclopedia" is the title of the book, "Strategy of Knowledge Management" is the title of the paper, "Information Processing" is the name of the magazine, " “2006”, “2003”, and “2003” determine the category as publication year / issue year.

なお、カテゴリ決定部29でカテゴリが判別できなかったもの、図2の一例では、「47巻」「5号」「547-552頁」はカテゴリ判定不能として、制御部25は「参考文献」の一部であったことを参考文献データ格納部23に記憶させてそのまま翻訳部26に送る。   In the example in which the category determination unit 29 cannot determine the category, in the example of FIG. 2, “Volume 47”, “No. 5”, “pages 547-552” cannot be determined as a category, and the control unit 25 determines “references”. The fact that it was a part is stored in the reference data storage unit 23 and sent to the translation unit 26 as it is.

翻訳部26では、制御部25から送られた原文に対して、翻訳辞書部21に格納されている知識(活用変化辞書21a、解析文法辞書21b、単語・熟語辞書21c、変換文法辞書21d、生成文法辞書21e、形態素生成文法辞書21f、読み辞書21g、ローマ字変換表21h、参考文献書式変換規則21i、分かち書き規則21j、及び参考文献データ格納部23に格納された位置関係の情報を利用し、目的言語への翻訳処理を行う(S5)。そして、翻訳結果は所定の書式で出力装置17に出力される(S10)。   In the translation unit 26, the knowledge (utilization change dictionary 21 a, analysis grammar dictionary 21 b, word / idiom dictionary 21 c, conversion grammar dictionary 21 d, generation) stored in the translation dictionary unit 21 is generated for the original text sent from the control unit 25. Using the grammar dictionary 21e, the morpheme generation grammar dictionary 21f, the reading dictionary 21g, the Romaji conversion table 21h, the reference format conversion rule 21i, the division rule 21j, and the positional relationship information stored in the reference data storage unit 23, A language translation process is performed (S5), and the translation result is output to the output device 17 in a predetermined format (S10).

次に、翻訳部26が図2の第3行目の第4番目の要素である「ネットワーク社会の知識経営」を翻訳する際の処理を説明する。その前提として参考文献書式変換規則21iについて説明する。参考文献書式変換規則21iは各カテゴリにふさわしい翻訳方法を明示したものである。   Next, the processing when the translation unit 26 translates “knowledge management of the network society”, which is the fourth element in the third row of FIG. 2, will be described. As a premise thereof, the reference document format conversion rule 21i will be described. The bibliographic format conversion rule 21i specifies a translation method suitable for each category.

著者名の場合は、参考文献の記述部の[著者名]の要素を「姓、カンマ、名」とし、2名以上の場合は2人目以降を「名、姓」とし、[著者名]の要素の後ろにカンマを付与する。最後の一つ前の著者のあとはカンマの後ろにandを入れ最後の著者となる。編者も著者にならうが、単独の場合は、後に”(ed.)“ “(Ed.)”といった文字列を、複数の場合は後に”(eds.)””(Eds.)”といった文字列を付与する。   In the case of an author name, the [author name] element in the description section of the bibliography should be “first name, comma, first name”. If there are two or more names, the second and subsequent names should be “first name, last name”. Add a comma after the element. After the last author, put “and” behind the comma to become the last author. The editor follows the author, but if it is alone, it will be followed by a string such as “(ed.)” “(Ed.)”. If it is more than one, it will be followed by a character such as “(eds.)” ”(Eds.)” Grant a column.

書名はローマ字変換してイタリック体にし、ローマ字変換のイタリック体の書名に続いて書名の英訳を丸括弧で囲んだものをローマ字変換のイタリック体に付加する。出版社については単語・熟語辞書21cの中に固有名詞として見出しになっていればその訳語を採用し、なっていなければ、ローマ字変換結果を使用するといった規則が蓄積されている。なお、書名の英訳は必須でないため、省略可能であるが、ここでは、ローマ字変換のイタリック体の書名と書名の英訳とを併記した英訳併記方式を選択したものとして話を進める。   The title is converted to italic by converting it into roman characters, and the English translation of the title is enclosed in parentheses following the italic name of the romaji conversion. For publishers, a rule has been accumulated in which a translated word is used as a proper noun in the word / idiom dictionary 21c, and a romaji conversion result is used otherwise. Note that the English translation of the book title is not essential and can be omitted. However, here, the description will be made assuming that the English translation and writing method in which the italicized book name and the English translation of the book title are written together is selected.

さて、今着目している「ネットワーク社会の知識経営」という要素はカテゴリ決定部29で書名というカテゴリに属するとされた。従って、書名に要求される翻訳処理はローマ字変換してイタリック体にし、それに続いて英訳を丸括弧で囲んだものを付加することになる。   Now, the element of “knowledge management in the network society” that is focused on now belongs to the category “book title” in the category determination unit 29. Therefore, the translation process required for the book title is converted to Roman italic, followed by the English translation enclosed in parentheses.

この場合のローマ字変換について、図5のフローチャートを用いて説明する。図5は翻訳部26でのローマ字変換の処理内容の一例を示すフローチャートである。まず、対象の文字列「ネットワーク社会の知識経営」に対し、形態素解析を行い形態素に分割する(S11)。この一例では「ネットワーク|社会|の|知識|経営」とに分割される。次に、この形態素に対して、分かち書き規則21jを適用する(S12)。   The Roman conversion in this case will be described with reference to the flowchart of FIG. FIG. 5 is a flowchart showing an example of processing contents of Roman character conversion in the translation unit 26. First, the target character string “knowledge management of network society” is subjected to morphological analysis and divided into morphemes (S11). In this example, it is divided into “network | society | no knowledge | management”. Next, the division rule 21j is applied to this morpheme (S12).

これには、例えば以下のような規則が含まれている。1.助動詞や補助用言は直前の動詞や形容詞と結合する。2.接頭語、接尾語は分離させない。3.複合語で長さが6拍以下のものは分離させない。4.複合語が長さ7拍以上のものはどの部分も6拍以下になるようにする。5.助詞の「へ、に、で、と」、「だ」の活用形の「で」のいずれかの後ろに助詞の「は、も、の」のいずれかが続くときはそれらを結合する。   For example, the following rules are included. 1. An auxiliary verb or adjunct is combined with the immediately preceding verb or adjective. 2. The prefix and suffix are not separated. 3. Compound words with a length of 6 beats or less are not separated. 4). If the compound word is 7 beats or longer, every part should be 6 beats or less. 5). When one of the particle "ha, no" is followed by one of the particles "ha, no,", or "de", the utilization form of "da" is combined.

これによれば、この一例は結合すべき箇所はない。しかし、仮に「考古学・人類学・言語学との対話」という書名であれば、「考古学|人類学|言語学|と|の|対話」と形態素解析され、分かち書き規則21jにより「と」と「の」とが結合し、「考古学|人類学|言語学|との|対話」と変化する。   According to this, this example has no place to be combined. However, if the title is “dialogue with archeology, anthropology, and linguistics”, the morphological analysis will be performed as “archaeology | anthropology | linguistics | and | And “no” combine to change to “archaeology | anthropology | linguistics |

次に、各々に対して読みの情報、読み辞書21g、ローマ字変換表21hを用いてローマ字変換を行う(S13)。この一例の場合は「nettowaku shakai no chishiki keiei」となる。なお、このローマ字変換において、カタカナ語が外来語と分かるときはローマ字変換でなく原語に直すようにしてもよい。この場合は「ネットワーク」がそれに相当し、これによれば全体は「network shakai no chishiki keiei」となる。   Next, Romaji conversion is performed using the reading information, the reading dictionary 21g, and the Romaji conversion table 21h (S13). In this example, “nettowaku shakai no chishiki keiei”. In this romaji conversion, when the katakana language is recognized as a foreign language, it may be changed to the original language instead of the romaji conversion. In this case, “network” corresponds to this, and according to this, the whole becomes “network shakai no chishiki keiei”.

次に、スペースで区切られた連続する自立語の先頭文字を大文字にする(S14)。例えば、「ネットワーク」「社会」「知識」「経営」はいずれも付属語を含まないため、語頭を大文字にする。一方、格助詞「の」は付属語であるので大文字の処理はしない。これにより、「Nettowaku Shakai no Chishiki Keiei」が得られる。そして、全体をイタリック体にし(S15)、「Nettowaku Shakai no Chishiki Keiei」となり書名の必須の処理は終了する。   Next, uppercase letters are used for the first letters of consecutive independent words separated by spaces (S14). For example, since “network”, “society”, “knowledge”, and “management” do not include any additional words, the initial letters are capitalized. On the other hand, the case particle “no” is an annexed word, and is not processed in upper case. As a result, “Nettowaku Shakai no Chishiki Keiei” is obtained. Then, the whole is italicized (S15), “Nettowaku Shakai no Chishiki Keiei” is obtained, and the essential processing of the book title is completed.

続いて、この書名に対して意味による訳の併記を希望するか否かを判定し(S16)、意味による訳の併記を希望する場合には(S16:YES)、書名の翻訳処理を行い、先の翻訳結果のうち内容語の語頭を大文字に直し前後を丸括弧で囲み、ローマ字変換結果の末尾に付与する(S17)。   Subsequently, it is determined whether or not the translation of the title by meaning is desired (S16). When the translation of the meaning by meaning is desired (S16: YES), the title is translated. In the previous translation result, the beginning of the content word is changed to upper case, and the front and back are enclosed in parentheses and added to the end of the Romaji conversion result (S17).

例えば、書名の翻訳として「knowledge management of network society」という翻訳結果が得られると、先の翻訳結果のうち書名を表す内容語、「knowledge」 「management」、「 network society」の語頭を大文字に直し前後を丸括弧で囲む。すると、この一例ではof以外が内容語であるので、「Knowledge Management of Network Society」となる。この大文字化のあと全体を丸括弧で囲み、これをステップS15で得られた文字列の末尾に付与する。よってこの一例ではNettowaku Shakai no Chishiki Keiei (Knowledge Management of Network Society)という文字列となり処理を終了する。   For example, if the translation result “knowledge management of network society” is obtained as a translation of the book title, the word “knowledge” “management” and “network society” in the previous translation result will be capitalized. Enclose the front and back in parentheses. Then, in this example, content words other than “of” are “Knowledge Management of Network Society”. After this capitalization, the whole is enclosed in parentheses, and this is added to the end of the character string obtained in step S15. Therefore, in this example, the character string “Nettowaku Shakai no Chishiki Keiei (Knowledge Management of Network Society)” is obtained and the processing is terminated.

この一例においては、他に書名として「人工知能学事典」、雑誌名「情報処理」があるが、これらも同様に処理する。その場合、論文名である「知識経営の戦略」はイタリック体にしない点を除き同じ処理を行う。これは、ローマ字変換のイタリック体の書名と書名の英訳とを併記した英訳併記方式を採用したためである。   In this example, there are “Artificial Intelligence Encyclopedia” and magazine name “Information Processing” as other titles, which are processed in the same manner. In that case, the same processing is performed except that the article title “Knowledge Management Strategy” is not italicized. This is due to the adoption of an English translation and writing system in which the italicized titles for Roman conversion and the English translation of the titles are written together.

次に、著者名の翻訳の説明を行う。前述した参考文献書式変換規則21iの中の著者名の処理を行う。すなわち、単著である5行目の著者名を人名として機械翻訳すると”Ikujiro Nonaka”を得る。これは「名、姓」の順序になっているため、「姓、名」のように逆転させ、カンマで区切って”Nonaka, Ikujiro”を得る。一方、「国領二郎・野中郁次郎・片岡雅憲」のように著者が複数よりなる3行目に関しては、個々に翻訳し、それぞれ、”Jiro Kokuryo””Ikujiro Nonaka”“Masanori Kataoka”を得る。これらはみな「名、姓」の順序になっている。複数著者の場合最初の著者のみ「姓、カンマ、名」とするのが一般的であるので、“Kokuryo, Jiro”となり、残りの著者をカンマとandでつなげて”Kokuryo, Jiro, Ikujiro Nonaka, and Masanori Kataoka”を得る。   Next, translation of author names will be explained. The author name in the reference document format conversion rule 21i is processed. That is, if the author's name on the 5th line, which is a single work, is machine translated as a human name, “Ikujiro Nonaka” is obtained. Since this is in the order of “first name, last name”, it is reversed like “first name, last name” and separated by commas to obtain “Nonaka, Ikujiro”. On the other hand, the third line consisting of multiple authors such as “Jiro Kokuryo, Kanjiro Nonaka, Masanori Kataoka” is individually translated to obtain “Jiro Kokuryo”, “Ikujiro Nonaka”, and “Masanori Kataoka” respectively. These are all in the order of “first name, last name”. In the case of multiple authors, it is common for only the first author to have “first name, comma, first name”, so “Kokuryo, Jiro”, and connect the remaining authors with a comma and “Kokuryo, Jiro, Ikujiro Nonaka, and Masanori Kataoka ”.

次に、カテゴリ付与では著者と分類された「人工知能学会編」であるが、この末尾が「編」であることに着目して、編者と解釈し直し、編者というカテゴリを与え、漢字「編」を除いた部分を翻訳する。この場合、”Japanese Society for Artificial Intelligence”と翻訳され、編者であることを明記する印である、“(ed.)”といった文字列を付与し、“Japanese Society for Artificial Intelligence (ed.)”を得る。   Next, category assignment is “artificial intelligence society edition” classified as an author, but paying attention to the fact that the end is “hen”, it is re-interpreted as an editor, giving the category editor, and the kanji “ Translate the part except "". In this case, it will be translated as “Japanese Society for Artificial Intelligence”, and will be given a character string such as “(ed.)”, Which is a mark clearly stating that it is an editor, and “Japanese Society for Artificial Intelligence (ed.)” obtain.

一方、出版社とカテゴリ分類された「NTT出版」や「共立出版」は単語・熟語辞書21cを主に利用して翻訳する。これらの社名の訳語がこれらの辞書に登録されていなければ、形態素解析を行った後、書名と同じ要領で分かち書きし、語頭を大文字とする。例えば、「NTT出版」が辞書に未登録であった場合、これは”NTT Shuppan”という文字列に変換される。また、出版年/発行年に対しては、図2の一例では「2003」、「2003」、「2006」であり、英語でもそのまま通用するため何も処理を行わない。ただし、「2003年」「2006年」とする方式もあり、この場合は「年」を省く必要が生じる。   On the other hand, “NTT publishing” and “Kyoritsu publishing” categorized as publishers are translated mainly using the word / idiom dictionary 21c. If the translations of these company names are not registered in these dictionaries, after morphological analysis, they are written in the same way as the titles, and the initials are capitalized. For example, if “NTT Publishing” is not registered in the dictionary, it is converted into a character string “NTT Shuppan”. In addition, with respect to the publication year / issue year, “2003”, “2003”, and “2006” in the example of FIG. 2 are used as they are in English, and no processing is performed. However, there is a method of “2003” and “2006”, and in this case, it is necessary to omit “year”.

次に、カテゴリが不定であった「47巻」「5号」「547−552頁」に対する処理について述べる。「〜巻」「〜号」「〜頁」「〜ページ」などの助数詞は「参考文献」に頻出する語である。「巻」「号」のような助数詞は文脈によって様々なものの数を表し、単独では意味が曖昧である。例えば、「号」の助数詞は雑誌など定期的に発行されるものや、順序のあるものについて、順を追って数えるのに用いられる。雑誌以外には「X町1丁目2番地3号」のように住所の一部として、また「第1条第2項第3号」のように法律・条約や契約文書の箇所を示すものとしても用いる。   Next, processing for “Volume 47”, “No. 5”, “Pages 547 to 552” whose category is indefinite will be described. Classifiers such as “˜Volume”, “No.”, “˜Page”, “˜Page”, etc. are frequently used in “References”. Classifiers such as “Volume” and “No.” represent various numbers depending on the context, and their meaning is ambiguous alone. For example, the classifier of “No.” is used to count things that are regularly issued, such as magazines, and those that are in order. Other than magazines, as part of the address, such as “X town 1-chome, 2-3 No. 3”, and as the “Article 1, Paragraph 2, Item 3,” indicating the location of the law, treaty or contract document Also used.

そこで、変換文法辞書21dの項目に、「参考文献」の文脈であることを参照した規則を予め設定しておく。図6は変換文法辞書21の変換規則の一例の説明図である。図6では、「号」の見出し語に関する変換規則を示している。変換規則は、見出し語「号」、品詞「助数詞」、規則適用条件、「変換規則」とからなり、規則適用条件の第3番目に「参考文献の要素である」場合が定められており、その「変換規則」として、「訳語をNo.またはno.にし語順を入れ替える」が定められている。このような変換文法辞書21dを持つことにより、参考文献の記述部を持つ文章の該当箇所の翻訳は「5号」が望ましい語でかつ正しい語順で”No. 5”と変換できる。   Therefore, a rule that refers to the context of the “reference document” is set in advance in the item of the conversion grammar dictionary 21d. FIG. 6 is an explanatory diagram of an example of a conversion rule of the conversion grammar dictionary 21. In FIG. 6, the conversion rule regarding the headword of "No." is shown. The conversion rule consists of the headword “No.”, the part of speech “classifier”, the rule application condition, and the “conversion rule”. The third case of the rule application condition is “the element of the reference”, As the “conversion rule”, “translate word No. or no. And change word order” is defined. By having such a conversion grammar dictionary 21d, the translation of the corresponding part of the sentence having the description part of the reference document can be converted to “No. 5” in the correct word order in which “No. 5” is a desirable word.

同様に「547-552頁」についても、図6に示した変換規則と同様に、変換文法辞書21dの「頁」の見出し語に「参考文献」の文脈であることを参照した規則適用条件や変換規則を設定しておくことにより、「頁」の訳語として”page”ではなく「参考文献」で用いられる省略形の”p.”や”pp.”と変換され、数字が後続する。この場合は、ハイフンを含み、複数ページにわたるため、”pp.”が選択される。「巻」についても「参考文献」の要素であるという条件付けで同様に訳語を決定できる。   Similarly, with respect to “pages 547 to 552”, as in the conversion rule shown in FIG. 6, the rule application condition that refers to the context of “reference document” in the heading word of “page” in the conversion grammar dictionary 21 d By setting the conversion rule, the translation of “page” is converted not to “page” but to the abbreviations “p.” And “pp.” Used in “references”, followed by a number. In this case, “pp.” Is selected because it includes a hyphen and covers a plurality of pages. The translation can also be determined in the same manner under the condition that “volume” is also an element of “reference”.

こうして「参考文献」箇所の翻訳が一通り終了すると、先に翻訳部26に送られていた同一文書内の「参考文献」箇所以外の部分の訳文との結合を記憶させておいた後続部分の情報を利用して行う。   When the translation of the “reference document” portion is completed in this way, the subsequent portion in which the combination with the translation of the portion other than the “reference document” portion in the same document previously sent to the translation unit 26 is stored is stored. Use information.

以上の説明では、図3のステップS9でのカテゴリの判定に、予め参考文献書式知識ベース24に記憶した典型的な書式の知識を用いたが、書式をユーザで定義することも可能である。これは、いくつかの代表的な書式を示して、その中から書式を選択させたり、実際に所望の書式を記述して定義する。例えば、単行本については下記の書式などがある。
・著者名『書名』出版地、出版社、出版年
・著者名.書名.出版地,出版社,出版年
・著者名 出版年 『書名』出版地: 出版社。
In the above description, the typical format knowledge stored in the reference format knowledge base 24 in advance is used for the category determination in step S9 in FIG. 3, but the format can also be defined by the user. This shows some typical formats and allows the user to select a format from among them, or to actually define and define a desired format. For example, a book has the following format.
・ Author Name “Book Name” Publication place, publisher, publication year, author name. Book title. Publication place, publisher, publication year / author name Publication year Book title Publication place: Publisher.

また、論文については下記の書式などがある。
・著者名「論文名」、『雑誌名』巻号(発行年)、ページ
・著者名 発行年 「論文名」 発行者名『雑誌名』巻号: ページ
・著者名:論文名,雑誌名,Vol.,No.,ページ,発行年。
There are also the following formats for papers.
・ Author name “Thesis name”, “Journal name” Volume (issue year), Page ・ Author name Publication year “Paper name” Publisher name “Journal name” Volume: Page ・ Author name: Paper name, Journal name, Vol., No., page, year of publication.

これらの書式を具体的に示し、これらを画面に表示させて選択させ、選択肢に候補がなければユーザ定義とする。また、翻訳処理の間に新たにカテゴリが判明した要素やカテゴリの解釈変更を行った要素については、参考文献データ格納部23を更新させるようにしてもよい。   These formats are specifically shown and displayed on the screen to be selected. If there are no candidates in the options, the user definition is used. In addition, the reference data storage unit 23 may be updated for an element whose category is newly found during translation processing or an element whose interpretation of the category is changed.

また、以上の説明では、日本語が原言語で、英語が目的言語である場合について説明したが、日本語が原言語で、中国語が目的言語の場合もローマ字変換をピンイン変換と読みかえれば同様の手法を用いることができる。   In the above explanation, the case where Japanese is the original language and English is the target language has been described. However, if Japanese is the source language and Chinese is the target language, the Romaji conversion can be read as Pinyin conversion. Similar techniques can be used.

また、以上の説明では、参考文献の記述部分の要素について、第一言語の書誌情報の提示順序を保持したまま第二言語に翻訳するものとしていたが、第二言語で要求する書式の提示順序に翻訳することも可能である。例えば、英語において参考文献の記述の代表的な書式として、APA (American Psychological Association) 書式、CBE (Council of Biology Editors) 書式、MLA (Modern Language Association) 書式がある。例えば、MLA方式とAPA方式について、提示順序をみると、MLAでは書籍の場合は1.著者名、2.書名、3.出版地、4.出版社、5.出版年の順、論文に関しては1.著者名、2.論文名、3.雑誌名、4.号数、5.発行年、6. ページの順序をとる。   In the above description, the element of the description part of the reference document is translated into the second language while maintaining the presentation order of the bibliographic information in the first language. It is also possible to translate into For example, in English, there are APA (American Psychological Association) format, CBE (Council of Biology Editors) format, and MLA (Modern Language Association) format as typical formats for describing references in English. For example, regarding the order of presentation for the MLA and APA methods, in the case of books in MLA: 1. author name, 2. book title, 3. place of publication, 4. publisher, 5. order of publication year, papers 1. Author name, 2. Paper title, 3. Journal name, 4. Number of issues, 5. Publication year, 6. Page order.

一方、APA方式では書籍の場合、1.著者名、2.出版年、3.書名、4.出版地、5.出版社の順、論文に関しては1.著者名、2.発行年、3.論文名、4.雑誌名、5.号数、6. ページの順序をとる。このように出版年/発行年の扱いについて、先頭近辺に置くか、末尾近辺に置くかの大きな違いがあることが分かる。   On the other hand, in the case of books in the APA format, 1. author name, 2. publication year, 3. book title, 4. place of publication, 5. order of publishing company, and for papers, 1. author name, 2. publication year, 3. Take the order of the article title, 4. journal name, 5. issue number, 6. page. In this way, it can be seen that there is a big difference in the handling of the publication year / issue year whether it is placed near the beginning or near the end.

図7は第二言語で要求する書式の提示順序に参考文献の記述部分を出力する処理内容のフローチャートである。翻訳部26は、前提として図3のステップS1〜S9の翻訳処理を行っておく。このため、「参考文献」の各要素には原則としてカテゴリが付与されている状態である。そこで、要素、カテゴリ、訳語の三つを組にしておく(S21)。この一例での要素、カテゴリ、訳語の組を表1に示す。

Figure 0004298771
FIG. 7 is a flowchart of processing contents for outputting the description part of the reference document in the order of presentation of the format requested in the second language. The translation unit 26 performs the translation processing of steps S1 to S9 in FIG. 3 as a premise. For this reason, in principle, each element of the “reference document” is given a category. Therefore, a set of three elements, category, and translation is prepared (S21). Table 1 shows combinations of elements, categories, and translation words in this example.
Figure 0004298771

次に、制御部25は、記憶装置19に予め記憶された対話画面のうち、図8に示すような書式の選択画面を表示装置17に表示出力しユーザに提示する(S22)。図8においては、ユーザが書式名、その書式が用いられる代表的な学問分野、凡例を手がかりに書式を選択できるようになっている。また、ここでは前述した3つの書式と、「その他」という選択肢があり、書名の翻訳を希望する場合のチェック欄がある。これらの候補の中に所望の書式があるかどうかをユーザは判断し(S23)、所望の書式がある場合は(S23:YES)、その所望の書式を選択する(S24)。ユーザにより所望の書式が選択されると、ステップS1の三つの組を用いて並べ替え変換を行う(S25)。   Next, the control unit 25 displays and outputs a format selection screen as shown in FIG. 8 on the display device 17 among the dialogue screens stored in advance in the storage device 19 (S22). In FIG. 8, the user can select a format based on a format name, a typical academic field in which the format is used, and a legend. In addition, here, there are the above-mentioned three formats and an option of “others”, and there is a check column for a case where translation of a book title is desired. The user determines whether there is a desired format among these candidates (S23). If there is a desired format (S23: YES), the user selects the desired format (S24). When a desired format is selected by the user, rearrangement conversion is performed using the three sets of step S1 (S25).

いま、APA方式が選択され、その書名の翻訳の欄がチェックされたとすると、著者の箇所はKokuryo, J., Nonaka, I. & Kataoka, M.となる。   Now, if the APA method is selected and the translation column of the book title is checked, the author's location is Kokuryo, J., Nonaka, I. & Kataoka, M.

なお、前述したように、著者が複数の場合の書式は、参考文献変換規則21iに記述されており、ユーザは、特にこのことを意識する必要がないようになっている。つまり、例えば、前述のAPA方式では著者が複数の場合でも、全て姓・名の順序をとり、かつ、最後の2名を&(アンパーサンド)で結ぶといった規則が入っている。並べ替え、変換が終了すると、以下のような結果になる。   As described above, the format when there are a plurality of authors is described in the reference document conversion rule 21i, and the user does not need to be aware of this. That is, for example, in the above-mentioned APA method, even if there are a plurality of authors, there is a rule that all names are given in the order of last name and first name, and the last two names are connected by & (ampersand). When rearrangement and conversion are completed, the following results are obtained.

Kokuryo, J., Nonaka, I. & Kataoka, M. Nettowaku Shakai no Chishiki Keiei (Knowledge Management of Network Society). 出版地: NTT Shuppan, 2003.
ここでは、出版地の欄が日本語の文字そのままになっている。これは図2の原文にはない情報であるからである。このような場合、制御部25はユーザに情報の提供を促すか、または出版地の所在地を一般の検索システム(www検索、文献DB検索などがある)により調べて翻訳する。これにより、例えば、「東京」の場合、”Tokyo”と翻訳される。この文字列を「出版地」の箇所に代入することにより処理を終える。
Kokuryo, J., Nonaka, I. & Kataoka, M. Nettowaku Shakai no Chishiki Keiei (Knowledge Management of Network Society). Publisher: NTT Shuppan, 2003.
Here, the field of publication is in Japanese characters. This is because the information is not in the original text of FIG. In such a case, the control unit 25 prompts the user to provide information, or checks and translates the location of the publication place by a general search system (such as a www search or a document DB search). Thus, for example, in the case of “Tokyo”, it is translated as “Tokyo”. The processing is completed by substituting this character string into the place of “publication”.

ステップS23の判断で、ユーザの希望する書式が「その他」である場合には(S23:NO)、ユーザは、著者名、書名、出版地、出版社、出版年などのキーワードと各種記号を使って書式を定義する(S26)。この場合、APA、CBE、MLA方式と大枠については類似しており、細部が異なる場合は、類似している書式の凡例をコピーし、異なる部分を変更することにより希望の書式を容易に定義することができる。ユーザ定義が終わると、先のAPA方式を選択した場合と同様に、並び替えなどにより希望の書式に変換を行い(S25)、処理を終える。   If it is determined in step S23 that the format desired by the user is “others” (S23: NO), the user uses keywords such as author name, book title, place of publication, publisher, year of publication, and various symbols. The format is defined (S26). In this case, the outline is similar to the APA, CBE, and MLA methods, and if the details are different, the legend of the similar format is copied and the desired format is easily defined by changing the different parts. be able to. When the user definition is finished, as in the case where the previous APA method is selected, conversion into a desired format is performed by rearrangement or the like (S25), and the process is finished.

なお、ユーザにより定義された書式は再度定義する手間が省けるよう、参考文献書式知識データベース24に蓄積するようにしてもよい。また、要素、カテゴリ、訳語の三つ組は参考文献データ格納部23に記憶させるようにしてもよい。このようにすることで、様々な書式に切り替えて出力する場合、翻訳時間を短縮できる。   Note that the format defined by the user may be stored in the reference format knowledge database 24 so as to save time for redefinition. The triplet of elements, categories, and translations may be stored in the reference document data storage unit 23. By doing so, translation time can be shortened when switching to various formats for output.

本発明の実施の形態によれば、「参考文献」の中のセパレータを検出し、著者名、書名、出版社名、出版年/発行年といった要素に対して、それぞれにふさわしい翻訳を行うととともに、訳文を構成する上でも第二言語の規定する書式に変換して出力するので、参考文献の記述部分の翻訳を高精度かつ安定して行える。   According to the embodiment of the present invention, the separator in the “reference document” is detected, and the elements such as the author name, the book title, the publisher name, and the publication year / issue year are translated appropriately. In constructing the translation, it is converted into the format specified by the second language and output, so that the description part of the reference can be translated with high accuracy and stability.

また、翻訳対象となる「参考文献」の中のセパレータを検出し、そのセパレータの用いられ方と文字列の辞書引きの結果より、著者名、書名、出版社名といった要素のうち、いずれの要素に属するかを判定し、その判定結果に基づいて各要素の訳出方法や出力形式を調整するので、参考文献の記述部分の翻訳を高精度かつ安定して行える。   In addition, it detects the separator in the “reference document” to be translated, and based on the usage of the separator and the result of dictionary lookup of the character string, any element such as author name, book name, publisher name, etc. Since the translation method and output format of each element are adjusted based on the determination result, the description part of the reference can be translated with high accuracy and stability.

本発明の実施の形態に係わる機械翻訳装置の構成図。The block diagram of the machine translation apparatus concerning embodiment of this invention. 本発明の実施の形態における翻訳対象原文の参考文献記述部分の一例の説明図。Explanatory drawing of an example of the reference literature description part of the original text for translation in embodiment of this invention. 本発明の実施の形態に係わる機械翻訳装置の処理動作を示すフローチャート。The flowchart which shows the processing operation of the machine translation apparatus concerning embodiment of this invention. 本発明の実施の形態における参考文献データ格納部に格納された参考文献データの格納形式の一例の説明図。Explanatory drawing of an example of the storage format of the reference data stored in the reference data storage part in embodiment of this invention. 本発明の実施の形態における翻訳部でのローマ字変換の処理内容の一例を示すフローチャート。The flowchart which shows an example of the processing content of the Romaji conversion in the translation part in embodiment of this invention. 本発明の実施の形態における翻訳辞書部の変換文法辞書の変換規則の一例の説明図。Explanatory drawing of an example of the conversion rule of the conversion grammar dictionary of the translation dictionary part in embodiment of this invention. 本発明の実施の形態における第二言語で要求する書式の提示順序に参考文献の記述部分を出力する処理内容のフローチャート。The flowchart of the processing content which outputs the description part of a reference document in the presentation order of the format requested | required in the 2nd language in embodiment of this invention. 本発明の実施の形態における参考文献の書式の指定を行う選択画面の一例を示す説明図。Explanatory drawing which shows an example of the selection screen which designates the format of the reference document in embodiment of this invention.

符号の説明Explanation of symbols

11…機械翻訳装置、12…CPU、13…ROM、14…RAM、15…バス、16…入力装置、17…表示装置、19…記憶装置、20…機械翻訳プログラム、21…翻訳辞書部、22…参考文献識別データベース、23…参考文献データ格納部、24…参考文献書式知識ベース、25…制御部、26…翻訳部、27…参考文献検出部、28…参考文献解析部、29…カテゴリ決定部、30…対話画面記憶部 DESCRIPTION OF SYMBOLS 11 ... Machine translation apparatus, 12 ... CPU, 13 ... ROM, 14 ... RAM, 15 ... Bus, 16 ... Input device, 17 ... Display device, 19 ... Memory | storage device, 20 ... Machine translation program, 21 ... Translation dictionary part, 22 Reference document identification database 23 Reference document data storage unit 24 Reference document format knowledge base 25 Control unit 26 Translation unit 27 Reference detection unit 28 Reference analysis unit 29 Category determination Part, 30 ... Dialog screen storage part

Claims (5)

機械翻訳プログラム、翻訳に必要な知識・規則を蓄積した翻訳辞書部、参考文献の記述部分であることを識別するための品詞や括弧・句読点の用いられ方を記した知識データを格納した参考文献識別データベース、参考文献の記述部分の前後の記号類や位置関係を参照して参考文献の記述部分を構成する要素がどのカテゴリに属するかを決定するための知識データを格納した参考文献書式知識ベースを記憶した記憶装置と、翻訳対象の第一言語の原文を入力するとともに操作に必要な情報を入力する入力装置と、翻訳対象の第一言語の原文や翻訳後の第二言語の訳文を表示する表示装置と、前記機械翻訳プログラムを演算実行するCPUとを備えた機械翻訳装置において、前記参考文献識別データベースに格納された参考文献の記述部分であることを識別するための品詞や括弧・句読点の用いられ方を記した知識データを用いて、前記入力装置から入力された原文のデータから参考文献の記述部分を検出する参考文献検出部と、前記参考文献検出部で検出された参考文献の記述部分の文字列とその文字列を区分けするセパレータとに分割する参考文献解析部と、前記参考文献書式知識ベースに格納された参考文献の記述部分の前後の記号類や位置関係を参照して参考文献の記述部分を構成する要素がどのカテゴリに属するかを決定するための知識データを用いて、前記参考文献解析部で得られた文字列に対して参考文献の記述部分を構成する要素のカテゴリを決定し前記文字列にカテゴリを付与するカテゴリ決定部と、前記翻訳対象の原文の参考文献の記述部分については前記カテゴリ決定部で付与されたカテゴリに基づいて参考文献の記述部分の文字列を前記翻訳辞書部を用いて翻訳する翻訳部とを備えたことを特徴とする機械翻訳装置。 Bibliography that stores machine translation program, translation dictionary that stores knowledge and rules necessary for translation, knowledge data describing how parts of speech and parentheses and punctuation marks are used to identify the part of the reference Reference format knowledge base that stores knowledge data to determine which category the elements that make up the description part of the reference belong to by referring to the identification database, the symbols and positional relationships before and after the description part of the reference Storage device, input device for inputting the original text in the first language to be translated and input necessary information for operation, and display the original text in the first language to be translated and the translated text in the second language after translation a display device for, in a machine translation system that includes a CPU for execution of the machine translation programs, Oh in the description part of references stored in said reference identification database It used the knowledge data that describes how used a part of speech and parentheses, punctuation for identifying a reference detector for detecting the descriptive portion of the references from the original data inputted from the input device, the A bibliographic analysis unit that divides the character string of the description part of the reference detected by the reference detection unit and a separator that divides the character string; and a description part of the reference stored in the reference format knowledge base. Using the knowledge data for determining which category the element constituting the description part of the reference belongs by referring to the preceding and following symbols and positional relationships, the character string obtained by the reference analysis unit The category determination unit for determining the category of the elements constituting the description part of the reference document and assigning the category to the character string, and the description part of the reference document of the original text to be translated Machine translation apparatus characterized by comprising a translation unit for translating using said translation dictionary unit strings description part references based on the category granted by re determination unit. 前記翻訳部は、参考文献の記述部分の文字列をローマ字変換する場合、当該文字列を形態素解析して、前記翻訳辞書部に記憶されている分かち書き規則を用いて分かち書きとし、仮名文字ごとにそれに相当する読みを有するローマ字つづりが対応づけられ前記翻訳辞書部に記憶されているローマ字変換表を用いて形態素の文字列をローマ字変換し、さらにスペースで区切られた連続する自立語の先頭文字の大文字化の処理を行うことを特徴とする請求項1の機械翻訳装置。 When the translation part converts the character string of the description part of the reference into Roman characters, it morphologically analyzes the character string and separates it using the division rule stored in the translation dictionary part. The morpheme character string is converted into a Roman character using the Romaji conversion table stored in the translation dictionary unit with the corresponding Romaji spelling having the corresponding reading, and the capital letters of the first letters of consecutive independent words separated by spaces The machine translation apparatus according to claim 1, wherein the machine translation processing is performed. 前記記憶装置に予め記憶された参考文献の訳文書式の選択画面を前記表示装置に表示させるとともに前記入力装置から選択された訳文書式を前記翻訳部に通知する制御部を有し、前記翻訳部は、前記制御部から通知された訳文書式に従って参考文献の記述部分の文字列を翻訳し、前記制御部は前記表示装置に翻訳結果を表示することを特徴とする請求項1記載の機械翻訳装置。 The control unit displays a selection screen of a translation document formula of a reference document stored in advance in the storage device on the display device and notifies the translation unit of the translation document formula selected from the input device. 2. The machine translation apparatus according to claim 1, wherein a character string of a description part of a reference document is translated in accordance with a translated document expression notified from the control unit, and the control unit displays a translation result on the display device. 前記制御部は、前記入力装置を介してユーザが定義した前記参考文献の訳文書式を前記参考文献書式知識ベースに追加することを特徴とする請求項3記載の機械翻訳装置。 4. The machine translation apparatus according to claim 3, wherein the control unit adds a translation document expression of the reference defined by a user via the input device to the reference format knowledge base . 機械翻訳プログラム、翻訳に必要な知識・規則を蓄積した翻訳辞書部、参考文献の記述部分であることを識別するための品詞や括弧・句読点の用いられ方を記した知識データを格納した参考文献識別データベース、参考文献の記述部分の前後の記号類や位置関係を参照して参考文献の記述部分を構成する要素がどのカテゴリに属するかを決定するための知識データを格納した参考文献書式知識ベースを記憶した記憶装置と、翻訳対象の第一言語の原文を入力するとともに操作に必要な情報を入力する入力装置と、翻訳対象の第一言語の原文や翻訳後の第二言語の訳文を表示する表示装置と、前記機械翻訳プログラムを演算実行するCPUとを備えた機械翻訳装置として機能させるためのコンピュータにおいて、コンピュータに、前記参考文献識別データベースに格納された参考文献の記述部分であることを識別するための品詞や括弧・句読点の用いられ方を記した知識データを用いて、前記入力装置から入力された原文のデータから参考文献の記述部分を検出する機能と、検出された参考文献の記述部分の文字列とその文字列を区分けするセパレータとに分割する機能と、分割して得られた文字列に対して前記参考文献書式知識ベースに格納された参考文献の記述部分の前後の記号類や位置関係を参照して参考文献の記述部分を構成する要素がどのカテゴリに属するかを決定するための知識データを用いて、参考文献の記述部分を構成する要素のカテゴリを決定し前記文字列にカテゴリを付与する機能と、前記翻訳対象の原文の参考文献の記述部分については付与されたカテゴリに基づいて参考文献の記述部分の文字列を前記翻訳辞書部を用いて翻訳する機能とを実現させるための機械翻訳プログラム。
Bibliography that stores machine translation program, translation dictionary that stores knowledge and rules necessary for translation, knowledge data describing how parts of speech and parentheses and punctuation marks are used to identify the part of the reference Reference format knowledge base that stores knowledge data to determine which category the elements that make up the description part of the reference belong to by referring to the identification database, the symbols and positional relationships before and after the description part of the reference Storage device, input device for inputting the original text in the first language to be translated and input necessary information for operation, and display the original text in the first language to be translated and the translated text in the second language after translation a display device for, in a computer to function as a machine translation system that includes a CPU for execution of the machine translation programs, the computer, the reference Using knowledge data that describes how parts of speech and parentheses and punctuation marks are used to identify the description part of a reference document stored in another database, the reference document is based on the original text data input from the input device. A function for detecting the description part of the reference, a function for dividing the character string of the description part of the detected reference and a separator for dividing the character string, and the reference format for the character string obtained by the division Use the knowledge data to determine which category the elements that make up the reference part of the bibliography belong to by referring to the symbols and positional relationships before and after the reference part of the reference stored in the knowledge base. The function of determining the category of the elements constituting the description part of the document and assigning the category to the character string, and the description part of the reference document of the original text to be translated to the assigned category Zui by machine translation program for causing a string description part references and a function to translate using the translation dictionary unit.
JP2007242642A 2007-09-19 2007-09-19 Machine translation apparatus and program Active JP4298771B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007242642A JP4298771B2 (en) 2007-09-19 2007-09-19 Machine translation apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007242642A JP4298771B2 (en) 2007-09-19 2007-09-19 Machine translation apparatus and program

Publications (2)

Publication Number Publication Date
JP2009075748A JP2009075748A (en) 2009-04-09
JP4298771B2 true JP4298771B2 (en) 2009-07-22

Family

ID=40610668

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007242642A Active JP4298771B2 (en) 2007-09-19 2007-09-19 Machine translation apparatus and program

Country Status (1)

Country Link
JP (1) JP4298771B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6076285B2 (en) * 2014-03-25 2017-02-08 株式会社ゼンリンデータコム Translation apparatus, translation method, and translation program
WO2021053807A1 (en) * 2019-09-20 2021-03-25 京セラドキュメントソリューションズ株式会社 Image reading device and image forming device

Also Published As

Publication number Publication date
JP2009075748A (en) 2009-04-09

Similar Documents

Publication Publication Date Title
KR100259407B1 (en) Keyboard for a system and method for processing chinese language text
US20070021956A1 (en) Method and apparatus for generating ideographic representations of letter based names
US8655641B2 (en) Machine translation apparatus and non-transitory computer readable medium
KR20040070168A (en) Translating Method, Translated Sentence Outputing Method, Recording Medium, Program, And Computer Device
US7136803B2 (en) Japanese virtual dictionary
CN109815503B (en) Man-machine interaction translation method
Abolhassani et al. Information extraction and automatic markup for XML documents
JP4298771B2 (en) Machine translation apparatus and program
List et al. Toward a sustainable handling of interlinear-glossed text in language documentation
Kaur et al. Hybrid approach for spell checker and grammar checker for Punjabi
Salam et al. Developing the bangladeshi national corpus-a balanced and representative bangla corpus
Karanikolas et al. Structuring a multimedia tri-dialectal dictionary
JPH11238051A (en) Chinese input conversion processor, chinese input conversion processing method and recording medium stored with chinese input conversion processing program
JP2008171164A (en) Classification support apparatus and method, and program
JP4643183B2 (en) Translation apparatus and translation program
JP5632213B2 (en) Machine translation apparatus and machine translation program
Zitouni et al. Cross-language information propagation for arabic mention detection
JP2005250525A (en) Chinese classics analysis support apparatus, interlingual sentence processing apparatus and translation program
Rodrigues et al. Arabic data science toolkit: An api for arabic language feature extraction
Prószéky How „Truly Electronic Dictionaries” of the 21st Century Should Look Like?
JPH0561902A (en) Mechanical translation system
Schäfer Language Diversity as a Result of Social Interaction: Xunzi’s View on Plurilingualism in 3rd-Century BCE China
JP2010122823A (en) Text processing system, information processing apparatus, method for processing text and information, and processing program
Forkel et al. Towards a sustainable handling of interlinear-glossed text in language documentation
Trips et al. From original sources to linguistic analysis: Tools and datasets for the investigation of multilingualism in medieval english

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090127

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090324

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090415

R150 Certificate of patent or registration of utility model

Ref document number: 4298771

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120424

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130424

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140424

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350