JP4298771B2 - Machine translation apparatus and program - Google Patents
Machine translation apparatus and program Download PDFInfo
- Publication number
- JP4298771B2 JP4298771B2 JP2007242642A JP2007242642A JP4298771B2 JP 4298771 B2 JP4298771 B2 JP 4298771B2 JP 2007242642 A JP2007242642 A JP 2007242642A JP 2007242642 A JP2007242642 A JP 2007242642A JP 4298771 B2 JP4298771 B2 JP 4298771B2
- Authority
- JP
- Japan
- Prior art keywords
- translation
- description part
- category
- translated
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、第一言語の文章を第二言語の文章に自動的に翻訳する機械翻訳装置及びプログラムに関する。 The present invention relates to a machine translation device and a program that automatically translate a sentence in a first language into a sentence in a second language.
コンピュータを利用して第一言語(原言語)の文章を第二言語(目的言語)の文章に自動的に翻訳する機械翻訳装置においては、まず、入力原文を形態素解析及び構文解析によって、語句等の所定の翻訳単位に区分する。次に処理単位ごとに翻訳辞書を検索して適用する翻訳規則を決定し、対応する訳語句等を決定する。決定した訳語句を所定の訳文生成規則に従って結合して、入力原文に対する訳文を得るようになっている。 In a machine translation device that automatically translates sentences in the first language (source language) into sentences in the second language (target language) using a computer, the input source sentence is first analyzed by morphological analysis and syntax analysis. Is divided into predetermined translation units. Next, the translation dictionary is searched for each processing unit, a translation rule to be applied is determined, and a corresponding translated phrase is determined. The determined translation phrases are combined according to a predetermined translation generation rule to obtain a translation for the input original sentence.
文書末尾に添えられる参考文献の記述部分などのようにある一定の書式に則って配列された語句・文は、文法上の文構造を有しておらず、一般の文とは異なった構造をしており、要素によって適切な翻訳方法が異なる。そのため、参考文献の記述部分を1行ずつ取り出して、すべての要素に対して、一律に機械翻訳を行う方法では目的言語での参考文献の記述の体裁をなさず、翻訳精度の悪化を招いていた。例えば、「橋本治(2005)『ちゃんと話すための敬語の本』筑摩書房」は”Osamu Hashimoto (2005) "book of honorific for talking perfectly" Chikuma Shobo”となる。 Words / sentences arranged according to a certain format, such as the description part of a reference attached to the end of the document, do not have a grammatical sentence structure and have a structure different from that of ordinary sentences. The appropriate translation method varies depending on the element. For this reason, the method of extracting the description part of the reference line by line and performing machine translation on all elements uniformly does not form the description of the reference form in the target language, resulting in deterioration of translation accuracy. It was. For example, “Osamu Hashimoto (2005)“ book of honorific for talking perfectly ”Chikuma Shobo” becomes “Osamu Hashimoto (2005)“ book of honorific for talking perfectly ”.
このような場合、参考文献の記述部分を検出して翻訳を行わず、原文のまま表示するといったものがある(例えば、特許文献1参照)。原文のまま表示するのは、第一言語が英語であるときに通用することであり、第一言語がアルファベット文字を使わない言語の場合は翻訳しなければならないことが多く、目的を果たさない。少なくとも、日英翻訳においてはそうである。The Chicago Manual of Style (14th edition, p. 541)にも以下のように説明されている。”The titles in languages other than English are treated the same as English. When it is desirable to provide readers with translation of a title, the translation follows the title and is enclosed in parenthesis (sometimes in square brackets.)”かといって、単純に翻訳すればいいというものでもない。例えば、参考文献の記述部分を構成する要素の一つである書名は読者が原典にあたることができるように原則として意訳のみにしないのが一般的といわれている。 In such a case, there is a method in which a description part of a reference document is detected and translated, and the original text is displayed (for example, see Patent Document 1). The original text is displayed when the first language is English, and if the first language is a language that does not use alphabetic characters, it often has to be translated and does not serve the purpose. At least in Japanese-English translation. The Chicago Manual of Style (14th edition, p. 541) explains as follows. `` The titles in languages other than English are treated the same as English.When it is desirable to provide readers with translation of a title, the translation follows the title and is enclosed in parenthesis (sometimes in square brackets.) It's not just a simple translation. For example, it is generally said that book titles, which are one of the elements that make up the description part of a bibliography, are generally not translated into meanings so that readers can refer to the source.
一方、通常モードの機械翻訳では、文の翻訳を前提とした句読点の用いられ方をキーに構文解析を行うので、参考文献の記述部分にこれを適用すると、語の出力順序までも崩れることがある。そこで、参考文献の項目として要求される著者名、書名、出版社、出版年/発行年、ページ、出版地といった要素を人手で分類し、この分類項目に基づき、意味による訳か音訳(ローマ字変換)、またはそれらの併用を使い分けている。機械翻訳の訳として、日本語の読みをローマ字変換して、その翻訳として提示するものがある(例えば、特許文献2、特許文献3参照)。これらはいずれも固有名詞に限定している。
しかし、書名の場合には、固有名詞はもちろん、句、文など制限がない。この場合、どのようにしてローマ字変換後の文字列を適切に分かち書きするかの観点が入っていない。また、固有名詞であれば、一律に語頭を大文字化すればよいが、書名をローマ字変換し、分かち書きした後、どこを大文字化し、どこを小文字のままとするかという点が考慮されていなかった。また、第一言語の参考文献の記述部分を正しく目的言語の書式に置き換えることができたとして、それにさらに原典の翻訳本が刊行されている場合、その書誌情報も提示できれば第一言語の知識をまったく有しない読者にとって有益である。 However, in the case of book titles, there are no restrictions such as phrases and sentences as well as proper nouns. In this case, there is no point of how to appropriately write the character string after Romaji conversion. In addition, if it is a proper noun, it is only necessary to capitalize the beginning of the word uniformly, but after converting the book name into Roman letters and dividing it, there was no consideration of where to capitalize and where to keep it lowercase. . Also, assuming that the description part of the bibliography of the first language can be correctly replaced with the format of the target language, and if a translated book of the original source has been published, knowledge of the first language can be obtained if bibliographic information can also be presented. Useful for readers who have nothing at all.
さらに、別の問題として第一言語の参考文献の書式と、第二言語の参考文献の書式は一対一対応していない。これを前提にしていない機械翻訳では、例えば、日本語を英語に翻訳する場合、句読点など、それぞれの要素の区切りを示す各種記号は対応する英語記号(例えば、二重括弧はダブルクオテーション、中点はカンマ)に置き換えているのみである。加えて、同じ日本語であっても参考文献の書き方は学問分野ごとに書式が規定されており、統一見解はない。英語についても同様である。 Further, as another problem, the format of the reference document in the first language does not correspond to the format of the reference document in the second language. In machine translation that does not assume this, for example, when translating Japanese into English, various symbols indicating the delimiter of each element such as punctuation marks are the corresponding English symbols (for example, double quotation marks, double quotation marks, The point is simply replaced with a comma). In addition, even if the Japanese language is the same, there is no unified view of how to write a bibliography. The same applies to English.
英語では、どの書式であれ書名や雑誌名は原則としてイタリック体にするのが一般的とされている。従来の機械翻訳では大文字小文字の使い分けはされていたが、イタリック体や太字などは原文がイタリック体や太字でない限り、訳文をイタリック体や太字の書式に変換するものはないと思われる。そのため、人手で書名、雑誌名をイタリック体に変換する必要があった。従って、参考文献の記述の件数が多い場合は労力を要し、かつ書名の範囲を誤るおそれもあった。 In English, it is common for book titles and journal names to be in italics in principle. In conventional machine translation, uppercase and lowercase letters were used properly, but it appears that there is nothing to convert the translated text to italic or bold format unless the original is italic or bold. Therefore, it was necessary to manually convert the titles of books and magazines to italics. Therefore, if the number of references described is large, labor is required and the range of titles may be wrong.
このように、従来は、参考文献の記述部分の翻訳については翻訳対象外とされるか、または著者名、書名、出版社名、出版年/発行年といった要素を考慮せず、一律に翻訳していたために、機械翻訳では高精度な翻訳結果が得られないという問題があった。これに加え、第二言語の文書に必要な調整がされていなかったために、第二言語の参考文献の要件を満たさず、最悪の場合は、翻訳結果を見ただけではどの部分が著者名に相当し、どの部分が書名に相当するかといった判別がといった判別が困難になるという問題があった。 Thus, conventionally, translation of the description part of a reference is not subject to translation, or it is uniformly translated without considering factors such as author name, book title, publisher name, and publication year / issue year. Therefore, there is a problem that machine translation cannot obtain a highly accurate translation result. In addition, the necessary adjustments were not made to the second language document, so it did not meet the requirements of the second language bibliography. There is a problem that it is difficult to determine which part corresponds to a book title.
本発明の目的は、参考文献の記述部分を構成する要素に対してそれぞれにふさわしい翻訳を行うとともに、訳文を構成する上でも第二言語の規定する書式に変換して出力することができる機械翻訳装置及びプログラムを提供することである。 The object of the present invention is to perform translation suitable for each of the elements constituting the description part of the reference document, and to convert the translated sentence into a format prescribed by the second language and to output the machine translation It is to provide an apparatus and a program.
本発明の機械翻訳装置は、機械翻訳プログラム、翻訳に必要な知識・規則を蓄積した翻訳辞書部、参考文献の記述部分であることを識別するための品詞や括弧・句読点の用いられ方を記した知識データを格納した参考文献識別データベース、参考文献の記述部分の前後の記号類や位置関係を参照して参考文献の記述部分を構成する要素がどのカテゴリに属するかを決定するための知識データを格納した参考文献書式知識ベースを記憶した記憶装置と、翻訳対象の第一言語の原文を入力するとともに操作に必要な情報を入力する入力装置と、翻訳対象の第一言語の原文や翻訳後の第二言語の訳文を表示する表示装置と、前記機械翻訳プログラムを演算実行するCPUとを備えた機械翻訳装置において、前記参考文献識別データベースに格納された参考文献の記述部分であることを識別するための品詞や括弧・句読点の用いられ方を記した知識データを用いて、前記入力装置から入力された原文のデータから参考文献の記述部分を検出する参考文献検出部と、前記参考文献検出部で検出された参考文献の記述部分の文字列とその文字列を区分けするセパレータとに分割する参考文献解析部と、前記参考文献書式知識ベースに格納された参考文献の記述部分の前後の記号類や位置関係を参照して参考文献の記述部分を構成する要素がどのカテゴリに属するかを決定するための知識データを用いて、前記参考文献解析部で得られた文字列に対して参考文献の記述部分を構成する要素のカテゴリを決定し前記文字列にカテゴリを付与するカテゴリ決定部と、前記翻訳対象の原文の参考文献の記述部分については前記カテゴリ決定部で付与されたカテゴリに基づいて参考文献の記述部分の文字列を前記翻訳辞書部を用いて翻訳する翻訳部とを備えたことを特徴とする。 The machine translation apparatus according to the present invention describes how to use a machine translation program, a translation dictionary that stores knowledge and rules necessary for translation, and parts of speech, parentheses, and punctuation marks for identifying a reference part. Reference data database that stores selected knowledge data, knowledge data for determining which category the elements constituting the reference part of the reference belong to by referring to the symbols and positional relationships before and after the reference part of the reference A storage device that stores a reference form knowledge base that stores information, an input device that inputs a source language in a first language to be translated and information necessary for operation, and a source language in a first language to be translated and a post-translation a display device for displaying a translated sentence of the second language, the machine translation apparatus and a CPU for execution of the machine translation program, stored in the reference identification database With knowledge data that describes how used a part of speech and parentheses, punctuation for identifying that a written portion of the reference, detects the description portion references the textual data input from said input device Stored in the bibliography detector , the bibliography analyzer that divides the character string of the description part of the bibliography detected by the bibliography detector and the separator that divides the character string, and the bibliography format knowledge base The reference analysis unit uses the knowledge data for determining which category the elements constituting the reference part of the reference belong to by referring to the symbols and positional relationships before and after the reference part of the reference. A category determination unit for determining a category of an element constituting a description part of a reference for the obtained character string and assigning the category to the character string, and description of the reference document of the original text to be translated The part is characterized in that a translation unit for translating using said translation dictionary unit strings description part references based on the category that has been granted by the category determining unit.
本発明によれば、参考文献の記述部分を構成する要素に対してそれぞれにふさわしい翻訳を行うとともに、訳文を構成する上でも第二言語の規定する書式に変換して出力することができる。 According to the present invention, the elements composing the description part of the reference can be translated appropriately, and can be converted into a format prescribed by the second language and output in constructing the translation.
図1は、本発明の実施の形態に係わる機械翻訳装置の構成図である。機械翻訳装置11は、第一言語を第二言語に翻訳して出力するものであり、例えば一般的なコンピュータに機械翻訳プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムがCPU12において実行されることにより実現される。機械翻訳装置11は、CPU12、ROM(Read Only Memory)13及びRAM(Random Access Memory)14がバス15を介して接続されている。バス15には、入力装置16、表示装置17及び記憶装置19が接続されている。
FIG. 1 is a configuration diagram of a machine translation apparatus according to an embodiment of the present invention. The
記憶装置19には、機械翻訳プログラム20が記憶されるとともに、翻訳辞書部21、参考文献識別データベース22、参考文献データ格納部23、参考文献書式知識ベース24、対話画面記憶部30が記憶される。
The
機械翻訳プログラム20は、制御部25、翻訳部26、参考文献検出部27、参考文献解析部28、カテゴリ決定部29を有している。翻訳辞書部21には、活用変化辞書21a、解析文法辞書21b、単語・熟語辞書21c、変換文法辞書21d、生成文法辞書21e、形態素生成成文法辞書21f、読み辞書21g、ローマ字変換表21h、参考文献書式変換規則21i、分かち書き規則21jなどが格納されている。
The
CPU12は、入力装置16からの入力信号に基づいてROM13から機械翻訳装置11を起動するためのブートプログラムを読み出して実行し、さらに記憶装置19に記憶された図示省略のオペレーティングシステムを読み出す。CPU12は、入力装置16の入力信号に基づいて、各装置の制御を行い、記憶装置19などに記憶された機械翻訳プログラム20及び翻訳辞書部21のデータを読み出してRAM14にロードするとともに、RAM14から読み出されたプログラムのコマンドに基づいて、後述の処理を実現する。
The
入力装置16は、第一言語の翻訳対象原文の文字データやファイルデータ等のデータやコマンドを入力する入力手段であり、通常、キーボードやマウス・タッチパネルなどのポインティングデバイス、音声認識や文字認識機能、あるいは、CDドライブなどの外部記憶媒体読取装置、ネットワーク入力装置などによって実現される。すなわち、入力装置16は、制御部25に対して翻訳対象となる文の入力、翻訳指示や辞書登録指示などの各種コマンドの入力を行うものである。また、翻訳対象文の入力には、OCR、フレキシブルディスク、磁気テープ、磁気ディスク、インターネットからの読み込み、あるいはマイクで発話文を取りこんでディクテーション装置によって自然言語の文字列に変換したものの読み込みなどの入力も含まれる。マイクによる音声入力は各種コマンドの入力にも用いることができる。
The
表示装置17は、入力装置16から入力されたデータや翻訳結果の出力手段であり、画面や翻訳結果等をCRTや液晶ディスプレイなどの表示装置に表示する場合、翻訳結果等をファイルに保存する場合などがある。すなわち、表示装置17は、翻訳部26の出力である翻訳結果を出力したり、入力文に対する翻訳用例を用例辞書部22から検索して表示させる指示命令など、制御部25への各種命令に対する制御部25からの応答を表示出力したりする。表示装置17としては各種ディスプレイなどの表示手段が通常であるが、翻訳結果の出力には、印刷機などの印字手段、あるいは直接フレキシブルディスク、磁気テープ、磁気ディスクへ出力する手段や他のメディアへ送信する送信手段でもよい。また、スピーカーへの音声出力でもよい。
The
機械翻訳プログラム20の制御部25は、機械翻訳装置11の全体の制御を司るものであり、機械翻訳プログラム20全体の制御や入力装置16及び表示装置17とのデータの転送を行うものである。
The
翻訳部26は、制御部25からの指示に従って、翻訳辞書部21を用いて入力装置16によって入力された翻訳対象原文に対する翻訳処理を行い、翻訳結果を制御部25へ出力する。参考文献検出部27は翻訳対象の原文から参考文献の記述部分を検出するものであり、参考文献解析部28は、参考文献検出部27で検出された参考文献の記述部分の文字列とその文字列を区分けするためのセパレータとに分割するものであり、カテゴリ決定部29は参考文献解析部28で得られた文字列に対して、参考文献の記述部分を構成する要素の著者名、書名、出版社名といったカテゴリを決定し、文字列にカテゴリを付与するものである。
The
翻訳部26は、翻訳対象原文から参考文献検出部27で検出された参考文献の記述部分について、カテゴリ決定部29で付与されたカテゴリに基づいて参考文献の記述部分の要素の文字列も翻訳する。
The
翻訳辞書部21には、第一言語から第二言語への翻訳を行うための辞書であり、翻訳部26が翻訳処理を行う際に使用する各種辞書データが格納されている。翻訳辞書部21の活用変化辞書21aは語尾等に変化のある単語・熟語をその原形に変換する辞書、解析文法辞書21bは第一言語を解析するための文法を記憶した辞書、単語・熟語辞書21cは第一言語の単語・熟語に対応する第二言語の訳語がその品詞情報と共に記憶された辞書、変換文法辞書21dは第一言語の文法から第二言語の文法に変換するための変換情報が記憶された辞書、生成文法辞書21eは文の構造を決定する辞書、さらに形態素生成文法辞書21fは語尾等の語形を変化させて翻訳文を完成させる辞書、読み辞書21gは第一言語の見出しの読み方が記憶された読み辞書、ローマ字変換表21hは仮名文字ごとにそれに相当する読みを有するローマ字つづりが対応づけられて記憶されている変換表、参考文献書式変換規則21iは各カテゴリに適切な翻訳方法を明示した規則、分かち書き規則21jは分かち書きの規則である。
The
参考文献識別データベース22には、参考文献検出部27が参考文献の記述部分であることを識別するためのデータが格納されている。参考文献データ格納部23には、参考文献解析部28によって割り当てられた要素とそのカテゴリとが組にして記憶される。参考文献書式知識ベース24には、参考文献記述部分の前後の記号類や位置関係を参照して、参考文献の記述部分を構成する要素(著者名、書名、出版社、出版年/発行年、ページ、出版地といった要素)が、どのカテゴリに属するかを決定するためデータが記憶されている。
The reference
以下の説明では、第一言語は日本語であり第二言語は英語である場合について説明する。まず、参考文献の形式をもった箇所は、典型的には括弧類や句読点、各種記号の使用状況によって検出することができる。例えば、社会科学や人文科学における日本語の参考文献の場合、通常、行末が句読点なしになっている、二重括弧または一重括弧が用いられているといったことが挙げられる。なお、これは簡単化のために参考文献またはそれ相当の見出しがある行の次の入力行からが参考文献の中身とみなしてもよい。 In the following description, a case where the first language is Japanese and the second language is English will be described. First, a location having a reference format can be detected typically by the use status of parentheses, punctuation marks, and various symbols. For example, in the case of Japanese bibliography in social sciences and humanities, there are usually no punctuation at the end of the line, double parenthesis or single parenthesis is used. For the sake of simplicity, this may be regarded as the contents of the reference from the input line next to the line with the reference or equivalent heading.
参考文献検出部27は、こういった特徴のある箇所を検出した場合には、翻訳対象の文書のうち、検出箇所を参考文献解析部28に送信する。参考文献解析部28は、当該内部構造を解析して、カテゴリ決定部29では当該内部構造内の要素にカテゴリを参考文献書式知識ベース24を用いて割り当てる。参考文献データ格納部23は、カテゴリ決定部29によって割り当てられた要素とそのカテゴリを組にして記憶する。記憶された情報は然るべき時期、例えば当該「参考文献」の翻訳が終了したときなどに消去される。
If the
対話画面記憶部30にはユーザが入力装置16及び表示装置17を介して機械翻訳システムと対話するための対話画面が予め記憶されている。
The dialog
図2は翻訳対象原文の参考文献記述部分の一例の説明図、図3は本発明の実施の形態に係わる機械翻訳装置の処理動作を示すフローチャートである。翻訳対象原文として、図2に示す参考文献記述部分を有した文書が入力装置16に入力されたとすると、入力装置16はその原文データを制御部25に送信する。制御部25では入力された原文が通常の文のみよりなる文書か、「参考文献」の箇所を含む文書かどうかを判定する(S1)。
FIG. 2 is an explanatory diagram of an example of a reference document description portion of the original text to be translated, and FIG. 3 is a flowchart showing the processing operation of the machine translation apparatus according to the embodiment of the present invention. Assuming that a document having the reference document description portion shown in FIG. 2 is input to the
「参考文献」の箇所を含むか否かは、主として、文字列を区分けするセパレータである括弧類、カンマの使用具合や品詞の出現度合いから判定する。つまり、参考文献検出部27は、参考文献識別データベース22に格納された参考文献の記述部分であることを識別するためのデータに基づいて参考文献か否かを判断する。すなわち、参考文献識別データベース22には、参考文献に特徴的な品詞や括弧、句読点の用いられ方を記した知識が格納されており、参考文献検出部27は、この知識に照らし合わせて参考文献か否かを判断する。
Whether or not the location of “reference document” is included is determined mainly from the use of parentheses, which are separators for separating character strings, the usage of commas, and the degree of appearance of parts of speech. That is, the reference
図2の一例の場合は、第3行目以降において行末が句点になっていない点、行中に括弧、読点の使用が多い点、行末までいかずに改行されている点において、通常の文とは異なった形式をしている。また、括弧の内側の要素でない限り、助詞が用いられていない点、また、動詞が全く用いられていない点でも通常と異なることが分かる。そこで、このような知識が格納されている参考文献識別データベース22に照らし合わせ、参考文献検出部27は、第3行目以降を参考文献の記述部分と判断する。
In the case of the example in FIG. 2, the normal sentence in the point that the end of the line is not a punctuation in the third line and after, the point that parentheses are often used in the line, and the line is broken without going to the end of the line. It has a different form. In addition, unless the element is inside the parentheses, it is understood that the particle is not used and the verb is not used at all. Accordingly, the reference
参考文献の記述部分を有していると判断されたときは、さらに、参考文献検出部27は翻訳対象原文は通常の文の形式をもった部分を含むかどうかを判断する(S2)。すなわち、参考文献の書式に該当しない通常文の形式があるかどうかを文法や品詞等には着目せずに文書全体の文字の使用状況のみに着目して判定する(S2)。
When it is determined that the reference portion has a description part, the
図2の一例では、第3行目から第5行目は参考文献相当、第1行目は通常の文、第2行目は空行ということがわかる(S2:YES)。そこで、参考文献検出部27は、通常の文にあたる部分と「参考文献」の部分(第3行目1文字目から始まる「国領」から第5行目の最後の文字列「(2006)」まで)に分割する(S3)。そして、制御部25は翻訳処理を開始する際に、翻訳対象原文の文字列データが通常の文か否かを判定し(S4)、通常の文であるとき(S4:YES)、例えば、図2の一例の第1行目や第2行目は、そのまま翻訳部26に送る。これにより、翻訳部26は図2の一例の第1行目や第2行目について通常の翻訳を行う(S5)。
In the example of FIG. 2, it can be seen that the third to fifth lines correspond to references, the first line is a normal sentence, and the second line is a blank line (S2: YES). Therefore, the
一方、通常の文でなく参考文献の記述部分であると判定したときは(S4:NO)、制御部25はそのデータを参考文献解析部28に送信する。参考文献解析部28では、送られた「参考文献」箇所のデータを文字列と括弧・記号類に分類する(S6)。この場合、図2の一例の第3行目、第4行目、第5行目は、それぞれ以下の文字列や記号等よりなっていることを検出する。
<第3行目>
文字列1
・(中点)一つ
文字列2
・(中点)一つ
文字列3
『(二重括弧開き)
文字列4
』(二重括弧閉じ)
文字列5
((丸括弧開き)
文字列6
)(丸括弧閉じ)
改行
<第4行目>
文字列1
『(二重括弧開き)
文字列2
』(二重括弧閉じ)
文字列3
((丸括弧開き)
文字列4
)(丸括弧閉じ)
改行
<第5行目>
文字列1
「(一重括弧開き)
文字列2
」(一重括弧閉じ)
『(二重括弧開き)
文字列3
』(二重括弧閉じ)
文字列4
((丸括弧開き)
文字列5
)(丸括弧閉じ)
改行
文字列部分を除くと、第3行目は・、・、『、』、(、)、改行であり、第4行目は『、』、(、)、改行であり、第5行目は「、」、『、』、(、)、改行である。そこで、参考文献解析部28はこれら3行に何らかの共通性があるか否かを判定する(S7)。これには、一般に知られている文字列一致の手法を用いる。すると、多少構成は違うが、お互いに部分的に一致していることがわかる。具体的には、いずれも「二重括弧開き、二重括弧閉じ、丸括弧開き、丸括弧閉じ、改行」の並びがあることは共通している。
On the other hand, when it is determined that it is not a normal sentence but a description part of a reference (S4: NO), the
<Third line>
・ (Midpoint) One
・ (Midpoint) One
"(Open double parenthesis)
String 4
] (Closed in double brackets)
((Open parenthesis)
) (Close parentheses)
Line feed <4th line>
"(Open double parenthesis)
] (Closed in double brackets)
((Open parenthesis)
String 4
) (Close parentheses)
Line feed <5th line>
"(Open single parenthesis)
"(Close single parenthesis)
"(Open double parenthesis)
] (Closed in double brackets)
String 4
((Open parenthesis)
) (Close parentheses)
Line breaks Excluding the character string part, the third line is ",", ",", (,), new line, the fourth line is ",", (,), new line, and the fifth line Are ",", ",", (,), and line feed. Therefore, the reference
以上の検出を終えると文字列の集合、すなわち、ここでは「国領二郎」「野中郁次郎」「片岡雅憲」「ネットワーク社会の知識経営」「NTT出版」「2003」「人工知能学会編」「人工知能学事典」「共立出版」「2003」「野中郁次郎」「知識経営の戦略」「情報処理」「47巻」「5号」「547−552頁」「2006」を参考文献解析部28は抽出し、制御部25はこれらの情報を参考文献データ格納部23に送る(S8)。なお、「人工知能学事典」「情報処理」といった文字列は、参考文献の記載部分を構成する要素である。
When the above detection is completed, a set of character strings, that is, “Jiro Kokuryo”, “Jujiro Nonaka”, “Masaka Kataoka”, “Knowledge Management in Network Society”, “NTT Publishing”, “2003”, “Artificial Intelligence Society”, “Artificial Intelligence” The
参考文献データ格納部23には、参考文献解析部28で抽出されたデータが格納される。このとき、該当の行において要素が何番目の要素であるか、何行目に属するか、前後を囲む括弧は何かといった情報が分かるように格納する。
The reference
図4は参考文献データ格納部23に格納された参考文献データの格納形式の一例の説明図である。参考文献データは、例えば、図4に示すように座標形式で格納される。「国領二郎」は(3,1,,・)、「人工知能学事典」は(4, 2, 『,』)のように座標形式で格納される。「国領二郎」の座標(3,1,,・)は、3行目の第1列に「国領二郎」が位置し、セパレータ「・」で区分されることを意味する。また、「人工知能学事典」の(4, 2, 『,』)は、4行目の第2列に「人工知能学事典」が位置し、セパレータ「『,』」で区分されることを意味する。
FIG. 4 is an explanatory diagram showing an example of a storage format of the reference data stored in the reference
次に、カテゴリ決定部29では、図2の第3行目から第5行目の部分の各要素を順番に取り出し、参考文献書式知識ベース24を用いて、各要素がどのカテゴリに属するかを決定する(S9)。この参考文献書式知識ベース24は前後の記号類や位置関係を参照して要素がどのカテゴリに属するかを決定するためのものである。具体的には、先頭の要素は著者とし、要素の前後が二重括弧であり、かつ同一行に一重括弧があれば雑誌名、なければ書名とし、また、前後が丸括弧で囲まれた4文字の数字は出版年/発行年である、最初の要素と中点で連結している複数の要素は共著者であるといった知識を含んでいる。
Next, the
「参考文献」の書式には様々なものがあり(広く知られているものとしては、科学技術情報流通技術基準や社会学評論スタイルガイドなど)、例えば、情報処理の分野では、図2に挙げた一例とは異なり、論文名、書名、雑誌名は二重括弧や一重括弧を一切使わず、コロンを使うのが一般的である。そこで、この参考文献書式知識ベース24は、どの書式にも当てはまる汎用的な知識(例えば最初の要素は著者名である)の適用順位が高く設定されており、上から順に適用していくよう、下に行くほど分野特有の知識があり、その適用順位は低くなっている。
There are various forms of “references” (generally known are the science and technology information distribution technical standards and the sociological critique style guide). For example, in the field of information processing, they are listed in FIG. Unlike the example, paper names, book titles, and journal names generally use colons instead of double or single parentheses. Therefore, in this bibliography
各要素は参考文献解析部28で付与された情報(「人工知能学事典」「情報処理」といった文字列が何行目に属するか、該当の行において要素が何番目の要素であるか、前後を囲む括弧は何かといった情報)とカテゴリ決定部29で判定されたカテゴリとともに制御部25により参考文献データ格納部23から翻訳部26に送られる。
Each element is information given by the reference document analysis unit 28 (what line the character string such as “artificial intelligence science encyclopedia” “information processing” belongs to, what element the element is in the corresponding line, And the category determined by the
また、カテゴリ決定手段29は、参考文献の記述部の各要素に対して、図2の一例の場合、参考文献書式知識ベース24を用いて、「国領二郎」「野中郁次郎」「片岡雅憲」「人工知能学会編」「野中郁次郎」は著者名、「ネットワーク社会の知識経営」「人工知能学事典」は書名、「知識経営の戦略」は論文名、「情報処理」は雑誌名、「2006」「2003」「2003」は出版年/発行年であるとカテゴリを判定する。
Further, the category determination means 29 uses the reference
なお、カテゴリ決定部29でカテゴリが判別できなかったもの、図2の一例では、「47巻」「5号」「547-552頁」はカテゴリ判定不能として、制御部25は「参考文献」の一部であったことを参考文献データ格納部23に記憶させてそのまま翻訳部26に送る。
In the example in which the
翻訳部26では、制御部25から送られた原文に対して、翻訳辞書部21に格納されている知識(活用変化辞書21a、解析文法辞書21b、単語・熟語辞書21c、変換文法辞書21d、生成文法辞書21e、形態素生成文法辞書21f、読み辞書21g、ローマ字変換表21h、参考文献書式変換規則21i、分かち書き規則21j、及び参考文献データ格納部23に格納された位置関係の情報を利用し、目的言語への翻訳処理を行う(S5)。そして、翻訳結果は所定の書式で出力装置17に出力される(S10)。
In the
次に、翻訳部26が図2の第3行目の第4番目の要素である「ネットワーク社会の知識経営」を翻訳する際の処理を説明する。その前提として参考文献書式変換規則21iについて説明する。参考文献書式変換規則21iは各カテゴリにふさわしい翻訳方法を明示したものである。
Next, the processing when the
著者名の場合は、参考文献の記述部の[著者名]の要素を「姓、カンマ、名」とし、2名以上の場合は2人目以降を「名、姓」とし、[著者名]の要素の後ろにカンマを付与する。最後の一つ前の著者のあとはカンマの後ろにandを入れ最後の著者となる。編者も著者にならうが、単独の場合は、後に”(ed.)“ “(Ed.)”といった文字列を、複数の場合は後に”(eds.)””(Eds.)”といった文字列を付与する。 In the case of an author name, the [author name] element in the description section of the bibliography should be “first name, comma, first name”. If there are two or more names, the second and subsequent names should be “first name, last name”. Add a comma after the element. After the last author, put “and” behind the comma to become the last author. The editor follows the author, but if it is alone, it will be followed by a string such as “(ed.)” “(Ed.)”. If it is more than one, it will be followed by a character such as “(eds.)” ”(Eds.)” Grant a column.
書名はローマ字変換してイタリック体にし、ローマ字変換のイタリック体の書名に続いて書名の英訳を丸括弧で囲んだものをローマ字変換のイタリック体に付加する。出版社については単語・熟語辞書21cの中に固有名詞として見出しになっていればその訳語を採用し、なっていなければ、ローマ字変換結果を使用するといった規則が蓄積されている。なお、書名の英訳は必須でないため、省略可能であるが、ここでは、ローマ字変換のイタリック体の書名と書名の英訳とを併記した英訳併記方式を選択したものとして話を進める。
The title is converted to italic by converting it into roman characters, and the English translation of the title is enclosed in parentheses following the italic name of the romaji conversion. For publishers, a rule has been accumulated in which a translated word is used as a proper noun in the word /
さて、今着目している「ネットワーク社会の知識経営」という要素はカテゴリ決定部29で書名というカテゴリに属するとされた。従って、書名に要求される翻訳処理はローマ字変換してイタリック体にし、それに続いて英訳を丸括弧で囲んだものを付加することになる。
Now, the element of “knowledge management in the network society” that is focused on now belongs to the category “book title” in the
この場合のローマ字変換について、図5のフローチャートを用いて説明する。図5は翻訳部26でのローマ字変換の処理内容の一例を示すフローチャートである。まず、対象の文字列「ネットワーク社会の知識経営」に対し、形態素解析を行い形態素に分割する(S11)。この一例では「ネットワーク|社会|の|知識|経営」とに分割される。次に、この形態素に対して、分かち書き規則21jを適用する(S12)。
The Roman conversion in this case will be described with reference to the flowchart of FIG. FIG. 5 is a flowchart showing an example of processing contents of Roman character conversion in the
これには、例えば以下のような規則が含まれている。1.助動詞や補助用言は直前の動詞や形容詞と結合する。2.接頭語、接尾語は分離させない。3.複合語で長さが6拍以下のものは分離させない。4.複合語が長さ7拍以上のものはどの部分も6拍以下になるようにする。5.助詞の「へ、に、で、と」、「だ」の活用形の「で」のいずれかの後ろに助詞の「は、も、の」のいずれかが続くときはそれらを結合する。 For example, the following rules are included. 1. An auxiliary verb or adjunct is combined with the immediately preceding verb or adjective. 2. The prefix and suffix are not separated. 3. Compound words with a length of 6 beats or less are not separated. 4). If the compound word is 7 beats or longer, every part should be 6 beats or less. 5). When one of the particle "ha, no" is followed by one of the particles "ha, no,", or "de", the utilization form of "da" is combined.
これによれば、この一例は結合すべき箇所はない。しかし、仮に「考古学・人類学・言語学との対話」という書名であれば、「考古学|人類学|言語学|と|の|対話」と形態素解析され、分かち書き規則21jにより「と」と「の」とが結合し、「考古学|人類学|言語学|との|対話」と変化する。 According to this, this example has no place to be combined. However, if the title is “dialogue with archeology, anthropology, and linguistics”, the morphological analysis will be performed as “archaeology | anthropology | linguistics | and | And “no” combine to change to “archaeology | anthropology | linguistics |
次に、各々に対して読みの情報、読み辞書21g、ローマ字変換表21hを用いてローマ字変換を行う(S13)。この一例の場合は「nettowaku shakai no chishiki keiei」となる。なお、このローマ字変換において、カタカナ語が外来語と分かるときはローマ字変換でなく原語に直すようにしてもよい。この場合は「ネットワーク」がそれに相当し、これによれば全体は「network shakai no chishiki keiei」となる。 Next, Romaji conversion is performed using the reading information, the reading dictionary 21g, and the Romaji conversion table 21h (S13). In this example, “nettowaku shakai no chishiki keiei”. In this romaji conversion, when the katakana language is recognized as a foreign language, it may be changed to the original language instead of the romaji conversion. In this case, “network” corresponds to this, and according to this, the whole becomes “network shakai no chishiki keiei”.
次に、スペースで区切られた連続する自立語の先頭文字を大文字にする(S14)。例えば、「ネットワーク」「社会」「知識」「経営」はいずれも付属語を含まないため、語頭を大文字にする。一方、格助詞「の」は付属語であるので大文字の処理はしない。これにより、「Nettowaku Shakai no Chishiki Keiei」が得られる。そして、全体をイタリック体にし(S15)、「Nettowaku Shakai no Chishiki Keiei」となり書名の必須の処理は終了する。 Next, uppercase letters are used for the first letters of consecutive independent words separated by spaces (S14). For example, since “network”, “society”, “knowledge”, and “management” do not include any additional words, the initial letters are capitalized. On the other hand, the case particle “no” is an annexed word, and is not processed in upper case. As a result, “Nettowaku Shakai no Chishiki Keiei” is obtained. Then, the whole is italicized (S15), “Nettowaku Shakai no Chishiki Keiei” is obtained, and the essential processing of the book title is completed.
続いて、この書名に対して意味による訳の併記を希望するか否かを判定し(S16)、意味による訳の併記を希望する場合には(S16:YES)、書名の翻訳処理を行い、先の翻訳結果のうち内容語の語頭を大文字に直し前後を丸括弧で囲み、ローマ字変換結果の末尾に付与する(S17)。 Subsequently, it is determined whether or not the translation of the title by meaning is desired (S16). When the translation of the meaning by meaning is desired (S16: YES), the title is translated. In the previous translation result, the beginning of the content word is changed to upper case, and the front and back are enclosed in parentheses and added to the end of the Romaji conversion result (S17).
例えば、書名の翻訳として「knowledge management of network society」という翻訳結果が得られると、先の翻訳結果のうち書名を表す内容語、「knowledge」 「management」、「 network society」の語頭を大文字に直し前後を丸括弧で囲む。すると、この一例ではof以外が内容語であるので、「Knowledge Management of Network Society」となる。この大文字化のあと全体を丸括弧で囲み、これをステップS15で得られた文字列の末尾に付与する。よってこの一例ではNettowaku Shakai no Chishiki Keiei (Knowledge Management of Network Society)という文字列となり処理を終了する。 For example, if the translation result “knowledge management of network society” is obtained as a translation of the book title, the word “knowledge” “management” and “network society” in the previous translation result will be capitalized. Enclose the front and back in parentheses. Then, in this example, content words other than “of” are “Knowledge Management of Network Society”. After this capitalization, the whole is enclosed in parentheses, and this is added to the end of the character string obtained in step S15. Therefore, in this example, the character string “Nettowaku Shakai no Chishiki Keiei (Knowledge Management of Network Society)” is obtained and the processing is terminated.
この一例においては、他に書名として「人工知能学事典」、雑誌名「情報処理」があるが、これらも同様に処理する。その場合、論文名である「知識経営の戦略」はイタリック体にしない点を除き同じ処理を行う。これは、ローマ字変換のイタリック体の書名と書名の英訳とを併記した英訳併記方式を採用したためである。 In this example, there are “Artificial Intelligence Encyclopedia” and magazine name “Information Processing” as other titles, which are processed in the same manner. In that case, the same processing is performed except that the article title “Knowledge Management Strategy” is not italicized. This is due to the adoption of an English translation and writing system in which the italicized titles for Roman conversion and the English translation of the titles are written together.
次に、著者名の翻訳の説明を行う。前述した参考文献書式変換規則21iの中の著者名の処理を行う。すなわち、単著である5行目の著者名を人名として機械翻訳すると”Ikujiro Nonaka”を得る。これは「名、姓」の順序になっているため、「姓、名」のように逆転させ、カンマで区切って”Nonaka, Ikujiro”を得る。一方、「国領二郎・野中郁次郎・片岡雅憲」のように著者が複数よりなる3行目に関しては、個々に翻訳し、それぞれ、”Jiro Kokuryo””Ikujiro Nonaka”“Masanori Kataoka”を得る。これらはみな「名、姓」の順序になっている。複数著者の場合最初の著者のみ「姓、カンマ、名」とするのが一般的であるので、“Kokuryo, Jiro”となり、残りの著者をカンマとandでつなげて”Kokuryo, Jiro, Ikujiro Nonaka, and Masanori Kataoka”を得る。 Next, translation of author names will be explained. The author name in the reference document format conversion rule 21i is processed. That is, if the author's name on the 5th line, which is a single work, is machine translated as a human name, “Ikujiro Nonaka” is obtained. Since this is in the order of “first name, last name”, it is reversed like “first name, last name” and separated by commas to obtain “Nonaka, Ikujiro”. On the other hand, the third line consisting of multiple authors such as “Jiro Kokuryo, Kanjiro Nonaka, Masanori Kataoka” is individually translated to obtain “Jiro Kokuryo”, “Ikujiro Nonaka”, and “Masanori Kataoka” respectively. These are all in the order of “first name, last name”. In the case of multiple authors, it is common for only the first author to have “first name, comma, first name”, so “Kokuryo, Jiro”, and connect the remaining authors with a comma and “Kokuryo, Jiro, Ikujiro Nonaka, and Masanori Kataoka ”.
次に、カテゴリ付与では著者と分類された「人工知能学会編」であるが、この末尾が「編」であることに着目して、編者と解釈し直し、編者というカテゴリを与え、漢字「編」を除いた部分を翻訳する。この場合、”Japanese Society for Artificial Intelligence”と翻訳され、編者であることを明記する印である、“(ed.)”といった文字列を付与し、“Japanese Society for Artificial Intelligence (ed.)”を得る。 Next, category assignment is “artificial intelligence society edition” classified as an author, but paying attention to the fact that the end is “hen”, it is re-interpreted as an editor, giving the category editor, and the kanji “ Translate the part except "". In this case, it will be translated as “Japanese Society for Artificial Intelligence”, and will be given a character string such as “(ed.)”, Which is a mark clearly stating that it is an editor, and “Japanese Society for Artificial Intelligence (ed.)” obtain.
一方、出版社とカテゴリ分類された「NTT出版」や「共立出版」は単語・熟語辞書21cを主に利用して翻訳する。これらの社名の訳語がこれらの辞書に登録されていなければ、形態素解析を行った後、書名と同じ要領で分かち書きし、語頭を大文字とする。例えば、「NTT出版」が辞書に未登録であった場合、これは”NTT Shuppan”という文字列に変換される。また、出版年/発行年に対しては、図2の一例では「2003」、「2003」、「2006」であり、英語でもそのまま通用するため何も処理を行わない。ただし、「2003年」「2006年」とする方式もあり、この場合は「年」を省く必要が生じる。
On the other hand, “NTT publishing” and “Kyoritsu publishing” categorized as publishers are translated mainly using the word /
次に、カテゴリが不定であった「47巻」「5号」「547−552頁」に対する処理について述べる。「〜巻」「〜号」「〜頁」「〜ページ」などの助数詞は「参考文献」に頻出する語である。「巻」「号」のような助数詞は文脈によって様々なものの数を表し、単独では意味が曖昧である。例えば、「号」の助数詞は雑誌など定期的に発行されるものや、順序のあるものについて、順を追って数えるのに用いられる。雑誌以外には「X町1丁目2番地3号」のように住所の一部として、また「第1条第2項第3号」のように法律・条約や契約文書の箇所を示すものとしても用いる。
Next, processing for “Volume 47”, “No. 5”, “Pages 547 to 552” whose category is indefinite will be described. Classifiers such as “˜Volume”, “No.”, “˜Page”, “˜Page”, etc. are frequently used in “References”. Classifiers such as “Volume” and “No.” represent various numbers depending on the context, and their meaning is ambiguous alone. For example, the classifier of “No.” is used to count things that are regularly issued, such as magazines, and those that are in order. Other than magazines, as part of the address, such as “X town 1-chome, 2-3 No. 3”, and as the “
そこで、変換文法辞書21dの項目に、「参考文献」の文脈であることを参照した規則を予め設定しておく。図6は変換文法辞書21の変換規則の一例の説明図である。図6では、「号」の見出し語に関する変換規則を示している。変換規則は、見出し語「号」、品詞「助数詞」、規則適用条件、「変換規則」とからなり、規則適用条件の第3番目に「参考文献の要素である」場合が定められており、その「変換規則」として、「訳語をNo.またはno.にし語順を入れ替える」が定められている。このような変換文法辞書21dを持つことにより、参考文献の記述部を持つ文章の該当箇所の翻訳は「5号」が望ましい語でかつ正しい語順で”No. 5”と変換できる。
Therefore, a rule that refers to the context of the “reference document” is set in advance in the item of the
同様に「547-552頁」についても、図6に示した変換規則と同様に、変換文法辞書21dの「頁」の見出し語に「参考文献」の文脈であることを参照した規則適用条件や変換規則を設定しておくことにより、「頁」の訳語として”page”ではなく「参考文献」で用いられる省略形の”p.”や”pp.”と変換され、数字が後続する。この場合は、ハイフンを含み、複数ページにわたるため、”pp.”が選択される。「巻」についても「参考文献」の要素であるという条件付けで同様に訳語を決定できる。
Similarly, with respect to “pages 547 to 552”, as in the conversion rule shown in FIG. 6, the rule application condition that refers to the context of “reference document” in the heading word of “page” in the
こうして「参考文献」箇所の翻訳が一通り終了すると、先に翻訳部26に送られていた同一文書内の「参考文献」箇所以外の部分の訳文との結合を記憶させておいた後続部分の情報を利用して行う。
When the translation of the “reference document” portion is completed in this way, the subsequent portion in which the combination with the translation of the portion other than the “reference document” portion in the same document previously sent to the
以上の説明では、図3のステップS9でのカテゴリの判定に、予め参考文献書式知識ベース24に記憶した典型的な書式の知識を用いたが、書式をユーザで定義することも可能である。これは、いくつかの代表的な書式を示して、その中から書式を選択させたり、実際に所望の書式を記述して定義する。例えば、単行本については下記の書式などがある。
・著者名『書名』出版地、出版社、出版年
・著者名.書名.出版地,出版社,出版年
・著者名 出版年 『書名』出版地: 出版社。
In the above description, the typical format knowledge stored in the reference
・ Author Name “Book Name” Publication place, publisher, publication year, author name. Book title. Publication place, publisher, publication year / author name Publication year Book title Publication place: Publisher.
また、論文については下記の書式などがある。
・著者名「論文名」、『雑誌名』巻号(発行年)、ページ
・著者名 発行年 「論文名」 発行者名『雑誌名』巻号: ページ
・著者名:論文名,雑誌名,Vol.,No.,ページ,発行年。
There are also the following formats for papers.
・ Author name “Thesis name”, “Journal name” Volume (issue year), Page ・ Author name Publication year “Paper name” Publisher name “Journal name” Volume: Page ・ Author name: Paper name, Journal name, Vol., No., page, year of publication.
これらの書式を具体的に示し、これらを画面に表示させて選択させ、選択肢に候補がなければユーザ定義とする。また、翻訳処理の間に新たにカテゴリが判明した要素やカテゴリの解釈変更を行った要素については、参考文献データ格納部23を更新させるようにしてもよい。
These formats are specifically shown and displayed on the screen to be selected. If there are no candidates in the options, the user definition is used. In addition, the reference
また、以上の説明では、日本語が原言語で、英語が目的言語である場合について説明したが、日本語が原言語で、中国語が目的言語の場合もローマ字変換をピンイン変換と読みかえれば同様の手法を用いることができる。 In the above explanation, the case where Japanese is the original language and English is the target language has been described. However, if Japanese is the source language and Chinese is the target language, the Romaji conversion can be read as Pinyin conversion. Similar techniques can be used.
また、以上の説明では、参考文献の記述部分の要素について、第一言語の書誌情報の提示順序を保持したまま第二言語に翻訳するものとしていたが、第二言語で要求する書式の提示順序に翻訳することも可能である。例えば、英語において参考文献の記述の代表的な書式として、APA (American Psychological Association) 書式、CBE (Council of Biology Editors) 書式、MLA (Modern Language Association) 書式がある。例えば、MLA方式とAPA方式について、提示順序をみると、MLAでは書籍の場合は1.著者名、2.書名、3.出版地、4.出版社、5.出版年の順、論文に関しては1.著者名、2.論文名、3.雑誌名、4.号数、5.発行年、6. ページの順序をとる。
In the above description, the element of the description part of the reference document is translated into the second language while maintaining the presentation order of the bibliographic information in the first language. It is also possible to translate into For example, in English, there are APA (American Psychological Association) format, CBE (Council of Biology Editors) format, and MLA (Modern Language Association) format as typical formats for describing references in English. For example, regarding the order of presentation for the MLA and APA methods, in the case of books in MLA: 1. author name, 2. book title, 3. place of publication, 4. publisher, 5. order of publication year,
一方、APA方式では書籍の場合、1.著者名、2.出版年、3.書名、4.出版地、5.出版社の順、論文に関しては1.著者名、2.発行年、3.論文名、4.雑誌名、5.号数、6. ページの順序をとる。このように出版年/発行年の扱いについて、先頭近辺に置くか、末尾近辺に置くかの大きな違いがあることが分かる。 On the other hand, in the case of books in the APA format, 1. author name, 2. publication year, 3. book title, 4. place of publication, 5. order of publishing company, and for papers, 1. author name, 2. publication year, 3. Take the order of the article title, 4. journal name, 5. issue number, 6. page. In this way, it can be seen that there is a big difference in the handling of the publication year / issue year whether it is placed near the beginning or near the end.
図7は第二言語で要求する書式の提示順序に参考文献の記述部分を出力する処理内容のフローチャートである。翻訳部26は、前提として図3のステップS1〜S9の翻訳処理を行っておく。このため、「参考文献」の各要素には原則としてカテゴリが付与されている状態である。そこで、要素、カテゴリ、訳語の三つを組にしておく(S21)。この一例での要素、カテゴリ、訳語の組を表1に示す。
次に、制御部25は、記憶装置19に予め記憶された対話画面のうち、図8に示すような書式の選択画面を表示装置17に表示出力しユーザに提示する(S22)。図8においては、ユーザが書式名、その書式が用いられる代表的な学問分野、凡例を手がかりに書式を選択できるようになっている。また、ここでは前述した3つの書式と、「その他」という選択肢があり、書名の翻訳を希望する場合のチェック欄がある。これらの候補の中に所望の書式があるかどうかをユーザは判断し(S23)、所望の書式がある場合は(S23:YES)、その所望の書式を選択する(S24)。ユーザにより所望の書式が選択されると、ステップS1の三つの組を用いて並べ替え変換を行う(S25)。
Next, the
いま、APA方式が選択され、その書名の翻訳の欄がチェックされたとすると、著者の箇所はKokuryo, J., Nonaka, I. & Kataoka, M.となる。 Now, if the APA method is selected and the translation column of the book title is checked, the author's location is Kokuryo, J., Nonaka, I. & Kataoka, M.
なお、前述したように、著者が複数の場合の書式は、参考文献変換規則21iに記述されており、ユーザは、特にこのことを意識する必要がないようになっている。つまり、例えば、前述のAPA方式では著者が複数の場合でも、全て姓・名の順序をとり、かつ、最後の2名を&(アンパーサンド)で結ぶといった規則が入っている。並べ替え、変換が終了すると、以下のような結果になる。 As described above, the format when there are a plurality of authors is described in the reference document conversion rule 21i, and the user does not need to be aware of this. That is, for example, in the above-mentioned APA method, even if there are a plurality of authors, there is a rule that all names are given in the order of last name and first name, and the last two names are connected by & (ampersand). When rearrangement and conversion are completed, the following results are obtained.
Kokuryo, J., Nonaka, I. & Kataoka, M. Nettowaku Shakai no Chishiki Keiei (Knowledge Management of Network Society). 出版地: NTT Shuppan, 2003.
ここでは、出版地の欄が日本語の文字そのままになっている。これは図2の原文にはない情報であるからである。このような場合、制御部25はユーザに情報の提供を促すか、または出版地の所在地を一般の検索システム(www検索、文献DB検索などがある)により調べて翻訳する。これにより、例えば、「東京」の場合、”Tokyo”と翻訳される。この文字列を「出版地」の箇所に代入することにより処理を終える。
Kokuryo, J., Nonaka, I. & Kataoka, M. Nettowaku Shakai no Chishiki Keiei (Knowledge Management of Network Society). Publisher: NTT Shuppan, 2003.
Here, the field of publication is in Japanese characters. This is because the information is not in the original text of FIG. In such a case, the
ステップS23の判断で、ユーザの希望する書式が「その他」である場合には(S23:NO)、ユーザは、著者名、書名、出版地、出版社、出版年などのキーワードと各種記号を使って書式を定義する(S26)。この場合、APA、CBE、MLA方式と大枠については類似しており、細部が異なる場合は、類似している書式の凡例をコピーし、異なる部分を変更することにより希望の書式を容易に定義することができる。ユーザ定義が終わると、先のAPA方式を選択した場合と同様に、並び替えなどにより希望の書式に変換を行い(S25)、処理を終える。 If it is determined in step S23 that the format desired by the user is “others” (S23: NO), the user uses keywords such as author name, book title, place of publication, publisher, year of publication, and various symbols. The format is defined (S26). In this case, the outline is similar to the APA, CBE, and MLA methods, and if the details are different, the legend of the similar format is copied and the desired format is easily defined by changing the different parts. be able to. When the user definition is finished, as in the case where the previous APA method is selected, conversion into a desired format is performed by rearrangement or the like (S25), and the process is finished.
なお、ユーザにより定義された書式は再度定義する手間が省けるよう、参考文献書式知識データベース24に蓄積するようにしてもよい。また、要素、カテゴリ、訳語の三つ組は参考文献データ格納部23に記憶させるようにしてもよい。このようにすることで、様々な書式に切り替えて出力する場合、翻訳時間を短縮できる。
Note that the format defined by the user may be stored in the reference
本発明の実施の形態によれば、「参考文献」の中のセパレータを検出し、著者名、書名、出版社名、出版年/発行年といった要素に対して、それぞれにふさわしい翻訳を行うととともに、訳文を構成する上でも第二言語の規定する書式に変換して出力するので、参考文献の記述部分の翻訳を高精度かつ安定して行える。 According to the embodiment of the present invention, the separator in the “reference document” is detected, and the elements such as the author name, the book title, the publisher name, and the publication year / issue year are translated appropriately. In constructing the translation, it is converted into the format specified by the second language and output, so that the description part of the reference can be translated with high accuracy and stability.
また、翻訳対象となる「参考文献」の中のセパレータを検出し、そのセパレータの用いられ方と文字列の辞書引きの結果より、著者名、書名、出版社名といった要素のうち、いずれの要素に属するかを判定し、その判定結果に基づいて各要素の訳出方法や出力形式を調整するので、参考文献の記述部分の翻訳を高精度かつ安定して行える。 In addition, it detects the separator in the “reference document” to be translated, and based on the usage of the separator and the result of dictionary lookup of the character string, any element such as author name, book name, publisher name, etc. Since the translation method and output format of each element are adjusted based on the determination result, the description part of the reference can be translated with high accuracy and stability.
11…機械翻訳装置、12…CPU、13…ROM、14…RAM、15…バス、16…入力装置、17…表示装置、19…記憶装置、20…機械翻訳プログラム、21…翻訳辞書部、22…参考文献識別データベース、23…参考文献データ格納部、24…参考文献書式知識ベース、25…制御部、26…翻訳部、27…参考文献検出部、28…参考文献解析部、29…カテゴリ決定部、30…対話画面記憶部
DESCRIPTION OF
Claims (5)
Bibliography that stores machine translation program, translation dictionary that stores knowledge and rules necessary for translation, knowledge data describing how parts of speech and parentheses and punctuation marks are used to identify the part of the reference Reference format knowledge base that stores knowledge data to determine which category the elements that make up the description part of the reference belong to by referring to the identification database, the symbols and positional relationships before and after the description part of the reference Storage device, input device for inputting the original text in the first language to be translated and input necessary information for operation, and display the original text in the first language to be translated and the translated text in the second language after translation a display device for, in a computer to function as a machine translation system that includes a CPU for execution of the machine translation programs, the computer, the reference Using knowledge data that describes how parts of speech and parentheses and punctuation marks are used to identify the description part of a reference document stored in another database, the reference document is based on the original text data input from the input device. A function for detecting the description part of the reference, a function for dividing the character string of the description part of the detected reference and a separator for dividing the character string, and the reference format for the character string obtained by the division Use the knowledge data to determine which category the elements that make up the reference part of the bibliography belong to by referring to the symbols and positional relationships before and after the reference part of the reference stored in the knowledge base. The function of determining the category of the elements constituting the description part of the document and assigning the category to the character string, and the description part of the reference document of the original text to be translated to the assigned category Zui by machine translation program for causing a string description part references and a function to translate using the translation dictionary unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007242642A JP4298771B2 (en) | 2007-09-19 | 2007-09-19 | Machine translation apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007242642A JP4298771B2 (en) | 2007-09-19 | 2007-09-19 | Machine translation apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009075748A JP2009075748A (en) | 2009-04-09 |
JP4298771B2 true JP4298771B2 (en) | 2009-07-22 |
Family
ID=40610668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007242642A Active JP4298771B2 (en) | 2007-09-19 | 2007-09-19 | Machine translation apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4298771B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6076285B2 (en) * | 2014-03-25 | 2017-02-08 | 株式会社ゼンリンデータコム | Translation apparatus, translation method, and translation program |
WO2021053807A1 (en) * | 2019-09-20 | 2021-03-25 | 京セラドキュメントソリューションズ株式会社 | Image reading device and image forming device |
-
2007
- 2007-09-19 JP JP2007242642A patent/JP4298771B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2009075748A (en) | 2009-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100259407B1 (en) | Keyboard for a system and method for processing chinese language text | |
US20070021956A1 (en) | Method and apparatus for generating ideographic representations of letter based names | |
US8655641B2 (en) | Machine translation apparatus and non-transitory computer readable medium | |
KR20040070168A (en) | Translating Method, Translated Sentence Outputing Method, Recording Medium, Program, And Computer Device | |
US7136803B2 (en) | Japanese virtual dictionary | |
CN109815503B (en) | Man-machine interaction translation method | |
Abolhassani et al. | Information extraction and automatic markup for XML documents | |
JP4298771B2 (en) | Machine translation apparatus and program | |
List et al. | Toward a sustainable handling of interlinear-glossed text in language documentation | |
Kaur et al. | Hybrid approach for spell checker and grammar checker for Punjabi | |
Salam et al. | Developing the bangladeshi national corpus-a balanced and representative bangla corpus | |
Karanikolas et al. | Structuring a multimedia tri-dialectal dictionary | |
JPH11238051A (en) | Chinese input conversion processor, chinese input conversion processing method and recording medium stored with chinese input conversion processing program | |
JP2008171164A (en) | Classification support apparatus and method, and program | |
JP4643183B2 (en) | Translation apparatus and translation program | |
JP5632213B2 (en) | Machine translation apparatus and machine translation program | |
Zitouni et al. | Cross-language information propagation for arabic mention detection | |
JP2005250525A (en) | Chinese classics analysis support apparatus, interlingual sentence processing apparatus and translation program | |
Rodrigues et al. | Arabic data science toolkit: An api for arabic language feature extraction | |
Prószéky | How „Truly Electronic Dictionaries” of the 21st Century Should Look Like? | |
JPH0561902A (en) | Mechanical translation system | |
Schäfer | Language Diversity as a Result of Social Interaction: Xunzi’s View on Plurilingualism in 3rd-Century BCE China | |
JP2010122823A (en) | Text processing system, information processing apparatus, method for processing text and information, and processing program | |
Forkel et al. | Towards a sustainable handling of interlinear-glossed text in language documentation | |
Trips et al. | From original sources to linguistic analysis: Tools and datasets for the investigation of multilingualism in medieval english |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090127 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090324 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090415 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4298771 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120424 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130424 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140424 Year of fee payment: 5 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |