JP4940606B2 - Translation system, translation apparatus, translation method, and program - Google Patents

Translation system, translation apparatus, translation method, and program Download PDF

Info

Publication number
JP4940606B2
JP4940606B2 JP2005275820A JP2005275820A JP4940606B2 JP 4940606 B2 JP4940606 B2 JP 4940606B2 JP 2005275820 A JP2005275820 A JP 2005275820A JP 2005275820 A JP2005275820 A JP 2005275820A JP 4940606 B2 JP4940606 B2 JP 4940606B2
Authority
JP
Japan
Prior art keywords
sentence
translation
hit probability
search
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005275820A
Other languages
Japanese (ja)
Other versions
JP2007087157A (en
Inventor
宏樹 吉村
勝彦 糸乘
英昭 足利
俊一 木村
昌徳 恩田
雅弘 加藤
雅紀 佐竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2005275820A priority Critical patent/JP4940606B2/en
Publication of JP2007087157A publication Critical patent/JP2007087157A/en
Application granted granted Critical
Publication of JP4940606B2 publication Critical patent/JP4940606B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は異種言語間で翻訳を行うための技術に関する。   The present invention relates to a technique for translating between different languages.

日本語や英語などのように、人間が日常的なコミュニケーションに使用する言葉のことを「自然言語」と呼ぶ。自然言語は自然発生的な起源を持ち、人類の歴史とともに進化して、現在では多種多様な自然言語が存在している。自然言語は、本来は抽象的で曖昧な性質を持っているが、この自然言語からなる文章(自然言語文)を数学的に取り扱うことにより、各種のコンピュータ処理を施すことが可能である。このようなコンピュータ処理によって、機械翻訳や対話システム或いは検索システムなど、自然言語に関する様々なアプリケーションやサービスが実現されている。これらのうち「機械翻訳」は、言語の異なる者どうしが行なうコミュニケーションをコンピュータ処理を活用して支援するアプリケーション乃至サービスである。   Words that humans use for everyday communication, such as Japanese and English, are called “natural languages”. Natural languages have a natural origin and have evolved with the history of mankind, and there are now a wide variety of natural languages. Natural languages originally have abstract and ambiguous properties, but various computer processes can be performed by mathematically handling sentences (natural language sentences) composed of these natural languages. By such computer processing, various applications and services relating to natural language such as machine translation, dialogue system, and search system are realized. Among these, “machine translation” is an application or service that supports communication performed by persons having different languages using computer processing.

現在実用化されている機械翻訳システムには、「ダイレクト方式」と呼ばれる方式や、「トランスファ方式」と呼ばれる方式がある。ダイレクト方式は、予め用意された単語辞書に基づいて、翻訳元言語の単語を翻訳先言語の単語へと単純に置き換えていくものである。これは、日本語と韓国語との間の翻訳のように、翻訳元言語と翻訳先言語の文法がおおよそ似通っている場合にのみ有効な方式である。これに対し、トランスファ方式は、単語の置き換えとともに、構文構造を置き換える処理も含んでいる。よって、このトランスファ方式によれば、文法が異なる異種言語の翻訳にも対処することができる。さらに、例えば特許文献1には、上記の機械翻訳システムを改良した技術が開示されている。
特開平10−32627号公報
Currently available machine translation systems include a method called “direct method” and a method called “transfer method”. In the direct method, words in the translation source language are simply replaced with words in the translation destination language based on a word dictionary prepared in advance. This is an effective method only when the grammar of the translation source language and the translation destination language are almost similar, such as translation between Japanese and Korean. On the other hand, the transfer method includes processing for replacing a syntax structure as well as replacement of a word. Therefore, according to this transfer method, it is possible to cope with translation of different languages having different grammars. Furthermore, for example, Patent Document 1 discloses a technique in which the machine translation system is improved.
JP 10-32627 A

しかしながら、いかに精度が高い機械翻訳システムを用いたとしても、その結果得られる翻訳文は、翻訳先言語を母国語として利用している者(ネイティブスピーカ)から見ると不自然な文章になっていることが少なくない。つまり、コンピュータによる数学的な処理だけに立脚して翻訳を行っている限り、その翻訳結果には人間的で曖昧な要素が入り込む余地がないので不自然にならざるを得ない。   However, no matter how high-precision machine translation system is used, the resulting translation is unnatural when viewed from the person (native speaker) who uses the target language as the native language. There are many things. In other words, as long as translation is based on mathematical processing by a computer, there is no room for human and ambiguous elements in the translation result, so it must be unnatural.

本発明はこのような問題点に鑑みてなされたものであり、その目的は、翻訳先言語を母国語として利用している者(ネイティブスピーカ)から見ても、より自然な文章となるような翻訳を実現することにある。   The present invention has been made in view of such problems, and its purpose is to produce a more natural sentence even when viewed from a person (native speaker) who uses the translated language as a native language. To realize translation.

上記目的を達成するため、本発明は、ネットワークを介して複数のコンピュータに接続されており、検索キーワードを指定されると、当該検索キーワードが前記複数のコンピュータに記憶されている情報にヒットしたヒット件数乃至ヒット確率を出力する検索装置と、ある言語で表現された自然言語文を、別の言語で表現された複数の翻訳文候補に翻訳する翻訳手段と、指定された検索キーワードが複数のコンピュータに記憶されている情報にヒットした件数乃至ヒットした確率を出力する検索装置に対して、前記複数の翻訳文候補に含まれる語句を検索キーワードとして指定し、当該検索装置によって出力されたヒット件数乃至ヒット確率を取得する検索手段と、
前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を翻訳文として出力するか、又は、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を用いて翻訳文を作成して出力する出力手段とを備え、前記検索手段は、前記複数の翻訳文候補に対して構文意味解析を行い、各々の翻訳文候補に含まれる語句の属性を特定する手段と、前記構文意味解析の結果に基づいて、予め決められた第1の属性に該当する語句からなる基本構造文を前記複数の翻訳文候補の各々から抽出する手段と、抽出された各々の前記基本構造文を前記検索装置に対する前記検索キーワードとして指定し、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段と、前記検索装置による検索の結果取得したヒット件数乃至ヒット確率が大きい基本構造文を構成する語句のうち、予め決められた第2の属性に相当する語句を前記基本構造文から抽出し、当該語句を修飾する語句を前記複数の翻訳文候補の各々から抽出し、抽出した語句とそれを修飾する語句からなる複数の子構造を特定する手段と、特定した前記子構造を前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段とを有し、前記出力手段は、前記複数の基本構造文のうち前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記複数の子構造のうち前記ヒット件数乃至ヒット確率が大きい子構造と、前記翻訳文候補のうち前記基本構造文に含まれない語句とを用いて翻訳文を作成することを特徴とする翻訳装置とを備えることを特徴とする翻訳システムを提供する。
To achieve the above object, the present invention is connected to a plurality of computers via a network, and when a search keyword is designated, the search keyword hits information stored in the plurality of computers. A search device that outputs the number of hits or hit probabilities, a translation unit that translates a natural language sentence expressed in one language into a plurality of translation sentence candidates expressed in another language, and a computer that has a plurality of designated search keywords For the search device that outputs the number of hits to the information stored in the information or the probability of the hit, the phrase included in the plurality of translation sentence candidates is designated as a search keyword, and the number of hits output by the search device Search means for obtaining hit probabilities;
Among the plurality of translation sentence candidates, the translation sentence candidate including a phrase having a large hit probability or hit probability is output as a translation sentence, or, among the plurality of translation sentence candidates, the hit number or hit probability is large. Output means for generating and outputting a translation sentence using translation sentence candidates including phrases, and the search means performs a syntactic and semantic analysis on the plurality of translation sentence candidates and is included in each translation sentence candidate Means for identifying the attribute of the phrase to be extracted, and means for extracting, from each of the plurality of translation sentence candidates, a basic structure sentence consisting of a phrase corresponding to a predetermined first attribute based on the result of the syntax-semantic analysis And means for designating each extracted basic structure sentence as the search keyword for the search device, and obtaining the number of hits or the hit probability obtained as a result of the search by the search device; Among words constituting a basic structure sentence having a large hit probability or hit probability obtained as a result of the search by the search device, a word corresponding to a predetermined second attribute is extracted from the basic structure sentence, and the word or phrase is extracted. Means for extracting a word / phrase to be modified from each of the plurality of translation sentence candidates, specifying a plurality of child structures comprising the extracted word / phrase and a word / phrase to be modified, and the search keyword for the search device for the specified child structure; And a means for obtaining the hit count or hit probability obtained as a result of the search by the search device, and the output means has a high hit count or hit probability among the plurality of basic structure sentences. A basic structure sentence, a child structure having a high hit probability or a hit probability among the plurality of child structures, and a word not included in the basic structure sentence among the translation sentence candidates Providing a translation system characterized in that it comprises a translation device, characterized in that to create a translation using and.

また、本発明は、ある言語で表現された自然言語文を、別の言語で表現された複数の翻訳文候補に翻訳する翻訳手段と、指定された検索キーワードが複数のコンピュータに記憶されている情報にヒットした件数乃至ヒットした確率を出力する検索装置に対して、前記複数の翻訳文候補に含まれる語句を検索キーワードとして指定し、当該検索装置によって出力されたヒット件数乃至ヒット確率を取得する検索手段と、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を翻訳文として出力するか、又は、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を用いて翻訳文を作成して出力する出力手段とを備え、前記検索手段は、前記複数の翻訳文候補に対して構文意味解析を行い、各々の翻訳文候補に含まれる語句の属性を特定する手段と、前記構文意味解析の結果に基づいて、予め決められた第1の属性に該当する語句からなる基本構造文を前記複数の翻訳文候補の各々から抽出する手段と、抽出された各々の前記基本構造文を前記検索装置に対する前記検索キーワードとして指定し、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段と、前記検索装置による検索の結果取得したヒット件数乃至ヒット確率が大きい基本構造文を構成する語句のうち、予め決められた第2の属性に相当する語句を前記基本構造文から抽出し、当該語句を修飾する語句を前記複数の翻訳文候補の各々から抽出し、抽出した語句とそれを修飾する語句からなる複数の子構造を特定する手段と、特定した前記子構造を前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段とを有し、
前記出力手段は、前記複数の基本構造文のうち前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記複数の子構造のうち前記ヒット件数乃至ヒット確率が大きい子構造と、前記翻訳文候補のうち前記基本構造文に含まれない語句とを用いて翻訳文を作成することを特徴とする翻訳装置を提供する。
In the present invention, translation means for translating a natural language sentence expressed in one language into a plurality of translation sentence candidates expressed in another language, and designated search keywords are stored in a plurality of computers. For a search device that outputs the number of hits to information or the probability of hitting, a phrase included in the plurality of translated sentence candidates is specified as a search keyword, and the number of hits or hit probability output by the search device is acquired. A search means and, among the plurality of translation sentence candidates, output a translation sentence candidate including a phrase having a high hit probability or a hit probability as a translation sentence, or among the plurality of translation sentence candidates, the number of hits using a translation candidate including the word hits probability is large and an output means for outputting to create a translation, said searching means, to said plurality of translation candidates A basic structure sentence consisting of a phrase corresponding to a first attribute determined in advance based on the result of the syntactic and semantic analysis, and means for performing syntactic and semantic analysis and specifying the attribute of the phrase included in each translation sentence candidate Is extracted from each of the plurality of translation sentence candidates, each of the extracted basic structure sentences is designated as the search keyword for the search device, and the number of hits or hits obtained as a result of the search by the search device Of the words constituting the basic structure sentence having a high probability of hits or the number of hits acquired as a result of the search by the search device, the word corresponding to the predetermined second attribute is selected as the basic structure sentence. The phrase that modifies the phrase is extracted from each of the plurality of translation sentence candidates, and a plurality of child structures including the extracted phrase and the phrase that modifies the phrase are specified. It has a stage, specifying the identified said terminal structure as the search keywords for the search device, and means for obtaining the search results obtained number of hits to hit probability by the search device,
The output means includes a basic structure sentence having a high hit probability or a hit probability among the plurality of basic structure sentences, a child structure having a high hit probability or a hit probability among the plurality of child structures, and the translation sentence candidates. A translation apparatus is provided that creates a translation sentence using a phrase that is not included in the basic structure sentence .

また、本発明は、コンピュータが、ある言語で表現された自然言語文を、別の言語で表現された複数の翻訳文候補に翻訳する翻訳ステップと、コンピュータが、指定された検索キーワードが複数のコンピュータに記憶されている情報にヒットした件数乃至ヒットした確率を出力する検索装置に対して、前記複数の翻訳文候補に含まれる語句を検索キーワードとして指定し、当該検索装置によって出力されたヒット件数乃至ヒット確率を取得する検索ステップであって、前記複数の翻訳文候補に対して構文意味解析を行い、各々の翻訳文候補に含まれる語句の属性を特定し、前記構文意味解析の結果に基づいて、予め決められた第1の属性に該当する語句からなる基本構造文を前記複数の翻訳文候補の各々から抽出し、抽出された各々の前記基本構造文を前記検索装置に対する前記検索キーワードとして指定し、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得し、前記検索装置による検索の結果取得したヒット件数乃至ヒット確率が大きい基本構造文を構成する語句のうち、予め決められた第2の属性に相当する語句を前記基本構造文から抽出し、当該語句を修飾する語句を前記複数の翻訳文候補の各々から抽出し、抽出した語句とそれを修飾する語句からなる複数の子構造を特定し、特定した前記子構造を前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する検索ステップと、コンピュータが、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を翻訳文として出力するか、又は、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を用いて翻訳文を作成して出力する出力ステップであって、前記複数の基本構造文のうち前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記複数の子構造のうち前記ヒット件数乃至ヒット確率が大きい子構造と、前記翻訳文候補のうち前記基本構造文に含まれない語句とを用いて翻訳文を作成する出力ステップとを備えることを特徴とする翻訳方法を提供する。 Further, the present invention is a computer, a natural language sentence expressed in a language, a translation step of translating the plurality of translation candidates expressed in a different language, the computer has been designated search keyword of the plurality For the search device that outputs the number of hits to the information stored in the computer or the probability of the hit, the phrase included in the plurality of translated sentence candidates is specified as a search keyword, and the number of hits output by the search device Or a search step for obtaining hit probabilities , wherein the plurality of translation sentence candidates are subjected to syntax semantic analysis, attributes of phrases included in the respective translation sentence candidates are specified, and based on the result of the syntax semantic analysis A basic structure sentence consisting of a phrase corresponding to a predetermined first attribute is extracted from each of the plurality of translation sentence candidates, and each of the extracted base sentences is A structure sentence is designated as the search keyword for the search device, the number of hits or the hit probability obtained as a result of the search by the search device is obtained, and the number of hits or the hit probability obtained as a result of the search by the search device is large. A word corresponding to a predetermined second attribute is extracted from the basic structure sentence among words constituting the structure sentence, and a word that modifies the word is extracted from each of the plurality of translation sentence candidates, and extracted. A plurality of child structures consisting of the phrase and the phrase that modifies the phrase, the identified child structure as the search keyword for the search device, and the number of hits or hits obtained as a result of the search by the search device a searching step of obtaining a probability, the computer of the plurality of translation candidates, the number of hits to the phrase hit probability is greater Output step whether to output a translation candidate as a translation, or, among the plurality of translation candidates, and outputs the created a translation using a translation candidate including the number of hits to the phrase hit probability is greater comprising Among the plurality of basic structure sentences, the basic structure sentence having a large hit probability or hit probability, the child structure having the large hit number or hit probability among the plurality of child structures, and the translation sentence candidates There is provided a translation method comprising: an output step of creating a translation sentence using a phrase not included in the basic structure sentence .

また、本発明は、ンピュータに、ある言語で表現された自然言語文を、別の言語で表現された複数の翻訳文候補に翻訳する翻訳機能と、指定された検索キーワードが複数のコンピュータに記憶されている情報にヒットした件数乃至ヒットした確率を出力する検索装置に対して、前記複数の翻訳文候補に含まれる語句を検索キーワードとして指定し、当該検索装置によって出力されたヒット件数乃至ヒット確率を取得する検索機能であって、前記複数の翻訳文候補に対して構文意味解析を行い、各々の翻訳文候補に含まれる語句の属性を特定し、前記構文意味解析の結果に基づいて、予め決められた第1の属性に該当する語句からなる基本構造文を前記複数の翻訳文候補の各々から抽出し、抽出された各々の前記基本構造文を前記検索装置に対する前記検索キーワードとして指定し、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得し、前記検索装置による検索の結果取得したヒット件数乃至ヒット確率が大きい基本構造文を構成する語句のうち、予め決められた第2の属性に相当する語句を前記基本構造文から抽出し、当該語句を修飾する語句を前記複数の翻訳文候補の各々から抽出し、抽出した語句とそれを修飾する語句からなる複数の子構造を特定し、特定した前記子構造を前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する検索機能と、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を翻訳文として出力するか、又は、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を用いて翻訳文を作成して出力する出力機能であって、前記複数の基本構造文のうち前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記複数の子構造のうち前記ヒット件数乃至ヒット確率が大きい子構造と、前記翻訳文候補のうち前記基本構造文に含まれない語句とを用いて翻訳文を作成する出力機能とを実現させるためのプログラムを提供する。 Further, the present invention is the computer, the natural language sentence expressed in a language, a translation function for translating a plurality of translation candidates expressed in a different language, the designated search keyword are multiple computers For the search device that outputs the number of hits to the stored information or the hit probability, the phrase included in the plurality of translation sentence candidates is designated as a search keyword, and the number of hits or hits output by the search device A search function for acquiring a probability, performing a syntax semantic analysis on the plurality of translation sentence candidates, specifying an attribute of a phrase included in each translation sentence candidate, and based on a result of the syntax semantic analysis, A basic structure sentence composed of words corresponding to a predetermined first attribute is extracted from each of the plurality of translation sentence candidates, and each of the extracted basic structure sentences is stored in the search device. Phrases that constitute a basic structure sentence that is designated as the search keyword, obtains the hit number or hit probability obtained as a result of the search by the search device, and has a large hit probability or hit probability obtained as a result of the search by the search device Among them, a phrase corresponding to a predetermined second attribute is extracted from the basic structure sentence, a phrase that modifies the phrase is extracted from each of the plurality of translation sentence candidates, and the extracted phrase and its modification A search function for specifying a plurality of child structures composed of words and phrases, specifying the specified child structure as the search keyword for the search device, and acquiring the number of hits or the hit probability obtained as a result of the search by the search device A translation sentence candidate including a phrase having a high hit probability or a hit probability among the plurality of translation sentence candidates is output as a translation sentence, or Among the plurality of translation candidates, the number of hits to hit probability with the translation candidate including phrase large an output function of outputting to create a translation, the plurality of the basic structure statement said Using a basic structure sentence with a high hit probability or hit probability, a child structure with a high hit number or hit probability among the plurality of child structures, and a phrase that is not included in the basic structure sentence among the translation sentence candidates A program for realizing an output function for creating a translation is provided.

本発明によれば、検索装置に対して、複数の翻訳文候補に含まれる語句をそれぞれ検索キーワードとして指定し、その検索結果であるヒット件数乃至ヒット確率を取得する。検索装置は、指定された検索キーワードを用いて、複数のコンピュータに記憶されている様々な情報を検索するので、ヒット件数乃至ヒット確率が高い語句は、多くの人間が使用している語句である。よって、複数の翻訳文候補のうち、ヒット件数乃至ヒット確率が高い語句を含む翻訳文候補は、語句の組み合わせや順序などがより自然で一般的な文章と言える。このような翻訳文候補を翻訳文として出力する、又は、必要に応じて、このような翻訳文を用いて翻訳文を作成して出力するので、ネイティブスピーカにとって自然な言い回しの翻訳文を得ることができる。   According to the present invention, a phrase included in a plurality of translation sentence candidates is designated as a search keyword for the search device, and the number of hits or the hit probability as a search result is acquired. Since the search device searches various information stored in a plurality of computers using a specified search keyword, a phrase with a high hit count or a high hit probability is a phrase used by many people. . Therefore, a translation sentence candidate including a phrase with a high hit probability or a hit probability among a plurality of translation sentence candidates can be said to be a sentence having a more natural combination and order of phrases. Such a translation sentence candidate is output as a translation sentence, or if necessary, a translation sentence is created and output using such a translation sentence, so that a translation sentence with a natural phrase for a native speaker can be obtained. Can do.

次に、発明を実施するための最良の形態について説明する。以下の説明において、「語句」とは、その文字どおり、「語」(単語)のみならず、句(フレーズ)を含む意味で用いている。
本実施形態では、従来の機械翻訳によって、ある言語で表現された自然言語文を、別の言語で表現された複数の翻訳文候補に翻訳する。この結果、得られた複数の翻訳文候補に含まれる語句を、インターネット上の検索エンジンに検索キーワードとして指定して検索を実行させる。検索エンジンは、指定された検索キーワードと、個人や組織が開設しているWWW(World Wide Web)サイトで公開されている様々な文章とを比較し、そのヒット件数乃至ヒット確率を出力するものである。つまり、この検索エンジンでヒットする件数乃至確率が高い表現は、多くの人間が使用している表現である。よって、複数の翻訳文候補のうち、ヒット件数乃至ヒット確率が大きい翻訳文候補は、語句の組み合わせや順序などがより自然で一般的な文章と言える。従って、検索エンジンでヒットした件数乃至確率が高い語句を含む翻訳文候補を用いて翻訳文を作成すれば、ネイティブスピーカにとって自然な言い回しの翻訳文を得ることができるというわけである。
Next, the best mode for carrying out the invention will be described. In the following description, “word / phrase” is literally used to mean not only “word” (word) but also a phrase (phrase).
In the present embodiment, a natural language sentence expressed in one language is translated into a plurality of translation sentence candidates expressed in another language by conventional machine translation. As a result, a search is executed by specifying a search phrase on the Internet for a phrase included in the obtained plurality of translation sentence candidates as a search keyword. The search engine compares the specified search keyword with various texts published on the WWW (World Wide Web) sites established by individuals and organizations, and outputs the number of hits and the hit probability. is there. That is, an expression with a high number of cases or a probability of hitting in this search engine is an expression used by many people. Therefore, a translation sentence candidate having a large number of hits or a hit probability among a plurality of translation sentence candidates can be said to be a general sentence with a more natural combination and order of phrases. Therefore, if a translated sentence is created using candidate translation sentences including words or phrases having a high probability or number of hits in the search engine, it is possible to obtain a translated sentence that is natural for native speakers.

図1は、本実施形態に係る翻訳装置10の構成を示す図である。この翻訳装置10は、例えば汎用のパーソナルコンピュータに、翻訳処理の手順が記述された翻訳プログラムと、インターネットを介した通信を行う手順が記述されたWWWブラウザプログラムとがインストールされたものである。これらの翻訳プログラムやWWWブラウザプログラムは、例えばハードディスク装置などの記憶部11に記憶されている。翻訳プログラムには、機械翻訳に用いられる翻訳辞書が含まれている。この翻訳辞書には、翻訳元言語の語句と、翻訳先言語の語句とが対応付けられて記述されており、いわゆる機械翻訳のために利用される。   FIG. 1 is a diagram illustrating a configuration of a translation apparatus 10 according to the present embodiment. This translation apparatus 10 is, for example, a general-purpose personal computer in which a translation program describing a procedure for translation processing and a WWW browser program describing a procedure for performing communication via the Internet are installed. These translation programs and WWW browser programs are stored in the storage unit 11 such as a hard disk device. The translation program includes a translation dictionary used for machine translation. In this translation dictionary, a phrase in the translation source language and a phrase in the translation destination language are described in association with each other and used for so-called machine translation.

制御部12は例えばCPUであり、記憶部11に記憶されている各種プログラムを実行する。通信部13は、例えば公衆電話回線、ISDN(Integrated Services Digital Network)回線或いはADSL(Asymmetric Digital Subscriber Line)回線を介してインターネット20に接続されている。インターネット20は、標準化された通信プロトコル(TCP/IP)を用いて全世界のネットワークを相互に接続した巨大なコンピュータネットワークである。多数のコンピュータがこのインターネット20に接続されており、このインターネット20を介して相互に通信を行うことができるようになっている。インターネット20に接続されたコンピュータの1つが検索エンジンサーバ装置30である。検索エンジンサーバ装置30は、WWWサーバ装置の1種であり、コンピュータからインターネット20を介して指定されたキーワードに基づいて、インターネット20上で公開されている情報(インターネット20に接続されているコンピュータによって記憶されている情報)を検索し、その検索結果をコンピュータに返す、という検索サービスを提供する。検索結果には、検索キーワードが複数のコンピュータに記憶されている情報にヒットしたヒット件数乃至ヒット確率が含まれている。代表的な検索サービスとしては、「Google」、「goo」、「Yahoo!」(いずれも登録商標)などがある。   The control unit 12 is a CPU, for example, and executes various programs stored in the storage unit 11. The communication unit 13 is connected to the Internet 20 via, for example, a public telephone line, an ISDN (Integrated Services Digital Network) line, or an ADSL (Asymmetric Digital Subscriber Line) line. The Internet 20 is a huge computer network that connects networks all over the world using a standardized communication protocol (TCP / IP). Many computers are connected to the Internet 20 and can communicate with each other via the Internet 20. One of the computers connected to the Internet 20 is a search engine server device 30. The search engine server device 30 is a kind of WWW server device, and is based on keywords specified from the computer via the Internet 20, and is made public on the Internet 20 (by a computer connected to the Internet 20). A search service is provided for searching stored information) and returning the search result to a computer. The search result includes the number of hits or the hit probability that the search keyword hits information stored in a plurality of computers. Typical search services include “Google”, “goo”, and “Yahoo!” (all are registered trademarks).

データ入出力部14は、翻訳装置10に対するデータの入出力を行うものであり、例えば各種の記憶媒体に対してデータの読み書きを行うドライブ装置や、LAN(Local Area Network)等のネットワークを介して他の装置とデータの遣り取りを行う通信装置などである。表示部15は、例えば液晶ディスプレイやCRT(Cathode Ray Tube)ディスプレイである。操作部16は、例えばキーボードやマウスによって構成されている。   The data input / output unit 14 inputs / outputs data to / from the translation device 10, and for example, via a drive device that reads / writes data from / to various storage media or a network such as a LAN (Local Area Network). A communication device that exchanges data with other devices. The display unit 15 is, for example, a liquid crystal display or a CRT (Cathode Ray Tube) display. The operation unit 16 is configured by, for example, a keyboard and a mouse.

本実施形態では、LFG(Lexical Functional Grammar)と呼ばれる言語解析理論を用いるため、その内容について簡単に説明する。
このLFGに基づく言語解析では、構文解析と意味解析(格構造解析)を行なうことにより、それぞれconstituent structure(c-structure)とfunctional structure (f-structure)と呼ばれる構造を解析結果として出力する。f-structureは、文の構文的及び意味的情報が属性と属性値とのペアの入れ子構造によって表現されているところが特徴である。文を構成するそれぞれの語句は、PRED(predicate: 述語)と呼ばれる属性に対応する属性値としてf-structureに記述される。このf-structureにおいて各言語に依存して変化する部分は、上記のPREDに対応する属性値(語句)のみであり、それ以外は全言語を通して共通化(標準化)されている。すなわち、言語が異なっても同じ意味内容を表す文であれば、語句そのものを除いて、まったく同じ構造のf-structureとなるというわけである。
In this embodiment, since a language analysis theory called LFG (Lexical Functional Grammar) is used, the contents thereof will be briefly described.
In this language analysis based on LFG, syntactic analysis and semantic analysis (case structure analysis) are performed to output structures called constant structure (c-structure) and functional structure (f-structure) as analysis results. The f-structure is characterized in that the syntactic and semantic information of a sentence is expressed by a nested structure of pairs of attributes and attribute values. Each word constituting the sentence is described in the f-structure as an attribute value corresponding to an attribute called PRED (predicate: predicate). In this f-structure, the part that changes depending on each language is only the attribute value (phrase) corresponding to the above PRED, and other parts are standardized (standardized) throughout all languages. In other words, sentences that represent the same meaning and content, even in different languages, will be f-structures with exactly the same structure, except for the words themselves.

このf-structureについて、一例を挙げて説明する。
図2は、例えば「太郎が花子にプレゼントを渡した。」という日本語文に対し、LFG解析を施して得られるf-structureの例を示した図である。図2では、属性とその属性値との対応関係は、互いに水平な位置に配置することで表現している。例えば、属性「PRED」と属性値「渡す」とが対応関係にある。図中で下線を引いて示した部分は、語句(PRED属性に対応する属性値)であり、語句の内容以外は全て全言語に共通の概念である。ただし、全言語に共通の部分は、表記上は英語で表現している。なお、図において、属性「PRED」は述語、属性「SUBJ」は主格、属性「OBJ」は目的格、属性「OBL」は斜格、属性「TENSE」は時制、そして、「PAST」は過去という意味を表している。なお、図3は、属性のより詳細なリストである。f-structureの詳細については、文献「Miriam Butt, et. al., “A Grammar Writer’s Cookbook”, CSLI Publication (1999)」に開示されている。
This f-structure will be described with an example.
FIG. 2 is a diagram illustrating an example of an f-structure obtained by performing LFG analysis on a Japanese sentence “Taro gave a present to Hanako”, for example. In FIG. 2, the correspondence between the attribute and the attribute value is expressed by arranging them at horizontal positions. For example, the attribute “PRED” and the attribute value “pass” are in a correspondence relationship. The part underlined in the figure is a word (attribute value corresponding to the PRED attribute), and all the contents except for the word / phrase are concepts common to all languages. However, parts common to all languages are expressed in English for notation. In the figure, attribute “PRED” is a predicate, attribute “SUBJ” is the main case, attribute “OBJ” is the purpose case, attribute “OBL” is the oblique case, attribute “TENSE” is the tense, and “PAST” is the past. Represents meaning. FIG. 3 is a more detailed list of attributes. Details of the f-structure are disclosed in the document “Miriam Butt, et. al.,“ A Grammar Writer's Cookbook ”, CSLI Publication (1999)”.

次に、本実施形態の動作について説明する。
図4〜7は、翻訳プログラムに記述された制御部12の実行手順を示すフローチャートである。このフローチャートによって表した翻訳手順は、おおよそ次の内容に大別することができる。
基本構造文の抽出・選択(図4:ステップS1〜ステップS5)
基本構造文の子構造の抽出・選択(図4:ステップS6〜図5:ステップS17)
基本構造文に含まれない語句の抽出・選択(図5:ステップS23〜ステップS26、図6:ステップS18〜図7:ステップS31)
Next, the operation of this embodiment will be described.
4 to 7 are flowcharts showing the execution procedure of the control unit 12 described in the translation program. The translation procedure represented by this flowchart can be roughly divided into the following contents.
Extraction and selection of basic structure sentence (FIG. 4: step S1 to step S5)
Extraction and selection of child structure of basic structure sentence (FIG. 4: step S6 to FIG. 5: step S17)
Extraction and selection of words not included in the basic structure sentence (FIG. 5: Step S23 to Step S26, FIG. 6: Step S18 to FIG. 7: Step S31)

まず、ユーザが翻訳装置10の操作部16を操作することで、翻訳元言語で表現された文章(以下、原文という)をデータ入出力部14から翻訳装置10に入力させ、翻訳するように指示する。ここでは翻訳元言語を英語とし、その英語の原文は以下のような内容とする。また、翻訳先言語は日本語とする。
“Japanese children enter the first grade of elementary school in the April after their sixth birthday.”
制御部12は、ユーザからの翻訳の指示に応じて翻訳プログラムを実行し、図4に示す処理を開始する。まず、制御部12は、翻訳辞書を用いて上記の原文を日本語に機械翻訳する(ステップS1)。この翻訳処理により、制御部12は以下のような3通りの翻訳結果を得たとする。
(a)「日本人の子供は4月に彼らの6回目の誕生日以降、小学校の一学年に入る。」
(b)「日本の子供は彼らの6才の誕生日の後に4月に第1の等級の小学校に入ります。」
(c)「日本の子供は彼らの第6誕生日の後の4月に小学校の最初等級を入れる。」
以下、上記の3つの文(a)、(b)、(c)を「翻訳文候補」という。
First, the user operates the operation unit 16 of the translation device 10 to input a sentence expressed in the translation source language (hereinafter referred to as an original sentence) from the data input / output unit 14 to the translation device 10 and instruct to translate it. To do. Here, the source language is English, and the original English text is as follows. Also, the target language will be Japanese.
“Japanese children enter the first grade of elementary school in the April after their sixth birthday.”
The control unit 12 executes the translation program in response to a translation instruction from the user, and starts the process shown in FIG. First, the control unit 12 machine-translates the original text into Japanese using a translation dictionary (step S1). It is assumed that the control unit 12 obtains the following three translation results by this translation process.
(A) “Japanese children enter the first grade of elementary school after their sixth birthday in April.”
(B) “Japanese children enter the first grade elementary school in April after their 6th birthday.”
(C) “Japanese children enter the first grade of elementary school in April after their sixth birthday.”
Hereinafter, the above three sentences (a), (b), and (c) are referred to as “translation sentence candidates”.

次に、制御部12は、これらの翻訳文候補に対して。LFGを用いた構文意味解析を行う(ステップS2)。これにより、制御部12は、翻訳文候補(a)に対するf-structure(図8参照)、翻訳文候補(b)に対するf-structure(図9参照)、翻訳文候補(c)に対するf-structure(図10参照)を得る。   Next, the control unit 12 performs these translation sentence candidates. Syntactic and semantic analysis using LFG is performed (step S2). Accordingly, the control unit 12 performs f-structure (see FIG. 8) for the translation sentence candidate (a), f-structure (see FIG. 9) for the translation sentence candidate (b), and f-structure for the translation sentence candidate (c). (See FIG. 10).

次に、制御部12は、翻訳文候補(a)、(b)、(c)の各々のf-structureから、属性「PRED」、「SUBJ」、「OBJ」「OBL」の属性値(語句)を取り出し、取り出した属性値(語句)からなる文(以下、基本構造文という)を生成する(ステップS3)。これらの属性「PRED」、「SUBJ」、「OBJ」「OBL」は、文中の主要な語句の属性と言えるから、これらの属性の属性値(語句)からなる基本構造文は、一般に「格」と呼ばれ、原文の基本的な構造を表した文と言える。なお、属性「OBL」の「PRED」には、格助詞(「に」、「を」など)が属性値として記述されるが、制御部12は、基本構造文を生成する際にはこの属性「OBL」の「PRED」に自立語を対応させる。   Next, the control unit 12 determines the attribute values (phrases) of the attributes “PRED”, “SUBJ”, “OBJ”, and “OBL” from the f-structures of the translation sentence candidates (a), (b), and (c). ) And a sentence composed of the extracted attribute values (words) (hereinafter referred to as a basic structure sentence) is generated (step S3). Since these attributes "PRED", "SUBJ", "OBJ", and "OBL" can be said to be the attributes of the main words in the sentence, the basic structure sentence consisting of attribute values (phrases) of these attributes is generally "case" It is called a sentence that represents the basic structure of the original text. Note that the case particle (“Ni”, “O”, etc.) is described as an attribute value in “PRED” of the attribute “OBL”, but the control unit 12 generates this attribute when generating the basic structure sentence. Associate self-supporting words with “PRED” in “OBL”.

これにより、制御部12は、以下のような3つの基本構造文を得る。なお、翻訳文候補(a)と基本構造文(a1)が対応しており、翻訳文候補(b)と基本構造文(b1)が対応しており、翻訳文候補(c)と基本構造文(c1)が対応している。
(a1)「子供は一学年に入る。」
(b1)「子供は小学校に入る。」
(c1)「子供は等級を入れる。」
Thereby, the control part 12 obtains the following three basic structure sentences. The translation sentence candidate (a) and the basic structure sentence (a1) correspond, the translation sentence candidate (b) and the basic structure sentence (b1) correspond, and the translation sentence candidate (c) and the basic structure sentence. (C1) corresponds.
(A1) "Child enters the first grade"
(B1) “Child enters elementary school”
(C1) “Children enter grades”

次に、制御部12は、WWWブラウザプログラムを起動させて検索エンジンサーバ装置30にアクセスし、上記の基本構造文(a1)、(b1)、(c1)を検索キーワードとして検索エンジンサーバ装置30に送信する(ステップS4)。これに応じて、検索エンジンサーバ装置30からはその検索結果が返信されてくる。以下に、検索エンジンサーバ装置30として、「google」(登録商標)を用いた場合の検索結果を示す。
(a1)「子供は一学年に入る」 ヒット件数:0件 同一フレーズ率:0/0 = 0.000
(b1)「子供は小学校に入る」 ヒット件数:11件 同一フレーズ率:10/11= 0.909
(c1)「子供は等級を入れる」 ヒット件数:0件 同一フレーズ率:0/0 = 0.000
「google」には、例えば「子供は小学校に入る」という検索キーワードを指定した場合、「子供は近くの小学校に入る」というように、検索キーワードと完全一致しない情報も検索するようなサービスがある。「ヒット件数」とは、このような完全一致でないものも含んだ件数である。これに対し、「同一フレーズ率」とは、検索におけるヒット確率の1種であり、検索キーワードと完全一致したヒット件数を、完全一致しない件数も含む総ヒット件数で除した値である。
Next, the control unit 12 activates the WWW browser program to access the search engine server device 30, and uses the basic structure sentences (a1), (b1), and (c1) as search keywords in the search engine server device 30. Transmit (step S4). In response to this, the search engine server device 30 returns the search result. The search result when “google” (registered trademark) is used as the search engine server device 30 is shown below.
(A1) “Children enter the first grade” Number of hits: 0 Same phrase rate: 0/0 = 0.000
(B1) “Children enter elementary school” Number of hits: 11 Same phrase rate: 10/11 = 0.909
(C1) “Children enter grade” Number of hits: 0 Same phrase rate: 0/0 = 0.000
“Google” has a service that searches for information that does not exactly match the search keyword, such as “children enter a nearby elementary school” when the search keyword “kid enters elementary school” is specified. . “Number of hits” is the number of such hits including those that are not completely matched. On the other hand, the “same phrase rate” is one type of hit probability in the search, and is a value obtained by dividing the number of hits that completely match the search keyword by the total number of hits including the number that does not completely match.

次に、制御部12は、上記の3つの基本構造文(a1)、(b1)、(c1)の中から、検索エンジンサーバ装置30による検索の結果に基づいて、最も自然な文章であると考えられる基本構造文を選択する(ステップS5)。具体的には、制御部12は、上記の3つの基本構造文(a1)、(b1)、(c1)の中から、同一フレーズ率が最も高い基本構造文を選択する。基本構造文の同一フレーズ率が高いということは、その基本構造文がより多くの人間によって使われているということを意味するからである。ただし、複数の基本構造文の同一フレーズ率が同値であった場合には、制御部12は、それらの基本構造文のうち、ヒット件数が多い基本構造文を選択する。基本構造文のヒット件数が多い場合も、その基本構造文に類似した文章がより多くの人間によって使われていることになるからである。本実施形態の例では、基本構造文(b1)である「子供は小学校に入る」の同一フレーズ率が「0.909」と最も高いので、制御部12は、基本構造文(b1)を選択することになる。   Next, the control unit 12 determines that the sentence is the most natural sentence based on the search result by the search engine server device 30 among the above three basic structure sentences (a1), (b1), and (c1). A possible basic structure sentence is selected (step S5). Specifically, the control unit 12 selects a basic structure sentence with the highest phrase ratio from the above three basic structure sentences (a1), (b1), and (c1). This is because the same phrase rate in the basic structure sentence means that the basic structure sentence is used by more people. However, when the same phrase ratios of a plurality of basic structure sentences have the same value, the control unit 12 selects a basic structure sentence having a large number of hits from among the basic structure sentences. This is because even if the number of hits in the basic structure sentence is large, sentences similar to the basic structure sentence are used by more people. In the example of the present embodiment, since the same phrase ratio of “children enter elementary school”, which is the basic structure sentence (b1), is the highest “0.909”, the control unit 12 selects the basic structure sentence (b1). Will do.

次に、制御部12は、ステップS5で選択した基本構造文(b2)の内容に基づき、子構造を抽出する(ステップS6)。子構造とは、基本構造文を構成する属性「SUBJ」、「OBJ」、「OBL」の属性値(語句)と、その属性値を翻訳文候補(a)、(b)、(c)において修飾している語句とによって構成されるフレーズを指す。より具体的には、制御部12は、まず選択した基本構造文(b2)から、属性「SUBJ」の属性値を抽出する。この例では、基本構造文(b1)における属性「SUBJ」の属性値「子供」が抽出される。そして、制御部12は、この「子供」をいう語句を、翻訳文候補(a)、(b)、(c)においてそれぞれ修飾している語句を抽出する。つまり「日本人の」と「日本の」という語句である。そして、制御部12は、基本構造文から抽出した語句「子供」と、それを修飾する語句「日本人の」又は「日本の」とによって構成される子構造を抽出する。この結果、制御部12は以下のような2通りの子構造を得ることになる。なお、子構造(a2)と翻訳文候補(a)及び基本構造文(a1)とが対応しており、子構造(b2)と翻訳文候補(b)及び基本構造文(b1)とが対応している。
(a2)「日本人の子供」
(b2)「日本の子供」
Next, the control unit 12 extracts a child structure based on the content of the basic structure sentence (b2) selected in step S5 (step S6). The child structure is attribute values (phrases) of the attributes “SUBJ”, “OBJ”, “OBL” that constitute the basic structure sentence, and the attribute values in the translation sentence candidates (a), (b), (c) Refers to a phrase that is composed of the word or phrase being modified. More specifically, the control unit 12 first extracts the attribute value of the attribute “SUBJ” from the selected basic structure sentence (b2). In this example, the attribute value “child” of the attribute “SUBJ” in the basic structure sentence (b1) is extracted. Then, the control unit 12 extracts a phrase that modifies the phrase “child” in the translation sentence candidates (a), (b), and (c). In other words, the phrases “Japanese” and “Japan”. Then, the control unit 12 extracts a child structure composed of the phrase “child” extracted from the basic structure sentence and the phrase “Japanese” or “Japan” that modifies it. As a result, the control unit 12 obtains the following two child structures. The child structure (a2) corresponds to the translation sentence candidate (a) and the basic structure sentence (a1), and the child structure (b2) corresponds to the translation sentence candidate (b) and the basic structure sentence (b1). is doing.
(A2) “Japanese children”
(B2) “Japanese children”

次に、制御部12は、WWWブラウザプログラムによって検索エンジンサーバ装置30にアクセスし、上記の子構造(a2)、(b2)を検索キーワードとして検索エンジンサーバ装置30に送信する(ステップS7)。以下に、その検索結果を示す。
(a2)「日本人の子供」 ヒット件数:4480件
(b2)「日本の子供」 ヒット件数:18,800件
Next, the control part 12 accesses the search engine server apparatus 30 by a WWW browser program, and transmits said child structure (a2), (b2) to the search engine server apparatus 30 as a search keyword (step S7). The search results are shown below.
(A2) “Japanese children” hits: 4480 (b2) “Japanese children” hits: 18,800

制御部12は、それぞれのヒット件数がゼロでないことを確認してから(ステップS8;No)、それぞれのヒット件数を予め決められた閾値(ここでは1000件とする)と比較して、その大小関係を判断する(ステップS9)。ここで、それぞれのヒット件数が閾値を超えていなければ(ステップS9;No)、制御部12は、ヒット件数が多い方の子構造を選択する(ステップS10)。子構造を選択したら、制御部12は、図5のステップS17の処理に進む。   After confirming that the number of hits is not zero (step S8; No), the control unit 12 compares the number of hits with a predetermined threshold (here, 1000), and compares the magnitudes of the hits with each other. The relationship is determined (step S9). Here, if the number of hits does not exceed the threshold value (step S9; No), the control unit 12 selects the child structure with the larger number of hits (step S10). After selecting the child structure, the control unit 12 proceeds to the process of step S17 in FIG.

一方、それぞれのヒット件数が閾値を超えている場合には(ステップS9:Yes)、いずれの子構造のヒット件数も比較的多いということを意味するので、制御部12は、どちらが自然な表現であるかを判断することができない。この場合、制御部12は、ステップS5で選択した基本構造文(b1)「子供は小学校に入る」に対して、上述した子構造(a2)、(b2)を挿入した文(以下、詳細構造文という)を生成する(ステップS11)。この例では、詳細構造文は次のようになる。なお、詳細構造文(a3)と子構造(a2)とが対応しており、詳細構造文(b3)と子構造(b2)とが対応している。
(a3)「日本人の子供は小学校に入る」
(b3)「日本の子供は小学校に入る」
On the other hand, if the number of hits exceeds the threshold value (step S9: Yes), it means that the number of hits of any child structure is relatively large, so the control unit 12 has a natural expression. Cannot judge whether there is. In this case, the control unit 12 inserts the above-described child structures (a2) and (b2) into the basic structure sentence (b1) “child enters elementary school” selected in step S5 (hereinafter, detailed structure). Sentence) is generated (step S11). In this example, the detailed structure sentence is as follows. The detailed structure sentence (a3) corresponds to the child structure (a2), and the detailed structure sentence (b3) corresponds to the child structure (b2).
(A3) “Japanese children enter elementary school”
(B3) “Japanese children enter elementary school”

そして、制御部12は、この詳細構造文を検索キーワードに指定して検索エンジンサーバ装置30による検索を行う(ステップS12)。そして、制御部12は、検索結果のヒット件数がいずれも0件ではないことを確認した上で(ステップS13:No)、ヒット件数が多い方の子構造を選択する(ステップS10)。   And the control part 12 designates this detailed structure sentence as a search keyword, and performs the search by the search engine server apparatus 30 (step S12). Then, after confirming that the number of hits in the search result is not 0 (step S13: No), the control unit 12 selects the child structure with the larger number of hits (step S10).

一方、ステップS13において、以下のように、検索結果のヒット件数がいずれも0件の場合には(ステップS13;Yes)、制御部12の処理は図5のステップS14に進む。
(a3)「日本人の子供は小学校に入る」 ヒット件数:0件
(b3)「日本の子供は小学校に入る」 ヒット件数:0件
On the other hand, in step S13, if the number of hits in the search result is zero (step S13; Yes), the process of the control unit 12 proceeds to step S14 in FIG.
(A3) “Japanese children enter elementary school” Number of hits: 0 (b3) “Japanese children enter elementary school” Number of hits: 0

ステップS14において、制御部12は、詳細構造文を格助詞および係助詞で区切って、複数の語句に分離する。そして、制御部12は、これらをアンド条件で検索キーワードに指定して検索エンジンサーバ装置30による検索を行う(ステップS15)。この検索結果の例を以下に示す。
(a4)「日本人の子供は」&「小学校に」&「入る」 ヒット件数:18件
(b4)「日本の子供は」&「小学校に」&「入る」 ヒット件数:47件
制御部12は、ヒット件数が多い方の詳細構造文に挿入されている子構造、ここでは、(b2)「日本の子供」を選択する(ステップS16)。
In step S <b> 14, the control unit 12 separates the detailed structure sentence into a plurality of words by dividing the detailed structure sentence with a case particle and an auxiliary particle. And the control part 12 designates these as a search keyword by AND condition, and performs the search by the search engine server apparatus 30 (step S15). An example of this search result is shown below.
(A4) “Japanese children” & “To elementary school” & “Enter” Hits: 18
(B4) “Japanese children” & “To elementary school” & “Enter” Hits: 47
The control unit 12 selects the child structure inserted in the detailed structure sentence with the larger number of hits, here (b2) “Japanese children” (step S16).

上述した処理により、制御部12は、選択した基本構造文(b2)において属性「SUBJ」の属性値「子供」と、それを修飾する語句とによって構成される子構造については確定することができた。次に、制御部12は、ステップS5で選択した基本構造文(b2)の内容に基づいて、さらに子構造を抽出できるかどうかを判断する(ステップS17)。この例では、基本構造文(b2)において、属性「OBL」の属性値「小学校」と、それを修飾する語句「第一の等級の」とによって構成される子構造「第一の等級の小学校」が存在するので(ステップS17;Yes)、制御部12は図4〜図5の上記ステップS6〜S16の手順を繰り返して、その子構造の内容でよいかどうかを確認すればよい。ただし、この例では、ステップS7の検索結果が、
(b4)「第1の等級の小学校」 ヒット件数:0件
というように、ヒット件数がゼロであったとする。
Through the processing described above, the control unit 12 can determine the child structure constituted by the attribute value “child” of the attribute “SUBJ” in the selected basic structure sentence (b2) and the phrase that modifies it. It was. Next, the control unit 12 determines whether or not a child structure can be further extracted based on the content of the basic structure sentence (b2) selected in step S5 (step S17). In this example, in the basic structure sentence (b2), the child structure “first grade elementary school” composed of the attribute value “elementary school” of the attribute “OBL” and the phrase “first grade” that modifies it. Is present (step S17; Yes), the control unit 12 may repeat the steps S6 to S16 in FIGS. 4 to 5 to confirm whether or not the contents of the child structure are acceptable. However, in this example, the search result of step S7 is
(B4) “First grade elementary school” Number of hits: 0
Thus, it is assumed that the number of hits is zero.

このようにヒット件数がゼロである場合(ステップS8;Yes)、制御部12は、「第一の等級の小学校」のいう表現に対して構文意味解析を施し、以下のように、各語句の係り受け関係を特定する(図6のステップS18)。
(b5)「第一の」→「等級の」→「小学校」
そして、制御部12は、属性「OBL」の属性値「子供」と、その属性値を直接修飾する語句「等級の」とを結合した語句「等級の小学校」を検索キーワードに指定して、検索エンジンサーバ装置30による検索を行う(ステップS19)。この検索の結果は以下のようになる。
(b5)「等級の小学校」 ヒット件数:0件
このように、ヒット件数がゼロの場合には(ステップS20;Yes)、制御部12は、属性「OBL」の属性値を一切修飾しないままの「小学校」、又は、子構造そのものである「第一の等級の小学校」の2通りの語句(フレーズ)を翻訳候補として記憶部11に記憶する(ステップS21)。一方、ヒット件数がゼロでない場合には(ステップS20;No)、制御部12は、その子構造「第一の等級の小学校」を翻訳候補として記憶部11に記憶する(ステップS22)。
Thus, when the number of hits is zero (step S8; Yes), the control unit 12 performs a syntactic and semantic analysis on the expression “first grade elementary school” and, as follows, The dependency relationship is specified (step S18 in FIG. 6).
(B5) “First” → “Grade” → “Primary school”
Then, the control unit 12 designates the phrase “grade elementary school”, which combines the attribute value “child” of the attribute “OBL” and the phrase “grade” directly modifying the attribute value, as a search keyword. A search is performed by the engine server device 30 (step S19). The result of this search is as follows.
(B5) “Grade elementary school” Number of hits: 0 In this way, when the number of hits is zero (step S20; Yes), the control unit 12 does not qualify the attribute value of the attribute “OBL” at all. Two words (phrases) of “elementary school” or “first grade elementary school” which is the child structure itself are stored as translation candidates in the storage unit 11 (step S21). On the other hand, when the number of hits is not zero (step S20; No), the control unit 12 stores the child structure “first grade elementary school” in the storage unit 11 as a translation candidate (step S22).

再び図5に戻り、制御部12は、基本構造文の子構造の抽出・選択に関する処理が終了すると(ステップS17;No)、翻訳文候補(a)、(b)、(c)において、それぞれの基本構造文(a1)、(b1)、(c1)に含まれていない語句を抽出する(ステップS23)。次に、制御部12は、抽出した語句のうち、翻訳文候補(a)、(b)、(c)の全てに共通して含まれている語句があるか否かを判断する(ステップS24)。この例の場合、「彼らの」、「誕生」、「日」という語句がそれぞれ該当することになる。そのような語句がある場合(ステップS24;Yes)、制御部12は、それぞれの翻訳文候補(a)、(b)、(c)からこれらの語句を連ねた語句(フレーズ)を抽出し、それらの語句(フレーズ)を検索キーワードとして検索エンジンサーバ装置30による検索を行う(ステップS25)。この場合、翻訳文候補(a)からは「6回目の誕生日」という語句(フレーズ)が抽出され、翻訳文候補(b)からは「6才の誕生日」という語句(フレーズ)が抽出され、翻訳文候補(c)からは「第6誕生日」という語句(フレーズ)が抽出されて検索がなされる。その検索結果は以下の通りである。   Referring back to FIG. 5 again, when the process related to the extraction / selection of the child structure of the basic structure sentence is completed (Step S17; No), the control unit 12 performs the translation sentence candidates (a), (b), and (c), respectively. Words that are not included in the basic structure sentences (a1), (b1), and (c1) are extracted (step S23). Next, the control unit 12 determines whether or not there is a word that is included in all of the translated sentence candidates (a), (b), and (c) among the extracted words (step S24). ). In this example, the words “their”, “birth”, and “day” correspond respectively. When there is such a phrase (step S24; Yes), the control unit 12 extracts a phrase (phrase) obtained by connecting these phrases from each translation sentence candidate (a), (b), (c), A search by the search engine server device 30 is performed using these words (phrases) as search keywords (step S25). In this case, the phrase (phrase) “6th birthday” is extracted from the translation sentence candidate (a), and the phrase (phrase) “6th birthday” is extracted from the translation sentence candidate (b). The phrase (sixth birthday) is extracted from the translation sentence candidate (c) and searched. The search results are as follows.

(a6)「6回目の誕生日」 ヒット件数:16,500件 同一フレーズ率:209 / 16,500 =0.013
(b6)「6才の誕生日」 ヒット件数:9,180件 同一フレーズ率:262 /9,180 =0.029
(c6)「第6誕生日」 ヒット件数:158,000件 同一フレーズ率:1/158,000 =0.000
制御部12は、この検索結果から、同一フレーズ率の最も高い語句を選択する(ステップS26)。この例では、「6才の誕生日」という語句が選択されることとなる.
(A6) “6th birthday” Number of hits: 16,500 Same phrase rate: 209 / 16,500 = 0.013
(B6) “6th birthday” Hits: 9,180 Same phrase rate: 262 / 9,180 = 0.029
(C6) “6th birthday” Number of hits: 158,000 Same phrase rate: 1 / 158,000 = 0.000
The control unit 12 selects a word / phrase having the highest phrase ratio from the search result (step S26). In this example, the phrase “6th birthday” will be selected.

そして、制御部12の処理は図7に進む。制御部12は、翻訳文候補(a)、(b)、(c)においてそれぞれの基本構造文(a1)、(b1)、(c1)に含まれない語句のうち、語句の順番が異なる部分があるか否かを判断する(ステップS27)。この例の場合、翻訳文候補(a)では、「4月に」が「彼らの6才の誕生日の後に」の前であるが、翻訳文候補(b)、(c)では、「彼らの6才の誕生日の後に」に相当する表現は「4月に」の後である。このように語順が異なる場合は(ステップS27;Yes)、制御部12は、原文に対して構文意味解析を行い、その結果に基づいてこれらの語句の係り受け関係を特定する(ステップS28)。この例では、構文意味解析の結果が図8に示すような内容となる。つまり、「4月に」という語句は、「彼らの6才の誕生日の後に」、「彼らの第6誕生日の後の」、「彼らの6回目の誕生日以降」によって修飾される語句であることがわかる。そして、制御部12は、翻訳文候補(a)、(b)、(c)においてこの係り受け関係を反映した語句(フレーズ)を作成し、この語句を検索キーワードとして検索エンジンサーバ装置30による検索を行う(ステップS29)。その結果は以下の通りである。
(a7)「誕生日以降4月」 ヒット件数:0件 同一フレーズ率 0.000
(b8)「誕生日の後に4月」 ヒット件数:52件 同一フレーズ率 0.000
(c8)「誕生日の後の4月」 ヒット件数:30件 同一フレーズ率 0.100
Then, the process of the control unit 12 proceeds to FIG. The control part 12 is a part in which the order of the phrases differs among the phrases that are not included in the basic structure sentences (a1), (b1), and (c1) in the translation sentence candidates (a), (b), and (c). It is determined whether or not there is (step S27). In this example, in translation candidate (a), “in April” is before “after their 6th birthday”, but in translation candidates (b) and (c) The expression equivalent to “after the sixth birthday of” is after “in April”. When the word order is different as described above (step S27; Yes), the control unit 12 performs the syntactic and semantic analysis on the original sentence, and specifies the dependency relationship of these words based on the result (step S28). In this example, the result of the syntactic and semantic analysis is as shown in FIG. In other words, the phrase "in April" is modified by "after their 6th birthday", "after their 6th birthday", or "after their 6th birthday" It can be seen that it is. And the control part 12 produces the phrase (phrase) which reflected this dependency relationship in translation sentence candidate (a), (b), (c), and searches by the search engine server apparatus 30 by using this phrase as a search keyword. Is performed (step S29). The results are as follows.
(A7) “April after April” Number of hits: 0 Same phrase rate 0.000
(B8) “April after birthday” Number of hits: 52 Same phrase rate 0.000
(C8) “April after birthday” Number of hits: 30 Same phrase rate 0.100

制御部12は、この検索結果を参照し、同一フレーズ率の最も高い語句(フレーズ)を選択する(ステップS30)。この例では、「誕生日の後の4月」という語句が選択されることになる。これにより、制御部12は、「6才の誕生日の後の4月に」というフレーズを採用する。   The control unit 12 refers to the search result and selects a word (phrase) having the highest same phrase rate (step S30). In this example, the phrase “April after birthday” is selected. Thereby, the control part 12 employ | adopts the phrase "in April after a 6th birthday".

そして、制御部12は、以上の処理によって選択された基本構造文の内容に対して、その基本構造文以外の語句を適切に組み合わせることで、最終的な翻訳結果を得る(ステップS31)。つまり、制御部12は、
「日本の子供は彼らの6才の誕生日の後の4月に小学校に入る.」
もしくは
「日本の子供は彼らの6才の誕生日の後の4月に(第一の等級の)小学校に入る.」
という翻訳結果を得て、これを表示部15に表示する。なお、ステップS27において、制御部12は、翻訳文候補(a)、(b)、(c)においてそれぞれの基本構造文(a1)、(b1)、(c1)に含まれない語句のうち、語句の順番が異なる部分がないと判断した場合には(ステップS27;No)、上述したステップS31の処理に進めばよい。
Then, the control unit 12 obtains a final translation result by appropriately combining words other than the basic structure sentence with the contents of the basic structure sentence selected by the above processing (step S31). That is, the control unit 12
“Japanese children enter elementary school in April after their 6th birthday.”
Or "Japanese children enter elementary school (first grade) in April after their 6th birthday."
Is obtained and displayed on the display unit 15. In step S27, the control unit 12 determines whether the translation sentence candidates (a), (b), and (c) are not included in the basic structure sentences (a1), (b1), and (c1). If it is determined that there is no part in which the order of the phrases is different (step S27; No), the process may proceed to step S31 described above.

以上の実施形態によれば、検索エンジンでヒットした件数乃至確率が高い語句を用いて翻訳文を作成するので、ネイティブスピーカにとって自然な言い回しの翻訳文を得ることができる。
なお、上述した図4のステップS10において、制御部12は、ヒット件数が多い方の子構造を選択するのではなくて、検索結果における検索キーワードどうしの距離の近さを算出し、距離が近い方の子構造を選択するようにしてもよい。検索キーワードどうしの距離とは、コンピュータによって記憶されている情報のうち、検索キーワードを含むひとまとまりの文章情報において、各検索キーワード間にある形態素の数であり、その形態素の数が多いほど距離が遠く、形態素の数が少ないほど距離が短い。具体的には、制御部12は、検索結果に含まれている文章情報に形態素解析処理を施し、各検索キーワード間にある形態素を計数し、さらにその平均を求めて、その平均値が小さい方の子構造を選択する。
また、実施形態では、検索結果から基本構造文、子構造及びその他の語句を選択する際の基準として、ヒット件数又はヒット確率(同一フレーズ率)を適宜使い分けていたが、これらのヒット件数又はヒット確率のいずれを(又はその両方を)使うかどうかは設計者が適切に定めることができる。要するに、翻訳装置10は、検索キーワードが複数のコンピュータに記憶されている情報にヒットしたヒット件数乃至ヒット確率に基づいて選択すればよい。
なお、制御部12が実行する翻訳プログラムは、コンピュータによって読み取り可能な磁気記録媒体、光記録媒体あるいはROMなどの記録媒体に記録して翻訳装置10に提供することができる。また、インターネット20のようなネットワーク経由で翻訳装置10にダウンロードさせることも可能である。
According to the above embodiment, a translation is created using words / phrases with a high probability or number of hits in the search engine, so a translation with a natural phrase for a native speaker can be obtained.
In step S10 of FIG. 4 described above, the control unit 12 does not select the child structure with the larger number of hits, but calculates the distance between the search keywords in the search result, and the distance is short. One child structure may be selected. The distance between the search keywords is the number of morphemes between the search keywords in a piece of text information including the search keywords among the information stored by the computer, and the distance increases as the number of morphemes increases. The farther away, the smaller the number of morphemes, the shorter the distance. Specifically, the control unit 12 performs morpheme analysis processing on the text information included in the search results, counts the morphemes between the search keywords, obtains an average thereof, and has a smaller average value. Select the child structure.
In the embodiment, the number of hits or the hit probability (same phrase rate) is properly used as a criterion for selecting a basic structure sentence, a child structure, and other phrases from the search results. The designer can determine which of the probabilities (or both) to use. In short, the translation apparatus 10 may select a search keyword based on the number of hits or hit probability that hits information stored in a plurality of computers.
The translation program executed by the control unit 12 can be recorded on a recording medium such as a magnetic recording medium, an optical recording medium, or a ROM that can be read by a computer and provided to the translation apparatus 10. It is also possible to download the translation apparatus 10 via a network such as the Internet 20.

本発明の実施形態に係る翻訳装置の構成を示すブロック図である。It is a block diagram which shows the structure of the translation apparatus which concerns on embodiment of this invention. f-structureの一例を示す図である。It is a figure which shows an example of f-structure. 属性の詳細なリストを示す図である。It is a figure which shows the detailed list | wrist of an attribute. 翻訳プログラムに記述された制御部の実行手順を示すフローチャートであるIt is a flowchart which shows the execution procedure of the control part described in the translation program 翻訳プログラムに記述された制御部の実行手順を示すフローチャートであるIt is a flowchart which shows the execution procedure of the control part described in the translation program 翻訳プログラムに記述された制御部の実行手順を示すフローチャートであるIt is a flowchart which shows the execution procedure of the control part described in the translation program 翻訳プログラムに記述された制御部の実行手順を示すフローチャートであるIt is a flowchart which shows the execution procedure of the control part described in the translation program 翻訳文候補に対するf-structureである。F-structure for translation candidates. 翻訳文候補に対するf-structureである。F-structure for translation candidates. 翻訳文候補に対するf-structureである。F-structure for translation candidates. 原文に構文意味解析を施した結果を示す図である。It is a figure which shows the result of having performed the syntax semantic analysis to the original sentence.

符号の説明Explanation of symbols

10・・・翻訳装置、11・・・記憶部、12・・・制御部、13・・・通信部、14・・・データ入出力部、15・・・表示部、16・・・操作部、20・・・インターネット、30・・・検索エンジンサーバ装置。 DESCRIPTION OF SYMBOLS 10 ... Translation apparatus, 11 ... Memory | storage part, 12 ... Control part, 13 ... Communication part, 14 ... Data input / output part, 15 ... Display part, 16 ... Operation part , 20... Internet, 30... Search engine server device.

Claims (10)

ネットワークを介して複数のコンピュータに接続されており、検索キーワードを指定されると、当該検索キーワードが前記複数のコンピュータに記憶されている情報にヒットしたヒット件数乃至ヒット確率を出力する検索装置と、
ある言語で表現された自然言語文を、別の言語で表現された複数の翻訳文候補に翻訳する翻訳手段と、
指定された検索キーワードが複数のコンピュータに記憶されている情報にヒットした件数乃至ヒットした確率を出力する検索装置に対して、前記複数の翻訳文候補に含まれる語句を検索キーワードとして指定し、当該検索装置によって出力されたヒット件数乃至ヒット確率を取得する検索手段と、
前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を翻訳文として出力するか、又は、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を用いて翻訳文を作成して出力する出力手段とを備え
前記検索手段は、
前記複数の翻訳文候補に対して構文意味解析を行い、各々の翻訳文候補に含まれる語句の属性を特定する手段と、
前記構文意味解析の結果に基づいて、予め決められた第1の属性に該当する語句からなる基本構造文を前記複数の翻訳文候補の各々から抽出する手段と、
抽出された各々の前記基本構造文を前記検索装置に対する前記検索キーワードとして指定し、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段と、
前記検索装置による検索の結果取得したヒット件数乃至ヒット確率が大きい基本構造文を構成する語句のうち、予め決められた第2の属性に相当する語句を前記基本構造文から抽出し、当該語句を修飾する語句を前記複数の翻訳文候補の各々から抽出し、抽出した語句とそれを修飾する語句からなる複数の子構造を特定する手段と、
特定した前記子構造を前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段とを有し、
前記出力手段は、前記複数の基本構造文のうち前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記複数の子構造のうち前記ヒット件数乃至ヒット確率が大きい子構造と、前記翻訳文候補のうち前記基本構造文に含まれない語句とを用いて翻訳文を作成する
ことを特徴とする翻訳装置と
を備えることを特徴とする翻訳システム。
A search device that is connected to a plurality of computers via a network and outputs a hit probability or hit probability that the search keyword hits information stored in the plurality of computers when a search keyword is specified;
A translation means for translating a natural language sentence expressed in one language into a plurality of translation sentence candidates expressed in another language;
For the search device that outputs the number of hits to the information stored in a plurality of computers or the probability of hitting the specified search keyword, the phrase included in the plurality of translation sentence candidates is specified as a search keyword, Search means for obtaining the hit count or hit probability output by the search device;
Among the plurality of translation sentence candidates, the translation sentence candidate including a phrase having a large hit probability or hit probability is output as a translation sentence, or, among the plurality of translation sentence candidates, the hit number or hit probability is large. An output means for generating and outputting a translation using candidate translations including words ,
The search means includes
Means for performing syntactic and semantic analysis on the plurality of translation sentences candidates, and specifying attributes of phrases included in each translation sentence candidate;
Means for extracting, from each of the plurality of translation sentence candidates, a basic structure sentence consisting of a phrase corresponding to a predetermined first attribute based on the result of the syntax and semantic analysis;
Means for specifying each of the extracted basic structure sentences as the search keyword for the search device, and obtaining the number of hits or the hit probability obtained as a result of the search by the search device;
Among words constituting a basic structure sentence having a large hit probability or hit probability obtained as a result of the search by the search device, a word corresponding to a predetermined second attribute is extracted from the basic structure sentence, and the word or phrase is extracted. Means for extracting a phrase to be modified from each of the plurality of translation sentence candidates, and identifying a plurality of child structures composed of the extracted phrase and the phrase to be modified;
Means for obtaining the number of hits or the hit probability obtained as a result of the search by the search device by designating the identified child structure as the search keyword for the search device;
The output means includes a basic structure sentence having a high hit probability or a hit probability among the plurality of basic structure sentences, a child structure having a high hit probability or a hit probability among the plurality of child structures, and the translation sentence candidates. A translation system comprising: a translation device that creates a translated sentence using a phrase that is not included in the basic structure sentence .
ある言語で表現された自然言語文を、別の言語で表現された複数の翻訳文候補に翻訳する翻訳手段と、
指定された検索キーワードが複数のコンピュータに記憶されている情報にヒットした件数乃至ヒットした確率を出力する検索装置に対して、前記複数の翻訳文候補に含まれる語句を検索キーワードとして指定し、当該検索装置によって出力されたヒット件数乃至ヒット確率を取得する検索手段と、
前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を翻訳文として出力するか、又は、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を用いて翻訳文を作成して出力する出力手段と
を備え
前記検索手段は、
前記複数の翻訳文候補に対して構文意味解析を行い、各々の翻訳文候補に含まれる語句の属性を特定する手段と、
前記構文意味解析の結果に基づいて、予め決められた第1の属性に該当する語句からなる基本構造文を前記複数の翻訳文候補の各々から抽出する手段と、
抽出された各々の前記基本構造文を前記検索装置に対する前記検索キーワードとして指定し、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段と、
前記検索装置による検索の結果取得したヒット件数乃至ヒット確率が大きい基本構造文を構成する語句のうち、予め決められた第2の属性に相当する語句を前記基本構造文から抽出し、当該語句を修飾する語句を前記複数の翻訳文候補の各々から抽出し、抽出した語句とそれを修飾する語句からなる複数の子構造を特定する手段と、
特定した前記子構造を前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段とを有し、
前記出力手段は、前記複数の基本構造文のうち前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記複数の子構造のうち前記ヒット件数乃至ヒット確率が大きい子構造と、前記翻訳文候補のうち前記基本構造文に含まれない語句とを用いて翻訳文を作成する
ことを特徴とする翻訳装置。
A translation means for translating a natural language sentence expressed in one language into a plurality of translation sentence candidates expressed in another language;
For the search device that outputs the number of hits to the information stored in a plurality of computers or the probability of hitting the specified search keyword, the phrase included in the plurality of translation sentence candidates is specified as a search keyword, Search means for obtaining the hit count or hit probability output by the search device;
Among the plurality of translation sentence candidates, the translation sentence candidate including a phrase having a large hit probability or hit probability is output as a translation sentence, or, among the plurality of translation sentence candidates, the hit number or hit probability is large. Output means for creating and outputting a translation using candidate translations including words ,
The search means includes
Means for performing syntactic and semantic analysis on the plurality of translation sentences candidates, and specifying attributes of phrases included in each translation sentence candidate;
Means for extracting, from each of the plurality of translation sentence candidates, a basic structure sentence consisting of a phrase corresponding to a predetermined first attribute based on the result of the syntax and semantic analysis;
Means for specifying each of the extracted basic structure sentences as the search keyword for the search device, and obtaining the number of hits or the hit probability obtained as a result of the search by the search device;
Among words constituting a basic structure sentence having a large hit probability or hit probability obtained as a result of the search by the search device, a word corresponding to a predetermined second attribute is extracted from the basic structure sentence, and the word or phrase is extracted. Means for extracting a phrase to be modified from each of the plurality of translation sentence candidates, and identifying a plurality of child structures composed of the extracted phrase and the phrase to be modified;
Means for obtaining the number of hits or the hit probability obtained as a result of the search by the search device by designating the identified child structure as the search keyword for the search device;
The output means includes a basic structure sentence having a high hit probability or a hit probability among the plurality of basic structure sentences, a child structure having a high hit probability or a hit probability among the plurality of child structures, and the translation sentence candidates. A translation apparatus that creates a translation sentence using a phrase that is not included in the basic structure sentence .
記第1の属性はLFG(Lexical Functional Grammar)に基づく言語解析で得られるfunctional structure (f-structure)における属性「PRED」、「SUBJ」、「OBJ」及び「OBL」であり、前記第2の属性は、LFGに基づく言語解析で得られるfunctional structureにおける属性「SUBJ」、「OBJ」及び「OBL」である
ことを特徴とする請求項記載の翻訳装置。
Attribute "PRED" Prior Symbol first attribute in LFG functional obtained in language analysis based on (Lexical Functional Grammar) structure (f -structure), "SUBJ", Ri "OBJ" and "OBL" Der, the first The translation apparatus according to claim 2, wherein the two attributes are attributes "SUBJ", "OBJ", and "OBL" in a functional structure obtained by language analysis based on LFG .
記検索手段は、
前記子構造を前記検索装置に対する前記検索キーワードとして指定して取得したヒット件数乃至ヒット確率がいずれも閾値を超える場合には、当該複数の子構造の各々を前記ヒット件数乃至ヒット確率が大きい基本構造文に挿入して詳細構造文を生成する手段と、
生成した前記詳細構造文を前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段とを有し、
前記出力手段は、前記複数の詳細構造文のうち、前記ヒット件数乃至ヒット確率が大きい詳細構造文に挿入されている子構造と、前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記翻訳文候補のうち前記基本構造文に含まれない語句とを用いて翻訳文を作成する
ことを特徴とする請求項記載の翻訳装置。
Before Symbol retrieval means,
When the number of hits or the hit probability acquired by specifying the child structure as the search keyword for the search device exceeds a threshold, each of the plurality of child structures is a basic structure having a large hit number or hit probability. It means for generating a detailed structure statement is inserted into the sentence,
Specifying the generated detailed structure sentence as the search keyword for the search device, and obtaining the number of hits or the hit probability obtained as a result of the search by the search device,
The output means includes, among the plurality of detailed structure sentences, a child structure inserted in the detailed structure sentence having a high hit probability or hit probability, a basic structure sentence having a high hit number or hit probability, and the translated sentence The translation apparatus according to claim 2, wherein a translation sentence is created using a phrase that is not included in the basic structure sentence among candidates .
記検索手段は、
複数の前記詳細構造文を前記検索装置に対する前記検索キーワードに指定して取得したヒット件数乃至ヒット確率がいずれもゼロであった場合には、前記複数の詳細構造文をそれぞれ助詞で区切って複数の語句に分離する手段と、
これら複数の語句をアンド条件で前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段とを有し、
前記出力手段は、前記複数の詳細構造文のうち前記ヒット件数乃至ヒット確率が大きい語句を含む詳細構造文に挿入されている子構造と、前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記翻訳文候補のうち前記基本構造文に含まれない語句とを用いて翻訳文を作成する
ことを特徴とする請求項記載の翻訳装置。
Before Symbol retrieval means,
When the number of hits or the hit probability obtained by designating the plurality of detailed structure sentences as the search keyword for the search device are all zero, the plurality of detailed structure sentences are separated by a particle, respectively. Means for separating words,
A unit for obtaining the number of hits or the hit probability obtained as a result of the search by the search device by designating the plurality of phrases as the search keyword for the search device under an AND condition;
The output means includes a child structure inserted in a detailed structure sentence including a phrase having a high hit probability or a hit probability among the plurality of detailed structure sentences, a basic structure sentence having a high hit probability or a hit probability, The translation apparatus according to claim 4, wherein a translation sentence is created using a phrase that is not included in the basic structure sentence among translation sentence candidates .
前記検索手段は、前記特定した前記子構造を前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段に代えて、前記検索装置による検索結果として、前記検索キーワードを含む文章情報を取得する手段を備え、
記出力手段は、
前記複数の基本構造文のうち前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記複数の子構造のうち前記ヒット件数乃至ヒット確率が大きい子構造と、前記翻訳文候補のうち前記基本構造文に含まれない語句とを用いて翻訳文を作成することに代えて、
取得された前記文章情報に形態素解析を施して各々の検索キーワード間にある形態素を計数し、更にその計数値の平均を求めて最も小さい平均値に対応する子構造と、前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記翻訳文候補のうち前記基本構造文に含まれない語句とを用いて翻訳文を作成する
ことを特徴とする請求項記載の翻訳装置。
The search means replaces the search device with the specified child structure as the search keyword for the search device, and obtains the number of hits or the hit probability obtained as a result of the search by the search device. As a search result by, comprising means for acquiring text information including the search keyword,
Before Symbol output means,
Among the plurality of basic structure sentences, the basic structure sentence having a large hit probability or hit probability, the child structure having the large number of hit cases or hit probability among the plurality of child structures, and the basic structure sentence among the candidate translation sentences Instead of creating translations using words not included in the
The obtained sentence information is subjected to morphological analysis to count the morphemes between the respective search keywords, the average of the counted values is obtained, and the child structure corresponding to the smallest average value, the number of hits and the hit probability The translation apparatus according to claim 2 , wherein a translation sentence is created by using a basic structure sentence having a large and a phrase that is not included in the basic structure sentence among the translation sentence candidates .
記検索手段は、
前記基本構造文に含まれない語句であって、前記複数の翻訳文候補の全てに含まれる語句を抽出し、各々の前記翻訳文候補から抽出した前記語句を連ねて複数のフレーズを生成する手段と、
生成した複数のフレーズを前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段とを有し、
前記出力手段は、前記複数のフレーズのうち前記ヒット件数乃至ヒット確率が大きいフレーズと、前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記ヒット件数乃至ヒット確率が大きい子構造とを用いて翻訳文を作成する
ことを特徴とする請求項記載の翻訳装置。
Before Symbol retrieval means,
Means for extracting a phrase that is not included in the basic structure sentence and that is included in all of the plurality of translation sentence candidates, and generating a plurality of phrases by connecting the phrases extracted from each of the translation sentence candidates When,
A plurality of generated phrases are specified as the search keyword for the search device, and the number of hits or the hit probability obtained as a result of the search by the search device is obtained,
The output means translates the phrase having a high hit probability or hit probability among the plurality of phrases, a basic structure sentence having a high hit probability or hit probability, and a child structure having a high hit probability or hit probability. The translation device according to claim 2 , wherein a sentence is created.
記検索手段は、
前記複数の翻訳文候補において、前記基本構造文に含まれない語句の順番が異なる部分があるか否かを判断する手段と、
語句の順番が異なる部分があると判断された場合には、前記ある言語で表現された自然言語文に対して構文意味解析を行って順番が異なる語句の係り受け関係を特定し、その係り受け関係を反映した複数のフレーズを作成する手段と
作成した複数のフレーズを前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段とを有し、
前記出力手段は、前記複数のフレーズのうち前記ヒット件数乃至ヒット確率が大きいフレーズと、前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記ヒット件数乃至ヒット確率が大きい子構造とを用いて翻訳文を作成する
ことを特徴とする請求項記載の翻訳装置。
Before Symbol retrieval means,
Means for determining whether or not there is a part in which the order of words / phrases not included in the basic structure sentence is different in the plurality of translation sentence candidates;
When it is determined that there is a part in which the order of words is different, syntactic / semantic analysis is performed on the natural language sentence expressed in the certain language to identify dependency relations of words with different orders, and the dependency Means for creating a plurality of phrases reflecting the relationship; means for designating the plurality of created phrases as the search keyword for the search device; and acquiring the number of hits or the hit probability obtained as a result of the search by the search device; Have
The output means translates the phrase having a high hit probability or hit probability among the plurality of phrases, a basic structure sentence having a high hit probability or hit probability, and a child structure having a high hit probability or hit probability. The translation device according to claim 2 , wherein a sentence is created.
コンピュータが、ある言語で表現された自然言語文を、別の言語で表現された複数の翻訳文候補に翻訳する翻訳ステップと、
コンピュータが、指定された検索キーワードが複数のコンピュータに記憶されている情報にヒットした件数乃至ヒットした確率を出力する検索装置に対して、前記複数の翻訳文候補に含まれる語句を検索キーワードとして指定し、当該検索装置によって出力されたヒット件数乃至ヒット確率を取得する検索ステップであって、前記複数の翻訳文候補に対して構文意味解析を行い、各々の翻訳文候補に含まれる語句の属性を特定し、前記構文意味解析の結果に基づいて、予め決められた第1の属性に該当する語句からなる基本構造文を前記複数の翻訳文候補の各々から抽出し、抽出された各々の前記基本構造文を前記検索装置に対する前記検索キーワードとして指定し、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得し、前記検索装置による検索の結果取得したヒット件数乃至ヒット確率が大きい基本構造文を構成する語句のうち、予め決められた第2の属性に相当する語句を前記基本構造文から抽出し、当該語句を修飾する語句を前記複数の翻訳文候補の各々から抽出し、抽出した語句とそれを修飾する語句からなる複数の子構造を特定し、特定した前記子構造を前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する検索ステップと、
コンピュータが、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を翻訳文として出力するか、又は、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を用いて翻訳文を作成して出力する出力ステップであって、前記複数の基本構造文のうち前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記複数の子構造のうち前記ヒット件数乃至ヒット確率が大きい子構造と、前記翻訳文候補のうち前記基本構造文に含まれない語句とを用いて翻訳文を作成する出力ステップ
を備えることを特徴とする翻訳方法。
A translation step in which a computer translates a natural language sentence expressed in one language into a plurality of translation sentence candidates expressed in another language;
A computer specifies a word or phrase included in a plurality of translation sentence candidates as a search keyword for a search device that outputs the number of hits to the information stored in a plurality of computers or the probability of the hit. A search step for obtaining the number of hits or the hit probability output by the search device , wherein the plurality of translation sentence candidates are subjected to syntactic and semantic analysis, and the attribute of the phrase included in each translation sentence candidate is determined. Based on the result of the syntactic and semantic analysis, a basic structure sentence consisting of words corresponding to a predetermined first attribute is extracted from each of the plurality of translation sentence candidates, and each of the extracted basic sentences A structure sentence is designated as the search keyword for the search device, and the number of hits or hit probability obtained as a result of the search by the search device is acquired. Of the words constituting the basic structure sentence having a high hit probability or the hit probability obtained as a result of the search by the search device, the word corresponding to the predetermined second attribute is extracted from the basic structure sentence, and the phrase Is extracted from each of the plurality of translation sentence candidates, a plurality of child structures composed of the extracted words and phrases and the phrases to be modified are specified, and the specified child structure is used as the search keyword for the search device A search step for specifying and obtaining the hit number or hit probability obtained as a result of the search by the search device ;
A computer outputs a translation sentence candidate including a phrase having a high hit probability or a hit probability among the plurality of translation sentence candidates as a translation sentence, or the hit number or hit among the plurality of translation sentence candidates An output step of creating and outputting a translation sentence using a translation sentence candidate including a word with a high probability , wherein the basic structure sentence having a high hit probability or the hit probability among the plurality of basic structure sentences; An output step of creating a translated sentence using a child structure having a high hit probability or a hit probability among the child structures and a phrase that is not included in the basic structure sentence among the candidate translation sentences. Translation method.
ンピュータに、
ある言語で表現された自然言語文を、別の言語で表現された複数の翻訳文候補に翻訳する翻訳機能と、
指定された検索キーワードが複数のコンピュータに記憶されている情報にヒットした件数乃至ヒットした確率を出力する検索装置に対して、前記複数の翻訳文候補に含まれる語句を検索キーワードとして指定し、当該検索装置によって出力されたヒット件数乃至ヒット確率を取得する検索機能であって、前記複数の翻訳文候補に対して構文意味解析を行い、各々の翻訳文候補に含まれる語句の属性を特定し、前記構文意味解析の結果に基づいて、予め決められた第1の属性に該当する語句からなる基本構造文を前記複数の翻訳文候補の各々から抽出し、抽出された各々の前記基本構造文を前記検索装置に対する前記検索キーワードとして指定し、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得し、前記検索装置による検索の結果取得したヒット件数乃至ヒット確率が大きい基本構造文を構成する語句のうち、予め決められた第2の属性に相当する語句を前記基本構造文から抽出し、当該語句を修飾する語句を前記複数の翻訳文候補の各々から抽出し、抽出した語句とそれを修飾する語句からなる複数の子構造を特定し、特定した前記子構造を前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する検索機能と、
前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を翻訳文として出力するか、又は、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を用いて翻訳文を作成して出力する出力機能であって、前記複数の基本構造文のうち前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記複数の子構造のうち前記ヒット件数乃至ヒット確率が大きい子構造と、前記翻訳文候補のうち前記基本構造文に含まれない語句とを用いて翻訳文を作成する出力機能
を実現させるためのプログラム。
On your computer,
A translation function for translating a natural language sentence expressed in one language into a plurality of translation sentence candidates expressed in another language;
For the search device that outputs the number of hits to the information stored in a plurality of computers or the probability of hitting the specified search keyword, the phrase included in the plurality of translation sentence candidates is specified as a search keyword, A search function for obtaining the number of hits or hit probability output by the search device, performing a syntactic and semantic analysis on the plurality of translation sentence candidates, and identifying an attribute of a phrase included in each translation sentence candidate, Based on the result of the syntactic and semantic analysis, a basic structure sentence composed of words corresponding to a predetermined first attribute is extracted from each of the plurality of translation sentence candidates, and each of the extracted basic structure sentences is The search keyword is specified as the search keyword for the search device, the number of hits or the hit probability obtained as a result of the search by the search device is acquired, and the search device Of words constituting a basic structure sentence having a large hit probability or hit probability obtained as a result of search, a word corresponding to a predetermined second attribute is extracted from the basic structure sentence, and a word or phrase that modifies the word is obtained. Extracting from each of the plurality of translated sentence candidates, specifying a plurality of child structures consisting of the extracted words and phrases that modify them, specifying the specified child structures as the search keywords for the search device, A search function for acquiring the number of hits or the hit probability obtained as a result of the search by the search device ;
Among the plurality of translation sentence candidates, the translation sentence candidate including a phrase having a large hit probability or hit probability is output as a translation sentence, or, among the plurality of translation sentence candidates, the hit number or hit probability is large. An output function for creating and outputting a translation sentence using translation sentence candidates including a phrase , wherein the basic structure sentence having a large hit probability or hit probability among the plurality of basic structure sentences, and the plurality of child structures A program for realizing a child structure having a large hit probability or a hit probability, and an output function for creating a translated sentence using a phrase that is not included in the basic structure sentence among the translated sentence candidates .
JP2005275820A 2005-09-22 2005-09-22 Translation system, translation apparatus, translation method, and program Expired - Fee Related JP4940606B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005275820A JP4940606B2 (en) 2005-09-22 2005-09-22 Translation system, translation apparatus, translation method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005275820A JP4940606B2 (en) 2005-09-22 2005-09-22 Translation system, translation apparatus, translation method, and program

Publications (2)

Publication Number Publication Date
JP2007087157A JP2007087157A (en) 2007-04-05
JP4940606B2 true JP4940606B2 (en) 2012-05-30

Family

ID=37974071

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005275820A Expired - Fee Related JP4940606B2 (en) 2005-09-22 2005-09-22 Translation system, translation apparatus, translation method, and program

Country Status (1)

Country Link
JP (1) JP4940606B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8799307B2 (en) * 2007-05-16 2014-08-05 Google Inc. Cross-language information retrieval
JP2009059290A (en) * 2007-09-03 2009-03-19 Just Syst Corp Device, method, and program for supporting preparation of foreign language document
US8959091B2 (en) * 2009-07-30 2015-02-17 Alcatel Lucent Keyword assignment to a web page
JP2012185654A (en) * 2011-03-04 2012-09-27 Fujitsu Ltd Translation apparatus, translation program, and translation method

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0320866A (en) * 1989-03-07 1991-01-29 Nippon Telegr & Teleph Corp <Ntt> Text base retrieval system
JPH10307824A (en) * 1997-05-09 1998-11-17 Nippon Telegr & Teleph Corp <Ntt> Dictionary retrieving method, its device and storage medium storing dictionary retrieving program
JP2001101186A (en) * 1999-09-30 2001-04-13 Oki Electric Ind Co Ltd Machine translating device
JP2005182280A (en) * 2003-12-17 2005-07-07 Ibm Japan Ltd Information retrieval system, retrieval result processing system, information retrieval method, and program

Also Published As

Publication number Publication date
JP2007087157A (en) 2007-04-05

Similar Documents

Publication Publication Date Title
KR101130444B1 (en) System for identifying paraphrases using machine translation techniques
JP4494706B2 (en) Automatic extraction program for conversion mapping from bilingual corpus
JP3114181B2 (en) Interlingual communication translation method and system
US6269189B1 (en) Finding selected character strings in text and providing information relating to the selected character strings
US6243670B1 (en) Method, apparatus, and computer readable medium for performing semantic analysis and generating a semantic structure having linked frames
JP4714400B2 (en) Scalable machine translation system
JP4491187B2 (en) How to calculate translation relationships between words
US9098489B2 (en) Method and system for semantic searching
JP4319860B2 (en) Method and apparatus for developing a transfer dictionary for use in a transfer-based machine translation system
JP2006252382A (en) Question answering system, data retrieval method and computer program
JP2006293830A (en) Question answering system, data retrieval method, and computer program
WO2005059771A1 (en) Translation judgment device, method, and program
JP2020190970A (en) Document processing device, method therefor, and program
JP4940606B2 (en) Translation system, translation apparatus, translation method, and program
JPH0261763A (en) Mechanical translation equipment
JP5025603B2 (en) Machine translation apparatus, machine translation program, and machine translation method
JP4007413B2 (en) Natural language processing system, natural language processing method, and computer program
JP2005202924A (en) Translation determination system, method, and program
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam
JP2001101184A (en) Method and device for generating structurized document and storage medium with structurized document generation program stored therein
Petasis et al. A Greek morphological lexicon and its exploitation by natural language processing applications
JP6451151B2 (en) Question answering apparatus, question answering method, program
JP4635585B2 (en) Question answering system, question answering method, and question answering program
JP2005157823A (en) Knowledge base system, inter-word meaning relation determination method in the same system and computer program
JP3058511B2 (en) Chinese sentence analysis method and Chinese sentence analysis device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110705

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120131

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120213

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150309

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees