JP4940606B2 - Translation system, translation apparatus, translation method, and program - Google Patents
Translation system, translation apparatus, translation method, and program Download PDFInfo
- Publication number
- JP4940606B2 JP4940606B2 JP2005275820A JP2005275820A JP4940606B2 JP 4940606 B2 JP4940606 B2 JP 4940606B2 JP 2005275820 A JP2005275820 A JP 2005275820A JP 2005275820 A JP2005275820 A JP 2005275820A JP 4940606 B2 JP4940606 B2 JP 4940606B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- translation
- hit probability
- search
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は異種言語間で翻訳を行うための技術に関する。 The present invention relates to a technique for translating between different languages.
日本語や英語などのように、人間が日常的なコミュニケーションに使用する言葉のことを「自然言語」と呼ぶ。自然言語は自然発生的な起源を持ち、人類の歴史とともに進化して、現在では多種多様な自然言語が存在している。自然言語は、本来は抽象的で曖昧な性質を持っているが、この自然言語からなる文章(自然言語文)を数学的に取り扱うことにより、各種のコンピュータ処理を施すことが可能である。このようなコンピュータ処理によって、機械翻訳や対話システム或いは検索システムなど、自然言語に関する様々なアプリケーションやサービスが実現されている。これらのうち「機械翻訳」は、言語の異なる者どうしが行なうコミュニケーションをコンピュータ処理を活用して支援するアプリケーション乃至サービスである。 Words that humans use for everyday communication, such as Japanese and English, are called “natural languages”. Natural languages have a natural origin and have evolved with the history of mankind, and there are now a wide variety of natural languages. Natural languages originally have abstract and ambiguous properties, but various computer processes can be performed by mathematically handling sentences (natural language sentences) composed of these natural languages. By such computer processing, various applications and services relating to natural language such as machine translation, dialogue system, and search system are realized. Among these, “machine translation” is an application or service that supports communication performed by persons having different languages using computer processing.
現在実用化されている機械翻訳システムには、「ダイレクト方式」と呼ばれる方式や、「トランスファ方式」と呼ばれる方式がある。ダイレクト方式は、予め用意された単語辞書に基づいて、翻訳元言語の単語を翻訳先言語の単語へと単純に置き換えていくものである。これは、日本語と韓国語との間の翻訳のように、翻訳元言語と翻訳先言語の文法がおおよそ似通っている場合にのみ有効な方式である。これに対し、トランスファ方式は、単語の置き換えとともに、構文構造を置き換える処理も含んでいる。よって、このトランスファ方式によれば、文法が異なる異種言語の翻訳にも対処することができる。さらに、例えば特許文献1には、上記の機械翻訳システムを改良した技術が開示されている。
しかしながら、いかに精度が高い機械翻訳システムを用いたとしても、その結果得られる翻訳文は、翻訳先言語を母国語として利用している者(ネイティブスピーカ)から見ると不自然な文章になっていることが少なくない。つまり、コンピュータによる数学的な処理だけに立脚して翻訳を行っている限り、その翻訳結果には人間的で曖昧な要素が入り込む余地がないので不自然にならざるを得ない。 However, no matter how high-precision machine translation system is used, the resulting translation is unnatural when viewed from the person (native speaker) who uses the target language as the native language. There are many things. In other words, as long as translation is based on mathematical processing by a computer, there is no room for human and ambiguous elements in the translation result, so it must be unnatural.
本発明はこのような問題点に鑑みてなされたものであり、その目的は、翻訳先言語を母国語として利用している者(ネイティブスピーカ)から見ても、より自然な文章となるような翻訳を実現することにある。 The present invention has been made in view of such problems, and its purpose is to produce a more natural sentence even when viewed from a person (native speaker) who uses the translated language as a native language. To realize translation.
上記目的を達成するため、本発明は、ネットワークを介して複数のコンピュータに接続されており、検索キーワードを指定されると、当該検索キーワードが前記複数のコンピュータに記憶されている情報にヒットしたヒット件数乃至ヒット確率を出力する検索装置と、ある言語で表現された自然言語文を、別の言語で表現された複数の翻訳文候補に翻訳する翻訳手段と、指定された検索キーワードが複数のコンピュータに記憶されている情報にヒットした件数乃至ヒットした確率を出力する検索装置に対して、前記複数の翻訳文候補に含まれる語句を検索キーワードとして指定し、当該検索装置によって出力されたヒット件数乃至ヒット確率を取得する検索手段と、
前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を翻訳文として出力するか、又は、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を用いて翻訳文を作成して出力する出力手段とを備え、前記検索手段は、前記複数の翻訳文候補に対して構文意味解析を行い、各々の翻訳文候補に含まれる語句の属性を特定する手段と、前記構文意味解析の結果に基づいて、予め決められた第1の属性に該当する語句からなる基本構造文を前記複数の翻訳文候補の各々から抽出する手段と、抽出された各々の前記基本構造文を前記検索装置に対する前記検索キーワードとして指定し、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段と、前記検索装置による検索の結果取得したヒット件数乃至ヒット確率が大きい基本構造文を構成する語句のうち、予め決められた第2の属性に相当する語句を前記基本構造文から抽出し、当該語句を修飾する語句を前記複数の翻訳文候補の各々から抽出し、抽出した語句とそれを修飾する語句からなる複数の子構造を特定する手段と、特定した前記子構造を前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段とを有し、前記出力手段は、前記複数の基本構造文のうち前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記複数の子構造のうち前記ヒット件数乃至ヒット確率が大きい子構造と、前記翻訳文候補のうち前記基本構造文に含まれない語句とを用いて翻訳文を作成することを特徴とする翻訳装置とを備えることを特徴とする翻訳システムを提供する。
To achieve the above object, the present invention is connected to a plurality of computers via a network, and when a search keyword is designated, the search keyword hits information stored in the plurality of computers. A search device that outputs the number of hits or hit probabilities, a translation unit that translates a natural language sentence expressed in one language into a plurality of translation sentence candidates expressed in another language, and a computer that has a plurality of designated search keywords For the search device that outputs the number of hits to the information stored in the information or the probability of the hit, the phrase included in the plurality of translation sentence candidates is designated as a search keyword, and the number of hits output by the search device Search means for obtaining hit probabilities;
Among the plurality of translation sentence candidates, the translation sentence candidate including a phrase having a large hit probability or hit probability is output as a translation sentence, or, among the plurality of translation sentence candidates, the hit number or hit probability is large. Output means for generating and outputting a translation sentence using translation sentence candidates including phrases, and the search means performs a syntactic and semantic analysis on the plurality of translation sentence candidates and is included in each translation sentence candidate Means for identifying the attribute of the phrase to be extracted, and means for extracting, from each of the plurality of translation sentence candidates, a basic structure sentence consisting of a phrase corresponding to a predetermined first attribute based on the result of the syntax-semantic analysis And means for designating each extracted basic structure sentence as the search keyword for the search device, and obtaining the number of hits or the hit probability obtained as a result of the search by the search device; Among words constituting a basic structure sentence having a large hit probability or hit probability obtained as a result of the search by the search device, a word corresponding to a predetermined second attribute is extracted from the basic structure sentence, and the word or phrase is extracted. Means for extracting a word / phrase to be modified from each of the plurality of translation sentence candidates, specifying a plurality of child structures comprising the extracted word / phrase and a word / phrase to be modified, and the search keyword for the search device for the specified child structure; And a means for obtaining the hit count or hit probability obtained as a result of the search by the search device, and the output means has a high hit count or hit probability among the plurality of basic structure sentences. A basic structure sentence, a child structure having a high hit probability or a hit probability among the plurality of child structures, and a word not included in the basic structure sentence among the translation sentence candidates Providing a translation system characterized in that it comprises a translation device, characterized in that to create a translation using and.
また、本発明は、ある言語で表現された自然言語文を、別の言語で表現された複数の翻訳文候補に翻訳する翻訳手段と、指定された検索キーワードが複数のコンピュータに記憶されている情報にヒットした件数乃至ヒットした確率を出力する検索装置に対して、前記複数の翻訳文候補に含まれる語句を検索キーワードとして指定し、当該検索装置によって出力されたヒット件数乃至ヒット確率を取得する検索手段と、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を翻訳文として出力するか、又は、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を用いて翻訳文を作成して出力する出力手段とを備え、前記検索手段は、前記複数の翻訳文候補に対して構文意味解析を行い、各々の翻訳文候補に含まれる語句の属性を特定する手段と、前記構文意味解析の結果に基づいて、予め決められた第1の属性に該当する語句からなる基本構造文を前記複数の翻訳文候補の各々から抽出する手段と、抽出された各々の前記基本構造文を前記検索装置に対する前記検索キーワードとして指定し、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段と、前記検索装置による検索の結果取得したヒット件数乃至ヒット確率が大きい基本構造文を構成する語句のうち、予め決められた第2の属性に相当する語句を前記基本構造文から抽出し、当該語句を修飾する語句を前記複数の翻訳文候補の各々から抽出し、抽出した語句とそれを修飾する語句からなる複数の子構造を特定する手段と、特定した前記子構造を前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段とを有し、
前記出力手段は、前記複数の基本構造文のうち前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記複数の子構造のうち前記ヒット件数乃至ヒット確率が大きい子構造と、前記翻訳文候補のうち前記基本構造文に含まれない語句とを用いて翻訳文を作成することを特徴とする翻訳装置を提供する。
In the present invention, translation means for translating a natural language sentence expressed in one language into a plurality of translation sentence candidates expressed in another language, and designated search keywords are stored in a plurality of computers. For a search device that outputs the number of hits to information or the probability of hitting, a phrase included in the plurality of translated sentence candidates is specified as a search keyword, and the number of hits or hit probability output by the search device is acquired. A search means and, among the plurality of translation sentence candidates, output a translation sentence candidate including a phrase having a high hit probability or a hit probability as a translation sentence, or among the plurality of translation sentence candidates, the number of hits using a translation candidate including the word hits probability is large and an output means for outputting to create a translation, said searching means, to said plurality of translation candidates A basic structure sentence consisting of a phrase corresponding to a first attribute determined in advance based on the result of the syntactic and semantic analysis, and means for performing syntactic and semantic analysis and specifying the attribute of the phrase included in each translation sentence candidate Is extracted from each of the plurality of translation sentence candidates, each of the extracted basic structure sentences is designated as the search keyword for the search device, and the number of hits or hits obtained as a result of the search by the search device Of the words constituting the basic structure sentence having a high probability of hits or the number of hits acquired as a result of the search by the search device, the word corresponding to the predetermined second attribute is selected as the basic structure sentence. The phrase that modifies the phrase is extracted from each of the plurality of translation sentence candidates, and a plurality of child structures including the extracted phrase and the phrase that modifies the phrase are specified. It has a stage, specifying the identified said terminal structure as the search keywords for the search device, and means for obtaining the search results obtained number of hits to hit probability by the search device,
The output means includes a basic structure sentence having a high hit probability or a hit probability among the plurality of basic structure sentences, a child structure having a high hit probability or a hit probability among the plurality of child structures, and the translation sentence candidates. A translation apparatus is provided that creates a translation sentence using a phrase that is not included in the basic structure sentence .
また、本発明は、コンピュータが、ある言語で表現された自然言語文を、別の言語で表現された複数の翻訳文候補に翻訳する翻訳ステップと、コンピュータが、指定された検索キーワードが複数のコンピュータに記憶されている情報にヒットした件数乃至ヒットした確率を出力する検索装置に対して、前記複数の翻訳文候補に含まれる語句を検索キーワードとして指定し、当該検索装置によって出力されたヒット件数乃至ヒット確率を取得する検索ステップであって、前記複数の翻訳文候補に対して構文意味解析を行い、各々の翻訳文候補に含まれる語句の属性を特定し、前記構文意味解析の結果に基づいて、予め決められた第1の属性に該当する語句からなる基本構造文を前記複数の翻訳文候補の各々から抽出し、抽出された各々の前記基本構造文を前記検索装置に対する前記検索キーワードとして指定し、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得し、前記検索装置による検索の結果取得したヒット件数乃至ヒット確率が大きい基本構造文を構成する語句のうち、予め決められた第2の属性に相当する語句を前記基本構造文から抽出し、当該語句を修飾する語句を前記複数の翻訳文候補の各々から抽出し、抽出した語句とそれを修飾する語句からなる複数の子構造を特定し、特定した前記子構造を前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する検索ステップと、コンピュータが、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を翻訳文として出力するか、又は、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を用いて翻訳文を作成して出力する出力ステップであって、前記複数の基本構造文のうち前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記複数の子構造のうち前記ヒット件数乃至ヒット確率が大きい子構造と、前記翻訳文候補のうち前記基本構造文に含まれない語句とを用いて翻訳文を作成する出力ステップとを備えることを特徴とする翻訳方法を提供する。 Further, the present invention is a computer, a natural language sentence expressed in a language, a translation step of translating the plurality of translation candidates expressed in a different language, the computer has been designated search keyword of the plurality For the search device that outputs the number of hits to the information stored in the computer or the probability of the hit, the phrase included in the plurality of translated sentence candidates is specified as a search keyword, and the number of hits output by the search device Or a search step for obtaining hit probabilities , wherein the plurality of translation sentence candidates are subjected to syntax semantic analysis, attributes of phrases included in the respective translation sentence candidates are specified, and based on the result of the syntax semantic analysis A basic structure sentence consisting of a phrase corresponding to a predetermined first attribute is extracted from each of the plurality of translation sentence candidates, and each of the extracted base sentences is A structure sentence is designated as the search keyword for the search device, the number of hits or the hit probability obtained as a result of the search by the search device is obtained, and the number of hits or the hit probability obtained as a result of the search by the search device is large. A word corresponding to a predetermined second attribute is extracted from the basic structure sentence among words constituting the structure sentence, and a word that modifies the word is extracted from each of the plurality of translation sentence candidates, and extracted. A plurality of child structures consisting of the phrase and the phrase that modifies the phrase, the identified child structure as the search keyword for the search device, and the number of hits or hits obtained as a result of the search by the search device a searching step of obtaining a probability, the computer of the plurality of translation candidates, the number of hits to the phrase hit probability is greater Output step whether to output a translation candidate as a translation, or, among the plurality of translation candidates, and outputs the created a translation using a translation candidate including the number of hits to the phrase hit probability is greater comprising Among the plurality of basic structure sentences, the basic structure sentence having a large hit probability or hit probability, the child structure having the large hit number or hit probability among the plurality of child structures, and the translation sentence candidates There is provided a translation method comprising: an output step of creating a translation sentence using a phrase not included in the basic structure sentence .
また、本発明は、コンピュータに、ある言語で表現された自然言語文を、別の言語で表現された複数の翻訳文候補に翻訳する翻訳機能と、指定された検索キーワードが複数のコンピュータに記憶されている情報にヒットした件数乃至ヒットした確率を出力する検索装置に対して、前記複数の翻訳文候補に含まれる語句を検索キーワードとして指定し、当該検索装置によって出力されたヒット件数乃至ヒット確率を取得する検索機能であって、前記複数の翻訳文候補に対して構文意味解析を行い、各々の翻訳文候補に含まれる語句の属性を特定し、前記構文意味解析の結果に基づいて、予め決められた第1の属性に該当する語句からなる基本構造文を前記複数の翻訳文候補の各々から抽出し、抽出された各々の前記基本構造文を前記検索装置に対する前記検索キーワードとして指定し、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得し、前記検索装置による検索の結果取得したヒット件数乃至ヒット確率が大きい基本構造文を構成する語句のうち、予め決められた第2の属性に相当する語句を前記基本構造文から抽出し、当該語句を修飾する語句を前記複数の翻訳文候補の各々から抽出し、抽出した語句とそれを修飾する語句からなる複数の子構造を特定し、特定した前記子構造を前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する検索機能と、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を翻訳文として出力するか、又は、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を用いて翻訳文を作成して出力する出力機能であって、前記複数の基本構造文のうち前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記複数の子構造のうち前記ヒット件数乃至ヒット確率が大きい子構造と、前記翻訳文候補のうち前記基本構造文に含まれない語句とを用いて翻訳文を作成する出力機能とを実現させるためのプログラムを提供する。 Further, the present invention is the computer, the natural language sentence expressed in a language, a translation function for translating a plurality of translation candidates expressed in a different language, the designated search keyword are multiple computers For the search device that outputs the number of hits to the stored information or the hit probability, the phrase included in the plurality of translation sentence candidates is designated as a search keyword, and the number of hits or hits output by the search device A search function for acquiring a probability, performing a syntax semantic analysis on the plurality of translation sentence candidates, specifying an attribute of a phrase included in each translation sentence candidate, and based on a result of the syntax semantic analysis, A basic structure sentence composed of words corresponding to a predetermined first attribute is extracted from each of the plurality of translation sentence candidates, and each of the extracted basic structure sentences is stored in the search device. Phrases that constitute a basic structure sentence that is designated as the search keyword, obtains the hit number or hit probability obtained as a result of the search by the search device, and has a large hit probability or hit probability obtained as a result of the search by the search device Among them, a phrase corresponding to a predetermined second attribute is extracted from the basic structure sentence, a phrase that modifies the phrase is extracted from each of the plurality of translation sentence candidates, and the extracted phrase and its modification A search function for specifying a plurality of child structures composed of words and phrases, specifying the specified child structure as the search keyword for the search device, and acquiring the number of hits or the hit probability obtained as a result of the search by the search device A translation sentence candidate including a phrase having a high hit probability or a hit probability among the plurality of translation sentence candidates is output as a translation sentence, or Among the plurality of translation candidates, the number of hits to hit probability with the translation candidate including phrase large an output function of outputting to create a translation, the plurality of the basic structure statement said Using a basic structure sentence with a high hit probability or hit probability, a child structure with a high hit number or hit probability among the plurality of child structures, and a phrase that is not included in the basic structure sentence among the translation sentence candidates A program for realizing an output function for creating a translation is provided.
本発明によれば、検索装置に対して、複数の翻訳文候補に含まれる語句をそれぞれ検索キーワードとして指定し、その検索結果であるヒット件数乃至ヒット確率を取得する。検索装置は、指定された検索キーワードを用いて、複数のコンピュータに記憶されている様々な情報を検索するので、ヒット件数乃至ヒット確率が高い語句は、多くの人間が使用している語句である。よって、複数の翻訳文候補のうち、ヒット件数乃至ヒット確率が高い語句を含む翻訳文候補は、語句の組み合わせや順序などがより自然で一般的な文章と言える。このような翻訳文候補を翻訳文として出力する、又は、必要に応じて、このような翻訳文を用いて翻訳文を作成して出力するので、ネイティブスピーカにとって自然な言い回しの翻訳文を得ることができる。 According to the present invention, a phrase included in a plurality of translation sentence candidates is designated as a search keyword for the search device, and the number of hits or the hit probability as a search result is acquired. Since the search device searches various information stored in a plurality of computers using a specified search keyword, a phrase with a high hit count or a high hit probability is a phrase used by many people. . Therefore, a translation sentence candidate including a phrase with a high hit probability or a hit probability among a plurality of translation sentence candidates can be said to be a sentence having a more natural combination and order of phrases. Such a translation sentence candidate is output as a translation sentence, or if necessary, a translation sentence is created and output using such a translation sentence, so that a translation sentence with a natural phrase for a native speaker can be obtained. Can do.
次に、発明を実施するための最良の形態について説明する。以下の説明において、「語句」とは、その文字どおり、「語」(単語)のみならず、句(フレーズ)を含む意味で用いている。
本実施形態では、従来の機械翻訳によって、ある言語で表現された自然言語文を、別の言語で表現された複数の翻訳文候補に翻訳する。この結果、得られた複数の翻訳文候補に含まれる語句を、インターネット上の検索エンジンに検索キーワードとして指定して検索を実行させる。検索エンジンは、指定された検索キーワードと、個人や組織が開設しているWWW(World Wide Web)サイトで公開されている様々な文章とを比較し、そのヒット件数乃至ヒット確率を出力するものである。つまり、この検索エンジンでヒットする件数乃至確率が高い表現は、多くの人間が使用している表現である。よって、複数の翻訳文候補のうち、ヒット件数乃至ヒット確率が大きい翻訳文候補は、語句の組み合わせや順序などがより自然で一般的な文章と言える。従って、検索エンジンでヒットした件数乃至確率が高い語句を含む翻訳文候補を用いて翻訳文を作成すれば、ネイティブスピーカにとって自然な言い回しの翻訳文を得ることができるというわけである。
Next, the best mode for carrying out the invention will be described. In the following description, “word / phrase” is literally used to mean not only “word” (word) but also a phrase (phrase).
In the present embodiment, a natural language sentence expressed in one language is translated into a plurality of translation sentence candidates expressed in another language by conventional machine translation. As a result, a search is executed by specifying a search phrase on the Internet for a phrase included in the obtained plurality of translation sentence candidates as a search keyword. The search engine compares the specified search keyword with various texts published on the WWW (World Wide Web) sites established by individuals and organizations, and outputs the number of hits and the hit probability. is there. That is, an expression with a high number of cases or a probability of hitting in this search engine is an expression used by many people. Therefore, a translation sentence candidate having a large number of hits or a hit probability among a plurality of translation sentence candidates can be said to be a general sentence with a more natural combination and order of phrases. Therefore, if a translated sentence is created using candidate translation sentences including words or phrases having a high probability or number of hits in the search engine, it is possible to obtain a translated sentence that is natural for native speakers.
図1は、本実施形態に係る翻訳装置10の構成を示す図である。この翻訳装置10は、例えば汎用のパーソナルコンピュータに、翻訳処理の手順が記述された翻訳プログラムと、インターネットを介した通信を行う手順が記述されたWWWブラウザプログラムとがインストールされたものである。これらの翻訳プログラムやWWWブラウザプログラムは、例えばハードディスク装置などの記憶部11に記憶されている。翻訳プログラムには、機械翻訳に用いられる翻訳辞書が含まれている。この翻訳辞書には、翻訳元言語の語句と、翻訳先言語の語句とが対応付けられて記述されており、いわゆる機械翻訳のために利用される。
FIG. 1 is a diagram illustrating a configuration of a translation apparatus 10 according to the present embodiment. This translation apparatus 10 is, for example, a general-purpose personal computer in which a translation program describing a procedure for translation processing and a WWW browser program describing a procedure for performing communication via the Internet are installed. These translation programs and WWW browser programs are stored in the
制御部12は例えばCPUであり、記憶部11に記憶されている各種プログラムを実行する。通信部13は、例えば公衆電話回線、ISDN(Integrated Services Digital Network)回線或いはADSL(Asymmetric Digital Subscriber Line)回線を介してインターネット20に接続されている。インターネット20は、標準化された通信プロトコル(TCP/IP)を用いて全世界のネットワークを相互に接続した巨大なコンピュータネットワークである。多数のコンピュータがこのインターネット20に接続されており、このインターネット20を介して相互に通信を行うことができるようになっている。インターネット20に接続されたコンピュータの1つが検索エンジンサーバ装置30である。検索エンジンサーバ装置30は、WWWサーバ装置の1種であり、コンピュータからインターネット20を介して指定されたキーワードに基づいて、インターネット20上で公開されている情報(インターネット20に接続されているコンピュータによって記憶されている情報)を検索し、その検索結果をコンピュータに返す、という検索サービスを提供する。検索結果には、検索キーワードが複数のコンピュータに記憶されている情報にヒットしたヒット件数乃至ヒット確率が含まれている。代表的な検索サービスとしては、「Google」、「goo」、「Yahoo!」(いずれも登録商標)などがある。
The
データ入出力部14は、翻訳装置10に対するデータの入出力を行うものであり、例えば各種の記憶媒体に対してデータの読み書きを行うドライブ装置や、LAN(Local Area Network)等のネットワークを介して他の装置とデータの遣り取りを行う通信装置などである。表示部15は、例えば液晶ディスプレイやCRT(Cathode Ray Tube)ディスプレイである。操作部16は、例えばキーボードやマウスによって構成されている。
The data input /
本実施形態では、LFG(Lexical Functional Grammar)と呼ばれる言語解析理論を用いるため、その内容について簡単に説明する。
このLFGに基づく言語解析では、構文解析と意味解析(格構造解析)を行なうことにより、それぞれconstituent structure(c-structure)とfunctional structure (f-structure)と呼ばれる構造を解析結果として出力する。f-structureは、文の構文的及び意味的情報が属性と属性値とのペアの入れ子構造によって表現されているところが特徴である。文を構成するそれぞれの語句は、PRED(predicate: 述語)と呼ばれる属性に対応する属性値としてf-structureに記述される。このf-structureにおいて各言語に依存して変化する部分は、上記のPREDに対応する属性値(語句)のみであり、それ以外は全言語を通して共通化(標準化)されている。すなわち、言語が異なっても同じ意味内容を表す文であれば、語句そのものを除いて、まったく同じ構造のf-structureとなるというわけである。
In this embodiment, since a language analysis theory called LFG (Lexical Functional Grammar) is used, the contents thereof will be briefly described.
In this language analysis based on LFG, syntactic analysis and semantic analysis (case structure analysis) are performed to output structures called constant structure (c-structure) and functional structure (f-structure) as analysis results. The f-structure is characterized in that the syntactic and semantic information of a sentence is expressed by a nested structure of pairs of attributes and attribute values. Each word constituting the sentence is described in the f-structure as an attribute value corresponding to an attribute called PRED (predicate: predicate). In this f-structure, the part that changes depending on each language is only the attribute value (phrase) corresponding to the above PRED, and other parts are standardized (standardized) throughout all languages. In other words, sentences that represent the same meaning and content, even in different languages, will be f-structures with exactly the same structure, except for the words themselves.
このf-structureについて、一例を挙げて説明する。
図2は、例えば「太郎が花子にプレゼントを渡した。」という日本語文に対し、LFG解析を施して得られるf-structureの例を示した図である。図2では、属性とその属性値との対応関係は、互いに水平な位置に配置することで表現している。例えば、属性「PRED」と属性値「渡す」とが対応関係にある。図中で下線を引いて示した部分は、語句(PRED属性に対応する属性値)であり、語句の内容以外は全て全言語に共通の概念である。ただし、全言語に共通の部分は、表記上は英語で表現している。なお、図において、属性「PRED」は述語、属性「SUBJ」は主格、属性「OBJ」は目的格、属性「OBL」は斜格、属性「TENSE」は時制、そして、「PAST」は過去という意味を表している。なお、図3は、属性のより詳細なリストである。f-structureの詳細については、文献「Miriam Butt, et. al., “A Grammar Writer’s Cookbook”, CSLI Publication (1999)」に開示されている。
This f-structure will be described with an example.
FIG. 2 is a diagram illustrating an example of an f-structure obtained by performing LFG analysis on a Japanese sentence “Taro gave a present to Hanako”, for example. In FIG. 2, the correspondence between the attribute and the attribute value is expressed by arranging them at horizontal positions. For example, the attribute “PRED” and the attribute value “pass” are in a correspondence relationship. The part underlined in the figure is a word (attribute value corresponding to the PRED attribute), and all the contents except for the word / phrase are concepts common to all languages. However, parts common to all languages are expressed in English for notation. In the figure, attribute “PRED” is a predicate, attribute “SUBJ” is the main case, attribute “OBJ” is the purpose case, attribute “OBL” is the oblique case, attribute “TENSE” is the tense, and “PAST” is the past. Represents meaning. FIG. 3 is a more detailed list of attributes. Details of the f-structure are disclosed in the document “Miriam Butt, et. al.,“ A Grammar Writer's Cookbook ”, CSLI Publication (1999)”.
次に、本実施形態の動作について説明する。
図4〜7は、翻訳プログラムに記述された制御部12の実行手順を示すフローチャートである。このフローチャートによって表した翻訳手順は、おおよそ次の内容に大別することができる。
基本構造文の抽出・選択(図4:ステップS1〜ステップS5)
基本構造文の子構造の抽出・選択(図4:ステップS6〜図5:ステップS17)
基本構造文に含まれない語句の抽出・選択(図5:ステップS23〜ステップS26、図6:ステップS18〜図7:ステップS31)
Next, the operation of this embodiment will be described.
4 to 7 are flowcharts showing the execution procedure of the
Extraction and selection of basic structure sentence (FIG. 4: step S1 to step S5)
Extraction and selection of child structure of basic structure sentence (FIG. 4: step S6 to FIG. 5: step S17)
Extraction and selection of words not included in the basic structure sentence (FIG. 5: Step S23 to Step S26, FIG. 6: Step S18 to FIG. 7: Step S31)
まず、ユーザが翻訳装置10の操作部16を操作することで、翻訳元言語で表現された文章(以下、原文という)をデータ入出力部14から翻訳装置10に入力させ、翻訳するように指示する。ここでは翻訳元言語を英語とし、その英語の原文は以下のような内容とする。また、翻訳先言語は日本語とする。
“Japanese children enter the first grade of elementary school in the April after their sixth birthday.”
制御部12は、ユーザからの翻訳の指示に応じて翻訳プログラムを実行し、図4に示す処理を開始する。まず、制御部12は、翻訳辞書を用いて上記の原文を日本語に機械翻訳する(ステップS1)。この翻訳処理により、制御部12は以下のような3通りの翻訳結果を得たとする。
(a)「日本人の子供は4月に彼らの6回目の誕生日以降、小学校の一学年に入る。」
(b)「日本の子供は彼らの6才の誕生日の後に4月に第1の等級の小学校に入ります。」
(c)「日本の子供は彼らの第6誕生日の後の4月に小学校の最初等級を入れる。」
以下、上記の3つの文(a)、(b)、(c)を「翻訳文候補」という。
First, the user operates the
“Japanese children enter the first grade of elementary school in the April after their sixth birthday.”
The
(A) “Japanese children enter the first grade of elementary school after their sixth birthday in April.”
(B) “Japanese children enter the first grade elementary school in April after their 6th birthday.”
(C) “Japanese children enter the first grade of elementary school in April after their sixth birthday.”
Hereinafter, the above three sentences (a), (b), and (c) are referred to as “translation sentence candidates”.
次に、制御部12は、これらの翻訳文候補に対して。LFGを用いた構文意味解析を行う(ステップS2)。これにより、制御部12は、翻訳文候補(a)に対するf-structure(図8参照)、翻訳文候補(b)に対するf-structure(図9参照)、翻訳文候補(c)に対するf-structure(図10参照)を得る。
Next, the
次に、制御部12は、翻訳文候補(a)、(b)、(c)の各々のf-structureから、属性「PRED」、「SUBJ」、「OBJ」「OBL」の属性値(語句)を取り出し、取り出した属性値(語句)からなる文(以下、基本構造文という)を生成する(ステップS3)。これらの属性「PRED」、「SUBJ」、「OBJ」「OBL」は、文中の主要な語句の属性と言えるから、これらの属性の属性値(語句)からなる基本構造文は、一般に「格」と呼ばれ、原文の基本的な構造を表した文と言える。なお、属性「OBL」の「PRED」には、格助詞(「に」、「を」など)が属性値として記述されるが、制御部12は、基本構造文を生成する際にはこの属性「OBL」の「PRED」に自立語を対応させる。
Next, the
これにより、制御部12は、以下のような3つの基本構造文を得る。なお、翻訳文候補(a)と基本構造文(a1)が対応しており、翻訳文候補(b)と基本構造文(b1)が対応しており、翻訳文候補(c)と基本構造文(c1)が対応している。
(a1)「子供は一学年に入る。」
(b1)「子供は小学校に入る。」
(c1)「子供は等級を入れる。」
Thereby, the
(A1) "Child enters the first grade"
(B1) “Child enters elementary school”
(C1) “Children enter grades”
次に、制御部12は、WWWブラウザプログラムを起動させて検索エンジンサーバ装置30にアクセスし、上記の基本構造文(a1)、(b1)、(c1)を検索キーワードとして検索エンジンサーバ装置30に送信する(ステップS4)。これに応じて、検索エンジンサーバ装置30からはその検索結果が返信されてくる。以下に、検索エンジンサーバ装置30として、「google」(登録商標)を用いた場合の検索結果を示す。
(a1)「子供は一学年に入る」 ヒット件数:0件 同一フレーズ率:0/0 = 0.000
(b1)「子供は小学校に入る」 ヒット件数:11件 同一フレーズ率:10/11= 0.909
(c1)「子供は等級を入れる」 ヒット件数:0件 同一フレーズ率:0/0 = 0.000
「google」には、例えば「子供は小学校に入る」という検索キーワードを指定した場合、「子供は近くの小学校に入る」というように、検索キーワードと完全一致しない情報も検索するようなサービスがある。「ヒット件数」とは、このような完全一致でないものも含んだ件数である。これに対し、「同一フレーズ率」とは、検索におけるヒット確率の1種であり、検索キーワードと完全一致したヒット件数を、完全一致しない件数も含む総ヒット件数で除した値である。
Next, the
(A1) “Children enter the first grade” Number of hits: 0 Same phrase rate: 0/0 = 0.000
(B1) “Children enter elementary school” Number of hits: 11 Same phrase rate: 10/11 = 0.909
(C1) “Children enter grade” Number of hits: 0 Same phrase rate: 0/0 = 0.000
“Google” has a service that searches for information that does not exactly match the search keyword, such as “children enter a nearby elementary school” when the search keyword “kid enters elementary school” is specified. . “Number of hits” is the number of such hits including those that are not completely matched. On the other hand, the “same phrase rate” is one type of hit probability in the search, and is a value obtained by dividing the number of hits that completely match the search keyword by the total number of hits including the number that does not completely match.
次に、制御部12は、上記の3つの基本構造文(a1)、(b1)、(c1)の中から、検索エンジンサーバ装置30による検索の結果に基づいて、最も自然な文章であると考えられる基本構造文を選択する(ステップS5)。具体的には、制御部12は、上記の3つの基本構造文(a1)、(b1)、(c1)の中から、同一フレーズ率が最も高い基本構造文を選択する。基本構造文の同一フレーズ率が高いということは、その基本構造文がより多くの人間によって使われているということを意味するからである。ただし、複数の基本構造文の同一フレーズ率が同値であった場合には、制御部12は、それらの基本構造文のうち、ヒット件数が多い基本構造文を選択する。基本構造文のヒット件数が多い場合も、その基本構造文に類似した文章がより多くの人間によって使われていることになるからである。本実施形態の例では、基本構造文(b1)である「子供は小学校に入る」の同一フレーズ率が「0.909」と最も高いので、制御部12は、基本構造文(b1)を選択することになる。
Next, the
次に、制御部12は、ステップS5で選択した基本構造文(b2)の内容に基づき、子構造を抽出する(ステップS6)。子構造とは、基本構造文を構成する属性「SUBJ」、「OBJ」、「OBL」の属性値(語句)と、その属性値を翻訳文候補(a)、(b)、(c)において修飾している語句とによって構成されるフレーズを指す。より具体的には、制御部12は、まず選択した基本構造文(b2)から、属性「SUBJ」の属性値を抽出する。この例では、基本構造文(b1)における属性「SUBJ」の属性値「子供」が抽出される。そして、制御部12は、この「子供」をいう語句を、翻訳文候補(a)、(b)、(c)においてそれぞれ修飾している語句を抽出する。つまり「日本人の」と「日本の」という語句である。そして、制御部12は、基本構造文から抽出した語句「子供」と、それを修飾する語句「日本人の」又は「日本の」とによって構成される子構造を抽出する。この結果、制御部12は以下のような2通りの子構造を得ることになる。なお、子構造(a2)と翻訳文候補(a)及び基本構造文(a1)とが対応しており、子構造(b2)と翻訳文候補(b)及び基本構造文(b1)とが対応している。
(a2)「日本人の子供」
(b2)「日本の子供」
Next, the
(A2) “Japanese children”
(B2) “Japanese children”
次に、制御部12は、WWWブラウザプログラムによって検索エンジンサーバ装置30にアクセスし、上記の子構造(a2)、(b2)を検索キーワードとして検索エンジンサーバ装置30に送信する(ステップS7)。以下に、その検索結果を示す。
(a2)「日本人の子供」 ヒット件数:4480件
(b2)「日本の子供」 ヒット件数:18,800件
Next, the
(A2) “Japanese children” hits: 4480 (b2) “Japanese children” hits: 18,800
制御部12は、それぞれのヒット件数がゼロでないことを確認してから(ステップS8;No)、それぞれのヒット件数を予め決められた閾値(ここでは1000件とする)と比較して、その大小関係を判断する(ステップS9)。ここで、それぞれのヒット件数が閾値を超えていなければ(ステップS9;No)、制御部12は、ヒット件数が多い方の子構造を選択する(ステップS10)。子構造を選択したら、制御部12は、図5のステップS17の処理に進む。
After confirming that the number of hits is not zero (step S8; No), the
一方、それぞれのヒット件数が閾値を超えている場合には(ステップS9:Yes)、いずれの子構造のヒット件数も比較的多いということを意味するので、制御部12は、どちらが自然な表現であるかを判断することができない。この場合、制御部12は、ステップS5で選択した基本構造文(b1)「子供は小学校に入る」に対して、上述した子構造(a2)、(b2)を挿入した文(以下、詳細構造文という)を生成する(ステップS11)。この例では、詳細構造文は次のようになる。なお、詳細構造文(a3)と子構造(a2)とが対応しており、詳細構造文(b3)と子構造(b2)とが対応している。
(a3)「日本人の子供は小学校に入る」
(b3)「日本の子供は小学校に入る」
On the other hand, if the number of hits exceeds the threshold value (step S9: Yes), it means that the number of hits of any child structure is relatively large, so the
(A3) “Japanese children enter elementary school”
(B3) “Japanese children enter elementary school”
そして、制御部12は、この詳細構造文を検索キーワードに指定して検索エンジンサーバ装置30による検索を行う(ステップS12)。そして、制御部12は、検索結果のヒット件数がいずれも0件ではないことを確認した上で(ステップS13:No)、ヒット件数が多い方の子構造を選択する(ステップS10)。
And the
一方、ステップS13において、以下のように、検索結果のヒット件数がいずれも0件の場合には(ステップS13;Yes)、制御部12の処理は図5のステップS14に進む。
(a3)「日本人の子供は小学校に入る」 ヒット件数:0件
(b3)「日本の子供は小学校に入る」 ヒット件数:0件
On the other hand, in step S13, if the number of hits in the search result is zero (step S13; Yes), the process of the
(A3) “Japanese children enter elementary school” Number of hits: 0 (b3) “Japanese children enter elementary school” Number of hits: 0
ステップS14において、制御部12は、詳細構造文を格助詞および係助詞で区切って、複数の語句に分離する。そして、制御部12は、これらをアンド条件で検索キーワードに指定して検索エンジンサーバ装置30による検索を行う(ステップS15)。この検索結果の例を以下に示す。
(a4)「日本人の子供は」&「小学校に」&「入る」 ヒット件数:18件
(b4)「日本の子供は」&「小学校に」&「入る」 ヒット件数:47件
制御部12は、ヒット件数が多い方の詳細構造文に挿入されている子構造、ここでは、(b2)「日本の子供」を選択する(ステップS16)。
In step S <b> 14, the
(A4) “Japanese children” & “To elementary school” & “Enter” Hits: 18
(B4) “Japanese children” & “To elementary school” & “Enter” Hits: 47
The
上述した処理により、制御部12は、選択した基本構造文(b2)において属性「SUBJ」の属性値「子供」と、それを修飾する語句とによって構成される子構造については確定することができた。次に、制御部12は、ステップS5で選択した基本構造文(b2)の内容に基づいて、さらに子構造を抽出できるかどうかを判断する(ステップS17)。この例では、基本構造文(b2)において、属性「OBL」の属性値「小学校」と、それを修飾する語句「第一の等級の」とによって構成される子構造「第一の等級の小学校」が存在するので(ステップS17;Yes)、制御部12は図4〜図5の上記ステップS6〜S16の手順を繰り返して、その子構造の内容でよいかどうかを確認すればよい。ただし、この例では、ステップS7の検索結果が、
(b4)「第1の等級の小学校」 ヒット件数:0件
というように、ヒット件数がゼロであったとする。
Through the processing described above, the
(B4) “First grade elementary school” Number of hits: 0
Thus, it is assumed that the number of hits is zero.
このようにヒット件数がゼロである場合(ステップS8;Yes)、制御部12は、「第一の等級の小学校」のいう表現に対して構文意味解析を施し、以下のように、各語句の係り受け関係を特定する(図6のステップS18)。
(b5)「第一の」→「等級の」→「小学校」
そして、制御部12は、属性「OBL」の属性値「子供」と、その属性値を直接修飾する語句「等級の」とを結合した語句「等級の小学校」を検索キーワードに指定して、検索エンジンサーバ装置30による検索を行う(ステップS19)。この検索の結果は以下のようになる。
(b5)「等級の小学校」 ヒット件数:0件
このように、ヒット件数がゼロの場合には(ステップS20;Yes)、制御部12は、属性「OBL」の属性値を一切修飾しないままの「小学校」、又は、子構造そのものである「第一の等級の小学校」の2通りの語句(フレーズ)を翻訳候補として記憶部11に記憶する(ステップS21)。一方、ヒット件数がゼロでない場合には(ステップS20;No)、制御部12は、その子構造「第一の等級の小学校」を翻訳候補として記憶部11に記憶する(ステップS22)。
Thus, when the number of hits is zero (step S8; Yes), the
(B5) “First” → “Grade” → “Primary school”
Then, the
(B5) “Grade elementary school” Number of hits: 0 In this way, when the number of hits is zero (step S20; Yes), the
再び図5に戻り、制御部12は、基本構造文の子構造の抽出・選択に関する処理が終了すると(ステップS17;No)、翻訳文候補(a)、(b)、(c)において、それぞれの基本構造文(a1)、(b1)、(c1)に含まれていない語句を抽出する(ステップS23)。次に、制御部12は、抽出した語句のうち、翻訳文候補(a)、(b)、(c)の全てに共通して含まれている語句があるか否かを判断する(ステップS24)。この例の場合、「彼らの」、「誕生」、「日」という語句がそれぞれ該当することになる。そのような語句がある場合(ステップS24;Yes)、制御部12は、それぞれの翻訳文候補(a)、(b)、(c)からこれらの語句を連ねた語句(フレーズ)を抽出し、それらの語句(フレーズ)を検索キーワードとして検索エンジンサーバ装置30による検索を行う(ステップS25)。この場合、翻訳文候補(a)からは「6回目の誕生日」という語句(フレーズ)が抽出され、翻訳文候補(b)からは「6才の誕生日」という語句(フレーズ)が抽出され、翻訳文候補(c)からは「第6誕生日」という語句(フレーズ)が抽出されて検索がなされる。その検索結果は以下の通りである。
Referring back to FIG. 5 again, when the process related to the extraction / selection of the child structure of the basic structure sentence is completed (Step S17; No), the
(a6)「6回目の誕生日」 ヒット件数:16,500件 同一フレーズ率:209 / 16,500 =0.013
(b6)「6才の誕生日」 ヒット件数:9,180件 同一フレーズ率:262 /9,180 =0.029
(c6)「第6誕生日」 ヒット件数:158,000件 同一フレーズ率:1/158,000 =0.000
制御部12は、この検索結果から、同一フレーズ率の最も高い語句を選択する(ステップS26)。この例では、「6才の誕生日」という語句が選択されることとなる.
(A6) “6th birthday” Number of hits: 16,500 Same phrase rate: 209 / 16,500 = 0.013
(B6) “6th birthday” Hits: 9,180 Same phrase rate: 262 / 9,180 = 0.029
(C6) “6th birthday” Number of hits: 158,000 Same phrase rate: 1 / 158,000 = 0.000
The
そして、制御部12の処理は図7に進む。制御部12は、翻訳文候補(a)、(b)、(c)においてそれぞれの基本構造文(a1)、(b1)、(c1)に含まれない語句のうち、語句の順番が異なる部分があるか否かを判断する(ステップS27)。この例の場合、翻訳文候補(a)では、「4月に」が「彼らの6才の誕生日の後に」の前であるが、翻訳文候補(b)、(c)では、「彼らの6才の誕生日の後に」に相当する表現は「4月に」の後である。このように語順が異なる場合は(ステップS27;Yes)、制御部12は、原文に対して構文意味解析を行い、その結果に基づいてこれらの語句の係り受け関係を特定する(ステップS28)。この例では、構文意味解析の結果が図8に示すような内容となる。つまり、「4月に」という語句は、「彼らの6才の誕生日の後に」、「彼らの第6誕生日の後の」、「彼らの6回目の誕生日以降」によって修飾される語句であることがわかる。そして、制御部12は、翻訳文候補(a)、(b)、(c)においてこの係り受け関係を反映した語句(フレーズ)を作成し、この語句を検索キーワードとして検索エンジンサーバ装置30による検索を行う(ステップS29)。その結果は以下の通りである。
(a7)「誕生日以降4月」 ヒット件数:0件 同一フレーズ率 0.000
(b8)「誕生日の後に4月」 ヒット件数:52件 同一フレーズ率 0.000
(c8)「誕生日の後の4月」 ヒット件数:30件 同一フレーズ率 0.100
Then, the process of the
(A7) “April after April” Number of hits: 0 Same phrase rate 0.000
(B8) “April after birthday” Number of hits: 52 Same phrase rate 0.000
(C8) “April after birthday” Number of hits: 30 Same phrase rate 0.100
制御部12は、この検索結果を参照し、同一フレーズ率の最も高い語句(フレーズ)を選択する(ステップS30)。この例では、「誕生日の後の4月」という語句が選択されることになる。これにより、制御部12は、「6才の誕生日の後の4月に」というフレーズを採用する。
The
そして、制御部12は、以上の処理によって選択された基本構造文の内容に対して、その基本構造文以外の語句を適切に組み合わせることで、最終的な翻訳結果を得る(ステップS31)。つまり、制御部12は、
「日本の子供は彼らの6才の誕生日の後の4月に小学校に入る.」
もしくは
「日本の子供は彼らの6才の誕生日の後の4月に(第一の等級の)小学校に入る.」
という翻訳結果を得て、これを表示部15に表示する。なお、ステップS27において、制御部12は、翻訳文候補(a)、(b)、(c)においてそれぞれの基本構造文(a1)、(b1)、(c1)に含まれない語句のうち、語句の順番が異なる部分がないと判断した場合には(ステップS27;No)、上述したステップS31の処理に進めばよい。
Then, the
“Japanese children enter elementary school in April after their 6th birthday.”
Or "Japanese children enter elementary school (first grade) in April after their 6th birthday."
Is obtained and displayed on the
以上の実施形態によれば、検索エンジンでヒットした件数乃至確率が高い語句を用いて翻訳文を作成するので、ネイティブスピーカにとって自然な言い回しの翻訳文を得ることができる。
なお、上述した図4のステップS10において、制御部12は、ヒット件数が多い方の子構造を選択するのではなくて、検索結果における検索キーワードどうしの距離の近さを算出し、距離が近い方の子構造を選択するようにしてもよい。検索キーワードどうしの距離とは、コンピュータによって記憶されている情報のうち、検索キーワードを含むひとまとまりの文章情報において、各検索キーワード間にある形態素の数であり、その形態素の数が多いほど距離が遠く、形態素の数が少ないほど距離が短い。具体的には、制御部12は、検索結果に含まれている文章情報に形態素解析処理を施し、各検索キーワード間にある形態素を計数し、さらにその平均を求めて、その平均値が小さい方の子構造を選択する。
また、実施形態では、検索結果から基本構造文、子構造及びその他の語句を選択する際の基準として、ヒット件数又はヒット確率(同一フレーズ率)を適宜使い分けていたが、これらのヒット件数又はヒット確率のいずれを(又はその両方を)使うかどうかは設計者が適切に定めることができる。要するに、翻訳装置10は、検索キーワードが複数のコンピュータに記憶されている情報にヒットしたヒット件数乃至ヒット確率に基づいて選択すればよい。
なお、制御部12が実行する翻訳プログラムは、コンピュータによって読み取り可能な磁気記録媒体、光記録媒体あるいはROMなどの記録媒体に記録して翻訳装置10に提供することができる。また、インターネット20のようなネットワーク経由で翻訳装置10にダウンロードさせることも可能である。
According to the above embodiment, a translation is created using words / phrases with a high probability or number of hits in the search engine, so a translation with a natural phrase for a native speaker can be obtained.
In step S10 of FIG. 4 described above, the
In the embodiment, the number of hits or the hit probability (same phrase rate) is properly used as a criterion for selecting a basic structure sentence, a child structure, and other phrases from the search results. The designer can determine which of the probabilities (or both) to use. In short, the translation apparatus 10 may select a search keyword based on the number of hits or hit probability that hits information stored in a plurality of computers.
The translation program executed by the
10・・・翻訳装置、11・・・記憶部、12・・・制御部、13・・・通信部、14・・・データ入出力部、15・・・表示部、16・・・操作部、20・・・インターネット、30・・・検索エンジンサーバ装置。 DESCRIPTION OF SYMBOLS 10 ... Translation apparatus, 11 ... Memory | storage part, 12 ... Control part, 13 ... Communication part, 14 ... Data input / output part, 15 ... Display part, 16 ... Operation part , 20... Internet, 30... Search engine server device.
Claims (10)
ある言語で表現された自然言語文を、別の言語で表現された複数の翻訳文候補に翻訳する翻訳手段と、
指定された検索キーワードが複数のコンピュータに記憶されている情報にヒットした件数乃至ヒットした確率を出力する検索装置に対して、前記複数の翻訳文候補に含まれる語句を検索キーワードとして指定し、当該検索装置によって出力されたヒット件数乃至ヒット確率を取得する検索手段と、
前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を翻訳文として出力するか、又は、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を用いて翻訳文を作成して出力する出力手段とを備え、
前記検索手段は、
前記複数の翻訳文候補に対して構文意味解析を行い、各々の翻訳文候補に含まれる語句の属性を特定する手段と、
前記構文意味解析の結果に基づいて、予め決められた第1の属性に該当する語句からなる基本構造文を前記複数の翻訳文候補の各々から抽出する手段と、
抽出された各々の前記基本構造文を前記検索装置に対する前記検索キーワードとして指定し、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段と、
前記検索装置による検索の結果取得したヒット件数乃至ヒット確率が大きい基本構造文を構成する語句のうち、予め決められた第2の属性に相当する語句を前記基本構造文から抽出し、当該語句を修飾する語句を前記複数の翻訳文候補の各々から抽出し、抽出した語句とそれを修飾する語句からなる複数の子構造を特定する手段と、
特定した前記子構造を前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段とを有し、
前記出力手段は、前記複数の基本構造文のうち前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記複数の子構造のうち前記ヒット件数乃至ヒット確率が大きい子構造と、前記翻訳文候補のうち前記基本構造文に含まれない語句とを用いて翻訳文を作成する
ことを特徴とする翻訳装置と
を備えることを特徴とする翻訳システム。 A search device that is connected to a plurality of computers via a network and outputs a hit probability or hit probability that the search keyword hits information stored in the plurality of computers when a search keyword is specified;
A translation means for translating a natural language sentence expressed in one language into a plurality of translation sentence candidates expressed in another language;
For the search device that outputs the number of hits to the information stored in a plurality of computers or the probability of hitting the specified search keyword, the phrase included in the plurality of translation sentence candidates is specified as a search keyword, Search means for obtaining the hit count or hit probability output by the search device;
Among the plurality of translation sentence candidates, the translation sentence candidate including a phrase having a large hit probability or hit probability is output as a translation sentence, or, among the plurality of translation sentence candidates, the hit number or hit probability is large. An output means for generating and outputting a translation using candidate translations including words ,
The search means includes
Means for performing syntactic and semantic analysis on the plurality of translation sentences candidates, and specifying attributes of phrases included in each translation sentence candidate;
Means for extracting, from each of the plurality of translation sentence candidates, a basic structure sentence consisting of a phrase corresponding to a predetermined first attribute based on the result of the syntax and semantic analysis;
Means for specifying each of the extracted basic structure sentences as the search keyword for the search device, and obtaining the number of hits or the hit probability obtained as a result of the search by the search device;
Among words constituting a basic structure sentence having a large hit probability or hit probability obtained as a result of the search by the search device, a word corresponding to a predetermined second attribute is extracted from the basic structure sentence, and the word or phrase is extracted. Means for extracting a phrase to be modified from each of the plurality of translation sentence candidates, and identifying a plurality of child structures composed of the extracted phrase and the phrase to be modified;
Means for obtaining the number of hits or the hit probability obtained as a result of the search by the search device by designating the identified child structure as the search keyword for the search device;
The output means includes a basic structure sentence having a high hit probability or a hit probability among the plurality of basic structure sentences, a child structure having a high hit probability or a hit probability among the plurality of child structures, and the translation sentence candidates. A translation system comprising: a translation device that creates a translated sentence using a phrase that is not included in the basic structure sentence .
指定された検索キーワードが複数のコンピュータに記憶されている情報にヒットした件数乃至ヒットした確率を出力する検索装置に対して、前記複数の翻訳文候補に含まれる語句を検索キーワードとして指定し、当該検索装置によって出力されたヒット件数乃至ヒット確率を取得する検索手段と、
前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を翻訳文として出力するか、又は、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を用いて翻訳文を作成して出力する出力手段と
を備え、
前記検索手段は、
前記複数の翻訳文候補に対して構文意味解析を行い、各々の翻訳文候補に含まれる語句の属性を特定する手段と、
前記構文意味解析の結果に基づいて、予め決められた第1の属性に該当する語句からなる基本構造文を前記複数の翻訳文候補の各々から抽出する手段と、
抽出された各々の前記基本構造文を前記検索装置に対する前記検索キーワードとして指定し、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段と、
前記検索装置による検索の結果取得したヒット件数乃至ヒット確率が大きい基本構造文を構成する語句のうち、予め決められた第2の属性に相当する語句を前記基本構造文から抽出し、当該語句を修飾する語句を前記複数の翻訳文候補の各々から抽出し、抽出した語句とそれを修飾する語句からなる複数の子構造を特定する手段と、
特定した前記子構造を前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段とを有し、
前記出力手段は、前記複数の基本構造文のうち前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記複数の子構造のうち前記ヒット件数乃至ヒット確率が大きい子構造と、前記翻訳文候補のうち前記基本構造文に含まれない語句とを用いて翻訳文を作成する
ことを特徴とする翻訳装置。 A translation means for translating a natural language sentence expressed in one language into a plurality of translation sentence candidates expressed in another language;
For the search device that outputs the number of hits to the information stored in a plurality of computers or the probability of hitting the specified search keyword, the phrase included in the plurality of translation sentence candidates is specified as a search keyword, Search means for obtaining the hit count or hit probability output by the search device;
Among the plurality of translation sentence candidates, the translation sentence candidate including a phrase having a large hit probability or hit probability is output as a translation sentence, or, among the plurality of translation sentence candidates, the hit number or hit probability is large. Output means for creating and outputting a translation using candidate translations including words ,
The search means includes
Means for performing syntactic and semantic analysis on the plurality of translation sentences candidates, and specifying attributes of phrases included in each translation sentence candidate;
Means for extracting, from each of the plurality of translation sentence candidates, a basic structure sentence consisting of a phrase corresponding to a predetermined first attribute based on the result of the syntax and semantic analysis;
Means for specifying each of the extracted basic structure sentences as the search keyword for the search device, and obtaining the number of hits or the hit probability obtained as a result of the search by the search device;
Among words constituting a basic structure sentence having a large hit probability or hit probability obtained as a result of the search by the search device, a word corresponding to a predetermined second attribute is extracted from the basic structure sentence, and the word or phrase is extracted. Means for extracting a phrase to be modified from each of the plurality of translation sentence candidates, and identifying a plurality of child structures composed of the extracted phrase and the phrase to be modified;
Means for obtaining the number of hits or the hit probability obtained as a result of the search by the search device by designating the identified child structure as the search keyword for the search device;
The output means includes a basic structure sentence having a high hit probability or a hit probability among the plurality of basic structure sentences, a child structure having a high hit probability or a hit probability among the plurality of child structures, and the translation sentence candidates. A translation apparatus that creates a translation sentence using a phrase that is not included in the basic structure sentence .
ことを特徴とする請求項2記載の翻訳装置。 Attribute "PRED" Prior Symbol first attribute in LFG functional obtained in language analysis based on (Lexical Functional Grammar) structure (f -structure), "SUBJ", Ri "OBJ" and "OBL" Der, the first The translation apparatus according to claim 2, wherein the two attributes are attributes "SUBJ", "OBJ", and "OBL" in a functional structure obtained by language analysis based on LFG .
前記子構造を前記検索装置に対する前記検索キーワードとして指定して取得したヒット件数乃至ヒット確率がいずれも閾値を超える場合には、当該複数の子構造の各々を前記ヒット件数乃至ヒット確率が大きい基本構造文に挿入して詳細構造文を生成する手段と、
生成した前記詳細構造文を前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段とを有し、
前記出力手段は、前記複数の詳細構造文のうち、前記ヒット件数乃至ヒット確率が大きい詳細構造文に挿入されている子構造と、前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記翻訳文候補のうち前記基本構造文に含まれない語句とを用いて翻訳文を作成する
ことを特徴とする請求項2記載の翻訳装置。 Before Symbol retrieval means,
When the number of hits or the hit probability acquired by specifying the child structure as the search keyword for the search device exceeds a threshold, each of the plurality of child structures is a basic structure having a large hit number or hit probability. It means for generating a detailed structure statement is inserted into the sentence,
Specifying the generated detailed structure sentence as the search keyword for the search device, and obtaining the number of hits or the hit probability obtained as a result of the search by the search device,
The output means includes, among the plurality of detailed structure sentences, a child structure inserted in the detailed structure sentence having a high hit probability or hit probability, a basic structure sentence having a high hit number or hit probability, and the translated sentence The translation apparatus according to claim 2, wherein a translation sentence is created using a phrase that is not included in the basic structure sentence among candidates .
複数の前記詳細構造文を前記検索装置に対する前記検索キーワードに指定して取得したヒット件数乃至ヒット確率がいずれもゼロであった場合には、前記複数の詳細構造文をそれぞれ助詞で区切って複数の語句に分離する手段と、
これら複数の語句をアンド条件で前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段とを有し、
前記出力手段は、前記複数の詳細構造文のうち前記ヒット件数乃至ヒット確率が大きい語句を含む詳細構造文に挿入されている子構造と、前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記翻訳文候補のうち前記基本構造文に含まれない語句とを用いて翻訳文を作成する
ことを特徴とする請求項4記載の翻訳装置。 Before Symbol retrieval means,
When the number of hits or the hit probability obtained by designating the plurality of detailed structure sentences as the search keyword for the search device are all zero, the plurality of detailed structure sentences are separated by a particle, respectively. Means for separating words,
A unit for obtaining the number of hits or the hit probability obtained as a result of the search by the search device by designating the plurality of phrases as the search keyword for the search device under an AND condition;
The output means includes a child structure inserted in a detailed structure sentence including a phrase having a high hit probability or a hit probability among the plurality of detailed structure sentences, a basic structure sentence having a high hit probability or a hit probability, The translation apparatus according to claim 4, wherein a translation sentence is created using a phrase that is not included in the basic structure sentence among translation sentence candidates .
前記出力手段は、
前記複数の基本構造文のうち前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記複数の子構造のうち前記ヒット件数乃至ヒット確率が大きい子構造と、前記翻訳文候補のうち前記基本構造文に含まれない語句とを用いて翻訳文を作成することに代えて、
取得された前記文章情報に形態素解析を施して各々の検索キーワード間にある形態素を計数し、更にその計数値の平均を求めて最も小さい平均値に対応する子構造と、前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記翻訳文候補のうち前記基本構造文に含まれない語句とを用いて翻訳文を作成する
ことを特徴とする請求項2記載の翻訳装置。 The search means replaces the search device with the specified child structure as the search keyword for the search device, and obtains the number of hits or the hit probability obtained as a result of the search by the search device. As a search result by, comprising means for acquiring text information including the search keyword,
Before Symbol output means,
Among the plurality of basic structure sentences, the basic structure sentence having a large hit probability or hit probability, the child structure having the large number of hit cases or hit probability among the plurality of child structures, and the basic structure sentence among the candidate translation sentences Instead of creating translations using words not included in the
The obtained sentence information is subjected to morphological analysis to count the morphemes between the respective search keywords, the average of the counted values is obtained, and the child structure corresponding to the smallest average value, the number of hits and the hit probability The translation apparatus according to claim 2 , wherein a translation sentence is created by using a basic structure sentence having a large and a phrase that is not included in the basic structure sentence among the translation sentence candidates .
前記基本構造文に含まれない語句であって、前記複数の翻訳文候補の全てに含まれる語句を抽出し、各々の前記翻訳文候補から抽出した前記語句を連ねて複数のフレーズを生成する手段と、
生成した複数のフレーズを前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段とを有し、
前記出力手段は、前記複数のフレーズのうち前記ヒット件数乃至ヒット確率が大きいフレーズと、前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記ヒット件数乃至ヒット確率が大きい子構造とを用いて翻訳文を作成する
ことを特徴とする請求項2記載の翻訳装置。 Before Symbol retrieval means,
Means for extracting a phrase that is not included in the basic structure sentence and that is included in all of the plurality of translation sentence candidates, and generating a plurality of phrases by connecting the phrases extracted from each of the translation sentence candidates When,
A plurality of generated phrases are specified as the search keyword for the search device, and the number of hits or the hit probability obtained as a result of the search by the search device is obtained,
The output means translates the phrase having a high hit probability or hit probability among the plurality of phrases, a basic structure sentence having a high hit probability or hit probability, and a child structure having a high hit probability or hit probability. The translation device according to claim 2 , wherein a sentence is created.
前記複数の翻訳文候補において、前記基本構造文に含まれない語句の順番が異なる部分があるか否かを判断する手段と、
語句の順番が異なる部分があると判断された場合には、前記ある言語で表現された自然言語文に対して構文意味解析を行って順番が異なる語句の係り受け関係を特定し、その係り受け関係を反映した複数のフレーズを作成する手段と
作成した複数のフレーズを前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段とを有し、
前記出力手段は、前記複数のフレーズのうち前記ヒット件数乃至ヒット確率が大きいフレーズと、前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記ヒット件数乃至ヒット確率が大きい子構造とを用いて翻訳文を作成する
ことを特徴とする請求項2記載の翻訳装置。 Before Symbol retrieval means,
Means for determining whether or not there is a part in which the order of words / phrases not included in the basic structure sentence is different in the plurality of translation sentence candidates;
When it is determined that there is a part in which the order of words is different, syntactic / semantic analysis is performed on the natural language sentence expressed in the certain language to identify dependency relations of words with different orders, and the dependency Means for creating a plurality of phrases reflecting the relationship; means for designating the plurality of created phrases as the search keyword for the search device; and acquiring the number of hits or the hit probability obtained as a result of the search by the search device; Have
The output means translates the phrase having a high hit probability or hit probability among the plurality of phrases, a basic structure sentence having a high hit probability or hit probability, and a child structure having a high hit probability or hit probability. The translation device according to claim 2 , wherein a sentence is created.
コンピュータが、指定された検索キーワードが複数のコンピュータに記憶されている情報にヒットした件数乃至ヒットした確率を出力する検索装置に対して、前記複数の翻訳文候補に含まれる語句を検索キーワードとして指定し、当該検索装置によって出力されたヒット件数乃至ヒット確率を取得する検索ステップであって、前記複数の翻訳文候補に対して構文意味解析を行い、各々の翻訳文候補に含まれる語句の属性を特定し、前記構文意味解析の結果に基づいて、予め決められた第1の属性に該当する語句からなる基本構造文を前記複数の翻訳文候補の各々から抽出し、抽出された各々の前記基本構造文を前記検索装置に対する前記検索キーワードとして指定し、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得し、前記検索装置による検索の結果取得したヒット件数乃至ヒット確率が大きい基本構造文を構成する語句のうち、予め決められた第2の属性に相当する語句を前記基本構造文から抽出し、当該語句を修飾する語句を前記複数の翻訳文候補の各々から抽出し、抽出した語句とそれを修飾する語句からなる複数の子構造を特定し、特定した前記子構造を前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する検索ステップと、
コンピュータが、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を翻訳文として出力するか、又は、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を用いて翻訳文を作成して出力する出力ステップであって、前記複数の基本構造文のうち前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記複数の子構造のうち前記ヒット件数乃至ヒット確率が大きい子構造と、前記翻訳文候補のうち前記基本構造文に含まれない語句とを用いて翻訳文を作成する出力ステップと
を備えることを特徴とする翻訳方法。 A translation step in which a computer translates a natural language sentence expressed in one language into a plurality of translation sentence candidates expressed in another language;
A computer specifies a word or phrase included in a plurality of translation sentence candidates as a search keyword for a search device that outputs the number of hits to the information stored in a plurality of computers or the probability of the hit. A search step for obtaining the number of hits or the hit probability output by the search device , wherein the plurality of translation sentence candidates are subjected to syntactic and semantic analysis, and the attribute of the phrase included in each translation sentence candidate is determined. Based on the result of the syntactic and semantic analysis, a basic structure sentence consisting of words corresponding to a predetermined first attribute is extracted from each of the plurality of translation sentence candidates, and each of the extracted basic sentences A structure sentence is designated as the search keyword for the search device, and the number of hits or hit probability obtained as a result of the search by the search device is acquired. Of the words constituting the basic structure sentence having a high hit probability or the hit probability obtained as a result of the search by the search device, the word corresponding to the predetermined second attribute is extracted from the basic structure sentence, and the phrase Is extracted from each of the plurality of translation sentence candidates, a plurality of child structures composed of the extracted words and phrases and the phrases to be modified are specified, and the specified child structure is used as the search keyword for the search device A search step for specifying and obtaining the hit number or hit probability obtained as a result of the search by the search device ;
A computer outputs a translation sentence candidate including a phrase having a high hit probability or a hit probability among the plurality of translation sentence candidates as a translation sentence, or the hit number or hit among the plurality of translation sentence candidates An output step of creating and outputting a translation sentence using a translation sentence candidate including a word with a high probability , wherein the basic structure sentence having a high hit probability or the hit probability among the plurality of basic structure sentences; An output step of creating a translated sentence using a child structure having a high hit probability or a hit probability among the child structures and a phrase that is not included in the basic structure sentence among the candidate translation sentences. Translation method.
ある言語で表現された自然言語文を、別の言語で表現された複数の翻訳文候補に翻訳する翻訳機能と、
指定された検索キーワードが複数のコンピュータに記憶されている情報にヒットした件数乃至ヒットした確率を出力する検索装置に対して、前記複数の翻訳文候補に含まれる語句を検索キーワードとして指定し、当該検索装置によって出力されたヒット件数乃至ヒット確率を取得する検索機能であって、前記複数の翻訳文候補に対して構文意味解析を行い、各々の翻訳文候補に含まれる語句の属性を特定し、前記構文意味解析の結果に基づいて、予め決められた第1の属性に該当する語句からなる基本構造文を前記複数の翻訳文候補の各々から抽出し、抽出された各々の前記基本構造文を前記検索装置に対する前記検索キーワードとして指定し、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得し、前記検索装置による検索の結果取得したヒット件数乃至ヒット確率が大きい基本構造文を構成する語句のうち、予め決められた第2の属性に相当する語句を前記基本構造文から抽出し、当該語句を修飾する語句を前記複数の翻訳文候補の各々から抽出し、抽出した語句とそれを修飾する語句からなる複数の子構造を特定し、特定した前記子構造を前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する検索機能と、
前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を翻訳文として出力するか、又は、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を用いて翻訳文を作成して出力する出力機能であって、前記複数の基本構造文のうち前記ヒット件数乃至ヒット確率が大きい基本構造文と、前記複数の子構造のうち前記ヒット件数乃至ヒット確率が大きい子構造と、前記翻訳文候補のうち前記基本構造文に含まれない語句とを用いて翻訳文を作成する出力機能と
を実現させるためのプログラム。 On your computer,
A translation function for translating a natural language sentence expressed in one language into a plurality of translation sentence candidates expressed in another language;
For the search device that outputs the number of hits to the information stored in a plurality of computers or the probability of hitting the specified search keyword, the phrase included in the plurality of translation sentence candidates is specified as a search keyword, A search function for obtaining the number of hits or hit probability output by the search device, performing a syntactic and semantic analysis on the plurality of translation sentence candidates, and identifying an attribute of a phrase included in each translation sentence candidate, Based on the result of the syntactic and semantic analysis, a basic structure sentence composed of words corresponding to a predetermined first attribute is extracted from each of the plurality of translation sentence candidates, and each of the extracted basic structure sentences is The search keyword is specified as the search keyword for the search device, the number of hits or the hit probability obtained as a result of the search by the search device is acquired, and the search device Of words constituting a basic structure sentence having a large hit probability or hit probability obtained as a result of search, a word corresponding to a predetermined second attribute is extracted from the basic structure sentence, and a word or phrase that modifies the word is obtained. Extracting from each of the plurality of translated sentence candidates, specifying a plurality of child structures consisting of the extracted words and phrases that modify them, specifying the specified child structures as the search keywords for the search device, A search function for acquiring the number of hits or the hit probability obtained as a result of the search by the search device ;
Among the plurality of translation sentence candidates, the translation sentence candidate including a phrase having a large hit probability or hit probability is output as a translation sentence, or, among the plurality of translation sentence candidates, the hit number or hit probability is large. An output function for creating and outputting a translation sentence using translation sentence candidates including a phrase , wherein the basic structure sentence having a large hit probability or hit probability among the plurality of basic structure sentences, and the plurality of child structures A program for realizing a child structure having a large hit probability or a hit probability, and an output function for creating a translated sentence using a phrase that is not included in the basic structure sentence among the translated sentence candidates .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005275820A JP4940606B2 (en) | 2005-09-22 | 2005-09-22 | Translation system, translation apparatus, translation method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005275820A JP4940606B2 (en) | 2005-09-22 | 2005-09-22 | Translation system, translation apparatus, translation method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007087157A JP2007087157A (en) | 2007-04-05 |
JP4940606B2 true JP4940606B2 (en) | 2012-05-30 |
Family
ID=37974071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005275820A Expired - Fee Related JP4940606B2 (en) | 2005-09-22 | 2005-09-22 | Translation system, translation apparatus, translation method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4940606B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8799307B2 (en) * | 2007-05-16 | 2014-08-05 | Google Inc. | Cross-language information retrieval |
JP2009059290A (en) * | 2007-09-03 | 2009-03-19 | Just Syst Corp | Device, method, and program for supporting preparation of foreign language document |
US8959091B2 (en) * | 2009-07-30 | 2015-02-17 | Alcatel Lucent | Keyword assignment to a web page |
JP2012185654A (en) * | 2011-03-04 | 2012-09-27 | Fujitsu Ltd | Translation apparatus, translation program, and translation method |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0320866A (en) * | 1989-03-07 | 1991-01-29 | Nippon Telegr & Teleph Corp <Ntt> | Text base retrieval system |
JPH10307824A (en) * | 1997-05-09 | 1998-11-17 | Nippon Telegr & Teleph Corp <Ntt> | Dictionary retrieving method, its device and storage medium storing dictionary retrieving program |
JP2001101186A (en) * | 1999-09-30 | 2001-04-13 | Oki Electric Ind Co Ltd | Machine translating device |
JP2005182280A (en) * | 2003-12-17 | 2005-07-07 | Ibm Japan Ltd | Information retrieval system, retrieval result processing system, information retrieval method, and program |
-
2005
- 2005-09-22 JP JP2005275820A patent/JP4940606B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007087157A (en) | 2007-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101130444B1 (en) | System for identifying paraphrases using machine translation techniques | |
JP4494706B2 (en) | Automatic extraction program for conversion mapping from bilingual corpus | |
JP3114181B2 (en) | Interlingual communication translation method and system | |
US6269189B1 (en) | Finding selected character strings in text and providing information relating to the selected character strings | |
US6243670B1 (en) | Method, apparatus, and computer readable medium for performing semantic analysis and generating a semantic structure having linked frames | |
JP4714400B2 (en) | Scalable machine translation system | |
JP4491187B2 (en) | How to calculate translation relationships between words | |
US9098489B2 (en) | Method and system for semantic searching | |
JP4319860B2 (en) | Method and apparatus for developing a transfer dictionary for use in a transfer-based machine translation system | |
JP2006252382A (en) | Question answering system, data retrieval method and computer program | |
JP2006293830A (en) | Question answering system, data retrieval method, and computer program | |
WO2005059771A1 (en) | Translation judgment device, method, and program | |
JP2020190970A (en) | Document processing device, method therefor, and program | |
JP4940606B2 (en) | Translation system, translation apparatus, translation method, and program | |
JPH0261763A (en) | Mechanical translation equipment | |
JP5025603B2 (en) | Machine translation apparatus, machine translation program, and machine translation method | |
JP4007413B2 (en) | Natural language processing system, natural language processing method, and computer program | |
JP2005202924A (en) | Translation determination system, method, and program | |
Sankaravelayuthan et al. | A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam | |
JP2001101184A (en) | Method and device for generating structurized document and storage medium with structurized document generation program stored therein | |
Petasis et al. | A Greek morphological lexicon and its exploitation by natural language processing applications | |
JP6451151B2 (en) | Question answering apparatus, question answering method, program | |
JP4635585B2 (en) | Question answering system, question answering method, and question answering program | |
JP2005157823A (en) | Knowledge base system, inter-word meaning relation determination method in the same system and computer program | |
JP3058511B2 (en) | Chinese sentence analysis method and Chinese sentence analysis device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080821 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110705 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110831 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120131 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120213 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150309 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |