JP2006190072A - Automatic paraphrasing apparatus, automatic paraphrasing method and paraphrasing process program - Google Patents
Automatic paraphrasing apparatus, automatic paraphrasing method and paraphrasing process program Download PDFInfo
- Publication number
- JP2006190072A JP2006190072A JP2005001288A JP2005001288A JP2006190072A JP 2006190072 A JP2006190072 A JP 2006190072A JP 2005001288 A JP2005001288 A JP 2005001288A JP 2005001288 A JP2005001288 A JP 2005001288A JP 2006190072 A JP2006190072 A JP 2006190072A
- Authority
- JP
- Japan
- Prior art keywords
- paraphrase
- sentence
- original
- expression
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
この発明は自然言語処理に関し、特に、例えば機械翻訳装置の前処理に使用され、入力された原表現を、意味が同じで後の処理のために好適な別の表現に変換する(換言する)ための自動換言装置、自動換言方法及び換言処理プログラムに関する。 The present invention relates to natural language processing, and in particular, is used for pre-processing of, for example, a machine translation device, and converts an input original expression into another expression having the same meaning and suitable for later processing (in other words). The present invention relates to an automatic paraphrase device, an automatic paraphrase method, and a paraphrase processing program.
機械翻訳装置として、原文を入力すると、入力された原文を言い回しの異なる複数の文に換言し、換言後の文のいずれかに対して機械翻訳を試みるものが知られている。 As a machine translation device, there is known a machine translation device that, when an original sentence is inputted, translates the inputted original sentence into a plurality of sentences having different wordings, and attempts machine translation on any of the sentences after the paraphrase.
しかし、このような機械翻訳装置では、換言された複数の換言文の中から、機械翻訳の原文として最も適切なものを操作者が選択する必要がある。このため、操作者は原言語と目的言語(例えば日英翻訳における原言語は日本語、目的言語は英語)との双方の知識を持ち、換言文を的確に選択する能力を備える必要がある。その結果、機械翻訳装置の利用者が限定されるという問題があった。 However, in such a machine translation device, the operator needs to select the most appropriate original text for machine translation from a plurality of paraphrased texts. For this reason, the operator needs to have knowledge of both the source language and the target language (for example, the source language in Japanese-to-English translation is Japanese and the target language is English) and have the ability to select a paraphrase accurately. As a result, there is a problem that the users of the machine translation device are limited.
また、システムによっては、例えば「パスポートを拝見できますか。」を、一旦英語に翻訳してから日本語に直訳し直したような、「貴方のパスポートを私に見せて下さい。」という文に人手により換言しなければならない。これでは、その機械翻訳装置を使えるのは英語に翻訳する能力のある人に限定されてしまうことになる。 Depending on the system, for example, "Can you see your passport?", Once translated into English and then translated back into Japanese, "Please show me your passport." In other words, it must be done manually. This means that the machine translation device can be used only by people who have the ability to translate into English.
また、ごく自然な「パスポートを見せて頂けますか」という表現からは、「パスポートを見せて下さい」や「パスポートを見せろ」まで様々な表現を得ることが可能である。操作者は、これら多様な表現の中でどの表現が、使用する機械翻訳装置がうまく翻訳できる表現であるかを知っていなければならない。これでは、その機械翻訳装置の前処理を適切に行なえるのは、その機械翻訳装置を熟知した人に限定されてしまうことになる。 In addition, it is possible to obtain various expressions ranging from “Please show me your passport” and “Show me your passport” to “Now you can show me your passport”. The operator must know which of these various expressions is an expression that can be successfully translated by the machine translation device used. In this case, preprocessing of the machine translation apparatus can be appropriately performed only by a person who is familiar with the machine translation apparatus.
そこで、下記文献に示されるように、翻訳前に原文を自動編集したり自動書換えしたりする技術が提案されている。 Therefore, as shown in the following document, a technique for automatically editing or rewriting the original text before translation has been proposed.
しかし、このような原文自動編集機能や自動書換機能を備えた翻訳装置では、換言の結果が複数個にならないように、換言操作の根拠となる知識(以下、換言知識という)の条件を予め詳細に設定しておかなければならない。このため、換言知識の開発・準備の負荷が大きくなり、機械翻訳装置の開発には大きな資源が必要であるとともに、翻訳装置の性能は開発者の知識能力に大きく左右されるという問題があった。 However, in such a translation apparatus equipped with the automatic source text editing function and the automatic rewriting function, the conditions for knowledge (hereinafter referred to as paraphrase knowledge) as the basis of the paraphrase operation are detailed in advance so that the result of the paraphrase does not become plural. Must be set to For this reason, the burden of development and preparation of paraphrase knowledge increases, and development of a machine translation device requires a large amount of resources, and the performance of the translation device greatly depends on the knowledge ability of the developer. .
そこで、この発明の目的は、簡易な構成でしかも開発者の知識能力に左右されることなく、入力された原文に対して最適な換言文を自動的に生成できる自動換言装置を提供することである。 Accordingly, an object of the present invention is to provide an automatic paraphrase device that can automatically generate an optimal paraphrase for an inputted original sentence with a simple configuration and without being influenced by a developer's knowledge ability. is there.
本発明のある局面にしたがった自動換言装置は、所定言語の第1の用例文群において出現する表現素片を、表現素片の各々の第1の用例文群における出現度数とともに記憶するための表現素片記憶手段と、所定言語の第2の用例文群中の用例文の各々に対する1個又は複数個の換言文を、当該換言文を得る際の換言の態様を示す換言情報とともに記憶するための換言文記憶手段と、第2の用例文群中の用例文から換言文への換言の態様を示す換言情報を、それらの適用頻度とともに記憶するための換言情報記憶手段と、換言対象となる原文を受け、表現素片記憶手段に記憶された表現素片のうち少なくとも一つを原文と共有する換言文を、換言文記憶手段に記憶されている換言文の中から検索するための検索手段と、検索手段により検索された換言文の各々に対し、対応する元の用例文との間の換言、及び原文との間の換言に関して、換言情報記憶手段に記憶された換言情報の適用頻度に基づき予め定める算出法により算出される妥当性スコアを評価するための評価手段と、換言文記憶手段において、評価手段により評価された妥当性スコアが所定の条件を充足する換言文に対応付けられた換言情報を原文に対し逆方向に適用することにより、原文に対する換言文を生成するための原文換言手段とを含む。 An automatic paraphrase device according to an aspect of the present invention is for storing an expression element that appears in a first example sentence group of a predetermined language together with an appearance frequency in each first example sentence group of the expression element. One or a plurality of paraphrases for each of the example segment storage means and each example sentence in the second example sentence group in the predetermined language are stored together with the paraphrase information indicating the paraphrase mode when the paraphrase is obtained. Paraphrase storage means for storing, paraphrase information storage means for storing paraphrase information indicating a paraphrase form from the example sentence to the paraphrase in the second example sentence group together with their application frequency, Search for a paraphrase that is stored in the paraphrase storage means for a paraphrase that shares at least one of the descriptive elements stored in the phrase segment storage means with the original sentence. Means and search means For each paraphrase, a paraphrase between the corresponding original example sentence and a paraphrase between the original sentence is calculated by a predetermined calculation method based on the frequency of application of the paraphrase information stored in the paraphrase information storage means. In the evaluation means for evaluating the validity score, and in the paraphrase storage means, the paraphrase information associated with the paraphrase in which the validity score evaluated by the evaluation means satisfies a predetermined condition is reverse to the original sentence. To the original sentence paraphrase means for generating a paraphrase for the original sentence.
原文が入力されると、この原文と、表現素片記憶手段に記憶されている表現素片の少なくとも一つを共有する換言文が、検索手段により換言文記憶手段から検索される。検索された換言文の中からさらに絞り込みを行なう。絞り込みの際には、検索された換言文とこれに対応する元の用例文との間の換言と、検索された換言文と原文との間の換言とに関して評価手段によって評価された妥当性スコアが用いられる。妥当性スコアの評価は、換言情報記憶手段に記憶された換言情報の適用頻度に基づき予め定める算出法により行なわれる。 When the original sentence is input, a paraphrase that shares at least one of the original sentence and the expression segment stored in the expression segment storage unit is searched from the paraphrase storage unit by the search unit. Further refine the search from the searched paraphrase. At the time of narrowing down, the validity score evaluated by the evaluation means with respect to the paraphrase between the retrieved paraphrase and the corresponding original example sentence and the paraphrase between the retrieved paraphrase and the original sentence Is used. The validity score is evaluated by a predetermined calculation method based on the frequency of application of the paraphrase information stored in the paraphrase information storage means.
こうして、選択された換言文について2種類の換言に関連する妥当性が評価され、この評価に基づいて、元の文との間の換言と、原文との間の換言との双方を勘案したときに最も妥当性が高いと思われる換言情報を持つ換言文が選択される。原文に対し、この選択された換言文に対応付けられて換言文記憶手段に記憶されている換言情報を逆方向に適用することにより、原文に対する換言文が生成される。こうして得られた換言文は、妥当性スコアが所定の条件を充足する換言文に対応する元の用例文に近くなる。したがって、元の用例文を言語変換のための資源として用いる機械翻訳装置において、原文を換言して得られた換言文を翻訳した結果が正しい翻訳文となる可能性が高くなる。 In this way, the validity of the selected paraphrase is evaluated with respect to the two types of paraphrases, and based on this evaluation, the paraphrase between the original sentence and the paraphrase between the original sentence is considered A paraphrase having paraphrase information that seems to have the highest validity is selected. By applying the paraphrase information associated with the selected paraphrase and stored in the paraphrase storage means to the original sentence in the reverse direction, a paraphrase for the original sentence is generated. The paraphrase obtained in this way is close to the original example sentence corresponding to the paraphrase whose validity score satisfies a predetermined condition. Therefore, in a machine translation apparatus that uses the original example sentence as a resource for language conversion, the result of translating the paraphrase obtained by paraphrasing the original sentence is highly likely to be a correct translation sentence.
このように、この自動換言装置では、原文に対する換言文であって、翻訳したときに好ましい結果が得られる可能性の高いものが自動的に特定される。すなわち、操作者の換言知識を必要とすることなく自動的にしかも最適な換言文を得ることができる。しかも、表現素片記憶手段、換言文記憶手段、換言情報記憶手段に記憶されているデータを利用して原文に対する最適な換言文を特定するから、換言知識の条件を予め詳細に設定しておく必要はなく、簡易な構成で装置を実現できる。 As described above, in this automatic paraphrase device, a paraphrase for the original text that is highly likely to obtain a favorable result when translated is automatically identified. That is, the optimum paraphrase can be obtained automatically without requiring the operator's paraphrase knowledge. In addition, since the optimum paraphrase for the original sentence is specified using the data stored in the expression segment storage means, the paraphrase storage means, and the paraphrase information storage means, the conditions of paraphrase knowledge are set in detail in advance. There is no need, and the apparatus can be realized with a simple configuration.
検索手段は、換言対象となる原文を受け、表現素片記憶手段に記憶された表現素片のうち少なくとも一つを原文と共有する換言文を、換言文記憶手段に記憶されている換言文の中から抽出するための抽出手段と、抽出手段により抽出された換言文のうち、原文との間で共有される表現素片の種類数、又は原文との間で共有される表現素片に関し表現素片記憶手段に記憶されている出現頻度、又はこれらの組合わせが予め定める条件を充足しているものを選択するための選択手段とを含む。 The retrieval means receives the original sentence to be paraphrased, and exchanges a paraphrase that shares at least one of the expression elements stored in the expression segment storage means with the original sentence of the paraphrase text stored in the paraphrase storage means. Representing the number of types of expression elements shared with the original sentence or the expression elements shared with the original sentence among the extraction means for extracting from inside and the paraphrase extracted by the extraction means Selection means for selecting an appearance frequency stored in the segment storage means, or a combination of these that satisfies a predetermined condition.
原文と表現素片を共有する換言文を抽出した後、それらの中で原文との間で共有される表現素片の種類数又は原文との間で共有される表現素片に関する出現頻度、又はこれらの組合わせが予め定める条件を充足している換言文が選択される。この選択は、原文と各換言文との共有表現素片について、表現素片記憶手段に記憶されている同一の表現素片の出現度数を参照して行なわれる。これらを考慮して所定の条件を充足する換言文のみを選択するので、原文に対応する換言文として条件のよいもののみを選ぶことができる。 After extracting a paraphrase that shares the original fragment with the original sentence, the number of types of the expression element shared with the original sentence among them, or the appearance frequency of the expression element shared with the original sentence, or A paraphrase in which these combinations satisfy a predetermined condition is selected. This selection is performed with reference to the appearance frequency of the same expression element stored in the expression element storage unit for the shared expression element of the original sentence and each paraphrase. Considering these, only a paraphrase that satisfies a predetermined condition is selected, so that only a good condition as a paraphrase corresponding to the original sentence can be selected.
選択手段は、原文との間で共有される表現素片の種類数、原文との間で共有される表現素片に関し表現素片記憶手段に記憶されている出現頻度、又はこれらの組合わせにより定められるスコアの上位の所定個数の換言文を選択するための手段を含んでもよい。 The selection means is based on the number of types of expression segments shared with the original text, the appearance frequency stored in the expression segment storage means regarding the expression segments shared with the original text, or a combination thereof. Means for selecting a predetermined number of paraphrases above the defined score may be included.
スコアが上位の所定個数の換言文を選択するため、常に処理時間が安定し、かつ原文に対する換言文を得る上で好適な換言文が得られる。 Since a predetermined number of paraphrases with higher scores are selected, the processing time is always stable, and a paraphrase suitable for obtaining a paraphrase for the original sentence can be obtained.
評価手段は、対応する換言情報の適用頻度が小さい換言部分を、換言文又は用例文の長さに比して換言文が多く含む場合は、換言文と用例文との換言の妥当性を低く評価するようにしてもよい。 The evaluation means reduces the relevance of the paraphrase between the paraphrase and the example sentence when the paraphrase part having a small frequency of application of the corresponding paraphrase information includes more paraphrase sentences than the length of the paraphrase sentence or the example sentence. You may make it evaluate.
又は評価手段は、対応する換言情報の適用頻度が小さい差異部分を、原文又は換言文の長さに比して換言文が多く含む場合は、原文と換言文との類似の妥当性を低く評価するようにしてもよい。 Alternatively, the evaluation means evaluates the relevance of the similarity between the original text and the paraphrase lower when the paraphrase text contains more difference parts than the length of the original text or the paraphrase text where the corresponding paraphrase information is applied less frequently. You may make it do.
このようにすることで、原文、換言文又は換言文に対応する用例文の長さによって各換言文に関係する換言情報の重みを正規化でき、換言文の長さに影響を受けずに好適な換言文を選択できる。 By doing so, the weight of the paraphrase information related to each paraphrase can be normalized by the length of the example sentence corresponding to the original sentence, paraphrase, or paraphrase, and it is preferable without being affected by the length of the paraphrase. Can be selected.
また、換言情報記憶手段に記憶される換言情報は、用例文と換言文との換言部位における表現素片対を含むようにしてもよい。これは、換言情報を客観的で取り扱いの容易なものとなしうる点で望ましい。 In addition, the paraphrase information stored in the paraphrase information storage unit may include a representation element pair in the paraphrase part of the sample sentence and the paraphrase. This is desirable in that the paraphrase information can be made objective and easy to handle.
本発明の他の局面にしたがった換言処理プログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかの自動換言装置として動作させるものである。 A paraphrase processing program according to another aspect of the present invention, when executed by a computer, causes the computer to operate as any one of the automatic paraphrasing devices described above.
本発明のさらに他の局面にしたがった自動換言方法は、所定言語の第1の用例文群において出現する表現素片と、前記第1の用例文群における各表現素片の出現度数とを記憶した表現素片データベースと、所定言語の第2の用例文群中の用例文の各々に対する1個又は複数個の換言文を、当該換言文を得る際の換言の態様を表す換言情報とともに記憶した換言文データベースと、第2の用例文群中の用例文から換言文への換言の態様を示す換言情報を、それらの適用頻度とともに記憶した換言情報データベースとを用いて、入力された原文を一つの換言文に言い換える自動換言方法であって、換言対象となる原文を受け、表現素片データベースに記憶された表現素片のうち少なくとも一つを原文と共有する換言文を、換言文データベースに記憶されている換言文の中から検索する検索ステップと、検索ステップにおいて検索された換言文の各々に対し、対応する元の用例文との間の換言、及び原文との間の換言に関して、換言情報データベースに記憶された換言情報の適用頻度に基づき予め定める算出法により算出される妥当性スコアを評価する評価ステップと、換言文データベースにおいて、評価ステップにおいて評価された妥当性が所定の条件を充足する換言文に対応付けられた換言情報を原文に対し逆方向に適用することにより、原文に対する換言文を生成するステップとを含む。 According to still another aspect of the present invention, an automatic paraphrase method stores expression segments that appear in a first example sentence group of a predetermined language and the frequency of appearance of each expression element in the first example sentence group. And one or a plurality of paraphrases for each example sentence in the second example sentence group in the predetermined language, together with paraphrase information indicating the paraphrase mode when obtaining the paraphrase Using the paraphrase database and the paraphrase information database storing the paraphrase information indicating the mode of paraphrase from the example sentence in the second example sentence group to the paraphrase together with their application frequency, the input original sentence is This is an automatic paraphrase method that paraphrases into one paraphrase, and stores in the paraphrase database a paraphrase that receives the original sentence to be paraphrased and shares at least one of the phrase segments stored in the phrase segment database with the original sentence. A search step for searching from the paraphrased text, and for each paraphrase searched in the search step, a paraphrase between the corresponding original example sentence and a paraphrase between the original text and the paraphrase information An evaluation step for evaluating a validity score calculated by a predetermined calculation method based on the frequency of application of paraphrase information stored in the database, and the validity evaluated in the evaluation step satisfies a predetermined condition in the paraphrase database. Generating a paraphrase for the original sentence by applying paraphrase information associated with the paraphrase in the opposite direction to the original sentence.
[構成の説明]
後に述べるように、本実施の形態は、コンピュータとその上で動作するコンピュータプログラムとにより実現できる。そのプログラムとコンピュータとにより実現される装置を自動換言装置80とみなして機能的に示したのが図1のブロック図である。図1を参照して、この装置80は、機械翻訳における原言語の用例コーパスC1と、原言語の用例コーパスC1から、後述する表現素片を予め多数収集するための表現素片収集部81と、表現素片収集部81により収集された表現素片群をそれらの出現頻度とともにデータベースとして保持する表現素片データベースD1とを含む。
[Description of configuration]
As described later, the present embodiment can be realized by a computer and a computer program that operates on the computer. FIG. 1 is a block diagram functionally showing the device realized by the program and the computer as an
表現素片とは、二つの表現の間の相違を表現するために予め選択される自然言語表現上の単位である。これをどのように定めるかは設計事項であり、言語と目的と処理対象となる表現の分野とにより、異なってもよい。本実施の形態では、対象言語は日本語であって、表現素片とは文を構成する所定文字数の部分文字列のことをいう。例えば、文を構成する文字列のうち、漢字の並びは2文字、カタカナの並びは、小さな文字「ッ」「ャ」「ュ」「ョ」や「ー」を含めず数えて2文字、文字種の変わり目を含む場合は3文字、等の単純な基準により定められる数の文字を含む文字列のことをいう。この規則にしたがって用例文を先頭から順に走査することにより、各用例文を表現素片に分解することができる。この場合、本実施の形態では、先行する表現素片の最終文字と、後続する表現素片の先頭文字とが二つの表現素片で共有される(重複する)ような形で表現素片を抽出する。 An expression segment is a unit in natural language expression that is preselected to express a difference between two expressions. How this is determined is a design matter and may vary depending on the language, purpose, and field of expression to be processed. In the present embodiment, the target language is Japanese, and the expression segment refers to a partial character string of a predetermined number of characters constituting a sentence. For example, in a character string that composes a sentence, two kanji characters are arranged, and two katakana characters are counted without including small characters “tsu”, “ya”, “yu”, “yo”, and “-”. In the case of including a change of the character, it means a character string including a number of characters determined by a simple standard such as three characters. By scanning the example sentences in order from the top in accordance with this rule, each example sentence can be decomposed into expression segments. In this case, in this embodiment, the last character of the preceding expression element and the first character of the subsequent expression element are shared (overlapped) by the two expression elements. Extract.
英語等、単語の分かち書きをする場合には単語を表現素片とすることもできる。日本語でも単語等の単位で表現素片としてもよいが、形態素解析等をして文を単語分解する必要があるので、処理のための負荷が高くなり、上記したように表現素片を決めるのが実用的である。 In the case of writing a word such as English, the word can be used as an expression fragment. Even in Japanese, it may be expressed in units of words, etc., but it is necessary to perform word decomposition by performing morphological analysis, etc., which increases the processing load and determines the expression units as described above. Is practical.
自動換言装置80はさらに、機械翻訳において使用する原言語と目的言語との多数の対訳用例文を記憶する対訳コーパスC2と、対訳コーパスC2に含まれる原言語の文から、公知の方法により多数の換言文を生成し、併せてこれら換言を行なう際にどのような表現の置換が行なわれたかに関する換言情報をそれらの適用頻度とともに生成するための換言文生成部82とを含む。
The
換言情報は、本実施の形態では、表現の置換の態様(すなわち換言の態様)を表現素片の対で表した表現素片対を含む。表現素片対とは、例えばある文から順番付で得られた表現素片群と、その文の換言文から得られた表現素片群との間で、互いに異なる部分であってかつ互いに対応する位置に存在する表現素片を対の形で抽出したものである。 In this embodiment, the paraphrase information includes a representation element pair in which a representation replacement mode (that is, a paraphrase mode) is represented by a pair of expression segments. For example, an expression element pair is a different part and corresponds to each other between an expression element group obtained by ordering from a sentence and an expression element group obtained from a paraphrase of the sentence. This is a representation of pairs of expression elements that exist at a certain position.
自動換言装置80はさらに、換言文生成部82により生成された換言文を、それら換言文を生成する際に使用された表現素片対からなる換言情報とともにデータベースとして保持する換言文データベースD2と、換言文生成部82による換言文の生成の際に使用された表現素片対からなる換言情報をそれらの適用頻度とともに保持する換言情報データベースD3とを含む。
The automatic paraphrase
自動換言装置80はさらに、入力される原文に対する一つの換言文を作成する処理を行なうために、以下に説明するような制御を行なうための原文換言部83と、原文換言部83から原文を受け、表現素片データベースD1を参照して原文を複数の表現素片に分解し、得られた表現素片と共通の表現素片を持つ換言文の中で特に原文と類似する所定数の換言文を換言文データベースD2から抽出してそのリストを原文換言部83に与えるための類似文検索部84と、類似文検索部84により抽出された換言文が元の用例文から得られた際の換言の妥当性、及び類似文検索部84により抽出された換言文と原文との間で換言を行なう妥当性を換言情報データベースD3に保持された換言情報とその適用頻度とを使用して所定の算出式にしたがって算出される妥当性スコアとして評価し、評価結果を原文換言部83に与えるための表現検証部85とを含む。原文換言部83は、類似文検索部84から与えられたリストに含まれる換言文を表現検証部85に与え、表現検証部85から返される各換言文の妥当性スコアに基づいて、換言文のうちの一つを選択し、その換言文を生成する際に使用した表現素片対で表される表現素片の置換を、換言文の生成時の適用方向とは逆の方向に原文に適用することにより原文の換言文を作成する機能を持つ。
The automatic paraphrase
原言語の用例コーパスC1、対訳コーパスC2、表現素片データベースD1、換言文データベースD2、及び換言情報データベースD3は、いずれも後述するようにこの自動換言装置80を実現するコンピュータのハードディスク等の記憶装置に格納される。
Source language examples corpus C1, bilingual corpus C2, expression segment database D1, paraphrase database D2, and paraphrase information database D3 are all storage devices such as a hard disk of a computer that realizes this automatic paraphrase
表現素片収集部81は、原言語の用例コーパスC1を走査して原言語表現の類似度を判断するためのデータを収集する。具体的には、表現素片収集部81は、原言語で構成された大量の用例文に対し、各用例文を表現素片に分解する。そして、原言語の用例コーパスC1中の全用例文について分解処理を行なったときの各表現素片の出現度数を、当該表現素片とともに表現素片データベースD1に記憶する。ただし出現度数が極端に少ない表現素片や、誤った表現から得られる表現素片を利用してもそれほど意味はない。したがってこの実施の形態では、出現度数の少ない表現素片を類似度判断基準の対象から除外する。そのため、予め定めたしきい値以上の出現度数を持つ表現素片のみを表現素片データベースD1に登録する。
The expression
たとえば、コーパスC1の原言語の用例文に「パスポートを見せて頂けますか。」があったものとする。他にも「パスポート」、「〜を見せて」、及び「〜て頂けますか」を含む用例文が相当数あったものとすると、この文からは「パス」「スポー」「ポート」「を見せ」「見せて」「せて」「て頂け」「頂けま」「けま」「ます」「すか」がしきい値以上の度数を持つ文字列(表現素片)として表現素片データベースD1に登録され保持されることになる。 For example, it is assumed that an example sentence in the source language of the corpus C1 has “Can you show me your passport?” If there are a lot of other example sentences including "Passport", "Show me" and "Can you please", from this sentence, "Pass", "Spo", "Port", " Representation segment database D1 as a character string (representation segment) in which “show” “show” “set” “te-kake” “kakema” “kema” “masa” “suka” has a frequency equal to or higher than a threshold value Registered and retained.
なお、原言語の用例コーパスC1を対訳コーパスC2の原言語側の用例文群で兼用してもよい。 Note that the source language example corpus C1 may also be used as the source language side example sentence group of the parallel translation corpus C2.
換言文生成部82は、対訳コーパスC2の原言語側の用例文を、翻訳する原文に対するのと同様の手段で解析する。さらに換言文生成部82は、例えば既存の機械翻訳装置に利用されているような公知の換言方法により、用例文を1個又は複数個の換言文に変換し、出力する。原言語と目的言語とが同一言語である点を除けば、換言文生成部82は既存の機械翻訳装置の機構と同等又はその一部として構成される。
The paraphrase
例えば、対訳コーパスC2の原言語側の用例文に「パスポートを見せて頂けますか。」があったものとする。この文に対する換言文として換言文生成部82が生成するものは、「パスポートを拝見いたします。」「パスポートを見せて下さい。」「パスポートをお願いします。」等となる。
For example, it is assumed that the example sentence on the source language side of the bilingual corpus C2 has "Can you show me your passport?" The text generated by the
換言文生成部82から出力された各用例文に対する換言文は換言文データベースD2に登録される。このとき、換言文生成部82は、生成した換言文を表現素片収集部81と同じ基準で表現素片に分解し、それらを検索キーとして当該換言文が検索されるように各換言文を換言文データベースD2に登録する。
The paraphrase for each example sentence output from the paraphrase
また、換言文生成部82は、各用例文と、当該用例文に対して生成された換言文との間の相違部分を抽出し、用例文のどこがどのように言い換えられているかについての情報を、対応する表現素片の対からなる換言情報として換言情報データベースD3に登録する。換言文生成部82はこれと併せて、表現素片をそれが使用されている換言文と組にして換言文データベースD2に登録する。
In addition, the paraphrase
図2に、換言文データベースD2に登録されている換言文データの内容を示す。図2を参照して、一つの用例文91に対して1個又は複数個の換言文92が登録される。各換言文92には、その換言文と用例文91との間の相違部分を表現素片の対の形で表す換言情報93が関連付けられて記憶されている。なお、換言文と用例文とを比較すると、一方には文字列があって他方には存在しない場合があり得る。本実施の形態では、そうした場合にも、一方の表現素片と、対応する表現素片がないことを示す記号(図2における「Φ」)とを対応付けて換言文データベースD2に記憶する。
FIG. 2 shows the contents of the paraphrase text data registered in the paraphrase text database D2. Referring to FIG. 2, one or a plurality of
換言情報データベースD3に記憶される換言情報は、この実施の形態では、用例文と換言文の換言部分における表現素片対と、その適用頻度とを含む。例えば、用例文1が「パスポートを見せて頂けますか。」であり、換言文1が「パスポートを見せて下さい。」である場合を考える。この例では、用例文の「頂けますか」が「下さい」に換言されている。これらを表現素片に分解して、「頂けま−下さい」「けま−さい」「ます−φ」「すか−φ」が換言情報93として記憶される。
In this embodiment, the paraphrase information stored in the paraphrase information database D3 includes an example sentence, a representation element pair in the paraphrase portion of the paraphrase, and an application frequency thereof. For example, consider a case where the example sentence 1 is “Can you show me your passport?” And the paraphrase 1 is “Please show me your passport”. In this example, the example sentence “Can you please” is translated to “Please”. These are broken down into pieces of expression, and “Please give me”, “Kema-sai”, “Masu-φ”, “Suka-φ” are stored as paraphrase
このように換言情報を表現素片対で表すことにより、換言情報の客観性を担保でき、取り扱いも容易となる。 By expressing the paraphrase information as a pair of expression elements in this way, the objectivity of the paraphrase information can be ensured and the handling is facilitated.
換言情報データベースD3には、上述した表現素片対からなる換言情報93の適用頻度、つまり換言文生成部82が大量の用例文を各換言文に換言する際に出現した換言情報の出現度数を、換言情報毎にまとめたものが登録されている。例えば、図3に示す例では、「頂けま−下さい」の適用頻度がn1、「けま−さい」の適用頻度がn2、「ます−φ」の適用頻度がn3、「すか−φ」の適用頻度がn4、・・・となっている。
In the paraphrase information database D3, the frequency of application of the paraphrase
原文換言部83は、原文が入力されるとこれを類似文検索部84に出力するとともに、類似文検索部84から選択されてきた換言文や換言情報のリストを表現検証部85に出力する。さらに、原文換言部83は、表現検証部85から出力されてきた妥当性の評価を基に、入力された原文に対する換言文を最終的に決定するものである。この点については後述する。
When the original sentence is input, the original sentence paraphrase
類似文検索部84は、原文換言部83から送られてきた原文を表現素片収集部81と同じ基準の文字数の表現素片に分解し、それらの表現素片を検索キーとして換言文データベースD2を検索し、入力した原文と少なくとも1個の表現素片を共有する換言文をすべて抽出する。
The similar
類似文検索部84はさらに、抽出した換言文の中から、原文と類似する換言文を選択する動作も行なう。選択は、原文及び各換言文が相互に共有する表現素片についての前記表現素片データベースD1に記憶されている出現度数を参照して行なわれる。この実施の形態では、具体的には、より出現度数の高い表現素片を原文と共有し、原文と共有する表現素片の種類が多い換言文の上位のものから所定数を、原文と類似する換言文として選択する。なお、換言文の選択方法はこれに限定されることはなく、共有する表現素片の出現度数の総和が高い換言文を選択する方法等であってもよい。
The similar
さらに類似文検索部84は、選択した換言文と、選択した換言文の各々に付属する換言情報とをリストにして原文換言部83に出力する。この時、類似文検索部84は、入力した原文と類似した換言文との表現素片の差異についても、図2に示した換言情報93と同じ表現素片対の形式で表現して換言情報とし、この換言情報を原文換言部83への出力リストに含めて原文換言部83に出力する。
Further, the similar
表現検証部85は、類似文検索部84から原文換言部83に与えられ、さらに原文換言部83から表現検証部85に送られてきた原文、換言文、換言情報を受領し、送られてきた換言文についての元の用例文との換言の妥当性を評価するとともに、原文と換言文との類似の妥当性を評価するものである。
The
換言文と用例文との換言の妥当性の評価について以下に説明する。換言文は、対訳コーパスC2の原言語側の用例文から換言されたものであり、換言前の文は用例文にあたる。換言文の妥当性を評価するには、用例文と換言文との換言部分における表現素片対と同一の表現素片対(換言情報)について換言情報データベースD3に登録されている適用頻度を参照する。 The evaluation of the validity of the paraphrase between the paraphrase and the example sentence will be described below. The paraphrase is a paraphrase from the example sentence on the source language side of the bilingual corpus C2, and the sentence before the paraphrase corresponds to the example sentence. In order to evaluate the validity of the paraphrase, refer to the application frequency registered in the paraphrase information database D3 for the same segment segment pair (paraphrase information) as the segment segment pair in the paraphrase portion of the example sentence and the paraphrase. To do.
適用頻度が低い表現素片対(換言情報)は、換言表現としてあまり用いられないものと考えられる。そこで、例えば、換言情報が適用頻度の低い表現素片対を用例文又は換言文の長さに比して多く含む場合は、換言操作の妥当性が低くなるように、適用頻度、表現素片対の数、用例文又は換言文の長さに重み付けを行なう、等の方法により妥当性スコアを算出する。こうすることで、表現素片対の適用頻度等から算出されるスコアを換言文等の長さに対して正規化できる。なお、スコアの具体的な付け方は特に限定されることはなく、換言部分における表現素片対についての適用頻度の総和や平均値が、用例文又は換言文の長さに比して大きいものほど大きなスコアとなるようにしてもよい。また、用例文又は換言文の長さに関係なく、適用頻度の総和や平均値が大きいものほど大きなスコアとしてもよい。 It is considered that the expression element pair (paraphrase information) with low application frequency is not often used as a paraphrase expression. Therefore, for example, when the paraphrase information includes a large number of pairs of expression units having a low application frequency compared to the length of the example sentence or the paraphrase, the application frequency and the expression unit are set so that the validity of the paraphrase operation becomes low. The validity score is calculated by a method such as weighting the number of pairs, the example sentence or the length of the paraphrase. In this way, the score calculated from the application frequency of the expression element pair can be normalized with respect to the length of the paraphrase. The specific method of assigning the score is not particularly limited, and the sum or the average value of the frequency of application of the expression element pair in the paraphrase part is larger than the length of the example sentence or the paraphrase. You may make it become a big score. Also, regardless of the length of the example sentence or paraphrase, the larger the sum of the application frequencies or the larger the average value, the larger the score may be.
次に、原文と換言文との類似の妥当性の評価について説明すると、表現検証部85は、類似文検索部84で作成され原文換言部83から送られてきた原文と各換言文との差異情報を基に、差異部分における表現素片対と同一の表現素片対(換言情報)について換言情報データベースD3に登録されている適用頻度を参照する。つまり、原文と換言文との差異部分を、表現素片対からなる換言情報として表し、それらの適用頻度を調べる。
Next, the evaluation of the validity of the similarity between the original sentence and the paraphrase text will be described. The
適用頻度が低い表現素片の対(換言情報)は、換言表現としてあまり用いられないものと判断できる。そこで、例えば、適用頻度が低い表現素片対を原文又は換言文の長さに比して多く含む場合は、類似の妥当性が低くなるように、適用頻度、表現素片対の数、原文又は換言文の長さに重み付けを行なう、等の方法により妥当性のスコアを算出する。ここでも原文又は換言文の長さに対し、表現素片対から算出されるスコアを正規化できる。なお、スコアの具体的な付け方は特に限定されることはなく、差異部分における表現素片対についての適用頻度の総和や平均値が、原文/換言文の長さに比して大きいものほど大きなスコアとしてもよい。また、原文/換言文の長さに関係なく、適用頻度の総和や平均値が大きいものほど大きなスコアとしてもよい。 It can be determined that pairs of expression segments (paraphrase information) with low application frequency are not often used as paraphrase expressions. Therefore, for example, if the number of expression unit pairs with low application frequency is larger than the length of the original sentence or paraphrase, the application frequency, the number of expression element pairs, Alternatively, the validity score is calculated by a method such as weighting the length of the paraphrase. Again, the score calculated from the pair of expression elements can be normalized with respect to the length of the original sentence or paraphrase. Note that the specific method of assigning the score is not particularly limited, and the larger the sum or average of the frequency of application of the expression element pairs in the difference portion, the greater the length of the original sentence / paraphrase sentence. It is good also as a score. Further, regardless of the length of the original sentence / paraphrase, a higher score may be obtained as the sum of application frequencies and the average value are larger.
例えば、原文が「パスポートを拝見できますか。」であるものとする。類似文として、「パスポートを拝見いたします。」という換言文が選択されているものとする。さらに、この換言文は、「パスポートを見せて頂けますか。」という用例文から換言されたものであるとする。この場合、「パスポートを見せて頂けますか。」という用例文と「パスポートを拝見いたします。」という換言文の換言部分は「見せて頂けますか」と「拝見いたします」とになる。そして、これらの間の換言情報の適用頻度が相当数あったものとする。この場合、換言文「パスポートを拝見いたします。」についての用例文に対する換言の妥当性スコアは高く算出されることになる。 For example, assume that the original text is "Can you see your passport?" As a similar sentence, it is assumed that the paraphrase “I will look at your passport” is selected. Further, it is assumed that this paraphrase is a paraphrase from the example sentence “Can you show me your passport?”. In this case, the phrase “Can you show me your passport?” And the phrase of the phrase “I will see your passport” will be “Can you show me” and “I will see you”. It is assumed that there is a considerable number of application times of paraphrase information between these. In this case, the validity score of the paraphrase for the example sentence for the paraphrase “I will look at the passport” is calculated high.
また、「パスポートを拝見できますか。」という原文と「パスポートを拝見いたします。」という換言文との間の差異部分は「できますか」と「いたします」とになる。これらの間の換言情報の適用頻度も相当数あったものとする。この場合も、換言文「パスポートを拝見いたします。」についての原文に対する類似の妥当性スコアも高く算出されることになる。 In addition, the difference between the original text “Can you see your passport?” And the phrase “I will see your passport” is “Can you do it?” And “I will do it”. It is assumed that there is a considerable number of the frequency of applying paraphrase information between these. Also in this case, a similar validity score for the original sentence for the paraphrase “I will look at the passport” is also calculated high.
これに対し、「パスポートを拝見できますか。」という原文に対して、「パスカードを拝見できますか。」という換言文が類似文として選択されているものとする。両者の差異部分「ポート」と「カード」とについては、言換えがされる頻度は少なく、したがってこれらの間の換言情報の適用頻度は登録されていない可能性が高い。すると、この換言文「パスカードを拝見できますか。」についての原文に対する類似の妥当性スコアは低く算出されることになる。 On the other hand, it is assumed that a paraphrase “Can you see the pass card?” Is selected as a similar sentence to the original sentence “Can you see the passport?”. The difference between the two “ports” and “cards” is rarely rephrased, and therefore, there is a high possibility that the application frequency of the paraphrase information between them is not registered. Then, the similar validity score with respect to the original sentence about this paraphrase "Can you see the pass card?" Is calculated low.
表現検証部85は、原文換言部83から送られてきた換言文と、算出した換言及び類似の2種類の妥当性のスコアとを組にしたリストを、原文換言部83に出力する。
The
原文換言部83は、表現検証部85から妥当性スコアと組にされた換言文のリストを受領すると、これら2種類のスコアを総合的に判断して、換言文の中から最も妥当性の高い一つの換言文を原文と最も類似している換言文として選択する。例えば二つの妥当性スコアの積を新たな妥当性スコアとして用いてもよい。そして、選択した換言文と組にされて登録された換言情報を逆方向に適用して、入力した原文を換言する。逆方向とは、換言後の文を換言前の文(用例文)に逆戻りするように換言情報を適用することである。ここでいう換言文は、換言文生成部82により対訳コーパスC2の原言語側の用例文から換言されたものであり、換言前の文は用例文にあたる。よって原文は、選択した換言文に対応する用例文に近い文(又は用例文そのもの)に換言される。
When receiving the list of paraphrases combined with the validity score from the
例えば、原文が「パスポートを拝見できますか。」であり、「パスポートを拝見いたします。」が最も妥当性の高い換言文として選択された場合を考える。「パスポートを拝見いたします。」の元の用例文は「パスポートを見せて頂けますか。」である。この場合、元の用例文と同一の文「パスポートを見せて頂けますか。」が、原文「パスポートを拝見できますか。」に対する換言文として生成されることになる。 For example, consider the case where the original sentence is “Can you see your passport?” And “I will see your passport” is selected as the most appropriate paraphrase. The original example sentence of "I will see your passport" is "Can you show me your passport?" In this case, the same sentence as the original example sentence “Can you show me your passport?” Is generated as a paraphrase for the original sentence “Can you see your passport?”.
[コンピュータによる実現]
−ハードウェア構成−
本実施の形態に係る自動換言装置80は、コンピュータ及びコンピュータ上で動作するソフトウェアにより実現される。もちろん、前述した機能の一部又は全部を、ソフトウェアでなくハードウェアで実現することも可能である。
[Realization by computer]
−Hardware configuration−
The automatic paraphrase
図5に、本実施の形態で利用されるコンピュータシステム20の外観図を、図6にコンピュータシステム20のブロック図を、それぞれ示す。なおここに示すコンピュータシステム20はあくまで一例であり、この他にも種々の構成が可能である。
FIG. 5 shows an external view of the
図5を参照して、コンピュータシステム20は、コンピュータ40と、いずれもこのコンピュータ40に接続されたモニタ42、キーボード46、及びマウス48を含む。コンピュータ40にはさらに、CD−ROM(Compact Disk Read−Only Memory)ドライブ50と、FD(Flexible Disk)ドライブ52とが内蔵されている。
Referring to FIG. 5, the
図6を参照して、コンピュータシステム20はさらに、コンピュータ40に接続されるプリンタ44を含むが、これは図5には示していない。またコンピュータ40はさらに、CD−ROMドライブ50及びFDドライブ52に接続されたバス66と、いずれもバス66に接続された中央演算装置(Central Processing Unit:CPU)56、コンピュータ40のブートアッププログラム等を記憶したROM(Read−Only Memory)58、CPU56が使用する作業エリア及びCPU56により実行されるプログラムの格納エリアを提供するRAM(Random Access Memory)60、及び後述する音声データベースを格納したハードディスク54を含む。
Referring to FIG. 6,
以下に述べる実施の形態のシステムを実現するソフトウェアは、たとえば、CD−ROM62のような記録媒体上に記録されて流通し、CD−ROMドライブ50のような読取装置を介してコンピュータ40に読込まれ、ハードディスク54に格納される。CPU56がこのプログラムを実行する際には、ハードディスク54からこのプログラムを読出してRAM60に格納し、図示しないプログラムカウンタによって指定されるアドレスから命令を読出して実行する。CPU56は、処理対象のデータをハードディスク54から読出し、処理結果を同じくハードディスク54に格納する。
The software for realizing the system of the embodiment described below is recorded and distributed on a recording medium such as a CD-
コンピュータシステム20の動作自体は周知であるので、ここではその詳細については繰り返さない。
Since the operation itself of the
なお、ソフトウェアの流通形態は上記したように記憶媒体に固定された形には限定されない。たとえば、ネットワークを通じて接続された他のコンピュータからデータを受取る形で流通することもあり得る。また、ソフトウェアの一部が予めハードディスク54中に格納されており、ソフトウェアの残りの部分をネットワーク経由でハードディスク54に取込んで実行時に統合するような形の流通形態もあり得る。
Note that the software distribution form is not limited to the form fixed to the storage medium as described above. For example, data may be distributed in the form of receiving data from other computers connected through a network. Further, there may be a distribution form in which a part of software is stored in the
一般的に、現代のプログラムはコンピュータのオペレーティングシステム(OS)によって提供される汎用の機能を利用し、それらを所望の目的にしたがって組織化した形態で実行することにより前記した所望の目的を達成する。したがって、以下に述べる本実施の形態の各機能のうち、OS又はサードパーティが提供する汎用的な機能を含まず、それら汎用的な機能の実行順序の組合わせだけを指定するプログラム(群)であっても、それらを利用して全体的として所望の目的を達成する制御構造を有するプログラム(群)である限り、それらが本発明の技術的範囲に含まれることは明らかである。 In general, modern programs utilize the general purpose functions provided by a computer operating system (OS) and achieve the desired objectives described above by executing them in an organized manner according to the desired objectives. . Accordingly, among the functions of the present embodiment described below, a program (group) that does not include general-purpose functions provided by the OS or a third party, and specifies only a combination of execution orders of these general-purpose functions. Even so, as long as the program (group) has a control structure that achieves a desired object as a whole by using them, it is obvious that they are included in the technical scope of the present invention.
−プログラム構造−
上記した自動換言装置80をコンピュータにより実現する場合、当該コンピュータを自動換言装置80として動作させるコンピュータプログラムは以下のような制御構造を有する。なお、これに先立って原言語の用例コーパスC1、対訳コーパスC2、表現素片データベースD1、換言文データベースD2、及び換言情報データベースD3については予めハードディスク54内に準備されているものとする。これらは表現素片収集部81と換言文生成部82とに相当するコンピュータプログラムにより実現される。それらコンピュータプログラムが実現する機能については比較的単純であるので、ここではその詳細については省略する。
-Program structure-
When the automatic paraphrase
図4を参照して、原文から換言文を生成する換言プログラムは、起動すると原文が入力されるのを待つ(ステップ101)。原文が入力されると(ステップ101の判断がYES)、入力された原文に対して原文を表現素片に分解し、それら表現素片の少なくとも一つを共有する換言文が、換言文データベースD2から抽出される(ステップ102)。 Referring to FIG. 4, the paraphrase program that generates a paraphrase from the original text waits for the input of the original text when activated (step 101). When the original text is input (Yes in step 101), the original text is decomposed into expression segments for the input original text, and a paraphrase that shares at least one of the expression segments is the paraphrase database D2. (Step 102).
次に、抽出された換言文の中から、原文及び各換言文が共有する表現素片の各々について、表現素片データベースD1を参照して出現頻度を調べ、より出現度数の高い表現素片を原文と共有し、原文と共有する表現素片の種類が多い換言文のうち上位のものから所定数を、原文と類似する換言文として選択する(ステップ103)。ここではまた、選択された換言文は、元になる用例文から換言文に換言する際の換言情報、及び原文と換言文との差異情報とともにリストにされる。 Next, from the extracted paraphrase texts, the appearance frequency is examined with reference to the phrase segment database D1 for each of the phrase segments shared by the original sentence and each paraphrase sentence. A predetermined number is selected as a paraphrase similar to the original sentence from among higher paraphrases that are shared with the original sentence and have many types of expression elements to be shared with the original sentence (step 103). Here, the selected paraphrase is also listed together with paraphrase information used when translating the original example sentence into the paraphrase and difference information between the original sentence and the paraphrase.
続いてステップ104で、用例文と換言文の換言部分における表現素片対、及び原文と各換言文との差異部分における表現素片対(換言情報)の各々について、換言情報データベースD3に登録されている適用頻度を参照することにより、用例文と換言文との換言の妥当性及び原文と換言文との類似の妥当性が評価される。
Subsequently, in
さらに、換言及び類似の2種類の妥当性の評価結果に基づいて、原文に対して最も妥当性の高い1個の換言文が選択される(ステップ105)。 Further, based on the paraphrase and similar two types of validity evaluation results, one paraphrase having the highest validity for the original sentence is selected (step 105).
次いで、選択された1個の換言文に付されていた換言情報を原文に対して逆方向に適用することにより、原文の換言文が生成される(ステップ106)。 Next, the paraphrase information of the original sentence is generated by applying the paraphrase information attached to the single paraphrase selected in the reverse direction to the original sentence (step 106).
[動作]
本実施の形態に係る自動換言装置80は以下のように動作する。
[Operation]
The automatic paraphrase
自動換言装置80の動作には全部で二つのフェーズがある。第1のフェーズは準備段階であり、表現素片データベースD1、換言文データベースD2、及び換言情報データベースD3を作成するフェーズである。第2のフェーズは動作段階であり、与えられた原文から換言文を作成する処理である。
The operation of the automatic paraphrase
−データベースの作成−
まず、準備段階として、表現素片収集部81がコーパスC1を走査して、原言語で構成された大量の用例文を表現素片に分解する。表現素片収集部81は、各表現素片に対し、同一の表現素片の出現度数を調べて予め定められたしきい値以上の出現度数を持つ表現素片とその出現度数とを表現素片データベースD1に登録する。
-Database creation-
First, as a preparation stage, the expression
一方、換言文生成部82は、対訳コーパスC2の対訳のうちの用例文の各々に対して公知の方法により換言文を生成する。これら換言文を、換言文生成のときに使用された換言情報(表現素片対)とともに換言文データベースD2に登録しておく。換言文生成部82はさらに、対訳コーパスC2の用例文を換言文に換言する際に出現した換言情報の出現度数である適用頻度を、換言情報とともに換言情報データベースD3に登録しておく。
On the other hand, the paraphrase
なお、表現素片データベースD1、換言文データベースD2、換言情報データベースD3の作成は、原文に対する以下の換言処理を行なうコンピュータと同一のコンピュータで実行してもよいし、別のコンピュータで実行してもよい。ただし、機械翻訳装置の前処理として換言を実行する場合には、対訳コーパスC2は機械翻訳装置が使用するものと一致するものであることが好ましい。 The creation of the expression segment database D1, the paraphrase database D2, and the paraphrase information database D3 may be executed by the same computer as the computer that performs the following paraphrase processing for the original sentence, or may be executed by another computer. Good. However, when the paraphrase is executed as preprocessing of the machine translation device, it is preferable that the bilingual corpus C2 matches that used by the machine translation device.
こうして、各データベースを作成した後には、自動換言装置80による原文からの換言文の作成が可能になる。
Thus, after each database is created, the automatic paraphrase
−原文からの換言文の作成−
原文は原文換言部83に与えられる。原文換言部83はこの原文を類似文検索部84に与える。類似文検索部84は、原文を表現素片に分解し、換言文データベースD2に記録された換言文の中で原文と表現素片を少なくとも一つ共有する換言文を抽出する。類似文検索部84はこのとき、表現素片データベースD1を参照して各表現素片の出現頻度を調べ、より出現度数の高い表現素片を原文と共有し、原文と共有する表現素片の種類が多い換言文の上位のものから所定数を、原文と類似する換言文として選択する。類似文検索部84は選択した換言文とそれらに対し付されている換言情報とをリストにして原文換言部83に与える。
−Preparation of paraphrase from original text−
The original text is given to the original text paraphrase
原文換言部83はこのリストを表現検証部85に与える。表現検証部85は、原文換言部83から与えられたリストに含まれる各換言文について、それらに付されている換言情報と、換言情報データベースD3に記録されている各換言情報の適用頻度とに基づき、元になる用例文から当該換言文が換言文生成部82により得られた際の換言の妥当性を算出する。このとき、対応する換言情報の適用頻度が小さい換言部分や差異部分を、換言文と用例文の長さに比して多く含む場合は、換言文と用例文との換言の妥当性は低く評価される。対応する換言情報の適用頻度が小さい換言部分や差異部分は、換言表現としてあまり用いられないものと判断できるからである。
The original text paraphrase
表現検証部85はまた、リストに含まれる各換言文について、原文との間の相違部分を表現素片対の集まりの形で表す。そして、それら表現素片対により表される原文から換言文への換言の妥当性を、換言情報データベースD3に記録されている換言情報の適用頻度に基づき算出する。このとき、換言の妥当性の算出時と同様に、対応する換言情報の適用頻度が小さい換言部分や差異部分を、原文と換言文との長さに比して多く含む場合は、原文と換言文との類似の妥当性は低く評価される。
The
表現検証部85は、原文換言部83から与えられたリスト中の各換言文に対し上記した二つの妥当性(換言の妥当性と類似の妥当性)を、各換言文に付したリストの形で原文換言部83に返す。
The
原文換言部83は、表現検証部85から与えられたリストに含まれる二つの妥当性の値に基づき、最も妥当と思われる換言文を一つ選択する。そして、選択された換言文に付されている換言情報を原文に対して逆方向に適用することにより、原文から換言文を生成する。こうして得られた換言文は、原文換言部83が選択した換言文の元になった用例文に近いものとなる。
The original text paraphrase
[実施の形態の効果]
このように、この実施の形態に係る自動換言装置では、用例文を換言した換言文の中から、それが得られたときの換言の妥当性と、原文との間で必要とされる換言の妥当性とを合わせた形で、妥当性の最も高い1個の換言文が選択される。この換言文が用例文から得られた際に適用された換言情報を原文に対して逆方向に適用する。この操作により、原文に対して1個の換言文が自動的に生成される。操作者による操作は必要とされない。したがって、操作者の換言知識を必要とすることなく自動的にしかも最適な1個の換言文を得ることができる。
[Effect of the embodiment]
As described above, in the automatic paraphrase device according to this embodiment, the paraphrase required between the validity of the paraphrase when the paraphrase is obtained from the paraphrase obtained by paraphrasing the example sentence and the original sentence. One paraphrase with the highest validity is selected in combination with the validity. The paraphrase information applied when the paraphrase is obtained from the example sentence is applied in the opposite direction to the original sentence. By this operation, one paraphrase is automatically generated for the original sentence. No operator action is required. Therefore, one optimal paraphrase can be obtained automatically without requiring the operator's paraphrase knowledge.
しかも、この特定のために必要とされるデータは、表現素片データベースD1、換言文データベースD2、換言情報データベースD3であり、これらを利用して最適な換言文を特定する。したがって換言のための知識を予め詳細に設定しておく必要はなく、簡易な構成で装置を実現できる。 Moreover, the data required for this specification is the expression segment database D1, the paraphrase database D2, and the paraphrase information database D3, and the optimum paraphrase is specified using these. Therefore, it is not necessary to set in advance knowledge for paraphrasing in detail, and the apparatus can be realized with a simple configuration.
本実施形態に係る自動換言装置を適用した機械翻訳システムは、原文換言部83において原文に対する換言文が特定されると、その換言文で原文を置換し、図示しない言語変換部に出力して言語変換処理をさせ、言語変換された目的言語文を所定の形式に整形する等の翻訳処理を進める。この際、原文を換言して得られた換言文は、対訳コーパスC2に存在する用例文に近いか、同一の文となる。言語変換部における言語変換が対訳コーパスC2を用いた用例ベースの場合、上記のように得られた換言文から言語変換を行なえば、良い結果が得られることになる。
In the machine translation system to which the automatic paraphrase device according to the present embodiment is applied, when a paraphrase for the original sentence is specified in the original sentence paraphrase
したがって、本実施の形態に係る自動換言装置を適用した機械翻訳システムは、当該機械翻訳システムが言語変換処理に利用する知識の獲得源である用例文に最も近い形態に自動的に換言を行なうことができる。したがって操作者がどのような換言を行なえば効果的であるかに関する知識を有していなくとも、あたかも、当該機械翻訳システムに合わせて換言を行なったかのように動作するものとなる。 Therefore, the machine translation system to which the automatic paraphrase device according to the present embodiment is applied automatically performs paraphrase in the form closest to the example sentence that is a source of knowledge that the machine translation system uses for language conversion processing. Can do. Therefore, even if the operator does not have knowledge about what kind of paraphrase is effective, it operates as if the paraphrase is performed in accordance with the machine translation system.
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the embodiment described above. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
40 コンピュータ
80 自動換言装置
81 表現素片収集部
82 換言文生成部
83 原文換言部
84 類似文検索部
85 表現検証部
91 用例文
92 換言文
93 換言情報
D1 表現素片データベース
D2 換言文データベース
D3 換言情報データベース
C1 用例コーパス
C2 対訳コーパス
40
Claims (8)
前記所定言語の第2の用例文群中の用例文の各々に対する1個又は複数個の換言文を、当該換言文を得る際の換言の態様を示す換言情報とともに記憶するための換言文記憶手段と、
前記第2の用例文群中の用例文から換言文への換言の態様を示す換言情報を、それらの適用頻度とともに記憶するための換言情報記憶手段と、
換言対象となる原文を受け、前記表現素片記憶手段に記憶された表現素片のうち少なくとも一つを前記原文と共有する換言文を、前記換言文記憶手段に記憶されている換言文の中から検索するための検索手段と、
前記検索手段により検索された換言文の各々に対し、対応する元の用例文との間の換言、及び前記原文との間の換言に関して、前記換言情報記憶手段に記憶された換言情報の適用頻度に基づき予め定める算出法により算出される妥当性スコアを評価するための評価手段と、
前記換言文記憶手段において、前記評価手段により評価された妥当性スコアが所定の条件を充足する換言文に対応付けられた換言情報を前記原文に対し逆方向に適用することにより、前記原文に対する換言文を生成するための原文換言手段とを含む、自動換言装置。 A representation element storage means for storing the expression elements appearing in the first example sentence group of the predetermined language together with the appearance frequency of each of the expression elements in the first example sentence group;
Paraphrase storage means for storing one or a plurality of paraphrases for each example sentence in the second example sentence group of the predetermined language, together with paraphrase information indicating a paraphrase mode when the paraphrase is obtained. When,
Paraphrase information storage means for storing paraphrase information indicating a paraphrase form from the sample sentence to the paraphrase in the second example sentence group, together with their application frequency;
In the paraphrase stored in the paraphrase storage means, a paraphrase that receives the original sentence to be paraphrased and shares at least one of the expression segments stored in the phrase segment storage means with the original sentence Search means for searching from,
The frequency of application of the paraphrase information stored in the paraphrase information storage unit with respect to the paraphrase between the corresponding original example sentence and the paraphrase between the original sentence and each paraphrase searched by the search unit An evaluation means for evaluating a validity score calculated by a predetermined calculation method based on
In the paraphrase storage means, by applying paraphrase information associated with a paraphrase in which the validity score evaluated by the evaluation means satisfies a predetermined condition to the original sentence in a reverse direction, the paraphrase for the original sentence An automatic paraphrase device including original sentence paraphrase means for generating a sentence.
換言対象となる原文を受け、前記表現素片記憶手段に記憶された表現素片のうち少なくとも一つを前記原文と共有する換言文を、前記換言文記憶手段に記憶されている換言文の中から抽出するための抽出手段と、
前記抽出手段により抽出された換言文のうち、前記原文との間で共有される表現素片の種類数、前記原文との間で共有される表現素片に関し前記表現素片記憶手段に記憶されている出現頻度、又はこれらの組合わせが予め定める条件を充足しているものを選択するための選択手段とを含む、請求項1に記載の自動換言装置。 The search means includes
In the paraphrase stored in the paraphrase storage means, a paraphrase that receives the original sentence to be paraphrased and shares at least one of the expression segments stored in the phrase segment storage means with the original sentence Extraction means for extracting from,
Of the paraphrase extracted by the extraction means, the number of types of expression elements shared with the original sentence, and the expression elements shared with the original sentence are stored in the expression element storage means. The automatic paraphrasing device according to claim 1, further comprising: selecting means for selecting the appearance frequency or a combination thereof satisfying a predetermined condition.
前記所定言語の第2の用例文群中の用例文の各々に対する1個又は複数個の換言文を、当該換言文を得る際の換言の態様を表す換言情報とともに記憶した換言文データベースと、
前記第2の用例文群中の用例文から換言文への換言の態様を示す換言情報を、それらの適用頻度とともに記憶した換言情報データベースと、
を用いて、入力された原文を一つの換言文に言い換える自動換言方法であって、
換言対象となる原文を受け、前記表現素片データベースに記憶された表現素片のうち少なくとも一つを前記原文と共有する換言文を、前記換言文データベースに記憶されている換言文の中から検索する検索ステップと、
前記検索ステップにおいて検索された換言文の各々に対し、対応する元の用例文との間の換言、及び前記原文との間の換言に関して、前記換言情報データベースに記憶された換言情報の適用頻度に基づき予め定める算出法により算出される妥当性スコアを評価する評価ステップと、
前記換言文データベースにおいて、前記評価ステップにおいて評価された妥当性が所定の条件を充足する換言文に対応付けられた換言情報を前記原文に対し逆方向に適用することにより、前記原文に対する換言文を生成するステップとを含む、自動換言方法。
A representation segment database that stores the representation segments that appear in the first example sentence group of the predetermined language, and the frequency of appearance of each representation segment in the first example sentence group;
A paraphrase database that stores one or more paraphrases for each example sentence in the second example sentence group of the predetermined language, together with paraphrase information representing a paraphrase mode when the paraphrase is obtained;
A paraphrase information database that stores paraphrase information indicating a paraphrase mode from a sample sentence to a paraphrase in the second example sentence group, together with their application frequency;
Is an automatic paraphrase method that paraphrases an input original sentence into one paraphrase,
A paraphrase that receives an original sentence that is a paraphrase target and shares at least one of the expression elements stored in the expression fragment database with the original sentence is searched from the paraphrase sentences stored in the paraphrase database. A search step to
For each paraphrase searched in the search step, regarding the paraphrase between the corresponding original example sentence and the paraphrase between the original sentence and the frequency of application of the paraphrase information stored in the paraphrase information database. An evaluation step for evaluating a validity score calculated by a predetermined calculation method based on the above;
In the paraphrase database, by applying paraphrase information associated with the paraphrase in which the validity evaluated in the evaluation step satisfies a predetermined condition to the original sentence in a reverse direction, the paraphrase for the original sentence is An automatic paraphrase method including the step of generating.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005001288A JP2006190072A (en) | 2005-01-06 | 2005-01-06 | Automatic paraphrasing apparatus, automatic paraphrasing method and paraphrasing process program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005001288A JP2006190072A (en) | 2005-01-06 | 2005-01-06 | Automatic paraphrasing apparatus, automatic paraphrasing method and paraphrasing process program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006190072A true JP2006190072A (en) | 2006-07-20 |
Family
ID=36797218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005001288A Withdrawn JP2006190072A (en) | 2005-01-06 | 2005-01-06 | Automatic paraphrasing apparatus, automatic paraphrasing method and paraphrasing process program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006190072A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103092829A (en) * | 2011-10-27 | 2013-05-08 | 北京百度网讯科技有限公司 | Method and system for acquiring paraphrase resources |
CN107038158A (en) * | 2016-02-01 | 2017-08-11 | 松下知识产权经营株式会社 | Paginal translation language material storage preparation method, device, program and machine translation system |
US10318642B2 (en) | 2016-02-01 | 2019-06-11 | Panasonic Intellectual Property Management Co., Ltd. | Method for generating paraphrases for use in machine translation system |
-
2005
- 2005-01-06 JP JP2005001288A patent/JP2006190072A/en not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103092829A (en) * | 2011-10-27 | 2013-05-08 | 北京百度网讯科技有限公司 | Method and system for acquiring paraphrase resources |
CN103092829B (en) * | 2011-10-27 | 2015-11-25 | 北京百度网讯科技有限公司 | A kind of repetition resource acquiring method and system |
CN107038158A (en) * | 2016-02-01 | 2017-08-11 | 松下知识产权经营株式会社 | Paginal translation language material storage preparation method, device, program and machine translation system |
US9916304B2 (en) | 2016-02-01 | 2018-03-13 | Panasonic Intellectual Property Management Co., Ltd. | Method of creating translation corpus |
US10318642B2 (en) | 2016-02-01 | 2019-06-11 | Panasonic Intellectual Property Management Co., Ltd. | Method for generating paraphrases for use in machine translation system |
CN107038158B (en) * | 2016-02-01 | 2021-12-03 | 松下知识产权经营株式会社 | Method and apparatus for creating translation corpus, recording medium, and machine translation system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Oufaida et al. | Minimum redundancy and maximum relevance for single and multi-document Arabic text summarization | |
JP7100747B2 (en) | Training data generation method and equipment | |
JP4058057B2 (en) | Sino-Japanese machine translation device, Sino-Japanese machine translation method and Sino-Japanese machine translation program | |
US8812296B2 (en) | Method and system for natural language dictionary generation | |
WO2005059771A1 (en) | Translation judgment device, method, and program | |
JP2013502643A (en) | Structured data translation apparatus, system and method | |
JPS6299865A (en) | Maintenance system for co-occurrence relation dictionary of natural language | |
US20090083026A1 (en) | Summarizing document with marked points | |
JP6817556B2 (en) | Similar sentence generation method, similar sentence generation program, similar sentence generator and similar sentence generation system | |
Zvonarev et al. | A Comparison of Machine Learning Methods of Sentiment Analysis Based on Russian Language Twitter Data. | |
JP4534666B2 (en) | Text sentence search device and text sentence search program | |
US20090116741A1 (en) | Access To Multilingual Textual Resource | |
US20050273316A1 (en) | Apparatus and method for translating Japanese into Chinese and computer program product | |
JP2006251843A (en) | Synonym pair extracting device, and computer program therefor | |
JP2009217689A (en) | Information processor, information processing method, and program | |
JP2006190072A (en) | Automatic paraphrasing apparatus, automatic paraphrasing method and paraphrasing process program | |
JP2018072979A (en) | Parallel translation sentence extraction device, parallel translation sentence extraction method and program | |
JP4401269B2 (en) | Parallel translation judgment device and program | |
JP5025603B2 (en) | Machine translation apparatus, machine translation program, and machine translation method | |
JP2006004366A (en) | Machine translation system and computer program for it | |
JP2000163441A (en) | Method and device for preparing dictionary, storage medium storing dictionary preparation program, method and device for preparing retrieval request, storage medium storing retrieval request preparation program and multi-language correspondence information retrieval system | |
JP2003108571A (en) | Document summary device, control method of document summary device, control program of document summary device and recording medium | |
JP3752535B2 (en) | Translation selection device and translation device | |
Loáiciga et al. | It-disambiguation and source-aware language models for cross-lingual pronoun prediction | |
Trandafili et al. | A novel document summarization system for Albanian language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071205 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20091221 |