JP2006190072A - Automatic paraphrasing apparatus, automatic paraphrasing method and paraphrasing process program - Google Patents

Automatic paraphrasing apparatus, automatic paraphrasing method and paraphrasing process program Download PDF

Info

Publication number
JP2006190072A
JP2006190072A JP2005001288A JP2005001288A JP2006190072A JP 2006190072 A JP2006190072 A JP 2006190072A JP 2005001288 A JP2005001288 A JP 2005001288A JP 2005001288 A JP2005001288 A JP 2005001288A JP 2006190072 A JP2006190072 A JP 2006190072A
Authority
JP
Japan
Prior art keywords
paraphrase
sentence
original
expression
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005001288A
Other languages
Japanese (ja)
Inventor
Hitoshi Sakamoto
仁 坂本
Kiyotaka Otake
清敬 大竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005001288A priority Critical patent/JP2006190072A/en
Publication of JP2006190072A publication Critical patent/JP2006190072A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide an automatic paraphrasing apparatus capable of automatically creating an optimal paraphrase of an inputted original text by means of a simple configuration without being affected by a developer's knowledge and ability. <P>SOLUTION: The automatic paraphrasing apparatus 80 includes an expression element database (DB) D1 for storing expression elements contained in an example corpus C1, together with their frequencies of occurrence; a paraphrase DBD 2 for storing paraphrases of example sentences contained in a bilingual corpus C2, together with paraphrase information showing the aspects of the paraphrases; a paraphrase information DBD 3 for storing information about paraphrasing from the example sentences in the bilingual corpus C2 into the paraphrases, together with their frequencies of application; a similar text search part 84 for searching the paraphrase DBD 2 for paraphrases each of which shares at least one of the expression elements with the original text; an expression verifying part 85 for evaluating the validity scores of each detected paraphrase about the paraphrasing of the original example text and the paraphrasing of the original text; and an original text paraphrasing part 83 for creating a paraphrase by applying the paraphrasing information that corresponds to the paraphrase of the highest validity scores to the original text in the opposite direction. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

この発明は自然言語処理に関し、特に、例えば機械翻訳装置の前処理に使用され、入力された原表現を、意味が同じで後の処理のために好適な別の表現に変換する(換言する)ための自動換言装置、自動換言方法及び換言処理プログラムに関する。   The present invention relates to natural language processing, and in particular, is used for pre-processing of, for example, a machine translation device, and converts an input original expression into another expression having the same meaning and suitable for later processing (in other words). The present invention relates to an automatic paraphrase device, an automatic paraphrase method, and a paraphrase processing program.

機械翻訳装置として、原文を入力すると、入力された原文を言い回しの異なる複数の文に換言し、換言後の文のいずれかに対して機械翻訳を試みるものが知られている。   As a machine translation device, there is known a machine translation device that, when an original sentence is inputted, translates the inputted original sentence into a plurality of sentences having different wordings, and attempts machine translation on any of the sentences after the paraphrase.

しかし、このような機械翻訳装置では、換言された複数の換言文の中から、機械翻訳の原文として最も適切なものを操作者が選択する必要がある。このため、操作者は原言語と目的言語(例えば日英翻訳における原言語は日本語、目的言語は英語)との双方の知識を持ち、換言文を的確に選択する能力を備える必要がある。その結果、機械翻訳装置の利用者が限定されるという問題があった。   However, in such a machine translation device, the operator needs to select the most appropriate original text for machine translation from a plurality of paraphrased texts. For this reason, the operator needs to have knowledge of both the source language and the target language (for example, the source language in Japanese-to-English translation is Japanese and the target language is English) and have the ability to select a paraphrase accurately. As a result, there is a problem that the users of the machine translation device are limited.

また、システムによっては、例えば「パスポートを拝見できますか。」を、一旦英語に翻訳してから日本語に直訳し直したような、「貴方のパスポートを私に見せて下さい。」という文に人手により換言しなければならない。これでは、その機械翻訳装置を使えるのは英語に翻訳する能力のある人に限定されてしまうことになる。   Depending on the system, for example, "Can you see your passport?", Once translated into English and then translated back into Japanese, "Please show me your passport." In other words, it must be done manually. This means that the machine translation device can be used only by people who have the ability to translate into English.

また、ごく自然な「パスポートを見せて頂けますか」という表現からは、「パスポートを見せて下さい」や「パスポートを見せろ」まで様々な表現を得ることが可能である。操作者は、これら多様な表現の中でどの表現が、使用する機械翻訳装置がうまく翻訳できる表現であるかを知っていなければならない。これでは、その機械翻訳装置の前処理を適切に行なえるのは、その機械翻訳装置を熟知した人に限定されてしまうことになる。   In addition, it is possible to obtain various expressions ranging from “Please show me your passport” and “Show me your passport” to “Now you can show me your passport”. The operator must know which of these various expressions is an expression that can be successfully translated by the machine translation device used. In this case, preprocessing of the machine translation apparatus can be appropriately performed only by a person who is familiar with the machine translation apparatus.

そこで、下記文献に示されるように、翻訳前に原文を自動編集したり自動書換えしたりする技術が提案されている。   Therefore, as shown in the following document, a technique for automatically editing or rewriting the original text before translation has been proposed.

特開平5−225232号公報JP-A-5-225232 特開平6−139274号公報JP-A-6-139274 特開2000−268034号公報JP 2000-268034 A 白井諭、池原悟、河岡司、中村行宏、「日英機械翻訳における原文自動書き替え型翻訳方式とその効果」、情報処理学会論文誌、Vol.36、No.1、pp.12−21(1995)Satoshi Shirai, Satoru Ikehara, Tsukasa Kawaoka, Yukihiro Nakamura, “Automatic Text Rewriting Translation Method and its Effects in Japanese-English Machine Translation”, Transactions of Information Processing Society of Japan, Vol. 36, no. 1, pp. 12-21 (1995) 吉見毅彦、佐田いち子、福持陽士、「頑健な英日機械翻訳システム実現のための原文自動前編集」、自然言語処理、Vol.7、No.4、pp.99−117(2000)Yoshimi Akihiko, Sada Ichiko, Yuku Fukumochi, “Original Text Pre-editing for Realizing a Robust English-Japanese Machine Translation System”, Natural Language Processing, Vol. 7, no. 4, pp. 99-117 (2000)

しかし、このような原文自動編集機能や自動書換機能を備えた翻訳装置では、換言の結果が複数個にならないように、換言操作の根拠となる知識(以下、換言知識という)の条件を予め詳細に設定しておかなければならない。このため、換言知識の開発・準備の負荷が大きくなり、機械翻訳装置の開発には大きな資源が必要であるとともに、翻訳装置の性能は開発者の知識能力に大きく左右されるという問題があった。   However, in such a translation apparatus equipped with the automatic source text editing function and the automatic rewriting function, the conditions for knowledge (hereinafter referred to as paraphrase knowledge) as the basis of the paraphrase operation are detailed in advance so that the result of the paraphrase does not become plural. Must be set to For this reason, the burden of development and preparation of paraphrase knowledge increases, and development of a machine translation device requires a large amount of resources, and the performance of the translation device greatly depends on the knowledge ability of the developer. .

そこで、この発明の目的は、簡易な構成でしかも開発者の知識能力に左右されることなく、入力された原文に対して最適な換言文を自動的に生成できる自動換言装置を提供することである。   Accordingly, an object of the present invention is to provide an automatic paraphrase device that can automatically generate an optimal paraphrase for an inputted original sentence with a simple configuration and without being influenced by a developer's knowledge ability. is there.

本発明のある局面にしたがった自動換言装置は、所定言語の第1の用例文群において出現する表現素片を、表現素片の各々の第1の用例文群における出現度数とともに記憶するための表現素片記憶手段と、所定言語の第2の用例文群中の用例文の各々に対する1個又は複数個の換言文を、当該換言文を得る際の換言の態様を示す換言情報とともに記憶するための換言文記憶手段と、第2の用例文群中の用例文から換言文への換言の態様を示す換言情報を、それらの適用頻度とともに記憶するための換言情報記憶手段と、換言対象となる原文を受け、表現素片記憶手段に記憶された表現素片のうち少なくとも一つを原文と共有する換言文を、換言文記憶手段に記憶されている換言文の中から検索するための検索手段と、検索手段により検索された換言文の各々に対し、対応する元の用例文との間の換言、及び原文との間の換言に関して、換言情報記憶手段に記憶された換言情報の適用頻度に基づき予め定める算出法により算出される妥当性スコアを評価するための評価手段と、換言文記憶手段において、評価手段により評価された妥当性スコアが所定の条件を充足する換言文に対応付けられた換言情報を原文に対し逆方向に適用することにより、原文に対する換言文を生成するための原文換言手段とを含む。   An automatic paraphrase device according to an aspect of the present invention is for storing an expression element that appears in a first example sentence group of a predetermined language together with an appearance frequency in each first example sentence group of the expression element. One or a plurality of paraphrases for each of the example segment storage means and each example sentence in the second example sentence group in the predetermined language are stored together with the paraphrase information indicating the paraphrase mode when the paraphrase is obtained. Paraphrase storage means for storing, paraphrase information storage means for storing paraphrase information indicating a paraphrase form from the example sentence to the paraphrase in the second example sentence group together with their application frequency, Search for a paraphrase that is stored in the paraphrase storage means for a paraphrase that shares at least one of the descriptive elements stored in the phrase segment storage means with the original sentence. Means and search means For each paraphrase, a paraphrase between the corresponding original example sentence and a paraphrase between the original sentence is calculated by a predetermined calculation method based on the frequency of application of the paraphrase information stored in the paraphrase information storage means. In the evaluation means for evaluating the validity score, and in the paraphrase storage means, the paraphrase information associated with the paraphrase in which the validity score evaluated by the evaluation means satisfies a predetermined condition is reverse to the original sentence. To the original sentence paraphrase means for generating a paraphrase for the original sentence.

原文が入力されると、この原文と、表現素片記憶手段に記憶されている表現素片の少なくとも一つを共有する換言文が、検索手段により換言文記憶手段から検索される。検索された換言文の中からさらに絞り込みを行なう。絞り込みの際には、検索された換言文とこれに対応する元の用例文との間の換言と、検索された換言文と原文との間の換言とに関して評価手段によって評価された妥当性スコアが用いられる。妥当性スコアの評価は、換言情報記憶手段に記憶された換言情報の適用頻度に基づき予め定める算出法により行なわれる。   When the original sentence is input, a paraphrase that shares at least one of the original sentence and the expression segment stored in the expression segment storage unit is searched from the paraphrase storage unit by the search unit. Further refine the search from the searched paraphrase. At the time of narrowing down, the validity score evaluated by the evaluation means with respect to the paraphrase between the retrieved paraphrase and the corresponding original example sentence and the paraphrase between the retrieved paraphrase and the original sentence Is used. The validity score is evaluated by a predetermined calculation method based on the frequency of application of the paraphrase information stored in the paraphrase information storage means.

こうして、選択された換言文について2種類の換言に関連する妥当性が評価され、この評価に基づいて、元の文との間の換言と、原文との間の換言との双方を勘案したときに最も妥当性が高いと思われる換言情報を持つ換言文が選択される。原文に対し、この選択された換言文に対応付けられて換言文記憶手段に記憶されている換言情報を逆方向に適用することにより、原文に対する換言文が生成される。こうして得られた換言文は、妥当性スコアが所定の条件を充足する換言文に対応する元の用例文に近くなる。したがって、元の用例文を言語変換のための資源として用いる機械翻訳装置において、原文を換言して得られた換言文を翻訳した結果が正しい翻訳文となる可能性が高くなる。   In this way, the validity of the selected paraphrase is evaluated with respect to the two types of paraphrases, and based on this evaluation, the paraphrase between the original sentence and the paraphrase between the original sentence is considered A paraphrase having paraphrase information that seems to have the highest validity is selected. By applying the paraphrase information associated with the selected paraphrase and stored in the paraphrase storage means to the original sentence in the reverse direction, a paraphrase for the original sentence is generated. The paraphrase obtained in this way is close to the original example sentence corresponding to the paraphrase whose validity score satisfies a predetermined condition. Therefore, in a machine translation apparatus that uses the original example sentence as a resource for language conversion, the result of translating the paraphrase obtained by paraphrasing the original sentence is highly likely to be a correct translation sentence.

このように、この自動換言装置では、原文に対する換言文であって、翻訳したときに好ましい結果が得られる可能性の高いものが自動的に特定される。すなわち、操作者の換言知識を必要とすることなく自動的にしかも最適な換言文を得ることができる。しかも、表現素片記憶手段、換言文記憶手段、換言情報記憶手段に記憶されているデータを利用して原文に対する最適な換言文を特定するから、換言知識の条件を予め詳細に設定しておく必要はなく、簡易な構成で装置を実現できる。   As described above, in this automatic paraphrase device, a paraphrase for the original text that is highly likely to obtain a favorable result when translated is automatically identified. That is, the optimum paraphrase can be obtained automatically without requiring the operator's paraphrase knowledge. In addition, since the optimum paraphrase for the original sentence is specified using the data stored in the expression segment storage means, the paraphrase storage means, and the paraphrase information storage means, the conditions of paraphrase knowledge are set in detail in advance. There is no need, and the apparatus can be realized with a simple configuration.

検索手段は、換言対象となる原文を受け、表現素片記憶手段に記憶された表現素片のうち少なくとも一つを原文と共有する換言文を、換言文記憶手段に記憶されている換言文の中から抽出するための抽出手段と、抽出手段により抽出された換言文のうち、原文との間で共有される表現素片の種類数、又は原文との間で共有される表現素片に関し表現素片記憶手段に記憶されている出現頻度、又はこれらの組合わせが予め定める条件を充足しているものを選択するための選択手段とを含む。   The retrieval means receives the original sentence to be paraphrased, and exchanges a paraphrase that shares at least one of the expression elements stored in the expression segment storage means with the original sentence of the paraphrase text stored in the paraphrase storage means. Representing the number of types of expression elements shared with the original sentence or the expression elements shared with the original sentence among the extraction means for extracting from inside and the paraphrase extracted by the extraction means Selection means for selecting an appearance frequency stored in the segment storage means, or a combination of these that satisfies a predetermined condition.

原文と表現素片を共有する換言文を抽出した後、それらの中で原文との間で共有される表現素片の種類数又は原文との間で共有される表現素片に関する出現頻度、又はこれらの組合わせが予め定める条件を充足している換言文が選択される。この選択は、原文と各換言文との共有表現素片について、表現素片記憶手段に記憶されている同一の表現素片の出現度数を参照して行なわれる。これらを考慮して所定の条件を充足する換言文のみを選択するので、原文に対応する換言文として条件のよいもののみを選ぶことができる。   After extracting a paraphrase that shares the original fragment with the original sentence, the number of types of the expression element shared with the original sentence among them, or the appearance frequency of the expression element shared with the original sentence, or A paraphrase in which these combinations satisfy a predetermined condition is selected. This selection is performed with reference to the appearance frequency of the same expression element stored in the expression element storage unit for the shared expression element of the original sentence and each paraphrase. Considering these, only a paraphrase that satisfies a predetermined condition is selected, so that only a good condition as a paraphrase corresponding to the original sentence can be selected.

選択手段は、原文との間で共有される表現素片の種類数、原文との間で共有される表現素片に関し表現素片記憶手段に記憶されている出現頻度、又はこれらの組合わせにより定められるスコアの上位の所定個数の換言文を選択するための手段を含んでもよい。   The selection means is based on the number of types of expression segments shared with the original text, the appearance frequency stored in the expression segment storage means regarding the expression segments shared with the original text, or a combination thereof. Means for selecting a predetermined number of paraphrases above the defined score may be included.

スコアが上位の所定個数の換言文を選択するため、常に処理時間が安定し、かつ原文に対する換言文を得る上で好適な換言文が得られる。   Since a predetermined number of paraphrases with higher scores are selected, the processing time is always stable, and a paraphrase suitable for obtaining a paraphrase for the original sentence can be obtained.

評価手段は、対応する換言情報の適用頻度が小さい換言部分を、換言文又は用例文の長さに比して換言文が多く含む場合は、換言文と用例文との換言の妥当性を低く評価するようにしてもよい。   The evaluation means reduces the relevance of the paraphrase between the paraphrase and the example sentence when the paraphrase part having a small frequency of application of the corresponding paraphrase information includes more paraphrase sentences than the length of the paraphrase sentence or the example sentence. You may make it evaluate.

又は評価手段は、対応する換言情報の適用頻度が小さい差異部分を、原文又は換言文の長さに比して換言文が多く含む場合は、原文と換言文との類似の妥当性を低く評価するようにしてもよい。   Alternatively, the evaluation means evaluates the relevance of the similarity between the original text and the paraphrase lower when the paraphrase text contains more difference parts than the length of the original text or the paraphrase text where the corresponding paraphrase information is applied less frequently. You may make it do.

このようにすることで、原文、換言文又は換言文に対応する用例文の長さによって各換言文に関係する換言情報の重みを正規化でき、換言文の長さに影響を受けずに好適な換言文を選択できる。   By doing so, the weight of the paraphrase information related to each paraphrase can be normalized by the length of the example sentence corresponding to the original sentence, paraphrase, or paraphrase, and it is preferable without being affected by the length of the paraphrase. Can be selected.

また、換言情報記憶手段に記憶される換言情報は、用例文と換言文との換言部位における表現素片対を含むようにしてもよい。これは、換言情報を客観的で取り扱いの容易なものとなしうる点で望ましい。   In addition, the paraphrase information stored in the paraphrase information storage unit may include a representation element pair in the paraphrase part of the sample sentence and the paraphrase. This is desirable in that the paraphrase information can be made objective and easy to handle.

本発明の他の局面にしたがった換言処理プログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかの自動換言装置として動作させるものである。   A paraphrase processing program according to another aspect of the present invention, when executed by a computer, causes the computer to operate as any one of the automatic paraphrasing devices described above.

本発明のさらに他の局面にしたがった自動換言方法は、所定言語の第1の用例文群において出現する表現素片と、前記第1の用例文群における各表現素片の出現度数とを記憶した表現素片データベースと、所定言語の第2の用例文群中の用例文の各々に対する1個又は複数個の換言文を、当該換言文を得る際の換言の態様を表す換言情報とともに記憶した換言文データベースと、第2の用例文群中の用例文から換言文への換言の態様を示す換言情報を、それらの適用頻度とともに記憶した換言情報データベースとを用いて、入力された原文を一つの換言文に言い換える自動換言方法であって、換言対象となる原文を受け、表現素片データベースに記憶された表現素片のうち少なくとも一つを原文と共有する換言文を、換言文データベースに記憶されている換言文の中から検索する検索ステップと、検索ステップにおいて検索された換言文の各々に対し、対応する元の用例文との間の換言、及び原文との間の換言に関して、換言情報データベースに記憶された換言情報の適用頻度に基づき予め定める算出法により算出される妥当性スコアを評価する評価ステップと、換言文データベースにおいて、評価ステップにおいて評価された妥当性が所定の条件を充足する換言文に対応付けられた換言情報を原文に対し逆方向に適用することにより、原文に対する換言文を生成するステップとを含む。   According to still another aspect of the present invention, an automatic paraphrase method stores expression segments that appear in a first example sentence group of a predetermined language and the frequency of appearance of each expression element in the first example sentence group. And one or a plurality of paraphrases for each example sentence in the second example sentence group in the predetermined language, together with paraphrase information indicating the paraphrase mode when obtaining the paraphrase Using the paraphrase database and the paraphrase information database storing the paraphrase information indicating the mode of paraphrase from the example sentence in the second example sentence group to the paraphrase together with their application frequency, the input original sentence is This is an automatic paraphrase method that paraphrases into one paraphrase, and stores in the paraphrase database a paraphrase that receives the original sentence to be paraphrased and shares at least one of the phrase segments stored in the phrase segment database with the original sentence. A search step for searching from the paraphrased text, and for each paraphrase searched in the search step, a paraphrase between the corresponding original example sentence and a paraphrase between the original text and the paraphrase information An evaluation step for evaluating a validity score calculated by a predetermined calculation method based on the frequency of application of paraphrase information stored in the database, and the validity evaluated in the evaluation step satisfies a predetermined condition in the paraphrase database. Generating a paraphrase for the original sentence by applying paraphrase information associated with the paraphrase in the opposite direction to the original sentence.

[構成の説明]
後に述べるように、本実施の形態は、コンピュータとその上で動作するコンピュータプログラムとにより実現できる。そのプログラムとコンピュータとにより実現される装置を自動換言装置80とみなして機能的に示したのが図1のブロック図である。図1を参照して、この装置80は、機械翻訳における原言語の用例コーパスC1と、原言語の用例コーパスC1から、後述する表現素片を予め多数収集するための表現素片収集部81と、表現素片収集部81により収集された表現素片群をそれらの出現頻度とともにデータベースとして保持する表現素片データベースD1とを含む。
[Description of configuration]
As described later, the present embodiment can be realized by a computer and a computer program that operates on the computer. FIG. 1 is a block diagram functionally showing the device realized by the program and the computer as an automatic paraphrase device 80. Referring to FIG. 1, this apparatus 80 includes a source language example corpus C1 in machine translation, and an expression segment collection unit 81 for collecting a large number of expression segments to be described later from the source language example corpus C1. And the expression element database D1 that holds the expression element groups collected by the expression element collection unit 81 as a database together with their appearance frequencies.

表現素片とは、二つの表現の間の相違を表現するために予め選択される自然言語表現上の単位である。これをどのように定めるかは設計事項であり、言語と目的と処理対象となる表現の分野とにより、異なってもよい。本実施の形態では、対象言語は日本語であって、表現素片とは文を構成する所定文字数の部分文字列のことをいう。例えば、文を構成する文字列のうち、漢字の並びは2文字、カタカナの並びは、小さな文字「ッ」「ャ」「ュ」「ョ」や「ー」を含めず数えて2文字、文字種の変わり目を含む場合は3文字、等の単純な基準により定められる数の文字を含む文字列のことをいう。この規則にしたがって用例文を先頭から順に走査することにより、各用例文を表現素片に分解することができる。この場合、本実施の形態では、先行する表現素片の最終文字と、後続する表現素片の先頭文字とが二つの表現素片で共有される(重複する)ような形で表現素片を抽出する。   An expression segment is a unit in natural language expression that is preselected to express a difference between two expressions. How this is determined is a design matter and may vary depending on the language, purpose, and field of expression to be processed. In the present embodiment, the target language is Japanese, and the expression segment refers to a partial character string of a predetermined number of characters constituting a sentence. For example, in a character string that composes a sentence, two kanji characters are arranged, and two katakana characters are counted without including small characters “tsu”, “ya”, “yu”, “yo”, and “-”. In the case of including a change of the character, it means a character string including a number of characters determined by a simple standard such as three characters. By scanning the example sentences in order from the top in accordance with this rule, each example sentence can be decomposed into expression segments. In this case, in this embodiment, the last character of the preceding expression element and the first character of the subsequent expression element are shared (overlapped) by the two expression elements. Extract.

英語等、単語の分かち書きをする場合には単語を表現素片とすることもできる。日本語でも単語等の単位で表現素片としてもよいが、形態素解析等をして文を単語分解する必要があるので、処理のための負荷が高くなり、上記したように表現素片を決めるのが実用的である。   In the case of writing a word such as English, the word can be used as an expression fragment. Even in Japanese, it may be expressed in units of words, etc., but it is necessary to perform word decomposition by performing morphological analysis, etc., which increases the processing load and determines the expression units as described above. Is practical.

自動換言装置80はさらに、機械翻訳において使用する原言語と目的言語との多数の対訳用例文を記憶する対訳コーパスC2と、対訳コーパスC2に含まれる原言語の文から、公知の方法により多数の換言文を生成し、併せてこれら換言を行なう際にどのような表現の置換が行なわれたかに関する換言情報をそれらの適用頻度とともに生成するための換言文生成部82とを含む。   The automatic paraphrasing device 80 further includes a parallel corpus C2 that stores a large number of example sentences for translation between a source language and a target language used in machine translation, and a number of sentences in the source language included in the parallel translation corpus C2 by a known method. It includes a paraphrase generating unit 82 for generating paraphrase text and generating paraphrase information regarding what kind of substitution is performed when performing these paraphrases together with their application frequency.

換言情報は、本実施の形態では、表現の置換の態様(すなわち換言の態様)を表現素片の対で表した表現素片対を含む。表現素片対とは、例えばある文から順番付で得られた表現素片群と、その文の換言文から得られた表現素片群との間で、互いに異なる部分であってかつ互いに対応する位置に存在する表現素片を対の形で抽出したものである。   In this embodiment, the paraphrase information includes a representation element pair in which a representation replacement mode (that is, a paraphrase mode) is represented by a pair of expression segments. For example, an expression element pair is a different part and corresponds to each other between an expression element group obtained by ordering from a sentence and an expression element group obtained from a paraphrase of the sentence. This is a representation of pairs of expression elements that exist at a certain position.

自動換言装置80はさらに、換言文生成部82により生成された換言文を、それら換言文を生成する際に使用された表現素片対からなる換言情報とともにデータベースとして保持する換言文データベースD2と、換言文生成部82による換言文の生成の際に使用された表現素片対からなる換言情報をそれらの適用頻度とともに保持する換言情報データベースD3とを含む。   The automatic paraphrase device 80 further holds a paraphrase text database D2 that holds the paraphrase text generated by the paraphrase text generation unit 82 as a database together with the paraphrase information composed of pairs of expression units used when generating the paraphrase texts, Including a paraphrase information database D3 that holds paraphrase information composed of pairs of expression units used when the paraphrase text generation unit 82 generates a paraphrase text together with their application frequency.

自動換言装置80はさらに、入力される原文に対する一つの換言文を作成する処理を行なうために、以下に説明するような制御を行なうための原文換言部83と、原文換言部83から原文を受け、表現素片データベースD1を参照して原文を複数の表現素片に分解し、得られた表現素片と共通の表現素片を持つ換言文の中で特に原文と類似する所定数の換言文を換言文データベースD2から抽出してそのリストを原文換言部83に与えるための類似文検索部84と、類似文検索部84により抽出された換言文が元の用例文から得られた際の換言の妥当性、及び類似文検索部84により抽出された換言文と原文との間で換言を行なう妥当性を換言情報データベースD3に保持された換言情報とその適用頻度とを使用して所定の算出式にしたがって算出される妥当性スコアとして評価し、評価結果を原文換言部83に与えるための表現検証部85とを含む。原文換言部83は、類似文検索部84から与えられたリストに含まれる換言文を表現検証部85に与え、表現検証部85から返される各換言文の妥当性スコアに基づいて、換言文のうちの一つを選択し、その換言文を生成する際に使用した表現素片対で表される表現素片の置換を、換言文の生成時の適用方向とは逆の方向に原文に適用することにより原文の換言文を作成する機能を持つ。   The automatic paraphrase device 80 further receives an original sentence from the original sentence paraphrase unit 83 for performing control as described below and a source sentence paraphrase part 83 in order to perform a process of creating one paraphrase for the input original sentence. , By decomposing the original sentence into a plurality of expression elements by referring to the expression element database D1, and among the paraphrases having the same expression element as the obtained expression element, a predetermined number of word sentences similar to the original sentence. Is extracted from the paraphrase text database D2 and the list is given to the original text paraphrase unit 83, and the paraphrase when the paraphrase extracted by the similar sentence search unit 84 is obtained from the original example sentence And the appropriateness of performing the paraphrase between the paraphrase extracted from the similar sentence search unit 84 and the original sentence, using the paraphrase information held in the paraphrase information database D3 and the application frequency thereof, are calculated in a predetermined manner. According to the formula Evaluated as relevance score calculated, and a representation verification unit 85 for providing an evaluation result in the original words 83. The original text paraphrase unit 83 gives the paraphrase text included in the list given from the similar text search unit 84 to the expression verification unit 85, and based on the validity score of each paraphrase text returned from the expression verification unit 85, Select one of them and apply the replacement of the expression unit represented by the pair of expression units used to generate the paraphrase to the original text in the direction opposite to the direction of application when generating the paraphrase. By doing so, it has a function of creating an original sentence.

原言語の用例コーパスC1、対訳コーパスC2、表現素片データベースD1、換言文データベースD2、及び換言情報データベースD3は、いずれも後述するようにこの自動換言装置80を実現するコンピュータのハードディスク等の記憶装置に格納される。   Source language examples corpus C1, bilingual corpus C2, expression segment database D1, paraphrase database D2, and paraphrase information database D3 are all storage devices such as a hard disk of a computer that realizes this automatic paraphrase device 80 as will be described later. Stored in

表現素片収集部81は、原言語の用例コーパスC1を走査して原言語表現の類似度を判断するためのデータを収集する。具体的には、表現素片収集部81は、原言語で構成された大量の用例文に対し、各用例文を表現素片に分解する。そして、原言語の用例コーパスC1中の全用例文について分解処理を行なったときの各表現素片の出現度数を、当該表現素片とともに表現素片データベースD1に記憶する。ただし出現度数が極端に少ない表現素片や、誤った表現から得られる表現素片を利用してもそれほど意味はない。したがってこの実施の形態では、出現度数の少ない表現素片を類似度判断基準の対象から除外する。そのため、予め定めたしきい値以上の出現度数を持つ表現素片のみを表現素片データベースD1に登録する。   The expression segment collection unit 81 scans the source language example corpus C1 and collects data for determining the similarity of the source language expressions. Specifically, the expression segment collection unit 81 decomposes each example sentence into expression segments for a large number of example sentences configured in the source language. Then, the appearance frequency of each representation segment when the decomposition processing is performed on all example sentences in the example corpus C1 of the source language is stored in the representation segment database D1 together with the representation segment. However, it does not make much sense to use an expression fragment with an extremely low frequency of appearance or an expression fragment obtained from an incorrect expression. Therefore, in this embodiment, an expression segment with a low appearance frequency is excluded from the targets of similarity determination criteria. Therefore, only the expression elements having an appearance frequency equal to or higher than a predetermined threshold are registered in the expression element database D1.

たとえば、コーパスC1の原言語の用例文に「パスポートを見せて頂けますか。」があったものとする。他にも「パスポート」、「〜を見せて」、及び「〜て頂けますか」を含む用例文が相当数あったものとすると、この文からは「パス」「スポー」「ポート」「を見せ」「見せて」「せて」「て頂け」「頂けま」「けま」「ます」「すか」がしきい値以上の度数を持つ文字列(表現素片)として表現素片データベースD1に登録され保持されることになる。   For example, it is assumed that an example sentence in the source language of the corpus C1 has “Can you show me your passport?” If there are a lot of other example sentences including "Passport", "Show me" and "Can you please", from this sentence, "Pass", "Spo", "Port", " Representation segment database D1 as a character string (representation segment) in which “show” “show” “set” “te-kake” “kakema” “kema” “masa” “suka” has a frequency equal to or higher than a threshold value Registered and retained.

なお、原言語の用例コーパスC1を対訳コーパスC2の原言語側の用例文群で兼用してもよい。   Note that the source language example corpus C1 may also be used as the source language side example sentence group of the parallel translation corpus C2.

換言文生成部82は、対訳コーパスC2の原言語側の用例文を、翻訳する原文に対するのと同様の手段で解析する。さらに換言文生成部82は、例えば既存の機械翻訳装置に利用されているような公知の換言方法により、用例文を1個又は複数個の換言文に変換し、出力する。原言語と目的言語とが同一言語である点を除けば、換言文生成部82は既存の機械翻訳装置の機構と同等又はその一部として構成される。   The paraphrase sentence generation unit 82 analyzes the example sentence on the source language side of the parallel translation corpus C2 by the same means as that for the original sentence to be translated. Further, the paraphrase text generation unit 82 converts the example sentence into one or a plurality of paraphrase texts by a known paraphrase method such as that used in an existing machine translation device, and outputs the text. Except for the point that the source language and the target language are the same language, the paraphrase generation unit 82 is configured to be equivalent to or a part of the mechanism of an existing machine translation device.

例えば、対訳コーパスC2の原言語側の用例文に「パスポートを見せて頂けますか。」があったものとする。この文に対する換言文として換言文生成部82が生成するものは、「パスポートを拝見いたします。」「パスポートを見せて下さい。」「パスポートをお願いします。」等となる。   For example, it is assumed that the example sentence on the source language side of the bilingual corpus C2 has "Can you show me your passport?" The text generated by the text generation unit 82 as the text for this text is “I look at your passport”, “Show me your passport”, “Please give me your passport”, and so on.

換言文生成部82から出力された各用例文に対する換言文は換言文データベースD2に登録される。このとき、換言文生成部82は、生成した換言文を表現素片収集部81と同じ基準で表現素片に分解し、それらを検索キーとして当該換言文が検索されるように各換言文を換言文データベースD2に登録する。   The paraphrase for each example sentence output from the paraphrase sentence generator 82 is registered in the paraphrase database D2. At this time, the paraphrase text generation unit 82 decomposes the generated paraphrase text into expression segments based on the same criteria as the expression segment collection unit 81, and uses each search text as a search key so that the paraphrase text is searched. Register in the phrase database D2.

また、換言文生成部82は、各用例文と、当該用例文に対して生成された換言文との間の相違部分を抽出し、用例文のどこがどのように言い換えられているかについての情報を、対応する表現素片の対からなる換言情報として換言情報データベースD3に登録する。換言文生成部82はこれと併せて、表現素片をそれが使用されている換言文と組にして換言文データベースD2に登録する。   In addition, the paraphrase sentence generation unit 82 extracts a difference between each example sentence and the paraphrase generated for the example sentence, and provides information on where and how the example sentence is paraphrased. Are registered in the paraphrase information database D3 as paraphrase information consisting of pairs of corresponding expression segments. At the same time, the paraphrase generation unit 82 registers the expression segment as a pair with the paraphrase used in the paraphrase text database D2.

図2に、換言文データベースD2に登録されている換言文データの内容を示す。図2を参照して、一つの用例文91に対して1個又は複数個の換言文92が登録される。各換言文92には、その換言文と用例文91との間の相違部分を表現素片の対の形で表す換言情報93が関連付けられて記憶されている。なお、換言文と用例文とを比較すると、一方には文字列があって他方には存在しない場合があり得る。本実施の形態では、そうした場合にも、一方の表現素片と、対応する表現素片がないことを示す記号(図2における「Φ」)とを対応付けて換言文データベースD2に記憶する。   FIG. 2 shows the contents of the paraphrase text data registered in the paraphrase text database D2. Referring to FIG. 2, one or a plurality of paraphrases 92 are registered for one example sentence 91. In each paraphrase 92, paraphrase information 93 is stored in association with the difference between the paraphrase and the example sentence 91 in the form of a pair of expression segments. Note that when comparing the paraphrase and the example sentence, there may be a case where one side has a character string and the other side does not exist. In this embodiment, even in such a case, one expression element and a symbol (“Φ” in FIG. 2) indicating that there is no corresponding expression element are associated and stored in the paraphrase database D2.

換言情報データベースD3に記憶される換言情報は、この実施の形態では、用例文と換言文の換言部分における表現素片対と、その適用頻度とを含む。例えば、用例文1が「パスポートを見せて頂けますか。」であり、換言文1が「パスポートを見せて下さい。」である場合を考える。この例では、用例文の「頂けますか」が「下さい」に換言されている。これらを表現素片に分解して、「頂けま−下さい」「けま−さい」「ます−φ」「すか−φ」が換言情報93として記憶される。   In this embodiment, the paraphrase information stored in the paraphrase information database D3 includes an example sentence, a representation element pair in the paraphrase portion of the paraphrase, and an application frequency thereof. For example, consider a case where the example sentence 1 is “Can you show me your passport?” And the paraphrase 1 is “Please show me your passport”. In this example, the example sentence “Can you please” is translated to “Please”. These are broken down into pieces of expression, and “Please give me”, “Kema-sai”, “Masu-φ”, “Suka-φ” are stored as paraphrase information 93.

このように換言情報を表現素片対で表すことにより、換言情報の客観性を担保でき、取り扱いも容易となる。   By expressing the paraphrase information as a pair of expression elements in this way, the objectivity of the paraphrase information can be ensured and the handling is facilitated.

換言情報データベースD3には、上述した表現素片対からなる換言情報93の適用頻度、つまり換言文生成部82が大量の用例文を各換言文に換言する際に出現した換言情報の出現度数を、換言情報毎にまとめたものが登録されている。例えば、図3に示す例では、「頂けま−下さい」の適用頻度がn1、「けま−さい」の適用頻度がn2、「ます−φ」の適用頻度がn3、「すか−φ」の適用頻度がn4、・・・となっている。   In the paraphrase information database D3, the frequency of application of the paraphrase information 93 including the above-described pair of expression elements, that is, the appearance frequency of the paraphrase information that appears when the paraphrase sentence generation unit 82 paraphrases a large amount of example sentences into each paraphrase. A summary of each paraphrase information is registered. For example, in the example shown in FIG. 3, the application frequency of “Please give me” is n1, the application frequency of “Kema-sai” is n2, the application frequency of “Masa-φ” is n3, and “Suka-φ”. The application frequency is n4,.

原文換言部83は、原文が入力されるとこれを類似文検索部84に出力するとともに、類似文検索部84から選択されてきた換言文や換言情報のリストを表現検証部85に出力する。さらに、原文換言部83は、表現検証部85から出力されてきた妥当性の評価を基に、入力された原文に対する換言文を最終的に決定するものである。この点については後述する。   When the original sentence is input, the original sentence paraphrase unit 83 outputs the original sentence to the similar sentence search unit 84, and also outputs a paraphrase selected from the similar sentence search unit 84 and a list of paraphrase information to the expression verification unit 85. Further, the original text paraphrase unit 83 finally determines a paraphrase for the input original text based on the validity evaluation output from the expression verification unit 85. This point will be described later.

類似文検索部84は、原文換言部83から送られてきた原文を表現素片収集部81と同じ基準の文字数の表現素片に分解し、それらの表現素片を検索キーとして換言文データベースD2を検索し、入力した原文と少なくとも1個の表現素片を共有する換言文をすべて抽出する。   The similar sentence search unit 84 breaks down the original sentence sent from the original sentence paraphrase unit 83 into expression units having the same reference number of characters as the expression segment collection unit 81, and uses the expression unit as a search key for the paraphrase database D2. And all the paraphrases that share at least one expression fragment with the input original sentence are extracted.

類似文検索部84はさらに、抽出した換言文の中から、原文と類似する換言文を選択する動作も行なう。選択は、原文及び各換言文が相互に共有する表現素片についての前記表現素片データベースD1に記憶されている出現度数を参照して行なわれる。この実施の形態では、具体的には、より出現度数の高い表現素片を原文と共有し、原文と共有する表現素片の種類が多い換言文の上位のものから所定数を、原文と類似する換言文として選択する。なお、換言文の選択方法はこれに限定されることはなく、共有する表現素片の出現度数の総和が高い換言文を選択する方法等であってもよい。   The similar sentence search unit 84 further performs an operation of selecting a paraphrase similar to the original sentence from the extracted paraphrases. The selection is performed with reference to the appearance frequency stored in the expression segment database D1 for the expression segments shared by the original sentence and each paraphrase. In this embodiment, specifically, an expression unit having a higher appearance frequency is shared with the original sentence, and a predetermined number is compared with the original sentence from a higher rank of the paraphrase sentence having many types of expression elements to be shared with the original sentence. Select as a paraphrase to be. In addition, the selection method of a paraphrase is not limited to this, The method etc. of selecting the paraphrase with the high sum total of the appearance frequency of the shared expression element may be used.

さらに類似文検索部84は、選択した換言文と、選択した換言文の各々に付属する換言情報とをリストにして原文換言部83に出力する。この時、類似文検索部84は、入力した原文と類似した換言文との表現素片の差異についても、図2に示した換言情報93と同じ表現素片対の形式で表現して換言情報とし、この換言情報を原文換言部83への出力リストに含めて原文換言部83に出力する。   Further, the similar sentence search unit 84 outputs the selected paraphrase and the paraphrase information attached to each of the selected paraphrase as a list to the original sentence paraphrase unit 83. At this time, the similar sentence search unit 84 also expresses the difference of the expression segment between the input original sentence and the similar paraphrase sentence in the form of the same expression segment pair as the paraphrase information 93 shown in FIG. The paraphrase information is included in the output list to the original paraphrase unit 83 and output to the original paraphrase unit 83.

表現検証部85は、類似文検索部84から原文換言部83に与えられ、さらに原文換言部83から表現検証部85に送られてきた原文、換言文、換言情報を受領し、送られてきた換言文についての元の用例文との換言の妥当性を評価するとともに、原文と換言文との類似の妥当性を評価するものである。   The expression verification unit 85 receives the original sentence, the paraphrase, and the paraphrase information given from the similar sentence search unit 84 to the original sentence paraphrase unit 83 and further sent from the original sentence paraphrase unit 83 to the expression verification unit 85. It evaluates the validity of the paraphrase with the original example sentence for the paraphrase and evaluates the validity of the similarity between the original sentence and the paraphrase.

換言文と用例文との換言の妥当性の評価について以下に説明する。換言文は、対訳コーパスC2の原言語側の用例文から換言されたものであり、換言前の文は用例文にあたる。換言文の妥当性を評価するには、用例文と換言文との換言部分における表現素片対と同一の表現素片対(換言情報)について換言情報データベースD3に登録されている適用頻度を参照する。   The evaluation of the validity of the paraphrase between the paraphrase and the example sentence will be described below. The paraphrase is a paraphrase from the example sentence on the source language side of the bilingual corpus C2, and the sentence before the paraphrase corresponds to the example sentence. In order to evaluate the validity of the paraphrase, refer to the application frequency registered in the paraphrase information database D3 for the same segment segment pair (paraphrase information) as the segment segment pair in the paraphrase portion of the example sentence and the paraphrase. To do.

適用頻度が低い表現素片対(換言情報)は、換言表現としてあまり用いられないものと考えられる。そこで、例えば、換言情報が適用頻度の低い表現素片対を用例文又は換言文の長さに比して多く含む場合は、換言操作の妥当性が低くなるように、適用頻度、表現素片対の数、用例文又は換言文の長さに重み付けを行なう、等の方法により妥当性スコアを算出する。こうすることで、表現素片対の適用頻度等から算出されるスコアを換言文等の長さに対して正規化できる。なお、スコアの具体的な付け方は特に限定されることはなく、換言部分における表現素片対についての適用頻度の総和や平均値が、用例文又は換言文の長さに比して大きいものほど大きなスコアとなるようにしてもよい。また、用例文又は換言文の長さに関係なく、適用頻度の総和や平均値が大きいものほど大きなスコアとしてもよい。   It is considered that the expression element pair (paraphrase information) with low application frequency is not often used as a paraphrase expression. Therefore, for example, when the paraphrase information includes a large number of pairs of expression units having a low application frequency compared to the length of the example sentence or the paraphrase, the application frequency and the expression unit are set so that the validity of the paraphrase operation becomes low. The validity score is calculated by a method such as weighting the number of pairs, the example sentence or the length of the paraphrase. In this way, the score calculated from the application frequency of the expression element pair can be normalized with respect to the length of the paraphrase. The specific method of assigning the score is not particularly limited, and the sum or the average value of the frequency of application of the expression element pair in the paraphrase part is larger than the length of the example sentence or the paraphrase. You may make it become a big score. Also, regardless of the length of the example sentence or paraphrase, the larger the sum of the application frequencies or the larger the average value, the larger the score may be.

次に、原文と換言文との類似の妥当性の評価について説明すると、表現検証部85は、類似文検索部84で作成され原文換言部83から送られてきた原文と各換言文との差異情報を基に、差異部分における表現素片対と同一の表現素片対(換言情報)について換言情報データベースD3に登録されている適用頻度を参照する。つまり、原文と換言文との差異部分を、表現素片対からなる換言情報として表し、それらの適用頻度を調べる。   Next, the evaluation of the validity of the similarity between the original sentence and the paraphrase text will be described. The expression verification unit 85 is configured so that the difference between the original sentence created by the similar sentence search unit 84 and sent from the original sentence paraphrase part 83 and each paraphrase sentence. Based on the information, the application frequency registered in the paraphrase information database D3 is referred to for the same segment segment pair (paraphrase information) as the segment segment pair in the difference portion. That is, the difference between the original text and the paraphrase is expressed as paraphrase information including a pair of expression elements, and the application frequency thereof is examined.

適用頻度が低い表現素片の対(換言情報)は、換言表現としてあまり用いられないものと判断できる。そこで、例えば、適用頻度が低い表現素片対を原文又は換言文の長さに比して多く含む場合は、類似の妥当性が低くなるように、適用頻度、表現素片対の数、原文又は換言文の長さに重み付けを行なう、等の方法により妥当性のスコアを算出する。ここでも原文又は換言文の長さに対し、表現素片対から算出されるスコアを正規化できる。なお、スコアの具体的な付け方は特に限定されることはなく、差異部分における表現素片対についての適用頻度の総和や平均値が、原文/換言文の長さに比して大きいものほど大きなスコアとしてもよい。また、原文/換言文の長さに関係なく、適用頻度の総和や平均値が大きいものほど大きなスコアとしてもよい。   It can be determined that pairs of expression segments (paraphrase information) with low application frequency are not often used as paraphrase expressions. Therefore, for example, if the number of expression unit pairs with low application frequency is larger than the length of the original sentence or paraphrase, the application frequency, the number of expression element pairs, Alternatively, the validity score is calculated by a method such as weighting the length of the paraphrase. Again, the score calculated from the pair of expression elements can be normalized with respect to the length of the original sentence or paraphrase. Note that the specific method of assigning the score is not particularly limited, and the larger the sum or average of the frequency of application of the expression element pairs in the difference portion, the greater the length of the original sentence / paraphrase sentence. It is good also as a score. Further, regardless of the length of the original sentence / paraphrase, a higher score may be obtained as the sum of application frequencies and the average value are larger.

例えば、原文が「パスポートを拝見できますか。」であるものとする。類似文として、「パスポートを拝見いたします。」という換言文が選択されているものとする。さらに、この換言文は、「パスポートを見せて頂けますか。」という用例文から換言されたものであるとする。この場合、「パスポートを見せて頂けますか。」という用例文と「パスポートを拝見いたします。」という換言文の換言部分は「見せて頂けますか」と「拝見いたします」とになる。そして、これらの間の換言情報の適用頻度が相当数あったものとする。この場合、換言文「パスポートを拝見いたします。」についての用例文に対する換言の妥当性スコアは高く算出されることになる。   For example, assume that the original text is "Can you see your passport?" As a similar sentence, it is assumed that the paraphrase “I will look at your passport” is selected. Further, it is assumed that this paraphrase is a paraphrase from the example sentence “Can you show me your passport?”. In this case, the phrase “Can you show me your passport?” And the phrase of the phrase “I will see your passport” will be “Can you show me” and “I will see you”. It is assumed that there is a considerable number of application times of paraphrase information between these. In this case, the validity score of the paraphrase for the example sentence for the paraphrase “I will look at the passport” is calculated high.

また、「パスポートを拝見できますか。」という原文と「パスポートを拝見いたします。」という換言文との間の差異部分は「できますか」と「いたします」とになる。これらの間の換言情報の適用頻度も相当数あったものとする。この場合も、換言文「パスポートを拝見いたします。」についての原文に対する類似の妥当性スコアも高く算出されることになる。   In addition, the difference between the original text “Can you see your passport?” And the phrase “I will see your passport” is “Can you do it?” And “I will do it”. It is assumed that there is a considerable number of the frequency of applying paraphrase information between these. Also in this case, a similar validity score for the original sentence for the paraphrase “I will look at the passport” is also calculated high.

これに対し、「パスポートを拝見できますか。」という原文に対して、「パスカードを拝見できますか。」という換言文が類似文として選択されているものとする。両者の差異部分「ポート」と「カード」とについては、言換えがされる頻度は少なく、したがってこれらの間の換言情報の適用頻度は登録されていない可能性が高い。すると、この換言文「パスカードを拝見できますか。」についての原文に対する類似の妥当性スコアは低く算出されることになる。   On the other hand, it is assumed that a paraphrase “Can you see the pass card?” Is selected as a similar sentence to the original sentence “Can you see the passport?”. The difference between the two “ports” and “cards” is rarely rephrased, and therefore, there is a high possibility that the application frequency of the paraphrase information between them is not registered. Then, the similar validity score with respect to the original sentence about this paraphrase "Can you see the pass card?" Is calculated low.

表現検証部85は、原文換言部83から送られてきた換言文と、算出した換言及び類似の2種類の妥当性のスコアとを組にしたリストを、原文換言部83に出力する。   The expression verification unit 85 outputs, to the original sentence paraphrase unit 83, a list in which the paraphrase sent from the original sentence paraphrase unit 83 is combined with the calculated paraphrase and similar two types of validity scores.

原文換言部83は、表現検証部85から妥当性スコアと組にされた換言文のリストを受領すると、これら2種類のスコアを総合的に判断して、換言文の中から最も妥当性の高い一つの換言文を原文と最も類似している換言文として選択する。例えば二つの妥当性スコアの積を新たな妥当性スコアとして用いてもよい。そして、選択した換言文と組にされて登録された換言情報を逆方向に適用して、入力した原文を換言する。逆方向とは、換言後の文を換言前の文(用例文)に逆戻りするように換言情報を適用することである。ここでいう換言文は、換言文生成部82により対訳コーパスC2の原言語側の用例文から換言されたものであり、換言前の文は用例文にあたる。よって原文は、選択した換言文に対応する用例文に近い文(又は用例文そのもの)に換言される。   When receiving the list of paraphrases combined with the validity score from the expression verification unit 85, the original paraphrase unit 83 comprehensively determines these two types of scores, and has the highest validity from the paraphrase. One paraphrase is selected as the paraphrase most similar to the original sentence. For example, a product of two validity scores may be used as a new validity score. Then, the paraphrase information registered as a pair with the selected paraphrase is applied in the reverse direction to paraphrase the input original sentence. The reverse direction means applying the paraphrase information so that the sentence after the paraphrase returns to the sentence before the paraphrase (example sentence). The paraphrase here is paraphrased from the example sentence on the source language side of the bilingual corpus C2 by the paraphrase sentence generation unit 82, and the sentence before the paraphrase corresponds to the example sentence. Therefore, the original sentence is paraphrased into a sentence (or example sentence itself) close to the example sentence corresponding to the selected paraphrase sentence.

例えば、原文が「パスポートを拝見できますか。」であり、「パスポートを拝見いたします。」が最も妥当性の高い換言文として選択された場合を考える。「パスポートを拝見いたします。」の元の用例文は「パスポートを見せて頂けますか。」である。この場合、元の用例文と同一の文「パスポートを見せて頂けますか。」が、原文「パスポートを拝見できますか。」に対する換言文として生成されることになる。   For example, consider the case where the original sentence is “Can you see your passport?” And “I will see your passport” is selected as the most appropriate paraphrase. The original example sentence of "I will see your passport" is "Can you show me your passport?" In this case, the same sentence as the original example sentence “Can you show me your passport?” Is generated as a paraphrase for the original sentence “Can you see your passport?”.

[コンピュータによる実現]
−ハードウェア構成−
本実施の形態に係る自動換言装置80は、コンピュータ及びコンピュータ上で動作するソフトウェアにより実現される。もちろん、前述した機能の一部又は全部を、ソフトウェアでなくハードウェアで実現することも可能である。
[Realization by computer]
−Hardware configuration−
The automatic paraphrase device 80 according to the present embodiment is realized by a computer and software that operates on the computer. Of course, part or all of the above-described functions can be realized by hardware instead of software.

図5に、本実施の形態で利用されるコンピュータシステム20の外観図を、図6にコンピュータシステム20のブロック図を、それぞれ示す。なおここに示すコンピュータシステム20はあくまで一例であり、この他にも種々の構成が可能である。   FIG. 5 shows an external view of the computer system 20 used in the present embodiment, and FIG. 6 shows a block diagram of the computer system 20. The computer system 20 shown here is merely an example, and various other configurations are possible.

図5を参照して、コンピュータシステム20は、コンピュータ40と、いずれもこのコンピュータ40に接続されたモニタ42、キーボード46、及びマウス48を含む。コンピュータ40にはさらに、CD−ROM(Compact Disk Read−Only Memory)ドライブ50と、FD(Flexible Disk)ドライブ52とが内蔵されている。   Referring to FIG. 5, the computer system 20 includes a computer 40 and a monitor 42, a keyboard 46, and a mouse 48, all connected to the computer 40. The computer 40 further includes a CD-ROM (Compact Disk Read-Only Memory) drive 50 and an FD (Flexible Disk) drive 52.

図6を参照して、コンピュータシステム20はさらに、コンピュータ40に接続されるプリンタ44を含むが、これは図5には示していない。またコンピュータ40はさらに、CD−ROMドライブ50及びFDドライブ52に接続されたバス66と、いずれもバス66に接続された中央演算装置(Central Processing Unit:CPU)56、コンピュータ40のブートアッププログラム等を記憶したROM(Read−Only Memory)58、CPU56が使用する作業エリア及びCPU56により実行されるプログラムの格納エリアを提供するRAM(Random Access Memory)60、及び後述する音声データベースを格納したハードディスク54を含む。   Referring to FIG. 6, computer system 20 further includes a printer 44 connected to computer 40, which is not shown in FIG. The computer 40 further includes a bus 66 connected to the CD-ROM drive 50 and the FD drive 52, a central processing unit (CPU) 56 connected to the bus 66, a boot-up program for the computer 40, and the like. A ROM (Read-Only Memory) 58, a RAM (Random Access Memory) 60 that provides a work area used by the CPU 56 and a storage area for programs executed by the CPU 56, and a hard disk 54 that stores an audio database to be described later. Including.

以下に述べる実施の形態のシステムを実現するソフトウェアは、たとえば、CD−ROM62のような記録媒体上に記録されて流通し、CD−ROMドライブ50のような読取装置を介してコンピュータ40に読込まれ、ハードディスク54に格納される。CPU56がこのプログラムを実行する際には、ハードディスク54からこのプログラムを読出してRAM60に格納し、図示しないプログラムカウンタによって指定されるアドレスから命令を読出して実行する。CPU56は、処理対象のデータをハードディスク54から読出し、処理結果を同じくハードディスク54に格納する。   The software for realizing the system of the embodiment described below is recorded and distributed on a recording medium such as a CD-ROM 62, and is read into the computer 40 via a reader such as the CD-ROM drive 50. Stored in the hard disk 54. When the CPU 56 executes this program, the program is read from the hard disk 54 and stored in the RAM 60, and an instruction is read from an address designated by a program counter (not shown) and executed. The CPU 56 reads data to be processed from the hard disk 54 and stores the processing result in the hard disk 54 as well.

コンピュータシステム20の動作自体は周知であるので、ここではその詳細については繰り返さない。   Since the operation itself of the computer system 20 is well known, details thereof will not be repeated here.

なお、ソフトウェアの流通形態は上記したように記憶媒体に固定された形には限定されない。たとえば、ネットワークを通じて接続された他のコンピュータからデータを受取る形で流通することもあり得る。また、ソフトウェアの一部が予めハードディスク54中に格納されており、ソフトウェアの残りの部分をネットワーク経由でハードディスク54に取込んで実行時に統合するような形の流通形態もあり得る。   Note that the software distribution form is not limited to the form fixed to the storage medium as described above. For example, data may be distributed in the form of receiving data from other computers connected through a network. Further, there may be a distribution form in which a part of software is stored in the hard disk 54 in advance, and the remaining part of the software is taken into the hard disk 54 via the network and integrated at the time of execution.

一般的に、現代のプログラムはコンピュータのオペレーティングシステム(OS)によって提供される汎用の機能を利用し、それらを所望の目的にしたがって組織化した形態で実行することにより前記した所望の目的を達成する。したがって、以下に述べる本実施の形態の各機能のうち、OS又はサードパーティが提供する汎用的な機能を含まず、それら汎用的な機能の実行順序の組合わせだけを指定するプログラム(群)であっても、それらを利用して全体的として所望の目的を達成する制御構造を有するプログラム(群)である限り、それらが本発明の技術的範囲に含まれることは明らかである。   In general, modern programs utilize the general purpose functions provided by a computer operating system (OS) and achieve the desired objectives described above by executing them in an organized manner according to the desired objectives. . Accordingly, among the functions of the present embodiment described below, a program (group) that does not include general-purpose functions provided by the OS or a third party, and specifies only a combination of execution orders of these general-purpose functions. Even so, as long as the program (group) has a control structure that achieves a desired object as a whole by using them, it is obvious that they are included in the technical scope of the present invention.

−プログラム構造−
上記した自動換言装置80をコンピュータにより実現する場合、当該コンピュータを自動換言装置80として動作させるコンピュータプログラムは以下のような制御構造を有する。なお、これに先立って原言語の用例コーパスC1、対訳コーパスC2、表現素片データベースD1、換言文データベースD2、及び換言情報データベースD3については予めハードディスク54内に準備されているものとする。これらは表現素片収集部81と換言文生成部82とに相当するコンピュータプログラムにより実現される。それらコンピュータプログラムが実現する機能については比較的単純であるので、ここではその詳細については省略する。
-Program structure-
When the automatic paraphrase device 80 described above is realized by a computer, a computer program that causes the computer to operate as the automatic paraphrase device 80 has the following control structure. Prior to this, the source language example corpus C1, bilingual corpus C2, expression segment database D1, paraphrase database D2, and paraphrase information database D3 are prepared in the hard disk 54 in advance. These are realized by computer programs corresponding to the expression segment collection unit 81 and the paraphrase generation unit 82. Since the functions realized by these computer programs are relatively simple, the details thereof are omitted here.

図4を参照して、原文から換言文を生成する換言プログラムは、起動すると原文が入力されるのを待つ(ステップ101)。原文が入力されると(ステップ101の判断がYES)、入力された原文に対して原文を表現素片に分解し、それら表現素片の少なくとも一つを共有する換言文が、換言文データベースD2から抽出される(ステップ102)。   Referring to FIG. 4, the paraphrase program that generates a paraphrase from the original text waits for the input of the original text when activated (step 101). When the original text is input (Yes in step 101), the original text is decomposed into expression segments for the input original text, and a paraphrase that shares at least one of the expression segments is the paraphrase database D2. (Step 102).

次に、抽出された換言文の中から、原文及び各換言文が共有する表現素片の各々について、表現素片データベースD1を参照して出現頻度を調べ、より出現度数の高い表現素片を原文と共有し、原文と共有する表現素片の種類が多い換言文のうち上位のものから所定数を、原文と類似する換言文として選択する(ステップ103)。ここではまた、選択された換言文は、元になる用例文から換言文に換言する際の換言情報、及び原文と換言文との差異情報とともにリストにされる。   Next, from the extracted paraphrase texts, the appearance frequency is examined with reference to the phrase segment database D1 for each of the phrase segments shared by the original sentence and each paraphrase sentence. A predetermined number is selected as a paraphrase similar to the original sentence from among higher paraphrases that are shared with the original sentence and have many types of expression elements to be shared with the original sentence (step 103). Here, the selected paraphrase is also listed together with paraphrase information used when translating the original example sentence into the paraphrase and difference information between the original sentence and the paraphrase.

続いてステップ104で、用例文と換言文の換言部分における表現素片対、及び原文と各換言文との差異部分における表現素片対(換言情報)の各々について、換言情報データベースD3に登録されている適用頻度を参照することにより、用例文と換言文との換言の妥当性及び原文と換言文との類似の妥当性が評価される。   Subsequently, in step 104, each of the pair of expression segments in the paraphrase portion of the example sentence and the paraphrase and each of the segment pair (paraphrase information) in the difference portion between the original sentence and each paraphrase is registered in the paraphrase information database D3. By referring to the applied frequency, the validity of the paraphrase between the example sentence and the paraphrase and the validity of the similarity between the original sentence and the paraphrase are evaluated.

さらに、換言及び類似の2種類の妥当性の評価結果に基づいて、原文に対して最も妥当性の高い1個の換言文が選択される(ステップ105)。   Further, based on the paraphrase and similar two types of validity evaluation results, one paraphrase having the highest validity for the original sentence is selected (step 105).

次いで、選択された1個の換言文に付されていた換言情報を原文に対して逆方向に適用することにより、原文の換言文が生成される(ステップ106)。   Next, the paraphrase information of the original sentence is generated by applying the paraphrase information attached to the single paraphrase selected in the reverse direction to the original sentence (step 106).

[動作]
本実施の形態に係る自動換言装置80は以下のように動作する。
[Operation]
The automatic paraphrase device 80 according to the present embodiment operates as follows.

自動換言装置80の動作には全部で二つのフェーズがある。第1のフェーズは準備段階であり、表現素片データベースD1、換言文データベースD2、及び換言情報データベースD3を作成するフェーズである。第2のフェーズは動作段階であり、与えられた原文から換言文を作成する処理である。   The operation of the automatic paraphrase device 80 has two phases in total. The first phase is a preparatory stage in which the expression segment database D1, the paraphrase text database D2, and the paraphrase information database D3 are created. The second phase is an operation stage, which is a process of creating a paraphrase from a given original sentence.

−データベースの作成−
まず、準備段階として、表現素片収集部81がコーパスC1を走査して、原言語で構成された大量の用例文を表現素片に分解する。表現素片収集部81は、各表現素片に対し、同一の表現素片の出現度数を調べて予め定められたしきい値以上の出現度数を持つ表現素片とその出現度数とを表現素片データベースD1に登録する。
-Database creation-
First, as a preparation stage, the expression segment collection unit 81 scans the corpus C1 and decomposes a large number of example sentences configured in the source language into expression segments. The expression segment collection unit 81 examines the frequency of appearance of the same expression segment for each expression segment, and expresses the expression segment having an occurrence frequency equal to or higher than a predetermined threshold and the frequency of occurrence thereof. Register in the piece database D1.

一方、換言文生成部82は、対訳コーパスC2の対訳のうちの用例文の各々に対して公知の方法により換言文を生成する。これら換言文を、換言文生成のときに使用された換言情報(表現素片対)とともに換言文データベースD2に登録しておく。換言文生成部82はさらに、対訳コーパスC2の用例文を換言文に換言する際に出現した換言情報の出現度数である適用頻度を、換言情報とともに換言情報データベースD3に登録しておく。   On the other hand, the paraphrase generation unit 82 generates a paraphrase by a known method for each example sentence in the bilingual corpus C2. These paraphrases are registered in the paraphrase database D2 together with paraphrase information (representative element pairs) used at the time of paraphrase generation. Further, the paraphrase sentence generation unit 82 registers, in the paraphrase information database D3, the application frequency that is the appearance frequency of paraphrase information that appears when paraphrasing the example sentence of the bilingual corpus C2.

なお、表現素片データベースD1、換言文データベースD2、換言情報データベースD3の作成は、原文に対する以下の換言処理を行なうコンピュータと同一のコンピュータで実行してもよいし、別のコンピュータで実行してもよい。ただし、機械翻訳装置の前処理として換言を実行する場合には、対訳コーパスC2は機械翻訳装置が使用するものと一致するものであることが好ましい。   The creation of the expression segment database D1, the paraphrase database D2, and the paraphrase information database D3 may be executed by the same computer as the computer that performs the following paraphrase processing for the original sentence, or may be executed by another computer. Good. However, when the paraphrase is executed as preprocessing of the machine translation device, it is preferable that the bilingual corpus C2 matches that used by the machine translation device.

こうして、各データベースを作成した後には、自動換言装置80による原文からの換言文の作成が可能になる。   Thus, after each database is created, the automatic paraphrase device 80 can create a paraphrase from the original text.

−原文からの換言文の作成−
原文は原文換言部83に与えられる。原文換言部83はこの原文を類似文検索部84に与える。類似文検索部84は、原文を表現素片に分解し、換言文データベースD2に記録された換言文の中で原文と表現素片を少なくとも一つ共有する換言文を抽出する。類似文検索部84はこのとき、表現素片データベースD1を参照して各表現素片の出現頻度を調べ、より出現度数の高い表現素片を原文と共有し、原文と共有する表現素片の種類が多い換言文の上位のものから所定数を、原文と類似する換言文として選択する。類似文検索部84は選択した換言文とそれらに対し付されている換言情報とをリストにして原文換言部83に与える。
−Preparation of paraphrase from original text−
The original text is given to the original text paraphrase unit 83. The original sentence paraphrase unit 83 gives the original sentence to the similar sentence search unit 84. The similar sentence search unit 84 decomposes the original sentence into expression segments, and extracts a paraphrase that shares at least one original sentence and an expression segment among the paraphrases recorded in the paraphrase database D2. At this time, the similar sentence search unit 84 refers to the expression element database D1 to check the appearance frequency of each expression element, shares the expression element having a higher appearance frequency with the original sentence, and stores the expression element shared with the original sentence. A predetermined number is selected as a paraphrase similar to the original sentence from the top of the paraphrase sentences with many types. The similar sentence search unit 84 supplies the selected paraphrase text and the paraphrase information attached thereto to the original text paraphrase section 83 as a list.

原文換言部83はこのリストを表現検証部85に与える。表現検証部85は、原文換言部83から与えられたリストに含まれる各換言文について、それらに付されている換言情報と、換言情報データベースD3に記録されている各換言情報の適用頻度とに基づき、元になる用例文から当該換言文が換言文生成部82により得られた際の換言の妥当性を算出する。このとき、対応する換言情報の適用頻度が小さい換言部分や差異部分を、換言文と用例文の長さに比して多く含む場合は、換言文と用例文との換言の妥当性は低く評価される。対応する換言情報の適用頻度が小さい換言部分や差異部分は、換言表現としてあまり用いられないものと判断できるからである。   The original text paraphrase unit 83 gives this list to the expression verification unit 85. For each paraphrase included in the list given from the original paraphrase paraphrase 83, the expression verification unit 85 converts the paraphrase information attached to them and the application frequency of each paraphrase information recorded in the paraphrase information database D3. Based on the original example sentence, the validity of the paraphrase when the paraphrase text is obtained by the paraphrase text generation unit 82 is calculated. At this time, if the number of paraphrasing parts and difference parts with low frequency of application of the corresponding paraphrase information is larger than the length of the paraphrase sentence and the example sentence, the validity of the paraphrase between the paraphrase sentence and the example sentence is evaluated low. Is done. This is because it can be determined that a paraphrase portion or a difference portion where the frequency of application of corresponding paraphrase information is small is not often used as a paraphrase expression.

表現検証部85はまた、リストに含まれる各換言文について、原文との間の相違部分を表現素片対の集まりの形で表す。そして、それら表現素片対により表される原文から換言文への換言の妥当性を、換言情報データベースD3に記録されている換言情報の適用頻度に基づき算出する。このとき、換言の妥当性の算出時と同様に、対応する換言情報の適用頻度が小さい換言部分や差異部分を、原文と換言文との長さに比して多く含む場合は、原文と換言文との類似の妥当性は低く評価される。   The expression verification unit 85 also represents, for each paraphrase included in the list, a difference from the original sentence in the form of a set of expression element pairs. Then, the validity of the paraphrase from the original sentence to the paraphrase expressed by the expression element pair is calculated based on the frequency of application of the paraphrase information recorded in the paraphrase information database D3. At this time, as in the case of calculating the validity of the paraphrase, if the paraphrase part or the difference part where the corresponding paraphrase information is applied less frequently than the length of the original sentence and the paraphrase, the original sentence and the paraphrase are included. The relevance of similarities with sentences is underestimated.

表現検証部85は、原文換言部83から与えられたリスト中の各換言文に対し上記した二つの妥当性(換言の妥当性と類似の妥当性)を、各換言文に付したリストの形で原文換言部83に返す。   The expression verification unit 85 forms the form of a list in which each of the paraphrases in the list given from the original paraphrase unit 83 is given the above-described two validity (the validity of the paraphrase and the validity similar to the paraphrase). Is returned to the original paraphrase section 83.

原文換言部83は、表現検証部85から与えられたリストに含まれる二つの妥当性の値に基づき、最も妥当と思われる換言文を一つ選択する。そして、選択された換言文に付されている換言情報を原文に対して逆方向に適用することにより、原文から換言文を生成する。こうして得られた換言文は、原文換言部83が選択した換言文の元になった用例文に近いものとなる。   The original text paraphrase unit 83 selects one paraphrase that seems to be most appropriate based on the two validity values included in the list given from the expression verification unit 85. Then, by applying the paraphrase information attached to the selected paraphrase in the opposite direction to the original sentence, the paraphrase is generated from the original sentence. The paraphrase obtained in this way is close to the example sentence that is the basis of the paraphrase selected by the original paraphrase section 83.

[実施の形態の効果]
このように、この実施の形態に係る自動換言装置では、用例文を換言した換言文の中から、それが得られたときの換言の妥当性と、原文との間で必要とされる換言の妥当性とを合わせた形で、妥当性の最も高い1個の換言文が選択される。この換言文が用例文から得られた際に適用された換言情報を原文に対して逆方向に適用する。この操作により、原文に対して1個の換言文が自動的に生成される。操作者による操作は必要とされない。したがって、操作者の換言知識を必要とすることなく自動的にしかも最適な1個の換言文を得ることができる。
[Effect of the embodiment]
As described above, in the automatic paraphrase device according to this embodiment, the paraphrase required between the validity of the paraphrase when the paraphrase is obtained from the paraphrase obtained by paraphrasing the example sentence and the original sentence. One paraphrase with the highest validity is selected in combination with the validity. The paraphrase information applied when the paraphrase is obtained from the example sentence is applied in the opposite direction to the original sentence. By this operation, one paraphrase is automatically generated for the original sentence. No operator action is required. Therefore, one optimal paraphrase can be obtained automatically without requiring the operator's paraphrase knowledge.

しかも、この特定のために必要とされるデータは、表現素片データベースD1、換言文データベースD2、換言情報データベースD3であり、これらを利用して最適な換言文を特定する。したがって換言のための知識を予め詳細に設定しておく必要はなく、簡易な構成で装置を実現できる。   Moreover, the data required for this specification is the expression segment database D1, the paraphrase database D2, and the paraphrase information database D3, and the optimum paraphrase is specified using these. Therefore, it is not necessary to set in advance knowledge for paraphrasing in detail, and the apparatus can be realized with a simple configuration.

本実施形態に係る自動換言装置を適用した機械翻訳システムは、原文換言部83において原文に対する換言文が特定されると、その換言文で原文を置換し、図示しない言語変換部に出力して言語変換処理をさせ、言語変換された目的言語文を所定の形式に整形する等の翻訳処理を進める。この際、原文を換言して得られた換言文は、対訳コーパスC2に存在する用例文に近いか、同一の文となる。言語変換部における言語変換が対訳コーパスC2を用いた用例ベースの場合、上記のように得られた換言文から言語変換を行なえば、良い結果が得られることになる。   In the machine translation system to which the automatic paraphrase device according to the present embodiment is applied, when a paraphrase for the original sentence is specified in the original sentence paraphrase unit 83, the original sentence is replaced with the paraphrase and output to a language conversion unit (not shown). A translation process is performed, and a translation process such as shaping the language-converted target language sentence into a predetermined format is performed. At this time, the paraphrase obtained by paraphrasing the original sentence is close to or identical to the example sentences existing in the parallel translation corpus C2. When the language conversion in the language conversion unit is based on an example using the bilingual corpus C2, good results can be obtained by performing language conversion from the paraphrase obtained as described above.

したがって、本実施の形態に係る自動換言装置を適用した機械翻訳システムは、当該機械翻訳システムが言語変換処理に利用する知識の獲得源である用例文に最も近い形態に自動的に換言を行なうことができる。したがって操作者がどのような換言を行なえば効果的であるかに関する知識を有していなくとも、あたかも、当該機械翻訳システムに合わせて換言を行なったかのように動作するものとなる。   Therefore, the machine translation system to which the automatic paraphrase device according to the present embodiment is applied automatically performs paraphrase in the form closest to the example sentence that is a source of knowledge that the machine translation system uses for language conversion processing. Can do. Therefore, even if the operator does not have knowledge about what kind of paraphrase is effective, it operates as if the paraphrase is performed in accordance with the machine translation system.

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。   The embodiment disclosed herein is merely an example, and the present invention is not limited to the embodiment described above. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.

この発明の一実施の形態の自動換言装置の構成を示すブロック図である。It is a block diagram which shows the structure of the automatic paraphrasing device of one Embodiment of this invention. 換言文データベースに記憶されているデータの一例を示す図である。It is a figure which shows an example of the data memorize | stored in the paraphrase text database. 換言情報データベースに記憶されているデータの一例を示す図である。It is a figure which shows an example of the data memorize | stored in the paraphrase information database. 図1の自動換言装置による換言処理の内容を示すフローチャートである。It is a flowchart which shows the content of the paraphrase process by the automatic paraphrase apparatus of FIG. この発明の一実施の形態の換言処理プログラムを実行するコンピュータシステムの外観図である。1 is an external view of a computer system that executes a paraphrase processing program according to an embodiment of the present invention. FIG. 図5のコンピュータシステムのブロック図である。FIG. 6 is a block diagram of the computer system of FIG. 5.

符号の説明Explanation of symbols

40 コンピュータ
80 自動換言装置
81 表現素片収集部
82 換言文生成部
83 原文換言部
84 類似文検索部
85 表現検証部
91 用例文
92 換言文
93 換言情報
D1 表現素片データベース
D2 換言文データベース
D3 換言情報データベース
C1 用例コーパス
C2 対訳コーパス
40 Computer 80 Automatic Paraphrase Device 81 Representation Fragment Collection Unit 82 Paraphrase Text Generation Unit 83 Original Sentence Paraphrase Unit 84 Similar Text Retrieval Unit 85 Expression Verification Unit 91 Sample sentence 92 Paraphrase 93 Paraphrase Information D1 Representation Fragment Database D2 Paraphrase Text Database D3 Paraphrase Information database C1 Example corpus C2 Bilingual corpus

Claims (8)

所定言語の第1の用例文群において出現する表現素片を、前記表現素片の各々の前記第1の用例文群における出現度数とともに記憶するための表現素片記憶手段と、
前記所定言語の第2の用例文群中の用例文の各々に対する1個又は複数個の換言文を、当該換言文を得る際の換言の態様を示す換言情報とともに記憶するための換言文記憶手段と、
前記第2の用例文群中の用例文から換言文への換言の態様を示す換言情報を、それらの適用頻度とともに記憶するための換言情報記憶手段と、
換言対象となる原文を受け、前記表現素片記憶手段に記憶された表現素片のうち少なくとも一つを前記原文と共有する換言文を、前記換言文記憶手段に記憶されている換言文の中から検索するための検索手段と、
前記検索手段により検索された換言文の各々に対し、対応する元の用例文との間の換言、及び前記原文との間の換言に関して、前記換言情報記憶手段に記憶された換言情報の適用頻度に基づき予め定める算出法により算出される妥当性スコアを評価するための評価手段と、
前記換言文記憶手段において、前記評価手段により評価された妥当性スコアが所定の条件を充足する換言文に対応付けられた換言情報を前記原文に対し逆方向に適用することにより、前記原文に対する換言文を生成するための原文換言手段とを含む、自動換言装置。
A representation element storage means for storing the expression elements appearing in the first example sentence group of the predetermined language together with the appearance frequency of each of the expression elements in the first example sentence group;
Paraphrase storage means for storing one or a plurality of paraphrases for each example sentence in the second example sentence group of the predetermined language, together with paraphrase information indicating a paraphrase mode when the paraphrase is obtained. When,
Paraphrase information storage means for storing paraphrase information indicating a paraphrase form from the sample sentence to the paraphrase in the second example sentence group, together with their application frequency;
In the paraphrase stored in the paraphrase storage means, a paraphrase that receives the original sentence to be paraphrased and shares at least one of the expression segments stored in the phrase segment storage means with the original sentence Search means for searching from,
The frequency of application of the paraphrase information stored in the paraphrase information storage unit with respect to the paraphrase between the corresponding original example sentence and the paraphrase between the original sentence and each paraphrase searched by the search unit An evaluation means for evaluating a validity score calculated by a predetermined calculation method based on
In the paraphrase storage means, by applying paraphrase information associated with a paraphrase in which the validity score evaluated by the evaluation means satisfies a predetermined condition to the original sentence in a reverse direction, the paraphrase for the original sentence An automatic paraphrase device including original sentence paraphrase means for generating a sentence.
前記検索手段は、
換言対象となる原文を受け、前記表現素片記憶手段に記憶された表現素片のうち少なくとも一つを前記原文と共有する換言文を、前記換言文記憶手段に記憶されている換言文の中から抽出するための抽出手段と、
前記抽出手段により抽出された換言文のうち、前記原文との間で共有される表現素片の種類数、前記原文との間で共有される表現素片に関し前記表現素片記憶手段に記憶されている出現頻度、又はこれらの組合わせが予め定める条件を充足しているものを選択するための選択手段とを含む、請求項1に記載の自動換言装置。
The search means includes
In the paraphrase stored in the paraphrase storage means, a paraphrase that receives the original sentence to be paraphrased and shares at least one of the expression segments stored in the phrase segment storage means with the original sentence Extraction means for extracting from,
Of the paraphrase extracted by the extraction means, the number of types of expression elements shared with the original sentence, and the expression elements shared with the original sentence are stored in the expression element storage means. The automatic paraphrasing device according to claim 1, further comprising: selecting means for selecting the appearance frequency or a combination thereof satisfying a predetermined condition.
前記選択手段は、前記原文との間で共有される表現素片の種類数、前記原文との間で共有される表現素片に関し前記表現素片記憶手段に記憶されている出現頻度、又はこれらの組合わせにより定められるスコアの上位の所定個数の換言文を選択するための手段を含む、請求項2に記載の自動換言装置。 The selection means includes the number of types of expression segments shared with the original sentence, the appearance frequencies stored in the expression element storage means regarding the expression elements shared with the original sentence, or these The automatic paraphrase device according to claim 2, further comprising means for selecting a predetermined number of paraphrases having a higher score than the score determined by the combination of the above. 前記評価手段は、対応する換言情報の適用頻度が小さい換言部分を、換言文又は用例文の長さに比して換言文が多く含む場合は、換言文と用例文との換言の妥当性を低く評価する、請求項1〜請求項3のいずれかに記載の自動換言装置。 The evaluation means determines the validity of the paraphrase between the paraphrase and the example sentence when the paraphrase part having a small frequency of application of the corresponding paraphrase information includes more paraphrase parts than the length of the paraphrase sentence or the example sentence. The automatic paraphrasing device according to any one of claims 1 to 3, which is evaluated low. 前記評価手段は、対応する換言情報の適用頻度が小さい差異部分を、原文又は換言文の長さに比して換言文が多く含む場合は、原文と換言文との類似の妥当性を低く評価する、請求項1〜請求項4のいずれかに記載の自動換言装置。 The evaluation means evaluates the relevance of the similarity between the original sentence and the paraphrase low when the paraphrase text includes more difference parts compared to the length of the original sentence or the paraphrase, where the frequency of application of the corresponding paraphrase information is small. The automatic paraphrasing device according to any one of claims 1 to 4. 前記換言情報記憶手段に記憶される前記換言情報は、用例文と換言文との換言部位における表現素片の組合わせを含む、請求項1〜請求項5のいずれかに記載の自動換言装置。 The automatic paraphrase device according to any one of claims 1 to 5, wherein the paraphrase information stored in the paraphrase information storage unit includes a combination of expression segments in a paraphrase portion of a sample sentence and a paraphrase. コンピュータにより実行されると、請求項1〜請求項6のいずれかに記載の自動換言装置として当該コンピュータを動作させる、換言処理プログラム。 A paraphrase processing program that, when executed by a computer, causes the computer to operate as the automatic paraphrase device according to any one of claims 1 to 6. 所定言語の第1の用例文群において出現する表現素片と、前記第1の用例文群における各表現素片の出現度数とを記憶した表現素片データベースと、
前記所定言語の第2の用例文群中の用例文の各々に対する1個又は複数個の換言文を、当該換言文を得る際の換言の態様を表す換言情報とともに記憶した換言文データベースと、
前記第2の用例文群中の用例文から換言文への換言の態様を示す換言情報を、それらの適用頻度とともに記憶した換言情報データベースと、
を用いて、入力された原文を一つの換言文に言い換える自動換言方法であって、
換言対象となる原文を受け、前記表現素片データベースに記憶された表現素片のうち少なくとも一つを前記原文と共有する換言文を、前記換言文データベースに記憶されている換言文の中から検索する検索ステップと、
前記検索ステップにおいて検索された換言文の各々に対し、対応する元の用例文との間の換言、及び前記原文との間の換言に関して、前記換言情報データベースに記憶された換言情報の適用頻度に基づき予め定める算出法により算出される妥当性スコアを評価する評価ステップと、
前記換言文データベースにおいて、前記評価ステップにおいて評価された妥当性が所定の条件を充足する換言文に対応付けられた換言情報を前記原文に対し逆方向に適用することにより、前記原文に対する換言文を生成するステップとを含む、自動換言方法。
A representation segment database that stores the representation segments that appear in the first example sentence group of the predetermined language, and the frequency of appearance of each representation segment in the first example sentence group;
A paraphrase database that stores one or more paraphrases for each example sentence in the second example sentence group of the predetermined language, together with paraphrase information representing a paraphrase mode when the paraphrase is obtained;
A paraphrase information database that stores paraphrase information indicating a paraphrase mode from a sample sentence to a paraphrase in the second example sentence group, together with their application frequency;
Is an automatic paraphrase method that paraphrases an input original sentence into one paraphrase,
A paraphrase that receives an original sentence that is a paraphrase target and shares at least one of the expression elements stored in the expression fragment database with the original sentence is searched from the paraphrase sentences stored in the paraphrase database. A search step to
For each paraphrase searched in the search step, regarding the paraphrase between the corresponding original example sentence and the paraphrase between the original sentence and the frequency of application of the paraphrase information stored in the paraphrase information database. An evaluation step for evaluating a validity score calculated by a predetermined calculation method based on the above;
In the paraphrase database, by applying paraphrase information associated with the paraphrase in which the validity evaluated in the evaluation step satisfies a predetermined condition to the original sentence in a reverse direction, the paraphrase for the original sentence is An automatic paraphrase method including the step of generating.
JP2005001288A 2005-01-06 2005-01-06 Automatic paraphrasing apparatus, automatic paraphrasing method and paraphrasing process program Withdrawn JP2006190072A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005001288A JP2006190072A (en) 2005-01-06 2005-01-06 Automatic paraphrasing apparatus, automatic paraphrasing method and paraphrasing process program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005001288A JP2006190072A (en) 2005-01-06 2005-01-06 Automatic paraphrasing apparatus, automatic paraphrasing method and paraphrasing process program

Publications (1)

Publication Number Publication Date
JP2006190072A true JP2006190072A (en) 2006-07-20

Family

ID=36797218

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005001288A Withdrawn JP2006190072A (en) 2005-01-06 2005-01-06 Automatic paraphrasing apparatus, automatic paraphrasing method and paraphrasing process program

Country Status (1)

Country Link
JP (1) JP2006190072A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092829A (en) * 2011-10-27 2013-05-08 北京百度网讯科技有限公司 Method and system for acquiring paraphrase resources
CN107038158A (en) * 2016-02-01 2017-08-11 松下知识产权经营株式会社 Paginal translation language material storage preparation method, device, program and machine translation system
US10318642B2 (en) 2016-02-01 2019-06-11 Panasonic Intellectual Property Management Co., Ltd. Method for generating paraphrases for use in machine translation system

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092829A (en) * 2011-10-27 2013-05-08 北京百度网讯科技有限公司 Method and system for acquiring paraphrase resources
CN103092829B (en) * 2011-10-27 2015-11-25 北京百度网讯科技有限公司 A kind of repetition resource acquiring method and system
CN107038158A (en) * 2016-02-01 2017-08-11 松下知识产权经营株式会社 Paginal translation language material storage preparation method, device, program and machine translation system
US9916304B2 (en) 2016-02-01 2018-03-13 Panasonic Intellectual Property Management Co., Ltd. Method of creating translation corpus
US10318642B2 (en) 2016-02-01 2019-06-11 Panasonic Intellectual Property Management Co., Ltd. Method for generating paraphrases for use in machine translation system
CN107038158B (en) * 2016-02-01 2021-12-03 松下知识产权经营株式会社 Method and apparatus for creating translation corpus, recording medium, and machine translation system

Similar Documents

Publication Publication Date Title
Oufaida et al. Minimum redundancy and maximum relevance for single and multi-document Arabic text summarization
JP7100747B2 (en) Training data generation method and equipment
JP4058057B2 (en) Sino-Japanese machine translation device, Sino-Japanese machine translation method and Sino-Japanese machine translation program
US8812296B2 (en) Method and system for natural language dictionary generation
WO2005059771A1 (en) Translation judgment device, method, and program
JP2013502643A (en) Structured data translation apparatus, system and method
JPS6299865A (en) Maintenance system for co-occurrence relation dictionary of natural language
US20090083026A1 (en) Summarizing document with marked points
JP6817556B2 (en) Similar sentence generation method, similar sentence generation program, similar sentence generator and similar sentence generation system
Zvonarev et al. A Comparison of Machine Learning Methods of Sentiment Analysis Based on Russian Language Twitter Data.
JP4534666B2 (en) Text sentence search device and text sentence search program
US20090116741A1 (en) Access To Multilingual Textual Resource
US20050273316A1 (en) Apparatus and method for translating Japanese into Chinese and computer program product
JP2006251843A (en) Synonym pair extracting device, and computer program therefor
JP2009217689A (en) Information processor, information processing method, and program
JP2006190072A (en) Automatic paraphrasing apparatus, automatic paraphrasing method and paraphrasing process program
JP2018072979A (en) Parallel translation sentence extraction device, parallel translation sentence extraction method and program
JP4401269B2 (en) Parallel translation judgment device and program
JP5025603B2 (en) Machine translation apparatus, machine translation program, and machine translation method
JP2006004366A (en) Machine translation system and computer program for it
JP2000163441A (en) Method and device for preparing dictionary, storage medium storing dictionary preparation program, method and device for preparing retrieval request, storage medium storing retrieval request preparation program and multi-language correspondence information retrieval system
JP2003108571A (en) Document summary device, control method of document summary device, control program of document summary device and recording medium
JP3752535B2 (en) Translation selection device and translation device
Loáiciga et al. It-disambiguation and source-aware language models for cross-lingual pronoun prediction
Trandafili et al. A novel document summarization system for Albanian language

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071205

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20091221