JP5387166B2 - Information processing apparatus and program - Google Patents

Information processing apparatus and program

Info

Publication number
JP5387166B2
JP5387166B2 JP2009152581A JP2009152581A JP5387166B2 JP 5387166 B2 JP5387166 B2 JP 5387166B2 JP 2009152581 A JP2009152581 A JP 2009152581A JP 2009152581 A JP2009152581 A JP 2009152581A JP 5387166 B2 JP5387166 B2 JP 5387166B2
Authority
JP
Japan
Prior art keywords
sentence
verb
information
pair
sentence element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009152581A
Other languages
Japanese (ja)
Other versions
JP2011008602A (en
Inventor
智子 大熊
宏 梅基
昌嗣 外池
博 増市
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2009152581A priority Critical patent/JP5387166B2/en
Publication of JP2011008602A publication Critical patent/JP2011008602A/en
Application granted granted Critical
Publication of JP5387166B2 publication Critical patent/JP5387166B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、情報処理装置及びプログラムに関する。   The present invention relates to an information processing apparatus and a program.

日本語等の自然言語で記載された文を、対応する意味を持つ別の表現で言い換えた文に変換する技術がある(例えば特許文献1、2及び3参照)。これらの技術においては、文の意味内容を変えないように特定の表現を別の表現に変換する変換規則を用いて、文の言い換えを行う。この変換規則は、人手で作成されたり、または予め意味が対応することが分かっている文の係り受け構造を解析することによって、自動的に生成されたりする。   There is a technique for converting a sentence described in a natural language such as Japanese into a sentence rephrased with another expression having a corresponding meaning (see, for example, Patent Documents 1, 2, and 3). In these techniques, a sentence is paraphrased using a conversion rule that converts a specific expression into another expression so as not to change the semantic content of the sentence. This conversion rule is created manually or automatically generated by analyzing a dependency structure of a sentence whose meaning is known to correspond beforehand.

特開2003−022264号公報JP 2003-022264 A 特開2005−149494号公報JP 2005-149494 A 特開2008−234175号公報JP 2008-234175 A

本発明は、意味内容は対応するが係り受け構造は異なる別の文への言い換えを実現するための情報処理装置及びプログラムを提供することを目的とする。   An object of the present invention is to provide an information processing apparatus and a program for realizing a paraphrase into another sentence that corresponds to a semantic content but has a different dependency structure.

請求項1記載の発明は、情報処理装置であって、互いに対応する意味を持つ2つの文から、互いに対応する文要素の組であって、一方は動詞を含み、他方は付属語を含む文要素の組を抽出する文要素抽出手段と、前記抽出される文要素の組に基づいて、言い換え可能な動詞と付属語の対情報を出力する対情報出力手段と、を含むことを特徴とする。   The invention according to claim 1 is an information processing apparatus, which is a pair of sentence elements corresponding to each other from two sentences having meanings corresponding to each other, wherein one includes a verb and the other includes an appendix. A sentence element extracting means for extracting a set of elements; and a pair information output means for outputting pair information of a verb and an attached word that can be paraphrased based on the set of sentence elements to be extracted. .

請求項2記載の発明は、請求項1記載の情報処理装置であって、前記2つの文の一方は第1言語、他方は当該第1言語とは異なる第2言語で記述された文であって、前記文要素抽出手段は、前記第1言語で記述された文から前記動詞を含む文要素を抽出し、前記第2言語で記述された文から前記付属語を含む文要素を抽出し、前記対情報出力手段は、前記付属語を前記第1言語に翻訳して、前記動詞と前記翻訳された付属語の対情報を出力することを特徴とする。   The invention according to claim 2 is the information processing apparatus according to claim 1, wherein one of the two sentences is a sentence written in a first language and the other is written in a second language different from the first language. The sentence element extraction means extracts a sentence element including the verb from a sentence described in the first language, extracts a sentence element including the adjunct from a sentence described in the second language, The pair information output means translates the adjunct word into the first language and outputs pair information of the verb and the translated adjunct word.

請求項3記載の発明は、請求項2記載の情報処理装置であって、前記対情報出力手段は、前記第1言語で記述された文に含まれる動詞であって、前記抽出される文要素に含まれる動詞とは別の動詞を修飾しうる付属語の種類に関する情報を取得し、当該取得した情報を用いて、前記付属語を前記第1言語に翻訳することを特徴とする。   The invention according to claim 3 is the information processing apparatus according to claim 2, wherein the pair information output means is a verb included in a sentence described in the first language, and the sentence element to be extracted Information on the type of an adjunct word that can modify a verb different from the verb included in is acquired, and the adjunct word is translated into the first language using the acquired information.

請求項4記載の発明は、情報処理装置であって、言い換え可能な動詞と付属語の対情報であって、当該言い換え可能な動詞又は付属語を含む文要素の文中における役割が関連づけられた対情報を取得する対情報取得手段と、処理対象文に含まれる文要素のうち、前記取得される対情報の一方を含み、当該対情報に関連づけられた役割を備える文要素を特定する文要素特定手段と、前記取得される対情報及び前記特定される文要素に基づいて、前記処理対象文を対応する意味を持つ別の文に変換する文変換手段と、を含むことを特徴とする。   The invention according to claim 4 is an information processing apparatus, which is paired information of a paraphrasable verb and an adjunct, and a pair in which a sentence element including the paraphrasable verb or an adjunct is associated with a role in the sentence. A pair information acquisition means for acquiring information and a sentence element specification for specifying a sentence element including one of the acquired pair information and having a role associated with the pair information among the sentence elements included in the processing target sentence Means, and sentence conversion means for converting the processing target sentence into another sentence having a corresponding meaning based on the acquired pair information and the specified sentence element.

請求項5記載の発明は、互いに対応する意味を持つ2つの文から、互いに対応する文要素の組であって、一方は動詞を含み、他方は付属語を含む文要素の組を抽出する文要素抽出手段、及び、前記抽出される文要素の組に基づいて、言い換え可能な動詞と付属語の対情報を出力する対情報出力手段、としてコンピュータを機能させるためのプログラムである。   The invention according to claim 5 is a sentence that extracts a pair of sentence elements corresponding to each other from two sentences having meanings corresponding to each other, one of which includes a verb and the other includes an appendix. This is a program for causing a computer to function as element extraction means and pair information output means for outputting paraphrase verb / attachment pair information based on the extracted sentence element pairs.

請求項1及び5記載の発明によれば、意味内容は対応するが係り受け構造は異なる別の文への言い換えを実現するための対情報を生成できる。   According to the first and fifth aspects of the present invention, it is possible to generate pair information for realizing a paraphrase into another sentence that corresponds to the semantic content but has a different dependency structure.

請求項2記載の発明によれば、互いに異なる言語で意味が対応する2つの文を用いて、対情報を生成できる。   According to the second aspect of the present invention, the pair information can be generated using two sentences having meanings corresponding to each other in different languages.

請求項3記載の発明によれば、互いに異なる言語の文を用いて対情報を生成する場合に、複数の意味を持つ付属語から、意味が対応する文への言い換えを可能とする対情報を生成できる。   According to the third aspect of the present invention, when pair information is generated using sentences in different languages, pair information that enables a paraphrase from a plurality of attached words having meanings to corresponding sentences. Can be generated.

請求項4記載の発明によれば、処理対象文を、意味内容は対応するが係り受け構造は異なる別の文へと変換できる。   According to the fourth aspect of the present invention, the sentence to be processed can be converted into another sentence that corresponds to the semantic content but has a different dependency structure.

本発明の実施の形態に係る情報処理装置の構成例を示す図である。It is a figure which shows the structural example of the information processing apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る情報処理装置が実現する機能の一例を示す機能ブロック図である。It is a functional block diagram which shows an example of the function which the information processing apparatus which concerns on embodiment of this invention implement | achieves. 対情報を含んだ変換規則テーブルの一例を示す図である。It is a figure which shows an example of the conversion rule table containing pair information. 対情報生成処理の流れの一例を示すフロー図である。It is a flowchart which shows an example of the flow of a pair information generation process. 対情報生成処理の流れの一例を示すフロー図である。It is a flowchart which shows an example of the flow of a pair information generation process. 標本文に付与されたアライメント情報の一例を示す図である。It is a figure which shows an example of the alignment information provided to the sample sentence. 標本文に対する構文意味解析結果の一例を示す図である。It is a figure which shows an example of the syntax semantic analysis result with respect to a sample sentence. 別の標本文に対する構文意味解析結果の一例を示す図である。It is a figure which shows an example of the syntax semantic analysis result with respect to another sample sentence. 前置詞翻訳処理の流れの一例を示すフロー図である。It is a flowchart which shows an example of the flow of a preposition translation process. 言い換え処理の流れの一例を示すフロー図である。It is a flowchart which shows an example of the flow of a paraphrase process. 言い換え処理の流れの一例を示すフロー図である。It is a flowchart which shows an example of the flow of a paraphrase process. 処理対象文に対する構文意味解析結果の一例を示す図である。It is a figure which shows an example of the syntax semantic analysis result with respect to a process target sentence.

以下、本発明の実施の形態について、図面を参照しながら説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

図1は、本発明の一実施形態に係る情報処理装置1の構成例を示す図である。情報処理装置1は、例えばパーソナルコンピュータ等であって、制御部11と、記憶部12と、操作部13と、表示部14と、を含んで構成される。   FIG. 1 is a diagram illustrating a configuration example of an information processing apparatus 1 according to an embodiment of the present invention. The information processing apparatus 1 is, for example, a personal computer or the like, and includes a control unit 11, a storage unit 12, an operation unit 13, and a display unit 14.

制御部11は、例えばCPU等であって、記憶部12に格納されるプログラムに従って各種の情報処理を実行する。本実施形態において制御部11が実行する処理の具体例については、後述する。   The control unit 11 is, for example, a CPU or the like, and executes various types of information processing according to programs stored in the storage unit 12. A specific example of processing executed by the control unit 11 in the present embodiment will be described later.

記憶部12は、例えばRAM等のメモリ素子やハードディスク等を含んで構成される。記憶部12は、制御部11によって実行されるプログラムや、各種のデータを保持する。また、記憶部12は、制御部11のワークメモリとしても動作する。   The storage unit 12 includes, for example, a memory element such as a RAM, a hard disk, and the like. The storage unit 12 holds programs executed by the control unit 11 and various data. The storage unit 12 also operates as a work memory for the control unit 11.

操作部13は、例えばキーボードやマウス等であって、利用者の指示操作を受け付けて、当該指示操作の内容を制御部11に出力する。表示部14は、例えば液晶ディスプレイ等であり、制御部11からの指示に従って、画像の表示を行う。   The operation unit 13 is, for example, a keyboard or a mouse, and receives a user instruction operation, and outputs the content of the instruction operation to the control unit 11. The display unit 14 is, for example, a liquid crystal display, and displays an image in accordance with an instruction from the control unit 11.

以下、本実施形態に係る情報処理装置1が実現する機能について、説明する。情報処理装置1は、機能的に、図2に示すように、文要素ペア抽出部21と、対情報出力部22と、処理対象文取得部23と、対情報取得部24と、文要素特定部25と、文変換処理部26と、を含んで構成される。これらの機能は、例えば制御部11が記憶部12に格納されるプログラムを実行することによって実現される。このプログラムは、例えばインターネット等の通信手段を介して提供されてもよいし、光ディスク等の各種のコンピュータ読み取り可能な情報記憶媒体に格納されて提供されてもよい。   Hereinafter, functions realized by the information processing apparatus 1 according to the present embodiment will be described. As shown in FIG. 2, the information processing apparatus 1 functionally includes a sentence element pair extraction unit 21, a pair information output unit 22, a processing target sentence acquisition unit 23, a pair information acquisition unit 24, and a sentence element specification. A unit 25 and a sentence conversion processing unit 26 are included. These functions are realized, for example, when the control unit 11 executes a program stored in the storage unit 12. This program may be provided via communication means such as the Internet, or may be provided by being stored in various computer-readable information storage media such as an optical disk.

情報処理装置1は、既存のコーパス(複数の自然言語文を含む文例データベース)などから複数の標本文を取得し、その解析結果を用いて、言い換え可能な動詞と付属語の対情報を含んだ変換規則を生成する。そして、この変換規則を用いて、処理対象となる自然言語文(以下、処理対象文という)を、対応する意味を持つ別の文に変換する言い換え処理を行う。具体的には、文要素ペア抽出部21及び対情報出力部22が対情報を生成する処理を行い、処理対象文取得部23、対情報取得部24、文要素特定部25、及び文変換処理部26が、生成された対情報を用いた言い換え処理を実行する。なお、本実施形態では処理対象文は日本語文であることとする。   The information processing apparatus 1 acquires a plurality of sample sentences from an existing corpus (sentence example database including a plurality of natural language sentences) and the like, and uses the analysis result to include paraphrase verb / attachment pair information. Generate transformation rules. Then, using this conversion rule, a paraphrase process for converting a natural language sentence to be processed (hereinafter referred to as a process target sentence) into another sentence having a corresponding meaning is performed. Specifically, the sentence element pair extraction unit 21 and the pair information output unit 22 perform a process of generating pair information, a processing target sentence acquisition unit 23, a pair information acquisition unit 24, a sentence element identification unit 25, and a sentence conversion process. The unit 26 executes a paraphrase process using the generated pair information. In the present embodiment, the processing target sentence is a Japanese sentence.

文要素ペア抽出部21は、互いに対応する意味を持つ2つの標本文(以下、標本文ペアという)を取得する。そして、当該2つの標本文のそれぞれから一つずつ文要素を選択することによって、互いに対応する文要素の組(以下、文要素ペアという)を抽出する。ここで文要素は、文を構成する要素であって、1又は複数の形態素からなり、意味的なまとまりを持った単位を指している。すなわち、文要素は句や文節などに対応している。   The sentence element pair extraction unit 21 acquires two sample sentences (hereinafter referred to as sample sentence pairs) having meanings corresponding to each other. Then, by selecting one sentence element from each of the two sample sentences, a pair of sentence elements corresponding to each other (hereinafter referred to as a sentence element pair) is extracted. Here, the sentence element is an element constituting the sentence, and is composed of one or a plurality of morphemes and indicates a unit having a semantic unit. That is, the sentence element corresponds to a phrase or a clause.

ここで、文要素ペア抽出部21は、文要素ペアの一方が動詞を含み、他方が名詞とこれに付属する付属語とを含む文要素となるように、文要素ペアを抽出する。なお、文要素ペア抽出部21は、このような対応する文要素の組を抽出するとともに、当該各文要素の文中における役割(例えば、主格や目的格など、文中において各文要素が備える文法上の役割)を特定することとしてもよい。   Here, the sentence element pair extraction unit 21 extracts a sentence element pair so that one of the sentence element pairs includes a verb and the other includes a sentence element including a noun and an attached word attached thereto. Note that the sentence element pair extraction unit 21 extracts such a set of corresponding sentence elements, and the role of each sentence element in the sentence (for example, the main character, the purpose case, etc. May be specified.

具体例として、文要素ペア抽出部21は、既存のコーパスを参照してその中から標本文を読み出すなどの方法で、同じ意味を表す標本文ペアを取得する。本実施形態では、このように対応する意味を持つ標本文ペアを含んだコーパスとして、対訳コーパスを利用することとする。対訳コーパスには、同じ意味を表し、互いに異なる第1言語及び第2言語で表記された2つの標本文が、互いに対応づけて格納されている。なお、一つの言語で、同じ意味だが表現が異なる標本文のペアを集めたコーパスを用いてもよいが、そのようなコーパスと比較すると、対訳コーパスは各種のものが知られており、入手及び利用が容易である。   As a specific example, the sentence element pair extraction unit 21 acquires a sample sentence pair representing the same meaning by a method such as reading an example sentence from an existing corpus. In the present embodiment, a bilingual corpus is used as a corpus including sample sentence pairs having corresponding meanings. In the bilingual corpus, two sample sentences having the same meaning and expressed in different first and second languages are stored in association with each other. You may use a corpus that collects pairs of sample sentences that have the same meaning but different expressions in one language. Compared to such a corpus, various types of bilingual corpora are known. Easy to use.

対情報出力部22は、文要素ペア抽出部21が標本文ペアから抽出した文要素ペアに基づいて、互いに言い換え可能な動詞と付属語の対情報を出力する。本実施形態では、対情報出力部22は、抽出された文要素ペアの一方に含まれる動詞と、他方に含まれる付属語である格助詞と、これらの文要素の標本文中における文法的役割を示す情報とを、互いに対応づけて、対情報として出力する。このようにして出力された複数の対情報の集合が、本実施形態における言い換え処理に用いられる変換規則として、記憶部12に格納される。図3は、このような複数の対情報からなる変換規則テーブルの一例を示している。   The pair information output unit 22 outputs verb / attachment pair information that can be paraphrased based on the sentence element pair extracted from the sample sentence pair by the sentence element pair extraction unit 21. In the present embodiment, the pair information output unit 22 has a verb included in one of the extracted sentence element pairs, a case particle as an appendage included in the other, and a grammatical role in the sample sentence of these sentence elements. The information shown is associated with each other and output as pair information. A set of a plurality of pairs of information output in this way is stored in the storage unit 12 as a conversion rule used for the paraphrase process in the present embodiment. FIG. 3 shows an example of a conversion rule table composed of a plurality of pieces of pair information.

処理対象文取得部23は、言い換え処理の対象となる処理対象文を取得する。具体的に、処理対象文取得部23は、処理対象文を各種の情報記憶媒体から読み出して取得してもよいし、操作部13に対するユーザの入力を受け付けることによって取得してもよい。   The process target sentence acquisition unit 23 acquires a process target sentence that is a target of the paraphrase process. Specifically, the processing target sentence acquisition unit 23 may read and acquire the processing target sentence from various information storage media, or may acquire the processing target sentence by receiving a user input to the operation unit 13.

対情報取得部24は、対情報出力部22が出力し、記憶部12に格納されている変換規則テーブルを参照して、言い換え処理に用いる対情報を取得する。対情報取得部24が取得した対情報は、後述する文要素特定部25及び文変換処理部26によって用いられる。   The pair information acquisition unit 24 refers to the conversion rule table output from the pair information output unit 22 and stored in the storage unit 12 and acquires pair information used for paraphrase processing. The pair information acquired by the pair information acquisition unit 24 is used by a sentence element specifying unit 25 and a sentence conversion processing unit 26 described later.

文要素特定部25は、処理対象文取得部23が取得した処理対象文の構文意味解析を行う。ここで、構文意味解析においては、まず処理対象文を構成する各形態素の品詞や活用形が特定される。そして、1又は複数の形態素が意味的にまとまって構成される文要素が特定され、さらに各文要素の係り受け構造(文要素同士の修飾関係)や、各文要素の役割(文法的役割や意味的役割など)が特定される。この構文意味解析は、公知の手法を用いて実現されてよい。さらに文要素特定部25は、構文意味解析の結果を用いて、処理対象文に含まれる文要素のうち、対情報取得部24が取得した対情報の一方(ここでは動詞とする)を含み、当該対情報に関連づけられた役割を備える文要素を特定する。この特定された文要素が、処理対象文の言い換え処理における言い換えの対象となる。   The sentence element specifying unit 25 performs a syntax semantic analysis of the processing target sentence acquired by the processing target sentence acquisition unit 23. Here, in the syntactic and semantic analysis, first, the part of speech and the utilization form of each morpheme constituting the processing target sentence are specified. Then, sentence elements composed of one or more morphemes are identified, and the dependency structure of each sentence element (modification relation between sentence elements) and the role of each sentence element (grammatical role, Semantic roles, etc.) are identified. This syntactic and semantic analysis may be realized using a known method. Furthermore, the sentence element identification unit 25 includes one of pair information (here, a verb) acquired by the pair information acquisition unit 24 among the sentence elements included in the processing target sentence using the result of the syntax semantic analysis. A sentence element having a role associated with the pair information is specified. This identified sentence element becomes the target of paraphrase in the paraphrase process of the process target sentence.

文変換処理部26は、対情報取得部24が取得した対情報及び文要素特定部25が特定した文要素に基づいて、処理対象文を意味が対応する別の文に変換する。具体的に、文変換処理部26は、文要素特定部25が特定した文要素に含まれる対情報の一方(動詞)を、当該対情報の他方(付属語)に置き換える変換処理を行う。これにより、処理対象文取得部23が取得した処理対象文は、対応する意味を持つ別の文に言い換えられる。   The sentence conversion processing unit 26 converts the processing target sentence into another sentence having a corresponding meaning based on the pair information acquired by the pair information acquisition unit 24 and the sentence element specified by the sentence element specifying unit 25. Specifically, the sentence conversion processing unit 26 performs a conversion process of replacing one (verb) of the pair information included in the sentence element specified by the sentence element specifying unit 25 with the other (attached word) of the pair information. Thereby, the process target sentence acquired by the process target sentence acquiring unit 23 is paraphrased as another sentence having a corresponding meaning.

以下、本実施形態に係る情報処理装置1の制御部11が実行する処理の流れの具体例について、説明する。まず、図4及び図5のフロー図を参照しながら、文要素ペア抽出部21及び対情報出力部22が実行する対情報生成処理の具体例について、説明する。   Hereinafter, a specific example of the flow of processing executed by the control unit 11 of the information processing apparatus 1 according to the present embodiment will be described. First, a specific example of the pair information generation process executed by the sentence element pair extraction unit 21 and the pair information output unit 22 will be described with reference to the flowcharts of FIGS. 4 and 5.

なお、以下では処理の流れを説明するための一例として、下記の標本文1及び2からなる標本文ペアに対して対情報生成処理を実行し、その結果図3の変換規則テーブル内で1行目に示されている対情報を生成する場合について説明する。
標本文1:「彼は妻を伴ってパーティーに出席した。」
標本文2:「He attended the party with his wife.」
In the following, as an example for explaining the flow of processing, pair information generation processing is executed for a sample sentence pair consisting of the following sample sentences 1 and 2, and as a result, one line in the conversion rule table of FIG. A case where the pair information shown in the eyes is generated will be described.
Sample 1: "He attended the party with his wife."
Sample sentence 2: "He attended the party with his wife."

上記標本文1及び2から明らかなように、以下の例においては、文要素ペア抽出部21が参照する対訳コーパスは、同じ意味の日本語文と英語文とを対応づけて格納しており、このうち標本文1の方が処理対象文と同じ日本語文となっている。さらに、この例では、対訳コーパスに含まれる標本文ペアに対して、予めアライメント情報が付与されているものとする。アライメント情報は、2つの文の中で意味が対応する文要素同士を関連づける情報である。図6は、上述した標本文1及び2に付与されたアライメント情報の例を示す図である。この図においては、標本文1のP1と標本文2のP1、標本文1のP2及びP3と標本文2のP2、標本文1のP4と標本文2のP3、標本文1のP5と標本文2のP4が、それぞれ対応している。なお、このようなアライメント情報は、例えば柏岡秀紀 著「節境界を考慮した長文の単語アライメント」(言語処理学会第11回年次大会 発表論文集、2005年3月)に開示されている手法を用いて付与される。   As is clear from the sample sentences 1 and 2, in the following example, the bilingual corpus referred to by the sentence element pair extraction unit 21 stores Japanese sentences and English sentences having the same meaning in association with each other. Sample sentence 1 is the same Japanese sentence as the sentence to be processed. Furthermore, in this example, it is assumed that alignment information is given in advance to the sample sentence pairs included in the bilingual corpus. The alignment information is information that associates sentence elements having corresponding meanings in two sentences. FIG. 6 is a diagram illustrating an example of the alignment information given to the sample sentences 1 and 2 described above. In this figure, P1 of sample sentence 1 and P1 of sample sentence 2, P2 and P3 of sample sentence 1 and P2 of sample sentence 2, P4 of sample sentence 1 and P3 of sample sentence 2, P5 and sample sentence 1 P4 of the text 2 corresponds to each. Such alignment information can be obtained by, for example, the technique disclosed in Hideki Tsujioka “Long word alignment considering clause boundaries” (Journal of the 11th Annual Conference of the Language Processing Society, March 2005). To be used.

まず、文要素ペア抽出部21は、対訳コーパスから標本文1及び2を読み出す(S1)。なお、対訳コーパスは記憶部12に記憶されていてもよいし、通信手段を介して接続される外部の情報処理装置内に記憶されていてもよい。   First, the sentence element pair extraction unit 21 reads the sample sentences 1 and 2 from the parallel corpus (S1). The bilingual corpus may be stored in the storage unit 12 or may be stored in an external information processing apparatus connected via communication means.

続いて文要素ペア抽出部21は、S1で取得した2つの標本文のそれぞれに対して、構文意味解析を行う(S2)。この構文意味解析は、文要素特定部25が処理対象文に対して実行する処理と同様のアルゴリズムで実行されてよい。   Subsequently, the sentence element pair extraction unit 21 performs syntax and semantic analysis on each of the two sample sentences acquired in S1 (S2). This syntax and semantic analysis may be executed by the same algorithm as the process executed by the sentence element specifying unit 25 for the processing target sentence.

図7及び図8は、それぞれ標本文1及び2に対して構文意味解析を実行した結果得られる解析結果の一例を示している。これらの図において、各形態素は枠で囲まれて表記されている。また、各形態素に付された記号はそれぞれの品詞を示しており、Nは名詞を、PRONは代名詞を、DETは限定詞を、Vは動詞を、AUXは助動詞を、PPは助詞(日本語の場合)又は前置詞(英語の場合)を、それぞれ示している。ここで、AUX及びPPは、名詞や動詞などの自立語とともに用いられ、単独では文要素を構成しない付属語である。また、NPは主辞として名詞を含んだ名詞句を、VPは主辞として動詞を含んだ動詞句を、PPは前置詞句を、それぞれ示しており、Sはそれ自体で文としての構造を備えた構成要素を示している。さらに、NPに付されたsubjectは当該名詞句の文法的役割が主格であることを、obliqueは斜格であることを、objectは目的格であることを、それぞれ示している。   7 and 8 show an example of analysis results obtained as a result of executing syntax-semantic analysis on the sample sentences 1 and 2, respectively. In these drawings, each morpheme is shown surrounded by a frame. The symbols attached to each morpheme indicate the part of speech. N is a noun, PRON is a pronoun, DET is a determiner, V is a verb, AUX is an auxiliary verb, and PP is a particle (Japanese). ) Or preposition (in English). Here, AUX and PP are used together with independent words such as nouns and verbs, and are auxiliary words that do not constitute sentence elements by themselves. In addition, NP indicates a noun phrase including a noun as a main word, VP indicates a verb phrase including a verb as a main word, PP indicates a preposition phrase, and S has a structure as a sentence by itself. Indicates an element. Further, the subject attached to the NP indicates that the grammatical role of the noun phrase is the main case, oblique indicates the oblique case, and object indicates the objective case.

次に、文要素ペア抽出部21は、標本文1に2つ以上の動詞句VPが含まれるかを判定する(S3)。動詞句VPが2つ以上含まれていない場合には、動詞を含まない表現に言い換え可能な文要素は標本文中に含まれていないと推定されるため、処理を終了する。   Next, the sentence element pair extraction unit 21 determines whether the sample sentence 1 includes two or more verb phrases VP (S3). If two or more verb phrases VP are not included, it is presumed that a sentence element that can be paraphrased as an expression that does not include a verb is not included in the sample sentence, and thus the process ends.

ここでは、「伴って」及び「出席した」という2つの動詞句VPが標本文1内に含まれているので、以降の処理を実行する。すなわち、変数iを1で初期化し(S4)、これら複数の動詞句VPに対して、順に以下に説明する処理を実行する。なお、以下では変数iを用いて標本文1中におけるi番目の動詞句VPをVPiと表記する。   Here, since two verb phrases VP “accompanied” and “attended” are included in the sample sentence 1, the subsequent processing is executed. That is, the variable i is initialized with 1 (S4), and the processes described below are sequentially executed for the plurality of verb phrases VP. In the following, the i-th verb phrase VP in the sample sentence 1 is expressed as VPi using the variable i.

まず文要素ペア抽出部21は、標本文1において、動詞句VPiの主辞である動詞Viに係っている連用修飾成分の全てを、リストNPLiに代入する(S5)。例えばi=1の場合、動詞V1は「伴う」であり、その連用修飾成分は図7に示すように「妻を」の1つだけなので、NPL1の要素は{「妻を」}になる。その後、文要素ペア抽出部21は、変数jを1で初期化し(S6)、要素リストNPLiに含まれる全ての要素に対して、順に以下に説明する処理を実行する。なお、以下では変数jを用いてリストNPLiに含まれるj番目の要素をNPijと表記する。   First, the sentence element pair extraction unit 21 substitutes all the consecutive modification components related to the verb Vi that is the main word of the verb phrase VPi in the sample sentence 1 into the list NPLi (S5). For example, when i = 1, the verb V1 is “accompanied”, and there is only one consecutive modification component “wife” as shown in FIG. 7, so the element of NPL1 is {“wife”}. Thereafter, the sentence element pair extraction unit 21 initializes the variable j with 1 (S6), and sequentially executes the processes described below for all elements included in the element list NPLi. Hereinafter, the j-th element included in the list NPLi is expressed as NPij using the variable j.

文要素ペア抽出部21は、アライメント情報によって要素NPijに対応づけられる標本文2の文要素を、要素NPAijとして取得する(S7)。NP11である「妻を」に対しては、図6に示すように”with his wife”が対応づけられているので、この文要素がNPA11として取得される。   The sentence element pair extraction unit 21 acquires, as an element NPAij, the sentence element of the sample sentence 2 associated with the element NPij by the alignment information (S7). Since “with his wife” is associated with NP11 “wife” as shown in FIG. 6, this sentence element is acquired as NPA11.

続いて文要素ペア抽出部21は、アライメント情報によって、S7で取得したNPAijの修飾先の動詞と対応づけられた標本文1の文要素が、動詞句VPiと一致するとの条件を満たすか否か判定する(S8)。例えば”with his wife”の修飾先は図8に示すように動詞”attended”であって、この動詞のアライメント先の文要素は図6に示すように「出席した」である。したがって、この動詞句「出席した」は動詞句VP1である「伴って」とは一致せず、S8の条件は満たさないことになる。   Subsequently, the sentence element pair extraction unit 21 determines whether or not a condition that the sentence element of the sample sentence 1 associated with the modification destination verb of the NPAij acquired in S7 matches the verb phrase VPi according to the alignment information. Determine (S8). For example, the modification destination of “with his wife” is the verb “attended” as shown in FIG. 8, and the sentence element of the alignment destination of this verb is “attend” as shown in FIG. Therefore, this verb phrase “attendance” does not match “accompanied” which is the verb phrase VP1, and the condition of S8 is not satisfied.

S8の条件を満たす場合、動詞Viは言い換え可能であるとは判断されず、S12に進んで要素リストNPLi内の次の要素に対する後続の処理が実行される。一方、S8の条件を満たさない場合、標本文1の動詞句VPiは、標本文2の要素NPAijと対応しており、動詞句VPiに含まれる動詞Viは、要素NPAijに含まれる付属語である前置詞の日本語訳で言い換え可能と推定される。そこで、対情報出力部22が、まず要素NPijの標本文1中における文法的役割GFijを取得する(S9)。例えばNP11の場合、文法的役割GF11は、図7に示すように「object」(目的格)なので、この情報が取得される。   If the condition of S8 is satisfied, the verb Vi is not determined to be paraphrased, and the process proceeds to S12, and the subsequent process for the next element in the element list NPLi is executed. On the other hand, when the condition of S8 is not satisfied, the verb phrase VPi of the sample sentence 1 corresponds to the element NPAij of the sample sentence 2, and the verb Vi included in the verb phrase VPi is an appendage included in the element NPAij. It is presumed that it can be paraphrased in the Japanese translation of the preposition. Therefore, the pair information output unit 22 first acquires the grammatical role GFij in the sample sentence 1 of the element NPij (S9). For example, in the case of NP11, since the grammatical role GF11 is “object” (objective) as shown in FIG. 7, this information is acquired.

さらに対情報出力部22は、動詞Viに対応する付属語である格助詞を特定するために、要素NPAijに含まれる前置詞PAiiと、要素NPAijの修飾先の動詞のアライメント先の動詞VAiとを用いて、前置詞翻訳処理を実行する(S10)。この処理の内容については後に説明するが、例えば要素NPA11(”with his wife”)の場合、前置詞PA11は”with”、動詞VA1は「出席する」であって、これらの情報を用いて前置詞翻訳処理を実行すると、前置詞”with”の訳語として「と」という格助詞が得られる。   Further, the pair information output unit 22 uses the preposition PAii included in the element NPAij and the verb VAi that is the alignment destination of the modified verb of the element NPAij in order to specify the case particle that is an appendix corresponding to the verb Vi. The preposition translation process is executed (S10). The contents of this process will be described later. For example, in the case of element NPA11 ("with his wife"), the preposition PA11 is "with" and the verb VA1 is "attend". When the process is executed, the case particle “to” is obtained as a translation of the preposition “with”.

これを受けて、対情報出力部22は、処理対象となっている動詞Viと、S10の前置詞翻訳処理で得られた格助詞と、S9で得られた文法的役割GFijとを、互いに関連づけて対情報として出力する(S11)。これまで挙げた例では、図3の変換規則テーブルの1行目に示されるように、動詞「伴う」と格助詞「と」が、目的格という文法的役割と関連づけられた対情報として出力される。   In response to this, the pair information output unit 22 associates the verb Vi to be processed, the case particle obtained by the preposition translation processing of S10, and the grammatical role GFij obtained in S9 with each other. It outputs as pair information (S11). In the examples given so far, as shown in the first line of the conversion rule table of FIG. 3, the verb “accompanied” and the case particle “to” are output as counter information associated with the grammatical role of the objective case. The

その後、文要素ペア抽出部21は、変数jに1を加算して(S12)、jの値がリストNPLiの要素数を超えたかを判定する(S13)。超えていなければ、まだ処理対象としていない要素がリストNPLiに含まれているので、S7に戻って次の要素NPijについて処理を続行する。逆に超えている場合、リストNPLiに含まれる全ての要素について処理を終えたことになるので、次は変数iに1を加算し(S14)、iの値が標本文1に含まれる動詞句VPの数を超えたかを判定する(S15)。超えていなければ、まだ処理対象としていない動詞句があるので、S5に戻って次の動詞句VPiについて処理を続行する。逆に超えていれば、全ての動詞句について処理を終えて、あらかじめ定められた条件を満足する動詞と格助詞の対情報を出力したことになるので、標本文1及び2を用いた対情報生成処理を完了する。   Thereafter, the sentence element pair extraction unit 21 adds 1 to the variable j (S12), and determines whether the value of j exceeds the number of elements in the list NPLi (S13). If not, since the list NPLi contains elements that are not yet processed, the process returns to S7 to continue the process for the next element NPij. On the other hand, if it exceeds, all the elements included in the list NPLi have been processed. Next, 1 is added to the variable i (S14), and the verb phrase in which the value of i is included in the sample sentence 1 It is determined whether the number of VPs has been exceeded (S15). If not, since there is a verb phrase that has not yet been processed, the process returns to S5 to continue the process for the next verb phrase VPi. On the contrary, if all the verb phrases are processed, the pair information of the verb and case particle satisfying the predetermined condition is output, so the pair information using the sample sentences 1 and 2 is output. Complete the generation process.

なお、動詞句VP2(「出席した」)が処理対象となる場合、当該動詞句VP2に含まれる動詞V2(「出席する」)の連用修飾成分は「パーティーに」だけなので、NPL2の要素は「パーティーに」1つだけである。当該要素NP21のアライメント先の文要素は”the party”であり、その修飾先は図8に示すように”attended”である。”attended”のアライメント先は”出席した”であり、動詞句VP2に一致する。そのため、要素NP11の場合と異なり、要素NP21の場合にはS8の判定において条件を満たすと判定される。その結果、動詞「出席する」は対情報にはならない。   Note that when the verb phrase VP2 (“attend”) is to be processed, the component of the verb V2 (“attend”) included in the verb phrase VP2 is only “to party”, so the element of NPL2 is “ Only one at a party. The alignment element of the element NP21 is “the party”, and the modification destination is “attended” as shown in FIG. The alignment destination of “attended” is “Attend” and matches the verb phrase VP2. Therefore, unlike the case of element NP11, in the case of element NP21, it is determined that the condition is satisfied in the determination of S8. As a result, the verb “attend” is not informative.

次に、前述したフローのS10における前置詞翻訳処理の流れの具体例について、図9のフロー図を用いて説明する。   Next, a specific example of the flow of preposition translation processing in S10 of the flow described above will be described with reference to the flowchart of FIG.

まず、対情報出力部22は、処理の入力として、英語の前置詞PPと、日本語の動詞Vとを取得する(S21)。例えば前述した要素NP11(「妻を」)の例では、要素NPA11(”with his wife”)に含まれる前置詞”with”と、当該要素NPA11の修飾先”attended”に対応した動詞「出席する」とが取得される。   First, the pair information output unit 22 acquires an English preposition PP and a Japanese verb V as input of processing (S21). For example, in the example of the element NP11 (“wife”) described above, the verb “attend” corresponding to the prefix “with” included in the element NPA11 (“with his wife”) and the modification destination “attended” of the element NPA11 is included. And are acquired.

次に対情報出力部22は、S21で取得した前置詞PPを対訳辞書に問い合わせて、前置詞PPの訳語の候補を含んだ訳語候補リストPPLを取得する(S22)。ここでは具体例として、前置詞”with”に対する訳語候補リストとして、「で」及び「と」の2つの格助詞からなるリストが得られたとする。   Next, the pair information output unit 22 inquires of the bilingual dictionary about the preposition PP acquired in S21, and acquires a translation word candidate list PPL including translation word candidates of the preposition PP (S22). Here, as a specific example, it is assumed that a list composed of two case particles “de” and “to” is obtained as a translation candidate list for the preposition “with”.

続いて対情報出力部22は、S21で取得した動詞Vを結合価辞書に問い合わせて、動詞Vが取り得る格フレームを取得する(S23)。ここで、結合価辞書は、動詞がどのような格フレーム(動詞を修飾する格要素の種類)とともに用いられるかを定義した辞書である。日本語における格フレームは、名詞に付属する格助詞の種類によって定義される。ここでは具体例として、動詞「出席する」の格フレームとして、「Nが」、「Nに」、及び「Nと」の3つが得られたとする。   Subsequently, the pair information output unit 22 inquires the valence dictionary for the verb V acquired in S21, and acquires a case frame that the verb V can take (S23). Here, the valence dictionary is a dictionary that defines what case frame (the type of case element that modifies the verb) is used with the verb. Case frames in Japanese are defined by the type of case particles attached to nouns. Here, as specific examples, it is assumed that three case frames “N”, “N”, and “N” are obtained as the case frames of the verb “attend”.

次に対情報出力部22は、変数nを1で初期化し(S24)、S22で取得した訳語候補リストPPLに含まれる各訳語候補について、順に以下の処理を繰り返し実行する。   Next, the pair information output unit 22 initializes the variable n with 1 (S24), and repeatedly executes the following processing in order for each translation word candidate included in the translation word candidate list PPL acquired in S22.

すなわち、まず対情報出力部22は、リストPPLのn番目の要素Tnが、S23で取得した格フレームに含まれるか否かを判定する(S25)。含まれていなければ、要素Tnを訳語候補とはせずに、S27の処理に進む。一方、含まれている場合には、要素Tnを前置詞PPの訳語として出力する(S26)。前述した”with”の例では、2番目の要素T2である「と」が動詞「出席する」の格フレームに含まれているので、格助詞「と」を”with”の訳語候補として出力する。   Specifically, the pair information output unit 22 first determines whether or not the nth element Tn of the list PPL is included in the case frame acquired in S23 (S25). If not included, the element Tn is not set as a translation candidate and the process proceeds to S27. On the other hand, if it is included, the element Tn is output as a translation of the preposition PP (S26). In the example of “with” described above, since the second element T2 “to” is included in the case frame of the verb “attend”, the case particle “to” is output as a translation candidate for “with”. .

その後、対情報出力部22は、変数nに1を加算して(S27)、変数nの値がリストPPLの要素数を超えたか否か判定する(S28)。超えていない場合には、S25に戻って次の要素Tnに対して処理を行う。超えていれば、リストPPLに含まれる全ての要素について処理を終えたことになるので、次の処理に進む。   Thereafter, the pair information output unit 22 adds 1 to the variable n (S27), and determines whether or not the value of the variable n exceeds the number of elements in the list PPL (S28). If not, the process returns to S25 to process the next element Tn. If it exceeds, the process has been completed for all elements included in the list PPL, and the process proceeds to the next process.

次に、対情報出力部22は、S26において1つ以上の訳語を出力したか否か判定する(S29)。1つ以上の訳語を出力している場合には、そのまま処理を終了する。一方、1つも条件を満たす要素Tnがなく、訳語を出力していない場合には、リストPPLに含まれる全ての要素を前置詞PPの訳語として出力して(S30)、処理を終了する。これは、格フレームに含まれる訳語が見いだせない場合でも、言い換えに用いられる可能性のある何らかの格助詞を訳語として出力するための処置である。   Next, the pair information output unit 22 determines whether or not one or more translated words have been output in S26 (S29). If one or more translated words are being output, the process ends. On the other hand, if there is no element Tn that satisfies one condition and no translation is output, all elements included in the list PPL are output as translations of the preposition PP (S30), and the process is terminated. This is a procedure for outputting as a translated word a case particle that may be used in other words even when a translated word included in the case frame cannot be found.

なお、これまでは対訳コーパスを用いた場合に対情報を生成する処理について説明したが、同じ言語で表現が異なる標本文ペアを用いる場合にも、図4及び図5に示すフローとほぼ同様の処理によって対情報が生成される。具体的には、この場合には図9に示す前置詞翻訳処理が不要となり、S10の処理が、単に要素NPAijに含まれる格助詞PAijを取得する処理に置き換えられる。そして、S11の処理では、動詞Viと、この格助詞PAijとが、対情報として出力されることになる。それ以外の処理は、図4及び図5に示すフローと同様の処理であってよい。   The processing for generating pair information when using a bilingual corpus has been described so far, but when using sample sentence pairs with different expressions in the same language, the flow is almost the same as the flow shown in FIGS. Pair information is generated by the processing. Specifically, in this case, the preposition translation process shown in FIG. 9 is not necessary, and the process of S10 is simply replaced with a process of acquiring a case particle PAij included in the element NPAij. In the process of S11, the verb Vi and the case particle PAij are output as pair information. Other processing may be the same processing as the flow shown in FIGS. 4 and 5.

次に、処理対象文取得部23、対情報取得部24、文要素特定部25、及び文変換処理部26が実行する言い換え処理の流れの具体例について、図10及び図11のフロー図を用いて説明する。   Next, a specific example of the flow of paraphrase processing executed by the processing target sentence acquisition unit 23, the pair information acquisition unit 24, the sentence element identification unit 25, and the sentence conversion processing unit 26 will be described with reference to the flowcharts of FIGS. I will explain.

まず、処理対象文取得部23が、処理対象文を取得する(S41)。次に、文要素特定部25が、S41で取得した処理対象文の構文意味解析を実行する(S42)。以下では一例として、「津波が起こってサーファーが溺れた」という日本語文を処理対象文とした言い換え処理について、説明する。図12は、この処理対象文に対して構文意味解析を行った結果の一例を示す図である。   First, the process target sentence acquisition unit 23 acquires a process target sentence (S41). Next, the sentence element specifying unit 25 executes syntax semantic analysis of the processing target sentence acquired in S41 (S42). Hereinafter, as an example, a description will be given of a paraphrase process in which a Japanese sentence “a tsunami has occurred and a surfer is drowned” is a sentence to be processed. FIG. 12 is a diagram illustrating an example of a result of performing syntax and semantic analysis on the processing target sentence.

次に、文要素特定部25は、処理対象文に含まれる全ての動詞を含んだリストVLを取得し(S43)、変数iを1、変数pを0で、それぞれ初期化する(S44)。その後は、動詞リストVLに含まれる各動詞について、以下に説明する処理が繰り返し実行される。なお、以下では動詞リストVLに含まれるi番目の動詞をViと表記する。前述の処理対象文の例では、V1は「起こる」でV2は「溺れる」である。   Next, the sentence element specifying unit 25 acquires a list VL including all the verbs included in the processing target sentence (S43), and initializes the variable i with 1 and the variable p with 0 (S44). Thereafter, the processing described below is repeatedly executed for each verb included in the verb list VL. In the following, the i-th verb included in the verb list VL is denoted as Vi. In the example of the processing target sentence described above, V1 is “occurs” and V2 is “drown”.

次に文要素特定部25は、動詞Viを修飾する名詞句NPiが1つかを判定する(S45)。2つ以上の名詞句NPiが動詞Viを修飾している場合、本実施形態に係る変換規則を用いて動詞Viを格助詞で言い換えることができないと考えられるので、S52に進んで次の動詞に対する処理が行われる。   Next, the sentence element specifying unit 25 determines whether there is one noun phrase NPi that modifies the verb Vi (S45). When two or more noun phrases NPi modify the verb Vi, it is considered that the verb Vi cannot be rephrased as a case particle using the conversion rule according to the present embodiment, so that the process proceeds to S52 and the next verb Processing is performed.

一方、動詞Viを修飾する名詞句NPiが1つの場合、文要素特定部25は動詞Viを含んだ対情報が存在するかを問い合わせる(S46)。この問い合わせを受けて、対情報取得部24は図3に例示するような変換規則テーブルを参照し、動詞Viに対応する対情報が存在するか判定する(S47)。存在しない場合、動詞Viの言い換えはできないと判断され、S52に進んで次の動詞に対する処理が行われる。存在する場合には、対情報取得部24は動詞Viと関連づけられた格助詞Ci及び文法的役割GFiの情報を変換規則テーブルから読み出して取得する(S48)。動詞V1(「起こる」)の場合、図3の変換規則テーブルから、格助詞Ciとして「で」が、文法的役割GFiとして「SUBJECT」(主格)を表す情報が、それぞれ取得される。   On the other hand, when there is one noun phrase NPi that modifies the verb Vi, the sentence element specifying unit 25 inquires whether there is pair information including the verb Vi (S46). In response to this inquiry, the pair information acquisition unit 24 refers to the conversion rule table illustrated in FIG. 3 and determines whether there is pair information corresponding to the verb Vi (S47). If it does not exist, it is determined that the verb Vi cannot be rephrased, and the process proceeds to S52 to process the next verb. If it exists, the pair information acquisition unit 24 reads and acquires information on the case particle Ci and the grammatical role GFi associated with the verb Vi from the conversion rule table (S48). In the case of the verb V1 (“occurs”), information indicating “de” as the case particle Ci and “SUBJECT” (major) as the grammatical role GFi is obtained from the conversion rule table of FIG.

次に、文要素特定部25は、S48で取得された文法的役割GFiが、処理対象文中における動詞Viを修飾する名詞句NPiの文法的役割と対応するか否かを判定する(S49)。判定の結果、文法的役割が相違する場合には、動詞Viの言い換えはできないと判断されるので、S52に進んで次の動詞に対する処理が行われる。一方、文法的役割が同じ場合には、動詞Viを含む動詞句VPiが言い換え対象の文要素として特定される。動詞V1の場合、これを修飾する名詞句NP1(「津波が」)の文法的役割は、図12に示すように構文意味解析によって「subject」(主格)であると特定されている。そのため、言い換え可能と判断されることになる。   Next, the sentence element specifying unit 25 determines whether or not the grammatical role GFi acquired in S48 corresponds to the grammatical role of the noun phrase NPi that modifies the verb Vi in the processing target sentence (S49). If the grammatical roles are different as a result of the determination, it is determined that the verb Vi cannot be rephrased, so the process proceeds to S52 and the process for the next verb is performed. On the other hand, when the grammatical roles are the same, the verb phrase VPi including the verb Vi is specified as a paraphrase target sentence element. In the case of the verb V1, the grammatical role of the noun phrase NP1 (“tsunami ga”) that modifies it is specified as “subject” (major) by syntactic and semantic analysis as shown in FIG. Therefore, it is determined that paraphrasing is possible.

これを受けて、文変換処理部26は、動詞句VPiと、これを修飾する名詞句NPiの末尾に存在する格助詞とを、S48で取得された格助詞Ciに置換する(S50)。動詞V1の場合、名詞句NP1に含まれる格助詞「が」と動詞句「起こって」が、格助詞「で」で置き換えられることになる。さらに文変換処理部26は、変数pに1を加算する(S51)。   In response to this, the sentence conversion processing unit 26 replaces the verb phrase VPi and the case particle existing at the end of the noun phrase NPi modifying the verb phrase VPi with the case particle Ci acquired in S48 (S50). In the case of the verb V1, the case particle “ga” and the verb phrase “occurs” included in the noun phrase NP1 are replaced with the case particle “de”. Further, the sentence conversion processing unit 26 adds 1 to the variable p (S51).

その後、文要素特定部25は、さらに他の動詞を言い換え処理の対象として処理を続行する必要があるかを判定する。具体的に、文要素特定部25は、変数pの値が動詞リストVLの要素数から1を減じた数以上かを判定する(S52)。ここで、変数pは言い換えを行った動詞の数を示すカウンタ変数として機能しており、S52の判定条件を満たす場合、処理対象文に含まれる1つの動詞を除いた他の動詞について言い換えが行われたことを示している。この場合、さらなる言い換え処理は不要と判断されるので、S55に進んで言い換え文の出力が行われる。一方、S52の判定条件が満たされない場合、変数iに1が加算され(S53)、変数iの値が動詞リストVLの要素数を超えたか否かが判定される(S54)。まだ変数iの値が動詞リストVLの要素数を超えていなければ、S45に戻って次の動詞Viについて言い換え対象とするか否かを判定する処理が行われる。超えている場合、次のS55の処理に進む。   Thereafter, the sentence element specifying unit 25 determines whether or not it is necessary to continue the process with another verb as a target of the paraphrase process. Specifically, the sentence element specifying unit 25 determines whether the value of the variable p is equal to or greater than the number obtained by subtracting 1 from the number of elements in the verb list VL (S52). Here, the variable p functions as a counter variable indicating the number of verbs that have undergone paraphrasing. When the determination condition of S52 is satisfied, paraphrasing is performed for other verbs excluding one verb included in the processing target sentence. It shows that it was broken. In this case, since it is determined that further paraphrase processing is unnecessary, the process proceeds to S55 and a paraphrase text is output. On the other hand, when the determination condition of S52 is not satisfied, 1 is added to the variable i (S53), and it is determined whether or not the value of the variable i exceeds the number of elements in the verb list VL (S54). If the value of the variable i has not exceeded the number of elements in the verb list VL, the process returns to S45 to determine whether or not the next verb Vi is to be paraphrased. If exceeded, the process proceeds to the next step S55.

最後に、文変換処理部26は、S50で文字列置換を行って生成された言い換え文を出力する(S55)。前述した処理対象文の例では、「が起こって」が「で」に置換される結果、言い換え文として「津波でサーファーが溺れた」という文が出力されて、言い換え処理が終了する。   Finally, the sentence conversion processing unit 26 outputs the paraphrase sentence generated by performing the character string replacement in S50 (S55). In the example of the processing target sentence described above, as a result of replacing “occurs” with “de”, a sentence “surfer drowned in the tsunami” is output as the paraphrase sentence, and the paraphrase process ends.

なお、以上の説明においては動詞と格助詞の対情報を用いて言い換え処理が行われることとしたが、本発明の実施の形態はこのようなものに限られない。また、以上の説明においては対訳コーパスとして日本語と英語の対訳を含んだコーパスを用いて標本文ペアを取得することとしたが、これ以外にも、各種の言語の対訳コーパスを利用して標本文ペアを取得してよい。   In the above description, the paraphrasing process is performed using the pair information of the verb and the case particle, but the embodiment of the present invention is not limited to this. In the above description, a sample sentence pair is obtained using a corpus that includes Japanese and English translations as a bilingual corpus. However, other than this, a bilingual corpus of various languages is used as a standard. You may get a body pair.

また、以上の説明においては、一つの情報処理装置1が対情報生成処理と言い換え処理の双方を実行することとしたが、これらの処理はそれぞれ独立した情報処理装置によって実行されることとしてもよい。例えばある情報処理装置が対訳コーパス等を用いて対情報を含んだ変換規則テーブルを生成し、これとは別の情報処理装置が、こうして生成された変換規則テーブルを参照して処理対象文の言い換え処理を実行してもよい。   In the above description, one information processing apparatus 1 executes both the pair information generation process and the paraphrase process. However, these processes may be executed by independent information processing apparatuses. . For example, an information processing device generates a conversion rule table including pair information using a bilingual corpus, etc., and another information processing device refers to the generated conversion rule table to rephrase the processing target sentence Processing may be executed.

1 情報処理装置、11 制御部、12 記憶部、13 操作部、14 表示部、21 文要素ペア抽出部、22 対情報出力部、23 処理対象文取得部、24 対情報取得部、25 文要素特定部、26 文変換処理部。   DESCRIPTION OF SYMBOLS 1 Information processing apparatus, 11 Control part, 12 Storage part, 13 Operation part, 14 Display part, 21 Sentence element pair extraction part, 22 Pair information output part, 23 Process target sentence acquisition part, 24 Pair information acquisition part, 25 Sentence element Specific part, 26 sentence conversion processing part.

Claims (5)

互いに対応する意味を持つ第1文及び第2文の2つの文と、当該2つの文の間で意味が対応する文要素同士を関連づける文要素関連情報と、を取得する手段と、
前記取得される2つの文から、前記第1文中において動詞を含む第1文要素と、前記文要素関連情報によって前記動詞を修飾する文要素に関連づけられた、前記第2文中において付属語を含む第2文要素の組を抽出する文要素抽出手段と、
前記第2文要素が修飾する動詞が、前記文要素関連情報によって前記第1文要素に含まれる動詞と関連づけられているか否かを判定し、関連づけられていない場合に、前記第1文要素に含まれる動詞と、当該動詞を修飾する文要素の文法的役割と、前記第2文要素に含まれる付属語に対応する格助詞とを、言い換え可能な動詞と格助詞の対情報として出力する対情報出力手段と、
を含むことを特徴とする情報処理装置。
Means for acquiring two sentences of a first sentence and a second sentence having meanings corresponding to each other, and sentence element related information associating sentence elements corresponding to meanings between the two sentences;
A first sentence element including a verb in the first sentence from the two acquired sentences, and an appendix in the second sentence associated with a sentence element that modifies the verb by the sentence element related information. Sentence element extraction means for extracting a set of second sentence elements;
It is determined whether or not the verb to be modified by the second sentence element is associated with the verb included in the first sentence element based on the sentence element related information. a verb contains the grammatical role of sentence elements for modifying the verb, a case particle corresponding to accessory word contained in the second sentence elements, pairs of output as pairs information paraphrase possible verbs and case particle Information output means;
An information processing apparatus comprising:
前記第1文は第1言語、前記第2文は当該第1言語とは異なる第2言語で記述された文であって
記対情報出力手段は、前記付属語を前記第1言語に翻訳して得られる格助詞を、前記第1文要素に含まれる動詞とともに対情報として出力する
ことを特徴とする請求項1記載の情報処理装置。
The first sentence is a first language, and the second sentence is a sentence written in a second language different from the first language ,
Before Symbol pair information output means, according to claim 1, wherein the outputting the accessory words a case particle obtained by translating the first language, as a counter information together with the verb contained in the first sentence element Information processing equipment.
前記対情報出力手段は、前記第1言語で記述された文に含まれる動詞であって、前記第1文要素に含まれる動詞とは別の動詞について、当該動詞を修飾する格要素に用いられる格助詞の候補を取得し、前記第2文要素に含まれる付属語を前記第1言語に翻訳する際の候補となる格助詞のうち、前記取得した格助詞の候補と対応する格助詞を、前記対情報として出力する
ことを特徴とする請求項2記載の情報処理装置。
The pair information output means is a verb included in a sentence described in the first language, and is used as a case element that modifies the verb for a verb different from the verb included in the first sentence element. A case particle corresponding to the acquired case particle candidate is obtained from among the case particles that are candidates for acquiring a case particle candidate and translating the ancillary word included in the second sentence element into the first language. The information processing apparatus according to claim 2, wherein the information processing apparatus outputs the pair information .
言い換え可能な動詞と格助詞の対情報であって、当該言い換え可能な動詞を修飾する文要素の文中における文法的役割が関連づけられた対情報を取得する対情報取得手段と、
処理対象文に含まれる文要素のうち、前記取得される対情報を構成する動詞を含み、当該動詞を修飾する文要素の文中における文法的役割が、前記対情報に関連づけられた文法的役割と対応している文要素を特定する文要素特定手段と、
前記特定される文要素に含まれる動詞、及び、当該動詞を修飾する文要素に含まれる格助詞の組を、前記対情報において言い換え可能な動詞と対応付けられた格助詞に置換することによって、前記処理対象文を対応する意味を持つ別の文に変換する文変換手段と、
を含むことを特徴とする情報処理装置。
A pair information acquisition means for acquiring pair information of paraphrasable verbs and case particles , wherein the pair information is associated with a grammatical role in a sentence of a sentence element that modifies the paraphrasable verb;
Of the sentence elements included in the processing target sentence includes verbs which constitute the pair information the acquired grammatical role in the context of sentence elements for modifying the verb, the grammatical role associated with said pair information A sentence element identification means for identifying a corresponding sentence element;
By substituting a verb included in the specified sentence element and a case particle included in a sentence element that modifies the verb with a case particle associated with a paraphrasable verb in the paired information, Sentence conversion means for converting the processing target sentence into another sentence having a corresponding meaning;
An information processing apparatus comprising:
互いに対応する意味を持つ第1文及び第2文の2つの文と、当該2つの文の間で意味が対応する文要素同士を関連づける文要素関連情報と、を取得する手段、
前記取得される2つの文から、前記第1文中において動詞を含む第1文要素と、前記文要素関連情報によって前記動詞を修飾する文要素に関連づけられた、前記第2文中において付属語を含む第2文要素の組を抽出する文要素抽出手段、及び、
前記第2文要素が修飾する動詞が、前記文要素関連情報によって前記第1文要素に含まれる動詞と関連づけられているか否かを判定し、関連づけられていない場合に、前記第1文要素に含まれる動詞と、当該動詞を修飾する文要素の文法的役割と、前記第2文要素に含まれる付属語に対応する格助詞とを、言い換え可能な動詞と格助詞の対情報として出力する対情報出力手段、
としてコンピュータを機能させるためのプログラム。

Means for acquiring two sentences of a first sentence and a second sentence having meanings corresponding to each other, and sentence element related information for associating sentence elements corresponding to meanings between the two sentences;
A first sentence element including a verb in the first sentence from the two acquired sentences, and an appendix in the second sentence associated with a sentence element that modifies the verb by the sentence element related information. Sentence element extraction means for extracting a set of second sentence elements; and
It is determined whether or not the verb to be modified by the second sentence element is associated with the verb included in the first sentence element based on the sentence element related information. a verb contains the grammatical role of sentence elements for modifying the verb, a case particle corresponding to accessory word contained in the second sentence elements, pairs of output as pairs information paraphrase possible verbs and case particle Information output means,
As a program to make the computer function as.

JP2009152581A 2009-06-26 2009-06-26 Information processing apparatus and program Expired - Fee Related JP5387166B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009152581A JP5387166B2 (en) 2009-06-26 2009-06-26 Information processing apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009152581A JP5387166B2 (en) 2009-06-26 2009-06-26 Information processing apparatus and program

Publications (2)

Publication Number Publication Date
JP2011008602A JP2011008602A (en) 2011-01-13
JP5387166B2 true JP5387166B2 (en) 2014-01-15

Family

ID=43565161

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009152581A Expired - Fee Related JP5387166B2 (en) 2009-06-26 2009-06-26 Information processing apparatus and program

Country Status (1)

Country Link
JP (1) JP5387166B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2022123637A1 (en) * 2020-12-07 2022-06-16

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3141912B2 (en) * 1994-05-11 2001-03-07 日本電信電話株式会社 Prosody information determination method for speech synthesis
JP3692711B2 (en) * 1997-06-11 2005-09-07 ブラザー工業株式会社 Machine translation device

Also Published As

Publication number Publication date
JP2011008602A (en) 2011-01-13

Similar Documents

Publication Publication Date Title
US8131536B2 (en) Extraction-empowered machine translation
WO2010046782A2 (en) Hybrid machine translation
US20040254783A1 (en) Third language text generating algorithm by multi-lingual text inputting and device and program therefor
US20150081273A1 (en) Machine translation apparatus and method
Almansor et al. Transferring informal text in Arabic as low resource languages: state-of-the-art and future research directions
JP2007241764A (en) Syntax analysis program, syntax analysis method, syntax analysis device, and computer-readable recording medium on which syntax analysis program is recorded
Sreedeepa et al. Interlingua based Sanskrit-English machine translation
JP5387166B2 (en) Information processing apparatus and program
JP4007413B2 (en) Natural language processing system, natural language processing method, and computer program
Matan et al. A neuro-symbolic AI approach for translating children’s stories from English to Tamil with emotional paraphrasing
JP4869281B2 (en) Machine translation apparatus, program and method
Torjmen et al. Construction of morphological grammars for the Tunisian dialect
JP5528376B2 (en) Document simplifying apparatus and program
Attri et al. The Machine Translation Systems Demystifying the Approaches
JP2022119430A (en) Program, device and method for inferring sentences considering unknown words
Wu et al. On pronunciations in Wiktionary: Extraction and experiments on multilingual syllabification and stress prediction
JP2004318344A (en) System and method for machine translation and computer program
JP2011186507A (en) System, method and program for generating rephrasing rule before translation
Chiang et al. The hidden TAG model: synchronous grammars for parsing resource-poor languages
JP2007087157A (en) Translation system, translation device, translation method, and program
Ahmadnia et al. Augmented spanish-persian neural machine translation [augmented spanish-persian neural machine translation]
JP3972697B2 (en) Natural language processing system, natural language processing method, and computer program
MR Role of Natural Language Processing and Machine Learning on (MTS)-Machine Translation System for Indian Languages: A Review.
JP5746921B2 (en) Machine translation apparatus, method and program
Ahmadnia et al. Augmented Spanish-Persian Neural Machine Translation.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120518

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130618

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130814

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130910

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130923

R150 Certificate of patent or registration of utility model

Ref document number: 5387166

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees