JP2012113422A - Document processing apparatus, method and program - Google Patents
Document processing apparatus, method and program Download PDFInfo
- Publication number
- JP2012113422A JP2012113422A JP2010260265A JP2010260265A JP2012113422A JP 2012113422 A JP2012113422 A JP 2012113422A JP 2010260265 A JP2010260265 A JP 2010260265A JP 2010260265 A JP2010260265 A JP 2010260265A JP 2012113422 A JP2012113422 A JP 2012113422A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- new information
- similarity
- article
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、文書処理装置、方法、及びプログラムに係り、特に、2つの異なる言語で記述された文章を比較して、一方の文章から他方の文章には含まれない新しい情報を抽出する文書処理装置、方法、及びプログラムに関する。 The present invention relates to a document processing apparatus, method, and program, and in particular, document processing for comparing sentences written in two different languages and extracting new information not included in the other sentence from one sentence. The present invention relates to an apparatus, a method, and a program.
近年、ウィキペディアに代表されるようなウェブ上のフリー百科事典が注目されている。ウィキペディアでは、共同執筆システムが採用されており、大勢の編集者の協力によって記事が記述され、1つの記事について複数の言語版が存在し、各々の言語版の記事が異なるユーザグループによって維持されている。そのため、これらの異なる言語版の記事は、同一の項目に関する記事であっても必ずしも同じ内容が記載されているとは限らない。そこで、編集者はある言語版での記事が正しいまたは最新の情報によって構成されていることを確保するために、他の言語版の記事から情報を取得する場合がある。 In recent years, free encyclopedias on the web such as Wikipedia have attracted attention. Wikipedia employs a co-authoring system where articles are described with the help of many editors, and there are multiple language versions of an article, with each language version maintained by a different group of users. Yes. For this reason, these different language versions of the articles do not necessarily have the same content even if they are articles related to the same item. Thus, an editor may obtain information from articles in other language versions in order to ensure that articles in one language version are composed of correct or latest information.
このような共同執筆システムの編集者を支援するために、いくつかのシステムが提案されている。例えば、ウィキペディア内の異なる言語版のinfoboxesをマッチングするシステムが提案されている(非特許文献1参照)。また、記事の階層構造を考慮して、既存のテキストに新しい情報を挿入するアルゴリズムが提案されている(非特許文献2参照)。また、ウェブ上の情報を収集して、簡単なウィキペディアの記事を自動的に生成する手法が提案されている(非特許文献3参照)。 Several systems have been proposed to assist editors of such co-writing systems. For example, a system for matching different language versions of infoboxes in Wikipedia has been proposed (see Non-Patent Document 1). Also, an algorithm for inserting new information into existing text in consideration of the hierarchical structure of articles has been proposed (see Non-Patent Document 2). In addition, a method for collecting information on the web and automatically generating a simple Wikipedia article has been proposed (see Non-Patent Document 3).
しかしながら、非特許文献1に記載された技術は、infoboxesという予め定められた形式の項目を扱う技術であり、記事のテキストに適用することができない、という問題がある。
However, the technique described in Non-Patent
また、非特許文献2及び3に記載された技術では、単一の言語の記事のみを対象としており、異なる言語で記述された記事について考慮されていない、という問題がある。 Further, the techniques described in Non-Patent Documents 2 and 3 have a problem that only articles in a single language are targeted, and articles written in different languages are not considered.
本発明は上記問題点に鑑みてなされたものであり、異なる言語で記述された文章を比較して、一方の文章から他方の文章には含まれない新しい情報を自動的に抽出することにより、共同支援システムにより記述された記事の編集者を支援することができる文章処理装置、方法、及びプログラムを提供することを目的とする。 The present invention has been made in view of the above problems, by comparing sentences written in different languages, and automatically extracting new information not included in the other sentence from one sentence, It is an object of the present invention to provide a text processing apparatus, method, and program capable of supporting an editor of an article described by a joint support system.
上記目的を達成するために、本発明の文章処理装置は、同一の言語で記述された2種類の文章が得られるように、第1の言語で記述された1または複数の文を含む第1の文章を翻訳した第3の文章、及び前記第1の言語と異なる第2の言語で記述された1または複数の文を含む第2の文章を翻訳した第4の文章のいずれか一方または双方を得る翻訳手段と、前記翻訳手段により第3の文章を得た場合には、前記第3の文章に含まれる各文と、前記第2の文章に含まれる各文または前記翻訳手段により得た第4の文章に含まれる各文との類似度を、前記第3の文章に含まれる各文と、前記第2の文章に含まれる各文または前記第4の文章に含まれる各文との全ての組み合わせについて計算し、前記翻訳手段により第3の文章を得なかった場合には、前記第1の文章に含まれる各文と、前記第4の文章に含まれる各文との類似度を、前記第1の文章に含まれる各文と前記第4の文章に含まれる各文との全ての組み合わせについて計算する類似度計算手段と、前記翻訳手段により第3の文章を得た場合には、前記第3の文章の各文について、前記類似度計算手段により計算された類似度が最大となる最大類似度を求め、該最大類似度が所定の閾値以下となる前記第3の文章の文に対応する前記第1の文章の文を、前記第2の文章に含まれていない新しい情報を含む文として抽出し、前記翻訳手段により第3の文章を得なかった場合には、前記第1の文章の各文について、前記最大類似度を求め、該最大類似度が所定の閾値以下となる前記第1の文章の文を、前記第2の文章に含まれていない新しい情報を含む文として抽出する新情報抽出手段と、を含んで構成されている。 In order to achieve the above object, a sentence processing apparatus according to the present invention includes a first sentence including one or more sentences written in a first language so that two kinds of sentences written in the same language can be obtained. One or both of the third sentence translated from the first sentence and the fourth sentence translated from the second sentence including one or more sentences described in a second language different from the first language And when the third sentence is obtained by the translation means, each sentence included in the third sentence and each sentence included in the second sentence or obtained by the translation means The degree of similarity with each sentence included in the fourth sentence is determined by comparing each sentence included in the third sentence with each sentence included in the second sentence or each sentence included in the fourth sentence. When all combinations are calculated and the third sentence is not obtained by the translation means The similarity between each sentence included in the first sentence and each sentence included in the fourth sentence indicates the degree of similarity between each sentence included in the first sentence and each sentence included in the fourth sentence. Similarity calculation means for calculating all combinations with the above, and when the third sentence is obtained by the translation means, the similarity calculated by the similarity calculation means for each sentence of the third sentence The maximum similarity is calculated so that the maximum similarity is not more than a predetermined threshold, and the sentence of the first sentence corresponding to the sentence of the third sentence whose maximum similarity is not more than a predetermined threshold is not included in the second sentence When the sentence is extracted as a sentence including new information and the third sentence is not obtained by the translation unit, the maximum similarity is obtained for each sentence of the first sentence, and the maximum similarity is a predetermined threshold value. The sentence of the first sentence that is the following is not included in the second sentence It is configured to include the new information extraction means, the extracting as a statement that contains the new information.
本発明の文章処理装置によれば、まず、翻訳手段が、同一の言語で記述された2種類の文章が得られるように、第1の言語で記述された複数の文を含む第1の文章を翻訳した第3の文章、及び第1の言語と異なる第2の言語で記述された複数の文を含む第2の文章を翻訳した第4の文章のいずれか一方または双方を得る。そして、類似度計算手段が、翻訳手段により第3の文章を得た場合、すなわち第1の文章を翻訳した場合には、第3の文章に含まれる各文と、第2の文章に含まれる各文または翻訳手段により得た第4の文章に含まれる各文との類似度を、第3の文章に含まれる各文と、第2の文章に含まれる各文または第4の文章に含まれる各文との全ての組み合わせについて計算する。また、翻訳手段により第3の文章を得なかった場合、すなわち第1の文章を翻訳しなかった場合には、第1の文章に含まれる各文と、第4の文章に含まれる各文との類似度を、第1の文章に含まれる各文と第4の文章に含まれる各文との全ての組み合わせについて計算する。 According to the sentence processing apparatus of the present invention, first, the translation means includes a first sentence including a plurality of sentences described in the first language so that two kinds of sentences described in the same language can be obtained. One or both of the third sentence translated from, and the fourth sentence translated from the second sentence including a plurality of sentences described in a second language different from the first language are obtained. When the similarity calculation unit obtains the third sentence by the translation unit, that is, when the first sentence is translated, each sentence included in the third sentence and the second sentence are included. Similarity between each sentence or each sentence included in the fourth sentence obtained by the translation means is included in each sentence included in the third sentence and each sentence or fourth sentence included in the second sentence Calculate for all combinations with each sentence. Further, when the third sentence is not obtained by the translation means, that is, when the first sentence is not translated, each sentence included in the first sentence, each sentence included in the fourth sentence, Are calculated for all combinations of each sentence included in the first sentence and each sentence included in the fourth sentence.
次に、新情報抽出手段が、翻訳手段により第3の文章を得た場合には、第3の文章の各文について、類似度計算手段により計算された類似度が最大となる最大類似度を求め、該最大類似度が所定の閾値以下となる第3の文章の文に対応する第1の文章の文を、第2の文章に含まれていない新しい情報を含む文として抽出し、翻訳手段により第3の文章を得なかった場合には、第1の文章の各文について、最大類似度を求め、該最大類似度が所定の閾値以下となる第1の文章の文を、第2の文章に含まれていない新しい情報を含む文として抽出する。 Next, when the new information extraction unit obtains the third sentence by the translation unit, the maximum similarity that maximizes the similarity calculated by the similarity calculation unit is obtained for each sentence of the third sentence. Obtaining a sentence of the first sentence corresponding to the sentence of the third sentence having the maximum similarity equal to or less than a predetermined threshold as a sentence including new information not included in the second sentence; If the third sentence is not obtained by the above, the maximum similarity is obtained for each sentence of the first sentence, and the sentence of the first sentence in which the maximum similarity is equal to or less than a predetermined threshold value is obtained. Extracted as a sentence containing new information not included in the sentence.
このように、異なる言語で記述された文章のいずれか一方または双方を翻訳して、同一の言語で記述された2種類の文章を得て、同一の言語となった2種類の文章の各々の各文の類似度を全ての組み合わせについて計算し、類似度が最大となる最大類似度が所定の閾値以下となる第3の文章に対応する第1の文章の文、または第1の文章の文を、第2の文章に含まれていない新しい情報を含む文として自動的に抽出することにより、共同支援システムにより記述された記事の編集者を支援することができる。 In this way, one or both of sentences written in different languages are translated to obtain two kinds of sentences written in the same language, and each of the two kinds of sentences in the same language is obtained. The similarity of each sentence is calculated for all combinations, and the sentence of the first sentence or the sentence of the first sentence corresponding to the third sentence whose maximum similarity is the predetermined threshold value or less. Is automatically extracted as a sentence including new information that is not included in the second sentence, so that the editor of the article described by the joint support system can be supported.
また、本発明の文章処理装置は、前記第1の文章の各文から特徴を抽出する特徴抽出手段と、前記特徴抽出手段により抽出された前記第1の文章の各文の特徴の各々と、該第1の文章の各文の前記新情報抽出手段による抽出結果とを用いて、前記第1の文章の各文の特徴に基づいて、該第1の文章の各文が新しい情報を含むか否かを識別するための分類器を学習する分類器学習手段と、前記分類器学習手段により学習された分類器に前記第1の文章の各文を入力して得られる識別結果に基づいて、前記新しい情報を含む文を再抽出する再抽出手段と、をさらに含んで構成することができる。これにより、新しい情報を含む文の抽出精度を向上させることができる。 The sentence processing apparatus of the present invention includes a feature extraction unit that extracts a feature from each sentence of the first sentence, each feature of each sentence of the first sentence extracted by the feature extraction unit, Whether each sentence of the first sentence contains new information based on the feature of each sentence of the first sentence using the extraction result of each sentence of the first sentence by the new information extraction unit Based on the classification result obtained by inputting each sentence of the first sentence to the classifier learned by the classifier learning means, classifier learning means for learning a classifier for identifying whether or not, Re-extracting means for re-extracting a sentence including the new information. Thereby, the extraction precision of the sentence containing new information can be improved.
また、本発明の文章処理装置は、前記第1の文章及び前記第2の文章の各文を表すノードと、各ノード間の関係を該各ノード間の類似度に応じた重みを付したエッジとを有するグラフを生成し、前記第1の文章の各文に対応したノードに、前記新しい情報を含む文か否かに基づくラベルを付与し、前記グラフを用いたラベル伝播法により得られる前記第2の文章の各文に対応したノードに付与されるラベルに基づいて、前記新しい情報を含む文に対応するノードに付与されたラベルに最も近いラベルが付与されたノードに対応する前記第2の文章の文の前または後を、前記新しい情報を含む文を挿入する位置として決定する決定手段をさらに含んで構成することができる。このように、新しい文章を挿入するのに適した位置を自動的に決定することにより、共同支援システムにより記述された記事の編集者を支援することができる。 Further, the sentence processing apparatus of the present invention includes a node representing each sentence of the first sentence and the second sentence, and an edge to which a relationship between the nodes is weighted according to a similarity between the nodes. And a label based on whether or not the sentence includes the new information is given to a node corresponding to each sentence of the first sentence, and the label obtained by the label propagation method using the graph The second corresponding to the node given the label closest to the label given to the node corresponding to the sentence containing the new information based on the label given to the node corresponding to each sentence of the second sentence It is possible to further comprise determining means for determining before or after the sentence of the sentence as a position to insert the sentence including the new information. Thus, by automatically determining a position suitable for inserting a new sentence, it is possible to assist the editor of the article described by the joint support system.
また、本発明の文章処理方法は、同一の言語で記述された2種類の文章が得られるように、第1の言語で記述された1または複数の文を含む第1の文章を翻訳した第3の文章、及び前記第1の言語と異なる第2の言語で記述された1または複数の文を含む第2の文章を翻訳した第4の文章のいずれか一方または双方を得、前記第3の文章を得た場合には、前記第3の文章に含まれる各文と、前記第2の文章に含まれる各文または前記第4の文章に含まれる各文との類似度を、前記第3の文章に含まれる各文と、前記第2の文章に含まれる各文または前記第4の文章に含まれる各文との全ての組み合わせについて計算し、前記第3の文章を得なかった場合には、前記第1の文章に含まれる各文と、前記第4の文章に含まれる各文との類似度を、前記第1の文章に含まれる各文と前記第4の文章に含まれる各文との全ての組み合わせについて計算し、前記第3の文章を得た場合には、前記第3の文章の各文について、類似度が最大となる最大類似度を求め、該最大類似度が所定の閾値以下となる前記第3の文章の文に対応する前記第1の文章の文を、前記第2の文章に含まれていない新しい情報を含む文として抽出し、前記第3の文章を得なかった場合には、前記第1の文章の各文について、前記最大類似度を求め、該最大類似度が所定の閾値以下となる前記第1の文章の文を、前記第2の文章に含まれていない新しい情報を含む文として抽出する方法である。 Further, the sentence processing method of the present invention translates the first sentence including one or more sentences described in the first language so that two kinds of sentences described in the same language can be obtained. 3 or a fourth sentence translated from a second sentence including one or more sentences described in a second language different from the first language, and the third sentence Is obtained, the degree of similarity between each sentence included in the third sentence and each sentence included in the second sentence or each sentence included in the fourth sentence is expressed as When all the combinations of each sentence included in the third sentence and each sentence included in the second sentence or each sentence included in the fourth sentence are calculated and the third sentence is not obtained Includes the similarity between each sentence included in the first sentence and each sentence included in the fourth sentence, When all the combinations of each sentence included in the first sentence and each sentence included in the fourth sentence are calculated and the third sentence is obtained, each sentence of the third sentence For the above, the maximum similarity that maximizes the similarity is obtained, and the sentence of the first sentence corresponding to the sentence of the third sentence that has the maximum similarity equal to or less than a predetermined threshold is set as the second sentence. When it is extracted as a sentence including new information that is not included and the third sentence is not obtained, the maximum similarity is obtained for each sentence of the first sentence, and the maximum similarity is a predetermined value. In this method, a sentence of the first sentence that is equal to or less than a threshold is extracted as a sentence including new information that is not included in the second sentence.
また、本発明の文章処理方法は、さらに、前記第1の文章の各文から特徴を抽出し、抽出された前記第1の文章の各文の特徴の各々と、該第1の文章の各文が新しい情報を含むか否かを示す抽出結果とを用いて、前記第1の文章の各文の特徴に基づいて、該第1の文章の各文が新しい情報を含むか否かを識別するための分類器を学習し、学習された分類器に前記第1の文章の各文を入力して得られる識別結果に基づいて、前記新しい情報を含む文を再抽出するようにしてもよい。 The sentence processing method of the present invention further extracts features from each sentence of the first sentence, and extracts each feature of each sentence of the first sentence and each of the first sentence. Identify whether each sentence of the first sentence contains new information based on the characteristics of each sentence of the first sentence using an extraction result indicating whether the sentence contains new information A classifier for learning may be learned, and a sentence including the new information may be re-extracted based on an identification result obtained by inputting each sentence of the first sentence to the learned classifier. .
また、本発明の文章処理方法は、さらに、前記第1の文章及び前記第2の文章の各文を表すノードと、各ノード間の関係を該各ノード間の類似度に応じた重みを付したエッジとを有するグラフを生成し、前記第1の文章の各文に対応したノードに、前記新しい情報を含む文か否かに基づくラベルを付与し、前記グラフを用いたラベル伝播法により得られる前記第2の文章の各文に対応したノードに付与されるラベルに基づいて、前記新しい情報を含む文に対応するノードに付与されたラベルに最も近いラベルが付与されたノードに対応する前記第2の文章の文の前または後を、前記新しい情報を含む文を挿入する位置として決定するようにしてもよい。 Further, the sentence processing method of the present invention further assigns a weight corresponding to the degree of similarity between the nodes and the node representing each sentence of the first sentence and the second sentence. And a label based on whether or not the sentence includes the new information is assigned to a node corresponding to each sentence of the first sentence, and is obtained by a label propagation method using the graph. Based on the label given to the node corresponding to each sentence of the second sentence, the node corresponding to the node assigned the label closest to the label given to the node corresponding to the sentence containing the new information You may make it determine before or after the sentence of a 2nd sentence as a position which inserts the sentence containing the said new information.
また、本発明の文章処理プログラムは、コンピュータを、上記の文章処理装置を構成する各手段として機能させるためのプログラムである。 The sentence processing program of the present invention is a program for causing a computer to function as each means constituting the sentence processing apparatus.
以上説明したように、本発明の文章処理装置、方法、及びプログラムによれば、異なる言語で記述された文章を同一の言語に翻訳し、第1の翻訳文章の各文と第2の翻訳文章の各文との類似度を全ての組み合わせについて計算し、類似度が最大となる最大類似度が所定の閾値以下となる第1の翻訳文章の文に対応する第1の文章の文を、第2の文章に含まれていない新しい情報を含む文として自動的に抽出することにより、共同支援システムにより記述された記事の編集者を支援することができる、という効果が得られる。 As described above, according to the sentence processing apparatus, method, and program of the present invention, sentences described in different languages are translated into the same language, and each sentence of the first translated sentence and the second translated sentence are translated. Similarity with each sentence is calculated for all combinations, and the sentence of the first sentence corresponding to the sentence of the first translation sentence in which the maximum similarity that maximizes the similarity is equal to or less than a predetermined threshold is By automatically extracting as a sentence including new information that is not included in the second sentence, it is possible to support the editor of the article described by the joint support system.
以下、図面を参照して本発明の実施の形態を詳細に説明する。第1の実施の形態では、英語で記述された記事と中国語で記述された記事とを比較して、英語で記述された記事(第1の文章)から中国語で記述された記事(第2の文章)に含まれていない新しい情報を含む文を抽出して、中国語で記述された記事の適切な位置に新しい情報を含む文を挿入する適切な位置を決定する場合について説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In the first embodiment, an article written in Chinese is compared with an article written in English (first sentence) by comparing an article written in English with an article written in Chinese. A case will be described in which a sentence including new information not included in the second sentence) is extracted and an appropriate position for inserting a sentence including new information at an appropriate position of an article written in Chinese is described.
第1の実施の形態に係る文章処理装置10は、CPUと、RAMと、後述する文章処理ルーチンを実行するためのプログラムを記憶したROMと、を備えたコンピュータで構成されている。また、記憶手段としてのHDDを含んで構成するようにしてもよい。コンピュータは、機能的には、図1に示すように、データ読込部12と、新情報識別部20と、情報挿入位置探索部40と、を含んだ構成で表すことができる。
The
データ読込部12は、英語で記述された記事、及び中国語で記述された記事を、内部または外部の記憶装置から読み込む。または、外部装置に記憶された記事を、ネットワークを介して読み込むようにしてもよい。ここで読み込まれた英語で記述された記事は、L個の文(e1、e2、・・・、eL)から構成された文章であり、中国語で記述された記事は、M個の文(c1、c2、・・・、cM)から構成された文章であるものとする。
The
新情報識別部20は、さらに、前処理部22と、機械翻訳部24と、類似度計算部26と、フラグ付与部28と、を含んだ構成で表すことができる。
The new
前処理部22は、英語で記述された記事(第1の文章)及び中国語で記述された記事(第2の文章)の各々に対して、セクションや段落を認識する処理や語幹処理等の前処理を施す。
The
機械翻訳部24は、前処理が施された英語で記述された記事及び中国語で記述された記事のいずれか一方または双方を翻訳することにより、同一の言語で記述された2種類の記事を得る。なお、翻訳後の言語は、読み込んだ記事の言語のいずれか(英語または中国語)でもよいし、読み込んだ記事の言語とは異なる第三の言語としてもよい。例えば、翻訳後の言語を英語とした場合は、中国語で記述された記事(第2の文章)のみを英語に翻訳する。これにより、英語で記述された記事(第1の文章)と中国語で記述された記事を翻訳した記事(第4の文章)とが同一の言語(英語)で記述された記事となる。同様に、翻訳後の言語を中国語とした場合は、英語で記述された記事(第1の文章)のみを中国語に翻訳する。これにより、英語で記述された記事を翻訳した記事(第3の文章)と中国語で記述された記事(第2の文章)とが同一の言語(中国語)で記述された記事となる。また、翻訳後の言語を第三の言語(例えば、日本語)とした場合には、英語で記述された記事(第1の文章)及び中国語で記述された記事(第2の文章)の双方を翻訳する。これにより、英語で記述された記事を翻訳した記事(第3の文章)と中国語で記述された記事を翻訳した記事(第4の文章)とが同一の言語(日本語)で記述された記事となる。
The
なお、本実施の形態では、翻訳処理の有無にかかわらず、同一の言語で記述された記事として英語で記述された記事を扱う場合には、L個の文(e1’、e2’、・・・、eL’)と表記し、同一の言語で記述された記事として中国語で記述された記事を扱う場合には、M個の文(c1’、c2’、・・・、cM’)と表記する。すなわち、英語で記述された記事を翻訳しなかった場合には(e1、e2、・・・、eL)=(e1’、e2’、・・・、eL’)であり、中国語で記述された記事を翻訳しなかった場合には、(c1、c2、・・・、cM)=(c1’、c2’、・・・、cM’)である。以下、本実施の形態では、「翻訳後」の記事とは、いずれか一方の記事の翻訳処理の有無にかかわらず、異なる言語で記述された2つの記事が同一の言語で記述された記事となった後の記事を指すものとする。 In the present embodiment, L articles (e 1 ′, e 2 ′, e 2 ′, e 2 ′, e. ···, e L ') and expressed, in the case dealing with articles written in Chinese as articles that were written in the same language, M number of statements (c 1', c 2 ' , ··· , referred to as c M '). That is, when an article written in English is not translated, (e 1 , e 2 ,..., E L ) = (e 1 ′, e 2 ′,..., E L ′) If the article written in Chinese is not translated, (c 1 , c 2 ,..., C M ) = (c 1 ′, c 2 ′,..., C M ′) is there. Hereinafter, in this embodiment, an “post-translation” article is an article in which two articles written in different languages are written in the same language regardless of whether or not one of the articles is translated. Refers to the article after becoming.
また、機械翻訳部24における翻訳には、周知の機械翻訳ツールを用いることができる。機械翻訳ツールは、2つの異なる言語で記述された記事を同一の言語に変換できるものであればよく、特別な機械翻訳ツールに限定されない。
For translation in the
類似度計算部26は、英語で記述された記事を機械翻訳部24で翻訳した記事(以下、「翻訳後の英語の記事」という)の各文(e1’、e2’、・・・、eL’)と、中国語で記述された記事を機械翻訳部24で翻訳した記事(以下、「翻訳後の中国語の記事」という)の各文(c1’、c2’、・・・、cM’)との類似度を計算する。まず、翻訳後の英語の記事の各文を、nを語彙の大きさ(2つの記事に出現する単語の和集合の要素数)とし、各文を単語の重みからなるベクトルで表現する。具体的には、翻訳後の英語の記事のi番目の文ei’のベクトル表現をTe iとし、Te i=(w1、w2、・・・、wn)で表現する。翻訳後の中国語の記事についても同様に、j番目の文cj’のベクトル表現をTc jとして単語の重みからなるベクトルで表わす。ここで、wiは、文書中の特徴的な単語を抽出するためのアルゴリズムによって得られる単語の重みであり、例えば、情報検索や文書要約などの分野で利用されるTF−IDFアルゴリズムを用いて得ることができる。
The
次に、上述のベクトルTe i及びTc jを用いて、2つの文ei’とcj’との類似度を計算する。類似度は、例えば、下記(1)式に示すようなベクトル空間のコサイン類似度として計算することができる。ei’(Te i)とcj’(Tc j)との全ての組み合わせ(i=1、2、・・・、L,j=1、2、・・・、M)について、類似度を計算する。 Next, using the vectors T e i and T c j described above, the similarity between the two sentences e i ′ and c j ′ is calculated. The similarity can be calculated, for example, as a cosine similarity in a vector space as shown in the following equation (1). Similar for all combinations (i = 1, 2,..., L, j = 1, 2,..., M) of e i ′ (T e i ) and c j ′ (T c j ) Calculate the degree.
なお、類似度の計算は上記の方法に限定されず、他の方法を用いることもできる。例えば、2つの文に同じハイパーリンクが含まれているか否かによって類似度を計算することができる。また、単語の重みについても、例えば、人物、場所、またはイベントを表す単語に高い重みを与えるなど、他の方法を用いてもよい。 The calculation of similarity is not limited to the above method, and other methods can be used. For example, the similarity can be calculated based on whether two sentences contain the same hyperlink. As for the weight of the word, other methods such as giving a high weight to a word representing a person, place, or event may be used.
フラグ付与部28は、類似度計算部26によって計算された類似度に基づいて、英語で記述された記事の各文eiに新しい情報(中国語の記事に含まれていない情報)が含まれているか否かを示すフラグを付与する。具体的には、翻訳後の英語の記事の各文ei’について計算された翻訳後の中国語の記事の各文cj’との全ての類似度の中で、最も類似度が高い最大類似度を求め、最大類似度が最小の文からN個の文(emin1’、emin2’、・・・、eminN’)を抽出し、抽出した文に対応する翻訳前の英語で記述された記事の文(emin1、emin2、・・・、eminN)に、新しい情報を含む文であることを示すフラグ「+1」を付与する。その他の文には、新しい情報が含まれていないことを示すフラグ「−1」を付与する。これは、中国語の記事のどの文とも類似度が低い英語の文は、新しい情報が含まれている可能性が高いということを想定したものである。
なお、ここでは、最大類似度が所定の閾値以下となる文を抽出する一例として、最大類似度を小さい順に並べて所定個までの文を新しい情報を含む文として抽出する場合(所定個目の文の類似度を閾値とする場合)について説明したが、予め定めた一定の閾値と比較して、最大類似度が閾値以下の文を抽出するようにしてもよい。 Here, as an example of extracting sentences whose maximum similarity is equal to or less than a predetermined threshold, a maximum of similarities are arranged in ascending order and up to a predetermined number of sentences are extracted as sentences including new information (a predetermined number of sentences). However, it is also possible to extract a sentence whose maximum similarity is equal to or less than the threshold value as compared to a predetermined threshold value.
情報挿入位置探索部40は、フラグ付与部28により新しい情報を含む文であることを示すフラグ「+1」が付与された英語の文について、その文を中国語で記述された記事に挿入するのに最も適した位置を探索する。この問題を解決するために、ラベル伝播法を使用する。
The information insertion
具体的には、例えば、図2に示すように、英語で記述された記事の各文、及び中国語で記述された記事の各文を表すノードと、各ノード間の関係を各ノード間の類似度に応じた重みを付したエッジとを有するグラフG=(V,E)を作成する。Vはノードの集合で、L個の英語の文(e1、e2、・・・、eL)及びM個の中国語の文(c1、c2、・・・、cM)を表す。Eはエッジの集合である。英語のノードと中国語のノードとの間に、L×M個のエッジが存在し、そのエッジの重みは、英語の文eiの翻訳後の文ei’と中国語の文cjの翻訳後の文cj’とのコサイン類似度で表す。また、英語のノード同士、または中国語のノード同士でもエッジを形成する。例えば、中国語の2つの文ci,cjが同じ段落の中にある場合には、ciとcjとのノード間にエッジを形成する。このエッジの重みは、wij=1/dist(ci,cj)で計算する。distは、ciとcjとの間の距離(その間にある文の数)である。このグラフは、すべての類似のリンクや文書構造に関する情報を表現できる。 Specifically, for example, as shown in FIG. 2, each sentence of an article written in English and each sentence of an article written in Chinese, and the relationship between the nodes A graph G = (V, E) having an edge weighted according to the similarity is created. V is a set of nodes, which includes L English sentences (e 1 , e 2 ,..., E L ) and M Chinese sentences (c 1 , c 2 ,..., C M ). To express. E is a set of edges. Between English node and Chinese node exists L × M pieces of edge, the weight of that edge, the statement after the translation sentence e i English e i 'and the sentence c j in Chinese The cosine similarity with the translated sentence c j 'is expressed. An edge is also formed between English nodes or Chinese nodes. For example, if two Chinese sentences c i and c j are in the same paragraph, an edge is formed between nodes of c i and c j . The weight of this edge is calculated by w ij = 1 / dist (c i , c j ). dist is the distance between c i and c j (the number of sentences in between). This graph can represent information about all similar links and document structure.
次に、グラフを初期化するために、フラグ「+1」が付与された英語の文を表すノードに、ラベル「1」を付与し、その他の英語のノードにはラベル「0」を付与する。この段階では、中国語のノードのラベルは未定の状態である。そして、ラベル伝播法により、英語のノードに付与されたラベルを、ノード間の関係に従ってラベルが未定のノード(中国語のノード)へ伝播する。これは上記のように作成したグラフ上でマルコフ連鎖を実行していると見なすことができる。 Next, in order to initialize the graph, the label “1” is assigned to the node representing the English sentence to which the flag “+1” is assigned, and the label “0” is assigned to the other English nodes. At this stage, the Chinese node label is undecided. Then, according to the label propagation method, the label given to the English node is propagated to the node (Chinese node) whose label is undetermined according to the relationship between the nodes. This can be regarded as executing a Markov chain on the graph created as described above.
ラベル伝播法では、ラベルが未定のノードに付与される値を、マルコフ連鎖の反復計算(iterative Markov chain computation)や直接固有値ベクトル計算(direct eigenvector computation)により計算することができる。直接固有値ベクトル計算を使う場合は、下記(2)式の方程式を解くことで付与すべき値を得る。 In the label propagation method, a value given to a node whose label is undetermined can be calculated by iterative Markov chain computation or direct eigenvector computation. When direct eigenvalue vector calculation is used, a value to be given is obtained by solving the following equation (2).
ここで、fは(N+M)次元のラベルのベクトルである。fは英語のノードでは「1」または「0」に制限され、中国語のノードでは未定である。上記の目的関数は、もしエッジの重みwijが大きければノードのペア(i,j)が類似したラベルfiとfjを持つことを強制することによりラベル伝播を実現する。fはグラフラプラシアンの固有ベクトルを求めることにより計算することができる。 Here, f is a vector of (N + M) -dimensional labels. f is limited to “1” or “0” in an English node, and is undecided in a Chinese node. The objective function that if implementing the label propagation by the edge of the weight w ij is larger if the node pair (i, j) is forced to have a label f i and f j similar. f can be calculated by obtaining the eigenvector of the graph Laplacian.
ラベルを伝播した後、中国語の各ノードには[0,1]の間にある数値のラベルが付与される。上述のように、エッジの重みが大きいノード間では類似したラベルが付与されるため、ラベル「1」が付与されたノードに対応する英語の文と、ラベル「1」に最も近い値のラベルが付与されたノードに対応する中国語の文とは、関連が深いことを示している。従って、ラベル「1」に最も近い値のラベルが付与されたノード、ここでは最大値のラベルが付与されたノードに対応した中国語の文の前または後の位置を、新しい情報を含む文を挿入する最適な位置として決定することができる。 After propagating the label, each Chinese node is given a numeric label between [0, 1]. As described above, since a similar label is assigned between nodes having a large edge weight, an English sentence corresponding to the node assigned the label “1” and a label having a value closest to the label “1” are displayed. This indicates that the Chinese sentence corresponding to the given node is deeply related. Therefore, the node with the label closest to the label “1”, here the position before or after the Chinese sentence corresponding to the node with the maximum label, the sentence containing the new information. It can be determined as the optimal position to insert.
次に、図3を参照して、第1の実施の形態の文章処理装置10において実行される文章処理ルーチンについて説明する。
Next, a sentence processing routine executed in the
ステップ100で、第1の文章から第2の文章に含まれていない新しい情報を含む文を抽出する新情報識別処理を実行する。
In
ここで、図4を参照して、新情報識別処理ルーチンについて説明する。ここでも、英語で記述された記事(第1の文章)から中国語で記述された記事(第2の文章)に含まれていない新しい情報を含む文を抽出する場合について説明する。 Here, the new information identification processing routine will be described with reference to FIG. Here, a case will be described in which a sentence including new information that is not included in an article (second sentence) written in Chinese is extracted from an article (first sentence) written in English.
ステップ120で、英語で記述された記事、及び中国語で記述された記事を、内部または外部の記憶装置から読み込む。または、外部装置に記憶された記事を、ネットワークを介して読み込むようにしてもよい。ここで読み込まれた英語で記述された記事は、L個の文(e1、e2、・・・、eL)から構成された文章であり、中国語で記述された記事は、M個の文(c1、c2、・・・、cM)から構成された文章であるものとする。
In
次に、ステップ122で、上記ステップ120で読み込んだ英語で記述された記事及び中国語で記述された記事の各々に対して、セクションや段落を認識する処理や語幹処理等の前処理を施す。
Next, in
次に、ステップ124で、上記ステップ122で前処理が施された英語で記述された記事及び中国語で記述された記事の各々を、同一の言語に翻訳する。ここでは、英語で記述された記事は、L個の文(e1’、e2’、・・・、eL’)、中国語で記述された記事は、M個の文(c1’、c2’、・・・、cM’)に翻訳される。
Next, in
次に、ステップ126で、上記ステップ124で翻訳された翻訳後の英語の記事の各文(e1’、e2’、・・・、eL’)のi番目の文ei’を、nを語彙の大きさとし、各文をTF−IDFアルゴリズム等を用いて得た単語の重みwiからなるベクトルTe i=(w1、w2、・・・、wn)で表現する。翻訳後の中国語の記事についても同様に、j番目の文cj’をベクトルTc jで表現する。そして、2つの文ei’とcj’との類似度を、例えば(1)式に示すようなベクトル空間のコサイン類似度として、ei’(Te i)とcj’(Tc j)との全ての組み合わせ(i=1、2、・・・、L,j=1、2、・・・、M)について計算する。
Next, in
次に、ステップ128では、上記ステップ126において、翻訳後の英語の記事の各文ei’について計算された翻訳後の中国語の記事の各文cj’との全ての類似度の中で、最も類似度が高い最大類似度を求める。そして、求めた最大類似度が一番小さい文からN個の文(emin1’、emin2’、・・・、eminN’)を抽出し、抽出した文に対応する翻訳前の英語で記述された記事の文(emin1、emin2、・・・、eminN)に、新しい情報を含む文であることを示すフラグ「+1」を付与し、その他の英語の文には、新しい情報が含まれていないことを示すフラグ「−1」を付与して、リターンする。
Next, in
文章処理ルーチン(図3)に戻って、ステップ102へ移行し、抽出された新しい情報を含む文を挿入するための位置を探索する情報挿入位置探索処理を実行する。 Returning to the sentence processing routine (FIG. 3), the process proceeds to step 102, and an information insertion position search process for searching for a position for inserting a sentence including the extracted new information is executed.
ここで、図5を参照して、情報挿入位置探索処理ルーチンについて説明する。 Here, the information insertion position search processing routine will be described with reference to FIG.
ステップ140で、英語で記述された記事の各文(e1、e2、・・・、eL)、及び中国語で記述された記事の各文(c1、c2、・・・、cM)を表すノードと、各ノード間の関係を各ノード間の類似度に応じた重みを付したエッジとを有するグラフG=(V,E)を作成する。
In
次に、ステップ142で、上記ステップ140で作成したグラフを初期化するために、新情報識別処理(図4)でフラグ「+1」が付与された英語の文を表すノードに、ラベル「1」を付与し、その他の英語のノードにはラベル「0」を付与する。
Next, in
次に、ステップ144で、ラベルが付与された英語のノードから、ラベルが未定の中国語のノードへラベルを伝播する。ラベル伝播により、中国語のノードには[0,1]の間にある数値のラベルが付与される。
Next, in
次に、ステップ146で、上記ステップ144でのラベル伝播により中国語のノードに付与されたラベルの値が最大値のノードに対応した中国語の文の前または後の位置を、新しい情報を含む文を挿入する最適な位置として決定して、リターンする。
Next, in
文章処理ルーチン(図3)に戻って、ステップ104へ移行し、情報挿入位置探索処理により決定した新情報を含む文を挿入する位置のデータを出力して、処理を終了する。なお、ここでは、新情報識別処理で付与されたフラグの情報、すなわち新しい情報を含む文のデータは、後段の情報挿入位置探索処理へ受け渡すものとして説明したが、新しい情報を含む文のデータを、後段へ受け渡すことなく処理結果として出力するようにしてもよい。 Returning to the sentence processing routine (FIG. 3), the process proceeds to step 104, where the data at the position where the sentence including the new information determined by the information insertion position search process is inserted is output, and the process ends. Here, the flag information given in the new information identification process, that is, the sentence data including the new information has been described as being transferred to the subsequent information insertion position search process. However, the sentence data including the new information is described. May be output as a processing result without passing on to the subsequent stage.
以上説明したように、第1の実施の形態の文章処理装置によれば、異なる言語で記述された文章(英語の記事と中国語の記事)を同一の言語に翻訳し、第1の翻訳文章(翻訳後の英語の記事)の各文と第2の翻訳文章(翻訳後の中国語の記事)の各文との類似度を全ての組み合わせについて計算し、類似度が最大となる最大類似度が所定の閾値以下となる第1の翻訳文章の文に対応する第1の文章の文を、第2の文章に含まれていない新しい情報を含む文として自動的に抽出することにより、共同支援システムにより記述された記事の編集者を支援することができる。 As described above, according to the sentence processing apparatus of the first embodiment, sentences (English articles and Chinese articles) written in different languages are translated into the same language, and the first translated sentence The similarity between each sentence of (translated English article) and each sentence of the second translated sentence (translated Chinese article) is calculated for all combinations, and the maximum similarity is the maximum similarity By automatically extracting the sentence of the first sentence corresponding to the sentence of the first translated sentence whose is less than or equal to a predetermined threshold as a sentence including new information not included in the second sentence, joint support It can assist the editor of the articles described by the system.
また、各文をノード、ノード間の関係を類似度に応じた重み付きエッジで表したグラフを作成し、第1の文章の各文に対応するノード(英語のノード)に新しい情報を含む文か否かに基づくラベルを付与し、第1の文章の各文に対応するノードからラベルを伝播して、ラベルの値が未定の第2の文章の各文に対応するノード(中国語のノード)にラベルを付与し、第2の文章の各文に対応するノードに付与されたラベルの値に基づいて、新しい文章を挿入するのに適した位置を自動的に決定することにより、共同支援システムにより記述された記事の編集者を支援することができる。 In addition, a graph is created in which each sentence is represented by a node and the relationship between the nodes is represented by a weighted edge corresponding to the degree of similarity, and a sentence (English node) corresponding to each sentence of the first sentence includes new information. A label based on whether or not, a label is propagated from a node corresponding to each sentence of the first sentence, and a node corresponding to each sentence of the second sentence whose label value is undetermined (a Chinese node) ), And automatically determining a suitable position to insert a new sentence based on the label value assigned to the node corresponding to each sentence of the second sentence. It can assist the editor of the articles described by the system.
次に、第2の実施の形態について説明する。第2の実施の形態では、分類器の識別結果を用いて、新しい情報を含む文を抽出する場合について説明する。なお、英語で記述された記事(第1の文章)から中国語で記述された記事(第2の文章)に含まれていない新しい情報を含む文を抽出する場合について説明する。 Next, a second embodiment will be described. In the second embodiment, a case where a sentence including new information is extracted using the classification result of the classifier will be described. A case will be described in which a sentence including new information that is not included in an article written in Chinese (second sentence) is extracted from an article written in English (first sentence).
図6に示すように、第2の実施の形態に係る文章処理装置210は、第1の実施の形態に係る文章処理装置10とは新情報識別部の構成が異なる。以下、第1の実施の形態と異なる点について説明する。
As shown in FIG. 6, the
第2の実施の形態に係る文章処理装置210における新情報識別部220は、第1の実施の形態に係る文章処理装置10における新情報識別部20の構成に、特徴抽出部30と、分類器学習部32と、フラグ更新部34と、を加え、フラグ付与部28をフラグ付与部228に替えた構成で表すことができる。
The new
フラグ付与部228は、翻訳後の英語の記事の各文ei’について計算された翻訳後の中国語の記事の各文cj’との全ての類似度の中で、最も類似度が高い最大類似度を求める。求めた最大類似度が大きい順に各文ei’を並べ、最大類似度が最小の文からN個の文(emin1’、emin2’、・・・、eminN’)を抽出し、抽出した文に対応する翻訳前の英語で記述された記事の文(emin1、emin2、・・・、eminN)に、新しい情報を含む文であることを示すフラグ「+1」を付与する。また、最大類似度が最大の文からN個の文(emax1’、emax2’、・・・、emaxN’)を抽出し、抽出した文に対応する翻訳前の英語で記述された記事の文(emax1、emax2、・・・、emaxN)に、新しい情報が含まれていないことを示すフラグ「−1」を付与する。最大類似度が最大または最小の文からN個に含まれない文にはフラグは付与されない。
The
特徴抽出部30は、英語で記述された記事の各文eiについて、後述の分類器学習部32で分類器の学習に利用するための特徴を抽出する。例えば、以下のような特徴を抽出することができる。
類似度:英語で記述された記事の各文eiの翻訳後の各文ei’と、中国語で記述された記事の各文cjの翻訳後の各文cj’とのコサイン類似度の最大値
近隣の類似度:隣接する(直前及び直後の)文ei−1及びei+1の翻訳後の文ei−1’及びei+1’と、中国語で記述された記事の各文cjの翻訳後の各文cj’とのコサイン類似度の最大値
エントロピー:英語で記述された記事の各文eiの翻訳後の各文ei’と、中国語で記述された記事の各文cjの翻訳後の各文cj’との類似度を下記(3)式により条件付確率に変換することにより計算した中国語で記述された記事の各文cjの翻訳後の各文cj’との類似度のエントロピー
Similarity: cosine similarity between each sentence e i ′ after translation of each sentence e i of the article written in English and each sentence c j ′ after translation of each sentence c j of the article written in Chinese Maximum degree of neighbors Similarity of neighborhood: each of the sentences (e i-1 ′ and e i + 1 ′) after translation of the adjacent (immediately and immediately following) sentences e i-1 and e i + 1 and each article written in Chinese sentence c j of each sentence c j of post-translational: and 'cosine similarity of maximum entropy of the sentence e i after the translation of each statement e i of the described articles in English', written in Chinese the similarity between each sentence c j 'posttranslational each sentence c j article below (3) translation of each sentence c j of articles written in Chinese calculated by converting the conditional probability by formula Entropy of similarity with each subsequent sentence c j '
なお、上記3つの特徴の全てを用いる必要はなく、少なくとも1つ以上を用いればよい。また、他の特徴と組み合わせて利用することもできる。 Note that it is not necessary to use all of the above three features, and at least one or more may be used. It can also be used in combination with other features.
分類器学習部32は、特徴抽出部30で抽出した英語で記述された記事の各文eiの特徴と、フラグ付与部28により英語で記述された記事の各文eiに付与されたフラグをサポートベクターマシン(SVM)に与えて、入力された英語で記述された記事の各文eiの特徴に基づいて、各文eiに新しい情報が含まれるか否かを識別した結果(フラグ)を返す分類器を学習させる。なお、学習の手法は、従来公知の技術を用いればよく、SVMに限定されない。
フラグ更新部34は、分類器学習部32で学習された分類器に、英語で記述された記事の各文eiの特徴を入力し、その識別結果に基づいて、英語で記述された記事の各文eiに、新しい情報を含む文であることを示すフラグ「+1」、または、新しい情報が含まれていないことを示すフラグ「−1」を付与する。既にフラグ付与部228でフラグが付与されている文については、分類器の識別結果によりフラグを更新する。
次に、第2の実施の形態の文章処理装置210において実行される文章処理ルーチンについて説明する。第1の実施の形態における文章処理ルーチンと新情報識別処理が異なるだけであるので、図7を参照して、第2の実施の形態における新情報識別処理ルーチンについて説明する。なお、第1の実施の形態の新情報識別処理と同一の処理については、同一の符号を付して詳細な説明は省略する。
Next, a text processing routine executed in the
ステップ120〜128を経て、L個の文(e1、e2、・・・、eL)から構成された英語で記述された記事、及びM個の文(c1、c2、・・・、cM)から構成された中国語で記述された記事を読み込んで、英語で記述された記事の各文eiに、中国語で記述された記事には含まれていない新しい情報を含むか否かのフラグを付す。
Through
次に、ステップ200で、英語で記述された記事の各文eiについて、分類器の学習に利用するための特徴を抽出する。
Next, at
次に、ステップ202で、上記ステップ200で抽出した英語で記述された記事の各文eiの特徴と、上記ステップ128で付与された英語で記述された記事の各文eiのフラグをSVMに与えて、入力された英語で記述された記事の各文eiの特徴に基づいて、各文eiに新しい情報が含まれるか否かを識別した結果(フラグ)を返す分類器を学習させる。
Next, in
次に、ステップ204で、上記ステップ202で学習された分類器に、上記ステップ200で抽出された英語で記述された記事の各文eiの特徴を入力し、その識別結果に基づいて、英語で記述された記事の各文eiに、新しい情報を含む文であることを示すフラグ「+1」、または、新しい情報が含まれていないことを示すフラグ「−1」を付与する。既に上記ステップ128でフラグが付与されている文については、本ステップで得られる分類器の識別結果によりフラグを更新して、リターンする。
Next, in
以上説明したように、第2の実施の形態の文章処理装置によれば、第1の文章(英語の記事)の各文から抽出される特徴と、新しい情報を含むか否かを示すフラグとを用いて分類器を学習し、学習された分類器の識別結果を用いてフラグを更新するため、新しい情報を含む文の抽出精度を向上させることができる。 As described above, according to the sentence processing apparatus of the second embodiment, the feature extracted from each sentence of the first sentence (English article) and the flag indicating whether or not new information is included. Since the classifier is learned using and the flag is updated using the learned classification result of the classifier, it is possible to improve the accuracy of extracting a sentence including new information.
なお、上記第1の実施の形態及び第2の実施の形態では、2つの異なる言語で記述された記事として、英語で記述された記事と中国語で記述された記事とを用いる場合について説明したが、他の言語で記述された記事に対しても適用可能である。 In the first embodiment and the second embodiment described above, the case where an article written in English and an article written in Chinese are used as articles written in two different languages has been described. However, it can also be applied to articles written in other languages.
次に、上記実施の形態の効果を説明するために、下記の実験結果について説明する。 Next, in order to explain the effects of the above embodiment, the following experimental results will be described.
(実験1)新しい情報を含む文の抽出に対する評価
ウィキペディアから、9つ(A〜I)の英語の記事(十分に推敲されて成熟し総合的な内容を持つ、ウィキペディアの編集者の選考を経た記事)及び対応する中国語の記事を収集した。
(Experiment 1) Evaluation for Extracting Sentences Containing New Information Nine (A to I) English articles from Wikipedia (selected by Wikipedia editors who are well-thought, mature, and have comprehensive content) Articles) and corresponding Chinese articles were collected.
次に、人手によって各記事の英語版と中国語版とを比較し、英語の記事から新しい情報を含む文を識別した。また、中国語版の中で、英語の記事の文と同じ情報が記載された文にフラグを付与した。 Next, the English version of each article was manually compared with the Chinese version, and sentences containing new information were identified from the English articles. In the Chinese version, a flag was added to a sentence that contains the same information as the sentence in an English article.
次に、上記第1の実施の形態、第2の実施の形態に加えて、以下の二つの方法を比較した。 Next, in addition to the first embodiment and the second embodiment, the following two methods were compared.
正フラグ:第2の実施の形態と同様に分類器を学習して、分類器の識別結果により新しい情報を含む文を抽出する方法であって、分類器を学習する際に、新しい情報を含むか否かの正しいフラグを持つデータのみを用いてSVMを学習させた場合
ランダム:英語の文に新しい情報を含むか否かのフラグをランダムに付与した場合
ここで、AUC(area under the precision-recall curve、曲線下面積)により、各方法の性能を評価した。この評価方法では、類似性の閾値を特に指定する必要はなく、基本的に、同じリコールレベルでAUCの値が高いほど精度が良いと考えられる。評価結果を、以下の表1に示す。
Positive flag: A method of learning a classifier as in the second embodiment and extracting a sentence including new information from the classification result of the classifier, and includes new information when learning the classifier. When SVM is trained using only data with the correct flag of whether or not Random: When a flag indicating whether or not new information is included in an English sentence is randomly assigned Here, AUC (area under the precision- The performance of each method was evaluated by the recall curve (area under the curve). In this evaluation method, it is not necessary to specify the similarity threshold value. Basically, the higher the AUC value at the same recall level, the higher the accuracy. The evaluation results are shown in Table 1 below.
第1の実施の形態及び第2の実施の形態は、ほとんどの場合に70から95の高いAUC値を達成した。また、全体的に第1の実施の形態よりも第2の実施の形態の方が高いAUC値となっている。この結果から、新しい情報をほとんど自動的に取得できていることがわかる。 The first and second embodiments achieved high AUC values of 70 to 95 in most cases. Moreover, the AUC value of the second embodiment is higher than that of the first embodiment as a whole. From this result, it can be seen that new information can be acquired almost automatically.
(実験2)新しい情報を含む文の挿入位置の決定に対する評価
次に、ラベル伝播法に基づいて、最も適切な挿入位置を決定する方法を評価する実験を行った。まず、各記事について、英語版の文から中国版の文にマッチしている文をランダムに選択し、これらの英語の文は中国語の記事における正しい位置が判明していることを用いて評価を行った。
(Experiment 2) Evaluation for Determination of Insertion Position of Sentence Containing New Information Next, an experiment was performed to evaluate a method for determining the most appropriate insertion position based on the label propagation method. First, for each article, a sentence that matches the Chinese sentence is randomly selected from the English sentence, and these English sentences are evaluated using the fact that the correct position in the Chinese article is known. Went.
比較対象として、人手による対応付けを利用する方法を使用した。まず、英語の記事中のいくつかの文が中国語の記事中の文と人手により対応付けられていると仮定し、ある英語の文と同じ情報を含む中国語の対応する文が判明した。新しい情報を含む英語の文をeiとすると、最も適切な挿入位置はei−1とマッチした中国語の文cjの後だと考えられる。もし、ei−1とマッチした中国語の文がない場合は、ei−2やei−3などを調べた。この方法は人手による作業が必要で、完全に自動的ではない。この方法を、マニュアルアライメント法(manual alignment-based)と呼ぶ。 As a comparison target, a method using manual association was used. First, assuming that some sentences in an English article are manually associated with sentences in an Chinese article, a corresponding sentence in Chinese containing the same information as an English sentence was found. When a sentence of English, including the new information and e i, the most appropriate insertion position is thought that after the e i-1 and match the sentence c j of the Chinese. If there is no Chinese sentence matching e i-1 , e i-2 and e i-3 were examined. This method requires manual work and is not completely automatic. This method is called a manual alignment-based method.
ラベル伝播法については、以下の2つのバリエーションを用いた。以下の2つのバリエーションは、ラベル伝播法で用いるグラフ作成の際のエッジの形成手法が異なる。 The following two variations were used for the label propagation method. The following two variations differ in the method of forming an edge when creating a graph used in the label propagation method.
段落ベースエッジ形成法:上記第1及び第2の実施の形態の情報挿入位置探索部40と同様の手法
セクションベースエッジ形成法:上記第1及び第2の実施の形態の情報挿入位置探索部40と同様の手法であり、同じセクションにある2つの文(ノード)の間にもエッジを形成する手法(第1及び第2の実施の形態の他の例)
ここでは、各方法の性能を評価するために、以下の3つの指標を使用した。
Paragraph base edge formation method: the same method as the information insertion
Here, in order to evaluate the performance of each method, the following three indicators were used.
平均距離(Average Distance):予測位置と正しい挿入位置との間の距離
セクション精度(Section Accuracy):正しいセクションに挿入されたかどうか反映する指標
段落精度(Paragraph Accuracy):正しい段落に挿入されたかどうか反映する指標
英語の記事から30%と50%の文を選択して実験を行った。結果は以下の表2に示す。
Average Distance: Distance between the predicted position and the correct insertion position Section Accuracy: An indicator that reflects whether it was inserted in the correct section Paragraph Accuracy: Reflected whether it was inserted in the correct paragraph Indicators to be tested We selected 30% and 50% sentences from English articles. The results are shown in Table 2 below.
第1及び第2の実施の形態の手法(段落ベースエッジ形成法、セクションベースエッジ形成法)は、マニュアルアライメント法より優れていることが確認できた。 It was confirmed that the methods (paragraph base edge forming method, section base edge forming method) of the first and second embodiments are superior to the manual alignment method.
本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。 The present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.
また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。 Further, in the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium.
10、210 文章処理装置
12 データ読込部
20、220 新情報識別部
22 前処理部
24 機械翻訳部
26 類似度計算部
28、228 フラグ付与部
30 特徴抽出部
32 分類器学習部
34 フラグ更新部
40 情報挿入位置探索部
DESCRIPTION OF SYMBOLS 10,210
Claims (7)
前記翻訳手段により第3の文章を得た場合には、前記第3の文章に含まれる各文と、前記第2の文章に含まれる各文または前記翻訳手段により得た第4の文章に含まれる各文との類似度を、前記第3の文章に含まれる各文と、前記第2の文章に含まれる各文または前記第4の文章に含まれる各文との全ての組み合わせについて計算し、前記翻訳手段により第3の文章を得なかった場合には、前記第1の文章に含まれる各文と、前記第4の文章に含まれる各文との類似度を、前記第1の文章に含まれる各文と前記第4の文章に含まれる各文との全ての組み合わせについて計算する類似度計算手段と、
前記翻訳手段により第3の文章を得た場合には、前記第3の文章の各文について、前記類似度計算手段により計算された類似度が最大となる最大類似度を求め、該最大類似度が所定の閾値以下となる前記第3の文章の文に対応する前記第1の文章の文を、前記第2の文章に含まれていない新しい情報を含む文として抽出し、前記翻訳手段により第3の文章を得なかった場合には、前記第1の文章の各文について、前記最大類似度を求め、該最大類似度が所定の閾値以下となる前記第1の文章の文を、前記第2の文章に含まれていない新しい情報を含む文として抽出する新情報抽出手段と、
を含む文章処理装置。 A third sentence obtained by translating a first sentence including one or more sentences written in the first language so that two kinds of sentences written in the same language are obtained; and the first language Translation means for obtaining one or both of a fourth sentence obtained by translating a second sentence including one or a plurality of sentences described in a second language different from
When the third sentence is obtained by the translation means, each sentence included in the third sentence, and each sentence included in the second sentence or included in the fourth sentence obtained by the translation means Similarity with each sentence is calculated for all combinations of each sentence included in the third sentence and each sentence included in the second sentence or each sentence included in the fourth sentence. When the third sentence is not obtained by the translating means, the similarity between each sentence included in the first sentence and each sentence included in the fourth sentence is determined as the first sentence. Similarity calculation means for calculating all combinations of each sentence included in the sentence and each sentence included in the fourth sentence;
When the third sentence is obtained by the translating means, a maximum similarity that maximizes the similarity calculated by the similarity calculating means is obtained for each sentence of the third sentence, and the maximum similarity is obtained. The sentence of the first sentence corresponding to the sentence of the third sentence that is less than or equal to a predetermined threshold is extracted as a sentence containing new information not included in the second sentence, and the translation means When the sentence of 3 is not obtained, the maximum similarity is obtained for each sentence of the first sentence, and the sentence of the first sentence in which the maximum similarity is equal to or less than a predetermined threshold value is determined. A new information extracting means for extracting as a sentence including new information not included in the sentence of 2,
A sentence processing apparatus including:
前記特徴抽出手段により抽出された前記第1の文章の各文の特徴の各々と、該第1の文章の各文の前記新情報抽出手段による抽出結果とを用いて、前記第1の文章の各文の特徴に基づいて、該第1の文章の各文が新しい情報を含むか否かを識別するための分類器を学習する分類器学習手段と、
前記分類器学習手段により学習された分類器に前記第1の文章の各文を入力して得られる識別結果に基づいて、前記新しい情報を含む文を再抽出する再抽出手段と、
を含む請求項1記載の文章処理装置。 Feature extraction means for extracting features from each sentence of the first sentence;
Using each of the features of each sentence of the first sentence extracted by the feature extraction means and the extraction result by the new information extraction means of each sentence of the first sentence, Classifier learning means for learning a classifier for identifying whether each sentence of the first sentence contains new information based on the characteristics of each sentence;
Re-extracting means for re-extracting a sentence including the new information based on an identification result obtained by inputting each sentence of the first sentence to the classifier learned by the classifier learning means;
The sentence processing apparatus according to claim 1, comprising:
前記第3の文章を得た場合には、前記第3の文章に含まれる各文と、前記第2の文章に含まれる各文または前記第4の文章に含まれる各文との類似度を、前記第3の文章に含まれる各文と、前記第2の文章に含まれる各文または前記第4の文章に含まれる各文との全ての組み合わせについて計算し、前記第3の文章を得なかった場合には、前記第1の文章に含まれる各文と、前記第4の文章に含まれる各文との類似度を、前記第1の文章に含まれる各文と前記第4の文章に含まれる各文との全ての組み合わせについて計算し、
前記第3の文章を得た場合には、前記第3の文章の各文について、類似度が最大となる最大類似度を求め、該最大類似度が所定の閾値以下となる前記第3の文章の文に対応する前記第1の文章の文を、前記第2の文章に含まれていない新しい情報を含む文として抽出し、前記第3の文章を得なかった場合には、前記第1の文章の各文について、前記最大類似度を求め、該最大類似度が所定の閾値以下となる前記第1の文章の文を、前記第2の文章に含まれていない新しい情報を含む文として抽出する
文章処理方法。 A third sentence obtained by translating a first sentence including one or more sentences written in the first language so that two kinds of sentences written in the same language are obtained; and the first language Obtaining one or both of a fourth sentence translated from a second sentence containing one or more sentences written in a second language different from
When the third sentence is obtained, the similarity between each sentence included in the third sentence and each sentence included in the second sentence or each sentence included in the fourth sentence is calculated. , Calculating all combinations of each sentence included in the third sentence and each sentence included in the second sentence or each sentence included in the fourth sentence to obtain the third sentence If not, the similarity between each sentence included in the first sentence and each sentence included in the fourth sentence is determined based on the similarity between each sentence included in the first sentence and the fourth sentence. Calculate all combinations with each sentence included in
When the third sentence is obtained, for each sentence of the third sentence, the maximum similarity that maximizes the similarity is obtained, and the third sentence that has the maximum similarity equal to or less than a predetermined threshold. If the sentence of the first sentence corresponding to the sentence is extracted as a sentence including new information not included in the second sentence, and the third sentence is not obtained, the first sentence For each sentence of the sentence, the maximum similarity is obtained, and the sentence of the first sentence in which the maximum similarity is not more than a predetermined threshold is extracted as a sentence including new information not included in the second sentence. Sentence processing method.
抽出された前記第1の文章の各文の特徴の各々と、該第1の文章の各文が新しい情報を含むか否かを示す抽出結果とを用いて、前記第1の文章の各文の特徴に基づいて、該第1の文章の各文が新しい情報を含むか否かを識別するための分類器を学習し、
学習された分類器に前記第1の文章の各文を入力して得られる識別結果に基づいて、前記新しい情報を含む文を再抽出する
請求項4記載の文章処理方法。 Extracting features from each sentence of the first sentence;
Each sentence of the first sentence using each extracted feature of each sentence of the first sentence and an extraction result indicating whether each sentence of the first sentence includes new information Learning a classifier for identifying whether each sentence of the first sentence contains new information based on the features of
The sentence processing method according to claim 4, wherein the sentence including the new information is re-extracted based on an identification result obtained by inputting each sentence of the first sentence to the learned classifier.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010260265A JP5441872B2 (en) | 2010-11-22 | 2010-11-22 | Document processing apparatus, method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010260265A JP5441872B2 (en) | 2010-11-22 | 2010-11-22 | Document processing apparatus, method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012113422A true JP2012113422A (en) | 2012-06-14 |
JP5441872B2 JP5441872B2 (en) | 2014-03-12 |
Family
ID=46497593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010260265A Active JP5441872B2 (en) | 2010-11-22 | 2010-11-22 | Document processing apparatus, method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5441872B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020035069A (en) * | 2018-08-28 | 2020-03-05 | 本田技研工業株式会社 | Database creation device and search system |
CN113536761A (en) * | 2021-07-09 | 2021-10-22 | 南京航空航天大学 | Method for calculating sentence similarity based on frame importance |
-
2010
- 2010-11-22 JP JP2010260265A patent/JP5441872B2/en active Active
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020035069A (en) * | 2018-08-28 | 2020-03-05 | 本田技研工業株式会社 | Database creation device and search system |
US11436278B2 (en) | 2018-08-28 | 2022-09-06 | Honda Motor Co., Ltd. | Database creation apparatus and search system |
CN113536761A (en) * | 2021-07-09 | 2021-10-22 | 南京航空航天大学 | Method for calculating sentence similarity based on frame importance |
CN113536761B (en) * | 2021-07-09 | 2024-01-30 | 南京航空航天大学 | Method for calculating sentence similarity based on frame importance |
Also Published As
Publication number | Publication date |
---|---|
JP5441872B2 (en) | 2014-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107861939B (en) | Domain entity disambiguation method fusing word vector and topic model | |
Sadat et al. | Automatic identification of arabic language varieties and dialects in social media | |
Sadat et al. | Automatic identification of arabic dialects in social media | |
KR101806151B1 (en) | Method and device for extracting alternative words automatically, recording medium for performing the method | |
US11645475B2 (en) | Translation processing method and storage medium | |
Benajiba et al. | Arabic named entity recognition using optimized feature sets | |
US9588962B2 (en) | System and method for generating and using user ontological models for natural language processing of user-provided text | |
Schmaltz et al. | Adapting sequence models for sentence correction | |
CN108959258B (en) | Specific field integrated entity linking method based on representation learning | |
US9727553B2 (en) | System and method for generating and using user semantic dictionaries for natural language processing of user-provided text | |
US10521510B2 (en) | Computer-readable recording medium, retrieval device, and retrieval method | |
JP5710581B2 (en) | Question answering apparatus, method, and program | |
US10963646B2 (en) | Scenario passage pair recognizer, scenario classifier, and computer program therefor | |
Freire et al. | A metadata geoparsing system for place name recognition and resolution in metadata records | |
WO2010088052A1 (en) | Methods and systems for matching records and normalizing names | |
US8442771B2 (en) | Methods and apparatus for term normalization | |
TWI656450B (en) | Method and system for extracting knowledge from Chinese corpus | |
El Kahki et al. | Improved transliteration mining using graph reinforcement | |
CN112818121A (en) | Text classification method and device, computer equipment and storage medium | |
CN111133429A (en) | Extracting expressions for natural language processing | |
JP2020106880A (en) | Information processing apparatus, model generation method and program | |
JP5441872B2 (en) | Document processing apparatus, method, and program | |
JP2013250926A (en) | Question answering device, method and program | |
KR101663038B1 (en) | Entity boundary detection apparatus in text by usage-learning on the entity's surface string candidates and mtehod thereof | |
JP2008225846A (en) | Word meaning tag application device and method, program, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20120611 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120629 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131129 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131210 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131217 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5441872 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |