JP2009181301A - Expression template generating system, its method, and its program - Google Patents

Expression template generating system, its method, and its program Download PDF

Info

Publication number
JP2009181301A
JP2009181301A JP2008019249A JP2008019249A JP2009181301A JP 2009181301 A JP2009181301 A JP 2009181301A JP 2008019249 A JP2008019249 A JP 2008019249A JP 2008019249 A JP2008019249 A JP 2008019249A JP 2009181301 A JP2009181301 A JP 2009181301A
Authority
JP
Japan
Prior art keywords
alignment
expression template
route
generating
cost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008019249A
Other languages
Japanese (ja)
Other versions
JP5022252B2 (en
Inventor
Takeshi Kobayakawa
健 小早川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2008019249A priority Critical patent/JP5022252B2/en
Publication of JP2009181301A publication Critical patent/JP2009181301A/en
Application granted granted Critical
Publication of JP5022252B2 publication Critical patent/JP5022252B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide an expression template generating system capable of precisely generating a template in which typical expressions are sorted from a plurality of similar documents of natural language. <P>SOLUTION: The expression template generating system 1 includes: a route table-generating means 31 which generates a route table holding routes of the same edit distance from a cell of a table of dynamic planning method; a route reversely-searching means 32 for generating a plurality of new alignment rows by holding candidates of identical score when reversely searching a route in the route table; and a directional graph generating means 41 which converts the plurality of alignment rows to a directional graph with an element as an apex, for generating an impression template. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、複数の系列データ(テキスト文書)から典型的な表現を抽出した表現テンプレートを生成する表現テンプレート生成装置、その方法およびそのプログラムに関する。   The present invention relates to an expression template generation apparatus that generates an expression template obtained by extracting typical expressions from a plurality of series data (text documents), a method thereof, and a program thereof.

従来、自然言語の文書において、類似した文書群についてアライメント(整列)を行い、その類似した文書群から典型的な表現を抽出することで、種々の文書を分類する手法が知られている(例えば、特許文献1、非特許文献1,2参照)。   Conventionally, there is known a method for classifying various documents by aligning similar documents in a natural language document and extracting typical expressions from the similar documents (for example, Patent Document 1, Non-Patent Documents 1 and 2).

これらの手法によれば、複数の類似する文書群に含まれる2つの文書ごとに、例えば、動的計画法(非特許文献3参照)によって文書をアライメントし、複数の文書群から、共通するアライメントのデータを抽出することで、当該文書群の典型的な表現を示す表現テンプレートを生成する。このように、従来の手法によれば、類似する文書群ごとに表現テンプレートを生成するため、文書をその文書内に含まれる表現によって分類することができる。すなわち、従来の手法は、予め表現テンプレートを学習しておくことで、新たに入力される文書を、表現テンプレートとの類似の度合に基づいて分類することが可能になる。   According to these methods, for every two documents included in a plurality of similar document groups, for example, a document is aligned by dynamic programming (see Non-Patent Document 3), and a common alignment is obtained from the plurality of document groups. By extracting the data, an expression template indicating a typical expression of the document group is generated. Thus, according to the conventional method, an expression template is generated for each group of similar documents, so that the documents can be classified according to the expressions included in the documents. That is, according to the conventional method, by learning the expression template in advance, it is possible to classify a newly input document based on the degree of similarity with the expression template.

なお、前記した2つ以上の系列データをアライメントする手法は、一般に、マルチプルアライメントと呼ばれている。このマルチプルアライメントは、2つの系列データのアライメントを多数の系列データに拡張したアルゴリズムである。通常、2つの系列データのアライメントは、動的計画法(非特許文献3参照)によって2次元のテーブルを用いて厳密解を求めることができる。しかし、入力される系列データがM次元の場合、動的計画法により解決するためには、M次元のテーブルが必要になるため計算量が膨大になり現実的ではない。そこで、マルチプルアライメントでは、2系列データのアライメントを再帰的に繰り返すことで、近似解を求めることとしている。
特開2006−113746号公報 R. Barzilay and L. Lee: “Bootstrapping lexical choice via multiple-sequence alignment”, Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing(EMNLP), pp. 164-171 (2002). R. Barzilay and L. Lee: “Learning to paraphrase: An unsupervised approach using multiple-sequence alignment”, HLT-NAACL 2003: Main Proceedings, pp. 16-23 (2003). コルメン、ライザーソン、リベルト著「アルゴリズムイントロダクション」、16章「動的計画法」、近代科学社
Note that the above-described method of aligning two or more series data is generally called multiple alignment. This multiple alignment is an algorithm in which the alignment of two series data is extended to a large number of series data. Usually, the alignment of two series data can obtain | require an exact solution using a two-dimensional table by a dynamic programming (refer nonpatent literature 3). However, when the input series data is M-dimensional, an M-dimensional table is required to solve the problem by dynamic programming, and the calculation amount becomes enormous, which is not realistic. Thus, in multiple alignment, an approximate solution is obtained by recursively repeating the alignment of two series of data.
JP 2006-113746 A R. Barzilay and L. Lee: “Bootstrapping lexical choice via multiple-sequence alignment”, Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 164-171 (2002). R. Barzilay and L. Lee: “Learning to paraphrase: An unsupervised approach using multiple-sequence alignment”, HLT-NAACL 2003: Main Proceedings, pp. 16-23 (2003). Colmen, Riserson, Ribert, "Algorithm Introduction", Chapter 16, "Dynamic Programming", Modern Science

従来のマルチプルアライメントは、2系列データのアライメントを再帰的に繰り返すため、1回のアライメントにより選択されたアライメントの系列データが、後段のアライメントに影響を及ぼすことになる。   Since the conventional multiple alignment recursively repeats the alignment of two series of data, the series of alignment data selected by one alignment affects the subsequent alignment.

一般に、自然言語の文書をアライメントすると、類似の度合が一致するアライメント列が複数存在することになる。この場合、類似の度合が一致しても、すべてが必ずしも最適なアライメントである保証がないため、従来のように1つのアライメント列を選択すると、最適なアライメント列が選択されるとは限らない。このように、従来のマルチプルアライメントは、必ずしも最適とはいえないアライメントの系列データが選択されるため、再帰的に繰り返された解は、全体として不適切なアライメントとなってしまうという問題がある。   In general, when a natural language document is aligned, there are a plurality of alignment columns with similar degrees of matching. In this case, even if the degrees of similarity match, there is no guarantee that all are optimally aligned. Therefore, when one alignment column is selected as in the prior art, the optimal alignment column is not always selected. As described above, in the conventional multiple alignment, alignment series data that is not necessarily optimal is selected, and therefore, a recursively repeated solution results in an inappropriate alignment as a whole.

本発明は、以上のような課題を解決するためになされたものであり、自然言語の類似した複数の系列データ(テキスト文書)から、典型的な表現を抽出した表現テンプレートを精度よく生成することが可能な表現テンプレート生成装置、その方法およびそのプログラムを提供することを目的とする。   The present invention has been made to solve the above problems, and accurately generates an expression template obtained by extracting a typical expression from a plurality of series data (text documents) similar in natural language. It is an object of the present invention to provide an expression template generation apparatus, a method thereof, and a program thereof capable of performing

本発明は、前記目的を達成するために創案されたものであり、まず、請求項1に記載の表現テンプレート生成装置は、自然言語の複数の要素からなる複数の系列データに現れる典型的な表現を抽出し、表現テンプレートとして生成する表現テンプレート生成装置であって、アライメントコスト算出手段と、アライメントコスト記憶手段と、経路テーブル生成手段と、経路逆探索手段と、有向グラフ生成手段と、を備える構成とした。   The present invention was created to achieve the above object, and first, the expression template generation device according to claim 1 is a typical expression that appears in a plurality of sequence data composed of a plurality of elements of a natural language. An expression template generation device that extracts and generates an expression template, comprising: an alignment cost calculation means; an alignment cost storage means; a route table generation means; a route reverse search means; and a directed graph generation means; did.

かかる構成において、表現テンプレート生成装置は、アライメントコスト算出手段によって、複数の系列データのすべての2組の組み合わせごとに、要素ごとの類似の度合を示す編集距離であるアライメントコストを算出し、系列データをアライメント列とした2組の組み合わせごとにアライメントコストと対応付けてアライメントコスト記憶手段に記憶する。これによって、アライメントを行うための初期化データが、アライメントコスト記憶手段に記憶されることになる。なお、ここで、編集距離とは、2つの系列データがどの程度異なっているのかを示す数値であって、一方の系列データを要素の挿入、削除、置換によって他方の系列データに変形するための回数を距離とみなした数値である。   In such a configuration, the expression template generation device calculates an alignment cost, which is an editing distance indicating the degree of similarity for each element, for each combination of all two sets of a plurality of series data by the alignment cost calculation unit, and the series data Is stored in the alignment cost storage means in association with the alignment cost for each of the two combinations of the alignment column. As a result, initialization data for performing alignment is stored in the alignment cost storage means. Here, the edit distance is a numerical value indicating how much the two series data are different, and is used to transform one series data into the other series data by inserting, deleting, or replacing elements. It is a numerical value in which the number of times is regarded as a distance.

そして、表現テンプレート生成装置は、経路テーブル生成手段によって、アライメントコストの低い、すなわち、より類似の度合が高いアライメント列から順に、2次元配列テーブルのセルに同一の編集距離となる経路を保持した動的計画法の経路テーブルを生成する。これによって、経路テーブルには、編集距離が同一である場合に1つの経路に限定されず、複数の経路が保持されることになる。そして、表現テンプレート生成装置は、経路逆探索手段によって、経路テーブル生成手段で生成された経路テーブルにおいて、経路の逆探索を行うことで、複数の新たなアライメント列を生成する。これによって、表現テンプレート生成装置は、マルチプルアライメントにおいて、曖昧性を保持したアライメント列を生成することができる。   Then, the expression template generation device uses the route table generation means to move the motions in which the routes having the same edit distance are held in the cells of the two-dimensional array table in order from the alignment row having the lower alignment cost, that is, the higher similarity degree. Generate a path table for static programming. Thereby, the route table is not limited to one route when the editing distance is the same, and a plurality of routes are held. Then, the expression template generation device generates a plurality of new alignment sequences by performing a reverse search of the route in the route table generated by the route table generation unit by the route reverse search unit. As a result, the expression template generation device can generate an alignment sequence retaining ambiguity in multiple alignment.

そして、表現テンプレート生成装置は、有向グラフ生成手段によって、経路逆探索手段で生成された複数のアライメント列を、要素を頂点とする有向グラフに変換し、表現テンプレートとして生成する。このように、表現テンプレート生成装置は、複数の系列データをアライメントすることで、系列データに現れる典型的な表現が抽出され、テンプレート化することができる。   Then, the expression template generation device converts the plurality of alignment sequences generated by the path reverse search means into a directed graph having elements as vertices by the directed graph generation means, and generates the expression template. In this way, the expression template generation device can extract a typical expression appearing in the sequence data by aligning the plurality of sequence data, and can make a template.

また、請求項2に記載の表現テンプレート生成装置は、請求項1に記載の表現テンプレート生成装置において、経路逆探索手段が複数の新たなアライメント列を生成する際に、編集距離に基づいて、当該アライメント列のアライメントコストを算出し、この経路逆探索手段で算出されたアライメントコストに基づいて、アライメント列の数を制限するアライメント数制限手段をさらに備える構成とした。   The expression template generation device according to claim 2 is the expression template generation device according to claim 1, wherein the path reverse search means generates a plurality of new alignment sequences based on the edit distance. The configuration further includes alignment number limiting means for calculating the alignment cost of the alignment string and limiting the number of alignment strings based on the alignment cost calculated by the path reverse search means.

かかる構成において、表現テンプレート生成装置は、経路逆探索手段で探索された複数のアライメント列から、予め定めた基準により、アライメントコストの低いもののみを残す。これによって、再帰的に処理が行われる動的計画法において、複数の経路が探索される場合であっても、その増加を抑えることができる。   In such a configuration, the expression template generation device leaves only a low alignment cost according to a predetermined criterion from a plurality of alignment sequences searched by the path reverse search means. As a result, in a dynamic programming method in which processing is performed recursively, even if a plurality of routes are searched, the increase can be suppressed.

さらに、請求項3に記載の表現テンプレート生成装置は、請求項1または請求項2に記載の表現テンプレート生成装置において、有向グラフ制限手段をさらに備える構成とした。   Furthermore, the expression template generation device according to claim 3 is configured such that the expression template generation device according to claim 1 or 2 further includes a directed graph restriction unit.

かかる構成において、表現テンプレート生成装置は、有向グラフ制限手段によって、有向グラフ生成手段で生成された表現テンプレートにおいて、当該表現テンプレートの有効グラフを構成する辺の使用頻度、頂点の数または辺の数の少なくとも1つを基準として、有向グラフの枝刈りを行う。これによって、表現として出現頻度が少ない言い回しを有向グラフから削除することができる。   In such a configuration, the expression template generation device has at least one of the frequency of use of the edges constituting the effective graph of the expression template, the number of vertices, or the number of edges in the expression template generated by the directed graph generation means by the directed graph restriction means. Pruning a directed graph with one as a reference. As a result, it is possible to delete a phrase having a low appearance frequency as an expression from the directed graph.

また、請求項4に記載の表現テンプレート生成方法は、自然言語の複数の要素からなる複数の系列データに現れる典型的な表現を抽出し、表現テンプレートとして生成する表現テンプレート生成方法であって、アライメントコスト算出ステップと、経路テーブル生成ステップと、経路逆探索ステップと、有向グラフ生成ステップと、を含む手順とした。   The expression template generation method according to claim 4 is an expression template generation method for extracting a typical expression appearing in a plurality of series data composed of a plurality of elements of a natural language and generating the expression as an expression template, wherein alignment is performed. The procedure includes a cost calculation step, a route table generation step, a route reverse search step, and a directed graph generation step.

かかる手順において、表現テンプレート生成方法は、アライメントコスト算出ステップで、複数の系列データのすべての2組の組み合わせごとに、要素ごとの類似の度合を示す編集距離であるアライメントコストを算出し、系列データをアライメント列とした2組の組み合わせごとにアライメントコストと対応付けてアライメントコスト記憶手段に記憶する。   In such a procedure, the expression template generation method calculates an alignment cost, which is an edit distance indicating a degree of similarity for each element, for each combination of all two sets of a plurality of series data in the alignment cost calculation step. Is stored in the alignment cost storage means in association with the alignment cost for each of the two combinations of the alignment column.

そして、表現テンプレート生成方法は、経路テーブル生成ステップで、アライメントコストの低いアライメント列から順に、2次元配列テーブルのセルに同一の編集距離となる経路を保持した動的計画法の経路テーブルを生成する。そして、表現テンプレート生成方法は、経路逆探索ステップで、経路テーブル生成ステップで生成された経路テーブルにおいて、経路の逆探索を行うことで、複数の新たなアライメント列を生成する。そして、表現テンプレート生成方法は、有向グラフ生成ステップで、経路逆探索ステップで生成された複数のアライメント列を、要素を頂点とする有向グラフに変換し、表現テンプレートとして生成する。   In the expression template generation method, in a path table generation step, a dynamic programming path table is generated in which the paths having the same edit distance are held in the cells of the two-dimensional array table in order from the alignment column having the lowest alignment cost. . The expression template generation method generates a plurality of new alignment sequences by performing a reverse search of the route in the route table generated in the route table generation step in the route reverse search step. In the expression template generation method, in the directed graph generation step, the plurality of alignment sequences generated in the path reverse search step are converted into directed graphs having elements as vertices, and generated as expression templates.

また、請求項5に記載の表現テンプレート生成プログラムは、自然言語の複数の要素からなる複数の系列データに現れる典型的な表現を抽出し、表現テンプレートとして生成するために、コンピュータを、アライメントコスト算出手段、経路テーブル生成手段と、経路逆探索手段、有向グラフ生成手段、として機能させる構成とした。   An expression template generation program according to claim 5 extracts a typical expression appearing in a plurality of sequence data composed of a plurality of elements of a natural language and generates a computer as an alignment cost for generating an expression template. Means, route table generation means, route reverse search means, and directed graph generation means.

かかる構成において、表現テンプレート生成プログラムは、アライメントコスト算出手段によって、複数の系列データのすべての2組の組み合わせごとに、要素ごとの類似の度合を示す編集距離であるアライメントコストを算出し、系列データをアライメント列とした2組の組み合わせごとにアライメントコストと対応付けてアライメントコスト記憶手段に記憶する。   In such a configuration, the expression template generation program calculates an alignment cost, which is an edit distance indicating the degree of similarity for each element, for every two combinations of a plurality of series data by the alignment cost calculation means, and the series data Is stored in the alignment cost storage means in association with the alignment cost for each of the two combinations of the alignment column.

そして、表現テンプレート生成プログラムは、経路テーブル生成手段によって、アライメントコストの低いアライメント列から順に、2次元配列テーブルのセルに同一の編集距離となる経路を保持した動的計画法の経路テーブルを生成する。そして、表現テンプレート生成プログラムは、経路逆探索手段によって、経路テーブル生成手段で生成された経路テーブルにおいて、経路の逆探索を行うことで、複数の新たなアライメント列を生成する。そして、表現テンプレート生成プログラムは、有向グラフ生成手段によって、経路逆探索手段で生成された複数のアライメント列を、要素を頂点とする有向グラフに変換し、表現テンプレートとして生成する。   Then, the expression template generation program generates a path table for dynamic programming in which the path having the same edit distance is held in the cells of the two-dimensional array table in order from the alignment column having the lowest alignment cost by the path table generation means. . The expression template generation program generates a plurality of new alignment sequences by performing a reverse search of the route in the route table generated by the route table generation unit by the route reverse search unit. Then, the expression template generation program converts the plurality of alignment sequences generated by the path reverse search means into a directed graph having elements as vertices by the directed graph generation means, and generates the expression template.

本発明は、以下に示す優れた効果を奏するものである。
請求項1、請求項4または請求項5に記載の発明によれば、動的計画法のテーブルにおいて、セルに保持する経路を1つに限定せず、同一の編集距離(コスト)の経路を複数保持するため、最適なアライメント列を削除することない。このため、本発明は、微妙に違う表現であっても、従来のように削除せずに表現テンプレートに反映させることができる。
The present invention has the following excellent effects.
According to the invention of claim 1, claim 4 or claim 5, in the dynamic programming table, the route held in the cell is not limited to one, but the route of the same edit distance (cost) is selected. Since the plurality is held, the optimum alignment row is not deleted. Therefore, according to the present invention, even a slightly different expression can be reflected in the expression template without being deleted as in the prior art.

請求項2に記載の発明によれば、動的計画法により生成されるアライメント列の数をアライメントコストにより制限するため、再帰的に生成されるアライメント列の数を抑え、演算コストを抑えることができる。   According to the invention described in claim 2, since the number of alignment columns generated by dynamic programming is limited by the alignment cost, the number of alignment columns generated recursively can be suppressed and the calculation cost can be suppressed. it can.

請求項3に記載の発明によれば、有向グラフの枝刈りを行うことで、複数の系列データで出現する頻度が少ない表現を除去することができる。これによって、本発明は、より典型的な表現のみを抽出することができ、表現を分類する精度が高い表現テンプレートを生成することができる。   According to the invention described in claim 3, by performing pruning of the directed graph, it is possible to remove an expression that appears less frequently in a plurality of series data. Thus, the present invention can extract only more typical expressions and generate an expression template with high accuracy for classifying expressions.

[文書分類判別システムの概要]
最初に、図1を参照して、本発明の実施の形態に係る表現テンプレート生成装置を含んだ文書分類判別システムの概要について説明する。図1は、文書分類判別システムの概略構成を示すブロック図である。文書分類判別システムSは、予め定めた分類項目ごとに類似したテキスト文書群から、当該テキスト文書群内に現れる典型的な表現を表現テンプレートとして学習し、その学習結果である表現テンプレートに基づいて、新たに入力されるテキスト文書が、どの分類項目に属するかを判別するものである。ここでは、文書分類判別システムSは、表現テンプレート生成装置1と、表現テンプレート記憶装置2と、分類判別装置3とを備える。
[Overview of document classification system]
First, an overview of a document classification determination system including an expression template generation device according to an embodiment of the present invention will be described with reference to FIG. FIG. 1 is a block diagram showing a schematic configuration of a document classification discrimination system. The document classification determination system S learns typical expressions appearing in the text document group as expression templates from similar text document groups for each predetermined classification item, and based on the expression template that is the learning result, A classification item to which a newly input text document belongs is determined. Here, the document classification determination system S includes an expression template generation device 1, an expression template storage device 2, and a classification determination device 3.

表現テンプレート生成装置1は、意見や感想を述べる対象が予め特定されている類似した意見や感想を記述したテキスト文書から、当該テキスト文書内に現れる典型的な表現を表現テンプレートとして生成するものである。例えば、表現テンプレート生成装置1は、書籍、映画、放送等に対する読者、視聴者からの意見を、「感動した」、「考えさせられた」、「意外だ」等に予め人手を介して分類した複数の類似したテキスト文書を対象として、分類項目ごとに表現テンプレートを生成する。   The expression template generating apparatus 1 generates a typical expression appearing in a text document as an expression template from a text document describing a similar opinion or impression in which an object to describe the opinion or impression is specified in advance. . For example, the expression template generation device 1 classifies the opinions of readers and viewers for books, movies, broadcasts, etc., in advance, by hand, such as “I was moved”, “I was made to think”, “I was surprised”, An expression template is generated for each classification item for a plurality of similar text documents.

この表現テンプレート生成装置1で生成される表現テンプレートは、図2に示すように、「頂点」を形態素、「辺」を頂点の接続としたグラフ構造で表される。図2の例では、「素晴らしいと思った」、「素晴らしいと思いました」、「すごいと思った」、「すごいと思いました」の4通りの表現が、ある分類項目(例えば、「感動した」の分類項目)について生成されていることを示している。この表現テンプレート生成装置1で生成された表現テンプレートは、分類項目ごとに表現テンプレート記憶装置2に記憶される。   As shown in FIG. 2, the expression template generated by the expression template generation apparatus 1 is represented by a graph structure in which “vertex” is a morpheme and “edge” is a connection of vertices. In the example of FIG. 2, four expressions “I thought it was wonderful”, “I thought it was wonderful”, “I thought it was amazing”, and “I thought it was amazing” are classified into a certain category (for example, “Impressed” It is shown that it has been generated for the classification item “done”. The expression template generated by the expression template generation device 1 is stored in the expression template storage device 2 for each classification item.

ここでは、表現テンプレート生成装置1は、類似したテキスト文書群A〜Aから、それぞれのテキスト文書群A〜Aに対応した表現テンプレートB〜Bを生成し、表現テンプレート記憶装置2に記憶する。例えば、B〜Bは、「感動した」、「考えさせられた」、「意外だ」等に対応する表現テンプレートとなる。 Here, the expression template generation device 1 generates expression templates B 1 to B N corresponding to the text document groups A 1 to A N from the similar text document groups A 1 to A N , and the expression template storage device 2 memorize. For example, B 1 to B N are expression templates corresponding to “impressed”, “made to think”, “unexpected”, and the like.

表現テンプレート記憶装置2は、表現テンプレート生成装置1で生成された表現テンプレートを、分類項目ごとに学習結果として記憶するものであって、ハードディスク等の一般的な記憶装置である。   The expression template storage device 2 stores the expression template generated by the expression template generation device 1 as a learning result for each classification item, and is a general storage device such as a hard disk.

分類判別装置3は、表現テンプレート記憶装置2に記憶されている表現テンプレートに基づいて、新たに入力されたテキスト文書が、どの分類項目に属するものであるかを判別するものである。この分類判別装置3は、入力されたテキスト文書に、表現テンプレート記憶装置2に記憶されている表現テンプレートの表現が含まれている場合、例えば、入力された新たなテキスト文書Nに、「素晴らしいと思った」という表現が含まれている場合、図2の表現テンプレートに基づいて、当該テキスト文書を「感動した」の分類項目に属する文書であると判別する。   The classification discriminating device 3 discriminates to which classification item the newly input text document belongs, based on the expression template stored in the expression template storage device 2. If the input text document includes an expression template expression stored in the expression template storage device 2, the classification determination apparatus 3 may, for example, add “ When the expression “I thought” is included, the text document is determined to be a document belonging to the classification item “I was impressed” based on the expression template of FIG. 2.

このように、文書分類判別システムSは、表現テンプレート生成装置1によって、分類項目ごとの表現テンプレートの学習処理を行い、分類判別装置3によって、新たなテキスト文書の判別処理を行う。以下、表現テンプレート生成装置1の構成および動作について詳細に説明する。   As described above, the document classification determination system S performs the learning process of the expression template for each classification item by the expression template generation device 1, and performs the determination process of a new text document by the classification determination device 3. Hereinafter, the configuration and operation of the expression template generation device 1 will be described in detail.

[表現テンプレート生成装置の構成]
まず、図3を参照して、本発明の実施の形態に係る表現テンプレート生成装置の構成について説明する。図3は、本発明の実施の形態に係る表現テンプレート生成装置の全体構成を示すブロック図である。
[Configuration of Expression Template Generation Device]
First, with reference to FIG. 3, the structure of the expression template production | generation apparatus which concerns on embodiment of this invention is demonstrated. FIG. 3 is a block diagram showing the overall configuration of the expression template generation device according to the embodiment of the present invention.

ここでは、表現テンプレート生成装置1は、アライメントコスト算出手段10と、アライメントコスト記憶手段20と、アライメント列生成手段30と、テンプレート生成手段40とを備える。なお、表現テンプレート生成装置1に入力されるテキスト文書(系列データ)は、予め形態素ごとの要素に分割されているものとする。   Here, the expression template generation device 1 includes an alignment cost calculation unit 10, an alignment cost storage unit 20, an alignment sequence generation unit 30, and a template generation unit 40. Note that the text document (series data) input to the expression template generation device 1 is preliminarily divided into elements for each morpheme.

アライメントコスト算出手段10は、複数のテキスト文書のすべての2組の組み合わせごとに、要素ごとの類似の度合を示す編集距離であるアライメントコストを算出するものである。このアライメントコスト算出手段10は、算出したアライメントコストの低い順に、2組のテキスト文書を対応付けたアライメントコスト一覧をアライメントコスト記憶手段20に記憶しておく。   The alignment cost calculation means 10 calculates an alignment cost, which is an edit distance indicating the degree of similarity for each element, for every two combinations of a plurality of text documents. The alignment cost calculation unit 10 stores an alignment cost list in which the two sets of text documents are associated with each other in the order of the calculated alignment cost, in the alignment cost storage unit 20.

ここでM系列の系列データ(テキスト文書)の要素の集合をΩ(M)、空要素(_)の集合を{_}、i、i′、i″を系列データの要素の順番(空要素を除く)を表す添字とすると、系列データ{W(1)},{W(2)}およびアライメント列{a(j)}は、以下の(1)式で表される。 Here, the set of elements of the M-series series data (text document) is Ω (M) , the set of empty elements (_) is {_}, i, i ′, i ″ are the order of the elements of the series data (empty elements If the subscript represents (except for), the sequence data {W (1) }, {W (2) } and the alignment sequence {a (j) } are expressed by the following equation (1).

Figure 2009181301
Figure 2009181301

また、空要素を含む系列データから、要素の順番を維持しながら空要素を取り除く関数をfomitとしたとき、系列データ{W(j)}は、以下の(2)式で表される。 Further, when a function that removes empty elements while maintaining the order of elements from series data including empty elements is defined as f_omit , the series data {W (j) } is expressed by the following equation (2).

Figure 2009181301
ここで、2系列データ(2組のテキスト文書){W(1)},{W(2)}のアライメントコストは、各要素の編集距離の和であって、以下の(3)式の関数fcostにより求められる値である。
Figure 2009181301
Here, the alignment cost of the two series data (two sets of text documents) {W (1) }, {W (2) } is the sum of the edit distances of the respective elements, and is a function of the following equation (3): This is a value obtained by f cost .

Figure 2009181301
Figure 2009181301

なお、Editは、2つの要素の一致の有無に基づいた編集距離であって、以下の(4)式により予め定義しておくこととする。   Edit is an edit distance based on whether or not two elements match, and is defined in advance by the following equation (4).

Figure 2009181301
Figure 2009181301

このように、アライメントコスト算出手段10は、2組のテキスト文書の類似の度合をアライメントコストとして算出する。   Thus, the alignment cost calculation means 10 calculates the degree of similarity between two sets of text documents as the alignment cost.

アライメントコスト記憶手段20は、アライメントコスト算出手段10で算出された2組ごとのテキスト文書のアライメントコストを、テキスト文書対と対応付けたアライメントコスト一覧として記憶するものであって、ハードディスク等の一般的な記憶装置である。このアライメントコスト記憶手段20には、例えば、図4に示すように、テキスト文書対と、アライメントコストとを表形式に対応付けたアライメントコスト一覧Tとして記憶しておく。なお、アライメントコスト一覧Tは、アライメントコストの小さいものから順にソートされている。 The alignment cost storage means 20 stores the alignment costs of every two sets of text documents calculated by the alignment cost calculation means 10 as a list of alignment costs associated with the text document pairs. Storage device. This alignment cost storage means 20, for example, as shown in FIG. 4, a text document pairs, should the alignment cost is stored as the alignment cost list T C which associates tabulated. The alignment cost list T C is sorted in order of the alignment cost small.

アライメント列生成手段30は、アライメントコスト記憶手段20に記憶されているアライメントコストの低い2系列のアライメント列(テキスト文書)から順に、再帰的に動的計画法により1つ以上の新たなアライメント列を生成するものである。   The alignment sequence generation unit 30 recursively creates one or more new alignment sequences by dynamic programming in order from two sequences of alignment sequences (text documents) having a low alignment cost stored in the alignment cost storage unit 20. Is to be generated.

ここでは、アライメント列生成手段30は、アライメントコスト記憶手段20に記憶されているアライメント列から空要素を除去して新たな系列データとして、アライメントを行う。すなわち、系列データW(1)が{a,b,a,d}、系列データW(2)が{a,c,d}に対応するアライメント列{a(j)}が、以下の(5)式で表される場合、アライメント列生成手段30は、以下の(6)式に示した、空要素を除去したアライメント列{W}を入力としてアライメントを行う。 Here, the alignment sequence generation unit 30 performs alignment as new series data by removing empty elements from the alignment sequence stored in the alignment cost storage unit 20. That is, the alignment sequence {a (j) } corresponding to the sequence data W (1) corresponding to {a, b, a, d} and the sequence data W (2) corresponding to {a, c, d} has the following (5 ), The alignment sequence generating means 30 performs alignment using the alignment sequence {W} from which empty elements are removed as shown in the following equation (6).

Figure 2009181301
Figure 2009181301

Figure 2009181301
Figure 2009181301

なお、アライメント列生成手段30は、アライメントコスト記憶手段20から読み出して行うアライメント対象の新たなアライメント列を{W(1)},{W(2)}として、以下の(7)式により、アライメントコストが最小となるアライメント列をすべて生成する。 The alignment sequence generation means 30 uses the following equation (7) as an alignment target to be read out from the alignment cost storage means 20 as {W (1) }, {W (2) }. All alignment columns with the lowest cost are generated.

Figure 2009181301
Figure 2009181301

このように、アライメント列生成手段30は、アライメントコストが最小となるアライメント列を1つに限定しないため、曖昧性を保持したアライメント列を生成することができる。ここでは、アライメント列生成手段30は、前記(7)式を動的計画法により求めるため、経路テーブル生成手段31と、経路逆探索手段32と、アライメント数制限手段33とを備えて構成している。   As described above, the alignment sequence generation means 30 does not limit the alignment sequence that minimizes the alignment cost to one, and therefore can generate an alignment sequence that retains ambiguity. Here, the alignment sequence generating means 30 includes a route table generating means 31, a route reverse searching means 32, and an alignment number limiting means 33 in order to obtain the expression (7) by dynamic programming. Yes.

経路テーブル生成手段31は、アライメントコスト記憶手段20に記憶されているアライメントコストの低いアライメント列から順に、2次元配列テーブルのセルに同一の編集距離となる経路を保持した動的計画法の経路テーブルを生成するものである。ここでは、経路テーブル生成手段31は、アライメントコスト記憶手段20から、最もアライメントコストの低い2つのテキスト文書において、アライメント列を選択し、このアライメント列に含まれる2つのアライメントの要素列を2軸とする動的計画法の経路テーブルを生成する。この経路テーブル生成手段31で生成された動的計画法の経路テーブルは経路逆探索手段32で使用される。   The path table generation unit 31 is a dynamic programming path table in which the paths having the same edit distance are held in the cells of the two-dimensional array table in order from the alignment row having the lowest alignment cost stored in the alignment cost storage unit 20. Is generated. Here, the path table generation unit 31 selects an alignment column in the two text documents having the lowest alignment cost from the alignment cost storage unit 20, and sets the two alignment element columns included in the alignment column as two axes. Generate a routing table for dynamic programming. The route table for dynamic programming generated by the route table generating unit 31 is used by the route reverse search unit 32.

経路逆探索手段32は、経路テーブル生成手段31で生成された動的計画法の経路テーブルにおいて、経路の逆探索(トレースバック)を行うことで、アライメント列を生成するものである。なお、経路逆探索手段32は、経路の逆探索を行う際に、逐次編集距離を加算することで、当該経路におけるアライメントコストを算出することとする。   The route reverse search means 32 generates an alignment sequence by performing a reverse search (trace back) on the route in the dynamic programming route table generated by the route table generation means 31. The route reverse search means 32 calculates the alignment cost in the route by sequentially adding the edit distance when performing the reverse search of the route.

ここで、図5および図6を参照(適宜図3参照)して、経路テーブル生成手段31が行う処理および経路逆探索手段32が行う処理について具体的に説明する。図5は、経路テーブル生成手段が行う動的計画法の経路テーブルを生成する手法を説明するための説明図である。図6は、経路逆探索手段が行う動的計画法の経路テーブルからアライメント列を生成する手法を説明するための説明図である。   Here, with reference to FIG. 5 and FIG. 6 (refer to FIG. 3 as appropriate), the processing performed by the route table generation unit 31 and the processing performed by the route reverse search unit 32 will be specifically described. FIG. 5 is an explanatory diagram for explaining a method of generating a route table of dynamic programming performed by the route table generating means. FIG. 6 is an explanatory diagram for explaining a method for generating an alignment sequence from a route table of the dynamic programming method performed by the route reverse search means.

図5に示すように、経路テーブル生成手段31は、2つのアライメントの要素列(アライメントA、アライメントB)を2軸とする2次元配列の経路テーブルTDPを、図示を省略したメモリ上に生成する。そして、経路テーブル生成手段31は、各アライメントの先頭を示す経路テーブルTDPの左上のセルから各アライメントの最後尾を示す経路テーブルTDPの右下のセルまで、順次、経路とその時の編集距離(コスト)とを2次元配列の配列データとしてメモリ上に記憶する。 As shown in FIG. 5, the path table generating means 31 generates a path table T DP having a two-dimensional array having two alignment element strings (alignment A, alignment B) as two axes on a memory (not shown). To do. Then, the route table generation means 31 sequentially selects the route and the edit distance at that time from the upper left cell of the route table T DP indicating the head of each alignment to the lower right cell of the route table T DP indicating the tail of each alignment. (Cost) is stored on the memory as array data of a two-dimensional array.

例えば、図5のセルCにおいて、Cからの経路(下向矢印)には、アライメントAの“i”番目およびアライメントBの“j−1”番目までの系列と、当該系列にアライメントBの“j”番目の要素を挿入したときの系列との編集距離を対応付ける。また、Cからの経路(右向矢印)には、アライメントAの“i−1”番目およびアライメントBの“j”番目までの系列と、当該系列にアライメントAの“i”番目の要素を挿入したときの系列との編集距離を対応付ける。 For example, in the cell C 1 of FIG. 5, the path from the C 2 (downward arrow) includes the “i” -th series of the alignment A and the “j−1” -th series of the alignment B, and the alignment B in the series. Is associated with the edit distance when the “j” -th element of the is inserted. Also, the route (right direction arrow) from the C 3, and "i-1" th and "j" to th sequence alignment B of alignment A, the "i" th element of alignment A to the series Associate the edit distance with the series when inserted.

また、Cからの経路(右下向矢印)には、アライメントAの“i”番目およびアライメントBの“j”番目の要素が一致する場合には、アライメントAの“i−1”番目およびアライメントBの“j−1”番目までの系列と、当該系列にアライメントAの“i”番目(アライメントAの“j”番目)の要素を挿入したときの系列との編集距離を対応付ける。一方、アライメントAの“i”番目およびアライメントBの“j”番目の要素が不一致の場合には、アライメントAの“i−1”番目およびアライメントBの“j−1”番目までの系列と、当該系列にアライメントAの“i”番目の要素とアライメントAの“j”番目の要素とをそれぞれ置換して挿入した系列との編集距離を対応付ける。 In addition, when the “i” -th element of alignment A and the “j” -th element of alignment B coincide with the path from C 4 (arrow pointing downward to the right), the “i−1” -th element of alignment A and The edit distance between the sequence up to the “j−1” th sequence of the alignment B and the sequence when the “i” th element of the alignment A (the “j” th element of the alignment A) is inserted into the sequence is associated. On the other hand, if the “i” -th element of alignment A and the “j” -th element of alignment B do not match, the sequence from “i−1” -th alignment A to “j-1” -th alignment B; The edit distance between the series inserted by replacing the “i” -th element of alignment A and the “j” -th element of alignment A is associated with the series.

なお、経路テーブル生成手段31は、各経路(図5の下向矢印、右向矢印、右下向矢印)の編集距離(コスト)が異なる場合は、最適(コストが最小)な経路のみを記憶することとして、編集距離が同一である場合は、すべての経路を記憶することとする。   Note that the route table generation unit 31 stores only the optimal (minimum cost) route when the edit distances (costs) of the routes (downward arrow, rightward arrow, and downward right arrow in FIG. 5) are different. In other words, when the editing distance is the same, all the routes are stored.

そして、図6に示すように、経路逆探索手段32は、経路テーブル生成手段31で生成された動的計画法の経路テーブルTDPにおいて、経路テーブルの終点(右下)のセルCから、順次そのセルに対応付けて記憶されている経路に基づいて、経路テーブルの始点(左上)のセルCまでの経路を探索する。なお、図6に示すように、セルCに2つの経路で同一のコストが対応付けられていたときは、経路逆探索手段32は、2つの経路で構成されるアライメント列を生成する。これによって、同一コストのアライメント列が1つに限定されず複数生成されることになる。
図3に戻って、表現テンプレート生成装置1の構成について説明を続ける。
Then, as shown in FIG. 6, the route reverse search means 32 starts from the cell CE at the end point (lower right) of the route table in the dynamic programming route table T DP generated by the route table generation means 31. based on the route stored in association with successively the cell, it searches for a route to the cell C S of the start point of the path table (top left). As shown in FIG. 6, when the same cost is associated with the cell C 1 by two routes, the route reverse search means 32 generates an alignment string composed of the two routes. As a result, a plurality of alignment rows having the same cost are generated without being limited to one.
Returning to FIG. 3, the description of the configuration of the expression template generation device 1 will be continued.

アライメント数制限手段33は、経路逆探索手段32で生成されたアライメント列について、予め定めた基準に基づいて、生成するアライメント列数を制限するものである。ここでは、アライメント数制限手段33は、アライメント列生成手段30が処理する2系列のアライメント列ごとに、生成するアライメント列数を制限することとする。これによって、動的計画法における経路数を制限することができ、再帰処理に伴う指数関数的な経路数の増大を防止することができる。なお、アライメント数制限手段33は、例えば、以下の4つの基準(基準A1〜基準A4)の少なくとも1つによって、経路数を制限することができる。   The alignment number limiting unit 33 limits the number of alignment columns to be generated based on a predetermined criterion for the alignment columns generated by the path reverse search unit 32. Here, the alignment number limiting unit 33 limits the number of alignment columns to be generated for each of the two series of alignment columns processed by the alignment column generating unit 30. As a result, the number of paths in the dynamic programming method can be limited, and an exponential increase in the number of paths associated with recursive processing can be prevented. For example, the alignment number limiting means 33 can limit the number of paths according to at least one of the following four criteria (reference A1 to reference A4).

<基準A1 アライメントコストによる制限>
アライメント数制限手段33は、経路逆探索手段32で求められた2系列データのアライメントコストが最小となるアライメント列のみを出力することとする。すなわち、経路逆探索手段32で生成された複数のアライメント列のうちで、経路のトータルのアライメントコストが最小となるもののみを残し、他を削除することとする。
<Standard A1 Restriction due to alignment cost>
The alignment number limiting means 33 outputs only the alignment sequence that minimizes the alignment cost of the two series data obtained by the path reverse search means 32. That is, of the plurality of alignment sequences generated by the route reverse search means 32, only the one that minimizes the total alignment cost of the route is left and the others are deleted.

<基準A2 空要素の数による制限>
アライメント数制限手段33は、経路逆探索手段32で生成された複数のアライメント列のうちで、空要素の数が最小のアライメント列のみを残し、他を削除することとする。
<Standard A2 Limitation by the number of empty elements>
The alignment number limiting means 33 leaves only the alignment string with the smallest number of empty elements among the plurality of alignment strings generated by the path reverse search means 32 and deletes the others.

<基準A3 最適経路の絶対数による制限>
アライメント数制限手段33は、経路逆探索手段32で生成された複数のアライメント列のうちで、予め定めた経路の絶対数をランダムに選択し、他を削除することとする。
<Standard A3 Limit by absolute number of optimum routes>
Alignment number limiting means 33 randomly selects an absolute number of predetermined paths from among a plurality of alignment sequences generated by path reverse search means 32 and deletes the others.

<基準A4 要素の絶対数による制限>
アライメント数制限手段33は、経路逆探索手段32で生成された複数のアライメント列の要素数を累計し、要素数が予め定めた絶対数を超過した場合、それ以降のアライメント列を削除する。
<Limitation by absolute number of reference A4 elements>
The alignment number limiting unit 33 accumulates the number of elements in the plurality of alignment columns generated by the path reverse search unit 32, and when the number of elements exceeds a predetermined absolute number, the subsequent alignment columns are deleted.

このように、アライメント列生成手段30は、2系列のアライメント列から順に、動的計画法により1つ以上の新たなアライメント列を生成する際に、アライメント列数を制限するため、経路逆探索手段32が複数の経路のアライメント列を生成する場合であっても、指数関数的な経路数の増大を防止することができる。   In this way, the alignment sequence generation means 30 sequentially reverses the path sequence search means in order to limit the number of alignment sequences when generating one or more new alignment sequences by dynamic programming in order from the two series of alignment sequences. Even when 32 generates an alignment sequence of a plurality of paths, an exponential increase in the number of paths can be prevented.

なお、アライメント列生成手段30は、2系列のアライメント列から、新たなアライメント列を生成した場合、アライメントコスト記憶手段20に記憶されている1系列のアライメント列に関するデータを削除することとする。例えば、図4において、テキスト文書対{W(1),W(2)}をアライメントした後、W(1)に関するデータ{W(1),W(2)}、{W(1),W(3)}、…を削除する。なお、削除するアライメント列は、2系列のアライメント列はいずれか一方であればよい。 Note that, when a new alignment string is generated from two series of alignment strings, the alignment string generating unit 30 deletes data relating to the one series of alignment columns stored in the alignment cost storage unit 20. For example, in FIG. 4, a text document pair {W (1), W ( 2)} was aligned, W (1) relating to data {W (1), W ( 2)}, {W (1), W (3) }, ... are deleted. The alignment sequence to be deleted may be either one of the two series of alignment columns.

そして、すべての2系列のアライメント列から、新たなアライメント列を生成した段階、すなわち、アライメントコスト記憶手段20に記憶されているアライメント列が1系列のみになるまで、順次、アライメント列を生成し、テンプレート生成手段40に出力する。   Then, from the alignment sequence of all the two series, a new alignment sequence is generated, that is, until the alignment sequence stored in the alignment cost storage unit 20 is only one sequence, the alignment sequence is sequentially generated, It outputs to the template production | generation means 40.

テンプレート生成手段40は、アライメント列生成手段30で生成された複数のアライメント系列を、要素を頂点とする有向グラフに変換し、表現テンプレートとして生成するものである。ここでは、テンプレート生成手段40は、有向グラフ生成手段41と、有向グラフ制限手段42とを備える。   The template generation unit 40 converts the plurality of alignment sequences generated by the alignment sequence generation unit 30 into a directed graph having elements as vertices, and generates an expression template. Here, the template generation unit 40 includes a directed graph generation unit 41 and a directed graph restriction unit 42.

有向グラフ生成手段41は、複数のアライメント列を、当該アライメント列を構成する要素を頂点とする有向グラフに変換するものである。ここでは、有向グラフ生成手段41は、要素を頂点(ノード)とし、アライメント列で先に出現する要素を始点、次に出現する要素を終点とする方向性を有する辺を定義する。これによって、有向グラフ生成手段41は、アライメント列から、有向グラフによって定型化した表現テンプレートを生成することができる。   The directed graph generation means 41 converts a plurality of alignment columns into a directed graph having vertices as elements constituting the alignment columns. Here, the directed graph generation means 41 defines an edge having directionality with an element as a vertex (node), an element that appears first in the alignment sequence as a start point, and an element that appears next as an end point. Thereby, the directed graph generation means 41 can generate an expression template standardized by the directed graph from the alignment sequence.

なお、ここでは、有向グラフ生成手段41は、アライメント列で同一の辺を共有する場合には、その辺に共有する数だけ度数を付与することとする。これによって、要素のつながりの頻度を数値化することができる。   Here, when the directed graph generation unit 41 shares the same side in the alignment sequence, the directed graph generation unit 41 assigns the frequency to the number shared by the side. As a result, the frequency of connection of elements can be quantified.

有向グラフ制限手段42は、有向グラフ生成手段41で生成されたアライメント列ごとに生成された有向グラフから、予め定めた基準に基づいて、最適な有向グラフ(表現テンプレート)を選択するものである。例えば、有向グラフ制限手段42は、以下の<基準B1〜基準B3>のいずれかによって有向グラフを選択する。   The directed graph restriction unit 42 selects an optimum directed graph (expression template) from the directed graph generated for each alignment sequence generated by the directed graph generation unit 41 based on a predetermined criterion. For example, the directed graph restriction unit 42 selects a directed graph according to any of the following <reference B1 to reference B3>.

<基準B1 辺の頻度による選択>
有向グラフ制限手段42は、有向グラフ生成手段41で生成された有向グラフの中から、有向グラフの辺に付与された度数が、予め定めた頻度以下の辺の数が最小となる有向グラフを選択する。これによって、より使用頻度の高い表現テンプレートを生成することができる。
<Selection based on frequency of reference B1 side>
The directed graph restriction unit 42 selects, from the directed graphs generated by the directed graph generation unit 41, a directed graph in which the number of edges whose frequency given to an edge of the directed graph is equal to or less than a predetermined frequency is minimized. As a result, an expression template having a higher use frequency can be generated.

<基準B2 頂点数による選択>
有向グラフ制限手段42は、有向グラフ生成手段41で生成された有向グラフの中から、有効グラフの頂点の数が最小となる有向グラフを選択する。これによって、同一の要素が別の頂点となっている可能性を低くすることができる。
<Selection based on the number of vertices in reference B2>
The directed graph restriction unit 42 selects a directed graph having the minimum number of vertices of the effective graph from the directed graphs generated by the directed graph generation unit 41. This can reduce the possibility that the same element is another vertex.

<基準3 辺数による選択>
有向グラフ制限手段42は、有向グラフ生成手段41で生成された有向グラフの中から、有効グラフの辺の数が最小となる有向グラフを選択する。これによって、基準B2と同様、同一の要素が別の頂点となっている可能性を低くすることができる。
<Standard 3 Selection by number of sides>
The directed graph restriction unit 42 selects a directed graph that minimizes the number of sides of the effective graph from the directed graphs generated by the directed graph generation unit 41. As a result, like the reference B2, the possibility that the same element is a different vertex can be reduced.

以上説明したように表現テンプレート生成装置1を構成することで、動的計画法を用いたマルチプルアライメントにおいて、複数の最適経路を後段のアライメントへの入力とすることができるため、同一のアライメントコストを有するアライメント列によって再帰的にアライメントが行われることになる。これによって、表現テンプレート生成装置1は、マルチプルアライメントにおいて適切な解を途中で除去せずにアライメントを行うことができるため、複数のテキスト文書から、典型的な表現を示す表現テンプレートを精度よく生成することができる。   By configuring the expression template generation device 1 as described above, in multiple alignment using dynamic programming, a plurality of optimum paths can be input to the subsequent alignment. Alignment is performed recursively by the alignment sequence that has. As a result, the expression template generation device 1 can perform alignment without removing an appropriate solution in the middle of multiple alignment. Therefore, the expression template generation apparatus 1 accurately generates an expression template indicating a typical expression from a plurality of text documents. be able to.

また、表現テンプレート生成装置1は、マルチプルアライメントにおいて、動的計画法における経路数を制限するため、指数関数的な経路数の増大を防止し、計算量を抑えることができる。   In addition, since the expression template generation device 1 limits the number of paths in dynamic programming in multiple alignment, it can prevent an exponential increase in the number of paths and suppress the amount of calculation.

以上、表現テンプレート生成装置1の構成について説明したが、本発明はこれに限定されるものではない。ここでは、入力されるテキスト文書が予め形態素ごとに分割されていることとしたが、形態素ごとに分割されていないテキスト文書を入力する場合であれば、形態素の読み、品詞、活用型等を記憶した形態素辞書(図示せず)を参照して、形態素解析を行う形態素解析手段(図示せず)をさらに備え、テキスト文書を形態素ごとに分割したものをアライメントコスト算出手段10への入力とすることとしてもよい。   As mentioned above, although the structure of the expression template production | generation apparatus 1 was demonstrated, this invention is not limited to this. Here, it is assumed that the text document to be input is divided in advance for each morpheme, but if a text document that is not divided for each morpheme is input, the reading of the morpheme, the part of speech, the utilization type, etc. are stored. Referring to the morpheme dictionary (not shown), a morpheme analysis unit (not shown) for performing morpheme analysis is further provided, and a text document divided into morphemes is input to the alignment cost calculation unit 10. It is good.

また、表現テンプレート生成装置1は、図示を省略したCPUやメモリを搭載した一般的なコンピュータで実現することができる。このとき、表現テンプレート生成装置1は、コンピュータを、前記した各手段として機能させる表現テンプレート生成プログラムによって動作する。   The expression template generation device 1 can be realized by a general computer having a CPU and a memory (not shown). At this time, the expression template generation apparatus 1 operates according to an expression template generation program that causes a computer to function as each of the above-described means.

[表現テンプレート生成装置の動作]
次に、図7および図8を参照して、本発明の動作について説明する。図7は、本発明の実施の形態に係る表現テンプレート生成装置の全体動作を示すフローチャートである。図8は、本発明の実施の形態に係る表現テンプレート生成装置のアライメント列生成手段におけるアライメント動作を示すフローチャートである。
[Operation of expression template generator]
Next, the operation of the present invention will be described with reference to FIGS. FIG. 7 is a flowchart showing the overall operation of the expression template generation apparatus according to the embodiment of the present invention. FIG. 8 is a flowchart showing the alignment operation in the alignment sequence generation means of the expression template generation apparatus according to the embodiment of the present invention.

(全体動作)
最初に、図7を参照(構成については適宜図3参照)して、表現テンプレート生成装置1の全体動作について説明する。
(Overall operation)
First, the overall operation of the expression template generation device 1 will be described with reference to FIG.

まず、表現テンプレート生成装置1は、アライメントコスト算出手段10によって、複数のテキスト文書のすべての2組ごとの組み合わせについて、2組ごとのテキスト文書の編集距離に基づいて、テキスト文書間の類似の度合を示すアライメントコストを算出する(ステップS1)。   First, the expression template generation device 1 uses the alignment cost calculation unit 10 to calculate the degree of similarity between text documents based on the edit distance of the text documents for each of the two sets of the plurality of text documents. Is calculated (step S1).

そして、表現テンプレート生成装置1は、アライメントコスト算出手段10によって、ステップS1で生成したアライメントコスト順に、2組のテキスト文書とアライメントコストとを対応付けたアライメントコスト一覧を生成し、アライメントコスト記憶手段20に記憶する(ステップS2)。これによって、M系列のテキスト文書のすべての2組ごとの組み合わせ(通り)について、アライメントコストの一覧が生成される。 Then, the expression template generation device 1 generates an alignment cost list in which the two sets of text documents and the alignment costs are associated with each other in the order of the alignment costs generated in step S1 by the alignment cost calculation unit 10, and the alignment cost storage unit 20 (Step S2). As a result, a list of alignment costs is generated for every two combinations ( M C 2 types) of the M-sequence text document.

その後、表現テンプレート生成装置1は、アライメント列生成手段30によって、アライメントコスト記憶手段20に記憶されているアライメントコストの低い2系列のテキスト文書から順に、動的計画法によりアライメントを行い、1つ以上の新たなアライメント列を生成する(ステップS3)。なお、このステップS3の動作については、図8を参照して後で説明することとする。   After that, the expression template generation device 1 performs alignment by dynamic programming in order from the two series of text documents having the lowest alignment cost stored in the alignment cost storage unit 20 by the alignment column generation unit 30. A new alignment sequence is generated (step S3). The operation in step S3 will be described later with reference to FIG.

ステップS3の動作後、表現テンプレート生成装置1は、アライメント列生成手段30によって、アライメントされた2系列のデータの内の一方のデータを、アライメントコスト記憶手段20から削除する(ステップS4)。これによって、アライメント列生成手段30は、アライメントが終わった一方の系列データを、動的計画法の対象から削除する。   After the operation of step S3, the expression template generation device 1 deletes one of the two sequences of aligned data from the alignment cost storage unit 20 by the alignment column generation unit 30 (step S4). As a result, the alignment sequence generation means 30 deletes one of the series data that has been aligned from the target of the dynamic programming.

そして、表現テンプレート生成装置1は、アライメントコスト記憶手段20に記憶されているアライメントコスト一覧のデータの残りが1つになったか否かを判定する(ステップS5)。   And the expression template production | generation apparatus 1 determines whether the remainder of the data of the alignment cost list memorize | stored in the alignment cost memory | storage means 20 became one (step S5).

ここでアライメントコスト一覧のデータの残りが2つ以上の場合(ステップS5でNo)、表現テンプレート生成装置1は、ステップS3に戻って、次にアライメントコストが低い2系列のアライメント列についてアライメントを行う。
一方、アライメントコスト一覧のデータの残りが1つになった場合(ステップS5でYes)、表現テンプレート生成装置1は、テンプレート生成手段40の有向グラフ生成手段41によって、ステップS3〜S4の動作によって生成された複数のアライメント系列から、要素を頂点とした有向グラフを生成する(ステップS6)
If there are two or more remaining data in the alignment cost list (No in step S5), the expression template generation device 1 returns to step S3 and performs alignment for the next two alignment strings with the lowest alignment cost. .
On the other hand, when the remaining data of the alignment cost list becomes one (Yes in step S5), the expression template generation device 1 is generated by the directed graph generation unit 41 of the template generation unit 40 by the operations of steps S3 to S4. A directed graph with the elements as vertices is generated from the plurality of alignment sequences (step S6).

その後、表現テンプレート生成装置1は、有向グラフ制限手段42によって、ステップS6で生成された有向グラフから、予め定めた基準に基づいて、最適な有向グラフを選択し、表現テンプレートとして出力する(ステップS7)。   After that, the expression template generation device 1 selects an optimum directed graph from the directed graph generated in step S6 by the directed graph restriction unit 42 based on a predetermined criterion and outputs it as an expression template (step S7).

以上の動作によって、表現テンプレート生成装置1は、複数の類似したテキスト文書から、典型的な表現を表現テンプレートとして生成することができる。   With the above operation, the expression template generating apparatus 1 can generate a typical expression as an expression template from a plurality of similar text documents.

(アライメント動作)
次に、図8を参照(構成については適宜図3参照)して、表現テンプレート生成装置1のアライメント列生成手段におけるアライメント動作について説明する。この動作は、図7で説明したステップS3の動作に相当するものである。
(Alignment operation)
Next, referring to FIG. 8 (refer to FIG. 3 as appropriate for the configuration), the alignment operation in the alignment sequence generation means of the expression template generation device 1 will be described. This operation corresponds to the operation in step S3 described in FIG.

まず、表現テンプレート生成装置1は、アライメント列生成手段30の経路テーブル生成手段31によって、アライメントコスト記憶手段20から、最もアライメントコストの小さい2つのテキスト文書において、アライメント列を選択し、このアライメント列に含まれる2つのアライメントの要素列を2軸とする動的計画法の経路テーブルを生成する(ステップS31)。なお、このとき、アライメント列生成手段30は、動的計画法の経路テーブルのセルにおいて、各経路の編集距離(コスト)が異なる場合は、最適(コストが最小)な経路のみを当該セルに対応付けて記憶し、編集距離が同一である場合は、編集距離が同一の経路をすべて当該セルに対応付けて記憶する。これによって、トレースバック時に当該セルを経由する経路が1以上となる。   First, the expression template generation apparatus 1 selects an alignment column in the two text documents with the lowest alignment cost from the alignment cost storage unit 20 by the route table generation unit 31 of the alignment column generation unit 30 and selects the alignment column as the alignment column. A dynamic programming path table is generated with two included alignment element strings as two axes (step S31). At this time, in the cell of the dynamic programming route table, the alignment sequence generation means 30 supports only the optimum route (minimum cost) for the cell when the edit distance (cost) of each route is different. If the edit distance is the same, all the routes having the same edit distance are stored in association with the cell. As a result, there are one or more routes through the cell during traceback.

そして、表現テンプレート生成装置1は、経路逆探索手段32によって、ステップS31で生成された経路テーブルを逆探索(トレースバック)することで、複数のアライメント列を生成する(ステップS32)。   And the expression template production | generation apparatus 1 produces | generates a some alignment row | line | column by carrying out reverse search (trace back) of the route table produced | generated by step S31 by the route reverse search means 32 (step S32).

そして、表現テンプレート生成装置1は、アライメント数制限手段33によって、ステップS32で生成されたアライメント列について、予め定めた基準に基づいて、生成するアライメント列数を制限する(ステップS33)。   And the expression template production | generation apparatus 1 restrict | limits the number of alignment row | line | columns produced | generated by the alignment number restriction | limiting means 33 based on the predetermined reference | standard about the alignment row | line | column produced | generated by step S32 (step S33).

以上の動作によって、表現テンプレート生成装置1は、動的計画法において、複数の最適経路を保持する場合であっても、指数関数的な経路数の増大を防止し、典型的な表現として現れる言い回し表現を残したアライメント列を生成することができる。   With the above operation, the expression template generation device 1 prevents the increase in the number of exponential paths even in the case of holding a plurality of optimum paths in the dynamic programming, and is expressed as a typical expression. An alignment sequence that retains the representation can be generated.

[従来手法との比較]
最後に、図9を参照して、従来のマルチプルアライメントと、本発明の実施の形態に係る表現テンプレート生成装置1におけるマルチプルアライメントとの比較結果について説明する。なお、ここでは、ある放送番組に対する意見をテキスト文書として入力し、表現テンプレートを生成した比較を行っている。
[Comparison with conventional methods]
Finally, with reference to FIG. 9, a comparison result between the conventional multiple alignment and the multiple alignment in the expression template generating apparatus 1 according to the embodiment of the present invention will be described. Here, an opinion on a certain broadcast program is input as a text document, and a comparison is made by generating an expression template.

図9は、有向グラフで表した表現テンプレートを示す図であって、(a)は従来手法により生成した表現テンプレート、(b)は本発明の手法により生成した表現テンプレートを示している。図9において、頂点には要素(形態素)が、辺には頂点の接続が対応する。また、辺に付加されている数字は、この接続を通過する意見がいくつあったかを示している。
この図9に示した表現テンプレートに含まれる表現を表形式に表すと、以下の〔表1〕のように複数の表現が抽出される。
FIG. 9 is a diagram showing an expression template represented by a directed graph, where (a) shows an expression template generated by the conventional technique, and (b) shows an expression template generated by the technique of the present invention. In FIG. 9, an element (morpheme) corresponds to a vertex, and a vertex connection corresponds to an edge. The numbers attached to the edges indicate how many opinions have passed through this connection.
When the expressions included in the expression template shown in FIG. 9 are represented in a table format, a plurality of expressions are extracted as shown in [Table 1] below.

Figure 2009181301
Figure 2009181301

この〔表1〕に示すように、本発明のマルチプルアライメントによれば、文末に現れる「すごい」、「すばらしい」が、抽出されているが、従来の手法においては、これらが抽出されていない。これは、従来の手法では、動的計画法の経路テーブルにおいて、セルに保持する経路が1つであるため、当該経路が削除されたものと考えられる。このように、本発明の実施の形態に係る表現テンプレート生成装置は、従来の手法では抽出できなかった表現を適切に抽出し、表現テンプレートとして生成することができる。   As shown in [Table 1], according to the multiple alignment of the present invention, “wow” and “great” appearing at the end of the sentence are extracted, but these are not extracted in the conventional method. This is probably because the conventional method has a single route stored in a cell in the dynamic programming route table, and the route has been deleted. As described above, the expression template generation apparatus according to the embodiment of the present invention can appropriately extract expressions that could not be extracted by the conventional method and generate them as expression templates.

文書分類判別システムの概略構成を示すブロック図である。It is a block diagram which shows schematic structure of a document classification discrimination system. 本発明の実施の形態に係る表現テンプレート生成装置が生成する表現テンプレートの一例を示す図である。It is a figure which shows an example of the expression template which the expression template production | generation apparatus which concerns on embodiment of this invention produces | generates. 本発明の実施の形態に係る表現テンプレート生成装置の全体構成を示すブロック図である。It is a block diagram which shows the whole structure of the expression template production | generation apparatus which concerns on embodiment of this invention. アライメントコスト記憶手段に記憶されるアライメントコスト一覧のデータ構造を示す構造図である。It is a structure figure which shows the data structure of the alignment cost list memorize | stored in an alignment cost memory | storage means. 経路テーブル生成手段が行う動的計画法の経路テーブルを生成する手法を説明するための説明図である。It is explanatory drawing for demonstrating the method of producing | generating the route table of the dynamic programming which a route table production | generation means performs. 経路逆探索手段が行う動的計画法の経路テーブルからアライメント列を生成する手法を説明するための説明図である。It is explanatory drawing for demonstrating the method of producing | generating an alignment row | line from the route table of the dynamic programming which a route reverse search means performs. 本発明の実施の形態に係る表現テンプレート生成装置の全体動作を示すフローチャートである。It is a flowchart which shows the whole operation | movement of the expression template production | generation apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る表現テンプレート生成装置のアライメント列生成手段におけるアライメント動作を示すフローチャートである。It is a flowchart which shows the alignment operation | movement in the alignment row | line | column production | generation means of the expression template production | generation apparatus which concerns on embodiment of this invention. 有向グラフで表した表現テンプレートを示す図であって、(a)は従来手法により生成した表現テンプレート、(b)は本発明の手法により生成した表現テンプレートを示している。It is a figure which shows the expression template represented with the directed graph, Comprising: (a) is the expression template produced | generated by the conventional method, (b) has shown the expression template produced | generated by the method of this invention.

符号の説明Explanation of symbols

S 文書分類判別システム
1 表現テンプレート生成装置
2 表現テンプレート記憶装置
3 分類判別装置
10 アライメントコスト算出手段
20 アライメントコスト記憶手段
30 アライメント列生成手段
31 経路テーブル生成手段
32 経路逆探索手段
33 アライメント数制限手段
40 テンプレート生成手段
41 有向グラフ生成手段
42 有向グラフ制限手段
S Document classification determination system 1 Expression template generation device 2 Expression template storage device 3 Classification determination device 10 Alignment cost calculation means 20 Alignment cost storage means 30 Alignment string generation means 31 Route table generation means 32 Path reverse search means 33 Alignment number restriction means 40 Template generation means 41 Directed graph generation means 42 Directed graph restriction means

Claims (5)

自然言語の複数の要素からなる複数の系列データに現れる典型的な表現を抽出し、表現テンプレートとして生成する表現テンプレート生成装置であって、
前記複数の系列データのすべての2組の組み合わせごとに、前記要素ごとの類似の度合を示す編集距離であるアライメントコストを算出するアライメントコスト算出手段と、
前記系列データをアライメント列とした2組の組み合わせごとに、前記アライメントコストを対応付けて記憶するアライメントコスト記憶手段と、
このアライメントコスト記憶手段に記憶されているアライメントコストの低いアライメント列から順に、2次元配列テーブルのセルに同一の編集距離となる経路を保持した動的計画法の経路テーブルを生成する経路テーブル生成手段と、
この経路テーブル生成手段で生成された経路テーブルにおいて、前記経路の逆探索を行うことで、複数の新たなアライメント列を生成する経路逆探索手段と、
この経路逆探索手段で生成された複数のアライメント列を、前記要素を頂点とする有向グラフに変換し、前記表現テンプレートとして生成する有向グラフ生成手段と、
を備えることを特徴とする表現テンプレート生成装置。
An expression template generation device that extracts typical expressions appearing in a plurality of series data composed of a plurality of elements of a natural language and generates them as an expression template,
An alignment cost calculating means for calculating an alignment cost that is an edit distance indicating a degree of similarity for each element for every two sets of combinations of the plurality of series data;
Alignment cost storage means for storing the alignment cost in association with each other for each of two combinations of the series data as an alignment column;
A path table generating unit that generates a path table for dynamic programming in which cells having the same edit distance are held in the cells of the two-dimensional array table in order from the alignment row having the lowest alignment cost stored in the alignment cost storage unit. When,
In the route table generated by the route table generating means, by performing a reverse search of the route, a route reverse search means for generating a plurality of new alignment sequences;
A plurality of alignment sequences generated by the path reverse search means, converted to a directed graph having the element as a vertex, and generated as the expression template;
An expression template generation device comprising:
前記経路逆探索手段が前記複数の新たなアライメント列を生成する際に、前記編集距離に基づいて、当該アライメント列のアライメントコストを算出し、
前記経路逆探索手段で算出されたアライメントコストに基づいて、前記アライメント列の数を制限するアライメント数制限手段をさらに備えることを特徴とする請求項1に記載の表現テンプレート生成装置。
When the path reverse search means generates the plurality of new alignment sequences, based on the editing distance, to calculate the alignment cost of the alignment sequence,
The expression template generation device according to claim 1, further comprising an alignment number limiting unit that limits the number of the alignment columns based on the alignment cost calculated by the path reverse search unit.
前記有向グラフ生成手段で生成された表現テンプレートにおいて、当該表現テンプレートの有効グラフを構成する辺の使用頻度、頂点の数または辺の数の少なくとも1つを基準として、前記有向グラフの枝刈りを行う有向グラフ制限手段をさらに備えることを特徴とする請求項1または請求項2に記載の表現テンプレート生成装置。   Directional graph restriction for pruning the directed graph based on at least one of the use frequency, the number of vertices, or the number of edges constituting the effective graph of the expression template in the expression template generated by the directed graph generation means The expression template generating apparatus according to claim 1, further comprising means. 自然言語の複数の要素からなる複数の系列データに現れる典型的な表現を抽出し、表現テンプレートとして生成する表現テンプレート生成方法であって、
前記要素ごとの類似の度合を示す編集距離であるアライメントコストを算出するアライメントコスト算出手段により、前記複数の系列データのすべての2組の組み合わせごとに前記アライメントコストを算出し、前記系列データをアライメント列とした2組の組み合わせごとに、前記アライメントコストを対応付けてアライメントコスト記憶手段に記憶するアライメントコスト算出ステップと、
2次元配列テーブルのセルに同一の編集距離となる経路を保持した動的計画法の経路テーブルを生成する経路テーブル生成手段により、前記アライメントコスト記憶手段に記憶されているアライメントコストの低いアライメント列から順に、前記経路テーブルを生成する経路テーブル生成ステップと、
前記経路テーブルを逆探索する経路逆探索手段により、前記経路テーブル生成ステップで生成された経路テーブルにおいて、前記経路の逆探索を行うことで、複数の新たなアライメント列を生成する経路逆探索ステップと、
前記要素を頂点とする有向グラフを生成する有向グラフ生成手段により、前記経路逆探索ステップで生成された複数のアライメント列を前記有向グラフに変換し、前記表現テンプレートとして生成する有向グラフ生成ステップと、
を含むことを特徴とする表現テンプレート生成方法。
An expression template generation method for extracting a typical expression appearing in a plurality of series data composed of a plurality of elements of a natural language and generating as an expression template,
The alignment cost is calculated for every two combinations of the plurality of series data by an alignment cost calculation means for calculating an alignment cost that is an edit distance indicating the degree of similarity for each element, and the series data is aligned. Alignment cost calculation step for associating and storing the alignment cost in the alignment cost storage means for each of the two combinations in a row;
From the alignment sequence with low alignment cost stored in the alignment cost storage means, the path table generation means for generating a dynamic programming path table that holds the paths having the same edit distance in the cells of the two-dimensional array table. In order, a route table generating step for generating the route table;
A route reverse search step for generating a plurality of new alignment sequences by performing a reverse search of the route in the route table generated in the route table generation step by a route reverse search means for reverse searching the route table; ,
A directed graph generation step of converting a plurality of alignment sequences generated in the path reverse search step into the directed graph by the directed graph generation means for generating a directed graph having the elements as vertices, and generating the representation template,
A method for generating an expression template characterized by comprising:
自然言語の複数の要素からなる複数の系列データに現れる典型的な表現を抽出し、表現テンプレートとして生成するために、コンピュータを、
前記複数の系列データのすべての2組の組み合わせごとに、前記要素ごとの類似の度合を示す編集距離であるアライメントコストを算出し、前記系列データをアライメント列とした2組の組み合わせごとに、前記アライメントコストを対応付けてアライメントコスト記憶手段に記憶するアライメントコスト算出手段、
前記アライメントコスト記憶手段に記憶されているアライメントコストの低いアライメント列から順に、2次元配列テーブルのセルに同一の編集距離となる経路を保持した動的計画法の経路テーブルを生成する経路テーブル生成手段、
この経路テーブル生成手段で生成された経路テーブルにおいて、前記経路の逆探索を行うことで、複数の新たなアライメント列を生成する経路逆探索手段、
この経路逆探索手段で生成された複数のアライメント列を、前記要素を頂点とする有向グラフに変換し、前記表現テンプレートとして生成する有向グラフ生成手段、
として機能させることを特徴とする表現テンプレート生成プログラム。
In order to extract typical expressions appearing in a plurality of series data composed of a plurality of elements of natural language and generate them as expression templates,
For every two sets of combinations of the plurality of series data, an alignment cost that is an edit distance indicating the degree of similarity for each element is calculated, and for each of the two sets of combinations using the series data as an alignment column, Alignment cost calculation means for associating alignment costs and storing them in alignment cost storage means,
A path table generating unit that generates a path table for dynamic programming in which a path having the same edit distance is held in a cell of a two-dimensional array table in order from an alignment row having a low alignment cost stored in the alignment cost storage unit. ,
In the route table generated by the route table generating means, reverse route search means for generating a plurality of new alignment sequences by performing reverse search of the route,
A directed graph generation unit that converts a plurality of alignment sequences generated by the path reverse search unit into a directed graph having the element as a vertex, and generates the expression template,
An expression template generation program characterized by functioning as
JP2008019249A 2008-01-30 2008-01-30 Expression template generation apparatus, method and program thereof Expired - Fee Related JP5022252B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008019249A JP5022252B2 (en) 2008-01-30 2008-01-30 Expression template generation apparatus, method and program thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008019249A JP5022252B2 (en) 2008-01-30 2008-01-30 Expression template generation apparatus, method and program thereof

Publications (2)

Publication Number Publication Date
JP2009181301A true JP2009181301A (en) 2009-08-13
JP5022252B2 JP5022252B2 (en) 2012-09-12

Family

ID=41035246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008019249A Expired - Fee Related JP5022252B2 (en) 2008-01-30 2008-01-30 Expression template generation apparatus, method and program thereof

Country Status (1)

Country Link
JP (1) JP5022252B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013186764A (en) * 2012-03-09 2013-09-19 Kddi Corp Tagging program, device, method and server for attaching tag of categories which cannot be directly derived from target sentence
JP2016091078A (en) * 2014-10-30 2016-05-23 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation Generation apparatus, generation method, and program
CN110175363A (en) * 2019-04-25 2019-08-27 西门子电站自动化有限公司 The generation method of the production drawing of Distributed Control System
JP2020098592A (en) * 2018-12-18 2020-06-25 富士通株式会社 Method, device and storage medium of extracting web page content

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271616A (en) * 2002-03-13 2003-09-26 Ricoh Co Ltd Document classification device, document classification method and recording medium
JP2007072663A (en) * 2005-09-06 2007-03-22 Advanced Telecommunication Research Institute International Example translation device and example translation method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271616A (en) * 2002-03-13 2003-09-26 Ricoh Co Ltd Document classification device, document classification method and recording medium
JP2007072663A (en) * 2005-09-06 2007-03-22 Advanced Telecommunication Research Institute International Example translation device and example translation method

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013186764A (en) * 2012-03-09 2013-09-19 Kddi Corp Tagging program, device, method and server for attaching tag of categories which cannot be directly derived from target sentence
JP2016091078A (en) * 2014-10-30 2016-05-23 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation Generation apparatus, generation method, and program
US10289674B2 (en) 2014-10-30 2019-05-14 International Business Machines Corporation Generation apparatus, generation method, and program
US10296579B2 (en) 2014-10-30 2019-05-21 International Business Machines Corporation Generation apparatus, generation method, and program
JP2020098592A (en) * 2018-12-18 2020-06-25 富士通株式会社 Method, device and storage medium of extracting web page content
CN111339396A (en) * 2018-12-18 2020-06-26 富士通株式会社 Method, apparatus and computer storage medium for extracting web page content
JP7347179B2 (en) 2018-12-18 2023-09-20 富士通株式会社 Methods, devices and computer programs for extracting web page content
CN111339396B (en) * 2018-12-18 2024-04-16 富士通株式会社 Method, device and computer storage medium for extracting webpage content
CN110175363A (en) * 2019-04-25 2019-08-27 西门子电站自动化有限公司 The generation method of the production drawing of Distributed Control System

Also Published As

Publication number Publication date
JP5022252B2 (en) 2012-09-12

Similar Documents

Publication Publication Date Title
CN104462085B (en) Search key error correction method and device
JP4940973B2 (en) Logical structure recognition processing program, logical structure recognition processing method, and logical structure recognition processing apparatus
CN107025239B (en) Sensitive word filtering method and device
JP5115741B2 (en) Retrieval method, similarity calculation method, similarity calculation and same document collation system, and program thereof
JP6003705B2 (en) Information processing apparatus and information processing program
CN112256842B (en) Method, electronic device and storage medium for text clustering
JP6599219B2 (en) Reading imparting device, reading imparting method, and program
JP5022252B2 (en) Expression template generation apparatus, method and program thereof
JP2002032770A (en) Method and system for processing document and medium
US9524354B2 (en) Device, method, and program for processing data with tree structure
JP5812534B2 (en) Question answering apparatus, method, and program
WO2016181468A1 (en) Pattern recognition device, pattern recognition method and program
Prutskov Algorithmic provision of a universal method for word-form generation and recognition
JP5203324B2 (en) Text analysis apparatus, method and program for typographical error
Granell et al. An interactive approach with off-line and on-line handwritten text recognition combination for transcribing historical documents
WO2010026804A1 (en) Approximate collation device, approximate collation method, program, and recording medium
CN102567424B (en) Poetry association library system and realization method thereof as well as electronic learning equipment
CN110413779B (en) Word vector training method, system and medium for power industry
Gholami-Dastgerdi et al. Part of speech tagging using part of speech sequence graph
JP5521670B2 (en) Pattern matching device, translation device, translation system, and translation program
CN116013278B (en) Speech recognition multi-model result merging method and device based on pinyin alignment algorithm
JP6613666B2 (en) Word rearrangement learning device, word rearrangement device, method, and program
JP2020077236A (en) Search program, search method and search device
JP2018073298A (en) Method for automatic extraction/creation of means/method by artificial intelligence device
JP6765992B2 (en) Hyperspheric spatial language model generator, query likelihood calculator, these methods and programs

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100310

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120522

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120615

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150622

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees