JP2009181301A - Expression template generating system, its method, and its program - Google Patents
Expression template generating system, its method, and its program Download PDFInfo
- Publication number
- JP2009181301A JP2009181301A JP2008019249A JP2008019249A JP2009181301A JP 2009181301 A JP2009181301 A JP 2009181301A JP 2008019249 A JP2008019249 A JP 2008019249A JP 2008019249 A JP2008019249 A JP 2008019249A JP 2009181301 A JP2009181301 A JP 2009181301A
- Authority
- JP
- Japan
- Prior art keywords
- alignment
- expression template
- route
- generating
- cost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、複数の系列データ(テキスト文書)から典型的な表現を抽出した表現テンプレートを生成する表現テンプレート生成装置、その方法およびそのプログラムに関する。 The present invention relates to an expression template generation apparatus that generates an expression template obtained by extracting typical expressions from a plurality of series data (text documents), a method thereof, and a program thereof.
従来、自然言語の文書において、類似した文書群についてアライメント(整列)を行い、その類似した文書群から典型的な表現を抽出することで、種々の文書を分類する手法が知られている(例えば、特許文献1、非特許文献1,2参照)。
Conventionally, there is known a method for classifying various documents by aligning similar documents in a natural language document and extracting typical expressions from the similar documents (for example,
これらの手法によれば、複数の類似する文書群に含まれる2つの文書ごとに、例えば、動的計画法(非特許文献3参照)によって文書をアライメントし、複数の文書群から、共通するアライメントのデータを抽出することで、当該文書群の典型的な表現を示す表現テンプレートを生成する。このように、従来の手法によれば、類似する文書群ごとに表現テンプレートを生成するため、文書をその文書内に含まれる表現によって分類することができる。すなわち、従来の手法は、予め表現テンプレートを学習しておくことで、新たに入力される文書を、表現テンプレートとの類似の度合に基づいて分類することが可能になる。 According to these methods, for every two documents included in a plurality of similar document groups, for example, a document is aligned by dynamic programming (see Non-Patent Document 3), and a common alignment is obtained from the plurality of document groups. By extracting the data, an expression template indicating a typical expression of the document group is generated. Thus, according to the conventional method, an expression template is generated for each group of similar documents, so that the documents can be classified according to the expressions included in the documents. That is, according to the conventional method, by learning the expression template in advance, it is possible to classify a newly input document based on the degree of similarity with the expression template.
なお、前記した2つ以上の系列データをアライメントする手法は、一般に、マルチプルアライメントと呼ばれている。このマルチプルアライメントは、2つの系列データのアライメントを多数の系列データに拡張したアルゴリズムである。通常、2つの系列データのアライメントは、動的計画法(非特許文献3参照)によって2次元のテーブルを用いて厳密解を求めることができる。しかし、入力される系列データがM次元の場合、動的計画法により解決するためには、M次元のテーブルが必要になるため計算量が膨大になり現実的ではない。そこで、マルチプルアライメントでは、2系列データのアライメントを再帰的に繰り返すことで、近似解を求めることとしている。
従来のマルチプルアライメントは、2系列データのアライメントを再帰的に繰り返すため、1回のアライメントにより選択されたアライメントの系列データが、後段のアライメントに影響を及ぼすことになる。 Since the conventional multiple alignment recursively repeats the alignment of two series of data, the series of alignment data selected by one alignment affects the subsequent alignment.
一般に、自然言語の文書をアライメントすると、類似の度合が一致するアライメント列が複数存在することになる。この場合、類似の度合が一致しても、すべてが必ずしも最適なアライメントである保証がないため、従来のように1つのアライメント列を選択すると、最適なアライメント列が選択されるとは限らない。このように、従来のマルチプルアライメントは、必ずしも最適とはいえないアライメントの系列データが選択されるため、再帰的に繰り返された解は、全体として不適切なアライメントとなってしまうという問題がある。 In general, when a natural language document is aligned, there are a plurality of alignment columns with similar degrees of matching. In this case, even if the degrees of similarity match, there is no guarantee that all are optimally aligned. Therefore, when one alignment column is selected as in the prior art, the optimal alignment column is not always selected. As described above, in the conventional multiple alignment, alignment series data that is not necessarily optimal is selected, and therefore, a recursively repeated solution results in an inappropriate alignment as a whole.
本発明は、以上のような課題を解決するためになされたものであり、自然言語の類似した複数の系列データ(テキスト文書)から、典型的な表現を抽出した表現テンプレートを精度よく生成することが可能な表現テンプレート生成装置、その方法およびそのプログラムを提供することを目的とする。 The present invention has been made to solve the above problems, and accurately generates an expression template obtained by extracting a typical expression from a plurality of series data (text documents) similar in natural language. It is an object of the present invention to provide an expression template generation apparatus, a method thereof, and a program thereof capable of performing
本発明は、前記目的を達成するために創案されたものであり、まず、請求項1に記載の表現テンプレート生成装置は、自然言語の複数の要素からなる複数の系列データに現れる典型的な表現を抽出し、表現テンプレートとして生成する表現テンプレート生成装置であって、アライメントコスト算出手段と、アライメントコスト記憶手段と、経路テーブル生成手段と、経路逆探索手段と、有向グラフ生成手段と、を備える構成とした。
The present invention was created to achieve the above object, and first, the expression template generation device according to
かかる構成において、表現テンプレート生成装置は、アライメントコスト算出手段によって、複数の系列データのすべての2組の組み合わせごとに、要素ごとの類似の度合を示す編集距離であるアライメントコストを算出し、系列データをアライメント列とした2組の組み合わせごとにアライメントコストと対応付けてアライメントコスト記憶手段に記憶する。これによって、アライメントを行うための初期化データが、アライメントコスト記憶手段に記憶されることになる。なお、ここで、編集距離とは、2つの系列データがどの程度異なっているのかを示す数値であって、一方の系列データを要素の挿入、削除、置換によって他方の系列データに変形するための回数を距離とみなした数値である。 In such a configuration, the expression template generation device calculates an alignment cost, which is an editing distance indicating the degree of similarity for each element, for each combination of all two sets of a plurality of series data by the alignment cost calculation unit, and the series data Is stored in the alignment cost storage means in association with the alignment cost for each of the two combinations of the alignment column. As a result, initialization data for performing alignment is stored in the alignment cost storage means. Here, the edit distance is a numerical value indicating how much the two series data are different, and is used to transform one series data into the other series data by inserting, deleting, or replacing elements. It is a numerical value in which the number of times is regarded as a distance.
そして、表現テンプレート生成装置は、経路テーブル生成手段によって、アライメントコストの低い、すなわち、より類似の度合が高いアライメント列から順に、2次元配列テーブルのセルに同一の編集距離となる経路を保持した動的計画法の経路テーブルを生成する。これによって、経路テーブルには、編集距離が同一である場合に1つの経路に限定されず、複数の経路が保持されることになる。そして、表現テンプレート生成装置は、経路逆探索手段によって、経路テーブル生成手段で生成された経路テーブルにおいて、経路の逆探索を行うことで、複数の新たなアライメント列を生成する。これによって、表現テンプレート生成装置は、マルチプルアライメントにおいて、曖昧性を保持したアライメント列を生成することができる。 Then, the expression template generation device uses the route table generation means to move the motions in which the routes having the same edit distance are held in the cells of the two-dimensional array table in order from the alignment row having the lower alignment cost, that is, the higher similarity degree. Generate a path table for static programming. Thereby, the route table is not limited to one route when the editing distance is the same, and a plurality of routes are held. Then, the expression template generation device generates a plurality of new alignment sequences by performing a reverse search of the route in the route table generated by the route table generation unit by the route reverse search unit. As a result, the expression template generation device can generate an alignment sequence retaining ambiguity in multiple alignment.
そして、表現テンプレート生成装置は、有向グラフ生成手段によって、経路逆探索手段で生成された複数のアライメント列を、要素を頂点とする有向グラフに変換し、表現テンプレートとして生成する。このように、表現テンプレート生成装置は、複数の系列データをアライメントすることで、系列データに現れる典型的な表現が抽出され、テンプレート化することができる。 Then, the expression template generation device converts the plurality of alignment sequences generated by the path reverse search means into a directed graph having elements as vertices by the directed graph generation means, and generates the expression template. In this way, the expression template generation device can extract a typical expression appearing in the sequence data by aligning the plurality of sequence data, and can make a template.
また、請求項2に記載の表現テンプレート生成装置は、請求項1に記載の表現テンプレート生成装置において、経路逆探索手段が複数の新たなアライメント列を生成する際に、編集距離に基づいて、当該アライメント列のアライメントコストを算出し、この経路逆探索手段で算出されたアライメントコストに基づいて、アライメント列の数を制限するアライメント数制限手段をさらに備える構成とした。
The expression template generation device according to
かかる構成において、表現テンプレート生成装置は、経路逆探索手段で探索された複数のアライメント列から、予め定めた基準により、アライメントコストの低いもののみを残す。これによって、再帰的に処理が行われる動的計画法において、複数の経路が探索される場合であっても、その増加を抑えることができる。 In such a configuration, the expression template generation device leaves only a low alignment cost according to a predetermined criterion from a plurality of alignment sequences searched by the path reverse search means. As a result, in a dynamic programming method in which processing is performed recursively, even if a plurality of routes are searched, the increase can be suppressed.
さらに、請求項3に記載の表現テンプレート生成装置は、請求項1または請求項2に記載の表現テンプレート生成装置において、有向グラフ制限手段をさらに備える構成とした。
Furthermore, the expression template generation device according to
かかる構成において、表現テンプレート生成装置は、有向グラフ制限手段によって、有向グラフ生成手段で生成された表現テンプレートにおいて、当該表現テンプレートの有効グラフを構成する辺の使用頻度、頂点の数または辺の数の少なくとも1つを基準として、有向グラフの枝刈りを行う。これによって、表現として出現頻度が少ない言い回しを有向グラフから削除することができる。 In such a configuration, the expression template generation device has at least one of the frequency of use of the edges constituting the effective graph of the expression template, the number of vertices, or the number of edges in the expression template generated by the directed graph generation means by the directed graph restriction means. Pruning a directed graph with one as a reference. As a result, it is possible to delete a phrase having a low appearance frequency as an expression from the directed graph.
また、請求項4に記載の表現テンプレート生成方法は、自然言語の複数の要素からなる複数の系列データに現れる典型的な表現を抽出し、表現テンプレートとして生成する表現テンプレート生成方法であって、アライメントコスト算出ステップと、経路テーブル生成ステップと、経路逆探索ステップと、有向グラフ生成ステップと、を含む手順とした。
The expression template generation method according to
かかる手順において、表現テンプレート生成方法は、アライメントコスト算出ステップで、複数の系列データのすべての2組の組み合わせごとに、要素ごとの類似の度合を示す編集距離であるアライメントコストを算出し、系列データをアライメント列とした2組の組み合わせごとにアライメントコストと対応付けてアライメントコスト記憶手段に記憶する。 In such a procedure, the expression template generation method calculates an alignment cost, which is an edit distance indicating a degree of similarity for each element, for each combination of all two sets of a plurality of series data in the alignment cost calculation step. Is stored in the alignment cost storage means in association with the alignment cost for each of the two combinations of the alignment column.
そして、表現テンプレート生成方法は、経路テーブル生成ステップで、アライメントコストの低いアライメント列から順に、2次元配列テーブルのセルに同一の編集距離となる経路を保持した動的計画法の経路テーブルを生成する。そして、表現テンプレート生成方法は、経路逆探索ステップで、経路テーブル生成ステップで生成された経路テーブルにおいて、経路の逆探索を行うことで、複数の新たなアライメント列を生成する。そして、表現テンプレート生成方法は、有向グラフ生成ステップで、経路逆探索ステップで生成された複数のアライメント列を、要素を頂点とする有向グラフに変換し、表現テンプレートとして生成する。 In the expression template generation method, in a path table generation step, a dynamic programming path table is generated in which the paths having the same edit distance are held in the cells of the two-dimensional array table in order from the alignment column having the lowest alignment cost. . The expression template generation method generates a plurality of new alignment sequences by performing a reverse search of the route in the route table generated in the route table generation step in the route reverse search step. In the expression template generation method, in the directed graph generation step, the plurality of alignment sequences generated in the path reverse search step are converted into directed graphs having elements as vertices, and generated as expression templates.
また、請求項5に記載の表現テンプレート生成プログラムは、自然言語の複数の要素からなる複数の系列データに現れる典型的な表現を抽出し、表現テンプレートとして生成するために、コンピュータを、アライメントコスト算出手段、経路テーブル生成手段と、経路逆探索手段、有向グラフ生成手段、として機能させる構成とした。 An expression template generation program according to claim 5 extracts a typical expression appearing in a plurality of sequence data composed of a plurality of elements of a natural language and generates a computer as an alignment cost for generating an expression template. Means, route table generation means, route reverse search means, and directed graph generation means.
かかる構成において、表現テンプレート生成プログラムは、アライメントコスト算出手段によって、複数の系列データのすべての2組の組み合わせごとに、要素ごとの類似の度合を示す編集距離であるアライメントコストを算出し、系列データをアライメント列とした2組の組み合わせごとにアライメントコストと対応付けてアライメントコスト記憶手段に記憶する。 In such a configuration, the expression template generation program calculates an alignment cost, which is an edit distance indicating the degree of similarity for each element, for every two combinations of a plurality of series data by the alignment cost calculation means, and the series data Is stored in the alignment cost storage means in association with the alignment cost for each of the two combinations of the alignment column.
そして、表現テンプレート生成プログラムは、経路テーブル生成手段によって、アライメントコストの低いアライメント列から順に、2次元配列テーブルのセルに同一の編集距離となる経路を保持した動的計画法の経路テーブルを生成する。そして、表現テンプレート生成プログラムは、経路逆探索手段によって、経路テーブル生成手段で生成された経路テーブルにおいて、経路の逆探索を行うことで、複数の新たなアライメント列を生成する。そして、表現テンプレート生成プログラムは、有向グラフ生成手段によって、経路逆探索手段で生成された複数のアライメント列を、要素を頂点とする有向グラフに変換し、表現テンプレートとして生成する。 Then, the expression template generation program generates a path table for dynamic programming in which the path having the same edit distance is held in the cells of the two-dimensional array table in order from the alignment column having the lowest alignment cost by the path table generation means. . The expression template generation program generates a plurality of new alignment sequences by performing a reverse search of the route in the route table generated by the route table generation unit by the route reverse search unit. Then, the expression template generation program converts the plurality of alignment sequences generated by the path reverse search means into a directed graph having elements as vertices by the directed graph generation means, and generates the expression template.
本発明は、以下に示す優れた効果を奏するものである。
請求項1、請求項4または請求項5に記載の発明によれば、動的計画法のテーブルにおいて、セルに保持する経路を1つに限定せず、同一の編集距離(コスト)の経路を複数保持するため、最適なアライメント列を削除することない。このため、本発明は、微妙に違う表現であっても、従来のように削除せずに表現テンプレートに反映させることができる。
The present invention has the following excellent effects.
According to the invention of
請求項2に記載の発明によれば、動的計画法により生成されるアライメント列の数をアライメントコストにより制限するため、再帰的に生成されるアライメント列の数を抑え、演算コストを抑えることができる。
According to the invention described in
請求項3に記載の発明によれば、有向グラフの枝刈りを行うことで、複数の系列データで出現する頻度が少ない表現を除去することができる。これによって、本発明は、より典型的な表現のみを抽出することができ、表現を分類する精度が高い表現テンプレートを生成することができる。
According to the invention described in
[文書分類判別システムの概要]
最初に、図1を参照して、本発明の実施の形態に係る表現テンプレート生成装置を含んだ文書分類判別システムの概要について説明する。図1は、文書分類判別システムの概略構成を示すブロック図である。文書分類判別システムSは、予め定めた分類項目ごとに類似したテキスト文書群から、当該テキスト文書群内に現れる典型的な表現を表現テンプレートとして学習し、その学習結果である表現テンプレートに基づいて、新たに入力されるテキスト文書が、どの分類項目に属するかを判別するものである。ここでは、文書分類判別システムSは、表現テンプレート生成装置1と、表現テンプレート記憶装置2と、分類判別装置3とを備える。
[Overview of document classification system]
First, an overview of a document classification determination system including an expression template generation device according to an embodiment of the present invention will be described with reference to FIG. FIG. 1 is a block diagram showing a schematic configuration of a document classification discrimination system. The document classification determination system S learns typical expressions appearing in the text document group as expression templates from similar text document groups for each predetermined classification item, and based on the expression template that is the learning result, A classification item to which a newly input text document belongs is determined. Here, the document classification determination system S includes an expression
表現テンプレート生成装置1は、意見や感想を述べる対象が予め特定されている類似した意見や感想を記述したテキスト文書から、当該テキスト文書内に現れる典型的な表現を表現テンプレートとして生成するものである。例えば、表現テンプレート生成装置1は、書籍、映画、放送等に対する読者、視聴者からの意見を、「感動した」、「考えさせられた」、「意外だ」等に予め人手を介して分類した複数の類似したテキスト文書を対象として、分類項目ごとに表現テンプレートを生成する。
The expression
この表現テンプレート生成装置1で生成される表現テンプレートは、図2に示すように、「頂点」を形態素、「辺」を頂点の接続としたグラフ構造で表される。図2の例では、「素晴らしいと思った」、「素晴らしいと思いました」、「すごいと思った」、「すごいと思いました」の4通りの表現が、ある分類項目(例えば、「感動した」の分類項目)について生成されていることを示している。この表現テンプレート生成装置1で生成された表現テンプレートは、分類項目ごとに表現テンプレート記憶装置2に記憶される。
As shown in FIG. 2, the expression template generated by the expression
ここでは、表現テンプレート生成装置1は、類似したテキスト文書群A1〜ANから、それぞれのテキスト文書群A1〜ANに対応した表現テンプレートB1〜BNを生成し、表現テンプレート記憶装置2に記憶する。例えば、B1〜BNは、「感動した」、「考えさせられた」、「意外だ」等に対応する表現テンプレートとなる。
Here, the expression
表現テンプレート記憶装置2は、表現テンプレート生成装置1で生成された表現テンプレートを、分類項目ごとに学習結果として記憶するものであって、ハードディスク等の一般的な記憶装置である。
The expression
分類判別装置3は、表現テンプレート記憶装置2に記憶されている表現テンプレートに基づいて、新たに入力されたテキスト文書が、どの分類項目に属するものであるかを判別するものである。この分類判別装置3は、入力されたテキスト文書に、表現テンプレート記憶装置2に記憶されている表現テンプレートの表現が含まれている場合、例えば、入力された新たなテキスト文書Nに、「素晴らしいと思った」という表現が含まれている場合、図2の表現テンプレートに基づいて、当該テキスト文書を「感動した」の分類項目に属する文書であると判別する。
The
このように、文書分類判別システムSは、表現テンプレート生成装置1によって、分類項目ごとの表現テンプレートの学習処理を行い、分類判別装置3によって、新たなテキスト文書の判別処理を行う。以下、表現テンプレート生成装置1の構成および動作について詳細に説明する。
As described above, the document classification determination system S performs the learning process of the expression template for each classification item by the expression
[表現テンプレート生成装置の構成]
まず、図3を参照して、本発明の実施の形態に係る表現テンプレート生成装置の構成について説明する。図3は、本発明の実施の形態に係る表現テンプレート生成装置の全体構成を示すブロック図である。
[Configuration of Expression Template Generation Device]
First, with reference to FIG. 3, the structure of the expression template production | generation apparatus which concerns on embodiment of this invention is demonstrated. FIG. 3 is a block diagram showing the overall configuration of the expression template generation device according to the embodiment of the present invention.
ここでは、表現テンプレート生成装置1は、アライメントコスト算出手段10と、アライメントコスト記憶手段20と、アライメント列生成手段30と、テンプレート生成手段40とを備える。なお、表現テンプレート生成装置1に入力されるテキスト文書(系列データ)は、予め形態素ごとの要素に分割されているものとする。
Here, the expression
アライメントコスト算出手段10は、複数のテキスト文書のすべての2組の組み合わせごとに、要素ごとの類似の度合を示す編集距離であるアライメントコストを算出するものである。このアライメントコスト算出手段10は、算出したアライメントコストの低い順に、2組のテキスト文書を対応付けたアライメントコスト一覧をアライメントコスト記憶手段20に記憶しておく。
The alignment cost calculation means 10 calculates an alignment cost, which is an edit distance indicating the degree of similarity for each element, for every two combinations of a plurality of text documents. The alignment
ここでM系列の系列データ(テキスト文書)の要素の集合をΩ(M)、空要素(_)の集合を{_}、i、i′、i″を系列データの要素の順番(空要素を除く)を表す添字とすると、系列データ{W(1)},{W(2)}およびアライメント列{a(j)}は、以下の(1)式で表される。 Here, the set of elements of the M-series series data (text document) is Ω (M) , the set of empty elements (_) is {_}, i, i ′, i ″ are the order of the elements of the series data (empty elements If the subscript represents (except for), the sequence data {W (1) }, {W (2) } and the alignment sequence {a (j) } are expressed by the following equation (1).
また、空要素を含む系列データから、要素の順番を維持しながら空要素を取り除く関数をfomitとしたとき、系列データ{W(j)}は、以下の(2)式で表される。 Further, when a function that removes empty elements while maintaining the order of elements from series data including empty elements is defined as f_omit , the series data {W (j) } is expressed by the following equation (2).
なお、Editは、2つの要素の一致の有無に基づいた編集距離であって、以下の(4)式により予め定義しておくこととする。 Edit is an edit distance based on whether or not two elements match, and is defined in advance by the following equation (4).
このように、アライメントコスト算出手段10は、2組のテキスト文書の類似の度合をアライメントコストとして算出する。 Thus, the alignment cost calculation means 10 calculates the degree of similarity between two sets of text documents as the alignment cost.
アライメントコスト記憶手段20は、アライメントコスト算出手段10で算出された2組ごとのテキスト文書のアライメントコストを、テキスト文書対と対応付けたアライメントコスト一覧として記憶するものであって、ハードディスク等の一般的な記憶装置である。このアライメントコスト記憶手段20には、例えば、図4に示すように、テキスト文書対と、アライメントコストとを表形式に対応付けたアライメントコスト一覧TCとして記憶しておく。なお、アライメントコスト一覧TCは、アライメントコストの小さいものから順にソートされている。 The alignment cost storage means 20 stores the alignment costs of every two sets of text documents calculated by the alignment cost calculation means 10 as a list of alignment costs associated with the text document pairs. Storage device. This alignment cost storage means 20, for example, as shown in FIG. 4, a text document pairs, should the alignment cost is stored as the alignment cost list T C which associates tabulated. The alignment cost list T C is sorted in order of the alignment cost small.
アライメント列生成手段30は、アライメントコスト記憶手段20に記憶されているアライメントコストの低い2系列のアライメント列(テキスト文書)から順に、再帰的に動的計画法により1つ以上の新たなアライメント列を生成するものである。
The alignment
ここでは、アライメント列生成手段30は、アライメントコスト記憶手段20に記憶されているアライメント列から空要素を除去して新たな系列データとして、アライメントを行う。すなわち、系列データW(1)が{a,b,a,d}、系列データW(2)が{a,c,d}に対応するアライメント列{a(j)}が、以下の(5)式で表される場合、アライメント列生成手段30は、以下の(6)式に示した、空要素を除去したアライメント列{W}を入力としてアライメントを行う。
Here, the alignment
なお、アライメント列生成手段30は、アライメントコスト記憶手段20から読み出して行うアライメント対象の新たなアライメント列を{W(1)},{W(2)}として、以下の(7)式により、アライメントコストが最小となるアライメント列をすべて生成する。 The alignment sequence generation means 30 uses the following equation (7) as an alignment target to be read out from the alignment cost storage means 20 as {W (1) }, {W (2) }. All alignment columns with the lowest cost are generated.
このように、アライメント列生成手段30は、アライメントコストが最小となるアライメント列を1つに限定しないため、曖昧性を保持したアライメント列を生成することができる。ここでは、アライメント列生成手段30は、前記(7)式を動的計画法により求めるため、経路テーブル生成手段31と、経路逆探索手段32と、アライメント数制限手段33とを備えて構成している。 As described above, the alignment sequence generation means 30 does not limit the alignment sequence that minimizes the alignment cost to one, and therefore can generate an alignment sequence that retains ambiguity. Here, the alignment sequence generating means 30 includes a route table generating means 31, a route reverse searching means 32, and an alignment number limiting means 33 in order to obtain the expression (7) by dynamic programming. Yes.
経路テーブル生成手段31は、アライメントコスト記憶手段20に記憶されているアライメントコストの低いアライメント列から順に、2次元配列テーブルのセルに同一の編集距離となる経路を保持した動的計画法の経路テーブルを生成するものである。ここでは、経路テーブル生成手段31は、アライメントコスト記憶手段20から、最もアライメントコストの低い2つのテキスト文書において、アライメント列を選択し、このアライメント列に含まれる2つのアライメントの要素列を2軸とする動的計画法の経路テーブルを生成する。この経路テーブル生成手段31で生成された動的計画法の経路テーブルは経路逆探索手段32で使用される。
The path
経路逆探索手段32は、経路テーブル生成手段31で生成された動的計画法の経路テーブルにおいて、経路の逆探索(トレースバック)を行うことで、アライメント列を生成するものである。なお、経路逆探索手段32は、経路の逆探索を行う際に、逐次編集距離を加算することで、当該経路におけるアライメントコストを算出することとする。 The route reverse search means 32 generates an alignment sequence by performing a reverse search (trace back) on the route in the dynamic programming route table generated by the route table generation means 31. The route reverse search means 32 calculates the alignment cost in the route by sequentially adding the edit distance when performing the reverse search of the route.
ここで、図5および図6を参照(適宜図3参照)して、経路テーブル生成手段31が行う処理および経路逆探索手段32が行う処理について具体的に説明する。図5は、経路テーブル生成手段が行う動的計画法の経路テーブルを生成する手法を説明するための説明図である。図6は、経路逆探索手段が行う動的計画法の経路テーブルからアライメント列を生成する手法を説明するための説明図である。
Here, with reference to FIG. 5 and FIG. 6 (refer to FIG. 3 as appropriate), the processing performed by the route
図5に示すように、経路テーブル生成手段31は、2つのアライメントの要素列(アライメントA、アライメントB)を2軸とする2次元配列の経路テーブルTDPを、図示を省略したメモリ上に生成する。そして、経路テーブル生成手段31は、各アライメントの先頭を示す経路テーブルTDPの左上のセルから各アライメントの最後尾を示す経路テーブルTDPの右下のセルまで、順次、経路とその時の編集距離(コスト)とを2次元配列の配列データとしてメモリ上に記憶する。 As shown in FIG. 5, the path table generating means 31 generates a path table T DP having a two-dimensional array having two alignment element strings (alignment A, alignment B) as two axes on a memory (not shown). To do. Then, the route table generation means 31 sequentially selects the route and the edit distance at that time from the upper left cell of the route table T DP indicating the head of each alignment to the lower right cell of the route table T DP indicating the tail of each alignment. (Cost) is stored on the memory as array data of a two-dimensional array.
例えば、図5のセルC1において、C2からの経路(下向矢印)には、アライメントAの“i”番目およびアライメントBの“j−1”番目までの系列と、当該系列にアライメントBの“j”番目の要素を挿入したときの系列との編集距離を対応付ける。また、C3からの経路(右向矢印)には、アライメントAの“i−1”番目およびアライメントBの“j”番目までの系列と、当該系列にアライメントAの“i”番目の要素を挿入したときの系列との編集距離を対応付ける。 For example, in the cell C 1 of FIG. 5, the path from the C 2 (downward arrow) includes the “i” -th series of the alignment A and the “j−1” -th series of the alignment B, and the alignment B in the series. Is associated with the edit distance when the “j” -th element of the is inserted. Also, the route (right direction arrow) from the C 3, and "i-1" th and "j" to th sequence alignment B of alignment A, the "i" th element of alignment A to the series Associate the edit distance with the series when inserted.
また、C4からの経路(右下向矢印)には、アライメントAの“i”番目およびアライメントBの“j”番目の要素が一致する場合には、アライメントAの“i−1”番目およびアライメントBの“j−1”番目までの系列と、当該系列にアライメントAの“i”番目(アライメントAの“j”番目)の要素を挿入したときの系列との編集距離を対応付ける。一方、アライメントAの“i”番目およびアライメントBの“j”番目の要素が不一致の場合には、アライメントAの“i−1”番目およびアライメントBの“j−1”番目までの系列と、当該系列にアライメントAの“i”番目の要素とアライメントAの“j”番目の要素とをそれぞれ置換して挿入した系列との編集距離を対応付ける。 In addition, when the “i” -th element of alignment A and the “j” -th element of alignment B coincide with the path from C 4 (arrow pointing downward to the right), the “i−1” -th element of alignment A and The edit distance between the sequence up to the “j−1” th sequence of the alignment B and the sequence when the “i” th element of the alignment A (the “j” th element of the alignment A) is inserted into the sequence is associated. On the other hand, if the “i” -th element of alignment A and the “j” -th element of alignment B do not match, the sequence from “i−1” -th alignment A to “j-1” -th alignment B; The edit distance between the series inserted by replacing the “i” -th element of alignment A and the “j” -th element of alignment A is associated with the series.
なお、経路テーブル生成手段31は、各経路(図5の下向矢印、右向矢印、右下向矢印)の編集距離(コスト)が異なる場合は、最適(コストが最小)な経路のみを記憶することとして、編集距離が同一である場合は、すべての経路を記憶することとする。
Note that the route
そして、図6に示すように、経路逆探索手段32は、経路テーブル生成手段31で生成された動的計画法の経路テーブルTDPにおいて、経路テーブルの終点(右下)のセルCEから、順次そのセルに対応付けて記憶されている経路に基づいて、経路テーブルの始点(左上)のセルCSまでの経路を探索する。なお、図6に示すように、セルC1に2つの経路で同一のコストが対応付けられていたときは、経路逆探索手段32は、2つの経路で構成されるアライメント列を生成する。これによって、同一コストのアライメント列が1つに限定されず複数生成されることになる。
図3に戻って、表現テンプレート生成装置1の構成について説明を続ける。
Then, as shown in FIG. 6, the route reverse search means 32 starts from the cell CE at the end point (lower right) of the route table in the dynamic programming route table T DP generated by the route table generation means 31. based on the route stored in association with successively the cell, it searches for a route to the cell C S of the start point of the path table (top left). As shown in FIG. 6, when the same cost is associated with the cell C 1 by two routes, the route reverse search means 32 generates an alignment string composed of the two routes. As a result, a plurality of alignment rows having the same cost are generated without being limited to one.
Returning to FIG. 3, the description of the configuration of the expression
アライメント数制限手段33は、経路逆探索手段32で生成されたアライメント列について、予め定めた基準に基づいて、生成するアライメント列数を制限するものである。ここでは、アライメント数制限手段33は、アライメント列生成手段30が処理する2系列のアライメント列ごとに、生成するアライメント列数を制限することとする。これによって、動的計画法における経路数を制限することができ、再帰処理に伴う指数関数的な経路数の増大を防止することができる。なお、アライメント数制限手段33は、例えば、以下の4つの基準(基準A1〜基準A4)の少なくとも1つによって、経路数を制限することができる。
The alignment
<基準A1 アライメントコストによる制限>
アライメント数制限手段33は、経路逆探索手段32で求められた2系列データのアライメントコストが最小となるアライメント列のみを出力することとする。すなわち、経路逆探索手段32で生成された複数のアライメント列のうちで、経路のトータルのアライメントコストが最小となるもののみを残し、他を削除することとする。
<Standard A1 Restriction due to alignment cost>
The alignment number limiting means 33 outputs only the alignment sequence that minimizes the alignment cost of the two series data obtained by the path reverse search means 32. That is, of the plurality of alignment sequences generated by the route reverse search means 32, only the one that minimizes the total alignment cost of the route is left and the others are deleted.
<基準A2 空要素の数による制限>
アライメント数制限手段33は、経路逆探索手段32で生成された複数のアライメント列のうちで、空要素の数が最小のアライメント列のみを残し、他を削除することとする。
<Standard A2 Limitation by the number of empty elements>
The alignment number limiting means 33 leaves only the alignment string with the smallest number of empty elements among the plurality of alignment strings generated by the path reverse search means 32 and deletes the others.
<基準A3 最適経路の絶対数による制限>
アライメント数制限手段33は、経路逆探索手段32で生成された複数のアライメント列のうちで、予め定めた経路の絶対数をランダムに選択し、他を削除することとする。
<Standard A3 Limit by absolute number of optimum routes>
Alignment number limiting means 33 randomly selects an absolute number of predetermined paths from among a plurality of alignment sequences generated by path reverse search means 32 and deletes the others.
<基準A4 要素の絶対数による制限>
アライメント数制限手段33は、経路逆探索手段32で生成された複数のアライメント列の要素数を累計し、要素数が予め定めた絶対数を超過した場合、それ以降のアライメント列を削除する。
<Limitation by absolute number of reference A4 elements>
The alignment
このように、アライメント列生成手段30は、2系列のアライメント列から順に、動的計画法により1つ以上の新たなアライメント列を生成する際に、アライメント列数を制限するため、経路逆探索手段32が複数の経路のアライメント列を生成する場合であっても、指数関数的な経路数の増大を防止することができる。 In this way, the alignment sequence generation means 30 sequentially reverses the path sequence search means in order to limit the number of alignment sequences when generating one or more new alignment sequences by dynamic programming in order from the two series of alignment sequences. Even when 32 generates an alignment sequence of a plurality of paths, an exponential increase in the number of paths can be prevented.
なお、アライメント列生成手段30は、2系列のアライメント列から、新たなアライメント列を生成した場合、アライメントコスト記憶手段20に記憶されている1系列のアライメント列に関するデータを削除することとする。例えば、図4において、テキスト文書対{W(1),W(2)}をアライメントした後、W(1)に関するデータ{W(1),W(2)}、{W(1),W(3)}、…を削除する。なお、削除するアライメント列は、2系列のアライメント列はいずれか一方であればよい。
Note that, when a new alignment string is generated from two series of alignment strings, the alignment
そして、すべての2系列のアライメント列から、新たなアライメント列を生成した段階、すなわち、アライメントコスト記憶手段20に記憶されているアライメント列が1系列のみになるまで、順次、アライメント列を生成し、テンプレート生成手段40に出力する。
Then, from the alignment sequence of all the two series, a new alignment sequence is generated, that is, until the alignment sequence stored in the alignment
テンプレート生成手段40は、アライメント列生成手段30で生成された複数のアライメント系列を、要素を頂点とする有向グラフに変換し、表現テンプレートとして生成するものである。ここでは、テンプレート生成手段40は、有向グラフ生成手段41と、有向グラフ制限手段42とを備える。
The
有向グラフ生成手段41は、複数のアライメント列を、当該アライメント列を構成する要素を頂点とする有向グラフに変換するものである。ここでは、有向グラフ生成手段41は、要素を頂点(ノード)とし、アライメント列で先に出現する要素を始点、次に出現する要素を終点とする方向性を有する辺を定義する。これによって、有向グラフ生成手段41は、アライメント列から、有向グラフによって定型化した表現テンプレートを生成することができる。 The directed graph generation means 41 converts a plurality of alignment columns into a directed graph having vertices as elements constituting the alignment columns. Here, the directed graph generation means 41 defines an edge having directionality with an element as a vertex (node), an element that appears first in the alignment sequence as a start point, and an element that appears next as an end point. Thereby, the directed graph generation means 41 can generate an expression template standardized by the directed graph from the alignment sequence.
なお、ここでは、有向グラフ生成手段41は、アライメント列で同一の辺を共有する場合には、その辺に共有する数だけ度数を付与することとする。これによって、要素のつながりの頻度を数値化することができる。
Here, when the directed
有向グラフ制限手段42は、有向グラフ生成手段41で生成されたアライメント列ごとに生成された有向グラフから、予め定めた基準に基づいて、最適な有向グラフ(表現テンプレート)を選択するものである。例えば、有向グラフ制限手段42は、以下の<基準B1〜基準B3>のいずれかによって有向グラフを選択する。
The directed
<基準B1 辺の頻度による選択>
有向グラフ制限手段42は、有向グラフ生成手段41で生成された有向グラフの中から、有向グラフの辺に付与された度数が、予め定めた頻度以下の辺の数が最小となる有向グラフを選択する。これによって、より使用頻度の高い表現テンプレートを生成することができる。
<Selection based on frequency of reference B1 side>
The directed
<基準B2 頂点数による選択>
有向グラフ制限手段42は、有向グラフ生成手段41で生成された有向グラフの中から、有効グラフの頂点の数が最小となる有向グラフを選択する。これによって、同一の要素が別の頂点となっている可能性を低くすることができる。
<Selection based on the number of vertices in reference B2>
The directed
<基準3 辺数による選択>
有向グラフ制限手段42は、有向グラフ生成手段41で生成された有向グラフの中から、有効グラフの辺の数が最小となる有向グラフを選択する。これによって、基準B2と同様、同一の要素が別の頂点となっている可能性を低くすることができる。
<
The directed
以上説明したように表現テンプレート生成装置1を構成することで、動的計画法を用いたマルチプルアライメントにおいて、複数の最適経路を後段のアライメントへの入力とすることができるため、同一のアライメントコストを有するアライメント列によって再帰的にアライメントが行われることになる。これによって、表現テンプレート生成装置1は、マルチプルアライメントにおいて適切な解を途中で除去せずにアライメントを行うことができるため、複数のテキスト文書から、典型的な表現を示す表現テンプレートを精度よく生成することができる。
By configuring the expression
また、表現テンプレート生成装置1は、マルチプルアライメントにおいて、動的計画法における経路数を制限するため、指数関数的な経路数の増大を防止し、計算量を抑えることができる。
In addition, since the expression
以上、表現テンプレート生成装置1の構成について説明したが、本発明はこれに限定されるものではない。ここでは、入力されるテキスト文書が予め形態素ごとに分割されていることとしたが、形態素ごとに分割されていないテキスト文書を入力する場合であれば、形態素の読み、品詞、活用型等を記憶した形態素辞書(図示せず)を参照して、形態素解析を行う形態素解析手段(図示せず)をさらに備え、テキスト文書を形態素ごとに分割したものをアライメントコスト算出手段10への入力とすることとしてもよい。
As mentioned above, although the structure of the expression template production |
また、表現テンプレート生成装置1は、図示を省略したCPUやメモリを搭載した一般的なコンピュータで実現することができる。このとき、表現テンプレート生成装置1は、コンピュータを、前記した各手段として機能させる表現テンプレート生成プログラムによって動作する。
The expression
[表現テンプレート生成装置の動作]
次に、図7および図8を参照して、本発明の動作について説明する。図7は、本発明の実施の形態に係る表現テンプレート生成装置の全体動作を示すフローチャートである。図8は、本発明の実施の形態に係る表現テンプレート生成装置のアライメント列生成手段におけるアライメント動作を示すフローチャートである。
[Operation of expression template generator]
Next, the operation of the present invention will be described with reference to FIGS. FIG. 7 is a flowchart showing the overall operation of the expression template generation apparatus according to the embodiment of the present invention. FIG. 8 is a flowchart showing the alignment operation in the alignment sequence generation means of the expression template generation apparatus according to the embodiment of the present invention.
(全体動作)
最初に、図7を参照(構成については適宜図3参照)して、表現テンプレート生成装置1の全体動作について説明する。
(Overall operation)
First, the overall operation of the expression
まず、表現テンプレート生成装置1は、アライメントコスト算出手段10によって、複数のテキスト文書のすべての2組ごとの組み合わせについて、2組ごとのテキスト文書の編集距離に基づいて、テキスト文書間の類似の度合を示すアライメントコストを算出する(ステップS1)。
First, the expression
そして、表現テンプレート生成装置1は、アライメントコスト算出手段10によって、ステップS1で生成したアライメントコスト順に、2組のテキスト文書とアライメントコストとを対応付けたアライメントコスト一覧を生成し、アライメントコスト記憶手段20に記憶する(ステップS2)。これによって、M系列のテキスト文書のすべての2組ごとの組み合わせ(MC2通り)について、アライメントコストの一覧が生成される。
Then, the expression
その後、表現テンプレート生成装置1は、アライメント列生成手段30によって、アライメントコスト記憶手段20に記憶されているアライメントコストの低い2系列のテキスト文書から順に、動的計画法によりアライメントを行い、1つ以上の新たなアライメント列を生成する(ステップS3)。なお、このステップS3の動作については、図8を参照して後で説明することとする。
After that, the expression
ステップS3の動作後、表現テンプレート生成装置1は、アライメント列生成手段30によって、アライメントされた2系列のデータの内の一方のデータを、アライメントコスト記憶手段20から削除する(ステップS4)。これによって、アライメント列生成手段30は、アライメントが終わった一方の系列データを、動的計画法の対象から削除する。
After the operation of step S3, the expression
そして、表現テンプレート生成装置1は、アライメントコスト記憶手段20に記憶されているアライメントコスト一覧のデータの残りが1つになったか否かを判定する(ステップS5)。
And the expression template production |
ここでアライメントコスト一覧のデータの残りが2つ以上の場合(ステップS5でNo)、表現テンプレート生成装置1は、ステップS3に戻って、次にアライメントコストが低い2系列のアライメント列についてアライメントを行う。
一方、アライメントコスト一覧のデータの残りが1つになった場合(ステップS5でYes)、表現テンプレート生成装置1は、テンプレート生成手段40の有向グラフ生成手段41によって、ステップS3〜S4の動作によって生成された複数のアライメント系列から、要素を頂点とした有向グラフを生成する(ステップS6)
If there are two or more remaining data in the alignment cost list (No in step S5), the expression
On the other hand, when the remaining data of the alignment cost list becomes one (Yes in step S5), the expression
その後、表現テンプレート生成装置1は、有向グラフ制限手段42によって、ステップS6で生成された有向グラフから、予め定めた基準に基づいて、最適な有向グラフを選択し、表現テンプレートとして出力する(ステップS7)。
After that, the expression
以上の動作によって、表現テンプレート生成装置1は、複数の類似したテキスト文書から、典型的な表現を表現テンプレートとして生成することができる。
With the above operation, the expression
(アライメント動作)
次に、図8を参照(構成については適宜図3参照)して、表現テンプレート生成装置1のアライメント列生成手段におけるアライメント動作について説明する。この動作は、図7で説明したステップS3の動作に相当するものである。
(Alignment operation)
Next, referring to FIG. 8 (refer to FIG. 3 as appropriate for the configuration), the alignment operation in the alignment sequence generation means of the expression
まず、表現テンプレート生成装置1は、アライメント列生成手段30の経路テーブル生成手段31によって、アライメントコスト記憶手段20から、最もアライメントコストの小さい2つのテキスト文書において、アライメント列を選択し、このアライメント列に含まれる2つのアライメントの要素列を2軸とする動的計画法の経路テーブルを生成する(ステップS31)。なお、このとき、アライメント列生成手段30は、動的計画法の経路テーブルのセルにおいて、各経路の編集距離(コスト)が異なる場合は、最適(コストが最小)な経路のみを当該セルに対応付けて記憶し、編集距離が同一である場合は、編集距離が同一の経路をすべて当該セルに対応付けて記憶する。これによって、トレースバック時に当該セルを経由する経路が1以上となる。
First, the expression
そして、表現テンプレート生成装置1は、経路逆探索手段32によって、ステップS31で生成された経路テーブルを逆探索(トレースバック)することで、複数のアライメント列を生成する(ステップS32)。
And the expression template production |
そして、表現テンプレート生成装置1は、アライメント数制限手段33によって、ステップS32で生成されたアライメント列について、予め定めた基準に基づいて、生成するアライメント列数を制限する(ステップS33)。
And the expression template production |
以上の動作によって、表現テンプレート生成装置1は、動的計画法において、複数の最適経路を保持する場合であっても、指数関数的な経路数の増大を防止し、典型的な表現として現れる言い回し表現を残したアライメント列を生成することができる。
With the above operation, the expression
[従来手法との比較]
最後に、図9を参照して、従来のマルチプルアライメントと、本発明の実施の形態に係る表現テンプレート生成装置1におけるマルチプルアライメントとの比較結果について説明する。なお、ここでは、ある放送番組に対する意見をテキスト文書として入力し、表現テンプレートを生成した比較を行っている。
[Comparison with conventional methods]
Finally, with reference to FIG. 9, a comparison result between the conventional multiple alignment and the multiple alignment in the expression
図9は、有向グラフで表した表現テンプレートを示す図であって、(a)は従来手法により生成した表現テンプレート、(b)は本発明の手法により生成した表現テンプレートを示している。図9において、頂点には要素(形態素)が、辺には頂点の接続が対応する。また、辺に付加されている数字は、この接続を通過する意見がいくつあったかを示している。
この図9に示した表現テンプレートに含まれる表現を表形式に表すと、以下の〔表1〕のように複数の表現が抽出される。
FIG. 9 is a diagram showing an expression template represented by a directed graph, where (a) shows an expression template generated by the conventional technique, and (b) shows an expression template generated by the technique of the present invention. In FIG. 9, an element (morpheme) corresponds to a vertex, and a vertex connection corresponds to an edge. The numbers attached to the edges indicate how many opinions have passed through this connection.
When the expressions included in the expression template shown in FIG. 9 are represented in a table format, a plurality of expressions are extracted as shown in [Table 1] below.
この〔表1〕に示すように、本発明のマルチプルアライメントによれば、文末に現れる「すごい」、「すばらしい」が、抽出されているが、従来の手法においては、これらが抽出されていない。これは、従来の手法では、動的計画法の経路テーブルにおいて、セルに保持する経路が1つであるため、当該経路が削除されたものと考えられる。このように、本発明の実施の形態に係る表現テンプレート生成装置は、従来の手法では抽出できなかった表現を適切に抽出し、表現テンプレートとして生成することができる。 As shown in [Table 1], according to the multiple alignment of the present invention, “wow” and “great” appearing at the end of the sentence are extracted, but these are not extracted in the conventional method. This is probably because the conventional method has a single route stored in a cell in the dynamic programming route table, and the route has been deleted. As described above, the expression template generation apparatus according to the embodiment of the present invention can appropriately extract expressions that could not be extracted by the conventional method and generate them as expression templates.
S 文書分類判別システム
1 表現テンプレート生成装置
2 表現テンプレート記憶装置
3 分類判別装置
10 アライメントコスト算出手段
20 アライメントコスト記憶手段
30 アライメント列生成手段
31 経路テーブル生成手段
32 経路逆探索手段
33 アライメント数制限手段
40 テンプレート生成手段
41 有向グラフ生成手段
42 有向グラフ制限手段
S Document
Claims (5)
前記複数の系列データのすべての2組の組み合わせごとに、前記要素ごとの類似の度合を示す編集距離であるアライメントコストを算出するアライメントコスト算出手段と、
前記系列データをアライメント列とした2組の組み合わせごとに、前記アライメントコストを対応付けて記憶するアライメントコスト記憶手段と、
このアライメントコスト記憶手段に記憶されているアライメントコストの低いアライメント列から順に、2次元配列テーブルのセルに同一の編集距離となる経路を保持した動的計画法の経路テーブルを生成する経路テーブル生成手段と、
この経路テーブル生成手段で生成された経路テーブルにおいて、前記経路の逆探索を行うことで、複数の新たなアライメント列を生成する経路逆探索手段と、
この経路逆探索手段で生成された複数のアライメント列を、前記要素を頂点とする有向グラフに変換し、前記表現テンプレートとして生成する有向グラフ生成手段と、
を備えることを特徴とする表現テンプレート生成装置。 An expression template generation device that extracts typical expressions appearing in a plurality of series data composed of a plurality of elements of a natural language and generates them as an expression template,
An alignment cost calculating means for calculating an alignment cost that is an edit distance indicating a degree of similarity for each element for every two sets of combinations of the plurality of series data;
Alignment cost storage means for storing the alignment cost in association with each other for each of two combinations of the series data as an alignment column;
A path table generating unit that generates a path table for dynamic programming in which cells having the same edit distance are held in the cells of the two-dimensional array table in order from the alignment row having the lowest alignment cost stored in the alignment cost storage unit. When,
In the route table generated by the route table generating means, by performing a reverse search of the route, a route reverse search means for generating a plurality of new alignment sequences;
A plurality of alignment sequences generated by the path reverse search means, converted to a directed graph having the element as a vertex, and generated as the expression template;
An expression template generation device comprising:
前記経路逆探索手段で算出されたアライメントコストに基づいて、前記アライメント列の数を制限するアライメント数制限手段をさらに備えることを特徴とする請求項1に記載の表現テンプレート生成装置。 When the path reverse search means generates the plurality of new alignment sequences, based on the editing distance, to calculate the alignment cost of the alignment sequence,
The expression template generation device according to claim 1, further comprising an alignment number limiting unit that limits the number of the alignment columns based on the alignment cost calculated by the path reverse search unit.
前記要素ごとの類似の度合を示す編集距離であるアライメントコストを算出するアライメントコスト算出手段により、前記複数の系列データのすべての2組の組み合わせごとに前記アライメントコストを算出し、前記系列データをアライメント列とした2組の組み合わせごとに、前記アライメントコストを対応付けてアライメントコスト記憶手段に記憶するアライメントコスト算出ステップと、
2次元配列テーブルのセルに同一の編集距離となる経路を保持した動的計画法の経路テーブルを生成する経路テーブル生成手段により、前記アライメントコスト記憶手段に記憶されているアライメントコストの低いアライメント列から順に、前記経路テーブルを生成する経路テーブル生成ステップと、
前記経路テーブルを逆探索する経路逆探索手段により、前記経路テーブル生成ステップで生成された経路テーブルにおいて、前記経路の逆探索を行うことで、複数の新たなアライメント列を生成する経路逆探索ステップと、
前記要素を頂点とする有向グラフを生成する有向グラフ生成手段により、前記経路逆探索ステップで生成された複数のアライメント列を前記有向グラフに変換し、前記表現テンプレートとして生成する有向グラフ生成ステップと、
を含むことを特徴とする表現テンプレート生成方法。 An expression template generation method for extracting a typical expression appearing in a plurality of series data composed of a plurality of elements of a natural language and generating as an expression template,
The alignment cost is calculated for every two combinations of the plurality of series data by an alignment cost calculation means for calculating an alignment cost that is an edit distance indicating the degree of similarity for each element, and the series data is aligned. Alignment cost calculation step for associating and storing the alignment cost in the alignment cost storage means for each of the two combinations in a row;
From the alignment sequence with low alignment cost stored in the alignment cost storage means, the path table generation means for generating a dynamic programming path table that holds the paths having the same edit distance in the cells of the two-dimensional array table. In order, a route table generating step for generating the route table;
A route reverse search step for generating a plurality of new alignment sequences by performing a reverse search of the route in the route table generated in the route table generation step by a route reverse search means for reverse searching the route table; ,
A directed graph generation step of converting a plurality of alignment sequences generated in the path reverse search step into the directed graph by the directed graph generation means for generating a directed graph having the elements as vertices, and generating the representation template,
A method for generating an expression template characterized by comprising:
前記複数の系列データのすべての2組の組み合わせごとに、前記要素ごとの類似の度合を示す編集距離であるアライメントコストを算出し、前記系列データをアライメント列とした2組の組み合わせごとに、前記アライメントコストを対応付けてアライメントコスト記憶手段に記憶するアライメントコスト算出手段、
前記アライメントコスト記憶手段に記憶されているアライメントコストの低いアライメント列から順に、2次元配列テーブルのセルに同一の編集距離となる経路を保持した動的計画法の経路テーブルを生成する経路テーブル生成手段、
この経路テーブル生成手段で生成された経路テーブルにおいて、前記経路の逆探索を行うことで、複数の新たなアライメント列を生成する経路逆探索手段、
この経路逆探索手段で生成された複数のアライメント列を、前記要素を頂点とする有向グラフに変換し、前記表現テンプレートとして生成する有向グラフ生成手段、
として機能させることを特徴とする表現テンプレート生成プログラム。 In order to extract typical expressions appearing in a plurality of series data composed of a plurality of elements of natural language and generate them as expression templates,
For every two sets of combinations of the plurality of series data, an alignment cost that is an edit distance indicating the degree of similarity for each element is calculated, and for each of the two sets of combinations using the series data as an alignment column, Alignment cost calculation means for associating alignment costs and storing them in alignment cost storage means,
A path table generating unit that generates a path table for dynamic programming in which a path having the same edit distance is held in a cell of a two-dimensional array table in order from an alignment row having a low alignment cost stored in the alignment cost storage unit. ,
In the route table generated by the route table generating means, reverse route search means for generating a plurality of new alignment sequences by performing reverse search of the route,
A directed graph generation unit that converts a plurality of alignment sequences generated by the path reverse search unit into a directed graph having the element as a vertex, and generates the expression template,
An expression template generation program characterized by functioning as
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008019249A JP5022252B2 (en) | 2008-01-30 | 2008-01-30 | Expression template generation apparatus, method and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008019249A JP5022252B2 (en) | 2008-01-30 | 2008-01-30 | Expression template generation apparatus, method and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009181301A true JP2009181301A (en) | 2009-08-13 |
JP5022252B2 JP5022252B2 (en) | 2012-09-12 |
Family
ID=41035246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008019249A Expired - Fee Related JP5022252B2 (en) | 2008-01-30 | 2008-01-30 | Expression template generation apparatus, method and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5022252B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013186764A (en) * | 2012-03-09 | 2013-09-19 | Kddi Corp | Tagging program, device, method and server for attaching tag of categories which cannot be directly derived from target sentence |
JP2016091078A (en) * | 2014-10-30 | 2016-05-23 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | Generation apparatus, generation method, and program |
CN110175363A (en) * | 2019-04-25 | 2019-08-27 | 西门子电站自动化有限公司 | The generation method of the production drawing of Distributed Control System |
JP2020098592A (en) * | 2018-12-18 | 2020-06-25 | 富士通株式会社 | Method, device and storage medium of extracting web page content |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271616A (en) * | 2002-03-13 | 2003-09-26 | Ricoh Co Ltd | Document classification device, document classification method and recording medium |
JP2007072663A (en) * | 2005-09-06 | 2007-03-22 | Advanced Telecommunication Research Institute International | Example translation device and example translation method |
-
2008
- 2008-01-30 JP JP2008019249A patent/JP5022252B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271616A (en) * | 2002-03-13 | 2003-09-26 | Ricoh Co Ltd | Document classification device, document classification method and recording medium |
JP2007072663A (en) * | 2005-09-06 | 2007-03-22 | Advanced Telecommunication Research Institute International | Example translation device and example translation method |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013186764A (en) * | 2012-03-09 | 2013-09-19 | Kddi Corp | Tagging program, device, method and server for attaching tag of categories which cannot be directly derived from target sentence |
JP2016091078A (en) * | 2014-10-30 | 2016-05-23 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | Generation apparatus, generation method, and program |
US10289674B2 (en) | 2014-10-30 | 2019-05-14 | International Business Machines Corporation | Generation apparatus, generation method, and program |
US10296579B2 (en) | 2014-10-30 | 2019-05-21 | International Business Machines Corporation | Generation apparatus, generation method, and program |
JP2020098592A (en) * | 2018-12-18 | 2020-06-25 | 富士通株式会社 | Method, device and storage medium of extracting web page content |
CN111339396A (en) * | 2018-12-18 | 2020-06-26 | 富士通株式会社 | Method, apparatus and computer storage medium for extracting web page content |
JP7347179B2 (en) | 2018-12-18 | 2023-09-20 | 富士通株式会社 | Methods, devices and computer programs for extracting web page content |
CN111339396B (en) * | 2018-12-18 | 2024-04-16 | 富士通株式会社 | Method, device and computer storage medium for extracting webpage content |
CN110175363A (en) * | 2019-04-25 | 2019-08-27 | 西门子电站自动化有限公司 | The generation method of the production drawing of Distributed Control System |
Also Published As
Publication number | Publication date |
---|---|
JP5022252B2 (en) | 2012-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104462085B (en) | Search key error correction method and device | |
JP4940973B2 (en) | Logical structure recognition processing program, logical structure recognition processing method, and logical structure recognition processing apparatus | |
CN107025239B (en) | Sensitive word filtering method and device | |
JP5115741B2 (en) | Retrieval method, similarity calculation method, similarity calculation and same document collation system, and program thereof | |
JP6003705B2 (en) | Information processing apparatus and information processing program | |
CN112256842B (en) | Method, electronic device and storage medium for text clustering | |
JP6599219B2 (en) | Reading imparting device, reading imparting method, and program | |
JP5022252B2 (en) | Expression template generation apparatus, method and program thereof | |
JP2002032770A (en) | Method and system for processing document and medium | |
US9524354B2 (en) | Device, method, and program for processing data with tree structure | |
JP5812534B2 (en) | Question answering apparatus, method, and program | |
WO2016181468A1 (en) | Pattern recognition device, pattern recognition method and program | |
Prutskov | Algorithmic provision of a universal method for word-form generation and recognition | |
JP5203324B2 (en) | Text analysis apparatus, method and program for typographical error | |
Granell et al. | An interactive approach with off-line and on-line handwritten text recognition combination for transcribing historical documents | |
WO2010026804A1 (en) | Approximate collation device, approximate collation method, program, and recording medium | |
CN102567424B (en) | Poetry association library system and realization method thereof as well as electronic learning equipment | |
CN110413779B (en) | Word vector training method, system and medium for power industry | |
Gholami-Dastgerdi et al. | Part of speech tagging using part of speech sequence graph | |
JP5521670B2 (en) | Pattern matching device, translation device, translation system, and translation program | |
CN116013278B (en) | Speech recognition multi-model result merging method and device based on pinyin alignment algorithm | |
JP6613666B2 (en) | Word rearrangement learning device, word rearrangement device, method, and program | |
JP2020077236A (en) | Search program, search method and search device | |
JP2018073298A (en) | Method for automatic extraction/creation of means/method by artificial intelligence device | |
JP6765992B2 (en) | Hyperspheric spatial language model generator, query likelihood calculator, these methods and programs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100310 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120522 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120615 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150622 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |