JP2010134766A - Document data processing apparatus and program thereof - Google Patents

Document data processing apparatus and program thereof Download PDF

Info

Publication number
JP2010134766A
JP2010134766A JP2008311263A JP2008311263A JP2010134766A JP 2010134766 A JP2010134766 A JP 2010134766A JP 2008311263 A JP2008311263 A JP 2008311263A JP 2008311263 A JP2008311263 A JP 2008311263A JP 2010134766 A JP2010134766 A JP 2010134766A
Authority
JP
Japan
Prior art keywords
extraction
information
document data
unit
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008311263A
Other languages
Japanese (ja)
Inventor
Kunitake So
国威 祖
Shigeru Matsumoto
茂 松本
Toshiyuki Kano
敏行 加納
Hiroko Taniguchi
裕子 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2008311263A priority Critical patent/JP2010134766A/en
Publication of JP2010134766A publication Critical patent/JP2010134766A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To efficiently support confirmation of the validity of numerical information, in document data. <P>SOLUTION: An important expression extracting unit 16 of a document data processing apparatus 100 reads an important expression extraction/message creation rule dictionary, from a dictionary information storage unit 13 of a storage device 12; and if an extraction pattern of the dictionary and an input sentence match, it extracts an important expression, according to the matching expression in the input sentence that matches the extraction pattern. By using the important expression extracted by the important expression extracting unit 16, a message creating unit 18 refers to a message for presenting a user with the important expression in the important expression extraction/message creation rule dictionary. The message creating unit 18 substitutes the extracted important expression into the variable portion of the message referred to and creates the text of the message for presenting the user with the important expression. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、文書データ(表情報も含む)中の数値情報の校正を支援するための文書データ処理装置およびそのプログラムに関する。   The present invention relates to a document data processing apparatus and program for supporting calibration of numerical information in document data (including table information).

従来、文書データ中の数値の校正支援に用いることのできる技術として、当該文書データ中の数値情報を抽出するものがあった(例えば、特許文献1参照)。この手法では、文章データ中から数値情報を抽出するとともに、文を係り受け解析し、抽出済みの数値情報に係り受けする情報を取得し、数値情報および当該数値情報が表す対象を取得する。
特開2005−157853号公報
Conventionally, as a technique that can be used for supporting calibration of numerical values in document data, there has been a technique for extracting numerical information in the document data (see, for example, Patent Document 1). In this method, numerical information is extracted from sentence data, and a sentence is subjected to dependency analysis, information related to the extracted numerical information is acquired, and numerical information and an object represented by the numerical information are acquired.
JP 2005-157853 A

しかしながら、文書データ中の数値情報の正当性を確認するためには、数値情報を文章データ中から抽出するのみでは不十分であり、ユーザが文章データ中から数値情報の記述を発見し、更に、その数値情報が何を意味しているのかを表す記述を発見する必要がある。しかし、この作業はユーザにとって容易ではなく、多大な手間を要する。   However, in order to confirm the validity of the numerical information in the document data, it is not sufficient to extract the numerical information from the text data, and the user discovers the description of the numerical information from the text data. It is necessary to find a description that expresses what the numerical information means. However, this operation is not easy for the user and requires a lot of labor.

そこで、本発明の目的は、文書データ(表情報も含む)中の数値情報の正当性に関する確認を効率よく支援することが可能になる文書データ処理装置およびそのプログラムを提供することにある。   SUMMARY OF THE INVENTION An object of the present invention is to provide a document data processing apparatus and program for efficiently supporting confirmation regarding the validity of numerical information in document data (including table information).

即ち、以上の課題を解決するためになされた本発明は、文書データを入力する文書入力手段と、前記文書データ中から特定の情報を抽出するための規則情報を記憶する記憶手段と、前記文書データ中から前記規則情報に則って抽出した規則要素情報および前記記憶手段に記憶された抽出規則雛型に基づき抽出パターンを生成し、この抽出パターンから特定の情報を生成する抽出規則要素取得手段と、前記文書入力手段により入力した文書データ中の情報から、前記抽出規則要素取得手段により抽出した特定の情報に対応する情報を検索する検索手段と、前記抽出規則要素取得手段により抽出した特定の情報のうち、前記検索手段により検索した情報に対応する情報および当該検索した情報を照合する照合手段と、前記照合手段による照合結果を示すメッセージを作成する作成手段とを備えたことを特徴とする文書データ処理装置およびそのプログラムである。   That is, the present invention made to solve the above problems includes a document input means for inputting document data, a storage means for storing rule information for extracting specific information from the document data, and the document Extraction rule element acquisition means for generating an extraction pattern based on the rule element information extracted in accordance with the rule information from the data and the extraction rule template stored in the storage means, and generating specific information from the extraction pattern; Search means for searching for information corresponding to specific information extracted by the extraction rule element acquisition means from information in the document data input by the document input means; and specific information extracted by the extraction rule element acquisition means Among the above, information corresponding to the information searched by the search means, a matching means for matching the searched information, and a matching result by the matching means A document data processing apparatus and the program characterized by comprising a generating means for generating a message indicating.

更に、前記記憶手段に記憶する不要語リストや選択ルールを参照しながら、抽出規則要素のフィルタリングを行なうとともに、このフィルタリングで選択された抽出規則要素について、抽出パターンを生成する抽出規則要素取得手段へ送る抽出規則要素フィルター手段を有することも特徴とする文書データ処理装置およびそのプログラムである。 Further, the extraction rule element is filtered while referring to the unnecessary word list and the selection rule stored in the storage means, and the extraction rule element acquisition means for generating an extraction pattern for the extraction rule element selected by this filtering is performed. A document data processing apparatus and a program thereof characterized by having an extraction rule element filter means for sending.

本発明によれば、文書データ(表情報も含む)中の特定の情報(特に数値情報が代表的である)の正当性に関する確認を効率よく支援することができる。従って、文書作成の効率が向上するとともに、質の高い文書の作成を支援することが可能となる。   According to the present invention, it is possible to efficiently support confirmation regarding the validity of specific information (particularly numerical information is representative) in document data (including table information). Therefore, the efficiency of document creation is improved and it is possible to support creation of a high-quality document.

以下では、複数の図面を用いて本発明の実施形態について説明する。
(基本となる実施形態)
まず、本発明の第1の実施形態に係る説明の前に、本発明の基本となる実施形態について説明する。この本発明の基本となる実施形態の動作が、本発明の根幹をなすものであり、本発明の理解を容易にすると考えられるからである。
Hereinafter, embodiments of the present invention will be described with reference to a plurality of drawings.
(Basic embodiment)
First, before describing the first embodiment of the present invention, the basic embodiment of the present invention will be described. This is because the operation of the basic embodiment of the present invention forms the basis of the present invention and is considered to facilitate understanding of the present invention.

図1は、本発明の基本となる実施形態にしたがった文書データ処理装置1の構成例を示すブロック図である。
図1に示すように、本発明の基本となる実施形態に従った文書データ処理装置1は、装置全体の処理動作を司る制御部11、記憶手段である記憶装置12、入出力インタフェース15、抽出手段である重要表現抽出部16、計算手段である確信度計算部17、作成手段であるメッセージ作成部18を備え、それぞれがバス19を介して相互に接続される。
FIG. 1 is a block diagram showing an example of the configuration of a document data processing apparatus 1 according to the basic embodiment of the present invention.
As shown in FIG. 1, a document data processing apparatus 1 according to a basic embodiment of the present invention includes a control unit 11 that controls processing operations of the entire apparatus, a storage device 12 that is a storage means, an input / output interface 15, and an extraction. An important expression extraction unit 16 as a means, a certainty factor calculation unit 17 as a calculation means, and a message creation unit 18 as a creation means are provided, and they are connected to each other via a bus 19.

記憶装置12は、例えばハードディスクドライブや不揮発性メモリ装置などのハードウェアで構成された記憶媒体である。記憶装置12は、制御部11、重要表現抽出部16、確信度計算部17、メッセージ作成部18による実行対象の制御用プログラムを記憶する。また、記憶装置12は、規則情報である重要表現抽出・メッセージ作成ルール辞書を記憶するための辞書情報記憶部13を有し、更に色・確信度対応情報を記憶するための色対応情報記憶部14も有する。重要表現抽出・メッセージ作成ルール辞書および色・確信度対応情報については後述する。そして、記憶装置12は、制御部11、重要表現抽出部16、確信度計算部17、メッセージ作成部18による各種処理のワークメモリとしても機能する。   The storage device 12 is a storage medium configured by hardware such as a hard disk drive or a nonvolatile memory device. The storage device 12 stores a control program to be executed by the control unit 11, the important expression extraction unit 16, the certainty factor calculation unit 17, and the message creation unit 18. Further, the storage device 12 has a dictionary information storage unit 13 for storing an important expression extraction / message creation rule dictionary which is rule information, and further a color correspondence information storage unit for storing color / certainty degree correspondence information 14. The important expression extraction / message creation rule dictionary and the color / certainty correspondence information will be described later. The storage device 12 also functions as a work memory for various processes performed by the control unit 11, the important expression extraction unit 16, the certainty factor calculation unit 17, and the message creation unit 18.

重要表現抽出部16は、記憶装置12の辞書情報記憶部13に記憶される重要表現抽出・メッセージ作成ルール辞書を参照しながら入力文書データ中の重要表現を抽出し、抽出した結果を記憶装置12に記憶する。   The important expression extraction unit 16 extracts an important expression in the input document data while referring to the important expression extraction / message creation rule dictionary stored in the dictionary information storage unit 13 of the storage device 12, and the extracted result is stored in the storage device 12. To remember.

確信度計算部17は、重要表現抽出部16によって抽出されて記憶装置12に記憶された重要表現について、その内容がどれほど信頼できるかを示す確信度を計算し、計算結果を記憶装置12に記憶する。   The certainty factor calculation unit 17 calculates a certainty factor indicating how reliable the content of the important expression extracted by the important expression extraction unit 16 and stored in the storage device 12 is, and stores the calculation result in the storage device 12. To do.

メッセージ作成部18は、重要表現抽出部16によって抽出されて記憶装置12に記憶された重要表現を用い、記憶装置12の辞書情報記憶部13に記憶される重要表現抽出・メッセージ作成ルール辞書を参照しながら、重要表現のユーザへの確認用メッセージを作成する。   The message creation unit 18 uses the important expressions extracted by the important expression extraction unit 16 and stored in the storage device 12, and refers to the important expression extraction / message creation rule dictionary stored in the dictionary information storage unit 13 of the storage device 12. Meanwhile, a message for confirmation to the user of the important expression is created.

図2は、本発明の基本となる実施形態に従った端末装置の構成例を示すブロック図である。   FIG. 2 is a block diagram showing a configuration example of a terminal device according to the embodiment as the basis of the present invention.

端末装置2は、文書データを作成および校閲するユーザが取り扱う装置である。図2に示すように、端末装置2は、装置全体の処理を司る制御部21、記憶装置22、入力装置23、出力装置24、通信インタフェース25を備え、それぞれがバス26を介して相互に接続される。   The terminal device 2 is a device handled by a user who creates and reviews document data. As shown in FIG. 2, the terminal device 2 includes a control unit 21 that controls processing of the entire device, a storage device 22, an input device 23, an output device 24, and a communication interface 25, which are connected to each other via a bus 26. Is done.

記憶装置22は、例えばハードディスクドライブや不揮発性メモリ装置などのハードウェアで構成された記憶媒体である。記憶装置22は、制御部21による実行対象の制御用プログラムを記憶する他、制御部21による各種処理のワークメモリとしても機能する。   The storage device 22 is a storage medium configured by hardware such as a hard disk drive or a nonvolatile memory device. The storage device 22 stores a control program to be executed by the control unit 21 and also functions as a work memory for various processes performed by the control unit 21.

入力装置23は、例えばキーボードやマウスであり、文書データの新規作成にかかる操作を受け付ける。出力装置24は、例えば液晶ディスプレイであり、ユーザが作成および校閲する文書の表示を行なう。   The input device 23 is a keyboard or a mouse, for example, and accepts an operation related to creation of new document data. The output device 24 is a liquid crystal display, for example, and displays a document created and reviewed by the user.

通信インタフェース25は、ケーブルなどを介して文書データ処理装置1の入出力インタフェース15と通信可能に接続され、端末装置2において作成された文書データや文書データ処理装置1の処理結果などのやり取りを行なう。   The communication interface 25 is communicably connected to the input / output interface 15 of the document data processing device 1 via a cable or the like, and exchanges document data created in the terminal device 2 and processing results of the document data processing device 1. .

また、通信インタフェース25は、図示しない外部記憶装置とケーブルを介して通信可能に接続可能であり、この外部記憶装置との間で文書データを入出力することもできる。   The communication interface 25 can be communicably connected to an external storage device (not shown) via a cable, and can also input / output document data to / from the external storage device.

図3は、本発明の基本となる実施形態に従った文書データ処理装置1の記憶装置12に記憶される重要表現抽出・メッセージ作成ルール辞書の一例を表形式で示す図である。   FIG. 3 is a table showing an example of an important expression extraction / message creation rule dictionary stored in the storage device 12 of the document data processing apparatus 1 according to the basic embodiment of the present invention.

図3に示すように、記憶装置12の辞書情報記憶部13に記憶される重要表現抽出・メッセージ作成ルール辞書では、重要表現の抽出パターンとメッセージが関連付けられて管理される。ここで、抽出パターンとは、抽出対象の各重要表現の組合せを正規表現で記述したものである。また、抽出パターンに従って抽出された各重要表現およびこの表現に対応して、重要表現抽出・メッセージ作成ルール辞書で関連付けられるメッセージを用いて重要表現の確認用メッセージが作成される。そして、この確認用メッセージが端末装置2の出力装置24でユーザに提示される。   As shown in FIG. 3, in the important expression extraction / message creation rule dictionary stored in the dictionary information storage unit 13 of the storage device 12, important expression extraction patterns and messages are managed in association with each other. Here, the extraction pattern is a description of a combination of each important expression to be extracted with a regular expression. In addition, a message for confirming an important expression is created using each important expression extracted according to the extraction pattern and a message associated with the important expression extraction / message creation rule dictionary. Then, this confirmation message is presented to the user at the output device 24 of the terminal device 2.

なお、図3に示した重要表現抽出・メッセージ作成ルール辞書の抽出パターンにおける「.*?」は、0個以上の何らかのキャラクタ、例えば文字や記号を意味する。また、図3に示した重要表現抽出・メッセージ作成ルール辞書のメッセージ中の変数部分である「$1」や「$2」は、当該メッセージに対して重要表現抽出・メッセージ作成ルール辞書で関連付けられる抽出パターンにおける、括弧で囲まれた部分の参照を当該囲まれた部分の記述順に行なう、ということを示している。   Note that “. *?” In the extraction pattern of the important expression extraction / message creation rule dictionary shown in FIG. 3 means zero or more characters such as characters and symbols. Further, “$ 1” and “$ 2” which are variable parts in the message of the important expression extraction / message creation rule dictionary shown in FIG. 3 are associated with the message in the important expression extraction / message creation rule dictionary. This indicates that reference to the part enclosed in parentheses in the extraction pattern is performed in the description order of the enclosed part.

図3に示した重要表現抽出・メッセージ作成ルール辞書の1行目の抽出パターンは、「(CO2排出量).*?([0−9.,]+トン)」である。このパターンは、「CO2排出量」を含み、この次に0個以上の何らかのキャラクタを含み、当該キャラクタの次に単位がトンである量を示す単語を含む、ということを示している。   The extraction pattern in the first line of the important expression extraction / message creation rule dictionary shown in FIG. 3 is “(CO2 emission). *? ([0-9.,] + Ton)”. This pattern includes “CO2 emission amount”, then includes some character of zero or more, and includes a word indicating an amount whose unit is tons next to the character.

続いて、2行目の抽出パターンは、「(CO2排出量).*?(米国|オーストラリア|カナダ).*?([0−9.,]+トン)」である。このパターンは、「CO2排出量」を含み、この次に0個以上の何らかのキャラクタを含み、この次に、「米国」、「オーストラリア」および「カナダ」のいずれかを含み、この次に、単位がトンである量を示す単語を含む、ということを示している。   Subsequently, the extraction pattern in the second row is “(CO2 emissions). *? (US | Australia | Canada). *? ([0-9.,] + Tons)”. This pattern includes “CO2 emissions”, followed by any zero or more characters, followed by any of “US”, “Australia” and “Canada”, followed by units Indicates that it contains a word indicating the amount of tons.

また、3行目の抽出パターンは、「(米国|オーストラリア|カナダ).*?([0−9.,]+トン)」である。このパターンは、「米国」、「オーストラリア」および「カナダ」のいずれかを含み、この次に0個以上の何らかのキャラクタを含み、この次に、単位がトンである量を示す単語を含む、ということを示している。   The extraction pattern in the third row is “(US | Australia | Canada). *? ([0-9.,] + Ton)”. This pattern includes any of “USA”, “Australia” and “Canada”, followed by some zero or more characters, followed by a word indicating the amount in tons. It is shown that.

図4は、本発明の基本となる実施形態に従った文書データ処理装置1記憶装置に記憶される色・確信度情報の一例を表形式で示す図である。   FIG. 4 is a diagram showing an example of the color / confidence information stored in the document data processing apparatus 1 storage device according to the basic embodiment of the present invention in a table format.

図4に示すように、記憶装置12の色対応情報記憶部14に記憶される色・確信度情報では、確信度の段階を示す数字と当該確信度に固有の色情報とが対応付けられて管理される。   As shown in FIG. 4, in the color / confidence information stored in the color correspondence information storage unit 14 of the storage device 12, a number indicating the degree of certainty is associated with color information unique to the certainty. Managed.

次に、図1に示した構成の文書データ処理装置1および図2に示した端末装置2の動作について説明する。図5は、本発明の基本となる実施形態に従った文書データ処理装置1の処理動作の一例を示すフローチャートである。以下の説明では、図5の各ステップに対応させて説明する。   Next, operations of the document data processing apparatus 1 having the configuration shown in FIG. 1 and the terminal apparatus 2 shown in FIG. 2 will be described. FIG. 5 is a flowchart showing an example of the processing operation of the document data processing apparatus 1 according to the basic embodiment of the present invention. In the following description, description will be made corresponding to each step of FIG.

図6は、本発明の基本となる実施形態に従った文書データ処理装置による処理対象の重要表現の抽出例を示す図である。   FIG. 6 is a diagram showing an extraction example of important expressions to be processed by the document data processing apparatus according to the basic embodiment of the present invention.

まず、端末装置2の入力装置23に対する操作により文書データが入力されると(ステップS1)、制御部21は、この文書データを記憶装置22に記憶する。この実施形態では、入力文書データは、図6に示すように「人口1人当たりのCO2排出量は、先進国の中では、米国が19.8トンで最も多く、オーストラリア、カナダが、それぞれ、18.0トン、14.2トンで続いている。」となっている。   First, when document data is input by an operation on the input device 23 of the terminal device 2 (step S1), the control unit 21 stores the document data in the storage device 22. In this embodiment, as shown in FIG. 6, the input document data indicates that “the amount of CO2 emission per capita is the largest in the United States at 19.8 tons, and Australia and Canada each have 18 It continues at 0.0 tons and 14.2 tons. "

制御部21は、入力装置23に対して入力文書データ中の重要表現のチェック要求にかかる入力操作がなされると、記憶装置22に記憶された文書データを、通信インタフェース25を介して文書データ処理装置1に出力する。この文書データは、テキスト情報や位置情報で構成されている。ここで、位置情報とは、文、パラグラフやページのインデックスである。   When an input operation related to a request for checking an important expression in the input document data is performed on the input device 23, the control unit 21 processes the document data stored in the storage device 22 via the communication interface 25. Output to device 1. This document data is composed of text information and position information. Here, the position information is a sentence, paragraph, or page index.

端末装置2からのテキスト情報や位置情報を文書データ処理装置1の入出力インタフェース15が入力すると、重要表現抽出部16は、入力済みのテキスト情報および位置情報をもとに入力文書データ中の重要表現を抽出するために、記憶装置12の辞書情報記憶部13から重要表現抽出・メッセージ作成ルール辞書を読み出し、当該辞書の抽出パターンの1行目を参照し(ステップS2)、入力文書データと当該抽出パターンとを比較して、入力文と抽出パターンとが適合するか否かを判別する(ステップS3)。   When the input / output interface 15 of the document data processing apparatus 1 inputs text information and position information from the terminal device 2, the important expression extraction unit 16 reads important information in the input document data based on the input text information and position information. In order to extract the expression, the important expression extraction / message creation rule dictionary is read from the dictionary information storage unit 13 of the storage device 12, and the first line of the extraction pattern of the dictionary is referred to (step S2). The extracted pattern is compared to determine whether or not the input sentence matches the extracted pattern (step S3).

入力文書データが、図6に示したように「人口1人当たりのCO2排出量は・・」である場合には、重要表現抽出部16は、この入力文書データと図3に示した重要表現抽出・メッセージ作成ルール辞書との照合により、この入力文書データが図3に示した重要表現抽出・メッセージ作成ルール辞書の2行目の抽出パターンと適合すると判別する。それは、当該入力文書データ中に「CO2排出量」が含まれ、この表現に続いて「は、先進国の中では、」が含まれ、この表現に続いて「米国」が含まれ、この表現に続いて「が」が含まれ、この表現に続いて「19.8トン」が含まれるからである。   As shown in FIG. 6, when the input document data is “CO2 emission amount per population is...”, The important expression extraction unit 16 extracts the input document data and the important expression shown in FIG. By collating with the message creation rule dictionary, it is determined that this input document data matches the extraction pattern on the second line of the important expression extraction / message creation rule dictionary shown in FIG. That is, “CO2 emissions” is included in the input document data, followed by “is in developed countries”, followed by “US” after this expression. This is because “ga” is included following “” and “19.8 tons” is included following this expression.

また、重要表現抽出部16は、図6に示した入力文書データ中に「CO2排出量」が含まれ、この表現に続いて「は、先進国の中では、米国が19.8トンで最も多く、」が含まれ、この表現に続いて「オーストラリア」が含まれ、この表現に続いて「、カナダが、それぞれ、」が含まれ、この表現に続いて「18.0トン」が含まれるので、この入力文書データが図3に示した重要表現抽出・メッセージ作成ルール辞書の2行目の抽出パターンと適合すると判別する。   In addition, the important expression extraction unit 16 includes “CO2 emissions” in the input document data shown in FIG. 6. Following this expression, “the United States is the most developed country with 19.8 tons. Is included, followed by "Australia", followed by ", Canada, respectively", followed by "18.0 tons" Therefore, it is determined that the input document data matches the extraction pattern in the second row of the important expression extraction / message creation rule dictionary shown in FIG.

そして、重要表現抽出部16は、図6に示した入力文書データ中に「CO2排出量」が含まれ、この表現に続いて「は、先進国の中では、米国が19.8トンで最も多く、オーストラリア、」が含まれ、この表現に続いて「カナダ」が含まれ、この表現に続いて「、それぞれ、18.0トン、」が含まれ、この表現に続いて「14.2トン」が含まれるので、この入力文書データが図3に示した重要表現抽出・メッセージ作成ルール辞書の2行目の抽出パターンと適合すると判別する。   Then, the important expression extraction unit 16 includes “CO2 emission” in the input document data shown in FIG. 6. Following this expression, “the United States is the most developed country with 19.8 tons. "Australia," is included, followed by "Canada", followed by "18.0 tons," respectively, followed by "14.2 tons" ”Is included, it is determined that the input document data matches the extraction pattern in the second row of the important expression extraction / message creation rule dictionary shown in FIG.

重要表現抽出部16は、入力文と照合対象の抽出パターンが適合しなかった場合には(ステップS3のNO)、重要表現抽出・メッセージ作成ルール辞書における次の行の抽出パターンを参照し、ステップS2以降の処理を再度行なう。この実施形態では、入力文は、重要表現抽出・メッセージ作成ルール辞書におけるいずれかの行の抽出パターンと適合するとする。   If the input sentence and the extraction pattern to be matched do not match (NO in step S3), the important expression extraction unit 16 refers to the extraction pattern of the next line in the important expression extraction / message creation rule dictionary, The processing after S2 is performed again. In this embodiment, it is assumed that the input sentence matches the extraction pattern of any line in the important expression extraction / message creation rule dictionary.

重要表現抽出部16は、入力文と抽出パターンが適合した場合には(ステップS3のYES)、当該入力文中の抽出パターンとの適合表現をもとに重要表現を抽出する(ステップS4)。   When the input sentence and the extraction pattern match (YES in step S3), the important expression extraction unit 16 extracts the important expression based on the matching expression with the extraction pattern in the input sentence (step S4).

例を挙げると、重要表現抽出部16は、図6に示した入力文中の表現のうち、図3に示した重要表現抽出・メッセージ作成ルール辞書における抽出パターンの各要素との適合表現のうち抽出パターンにおける括弧で囲まれた表現をもとに、図6に示すように重要表現抽出処理結果の第1のパターンとして「CO2排出量 米国 19.8トン」を抽出し、重要表現抽出処理結果の第2のパターンとして「CO2排出量 オーストラリア 18.0トン」を抽出し、重要表現抽出処理結果の第3のパターンとして「CO2排出量 カナダ 14.2トン」を抽出する。   For example, the important expression extraction unit 16 extracts among the expressions in the input sentence shown in FIG. 6 and the matching expressions with each element of the extraction pattern in the important expression extraction / message creation rule dictionary shown in FIG. Based on the expression enclosed in parentheses in the pattern, as shown in FIG. 6, “CO2 emissions US 19.8 tons” is extracted as the first pattern of the important expression extraction process result, “CO2 emission amount Australia 18.0 tons” is extracted as the second pattern, and “CO2 emission amount Canada 14.2 tons” is extracted as the third pattern of the important expression extraction processing result.

重要表現抽出部16は、入力文の最後までと重要表現抽出・メッセージ作成ルール辞書との照合にともなう重要表現の抽出が終了していない場合には(ステップS5のNO)、ステップS2の処理に戻る。   The important expression extraction unit 16 performs the process of step S2 when the extraction of the important expression accompanying the collation between the end of the input sentence and the important expression extraction / message creation rule dictionary is not completed (NO in step S5). Return.

重要表現抽出部16が入力文の最後までと重要表現抽出・メッセージ作成ルール辞書との照合にともなう重要表現の抽出が終了した場合には(ステップS5のYES)、確信度計算部17は、重要表現抽出部16によって抽出された重要表現抽出処理結果の各パターンについて、このパターンに属する重要表現の内容が入力文書データ中の重要表現としてどれほど信頼できるかを示す確信度を計算する(ステップS6)。ここでは確信度の値が大きいほど信頼性が高い。   When the important expression extraction unit 16 completes the extraction of the important expression accompanying the collation with the important expression extraction / message creation rule dictionary until the end of the input sentence (YES in step S5), the certainty factor calculation unit 17 For each pattern of the important expression extraction processing result extracted by the expression extraction unit 16, a certainty factor indicating how reliable the contents of the important expression belonging to this pattern as the important expression in the input document data is calculated (step S6). . Here, the greater the certainty value, the higher the reliability.

具体的には、確信度計算部17は、抽出されたパターンに含まれる重要表現の数をもとに確信度を計算する。ここでは、抽出されたパターンに含まれる重要表現の数がN個である場合には確信度はN−1となる。   Specifically, the certainty factor calculation unit 17 calculates the certainty factor based on the number of important expressions included in the extracted pattern. Here, when the number of important expressions included in the extracted pattern is N, the certainty factor is N-1.

つまり、抽出されたパターンが図6に示したように「CO2排出量 米国 19.8トン」であったり、「CO2排出量 オーストラリア 18.0トン」であったり、「CO2排出量 カナダ 14.2トン」であったりする場合には、このパターンに含まれる重要表現が3つであるので、確信度は「2」となる。確信度計算部17は、このように計算した確信度の情報を、対応する重要表現のパターンとともに記憶装置12に記憶する。   That is, as shown in FIG. 6, the extracted pattern is “CO2 emissions US 19.8 tons”, “CO2 emissions Australia 18.0 tons”, “CO2 emissions Canada 14.2”. In the case of “Ton”, since there are three important expressions included in this pattern, the certainty factor is “2”. The certainty factor calculation unit 17 stores the certainty factor information thus calculated in the storage device 12 together with the corresponding important expression pattern.

図7は、本発明の基本となる実施形態に従った文書データ処理装置1による処理対象のメッセージの作成例を示す図である。   FIG. 7 is a diagram showing an example of creating a message to be processed by the document data processing apparatus 1 according to the basic embodiment of the present invention.

次に、メッセージ作成部18は、重要表現抽出部16によって抽出された重要表現、および確信度計算部17により計算された確信度を用いて、重要表現をユーザに提示するためのメッセージ、つまり重要表現のユーザへの確認用メッセージを作成する。   Next, the message creating unit 18 uses the important expression extracted by the important expression extracting unit 16 and the certainty factor calculated by the certainty factor calculating unit 17, a message for presenting an important expression to the user, that is, an important expression. Create a confirmation message to the user of the expression.

具体的には、メッセージ作成部18は、抽出済みの重要表現抽出の処理結果について、各パターンの一つを選択し、記憶装置12に記憶された重要表現抽出・メッセージ作成ルール辞書における抽出パターンのうち、選択済みの重要表現に関するパターン抽出の際に、重要表現抽出・メッセージ作成ルール辞書中で適合した抽出パターンに対して、重要表現抽出・メッセージ作成ルール辞書で対応付けられるメッセージを参照する(ステップS7)。   Specifically, the message creation unit 18 selects one of the patterns for the extracted processing result of the important expression extraction, and extracts the extracted pattern in the important expression extraction / message creation rule dictionary stored in the storage device 12. Among them, when extracting a pattern related to a selected important expression, a message associated with the extracted expression matched in the important expression extraction / message creation rule dictionary is referred to in the important expression extraction / message creation rule dictionary (step S7).

例えば、抽出済みのパターンが前述したように「CO2排出量 米国 19.8トン」である場合には、この抽出の際に図3に示した重要表現抽出・メッセージ作成ルール辞書中で適合した抽出パターンは、2行目の「(CO2排出量).*?(米国|オーストラリア|カナダ).*?([0−9.,]+トン)」であるので、参照されるメッセージは同じく2行目の「$2の$1は$3で正しいですか?」となる。   For example, if the extracted pattern is “CO2 emission US 19.8 tons” as described above, the extraction that matches in the important expression extraction / message creation rule dictionary shown in FIG. Since the pattern is “(CO2 emissions). *? (US | Australia | Canada). *? ([0-9.,] + Tons)” on the second line, the message referenced is the same on the two lines. The second question is "Is $ 1 for $ 2 correct for $ 3?"

そして、メッセージ作成部18は、参照したメッセージの変数部分である$1や$2に抽出した重要表現を代入し(ステップS8)、重要表現をユーザに提示するためのメッセージの文言を作成する。   Then, the message creating unit 18 substitutes the extracted important expression into $ 1 and $ 2 which are the variable parts of the referenced message (step S8), and creates a message word for presenting the important expression to the user.

前述したように、抽出済みのパターンが「CO2排出量 米国 19.8トン」で、参照されたメッセージが「$2の$1は$3で正しいですか?」である場合には、「$1」に代入される重要表現は、抽出済みパターン中の最初の表現「CO2排出量」であり、「$2」に代入される重要表現は、抽出済みパターン中の2番目の表現「米国」であり、「$3」に代入される重要表現は、抽出済みパターン中の3番目の表現「19.8トン」である。   As described above, when the extracted pattern is “CO2 emission US 19.8 tons” and the referenced message is “is $ 1 of $ 2 correct with $ 3?” The important expression assigned to “1” is the first expression “CO2 emissions” in the extracted pattern, and the important expression assigned to “$ 2” is the second expression “US” in the extracted pattern. The important expression assigned to “$ 3” is the third expression “19.8 tons” in the extracted pattern.

よって、作成されるメッセージの文字列は、「米国のCO2排出量は19.8トンで正しいですか?」となる。   Therefore, the character string of the created message is “Are the US CO2 emissions 19.8 tons correct?”.

また、前述したように抽出済みの第2のパターンが「CO2排出量 オーストラリア 18.0トン」である場合には、作成されるメッセージの文字列は、「オーストラリアのCO2排出量は18.0トンで正しいですか?」となり、前述したように抽出済みの第3のパターンが「CO2排出量 カナダ 14.2トン」である場合には、作成されるメッセージの文字列は、「カナダのCO2排出量は14.2トンで正しいですか?」となる。   Further, as described above, when the extracted second pattern is “CO2 emission amount Australia 18.0 tons”, the character string of the created message is “Australian CO2 emission amount is 18.0 tons”. If the extracted third pattern is “CO2 emissions Canada 14.2 tons” as described above, the string of the message created is “Canada CO2 emissions”. Is the amount correct at 14.2 tons? "

そして、メッセージ作成部18は、各メッセージについて、確信度計算部17において計算された確信度をもとに、記憶装置12の色対応情報記憶部14に記憶された色・確信度対応情報を参照し、メッセージの強調色を決定する(ステップS9)。   The message creation unit 18 then refers to the color / confidence level correspondence information stored in the color correspondence information storage unit 14 of the storage device 12 based on the confidence level calculated by the confidence level calculation unit 17 for each message. Then, the highlight color of the message is determined (step S9).

抽出済みのパターンが「CO2排出量 米国 19.8トン」や「CO2排出量 オーストラリア 18.0トン」や「CO2排出量 カナダ 14.2トン」である場合、これらのパターンに対応する確信度はいずれも「2」である。当該確信度「2」に対して、図4に示す色・確信度対応情報で対応付けられる色のコードは「#DCDCDC」となる。よって、作成済みのメッセージは当該コードに対応する色で強調される。   If the extracted patterns are “CO2 emissions US 19.8 tons”, “CO2 emissions Australia 18.0 tons” and “CO2 emissions Canada 14.2 tons”, the certainty corresponding to these patterns is Both are “2”. The color code associated with the certainty factor “2” in the color / certainty factor correspondence information illustrated in FIG. 4 is “#DCDCDC”. Therefore, the created message is highlighted in the color corresponding to the code.

このようにして、メッセージ作成部18は、作成した色付きのメッセージを、入出力インタフェース15を介して端末装置2に出力する。   In this way, the message creation unit 18 outputs the created colored message to the terminal device 2 via the input / output interface 15.

なお、メッセージ作成部18では、確信度をもとにメッセージの強調色を区別する代わりに、色・確信度対応情報を別の対応情報として、フォントの大きさや、メッセージの文言自体を区別してもよい。   In addition, instead of distinguishing the emphasized color of the message based on the certainty factor, the message creating unit 18 may distinguish the font size and the message wording itself using the color / confidence correspondence information as another correspondence information. Good.

文書データ処理装置1から出力されたメッセージを、端末装置2の通信インタフェース25が入力すると、制御部21は、このメッセージを記憶装置22に記憶する。そして、制御部21は、記憶装置22に記憶されたメッセージを取得し、記憶装置22に記憶される入力文書データと併せて出力装置24に出力する(ステップS10)。   When the communication interface 25 of the terminal device 2 inputs a message output from the document data processing device 1, the control unit 21 stores this message in the storage device 22. And the control part 21 acquires the message memorize | stored in the memory | storage device 22, and outputs it to the output device 24 with the input document data memorize | stored in the memory | storage device 22 (step S10).

図8は、本発明の基本となる実施形態に従った端末装置2によるメッセージ出力例を示す図である。   FIG. 8 is a diagram showing an example of message output by the terminal device 2 according to the basic embodiment of the present invention.

出力装置24はメッセージを図8に示すように入力文書データ中の該当文字列と紐付けるなどしてモニタ表示する。   The output device 24 displays the message on a monitor by associating the message with the corresponding character string in the input document data as shown in FIG.

以上のように、本発明の基本となる実施形態における文書データ処理装置1では、ユーザが作成した文書データ中の重要表現を自動的に抽出し、その内容と抽出箇所をユーザに確認用メッセージとして提示するようになっている。そうすることによって、表記内容、特に文書作成者が重要であると判断した表現についての確認・訂正作業の効率が向上すると共に、文書の質が向上させている。   As described above, the document data processing apparatus 1 according to the basic embodiment of the present invention automatically extracts important expressions in user-created document data and uses the contents and the extracted location as confirmation messages to the user. It comes to present. By doing so, the efficiency of the confirmation / correction work for the notation content, particularly the expression that the document creator has determined to be important, is improved, and the quality of the document is improved.

また、本発明の基本となる実施形態における文書データ処理装置1は、抽出済みの重要表現の確信度を用いてメッセージの提示形態に変化を持たせている。そうすることによって、各メッセージの注目すべき度合いをユーザに伝えることができるようになっている。従って、ユーザは注目すべきメッセージを視覚的に判別することが可能となっている。   Further, the document data processing apparatus 1 according to the basic embodiment of the present invention changes the message presentation form using the certainty of the extracted important expression. By doing so, the noticeable degree of each message can be conveyed to the user. Therefore, the user can visually determine a message to be noted.

(第1の実施形態)
次に、本発明の第1の実施形態について説明する。なお、以下の説明に係る文書データ処理装置100の構成のうち、図1に示したものと同一部分の詳細な説明は省略する。そして、図示はしていないが以下の説明ではもちろん端末装置2も備えていることが前提となっている。
(First embodiment)
Next, a first embodiment of the present invention will be described. Note that, in the configuration of the document data processing apparatus 100 according to the following description, detailed description of the same parts as those shown in FIG. 1 is omitted. Although not shown, it is assumed that the terminal device 2 is also provided in the following description.

図9は、本発明の第1の実施形態に従った文書データ処理装置100の構成例を示すブロック図である。   FIG. 9 is a block diagram showing a configuration example of the document data processing apparatus 100 according to the first embodiment of the present invention.

図9に示すように、本発明の基本となる実施形態に従った文書データ処理装置100は、上述した本発明の基本となる実施形態と比較して、表情報検索部31、照合処理部32、抽出規則要素取得部34を更に備え、それぞれがバス19を介して相互に接続される。また、記憶装置12は、抽出規則雛型記憶部33を更に備えている。   As shown in FIG. 9, the document data processing apparatus 100 according to the basic embodiment of the present invention has a table information search unit 31 and a collation processing unit 32 as compared with the basic embodiment of the present invention described above. The extraction rule element acquisition unit 34 is further connected to each other via the bus 19. The storage device 12 further includes an extraction rule template storage unit 33.

表情報検索部31は、文書データ中の表情報を取得し、重要表現抽出部16による抽出結果を参照しながら表情報中の項目情報と限定情報を検索し、この検索結果を記憶装置12に記憶する。項目情報とは、重要表現抽出部16により抽出された重要表現の一パターンにおける表現のうち、確認用メッセージの主語に該当する表現である。限定情報とは、当該抽出された重要表現の一パターンにおける表現のうち、当該パターン中の数値の限定に関わる表現である。   The table information search unit 31 acquires table information in the document data, searches for item information and limited information in the table information while referring to the extraction result by the important expression extraction unit 16, and stores the search result in the storage device 12. Remember. The item information is an expression corresponding to the subject of the confirmation message among the expressions in one pattern of the important expressions extracted by the important expression extracting unit 16. The limitation information is an expression related to limitation of numerical values in the pattern among the expressions in one pattern of the extracted important expression.

また、照合処理部32は、記憶装置12に記憶された、重要表現抽出部16による抽出結果と表情報検索部31による抽出結果との比較を行なう。なお、抽出規則雛型記憶部33と抽出規則要素取得部34については後述する。   The collation processing unit 32 compares the extraction result by the important expression extraction unit 16 and the extraction result by the table information search unit 31 stored in the storage device 12. The extraction rule template storage unit 33 and the extraction rule element acquisition unit 34 will be described later.

[表情報の抽出プロセス]
最初に、図9に示した構成の文書データ処理装置100を利用した「表情報の抽出プロセス」について説明する。図10は、本発明の第1の実施形態に従った文書データ処理装置100の「表情報の抽出プロセス」に係る処理動作の一例を示すフローチャートである。以下の説明では、図10の各ステップに対応させて説明する。図11は、本発明の第1の実施形態に従った文書データ処理装置100により抽出する数値情報の一例を示す図である。
[Table information extraction process]
First, the “table information extraction process” using the document data processing apparatus 100 having the configuration shown in FIG. 9 will be described. FIG. 10 is a flowchart showing an example of a processing operation related to the “table information extraction process” of the document data processing apparatus 100 according to the first embodiment of the present invention. In the following description, description will be given corresponding to each step of FIG. FIG. 11 is a diagram showing an example of numerical information extracted by the document data processing apparatus 100 according to the first embodiment of the present invention.

まず、文書データ処理装置100は、本発明の基本となる実施形態で説明したステップS1からステップS5までと同じ処理を行なう(ステップS21〜S25)。   First, the document data processing apparatus 100 performs the same processing from step S1 to step S5 described in the basic embodiment of the present invention (steps S21 to S25).

そして、文書データ処理装置1の表情報検索部31は、入力文書データに含まれる表情報を取得し、重要表現抽出部16による抽出結果の項目情報と限定情報を参照して、表情報から項目情報と限定情報を取得する(ステップS26)。   Then, the table information search unit 31 of the document data processing apparatus 1 acquires the table information included in the input document data, refers to the item information and the limited information of the extraction result obtained by the important expression extraction unit 16, and determines the items from the table information. Information and limited information are acquired (step S26).

ここでは、一例として入力文書データ中の表情報の構成は図11に示した構成としている。この表情報の2列1行目に「CO2排出量(トン)」が記述されており、1列2行目に「米国」が記述され、1列4行目「オーストラリア」が記述され、1列6行目に「カナダ」が記述されている。この場合には、表情報検索部31は、「CO2排出量」を表情報中の項目情報として取得し、「米国」、「オーストラリア」、「カナダ」を表情報中の限定情報として取得する。   Here, as an example, the configuration of the table information in the input document data is the configuration shown in FIG. In this table information, “CO2 emission (tons)” is described in the second column and the first row, “United States” is described in the first column, the second row, “Australia” is described in the first column, the fourth row, and 1 "Canada" is described in the sixth column. In this case, the table information search unit 31 acquires “CO2 emissions” as item information in the table information, and acquires “USA”, “Australia”, and “Canada” as limited information in the table information.

更に、表情報検索部31は、入力文書データ中の表情報から取得済みの項目情報と限定情報をもとに、当該表情報から数値情報を取得する(ステップS27)。   Further, the table information search unit 31 acquires numerical information from the table information based on the item information and limited information acquired from the table information in the input document data (step S27).

表情報検索部31は、入力文書データ中の表情報が図11に示した構成である場合には、表情報中の項目情報「CO2排出量(トン)」の記述箇所である2列1行目と同じ列で、かつ限定情報「米国」の記述箇所である1列2行目と同じ行である2列2行目に記述される「19.8」を項目情報「CO2排出量」および限定情報「米国」に対応する数値情報として取得する。   When the table information in the input document data has the configuration shown in FIG. 11, the table information search unit 31 has two columns and one row that is a description location of the item information “CO2 emission (tons)” in the table information. “19.8” described in the second column and the second row, which is the same row as the first column and the second row, which is the description location of the limited information “US”, and the item information “CO2 emissions” and Obtained as numerical information corresponding to the limited information “USA”.

また、表情報検索部31は、表情報中の項目情報「CO2排出量(トン)」の記述箇所である2列1行目と同じ列で、かつ限定情報「オーストラリア」の記述箇所である1列4行目と同じ行である2列4行目に記述される「18.0」を項目情報「CO2排出量」および限定情報「オーストラリア」に対応する数値情報として取得する。   Further, the table information search unit 31 is the same column as the second column and first row, which is the description location of the item information “CO2 emission (tons)” in the table information, and is the description location of the limited information “Australia” 1 “18.0” described in the second column and the fourth row, which is the same row as the fourth column, is acquired as numerical information corresponding to the item information “CO2 emission” and the limited information “Australia”.

また、表情報検索部31は、表情報中の項目情報「CO2排出量(トン)」の記述箇所である2列1行目と同じ列で、かつ限定情報「カナダ」の記述箇所である1列6行目と同じ行である2列6行目に記述される数値情報「15.2」を項目情報「CO2排出量」および限定情報「カナダ」に対応する数値情報として取得する。   Further, the table information search unit 31 is the same column as the second column and the first row, which is the description location of the item information “CO2 emission (tons)” in the table information, and is the description location of the limited information “Canada” 1 The numerical information “15.2” described in the second column and the sixth row, which is the same row as the sixth column, is acquired as the numerical information corresponding to the item information “CO2 emissions” and the limited information “Canada”.

図12は、「表情報の抽出プロセス」に従った文書データ処理装置100による照合対象の情報の一例を示す図である。   FIG. 12 is a diagram illustrating an example of information to be collated by the document data processing apparatus 100 according to the “table information extraction process”.

この一例に対しては、図12に示すように、重要表現抽出処理結果の第1のパターンは「CO2排出量 米国 19.8トン」であり、重要表現抽出処理結果の第2のパターンは「CO2排出量 オーストラリア 18.0トン」であり、重要表現抽出処理結果の第3のパターンは「CO2排出量 カナダ 14.2トン」である。   For this example, as shown in FIG. 12, the first pattern of the important expression extraction processing result is “CO2 emission US 19.8 tons”, and the second pattern of the important expression extraction processing result is “ “CO2 emissions Australia 18.0 tons” and the third pattern of the important expression extraction processing result is “CO2 emissions Canada 14.2 tons”.

また、図12に示すように、表情報検索部31は、図11に示すような表情報から取得した項目情報中から単位を外し、数値情報に取得済みの項目情報中の単位を付し、これに取得済みの限定情報を加えた情報を表情報検索処理結果とする。よって、図11に示した表情報をもとにした表情報検索処理結果のパターンは、「CO2排出量 米国 19.8トン」、「CO2排出量 オーストラリア 18.0トン」および「CO2排出量 カナダ 15.2トン」となる。   As shown in FIG. 12, the table information search unit 31 removes the unit from the item information acquired from the table information as shown in FIG. 11, and attaches the unit in the acquired item information to the numerical information. Information obtained by adding the acquired limited information is used as a table information search processing result. Therefore, the pattern of the table information search processing result based on the table information shown in FIG. 11 is “CO2 emissions US 19.8 tons”, “CO2 emissions Australia 18.0 tons” and “CO2 emissions Canada”. 15.2 tons ".

照合処理部32は、記憶装置12に記憶された重要表現抽出部16による抽出結果、および表情報検索部31による表情報検索処理結果を照合する(ステップS28)。   The collation processing unit 32 collates the extraction result by the important expression extraction unit 16 stored in the storage device 12 and the table information retrieval processing result by the table information retrieval unit 31 (step S28).

そして、メッセージ作成部18は、重要表現抽出部16によって抽出された重要表現、表情報検索部31、および照合処理部32による結果を用いて、ユーザに提示するためのメッセージを作成する(ステップS29)。更に、メッセージ作成部18は、作成したメッセージを、入出力インタフェース15を介して端末装置2に出力する。端末装置2の通信インタフェース25がメッセージ作成部18からのメッセージを入力すると、制御部21は、このメッセージを記憶装置22に記憶される入力文書データ中の該当箇所と紐付けて出力装置24にモニタ表示する(ステップS30)。 Then, the message creating unit 18 creates a message to be presented to the user using the important expressions extracted by the important expression extracting unit 16, the results by the table information searching unit 31, and the matching processing unit 32 (step S29). ). Further, the message creation unit 18 outputs the created message to the terminal device 2 via the input / output interface 15. When the communication interface 25 of the terminal device 2 inputs a message from the message creation unit 18, the control unit 21 associates this message with the corresponding part in the input document data stored in the storage device 22 and monitors it in the output device 24. Display (step S30).

[確信度を加味した表示プロセス]
次に、図9に示した構成の文書データ処理装置100を利用した、「確信度を加味した表示プロセス」について説明する。図13は、本発明の第1の実施形態に従った文書データ処理装置100の「確信度を加味した表示プロセス」に係る処理動作の一例を示すフローチャートである。以下の説明では、図13の各ステップに対応させて説明する。
[Display process taking certainty into account]
Next, the “display process with certainty factor” using the document data processing apparatus 100 having the configuration shown in FIG. 9 will be described. FIG. 13 is a flowchart showing an example of a processing operation related to the “display process taking certainty factor into account” of the document data processing apparatus 100 according to the first embodiment of the present invention. In the following description, description will be given corresponding to each step of FIG.

図14は、本発明の第1の実施形態に従った文書データ処理装置100による処理対象の各種データの一例を示す図である。図14に示した重要表現抽出処理結果の一パターンにおける「???」は照合処理部32による照合対象の表情報検索処理結果と比較して抽出がなされなかった表現を意味する。 FIG. 14 is a diagram showing an example of various data to be processed by the document data processing apparatus 100 according to the first embodiment of the present invention. “????” in one pattern of the important expression extraction process result shown in FIG. 14 means an expression that has not been extracted in comparison with the table information search process result to be collated by the collation processing unit 32.

まず、文書データ処理装置100は、「表情報の抽出プロセス」で説明したステップS21からステップS27までの処理と同じ処理を行なう(ステップS41〜S47)。   First, the document data processing apparatus 100 performs the same processing as the processing from step S21 to step S27 described in the “table information extraction process” (steps S41 to S47).

この実施形態では、図14に示すように、重要表現抽出処理結果の第1のパターンは「CO2排出量 19.8トン」であり、重要表現抽出処理結果の第2のパターンは「CO2排出量 オーストラリア 18.0トン」であり、重要表現抽出処理結果の第3のパターンは「CO2排出量 カナダ 14.2トン」である。   In this embodiment, as shown in FIG. 14, the first pattern of the important expression extraction processing result is “CO2 emission amount 19.8 tons”, and the second pattern of the important expression extraction processing result is “CO2 emission amount”. “Australia 18.0 tons” and the third pattern of the important expression extraction processing result is “CO2 emissions Canada 14.2 tons”.

照合処理部32は、記憶装置12に記憶された重要表現抽出部16による抽出結果、および表情報検索部31による抽出結果を照合する(ステップS48)。この実施形態では、照合処理部32は、抽出済みの重要表現抽出処理結果の一パターン中の各要素と、表情報検索処理結果における照合対象の一パターン中の各要素とを個別に照合し、要素ごとの照合結果を照合順に出力する。   The collation processing unit 32 collates the extraction result by the important expression extraction unit 16 and the extraction result by the table information search unit 31 stored in the storage device 12 (step S48). In this embodiment, the collation processing unit 32 individually collates each element in one pattern of the extracted important expression extraction process result and each element in one pattern of the collation target in the table information search process result, The collation result for each element is output in collation order.

照合処理部32は、重要表現抽出処理結果の一パターンおよび表情報検索処理結果における照合対象の一パターンにともに含まれる要素がある場合には「true」を照合結果として出力し、重要表現抽出処理結果の一パターンおよび表情報検索処理結果における照合対象の一パターンのうち片方で欠落している要素があったり、照合対象の双方で一致しない要素があったりする場合には「false」との照合結果を出力する。   The collation processing unit 32 outputs “true” as a collation result when there is an element included in one pattern of the important expression extraction process result and one pattern to be collated in the table information search process result, and the important expression extraction process If there is an element missing in one of the pattern of the result and the pattern of the table information search processing result, or if there is an element that does not match in both of the objects to be collated, collation with “false” Output the result.

そして、確信度計算部17は、照合結果をもとに、重要表現抽出部16によって抽出された重要表現抽出処理結果の各パターンについて、このパターンに属する重要表現の内容が入力文書データ中の重要表現としてどれほど信頼できるかを示す確信度を計算する(ステップS49)。   Then, the certainty factor calculation unit 17 determines the content of the important expression belonging to this pattern in the input document data for each pattern of the important expression extraction processing result extracted by the important expression extraction unit 16 based on the collation result. A certainty factor indicating how reliable the expression is can be calculated (step S49).

具体的には、確信度計算部17は、重要表現抽出処理結果の一パターンに含まれる要素の数をもとに確信度を計算する。ここでは、当該一パターンに含まれる要素の数がN個である場合には確信度はN−1となる。確信度計算部17は、このように計算した確信度の情報を、照合対象の重要表現抽出処理結果のパターンとともに記憶装置12に記憶する。   Specifically, the certainty factor calculation unit 17 calculates the certainty factor based on the number of elements included in one pattern of the important expression extraction processing result. Here, when the number of elements included in the one pattern is N, the certainty factor is N-1. The certainty factor calculation unit 17 stores the information on the certainty factor calculated in this way in the storage device 12 together with the pattern of the important expression extraction processing result to be collated.

また、メッセージ作成部18は、各メッセージについて、確信度計算部17において計算された確信度をもとに、記憶装置12の色対応情報記憶部14に記憶され、図4に示した色・確信度対応情報を参照し、メッセージの強調色を決定する(ステップS50)。   Further, the message creation unit 18 stores each message in the color correspondence information storage unit 14 of the storage device 12 based on the certainty factor calculated by the certainty factor calculation unit 17, and the color / confidence shown in FIG. 4. With reference to the degree correspondence information, the highlight color of the message is determined (step S50).

メッセージ作成部18は、重要表現抽出部16によって抽出された重要表現、表情報検索部31、および照合処理部32による結果を用いて、ユーザに提示するためのメッセージを作成する(ステップS51)。ここでは、メッセージ作成部18は、重要表現抽出処理結果の一パターン中の各要素と、当該パターンの照合対象である、表情報検索処理結果の一パターンの要素についての照合結果が全て「true」である場合には、「※文中と表中の情報は一致しています。」との文字列をメッセージに含め、一パターンの各要素の照合結果中に「true」と「false」がともに含まれる場合には、「※文中と表中の情報は部分的に一致しています。」との文字列をメッセージに含め、一パターンの各要素の照合結果が全て「false」である場合には、「※文中と表中の情報は一致していません。」との文字列をメッセージに含める。   The message creating unit 18 creates a message to be presented to the user using the important expressions extracted by the important expression extracting unit 16, the results obtained by the table information searching unit 31, and the matching processing unit 32 (step S51). Here, the message creating unit 18 sets “true” for all the matching results for each element in one pattern of the important expression extraction processing result and the one pattern element of the table information search processing result that is the matching target of the pattern. In the case of, include the character string “* The information in the sentence and the table match.” Is included in the message, and both “true” and “false” are included in the matching result of each element of one pattern. If the message contains the character string “* The information in the sentence and the table partially match.” And the matching results for each element of one pattern are all “false” , "* The text and the information in the table do not match."

図14には、重要表現抽出処理結果と表情報検索処理結果との照合結果が示されている。この一例では、抽出済みの重要表現抽出処理結果の第1のパターンは「CO2排出量 19.8トン」で、表情報検索処理結果のうち、重要表現抽出処理結果の第1のパターンとの照合対象のパターンは「CO2排出量 米国 19.8トン」であり、「CO2排出量」が双方に含まれ、「米国」は表情報検索処理結果に含まれる一方で重要表現抽出処理結果において欠落しており、「19.8トン」が双方に含まれるので、照合結果は図17に示すように「true false true」となる。   FIG. 14 shows a collation result between the important expression extraction process result and the table information search process result. In this example, the first pattern of the extracted important expression extraction processing result is “CO2 emission 19.8 tons”, and the table information search processing result is compared with the first pattern of the important expression extraction processing result. The target pattern is “CO2 emissions in the United States 19.8 tons”, and “CO2 emissions” is included in both. “US” is included in the table information search processing results, but is missing in the important expression extraction processing results. Since “19.8 tons” is included in both, the collation result is “true false true” as shown in FIG.

この場合、メッセージ作成部18が作成する第1のメッセージの文字列は、「※文中と表中の情報は部分的に一致しています。 文中の情報:CO2排出量 19.8トン 表中の情報:CO2排出量 米国 19.8トン」となる。   In this case, the character string of the first message created by the message creation unit 18 is “* The information in the sentence and the information in the table partially match. Information in the sentence: CO2 emissions 19.8 tons Information: CO2 emissions in the United States of America 19.8 tons.

ここでは、重要表現抽出処理結果の第1のパターン中の要素の数が2つであるので、確信度計算部17が計算する確信度は「1」となる。そしてこの場合、当該確信度「1」に対して図4に示す色・確信度対応情報で対応付けられる色のコードは「#999999」となる。   Here, since the number of elements in the first pattern of the important expression extraction processing result is two, the certainty factor calculated by the certainty factor calculation unit 17 is “1”. In this case, the color code associated with the certainty factor “1” in the color / confidence information shown in FIG. 4 is “# 999999”.

また、抽出済みの重要表現抽出処理結果の第2のパターンは「CO2排出量 オーストラリア 18.0トン」であり、表情報検索処理結果のうち、重要表現抽出処理結果の第2のパターンとの照合対象のパターンは「CO2排出量 オーストラリア 18.0トン」であり、このパターン中の要素は照合対象の双方で全て一致するので照合結果は図17に示すように「true true true」となる。   Further, the second pattern of the extracted important expression extraction result is “CO2 emission Australia 18.0 tons”, and the table information search process result is compared with the second pattern of the important expression extraction process result. The target pattern is “CO2 emissions Australia 18.0 tons”, and all the elements in this pattern match in both of the verification targets, so the verification result becomes “true true true” as shown in FIG.

この場合、メッセージ作成部18が作成するメッセージは、「※文中と表中の情報は一致しています。 文中の情報:CO2排出量 オーストラリア 18.0トン 表中の情報:CO2排出量 オーストラリア 18.0トン」となる。   In this case, the message created by the message creation unit 18 is “* The information in the text and the information in the table are the same. Information in the text: CO2 emissions Australia 18.0 tons Information in the table: CO2 emissions Australia 18. 0 tons ".

ここでは、重要表現抽出処理結果の第1のパターン中の要素の数が3つであるので、確信度計算部17が計算する確信度は「2」となる。この場合当該確信度「2」に対して図4に示す色・確信度対応情報で対応付けられる色のコードは「#DCDCDC」となる。   Here, since the number of elements in the first pattern of the important expression extraction processing result is 3, the certainty factor calculated by the certainty factor calculation unit 17 is “2”. In this case, the color code associated with the certainty factor “2” in the color / certainty factor correspondence information shown in FIG. 4 is “#DCDCDC”.

また、抽出済みの重要表現抽出処理結果の第3のパターンは「CO2排出量 カナダ 14.2トン」であり、表情報検索処理結果のうち、重要表現抽出処理結果の第3のパターンとの照合対象のパターンは「CO2排出量 カナダ 14.2トン」であり、このパターン中の要素は照合対象の双方で全て一致するので照合結果は図14に示すように「true true true」となる。   In addition, the third pattern of the extracted important expression extraction processing result is “CO2 emission Canada 14.2 tons”, and the table information search processing result is compared with the third pattern of the important expression extraction processing result. The target pattern is “CO2 emission amount Canada 14.2 tons”, and all the elements in this pattern match in both of the verification targets, so the verification result is “true true true” as shown in FIG.

この場合、メッセージ作成部18が作成するメッセージは、「※文中と表中の情報は一致しています。 文中の情報:CO2排出量 カナダ 14.2トン 表中の情報:CO2排出量 カナダ 14.2トン」となる。   In this case, the message created by the message creation unit 18 is as follows: “* The information in the text is the same as the information in the table. Information in the text: CO2 emissions Canada 14.2 tons Information in the table: CO2 emissions Canada 14. 2 tons ".

ここでは、重要表現抽出処理結果の第1のパターン中の要素の数が3つであるので、確信度計算部17が計算する確信度は「2」となる。この場合当該確信度「2」に対して図4に示す色・確信度対応情報で対応付けられる色のコードは「#DCDCDC」となる。   Here, since the number of elements in the first pattern of the important expression extraction processing result is 3, the certainty factor calculated by the certainty factor calculation unit 17 is “2”. In this case, the color code associated with the certainty factor “2” in the color / certainty factor correspondence information shown in FIG. 4 is “#DCDCDC”.

メッセージ作成部18は、作成した色付きメッセージを、入出力インタフェース15を介して端末装置2に出力する。端末装置2の通信インタフェース25がメッセージ作成部18からのメッセージを入力すると、制御部21は、このメッセージを入力文書データ中の該当箇所と紐付けて出力装置24にモニタ表示する(ステップS52)。   The message creation unit 18 outputs the created colored message to the terminal device 2 via the input / output interface 15. When the communication interface 25 of the terminal device 2 inputs a message from the message creation unit 18, the control unit 21 associates this message with the corresponding part in the input document data and displays it on the output device 24 (step S52).

[抽出規則雛形の利用プロセス]
更に、図9に示した構成の文書データ処理装置100を利用した「抽出規則雛形の利用プロセス」について説明する。文書データ処理装置100を構成する抽出規則要素取得部34は、上述したような「表情報の抽出プロセス」を経て文書データ中の表情報を取得し、表の定義情報や表を構成する行列の位置情報を参照しながら、表情報中の軸項目情報および単位情報を抽出し、規則要素情報として分類することができる。
[Usage process of extraction rule template]
Furthermore, an “extraction rule template use process” using the document data processing apparatus 100 having the configuration shown in FIG. 9 will be described. The extraction rule element acquisition unit 34 constituting the document data processing apparatus 100 acquires the table information in the document data through the “table information extraction process” as described above, and defines the table definition information and the matrix constituting the table. While referring to the position information, the axis item information and unit information in the table information can be extracted and classified as rule element information.

ここで、抽出規則要素取得部34は、記憶装置12の抽出規則雛型記憶部33に記憶する抽出規則雛型を取得し、分類された規則要素情報を抽出規則雛型に代入し、抽出パターンを生成する。そして、生成した抽出パターンは、記憶装置12の辞書情報記憶部13に記憶される。 Here, the extraction rule element acquisition unit 34 acquires the extraction rule template stored in the extraction rule template storage unit 33 of the storage device 12, substitutes the classified rule element information into the extraction rule template, and extracts the extraction pattern. Is generated. The generated extraction pattern is stored in the dictionary information storage unit 13 of the storage device 12.

なお、軸項目情報とは、表に記述するデータの意味を定義する行および列の見出しであり、単位情報とは、表のデータの単位を表す情報(例えば、百万円、トン)である。つまり、これらの情報は、このようにして抽出された重要表現の一パターンにおける表現のうち、当該パターン中の数値の限定に関わる表現である。 The axis item information is a row and column heading that defines the meaning of the data described in the table, and the unit information is information (for example, millions of yen, tons) indicating the unit of the data in the table. . That is, these pieces of information are expressions related to the limitation of numerical values in the pattern among the expressions in one pattern of the important expressions extracted in this way.

そして、抽出規則雛型とは、図16で現れたような抽出パターンを抽象化したものである。この抽出規則雛型は、具体的な要素(例えば、CO2排出量、米国、トン)を記述することなく、Subject(主題)、Country(国)、Branch(部門)、Unit(単位)のような抽出的な分類名のみ、決められた順番および記述規則によって組合せたパターンのモデルである。また、規則要素情報とは、抽出規則雛型を具体化するため、各分類名に代入する具体的な要素情報である。 The extraction rule template is an abstraction of the extraction pattern as shown in FIG. This extraction rule template does not describe specific elements (for example, CO2 emissions, United States, tons), such as Subject (country), Country (country), Branch (department), Unit (unit) This is a model of a pattern in which only the extracted classification names are combined according to a predetermined order and description rules. The rule element information is specific element information to be assigned to each classification name in order to embody the extraction rule template.

なお、上述した通り、記憶装置12は、抽出規則情報を生成するための抽出規則雛型を記憶するための抽出規則雛型記憶部33、抽出規則要素取得部34から生成された抽出パターンおよびメッセージ作成ルール辞書を記憶するための辞書情報記憶部13を有し、色・確信度対応情報を記憶するための色対応情報記憶部14を有する。   As described above, the storage device 12 uses the extraction rule template storage unit 33 for storing the extraction rule template for generating the extraction rule information and the extraction pattern and message generated from the extraction rule element acquisition unit 34. It has a dictionary information storage unit 13 for storing the creation rule dictionary and a color correspondence information storage unit 14 for storing color / certainty degree correspondence information.

図15は、本発明の第1の実施形態に従った文書データ処理装置100の「抽出規則雛形の利用プロセス」に係る処理動作の一例を示すフローチャートである。以下の説明では、図15の各ステップに対応させて説明する。   FIG. 15 is a flowchart showing an example of the processing operation related to the “extraction rule template use process” of the document data processing apparatus 100 according to the first embodiment of the present invention. In the following description, description will be given corresponding to each step of FIG.

図16は、「抽出規則雛形の利用プロセス」に従った文書データ処理装置100による抽出規則要素情報取得(ステップS52)から重要表現抽出の終了(要否の)判断(ステップS57)までの処理による処理対象の各種データの一例を示す図である。 FIG. 16 is based on the processing from the extraction rule element information acquisition (step S52) by the document data processing apparatus 100 according to the “extraction rule template use process” to the end (necessity) determination of important expression extraction (step S57). It is a figure which shows an example of the various data of a process target.

まず、文書データ処理装置100は、「確信度を加味した表示プロセス」で説明したステップS41(即ち、ステップS21=ステップS1)の処理と同じく文書データ入力処理を行なう(ステップS61)。この実施形態では、入力文書データは、図6に示す入力表および入力文「A部門の売上高は520万円である。」である。 First, the document data processing apparatus 100 performs the document data input process (step S61) in the same manner as the process of step S41 (that is, step S21 = step S1) described in the “display process with certainty factor”. In this embodiment, the input document data is the input table and the input sentence “Sales of department A is 5.2 million yen” shown in FIG.

抽出規則要素取得部34は、入力表に対して、規則要素情報を取得する(ステップS62)。この規則要素情報を取得するために、まず、表の定義情報を参照しながら、表の軸項目情報および単位情報を抽出する。図16に示す例では、列の見出しから「売上高」と「利益」、行見出しから「A部門」、「B部門」、「C部門」、行の数値領域から「百万円」のような情報を抽出する。   The extraction rule element acquisition unit 34 acquires rule element information for the input table (step S62). In order to acquire this rule element information, first, axis item information and unit information of the table are extracted while referring to the definition information of the table. In the example shown in FIG. 16, “sales” and “profit” from the column headings, “A department”, “B department”, “C department” from the row headings, and “million yen” from the numerical area of the row. Useful information.

なお、参照情報とする表の定義情報とは、表に記述された見出しや単位の位置と種類(意味)を明示する外部参照情報、あるいは各要素の位置(行列の番号および順番)による情報の抽出ルールを表わす参照情報である。 Note that the table definition information used as reference information is either external reference information that clearly indicates the position and type (meaning) of the heading or unit described in the table, or information based on the position (matrix number and order) of each element. This is reference information representing an extraction rule.

そして、表の定義情報および各要素の位置情報(行列の番号および順番)を参照し、抽出された情報に対して、情報分類・整理を行なう。そして、図16に示す例では、入力表から抽出した情報に対して、「Subject」、「Branch」、「Unit」の3つの類目を生成する。   Then, by referring to the definition information of the table and the position information (matrix number and order) of each element, information classification and arrangement are performed on the extracted information. In the example illustrated in FIG. 16, three classes “Subject”, “Branch”, and “Unit” are generated for the information extracted from the input table.

次に、抽出規則要素取得部34は、記憶装置12の抽出規則雛型記憶部33に記憶する抽出規則雛型を取得し、ステップS62で生成した規則要素情報を抽出規則雛型に代入することで、抽出パターンを生成し、記憶装置12の辞書情報記憶部13に記憶する(ステップS63)。図16に示す例では、抽出規則雛型「Subject.*?([0−9.,]+Unit )」に対して、表から取得した具体的な抽出規則要素を、分類名(Subject、Unit)毎で代入すると、以下の2つの抽出パターンを生成する。   Next, the extraction rule element acquisition unit 34 acquires the extraction rule template stored in the extraction rule template storage unit 33 of the storage device 12, and substitutes the rule element information generated in step S62 into the extraction rule template. Thus, an extraction pattern is generated and stored in the dictionary information storage unit 13 of the storage device 12 (step S63). In the example shown in FIG. 16, for the extraction rule template “Subject. *? ([0-9.,] + Unit)”, the specific extraction rule elements acquired from the table are classified into classification names (Subject, Unit). Substituting every time generates the following two extraction patterns.

1-1 売上高.*?([0−9.,]+万円)
1-2利益.*?([0−9.,]+万円)
また、抽出規則雛型「Subject.*?Branch.*?([0−9.,]+Unit)」に対して、抽出規則要素を代入すると、以下の6つの抽出パターンを生成する。
1-1 Sales. *? ([0-9,] + 10,000 yen)
1-2 Profit. *? ([0-9,] + 10,000 yen)
When the extraction rule element is substituted for the extraction rule template “Subject. *? Branch. *? ([0-9.,] + Unit)”, the following six extraction patterns are generated.

2-1「A部門.*?売上高.*?([0−9.,]+百万円)」
2-2「B部門.*?売上高.*?([0−9.,]+百万円)」
2-3「C部門.*?売上高.*?([0−9.,]+百万円)」
2-4「A部門.*?利益.*?([0−9.,]+百万円)」
2-5「B部門.*?利益.*?([0−9.,]+百万円)」
2-6「C部門.*?利益.*?([0−9.,]+百万円)」
このように生成した抽出パターンを参照し、「確信度を加味した表示プロセス」で説明したステップS42〜S45(即ち、ステップS21〜S25=ステップS1〜S5)の処理と同じ処理を行ない(ステップS64〜S67)、本文から特定の表現(例えば、数値などの重要表現)を抽出する。図16に示す例では、入力文「A部門の売上高は520万円である。」に対して、抽出パターン2-1を参照し、「売上高 A部門 520万円」のような数値その他の重要表現を抽出する。
2-1 “Department A. *? Sales. *? ([0-9.,] + Million yen)”
2-2 “Department B. *? Net sales. *? ([0-9.,] + Million yen)”
2-3 “C department. *? Sales. *? ([0-9.,] + Million yen)”
2-4 “Department A. *? Profit. *? ([0-9.,] + Million yen)”
2-5 “Department B. *? Profit. *? ([0-9.,] + Million yen)”
2-6 “C section. *? Profit. *? ([0-9.,] + Million yen)”
The extracted pattern generated in this way is referred to, and the same processing as the processing in steps S42 to S45 (that is, steps S21 to S25 = steps S1 to S5) described in “Display process with certainty factor” is performed (step S64). To S67), a specific expression (for example, an important expression such as a numerical value) is extracted from the text. In the example shown in FIG. 16, for the input sentence “Sales of department A is 5.2 million yen”, reference is made to Extraction Pattern 2-1, and numerical values such as “Sales A department of 5.2 million yen” Extract important expressions.

これ以後、「確信度を加味した表示プロセス」で説明したステップS46〜S52の処理と同じ処理を行なう(ステップS68〜74)。   Thereafter, the same processing as the processing of steps S46 to S52 described in "Display process taking certainty factor into account" is performed (steps S68 to 74).

以上のように、本発明の第1の実施形態における文書データ処理装置100では、「抽出規則雛形の利用プロセス」に係る処理動作において、ユーザが作成した文書データ中の特定の表現を抽出するための抽出パターンは、事前に作成しなくても、あるいは事前に作成できない場合であっても、文書中他の関連情報(例えば表の情報)を活用することによって、自動的に生成できるようになる。それ故に、文書データの文章部分と表情報との整合性の確認および訂正作業の効率が向上する。   As described above, the document data processing apparatus 100 according to the first embodiment of the present invention extracts a specific expression in document data created by the user in the processing operation related to the “extraction rule template use process”. The extraction pattern can be automatically generated by using other related information in the document (for example, table information) even if it is not created in advance or cannot be created in advance. . Therefore, the efficiency of checking and correcting the consistency between the sentence portion of the document data and the table information is improved.

(第2の実施形態)
次に、本発明の第2の実施形態について説明する。なお、本実施形態に係る文書データ処理装置200の構成のうち、第1の実施形態に示したものと同一部分についての以下での詳細な説明は省略する。なお、図示はしていないが以下の説明ではもちろん端末装置2も備えていることが前提となっている。
(Second Embodiment)
Next, a second embodiment of the present invention will be described. Note that, in the configuration of the document data processing apparatus 200 according to the present embodiment, the following detailed description of the same parts as those shown in the first embodiment will be omitted. Although not shown, it is assumed that the terminal device 2 is also provided in the following description.

図17は、本発明の第2の実施形態に従った文書データ処理装置200の構成例を示すブロック図である。図17に示すように、本発明の第2の実施形態に従った文書データ処理装置200は、第1の実施形態と比較して、抽出規則要素フィルター部36を更に備え、この抽出規則要素フィルター部36がバス19に接続される。また、記憶装置12は、フィルター情報記憶部35を更に有する。従って、基本的な機能は本発明の第1の実施形態と同様であるが、フィルター情報記憶部35および抽出規則要素フィルター部36の機能が付加されたものとなっている。 FIG. 17 is a block diagram showing a configuration example of the document data processing apparatus 200 according to the second embodiment of the present invention. As shown in FIG. 17, the document data processing apparatus 200 according to the second embodiment of the present invention further includes an extraction rule element filter unit 36 as compared with the first embodiment. The unit 36 is connected to the bus 19. The storage device 12 further includes a filter information storage unit 35. Therefore, the basic functions are the same as those of the first embodiment of the present invention, but the functions of the filter information storage unit 35 and the extraction rule element filter unit 36 are added.

抽出規則要素フィルター部36は、表などの文書データから取得した抽出規則要素に対して、記憶装置12のフィルター情報記憶部35に記憶された不要語リストや選択ルールを参照しながら、抽出規則要素のフィルタリングを行ない、選択された抽出規則要素を、抽出規則要素取得部34に送り、抽出パターンを生成する。 The extraction rule element filter unit 36 refers to an extraction rule element acquired from document data such as a table, while referring to an unnecessary word list and a selection rule stored in the filter information storage unit 35 of the storage device 12. The selected extraction rule element is sent to the extraction rule element acquisition unit 34 to generate an extraction pattern.

また、抽出規則要素フィルター部36は、抽出規則要素取得部34が生成した抽出パターンに対して、各抽出パターンの本文の出現頻度を集計し、出現頻度の閾値との比較によって抽出パターンを選択できるよう出現頻度が閾値以上の抽出パターンを抽出規則要素取得部34に送信し、更に選択した結果を記憶装置12の辞書情報記憶部13に記憶する。 Further, the extraction rule element filter unit 36 can total the appearance frequencies of the body of each extraction pattern with respect to the extraction patterns generated by the extraction rule element acquisition unit 34, and can select the extraction pattern by comparison with the threshold value of the appearance frequency. The extraction pattern having the appearance frequency equal to or higher than the threshold value is transmitted to the extraction rule element acquisition unit 34 and the selected result is stored in the dictionary information storage unit 13 of the storage device 12.

次に、図17に示した構成の文書データ処理装置200の動作について説明する。図18は、本発明の第2の実施形態に従った文書データ処理装置200の処理動作の一例を示すフローチャートである。以下の説明では、図18の各ステップに対応させて説明する。 Next, the operation of the document data processing apparatus 200 having the configuration shown in FIG. 17 will be described. FIG. 18 is a flowchart showing an example of the processing operation of the document data processing apparatus 200 according to the second embodiment of the present invention. In the following explanation, explanation will be given corresponding to each step of FIG.

図19は、本発明の第2の実施形態に従った文書データ処理装置200の抽出規則要素フィルター処理(不要語処理‥ステップS83、選択処理‥ステップS84および出現頻度統計処理‥ステップS86)による処理対象の各種データの一例を示す図である。また、図20は、本発明の第2の実施形態に従った文書データ処理装置の出現頻度統計処理(ステップS86)による処理対象の各種データの一例を示す図である。 FIG. 19 shows processing by extraction rule element filtering (unnecessary word processing... Step S83, selection processing... Step S84 and appearance frequency statistical processing... Step S86) of the document data processing apparatus 200 according to the second embodiment of the present invention. It is a figure which shows an example of the various data of object. FIG. 20 is a diagram showing an example of various data to be processed by the appearance frequency statistical process (step S86) of the document data processing apparatus according to the second embodiment of the present invention.

まず、文書データ処理装置200は、第1の実施形態の「抽出規則雛形の利用プロセス」で説明したステップS61〜S62の処理と同じ処理を行なう(ステップS81〜S82)。この第2の実施形態では、図19に示す例のように、「A部門」、「B部門」、「合計」、「07年度」、「連結」をbranchの抽出規則要素として抽出している。 First, the document data processing apparatus 200 performs the same processing as the processing in steps S61 to S62 described in the “extraction rule template usage process” in the first embodiment (steps S81 to S82). In the second embodiment, “A department”, “B department”, “Total”, “FY 2007”, and “Consolidation” are extracted as branch extraction rule elements as in the example shown in FIG. .

抽出規則要素フィルター部36は、記憶装置12のフィルター情報記憶部35に記憶する不要語リストを参照し、抽出規則要素を選択する(ステップS83)。不要語リストには、抽出規則要素として適切ではないが、表によく(表情報として)記載される一般表現(例えば、合計、平均など)が、予め不要語として登録されている。図19に示す例では、「合計」は不要語リストにあるので、抽出規則要素として適切ではないと判断され、抽出規則要素から排除される。   The extraction rule element filter unit 36 refers to the unnecessary word list stored in the filter information storage unit 35 of the storage device 12 and selects an extraction rule element (step S83). In the unnecessary word list, general expressions (for example, totals, averages, etc.) that are often described in the table (as table information), which are not appropriate as extraction rule elements, are registered as unnecessary words in advance. In the example shown in FIG. 19, since “total” is in the unnecessary word list, it is determined that it is not appropriate as an extraction rule element, and is excluded from the extraction rule element.

次に、抽出規則要素フィルター部36は、記憶装置12のフィルター情報記憶部35に記憶されている選択ルールを参照し、抽出規則要素を選択する(ステップS84)。ここで、選択ルールとは、抽出規則要素を選択するため、予め定義された選択の際の規則である。例えば、図19に示す例では、「Branchに日付表現は入ってはいけない」という選択ルールがあるので、「07年度」は日付表現と判断されると、抽出規則要素から排除される。   Next, the extraction rule element filter unit 36 refers to the selection rule stored in the filter information storage unit 35 of the storage device 12 and selects an extraction rule element (step S84). Here, the selection rule is a rule at the time of selection defined in advance in order to select an extraction rule element. For example, in the example shown in FIG. 19, since there is a selection rule “Date must not be included in Branch”, if “07 year” is determined to be a date expression, it is excluded from the extraction rule element.

そして、不要語処理(ステップS83)および選択処理(ステップS84)によって選択された抽出規則要素を、抽出規則要素取得部34に送信し、第1の実施形態の「抽出規則雛形の利用プロセス」で説明したステップS63の処理と同じ処理を行ない(ステップS85)、抽出パターンを生成し、抽出規則要素フィルター部36に送信する。   Then, the extraction rule elements selected by the unnecessary word processing (step S83) and the selection processing (step S84) are transmitted to the extraction rule element acquisition unit 34, and the “extraction rule template use process” of the first embodiment is performed. The same process as the process of step S63 described is performed (step S85), an extraction pattern is generated, and transmitted to the extraction rule element filter unit 36.

次に、抽出規則要素フィルター部36は、抽出規則要素取得部34から送信された抽出パターンに対し、各抽出パターンが文書データ中に出現する頻度を集計する。そして、予め決めた閾値を参照し、出現頻度が閾値より多い抽出パターンのみ、抽出規則要素取得部34へ送信するとともに辞書情報記憶部13に登録する(ステップS86)。例えば、図20に示す例では、パターン1、パターン2、パターン3の出現頻度はそれぞれ5回、3回、0回である。ここで、閾値が0回の場合、パターン3は適切ではないパターンとして、抽出規則要素取得部34の生成する抽出パターンから排除される。   Next, the extraction rule element filter unit 36 adds up the frequency of the appearance of each extraction pattern in the document data with respect to the extraction patterns transmitted from the extraction rule element acquisition unit 34. Then, referring to a predetermined threshold value, only an extraction pattern whose appearance frequency is higher than the threshold value is transmitted to the extraction rule element acquisition unit 34 and registered in the dictionary information storage unit 13 (step S86). For example, in the example shown in FIG. 20, the appearance frequency of pattern 1, pattern 2, and pattern 3 is 5 times, 3 times, and 0 times, respectively. Here, when the threshold value is 0, the pattern 3 is excluded from the extraction pattern generated by the extraction rule element acquisition unit 34 as an inappropriate pattern.

これ以後、第1の実施形態の「抽出規則雛形の利用プロセス」で説明したステップS64〜S74の処理と同じ処理を行なう(ステップS87〜97)。   Thereafter, the same processing as Steps S64 to S74 described in the “Extraction Rule Template Usage Process” of the first embodiment is performed (Steps S87 to 97).

以上のように、本発明の第2の実施形態における文書データ処理装置200では、表から抽出された抽出規則要素に対して、チェックをかけ、適切ではない要素およびパターンを除くことによって、文書データ中の文章部分と表情報との整合性のチェック精度を向上させることができる。   As described above, the document data processing apparatus 200 according to the second embodiment of the present invention checks the extraction rule elements extracted from the table and removes inappropriate elements and patterns, thereby removing the document data. It is possible to improve the accuracy of checking the consistency between the text portion in the table and the table information.

なお、この発明は前記の各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記の各実施形態に開示されている、複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を省略してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。   Note that the present invention is not limited to the above-described embodiments as they are, and can be embodied by modifying the components without departing from the scope of the invention in the implementation stage. In addition, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the respective embodiments. For example, some components may be omitted from all the components shown in the embodiment. Furthermore, you may combine the component covering different embodiment suitably.

本発明の基本となる実施形態に従った文書データ処理装置の構成例を示すブロック図。The block diagram which shows the structural example of the document data processing apparatus according to embodiment which becomes the foundation of this invention. 本発明の基本となる実施形態に従った端末装置の構成例を示すブロック図。The block diagram which shows the structural example of the terminal device according to embodiment which becomes the foundation of this invention. 本発明の基本となる実施形態に従った文書データ処理装置の記憶装置に記憶される重要表現抽出・メッセージ作成ルール辞書の一例を表形式で示す図。The figure which shows an example of the important expression extraction and message creation rule dictionary memorize | stored in the memory | storage device of the document data processing apparatus according to embodiment which becomes the fundamental of this invention in a table format. 本発明の基本となる実施形態に従った文書データ処理装置の記憶装置に記憶される色対応情報の一例を表形式で示す図。The figure which shows an example of the color corresponding | compatible information memorize | stored in the memory | storage device of the document data processing apparatus according to embodiment based on this invention in a table format. 本発明の基本となる実施形態に従った文書データ処理装置の処理動作の一例を示すフローチャート。6 is a flowchart showing an example of a processing operation of the document data processing apparatus according to the basic embodiment of the present invention. 本発明の基本となる実施形態に従った文書データ処理装置による処理対象の重要表現の抽出例を示す図。The figure which shows the example of extraction of the important expression of the process target by the document data processing apparatus according to embodiment based on this invention. 本発明の基本となる実施形態に従った文書データ処理装置による処理対象のメッセージの作成例を示す図。The figure which shows the example of preparation of the message of the process target by the document data processing apparatus according to embodiment based on this invention. 本発明の基本となる実施形態に従った端末装置によるメッセージ出力例を示す図。The figure which shows the example of a message output by the terminal device according to embodiment based on this invention. 本発明の第1の実施形態に従った文書データ処理装置の構成例を示すブロック図。1 is a block diagram showing a configuration example of a document data processing apparatus according to a first embodiment of the present invention. 本発明の第1の実施形態に従った文書データ処理装置の「表情報の抽出プロセス」に係る処理動作の一例を示すフローチャート。6 is a flowchart showing an example of a processing operation related to a “table information extraction process” of the document data processing apparatus according to the first embodiment of the present invention. 本発明の第1の実施形態に従った文書データ処理装置の「表情報の抽出プロセス」により抽出する数値情報の一例を示す図。The figure which shows an example of the numerical information extracted by the "table information extraction process" of the document data processing apparatus according to the first embodiment of the present invention. 本発明の第1の実施形態に従った文書データ処理装置の「表情報の抽出プロセス」による照合対象の情報の一例を示す図。The figure which shows an example of the information of the collation object by the "table information extraction process" of the document data processing apparatus according to the first embodiment of the present invention. 本発明の第1の実施形態に従った文書データ処理装置の「確信度を加味した表示プロセス」に係る処理動作の一例を示すフローチャート。6 is a flowchart illustrating an example of a processing operation related to a “display process taking certainty factor into account” of the document data processing apparatus according to the first embodiment of the present invention. 本発明の第1の実施形態に従った文書データ処理装置の「確信度を加味した表示プロセス」による処理対象の各種データの一例を示す図。The figure which shows an example of the various data of the process target by the "display process which considered the certainty factor" of the document data processing apparatus according to the 1st Embodiment of this invention. 本発明の第1の実施形態に従った文書データ処理装置の「抽出規則雛形の利用プロセス」に係る処理動作の一例を示すフローチャート。6 is a flowchart showing an example of a processing operation related to an “extraction rule template use process” of the document data processing apparatus according to the first embodiment of the present invention. 本発明の第1の実施形態に従った文書データ処理装置の「抽出規則雛形の利用プロセス」により表からパターン要素の抽出処理の一例を示す図。The figure which shows an example of the extraction process of the pattern element from a table | surface by the "use process of an extraction rule model" of the document data processing apparatus according to the 1st Embodiment of this invention. 本発明の第2の実施形態に従った文書データ処理装置の構成例を示すブロック図。The block diagram which shows the structural example of the document data processing apparatus according to the 2nd Embodiment of this invention. 本発明の第2の実施形態に従った文書データ処理装置の処理動作の一例を示すフローチャート。12 is a flowchart showing an example of processing operation of the document data processing apparatus according to the second embodiment of the present invention. 本発明の第2の実施形態に従った文書データ処理装置によりパターン要素フィルター処理の一例を示す図。The figure which shows an example of a pattern element filter process by the document data processing apparatus according to the 2nd Embodiment of this invention. 本発明の第2の実施形態に従った文書データ処理装置により出現頻度統計処理の一例を示す図。The figure which shows an example of an appearance frequency statistical process by the document data processing apparatus according to the 2nd Embodiment of this invention.

符号の説明Explanation of symbols

1…文書データ処理装置、2…端末装置、11,21…制御部、12,22…記憶装置、13…辞書情報記憶部、14…色対応情報記憶部、15…入出力インタフェース、16…重要表現抽出部、17…確信度計算部、18…メッセージ作成部、19,26…バス、23…入力装置、24…出力装置、25…通信インタフェース、31…表情報検索部、32…照合処理部、33…抽出規則雛型記憶部、34…抽出規則要素取得部、35…フィルター情報記憶部、36…抽出規則要素フィルター部。   DESCRIPTION OF SYMBOLS 1 ... Document data processing apparatus, 2 ... Terminal device, 11, 21 ... Control part, 12, 22 ... Storage device, 13 ... Dictionary information storage part, 14 ... Color correspondence information storage part, 15 ... Input / output interface, 16 ... Important Expression extraction unit, 17 ... Certainty factor calculation unit, 18 ... Message creation unit, 19, 26 ... Bus, 23 ... Input device, 24 ... Output device, 25 ... Communication interface, 31 ... Table information search unit, 32 ... Collation processing unit 33 ... Extraction rule template storage unit, 34 ... Extraction rule element acquisition unit, 35 ... Filter information storage unit, 36 ... Extraction rule element filter unit.

Claims (5)

文書データを入力する文書入力手段と、
前記文書データ中から特定の情報を抽出するための規則情報を記憶する記憶手段と、
前記文書データ中から前記規則情報に則って抽出した規則要素情報および前記記憶手段に記憶された抽出規則雛型に基づき抽出パターンを生成し、この抽出パターンから特定の情報を生成する抽出規則要素取得手段と、
前記文書入力手段により入力した文書データ中の情報から、前記抽出規則要素取得手段により抽出した特定の情報に対応する情報を検索する検索手段と、
前記抽出規則要素取得手段により抽出した特定の情報のうち、前記検索手段により検索した情報に対応する情報および当該検索した情報を照合する照合手段と、
前記照合手段による照合結果を示すメッセージを作成する作成手段と
を備えたことを特徴とする文書データ処理装置。
A document input means for inputting document data;
Storage means for storing rule information for extracting specific information from the document data;
Extraction rule element acquisition that generates an extraction pattern based on the rule element information extracted from the document data in accordance with the rule information and the extraction rule template stored in the storage means, and generates specific information from the extraction pattern Means,
Search means for searching for information corresponding to specific information extracted by the extraction rule element acquisition means from information in the document data input by the document input means;
Of the specific information extracted by the extraction rule element acquisition means, information corresponding to the information searched by the search means and a matching means for matching the searched information;
A document data processing apparatus comprising: a creation unit that creates a message indicating a collation result by the collation unit.
前記記憶手段に記憶する不要語リストや選択ルールを参照しながら、抽出規則要素のフィルタリングを行なうとともに、このフィルタリングで選択された抽出規則要素について、抽出パターンを生成する抽出規則要素取得手段へ送る抽出規則要素フィルター手段を有することを特徴とする請求項1に記載の文書データ処理装置。   Extraction rule elements are filtered while referring to unnecessary word lists and selection rules stored in the storage means, and extraction rule elements selected by this filtering are extracted and sent to an extraction rule element acquisition means for generating an extraction pattern 2. The document data processing apparatus according to claim 1, further comprising rule element filtering means. 前記抽出規則要素フィルター手段は、前記抽出規則要素取得手段が生成する抽出パターンが文書データ中に出現する頻度を集計し、前記抽出規則要素取得手段は、前記頻度が閾値以下の場合、前記抽出パターンから前記頻度で発生する表現を排除することを特徴とする請求項2に記載の文書データ処理装置。   The extraction rule element filter means totals the frequency of occurrence of the extraction pattern generated by the extraction rule element acquisition means in the document data, and the extraction rule element acquisition means, when the frequency is equal to or less than a threshold, 3. The document data processing apparatus according to claim 2, wherein expressions occurring at the frequency are excluded from the document. コンピュータを用いて文書データ中から特定の情報を抽出する機能を提供するために、
文書データを入力する文書入力機能と、
前記文書データ中から特定の情報を抽出するための規則情報を記憶する記憶機能と、
前記文書データ中から前記規則情報に則って抽出した規則要素情報および前記コンピュータの記憶部に記憶された抽出規則雛型に基づき抽出パターンを生成し、この抽出パターンから特定の情報を生成する抽出規則要素取得機能と
前記文書入力手段により入力した文書データ中の情報から、前記コンピュータの抽出規則要素取得部により抽出した特定の情報に対応する情報を検索する検索機能と、
前記抽出規則要素取得手段により抽出した特定の情報のうち、前記コンピュータの検索部により検索した情報に対応する情報および当該検索した情報を照合する照合機能と、
前記照合手段による照合結果を示すメッセージを作成する作成機能と
を前記コンピュータに実行させるための文書データ処理プログラム。
In order to provide a function to extract specific information from document data using a computer,
A document input function for inputting document data;
A storage function for storing rule information for extracting specific information from the document data;
An extraction rule for generating an extraction pattern based on the rule element information extracted from the document data in accordance with the rule information and the extraction rule template stored in the storage unit of the computer, and generating specific information from the extraction pattern An element acquisition function and a search function for searching for information corresponding to specific information extracted by the extraction rule element acquisition unit of the computer from information in the document data input by the document input means;
Among the specific information extracted by the extraction rule element acquisition means, information corresponding to the information searched by the search unit of the computer and a matching function for matching the searched information;
A document data processing program for causing the computer to execute a creation function for creating a message indicating a collation result by the collation means.
前記コンピュータの記憶部に記憶する不要語リストや選択ルールを参照しながら、抽出規則要素のフィルタリングを行なうとともに、このフィルタリングで選択された抽出規則要素について、抽出パターンを生成する抽出規則要素取得手段へ送る抽出規則要素フィルター機能を前記コンピュータに実行させるための請求項4に記載の文書データ処理プログラム。   To extraction rule element acquisition means for filtering extraction rule elements while referring to unnecessary word lists and selection rules stored in the storage unit of the computer and generating an extraction pattern for the extraction rule elements selected by this filtering 5. The document data processing program according to claim 4, which causes the computer to execute an extraction rule element filter function to be sent.
JP2008311263A 2008-12-05 2008-12-05 Document data processing apparatus and program thereof Pending JP2010134766A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008311263A JP2010134766A (en) 2008-12-05 2008-12-05 Document data processing apparatus and program thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008311263A JP2010134766A (en) 2008-12-05 2008-12-05 Document data processing apparatus and program thereof

Publications (1)

Publication Number Publication Date
JP2010134766A true JP2010134766A (en) 2010-06-17

Family

ID=42345992

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008311263A Pending JP2010134766A (en) 2008-12-05 2008-12-05 Document data processing apparatus and program thereof

Country Status (1)

Country Link
JP (1) JP2010134766A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2017010506A1 (en) * 2015-07-13 2018-04-26 帝人株式会社 Information processing apparatus, information processing method, and computer program
US11487940B1 (en) * 2021-06-21 2022-11-01 International Business Machines Corporation Controlling abstraction of rule generation based on linguistic context

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0844742A (en) * 1994-07-27 1996-02-16 Oki Electric Ind Co Ltd Document preparation support device
JP2008112363A (en) * 2006-10-31 2008-05-15 Toshiba Corp Document processor and document processing program
JP2008305105A (en) * 2007-06-06 2008-12-18 Toshiba Corp Document data processor

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0844742A (en) * 1994-07-27 1996-02-16 Oki Electric Ind Co Ltd Document preparation support device
JP2008112363A (en) * 2006-10-31 2008-05-15 Toshiba Corp Document processor and document processing program
JP2008305105A (en) * 2007-06-06 2008-12-18 Toshiba Corp Document data processor

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2017010506A1 (en) * 2015-07-13 2018-04-26 帝人株式会社 Information processing apparatus, information processing method, and computer program
US11487940B1 (en) * 2021-06-21 2022-11-01 International Business Machines Corporation Controlling abstraction of rule generation based on linguistic context

Similar Documents

Publication Publication Date Title
US10474703B2 (en) Method and apparatus for natural language query in a workspace analytics system
US8380650B2 (en) Information extraction rule making support system, information extraction rule making support method, and information extraction rule making support program
US20110252062A1 (en) Electronic device for searching for entry word in dictionary data, control method thereof and program product
JP6417791B2 (en) Application test support apparatus, data processing method thereof, and program
US9898464B2 (en) Information extraction supporting apparatus and method
US9286526B1 (en) Cohort-based learning from user edits
JP2019021341A (en) Application test support apparatus, data processing method thereof, and program
Leonandya et al. A semi-supervised algorithm for Indonesian named entity recognition
JP5430312B2 (en) Data processing apparatus, data name generation method, and computer program
JP5091549B2 (en) Document data processing device
JP2008112363A (en) Document processor and document processing program
CN111881664A (en) Information extraction method, device, equipment and medium combining RPA and AI
JP2010134766A (en) Document data processing apparatus and program thereof
JP7160327B2 (en) Information processing device, information processing method and information processing program
CN107145947B (en) Information processing method and device and electronic equipment
JP2006023968A (en) Unique expression extracting method and device and program to be used for the same
JP5326781B2 (en) Extraction rule creation system, extraction rule creation method, and extraction rule creation program
JP4558369B2 (en) Information extraction system, information extraction method, and computer program
JP2006344053A (en) Patent specification preparation support program
JP2015162107A (en) Correspondence relation extraction device, correspondence relation extraction method, and correspondence relation extraction program
Kotzé et al. Developing and evaluating a pipeline for setswana ocr
TWI608415B (en) Electronic data retrieval system and method
CN109376339B (en) Text conversion candidate rule information extraction method based on user behaviors
JP2007219586A (en) Source code analysis device
JP4044158B2 (en) Code verification device and code verification method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110310

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20111128

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20111206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130111

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130510

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130913