JP2008305105A - Document data processor - Google Patents
Document data processor Download PDFInfo
- Publication number
- JP2008305105A JP2008305105A JP2007150967A JP2007150967A JP2008305105A JP 2008305105 A JP2008305105 A JP 2008305105A JP 2007150967 A JP2007150967 A JP 2007150967A JP 2007150967 A JP2007150967 A JP 2007150967A JP 2008305105 A JP2008305105 A JP 2008305105A
- Authority
- JP
- Japan
- Prior art keywords
- information
- document data
- important
- message
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、文書データ中の数値情報の校正を支援するための文書データ処理装置に関する。 The present invention relates to a document data processing apparatus for supporting proofreading of numerical information in document data.
従来、文書データ中の数値の校正支援に用いることのできる技術として、当該文書データ中の数値情報を抽出するものがあった(例えば、特許文献1参照)。この手法では、文章データ中から数値情報を抽出するとともに、文を係り受け解析し、抽出済みの数値情報に係り受けする情報を取得し、数値情報および当該数値情報が表す対象を取得する。
しかしながら、文書データ中の数値情報の正当性を確認するためには、数値情報を文章データ中から抽出するのみでは不十分であり、ユーザが文章データ中から数値情報の記述を発見し、さらに、その数値情報が何を意味しているのかを表す記述を発見する必要がある。しかし、この作業はユーザにとって容易ではなく、多大な手間を要する。 However, in order to confirm the validity of the numerical information in the document data, it is not sufficient to extract the numerical information from the text data, and the user discovers the description of the numerical information from the text data. It is necessary to find a description that expresses what the numerical information means. However, this operation is not easy for the user and requires a lot of labor.
そこで、本発明の目的は、文書データ中の数値情報の正当性の確認を効率よく支援することが可能になる文書データ処理装置を提供することにある。 Accordingly, an object of the present invention is to provide a document data processing apparatus that can efficiently support the confirmation of the validity of numerical information in document data.
すなわち、本発明に係わる文書データ処理装置は、入力した文書データ中から重要情報を抽出するための規則情報および当該抽出された重要情報の信頼性を示す確信度を計算するための規則情報を記憶し、規則情報に基づき、入力済み文書データ中から重要情報を抽出し、規則情報に基づき、抽出済みの重要情報の信頼性を示す確信度を計算し、抽出済みの重要情報および当該重要情報について計算した確信度に基づいて、重要情報の確認用メッセージを作成することを特徴とする。 That is, the document data processing apparatus according to the present invention stores rule information for extracting important information from input document data and rule information for calculating a certainty factor indicating reliability of the extracted important information. Based on the rule information, important information is extracted from the input document data, and based on the rule information, a certainty factor indicating the reliability of the extracted important information is calculated. About the extracted important information and the important information A message for confirming important information is created based on the calculated certainty factor.
本発明によれば、文書データ中の数値情報の正当性の確認を効率よく支援することができるので、文書作成の効率が向上するとともに、質の高い文書の作成を支援することができる。 According to the present invention, since it is possible to efficiently support the confirmation of the validity of numerical information in document data, the efficiency of document creation is improved and the creation of a high-quality document can be supported.
以下図面により本発明の実施形態について説明する。
(第1の実施形態)
まず、本発明の第1の実施形態について説明する。
図1は、本発明の第1の実施形態にしたがった文書データ処理装置の構成例を示すブロック図である。
図1に示すように、本発明の第1の実施形態にしたがった文書データ処理装置1は、装置全体の処理動作を司る制御部11、記憶手段である記憶装置12、入出力インタフェース15、抽出手段である重要表現抽出部16、計算手段である確信度計算部17、作成手段であるメッセージ作成部18を備え、それぞれがバス19を介して相互に接続される。
Embodiments of the present invention will be described below with reference to the drawings.
(First embodiment)
First, a first embodiment of the present invention will be described.
FIG. 1 is a block diagram showing a configuration example of a document data processing apparatus according to the first embodiment of the present invention.
As shown in FIG. 1, the document
記憶装置12は、例えばハードディスクドライブや不揮発性メモリ装置などのハードウェアで構成された記憶媒体である。記憶装置12は、制御部11、重要表現抽出部16、確信度計算部17、メッセージ作成部18による実行対象の制御用プログラムを記憶する。また、規則情報である重要表現抽出・メッセージ作成ルール辞書を記憶するための辞書情報記憶部13を有し、色・確信度対応情報を記憶するための色対応情報記憶部14を有する。重要表現抽出・メッセージ作成ルール辞書および色・確信度対応情報については後述する。
また、記憶装置12は、制御部11、重要表現抽出部16、確信度計算部17、メッセージ作成部18による各種処理のワークメモリとしても機能する。
The
The
重要表現抽出部16は、記憶装置12の辞書情報記憶部13に記憶される重要表現抽出・メッセージ作成ルール辞書を参照しながら入力文書データ中の重要表現を抽出し、抽出した結果を記憶装置12に記憶する。
確信度計算部17は、重要表現抽出部16によって抽出された重要表現について、その内容がどれほど信頼できるかを示す確信度を計算し、計算結果を記憶装置12に記憶する。
メッセージ作成部18は、重要表現抽出部16によって抽出された重要表現を用い、辞書情報記憶部13に記憶される重要表現抽出・メッセージ作成ルール辞書を参照しながら、重要表現のユーザへの確認用メッセージを作成する。
The important
The certainty factor calculation unit 17 calculates a certainty factor indicating how reliable the content of the important expression extracted by the important
The
図2は、本発明の第1の実施形態にしたがった端末装置の構成例を示すブロック図である。
端末装置2は、文書データを作成および校閲するユーザが取り扱う装置である。図2に示すように、端末装置2は、装置全体の処理を司る制御部21、記憶装置22、入力装置23、出力装置24、通信インタフェース25を備え、それぞれがバス26を介して相互に接続される。
FIG. 2 is a block diagram showing a configuration example of the terminal device according to the first embodiment of the present invention.
The
記憶装置22は、例えばハードディスクドライブや不揮発性メモリ装置などのハードウェアで構成された記憶媒体である。記憶装置22は制御部21による実行対象の制御用プログラムを記憶する他、制御部21による各種処理のワークメモリとしても機能する。
入力装置23は、例えばキーボードやマウスであり、文書データの新規作成にかかる操作を受け付ける。出力装置24は、例えば液晶ディスプレイであり、ユーザが作成および校閲する文書の表示を行う。
The
The
通信インタフェース25は、ケーブルなどを介して文書データ処理装置1の入出力インタフェース15と通信可能に接続され、端末装置2において作成された文書データや文書データ処理装置1の処理結果などのやり取りを行う。
また、通信インタフェース25は図示しない外部記憶装置とケーブルを介して通信可能に接続可能であり、この外部記憶装置との間で文書データを入出力することもできる。
The
The
図3は、本発明の第1の実施形態にしたがった文書データ処理装置の記憶装置に記憶される重要表現抽出・メッセージ作成ルール辞書の一例を表形式で示す図である。
図3に示すように、記憶装置12の辞書情報記憶部13に記憶される重要表現抽出・メッセージ作成ルール辞書では、重要表現の抽出パターンとメッセージが関連付けられて管理される。ここで、抽出パターンは、抽出対象の各重要表現の組合せを正規表現で記述したものである。また、抽出パターンにしたがって抽出された各重要表現およびこの表現に重要表現抽出・メッセージ作成ルール辞書で関連付けられるメッセージを用いて重要表現の確認用メッセージが作成され、端末装置2の出力装置24でユーザに提示される。
FIG. 3 is a table showing an example of an important expression extraction / message creation rule dictionary stored in the storage device of the document data processing device according to the first embodiment of the present invention.
As shown in FIG. 3, in the important expression extraction / message creation rule dictionary stored in the dictionary
なお、図3に示した重要表現抽出・メッセージ作成ルール辞書の抽出パターン中の「.*?」は、0個以上の何らかのキャラクタ、例えば文字や記号を意味する。また、図3に示した重要表現抽出・メッセージ作成ルール辞書のメッセージ中の変数部分である「$1」や「$2」は、当該メッセージに対して重要表現抽出・メッセージ作成ルール辞書で関連付けられる抽出パターン中の括弧で囲まれた部分の参照を当該囲まれた部分の記述順に行うための部分である。 Note that “. * ?” In the extraction pattern of the important expression extraction / message creation rule dictionary shown in FIG. 3 means zero or more characters such as characters and symbols. Further, “$ 1” and “$ 2” which are variable parts in the message of the important expression extraction / message creation rule dictionary shown in FIG. 3 are associated with the message in the important expression extraction / message creation rule dictionary. This is a part for referring to the part enclosed in parentheses in the extraction pattern in the order of description of the enclosed part.
図3に示した重要表現抽出・メッセージ作成ルール辞書の1行目の抽出パターンは「(CO2排出量).*?([0−9.,]+トン)」である。このパターンは、「CO2排出量」を含み、この次に0個以上の何らかのキャラクタを含み、当該キャラクタの次に単位がトンである量を示す単語を含むパターンである。
続く2行目の抽出パターンは、「(CO2排出量).*?(米国|オーストラリア|カナダ).*?([0−9.,]+トン)」である。このパターンは、「CO2排出量」を含み、この次に0個以上の何らかのキャラクタを含み、この次に、「米国」、「オーストラリア」および「カナダ」のいずれかを含み、この次に、単位がトンである量を示す単語を含むパターンである。
また、3行目の抽出パターンは、「(米国|オーストラリア|カナダ).*?([0−9.,]+トン)」である。このパターンは、「米国」、「オーストラリア」および「カナダ」のいずれかを含み、この次に0個以上の何らかのキャラクタを含み、この次に、単位がトンである量を示す単語を含むパターンである。
The extraction pattern in the first line of the important expression extraction / message creation rule dictionary shown in FIG. 3 is “(CO2 emission). * ? ([0-9.,] + Ton)”. This pattern includes a “CO2 emission amount”, followed by some zero or more characters, and includes a word indicating an amount whose unit is tons next to the character.
The extraction pattern in the second line is “(CO2 emissions). *? (US | Australia | Canada). * ? ([0-9.,] + Tons)”. This pattern includes “CO2 emissions”, followed by any zero or more characters, followed by any of “US”, “Australia” and “Canada”, followed by units Is a pattern containing a word indicating the amount of tons.
The extraction pattern in the third row is “(US | Australia | Canada). * ? ([0-9.,] + Ton)”. This pattern includes any of “US”, “Australia”, and “Canada”, followed by some zero or more characters, followed by a word that contains a word indicating the amount in tons. is there.
図4は、本発明の第1の実施形態にしたがった文書データ処理装置の記憶装置に記憶される色・確信度情報の一例を表形式で示す図である。
図4に示すように、記憶装置12の色対応情報記憶部14に記憶される色・確信度情報では、確信度の段階を示す数字と当該確信度に固有の色情報とが対応付けられて管理される。
FIG. 4 is a table showing an example of color / confidence information stored in the storage device of the document data processing device according to the first embodiment of the present invention.
As shown in FIG. 4, in the color / confidence information stored in the color correspondence
次に、図1に示した構成の文書データ処理装置1および図2に示した端末装置2の動作について説明する。図5は、本発明の第1の実施形態にしたがった文書データ処理装置の処理動作の一例を示すフローチャートである。図6は、本発明の第1の実施形態にしたがった文書データ処理装置による処理対象の重要表現の抽出例を示す図である。
Next, operations of the document
まず、端末装置2の入力装置23に対する操作により文書データが入力されると(ステップS1)、制御部21は、この文書データを記憶装置22に記憶する。ここでは、入力文書データは、図6に示すように「人口1人当たりのCO2排出量は、先進国の中では、米国が19.8トンで最も多く、オーストラリア、カナダが、それぞれ、18.0トン、14.2トンで続いている。」とする。
First, when document data is input by an operation on the
制御部21は、入力装置23に対して入力文書データ中の重要表現のチェック要求にかかる入力操作がなされると、記憶装置22に記憶された文書データを通信インタフェース25を介して文書データ処理装置1に出力する。この文書データはテキスト情報や位置情報でなる。位置情報とは、文、パラグラフやページのインデックスである。
When an input operation related to a request for checking an important expression in input document data is performed on the
端末装置2からのテキスト情報や位置情報を文書データ処理装置1の入出力インタフェース15が入力すると、重要表現抽出部16は、入力されたテキスト情報および位置情報をもとに入力文書データ中の重要表現を抽出するために、記憶装置12の辞書情報記憶部13から重要表現抽出・メッセージ作成ルール辞書を読み出し、当該辞書の抽出パターンの1行を参照し(ステップS2)、入力文書データと当該抽出パターンとを比較して、入力文と抽出パターンとが適合するか否かを判別する(ステップS3)。
When the input /
入力文書データが、図6に示したように「人口1人当たりのCO2排出量は・・」である場合には、重要表現抽出部16は、この入力文書データと図3に示した重要表現抽出・メッセージ作成ルール辞書との照合により、当該入力文書データ中に「CO2排出量」が含まれ、この表現に続いて「は、先進国の中では、」が含まれ、この表現に続いて「米国」が含まれ、この表現に続いて「が」が含まれ、この表現に続いて「19.8トン」が含まれるので、この入力文書データが図3に示した重要表現抽出・メッセージ作成ルール辞書の2行目の抽出パターンと適合すると判別する。
As shown in FIG. 6, when the input document data is “CO2 emission amount per population is...”, The important
また、重要表現抽出部16は、図6に示した入力文書データ中に「CO2排出量」が含まれ、この表現に続いて「は、先進国の中では、米国が19.8トンで最も多く、」が含まれ、この表現に続いて「オーストラリア」が含まれ、この表現に続いて「、カナダが、それぞれ、」が含まれ、この表現に続いて「18.0トン」が含まれるので、この入力文書データが図3に示した重要表現抽出・メッセージ作成ルール辞書の2行目の抽出パターンと適合すると判別する。
In addition, the important
また、重要表現抽出部16は、図6に示した入力文書データ中に「CO2排出量」が含まれ、この表現に続いて「は、先進国の中では、米国が19.8トンで最も多く、オーストラリア、」が含まれ、この表現に続いて「カナダ」が含まれ、この表現に続いて「、それぞれ、18.0トン、」が含まれ、この表現に続いて「14.2トン」が含まれるので、この入力文書データが図3に示した重要表現抽出・メッセージ作成ルール辞書の2行目の抽出パターンと適合すると判別する。
In addition, the important
重要表現抽出部16は、入力文と照合対象の抽出パターンが適合しなかった場合には(ステップS3のNO)、重要表現抽出・メッセージ作成ルール辞書の次の行の抽出パターンを参照し、ステップS2以降の処理を再度行う。ここでは、入力文は重要表現抽出・メッセージ作成ルール辞書のいずれかの行の抽出パターンと適合するとする。
重要表現抽出部16は、入力文と抽出パターンが適合した場合には(ステップS3のYES)、当該入力文中の抽出パターンとの適合表現をもとに重要表現を抽出する(ステップS4)。
If the input sentence and the extraction pattern to be matched do not match (NO in step S3), the important
When the input sentence and the extraction pattern match (YES in step S3), the important
例を挙げると、重要表現抽出部16は、図6に示した入力文中の表現のうち、図3に示した重要表現抽出・メッセージ作成ルール辞書の抽出パターンの各要素との適合表現のうち抽出パターン中の括弧で囲まれた表現をもとに、図6に示すように重要表現抽出処理結果の第1のパターンとして「CO2排出量 米国 19.8トン」を抽出し、重要表現抽出処理結果の第2のパターンとして「CO2排出量 オーストラリア 18.0トン」を抽出し、重要表現抽出処理結果の第3のパターンとして「CO2排出量 カナダ 14.2トン」を抽出する。
For example, the important
重要表現抽出部16は、入力文の最後までと重要表現抽出・メッセージ作成ルール辞書との照合にともなう重要表現の抽出が終了していない場合には(ステップS5のNO)、ステップS2の処理に戻る。
The important
重要表現抽出部16が入力文の最後までと重要表現抽出・メッセージ作成ルール辞書との照合にともなう重要表現の抽出が終了した場合には(ステップS5のYES)、確信度計算部17は、重要表現抽出部16によって抽出された重要表現抽出処理結果の各パターンについて、このパターンに属する重要表現の内容が入力文書データ中の重要表現としてどれほど信頼できるかを示す確信度を計算する(ステップS6)。ここでは確信度の値が大きいほど信頼性が高いものとする。
When the important
具体的には、確信度計算部17は、抽出されたパターンに含まれる重要表現の数をもとに確信度を計算する。ここでは、抽出されたパターンに含まれる重要表現の数がN個である場合には確信度はN−1となる。
つまり、抽出されたパターンが図6に示したように「CO2排出量 米国 19.8トン」であったり、「CO2排出量 オーストラリア 18.0トン」であったり、「CO2排出量 カナダ 14.2トン」であったりする場合には、このパターンに含まれる重要表現はそれぞれ3つであるので、確信度は「2」となる。確信度計算部17は、このように計算した確信度の情報を、対応する重要表現のパターンとともに記憶装置12に記憶する。
Specifically, the certainty factor calculation unit 17 calculates the certainty factor based on the number of important expressions included in the extracted pattern. Here, when the number of important expressions included in the extracted pattern is N, the certainty factor is N-1.
That is, as shown in FIG. 6, the extracted pattern is “CO2 emissions US 19.8 tons”, “CO2 emissions Australia 18.0 tons”, “CO2 emissions Canada 14.2”. In the case of “Ton”, since there are three important expressions included in this pattern, the certainty factor is “2”. The certainty factor calculation unit 17 stores the certainty factor information thus calculated in the
次に、メッセージ作成部18は、重要表現抽出部16によって抽出された重要表現、および確信度計算部17により計算された確信度を用いて、重要表現をユーザに提示するためのメッセージ、つまり重要表現のユーザへの確認用メッセージを作成する。
図7は、本発明の第1の実施形態にしたがった文書データ処理装置による処理対象のメッセージの作成例を示す図である。
具体的には、メッセージ作成部18は、抽出済みの重要表現抽出処理結果の各パターンの一つを選択し、記憶装置12に記憶された重要表現抽出・メッセージ作成ルール辞書の抽出パターンのうち、選択済みの重要表現のパターン抽出の際に適合した抽出パターンに重要表現抽出・メッセージ作成ルール辞書で対応付けられるメッセージを参照する(ステップS7)。
Next, the
FIG. 7 is a diagram showing an example of creating a message to be processed by the document data processing apparatus according to the first embodiment of the present invention.
Specifically, the
例えば、抽出済みのパターンが前述したように「CO2排出量 米国 19.8トン」である場合には、この抽出の際に図3に示した重要表現抽出・メッセージ作成ルール辞書中で適合した抽出パターンは、2行目の「(CO2排出量).*?(米国|オーストラリア|カナダ).*?([0−9.,]+トン)」であるので、参照されるメッセージは2行目の「$2の$1は$3で正しいですか?」となる。
そして、メッセージ作成部18は、参照したメッセージの変数部分である$1や$2に抽出した重要表現を代入し、(ステップS8)、重要表現をユーザに提示するためのメッセージの文言を作成する。
For example, if the extracted pattern is “CO2 emission US 19.8 tons” as described above, the extraction that matches in the important expression extraction / message creation rule dictionary shown in FIG. Since the pattern is “(CO2 emissions). *? (US | Australia | Canada). * ? ([0-9.,] + Ton)” on the second line, the message referenced is the second line "Is $ 1 for $ 2 correct with $ 3?"
Then, the
前述したように、抽出済みのパターンが「CO2排出量 米国 19.8トン」で、参照されたメッセージが「$2の$1は$3で正しいですか?」である場合には、「$1」に代入される重要表現は抽出済みパターン中の最初の表現「CO2排出量」で、「$2」に代入される重要表現は抽出済みパターン中の2番目の表現「米国」で、「$3」に代入される重要表現は抽出済みパターン中の3番目の表現「19.8トン」である。
よって、作成されるメッセージの文字列は、「米国のCO2排出量は19.8トンで正しいですか?」となる。
As described above, when the extracted pattern is “CO2 emission US 19.8 tons” and the referenced message is “is $ 1 of $ 2 correct with $ 3?” The important expression assigned to “1” is the first expression “CO2 emissions” in the extracted pattern, and the important expression assigned to “$ 2” is the second expression “US” in the extracted pattern. The important expression assigned to “$ 3” is the third expression “19.8 tons” in the extracted pattern.
Therefore, the character string of the created message is “Are the US CO2 emissions 19.8 tons correct?”.
また、前述したように抽出済みの第2のパターンが「CO2排出量 オーストラリア 18.0トン」である場合には、作成されるメッセージの文字列は、「オーストラリアのCO2排出量は18.0トンで正しいですか?」となり、前述したように抽出済みの第3のパターンが「CO2排出量 カナダ 14.2トン」である場合には、作成されるメッセージの文字列は、「カナダのCO2排出量は14.2トンで正しいですか?」となる。 Further, as described above, when the extracted second pattern is “CO2 emission amount Australia 18.0 tons”, the character string of the created message is “Australian CO2 emission amount is 18.0 tons”. If the extracted third pattern is “CO2 emissions Canada 14.2 tons” as described above, the string of the message created is “Canada CO2 emissions”. Is the amount correct at 14.2 tons? "
また、メッセージ作成部18は、各メッセージについて、確信度計算部17において計算された確信度をもとに、記憶装置12の色対応情報記憶部14に記憶された色・確信度対応情報を参照し、メッセージの強調色を決定する(ステップS9)。
抽出済みのパターンが「CO2排出量 米国 19.8トン」や「CO2排出量 オーストラリア 18.0トン」や「CO2排出量 カナダ 14.2トン」である場合、これらのパターンに対応する確信度はいずれも「2」である。当該確信度「2」に対して図4に示す色・確信度対応情報で対応付けられる色のコードは「#DCDCDC」となる。よって、作成済みのメッセージは当該コードに対応する色で強調される。
メッセージ作成部18は、確信度をもとにメッセージの強調色を区別する替わりに、色・確信度対応情報を別の対応情報として、フォントの大きさや、メッセージの文言自体を区別してもよい。
In addition, the
If the extracted patterns are “CO2 emissions US 19.8 tons”, “CO2 emissions Australia 18.0 tons” and “CO2 emissions Canada 14.2 tons”, the certainty corresponding to these patterns is Both are “2”. The color code associated with the certainty factor “2” in the color / confidence factor correspondence information shown in FIG. 4 is “#DCDCDC”. Therefore, the created message is highlighted in the color corresponding to the code.
Instead of distinguishing the emphasized color of the message based on the certainty factor, the
メッセージ作成部18は、作成した色付きのメッセージを、入出力インタフェース15を介して端末装置2に出力する。
文書データ処理装置1から出力されたメッセージを端末装置2の通信インタフェース25が入力すると、制御部21は、このメッセージを記憶装置22に記憶する。制御部21は、記憶装置22に記憶されたメッセージを取得し、記憶装置22に記憶される入力文書データと併せて出力装置24に出力する(ステップS10)。
The
When the
図8は、本発明の第1の実施形態にしたがった端末装置によるメッセージ出力例を示す図である。
出力装置24はメッセージを図8に示すように入力文書データ中の該当文字列と紐付けるなどして表示する。
FIG. 8 is a diagram illustrating an example of message output by the terminal device according to the first embodiment of the present invention.
The
以上のように、本発明の第1の実施形態における文書データ処理装置では、ユーザが作成した文書データ中の重要表現を自動的に抽出し、その内容と抽出箇所をユーザに確認用メッセージとして提示するので、表記内容、特に文書作成者が重要であると判断した表現についての確認・訂正作業の効率が向上すると共に、文書の質が向上する。
また、この文書データ処理装置は、抽出済みの重要表現の確信度を用いてメッセージの提示形態に変化を持たせるので、各メッセージの注目すべき度合いをユーザに伝えることができる。よってユーザは注目すべきメッセージを視覚的に判別することができる。
As described above, in the document data processing apparatus according to the first embodiment of the present invention, important expressions in document data created by the user are automatically extracted, and the contents and extraction locations are presented to the user as confirmation messages. Therefore, the efficiency of the confirmation / correction work for the notation content, particularly the expression that the document creator has determined to be important, is improved, and the quality of the document is improved.
In addition, since the document data processing apparatus gives a change to the presentation form of the message using the certainty of the extracted important expression, the degree of attention of each message can be notified to the user. Therefore, the user can visually discriminate the message to be noted.
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。なお、以下の各実施形態に係る文書データ処理装置1の構成のうち図1に示したものと同一部分の説明は省略する。
図9は、本発明の第2の実施形態にしたがった文書データ処理装置の構成例を示すブロック図である。
図9に示すように、本発明の第2の実施形態にしたがった文書データ処理装置1は、第1の実施形態と比較して、確信度計算部17を備えておらず、表情報検索部31、照合処理部32をさらに備え、それぞれがバス19を介して相互に接続される。また、記憶装置12は色対応情報記憶部14を有しない。
(Second Embodiment)
Next, a second embodiment of the present invention will be described. In addition, description of the same part as the thing shown in FIG. 1 among the structures of the document
FIG. 9 is a block diagram showing a configuration example of a document data processing apparatus according to the second embodiment of the present invention.
As shown in FIG. 9, the document
表情報検索部31は、文書データ中の表情報を取得し、重要表現抽出部16による抽出結果を参照しながら表情報中の項目情報と限定情報を検索し、この検索結果を記憶装置12に記憶する。項目情報とは、重要表現抽出部16により抽出された重要表現の一パターン中の表現のうち、確認用メッセージの主語に該当する表現である。限定情報とは、当該抽出された重要表現の一パターン中の表現のうち、当該パターン中の数値の限定に関わる表現である。
また、照合処理部32は、記憶装置12に記憶された、重要表現抽出部16による抽出結果と表情報検索部31による抽出結果との比較を行う。
The table information search unit 31 acquires table information in the document data, searches for item information and limited information in the table information while referring to the extraction result by the important
The collation processing unit 32 compares the extraction result by the important
次に、図9に示した構成の文書データ処理装置1などの動作について説明する。図10は、本発明の第2の実施形態にしたがった文書データ処理装置の処理動作の一例を示すフローチャートである。図11は、本発明の第2の実施形態にしたがった文書データ処理装置により抽出する数値情報の一例を示す図である。
Next, the operation of the document
まず、文書データ処理装置1は、第1の実施形態で説明したステップS1からステップS5までと同じ処理を行なう(ステップS21〜S25)。
そして、文書データ処理装置1の表情報検索部31は、入力文書データに含まれる表情報を取得し、重要表現抽出部16による抽出結果の項目情報と限定情報を参照して、表情報から項目情報と限定情報を取得する(ステップS26)。
First, the document
Then, the table information search unit 31 of the document
ここでは、入力文書データ中の表情報の構成は図11に示した構成である。この表情報の2列1行目に「CO2排出量(トン)」が記述されており、1列2行目に「米国」が記述され、1列4行目「オーストラリア」が記述され、1列6行目に「カナダ」が記述されている。この場合には、表情報検索部31は、「CO2排出量」を表情報中の項目情報として取得し、「米国」、「オーストラリア」、「カナダ」を表情報中の限定情報として取得する。 Here, the configuration of the table information in the input document data is the configuration shown in FIG. In this table information, “CO2 emission (tons)” is described in the second column and the first row, “United States” is described in the first column, the second row, “Australia” is described in the first column, the fourth row, and 1 "Canada" is described in the sixth column. In this case, the table information search unit 31 acquires “CO2 emissions” as item information in the table information, and acquires “USA”, “Australia”, and “Canada” as limited information in the table information.
更に、表情報検索部31は、入力文書データ中の表情報から取得済みの項目情報と限定情報をもとに、当該表情報から数値情報を取得する(ステップS27)。
表情報検索部31は、入力文書データ中の表情報が図11に示した構成である場合には、表情報中の項目情報「CO2排出量(トン)」の記述箇所である2列1行目と同じ列で、かつ限定情報「米国」の記述箇所である1列2行目と同じ行である2列2行目に記述される「19.8」を項目情報「CO2排出量」および限定情報「米国」に対応する数値情報として取得する。
また、表情報検索部31は、表情報中の項目情報「CO2排出量(トン)」の記述箇所である2列1行目と同じ列で、かつ限定情報「オーストラリア」の記述箇所である1列4行目と同じ行である2列4行目に記述される「18.0」を項目情報「CO2排出量」および限定情報「オーストラリア」に対応する数値情報として取得する。
また、表情報検索部31は、表情報中の項目情報「CO2排出量(トン)」の記述箇所である2列1行目と同じ列で、かつ限定情報「カナダ」の記述箇所である1列6行目と同じ行である2列6行目に記述される数値情報「15.2」を項目情報「CO2排出量」および限定情報「カナダ」に対応する数値情報として取得する。
Further, the table information search unit 31 acquires numerical information from the table information based on the item information and limited information acquired from the table information in the input document data (step S27).
When the table information in the input document data has the configuration shown in FIG. 11, the table information search unit 31 has two columns and one row that is a description location of the item information “CO2 emission (tons)” in the table information. “19.8” described in the second column and the second row, which is the same row as the first column and the second row, which is the description location of the limited information “US”, and the item information “CO2 emissions” and Obtained as numerical information corresponding to the limited information “USA”.
Further, the table information search unit 31 is the same column as the second column and first row, which is the description location of the item information “CO2 emission (tons)” in the table information, and is the description location of the limited information “Australia” 1 “18.0” described in the second column and the fourth row, which is the same row as the fourth column, is acquired as numerical information corresponding to the item information “CO2 emission” and the limited information “Australia”.
Further, the table information search unit 31 is the same column as the second column and the first row, which is the description location of the item information “CO2 emission (tons)” in the table information, and is the description location of the limited information “Canada” 1 The numerical information “15.2” described in the second column and the sixth row, which is the same row as the sixth column, is acquired as the numerical information corresponding to the item information “CO2 emissions” and the limited information “Canada”.
図12は、本発明の第2の実施形態にしたがった文書データ処理装置による照合対象の情報の一例を示す図である。
ここでは、図12に示すように、重要表現抽出処理結果の第1のパターンは「CO2排出量 米国 19.8トン」であり、重要表現抽出処理結果の第2のパターンは「CO2排出量 オーストラリア 18.0トン」であり、重要表現抽出処理結果の第3のパターンは「CO2排出量 カナダ 14.2トン」であるとする。
FIG. 12 is a diagram showing an example of information to be collated by the document data processing apparatus according to the second embodiment of the present invention.
Here, as shown in FIG. 12, the first pattern of the important expression extraction processing result is “CO2 emission amount US 19.8 tons”, and the second pattern of the important expression extraction processing result is “CO2 emission amount Australia”. 18.0 tons ”and the third pattern of the important expression extraction processing result is“ CO2 emissions Canada 14.2 tons ”.
また、図12に示すように、表情報検索部31は、表情報から取得した項目情報中から単位を外し、数値情報に取得済みの項目情報中の単位を付し、これに取得済みの限定情報を加えた情報を表情報検索処理結果とする。よって、図11に示した表情報をもとにした表情報検索処理結果のパターンは、「CO2排出量 米国 19.8トン」、「CO2排出量 オーストラリア 18.0トン」および「CO2排出量 カナダ 15.2トン」となる。
照合処理部32は、記憶装置12に記憶された重要表現抽出部16による抽出結果、および表情報検索部31による表情報検索処理結果を照合する(ステップS28)。
Also, as shown in FIG. 12, the table information search unit 31 removes the unit from the item information acquired from the table information, attaches the unit in the acquired item information to the numerical information, and acquires the limited Information obtained by adding information is used as a table information search processing result. Therefore, the pattern of the table information search processing result based on the table information shown in FIG. 11 is “CO2 emissions US 19.8 tons”, “CO2 emissions Australia 18.0 tons” and “CO2 emissions Canada”. 15.2 tons ".
The collation processing unit 32 collates the extraction result by the important
メッセージ作成部18は、重要表現抽出部16によって抽出された重要表現、表情報検索部31、および照合処理部32による結果を用いて、ユーザに提示するためのメッセージを作成する(ステップS29)。
図13は、本発明の第2の実施形態にしたがった文書データ処理装置による処理対象の各種情報の一例を示す図である。図13には、重要表現抽出処理結果と表情報検索処理結果との照合結果が示される。
The
FIG. 13 is a diagram showing an example of various types of information to be processed by the document data processing apparatus according to the second embodiment of the present invention. FIG. 13 shows a collation result between the important expression extraction process result and the table information search process result.
表情報検索処理結果の各パターンのうち、抽出済みの重要表現抽出処理結果の第1のパターンは「CO2排出量 米国 19.8トン」で、表情報検索処理結果のうち、重要表現抽出処理結果の第1のパターンとの照合対象のパターンは「CO2排出量 米国 19.8トン」であり、これらの表現は重要表現抽出処理結果と表情報検索処理結果の間で一致するので、照合結果は図13に示すように「true」となる。
この場合、メッセージ作成部18が作成するメッセージは、「※文中と表中の情報は一致しています。 文中の情報:CO2排出量 米国 19.8トン 表中の情報:CO2排出量 米国 19.8トン」となる。
Among the patterns of the table information search processing result, the first pattern of the extracted important expression extraction result is “CO2 emission US 19.8 tons”, and among the table information search processing results, the important expression extraction processing result The pattern to be matched with the first pattern is “CO2 emissions US 19.8 tons”, and these expressions match between the important expression extraction process result and the table information search process result. As shown in FIG. 13, it becomes “true”.
In this case, the message created by the
また、抽出済みの重要表現抽出処理結果の第2のパターンは「CO2排出量 オーストラリア 18.0トン」であり、表情報検索処理結果のうち、重要表現抽出処理結果の第2のパターンとの照合対象のパターンは「CO2排出量 オーストラリア 18.0トン」であり、これらの表現は重要表現抽出処理結果と表情報検索処理結果の間で一致するので、照合結果は図13に示すように「true」となる。
この場合、メッセージ作成部18が作成するメッセージは、「※文中と表中の情報は一致しています。 文中の情報:CO2排出量 オーストラリア 18.0トン 表中の情報:CO2排出量 オーストラリア 18.0トン」となる。
Further, the second pattern of the extracted important expression extraction result is “CO2 emission Australia 18.0 tons”, and the table information search process result is compared with the second pattern of the important expression extraction process result. The target pattern is “CO2 emissions Australia 18.0 tons”, and these expressions match between the important expression extraction process result and the table information search process result, so the collation result is “true” as shown in FIG. "
In this case, the message created by the
また、抽出済みの重要表現抽出処理結果の第3のパターンは「CO2排出量 カナダ 14.2トン」であり、表情報検索処理結果のうち、重要表現抽出処理結果の第3のパターンとの照合対象のパターンは「CO2排出量 カナダ 15.2トン」であり、これらのパターン中の表現のうち数値部分が重要表現抽出処理結果と表情報検索処理結果の間で一致していないので、照合結果は図13に示すように「false」となる。
この場合、メッセージ作成部18が作成するメッセージは、「※文中と表中の情報は一致していません。 文中の情報:CO2排出量 カナダ 14.2トン 表中の情報:CO2排出量 カナダ 15.2トン」となる。
In addition, the third pattern of the extracted important expression extraction processing result is “CO2 emission Canada 14.2 tons”, and the table information search processing result is compared with the third pattern of the important expression extraction processing result. The target pattern is “CO2 emissions Canada 15.2 tons”, and the numerical values of the expressions in these patterns do not match between the important expression extraction process result and the table information search process result. Becomes “false” as shown in FIG.
In this case, the message created by the
メッセージ作成部18は、作成したメッセージを、入出力インタフェース15を介して端末装置2に出力する。端末装置2の通信インタフェース25がメッセージ作成部18からのメッセージを入力すると、制御部21は、このメッセージを記憶装置22に記憶される入力文書データ中の該当箇所と紐付けて出力装置24に表示する(ステップS30)。
The
図14は、本発明の第2の実施形態にしたがった端末装置によるメッセージ出力例を示す図である。
入力文書データの文字列が図6に示したように「人口1人当たりのCO2排出量は、先進国の中では、米国が19.8トンで最も多く、オーストラリア、カナダが、それぞれ、18.0トン、14.2トンで続いている。」である場合、制御部21は、メッセージの該当箇所である「CO2排出量は、先進国の中では、米国が19.8トンで最も多く、オーストラリア、カナダが、それぞれ、18.0トン、14.2トン」を図14に示すように反転表示させ、この反転表示箇所に入力済みの各メッセージを紐付けて出力装置24に表示する。
FIG. 14 is a diagram showing a message output example by the terminal device according to the second embodiment of the present invention.
As shown in Fig. 6, the text string of the input document data shows that "The CO2 emissions per capita are the highest in the United States at 19.8 tons, and Australia and Canada are 18.0 tons respectively. ”Is followed by“ 14.2 tons ”, the
以上のように、本発明の第2の実施形態における文書データ処理装置では、ユーザが作成した文書データ中の重要表現を抽出した上で、この重要表現の項目情報、限定情報および数値情報を文書データ中の表情報から検索し、双方が一致するか否かの結果をメッセージとして出力するので、文書データ中の文章部分と表情報との整合性の確認および訂正作業の効率が向上する。 As described above, the document data processing apparatus according to the second embodiment of the present invention extracts the important expression from the document data created by the user and then stores the item information, the limited information, and the numerical information of the important expression in the document. Since the table information in the data is searched and the result of whether or not both are matched is output as a message, the efficiency of checking and correcting the consistency between the sentence portion in the document data and the table information is improved.
(第3の実施形態)
次に、本発明の第3の実施形態について説明する。図15は、本発明の第3の実施形態にしたがった文書データ処理装置の構成例を示すブロック図である。図15に示すように、本発明の第3の実施形態にしたがった文書データ処理装置1は、第2の実施形態と比較して、確信度計算部17をさらに備え、この確信度計算部17がバス19に接続される。また、記憶装置12は、色対応情報記憶部14を有する。
(Third embodiment)
Next, a third embodiment of the present invention will be described. FIG. 15 is a block diagram showing a configuration example of a document data processing apparatus according to the third embodiment of the present invention. As shown in FIG. 15, the document
図15に示した構成の文書データ処理装置の動作について説明する。図16は、本発明の第3の実施形態にしたがった文書データ処理装置の処理動作の一例を示すフローチャートである。図17は、本発明の第3の実施形態にしたがった文書データ処理装置による処理対象の各種データの一例を示す図である。図17に示した重要表現抽出処理結果の一パターンにおける「???」は照合処理部32による照合対象の表情報検索処理結果と比較して抽出がなされなかった表現を意味する。 The operation of the document data processing apparatus having the configuration shown in FIG. 15 will be described. FIG. 16 is a flowchart showing an example of the processing operation of the document data processing apparatus according to the third embodiment of the present invention. FIG. 17 is a diagram showing an example of various data to be processed by the document data processing apparatus according to the third embodiment of the present invention. “????” in one pattern of the important expression extraction process result shown in FIG. 17 means an expression that has not been extracted in comparison with the table information search process result to be collated by the collation processing unit 32.
まず、文書データ処理装置1は、第2の実施形態で説明したステップS21からステップS27までの処理と同じ処理を行なう(ステップS41〜S47)。
ここでは、図17に示すように、重要表現抽出処理結果の第1のパターンは「CO2排出量 19.8トン」であり、重要表現抽出処理結果の第2のパターンは「CO2排出量 オーストラリア 18.0トン」であり、重要表現抽出処理結果の第3のパターンは「CO2排出量 カナダ 14.2トン」であるとする。
First, the document
Here, as shown in FIG. 17, the first pattern of the important expression extraction processing result is “CO2 emission 19.8 tons”, and the second pattern of the important expression extraction processing result is “
照合処理部32は、記憶装置12に記憶された重要表現抽出部16による抽出結果、および表情報検索部31による抽出結果を照合する(ステップS48)。この実施形態では、照合処理部32は、抽出済みの重要表現抽出処理結果の一パターン中の各要素と、表情報検索処理結果における照合対象の一パターン中の各要素とを個別に照合し、要素ごとの照合結果を照合順に出力する。
照合処理部32は、重要表現抽出処理結果の一パターンおよび表情報検索処理結果における照合対象の一パターンにともに含まれる要素がある場合には「true」を照合結果として出力し、重要表現抽出処理結果の一パターンおよび表情報検索処理結果における照合対象の一パターンのうち片方で欠落している要素があったり、照合対象の双方で一致しない要素があったりする場合には「false」との照合結果を出力する。
The collation processing unit 32 collates the extraction result by the important
The collation processing unit 32 outputs “true” as a collation result when there is an element included in one pattern of the important expression extraction process result and one pattern to be collated in the table information search process result, and the important expression extraction process If there is an element missing in one of the pattern of the result and the pattern of the table information search processing result, or if there is an element that does not match in both of the objects to be collated, collation with “false” Output the result.
そして、確信度計算部17は、照合結果をもとに、重要表現抽出部16によって抽出された重要表現抽出処理結果の各パターンについて、このパターンに属する重要表現の内容が入力文書データ中の重要表現としてどれほど信頼できるかを示す確信度を計算する(ステップS49)。
具体的には、確信度計算部17は、重要表現抽出処理結果の一パターンに含まれる要素の数をもとに確信度を計算する。ここでは、当該一パターンに含まれる要素の数がN個である場合には確信度はN−1となる。確信度計算部17は、このように計算した確信度の情報を、照合対象の重要表現抽出処理結果のパターンとともに記憶装置12に記憶する。
Then, the certainty factor calculation unit 17 determines the content of the important expression belonging to this pattern in the input document data for each pattern of the important expression extraction processing result extracted by the important
Specifically, the certainty factor calculation unit 17 calculates the certainty factor based on the number of elements included in one pattern of the important expression extraction processing result. Here, when the number of elements included in the one pattern is N, the certainty factor is N-1. The certainty factor calculation unit 17 stores the information on the certainty factor calculated in this way in the
また、メッセージ作成部18は、各メッセージについて、確信度計算部17において計算された確信度をもとに、記憶装置12の色対応情報記憶部14に記憶され、図4に示した色・確信度対応情報を参照し、メッセージの強調色を決定する(ステップS50)。
メッセージ作成部18は、重要表現抽出部16によって抽出された重要表現、表情報検索部31、および照合処理部32による結果を用いて、ユーザに提示するためのメッセージを作成する(ステップS51)。ここでは、メッセージ作成部18は、重要表現抽出処理結果の一パターン中の各要素と、当該パターンの照合対象である、表情報検索処理結果の一パターンの要素についての照合結果が全て「true」である場合には、「※文中と表中の情報は一致しています。」との文字列をメッセージに含め、一パターンの各要素の照合結果中に「true」と「false」がともに含まれる場合には、「※文中と表中の情報は部分的に一致しています。」との文字列をメッセージに含め、一パターンの各要素の照合結果が全て「false」である場合には、「※文中と表中の情報は一致していません。」との文字列をメッセージに含める。
Further, the
The
図17には、重要表現抽出処理結果と表情報検索処理結果との照合結果が示される。この実施形態では、抽出済みの重要表現抽出処理結果の第1のパターンは「CO2排出量 19.8トン」で、表情報検索処理結果のうち、重要表現抽出処理結果の第1のパターンとの照合対象のパターンは「CO2排出量 米国 19.8トン」であり、「CO2排出量」が双方に含まれ、「米国」は表情報検索処理結果に含まれる一方で重要表現抽出処理結果において欠落しており、「19.8トン」が双方に含まれるので、照合結果は図17に示すように「true false true」となる。
この場合、メッセージ作成部18が作成する第1のメッセージの文字列は、「※文中と表中の情報は部分的に一致しています。 文中の情報:CO2排出量 19.8トン 表中の情報:CO2排出量 米国 19.8トン」となる。
FIG. 17 shows a matching result between the important expression extraction process result and the table information search process result. In this embodiment, the first pattern of the extracted important expression extraction processing result is “CO2 emission amount 19.8 tons”, and the first pattern of the important expression extraction processing result among the table information search processing results. The pattern to be matched is “CO2 emissions US 19.8 tons”, “CO2 emissions” is included in both, and “US” is included in the table information search processing results, but is missing in the important expression extraction processing results Since “19.8 tons” is included in both, the collation result is “true false true” as shown in FIG.
In this case, the character string of the first message created by the
ここでは、重要表現抽出処理結果の第1のパターン中の要素の数が2つであるので、確信度計算部17が計算する確信度は「1」となる。この場合、当該確信度「1」に対して図4に示す色・確信度対応情報で対応付けられる色のコードは「#999999」となる。 Here, since the number of elements in the first pattern of the important expression extraction processing result is two, the certainty factor calculated by the certainty factor calculation unit 17 is “1”. In this case, the color code associated with the certainty factor “1” in the color / certainty factor correspondence information shown in FIG. 4 is “# 999999”.
また、抽出済みの重要表現抽出処理結果の第2のパターンは「CO2排出量 オーストラリア 18.0トン」であり、表情報検索処理結果のうち、重要表現抽出処理結果の第2のパターンとの照合対象のパターンは「CO2排出量 オーストラリア 18.0トン」であり、このパターン中の要素は照合対象の双方で全て一致するので照合結果は図17に示すように「true true true」となる。
この場合、メッセージ作成部18が作成するメッセージは、「※文中と表中の情報は一致しています。 文中の情報:CO2排出量 オーストラリア 18.0トン 表中の情報:CO2排出量 オーストラリア 18.0トン」となる。
Further, the second pattern of the extracted important expression extraction result is “CO2 emission Australia 18.0 tons”, and the table information search process result is compared with the second pattern of the important expression extraction process result. The target pattern is “CO2 emissions Australia 18.0 tons”, and all the elements in this pattern match in both of the verification targets, so the verification result becomes “true true true” as shown in FIG.
In this case, the message created by the
ここでは、重要表現抽出処理結果の第1のパターン中の要素の数が3つであるので、確信度計算部17が計算する確信度は「2」となる。この場合当該確信度「2」に対して図4に示す色・確信度対応情報で対応付けられる色のコードは「#DCDCDC」となる。 Here, since the number of elements in the first pattern of the important expression extraction processing result is 3, the certainty factor calculated by the certainty factor calculation unit 17 is “2”. In this case, the color code associated with the certainty factor “2” in the color / certainty factor correspondence information shown in FIG. 4 is “#DCDCDC”.
また、抽出済みの重要表現抽出処理結果の第3のパターンは「CO2排出量 カナダ 14.2トン」であり、表情報検索処理結果のうち、重要表現抽出処理結果の第3のパターンとの照合対象のパターンは「CO2排出量 カナダ 14.2トン」であり、このパターン中の要素は照合対象の双方で全て一致するので照合結果は図17に示すように「true true true」となる。
この場合、メッセージ作成部18が作成するメッセージは、「※文中と表中の情報は一致しています。 文中の情報:CO2排出量 カナダ 14.2トン 表中の情報:CO2排出量 カナダ 14.2トン」となる。
In addition, the third pattern of the extracted important expression extraction processing result is “CO2 emission Canada 14.2 tons”, and the table information search processing result is compared with the third pattern of the important expression extraction processing result. The target pattern is “CO2 emission amount Canada 14.2 tons”, and all the elements in this pattern match in both of the verification targets, so the verification result is “true true true” as shown in FIG.
In this case, the message created by the
ここでは、重要表現抽出処理結果の第1のパターン中の要素の数が3つであるので、確信度計算部17が計算する確信度は「2」となる。この場合当該確信度「2」に対して図4に示す色・確信度対応情報で対応付けられる色のコードは「#DCDCDC」となる。 Here, since the number of elements in the first pattern of the important expression extraction processing result is 3, the certainty factor calculated by the certainty factor calculation unit 17 is “2”. In this case, the color code associated with the certainty factor “2” in the color / certainty factor correspondence information shown in FIG. 4 is “#DCDCDC”.
メッセージ作成部18は、作成した色付きメッセージを、入出力インタフェース15を介して端末装置2に出力する。端末装置2の通信インタフェース25がメッセージ作成部18からのメッセージを入力すると、制御部21は、このメッセージを入力文書データ中の該当箇所と紐付けて出力装置24に表示する(ステップS52)。
The
以上のように、本発明の第3の実施形態における文書データ処理装置では、ユーザが作成した文書データ中の重要表現を抽出し、この重要表現の項目情報、限定情報および数値情報を文書データ中の表情報から検索し、文書データ中の文章部分と表情報の照合結果をパターン中の要素の数に応じて区別した色を付けたメッセージとして出力するので、文書データの文章部分と表情報との整合性の確認および訂正作業の効率が向上する。 As described above, in the document data processing apparatus according to the third embodiment of the present invention, the important expression in the document data created by the user is extracted, and the item information, the limited information, and the numerical information of the important expression are included in the document data. The table data is searched and the matching result between the text part in the document data and the table information is output as a message that is colored according to the number of elements in the pattern. This improves the efficiency of checking and correcting the consistency.
各実施形態では、文書データを入力する機能を端末装置2が有し、重要表現抽出、確信度計算、メッセージ作成を行なう機能を文書データ処理装置1が有していたが、これらの機能を一体型の装置で実現することができるのはもちろんである。
In each embodiment, the
なお、この発明は前記実施形態そのままに限定されるものではなく実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を省略してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。 The present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. Various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiment. For example, some components may be omitted from all the components shown in the embodiment. Furthermore, you may combine suitably the component covering different embodiment.
1…文書データ処理装置、2…端末装置、11,21…制御部、12,22…記憶装置、13…辞書情報記憶部、14…色対応情報記憶部、15…入出力インタフェース、16…重要表現抽出部、17…確信度計算部、18…メッセージ作成部、19,26…バス、23…入力装置、24…出力装置、25…通信インタフェース、31…表情報検索部、32…照合処理部。
DESCRIPTION OF
Claims (4)
文書データ中から重要情報を抽出するための規則情報および当該抽出された重要情報の信頼性を示す確信度を計算するための規則情報を記憶する記憶手段と、
前記記憶手段に記憶される規則情報に基づき、前記文書入力手段により入力した文書データ中から重要情報を抽出する抽出手段と、
前記記憶手段に記憶される規則情報に基づき、前記抽出手段により抽出した重要情報の信頼性を示す確信度を計算する計算手段と、
前記抽出手段により抽出した重要情報、および当該重要情報について前記計算手段により計算した確信度に基づいて前記重要情報の確認用メッセージを作成する作成手段と
を備えたことを特徴とする文書データ処理装置。 A document input means for inputting document data;
Storage means for storing rule information for extracting important information from document data and rule information for calculating a certainty factor indicating reliability of the extracted important information;
Extracting means for extracting important information from the document data input by the document input means based on the rule information stored in the storage means;
Based on the rule information stored in the storage means, calculating means for calculating a certainty factor indicating the reliability of the important information extracted by the extracting means;
Document data processing apparatus comprising: important information extracted by the extraction means; and a creation means for creating a confirmation message for the important information based on the certainty factor calculated by the calculation means for the important information .
文書データ中から重要情報を抽出するための規則情報を記憶する記憶手段と、
前記記憶手段に記憶される規則情報に基づき、前記文書入力手段により入力した文書データ中から重要情報を抽出する抽出手段と、
前記文書入力手段により入力した文書データ中の表情報から前記抽出手段により抽出した重要情報に対応する情報を検索する検索手段と、
前記抽出手段により抽出した重要情報のうち前記検索手段により検索した情報に対応する情報、および当該検索した情報を照合する照合手段と、
前記照合手段による照合結果を示すメッセージを作成する作成手段と
を備えたことを特徴とする文書データ処理装置。 A document input means for inputting document data including table information;
Storage means for storing rule information for extracting important information from document data;
Extracting means for extracting important information from the document data input by the document input means based on the rule information stored in the storage means;
Search means for searching for information corresponding to important information extracted by the extraction means from table information in the document data input by the document input means;
Information corresponding to the information retrieved by the retrieval means among the important information extracted by the extraction means, and collation means for collating the retrieved information;
A document data processing apparatus comprising: a creation unit that creates a message indicating a collation result by the collation unit.
文書データ中から重要情報を抽出するための規則情報および当該抽出された重要情報の信頼性を示す確信度を計算するための規則情報を記憶する記憶手段と、
前記記憶手段に記憶される規則情報に基づき、前記文書入力手段により入力した文書データ中から重要情報を抽出する抽出手段と、
前記文書入力手段により入力した文書データ中の表情報から前記抽出手段により抽出した重要情報に対応する情報を検索する検索手段と、
前記記憶手段に記憶される規則情報に基づき、前記抽出手段により抽出した重要情報の信頼性を示す確信度を計算する計算手段と、
前記抽出手段により抽出した重要情報のうち前記検索手段により検索した情報に対応する情報、および当該検索した情報を照合する照合手段と、
前記照合手段による照合結果を示すメッセージを、前記計算手段により計算した確信度により区別して作成する作成手段と
を備えたことを特徴とする文書データ処理装置。 A document input means for inputting document data including table information;
Storage means for storing rule information for extracting important information from document data and rule information for calculating a certainty factor indicating reliability of the extracted important information;
Extracting means for extracting important information from the document data input by the document input means based on the rule information stored in the storage means;
Search means for searching for information corresponding to important information extracted by the extraction means from table information in the document data input by the document input means;
Based on the rule information stored in the storage means, calculating means for calculating a certainty factor indicating the reliability of the important information extracted by the extracting means;
Information corresponding to the information retrieved by the retrieval means among the important information extracted by the extraction means, and collation means for collating the retrieved information;
A document data processing apparatus, comprising: a creation unit that creates a message indicating a collation result by the collation unit by distinguishing the message based on a certainty factor calculated by the calculation unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007150967A JP5091549B2 (en) | 2007-06-06 | 2007-06-06 | Document data processing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007150967A JP5091549B2 (en) | 2007-06-06 | 2007-06-06 | Document data processing device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008305105A true JP2008305105A (en) | 2008-12-18 |
JP5091549B2 JP5091549B2 (en) | 2012-12-05 |
Family
ID=40233794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007150967A Expired - Fee Related JP5091549B2 (en) | 2007-06-06 | 2007-06-06 | Document data processing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5091549B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010134766A (en) * | 2008-12-05 | 2010-06-17 | Toshiba Corp | Document data processing apparatus and program thereof |
JP2010257413A (en) * | 2009-04-28 | 2010-11-11 | Hitachi Ltd | Document preparation support apparatus, document preparation support method, and document preparation support program |
CN102194116A (en) * | 2010-03-15 | 2011-09-21 | 株式会社东芝 | Document image processing system, document image processing method, and computer readable storage medium storing instructions of a computer program thereof |
JP2015018487A (en) * | 2013-07-12 | 2015-01-29 | ヤフー株式会社 | Information processing device, system, server device, terminal, and information processing method |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000099516A (en) * | 1998-09-25 | 2000-04-07 | Fuji Xerox Co Ltd | Information managing device, cooperative work support system, information managing method and computer readable recording medium recorded with information management program |
JP2006023968A (en) * | 2004-07-08 | 2006-01-26 | Hitachi Ltd | Unique expression extracting method and device and program to be used for the same |
JP2006106872A (en) * | 2004-09-30 | 2006-04-20 | Toshiba Corp | Knowledge information collection system, knowledge retrieval system and knowledge information collection method |
-
2007
- 2007-06-06 JP JP2007150967A patent/JP5091549B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000099516A (en) * | 1998-09-25 | 2000-04-07 | Fuji Xerox Co Ltd | Information managing device, cooperative work support system, information managing method and computer readable recording medium recorded with information management program |
JP2006023968A (en) * | 2004-07-08 | 2006-01-26 | Hitachi Ltd | Unique expression extracting method and device and program to be used for the same |
JP2006106872A (en) * | 2004-09-30 | 2006-04-20 | Toshiba Corp | Knowledge information collection system, knowledge retrieval system and knowledge information collection method |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010134766A (en) * | 2008-12-05 | 2010-06-17 | Toshiba Corp | Document data processing apparatus and program thereof |
JP2010257413A (en) * | 2009-04-28 | 2010-11-11 | Hitachi Ltd | Document preparation support apparatus, document preparation support method, and document preparation support program |
CN102194116A (en) * | 2010-03-15 | 2011-09-21 | 株式会社东芝 | Document image processing system, document image processing method, and computer readable storage medium storing instructions of a computer program thereof |
JP2015018487A (en) * | 2013-07-12 | 2015-01-29 | ヤフー株式会社 | Information processing device, system, server device, terminal, and information processing method |
Also Published As
Publication number | Publication date |
---|---|
JP5091549B2 (en) | 2012-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104899010B (en) | The multi-lingual opinion on public affairs method and system of source code | |
US20070050709A1 (en) | Character input aiding method and information processing apparatus | |
JP4502615B2 (en) | Similar sentence search device, similar sentence search method, and program | |
JP6417791B2 (en) | Application test support apparatus, data processing method thereof, and program | |
JPWO2017061253A1 (en) | Display control apparatus, display control method, and display control program | |
JP5091549B2 (en) | Document data processing device | |
JP6446819B2 (en) | Document difference display program and information processing apparatus | |
JP5229102B2 (en) | Form search device, form search program, and form search method | |
JP2008112363A (en) | Document processor and document processing program | |
JP2005107931A (en) | Image search apparatus | |
JP2010134766A (en) | Document data processing apparatus and program thereof | |
JP3978678B2 (en) | Translation support system | |
JP2008027133A (en) | Form processor, form processing method, program for executing form processing method, and recording medium | |
JP7160327B2 (en) | Information processing device, information processing method and information processing program | |
JP2006120070A (en) | Programming device, its symbol inputting method, and recording medium | |
JP2006344053A (en) | Patent specification preparation support program | |
JP2007310829A (en) | Data processor, data processing method and data processing program | |
JP2011159079A (en) | Information processing system, program and information processing method | |
JP5095128B2 (en) | Data processing device | |
JP2009146196A (en) | Translation support system, translation support method and translation support program | |
JP2001283156A (en) | Device and method for recognizing address and computer readable recording medium stored with program for allowing computer to execute the same method | |
JP5337516B2 (en) | Document processing apparatus and program | |
JP2006178605A (en) | Character recognition result display device | |
JP5228566B2 (en) | Software development support apparatus, program, and block diagram search method | |
JP2009271593A (en) | Information retrieval device, information retrieval method and computer program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100312 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120214 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120413 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120529 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120821 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120914 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150921 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |