JP2007316761A - Data processing device - Google Patents
Data processing device Download PDFInfo
- Publication number
- JP2007316761A JP2007316761A JP2006143159A JP2006143159A JP2007316761A JP 2007316761 A JP2007316761 A JP 2007316761A JP 2006143159 A JP2006143159 A JP 2006143159A JP 2006143159 A JP2006143159 A JP 2006143159A JP 2007316761 A JP2007316761 A JP 2007316761A
- Authority
- JP
- Japan
- Prior art keywords
- document data
- sentence
- input
- expression
- expression information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000014509 gene expression Effects 0.000 claims description 78
- 230000000877 morphologic effect Effects 0.000 abstract description 24
- 230000007547 defect Effects 0.000 abstract description 8
- 230000007812 deficiency Effects 0.000 abstract 1
- 238000000605 extraction Methods 0.000 description 33
- 238000010586 diagram Methods 0.000 description 16
- 230000004048 modification Effects 0.000 description 10
- 238000012986 modification Methods 0.000 description 10
- 239000000284 extract Substances 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 5
- 230000005856 abnormality Effects 0.000 description 4
- 239000000470 constituent Substances 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
本発明は、文書データの解析を行なうデータ処理装置に関する。 The present invention relates to a data processing apparatus that analyzes document data.
従来、文書データの作成を支援するために、文を構成する表現の品詞のつながりから、誤入力の可能性のある部分を判定してユーザに提示するものがある。
また、例えば特許文献1に開示されるように、入力文書データ中の記述のうち具体性に欠ける部分を提示するものがある。この文献では、入力文書データ中の記述に予め定められた特徴部分が含まれる場合に、この特徴部分を有する文が具体的であるために欠落すべきでない5W1H(when,whereなど)を含んでいる否かを判定する。
Further, as disclosed in, for example, Patent Document 1, there is a document that presents a portion lacking in concreteness among descriptions in input document data. In this document, when a predetermined feature portion is included in the description in the input document data, a sentence having this feature portion is included, so that it includes 5W1H (when, where, etc.) that should not be omitted. Determine whether or not.
しかし、前述したように品詞の繋がりから誤入力を判定する技術では単語の意味は解析しないため、例えば「セクタ不良は認めません。」と記述すべきところを「セクタは認めません。」などのように、品詞の繋がりが正しくても意味が不十分な記述がなされている場合でも、これを指摘することはできない。 However, as described above, the technique for determining erroneous input based on the connection of parts of speech does not analyze the meaning of the word. For example, “Sector failure is not allowed” should be described as “Sector is not allowed.” Thus, even if the part-of-speech connection is correct but the meaning is insufficient, this cannot be pointed out.
また、前述したように文書データ中の予め定められた特徴を有する文に5W1Hが含まれているか否かを判定すれば具体性のない文をチェックすることができるが、これは文が具体性を有するか否かを判定するにとどまるものであり、文中に必要な要素、例えば主語や述語の記述不足を判定するものではない。 Further, as described above, if it is determined whether or not 5W1H is included in a sentence having predetermined characteristics in the document data, a sentence having no specificity can be checked. It is only a matter of determining whether or not it has a statement, and it does not determine whether a required element in the sentence, for example, a subject or predicate is insufficiently described.
そこで、本発明の目的は、文書データ中に必要な記述の不足を判定することが可能になるデータ処理装置を提供することにある。 Accordingly, an object of the present invention is to provide a data processing apparatus that can determine the lack of necessary descriptions in document data.
すなわち、本発明に係わるデータ処理装置は、入力文書データの構文解析結果をもとに、入力文書データに必要な表現の記述が不足しているか否かを判定し、この判定結果を出力することを特徴とする。 That is, the data processing apparatus according to the present invention determines whether or not the description of the expression necessary for the input document data is insufficient based on the parsing result of the input document data, and outputs the determination result. It is characterized by.
本発明に係わるデータ処理装置では、文書データ中に必要な記述の不足を判定することができる。 In the data processing apparatus according to the present invention, it is possible to determine the lack of necessary descriptions in the document data.
以下図面により本発明の実施形態について説明する。
(第1の実施形態)
まず、本発明の第1の実施形態について説明する。
図1は、本発明の第1の実施形態にしたがった文書データ処理装置の構成例を示すブロック図である。
Embodiments of the present invention will be described below with reference to the drawings.
(First embodiment)
First, a first embodiment of the present invention will be described.
FIG. 1 is a block diagram showing a configuration example of a document data processing apparatus according to the first embodiment of the present invention.
図1に示すように、本発明の実施形態にしたがった文書データ処理装置は、装置全体の制御を司る制御部1、記憶装置2、形態素解析部3、構文解析部4、抽出処理部5、判定部6、入力装置7、出力装置8および入出力インタフェース9を備え、それぞれがバス10を介して接続される。
As shown in FIG. 1, a document data processing device according to an embodiment of the present invention includes a control unit 1 that controls the entire device, a
記憶装置2は例えばハ−ドディスクドライブや不揮発性メモリ装置などのハードウェアで構成される。記憶装置2は制御部1による実行対象の制御プログラムを記憶するのに加え、制御部1による各種処理のワークメモリとしても機能する。
The
形態素解析部3は、記憶装置2に記憶された文書データを読み出して、この文書データの形態素解析を行なって各文節を抽出する。
構文解析部4は、形態素解析部3により抽出された文節の構文解析を行なって、各文節の関係を解析する。
The
The syntax analysis unit 4 performs the syntax analysis of the clauses extracted by the
抽出処理部5は、構文解析部4による処理結果を抽出する。判定部6は、抽出処理部5による抽出結果をもとに、入力文書データ中に、当該文書データに必要な単語が記述されているか否かを判定する。抽出処理部5は、必要な単語が記述されているか否かを判定するに限らず、例えば所定量の文章が記述されているか否かを判定するようにしても良い。
The
入力装置7は例えばキーボードやマウスであり、文書データの新規作成などにかかる操作を受け付ける。出力装置8は例えばディスプレイ装置である。また、入出力インタフェース9は図示しない外部記憶装置とケーブルを介して接続可能であり、この外部記憶装置との間で文書データを入出力する。
The
次に、図1に示した構成の文書データ処理装置の動作について説明する。
図2は、本発明の第1の実施形態にしたがった文書データ処理装置の処理動作の一例を示すフローチャートである。
Next, the operation of the document data processing apparatus having the configuration shown in FIG. 1 will be described.
FIG. 2 is a flowchart showing an example of the processing operation of the document data processing apparatus according to the first embodiment of the present invention.
まず、文書データ処理装置の入力装置7に対する操作により文書データが作成されると、制御部1はこの文書データを記憶装置2に記憶する。また、外部記憶装置に記憶された作成済みの文書データが入出力インタフェース9に入力されると、制御部1はこの文書データを記憶装置2に記憶する(ステップS1)。
First, when document data is created by an operation on the
ここでは入力文書データ中に第1文「前回と比較して改善が認められます。」および第2文「前回と比較し。」が記述されているとする。ここで説明した第1文および第2文は入力文書データ中の句点で区切られた部分であって、文法上の正しい文として成立している場合とそうでない場合がある。まず、第1文に対する解析について説明する。 Here, it is assumed that the first sentence “Improved compared with the previous time” and the second sentence “Compared with the previous time” are described in the input document data. The first sentence and the second sentence described here are parts separated by punctuation points in the input document data, and may or may not be established as a grammatically correct sentence. First, analysis for the first sentence will be described.
形態素解析部3は、記憶装置2に記憶される入力文書データ中の形態素解析を行なって、文書データ中の各文節を当該文節の品詞情報とともに認識する(ステップS2)。
図3は、本発明の第1の実施形態にしたがった文書データ処理装置が入力した文書データ中の第1文の形態素解析結果を示す図である。
そして、構文解析部4は、図3に示した形態素解析結果を入力し、各文節の構文解析を行なって、各文節の文法上の関係を示す構文木を構文解析結果として生成する(ステップS3)。
The
FIG. 3 is a diagram showing a morphological analysis result of the first sentence in the document data input by the document data processing apparatus according to the first embodiment of the present invention.
Then, the syntax analysis unit 4 inputs the morpheme analysis result shown in FIG. 3, performs the syntax analysis of each clause, and generates a syntax tree indicating the grammatical relationship of each clause as the syntax analysis result (step S3). ).
図4は、本発明の第1の実施形態にしたがった文書データ処理装置が入力した文書データ中の第1文の構文解析結果を示す図である。
図4に示すように、第1文の構文解析結果である構文木では、文節の「認められます」に対して「比較して」および「改善が」が連なり、「比較して」に対して「前回と」が連なる。
FIG. 4 is a diagram showing a syntax analysis result of the first sentence in the document data input by the document data processing apparatus according to the first embodiment of the present invention.
As shown in FIG. 4, in the syntax tree that is the result of parsing the first sentence, “comparison” and “improvement” are linked to “accepted” in the clause, and “comparison” “Same last time”.
抽出処理部5は、図4に示した構文解析結果を入力し、この解析結果で示される構文木の最も基底の単一の要素であるルート(root)に対応する文節がある場合には、これを抽出する。第1文では「認められます」がルートに対応する文節である。
The
判定部6は、抽出処理部5が第1文の構文解析結果からルートに対応する文節を抽出すると、入力文書データ中の第1文に欠損がない、つまり第1文に当該第1文が文法上の正しい文として成立するための文節が記述されていると判定する(ステップS4のNO)。この場合には構文解析された第1文に関するその後の処理は行なわれない。
When the
次に、前述した第2文に対する解析について説明する。図5は、本発明の第1の実施形態にしたがった文書データ処理装置が入力した文書データ中の第2文の形態素解析結果を示す図である。図6は、本発明の第1の実施形態にしたがった文書データ処理装置が入力した文書データ中の第2文の構文解析結果を示す図である。 Next, the analysis for the second sentence will be described. FIG. 5 is a diagram showing a morphological analysis result of the second sentence in the document data input by the document data processing apparatus according to the first embodiment of the present invention. FIG. 6 is a diagram showing a syntax analysis result of the second sentence in the document data input by the document data processing apparatus according to the first embodiment of the present invention.
図6に示すように、第2文の構文解析結果である構文木では、文節の「前回と」に対して「比較して」が連なるが、ルートに対応する文節は存在しない。よって、抽出処理部5による文節の抽出はなされない。判定部6は抽出処理部5が第2文中のルートに対応する文節を抽出できなかった場合には、入力文書データ中の第2文に欠損がある、つまり文法上の正しい文として成立するための文節が記述されていないと判定する(ステップS4のYES)。
As shown in FIG. 6, in the syntax tree that is the result of the parsing of the second sentence, “comparison” continues with “previous” of the clause, but there is no clause corresponding to the root. Therefore, the
この場合には、判定部6は、入力文書データ中の第2文に当該第2文が文法上の正しい文として成立するための必要な記述が不足している旨を示すメッセージを生成し、これを出力装置8に出力させる(ステップS5)。
In this case, the
図7は、本発明の第1の実施形態にしたがった文書データ処理装置により出力するエラー出力画面の一例を示す図である。
ユーザは図7に示された画面を確認することで入力文書データ中に必要な記述の不足部分を容易に認識することができる。
FIG. 7 is a view showing an example of an error output screen output by the document data processing apparatus according to the first embodiment of the present invention.
By confirming the screen shown in FIG. 7, the user can easily recognize the lack of necessary description in the input document data.
以上のように、本発明の第1の実施形態にしたがった文書データ処理装置では、入力文書データの句点で区切られた部分の構造解析を行ない、この解析結果をもとにして、当該区切られた部分が文法上の正しい文として成立するための記述が不足していると判定した場合に、この判定結果を出力するので、入力文書データ中に必要な記述の不足部分をユーザに指摘することができる。 As described above, in the document data processing apparatus according to the first embodiment of the present invention, the structure of the portion delimited by the punctuation points of the input document data is analyzed, and the delimiter is divided based on the analysis result. If it is determined that there is not enough description to establish the correct part as a grammatical sentence, this determination result is output, so the user must be informed of the lack of necessary description in the input document data. Can do.
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。なお、本実施形態に係る文書データ処理装置の構成は図1に示したものと基本的にほぼ同様であるので同一部分の説明は省略する。
この第2の実施形態にしたがった文書データ処理装置は文書データ中の必要な係り受けの表現の不足を判定する。
(Second Embodiment)
Next, a second embodiment of the present invention will be described. The configuration of the document data processing apparatus according to the present embodiment is basically the same as that shown in FIG.
The document data processing apparatus according to the second embodiment determines a lack of necessary dependency expressions in the document data.
図8は、本発明の第2の実施形態にしたがった文書データ処理装置の記憶装置に記憶される条件定義テーブルの一例を表形式で示す図である。
本発明の第2の実施形態にしたがった文書データ処理装置の記憶装置2には図8に示した形式の条件定義テーブルが記憶される。このテーブルでは、文書データ中の予め定められた自立語である第1表現と、この第1表現が文書データ中に記述される場合に正しい係り受けとして記述されるべき自立語である第2表現とが関連付けられて管理される。条件定義テーブル上では、単一の第1表現に単一または複数種類の第2表現が関連付けられる。
FIG. 8 is a table showing an example of a condition definition table stored in the storage device of the document data processing apparatus according to the second embodiment of the present invention.
A condition definition table of the format shown in FIG. 8 is stored in the
本発明の第2の実施形態にしたがった文書データ処理装置は、入力文書データ中に条件定義テーブル上の第1表現が記述されている場合で、かつこれと関連付けられる第2表現が第1表現の係り受けとして同一文中に記述されているか否かを判定することで、入力文書データ中の予め定められた表現の係り受けとして記述されるべき表現が記述されているか否かを判定する。 In the document data processing device according to the second embodiment of the present invention, the first expression on the condition definition table is described in the input document data, and the second expression associated therewith is the first expression. It is determined whether or not an expression to be described as a dependency of a predetermined expression in the input document data is described by determining whether or not the same dependency is described in the same sentence.
次に、本発明の第2の実施形態にしたがった文書データ処理装置の処理動作について説明する。図9は、本発明の第2の実施形態にしたがった文書データ処理装置の処理動作の一例を示すフローチャートである。 Next, the processing operation of the document data processing apparatus according to the second embodiment of the present invention will be described. FIG. 9 is a flowchart showing an example of the processing operation of the document data processing apparatus according to the second embodiment of the present invention.
ここでは入力文書データ中に第3文「セクタの不良は発見できませんでした。」、第4文「不良セクタは発見できませんでした。」、第5文「セクタの異常は発見できませんでした。」および第6文「セクタは発見できませんでした。」が記述されているとする。
図9に示されるステップS11からステップS13までの処理は第1の実施形態で説明したステップS1からステップS3までの処理と同じである。
Here, in the input document data, the third sentence “Sector failure was not found”, the fourth sentence “Bad sector was not found”, and the fifth sentence “Sector abnormality was not found.” And the sixth sentence “The sector could not be found.” Is described.
The processing from step S11 to step S13 shown in FIG. 9 is the same as the processing from step S1 to step S3 described in the first embodiment.
図10は、本発明の第2の実施形態にしたがった文書データ処理装置が入力した文書データ中の第3文の形態素解析結果を示す図である。図11は、本発明の第2の実施形態にしたがった文書データ処理装置が入力した文書データ中の第3文の構文解析結果を示す図である。 FIG. 10 is a diagram showing a morphological analysis result of the third sentence in the document data input by the document data processing apparatus according to the second embodiment of the present invention. FIG. 11 is a diagram showing the syntax analysis result of the third sentence in the document data input by the document data processing apparatus according to the second embodiment of the present invention.
図10に示すように、第3文の構文解析結果である構文木では、文節の「セクタの」に対して「不良は」が連なり、この「不良は」に対して「発見できませんでした」が連なる。 As shown in FIG. 10, in the syntax tree that is the result of parsing the third sentence, “defect is” continues to “sector” in the clause, and “is not found” for this “defect”. Are connected.
図12は、本発明の第2の実施形態にしたがった文書データ処理装置が入力した文書データ中の第4文の形態素解析結果を示す図である。図13は、本発明の第2の実施形態にしたがった文書データ処理装置が入力した文書データ中の第4文の構文解析結果を示す図である。 FIG. 12 is a diagram showing a morphological analysis result of the fourth sentence in the document data input by the document data processing apparatus according to the second embodiment of the present invention. FIG. 13 is a diagram showing a syntax analysis result of the fourth sentence in the document data input by the document data processing apparatus according to the second embodiment of the present invention.
図13に示すように、第4文の構文解析結果である構文木では、文節の「不良」に対して「セクタは」が連なり、この「セクタは」に対して「発見できませんでした」が連なる。 As shown in FIG. 13, in the syntax tree that is the result of parsing the fourth sentence, “sector is” connected to “bad” in the clause, and “sector was not found” for “sector”. It is a series.
図14は、本発明の第2の実施形態にしたがった文書データ処理装置が入力した文書データ中の第5文の形態素解析結果を示す図である。図15は、本発明の第2の実施形態にしたがった文書データ処理装置が入力した文書データ中の第5文の構文解析結果を示す図である。 FIG. 14 is a diagram showing a morphological analysis result of the fifth sentence in the document data input by the document data processing apparatus according to the second embodiment of the present invention. FIG. 15 is a diagram showing the syntax analysis result of the fifth sentence in the document data input by the document data processing apparatus according to the second embodiment of the present invention.
図15に示すように、第5文の構文解析結果である構文木では、文節の「セクタの」に対して「異常は」が連なり、この「異常は」に対して「発見できませんでした」が連なる。 As shown in FIG. 15, in the syntax tree that is the result of parsing the fifth sentence, “abnormality” is connected to “sector” of the clause, and “abnormality” was “not found” Are connected.
図16は、本発明の第2の実施形態にしたがった文書データ処理装置が入力した文書データ中の第6文の形態素解析結果を示す図である。図17は、本発明の第2の実施形態にしたがった文書データ処理装置が入力した文書データ中の第6文の構文解析結果を示す図である。
図17に示すように、第6文の構文解析結果である構文木では、文節の「セクタは」に対して「発見できませんでした」が連なる。
FIG. 16 is a diagram showing a morphological analysis result of the sixth sentence in the document data input by the document data processing apparatus according to the second embodiment of the present invention. FIG. 17 is a diagram showing the syntax analysis result of the sixth sentence in the document data input by the document data processing apparatus according to the second embodiment of the present invention.
As shown in FIG. 17, in the syntax tree that is the result of parsing the sixth sentence, “sector was not found” continues to “sector” in the phrase.
抽出処理部5は、図11、図13、図15および図17に示した構文解析結果をそれぞれ入力し、この解析結果で示される構文木の要素に対応する文節における自立語と記憶装置2に記憶される条件定義テーブルを照合することで、構文木中の文節と同じ第1表現を条件定義テーブルから検索する。ここでは、各種構文解析結果にしたがって条件定義テーブルからの検索対象となる自立語は「セクタ」である。
The
そして抽出処理部5は、構文解析結果の構文木の自立語部分の連なりをもとに、検索済みの第1表現の係り受けとなる自立語を当該構文木から抽出する。
具体的には、第3文中の自立語のうち、前述した抽出対象となる自立語である「セクタ」の係り受けとなる自立語は「不良」である。また、第4文中の自立語のうち、前述した抽出対象となる自立語である「セクタ」の係り受けとなる自立語は「不良」および「発見」である。
Then, the
Specifically, among the independent words in the third sentence, the independent word that depends on the “sector”, which is the independent word to be extracted, is “bad”. In addition, among the independent words in the fourth sentence, the independent words that depend on the “sector” that is the independent word to be extracted are “bad” and “discovery”.
第5文中の自立語のうち、前述した抽出対象となる自立語である「セクタ」の係り受けとなる自立語は「異常」である。また、また、第6文中の自立語のうち、条件定義テーブルからの抽出対象となる自立語である「セクタ」の係り受けとなる自立語は「発見」である。 Of the independent words in the fifth sentence, the independent word that depends on the “sector”, which is the independent word to be extracted, is “abnormal”. In addition, among the independent words in the sixth sentence, the independent word that depends on the “sector” that is the independent word to be extracted from the condition definition table is “discovery”.
判定部6は、抽出処理部5により抽出した自立語の組み合わせを入力し、この組み合わせと記憶装置2に記憶される条件定義テーブルとを照合することで、当該条件テーブル上の第1表現が抽出済みの自立語の一方となっており、かつこの第1表現と関連付けられる第2表現が自立語の組み合わせの他方である場合には、これらの自立語が含まれる文に正しい係り受けの表現が記述されていると判定する(ステップS14のNO)。
The
具体的には判定部6は、図8に示した条件定義テーブル上の第1表現である「セクタ」および、この「セクタ」の正しい係り受けの第2表現である「不良」が第3および第4文中に記述されていると判定し、条件定義テーブル上の第1表現である「セクタ」および、この「セクタ」の正しい係り受けである「異常」が第5文中に記述されていると判定する。この場合には、これらの文に関するその後の処理は行なわれない。
Specifically, the
一方、判定部6は、抽出処理部5からの自立語の組み合わせと記憶装置2に記憶される条件定義テーブル上とを照合することで、自立語の組み合わせの一方、つまり条件テーブル上の第1表現と関連付けられる第2表現に対応する文節が構文解析対象の構文木に含まれていない場合には、入力文書データ中の文のうち条件定義テーブルで管理される予め定められた表現を含む文に当該定められた表現の正しい係り受けの記述が不足していると判定する。(ステップS14のYES)。
具体的には判定部6は、図8に示した第6文中に記述されて条件定義テーブル上の第1表現である「セクタ」の正しい係り受けが当該第6文中に記述されていないと判定する。
On the other hand, the
Specifically, the
この場合には、判定部6は、入力文書データ中の第6文に含まれて条件定義テーブル上で管理される表現の正しい係り受けとなる表現の記述が不足している旨を示すメッセージを生成し、これを出力装置8に出力させる(ステップS15)。
図18は、本発明の第2の実施形態にしたがった文書データ処理装置により出力するエラー出力画面の一例を示す図である。
In this case, the
FIG. 18 is a diagram showing an example of an error output screen output by the document data processing apparatus according to the second embodiment of the present invention.
以上のように、本発明の第2の実施形態にしたがった文書データ処理装置では、入力文書データの各文の構造解析を行ない、この解析された文中の予め定められた表現の正しい係り受けの記述が不足している不足していると判定した場合に、この判定結果を出力するので、入力文書データ中の係り受けの記述不足をユーザに指摘することができる。 As described above, in the document data processing apparatus according to the second embodiment of the present invention, the structure of each sentence of the input document data is analyzed, and the correct dependency of the predetermined expression in the analyzed sentence is determined. If it is determined that the description is insufficient, this determination result is output, so that it is possible to indicate to the user that the description of the dependency in the input document data is insufficient.
次に、本発明の第2の実施形態の第1の変形例について説明する。この変形例では、入力文書データに対する構文解析部4による構文解析を行なわずとも、入力文書データ中の係り受けの記述不足の有無を判定することができる。 Next, a first modification of the second embodiment of the present invention will be described. In this modification, it is possible to determine whether or not there is a lack of dependency description in the input document data without performing syntax analysis by the syntax analysis unit 4 on the input document data.
この変形例では、記憶装置2に抽出定義テーブルをさらに記憶する。図19は、本発明の第2の実施形態の第1の変形例にしたがった文書データ処理装置の記憶装置に記憶される抽出定義テーブルの一例を表形式で示す図である。
In this modification, an extraction definition table is further stored in the
この抽出定義テーブルでは、第1の自立語情報および第2の自立語情報が関連付けて管理される。また、一部の第1の自立語情報および第2の自立語情報には当該第1および第2の自立語情報の間の付属語情報が関連付けられて管理される。これらの自立語情報は図19に示したように品詞名であってもよいし、具体的な自立語であってもよい。 In this extraction definition table, the first independent word information and the second independent word information are managed in association with each other. In addition, some of the first independent word information and the second independent word information are managed in association with associated word information between the first and second independent word information. These independent words information may be part-of-speech names as shown in FIG. 19, or specific independent words.
このテーブルを用いた係り受け表現の抽出処理について説明する。抽出処理部5は、形態素解析部3による入力文書データの形態素解析結果で示される単語の品詞情報と記憶装置2に記憶される抽出定義テーブルとを照合することで、抽出定義テーブルで定義される自立語や付属語の組み合わせのうち、形態素解析結果で示される品詞情報の組み合わせと同じ組み合わせを検索する。
The dependency expression extraction process using this table will be described. The
例えば係り受け表現の抽出対象が前述した第3文である場合には、この文の形態素解結果は図10に示した結果となるので、この結果で示される「セクタ[名詞]−の[助詞]/不良[名詞]」における単語の組み合わせが、図19に示した抽出定義テーブルの上から2段目で定義される条件と一致するので、第3文における係り受け表現は「セクタの不良」となる。 For example, when the dependency expression is extracted from the third sentence described above, the morphological solution result of this sentence is the result shown in FIG. ] / Defect [noun] ”matches the condition defined in the second row from the top of the extraction definition table shown in FIG. 19, and the dependency expression in the third sentence is“ sector defect ”. It becomes.
抽出対象が前述した第4文である場合には、この文の形態素解結果は図12に示した結果となるので、この結果で示される「不良[名詞]/セクタ[名詞]」における単語の組み合わせが、図19に示した抽出定義テーブルの最上段で定義される条件と一致するので、第4文における係り受け表現は「不良セクタ」となる。 When the extraction target is the above-described fourth sentence, the result of the morphological solution of this sentence is the result shown in FIG. 12, so that the word in the “bad [noun] / sector [noun]” indicated by this result is shown. Since the combination matches the condition defined at the top of the extraction definition table shown in FIG. 19, the dependency expression in the fourth sentence is “bad sector”.
抽出対象が前述した第5文である場合には、この文の形態素解結果は図14に示した結果となるので、この結果で示される「セクタ[名詞]−の[助詞]/異常[名詞]」における単語の組み合わせが、図19に示した抽出定義テーブルの上から2段目で定義される条件と一致するので、第5文における係り受け表現は「セクタの異常」となる。 When the extraction target is the fifth sentence described above, the result of the morphological solution of this sentence is the result shown in FIG. 14. Therefore, “sector [noun]-[participant] / abnormal [noun] ] ”Matches the condition defined in the second row from the top of the extraction definition table shown in FIG. 19, and the dependency expression in the fifth sentence is“ sector abnormality ”.
また、抽出対象が前述した第6文である場合には、この文の形態素解結果は図16に示した結果となるので、この結果で示される各単語の組み合わせは、図19に示した抽出定義テーブルの条件と一致しないので、第6文における係り受け表現は「なし」となる。以後は抽出処理部5および判定部6により、この係り受け表現と図8に示したような条件定義テーブルとを照合することで正しい係り受けの記述の有無を判定すればよい。
Further, when the extraction target is the above-described sixth sentence, the result of the morphological solution of this sentence is the result shown in FIG. 16, and the combination of each word indicated by this result is the extraction shown in FIG. Since it does not match the conditions of the definition table, the dependency expression in the sixth sentence is “none”. Thereafter, the
次に、本発明の第2の実施形態の第2の変形例について説明する。この変形例では、構文解析部4による構文解析や第1の変形例で説明した抽出定義テーブルを用いなくとも入力文書データ中の係り受けの記述不足の有無を判定することができる。 Next, a second modification of the second embodiment of the present invention will be described. In this modification, it is possible to determine whether or not there is a lack of dependency description in the input document data without using the syntax analysis by the syntax analysis unit 4 or the extraction definition table described in the first modification.
抽出処理部5は、形態素解析部3による入力文書データの形態素解析結果で示される品詞情報をもとに、図8に示した条件定義テーブル中の第1表現を含む単一または複数の組み合わせを当該形態素解析結果から抽出する。
Based on the part-of-speech information indicated by the morphological analysis result of the input document data by the
抽出対象の文が前述した第3文である場合には、図8に示した条件定義テーブル中の第1表現である「セクタ」を含む自立語の組み合わせは「セクタ−不良」、「セクタ−発見」および「セクタ−できる」となる。 When the sentence to be extracted is the third sentence described above, the combinations of free words including “sector” which is the first expression in the condition definition table shown in FIG. 8 are “sector-bad” and “sector--”. “Discover” and “Sector-capable”.
抽出対象の文が前述した第4文である場合には、図8に示した条件定義テーブル中の第1表現である「セクタ」を含む自立語の組み合わせは「不良−セクタ」、「セクタ−発見」および「セクタ−できる」となる。 When the sentence to be extracted is the above-described fourth sentence, the combination of free words including “sector” as the first expression in the condition definition table shown in FIG. 8 is “bad-sector”, “sector--”. “Discover” and “Sector-capable”.
抽出対象の文が前述した第5文である場合には、図8に示した条件定義テーブル中の第1表現である「セクタ」を含む自立語の組み合わせは「セクタ−異常」、「セクタ−発見」および「セクタ−できる」となる。 When the sentence to be extracted is the above-described fifth sentence, the combination of free words including “sector” which is the first expression in the condition definition table shown in FIG. 8 is “sector-abnormal”, “sector-- “Discover” and “Sector-capable”.
抽出対象の文が前述した第6文である場合には、図8に示した条件定義テーブル中の第1表現である「セクタ」を含む自立語の組み合わせは「セクタ−発見」および「セクタ−できる」となる。 When the sentence to be extracted is the above-described sixth sentence, the combination of free words including “sector” as the first expression in the condition definition table shown in FIG. Can do it. "
以後は抽出処理部5および判定部6により、この自立語の組み合わせを図8に示したような条件定義テーブルと照合することで正しい係り受けの記述の有無を判定すればよい。
Thereafter, the
図20は、本発明の第2の実施形態にしたがった文書データ処理装置により出力するエラー出力画面の変形例を示す図である。
また、本発明の第2の実施形態にしたがった文書データ処理装置は、正しい係り受けが入力文書データに記述されていないと判定した場合には、文書データ中の表現のうち条件定義テーブル上の第1表現である表現がある場合で、この表現のうち、さらに係り受けの表現を追加して記述すべき表現に図20に示したように下線を付すなどして強調表示してもよいし、この強調表示部分に吹き出しを対応させて表示させた上で、追加して記述すべき表現の候補を条件定義テーブルから検索して吹き出し内に表示させてもよい。
FIG. 20 is a view showing a modification of the error output screen output by the document data processing apparatus according to the second embodiment of the present invention.
In addition, when the document data processing apparatus according to the second embodiment of the present invention determines that the correct dependency is not described in the input document data, the expression on the condition definition table among the expressions in the document data. If there is an expression that is the first expression, the expression to be described by adding a dependency expression may be highlighted by adding an underline as shown in FIG. Alternatively, a balloon may be displayed in correspondence with the highlighted portion, and a candidate for an expression to be additionally described may be retrieved from the condition definition table and displayed in the balloon.
例えば、判定対象の文が第6文である場合には、この文の表現のうち条件定義テーブル上の第1表現と同じ表現は「セクタ」であって、これとの係り受けとなる表現は第6文には含まれておらず、「セクタ」と図8に示した条件定義テーブル上で関連付けられる第2表現は「異常」および「不良」である。 For example, when the sentence to be determined is the sixth sentence, the same expression as the first expression on the condition definition table among the expressions of this sentence is “sector”, and the expression that is dependent on this is “sector”. The second expression that is not included in the sixth sentence and is associated with the “sector” on the condition definition table shown in FIG. 8 is “abnormal” and “bad”.
判定部6はこの第2表現をもとに、記述情報が不足している旨を示すメッセージとして「『の異常』を挿入する」、「『の不良』を挿入する」および「このまま修正しない」をそれぞれ提示する。この提示されたメッセージのうち表現の挿入に関するメッセージが入力装置7に対する操作により選択されると、制御部1はこの選択されたメッセージに対応する表現を文書データ中に挿入する。
Based on the second expression, the
なお、この発明は前記実施形態そのままに限定されるものではなく実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を省略してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。 The present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. Various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiment. For example, some components may be omitted from all the components shown in the embodiment. Furthermore, you may combine suitably the component covering different embodiment.
1…制御部、2…記憶装置、3…形態素解析部、4…構文解析部、5…抽出処理部、6…判定部、7…入力装置、8…出力装置、9…入出力インタフェース、10…バス。 DESCRIPTION OF SYMBOLS 1 ... Control part, 2 ... Memory | storage device, 3 ... Morphological analysis part, 4 ... Syntax analysis part, 5 ... Extraction process part, 6 ... Determination part, 7 ... Input device, 8 ... Output device, 9 ... Input / output interface, 10 …bus.
Claims (5)
この文書入力手段により入力された文書データの構文解析を行なう構文解析手段と、
この構文解析手段による構文解析結果をもとに、前記入力した文書データに必要な表現の記述が不足しているか否かを判定する判定手段と、
この判定手段による判定結果を出力する出力手段と
を備えたことを特徴とするデータ処理装置。 A document input means for inputting document data;
Syntax analysis means for performing syntax analysis of document data input by the document input means;
Based on the syntax analysis result by the syntax analysis means, a determination means for determining whether or not the description of the necessary expression is insufficient in the input document data;
A data processing apparatus comprising: output means for outputting a determination result by the determination means.
前記構文解析手段による構文解析結果をもとに、前記文書入力手段により入力された文書データ中の句点で区切られた部分に、文法上の文として成立するための表現の記述が不足している否かを判定することを特徴とする請求項1に記載のデータ処理装置。 The determination means includes
Based on the result of the parsing by the parsing means, there is a lack of description of the expression to be established as a grammatical sentence in the part delimited by the punctuation in the document data input by the document input means The data processing apparatus according to claim 1, wherein it is determined whether or not.
第1の表現情報と、この第1の表現情報の正しい係り受けとなる第2の表現情報とを関連付けて記憶する記憶手段と、
前記文書入力手段により入力された文書データに前記記憶手段に記憶された第1の表現情報が記述される場合に、当該第1の表現情報に関連付けられて前記記憶手段に記憶される第2の表現情報が前記入力した文書データ中に前記第1の表現情報の係り受けの表現情報として記述されているか否かを判定する判定手段と、
この判定手段による判定結果を出力する出力手段と
を備えたことを特徴とするデータ処理装置。 A document input means for inputting document data;
Storage means for storing the first expression information in association with the second expression information that is the correct dependency of the first expression information;
When the first expression information stored in the storage means is described in the document data input by the document input means, the second expression stored in the storage means in association with the first expression information. Determining means for determining whether or not expression information is described as dependency information of the first expression information in the input document data;
A data processing apparatus comprising: output means for outputting a determination result by the determination means.
ことを特徴とする請求項3に記載のデータ処理装置。 In the output means, second expression information associated with the first expression information and stored in the storage means is described in the input document data as dependency expression information of the first expression information. The data processing apparatus according to claim 3, wherein when it is determined that there is no data, the first expression information in the input document data is emphasized and output.
ことを特徴とする請求項3に記載のデータ処理装置。 In the output means, second expression information associated with the first expression information and stored in the storage means is described in the input document data as dependency expression information of the first expression information. When it is determined that there is not, the second expression information associated with the first expression information is searched from the storage means, and this is output as a candidate for additional writing of the expression not described. 4. The data processing device according to 3.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006143159A JP5095128B2 (en) | 2006-05-23 | 2006-05-23 | Data processing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006143159A JP5095128B2 (en) | 2006-05-23 | 2006-05-23 | Data processing device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007316761A true JP2007316761A (en) | 2007-12-06 |
JP5095128B2 JP5095128B2 (en) | 2012-12-12 |
Family
ID=38850584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006143159A Expired - Fee Related JP5095128B2 (en) | 2006-05-23 | 2006-05-23 | Data processing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5095128B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016212533A (en) * | 2015-04-30 | 2016-12-15 | 国立大学法人鳥取大学 | Document analysis device and program |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04282764A (en) * | 1991-03-11 | 1992-10-07 | Ricoh Co Ltd | Non-sentence translating device |
JPH09231222A (en) * | 1996-02-28 | 1997-09-05 | Toshiba Corp | Japanese word processing device and method |
JPH10187724A (en) * | 1996-12-26 | 1998-07-21 | Toshiba Corp | Method and device for assisting document preparation |
-
2006
- 2006-05-23 JP JP2006143159A patent/JP5095128B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04282764A (en) * | 1991-03-11 | 1992-10-07 | Ricoh Co Ltd | Non-sentence translating device |
JPH09231222A (en) * | 1996-02-28 | 1997-09-05 | Toshiba Corp | Japanese word processing device and method |
JPH10187724A (en) * | 1996-12-26 | 1998-07-21 | Toshiba Corp | Method and device for assisting document preparation |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016212533A (en) * | 2015-04-30 | 2016-12-15 | 国立大学法人鳥取大学 | Document analysis device and program |
Also Published As
Publication number | Publication date |
---|---|
JP5095128B2 (en) | 2012-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11983499B2 (en) | Automated document analysis comprising a user interface based on content types | |
JPH1078964A (en) | Method and system for identifying and analyzing generally confused word by natural language parser | |
US7801722B2 (en) | Techniques for customization of phonetic schemes | |
JP2004220616A (en) | Machine translation system for simultaneously displaying and editing three or more parallel translation screens | |
US20070277118A1 (en) | Providing suggestion lists for phonetic input | |
JPH08235182A (en) | Method and device for document processing | |
WO2010050128A1 (en) | Compiling method and compiling program | |
JP5095128B2 (en) | Data processing device | |
US7620541B2 (en) | Critiquing clitic pronoun ordering in french | |
JP2008084055A (en) | Help management terminal, help management method and help management program | |
JP2008112363A (en) | Document processor and document processing program | |
US10255904B2 (en) | Reading-aloud information editing device, reading-aloud information editing method, and computer program product | |
JP2007122660A (en) | Document data processor and document data processing program | |
JP2011154590A (en) | Program and information processing apparatus | |
JP2008176630A (en) | Document data processing apparatus | |
JP2008305105A (en) | Document data processor | |
JP2007310829A (en) | Data processor, data processing method and data processing program | |
JP5185343B2 (en) | Machine translation apparatus and machine translation program | |
JP3660432B2 (en) | Dictionary registration apparatus and dictionary registration method | |
JP7526475B2 (en) | Post-editing support system, post-editing support method, post-editing support device, and computer program | |
JP6148449B2 (en) | Specification verification apparatus, method thereof, and program | |
JP2007122661A (en) | Document data processor and document data processing program | |
JPH07325825A (en) | English grammar checking system device | |
JP2008152349A (en) | Document data processor | |
JP4192799B2 (en) | Synonym dictionary creation support system, synonym dictionary creation support method, and synonym dictionary creation support program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090311 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110607 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110805 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120321 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120619 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20120626 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120824 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120919 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5095128 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150928 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |