JP2007122660A

JP2007122660A - 文書データ処理装置および文書データ処理プログラム

Info

Publication number: JP2007122660A
Application number: JP2005317708A
Authority: JP
Inventors: Kyoko Makino; 恭子牧野; Toshiyuki Kano; 敏行加納; Hiroshi Taira; 博司平; Kunitake So; 国威祖
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2005-10-31
Filing date: 2005-10-31
Publication date: 2007-05-17

Abstract

【課題】文書データの内容の整合性の良し悪しを容易に判別する。
【解決手段】文書データ処理装置１の記憶部４は文書データ中の句点で区切られたそれぞれの文の最大文字数および最大文節数の情報を記憶する。制御部２は入力文書データの各文の文字数および文節数を判別する。制御部２は、判別した文節数が記憶部４に記憶された最大文節数を超え、かつ判別した文字数が記憶部４に記憶された最大文字数を超えた場合に分析対象の文が長文であることを示すメッセージを表示部６に表示させる。これにより文字数の長短のみまたは文節数の長短のみで長文の有無を判別する場合と比較して、読み手となる人の感覚に沿った長文判定が行なえる。
【選択図】図１

Description

本発明は、文書データの解析を行なう文書データ処理装置および文書データ処理プログラムに関する。

従来、文書データ処理装置では文書データを予め定められた種別の要素に分解して、これらの要素の記述内容を判定して校正支援を行なう機能を有するものがある。また、例えば特許文献１に開示されるように、文書データに含まれる制御コードを解析することで当該文書データの校正支援を行なうものもある。
特開２０００−４００８３号公報

従来の作成済みの文書データが読み手にとって読みやすい文章であるか、例えば文書データに長文が含まれているか否かを判別する技術がある。この技術では句点で区切られた各文の文字数が予め定められた文字数を超える場合に、この文が長文であると判別する。また、別の例として、各文の文節数が予め定められた文節数を超える場合に、この文が長文であると判別する技術もある。

しかし、読み手の感覚では文の文字数が多くても文節数が少なかったり、文の文節数が多くても文字数が少なかったりする場合には、この文を長文と感じない場合がある。つまり、単一の条件をもとに文が所定の条件と合致するか否かを判別していたのでは、判別結果と読み手の感覚とが異なる場合がある。

そこで、本発明の目的は、文書データの各項目の記述内容の良し悪し判別精度を向上させることが可能になる文書データ処理装置および文書データ処理プログラムを提供することにある。

すなわち、本発明に係わる文書データ処理装置は、入力文書データの記述情報が予め定めた複数種類の条件の組合せに合致しているか否かを判別することを特徴とする。

本発明に係わる文書データ処理装置では、入力文書データの記述情報が予め定められた複数の条件の組合せに合致しているか否かを判別するので、ユーザは記述した文書データにおける表現が適切でない箇所を容易に発見することができ、その後の文書データの修正を円滑に行なうことができる。よって、文書データの記述内容の精度を向上させることができる。

以下図面により本発明の実施形態について説明する。
図１は、本発明の実施形態にしたがった文書データ処理装置の内部構成例を示すブロック図である。
本発明の実施形態にしたがった文書データ処理装置１は、装置全体の処理を司る制御部２、入力部３、記憶部４、入出力インタフェース５、表示部６を備える。これらはバス７を介して相互に接続される。

入力部３は例えばキーボードやマウスであり、文書データの新規作成にかかる操作を受け付ける。入出力インタフェース５は外部記憶装置とケーブルを介して接続可能であり、この外部記憶装置との間で文書データを入出力する。記憶部４は例えばハードディスクドライブや不揮発性メモリ装置などのハードウェアで構成された記憶装置である。記憶部４は制御用のプログラムに加え、テキストマイニング辞書テーブルを記憶する。記憶部４は制御部２による各種処理のワークメモリとしても機能する。

図２は、本発明の実施形態にしたがった文書データ処理装置１の記憶部４に記憶されるテキストマイニング辞書テーブルの構成例を表形式で示す図である。
このテキストマイニング辞書テーブルは、入力文書データ中に予め定められた記述情報が含まれているか否かの判別のためのテーブルである。

このテキストマイニング辞書テーブルでは、管理用のコード、このコードに対応するグループ名、項目名、該当表現および除外表現が関連付けられて管理される。管理用のコードはアルファベットおよび数字からなる。

テキストマイニング辞書テーブルではコードと項目名は１対１で関連付けられる。同一種類のグループ名には、単一または複数種類の項目名が関連付けられる。
該当表現とはこれとテキストマイニング辞書テーブル上で関連付けられる項目名に対応し、かつ品詞情報を持ち、正規表現により表現された単一または複数の単語の組合せからなる表現（記述情報）である。この品詞の情報は後述する形態素解析により判別される情報である。

また、除外表現とは該当表現の派生表現である。テキストマイニング辞書テーブル上で関連付けられる該当表現と対応する記述情報が文書データ中に含まれていても、この記述情報が当該表現とテキストマイニング辞書テーブル上で関連付けられる除外表現に含まれる記述情報である場合には、前述した該当表現と対応する記述情報が文書データに含まれるとは判別されない。

図２に示した例では、項目名「部長」にはグループ名「役職」、コード「Ａ００１」、該当表現「／部長￥［名詞￥］」が関連付けられる。「／部長￥［名詞￥］」とは名詞である「部長」を示す。

また、図２に示したテーブル上に２つ出現する項目名「異常終了」のうち一方にはグループ名「状況」、コード「Ｂ００１」、該当表現「／異常￥［形容動詞￥］／終了￥［サ変接続名詞￥］」が関連付けられる。「／異常￥［形容動詞￥］／終了￥［サ変接続名詞￥］」とは形容動詞である「異常」にサ変接続名詞である「終了」が連続する記述情報であることを示す。

また、図２に示したテーブル上に２つ出現する項目名「異常終了」のうち他方にはグループ名「状況」、コード「Ｂ００１」、該当表現「／システム￥［名詞￥］／ダウン￥［サ変接続名詞￥］」が関連付けられる。

また、図２に示したテーブル上に出現する項目名「納期遅延」にはグループ名「納期遅延」、コード「Ｂ００２」、該当表現「／納期￥［名詞￥］／遅延￥［サ変接続名詞￥］」が関連付けられる。

また、図２に示したテーブル上に出現する項目名「システム」にはグループ名「対象」、コード「Ｃ００１」、該当表現「／システム￥［名詞￥］」、除外表現「／システム￥［名詞￥］／ダウン￥［サ変接続名詞￥］」が関連付けられる。

また、図２に示したテーブル上に出現する項目名「製品」にはグループ名「対象」、コード「Ｃ２０１」、該当表現「／製品￥［名詞￥］」が関連付けられる。

次に、図１に示した構成の文書データ処理装置の動作について説明する。
図３は、本発明の実施形態にしたがった文書データ処理装置１の処理動作の一例を示すフローチャートである。

まず、文書データ処理装置１の入力部３に対する操作により文書データが作成されると、制御部２はこの文書データを記憶部４に記憶する。また、外部記憶装置に記憶された作成済みの文書データが入出力インタフェース５に入力されると、制御部２はこの文書データを記憶部４に記憶する（ステップＳ１）。

図４は、本発明の実施形態にしたがった文書データ処理装置１が入力した文書データのモニタ表示画面Ｇ１の一例を示す図である。
図４に示した文書データはシステムの異常終了に関する詫び状である。制御部２は、記憶部４に記憶された文書データを読み出して、この文書データの形態素解析を行なって文書データ中の各文節を抽出する（ステップＳ２）。

図５は、本発明の実施形態にしたがった文書データ処理装置１が入力した文書データの形態素解析の結果の一例を示す図である。
図５に示すように図４に示した入力文書データの形態素解析を行なうと、文書データ中の各単語が区分され、この区分された単語の直後に単語の記述情報の種別を示す情報が挿入される。この種別を示す情報は括弧で括られ、形態素解析前の記述情報と区別される。この記述情報の種別とは各種品詞、数字、英語、記号、句読点などである。

制御部２はこの形態素解析した文書データに関するパターンマッチ処理を行なう（ステップＳ３）。具体的には、まず制御部２は形態素解析済みの文書データに含まれる記述情報とテキストマイニング辞書テーブルとを照合することで、この記述情報と対応する項目名をテキストマイニング辞書テーブル上から検索する。検索対象の記述情報とは単一の単語および複数の単語の組合せのいずれかである。

制御部２は、形態素解析を行なった文書データ中の前述のように検索した記述情報の前段に文字列の＜コード＞を挿入し当該記述情報の後段に文字列＜／コード＞を挿入する。このコードは前述したように検索した項目名とテキストマイニング辞書テーブル上で関連付けられるコードである。

図６は、本発明の実施形態にしたがった文書データ処理装置１が入力した文書データのパターンマッチ処理の結果の一例を示す図である。
図６に示すように、制御部２は形態素解析済みの文書データに含まれる「部長［名詞］」の前段にこれとテキストマイニング辞書テーブル上で管理されるコード＜Ａ００１＞を挿入し、この「／部長［名詞］」の後段にコード＜／Ａ００１＞を挿入する。

また、制御部２は、図５で示した形態素解析済みの文書データに含まれる「／異常［形容動詞］／終了［サ変接続名詞］」および「／システム［名詞］／ダウン［サ変接続名詞］」の前段にこれとテキストマイニング辞書テーブル上で管理されるコード＜Ｂ００１＞を挿入し、これらの「／異常［形容動詞］／終了［サ変接続名詞］」および「／システム［名詞］／ダウン［サ変接続名詞］」の後段にコード＜／Ｂ００１＞を挿入する。

また、制御部２は、図５で示した形態素解析済みの文書データに含まれる「システム［名詞］」であって「／システム［名詞］／ダウン［サ変接続名詞］」でない文節の前段にテキストマイニング辞書テーブル上で管理されるコード＜Ｃ００１＞を挿入し、この「システム［名詞］」の後段にコード＜／Ｃ００１＞を挿入する。

前述した説明では制御部２はパターンマッチ処理として文書データ中にコードを挿入すると説明したが、これに限らず、例えば形態素解析済みの文書データに含まれる記述情報とテキストマイニング辞書テーブルとを照合することで、この記述情報と対応する項目名の文書データ中の出現位置を示す情報をこの項目名とコードとを関連付けた情報を制御部２が記憶部４に記憶してもよい。この管理対象のコードは前述した項目名とテキストマイニング辞書テーブル上で関連付けられるコードである。

図７は、本発明の実施形態にしたがった文書データ処理装置１が入力した文書データのパターンマッチ処理の変形例の結果の一例を示す図である。
図７に示した例では、コードとこのコードに対応する記述情報の文書データ中の開始文字位置と終了文字位置の情報とが関連付けて管理される。

制御部２は前述した形態素解析済みの文書データの記述情報が読み手にとって読みやすい記述情報であるか否かの判別するための分析処理を行なう（ステップＳ４）。
この分析処理は第１乃至第５の分析処理に区分される。第１の分析処理は形態素解析済みの文書データに長文が含まれるか否かを判別するために文書データ中の各単語の記述情報を分析する処理である。

制御部２が第１の分析処理を行なうために、記憶部４には文書データ中の句点で区切られた文の最大文字数および最大文節数の条件の情報が記憶される。ここでは条件は「最大３６文字以上かつ１３文節以上」とする。

具体的には、制御部２は記憶部４に記憶される最大文字数および最大文節数の情報を読み出し、この読み出した情報と形態素解析済みの文書データにおける句点で区切られた各文のうちの一文の文字数および文節数を判別する。

例えば制御部２は図５に示した形態素解析済みの文書データにおける「／アプリケーション［名詞］／システム［名詞］−で［助詞］／オーバー［サ変接続名詞］／フロー［名詞］−が［助詞］／発生［サ変接続名詞］／し［動詞］−て［助詞］／、［読点］／システム［名詞］／ダウン［サ変接続名詞］／し［動詞］−た［助動詞］／。［句点］」の文字数は３６で文節数は１１であると判別する。

制御部２は、この判別済みの文字数が記憶部４に記憶された最大文字数の条件を満たし、かつ判別済みの文節数が記憶部４に記憶された最大文節数の条件を満たしたか否かを判別する。制御部２は判別済みの文字数や文節数が記憶部４に記憶された条件を満たしたと判別した場合には分析対象の文が長文であると判別し、これを示すメッセージを表示部６に表示させる（ステップＳ５）。このメッセージの情報は記憶部４に予め記憶される。

以後、制御部２は同様の処理を他の文についても行なう。この第１の分析処理では、文書データ中の一文の文字数および文節数の双方が予め定められた条件を満たした場合に当該一文が長文であるか否かを判別するので、読み手となる人の感覚に沿った長文判定が行なえる。

次に、第２の分析処理について説明する。この第２の分析処理はコード挿入済みの文書データに曖昧表現や誤変換といった読み手に誤解を招く記述情報が含まれているか否かを判別するために文書データ中の各単語の記述情報を分析する処理である。

制御部２が第２の分析処理を行なうために、記憶部４にはテキストマイニング辞書第２テーブルが記憶される。
図８は、本発明の実施形態にしたがった文書データ処理装置１の記憶部４に記憶されるテキストマイニング辞書第２テーブルの構成例を表形式で示す図である。

このテキストマイニング辞書第２テーブルでは、管理用のコード、このコードに対応するグループ名、項目名、該当表現、除外表現、修正候補およびユーザ向けメッセージが関連付けられて管理される。管理用のコードはアルファベットおよび数字からなる。

テキストマイニング辞書第２テーブルではコードと項目名は１対１で関連付けられる。同一種類のグループ名には、単一または複数種類の項目名が関連付けられる。
該当表現とはこれとテキストマイニング辞書第２テーブル上で関連付けられる項目名に対応する文書中に一般的に含まれる単語およびこの単語の品詞の情報である。この品詞の情報は形態素解析済みの文書データに含まれる情報である。

また、除外表現とは該当表現の派生表現である。テキストマイニング辞書第２テーブル上で関連付けられる該当表現と対応する単語が文書データ中に含まれていても、この単語が当該表現とテキストマイニング辞書第２テーブル上で関連付けられる除外表現に含まれる単語である場合には、該当表現の単語が文書データに含まれるとは判別されない。

図８に示した例では、項目名「とか」にはグループ名「曖昧表現」、コード「Ｅ００１」、該当表現「￥−とか￥［助詞￥］」、ユーザ向けメッセージ「曖昧表現です。具体的に記述して下さい。」が関連付けられる。

また、図８に示した例では、項目名「など」にはグループ名「曖昧表現」、コード「Ｅ００２」、該当表現「￥−（など｜等）￥［助詞￥］」、ユーザ向けメッセージ「曖昧表現です。具体的に記述して下さい。」が関連付けられる。

また、図８に示した例では、項目名「以上」にはグループ名「誤変換」、コード「Ｆ００１」、該当表現「異常￥［形容動詞￥］、除外表現「異常￥［形容動詞￥］／［あ−腕］＋￥［［あ−腕］＋￥］、修正候補「以上」、ユーザ向けメッセージ「誤変換の可能性があります。」が関連付けられる。

制御部２はコード検索済みの文書データに含まれる各単語およびその品詞の情報とテキストマイニング辞書第２テーブルとを照合することで、各単語およびその品詞の情報と対応する該当表現がテキストマイニング辞書第２テーブル上にあるか否かを判別する。制御部２は形態素解析済みの文書データに含まれる各単語およびその品詞の情報とテキストマイニング辞書第２テーブルとを照合することで、各単語およびその品詞の情報と対応する該当表現がテキストマイニング辞書第２テーブル上にあるか否かを判別してもよい。

制御部２は各単語およびその品詞の情報と対応する該当表現がテキストマイニング辞書第２テーブル上にあると判別した場合、この該当表現とテキストマイニング辞書第２テーブル上で関連付けられるユーザ向けメッセージの情報を記憶部４から読み出し、これを表示部６に表示させる。

具体的には、制御部２はコード検索済みの文書データに助詞の「とか」が含まれていれば、これとテキストマイニング辞書第２テーブル上で関連付けられるユーザ向けメッセージである「曖昧表現です。具体的に記述して下さい。」の情報を記憶部４から読み出し、これを表示部６に表示させる。

次に第３の分析処理について説明する。この第３の分析処理は形態素解析済みの文書データに最初に出現するカタカナ語や英語略語に原語が併記されているか否かを分析する処理である。

制御部２が第３の分析処理を行なうために、記憶部４には原語表記除外定義テーブルが記憶される。

図９は、本発明の実施形態にしたがった文書データ処理装置１の記憶部４に記憶される原語表記除外テーブルの構成例を表形式で示す図である。

この原語表記除外テーブルでは文書データでの最初の出現時であっても原語表記が不要な単語が管理される。図９に示したテーブルでは、原語表記が不要な単語として「プログラム」、「ＨＴＭＬ」、「アプリケーション」、「システム」、「ＸＭＬ」および「ＡＴＭ」などが管理される。

制御部２は形態素解析済みの文書データに含まれる各単語のうちカタカナ語および英語略語を文書データの冒頭から順に検索する。制御部２はこれら検索した単語のうち２度目以降に出現した同一単語および原語表記除外テーブルで管理される単語を除く各単語を分析対象の単語とし、この単語の原語表記が文書データに含まれているか否かを判別する。

単語の原語表記が文書データに含まれている場合とは、分析対象の単語の直後や直前に当該単語の原語表記が記述されている場合を意味する。制御部２は、分析対象の単語のうち原語表記がなされていない単語、この単語の文書データ中の出現位置の情報およびこの単語の原語表記が記述されていない旨を示すメッセージを表示部６に表示させる。これによりユーザは作成済みの文書データにおいて原語表記が必要な単語を有無を容易に把握することができる。

この第３の分析処理を行なうために、図９に示したテーブルの代わりに図１０に示したツリー構造の原語表記除外単語の情報を記憶部４に記憶してもよい。
図１０は、本発明の実施形態にしたがった文書データ処理装置１の記憶部４に記憶される原語表記除外情報の一例を示す図である。

この原語表記除外情報は原語表記が不要な単語同士がツリー上に関連付けられる。この場合には制御部２は前述した最初に文書データ中に出現したカタカナ語や英語略語の検索後に、これらの単語から原語表記除外情報で示される各種単語を除く単語の原語表記が文書データに含まれているか否かを判別すればよい。

また、第３の分析処理を行なうために、図８に示したテーブルの代わりに図１１に示した原語表記所要単語テーブルを記憶部４に記憶してもよい。
図１１は、本発明の実施形態にしたがった文書データ処理装置１の記憶部４に記憶される原語表記所要テーブルの一例を表形式で示す図である。

この原語表記所要テーブルでは文書データでの初出時に原語表記が必要な用語および当該用語の原語表記の情報が関連付けられて管理される。
具体的には、図１１に示したテーブルでは、カタカナ語である用語「アプリケーションシステム」と原語表記「Application system」が関連付けられ、英語略称である用語「ＫＭ」と原語表記「Knowledge Management」が関連付けられ、用語「メアド」と原語表記「メールアドレス」が関連付けられる。

この場合には制御部２は最初に文書データ中に出現したカタカナ語や英語略語の検索後に、これらの単語のうち原語表記所要テーブルで示される単語の原語表記が文書データに含まれているか否かを判別し、原語表記が無い場合には、文書データにおける前述した原語表記が無い単語の例えば直後に当該原語表記を挿入すればよい。

次に第４の分析処理について説明する。この第４の分析処理は形態素解析済みの文書データに読み手が読みづらい記述情報が含まれているか否かを分析する処理である。
制御部２が第４の分析処理を行なうために、記憶部４には記述ルール定義テーブルが記憶される。
図１２は、本発明の実施形態にしたがった文書データ処理装置１の記憶部４に記憶される記述ルール定義テーブルの構成例を表形式で示す図である。

この記述ルール定義テーブルでは、ルール番号、ルール名、第１条件および第２条件の情報が関連付けられて管理される。ルール番号とルール名は１対１の関係で関連付けられる。ルール名とは文書データの読み手が読みづらい記述形式を示す。

図１２に示した例では、ルール名「動詞多用」にはルール番号「１」および第１条件「１文中に動詞３回以上」が関連付けられる。また、ルール名「動詞連体形」にはルール番号「２」、第１条件「動詞（連体形）」および第２条件「動詞(連体形)に続いて名詞」が関連付けられる。また、ルール名「接続詞多用」にはルール番号「３」および第１条件「１文中に接続詞２回以上」が関連付けられる。また、ルール名「同義別表現」にはルール番号「４」、第１条件「異常終了」および第２条件「システムダウン」が関連付けられる。

制御部２は形態素解析済みの文書データと記述ルールテーブルとを照合し、文書データ中の検索対象の記述情報にそれぞれのルール名と記述ルールテーブル上で関連付けられる条件と合致する記述情報が含まれているか否かをルールごとに判別する。

ルール名を示す情報に第２条件を示す情報が関連付けられていない場合には、制御部２は、検索対象の記述情報に当該ルール名と記述ルールテーブル上で関連付けられる第１条件と合致する記述情報が含まれているか否かを判別する。またルール名を示す情報に第２条件を示す情報が関連付けられている場合には、制御部２は、検索対象の記述情報に当該ルール名と記述ルールテーブル上で関連付けられる第１条件および第２条件とともに合致する記述情報が含まれているか否かを判別する。

図１２に示した例では、制御部２は記述ルールテーブル上でルール番号「１」乃至「３」と関連付けられる条件と合致する記述情報が文書データの１つの文の中にあるか否かを文ごとに判別する。また制御部２は記述ルールテーブル上でルール番号「４」と関連付けられる各条件と合致する記述情報が文書データ全体の中にあるか否かを判別する。

制御部２はこの判別の結果、文にそれぞれのルール名と記述ルールテーブル上で関連付けられる条件と合致する記述情報が含まれていると判別した場合には、この判別結果の画面を表示部６に表示する。

次に、第５の分析処理について説明する。この第５の分析処理は形態素解析済みの文書データに含まれる連続した漢字の記述情報が規定の規模を超えていないか否かを分析する処理である。

制御部２が第５の分析処理を行なうために、記憶部４には文書データ中の漢字の連続文字数および連続文節数を示す情報が記憶される。ここでは連続文字数および連続文節数の条件を「１０文字以上かつ５文節以上」とする。

制御部２は分析対象の漢字の記述情報の文字数を判別する。分析対象の漢字の記述情報が「総務部人事担当佐藤花子」である場合には、制御部２は文字数が１１文字であると判別する。また、この記述情報の形態素解析の結果は、「／総務［名詞］／部［接尾語］／人事［名詞］／担当［名詞］／佐藤［固有名詞］／花子［固有名詞］」となる。制御部２は形態素解析の結果をもとに分析対象の漢字の記述情報の文節数を判別する。制御部２は前述した「総務部人事担当佐藤花子」の文節数は６文節であると判別する。

制御部２は、この判別済みの文字数が記憶部４に記憶された連続文字数の条件を満たし、かつ判別済みの文節数が記憶部４に記憶された最大文節数の条件を満たしたか否かを判別する。制御部２は判別済みの文字数および文節数が記憶部４に記憶された条件を全て満たしたと判別した場合には分析対象の漢字の記述情報が分かち書きが必要な記述情報であると判別し、これを示すメッセージを表示部６に表示させる。このメッセージは例えば「漢字の記述が長すぎます。分かち書きをしてください。」である。

この第５の分析処理では、記憶部４に文書データ中の漢字の連続文字数および連続文節数を示す情報が記憶されると説明したが、連続文字数の条件を示す情報のみ、または連続文節数の条件を示す情報のみを記憶する形態としても良い。

図１３は、本発明の実施形態にしたがった文書データ処理装置１による分析処理の結果の画面Ｇ２の表示例を示す図である。
この画面Ｇ２では第１の分析処理の判別結果を示すメッセージ「第３文は長文です。簡潔な表現への書き換えを検討してください。」と第４の分析処理の結果を示すメッセージ「文書中に同義の『異常終了』と『システムダウン』が使われています。いずれかの表現で統一してください。」が表示される。

次に、各種分析処理の結果の表示の変形例について説明する。この変形例では、分析結果を示す情報を入力文書データとともに画面Ｇ３として表示させる。図１４は、本発明の実施形態にしたがった文書データ処理装置１による分析処理の結果の画面Ｇ３の表示例を示す図である。

この画面Ｇ３では、入力文書データの記述情報のうち、第１の分析処理により長文と判別された箇所に下線が付されるとともに、この下線部分に対応する文が長文であることを示すメッセージを含む吹き出しが当該対応部分に連なって表示される。

また、画面Ｇ３では入力文書データの記述情報のうち、第４の分析処理により同義別表現であると判別された箇所である「システムダウン」に下線が付されるとともに、この判別結果に対する修正方法を示すメニューが表示される。このメニューでは「システムダウン」の記述情報を同義別表現であると記述定義テーブルで管理される「異常終了」に統一するためのす第１項目、「システムダウン」の記述情報と同義別表現であると記述定義テーブルで管理される文書中の「異常終了」を「システムダウン」に統一する事を選択するための第２項目、および「システムダウン」および「異常終了」の記述情報の修正を行なわない事を選択するための第３項目が表示される。

ユーザが入力部３に対する操作を行なうことで、修正方法を示すメニューでの各種項目のうち第１および第２項目のいずれかを選択すると、制御部２はこの選択された項目に応じた文書データの修正処理を行なう。これによりユーザは修正を要する箇所の箇所が容易に把握できるばかりでなく、修正処理自体を簡単な操作で実行することができる。

なお、この発明は前記実施形態そのままに限定されるものではなく実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を省略してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

本発明の実施形態にしたがった文書データ処理装置の内部構成例を示すブロック図。本発明の実施形態にしたがった文書データ処理装置１の記憶部４に記憶されるテキストマイニング辞書テーブルの構成例を表形式で示す図。本発明の実施形態にしたがった文書データ処理装置１の処理動作の一例を示すフローチャート。本発明の実施形態にしたがった文書データ処理装置１が入力した文書データのモニタ表示画面Ｇ１の一例を示す図。本発明の実施形態にしたがった文書データ処理装置１が入力した文書データの形態素解析の結果の一例を示す図。本発明の実施形態にしたがった文書データ処理装置１が入力した文書データのパターンマッチ処理の結果の一例を示す図。本発明の実施形態にしたがった文書データ処理装置１が入力した文書データのパターンマッチ処理の変形例の結果の一例を示す図。本発明の実施形態にしたがった文書データ処理装置１の記憶部４に記憶されるテキストマイニング辞書第２テーブルの構成例を表形式で示す図。本発明の実施形態にしたがった文書データ処理装置１の記憶部４に記憶される原語表記除外テーブルの構成例を表形式で示す図。本発明の実施形態にしたがった文書データ処理装置１の記憶部４に記憶される原語表記除外情報の一例を示す図。本発明の実施形態にしたがった文書データ処理装置１の記憶部４に記憶される原語表記所要テーブルの一例を表形式で示す図。本発明の実施形態にしたがった文書データ処理装置１の記憶部４に記憶される記述ルール定義テーブルの構成例を表形式で示す図。本発明の実施形態にしたがった文書データ処理装置１による分析処理の結果の画面Ｇ２の表示例を示す図。本発明の実施形態にしたがった文書データ処理装置１による分析処理の結果の画面Ｇ３の表示例を示す図。

符号の説明

１…文書データ処理装置、２…制御部、３…入力部、４…記憶部、５…入出力インタフェース、６…表示部、７…バス。

Claims

文書データを入力する文書入力手段と、
文書データの記述に関する予め定めた複数種類の条件の組合せを示す情報を記憶する記憶手段と、
この記憶手段に記憶された情報と前記文書入力手段により入力した文書データの記述情報とを照合することで、前記入力した文書データの記述情報が前記条件の組合せに合致しているか否かを判別する判別手段と
この判別手段による判別結果を出力する出力手段と
を備えたことを特徴とする文書データ処理装置。
前記記憶手段は、文書データ中の予め定められた文節数および文字数の条件を示す情報を記憶し、
前記文書入力手段により入力した文書データ中の各文の文節数および文字数を検出する検出手段をさらに備え、
前記判別手段は、前記検出手段により検出された文節数および文字数が前記記憶手段に記憶された条件を満たしたか否かを判別する
ことを特徴とする請求項１に記載の文書データ処理装置。
前記文書入力手段により入力した文書データに含まれる記述情報と当該記述情報の品詞名とを検出する検出手段をさらに備え、
前記記憶手段は、文書データ中の句点で区切られた文における予め定められた種別の品詞の出現条件を示す情報とを関連付けて記憶し、
前記判別手段は、前記検出手段により検出した文書データ中の品詞の記述情報に前記記憶手段に記憶された条件と一致する記述情報が含まれるか否かを判別する
ことを特徴とする請求項１に記載の文書データ処理装置。
前記記憶手段は、文書データ中における記述情報である漢字の連続文字数および連続文節数の条件を示す情報を関連付けて記憶し、
前記文書入力手段により入力した文書データ中の漢字の連続文字数および連続文節数を検出する検出手段をさらに備え、
前記判別手段は、前記検出手段により検出した連続文字数および連続文節数が前記記憶手段に記憶される条件と一致するか否かを判別する
ことを特徴とする請求項１に記載の文書データ処理装置。
前記出力手段は、前記文書入力手段により入力した文書データの記述情報が前記条件の組合せに合致していると前記判別手段が判別した場合に、これを示す情報を表示手段に表示させることを特徴とする請求項１に記載の文書データ処理装置。
前記出力手段は、前記文書入力手段により入力した文書データを表示手段に表示させ、この表示された文書データの記述情報のうち、前記判定手段による判別した前記条件の組合せに合致している記述情報を強調表示させることを特徴とする請求項１に記載の文書データ処理装置。
前記記憶手段は、前記複数種類の条件の組合せを示す情報とこの条件と対応する記述情報の修正候補の情報とを関連付けて記憶し、
前記文書入力手段により入力した文書データの記述情報が前記条件の組合せに合致していると前記判別手段が判別した場合に、この記述情報の修正候補を前記記憶手段から検索する検索手段をさらに備えた
ことを特徴とする請求項１に記載の文書データ処理装置。
コンピュータを、
文書データを入力する文書入力手段、
記憶装置に記憶された文書データの記述に関する予め定めた複数種類の条件の組合せを示す情報と前記文書入力手段により入力した文書データの記述情報とを照合することで、前記入力した文書データの記述情報が前記条件の組合せに合致しているか否かを判別する判別手段、
この判別手段による判別結果を出力する出力手段
として機能させるようにした、コンピュータ読み取り可能な文書データ処理プログラム。