JP2007122660A - 文書データ処理装置および文書データ処理プログラム - Google Patents

文書データ処理装置および文書データ処理プログラム Download PDF

Info

Publication number
JP2007122660A
JP2007122660A JP2005317708A JP2005317708A JP2007122660A JP 2007122660 A JP2007122660 A JP 2007122660A JP 2005317708 A JP2005317708 A JP 2005317708A JP 2005317708 A JP2005317708 A JP 2005317708A JP 2007122660 A JP2007122660 A JP 2007122660A
Authority
JP
Japan
Prior art keywords
document data
input
document
information
description information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005317708A
Other languages
English (en)
Inventor
Kyoko Makino
恭子 牧野
Toshiyuki Kano
敏行 加納
Hiroshi Taira
博司 平
Kunitake So
国威 祖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2005317708A priority Critical patent/JP2007122660A/ja
Publication of JP2007122660A publication Critical patent/JP2007122660A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

【課題】文書データの内容の整合性の良し悪しを容易に判別する。
【解決手段】文書データ処理装置1の記憶部4は文書データ中の句点で区切られたそれぞれの文の最大文字数および最大文節数の情報を記憶する。制御部2は入力文書データの各文の文字数および文節数を判別する。制御部2は、判別した文節数が記憶部4に記憶された最大文節数を超え、かつ判別した文字数が記憶部4に記憶された最大文字数を超えた場合に分析対象の文が長文であることを示すメッセージを表示部6に表示させる。これにより文字数の長短のみまたは文節数の長短のみで長文の有無を判別する場合と比較して、読み手となる人の感覚に沿った長文判定が行なえる。
【選択図】 図1

Description

本発明は、文書データの解析を行なう文書データ処理装置および文書データ処理プログラムに関する。
従来、文書データ処理装置では文書データを予め定められた種別の要素に分解して、これらの要素の記述内容を判定して校正支援を行なう機能を有するものがある。また、例えば特許文献1に開示されるように、文書データに含まれる制御コードを解析することで当該文書データの校正支援を行なうものもある。
特開2000−40083号公報
従来の作成済みの文書データが読み手にとって読みやすい文章であるか、例えば文書データに長文が含まれているか否かを判別する技術がある。この技術では句点で区切られた各文の文字数が予め定められた文字数を超える場合に、この文が長文であると判別する。また、別の例として、各文の文節数が予め定められた文節数を超える場合に、この文が長文であると判別する技術もある。
しかし、読み手の感覚では文の文字数が多くても文節数が少なかったり、文の文節数が多くても文字数が少なかったりする場合には、この文を長文と感じない場合がある。つまり、単一の条件をもとに文が所定の条件と合致するか否かを判別していたのでは、判別結果と読み手の感覚とが異なる場合がある。
そこで、本発明の目的は、文書データの各項目の記述内容の良し悪し判別精度を向上させることが可能になる文書データ処理装置および文書データ処理プログラムを提供することにある。
すなわち、本発明に係わる文書データ処理装置は、入力文書データの記述情報が予め定めた複数種類の条件の組合せに合致しているか否かを判別することを特徴とする。
本発明に係わる文書データ処理装置では、入力文書データの記述情報が予め定められた複数の条件の組合せに合致しているか否かを判別するので、ユーザは記述した文書データにおける表現が適切でない箇所を容易に発見することができ、その後の文書データの修正を円滑に行なうことができる。よって、文書データの記述内容の精度を向上させることができる。
以下図面により本発明の実施形態について説明する。
図1は、本発明の実施形態にしたがった文書データ処理装置の内部構成例を示すブロック図である。
本発明の実施形態にしたがった文書データ処理装置1は、装置全体の処理を司る制御部2、入力部3、記憶部4、入出力インタフェース5、表示部6を備える。これらはバス7を介して相互に接続される。
入力部3は例えばキーボードやマウスであり、文書データの新規作成にかかる操作を受け付ける。入出力インタフェース5は外部記憶装置とケーブルを介して接続可能であり、この外部記憶装置との間で文書データを入出力する。記憶部4は例えばハードディスクドライブや不揮発性メモリ装置などのハードウェアで構成された記憶装置である。記憶部4は制御用のプログラムに加え、テキストマイニング辞書テーブルを記憶する。記憶部4は制御部2による各種処理のワークメモリとしても機能する。
図2は、本発明の実施形態にしたがった文書データ処理装置1の記憶部4に記憶されるテキストマイニング辞書テーブルの構成例を表形式で示す図である。
このテキストマイニング辞書テーブルは、入力文書データ中に予め定められた記述情報が含まれているか否かの判別のためのテーブルである。
このテキストマイニング辞書テーブルでは、管理用のコード、このコードに対応するグループ名、項目名、該当表現および除外表現が関連付けられて管理される。管理用のコードはアルファベットおよび数字からなる。
テキストマイニング辞書テーブルではコードと項目名は1対1で関連付けられる。同一種類のグループ名には、単一または複数種類の項目名が関連付けられる。
該当表現とはこれとテキストマイニング辞書テーブル上で関連付けられる項目名に対応し、かつ品詞情報を持ち、正規表現により表現された単一または複数の単語の組合せからなる表現(記述情報)である。この品詞の情報は後述する形態素解析により判別される情報である。
また、除外表現とは該当表現の派生表現である。テキストマイニング辞書テーブル上で関連付けられる該当表現と対応する記述情報が文書データ中に含まれていても、この記述情報が当該表現とテキストマイニング辞書テーブル上で関連付けられる除外表現に含まれる記述情報である場合には、前述した該当表現と対応する記述情報が文書データに含まれるとは判別されない。
図2に示した例では、項目名「部長」にはグループ名「役職」、コード「A001」、該当表現「/部長¥[名詞¥]」が関連付けられる。「/部長¥[名詞¥]」とは名詞である「部長」を示す。
また、図2に示したテーブル上に2つ出現する項目名「異常終了」のうち一方にはグループ名「状況」、コード「B001」、該当表現「/異常¥[形容動詞¥]/終了¥[サ変接続名詞¥]」が関連付けられる。「/異常¥[形容動詞¥]/終了¥[サ変接続名詞¥]」とは形容動詞である「異常」にサ変接続名詞である「終了」が連続する記述情報であることを示す。
また、図2に示したテーブル上に2つ出現する項目名「異常終了」のうち他方にはグループ名「状況」、コード「B001」、該当表現「/システム¥[名詞¥]/ダウン¥[サ変接続名詞¥]」が関連付けられる。
また、図2に示したテーブル上に出現する項目名「納期遅延」にはグループ名「納期遅延」、コード「B002」、該当表現「/納期¥[名詞¥]/遅延¥[サ変接続名詞¥]」が関連付けられる。
また、図2に示したテーブル上に出現する項目名「システム」にはグループ名「対象」、コード「C001」、該当表現「/システム¥[名詞¥]」、除外表現「/システム¥[名詞¥]/ダウン¥[サ変接続名詞¥]」が関連付けられる。
また、図2に示したテーブル上に出現する項目名「製品」にはグループ名「対象」、コード「C201」、該当表現「/製品¥[名詞¥]」が関連付けられる。
次に、図1に示した構成の文書データ処理装置の動作について説明する。
図3は、本発明の実施形態にしたがった文書データ処理装置1の処理動作の一例を示すフローチャートである。
まず、文書データ処理装置1の入力部3に対する操作により文書データが作成されると、制御部2はこの文書データを記憶部4に記憶する。また、外部記憶装置に記憶された作成済みの文書データが入出力インタフェース5に入力されると、制御部2はこの文書データを記憶部4に記憶する(ステップS1)。
図4は、本発明の実施形態にしたがった文書データ処理装置1が入力した文書データのモニタ表示画面G1の一例を示す図である。
図4に示した文書データはシステムの異常終了に関する詫び状である。制御部2は、記憶部4に記憶された文書データを読み出して、この文書データの形態素解析を行なって文書データ中の各文節を抽出する(ステップS2)。
図5は、本発明の実施形態にしたがった文書データ処理装置1が入力した文書データの形態素解析の結果の一例を示す図である。
図5に示すように図4に示した入力文書データの形態素解析を行なうと、文書データ中の各単語が区分され、この区分された単語の直後に単語の記述情報の種別を示す情報が挿入される。この種別を示す情報は括弧で括られ、形態素解析前の記述情報と区別される。この記述情報の種別とは各種品詞、数字、英語、記号、句読点などである。
制御部2はこの形態素解析した文書データに関するパターンマッチ処理を行なう(ステップS3)。具体的には、まず制御部2は形態素解析済みの文書データに含まれる記述情報とテキストマイニング辞書テーブルとを照合することで、この記述情報と対応する項目名をテキストマイニング辞書テーブル上から検索する。検索対象の記述情報とは単一の単語および複数の単語の組合せのいずれかである。
制御部2は、形態素解析を行なった文書データ中の前述のように検索した記述情報の前段に文字列の<コード>を挿入し当該記述情報の後段に文字列</コード>を挿入する。このコードは前述したように検索した項目名とテキストマイニング辞書テーブル上で関連付けられるコードである。
図6は、本発明の実施形態にしたがった文書データ処理装置1が入力した文書データのパターンマッチ処理の結果の一例を示す図である。
図6に示すように、制御部2は形態素解析済みの文書データに含まれる「部長[名詞]」の前段にこれとテキストマイニング辞書テーブル上で管理されるコード<A001>を挿入し、この「/部長[名詞]」の後段にコード</A001>を挿入する。
また、制御部2は、図5で示した形態素解析済みの文書データに含まれる「/異常[形容動詞]/終了[サ変接続名詞]」および「/システム[名詞]/ダウン[サ変接続名詞]」の前段にこれとテキストマイニング辞書テーブル上で管理されるコード<B001>を挿入し、これらの「/異常[形容動詞]/終了[サ変接続名詞]」および「/システム[名詞]/ダウン[サ変接続名詞]」の後段にコード</B001>を挿入する。
また、制御部2は、図5で示した形態素解析済みの文書データに含まれる「システム[名詞]」であって「/システム[名詞]/ダウン[サ変接続名詞]」でない文節の前段にテキストマイニング辞書テーブル上で管理されるコード<C001>を挿入し、この「システム[名詞]」の後段にコード</C001>を挿入する。
前述した説明では制御部2はパターンマッチ処理として文書データ中にコードを挿入すると説明したが、これに限らず、例えば形態素解析済みの文書データに含まれる記述情報とテキストマイニング辞書テーブルとを照合することで、この記述情報と対応する項目名の文書データ中の出現位置を示す情報をこの項目名とコードとを関連付けた情報を制御部2が記憶部4に記憶してもよい。この管理対象のコードは前述した項目名とテキストマイニング辞書テーブル上で関連付けられるコードである。
図7は、本発明の実施形態にしたがった文書データ処理装置1が入力した文書データのパターンマッチ処理の変形例の結果の一例を示す図である。
図7に示した例では、コードとこのコードに対応する記述情報の文書データ中の開始文字位置と終了文字位置の情報とが関連付けて管理される。
制御部2は前述した形態素解析済みの文書データの記述情報が読み手にとって読みやすい記述情報であるか否かの判別するための分析処理を行なう(ステップS4)。
この分析処理は第1乃至第5の分析処理に区分される。第1の分析処理は形態素解析済みの文書データに長文が含まれるか否かを判別するために文書データ中の各単語の記述情報を分析する処理である。
制御部2が第1の分析処理を行なうために、記憶部4には文書データ中の句点で区切られた文の最大文字数および最大文節数の条件の情報が記憶される。ここでは条件は「最大36文字以上かつ13文節以上」とする。
具体的には、制御部2は記憶部4に記憶される最大文字数および最大文節数の情報を読み出し、この読み出した情報と形態素解析済みの文書データにおける句点で区切られた各文のうちの一文の文字数および文節数を判別する。
例えば制御部2は図5に示した形態素解析済みの文書データにおける「/アプリケーション[名詞]/システム[名詞]−で[助詞]/オーバー[サ変接続名詞]/フロー[名詞]−が[助詞]/発生[サ変接続名詞]/し[動詞]−て[助詞]/、[読点]/システム[名詞]/ダウン[サ変接続名詞]/し[動詞]−た[助動詞]/。[句点]」の文字数は36で文節数は11であると判別する。
制御部2は、この判別済みの文字数が記憶部4に記憶された最大文字数の条件を満たし、かつ判別済みの文節数が記憶部4に記憶された最大文節数の条件を満たしたか否かを判別する。制御部2は判別済みの文字数や文節数が記憶部4に記憶された条件を満たしたと判別した場合には分析対象の文が長文であると判別し、これを示すメッセージを表示部6に表示させる(ステップS5)。このメッセージの情報は記憶部4に予め記憶される。
以後、制御部2は同様の処理を他の文についても行なう。この第1の分析処理では、文書データ中の一文の文字数および文節数の双方が予め定められた条件を満たした場合に当該一文が長文であるか否かを判別するので、読み手となる人の感覚に沿った長文判定が行なえる。
次に、第2の分析処理について説明する。この第2の分析処理はコード挿入済みの文書データに曖昧表現や誤変換といった読み手に誤解を招く記述情報が含まれているか否かを判別するために文書データ中の各単語の記述情報を分析する処理である。
制御部2が第2の分析処理を行なうために、記憶部4にはテキストマイニング辞書第2テーブルが記憶される。
図8は、本発明の実施形態にしたがった文書データ処理装置1の記憶部4に記憶されるテキストマイニング辞書第2テーブルの構成例を表形式で示す図である。
このテキストマイニング辞書第2テーブルでは、管理用のコード、このコードに対応するグループ名、項目名、該当表現、除外表現、修正候補およびユーザ向けメッセージが関連付けられて管理される。管理用のコードはアルファベットおよび数字からなる。
テキストマイニング辞書第2テーブルではコードと項目名は1対1で関連付けられる。同一種類のグループ名には、単一または複数種類の項目名が関連付けられる。
該当表現とはこれとテキストマイニング辞書第2テーブル上で関連付けられる項目名に対応する文書中に一般的に含まれる単語およびこの単語の品詞の情報である。この品詞の情報は形態素解析済みの文書データに含まれる情報である。
また、除外表現とは該当表現の派生表現である。テキストマイニング辞書第2テーブル上で関連付けられる該当表現と対応する単語が文書データ中に含まれていても、この単語が当該表現とテキストマイニング辞書第2テーブル上で関連付けられる除外表現に含まれる単語である場合には、該当表現の単語が文書データに含まれるとは判別されない。
図8に示した例では、項目名「とか」にはグループ名「曖昧表現」、コード「E001」、該当表現「¥−とか¥[助詞¥]」、ユーザ向けメッセージ「曖昧表現です。具体的に記述して下さい。」が関連付けられる。
また、図8に示した例では、項目名「など」にはグループ名「曖昧表現」、コード「E002」、該当表現「¥−(など|等)¥[助詞¥]」、ユーザ向けメッセージ「曖昧表現です。具体的に記述して下さい。」が関連付けられる。
また、図8に示した例では、項目名「以上」にはグループ名「誤変換」、コード「F001」、該当表現「異常¥[形容動詞¥]、除外表現「異常¥[形容動詞¥]/[あ−腕]+¥[[あ−腕]+¥]、修正候補「以上」、ユーザ向けメッセージ「誤変換の可能性があります。」が関連付けられる。
制御部2はコード検索済みの文書データに含まれる各単語およびその品詞の情報とテキストマイニング辞書第2テーブルとを照合することで、各単語およびその品詞の情報と対応する該当表現がテキストマイニング辞書第2テーブル上にあるか否かを判別する。制御部2は形態素解析済みの文書データに含まれる各単語およびその品詞の情報とテキストマイニング辞書第2テーブルとを照合することで、各単語およびその品詞の情報と対応する該当表現がテキストマイニング辞書第2テーブル上にあるか否かを判別してもよい。
制御部2は各単語およびその品詞の情報と対応する該当表現がテキストマイニング辞書第2テーブル上にあると判別した場合、この該当表現とテキストマイニング辞書第2テーブル上で関連付けられるユーザ向けメッセージの情報を記憶部4から読み出し、これを表示部6に表示させる。
具体的には、制御部2はコード検索済みの文書データに助詞の「とか」が含まれていれば、これとテキストマイニング辞書第2テーブル上で関連付けられるユーザ向けメッセージである「曖昧表現です。具体的に記述して下さい。」の情報を記憶部4から読み出し、これを表示部6に表示させる。
次に第3の分析処理について説明する。この第3の分析処理は形態素解析済みの文書データに最初に出現するカタカナ語や英語略語に原語が併記されているか否かを分析する処理である。
制御部2が第3の分析処理を行なうために、記憶部4には原語表記除外定義テーブルが記憶される。
図9は、本発明の実施形態にしたがった文書データ処理装置1の記憶部4に記憶される原語表記除外テーブルの構成例を表形式で示す図である。
この原語表記除外テーブルでは文書データでの最初の出現時であっても原語表記が不要な単語が管理される。図9に示したテーブルでは、原語表記が不要な単語として「プログラム」、「HTML」、「アプリケーション」、「システム」、「XML」および「ATM」などが管理される。
制御部2は形態素解析済みの文書データに含まれる各単語のうちカタカナ語および英語略語を文書データの冒頭から順に検索する。制御部2はこれら検索した単語のうち2度目以降に出現した同一単語および原語表記除外テーブルで管理される単語を除く各単語を分析対象の単語とし、この単語の原語表記が文書データに含まれているか否かを判別する。
単語の原語表記が文書データに含まれている場合とは、分析対象の単語の直後や直前に当該単語の原語表記が記述されている場合を意味する。制御部2は、分析対象の単語のうち原語表記がなされていない単語、この単語の文書データ中の出現位置の情報およびこの単語の原語表記が記述されていない旨を示すメッセージを表示部6に表示させる。これによりユーザは作成済みの文書データにおいて原語表記が必要な単語を有無を容易に把握することができる。
この第3の分析処理を行なうために、図9に示したテーブルの代わりに図10に示したツリー構造の原語表記除外単語の情報を記憶部4に記憶してもよい。
図10は、本発明の実施形態にしたがった文書データ処理装置1の記憶部4に記憶される原語表記除外情報の一例を示す図である。
この原語表記除外情報は原語表記が不要な単語同士がツリー上に関連付けられる。この場合には制御部2は前述した最初に文書データ中に出現したカタカナ語や英語略語の検索後に、これらの単語から原語表記除外情報で示される各種単語を除く単語の原語表記が文書データに含まれているか否かを判別すればよい。
また、第3の分析処理を行なうために、図8に示したテーブルの代わりに図11に示した原語表記所要単語テーブルを記憶部4に記憶してもよい。
図11は、本発明の実施形態にしたがった文書データ処理装置1の記憶部4に記憶される原語表記所要テーブルの一例を表形式で示す図である。
この原語表記所要テーブルでは文書データでの初出時に原語表記が必要な用語および当該用語の原語表記の情報が関連付けられて管理される。
具体的には、図11に示したテーブルでは、カタカナ語である用語「アプリケーションシステム」と原語表記「Application system」が関連付けられ、英語略称である用語「KM」と原語表記「Knowledge Management」が関連付けられ、用語「メアド」と原語表記「メールアドレス」が関連付けられる。
この場合には制御部2は最初に文書データ中に出現したカタカナ語や英語略語の検索後に、これらの単語のうち原語表記所要テーブルで示される単語の原語表記が文書データに含まれているか否かを判別し、原語表記が無い場合には、文書データにおける前述した原語表記が無い単語の例えば直後に当該原語表記を挿入すればよい。
次に第4の分析処理について説明する。この第4の分析処理は形態素解析済みの文書データに読み手が読みづらい記述情報が含まれているか否かを分析する処理である。
制御部2が第4の分析処理を行なうために、記憶部4には記述ルール定義テーブルが記憶される。
図12は、本発明の実施形態にしたがった文書データ処理装置1の記憶部4に記憶される記述ルール定義テーブルの構成例を表形式で示す図である。
この記述ルール定義テーブルでは、ルール番号、ルール名、第1条件および第2条件の情報が関連付けられて管理される。ルール番号とルール名は1対1の関係で関連付けられる。ルール名とは文書データの読み手が読みづらい記述形式を示す。
図12に示した例では、ルール名「動詞多用」にはルール番号「1」および第1条件「1文中に動詞3回以上」が関連付けられる。また、ルール名「動詞連体形」にはルール番号「2」、第1条件「動詞(連体形)」および第2条件「動詞(連体形)に続いて名詞」が関連付けられる。また、ルール名「接続詞多用」にはルール番号「3」および第1条件「1文中に接続詞2回以上」が関連付けられる。また、ルール名「同義別表現」にはルール番号「4」、第1条件「異常終了」および第2条件「システムダウン」が関連付けられる。
制御部2は形態素解析済みの文書データと記述ルールテーブルとを照合し、文書データ中の検索対象の記述情報にそれぞれのルール名と記述ルールテーブル上で関連付けられる条件と合致する記述情報が含まれているか否かをルールごとに判別する。
ルール名を示す情報に第2条件を示す情報が関連付けられていない場合には、制御部2は、検索対象の記述情報に当該ルール名と記述ルールテーブル上で関連付けられる第1条件と合致する記述情報が含まれているか否かを判別する。またルール名を示す情報に第2条件を示す情報が関連付けられている場合には、制御部2は、検索対象の記述情報に当該ルール名と記述ルールテーブル上で関連付けられる第1条件および第2条件とともに合致する記述情報が含まれているか否かを判別する。
図12に示した例では、制御部2は記述ルールテーブル上でルール番号「1」乃至「3」と関連付けられる条件と合致する記述情報が文書データの1つの文の中にあるか否かを文ごとに判別する。また制御部2は記述ルールテーブル上でルール番号「4」と関連付けられる各条件と合致する記述情報が文書データ全体の中にあるか否かを判別する。
制御部2はこの判別の結果、文にそれぞれのルール名と記述ルールテーブル上で関連付けられる条件と合致する記述情報が含まれていると判別した場合には、この判別結果の画面を表示部6に表示する。
次に、第5の分析処理について説明する。この第5の分析処理は形態素解析済みの文書データに含まれる連続した漢字の記述情報が規定の規模を超えていないか否かを分析する処理である。
制御部2が第5の分析処理を行なうために、記憶部4には文書データ中の漢字の連続文字数および連続文節数を示す情報が記憶される。ここでは連続文字数および連続文節数の条件を「10文字以上かつ5文節以上」とする。
制御部2は分析対象の漢字の記述情報の文字数を判別する。分析対象の漢字の記述情報が「総務部人事担当佐藤花子」である場合には、制御部2は文字数が11文字であると判別する。また、この記述情報の形態素解析の結果は、「/総務[名詞]/部[接尾語]/人事[名詞]/担当[名詞]/佐藤[固有名詞]/花子[固有名詞]」となる。制御部2は形態素解析の結果をもとに分析対象の漢字の記述情報の文節数を判別する。制御部2は前述した「総務部人事担当佐藤花子」の文節数は6文節であると判別する。
制御部2は、この判別済みの文字数が記憶部4に記憶された連続文字数の条件を満たし、かつ判別済みの文節数が記憶部4に記憶された最大文節数の条件を満たしたか否かを判別する。制御部2は判別済みの文字数および文節数が記憶部4に記憶された条件を全て満たしたと判別した場合には分析対象の漢字の記述情報が分かち書きが必要な記述情報であると判別し、これを示すメッセージを表示部6に表示させる。このメッセージは例えば「漢字の記述が長すぎます。分かち書きをしてください。」である。
この第5の分析処理では、記憶部4に文書データ中の漢字の連続文字数および連続文節数を示す情報が記憶されると説明したが、連続文字数の条件を示す情報のみ、または連続文節数の条件を示す情報のみを記憶する形態としても良い。
図13は、本発明の実施形態にしたがった文書データ処理装置1による分析処理の結果の画面G2の表示例を示す図である。
この画面G2では第1の分析処理の判別結果を示すメッセージ「第3文は長文です。簡潔な表現への書き換えを検討してください。」と第4の分析処理の結果を示すメッセージ「文書中に同義の『異常終了』と『システムダウン』が使われています。いずれかの表現で統一してください。」が表示される。
次に、各種分析処理の結果の表示の変形例について説明する。この変形例では、分析結果を示す情報を入力文書データとともに画面G3として表示させる。図14は、本発明の実施形態にしたがった文書データ処理装置1による分析処理の結果の画面G3の表示例を示す図である。
この画面G3では、入力文書データの記述情報のうち、第1の分析処理により長文と判別された箇所に下線が付されるとともに、この下線部分に対応する文が長文であることを示すメッセージを含む吹き出しが当該対応部分に連なって表示される。
また、画面G3では入力文書データの記述情報のうち、第4の分析処理により同義別表現であると判別された箇所である「システムダウン」に下線が付されるとともに、この判別結果に対する修正方法を示すメニューが表示される。このメニューでは「システムダウン」の記述情報を同義別表現であると記述定義テーブルで管理される「異常終了」に統一するためのす第1項目、「システムダウン」の記述情報と同義別表現であると記述定義テーブルで管理される文書中の「異常終了」を「システムダウン」に統一する事を選択するための第2項目、および「システムダウン」および「異常終了」の記述情報の修正を行なわない事を選択するための第3項目が表示される。
ユーザが入力部3に対する操作を行なうことで、修正方法を示すメニューでの各種項目のうち第1および第2項目のいずれかを選択すると、制御部2はこの選択された項目に応じた文書データの修正処理を行なう。これによりユーザは修正を要する箇所の箇所が容易に把握できるばかりでなく、修正処理自体を簡単な操作で実行することができる。
なお、この発明は前記実施形態そのままに限定されるものではなく実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を省略してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
本発明の実施形態にしたがった文書データ処理装置の内部構成例を示すブロック図。 本発明の実施形態にしたがった文書データ処理装置1の記憶部4に記憶されるテキストマイニング辞書テーブルの構成例を表形式で示す図。 本発明の実施形態にしたがった文書データ処理装置1の処理動作の一例を示すフローチャート。 本発明の実施形態にしたがった文書データ処理装置1が入力した文書データのモニタ表示画面G1の一例を示す図。 本発明の実施形態にしたがった文書データ処理装置1が入力した文書データの形態素解析の結果の一例を示す図。 本発明の実施形態にしたがった文書データ処理装置1が入力した文書データのパターンマッチ処理の結果の一例を示す図。 本発明の実施形態にしたがった文書データ処理装置1が入力した文書データのパターンマッチ処理の変形例の結果の一例を示す図。 本発明の実施形態にしたがった文書データ処理装置1の記憶部4に記憶されるテキストマイニング辞書第2テーブルの構成例を表形式で示す図。 本発明の実施形態にしたがった文書データ処理装置1の記憶部4に記憶される原語表記除外テーブルの構成例を表形式で示す図。 本発明の実施形態にしたがった文書データ処理装置1の記憶部4に記憶される原語表記除外情報の一例を示す図。 本発明の実施形態にしたがった文書データ処理装置1の記憶部4に記憶される原語表記所要テーブルの一例を表形式で示す図。 本発明の実施形態にしたがった文書データ処理装置1の記憶部4に記憶される記述ルール定義テーブルの構成例を表形式で示す図。 本発明の実施形態にしたがった文書データ処理装置1による分析処理の結果の画面G2の表示例を示す図。 本発明の実施形態にしたがった文書データ処理装置1による分析処理の結果の画面G3の表示例を示す図。
符号の説明
1…文書データ処理装置、2…制御部、3…入力部、4…記憶部、5…入出力インタフェース、6…表示部、7…バス。

Claims (8)

  1. 文書データを入力する文書入力手段と、
    文書データの記述に関する予め定めた複数種類の条件の組合せを示す情報を記憶する記憶手段と、
    この記憶手段に記憶された情報と前記文書入力手段により入力した文書データの記述情報とを照合することで、前記入力した文書データの記述情報が前記条件の組合せに合致しているか否かを判別する判別手段と
    この判別手段による判別結果を出力する出力手段と
    を備えたことを特徴とする文書データ処理装置。
  2. 前記記憶手段は、文書データ中の予め定められた文節数および文字数の条件を示す情報を記憶し、
    前記文書入力手段により入力した文書データ中の各文の文節数および文字数を検出する検出手段をさらに備え、
    前記判別手段は、前記検出手段により検出された文節数および文字数が前記記憶手段に記憶された条件を満たしたか否かを判別する
    ことを特徴とする請求項1に記載の文書データ処理装置。
  3. 前記文書入力手段により入力した文書データに含まれる記述情報と当該記述情報の品詞名とを検出する検出手段をさらに備え、
    前記記憶手段は、文書データ中の句点で区切られた文における予め定められた種別の品詞の出現条件を示す情報とを関連付けて記憶し、
    前記判別手段は、前記検出手段により検出した文書データ中の品詞の記述情報に前記記憶手段に記憶された条件と一致する記述情報が含まれるか否かを判別する
    ことを特徴とする請求項1に記載の文書データ処理装置。
  4. 前記記憶手段は、文書データ中における記述情報である漢字の連続文字数および連続文節数の条件を示す情報を関連付けて記憶し、
    前記文書入力手段により入力した文書データ中の漢字の連続文字数および連続文節数を検出する検出手段をさらに備え、
    前記判別手段は、前記検出手段により検出した連続文字数および連続文節数が前記記憶手段に記憶される条件と一致するか否かを判別する
    ことを特徴とする請求項1に記載の文書データ処理装置。
  5. 前記出力手段は、前記文書入力手段により入力した文書データの記述情報が前記条件の組合せに合致していると前記判別手段が判別した場合に、これを示す情報を表示手段に表示させることを特徴とする請求項1に記載の文書データ処理装置。
  6. 前記出力手段は、前記文書入力手段により入力した文書データを表示手段に表示させ、この表示された文書データの記述情報のうち、前記判定手段による判別した前記条件の組合せに合致している記述情報を強調表示させることを特徴とする請求項1に記載の文書データ処理装置。
  7. 前記記憶手段は、前記複数種類の条件の組合せを示す情報とこの条件と対応する記述情報の修正候補の情報とを関連付けて記憶し、
    前記文書入力手段により入力した文書データの記述情報が前記条件の組合せに合致していると前記判別手段が判別した場合に、この記述情報の修正候補を前記記憶手段から検索する検索手段をさらに備えた
    ことを特徴とする請求項1に記載の文書データ処理装置。
  8. コンピュータを、
    文書データを入力する文書入力手段、
    記憶装置に記憶された文書データの記述に関する予め定めた複数種類の条件の組合せを示す情報と前記文書入力手段により入力した文書データの記述情報とを照合することで、前記入力した文書データの記述情報が前記条件の組合せに合致しているか否かを判別する判別手段、
    この判別手段による判別結果を出力する出力手段
    として機能させるようにした、コンピュータ読み取り可能な文書データ処理プログラム。
JP2005317708A 2005-10-31 2005-10-31 文書データ処理装置および文書データ処理プログラム Pending JP2007122660A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005317708A JP2007122660A (ja) 2005-10-31 2005-10-31 文書データ処理装置および文書データ処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005317708A JP2007122660A (ja) 2005-10-31 2005-10-31 文書データ処理装置および文書データ処理プログラム

Publications (1)

Publication Number Publication Date
JP2007122660A true JP2007122660A (ja) 2007-05-17

Family

ID=38146395

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005317708A Pending JP2007122660A (ja) 2005-10-31 2005-10-31 文書データ処理装置および文書データ処理プログラム

Country Status (1)

Country Link
JP (1) JP2007122660A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013109475A (ja) * 2011-11-18 2013-06-06 Nec Corp 文書分析システム、文書分析方法およびプログラム
WO2014097751A1 (ja) * 2012-12-17 2014-06-26 日本電気株式会社 定義済み表現抽出システム、方法およびプログラム
JP2016143218A (ja) * 2015-02-02 2016-08-08 国立研究開発法人情報通信研究機構 構文解析装置、学習装置、機械翻訳装置、およびプログラム
JP2019061298A (ja) * 2017-09-22 2019-04-18 大日本印刷株式会社 情報処理装置、コンピュータプログラム及び文章表示方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01189762A (ja) * 1988-01-25 1989-07-28 Fujitsu Ltd 文書分かりやすさ評価方式
JPH0554027A (ja) * 1991-08-28 1993-03-05 Matsushita Electric Ind Co Ltd 文章の推敲方法およびその装置
JPH06162075A (ja) * 1992-11-20 1994-06-10 Sharp Corp 自動リライト装置
JP2000285115A (ja) * 1999-03-29 2000-10-13 Toshiba Corp 文書作成装置、文書作成方法及び文書作成プログラムを記憶した記憶媒体
JP2002183117A (ja) * 2000-12-13 2002-06-28 Just Syst Corp 文書校正支援装置、文書校正支援方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01189762A (ja) * 1988-01-25 1989-07-28 Fujitsu Ltd 文書分かりやすさ評価方式
JPH0554027A (ja) * 1991-08-28 1993-03-05 Matsushita Electric Ind Co Ltd 文章の推敲方法およびその装置
JPH06162075A (ja) * 1992-11-20 1994-06-10 Sharp Corp 自動リライト装置
JP2000285115A (ja) * 1999-03-29 2000-10-13 Toshiba Corp 文書作成装置、文書作成方法及び文書作成プログラムを記憶した記憶媒体
JP2002183117A (ja) * 2000-12-13 2002-06-28 Just Syst Corp 文書校正支援装置、文書校正支援方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013109475A (ja) * 2011-11-18 2013-06-06 Nec Corp 文書分析システム、文書分析方法およびプログラム
WO2014097751A1 (ja) * 2012-12-17 2014-06-26 日本電気株式会社 定義済み表現抽出システム、方法およびプログラム
JP2016143218A (ja) * 2015-02-02 2016-08-08 国立研究開発法人情報通信研究機構 構文解析装置、学習装置、機械翻訳装置、およびプログラム
WO2016125710A1 (ja) * 2015-02-02 2016-08-11 国立研究開発法人情報通信研究機構 構文解析装置、学習装置、機械翻訳装置、および記録媒体
JP2019061298A (ja) * 2017-09-22 2019-04-18 大日本印刷株式会社 情報処理装置、コンピュータプログラム及び文章表示方法

Similar Documents

Publication Publication Date Title
US6424983B1 (en) Spelling and grammar checking system
US6910004B2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
JPH07325828A (ja) 文法チェックシステム
JPH07325824A (ja) 文法チェックシステム
WO2003027895A2 (en) Character string conversion
KR100798752B1 (ko) 한국어 맞춤법 검사기 및 검사방법
JP2007122660A (ja) 文書データ処理装置および文書データ処理プログラム
JPH08235182A (ja) 文章処理方法とその装置
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
JPH10240739A (ja) 情報検索装置および情報検索方法
JP2006331246A (ja) 意見分析処理方法、意見分析処理装置およびプログラム
JP4318223B2 (ja) 文書校正装置およびプログラム記憶媒体
KR20010103411A (ko) 번역 효율이 향상된 언어 번역 시스템 및 방법
JP4047894B2 (ja) 文書校正装置およびプログラム記憶媒体
JP3814000B2 (ja) 文字列変換装置および文字列変換方法
JPH07325825A (ja) 英文法チェックシステム装置
JPH0561902A (ja) 機械翻訳システム
Golub et al. Visualizing Russian kinship term possessive sequences as family trees
KR101834436B1 (ko) 텍스트 생성 방법 및 장치
JP5454871B2 (ja) 辞書評価支援装置およびプログラム
Hashimoto et al. A corpora-based detection of stylistic inconsistencies of text in the targeted subgenre
JP3118880B2 (ja) 日本語文章処理装置
JPH07200592A (ja) 文章処理装置
JPH05290083A (ja) 文書作成支援装置
JPH08241315A (ja) 文書処理装置の単語登録機構

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081003

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110510

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110711

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120221