JP6677158B2

JP6677158B2 - 文書データ処理装置、文書データ処理方法、及び文書データ処理プログラム

Info

Publication number: JP6677158B2
Application number: JP2016529029A
Authority: JP
Inventors: 綾子久野
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2014-06-18
Filing date: 2015-06-11
Publication date: 2020-04-08
Anticipated expiration: 2035-06-11
Also published as: JPWO2015194140A1; WO2015194140A1

Description

本発明は、文書の記載事項が十分か否かを評価する文書データ処理装置、文書データ処理方法、及び記録媒体に関する。

近年、自然言語等によって記述された入力文書を、情報処理装置等を用いて分析することで、その入力文書において記述不足が発生した箇所を検出するシステムが開発されている。

記述不足になりがちな表現を入力文書の中から検出する技術の一例が、特許文献１に開示されている。

特許文献１の文書データ処理装置は、入力手段と、記憶手段と、検索手段と、出力手段とを備える。

特許文献１の文書データ処理装置は、まず、入力手段によって処理対象である文書データ（入力文書）を入力する。

特許文献１の文書データ処理装置は、次に、記憶手段に記憶される予め定められた表現（以下、「適合表現」と称す。）を、検索手段によって入力文書の中から検索する。

適合表現が入力文書中に存在する場合、特許文献１の文書データ処理装置は、記憶手段に記憶された、適合表現と関連付けられるメッセージを読み出し、出力手段によってそのメッセージを出力する。

即ち、特許文献１の文書データ処理装置は、記述不足になりがちな表現を適合表現として予め記憶手段に記憶することで、記述不足になりがちな表現を入力文書の中から検出する。

ある表現に対して係り受け関係にあるべき別の表現の欠落を入力文書の中から検出する技術の一例が、特許文献２に開示されている。

特許文献２のデータ処理装置は、入力手段と、構文解析手段と、記憶手段と、判定手段と、出力手段とを備える。

特許文献２のデータ処理装置は、まず、入力手段によって文書データを入力する。

特許文献２のデータ処理装置は、次に、構文解析手段によって文書データの構文解析を実行する。

特許文献２のデータ処理装置は、続いて、判定手段によって構文解析の結果である構文木において最も基底の単一の要素が欠損しているか否かを判定する。そして、特許文献２のデータ処理装置は、判定手段によって、その判定結果に基づいて、文書データにおいて文法上の“文”として成立するための文節の記述が不足しているか否かを判定する。

また、特許文献２のデータ処理装置は、記憶手段によって、係り受け関係にあるべき表現の対応関係を予め記憶する。

特許文献２のデータ処理装置は、続いて、係り受け関係にあるべき表現の一方が文書データ中に記述される場合に、係り受け関係にあるべき他方の表現が、文書データにおいて実際に係り受け関係にあるか否かを判定する。

特許文献２のデータ処理装置は、続いて、出力手段によって、係り受け関係にあるべき表現が存在するか否かの判定結果を出力する。

ある単語に関連して記述されるべき別の単語の欠落を入力文書の中から検出する技術の一例が、特許文献３に開示されている。

特許文献３のデータ処理装置は、記憶手段と、入力手段と、判定手段と、出力手段とを備える。

特許文献３のデータ処理装置は、予め、記憶手段によって、第１の単語が登録されたテキストマイニング辞書テーブルと、第１の単語に関連して記述されるべき第２の単語が登録された関連情報テーブルとを保持する。

特許文献３のデータ処理装置は、まず、入力手段によって文書データを入力する。

特許文献３のデータ処理装置は、次に、判定手段によって、第１の単語が入力文書中に存在するか否かを判定する。第１の単語が入力文書に存在する場合、特許文献３のデータ処理装置は、判定手段によって、第２の単語が入力文書中に存在するか否かを判定する。第１の単語が入力文書に存在し、且つ第２の単語が入力文書に存在しない場合には、特許文献３のデータ処理装置は、判定手段によって、入力文書において第２の単語を含む記述が不足していると判定する。

特許文献３のデータ処理装置は、続いて、出力手段によって判定結果を出力する。

特開２００８−０３３８８７号公報特許第５０９５１２８号公報特開２００７−３１０８２９号公報

特許文献１の文書データ処理装置は、記述不足になりがちな表現の有無を判定するが、入力文書において実際に記述不足が存在するか否かの判定を行わない。即ち、特許文献１の文書データ処理装置には、入力文書において実際に記述不足が存在するか否かを判定することができないという問題がある。

特許文献２のデータ処理装置は、入力した文書データにおいて、構文上の欠損がある場合、または記憶手段に予め登録された表現と係り受け関係にあるべき表現が欠損している場合に、記述不足が存在すると判定する。このため、特許文献２のデータ処理装置は、ある文において係り受け関係にあるべき表現の一方が存在しないが、別の文において係り受け関係にあるべき表現が存在する場合に、記述不足が存在すると判定する。即ち、文をまたがって係り受け関係にあるべき表現が存在する場合は、記述不足ではないと判定すべきであるが、記述不足が存在すると判定してしまう。このように、特許文献２のデータ処理装置には、入力文書中の複数の文を考慮して記述不足の有無を判定することができないという問題がある。

特許文献３のデータ処理装置にも、特許文献２のデータ処理装置と同様の問題がある。
（発明の目的）
本発明の主たる目的は、文書において、所定の主題に関する表現が存在するときに、所定の主題に関連して記述されるべき所定の事項に関する表現が適切な範囲内に記述されているか否かを判定する文書データ処理装置、文書データ処理方法、及び文書データ処理プログラムを提供することにある。

本発明の文書データ処理装置は、第１の文書における、所定の主題に関する所定の第１の表現の出現位置と、主題に関連して記述されるべき所定の事項に関する所定の第２の表現の出現位置との最短距離の分布に基づいて、前記第１の文書と同じ文書か又は別の文書である第２の文書における、第１の表現の出現位置に対して第２の表現が出現すべき位置の第１の範囲を決定する共起範囲設定手段と、第２の文書において、第２の表現が第１の範囲に出現しない場合に、主題に関連して記述されるべき所定の事項が適切な範囲内に記述されていないことを検出する詳細化不足検出手段とを備えることを特徴とする。

本発明の文書データ処理方法は、第１の文書における、所定の主題に関する所定の第１の表現の出現位置と、主題に関連して記述されるべき所定の事項に関する所定の第２の表現の出現位置との最短距離の分布に基づいて、前記第１の文書と同じ文書か又は別の文書である第２の文書における、第１の表現の出現位置に対して第２の表現が出現すべき位置の第１の範囲を決定し、第２の文書において、第２の表現が第１の範囲に出現しない場合に、主題に関連して記述されるべき所定の事項が適切な範囲内に記述されていないことを検出することを特徴とする。

本発明の文書データ処理プログラムは、第１の文書における、所定の主題に関する所定の第１の表現の出現位置と、主題に関連して記述されるべき所定の事項に関する所定の第２の表現の出現位置との最短距離の分布に基づいて、前記第１の文書と同じ文書か又は別の文書である第２の文書における、第１の表現の出現位置に対して第２の表現が出現すべき位置の第１の範囲を決定する共起範囲設定処理と、第２の文書において、第２の表現が第１の範囲に出現しない場合に、主題に関連して記述されるべき所定の事項が適切な範囲内に記述されていないことを検出する詳細化不足検出処理とをコンピュータに実行させることを特徴とする。

本発明によれば、文書において、所定の主題に関する表現が存在するときに、所定の主題に関連して記述されるべき所定の事項に関する表現が適切な範囲内に記述されているか否かを判定することができるという効果がある。

本発明の第１の実施形態における文書データ処理装置１０の構成の一例を示すブロック図である。本発明の第１の実施形態における文書データ処理装置１０の動作を示すフローチャートである。本発明の第１の実施形態における被詳細化テーブルＴ１の具体例を説明するための図である。本発明の第１の実施形態における最小共起距離の分布の具体例を説明するための図である。本発明の第１の実施形態における被詳細化テーブルＴ２の具体例を説明するための図である。本発明の第１の実施形態における入力文書Ｄ１の具体例を説明するための図である。本発明の第２の実施形態における被詳細化テーブルＴ３の具体例を説明するための図である。本発明の第２の実施形態における入力文書Ｄ２の具体例を説明するための図である。本発明の第３の実施形態における入力文書Ｄ３の具体例を説明するための図である。本発明の第４の実施形態における文書データ処理装置１１の構成の一例を示すブロック図である。本発明の第５の実施形態における文書データ処理装置１２の構成の一例を示すブロック図である。本発明を実現するための情報処理装置の構成の一例を示すブロック図である。

以下、本発明の実施形態について、図面を参照して詳細に説明する。尚、すべての図面において、同等の構成要素には同じ符号を付し、適宜説明を省略する。

はじめに、以下の各実施形態の説明において、共通して使用する用語について説明する。

「入力文書」とは、本発明の各実施形態における文書データ処理装置に、処理対象として入力される文書（文書情報、文書データ）である。

そして、本発明の各実施形態において、「文書（入力文書）」は、例えば、以下に挙げる、文字列、記号、又は表等を含む文書であってよい。

・１つ以上の文（単文、複文、重文等）を含む、特定の言語により記述された文書
・行方向又は列方向に複数の項目が並べられた、表又は帳票（例えば米国マイクロソフト社のエクセル（登録商標）によって作成された帳票シート等）
・上記特定の言語と表又は帳票とが混在する文書（例えば、各種製品の取扱い説明書等）
尚、「文書」は、図、画像を更に含んでもよい。

また、「詳細化」とは、文書において、ある主題について、その主題に関連して説明されるべき事項を記述することである。

「詳細化」に関連して、以下の用語について説明する。

・「被詳細化表現」：関連事項が記述されるべき対象である主題を示す表現
・「詳細化表現」：主題に関連して記述されるべき事項を示す表現
・「状況限定ワード」：「被詳細化表現」と「詳細化表現」とが文書中で共起すべき状況を限定する条件を示す表現
尚、上記の「被詳細化表現」、「詳細化表現」および「状況限定ワード」の各々の「表現」は、例えば、名詞又は名詞の一部である。しかしながら、「表現」は、名詞又は名詞の一部に限定されず、文字（文字列）、記号（記号列）、表、帳票、又は図の何れか、或いは、それらの組み合わせを含んでもよい。

また、文書中の「被詳細化表現」に対応する、少なくとも１つの「詳細化表現」が欠落していることを「詳細化不足」という。

また、「被詳細化表現」と「詳細化表現」との一つの対に対して、複数の「状況限定ワード」が関連付けられてもよい。
（第１の実施形態）
本実施形態における構成について説明する。

図１は、本発明の第１の実施形態における文書データ処理装置１０の構成の一例を示すブロック図である。

文書データ処理装置１０は、文書入力手段１０１、詳細化表現データベース１０２、単語抽出手段１０３、共起有無チェック手段１０４、共起範囲設定手段１０５、詳細化不足検出手段１０６、及び出力手段１０７を有する。

文書入力手段１０１は、詳細化不足の検出対象である文書（即ち、入力文書）を文書データ処理装置１０に入力する。

詳細化表現データベース１０２は、少なくとも、被詳細化表現を詳細化表現と関連付けたデータから成る「被詳細化テーブル」を予め記憶する。尚、被詳細化テーブルは、被詳細化表現と詳細化表現との対に関連付けられた状況限定ワードをさらに含んでもよい。また、詳細化表現データベース１０２は、被詳細化表現又は詳細化表現の同義語等をさらに予め記憶することにより、同義語等を被詳細化表現又は詳細化表現と同一であるものとして扱ってもよい。

単語抽出手段１０３は、入力文書の中から、詳細化表現データベース１０２に予め記憶される被詳細化表現、詳細化表現、及び状況限定ワードのそれぞれと一致する文字列を検索する。そして、単語抽出手段１０３は、検索された、被詳細化表現、詳細化表現、及び状況限定ワードのそれぞれと一致する文字列の位置を、記憶デバイス（不図示）に記録する。文字列の位置は、ファイル名、ページ番号、行番号、文番号、セル座標（セル番号）、又は文字番号などを用いて特定される。

以降、被詳細化表現と一致する文書中の個々の文字列の位置を「被詳細化箇所」、詳細化表現と一致する文書中の個々の文字列の位置を「詳細化箇所」、状況限定ワードと一致する文書中の個々の文字列の位置を「状況限定箇所」と言う。尚、被詳細化箇所、詳細化箇所、状況限定箇所のそれぞれは、対応する文字列が同じであっても、文書中の位置が異なれば、別の被詳細化箇所、詳細化箇所、状況限定箇所として扱われる。

単語抽出手段１０３は、被詳細化表現又は詳細化表現として登録された文字列が、入力文書内において複合語の一部である場合、その複合語全体を、被詳細化表現又は詳細化表現として発見したものとみなしてもよい。例えば、詳細化表現データベースに「ＩＤ」という文字列が被詳細化表現として登録されている場合、単語抽出手段１０３は、入力文書の中の「ＩＤ」を含む「ユーザＩＤ」、「商品ＩＤ」等の複合語を発見した被詳細化表現とみなしてもよい。

共起有無チェック手段１０４は、被詳細化表現と詳細化表現の「最小共起距離」を被詳細化箇所と詳細化箇所の位置情報に基づいて算出する。ここで、「最小共起距離」とは、被詳細化表現とそれに対応する詳細化表現との間の距離である。即ち、最小共起距離とは、被詳細化箇所の前後にある、詳細化箇所のうち、最も距離が近い詳細化箇所との「距離」である。ここで、「距離」は、二つの表現間の文字数、行数、文番号の差、ページ数など、文書内での二つの表現の距離を数値で表せるものであればよい。なお、詳細化表現データベース１０２に状況限定ワードが登録されている場合には、共起有無チェック手段１０４は、被詳細化箇所と状況限定箇所との最小共起距離も算出する。

共起範囲設定手段１０５は、共起有無チェック手段１０４により算出された最小共起距離に基づいて、各被詳細化箇所の、被詳細化表現と詳細化表現との「適正共起範囲」を決定する。ここで、「適正共起範囲」とは、被詳細化表現に対して詳細化表現が出現すべき位置の範囲である。

共起範囲設定手段１０５は、例えば、被詳細化表現と詳細化表現との対ごとに最小共起距離の出現頻度をヒストグラム化した場合に出現頻度が最も多い最小共起距離を、被詳細化表現と詳細化表現との対ごとの適正共起範囲として決定する。あるいは、共起範囲設定手段１０５は、各詳細化箇所の被詳細化箇所に対する距離の分布に基づいて、被詳細化表現と詳細化表現との対ごとの適正共起範囲を決定してもよい。尚、被詳細化表現に対し、詳細化表現が一度も出現しない場合には、共起範囲設定手段１０５は、適正共起範囲として「なし」を決定する。また、出現頻度が最も多い最小共起距離が複数ある場合には、共起範囲設定手段１０５は、適正共起範囲として、最小の最小共起距離、最大の最小共起距離、または最小共起距離の平均値等を決定してもよい。なお、適正共起範囲が広く設定されるほど、詳細化不足と判定される被詳細化箇所が少なくなる。

詳細化不足検出手段１０６は、被詳細化表現と詳細化表現との対ごとに、共起範囲設定手段１０５によって決定された適正共起範囲と「詳細化不足検出ルール」とに基づいて、詳細化不足が発生した被詳細化箇所（以下、「詳細化不足箇所」と言う。）を検出する。

「詳細化不足検出ルール」とは、適正共起範囲内に被詳細化箇所と詳細化箇所がどのような条件で共起すれば、詳細化不足ではないと（または、詳細化不足であると）判定するかを定めたルールである。詳細化不足検出ルールは、例えば、各被詳細化箇所について適正共起範囲内に詳細化箇所が共起しなければ詳細化不足であると判定するというルールである。

尚、適正共起範囲が「なし」に設定された場合には、詳細化不足検出手段１０６は、例えば、該当する被詳細化表現と詳細化表現との対に対応する被詳細化箇所のすべてにおいて詳細化不足であるものとみなす。

また、詳細化不足検出手段１０６が被詳細化表現を含む複合語を被詳細化表現のバリエーションとして検出する場合がある。この場合には、詳細化不足検出ルールは、各バリエーションに対応する被詳細化箇所のうち少なくとも１つについて適正共起範囲内に詳細化箇所が共起すれば、当該被詳細化表現のバリエーションは詳細化不足ではないと判定するルールであってもよい。

また、詳細化表現データベース１０２に状況限定ワードが登録される場合がある。この場合には、詳細化不足検出手段１０６は、当該被詳細化表現に対応する被詳細化箇所と状況限定箇所が予め定められた共起範囲内に共起した場合に、詳細化不足箇所の検出を行う。あるいは、詳細化不足検出手段１０６は、共起範囲設定手段１０５により設定された被詳細化表現と詳細化表現の適正共起範囲内に状況限定ワードが共起した場合に、詳細化不足箇所の検出を行う。

出力手段１０７は、詳細化不足検出手段１０６によって抽出された詳細化不足箇所を、例えば、ユーザが判別可能な態様によって出力する。出力の態様は、例えば、ユーザが認識可能な一覧表示、外部装置への情報提供等である。または、出力手段１０７は、詳細化不足箇所であると判定されたか否かをユーザが判別可能な態様で、被詳細化箇所を出力しても良い。例えば、出力手段１０７は、被詳細化箇所のうち、詳細化不足箇所ではない箇所と、詳細化不足箇所である箇所とで出力における色、フォント、線の太さ等を変えて出力してもよい。

次に、本実施形態における動作について説明する。

図２は、本発明の第１の実施形態における文書データ処理装置１０の動作を示すフローチャートである。

文書入力手段１０１は、詳細化不足検出対象である文書（入力文書）を入力する（ステップＳ１０１）。

単語抽出手段１０３は、入力文書の中から、詳細化表現データベース１０２に記憶された被詳細化表現、詳細化表現のそれぞれと一致する、被詳細化箇所、詳細化箇所を検出する（ステップＳ１０２）。

共起有無チェック手段１０４は、単語抽出手段１０３により抽出された被詳細化箇所と詳細化箇所との対ごとに、被詳細化箇所と詳細化箇所との最小共起距離を算出する（ステップＳ１０３）。

共起範囲設定手段１０５は、被詳細化表現と詳細化箇所との対ごとに、被詳細化箇所と詳細化箇所との最小共起距離に基づいて適正共起範囲を決定する（ステップＳ１０４）。

詳細化不足検出手段１０６は、共起範囲設定手段１０５により決定された適正共起範囲と詳細化不足検出ルールとに基づいて、詳細化不足箇所を検出する（ステップＳ１０５）。

出力手段１０７は、詳細化不足検出手段１０６により検出された詳細化不足箇所を出力する（ステップＳ１０６）。

次に、本発明の第１の実施形態の処理の具体例について説明する。

図３は、本発明の第１の実施形態における被詳細化テーブルＴ１の具体例を説明するための図である。

詳細化表現データベース１０２は、被詳細化テーブルＴ１を記憶する。

図４は、本発明の第１の実施形態における最小共起距離の分布の具体例を説明するための図である。

以下、図３及び図４を用いて、状況限定ワードが指定されない場合の文書データ処理装置１０の動作を説明する。

被詳細化テーブルＴ１は、被詳細化表現Ｃ１、詳細化表現Ｃ２、及び状況限定ワードＣ３を記憶することができる。但し、被詳細化テーブルＴ１では状況限定ワードが指定されていないので、状況限定ワードＣ３欄は空欄である。詳細化表現データベース１０２は、少なくとも、被詳細化表現Ｃ１と詳細化表現Ｃ２とが関連付けられた被詳細化テーブルＴ１を予め記憶する。

被詳細化テーブルＴ１において、被詳細化表現Ｃ１には「検索システム」が、詳細化表現Ｃ２には「パフォーマンス」が記憶されており、状況限定ワードＣ３は空欄である。

文書入力手段１０１は、詳細化不足検出対象である文書を入力する（図２のステップＳ１０１）。

単語抽出手段１０３は、被詳細化テーブルＴ１を参照して、記憶された被詳細化表現Ｃ１「検索システム」、詳細化表現Ｃ２「パフォーマンス」のそれぞれと一致する被詳細化箇所、詳細化箇所を、入力文書中から検出する（図２のステップＳ１０２）。

共起有無チェック手段１０４は、「検索システム」に対応する被詳細化箇所と「パフォーマンス」に対応する詳細化箇所との対ごとに、被詳細化箇所と詳細化箇所との最小共起距離を算出する（図２のステップＳ１０３）。尚、「パフォーマンス」に対応する詳細化箇所が複数ある場合には、共起有無チェック手段１０４は、被詳細化箇所と、被詳細化箇所に最も近い詳細化箇所との距離を最小共起距離として算出する。

共起範囲設定手段１０５は、共起有無チェック手段１０４により算出された、「検索システム」に対応する被詳細化箇所と「パフォーマンス」に対応する詳細化箇所との最小共起距離に基づいて、適正共起範囲を決定する（図２のステップＳ１０４）。図４では、被詳細化表現Ｃ１「検索システム」と詳細化表現Ｃ２「パフォーマンス」との最小共起距離の分布において、最小共起距離が「１行」である頻度が最も多い。出現頻度が最も多い最小共起距離を適正共起範囲として決定する場合には、共起範囲設定手段１０５は、「１行」を適正共起範囲として決定する。

詳細化不足検出手段１０６は、共起有無チェック手段１０４によって決定された適正共起範囲と、詳細化不足検出ルールとに基づいて、詳細化不足箇所を検出する（図２のステップＳ１０５）。詳細化不足検出ルールが「各被詳細化箇所について適正共起範囲内に詳細化箇所が共起しなければ詳細化不足であると判定する」ルールである場合について説明する。この場合、詳細化不足検出手段１０６は、「検索システム」に対応する被詳細化箇所の前後１行以内に「パフォーマンス」に対応する詳細化箇所が存在しない場合、当該被詳細化箇所を詳細化不足箇所として検出する。

出力手段１０７は、詳細化不足検出手段１０６によって検出された詳細化不足箇所を出力する（図２のステップＳ１０６）。

次に、本発明の第１の実施形態の処理の別の具体例について説明する。

以下、図５及び図６を用いて、状況限定ワードが指定された場合の文書データ処理装置１０の動作を説明する。

図５は、本発明の第１の実施形態における被詳細化テーブルＴ２の具体例を説明するための図である。

被詳細化テーブルＴ２において、被詳細化表現Ｃ４には「ｃｓｖ」が、詳細化表現Ｃ５には「文字コード」が、状況限定ワードＣ６には「入力」及び「出力」が記憶されている。

図６は、第１の実施形態における入力文書Ｄ１の具体例を説明するための図である。入力文書Ｄ１において、被詳細化表現Ｃ４「ｃｓｖ」が位置Ｐ１、Ｐ２、Ｐ３、Ｐ４に出現する。なお、入力文書Ｄ１において、「（改ページ）」は改ページを示す記号を、「：」及び「（中略）」は文書の一部が省略されていることを示す。

文書入力手段１０１は、詳細化不足検出対象である入力文書Ｄ１を入力する（図２のステップＳ１０１）。

単語抽出手段１０３は、被詳細化テーブルＴ２を参照して、記憶された被詳細化表現Ｃ４「ｃｓｖ」、詳細化表現Ｃ５「文字コード」、状況限定ワードＣ６「入力」及び「出力」のそれぞれと一致する被詳細化箇所、詳細化箇所、状況限定箇所を入力文書Ｄ１から検出する（図２のステップＳ１０２）。入力文書Ｄ１において、被詳細化表現Ｃ４「ｃｓｖ」に対応する被詳細化箇所は、被詳細化箇所Ｐ１、Ｐ２、Ｐ３、Ｐ４である。

共起有無チェック手段１０４は、「ｃｓｖ」に対応する被詳細化箇所と「文字コード」に対応する詳細化箇所との対ごとに、被詳細化箇所と詳細化箇所との最小共起距離を算出する（図２のステップＳ１０３）。尚、「文字コード」に対応する詳細化箇所が複数ある場合には、共起有無チェック手段１０４は、被詳細化箇所と、被詳細化箇所に最も近い詳細化箇所との距離を最小共起距離として算出する。

共起範囲設定手段１０５は、共起有無チェック手段１０４により算出された、「ｃｓｖ」に対応する被詳細化箇所と「文字コード」に対応する詳細化箇所との最小共起距離に基づいて、適正共起範囲を決定する（図２のステップＳ１０４）。被詳細化表現Ｃ４「ｃｓｖ」と詳細化表現Ｃ５「文字コード」との最小共起距離の分布において、出現頻度が最も多い最小共起距離が「１行」であるものとする。出現頻度が最も多い最小共起距離を適正共起範囲として決定する場合には、共起範囲設定手段１０５は、「１行」を被詳細化表現Ｃ４「ｃｓｖ」と詳細化表現Ｃ５「文字コード」との適正共起範囲として決定する。

詳細化不足検出手段１０６は、共起有無チェック手段１０４によって決定された適正共起範囲と、詳細化不足検出ルールとに基づいて、詳細化不足箇所を検出する（図２のステップＳ１０５）。詳細化不足検出ルールが「各被詳細化箇所について同じページ内に状況限定ワードが共起し、かつ、適正共起範囲内に詳細化箇所が共起しなければ詳細化不足であると判定する」ルールである場合について説明する。この場合、詳細化不足検出手段１０６は、「ｃｓｖ」に対応する被詳細化箇所の同じページ内に「入力」もしくは「出力」に対応する状況限定箇所が共起し、かつ前後１行以内に「文字コード」に対応する詳細化箇所が存在しない場合、当該被詳細化箇所を詳細化不足箇所として検出する。

被詳細化箇所Ｐ１は、同じページ内に「入力」に対応する状況限定箇所が共起し、かつ前後１行以内に「文字コード」に対応する詳細化箇所が共起するため、詳細化不足箇所ではない。被詳細化箇所Ｐ２は、同じページ内に「入力」に対応する状況限定箇所が共起し、かつ前後１行以内に「文字コード」に対応する詳細化箇所が共起しないため、詳細化不足箇所である。被詳細化箇所Ｐ３は、同じページ内に「出力」に対応する状況限定箇所が共起し、かつ前後１行以内に「文字コード」なる詳細化箇所が共起するため、詳細化不足箇所ではない。被詳細化箇所Ｐ４は、同じページ内に「入力」または「出力」に対応する状況限定箇所が共起しないため、詳細化不足箇所ではない。

以上説明したように、本実施形態の文書データ処理装置１０によれば、文書において所定の主題に関する表現が存在するときに、所定の主題に関連して記述されるべき所定の事項に関する表現が適切な範囲内に記述されているか否かを判定することができる。その理由は、文書データ処理装置１０は、被詳細化箇所と詳細化箇所との最小共起距離の分布に基づいて、適正共起範囲を決定し、適正共起範囲において詳細化不足箇所の有無を判定するからである。ここで、所定の主題に関する表現は、被詳細化表現と言い換えることができる。所定の主題に関連して記述されるべき所定の事項に関する表現は、詳細化表現と言い換えることができる。更に、これらが適切な範囲内に記述されているか否かとは、詳細化不足箇所の有無と言い換えることができる。

また、一般に、膨大な文字列や記号列等によって構成される帳票シートやソフトウェア・プログラム等が入力文書である場合には、その入力文書全体に共通する妥当な詳細化不足箇所を検出することは難しい。本実施形態における文書データ処理装置１０は、このような膨大な入力文書を、被詳細化箇所と詳細化箇所の最小共起距離の分布に基づいて適正共起範囲を設定することで、被詳細化箇所のうち、適正共起範囲内に詳細化箇所がない場合に詳細化不足箇所が存在するものと判定する。このため、本実施形態の文書データ処理装置１０では、被詳細化箇所ごとに異なる適正共起範囲内において詳細化不足箇所の有無を判定することができるという効果がある。
（第２の実施形態）
次に、上述した第１の実施形態を基本とする第２の実施形態について説明する。以下の説明において、第１の実施形態と同等の構成要素には同じ符号を付し、適宜説明を省略する。

本実施形態における構成について説明する。

本実施形態における文書データ処理装置の構成は、第１の実施形態における文書データ処理装置１０の構成と同じである。

次に、本実施形態における動作について説明する。

本実施形態では、文書データ処理装置１０は、被詳細化表現又は詳細化表現として登録された文字列が、入力文書内において複合語の一部である場合、その複合語全体を、被詳細化表現又は詳細化表現として発見したものとみなす。

次に、本実施形態における処理の具体例について説明する。

図７は、本発明の第２の実施形態における被詳細化テーブルＴ３の具体例を説明するための図である。

詳細化表現データベース１０２は、被詳細化テーブルＴ３を予め記憶する。被詳細化テーブルＴ３は、被詳細化表現Ｃ７には「ＩＤ」を、詳細化表現Ｃ８には「変更不可」を記憶する。尚、被詳細化テーブルＴ３では状況限定ワードが指定されていないので、状況限定ワードＣ９は空欄である。

図８は、本発明の第２の実施形態における入力文書Ｄ２の具体例を説明するための図である。入力文書Ｄ２において、被詳細化表現Ｃ７「ＩＤ」が位置Ｐ５、Ｐ６、Ｐ７、Ｐ８、Ｐ９に出現する。

文書入力手段１０１は、入力文書Ｄ２を入力する（図２のステップＳ１０１）。

単語抽出手段１０３は、被詳細化テーブルＴ３に記憶された被詳細化表現Ｃ７「ＩＤ」、詳細化表現Ｃ８「変更不可」のそれぞれに対応する被詳細化箇所、詳細化箇所を入力文書Ｄ２から検出する（図２のステップＳ１０２）。尚、単語抽出手段１０３は、入力文書Ｄ２には被詳細化表現Ｃ７「ＩＤ」を含む複合語「ユーザＩＤ」、「商品ＩＤ」、「店舗ＩＤ」、「注文ＩＤ」が存在するため、それぞれの複合語全体を被詳細化箇所として検出する。つまり、単語抽出手段１０３は、入力文書Ｄ２において、「ユーザＩＤ」に対応する被詳細化箇所Ｐ５、「商品ＩＤ」に対応する被詳細化箇所Ｐ６、「店舗ＩＤ」に対応する被詳細化箇所Ｐ７、Ｐ９、「注文ＩＤ」に対応する被詳細化箇所Ｐ８を検出する。

共起有無チェック手段１０４は、「ＩＤ」に対応する被詳細化箇所と「変更不可」に対応する詳細化箇所との対ごとに、被詳細化箇所と詳細化箇所との最小共起距離を算出する（図２のステップＳ１０３）。尚、「変更不可」に対応する詳細化箇所が複数ある場合には、共起有無チェック手段１０４は、被詳細化箇所と、被詳細化箇所に最も近い詳細化箇所との距離を最小共起距離として算出する。

共起範囲設定手段１０５は、共起有無チェック手段１０４により算出された、「ＩＤ」に対応する被詳細化箇所と「変更不可」に対応する詳細化箇所との最小共起距離に基づいて、適正共起範囲を決定する（図２のステップＳ１０４）。入力文書Ｄ２では、被詳細化表現Ｃ７「ＩＤ」と詳細化表現Ｃ８「変更不可」との最小共起距離（行数）の分布において、最小共起距離０行（同じ行）の出現頻度が３回、最小共起距離５行（Ｐ８からＰ７の行）の出現頻度が１回、ブランクの一行を含む最小共起距離７行（Ｐ９からＰ７の行）の出現頻度が１回である。そこで、共起範囲設定手段１０５は、最小共起距離０行を被詳細化表現Ｃ７「ＩＤ」と詳細化表現Ｃ８「変更不可」との適正共起範囲として決定する。

詳細化不足検出手段１０６は、共起範囲設定手段１０５によって決定された適正共起範囲と、詳細化不足検出ルールとに基づいて、詳細化不足箇所を検出する（図２のステップＳ１０５）。詳細化不足検出ルールが「被詳細化表現を含む複合語の各バリエーションに対応する被詳細化箇所のうち少なくとも１つについて適正共起範囲内に詳細化箇所が共起すれば、当該被詳細化表現のバリエーションは詳細化不足ではないと判定する」ルールである場合について説明する。この場合には、「ＩＤ」を含む特定の複合語に対応する被詳細化箇所のいずれについても０行（同じ行）以内に「変更不可」に対応する詳細化箇所が存在しない場合、詳細化不足検出手段１０６は、当該被詳細化箇所を詳細化不足箇所として検出する。入力文書Ｄ２では、被詳細化箇所Ｐ５〜Ｐ９のうち、被詳細化箇所Ｐ５、Ｐ６、Ｐ７は、同じ行に「変更不可」に対応する詳細化箇所が存在するため、詳細化不足箇所ではない。被詳細化箇所Ｐ８「注文ＩＤ」は、同じ行に詳細化箇所である「変更不可」に対応する詳細化箇所が存在せず、且つ被詳細化箇所Ｐ８以外に「注文ＩＤ」に対応する詳細化箇所が存在しないため、詳細化不足箇所である。被詳細化箇所Ｐ９は、同じ行に「変更不可」に対応する詳細化箇所が存在しないが、「店舗ＩＤ」に対応する被詳細化箇所Ｐ７は詳細化不足箇所でないため、被詳細化箇所Ｐ９は詳細化不足箇所ではない。

以上説明したように、本実施形態の文書データ処理装置によれば、１つの被詳細化表現を指定して、その被詳細化表現を含む複数の被詳細化表現のバリエーションのそれぞれについて、詳細化不足箇所を検出することができる。従って、本実施形態の文書データ処理装置によれば、第１の実施形態における効果に加えて、被詳細化表現の個々のバリエーションを登録することなく、詳細化不足箇所を適切に絞り込むことができるという効果がある。
（第３の実施形態）
次に、上述した第２の実施形態を基本とする第３の実施形態について説明する。以下の説明において、第２の実施形態と同等の構成要素には同じ符号を付し、適宜説明を省略する。

本実施形態における構成について説明する。

本実施形態における文書データ処理装置の構成は、第２の実施形態における文書データ処理装置１０の構成と同じである。

次に、本実施形態における動作について説明する。

詳細化表現データベース１０２は、第２の実施形態と同じ被詳細化テーブルＴ３を予め記憶する。

本実施形態では、共起有無チェック手段１０４及び共起範囲設定手段１０５は、被詳細化表現から見た詳細化表現の方向を区別して適正共起範囲を決定する。

図９は、本発明の第３に実施形態における入力文書Ｄ３の具体例を説明するための図である。入力文書Ｄ３は、「項目」欄Ｃ１１の値である「ユーザＩＤ」、「商品ＩＤ」、「店舗ＩＤ」、「注文ＩＤ」ごとに、「属性」欄Ｃ１０の値、及び「備考」欄Ｃ１２の値が記述された表を含む文書である。項目「ユーザＩＤ」、「商品ＩＤ」、「店舗ＩＤ」の「属性」の値は、「重複不可」及び「変更不可」である。項目「注文ＩＤ」の「属性」の値は、「重複不可」である。項目「ユーザＩＤ」、「商品ＩＤ」、「店舗ＩＤ」の「備考」の値は、空欄である。項目「注文ＩＤ」の「備考」の値は、「商品が変更されても商品ＩＤは変更不可」である。

入力文書Ｄ３は、被詳細化表現Ｃ７である「ＩＤ」を含む複合語である、「ユーザＩＤ」、「商品ＩＤ」、「店舗ＩＤ」、「注文ＩＤ」を「項目」欄Ｃ１１列の値として含む。
被詳細化表現Ｃ７である「ＩＤ」には、被詳細化テーブルＴ３において、詳細化表現Ｃ８である「変更不可」が関連付けられている。

単語抽出手段１０３は、被詳細化テーブルＴ３に記憶された被詳細化表現Ｃ７「ＩＤ」、詳細化表現Ｃ８「変更不可」のそれぞれに対応する被詳細化箇所、詳細化箇所を入力文書Ｄ３から検出する（図２のステップＳ１０２）。尚、単語抽出手段１０３は、入力文書Ｄ３には被詳細化表現Ｃ７「ＩＤ」を含む複合語について「ユーザＩＤ」、「商品ＩＤ」、「店舗ＩＤ」、「注文ＩＤ」が存在するため、それぞれの複合語全体を被詳細化箇所として検出する。即ち、単語抽出手段１０３は、入力文書Ｄ３において、「ユーザＩＤ」に対応する被詳細化箇所である「項目」欄Ｃ１１の２行目を検出する。また、単語抽出手段１０３は、入力文書Ｄ３において、「商品ＩＤ」に対応する被詳細化箇所である「項目」欄Ｃ１１の３行目及び「備考」欄Ｃ１２の５行目を検出する。また、単語抽出手段１０３は、入力文書Ｄ３において、「店舗ＩＤ」に対応する被詳細化箇所である「項目」欄Ｃ１１の４行目、「注文ＩＤ」に対応する被詳細化箇所である「項目」欄Ｃ１１の５行目を検出する。
また、単語抽出手段１０３は、入力文書Ｄ３において、「変更不可」に対応する詳細化箇所である「属性」欄Ｃ１０の２、３、４行目を検出する。

そこで、共起有無チェック手段１０４は、入力文書Ｄ３において、「ＩＤ」に対応する被詳細化箇所と「変更不可」に対応する詳細化箇所との対ごとに、被詳細化箇所と詳細化箇所との最小共起距離を算出する（図２のステップＳ１０３）。尚、「変更不可」に対応する詳細化箇所が複数ある場合には、共起有無チェック手段１０４は、被詳細化箇所と、被詳細化箇所に最も近い詳細化箇所との距離を最小共起距離として算出する。但し、共起有無チェック手段１０４は、被詳細化表現から見た詳細化表現の方向を区別する。つまり、共起有無チェック手段１０４は、「ユーザＩＤ」、「商品ＩＤ」、「店舗ＩＤ」のそれぞれに対応する被詳細化箇所に対して、「変更不可」に対応する詳細化箇所を検出する。その詳細化箇所は、最小共起距離０行（同じ行）の被詳細化箇所が含まれる列Ｃ１１の左側の列である列Ｃ１０において検出される。また、共起有無チェック手段１０４は、「注文ＩＤ」に対応する被詳細化箇所に対して、「変更不可」に対応する詳細化箇所を検出する。その詳細化箇所は、最小共起距離０行（同じ行）の被詳細化箇所が含まれる列Ｃ１１の右側の列である列Ｃ１２において検出される。

共起範囲設定手段１０５は、共起有無チェック手段１０４により算出された、「ＩＤ」に対応する被詳細化箇所と「変更不可」に対応する詳細化箇所との最小共起距離に基づいて、適正共起範囲を決定する（図２のステップＳ１０４）。但し、共起範囲設定手段１０５は、最小共起距離に加えて、被詳細化箇所に対して詳細化箇所が共起する方向も区別して適正共起範囲を決定する。つまり、入力文書Ｄ３では、被詳細化表現Ｃ７「ＩＤ」と詳細化表現Ｃ８「変更不可」との最小共起距離の分布において、最小共起距離が０行（同じ行）で左側にある出現頻度が３回、最小共起距離が０行（同じ行）で右側にある出現頻度が１回である。そこで、共起範囲設定手段１０５は、被詳細化表現Ｃ７「ＩＤ」と詳細化表現Ｃ８「変更不可」との適正共起範囲として、最小共起距離が「左側に０行」であるものと決定する。

詳細化不足検出手段１０６は、共起範囲設定手段１０５によって決定された適正共起範囲と、詳細化不足検出ルールとに基づいて、詳細化不足箇所を検出する（図２のステップＳ１０５）。但し、適正共起範囲において、被詳細化箇所に対して詳細化箇所が共起する方向も区別される。詳細化不足検出ルールが「各被詳細化箇所について適正共起範囲内に詳細化箇所が共起しなければ詳細化不足であると判定する」ルールである場合について説明する。この場合、詳細化不足検出手段１０６は、「ＩＤ」に対応する被詳細化箇所に対して「変更不可」に対応する詳細化箇所が左側にあり、０行以内に共起している場合に詳細化不足ではないと判定する。即ち、詳細化不足検出手段１０６は、入力文書Ｄ３において、「ユーザＩＤ」、「商品ＩＤ」、「店舗ＩＤ」に対応する被詳細化箇所については詳細化不足ではない判定する。一方、詳細化不足検出手段１０６は、入力文書Ｄ３において、「注文ＩＤ」に対応する被詳細化箇所については、詳細化不足であると判定する。

以上説明したように、本実施形態の文書データ処理装置によれば、被詳細化箇所に対する詳細化箇所の共起位置の方向を区別して、詳細化不足箇所を検出することができる。従って、本実施形態の文書データ処理装置によれば、第２の実施形態における効果に加えて、被詳細化表現のバリエーションを増やすことなく、詳細化不足箇所を適切に絞り込むことができるという効果がある。
（第４の実施形態）
次に、上述した各実施形態及び変形例に共通する概念を表す第４の実施形態について説明する。

図１０は、本発明の第４の実施形態における文書データ処理装置１１の構成の一例を示すブロック図である。

文書データ処理装置１１は、共起有無チェック手段１１４、共起範囲設定手段１１５、及び詳細化不足検出手段１１６を有する。

まず、共起有無チェック手段１１４は、入力文書において、所定の主題に関する文字列（被詳細化表現）について、被詳細化表現の最も近くにある、所定の主題に関連して記述されるべき所定の事項に関する文字列（詳細化表現）との距離の分布（最小共起距離の分布）を記憶する。

次に、共起範囲設定手段１１５は、共起有無チェック手段１１４によって記憶された最小共起距離の分布に基づいて、入力文書において、被詳細化表現と詳細化表現との適正共起範囲を決定する。

そして、詳細化不足検出手段１１６は、入力文書において、共起範囲設定手段１１５によって決定された適正共起範囲に、詳細化表現が存在しない場合に、所定の主題に関連して記述されるべき所定の事項が適切な範囲内に記述されていないことを検出する。

以上、説明したように、本実施形態の文書データ処理装置１１によれば、文書において、所定の主題に関する表現（被詳細化表現）が存在するときに、所定の主題に関連して記述されるべき所定の事項に関する表現（詳細化表現）が適切な範囲内に記述されているか否かを判定することができる。
（第５の実施形態）
次に、上述した各実施形態及び変形例に共通する概念を表す第５の実施形態について説明する。

図１１は、本発明の第５の実施形態における文書データ処理装置１２の構成の一例を示すブロック図である。

文書データ処理装置１２は、与えられた最小共起距離の分布に基づいて、入力文書において、所定の主題に関連して記述されるべき所定の事項に関する表現（詳細化表現）が適切な範囲内に記述されているか否かを判定する。尚、最小共起距離の分布は、文書において、所定の主題に関する文字列（被詳細化表現）について、被詳細化表現の最も近くにある、詳細化表現との距離の分布である。

最小共起距離の分布は、例えば、第４の実施形態における共起有無チェック手段１１４を有する文書データ分析装置１３が基準文書を分析することにより出力される。尚、基準文書は、被詳細化表現、及び詳細化表現が入力文書と共通する文書である。

文書データ処理装置１２は、共起範囲設定手段１２５、及び詳細化不足検出手段１２６を有する。

まず、共起範囲設定手段１２５は、与えられた最小共起距離の分布に基づいて、入力文書において、被詳細化表現と詳細化表現との適正共起範囲を決定する。尚、適正共起範囲は、例えば、被詳細化箇所からの距離が、０以上、且つ最小共起距離の分布において出現頻度が最も大きい距離以下の範囲である。あるいは、適正共起範囲は、例えば、被詳細化箇所からの距離が、最小共起距離の分布において出現頻度が最も大きい距離に等しい範囲である。

次に、詳細化不足検出手段１２６は、入力文書において、共起範囲設定手段１２５によって決定された適正共起範囲に、詳細化表現が存在しない場合に、所定の主題に関連して記述されるべき所定の事項が適切な範囲内に記述されていないことを検出する。

以上、説明したように、本実施形態の文書データ処理装置１２によれば、文書において、所定の主題に関する表現（被詳細化表現）が存在するときに、所定の主題に関連して記述されるべき所定の事項に関する表現（詳細化表現）が適切な範囲内に記述されているか否かを判定することができる。

また、本実施形態の文書データ処理装置１２は、入力文書とは別の基準文書を分析して得られた最小共起距離の分布を利用することができる。もちろん、基準文書は、入力文書と同一の文書であってもよい。従って、本実施形態の文書データ処理装置１２によれば、詳細化表現が適切な範囲内に記述されているか否かを判定するために、入力文書に比べてより好適な基準文書における最小共起距離の分布を利用することができる。尚、基準文書における最小共起距離の分布が一旦作成されれば、最小共起距離の分布は何度でも利用可能である。そのため、入力文書に対してその都度、最小共起距離の分布を算出し適正共起範囲を決定する工程が不要になる。

尚、上述した各実施形態における文書データ処理装置は、専用の装置によって実現してもよいが、コンピュータ（情報処理装置）によっても実現可能である。
この場合において、図１、図１０および図１１に示した各手段のうち、少なくとも単語抽出手段１０３、共起有無チェック手段１０４、共起範囲設定手段１０５、詳細化不足検出手段１０６、共起有無チェック手段１１４、共起範囲設定手段１１５、詳細化不足検出手段１１６、共起範囲設定手段１２５、詳細化不足検出手段１２６は、ソフトウェア・プログラムの機能（処理）単位（ソフトウェアモジュール）と捉えることができる。これらの機能（処理）を実現可能なハードウェア環境の一例を、図１２を参照して説明する。但し、これらの図面に示した各手段の区分けは、説明の便宜上の構成であり、実装に際しては、様々な構成が想定され得る。
図１２は、本発明の実施形態に係る文書データ処理装置１０（１１、１２）を実行可能な情報処理装置１０００（コンピュータ）の構成を例示的に説明する図である。
図１２に示した情報処理装置１０００は、以下の構成がバス３００８（通信線）を介して接続された一般的なコンピュータである。
・ＣＰＵ（Ｃｅｎｔｒａｌ＿Ｐｒｏｃｅｓｓｉｎｇ＿Ｕｎｉｔ）３００１、
・ＲＯＭ（Ｒｅａｄ＿Ｏｎｌｙ＿Ｍｅｍｏｒｙ）３００２、
・ＲＡＭ（Ｒａｎｄｏｍ＿Ａｃｃｅｓｓ＿Ｍｅｍｏｒｙ）３００３、
・記憶装置３００４、
・入出力ユーザインタフェース（Ｉｎｔｅｒｆａｃｅ：以降、「Ｉ／Ｆ」と称する）３００５、
・外部装置や外部ネットワークとの通信Ｉ／Ｆ３００６、
・記録媒体３０１０が記録する情報を読み取るドライブ装置３００９。
そして、上述したハードウェア環境において、上述した実施形態は、以下の手順によって達成される。即ち、図１２に示した情報処理装置１０００に対して、その実施形態の説明において参照したブロック構成図（図１、図１０および図１１）、或いはフローチャート（図２）の機能を実現可能なコンピュータ・プログラムを記録した記録媒体３０１０を、ドライブ装置３００９が読み取ることにより供給される。このほか、通信Ｉ／Ｆ３００６を介して当該コンピュータ・プログラムをダウンロードすることも情報処理装置１０００が読み取ることに含まれる。その後、そのコンピュータ・プログラムは、当該ハードウェアのＣＰＵ３００１に読み出されて解釈され、ＣＰＵ３００１において実行される。また、当該装置内に供給されたコンピュータ・プログラムは、読み書き可能な揮発性の記憶メモリ（ＲＡＭ３００３）または記憶装置３００４等の不揮発性の記憶デバイスに格納すればよい。
そして、このような場合、係るソフトウェア・プログラム（コンピュータ・プログラム）は、本発明を構成すると捉えることができる。更に、係るソフトウェア・プログラムを格納した、コンピュータ読み取り可能な記憶媒体も、本発明を構成すると捉えることができる。

以上、本発明を、上述した各実施形態およびその変形例によって例示的に説明した。しかしながら、本発明の技術的範囲は、上述した各実施形態およびその変形例に記載した範囲には限定されない。当業者には、係る実施形態に対して多様な変更又は改良を加えることが可能であることは明らかである。そのような場合、係る変更又は改良を加えた新たな実施形態も、本発明の技術的範囲に含まれ得る。そしてこのことは、請求の範囲に記載した事項から明らかである。

上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
第１の文書における、所定の主題に関する所定の第１の表現の出現位置と、前記主題に関連して記述されるべき所定の事項に関する所定の第２の表現の出現位置との最短距離の分布に基づいて、前記第１の文書と同じ文書か又は別の文書である第２の文書における、前記第１の表現の出現位置に対して前記第２の表現が出現すべき位置の第１の範囲を決定する共起範囲設定手段と、
前記第２の文書において、前記第２の表現が前記第１の範囲に出現しない場合に、前記主題に関連して記述されるべき前記所定の事項が適切な範囲内に記述されていないことを検出する詳細化不足検出手段とを備える
ことを特徴とする文書データ処理装置。
（付記２）
前記最短距離は、前記第１の表現の出現位置の前後にある、前記第２の表現の出現位置のうち、前記第１の表現の出現位置に最も近い前記第２の表現の出現位置との距離であることを特徴とする付記１に記載の文書データ処理装置。
（付記３）
前記第１の文書における、前記分布を記録する共起有無チェック手段を更に備える
ことを特徴とする付記１又は付記２に記載の文書データ処理装置。
（付記４）
前記第２の文書における、前記第１の表現の出現位置と、前記第２の表現の出現位置とを検出する単語抽出手段と、
前記第１の表現と前記第２の表現とを関連付けて記憶する詳細化表現データベースと
を更に備える
ことを特徴とする付記１乃至付記３のいずれか１項に記載の文書データ処理装置。
（付記５）
前記第１の範囲は、前記分布において出現頻度が最も多い最短距離、又は前記出現頻度が最も多い最短距離が複数存在する場合には前記出現頻度が最も多い最短距離の最大値、最小値、若しくは平均値を含む
ことを特徴とする付記１乃至付記４の何れか１項に記載の文書データ処理装置。
（付記６）
前記詳細化不足検出手段は、前記第２の文書において前記第１の表現を含む複合語が出現する場合、前記複合語に対応する前記第１の範囲のいずれにおいても前記第２の表現が出現しない場合に、前記複合語により限定される前記主題に関連して記述されるべき前記事項が適切な範囲内に記述されていないことを検出する
ことを特徴とする付記１乃至付記５の何れかに記載の文書データ処理装置。
（付記７）
前記分布は、前記第２の表現の出現位置と前記第１の表現の出現位置との距離の情報に加えて、前記第２の表現の出現位置の前記第１の表現の出現位置からみた方向の情報を更に含み、
前記共起範囲設定手段は、前記分布に含まれる距離及び方向の情報に基づいて前記第１の範囲を決定する
ことを特徴とする付記１乃至付記６の何れかに記載の文書データ処理装置。
（付記８）
前記詳細化不足検出手段は、前記第２の文書において、所定の第３の表現と前記第１の表現とが所定の第２の範囲に出現し、且つ前記第２の表現が前記第１の範囲に出現しない場合に前記主題に関連して記述されるべき前記所定の事項が適切な範囲内に記述されていないことを検出する
ことを特徴とする付記１乃至付記７の何れかに記載の文書データ処理装置。
（付記９）
前記共起範囲設定手段は、前記第２の文書において、前記第１の表現の第１の同義語又は前記第２の表現の第２の同義語の出現を、それぞれ前記第１の表現又は前記第２の表現の出現とみなすことを特徴とする付記１乃至付記８の何れかに記載の文書データ処理装置。
（付記１０）
前記第１の表現について前記主題に関連して記述されるべき前記所定の事項が適切な範囲内に記述されているか否かをユーザが識別できる態様で、前記各第１の表現を出力する出力手段を更に備える
ことを特徴とする付記１乃至付記９の何れかに記載の文書データ処理装置。
（付記１１）
第１の文書における、所定の主題に関する所定の第１の表現の出現位置と、前記主題に関連して記述されるべき所定の事項に関する所定の第２の表現の出現位置との最短距離の分布に基づいて、前記第１の文書と同じ文書か又は別の文書である第２の文書における、前記第１の表現の出現位置に対して前記第２の表現が出現すべき位置の第１の範囲を決定し、
前記第２の文書において、前記第２の表現が前記第１の範囲に出現しない場合に、前記主題に関連して記述されるべき前記所定の事項が適切な範囲内に記述されていないことを検出する
ことを特徴とする文書データ処理方法。
（付記１２）
第１の文書における、所定の主題に関する所定の第１の表現の出現位置と、前記主題に関連して記述されるべき所定の事項に関する所定の第２の表現の出現位置との最短距離の分布に基づいて、前記第１の文書と同じ文書か又は別の文書である第２の文書における、前記第１の表現の出現位置に対して前記第２の表現が出現すべき位置の第１の範囲を決定する共起範囲設定処理と、
前記第２の文書において、前記第２の表現が前記第１の範囲に出現しない場合に、前記主題に関連して記述されるべき前記所定の事項が適切な範囲内に記述されていないことを検出する詳細化不足検出処理
とをコンピュータに実行させることを特徴とする文書データ処理プログラム。
以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。
この出願は２０１４年６月１８日に出願された日本出願特願２０１４−１２４８５０を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１０文書データ処理装置
１０１文書入力手段
１０２詳細化表現データベース
１０３単語抽出手段
１０４共起有無チェック手段
１０５共起範囲設定手段
１０６詳細化不足検出手段
１０７出力手段
１１文書データ処理装置
１１４共起有無チェック手段
１１５共起範囲設定手段
１１６詳細化不足検出手段
１２文書データ処理装置
１３文書データ分析装置
１２５共起範囲設定手段
１２６詳細化不足検出手段

Claims

所定の主題に関する被詳細化表現と前記主題に関連して記述されるべき事項を示す詳細化表現とを関連付けて記憶する詳細化表現記憶部と、
第１の文書における、前記詳細化表現記憶部から抽出される前記被詳細化表現の出現位置と、前記詳細化表現の出現位置との最短距離の分布に基づいて、前記第１の文書と同じ文書か又は別の文書である第２の文書における、前記被詳細化表現の出現位置に対して前記詳細化表現が出現すべき位置の第１の範囲を決定する共起範囲設定手段と、
前記第２の文書において、前記詳細化表現が前記第１の範囲に出現しない場合に、前記詳細化表現が適切な範囲内に記述されていないことを検出する詳細化不足検出手段とを備える
ことを特徴とする文書データ処理装置。
前記最短距離は、前記被詳細化表現の出現位置の前後にある、前記詳細化表現の出現位置のうち、前記被詳細化表現の出現位置に最も近い前記詳細化表現の出現位置との距離であることを特徴とする請求項１に記載の文書データ処理装置。
前記第１の文書における、前記分布を記録する共起有無チェック手段
を更に備えることを特徴とする請求項１又は請求項２に記載の文書データ処理装置。
前記第２の文書における、前記被詳細化表現の出現位置と、前記詳細化表現の出現位置とを検出する単語抽出手段
を更に備えることを特徴とする請求項１乃至請求項３の何れか１項に記載の文書データ処理装置。
前記第１の範囲は、前記分布において出現頻度が最も多い最短距離、又は前記出現頻度が最も多い最短距離が複数存在する場合には前記出現頻度が最も多い最短距離の最大値、最小値、若しくは平均値を含む
ことを特徴とする請求項１乃至請求項４の何れか１項に記載の文書データ処理装置。
前記詳細化不足検出手段は、前記第２の文書において前記被詳細化表現を含む複合語が出現する場合、前記複合語に対応する前記第１の範囲のいずれにおいても前記詳細化表現が出現しない場合に、前記複合語により限定される前記詳細化表現が適切な範囲内に記述されていないことを検出する
ことを特徴とする請求項１乃至請求項５の何れか１項に記載の文書データ処理装置。
前記分布は、前記詳細化表現の出現位置と前記被詳細化表現の出現位置との距離の情報に加えて、前記第２の表現の出現位置の前記被詳細化表現の出現位置からみた方向の情報を更に含み、
前記共起範囲設定手段は、前記分布に含まれる距離及び方向の情報に基づいて前記第１の範囲を決定する
ことを特徴とする請求項１乃至請求項６の何れか１項に記載の文書データ処理装置。
前記詳細化表現記憶部は、前記被詳細化表現と前記詳細化表現とが共起すべき状況を限定する条件を示す状況限定表現を更に格納し、
前記詳細化不足検出手段は、前記第２の文書において、前記詳細化表現記憶部から抽出される前記状況限定表現と前記被詳細化表現とが所定の第２の範囲に出現し、且つ前記詳細化表現が前記第１の範囲に出現しない場合に前記詳細化表現が適切な範囲内に記述されていないことを検出する
ことを特徴とする請求項１乃至請求項７の何れか１項に記載の文書データ処理装置。
第１の文書における、所定の主題に関する被詳細化表現と前記主題に関連して記述されるべき事項を示す詳細化表現とを関連付けて記憶する詳細化表現記憶部から抽出される前記被詳細化表現の出現位置と、前記詳細化表現の出現位置との最短距離の分布に基づいて、前記第１の文書と同じ文書か又は別の文書である第２の文書における、前記被詳細化表現の出現位置に対して前記詳細化表現が出現すべき位置の第１の範囲を決定し、
前記第２の文書において、前記詳細化表現が前記第１の範囲に出現しない場合に、前記詳細化表現が適切な範囲内に記述されていないことを検出する
ことを特徴とする文書データ処理方法。
第１の文書における、所定の主題に関する被詳細化表現と前記主題に関連して記述されるべき事項を示す詳細化表現とを関連付けて記憶する詳細化表現記憶部から抽出される前記被詳細化表現の出現位置と、前記詳細化表現の出現位置との最短距離の分布に基づいて、前記第１の文書と同じ文書か又は別の文書である第２の文書における、前記被詳細化表現の出現位置に対して前記詳細化表現が出現すべき位置の第１の範囲を決定する共起範囲設定処理と、
前記第２の文書において、前記詳細化表現が前記第１の範囲に出現しない場合に、前記詳細化表現が適切な範囲内に記述されていないことを検出する詳細化不足検出処理
とをコンピュータに実行させることを特徴とする文書データ処理プログラム。