JP6677158B2 - 文書データ処理装置、文書データ処理方法、及び文書データ処理プログラム - Google Patents

文書データ処理装置、文書データ処理方法、及び文書データ処理プログラム Download PDF

Info

Publication number
JP6677158B2
JP6677158B2 JP2016529029A JP2016529029A JP6677158B2 JP 6677158 B2 JP6677158 B2 JP 6677158B2 JP 2016529029 A JP2016529029 A JP 2016529029A JP 2016529029 A JP2016529029 A JP 2016529029A JP 6677158 B2 JP6677158 B2 JP 6677158B2
Authority
JP
Japan
Prior art keywords
document
detailed
expression
occurrence
range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016529029A
Other languages
English (en)
Other versions
JPWO2015194140A1 (ja
Inventor
綾子 久野
綾子 久野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2015194140A1 publication Critical patent/JPWO2015194140A1/ja
Application granted granted Critical
Publication of JP6677158B2 publication Critical patent/JP6677158B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

本発明は、文書の記載事項が十分か否かを評価する文書データ処理装置、文書データ処理方法、及び記録媒体に関する。
近年、自然言語等によって記述された入力文書を、情報処理装置等を用いて分析することで、その入力文書において記述不足が発生した箇所を検出するシステムが開発されている。
記述不足になりがちな表現を入力文書の中から検出する技術の一例が、特許文献1に開示されている。
特許文献1の文書データ処理装置は、入力手段と、記憶手段と、検索手段と、出力手段とを備える。
特許文献1の文書データ処理装置は、まず、入力手段によって処理対象である文書データ(入力文書)を入力する。
特許文献1の文書データ処理装置は、次に、記憶手段に記憶される予め定められた表現(以下、「適合表現」と称す。)を、検索手段によって入力文書の中から検索する。
適合表現が入力文書中に存在する場合、特許文献1の文書データ処理装置は、記憶手段に記憶された、適合表現と関連付けられるメッセージを読み出し、出力手段によってそのメッセージを出力する。
即ち、特許文献1の文書データ処理装置は、記述不足になりがちな表現を適合表現として予め記憶手段に記憶することで、記述不足になりがちな表現を入力文書の中から検出する。
ある表現に対して係り受け関係にあるべき別の表現の欠落を入力文書の中から検出する技術の一例が、特許文献2に開示されている。
特許文献2のデータ処理装置は、入力手段と、構文解析手段と、記憶手段と、判定手段と、出力手段とを備える。
特許文献2のデータ処理装置は、まず、入力手段によって文書データを入力する。
特許文献2のデータ処理装置は、次に、構文解析手段によって文書データの構文解析を実行する。
特許文献2のデータ処理装置は、続いて、判定手段によって構文解析の結果である構文木において最も基底の単一の要素が欠損しているか否かを判定する。そして、特許文献2のデータ処理装置は、判定手段によって、その判定結果に基づいて、文書データにおいて文法上の“文”として成立するための文節の記述が不足しているか否かを判定する。
また、特許文献2のデータ処理装置は、記憶手段によって、係り受け関係にあるべき表現の対応関係を予め記憶する。
特許文献2のデータ処理装置は、続いて、係り受け関係にあるべき表現の一方が文書データ中に記述される場合に、係り受け関係にあるべき他方の表現が、文書データにおいて実際に係り受け関係にあるか否かを判定する。
特許文献2のデータ処理装置は、続いて、出力手段によって、係り受け関係にあるべき表現が存在するか否かの判定結果を出力する。
ある単語に関連して記述されるべき別の単語の欠落を入力文書の中から検出する技術の一例が、特許文献3に開示されている。
特許文献3のデータ処理装置は、記憶手段と、入力手段と、判定手段と、出力手段とを備える。
特許文献3のデータ処理装置は、予め、記憶手段によって、第1の単語が登録されたテキストマイニング辞書テーブルと、第1の単語に関連して記述されるべき第2の単語が登録された関連情報テーブルとを保持する。
特許文献3のデータ処理装置は、まず、入力手段によって文書データを入力する。
特許文献3のデータ処理装置は、次に、判定手段によって、第1の単語が入力文書中に存在するか否かを判定する。第1の単語が入力文書に存在する場合、特許文献3のデータ処理装置は、判定手段によって、第2の単語が入力文書中に存在するか否かを判定する。第1の単語が入力文書に存在し、且つ第2の単語が入力文書に存在しない場合には、特許文献3のデータ処理装置は、判定手段によって、入力文書において第2の単語を含む記述が不足していると判定する。
特許文献3のデータ処理装置は、続いて、出力手段によって判定結果を出力する。
特開2008−033887号公報 特許第5095128号公報 特開2007−310829号公報
特許文献1の文書データ処理装置は、記述不足になりがちな表現の有無を判定するが、入力文書において実際に記述不足が存在するか否かの判定を行わない。即ち、特許文献1の文書データ処理装置には、入力文書において実際に記述不足が存在するか否かを判定することができないという問題がある。
特許文献2のデータ処理装置は、入力した文書データにおいて、構文上の欠損がある場合、または記憶手段に予め登録された表現と係り受け関係にあるべき表現が欠損している場合に、記述不足が存在すると判定する。このため、特許文献2のデータ処理装置は、ある文において係り受け関係にあるべき表現の一方が存在しないが、別の文において係り受け関係にあるべき表現が存在する場合に、記述不足が存在すると判定する。即ち、文をまたがって係り受け関係にあるべき表現が存在する場合は、記述不足ではないと判定すべきであるが、記述不足が存在すると判定してしまう。このように、特許文献2のデータ処理装置には、入力文書中の複数の文を考慮して記述不足の有無を判定することができないという問題がある。
特許文献3のデータ処理装置にも、特許文献2のデータ処理装置と同様の問題がある。
(発明の目的)
本発明の主たる目的は、文書において、所定の主題に関する表現が存在するときに、所定の主題に関連して記述されるべき所定の事項に関する表現が適切な範囲内に記述されているか否かを判定する文書データ処理装置、文書データ処理方法、及び文書データ処理プログラムを提供することにある。
本発明の文書データ処理装置は、第1の文書における、所定の主題に関する所定の第1の表現の出現位置と、主題に関連して記述されるべき所定の事項に関する所定の第2の表現の出現位置との最短距離の分布に基づいて、前記第1の文書と同じ文書か又は別の文書である第2の文書における、第1の表現の出現位置に対して第2の表現が出現すべき位置の第1の範囲を決定する共起範囲設定手段と、第2の文書において、第2の表現が第1の範囲に出現しない場合に、主題に関連して記述されるべき所定の事項が適切な範囲内に記述されていないことを検出する詳細化不足検出手段とを備えることを特徴とする。
本発明の文書データ処理方法は、第1の文書における、所定の主題に関する所定の第1の表現の出現位置と、主題に関連して記述されるべき所定の事項に関する所定の第2の表現の出現位置との最短距離の分布に基づいて、前記第1の文書と同じ文書か又は別の文書である第2の文書における、第1の表現の出現位置に対して第2の表現が出現すべき位置の第1の範囲を決定し、第2の文書において、第2の表現が第1の範囲に出現しない場合に、主題に関連して記述されるべき所定の事項が適切な範囲内に記述されていないことを検出することを特徴とする。
本発明の文書データ処理プログラムは、第1の文書における、所定の主題に関する所定の第1の表現の出現位置と、主題に関連して記述されるべき所定の事項に関する所定の第2の表現の出現位置との最短距離の分布に基づいて、前記第1の文書と同じ文書か又は別の文書である第2の文書における、第1の表現の出現位置に対して第2の表現が出現すべき位置の第1の範囲を決定する共起範囲設定処理と、第2の文書において、第2の表現が第1の範囲に出現しない場合に、主題に関連して記述されるべき所定の事項が適切な範囲内に記述されていないことを検出する詳細化不足検出処理とをコンピュータに実行させることを特徴とする。
本発明によれば、文書において、所定の主題に関する表現が存在するときに、所定の主題に関連して記述されるべき所定の事項に関する表現が適切な範囲内に記述されているか否かを判定することができるという効果がある。
本発明の第1の実施形態における文書データ処理装置10の構成の一例を示すブロック図である。 本発明の第1の実施形態における文書データ処理装置10の動作を示すフローチャートである。 本発明の第1の実施形態における被詳細化テーブルT1の具体例を説明するための図である。 本発明の第1の実施形態における最小共起距離の分布の具体例を説明するための図である。 本発明の第1の実施形態における被詳細化テーブルT2の具体例を説明するための図である。 本発明の第1の実施形態における入力文書D1の具体例を説明するための図である。 本発明の第2の実施形態における被詳細化テーブルT3の具体例を説明するための図である。 本発明の第2の実施形態における入力文書D2の具体例を説明するための図である。 本発明の第3の実施形態における入力文書D3の具体例を説明するための図である。 本発明の第4の実施形態における文書データ処理装置11の構成の一例を示すブロック図である。 本発明の第5の実施形態における文書データ処理装置12の構成の一例を示すブロック図である。 本発明を実現するための情報処理装置の構成の一例を示すブロック図である。
以下、本発明の実施形態について、図面を参照して詳細に説明する。尚、すべての図面において、同等の構成要素には同じ符号を付し、適宜説明を省略する。
はじめに、以下の各実施形態の説明において、共通して使用する用語について説明する。
「入力文書」とは、本発明の各実施形態における文書データ処理装置に、処理対象として入力される文書(文書情報、文書データ)である。
そして、本発明の各実施形態において、「文書(入力文書)」は、例えば、以下に挙げる、文字列、記号、又は表等を含む文書であってよい。
・1つ以上の文(単文、複文、重文等)を含む、特定の言語により記述された文書
・行方向又は列方向に複数の項目が並べられた、表又は帳票(例えば米国マイクロソフト社のエクセル(登録商標)によって作成された帳票シート等)
・上記特定の言語と表又は帳票とが混在する文書(例えば、各種製品の取扱い説明書等)
尚、「文書」は、図、画像を更に含んでもよい。
また、「詳細化」とは、文書において、ある主題について、その主題に関連して説明されるべき事項を記述することである。
「詳細化」に関連して、以下の用語について説明する。
・「被詳細化表現」:関連事項が記述されるべき対象である主題を示す表現
・「詳細化表現」:主題に関連して記述されるべき事項を示す表現
・「状況限定ワード」:「被詳細化表現」と「詳細化表現」とが文書中で共起すべき状況を限定する条件を示す表現
尚、上記の「被詳細化表現」、「詳細化表現」および「状況限定ワード」の各々の「表現」は、例えば、名詞又は名詞の一部である。しかしながら、「表現」は、名詞又は名詞の一部に限定されず、文字(文字列)、記号(記号列)、表、帳票、又は図の何れか、或いは、それらの組み合わせを含んでもよい。
また、文書中の「被詳細化表現」に対応する、少なくとも1つの「詳細化表現」が欠落していることを「詳細化不足」という。
また、「被詳細化表現」と「詳細化表現」との一つの対に対して、複数の「状況限定ワード」が関連付けられてもよい。
(第1の実施形態)
本実施形態における構成について説明する。
図1は、本発明の第1の実施形態における文書データ処理装置10の構成の一例を示すブロック図である。
文書データ処理装置10は、文書入力手段101、詳細化表現データベース102、単語抽出手段103、共起有無チェック手段104、共起範囲設定手段105、詳細化不足検出手段106、及び出力手段107を有する。
文書入力手段101は、詳細化不足の検出対象である文書(即ち、入力文書)を文書データ処理装置10に入力する。
詳細化表現データベース102は、少なくとも、被詳細化表現を詳細化表現と関連付けたデータから成る「被詳細化テーブル」を予め記憶する。尚、被詳細化テーブルは、被詳細化表現と詳細化表現との対に関連付けられた状況限定ワードをさらに含んでもよい。また、詳細化表現データベース102は、被詳細化表現又は詳細化表現の同義語等をさらに予め記憶することにより、同義語等を被詳細化表現又は詳細化表現と同一であるものとして扱ってもよい。
単語抽出手段103は、入力文書の中から、詳細化表現データベース102に予め記憶される被詳細化表現、詳細化表現、及び状況限定ワードのそれぞれと一致する文字列を検索する。そして、単語抽出手段103は、検索された、被詳細化表現、詳細化表現、及び状況限定ワードのそれぞれと一致する文字列の位置を、記憶デバイス(不図示)に記録する。文字列の位置は、ファイル名、ページ番号、行番号、文番号、セル座標(セル番号)、又は文字番号などを用いて特定される。
以降、被詳細化表現と一致する文書中の個々の文字列の位置を「被詳細化箇所」、詳細化表現と一致する文書中の個々の文字列の位置を「詳細化箇所」、状況限定ワードと一致する文書中の個々の文字列の位置を「状況限定箇所」と言う。尚、被詳細化箇所、詳細化箇所、状況限定箇所のそれぞれは、対応する文字列が同じであっても、文書中の位置が異なれば、別の被詳細化箇所、詳細化箇所、状況限定箇所として扱われる。
単語抽出手段103は、被詳細化表現又は詳細化表現として登録された文字列が、入力文書内において複合語の一部である場合、その複合語全体を、被詳細化表現又は詳細化表現として発見したものとみなしてもよい。例えば、詳細化表現データベースに「ID」という文字列が被詳細化表現として登録されている場合、単語抽出手段103は、入力文書の中の「ID」を含む「ユーザID」、「商品ID」等の複合語を発見した被詳細化表現とみなしてもよい。
共起有無チェック手段104は、被詳細化表現と詳細化表現の「最小共起距離」を被詳細化箇所と詳細化箇所の位置情報に基づいて算出する。ここで、「最小共起距離」とは、被詳細化表現とそれに対応する詳細化表現との間の距離である。即ち、最小共起距離とは、被詳細化箇所の前後にある、詳細化箇所のうち、最も距離が近い詳細化箇所との「距離」である。ここで、「距離」は、二つの表現間の文字数、行数、文番号の差、ページ数など、文書内での二つの表現の距離を数値で表せるものであればよい。なお、詳細化表現データベース102に状況限定ワードが登録されている場合には、共起有無チェック手段104は、被詳細化箇所と状況限定箇所との最小共起距離も算出する。
共起範囲設定手段105は、共起有無チェック手段104により算出された最小共起距離に基づいて、各被詳細化箇所の、被詳細化表現と詳細化表現との「適正共起範囲」を決定する。ここで、「適正共起範囲」とは、被詳細化表現に対して詳細化表現が出現すべき位置の範囲である。
共起範囲設定手段105は、例えば、被詳細化表現と詳細化表現との対ごとに最小共起距離の出現頻度をヒストグラム化した場合に出現頻度が最も多い最小共起距離を、被詳細化表現と詳細化表現との対ごとの適正共起範囲として決定する。あるいは、共起範囲設定手段105は、各詳細化箇所の被詳細化箇所に対する距離の分布に基づいて、被詳細化表現と詳細化表現との対ごとの適正共起範囲を決定してもよい。尚、被詳細化表現に対し、詳細化表現が一度も出現しない場合には、共起範囲設定手段105は、適正共起範囲として「なし」を決定する。また、出現頻度が最も多い最小共起距離が複数ある場合には、共起範囲設定手段105は、適正共起範囲として、最小の最小共起距離、最大の最小共起距離、または最小共起距離の平均値等を決定してもよい。なお、適正共起範囲が広く設定されるほど、詳細化不足と判定される被詳細化箇所が少なくなる。
詳細化不足検出手段106は、被詳細化表現と詳細化表現との対ごとに、共起範囲設定手段105によって決定された適正共起範囲と「詳細化不足検出ルール」とに基づいて、詳細化不足が発生した被詳細化箇所(以下、「詳細化不足箇所」と言う。)を検出する。
「詳細化不足検出ルール」とは、適正共起範囲内に被詳細化箇所と詳細化箇所がどのような条件で共起すれば、詳細化不足ではないと(または、詳細化不足であると)判定するかを定めたルールである。詳細化不足検出ルールは、例えば、各被詳細化箇所について適正共起範囲内に詳細化箇所が共起しなければ詳細化不足であると判定するというルールである。
尚、適正共起範囲が「なし」に設定された場合には、詳細化不足検出手段106は、例えば、該当する被詳細化表現と詳細化表現との対に対応する被詳細化箇所のすべてにおいて詳細化不足であるものとみなす。
また、詳細化不足検出手段106が被詳細化表現を含む複合語を被詳細化表現のバリエーションとして検出する場合がある。この場合には、詳細化不足検出ルールは、各バリエーションに対応する被詳細化箇所のうち少なくとも1つについて適正共起範囲内に詳細化箇所が共起すれば、当該被詳細化表現のバリエーションは詳細化不足ではないと判定するルールであってもよい。
また、詳細化表現データベース102に状況限定ワードが登録される場合がある。この場合には、詳細化不足検出手段106は、当該被詳細化表現に対応する被詳細化箇所と状況限定箇所が予め定められた共起範囲内に共起した場合に、詳細化不足箇所の検出を行う。あるいは、詳細化不足検出手段106は、共起範囲設定手段105により設定された被詳細化表現と詳細化表現の適正共起範囲内に状況限定ワードが共起した場合に、詳細化不足箇所の検出を行う。
出力手段107は、詳細化不足検出手段106によって抽出された詳細化不足箇所を、例えば、ユーザが判別可能な態様によって出力する。出力の態様は、例えば、ユーザが認識可能な一覧表示、外部装置への情報提供等である。または、出力手段107は、詳細化不足箇所であると判定されたか否かをユーザが判別可能な態様で、被詳細化箇所を出力しても良い。例えば、出力手段107は、被詳細化箇所のうち、詳細化不足箇所ではない箇所と、詳細化不足箇所である箇所とで出力における色、フォント、線の太さ等を変えて出力してもよい。
次に、本実施形態における動作について説明する。
図2は、本発明の第1の実施形態における文書データ処理装置10の動作を示すフローチャートである。
文書入力手段101は、詳細化不足検出対象である文書(入力文書)を入力する(ステップS101)。
単語抽出手段103は、入力文書の中から、詳細化表現データベース102に記憶された被詳細化表現、詳細化表現のそれぞれと一致する、被詳細化箇所、詳細化箇所を検出する(ステップS102)。
共起有無チェック手段104は、単語抽出手段103により抽出された被詳細化箇所と詳細化箇所との対ごとに、被詳細化箇所と詳細化箇所との最小共起距離を算出する(ステップS103)。
共起範囲設定手段105は、被詳細化表現と詳細化箇所との対ごとに、被詳細化箇所と詳細化箇所との最小共起距離に基づいて適正共起範囲を決定する(ステップS104)。
詳細化不足検出手段106は、共起範囲設定手段105により決定された適正共起範囲と詳細化不足検出ルールとに基づいて、詳細化不足箇所を検出する(ステップS105)。
出力手段107は、詳細化不足検出手段106により検出された詳細化不足箇所を出力する(ステップS106)。
次に、本発明の第1の実施形態の処理の具体例について説明する。
図3は、本発明の第1の実施形態における被詳細化テーブルT1の具体例を説明するための図である。
詳細化表現データベース102は、被詳細化テーブルT1を記憶する。
図4は、本発明の第1の実施形態における最小共起距離の分布の具体例を説明するための図である。
以下、図3及び図4を用いて、状況限定ワードが指定されない場合の文書データ処理装置10の動作を説明する。
被詳細化テーブルT1は、被詳細化表現C1、詳細化表現C2、及び状況限定ワードC3を記憶することができる。但し、被詳細化テーブルT1では状況限定ワードが指定されていないので、状況限定ワードC3欄は空欄である。詳細化表現データベース102は、少なくとも、被詳細化表現C1と詳細化表現C2とが関連付けられた被詳細化テーブルT1を予め記憶する。
被詳細化テーブルT1において、被詳細化表現C1には「検索システム」が、詳細化表現C2には「パフォーマンス」が記憶されており、状況限定ワードC3は空欄である。
文書入力手段101は、詳細化不足検出対象である文書を入力する(図2のステップS101)。
単語抽出手段103は、被詳細化テーブルT1を参照して、記憶された被詳細化表現C1「検索システム」、詳細化表現C2「パフォーマンス」のそれぞれと一致する被詳細化箇所、詳細化箇所を、入力文書中から検出する(図2のステップS102)。
共起有無チェック手段104は、「検索システム」に対応する被詳細化箇所と「パフォーマンス」に対応する詳細化箇所との対ごとに、被詳細化箇所と詳細化箇所との最小共起距離を算出する(図2のステップS103)。尚、「パフォーマンス」に対応する詳細化箇所が複数ある場合には、共起有無チェック手段104は、被詳細化箇所と、被詳細化箇所に最も近い詳細化箇所との距離を最小共起距離として算出する。
共起範囲設定手段105は、共起有無チェック手段104により算出された、「検索システム」に対応する被詳細化箇所と「パフォーマンス」に対応する詳細化箇所との最小共起距離に基づいて、適正共起範囲を決定する(図2のステップS104)。図4では、被詳細化表現C1「検索システム」と詳細化表現C2「パフォーマンス」との最小共起距離の分布において、最小共起距離が「1行」である頻度が最も多い。出現頻度が最も多い最小共起距離を適正共起範囲として決定する場合には、共起範囲設定手段105は、「1行」を適正共起範囲として決定する。
詳細化不足検出手段106は、共起有無チェック手段104によって決定された適正共起範囲と、詳細化不足検出ルールとに基づいて、詳細化不足箇所を検出する(図2のステップS105)。詳細化不足検出ルールが「各被詳細化箇所について適正共起範囲内に詳細化箇所が共起しなければ詳細化不足であると判定する」ルールである場合について説明する。この場合、詳細化不足検出手段106は、「検索システム」に対応する被詳細化箇所の前後1行以内に「パフォーマンス」に対応する詳細化箇所が存在しない場合、当該被詳細化箇所を詳細化不足箇所として検出する。
出力手段107は、詳細化不足検出手段106によって検出された詳細化不足箇所を出力する(図2のステップS106)。
次に、本発明の第1の実施形態の処理の別の具体例について説明する。
以下、図5及び図6を用いて、状況限定ワードが指定された場合の文書データ処理装置10の動作を説明する。
図5は、本発明の第1の実施形態における被詳細化テーブルT2の具体例を説明するための図である。
被詳細化テーブルT2において、被詳細化表現C4には「csv」が、詳細化表現C5には「文字コード」が、状況限定ワードC6には「入力」及び「出力」が記憶されている。
図6は、第1の実施形態における入力文書D1の具体例を説明するための図である。入力文書D1において、被詳細化表現C4「csv」が位置P1、P2、P3、P4に出現する。なお、入力文書D1において、「(改ページ)」は改ページを示す記号を、「:」及び「(中略)」は文書の一部が省略されていることを示す。
文書入力手段101は、詳細化不足検出対象である入力文書D1を入力する(図2のステップS101)。
単語抽出手段103は、被詳細化テーブルT2を参照して、記憶された被詳細化表現C4「csv」、詳細化表現C5「文字コード」、状況限定ワードC6「入力」及び「出力」のそれぞれと一致する被詳細化箇所、詳細化箇所、状況限定箇所を入力文書D1から検出する(図2のステップS102)。入力文書D1において、被詳細化表現C4「csv」に対応する被詳細化箇所は、被詳細化箇所P1、P2、P3、P4である。
共起有無チェック手段104は、「csv」に対応する被詳細化箇所と「文字コード」に対応する詳細化箇所との対ごとに、被詳細化箇所と詳細化箇所との最小共起距離を算出する(図2のステップS103)。尚、「文字コード」に対応する詳細化箇所が複数ある場合には、共起有無チェック手段104は、被詳細化箇所と、被詳細化箇所に最も近い詳細化箇所との距離を最小共起距離として算出する。
共起範囲設定手段105は、共起有無チェック手段104により算出された、「csv」に対応する被詳細化箇所と「文字コード」に対応する詳細化箇所との最小共起距離に基づいて、適正共起範囲を決定する(図2のステップS104)。被詳細化表現C4「csv」と詳細化表現C5「文字コード」との最小共起距離の分布において、出現頻度が最も多い最小共起距離が「1行」であるものとする。出現頻度が最も多い最小共起距離を適正共起範囲として決定する場合には、共起範囲設定手段105は、「1行」を被詳細化表現C4「csv」と詳細化表現C5「文字コード」との適正共起範囲として決定する。
詳細化不足検出手段106は、共起有無チェック手段104によって決定された適正共起範囲と、詳細化不足検出ルールとに基づいて、詳細化不足箇所を検出する(図2のステップS105)。詳細化不足検出ルールが「各被詳細化箇所について同じページ内に状況限定ワードが共起し、かつ、適正共起範囲内に詳細化箇所が共起しなければ詳細化不足であると判定する」ルールである場合について説明する。この場合、詳細化不足検出手段106は、「csv」に対応する被詳細化箇所の同じページ内に「入力」もしくは「出力」に対応する状況限定箇所が共起し、かつ前後1行以内に「文字コード」に対応する詳細化箇所が存在しない場合、当該被詳細化箇所を詳細化不足箇所として検出する。
被詳細化箇所P1は、同じページ内に「入力」に対応する状況限定箇所が共起し、かつ前後1行以内に「文字コード」に対応する詳細化箇所が共起するため、詳細化不足箇所ではない。被詳細化箇所P2は、同じページ内に「入力」に対応する状況限定箇所が共起し、かつ前後1行以内に「文字コード」に対応する詳細化箇所が共起しないため、詳細化不足箇所である。被詳細化箇所P3は、同じページ内に「出力」に対応する状況限定箇所が共起し、かつ前後1行以内に「文字コード」なる詳細化箇所が共起するため、詳細化不足箇所ではない。被詳細化箇所P4は、同じページ内に「入力」または「出力」に対応する状況限定箇所が共起しないため、詳細化不足箇所ではない。
出力手段107は、詳細化不足検出手段106によって検出された詳細化不足箇所を出力する(図2のステップS106)。
以上説明したように、本実施形態の文書データ処理装置10によれば、文書において所定の主題に関する表現が存在するときに、所定の主題に関連して記述されるべき所定の事項に関する表現が適切な範囲内に記述されているか否かを判定することができる。その理由は、文書データ処理装置10は、被詳細化箇所と詳細化箇所との最小共起距離の分布に基づいて、適正共起範囲を決定し、適正共起範囲において詳細化不足箇所の有無を判定するからである。ここで、所定の主題に関する表現は、被詳細化表現と言い換えることができる。所定の主題に関連して記述されるべき所定の事項に関する表現は、詳細化表現と言い換えることができる。更に、これらが適切な範囲内に記述されているか否かとは、詳細化不足箇所の有無と言い換えることができる。
また、一般に、膨大な文字列や記号列等によって構成される帳票シートやソフトウェア・プログラム等が入力文書である場合には、その入力文書全体に共通する妥当な詳細化不足箇所を検出することは難しい。本実施形態における文書データ処理装置10は、このような膨大な入力文書を、被詳細化箇所と詳細化箇所の最小共起距離の分布に基づいて適正共起範囲を設定することで、被詳細化箇所のうち、適正共起範囲内に詳細化箇所がない場合に詳細化不足箇所が存在するものと判定する。このため、本実施形態の文書データ処理装置10では、被詳細化箇所ごとに異なる適正共起範囲内において詳細化不足箇所の有無を判定することができるという効果がある。
(第2の実施形態)
次に、上述した第1の実施形態を基本とする第2の実施形態について説明する。以下の説明において、第1の実施形態と同等の構成要素には同じ符号を付し、適宜説明を省略する。
本実施形態における構成について説明する。
本実施形態における文書データ処理装置の構成は、第1の実施形態における文書データ処理装置10の構成と同じである。
次に、本実施形態における動作について説明する。
本実施形態では、文書データ処理装置10は、被詳細化表現又は詳細化表現として登録された文字列が、入力文書内において複合語の一部である場合、その複合語全体を、被詳細化表現又は詳細化表現として発見したものとみなす。
次に、本実施形態における処理の具体例について説明する。
図7は、本発明の第2の実施形態における被詳細化テーブルT3の具体例を説明するための図である。
詳細化表現データベース102は、被詳細化テーブルT3を予め記憶する。被詳細化テーブルT3は、被詳細化表現C7には「ID」を、詳細化表現C8には「変更不可」を記憶する。尚、被詳細化テーブルT3では状況限定ワードが指定されていないので、状況限定ワードC9は空欄である。
図8は、本発明の第2の実施形態における入力文書D2の具体例を説明するための図である。入力文書D2において、被詳細化表現C7「ID」が位置P5、P6、P7、P8、P9に出現する。
文書入力手段101は、入力文書D2を入力する(図2のステップS101)。
単語抽出手段103は、被詳細化テーブルT3に記憶された被詳細化表現C7「ID」、詳細化表現C8「変更不可」のそれぞれに対応する被詳細化箇所、詳細化箇所を入力文書D2から検出する(図2のステップS102)。尚、単語抽出手段103は、入力文書D2には被詳細化表現C7「ID」を含む複合語「ユーザID」、「商品ID」、「店舗ID」、「注文ID」が存在するため、それぞれの複合語全体を被詳細化箇所として検出する。つまり、単語抽出手段103は、入力文書D2において、「ユーザID」に対応する被詳細化箇所P5、「商品ID」に対応する被詳細化箇所P6、「店舗ID」に対応する被詳細化箇所P7、P9、「注文ID」に対応する被詳細化箇所P8を検出する。
共起有無チェック手段104は、「ID」に対応する被詳細化箇所と「変更不可」に対応する詳細化箇所との対ごとに、被詳細化箇所と詳細化箇所との最小共起距離を算出する(図2のステップS103)。尚、「変更不可」に対応する詳細化箇所が複数ある場合には、共起有無チェック手段104は、被詳細化箇所と、被詳細化箇所に最も近い詳細化箇所との距離を最小共起距離として算出する。
共起範囲設定手段105は、共起有無チェック手段104により算出された、「ID」に対応する被詳細化箇所と「変更不可」に対応する詳細化箇所との最小共起距離に基づいて、適正共起範囲を決定する(図2のステップS104)。入力文書D2では、被詳細化表現C7「ID」と詳細化表現C8「変更不可」との最小共起距離(行数)の分布において、最小共起距離0行(同じ行)の出現頻度が3回、最小共起距離5行(P8からP7の行)の出現頻度が1回、ブランクの一行を含む最小共起距離7行(P9からP7の行)の出現頻度が1回である。そこで、共起範囲設定手段105は、最小共起距離0行を被詳細化表現C7「ID」と詳細化表現C8「変更不可」との適正共起範囲として決定する。
詳細化不足検出手段106は、共起範囲設定手段105によって決定された適正共起範囲と、詳細化不足検出ルールとに基づいて、詳細化不足箇所を検出する(図2のステップS105)。詳細化不足検出ルールが「被詳細化表現を含む複合語の各バリエーションに対応する被詳細化箇所のうち少なくとも1つについて適正共起範囲内に詳細化箇所が共起すれば、当該被詳細化表現のバリエーションは詳細化不足ではないと判定する」ルールである場合について説明する。この場合には、「ID」を含む特定の複合語に対応する被詳細化箇所のいずれについても0行(同じ行)以内に「変更不可」に対応する詳細化箇所が存在しない場合、詳細化不足検出手段106は、当該被詳細化箇所を詳細化不足箇所として検出する。入力文書D2では、被詳細化箇所P5〜P9のうち、被詳細化箇所P5、P6、P7は、同じ行に「変更不可」に対応する詳細化箇所が存在するため、詳細化不足箇所ではない。被詳細化箇所P8「注文ID」は、同じ行に詳細化箇所である「変更不可」に対応する詳細化箇所が存在せず、且つ被詳細化箇所P8以外に「注文ID」に対応する詳細化箇所が存在しないため、詳細化不足箇所である。被詳細化箇所P9は、同じ行に「変更不可」に対応する詳細化箇所が存在しないが、「店舗ID」に対応する被詳細化箇所P7は詳細化不足箇所でないため、被詳細化箇所P9は詳細化不足箇所ではない。
以上説明したように、本実施形態の文書データ処理装置によれば、1つの被詳細化表現を指定して、その被詳細化表現を含む複数の被詳細化表現のバリエーションのそれぞれについて、詳細化不足箇所を検出することができる。従って、本実施形態の文書データ処理装置によれば、第1の実施形態における効果に加えて、被詳細化表現の個々のバリエーションを登録することなく、詳細化不足箇所を適切に絞り込むことができるという効果がある。
(第3の実施形態)
次に、上述した第2の実施形態を基本とする第3の実施形態について説明する。以下の説明において、第2の実施形態と同等の構成要素には同じ符号を付し、適宜説明を省略する。
本実施形態における構成について説明する。
本実施形態における文書データ処理装置の構成は、第2の実施形態における文書データ処理装置10の構成と同じである。
次に、本実施形態における動作について説明する。
詳細化表現データベース102は、第2の実施形態と同じ被詳細化テーブルT3を予め記憶する。
本実施形態では、共起有無チェック手段104及び共起範囲設定手段105は、被詳細化表現から見た詳細化表現の方向を区別して適正共起範囲を決定する。
次に、本実施形態における処理の具体例について説明する。
図9は、本発明の第3に実施形態における入力文書D3の具体例を説明するための図である。入力文書D3は、「項目」欄C11の値である「ユーザID」、「商品ID」、「店舗ID」、「注文ID」ごとに、「属性」欄C10の値、及び「備考」欄C12の値が記述された表を含む文書である。項目「ユーザID」、「商品ID」、「店舗ID」の「属性」の値は、「重複不可」及び「変更不可」である。項目「注文ID」の「属性」の値は、「重複不可」である。項目「ユーザID」、「商品ID」、「店舗ID」の「備考」の値は、空欄である。項目「注文ID」の「備考」の値は、「商品が変更されても商品IDは変更不可」である。
入力文書D3は、被詳細化表現C7である「ID」を含む複合語である、「ユーザID」、「商品ID」、「店舗ID」、「注文ID」を「項目」欄C11列の値として含む。
被詳細化表現C7である「ID」には、被詳細化テーブルT3において、詳細化表現C8である「変更不可」が関連付けられている。
単語抽出手段103は、被詳細化テーブルT3に記憶された被詳細化表現C7「ID」、詳細化表現C8「変更不可」のそれぞれに対応する被詳細化箇所、詳細化箇所を入力文書D3から検出する(図2のステップS102)。尚、単語抽出手段103は、入力文書D3には被詳細化表現C7「ID」を含む複合語について「ユーザID」、「商品ID」、「店舗ID」、「注文ID」が存在するため、それぞれの複合語全体を被詳細化箇所として検出する。即ち、単語抽出手段103は、入力文書D3において、「ユーザID」に対応する被詳細化箇所である「項目」欄C11の2行目を検出する。また、単語抽出手段103は、入力文書D3において、「商品ID」に対応する被詳細化箇所である「項目」欄C11の3行目及び「備考」欄C12の5行目を検出する。また、単語抽出手段103は、入力文書D3において、「店舗ID」に対応する被詳細化箇所である「項目」欄C11の4行目、「注文ID」に対応する被詳細化箇所である「項目」欄C11の5行目を検出する。
また、単語抽出手段103は、入力文書D3において、「変更不可」に対応する詳細化箇所である「属性」欄C10の2、3、4行目を検出する。
そこで、共起有無チェック手段104は、入力文書D3において、「ID」に対応する被詳細化箇所と「変更不可」に対応する詳細化箇所との対ごとに、被詳細化箇所と詳細化箇所との最小共起距離を算出する(図2のステップS103)。尚、「変更不可」に対応する詳細化箇所が複数ある場合には、共起有無チェック手段104は、被詳細化箇所と、被詳細化箇所に最も近い詳細化箇所との距離を最小共起距離として算出する。但し、共起有無チェック手段104は、被詳細化表現から見た詳細化表現の方向を区別する。つまり、共起有無チェック手段104は、「ユーザID」、「商品ID」、「店舗ID」のそれぞれに対応する被詳細化箇所に対して、「変更不可」に対応する詳細化箇所を検出する。その詳細化箇所は、最小共起距離0行(同じ行)の被詳細化箇所が含まれる列C11の左側の列である列C10において検出される。また、共起有無チェック手段104は、「注文ID」に対応する被詳細化箇所に対して、「変更不可」に対応する詳細化箇所を検出する。その詳細化箇所は、最小共起距離0行(同じ行)の被詳細化箇所が含まれる列C11の右側の列である列C12において検出される。
共起範囲設定手段105は、共起有無チェック手段104により算出された、「ID」に対応する被詳細化箇所と「変更不可」に対応する詳細化箇所との最小共起距離に基づいて、適正共起範囲を決定する(図2のステップS104)。但し、共起範囲設定手段105は、最小共起距離に加えて、被詳細化箇所に対して詳細化箇所が共起する方向も区別して適正共起範囲を決定する。つまり、入力文書D3では、被詳細化表現C7「ID」と詳細化表現C8「変更不可」との最小共起距離の分布において、最小共起距離が0行(同じ行)で左側にある出現頻度が3回、最小共起距離が0行(同じ行)で右側にある出現頻度が1回である。そこで、共起範囲設定手段105は、被詳細化表現C7「ID」と詳細化表現C8「変更不可」との適正共起範囲として、最小共起距離が「左側に0行」であるものと決定する。
詳細化不足検出手段106は、共起範囲設定手段105によって決定された適正共起範囲と、詳細化不足検出ルールとに基づいて、詳細化不足箇所を検出する(図2のステップS105)。但し、適正共起範囲において、被詳細化箇所に対して詳細化箇所が共起する方向も区別される。詳細化不足検出ルールが「各被詳細化箇所について適正共起範囲内に詳細化箇所が共起しなければ詳細化不足であると判定する」ルールである場合について説明する。この場合、詳細化不足検出手段106は、「ID」に対応する被詳細化箇所に対して「変更不可」に対応する詳細化箇所が左側にあり、0行以内に共起している場合に詳細化不足ではないと判定する。即ち、詳細化不足検出手段106は、入力文書D3において、「ユーザID」、「商品ID」、「店舗ID」に対応する被詳細化箇所については詳細化不足ではない判定する。一方、詳細化不足検出手段106は、入力文書D3において、「注文ID」に対応する被詳細化箇所については、詳細化不足であると判定する。
以上説明したように、本実施形態の文書データ処理装置によれば、被詳細化箇所に対する詳細化箇所の共起位置の方向を区別して、詳細化不足箇所を検出することができる。従って、本実施形態の文書データ処理装置によれば、第2の実施形態における効果に加えて、被詳細化表現のバリエーションを増やすことなく、詳細化不足箇所を適切に絞り込むことができるという効果がある。
(第4の実施形態)
次に、上述した各実施形態及び変形例に共通する概念を表す第4の実施形態について説明する。
図10は、本発明の第4の実施形態における文書データ処理装置11の構成の一例を示すブロック図である。
文書データ処理装置11は、共起有無チェック手段114、共起範囲設定手段115、及び詳細化不足検出手段116を有する。
まず、共起有無チェック手段114は、入力文書において、所定の主題に関する文字列(被詳細化表現)について、被詳細化表現の最も近くにある、所定の主題に関連して記述されるべき所定の事項に関する文字列(詳細化表現)との距離の分布(最小共起距離の分布)を記憶する。
次に、共起範囲設定手段115は、共起有無チェック手段114によって記憶された最小共起距離の分布に基づいて、入力文書において、被詳細化表現と詳細化表現との適正共起範囲を決定する。
そして、詳細化不足検出手段116は、入力文書において、共起範囲設定手段115によって決定された適正共起範囲に、詳細化表現が存在しない場合に、所定の主題に関連して記述されるべき所定の事項が適切な範囲内に記述されていないことを検出する。
以上、説明したように、本実施形態の文書データ処理装置11によれば、文書において、所定の主題に関する表現(被詳細化表現)が存在するときに、所定の主題に関連して記述されるべき所定の事項に関する表現(詳細化表現)が適切な範囲内に記述されているか否かを判定することができる。
(第5の実施形態)
次に、上述した各実施形態及び変形例に共通する概念を表す第5の実施形態について説明する。
図11は、本発明の第5の実施形態における文書データ処理装置12の構成の一例を示すブロック図である。
文書データ処理装置12は、与えられた最小共起距離の分布に基づいて、入力文書において、所定の主題に関連して記述されるべき所定の事項に関する表現(詳細化表現)が適切な範囲内に記述されているか否かを判定する。尚、最小共起距離の分布は、文書において、所定の主題に関する文字列(被詳細化表現)について、被詳細化表現の最も近くにある、詳細化表現との距離の分布である。
最小共起距離の分布は、例えば、第4の実施形態における共起有無チェック手段114を有する文書データ分析装置13が基準文書を分析することにより出力される。尚、基準文書は、被詳細化表現、及び詳細化表現が入力文書と共通する文書である。
文書データ処理装置12は、共起範囲設定手段125、及び詳細化不足検出手段126を有する。
まず、共起範囲設定手段125は、与えられた最小共起距離の分布に基づいて、入力文書において、被詳細化表現と詳細化表現との適正共起範囲を決定する。尚、適正共起範囲は、例えば、被詳細化箇所からの距離が、0以上、且つ最小共起距離の分布において出現頻度が最も大きい距離以下の範囲である。あるいは、適正共起範囲は、例えば、被詳細化箇所からの距離が、最小共起距離の分布において出現頻度が最も大きい距離に等しい範囲である。
次に、詳細化不足検出手段126は、入力文書において、共起範囲設定手段125によって決定された適正共起範囲に、詳細化表現が存在しない場合に、所定の主題に関連して記述されるべき所定の事項が適切な範囲内に記述されていないことを検出する。
以上、説明したように、本実施形態の文書データ処理装置12によれば、文書において、所定の主題に関する表現(被詳細化表現)が存在するときに、所定の主題に関連して記述されるべき所定の事項に関する表現(詳細化表現)が適切な範囲内に記述されているか否かを判定することができる。
また、本実施形態の文書データ処理装置12は、入力文書とは別の基準文書を分析して得られた最小共起距離の分布を利用することができる。もちろん、基準文書は、入力文書と同一の文書であってもよい。従って、本実施形態の文書データ処理装置12によれば、詳細化表現が適切な範囲内に記述されているか否かを判定するために、入力文書に比べてより好適な基準文書における最小共起距離の分布を利用することができる。尚、基準文書における最小共起距離の分布が一旦作成されれば、最小共起距離の分布は何度でも利用可能である。そのため、入力文書に対してその都度、最小共起距離の分布を算出し適正共起範囲を決定する工程が不要になる。
尚、上述した各実施形態における文書データ処理装置は、専用の装置によって実現してもよいが、コンピュータ(情報処理装置)によっても実現可能である。
この場合において、図1、図10および図11に示した各手段のうち、少なくとも単語抽出手段103、共起有無チェック手段104、共起範囲設定手段105、詳細化不足検出手段106、共起有無チェック手段114、共起範囲設定手段115、詳細化不足検出手段116、共起範囲設定手段125、詳細化不足検出手段126は、ソフトウェア・プログラムの機能(処理)単位(ソフトウェアモジュール)と捉えることができる。これらの機能(処理)を実現可能なハードウェア環境の一例を、図12を参照して説明する。但し、これらの図面に示した各手段の区分けは、説明の便宜上の構成であり、実装に際しては、様々な構成が想定され得る。
図12は、本発明の実施形態に係る文書データ処理装置10(11、12)を実行可能な情報処理装置1000(コンピュータ)の構成を例示的に説明する図である。
図12に示した情報処理装置1000は、以下の構成がバス3008(通信線)を介して接続された一般的なコンピュータである。
・CPU(Central_Processing_Unit)3001、
・ROM(Read_Only_Memory)3002、
・RAM(Random_Access_Memory)3003、
・記憶装置3004、
・入出力ユーザインタフェース(Interface:以降、「I/F」と称する)3005、
・外部装置や外部ネットワークとの通信I/F3006、
・記録媒体3010が記録する情報を読み取るドライブ装置3009。
そして、上述したハードウェア環境において、上述した実施形態は、以下の手順によって達成される。即ち、図12に示した情報処理装置1000に対して、その実施形態の説明において参照したブロック構成図(図1、図10および図11)、或いはフローチャート(図2)の機能を実現可能なコンピュータ・プログラムを記録した記録媒体3010を、ドライブ装置3009が読み取ることにより供給される。このほか、通信I/F3006を介して当該コンピュータ・プログラムをダウンロードすることも情報処理装置1000が読み取ることに含まれる。その後、そのコンピュータ・プログラムは、当該ハードウェアのCPU3001に読み出されて解釈され、CPU3001において実行される。また、当該装置内に供給されたコンピュータ・プログラムは、読み書き可能な揮発性の記憶メモリ(RAM3003)または記憶装置3004等の不揮発性の記憶デバイスに格納すればよい。
そして、このような場合、係るソフトウェア・プログラム(コンピュータ・プログラム)は、本発明を構成すると捉えることができる。更に、係るソフトウェア・プログラムを格納した、コンピュータ読み取り可能な記憶媒体も、本発明を構成すると捉えることができる。
以上、本発明を、上述した各実施形態およびその変形例によって例示的に説明した。しかしながら、本発明の技術的範囲は、上述した各実施形態およびその変形例に記載した範囲には限定されない。当業者には、係る実施形態に対して多様な変更又は改良を加えることが可能であることは明らかである。そのような場合、係る変更又は改良を加えた新たな実施形態も、本発明の技術的範囲に含まれ得る。そしてこのことは、請求の範囲に記載した事項から明らかである。
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
第1の文書における、所定の主題に関する所定の第1の表現の出現位置と、前記主題に関連して記述されるべき所定の事項に関する所定の第2の表現の出現位置との最短距離の分布に基づいて、前記第1の文書と同じ文書か又は別の文書である第2の文書における、前記第1の表現の出現位置に対して前記第2の表現が出現すべき位置の第1の範囲を決定する共起範囲設定手段と、
前記第2の文書において、前記第2の表現が前記第1の範囲に出現しない場合に、前記主題に関連して記述されるべき前記所定の事項が適切な範囲内に記述されていないことを検出する詳細化不足検出手段とを備える
ことを特徴とする文書データ処理装置。
(付記2)
前記最短距離は、前記第1の表現の出現位置の前後にある、前記第2の表現の出現位置のうち、前記第1の表現の出現位置に最も近い前記第2の表現の出現位置との距離であることを特徴とする付記1に記載の文書データ処理装置。
(付記3)
前記第1の文書における、前記分布を記録する共起有無チェック手段を更に備える
ことを特徴とする付記1又は付記2に記載の文書データ処理装置。
(付記4)
前記第2の文書における、前記第1の表現の出現位置と、前記第2の表現の出現位置とを検出する単語抽出手段と、
前記第1の表現と前記第2の表現とを関連付けて記憶する詳細化表現データベースと
を更に備える
ことを特徴とする付記1乃至付記3のいずれか1項に記載の文書データ処理装置。
(付記5)
前記第1の範囲は、前記分布において出現頻度が最も多い最短距離、又は前記出現頻度が最も多い最短距離が複数存在する場合には前記出現頻度が最も多い最短距離の最大値、最小値、若しくは平均値を含む
ことを特徴とする付記1乃至付記4の何れか1項に記載の文書データ処理装置。
(付記6)
前記詳細化不足検出手段は、前記第2の文書において前記第1の表現を含む複合語が出現する場合、前記複合語に対応する前記第1の範囲のいずれにおいても前記第2の表現が出現しない場合に、前記複合語により限定される前記主題に関連して記述されるべき前記事項が適切な範囲内に記述されていないことを検出する
ことを特徴とする付記1乃至付記5の何れかに記載の文書データ処理装置。
(付記7)
前記分布は、前記第2の表現の出現位置と前記第1の表現の出現位置との距離の情報に加えて、前記第2の表現の出現位置の前記第1の表現の出現位置からみた方向の情報を更に含み、
前記共起範囲設定手段は、前記分布に含まれる距離及び方向の情報に基づいて前記第1の範囲を決定する
ことを特徴とする付記1乃至付記6の何れかに記載の文書データ処理装置。
(付記8)
前記詳細化不足検出手段は、前記第2の文書において、所定の第3の表現と前記第1の表現とが所定の第2の範囲に出現し、且つ前記第2の表現が前記第1の範囲に出現しない場合に前記主題に関連して記述されるべき前記所定の事項が適切な範囲内に記述されていないことを検出する
ことを特徴とする付記1乃至付記7の何れかに記載の文書データ処理装置。
(付記9)
前記共起範囲設定手段は、前記第2の文書において、前記第1の表現の第1の同義語又は前記第2の表現の第2の同義語の出現を、それぞれ前記第1の表現又は前記第2の表現の出現とみなすことを特徴とする付記1乃至付記8の何れかに記載の文書データ処理装置。
(付記10)
前記第1の表現について前記主題に関連して記述されるべき前記所定の事項が適切な範囲内に記述されているか否かをユーザが識別できる態様で、前記各第1の表現を出力する出力手段を更に備える
ことを特徴とする付記1乃至付記9の何れかに記載の文書データ処理装置。
(付記11)
第1の文書における、所定の主題に関する所定の第1の表現の出現位置と、前記主題に関連して記述されるべき所定の事項に関する所定の第2の表現の出現位置との最短距離の分布に基づいて、前記第1の文書と同じ文書か又は別の文書である第2の文書における、前記第1の表現の出現位置に対して前記第2の表現が出現すべき位置の第1の範囲を決定し、
前記第2の文書において、前記第2の表現が前記第1の範囲に出現しない場合に、前記主題に関連して記述されるべき前記所定の事項が適切な範囲内に記述されていないことを検出する
ことを特徴とする文書データ処理方法。
(付記12)
第1の文書における、所定の主題に関する所定の第1の表現の出現位置と、前記主題に関連して記述されるべき所定の事項に関する所定の第2の表現の出現位置との最短距離の分布に基づいて、前記第1の文書と同じ文書か又は別の文書である第2の文書における、前記第1の表現の出現位置に対して前記第2の表現が出現すべき位置の第1の範囲を決定する共起範囲設定処理と、
前記第2の文書において、前記第2の表現が前記第1の範囲に出現しない場合に、前記主題に関連して記述されるべき前記所定の事項が適切な範囲内に記述されていないことを検出する詳細化不足検出処理
とをコンピュータに実行させることを特徴とする文書データ処理プログラム。
以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。
この出願は2014年6月18日に出願された日本出願特願2014−124850を基礎とする優先権を主張し、その開示の全てをここに取り込む。
10 文書データ処理装置
101 文書入力手段
102 詳細化表現データベース
103 単語抽出手段
104 共起有無チェック手段
105 共起範囲設定手段
106 詳細化不足検出手段
107 出力手段
11 文書データ処理装置
114 共起有無チェック手段
115 共起範囲設定手段
116 詳細化不足検出手段
12 文書データ処理装置
13 文書データ分析装置
125 共起範囲設定手段
126 詳細化不足検出手段

Claims (10)

  1. 所定の主題に関する被詳細化表現と前記主題に関連して記述されるべき事項を示す詳細化表現とを関連付けて記憶する詳細化表現記憶部と、
    第1の文書における、前記詳細化表現記憶部から抽出される前記被詳細化表現の出現位置と、前記詳細化表現の出現位置との最短距離の分布に基づいて、前記第1の文書と同じ文書か又は別の文書である第2の文書における、前記被詳細化表現の出現位置に対して前記詳細化表現が出現すべき位置の第1の範囲を決定する共起範囲設定手段と、
    前記第2の文書において、前記詳細化表現が前記第1の範囲に出現しない場合に、前記詳細化表現が適切な範囲内に記述されていないことを検出する詳細化不足検出手段とを備える
    ことを特徴とする文書データ処理装置。
  2. 前記最短距離は、前記被詳細化表現の出現位置の前後にある、前記詳細化表現の出現位置のうち、前記被詳細化表現の出現位置に最も近い前記詳細化表現の出現位置との距離であることを特徴とする請求項1に記載の文書データ処理装置。
  3. 前記第1の文書における、前記分布を記録する共起有無チェック手段
    を更に備えることを特徴とする請求項1又は請求項2に記載の文書データ処理装置。
  4. 前記第2の文書における、前記被詳細化表現の出現位置と、前記詳細化表現の出現位置とを検出する単語抽出手段
    更に備えることを特徴とする請求項1乃至請求項3のれか1項に記載の文書データ処理装置。
  5. 前記第1の範囲は、前記分布において出現頻度が最も多い最短距離、又は前記出現頻度が最も多い最短距離が複数存在する場合には前記出現頻度が最も多い最短距離の最大値、最小値、若しくは平均値を含む
    ことを特徴とする請求項1乃至請求項4の何れか1項に記載の文書データ処理装置。
  6. 前記詳細化不足検出手段は、前記第2の文書において前記被詳細化表現を含む複合語が出現する場合、前記複合語に対応する前記第1の範囲のいずれにおいても前記詳細化表現が出現しない場合に、前記複合語により限定される前記詳細化表現が適切な範囲内に記述されていないことを検出する
    ことを特徴とする請求項1乃至請求項5の何れか1項に記載の文書データ処理装置。
  7. 前記分布は、前記詳細化表現の出現位置と前記被詳細化表現の出現位置との距離の情報に加えて、前記第2の表現の出現位置の前記被詳細化表現の出現位置からみた方向の情報を更に含み、
    前記共起範囲設定手段は、前記分布に含まれる距離及び方向の情報に基づいて前記第1の範囲を決定する
    ことを特徴とする請求項1乃至請求項6の何れか1項に記載の文書データ処理装置。
  8. 前記詳細化表現記憶部は、前記被詳細化表現と前記詳細化表現とが共起すべき状況を限定する条件を示す状況限定表現を更に格納し、
    前記詳細化不足検出手段は、前記第2の文書において、前記詳細化表現記憶部から抽出される前記状況限定表現と前記被詳細化表現とが所定の第2の範囲に出現し、且つ前記詳細化表現が前記第1の範囲に出現しない場合に前記詳細化表現が適切な範囲内に記述されていないことを検出する
    ことを特徴とする請求項1乃至請求項7の何れか1項に記載の文書データ処理装置。
  9. 第1の文書における、所定の主題に関する被詳細化表現と前記主題に関連して記述されるべき事項を示す詳細化表現とを関連付けて記憶する詳細化表現記憶部から抽出される前記被詳細化表現の出現位置と、前記詳細化表現の出現位置との最短距離の分布に基づいて、前記第1の文書と同じ文書か又は別の文書である第2の文書における、前記被詳細化表現の出現位置に対して前記詳細化表現が出現すべき位置の第1の範囲を決定し、
    前記第2の文書において、前記詳細化表現が前記第1の範囲に出現しない場合に、前記詳細化表現が適切な範囲内に記述されていないことを検出する
    ことを特徴とする文書データ処理方法。
  10. 第1の文書における、所定の主題に関する被詳細化表現と前記主題に関連して記述されるべき事項を示す詳細化表現とを関連付けて記憶する詳細化表現記憶部から抽出される前記被詳細化表現の出現位置と、前記詳細化表現の出現位置との最短距離の分布に基づいて、前記第1の文書と同じ文書か又は別の文書である第2の文書における、前記被詳細化表現の出現位置に対して前記詳細化表現が出現すべき位置の第1の範囲を決定する共起範囲設定処理と、
    前記第2の文書において、前記詳細化表現が前記第1の範囲に出現しない場合に、前記詳細化表現が適切な範囲内に記述されていないことを検出する詳細化不足検出処理
    とをコンピュータに実行させることを特徴とする文書データ処理プログラム。
JP2016529029A 2014-06-18 2015-06-11 文書データ処理装置、文書データ処理方法、及び文書データ処理プログラム Active JP6677158B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014124850 2014-06-18
JP2014124850 2014-06-18
PCT/JP2015/002938 WO2015194140A1 (ja) 2014-06-18 2015-06-11 文書データ処理装置、文書データ処理方法、及び記録媒体

Publications (2)

Publication Number Publication Date
JPWO2015194140A1 JPWO2015194140A1 (ja) 2017-04-20
JP6677158B2 true JP6677158B2 (ja) 2020-04-08

Family

ID=54935149

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016529029A Active JP6677158B2 (ja) 2014-06-18 2015-06-11 文書データ処理装置、文書データ処理方法、及び文書データ処理プログラム

Country Status (2)

Country Link
JP (1) JP6677158B2 (ja)
WO (1) WO2015194140A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6172694B1 (ja) * 2016-11-14 2017-08-02 国立大学法人名古屋大学 レポートの分類システム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6325764A (ja) * 1986-07-18 1988-02-03 Matsushita Electric Ind Co Ltd 文書作成装置
JPH1021236A (ja) * 1996-07-04 1998-01-23 Ricoh Co Ltd 共起関係知識学習装置
JP4672714B2 (ja) * 2007-10-31 2011-04-20 株式会社東芝 文書データ処理装置

Also Published As

Publication number Publication date
JPWO2015194140A1 (ja) 2017-04-20
WO2015194140A1 (ja) 2015-12-23

Similar Documents

Publication Publication Date Title
US10169337B2 (en) Converting data into natural language form
US10762293B2 (en) Using parts-of-speech tagging and named entity recognition for spelling correction
CN106462604B (zh) 识别查询意图
JP5106636B2 (ja) テキストセグメントを有する文書から用語を抽出するためのシステム
US7478092B2 (en) Key term extraction
JP2009500754A5 (ja)
JP5564705B2 (ja) 文構造解析装置、文構造解析方法および文構造解析プログラム
JP6677158B2 (ja) 文書データ処理装置、文書データ処理方法、及び文書データ処理プログラム
Duran et al. Some issues on the normalization of a corpus of products reviews in Portuguese
US20150019382A1 (en) Corpus creation device, corpus creation method and corpus creation program
JP6056489B2 (ja) 翻訳支援プログラム、方法、および装置
JP2010272006A (ja) 関係抽出装置、関係抽出方法、及びプログラム
CN114220113A (zh) 一种论文质量检测方法、装置和设备
JP7434921B2 (ja) 情報処理装置及びプログラム
KR20100115048A (ko) 복사 문서 판별 시스템 및 그 방법
JP2014112306A (ja) 要望文抽出装置、要望内容同定モデル学習装置、方法、及びプログラム
JP2014235584A (ja) 文書分析システム、文書分析方法およびプログラム
JP7116940B2 (ja) オープンデータを効率的に構造化し補正する方法及びプログラム
JP6934621B2 (ja) 方法、装置、及びプログラム
Jaf A simple approach to unify ambiguously encoded Kurdish characters
JP6657920B2 (ja) 文書検証支援装置、文書検証支援方法、及び、文書検証支援プログラム
JP2013143021A (ja) 商品情報抽出ルール生成方法、装置、及びプログラム
KR101158331B1 (ko) 띄어쓰기 일관성 검사 방법
JP2006146705A (ja) 構造化文書曖昧照合装置及びそのプログラム
JP6476638B2 (ja) 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161215

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190716

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200225

R150 Certificate of patent or registration of utility model

Ref document number: 6677158

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150