JP2014235584A

JP2014235584A - 文書分析システム、文書分析方法およびプログラム

Info

Publication number: JP2014235584A
Application number: JP2013116909A
Authority: JP
Inventors: 英司平尾; Eiji Hirao; 智久五藤; Tomohisa Goto
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2013-06-03
Filing date: 2013-06-03
Publication date: 2014-12-15

Abstract

【課題】曖昧語分析結果の確認作業における効率低下の原因となる不要な誤報を減らす。
【解決手段】文書分析システムとして、文書入力部、各単語とその使用箇所に関する単語情報を抽出する文書解析部、文書を複数の区切り文書に区切る文書区切り部、品質指標を区切り文書毎に算定する区切り文書品質評価部、曖昧語の用例特徴が集約蓄積された曖昧用例データベース、個々の単語情報の用例を分析して文書内の各曖昧語と用例を関連させて抽出する用例分析部、曖昧語と用例との組み毎に文書から該当用例を正しく抽出する分類精度が集約蓄積された分類精度データベース、品質指標が良い区切り文書に使われていた単語情報を有した曖昧語ほど分類精度の悪い条件を適用しないように分析条件を最適化処理する曖昧語分析条件最適化部、変更した分析条件に基づき各曖昧語の曖昧度合いを算定処理して曖昧性が高い曖昧語を判定する曖昧性判定部、曖昧情報出力部、を設ける。
【選択図】図１

Description

本発明は、文書分析システム、文書分析方法およびプログラムに関し、自然言語で書かれた文書から、曖昧性を持つ表現を抽出する文書分析システム、文書分析方法およびプログラムに関する。

近年、情報処理装置を用いて、自然言語で書かれた文書を分析して、その文書の優先的な修正点や品質を分析する文書分析システムが開発されている。

文書分析システムに関する技術の一例が、特許文献１に「日本語文章修正装置、日本語文章修正方法および日本語文章修正のためのプログラム」として開示されている。
この特許文献１に開示された日本語文章修正装置は、機械翻訳し易い構成に関するルールが登録された文章構成データベースと、機械翻訳し易い用字・用語に関するルールが登録された用字・用語データベースと、機械翻訳し易いスタイルに関するルールが登録されたスタイルデータベースと、修正箇所抽出手段と、表示手段と、修正手段と、出力手段と、を有する。
このような構成を有する日本語文章修正装置は、次のように動作する。すなわち、修正箇所抽出手段は読み込む日本語原文章から、「文を、述語の数だけ作成する」といった上記構成に関するルール、「文は、当て字、誤字、脱字を含まない」といった上記用字・用語に関するルール、または「文は、曖昧な語句を含まない」といった上記スタイルに関するルールに反する構成、用字・用語またはスタイルを抽出する。さらに、表示手段は上記抽出された構成、用字・用語またはスタイルを表示する。次に、修正手段は外部から入力されたデータを用いて上記抽出された構成、用字・用語またはスタイルを訂正、追加または削除して上記日本語原文章を修正する。最後に出力手段は修正により得られた翻訳易文章を出力する。このような構成により、日本語原文章から上記各ルールに反するポイントを抽出・表示し、外部からの訂正、追加、削除といった修正を支援している。

さらに、文書分析システムに関する技術の他の例が、非特許文献１に「仕様書の曖昧性を検出するツールの試作と評価」として開示されている。この曖昧性の検出方法では、辞書に登録した語句を検索し、曖昧語候補を抽出、使い方に関するルールに沿って各曖昧語候補の曖昧さのレベルを曖昧語、準曖昧語、非曖昧語のいずれかに分類、というステップにより、曖昧でない語句を除外して曖昧性の高い語句だけを選択的に検出、修正作業の効率化を可能にしている。

特開２００７‐３１６８３４号公報

仕様書の曖昧性を検出するツールの試作と評価、電子情報通信学会総合大会講演論文集２０１２年_情報・システム（１）, ２７, ２０１２-０３-０６

これらの開示技術の課題は、自然言語で書かれた文書から、曖昧性を持つ表現を抽出するのに、上記技術による分析方法を適用しても、精度のよい曖昧性の高い箇所の検出は行えないことである。その理由は、一般に曖昧であるとされる表現が、本当に曖昧な表現であるかどうかは、その表現が使用された用例次第で大きく異なるため、特許文献１の手法で用いられているような登録された曖昧語の有無を検出する方法では、各使用場面で曖昧性の高くない表現まで検出してしまうためである。

また、非特許文献１の手法で用いられているような、予め辞書に登録してある語句ベースで一般に曖昧であるとされる表現を検出し、用例とのパターンマッチングで用例を判別して曖昧な表現を絞り込むような方法であっても、現状の自然言語処理技術の精度では真に曖昧な用例だけを完全に判別することは難しいため、曖昧性の高くない表現を多く含む検出となるためである。

なお、ここでの文書の曖昧性とは、「文書の書き手と読み手の間の理解に齟齬が起きにくい」あるいは「文書が読み手にとって理解しやすいか」というような、少なくとも複数の解釈が起きる可能性を含む、文書の情報伝達の性能に関わる特徴を指す。

すなわち、本発明の目的は上記課題に鑑み、自然言語で記載された文書に対して、分析対象の文書が曖昧性に配慮して書かれているかという情報を利用し、記載された曖昧性を持つ表現から真に曖昧性のある用例のみを判別する際の分析条件を最適化して、優先的な修正が必要な曖昧な表現を精度良く抽出する文書分析システム、文書分析方法およびプログラムを提供することにある。

本発明に係る文書分析システムは、少なくとも一つ以上の区切りを有した文書を読み込む文書入力部と、前記文書に使用されている各単語とその使用箇所に関する単語情報を抽出する文書解析部と、前記文書を複数の区切り文書に区切る文書区切り部と、所定指標に基づく文章の品質を表す品質指標を前記区切り文書毎に算定する区切り文書品質評価部と、曖昧性が異なる用例の同一曖昧語を含む曖昧語毎に用例特徴が集約蓄積された曖昧用例データベースと、前記曖昧用例データベースを参照して個々の前記単語情報の用例を分析することにより、前記文書内の各曖昧語を用例を関連付けた状態で抽出処理する用例分析部と、曖昧語と用例との組み毎に、文書から該当用例を正しく抽出する分類精度が集約蓄積された分類精度データベースと、前記分類精度データベースを参照して、前記品質指標が良い区切り文書に使われていた単語情報を有した曖昧語ほど前記分類精度の悪い条件を適用しないように、より曖昧性が高い曖昧語を抽出するための分析条件を最適化処理する曖昧語分析条件最適化部と、前記曖昧語分析条件最適化部で変更したより曖昧性が高い曖昧語を抽出する分析条件に基づき、抽出された各曖昧語の曖昧性の度合いを算定処理して曖昧性が高い曖昧語を判定処理する曖昧性判定部と、判定した前記文書における曖昧性が高い曖昧語に関する情報を出力する曖昧情報出力部と、を少なくとも具備することを特徴とする。

本発明に係る情報処理システムによる文書分析方法は、少なくとも一つ以上の区切りを有した文書を読み込み、前記文書について、使用されている各単語とその使用箇所に関する単語情報の抽出と複数の区切り文書への区切り処理を実行し、所定指標に基づく文章の品質を表す品質指標を前記区切り文書毎に算定処理し、曖昧性が異なる用例の同一曖昧語を含む曖昧語毎に用例特徴が集約蓄積された曖昧用例データベースを参照して個々の前記単語情報の用例を分析することにより、前記文書内の各曖昧語を用例を関連付けた状態で抽出処理し、曖昧語と用例との組み毎に、文書から該当用例を正しく抽出する分類精度が集約蓄積された分類精度データベースを参照して、前記品質指標が良い区切り文書に使われていた単語情報を有した曖昧語ほど前記分類精度の悪い条件を適用しないように、より曖昧性が高い曖昧語を抽出するための分析条件を最適化処理し、前記最適化処理で変更したより曖昧性が高い曖昧語を抽出する分析条件に基づき、抽出された各曖昧語の曖昧性の度合いを算定処理して曖昧性が高い曖昧語を判定処理し、判定した前記文書における曖昧性が高い曖昧語に関する情報を出力することを特徴とする。

本発明に係る文書分析プログラム、情報処理システムを、少なくとも一つ以上の区切りを有した文書を読み込む文書入力手段と、前記文書に使用されている各単語とその使用箇所に関する単語情報を抽出する文書解析手段と、前記文書を複数の区切り文書に区切る文書区切り手段と、所定指標に基づく文章の品質を表す品質指標を前記区切り文書毎に算定する区切り文書品質評価手段と、曖昧性が異なる用例の同一曖昧語を含む曖昧語毎に用例特徴が集約蓄積された曖昧用例データベースを参照して個々の前記単語情報の用例を分析することにより、前記文書内の各曖昧語を用例を関連付けた状態で抽出処理する用例分析手段と、曖昧語と用例との組み毎に、文書から該当用例を正しく抽出する分類精度が集約蓄積された分類精度データベースを参照して、前記品質指標が良い区切り文書に使われていた単語情報を有した曖昧語ほど前記分類精度の悪い条件を適用しないように、より曖昧性が高い曖昧語を抽出するための分析条件を最適化処理する曖昧語分析条件最適化手段と、前記曖昧語分析条件最適化手段で変更したより曖昧性が高い曖昧語を抽出する分析条件に基づき、抽出された各曖昧語の曖昧性の度合いを算定処理して曖昧性が高い曖昧語を判定処理する曖昧性判定手段と、判定した前記文書における曖昧性が高い曖昧語に関する情報を出力する曖昧情報出力手段、として動作させることを特徴とする。

本発明によれば、自然言語で記載された文書に対して、分析対象の文書が曖昧性に配慮して書かれているかという情報を利用し、記載された曖昧性を持つ表現から真に曖昧性のある用例のみを判別する際の分析条件を最適化して、優先的な修正が必要な曖昧な表現を精度良く抽出する文書分析システム、文書分析方法およびプログラムを提供できる。

結果、本発明によれば、自然言語で書かれた曖昧語を含む文書から、曖昧性がより高い用例の曖昧語に限定した抽出を可能にすることで、優先的な修正が必要な曖昧性の高い箇所に限定した指摘ができるようになり、文書の修正時の負荷を低減し、またレビューを効率化できる。

本発明の実施形態に係る文書分析システムの構成を示すブロック図である。図１に示した文書分析システムの動作例を示すシーケンス図である。本発明の実施形態に係る文書分析システムの構成を示すブロック図である。図３に示した文書分析システムの動作例を示すシーケンス図である。本発明の実施例に係る文書分析システムの構成を示すブロック図である。本発明の実施例に係る曖昧語、用例、曖昧性分析ルール、曖昧度の一例を示した説明図である本発明の実施例に係る曖昧語に関する分類精度データベースの一例と最適化される用例を示した説明図である。本発明の実施例に係る曖昧語に関する分類精度データベースの一例と最適化される用例を示した別の説明図である。

［実施形態１］
最初に、本発明の実施形態について、図面を参照して詳細に説明する。

図１は、本発明の実施形態に係る文書分析システム１００の構成を示すブロック図である。
図１を参照すると、本発明の実施形態に係る文書分析システム１００は、基本的に電子機器内もしくはサーバと電子機器およびこれらを相互に接続するインターネット等の情報通信ネットワークからなるシステム内に、少なくとも、文書入力部１０、文書解析部２０、文書区切り部３０、区切り文書品質評価部４０、用例分析部５０、曖昧語分析条件最適化部６０、曖昧性判定部７０、曖昧情報出力部８０、曖昧用例データベース１１０、分類精度データベース１２０を含む。

図示の文書分析システム１００は、曖昧性排除に配慮して書かれた文書内の表現・用例は曖昧でない傾向が強いことを利用して、分析対象の文書を区切り単位で品質を求め、文書リスクの分析時に品質の良い文書内の表現・用例を評価に反映して、文書に含まれるリスク表現の検出条件を最適化する。このことで、分析対象に即した曖昧性がより高い用例の曖昧語について検出精度を高めることを特徴とする。本発明の文書分析システムによれば、分析結果を確認する際に、効率低下の原因である曖昧語の多量な抽出や不必要箇所の抽出などを低減でき、優先的な文書の修正ポイントが明確化される。これにより、システム開発の仕様書などに記載された曖昧語について、問題の大きいポイントに限定した指摘ができるようになり、分析対象文書の修正の負荷の低減やレビューの効率化などに活用できる。

電子機器で文書分析システムを構成する場合、文書分析システム１００は、プログラム制御により動作するコンピュータで実現可能である。図示はしないが、この種のコンピュータは、周知のように、データを入力する入力装置と、データ処理装置と、データ処理装置での処理結果を出力する出力装置と、種々のデータベースとして働く補助記憶装置とを備えている。そして、データ処理装置は、プログラムを記憶するリードオンリメモリ（ＲＯＭ）と、データを一時的に記憶するワークエリアとして使用されるランダムアクセスメモリ（ＲＡＭ）と、ＲＯＭに記憶されたプログラムに従って、ＲＡＭに記憶されているデータを処理する中央処理装置（ＣＰＵ）とから構成される。

この場合、データ処理装置が、文書入力部１０、文書解析部２０、文書区切り部３０、区切り文書品質評価部４０、用例分析部５０、曖昧語分析条件最適化部６０、曖昧性判定部７０として動作し、補助記憶装置が曖昧用例データベース１１０と分類精度データベース１２０として動作し、出力装置が曖昧情報出力部８０として動作する。

次に、文書分析システム１００を構成する各構成要素の動作について説明する。

文書入力部１０は、分析対象とする文書の登録（入力）を受け付けて、読み込む。本発明における分析対象とする文書とは、自然言語で記載された特定の文書あるいは文書群を示す。その文書の一つとして、情報システム構築の際に顧客から提出される提案依頼書（ＲＦＰ）やベンダーが顧客に提出する提案書や要件定義書、さらには、基本設計書、機能設計書、テスト仕様書等があるが、これに限定されるものではない。より具体的には、曖昧語を含む可能性が有り優先的な修正が必要な曖昧性の高い箇所を分析したい文書が入力対象となる。本発明における文書は記録媒体に格納されていることが好ましい。なお、この文書は複数の文章から構成され、少なくとも区切りを有した文書である。また、文章のみで構成されている必要はなく、文章以外に図や表があっても構わない。

文書解析部２０は、解析対象の文書を構成する各文章に形態素解析を適用することで、各文章に使用されている全単語（すなわち、文書内全部の単語）の単語情報の抽出を行う。ここで、単語は名詞、動詞、形容詞など単独で意味をなす自立語に加え、助詞などの付属語も個別の単語とみなす。また、同一の文字列からなる単語であっても出現箇所が異なれば、それぞれについて単語情報の抽出を行う。さらに、上記単語情報は少なくとも使用されている単語の文字列と単語毎の品詞、文内での単語間の相対的な位置関係、単語の文書内での存在位置などの情報を含む。単語の文書内での存在位置に関する情報とは、使用箇所が同定可能な情報であればよく、単語の存在する文の出現順位や頁、目次上の章や節、項などが該当する。

文書区切り部３０は、文書を構成する全文章群を任意の区切り方で区切り、文書を区切り文書という単位に分割する。ここで文書の区切り方は、ファイル、シート、見出し、章立て段落番号等を利用することができるが、特に限定されるものではない。例えば、文書を作成した作者毎に区切ることや、作成日あるいは時間、さらにはレビューの有無、特定レビュー者などで区切っても構わない。

区切り文書品質評価部４０は、所定の文書品質指標化ルールに基づき、区切り文書単位で文書品質を評価し、各区切り文書の品質指標を算出する。ここで、文書品質指標化ルールとは、少なくとも文書の内容を読み手に伝達する上での実効性を指標化する方法であればよく、文書品質の指標化例としては、区切り文書中の文の総数に対する一定の文字数未満の文の割合、主語と述語が一対一対応している文の割合、係り受け解析の結果として複数の係り受け候補が無い文の割合、誤字脱字の無い文の割合、表記ゆれの数と単調減少の関係にある値など、値が高いほど文書の品質が良いことを示す指標などがある。これらの文書品質指標は、単独で利用しても構わないし、２つ以上を組み合わせても構わない。このように、区切り文書品質評価部４０は、長過ぎる文の存在や係り受けの複雑さ等を文書品質指標化ルールとして用いて分析する。なお、任意の区切り文書に対する品質指標や範囲（区切り文書）を操作者が与えるようにしてもよい。この際も、区切り文書品質評価部４０は、自動的な品質指標の算定と、操作者が入力した範囲に品質指標の値を割り付ける算定との両方を行うことすることが望ましい。

曖昧用例データベース１１０は、曖昧性を持つ可能性のある単語（曖昧語）の文字列と、曖昧性が異なる同一曖昧語文字列の用例特徴と、その曖昧さの程度である曖昧度を集約して蓄積する。用例特徴は、図６等に示すように曖昧性分析ルールとして必要に応じて重複させた形態素文字列それぞれに関連付けても良いし、他の方法で文章中の任意文字列を曖昧語として抽出するための分析ルールを採用してもよい。また、曖昧用例データベース１１０は、任意の単語と前記単語の用例に関する問い合わせに対し、問い合わせ対象の単語が文字列として蓄積された曖昧語と一致するか検索し、さらに曖昧語と一致した場合にこの曖昧語の用例特徴に合った曖昧度を応答できるデータベースであってもよい。
ここで、曖昧度とは用例に対する曖昧さの程度を表す指標であり、連続値を持つ指標であっても良いし、曖昧性を持つか持たないかを示す０または１という不連続な値からなる指標であっても良い。
また、単語の用例とは、単語毎の意味的に異なる用い方を分類した情報である。上記曖昧性分析ルールとしては、単語の文字列と単語毎の品詞、文内での単語間の相対的な位置関係などから、曖昧語を含む単語の用例を把握するために定められたルールを採用できる。曖昧性分析ルールには、自然言語の意味解析技術や、単語と周辺の語の組合せパターンなどの利用が適している。単語と周辺の語の組合せパターンとは、単語が使用されている文における特定の位置、例えば前記単語の直前、直後、前方、後方、文頭、文末、直前の文、直後の文などに、所定の情報、例えば特定の語や、品詞、記号、数値表現などがあるかどうかを分類した情報である。
なお、曖昧用例データベース１１０として、ネットワーク上のデータベースを使用しても構わない。

用例分析部５０は、文書解析部２０で抽出された全単語の単語情報を用いて、文書中の曖昧語を、曖昧用例データベース１１０を参照して、単語情報から各曖昧語の用例の特徴に即しているか曖昧性分析ルールに基づいて判別することにより、それぞれ抽出する。換言すれば、用例分析部５０は、曖昧用例データベース１１０を参照することで、曖昧語とその曖昧度、およびその曖昧語の文書内での存在位置を、それぞれ各曖昧語に関する曖昧用例情報として取得する。また、各曖昧語に、必要に応じて属していた区切り文書の識別子を曖昧用例情報として関連付ける。

分類精度データベース１２０は、曖昧語（文字列）と用例との組み毎（曖昧性分析ルール毎）に、曖昧性分析ルールを文書に適用した際に文章から曖昧語の用例を正しく抽出する分類精度を集約して蓄積する。分類精度データベース１２０は、特定の曖昧語に関する曖昧性分析ルールの問い合わせに対し、分類精度を検索し、応答できるデータベースであってもよい。ここで、分類精度とは、各曖昧性分析ルールを文書に適用した際に、同じ文字列からなる曖昧語でありながら異なる曖昧度となる用例を分離することの正確さを表す指標である。分類精度は、実際の文書に曖昧語の用例を分離するルールを適用た際に用例を正しく分離できたか否かの正解率を統計的に算出した連続値を持つ指標を用いることができる。また、分類精度は、分析者の経験などに基づき決められた高、中、低などの不連続な値からなる指標であっても良い。なお、分類精度データベース１２０として、ネットワーク上のデータベースを使用しても良い。

曖昧語分析条件最適化部６０は、区切り文書品質評価部４０で算出した区切り文書毎の文書品質指標、および分類精度データベース１２０の分類精度を利用して、所定の曖昧性分析条件変更ルールに基づき、用例分析部５０で抽出された各曖昧語について曖昧性を分析してその強弱を判定する分析条件を最適化する。区切り文書毎の文書品質指標は、それぞれの文書品質指標の相対的な良し悪し、若しくは、閾値を用いた絶対的な良し悪しを用いることができる。
具体的には、曖昧語分析条件最適化部６０は、曖昧度の異なる用例の判別に関して、文書品質指標の値が高い区切り文書に含まれる曖昧語ほど曖昧度の高い用例と分類しにくくするように、曖昧語の用例の分析条件を変更する。
すなわち、曖昧性分析条件変更ルールがより曖昧度の高い用例かどうか判別するルールであれば、文書品質指標の値が高い区切り文書に含まれていた曖昧語ほど、分類精度の悪い曖昧性分析ルールは適用しないように変更し、曖昧性分析条件変更ルールがより曖昧度の低い用例かどうか判別するルールであれば、文書品質指標の値が高い区切り文書に含まれる曖昧語ほど、分類精度の悪い曖昧性分析ルールでも適用するようにすればよい。
例えば、曖昧度の高い用例かどうか判別する曖昧性分析条件変更ルールについては、文書品質指標と単調増加の関係にあるよう設定した分類精度閾値以上の分類精度の曖昧性分析ルールのみに限定し、曖昧度の低い用例かどうか判別する曖昧性分析条件変更ルールについては、文書品質指標と単調減少の関係にあるよう設定した分類精度閾値以上の分類精度の曖昧性分析ルールのみに限定して曖昧性分析を行うように変更する方法などが適している。
また、曖昧性分析条件変更ルールの別の例としては、分類精度データベース１２０の分類精度は利用せず、曖昧語の各用例の曖昧かどうかの判定に関して、文書品質指標の値が高い区切り文書に含まれる曖昧語ほど、曖昧と見做しにくくなるように、区切り文書毎に曖昧とみなす曖昧度の境界となる曖昧度判定閾値を上げるように曖昧語の曖昧性の判定条件を変更するルールであってもよい。

曖昧性判定部７０は、曖昧語分析条件最適化部６０で曖昧性分析条件変更ルールによって最適化された曖昧性の分析条件に基づき、用例分析部５０で抽出された各々の曖昧語の曖昧度合いを判定する。なお、曖昧性の分析条件に基づき曖昧語を再度抽出して、曖昧度合いを判定しても良い。
曖昧性分析条件変更ルールが、曖昧度の異なる用例の判別に関して、文書品質指標の値が高い区切り文書に含まれる曖昧語ほど、曖昧度の高い用例と分類しにくくするように曖昧語の用例の分析条件を変更するルールである場合は、変更した分析条件に従って曖昧語の用例分析を再度実施し、用例毎に曖昧度を変更した上で、任意の値以上の用例の曖昧語を真に曖昧な曖昧語として判定する。
また、曖昧性分析条件変更ルールが、曖昧語の各用例の曖昧かどうかの判定に関して、文書品質指標の値が高い区切り文書に含まれる曖昧語ほど、曖昧と見做しにくくなるよう、曖昧とみなす曖昧度の境界となる曖昧度判定閾値を上げるように曖昧語の曖昧性の分析条件を変更するルールである場合は、変更した分析条件に従って用例毎に曖昧度が曖昧度判定閾値以上の用例の曖昧語を真に曖昧な曖昧語として判定する。

曖昧情報出力部８０は、曖昧性判定部６０で曖昧性が高い曖昧語であると判定した各曖昧語について、対応する曖昧度および文書内での存在位置を曖昧性情報として出力する。
この曖昧性が高い曖昧語の抽出には、文書入力部１０から分析対象として受け入れた文書若しくは文書群に含まれていた曖昧性に関する特徴が反映される。使用者が曖昧性が高い曖昧語を識別することで、入力された文書に起因する曖昧な文章の修正や、コミュニケーション問題要因の洗い出しが可能になる。

出力形態は、所要の形態で出力すれば良い。例えば、文書内における各曖昧語を色分けや太字による強調、文字の拡大などで明示することで、文書全体を出力する形態などが適当である。他にも、出力形態としては、各曖昧語を抽出した表などの形態であって良い。他に、出力形態としては、曖昧度によって色分けや太字による強調もしくは単語の文字の大きさなどに強弱を与えるなどしても良い。また、曖昧語毎の曖昧度を文書全体または任意の範囲で集計し、この文書又は範囲の品質を表す指標として表形式で出力しても良い。また、各出力形態を選択できるようにして、ベースとなる表示形態から必要に応じて表に移行できるようにしても良い。

次に、図２のシーケンス図を参照して、本発明の実施形態に係る文書分析システム１００の全体の動作について詳細に説明する。なお、図２に示すシーケンス図及び以下の説明は処理例であり、適宜求める処理に応じて処理順等を入れ替えたり処理を戻したり繰り返したりすることを行っても構わない。

文書入力部１０は、曖昧語を含む可能性が有り優先的な修正が必要な曖昧性の高い箇所を抽出したい、分析対象である文書もしくは文書群の入力を受け付ける（ステップＡ１）。

文書解析部２０は、文書を構成する各文章に形態素解析を適用することで、各文章に使用されている全単語の単語情報を抽出する（ステップＡ２）。

文書区切り検出部３０は、分析対象を構成する全文章群を任意の区切り方で区切り、文書若しくは文書群を区切り文書という単位に分割する（ステップＡ３）。

区切り文書品質評価部４０は、所定の文書品質指標化ルールに基づき、入力された区切り文書の特徴を利用して各区切り文書の品質を評価して文書品質指標を算出する（ステップＡ４）。

曖昧用例データベース１１０は、単語情報により任意の単語と前記単語の用例の特徴を参照される（ステップＡ５）。なお、曖昧用例データベース１１０は、単語情報により任意の単語と前記単語の用例の特徴に関する問い合わせに対し、問い合わせ対象の単語が文字列として蓄積された曖昧語と一致するか検索し、さらに曖昧語と一致した場合にこの曖昧語の用例に合った曖昧度を応答するように、処理主体として利用してもよい。

用例分析部５０は、文書解析部２０で抽出された各文章に使用されている全単語の単語情報を用いて、文書中の曖昧語の有無を曖昧用例データベース１１０を参照し単語情報から各曖昧語の用例の特徴を判別して、曖昧語とその曖昧度、文書内での存在位置、属する区切り文書を、それぞれ各曖昧語文字列に関する曖昧用例情報として抽出する（ステップＡ６）。

分類精度データベース１２０は、曖昧語と用例との組み毎に分類精度を参照される（ステップＡ７）。なお、分類精度データベース１２０は、特定の単語に関する曖昧性分析ルールの問い合わせなどに対して、分類精度を応答するように、処理主体として利用してもよい。

曖昧語分析条件最適化部６０は、曖昧語とその曖昧語の曖昧用例情報とを受け付けて、分類精度データベース１２０を参照して分類精度を取得する。加えて、曖昧語分析条件最適化部６０は、区切り文書品質評価部４０で算出した区切り文書毎の文書品質指標、分類精度データベース１２０から取得した分類精度、および曖昧用例情報を必要に応じて利用し、所定の曖昧性分析条件変更ルールに基づき、各曖昧語について曖昧性を分析する条件を最適化処理する（ステップＡ８）。

曖昧性判定部７０は、曖昧語分析条件最適化部５０で曖昧性分析条件変更ルールによって最適化した曖昧性の分析条件に基づき、分析対象に含まれていた各曖昧語の曖昧性の度合いを判定処理する（ステップＡ９）。

曖昧情報出力部８０は、曖昧性判定部６０で曖昧性が閾値以上と判定した各曖昧語について、対応する曖昧度および文書内での存在位置を曖昧性情報として出力する（ステップＡ１０）。

前述したように、本発明の文書分析システムでは、適宜求める処理に応じて処理順等を入れ替えたり処理を戻したり繰り返したりすることを行っても構わない。その一例が、図３に示す本発明の実施形態に係る文書分析システムの構成を示すブロック図であり、図４はその文書分析システムの動作例を示すシーケンス図である。

次に、本発明の実施形態に係る文書分析システム１００の効果について説明する。
本実施形態では、曖昧性排除に配慮して書かれた文書の表現・用例は曖昧でないという傾向を利用して、文書を区切り単位で品質を計測し、文書リスクの分析時に品質の良い文書内の曖昧語に関する表現・用例を自動学習して、文書に含まれるリスク表現を検出するための分析条件を最適化する。このため、分析対象として入力された文書（文章）に適応的に寄添って曖昧性が高い曖昧語、文節、章などの範囲を検出可能になる。それにより、分析結果を確認する際に、効率低下の原因である曖昧語の多量な抽出や不必要箇所の抽出などを低減でき、優先的な文書の修正ポイントが明確化される。これにより、システム開発の仕様書などに記載された曖昧語について、問題の大きいポイントに限定した指摘ができるようになり、分析対象文書の修正の負荷も低減され、レビューの効率化などが可能となる。

なお、上記本発明の実施形態に係る文書分析システム１００は、文書分析方法として実現され得る。また、上記本発明の実施形態に係る文書分析システム１００は、文書分析プログラムによりコンピュータによって実行させるようにしても良い。

次に、図５を参照して、具体的な実施例を用いて、本発明の実施形態に係る文書分析システム１００の動作について説明する。

本実施例では、次のことを目的としている。
文書分析システム１００は、入力された文書Ｄを少なくとも２つ以上に区切り、その区切った各区切り文書Ｄｄ（ｄ＝１、２、３・・・）の文書品質である文書品質指標Ｑ（Ｄｄ）を評価し、曖昧性排除に配慮して書かれた区切り文書の表現・用例は曖昧でない傾向を利用して、文書リスクの分析時に品質の良い文書内の表現・用例を学習することにより、文書に含まれるリスク表現の検出するための分析条件を最適化する。この最適化処理を行うことで、修正すべき曖昧語の検出精度を高める。
曖昧語Ｗａについて、区切り文書Ｄｄの文書リスクに与える曖昧性である曖昧度ＩＡを各曖昧語Ｗａｊの使用場面（用例）毎に算出し、各曖昧語Ｗａｊの文書中の位置や曖昧性の程度に関する曖昧性情報Ａを推定する。
そして、文書分析システム１００は、推定された曖昧性情報Ａを出力することで、文書Ｄにおける優先的に修正すべき曖昧箇所の把握や、複数の文書間の比較として品質の低い文書の明確化などを人間若しくはコンピュータが行うことを容易化し、文書の改善を効率化する。

また、本実施例では、文書分析システム１００は、図５に示されるように、文書解析システムＹと、イントラネット・サーバＺとで構成されるものとする。

文書解析システムＹは、分析実施者の持つパーソナルコンピュータ（ＰＣ）端末上で動作し、入力部及び出力部を介して、分析実施者Ｂが曖昧箇所を知りたい文書（もしくは文書群）Ｄを構成する文章入力を受けて、曖昧性情報Ａの出力を実現する。

イントラネット・サーバＺは、通信ネットワークを介して文書解析システムＹを実装した分析実施者Ｂの持つＰＣ端末と接続されている。イントラネット・サーバＺは、文書解析システムＹからの各種問い合わせに応答する。この問い合わせでは、曖昧語Ｗａとしての登録の有無の検索を可能し、また用例の内容や用例の数など単語の用例に関連する曖昧用例情報Ｃの検索を可能にする。

次に、図５と図１との対応関係について説明する。
ＰＣ端末の入力部は、文書入力部１０として動作する。文書解析部２０と、文書区切り部３０と、区切り文書品質評価部４０と、用例分析部５０と、曖昧語分析条件最適化部６０と、曖昧性判定部７０とは、文書解析システムＹ内に含まれている。また、ＰＣ端末の出力部は、曖昧情報出力部７０として動作する。曖昧用例データベース１１０と分類精度データベース１２０はイントラネット・サーバＺ内に含まれている。

この様な手段を備えた文書解析システムＹ、イントラネット・サーバＺは以下のように動作をする。

文書解析システムＹは、入力部から、情報システム構築に関する提案書や仕様書といった、分析実施者Ｂが曖昧な箇所を排除するための曖昧性が高い修正箇所を得たい文書Ｄの入力を受け付ける。

そして、文書解析システムＹは、文書Ｄを構成する文章毎に形態素解析を適用し、文書を構成する単語Ｗに分解し、文書Ｄに含まれていた全ての単語Ｗｉ（ｉ＝１、２、・・・、ｎ）について単語の種類、単語間の連結関係等を単語情報として抽出する。さらに、文書解析システムＹは、文書の文の出現順に通し番号として文番号を付け、各単語を含む文の文番号を単語情報に加える。さらに文書の区切りを行い、与えられた文書品質に関する情報と対応付けて区切り毎の指標を求める。すなわち、文書Ｄを区切り文書Ｄｄ（ｄ＝１、２、３・・）に区切り、各区切り文書Ｄｄにおいて、文書品質指標を算定する。

イントラネット・サーバＺは、全ての区切り文書Ｄｄに含まれる、曖昧性を持つ可能性のある曖昧語Ｗａｊの文字列と、曖昧語Ｗａｊの使われ方毎に曖昧性が変わる各用例Ｆａｊおよび曖昧性分析ルールＲａｆｊと、その曖昧さの程度である曖昧度Ａａｆｊを集約し曖昧用例情報Ｃａとして蓄積する。また、イントラネット・サーバＺは、任意の単語や表現の情報を抽出する検索エンジンなどの機能も提供することで、文書解析システムＹからの問い合わせに応じて、問い合わせ対象の単語が曖昧用例情報Ｃａに存在するかどうかを判定し、存在する場合は曖昧語の用例毎の曖昧度Ａａｆを提示こととしても良い。なお、抽出する曖昧語は読み手によって複数の解釈をさせる作用を持つ表現であれば何でも良く、「等」、「など」といった省略表現や、「あれ」、「この」のような指示表現、「大きい」、「速い」といった定性的な表現などの単語が該当する。

例えば、曖昧語Ｗａｊとして「原則」、「等」、「あれ」、「位」、「以下」、「以外」、「大きい」を想定し、文書Ｄ内に「原則、上書きするが、読み取り専用のファイルはコピーを作成」、「均等に配分」、「値があれば・・・」、「５位」、「以下の処理」、「１０％以下の場合は、・・・」、「ＡかつＢ以外」、「所定より大きい値がある場合は、・・・」という文章が存在した場合、曖昧語Ｗａｊ、用例Ｆａｊ、対応する曖昧性分析ルールＲａｆｊ、および曖昧度Ａａｆｊは図６のように例示される。ここで、曖昧度Ａａｆｊはアンケートなど任意の方法で決定された値である。図６の事例の曖昧度Ａａｆｊは、０から２の間で定められ、その大きいほど曖昧性が高く、１の場合は各曖昧語の標準的な曖昧性を持つ用例であることを指し、１より小さい場合は曖昧度が標準より弱い用例、１より大きい場合は曖昧度が標準より強い用例であることを意味する。

さらに、文書解析システムＹは、夫々の区切り文書Ｄｄにおける文書品質指標Ｑ（Ｄｄ）と各曖昧語とその用例の分類精度Ｐａｆｊにより、所定の曖昧性分析条件変更ルールに基づいて最適化された分析条件で各曖昧語について曖昧性を分析する。

一例として、入力文書Ｄが作成者の異なる２つのファイルから構成されており、それを作成者毎に２つに区切った場合について説明する。

文書Ｄを２つに区切った区切り文書Ｄ１および区切り文書Ｄ２において、それぞれ、１／品質評価指標Ｑ（Ｄｄ）＝（一文の長さが１００文字を超える長文の数）／（文書全体の文字数）×１０００を品質評価指標とする。このような、所定指標に基づく自動的な区切り文書品質評価において、長過ぎる文の存在や係り受けの複雑さ等を文書品質指標Ｑ（Ｄｄ）として分析する。
仮に、文書Ｄ１の品質評価指標Ｑ（Ｄ１）が２、文書Ｄ２の品質評価指標Ｑ（Ｄ２）が０．５とする。他の文書を含めた分析結果から、平均が１であるとすると、この結果から区切り文書Ｄ１の方が曖昧性に配慮されて記載された文書であり、文書Ｄ２の方が曖昧性に配慮されて記載された文書でないことになる。

次に、この品質評価指標Ｑ（Ｄｄ）と分類精度Ｐａｆｊを基に、曖昧性分析条件の修正を行う。なお、ここで、分類精度Ｐａｆｊの高低の判定閾値を５０％とし、５０％以上を分析精度が高く、５０％未満を分類精度が低いとする。

品質評価指標Ｑ（Ｄｄ）が平均よりも高い区切り文書Ｄ１に含まれていた曖昧語Ｗａｊについては、定義済みであるなど曖昧でない表現である可能性が高いため、図７に破線で示したように、曖昧度Ａａｆｊを利用する際に、標準的な曖昧度１より高い曖昧度を与える曖昧性分析ルールＲａｆｊ（曖昧語Ｗａｊと用例Ｆａｊの組み）には、分析精度が低い（５０％未満）ルールを適用せず、標準的な曖昧度１より低い曖昧度を与える曖昧性分析ルールＲａｆｊ（曖昧語Ｗａｊと用例Ｆａｊの組み）には、分析精度が低い（５０％未満）ルールであっても適用するように曖昧性分析条件を更新する。
一方、品質評価指標Ｑ（Ｄｄ）が平均よりも低い区切り文書Ｄ２に含まれる曖昧語Ｗａｊについては、未定義で曖昧な表現である可能性が高いため、図８に破線で示したように、曖昧度Ａａｆｊを利用する際に、標準的な曖昧度１より高い曖昧度を与える曖昧性分析ルールＲａｆｊ（曖昧語Ｗａｊと用例Ｆａｊの組み）には、分析精度が低い（５０％未満）ルールであっても適用し、標準的な曖昧度１より低い曖昧度を与える曖昧性分析ルールＲａｆｊ（曖昧語Ｗａｊと用例Ｆａｊの組み）には、分析精度が低い（５０％未満）ルールを適用しないように曖昧性分析条件を更新する。
ここで、品質評価指標Ｑ（Ｄｄ）が平均よりも高い区切り文書Ｄ１および品質評価指標Ｑ（Ｄｄ）が平均よりも低い区切り文書Ｄ２の両方で使用されている曖昧語Ｗａｊとその用例Ｆａｊに関しては、定義済みであるなど曖昧でない表現である可能性が高いため、文書Ｄ１の曖昧性分析条件を適用するように曖昧性分析条件変更ルールを設定しても構わない。このように曖昧性分析条件変更ルールを設定して、より曖昧性が高い曖昧語を抽出するための分析条件を最適化することで、適切に所望の曖昧語を抽出することが可能となる。

また、文書Ｄを２つに区切った区切り文書Ｄ１および区切り文書Ｄ２が、ともに文書品質指標が平均よりも低い場合、同一文書として扱うことができ、曖昧度Ａａｆｊを利用する際に、標準的な曖昧度１より高い曖昧度を与える曖昧性分析ルールＲａｆｊには、分析精度が低い（５０％未満）ルールであっても適用し、標準的な曖昧度１より低い曖昧度を与える曖昧性分析ルールＲａｆｊには、分析精度が低い（５０％未満）ルールを適用しないように曖昧性分析条件変更ルールを設定する。

さらに、文書Ｄを２つに区切った区切り文書Ｄ１およびＤ２において、ともに文書品質指標が高い場合、曖昧度Ａａｆｊを利用する際に、標準的な曖昧度１より高い曖昧度を与える曖昧性分析ルールＲａｆｊには、分析精度が低い（５０％未満）ルールを適用せず、標準的な曖昧度１より低い曖昧度を与える曖昧性分析ルールＲａｆｊには、分析精度が低い（５０％未満）ルールであっても適用するように曖昧性分析条件変更ルールを設定する。

なお、文書解析システムＹは、真の曖昧語Ｗａとその曖昧度Ａａｆｊ、曖昧語Ｗａｊの文番号に基づき、文書Ｄ内における各曖昧語Ｗａを着色し明示することで、修正すべき曖昧な文の箇所を分かり易く表示することができる。また、曖昧度Ａａｆｊに基づき、曖昧語Ｗａの曖昧度Ａａｆｊを文書Ｄ全体および、目次の章単位などで集計して表もしくはグラフなどの形式で出力することで、文書Ｄの品質を表すメトリクスおよび、修正すべき曖昧な章を判断する情報を提供することができる。また、真の曖昧語Ｗａが有する曖昧度Ａａｆｊを相互に比較して、上位（より曖昧な曖昧語）から順に所定数提示することとしても良い。また、分析対象の文書を修正中に最適化された分析条件に含まれる用例特徴（曖昧性分析ルール）を新たに満たした曖昧語をその曖昧度を踏まえて提示することとしても良い。

なお、文書分析システムの各要素は、ハードウェアとソフトウェアの組み合わせを用いて実現すればよい。ハードウェアとソフトウェアとを組み合わせた形態では、ＲＡＭに文書分析プログラムが展開され、該プログラムに基づいてＣＰＵ等のハードウェアを動作させる。このことによって、各部を各種手段として動作させる。また、文書分析プログラムは、記憶媒体に固定的に記録されて頒布されても良い。当該記録媒体に記録されたプログラムは、有線、無線、又は記録媒体そのものを介して、メモリに読込まれ、制御部等を動作させる。尚、記録媒体を例示すれば、オプティカルディスクや磁気ディスク、半導体メモリ装置、ハードディスクなどが挙げられる。

上記実施の形態を別の表現で説明すれば、文書分析システムとして動作させる情報処理システムを、ＲＡＭに展開された文書分析プログラムに基づき、文書入力手段、文書解析手段、文書区切り手段、区切り文書品質評価手段、用例分析手段、曖昧語分析条件最適化手段、曖昧性判定手段、曖昧情報出力手段としてＣＰＵを動作させることで実現できる。

以上説明したように、本発明を適用した情報処理システムは、任意の分析条件を採用して文書内から曖昧語を抽出する場合に、文書品質が高い文書ほど分類精度に寄る誤報の割合が高くなる傾向を情報処理に組み込んで利用することにより、区切り文書の品質を表す品質指標を求め、文書に含まれる曖昧語の分析条件を変化させる。
このため、分析条件の最適化が図れ、システム開発の仕様書などに記載された曖昧語について、問題の大きい曖昧語に限定した指摘が可能となる。
結果、曖昧語をより適切な表現に修正する負荷を低減するとともに、レビューの効率化を図ることができる。

すなわち、本発明によれば、自然言語で記載された文書に対して、分析対象の文書が曖昧性に配慮して書かれているかという情報を利用し、記載された曖昧性を持つ表現から真に曖昧性のある用例のみを判別する際の分析条件を最適化して、優先的な修正が必要な曖昧な表現を精度良く抽出する文書分析システム、文書分析方法およびプログラムを提供できる。

また、本発明の具体的な構成は前述の実施の形態に限られるものではなく、この発明の要旨を逸脱しない範囲の変更があってもこの発明に含まれる。

また、上記の実施形態の一部又は全部は、以下のようにも記載されうる。尚、以下の付記は本発明をなんら限定するものではない。
［付記１］
少なくとも一つ以上の区切りを有した文書を読み込む文書入力部と、
前記文書に使用されている各単語とその使用箇所に関する単語情報を抽出する文書解析部と、
前記文書を複数の区切り文書に区切る文書区切り部と、
所定指標に基づく文章の品質を表す品質指標を前記区切り文書毎に算定する区切り文書品質評価部と、
曖昧性が異なる用例の同一曖昧語を含む曖昧語毎に用例特徴が集約蓄積された曖昧用例データベースと、
前記曖昧用例データベースを参照して個々の前記単語情報の用例を分析することにより、前記文書内の各曖昧語を用例を関連付けた状態で抽出処理する用例分析部と、
曖昧語と用例との組み毎に、文書から該当用例を正しく抽出する分類精度が集約蓄積された分類精度データベースと、
前記分類精度データベースを参照して、前記品質指標が良い区切り文書に使われていた単語情報を有した曖昧語ほど前記分類精度の悪い条件を適用しないように、より曖昧性が高い曖昧語を抽出するための分析条件を最適化処理する曖昧語分析条件最適化部と、
前記曖昧語分析条件最適化部で変更したより曖昧性が高い曖昧語を抽出する分析条件に基づき、抽出された各曖昧語の曖昧性の度合いを算定処理して曖昧性が高い曖昧語を判定処理する曖昧性判定部と、
判定した前記文書における曖昧性が高い曖昧語に関する情報を出力する曖昧情報出力部と、
を少なくとも具備することを特徴とする文書分析システム。

［付記２］
前記文書区切り部による文章の区切りとして、ファイル、シート、見出し、章立て、段落番号を用いることを特徴とする上記付記記載の文書分析システム。

［付記３］
前記区切り文書品質評価部は、前記所定指標として、長過ぎる文の存在と係り受けの複雑さとを数式に含ませて個々の区切り文書の品質指標を分析することを特徴とする上記付記記載の文書分析システム。

［付記４］
前記用例分析部は、前記曖昧用例データベースを参照して、曖昧な表現候補を用例によって曖昧な用例と曖昧でない用例に不連続に分類する、もしくは連続的に曖昧性を示す評価値（曖昧度）を付与することを特徴とする上記付記記載の文書分析システム。

［付記５］
前記曖昧語分析条件最適化部は、前記区切り文書品質評価部で算出した区切り文書毎の品質指標、および前記分類精度データベースに集約されている分類精度を利用して、前記分析条件に任意の曖昧語の用例特徴の適用の有無を判定することを特徴とする上記付記記載の文書分析システム。

［付記６］
前記曖昧語分析条件最適化部は、属する区切り文書の品質指標が高く、かつ、分類精度が低い条件において、所定の曖昧度以上の用例特徴を適用しないことを特徴とする上記付記記載の文書分析システム。

［付記７］
前記曖昧語分析条件最適化部は、属する区切り文書の品質指標が低く、かつ、分類精度が低い条件において、所定の曖昧度以下の用例特徴を適用しないことを特徴とする上記付記記載の文書分析システム。

［付記８］
分析対象とする複数の区切りに分けられる文書を受け付けて、該文書に使用されている各単語とその使用箇所に関する単語情報を抽出処理し、
前記文書を複数の区切りに分けると共に、該区切り毎に所定指標に基づかせた品質指標を算定処理し、
個々の前記単語情報に対して、曖昧性が異なる用例に関する同一曖昧語が含まれている曖昧用例データベースを参照することによって、前記分析対象内の各曖昧語を用例を関連付けた状態で抽出処理し、
曖昧語と用例との組み毎に分析対象から該当用例を正しく抽出する分類精度が集約蓄積されている分類精度データベースを参照して、区切り毎に算定した品質指標群を比較することで、該品質指標が良い値を有した区切り文書に含まれていた単語情報を、他の区切り文書に含まれていた単語情報よりも、前記分類精度が悪い用例抽出条件を適用しないように、所望曖昧語の抽出に用いる分析条件を最適化処理し、
該分析条件に基づき、抽出された各曖昧語の曖昧性の度合いを算定処理して比較することで、前記分析対象として受け入れた文書内における曖昧性が高いと導出した曖昧語を認知可能に出力する
することを特徴とする文書分析システム。

［付記９］
少なくとも一つ以上の区切りを有した文書を読み込み、
前記文書について、使用されている各単語とその使用箇所に関する単語情報の抽出と複数の区切り文書への区切り処理を実行し、
所定指標に基づく文章の品質を表す品質指標を前記区切り文書毎に算定処理し、
曖昧性が異なる用例の同一曖昧語を含む曖昧語毎に用例特徴が集約蓄積された曖昧用例データベースを参照して個々の前記単語情報の用例を分析することにより、前記文書内の各曖昧語を用例を関連付けた状態で抽出処理し、
曖昧語と用例との組み毎に、文書から該当用例を正しく抽出する分類精度が集約蓄積された分類精度データベースを参照して、前記品質指標が良い区切り文書に使われていた単語情報を有した曖昧語ほど前記分類精度の悪い条件を適用しないように、より曖昧性が高い曖昧語を抽出するための分析条件を最適化処理し、
前記最適化処理で変更したより曖昧性が高い曖昧語を抽出する分析条件に基づき、抽出された各曖昧語の曖昧性の度合いを算定処理して曖昧性が高い曖昧語を判定処理し、
判定した前記文書における曖昧性が高い曖昧語に関する情報を出力する
ことを特徴とする情報処理システムによる文書分析方法。

［付記１０］
前記文章の区切りとして、ファイル、シート、見出し、章立て、段落番号を用いることを特徴とする上記付記記載の文書分析方法。

［付記１１］
前記所定指標として、長過ぎる文の存在と係り受けの複雑さとを数式に含ませて個々の区切り文書の品質指標を分析することを特徴とする上記付記記載の文書分析方法。

［付記１２］
前記用例分析では、前記曖昧用例データベースを参照して、曖昧な表現候補を用例によって曖昧な用例と曖昧でない用例に不連続に分類する、もしくは連続的に曖昧性を示す評価値（曖昧度）を付与することを特徴とする上記付記記載の文書分析方法。

［付記１３］
前記分析条件の最適化では、前記区切り文書毎の品質指標、および前記分類精度データベースに集約されている分類精度を利用して、前記分析条件に任意の曖昧語の用例特徴の適用の有無を判定することを特徴とする上記付記記載の文書分析方法。

［付記１４］
前記分析条件の最適化では、属する区切り文書の品質指標が高く、かつ、分類精度が低い条件において、所定の曖昧度以上の用例特徴を適用しないことを特徴とする上記付記記載の文書分析方法。

［付記１５］
前記分析条件の最適化では、属する区切り文書の品質指標が低く、かつ、分類精度が低い条件において、所定の曖昧度以下の用例特徴を適用しないことを特徴とする上記付記記載の文書分析方法。

［付記１６］
情報処理システムを、
少なくとも一つ以上の区切りを有した文書を読み込む文書入力手段と、
前記文書に使用されている各単語とその使用箇所に関する単語情報を抽出する文書解析手段と、
前記文書を複数の区切り文書に区切る文書区切り手段と、
所定指標に基づく文章の品質を表す品質指標を前記区切り文書毎に算定する区切り文書品質評価手段と、
曖昧性が異なる用例の同一曖昧語を含む曖昧語毎に用例特徴が集約蓄積された曖昧用例データベースを参照して個々の前記単語情報の用例を分析することにより、前記文書内の各曖昧語を用例を関連付けた状態で抽出処理する用例分析手段と、
曖昧語と用例との組み毎に、文書から該当用例を正しく抽出する分類精度が集約蓄積された分類精度データベースを参照して、前記品質指標が良い区切り文書に使われていた単語情報を有した曖昧語ほど前記分類精度の悪い条件を適用しないように、より曖昧性が高い曖昧語を抽出するための分析条件を最適化処理する曖昧語分析条件最適化手段と、
前記曖昧語分析条件最適化手段で変更したより曖昧性が高い曖昧語を抽出する分析条件に基づき、抽出された各曖昧語の曖昧性の度合いを算定処理して曖昧性が高い曖昧語を判定処理する曖昧性判定手段と、
判定した前記文書における曖昧性が高い曖昧語に関する情報を出力する曖昧情報出力手段、
として動作させることを特徴とする文書分析プログラム。

［付記１７］
前記文書区切り手段による文章の区切りとして、ファイル、シート、見出し、章立て、段落番号を用いることを特徴とする上記付記記載の文書分析プログラム。

［付記１８］
前記区切り文書品質評価手段は、前記所定指標として、長過ぎる文の存在と係り受けの複雑さとを数式に含ませて個々の区切り文書の品質指標を分析することを特徴とする上記付記記載の文書分析プログラム。

［付記１９］
前記用例分析手段は、前記曖昧用例データベースを参照して、曖昧な表現候補を用例によって曖昧な用例と曖昧でない用例に不連続に分類する、もしくは連続的に曖昧性を示す評価値（曖昧度）を付与することを特徴とする上記付記記載の文書分析プログラム。

［付記２０］
前記曖昧語分析条件最適化手段は、前記区切り文書品質評価手段で算出した区切り文書毎の品質指標、および前記分類精度データベースに集約されている分類精度を利用して、前記分析条件に任意の曖昧語の用例特徴の適用の有無を判定することを特徴とする上記付記記載の文書分析プログラム。

［付記２１］
前記曖昧語分析条件最適化手段は、属する区切り文書の品質指標が高く、かつ、分類精度が低い条件において、所定の曖昧度以上の用例特徴を適用しないことを特徴とする上記付記記載の文書分析プログラム。

［付記２２］
前記曖昧語分析条件最適化手段は、属する区切り文書の品質指標が低く、かつ、分類精度が低い条件において、所定の曖昧度以下の用例特徴を適用しないことを特徴とする上記付記記載の文書分析プログラム。

［付記２３］
上記付記記載の文書分析プログラムが記録されたことを特徴とする記録媒体。

本発明によれば、ソフトウェアやシステムの開発における要件定義などの作業においてやり取りされる各種文書に関して、文書の曖昧さを特に問題の大きい場所から優先的に修正することが可能になり、文書作成や文書レビューの効率化に繋がる。また、複数の読み手の間に異なる解釈が起きる状況などが減少し、手戻りの減少や顧客満足の向上などシステム開発の効率化に関する用途に適用できる。

１０文書入力部（文書入力手段）
２０文書解析部（文書解析手段）
３０文書区切り部（文書区切り手段）
４０区切り文書品質評価部（区切り文書品質評価手段）
５０用例分析部（用例分析手段）
６０曖昧語分析条件最適化部（曖昧語分析条件最適化手段）
７０曖昧性判定部（曖昧性判定手段）
８０曖昧情報出力部（曖昧情報出力手段）
１００、２００文書分析システム
１１０曖昧用例データベース
１２０分類精度データベース
Ｄ文書
Ａ曖昧語
Ｙ文書解析システム
Ｚイントラネット・サーバ

Claims

少なくとも一つ以上の区切りを有した文書を読み込む文書入力部と、
前記文書に使用されている各単語とその使用箇所に関する単語情報を抽出する文書解析部と、
前記文書を複数の区切り文書に区切る文書区切り部と、
所定指標に基づく文章の品質を表す品質指標を前記区切り文書毎に算定する区切り文書品質評価部と、
曖昧性が異なる用例の同一曖昧語を含む曖昧語毎に用例特徴が集約蓄積された曖昧用例データベースと、
前記曖昧用例データベースを参照して個々の前記単語情報の用例を分析することにより、前記文書内の各曖昧語を用例を関連付けた状態で抽出処理する用例分析部と、
曖昧語と用例との組み毎に、文書から該当用例を正しく抽出する分類精度が集約蓄積された分類精度データベースと、
前記分類精度データベースを参照して、前記品質指標が良い区切り文書に使われていた単語情報を有した曖昧語ほど前記分類精度の悪い条件を適用しないように、より曖昧性が高い曖昧語を抽出するための分析条件を最適化処理する曖昧語分析条件最適化部と、
前記曖昧語分析条件最適化部で変更したより曖昧性が高い曖昧語を抽出する分析条件に基づき、抽出された各曖昧語の曖昧性の度合いを算定処理して曖昧性が高い曖昧語を判定処理する曖昧性判定部と、
判定した前記文書における曖昧性が高い曖昧語に関する情報を出力する曖昧情報出力部と、
を少なくとも具備することを特徴とする文書分析システム。
前記文書区切り部による文章の区切りとして、ファイル、シート、見出し、章立て、段落番号を用いることを特徴とする請求項１記載の文書分析システム。
前記区切り文書品質評価部は、前記所定指標として、長過ぎる文の存在と係り受けの複雑さとを数式に含ませて個々の区切り文書の品質指標を分析することを特徴とする請求項１又は２記載の文書分析システム。
前記用例分析部は、前記曖昧用例データベースを参照して、曖昧な表現候補を用例によって曖昧な用例と曖昧でない用例に不連続に分類する、もしくは連続的に曖昧性を示す評価値（曖昧度）を付与することを特徴とする請求項１乃至３の何れか一項に記載の文書分析システム。
前記曖昧語分析条件最適化部は、前記区切り文書品質評価部で算出した区切り文書毎の品質指標、および前記分類精度データベースに集約されている分類精度を利用して、前記分析条件に任意の曖昧語の用例特徴の適用の有無を判定することを特徴とする請求項１乃至４の何れか一項に記載の文書分析システム。
前記曖昧語分析条件最適化部は、属する区切り文書の品質指標が高く、かつ、分類精度が低い条件において、所定の曖昧度以上の用例特徴を適用しないことを特徴とする請求項５記載の文書分析システム。
前記曖昧語分析条件最適化部は、属する区切り文書の品質指標が低く、かつ、分類精度が低い条件において、所定の曖昧度以下の用例特徴を適用しないことを特徴とする請求項５記載の文書分析システム。
少なくとも一つ以上の区切りを有した文書を読み込み、
前記文書について、使用されている各単語とその使用箇所に関する単語情報の抽出と複数の区切り文書への区切り処理を実行し、
所定指標に基づく文章の品質を表す品質指標を前記区切り文書毎に算定処理し、
曖昧性が異なる用例の同一曖昧語を含む曖昧語毎に用例特徴が集約蓄積された曖昧用例データベースを参照して個々の前記単語情報の用例を分析することにより、前記文書内の各曖昧語を用例を関連付けた状態で抽出処理し、
曖昧語と用例との組み毎に、文書から該当用例を正しく抽出する分類精度が集約蓄積された分類精度データベースを参照して、前記品質指標が良い区切り文書に使われていた単語情報を有した曖昧語ほど前記分類精度の悪い条件を適用しないように、より曖昧性が高い曖昧語を抽出するための分析条件を最適化処理し、
前記最適化処理で変更したより曖昧性が高い曖昧語を抽出する分析条件に基づき、抽出された各曖昧語の曖昧性の度合いを算定処理して曖昧性が高い曖昧語を判定処理し、
判定した前記文書における曖昧性が高い曖昧語に関する情報を出力する
ことを特徴とする情報処理システムによる文書分析方法。
情報処理システムを、
少なくとも一つ以上の区切りを有した文書を読み込む文書入力手段と、
前記文書に使用されている各単語とその使用箇所に関する単語情報を抽出する文書解析手段と、
前記文書を複数の区切り文書に区切る文書区切り手段と、
所定指標に基づく文章の品質を表す品質指標を前記区切り文書毎に算定する区切り文書品質評価手段と、
曖昧性が異なる用例の同一曖昧語を含む曖昧語毎に用例特徴が集約蓄積された曖昧用例データベースを参照して個々の前記単語情報の用例を分析することにより、前記文書内の各曖昧語を用例を関連付けた状態で抽出処理する用例分析手段と、
曖昧語と用例との組み毎に、文書から該当用例を正しく抽出する分類精度が集約蓄積された分類精度データベースを参照して、前記品質指標が良い区切り文書に使われていた単語情報を有した曖昧語ほど前記分類精度の悪い条件を適用しないように、より曖昧性が高い曖昧語を抽出するための分析条件を最適化処理する曖昧語分析条件最適化手段と、
前記曖昧語分析条件最適化手段で変更したより曖昧性が高い曖昧語を抽出する分析条件に基づき、抽出された各曖昧語の曖昧性の度合いを算定処理して曖昧性が高い曖昧語を判定処理する曖昧性判定手段と、
判定した前記文書における曖昧性が高い曖昧語に関する情報を出力する曖昧情報出力手段、
として動作させることを特徴とする文書分析プログラム。