JP2014235584A - 文書分析システム、文書分析方法およびプログラム - Google Patents

文書分析システム、文書分析方法およびプログラム Download PDF

Info

Publication number
JP2014235584A
JP2014235584A JP2013116909A JP2013116909A JP2014235584A JP 2014235584 A JP2014235584 A JP 2014235584A JP 2013116909 A JP2013116909 A JP 2013116909A JP 2013116909 A JP2013116909 A JP 2013116909A JP 2014235584 A JP2014235584 A JP 2014235584A
Authority
JP
Japan
Prior art keywords
document
ambiguous
word
ambiguity
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013116909A
Other languages
English (en)
Inventor
英司 平尾
Eiji Hirao
英司 平尾
智久 五藤
Tomohisa Goto
智久 五藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2013116909A priority Critical patent/JP2014235584A/ja
Publication of JP2014235584A publication Critical patent/JP2014235584A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】曖昧語分析結果の確認作業における効率低下の原因となる不要な誤報を減らす。
【解決手段】文書分析システムとして、文書入力部、各単語とその使用箇所に関する単語情報を抽出する文書解析部、文書を複数の区切り文書に区切る文書区切り部、品質指標を区切り文書毎に算定する区切り文書品質評価部、曖昧語の用例特徴が集約蓄積された曖昧用例データベース、個々の単語情報の用例を分析して文書内の各曖昧語と用例を関連させて抽出する用例分析部、曖昧語と用例との組み毎に文書から該当用例を正しく抽出する分類精度が集約蓄積された分類精度データベース、品質指標が良い区切り文書に使われていた単語情報を有した曖昧語ほど分類精度の悪い条件を適用しないように分析条件を最適化処理する曖昧語分析条件最適化部、変更した分析条件に基づき各曖昧語の曖昧度合いを算定処理して曖昧性が高い曖昧語を判定する曖昧性判定部、曖昧情報出力部、を設ける。
【選択図】図1

Description

本発明は、文書分析システム、文書分析方法およびプログラムに関し、自然言語で書かれた文書から、曖昧性を持つ表現を抽出する文書分析システム、文書分析方法およびプログラムに関する。
近年、情報処理装置を用いて、自然言語で書かれた文書を分析して、その文書の優先的な修正点や品質を分析する文書分析システムが開発されている。
文書分析システムに関する技術の一例が、特許文献1に「日本語文章修正装置、日本語文章修正方法および日本語文章修正のためのプログラム」として開示されている。
この特許文献1に開示された日本語文章修正装置は、機械翻訳し易い構成に関するルールが登録された文章構成データベースと、機械翻訳し易い用字・用語に関するルールが登録された用字・用語データベースと、機械翻訳し易いスタイルに関するルールが登録されたスタイルデータベースと、修正箇所抽出手段と、表示手段と、修正手段と、出力手段と、を有する。
このような構成を有する日本語文章修正装置は、次のように動作する。すなわち、修正箇所抽出手段は読み込む日本語原文章から、「文を、述語の数だけ作成する」といった上記構成に関するルール、「文は、当て字、誤字、脱字を含まない」といった上記用字・用語に関するルール、または「文は、曖昧な語句を含まない」といった上記スタイルに関するルールに反する構成、用字・用語またはスタイルを抽出する。さらに、表示手段は上記抽出された構成、用字・用語またはスタイルを表示する。次に、修正手段は外部から入力されたデータを用いて上記抽出された構成、用字・用語またはスタイルを訂正、追加または削除して上記日本語原文章を修正する。最後に出力手段は修正により得られた翻訳易文章を出力する。このような構成により、日本語原文章から上記各ルールに反するポイントを抽出・表示し、外部からの訂正、追加、削除といった修正を支援している。
さらに、文書分析システムに関する技術の他の例が、非特許文献1に「仕様書の曖昧性を検出するツールの試作と評価」として開示されている。この曖昧性の検出方法では、辞書に登録した語句を検索し、曖昧語候補を抽出、使い方に関するルールに沿って各曖昧語候補の曖昧さのレベルを曖昧語、準曖昧語、非曖昧語のいずれかに分類、というステップにより、曖昧でない語句を除外して曖昧性の高い語句だけを選択的に検出、修正作業の効率化を可能にしている。
特開2007‐316834号公報
仕様書の曖昧性を検出するツールの試作と評価、電子情報通信学会総合大会講演論文集 2012年_情報・システム(1), 27, 2012-03-06
これらの開示技術の課題は、自然言語で書かれた文書から、曖昧性を持つ表現を抽出するのに、上記技術による分析方法を適用しても、精度のよい曖昧性の高い箇所の検出は行えないことである。その理由は、一般に曖昧であるとされる表現が、本当に曖昧な表現であるかどうかは、その表現が使用された用例次第で大きく異なるため、特許文献1の手法で用いられているような登録された曖昧語の有無を検出する方法では、各使用場面で曖昧性の高くない表現まで検出してしまうためである。
また、非特許文献1の手法で用いられているような、予め辞書に登録してある語句ベースで一般に曖昧であるとされる表現を検出し、用例とのパターンマッチングで用例を判別して曖昧な表現を絞り込むような方法であっても、現状の自然言語処理技術の精度では真に曖昧な用例だけを完全に判別することは難しいため、曖昧性の高くない表現を多く含む検出となるためである。
なお、ここでの文書の曖昧性とは、「文書の書き手と読み手の間の理解に齟齬が起きにくい」あるいは「文書が読み手にとって理解しやすいか」というような、少なくとも複数の解釈が起きる可能性を含む、文書の情報伝達の性能に関わる特徴を指す。
すなわち、本発明の目的は上記課題に鑑み、自然言語で記載された文書に対して、分析対象の文書が曖昧性に配慮して書かれているかという情報を利用し、記載された曖昧性を持つ表現から真に曖昧性のある用例のみを判別する際の分析条件を最適化して、優先的な修正が必要な曖昧な表現を精度良く抽出する文書分析システム、文書分析方法およびプログラムを提供することにある。
本発明に係る文書分析システムは、少なくとも一つ以上の区切りを有した文書を読み込む文書入力部と、前記文書に使用されている各単語とその使用箇所に関する単語情報を抽出する文書解析部と、前記文書を複数の区切り文書に区切る文書区切り部と、所定指標に基づく文章の品質を表す品質指標を前記区切り文書毎に算定する区切り文書品質評価部と、曖昧性が異なる用例の同一曖昧語を含む 曖昧語毎に用例特徴が集約蓄積された曖昧用例データベースと、前記曖昧用例データベースを参照して 個々の前記単語情報の用例を分析することにより、前記文書内の各曖昧語を 用例を関連付けた状態で抽出処理する用例分析部と、曖昧語と用例との組み毎に、文書から該当用例を正しく抽出する分類精度が集約蓄積された分類精度データベースと、前記分類精度データベースを参照して、前記品質指標が良い区切り文書に使われていた単語情報を有した曖昧語ほど 前記分類精度の悪い条件を適用しないように、より曖昧性が高い曖昧語を抽出するための分析条件を最適化処理する曖昧語分析条件最適化部と、前記曖昧語分析条件最適化部で変更したより曖昧性が高い曖昧語を抽出する分析条件に基づき、抽出された各曖昧語の曖昧性の度合いを算定処理して曖昧性が高い曖昧語を判定処理する曖昧性判定部と、判定した前記文書における曖昧性が高い曖昧語に関する情報を出力する曖昧情報出力部と、を少なくとも具備することを特徴とする。
本発明に係る情報処理システムによる文書分析方法は、少なくとも一つ以上の区切りを有した文書を読み込み、前記文書について、使用されている各単語とその使用箇所に関する単語情報の抽出と複数の区切り文書への区切り処理を実行し、所定指標に基づく文章の品質を表す品質指標を前記区切り文書毎に算定処理し、曖昧性が異なる用例の同一曖昧語を含む 曖昧語毎に用例特徴が集約蓄積された曖昧用例データベースを参照して 個々の前記単語情報の用例を分析することにより、前記文書内の各曖昧語を 用例を関連付けた状態で抽出処理し、曖昧語と用例との組み毎に、文書から該当用例を正しく抽出する分類精度が集約蓄積された分類精度データベースを参照して、前記品質指標が良い区切り文書に使われていた単語情報を有した曖昧語ほど 前記分類精度の悪い条件を適用しないように、より曖昧性が高い曖昧語を抽出するための分析条件を最適化処理し、前記最適化処理で変更したより曖昧性が高い曖昧語を抽出する分析条件に基づき、抽出された各曖昧語の曖昧性の度合いを算定処理して曖昧性が高い曖昧語を判定処理し、判定した前記文書における曖昧性が高い曖昧語に関する情報を出力することを特徴とする。
本発明に係る文書分析プログラム、情報処理システムを、少なくとも一つ以上の区切りを有した文書を読み込む文書入力手段と、前記文書に使用されている各単語とその使用箇所に関する単語情報を抽出する文書解析手段と、前記文書を複数の区切り文書に区切る文書区切り手段と、所定指標に基づく文章の品質を表す品質指標を前記区切り文書毎に算定する区切り文書品質評価手段と、曖昧性が異なる用例の同一曖昧語を含む 曖昧語毎に用例特徴が集約蓄積された曖昧用例データベースを参照して 個々の前記単語情報の用例を分析することにより、前記文書内の各曖昧語を 用例を関連付けた状態で抽出処理する用例分析手段と、曖昧語と用例との組み毎に、文書から該当用例を正しく抽出する分類精度が集約蓄積された分類精度データベースを参照して、前記品質指標が良い区切り文書に使われていた単語情報を有した曖昧語ほど 前記分類精度の悪い条件を適用しないように、より曖昧性が高い曖昧語を抽出するための分析条件を最適化処理する曖昧語分析条件最適化手段と、前記曖昧語分析条件最適化手段で変更したより曖昧性が高い曖昧語を抽出する分析条件に基づき、抽出された各曖昧語の曖昧性の度合いを算定処理して 曖昧性が高い曖昧語を判定処理する曖昧性判定手段と、判定した前記文書における曖昧性が高い曖昧語に関する情報を出力する曖昧情報出力手段、として動作させることを特徴とする。
本発明によれば、自然言語で記載された文書に対して、分析対象の文書が曖昧性に配慮して書かれているかという情報を利用し、記載された曖昧性を持つ表現から真に曖昧性のある用例のみを判別する際の分析条件を最適化して、優先的な修正が必要な曖昧な表現を精度良く抽出する文書分析システム、文書分析方法およびプログラムを提供できる。
結果、本発明によれば、自然言語で書かれた曖昧語を含む文書から、曖昧性がより高い用例の曖昧語に限定した抽出を可能にすることで、優先的な修正が必要な曖昧性の高い箇所に限定した指摘ができるようになり、文書の修正時の負荷を低減し、またレビューを効率化できる。
本発明の実施形態に係る文書分析システムの構成を示すブロック図である。 図1に示した文書分析システムの動作例を示すシーケンス図である。 本発明の実施形態に係る文書分析システムの構成を示すブロック図である。 図3に示した文書分析システムの動作例を示すシーケンス図である。 本発明の実施例に係る文書分析システムの構成を示すブロック図である。 本発明の実施例に係る曖昧語、用例、曖昧性分析ルール、曖昧度の一例を示した説明図である 本発明の実施例に係る曖昧語に関する分類精度データベースの一例と最適化される用例を示した説明図である。 本発明の実施例に係る曖昧語に関する分類精度データベースの一例と最適化される用例を示した別の説明図である。
[実施形態1]
最初に、本発明の実施形態について、図面を参照して詳細に説明する。
図1は、本発明の実施形態に係る文書分析システム100の構成を示すブロック図である。
図1を参照すると、本発明の実施形態に係る文書分析システム100は、基本的に電子機器内もしくはサーバと電子機器およびこれらを相互に接続するインターネット等の情報通信ネットワークからなるシステム内に、少なくとも、文書入力部10、文書解析部20、文書区切り部30、区切り文書品質評価部40、用例分析部50、曖昧語分析条件最適化部60、曖昧性判定部70、曖昧情報出力部80、曖昧用例データベース110、分類精度データベース120を含む。
図示の文書分析システム100は、曖昧性排除に配慮して書かれた文書内の表現・用例は曖昧でない傾向が強いことを利用して、分析対象の文書を区切り単位で品質を求め、文書リスクの分析時に品質の良い文書内の表現・用例を評価に反映して、文書に含まれるリスク表現の検出条件を最適化する。このことで、分析対象に即した 曖昧性がより高い用例の曖昧語について検出精度を高めることを特徴とする。本発明の文書分析システムによれば、分析結果を確認する際に、効率低下の原因である曖昧語の多量な抽出や不必要箇所の抽出などを低減でき、優先的な文書の修正ポイントが明確化される。これにより、システム開発の仕様書などに記載された曖昧語について、問題の大きいポイントに限定した指摘ができるようになり、分析対象文書の修正の負荷の低減やレビューの効率化などに活用できる。
電子機器で文書分析システムを構成する場合、文書分析システム100は、プログラム制御により動作するコンピュータで実現可能である。図示はしないが、この種のコンピュータは、周知のように、データを入力する入力装置と、データ処理装置と、データ処理装置での処理結果を出力する出力装置と、種々のデータベースとして働く補助記憶装置とを備えている。そして、データ処理装置は、プログラムを記憶するリードオンリメモリ(ROM)と、データを一時的に記憶するワークエリアとして使用されるランダムアクセスメモリ(RAM)と、ROMに記憶されたプログラムに従って、RAMに記憶されているデータを処理する中央処理装置(CPU)とから構成される。
この場合、データ処理装置が、文書入力部10、文書解析部20、文書区切り部30、区切り文書品質評価部40、用例分析部50、曖昧語分析条件最適化部60、曖昧性判定部70として動作し、補助記憶装置が曖昧用例データベース110と分類精度データベース120として動作し、出力装置が曖昧情報出力部80として動作する。
次に、文書分析システム100を構成する各構成要素の動作について説明する。
文書入力部10は、分析対象とする文書の登録(入力)を受け付けて、読み込む。本発明における分析対象とする文書とは、自然言語で記載された特定の文書あるいは文書群を示す。その文書の一つとして、情報システム構築の際に顧客から提出される提案依頼書(RFP)やベンダーが顧客に提出する提案書や要件定義書、さらには、基本設計書、機能設計書、テスト仕様書等があるが、これに限定されるものではない。より具体的には、曖昧語を含む可能性が有り優先的な修正が必要な曖昧性の高い箇所を分析したい文書が入力対象となる。本発明における文書は記録媒体に格納されていることが好ましい。なお、この文書は複数の文章から構成され、少なくとも区切りを有した文書である。また、文章のみで構成されている必要はなく、文章以外に図や表があっても構わない。
文書解析部20は、解析対象の文書を構成する各文章に形態素解析を適用することで、各文章に使用されている全単語(すなわち、文書内全部の単語)の単語情報の抽出を行う。ここで、単語は名詞、動詞、形容詞など単独で意味をなす自立語に加え、助詞などの付属語も個別の単語とみなす。また、同一の文字列からなる単語であっても出現箇所が異なれば、それぞれについて単語情報の抽出を行う。さらに、上記単語情報は少なくとも使用されている単語の文字列と単語毎の品詞、文内での単語間の相対的な位置関係、単語の文書内での存在位置などの情報を含む。単語の文書内での存在位置に関する情報とは、使用箇所が同定可能な情報であればよく、単語の存在する文の出現順位や頁、目次上の章や節、項などが該当する。
文書区切り部30は、文書を構成する全文章群を任意の区切り方で区切り、文書を区切り文書という単位に分割する。ここで文書の区切り方は、ファイル、シート、見出し、章立て段落番号等を利用することができるが、特に限定されるものではない。例えば、文書を作成した作者毎に区切ることや、作成日あるいは時間、さらにはレビューの有無、特定レビュー者などで区切っても構わない。
区切り文書品質評価部40は、所定の文書品質指標化ルールに基づき、区切り文書単位で文書品質を評価し、各区切り文書の品質指標を算出する。ここで、文書品質指標化ルールとは、少なくとも文書の内容を読み手に伝達する上での実効性を指標化する方法であればよく、文書品質の指標化例としては、区切り文書中の文の総数に対する一定の文字数未満の文の割合、主語と述語が一対一対応している文の割合、係り受け解析の結果として複数の係り受け候補が無い文の割合、誤字脱字の無い文の割合、表記ゆれの数と単調減少の関係にある値など、値が高いほど文書の品質が良いことを示す指標などがある。これらの文書品質指標は、単独で利用しても構わないし、2つ以上を組み合わせても構わない。このように、区切り文書品質評価部40は、長過ぎる文の存在や係り受けの複雑さ等を文書品質指標化ルールとして用いて分析する。なお、任意の区切り文書に対する品質指標や範囲(区切り文書)を操作者が与えるようにしてもよい。この際も、区切り文書品質評価部40は、自動的な品質指標の算定と、操作者が入力した範囲に品質指標の値を割り付ける算定との両方を行うことすることが望ましい。
曖昧用例データベース110は、曖昧性を持つ可能性のある単語(曖昧語)の文字列と、曖昧性が異なる同一曖昧語文字列の用例特徴と、その曖昧さの程度である曖昧度を集約して蓄積する。用例特徴は、図6等に示すように曖昧性分析ルールとして必要に応じて重複させた形態素文字列それぞれに関連付けても良いし、他の方法で文章中の任意文字列を曖昧語として抽出するための分析ルールを採用してもよい。また、曖昧用例データベース110は、任意の単語と前記単語の用例に関する問い合わせに対し、問い合わせ対象の単語が文字列として蓄積された曖昧語と一致するか検索し、さらに曖昧語と一致した場合にこの曖昧語の用例特徴に合った曖昧度を応答できるデータベースであってもよい。
ここで、曖昧度とは用例に対する曖昧さの程度を表す指標であり、連続値を持つ指標であっても良いし、曖昧性を持つか持たないかを示す0または1という不連続な値からなる指標であっても良い。
また、単語の用例とは、単語毎の意味的に異なる用い方を分類した情報である。上記曖昧性分析ルールとしては、単語の文字列と単語毎の品詞、文内での単語間の相対的な位置関係などから、曖昧語を含む単語の用例を把握するために定められたルールを採用できる。曖昧性分析ルールには、自然言語の意味解析技術や、単語と周辺の語の組合せパターンなどの利用が適している。単語と周辺の語の組合せパターンとは、単語が使用されている文における特定の位置、例えば前記単語の直前、直後、前方、後方、文頭、文末、直前の文、直後の文などに、所定の情報、例えば特定の語や、品詞、記号、数値表現などがあるかどうかを分類した情報である。
なお、曖昧用例データベース110として、ネットワーク上のデータベースを使用しても構わない。
用例分析部50は、文書解析部20で抽出された全単語の単語情報を用いて、文書中の曖昧語を、曖昧用例データベース110を参照して、単語情報から各曖昧語の用例の特徴に即しているか曖昧性分析ルールに基づいて判別することにより、それぞれ抽出する。換言すれば、用例分析部50は、曖昧用例データベース110を参照することで、曖昧語とその曖昧度、およびその曖昧語の文書内での存在位置を、それぞれ各曖昧語に関する曖昧用例情報として取得する。また、各曖昧語に、必要に応じて 属していた区切り文書の識別子を曖昧用例情報として関連付ける。
分類精度データベース120は、曖昧語(文字列)と用例との組み毎(曖昧性分析ルール毎)に、曖昧性分析ルールを文書に適用した際に文章から曖昧語の用例を正しく抽出する分類精度を集約して蓄積する。分類精度データベース120は、特定の曖昧語に関する曖昧性分析ルールの問い合わせに対し、分類精度を検索し、応答できるデータベースであってもよい。ここで、分類精度とは、各曖昧性分析ルールを文書に適用した際に、同じ文字列からなる曖昧語でありながら異なる曖昧度となる用例を分離することの正確さを表す指標である。分類精度は、実際の文書に曖昧語の用例を分離するルールを適用た際に用例を正しく分離できたか否かの正解率を統計的に算出した連続値を持つ指標を用いることができる。また、分類精度は、分析者の経験などに基づき決められた高、中、低などの不連続な値からなる指標であっても良い。なお、分類精度データベース120として、ネットワーク上のデータベースを使用しても良い。
曖昧語分析条件最適化部60は、区切り文書品質評価部40で算出した区切り文書毎の文書品質指標、および分類精度データベース120の分類精度を利用して、所定の曖昧性分析条件変更ルールに基づき、用例分析部50で抽出された各曖昧語について曖昧性を分析してその強弱を判定する分析条件を最適化する。区切り文書毎の文書品質指標は、それぞれの文書品質指標の相対的な良し悪し、若しくは、閾値を用いた絶対的な良し悪しを用いることができる。
具体的には、曖昧語分析条件最適化部60は、曖昧度の異なる用例の判別に関して、文書品質指標の値が高い区切り文書に含まれる曖昧語ほど 曖昧度の高い用例と分類しにくくするように、曖昧語の用例の分析条件を変更する。
すなわち、曖昧性分析条件変更ルールが より曖昧度の高い用例かどうか判別するルールであれば、文書品質指標の値が高い区切り文書に含まれていた曖昧語ほど、分類精度の悪い曖昧性分析ルールは適用しないように変更し、曖昧性分析条件変更ルールが より曖昧度の低い用例かどうか判別するルールであれば、文書品質指標の値が高い区切り文書に含まれる曖昧語ほど、分類精度の悪い曖昧性分析ルールでも適用するようにすればよい。
例えば、曖昧度の高い用例かどうか判別する曖昧性分析条件変更ルールについては、文書品質指標と単調増加の関係にあるよう設定した分類精度閾値以上の分類精度の曖昧性分析ルールのみに限定し、曖昧度の低い用例かどうか判別する曖昧性分析条件変更ルールについては、文書品質指標と単調減少の関係にあるよう設定した分類精度閾値以上の分類精度の曖昧性分析ルールのみに限定して曖昧性分析を行うように変更する方法などが適している。
また、曖昧性分析条件変更ルールの別の例としては、分類精度データベース120の分類精度は利用せず、曖昧語の各用例の曖昧かどうかの判定に関して、文書品質指標の値が高い区切り文書に含まれる曖昧語ほど、曖昧と見做しにくくなるように、区切り文書毎に曖昧とみなす曖昧度の境界となる曖昧度判定閾値を上げるように曖昧語の曖昧性の判定条件を変更するルールであってもよい。
曖昧性判定部70は、曖昧語分析条件最適化部60で曖昧性分析条件変更ルールによって最適化された曖昧性の分析条件に基づき、用例分析部50で抽出された各々の曖昧語の曖昧度合いを判定する。なお、曖昧性の分析条件に基づき曖昧語を再度抽出して、曖昧度合いを判定しても良い。
曖昧性分析条件変更ルールが、曖昧度の異なる用例の判別に関して、文書品質指標の値が高い区切り文書に含まれる曖昧語ほど、曖昧度の高い用例と分類しにくくするように曖昧語の用例の分析条件を変更するルールである場合は、変更した分析条件に従って曖昧語の用例分析を再度実施し、用例毎に曖昧度を変更した上で、任意の値以上の用例の曖昧語を真に曖昧な曖昧語として判定する。
また、曖昧性分析条件変更ルールが、曖昧語の各用例の曖昧かどうかの判定に関して、文書品質指標の値が高い区切り文書に含まれる曖昧語ほど、曖昧と見做しにくくなるよう、曖昧とみなす曖昧度の境界となる曖昧度判定閾値を上げるように曖昧語の曖昧性の分析条件を変更するルールである場合は、変更した分析条件に従って用例毎に曖昧度が曖昧度判定閾値以上の用例の曖昧語を真に曖昧な曖昧語として判定する。
曖昧情報出力部80は、曖昧性判定部60で曖昧性が高い曖昧語であると判定した各曖昧語について、対応する曖昧度および文書内での存在位置を曖昧性情報として出力する。
この曖昧性が高い曖昧語の抽出には、文書入力部10から分析対象として受け入れた文書若しくは文書群に含まれていた曖昧性に関する特徴が反映される。使用者が曖昧性が高い曖昧語を識別することで、入力された文書に起因する曖昧な文章の修正や、コミュニケーション問題要因の洗い出しが可能になる。
出力形態は、所要の形態で出力すれば良い。例えば、文書内における各曖昧語を色分けや太字による強調、文字の拡大などで明示することで、文書全体を出力する形態などが適当である。他にも、出力形態としては、各曖昧語を抽出した表などの形態であって良い。他に、出力形態としては、曖昧度によって色分けや太字による強調もしくは単語の文字の大きさなどに強弱を与えるなどしても良い。また、曖昧語毎の曖昧度を文書全体または任意の範囲で集計し、この文書又は範囲の品質を表す指標として表形式で出力しても良い。また、各出力形態を選択できるようにして、ベースとなる表示形態から必要に応じて表に移行できるようにしても良い。
次に、図2のシーケンス図を参照して、本発明の実施形態に係る文書分析システム100の全体の動作について詳細に説明する。なお、図2に示すシーケンス図及び以下の説明は処理例であり、適宜求める処理に応じて処理順等を入れ替えたり処理を戻したり繰り返したりすることを行っても構わない。
文書入力部10は、曖昧語を含む可能性が有り優先的な修正が必要な曖昧性の高い箇所を抽出したい、分析対象である文書もしくは文書群の入力を受け付ける(ステップA1)。
文書解析部20は、文書を構成する各文章に形態素解析を適用することで、各文章に使用されている全単語の単語情報を抽出する(ステップA2)。
文書区切り検出部30は、分析対象を構成する全文章群を任意の区切り方で区切り、文書若しくは文書群を区切り文書という単位に分割する(ステップA3)。
区切り文書品質評価部40は、所定の文書品質指標化ルールに基づき、入力された区切り文書の特徴を利用して各区切り文書の品質を評価して文書品質指標を算出する(ステップA4)。
曖昧用例データベース110は、単語情報により任意の単語と前記単語の用例の特徴を参照される(ステップA5)。なお、曖昧用例データベース110は、単語情報により任意の単語と前記単語の用例の特徴に関する問い合わせに対し、問い合わせ対象の単語が文字列として蓄積された曖昧語と一致するか検索し、さらに曖昧語と一致した場合にこの曖昧語の用例に合った曖昧度を応答するように、処理主体として利用してもよい。
用例分析部50は、文書解析部20で抽出された各文章に使用されている全単語の単語情報を用いて、文書中の曖昧語の有無を曖昧用例データベース110を参照し単語情報から各曖昧語の用例の特徴を判別して、曖昧語とその曖昧度、文書内での存在位置、属する区切り文書を、それぞれ各曖昧語文字列に関する曖昧用例情報として抽出する(ステップA6)。
分類精度データベース120は、曖昧語と用例との組み毎に分類精度を参照される(ステップA7)。なお、分類精度データベース120は、特定の単語に関する曖昧性分析ルールの問い合わせなどに対して、分類精度を応答するように、処理主体として利用してもよい。
曖昧語分析条件最適化部60は、曖昧語とその曖昧語の曖昧用例情報とを受け付けて、分類精度データベース120を参照して分類精度を取得する。加えて、曖昧語分析条件最適化部60は、区切り文書品質評価部40で算出した区切り文書毎の文書品質指標、分類精度データベース120から取得した分類精度、および曖昧用例情報を必要に応じて利用し、所定の曖昧性分析条件変更ルールに基づき、各曖昧語について曖昧性を分析する条件を最適化処理する(ステップA8)。
曖昧性判定部70は、曖昧語分析条件最適化部50で曖昧性分析条件変更ルールによって最適化した曖昧性の分析条件に基づき、分析対象に含まれていた各曖昧語の曖昧性の度合いを判定処理する(ステップA9)。
曖昧情報出力部80は、曖昧性判定部60で曖昧性が閾値以上と判定した各曖昧語について、対応する曖昧度および文書内での存在位置を曖昧性情報として出力する(ステップA10)。
前述したように、本発明の文書分析システムでは、適宜求める処理に応じて処理順等を入れ替えたり処理を戻したり繰り返したりすることを行っても構わない。その一例が、図3に示す本発明の実施形態に係る文書分析システムの構成を示すブロック図であり、図4はその文書分析システムの動作例を示すシーケンス図である。
次に、本発明の実施形態に係る文書分析システム100の効果について説明する。
本実施形態では、曖昧性排除に配慮して書かれた文書の表現・用例は曖昧でないという傾向を利用して、文書を区切り単位で品質を計測し、文書リスクの分析時に品質の良い文書内の曖昧語に関する表現・用例を自動学習して、文書に含まれるリスク表現を検出するための分析条件を最適化する。このため、分析対象として入力された文書(文章)に適応的に寄添って曖昧性が高い曖昧語、文節、章などの範囲を検出可能になる。それにより、分析結果を確認する際に、効率低下の原因である曖昧語の多量な抽出や不必要箇所の抽出などを低減でき、優先的な文書の修正ポイントが明確化される。これにより、システム開発の仕様書などに記載された曖昧語について、問題の大きいポイントに限定した指摘ができるようになり、分析対象文書の修正の負荷も低減され、レビューの効率化などが可能となる。
なお、上記本発明の実施形態に係る文書分析システム100は、文書分析方法として実現され得る。また、上記本発明の実施形態に係る文書分析システム100は、文書分析プログラムによりコンピュータによって実行させるようにしても良い。
次に、図5を参照して、具体的な実施例を用いて、本発明の実施形態に係る文書分析システム100の動作について説明する。
本実施例では、次のことを目的としている。
文書分析システム100は、入力された文書Dを少なくとも2つ以上に区切り、その区切った各区切り文書Dd(d=1、2、3・・・)の文書品質である文書品質指標Q(Dd)を評価し、曖昧性排除に配慮して書かれた区切り文書の表現・用例は曖昧でない傾向を利用して、文書リスクの分析時に品質の良い文書内の表現・用例を学習することにより、文書に含まれるリスク表現の検出するための分析条件を最適化する。この最適化処理を行うことで、修正すべき曖昧語の検出精度を高める。
曖昧語Waについて、区切り文書Ddの文書リスクに与える曖昧性である曖昧度IAを各曖昧語Wajの使用場面(用例)毎に算出し、各曖昧語Wajの文書中の位置や曖昧性の程度に関する曖昧性情報Aを推定する。
そして、文書分析システム100は、推定された曖昧性情報Aを出力することで、文書Dにおける優先的に修正すべき曖昧箇所の把握や、複数の文書間の比較として品質の低い文書の明確化などを人間若しくはコンピュータが行うことを容易化し、文書の改善を効率化する。
また、本実施例では、文書分析システム100は、図5に示されるように、文書解析システムYと、イントラネット・サーバZとで構成されるものとする。
文書解析システムYは、分析実施者の持つパーソナルコンピュータ(PC)端末上で動作し、入力部及び出力部を介して、分析実施者Bが曖昧箇所を知りたい文書(もしくは文書群)Dを構成する文章入力を受けて、曖昧性情報Aの出力を実現する。
イントラネット・サーバZは、通信ネットワークを介して文書解析システムYを実装した分析実施者Bの持つPC端末と接続されている。イントラネット・サーバZは、文書解析システムYからの各種問い合わせに応答する。この問い合わせでは、曖昧語Waとしての登録の有無の検索を可能し、また用例の内容や用例の数など単語の用例に関連する曖昧用例情報Cの検索を可能にする。
次に、図5と図1との対応関係について説明する。
PC端末の入力部は、文書入力部10として動作する。文書解析部20と、文書区切り部30と、区切り文書品質評価部40と、用例分析部50と、曖昧語分析条件最適化部60と、曖昧性判定部70とは、文書解析システムY内に含まれている。また、PC端末の出力部は、曖昧情報出力部70として動作する。曖昧用例データベース110と分類精度データベース120はイントラネット・サーバZ内に含まれている。
この様な手段を備えた文書解析システムY、イントラネット・サーバZは以下のように動作をする。
文書解析システムYは、入力部から、情報システム構築に関する提案書や仕様書といった、分析実施者Bが曖昧な箇所を排除するための曖昧性が高い修正箇所を得たい文書Dの入力を受け付ける。
そして、文書解析システムYは、文書Dを構成する文章毎に形態素解析を適用し、文書を構成する単語Wに分解し、文書Dに含まれていた全ての単語Wi(i=1、2、・・・、n)について単語の種類、単語間の連結関係等を単語情報として抽出する。さらに、文書解析システムYは、文書の文の出現順に通し番号として文番号を付け、各単語を含む文の文番号を単語情報に加える。さらに文書の区切りを行い、与えられた文書品質に関する情報と対応付けて区切り毎の指標を求める。すなわち、文書Dを区切り文書Dd(d=1、2、3・・)に区切り、各区切り文書Ddにおいて、文書品質指標を算定する。
イントラネット・サーバZは、全ての区切り文書Ddに含まれる、曖昧性を持つ可能性のある曖昧語Wajの文字列と、曖昧語Wajの使われ方毎に曖昧性が変わる各用例Fajおよび曖昧性分析ルールRafjと、その曖昧さの程度である曖昧度Aafjを集約し曖昧用例情報Caとして蓄積する。また、イントラネット・サーバZは、任意の単語や表現の情報を抽出する検索エンジンなどの機能も提供することで、文書解析システムYからの問い合わせに応じて、問い合わせ対象の単語が曖昧用例情報Caに存在するかどうかを判定し、存在する場合は曖昧語の用例毎の曖昧度Aafを提示こととしても良い。なお、抽出する曖昧語は読み手によって複数の解釈をさせる作用を持つ表現であれば何でも良く、「等」、「など」といった省略表現や、「あれ」、「この」のような指示表現、「大きい」、「速い」といった定性的な表現などの単語が該当する。
例えば、曖昧語Wajとして「原則」、「等」、「あれ」、「位」、「以下」、「以外」、「大きい」を想定し、文書D内に「原則、上書きするが、読み取り専用のファイルはコピーを作成」、「均等に配分」、「値があれば・・・」、「5位」、「以下の処理」、「10%以下の場合は、・・・」、「AかつB以外」、「所定より大きい値がある場合は、・・・」という文章が存在した場合、曖昧語Waj、用例Faj、対応する曖昧性分析ルールRafj、および曖昧度Aafjは図6のように例示される。ここで、曖昧度Aafjはアンケートなど任意の方法で決定された値である。図6の事例の曖昧度Aafjは、0から2の間で定められ、その大きいほど曖昧性が高く、1の場合は各曖昧語の標準的な曖昧性を持つ用例であることを指し、1より小さい場合は曖昧度が標準より弱い用例、1より大きい場合は曖昧度が標準より強い用例であることを意味する。
さらに、文書解析システムYは、夫々の区切り文書Ddにおける文書品質指標Q(Dd)と各曖昧語とその用例の分類精度Pafjにより、所定の曖昧性分析条件変更ルールに基づいて最適化された分析条件で各曖昧語について曖昧性を分析する。
一例として、入力文書Dが作成者の異なる2つのファイルから構成されており、それを作成者毎に2つに区切った場合について説明する。
文書Dを2つに区切った区切り文書D1および区切り文書D2において、それぞれ、1/品質評価指標Q(Dd)=(一文の長さが100文字を超える長文の数)/(文書全体の文字数)×1000を品質評価指標とする。このような、所定指標に基づく自動的な区切り文書品質評価において、長過ぎる文の存在や係り受けの複雑さ等を文書品質指標Q(Dd)として分析する。
仮に、文書D1の品質評価指標Q(D1)が2、文書D2の品質評価指標Q(D2)が0.5とする。他の文書を含めた分析結果から、平均が1であるとすると、この結果から区切り文書D1の方が曖昧性に配慮されて記載された文書であり、文書D2の方が曖昧性に配慮されて記載された文書でないことになる。
次に、この品質評価指標Q(Dd)と分類精度Pafjを基に、曖昧性分析条件の修正を行う。なお、ここで、分類精度Pafjの高低の判定閾値を50%とし、50%以上を分析精度が高く、50%未満を分類精度が低いとする。
品質評価指標Q(Dd)が平均よりも高い区切り文書D1に含まれていた曖昧語Wajについては、定義済みであるなど曖昧でない表現である可能性が高いため、図7に破線で示したように、曖昧度Aafjを利用する際に、標準的な曖昧度1より高い曖昧度を与える曖昧性分析ルールRafj(曖昧語Wajと用例Fajの組み)には、分析精度が低い(50%未満)ルールを適用せず、標準的な曖昧度1より低い曖昧度を与える曖昧性分析ルールRafj(曖昧語Wajと用例Fajの組み)には、分析精度が低い(50%未満)ルールであっても適用するように曖昧性分析条件を更新する。
一方、品質評価指標Q(Dd)が平均よりも低い区切り文書D2に含まれる曖昧語Wajについては、未定義で曖昧な表現である可能性が高いため、図8に破線で示したように、曖昧度Aafjを利用する際に、標準的な曖昧度1より高い曖昧度を与える曖昧性分析ルールRafj(曖昧語Wajと用例Fajの組み)には、分析精度が低い(50%未満)ルールであっても適用し、標準的な曖昧度1より低い曖昧度を与える曖昧性分析ルールRafj(曖昧語Wajと用例Fajの組み)には、分析精度が低い(50%未満)ルールを適用しないように曖昧性分析条件を更新する。
ここで、品質評価指標Q(Dd)が平均よりも高い区切り文書D1および品質評価指標Q(Dd)が平均よりも低い区切り文書D2の両方で使用されている曖昧語Wajとその用例Fajに関しては、定義済みであるなど曖昧でない表現である可能性が高いため、文書D1の曖昧性分析条件を適用するように曖昧性分析条件変更ルールを設定しても構わない。このように曖昧性分析条件変更ルールを設定して、より曖昧性が高い曖昧語を抽出するための分析条件を最適化することで、適切に所望の曖昧語を抽出することが可能となる。
また、文書Dを2つに区切った区切り文書D1および区切り文書D2が、ともに文書品質指標が平均よりも低い場合、同一文書として扱うことができ、曖昧度Aafjを利用する際に、標準的な曖昧度1より高い曖昧度を与える曖昧性分析ルールRafjには、分析精度が低い(50%未満)ルールであっても適用し、標準的な曖昧度1より低い曖昧度を与える曖昧性分析ルールRafjには、分析精度が低い(50%未満)ルールを適用しないように曖昧性分析条件変更ルールを設定する。
さらに、文書Dを2つに区切った区切り文書D1およびD2において、ともに文書品質指標が高い場合、曖昧度Aafjを利用する際に、標準的な曖昧度1より高い曖昧度を与える曖昧性分析ルールRafjには、分析精度が低い(50%未満)ルールを適用せず、標準的な曖昧度1より低い曖昧度を与える曖昧性分析ルールRafjには、分析精度が低い(50%未満)ルールであっても適用するように曖昧性分析条件変更ルールを設定する。
なお、文書解析システムYは、真の曖昧語Waとその曖昧度Aafj、曖昧語Wajの文番号に基づき、文書D内における各曖昧語Waを着色し明示することで、修正すべき曖昧な文の箇所を分かり易く表示することができる。また、曖昧度Aafjに基づき、曖昧語Waの曖昧度Aafjを文書D全体および、目次の章単位などで集計して表もしくはグラフなどの形式で出力することで、文書Dの品質を表すメトリクスおよび、修正すべき曖昧な章を判断する情報を提供することができる。また、真の曖昧語Waが有する曖昧度Aafjを相互に比較して、上位(より曖昧な曖昧語)から順に所定数提示することとしても良い。また、分析対象の文書を修正中に最適化された分析条件に含まれる用例特徴(曖昧性分析ルール)を新たに満たした曖昧語をその曖昧度を踏まえて提示することとしても良い。
なお、文書分析システムの各要素は、ハードウェアとソフトウェアの組み合わせを用いて実現すればよい。ハードウェアとソフトウェアとを組み合わせた形態では、RAMに文書分析プログラムが展開され、該プログラムに基づいてCPU等のハードウェアを動作させる。このことによって、各部を各種手段として動作させる。また、文書分析プログラムは、記憶媒体に固定的に記録されて頒布されても良い。当該記録媒体に記録されたプログラムは、有線、無線、又は記録媒体そのものを介して、メモリに読込まれ、制御部等を動作させる。尚、記録媒体を例示すれば、オプティカルディスクや磁気ディスク、半導体メモリ装置、ハードディスクなどが挙げられる。
上記実施の形態を別の表現で説明すれば、文書分析システムとして動作させる情報処理システムを、RAMに展開された文書分析プログラムに基づき、文書入力手段、文書解析手段、文書区切り手段、区切り文書品質評価手段、用例分析手段、曖昧語分析条件最適化手段、曖昧性判定手段、曖昧情報出力手段としてCPUを動作させることで実現できる。
以上 説明したように、本発明を適用した情報処理システムは、任意の分析条件を採用して文書内から曖昧語を抽出する場合に、文書品質が高い文書ほど分類精度に寄る誤報の割合が高くなる傾向を情報処理に組み込んで利用することにより、区切り文書の品質を表す品質指標を求め、文書に含まれる曖昧語の分析条件を変化させる。
このため、分析条件の最適化が図れ、システム開発の仕様書などに記載された曖昧語について、問題の大きい曖昧語に限定した指摘が可能となる。
結果、曖昧語をより適切な表現に修正する負荷を低減するとともに、レビューの効率化を図ることができる。
すなわち、本発明によれば、自然言語で記載された文書に対して、分析対象の文書が曖昧性に配慮して書かれているかという情報を利用し、記載された曖昧性を持つ表現から真に曖昧性のある用例のみを判別する際の分析条件を最適化して、優先的な修正が必要な曖昧な表現を精度良く抽出する文書分析システム、文書分析方法およびプログラムを提供できる。
また、本発明の具体的な構成は前述の実施の形態に限られるものではなく、この発明の要旨を逸脱しない範囲の変更があってもこの発明に含まれる。
また、上記の実施形態の一部又は全部は、以下のようにも記載されうる。尚、以下の付記は本発明をなんら限定するものではない。
[付記1]
少なくとも一つ以上の区切りを有した文書を読み込む文書入力部と、
前記文書に使用されている各単語とその使用箇所に関する単語情報を抽出する文書解析部と、
前記文書を複数の区切り文書に区切る文書区切り部と、
所定指標に基づく文章の品質を表す品質指標を前記区切り文書毎に算定する区切り文書品質評価部と、
曖昧性が異なる用例の同一曖昧語を含む 曖昧語毎に用例特徴が集約蓄積された曖昧用例データベースと、
前記曖昧用例データベースを参照して 個々の前記単語情報の用例を分析することにより、前記文書内の各曖昧語を 用例を関連付けた状態で抽出処理する用例分析部と、
曖昧語と用例との組み毎に、文書から該当用例を正しく抽出する分類精度が集約蓄積された分類精度データベースと、
前記分類精度データベースを参照して、前記品質指標が良い区切り文書に使われていた単語情報を有した曖昧語ほど 前記分類精度の悪い条件を適用しないように、より曖昧性が高い曖昧語を抽出するための分析条件を最適化処理する曖昧語分析条件最適化部と、
前記曖昧語分析条件最適化部で変更したより曖昧性が高い曖昧語を抽出する分析条件に基づき、抽出された各曖昧語の曖昧性の度合いを算定処理して曖昧性が高い曖昧語を判定処理する曖昧性判定部と、
判定した前記文書における曖昧性が高い曖昧語に関する情報を出力する曖昧情報出力部と、
を少なくとも具備することを特徴とする文書分析システム。
[付記2]
前記文書区切り部による文章の区切りとして、ファイル、シート、見出し、章立て、段落番号を用いることを特徴とする上記付記記載の文書分析システム。
[付記3]
前記区切り文書品質評価部は、前記所定指標として、長過ぎる文の存在と係り受けの複雑さとを数式に含ませて個々の区切り文書の品質指標を分析することを特徴とする上記付記記載の文書分析システム。
[付記4]
前記用例分析部は、前記曖昧用例データベースを参照して、曖昧な表現候補を用例によって曖昧な用例と曖昧でない用例に不連続に分類する、もしくは連続的に曖昧性を示す評価値(曖昧度)を付与することを特徴とする上記付記記載の文書分析システム。
[付記5]
前記曖昧語分析条件最適化部は、前記区切り文書品質評価部で算出した区切り文書毎の品質指標、および前記分類精度データベースに集約されている分類精度を利用して、前記分析条件に任意の曖昧語の用例特徴の適用の有無を判定することを特徴とする上記付記記載の文書分析システム。
[付記6]
前記曖昧語分析条件最適化部は、属する区切り文書の品質指標が高く、かつ、分類精度が低い条件において、所定の曖昧度以上の用例特徴を適用しないことを特徴とする上記付記記載の文書分析システム。
[付記7]
前記曖昧語分析条件最適化部は、属する区切り文書の品質指標が低く、かつ、分類精度が低い条件において、所定の曖昧度以下の用例特徴を適用しないことを特徴とする上記付記記載の文書分析システム。
[付記8]
分析対象とする複数の区切りに分けられる文書を受け付けて、該文書に使用されている各単語とその使用箇所に関する単語情報を抽出処理し、
前記文書を複数の区切りに分けると共に、該区切り毎に 所定指標に基づかせた品質指標を算定処理し、
個々の前記単語情報に対して、曖昧性が異なる用例に関する同一曖昧語が含まれている曖昧用例データベースを参照することによって、前記分析対象内の各曖昧語を 用例を関連付けた状態で抽出処理し、
曖昧語と用例との組み毎に 分析対象から該当用例を正しく抽出する分類精度が集約蓄積されている分類精度データベースを参照して、区切り毎に算定した品質指標群を比較することで、該品質指標が良い値を有した区切り文書に含まれていた単語情報を、他の区切り文書に含まれていた単語情報よりも、前記分類精度が悪い用例抽出条件を適用しないように、所望曖昧語の抽出に用いる分析条件を最適化処理し、
該分析条件に基づき、抽出された各曖昧語の曖昧性の度合いを算定処理して比較することで、前記分析対象として受け入れた文書内における曖昧性が高いと導出した曖昧語を認知可能に出力する
することを特徴とする文書分析システム。
[付記9]
少なくとも一つ以上の区切りを有した文書を読み込み、
前記文書について、使用されている各単語とその使用箇所に関する単語情報の抽出と複数の区切り文書への区切り処理を実行し、
所定指標に基づく文章の品質を表す品質指標を前記区切り文書毎に算定処理し、
曖昧性が異なる用例の同一曖昧語を含む 曖昧語毎に用例特徴が集約蓄積された曖昧用例データベースを参照して 個々の前記単語情報の用例を分析することにより、前記文書内の各曖昧語を 用例を関連付けた状態で抽出処理し、
曖昧語と用例との組み毎に、文書から該当用例を正しく抽出する分類精度が集約蓄積された分類精度データベースを参照して、前記品質指標が良い区切り文書に使われていた単語情報を有した曖昧語ほど 前記分類精度の悪い条件を適用しないように、より曖昧性が高い曖昧語を抽出するための分析条件を最適化処理し、
前記最適化処理で変更したより曖昧性が高い曖昧語を抽出する分析条件に基づき、抽出された各曖昧語の曖昧性の度合いを算定処理して曖昧性が高い曖昧語を判定処理し、
判定した前記文書における曖昧性が高い曖昧語に関する情報を出力する
ことを特徴とする情報処理システムによる文書分析方法。
[付記10]
前記文章の区切りとして、ファイル、シート、見出し、章立て、段落番号を用いることを特徴とする上記付記記載の文書分析方法。
[付記11]
前記所定指標として、長過ぎる文の存在と係り受けの複雑さとを数式に含ませて個々の区切り文書の品質指標を分析することを特徴とする上記付記記載の文書分析方法。
[付記12]
前記用例分析では、前記曖昧用例データベースを参照して、曖昧な表現候補を用例によって曖昧な用例と曖昧でない用例に不連続に分類する、もしくは連続的に曖昧性を示す評価値(曖昧度)を付与することを特徴とする上記付記記載の文書分析方法。
[付記13]
前記分析条件の最適化では、前記区切り文書毎の品質指標、および前記分類精度データベースに集約されている分類精度を利用して、前記分析条件に任意の曖昧語の用例特徴の適用の有無を判定することを特徴とする上記付記記載の文書分析方法。
[付記14]
前記分析条件の最適化では、属する区切り文書の品質指標が高く、かつ、分類精度が低い条件において、所定の曖昧度以上の用例特徴を適用しないことを特徴とする上記付記記載の文書分析方法。
[付記15]
前記分析条件の最適化では、属する区切り文書の品質指標が低く、かつ、分類精度が低い条件において、所定の曖昧度以下の用例特徴を適用しないことを特徴とする上記付記記載の文書分析方法。
[付記16]
情報処理システムを、
少なくとも一つ以上の区切りを有した文書を読み込む文書入力手段と、
前記文書に使用されている各単語とその使用箇所に関する単語情報を抽出する文書解析手段と、
前記文書を複数の区切り文書に区切る文書区切り手段と、
所定指標に基づく文章の品質を表す品質指標を前記区切り文書毎に算定する区切り文書品質評価手段と、
曖昧性が異なる用例の同一曖昧語を含む 曖昧語毎に用例特徴が集約蓄積された曖昧用例データベースを参照して 個々の前記単語情報の用例を分析することにより、前記文書内の各曖昧語を 用例を関連付けた状態で抽出処理する用例分析手段と、
曖昧語と用例との組み毎に、文書から該当用例を正しく抽出する分類精度が集約蓄積された分類精度データベースを参照して、前記品質指標が良い区切り文書に使われていた単語情報を有した曖昧語ほど 前記分類精度の悪い条件を適用しないように、より曖昧性が高い曖昧語を抽出するための分析条件を最適化処理する曖昧語分析条件最適化手段と、
前記曖昧語分析条件最適化手段で変更したより曖昧性が高い曖昧語を抽出する分析条件に基づき、抽出された各曖昧語の曖昧性の度合いを算定処理して 曖昧性が高い曖昧語を判定処理する曖昧性判定手段と、
判定した前記文書における曖昧性が高い曖昧語に関する情報を出力する曖昧情報出力手段、
として動作させることを特徴とする文書分析プログラム。
[付記17]
前記文書区切り手段による文章の区切りとして、ファイル、シート、見出し、章立て、段落番号を用いることを特徴とする上記付記記載の文書分析プログラム。
[付記18]
前記区切り文書品質評価手段は、前記所定指標として、長過ぎる文の存在と係り受けの複雑さとを数式に含ませて個々の区切り文書の品質指標を分析することを特徴とする上記付記記載の文書分析プログラム。
[付記19]
前記用例分析手段は、前記曖昧用例データベースを参照して、曖昧な表現候補を用例によって曖昧な用例と曖昧でない用例に不連続に分類する、もしくは連続的に曖昧性を示す評価値(曖昧度)を付与することを特徴とする上記付記記載の文書分析プログラム。
[付記20]
前記曖昧語分析条件最適化手段は、前記区切り文書品質評価手段で算出した区切り文書毎の品質指標、および前記分類精度データベースに集約されている分類精度を利用して、前記分析条件に任意の曖昧語の用例特徴の適用の有無を判定することを特徴とする上記付記記載の文書分析プログラム。
[付記21]
前記曖昧語分析条件最適化手段は、属する区切り文書の品質指標が高く、かつ、分類精度が低い条件において、所定の曖昧度以上の用例特徴を適用しないことを特徴とする上記付記記載の文書分析プログラム。
[付記22]
前記曖昧語分析条件最適化手段は、属する区切り文書の品質指標が低く、かつ、分類精度が低い条件において、所定の曖昧度以下の用例特徴を適用しないことを特徴とする上記付記記載の文書分析プログラム。
[付記23]
上記付記記載の文書分析プログラムが記録されたことを特徴とする記録媒体。
本発明によれば、ソフトウェアやシステムの開発における要件定義などの作業において やり取りされる各種文書に関して、文書の曖昧さを特に問題の大きい場所から優先的に修正することが可能になり、文書作成や文書レビューの効率化に繋がる。また、複数の読み手の間に異なる解釈が起きる状況などが減少し、手戻りの減少や顧客満足の向上などシステム開発の効率化に関する用途に適用できる。
10 文書入力部(文書入力手段)
20 文書解析部(文書解析手段)
30 文書区切り部(文書区切り手段)
40 区切り文書品質評価部(区切り文書品質評価手段)
50 用例分析部(用例分析手段)
60 曖昧語分析条件最適化部(曖昧語分析条件最適化手段)
70 曖昧性判定部(曖昧性判定手段)
80 曖昧情報出力部(曖昧情報出力手段)
100、200 文書分析システム
110 曖昧用例データベース
120 分類精度データベース
D 文書
A 曖昧語
Y 文書解析システム
Z イントラネット・サーバ

Claims (9)

  1. 少なくとも一つ以上の区切りを有した文書を読み込む文書入力部と、
    前記文書に使用されている各単語とその使用箇所に関する単語情報を抽出する文書解析部と、
    前記文書を複数の区切り文書に区切る文書区切り部と、
    所定指標に基づく文章の品質を表す品質指標を前記区切り文書毎に算定する区切り文書品質評価部と、
    曖昧性が異なる用例の同一曖昧語を含む 曖昧語毎に用例特徴が集約蓄積された曖昧用例データベースと、
    前記曖昧用例データベースを参照して 個々の前記単語情報の用例を分析することにより、前記文書内の各曖昧語を 用例を関連付けた状態で抽出処理する用例分析部と、
    曖昧語と用例との組み毎に、文書から該当用例を正しく抽出する分類精度が集約蓄積された分類精度データベースと、
    前記分類精度データベースを参照して、前記品質指標が良い区切り文書に使われていた単語情報を有した曖昧語ほど 前記分類精度の悪い条件を適用しないように、より曖昧性が高い曖昧語を抽出するための分析条件を最適化処理する曖昧語分析条件最適化部と、
    前記曖昧語分析条件最適化部で変更したより曖昧性が高い曖昧語を抽出する分析条件に基づき、抽出された各曖昧語の曖昧性の度合いを算定処理して曖昧性が高い曖昧語を判定処理する曖昧性判定部と、
    判定した前記文書における曖昧性が高い曖昧語に関する情報を出力する曖昧情報出力部と、
    を少なくとも具備することを特徴とする文書分析システム。
  2. 前記文書区切り部による文章の区切りとして、ファイル、シート、見出し、章立て、段落番号を用いることを特徴とする請求項1記載の文書分析システム。
  3. 前記区切り文書品質評価部は、前記所定指標として、長過ぎる文の存在と係り受けの複雑さとを数式に含ませて個々の区切り文書の品質指標を分析することを特徴とする請求項1又は2記載の文書分析システム。
  4. 前記用例分析部は、前記曖昧用例データベースを参照して、曖昧な表現候補を用例によって曖昧な用例と曖昧でない用例に不連続に分類する、もしくは連続的に曖昧性を示す評価値(曖昧度)を付与することを特徴とする請求項1乃至3の何れか一項に記載の文書分析システム。
  5. 前記曖昧語分析条件最適化部は、前記区切り文書品質評価部で算出した区切り文書毎の品質指標、および前記分類精度データベースに集約されている分類精度を利用して、前記分析条件に任意の曖昧語の用例特徴の適用の有無を判定することを特徴とする請求項1乃至4の何れか一項に記載の文書分析システム。
  6. 前記曖昧語分析条件最適化部は、属する区切り文書の品質指標が高く、かつ、分類精度が低い条件において、所定の曖昧度以上の用例特徴を適用しないことを特徴とする請求項5記載の文書分析システム。
  7. 前記曖昧語分析条件最適化部は、属する区切り文書の品質指標が低く、かつ、分類精度が低い条件において、所定の曖昧度以下の用例特徴を適用しないことを特徴とする請求項5記載の文書分析システム。
  8. 少なくとも一つ以上の区切りを有した文書を読み込み、
    前記文書について、使用されている各単語とその使用箇所に関する単語情報の抽出と複数の区切り文書への区切り処理を実行し、
    所定指標に基づく文章の品質を表す品質指標を前記区切り文書毎に算定処理し、
    曖昧性が異なる用例の同一曖昧語を含む 曖昧語毎に用例特徴が集約蓄積された曖昧用例データベースを参照して 個々の前記単語情報の用例を分析することにより、前記文書内の各曖昧語を 用例を関連付けた状態で抽出処理し、
    曖昧語と用例との組み毎に、文書から該当用例を正しく抽出する分類精度が集約蓄積された分類精度データベースを参照して、前記品質指標が良い区切り文書に使われていた単語情報を有した曖昧語ほど 前記分類精度の悪い条件を適用しないように、より曖昧性が高い曖昧語を抽出するための分析条件を最適化処理し、
    前記最適化処理で変更したより曖昧性が高い曖昧語を抽出する分析条件に基づき、抽出された各曖昧語の曖昧性の度合いを算定処理して曖昧性が高い曖昧語を判定処理し、
    判定した前記文書における曖昧性が高い曖昧語に関する情報を出力する
    ことを特徴とする情報処理システムによる文書分析方法。
  9. 情報処理システムを、
    少なくとも一つ以上の区切りを有した文書を読み込む文書入力手段と、
    前記文書に使用されている各単語とその使用箇所に関する単語情報を抽出する文書解析手段と、
    前記文書を複数の区切り文書に区切る文書区切り手段と、
    所定指標に基づく文章の品質を表す品質指標を前記区切り文書毎に算定する区切り文書品質評価手段と、
    曖昧性が異なる用例の同一曖昧語を含む 曖昧語毎に用例特徴が集約蓄積された曖昧用例データベースを参照して 個々の前記単語情報の用例を分析することにより、前記文書内の各曖昧語を 用例を関連付けた状態で抽出処理する用例分析手段と、
    曖昧語と用例との組み毎に、文書から該当用例を正しく抽出する分類精度が集約蓄積された分類精度データベースを参照して、前記品質指標が良い区切り文書に使われていた単語情報を有した曖昧語ほど 前記分類精度の悪い条件を適用しないように、より曖昧性が高い曖昧語を抽出するための分析条件を最適化処理する曖昧語分析条件最適化手段と、
    前記曖昧語分析条件最適化手段で変更したより曖昧性が高い曖昧語を抽出する分析条件に基づき、抽出された各曖昧語の曖昧性の度合いを算定処理して 曖昧性が高い曖昧語を判定処理する曖昧性判定手段と、
    判定した前記文書における曖昧性が高い曖昧語に関する情報を出力する曖昧情報出力手段、
    として動作させることを特徴とする文書分析プログラム。
JP2013116909A 2013-06-03 2013-06-03 文書分析システム、文書分析方法およびプログラム Pending JP2014235584A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013116909A JP2014235584A (ja) 2013-06-03 2013-06-03 文書分析システム、文書分析方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013116909A JP2014235584A (ja) 2013-06-03 2013-06-03 文書分析システム、文書分析方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2014235584A true JP2014235584A (ja) 2014-12-15

Family

ID=52138238

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013116909A Pending JP2014235584A (ja) 2013-06-03 2013-06-03 文書分析システム、文書分析方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2014235584A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407717A (zh) * 2021-05-28 2021-09-17 数库(上海)科技有限公司 消除新闻中行业词歧义的方法、装置、设备和存储介质
WO2024089858A1 (ja) * 2022-10-27 2024-05-02 日本電信電話株式会社 提示装置、提示方法および提示プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407717A (zh) * 2021-05-28 2021-09-17 数库(上海)科技有限公司 消除新闻中行业词歧义的方法、装置、设备和存储介质
CN113407717B (zh) * 2021-05-28 2022-12-20 数库(上海)科技有限公司 消除新闻中行业词歧义的方法、装置、设备和存储介质
WO2024089858A1 (ja) * 2022-10-27 2024-05-02 日本電信電話株式会社 提示装置、提示方法および提示プログラム

Similar Documents

Publication Publication Date Title
RU2607975C2 (ru) Построение корпуса сравнимых документов на основе универсальной меры похожести
AU2016277558A1 (en) Generating a semantic network based on semantic connections between subject-verb-object units
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
US20140280256A1 (en) Automated data parsing
US10042880B1 (en) Automated identification of start-of-reading location for ebooks
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
RU2491622C1 (ru) Способ классификации документов по категориям
JP2020126493A (ja) 対訳処理方法および対訳処理プログラム
EP3113174A1 (en) Method for building a speech feature library, method, apparatus, and device for speech synthesis
CN110427612B (zh) 基于多语言的实体消歧方法、装置、设备和存储介质
CN110008474B (zh) 一种关键短语确定方法、装置、设备及存储介质
US20180081861A1 (en) Smart document building using natural language processing
CN106407195B (zh) 用于网页消重的方法和系统
JP7493937B2 (ja) 文書における見出しのシーケンスの識別方法、プログラム及びシステム
US11361565B2 (en) Natural language processing (NLP) pipeline for automated attribute extraction
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
Bartík Text-based web page classification with use of visual information
JP2014235584A (ja) 文書分析システム、文書分析方法およびプログラム
US9336197B2 (en) Language recognition based on vocabulary lists
US10387472B2 (en) Expert stance classification using computerized text analytics
WO2014114117A1 (en) Language recognition based on vocabulary lists
US11341188B2 (en) Expert stance classification using computerized text analytics
CN112926297A (zh) 处理信息的方法、装置、设备和存储介质
Yasin et al. Transformer-Based Neural Machine Translation for Post-OCR Error Correction in Cursive Text
Martín-del-Campo-Rodríguez et al. Unsupervised authorship attribution using feature selection and weighted cosine similarity

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20151218