JP6332035B2

JP6332035B2 - 文書分析装置、文書分析方法及び文書分析プログラム

Info

Publication number: JP6332035B2
Application number: JP2014549825A
Authority: JP
Inventors: 英司平尾
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-11-27
Filing date: 2013-11-26
Publication date: 2018-05-30
Anticipated expiration: 2033-11-26
Also published as: WO2014083835A1; JPWO2014083835A1

Description

本発明は、文書の曖昧性を評価する情報処理の技術に関する。

近年、自然言語で書かれた文書を、情報処理装置（コンピュータ）によって分析することにより、その文書の曖昧性を評価する技術が知られている。例えば、特許文献１では、情報検索時において、検索条件や検索対象としての範囲が不明確な意味を持つ名詞文節を、曖昧語テーブルを参照して、その曖昧語テーブルに予め定義されている検索条件範囲や検索対象範囲に変換する日本文処理方法に関する技術が開示されている。また、特許文献１には、曖昧性を表す付属語が付属した名詞文節の曖昧性を解決する場合、具体的データ名の上位関係を予め定義してある上位語定義表を参照し、曖昧名詞文節の意味を明確にする技術が開示されている。また、特許文献１には、曖昧な接頭語または接尾語の文節の前または後に、数字列文節が存在する場合に、曖昧語テーブルを参照し、曖昧な接頭語及び接尾語の文節と数字列文節とを変換する技術が開示されている。

特許文献２には、専門用語判別装置に関する技術が開示されている。専門用語判別装置は、構成語を組み合わせて構成される複合語を各構成語に分割し、分割された構成語間の意味距離の大きさに基づいて複合語の専門性を判定する。このような構成により、予め構成語が専門用語であるか否かについて情報を保持していなくても、複合語を構成する構成語間の意味距離の大きさに基づいて、複合語の専門性を判定する。

特開平０１−２４３１１６号公報特開２００８−８３７５３号公報

しかしながら、特許文献１に記載された手法は、予め定義してある上位語定義表を参照することによって、曖昧名詞文節の意味を明確にする技術であるため、文書の曖昧性を評価できない場合がある。それは、システム開発の仕様書のような限定された閲覧者を想像している文書における接頭語や接尾語等の付属語に属する曖昧語を含む文書の曖昧性を評価する場合である。

接頭語や接尾語等の付属語に属する曖昧語は、単語と組み合わされた状態において語義が定義済みであるか否かによって、その曖昧性が大きく異なる。しかしながら、システム開発の仕様書のような限定された閲覧者を想像している文書に使用される独自用語、業界用語、法律用語又は定型表現等は、辞書には登録されていないケースが多く、参照すべき上位語定義表に相当する情報がない。このため、特許文献１に記載された手法では、システム開発の仕様書のような限定された閲覧者を想像している文書における接頭語や接尾語等の付属語に属する曖昧語を含む文書の曖昧性を評価することができない。ここで、接頭語や接尾語等の付属語に属する曖昧語は、「等」、「系」、「半」、「準」といった省略された概念を読み手に推定させる作用を持つものが例として挙げられる。

特許文献２に記載された手法は、複合語の構成語間の意味距離によって専門用語か否かを判定するため、接頭語や接尾語等のように結合される単語（被付属語）によって意味が変わる複合語に適用しても、適切な専門用語の検出ができないことがある。これは、特許文献２の手法においては、構成語が意味的に独立していることが求められているためである。

尚、ここでの文書の曖昧性とは、文書の書き手と読み手との間における理解の齟齬が起きにくいか、又は読み手にとって文書が理解しやすいか、といった少なくとも複数の解釈が起きる可能性を含む文書の情報伝達の性能に関わる特徴を指す。

本発明は、上記課題を鑑み、接頭語や接尾語等の付属語に属する曖昧語を含む文書について、文書の曖昧性を評価できる文書分析装置などを提供することを１つの目的とする。

上記目的を達成するために、本発明に係る情報処理装置は、分析対象である文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出する単語分析手段と、抽出された前記単語及び前記単語情報に基づいて、前記文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、前記曖昧語と結合関係にある被付属語、及び前記曖昧語と前記被付属語とが結合した曖昧表現を検出する曖昧語情報検出手段と、検出された前記被付属語及び前記曖昧表現の含まれる用例の定量的な多さを示す用例指標化ルールに基づいて、前記用例において前記被付属語が含まれる数を示す第１の指標と、前記用例において前記曖昧表現が含まれる数を示す第２の指標と、を算出する用例検索手段と、算出された前記第１の指標と前記第２の指標とを用いて、曖昧表現の語義が定義されている可能性を推定する定義可能性推定ルールに基づいて、文書又は文書群に含まれる曖昧表現の語義が定義されている可能性を示す第３の指標を推定する定義可能性推定手段と、推定された前記第３の指標に基づいて、前記文書又は前記文書群の曖昧性を示す曖昧性指標を算出する曖昧性評価手段と、を備える。

上記目的を達成するために、本発明に係る情報処理方法は、分析対象である文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出し、抽出された前記単語及び前記単語情報に基づいて、前記文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、前記曖昧語と結合関係にある被付属語、及び前記曖昧語と前記被付属語とが結合した曖昧表現を検出し、検出された前記被付属語及び前記曖昧表現の含まれる用例の定量的な多さを示す用例指標化ルールに基づいて、前記用例において前記被付属語が含まれる数を示す第１の指標と、前記用例において前記曖昧表現が含まれる数を示す第２の指標と、を算出し、算出された前記第１の指標と前記第２の指標とを用いて、曖昧表現の語義が一般に定義されている可能性を推定する定義可能性推定ルールに基づいて、文書又は文書群に含まれる曖昧表現の語義が定義されている可能性を示す第３の指標を推定し、推定された前記第３の指標に基づいて、前記文書又は文書群の曖昧性を示す曖昧性指標を算出する。

上記目的を達成するために、本発明に係るコンピュータプログラムは、分析対象である文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出する単語分析処理と、抽出された前記単語及び前記単語情報に基づいて、前記文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、前記曖昧語と結合関係にある被付属語、及び前記曖昧語と前記被付属語とが結合した曖昧表現を検出する曖昧語情報検出処理と、検出された前記被付属語及び前記曖昧表現の含まれる用例の定量的な多さを示す用例指標化ルールに基づいて、前記用例において前記被付属語が含まれる数を示す第１の指標と、前記用例において前記曖昧表現が含まれる数を示す第２の指標と、を算出する用例検索処理と、算出された前記第１の指標と前記第２の指標とを用いて、曖昧表現の語義が一般に定義されている可能性を推定する定義可能性推定ルールに基づいて、文書又は文書群に含まれる曖昧表現の語義が定義されている可能性を示す第３の指標を推定する定義可能性推定処理と、推定された前記第３の指標に基づいて、前記文書又は文書群の曖昧性を示す曖昧性指標を算出する曖昧性評価処理と、をコンピュータに実行させる。

尚、係る同目的は、当該コンピュータプログラムを格納したコンピュータ読み取り可能な記憶媒体によっても達成されうる。

本発明によれば、接頭語や接尾語等の付属語に属する曖昧語を含む文書について、文書の曖昧性を評価できる。

本発明の第１の実施形態に係る文書分析装置１を実現可能な情報処理装置（コンピュータ）のハードウェア構成例を示す図である。第１の実施形態に係る文書分析装置１の構成例を示すブロック図である。第１の実施形態に係る文書分析装置１の動作を示すフローチャートである。第１の実施形態に係る実施例における文書分析システム２の構成例を示す図である。第１の実施形態に係る実施例における曖昧語Ｗａ_ｊ、被付属語Ｗｂ_ｊ、曖昧表現（Ｗ（ａ＋ｂ）_ｊ）の抽出例を示す図である。図５に示す被付属語Ｗｂ_ｊ、曖昧表現（Ｗ（ａ＋ｂ）_ｊ）に関する被付属語用例指標Ｉｂ_ｊ及び曖昧表現用例指標（Ｉ（ａ＋ｂ）_ｊ）の算出例を示す図である。図５に示す曖昧表現（Ｗ（ａ＋ｂ）_ｊ）に関する定義可能性指標（Ｐ（ａ＋ｂ）_ｊ）の算出例を示す図である。図５に示す曖昧語Ｗａ_ｊに関する曖昧性基準値Ｆａと（２）式とを用いた、曖昧表現（Ｗ（ａ＋ｂ）_ｊ）に関する曖昧性指標（Ａ（ａ＋ｂ）_ｊ）の算出例を示す図である。図５に示す曖昧語Ｗａ_ｊに関する曖昧性基準値Ｆａと（３）式とを用いた、曖昧表現（Ｗ（ａ＋ｂ）_ｊ）に関する曖昧性指標（Ａ（ａ＋ｂ）_ｊ）の算出例を示す図である。本発明の第２の実施形態に係る文書分析装置３の構成例を示す図である。

本発明の実施形態について、図面を参照して詳細に説明する。

（第１の実施形態）
はじめに、本発明の第１の実施形態に係る文書分析装置１について説明する。

図１は、本発明の第１の実施形態に係る文書分析装置１を実現可能な情報処理装置（コンピュータ）のハードウェア構成例を示す図である。図１に示すように、文書分析装置１は、ＣＰＵ（Central Processing Unit：中央処理装置）１０、メモリ１２、ＨＤＤ（ハードディスクドライブ）１４、図示しないネットワークを介して通信を行う通信ＩＦ（インターフェース）１６を有する。さらに、文書分析装置１は、キーボード等の入力装置１８、ディスプレイ等の出力装置２０、及びＣＤ（コンパクトディスク）等の記憶媒体２４に記憶された情報を読み取り可能なリーダーライター２２を有する。ＨＤＤ１４は、他の記憶装置でもよい。これらの構成要素は、バス２６を通して互いに接続されており、互いにデータの入出力を行う。

本実施形態にかかる文書分析装置１は、メモリ１２またはＨＤＤ１４に記憶されているコンピュータプログラム（以下、「プログラム」と称する）を、ＣＰＵ１０が実行することにより実現される。または、文書分析装置１は、ＣＰＵ１０が記憶媒体２４に記憶されているプログラムを実行することにより実現されてもよい。ＣＰＵ１０において実行するプログラムは、通信ＩＦ１６あるいはリーダーライター２２を介して外部から取得してもよい。図１に示す文書分析装置１のハードウェア構成例は、後述する実施形態及び実施例にも適用可能である。

図２は、本発明の第１の実施形態にかかる文書分析装置１の機能構成を概念的に例示するブロック図である。図２は、図１において例示したハードウェアを用いて実現される機能を機能単位に表現したブロック図である。図２に示すように、第１の実施形態にかかる文書分析装置１は、文書入力部１０２、単語分析部１０４、曖昧語情報検出部１０６、曖昧語記憶部１０８、用例検索部１１０、用例記憶部１１２、定義可能性推定部１１４、曖昧性評価部１１６及び曖昧性出力部１１８を備える。なお、文書分析装置１をコンピュータに実装するに際して、図２に示すブロック構成に示したブロック分けには限定されない。

文書入力部１０２は、曖昧語を含む可能性があり、優先的な修正が必要な曖昧性の高い箇所を分析する文書もしくは文書群の入力を受け付ける。なお、本実施形態において、文書入力部１０２は、外部装置が有する構成として記載しているが、文書分析装置１が有する構成でもよい。

単語分析部１０４は、入力された文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出する。具体的に、単語分析部１０４は、入力された文書又は文書群を構成する各文章に形態素解析を適用することによって、各文章に使用されている全単語の単語情報を抽出する。

単語は、名詞、動詞及び形容詞等単独で意味をなす単語だけではなく、自立語に助詞等を挟まず結合して使用される接頭語や接尾語等の付属語も個別の単語とみなす。単語情報は、少なくとも使用されている単語とその単語の文書内における存在位置、接頭語や接尾語などの付属語が結合関係にある単語に関する情報を含めてもよい。また、単語情報は、必要に応じて、単語毎の品詞などの情報を含めてもよい。例えば、単語の文書内における存在位置に関する情報は、使用箇所が同定可能な情報であればよい。また、単語の文書内における存在位置に関する情報は、単語の存在する文の出現順位や頁、目次上の章や節、項などが想定される。

曖昧語情報検出部１０６は、抽出された単語及び単語情報に基づいて、文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、その曖昧語と結合関係にある被付属語、及び当該曖昧語と被付属語とが結合した曖昧表現を検出する。具体的に、曖昧語情報検出部１０６は、単語分析部１０４において抽出された各文章に使用されている全単語の単語情報に基づき、文書中の曖昧語の有無を曖昧語記憶部１０８に問合わせる。曖昧語情報検出部１０６は、曖昧語が有る場合、その曖昧語と文書内における存在位置に加え、曖昧語と結合関係にある単語（被付属語）と、曖昧語と被付属語を結合した言葉（曖昧表現）とを、それぞれ各曖昧語に関する曖昧語情報として検出する。係る曖昧語の存在位置は、曖昧語の存在する曖昧語を含む文の出現順位、出現する頁、目次上の章や節及び項などが想定される。

ここで、曖昧語、被付属語及び曖昧表現について詳細に説明する。まず曖昧語は、例えば、「等」、「系」、「半」、「準」といった省略された概念を読み手に推定させる作用を持つ接頭語や接尾語などの付属語に属する単語である。被付属語は、曖昧語と結合関係にある単語である。曖昧表現は、曖昧語と被付属語を結合した言葉である。例えば、曖昧語情報検出部１０６は、ある文書中から「輸出免税等」という言葉の「等」を曖昧語として検出したとする。この場合、曖昧語情報検出部１０６は、「輸出免税」という単語を被付属語として検出し、「輸出免税等」という言葉を曖昧表現として検出する
曖昧語記憶部１０８は、省略された概念を読み手に推定させる作用を持ち、接頭語や接尾語などの付属語に属する曖昧語を蓄積することができる。また、曖昧語記憶部１０８は、曖昧語情報検出部１０６からの任意の単語に関する問い合わせに対し、問い合わせ対象の単語が曖昧語として登録されているか検索する。そして、曖昧語記憶部１０８は、曖昧語情報検出部１０６に対して検索結果を応答する。なお、本実施形態において、曖昧語記憶部１０８は、一例として外部装置が有する構成として記載しているが、文書分析装置１が有する構成でもよい。また、本実施形態において、一例として曖昧語記憶部１０８が主体となって動作する例を説明したが、曖昧語記憶部１０８は、曖昧語を蓄積する動作のみ行ってもよい。

用例検索部１１０は、用例指標化ルールに基づいて、被付属語用例指標（第１の指標）と、曖昧表現用例指標（第２の指標）と、を算出する。用例指標化ルールは、検出された被付属語及び曖昧表現の含まれる用例の定量的な多さを示す。被付属語用例指標は、用例のうちに被付属語が含まれる数を示す。曖昧表現用例指標は、用例のうちに曖昧表現が含まれる数を示す。具体的に、用例検索部１１０は、曖昧語情報検出部１０６において検出した曖昧語情報から各曖昧語に対応する被付属語及び曖昧表現のそれぞれに関する用例を用例記憶部１１２に問い合わせる。用例検索部１１０は、所定の用例指標化ルールに基づいて、得られた被付属語の用例に関する情報から被付属語用例指標を算出する。また、用例検索部１１０は、曖昧表現の用例に関する情報から曖昧表現用例指標を算出する。

用例に関する情報の指標化を行う「用例指標化ルール」は、被付属語や曖昧表現の用例の定量的な多さを示す指標化ルールであればよい。例えば、用例の定量的な多さを示す指標として、検索結果として得られた用例ののべ数、種類数及び文書数等が挙げられる。なお、用例検索部１１０は、用例の検索において、検索キーワードの文字列と一致する文字列を含む用例を結果として返す。そのため、被付属語の検索結果には、曖昧表現としての用例も含まれる。従って、被付属語用例指標には曖昧表現用例指標の量が含まれているものとする。

用例記憶部１１２は、様々な単語が実際に使用された文章などの用例を蓄積することができる。また、用例記憶部１１２は、特定の単語に関する問い合わせに対し、用例を検索し、用例の内容や用例の数などを応答する。この際、用例記憶部１１２には、用例の文章が同一であっても、作成者や作成日時などが異なれば別の用例として保存されていることが望ましい。用例記憶部１１２は、分析する対象とする文書と同一ドメインの文書群が適している。すなわち、分析する対象とする文書がシステム開発の仕様書などであれば、類似システムの仕様書群が相当する。また、分析する対象とする文書が契約書などであれば、関連法規の文書群などが相当する。

なお、本実施形態において、用例記憶部１１２は、一例として外部装置が有する構成として記載しているが、文書分析装置１が有する構成でもよい。また、本実施形態において、一例として用例記憶部１１２が主体となって動作する例を説明したが、用例記憶部１１２は、用例を蓄積する動作のみ行ってもよい。さらに、用例記憶部１１２は、用例を収集する動作を行ってもよい。

定義可能性推定部１１４は、算出された被付属語用例指標と曖昧表現用例指標とを用いて、曖昧表現の語義が一般に定義されている可能性を推定する定義可能性推定ルールに基づいて、曖昧表現の定義可能性指標（第３の指標）を推定する。

定義可能性指標の推定に利用する「定義可能性推定ルール」は、被付属語とは別に曖昧表現の語義が一般に定義されている可能性を推定するルールであればよい。例えば、「定義可能性推定ルール」は、曖昧表現用例指標を被付属語用例指標によって除した関数のように、曖昧表現用例指標と単調増加の関係を有し、かつ被付属語用例指標と単調減少の関係を成す関数によって導かれる値を定義可能性指標として定量化するルールであればよい。また、「定義可能性推定ルール」は、少数の特殊事例による推定の誤りに対応するため、被付属語用例指標が所定の閾値未満の曖昧語に対応する曖昧表現の定義可能性を０とするルールであってもよい。

また、「定義可能性推定ルール」は、定義可能性指標が所定の目安値以上の曖昧表現を「定義されている」と判定するルールであってもよい。定義可能性指標の目安値は、経験的に算出して与えてもよい。しかしながら、定義可能性指標の目安値は、入力に用いた文書内において、曖昧表現毎に曖昧語と連結しない被付属語のみによる使用の有無を調査し、定義されている可能性が非常に高い被付属語のみによる使用の無い曖昧表現の群が、すべて「定義されている」となるように目安値を調整してもよい。

曖昧性評価部１１６は、推定された定義可能性指標に基づいて、曖昧性指標を算出する。具体的に、曖昧性評価部１１６は、曖昧表現の語義が一般に定義されている可能性が高いほど曖昧性が低いと評価されるような予め定められた曖昧性評価関数を用いて曖昧性指標を算出する。例えば、「曖昧性評価関数」は、定義可能性指標の逆数や、１から定義可能性指標を引いた値のように、定義可能性指標と単調減少の関係となる関数であればよい。また、「曖昧性評価関数」は、曖昧語によってベースとなる曖昧さの基準値が異なる場合、この曖昧性基準値を掛けることにより曖昧性指標を算出してもよい。

曖昧性出力部１１８は、各曖昧語に対応する曖昧表現の曖昧性指標及び文書内における存在位置を出力する。例えば、曖昧性出力部１１８は、文書内における各曖昧表現を色分け、太字又は文字の拡大等により強調して明示することによって、文書全体を出力してもよい。他にも、曖昧性出力部１１８は、各曖昧表現を抽出した表などを出力してもよい。他に、曖昧性出力部１１８は、曖昧性指標が任意に設定された閾値より大きい曖昧表現のみ出力してもよい。もしくは、曖昧性出力部１１８は、曖昧性指標によって色分け、太字、又は単語の文字の大きさなどに強弱を与えて出力してもよい。また、曖昧性出力部１１８は、曖昧表現毎の曖昧性指標を文書全体または任意の範囲において集計し、文書の品質を表す指標として表形式によって出力してもよい。また、曖昧性出力部１１８は、各出力形態を選択できるようにして、ベースとなる表示形態から必要に応じて表に移行できるようにしてもよい。また、曖昧性出力部１１８は、必要に応じて曖昧表現に対応する被付属語の品詞を動詞や名詞などに限定して出力するようにしてもよい。なお、本実施形態において、文書出力１１８は、外部装置が有する構成として記載しているが、文書分析装置１が有する構成でもよい。

次に、文書分析装置１の動作を説明する。

図３は、本発明の第１の実施形態に係る文書分析装置１の動作を示すフローチャートである。係るフローチャートは、図２に示す各ブロックがプログラムによって表される場合、そのプログラムを実行するＣＰＵ１０の処理手順を示す。

図３に示すように、ステップＳ１０２において、文書入力部１０２は、分析の対象とする文書又は文書群の入力を受け付ける。

ステップＳ１０４において、単語分析部１０４は、文書入力部１０２が受け付けた文書又は文書群を構成する各文章における各単語及びその使用箇所に関する単語情報を抽出する。

ステップＳ１０６において、曖昧語情報検出部１０６は、単語分析部１０４が抽出した単語及び単語情報に基づいて、曖昧語、被付属語及び曖昧表現を検出する。

ステップＳ１０８において、用例検索部１１０は、曖昧語情報検出部１０６が検出した被付属語及び曖昧表現と、用例指標化ルールとに基づいて、被付属語用例指標及び曖昧表現用例指標を算出する。

ステップＳ１１０において、定義可能性推定部１１４は、用例検索部１１０が算出した被付属語用例指標及び曖昧表現用例指標と、定義可能性推定ルールとに基づいて定義可能性指標を推定する。

ステップＳ１１２において、曖昧性評価部１１６は、定義可能性推定部１１４が推定した定義可能性指標に基づいて、曖昧性指標を算出する。

ステップＳ１１４において、曖昧性出力部１１８は、曖昧性評価部１１６が算出した曖昧性指標及び文書内における存在位置を出力する。

従って、本発明の第１の実施形態に係る文書分析装置１は、接頭語や接尾語等の付属語に属する曖昧語を含む文書について、文書の曖昧性を評価できる。その理由は、文書において、付属語に属する曖昧語が結合している被付属語と曖昧表現とを抽出し、抽出した被付属語と曖昧表現の用例の多さに基づき定義済みである可能性を推定し、推定した定義済みである可能性により曖昧表現の曖昧性を評価しているからである。

また、本発明の第１の実施形態に係る文書分析装置１は、語義が未定義であるために曖昧性が高いと考えられるパターンを優先的な修正が必要な曖昧性の高い箇所として抽出することができる。その理由は、曖昧語を含む文書について、独自用語、業界用語、法律用語又は定型表現等のように、定義済みの語義であるため曖昧性が低いと考えられるパターンを除外するからである。

（実施例）
次に、図４乃至９を参照して、具体的な実施例を用いて、本発明の第１の実施形態に係る文書分析装置１の動作について説明する。

本実施例では、次のことを目的としている。

まず、文書分析装置１は、情報システム構築に関する提案書や仕様書といった、曖昧な箇所を排除すべき文書Ｄ内において、「等」、「系」、「半」、「準」といった付属語に属する曖昧語Ｗａが結合した被付属語Ｗｂを、曖昧語Ｗａと合わせた曖昧表現（Ｗ（ａ＋ｂ））について、文書Ｄの品質に与える曖昧性である曖昧性指標Ａを、各曖昧表現（Ｗ（ａ＋ｂ））の使用場面毎に算出する。更に、文書分析装置１は、各曖昧表現（Ｗ（ａ＋ｂ））の文書Ｄ内における位置や曖昧性の程度に関する曖昧性指標Ａを推定する。そして、文書分析装置１は、推定された曖昧性指標Ａを出力することによって、文書Ｄにおける優先的に修正すべき曖昧箇所の把握や、複数の文書間の比較として品質の低い文書の明確化などを容易にする。また、文書分析装置１は、文書の改善を効率化する。

図４は、本発明の第１の実施形態に係る実施例における文書分析システム２の構成例を示す図である。図４に示すように、本実施例では、文書分析システム２は、情報処理端末５０とインターネットサーバ２０６とによって構成されるものとする。情報処理端末５０は、入力部２０２、文書分析装置１及び出力部２０４を備える。

文書分析装置１は、分析実施者Ｂの持つ情報処理端末５０において動作する。文書分析装置１は、入力部２０２及び出力部２０４を介して、分析実施者Ｂが曖昧性指標Ａを推定したい文書群を構成する文章の入力及び曖昧性指標Ａの提示を実現する。

インターネットサーバ２０６は、通信ネットワークを介して文書分析装置１を実装した分析実施者Ｂの持つ情報処理端末５０と通信可能に接続されている。インターネットサーバ２０６は、文書分析装置１からの単語の問い合わせに対して、曖昧語Ｗａとしての登録の有無の検索を可能する。また、文書分析装置１は、単語の用例の問い合わせに対して、用例の内容や用例の数など単語の用例に関連する用例情報Ｃの検索を可能にする装置である。

次に、図４と図２との対応関係について説明する。

文書入力部１０２は、情報処理端末５０の入力部として動作する。単語分析部１０４、曖昧語情報検出部１０６、用例検索部１１０、定義可能性推定部１１４及び曖昧性評価部１１６は、文書分析装置１が備える。曖昧性出力部１１８は、情報処理端末５０の出力部として動作する。曖昧語記憶部１０８及び用例記憶部１１２は、インターネットサーバ２０６が備える。尚、本実施例では、曖昧語記憶部１０８及び用例記憶部１１２は、インターネットサーバが備える構成だが、文書分析装置１が備える構成又は他の外部装置が備える構成でもよい。

上述した機能を備える文書分析装置１、インターネットサーバ２０６は以下のような動作をする。

文書分析装置１は、入力部２０２から、情報システム構築に関する提案書や仕様書といった、分析実施者Ｂが曖昧な箇所を排除するための曖昧性指標Ａを得たい文書Ｄの入力を受け付ける。そして、文書分析装置１は、文書Ｄを構成する文章毎に形態素解析を適用し、文書を構成する単語Ｗに分解し、文書Ｄに含まれる全ての単語Ｗ_ｉ（ｉ＝１、２、・・・、ｎ）について単語の種類、単語間の連結関係を単語情報として抽出する。なお、「譲渡等」という表現があった場合、文書分析装置１は、「譲渡」と接尾語の「等」とは別の単語としてみなし、「譲渡」と「等」が助詞などを介さず連結していたという情報は保持する。さらに、文書分析装置１は、文書の文の出現順に通し番号として文番号を付け、各単語を含む文の文番号を単語情報に加える。

インターネットサーバ２０６は、省略された概念を読み手に推定させる作用を持ち、接頭語や接尾語などの付属語に属する曖昧語を蓄積した曖昧語情報Ｃａを蓄積する。また、インターネットサーバ２０６は、任意の単語や表現の情報を抽出する検索エンジンなどの機能も提供することにより、文書分析装置１からの問い合わせに応じて、問い合わせ対象の単語が曖昧語情報Ｃａに存在するか否かを判定し、判定結果を提示する。なお、抽出する曖昧語は省略された概念を読み手に推定させる作用を持ち、接頭語や接尾語などの付属語に属する曖昧語であればよい。例えば、接尾語では、「等」、「など」、「感」、「性」、「味」、「とか」、「達」、「系」、「といった」、「みたいな」等の単語が該当する。接頭語では、「全」、「各」、「準」、「約」、「諸」、「当」、「半」、「未」等の単語が該当する。

さらに文書分析装置１は、文書Ｄに含まれる全ての単語Ｗ_ｉについてインターネットサーバ２０６に曖昧語情報Ｃａの曖昧語に該当する単語であるか否かを問い合わせる。文書分析装置１は、曖昧語に該当するという判定結果となった単語Ｗ_ｊ（ｊ＝１、２、・・・、ｍ）を曖昧語Ｗａ_ｊ（ｊ＝１、２、・・・、ｍ）として抽出する。また、文書分析装置１は、曖昧語と結合関係にある被付属語Ｗｂ_ｊと、曖昧語と被付属語を結合した曖昧表現（Ｗ（ａ＋ｂ）_ｊ）とを、曖昧語の存在する文の文番号と共に抽出する。なお、文書分析装置１は、文書Ｄ内に同一の曖昧語が複数回使用されていた場合、それぞれ別々に抽出する。

図５は、第１の実施形態に係る実施例における曖昧語Ｗａ_ｊ、被付属語Ｗｂ_ｊ、曖昧表現（Ｗ（ａ＋ｂ）_ｊ）の抽出例を示す図である。図５に示すように、例えば、曖昧語Ｗａ_ｊとして、「等」、「系」、「準」、「半」を想定する。このとき、文書Ｄ内に「輸出免税等」、「家事消費等」、「譲渡等」、「価格等」、「接頭語系」、「Ｎ７００系」、「半自動化」、「半経験的分子軌道法」、「準委任契約」、「準曖昧語」という文字列が存在した場合、曖昧語Ｗａ_ｊ、被付属語Ｗｂ_ｊ、曖昧表現（Ｗ（ａ＋ｂ）_ｊ）は、図５のように抽出される。

さらに、インターネットサーバ２０６は、単語の用例として大量の文書を収集し、収集した文書を用例情報Ｃとして蓄積する。また、インターネットサーバ２０６は、任意の単語の情報を抽出する検索エンジンなどの機能も提供することによって、文書分析装置１からの問い合わせに応じて、問い合わせ対象の単語Ｗ_ｉの用例の数を用例情報Ｃｉとして抽出し、抽出した用例情報Ｃｉを提示する。

文書分析装置１は、各被付属語Ｗｂ_ｊ及び各曖昧表現（Ｗ（ａ＋ｂ）_ｊ）を検索キーワードとしてインターネットサーバ２０６に対して検索を行うことによって、インターネットサーバ２０６内に保存された用例情報Ｃから、各被付属語Ｗｂ_ｊ及び各曖昧表現（Ｗ（ａ＋ｂ）_ｊ）がそれぞれ用いられている文章を抽出する。そして、文書分析装置１は、検索結果として得られた被付属語の用例を含む文書の数である被付属語用例数を被付属語用例指標Ｉｂ_ｊとし、曖昧表現の用例を含む文書の数である曖昧表現用例数を曖昧表現用例指標（Ｉ（ａ＋ｂ）_ｊ）として集計する。検索機能がキーワードの曖昧性を許容した検索を行う機能を持つ場合、ダブルコーテーションによって囲んだキーワードとして検索するなど、指定の文字列のみの用例を把握する検索方法を選択することが望ましい。

図６は、図５に示す被付属語Ｗｂ_ｊ、曖昧表現（Ｗ（ａ＋ｂ）_ｊ）に関する被付属語用例指標Ｉｂ_ｊ及び曖昧表現用例指標（Ｉ（ａ＋ｂ）_ｊ）の算出例を示す図である。図５の被付属語Ｗｂ_ｊ及び曖昧表現（Ｗ（ａ＋ｂ）_ｊ）に対する被付属語用例指標Ｉｂ_ｊ及び曖昧表現用例指標（Ｉ（ａ＋ｂ）_ｊ）は、図６に示す値になる。

さらに、文書分析装置１は、被付属語用例指標Ｉｂ_ｊに対する曖昧表現用例指標（Ｉ（ａ＋ｂ）_ｊ）の割合として以下に示す（１）式に基づき、曖昧表現の定義可能性指標（Ｐ（ａ＋ｂ）_ｊ）を算出する。

Ｐ（ａ＋ｂ）_ｊ＝（Ｉ（ａ＋ｂ）_ｊ）÷（Ｉｂ_ｊ）・・・（１）式
（１）式に示す定義可能性指標（Ｐ（ａ＋ｂ）_ｊ）は、曖昧表現（Ｗ（ａ＋ｂ）_ｊ）毎に算出される。定義可能性指標（Ｐ（ａ＋ｂ）_ｊ）は、算出された値が高いほど定義されている可能性が高いことを示す指標である。定義可能性指標（Ｐ（ａ＋ｂ）_ｊ）は、曖昧表現（Ｗ（ａ＋ｂ）_ｊ）としてどれだけ使用例があるのかを示す曖昧表現用例指標（Ｉ（ａ＋ｂ）_ｊ）を、被付属語Ｗｂ_ｊ自体がどれだけ使用頻度が高いかを示す被付属語用例指標Ｉｂ_ｊによって除算するため、以下の２つの特徴がある。１つの特徴は、曖昧表現としてあまり使用されない言葉や、被付属語の使用頻度の割には曖昧表現としてあまり使用されない言葉は、定義されている可能性が低いとみなされることである。もう１つの特徴は、逆に、曖昧表現としてよく使用される言葉や、被付属語の使用頻度の割には曖昧表現としてよく使用される言葉は、定義されている可能性が高いとみなされることである。

図７は、図５に示す曖昧表現（Ｗ（ａ＋ｂ）_ｊ）に関する定義可能性指標（Ｐ（ａ＋ｂ）_ｊ）の算出例を示す図である。図７に示すように、図６に示した曖昧表現用例指標（Ｉ（ａ＋ｂ）_ｊ）、被付属語用例指標Ｉｂ_ｊを用いて、（１）式に基づき計算することによって、文書分析装置１は、定義可能性指標（Ｐ（ａ＋ｂ）_ｊ）を算出する。なお、定義可能性指標（Ｐ（ａ＋ｂ）_ｊ）は０から１の値を取りうるが、確率値とは異なるため、定義済みかどうかの判断の目安値は０．５付近にあるとは限らない。例えば、インターネットサーバ２０６の用例情報Ｃがいわゆる一般的なＷｅｂ情報への検索によってもたらされる場合、ある特定の値以上の場合は定義済みの言葉である可能性が高いと判断する。一方で、ある特定の値未満の場合は未定義の言葉である可能性が高いと判断する。このような特定の値を判断の目安値として定めてもよい。

例えば、図７に示す曖昧表現と定義可能性指標（Ｐ（ａ＋ｂ）_ｊ）の場合、同じ「等」という曖昧語を使っていても「輸出免税等」、「家事消費等」は、語義が定義されている可能性が高く、「譲渡等」、「価格等」は語義の定義はない。このことから、共通の解釈が難しいことが分かる。同様に、同じ「系」や「半」、「準」という曖昧語を使っていても「接頭語系」、「半自動化」、「準曖昧語」は未定義、「Ｎ７００系」、「半経験的分子軌道法」、「準委任契約」は、定義されている可能性が高いことが分かる。

ただし、インターネットサーバ２０６の用例情報Ｃは、分析対象となる文書がシステム開発の仕様書などであれば、類似システムの仕様書群に限定してもよい。また、インターネットサーバ２０６の用例情報Ｃは、分析対象となる文書が契約書などであれば、関連法規の文書群などに限定してもよい。その際、定義済みかどうかを判定する目安値Ｐｓは、変化する。

ここで、判定の目安値Ｐｓの設定方法について説明する。被付属語Ｗｂ_ｊのみによる使用の無い各曖昧表現（Ｗ（ａ＋ｂ）_ｊ）は、定義されている可能性が非常に高い。このため、前記被付属語Ｗｂ_ｊのみによる使用の無い曖昧表現（Ｗ（ａ＋ｂ）_ｊ）の各定義可能性指標（Ｐ（ａ＋ｂ）_ｊ）を算出し、算出された定義可能性指標（Ｐ（ａ＋ｂ）_ｊ）の最小値を判定の目安値Ｐｓとしてもよい。具体的には、曖昧表現（Ｗ（ａ＋ｂ）_ｊ）「第三債務者等」、曖昧語Ｗａ_ｊ「等」、被付属語Ｗｂ_ｊ「第三債務者」とした場合、入力文書中に「第三債務者」の使用が無い場合は、「第三債務者等」が定義されている可能性が非常に高いことがわかる。従って、このパターンにおける被付属語Ｗｂ_ｊの使用がない曖昧表現（Ｗ（ａ＋ｂ）_ｊ）の定義可能性指標（Ｐ（ａ＋ｂ）_ｊ）の最小値を判定の目安値Ｐｓにしてもよい。

さらに、文書分析装置１は、曖昧表現の定義可能性指標（Ｐ（ａ＋ｂ）_ｊ）に、以下に示す（２）式（曖昧性評価関数）を適用することによって、曖昧性指標（Ａ（ａ＋ｂ）_ｊ）を算出する。

ここで、Ｆａは、曖昧語Ｗａによってベースとなる曖昧さの基準値が異なることを考慮した曖昧性基準値である。また、文書分析装置１は、曖昧性指標（Ａ（ａ＋ｂ）_ｊ）を文書全体において集計した値を、文書Ｄの品質を表す曖昧性指標Ａｄとして算出する。

図８は、図５に示す曖昧語Ｗａ_ｊに関する曖昧性基準値Ｆａと（２）式とを用いた、曖昧表現（Ｗ（ａ＋ｂ）_ｊ）に関する曖昧性指標（Ａ（ａ＋ｂ）_ｊ）の算出例を示す図である。図８に示すように、例えば、曖昧性基準値Ｆａが「等」：１．４、「系」：１．１、「半」：０．９、「準」：０．８の場合、曖昧性指標（Ａ（ａ＋ｂ）_ｊ）は、図８のように算出される。図８に示すように、「譲渡等」、「価格等」、「接頭語系」などの言葉の曖昧性が高いことが分かる。

また、曖昧表現の定義可能性の判定の目安値Ｐｓが分かっている場合は、曖昧表現の定義可能性指標（Ｐ（ａ＋ｂ）_ｊ）に、以下に示す（３）式を適用することにより曖昧性指標（Ａ（ａ＋ｂ）_ｊ）を算出してもよい。

図９は、図５に示す曖昧語Ｗａ_ｊに関する曖昧性基準値Ｆａと（３）式とを用いた、曖昧表現（Ｗ（ａ＋ｂ）_ｊ）に関する曖昧性指標（Ａ（ａ＋ｂ）_ｊ）の算出例を示す図である。図９に示すように、定義可能性指標（Ｐ（ａ＋ｂ）_ｊ）に対して（３）式を適用することにより曖昧性指標（Ａ（ａ＋ｂ）_ｊ）を算出する。例えば、曖昧表現の定義可能性の判定の目安値Ｐｓが０．０４（４％）の場合、曖昧性指標（Ａ（ａ＋ｂ）_ｊ）は、図９のように算出される。図９に示すように、「譲渡等」、「価格等」、「接頭語系」、「半自動化」、「準曖昧語」等の言葉に曖昧性があることが示される。

出力部２０４は、曖昧性指標（Ａ（ａ＋ｂ）_ｊ）及び曖昧表現（Ｗ（ａ＋ｂ）_ｊ）に含まれる曖昧語Ｗａ_ｊの文番号に基づき、「輸出免税等」など、文書Ｄ内における各曖昧表現（Ｗ（ａ＋ｂ）_ｊ）を着色し明示することによって、修正すべき曖昧な文の箇所を表示する。また、出力部２０４は、曖昧性指標Ａｄに基づき、曖昧表現（Ｗ（ａ＋ｂ）_ｊ）の曖昧性指標Ａｄを、文書Ｄ全体及び目次の章単位毎に集計することにより、表又はグラフ等の形式の結果を出力することができる。これにより、文書分析装置１は、文書Ｄの品質を表すメトリクス及び修正すべき曖昧な章を判断する情報を提供することができる。

（第２の実施形態）
次に、本発明の第２の実施形態に係る文書分析装置３について説明する。

図１０は、本発明の第２の実施形態にかかる文書分析装置３の機能構成を概念的に例示するブロック図である。図２に示すように、第２の実施形態にかかる文書分析装置３は、単語分析部３０４、曖昧語情報検出部３０６、用例検索部３１０、定義可能性推定部３１４及び曖昧性評価部３１６を備える。

単語分析部３０４は、分析対象である文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出する。

曖昧語情報検出部３０６は、抽出された単語及び単語情報に基づいて、文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、曖昧語と結合関係にある被付属語、及び曖昧語と被付属語とが結合した曖昧表現を検出する。

用例検索部３１０は、検出された被付属語及び曖昧表現の含まれる用例の定量的な多さを示す用例指標化ルールに基づいて、用例において被付属語が含まれる数を示す第１の指標と、用例において曖昧表現が含まれる数を示す第２の指標と、を算出する。

定義可能性推定部３１４は、算出された第１の指標と第２の指標とを用いて、曖昧表現の語義が定義されている可能性を推定する定義可能性推定ルールに基づいて、文書及び文書群に含まれる曖昧表現の語義が定義されている可能性を示す第３の指標を推定する。

曖昧性評価部３１６は、推定された第３の指標に基づいて、文書又は文書群の曖昧性を示す曖昧性指標を算出する。

以上説明したように、本発明の第２の実施形態に係る文書分析装置３は、接頭語や接尾語等の付属語に属する曖昧語を含む文書について、文書の曖昧性を評価できる。その理由は、文書において、付属語に属する曖昧語が結合している被付属語と曖昧表現とを抽出し、抽出した被付属語と曖昧表現の用例の多さに基づき定義済みである可能性を推定し、推定した定義済みである可能性により曖昧表現の曖昧性を評価しているからである。

（実施形態の他の表現）
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２０１２年１１月２７日に出願された日本特許出願特願２０１２−２５８５９４を基礎とする優先権を主張し、その開示の全てを盛り込む。

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）
分析対象である文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出する単語分析部と、
抽出された前記単語及び前記単語情報に基づいて、前記文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、前記曖昧語と結合関係にある被付属語、及び前記曖昧語と前記被付属語とが結合した曖昧表現を検出する曖昧語情報検出部と、
検出された前記被付属語及び前記曖昧表現の含まれる用例の定量的な多さを示す用例指標化ルールに基づいて、前記用例において前記被付属語が含まれる数を示す第１の指標と、前記用例において前記曖昧表現が含まれる数を示す第２の指標と、を算出する用例検索部と、
算出された前記第１の指標と前記第２の指標とを用いて、曖昧表現の語義が定義されている可能性を推定する定義可能性推定ルールに基づいて、前記文書又は前記文書群に含まれる曖昧表現の語義が定義されている可能性を示す第３の指標を推定する定義可能性推定部と、
推定された前記第３の指標に基づいて、前記文書又は前記文書群の曖昧性を示す曖昧性指標を算出する曖昧性評価部と、
を備える文書分析装置。

（付記２）
前記文書の入力を受け付ける文書入力部と、
前記曖昧性指標を出力する曖昧性出力部と、をさらに備える付記１に記載の文書分析装置。

（付記３）
前記用例指標化ルールは、前記被付属語及び前記曖昧表現の前記用例毎の数、種類数及び文書数のいずれかを指標として抽出することにより、前記第１の指標及び前記第２の指標を算出するルールであることを特徴とする付記１又は付記２に記載の文書分析装置。

（付記４）
前記定義可能性推定ルールは、前記第２の指標と単調増加の関係を有し、かつ前記第１の指標と単調減少の関係を成す関数によって導かれる値を、前記第３の指標として定量化するルールであることを特徴とする付記１乃至３の何れかに記載の文書分析装置。

（付記５）
前記定義可能性推定ルールは、前記第３の指標が予め定められた閾値以上の曖昧表現を定義されているか否かの判定に用いるルールであることを特徴とする付記４に記載の文書分析装置。

（付記６）
前記定義可能性推定ルールは、入力に用いた文書内において、前記曖昧表現ごとに曖昧語と連結しない被付属語のみによる使用の有無を調査し、調査の結果に基づいて前記被付属語のみによる使用が無い曖昧表現の群に対して、定義されていると判定されるように閾値を調整するルールであることを特徴とする付記５に記載の文書分析装置。

（付記７）
前記曖昧性評価部は、前記曖昧表現の語義が定義されている可能性が高いほど曖昧性が低いと評価されるように定められた曖昧性評価関数を用いて曖昧性指標を算出することを特徴とする付記１乃至６の何れかに記載の文書分析装置。

（付記８）
前記曖昧性評価関数は、前記第３の指標と単調減少の関係を成す関数であることを特徴とする付記７に記載の文書分析装置。

（付記９）
前記曖昧語情報検出部は、前記単語分析部により抽出された前記単語及び前記単語情報に基づいて曖昧語の有無を、曖昧語が蓄積される曖昧語記憶部に問い合わせることにより、前記曖昧語、前記被付属語及び前記曖昧表現を検出することを特徴とする付記１乃至８の何れかに記載の文書分析装置。

（付記１０）
前記用例検索部は、前記曖昧語情報検出部により検出された前記被付属語と前記曖昧表現に基づいて、単語が実際に使用された文書又は文書群を構成する文章の用例が蓄積される用例記憶部に特定の単語に関する情報を問い合わせることにより、該当する用例の数及び内容を検索することを特徴とする付記１乃至９の何れかに記載の文書分析装置。

（付記１１）
前記用例記憶部は、インターネット上の文書群あるいは分析する対象の文書と同一ドメインの文書群を蓄積することを特徴とする付記１０に記載の文書分析装置。

（付記１２）
分析対象である文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出し、
抽出された前記単語及び前記単語情報に基づいて、前記文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、前記曖昧語と結合関係にある被付属語、及び前記曖昧語と前記被付属語とが結合した曖昧表現を検出し、
検出された前記被付属語及び前記曖昧表現の含まれる用例の定量的な多さを示す用例指標化ルールに基づいて、前記用例において前記被付属語が含まれる数を示す第１の指標と、前記用例において前記曖昧表現が含まれる数を示す第２の指標と、を算出し、
算出された前記第１の指標と前記第２の指標とを用いて、曖昧表現の語義が一般に定義されている可能性を推定する定義可能性推定ルールに基づいて、前記文書又は前記文書群に含まれる曖昧表現の語義が定義されている可能性を示す第３の指標を推定し、
推定された前記第３の指標に基づいて、前記文書又は前記文書群の曖昧性を示す曖昧性指標を算出する、
文書分析方法。

（付記１３）
分析対象である文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出する単語分析処理と、
抽出された前記単語及び前記単語情報に基づいて、前記文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、前記曖昧語と結合関係にある被付属語、及び前記曖昧語と前記被付属語とが結合した曖昧表現を検出する曖昧語情報検出処理と、
検出された前記被付属語及び前記曖昧表現の含まれる用例の定量的な多さを示す用例指標化ルールに基づいて、前記用例において前記被付属語が含まれる数を示す第１の指標と、前記用例において前記曖昧表現が含まれる数を示す第２の指標と、を算出する用例検索処理と、
算出された前記第１の指標と前記第２の指標とを用いて、曖昧表現の語義が一般に定義されている可能性を推定する定義可能性推定ルールに基づいて、前記文書又は前記文書群に含まれる曖昧表現の語義が定義されている可能性を示す第３の指標を推定する定義可能性推定処理と、
推定された前記第３の指標に基づいて、前記文書又は前記文書群の曖昧性を示す曖昧性指標を算出する曖昧性評価処理と、
をコンピュータに実行させるコンピュータプログラム。

１、３文書分析装置
２文書分析システム
１０ＣＰＵ
１２メモリ
１４ＨＤＤ
１６通信ＩＦ
１８入力装置
２０出力装置
２２リーダーライター
２４記憶媒体
２６バス
５０情報処理端末
１０２文書入力部
１０４、３０４単語分析部
１０６、３０６曖昧語情報検出部
１０８、曖昧語記憶部
１１０、３１０用例検索部
１１２用例記憶部
１１４、３１４定義可能性推定部
１１６、３１６曖昧性評価部
１１８曖昧性出力部
２０２入力部
２０４出力部
２０６インターネットサーバ

Claims

分析対象である文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出する単語分析手段と、
抽出された前記単語及び前記単語情報に基づいて、前記文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、前記曖昧語と結合関係にある被付属語、及び前記曖昧語と前記被付属語とが結合した曖昧表現を検出する曖昧語情報検出手段と、
検出された前記被付属語及び前記曖昧表現の含まれる用例の定量的な多さを示す用例指標化ルールに基づいて、前記用例において前記被付属語が含まれる数を示す第１の指標と、前記用例において前記曖昧表現が含まれる数を示す第２の指標と、を算出する用例検索手段と、
算出された前記第１の指標と前記第２の指標とを用いて、曖昧表現の語義が定義されている可能性を推定する定義可能性推定ルールに基づいて、前記文書又は前記文書群に含まれる曖昧表現の語義が定義されている可能性を示す第３の指標を推定する定義可能性推定手段と、
推定された前記第３の指標に基づいて、前記文書又は前記文書群の曖昧性を示す曖昧性指標を算出する曖昧性評価手段と、
を備え、
前記曖昧語情報検出手段は、前記単語分析手段により抽出された前記単語及び前記単語情報に基づいて曖昧語の有無を、曖昧語が蓄積される曖昧語記憶手段に問い合わせることにより、前記曖昧語、前記被付属語及び前記曖昧表現を検出する
文書分析装置。
前記文書の入力を受け付ける文書入力手段と、
前記曖昧性指標を出力する曖昧性出力手段と、をさらに備える請求項１に記載の文書分析装置。
前記用例指標化ルールは、前記被付属語及び前記曖昧表現の前記用例毎の数、種類数及び文書数のいずれかを指標として抽出することにより、前記第１の指標及び前記第２の指標を算出するルールであることを特徴とする請求項１又は請求項２に記載の文書分析装置。
前記定義可能性推定ルールは、前記第２の指標と単調増加の関係を有し、かつ前記第１の指標と単調減少の関係を成す関数によって導かれる値を、前記第３の指標として定量化するルールであることを特徴とする請求項１乃至３の何れかに記載の文書分析装置。
前記曖昧性評価手段は、前記曖昧表現の語義が定義されている可能性が高いほど曖昧性が低いと評価されるように定められた曖昧性評価関数を用いて曖昧性指標を算出することを特徴とする請求項１乃至４の何れかに記載の文書分析装置。
前記曖昧性評価関数は、前記第３の指標と単調減少の関係を成す関数である
ことを特徴とする請求項５に記載の文書分析装置。
前記用例検索手段は、前記曖昧語情報検出手段により検出された前記被付属語と前記曖昧表現に基づいて、単語が実際に使用された文書又は文書群を構成する文章の用例が蓄積される用例記憶手段に特定の単語に関する情報を問い合わせることにより、該当する用例の数及び内容を検索することを特徴とする請求項１乃至６の何れかに記載の文書分析装置。
コンピュータによって、
分析対象である文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出し、
抽出された前記単語及び前記単語情報に基づいて、前記文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、前記曖昧語と結合関係にある被付属語、及び前記曖昧語と前記被付属語とが結合した曖昧表現を検出し、
検出された前記被付属語及び前記曖昧表現の含まれる用例の定量的な多さを示す用例指標化ルールに基づいて、前記用例において前記被付属語が含まれる数を示す第１の指標と、前記用例において前記曖昧表現が含まれる数を示す第２の指標と、を算出し、
算出された前記第１の指標と前記第２の指標とを用いて、曖昧表現の語義が一般に定義されている可能性を推定する定義可能性推定ルールに基づいて、前記文書又は前記文書群に含まれる曖昧表現の語義が定義されている可能性を示す第３の指標を推定し、
推定された前記第３の指標に基づいて、前記文書又は前記文書群の曖昧性を示す曖昧性指標を算出し、
前記コンピュータによって前記検出することは、抽出された前記単語及び前記単語情報に基づいて曖昧語の有無を、曖昧語が蓄積される曖昧語記憶手段に問い合わせることにより、前記曖昧語、前記被付属語及び前記曖昧表現を検出することを含む、
文書分析方法。
コンピュータに、
分析対象である文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出する単語分析処理と、
抽出された前記単語及び前記単語情報に基づいて、前記文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、前記曖昧語と結合関係にある被付属語、及び前記曖昧語と前記被付属語とが結合した曖昧表現を検出する曖昧語情報検出処理と、
検出された前記被付属語及び前記曖昧表現の含まれる用例の定量的な多さを示す用例指標化ルールに基づいて、前記用例において前記被付属語が含まれる数を示す第１の指標と、前記用例において前記曖昧表現が含まれる数を示す第２の指標と、を算出する用例検索処理と、
算出された前記第１の指標と前記第２の指標とを用いて、曖昧表現の語義が一般に定義されている可能性を推定する定義可能性推定ルールに基づいて、前記文書又は前記文書群に含まれる曖昧表現の語義が定義されている可能性を示す第３の指標を推定する定義可能性推定処理と、
推定された前記第３の指標に基づいて、前記文書又は前記文書群の曖昧性を示す曖昧性指標を算出する曖昧性評価処理と、
前記曖昧語情報検出処理に含まれる、抽出された前記単語及び前記単語情報に基づいて曖昧語の有無を、曖昧語が蓄積される曖昧語記憶手段に問い合わせることにより、前記曖昧語、前記被付属語及び前記曖昧表現を検出すること、
を実行させるための文書分析プログラム。