JP6332035B2 - 文書分析装置、文書分析方法及び文書分析プログラム - Google Patents

文書分析装置、文書分析方法及び文書分析プログラム Download PDF

Info

Publication number
JP6332035B2
JP6332035B2 JP2014549825A JP2014549825A JP6332035B2 JP 6332035 B2 JP6332035 B2 JP 6332035B2 JP 2014549825 A JP2014549825 A JP 2014549825A JP 2014549825 A JP2014549825 A JP 2014549825A JP 6332035 B2 JP6332035 B2 JP 6332035B2
Authority
JP
Japan
Prior art keywords
word
ambiguous
document
index
ambiguity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014549825A
Other languages
English (en)
Other versions
JPWO2014083835A1 (ja
Inventor
英司 平尾
英司 平尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2014083835A1 publication Critical patent/JPWO2014083835A1/ja
Application granted granted Critical
Publication of JP6332035B2 publication Critical patent/JP6332035B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書の曖昧性を評価する情報処理の技術に関する。
近年、自然言語で書かれた文書を、情報処理装置(コンピュータ)によって分析することにより、その文書の曖昧性を評価する技術が知られている。例えば、特許文献1では、情報検索時において、検索条件や検索対象としての範囲が不明確な意味を持つ名詞文節を、曖昧語テーブルを参照して、その曖昧語テーブルに予め定義されている検索条件範囲や検索対象範囲に変換する日本文処理方法に関する技術が開示されている。また、特許文献1には、曖昧性を表す付属語が付属した名詞文節の曖昧性を解決する場合、具体的データ名の上位関係を予め定義してある上位語定義表を参照し、曖昧名詞文節の意味を明確にする技術が開示されている。また、特許文献1には、曖昧な接頭語または接尾語の文節の前または後に、数字列文節が存在する場合に、曖昧語テーブルを参照し、曖昧な接頭語及び接尾語の文節と数字列文節とを変換する技術が開示されている。
特許文献2には、専門用語判別装置に関する技術が開示されている。専門用語判別装置は、構成語を組み合わせて構成される複合語を各構成語に分割し、分割された構成語間の意味距離の大きさに基づいて複合語の専門性を判定する。このような構成により、予め構成語が専門用語であるか否かについて情報を保持していなくても、複合語を構成する構成語間の意味距離の大きさに基づいて、複合語の専門性を判定する。
特開平01−243116号公報 特開2008−83753号公報
しかしながら、特許文献1に記載された手法は、予め定義してある上位語定義表を参照することによって、曖昧名詞文節の意味を明確にする技術であるため、文書の曖昧性を評価できない場合がある。それは、システム開発の仕様書のような限定された閲覧者を想像している文書における接頭語や接尾語等の付属語に属する曖昧語を含む文書の曖昧性を評価する場合である。
接頭語や接尾語等の付属語に属する曖昧語は、単語と組み合わされた状態において語義が定義済みであるか否かによって、その曖昧性が大きく異なる。しかしながら、システム開発の仕様書のような限定された閲覧者を想像している文書に使用される独自用語、業界用語、法律用語又は定型表現等は、辞書には登録されていないケースが多く、参照すべき上位語定義表に相当する情報がない。このため、特許文献1に記載された手法では、システム開発の仕様書のような限定された閲覧者を想像している文書における接頭語や接尾語等の付属語に属する曖昧語を含む文書の曖昧性を評価することができない。ここで、接頭語や接尾語等の付属語に属する曖昧語は、「等」、「系」、「半」、「準」といった省略された概念を読み手に推定させる作用を持つものが例として挙げられる。
特許文献2に記載された手法は、複合語の構成語間の意味距離によって専門用語か否かを判定するため、接頭語や接尾語等のように結合される単語(被付属語)によって意味が変わる複合語に適用しても、適切な専門用語の検出ができないことがある。これは、特許文献2の手法においては、構成語が意味的に独立していることが求められているためである。
尚、ここでの文書の曖昧性とは、文書の書き手と読み手との間における理解の齟齬が起きにくいか、又は読み手にとって文書が理解しやすいか、といった少なくとも複数の解釈が起きる可能性を含む文書の情報伝達の性能に関わる特徴を指す。
本発明は、上記課題を鑑み、接頭語や接尾語等の付属語に属する曖昧語を含む文書について、文書の曖昧性を評価できる文書分析装置などを提供することを1つの目的とする。
上記目的を達成するために、本発明に係る情報処理装置は、分析対象である文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出する単語分析手段と、抽出された前記単語及び前記単語情報に基づいて、前記文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、前記曖昧語と結合関係にある被付属語、及び前記曖昧語と前記被付属語とが結合した曖昧表現を検出する曖昧語情報検出手段と、検出された前記被付属語及び前記曖昧表現の含まれる用例の定量的な多さを示す用例指標化ルールに基づいて、前記用例において前記被付属語が含まれる数を示す第1の指標と、前記用例において前記曖昧表現が含まれる数を示す第2の指標と、を算出する用例検索手段と、算出された前記第1の指標と前記第2の指標とを用いて、曖昧表現の語義が定義されている可能性を推定する定義可能性推定ルールに基づいて、文書又は文書群に含まれる曖昧表現の語義が定義されている可能性を示す第3の指標を推定する定義可能性推定手段と、推定された前記第3の指標に基づいて、前記文書又は前記文書群の曖昧性を示す曖昧性指標を算出する曖昧性評価手段と、を備える。
上記目的を達成するために、本発明に係る情報処理方法は、分析対象である文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出し、抽出された前記単語及び前記単語情報に基づいて、前記文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、前記曖昧語と結合関係にある被付属語、及び前記曖昧語と前記被付属語とが結合した曖昧表現を検出し、検出された前記被付属語及び前記曖昧表現の含まれる用例の定量的な多さを示す用例指標化ルールに基づいて、前記用例において前記被付属語が含まれる数を示す第1の指標と、前記用例において前記曖昧表現が含まれる数を示す第2の指標と、を算出し、算出された前記第1の指標と前記第2の指標とを用いて、曖昧表現の語義が一般に定義されている可能性を推定する定義可能性推定ルールに基づいて、文書又は文書群に含まれる曖昧表現の語義が定義されている可能性を示す第3の指標を推定し、推定された前記第3の指標に基づいて、前記文書又は文書群の曖昧性を示す曖昧性指標を算出する。
上記目的を達成するために、本発明に係るコンピュータプログラムは、分析対象である文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出する単語分析処理と、抽出された前記単語及び前記単語情報に基づいて、前記文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、前記曖昧語と結合関係にある被付属語、及び前記曖昧語と前記被付属語とが結合した曖昧表現を検出する曖昧語情報検出処理と、検出された前記被付属語及び前記曖昧表現の含まれる用例の定量的な多さを示す用例指標化ルールに基づいて、前記用例において前記被付属語が含まれる数を示す第1の指標と、前記用例において前記曖昧表現が含まれる数を示す第2の指標と、を算出する用例検索処理と、算出された前記第1の指標と前記第2の指標とを用いて、曖昧表現の語義が一般に定義されている可能性を推定する定義可能性推定ルールに基づいて、文書又は文書群に含まれる曖昧表現の語義が定義されている可能性を示す第3の指標を推定する定義可能性推定処理と、推定された前記第3の指標に基づいて、前記文書又は文書群の曖昧性を示す曖昧性指標を算出する曖昧性評価処理と、をコンピュータに実行させる。
尚、係る同目的は、当該コンピュータプログラムを格納したコンピュータ読み取り可能な記憶媒体によっても達成されうる。
本発明によれば、接頭語や接尾語等の付属語に属する曖昧語を含む文書について、文書の曖昧性を評価できる。
本発明の第1の実施形態に係る文書分析装置1を実現可能な情報処理装置(コンピュータ)のハードウェア構成例を示す図である。 第1の実施形態に係る文書分析装置1の構成例を示すブロック図である。 第1の実施形態に係る文書分析装置1の動作を示すフローチャートである。 第1の実施形態に係る実施例における文書分析システム2の構成例を示す図である。 第1の実施形態に係る実施例における曖昧語Wa、被付属語Wb、曖昧表現(W(a+b))の抽出例を示す図である。 図5に示す被付属語Wb、曖昧表現(W(a+b))に関する被付属語用例指標Ib及び曖昧表現用例指標(I(a+b))の算出例を示す図である。 図5に示す曖昧表現(W(a+b))に関する定義可能性指標(P(a+b))の算出例を示す図である。 図5に示す曖昧語Waに関する曖昧性基準値Faと(2)式とを用いた、曖昧表現(W(a+b))に関する曖昧性指標(A(a+b))の算出例を示す図である。 図5に示す曖昧語Waに関する曖昧性基準値Faと(3)式とを用いた、曖昧表現(W(a+b))に関する曖昧性指標(A(a+b))の算出例を示す図である。 本発明の第2の実施形態に係る文書分析装置3の構成例を示す図である。
本発明の実施形態について、図面を参照して詳細に説明する。
(第1の実施形態)
はじめに、本発明の第1の実施形態に係る文書分析装置1について説明する。
図1は、本発明の第1の実施形態に係る文書分析装置1を実現可能な情報処理装置(コンピュータ)のハードウェア構成例を示す図である。図1に示すように、文書分析装置1は、CPU(Central Processing Unit:中央処理装置)10、メモリ12、HDD(ハードディスクドライブ)14、図示しないネットワークを介して通信を行う通信IF(インターフェース)16を有する。さらに、文書分析装置1は、キーボード等の入力装置18、ディスプレイ等の出力装置20、及びCD(コンパクトディスク)等の記憶媒体24に記憶された情報を読み取り可能なリーダーライター22を有する。HDD14は、他の記憶装置でもよい。これらの構成要素は、バス26を通して互いに接続されており、互いにデータの入出力を行う。
本実施形態にかかる文書分析装置1は、メモリ12またはHDD14に記憶されているコンピュータプログラム(以下、「プログラム」と称する)を、CPU10が実行することにより実現される。または、文書分析装置1は、CPU10が記憶媒体24に記憶されているプログラムを実行することにより実現されてもよい。CPU10において実行するプログラムは、通信IF16あるいはリーダーライター22を介して外部から取得してもよい。図1に示す文書分析装置1のハードウェア構成例は、後述する実施形態及び実施例にも適用可能である。
図2は、本発明の第1の実施形態にかかる文書分析装置1の機能構成を概念的に例示するブロック図である。図2は、図1において例示したハードウェアを用いて実現される機能を機能単位に表現したブロック図である。図2に示すように、第1の実施形態にかかる文書分析装置1は、文書入力部102、単語分析部104、曖昧語情報検出部106、曖昧語記憶部108、用例検索部110、用例記憶部112、定義可能性推定部114、曖昧性評価部116及び曖昧性出力部118を備える。なお、文書分析装置1をコンピュータに実装するに際して、図2に示すブロック構成に示したブロック分けには限定されない。
文書入力部102は、曖昧語を含む可能性があり、優先的な修正が必要な曖昧性の高い箇所を分析する文書もしくは文書群の入力を受け付ける。なお、本実施形態において、文書入力部102は、外部装置が有する構成として記載しているが、文書分析装置1が有する構成でもよい。
単語分析部104は、入力された文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出する。具体的に、単語分析部104は、入力された文書又は文書群を構成する各文章に形態素解析を適用することによって、各文章に使用されている全単語の単語情報を抽出する。
単語は、名詞、動詞及び形容詞等単独で意味をなす単語だけではなく、自立語に助詞等を挟まず結合して使用される接頭語や接尾語等の付属語も個別の単語とみなす。単語情報は、少なくとも使用されている単語とその単語の文書内における存在位置、接頭語や接尾語などの付属語が結合関係にある単語に関する情報を含めてもよい。また、単語情報は、必要に応じて、単語毎の品詞などの情報を含めてもよい。例えば、単語の文書内における存在位置に関する情報は、使用箇所が同定可能な情報であればよい。また、単語の文書内における存在位置に関する情報は、単語の存在する文の出現順位や頁、目次上の章や節、項などが想定される。
曖昧語情報検出部106は、抽出された単語及び単語情報に基づいて、文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、その曖昧語と結合関係にある被付属語、及び当該曖昧語と被付属語とが結合した曖昧表現を検出する。具体的に、曖昧語情報検出部106は、単語分析部104において抽出された各文章に使用されている全単語の単語情報に基づき、文書中の曖昧語の有無を曖昧語記憶部108に問合わせる。曖昧語情報検出部106は、曖昧語が有る場合、その曖昧語と文書内における存在位置に加え、曖昧語と結合関係にある単語(被付属語)と、曖昧語と被付属語を結合した言葉(曖昧表現)とを、それぞれ各曖昧語に関する曖昧語情報として検出する。係る曖昧語の存在位置は、曖昧語の存在する曖昧語を含む文の出現順位、出現する頁、目次上の章や節及び項などが想定される。
ここで、曖昧語、被付属語及び曖昧表現について詳細に説明する。まず曖昧語は、例えば、「等」、「系」、「半」、「準」といった省略された概念を読み手に推定させる作用を持つ接頭語や接尾語などの付属語に属する単語である。被付属語は、曖昧語と結合関係にある単語である。曖昧表現は、曖昧語と被付属語を結合した言葉である。例えば、曖昧語情報検出部106は、ある文書中から「輸出免税等」という言葉の「等」を曖昧語として検出したとする。この場合、曖昧語情報検出部106は、「輸出免税」という単語を被付属語として検出し、「輸出免税等」という言葉を曖昧表現として検出する
曖昧語記憶部108は、省略された概念を読み手に推定させる作用を持ち、接頭語や接尾語などの付属語に属する曖昧語を蓄積することができる。また、曖昧語記憶部108は、曖昧語情報検出部106からの任意の単語に関する問い合わせに対し、問い合わせ対象の単語が曖昧語として登録されているか検索する。そして、曖昧語記憶部108は、曖昧語情報検出部106に対して検索結果を応答する。なお、本実施形態において、曖昧語記憶部108は、一例として外部装置が有する構成として記載しているが、文書分析装置1が有する構成でもよい。また、本実施形態において、一例として曖昧語記憶部108が主体となって動作する例を説明したが、曖昧語記憶部108は、曖昧語を蓄積する動作のみ行ってもよい。
用例検索部110は、用例指標化ルールに基づいて、被付属語用例指標(第1の指標)と、曖昧表現用例指標(第2の指標)と、を算出する。用例指標化ルールは、検出された被付属語及び曖昧表現の含まれる用例の定量的な多さを示す。被付属語用例指標は、用例のうちに被付属語が含まれる数を示す。曖昧表現用例指標は、用例のうちに曖昧表現が含まれる数を示す。具体的に、用例検索部110は、曖昧語情報検出部106において検出した曖昧語情報から各曖昧語に対応する被付属語及び曖昧表現のそれぞれに関する用例を用例記憶部112に問い合わせる。用例検索部110は、所定の用例指標化ルールに基づいて、得られた被付属語の用例に関する情報から被付属語用例指標を算出する。また、用例検索部110は、曖昧表現の用例に関する情報から曖昧表現用例指標を算出する。
用例に関する情報の指標化を行う「用例指標化ルール」は、被付属語や曖昧表現の用例の定量的な多さを示す指標化ルールであればよい。例えば、用例の定量的な多さを示す指標として、検索結果として得られた用例ののべ数、種類数及び文書数等が挙げられる。なお、用例検索部110は、用例の検索において、検索キーワードの文字列と一致する文字列を含む用例を結果として返す。そのため、被付属語の検索結果には、曖昧表現としての用例も含まれる。従って、被付属語用例指標には曖昧表現用例指標の量が含まれているものとする。
用例記憶部112は、様々な単語が実際に使用された文章などの用例を蓄積することができる。また、用例記憶部112は、特定の単語に関する問い合わせに対し、用例を検索し、用例の内容や用例の数などを応答する。この際、用例記憶部112には、用例の文章が同一であっても、作成者や作成日時などが異なれば別の用例として保存されていることが望ましい。用例記憶部112は、分析する対象とする文書と同一ドメインの文書群が適している。すなわち、分析する対象とする文書がシステム開発の仕様書などであれば、類似システムの仕様書群が相当する。また、分析する対象とする文書が契約書などであれば、関連法規の文書群などが相当する。
なお、本実施形態において、用例記憶部112は、一例として外部装置が有する構成として記載しているが、文書分析装置1が有する構成でもよい。また、本実施形態において、一例として用例記憶部112が主体となって動作する例を説明したが、用例記憶部112は、用例を蓄積する動作のみ行ってもよい。さらに、用例記憶部112は、用例を収集する動作を行ってもよい。
定義可能性推定部114は、算出された被付属語用例指標と曖昧表現用例指標とを用いて、曖昧表現の語義が一般に定義されている可能性を推定する定義可能性推定ルールに基づいて、曖昧表現の定義可能性指標(第3の指標)を推定する。
定義可能性指標の推定に利用する「定義可能性推定ルール」は、被付属語とは別に曖昧表現の語義が一般に定義されている可能性を推定するルールであればよい。例えば、「定義可能性推定ルール」は、曖昧表現用例指標を被付属語用例指標によって除した関数のように、曖昧表現用例指標と単調増加の関係を有し、かつ被付属語用例指標と単調減少の関係を成す関数によって導かれる値を定義可能性指標として定量化するルールであればよい。また、「定義可能性推定ルール」は、少数の特殊事例による推定の誤りに対応するため、被付属語用例指標が所定の閾値未満の曖昧語に対応する曖昧表現の定義可能性を0とするルールであってもよい。
また、「定義可能性推定ルール」は、定義可能性指標が所定の目安値以上の曖昧表現を「定義されている」と判定するルールであってもよい。定義可能性指標の目安値は、経験的に算出して与えてもよい。しかしながら、定義可能性指標の目安値は、入力に用いた文書内において、曖昧表現毎に曖昧語と連結しない被付属語のみによる使用の有無を調査し、定義されている可能性が非常に高い被付属語のみによる使用の無い曖昧表現の群が、すべて「定義されている」となるように目安値を調整してもよい。
曖昧性評価部116は、推定された定義可能性指標に基づいて、曖昧性指標を算出する。具体的に、曖昧性評価部116は、曖昧表現の語義が一般に定義されている可能性が高いほど曖昧性が低いと評価されるような予め定められた曖昧性評価関数を用いて曖昧性指標を算出する。例えば、「曖昧性評価関数」は、定義可能性指標の逆数や、1から定義可能性指標を引いた値のように、定義可能性指標と単調減少の関係となる関数であればよい。また、「曖昧性評価関数」は、曖昧語によってベースとなる曖昧さの基準値が異なる場合、この曖昧性基準値を掛けることにより曖昧性指標を算出してもよい。
曖昧性出力部118は、各曖昧語に対応する曖昧表現の曖昧性指標及び文書内における存在位置を出力する。例えば、曖昧性出力部118は、文書内における各曖昧表現を色分け、太字又は文字の拡大等により強調して明示することによって、文書全体を出力してもよい。他にも、曖昧性出力部118は、各曖昧表現を抽出した表などを出力してもよい。他に、曖昧性出力部118は、曖昧性指標が任意に設定された閾値より大きい曖昧表現のみ出力してもよい。もしくは、曖昧性出力部118は、曖昧性指標によって色分け、太字、又は単語の文字の大きさなどに強弱を与えて出力してもよい。また、曖昧性出力部118は、曖昧表現毎の曖昧性指標を文書全体または任意の範囲において集計し、文書の品質を表す指標として表形式によって出力してもよい。また、曖昧性出力部118は、各出力形態を選択できるようにして、ベースとなる表示形態から必要に応じて表に移行できるようにしてもよい。また、曖昧性出力部118は、必要に応じて曖昧表現に対応する被付属語の品詞を動詞や名詞などに限定して出力するようにしてもよい。なお、本実施形態において、文書出力118は、外部装置が有する構成として記載しているが、文書分析装置1が有する構成でもよい。
次に、文書分析装置1の動作を説明する。
図3は、本発明の第1の実施形態に係る文書分析装置1の動作を示すフローチャートである。係るフローチャートは、図2に示す各ブロックがプログラムによって表される場合、そのプログラムを実行するCPU10の処理手順を示す。
図3に示すように、ステップS102において、文書入力部102は、分析の対象とする文書又は文書群の入力を受け付ける。
ステップS104において、単語分析部104は、文書入力部102が受け付けた文書又は文書群を構成する各文章における各単語及びその使用箇所に関する単語情報を抽出する。
ステップS106において、曖昧語情報検出部106は、単語分析部104が抽出した単語及び単語情報に基づいて、曖昧語、被付属語及び曖昧表現を検出する。
ステップS108において、用例検索部110は、曖昧語情報検出部106が検出した被付属語及び曖昧表現と、用例指標化ルールとに基づいて、被付属語用例指標及び曖昧表現用例指標を算出する。
ステップS110において、定義可能性推定部114は、用例検索部110が算出した被付属語用例指標及び曖昧表現用例指標と、定義可能性推定ルールとに基づいて定義可能性指標を推定する。
ステップS112において、曖昧性評価部116は、定義可能性推定部114が推定した定義可能性指標に基づいて、曖昧性指標を算出する。
ステップS114において、曖昧性出力部118は、曖昧性評価部116が算出した曖昧性指標及び文書内における存在位置を出力する。
従って、本発明の第1の実施形態に係る文書分析装置1は、接頭語や接尾語等の付属語に属する曖昧語を含む文書について、文書の曖昧性を評価できる。その理由は、文書において、付属語に属する曖昧語が結合している被付属語と曖昧表現とを抽出し、抽出した被付属語と曖昧表現の用例の多さに基づき定義済みである可能性を推定し、推定した定義済みである可能性により曖昧表現の曖昧性を評価しているからである。
また、本発明の第1の実施形態に係る文書分析装置1は、語義が未定義であるために曖昧性が高いと考えられるパターンを優先的な修正が必要な曖昧性の高い箇所として抽出することができる。その理由は、曖昧語を含む文書について、独自用語、業界用語、法律用語又は定型表現等のように、定義済みの語義であるため曖昧性が低いと考えられるパターンを除外するからである。
(実施例)
次に、図4乃至9を参照して、具体的な実施例を用いて、本発明の第1の実施形態に係る文書分析装置1の動作について説明する。
本実施例では、次のことを目的としている。
まず、文書分析装置1は、情報システム構築に関する提案書や仕様書といった、曖昧な箇所を排除すべき文書D内において、「等」、「系」、「半」、「準」といった付属語に属する曖昧語Waが結合した被付属語Wbを、曖昧語Waと合わせた曖昧表現(W(a+b))について、文書Dの品質に与える曖昧性である曖昧性指標Aを、各曖昧表現(W(a+b))の使用場面毎に算出する。更に、文書分析装置1は、各曖昧表現(W(a+b))の文書D内における位置や曖昧性の程度に関する曖昧性指標Aを推定する。そして、文書分析装置1は、推定された曖昧性指標Aを出力することによって、文書Dにおける優先的に修正すべき曖昧箇所の把握や、複数の文書間の比較として品質の低い文書の明確化などを容易にする。また、文書分析装置1は、文書の改善を効率化する。
図4は、本発明の第1の実施形態に係る実施例における文書分析システム2の構成例を示す図である。図4に示すように、本実施例では、文書分析システム2は、情報処理端末50とインターネットサーバ206とによって構成されるものとする。情報処理端末50は、入力部202、文書分析装置1及び出力部204を備える。
文書分析装置1は、分析実施者Bの持つ情報処理端末50において動作する。文書分析装置1は、入力部202及び出力部204を介して、分析実施者Bが曖昧性指標Aを推定したい文書群を構成する文章の入力及び曖昧性指標Aの提示を実現する。
インターネットサーバ206は、通信ネットワークを介して文書分析装置1を実装した分析実施者Bの持つ情報処理端末50と通信可能に接続されている。インターネットサーバ206は、文書分析装置1からの単語の問い合わせに対して、曖昧語Waとしての登録の有無の検索を可能する。また、文書分析装置1は、単語の用例の問い合わせに対して、用例の内容や用例の数など単語の用例に関連する用例情報Cの検索を可能にする装置である。
次に、図4と図2との対応関係について説明する。
文書入力部102は、情報処理端末50の入力部として動作する。単語分析部104、曖昧語情報検出部106、用例検索部110、定義可能性推定部114及び曖昧性評価部116は、文書分析装置1が備える。曖昧性出力部118は、情報処理端末50の出力部として動作する。曖昧語記憶部108及び用例記憶部112は、インターネットサーバ206が備える。尚、本実施例では、曖昧語記憶部108及び用例記憶部112は、インターネットサーバが備える構成だが、文書分析装置1が備える構成又は他の外部装置が備える構成でもよい。
上述した機能を備える文書分析装置1、インターネットサーバ206は以下のような動作をする。
文書分析装置1は、入力部202から、情報システム構築に関する提案書や仕様書といった、分析実施者Bが曖昧な箇所を排除するための曖昧性指標Aを得たい文書Dの入力を受け付ける。そして、文書分析装置1は、文書Dを構成する文章毎に形態素解析を適用し、文書を構成する単語Wに分解し、文書Dに含まれる全ての単語W(i=1、2、・・・、n)について単語の種類、単語間の連結関係を単語情報として抽出する。なお、「譲渡等」という表現があった場合、文書分析装置1は、「譲渡」と接尾語の「等」とは別の単語としてみなし、「譲渡」と「等」が助詞などを介さず連結していたという情報は保持する。さらに、文書分析装置1は、文書の文の出現順に通し番号として文番号を付け、各単語を含む文の文番号を単語情報に加える。
インターネットサーバ206は、省略された概念を読み手に推定させる作用を持ち、接頭語や接尾語などの付属語に属する曖昧語を蓄積した曖昧語情報Caを蓄積する。また、インターネットサーバ206は、任意の単語や表現の情報を抽出する検索エンジンなどの機能も提供することにより、文書分析装置1からの問い合わせに応じて、問い合わせ対象の単語が曖昧語情報Caに存在するか否かを判定し、判定結果を提示する。なお、抽出する曖昧語は省略された概念を読み手に推定させる作用を持ち、接頭語や接尾語などの付属語に属する曖昧語であればよい。例えば、接尾語では、「等」、「など」、「感」、「性」、「味」、「とか」、「達」、「系」、「といった」、「みたいな」等の単語が該当する。接頭語では、「全」、「各」、「準」、「約」、「諸」、「当」、「半」、「未」等の単語が該当する。
さらに文書分析装置1は、文書Dに含まれる全ての単語Wについてインターネットサーバ206に曖昧語情報Caの曖昧語に該当する単語であるか否かを問い合わせる。文書分析装置1は、曖昧語に該当するという判定結果となった単語W(j=1、2、・・・、m)を曖昧語Wa(j=1、2、・・・、m)として抽出する。また、文書分析装置1は、曖昧語と結合関係にある被付属語Wbと、曖昧語と被付属語を結合した曖昧表現(W(a+b))とを、曖昧語の存在する文の文番号と共に抽出する。なお、文書分析装置1は、文書D内に同一の曖昧語が複数回使用されていた場合、それぞれ別々に抽出する。
図5は、第1の実施形態に係る実施例における曖昧語Wa、被付属語Wb、曖昧表現(W(a+b))の抽出例を示す図である。図5に示すように、例えば、曖昧語Waとして、「等」、「系」、「準」、「半」を想定する。このとき、文書D内に「輸出免税等」、「家事消費等」、「譲渡等」、「価格等」、「接頭語系」、「N700系」、「半自動化」、「半経験的分子軌道法」、「準委任契約」、「準曖昧語」という文字列が存在した場合、曖昧語Wa、被付属語Wb、曖昧表現(W(a+b))は、図5のように抽出される。
さらに、インターネットサーバ206は、単語の用例として大量の文書を収集し、収集した文書を用例情報Cとして蓄積する。また、インターネットサーバ206は、任意の単語の情報を抽出する検索エンジンなどの機能も提供することによって、文書分析装置1からの問い合わせに応じて、問い合わせ対象の単語Wの用例の数を用例情報Ciとして抽出し、抽出した用例情報Ciを提示する。
文書分析装置1は、各被付属語Wb及び各曖昧表現(W(a+b))を検索キーワードとしてインターネットサーバ206に対して検索を行うことによって、インターネットサーバ206内に保存された用例情報Cから、各被付属語Wb及び各曖昧表現(W(a+b))がそれぞれ用いられている文章を抽出する。そして、文書分析装置1は、検索結果として得られた被付属語の用例を含む文書の数である被付属語用例数を被付属語用例指標Ibとし、曖昧表現の用例を含む文書の数である曖昧表現用例数を曖昧表現用例指標(I(a+b))として集計する。検索機能がキーワードの曖昧性を許容した検索を行う機能を持つ場合、ダブルコーテーションによって囲んだキーワードとして検索するなど、指定の文字列のみの用例を把握する検索方法を選択することが望ましい。
図6は、図5に示す被付属語Wb、曖昧表現(W(a+b))に関する被付属語用例指標Ib及び曖昧表現用例指標(I(a+b))の算出例を示す図である。図5の被付属語Wb及び曖昧表現(W(a+b))に対する被付属語用例指標Ib及び曖昧表現用例指標(I(a+b))は、図6に示す値になる。
さらに、文書分析装置1は、被付属語用例指標Ibに対する曖昧表現用例指標(I(a+b))の割合として以下に示す(1)式に基づき、曖昧表現の定義可能性指標(P(a+b))を算出する。
P(a+b)=(I(a+b))÷(Ib)・・・(1)式
(1)式に示す定義可能性指標(P(a+b))は、曖昧表現(W(a+b))毎に算出される。定義可能性指標(P(a+b))は、算出された値が高いほど定義されている可能性が高いことを示す指標である。定義可能性指標(P(a+b))は、曖昧表現(W(a+b))としてどれだけ使用例があるのかを示す曖昧表現用例指標(I(a+b))を、被付属語Wb自体がどれだけ使用頻度が高いかを示す被付属語用例指標Ibによって除算するため、以下の2つの特徴がある。1つの特徴は、曖昧表現としてあまり使用されない言葉や、被付属語の使用頻度の割には曖昧表現としてあまり使用されない言葉は、定義されている可能性が低いとみなされることである。もう1つの特徴は、逆に、曖昧表現としてよく使用される言葉や、被付属語の使用頻度の割には曖昧表現としてよく使用される言葉は、定義されている可能性が高いとみなされることである。
図7は、図5に示す曖昧表現(W(a+b))に関する定義可能性指標(P(a+b))の算出例を示す図である。図7に示すように、図6に示した曖昧表現用例指標(I(a+b))、被付属語用例指標Ibを用いて、(1)式に基づき計算することによって、文書分析装置1は、定義可能性指標(P(a+b))を算出する。なお、定義可能性指標(P(a+b))は0から1の値を取りうるが、確率値とは異なるため、定義済みかどうかの判断の目安値は0.5付近にあるとは限らない。例えば、インターネットサーバ206の用例情報Cがいわゆる一般的なWeb情報への検索によってもたらされる場合、ある特定の値以上の場合は定義済みの言葉である可能性が高いと判断する。一方で、ある特定の値未満の場合は未定義の言葉である可能性が高いと判断する。このような特定の値を判断の目安値として定めてもよい。
例えば、図7に示す曖昧表現と定義可能性指標(P(a+b))の場合、同じ「等」という曖昧語を使っていても「輸出免税等」、「家事消費等」は、語義が定義されている可能性が高く、「譲渡等」、「価格等」は語義の定義はない。このことから、共通の解釈が難しいことが分かる。同様に、同じ「系」や「半」、「準」という曖昧語を使っていても「接頭語系」、「半自動化」、「準曖昧語」は未定義、「N700系」、「半経験的分子軌道法」、「準委任契約」は、定義されている可能性が高いことが分かる。
ただし、インターネットサーバ206の用例情報Cは、分析対象となる文書がシステム開発の仕様書などであれば、類似システムの仕様書群に限定してもよい。また、インターネットサーバ206の用例情報Cは、分析対象となる文書が契約書などであれば、関連法規の文書群などに限定してもよい。その際、定義済みかどうかを判定する目安値Psは、変化する。
ここで、判定の目安値Psの設定方法について説明する。被付属語Wbのみによる使用の無い各曖昧表現(W(a+b))は、定義されている可能性が非常に高い。このため、前記被付属語Wbのみによる使用の無い曖昧表現(W(a+b))の各定義可能性指標(P(a+b))を算出し、算出された定義可能性指標(P(a+b))の最小値を判定の目安値Psとしてもよい。具体的には、曖昧表現(W(a+b))「第三債務者等」、曖昧語Wa「等」、被付属語Wb「第三債務者」とした場合、入力文書中に「第三債務者」の使用が無い場合は、「第三債務者等」が定義されている可能性が非常に高いことがわかる。従って、このパターンにおける被付属語Wbの使用がない曖昧表現(W(a+b))の定義可能性指標(P(a+b))の最小値を判定の目安値Psにしてもよい。
さらに、文書分析装置1は、曖昧表現の定義可能性指標(P(a+b))に、以下に示す(2)式(曖昧性評価関数)を適用することによって、曖昧性指標(A(a+b))を算出する。
Figure 0006332035
ここで、Faは、曖昧語Waによってベースとなる曖昧さの基準値が異なることを考慮した曖昧性基準値である。また、文書分析装置1は、曖昧性指標(A(a+b))を文書全体において集計した値を、文書Dの品質を表す曖昧性指標Adとして算出する。
図8は、図5に示す曖昧語Waに関する曖昧性基準値Faと(2)式とを用いた、曖昧表現(W(a+b))に関する曖昧性指標(A(a+b))の算出例を示す図である。図8に示すように、例えば、曖昧性基準値Faが「等」:1.4、「系」:1.1、「半」:0.9、「準」:0.8の場合、曖昧性指標(A(a+b))は、図8のように算出される。図8に示すように、「譲渡等」、「価格等」、「接頭語系」などの言葉の曖昧性が高いことが分かる。
また、曖昧表現の定義可能性の判定の目安値Psが分かっている場合は、曖昧表現の定義可能性指標(P(a+b))に、以下に示す(3)式を適用することにより曖昧性指標(A(a+b))を算出してもよい。
Figure 0006332035
図9は、図5に示す曖昧語Waに関する曖昧性基準値Faと(3)式とを用いた、曖昧表現(W(a+b))に関する曖昧性指標(A(a+b))の算出例を示す図である。図9に示すように、定義可能性指標(P(a+b))に対して(3)式を適用することにより曖昧性指標(A(a+b))を算出する。例えば、曖昧表現の定義可能性の判定の目安値Psが0.04(4%)の場合、曖昧性指標(A(a+b))は、図9のように算出される。図9に示すように、「譲渡等」、「価格等」、「接頭語系」、「半自動化」、「準曖昧語」等の言葉に曖昧性があることが示される。
出力部204は、曖昧性指標(A(a+b))及び曖昧表現(W(a+b))に含まれる曖昧語Waの文番号に基づき、「輸出免税等」など、文書D内における各曖昧表現(W(a+b))を着色し明示することによって、修正すべき曖昧な文の箇所を表示する。また、出力部204は、曖昧性指標Adに基づき、曖昧表現(W(a+b))の曖昧性指標Adを、文書D全体及び目次の章単位毎に集計することにより、表又はグラフ等の形式の結果を出力することができる。これにより、文書分析装置1は、文書Dの品質を表すメトリクス及び修正すべき曖昧な章を判断する情報を提供することができる。
(第2の実施形態)
次に、本発明の第2の実施形態に係る文書分析装置3について説明する。
図10は、本発明の第2の実施形態にかかる文書分析装置3の機能構成を概念的に例示するブロック図である。図2に示すように、第2の実施形態にかかる文書分析装置3は、単語分析部304、曖昧語情報検出部306、用例検索部310、定義可能性推定部314及び曖昧性評価部316を備える。
単語分析部304は、分析対象である文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出する。
曖昧語情報検出部306は、抽出された単語及び単語情報に基づいて、文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、曖昧語と結合関係にある被付属語、及び曖昧語と被付属語とが結合した曖昧表現を検出する。
用例検索部310は、検出された被付属語及び曖昧表現の含まれる用例の定量的な多さを示す用例指標化ルールに基づいて、用例において被付属語が含まれる数を示す第1の指標と、用例において曖昧表現が含まれる数を示す第2の指標と、を算出する。
定義可能性推定部314は、算出された第1の指標と第2の指標とを用いて、曖昧表現の語義が定義されている可能性を推定する定義可能性推定ルールに基づいて、文書及び文書群に含まれる曖昧表現の語義が定義されている可能性を示す第3の指標を推定する。
曖昧性評価部316は、推定された第3の指標に基づいて、文書又は文書群の曖昧性を示す曖昧性指標を算出する。
以上説明したように、本発明の第2の実施形態に係る文書分析装置3は、接頭語や接尾語等の付属語に属する曖昧語を含む文書について、文書の曖昧性を評価できる。その理由は、文書において、付属語に属する曖昧語が結合している被付属語と曖昧表現とを抽出し、抽出した被付属語と曖昧表現の用例の多さに基づき定義済みである可能性を推定し、推定した定義済みである可能性により曖昧表現の曖昧性を評価しているからである。
(実施形態の他の表現)
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2012年11月27日に出願された日本特許出願特願2012−258594を基礎とする優先権を主張し、その開示の全てを盛り込む。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
分析対象である文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出する単語分析部と、
抽出された前記単語及び前記単語情報に基づいて、前記文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、前記曖昧語と結合関係にある被付属語、及び前記曖昧語と前記被付属語とが結合した曖昧表現を検出する曖昧語情報検出部と、
検出された前記被付属語及び前記曖昧表現の含まれる用例の定量的な多さを示す用例指標化ルールに基づいて、前記用例において前記被付属語が含まれる数を示す第1の指標と、前記用例において前記曖昧表現が含まれる数を示す第2の指標と、を算出する用例検索部と、
算出された前記第1の指標と前記第2の指標とを用いて、曖昧表現の語義が定義されている可能性を推定する定義可能性推定ルールに基づいて、前記文書又は前記文書群に含まれる曖昧表現の語義が定義されている可能性を示す第3の指標を推定する定義可能性推定部と、
推定された前記第3の指標に基づいて、前記文書又は前記文書群の曖昧性を示す曖昧性指標を算出する曖昧性評価部と、
を備える文書分析装置。
(付記2)
前記文書の入力を受け付ける文書入力部と、
前記曖昧性指標を出力する曖昧性出力部と、をさらに備える付記1に記載の文書分析装置。
(付記3)
前記用例指標化ルールは、前記被付属語及び前記曖昧表現の前記用例毎の数、種類数及び文書数のいずれかを指標として抽出することにより、前記第1の指標及び前記第2の指標を算出するルールであることを特徴とする付記1又は付記2に記載の文書分析装置。
(付記4)
前記定義可能性推定ルールは、前記第2の指標と単調増加の関係を有し、かつ前記第1の指標と単調減少の関係を成す関数によって導かれる値を、前記第3の指標として定量化するルールであることを特徴とする付記1乃至3の何れかに記載の文書分析装置。
(付記5)
前記定義可能性推定ルールは、前記第3の指標が予め定められた閾値以上の曖昧表現を定義されているか否かの判定に用いるルールであることを特徴とする付記4に記載の文書分析装置。
(付記6)
前記定義可能性推定ルールは、入力に用いた文書内において、前記曖昧表現ごとに曖昧語と連結しない被付属語のみによる使用の有無を調査し、調査の結果に基づいて前記被付属語のみによる使用が無い曖昧表現の群に対して、定義されていると判定されるように閾値を調整するルールであることを特徴とする付記5に記載の文書分析装置。
(付記7)
前記曖昧性評価部は、前記曖昧表現の語義が定義されている可能性が高いほど曖昧性が低いと評価されるように定められた曖昧性評価関数を用いて曖昧性指標を算出することを特徴とする付記1乃至6の何れかに記載の文書分析装置。
(付記8)
前記曖昧性評価関数は、前記第3の指標と単調減少の関係を成す関数であることを特徴とする付記7に記載の文書分析装置。
(付記9)
前記曖昧語情報検出部は、前記単語分析部により抽出された前記単語及び前記単語情報に基づいて曖昧語の有無を、曖昧語が蓄積される曖昧語記憶部に問い合わせることにより、前記曖昧語、前記被付属語及び前記曖昧表現を検出することを特徴とする付記1乃至8の何れかに記載の文書分析装置。
(付記10)
前記用例検索部は、前記曖昧語情報検出部により検出された前記被付属語と前記曖昧表現に基づいて、単語が実際に使用された文書又は文書群を構成する文章の用例が蓄積される用例記憶部に特定の単語に関する情報を問い合わせることにより、該当する用例の数及び内容を検索することを特徴とする付記1乃至9の何れかに記載の文書分析装置。
(付記11)
前記用例記憶部は、インターネット上の文書群あるいは分析する対象の文書と同一ドメインの文書群を蓄積することを特徴とする付記10に記載の文書分析装置。
(付記12)
分析対象である文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出し、
抽出された前記単語及び前記単語情報に基づいて、前記文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、前記曖昧語と結合関係にある被付属語、及び前記曖昧語と前記被付属語とが結合した曖昧表現を検出し、
検出された前記被付属語及び前記曖昧表現の含まれる用例の定量的な多さを示す用例指標化ルールに基づいて、前記用例において前記被付属語が含まれる数を示す第1の指標と、前記用例において前記曖昧表現が含まれる数を示す第2の指標と、を算出し、
算出された前記第1の指標と前記第2の指標とを用いて、曖昧表現の語義が一般に定義されている可能性を推定する定義可能性推定ルールに基づいて、前記文書又は前記文書群に含まれる曖昧表現の語義が定義されている可能性を示す第3の指標を推定し、
推定された前記第3の指標に基づいて、前記文書又は前記文書群の曖昧性を示す曖昧性指標を算出する、
文書分析方法。
(付記13)
分析対象である文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出する単語分析処理と、
抽出された前記単語及び前記単語情報に基づいて、前記文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、前記曖昧語と結合関係にある被付属語、及び前記曖昧語と前記被付属語とが結合した曖昧表現を検出する曖昧語情報検出処理と、
検出された前記被付属語及び前記曖昧表現の含まれる用例の定量的な多さを示す用例指標化ルールに基づいて、前記用例において前記被付属語が含まれる数を示す第1の指標と、前記用例において前記曖昧表現が含まれる数を示す第2の指標と、を算出する用例検索処理と、
算出された前記第1の指標と前記第2の指標とを用いて、曖昧表現の語義が一般に定義されている可能性を推定する定義可能性推定ルールに基づいて、前記文書又は前記文書群に含まれる曖昧表現の語義が定義されている可能性を示す第3の指標を推定する定義可能性推定処理と、
推定された前記第3の指標に基づいて、前記文書又は前記文書群の曖昧性を示す曖昧性指標を算出する曖昧性評価処理と、
をコンピュータに実行させるコンピュータプログラム。
1、3 文書分析装置
2 文書分析システム
10 CPU
12 メモリ
14 HDD
16 通信IF
18 入力装置
20 出力装置
22 リーダーライター
24 記憶媒体
26 バス
50 情報処理端末
102 文書入力部
104、304 単語分析部
106、306 曖昧語情報検出部
108、 曖昧語記憶部
110、310 用例検索部
112 用例記憶部
114、314 定義可能性推定部
116、316 曖昧性評価部
118 曖昧性出力部
202 入力部
204 出力部
206 インターネットサーバ

Claims (9)

  1. 分析対象である文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出する単語分析手段と、
    抽出された前記単語及び前記単語情報に基づいて、前記文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、前記曖昧語と結合関係にある被付属語、及び前記曖昧語と前記被付属語とが結合した曖昧表現を検出する曖昧語情報検出手段と、
    検出された前記被付属語及び前記曖昧表現の含まれる用例の定量的な多さを示す用例指標化ルールに基づいて、前記用例において前記被付属語が含まれる数を示す第1の指標と、前記用例において前記曖昧表現が含まれる数を示す第2の指標と、を算出する用例検索手段と、
    算出された前記第1の指標と前記第2の指標とを用いて、曖昧表現の語義が定義されている可能性を推定する定義可能性推定ルールに基づいて、前記文書又は前記文書群に含まれる曖昧表現の語義が定義されている可能性を示す第3の指標を推定する定義可能性推定手段と、
    推定された前記第3の指標に基づいて、前記文書又は前記文書群の曖昧性を示す曖昧性指標を算出する曖昧性評価手段と、
    を備え
    前記曖昧語情報検出手段は、前記単語分析手段により抽出された前記単語及び前記単語情報に基づいて曖昧語の有無を、曖昧語が蓄積される曖昧語記憶手段に問い合わせることにより、前記曖昧語、前記被付属語及び前記曖昧表現を検出する
    文書分析装置。
  2. 前記文書の入力を受け付ける文書入力手段と、
    前記曖昧性指標を出力する曖昧性出力手段と、をさらに備える請求項1に記載の文書分析装置。
  3. 前記用例指標化ルールは、前記被付属語及び前記曖昧表現の前記用例毎の数、種類数及び文書数のいずれかを指標として抽出することにより、前記第1の指標及び前記第2の指標を算出するルールであることを特徴とする請求項1又は請求項2に記載の文書分析装置。
  4. 前記定義可能性推定ルールは、前記第2の指標と単調増加の関係を有し、かつ前記第1の指標と単調減少の関係を成す関数によって導かれる値を、前記第3の指標として定量化するルールであることを特徴とする請求項1乃至3の何れかに記載の文書分析装置。
  5. 前記曖昧性評価手段は、前記曖昧表現の語義が定義されている可能性が高いほど曖昧性が低いと評価されるように定められた曖昧性評価関数を用いて曖昧性指標を算出することを特徴とする請求項1乃至4の何れかに記載の文書分析装置。
  6. 前記曖昧性評価関数は、前記第3の指標と単調減少の関係を成す関数である
    ことを特徴とする請求項5に記載の文書分析装置。
  7. 前記用例検索手段は、前記曖昧語情報検出手段により検出された前記被付属語と前記曖昧表現に基づいて、単語が実際に使用された文書又は文書群を構成する文章の用例が蓄積される用例記憶手段に特定の単語に関する情報を問い合わせることにより、該当する用例の数及び内容を検索することを特徴とする請求項1乃至の何れかに記載の文書分析装置。
  8. コンピュータによって、
    分析対象である文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出し、
    抽出された前記単語及び前記単語情報に基づいて、前記文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、前記曖昧語と結合関係にある被付属語、及び前記曖昧語と前記被付属語とが結合した曖昧表現を検出し、
    検出された前記被付属語及び前記曖昧表現の含まれる用例の定量的な多さを示す用例指標化ルールに基づいて、前記用例において前記被付属語が含まれる数を示す第1の指標と、前記用例において前記曖昧表現が含まれる数を示す第2の指標と、を算出し、
    算出された前記第1の指標と前記第2の指標とを用いて、曖昧表現の語義が一般に定義されている可能性を推定する定義可能性推定ルールに基づいて、前記文書又は前記文書群に含まれる曖昧表現の語義が定義されている可能性を示す第3の指標を推定し、
    推定された前記第3の指標に基づいて、前記文書又は前記文書群の曖昧性を示す曖昧性指標を算出し、
    前記コンピュータによって前記検出することは、抽出された前記単語及び前記単語情報に基づいて曖昧語の有無を、曖昧語が蓄積される曖昧語記憶手段に問い合わせることにより、前記曖昧語、前記被付属語及び前記曖昧表現を検出することを含む、
    文書分析方法。
  9. コンピュータに、
    分析対象である文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出する単語分析処理と、
    抽出された前記単語及び前記単語情報に基づいて、前記文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、前記曖昧語と結合関係にある被付属語、及び前記曖昧語と前記被付属語とが結合した曖昧表現を検出する曖昧語情報検出処理と、
    検出された前記被付属語及び前記曖昧表現の含まれる用例の定量的な多さを示す用例指標化ルールに基づいて、前記用例において前記被付属語が含まれる数を示す第1の指標と、前記用例において前記曖昧表現が含まれる数を示す第2の指標と、を算出する用例検索処理と、
    算出された前記第1の指標と前記第2の指標とを用いて、曖昧表現の語義が一般に定義されている可能性を推定する定義可能性推定ルールに基づいて、前記文書又は前記文書群に含まれる曖昧表現の語義が定義されている可能性を示す第3の指標を推定する定義可能性推定処理と、
    推定された前記第3の指標に基づいて、前記文書又は前記文書群の曖昧性を示す曖昧性指標を算出する曖昧性評価処理と、
    前記曖昧語情報検出処理に含まれる、抽出された前記単語及び前記単語情報に基づいて曖昧語の有無を、曖昧語が蓄積される曖昧語記憶手段に問い合わせることにより、前記曖昧語、前記被付属語及び前記曖昧表現を検出すること、
    実行させるための文書分析プログラム。
JP2014549825A 2012-11-27 2013-11-26 文書分析装置、文書分析方法及び文書分析プログラム Active JP6332035B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012258594 2012-11-27
JP2012258594 2012-11-27
PCT/JP2013/006919 WO2014083835A1 (ja) 2012-11-27 2013-11-26 文書分析装置、文書分析方法及び記憶媒体

Publications (2)

Publication Number Publication Date
JPWO2014083835A1 JPWO2014083835A1 (ja) 2017-01-05
JP6332035B2 true JP6332035B2 (ja) 2018-05-30

Family

ID=50827496

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014549825A Active JP6332035B2 (ja) 2012-11-27 2013-11-26 文書分析装置、文書分析方法及び文書分析プログラム

Country Status (2)

Country Link
JP (1) JP6332035B2 (ja)
WO (1) WO2014083835A1 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01243116A (ja) * 1988-03-25 1989-09-27 Hitachi Ltd 日本文処理方法
JP2009510639A (ja) * 2005-10-04 2009-03-12 トムソン グローバル リソーシーズ 医療用語の曖昧性を判定するシステム、方法およびソフトウェア
JP5245291B2 (ja) * 2007-05-24 2013-07-24 富士ゼロックス株式会社 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム
JP5128328B2 (ja) * 2008-03-13 2013-01-23 日本放送協会 曖昧性評価装置およびプログラム

Also Published As

Publication number Publication date
WO2014083835A1 (ja) 2014-06-05
JPWO2014083835A1 (ja) 2017-01-05

Similar Documents

Publication Publication Date Title
KR100544514B1 (ko) 검색 쿼리 연관성 판단 방법 및 시스템
KR102080362B1 (ko) 쿼리 확장
JP6007088B2 (ja) 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法
JP4920023B2 (ja) オブジェクト間競合指標計算方法およびシステム
JP4953468B2 (ja) オントロジーデータのインポート/エクスポートのための方法および装置
CN105488077B (zh) 生成内容标签的方法和装置
CN110390044B (zh) 一种相似网络页面的搜索方法及设备
US9164980B2 (en) Name identification rule generating apparatus and name identification rule generating method
JP5010885B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
US9251248B2 (en) Using context to extract entities from a document collection
TWI656450B (zh) 從中文語料庫提取知識的方法和系統
CN102169496A (zh) 基于锚文本分析的领域术语自动生成方法
JP5057474B2 (ja) オブジェクト間の競合指標計算方法およびシステム
WO2014002774A1 (ja) 同義語抽出システム、方法および記録媒体
JP2005250980A (ja) 文書検索システム、検索条件入力装置、検索実行装置、文書検索方法、および文書検索プログラム
CN111324705B (zh) 自适应性调整关联搜索词的系统及其方法
CN103092838B (zh) 一种获取英文词的方法及装置
JP6332035B2 (ja) 文書分析装置、文書分析方法及び文書分析プログラム
KR101614551B1 (ko) 카테고리 매칭을 이용한 키워드 추출 시스템 및 방법
US10606875B2 (en) Search support apparatus and method
JP6173958B2 (ja) 複数のハッシュテーブルを用いて検索するプログラム、装置及び方法
US9311392B2 (en) Document analysis apparatus, document analysis method, and computer-readable recording medium
CN109446239A (zh) 线下文本挖掘方法、装置及计算机可读存储介质
JP2014235584A (ja) 文書分析システム、文書分析方法およびプログラム
JP5811795B2 (ja) 文書分析システム、文書分析方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180403

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180416

R150 Certificate of patent or registration of utility model

Ref document number: 6332035

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150