JP2008234175A - 同義表現抽出システム、同義表現抽出方法、及び同義表現抽出プログラム - Google Patents

同義表現抽出システム、同義表現抽出方法、及び同義表現抽出プログラム Download PDF

Info

Publication number
JP2008234175A
JP2008234175A JP2007071128A JP2007071128A JP2008234175A JP 2008234175 A JP2008234175 A JP 2008234175A JP 2007071128 A JP2007071128 A JP 2007071128A JP 2007071128 A JP2007071128 A JP 2007071128A JP 2008234175 A JP2008234175 A JP 2008234175A
Authority
JP
Japan
Prior art keywords
expression
sentence
synonym
similar
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007071128A
Other languages
English (en)
Other versions
JP5076575B2 (ja
Inventor
Yasutaka Yamamoto
康高 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007071128A priority Critical patent/JP5076575B2/ja
Publication of JP2008234175A publication Critical patent/JP2008234175A/ja
Application granted granted Critical
Publication of JP5076575B2 publication Critical patent/JP5076575B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

【課題】事前に文法的制約を特化することなく、少数の類似文章対であっても、同義表現を抽出できるようにする。
【解決手段】係り受け解析手段101は、類似文章対の各々の文章に対して係り受け解析を実行する。表現比較手段102は、類似文章対において共通して含まれる表現である共通表現と、同義表現の候補として類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する。構造関係特定手段103は、係り受け解析により求められた各文章の木構造における共通表現と相違表現との位置関係を構造関係として特定する。類似性判定手段104は、類似文章対における構造関係の同一性を判定する。さらに、類似性判定手段104は、判定した構造関係の同一性に基づいて、類似文章対における相違表現間の類似度を算出し、類似度の閾値判定処理を行うことによって、同義表現を抽出する。
【選択図】図1

Description

本発明は、同義表現を抽出する同義表現抽出システム、同義表現抽出方法、及び同義表現抽出プログラムに関し、特に、事前に特殊な文法規則を指定することなしに少数の類似文章対から同義表現を抽出する同義表現抽出システム、同義表現抽出方法、及び同義表現抽出プログラムに関する。
同義表現とは、同一の事物や概念に対して異なる表現が用いられる語や句等である。電子文書内に同義表現が存在することは、文書検索や文書分類等の自然言語処理を行う際の処理効率を低下させる要因となる。例えば、「廃材」をキーワードとして文書検索を行った場合、「いらなくなった木材」という同義表現を用いて書かれた電子文書は、廃材を扱った電子文書であるにもかかわらず、「廃材」という語が用いられていないために検索できない。
また、自然言語処理が低効率になるだけでなく、例えば、製品開発プロジェクトのように多くの人々が関わり合いながら作業するような環境において同義表現を用いた電子文書が用いられると、作成される電子文書中の同義表現が意思伝達を阻害する原因となる。
例えば、ある人が作成した電子文書において「同義表現抽出機能」と表現されているものと同じものが、他の人が作成した電子文書では「パラフレーズ特定技術」と表現されている場合がある。この場合、第三者が、これら「同義表現抽出機能」と「パラフレーズ特定技術」とを同一のものとして認識することは難しい。
電子文書間に用いられる同義表現を認識できるようにするために、一般に、同義表現を予め辞書化しておくことが望ましい。しかし、専門的な表現に関する同義表現は、このような辞書化等の対応策がとりづらい。人手により逐次辞書登録していくことも考えられるが、ユーザの負担が大きく、多大な労力を要し現実的ではない。そのため、蓄積されている電子文書内から効率的に同義表現を抽出できるようにすることが望まれている。
同義表現を自動抽出できるようにするために、内容が類似する文章対(以下、類似文章対という)を用いることが多い。例えば、類似文章対として、同じニュースについて書かれた複数の記事が用いられる。また、同じ本を異なる翻訳者によって翻訳した複数の訳本が用いられる。
また、あるプロジェクトにおいては、プロジェクト内の他のメンバが作成した電子文書を参照する等して、新しい電子文書を作成することが行われている。そのため、プロジェクト等において、相互に参照関係にある電子文章群も類似文章対となる。また、そのような類似文章対においては、専門用語に関する同義表現も含まれていることが多い。
従来の技術においては、単語間の共起情報等を統計的に処理することや、係り受け解析等の構文解析を利用することにより、類似文章対から同義表現を抽出することが行われている。なお、係り受け解析とは、文章を文節に分けた際の文節間の修飾関係や被修飾関係を特定する解析処理であり、係り受け解析により文章を木構造として表現した解析結果が得られる。以下、構文解析に基礎を置く類似文章対を利用した従来の同義表現抽出技術について説明する。
例えば、特許文献1には、同義表現抽出技術の一例が記載されている。特許文献1に記載された「情報処理装置、同義語対生成方法、同義語対生成プログラム、同義語対生成プログラムを記録した記録媒体」は、同義語データベースを生成するために用いられる。
特許文献1に記載された同義表現抽出方法では、まず、ある文章内のある所定の記号(例えば「()」等)の前部分の文字列1と記号内の文字列2とを抽出する。次に、抽出した文字列が含まれる文章以外に文字列1又は文字列2が含まれる文章を抽出し、抽出した文章に係り受け解析を適用する。これら2つの文字列がともにに係り関係を有する所定の文節が文章内に存在している場合、それらの文字列対を同義表現として抽出する。よって、特許文献1に記載された同義語対生成方法は、類似文章対を利用して、同義表現の候補から同義表現を絞り込む技術といえる。
また、例えば、特許文献2には、別の同義表現抽出技術が記載されている。特許文献2に記載された「同義語対抽出装置及びそのためのコンピュータプログラム」は、少ないデータから同義語対を抽出するために用いられる。特許文献2に記載された同義表現抽出方法では、まず類似文章対に共通する2つの文字列と、これら2つの文字列に挟まれる互いに相違する単語列とからなる単語列対を、同義表現の候補として抽出する。次に、抽出した同義表現の候補から、比較対象の文章に含まれていない等の条件を満たすものを同義表現として抽出する。
また、例えば、非特許文献1には、さらに別の同義表現抽出技術が記載されている。非特許文献1に記載された「情報抽出のための同義表現獲得法」は、同一のニュースに関する複数の記事から同義表現を抽出するために用いられる。非特許文献1に記載された同義表現抽出方法では、類似文章対に対して係り受け解析を適用し、次の3つの条件を満たす部分木を同義表現として抽出する。すなわち、(1)係り受け解析により得られる部分木の根が用言であること、(2)対となる部分木が共通の固有表現を含んでいること、(3)各用言が要求する格が部分木に含まれていることのいずれかの条件を満たす部分木を同義表現として抽出する。なお、固有表現とは、人名や地名、組織名等の固有名詞の他、日付こと、金額等の数値表現等のことである。
図32は、特許文献2や非特許文献1に記載された同義表現抽出方法に共通する同義表現抽出の基本原理を示す説明図である。図32に示すように、特許文献2や非特許文献1に用いられる基本原理では、類似文章対において同一のマーカー語(701a,801a)と同義表現候補(701b,801b)とが存在し、それらのマーカー語と同義表現候補との関係(701c,801c)が類似していれば、その同義表現候補を同義表現とするものである。特許文献2や非特許文献1に記載された同義表現抽出方法では、そのような基本原理に基づいて、少数の類似文章対から同義表現を抽出する。
マーカー語(701a,801a)は、特許文献2に記載された同義表現抽出方法では類似文章対において用いられている共通の文字列であり、非特許文献1に記載された同義表現抽出方法では固有表現である。同義表現語候補(701b,801b)は、特許文献2に記載された同義表現抽出方法では共通する文字列に挟まれた単語列であり、非特許文献1に記載された同義表現抽出方法では同一の固有表現を含む部分木である。また、関係(701c,801c)は、特許文献2に記載された同義表現抽出方法では、共通する文字列に挟まれる、又は表現が比較する文章に存在しないという関係である。また、関係(701c,801c)は、非特許文献1に記載された同義表現抽出方法では、各用言が要求する格が部分木に含まれているという関係である。
特開2006−260402(段落0034−0058、図3) 特開2006−251843(段落0022−0048、図6) Shinyama Y, and Sekine S, "Paraphrase acquisition for information extraction", 2nd International Workshop on Paraphrasing: Paraphrase Acquisition and Applications, pp.65-71, 2003
第1の問題点として、非特許文献1や特許文献2に記載された同義表現抽出方法では、予め決められた文法規則を満たさない類似文章対からは同義表現を抽出することができない。すなわち、非特許文献1や特許文献2に記載された同義表現抽出方法では、マーカー語を基準とする同義表現抽出において、類似文章対又はその一部の文字列の並びの規則性や文法的規則が類似していることが重要である。そのため、非特許文献1や特許文献2に記載された同義表現抽出方法では、事前に同義表現の抽出対象となる文章対に対して、文字列の並び又は文法に強い制約を課している。
また、非特許文献1に記載された同義表現抽出方法では、類似文章対において部分木内に同一の固有表現があるか、用言が要求する格が含まれている必要がある。そのため、文法規則に見合う文章からしか同義表現を抽出できない。また、文法的な制約を課すために、用言がどのような格を必要とするかについて予め登録しておく必要がある。
また、特許文献2に記載された同義表現抽出方法では、類似文章対において共通する文字列の語順が変化している場合には、同義表現を抽出できない。また、同義表現が共通する単語に挟まれているとは限らないため、同義表現が共通する単語に挟まれていない場合には多くの同義表現が抽出できない。また、特許文献2には構文解析を利用することについても触れられているが、具体的な方法については何ら示されていない。そのため、仮に構文解析を行ったとしても、得られる結果は構文解析を行わない場合と変わらない。その理由は、特許文献2に記載された同義表現抽出方法では、2つの共通の文字列に挟まれる文字列を同義表現の候補としており、構文解析しても挟まれる文字列が変わるわけではないためである。そのため、2つの共通の文字列に挟まれていなければ、同義表現を抽出することはできない。
また、第2の問題点として、非特許文献1や特許文献1に記載された同義表現抽出方法では、特別な辞書や記号表現がないと同義表現を抽出できない。その理由は、非特許文献1に記載された同義表現抽出方法では、前述したように、用言が必要とする格についても事前に登録しておく必要があるためである。また、固有表現辞書も必要となる。近年では固有表現辞書の質も高まりつつあるが、報告書や仕様書、計画書等プロジェクト内で交わされる電子文書中においては、数値情報以外の固有表現は含まれにくい。
また、組織名等においても、ある部署名等の特定の場所においてのみ通じる名称であり、一般的な辞書を用いても組織名等を固有表現と判断して抽出することはできない。そのため、特別な固有表現辞書を準備する必要がある。特許文献1に記載された同義表現抽出方法では、文章中に「()」等の記号表現が含まれることが必要である。しかし、同義表現が「()」等の特定の記号により明示化されていることは少ない。また、特許文献1に記載された技術では、同義表現の候補となる表現対が1つの文章中に含まれていることを前提としているため、類似文章対のみが与えられた状態から同義表現を抽出することができない。
第3の問題点として、統計的処理を基礎とする方法では、少量の類似文章対から同義表現を抽出することができない。その理由は、統計的処理が有効性を発揮するためには、多量の類似文章対が必要になるためである。すなわち、少量の文書対のみを用いて処理を行っただけでは、十分な精度を確保することができない。プロジェクト内では多量の電子文書が存在するが、例えば、ある専門用語に関する同義表現を含む類似文章対が多量にあるわけではない。すなわち、少量の類似文章対から同義表現を抽出することができない。
そこで、本発明は、事前に文法規則を指定することなしに類似文章対から同義表現を抽出することができる同義表現抽出システム、同義表現抽出方法、及び同義表現抽出プログラムを提供することを目的とする。また、本発明は、特別な辞書の準備や記号表現を利用することなく類似文章対を効率的に抽出することができる同義表現抽出システム、同義表現抽出方法、及び同義表現抽出プログラムを提供することを目的とする。さらに、本発明は、少数の類似文章からでも高精度に同義表現を抽出することができる同義表現抽出システム、同義表現抽出方法、及び同義表現抽出プログラムを提供することを目的とする。
本発明による同義表現抽出システムは、相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出システムであって、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する同義表現抽出手段(例えば、類似性判定手段104によって実現される)を備えたことを特徴とする。
また、同義表現抽出システムは、類似文章対の各文章に含まれる表現である共通表現間の構造関係、及び類似文章対のそれぞれの文章にのみ含まれる表現である相違表現と共通表現との間の構造関係を特定する構造関係特定手段(例えば、構造関係特定手段103によって実現される)と、構造関係特定手段が特定した構造関係に基づいて、類似文章対に含まれる相違表現を同義表現の候補として、同義表現の候補の類似度を求める類似度算出手段(例えば、類似性判定手段104によって実現される)とを備え、同義表現抽出手段は、類似度算出手段が求めた類似度に基づいて、同義表現の候補を同義表現として抽出するか否かを判定するものであってもよい。
また、同義表現抽出システムは、類似文章対の文章構造を特定する文章構造特定手段(例えば、係り受け解析手段101によって実現される)と、文章構造特定手段が特定した文章構造に基づいて、類似文章対の各文章に共通して含まれる表現である共通表現と、類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出手段(例えば、表現比較手段102によって実現される)と、表現抽出手段が抽出した共通表現及び相違表現に基づいて、類似文章対の各文章の文章構造における共通表現間の相対的位置関係、及び共通表現と相違表現との間の相対的位置関係を特定する位置関係特定手段(例えば、構造関係特定手段103によって実現される)と、位置関係特定手段が特定した相対的位置関係に基づいて、構造関係の同一性から類似文章対における相違表現の類似度を算出する類似度算出手段(例えば、類似性判定手段104によって実現される)とを備え、同義表現抽出手段は、類似度算出手段が算出した類似度に基づいて、同義表現を抽出するものであってもよい。
また、同義表現抽出システムにおいて、同義表現抽出手段は、類似文章対において、相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係であることに基づいて、同義表現を抽出するものであってもよい。
また、同義表現抽出システムは、類似文章対の文章構造を特定する文章構造特定手段と、文章構造特定手段が特定した文章構造に基づいて、類似文章対の各文章に共通して含まれる表現である共通表現と、類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出手段と、表現抽出手段が抽出した共通表現及び相違表現に基づいて、類似文章対の各文章の文章構造における共通表現と相違表現との間の相対的位置関係を特定する位置関係特定手段と、位置関係特定手段が特定した相対的位置関係に基づいて、構造関係の同一性から類似文章対における相違表現の類似度を算出する類似度算出手段とを備え、同義表現抽出手段は、類似度算出手段が算出した類似度に基づいて、同義表現を抽出するものであってもよい。
また、同義表現抽出システムは、類似文章の文章構造を類似した構造となるように、所定の文章変換規則を用いて、類似文章対に含まれる文章を変換する文章変換手段(例えば、文章整形手段105によって実現される)を備えたものであってもよい。
また、同義表現抽出システムにおいて、同義表現抽出手段は、同義表現を抽出するための所定の類似基準に従って、類似文章対から同義表現を抽出し、同義表現抽出システムは、同義表現抽出手段が抽出した同義表現の抽出結果の正誤を示す正誤情報と、同義表現の類似度とに基づいて、同義表現を抽出するための類似基準を補正する類似基準補正手段(例えば、類似基準補正手段107によって実現される)を備えたものであってもよい。
本発明による同義表現抽出方法は、相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出方法であって、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する同義表現抽出ステップを含むことを特徴とする。
また、同義表現抽出方法は、類似文章対の各文章に含まれる表現である共通表現間の構造関係、及び類似文章対のそれぞれの文章にのみ含まれる表現である相違表現と共通表現との間の構造関係を特定する構造関係特定ステップと、特定した構造関係に基づいて、類似文章対に含まれる相違表現を同義表現の候補として、同義表現の候補の類似度を求める類似度算出ステップとを含み、同義表現抽出ステップで、求めた類似度に基づいて、同義表現の候補を同義表現として抽出するか否かを判定するものであってもよい。
また、同義表現抽出方法は、類似文章対の文章構造を特定する文章構造特定ステップと、特定した文章構造に基づいて、類似文章対の各文章に共通して含まれる表現である共通表現と、類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出ステップと、抽出した共通表現及び相違表現に基づいて、類似文章対の各文章の文章構造における共通表現と相違表現との間の相対的位置関係を特定する位置関係特定ステップと、特定した相対的位置関係に基づいて、構造関係の同一性から類似文章対における相違表現の類似度を算出する類似度算出ステップとを含み、同義表現抽出ステップで、算出した類似度に基づいて、同義表現を抽出するものであってもよい。
また、同義表現抽出方法は、類似文章の文章構造を類似した構造となるように、所定の文章変換規則を用いて、類似文章対に含まれる文章を変換する文章変換ステップを含むものであってもよい。
また、同義表現抽出方法は、同義表現抽出ステップで、同義表現を抽出するための所定の類似基準に従って、類似文章対から同義表現を抽出し、抽出した同義表現の抽出結果の正誤を示す正誤情報と、同義表現の類似度とに基づいて、同義表現を抽出するための類似基準を補正する類似基準補正ステップを含むものであってもよい。
本発明による同義表現抽出用プログラムは、相互に類似する文章を対にした類似文章対から同義表現を抽出するための同義表現抽出用プログラムであって、コンピュータに、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する同義表現抽出処理を実行させるためのものである。
また、同義表現抽出用プログラムは、コンピュータに、類似文章対の各文章に含まれる表現である共通表現間の構造関係、及び類似文章対のそれぞれの文章にのみ含まれる表現である相違表現と共通表現との間の構造関係を特定する構造関係特定処理と、特定した構造関係に基づいて、類似文章対に含まれる相違表現を同義表現の候補として、同義表現の候補の類似度を求める類似度算出処理とを実行させ、同義表現抽出処理で、求めた類似度に基づいて、同義表現の候補を同義表現として抽出するか否かを判定する処理を実行させる
ものであってもよい。
また、同義表現抽出用プログラムは、コンピュータに、類似文章対の文章構造を特定する文章構造特定処理と、特定した文章構造に基づいて、類似文章対の各文章に共通して含まれる表現である共通表現と、類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出処理と、抽出した共通表現及び相違表現に基づいて、類似文章対の各文章の文章構造における共通表現と相違表現との間の相対的位置関係を特定する位置関係特定処理と、特定した相対的位置関係に基づいて、構造関係の同一性から類似文章対における相違表現の類似度を算出する類似度算出処理とを実行させ、同義表現抽出処理で、算出した類似度に基づいて、同義表現を抽出する処理を実行させるものであってもよい。
また、同義表現抽出用プログラムは、コンピュータに、類似文章の文章構造を類似した構造となるように、所定の文章変換規則を用いて、類似文章対に含まれる文章を変換する文章変換処理を実行させるものであってもよい。
また、同義表現抽出用プログラムは、コンピュータに、同義表現抽出処理で、同義表現を抽出するための所定の類似基準に従って、類似文章対から同義表現を抽出する処理を実行させ、抽出した同義表現の抽出結果の正誤を示す正誤情報と、同義表現の類似度とに基づいて、同義表現を抽出するための類似基準を補正する類似基準補正処理を実行させるものであってもよい。
本発明による第1の同義表現抽出システムは、類似文章対の各文章に対して係り受け解析を実行し、各文章における各文節間の係り受け関係を示す係り受け表を生成する係り受け解析手段と、類似文章対において共通して含まれる文字列である共通表現と、それぞれの文章だけに含まれる文字列であり同義表現の候補となる相違表現とを抽出する表現比較手段と、係り受け解析により求められた文章の木構造中における共通表現と相違表現との位置情報を、係り受け表の情報に基づいて、木構造中においてどの分岐、葉又は根にその表現が挟まれるかを示す構造関係特定表を生成し、生成した構造関係特定表の情報を用いて、木構造における共通表現構造である共通表現間の相対的位置関係、及び相違表現構造である共通表現と相違表現との間の相対的位置関係を、所定の規則に従って、構造関係である同列、直列、並列、前列、後列、横列又はその他の関係の7種類に分類する構造関係特定手段と、類似文章対において共通表現構造の同一性及び相違表現構造の同一性を、各構造関係の同一性を規定する同一性判定表に従って判定し、各構造関係の同一性に基づいて、類似文章対における共通表現構造の類似度及び相違表現構造の類似度を算出し、類似文章対において同義表現候補である同義表現の候補となる相違表現において、その同義表現候補対の類似度を2つの類似度の重み付き平均を求めることにより算出し、閾値処理を実行することにより同義表現を抽出する類似性判定手段とを備えたことを特徴とする。
上記のような構成によれば、類似文章対における共通表現間の構造関係の同一性から構造関係の類似度を算出でき、類似文章対の文字列の構成や文法の類似性を判断できる。そのため、事前に特殊な文法規則を設けることなく、同義表現を抽出することができる。また、上記のような構成によれば、特殊な辞書や記号等を必要とせずに、係り受け解析に必要とする辞書程度の情報のみに基づいて、類似文章対から同義表現を抽出することができる。さらに、上記のような構成によれば、同義表現抽出の原理に則り、統計的処理を用いることなく、1組の類似文章対のみであっても、高精度に同義表現を抽出することができる。
本発明による第2の同義表現抽出システムは、第1の同義表現抽出システムにおける構成要素に加えて、係り受け解析を実行する前に、類似文章対が係り受け解析によって類似する文章の木構造となるように文章を整形する文章整形手段を備えたことを特徴とする。
上記のような構成によれば、第1の同義表現抽出システムの構成により実現できる同義表現抽出システムの利点を失うことなく、さらに高精度に同義表現を抽出することができる。
本発明による第3の同義表現抽出システムは、同義表現抽出システムの抽出結果に対してシステム利用者が抽出結果の正誤を判定した情報と、抽出結果の類似度を算出する基になった共通表現間の構造関係の類似度、及び共通表現と相違表現間との構造関係の類似度とに基づいて、抽出結果を真の同義表現と真の同義表現でないものとに分類する共通表現間の構造関係の類似度、及び共通表現と相違表現との間の構造関係の類似度に対する適切な重み係数を推定する類似基準補正手段を備えたことを特徴とする。
上記のような構成によれば、第1の同義表現抽出システムの構成により実現できる同義表現抽出システムの利点を失うことなく、同義表現を抽出する類似性基準のパラメータを適切な値に補正することができ、さらに同義表現抽出の精度を向上させることができる。
本発明によれば、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対の文法的類似性を推定し、類似文章対から同義表現を抽出できる。すなわち、本発明によれば、相違表現の類似度だけに基づいて同義表現であるか否かを判断するのではなく、類似文章対に含まれる共通表現と相違表現との両方の構造関係に基づいて、同義表現であるか否かを判断できる。従って、事前に特殊な文法規則を設けることなく、類似文章対から同義表現を抽出することができる。
また、本発明によれば、共通表現及び相違表現の構造関係を示す係り受け表を用いて各表現の相対的位置関係を単純化することにより、類似文章対における修飾語の増減や、マーカー語の語順の違い等に影響を受けることなく、同義表現を抽出することができる。さらに、類似文章対における相対的位置関係の同一性を設計可能な判定基準を用いて同義表現であるか否かを判定するので、同義表現を抽出する文章対にあわせて文法的制約の強さを変更することも可能である。
また、本発明によれば、類似文章対内の文字列の関係性のみに基づいて、同義表現を抽出することができる。また、本発明によれば、形態素解析や係り受け解析において辞書を用いているものの、一般に広く用いられる辞書のみを用いればよく、特別な辞書を予め用意しなくても、同義表現を抽出することができる。従って、特別な辞書の準備や記号表現を用いなくても、類似文章対から同義表現を効率的に抽出することができる。
また、本発明によれば、同義表現抽出の原理に基づいた方法を用いて、少数の類似文章対だけであっても、同義表現の候補が真に同義表現であるか否かを高精度に判定することができ、同義表現を高精度に抽出することができる。また、クラスタリングや統計的に結論を導き出すことを必要とする処理を用いることなく、同義表現を抽出することができる。従って、少数の類似文章だけであっても、高精度に同義表現を抽出することができる。
以下、本発明を実施するための最良の形態について図面を参照して説明する。
実施の形態1.
まず、本発明の第1の実施の形態を図面を参照して説明する。図1は、本発明による同義表現抽出システムの構成の一例を示すブロック図である。図1に示すように、同義表現抽出システム10は、係り受け解析手段101と、表現比較手段102と、構造関係特定手段103と、類似性算出手段104とを含む。また、同義表現抽出システム10は、類似文章対データベース501と、出力手段502とを備える。
また、図2は、同義表現抽出システム10が同義表現を抽出する処理の一例を示すフローチャートである。以下、同義表現抽出システム10の各構成要素の機能と、同義表現抽出システム10の動作とを、図1に示すブロック図及び図2に示すフローチャートとを参照して説明する。
なお、本実施の形態において、同義表現抽出システム10は、具体的には、プログラムに従って動作するコンピュータ(例えば、パーソナルコンピュータ等の情報処理装置)によって実現される。また、同義表現抽出システム10は、例えば、同義表現検索を実行する情報検索システムや、プロジェクト管理を行うプロジェクト管理システム、電子文書の管理を行う文書管理システム等の用途に適用される。
なお、図1に示す例では、同義表現抽出システム10の外部に類似文章対データベース501と出力手段502とを設ける場合を示しているが、同義表現抽出システム10の内部に類似文章対データベース501と出力手段502とを備えてもよい。
類似文章対データベース501は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。類似文章対データベース501は、相互に意味が類似している単一言語の2つ以上の文章を予め記憶している。例えば、類似文章対として、同じ内容に関して記載された異なるニュース記事等からそれぞれ文章を抽出して、類似文章対データベース501に蓄積してもよい。また、例えば、類似文章対データベース501は、同一の言語(外国語)で記載された文章を翻訳した複数の文章を類似文章対として記憶してもよいし、相互に参照関係のある電子文書から抽出した文章を類似文章対として記憶してもよい。
なお、本実施の形態では、類似文章対データベース501には、電子文書等から類似文章対を抽出する類似文章対抽出システム(図示せず)によって抽出された類似文章対が予め蓄積されている。例えば、類似文章対抽出システムは、所定時間毎に、インターネット上のWeb情報や共通サーバ等に蓄積されている電子文書から類似文章対を自動抽出し、類似文章対データベース501に記憶させる。また、例えば、類似文章対データベース501は、ユーザによって作成された類似文章対を予め蓄積してもよい。
図3は、類似文章対データベース501が記憶する類似文章対の例を示す説明図である。図3に示す類似文章対では、表現「ABC機能」と表現「XYZ機能」とが同義表現であるとする。以下、図3に示す類似文章対を例にして同義表現の抽出方法を説明する。また、本実施の形態では、2つの類似文章間の同義表現を抽出する場合を例に説明する。なお、類似文章対に3つ以上の類似文章が含まれる場合には、各類似文章を2つずつ組み合わせた類似文章の組を作り、その全組み合わせに対してそれぞれ処理を実行すればよい。
同義表現抽出システム10は、ユーザによる操作に従って、同義表現抽出の処理を開始する。例えば、同義表現抽出システム10は、ディスプレイ装置等である出力手段502に、同義表現抽出用のフォームを含む表示画面を表示させる。この場合に、ユーザによって同義表現抽出用のフォームから実行ボタンがマウスクリック等されると、同義表現抽出システム10は、同義表現抽出の処理を開始する。
係り受け解析手段101は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。同義表現抽出の処理を開始すると、係り受け解析手段101は、まず、類似文章対データベース501から類似文章対を抽出する。次いで、係り受け解析手段101は、抽出した類似文章対に含まれる各文章に対して係り受け解析を行い、その係り受け解析結果を表現比較手段102に出力する(ステップS704a)。
なお、一般に、係り受け解析を行う前には文章を形態素に分解する形態素解析処理を行う必要がある。本実施の形態では、形態素解析処理は係り受け解析手段101に組み込まれているものとし、係り受け解析手段101は、ステップS704aにおいて、形態素解析処理を実行してから係り受け解析を実行する。なお、形態素解析処理を行う手段を、係り受け解析処理を行う係り受け解析手段101とは別に備えるようにしてもよい。
なお、係り受け解析手段101は、HMM(Hidden Markov Model )等の既存技術を用いて形態素解析を実行する。また、係り受け解析手段101は、確率モデルや構文解析等の既存技術を用いて係り受け解析を実行する。
図4は、図3に示した各文章を係り受け解析し、各文節間の係り受けの関係を図示した説明図である。図4において、ノードは文節を表し、矢印の先が文節の係り先を表している。図4に示すように、係り受け解析手段101は、類似文章対の各文章に対して係り受け解析を実行することにより、各文章を、文節をノードとする木構造を用いて表すことができる。ここで、図4に示すような係り受けの木構造を係り受け構造という。
なお、係り受け解析手段101は、形態素解析結果と各文節の対応関係の情報とを、例えば、図5に示すようなデータ形式で記録媒体に記憶させる。例えば、係り受け解析手段101は、記憶媒体として、情報処理装置のメモリやハードディスク装置、CD−ROM、DVD−ROM、フレキシブルディスク等に、形態素解析結果や各文節の対応関係の情報を、図5に示すように表(テーブル)形式で記憶させる。
図5に示すように、形態素解析結果や各文節の対応関係の情報を示す表には、形態素解析により抽出された単語と、その単語の品詞及び係り受け解析により求められた文節IDとが含まれる。文節IDとは、文節を特定するための識別情報である。同じ文節に属する単語には同一の文節IDが付与される。
また、係り受け解析手段101は、求めた係り受け構造を、例えば、図6に示すようなデータ形式により表(テーブル)形式で記憶媒体に記憶させる。以下、図6に示す係り受け構造を示す表を係り受け表という。図6に示す係り受け表において、左列の「文節ID」は、図5に示す文節IDと対応している。また、中央列の「文節」は、1つの文節を形成する文字列である。右列の「係り先ID」は、その文節が係る係り先の文節の文節IDを示している。
例えば、図6に示す例では、文節ID001の文節「動画処理の」は、文節ID002の文節「ために」に係ることがわかる。また、係る文節がない場合には、係り先がないことを判断できるように、例えば、係り先IDを000とする。
表現比較手段102は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。表現比較手段102は、係り受け解析手段101による解析結果を入力する。また、表現比較手段102は、入力した係り受け解析結果に基づいて、類似文章対における共通表現と相違表現とを特定し、共通表現と相違表現との特定結果を構造関係抽出手段103に出力する(ステップS704b)。
表現比較手段102は、共通表現や相違表現として抽出する対象表現の品詞を任意に選択してよい。例えば、表現比較手段102は、名詞を含む文節について共通表現や相違表現を抽出してもよい。また、表現比較手段102は、自立語を含む文節について共通表現や相違表現を抽出してもよい。さらに、表現比較手段102は、文節区切りで抽出するだけではなく、名詞を含む文節とその文節を修飾する1つ以上の文節群とを1つの表現として、共通表現や相違表現を抽出してもよい。また、表現比較手段102は、係り受け構造の部分木を単位として、共通表現や相違表現を抽出してもよい。なお、表現比較手段102は、各文節に含まれる単語の品詞については、図5に示す形態素解析結果と各文節の対応関係の情報に基づいて抽出することができる。
以下、説明をわかりやすくするために、共通表現や相違表現として抽出する表現を各文節中に含まれる名詞句とした場合における同義表現の抽出過程について説明する。一般に、情報検索等を行なう場合、名詞や名詞句を入力して情報検索操作を行うことが多い。また、一般に、動詞や形容詞等の用言の同義表現はユーザが見てすぐに同義であるか否か認識できるものが多いのに対し、名詞や名詞句に同義表現が含まれる場合、その名詞や名詞句を見ただけではユーザが同義であるか否かをすぐに認識できないものが多い。従って、電子文書間等において名詞や名詞句に同義表現が含まれている場合、最も情報検索の障害となる可能性が高い。従って、本実施の形態では、類似文章対から名詞句における同義表現を抽出する場合を説明する。なお、同義表現抽出システム10は、名詞や名詞句に限らず、動詞や形容詞等の同義表現を抽出するものであってもよい。
また、以下、各文節を表現ともいう。図4に示す例では、表現比較手段102は、共通表現として「高速描画」(706a,706d)と「動画処理」(706b,706e)とを抽出する。また、図4において、網掛けで示した四角枠には、相違表現が含まれていることを表している。すなわち、表現比較手段102は、相違表現として「ABC機能」706c、「XYZ機能」706f及び「可視化診断」706gを抽出する。
構造関係特定手段103は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。構造関係特定手段103は、類似文章対から抽出された共通表現と相違表現とに基づいて、各文章における共通表現間の構造関係、及び共通表現と相違表現との間の構造関係を特定し、特定した各構造関係を類似性判定手段104に出力する(ステップS704c)。構造関係とは、係り受け構造における各表現の相対的位置関係により規定されるものである。構造関係は、係り受け構造において、基準となる表現(以下、基準表現という)が非分岐又は分岐の位置のどちらの位置に存在するかに従って2つに分けることができる。なお、基準表現に対して構造関係を特定する表現を対象表現という。また、分岐に位置する表現を分岐表現という。
図7は、共通表現間の構造関係、及び共通表現と相違表現との間の構造関係の例を示す説明図である。図7(a)は、基準表現(709a)が非分岐に位置する場合の構造関係を示している。また、図7(b)は、基準表現(709b)が分岐に位置する場合の構造関係を示している。また、図7において、○印は1つの表現を表しており、矢印は係り受けを表している。また、●印は基準表現を表している。
基準表現が非分岐に位置する場合、図7(a)に示す破線四角枠により示される対象表現の位置によって、同列、直列及び並列の3つの構造関係を規定する。この場合、構造関係特定手段103は、対象表現が同列、直列又は並列のいずれであるかを特定する。ここで、同列とは基準表現と直接係り受けの関係がある表現の集合であり、直列とは文章の全体的な係り受け構造からみると基準表現が「係り」又は「受け」となる表現の集合であり、並列とは共通の分岐表現に係る表現の集合である。
一方、基準表現が分岐に位置する場合、図7(b)に示す破線四角枠により示される対象表現の位置によって、前列、後列及び横列の3つの構造関係を規定する。この場合、構造関係特定手段103は、対象表現が前列、後列及び横列のいずれであるかを特定する。ここで、前列とは基準表現に対して「係り」となる表現の集合であり、後列とは基準表現に対して「受け」となる表現の集合であり、横列とは共通の分岐表現に係る表現の集合である。
なお、係り受け構造において、構造関係を特定する表現間に2つ以上の分岐表現がある場合、構造関係特定手段103は、上記に示した6つの関係のいずれにも属さないと判断し、構造関係を「その他」と特定する。
次に、文章2を例にして、構造関係特定手段103が構造関係を特定する処理について説明する。構造関係の特定処理において、構造関係特定手段103は、まず、図6に示す係り受け表に基づいて、図8に示す構造関係特定表を生成する。構造関係特定表とは、構造関係を特定するために必要となる情報をまとめた情報である。図8に示すように、構造関係特定表は、文節IDと、文節IDに対応する表現の係り受け構造における位置(分岐/非分岐)と、それぞれ各表現の係り側及び受け側にある近接の分岐表現を特定するための文節ID(係り側近接分岐ID、受け側近接分岐ID)を含む。
図9に示すように、係り側とは係り受け構造における葉側を意味し、受け側とは係り受け構造における根側を意味する。係り側近接分岐ID及び受け側近接分岐IDとは、係り受け構造において各表現がどの分岐表現に挟まれているかを把握するための識別情報である。ただし、係り受け構造において、根に相当する表現には受け側近接分岐IDがなく、葉と同列の関係にある表現には係り側近接分岐IDがない。そのため、図9に示すように、分岐表現の文節IDの代わりに葉IDと根IDとを用いる。そのようにすることにより、構造関係特定手段103は、任意の表現の係り側近接分岐ID及び受け側近接分岐IDに、分岐表現の文節ID、葉ID又は根IDのいずれかを付与する。
構造関係特定手段103は、構造関係特定表を、以下の処理に従って生成する。構造関係特定手段103は、図6に示す係り受け表に基づいて、係り先IDに同じ文節IDが2つ以上あればその表現を分岐表現とし、同じ文節IDが1つ以下であれば非分岐の表現とする。そのような処理により、構造関係特定手段103は、各表現の分岐/非分岐を特定する。
次に、構造関係特定手段103は、係り受け表において係り先IDに存在しない文節IDを抽出する。その抽出した文節IDの表現は係り受け構造における葉に相当しており、構造関係特定手段103は、その抽出した文節IDの表現の係り側近接分岐IDには葉IDを付与する。この場合、構造関係特定手段103は、各葉IDとして異なる値を用いる。
次に、構造関係特定手段103は、葉に相当する表現から順に、係り先の表現が分岐表現となるまで各表現を順次参照していき、そのトレースの過程に出てくる表現をメモリ等の記憶媒体に記憶させる。また、構造関係特定手段103は、記憶媒体に記憶されている表現の係り側近接分岐IDに、参照を開始した表現(葉に相当)の係り側近接分岐IDを付与する。また、構造関係特定手段103は、受け側近接分岐IDとして、前述した分岐表現の文節IDを付与する。また、構造関係特定手段103は、分岐表現の係り側近接分岐IDとして、その表現に直接係る表現の係り側近接分岐IDを付与する。
なお、構造関係特定手段103は、分岐表現の係り側近接分岐IDとして、2個以上のIDを付与することになる。もし、分岐表現が見つからず係り先係り受け構造の根となった場合には、構造関係特定手段103は、その表現の受け側分岐表現IDを根IDとし処理を終了する。そうでない場合には、構造関係特定手段103は、さらに分岐の表現から順に係り先の表現が分岐表現となるまで順次参照していき、そのトレースの過程に出てくる表現をメモリ等の記憶媒体に記憶させる。また、構造関係特定手段103は、記憶媒体に記憶されている表現の係り側近接分岐IDに、参照を開始した分岐表現の文節IDを付与する。
上記の処理を繰り返し実行し、参照する係り先が係り受け構造の根となると、構造関係特定手段103は、その表現の受け側分岐表現IDに根IDを付与し、処理を終了する。図8は、図6に示す係り受け表に基づいて求められる構造関係特定表の例を示す説明図である。
次に、構造関係特定手段103は、構造関係特定表において、共通表現又は相違表現を含む2つの表現に対して構造関係を特定する。基準表現が非分岐である場合、構造関係特定手段103は、(1)2つの表現において受け側近接分岐IDと係り側近接分岐IDとがともに同一である場合には、構造関係を「同列」と特定する。また、構造関係特定手段103は、(2)2つの表現において受け側近接分岐IDが同一であり係り側近接分岐IDが異なれば、構造関係を「並列」と特定する。また、構造関係特定手段103は、(3)一方の受け側近接分岐IDが他方の係り側近接分岐IDと同一である場合には、構造関係を「直列」と特定する。また、構造関係特定手段103は、(4)2つの表現の受け側近接分岐IDと係り側近接分岐IDとに一致するものがなければ、構造関係を「その他」と特定する。
また、基準表現が分岐表現である場合、構造関係特定手段103は、(1)対象表現の受け側近接分岐IDが基準表現の文節IDである場合には、構造関係を「前列」と特定する。また、構造関係特定手段103は、(2)対象表現の係り側近接分岐IDが基準表現の文節IDである場合には、構造関係を「後列」と特定する。また、構造関係特定手段103は、(3)2つの表現の受け側近接分岐IDが同一であれば、構造関係を「並列」と特定する。また、構造関係特定手段103は、(4)2つの表現の受け側近接分岐IDと係り側近接分岐IDとに一致するものがなければ、構造関係を「その他」と特定する。
なお、上記に示した構造関係を特定する方法は一例であり、構造関係特定手段103は、所望の構造関係が特定できれば、他の方法を用いて構造関係を特定してもよい。また、以下、共通表現間の構造関係を共通表現構造といい、共通表現と相違表現との間の構造関係を相違表現構造という。
なお、構造関係を求めるための2つの表現において、片方が分岐表現であり、もう一方が分岐表現でない場合、どちらを基準表現にするかによって構造関係が変わる。そのため、本実施の形態では、構造関係特定手段103は、2つの表現間に対して基準表現と対象表現とを入れ替えて処理を実行することにより、2つの構造関係を特定する。そのように、基準表現と対象表現とを入れ替えた2種類の構造関係を特定して処理を行うことにより、同義表現抽出の精度をより高めることができる。なお、基準表現と対象表現との入れ替えを行わずに、いずれか一方の表現のみを基準表現とし、他方を対象表現として、同義表現抽出の処理を行ってもよい。
類似文章対に共通表現がm個ある場合、構造関係特定手段103は、各文章においてm×(m−1)個の共通表現構造を特定することになる。また、構造関係特定手段103は、相違表現1個について、m×2個の相違表現構造を特定することになる。例えば、文章1と文章2とを比較する場合には、m=2であるため、構造関係特定手段103は、共通表現構造を2個特定することになる。また、文章1及び文章2については、相違表現がそれぞれ1個及び2個であるため、構造関係特定手段103は、文章1において4個の相違表現構造を特定し、文章2において8個の相違表現構造を特定する。
図10は、構造関係特定手段103が文章1に対して構造関係を特定した結果を示す説明図である。なお、図10の右側に示す特定結果は、図10の左側に示す特定結果で用いた基準表現と対象表現とを反転して(入れ替えて)処理することによって求めた構造関係である。図10において、破線矢印の元は基準表現を示しており、波線矢印の先は対象表現を示している。また、図10において、共通表現が含まれる表現(文節)は白抜き文字で示されており、相違表現が含まれる表現は網掛けの四角枠として示されている。
図10に示すように、構造関係特定手段103による構造関係の特定結果に基づいて、文章1においては、基準表現の違いに関係なく、「高速描画」と「動画処理」との共通表現構造が「並列」(720a,820a)であることがわかる。また、「ABC機能」と「動画処理」との相違表現構造が「並列」(720b,820b)であることがわかる。また、「ABC機能」と「高速描画」との相違表現構造が「同列」(720c,820c)であることがわかる。
図11は、構造関係特定手段103が文章2に対して構造関係を特定した結果を示す説明図である。なお、図11の下側に示す特定結果は、図11の上側に示す特定結果で用いた基準表現と対象表現とを反転して(入れ替えて)処理することによって求めた構造関係である。また、図11の見方は図10の場合と同様である。
図11に示すように、構造関係特定手段103による構造関係の特定結果に基づいて、文章2においても、基準表現の違いに関係なく、「高速描画」と「動画処理」との共通表現構造が「並列」(730a,830a)であることがわかる。また、「XYZ機能」と「動画処理」との相違表現構造が「並列」(713b,830b)、「XYZ機能」と「高速描画」との相違表現構造が「同列」(730c,830c)であることがわかる。また、「可視化診断」と「高速描画」との相違表現構造及び「可視化診断」と「動画処理」との相違表現構造は、表現間に2つ以上の分岐表現(「用いており、」と「役立っている」)があるため、構造関係が「その他」(730d,730e,830d,830e)であることがわかる。
類似性判定手段104は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。類似性判定手段104は、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する機能を備える。
類似性判定手段104は、構造関係抽出手段103から類似文章対を入力し、入力した類似文章対における共通表現構造及び相違表現構造の同一性を判定する(ステップS704d)。さらに、類似性判定手段104は、同一性の判定結果に基づいて、類似文章対における同義表現候補対の類似度を算出することにより同義表現を抽出し、同義表現の抽出結果を出力手段502に出力する(ステップS704e)。
なお、同義表現候補対とは、類似文章対において同義表現の候補となる相違表現をペア(対)にした情報である。類似文章対である文章iと文章jとにそれぞれ相違表現がni個及びnj個含まれている場合、同義表現候補対の組み合わせはni×nj通りとなる。類似性判定手段104は、これら全ての同義表現候補対の組み合わせに対して類似度を算出する。
まず、類似性判定手段104は、同義表現候補対における比較構造関係を特定する。比較構造関係とは、同義表現候補対の類似度を算出するために比較すべき共通表現構造及び相違表現構造のことである。類似性判定手段104は、共通表現構造について、類似文章対において基準表現及び対象表現が同一であるものを比較する。また、類似性判定手段104は、相違表現構造について、類似文章対において基準表現となる共通表現が同一であるもの、又は対象表現となる共通表現が同一であるものを比較する。
図12は、類似文章対における共通表現の数(m)が2である場合における比較構造関係の例を示している。図12において、共通表現1,2は文章i,jにおいて用いられている同一の文字列の表現であり、相違表現aと相違表現bとは同義表現候補対である。また、同義表現候補対は、図12において網掛けで示されている。図12に示す例では、類似性判定手段104が比較する構造関係数は、1つの同義表現候補対について、共通表現構造に対して2個となり、相違表現構造に対して4個となり、合計6個となる。すなわち、類似性判定手段104は、6個の構造関係の同一性に基づいて、同義表現候補対の類似度を算出する。
図13は、文章1と文章2とにおける同義表現候補対に対する比較構造関係を示す。文章1と文章2とにおいて、同義表現候補対は、「ABC機能」と「XYZ機能」、及び「ABC機能」と「可視化診断」の2つになる。類似性判定手段104は、各同義表現候補対の両方に対して、図12と同様に、2つの共通表現構造と4つの相違表現構造とを比較し、構造関係の同一性を判定することにより、同義表現候補対の類似度を算出する。
なお、類似文章対において、各文章における文法構造や、共通表現及び相違表現の語順等が同等であることが保証されている場合には、類似性判定手段104は、相違表現構造の同一性のみを判定することによって、同義表現候補対の類似度を算出してもよい。この場合、図13に示す例では、類似性判定手段104は、「ABC機能」と「XYZ機能」及び「ABC機能」と「可視化診断」の各同義表現候補対ともに4つの相違表現構造を比較し、構造関係の同一性を判定して、同義表現候補対の類似度を算出することになる。
次に、類似性判定手段104が実行する各構造関係の同一性の判定処理の判定方法について説明する。図14は、構造関係の同一性に関する判定基準を示す表(テーブル)の一例を示す説明図である。図14に示す表は、2つの構造関係の全ての組み合わせに対して、それらを同一とみなすか否かを設定したものである。以下、図14に示す表を同一性判定表という。なお、図14に示す同一性判定表は、例えば、情報処理装置が備えるハードディスク装置やメモリ等の記憶媒体に予め記憶される。また、図14に示す同一性判定表は、対象行列であるため、下三角行列の部分には値は含まれないものとする。
図14に示す同一性判定表では、各構造関係の組み合わせに対して「○」、「×」又は「順」の3種の同一性を判定するための判定値が設定されている。ここで、「○」は各比較構造関係を同一と判定することを意味し、「×」は相違と判定することを意味する。また、「順」は、比較構造関係において、基準表現と対象表現との各文章中における順序が等しい場合には同一と判定することを表す。
類似性判定手段104は、図14に示す同一性判定表に従って、各構造関係の同一性を判定する。この場合、類似性判定手段104は、原則として、比較構造関係が一致している場合(図14に示す対角要素に相当する)には、構造関係が「その他」である場合を除き、その構造関係を同一であると判断できる。ただし、同一性判定表を用いた同一性判定において、構造関係が一致していない場合においても同一と判定することを許容するものとする。
例えば、同一性判定表では、類似文章対において比較構造関係が「並列」と「横列」とである場合には、同一「○」760aであるとしている。横列と並列とは、基準表現の位置に差があるものの、ともに「同じ分岐表現に係る表現間の関係」を規定するものであり、実質的には同じ構造であると判断することができる。
また、同一性判定表において判定値として「順」を設定することにより、以下の処理を実現することができる。図15は、類似文章対の他の例である文章3及び文章4を示す説明図である。図15に示す類似文章対において、「DEF機能」と「KLM機能」とが同義表現であるとする。図15に示す例において、表現比較手段102は、「製品」と「新開発」とを共通表現として特定し、文章3の「DEF機能」と文章4の「KLM機能」及び「動画処理」とを相違表現として特定する。そのため、図15に示す例では、「DEF機能」及び「KLM機能」と「DEF機能」及び「動画処理」とが同義表現候補対となる。
図16は、図15に示す類似文章対の係り受け構造を示す説明図である。図16に示す各構造関係において、矢印の元が基準表現を示しており、矢印の先が対象表現を示している。また、図16に示す構造関係「同列」780aと「直列」(780b,780c)とは、比較構造関係である。この場合、文章3における「同列」780aと文章4における「直列」780bとは一致しない。そのため、従来の同義表現抽出方法では、文章3及び文章4から同義表現を抽出することはできない。
しかしながら、本実施の形態では、図16に示す場合であっても、類似性判定手段104は、図14に示す同一性判定表に基づいて、文章3における「同列」780aと文章4における「直列」780bとの相違表現構造関係を同一であると判定できる。すなわち、図14に示す同一性判定表では、「同列」と「直列」との同一性の判定基準が「順」と設定されており、共通表現と対象表現の順序が一致すれば、相違表現構造関係を同一と判定できる。図16に示す例では、文章3においては、基準表現「DEF機能」が対象表現「製品」よりも語順として前にあり、文章4においても基準表現「KLM機能」が対象表現「製品」よりも語順として前にあり、共通表現と対象表現との順序が一致する。そのため、類似性判定手段104は、「同列」780aと「直列」780bとの相違表現構造関係を同一であると判定することができる。
一方、図16において、「KML機能」と同様に、「動画処理」も対象表現「製品」と「直列」780cの関係にあるが、類似性判定手段104は、「直列」780cの構造関係を、「DEF機能」と「製品」との構造関係「同列」780aとは相違と判定できる。すなわち、図16に示す例では、文章4において基準表現「動画処理」が対象表現「製品」よりも語順として後ろにあり、文章3の基準表現「DEF機能」と対象表現「製品」との語順とが異なるため、類似性判定手段104は、「直列」780cと「同列」780aとの相違表現構造関係を相違と判定する。
以上の処理が実行されることにより、「DEF機能」に対する「動画処理」と「KML機能」との構造関係に差をつけることができる。
なお、図14に示した同一性判定表は一例であり、同一性判定表中の各要素をシステム利用者が変更できるようにしてもよい。例えば、図14に示す同一性判定表において、「順」を「○」に変更することによって、語順に対する制約を緩めるようにしてもよい。
図17及び図18は、それぞれ、類似性判定手段104によって特定された同義表現候補対「ABC機能」及び「XYZ機能」と「ABC機能」及び「可視化診断」とにおける比較構造関係の同一性を示す説明図である。図17及び図18において、比較構造関係は双方向矢印で示されており、矢印に付与されている「同一」及び「相違」は図14の同一性判定表に基づく判定結果を示している。図17及び図18に示す例では、「ABC機能」及び「XYZ機能」は全ての比較構造関係が同一であることがわかる。また、「ABC機能」及び「可視化診断」は4つの相違表現構造が相違であることがわかる。
次に、類似性判定手段104は、求めた構造関係の同一性に基づいて、同義表現候補対の類似度を算出する。なお、類似性判定手段104は、同義表現候補対の類似度を求める処理を、全ての同義表現候補対に対して実行する。この場合、類似性判定手段104は、類似度の算出方法として、例えば、式(1)を用いて同義表現候補対の類似度を求めるようにすればよい。
類似度=(構造関係の同一数)÷(比較した構造関係の数) 式(1)
類似性判定手段104は、式(1)を用いて算出した類似度が所定の閾値以上であるか否かを判定する(ステップS704f)。類似度が所定の閾値以上であれば、類似性判定手段104は、各同義表現候補が類似であると判定し、同義表現であると判定する。そして、類似性判定手段104は、類似文章対から同義表現として抽出する(ステップS704g)。類似度が所定の閾値以上でなければ、次の類似文章対があれば、次の類似文章対に対する同義表現抽出処理に移行する(ステップS704h)。
図17及び図18に示す例では、「ABC機能」及び「XYZ機能」は、比較構造関係の数が6つ(共通表現構造2つ、相違表現構造4つ)であり、それら全ての構造関係が同一であるため、類似性判定手段104は、類似度を6/6=1.0と求める。また、「ABC機能」及び「可視化診断」は、共通表現構造のみが同一であるため、類似性判定手段104は、類似度を2/6=0.33・・・と求める。例えば、閾値を0.8とすれば、類似性判定手段104は、「ABC機能」と「XYZ機能」とを類似と判断し、同義表現として抽出する。
さらに、類似性判定手段104は、共通表現間の構造関係、及び相違表現と共通表現との間の構造関係の同一性に対して重み付けを行い、重み付き平均を求めることにより、類似度の算出を行ってもよい。この場合、例えば、類似性判定手段104は、式(2)を用いて、重み付き平均を求めて類似度の算出を行う。
類似度=w×(共通表現構造の類似度)+(1−w)×(相違表現構造の類似度)
式(2)
ただし、類似性判定手段104は、式(2)を用いて類似度を求める際に、共通表現構造及び相違表現構造の類似度を、それぞれ式(3)及び式(4)を用いて求める。
(共通表現構造の類似度)=(共通表現構造の同一数)÷(比較した共通表現構造の数)
式(3)
(相違表現構造の類似度)=(相違表現構造の同一数)÷(比較した相違表現構造の数)
式(4)
式(2)において、wは、類似文章対における共通表現間の同一性をどれだけ重視するかを示す重み係数であり、0〜1の値をとる。また、w=(m−1)/(m+1)とすれば、式(2)は式(1)と同等になる。ここで、mは共通表現の数である。すなわち式(2)は式(1)を含む一般式として捉えることができる。また、重み係数wを0.2とすれば、相違表現構造を重視した同義表現抽出を行うこともできる。
図19は、類似性判定手段104が求めた重み付き平均を用いた類似度の例を示す説明図である。図19は、文章1及び文章2における共通表現構造の類似度及び相違表現構造の類似度を式(3)及び式(4)を用いて算出するとともに、w=0.2にとしたときの類似度を示している。
なお、類似性判定手段104は、閾値以上となる同義表現候補対が多数ある場合には、類似度が最も高かったものを同義表現として抽出してもよいし、閾値以上のもの全てを同義表現として出力してもよい。また、類似性判定手段104は、類似度上位の所定数の候補のみ同義表現として出力してもよい。
さらに、類似性判定手段104は、共通表現間の構造関係が異なる場合、類似文章対において文章の構造が大きく変化していると判断し、同義表現と判断する閾値を変更してもよい。また、類似性判定手段104は、複数の同義表現候補対に対する類似度が求められている場合には、類似度の値の分布によって統計的に類似度間の差が大きい箇所を検出し、閾値を決定してもよい。また、類似する同義表現候補対が存在しない場合においては、図14に示す同一性判定表の「その他」を「○」と変化させた場合における類似度を再度計算し、該同義表現候補対を再計算してもよい。この場合においては、「その他」という構造関係で類似している同義表現の抽出が行える。
なお、類似性判定手段104は、一組の類似文章対において共通表現間の構造関係の類似度は一定の値となるため、類似度が最も高いものを同義表現とする場合には、共通表現間の構造関係の類似度は算出する必要はない。
また、出力手段502には、類似性判定手段104の指示に従って、抽出した同義表現だけを出力してもよいし、同義表現とともに同義表現に係る表現を出力してもよい。例えば、類似性判定手段104は、「ABC機能」及び「XYZ機能」という同義表現を抽出した場合において、「XYZ機能」に相違表現「○○社の」という表現が係っていた場合、出力手段502に、「ABC機能」と「○○社のXYZ機能」とを同義表現として出力させてもよい。この場合、類似性判定手段104は、ABC機能を含む文章において○○社という単語が存在している場合には、XYZ機能に係っている「○○社の」を同義表現から除外する処理を行って、出力手段502に出力させてもよい。そのようにすることにより、類似文章対において、比較する文章にない表現で、かつ同義表現に係る表現のみを抽出することができる。
出力手段502は、具体的には、ディスプレイ装置等の表示装置によって実現される。出力手段502は、例えば、ディスプレイ装置である場合には、類似性判定手段104の指示に従って、同義表現抽出装置10により抽出された同義表現を表示する。なお、出力手段502は、同義表現の抽出結果をファイルとして出力してもよいし、e−mail(電子メール)等を用いてシステム利用者の端末に通知(送信)してもよい。
図20は、出力手段502が出力する同義表現の出力結果の一例を示す説明図である。出力手段502は、図20に示すように、類似性判定手段104の指示に従って、どのような文章からどのような同義表現が抽出されたかを出力する。図20に示す例では、出力手段502は、文章1と文章2とからABC機能とXYZ機能という同義表現が抽出されたことを出力(表示)している。
なお、出力手段502の出力態様は、図20に例示した以外の表示態様でもよい。例えば、図21に示すように、出力手段502は、同義表現の候補を表示し、それら同義表現の候補とともに算出した類似度を表示してもよい。そのように、複数の同義表現の候補を出力(表示)することにより、類似度の多少の差により抽出した同義表現が出力されない等の弊害を避けられる。
また、本実施の形態において、同義表現抽出システム10を実現する情報処理装置の記憶装置(図示せず)は、類似文章対に含まれる各文章から同義表現を抽出するための各種プログラムを記憶している。例えば、情報処理装置の記憶装置は、コンピュータに、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する同義表現抽出処理を実行させるための同義表現抽出用プログラムを記憶している。
以上のように、本実施の形態によれば、類似文章対に含まれる共通表現構造の類似度等の情報に基づいて類似文章対の文法的類似性を推定し、類似文章対から同義表現を抽出できる。すなわち、本実施の形態では、同義表現抽出システム10は、相違表現の類似度だけに基づいて同義表現であるか否かを判断するのではなく、類似文章対に含まれる共通表現と相違表現との両方の構造関係に基づいて、同義表現であるか否かを判断する。従って、事前に特殊な文法規則を設けることなく、類似文章対から同義表現を抽出することができる。
図22は、本発明における同義表現抽出システム10が同義表現を抽出できる原理を示す説明図である。本実施の形態では、図32で示した従来の同義表現抽出方法と同様に、同一のマーカー語(701a,901a)が存在し、かつ、マーカー語(701a,901a)と同義表現候補(701b、901b)との関係(701c,901c)が類似していれば、その同義表現候補を同義表現とする。また、図32で示した従来の同義表現抽出方法との違いは、本実施の形態では、同義表現抽出システム10は、類似文章対において共通するマーカー語間の関係(701d,901d)の同一性を評価する。そして、同義表現抽出システム10は、共通するマーカー語(701a,901a)が類似する関係であれば、類似文章対の文法や語順の規則性等が類似していると判断する。
上記のようにすることにより、類似文章対において、事前に明示的な文法制約を決めておくことを必要とせずに、高精度に同義表現を抽出することができる。また、類似文章間で語順が異なる場合や、類似表現が文章中に部分的に含まれる場合、用言がとる格が異なる場合であっても、同義表現を抽出することができる。
また、本実施の形態によれば、係り受け解析等に利用する一般的な辞書以外の辞書を用いずに同義表現を抽出できる。そのため、特別な辞書を準備したり記号表現を利用することなく、類似文章対を効率的に抽出できる。
さらに、本実施の形態によれば、上記に示したように、多量の類似文章対を必要としない同義表現抽出の原理に従って、同義表現を抽出する。そのため、少数の類似文章対からであっても、高精度に同義表現を抽出することができる。
実施の形態2.
次に、本発明の第2の実施の形態を図面を参照して説明する。図23は、第2の実施の形態における同義表現抽出システムの構成例を示すブロック図である。図23に示すように、本実施の形態では、図1に示した構成要素に加えて、文章整形手段105を含む点で、第1の実施の形態と異なる。
文章整形手段105は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。文章整形手段105は、類似文章対データベース501から類似文章対を取得(抽出)する。また、文章整形手段105は、抽出した類似文章対に対して、係り受け構造が変化する表記の差異を予め整形し、整形文章を係り受け解析手段101に出力する。
本実施の形態では、表記の差異を事前に整形しておくことにより、類似文章対から類似する係り受け構造を特定できるようになり、同義表現の抽出精度を向上させることができる。すなわち、本実施の形態では、類似文章を予め所定の文法則に従って変換しておくことによって、文章の係り受け構造を特定しやすくし、同義表現の抽出精度を向上させている。
構造を類似させる文法規則の一例として、文章整形手段105は、例えば、「(名詞)を(サ変接続の名詞)する」を「(名詞)の(サ変接続の名詞)をする」に変換する処理を行う。サ変接続の名詞とは、「抽出する」や「獲得された」等、直後に「する」「される」等の単語を伴い、動詞のように扱われる単語である。
図24は、サ変接続の名詞を含む例文を示す説明図である。図24に示す例では、文章5に含まれるPQR機能と文章6に含まれるSTU機能とが同義表現であるとする。また、図25は、図24に示す文章5と文章7とに係り受け解析を適用した結果を示す説明図である。図25(a),(b)に示すように、文章5と文章6とは類似した文章であるが、サ変名詞の動詞化により係り受け解析の構造が変化していることがわかる。そこで、文章整形手段105は、文章5に対して、上記した変換規則を適用して文法側の変換を行い、図24に示す文章5'のように変換する。そして、係り受け解析手段101は、文章整形手段105が変換した文章に対して、係り受け解析を実行し、図25(c)に示すような木構造を求める。文章整形手段105による文法側の変換により、文章5の係り受け構造を文章7と同等にすることができ、同義表現の抽出の精度を向上させることができる。
なお、本実施の形態で示した変換規則は一例であり、文章整形手段105は、係り受け解析による文章構造が類似するような変換規則を予め用意しておくほど、同義表現抽出の精度を高めることができる。
実施の形態3.
次に、本発明の第3の実施の形態を図面を参照して説明する。図26は、第3の実施の形態における同義表現抽出システム10の構成例を示すブロック図である。図26に示すように、本実施の形態では、図1に示した構成要素に加えて、類似度表データベース106、類似基準補正手段107及び入力手段503を含む点で、第1の実施の形態と異なる。
類似度表データベース106は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。類似度表データベース106は、各同義表現候補対に対する共通表現構造の類似度と、相違表現構造の類似度と、システム利用者によって入力される同義表現の正誤判定の内容とを記憶する。
類似基準補正手段107は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。類似基準補正手段107は、類似文章対における相違表現の類似類性の判定基準を動的に変化させる機能を備える。
入力手段503は、具体的には、キーボードやマウス等の入力装置によって実現される。
本実施の形態では、出力手段502は、類似性判定手段104の指示に従って、抽出した同義表現を出力する際に、出力した結果が真の同義表現であるか否かをシステム利用者が入力できるような態様で同義表現を出力(表示)する。
出力手段502は、例えば、図27に示すような出力の様態で同義表現を出力(表示)する。図27に示す例では、出力手段502は、類似文章対において、同義表現候補対を類似度とともに表示している。また、図27において、右下の「判定」欄728は、同義表現として正しいか否かを入力する欄を表している。例えば、ユーザは、図27に示す表示画面の「判定」欄728から○又は×を入力操作することによって、出力された同義表現が正しいか誤っているかを入力指示する。
なお、図27に示す例では、正誤を表現するのに○または×を入力できるフォームが用意されている場合を示しているが、本実施の形態で示したものに限らず、正しい同義表現を選択できるようにラジオボタンを含む表示画面を出力(表示)してもよい。また、例えば、表示画面から同義表現の出力結果の正誤を文字として入力できるようにしてもよい。
入力手段503は、システム利用者の入力操作に従って、相違表現対に対する正誤の判定内容を入力し、同義表現抽出システム10に出力する。本実施の形態では、入力手段503として、例えば、キーボードやマウス等の入力デバイスを用いる。図27に示す例では、入力手段503は、○又は×の情報を同義表現の判定内容として入力し、同義表現抽出システム10に出力する。なお、入力手段503は、システム利用者の操作に従って、類似性に対して数値等を入力することによって、同義表現の抽出結果を評価してもよい。また、入力手段503は、数値を入力するときに段階評価で入力してもよいし、連続値で入力してもよい。
類似度表データベース106は、各同義表現候補対に対する共通表現構造の類似度と、相違表現構造の類似度と、システム利用者によって入力される同義表現の正誤判定内容とを類似度表として記憶する。図28は、類似度表データベース106が記憶する類似度表の例を示す説明図である。類似度表は、類似文章対における共通表現構造の類似度、相違表現構造の類似度、及びシステム利用者により入力された同義表現の判定情報をまとめた表(テーブル)である。
類似性判定手段104は、i番目の同義表現候補対に対する共通表現構造の類似度をaiとし、相違表現構造の類似度をbiとすると、共通表現構造の類似度及び相違表現構造の類似度を、第1の実施の形態で示した式(3)及び式(4)を用いてそれぞれ算出すればよい。
類似基準補正手段107は、類似度表データベース106に記憶されている情報に基づいて、第1の実施の形態で示した類似度算出用の式(2)で用いる重み係数wを推定し、推定した重み係数を類似性判定手段104に出力する。wは共通表現構造の類似度(ai)と相違表現構造の類似度(bi)とのどちらを重視するかを決定するための値である。
類似基準補正手段107が重み係数wを補正する処理の一例を以下に示す。判定内容が○および×の2値で与えられている場合、×を0とし、○を1として処理を行う。また、判定内容が段階評価や連続値等の数値データで与えられている場合には、それらを0〜1に規格化した値を用いて処理を行う。
類似基準補正手段107は、判定内容を規格化した値として、例えば、判定情報の最大値と最小値とを求めた後、式(3)を適用して、式(3)’を用いて算出すればよい。
(規格化された判定値)=(判定−最小値)/(最大値−最小値) 式(3)’
なお、式(3)’を用いた規格化済みの判定値をtiとする。
図29は、図28に示した類似度表における判定内容を数値化した表を示す説明図である。なお、図29における同義表現候補対の個数をnとする。この場合、類似基準補正手段107は、tiと、式(2)を用いて算出される同義表現候補対の類似度w×ai+(1−w)×biとの差が小さくなるwを推定する。具体的には、類似基準補正手段107は、式(2)のw×ai+(1−w)×biとtiとの差をeiとしたときに、式(5)に示すEを最も小さくするwを求める。
E=Σei×ei 式(5)
なお、式(5)において、Σはiを1〜nまで変更したときの総和を表す記号である。また、文章整形手段105は、式(5)をwに関して微分し、微分式を0とすることにより、式(6)式を求める。
w=Σ(ti−bi)(ai−bi)/Σ(ai−bi)(ai−bi) 式(6)
文章整形手段105は、式(6)を用いてEを最小にするwを求める。
以下、wの補正方法について具体例を用いて説明する。図30は、4つの同義表現候補対を含む類似度表における判定内容を数値化した表を示す説明図である。図30において、真の同義表現は「ABC機能」及び「XYZ機能」と「PQR機能」及び「ABC機能」であるとする。
また、式(2)を用いて同義表現の抽出を行う場合において、重み係数wを0.8と設定し、同義表現とするか否かを判定するための類似度の閾値を0.8と設定したとする。図30に示す「類似度」は、類似性判定手段104が式(2)を用いて算出した各同義表現候補の類似度を示している。また、図30に示す例において、類似性判定手段104は、網掛けで示した類似度に対応する「ABC機能」及び「XYZ機能」と、「ABC機能」及び「可視化診断」と、「PQR機能」及び「ABC機能」とを同義表現として抽出する。すなわち、図30に示す例では、類似性判定手段104は、「ABC機能」及び「可視化診断」の組を誤って同義表現として抽出している。
図30に示す例において、同義表現抽出システム10は、システム利用者の入力操作に従って、図30の最右列に示すように、同義表現の抽出結果に対する判定内容を入力する。すると、類似基準補正手段107は、式(6)を用いて、重み係数wの補正値を約0.17と算出する。
次に、類似性判定手段104は、補正後の重み係数w=0.17を用いて、各同義表現候補の類似度を算出しなおす。図31は、w=0.17としたときの各同義表現候補の類似度の算出結果を示す説明図である。
上記の処理により、類似度を平均的に判定値(ti)に近づけることができ、例えば、図31に示す例では、「ABC機能」及び「XYZ機能」と「PQR機能」及び「ABC機能」のみが閾値以上の類似度を有するように重み係数wの値を補正できている。従って、本実施の形態によれば、上記のような処理に従って、重み係数wの値を推定できるので、同義表現抽出の精度を高めることができる。
なお、式(6)を用いて重み係数wの補正を行う場合を示したが、本実施の形態で示した補正方法は、同義表現を抽出する類似性判定の基準として式(2)を用いた場合の一例であり、重み係数wの補正方法として他の方法を用いてもよい。例えば、類似基準補正手段107は、類似性判定の基準として式(2)式以外の算出式を用いる場合には、その算出式にあわせた補正機能を設定すればよい。
又、式(6)に示したように一意に補正量を求めるのではなく、類似基準補正手段107は、重み係数wを徐々に変更していくようにしてもよい。例えば、類似基準補正手段107は、現在の重み係数をwとし、新しく推定される重み係数をw_newとする場合、設定する重み係数を(w+w_new)/2として求める等の方法を用いて、重み係数wの値を補正してもよい。
また、本実施の形態で示した同義表現抽出システム10の構成に、さらに、第2の実施の形態で示した文章整形手段105を含むように構成してもよい。そのように構成すれば、より高精度に同義表現を抽出することができる。
実施の形態4.
上記の各実施の形態に示した同義表現抽出システム10は、例えば、電子文書の文書伝達の構造を特定する文章参照関係抽出システムや、電子文書に含まれる同義表現を統一する表現統一化システム、文書伝達を評価する文章伝達評価システムに適用することができる。以下、同義表現抽出システム10を適用した文章参照関係システム、表現統一化システム、文書伝達評価システムについて、図面を参照して説明する。
まず、本発明の第4の実施の形態について図面を参照して説明する。図33は、本発明による同義表現抽出システム10を適用した文書参照関係抽出システム100を用いた表現統一システム300の構成の一例を示すブロック図である。この例では、本発明による同義表現抽出システム10が同義表現抽出装置350として適用されている。一般に、情報共有するために作成した電子文書を他の人に伝達する(例えば、電子メール等を用いて転送する)過程において、その電子文書を参照した人が表現を修正することにより、同義表現を含む電子文書(パラレルコーパス)が発生する傾向がみられる。本実施の形態では、このような傾向を利用して、文書参照関係抽出システム100や表現統一化システム300は、文書伝達の階層構造を特定し、伝達された電子文書間の同義表現を統一化する処理を行う。
図33に示すように、表現統一化システム300は、組織情報データベース310と、伝達文書抽出手段320と、伝達文書データベース330と、文書参照関係抽出システム100と、パラレルコーパス抽出手段340と、同義表現抽出装置350と、同義表現データベース360とを含む。また、文書参照関係抽出システム100は、コミュニケーション計画データベース110と、非参照関係抽出手段120と、階層構造特定手段130とを含む。
また、本実施の形態において、表現統一化システム300は、ユーザの操作に従って、キーボードやマウス等の入力手段510から各種情報を入力する。また、本実施の形態において、表現統一化システム300は、ユーザ間で伝達された電子文書を、文書提供サーバ520から収集する。また、本実施の形態では、表現統一化システム300は、各種情報を、ディスプレイ装置等の出力手段530に出力(例えば、表示)させる。
なお、本実施の形態では、表現統一化システム300の外部に、入力手段510と、文書提供サーバ520と、出力手段530とを設ける場合を示すが、表現統一化システム300が、入力手段510と、出力手段530とを備えてもよい。また、表現統一化システム300が文書提供サーバ520の機能を備えていてもよい。
また、本実施の形態では、文書参照関係抽出システム100の内部に、コミュニケーション計画データベース110を備える場合を示すが、文書参照関係抽出システム100の外部に、コミュニケーション計画データベース110を設けてもよい。
また、本実施の形態において、文書参照関係抽出システム100や表現統一化システム300は、例えば、プログラムに従って動作するコンピュータ(例えば、パーソナルコンピュータ等の情報処理装置)によって実現される。
以下の説明では、あるプロジェクトにおいて、プロジェクト内のメンバが、e−mail(電子メール)を用いて、電子文書として「週報」を、コミュニケーション計画に則って提出する場合を例として説明する。ただし、本例は、本発明の説明を容易にするためのものであり、本発明の適用範囲を制限するものではない。また、以下、ユーザ間で電子メール等の転送手段を用いて電子文書を転送することを、電子文書を伝達すると表現する。また、ユーザ間で伝達された電子文書のことを伝達文書とも表現する。
本実施の形態では、文書参照関係抽出システム100は、企業等の組織内において、予め定められた電子文書の伝達計画(コミュニケーション計画)に従って電子文書の伝達が行われる場合に、実際に行なわれた電子文書の伝達の階層構造を抽出する用途に用いられる。また、表現統一化システム300は、文書参照関係抽出システム100によって抽出された電子文書伝達の階層構造を利用して、伝達前後の電子文書間に含まれる同義表現を統一する用途に用いられる。
入力手段510は、具体的には、キーボードやマウス等の入力デバイスである。入力手段510は、ユーザの操作に従って、組織情報を入力する。なお、表現統一化システム300は、入力手段510から入力した組織情報を組織情報データベース310に記憶する。また、入力手段510は、ユーザの操作に従って、コミュニケーション計画を入力する。なお、文書参照関係抽出システム100は、入力手段510から入力したコミュニケーション計画をコミュニケーション計画データベース110に記憶する。
組織情報データベース310は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。組織情報データベース310は、予め組織情報を記憶している。「組織情報」とは、電子文書の伝達が行われる組織の構成を示す情報である。本実施の形態において、組織情報は、文書伝達に関わる各メンバを識別するためのメンバIDと、各メンバが所属する所属グループを識別するためのグループIDとを含むものとする。メンバIDは、各メンバに対して各人を識別するために付与されるものであり、例えば企業における社員番号等である。グループIDは、所属グループを識別するためのIDである。また、組織情報は、その他の情報として、分析結果を通知するためのメールアドレス等の連絡先や、氏名、年齢、役職、専門分野等の各メンバの個人情報等を含む。
なお、本実施の形態において、組織情報は、組織内の管理者等によって予め作成され、組織情報データベース310に登録されているものとする。例えば、組織情報は、プロジェクトや組織管理用のツール等に記録されているデータから抽出してもよいし、人が入力手段510を用いて入力してもよい。また、機械可読であれば、紙面等に書かれた組織情報をOCR等で読み込むようにしても構わない。
図34は、組織情報の一例を示す説明図である。図34に示す組織情報によれば、表現統一化システム300が適用される組織は、メンバ数が7名であり、グループ数が3つであることが分かる。なお、1人のメンバが複数のグループに所属しても構わないし、複数の役職を兼務していてもよい。また、1人のメンバが複数のe−mailアドレスを所持していても構わない。説明の簡単化のため、本実施の形態では、各メンバが1つのグループにのみ所属しているものとする。
コミュニケーション計画データベース110は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。コミュニケーション計画データベース110は、予めコミュニケーション計画を蓄積する。「コミュニケーション計画」とは、組織内における電子文書の伝達計画を示す情報である。コミュニケーション計画は、「どの文書を(文書名)」、「いつ(伝達予定日時)」、「誰から(Fm)」、「誰に(To)」、「どのようにして(伝達手段)」伝達するかを示す計画情報と、各計画を識別するための計画番号(No)とを含む。また、コミュニケーション計画は、ある一連の文書伝達に関して作成されるものである。また、本実施の形態では、1つの一連の伝達計画には、1つの計画書番号(No)が与えられるものとする。なお、これらの情報は一例であり、コミュニケーション計画が含む情報は、これらに限定されるものではない。
なお、本実施の形態において、コミュニケーション計画は、組織内の管理者等によって予め作成され、コミュニケーション計画データベース110に登録されているものとする。例えば、コミュニケーション計画は、管理者等の操作に従って、入力手段510から入力される。また、例えば、所定の資料(電子文書)から、既存の情報抽出技術を用いて、電子文書の伝達予定日時や、文書名、伝達元、伝達先、伝達手段を示す情報を抽出し、コミュニケーション計画表を自動生成するようにしてもよい。
図35は、コミュニケーション計画の一例を示す説明図である。本実施の形態では、送信者が同一である1つの文書を伝達する計画に対して、同一の計画番号(No)が付与される。図35に示すコミュニケーション計画において、伝達予定日時には、各電子文書を伝達する予定日時が格納される。なお、伝達予定日時の指定は日単位に限らず、例えば、時間単位で行ってもよいし、午前や午後等の情報を含んでいてもよい。また、いつからいつまでといった期間を示す情報で指定してもよいし、毎週金曜日や月末等の言語的表現を用いて電子文書の伝達予定時を指定してもよい。
なお、コミュニケーション計画の各レコードは、伝達予定日時順に並んでコミュニケーション計画データベース110に格納されているものとする。また、文書名の欄には、e−mailに含まれる件名や、ファイル名等の電子文書を特定するための情報が格納されている。
各メンバは、この文書名に合わせて、e−mailの件名やファイル名等を付けるものとする。例えば、週報の電子文書について予め「週報」という文書名を付与することにルール決めされている場合には、組織内の各メンバは、その電子文書を電子メールを用いて伝達する場合に、電子メールの件名を「週報」として、その電子文書を電子メールに添付して送信する。また、組織内の各メンバは、作成又は編集した電子文書に「週報」というファイル名をつける。
また、図35において、「Fm(伝達元)」及び「To(伝達先)」には、文書伝達における「誰から」及び「誰に」が含まれ(すなわち、伝達文書の伝達先と伝達元とが含まれ)、記載内容には個人が識別できるメンバID等が用いられる。ただし、各メンバを特定できる情報であれば、メンバID以外の情報を用いても構わない。また、システムの利用者によるコミュニケーション計画の入力の負担を軽減するため、Fm及びToはグループIDにより指定することもできる。Fmがグループで指定されており、且つ、そのグループの各メンバが異なる電子文書を作成し伝達する場合には、前述した規則に従い、各電子文書に異なる計画番号(No)が与えられるものとする。
また、図35において、伝達手段の欄には、伝達に用いる手段が含まれる。例えば、コミュニケーション計画の伝達手段のランには、e−mail(電子メール)等の手段を示す情報が含まれる。なお、伝達手段の欄には、e−mailに限らず、例えば、FAX(ファクシミリ)や、印刷物の郵送、電子掲示板への書込み、指定フォルダへのファイルのアップロード等の様々な伝達方法が含まれてもよい。すなわち、伝達した電子文書の電子ファイルが特定できれば、いかなる伝達手段を用いても構わない。
また、コミュニケーション計画データは、人が入力手段510を用いて入力してもよいし、機械可読であれば、紙面上のコミュニケーション計画からOCR等により読み込むようにしてもよい。また、自由記述による伝達の計画書が存在する場合は、既存のテキスト処理技術を用いて、その計画書からコミュニケーション計画を抽出してもよい。
また、図35には、「週報」に関するコミュニケーション計画の例が示されており、計画書番号(No)として1が付与されている。また、計画No(P001,P002,P003)に示される各レコードによれば、2006年9月28日に、メンバM3,M4,M5が、それぞれグループG2の各メンバに「週報」をe−mail(電子メール)により伝達する予定であることが分かる。また、計画No(P004)に示されるレコードによれば、次の日の2006年9月29日に、メンバM2が、マネージャM1とグループG2の各メンバに「週報」を伝達する予定であることが分かる。また、計画No(P005)に示されるレコードによれば、2006年9月29日に、メンバM1が、グループ3の各メンバに「週報」をe−mailにより伝達する計画になっていることが分かる。
伝達文書抽出手段320は、具体的には、プログラムに従って動作する情報処理装置のCPU及びネットワークインタフェース部によって実現される。伝達文書抽出手段320は、所定のプロジェクトにおいて作成された電子文書や、e−mail(電子メール)等を用いて伝達された電子文書が保存されている文書提供サーバ520から、各電子文書の伝達文書情報を抽出する機能を備える。また、伝達文書抽出手段320は、抽出した伝達文書情報を伝達文書データベース330に保存する機能を備える。
本実施の形態では、組織内において共有サーバ(文書提供サーバ520)を用いて、各電子文書が共有化されており、文書提供サーバ520は、各電子文書が伝達されたログ情報(伝達文書情報)を記憶している。伝達文書抽出手段320は、例えば、所定期間毎に(例えば、毎日1回)、文書提供サーバ520に自動アクセスし、LAN等のネットワークを介して、文書提供サーバ520から伝達文書情報を受信して伝達文書データベース330に記憶させる。また、例えば、伝達文書抽出手段320は、文書提供サーバ520に新たに電子文書が格納されたことをトリガとして、文書提供サーバ520に自動アクセスし、ネットワークを介して、文書提供サーバ520から伝達文書情報を受信して伝達文書データベース330に記憶させる。
なお、文書提供サーバ520(共有サーバ)は、1台に限らず、組織内に複数台備えられていてもよい。例えば、文書提供サーバ520として、メールサーバやファイルサーバ等の複数種類のサーバが備えられていてもよい。また、例えば、文書提供サーバ520として、同じ種類の共通サーバ(例えば、ファイルサーバ)が複数台備えられていてもよい。
伝達文書情報は、電子文書の伝達状況を示すログ情報である。本実施の形態では、伝達文書情報には、「文書ID」、「伝達日時」、「文書名」、「Fm(伝達元)」、「To(伝達先)」及び「伝達手段」が含まれている。また、伝達文書情報は、これら伝達記録を示す情報とともに電子文書の内容を含んでいてもよい。
文書IDは、各電子文書を識別するための識別情報である。本実施の形態では、同一の日時に同じ人によって伝達された同一の内容の電子文書に対しては、1つの文書IDが付与される。伝達日時は、電子文書が伝達された日と時間とを示す情報である。FmとToとは、誰から誰に伝達文書が伝達されたか(電子文書の伝達元と伝達先)を示す情報である。伝達手段は、どのようなメディアを用いて文書伝達が行われたかを示す情報である。例えば、伝達文書情報は、メディアとして、e−mail(電子メール)やFAX(ファクシミリ)、印刷物の郵送等の様々な形式の伝達手段の情報を含む。
伝達文書抽出手段320は、例えば、e−mailによる伝達であれば、電子メールのヘッダや、メールサーバが記憶するログ情報に基づいて、各メールのFm(伝達元)とTo(伝達先)とを抽出し、電子メールの件名を文書名として抽出する。そして、伝達文書抽出手段320は、抽出した伝達元や伝達先、文書名を含む伝達文書情報を、伝達文書データベース330に記憶させる。
また、共有のフォルダや文書管理ツール等にアップロードして電子文書を伝達する場合であれば、伝達文書抽出手段320は、アップロードしたファイルのファイル名を文書名とし、アップロードした人をFm(伝達元)、そのファイルを参照した人をTo(伝達先)、伝達日時をアップロードした日時として、伝達文書情報を抽出すればよい。また、電子ファイルを印刷し郵送/手渡ししたものであっても、伝達文書抽出手段320は、伝達過程における郵送前後の文書伝達に関する伝達記録があれば、郵送による伝達がなされたものであると判断し、伝達記録に加えることもできる。
伝達文書データベース330は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。伝達文書データベース330は、伝達文書抽出手段320が抽出した伝達文書情報を記憶する。
なお、伝達文書データベース330は、伝達文書情報を、コミュニケーション計画において伝達が計画されているものと、そうでないものとを判別できるように保存しておく。例えば、伝達文書データベース330は、各伝達文書情報に計画の有無のフラグを付与することや、計画の有無で伝達文書の保存先やファイルを変える等の方法によって、伝達文書情報を判別可能に記憶する。なお、伝達文書抽出手段320は、各電子文書と各コミュニケーション計画との対応関係を、伝達文書情報とコミュニケーション計画とのFm(伝達元)とTo(伝達先)とが一致していることを前提条件として、電子文書名の類似性に基づいて判定することができる。また、伝達文書抽出手段320は、電子文書名中の文字列が完全一致していることを絶対条件としてもよいし、表記ゆれ等に対応するために、電子文書名中の共通文字列の割合等により類似度を求めて判定してもよい。
例えば、コミュニケーション計画と伝達文書情報とにおける文書名がそれぞれ「週報20060928」、「週報2006年 9月28日」であり、同一のFm(伝達元)とTo(伝達先)とであるとする。この場合、両文書名の平均文字数の11文字中、共通する文字数が10文字あるため、文字の一致率を求めると10/11≒0.91となる。この文字の一致率を類似度として用いて、類似の基準を文字の一致率が0.8以上である場合に類似であるとすれば、伝達文書抽出手段320は、類似度判定をすることによって、コミュニケーション計画と伝達文書情報とを対応づけることができる。また、伝達文書抽出手段320は、単純に文字の一致数だけではなく、オントロジ辞書等を用いて「2006-09-28」と「平成18年 9月28日」とが同じ意味であると判断する等、意味的な類似尺度を用いてもよい。
また、コミュニケーション計画の予定伝達日時と伝達文書情報の伝達日時とが離れている日時である場合には、伝達文書抽出手段320は、文書名が類似していても、それらコミュニケーション計画と伝達文書情報とが対応関係がないと判定することもできる。例えば、伝達文書抽出手段320は、文書名が「週報」である場合に、実際の伝達日時が伝達予定日時よりも7日以上遅れていれば、別の週の週報と判断して扱うこともできる。この場合、電子文書における対応関係を判定する伝達日時と伝達予定日時との差は、システムの利用者により任意に決定できるものとする。
なお、伝達文書抽出手段320は、コミュニケーション計画のFm(伝達元)及びTo(伝達先)にグループによる指定がある場合には、類似性を測る(判定する)際にコミュニケーション計画を展開しておく。「コミュニケーション計画の展開」とは、組織情報のグループとメンバとの関係を参照して、コミュニケーション計画データを各メンバ同士の伝達計画にすることである。このとき、展開時にFm(伝達元)とTo(伝達先)とが同じになるものは、伝達計画から除外しておく。
図36は、伝達文書情報の一例を示す説明図である。図36において、図中の計画書番号(No)は、対応するコミュニケーション計画の計画書番号(No)を表している。図36において、例えば、文書ID「D101」の週報は、2006年9月28日の17:00に、メンバM3からそれぞれメンバM2,M4,M5に文書伝達されたことが分かる。
また、図37は、コミュニケーション計画「No.P001」を展開した例を示す説明図である。図37に示す例では、メンバM3からグループG2への文書伝達を示すコミュニケーション計画が、メンバM3からグループG2の各メンバそれぞれへの文書伝達を示すコミュニケーション計画に展開されている。ただし、図37に示す例では、メンバM3もグループG2のメンバの1人であるため、伝達文書抽出手段320は、展開後のコミュニケーション計画から、メンバM3からメンバM3への文書伝達に係るレコード(図37に示す網掛け部705)を削除する。
文書参照関係抽出システム100は、伝達文書データベース330に記憶される伝達文書情報と、コミュニケーション計画データベース110に記憶されるコミュニケーション計画とに基づいて、文書伝達の階層構造を特定する機能を備える。また、文書参照関係抽出システム100は、特定した文書伝達の階層構造を示す情報をパラレルコーパス抽出手段340に出力する機能を備える。
本実施の形態では、文書参照関係抽出システム100は、ユーザ(組織内のいずれかのグループのメンバ)の指示操作に従って、文書伝達の階層構造の特定処理を実行する。例えば、ユーザが情報処理装置が備える表示装置に表示された所定の入力フォームから「実行」ボタンをマウスクリック等すると、文書参照関係抽出システム100は、文書伝達の階層構造の特定処理を開始する。
図38は、図35に示すコミュニケーション計画における文書伝達を模式的にネットワークとして表した説明図である。図38において、ノードはメンバを表し、ノード間の矢印は電子文書の伝達関係を表している。図38に示すように、各メンバM3,M4,M5のノードから文書伝達のパスがネットワーク状に広がっている。そのため、このままでは、メンバM3,M4,M5間の文書伝達の階層構造を特定できない。文書参照関係抽出システム100は、図38に示すようなネットワーク状の文書伝達構造の状態から、電子文書間の参照関係を抽出するものである。
非参照関係抽出手段120は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。非参照関係抽出手段120は、電子文書間に参照関係が生じない文書伝達を抽出する機能を備える。まず、非参照関係抽出手段120は、コミュニケーション計画に基づいて計画表を作成する。計画表とは、同一の計画番号(No)のコミュニケーション計画において、同じ伝達予定日時における文書伝達計画の有無を表形式にまとめて示したテーブルである。
非参照関係抽出手段120は、計画表を、以下の処理に従って作成する。まず、非参照関係抽出手段120は、コミュニケーション計画におけるFm(伝達元)とTo(伝達先)との和集合を求める。次いで、非参照関係抽出手段120は、同一の伝達予定日時毎に、対応するメンバの集合を行と列とに配置した正方行列を作成する。ここで、作成した正方行列の行方向は文書伝達におけるFm(伝達元)を表し、列方向はTo(伝達先)を表す。次いで、非参照関係抽出手段120は、計画表のFm(伝達元)とTo(伝達先)との間において、文書伝達の計画がある箇所には1を付与し、文書伝達の計画のない箇所には0を付与する。
以上の処理を行うことによって、非参照関係抽出手段120は、計画表を作成する。図39は、非参照関係抽出手段120が作成する計画表の一般例を示す説明図である。図39に示す計画表において、最左列は文書伝達におけるFm(伝達元)のメンバIDを示し、最上段の行はTo(伝達先)のメンバIDを示している。また、t番目の計画表をPtと表記し、tの値が大きいほど伝達予定日時が遅いものとする。また、図39に示す計画表において、丸で囲まれた部分707は、メンバM1からメンバM7に文書伝達の計画があることを意味する。
図40は、非参照関係抽出手段120が図35に示すコミュニケーション計画に基づいて実際に作成した計画表及び非参照関係表を示す説明図である。また、図40(a)は、伝達予定日時が2006年9月28日である分の計画表(P1)を示している。また、図40(b)は、伝達予定日時が2006年9月28日である分の計画表(P2)を示している。なお、図40では、計画表を見やすくするため、0を省略して表記している。
非参照関係抽出手段120は、計画表において、図40(a)に示す計画表P1中の四角枠で囲まれた部分708のように、i番目のメンバMiとj番目のメンバMjとが相互に電子文書を伝達している場合、メンバMiとメンバMjとの間には参照関係がないものと判断する。すなわち、一般に、2人のメンバ間で相互に電子文書のやりとりが行われる場合には、相互に電子文書の参照を行うだけで電子文書の修正/編集作業は行われない傾向が強い。そのため、このような傾向を利用して、非参照関係抽出手段120は、2人のメンバ間で相互に電子文書のやりとりが行われる場合には、参照関係がないものと判断する。
具体的には、図40に示すように、非参照関係抽出手段120は、同一の伝達予定日時の計画表Ptにおいて、Pt(i,j)とPt(j,i)とがともに1となる伝達計画を非参照関係と判断する。なお、ここで、P(i,j)は、計画表におけるメンバMiからメンバMjへの伝達関係を表す。そして、非参照関係抽出手段120は、求めた非参照関係を示すテーブルである非参照関係表を生成する。図40(c)は、図40(a)に示す計画表から得られる非参照関係を示している。
図40(c)に示すように、非参照関係表には、伝達計画番号(No)、Fm(伝達元)及びTo(伝達先)が含まれる。非参照関係表に示される計画番号(No)のFm(伝達元)とTo(伝達先)とに該当する文書伝達には参照関係がないことを意味する。すなわち、図36に示される伝達文書情報のうち、行番号がそれぞれ2、3、5、6、8及び9である伝達文書情報に示される文書伝達は、参照関係が生じない文書伝達と判断できる。
なお、非参照関係抽出手段120は、組織情報を用いて非参照関係表を作成するようにしてもよい。例えば、非参照関係抽出手段120は、組織情報に基づいて、同一の役職間においては参照がないとしてしてもよいし、同一グループ間での参照関係はないとしてもよい。また、非参照関係抽出手段120は、グループと役職等複数の条件とを組み合わせて非参照関係表を作成してもよいし、非参照関係表を人が入力手段510を用いて修正/入力/削除できるようにしてもよい。
階層構造特定手段130は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。階層構造特定手段130は、コミュニケーション計画データベース110が記憶するコミュニケーション計画、及び伝達文書データベース330が記憶する伝達文書情報に基づいて、同一種類の電子文書群における「文書伝達の階層構造」を特定する機能を備える。この場合、階層構造特定手段130は、非参照関係抽出手段120が作成した非参照関係表を利用して、文書伝達の階層構造を特定する。
図41は、階層構造特定手段130が文書伝達の階層構造を特定する処理のアルゴリズムの一例を示す説明図である。以下、図41に示すアルゴリズムに従って、階層構造特定手段130の動作について説明する。まず、階層構造特定手段130は、各コミュニケーション計画に対応する伝達文書情報を伝達文書データベース330から抽出する(図41のステップA1)。次に、階層構造特定手段130は、伝達文書情報に基づいて、伝達表を作成する(図41のステップA2)。伝達表とは、コミュニケーション計画において同じ伝達予定日時が計画されている伝達文書情報において、文書伝達の有無を同一の伝達日時毎に表形式でまとめたテーブルである。
なお、階層構造特定手段130は、伝達表が複数作成される場合には、全ての伝達表について図41に示す処理を実行する。そのため、ステップA2において、階層構造特定手段130は、何番目の伝達表について処理を実行しているかを示す係数tに1を代入する。
階層構造特定手段130は、伝達表を、以下の手順に従って作成する。まず、階層構造特定手段130は、指定されたコミュニケーション計画に対応する伝達文書情報からFm(伝達元)とTo(伝達先)との和集合を求める。次いで、階層構造特定手段130は、同一の伝達日時毎に、対応するメンバの集合を行と列とに配置した正方行列を作成する。ここで、作成した正方行列の行方向は文書伝達におけるFm(伝達元)を表し、列方向はTo(伝達先)を表す。次いで、階層構造特定手段130は、計画表のFm(伝達元)とTo(伝達先)との間において、文書伝達の計画がある箇所には1を付与し、文書伝達の計画のない箇所には0を付与する。
以上の処理を行うことによって、階層構造特定手段130は、伝達表を作成する。図42は、階層構造特定手段130が作成する伝達表の一般例を示す説明図である。図42に示す伝達表において、最左列は文書伝達におけるFm(伝達元)のメンバIDを示し、最上段の行はTo(伝達先)のメンバIDを示している。また、図42に示す伝達表おいて、丸で囲まれた部分710は、メンバM5からメンバM7に文書伝達が行われたことを意味する。また、以下、t番目の伝達表をCtと表記する。また、tの値が大きいほど伝達日時が遅いものとする。
図43は、階層構造特定手段130が図36に示す伝達文書情報に基づいて実際に作成した5つの伝達表、及び伝達表から階層構造を特定する例を示す説明図である。なお、図43に示す伝達表は、文書伝達があった(行中に1が存在する)部分のみを抜粋して示したものである。
次に、階層構造特定手段130は、各伝達表内の文書伝達構造を特定する(図41のステップA3)。この場合、階層構造特定手段130は、伝達表Ct内において1が付与されている箇所のFm(伝達元)とTo(伝達先)とをリンクすることで抽出することができる。なお、リンクとは、Fm(伝達元)のメンバからTo(伝達先)のメンバに対して文書伝達が行われたことを記述することを意味し、例えば、Fm(伝達元)からTo(伝達先)に向けて矢印を繋ぐ処理(例えば、リンク情報を付与する処理)に相当する。
階層構造特定手段130は、リンクの条件式(7)を用いてリンク付けを行う。ただし、この場合、階層構造特定手段130は、非参照関係表に基づいて、非参照関係については抽出しないように処理する。
Figure 2008234175
式(7)において、iは伝達表Ctにおける縦方向のメンバのインデックスを示し、jは横方向のメンバのインデックスを示す。また、式(7)中の後件部(すなわち、thenの後ろの部分)は、メンバMiからメンバMjへの文書伝達が行われていることを意味する。図43において、各伝達表の右側に示している模式図は、図43に示す伝達表に式(7)を適用して階層構造特定手段130によって求められた文書伝達の階層構造である。
以上の処理によって、本実施の形態では、階層構造特定手段130は、まず、参照関係と非参照関係とを両方含んだ伝達表を作成し、さらに、作成した伝達表と非参照関係表とに基づいて、非参照関係を含まない文書伝達の階層構造を特定する。なお、階層構造特定手段130は、非参照関係表に基づいて予め非参照関係を含まない伝達表を作成するようにしてもよい。そのようにすれば、階層構造特定手段130が作成する伝達表のデータ容量を低減することができる。
次に、階層構造特定手段130は、各伝達表から文書伝達の開始者と末端者とを抽出する(図41のステップA4)。ここで、伝達表Ct中の文書伝達の開始者をMs_tとし、文書伝達の末端者をMe_tとする。この場合、階層構造特定手段130は、開始者Ms_t及び末端者Me_tとを、それぞれ式(8)及び式(9)を用いて抽出することができる。
Figure 2008234175
Figure 2008234175
式(8)及び式(9)において、Nmはメンバの数を示し、Ma_tは伝達表Ctにおけるa番目のメンバを示す。図43に示すように、各伝達表において、文書伝達の開始者と末端者とが複数人いることもある。
次いで、階層構造特定手段130は、ステップA3及びステップA4の処理を全ての伝達表に対して適用した後、伝達表間における文書伝達の階層構造を特定する。具体的には、文書伝達の開始者及び末端者を特定すると、階層構造特定手段130は、全ての伝達表に対して処理を終了したか否か(t=Nτ(伝達表の総数)であるか否か)を確認する(ステップA5)。t=Nτでなければ、階層構造特定手段130は、tの値を1加算し(ステップA6)、ステップA3の処理に戻って、ステップA3,A4の処理を繰り返し実行する。t=Nτであれば、階層構造特定手段130は、伝達表間における文書伝達の構造を特定する(ステップA7)。この場合、階層構造特定手段130は、伝達表Ctにおける伝達の開始者に対して、文書伝達を行っている伝達表Cτにおける文書伝達の末端者を特定することによって、文書伝達の構造を特定することができる。ただし、t>τであるとする。
次いで、階層構造特定手段130は、特定した末端者から開始者をリンクすることで伝達表間の文書伝達構造を特定することができる。この場合、階層構造特定手段130は、リンクの条件式(10)を用いて、文書伝達構造を特定する。
Figure 2008234175
図44は、図41に示す処理に従って、階層構造特定手段130が図36に示す伝達文書情報から特定した文書伝達の階層構造を示す説明図である。図44において、各ノード712aは各メンバを表し、各矢印712bは文書伝達の関係を表している。また、図44に示す四角枠には、それぞれ隣接するノードが伝達した電子文書の文書IDが示されている。
なお、文書伝達の参照関係を算出する処理は、Fm(伝達元)とTo(伝達先)という一方向のパスの集合において、異なるパスのTo(伝達先)とFm(伝達元)とをある制約下において連結し有向グラブを作成する技術と位置づけられる。文書伝達の参照関係を算出する処理での制約は、連結においてTo(伝達先)とFm(伝達元)とが同一であり、Fm(伝達元)がTo(伝達先)よりも遅い時間となることである。すなわち、この制約を満たし、かつ有向グラフを抽出できれば、階層構造特定手段130は、文書伝達の参照関係を算出する場合に、図41に示すアルゴリズム以外の参照関係抽出の方法を用いてもよい。
例えば、階層構造特定手段130は、文書伝達の末端者と、文書伝達の末端者に対して電子文書を伝達するメンバとを抽出し、さらにそのメンバに対して電子文書を伝達するメンバを抽出するという処理を再帰的に繰り返す方法を用いて、文書伝達の参照関係を算出してもよい。この場合、階層構造特定手段130は、該当するメンバが存在しない場合、又は非参照関係となる文書伝達が抽出された場合を終了条件として処理を終了する。そのような処理を実行することによって、階層構造特定手段130は、文書伝達の末端者を根とし、文書伝達の開始者を葉とし、文書伝達の中継者を中間ノードとする伝達の木構造を特定することができる。
図45は、図36に示す伝達文書情報における文書伝達の末端者の一人であるメンバM6から文書伝達の開始者までのトレースを行う処理の過程を示す説明図である。図45において、空欄となっている箇所は非参照関係の文書伝達を示している。階層構造特定手段130は、各伝達の末端者(例えば、メンバM6とメンバM7)について同様の処理を行い、最後に各末端者に関する文書伝達の木構造で共通する部分を1つと見なし、マージすることによって、図44に示す文書伝達の階層構造と同様の階層構造を特定する。なお、階層構造について、人が入力手段510を用いて修正/入力/削除できるようにしてもよい。
図45に示すような処理を実行することによって、階層構造特定手段130は、文書伝達の階層構造を特定する際に伝達表を作成する必要をなくすことができ、文書伝達の階層構造を特定する際に作成されるデータのデータ容量を低減することができる。
なお、本実施の形態に示すように、文書伝達の階層構造を特定する際に伝達表を作成するようにすれば、後日、その伝達表を再利用して、繰り返し文書伝達の階層構造を特定することができる。また、後日、作成した伝達表を用いた編集作業を行うことによって、文書伝達の階層構造の分析や編集を行うことができる。
パラレルコーパス抽出手段340は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。パラレルコーパス抽出手段340は、階層構造特定手段130から出力された文書伝達の階層構造の特定結果に基づいて、パラレルコーパスを抽出する機能を備える。
一般に、文書伝達の階層構造における中継者は、伝達される電子文書を修正していることが多いという傾向がある。そのため、文書伝達過程における中継者の前後における電子文書対はパラレルコーパスとなる傾向が高い。そこで、本実施の形態では、パラレルコーパス抽出手段340は、一般に文書伝達に見られるこのような傾向を利用して、パラレルコーパスを抽出する。
例えば、パラレルコーパス抽出手段340は、図44に示す例では、メンバM2が中継者であるため、メンバM2に対する文書伝達前後の電子文書D101、D102又はD103と、電子文書D104とは、パラレルコーパスであると判断する。また、例えば、パラレルコーパス抽出手段340は、メンバM1が中継者であるため、メンバM1に対する文書伝達前後の電子文書D104と電子文書D105とは、パラレルコーパスであると判断する。
なお、一般に、極めて短い期間(例えば同日)に文書伝達が行われる場合には、伝達対象の電子文書を修正又は編集することなく、そのまま次のメンバに転送される傾向が強い。そこで、パラレルコーパス抽出手段340は、そのような傾向を考慮して、コミュニケーション計画における伝達予定日時が同一である伝達計画においては、電子文書の内容が同一であると判断する処理を実行するようにしてもよい。例えば、パラレルコーパス抽出手段340は、メンバM2からメンバM1への伝達は同日に計画されているため、メンバM2を電子文書の単なる橋渡し役と判断し、電子文書D104と電子文書D105とは同様の内容であると判断してもよい。なお、実施の形態1〜3で用いられている類似文章対データベース501は、パラレルコーパス抽出手段340により得られたパラレルコーパスにおいて、類似する単語が多く含まれる文章を類似文章として記録してもよい。
同義表現抽出装置350は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。同義表現抽出装置350は、パラレルコーパス抽出手段340が特定したパラレルコーパスのテキスト情報から同義表現を抽出する機能を備える。また、同義表現抽出装置350は、抽出した同義表現を同義表現データベース360に記憶させる機能を備える。また、同義表現抽出装置350は、抽出した同義表現を出力手段530に出力させる機能を備える。
同義表現抽出装置350は、同義表現の抽出技術として、既存の各種の抽出技術を用いて、パラレルコーパスから同義表現を抽出する。例えば、同義表現抽出装置350は、パラレルコーパスから同義表現を抽出する技術として、類似文章対に対して係り受け解析を適用し、所定の条件を満たす部分木を同義表現として抽出する方法を用いてもよい。この場合、例えば、同義表現抽出装置350は、所定の条件として、(1)係り受け解析により得られる部分木の根が用言であること、(2)対となる部分木が共通の固有表現を含んでいること、(3)各用言が要求する格が部分木に含まれていることの3つを用いて同義表現を抽出してもよい。
なお、上記に示した同義表現を抽出する技術は、例えば、文献「Shinyama Y, and Sekine S, "Paraphrase acquisition for information extraction", 2nd International Workshop on Paraphrasing: Paraphrase Acquisition and Applications, pp.65-71, 2003」に記載されている。
同義表現データベース360は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。同義表現データベース360は、同義表現抽出装置350が抽出した同義表現を記憶する。図46は、同義表現データベース360が記憶する同義表現の記憶形式の一例を示す説明図である。図46に示すように、同義表現データベース360は、同義表現ID及び同義表現のペアと、それら同義表現が含まれていた電子文書の文書IDと、その電子文書を作成したメンバとを、対応付けて記憶する。この場合、同義表現データベース360は、電子文書の伝達関数(「Fm(伝達元)」と「To(伝達先)」)が分かるように同義表現を記憶する。
図46において、同義表現IDは、同義表現のペアを一意に識別するために付与される識別情報である。図46に示すように、同義表現ID700(W001)においては、「メンバM3が作成した電子文書D101を参照して作成した電子文書ID104において、表現XYZが同義表現ABCに変更された」ことがわかる。すなわち、表現XYZと表現ABCとのペアが相互に同義表現であることを示している。
なお、図46に示した記憶形式は、同義表現の記憶方法の一例であり、同義表現データベース360は、同義表現の情報を抽出できるものであれば、他の記憶形式で同義表現を記憶してもよい。
出力手段530は、具体的には、ディスプレイ装置等の表示装置によって実現される。出力手段530は、例えば、ディスプレイ装置である場合には、同義表現抽出装置350の指示に従って、同義表現抽出装置350の抽出結果(抽出した同義表現)を表示する。なお、同義表現の抽出結果を表示するのではなく、表現統一化システム300は、同義表現の抽出結果を電子ファイルとして出力してもよい。また、表現統一化システム300は、組織情報に示されるアドレス情報を利用して、e−mail等を用いて、抽出結果を各メンバの端末に通知(送信)してもよい。
図47は、出力手段530が出力する同義表現の抽出結果の一例を示す説明図である。図47に示すように、出力手段530は、誰と誰との間で文書伝達されたどの電子文書間において、どのような同義表現が用いられたかを分かるような出力形式で、同義表現の抽出結果を出力する。なお、出力手段530が同義表現の抽出結果を出力する際の表示態様は、図47に例示した表示態様に限られず、他の表示態様で出力するようにしてもよい。
図47に示す例では、電子文書D101と電子文書D104とに、2組の同義表現(ABC及びXYZと、PQR及びSTU)が用いられたことを示している。また、電子文書D102と電子文書D104とに、1組の同義表現(LMN及びSTU)が使用されたことを示している。また、出力手段530は、図44に示すように、文書伝達の階層構造を表示するとともに、使用された同義表現を重畳して表示してもよい。
なお、本実施の形態において、文書参照関係抽出システム100及び表現統一化システム300を実現する情報処理装置の記憶装置(図示せず)は、電子文書間の参照関係を抽出するための各種プログラムを記憶している。例えば、情報処理装置の記憶装置は、コンピュータに、メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定する階層構造特定処理を実行させるための文書参照関係抽出プログラムを記憶している。
また、本実施の形態において、文書参照関係抽出システム100及び表現統一化システム300を実現する情報処理装置の記憶装置は、相互に同義表現を含む電子文書であるパラレルコーパスを抽出し、パラレルコーパスに含まれる同義表現を統一するための各種プログラムを記憶している。例えば、情報処理装置の記憶装置は、コンピュータに、予めデータベースに記憶する電子文書の伝達計画を示す伝達計画情報に基づいて、電子文書間に参照関係がない文書伝達を示す非参照関係情報を抽出する非参照関係抽出処理と、メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定する階層構造特定処理とを実行させ、階層構造特定処理で、データベースに記憶する電子文書の伝達記録を示す伝達記録情報に基づいて、予めデータベースに記憶する伝達計画情報に示される伝達計画に対応する伝達記録を特定する処理と、特定した伝達記録に基づいて、電子文書の伝達の開始者から末端者までの階層構造を特定する処理と、抽出した非参照関係情報に基づいて、電子文書の伝達の開始者から末端者までの階層構造を、非参照関係である文書伝達を含まずに特定する処理とを実行させるための表現統一化プログラムを記憶している。
次に、表現統一化システム300の全体の動作について説明する。図48は、文書伝達の階層構造を特定し伝達文書の表現を統一する処理の一例を示すフローチャートである。
まず、表現統一化システム300の伝達文書抽出手段320は、所定のタイミングで、文書提供サーバ520から伝達文書情報を抽出し、伝達文書データベース330に記憶させる(ステップS11)。例えば、伝達文書抽出手段320は、所定期間毎に(例えば、毎日1回)、文書提供サーバ520に自動アクセスし、文書提供サーバ520から伝達文書情報を受信して伝達文書データベース330に記憶させる。また、例えば、伝達文書抽出手段320は、文書提供サーバ520に新たに電子文書が格納されたことをトリガとして、文書提供サーバ520に自動アクセスし、文書提供サーバ520から伝達文書情報を受信して伝達文書データベース330に記憶させる。
ステップS11の処理が所定のタイミングで繰り返し実行されることによって、伝達文書データベース330に伝達文書情報が格納され、随時更新される。
次いで、ユーザ(組織内のいずれかのグループのメンバ)によって指示操作がなされると、文書参照関係抽出システム100は、文書伝達の階層構造の特定処理を開始する。文書伝達の階層構造の特定処理において、文書参照関係抽出システム100の非参照関係抽出手段120は、まず、組織情報データベース310が記憶する組織情報、及びコミュニケーション計画データベース110が記憶するコミュニケーション計画に基づいて、計画表を作成するとともに、非参照関係表を作成する(ステップS12)。
次いで、階層構造特定手段130は、コミュニケーション計画データベース110が記憶するコミュニケーション計画、及び伝達文書データベース330が記憶する伝達文書情報に基づいて、伝達表を作成する(ステップS13)。
次いで、階層構造特定手段130は、作成した伝達表に基づいて、文書伝達の階層構造を特定する(ステップS14)。この場合、階層構造特定手段130は、非参照関係抽出手段120が作成した非参照関係表を利用して、電子文書間に参照関係が生じない文書伝達を除外した階層構造を特定する。
次いで、パラレルコーパス抽出手段340は、階層構造特定手段130が特定した文書伝達の階層構造に基づいて、パラレルコーパスを抽出する(ステップS15)。次いで、同義表現抽出装置350は、パラレルコーパス抽出手段340が抽出したパラレルコーパスに基づいて、伝達文書から同義表現を抽出し、抽出結果を同義表現データベース360に記憶させる(ステップS16)。また、同義表現抽出装置350は、同義表現の抽出結果を出力手段530に出力させる。
以上のように、本実施の形態によれば、文書参照関係抽出システム100は、組織情報やコミュニケーション計画、伝達文書情報に基づいて、電子文書間において参照関係が生じやすい文書伝達の階層構造を特定する。そのため、電子文書の伝達が行われる場合において、電子文書の参照関係を抽出することができる。
また、本実施の形態によれば、電子文書間の参照関係を抽出でき、表現統一化システム300は、伝達過程における他の人の伝達文書を参照して、集約や配布を行う文書伝達の中継者を効率的に発見して、パラレルコーパスを抽出する。そのため、伝達文書間のパラレルコーパスを効率的に抽出することができる。
実施の形態5.
次に、本発明の第5の実施の形態を図面を参照して説明する。図49は、第5の実施の形態における文書参照関係抽出システム100を用いた表現統一システム300の構成例を示すブロック図である。図49に示すように、本実施の形態では、図33に示した構成要素に加えて、階層構造データベース370、修正案入力手段540及び修正手段380を含む点で、第4の実施の形態と異なる。
階層構造データベース370は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。階層構造データベース370は、文書参照関係抽出システム100によって特定された階層構造を記憶する。
修正案入力手段540は、具体的には、キーボードやマウス等の入力デバイスによって実現される。修正案入力手段540は、ユーザの操作に従って、抽出された同義表現に対する修正案を入力する機能を備える。
修正手段380は、具体的には、プログラムに従って動作する情報処理装置のCPU及びネットワークインタフェース部によって実現される。修正手段380は、修正案入力手段540から入力した修正案に基づいて、同義表現を修正する機能を備える。また、修正手段380は、同義表現を修正したことを通知するメンバを特定する機能を備える。
次に、動作について説明する。図50は、同義表現を修正する処理の一例を示すフローチャートである。なお、本実施の形態では、文書参照関係抽出システム100は、第4の実施の形態と同様の処理に従って、文書伝達の階層構造を特定する。また、表現統一化システム300は、第4の実施の形態と同様の処理に従って、伝達文書間の同義表現を抽出する。以下、図50に示すフローチャートに従って、同義表現を修正する動作について説明する。なお、本実施の形態では、出力手段530がディスプレイ装置である場合を例に説明する。
まず、表現統一化システム300は、同義表現データベース360に記憶されている同義表現を、例えば、出力手段530であるディスプレイ装置に一覧表示させる(図50のステップB1)。また、表現統一化システム300は、同義表現を修正するための修正入力画面をディスプレイ装置に表示させる。例えば、表現統一化システム300は、図51に示す修正入力画面を表示させる。図51に示す例では、修正入力画面に、同義表現ID、抽出された同義表現、及び抽出元になった電子文書の文書IDが表示されており、さらに各同義表現に対する修正案を入力する入力欄717が設けられている。
次に、修正案入力手段540は、システムの利用者又はメンバの操作に従って、表現統一のための修正案を入力する(図50のステップB2)。なお、例えば、修正案入力手段540として、キーボードやマウス等の入力デバイスを用いる。また、図49では、修正案入力手段540と入力手段510とを分けて表記しているが、修正案入力手段540及び入力手段510を同一の入力装置で実現してもよい。
なお、使用した同義表現のいずれかを選択する様態で修正案を入力するようにしてもよいし、自由記述形式にして新しい表現を入力できるようにしてもよい。また、同義表現は任意のシステムの利用者又はメンバにより修正可能である。
表現統一化システム300は、システムの利用者やメンバの操作に従って、修正案入力手段540から、同義表現に対して入力された修正案と同義表現IDとをに入力する。
次に、修正手段380は、伝達文書データベース330が記憶する伝達文書情報に基づいて、修正すべき同義表現を含む文書IDの電子文書を文書提供サーバ520から抽出する。この場合、例えば、修正手段380は、伝達文書情報に基づいて、修正すべき同義表現を含む電子文書の文書IDを特定する。また、修正手段380は、特定した文書IDに対応する電子文書の抽出要求を、ネットワークを介して文書提供サーバ520に送信する。すると、文書提供サーバ520は、要求に応じて電子文書を抽出し、ネットワークを介して表現統一化システム300に送信する。
次いで、修正手段380は、文書提供サーバ520から抽出した電子文書に基づいて、文書IDと、その同義表現を含む前後の文を修正候補として出力手段530に出力させる(図50のステップB3)。この場合、修正手段380は、同義表現を含む前後の文として任意の長さの文を出力手段530に表示させる。例えば、修正手段380は、同義表現を含む前後の語句を表示させてもよい。また、修正手段380は、文単位で表示させてもよいし、修正候補を表示させなくてもよい。
また、修正手段380は、出力手段530を用いて、例えば、図52に示すような表示画面を表示させることによって、修正候補を出力させるは。図52に示す例では、修正手段380は、修正される電子文書の文書ID、その電子文書が伝達された日時、その同義表現を使用したメンバ、及び修正候補の文を含む表示画面が表示されている。また、図52に示す表示画面には、さらにその修正に同意するかどうかを入力する入力欄718が含まれる。
次に、修正案入力手段540は、システムの利用者又はメンバの操作に従って、修正候補の中から修正に合意した旨を入力し、表現統一化システム300は、修正案入力手段540から修正に合意した旨の指示情報を入力する(図50のステップB4)。
なお、合意又は非合意であることを入力するために、図52に示す例では、○又は×の記号を用いて入力する場合を示している。ただし、修正に合意したことを表現統一化システム300に伝えることができれば、入力方法は○や×等の記号入力を用いた選択形式である必要はない。例えば、ラジオボタンを用いて入力できるようにしてもよいし、キーボード等を用いて文字を入力することによって合意又は非合意を入力できるようにしてもよい。また、同意又は非同意であることを示す情報を入力するだけではなく、図52において、修正する理由や修正しない理由を示す情報を入力する欄を表示画面に設けてもよい。
次に、修正手段380は、修正に同意する旨が入力指示された同義表現を置換して、伝達文書間の表現を統一する(図50のステップB5)。なお、修正手段380は、例えば、既存のテキスト処理技術を用いて、同義表現を置換処理する。
次に、修正手段380は、いつ伝達された伝達文書のどの表現が同義表現となり、どのように修正されたかをシステムの利用者及びメンバに通知する(図50のステップB6)。
ステップB6において、修正手段380は、修正された電子文書の文書IDを含む階層構造を階層構造データベース370から特定し、特定した階層構造中に含まれる全ての文書IDを抽出する。次いで、修正手段380は、抽出した文書IDを検索キーとして伝達文書データベース330を検索し、伝達文書データベース330から伝達文書情報を特定する。また、修正手段380は、特定した伝達文書情報に対応する電子文書を文書提供サーバ520から抽出した電子文書の中から特定する。そして、修正手段380は、特定した電子文書中で同義表現対(図51に示す例ではABC又はXYZ)を含む電子文書を特定する。
次に、修正手段380は、特定した電子文書に対してFm(伝達元)又はTo(伝達先)の役割を果たしたメンバを抽出する。すなわち、伝達元又は伝達先の役割を果たしたメンバは、同義表現を含む文書伝達に関わっており、その伝達文書を参照している。そして、修正手段380は、文書伝達に関わったメンバに対して修正に関する通知を行う。例えば、修正手段380は、文書伝達に関わったメンバの端末に、ネットワークを介して、同義表現を統一する修正を行った旨及び修正箇所を示すメッセージを送信する。
以上の処理が実行されることによって、同義表現の参照に関わる必要最小限のメンバに対して、同義表現の修正に関する通知が行われる。
例えば、図36に示す伝達文書情報によれば、メンバM4は、メンバM3とメンバM2とから、それぞれ電子文書D101と電子文書D104とを伝達されている。また、電子文書D101の表現ABCと電子文書D104の表現XYZとが同義表現の関係にある。しかし、メンバM4は、その電子文書の伝達過程や同義表現の発生過程を知らないため、それらの表現が同一のものであるか否か判断するのが難しい。
本実施の形態では、修正手段380は、メンバM4に、例えば、図53に示すメッセージを通知(送信)する。なお、修正手段380は、例えば、e−mail(電子メール)を用いて図53に示すメッセージをメンバの端末に送信すればよい。図53に示すメッセージを受けとり、表示されたメッセージの内容を確認することにより、メンバM4は、同義表現の発生原因や修正過程等を把握することができる。
以上のように、本実施の形態によれば、階層構造データベース370が記憶する文書伝達の階層構造の特定結果に基づいて、同義表現が抽出された電子文書に関連する文書伝達の階層構造を特定する。また、文書伝達の階層構造中で文書伝達された電子文書を特定することができる。さらに、伝達文書データベース330が記憶する伝達文書情報に基づいて、伝達文書のFm(伝達元)とTo(伝達先)とを特定することができる。そのため、同義表現を修正したことを、修正した電子文書に関与するメンバに対して通知することができる。
例えば、特許文献1〜3に記載された従来のシステムや装置、方法、プログラムでは、電子文書が修正された場合、その電子文書を参照した人々を特定できない。例えば、特許文献1及び特許文献3に記載されたシステムや装置、方法、プログラムでは、参照文書が修正された場合に対応するための処理がない。
また、例えば、特許文献2に記載された装置や方法では、文書修正の通知は、電子文書の修正者及び修正文書から参照されている電子文書の所有者に留まっており、参照関係もHTML等定型のフォーマットにおけるハイパーリンクとなっている。そのため、修正前/後の自由書式の電子文書に関連する人々に対して修正が行われたことを通知することができない。なお、「関連する人々」とは、特許文献2に記載された装置や方法でも通知対象としている電子文書の修正者及び修正文書から参照されている電子文書の所有者等である。また、「関連する人々」とは、さらに、それらの電子文書を伝達された人や閲覧した人や、修正文書を参照し電子文書を作成した人々、その作成された電子文書の閲覧者等である。
これに対し、本実施の形態では、上記に説明したように、電子文書の参照関係を抽出することができ、電子文書の内容と伝達構造とに基づいて、どの情報が誰にまで伝達されているかを判断することができる。そのため、ある電子文書の内容変更について、その旨を通知するべきメンバを特定することができる。
実施の形態6.
次に、本発明の第6の実施の形態を図面を参照して説明する。図54は、第6の実施の形態における文書参照関係抽出システム100を用いた表現統一システム300の構成例を示すブロック図ある。図54に示すように、本実施の形態では、図33に示した構成要素に加えて、傾向分析手段390を含む点で、第4の実施の形態と異なる。また、本実施の形態では、階層構造特定手段130の機能が、第4の実施の形態で示した階層構造特定手段130の機能と異なる。
傾向分析手段390は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。傾向分析手段390は、各メンバの同義表現の使用傾向を分析する機能を備える。
また、本実施の形態では、階層構造特定手段130は、第4の実施の形態で示した機能に加えて、コミュニケーション計画データベース110が記憶するコミュニケーション計画に基づいて、予め計画された文書伝達の階層構造を特定する機能を備える。なお、本実施の形態では、階層構造特定手段130は、第4の実施の形態と同様の処理に従って、実際に行われた文書伝達の階層構造を特定する機能も備える。
次に、動作について説明する。本実施の形態では、表現統一化システム300は、第4の実施の形態と同様の処理に従って、実際に行われた文書伝達の階層構造を特定し、伝達文書の表現を統一する処理を実行する。また、本実施の形態では、表現統一化システム300は、第4の実施の形態で示した処理に加えて、予め計画された文書伝達の階層構造を特定し、同義表現の発生傾向を提示する処理を実行する。図55は、予め計画された文書伝達の階層構造を特定し、同義表現の発生傾向を提示する処理の一例を示すフローチャートである。
非参照関係抽出手段120は、コミュニケーション計画データベース110が記憶する任意のコミュニケーション計画に対して、第4の実施の形態と同様の処理に従って、よ計画表と非参照関係表とを作成する(ステップS31)。図56は、非参照関係抽出手段120が図35に示すコミュニケーション計画に基づいて作成された2つの計画表、及び計画表から文書伝達の階層構造を特定する過程の例を示す説明図である。なお、図56に示す計画表では、文書伝達計画がある(行中に1が存在する)部分のみを抜粋して示している。
本実施の形態では、非参照関係抽出手段120は、第4の実施の形態と同様に、図56に示す計画表に基づいて、図40に示す非参照関係表と同様の非参照関係表を抽出したものとして説明する。なお、非参照関係抽出手段120は、コミュニケーション計画中にグループIDが含まれている場合には、組織情報データベース310が記憶する組織情報に基づいて、コミュニケーション計画を展開する。
次に、階層構造特定手段130は、第4の実施の形態において伝達表に対して適用したアルゴリズムと同様のアルゴリズムを計画表に対して適用することによって、コミュニケーション計画に基づいて、予め計画されている文書伝達の階層構造を特定する。この場合、階層構造特定手段130は、非参照関係抽出手段120が作成した計画表と非参照関係表とに基づいて、予め計画されている文書伝達の階層構造を特定する(ステップS32)。
次に、階層構造特定手段130は、各計画表内の文書伝達構造を特定する。階層構造特定手段130は、それら各計画表内の文書伝達構造を、t番目の計画表Pt内において1が付与されている箇所のFm(伝達元)とTo(伝達先)とをリンクすることによって特定することができる。この場合、階層構造特定手段130は、リンクの条件式(11)を用いて、伝達元と伝達先とのリンク付けを行う。ただし、階層構造特定手段130は、非参照関係表に基づいて、非参照関係である伝達元と伝達先とについては抽出しないように処理する。なお、ここでいうリンクとは、第4の実施の形態で用いたリンクと同じ意味である。
Figure 2008234175
式(11)において、iは計画表Ptにおける縦方向のメンバのインデックスであり、jは横方向のインデックスである。また、式(11)中の後件部は、メンバMiからメンバMjへの文書伝達が行われる計画であることを意味する。図56において、各計画表の右側に示している模式図は、図56に示す計画表に式(11)を適用して階層構造特定手段130によって特定される階層構造である。
次に、階層構造特定手段130は、各計画表から文書伝達の開始予定者と末端予定者とを抽出する。ここで、計画表Pt中の文書伝達の開始予定者をMs_tとし、文書伝達の末端予定者をMe_tとする。この場合、階層構造特定手段130は、開始予定者Ms_t及び末端予定者Me_tとを、それぞれ式(12)及び式(13)を用いて抽出することができる。
Figure 2008234175
Figure 2008234175
式(12)及び式(13)において、Nmはメンバの数を示し、Ma_tは計画表Ptにおけるa番目のメンバを示す。図56に示すように、各計画表において、文書伝達の開始予定者と末端予定者とが複数人いることもある。
次に、階層構造特定手段130は、全ての計画表に対してステップS31,S32と同様の処理を行った後に、計画表間における文書伝達の階層構造を特定する。この場合、階層構造特定手段130は、計画表Ptにおける伝達の開始予定者に対して、文書伝達を行う計画である計画表Pτの伝達の末端予定者を抽出することによって、計画表間における文書伝達の階層構造を特定することができる。ただし、t>τであるとする。
次いで、階層構造特定手段130は、抽出した末端予定者から開始予定者をリンクすることによって、計画表間の文書伝達構造を特定する。この場合、階層構造特定手段130は、リンクの条件式(14)を用いて、計画表間の文書伝達構造を特定する。
Figure 2008234175
上記の処理を実行することによって、階層構造特定手段130は、図56に示す計画表に基づいて、図57に示す階層構造を特定する。図57において、各ノード722aはメンバを表し、各矢印722bは文書伝達の計画を表している。また、図57に示す四角枠722cには、それぞれ隣接する矢印に対応するコミュニケーション計画の計画番号(No)が示されている。
以上のように、図57に示すように、本システムにより、予め計画された文書伝達の階層構造を特定でき、計画表に基づいて伝達予定の電子文書間の参照関係を抽出できる。
なお、第4の実施の形態に示した文書参照関係抽出システム100が伝達文書情報に基づいて参照関係を抽出する場合と同様、コミュニケーション計画から参照関係を抽出する方法は、本実施の形態で示した方法に限られない。
例えば、階層構造特定手段130は、文書伝達の末端予定者を抽出するとともに、文書伝達の末端予定者に対して電子文書を伝達するメンバを抽出し、さらにそのメンバに対して電子文書を伝達するメンバを抽出するという処理を再帰的に繰り返す方法を用いて、予め計画された文書伝達の参照関係を算出してもよい。この場合、階層構造特定手段130は、該当するメンバが存在しない場合、又は非参照関係となる文書伝達が抽出された場合を終了条件として処理を終了する。そのような処理を実行することによって、階層構造特定手段130は、文書伝達の末端予定者を根とし、文書伝達の開始予定者を葉とし、文書伝達の中継予定者を中間ノードとする伝達の木構造を特定することができる。
また、階層構造特定手段130は、各伝達の末端予定者(例えば、メンバM6とメンバM7)について同様の処理を行い、最後に各末端予定者に関する文書伝達の木構造で共通する部分を1つと見なし、マージすることによって、図57に示す文書伝達の階層構造と同様の階層構造を特定する。
次いで、傾向分析手段390は、まず、同義表現データベース360が記憶する同義表現の抽出結果に基づいて、各メンバがどのメンバとの間にどの程度の頻度で同義表現を使用したかをカウントし、各メンバの同義表現の使用回数をまとめて示す同義表現使用回数表を生成する(ステップS33)。そして、傾向分析手段390は、生成した同義表現使用回数表を出力手段530に出力させる(ステップS34)。
なお、同義表現の使用とは、伝達された電子文書内の表現とは異なる表現を用いて電子文書を伝達したこと、すなわち同義表現を発生させたことである。
また、同義表現のカウント方法には様々な方法がある。例えば、傾向分析手段390は、同義表現が含まれている電子文書の数をカウントしてもよい。また、傾向分析手段390は、同義表現が含まれている文の数をカウントしてもよく、同義表現の数をカウントしてもよい。
図58は、同義表現使用回数表の出力形式の例を示す説明図である。図58に示す例では、7名のメンバ間の同義表現使用回数表が示されており、最左列に示すメンバから最上段の行に示すメンバに対して電子文書が伝達された際の同義表現使用回数を示している。また、図58に示す同義表現使用回数表における縦方向のカウント値の和を求めることによって、あるメンバが他のメンバから伝達された電子文書に対して使用した同義表現の使用回数を得ることができる。また、横方向のカウント値の和を求めることによって、あるメンバの電子文書に対して他メンバが使用した同義表現の使用回数を得ることができる。
出力手段530は、傾向分析手段390の指示に従って、例えば、ディスプレイ装置等である場合には、各メンバの同義表現使用傾向が分かるように、同義表現使用回数表を表示する。なお、出力手段530は、傾向分析手段390の指示に従って、同義表現使用回数表のデータをまとめて表示してもよく、同義表現使用回数表のデータをグラフにして表示してもよい。
また、傾向分析手段390は、システムの利用者にとって分かりやすく同義表現使用回数を示すために、例えば、図59に示すように、特定した文書伝達の階層構造と同義表現使用回数とを重畳させて出力手段530に表示させてもよい。図59において、各ノード724aはメンバを示し、各ノード間の矢印724bは文書伝達の計画を示している。また、図59において、矢印上の四角枠724cには、対応するメンバ間の同義表現使用回数が示されている。
図59に示す表示形式で表示することによって、今後の文書伝達において、どの程度、同義表現が利用される可能性があるかを把握しやすくすることができる。そのため、システムの利用者は、同義表現を多く使用しているメンバに対して、数値的な論拠を提示して同義表現の使用を少なくするよう依頼することができる。なお、同義表現使用回数表に付与する数値として、同義表現の使用回数だけを用いるのではなく、例えば、伝達した電子文書と同義表現が使用された電子文書との比等を用いてもよい。
以上のように、本実施の形態によれば、文書伝達前に予め入力されたコミュニケーション計画に基づいて、予め計画された文書伝達の階層構造を事前に特定することができる。そのため、今後行われる文書伝達における電子文書の参照関係を抽出することができる。
例えば、特許文献1〜3に記載された従来のシステムや装置、方法、プログラムでは、今後、伝達される電子文書間における参照関係を抽出することができない。特許文献1〜3に記載されたシステムや装置、方法、プログラムでは、電子文書間の稀な単語の出現頻度や電子文書のカテゴリ、電子文書の参照時間/頻度、参照リンク等、作成された電子文書から抽出した情報を基に参照関係を抽出している。そのため、今後、作成される電子文書が定まっている場合においても、それらの電子文書間において生じる参照関係を抽出することができない。
これに対し、本実施の形態では、上記に説明したように、コミュニケーション計画に基づいて文書伝達の階層構造を特定するので、電子文書の伝達記録を用いずに参照関係を抽出することができる。そのため、今後の伝達計画から参照関係を抽出することができる。
また、本実施の形態によれば、組織情報とコミュニケーション計画とに基づいて、予め計画された伝達文書の参照関係を抽出することができ、且つ過去のメンバ間の同義表現の使用回数等に基づいて同義表現の発生しやすさを定量化することができる。そのため、今後、同義表現が発生しパラレルコーパスとなる可能性が高い文書伝達を事前に特定することができる。
なお、本実施の形態では、文書参照関係抽出システム100や表現統一化システム300が、実際に行われた文書伝達の階層構造を特定し、伝達文書の表現を統一する処理を実行するとともに、予め計画された文書伝達の階層構造を特定し、同義表現の発生傾向を提示する処理を実行する場合を示したが、予め計画された文書伝達の階層構造を特定して同義表現の発生傾向を提示する処理のみを実行するようにしてもよい。この場合、表現統一化システム300は、伝達文書抽出手段320及び伝達文書データベース330を含まなくてもよい。
また、実際に行われた文書伝達の階層構造を特定し、伝達文書の表現を統一する処理を実行するシステムと、予め計画された文書伝達の階層構造を特定し、同義表現の発生傾向を提示する処理を実行するシステムとを別々のシステムとして構成するようにしてもよい。
実施の形態7.
次に、本発明の第7の実施の形態を図面を参照して説明する。本実施の形態では、文書参照関係抽出システム100を、実際に行われた文書伝達を評価する文書伝達評価システムに適用する場合を説明する。図60は、第7の実施の形態における文書参照関係抽出システム100を用いた文書伝達評価システム400の構成例を示すブロック図である。図60に示すように、本実施の形態では、図33に示した構成要素のうち、パラレルコーパス抽出手段340及び同義表現抽出手段350を含まない点で、第4の実施の形態と異なる。また、本実施の形態では、図33に示した構成要素に加えて、差分抽出手段550を含む点で、第4の実施の形態と異なる。
差分抽出手段550は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。差分抽出手段550は、コミュニケーション計画データベース110が記憶するコミュニケーション計画と、伝達文書データベース330が記憶する伝達文書情報とを比較して、コミュニケーション計画通りの文書伝達がなされているか否かを明確化する機能を備える。
差分抽出手段550は、伝達文書情報とコミュニケーション計画との差を明確にし、その伝達文書情報とコミュニケーション計画との比較結果を出力手段530に出力させる。差分抽出手段550は、伝達文書情報とコミュニケーション計画とについて、以下の3つの事項の差分を抽出する。
まず、差分抽出手段550は、コミュニケーション計画において計画されているが伝達されていない文書伝達を抽出する(差分1:文書未伝達)。また、差分抽出手段550は、コミュニケーション計画において計画されていないにもかかわらず、伝達されている文書伝達を抽出する(差分2:伝達未計画)。また、差分抽出手段550は、コミュニケーション計画において計画された通り伝達されているが、計画された伝達時刻とは異なる時刻にされた文書伝達を抽出する(差分3:伝達日時差)。
差分抽出手段550は、まず、伝達文書情報と対応のとれなかったコミュニケーション計画を、コミュニケーション計画データベース110から抽出する。すなわち、差分抽出手段550は、文書伝達が計画されていたにもかかわらず、伝達がなされなかった文書伝達を含むコミュニケーション計画を抽出する。具体的には、差分抽出手段550は、伝達文書データベース330が記憶する伝達文書情報に示される各伝達日時の情報と合致しない伝達予定日時の情報を含むコミュニケーション計画を、コミュニケーション計画データベース110から抽出する。この処理を実行することにより、差分抽出手段550は、差分1(文書未伝達)を抽出する。
次に、階層構造特定手段130が特定した文書伝達の階層構造中に含まれる文書IDと同一の文書IDに対応する全ての電子文書を、伝達文書データベース330が記憶する伝達文書情報に基づいて特定する。この場合、差分抽出手段550は、コミュニケーション計画と対応がとれていない伝達文書情報も特定する。すなわち、差分抽出手段550は、文書伝達が計画されていないにもかかわらず、伝達がなされている文書伝達を含む伝達文書情報を抽出する。具体的には、差分抽出手段550は、コミュニケーション計画データベース110が記憶するコミュニケーション計画に示される各伝達予定日時の情報と合致しない伝達日時の情報を含む伝達文書情報を、伝達文書データベース330から抽出する。この処理を実行することにより、差分抽出手段550は、差分2(伝達未計画)を抽出する。
最後に、差分抽出手段550は、コミュニケーション計画における伝達予定日時と、そのコミュニケーション計画に対応する伝達文書情報における伝達日時との差分を計算する。この場合、差分抽出手段550は、差分の計算方法として、伝達日時(実際に文書伝達が行われた日時)を伝達予定日時で減算することによって、伝達日時と伝達予定日時との差分を求める。計算結果がマイナスの値であれば、伝達予定日時までに伝達されたことを意味する。また、計算結果がプラスの値であれば、伝達予定日時後に遅れて伝達されたことを意味する。なお、コミュニケーション計画の伝達予定日時が一定の幅をもった期間で指定されている場合には、差分抽出手段550は、その期間内に電子文書が伝達されている場合には、伝達日時と伝達予定日時との差分を0と求めればよい。
次いで、差分抽出手段550は、コミュニケーション計画と伝達文書情報との差を、例えば、図61に示すような差分表としてまとめて作成し、作成した差分表を出力手段530に出力させる。図61に示す例では、差分表には、各行にコミュニケーション計画による計画ID及び伝達予定日時、伝達文書情報による伝達文書ID及び伝達日時、Fm(伝達元)、To(伝達先)、及び伝達予定日時と伝達日時との差分の情報が含まれている。
図61に示す差分表において、伝達文書IDが空欄である行で示される文書伝達は、計画されているにもかかわらず、伝達されていない文書伝達(差分1:文書未伝達)を意味する。また、計画IDが空欄である行で示される文書伝達は、計画されていないにもかかわらず、伝達された文書伝達(差分2:伝達未計画)を意味する。また、図61に示すように、伝達文書IDと計画IDがともに含まれる行で示される文書伝達では、伝達予定日時と伝達日時との差を計算した結果が示されており、この伝達予定日時と伝達日時との差の計算結果が(差分3:伝達日時差)に相当する。
なお、図61に示す例では、伝達予定日時と伝達日時との差の計算を日付単位で行っている。ただし、差分抽出手段550は、伝達日時差の計算を、日単位で計算する場合に限らず、例えば、時間単位等に伝達日時差の計算を行ってもよい。
図61に示す例では、例えば、メンバM3はメンバM8に文書ID101の電子文書を伝達しているが、この文書伝達はコミュニケーション計画では計画されていないことがわかる。また、メンバM4はコミュニケーション計画P002で計画されていたメンバM2への伝達を怠っていることがわかる。また、この他、メンバM5は、コミュニケーション計画P003で計画されていた伝達予定日時よりも1日遅れで電子文書を伝達していることがわかる。このように差分表を用いて、コミュニケーション計画と伝達文書情報との3つの差を表現することができる。
出力手段530は、例えば、ディスプレイ装置である場合には、差分抽出手段550の指示に従って、差分抽出手段550が生成した差分表の情報を出力(表示)する。例えば出力手段530は、差分抽出手段550の指示に従って、図62に示す表示画面を表示すればよい。
図62に示すように、出力手段530は、差分抽出手段550の指示に従って、まず、コミュニケーション計画データから文書伝達の階層構造中に含まれるメンバを実線のノード727aとして表示する。また、出力手段530は、差分抽出手段550の指示に従って、計画されていないものの文書伝達が行われたメンバ(差分表において計画番号(No)が空欄である行のTo(伝達先)のメンバ)を破線のノード727cとして表示する。
また、出力手段530は、差分抽出手段550の指示に従って、伝達文書情報を参照し、階層構造関係がわかるようにノード間を矢印で結んだ表示態様で表示する。すなわち、出力手段530は、非参照関係であるノード間においては、文書伝達が行われていても矢印で結ばない態様で表示する。なお、この場合、出力手段530は、破線で示したノードに対しても、実線の矢印727cで結んだ表示態様で表示する。
また、出力手段530は、差分抽出手段550の指示に従って、コミュニケーション計画で文書伝達が計画されているものの、実際に電子文書が伝達されていないノード間を破線の矢印727dで結んだ表示態様で表示する。この場合においても、出力手段530は、役割が同一であるノード間を矢印で結ばない態様で表示する。
さらに、出力手段530は、差分抽出手段550の指示に従って、実線で示した矢印に対して四角枠で囲まれた伝達日時差727eを付与した態様で表示する。出力手段530は、図62に示すような表示様態で表示することにより、差分表の情報を可視化し、コミュニケーション計画と実際の文書伝達との差を明確に表示する。
図62に示すように、メンバM4からメンバM2への文書伝達と、メンバM1からメンバM7への文書伝達とは、予め計画されているものの、実際には行われていないことがわかる。また、メンバM3からメンバM8への文書伝達と、メンバM2からメンバM9への文書伝達については、予めコミュニケーション計画で計画されていないにもかかわらず、文書伝達が行われていることがわかる。
さらに、メンバM2からメンバM1への文書伝達が1日遅延しているが、メンバM1への伝達経路を参照すると、メンバM4からの伝達文書が届いておらず、また、メンバM4からの文書伝達が既に1日遅れていることがわかる。また、このことから、文書伝達の遅延の原因は、メンバM1への伝達よりも、むしろメンバM3及びメンバM4の文書伝達に問題があったことがわかる。すなわち、図62に示す表示画面に示される状況を見れば、メンバM1よりも、むしろメンバM3及びメンバM4の文書伝達に問題があったことを容易に判断することができる。
なお、本実施の形態において、文書参照関係抽出システム100や文書伝達評価システム400を実現する情報処理装置の記憶装置は、電子文書の伝達状況を評価するための各種プログラムを記憶している。例えば、情報処理装置の記憶装置は、コンピュータに、データベースに記憶する電子文書の伝達記録を示す伝達記録情報と、予めデータベースに記憶する電子文書の伝達計画を示す伝達計画情報とに基づいて、電子文書の伝達記録と伝達計画との差分を抽出する差分抽出処理と、抽出した電子文書の伝達記録と伝達計画との差分を出力する差分出力処理とを実行させるための文書伝達評価プログラムを記憶している。
以上のように、本実施の形態によれば、差分抽出手段550は、階層構造特定手段130がコミュニケーション計画に基づいて特定した文書伝達予定の階層構造と、文書伝達情報とを比較する。また、差分抽出手段550は、コミュニケーション計画に含まれているが伝達文書情報に伝達記録のない文書伝達や、コミュニケーション計画には含まれていないにもかかわらず行われた文書伝達、電子文書の伝達予定日時とその計画に対応する電子文書の伝達日時との差を、文書伝達の差分として抽出する。そして、差分抽出手段550は、抽出した文書伝達の差分を出力手段530に表示させる。そのため、電子文書を参照した人、及びその電子文書伝達の時期の適切さを明確に評価することができる。
本発明は、同義表現検索を実行する情報検索システムや、情報検索システムを実現するためのプログラムに好適に適用される。また、本発明は、用語統制等を行うプロジェクト管理システムや文書管理システム、プロジェクト管理システムや文書管理システムを実現するためのプログラムに好適に適用される。
本発明による同義表現抽出システムの構成の一例を示すブロック図である。 同義表現抽出システム10が同義表現を抽出処理の一例を示すフローチャートである。 類似文章対データベースが記憶する類似文章対の例を示す説明図である。 係り受け解析の解析結果の例を示す説明図である。 係り受け解析手段が記録媒体に記憶させる文節と形態素間の関係の情報のデータ形式の例を示す説明図である。 係り受け表の例を示す説明図である。 構造関係の定義の例を示す説明図である。 構造関係特定表の例を示す説明図である。 構造関係特定表を生成方法を示す説明図である。 文章1に対して特定された構造関係の例を示す説明図である。 文章2に対して特定された構造関係の例を示す説明図である。 比較構造関係の例を示す説明図である。 文章1と文章2とにおける比較構造関係の例を示す説明図である。 類似文章対における構造関係の同一性判定表の例を示す説明図である。 類似文章対の他の例を示す説明図である。 文章3及び文章4に対する係り受け構造を示す説明図である。 類似文章対における構造関係の同一性の例を示す説明図である。 類似文章対における構造関係の同一性の例を示す説明図である。 類似性判定手段104が求めた重み付き平均を用いた類似度計算の例を示す説明図である。 同義表現の出力例を示す説明図である。 同義表現の他の出力例を示す説明図である。 本発明における同義表現抽出の原理を示す説明図である。 第2の実施の形態における同義表現抽出システムの構成例を示すブロック図である。 文章整形の例を示す説明図である。 文章整形前後の係り受け構造の例を示す説明図である。 第3の実施の形態における同義表現抽出システムの構成例を示すブロック図である。 抽出した同義表現の正誤を入力できる出力例を示す説明図である。 類似度表データベース106が記憶する類似基準を調整するために用いる類似度表を示す説明図である。 図28に示したシステム利用者による同義表現の正誤の判定内容を数値化にした類似度表を示す説明図である。 同義表現抽出の式の重み係数、閾値及び類似度の関係を示す説明図である。 同義表現抽出の式の補正後の重み係数、閾値及び類似度の関係を示す説明図である。 従来技術における同義表現抽出の原理を示す説明図である。 本発明による同義表現抽出システムを適用した文書参照関係抽出システムを用いた表現統一システムの構成の一例を示すブロック図である。 組織情報の一例を示す説明図である。 コミュニケーション計画の一例を示す説明図である。 伝達文書情報の一例を示す説明図である。 コミュニケーション計画を展開した例を示す説明図である。 図35に示すコミュニケーション計画における文書伝達を模式的にネットワークとして表した説明図である。 非参照関係抽出手段が作成する計画表の一般例を示す説明図である。 非参照関係抽出手段が図35に示すコミュニケーション計画に基づいて実際に作成した計画表及び非参照関係表を示す説明図である。 階層構造特定手段が文書伝達の階層構造を特定する処理のアルゴリズムの一例を示す説明図である。 階層構造特定手段が作成する伝達表の一般例を示す説明図である。 階層構造特定手段が図36に示す伝達文書情報に基づいて実際に作成した5つの伝達表、及び伝達表から階層構造を特定する例を示す説明図である。 図41に示す処理に従って、階層構造特定手段が図36に示す伝達文書情報から特定した文書伝達の階層構造を示す説明図である。 図36に示す伝達文書情報における文書伝達の末端者の一人であるメンバM6から文書伝達の開始者までのトレースを行う処理の過程を示す説明図である。 同義表現データベースが記憶する同義表現の記憶形式の一例を示す説明図である。 出力手段が出力する同義表現の抽出結果の一例を示す説明図である。 文書伝達の階層構造を特定し伝達文書の表現を統一する処理の一例を示すフローチャートである。 第5の実施の形態における文書参照関係抽出システムを用いた表現統一システムの構成例を示すブロック図である。 同義表現を修正する処理の一例を示すフローチャートである。 同義表現の修正案を入力するフォーム(表示画面)の例を示す説明図である。 修正候補の表示と修正への同意を入力するフォーム(表示画面)の例を示す説明図である。 同義表現の修正を行ったことを通知する表示方法(メッセージ)の例を示す説明図である。 第6の実施の形態における文書参照関係抽出システムを用いた表現統一システムの構成例を示すブロック図である。 予め計画された文書伝達の階層構造を特定し、同義表現の発生傾向を提示する処理の一例を示すフローチャートである。 非参照関係抽出手段が図35に示すコミュニケーション計画に基づいて作成された2つの計画表、及び計画表から文書伝達の階層構造を特定する過程の例を示す説明図である。 コミュニケーション計画から特定した文書伝達の階層構造の例を示す説明図である。 同義表現使用回数表の出力形式の例を示す説明図である。 同義表現の使用回数を文書伝達の階層構造とともに出力した例を示す説明図である。 第7の実施の形態における文書参照関係抽出システムを用いた文書伝達評価システムの構成例を示すブロック図である。 差分表の例を示す説明図である。 伝達文書のコミュニケーション計画と伝達文書情報との差を出力した例を示す説明図である。
符号の説明
10 同義表現抽出システム
101 係り受け解析手段
102 表現比較手段
103 構造関係特定手段
104 類似性判定手段
105 文章整形手段
106 類似度表データベース
107 類似基準補正手段
501 類似文章対データベース
502 出力手段
503 入力手段

Claims (17)

  1. 相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出システムであって、
    前記類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び前記類似文章対の文章間で相違する相違表現群と前記共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、前記類似文章対から同義表現を抽出する同義表現抽出手段を備えた
    ことを特徴とする同義表現抽出システム。
  2. 類似文章対の各文章に含まれる表現である共通表現間の構造関係、及び前記類似文章対のそれぞれの文章にのみ含まれる表現である相違表現と共通表現との間の構造関係を特定する構造関係特定手段と、
    前記構造関係特定手段が特定した構造関係に基づいて、前記類似文章対に含まれる相違表現を同義表現の候補として、前記同義表現の候補の類似度を求める類似度算出手段とを備え、
    同義表現抽出手段は、前記類似度算出手段が求めた類似度に基づいて、前記同義表現の候補を同義表現として抽出するか否かを判定する
    請求項1記載の同義表現抽出システム。
  3. 類似文章対の文章構造を特定する文章構造特定手段と、
    前記文章構造特定手段が特定した文章構造に基づいて、類似文章対の各文章に共通して含まれる表現である共通表現と、前記類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出手段と、
    前記表現抽出手段が抽出した共通表現及び相違表現に基づいて、前記類似文章対の各文章の文章構造における共通表現間の相対的位置関係、及び共通表現と相違表現との間の相対的位置関係を特定する位置関係特定手段と、
    前記位置関係特定手段が特定した相対的位置関係に基づいて、構造関係の同一性から類似文章対における相違表現の類似度を算出する類似度算出手段とを備え、
    同義表現抽出手段は、前記類似度算出手段が算出した類似度に基づいて、同義表現を抽出する
    請求項1記載の同義表現抽出システム。
  4. 同義表現抽出手段は、類似文章対において、相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係であることに基づいて、同義表現を抽出する請求項1から請求項3のうちのいずれか1項に記載の同義表現抽出システム。
  5. 類似文章対の文章構造を特定する文章構造特定手段と、
    前記文章構造特定手段が特定した文章構造に基づいて、類似文章対の各文章に共通して含まれる表現である共通表現と、前記類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出手段と、
    前記表現抽出手段が抽出した共通表現及び相違表現に基づいて、前記類似文章対の各文章の文章構造における共通表現と相違表現との間の相対的位置関係を特定する位置関係特定手段と、
    前記位置関係特定手段が特定した相対的位置関係に基づいて、構造関係の同一性から類似文章対における相違表現の類似度を算出する類似度算出手段とを備え、
    同義表現抽出手段は、前記類似度算出手段が算出した類似度に基づいて、同義表現を抽出する
    請求項1から請求項4のうちのいずれか1項に記載の同義表現抽出システム。
  6. 類似文章の文章構造を類似した構造となるように、所定の文章変換規則を用いて、類似文章対に含まれる文章を変換する文章変換手段を備えた請求項1から請求項5のうちのいずれか1項に記載の同義表現抽出システム。
  7. 同義表現抽出手段は、同義表現を抽出するための所定の類似基準に従って、類似文章対から同義表現を抽出し、
    前記同義表現抽出手段が抽出した同義表現の抽出結果の正誤を示す正誤情報と、同義表現の類似度とに基づいて、前記同義表現を抽出するための類似基準を補正する類似基準補正手段を備えた
    請求項1から請求項6のうちのいずれか1項に記載の同義表現抽出システム。
  8. 相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出方法であって、
    前記類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び前記類似文章対の文章間で相違する相違表現群と前記共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、前記類似文章対から同義表現を抽出する同義表現抽出ステップを含む
    ことを特徴とする同義表現抽出方法。
  9. 類似文章対の各文章に含まれる表現である共通表現間の構造関係、及び前記類似文章対のそれぞれの文章にのみ含まれる表現である相違表現と共通表現との間の構造関係を特定する構造関係特定ステップと、
    前記特定した構造関係に基づいて、前記類似文章対に含まれる相違表現を同義表現の候補として、前記同義表現の候補の類似度を求める類似度算出ステップとを含み、
    同義表現抽出ステップで、前記求めた類似度に基づいて、前記同義表現の候補を同義表現として抽出するか否かを判定する
    請求項8記載の同義表現抽出方法。
  10. 類似文章対の文章構造を特定する文章構造特定ステップと、
    前記特定した文章構造に基づいて、類似文章対の各文章に共通して含まれる表現である共通表現と、前記類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出ステップと、
    前記抽出した共通表現及び相違表現に基づいて、前記類似文章対の各文章の文章構造における共通表現と相違表現との間の相対的位置関係を特定する位置関係特定ステップと、
    前記特定した相対的位置関係に基づいて、構造関係の同一性から類似文章対における相違表現の類似度を算出する類似度算出ステップとを含み、
    同義表現抽出ステップで、前記算出した類似度に基づいて、同義表現を抽出する
    請求項8記載の同義表現抽出方法。
  11. 類似文章の文章構造を類似した構造となるように、所定の文章変換規則を用いて、類似文章対に含まれる文章を変換する文章変換ステップを含む請求項8から請求項10のうちのいずれか1項に記載の同義表現抽出方法。
  12. 同義表現抽出ステップで、同義表現を抽出するための所定の類似基準に従って、類似文章対から同義表現を抽出し、
    前記抽出した同義表現の抽出結果の正誤を示す正誤情報と、同義表現の類似度とに基づいて、前記同義表現を抽出するための類似基準を補正する類似基準補正ステップを含む
    請求項8から請求項11のうちのいずれか1項に記載の同義表現抽出方法。
  13. 相互に類似する文章を対にした類似文章対から同義表現を抽出するための同義表現抽出用プログラムであって、
    コンピュータに、
    前記類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び前記類似文章対の文章間で相違する相違表現群と前記共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、前記類似文章対から同義表現を抽出する同義表現抽出処理を
    実行させるための同義表現抽出用プログラム。
  14. コンピュータに、
    類似文章対の各文章に含まれる表現である共通表現間の構造関係、及び前記類似文章対のそれぞれの文章にのみ含まれる表現である相違表現と共通表現との間の構造関係を特定する構造関係特定処理と、
    前記特定した構造関係に基づいて、前記類似文章対に含まれる相違表現を同義表現の候補として、前記同義表現の候補の類似度を求める類似度算出処理とを実行させ、
    同義表現抽出処理で、前記求めた類似度に基づいて、前記同義表現の候補を同義表現として抽出するか否かを判定する処理を実行させる
    請求項13記載の同義表現抽出用プログラム。
  15. コンピュータに、
    類似文章対の文章構造を特定する文章構造特定処理と、
    前記特定した文章構造に基づいて、類似文章対の各文章に共通して含まれる表現である共通表現と、前記類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出処理と、
    前記抽出した共通表現及び相違表現に基づいて、前記類似文章対の各文章の文章構造における共通表現と相違表現との間の相対的位置関係を特定する位置関係特定処理と、
    前記特定した相対的位置関係に基づいて、構造関係の同一性から類似文章対における相違表現の類似度を算出する類似度算出処理とを実行させ、
    同義表現抽出処理で、前記算出した類似度に基づいて、同義表現を抽出する処理を実行させる
    請求項13記載の同義表現抽出用プログラム。
  16. コンピュータに、
    類似文章の文章構造を類似した構造となるように、所定の文章変換規則を用いて、類似文章対に含まれる文章を変換する文章変換処理を実行させる
    請求項13から請求項15のうちのいずれか1項に記載の同義表現抽出用プログラム。
  17. コンピュータに、
    同義表現抽出処理で、同義表現を抽出するための所定の類似基準に従って、類似文章対から同義表現を抽出する処理を実行させ、
    前記抽出した同義表現の抽出結果の正誤を示す正誤情報と、同義表現の類似度とに基づいて、前記同義表現を抽出するための類似基準を補正する類似基準補正処理を実行させる
    請求項13から請求項16のうちのいずれか1項に記載の同義表現抽出用プログラム。
JP2007071128A 2007-03-19 2007-03-19 同義表現抽出システム、同義表現抽出方法、及び同義表現抽出プログラム Active JP5076575B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007071128A JP5076575B2 (ja) 2007-03-19 2007-03-19 同義表現抽出システム、同義表現抽出方法、及び同義表現抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007071128A JP5076575B2 (ja) 2007-03-19 2007-03-19 同義表現抽出システム、同義表現抽出方法、及び同義表現抽出プログラム

Publications (2)

Publication Number Publication Date
JP2008234175A true JP2008234175A (ja) 2008-10-02
JP5076575B2 JP5076575B2 (ja) 2012-11-21

Family

ID=39906888

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007071128A Active JP5076575B2 (ja) 2007-03-19 2007-03-19 同義表現抽出システム、同義表現抽出方法、及び同義表現抽出プログラム

Country Status (1)

Country Link
JP (1) JP5076575B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010257022A (ja) * 2009-04-22 2010-11-11 Kddi Corp 修正候補取得装置、修正候補取得システム、修正候補取得方法、修正候補取得プログラム
US20150036930A1 (en) * 2013-07-30 2015-02-05 International Business Machines Corporation Discriminating synonymous expressions using images
JP2017037602A (ja) * 2015-08-14 2017-02-16 Psソリューションズ株式会社 対話インターフェース
US10339223B2 (en) 2014-09-05 2019-07-02 Nec Corporation Text processing system, text processing method and storage medium storing computer program
US10936636B2 (en) 2016-07-07 2021-03-02 Advanced New Technologies Co., Ltd. Collecting user information from computer systems

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010257022A (ja) * 2009-04-22 2010-11-11 Kddi Corp 修正候補取得装置、修正候補取得システム、修正候補取得方法、修正候補取得プログラム
US20150036930A1 (en) * 2013-07-30 2015-02-05 International Business Machines Corporation Discriminating synonymous expressions using images
US9436891B2 (en) * 2013-07-30 2016-09-06 GlobalFoundries, Inc. Discriminating synonymous expressions using images
US10339223B2 (en) 2014-09-05 2019-07-02 Nec Corporation Text processing system, text processing method and storage medium storing computer program
JP2017037602A (ja) * 2015-08-14 2017-02-16 Psソリューションズ株式会社 対話インターフェース
US10936636B2 (en) 2016-07-07 2021-03-02 Advanced New Technologies Co., Ltd. Collecting user information from computer systems

Also Published As

Publication number Publication date
JP5076575B2 (ja) 2012-11-21

Similar Documents

Publication Publication Date Title
Derczynski et al. Microblog-genre noise and impact on semantic annotation accuracy
Carley et al. AutoMap User's Guide 2013
EP0914637B1 (en) Document producing support system
US7158980B2 (en) Method and apparatus for computerized extracting of scheduling information from a natural language e-mail
US9613026B2 (en) System and method for interactive automatic translation
KR101972179B1 (ko) 자동 태스크 추출 및 캘린더 엔트리
KR101960115B1 (ko) 대화 스레드의 요약 기법
US8832205B2 (en) System and method for extracting calendar events from free-form email
US20150278195A1 (en) Text data sentiment analysis method
US20100100815A1 (en) Email document parsing method and apparatus
US20140280314A1 (en) Dimensional Articulation and Cognium Organization for Information Retrieval Systems
US20130007036A1 (en) Automatic Project Content Suggestion
US20130006986A1 (en) Automatic Classification of Electronic Content Into Projects
US20070233465A1 (en) Information extracting apparatus, and information extracting method
EP1910949A2 (en) An improved method and apparatus for sociological data analysis
US20100198802A1 (en) System and method for optimizing search objects submitted to a data resource
JP5119693B2 (ja) 文書参照関係抽出システム、表現統一化システム、文書伝達評価システム、方法及びプログラム
US9110852B1 (en) Methods and systems for extracting information from text
JP5076575B2 (ja) 同義表現抽出システム、同義表現抽出方法、及び同義表現抽出プログラム
Egger et al. Natural language processing (NLP): An introduction: making sense of textual data
US20220414603A9 (en) Automatic document classification
Schöch et al. Smart Modelling for Literary History
JP2021096395A (ja) 文法学習システム、サーバー装置、データ検索方法、及び検索プログラム
Švec et al. Building Corpora for Stylometric Research
Mörth et al. Towards a diatopic dictionary of spoken arabic varieties: challenges in compiling the VICAV dictionaries

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100302

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120508

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120731

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120813

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150907

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5076575

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150