JP4394517B2

JP4394517B2 - 特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置

Info

Publication number: JP4394517B2
Application number: JP2004141985A
Authority: JP
Inventors: 一成田中; 勇渡部; 裕之八田; 信行平塚
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2004-05-12
Filing date: 2004-05-12
Publication date: 2010-01-06
Anticipated expiration: 2024-05-12
Also published as: US20060039607A1; US7715631B2; JP2005326922A

Description

この発明は、電子文書中の特徴情報（単語、複合語、あるいはフレーズなどの任意の文字列）を複数の観点ごとに抽出する特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置に関する。

記憶媒体の大容量化や低価格化、イントラネットやインターネットの急速な普及などにともなって、大量の電子文書を計算機を用いて容易に収集・蓄積することが可能となっている。そして、利用者がこれらの文書の中から何らかの知見を得るためには、その量が膨大であるがゆえに、たとえば文書の内容を特徴づけるキーワード（単語および複合語）やフレーズなどの任意の文字列（以下ではこれらを「特徴情報」という）間の関係や、特徴情報の出現頻度などに基づく文書の分類結果などを、利用者のニーズに応じて分かりやすく出力できる分析ツールが不可欠となる。

ただ、分析の観点はその目的などによって異なり、観点によってどの特徴情報が重要であるかも異なってくる。たとえばハイブリッド電気自動車の分野における近年の技術動向を分析する目的で、大量の特許公報を分類（グルーピング）して図９に示すようなチャートを作成する場合、その特許が何についての発明かという観点（発明対象の観点。図中横軸）で見た場合は「制御装置」や「駆動装置」といったキーワードが、どのような課題を解決しようとしているのかという観点（目的の観点。図中縦軸）で見た場合は「燃費」や「燃料消費量」といったキーワードが、それぞれ文書間の関連づけの基準となる。

そこで、文書中の文字列のうち特に重要なものや、特にある特定の観点において重要なものを特徴情報として抽出するための技術がすでに提案されている（たとえば下記特許文献１あるいは特許文献２参照。）。

特開平１１−２５００９７号公報特開２００１−１０１１９９号公報

しかしながら従来の手法では、抽出される特徴情報の精度を上げようとして抽出ルールを厳しくすると抽出率が下がってしまい（＝漏れが多い）、抽出率を上げようとして抽出ルールを緩くすると精度が下がってしまう（＝ゴミが多い）という問題があった。

たとえば特許公報において、発明対象の観点から見た特徴情報として「〜に関する」の「〜」の部分、目的の観点から見た特徴情報として「〜を改善する」の「〜」の部分を、それぞれ抽出することにすると、「エンジン」というキーワードはいずれの観点においても特徴情報として抽出される可能性がある。そこで、「エンジン」が目的の観点で抽出されないようにするために、「〜を改善する」でなく「〜性を改善する」の「〜」の部分を特徴情報として抽出することにすると、「効率を改善する」といった一文から目的観点の特徴情報として「効率」を拾い出すことができなくなってしまう。

そして従来技術では、こうしたトレードオフの関係について特別な配慮がなされていないために、個々の観点の独立性を保障しようとする（複数の観点が同一の特徴情報を共有しないようにする）と、抽出率が犠牲になってしまうという問題があった。

この発明は、上述した従来技術による問題点を解消するため、電子文書の内容を特徴づけるキーワードなどの特徴情報を、複数の観点ごとに正確にかつ網羅的に抽出するとともに、個々の観点の独立性を保障することが可能な特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置を提供することを目的とする。

上述した課題を解決し、目的を達成するため、この発明にかかる特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置は、電子文書からその特徴情報を、観点ごとに特徴情報の係り受けに関する抽出ルールに基づいて観点ごとに抽出するとともに、一の観点で抽出された特徴情報と残余の観点で抽出された特徴情報とを照合して、特徴情報が一致する観点がある場合、特徴情報が一致する観点ごとに当該観点におけるそのスコアを算出して、特徴情報が一致する複数の観点におけるスコアに基づいて、特徴情報が一致する複数の観点の中から、特徴情報の観点を特定することを特徴とする。

この発明によれば、同一の特徴情報が複数の観点で重複して抽出されることがあっても、各観点におけるそのスコアに基づいて、当該特徴情報はいずれか一つの観点に割り当てられる。

また、この発明にかかる特徴情報抽出方法は、複数の観点で抽出された特徴情報の各観点におけるスコアを、対象文書群中で当該特徴情報が当該観点の特徴情報として抽出された頻度に基づいて算出することを特徴とする。

この発明によれば、同一の特徴情報が複数の観点で重複して抽出されることがあっても、各観点における抽出頻度から算出されたスコアに基づいて、当該特徴情報はいずれか一つの観点に割り当てられる。

また、この発明にかかる特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置は、さらに、複数の観点で抽出された特徴情報のうち前記スコアに基づいて特定された観点以外で抽出された特徴情報を削除することを特徴とする。

この発明によれば、最終的に特定された観点以外の観点で抽出された特徴情報は、特徴情報としては採用されないことになる。

また、この発明にかかる特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置は、さらに、複数の観点で抽出された特徴情報のうち前記スコアに基づいて特定された観点以外で抽出された特徴情報の観点を当該特定された特徴情報の観点に変更することを特徴とする。

この発明によれば、最終的に特定された観点以外の観点で抽出された特徴情報は、当該特定された観点の特徴情報として採用されることになる。

本発明にかかる特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置によれば、電子文書の内容を特徴づけるキーワードなどの特徴情報を、複数の観点ごとに正確にかつ網羅的に抽出するとともに、個々の観点の独立性を保障することが可能な特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置を提供することができるという効果を奏する。

以下に添付図面を参照して、この発明にかかる特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置の好適な実施の形態を詳細に説明する。

図１は、この発明の実施の形態にかかる特徴情報抽出装置のハードウエア構成を示す説明図である。図中、ＣＰＵ１０１は装置全体の制御を司る。ＲＯＭ１０２はブートプログラムなどを記憶している。ＲＡＭ１０３はＣＰＵ１０１のワークエリアとして使用される。

ＨＤＤ１０４は、ＣＰＵ１０１の制御にしたがってＨＤ１０５に対するデータのリード／ライトを制御する。ＨＤ１０５は、ＨＤＤ１０４の制御にしたがって書き込まれたデータを記憶する。ＦＤＤ１０６は、ＣＰＵ１０１の制御にしたがってＦＤ１０７に対するデータのリード／ライトを制御する。ＦＤ１０７は、ＦＤＤ１０６の制御にしたがって書き込まれたデータを記憶する。なお、ＦＤ１０７は着脱可能な記録媒体の一例であり、ＦＤ１０７の代わりにＣＤ−ＲＯＭ（ＣＤ−Ｒ、ＣＤ−ＲＷ）、ＭＯ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、メモリーカードなどであってもよい。

ディスプレイ１０８は、カーソル、ウィンドウ、アイコンなどをはじめ、文書や画像などの各種データを表示する。ネットワークＩ／Ｆ１０９はＬＡＮ／ＷＡＮなどのネットワークに接続され、当該ネットワークと装置内部とのデータの送受信を司る。キーボード１１０は、文字、数値、各種指示などの入力のための複数のキーを備え、押下されたキーに対応するデータを装置内部へ入力する。マウス１１１は本体下部のボールの回転量と回転方向、および本体上部の各ボタンのＯＮ／ＯＦＦを随時装置内部へ入力する。また、バス１００は上記各部を接続する。

次に、図２はこの発明の実施の形態にかかる特徴情報抽出装置の機能構成を示す説明図である。図示するように上記装置は、文書記憶部２００、形態素解析部２０１、係り受け解析部２０２、抽出ルール記憶部２０３、特徴情報抽出部２０４、観点特定部２０５、および抽出結果修正部２０６を備えている。

まず、文書記憶部２００は処理対象となる複数の電子文書（以下では「対象文書」という）を保持する機能部である。ここでは対象文書は、たとえばハイブリッド電気自動車に関連する特許公報であるものとするが、必ずしも対象文書は特許公報でなければならないわけではない。

また、形態素解析部２０１は文書記憶部２００内の各文書につき形態素解析を行う機能部、係り受け解析部２０２は形態素解析部２０１による解析結果を基礎として係り受け解析を行う機能部である。なお、形態素解析や係り受け解析の内容は公知であるので詳細な説明は省略する。

抽出ルール記憶部２０３は、後述する特徴情報抽出部２０４が対象文書中から特徴情報を抽出するにあたってのルール（以下では「抽出ルール」という）を保持する機能部である。

図３は、抽出ルール記憶部２０３に保持される抽出ルールの一例を模式的に示す説明図である。図示する抽出ルールは、対象文書中のどの文字列をどの観点における特徴情報として抽出するか、言い換えれば、ある観点における文書の特徴情報とみなされるべき文字列の条件を定めたものである。

たとえば図中一番上のルールは、「発明の属する技術分野」中に「関する」という文字列があった場合、当該文字列の前の文字列（厳密には当該文字列に係る文字列）を、「発明対象」観点における特徴情報として抽出すべき旨を定めている。なお、このように指定範囲内に出現する指定文字列の係り元を抽出するルールのほか、逆に指定文字列の係り先を抽出するルール（たとえば「容易に」の後の文字列）、あるいは指定文字列を包含する文字列（たとえば末尾が「装置」あるいは「方法」である文字列）を抽出するルールなどもある。

なお、図示する例では観点として「発明対象」および「目的」しか示していないが、このほか観点としては「構成要素」「用途」「形式」「（ソフトウエアの）処理対象」「解決手段」なども考えられる。

図２の説明に戻り、次に特徴情報抽出部２０４は係り受け解析部２０２による解析結果と、抽出ルール記憶部２０３内の抽出ルールとを照合して、個々の対象文書につきその特徴情報を観点別に抽出する機能部である。

上述のように対象文書はここでは特許公報である。そして、たとえばある文書Ａの「発明の属する技術分野」項目に、「本発明は・・・ハイブリッド電気自動車に関する。」という一文があったとする。一方、図３の抽出ルールでは上述のように、「発明の属する技術分野」内の文字列「関する」に係る文字列を、「発明対象」という観点から見た文書の特徴情報とみなしている。そこで特徴情報抽出部２０４は、文書Ａの「発明対象」観点における特徴情報として「ハイブリッド電気自動車」を抽出する。

このように、抽出される特徴情報は必ずしも単語でなくともよく、たとえば指定文字列の係り元のさらに係り元、あるいは指定文字列の係り先のさらに係り先などが連結された複合語であってもよい。このとき、単語の連結順を文書中での出現順とは変えるなどして、扱いやすい複合語を作成することもできる。このほか必要に応じて助詞を削除する、「乗心地」と「乗り心地」とを同一視するなどの後処理を行ってもよい。

また、たとえば文書Ａの「発明が解決しようとする課題」項目に「本発明は・・・燃費向上を目的とする。」という一文があったとすると、図３の抽出ルールより「向上」に係る「燃費」が、文書Ａの「目的」観点における特徴情報として抽出される。このように一つの対象文書からは、「発明対象」や「目的」といった複数の観点別に、それぞれ特徴情報（もしあれば）が抽出される。

ただし、観点と特徴情報とは１対多ではなく、多対多の対応関係となる場合がある。すなわち、たとえば「組立性」という文字列は、「発明の属する技術分野」中で「本発明は・・・組立性に関する。」のように使われることもあれば、「発明が解決しようとする課題」中で「本発明は・・・組立性向上を目的とする。」のように使われることもあり、そのため「発明対象」あるいは「目的」のいずれの観点においても特徴情報として抽出される可能性がある。この場合、複数の観点が同一の特徴情報を共有しており、観点の独立性が保たれていないことになる。

そこで本発明では、同一表記の文字列が複数の観点で特徴情報として抽出された場合、図２に示した観点特定部２０５で、各観点における当該文字列のスコアを算出し、スコアが最大となる観点においてのみ当該文字列を当該観点における特徴情報とみなすようにする。すなわち、たとえば「「発明対象」観点における「組立性」のスコア＜「目的」観点における「組立性」のスコア」となった場合、「組立性」はもっぱら「目的」観点における特徴情報とみなされることになる。これにより、一つの特徴情報は必ず一つの観点に所属することになり、個々の観点の独立性が保障される。

そして、ある文字列のある観点におけるスコアは、もっとも単純には「スコア＝その観点でその文字列が抽出された文書数」により計算する。たとえば「組立性」が、対象文書中２文書では「発明対象」観点の特徴情報として、１２文書では「目的」観点の特徴情報として、それぞれ抽出されたとすると、「組立性」の「発明対象」観点におけるスコアは２、「目的」観点におけるスコアは１２となる。もっともここでは上記をやや修正し、抽出の根拠となったルールごとの重み（図３参照）を使用して、「スコア＝その観点でその文字列が抽出された頻度の重み付き和」とする。なお、この重みはルールごとに、その精度などに応じてあらかじめ定められる。

たとえば、対象文書群全体で「組立性」が以下のようにそれぞれ抽出されたとする。
・「発明の属する技術分野」中の「関する」の係り元として：１回
・「発明の属する技術分野」中の「係わる」の係り元として：１回
・「発明が解決しようとする課題」中の「向上」の係り元として：６回

その場合に、「組立性」の「発明対象」観点におけるスコアは２（＝「関する」の係り元として１回抽出×重み１＋「係わる」の係り元として１回抽出×重み１）、「目的」観点におけるスコアは１２（＝「向上」の係り元として６回抽出×重み２）となる。その結果、文字列「組立性」は「発明対象」でなく、もっぱら「目的」観点における文書の特徴情報とみなされることになる。

なお、このように単純にスコアを比較してスコアが最大となる観点を採用するのでなく、たとえば他の観点と比較して飛び抜けてスコアの高い観点（スコア間の差が一定値以上あるいは一定倍率以上など）があった場合にその観点を採用したり、スコアが最大となる観点だけでなく、スコアが一定値以上となった観点はすべて採用したりするのでもよい。また、たとえば「○○性」「○○率」などの文字列は、発明の目的の文脈で使用される頻度が統計的・経験的に高いので、末尾が「性」や「率」であるなど一定の特徴を有する文字列については、優先的にいずれかの観点（たとえば「目的」観点）を採用するようにしてもよい。

図２の説明に戻り、次に抽出結果修正部２０６は、特徴情報抽出部２０４による特徴情報の抽出結果を、観点特定部２０５で絞り込まれた観点に応じて修正する機能部である。すなわち、観点特定部２０５による処理で「組立性」が「目的」観点の特徴情報とされた場合、「組立性」が「発明対象」観点の特徴情報として抽出されている文書について、特徴情報の削除あるいはその観点の変更（以下では削除と変更をあわせて「修正」という）を行う。

図４は、特徴情報抽出部２０４による特徴情報の抽出結果を模式的に示す説明図である。図示する抽出結果では、個々の対象文書について、そこから抽出された特徴情報が観点別にまとめられている。そして、「組立性」は文書Ａでは「目的」観点で抽出されているが、文書Ｂでは「発明対象」観点で抽出されているので、抽出結果修正部２０６は文書Ｂの「組立性」を図５のように削除するか、あるいは図６のように「目的」観点に振り替える。

次に、図７はこの発明の実施の形態にかかる特徴情報抽出装置における、特徴情報抽出処理（抽出された特徴情報の修正処理を含む、広義の特徴情報抽出処理）の手順を示すフローチャートである。本装置は、まず文書記憶部２００内の対象文書について、形態素解析部２０１による形態素解析（ステップＳ７０１）および係り受け解析部２０２による係り受け解析（ステップＳ７０２）を行う。次に特徴情報抽出部２０４で、この解析結果中の係り受け組と抽出ルール記憶部２０３内の抽出ルール（図３）とを照合し、各文書の各観点における特徴情報を抽出する（ステップＳ７０３）。

図８は、図７のステップＳ７０３における特徴情報抽出処理（狭義）の手順を示すフローチャートである。特徴情報抽出部２０４は、まず係り受け解析部２０２による解析結果を読み込み（ステップＳ８０１）、次に抽出ルール記憶部２０３からある特定の観点、たとえば「発明対象」観点の特徴情報を抽出するための抽出ルールをすべて（図３の例では計５個）読み込む（ステップＳ８０２）。

そして、ステップＳ８０１で読み込んだ解析結果中の係り受け組の一つと、ステップＳ８０２で読み込んだ抽出ルールの一つとを照合し（ステップＳ８０３）、当該係り受け組が当該ルールに適合する場合は（ステップＳ８０４：Ｙｅｓ）、当該ルールで対象文字列として指定された文字列を特徴情報として抽出する（ステップＳ８０５）。なお、注目する係り受け組が注目する抽出ルールに適合しない場合（ステップＳ８０４：Ｎｏ）は何もしない。

その後、注目する係り受け組をステップＳ８０２で読み込んだすべての抽出ルールと照合したかどうか調べ、もしまだ未処理のルールがあれば（ステップＳ８０６：Ｎｏ）、注目する抽出ルールを次のものに切り替えた後（ステップＳ８０７）、ステップＳ８０３〜Ｓ８０６の処理を繰り返す。

一方、ある観点のすべての抽出ルールについて照合を終えていれば（ステップＳ８０６：Ｙｅｓ）、ステップＳ８０１で読み込んだ解析結果中のすべての係り受け組を抽出ルールと照合したかどうか調べ、もしまだ未処理の係り受け組があれば（ステップＳ８０８：Ｎｏ）、注目する係り受け組を次のものに切り替えた後（ステップＳ８０９）、ステップＳ８０３〜Ｓ８０８の処理を繰り返す。

一方、すべての係り受け組について照合を終えていれば（ステップＳ８０８：Ｙｅｓ）、抽出ルール記憶部２０３内のすべての観点についてステップＳ８０２〜Ｓ８０９の処理を終えたかどうかを調べ、もしまだ未処理の観点があれば（ステップＳ８１０：Ｎｏ）、注目する観点を次のもの、たとえば「目的」観点に切り替えた後（ステップＳ８１１）、ステップＳ８０２〜Ｓ８１０の処理を繰り返す。そして、すべての観点について上記処理を終えた時点で（ステップＳ８１０：Ｙｅｓ）、本フローチャートによる処理を終了して、図７のステップＳ７０４に移行する。

図７の説明に戻り、図８の手順で全対象文書につき特徴情報を一通り抽出し終えると、本装置は次にその観点特定部２０５により、複数の観点で抽出されている特徴情報について、それぞれの観点におけるスコアを算出する（ステップＳ７０４）。そして、このスコアが最高となる観点を当該特徴情報の観点として採用（観点特定）するとともに（ステップＳ７０５）、採用された観点以外で抽出された特徴情報を削除するか、あるいはその観点を採用された観点へと変更（抽出結果修正）する（ステップＳ７０６）。

以上説明した実施の形態によれば、同一の文字列が複数の観点で特徴情報として抽出されることがあっても、抽出頻度などから見て相対的に確からしい観点のみを残すので、比較的緩い抽出ルールで広く特徴情報を抽出しつつ、それぞれの特徴情報を最適な観点に振り分けることができる。すなわち特徴情報の抽出において、抽出精度と抽出率との双方を向上させることが可能である。

なお、本実施の形態で説明した特徴情報抽出方法は、あらかじめ用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク１０５、フレキシブルディスク１０７、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。

（付記１）複数の電子文書から構成される文書群中の個々の電子文書についてその特徴情報を複数の観点ごとに抽出する特徴情報抽出工程と、
前記特徴情報抽出工程で抽出された特徴情報のうち複数の観点で抽出されたものについて各観点におけるそのスコアを算出するスコア算出工程と、
前記スコア算出工程で算出されたスコアに基づいて前記複数の観点で抽出された特徴情報の観点を特定する観点特定工程と、
を含むことを特徴とする特徴情報抽出方法。

（付記２）前記スコア算出工程では、前記特徴情報の各観点におけるスコアを前記文書群中で当該特徴情報が当該観点の特徴情報として抽出された頻度に基づいて算出することを特徴とする前記付記１に記載の特徴情報抽出方法。

（付記３）前記観点特定工程では、前記スコア算出工程で算出されたスコアが最大となる観点を前記特徴情報の観点として特定することを特徴とする前記付記１または付記２に記載の特徴情報抽出方法。

（付記４）さらに、前記複数の観点で抽出された特徴情報のうち前記観点特定工程で特定された観点以外で抽出された特徴情報を削除する抽出結果修正工程を含むことを特徴とする前記付記１〜付記３のいずれか一つに記載の特徴情報抽出方法。

（付記５）さらに、前記複数の観点で抽出された特徴情報のうち前記観点特定工程で特定された観点以外で抽出された特徴情報を前記観点特定工程で特定された観点の特徴情報に変更する抽出結果修正工程を含むことを特徴とする前記付記１〜付記３のいずれか一つに記載の特徴情報抽出方法。

（付記６）複数の電子文書から構成される文書群中の個々の電子文書についてその特徴情報を複数の観点ごとに抽出する特徴情報抽出工程と、
前記特徴情報抽出工程で抽出された特徴情報のうち複数の観点で抽出されたものについて各観点におけるそのスコアを算出するスコア算出工程と、
前記スコア算出工程で算出されたスコアに基づいて前記複数の観点で抽出された特徴情報の観点を特定する観点特定工程と、
をコンピュータに実行させることを特徴とする特徴情報抽出プログラム。

（付記７）前記スコア算出工程では、前記特徴情報の各観点におけるスコアを前記文書群中で当該特徴情報が当該観点の特徴情報として抽出された頻度に基づいて算出することを特徴とする前記付記６に記載の特徴情報抽出プログラム。

（付記８）前記観点特定工程では、前記スコア算出工程で算出されたスコアが最大となる観点を前記特徴情報の観点として特定することを特徴とする前記付記６または付記７に記載の特徴情報抽出プログラム。

（付記９）前記スコア算出工程では、前記特徴情報の各観点におけるスコアを前記文書群中で当該特徴情報が当該観点の特徴情報として抽出された頻度に基づいて算出することを特徴とする前記付記６〜付記８のいずれか一つに記載の特徴情報抽出プログラム。

（付記１０）さらに、前記複数の観点で抽出された特徴情報のうち前記観点特定工程で特定された観点以外で抽出された特徴情報を前記観点特定工程で特定された観点の特徴情報に変更する抽出結果修正工程をコンピュータに実行させることを特徴とする前記付記６〜付記８のいずれか一つに記載の特徴情報抽出プログラム。

（付記１１）複数の電子文書から構成される文書群中の個々の電子文書についてその特徴情報を複数の観点ごとに抽出する特徴情報抽出手段と、
前記特徴情報抽出手段により抽出された特徴情報のうち複数の観点で抽出されたものについて各観点におけるそのスコアを算出するスコア算出手段と、
前記スコア算出手段により算出されたスコアに基づいて前記複数の観点で抽出された特徴情報の観点を特定する観点特定手段と、
を備えることを特徴とする特徴情報抽出装置。

（付記１２）前記スコア算出手段は、前記特徴情報の各観点におけるスコアを前記文書群中で当該特徴情報が当該観点の特徴情報として抽出された頻度に基づいて算出することを特徴とする前記付記１１に記載の特徴情報抽出装置。

（付記１３）前記観点特定手段は、前記スコア算出手段により算出されたスコアが最大となる観点を前記特徴情報の観点として特定することを特徴とする前記付記１１または付記１２に記載の特徴情報抽出装置。

（付記１４）さらに、前記複数の観点で抽出された特徴情報のうち前記観点特定手段により特定された観点以外で抽出された特徴情報を削除する抽出結果修正手段を備えることを特徴とする前記付記１１〜付記１３のいずれか一つに記載の特徴情報抽出装置。

（付記１５）さらに、前記複数の観点で抽出された特徴情報のうち前記観点特定手段により特定された観点以外で抽出された特徴情報を前記観点特定手段により特定された観点の特徴情報に変更する抽出結果修正手段を備えることを特徴とする前記付記１１〜付記１３のいずれか一つに記載の特徴情報抽出装置。

以上のように、本発明にかかる特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置は、電子文書からその内容を特徴づけるキーワードなどの特徴情報を抽出する用途に有用であり、特に同一の特徴情報が複数の観点で重複して抽出されやすく、観点間での調整がしばしば必要となる場合に適している。

この発明の実施の形態にかかる特徴情報抽出装置のハードウエア構成を示す説明図である。この発明の実施の形態にかかる特徴情報抽出装置の機能構成を示す説明図である。抽出ルール記憶部２０３に保持される抽出ルールの一例を模式的に示す説明図である。特徴情報抽出部２０４による特徴情報の抽出結果を模式的に示す説明図である。図４に示した抽出結果の修正例（削除の場合）を模式的に示す説明図である。図４に示した抽出結果の修正例（観点の変更の場合）を模式的に示す説明図である。この発明の実施の形態にかかる特徴情報抽出装置における、特徴情報抽出処理（広義）の手順を示すフローチャートである。図７のステップＳ７０３における特徴情報抽出処理（狭義）の手順を示すフローチャートである。特許公報の観点別の分類結果の一例を示す説明図である。

符号の説明

２００文書記憶部
２０１形態素解析部
２０２係り受け解析部
２０３抽出ルール記憶部
２０４特徴情報抽出部
２０５観点特定部
２０６抽出結果修正部

Claims

特徴情報抽出手段と、スコア算出手段と、観点特定手段と、を備え、観点ごとに特徴情報の係り受けに関する抽出ルールを記憶する記憶装置にアクセス可能なコンピュータが、
前記特徴情報抽出手段により、複数の電子文書から構成される文書群中の個々の電子文書についてその特徴情報を、前記抽出ルールに基づいて前記観点ごとに抽出する特徴情報抽出工程と、
前記スコア算出手段により、前記特徴情報抽出工程で一の観点において抽出された特徴情報と残余の観点において抽出された特徴情報とを照合して、前記特徴情報が一致する観点がある場合、前記特徴情報が一致する観点ごとに当該観点におけるスコアを算出するスコア算出工程と、
前記観点特定手段により、前記スコア算出工程で算出された前記特徴情報が一致する複数の観点におけるスコアに基づいて、前記特徴情報が一致する複数の観点の中から、前記特徴情報の観点を特定する観点特定工程と、
を実行することを特徴とする特徴情報抽出方法。
前記スコア算出工程では、前記特徴情報の各観点におけるスコアを前記文書群中で当該特徴情報が当該観点の特徴情報として抽出された頻度に基づいて算出することを特徴とする前記請求項１に記載の特徴情報抽出方法。
さらに、抽出結果修正手段を備える前記コンピュータが、
前記抽出結果修正手段により、前記複数の観点で抽出された特徴情報のうち前記観点特定工程で特定された観点以外で抽出された特徴情報を削除する抽出結果修正工程を実行することを特徴とする前記請求項１または請求項２に記載の特徴情報抽出方法。
さらに、抽出結果修正手段を備える前記コンピュータが、
前記抽出結果修正手段により、前記複数の観点で抽出された特徴情報のうち前記観点特定工程で特定された観点以外で抽出された特徴情報の観点を、前記観点特定工程で特定された特徴情報の観点に変更する抽出結果修正工程を実行することを特徴とする前記請求項１または請求項２に記載の特徴情報抽出方法。
観点ごとに特徴情報の係り受けに関する抽出ルールを記憶する記憶装置にアクセス可能なコンピュータを、
複数の電子文書から構成される文書群中の個々の電子文書についてその特徴情報を、前記抽出ルールに基づいて前記観点ごとに抽出する特徴情報抽出工程と、
前記特徴情報抽出工程で一の観点において抽出された特徴情報と残余の観点において抽出された特徴情報とを照合して、前記特徴情報が一致する観点がある場合、前記特徴情報が一致する観点ごとに当該観点におけるスコアを算出するスコア算出工程と、
前記スコア算出工程で算出された前記特徴情報が一致する複数の観点におけるスコアに基づいて、前記特徴情報が一致する複数の観点の中から、前記特徴情報の観点を特定する観点特定工程と、
として機能させることを特徴とする特徴情報抽出プログラム。
前記スコア算出工程では、前記特徴情報の各観点におけるスコアを前記文書群中で当該特徴情報が当該観点の特徴情報として抽出された頻度に基づいて算出することを特徴とする前記請求項５に記載の特徴情報抽出プログラム。
さらに、前記コンピュータを、
前記複数の観点で抽出された特徴情報のうち前記観点特定工程で特定された観点以外で抽出された特徴情報の観点を、前記観点特定工程で特定された特徴情報の観点に変更する抽出結果修正工程として機能させることを特徴とする前記請求項５に記載の特徴情報抽出プログラム。
観点ごとに特徴情報の係り受けに関する抽出ルールを記憶する記憶装置にアクセス可能な特徴情報抽出装置であって、
複数の電子文書から構成される文書群中の個々の電子文書についてその特徴情報を、前記抽出ルールに基づいて前記観点ごとに抽出する特徴情報抽出手段と、
前記特徴情報抽出手段により一の観点で抽出された特徴情報と残余の観点で抽出された特徴情報とを照合して、前記特徴情報が一致する観点がある場合、前記特徴情報が一致する観点ごとに当該観点におけるスコアを算出するスコア算出手段と、
前記スコア算出手段により算出された前記特徴情報が一致する複数の観点におけるスコアに基づいて、前記特徴情報が一致する複数の観点の中から、前記特徴情報の観点を特定する観点特定手段と、
を備えることを特徴とする特徴情報抽出装置。
さらに、前記複数の観点で抽出された特徴情報のうち前記観点特定手段により特定された観点以外で抽出された特徴情報を削除する抽出結果修正手段を備えることを特徴とする前記請求項８に記載の特徴情報抽出装置。
さらに、前記複数の観点で抽出された特徴情報のうち前記観点特定手段により特定された観点以外で抽出された特徴情報の観点を、前記観点特定手段により特定された特徴情報の観点に変更する抽出結果修正手段を備えることを特徴とする前記請求項８に記載の特徴情報抽出装置。