JP4394517B2 - 特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置 - Google Patents

特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置 Download PDF

Info

Publication number
JP4394517B2
JP4394517B2 JP2004141985A JP2004141985A JP4394517B2 JP 4394517 B2 JP4394517 B2 JP 4394517B2 JP 2004141985 A JP2004141985 A JP 2004141985A JP 2004141985 A JP2004141985 A JP 2004141985A JP 4394517 B2 JP4394517 B2 JP 4394517B2
Authority
JP
Japan
Prior art keywords
feature information
viewpoint
extraction
extracted
viewpoints
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004141985A
Other languages
English (en)
Other versions
JP2005326922A (ja
Inventor
一成 田中
勇 渡部
裕之 八田
信行 平塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2004141985A priority Critical patent/JP4394517B2/ja
Priority to US10/974,643 priority patent/US7715631B2/en
Publication of JP2005326922A publication Critical patent/JP2005326922A/ja
Application granted granted Critical
Publication of JP4394517B2 publication Critical patent/JP4394517B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、電子文書中の特徴情報(単語、複合語、あるいはフレーズなどの任意の文字列)を複数の観点ごとに抽出する特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置に関する。
記憶媒体の大容量化や低価格化、イントラネットやインターネットの急速な普及などにともなって、大量の電子文書を計算機を用いて容易に収集・蓄積することが可能となっている。そして、利用者がこれらの文書の中から何らかの知見を得るためには、その量が膨大であるがゆえに、たとえば文書の内容を特徴づけるキーワード(単語および複合語)やフレーズなどの任意の文字列(以下ではこれらを「特徴情報」という)間の関係や、特徴情報の出現頻度などに基づく文書の分類結果などを、利用者のニーズに応じて分かりやすく出力できる分析ツールが不可欠となる。
ただ、分析の観点はその目的などによって異なり、観点によってどの特徴情報が重要であるかも異なってくる。たとえばハイブリッド電気自動車の分野における近年の技術動向を分析する目的で、大量の特許公報を分類(グルーピング)して図9に示すようなチャートを作成する場合、その特許が何についての発明かという観点(発明対象の観点。図中横軸)で見た場合は「制御装置」や「駆動装置」といったキーワードが、どのような課題を解決しようとしているのかという観点(目的の観点。図中縦軸)で見た場合は「燃費」や「燃料消費量」といったキーワードが、それぞれ文書間の関連づけの基準となる。
そこで、文書中の文字列のうち特に重要なものや、特にある特定の観点において重要なものを特徴情報として抽出するための技術がすでに提案されている(たとえば下記特許文献1あるいは特許文献2参照。)。
特開平11−250097号公報 特開2001−101199号公報
しかしながら従来の手法では、抽出される特徴情報の精度を上げようとして抽出ルールを厳しくすると抽出率が下がってしまい(=漏れが多い)、抽出率を上げようとして抽出ルールを緩くすると精度が下がってしまう(=ゴミが多い)という問題があった。
たとえば特許公報において、発明対象の観点から見た特徴情報として「〜に関する」の「〜」の部分、目的の観点から見た特徴情報として「〜を改善する」の「〜」の部分を、それぞれ抽出することにすると、「エンジン」というキーワードはいずれの観点においても特徴情報として抽出される可能性がある。そこで、「エンジン」が目的の観点で抽出されないようにするために、「〜を改善する」でなく「〜性を改善する」の「〜」の部分を特徴情報として抽出することにすると、「効率を改善する」といった一文から目的観点の特徴情報として「効率」を拾い出すことができなくなってしまう。
そして従来技術では、こうしたトレードオフの関係について特別な配慮がなされていないために、個々の観点の独立性を保障しようとする(複数の観点が同一の特徴情報を共有しないようにする)と、抽出率が犠牲になってしまうという問題があった。
この発明は、上述した従来技術による問題点を解消するため、電子文書の内容を特徴づけるキーワードなどの特徴情報を、複数の観点ごとに正確にかつ網羅的に抽出するとともに、個々の観点の独立性を保障することが可能な特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置を提供することを目的とする。
上述した課題を解決し、目的を達成するため、この発明にかかる特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置は、電子文書からその特徴情報を、観点ごとに特徴情報の係り受けに関する抽出ルールに基づいて観点ごとに抽出するとともに、一の観点で抽出された特徴情報と残余の観点で抽出された特徴情報とを照合して、特徴情報が一致する観点がある場合、特徴情報が一致する観点ごとに当該観点におけるそのスコアを算出して、特徴情報が一致する複数の観点におけるスコアに基づいて、特徴情報が一致する複数の観点の中から、特徴情報の観点を特定することを特徴とする。
この発明によれば、同一の特徴情報が複数の観点で重複して抽出されることがあっても、各観点におけるそのスコアに基づいて、当該特徴情報はいずれか一つの観点に割り当てられる。
また、この発明にかかる特徴情報抽出方法は、複数の観点で抽出された特徴情報の各観点におけるスコアを、対象文書群中で当該特徴情報が当該観点の特徴情報として抽出された頻度に基づいて算出することを特徴とする。
この発明によれば、同一の特徴情報が複数の観点で重複して抽出されることがあっても、各観点における抽出頻度から算出されたスコアに基づいて、当該特徴情報はいずれか一つの観点に割り当てられる。
また、この発明にかかる特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置は、さらに、複数の観点で抽出された特徴情報のうち前記スコアに基づいて特定された観点以外で抽出された特徴情報を削除することを特徴とする。
この発明によれば、最終的に特定された観点以外の観点で抽出された特徴情報は、特徴情報としては採用されないことになる。
また、この発明にかかる特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置は、さらに、複数の観点で抽出された特徴情報のうち前記スコアに基づいて特定された観点以外で抽出された特徴情報の観点を当該特定された特徴情報の観点に変更することを特徴とする。
この発明によれば、最終的に特定された観点以外の観点で抽出された特徴情報は、当該特定された観点の特徴情報として採用されることになる。
本発明にかかる特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置によれば、電子文書の内容を特徴づけるキーワードなどの特徴情報を、複数の観点ごとに正確にかつ網羅的に抽出するとともに、個々の観点の独立性を保障することが可能な特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置を提供することができるという効果を奏する。
以下に添付図面を参照して、この発明にかかる特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置の好適な実施の形態を詳細に説明する。
図1は、この発明の実施の形態にかかる特徴情報抽出装置のハードウエア構成を示す説明図である。図中、CPU101は装置全体の制御を司る。ROM102はブートプログラムなどを記憶している。RAM103はCPU101のワークエリアとして使用される。
HDD104は、CPU101の制御にしたがってHD105に対するデータのリード/ライトを制御する。HD105は、HDD104の制御にしたがって書き込まれたデータを記憶する。FDD106は、CPU101の制御にしたがってFD107に対するデータのリード/ライトを制御する。FD107は、FDD106の制御にしたがって書き込まれたデータを記憶する。なお、FD107は着脱可能な記録媒体の一例であり、FD107の代わりにCD−ROM(CD−R、CD−RW)、MO、DVD(Digital Versatile Disk)、メモリーカードなどであってもよい。
ディスプレイ108は、カーソル、ウィンドウ、アイコンなどをはじめ、文書や画像などの各種データを表示する。ネットワークI/F109はLAN/WANなどのネットワークに接続され、当該ネットワークと装置内部とのデータの送受信を司る。キーボード110は、文字、数値、各種指示などの入力のための複数のキーを備え、押下されたキーに対応するデータを装置内部へ入力する。マウス111は本体下部のボールの回転量と回転方向、および本体上部の各ボタンのON/OFFを随時装置内部へ入力する。また、バス100は上記各部を接続する。
次に、図2はこの発明の実施の形態にかかる特徴情報抽出装置の機能構成を示す説明図である。図示するように上記装置は、文書記憶部200、形態素解析部201、係り受け解析部202、抽出ルール記憶部203、特徴情報抽出部204、観点特定部205、および抽出結果修正部206を備えている。
まず、文書記憶部200は処理対象となる複数の電子文書(以下では「対象文書」という)を保持する機能部である。ここでは対象文書は、たとえばハイブリッド電気自動車に関連する特許公報であるものとするが、必ずしも対象文書は特許公報でなければならないわけではない。
また、形態素解析部201は文書記憶部200内の各文書につき形態素解析を行う機能部、係り受け解析部202は形態素解析部201による解析結果を基礎として係り受け解析を行う機能部である。なお、形態素解析や係り受け解析の内容は公知であるので詳細な説明は省略する。
抽出ルール記憶部203は、後述する特徴情報抽出部204が対象文書中から特徴情報を抽出するにあたってのルール(以下では「抽出ルール」という)を保持する機能部である。
図3は、抽出ルール記憶部203に保持される抽出ルールの一例を模式的に示す説明図である。図示する抽出ルールは、対象文書中のどの文字列をどの観点における特徴情報として抽出するか、言い換えれば、ある観点における文書の特徴情報とみなされるべき文字列の条件を定めたものである。
たとえば図中一番上のルールは、「発明の属する技術分野」中に「関する」という文字列があった場合、当該文字列の前の文字列(厳密には当該文字列に係る文字列)を、「発明対象」観点における特徴情報として抽出すべき旨を定めている。なお、このように指定範囲内に出現する指定文字列の係り元を抽出するルールのほか、逆に指定文字列の係り先を抽出するルール(たとえば「容易に」の後の文字列)、あるいは指定文字列を包含する文字列(たとえば末尾が「装置」あるいは「方法」である文字列)を抽出するルールなどもある。
なお、図示する例では観点として「発明対象」および「目的」しか示していないが、このほか観点としては「構成要素」「用途」「形式」「(ソフトウエアの)処理対象」「解決手段」なども考えられる。
図2の説明に戻り、次に特徴情報抽出部204は係り受け解析部202による解析結果と、抽出ルール記憶部203内の抽出ルールとを照合して、個々の対象文書につきその特徴情報を観点別に抽出する機能部である。
上述のように対象文書はここでは特許公報である。そして、たとえばある文書Aの「発明の属する技術分野」項目に、「本発明は・・・ハイブリッド電気自動車に関する。」という一文があったとする。一方、図3の抽出ルールでは上述のように、「発明の属する技術分野」内の文字列「関する」に係る文字列を、「発明対象」という観点から見た文書の特徴情報とみなしている。そこで特徴情報抽出部204は、文書Aの「発明対象」観点における特徴情報として「ハイブリッド電気自動車」を抽出する。
このように、抽出される特徴情報は必ずしも単語でなくともよく、たとえば指定文字列の係り元のさらに係り元、あるいは指定文字列の係り先のさらに係り先などが連結された複合語であってもよい。このとき、単語の連結順を文書中での出現順とは変えるなどして、扱いやすい複合語を作成することもできる。このほか必要に応じて助詞を削除する、「乗心地」と「乗り心地」とを同一視するなどの後処理を行ってもよい。
また、たとえば文書Aの「発明が解決しようとする課題」項目に「本発明は・・・燃費向上を目的とする。」という一文があったとすると、図3の抽出ルールより「向上」に係る「燃費」が、文書Aの「目的」観点における特徴情報として抽出される。このように一つの対象文書からは、「発明対象」や「目的」といった複数の観点別に、それぞれ特徴情報(もしあれば)が抽出される。
ただし、観点と特徴情報とは1対多ではなく、多対多の対応関係となる場合がある。すなわち、たとえば「組立性」という文字列は、「発明の属する技術分野」中で「本発明は・・・組立性に関する。」のように使われることもあれば、「発明が解決しようとする課題」中で「本発明は・・・組立性向上を目的とする。」のように使われることもあり、そのため「発明対象」あるいは「目的」のいずれの観点においても特徴情報として抽出される可能性がある。この場合、複数の観点が同一の特徴情報を共有しており、観点の独立性が保たれていないことになる。
そこで本発明では、同一表記の文字列が複数の観点で特徴情報として抽出された場合、図2に示した観点特定部205で、各観点における当該文字列のスコアを算出し、スコアが最大となる観点においてのみ当該文字列を当該観点における特徴情報とみなすようにする。すなわち、たとえば「「発明対象」観点における「組立性」のスコア<「目的」観点における「組立性」のスコア」となった場合、「組立性」はもっぱら「目的」観点における特徴情報とみなされることになる。これにより、一つの特徴情報は必ず一つの観点に所属することになり、個々の観点の独立性が保障される。
そして、ある文字列のある観点におけるスコアは、もっとも単純には「スコア=その観点でその文字列が抽出された文書数」により計算する。たとえば「組立性」が、対象文書中2文書では「発明対象」観点の特徴情報として、12文書では「目的」観点の特徴情報として、それぞれ抽出されたとすると、「組立性」の「発明対象」観点におけるスコアは2、「目的」観点におけるスコアは12となる。もっともここでは上記をやや修正し、抽出の根拠となったルールごとの重み(図3参照)を使用して、「スコア=その観点でその文字列が抽出された頻度の重み付き和」とする。なお、この重みはルールごとに、その精度などに応じてあらかじめ定められる。
たとえば、対象文書群全体で「組立性」が以下のようにそれぞれ抽出されたとする。
・「発明の属する技術分野」中の「関する」の係り元として:1回
・「発明の属する技術分野」中の「係わる」の係り元として:1回
・「発明が解決しようとする課題」中の「向上」の係り元として:6回
その場合に、「組立性」の「発明対象」観点におけるスコアは2(=「関する」の係り元として1回抽出×重み1+「係わる」の係り元として1回抽出×重み1)、「目的」観点におけるスコアは12(=「向上」の係り元として6回抽出×重み2)となる。その結果、文字列「組立性」は「発明対象」でなく、もっぱら「目的」観点における文書の特徴情報とみなされることになる。
なお、このように単純にスコアを比較してスコアが最大となる観点を採用するのでなく、たとえば他の観点と比較して飛び抜けてスコアの高い観点(スコア間の差が一定値以上あるいは一定倍率以上など)があった場合にその観点を採用したり、スコアが最大となる観点だけでなく、スコアが一定値以上となった観点はすべて採用したりするのでもよい。また、たとえば「○○性」「○○率」などの文字列は、発明の目的の文脈で使用される頻度が統計的・経験的に高いので、末尾が「性」や「率」であるなど一定の特徴を有する文字列については、優先的にいずれかの観点(たとえば「目的」観点)を採用するようにしてもよい。
図2の説明に戻り、次に抽出結果修正部206は、特徴情報抽出部204による特徴情報の抽出結果を、観点特定部205で絞り込まれた観点に応じて修正する機能部である。すなわち、観点特定部205による処理で「組立性」が「目的」観点の特徴情報とされた場合、「組立性」が「発明対象」観点の特徴情報として抽出されている文書について、特徴情報の削除あるいはその観点の変更(以下では削除と変更をあわせて「修正」という)を行う。
図4は、特徴情報抽出部204による特徴情報の抽出結果を模式的に示す説明図である。図示する抽出結果では、個々の対象文書について、そこから抽出された特徴情報が観点別にまとめられている。そして、「組立性」は文書Aでは「目的」観点で抽出されているが、文書Bでは「発明対象」観点で抽出されているので、抽出結果修正部206は文書Bの「組立性」を図5のように削除するか、あるいは図6のように「目的」観点に振り替える。
次に、図7はこの発明の実施の形態にかかる特徴情報抽出装置における、特徴情報抽出処理(抽出された特徴情報の修正処理を含む、広義の特徴情報抽出処理)の手順を示すフローチャートである。本装置は、まず文書記憶部200内の対象文書について、形態素解析部201による形態素解析(ステップS701)および係り受け解析部202による係り受け解析(ステップS702)を行う。次に特徴情報抽出部204で、この解析結果中の係り受け組と抽出ルール記憶部203内の抽出ルール(図3)とを照合し、各文書の各観点における特徴情報を抽出する(ステップS703)。
図8は、図7のステップS703における特徴情報抽出処理(狭義)の手順を示すフローチャートである。特徴情報抽出部204は、まず係り受け解析部202による解析結果を読み込み(ステップS801)、次に抽出ルール記憶部203からある特定の観点、たとえば「発明対象」観点の特徴情報を抽出するための抽出ルールをすべて(図3の例では計5個)読み込む(ステップS802)。
そして、ステップS801で読み込んだ解析結果中の係り受け組の一つと、ステップS802で読み込んだ抽出ルールの一つとを照合し(ステップS803)、当該係り受け組が当該ルールに適合する場合は(ステップS804:Yes)、当該ルールで対象文字列として指定された文字列を特徴情報として抽出する(ステップS805)。なお、注目する係り受け組が注目する抽出ルールに適合しない場合(ステップS804:No)は何もしない。
その後、注目する係り受け組をステップS802で読み込んだすべての抽出ルールと照合したかどうか調べ、もしまだ未処理のルールがあれば(ステップS806:No)、注目する抽出ルールを次のものに切り替えた後(ステップS807)、ステップS803〜S806の処理を繰り返す。
一方、ある観点のすべての抽出ルールについて照合を終えていれば(ステップS806:Yes)、ステップS801で読み込んだ解析結果中のすべての係り受け組を抽出ルールと照合したかどうか調べ、もしまだ未処理の係り受け組があれば(ステップS808:No)、注目する係り受け組を次のものに切り替えた後(ステップS809)、ステップS803〜S808の処理を繰り返す。
一方、すべての係り受け組について照合を終えていれば(ステップS808:Yes)、抽出ルール記憶部203内のすべての観点についてステップS802〜S809の処理を終えたかどうかを調べ、もしまだ未処理の観点があれば(ステップS810:No)、注目する観点を次のもの、たとえば「目的」観点に切り替えた後(ステップS811)、ステップS802〜S810の処理を繰り返す。そして、すべての観点について上記処理を終えた時点で(ステップS810:Yes)、本フローチャートによる処理を終了して、図7のステップS704に移行する。
図7の説明に戻り、図8の手順で全対象文書につき特徴情報を一通り抽出し終えると、本装置は次にその観点特定部205により、複数の観点で抽出されている特徴情報について、それぞれの観点におけるスコアを算出する(ステップS704)。そして、このスコアが最高となる観点を当該特徴情報の観点として採用(観点特定)するとともに(ステップS705)、採用された観点以外で抽出された特徴情報を削除するか、あるいはその観点を採用された観点へと変更(抽出結果修正)する(ステップS706)。
以上説明した実施の形態によれば、同一の文字列が複数の観点で特徴情報として抽出されることがあっても、抽出頻度などから見て相対的に確からしい観点のみを残すので、比較的緩い抽出ルールで広く特徴情報を抽出しつつ、それぞれの特徴情報を最適な観点に振り分けることができる。すなわち特徴情報の抽出において、抽出精度と抽出率との双方を向上させることが可能である。
なお、本実施の形態で説明した特徴情報抽出方法は、あらかじめ用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク105、フレキシブルディスク107、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。
(付記1)複数の電子文書から構成される文書群中の個々の電子文書についてその特徴情報を複数の観点ごとに抽出する特徴情報抽出工程と、
前記特徴情報抽出工程で抽出された特徴情報のうち複数の観点で抽出されたものについて各観点におけるそのスコアを算出するスコア算出工程と、
前記スコア算出工程で算出されたスコアに基づいて前記複数の観点で抽出された特徴情報の観点を特定する観点特定工程と、
を含むことを特徴とする特徴情報抽出方法。
(付記2)前記スコア算出工程では、前記特徴情報の各観点におけるスコアを前記文書群中で当該特徴情報が当該観点の特徴情報として抽出された頻度に基づいて算出することを特徴とする前記付記1に記載の特徴情報抽出方法。
(付記3)前記観点特定工程では、前記スコア算出工程で算出されたスコアが最大となる観点を前記特徴情報の観点として特定することを特徴とする前記付記1または付記2に記載の特徴情報抽出方法。
(付記4)さらに、前記複数の観点で抽出された特徴情報のうち前記観点特定工程で特定された観点以外で抽出された特徴情報を削除する抽出結果修正工程を含むことを特徴とする前記付記1〜付記3のいずれか一つに記載の特徴情報抽出方法。
(付記5)さらに、前記複数の観点で抽出された特徴情報のうち前記観点特定工程で特定された観点以外で抽出された特徴情報を前記観点特定工程で特定された観点の特徴情報に変更する抽出結果修正工程を含むことを特徴とする前記付記1〜付記3のいずれか一つに記載の特徴情報抽出方法。
(付記6)複数の電子文書から構成される文書群中の個々の電子文書についてその特徴情報を複数の観点ごとに抽出する特徴情報抽出工程と、
前記特徴情報抽出工程で抽出された特徴情報のうち複数の観点で抽出されたものについて各観点におけるそのスコアを算出するスコア算出工程と、
前記スコア算出工程で算出されたスコアに基づいて前記複数の観点で抽出された特徴情報の観点を特定する観点特定工程と、
をコンピュータに実行させることを特徴とする特徴情報抽出プログラム。
(付記7)前記スコア算出工程では、前記特徴情報の各観点におけるスコアを前記文書群中で当該特徴情報が当該観点の特徴情報として抽出された頻度に基づいて算出することを特徴とする前記付記6に記載の特徴情報抽出プログラム。
(付記8)前記観点特定工程では、前記スコア算出工程で算出されたスコアが最大となる観点を前記特徴情報の観点として特定することを特徴とする前記付記6または付記7に記載の特徴情報抽出プログラム。
(付記9)前記スコア算出工程では、前記特徴情報の各観点におけるスコアを前記文書群中で当該特徴情報が当該観点の特徴情報として抽出された頻度に基づいて算出することを特徴とする前記付記6〜付記8のいずれか一つに記載の特徴情報抽出プログラム。
(付記10)さらに、前記複数の観点で抽出された特徴情報のうち前記観点特定工程で特定された観点以外で抽出された特徴情報を前記観点特定工程で特定された観点の特徴情報に変更する抽出結果修正工程をコンピュータに実行させることを特徴とする前記付記6〜付記8のいずれか一つに記載の特徴情報抽出プログラム。
(付記11)複数の電子文書から構成される文書群中の個々の電子文書についてその特徴情報を複数の観点ごとに抽出する特徴情報抽出手段と、
前記特徴情報抽出手段により抽出された特徴情報のうち複数の観点で抽出されたものについて各観点におけるそのスコアを算出するスコア算出手段と、
前記スコア算出手段により算出されたスコアに基づいて前記複数の観点で抽出された特徴情報の観点を特定する観点特定手段と、
を備えることを特徴とする特徴情報抽出装置。
(付記12)前記スコア算出手段は、前記特徴情報の各観点におけるスコアを前記文書群中で当該特徴情報が当該観点の特徴情報として抽出された頻度に基づいて算出することを特徴とする前記付記11に記載の特徴情報抽出装置。
(付記13)前記観点特定手段は、前記スコア算出手段により算出されたスコアが最大となる観点を前記特徴情報の観点として特定することを特徴とする前記付記11または付記12に記載の特徴情報抽出装置。
(付記14)さらに、前記複数の観点で抽出された特徴情報のうち前記観点特定手段により特定された観点以外で抽出された特徴情報を削除する抽出結果修正手段を備えることを特徴とする前記付記11〜付記13のいずれか一つに記載の特徴情報抽出装置。
(付記15)さらに、前記複数の観点で抽出された特徴情報のうち前記観点特定手段により特定された観点以外で抽出された特徴情報を前記観点特定手段により特定された観点の特徴情報に変更する抽出結果修正手段を備えることを特徴とする前記付記11〜付記13のいずれか一つに記載の特徴情報抽出装置。
以上のように、本発明にかかる特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置は、電子文書からその内容を特徴づけるキーワードなどの特徴情報を抽出する用途に有用であり、特に同一の特徴情報が複数の観点で重複して抽出されやすく、観点間での調整がしばしば必要となる場合に適している。
この発明の実施の形態にかかる特徴情報抽出装置のハードウエア構成を示す説明図である。 この発明の実施の形態にかかる特徴情報抽出装置の機能構成を示す説明図である。 抽出ルール記憶部203に保持される抽出ルールの一例を模式的に示す説明図である。 特徴情報抽出部204による特徴情報の抽出結果を模式的に示す説明図である。 図4に示した抽出結果の修正例(削除の場合)を模式的に示す説明図である。 図4に示した抽出結果の修正例(観点の変更の場合)を模式的に示す説明図である。 この発明の実施の形態にかかる特徴情報抽出装置における、特徴情報抽出処理(広義)の手順を示すフローチャートである。 図7のステップS703における特徴情報抽出処理(狭義)の手順を示すフローチャートである。 特許公報の観点別の分類結果の一例を示す説明図である。
符号の説明
200 文書記憶部
201 形態素解析部
202 係り受け解析部
203 抽出ルール記憶部
204 特徴情報抽出部
205 観点特定部
206 抽出結果修正部

Claims (10)

  1. 特徴情報抽出手段と、スコア算出手段と、観点特定手段と、を備え、観点ごとに特徴情報の係り受けに関する抽出ルールを記憶する記憶装置にアクセス可能なコンピュータが、
    前記特徴情報抽出手段により、複数の電子文書から構成される文書群中の個々の電子文書についてその特徴情報を、前記抽出ルールに基づいて前記観点ごとに抽出する特徴情報抽出工程と、
    前記スコア算出手段により、前記特徴情報抽出工程で一の観点において抽出された特徴情報と残余の観点において抽出された特徴情報とを照合して、前記特徴情報が一致する観点がある場合、前記特徴情報が一致する観点ごとに当該観点におけるスコアを算出するスコア算出工程と、
    前記観点特定手段により、前記スコア算出工程で算出された前記特徴情報が一致する複数の観点におけるスコアに基づいて、前記特徴情報が一致する複数の観点の中から、前記特徴情報の観点を特定する観点特定工程と、
    を実行することを特徴とする特徴情報抽出方法。
  2. 前記スコア算出工程では、前記特徴情報の各観点におけるスコアを前記文書群中で当該特徴情報が当該観点の特徴情報として抽出された頻度に基づいて算出することを特徴とする前記請求項1に記載の特徴情報抽出方法。
  3. さらに、抽出結果修正手段を備える前記コンピュータが、
    前記抽出結果修正手段により、前記複数の観点で抽出された特徴情報のうち前記観点特定工程で特定された観点以外で抽出された特徴情報を削除する抽出結果修正工程を実行することを特徴とする前記請求項1または請求項2に記載の特徴情報抽出方法。
  4. さらに、抽出結果修正手段を備える前記コンピュータが、
    前記抽出結果修正手段により、前記複数の観点で抽出された特徴情報のうち前記観点特定工程で特定された観点以外で抽出された特徴情報の観点前記観点特定工程で特定された特徴情報の観点に変更する抽出結果修正工程を実行することを特徴とする前記請求項1または請求項2に記載の特徴情報抽出方法。
  5. 観点ごとに特徴情報の係り受けに関する抽出ルールを記憶する記憶装置にアクセス可能なコンピュータを、
    複数の電子文書から構成される文書群中の個々の電子文書についてその特徴情報を、前記抽出ルールに基づいて前記観点ごとに抽出する特徴情報抽出工程と、
    前記特徴情報抽出工程で一の観点において抽出された特徴情報と残余の観点において抽出された特徴情報とを照合して、前記特徴情報が一致する観点がある場合、前記特徴情報が一致する観点ごとに当該観点におけるスコアを算出するスコア算出工程と、
    前記スコア算出工程で算出された前記特徴情報が一致する複数の観点におけるスコアに基づいて、前記特徴情報が一致する複数の観点の中から、前記特徴情報の観点を特定する観点特定工程と、
    として機能させることを特徴とする特徴情報抽出プログラム。
  6. 前記スコア算出工程では、前記特徴情報の各観点におけるスコアを前記文書群中で当該特徴情報が当該観点の特徴情報として抽出された頻度に基づいて算出することを特徴とする前記請求項5に記載の特徴情報抽出プログラム。
  7. さらに、前記コンピュータを、
    前記複数の観点で抽出された特徴情報のうち前記観点特定工程で特定された観点以外で抽出された特徴情報の観点前記観点特定工程で特定された特徴情報の観点に変更する抽出結果修正工程として機能させることを特徴とする前記請求項5に記載の特徴情報抽出プログラム。
  8. 観点ごとに特徴情報の係り受けに関する抽出ルールを記憶する記憶装置にアクセス可能な特徴情報抽出装置であって、
    複数の電子文書から構成される文書群中の個々の電子文書についてその特徴情報を、前記抽出ルールに基づいて前記観点ごとに抽出する特徴情報抽出手段と、
    前記特徴情報抽出手段により一の観点で抽出された特徴情報と残余の観点で抽出された特徴情報とを照合して、前記特徴情報が一致する観点がある場合、前記特徴情報が一致する観点ごとに当該観点におけるスコアを算出するスコア算出手段と、
    前記スコア算出手段により算出された前記特徴情報が一致する複数の観点におけるスコアに基づいて、前記特徴情報が一致する複数の観点の中から、前記特徴情報の観点を特定する観点特定手段と、
    を備えることを特徴とする特徴情報抽出装置。
  9. さらに、前記複数の観点で抽出された特徴情報のうち前記観点特定手段により特定された観点以外で抽出された特徴情報を削除する抽出結果修正手段を備えることを特徴とする前記請求項8に記載の特徴情報抽出装置。
  10. さらに、前記複数の観点で抽出された特徴情報のうち前記観点特定手段により特定された観点以外で抽出された特徴情報の観点前記観点特定手段により特定された特徴情報の観点に変更する抽出結果修正手段を備えることを特徴とする前記請求項8に記載の特徴情報抽出装置。
JP2004141985A 2004-05-12 2004-05-12 特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置 Expired - Fee Related JP4394517B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004141985A JP4394517B2 (ja) 2004-05-12 2004-05-12 特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置
US10/974,643 US7715631B2 (en) 2004-05-12 2004-10-27 Method and apparatus for extracting feature information, and computer product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004141985A JP4394517B2 (ja) 2004-05-12 2004-05-12 特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置

Publications (2)

Publication Number Publication Date
JP2005326922A JP2005326922A (ja) 2005-11-24
JP4394517B2 true JP4394517B2 (ja) 2010-01-06

Family

ID=35473254

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004141985A Expired - Fee Related JP4394517B2 (ja) 2004-05-12 2004-05-12 特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置

Country Status (2)

Country Link
US (1) US7715631B2 (ja)
JP (1) JP4394517B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4992243B2 (ja) * 2006-01-31 2012-08-08 富士通株式会社 情報要素処理プログラム、情報要素処理方法及び情報要素処理装置
JP5278177B2 (ja) * 2009-06-08 2013-09-04 富士通株式会社 特許情報構築装置、特許情報構築プログラム、および特許情報構築方法
WO2011078194A1 (ja) * 2009-12-25 2011-06-30 日本電気株式会社 テキストマイニングシステム、テキストマイニング方法および記録媒体
JP5284990B2 (ja) 2010-01-08 2013-09-11 インターナショナル・ビジネス・マシーンズ・コーポレーション キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム
JP4940325B2 (ja) * 2010-03-29 2012-05-30 株式会社東芝 文書校正支援装置、方法およびプログラム
US20130073480A1 (en) 2011-03-22 2013-03-21 Lionel Alberti Real time cross correlation of intensity and sentiment from social media messages
CN109240254A (zh) * 2017-07-10 2019-01-18 卢照敢 基于车况数据流的汽车状态评估及故障预警方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69426541T2 (de) * 1993-03-12 2001-06-13 Toshiba Kawasaki Kk Dokumentdetektionssystem mit Darstellung des Detektionsresultats zur Erleichterung des Verständnis des Benutzers
JP2583386B2 (ja) * 1993-03-29 1997-02-19 日本電気株式会社 キーワード自動抽出装置
JP3577819B2 (ja) * 1995-07-14 2004-10-20 富士ゼロックス株式会社 情報探索装置及び情報探索方法
JPH1040253A (ja) * 1996-07-19 1998-02-13 Nippon Telegr & Teleph Corp <Ntt> 文章中の単語の観点生成方法及び装置
JP3001460B2 (ja) * 1997-05-21 2000-01-24 株式会社エヌイーシー情報システムズ 文書分類装置
JPH11250097A (ja) 1998-03-05 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> キーワード抽出方法及び装置及びキーワード抽出プログラムを格納した記憶媒体
US7275061B1 (en) * 2000-04-13 2007-09-25 Indraweb.Com, Inc. Systems and methods for employing an orthogonal corpus for document indexing
EP1236175A4 (en) * 1999-08-06 2006-07-12 Lexis Nexis SYSTEM AND METHOD FOR CLASSIFYING LEGAL CONCEPTS USING A LEGAL TOPIC SCHEME
JP3925003B2 (ja) 1999-09-29 2007-06-06 富士ゼロックス株式会社 文書処理装置および文書処理方法
JP2002189736A (ja) * 2000-12-21 2002-07-05 Inpatekku Kk 技術動向分析用の特許情報記録媒体
JP2002189738A (ja) * 2000-12-21 2002-07-05 Inpatekku Kk 特許情報等のキーワード分析方法及びキーワード分析装置
JP3486406B2 (ja) * 2001-11-27 2004-01-13 三菱スペース・ソフトウエア株式会社 特許情報検索装置
JP2003242176A (ja) * 2001-12-13 2003-08-29 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
US7028026B1 (en) * 2002-05-28 2006-04-11 Ask Jeeves, Inc. Relevancy-based database retrieval and display techniques

Also Published As

Publication number Publication date
US20060039607A1 (en) 2006-02-23
US7715631B2 (en) 2010-05-11
JP2005326922A (ja) 2005-11-24

Similar Documents

Publication Publication Date Title
KR101201037B1 (ko) 키워드와 웹 사이트 콘텐츠 사이의 관련성 검증
JP5492187B2 (ja) 編集距離および文書情報を使用する検索結果順位付け
JP4726528B2 (ja) マルチセンスクエリについての関連語提案
JP3270783B2 (ja) 複数の文書検索方法
US9092524B2 (en) Topics in relevance ranking model for web search
Choudhury et al. Figure metadata extraction from digital documents
US20050021545A1 (en) Very-large-scale automatic categorizer for Web content
US9501557B2 (en) Information generating computer product, apparatus, and method; and information search computer product, apparatus, and method
JP2004062893A (ja) 重み付き編集距離に基づく例文の自動検索用システムおよび方法
JP5141560B2 (ja) 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法
JP5079471B2 (ja) 同義語抽出装置
US7540430B2 (en) System and method for string distance measurement for alphanumeric indicia
JP4394517B2 (ja) 特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置
JP4640593B2 (ja) 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム
JP4754849B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP4102153B2 (ja) インターネットを利用した文字認識の後処理装置
JP4594992B2 (ja) 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体
JP4895988B2 (ja) 文書分類装置の余分構造減退方法
JP4682627B2 (ja) 文書検索装置および方法
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
WO2020157887A1 (ja) 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム
JP2009140411A (ja) 文章要約装置および文章要約方法
JP2007264858A (ja) 人名性別判定プログラム、機械翻訳プログラム、人名性別判定装置、機械翻訳装置、人名性別判定処理方法および機械翻訳処理方法
JP3955410B2 (ja) 類似情報照合装置、類似情報照合方法、及び、類似情報照合プログラムを記録した記録媒体
JP4373478B2 (ja) 文書検索装置及び文書検索方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091013

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091015

R150 Certificate of patent or registration of utility model

Ref document number: 4394517

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121023

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121023

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131023

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees