JP5076417B2 - 概念ネットワーク生成システム、概念ネットワーク生成方法及び概念ネットワーク生成プログラム - Google Patents

概念ネットワーク生成システム、概念ネットワーク生成方法及び概念ネットワーク生成プログラム Download PDF

Info

Publication number
JP5076417B2
JP5076417B2 JP2006251915A JP2006251915A JP5076417B2 JP 5076417 B2 JP5076417 B2 JP 5076417B2 JP 2006251915 A JP2006251915 A JP 2006251915A JP 2006251915 A JP2006251915 A JP 2006251915A JP 5076417 B2 JP5076417 B2 JP 5076417B2
Authority
JP
Japan
Prior art keywords
word
search result
result sentence
search
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006251915A
Other languages
English (en)
Other versions
JP2008071320A (ja
Inventor
宏樹 吉村
基行 鷹合
博 増市
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2006251915A priority Critical patent/JP5076417B2/ja
Priority to US11/688,902 priority patent/US7698271B2/en
Publication of JP2008071320A publication Critical patent/JP2008071320A/ja
Application granted granted Critical
Publication of JP5076417B2 publication Critical patent/JP5076417B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、単語間の概念関係を表す概念ネットワークを生成する概念ネットワーク生成システム、概念ネットワーク生成方法及び概念ネットワーク生成プログラムに関する。
概念ネットワークは、単語を所定の定義に基づいて体系的に分類し、単語間の概念的なつながり(概念関係)を表すものである。概念関係の1つとして、上位・下位概念(Is-a関係)がある。例えば、「車」や「飛行機」は、「乗り物」という体系で分類した場合、上位概念は「乗り物」、下位概念は「車」及び「飛行機」となる。概念関係の記述方法は、ノードとリンクによって構成される有効グラフで作成されることが多く、例えば、上位概念「乗り物」と下位概念「車」との概念関係は、「乗り物 -> 車」といった表現がなされる。
概念ネットワークは、人間による手作業や、データ分析の一部をコンピュータによって自動で作成し、人間が確認するといった半自動生成によって生成される。しかし、これらの生成方法は、人手を要するため、半自動であっても多大な作成コストがかかる。また、特定の人間によって生成されるため、概念ネットワークが恣意的な解釈で生成される可能性が高い。
このため、概念ネットワークの自動生成を行うことが要求されている。例えば、特許文献1に記載された技術は、単語と単語の想起関係を有効グラフで表現した概念ネットワークを自動的に作成するものである。ここで、想起関係とは、複数のテキストを入力して、共起頻度や単語の出現頻度、テキスト数を統計し、ある単語からある単語への想起の強さを、情報量尺度を用いて算出したものである。また、特許文献2に記載された技術は、概念関係を二項関係により抽出するものである。ここで、二項関係は、基本的には動詞の表層を中心とする文のパターンを用いて抽出されるが、抽出することができない場合は、該当の単語を含むか否か頻度情報に応じた文書の重みベクトルを用いて二項関係の存在の予測を行い、その予測に基づいて抽出される。
特開2001−243223公報 特開2003−186894号公報
しかしながら、特許文献1に記載された技術では、ある単語からある単語への想起の強さに基づいて、概念ネットワークを生成するため、生成される概念関係には限りがある。また、特許文献2に記載された技術では、二項関係の抽出に文のパターンを用いると、重文や複文、多くの修飾語からなる文等の複雑な文構造を持つ文の場合、精度良く概念関係を抽出できない。この場合、文書の重みベクトルを二項関係の予測に利用しても、適切な概念関係は抽出されない。すなわち、従来の技術では、文書中に含まれる単語の頻度情報を用いるために、単語間の概念関係が適切に抽出されない。
本発明は、上述した課題に対してなされたものであり、適切な単語間の概念関係を得て概念ネットワークを生成することが可能な概念ネットワーク生成システム、概念ネットワーク生成方法及び概念ネットワーク生成プログラムを提供するものである。
本発明は、単語間の概念関係を表す概念ネットワークを生成する概念ネットワーク生成システムであって、概念関係にある第1及び第2の単語を検索クエリーとして、検索対象文が格納された知識源を検索し、前記第1及び第2の単語の双方を含む第1の検索結果文を取得する第1の検索手段と、前記取得された第1の検索結果文を解析し、該第1の検索結果文内の単語と該第1の検索結果文における構造とを表す第1の構造情報を生成する第1の生成手段と、前記生成された第1の構造情報を記憶部に保持させる保持手段と、前記第1の単語を検索クエリーとして、前記知識源を検索し、前記第1の単語を含む第2の検索結果文を取得する第2の検索手段と、前記取得された第2の検索結果文を解析し、該第2の検索結果文内の単語と該第2の検索結果文の構造とを表す第2の構造情報を生成する第2の生成手段と、前記生成された第2の構造情報と、前記保持された第1の構造情報との類似度を算出する算出手段と、前記生成された第1の構造情報と、該第1の構造情報との類似度が予め定められた第1の所定値以上である第2の構造情報とに基づいて、該第2の構造情報に対応する前記第2の検索結果文における、前記第1の検索結果文内の第2の単語に対応する単語と、前記第1の単語とを概念関係として設定した概念ネットワーク情報を生成する設定手段を有することを特徴とする。
この構成によれば、概念関係にある第1及び第2の単語の双方を含む第1の検索結果文を取得して、その構造を表す第1の構造情報を生成するとともに、概念関係にある第1及び第2の単語の一方である第1の単語を含む第2の検索結果文を取得して、その構造を表す第2の構造情報を生成し、第2の構造情報のうち、第1の構造情報に類似するものに対応する第2の検索結果文における、第1の検索結果文内の第2の単語に対応する単語と、第1の単語とを概念関係として取得する。これにより、概念関係にある第1及び第2の単語が得られれば、これら第1及び第2の単語の双方を含む第1の検索結果文の構造と、第1の単語のみを含む第2の検索結果文の構造とに基づいて、第1の単語と他の単語との概念関係を得ることができ、概念関係を自動的に増やして概念ネットワークを拡張していくことができる。また、人手に拠らないため、生成される概念ネットワークが恣意的になることを妨げることができる。ここで、概念関係とは、上位概念と下位概念との関係、語句とその語句の持つ特徴や性質を示すものとの関係、語句とその語句の持つ特徴や性質の値を示すものとの関係等、単語間の様々な概念的なつながりを表すものである。
また、本発明の概念ネットワーク生成システムは、前記保持手段が、同一の構造を表す第1の構造情報の数を所定の条件式に代入して算出される値が予め定められた第2の所定値以上である場合に、前記同一の構造を表す第1の構造情報を記憶部に保持させるようにしてもよい。
また、本発明の概念ネットワーク生成システムは、前記算出手段が、前記生成された第2の構造情報と前記保持された第1の構造情報とが同一の構造を表す場合に前記類似度を前記第1の所定値以上とするようにしてもよい。
この構成によれば、第1の構造情報と同一の構造を表す第2の構造情報、換言すれば、精度の高い概念ネットワークの生成のためにより適切な第2の構造情報を確実に抽出することができる。
また、本発明の概念ネットワーク生成システムは、前記算出手段が、前記生成された第2の構造情報と前記保持された第1の構造情報とが同一又は類似の単語を多く含むほど、前記類似度を大きくするようにしてもよい。
この構成によれば、第1の構造情報と同一又は類似の単語を多く含む第2の構造情報、換言すれば、精度の高い概念ネットワークの生成のためにより適切な第2の構造情報を抽出しやすくすることができる。
また、本発明の概念ネットワーク生成システムは、前記第1及び第2の単語と、前記検索対象文とが、分野を表す分野情報が付加されており、前記第1の検索手段が、前記第1及び第2の単語に付加された分野情報と同一の分野情報が付加された第1の検索結果文を取得し、前記第2の検索手段が、前記第1の単語に付加された分野情報と同一の分野情報が付加された第2の検索結果文を取得するようにしてもよい。
この構成によれば、分野を考慮した適切な検索が可能となり、精度の高い概念ネットワークの生成が可能となる。
また、本発明の概念ネットワーク生成システムは、前記第1の生成手段が、前記第1の検索結果文内の単語と前記第1の検索結果文の構造とを表す前記第1の構造情報に加え、前記第1の検索結果文内の定義及び説明の記述を表す第1の構造情報をさらに生成し、前記第2の生成手段が、前記第2の検索結果文内の単語と前記第2の検索結果文の構造とを表す前記第2の構造情報に加え、前記第2の検索結果文内の定義及び説明の記述を表す第2の構造情報をさらに生成し、前記設定手段は、前記定義及び説明の記述を含んだ概念ネットワーク情報を生成するようにしてもよい。
この構成によれば、定義及び説明の記述を含んだ概念ネットワーク情報が生成されることにより、定義及び説明の記述を更なる概念ネットワークの拡張に用いることが可能となる。
また、本発明の概念ネットワーク生成システムは、前記第1及び第2の単語と、前記検索対象文内の単語とが、単語の属性を表す属性情報が付加されており、前記第1の検索手段が、前記第1及び第2の単語に付加された属性情報と同一の属性情報が付加された単語を有する第1の検索結果文を取得し、前記第2の検索手段が、前記第1の単語に付加された属性情報と同一の属性情報が付加された単語を有する第2の検索結果文を取得するようにしてもよい。
この構成によれば、単語の属性を考慮した概念ネットワークの生成が可能となり、例えば、同音異義語が概念関係となった不適切な概念ネットワークが生成されることが防止される。
また、本発明の概念ネットワーク生成システムは、前記第1の生成手段が、前記第1の構造情報に含まれる単語を類似する単語に置き換えた新たな前記第1の構造情報を生成し、前記第2の生成手段が、前記第2の構造情報に含まれる単語を類似する単語に置き換えた新たな前記第2の構造情報を生成するようにしてもよい。
この構成によれば、構造情報の数を増やし、概念ネットワークの更なる拡張を図ることができる。
また、本発明の概念ネットワーク生成システムは、前記第1の生成手段が、前記取得された第1の検索結果文に対し、格解析又は係り受け解析を行い、前記第2の生成手段が、前記取得された第2の検索結果文に対し、格解析又は係り受け解析を行うようにしてもよい。
本発明は、単語間の概念関係を表す概念ネットワークをコンピュータにより生成する方法であって、概念関係にある第1及び第2の単語を検索クエリーとして、検索対象文が格納された知識源を検索し、前記第1及び第2の単語の双方を含む第1の検索結果文を取得する第1の検索ステップと、前記取得された第1の検索結果文を解析し、該第1の検索結果文内の単語と該第1の検索結果文における構造とを表す第1の構造情報を生成する第1の生成ステップと、前記生成された第1の構造情報を記憶部に保持させる保持ステップと、前記第1の単語を検索クエリーとして、前記知識源を検索し、前記第1の単語を含む第2の検索結果文を取得する第2の検索ステップと、前記取得された第2の検索結果文を解析し、該第2の検索結果文内の単語と該第2の検索結果文の構造とを表す第2の構造情報を生成する第2の生成ステップと、前記生成された第2の構造情報と、前記保持された第1の構造情報との類似度を算出する算出ステップと、前記生成された第1の構造情報と、該第1の構造情報との類似度が予め定められた第1の所定値以上である第2の構造情報とに基づいて、該第2の構造情報に対応する前記第2の検索結果文における、前記第1の検索結果文内の第2の単語に対応する単語と、前記第1の単語とを概念関係として設定した概念ネットワーク情報を生成する設定ステップとを有することを特徴とする。
本発明は、単語間の概念関係を表す概念ネットワークを生成するコンピュータによって実行されるプログラムであって、概念関係にある第1及び第2の単語を検索クエリーとして、検索対象文が格納された知識源を検索し、前記第1及び第2の単語の双方を含む第1の検索結果文を取得する第1の検索ステップと、前記取得された第1の検索結果文を解析し、該第1の検索結果文内の単語と該第1の検索結果文における構造とを表す第1の構造情報を生成する第1の生成ステップと、前記生成された第1の構造情報を記憶部に保持させる保持ステップと、前記第1の単語を検索クエリーとして、前記知識源を検索し、前記第1の単語を含む第2の検索結果文を取得する第2の検索ステップと、前記取得された第2の検索結果文を解析し、該第2の検索結果文内の単語と該第2の検索結果文の構造とを表す第2の構造情報を生成する第2の生成ステップと、前記生成された第2の構造情報と、前記保持された第1の構造情報との類似度を算出する算出ステップと、前記生成された第1の構造情報と、該第1の構造情報との類似度が予め定められた第1の所定値以上である第2の構造情報とに基づいて、該第2の構造情報に対応する前記第2の検索結果文における、前記第1の検索結果文内の第2の単語に対応する単語と、前記第1の単語とを概念関係として設定した概念ネットワーク情報を生成する設定ステップとを有することを特徴とする。
本発明によれば、第1及び第2の単語を含む検索結果文の構造に基づいて、第1の単語と他の単語との概念関係を得ることができ、人手を介することなく、概念関係を自動的に増やして概念ネットワークを拡張していくことができる。
本発明の実施の形態について、図面を参照して具体的に説明する。図1は、概念ネットワーク生成システムのハードウェア構成を示す図である。図1に示す概念ネットワーク生成システムは、パーソナルコンピュータ(PC)100であり、内部バス107に接続されたCPU101、メモリ102、ハードディスクドライブ(HDD)103、操作部105、モニタ106及び通信ユニット108によって構成される。
図2は、概念ネットワーク生成システムを構成するPC100の機能ブロック図である。図2に示す概念ネットワーク生成システムを構成するPC100は、第1の検索手段及び第2の検索手段に対応する検索部12と、第1の生成手段、第2の生成手段、保持手段及び算出手段に対応する解析・格構造生成部14と、格構造パターン辞書蓄積部16と、設定手段に対応するオントロジー生成部18と、オントロジー蓄積部20とにより構成される。これら各機能ブロックは、図1のハードウェア構成においては、CPU101が操作部105の操作に応じて、HDD103から読み出してメモリ102に記憶させた所定のプログラムを実行することによって実現される。
概念ネットワーク生成システムを構成するPC100は、格構造パターン情報の格構造パターン辞書への格納と、当該格構造パターン情報を用いた概念ネットワーク情報であるオントロジーの生成とを行う。
まず、格構造パターン情報の格構造パターン辞書への格納動作について説明する。図3は、PC100による格構造パターン情報の格構造パターン辞書への格納動作を示すフローチャートである。検索部12は、ユーザが操作部105(例えばキーボード)の操作によって、概念関係にある第1及び第2の単語(第1及び第2の概念関係単語)を入力すると、当該第1及び第2の概念関係単語を取得する(S102)。ユーザは、第1及び第2の概念関係単語を入力する際に、その概念関係が特定可能なようにこれら単語の記述を行う。例えば、上位概念の単語が「乗り物」、下位概念の単語が「車」である場合、上位概念の単語、下位概念の単語の順に記述されることが定められていれば、ユーザは「乗り物->車」と記述し、下位概念の単語、上位概念の単語の順に記述されることが定められていれば、ユーザは「車<-乗り物」と記述する。なお、ユーザは、「乗り物->車,車->セダン」というようにカンマで区切られた複数の概念関係を表す記述を行ってもよい。また「乗り物 車」というように単語間をスペースで区切ってもよい。この場合は、上位概念の単語、下位概念の単語の順に記述されることが定めていることを条件とする。
次に、検索部12は、これら第1及び第2の概念関係単語を検索クエリーとして、外部、例えば、インターネット上に存在する知識源200内の検索対象文を検索し、検索結果分を取得する(S102)。更に、検索部12は、その検索結果文のうち、第1及び第2の概念関係単語の双方を有する文(第1検索結果文)を取得する(S103)。
解析・格構造生成部14は、第1検索結果文に対して格解析を行う(S104)。更に、解析・格構造生成部14は、格解析の結果に基づいて、第1検索結果文内の単語と当該第1検索結果文における格構造とを表す第1格構造パターン情報を生成し、格構造パターン辞書蓄積部16内の格構造パターン辞書に格納する(S105)。これにより、第1格構造パターン情報が格構造パターン辞書の一部として保持される。
上述した格構造パターン情報の格納動作について、更に、その詳細を説明する。図4は、PC100による格構造パターン情報の格構造パターン辞書への格納動作の詳細を示すフローチャートである。検索部12は、ユーザが操作部105(例えばキーボード)の操作によって、概念関係にある2つの単語(概念関係単語Wna及び概念関係単語Wnb)の組み合わせWn(Wna,Wnb)(ここでn>=1)を入力すると、この概念関係単語の組み合わせWn(Wna、Wnb)を取得し(S201)、概念関係単語Wna及びWnbの概念関係を把握する(S202)。
次に、検索部12は、取得した概念関係単語の組み合わせWn(Wna、Wnb)に、未処理ものが存在するか否か、具体的には、後述するS204以降の処理の対象となっていないものが存在するか否かを判定する(S203)。未処理の概念関係単語の組み合わせWn(Wna、Wnb)が存在しない場合には、一連の動作を終了する。一方、未処理の概念関係単語の組み合わせWn(Wna、Wnb)が存在する場合、検索部12は、そのいずれかを選択し、選択した概念関係単語の組み合わせWn(Wna、Wnb)に含まれる概念関係単語Wna及びWnbを取り出す(S204)。
次に、検索部12は、取り出した概念関係単語Wna及びWnbを検索クエリーとして知識源200を検索し、これら概念関係単語Wna及びWnbの少なくとも一方を含む検索結果文を取得する(S205)。更に、検索部12は、検索によって取得した検索結果文の数Lが0であるか否かを判定する(S206)。検索結果文の数Lが0である場合、換言すれば、概念関係単語Wna及びWnbの少なくとも一方を含む文が知識源200内に存在しなかった場合には、未処理の概念関係単語の組み合わせWn(Wna、Wnb)が存在するか否かの判定(S203)以降の処理が繰り返される。
一方、検索結果文の数Lが0でない場合、次に、検索部12は、検索結果文から概念関係単語Wna及びWnbの双方を含むもの(第1検索結果文)を抽出する(S207)。更に、検索部12は、未処理の第1検索結果文の数Mが0であるか否か、具体的には、後述するS209以降の処理の対象となっていない第1検索結果文が存在するか否かを判定する(S208)。概念関係単語Wna及びWnbの双方を含む文が知識源200内に存在しなかった場合や、全ての第1検索結果文が処理済である場合には、未処理の概念関係単語の組み合わせWn(Wna、Wnb)が存在するか否かの判定(S203)以降の処理が繰り返される。
一方、第1検索結果文の数Mが0でない場合、検索部12は、この第1検索結果文を解析・格構造生成部14へ出力する。解析・格構造生成部14は、入力した第1検索結果文から1つを選択し、その選択した第1検索結果文に対して、格解析を行う(S209)。格解析には、文の構造を出力する、Lexical Functional Grammar(LFG)に基づく格解析システムが用いられる。LFGは、解析結果としてf-structure(f-str)と称される格構造を出力するものであり、非特許文献(増市、大熊著、「Lexical Functional Grammarに基づく実用的な日本語解析システムの構築」、自然言語処理、Vol.10、No.2、p.79-109、言語処理学会、2003年)及び当該非特許文献中の引用文献に詳細が記述されている。例えば、上位概念の概念関係単語Wnaが「シェークスピア」、下位概念の概念関係単語Wnbが「ハムレット」であり、第1検索結果文が「シェークスピアは名作ハムレットを書いた。」である場合、f-structureは図5に示すものとなる。
次に、解析・格解析生成部14は、解析結果の数Nが0であるか否かを判定する(S210)。解析結果の数Nが0である場合、換言すれば、f-structureを得ることができなかった場合には、未処理の第1検索結果文の数Mが0であるか否かの判定(S208)以降の動作を繰り返す。
一方、解析結果の数Nが0でない場合、解析・格解析生成部14は、f-structureを、格構造を階層構造で表す木構造に変換する。木構造は、ノードに述語(PRED)の表層文字列、リンクラベルに文法機能を付与したものである。図6は、上位概念の概念関係単語Wnaが「シェークスピア」、下位概念の概念関係単語Wnbが「ハムレット」であり、第1検索結果文が「シェークスピアは名作ハムレットを書いた。」である場合のf-structureと木構造との対応関係を示す図である。
更に、解析・格構造生成部14は、取得した木構造に基づいて、第1検索結果文内の単語と当該第1検索結果文における格構造とを表す第1格構造パターン情報を生成する(S211)。具体的には、解析・格構造生成部14は、木構造の各階層毎、且つ、文法機能毎に概念関係単語が出現した情報を第1格構造パターン情報のデータ構造に追加していく。
第1格構造パターン情報は、第1のデータ構造及び第2のデータ構造からなる。図7は、図6に示す木構造に対応する第1格構造パターン情報の一例を示す図である。第1のデータ構造は、木構造で表される単語のそれぞれについて、1行目にその単語の階層と文法機能を含み、2行目にその単語が概念関係単語であれば、当該概念関係単語の識別子、概念関係単語以外の単語であれば、当該単語を表す「null」と、当該単語に対応する述語の表層文字列(動詞だけでなく概念関係単語が述語となる場合もある)とを含む。図6の木構造では、第1階層に、文法機能が主語(SUBJ)である概念関係単語Wna「シェークスピア」と、文法機能が目的語(OBJ)である概念関係単語Wnb「ハムレット」が存在し、これら概念関係単語Wna「シェークスピア」、概念関係単語Wnb「ハムレット」に対応する述語が「書く」である。従って、図7(a)に示す第1のデータ構造では、概念関係単語Wna「シェークスピア」について、1行目に階層数の「1」、文法機能の主語「SUBJ」を含み、2行目に述語の表層文字列「書く」と概念関係単語の識別子「Wna」を含んだデータと、概念関係単語Wnb「ハムレット」について、1行目に階層数の「1」、文法機能の目的語「OBJ」を含み、2行目に述語「書く」と概念関係単語の識別子「Wnb」を含んだデータとが含まれる。また、図6の木構造では、第2階層に、文法機能がMODである概念関係単語以外の単語「名作」が存在し、この概念関係以外の単語「名作」に対応する述語が概念関係単語Wnb「ハムレット」である。従って、図7(a)に示す第1のデータ構造では、概念関係単語以外の単語「名作」について、1行目に階層数の「2」、文法機能の「MOD」を含み、2行目に述語である概念関係単語の識別子「Wnb」と概念関係単語以外の単語「名作」を表す「null」を含んだデータが含まれる。
一方、第2のデータ構造は、木構造で表される単語のそれぞれについて、1行目にその単語が概念関係単語であれば、当該概念関係単語の識別子、概念関係単語以外の単語であれば、当該単語の識別子「new」を含み、2行目にその単語の階層と文法機能を含み、3行目にその単語が概念関係単語であれば、当該概念関係単語の表層文字列を含む。図6の木構造では、第1階層に、文法機能が主語(SUBJ)である概念関係単語Wna「シェークスピア」と、文法機能が目的語(OBJ)である概念関係単語Wnb「ハムレット」が存在する。従って、図7(b)に示す第2のデータ構造では、概念関係単語Wna「シェークスピア」について、1行目に概念関係単語の識別子「Wna」、2行目に階層数の「1」、文法機能の主語「SUBJ」を含み、3行目に表層文字列「シェークスピア」を含んだデータと、概念関係単語Wnb「ハムレット」について、1行目に概念関係単語の識別子「Wnb」、2行目に階層数の「1」、文法機能の目的語「OBJ」を含み、3行目に表層文字列「ハムレット」を含んだデータが含まれる。更に、図7(b)に示す第2のデータ構造では、概念関係単語以外の単語「名作」について、1行目に概念関係以外の単語の識別子「new」を含み、2行目及び3行目が空欄となったデータが含まれる。
次に、解析・格構造生成部14は、上述した手順によって生成した第1格構造パターン情報を生成し、格構造パターン辞書蓄積部16の格構造パターン辞書に格納して、保持させる(S212)。その後は、未処理の第1検索結果文の数Mが0であるか否かの判定(S208)以降の動作が繰り返される。そして、未処理の第1検索結果文の数Mが0である場合には、更に、未処理の概念関係単語の組み合わせWn(Wna、Wnb)が存在するか否かの判定(S203)が行われ、全ての概念関係単語の組み合わせWn(Wna、Wnb)が処理済になると一連の動作が終了する。
なお、解析・格構造生成部14は、同一の格構造を有する第1格構造パターン情報について、所定の条件式によって算出される値(格納判定値)が予め定められた所定値以上である場合にのみ、その同一の格構造を有する第1格構造パターン情報を格構造パターン辞書蓄積部16の格構造パターン辞書に格納するようにしてもよい。具体的には、解析・格構造生成部14は、以下の数1に基づいて格納判定値を算出する。なお、数1において、sametreenumは同一の格構造を有する第1格構造パターン情報の数、alltreenumは全ての第1格構造パターン情報の数を示す。
Figure 0005076417
次に、オントロジーの生成動作について説明する。図8は、PC100によるオントロジーの生成動作を示すフローチャートである。S301及びS302の動作は、上述した図3のS101及びS102の動作と同様である。従って、S301及びS302の動作は、オントロジーの生成動作において必ずしも改めて行われる必要はない。
S302の検索によって検索結果文を取得すると、検索部12は、その検索結果文のうち、第1及び第2の概念関係単語のいずれか一方有する文(第2検索結果文)を取得する(S303)。
解析・格構造生成部14は、第2検索結果文に対して格解析を行い(S304)、その格解析の結果に基づいて、第2検索結果文内の単語と当該第2検索結果文における格構造とを表す第2格構造パターン情報を生成する(S305)。更に、解析・格構造生成部14は、生成した第2格構造パターン情報と、格構造パターン辞書蓄積部16の格構造パターン辞書に格納されている第1格構造パターン情報との類似度を算出する(S306)。そして、類似度が予め定められた所定値以上である場合、オントロジー生成部18は、第1及び第2の概念関係単語と、第2格構造パターン情報内の所定単語とを概念関係としたオントロジーを生成し、オントロジー蓄積部20に格納する(S307)。
上述したオントロジーの生成動作について、更に、その詳細を説明する。図9は、PC100によるオントロジーの生成動作の詳細を示すフローチャートである。S401乃至S406の動作は、上述した図4のS201及びS206の動作と同様であるので、その説明は省略する。
S406により検索結果文の数Lが0でないと判定した場合、次に、検索部12は、検索結果文から概念関係単語Wna及びWnbのいずれか一方を含むもの(第2検索結果文)を抽出する(S407)。更に、検索部12は、未処理の第2検索結果文の数Mが0であるか否か、具体的には、後述するS408以降の処理の対象となっていない第2検索結果文が存在するか否かを判定する(S408)。概念関係単語Wna及びWnbのいずれか一方を含む文が知識源200内に存在しなかった場合や、全ての第2検索結果文が処理済である場合には、未処理の概念関係単語の組み合わせWn(Wna、Wnb)が存在するか否かの判定(S403)以降の処理が繰り返される。
一方、第2検索結果文の数Mが0でない場合、検索部12は、この第2検索結果文を解析・格構造生成部14へ出力する。解析・格構造生成部14は、入力した第2検索結果文から1つを選択し、その選択した第2検索結果文に対して、格解析を行う(S409)。
次に、解析・格解析生成部14は、解析結果の数Nが0であるか否かを判定する(S410)。解析結果の数Nが0である場合、換言すれば、f-structureを得ることができなかった場合には、未処理の第2検索結果文の数Mが0であるか否かの判定(S408)以降の動作を繰り返す。
一方、解析結果の数Nが0でない場合、解析・格解析生成部14は、f-structureを、格構造を階層構造で表す木構造に変換する。図10は、上位概念の概念関係単語Wnaが「シェークスピア」、下位概念の概念関係単語Wnbが「ハムレット」であり、第2検索結果文がこれらのうち「シェークスピア」のみを含む「シェークスピアは悲劇マクベスを書く。」である場合の木構造を示す図である。
更に、解析・格構造生成部14は、取得した木構造に基づいて、第2検索結果文内の単語と当該第2検索結果文における格構造とを表す第2格構造パターン情報を生成する(S411)。具体的には、上述した第1構造パターン情報の生成と同様、解析・格構造生成部14は、木構造の各階層毎、且つ、文法機能毎に概念関係単語が出現した情報を第2格構造パターン情報のデータ構造に追加していく。
第2格構造パターン情報は、第1格構造パターン情報と同様、第1のデータ構造及び第2のデータ構造からなる。図11は、図10に示す木構造に対応する第2格構造パターン情報の一例を示す図である。第1のデータ構造は、木構造で表される単語のそれぞれについて、1行目にその単語の階層と文法機能を含み、2行目にその単語が概念関係単語であれば、当該概念関係単語の識別子、概念関係単語以外の単語であれば、当該単語の識別子「new」と、当該単語に対応する述語とを含む。図10の木構造では、第1階層に、文法機能が主語(SUBJ)である概念関係単語Wna「シェークスピア」と、文法機能が目的語(OBJ)である概念関係単語以外の単語「マクベス」が存在し、これら概念関係単語Wna「シェークスピア」、概念関係単語以外の単語「マクベス」に対応する述語が「書く」である。従って、図11(a)に示す第1のデータ構造では、概念関係単語Wna「シェークスピア」について、1行目に階層数の「1」、文法機能の主語「SUBJ」を含み、2行目に述語「書く」と概念関係単語の識別子「Wna」を含んだデータと、概念関係単語以外の単語「マクベス」について、1行目に階層数の「1」、文法機能の目的語「OBJ」を含み、2行目に述語「書く」と概念関係単語以外の単語「マクベス」の識別子「new1」を含んだデータとが含まれる。また、図10の木構造では、第2階層に、文法機能がMODである概念関係単語以外の単語「悲劇」が存在し、この概念関係単語以外の単語「悲劇」に対応する述語が概念関係単語以外の単語「マクベス」である。従って、図11(a)に示す第1のデータ構造では、概念関係単語以外の単語「悲劇」について、1行目に階層数の「2」、文法機能の「MOD」を含み、2行目に述語である概念関係単語以外の単語[マクベス]の識別子「new1」と概念関係単語以外の単語「悲劇」の識別子「new2」を含んだデータが含まれる。
一方、第2のデータ構造は、木構造で表される単語のそれぞれについて、1行目にその単語が概念関係単語であれば、当該概念関係単語の識別子、概念関係単語以外の単語であれば、当該単語の識別子「new」を含み、2行目にその単語の階層と文法機能を含み、3行目にその単語の表層文字列を含む。図10の木構造では、第1階層に、文法機能が主語SUBJである概念関係単語Wna「シェークスピア」と、文法機能が目的語OBJである概念関係単語以外の単語「マクベス」が存在する。従って、図11(b)に示す第2のデータ構造では、概念関係単語Wna「シェークスピア」について、1行目に概念関係単語の識別子「Wna」、2行目に階層数の「1」、文法機能の主語「SUBJ」を含み、3行目に表層文字列「シェークスピア」を含んだデータと、概念関係単語以外の単語「マクベス」について、1行目に概念関係単語以外の単語「マクベス」の識別子「new1」、2行目に階層数の「1」、文法機能の目的語「OBJ」を含み、3行目に表層文字列「マクベス」を含んだデータが含まれる。また、図10の木構造では、第2階層に、文法機能がMODである概念関係単語以外の単語「悲劇」が存在する。したがって、図11(b)に示す第2のデータ構造では、概念関係単語以外の単語「悲劇」について、1行目に概念関係単語以外の単語「悲劇」の識別子「new2」、2行目に階層数の「2」、文法機能の主語「MOD」を含み、3行目に表層文字列「悲劇」を含んだデータが含まれる。更には、図10の木構造に含まれない概念関係単語Wnb「ハムレット」について、1行目に概念関係単語の識別子「Wnb」を含み、2行目及び3行目が空欄となったデータが含まれる。
次に、解析・格構造生成部14は、上述した手順によって生成した第2格構造パターン情報と、格構造パターン辞書蓄積部16の格構造パターン辞書に格納されている第1格構造パターン情報との類似度Sを算出する(S412)。
具体的には、解析・格構造生成部14は、生成した第2格構造パターン情報と、格構造パターン辞書蓄積部16の格構造パターン辞書に格納されている第1格構造パターン情報のそれぞれについて、第1のデータ構造の1行目を比較する。そして、第1のデータ構造の1行目が一致する場合、換言すれば、第2格構造パターン情報に対応する第2検索結果文の格構造と、第1格構造パターン情報に対応する第1検索結果文との格構造が一致する場合、解析・格構造生成部14は、これら第2格構造パターン情報と、第1格構造パターン情報とのそれぞれについて、第1のデータ構造の2行目を比較する。そして、解析・格構造生成部14は、第2格構造パターン情報の第1のデータ構造の2行目に含まれる概念関係単語以外の単語の識別子において、第1格構造パターン情報の第1のデータ構造の2行目に含まれる概念関係単語Wna及びWnbのうち、第2格構造パターン情報に含まれないいずれかと対応するものを特定する。そして、解析・格構造生成部14は、特定することができた場合には、類似度Sを後述のS413において肯定判断される値(例えば1)とする。一方、解析・格構造生成部14は、特定することができなかった場合には、類似度Sを後述のS413において否定判断される値(例えば0)とする。
例えば、図11に示す第2格構造パターン情報と、図7に示す第1格構造パターン情報とを比較すると、第1のデータ構造の1行目が一致する。また、第1格構造パターン情報の第1のデータ構造の2行目に含まれる概念関係単語の識別子「Wna」及び「Wnb」のうち、第2格構造パターン情報に含まれない概念関係単語の識別子は「Wnb」であり、第2格構造パターン情報の第1のデータ構造の2行目に含まれる概念関係単語以外の単語の識別子「new1」及び「new2」において、第2格構造パターン情報に含まれない概念関係単語の識別子「Wnb」に対応するものは「new1」であると特定される。従って、この場合、解析・格構造生成部14は、図11に示す第2格構造パターン情報と、図7に示す第1格構造パターン情報との類似度Sを、後述のS413において肯定判断される値(例えば1)とする。
なお、解析・格構造生成部14は、第2格構造パターン情報と、第1格構造パターン情報とが同一又は類似の単語を多く含むほど、類似度Sを大きくするようにしてもよい。この場合、解析・格構造生成部14は、第2格構造パターン情報と、第1格構造パターン情報とのそれぞれについて含まれる単語の数を特定するとともに、同一あるいは意味が類似する単語の数を特定する。意味が類似する単語は、例えば、解析・格構造生成部14にシソーラス辞書を内蔵させ、当該シソーラス辞書を用いることにより特定可能である。そして、解析・格構造生成部14は、同一あるいは意味が類似する単語の数を、第2格構造パターン情報と第1格構造パターン情報とのそれぞれについて含まれる全ての単語の数で除して、その値が大きいほど、類似度Sを大きくする。
また、類似度Sは、以下の数2に基づいて算出してもよい。数2において、ExtStrは第2格構造パターン情報、Patternは第1格構造パターン情報、AllPatternNumは全ての第1格構造パターン情報の数を示す。
Figure 0005076417
次に、オントロジー生成部18は、上述した手順によって算出した類似度Sが予め定められた所定値(例えば0.5)以上であるか否かを判定する(S413)。類似度Sが所定値未満である場合には、未処理の第1検索結果文の数Mが0であるか否かの判定(S208)以降の動作を繰り返す。
一方、類似度Sが所定値以上である場合には、オントロジー生成部18は、概念関係単語Wna、Wnb、及び、S412において特定した識別子で表される第2格構造パターン情報内の単語(特定単語)をノードとし、第1格構造パターン情報に含まれる概念関係単語Wnaと特定単語との間に、概念関係単語Wnaと第2格構造パターン情報に含まれない概念関係単語Wnbとの間の概念関係を表すリンクと同等のリンクを設定したオントロジーを生成し、オントロジー蓄積部20へ格納する(S414)。
例えば、図11に示す第2格構造パターン情報と、図7に示す第1格構造パターン情報とを比較すると、上述のように、第2格構造パターン情報内の概念関係単語以外の単語の識別子「new1」が特定され、図11に示す第2格構造パターン情報と、図7に示す第1格構造パターン情報との類似度Sが所定値以上となって、S413にて肯定判断される。この場合、オントロジー生成部18は、第2格構造パターン情報の第2のデータ構造を参照し、特定された識別子「new1」に対応する単語「マクベス」を取得する。そして、オントロジー生成部18は、第1格構造パターン情報内の概念関係単語Wna「シェークスピア」と単語「マクベス」との間に、概念関係単語Wna「シェークスピア」と概念関係単語Wnb「ハムレット」との概念関係を表すリンクと同等の概念関係を表すリンクを設定し、新たな概念関係を表すオントロジーを生成する。これにより、当初は、図12(a)に示すように、概念関係単語Wna「シェークスピア」と概念関係単語Wnb「ハムレット」との間にのみ、概念関係を表すリンクが設定されていたものが、図12(b)に示すように、新たに概念関係単語Wna「シェークスピア」と単語「マクベス」との間にも概念関係を表すリンクが設定される。
その後は、未処理の第2検索結果文の数Mが0であるか否かの判定(S408)以降の動作が繰り返される。そして、未処理の第2検索結果文の数Mが0である場合には、更に、未処理の概念関係単語の組み合わせWn(Wna、Wnb)が存在するか否かの判定(S403)が行われ、全ての概念関係単語の組み合わせWn(Wna、Wnb)が処理済になると一連の動作が終了する。
このように、本実施形態の概念ネットワーク生成システムを構成するPC100は、概念関係にある第1及び第2の概念関係単語を得ることによって、これら第1及び第2の概念関係単語の双方を含む第1検索対象文の格構造と、いずれか一方を含む第2検索結果文の格構造とに基づいて、第1及び第2の概念関係単語のいずれかと他の単語との概念関係を得ることができ、概念関係を自動的に増やして概念ネットワークを拡張していくことができる。また、人手に拠らないため、生成される概念ネットワークが恣意的になることを妨げることができる。
なお、第1及び第2の概念関係単語と、知識源200内の検索対象文とに、分野(例えば医療分野等)を表す分野情報を付加し、検索部12が、知識源200の検索により、第1及び第2の概念関係単語に付加された分野情報と同一の分野情報が付加された第1の検索結果文を取得したり、第1及び第2の概念関係単語のいずれかに付加された分野情報と同一の分野情報が付加された第2の検索結果文を取得するようにしてもよい。これにより、分野を考慮した適切な検索、例えば、ユーザが概念関係単語とともに入力した分野に属する検索対象文のみを取得することが可能となり、精度の高い概念ネットワークの生成が可能となる。
また、解析・格構造生成部14は、予め定義及び説明の記述に関するルールを定めておき、第1及び第2の検索結果文の格解析において、ルールに適合する定義及び説明の記述を特定するようにしてもよい。図13は、検索結果文「早期胃ガンは、がんの外方向への進展が粘膜下層までにとどまっている状態の胃ガンです。」に対応するf-structure及び木構造を示す図である。解析・格構造生成部14は、ルールに応じて、下位概念を述語PREDとする格構造に文法機能がADJUNCTで表層文字列が「状態」である場合、図13に示すように、そのADJUNCT「状態」の格構造が定義及び説明に関する記述であると特定する。これにより、図14に示すように、定義及び説明の記述を含んだオントロジーを得ることが可能となり、定義及び説明の記述を更なる概念ネットワークの拡張に用いることが可能となる。
また、第1及び第2の概念関係単語と、知識源200内の検索対象文内の単語とに、単語の属性を表す属性情報を付加し、検索部12が、知識源200の検索により、第1及び第2の概念関係単語に付加された属性情報と同一の属性情報が付加された単語を含む第1の検索結果文を取得したり、第1及び第2の概念関係単語のいずれかに付加された属性情報と同一の属性情報が付加された単語を含む第2の検索結果文を取得するようにしてもよい。この場合、解析・格構造生成部14は、その属性情報を含んだf-structureや木構造を得る。例えば、図15に示すf-structure及び木構造では、単語「ガン」が病名であることを示す属性情報feature(ftr.)が含まれている。これにより、単語の属性を考慮した概念ネットワークの生成が可能となり、例えば、鳥の一種である同音異義語「ガン」が含まれる格構造パターン情報が存在しても、属性情報によって区別されるため、図16に示すような誤った概念関係を表すオントロジーが生成されることが防止される。
また、解析・格構造生成部14は、シソーラス辞書を内蔵し、当該シソーラス辞書を用いて、第1格構造パターン情報に含まれる単語を類似する単語に置き換えた新たな第1格構造パターン情報を生成したり、第2格構造パターン情報に含まれる単語を類似する単語に置き換えた新たな第2格構造パターン情報を生成してもよい。
例えば、解析・格構造生成部14は、図17(a)に示す文「シェークスピアは悲劇マクベスを執筆した。」に対応する木構造が得られた場合、シソーラス辞書を用いて、述語の「執筆する」を「書く」に置き換え、図17(b)に示す文「シェークスピアは悲劇マクベスを書いた。」に対応する木構造を得ることができる。あるいは、解析・格構造生成部14は、図18(a)に示す文「シェークスピアは名作ハムレットを書く。」に対応する木構造が得られた場合、「シェークスピア」と概念関係にある単語「ハムレット」を「シェークスピア」と概念関係にある他の単語「マクベス」に置き換え、更に、「名作」を「悲劇」に置き換えることで、図17(b)に示す文「シェークスピアは悲劇マクベスを書く。」に対応する木構造を得ることができる。これにより、同一の格構造に対応する格構造パターン情報の数を増やし、概念ネットワークの更なる拡張を図ることができる。
また、解析・格構造生成部14は、第1及び第2の検索結果文に対して、格解析に代えて、係り受け解析を行うようにしてもよい。図19は、文「早期胃ガンは、がんの外方向への進展が粘膜下層までにとどまっている状態の胃ガンです。」に対応するか借り受け解析の結果を示す図である。係り受け解析は、文中の単語の修飾関係を表す解析方法である。この係り受け解析は、単語の修飾関係のみを表すものであるため、格解析ほど精緻な解析ではないが、文の構造を迅速に抽出することができる。
以上、説明したように、本発明に係る概念ネットワーク生成システム、概念ネットワーク生成方法及び概念ネットワーク生成プログラムは、適切な単語間の概念関係を得て概念ネットワークを生成することが可能であり、概念ネットワーク生成システム等として有用である。
概念ネットワーク生成システムを構成するPCのハードウェア構成を示す図である。 概念ネットワーク生成システムを構成するPCの機能ブロック図を示す図である。 格構造パターン情報の格構造パターン辞書への格納動作を示すフローチャートである。 格構造パターン情報の格構造パターン辞書への格納動作の詳細を示すフローチャートである。 第1検索結果文に対応するf-structureの一例を示す図である。 第1検索結果文に対応するf-structureと木構造との対応関係の一例を示す図である。 第1検索結果文に対応する第1格構造パターン情報の一例を示す図である。 オントロジーの生成動作を示すフローチャートである。 オントロジーの生成動作の詳細を示すフローチャートである。 第2検索結果文に対応する木構造の一例を示す図である。 第2検索結果文に対応する第2格構造パターン情報の一例を示す図である。 初期のオントロジーと新たなオントロジーとを示す図である。 定義及び説明の記述を含んだf-structure及び木構造の一例を示す図である。 定義及び説明の記述を含んだオントロジーの一例を示す図である。 単語の属性情報を含んだf-structure及び木構造の一例を示す図である。 誤った概念関係を表すオントロジーの一例を示す図である。 互いに類似する単語を含む木構造の第1の例を示す図である。 互いに類似する単語を含む木構造の第2の例を示す図である。 係り受け解析の結果の一例を示す図である。
符号の説明
12 検索部
14 解析・格構造生成部
16 格構造パターン辞書蓄積部
18 オントロジー生成部
20 オントロジー蓄積部
100 PC
102 メモリ
103 HDD
105 操作部
106 モニタ
107 内部バス
108 通信ユニット

Claims (11)

  1. 単語間の概念関係を表す概念ネットワークを生成する概念ネットワーク生成システムであって、
    概念関係にある第1及び第2の単語を検索クエリーとして、検索対象文が格納された知識源を検索し、前記第1及び第2の単語の双方を含む第1の検索結果文を取得する第1の検索手段と、
    前記取得された第1の検索結果文を解析し、該第1の検索結果文内の単語と該第1の検索結果文における構造とを表す第1の構造情報を生成する第1の生成手段と、
    前記生成された第1の構造情報を記憶部に保持させる保持手段と、
    前記第1の単語を検索クエリーとして、前記知識源を検索し、前記第1の単語を含む第2の検索結果文を取得する第2の検索手段と、
    前記取得された第2の検索結果文を解析し、該第2の検索結果文内の単語と該第2の検索結果文の構造とを表す第2の構造情報を生成する第2の生成手段と、
    前記生成された第2の構造情報と、前記保持された第1の構造情報との類似度を算出する算出手段と、
    前記生成された第1の構造情報と、該第1の構造情報との類似度が予め定められた第1の所定値以上である第2の構造情報とに基づいて、該第2の構造情報に対応する前記第2の検索結果文における、前記第1の検索結果文内の第2の単語に対応する単語と、前記第1の単語とを概念関係として設定した概念ネットワーク情報を生成する設定手段を有することを特徴とする概念ネットワーク生成システム。
  2. 前記保持手段は、同一の構造を表す第1の構造情報の数を所定の条件式に代入して算出される値が予め定められた第2の所定値以上である場合に、前記同一の構造を表す第1の構造情報を記憶部に保持させることを特徴とする請求項1に記載の概念ネットワーク生成システム。
  3. 前記算出手段は、前記生成された第2の構造情報と、前記保持された第1の構造情報とが同一の構造を表す場合に、前記類似度を前記第1の所定値以上とすることを特徴とする請求項1又は2に記載の概念ネットワーク生成システム。
  4. 前記算出手段は、前記生成された第2の構造情報と、前記保持された第1の構造情報とが同一又は類似の単語を多く含むほど、前記類似度を大きくすることを特徴とする請求項1又は2に記載の概念ネットワーク生成システム。
  5. 前記第1及び第2の単語と、前記検索対象文とは、分野を表す分野情報が付加されており、
    前記第1の検索手段は、前記第1及び第2の単語に付加された分野情報と同一の分野情報が付加された第1の検索結果文を取得し、
    前記第2の検索手段は、前記第1の単語に付加された分野情報と同一の分野情報が付加された第2の検索結果文を取得することを特徴とする請求項1乃至4のいずれかに記載の概念ネットワーク生成システム。
  6. 前記第1の生成手段は、前記第1の検索結果文内の単語と前記第1の検索結果文の構造とを表す前記第1の構造情報に加え、前記第1の検索結果文内の定義及び説明の記述を表す第1の構造情報をさらに生成し、
    前記第2の生成手段は、前記第2の検索結果文内の単語と前記第2の検索結果文の構造とを表す前記第2の構造情報に加え、前記第2の検索結果文内の定義及び説明の記述を表す第2の構造情報をさらに生成し、
    前記設定手段は、前記定義及び説明の記述を含んだ概念ネットワーク情報を生成することを特徴とする請求項1乃至5のいずれかに記載の概念ネットワーク生成システム。
  7. 前記第1及び第2の単語と、前記検索対象文内の単語とは、単語の属性を表す属性情報が付加されており、
    前記第1の検索手段は、前記第1及び第2の単語に付加された属性情報と同一の属性情報が付加された単語を有する第1の検索結果文を取得し、
    前記第2の検索手段は、前記第1の単語に付加された属性情報と同一の属性情報が付加された単語を有する第2の検索結果文を取得することを特徴とする請求項1乃至6のいずれかに記載の概念ネットワーク生成システム。
  8. 前記第1の生成手段は、前記第1の構造情報に含まれる単語を類似する単語に置き換えた新たな前記第1の構造情報を生成し、
    前記第2の生成手段は、前記第2の構造情報に含まれる単語を類似する単語に置き換えた新たな前記第2の構造情報を生成することを特徴とする請求項1乃至7のいずれかに記載の概念ネットワーク生成システム。
  9. 前記第1の生成手段は、前記取得された第1の検索結果文に対し、格解析又は係り受け解析を行い、
    前記第2の生成手段は、前記取得された第2の検索結果文に対し、格解析又は係り受け解析を行うことを特徴とする請求項1乃至8のいずれかに記載の概念ネットワーク生成システム。
  10. 単語間の概念関係を表す概念ネットワークをコンピュータにより生成する方法であって、
    概念関係にある第1及び第2の単語を検索クエリーとして、検索対象文が格納された知識源を検索し、前記第1及び第2の単語の双方を含む第1の検索結果文を取得する第1の検索ステップと、
    前記取得された第1の検索結果文を解析し、該第1の検索結果文内の単語と該第1の検索結果文における構造とを表す第1の構造情報を生成する第1の生成ステップと、
    前記生成された第1の構造情報を記憶部に保持させる保持ステップと、
    前記第1の単語を検索クエリーとして、前記知識源を検索し、前記第1の単語を含む第2の検索結果文を取得する第2の検索ステップと、
    前記取得された第2の検索結果文を解析し、該第2の検索結果文内の単語と該第2の検索結果文の構造とを表す第2の構造情報を生成する第2の生成ステップと、
    前記生成された第2の構造情報と、前記保持された第1の構造情報との類似度を算出する算出ステップと、
    前記生成された第1の構造情報と、該第1の構造情報との類似度が予め定められた第1の所定値以上である第2の構造情報とに基づいて、該第2の構造情報に対応する前記第2の検索結果文における、前記第1の検索結果文内の第2の単語に対応する単語と、前記第1の単語とを概念関係として設定した概念ネットワーク情報を生成する設定ステップとを有することを特徴とする方法。
  11. 単語間の概念関係を表す概念ネットワークを生成するコンピュータによって実行されるプログラムであって、
    概念関係にある第1及び第2の単語を検索クエリーとして、検索対象文が格納された知識源を検索し、前記第1及び第2の単語の双方を含む第1の検索結果文を取得する第1の検索ステップと、
    前記取得された第1の検索結果文を解析し、該第1の検索結果文内の単語と該第1の検索結果文における構造とを表す第1の構造情報を生成する第1の生成ステップと、
    前記生成された第1の構造情報を記憶部に保持させる保持ステップと、
    前記第1の単語を検索クエリーとして、前記知識源を検索し、前記第1の単語を含む第2の検索結果文を取得する第2の検索ステップと、
    前記取得された第2の検索結果文を解析し、該第2の検索結果文内の単語と該第2の検索結果文の構造とを表す第2の構造情報を生成する第2の生成ステップと、
    前記生成された第2の構造情報と、前記保持された第1の構造情報との類似度を算出する算出ステップと、
    前記生成された第1の構造情報と、該第1の構造情報との類似度が予め定められた第1の所定値以上である第2の構造情報とに基づいて、該第2の構造情報に対応する前記第2の検索結果文における、前記第1の検索結果文内の第2の単語に対応する単語と、前記第1の単語とを概念関係として設定した概念ネットワーク情報を生成する設定ステップとを有することを特徴とするプログラム。
JP2006251915A 2006-09-15 2006-09-15 概念ネットワーク生成システム、概念ネットワーク生成方法及び概念ネットワーク生成プログラム Expired - Fee Related JP5076417B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006251915A JP5076417B2 (ja) 2006-09-15 2006-09-15 概念ネットワーク生成システム、概念ネットワーク生成方法及び概念ネットワーク生成プログラム
US11/688,902 US7698271B2 (en) 2006-09-15 2007-03-21 Conceptual network generating system, conceptual network generating method, and program product therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006251915A JP5076417B2 (ja) 2006-09-15 2006-09-15 概念ネットワーク生成システム、概念ネットワーク生成方法及び概念ネットワーク生成プログラム

Publications (2)

Publication Number Publication Date
JP2008071320A JP2008071320A (ja) 2008-03-27
JP5076417B2 true JP5076417B2 (ja) 2012-11-21

Family

ID=39189902

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006251915A Expired - Fee Related JP5076417B2 (ja) 2006-09-15 2006-09-15 概念ネットワーク生成システム、概念ネットワーク生成方法及び概念ネットワーク生成プログラム

Country Status (2)

Country Link
US (1) US7698271B2 (ja)
JP (1) JP5076417B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9104779B2 (en) 2005-03-30 2015-08-11 Primal Fusion Inc. Systems and methods for analyzing and synthesizing complex knowledge representations
US8001122B2 (en) * 2007-12-12 2011-08-16 Sun Microsystems, Inc. Relating similar terms for information retrieval
CN102017412B (zh) * 2008-04-10 2013-05-22 Nxp股份有限公司 旋转脉宽调制器
KR100999253B1 (ko) * 2008-11-21 2010-12-10 한국과학기술원 이즈 어 관계 자동 추론 방법 및 상기 이즈 어 관계 자동 추론 방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수 있는 기록매체
US20100274807A1 (en) * 2009-04-23 2010-10-28 Frank John Williams Method and system for representing information
CN102200983A (zh) * 2010-03-25 2011-09-28 日电(中国)有限公司 属性提取装置和方法
JP7125322B2 (ja) * 2018-10-18 2022-08-24 株式会社日立製作所 属性抽出装置および属性抽出方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2943447B2 (ja) * 1991-01-30 1999-08-30 三菱電機株式会社 テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置
JPH0778167A (ja) * 1993-06-30 1995-03-20 Nippon Telegr & Teleph Corp <Ntt> 知識作成方法
JPH07244669A (ja) * 1994-03-04 1995-09-19 Mitsubishi Electric Corp 文書検索方式
US6076051A (en) * 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US6038560A (en) * 1997-05-21 2000-03-14 Oracle Corporation Concept knowledge base search and retrieval system
JP3428554B2 (ja) 2000-02-29 2003-07-22 日本電気株式会社 意味ネットワーク自動作成装置及びコンピュータ可読記録媒体
JP3773447B2 (ja) 2001-12-21 2006-05-10 株式会社日立製作所 サブスタンス間の二項関係表示方法

Also Published As

Publication number Publication date
US7698271B2 (en) 2010-04-13
US20080071782A1 (en) 2008-03-20
JP2008071320A (ja) 2008-03-27

Similar Documents

Publication Publication Date Title
JP5076417B2 (ja) 概念ネットワーク生成システム、概念ネットワーク生成方法及び概念ネットワーク生成プログラム
US11853334B2 (en) Systems and methods for generating and using aggregated search indices and non-aggregated value storage
JP6646650B2 (ja) データ項目をスパース分散表現にマッピングする方法およびシステム
JP6828335B2 (ja) 検索プログラム、検索装置および検索方法
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
CN107798387B (zh) 一种适用于高端装备全生命周期的知识服务系统及方法
CN112214584B (zh) 使用知识图利用实体关系来发现答案
US11429792B2 (en) Creating and interacting with data records having semantic vectors and natural language expressions produced by a machine-trained model
CN107679035B (zh) 一种信息意图检测方法、装置、设备和存储介质
GB2537892A (en) A discovery informatics system, method and computer program
JP2022024102A (ja) 検索モデルのトレーニング方法、目標対象の検索方法及びその装置
CN111325030A (zh) 文本标签构建方法、装置、计算机设备和存储介质
CN108536735A (zh) 基于多通道自编码器的多模态词汇表示方法与系统
KR20210121921A (ko) 키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 방법 및 장치
US20220222442A1 (en) Parameter learning apparatus, parameter learning method, and computer readable recording medium
US12020175B2 (en) Building training data and similarity relations for semantic space
JP2011100208A (ja) 行動推定装置、行動推定方法および行動推定プログラム
JP2006285419A (ja) 情報処理装置および方法、並びにプログラム
Kumar et al. Extensive survey on feature extraction and feature selection techniques for sentiment classification in social media
JP4378106B2 (ja) 文書検索装置、文書検索方法及びプログラム
CN113297854A (zh) 文本到知识图谱实体的映射方法、装置、设备及存储介质
CN113010642A (zh) 语义关系的识别方法、装置、电子设备及可读存储介质
Jabri et al. A graph-based approach for text query expansion using pseudo relevance feedback and association rules mining
JP2012252392A (ja) キーワードリスト生成プログラム、キーワードリスト生成方法及びキーワードリスト生成装置
CN113505889B (zh) 图谱化知识库的处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090818

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120515

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120731

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120813

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150907

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5076417

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees