JP2016532942A - イベント知識データベースの構築方法および装置 - Google Patents

イベント知識データベースの構築方法および装置 Download PDF

Info

Publication number
JP2016532942A
JP2016532942A JP2016526443A JP2016526443A JP2016532942A JP 2016532942 A JP2016532942 A JP 2016532942A JP 2016526443 A JP2016526443 A JP 2016526443A JP 2016526443 A JP2016526443 A JP 2016526443A JP 2016532942 A JP2016532942 A JP 2016532942A
Authority
JP
Japan
Prior art keywords
event
event knowledge
entity
subject
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016526443A
Other languages
English (en)
Other versions
JP6163607B2 (ja
Inventor
スン,コォ
ジャオ,シチィ
シン,ジョウ
ワン,ハイフォン
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド, バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Publication of JP2016532942A publication Critical patent/JP2016532942A/ja
Application granted granted Critical
Publication of JP6163607B2 publication Critical patent/JP6163607B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明は、イベント知識データベースの構築方法および装置を提出し、当構築方法は、テキストを認識して、イベントマイニングの候補語句を得るステップと、認識されたイベントマイニングの候補語句を分割して、部分構文を取得するステップと、部分構文と予め定義したイベント知識構造に基づいて、前記部分構文に含まれる動詞と目的語で構成された動目構造及び主語と述語で構成された主述構造の数に等しい数のイベント知識インスタンスを生成するステップと、部分構文に含まれる動目構造及び主述構造に基づいて対応するイベントマイニングの目的語句を取得し、取得したイベントマイニングの目的語句を成分によって分類し、分類した成分をイベント知識インスタンスに対応に書き込み、イベント知識データベースの構築を完成するステップと、を含む。本発明は、予め定義したイベント知識構造によってイベント知識データベースを構築でき、当イベント知識データベースに基づいてユーザに正確な検索結果を提供し、ユーザの検索体験を向上する。【選択図】図1

Description

(関連出願の相互参照)
本特許出願は、百度オンライン網絡技術(北京)有限公司から2014年1月9日に出願され、名称が「イベント知識データベースの構築方法および装置」であり、中国出願番号が「201410010694.7」の優先権の利益を主張する。
(技術分野)
本発明は、計算機技術分野に関し、特にイベント知識データベースの構築方法および装置に関する。
検索エンジンは、今、ナレッジグラフに関して変革を起こしている、その核心として、構造化なしウェブテキストを主とする伝統的検索方法から「構造化知識」を主とする新しい知識検索へ移り変わっている。それによって、ユーザにさらなる正確な検索結果を提供し、その検索体験を向上する。現在のナレッジグラフ技術(狭い意味でのナレッジグラフ)の核心技術には実体知識の実体知識データベース(実体データベースと略す)およびその関連応用技術を含む。
実体データベースにおいて、一つの実体知識が主にその独有的なセマンティック番号、すなわちセマンティック標識(ID)および明確なセマンティックを有する属性と属性値からなる。たとえば、「百度公司」という実体知識に対して、実体データベースは、まず唯一なID(たとえば、company_XXX)をその独有的なセマンティック番号とし、当実体が属する分類に基づいて、それに 「成立時間:2000年1月」、「経営範囲:ネット情報サービス」、「理事長:李彦宏」、「子会社:91無線(company_YYY)及び愛奇異(company_ZZZ)」などのようなセマンティック情報を添加する。上述の知識によって、「百度公司の子会社が何ですか?」または「百度公司の理事長が誰ですか?」 などのような、ユーザからの事実類知識に関する、質問をよく答えられる。上述の質問を 「{類別=会社;実体=百度公司(company_XXX);属性=子会社;属性値=? }」および「{類別=会社;実体=百度公司(company_XXX);属性=理事長;属性値=? }」と分解すると、従来のナレッジグラフの検索でユーザニーズを満足できる。
しかし、実体知識は、実体または仮想実体を中心とし、実体と実体との間の関係を説明するとき、常にそれを抽象して、たとえば、「理事長」、「子会社」、「経営範囲」などのような特定の属性とする。このような抽象的表現は、簡単に知識を表現できるが、その詳細の内容を失う。
深い質問応用を例として、もしユーザが「百度公司は2013年にどの子会社を買収しましたか?」、または、「百度公司は91無線とネットテレビソフト(PPS)動画を買収するとき、いくらかかりましたか?」などのような問題を聞く場合、伝統的な実体データベースに基づいて答えを出せない。
上述から分かるように、伝統的な実体データベースに基づいて深い知識検索を行うと、たびたび、ユーザに検索結果を提供できない。従って、ユーザの検索体験を下げる。
本発明は、少なくとも一つの上述技術問題を解決することを目的とする。
本発明の第一目的は、イベント知識データベースの構築方法を提供することにある。当方法は、予め定義したイベント知識構造に基づいて、イベント知識データベースを構築することである。当イベント知識データベースに基づいて、ユーザに正確な検索結果を提供し、ユーザの検索体験を向上する。
本発明の第二目的は、イベント知識データベースの構築装置を提供することにある。
前記目的を達成するために、本発明の第一側面の実施例のイベント知識データベースの構築方法は、テキストを認識して、イベントマイニングの候補語句を得るステップと、認識されたイベントマイニングの候補語句を分割して、部分構文を取得するステップと、部分構文と予め定義したイベント知識構造に基づいて、前記部分構文に含まれる動詞と目的語で構成された動目構造及び主語と述語で構成された主述構造の数に等しい数のイベント知識インスタンスを生成するステップと、部分構文に含まれる動目構造及び主述構造に基づいて対応するイベントマイニングの目的語句を取得し、取得したイベントマイニングの目的語句を成分によって分類し、分類した成分をイベント知識インスタンスに対応に書き込み、イベント知識データベースの構築を完成するステップと、を含む。
本発明実施例のイベント知識データベースの構築方法によれば、予め定義したイベント知識構造と取得した部分構文によってイベント知識データベースを構築でき、当イベント知識データベースに基づいてウェブ知識を構造化して、知識間の推理と計算をサポートすることができる。さらに、関連イベントを融合することによって、ユーザが深い知識検索を行う時、ユーザにさらなる正確な検索結果を提供し、検索体験を向上する。
前記目的を達成するために、本発明の第二側面の実施例のイベント知識データベースの構築装置は、認識モジュール、分割モジュール、生成モジュール、および、書き込みモジュールを含む。
本発明実施例のイベント知識データベースの構築装置によれば、予め定義したイベント知識構造と取得した部分構文によってイベント知識データベースを構築でき、当イベント知識データベースに基づいてウェブ知識を構造化して、知識間の推理と計算をサポートすることができる。さらに、関連イベントを融合することによって、ユーザが深い知識検索を行う時、ユーザにさらなる正確な検索結果を提供し、検索体験を向上する。
前記目的を達成するために、本発明の第三側面の実施例の記憶媒体は、本発明の第一側面の実施例のイベント知識データベースの構築方法を実行するプログラムを記憶する。
本発明の付加的な内容と利点は、その一部が下記の説明で提出され、ほかの部分が下記の説明から明らかになり、または、本発明の実現により理解できる。
本発明が述べた、および/または、付加的な内容と利点は、下記の図面を参照しながら実施例を説明するとき、明らかになり、また、理解し易くなる。その中に、
本発明の一つの実施例のイベント知識データベースの構築方法のフローチャートである。 本発明のもう一つの実施例のイベント知識データベースの構築方法のフローチャートである。 本発明の一つの実施例のイベント知識データベースの構築装置の構造を示す模式図である。 本発明のもう一つの実施例のイベント知識データベースの構築装置の構造を示す模式図である。
次から本発明の実施例について詳しく説明する。下記の記述で図面を引用するとき、同じ数字や符号は同じ要素、または類似的要素を示す。図面を参照しがら説明する下記の実施例は、本発明の解釈のみの例示であり、本発明を制限するものと理解できない。本発明の実施例は、本発明の請求書の趣旨を逸脱しない範囲内で種々の改良、変形および同等物を含む。
本発明の説明には、用語「第一」、「第二」などは、単なる目的を表すものであり、相対的重要性を表示や暗示することではない。本発明の説明には、別に説明がない限り、 用語「接続」、「連結」は、広い意味を持っている。たとえば、固定的に連結してもよいし、離脱可能に連結したり、一体的に連結したりすることもできる。また、機械的連結、電気的連結、または、直接連結や中間物を介する連結が可能である。本領域の技術者が、具体的状況を見て上記の用語を理解することができる。特に規定がなければ、本発明の説明には、「複数」の意味が少なくとも二つ、または、それ以上である。
フローチャートやほかの方法で説明した任意の過程や方法は、特定のロジック機能またはステップを実現する一つや複数の実行可能なコードからなるモジュール、セグメントまたは部分と理解される。本領域の技術者が分かるように、本発明の望ましい実施方式の範囲がほかの実現を含み、その中に、説明した順序に従わなくてもよい。たとえば、それらの機能を同時に、または、逆の順番で実行することができる。
次から本発明の実施例について詳しく説明する。下記の記述で図面を引用するとき、同じ数字や符号は同じ要素、または類似的要素を示す。図面を参照しがら説明する下記の実施例は、本発明の解釈のみの例示であり、本発明を制限するものと理解できない。本発明の実施例は、本発明の請求書の趣旨を逸脱しない範囲内で種々の改良、変形および同等物を含む。
本発明の説明には、用語「第一」、「第二」などは、単なる目的を表すものであり、相対的重要性を表示や暗示することではない。本発明の説明には、別に説明がない限り、 用語「接続」、「連結」は、広い意味を持っている。たとえば、固定的に連結してもよいし、離脱可能に連結したり、一体的に連結したりすることもできる。また、機械的連結、電気的連結、または、直接連結や中間物を介する連結が可能である。本領域の技術者が、具体的状況を見て上記の用語を理解することができる。特に規定がなければ、本発明の説明には、「複数」の意味が少なくとも二つ、または、それ以上である。
フローチャートやほかの方法で説明した任意の過程や方法は、特定のロジック機能またはステップを実現する一つや複数の実行可能なコードからなるモジュール、セグメントまたは部分と理解される。本領域の技術者が分かるように、本発明の望ましい実施方式の範囲がほかの実現を含み、その中に、説明した順序に従わなくてもよい。たとえば、それらの機能を同時に、または、逆の順番で実行することができる。
ウェブテキスト知識を構造化して、知識間の推理と計算をサポートすることができるために、本発明の実施例は、イベント知識データベースの構築方法および装置を提出する。次は、図面を参照しながら、イベント知識データベースの構築方法および装置を説明する。
図1は本発明の一つの実施例のイベント知識データベースの構築方法のフローチャートである。
図1に示すように、イベント知識データベースの構築方法は、ステップS101、ステップS102、ステップS103、およびステップS104を含む。
ステップS101において、テキストを識別して、イベントマイニングの候補語句を得る。
イベント知識のマイニング目的が自然言語テキストである。しかし、ネット資源の中に、自然言語の語句が必ずしも最終的にイベント知識に形成できない。従って、まず自然言語テキスト、たとえば、ウェブテキストを識別して、イベントマイニングの候補語句を得る。本実施例のイベントマイニングの候補語句は、少なくとも一つの主語実体および当主語実体のコア動作を含む。
たとえば、本実施例の中に識別されたイベントマイニングの候補語句が、「91無線、網竜公司の子会社、中国をリードするモバイルインターネット会社である、Sj.91.comとapk.hiapk.comのウェブサイトに、それはiPhoneオペレーションシステムとAndroidオペレーションシステムに二つのスマートフォン応用配分プラットフォームを開発および運営する。」とする。
ステップS102において、識別されたイベントマイニングの候補語句を分割して、部分構文を取得する。
その中に、部分構文は、主述構造、動目構造、連用修飾語構造、主語構造、および、名詞と述語で構成された名詞述語構造などを含む。
たとえば、ステップS101で取得した識別されたイベントマイニングの候補語句を分割して、次のような部分構文を得られる。
主語構造:91無線、名詞述語構造:網竜公司の子会社、連用修飾語構造:Sj.91.comとapk.hiapk.comのウェブサイトに、動目構造:中国をリードするモバイルインターネット会社である、主述構造:それはiPhoneオペレーションシステムとAndroidオペレーションシステムに二つのスマートフォン応用配分プラットフォームを開発および運営する。
ステップS103において、部分構文と予め定義したイベント知識構造に基づいて、部分構文に含まれる動詞と目的語で構成された動目構造及び主語と述語で構成された主述構造の数に等しい数のイベント知識インスタンスを生成する。
本発明の実施例において、予め定義したイベント知識構造は、イベント知識インスタンス標識(ID)、主語実体、目的実体、および、動作を四つの属性として含み、主語実体は動作主に対応する実体情報およびその修飾情報を含み、目的実体は受動者に対応する実体情報およびその修飾情報を含み、動作はコア動作およびその拘束情報を含む。その中に、
a)イベント知識インスタンス標識:イベント知識インスタンスの唯一な独立標識であり、イベント知識データベースにより配分され、イベントID属性に記憶される。単一のイベント知識インスタンスには、一つだけのIDを有する。
b)主語実体:標識イベントの動作主(受け身語句の主語も動作主となれる)である。その「実体」属性域には、実体名および実体セマンティックIDを記憶する。修飾属性域(一つの実体は複数の修飾属性があることができる)には、実体の修飾成分と拘束成分を記憶する。単一のイベント知識の中に、少なくとも一つの主語実体属性が存在する必要がなる。主語実体は複数でもよい。当然、前記修飾属性域に記憶されたのは属性の修飾情報である。
c)目的実体:標識イベントの受動者である。その「実体」属性域には、実体名および実体セマンティックIDを記憶する。実体語の他、数量語(たとえば、10.39%株)、時間(時期、時間分秒)、時間区間(XX日からYY日まで、AA点からBB点まで)、資源(url、uriなど)、電話/郵便番号、位置/方向(たとえば、食堂、南方)、工具/材料(たとえば、毛糸、給料)、比較(たとえば、一対二)、方式手段(たとえば、手術、低音)、枚挙語(たとえば、星座、血液型)、および、普通名詞(たとえば、携帯電話応用配分プラットフォーム)などの語彙も目的実体になってもよい。修飾属性域には、主に目的実体の修飾成分と拘束成分を記憶する。単一のイベント知識の中に、たとえば、「ジョブズがなくなった」のように、目的実体がなくでもよい。当然、前記修飾属性域に記憶されたのは属性の修飾情報である。
d)動作:標識イベントにおける主語実体のイベント中の行為である。「コア動作」が主語実体の行為自体を標識する。単一のイベント知識の中に、一つだけのコア動作属性(たとえば、「開発と運営」のような並列動作が存在できる)を有する。拘束属性がコア動作を修飾する。拘束属性は複数個存在できる。拘束するために、具体的な属性類(たとえば、時間、価額、状態、方位など)を標識でき、しかも、それに対応する属性値に対し、タイプ(たとえば、数量語タイプ、実体タイプ)を指定できる。
具体的に、主述構造と動目構造の数により、予め定義したイベント知識構造に基づいてイベント知識インスタンスを生成する。すなわち、各動目構造と各主述構造が、いずれも一つのイベント知識インスタンスに対応する。たとえば、ステップS102において、主述構造と動目構造の二つの部分構文が存在し、そのため、表1に示すような二つのイベント知識インスタンス、すなわち、event_1とevent_2を用意する。同時に、「主語述語構造及び動目構造」ではないものを主語述語構造及び動目構造の修飾成分及び拘束成分に分割する。
Figure 2016532942
ステップS104において、部分構文に含まれる動目構造及び主述構造に基づいて対応するイベントマイニングの目的語句を取得し、取得したイベントマイニングの目的語句を成分によって分類し、分類した成分をイベント知識インスタンスに対応に書き込み、イベント知識データベースの構築を完成する。
具体的に、当ステップS104において、先ず、取得したイベントマイニングの目的語句の中の主述構造を成分によって分類し、分類した成分全体をイベント知識インスタンスの主語実体、目的実体、および動作に対応に書き込み、取得したイベントマイニングの目的語句の中の動目構造に主語構造の存在が判定された場合には、主語構造をイベント知識インスタンスの主語実体に書き込み、動目構造を成分によって分類し、分類した成分全体をイベント知識インスタンスの目的実体および動作に対応に書き込んでから、取得したイベントマイニングの目的語句の中から主述構造、及び、動目構造を除いた後の部分構文を成分によって分類し、分類した成分全体をイベント知識インスタンスの修飾情報と拘束情報に対応に書き込む。そのうち、成分は、主語、述語、目的語、主語の連体修飾語、連用修飾語、および、目的語の連体修飾語の中の一種類または複数種類を含む。
本実施例には、部分構文に含まれる動目構造と主述構造によりイベントマイニングの目的語句は、次のようになる。
event_1マイニングの目的語句:91無線、網竜公司の子会社、中国をリードするモバイルインターネット会社である。
event_2マイニングの目的語句:Sj.91.comとapk.hiapk.comのウェブサイトに、それはiPhoneオペレーションシステムとAndroidオペレーションシステムに二つのスマートフォン応用配分プラットフォームを開発および運営する。
対応するイベントマイニングの目的語句を取得した後、動詞を中心としてマイニングを行う。すなわち、まず、イベントマイニングの目的語句の主述構造と動目構造を成分によって分類し、その後、ほかの部分構文を成分によって分類する。
本実施例には、まず、event_2マイニングの目的語句の主述構造を主語、主語の連体修飾語、述語のコア動詞、連用修飾語、目的語、および、目的語の連体修飾語などを成分によって分類し、それぞれイベント知識インスタンスの主語実体、目的実体および動作に書き込む。
たとえば、「それはiPhoneオペレーションシステムとAndroidオペレーションシステムに二つのスマートフォン応用配分プラットフォームを開発および運営する。」を次のような成分に分類する。
主語:それ、連用修飾語:iPhoneオペレーションシステムとAndroidオペレーションシステム、動詞:開発および運営する、目的語:二つのスマートフォン応用配分プラットフォーム。そして、分類した成分を表1に示すイベント知識データベースのイベント知識インスタンスに書き込む。書き込んだイベント知識データベースは表2に示される。
Figure 2016532942
その後、event_1マイニングの目的語句の動目構造を成分によって分類する。まず、全語句の中に主語構造の存在を判断する。存在すれば、それをイベント知識インスタンスの主語実体に書き込む。その後、文法によって動目構造の中の動詞、連用修飾語、目的語、および、目的語の連体修飾語などの成分をマイニングし、それぞれ対応するイベント知識インスタンスの目的実体および動作に書き込む。主語構造が存在しない場合、当マイニングされる部分構文を捨てる。
たとえば、「中国をリードするモバイルインターネット会社である」を次の成分に分類する。
動詞:である、目的語:モバイルインターネット会社、目的語の連体修飾語:中国をリードする。そして、分類した成分を表2に示すイベント知識データベースのイベント知識インスタンスに書き込む。書き込んだイベント知識データベースは表3に示される。
Figure 2016532942
最後に、他の修飾成分を添加する。たとえば、event_2マイニングの目的語句の連用修飾語構造を右側の最近のコア動作の拘束として、イベント知識インスタンスの中に添加する。たとえば、表4に示すように、「Sj.91.comとapk.hiapk.comのウェブサイトに」という用修飾語構造をイベント知識データベースのイベント知識インスタンスに書き込む。
Figure 2016532942
そして、名詞述語構造をイベント知識データベースのイベント知識インスタンスに書き込む。具体的に、まず、全語句の中に主語構造の存在を判断する。存在すれば、それをイベント知識インスタンスの主語実体の修飾部分に書き込む。存在しなければ、直接現在の部分構文を捨てる。たとえば、表5に示すように、名詞述語構造「網竜公司の子会社」をイベント知識データベースのイベント知識インスタンスに書き込む。
Figure 2016532942
表の中に太文字で表示されるのは、現在の表に新たに追加された部分である。上述表1〜表5は、イベント知識データベースの動態構築過程が示される。
上述から分かるように、本発明実施例は、主にウェブテキストの語句から細かく知識を収集して、予めその構造を定義したイベント知識データベースに書き込むことによって、イベント知識インスタンスを収集する。しかし、一つ完全なイベントにとって、単一のイベントの中の情報が不完全であるかもしれない。表6に示す三つのイベント知識インスタンスを例として、当該三つのイベント知識インスタンスがそれぞれ異なる側面から異なる順番で「百度が91無線を買収する」というイベントを説明した。しかし、ただ一つのイベント知識インスタンスから取得した情報は不完全である。
Figure 2016532942
イベント知識データベースの中において、できるだけ多くのイベント関連情報を収集するように、上述の細かいイベント知識インスタンスを融合し、もっと多くの詳しい情報を含み、もっと完全なイベント知識インスタンスに形成する必要がある。
したがって、図2に示すように、当方法は、ステップS104の後、さらに、ステップS105とステップS106を含む。
ステップS105において、イベント知識データベースのイベント知識インスタンスをクラスター分析し、等価イベント集合を取得する。
当ステップS105は、具体的に、イベント知識データベースの主語実体、目的実体及び動作の拘束情報が一致するイベント知識インスタンス全体をクラスターして第一等価イベントを取得し、第一等価イベントの中のコア動作を抽出して、等価動作辞典を生成するステップと、イベント知識データベースの主語実体及び目的実体が一致するイベント知識インスタンス全体をクラスターして第二等価イベントを取得し、等価動作辞典によって第二等価イベントの中からコア動作が等価するイベント知識インスタンス全体を選び出せ、等価イベント集合を生成するステップとを含む。
ステップS106において、等価イベント集合のイベント知識インスタンス全体の情報をイベント知識データベースに書き込んで、新しいイベント知識インスタンスを形成する。
表6の知識データベースに含まれる三つのイベント知識インスタンスを次のように融合する。
まず、動作主の主語実体と受動者の主語実体かつ拘束情報の衝突なしのイベント知識インスタンス全体をクラスターして、同じ種類のイベント知識インスタンス全体を「等価イベント」とする。等価イベントのコア動作を抽出して、「等価動作辞典」を形成する。本実施例には、「等価動作辞典」が、「買収、買収合併、被買収」である。さらに、動作主の主語実体と受動者の主語実体が一致するイベント知識インスタンス全体をクラスターして、「等価動作辞典」によって、クラスターしたものからコア動作に等価するイベント知識インスタンス全体を選び出せ、等価イベント集合を生成する。当等価イベント集合のイベント知識インスタンスがevent_1、event_2およびevent_3である。そして、等価イベント集合から任意のイベント知識インスタンスをコアイベントEVとする。集合中の他のイベントのすべての拘束および主語実体修飾属性をEVに融合し、最終的な融合イベント知識を形成して、イベント知識データベースに書き込み、知識データベースにより独立なイベントIDを配分する。上述融合処理によって、event_1、event_2およびevent_3は、表7に示すように、一つの新しいイベント知識インスタンスevent_4に融合される。
Figure 2016532942
上述のイベント知識データベースの構築方法によれば、予め定義したイベント知識構造と取得した部分構文によってイベント知識データベースを構築でき、当イベント知識データベースに基づいてウェブ知識を構造化して、知識間の推理と計算をサポートすることができる。さらに、関連イベントを融合することによって、ユーザが深い知識検索を行う時、ユーザにさらなる正確な検索結果を提供し、検索体験を向上する。
図3は本発明の一つの実施例のイベント知識データベースの構築装置の構造を示す模式図である。
図3に示すように、当イベント知識データベースの構築装置は、認識モジュール310、分割モジュール320、生成モジュール330、および、書き込みモジュール340を含む。
認識モジュール310は、テキストを認識して、イベントマイニングの候補語句を得る。分割モジュール320は、前記認識モジュールにより認識された前記イベントマイニングの候補語句を分割して、部分構文を取得する。生成モジュール330は、前記分割モジュールにより取得された部分構文と予め定義したイベント知識構造に基づいて、部分構文に含まれる動詞と目的語で構成された動目構造及び主語と述語で構成された主述構造の数に等しい数のイベント知識インスタンスを生成する。書き込みモジュール340は、部分構文に含まれる動目構造及び主述構造に基づいて対応するイベントマイニングの目的語句を取得し、取得したイベントマイニングの目的語句を成分によって分類し、分類した成分をイベント知識インスタンスに対応に書き込み、イベント知識データベースの構築を完成する。
本発明の実施例には、前記部分構文は、主述構造、動目構造、連用修飾語構造、主語構造、および、名詞と述語で構成された名詞述語構造の中の一種類または複数種類を含む。前記予め定義したイベント知識構造は、イベント知識インスタンス標識、主語実体、目的実体、および、動作を四つの属性として含み、前記主語実体は動作主に対応する実体情報およびその修飾情報を含み、前記目的実体は受動者に対応する実体情報およびその修飾情報を含み、前記動作はコア動作およびその拘束情報を含む。その中に、
a)イベント知識インスタンス標識:イベント知識インスタンスの唯一な独立標識であり、イベント知識データベースにより配分され、イベントID属性に記憶される。単一のイベント知識インスタンスには、一つだけのIDを有する。
b)主語実体:標識イベントの動作主(受け身語句の主語も動作主となれる)である。その「実体」属性域には、実体名および実体セマンティックIDを記憶する。修飾属性域(一つの実体は複数の修飾属性があることができる)には、実体の修飾成分と拘束成分を記憶する。単一のイベント知識の中に、少なくとも一つの主語実体属性が存在する必要がなる。主語実体は複数でもよい。当然、前記修飾属性域に記憶されたのは属性の修飾情報である。
c)目的実体:標識イベントの受動者である。その「実体」属性域には、実体名および実体セマンティックIDを記憶する。実体語の他、数量語(たとえば、10.39%株)、時間(時期、時間分秒)、時間区間(XX日からYY日まで、AA点からBB点まで)、資源(url、uriなど)、電話/郵便番号、位置/方向(たとえば、食堂、南方)、工具/材料(たとえば、毛糸、給料)、比較(たとえば、一対二)、方式手段(たとえば、手術、低音)、枚挙語(たとえば、星座、血液型)、および、普通名詞(たとえば、携帯電話応用配分プラットフォーム)などの語彙も目的実体になってもよい。修飾属性域には、主に目的実体の修飾成分と拘束成分を記憶する。単一のイベント知識の中に、たとえば、「ジョブズがなくなった」のように、目的実体がなくでもよい。当然、前記修飾属性域に記憶されたのは属性の修飾情報である。
d)動作:標識イベントにおける主語実体のイベント中の行為である。「コア動作」が主語実体の行為自体を標識する。単一のイベント知識の中に、一つだけのコア動作属性(たとえば、「開発と運営」のような並列動作が存在できる)を有する。拘束属性がコア動作を修飾する。拘束属性は複数個存在できる。拘束するために、具体的な属性類(たとえば、時間、価額、状態、方位など)を標識でき、しかも、それに対応する属性値に対し、タイプ(たとえば、数量語タイプ、実体タイプ)を指定できる。
前記書き込みモジュール340は、対応するイベントマイニングの目的語句を取得した後、動詞を中心としてマイニングを行う。すなわち、まず、イベントマイニングの目的語句の主述構造と動目構造を成分によって分類し、その後、ほかの部分構文を成分によって分類する。
具体的に、前記書き込みモジュール340は、取得したイベントマイニングの目的語句の中の主述構造を成分によって分類し、分類した成分全体を前記イベント知識インスタンスの主語実体、目的実体、および動作に対応に書き込み、取得したイベントマイニングの目的語句の中の動目構造に主語構造の存在が判定された場合には、前記主語構造を前記イベント知識インスタンスの主語実体に書き込み、前記動目構造を成分によって分類し、分類した成分全体を前記イベント知識インスタンスの目的実体および動作に対応に書き込み、取得したイベントマイニングの目的語句の中から主述構造、及び動目構造を除いた後の部分構文を成分によって分類し、分類した成分全体を前記イベント知識インスタンスの修飾情報と拘束情報に対応に書き込むように構成されており、前記成分は、主語、述語、目的語、主語の連体修飾語、連用修飾語、および、目的語の連体修飾語の中の一種類または複数種類を含む。
また、図4に示すように、当装置は、捨てモジュール350を更に含む。捨てモジュール350は、取得したイベントマイニングの目的語句の中の動目構造に、主語構造が存在しないと判定された場合、前記動目構造を捨てる。
前記認識モジュール310、分割モジュール320、生成モジュール330、書き込みモジュール340、および捨てモジュール350を含む装置の作動フローチャートは図1を参照する。ここでその説明を省略する。
さらに、当装置は、融合モジュール360を含んでもよい。融合モジュール360は、前記書き込みモジュール340が分類した成分を前記イベント知識インスタンスに対応に書き込んだ後、前記イベント知識データベースのイベント知識インスタンスをクラスター分析し、等価イベント集合を取得し、前記等価イベント集合のイベント知識インスタンス全体の情報を前記イベント知識データベースに書き込んで、新しいイベント知識インスタンスを形成する。
具体的に、融合モジュール360は、イベント知識データベースの主語実体、目的実体及び動作の拘束情報が一致するイベント知識インスタンス全体をクラスターして第一等価イベントを取得し、第一等価イベントの中のコア動作を抽出して、等価動作辞典を生成し、イベント知識データベースの主語実体及び目的実体が一致するイベント知識インスタンス全体をクラスターして第二等価イベントを取得し、等価動作辞典によって第二等価イベントの中からコア動作が等価するイベント知識インスタンス全体を選び出せ、等価イベント集合を生成するように構成されている。
前記認識モジュール310、分割モジュール320、生成モジュール330、書き込みモジュール340、捨てモジュール350、および、融合モジュール360を含む装置の作動フローチャートは図2を参照する。ここでその説明を省略する。
上述イベント知識データベースの構築装置によれば、予め定義したイベント知識構造と取得した部分構文によってイベント知識データベースを構築でき、当イベント知識データベースに基づいてウェブ知識を構造化して、知識間の推理と計算をサポートすることができる。さらに、関連イベントを融合することによって、ユーザが深い知識検索を行う時、ユーザにさらなる正確な検索結果を提供し、検索体験を向上する。
前記実施例を実現するために、本発明は、コンピュータに、本発明の任意の実施例に記載のイベント知識データベースの構築方法を実行させるプログラムを記憶する記憶媒体を更に提出する。
また、理解すべきなのは、本発明の各部分は、ハードウェア、ソフトウェア、部品またはそれらの組み合わせで実現できる。前記実施例には、複数のステップまたは方法がメモリに保存され、適当なコマンド実行システムのソフトウェアまたは部品で実現される。たとえば、ハードウェアで実現する場合、他の実施方式と同じように、本領域周知の下記の任意一つまたはそれらの組み合わせで実現できる。すなわち、デジタル信号に対してロジック機能を実現するロジックゲート回路を有する個別のロジック回路、ロジックゲート回路を組み合わせた適当な専用IC、プログラマブルゲートアレイ(PGA)、フィールドプログラマブルゲートアレイ(FPGA)などである。
本明細書には、用語「一つの実施例」、「いくつかの実施例」、「例示」、「具体的例示」、または、「いくつかの例示」などは、当実施例や例示の具体的特徴、構造、材料または特点が本発明の少なくとも一つの実施例や例示に含まれることを意味する。本説明書には、前記用語の説明が必ずしも同じ実施例や例示を意味しない。また、説明の中の具体的特徴、構造、材料または特点は、任意の一つやいくつかの実施例や例示に適当な方式で結合されることができる。
上述実施例は単なる本発明の技術本案を説明するものであり、それを限定するものではない。本発明の趣旨を逸脱しない範囲内で種々の改良変形が可能であり、本発明の範囲は特許請求の範囲およびその同等物だけによって定められる。
(関連出願の相互参照)
本特許出願は、百度オンライン網絡技術(北京)有限公司から2014年1月9日に出願され、名称が「イベント知識データベースの構築方法および装置」であり、中国出願番号が「201410010694.7」の優先権の利益を主張する。
(技術分野)
本発明は、計算機技術分野に関し、特にイベント知識データベースの構築方法および装置に関する。
検索エンジンは、今、ナレッジグラフに関して変革を起こしている、その核心として、構造化なしウェブテキストを主とする伝統的検索方法から「構造化知識」を主とする新しい知識検索へ移り変わっている。それによって、ユーザにさらなる正確な検索結果を提供し、その検索体験を向上する。現在のナレッジグラフ技術(狭い意味でのナレッジグラフ)の核心技術には実体知識の実体知識データベース(実体データベースと略す)およびその関連応用技術を含む。
実体データベースにおいて、一つの実体知識が主にその独有的なセマンティック番号、すなわちセマンティック標識(ID)および明確なセマンティックを有する属性と属性値からなる。たとえば、「百度公司」という実体知識に対して、実体データベースは、まず唯一なID(たとえば、company_XXX)をその独有的なセマンティック番号とし、当実体が属する分類に基づいて、それに 「成立時間:2000年1月」、「経営範囲:ネット情報サービス」、「理事長:李彦宏」、「子会社:91無線(company_YYY)及び愛奇異(company_ZZZ)」などのようなセマンティック情報を添加する。上述の知識によって、「百度公司の子会社が何ですか?」または「百度公司の理事長が誰ですか?」 などのような、ユーザからの事実類知識に関する、質問をよく答えられる。上述の質問を 「{類別=会社;実体=百度公司(company_XXX);属性=子会社;属性値=? }」および「{類別=会社;実体=百度公司(company_XXX);属性=理事長;属性値=? }」と分解すると、従来のナレッジグラフの検索でユーザニーズを満足できる。
しかし、実体知識は、実体または仮想実体を中心とし、実体と実体との間の関係を説明するとき、常にそれを抽象して、たとえば、「理事長」、「子会社」、「経営範囲」などのような特定の属性とする。このような抽象的表現は、簡単に知識を表現できるが、その詳細の内容を失う。
深い質問応用を例として、もしユーザが「百度公司は2013年にどの子会社を買収しましたか?」、または、「百度公司は91無線とネットテレビソフト(PPS)動画を買収するとき、いくらかかりましたか?」などのような問題を聞く場合、伝統的な実体データベースに基づいて答えを出せない。
上述から分かるように、伝統的な実体データベースに基づいて深い知識検索を行うと、たびたび、ユーザに検索結果を提供できない。従って、ユーザの検索体験を下げる。
本発明は、少なくとも一つの上述技術問題を解決することを目的とする。
本発明の第一目的は、イベント知識データベースの構築方法を提供することにある。当方法は、予め定義したイベント知識構造に基づいて、イベント知識データベースを構築することである。当イベント知識データベースに基づいて、ユーザに正確な検索結果を提供し、ユーザの検索体験を向上する。
本発明の第二目的は、イベント知識データベースの構築装置を提供することにある。
前記目的を達成するために、本発明の第一側面の実施例のイベント知識データベースの構築方法は、テキストを認識して、イベントマイニングの候補語句を得るステップと、認識されたイベントマイニングの候補語句を分割して、部分構文を取得するステップと、部分構文と予め定義したイベント知識構造に基づいて、前記部分構文に含まれる動詞と目的語で構成された動目構造及び主語と述語で構成された主述構造の数に等しい数のイベント知識インスタンスを生成するステップと、部分構文に含まれる動目構造及び主述構造に基づいて対応するイベントマイニングの目的語句を取得し、取得したイベントマイニングの目的語句を成分によって分類し、分類した成分をイベント知識インスタンスに対応に書き込み、イベント知識データベースの構築を完成するステップと、を含む。
本発明実施例のイベント知識データベースの構築方法によれば、予め定義したイベント知識構造と取得した部分構文によってイベント知識データベースを構築でき、当イベント知識データベースに基づいてウェブ知識を構造化して、知識間の推理と計算をサポートすることができる。さらに、関連イベントを融合することによって、ユーザが深い知識検索を行う時、ユーザにさらなる正確な検索結果を提供し、検索体験を向上する。
前記目的を達成するために、本発明の第二側面の実施例のイベント知識データベースの構築装置は、認識モジュール、分割モジュール、生成モジュール、および、書き込みモジュールを含む。
本発明実施例のイベント知識データベースの構築装置によれば、予め定義したイベント知識構造と取得した部分構文によってイベント知識データベースを構築でき、当イベント知識データベースに基づいてウェブ知識を構造化して、知識間の推理と計算をサポートすることができる。さらに、関連イベントを融合することによって、ユーザが深い知識検索を行う時、ユーザにさらなる正確な検索結果を提供し、検索体験を向上する。
前記目的を達成するために、本発明の第三側面の実施例の記憶媒体は、本発明の第一側面の実施例のイベント知識データベースの構築方法を実行するプログラムを記憶する。
本発明の付加的な内容と利点は、その一部が下記の説明で提出され、ほかの部分が下記の説明から明らかになり、または、本発明の実現により理解できる。
本発明が述べた、および/または、付加的な内容と利点は、下記の図面を参照しながら実施例を説明するとき、明らかになり、また、理解し易くなる。その中に、
本発明の一つの実施例のイベント知識データベースの構築方法のフローチャートである。 本発明のもう一つの実施例のイベント知識データベースの構築方法のフローチャートである。 本発明の一つの実施例のイベント知識データベースの構築装置の構造を示す模式図である。 本発明のもう一つの実施例のイベント知識データベースの構築装置の構造を示す模式図である。
次から本発明の実施例について詳しく説明する。下記の記述で図面を引用するとき、同じ数字や符号は同じ要素、または類似的要素を示す。図面を参照しがら説明する下記の実施例は、本発明の解釈のみの例示であり、本発明を制限するものと理解できない。本発明の実施例は、本発明の請求書の趣旨を逸脱しない範囲内で種々の改良、変形および同等物を含む。
本発明の説明には、用語「第一」、「第二」などは、単なる目的を表すものであり、相対的重要性を表示や暗示することではない。本発明の説明には、別に説明がない限り、 用語「接続」、「連結」は、広い意味を持っている。たとえば、固定的に連結してもよいし、離脱可能に連結したり、一体的に連結したりすることもできる。また、機械的連結、電気的連結、または、直接連結や中間物を介する連結が可能である。本領域の技術者が、具体的状況を見て上記の用語を理解することができる。特に規定がなければ、本発明の説明には、「複数」の意味が少なくとも二つ、または、それ以上である。
フローチャートやほかの方法で説明した任意の過程や方法は、特定のロジック機能またはステップを実現する一つや複数の実行可能なコードからなるモジュール、セグメントまたは部分と理解される。本領域の技術者が分かるように、本発明の望ましい実施方式の範囲がほかの実現を含み、その中に、説明した順序に従わなくてもよい。たとえば、それらの機能を同時に、または、逆の順番で実行することができる。
ウェブテキスト知識を構造化して、知識間の推理と計算をサポートすることができるために、本発明の実施例は、イベント知識データベースの構築方法および装置を提出する。次は、図面を参照しながら、イベント知識データベースの構築方法および装置を説明する。
図1は本発明の一つの実施例のイベント知識データベースの構築方法のフローチャートである。
図1に示すように、イベント知識データベースの構築方法は、ステップS101、ステップS102、ステップS103、およびステップS104を含む。
ステップS101において、テキストを識別して、イベントマイニングの候補語句を得る。
イベント知識のマイニング目的が自然言語テキストである。しかし、ネット資源の中に、自然言語の語句が必ずしも最終的にイベント知識に形成できない。従って、まず自然言語テキスト、たとえば、ウェブテキストを識別して、イベントマイニングの候補語句を得る。本実施例のイベントマイニングの候補語句は、少なくとも一つの主語実体および当主語実体のコア動作を含む。
たとえば、本実施例の中に識別されたイベントマイニングの候補語句が、「91無線、網竜公司の子会社、中国をリードするモバイルインターネット会社である、Sj.91.comとapk.hiapk.comのウェブサイトに、それはiPhoneオペレーションシステムとAndroidオペレーションシステムに二つのスマートフォン応用配分プラットフォームを開発および運営する。」とする。
ステップS102において、識別されたイベントマイニングの候補語句を分割して、部分構文を取得する。
その中に、部分構文は、主述構造、動目構造、連用修飾語構造、主語構造、および、名詞と述語で構成された名詞述語構造などを含む。
たとえば、ステップS101で取得した識別されたイベントマイニングの候補語句を分割して、次のような部分構文を得られる。
主語構造:91無線、名詞述語構造:網竜公司の子会社、連用修飾語構造:Sj.91.comとapk.hiapk.comのウェブサイトに、動目構造:中国をリードするモバイルインターネット会社である、主述構造:それはiPhoneオペレーションシステムとAndroidオペレーションシステムに二つのスマートフォン応用配分プラットフォームを開発および運営する。
ステップS103において、部分構文と予め定義したイベント知識構造に基づいて、部分構文に含まれる動詞と目的語で構成された動目構造及び主語と述語で構成された主述構造の数に等しい数のイベント知識インスタンスを生成する。
本発明の実施例において、予め定義したイベント知識構造は、イベント知識インスタンス標識(ID)、主語実体、目的実体、および、動作を四つの属性として含み、主語実体は動作主に対応する実体情報およびその修飾情報を含み、目的実体は受動者に対応する実体情報およびその修飾情報を含み、動作はコア動作およびその拘束情報を含む。その中に、
a)イベント知識インスタンス標識:イベント知識インスタンスの唯一な独立標識であり、イベント知識データベースにより配分され、イベントID属性に記憶される。単一のイベント知識インスタンスには、一つだけのIDを有する。
b)主語実体:標識イベントの動作主(受け身語句の主語も動作主となれる)である。その「実体」属性域には、実体名および実体セマンティックIDを記憶する。修飾属性域(一つの実体は複数の修飾属性があることができる)には、実体の修飾成分と拘束成分を記憶する。単一のイベント知識の中に、少なくとも一つの主語実体属性が存在する必要がなる。主語実体は複数でもよい。当然、前記修飾属性域に記憶されたのは属性の修飾情報である。
c)目的実体:標識イベントの受動者である。その「実体」属性域には、実体名および実体セマンティックIDを記憶する。実体語の他、数量語(たとえば、10.39%株)、時間(時期、時間分秒)、時間区間(XX日からYY日まで、AA点からBB点まで)、資源(url、uriなど)、電話/郵便番号、位置/方向(たとえば、食堂、南方)、工具/材料(たとえば、毛糸、給料)、比較(たとえば、一対二)、方式手段(たとえば、手術、低音)、枚挙語(たとえば、星座、血液型)、および、普通名詞(たとえば、携帯電話応用配分プラットフォーム)などの語彙も目的実体になってもよい。修飾属性域には、主に目的実体の修飾成分と拘束成分を記憶する。単一のイベント知識の中に、たとえば、「ジョブズがなくなった」のように、目的実体がなくでもよい。当然、前記修飾属性域に記憶されたのは属性の修飾情報である。
d)動作:標識イベントにおける主語実体のイベント中の行為である。「コア動作」が主語実体の行為自体を標識する。単一のイベント知識の中に、一つだけのコア動作属性(たとえば、「開発と運営」のような並列動作が存在できる)を有する。拘束属性がコア動作を修飾する。拘束属性は複数個存在できる。拘束するために、具体的な属性類(たとえば、時間、価額、状態、方位など)を標識でき、しかも、それに対応する属性値に対し、タイプ(たとえば、数量語タイプ、実体タイプ)を指定できる。
具体的に、主述構造と動目構造の数により、予め定義したイベント知識構造に基づいてイベント知識インスタンスを生成する。すなわち、各動目構造と各主述構造が、いずれも一つのイベント知識インスタンスに対応する。たとえば、ステップS102において、主述構造と動目構造の二つの部分構文が存在し、そのため、表1に示すような二つのイベント知識インスタンス、すなわち、event_1とevent_2を用意する。同時に、「主語述語構造及び動目構造」ではないものを主語述語構造及び動目構造の修飾成分及び拘束成分に分割する。
Figure 2016532942
ステップS104において、部分構文に含まれる動目構造及び主述構造に基づいて対応するイベントマイニングの目的語句を取得し、取得したイベントマイニングの目的語句を成分によって分類し、分類した成分をイベント知識インスタンスに対応に書き込み、イベント知識データベースの構築を完成する。
具体的に、当ステップS104において、先ず、取得したイベントマイニングの目的語句の中の主述構造を成分によって分類し、分類した成分全体をイベント知識インスタンスの主語実体、目的実体、および動作に対応に書き込み、取得したイベントマイニングの目的語句の中の動目構造に主語構造の存在が判定された場合には、主語構造をイベント知識インスタンスの主語実体に書き込み、動目構造を成分によって分類し、分類した成分全体をイベント知識インスタンスの目的実体および動作に対応に書き込んでから、取得したイベントマイニングの目的語句の中から主述構造、及び、動目構造を除いた後の部分構文を成分によって分類し、分類した成分全体をイベント知識インスタンスの修飾情報と拘束情報に対応に書き込む。そのうち、成分は、主語、述語、目的語、主語の連体修飾語、連用修飾語、および、目的語の連体修飾語の中の一種類または複数種類を含む。
本実施例には、部分構文に含まれる動目構造と主述構造によりイベントマイニングの目的語句は、次のようになる。
event_1マイニングの目的語句:91無線、網竜公司の子会社、中国をリードするモバイルインターネット会社である。
event_2マイニングの目的語句:Sj.91.comとapk.hiapk.comのウェブサイトに、それはiPhoneオペレーションシステムとAndroidオペレーションシステムに二つのスマートフォン応用配分プラットフォームを開発および運営する。
対応するイベントマイニングの目的語句を取得した後、動詞を中心としてマイニングを行う。すなわち、まず、イベントマイニングの目的語句の主述構造と動目構造を成分によって分類し、その後、ほかの部分構文を成分によって分類する。
本実施例には、まず、event_2マイニングの目的語句の主述構造を主語、主語の連体修飾語、述語のコア動詞、連用修飾語、目的語、および、目的語の連体修飾語などを成分によって分類し、それぞれイベント知識インスタンスの主語実体、目的実体および動作に書き込む。
たとえば、「それはiPhoneオペレーションシステムとAndroidオペレーションシステムに二つのスマートフォン応用配分プラットフォームを開発および運営する。」を次のような成分に分類する。
主語:それ、連用修飾語:iPhoneオペレーションシステムとAndroidオペレーションシステム、動詞:開発および運営する、目的語:二つのスマートフォン応用配分プラットフォーム。そして、分類した成分を表1に示すイベント知識データベースのイベント知識インスタンスに書き込む。書き込んだイベント知識データベースは表2に示される。
Figure 2016532942
その後、event_1マイニングの目的語句の動目構造を成分によって分類する。まず、全語句の中に主語構造の存在を判断する。存在すれば、それをイベント知識インスタンスの主語実体に書き込む。その後、文法によって動目構造の中の動詞、連用修飾語、目的語、および、目的語の連体修飾語などの成分をマイニングし、それぞれ対応するイベント知識インスタンスの目的実体および動作に書き込む。主語構造が存在しない場合、当マイニングされる部分構文を捨てる。
たとえば、「中国をリードするモバイルインターネット会社である」を次の成分に分類する。
動詞:である、目的語:モバイルインターネット会社、目的語の連体修飾語:中国をリードする。そして、分類した成分を表2に示すイベント知識データベースのイベント知識インスタンスに書き込む。書き込んだイベント知識データベースは表3に示される。
Figure 2016532942
最後に、他の修飾成分を添加する。たとえば、event_2マイニングの目的語句の連用修飾語構造を右側の最近のコア動作の拘束として、イベント知識インスタンスの中に添加する。たとえば、表4に示すように、「Sj.91.comとapk.hiapk.comのウェブサイトに」という用修飾語構造をイベント知識データベースのイベント知識インスタンスに書き込む。
Figure 2016532942
そして、名詞述語構造をイベント知識データベースのイベント知識インスタンスに書き込む。具体的に、まず、全語句の中に主語構造の存在を判断する。存在すれば、それをイベント知識インスタンスの主語実体の修飾部分に書き込む。存在しなければ、直接現在の部分構文を捨てる。たとえば、表5に示すように、名詞述語構造「網竜公司の子会社」をイベント知識データベースのイベント知識インスタンスに書き込む。
Figure 2016532942
表の中に太文字で表示されるのは、現在の表に新たに追加された部分である。上述表1〜表5は、イベント知識データベースの動態構築過程が示される。
上述から分かるように、本発明実施例は、主にウェブテキストの語句から細かく知識を収集して、予めその構造を定義したイベント知識データベースに書き込むことによって、イベント知識インスタンスを収集する。しかし、一つ完全なイベントにとって、単一のイベントの中の情報が不完全であるかもしれない。表6に示す三つのイベント知識インスタンスを例として、当該三つのイベント知識インスタンスがそれぞれ異なる側面から異なる順番で「百度が91無線を買収する」というイベントを説明した。しかし、ただ一つのイベント知識インスタンスから取得した情報は不完全である。
Figure 2016532942
イベント知識データベースの中において、できるだけ多くのイベント関連情報を収集するように、上述の細かいイベント知識インスタンスを融合し、もっと多くの詳しい情報を含み、もっと完全なイベント知識インスタンスに形成する必要がある。
したがって、図2に示すように、当方法は、ステップS104の後、さらに、ステップS105とステップS106を含む。
ステップS105において、イベント知識データベースのイベント知識インスタンスをクラスター分析し、等価イベント集合を取得する。
当ステップS105は、具体的に、イベント知識データベースの主語実体、目的実体及び動作の拘束情報が一致するイベント知識インスタンス全体をクラスターして第一等価イベントを取得し、第一等価イベントの中のコア動作を抽出して、等価動作辞典を生成するステップと、イベント知識データベースの主語実体及び目的実体が一致するイベント知識インスタンス全体をクラスターして第二等価イベントを取得し、等価動作辞典によって第二等価イベントの中からコア動作が等価するイベント知識インスタンス全体を選び出せ、等価イベント集合を生成するステップとを含む。
ステップS106において、等価イベント集合のイベント知識インスタンス全体の情報をイベント知識データベースに書き込んで、新しいイベント知識インスタンスを形成する。
表6の知識データベースに含まれる三つのイベント知識インスタンスを次のように融合する。
まず、動作主の主語実体と受動者の主語実体かつ拘束情報の衝突なしのイベント知識インスタンス全体をクラスターして、同じ種類のイベント知識インスタンス全体を「等価イベント」とする。等価イベントのコア動作を抽出して、「等価動作辞典」を形成する。本実施例には、「等価動作辞典」が、「買収、買収合併、被買収」である。さらに、動作主の主語実体と受動者の主語実体が一致するイベント知識インスタンス全体をクラスターして、「等価動作辞典」によって、クラスターしたものからコア動作に等価するイベント知識インスタンス全体を選び出せ、等価イベント集合を生成する。当等価イベント集合のイベント知識インスタンスがevent_1、event_2およびevent_3である。そして、等価イベント集合から任意のイベント知識インスタンスをコアイベントEVとする。集合中の他のイベントのすべての拘束および主語実体修飾属性をEVに融合し、最終的な融合イベント知識を形成して、イベント知識データベースに書き込み、知識データベースにより独立なイベントIDを配分する。上述融合処理によって、event_1、event_2およびevent_3は、表7に示すように、一つの新しいイベント知識インスタンスevent_4に融合される。
Figure 2016532942
上述のイベント知識データベースの構築方法によれば、予め定義したイベント知識構造と取得した部分構文によってイベント知識データベースを構築でき、当イベント知識データベースに基づいてウェブ知識を構造化して、知識間の推理と計算をサポートすることができる。さらに、関連イベントを融合することによって、ユーザが深い知識検索を行う時、ユーザにさらなる正確な検索結果を提供し、検索体験を向上する。
図3は本発明の一つの実施例のイベント知識データベースの構築装置の構造を示す模式図である。
図3に示すように、当イベント知識データベースの構築装置は、認識モジュール310、分割モジュール320、生成モジュール330、および、書き込みモジュール340を含む。
認識モジュール310は、テキストを認識して、イベントマイニングの候補語句を得る。分割モジュール320は、前記認識モジュールにより認識された前記イベントマイニングの候補語句を分割して、部分構文を取得する。生成モジュール330は、前記分割モジュールにより取得された部分構文と予め定義したイベント知識構造に基づいて、部分構文に含まれる動詞と目的語で構成された動目構造及び主語と述語で構成された主述構造の数に等しい数のイベント知識インスタンスを生成する。書き込みモジュール340は、部分構文に含まれる動目構造及び主述構造に基づいて対応するイベントマイニングの目的語句を取得し、取得したイベントマイニングの目的語句を成分によって分類し、分類した成分をイベント知識インスタンスに対応に書き込み、イベント知識データベースの構築を完成する。
本発明の実施例には、前記部分構文は、主述構造、動目構造、連用修飾語構造、主語構造、および、名詞と述語で構成された名詞述語構造の中の一種類または複数種類を含む。前記予め定義したイベント知識構造は、イベント知識インスタンス標識、主語実体、目的実体、および、動作を四つの属性として含み、前記主語実体は動作主に対応する実体情報およびその修飾情報を含み、前記目的実体は受動者に対応する実体情報およびその修飾情報を含み、前記動作はコア動作およびその拘束情報を含む。その中に、
a)イベント知識インスタンス標識:イベント知識インスタンスの唯一な独立標識であり、イベント知識データベースにより配分され、イベントID属性に記憶される。単一のイベント知識インスタンスには、一つだけのIDを有する。
b)主語実体:標識イベントの動作主(受け身語句の主語も動作主となれる)である。その「実体」属性域には、実体名および実体セマンティックIDを記憶する。修飾属性域(一つの実体は複数の修飾属性があることができる)には、実体の修飾成分と拘束成分を記憶する。単一のイベント知識の中に、少なくとも一つの主語実体属性が存在する必要がなる。主語実体は複数でもよい。当然、前記修飾属性域に記憶されたのは属性の修飾情報である。
c)目的実体:標識イベントの受動者である。その「実体」属性域には、実体名および実体セマンティックIDを記憶する。実体語の他、数量語(たとえば、10.39%株)、時間(時期、時間分秒)、時間区間(XX日からYY日まで、AA点からBB点まで)、資源(url、uriなど)、電話/郵便番号、位置/方向(たとえば、食堂、南方)、工具/材料(たとえば、毛糸、給料)、比較(たとえば、一対二)、方式手段(たとえば、手術、低音)、枚挙語(たとえば、星座、血液型)、および、普通名詞(たとえば、携帯電話応用配分プラットフォーム)などの語彙も目的実体になってもよい。修飾属性域には、主に目的実体の修飾成分と拘束成分を記憶する。単一のイベント知識の中に、たとえば、「ジョブズがなくなった」のように、目的実体がなくでもよい。当然、前記修飾属性域に記憶されたのは属性の修飾情報である。
d)動作:標識イベントにおける主語実体のイベント中の行為である。「コア動作」が主語実体の行為自体を標識する。単一のイベント知識の中に、一つだけのコア動作属性(たとえば、「開発と運営」のような並列動作が存在できる)を有する。拘束属性がコア動作を修飾する。拘束属性は複数個存在できる。拘束するために、具体的な属性類(たとえば、時間、価額、状態、方位など)を標識でき、しかも、それに対応する属性値に対し、タイプ(たとえば、数量語タイプ、実体タイプ)を指定できる。
前記書き込みモジュール340は、対応するイベントマイニングの目的語句を取得した後、動詞を中心としてマイニングを行う。すなわち、まず、イベントマイニングの目的語句の主述構造と動目構造を成分によって分類し、その後、ほかの部分構文を成分によって分類する。
具体的に、前記書き込みモジュール340は、取得したイベントマイニングの目的語句の中の主述構造を成分によって分類し、分類した成分全体を前記イベント知識インスタンスの主語実体、目的実体、および動作に対応に書き込み、取得したイベントマイニングの目的語句の中の動目構造に主語構造の存在が判定された場合には、前記主語構造を前記イベント知識インスタンスの主語実体に書き込み、前記動目構造を成分によって分類し、分類した成分全体を前記イベント知識インスタンスの目的実体および動作に対応に書き込み、取得したイベントマイニングの目的語句の中から主述構造、及び動目構造を除いた後の部分構文を成分によって分類し、分類した成分全体を前記イベント知識インスタンスの修飾情報と拘束情報に対応に書き込むように構成されており、前記成分は、主語、述語、目的語、主語の連体修飾語、連用修飾語、および、目的語の連体修飾語の中の一種類または複数種類を含む。
また、図4に示すように、当装置は、捨てモジュール350を更に含む。捨てモジュール350は、取得したイベントマイニングの目的語句の中の動目構造に、主語構造が存在しないと判定された場合、前記動目構造を捨てる。
前記認識モジュール310、分割モジュール320、生成モジュール330、書き込みモジュール340、および捨てモジュール350を含む装置の作動フローチャートは図1を参照する。ここでその説明を省略する。
さらに、当装置は、融合モジュール360を含んでもよい。融合モジュール360は、前記書き込みモジュール340が分類した成分を前記イベント知識インスタンスに対応に書き込んだ後、前記イベント知識データベースのイベント知識インスタンスをクラスター分析し、等価イベント集合を取得し、前記等価イベント集合のイベント知識インスタンス全体の情報を前記イベント知識データベースに書き込んで、新しいイベント知識インスタンスを形成する。
具体的に、融合モジュール360は、イベント知識データベースの主語実体、目的実体及び動作の拘束情報が一致するイベント知識インスタンス全体をクラスターして第一等価イベントを取得し、第一等価イベントの中のコア動作を抽出して、等価動作辞典を生成し、イベント知識データベースの主語実体及び目的実体が一致するイベント知識インスタンス全体をクラスターして第二等価イベントを取得し、等価動作辞典によって第二等価イベントの中からコア動作が等価するイベント知識インスタンス全体を選び出せ、等価イベント集合を生成するように構成されている。
前記認識モジュール310、分割モジュール320、生成モジュール330、書き込みモジュール340、捨てモジュール350、および、融合モジュール360を含む装置の作動フローチャートは図2を参照する。ここでその説明を省略する。
上述イベント知識データベースの構築装置によれば、予め定義したイベント知識構造と取得した部分構文によってイベント知識データベースを構築でき、当イベント知識データベースに基づいてウェブ知識を構造化して、知識間の推理と計算をサポートすることができる。さらに、関連イベントを融合することによって、ユーザが深い知識検索を行う時、ユーザにさらなる正確な検索結果を提供し、検索体験を向上する。
前記実施例を実現するために、本発明は、コンピュータに、本発明の任意の実施例に記載のイベント知識データベースの構築方法を実行させるプログラムを記憶する記憶媒体を更に提出する。
また、理解すべきなのは、本発明の各部分は、ハードウェア、ソフトウェア、部品またはそれらの組み合わせで実現できる。前記実施例には、複数のステップまたは方法がメモリに保存され、適当なコマンド実行システムのソフトウェアまたは部品で実現される。たとえば、ハードウェアで実現する場合、他の実施方式と同じように、本領域周知の下記の任意一つまたはそれらの組み合わせで実現できる。すなわち、デジタル信号に対してロジック機能を実現するロジックゲート回路を有する個別のロジック回路、ロジックゲート回路を組み合わせた適当な専用IC、プログラマブルゲートアレイ(PGA)、フィールドプログラマブルゲートアレイ(FPGA)などである。
本明細書には、用語「一つの実施例」、「いくつかの実施例」、「例示」、「具体的例示」、または、「いくつかの例示」などは、当実施例や例示の具体的特徴、構造、材料または特点が本発明の少なくとも一つの実施例や例示に含まれることを意味する。本説明書には、前記用語の説明が必ずしも同じ実施例や例示を意味しない。また、説明の中の具体的特徴、構造、材料または特点は、任意の一つやいくつかの実施例や例示に適当な方式で結合されることができる。
上述実施例は単なる本発明の技術本案を説明するものであり、それを限定するものではない。本発明の趣旨を逸脱しない範囲内で種々の改良変形が可能であり、本発明の範囲は特許請求の範囲およびその同等物だけによって定められる。

Claims (15)

  1. テキストを認識して、イベントマイニングの候補語句を得るステップと、
    認識された前記イベントマイニングの候補語句を分割して、部分構文を取得するステップと、
    前記部分構文と予め定義したイベント知識構造に基づいて、前記部分構文に含まれる動詞と目的語で構成された動目構造及び主語と述語で構成された主述構造の数に等しい数のイベント知識インスタンスを生成するステップと、
    前記部分構文に含まれる動目構造及び主述構造に基づいて対応するイベントマイニングの目的語句を取得し、取得したイベントマイニングの目的語句を成分によって分類し、分類した成分を前記イベント知識インスタンスに対応に書き込み、前記イベント知識データベースの構築を完成するステップと、を含む
    ことを特徴とするイベント知識データベースの構築方法。
  2. 前記部分構文は、主述構造、動目構造、連用修飾語構造、主語構造、および、名詞と述語で構成された名詞述語構造の中の一種類または複数種類を含む
    ことを特徴とする請求項1に記載のイベント知識データベースの構築方法。
  3. 前記予め定義したイベント知識構造は、イベント知識インスタンス標識、主語実体、目的実体、および、動作を四つの属性として含み、前記主語実体は動作主に対応する実体情報およびその修飾情報を含み、前記目的実体は受動者に対応する実体情報およびその修飾情報を含み、前記動作はコア動作およびその拘束情報を含む
    ことを特徴とする請求項1に記載のイベント知識データベースの構築方法。
  4. 前記取得したイベントマイニングの目的語句を成分によって分類し、分類した成分を前記イベント知識インスタンスに対応に書き込むことは、
    取得したイベントマイニングの目的語句の中の主述構造を成分によって分類し、分類した成分全体を前記イベント知識インスタンスの主語実体、目的実体、および動作に対応に書き込むステップと、
    取得したイベントマイニングの目的語句の中の動目構造に主語構造の存在が判定された場合には、前記主語構造を前記イベント知識インスタンスの主語実体に書き込み、前記動目構造を成分によって分類し、分類した成分全体を前記イベント知識インスタンスの目的実体および動作に対応に書き込むステップと、
    取得したイベントマイニングの目的語句の中から主述構造、及び、動目構造を除いた後の部分構文を成分によって分類し、分類した成分全体を前記イベント知識インスタンスの修飾情報と拘束情報に対応に書き込むステップと、
    を含み、
    前記成分は、主語、述語、目的語、主語の連体修飾語、連用修飾語、および、目的語の連体修飾語の中の一種類または複数種類を含む
    ことを特徴とする請求項3に記載のイベント知識データベースの構築方法。
  5. 取得したイベントマイニングの目的語句の中の動目構造に、主語構造が存在しないと判定された場合、前記動目構造を捨てるステップを更に含む
    ことを特徴とする請求項4に記載のイベント知識データベースの構築方法。
  6. 前記分類した成分を前記イベント知識インスタンスに対応に書き込んだ後、さらに、
    前記イベント知識データベースのイベント知識インスタンスをクラスター分析し、等価イベント集合を取得するステップと
    前記等価イベント集合のイベント知識インスタンス全体の情報を前記イベント知識データベースに書き込んで、新しいイベント知識インスタンスを形成するステップとを更に含む
    ことを特徴とする請求項5に記載のイベント知識データベースの構築方法。
  7. 前記イベント知識データベースのイベント知識インスタンスをクラスター分析し、等価イベント集合を取得するステップは、
    前記イベント知識データベースの主語実体、目的実体及び動作の拘束情報が一致するイベント知識インスタンス全体をクラスターして第一等価イベントを取得し、前記第一等価イベントの中のコア動作を抽出して、等価動作辞典を生成するステップと、
    前記イベント知識データベースの主語実体及び目的実体が一致するイベント知識インスタンス全体をクラスターして第二等価イベントを取得し、前記等価動作辞典によって前記第二等価イベントの中からコア動作が等価するイベント知識インスタンス全体を選び出せ、等価イベント集合を生成するステップとを含む
    ことを特徴とする請求項6に記載のイベント知識データベースの構築方法。
  8. テキストを認識して、イベントマイニングの候補語句を得る認識モジュールと、
    前記認識モジュールにより認識された前記イベントマイニングの候補語句を分割して、部分構文を取得する分割モジュールと、
    前記分割モジュールにより取得された前記部分構文と予め定義したイベント知識構造に基づいて、前記部分構文に含まれる動詞と目的語で構成された動目構造及び主語と述語で構成された主述構造の数に等しい数のイベント知識インスタンスを生成する生成モジュールと、
    前記部分構文に含まれる動目構造及び主述構造に基づいて対応するイベントマイニングの目的語句を取得し、取得したイベントマイニングの目的語句を成分によって分類し、分類した成分を前記イベント知識インスタンスに対応に書き込み、前記イベント知識データベースの構築を完成する書き込みモジュールと、
    を含むことを特徴とするイベント知識データベースの構築装置。
  9. 前記部分構文は、主述構造、動目構造、連用修飾語構造、主語構造、および、名詞と述語で構成された名詞述語構造の中の一種類または複数種類を含むことを特徴とする請求項8に記載のイベント知識データベースの構築装置。
  10. 前記予め定義したイベント知識構造は、イベント知識インスタンス標識、主語実体、目的実体、および、動作を四つの属性として含み、前記主語実体は動作主に対応する実体情報およびその修飾情報を含み、前記目的実体は受動者に対応する実体情報およびその修飾情報を含み、前記動作はコア動作およびその拘束情報を含む
    ことを特徴とする請求項8に記載のイベント知識データベースの構築装置。
  11. 前記書き込みモジュールは、
    取得したイベントマイニングの目的語句の中の主述構造を成分によって分類し、分類した成分全体を前記イベント知識インスタンスの主語実体、目的実体、および動作に対応に書き込み、取得したイベントマイニングの目的語句の中の動目構造に主語構造の存在が判定された場合には、前記主語構造を前記イベント知識インスタンスの主語実体に書き込み、前記動目構造を成分によって分類し、分類した成分全体を前記イベント知識インスタンスの目的実体および動作に対応に書き込み、取得したイベントマイニングの目的語句の中から主述構造、及び、動目構造を除いた後の部分構文を成分によって分類し、分類した成分全体を前記イベント知識インスタンスの修飾情報と拘束情報に対応に書き込むように構成されており、
    前記成分は、主語、述語、目的語、主語の連体修飾語、連用修飾語、および、目的語の連体修飾語の中の一種類または複数種類を含む
    ことを特徴とする請求項10に記載のイベント知識データベースの構築装置。
  12. 取得したイベントマイニングの目的語句の中の動目構造に、主語構造が存在しないと判定された場合、前記動目構造を捨てる捨てモジュールを更に含む
    ことを特徴とする請求項11に記載のイベント知識データベースの構築装置。
  13. さらに、前記書き込みモジュールが分類した成分を前記イベント知識インスタンスに対応に書き込んだ後、前記イベント知識データベースのイベント知識インスタンスをクラスター分析し、等価イベント集合を取得し、前記等価イベント集合のイベント知識インスタンス全体の情報を前記イベント知識データベースに書き込んで、新しいイベント知識インスタンスを形成する融合モジュールを更に含む
    ことを特徴とする請求項12に記載のイベント知識データベースの構築装置。
  14. 前記融合モジュールは、
    前記イベント知識データベースの主語実体、目的実体及び動作の拘束情報が一致するイベント知識インスタンス全体をクラスターして第一等価イベントを取得し、前記第一等価イベントの中のコア動作を抽出して、等価動作辞典を生成し、前記イベント知識データベースの主語実体及び目的実体が一致するイベント知識インスタンス全体をクラスターして第二等価イベントを取得し、前記等価動作辞典によって前記第二等価イベントの中からコア動作が等価するイベント知識インスタンス全体を選び出せ、等価イベント集合を生成するように構成されている
    ことを特徴とする請求項13に記載のイベント知識データベースの構築装置。
  15. コンピュータに、請求項1ないし7のいずれか一項に記載のイベント知識データベースの構築方法を実行させるプログラムを記憶したことを特徴とする記憶媒体。
JP2016526443A 2014-01-09 2014-10-31 イベント知識データベースの構築方法および装置 Active JP6163607B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201410010694.7 2014-01-09
CN201410010694.7A CN103699689B (zh) 2014-01-09 2014-01-09 事件知识库的构建方法及装置
PCT/CN2014/090073 WO2015103899A1 (zh) 2014-01-09 2014-10-31 事件知识库的构建方法及装置

Publications (2)

Publication Number Publication Date
JP2016532942A true JP2016532942A (ja) 2016-10-20
JP6163607B2 JP6163607B2 (ja) 2017-07-12

Family

ID=50361217

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016526443A Active JP6163607B2 (ja) 2014-01-09 2014-10-31 イベント知識データベースの構築方法および装置

Country Status (5)

Country Link
US (1) US10282664B2 (ja)
JP (1) JP6163607B2 (ja)
KR (1) KR101707369B1 (ja)
CN (1) CN103699689B (ja)
WO (1) WO2015103899A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021176572A1 (ja) 2020-03-03 2021-09-10 富士通株式会社 機械学習プログラム、機械学習方法及び機械学習装置
WO2022208822A1 (ja) 2021-03-31 2022-10-06 富士通株式会社 情報処理プログラム、情報処理方法、情報処理装置および情報処理システム

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699689B (zh) * 2014-01-09 2017-02-15 百度在线网络技术(北京)有限公司 事件知识库的构建方法及装置
CN105528349B (zh) 2014-09-29 2019-02-01 华为技术有限公司 知识库中问句解析的方法及设备
CN104573006A (zh) * 2015-01-08 2015-04-29 南通大学 一种公共卫生突发事件领域知识库的构建方法
CN104794163B (zh) * 2015-03-25 2018-07-13 中国人民大学 实体集合扩展方法
CN108009184B (zh) * 2016-10-27 2021-08-27 北大方正集团有限公司 知识库同名实例混淆检测的方法及装置
CN108549667B (zh) * 2018-03-23 2022-04-08 绍兴诺雷智信息科技有限公司 一种结构化工程设计知识的语义检索方法
CN110569335B (zh) * 2018-03-23 2022-05-27 百度在线网络技术(北京)有限公司 基于人工智能的三元组校验方法、装置及存储介质
JP7095377B2 (ja) * 2018-04-17 2022-07-05 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
CN110889274B (zh) * 2018-08-17 2022-02-08 北大方正集团有限公司 信息质量评估方法、装置、设备及计算机可读存储介质
CN111443964B (zh) * 2019-01-17 2023-10-20 伊姆西Ip控股有限责任公司 更新用户界面的方法、设备和计算机可读存储介质
CN110263177B (zh) * 2019-05-23 2021-09-07 广州市香港科大霍英东研究院 用于事件预测的知识图构建方法与事件预测方法
CN110348018A (zh) * 2019-07-16 2019-10-18 苏州大学 使用局部学习完成简易事件抽取的方法
CN110543574B (zh) * 2019-08-30 2022-05-17 北京百度网讯科技有限公司 一种知识图谱的构建方法、装置、设备及介质
CN111382256B (zh) * 2020-03-20 2024-04-09 北京百度网讯科技有限公司 信息推荐方法及装置
WO2022102825A1 (ko) * 2020-11-16 2022-05-19 주식회사 솔트룩스 표로부터 지식 데이터를 추출하기 위한 시스템 및 방법
CN113157922B (zh) * 2021-04-28 2022-01-21 江苏易安联网络技术有限公司 基于图的网络实体行为评估、可视化方法
CN113312490B (zh) * 2021-04-28 2023-04-18 乐山师范学院 一种针对突发事件的事件知识图谱构建方法
CN113312500B (zh) * 2021-06-24 2022-05-03 河海大学 一种面向大坝安全运行的事件图谱构建方法
CN113704490B (zh) * 2021-08-19 2023-06-20 扬州大学 一种面向异构数据的新工科教育知识图谱构建方法
CN117743586B (zh) * 2023-09-07 2024-07-05 四川大学 一种基于情绪事件知识图谱的心理健康辅助评价方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020174083A1 (en) * 2001-05-17 2002-11-21 Ibm Corporation Systems and methods for identifying and counting instances of temporal patterns
JP2005115882A (ja) * 2003-10-03 2005-04-28 Akira Sagaraki 知識発見方法および知識発見システム
JP2007133905A (ja) * 2007-01-22 2007-05-31 Fuji Xerox Co Ltd 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2011123794A (ja) * 2009-12-14 2011-06-23 Nomura Research Institute Ltd 情報抽出システム及び情報抽出プログラム
CN102207948A (zh) * 2010-07-13 2011-10-05 天津海量信息技术有限公司 一种事件陈述句素材库的生成方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100481580B1 (ko) 2002-10-09 2005-04-08 한국전자통신연구원 문서에서 이벤트 문장을 추출하는 장치 및 그 방법
WO2007097208A1 (ja) * 2006-02-27 2007-08-30 Nec Corporation 言語処理装置、言語処理方法および言語処理用プログラム
CN102117283A (zh) * 2009-12-30 2011-07-06 安世亚太科技(北京)有限公司 一种基于语义索引的数据检索方法
CN102207947B (zh) * 2010-06-29 2013-05-15 天津海量信息技术有限公司 一种直接引语素材库的生成方法
CN101937430B (zh) * 2010-09-03 2015-04-15 清华大学 一种汉语句子中事件句式的抽取方法
KR20130099327A (ko) * 2012-02-29 2013-09-06 한국전자통신연구원 오픈 도메인 정보 추출 장치 및 방법
US9208440B2 (en) * 2012-05-29 2015-12-08 Battelle Memorial Institute Method of analyzing a scenario represented as elements of a tensor space, and scored using tensor operators
CN103049532A (zh) * 2012-12-21 2013-04-17 东莞中国科学院云计算产业技术创新与育成中心 基于突发事件应急管理的知识库引擎构建及其查询方法
US9665875B2 (en) * 2013-10-18 2017-05-30 Sap Se Automated software tools for improving sales
CN103699689B (zh) * 2014-01-09 2017-02-15 百度在线网络技术(北京)有限公司 事件知识库的构建方法及装置
CN103902681A (zh) * 2014-03-21 2014-07-02 百度在线网络技术(北京)有限公司 搜索推荐方法和装置
CN103914548B (zh) * 2014-04-10 2018-01-09 北京百度网讯科技有限公司 信息搜索方法和装置
CN104035958B (zh) * 2014-04-14 2018-01-19 百度在线网络技术(北京)有限公司 搜索方法和搜索引擎
CN103995870A (zh) * 2014-05-21 2014-08-20 百度在线网络技术(北京)有限公司 交互式搜索方法和装置
CN104123351B (zh) * 2014-07-09 2017-08-25 百度在线网络技术(北京)有限公司 交互式搜索方法和装置
CN104102713B (zh) * 2014-07-16 2018-01-19 百度在线网络技术(北京)有限公司 推荐结果的展现方法和装置
CN104573028B (zh) * 2015-01-14 2019-01-25 百度在线网络技术(北京)有限公司 实现智能问答的方法和系统
CN104965426A (zh) * 2015-06-24 2015-10-07 百度在线网络技术(北京)有限公司 基于人工智能的智能机器人控制系统、方法和装置
CN107423274B (zh) * 2017-06-07 2020-11-20 北京百度网讯科技有限公司 基于人工智能的比赛解说内容生成方法、装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020174083A1 (en) * 2001-05-17 2002-11-21 Ibm Corporation Systems and methods for identifying and counting instances of temporal patterns
JP2005115882A (ja) * 2003-10-03 2005-04-28 Akira Sagaraki 知識発見方法および知識発見システム
JP2007133905A (ja) * 2007-01-22 2007-05-31 Fuji Xerox Co Ltd 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2011123794A (ja) * 2009-12-14 2011-06-23 Nomura Research Institute Ltd 情報抽出システム及び情報抽出プログラム
CN102207948A (zh) * 2010-07-13 2011-10-05 天津海量信息技术有限公司 一种事件陈述句素材库的生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
数原良彦 他: "話題語を手がかりとしたブログからのイベントマイニングの検討", 情報処理学会研究報告, vol. 2006, no. 124, JPN6017007092, 23 November 2006 (2006-11-23), pages 67 - 73, ISSN: 0003565874 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021176572A1 (ja) 2020-03-03 2021-09-10 富士通株式会社 機械学習プログラム、機械学習方法及び機械学習装置
WO2022208822A1 (ja) 2021-03-31 2022-10-06 富士通株式会社 情報処理プログラム、情報処理方法、情報処理装置および情報処理システム

Also Published As

Publication number Publication date
US20160314394A1 (en) 2016-10-27
CN103699689A (zh) 2014-04-02
US10282664B2 (en) 2019-05-07
WO2015103899A1 (zh) 2015-07-16
JP6163607B2 (ja) 2017-07-12
KR101707369B1 (ko) 2017-02-15
CN103699689B (zh) 2017-02-15
KR20160018588A (ko) 2016-02-17

Similar Documents

Publication Publication Date Title
JP6163607B2 (ja) イベント知識データベースの構築方法および装置
CN105900081B (zh) 基于自然语言处理的搜索
CN109408811B (zh) 一种数据处理方法及服务器
JP6404106B2 (ja) コンテント及び関係距離に基づいて人々をつなげるコンピューティング装置及び方法
CN110020063B (zh) 垂直搜索方法和系统
CN110502227A (zh) 代码补全的方法及装置、存储介质、电子设备
CN110188248A (zh) 基于新闻问答交互系统的数据处理方法、装置及电子设备
US11107470B2 (en) Platform selection for performing requested actions in audio-based computing environments
JP6088091B1 (ja) 更新装置、更新方法、及び更新プログラム
CN109948710A (zh) 基于api相似度的微服务识别方法
US11694688B2 (en) Platform selection for performing requested actions in audio-based computing environments
CN110442730A (zh) 一种基于deepdive的知识图谱构建方法
CN106462579B (zh) 为选定上下文构造词典
US20150363473A1 (en) Direct answer triggering in search
Subirana Call for a wake standard for artificial intelligence
JP6092493B1 (ja) データベース管理装置およびその方法
CN105335466A (zh) 一种音频数据的检索方法与装置
US20160117349A1 (en) Collective reconciliation
KR20200086586A (ko) 온톨로지 기반의 프레임을 이용한 지식 추출 시스템
CN117827674A (zh) 缺陷与测试用例的匹配方法、装置、电子设备和存储介质
US10318528B2 (en) Query response using mapping to parameterized report
CN107180024A (zh) 一种中心连通子图的多源异构数据实体识别方法及系统
US9984684B1 (en) Inducing command inputs from high precision and high recall data
CN112988986B (zh) 人机交互方法、装置与设备
JP2013145508A (ja) グラフパターンマッチングシステムおよびグラフパターン代表元抽出方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170619

R150 Certificate of patent or registration of utility model

Ref document number: 6163607

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250