JP7223785B2 - 時系列ナレッジグラフ生成方法、装置、デバイス及び媒体 - Google Patents

時系列ナレッジグラフ生成方法、装置、デバイス及び媒体 Download PDF

Info

Publication number
JP7223785B2
JP7223785B2 JP2021004678A JP2021004678A JP7223785B2 JP 7223785 B2 JP7223785 B2 JP 7223785B2 JP 2021004678 A JP2021004678 A JP 2021004678A JP 2021004678 A JP2021004678 A JP 2021004678A JP 7223785 B2 JP7223785 B2 JP 7223785B2
Authority
JP
Japan
Prior art keywords
time
corpus
entity
data
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021004678A
Other languages
English (en)
Other versions
JP2021114291A (ja
Inventor
ファン ファン,
シュアンジェ リー,
ヤービン シー,
イェ ジァン,
ヤン ヂャン,
ヨン ヂュ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021114291A publication Critical patent/JP2021114291A/ja
Application granted granted Critical
Publication of JP7223785B2 publication Critical patent/JP7223785B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2264Multidimensional index structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Description

本願の実施形態は、コンピュータ技術の分野に関し、具体的にナレッジグラフ技術に関し、特に、時系列ナレッジグラフ生成方法、装置、デバイス及び媒体に関する。
ナレッジグラフは、セマンティックの角度から構造化情報を用いて現実世界のナレッジを表すセマンティックネットワークであり、現実世界の物事及びその相互関係に対して形式化で記述することができる。ナレッジとは、ナレッジグラフの中の、現実世界の客観的事実に関する記述を意味し、通常、実体ペア(サブジェクトS‐オブジェクトO pair)及びそれらの間の関係(P)を含み、SPOトリプル(3-タプル)の形式で表す。
しかしながら、現在、汎用のナレッジトリプルは、ナレッジの時間に対する表現精度が高くなく、離散時間状態によって簡単に表すことしかできない。また、1つの測定方式としての時間は、自ら計算操作を行うことができるが、ナレッジの時間に対する表現精度が高くないせいで、ナレッジが時間情報の計算をサポートしないことを招いてしまう。
本願の実施形態は、時系列ナレッジグラフ生成方法、装置、デバイス及び媒体を提供する。時間セグメントを含む構造化データフォーマットに基づいて時系列ナレッジグラフを生成する方式を提案し、時系列ナレッジグラフを構築するデータフォーマットに対して統一的な標準化を行い、ナレッジグラフの中のナレッジの時間情報の表現精度を高める。
第1の実施態様においては、本願の実施形態は、時間情報を含むコーパスを取得することと、前記コーパスに対して実体ペア、実体関係及び前記実体関係の有効期限を表すために用いられる前記実体関係のターゲット時間セグメントを含む多元データの抽出を行うことと、前記実体ペア、実体関係及び前記実体関係のターゲット時間セグメントに基づき、時系列ナレッジグラフを生成することとを含む時系列ナレッジグラフ生成方法を提供する。
前記出願の1つの実施形態は、以下のメリット又は有益な効果を有する。時間セグメントを含む構造化データフォーマットに基づいて時系列ナレッジグラフを生成する方式を提案し、時系列ナレッジグラフを構築するデータフォーマットに対して統一的な標準化を行い、時系列ナレッジグラフにおいては、それぞれの実体ペアの実体関係の有効期限を正確に表現し、時間情報の表現精度を高めることができ、また、実体関係の時間セグメントに基づいて時間次元のナレッジ計算をサポートすることができる。
前記実体関係のターゲット時間セグメントの抽出プロセスは、前記多元データの抽出により、前記実体関係の複数の時間セグメントを取得することと、前記複数の時間セグメントに対して融合処理を行い、前記ターゲット時間セグメントを取得することとを含むことが好ましい。
前記出願の中の1つの実施形態は、以下のメリット又は有益な効果を有する。
時系列ナレッジグラフの中のそれぞれの実体関係の有効な時間セグメントの正確性及び完全性を確保することができる。
前記複数の時間セグメントに対して融合処理を行い、前記ターゲット時間セグメントを取得することは、前記複数の時間セグメントの中のそれぞれの時間セグメントの信用度によって、前記複数の時間セグメントに対して選別することと、選別された後の時間セグメントに対して時間の順序に従って整合し、前記ターゲット時間セグメントを取得することとを含むことが好ましい。
前記複数の時間セグメントの中のそれぞれの時間セグメントの信用度によって、前記複数の時間セグメントに対して選別することは、前記複数の時間セグメントの中のそれぞれの時間セグメントに対応するデータソースの、前記コーパスの中の数を統計することと、前記数に基づいてそれぞれの時間セグメントの信用度を確定することと、前記信用度によって前記複数の時間セグメントに対して選別することとを含むことが好ましい。
前記方法は、前記ターゲット時間セグメントの時間起点及び時間終点にナル値が存在するか否かを確定することと、ナル値が存在する場合、現在のコーパスと異なるソースの候補コーパスを用いて前記ナル値の有効性を確定することとを更に含むことが好ましい。
前記コーパスに対して多元データの抽出を行うことは、予め訓練された特徴抽出モデルを用いて前記コーパスの中のそれぞれの語句に対して特徴の抽出を行うことと、それぞれの語句の抽出された特徴に基づき、それぞれの語句の中のワードに対して分類タグ付けを行い、前記多元データを取得することとを含むことが好ましい。
前記方法は、訓練コーパスセット及び前記訓練コーパスセットの中のそれぞれの語句の多元データのタグ付け結果を用い、訓練することで多元データ抽出モデルを取得することにより、前記多元データ抽出モデルを用いて前記特徴抽出及び前記分類タグ付けの操作を行うことを更に含むことが好ましい。
前記コーパスに対して多元データの抽出を行うことは、前記コーパスの中のテキストの主題又はテキスト構造を分析することと、前記テキストの主題が所定主題に属するか、又は、前記テキスト構造が所定テキスト構造に属すれば、異なるデータ抽出方式を用いて前記多元データを抽出することとを含むことが好ましい。
前記出願の中の1つの実施形態は、以下のメリット又は有益な効果を有する。本実施形態の方案は、コーパスの中のテキスト構造及びテキスト主題に応じて、異なるナレッジ抽出方式を用いて多元データの中のそれぞれのデータに対して柔軟に区別して抽出し、ナレッジ抽出の効率及び正確性を高めることに寄与する。
異なるデータ抽出方式を用いて前記多元データを抽出することは、ナレッジ抽出ニーズに基づいて予め定義された、実体関係を確定する方式である所定関係抽出方式によって、前記テキストの語句の中から前記実体関係を抽出することと、前記テキストの中の語句に対して特徴の抽出及びワード分類タグ付けを行うことにより、前記実体ペア及び前記実体関係のターゲット時間セグメントを取得することとを含むことが好ましい。
前記コーパスに対して多元データの抽出を行った後、前記方法は、ナレッジ抽出ニーズに従って、前記抽出された実体ペアの中の任意の1つのアーギュメント及び前記抽出された実体関係に対して曖昧性解消を行うことと、曖昧性解消された後の実体ペア及び曖昧性解消された後の実体関係に対して融合を行うこととを更に含むことが好ましい。
前記出願の中の1つの実施形態は、以下のメリット又は有益な効果を有する。ナレッジの曖昧性解消及びナレッジの融合等の後処理の操作によって、時系列ナレッジグラフを構築する多元データの表現正確性及びナレッジの完全性を高めることができる。
時間情報を含むコーパスを取得することは、コーパスの本文に記載の時間、コーパスのデータのプッシュ時間、コーパスのデータの更新時間及びコーパスのソースに基づいて間接的に獲得された時間を含む前記時間情報を識別することによって、前記時間情報を含むコーパスを取得することを含むことが好ましい。
前記出願の中の1つの実施形態は、以下のメリット又は有益な効果を有する。
時間情報によって現在のナレッジ抽出に用いられるコーパスを選別することにより、使用可能なコーパスの適切性及びコーパスの品質を確保することができる。
前記多元データは、クインタプル(5-タプル)データ形式を採用し、それぞれは、サブジェクト、実体関係、オブジェクト、関係有効時間起点、関係失効時間終点を含むことが好ましい。
第2の実施態様においては、本願の実施形態は、時間情報を含むコーパスを取得するためのコーパス取得モジュールと、前記コーパスに対して実体ペア、実体関係及び前記実体関係の有効期限を表すために用いられる前記実体関係のターゲット時間セグメントを含む多元データの抽出を行うためのデータ抽出モジュールと、前記実体ペア、実体関係及び前記実体関係のターゲット時間セグメントに基づき、時系列ナレッジグラフを生成するためのグラフ生成モジュールとを備える時系列ナレッジグラフ生成装置を更に提供する。
第3の実施態様においては、本願の実施形態は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続するメモリとを備える電子デバイスを更に提供する。前記メモリは、前記少なくとも1つのプロセッサにより実行される命令を記憶し、前記命令が前記少なくとも1つのプロセッサにより実行されることにより、前記少なくとも1つのプロセッサは、本願の実施形態の何れか1つに記載の時系列ナレッジグラフ生成方法を実行する。
第4の実施態様においては、本願の実施形態は、コンピュータ命令が記憶されている非一時的コンピュータ読み取り可能な記憶媒体を更に提供する。前記コンピュータ命令は、前記コンピュータが本願の実施形態の何れか1つに記載の時系列ナレッジグラフ生成方法を実行するために用いられる。
第5の実施態様によれば、コンピュータプログラムであって、プロセッサにより実行されると、本願の実施形態の何れか1つに記載の時系列ナレッジグラフ生成方法を実行させるコンピュータプログラムを提供する。
本願の実施形態の技術案により、実体ペア、実体関係及び実体関係のターゲット時間セグメントを同時に抽出することによって、時間セグメントを含む構造化データフォーマットに基づいて時系列ナレッジグラフを生成する方式を提案し、時系列ナレッジグラフを構築するデータフォーマットに対して統一的な標準化を行い、時系列ナレッジグラフにおいては、それぞれの実体ペアの実体関係の有効期限を正確に表現することができ、従来技術におけるナレッジグラフの中の時間情報の表現精度が比較的低いという問題を解決し、時間情報の表現精度を高めることができ、また、実体関係の時間セグメントに基づいて時間次元のナレッジ計算をサポートし、時系列ナレッジを柔軟に使用することが向上する。また、時系列ナレッジグラフは、ナレッジ情報を提供する必要のある場面をより豊かにサポートすることができる。上述した好ましい方式が有する他の効果は、後述において具体的な実施形態に合わせて説明する。
図面は、本技術案をより良く理解するために用いられ、本願を限定しない。
本願の実施形態による1つの時系列ナレッジグラフ生成方法のフローチャート図である。 本願の実施形態によるもう1つの時系列ナレッジグラフ生成方法のフローチャート図である。 本願の実施形態による1つの時系列ナレッジグラフ生成装置の構造模式図である。 本願の実施形態による1つの電子デバイスのブロック図である。
以下、図面を参照しながら、本願の例示する実施形態を説明するが、理解しやすくするために、本願の実施形態の様々な細部が含まれており、それらは、例示するものに過ぎないことを理解されたい。よって、当業者は、本願の範囲及び精神から逸脱せずに、ここに記載の実施形態に対して様々な変更及び補正を行うことができることを認識すべきである。同様に、明確でかつ簡潔にするために、以下の記述においては、周知の機能及び構造に対する記載を省略している。
図1は、本願の実施形態による1つの時系列ナレッジグラフ生成方法のフローチャート図である。本実施形態は、コーパスに対してナレッジ抽出を行うことにより、実体関係有効時間セグメントを含む時系列ナレッジグラフを構築する場合に適用することができる。本実施形態の方法は、時系列ナレッジグラフ生成装置により実行することができ、当該装置は、ソフトウェア及び/又はハードウェアの方式で実現することができ、計算能力を有する任意の電子デバイスに集積することができ、例えば、サーバー等である。
図1に示すように、本実施形態による時系列ナレッジグラフ生成方法は、S101、S102及びS103を備える。
S101においては、時間情報を含むコーパスを取得する。
本実施形態においては、コーパスは、ウェブページ、百科事典データベース等をソースとすることができ、異なるナレッジ抽出ニーズに応じてウェブページは様々な主題種類を含むことができ、例えば、教育、科学技術、体育等である。コーパスを最初に取得した後、時間情報を特徴付けるキーワードを用いて最初に取得したコーパスに対して選別を行うことにより、時間情報を含むコーパスを取得する。
例示するように、時間情報を含むコーパスを取得することは、コーパスの本文に記載の時間、コーパスのデータのプッシュ時間、コーパスのデータの更新時間及びコーパスのソースに基づいて間接的に獲得された時間を含む時間情報を識別することによって、時間情報を含むコーパスを取得することを含む。異なるソースのコーパスに対してその中の時間情報を識別する方式が異なっても良く、例えば、ウェブページデータに対しては、テキスト識別技術を用いてウェブページの本文から識別することができ、又は、ウェブページの更新時間を用いて取得するか、特定のウェブページラベル/位置に基づいて間接的に取得することができ、百科事典データベースに対しては、データテキストの識別によって、又は、データプッシュ時間等の方式を用いて取得することができる。
多元データを抽出する前に、時間情報に基づいて最初に取得したコーパスに対してフィルタリングするだけではなく、現在のナレッジ抽出ニーズに応じ、コーパスのソースの信頼性、テキスト内容の品質、テキスト主題種類等の所定条件に基づいて最初に取得したコーパスをフィルタリングすることにより、現在のナレッジ抽出に用いられるコーパスの品質を保障することもできる。
S102においては、コーパスに対して実体ペア、実体関係及び実体関係の有効期限を表すために用いられる実体関係のターゲット時間セグメントを含む多元データの抽出を行う。
時間情報を含むコーパスを取得した後、当該コーパスの中のテキストに対して句読点又は段落分け等の方式で分割処理を行い、その後、分割された後のテキストに対して多元データ抽出を行い、データ抽出の実現方式は、予め訓練された多元データ抽出モデルを用いる方式、又は実体ペア、実体関係を特徴付けるためのキーワード及び時間情報を表すためのキーワードに対して識別を行う等の方式を含むが、本実施形態は、具体的に制限しない。また、データ抽出の具体的な実現により、コーパスの中のテキストデータに対してフォーマット変換を行うことで、抽出プロセスにおいて識別可能なテキストデータを取得することもできる。
それぞれの実体ペアは、何れもサブジェクト及びオブジェクトの2つのアーギュメントを含み、実体関係は、即ち、サブジェクトとオブジェクトの間の関係又は属性を表し、それぞれの実体関係は、対応するターゲット時間セグメント内に有効であり、ターゲット時間セグメントを超えると、当該実体関係は、無効である。ナレッジグラフの中にそれぞれの実体関係の有効時間セグメントを追加することにより、ナレッジグラフの中の時間情報の表現精度が高まり、ひいては、後続において当該実体関係に対して時間次元のナレッジ計算を行うことにも有利である。例えば、本実施形態の方法でナレッジ抽出を行うと、Aが2009年から2013までB国の大統領に就任したことが確定でき、統計された2009年前の当該B国の歴代大統領の情報を合わせると、時間セグメントの順序に基づいて第x代のB国の大統領の情報を計算することができる。
多元データは、クインタプルデータ形式を採用し、それぞれは、サブジェクト、実体関係、オブジェクト、関係有効時間起点(from値)、関係失効時間終点(to値)を含むことが好ましい。関係有効時間起点及び関係失効時間終点は、時間セグメントを構成するので、ナレッジグラフを構築するデータフォーマットの統一化及び標準化を実現することができる。当然ながら、その他のアーギュメントデータを追加するニーズが存在すれば、多元データは、5次元アーギュメントより多いデータの形式を採用しても良く、これにより、データを柔軟に拡大することができるという効果を実現することができる。
実体関係のターゲット時間セグメントの抽出プロセスは、多元データの抽出により、実体関係の複数の時間セグメントを取得することと、複数の時間セグメントに対して融合処理を行い、ターゲット時間セグメントを取得することとを含むことが好ましい。コーパスが比較的多いとき、ナレッジを抽出することにより、それぞれの実体ペアの実体関係は、複数の時間セグメントに対応する可能性があり、例えば、少なくとも2つの時間セグメントであり、ナレッジグラフの中のそれぞれの実体関係の時間セグメントの正確性及び完全性を確保するために、取得された複数の時間セグメントに対して融合処理を行う必要があり、例えば、間違った時間セグメントを除去し、時間の順序に従って異なる時間セグメントに対してつぎ合わし又は重複削除等を行う。
複数の時間セグメントに対して融合処理を行い、ターゲット時間セグメントを取得することは、複数の時間セグメントの中のそれぞれの時間セグメントの信用度によって、複数の時間セグメントに対して選別することと、選別された後の時間セグメントに対して時間の順序に従って整合し、例えば、時間セグメントのつぎ合わし又は重複削除を行い、ターゲット時間セグメントを取得することとを含む。例示するように、信用度が信用度閾値より低い時間セグメントを捨て、その後、時間の順序に従って選別された後の時間セグメントをつぎ合わし、最終のfrom値及びto値を取得することで、ターゲット時間セグメントを取得することができる。時間の間隔が存在し、つぎ合わしができない複数の時間セグメントを、それぞれ独立したターゲット時間セグメントとすることができ、同じ実体関係に対しては、現在の抽出において複数のタプルの多元データを取得することに相当する。なお、それぞれの時間セグメントの信用度は、予め確定されたコーパスのソースの優先度に基づいて確定しても良く、例えば、コーパスのソースの優先度が高ければ高いほど、当該コーパスの中から抽出された時間セグメントの信用度が高い。または、統計を取ることで同一時間セグメントのデータソースの、コーパスの中の数を抽出し、当該数のダイナミックに基づいて当該時間セグメントの信用度を確定しても良く、本実施形態は、具体的に制限しない。ナレッジ抽出のタスクを実行するために用いられるコーパスは、複数のデータソースを含んでも良く、例えば、異なるホームページアドレスのホームページテキスト等である。複数のデータソースは、それぞれ異なるコーパスのソースに対応しても良く、同じコーパスのソースに対応しても良い。コーパスのソースは、情報の発表者によって区分しても良い。
例示するように、複数の時間セグメントの中のそれぞれの時間セグメントの信用度によって、複数の時間セグメントに対して選別することは、複数の時間セグメントの中のそれぞれの時間セグメントに対応するデータソースの、コーパスの中の数を統計することと、統計された数に基づいてそれぞれの時間セグメントの信用度を確定することと、信用度によって複数の時間セグメントに対して選別することとを含む。例えば、複数の時間セグメントは、それぞれa、b、cであり、時間セグメントaを抽出したデータソースの、コーパスの中の数は、x1であり、時間セグメントbを抽出したデータソースの、コーパスの中の数は、x2であり、時間セグメントcを抽出したデータソースの、コーパスの中の数は、x3であり、x1>x2>x3であれば、時間セグメントa、b、cの信用度が順に小さくなり、信用度が信用度閾値より小さい時間セグメントを捨てても良く、信用度閾値を適切に設定しても良い。
更に、本実施形態の方法は、ターゲット時間セグメントの時間起点及び時間終点にナル値が存在するか否かを確定することと、ナル値が存在する場合、現在のコーパスと異なるソースの候補コーパスを用いて前記ナル値の有効性を確定し、即ち、候補コーパスに対して関係する時間情報を識別し、時間セグメントの中のナル値を検証し、ナル値が無効であることが確定されれば、候補コーパスから識別された時間を用いて当該ナル値に対して入れ替えを行うことで、現在確定されたターゲット時間セグメントの信頼性を確保する。
S103においては、実体ペア、実体関係及び実体関係のターゲット時間セグメントに基づき、時系列ナレッジグラフを生成する。
本実施形態の技術案により、実体ペア、実体関係及び実体関係のターゲット時間セグメントを同時に抽出することによって、時間セグメントを含む構造化データフォーマットに基づいて時系列ナレッジグラフを生成する方式を提案し、時系列ナレッジグラフを構築するデータフォーマットに対して統一的な標準化を行い、時系列ナレッジグラフにおいては、それぞれの実体ペアの実体関係の有効期限を正確に表現することができ、従来技術におけるナレッジグラフの中の時間情報の表現精度が比較的低いという問題を解決し、時間情報の表現精度を高めることができ、また、実体関係の時間セグメントに基づいて時間次元のナレッジ計算をサポートし、時系列ナレッジを柔軟に使用することが向上する。また、時系列ナレッジグラフは、ナレッジ情報を提供する必要のある場面をより豊かにサポートすることができる。
図2は、本願の実施形態によるもう1つの時系列ナレッジグラフ生成方法のフローチャート図であり、前記技術案を元に更に改良及び発展を行い、上述した様々な好ましい実施形態と組み合わせても良い。図2に示すように、当該方法は、S201、S202、S203、S204、S205及びS206を備える。
S201においては、時間情報を含むコーパスを取得する。
S202においては、予め訓練された特徴抽出モデルを用いてコーパスの中のそれぞれの語句に対して特徴の抽出を行う。
S203においては、それぞれの語句の抽出された特徴に基づき、それぞれの語句の中のワードに対して分類タグ付けを行うことにより、多元データを取得する。
なお、多元データは、実体ペア、実体関係及び実体関係の有効期限を表すために用いられるターゲット時間セグメントを含む。特徴抽出モデルは、従来技術における、語句に対して特徴抽出を行うことが可能な任意のモデルによって実現することができ、本実施形態は、具体的に制限しない。例えば、双方向長短期記憶(Bidirectional Long Short-Term Memory、LSTM)に基づく特徴抽出モデルを用い、コーパスの中のそれぞれの語句の中の上下文脈に対して分析し、それぞれの語句の特徴を抽出し、特徴ベクトルの形式で表し、その後、それぞれの語句の中のワードに対して分類タグ付けを行い、それぞれの語句の中のワードを、多元データに含まれる複数のアーギュメントによって分類する。なお、ワードの分類タグ付けは、予め訓練された分類タグ付けモデルを用いて実現することができ、条件付き確率場(conditional random field、CRF)に基づく分類タグ付けモデル等を含むが、これに限らない。本実施形態に記載のワードは、単語構成のワードを含む。
多元データに対して抽出するプロセスにおいては、ステップに分けて2つの訓練モデルを用いて特徴抽出及び分類タグ付け操作をそれぞれ実行しても良く、1つの総合モデルを用いて特徴抽出及び分類タグ付け操作を同時に実行しても良い。本実施形態の方法は、訓練コーパスセット及び訓練コーパスセットの中のそれぞれの語句の多元データのタグ付け結果を用い、訓練することで多元データ抽出モデルを取得することにより、多元データ抽出モデルを用いて特徴抽出及び分類タグ付けの操作を行うことを更に含むことが好ましい。なお、多元データ抽出モデルは、長短期記憶ネットワーク及び条件付き確率場に基づいて実現することができる。
また、本実施形態の中の多元データ抽出モデルが採用するタグ付けのシーケンスは、BIOE構造であっても良い。タグ付け結果に対してBIOE構造を用いて制限することにより、ワード分類タグ付けの結果の品質を高め、完全なBIOE構造を有するタグ付け結果を正確なタグ付け結果として確定することができ、即ち、有効な多元データとして確定することができ、さもなければ、時系列ナレッジグラフを構築するプロセスにおいては、採用しない。
S204においては、ナレッジ抽出ニーズに基づいて抽出された実体ペアの中の任意の1つのアーギュメント及び抽出された実体関係に対して曖昧性解消を行う。
曖昧性解消の目的は、一つのワードが複数の意味を持つ又は複数のワードが一つの意味を持つ現象により、抽出された実体ペア又は実体関係の正確性に影響を与えることを避けるためである。語句が属するテキストの上下文脈の情報を分析することにより、それぞれの実体ペアの中の任意の1つのアーギュメントと抽出された実体関係を、真の実体ペア又は実体関係に対応させる。なお、ナレッジ抽出ニーズにおいては、現在抽出することが必要なターゲット実体及びターゲット実体関係を定義している。
S205においては、曖昧性解消された後の実体ペアと曖昧性解消された後の実体関係に対して融合を行う。
インターネットの中の情報に大量の冗長が存在していることを考慮すると、同じナレッジがコーパスの複数のデータソースにおいても言及される可能性があるので、融合処理によりナレッジの冗長除去を実現し、同じナレッジを合併することができる。例示するように、実体ペアの中のアーギュメント-オブジェクトを例とすると、当該オブジェクトが実体であれば、同じ実体に対して融合し、当該オブジェクトが非実体であれば、予め定義された辞典及び融合方式に頼って当該オブジェクトに対して融合することができ、なお、辞典は、言語表現の多様性に基づいて予め定義された同義又は類義の語のデータベースであり、融合方式とは、ナレッジ抽出ニーズに基づいて予め定義された融合処理方策を意味し、例えば、異なる短句構造を用いて同じセマンティックを表現する場合、この2つの短句を合併することができる。予め定義された辞典及び融合方式は、何れも複数の非実体のオブジェクトが同一のオブジェクトに実質的に対応しているか否かを補助的確定するために用いることができる。ナレッジの曖昧性解消及びナレッジ融合等の後処理の操作により、時系列ナレッジグラフを構築するために用いられる多元データの表現の正確性及びナレッジの完全性を高めることができる。
S206においては、融合処理後の実体ペア、実体関係及び実体関係のターゲット時間セグメントに基づき、時系列ナレッジグラフを生成する。
前記技術案を元に、コーパスに対して多元データの抽出を行うことは、コーパスの中のテキストの主題又はテキスト構造を分析することと、テキストの主題が所定主題に属するか、又は、テキスト構造が所定テキスト構造に属すれば、異なるデータ抽出方式を用いて多元データを抽出することとを含むことが好ましい。
現在のナレッジ抽出に用いられるコーパスに対し、それぞれのテキストに対してキーワードの識別及び分析を行うことでテキスト主題を確定し、又は、テキスト構造の分析技術を用いてそれぞれのテキスト構造に対して分析を行うことができる。コーパスのソースの多様性及び言語表現の多様性を考慮すると、現在のコーパスに含まれる多元データは、必ずしも全て予め訓練された多元データ抽出モデルを統一的に用いて抽出する必要がなく、コーパスの中の特定のテキストのテキスト構造が比較的簡単又は比較的固定であれば、即ち、所定テキスト構造に属すれば、当該種類のテキストに対して異なるデータ抽出方式を柔軟に採用してその中の多元データを迅速に抽出することができる。所定主題とは、ネットワークの内容発表の習慣に基づいて予め確定された、簡単なテキスト構造又は固定のテキスト構造を用いて発表されたテキスト内容の主題を意味する。
更に、異なるデータ抽出方式を用いて多元データを抽出することは、ナレッジ抽出ニーズに基づいて予め定義された、実体関係を確定する方式である所定関係抽出方式によって、テキストの語句の中から実体関係を抽出することと、テキストの中の語句に対して特徴の抽出及びワード分類タグ付けを行うことにより、実体ペア及び実体関係のターゲット時間セグメントを取得することとを含む。
例示するように、所定関係抽出方式は、語句の中のキーワードの識別とマッチングによって実体関係を確定することを意味しても良く、具体的には、ナレッジ抽出ニーズに基づいてそれぞれの種類の実体関係に所定数のキーワードを含む集合を予め定義し、語句が当該キーワードの集合の中のワードを含むのでれば、当該語句の中の実体ペアの実体関係を確定しても良い。所定関係抽出方式は、予め訓練された、実体関係を抽出するための専用の関係抽出モデルにより実現することを意味しても良く、例えば、訓練コーパスセット及び訓練コーパスセットの中のそれぞれの語句の中の実体関係タグ付け結果を用いて訓練して関係抽出モデルを取得する。所定関係抽出方式は、語句に対してセマンティック分析を行うことで実体関係を確定しても良く、当該方法は、特に実体関係の潜在表現語句に適する。実体ペア及び実体関係のターゲット時間セグメントは、予め訓練された実体ペア及び時間抽出モデルにより確定することができ、モデルの訓練プロセスは、前記モデルの訓練思想と一致しており、ここでは、繰り返して説明しない。また、実体関係の時間セグメントは、手動入力の方式を用いて確定しても良い。初めに実体関係を確定した後、当該実体関係を表すために用いられるキーワードの、属する語句の中の位置を、実体ペア及び時間抽出モデルの入力とし、実体ペア及び実体関係のターゲット時間セグメントを補助的抽出するために用いることで、ナレッジ抽出の正確性を高めることができる。当然ながら、このとき、実体ペア及び時間抽出モデルの訓練プロセスにおいても、実体関係を表すためのキーワードの、属する訓練語句の中の位置を入力としてモデルの訓練を行う必要がある。
本実施形態においては、コーパスの中のテキストの主題又はテキスト構造に基づいてコーパスの中のテキストを区別し、異なるナレッジ抽出方式を用いて実体ペア、実体関係のターゲット時間セグメント及び実体関係に対して柔軟に区別して抽出することにより、ナレッジ抽出の効率を高めることに寄与する。また、1つの抽出モデル訓練プロセスにおいては、タグ付けデータの次元が多ければ多いほど、当該訓練モデルの出力結果の誤り率が高くなる。よって、区別して抽出し、モデル訓練プロセスの中のタグ付けデータの次元を減らすことにより、ナレッジ抽出の誤り率を低下させることもできる。
本実施形態の技術案により、統一且つ標準の、時間セグメントを含む構造化データフォーマットに基づき、コーパスの中のそれぞれの語句に対して特徴抽出及びワード分類タグ付けを行うことにより、多元データを取得し、時系列ナレッジグラフを構築する。従来技術における、ナレッジグラフの中の時間情報の表現精度が比較的低いという問題を解決し、時間情報の表現精度が高まった。また、ナレッジの曖昧性解消及び融合処理により、時系列ナレッジグラフにおけるナレッジ記述の正確性及び完全性が高まった。また、本実施形態の方案は、コーパスの中のテキスト構造及びテキスト主題に基づき、異なるナレッジ抽出方式を用いて多元データの中のそれぞれのデータに対して柔軟に区別して抽出することをサポートするので、ナレッジ抽出の効率及び正確性を高めることに寄与する。
図3は、本願の実施形態による1つの時系列ナレッジグラフ生成装置の構造模式図である。本実施形態は、コーパスに対してナレッジ抽出を行うことにより、時間情報を含む時系列ナレッジグラフを構築する場合に適用することができる。本実施形態の装置は、ソフトウェア及び/又はハードウェアの方式を用いて実現することができ、計算能力を有する任意の電子デバイスに集積することができ、例えば、サーバー等である。
図3に示すように、本実施形態が開示する時系列ナレッジグラフ生成装置300は、コーパス取得モジュール301、データ抽出モジュール302及びグラフ生成モジュール303を含む。
コーパス取得モジュール301は、時間情報を含むコーパスを取得するために用いられる。
データ抽出モジュール302は、コーパスに対して実体ペア、実体関係及び実体関係の有効期限を表すために用いられる実体関係のターゲット時間セグメントを含む多元データの抽出を行うために用いられる。
グラフ生成モジュール303は、実体ペア、実体関係及び実体関係のターゲット時間セグメントに基づき、時系列ナレッジグラフを生成するために用いられる。
データ抽出モジュール302は、多元データを抽出することにより、実体関係の複数の時間セグメントを取得するために用いられる時間セグメント抽出ユニットと、複数の時間セグメントに対して融合処理を行うことにより、ターゲット時間セグメントを取得するために用いられるターゲット時間セグメント確定ユニットとを備えることが好ましい。
ターゲット時間セグメント確定ユニットは、複数の時間セグメントの中のそれぞれの時間セグメントの信用度に基づき、複数の時間セグメントに対して選別するために用いられる時間セグメント選別サブユニットと、選別された後の時間セグメントに対して時間の順序に従って整合し、ターゲット時間セグメントを取得するために用いられる時間セグメント整合サブユニットとを備えることが好ましい。
時間セグメント選別サブユニットは、具体的に、複数の時間セグメントの中のそれぞれの時間セグメントに対応するデータソースの、コーパスの中の数を統計し、統計された数に基づいてそれぞれの時間セグメントの信用度を確定し、信用度に基づいて複数の時間セグメントに対して選別するように用いられることが好ましい。
データ抽出モジュール302は、ターゲット時間セグメントの時間起点及び時間終点にナル値が存在するか否かを確定する時間ナル値確定ユニットと、ナル値が存在する場合、現在のコーパスと異なるソースの候補コーパスを用いてナル値の有効性を確定するナル値有効性確定ユニットとを更に備えることが好ましい。
データ抽出モジュール302は、予め訓練された特徴抽出モデルを用いてコーパスの中のそれぞれの語句に対して特徴の抽出を行う特徴抽出ユニットと、それぞれの語句の抽出された特徴に基づき、それぞれの語句の中のワードに対して分類タグ付けを行い、多元データを取得するワード分類タグ付けユニットとを備えることが好ましい。
データ抽出モジュール302は、訓練コーパスセット及び訓練コーパスセットの中のそれぞれの語句の多元データのタグ付け結果を用い、訓練することで多元データ抽出モデルを取得することにより、多元データ抽出モデルを用いて特徴抽出及び分類タグ付けの操作を行うモデル訓練ユニットを更に備えることが好ましい。
データ抽出モジュール302は、コーパスの中のテキストの主題又はテキスト構造を分析するテキスト主題又は構造分析ユニットと、テキストの主題が所定主題に属するか、又は、テキスト構造が所定テキスト構造に属すれば、異なるデータ抽出方式を用いて多元データを抽出する多元データ抽出ユニットとを備えることが好ましい。
多元データ抽出ユニットは、ナレッジ抽出ニーズに基づいて予め定義された、実体関係を確定する方式である所定関係抽出方式によって、テキストの語句の中から実体関係を抽出するために用いられる実体関係抽出サブユニットと、テキストの中の語句に対して特徴の抽出及びワード分類タグ付けを行うことにより、実体ペア及び実体関係のターゲット時間セグメントを取得するために用いられる実体ペア及び時間セグメント抽出サブユニットとを備えることが好ましい。
本実施形態の装置は、データ抽出モジュール302がコーパスに対して多元データの抽出の操作を実行した後、ナレッジ抽出ニーズに従って、抽出された実体ペアの中の任意の1つのアーギュメントと抽出された実体関係に対して曖昧性解消を行う曖昧性解消モジュールと、曖昧性解消された後の実体ペアと曖昧性解消された後の実体関係に対して融合を行う融合モジュールとを更に備えることが好ましい。
コーパス取得モジュール301は、具体的に、コーパスの本文に記載の時間、コーパスのデータのプッシュ時間、コーパスのデータの更新時間及びコーパスのソースに基づいて間接的に獲得された時間を含む時間情報を識別することにより、時間情報を含むコーパスを取得するために用いられることが好ましい。
多元データは、クインタプルデータ形式を採用し、それぞれは、サブジェクト、実体関係、オブジェクト、関係有効時間起点、関係失効時間終点を含むことが好ましい。
本願の実施形態が開示する時系列ナレッジグラフ生成装置300は、本願の実施形態が開示する時系列ナレッジグラフ生成方法を実行することができ、方法を実行するのに相応する機能モジュール及び有益な効果を有する。本実施形態において詳しく記載されていない内容は、本願の任意の方法の実施形態の中の記載を参照することができる。
本願の実施形態により、本願は、電子デバイス及び読み取り可能な記憶媒体を更に提供する。
図4に示すように、図4は、本願の実施形態における時系列ナレッジグラフ生成方法を実現するために用いられる電子デバイスのブロック図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバー、ブレードサーバー、大型コンピュータ及びその他の適切なコンピュータのような様々な形のデジタルコンピュータを表すことを目的としている。電子デバイスは、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス及びその他の類似するコンピューティングデバイスのような様々な形のモバイルデバイスを表すこともできる。本文に示される部材、それらの接続及び関係ならびにそれらの機能は、単なる例に過ぎず、本文に記載される及び/又は求められる本願の実施形態の実現を制限することを意図しない。
図4に示すように、当該電子デバイスは、1つ又は複数のプロセッサ401と、メモリ402と、高速インターフェイス及び低速インターフェイスとを含む、各々のコンポーネントを接続するためのインターフェイスを備える。各々のコンポーネントは、異なるバスを使用して相互に接続されており、共通のマザーボードに取り付けられ、又は、必要に応じて他の方法で取り付けることができる。プロセッサは、メモリ内又はメモリ上に格納し、外部入力/出力デバイス(例えば、インターフェイスに結合された表示デバイス)にグラフィカルユーザーインターフェイス(Graphical User Interface、GUI)のグラフィック情報を表示する命令を含む、電子デバイスで実行される命令を処理できる。他の実施形態においては、必要に応じて複数のプロセッサ及び/又は複数のバスを、複数のメモリとともに使用することができる。同様に、複数の電子デバイスを接続することができ、各々のデバイスは、例えば、サーバーアレイ、ブレードサーバーのグループ又はマルチプロセッサシステムとして、一部の必要な操作を提供する。図4においては、1つのプロセッサ401を例としている。
メモリ402は、本願の実施形態による非一時的コンピュータ読み取り可能な記憶媒体である。ここで、前記メモリは、少なくとも1つのプロセッサによって実行することができる命令を記憶することにより、前記少なくとも1つのプロセッサは、本願の実施形態による時系列ナレッジグラフ生成方法を実行する。本願の実施形態の非一時的コンピュータ読み取り可能な記憶媒体は、本願の実施形態による時系列ナレッジグラフ生成方法をコンピュータに実行させるために用いられるコンピュータ命令を記憶する。
メモリ402は、非一時的コンピュータ読み取り可能な記憶媒体として、本願の実施形態における時系列ナレッジグラフ生成方法に対応するプログラム命令/モジュールのような、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム及びモジュールを記憶するのに用いることができ、例えば、図3に示されるコーパス取得モジュール301、データ抽出モジュール302及びグラフ生成モジュール303である。プロセッサ401は、メモリ402に記憶された非一時的ソフトウェアプログラム、命令及びモジュールを実行することによって、サーバーの様々な機能的アプリケーション及びデータ処理を実行し、即ち、上述した方法の実施形態における時系列ナレッジグラフ生成方法を実現する。
メモリ402は、記憶プログラム領域及び記憶データ領域を含んでも良く、なお、記憶プログラム領域は、オペレーティングシステム、及び少なくとも1つの機能を必要とするアプリケーションプログラムを記憶することができ、記憶データ領域は、時系列ナレッジグラフ生成方法の電子デバイスの使用に基づいて作られたデータ等を記憶することができる。また、メモリ402は、高速ランダムアクセスメモリを含んでも良く、少なくとも1つの磁気ディスク記憶装置、フラッシュ記憶装置又は他の非一時的固体記憶装置のような、非一時的メモリを含んでも良い。幾つかの実施形態においては、メモリ402は、プロセッサ401に対して遠隔的に設けられるメモリを含んでも良く、これらの遠隔メモリは、ネットワークを介して本実施形態における、時系列ナレッジグラフ生成方法を実現する電子デバイスに接続することができる。上述したネットワークの例は、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク及びそれらの組み合わせを含むが、これらに限らない。
本実施形態における、時系列ナレッジグラフ生成方法を実現するために用いられる電子デバイスは、入力装置403および出力装置404を更に含んでも良い。プロセッサ401、メモリ402、入力装置403及び出力装置404は、バス又は他の方法で接続することができる。図4においては、バスによる接続を例としている。
入力装置403は、入力された数値又は文字情報を受信し、本実施形態における、時系列ナレッジグラフ生成方法を実現するために用いられる電子デバイスのユーザー設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティック等の入力装置である。出力装置404は、表示デバイス、補助照明装置及び触覚フィードバック装置等を含んでも良く、補助照明装置は、例えば、発光ダイオード(Light Emitting Diode、LED)であり、触覚フィードバック装置は、例えば、振動モーターである。当該表示デバイスは、液晶ディスプレイ(Liquid Crystal Display、LCD)、LEDディスプレイ及びプラズマディスプレイを含んでも良いが、これらに限らない。幾つかの実施形態においては、表示デバイスは、タッチスクリーンであっても良い。
ここで説明するシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、コンピュータハードウェア、ファームウェア、ソフトウェア及び/又はそれらの組み合わせにより実現することができる。これらの様々な実施形態は、以下を含んでも良い:少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び/又は解釈することが可能な1つ又は複数のコンピュータプログラムにより実現でき、当該プログラマブルプロセッサは、専用または汎用のプログラマブルプロセッサであり、記憶システム、少なくとも1つの入力装置及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を、当該記憶システム、当該少なくとも1つの入力装置及び当該少なくとも1つの出力装置に転送することができる。
これらのコンピューティングプログラムは、プログラム、ソフトウェア、ソフトウェアアプリケーション又はコードとも呼ばれ、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び/又はオブジェクト指向のプログラミング言語及び/又はアセンブリ/機械言語を用いてこれらのコンピューティングプログラムを実施することができる。本文に使用される、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、プログラマブルプロセッサに機械命令及び/又はデータを提供するために用いられる任意のコンピュータプログラム製品、デバイス及び/又は装置を指し、例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(Programmable Logic Device、PLD)であり、機械読み取り可能な信号としての機械命令を受信する機械読み取り可能なメディアを含む。「機械読み取り可能な信号」という用語は、プログラマブルプロセッサに機械命令及び/又はデータを提供するために用いられる任意の信号を指す。
ユーザーとのインタラクティブを提供するために、ここで説明するシステム及び技術は、コンピュータにより実行することができる。当該コンピュータは、陰極線管(Cathode Ray Tube、CRT)又はLCDモニターのような、ユーザーに情報を表示するための表示装置と、キーボード及びマウス又はトラックボール等のポインティングデバイスとを備え、ユーザーが当該キーボード及び当該ポインティングデバイスにより入力をコンピュータに提供することができる。その他の種類の装置は、ユーザーとのインタラクティブを提供するために用いることができ、例えば、ユーザーに提供されるフィードバックは、視覚フィードバック、聴覚フィードバック又は触覚フィードバック等の、任意の形のセンサーフィードバックであっても良く、ユーザーからの入力の受信は、音響入力、音声入力又は触覚入力を含む任意の形を用いても良い。
ここで説明するシステム及び技術は、データサーバーのような、バックエンドコンポーネントを含むコンピューティングシステムに実装しても良く、または、アプリケーションサーバーのような、ミドルウェアコンポーネントを含むコンピューティングシステムに実装しても良く、または、グラフィカルユーザーインターフェイス又はウェブブラウザーを有するユーザーコンピュータのような、フロントエンドコンポーネントを含むコンピューティングシステムに実装しても良く、ユーザーは、当該グラフィカルユーザーインターフェイス又はウェブブラウザーによりここで説明するシステム及び技術の実施形態とインタラクティブすることができ、又は、このようなバックエンドコンポーネント、ミドルウェアコンポーネント又はフロントエンドコンポーネントを含む任意の組み合わせを含むコンピューティングシステムに実装しても良い。システムのコンポーネントは、通信ネットワークのような、任意の形又は媒体のデジタルデータ通信により相互に接続できる。通信ネットワークの例は、ローカルエリアネットワーク(Local Area Network、LAN)、ワイドエリアネットワーク(Wide Area Network、WAN)及びインターネットを含む。
コンピュータシステムは、クライアント及びサーバーを含んでも良い。クライアントとサーバーは、一般的に互いに遠く離れており、通常は、通信ネットワークを介してインタラクティブする。相応するコンピュータで互いにクライアントとサーバーの関係を持つコンピュータプログラムを実行することにより、クライアントとサーバーの関係が生まれる。
本願の実施形態の技術案により、実体ペア、実体関係及び実体関係のターゲット時間セグメントを同時に抽出することによって、時間セグメントを含む構造化データフォーマットに基づいて時系列ナレッジグラフを生成する方式を提案し、時系列ナレッジグラフを構築するデータフォーマットに対して統一的な標準化を行い、時系列ナレッジグラフにおいては、それぞれの実体ペアの実体関係の有効期限を正確に表現することができ、従来技術におけるナレッジグラフの中の時間情報の表現精度が比較的低いという問題を解決し、時間情報の表現精度を高めることができ、また、実体関係の時間セグメントに基づいて時間次元のナレッジ計算をサポートし、時系列ナレッジを柔軟に使用することが向上した。
上述のように示された様々な形の工程を用いて、新たに順番を並べ替えたり、ステップを増やしたりまたは削除したりすることができることを理解されたい。例えば、本願に記載の各々のステップは、並行して実行しても良く、順に実行しても良く、異なる順番で実行しても良いが、本願が開示する技術案の期待の結果を実現することができれば、本文では制限しない。
上述した具体的な実施形態は、本願の特許保護の範囲を制限しない。当業者は、設計要求及びその他の要素に基づき、様々な補正、組み合わせ、サブ組み合わせ及び代替を行うことができる。本願の精神及び原則の中で行われた任意の補正、同等入れ替え及び改良等は、何れも本願の特許保護の範囲内に含まれる。

Claims (15)

  1. 時間情報を含むコーパスを取得することと、
    前記コーパスに対して実体ペア、実体関係及び前記実体関係の有効期限を表すために用いられる前記実体関係のターゲット時間セグメントを含む多元データの抽出を行うことと、
    前記実体ペア、実体関係及び前記実体関係のターゲット時間セグメントに基づき、時系列ナレッジグラフを生成することとを含み、
    前記コーパスに対して多元データの抽出を行うことは、
    予め訓練された特徴抽出モデルを用いて前記コーパスの中のそれぞれの語句に対して特徴の抽出を行うことと、
    それぞれの語句の抽出された特徴に基づき、それぞれの語句の中のワードに対して分類タグ付けを行い、前記多元データを取得することとを含む、
    ことを特徴とする時系列ナレッジグラフ生成装置により実行される方法。
  2. 前記実体関係のターゲット時間セグメントの抽出プロセスは、
    前記多元データの抽出により、前記実体関係の複数の時間セグメントを取得することと、
    前記複数の時間セグメントに対して融合処理を行い、前記ターゲット時間セグメントを取得することとを含むことを特徴とする請求項1に記載の方法。
  3. 前記複数の時間セグメントに対して融合処理を行い、前記ターゲット時間セグメントを取得することは、
    前記複数の時間セグメントの中のそれぞれの時間セグメントの信用度によって、前記複数の時間セグメントに対して選別することと、
    選別された後の時間セグメントに対して時間の順序に従って整合し、前記ターゲット時間セグメントを取得することとを含むことを特徴とする請求項2に記載の方法。
  4. 前記複数の時間セグメントの中のそれぞれの時間セグメントの信用度によって、前記複数の時間セグメントに対して選別することは、
    前記複数の時間セグメントの中のそれぞれの時間セグメントに対応するデータソースの、前記コーパスの中の数を統計することと、
    前記数に基づいてそれぞれの時間セグメントの信用度を確定することと、
    前記信用度によって前記複数の時間セグメントに対して選別することとを含むことを特徴とする請求項3に記載の方法。
  5. 前記ターゲット時間セグメントの時間起点及び時間終点にナル値が存在するか否かを確定することと、
    ナル値が存在する場合、現在のコーパスと異なるソースの候補コーパスを用いて前記ナル値の有効性を確定することとを更に含むことを特徴とする請求項1に記載の方法。
  6. 訓練コーパスセット及び前記訓練コーパスセットの中のそれぞれの語句の多元データのタグ付け結果を用い、訓練することで多元データ抽出モデルを取得することにより、前記多元データ抽出モデルを用いて前記特徴抽出及び前記分類タグ付けの操作を行うことを更に含むことを特徴とする請求項に記載の方法。
  7. 前記コーパスに対して多元データの抽出を行うことは、
    前記コーパスの中のテキストの主題又はテキスト構造を分析することと、
    前記テキストの主題が所定主題に属するか、又は、前記テキスト構造が所定テキスト構造に属すれば、異なるデータ抽出方式を用いて前記多元データを抽出することとを含むこと
    を特徴とする請求項1に記載の方法。
  8. 異なるデータ抽出方式を用いて前記多元データを抽出することは、
    ナレッジ抽出ニーズに基づいて予め定義された、実体関係を確定する方式である所定関係抽出方式によって、前記テキストの語句の中から前記実体関係を抽出することと、
    前記テキストの中の語句に対して特徴の抽出及びワード分類タグ付けを行うことにより、前記実体ペア及び前記実体関係のターゲット時間セグメントを取得することとを含むことを特徴とする請求項に記載の方法。
  9. 前記コーパスに対して多元データの抽出を行った後、ナレッジ抽出ニーズに従って、前記抽出された実体ペアの中の任意の1つのアーギュメント及び前記抽出された実体関係に対して曖昧性解消を行うことと、
    曖昧性解消された後の実体ペア及び曖昧性解消された後の実体関係に対して融合を行うこととを更に含むことを特徴とする請求項1に記載の方法。
  10. 時間情報を含むコーパスを取得することは、
    コーパスの本文に記載の時間、コーパスのデータのプッシュ時間、コーパスのデータの更新時間及びコーパスのソースに基づいて間接的に獲得された時間を含む前記時間情報を識別することによって、前記時間情報を含むコーパスを取得することを含むことを特徴とする請求項1に記載の方法。
  11. 前記多元データは、クインタプルデータ形式を採用し、それぞれは、サブジェクト、実体関係、オブジェクト、関係有効時間起点、関係失効時間終点を含むことを特徴とする請求項1に記載の方法。
  12. 時間情報を含むコーパスを取得するためのコーパス取得モジュールと、
    前記コーパスに対して実体ペア、実体関係及び前記実体関係の有効期限を表すために用いられる前記実体関係のターゲット時間セグメントを含む多元データの抽出を行うためのデータ抽出モジュールと、
    前記実体ペア、実体関係及び前記実体関係のターゲット時間セグメントに基づき、時系列ナレッジグラフを生成するためのグラフ生成モジュールとを備え
    前記データ抽出モジュールは、
    予め訓練された特徴抽出モデルを用いて前記コーパスの中のそれぞれの語句に対して特徴の抽出を行うことと、
    それぞれの語句の抽出された特徴に基づき、それぞれの語句の中のワードに対して分類タグ付けを行い、前記多元データを取得するように構成されることを特徴とする時系列ナレッジグラフ生成装置。
  13. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続するメモリとを備え、
    前記メモリは、前記少なくとも1つのプロセッサにより実行される命令を記憶し、前記命令が前記少なくとも1つのプロセッサにより実行されることにより、前記少なくとも1つのプロセッサは、請求項1~11のいずれか1項に記載の時系列ナレッジグラフ生成装置により実行される方法を実行することを特徴とする電子デバイス。
  14. コンピュータ命令が記憶されている非一時的コンピュータ読み取り可能な記憶媒体であって
    ンピュータ命令は、前記コンピュータが請求項1~11のいずれか1項に記載の時系列ナレッジグラフ生成装置により実行される方法を実行するために用いられることを特徴とする非一時的コンピュータ読み取り可能な記憶媒体。
  15. コンピュータプログラムであって、
    プロセッサにより実行されると、請求項1~11のいずれか1項に記載の時系列ナレッジグラフ生成装置により実行される方法を実行させることを特徴とするコンピュータプログラム。
JP2021004678A 2020-01-15 2021-01-15 時系列ナレッジグラフ生成方法、装置、デバイス及び媒体 Active JP7223785B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010041805.6 2020-01-15
CN202010041805.6A CN111221983B (zh) 2020-01-15 2020-01-15 时序知识图谱生成方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
JP2021114291A JP2021114291A (ja) 2021-08-05
JP7223785B2 true JP7223785B2 (ja) 2023-02-16

Family

ID=70829507

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021004678A Active JP7223785B2 (ja) 2020-01-15 2021-01-15 時系列ナレッジグラフ生成方法、装置、デバイス及び媒体

Country Status (5)

Country Link
US (1) US20210216882A1 (ja)
EP (1) EP3852001A1 (ja)
JP (1) JP7223785B2 (ja)
KR (1) KR102557681B1 (ja)
CN (1) CN111221983B (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797241B (zh) * 2020-06-17 2023-08-22 北京北大软件工程股份有限公司 基于强化学习的事件论元抽取方法及装置
CN112559757B (zh) * 2020-11-12 2023-12-26 中国人民解放军国防科技大学 一种时序知识图谱补全的方法及系统
CN112380355A (zh) * 2020-11-20 2021-02-19 华南理工大学 一种时隙异构知识图谱的表示与存储方法
CN113342990A (zh) * 2021-05-25 2021-09-03 北京百度网讯科技有限公司 知识图谱的构建方法和装置
WO2023277342A1 (en) * 2021-06-29 2023-01-05 Samsung Electronics Co., Ltd. Method and system for modifying search query for a user
CN113723073A (zh) * 2021-07-12 2021-11-30 大箴(杭州)科技有限公司 语料的处理方法及装置、电子设备、存储介质
CN113488180B (zh) * 2021-07-28 2023-07-18 中国医学科学院医学信息研究所 一种临床指南知识建模方法及系统
CN113392229A (zh) * 2021-08-13 2021-09-14 四川新龟科技有限公司 供应链关系构建和预测方法、装置、设备、存储介质
KR102508131B1 (ko) 2021-12-20 2023-03-09 (주)씨어스테크놀로지 지식그래프에 대한 그래프 연결강화 시스템 및 방법
CN114637819A (zh) * 2022-02-17 2022-06-17 北京邮电大学 一种基于时序知识图谱的复杂问答查询方法和装置
CN115169658B (zh) * 2022-06-24 2023-11-21 南京英诺森软件科技有限公司 基于npl和知识图谱的库存消耗预测方法、系统和存储介质
CN115344706A (zh) * 2022-07-22 2022-11-15 北京海致星图科技有限公司 基于知识图谱的时序图可视化方法、装置、存储介质和设备
CN116306922B (zh) * 2023-02-13 2023-09-15 中国科学院西北生态环境资源研究院 数据序列间关系分析方法、装置、存储介质及电子设备
CN116662559A (zh) * 2023-02-15 2023-08-29 北京北明数科信息技术有限公司 一种基于大数据技术的案件知识图谱构建平台及方法
CN115858822B (zh) * 2023-02-21 2023-05-26 北京网智天元大数据科技有限公司 一种时序知识图谱构建方法及系统
CN116628628B (zh) * 2023-04-17 2024-01-30 华北科技学院(中国煤矿安全技术培训中心) 基于检索信息的用户信息素养分析方法、系统及存储介质
CN116611813B (zh) * 2023-05-08 2024-03-29 武汉人云智物科技有限公司 一种基于知识图谱的智能运维管理方法及系统
CN117114739B (zh) * 2023-09-27 2024-05-03 数据空间研究院 一种企业供应链信息挖掘方法、挖掘系统及存储介质
CN117033664B (zh) * 2023-09-28 2024-01-09 腾讯科技(深圳)有限公司 业务的序列图生成方法、装置、计算机设备和存储介质
CN117033666B (zh) * 2023-10-07 2024-01-26 之江实验室 一种多模态知识图谱的构建方法、装置、存储介质及设备
CN117057343B (zh) * 2023-10-10 2023-12-12 腾讯科技(深圳)有限公司 道路事件识别方法、装置、设备及存储介质
CN117171366B (zh) * 2023-11-03 2024-01-30 国网信息通信产业集团有限公司 用于电网调度运行态势的知识图谱构建方法及系统
CN117688110B (zh) * 2024-02-02 2024-04-26 山东再起数据科技有限公司 数据中台数据血缘图谱构建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017076403A (ja) 2015-10-16 2017-04-20 バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC 人間から示唆を得た簡単質問応答(hisqa)システム及び方法
US20180082183A1 (en) 2011-02-22 2018-03-22 Thomson Reuters Global Resources Machine learning-based relationship association and related discovery and search engines
JP2019526131A (ja) 2016-07-29 2019-09-12 ロヴィ ガイズ, インコーポレイテッド 静的ナレッジグラフおよび時間的ナレッジグラフに基づいて用語の曖昧性を除去するためのシステムおよび方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8594996B2 (en) * 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
US9493514B2 (en) * 2011-01-06 2016-11-15 Bionor Immuno As Dimeric scaffold proteins comprising HIV-1 GP120 and GP41 epitopes
US11049029B2 (en) 2015-02-22 2021-06-29 Google Llc Identifying content appropriate for children algorithmically without human intervention
US20170330080A1 (en) * 2016-05-13 2017-11-16 Cognitive Scale, Inc. Universal Cognitive Graph Architecture
EP3404567A1 (en) * 2017-05-19 2018-11-21 Fujitsu Limited A system and a method for discovery of predicted site-specific protein phosphorylation candidates
CN108427735A (zh) * 2018-02-28 2018-08-21 东华大学 基于电子病历的临床知识图谱构建方法
CN109376864A (zh) * 2018-09-06 2019-02-22 电子科技大学 一种基于堆叠神经网络的知识图谱关系推理算法
CN109785968A (zh) * 2018-12-27 2019-05-21 东软集团股份有限公司 一种事件预测方法、装置、设备及程序产品
CN109933674B (zh) * 2019-03-22 2021-06-04 中国电子科技集团公司信息科学研究院 一种基于属性聚合的知识图谱嵌入方法及其存储介质
CN110119355B (zh) * 2019-04-25 2022-10-28 天津大学 一种基于知识图谱向量化推理通用软件缺陷建模方法
CN110147450B (zh) * 2019-05-06 2021-08-03 北京科技大学 一种知识图谱的知识补全方法及装置
CN110489395B (zh) * 2019-07-27 2022-07-29 西南电子技术研究所(中国电子科技集团公司第十研究所) 自动获取多源异构数据知识的方法
CN110543574B (zh) * 2019-08-30 2022-05-17 北京百度网讯科技有限公司 一种知识图谱的构建方法、装置、设备及介质
CN110516160B (zh) * 2019-08-30 2022-04-01 中国科学院自动化研究所 基于知识图谱的用户建模方法、序列推荐方法
CN110569345B (zh) * 2019-09-04 2022-07-29 淮阴工学院 一种基于实体链接和关系预测的时政知识智能问答方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082183A1 (en) 2011-02-22 2018-03-22 Thomson Reuters Global Resources Machine learning-based relationship association and related discovery and search engines
JP2017076403A (ja) 2015-10-16 2017-04-20 バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC 人間から示唆を得た簡単質問応答(hisqa)システム及び方法
JP2019526131A (ja) 2016-07-29 2019-09-12 ロヴィ ガイズ, インコーポレイテッド 静的ナレッジグラフおよび時間的ナレッジグラフに基づいて用語の曖昧性を除去するためのシステムおよび方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Alberto Garacia-Duran,外2名,"Learning Sequence Encorders for Temporal Knowledge Graph Completion", [online],2018年11月04日,p.4816-4821,インターネット< URL :https://aclanthology.org/D18-1516.pdf>

Also Published As

Publication number Publication date
KR20210092148A (ko) 2021-07-23
CN111221983A (zh) 2020-06-02
US20210216882A1 (en) 2021-07-15
CN111221983B (zh) 2023-08-04
JP2021114291A (ja) 2021-08-05
EP3852001A1 (en) 2021-07-21
KR102557681B1 (ko) 2023-07-19

Similar Documents

Publication Publication Date Title
JP7223785B2 (ja) 時系列ナレッジグラフ生成方法、装置、デバイス及び媒体
US20210406476A1 (en) Method, electronic device, and storage medium for extracting event from text
JP7228662B2 (ja) イベント抽出方法、装置、電子機器及び記憶媒体
CN112507715B (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
JP7126542B2 (ja) データセット処理方法、装置、電子機器及び記憶媒体
CN111967256B (zh) 事件关系的生成方法、装置、电子设备和存储介质
EP3933657A1 (en) Conference minutes generation method and apparatus, electronic device, and computer-readable storage medium
US11907671B2 (en) Role labeling method, electronic device and storage medium
KR102491172B1 (ko) 자연어 질의응답 시스템 및 그 학습 방법
CN112528001B (zh) 一种信息查询方法、装置及电子设备
CN110517767B (zh) 辅助诊断方法、装置、电子设备及存储介质
US20220129448A1 (en) Intelligent dialogue method and apparatus, and storage medium
US11514034B2 (en) Conversion of natural language query
CN111984774B (zh) 搜索方法、装置、设备以及存储介质
CN111708800A (zh) 查询方法、装置及电子设备
US20210216710A1 (en) Method and apparatus for performing word segmentation on text, device, and medium
CN111241302B (zh) 职位信息图谱生成方法、装置、设备和介质
CN110688837B (zh) 数据处理的方法及装置
CN111523019A (zh) 用于输出信息的方法、装置、设备以及存储介质
US11893977B2 (en) Method for recognizing Chinese-English mixed speech, electronic device, and storage medium
JP7242797B2 (ja) 語句処理方法、機器及び記憶媒体
CN111753542B (zh) 文本语句的处理方法和装置、电子设备及存储介质
CN111832313B (zh) 文本中情感搭配集合的生成方法、装置、设备和介质
CN112329429A (zh) 文本相似度学习方法、装置、设备以及存储介质
CN113221550B (zh) 文本过滤方法、装置、设备和介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210514

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230206

R150 Certificate of patent or registration of utility model

Ref document number: 7223785

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150