JP2021510429A - 知識および自然言語処理を統合するための機械学習 - Google Patents

知識および自然言語処理を統合するための機械学習 Download PDF

Info

Publication number
JP2021510429A
JP2021510429A JP2020532977A JP2020532977A JP2021510429A JP 2021510429 A JP2021510429 A JP 2021510429A JP 2020532977 A JP2020532977 A JP 2020532977A JP 2020532977 A JP2020532977 A JP 2020532977A JP 2021510429 A JP2021510429 A JP 2021510429A
Authority
JP
Japan
Prior art keywords
data
value
credibility
entry
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020532977A
Other languages
English (en)
Other versions
JP2021510429A5 (ja
JP7210587B2 (ja
Inventor
バカレッラ、デイヴィット
バーンビー、ジェームス
ローレンス、ニコラス
パテル、シュミット
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2021510429A publication Critical patent/JP2021510429A/ja
Publication of JP2021510429A5 publication Critical patent/JP2021510429A5/ja
Application granted granted Critical
Publication of JP7210587B2 publication Critical patent/JP7210587B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/043Distributed expert systems; Blackboards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/06Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols the encryption apparatus using shift registers or memories for block-wise or stream coding, e.g. DES systems or RC4; Hash functions; Pseudorandom sequence generators
    • H04L9/0618Block ciphers, i.e. encrypting groups of characters of a plain text message using fixed encryption transformation
    • H04L9/0637Modes of operation, e.g. cipher block chaining [CBC], electronic codebook [ECB] or Galois/counter mode [GCM]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3236Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions
    • H04L9/3239Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions involving non-keyed hash functions, e.g. modification detection codes [MDCs], MD5, SHA or RIPEMD
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/50Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols using hash chains, e.g. blockchains or hash trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】データの知識グラフベースの持続のためのフレームワークを自動化し、知識グラフの経時的変化および不確実性を解決するためのシステム等を提供する。【解決手段】自然言語理解が、1つまたは複数の機械学習モデル(MLM)とともに、エンティティおよびエンティティ関係を含め、非構造化情報からデータを抽出するために使用される。抽出されたデータは、知識グラフにデータ投入される。KGが変化を受けると、KGは、新たな機械学習モデル(MLM)を作成し、既存のMLMを再訓練するために使用される。投入されたデータに、信憑値の形態の重み付けが適用される。データの信頼度を保証し、データに対する変更を評定するための監査可能性を提供するために、投入されたデータにブロックチェーン技術が適用される。【選択図】図1

Description

本発明は、自然言語処理に関し、より詳細には、知識および自然言語処理を統合するための機械学習に関する。
人工知能コンピュータ・システムの分野において、自然言語システム(IBM Watson(商標)人工知能コンピュータ・システムおよび他の自然言語質問応答システムなど)は、システムによって獲得される知識に基づいて自然言語を処理する。自然言語を処理するために、システムは、知識のデータベースまたはコーパスから導出されるデータを用いて訓練することができるが、もたらされる結果は、言語構造の特異さおよび正しくない人間の論理的思考または新たな訓練データに関係する様々な理由から正しくないまたは不正確である可能性がある。
人工知能(AI)の一部である機械学習は、アルゴリズムを利用して、データから学習し、このデータに基づいて展望を作成する。AIとは、機械が情報に基づいて判断を行うことが可能であるとき、所与のトピックにおいて成功する機会を最大化する知能を指す。より具体的には、AIは、データ・セットから、問題を解決し、関連する推奨を提供する方法を学習することが可能である。AIは、認知コンピューティングの一部であり、これは、大きい規模で学習し、目的をもって論理的に思考し、人間と自然に対話するシステムを指す。認知コンピューティングは、コンピュータ科学と認知科学との混合である。認知コンピューティングは、データ最小値、視覚認識、および自然言語処理を使用して問題を解決し、人間が関係するプロセスを最適化する独習アルゴリズムを利用する。
認知システムは、本質的に非決定論的である。具体的には、認知システムから出力されるデータは、入力として提供および使用される情報の影響を受けやすい。例えば、新たな機械学習モデルが展開されると、システムが以前と同じエンティティを抽出する保証はない。新たなモデルは、先行するモデルの結果に悪影響を与える場合がある。同様に、ある文書を通じて導入されるエラーの結果として、正しくないデータが抽出され、正しくないデータが出力として提供される場合がある。したがって、認知システムにおいて決定論的挙動を作成することが必要とされている。
本発明は、認知システムのための決定論的データを対象とする自然言語処理のためのシステム等を提供することを目的とする。
実施形態は、認知システムのための決定論的データを対象とする自然言語処理のためのシステム、コンピュータ・プログラム製品、および方法を含む。
1つの態様において、システムには、メモリに動作可能に結合されている処理ユニットが設けられ、人工知能プラットフォームが、処理ユニットおよびメモリと通信する。処理ユニットと通信する知識エンジンが、データを管理するために提供される。より具体的には、知識エンジンは、構造化データまたは非構造化データあるいはその両方からデータおよびデータ関係を抽出する。知識エンジンは、抽出されたデータおよびデータ関係のエントリを知識グラフ内に作成し、記憶されているデータへの信憑値の割り当てを含め、データおよびデータ関係を選択的に知識グラフ内に記憶する。加えて、アセット値エントリが、知識グラフに対応するかまたは他の様態で関連付けられる、対応するブロックチェーン(BC)台帳内に作成される。アセット値エントリは、割り当てられた信憑値を含む。BC台帳エントリに対応するBC識別子が作成され、BC識別子は、知識グラフ・エントリとともに記憶される。知識グラフ・エントリおよび対応するBC台帳エントリに基づいて、KG内の選択データが、評価をサポートするために知識エンジンによって利用され得る。より具体的には、評価は、選択データの来歴の判定をサポートし、加えて、データの定量化をサポートする。知識エンジンは、割り当てられた信憑値に基づくリスト内のデータのソートを含む、評価されたデータのリストを生成する。1つの実施形態ではリスト内のデータ要素エントリの間で最も強い信憑性スコアを有するデータ要素であるデータ要素が、ソートされたリストから返される。
別の態様において、自然言語を処理するためのコンピュータ・プログラム製品が提供される。コンピュータ・プログラム製品は、処理ユニットによって実行可能であるプログラム・コードを具現化したコンピュータ可読記憶デバイスを含む。プログラム・コードは、知識グラフ内にデータを記憶するために提供される。これは、構造化データまたは非構造化データあるいはその両方からデータおよびデータ関係を抽出するためのプログラム・コード、知識グラフ内にエントリを作成するためのプログラム・コードであって、エントリは、抽出されたデータおよびデータ関係ならびに記憶されているデータへの信憑値の割り当ての選択的記憶を含む、プログラム・コード、知識グラフに対応するBC台帳内にアセット値エントリを作成するためのプログラム・コードであって、エントリは、割り当てられた信憑値を含む、プログラム・コード、BC台帳エントリに対応するBC識別子を作成するためのプログラム・コード、ならびに、作成されたBC識別子を知識グラフ・エントリとともに記憶するためのプログラム・コードを含む。加えて、記憶されているデータの評価をサポートするためのプログラム・コードが提供される。具体的には、プログラム・コードは、知識グラフに記憶されている選択データを評価し、これは、BC識別子を利用して選択データの来歴を判定し、データを定量化するプログラム・コードを含む。評価されたデータのリストを生成し、対応する信憑値に基づいてリスト内のデータをソートするためのプログラム・コードも提供される。結果は、ソートされたリスト内の最も強く表現される信憑性スコアを有するデータ要素の形態でリストから生成される。
また別の態様において、自然言語を処理するためのコンピュータ実施方法が提供される。方法は、知識グラフ内にデータを記憶すること、記憶されているデータを評価すること、評価されたデータ内のデータ要素を識別することを含む。データを記憶することは、構造化データまたは非構造化データあるいはその両方からデータおよびデータ関係を抽出することと、知識グラフ内にエントリを作成し、抽出されたデータおよびデータ関係をグラフ内に選択的に記憶することと、記憶されているデータに信憑値を割り当てることと、対応するBC台帳内にアセット値エントリを作成することと、BC識別子を作成することと、BC識別子を知識グラフ・エントリとともに記憶することとを含む。記憶されているデータの評価は、BC識別子を利用して選択データの来歴を判定し、また、データを定量化することを含む。評価に基づいて、リストが生成され、割り当てられた信憑値に基づいてソートされる。識別された最も強い信憑値を有するデータ要素が、リストから返される。
添付の図面とともに取り上げられる、現在好ましい実施形態の以下の詳細な説明から、本発明のこれらのおよび他の特徴および利点が明らかになる。
図面に示す特徴は、別途明示的に指定しない限り、すべての実施形態ではなく、ほんの一部の実施形態の例示として意図されている。
自然言語処理システムの概略図を示すシステム図である。 図1に示すNL処理ツールおよびそれらの関連付けられるAPIを示すブロック図である。 自然言語処理(NLP)システムの自然言語(NL)出力から知識グラフ(KG)にデータ投入するためのプロセスを示すフローチャートである。 抽出されたデータから新たなトリプレットを作成するためのプロセスを示すフローチャートである。 NLP出力からトリプレットを抽出するためのプロセスを示すフローチャートである。 NLP出力からトリプレットを抽出するためのプロセスを示すフローチャートである。 KGを区分化するためのプロセスを示すフローチャートである。 2つのKGを連結するためのプロセスを示すフローチャートである。 機械学習モデル(MLM)を活用してクエリ入力を増強するためのプロセスを示すフローチャートである。 機械学習モデル(MLM)を活用してクエリ入力を増強するためのプロセスを示すフローチャートである。 既存のMLMを訓練するためのプロセスを示すフローチャートである。 漸進的かつ適応的なMLM構成のためのプロセスを示すフローチャートである。
本明細書において全般的に説明されており、図面において例示されているような本発明の実施形態の構成要素は、広範な種々の構成において構成および設計することができることは容易に理解されよう。したがって、図面において提示されているような本発明の実施形態の装置、システム、方法、およびコンピュータ・プログラム製品の実施形態の以下の詳細な説明は、特許請求されているものとしての実施形態の範囲を限定するようには意図されておらず、選択されている実施形態を代表しているに過ぎない。
本明細書全体を通じて「選択実施形態」、「1つの実施形態」、または「一実施形態」が参照されている場合、これは、その実施形態と関連して説明されている特定の特徴、構造、または特性が、少なくとも1つの実施形態に含まれることを意味する。したがって、「選択実施形態」、「1つの実施形態において」、または「一実施形態において」という語句が、本明細書全体を通じた様々な箇所に見られるとき、これらは必ずしも同じ実施形態を参照しているとは限らない。
図示されている実施形態は、図面を参照することによって最良に理解され、図面全体を通じて、同様の部分は同様の参照符号によって指定される。以下の説明は、例としてのみ意図されており、単純に、本明細書において特許請求されているものとしての実施形態と一貫するデバイス、システム、およびプロセスの特定の選択されている実施形態を例示する。
オントロジーは、情報および概念を組織化するための構造的枠組みとして機能する。自然言語理解(NLU)は、自然言語処理(NLP)の一部である。NLUは、アルゴリズムを使用して、音声を構造化オントロジーに変換する。1つの実施形態において、オントロジーは、NLU出力の分類から構築される。NLUは、クラス、サブクラス、ドメイン、範囲、データ特性、およびオブジェクト特性に関してオントロジーを構築するのに必要とされる定義を提供する。個別のオントロジーが、オブジェクトにマッピングされる。同じまたは類似の文書を処理することによって、初期オントロジーとしても参照される、オントロジーを構築するのに必要とされるデータが与えられる。オントロジーは、機械学習モデル(MLM)が、知識グラフ(KG)マネージャによってデータ・ストアに適用されることによって定義され、オントロジーは、関連付けられるNLPサービスの出力を使用して構築される。より具体的には、オントロジーは、MLMが生成されたという事実または言及によって生成される。これらの事実または言及が、個別のオントロジーを構成する。1つの実施形態において、オントロジーは、KGの形態であり、事実または言及は、グラフ内のノードとして表される。KGの構造は、情報が追加または削除されることを可能にしながら、一定のままに維持することができる。同様に、オントロジーを使用して、新たなMLMを作成し、既存のMLMを再訓練することができる。1つの実施形態において、KGが修正されると、新たなエンティティおよび関係が認識され、MLMの訓練を自動化するために利用され、MLMは動的かつ漸進的になる。したがって、オントロジーはKGによって表され、MLMは相互に関係付けられる。
図1を参照すると、自然言語処理システム(100)の概略図が示されている。図示されているように、ネットワーク接続(105)にわたって複数のコンピューティング・デバイス(180)、(182)、(184)、(186)、および(188)と通信するサーバ(110)が提供される。サーバ(110)は、バス(116)にわたってメモリ(114)に動作可能に結合されている処理ユニット(112)を有して構成されている。知識エンジン(170)の形態のツールが、サーバ(110)に対してローカルに示されており、処理ユニット(112)またはメモリ(114)あるいはその両方に動作可能に結合されている。図示されているように、知識エンジン(170)は、1つまたは複数のツール(172)〜(178)を含む。ツール(172)〜(178)は、1つまたは複数のコンピューティング・デバイス(180)、(182)、(184)、(186)および(188)からのネットワーク(105)を介して自然言語処理を可能にする。より具体的には、コンピューティング・デバイス(180)、(182)、(184)、(186)、および(188)は、1つまたは複数のワイヤまたはワイヤレスデータ通信リンクあるいはその両方を介して、互いに、および、他のデバイスまたは構成要素と通信し、各通信リンクは、ワイヤ、ルータ、スイッチ、送信機、受信機などのうちの1つまたは複数を含んでもよい。このネットワーク接続構成においてサーバ(110)およびネットワーク接続(105)は、自然言語処理、および、1人または複数のコンテンツ・ユーザの分解能を可能にすることができる。サーバ(110)の他の実施形態が、本明細書において示されているもの以外の構成要素、システム、サブシステム、またはデバイスあるいはその組合せとともに使用されてもよい。
知識エンジン(170)を含むツール、または、1つの実施形態において、KGマネージャ(172)、精度マネージャ(174)、BCマネージャ(176)、およびMLMマネージャ(178)を含む、知識エンジン中に組み込まれているツールは、限定ではないが、ネットワーク(105)からの入力、インターフェース(166)を介して構造化データ(168)のコーパスに動作可能に結合されているノード−グラフ・データ・ストア(160)からの1つまたは複数の知識グラフ、BCネットワーク(150)、および1つまたは複数の機械学習モデル(MLM)のライブラリ(140)を含む、様々なソースからの入力を受信するように構成することができる。図示されているように、ノード−グラフ・データ・ストア(160)は、KG(164A)、KG(164B)、およびKG(164N)を含む、複数のKGを有する、知識グラフのライブラリ(162)として機能する。本明細書において示されているKGの量は、限定であると考えられるべきではない。各KGは、概念のオントロジーの表現である。より具体的には、各KG(164A)、(164B)、および(164N)は、複数の関係付けられる主語および目的語を含む。1つの実施形態において、関係付けられるKGは、関連付けられるKGコンテナ内に記憶され、コーパス(160)が1つまたは複数のKGコンテナを記憶する。1つの実施形態において、KGはまた、他のソースから獲得することもでき、そのため、図示されているデータ・ストアは、限定であると考えられるべきではない。
ネットワーク(105)と通信する様々なコンピューティング・デバイス(180)、(182)、(184)、(186)、および(188)は、コンテンツ作成者およびコンテンツ・ユーザのアクセス・ポイントを示す。コンピューティング・デバイスの一部は、知識エンジン(170)、および、1つの実施形態においてはツール(172)〜(178)によって使用される情報の本体としてデータのコーパスを記憶するデータベースが、決定論的挙動をシステムに組み込むためのデバイスを含むことができる。ネットワーク(105)は、様々な実施形態においてローカル・ネットワーク接続およびリモート接続を含んでもよく、結果、知識エンジン(170)および組み込みツール(172)〜(178)は、ローカル、および、例えばインターネットなどのグローバルを含む、任意のサイズの環境において動作することができる。加えて、サーバ(110)および知識エンジン(170)は、文書、ネットワークアクセス可能ソースまたは構造化データ・ソースあるいはその組合せから抽出されるか、または、その中で表現される様々な知識を利用可能にすることができるフロントエンド・システムとしての役割を果たす。このように、いくつかのプロセスは、サーバ(110)にデータ投入し、サーバ(110)はまた、要求を受信し、それに従って応答するための入力インターフェースをも含む。コンテンツ作成者およびコンテンツ・ユーザはまた、限定ではないが、(140)および(160)のようなデータ・リポジトリにおいても利用可能であり得、ここで、示されているアクセス・ポイントのリストは限定であると考えられるべきではない。
図示されているように、ノード−グラフ・データ・ストア(160)は、サーバ(110)に動作可能に結合されている。ノード−グラフ・データ・ストア(160)は、サーバ(110)によって使用するための1つまたは複数のKG(164A)〜(164N)を有するKGライブラリ(162)を含む。コンテンツ・ユーザは、図2に示し、記載されているような、API管理またはオーケストレーション・プラットフォーム、および、NLU入力経路を介して受信される自然言語入力を介して、システムにアクセスすることができる。
下記に詳細に説明するように、サーバ(110)および知識エンジン(170)は、ノード−グラフ・データ・ストア(160)内に記憶されている1つまたは複数のKG内で内容を抽出または記憶するために、1つまたは複数の機械学習モデル、以下MLMを使用することによって、自然言語クエリを処理する。記憶または受信されるデータの信頼性、例えば来歴を効率的に提供するために、ブロックチェーン技術、以下「BC」が内容に対して活用される。MLMマネージャ(178)が、関連付けられるMLMの作成、連結、または修正あるいはその組合せのためのツールとして機能し、または、1つの実施形態において、知識エンジン(170)内のAPIが、そのために使用される。下記にさらに説明するように、MLMは、特定の知識ドメインに対して特異的に生成、作成、または修正される。MLMは、非構造化データからエンティティおよび関係を抽出するために作成される。これらのモデルは、具体的には、知識の特定のドメイン(例えば、経歴情報、株式市場、天文学)を理解するために作成される。
BCは、本明細書においては、取引の履歴を記録するための非集中的かつ分散型のデジタル台帳の形態のBCネットワーク(150)として表される。より具体的には、BCは、取引をデジタル的に識別および追跡し、この情報を分散型コンピュータ・ネットワークにわたって共有することを可能にするタイプのデータ構造を参照する。BCは、所有権のトランスペアレントで安全な追跡を介して、実効的に、分散型信頼性ネットワークを作成する。本明細書において図示および説明されているように、BCは、知識を自然言語処理と統合するために、MLMマネージャ(178)、精度マネージャ(174)、およびKGマネージャ(172)とともに活用される。
サーバ(110)は、以降説明する例示的な実施形態のメカニズムによって増強される、ニューヨーク州アーモンク所在のインターナショナル・ビジネス・マシーンズ・コーポレーションから入手可能なIBM Watson(商標)システムであってもよい。IBM Watson(商標)知識マネージャ・システムは、知識を自然言語処理(NLP)にインポートする。具体的には、下記に詳細に説明するように、データの受信、組織化、または記憶あるいはその組合せが行われるとき、データは真または偽であり得る。サーバ(110)は単独では、データの信憑性を区別、またはより具体的には証明することができない。本明細書において示されているように、サーバ(110)は、入力内容(102)を受信し、その後、サーバは、内容(102)の特徴を抽出するために入力内容を評価し、これはその後、ノード−グラフ・データ・ストア(160)に適用される。特に、受信される内容(102)は、1つまたは複数の推論アルゴリズムを使用して入力内容(102)を評価し、これに信頼性を付与するために分析を実施するIBM Watson(商標)サーバ(110)によって処理することができる。
自然言語を処理するために、サーバ(110)は、知識エンジン(170)およびNLPをサポートするための関連付けられるツール(172)〜(178)の形態の情報処理システムを利用する。サーバ(110)において具現化される、または、サーバ(110)と統合されるものとして示されているが、情報処理システムは、ネットワーク(105)にわたってサーバ(110)に接続される別個のコンピュータ・システム(例えば、190)内で実施されてもよい。どこに組み込まれようとも、データを管理および処理し、より具体的には、自然言語を検出および識別し、決定論的出力を作成または利用するために、1つまたは複数のMLMが利用される。図示されているように、ツールは、KGマネージャ(172)、精度マネージャ(174)、BCマネージャ(176)およびMLMマネージャ(178)を含む。MLMマネージャ(178)は、本明細書においてはMLM(142)、MLM(144)、およびMLM(146)を含む複数のMLMを有して示されているMLMライブラリ(140)に動作可能に結合されて示されているが、図示および説明されているMLMの量は、限定であると考えられるべきではない。1つの実施形態において、MLMは、NLPをサポートするように利用または適合されているアルゴリズムであることが理解される。サーバ(110)に対してローカルに図示されているが、ツール(170)〜(178)は集合的にまたは個別に、メモリ(114)内に組み込まれてもよい。
1つまたは複数のMLM(142)〜(146)は、KG内にデータを記憶することを含め、データを管理するように機能する。理解されるように、KGは、構造化オントロジーであり、単にデータを記憶するだけのものではない。具体的には、知識エンジン(170)が、非構造化データからデータおよび1つまたは複数のデータ関係を抽出し、KG内に抽出されたデータおよびデータ関係のエントリを作成し、データおよびデータ関係をKGエントリ内に記憶する。1つの実施形態において、KG内のデータはノードにおいて記憶または表現され、2つのデータ要素の間の関係は、2つのノードを接続するエッジとして表される。同様に、1つの実施形態において、各ノードは、ノード・レベル信憑値を有し、各関係は、関係信憑値を有し、関係信憑値は、2つの相互接続されたノードの信憑値に基づいて計算される。データ抽出および記憶に加えて、MLM、すなわちMLM(142)は、KG内に記憶されているデータに信憑値を割り当てるか、または、他の様態で指定する。1つの実施形態において、信憑値は、下記に詳細に説明するように、忠実度、ソース信頼度、および人間フィードバックから構成される複合スコアである。1つの実施形態において、信憑値は、追加の因子または因子のサブセットを含んでもよく、そのため、限定であると考えられるべきではない。割り当てられた信憑値は、KG内に記憶される。割り当てられた信憑値はまた、識別されているBC台帳内のエントリ内にも記憶される。BC台帳内の各エントリは、台帳および台帳エントリのアドレスを識別する、本明細書においてはBC識別子として参照される、対応する識別子を有する。BC識別子は、識別されるデータとともにKG内に記憶され、対応するBC台帳および記憶されている信憑値の位置を識別する。1つの実施形態において、KGマネージャ(172)は、KGにおけるBC識別子の記憶を管理する。したがって、割り当てられたまたは作成された信憑値はBC内に記憶され、ノード−グラフ・データ・ストア(160)内のKG内の信憑値の複製コピーである。
各KGは、大量のデータを組織化し、これに構造を与えることが理解される。KGは、単一のオントロジーであってもよく、または、1つの実施形態において、KGもしくはKGコンテナが、それらの関係または関連を示すためにともに連結される複数のKGから構成されてもよい。KGマネージャ(172)は、KGの構造および組織化を管理するように機能する。例えば、大規模なKGは、管理するのが煩雑に過ぎるかまたは費用がかかり過ぎる場合がある。このシナリオにおいて、KGマネージャ(172)は、KGを区分化することができ、実効的に、例えば、第1のKGパーティションおよび第2のKGパーティションなど、少なくとも2つのパーティションを作成する。KGは、1つまたは複数の因子に基づいて区分化することができる。例えば、1つの実施形態において、KGは、トピックまたはサブトピックによって区分化することができる。同様に、KG内で表現されている各事実は、限定ではないが、忠実度指標、ソース信頼度測度、および人間フィードバック因子を含む、複数の因子の複合である、関連付けられる信憑値を有する。KGマネージャ(172)は、信憑値に基づいて、または、1つの実施形態において、信憑値を含む因子のうちの1つもしくは複数に基づいて、KGを区分化することができる。1つの実施形態において、KGが少なくとも第1のパーティションおよび第2のパーティションに区分化された後、KGマネージャ(172)は、信憑値の構成要素の1つまたは複数を、パーティション内で表現される各ノードまたはエッジに対して指定することができる。例えば、KG区分化の後、KGマネージャ(172)は、第1の信頼度値を第1のパーティンション内のデータにデータ投入および割り当てすることができ、1つの実施形態において、KGマネージャ(172)は、第1の信頼度値とは異なる第2の信頼度値を、第2のパーティション内のデータにさらにデータ投入および割り当てすることができる。信憑値の構成要素のうちの1つまたは複数の修正は、実効的に、信憑値を変化させる。しかしながら、信憑値の構成要素のうちの1つまたは複数の値は、経時的に変化し得、そのため、この変化は関連付けられるデータによって反映または具現化されることが理解される。したがって、KGマネージャ(172)は、データを管理し、データに構造および値を与えるように機能する。
KGマネージャ(172)の機能のうちの1つは、2つ以上のKGを連結または接合することである。KGを接合または連結することは、KGを区分化することの逆である。KGを接合または連結する機能は、KGマネージャ(172)が、1つのKG内の1つまたは複数のデータ要素と、第2のKG内の1つまたは複数のデータ要素とを比較し、重複するデータの出現を排除または少なくとも低減することを必要とする。上述したように、KG内で表現される各データ要素は、関連付けられる複合スコアを有する。KGマネージャ(172)は、1つの構成要素、複数の構成要素、または信憑値自体を、データ比較および評価のための因子として使用することができる。接合または連結されると、重複するデータ項目を除去することが実現可能であり得るかまたは保証され得る。重複するデータであると判定された、連結されたKG内のデータは、KGマネージャ(172)によって選択的に除去される。重複するデータの除去の1つの特性は、KGの一定の構造を維持することができることである。したがって、KGマネージャ(172)は、KG内で表現されるデータを管理することによって、KGの構造を管理するように機能する。
BCマネージャ(176)は、機械学習環境に関する複数の機能を有する。上述したように、BCマネージャ(176)は、MLMとともに、関連付けられるデータの信頼性を維持するように機能することができる。BCマネージャ(176)は、BCネットワーク対話のための契約を生成し、来歴を提供し、BC情報を取り出し、システムのすべてのBC対話を管理する。
NL入力の評価は、MLM、すなわち、MLM(142)によって管理される。NL入力と関連付けられる矛盾またはエラーが、NL入力から生成されるKGからのクエリ結果、より具体的には、クエリ結果のソートによって識別される。強い信憑値を有するクエリ結果とNLとの間に矛盾があるとき、これは、NL入力が正しくない可能性があることを示す。精度マネージャ(174)は、NL入力の言語を、生成されているリストからの識別または選択されているトリプレットと置換されることによって、NL入力を補正する。本明細書においてはメモリとしても参照されるトリプレットは、KG内の2つ以上のノードおよび2つ以上のノードの間の関係に基づく。1つの実施形態において、トリプレットは、KGから捕捉されるものとしての主語−動詞−目的語関係である。1つの実施形態において、識別または選択は、1つの実施形態においてユーザによって選択される、最も高い信憑値に基づき得る。同様に、別の実施形態において、識別または選択は、複合信憑値を含む因子のうちの1つまたは複数に基づき得る。知識エンジン(150)がリスト内の1つまたは複数のエントリと関連付けられる不変の因子を識別し、不変の因子とNL入力との間の矛盾をさらに識別するとき、別の形態の矛盾が生じ得る。この矛盾は、精度マネージャ(174)が、NL入力の言語を不変の因子を有するエントリと関連付けられるトリプレットと置換されることによってNL入力を補正することによって解決される。矛盾に加えて、別の解決策は、精度マネージャ(174)が、NL入力とソートされたリストのエントリとの間の部分一致を識別することにあり得る。部分一致は、KGマネージャ(172)およびBCマネージャ(176)が、NL入力についてそれぞれ、KGおよび対応するBC台帳内に新たなエントリを作成することを可能にするか、または、そのように誘導する。加えて、KGマネージャ(172)は、新たなエントリと、部分一致に対応する既存のKGエントリとを接続する。NL入力は、例えば、空集合など、一致を一切生成しない場合があることがさらに理解される。一致がない場合、KGマネージャ(172)およびBCマネージャ(176)が、それぞれNL入力に対応する新たなKGエントリおよびBC台帳エントリを作成する。したがって、NL入力は、KG内で組織化されるデータに照らして、MLM、すなわちMLM(142)、および、1つの実施形態において精度マネージャ(174)によって処理される。
本明細書において示し、説明されているように、MLMライブラリ(140)が、サーバ(110)に動作可能に結合され、AIプラットフォームにおける自然言語処理をサポートするための複数のMLMを含む。MLMのうちの1つまたは複数は、動的であり得、新たなエンティティおよび関係に適合するように訓練することができる。異なるKGが、異なる知識ドメインと関連付けられ得る。例えば、第1のMLM、すなわちMLM(142)が、KG(164A)とのその整合に基づいて、ライブラリ(140)から識別または選択され得る。NL入力の処理に応答して、MLM(142)がKG(164A)に対して適用され得、第2のKG、すなわちKG(164B)に対して別個に適用され得る。MLMマネージャ(178)は、両方のKGからの結果を、それらの対応する信憑値とともに処理し、処理に基づいて、KGのうちの1つの修正が識別される。1つの実施形態において、信憑値は、修正の信頼性を識別するために評価される。認証を受けて、MLMマネージャ(178)は、関連付けられるMLM、すなわちMLM(142)を動的に修正する。1つの実施形態において、識別される修正は、追加のフィールドを含むための、関連付けられるデータ・セットの拡張であり得る。同様に、1つの実施形態において、MLMマネージャ(178)は、修正が共時的または通時的であることを確認し、この分類を、修正を監督するための要素として使用することができる。1つの実施形態において、MLM(142)の修正の結果として、新たなMLM、例えばMLM(146)が作成され、1つの実施形態において、元のMLM、すなわちMLM(142)が保持される。したがって、MLMライブラリ(140)は、MLMの動的修正を受けて拡張することができる。
システム(110)を利用することができる情報処理システムのタイプは、手持ち式コンピュータ/携帯電話(180)のような小型手持ち式デバイスから、メインフレーム・コンピュータ(182)のような大型メインフレーム・システムに及ぶ。手持ち式コンピュータ(180)の例は、携帯情報端末(PDA)、MP4プレーヤ、携帯テレビ、およびコンパクト・ディスク・プレーヤのようなパーソナル・エンターテインメント・デバイスを含む。情報処理システムの他の例は、ペンまたはタブレット・コンピュータ(184)、ラップトップまたはノートブック・コンピュータ(186)、パーソナル・コンピュータ・システム(188)およびサーバ(190)を含む。図示されているように、様々な情報処理システムは、コンピュータ・ネットワーク(105)を使用してともにネットワーク接続することができる。様々な情報処理システムを相互接続するために使用することができるコンピュータ・ネットワーク(105)のタイプは、ローカル・エリア・ネットワーク(LAN)、ワイヤレス・ローカル・エリア・ネットワーク(WLAN)、インターネット、公衆交換電話網(PSTN)、他のワイヤレス・ネットワーク、および、情報処理システムを相互接続するために使用することができる任意の他のネットワーク・トポロジを含む。情報処理システムの多くは、ハード・ドライブまたは不揮発性メモリあるいはその両方のような、不揮発性データ・ストアを含む。情報処理システムのいくつかは、別個の不揮発性データ・ストアを使用することができる(例えば、サーバ(190)は、不揮発性データ・ストア(190a)を利用し、メインフレーム・コンピュータ(182)は、不揮発性データ・ストア(182a)を利用する)。不揮発性データ・ストア(182a)は、様々な情報処理システムの外部にある構成要素とすることができ、または、情報処理システムのうちの1つの内部にあることができる。
情報処理システムは、多くの形態をとることができ、その一部が図1に示されている。例えば、情報処理システムは、デスクトップ、サーバ、ポータブル、ラップトップ、ノートブック、または他の形状因子のコンピュータまたはデータ処理システムの形態をとることができる。加えて、情報処理システムは、携帯情報端末(PDA)、ゲーミング・デバイス、ATM機械、携帯電話デバイス、通信デバイスまたはプロセッサおよびメモリを含む他のデバイスのような、他の形状因子をとることができる。
アプリケーション・プログラム・インターフェース(API)は、当該技術分野において、2つ以上のアプリケーションの間を媒介するソフトウェアとして理解されている。図1に示し、記載されているNL処理システムに関して、ツール(172)〜(178)のうちの1つまたは複数およびそれらの関連付けられる機能をサポートするために、1つまたは複数のAPIを利用することができる。図2を参照すると、NL処理ツールおよびそれらの関連付けられるAPIを示すブロック図(200)が提供される。図示されているように、複数のツールが知識エンジン(205)内に組み込まれており、ツールは、API(212)と関連付けられる精度マネージャ(210)、API(222)と関連付けられるKGマネージャ(220)、API(232)と関連付けられるBCマネージャ(230)、およびAPI(242)と関連付けられるMLMマネージャ(240)を含む。APIの各々は、1つまたは複数の言語およびインターフェース仕様において実施することができる。API(212)は、アセット比較、信憑性判定、信憑性判断、および信憑性割り当てを可能にし、API(222)は、KG作成、更新、および削除を可能にし、API(232)は、MLM作成、更新、および削除を可能にし、API(242)は、BC契約作成、ブロック作成、ネットワーク通信、およびブロック追加を可能にする。図示されているように、API(212)、(222)、(232)、および(242)の各々は、他にオーケストレーション層として知られているAPIオーケストレータ(250)に動作可能に結合され、APIオーケストレータは、当該技術分野において、別個のAPIをともにトランスペアレントにスレッド化するための抽象化レイヤとして機能するものとして理解されている。1つの実施形態において、別個のAPIの機能は、接合または組み合わせすることができる。そのため、本明細書において示されているAPIの構成は、限定であると考えられるべきではない。したがって、本明細書において示されているように、ツールの機能は、それらのそれぞれのAPIによって具現化またはサポートすることができる。
本開示の選択されている実施形態の理解を向上するための追加の詳細を提供するために、ここで、KGを初期化するための形態のプロセスを示す図3を参照する。システムが初期化されるとき、KGは空である。MLMが、非構造化データからエンティティおよび関係を抽出するために作成または利用される。MLMは、知識の特定のドメイン、すなわち、経歴情報、金融市場、科学の諸分野などを理解するために作成される。代表的なデータが、システムに、モデル内で定義されるエンティティおよび関係のテキストを識別することを教示するために使用される。図3を参照すると、NLPシステムの自然言語出力からKGにデータ投入するためのプロセスを示すフローチャート(300)が与えられる。KG初期化およびデータ投入プロセスの一部として、抽出されるトリプレットの信憑値が指定される。信憑値は、忠実度指標、ソース信頼度指標、および人間フィードバック指標から構成される。1つの実施形態において、信憑値を含む指標の各々は、0と1との間のスケール上の数値である。忠実度指標は、基礎となる事実の確実性を反映する。1つの実施形態において、1の忠実度値は、事実が間違いなく真であることを反映し、0の値は、事実が間違いなく偽であることを反映し、0と1との間の値は、事実に関する確実性または不確実性のレベルを示す。ソース信頼度因子は、限定ではないが、事実が確認されたデータおよび時間を含む、事実のソース、例えば起源と関連付けられる。人間フィードバック指標は、事実の肯定および反論の量を追跡する。1つの実施形態において、この因子は、応答の量を追跡する。したがって、KGが初期化され、データを投入されると、信憑値の構成要素が、NLPシステムを介して抽出されるトリプレットに割り当てられるように選択または設定される。
共時的または通時的情報のような分類が、それぞれ一定のままであるかまたは経時的に変化し得るかのいずれかであるデータを記述するために利用される。教師あり訓練の例の場合、忠実度値は1に設定され、ソース信頼度値は1に設定され、人間フィードバックは0に設定される。これらの値は一例に過ぎず、1つの実施形態においては変化してもよい。1つの実施形態において、KGアプリケーション・プログラム・インターフェース(API)は、信憑値を指定するためのプラットフォームを提供する。図示されているように、エンティティおよび関係を定義することによって、MLMが作成される(302)。MLMは、代表的なデータを使用して訓練される(304)。ステップ(304)の後、NLPを用いるMLMが使用されて、訓練データからトリプレットが抽出される(306)。抽出されたトリプレットは、ファイルに保存されるか、または、ストリーミングされ得る。1つの実施形態において、抽出されたトリプレットは、主語−動詞−目的語関係である。ステップ(306)の後、抽出されたトリプレットが利用されて、KGがデータ投入される(308)。1つの実施形態において、KG APIが使用されて、NLU出力からトリプレットが読み出され、解析される。1つの実施形態において、KGにデータ投入されるトリプレットは、メモリとして参照される。MLMは訓練を通じて作成され、その後、MLMは、KGにデータ投入するためのデータに対して適用される。したがって、NLPを用いるMLMは、データからトリプレットを抽出し、以前は空であったKGにデータ投入する。
NLP出力から抽出される各主語エンティティについて(310)、主語エンティティが関連付けられるKG内に存在するか否かが判定される(312)。ステップ(312)における判定に対して肯定的応答が得られる場合、その後、抽出された主語エンティティと関連付けられる既知の関係が存在するか否かが判定される(314)。ステップ(314)における判定に対する応答が肯定である場合、関連付けられる関係および割り当てられた信憑値を伴う主語エンティティがKG内に存在するか否かが判定される(316)。ステップ(316)における判定に対する肯定的応答は、主語エンティティ関係がKG内に存在することを示し、プロセスは完了する。しかしながら、ステップ(312)、(314)、および(316)に示す判定のうちのいずれか1つに対する応答が否定的である場合、その後、KG内に新たなトリプレットおよび新たなトリプレットのエントリが作成される(318)。したがって、図示されているように、NLP文書からデータを抽出し、抽出されたデータによってKGに選択的にデータ投入するためにKGマネージャにアクセスするために、MLMが利用される。
図4を参照すると、抽出されたデータから新たなトリプレットを作成するためのプロセスを示すフローチャート(400)が与えられる。図3に記載されているように、抽出されたデータの信憑値成分が確立されまたは割り当てられる。1つの実施形態において、信憑値成分は、KG初期化と関連付けられる監督に基づいて確立される。例えば、主語−動詞−目的語関係などの新たな各トリプレットについて、信憑値がトリプレットに割り当てられる(402)。1つの実施形態において、信憑値は、KG APIを介して割り当てられる。ステップ(402)の後、対応するまたは指定のBC台帳内にエントリが作成される(404)。より具体的には、ステップ(404)において、BCエントリが、トリプレット信憑値を記憶し、本明細書においてはBC識別子として参照される識別子が作成され、その後、取り出される。1つの実施形態において、取り出されるBC識別子は、統一資源識別子(URI)または他の一意のアセット識別子である。ステップ(404)の後、新たなトリプレットが、関連付けられるBC識別子とともにKGに挿入される(406)。1つの実施形態において、KG APIが、ステップ(406)において、トリプレットおよび関連付けられるBC識別子の挿入を実施する。したがって、示されているように、新たな各トリプレットの信憑値が対応するBC台帳内に記憶され、関連付けられるBC識別子が、KGエントリ内のトリプレットとともに記憶されるか、または、他の様態で関連付けられる。
図3および図4に示し、記載されているプロセスはまた、例えば、データが信頼できない場合があるときに教師なし訓練を使用して、または、教師あり訓練を使用して、NLPシステムの自然言語出力からKGにデータ投入するためにも利用され得る。図3および図4に示し、記載されているように、KG APIは、NLP出力から抽出されているデータの信憑値を設定するために利用される。ソースに応じて、信憑値は、不確実性を示すために設定することができる。例えば、1つの実施形態において、忠実度指標は0.5に設定されてもよく、ソース信頼度は0.5に設定されてもよく、人間フィードバック値は0に設定されてもよい。したがって、教師なし訓練は、信憑値の種々のセットにおいて反映され得る。
非訓練データの処理の過程において、正確なトリプレット一致が見つからない場合、新たなメモリが作成され、対応するまたは識別されるKG内に記憶される。これは、同じ主語に関する複数の文書の処理を考慮するときに実現され得る。例えば、1つの文書が第1の日付を有する事実を識別し得、第2の文書が第2の日付を有する同じ事実を識別し得る。しかしながら、これらの日付の内の一方のみが、事実上正しい。図3および図4に示すように、KGに入力されている各トリプレットは、対応する信憑値を有し、信憑値は、記憶されているメモリの正しさの指標として機能する。これらの信憑性スコアは、KGにデータ投入される矛盾する事実の正確度または正しさあるいはその両方を確立するために使用することができる。
図5および図6を参照すると、NLP出力からトリプレットを抽出するためのプロセスを示すフローチャート(500)が与えられる。図示されているように、精度マネージャを通じてクエリまたは文がKGに提示される(502)。提示は、限定ではないが、事実確認を含む、様々な理由による場合がある。NLPを用いるMLMが使用されて、KGからトリプレットが抽出され(504)、KG APIが使用されて、NLP出力からトリプレットが読み出しおよび解析される(506)。以下の表は、例示的なトリプレットを示す。
Figure 2021510429
ステップ(506)の後、変数XTotalが解析されたトリプレットの量に割り当てられる(508)。その後、XTotalがゼロよりも大きいか否かが判定される(510)。ステップ(510)における判定に対する応答が否定的である場合、これはクエリが空集合を生成したことを示すため、抽出プロセスが完了する(512)。しかしながら、ステップ(510)における判定に対する応答が肯定的である場合、その後、解析されたトリプレットが処理される(514)。トリプレット・カウント変数が1に設定され(516)、各トリプレットについて、同じ主語エンティティおよび関係を有するすべてのトリプレットをフェッチするために、KGが問い合わせされる(518)。図3および図4に示し、記載されているように、各トリプレットは、関連付けられるBC識別子を有する。BC識別子は、対応するBC台帳にアクセスし、記憶されているトリプレット信憑値をフェッチするために利用される(520)。ステップ(520)の後、トリプレット・カウント変数が増分される(522)。その後、識別されたトリプレットの各々が処理されているか否かが判定される(527)。ステップ(522)における判定に対する応答が否定的である場合、その後、ステップ(518)に戻る。同様に、判定に対する応答が肯定的である場合、KGおよび対応するBC台帳エントリに問い合わせるプロセスが完了し(526)、抽出および処理されたトリプレットはソートを受ける(528)。(528)におけるソートは、トリプレットをある順序に配置するように機能する。例えば、1つの実施形態において、トリプレットは、忠実度指標、ソース信頼度、および人間フィードバックの昇順にソートされてもよい。同様に、ソート順序は、特定の使用事例に適合するようにカスタマイズ可能であってもよい。例えば、1つの実施形態において、人間フィードバック指標が優先されてもよい。したがって、トリプレット抽出は、KGを利用して、トリプレットおよび関連付けられるBC識別子を取得または識別し、BC識別子は関連付けられる信憑値を獲得するために利用され、信憑値はその後、トリプレットをソートするための特性として利用される。
以下の表2は、2つのトリプレットの例示的なソートを示す、表1の拡張である。
Figure 2021510429
表2の例においては、各々が異なる主語エンティティ値と関連付けられる2つのトリプレット・エントリが存在する。示されているように、エントリは、忠実度指標またはソース信頼度指標のいずれかの昇順にソートされる。ソート因子は、限定であると考えられるべきではない。1つの実施形態において、ソートは、逆の降順になってもよく、または、信憑値の異なる成分に基づいてもよい。この例における第1のトリプレット・エントリは、主語エンティティによって定義され、関係は、最も高い信憑値、例えば、信憑性スコアを有すると考えられる。
事業使用事例が、クエリ結果の解釈を後押しする。例えば、より高い確度スコアを有するトリプレットが実現される場合、システムは、主語エンティティ値の元の値をより高い信憑性スコアを有する値と自動的に置換されるように構成することができる。忠実度指標は、返される情報の正確度の反映である。図示されているように、ステップ(528)の後、事業使用事例が検索結果に適用される(530)。ステップ(530)における適用の後、KGと、KG内の対応するBC識別子と関連付けられる適切なまたは識別されているBC台帳の両方が問い合わせされる(532)。ステップ(532)における問い合わせは、すべての関連付けられる関係および主語エンティティ値を得る。より詳細には、これによって、主語エンティティについてすべてのデータを分析的に検討することが可能である。ステップ(532)の後、NLP入力または出力データが増強される(534)。増強の例は、限定ではなく、補正、分析、増強、およびマスキングを含む。補正は、主語エンティティ値をメモリからのデータと置換されることを含む。1つの実施形態において、置換は、例えばクエリに対してローカルであり、KGまたはBC内では反映されない。分析は、主語−関係値のリストに信憑性を加えることを含む。増強は、例えば、主語−関係の対あたり1つの値など、最高レベルの確度を有するすべての既知の主語−関係値によって結果を補完することを含む。マスキングは、NLP出力から1つまたは複数のトリプレットを削除することを含む。ステップ(532)の後、増強されたデータが返される。したがって、NLP入力から1つまたは複数の適切なデータ要素を返すために、同じく増強され得る検索結果の解釈を後押しするのに、異なる使用事例が任意選択的に利用可能である。
図5および図6に示し、記載されているように、1つまたは複数のクエリが、作成されているKGに対して処理され得る。KGは、データを組織化するためのツールとして機能し、各トリプレットが、例えば、忠実度、信頼度、およびフィードバックなどの信憑性スコア成分によって表現されるかまたは他の様態でそれと関連付けられるグラフ内に反映されることが理解される。信憑性スコア成分のうちの1つまたは複数は、動的であり得、例えば、値は経時的変化を受けることが理解される。この変化は、選択KG全体を通じて均一であり得、結果、KG内で表現される各トリプレットに影響を与え、または、変化は、不均一であり得、KG内の1つまたは複数のトリプレットに選択的に影響を与える。
図7を参照すると、1つまたは複数のKGを区分化するためのプロセスを示すフローチャート(600)が与えられる。本明細書において示されている区分化の例は、信頼度因子の変化に基づく。これは一例に過ぎず、1つの実施形態において、区分化は、忠実度またはフィードバック因子の変化に基づいてもよい。信頼度因子は、データのソースの信頼度の測度を反映する。信頼度因子値が受信される(602)。1つの実施形態において、信頼度因子値は、KG APIを通じたNL入力およびフィードバックの一部である。KGは、受信された信頼度値と関連付けられるエントリを識別するように求められる(604)。その後、何らかのKGエントリが識別されているか否かが判定される(606)。ステップ(606)における判定に対する応答が否定的である場合、受信された信頼度因子に基づいてKGに区分化を受けさせる根拠がないため、区分化プロセスは完了する(616)。しかしながら、ステップ(606)における判定に対する応答が肯定的である場合、その後、KG内にパーティションが作成され(608)、作成されたパーティションが、識別された信頼度値を有するKG内のエントリによってデータ投入される(610)。ステップ(608)におけるパーティション作成によって、実効的に、元のKG内の残りのエントリによってデータ投入される第2のパーティション(612)が作成される。
KGの第1のパーティションおよび第2のパーティション内のエントリは、異なる信頼度因子値を有することが理解される。上述したように、信憑値は、忠実度、信頼度、およびフィードバック値の複合値として機能する。個々の成分値のいずれかの変化は、複合値に対して影響を及ぼし、これは、任意のクエリ結果に影響を及ぼし得る。ステップ(612)の後、第1のパーティションおよび第2のパーティションを含む、KG内の信憑性評価が行われる(614)。ステップ(614)における評価は、例えば第1のデータなど、第1のKGパーティション内に投入されたデータと、例えば第2のデータなど、第2のパーティション内に投入されたデータとの比較を含む。1つの実施形態において、信憑性評価は、区分化後に自動的に実施される。第1のパーティション内に投入されたデータは、第2のパーティション内のデータとは異なる信憑値を有することが理解される。本明細書において示されている区分化は、信憑値内で表現される1つの成分の変化に基づく。1つの実施形態において、区分化は、2つ以上の信憑値成分または成分の変化に対して行われてもよい。したがって、信憑値を含む成分のうちのいずれか1つの変化は、関連付けられるKGの1つまたは複数のパーティションの作成を含み得る。
図7に示すように、KGは、区分化を受け得る。2つ以上のKGおよび関連付けられるBC台帳を連結または他の様態で接合することによって、逆の概念が行われ得る。図8を参照すると、2つのKGおよび関連付けられるBC台帳を連結するためのプロセスを示すフローチャート(700)が与えられる。1つの実施形態において、少なくとも接線方向に関係付けられるKGが連結され得る。関係は、KG内で表現される内容または関係に基づき得る。図示されているように、クエリが知識ベースにて提示され(702)、2つ以上のKGが識別される(704)。1つの実施形態において、KG APIは、2つのKGが、クエリに関連するデータを含むことを識別する。同様に、1つの実施形態において、KG APIは、3つ以上のKGを識別することができ、そのため、識別されるKGの量は、限定であると考えられるべきではない。識別されたKGの間にリンクが確立される(706)。2つ以上のKGの連結は、別個のKGの構造を維持する、すなわち、構造は一定のままである。
KG、および、具体的にはその中で表現されるデータの間の関係は、矛盾するトリプレット、例えばメモリを有するクエリ結果を与える場合があることが理解される。潜在的な矛盾を解決するために、連結されているKGの評価が、データ要素を比較するために行われる(708)。より具体的には、比較は、それらの対応する信憑値成分を含む、連結されているKGの各々の中で表現されるデータの評価(710)を含む。識別された矛盾するデータ要素は、例えば、忠実度、信頼度、およびフィードバックなど、信憑値成分のうちの少なくとも1つに基づいて、選択的に置換される(712)。置換は、別個のKGの構造に従う。言い換えれば、KG内のノードは連結によって除去または追加されない。むしろ、識別されているノード内で表現されるデータは、置換することができる。したがって、連結されているKG内の矛盾するエントリの置換は、矛盾するクエリ結果を軽減する。
図9および図10を参照すると、MLMを活用してクエリ入力を増強することを示すフローチャート(800)が与えられる。より具体的には、クエリ提出の結果は、クエリ入力において誘導されるエラーを示すことができる。図示されているように、自然言語入力が受信および処理される(802)。受信入力は、1つまたは複数の指定のKG、および、1つの実施形態において、対応するBC台帳を含め、文脈に対して問い合わせされる(804)。クエリ処理は、指定のKGから抽出または識別される、例えばメモリなどの、1つまたは複数のトリプレットの形態の結果を生成する(806)。上述したように、各トリプレットは、主語、目的語、および関連付けられる関係を含む。変数XTotalが、KGから抽出または識別されているトリプレットの量に割り当てられる(808)。その後、ステップ(808)において抽出される量が、少なくとも1つのトリプレットを含むか否かが判定される(810)。ステップ(810)における判定に対する応答が肯定的である場合、その後、関連付けられるトリプレット・カウント変数が初期化される(812)。各トリプレットは、トリプレットと関連付けられるかまたはトリプレットに割り当てられる信憑値を含む、BC台帳エントリに対応するBC識別子を有する。抽出または識別される各トリプレット、例えば、トリプレットについて、BC識別子が取得され(814)、BC識別子から、BC台帳が求められ、対応する信憑値が識別される(816)。ステップ(816)の後、トリプレット・カウント変数が増分され(818)、抽出または識別されているKGの各々が評価されているか否かを判定するための評定が行われる(820)。ステップ(820)における判定に対する応答が否定的である場合、その後、ステップ(814)に戻り、応答が肯定的である場合、トリプレット抽出および識別プロセスが完了する。したがって、クエリ入力と関連付けられると判定される各トリプレットについて、関連付けられる信憑値が識別される。
ステップ(810)における判定に対する応答が否定的である場合、その後、関連付けられるKG内のエントリについて新たなトリプレットが作成される(822)。新たなトリプレットは、受信される自然言語入力、例えば、クエリ提出に対応し、信憑性スコアが新たなトリプレットに割り当てられる(824)。加えて、KGに対応するBC台帳内のエントリが作成される(826)。BC台帳エントリと関連付けられるBC識別子が作成され、新たなトリプレットとともにKG内に記憶され(828)、割り当てられた信憑性スコアが対応する台帳エントリ内に記憶される(830)。したがって、クエリ入力から返されるトリプレットの空集合が、KGおよび対応するBC台帳に加えられることになる。
クエリ提出は、ステップ(820)における判定に対する肯定的応答によって識別されるものとしての、関連付けられるKGからの1つまたは複数のトリプレットの形態の応答を返すことができることが理解される。識別されているトリプレットが処理およびソートされた後(832)、MLMは、識別されているトリプレットのソートに対応するように、自然言語入力を増強する(834)。増強は1つまたは複数の形態をとることができる。例えば、1つの実施形態において、増強は、自然言語入力とソートされたトリプレットとの間の矛盾から生じる(836)。矛盾が識別されるとき、MLMによる増強は、ソートからの正しいトリプレットの識別(838)、および、識別されているトリプレットに対応するためのNL入力の修正(840)の形態である。ステップ(838)における識別は、種々の形態をとることができる。例えば、1つの実施形態において、識別は、上述したように複合スコアである、関連付けられる信憑値に基づき得る。同様に、1つの実施形態において、信憑値を含む成分のうちの1つまたは複数は、トリプレットのリストをソートするためのソート因子として利用することができる。別の実施形態において、ソートは、トリプレット・エントリと関連付けられる不変の因子に基づいてもよく、不変の因子に基づいてトリプレットがソートされる。したがって、増強は、識別されている矛盾に基づいてもよい。
増強は、一致、または、1つの実施形態において、部分一致に応答する他の形態をとってもよいことが理解される。増強が、ソートにおいて自然言語入力と、トリプレットのうちの少なくとも1つとの間の一致から生じるとき(842)、自然言語入力のエントリが、BC台帳エントリとともに、対応するKG内で作成される(844)。同様に、増強が、自然言語入力と、識別されているトリプレットのうちの少なくとも1つとの間の部分一致から生じるとき(846)、関連付けられるKG内のエントリの新たなトリプレットが作成される(848)。新たなトリプレットは、受信されるNL入力、例えば、クエリ提出に対応し、信憑性スコアが新たなトリプレットに割り当てられる(848)。加えて、KGに対応するBC台帳内のエントリが作成される(850)。BC台帳エントリと関連付けられるBC識別子が作成され、新たなトリプレットとともにKG内に記憶され(852)、割り当てられた信憑性スコアが対応する台帳エントリ内に記憶される(854)。加えて、KG内の新たなトリプレット・エントリが、部分一致によって識別されるトリプレットと接続される(856)。したがって、示されているように、一致または部分一致の増強は、対応するKGおよび関連付けられるBC台帳内のエントリの作成を含む。
図3〜図10に示し、記載されているように、KG内に記憶されているデータを識別し、1つの実施形態において、クエリ提出を増強するために、クエリ提出の形態の自然言語処理をサポートするために、MLMが利用される。MLMは動的であり、変化を受けることも理解される。KGは、1つまたは複数の新たなMLMを作成すること、または、既存のMLMを再訓練すること、あるいはその両方のために利用され得る。オントロジーが修正されるとき、新たなエンティティおよび関係が認識される。この新たな情報は、その後、MLMの訓練を自動化し、結果、動的かつ漸進的なMLMをサポートし、新たなMLMを作成し、または、既存のMLMを増強するために利用することができる。
図11を参照すると、フローチャート(900)は、既存のMLMを訓練するためのプロセスを与える。ここで示されているプロセスにおいて、MLMのNLPライブラリが存在する。ライブラリ内の、ここでは第1のMLMとして参照されるMLMが、ここでは第1のKGとして参照されるKG内で表現される知識ドメインに対するその整合に基づいて識別または選択される(902)。第1のKGに対して問い合わせされる自然言語入力の受信に応答して、識別または選択されている第1のMLMは、クエリ入力を処理し、第1のKGから1つまたは複数のトリプレットを抽出する(904)。加えて、第2のKGが識別され(906)、1つの実施形態において、第1のKGに関係付けられる。MLMは、第2のKGを用いて同じクエリを処理し、1つまたは複数のトリプレットが第2のKGから抽出される(908)。ステップ(904)および(908)において抽出される各トリプレットは、本明細書においてはメモリとしても参照され、主語、目的語、および関係を含む。上述したように、各トリプレットは、対応する信憑値を記憶しているBC台帳を示す、関連付けられるBC識別子を有する。ステップ(908)の後、抽出されている各トリプレットは、それらの対応するBC台帳エントリ内に記憶されている、それらの関連付けられる信憑値を識別するために処理される(910)。第1のKGのトリプレットおよび第2のKGのトリプレットが評価および比較される(912)。より具体的には、ステップ(912)における評価は、第2のKGにおいて反映されるものとして、第1のKGの内容または構造あるいはその両方が修正を受けたか否かを評定する(914)。動的に修正されるべきMLMについて、判定は、2つの主語KGが関係付けられる構造および内容を有するか否かである。修正は、第1のKGおよび第2のKGから返されるトリプレットの比較を介して証明することができる。ステップ(914)における評価に対する応答が否定的である場合、MLM修正が完了する(922)。しかしながら、ステップ(914)における評価に対する応答が肯定的である場合、その後、内容的変化または構造的変化あるいはその両方が識別される(916)。加えて、対応する信憑値が、変化の信頼性を検証するために評定される(918)。ステップ(918)における検証に基づいて、MLMの構造は、動的修正を受ける(920)。
ステップ(920)における修正は、種々の形態をとることができる。例えば、1つの実施形態において、MLMの修正は、第1のKGエントリと比較したときに、第2のKGエントリ内で反映される、検証される変化に一致し得る。別の実施形態において、修正は、抽出されたデータの対応する信憑値の評定に基づいてもよい。したがって、MLMが、KG内の変化に基づく変化を受けることが実証される。
さらに、KG内で表現されるデータおよび関連付けられる関係は、共時的または通時的情報であり得ることが理解される。分類は、ステップ(912)における評価にインポートされ得る。変化すべきでなく、修正されていることが実証されているデータは、MLM修正において反映されるべきではない。したがって、データ分類は、データ評価および関連付けられるMLM評価にインポートされ得る。
図12を参照すると、漸進的かつ適応的なMLM構成のためのプロセスを示すフローチャート(1000)が与えられる。KG APIは、新たなエンティティ、関係、およびデータについて、関連付けられるまたは識別されているKGを定期的に検索する(1002)。ステップ(1002)における識別は、KG内のエントリのデータまたは時間あるいはその両方のチェック、または、既存のMLMからのエンティティおよび関係と、KG内に含まれるデータとの比較によって達成することができる。KG内に存在する、および、対象のMLM内に存在しないエンティティおよび関係のリストが生成される(1004)。リストは、MLMを生成するために使用される訓練ツールによって消費可能であるフォーマットにおいて生成される。消費可能データは、既存のMLMの構造を更新するためにストリーミングされる(1006)。1つの実施形態において、KG APIは、訓練のためにその後MLMに供給することができる各トリプレットを表現する言語文をKGから生成する。ステップ(1006)の後、更新されたMLMが新たなMLMとしてMLMライブラリ内に記憶される(1008)。1つの実施形態において、漸進的MLM構成は、既存のMLMの増分的変化を表現するため、増分的である。増分的機械学習は、MLMを、KGの構造と同期させるように機能する。連続的または増分的変化が標的MLMに対して実施され、結果、各増分的変化によって、MLMがKGからデータを抽出する能力が増大し、MLMが実効的に適合する。
本明細書において示されているシステムおよびフローチャートはまた、NL処理を容易にするためにインテリジェント・コンピュータ・プラットフォームとともに使用するためのコンピュータ・プログラム・デバイスの形態であってもよい。このデバイスには、プログラム・コードが具現化されている。プログラム・コードは、処理ユニットによって、記載されている機能をサポートするために実行可能である。
図示および説明されているように、1つの実施形態において、処理ユニットは、対応するBC台帳および関連付けられるエントリとともに、既存のKGおよび対応するMLMの証拠を求めてコーパスを検索する機能をサポートする。複合信憑性スコアが、関連付けられるデータの定性化または定量化あるいはその両方を行い、1つまたは複数の評定を行うための重みを与える。対応するBC台帳内の関連付けられる構成要素とともに信憑性スコアを記録することによって、データに信頼性が与えられる。結果セット内の各エントリは、対応する信憑性スコアに基づいて評価される。本明細書において説明されているように、KGは、区分化および連結、ならびに、1つまたは複数の選択KGに対して表現または割り当てされているデータに信憑性スコア成分を割り当てることを含む、修正を受ける。同様に、本明細書において説明されているように、MLMは、KGのうちの1つまたは複数への構造的変更を反映するように、動的に調製することができる。より具体的には、MLMは、新たなエンティティおよびエンティティ関係に適応する。
本明細書において、メモリおよび外部学習の使用を通じて動的MLM生成および増強のためのシステム、方法、装置、およびコンピュータ・プログラム製品が開示されていることが諒解されよう。開示されているように、システム、方法、装置、およびコンピュータ・プログラム製品は、MLMをサポートし、MLMがKGの持続をサポートするために、NL処理を適用する。
本発明の特定の実施形態が図示および説明されているが、本明細書における教示に基づいて、本発明およびそのより広い態様から逸脱することなく、変更および修正を行うことができることが、当業者には明らかになる。それゆえ、添付の特許請求の範囲は、すべてのそのような変更および修正を、本発明の真の思想および範囲内にあるように、それらの範囲内に包含するものとする。さらに、本発明が、添付の特許請求の範囲によってのみ規定されることは理解されたい。具体的な数の特許請求項の要素の導入が意図されている場合、そのような意図は特許請求項において明示的に列挙されており、そのような列挙がない場合、そのような限定は存在しないことが当業者には理解されよう。非限定的な例として、理解を助けるものとして、以下の添付の特許請求の範囲は、特許請求項の要素を導入するために前置きの語句「少なくとも1つ」および「1つまたは複数」の使用を含む。しかしながら、このような語句を使用することは、不定冠詞「a」または「an」による特許請求項の列挙の導入が、たとえ同じ特許請求項が前置きの語句「1つまたは複数」または「少なくとも1つ」および「a」または「an」のような不定冠詞を含む場合であっても、このように導入される特許請求項の要素を含む任意の特定の特許請求項をただ1つのこのような要素を含む発明に限定することを暗示するものとして解釈されるべきではなく、同じことが、特許請求項の範囲における定冠詞の使用にも当てはまる。
本発明は、システム、方法、またはコンピュータ・プログラム製品あるいはその組合せであってもよい。加えて、本発明の選択される態様は、本明細書においてはすべて包括的に「回路」、「モジュール」または「システム」と称する場合がある、全体がハードウェアの実施形態、全体がソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、または、ソフトウェアの態様またはハードウェアの態様あるいはその両方を組み合わせた実施形態の形態をとり得る。さらに本発明の諸態様は、プロセッサに、本発明の諸態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体において具現化されるコンピュータ・プログラム製品の形態をとり得る。このように具現化されると、本開示のシステム、方法、またはコンピュータ・プログラム製品あるいはその組合せは、信憑値に基づいて機械学習モデルの機能および動作を改善し、BC技術を活用するように動作可能である。
コンピュータ可読記憶媒体は、命令実行デバイスによって使用するための命令を保持および記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は例えば、限定ではないが、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または上記の任意の適切な組合せであってもよい。コンピュータ可読記憶媒体のより特定的な例の包括的でないリストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ダイナミックまたはスタティック・ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、磁気記憶デバイス、ポータブル・コンパクト・ディスク読み出し専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、フロッピー(R)ディスク、パンチ・カード、または、命令を記録されている溝の中の隆起構造のような機械的に符号化されているデバイス、および、上記の任意の適切な組合せを含む。コンピュータ可読記憶媒体は、本明細書において使用されるものとしては、無線波、または、他の自由に伝播する電磁波、導波路もしくは他の伝送媒体(例えば、光ファイバ・ケーブルを通過する光パルス)を通じて伝播する電磁波、または、ワイヤを通じて伝送される電気信号のような、過渡的信号自体として解釈されるべきではない。
本明細書において記載されているコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスへ、または、ネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、広域ネットワークもしくはワイヤレス・ネットワークまたはその両方を介して外部コンピュータもしくは外部記憶デバイスへダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス送信、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータまたはエッジサーバあるいはその組合せを含んでもよい。各コンピューティング/処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースが、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体内に記憶するために、コンピュータ可読プログラム命令を転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、Java(R)、Smalltalk、C++などのようなオブジェクト指向プログラミング言語、および、「C」プログラミング言語もしくは同様のプログラミング言語のような従来の手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組合せで書かれているソースコードもしくはオブジェクトコードのいずれかであってもよい。コンピュータ可読プログラム命令は、その全体をユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして、部分的にユーザのコンピュータ上でかつ部分的にリモート・コンピュータ上で、またはその全体をリモート・コンピュータもしくはサーバもしくはサーバのクラスタ上で実行することができる。後者のシナリオにおいて、リモート・コンピュータが、ローカル・エリア・ネットワーク(LAN)もしくは広域ネットワーク(WAN)を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続されてもよく、または、接続は、外部コンピュータに対して(例えば、インターネット・サービス・プロバイダを使用してインターネットを通じて)行われてもよい。いくつかの実施形態において、例えば、プログラム可能論理回路、フィールドプログラマブル・ゲート・アレイ(FPGA)、またはプログラム可能論理アレイ(PLA)を含む電子回路が、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路をカスタマイズすることによって、コンピュータ可読プログラム命令を実行することができる。
本発明の態様は、本明細書において、本発明の実施形態による、方法、装置(システム)およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照して説明されている。フローチャート図またはブロック図あるいはその両方の各ブロック、および、フローチャート図またはブロック図あるいはその両方の中の複数のブロックの組合せはそれぞれ、コンピュータ可読プログラム命令によって実装されることができることは理解されよう。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供されてマシンを生成することができ、それによって、コンピュータまたは他のプラグラマム可能データ処理装置のプロセッサを介して実行する命令は、フローチャート図またはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定される機能/動作を実施するための手段を作り出す。これらのコンピュータ可読プログラム命令はまた、コンピュータ、プログラム可能データ処理装置、または他のデバイスあるいはその組合せに特定の様式で機能するように指示することができるコンピュータ可読記憶媒体内に記憶することもでき、それによって、命令を記憶されているコンピュータ可読記憶媒体は、フローチャート図またはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定される機能/動作の態様を実施する命令を含む製造品を含む。
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能データ処理装置、または他のデバイス上にロードされて、一連の動作ステップが、コンピュータ、他のプログラム可能装置、または他のデバイス上で実行されるようにして、コンピュータで実施されるプロセスを生成することができ、それによって、コンピュータ、他のプログラム可能装置、または他のデバイス上で実行する命令が、フローチャート図またはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定される機能/動作を実施する。
図面内のフローチャート図およびブロック図は本発明の様々な実施形態によるシステム、方法およびコンピュータ・プログラム製品の可能な実施態様のアーキテクチャ、機能、および動作を例示する。これに関連して、フローチャート図またはブロック図内の各ブロックは、指定の論理機能を実施するための1つまたは複数の実行可能命令を含む、モジュール、セグメント、または命令の一部分を表すことができる。いくつかの代替的な実施態様において、ブロックに記載されている機能は、図面に記載されている順序と一致せずに行われてもよい。例えば、連続して示されている2つのブロックは実際には、関与する機能に応じて、実質的に同時に実行されてもよく、または、これらのブロックは、時として逆順に実行されてもよい。また、ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方のブロックの組合せは、指定の機能もしくは動作を実施するか、または、専用ハードウェアとコンピュータ命令との組合せを実行する専用ハードウェアベース・システムによって実施することができることも留意されよう。
本発明の特定の実施形態が例示を目的として本明細書において説明されているが、本発明の思想および範囲から逸脱することなく、様々な修正を行うことができることが諒解されよう。特に、自然言語処理は、複数の異なるコンピューティング・プラットフォームによって、または、複数のデバイスにわたって実行されてもよい。さらに、データ記憶装置またはコーパスあるいはその両方は、局在化されてもよく、リモートであってもよく、または複数のシステムにわたって分散されてもよい。したがって、本発明の保護範囲は添付の特許請求の範囲およびそれらの均等物によってのみ限定される。

Claims (18)

  1. コンピュータ・システムであって、
    メモリに動作可能に結合されている処理ユニットと、
    前記処理ユニットと通信する知識エンジンであって、
    構造化データ、非構造化データ、およびこれらの組合せから成る群から選択されるデータから、データおよびデータ関係を抽出することと、
    抽出された前記データおよび前記データ関係のエントリを知識グラフ(KG)内に作成し、記憶されている前記データへの信憑値の割り当てを含め、抽出された前記データおよび前記データ関係を選択的に前記KG内に記憶することと、
    前記KGに対応するブロックチェーン(BC)台帳内にアセット値エントリを作成することであって、前記アセット値エントリは、割り当てられた前記信憑値を含む、前記アセット値エントリを作成することと、
    前記BC台帳エントリに対応するBC識別子を作成することと、
    作成された前記BC識別子を、前記KGエントリとともに記憶することと
    を含む、データを管理することと、
    前記BC識別子を利用して選択データの来歴を判定し、前記データを定量化することを含め、前記KG内に記憶されている前記選択データを評価することと、
    評価された前記データのリストを生成し、割り当てられた前記信憑値に基づいて、生成された前記リスト内の前記データをソートすることと
    を行うための、前記知識エンジンと
    を備え、
    ソートされた前記リストから、最も強い信憑性スコアを有するデータ要素が返される、コンピュータ・システム。
  2. 前記知識エンジンが、
    前記KG内に第1のパーティションを作成し、前記第1のパーティション内の第1のデータに第1の信頼度値をデータ投入し、割り当てることと、
    前記KG内に第2のパーティションを作成し、前記第2のパーティション内の第2のデータに、前記第1の信頼度値とは異なる第2の信頼度値をデータ投入し、割り当てることとを行うことをさらに行う、請求項1に記載のシステム。
  3. 前記知識エンジンが、前記第1のデータと前記第2のデータとの比較を含め、前記KG内での信憑性評価を自動的に実施することをさらに行う、請求項2に記載のシステム。
  4. 前記知識エンジンが、第2のKG内のデータ要素と第1のKG内のデータ要素とを比較および評価し、信頼度、フィードバック、およびこれらの組合せから成る群から選択される値に基づいて、データ要素を選択的に置換することを含め、2つの知識グラフ間にリンクを確立することをさらに行う、請求項1に記載のシステム。
  5. 前記知識エンジンが、前記第1のKGと前記第2のKGとの間の前記リンクの確立後に、前記KGの構造を一定に維持することをさらに行う、請求項4に記載のシステム。
  6. 前記データは、前記KG内のノード内に記憶され、前記関係は、2つのノードを接続するエッジとして表現され、各ノードは、ノード・レベル信憑値を有し、各関係は、関係信憑値を有し、前記関係値は、前記関係内の前記ノードの前記信憑値に基づいて計算される、請求項1に記載のシステム。
  7. 自然言語を処理するためのコンピュータ・プログラム製品であって、プログラム・コードが具現化されているコンピュータ可読記憶デバイスを備え、前記プログラム・コードは、処理ユニットによって、
    知識グラフ(KG)内にデータを記憶することであって、
    構造化データ、非構造化データ、およびこれらの組合せから成る群から選択されるデータから、データおよびデータ関係を抽出することと、
    前記KG内にエントリを作成し、記憶されている前記データへの信憑値の割り当てを含め、抽出された前記データおよび前記データ関係を選択的に前記KG内に記憶することと、
    前記KGに対応するブロックチェーン(BC)台帳内にアセット値エントリを作成することであって、前記アセット値エントリは、割り当てられた前記信憑値を含む、前記アセット値エントリを作成することと、
    前記BC台帳エントリに対応するBC識別子を作成することと、
    作成された前記BC識別子を、前記KGエントリとともに記憶することと
    を含む、KG内にデータを記憶することと、
    前記BC識別子を利用して選択データの来歴を判定し、前記データを定量化することを含め、前記KG内に記憶されている前記選択データを評価することと、
    評価された前記データのリストを生成し、割り当てられた前記信憑値に基づいて、生成された前記リスト内の前記データをソートすることと、
    結果を生成することであって、前記結果は、ソートされた前記リストから返される、最も強い信憑性スコアを有するデータ要素であるデータ要素である、前記結果を生成することと
    を行うように実行可能である、コンピュータ・プログラム製品。
  8. 前記KG内に第1のパーティションを作成し、前記第1のパーティション内の第1のデータに第1の信頼度値をデータ投入し、割り当てることと、
    前記KG内に第2のパーティションを作成し、前記第2のパーティション内の第2のデータに、前記第1の信頼度値とは異なる第2の信頼度値をデータ投入し、割り当てることと
    を行うためのプログラム・コードをさらに備える、請求項7に記載のコンピュータ・プログラム製品。
  9. 前記第1のデータと前記第2のデータとの比較を含め、前記KG内での信憑性評価を自動的に実施するためのプログラム・コードをさらに備える、請求項8に記載のコンピュータ・プログラム製品。
  10. 第2のKG内のデータ要素と第1のKG内のデータ要素とを比較および評価し、信頼度、フィードバック、およびこれらの組合せから成る群から選択される値に基づいて、データ要素を選択的に置換することを含め、2つの知識グラフ間にリンクを確立するためのプログラム・コードをさらに備える、請求項7に記載のコンピュータ・プログラム製品。
  11. 前記第1のKGと前記第2のKGとの間の前記リンクの確立後に、前記KGの構造を一定に維持するためのプログラム・コードをさらに備える、請求項10に記載のコンピュータ・プログラム製品。
  12. 前記データは、前記KG内のノード内に記憶され、前記関係は、2つのノードを接続するエッジとして表現され、各ノードは、ノード・レベル信憑値を有し、各関係は、関係信憑値を有し、前記関係値は、前記関係内の前記ノードの前記信憑値に基づいて計算される、請求項7に記載のコンピュータ・プログラム製品。
  13. 自然言語を処理するコンピュータ実施方法であって、
    知識グラフ(KG)内にデータを記憶することであって、
    構造化データ、非構造化データ、およびこれらの組合せから成る群から選択されるデータから、データおよびデータ関係を抽出することと、
    前記KG内にエントリを作成し、記憶されている前記データへの信憑値の割り当てを含め、抽出された前記データおよび前記データ関係を選択的に前記KG内に記憶することと、
    前記KGに対応するブロックチェーン(BC)台帳内にアセット値エントリを作成することであって、前記アセット値エントリは、割り当てられた前記信憑値を含む、前記アセット値エントリを作成することと、
    前記BC台帳エントリに対応するBC識別子を作成することと、
    作成された前記BC識別子を、前記KGエントリとともに記憶することと
    を含む、KG内にデータを記憶することと、
    前記BC識別子を利用して選択データの来歴を判定し、前記データを定量化することを含め、前記KG内に記憶されている前記選択データを評価することと、
    評価された前記データのリストを生成し、割り当てられた前記信憑値に基づいて、生成された前記リスト内の前記データをソートすることと
    を含み、
    ソートされた前記リストから、最も強い信憑性スコアを有するデータ要素が返される、コンピュータ実施方法。
  14. 前記KG内に第1のパーティションを作成し、前記第1のパーティション内の第1のデータに第1の信頼度値をデータ投入し、割り当てることと、
    前記KG内に第2のパーティションを作成し、前記第2のパーティション内の第2のデータに、前記第1の信頼度値とは異なる第2の信頼度値をデータ投入し、割り当てることと
    をさらに含む、請求項13に記載の方法。
  15. 前記第1のデータと前記第2のデータとの比較を含め、前記KG内での信憑性評価を自動的に実施することをさらに含む、請求項14に記載の方法。
  16. 第2のKG内のデータ要素と第1のKG内のデータ要素とを比較および評価し、信頼度、フィードバック、およびこれらの組合せから成る群から選択される値に基づいて、データ要素を選択的に置換することを含め、2つの知識グラフ間にリンクを確立することをさらに含む、請求項13に記載の方法。
  17. 前記第1のKGと前記第2のKGとの間の前記リンクの確立後に、前記KGの構造を一定に維持することをさらに含む、請求項16に記載の方法。
  18. 前記データは、前記KG内のノード内に記憶され、前記関係は、2つのノードを接続するエッジとして表現され、各ノードは、ノード・レベル信憑値を有し、各関係は、関係信憑値を有し、前記関係値は、前記関係内の前記ノードの前記信憑値に基づいて計算される、請求項13に記載の方法。
JP2020532977A 2018-01-10 2018-12-31 知識および自然言語処理を統合するための機械学習 Active JP7210587B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/866,698 US10423726B2 (en) 2018-01-10 2018-01-10 Machine learning to integrate knowledge and natural language processing
US15/866,698 2018-01-10
PCT/IB2018/060736 WO2019138289A1 (en) 2018-01-10 2018-12-31 Machine learning to integrate knowledge and natural language processing

Publications (3)

Publication Number Publication Date
JP2021510429A true JP2021510429A (ja) 2021-04-22
JP2021510429A5 JP2021510429A5 (ja) 2021-07-26
JP7210587B2 JP7210587B2 (ja) 2023-01-23

Family

ID=67139857

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020532977A Active JP7210587B2 (ja) 2018-01-10 2018-12-31 知識および自然言語処理を統合するための機械学習

Country Status (6)

Country Link
US (2) US10423726B2 (ja)
JP (1) JP7210587B2 (ja)
CN (1) CN111566654B (ja)
DE (1) DE112018005894T5 (ja)
GB (1) GB2583313A (ja)
WO (1) WO2019138289A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11003716B2 (en) * 2017-01-10 2021-05-11 International Business Machines Corporation Discovery, characterization, and analysis of interpersonal relationships extracted from unstructured text data
US10776586B2 (en) * 2018-01-10 2020-09-15 International Business Machines Corporation Machine learning to integrate knowledge and augment natural language processing
US11909858B1 (en) * 2018-06-21 2024-02-20 Thomson Reuters Enterprise Centre Gmbh System and method for generating and performing a smart contract
US10607042B1 (en) * 2019-02-12 2020-03-31 Live Objects, Inc. Dynamically trained models of named entity recognition over unstructured data
US10592544B1 (en) 2019-02-12 2020-03-17 Live Objects, Inc. Generation of process models in domains with unstructured data
US11790368B2 (en) * 2019-03-05 2023-10-17 International Business Machines Corporation Auto-evolving database endorsement policies
CN110516240B (zh) * 2019-08-28 2021-04-06 南京璇玑信息技术有限公司 一种基于Transformer的语义相似度计算模型DSSM技术
CN111274391B (zh) * 2020-01-15 2023-09-01 北京百度网讯科技有限公司 一种spo的抽取方法、装置、电子设备及存储介质
US11483154B2 (en) 2020-02-19 2022-10-25 International Business Machines Corporation Artificial intelligence certification of factsheets using blockchain
US11379466B2 (en) * 2020-08-18 2022-07-05 Accenture Global Solutions Limited Data accuracy using natural language processing
CN112348190B (zh) * 2020-10-26 2022-06-21 福州大学 一种基于改进的嵌入模型suke的不确定知识图预测方法
CN112199960B (zh) * 2020-11-12 2021-05-25 北京三维天地科技股份有限公司 一种标准知识元粒度解析系统
CN112380836A (zh) * 2020-11-12 2021-02-19 华侨大学 一种智能侨情问句生成方法
WO2022102827A1 (ko) * 2020-11-16 2022-05-19 주식회사 솔트룩스 과학 기술 논문을 위한 지식 추출 시스템
CN112883197B (zh) * 2021-02-08 2023-02-07 广东电网有限责任公司广州供电局 一种用于封闭开关设备的知识图谱构建方法与系统
CN112989069B (zh) * 2021-05-10 2021-10-15 苏州博宇鑫交通科技有限公司 一种基于知识图谱与区块链的交通违章分析方法
US20230063880A1 (en) * 2021-08-26 2023-03-02 Mocrosoft Technology Licensing, LLC Performing quality-based action(s) regarding engineer-generated documentation associated with code and/or application programming interface
CN114328978B (zh) * 2022-03-10 2022-05-24 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 关系抽取方法、装置、设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013257874A (ja) * 2012-06-11 2013-12-26 Fujitsu Ltd 調整処理を実行する方法、制御部、プログラム及びデータ記憶システム
US20150324350A1 (en) * 2014-05-12 2015-11-12 International Business Machines Corporation Identifying Content Relationship for Content Copied by a Content Identification Mechanism
JP2016015124A (ja) * 2014-06-30 2016-01-28 富士通株式会社 コンピュータ装置、処理方法及びコンピュータプログラム
US20160342989A1 (en) * 2015-05-21 2016-11-24 Mastercard International Incorporated Method and system for processing blockchain-based transactions on existing payment networks

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10984913B2 (en) * 2012-04-27 2021-04-20 Netspective Communications Llc Blockchain system for natural language processing
US10217059B2 (en) 2014-02-04 2019-02-26 Maluuba Inc. Method and system for generating natural language training data
US10839020B2 (en) * 2014-04-14 2020-11-17 Netspective Communications Llc Multi-source user generated electronic data integration in a blockchain-based transactional system
US10325205B2 (en) 2014-06-09 2019-06-18 Cognitive Scale, Inc. Cognitive information processing system environment
CN105095195B (zh) 2015-07-03 2018-09-18 北京京东尚科信息技术有限公司 基于知识图谱的人机问答方法和系统
US10445656B2 (en) 2015-09-29 2019-10-15 Cognitive Scale, Inc. Cognitive machine learning system
US9959504B2 (en) 2015-12-02 2018-05-01 International Business Machines Corporation Significance of relationships discovered in a corpus
CN105843875B (zh) 2016-03-18 2019-09-13 北京光年无限科技有限公司 一种面向智能机器人的问答数据处理方法及装置
US10628491B2 (en) * 2016-11-09 2020-04-21 Cognitive Scale, Inc. Cognitive session graphs including blockchains
US20180165758A1 (en) * 2016-12-09 2018-06-14 Cognitive Scale, Inc. Providing Financial-Related, Blockchain-Associated Cognitive Insights Using Blockchains
CN107015963A (zh) 2017-03-22 2017-08-04 重庆邮电大学 基于深度神经网络的自然语言语义分析系统及方法
US10019491B1 (en) 2017-11-29 2018-07-10 OJO Labs, Inc. Machine learning of response selection to structured data input
US11605018B2 (en) 2017-12-27 2023-03-14 Cerner Innovation, Inc. Ontology-guided reconciliation of electronic records

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013257874A (ja) * 2012-06-11 2013-12-26 Fujitsu Ltd 調整処理を実行する方法、制御部、プログラム及びデータ記憶システム
US20150324350A1 (en) * 2014-05-12 2015-11-12 International Business Machines Corporation Identifying Content Relationship for Content Copied by a Content Identification Mechanism
JP2016015124A (ja) * 2014-06-30 2016-01-28 富士通株式会社 コンピュータ装置、処理方法及びコンピュータプログラム
US20160342989A1 (en) * 2015-05-21 2016-11-24 Mastercard International Incorporated Method and system for processing blockchain-based transactions on existing payment networks

Also Published As

Publication number Publication date
DE112018005894T5 (de) 2020-07-30
US20190213258A1 (en) 2019-07-11
CN111566654B (zh) 2023-10-24
US20190303441A1 (en) 2019-10-03
US10599780B2 (en) 2020-03-24
CN111566654A (zh) 2020-08-21
GB2583313A (en) 2020-10-21
GB202011417D0 (en) 2020-09-09
WO2019138289A1 (en) 2019-07-18
US10423726B2 (en) 2019-09-24
JP7210587B2 (ja) 2023-01-23

Similar Documents

Publication Publication Date Title
JP7210587B2 (ja) 知識および自然言語処理を統合するための機械学習
US10846485B2 (en) Machine learning model modification and natural language processing
US10417581B2 (en) Question answering system-based generation of distractors using machine learning
US10776586B2 (en) Machine learning to integrate knowledge and augment natural language processing
US9754021B2 (en) Method for deducing entity relationships across corpora using cluster based dictionary vocabulary lexicon
US11562029B2 (en) Dynamic query processing and document retrieval
US11030402B2 (en) Dictionary expansion using neural language models
US11599826B2 (en) Knowledge aided feature engineering
US11238027B2 (en) Dynamic document reliability formulation
US11294884B2 (en) Annotation assessment and adjudication
CN110019751B (zh) 机器学习模型修改和自然语言处理
US10949613B2 (en) Dynamic natural language processing
US11182416B2 (en) Augmentation of a text representation model
US11361031B2 (en) Dynamic linguistic assessment and measurement
US20200150981A1 (en) Dynamic Generation of User Interfaces Based on Dialogue
US11443216B2 (en) Corpus gap probability modeling
US20220327356A1 (en) Transformer-Based Model Knowledge Graph Link Prediction
JP2023002475A (ja) コンピュータシステム、コンピュータプログラムおよびコンピュータで実装される方法(因果関係知識の識別および抽出)
CN111435409B (zh) 动态查询处理和文档检索
US11586973B2 (en) Dynamic source reliability formulation
US20230316101A1 (en) Knowledge Graph Driven Content Generation
US20230222290A1 (en) Active Learning for Matching Heterogeneous Entity Representations with Language Models
Irfan et al. Evolving the taxonomy based on hierarchical clustering approach

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210518

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210525

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220502

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220908

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230111

R150 Certificate of patent or registration of utility model

Ref document number: 7210587

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150