JP2020009430A - モデル駆動型ドメイン固有検索を実行する方法及びシステム - Google Patents

モデル駆動型ドメイン固有検索を実行する方法及びシステム Download PDF

Info

Publication number
JP2020009430A
JP2020009430A JP2019117569A JP2019117569A JP2020009430A JP 2020009430 A JP2020009430 A JP 2020009430A JP 2019117569 A JP2019117569 A JP 2019117569A JP 2019117569 A JP2019117569 A JP 2019117569A JP 2020009430 A JP2020009430 A JP 2020009430A
Authority
JP
Japan
Prior art keywords
instance
model
classes
class
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019117569A
Other languages
English (en)
Other versions
JP6849741B2 (ja
Inventor
ハイテシュシャンドラ シャー サパンクマール
Hiteshchandra Shah Sapankumar
ハイテシュシャンドラ シャー サパンクマール
ラベーンドラン ビシュヌダス
Raveendran Vishnudas
ラベーンドラン ビシュヌダス
サンナレディー レディー スリーダール
Sannareddy Reddy Sreedhar
サンナレディー レディー スリーダール
ゴータム バサヴァルス プルショッタム
Gautham Basavarsu Purushottham
ゴータム バサヴァルス プルショッタム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tata Consultancy Services Ltd
Original Assignee
Tata Consultancy Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tata Consultancy Services Ltd filed Critical Tata Consultancy Services Ltd
Publication of JP2020009430A publication Critical patent/JP2020009430A/ja
Application granted granted Critical
Publication of JP6849741B2 publication Critical patent/JP6849741B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】非構造化テキストに対するドメイン固有の検索システムを実現する、モデル駆動型の枠組みを提供すること。【解決手段】枠組みは、メタ・モデル、インスタンス・モデル、抽出モデル、及び言及モデルなど、様々なモデルを定義するための情報抽出システム、並びに情報抽出システムによって指定されるモデルを変換することで機能する、一般的なドメインにとらわれない検索システムを有する。検索システムは、ドメインのハード・コーディングされた知識を持たない、完全なドメイン非依存であり、メタ・モデルによって指定されたドメイン・モデルを変換して、検索エンジンにドメインの特殊性を与える。この枠組みはドメインにとらわれず、メタ・モデルによってドメイン関連の情報を指定するだけで、新しいドメイン用に調整され得る。モデル駆動型の手法は、関心のあるどんな新しいドメインに対しても、検索システムの再コーディングを不要にする。【選択図】図2

Description

優先権主張
本出願は、2018年6月26日に出願されたインド特許出願第201821023737号の優先権を主張する。上記出願の全内容は、参照により本明細書に組み入れられる。
本明細書の開示は、概ね検索システムに関し、詳細には、ドメイン固有の検索を実行するためのモデル駆動型システム及び方法に関する。
多くのアプリケーション・ドメインでは、キーワード・ベースの検索は、十分でない可能性がある。アプリケーション・ドメインの概念及び関係を理解する検索エンジンが、必要とされ得る。検索エンジンはまた、様々な数量の値とドメイン・エンティティとそれらの関係とを理解する必要がある。後者は、科学及び工学のドメインで特に重要である。効果的な検索エンジンを構築するには、自然言語処理(NLP:Natural Language Processing)、機械学習などのテキスト処理技術を、ドメイン・エンティティの微妙な差異及びそれらの関係を理解することによって強化する必要がある。汎化、特化階層、関係の種類、濃度(cardinality)、プロパティ値の種類、単位、範囲などに関するドメイン知識は、テキストを理解するうえで重要な役割を果たす。正しい精度レベルを達成するためには、ドメイン知識をテキスト処理アルゴリズムに体系化する必要がある。従って、ドメイン固有の検索エンジンを実装することは、極めて労力及び知識集約的な活動であり、関心のある各アプリケーション・ドメインに対して繰り返される必要がある。
本開示の実施例は、従来のシステムにおいて発明者が認識している1つ又は複数の上記技術的課題への解決策として、技術的な諸改善を提供する。
一態様では、モデル駆動型ドメイン固有検索を実行するためのプロセッサ実装方法が提供され、この方法は、メタ・モデル、インスタンス・モデル、抽出モデル、及び言及(mention)モデルを使用して、少なくとも1つの関心のあるドメインの要素を定義するステップであって、メタ・モデルは、複数のメタ・モデル・クラスを含み、少なくとも1つの関心のあるドメイン、そのプロパティ、及びそれらの関係に関するエンティティを取得するように構成され、インスタンス・モデルは、複数のインスタンス・クラスを含み、エンティティ、そのプロパティ、及びそれらの関係の少なくとも1つのインスタンスを取得又は取り込むように構成され、抽出モデルは、抽出モデル・クラスを含み、1つ又は複数のエンティティ、そのプロパティ、及びそれらの関係についての少なくとも1つの抽出方法を指定するように構成され、言及モデルは、複数の言及クラスを使用して、抽出された、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及びそれらの関係の言及のインスタンスの値及び位置を、取り込むように構成されるステップと、文書リポジトリから複数の文書を受信するステップと、複数の文書に含まれる生テキストをテキスト形式に前処理するステップであって、この前処理は、文分割、トークン化、語幹処理、品詞(POS:part−of−speech)タグづけ、及び構文解析のうちの1つ又は複数を含むステップと、少なくとも1つの関心のあるドメインについて、複数のメタ・モデル・クラス、複数のインスタンス・クラス、及び抽出モデル・クラスの少なくとも1つのインスタンスを取得するステップと、取得された抽出モデル・クラスのインスタンスを使用して、前処理された生テキストからエンティティの言及のインスタンス、プロパティの言及のインスタンス、及びそれらの関係の言及のインスタンスを抽出するステップと、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及び関係の言及のインスタンスを、メタ・モデル・クラスの対応するインスタンスに関連づけるステップと、抽出された、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及び関係の言及のインスタンスを、言及モデルの中にオブジェクト・グラフ形式で格納するステップと、オブジェクト・グラフを、複数の文書の各々に関連づけられた、前処理された生テキストと共に、グラフ知識ベースに索引づけするステップと、少なくとも1つの関心のあるドメインに対応するクエリ言語パーサを生成するステップと、生成されたクエリ言語パーサを使用して、受信された検索クエリを索引づけされたグラフ知識ベース上で同等のクエリに変換するステップであって、検索クエリは、言及に対するオブジェクト・クエリ、キーワード・ベースのテキスト・クエリ、又はそれらの組合せのいずれかであり、同等のクエリは、少なくとも1つの関心のあるドメインに関するステップと、グラフ知識ベース内の変換されたクエリに関連する、1つ又は複数の一致を識別するステップとを含む。
別の態様では、1つ又は複数のプロセッサに動作可能に結合され、命令を格納するよう構成された、1つ又は複数のデータ記憶装置を備えるシステムが提供され、この命令は、1つ又は複数のプロセッサで実行され、メタ・モデル、インスタンス・モデル、抽出モデル、及び言及モデルを使用して、少なくとも1つの関心のあるドメインの要素を定義し、メタ・モデルは、複数のメタ・モデル・クラスを含み、少なくとも1つの関心のあるドメイン、そのプロパティ、及びそれらの関係に関するエンティティを取得するよう構成され、インスタンス・モデルは、複数のインスタンス・クラスを含み、エンティティ、そのプロパティ、及びそれらの関係の少なくとも1つのインスタンスを取得又は取り込むように構成され、抽出モデルは、抽出モデル・クラスを含み、1つ又は複数のエンティティ、そのプロパティ、及びそれらの関係についての少なくとも1つの抽出方法を指定するように構成され、言及モデルは、複数の言及クラスを使用して、抽出された、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及びそれらの関係の言及のインスタンスの値及び位置を、取り込むように構成され、文書リポジトリから複数の文書を受信し、複数の文書に含まれる生テキストをテキスト形式に前処理し、この前処理は、文分割、トークン化、語幹処理、品詞(POS)タグづけ、及び構文解析のうちの1つ又は複数を含み、少なくとも1つの関心のあるドメインについて、複数のメタ・モデル・クラス、複数のインスタンス・クラス、及び抽出モデル・クラスの少なくとも1つのインスタンスを取得し、取得された抽出モデル・クラスのインスタンスを使用して、前処理された生テキストからエンティティの言及のインスタンス、プロパティの言及のインスタンス、及びそれらの関係の言及のインスタンスを抽出し、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及び関係の言及のインスタンスを、メタ・モデル・クラスの対応するインスタンスに関連づけ、抽出された、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及び関係の言及のインスタンスを、言及モデルの中にオブジェクト・グラフ形式で格納し、オブジェクト・グラフを、複数の文書の各々に関連づけられた、前処理された生テキストと共に、グラフ知識ベースに索引づけし、少なくとも1つの関心のあるドメインに対応するクエリ言語パーサを生成し、生成されたクエリ言語パーサを使用して、受信された検索クエリを索引づけされたグラフ知識ベース上で同等のクエリに変換し、検索クエリは、言及に対するオブジェクト・クエリ、キーワード・ベースのテキスト・クエリ、又はそれらの組合せのいずれかであり、同等のクエリは、少なくとも1つの関心のあるドメインに関し、グラフ知識ベース内の変換されたクエリに関連する、1つ又は複数の一致を識別するように構成される。
さらに別の態様では、その中に具現化されているコンピュータ可読プログラムを含む非一時的コンピュータ可読媒体を備えるコンピュータプログラム製品が提供され、コンピュータ可読プログラムが、コンピュータ処理装置上で実行されると、コンピュータ処理装置は、メタ・モデル、インスタンス・モデル、抽出モデル、及び言及モデルを使用して、少なくとも1つの関心のあるドメインの要素を定義し、メタ・モデルは、複数のメタ・モデル・クラスを含み、少なくとも1つの関心のあるドメイン、そのプロパティ、及びそれらの関係に関するエンティティを取得するように構成され、インスタンス・モデルは、複数のインスタンス・クラスを含み、エンティティ、そのプロパティ、及びそれらの関係の少なくとも1つのインスタンスを取得又は取り込むように構成され、抽出モデルは、抽出モデル・クラスを含み、1つ又は複数のエンティティ、そのプロパティ、及びそれらの関係についての少なくとも1つの抽出方法を指定するように構成され、言及モデルは、複数の言及クラスを使用して、抽出された、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及びそれらの関係の言及のインスタンスの値及び位置を、取り込むように構成され、文書リポジトリから複数の文書を受信し、複数の文書に含まれる生テキストをテキスト形式に前処理し、この前処理は、文分割、トークン化、語幹処理、品詞(POS)タグづけ、及び構文解析のうちの1つ又は複数を含み、少なくとも1つの関心のあるドメインについて、複数のメタ・モデル・クラス、複数のインスタンス・クラス、及び抽出モデル・クラスの少なくとも1つのインスタンスを取得し、取得された抽出モデル・クラスのインスタンスを使用して、前処理された生テキストからエンティティの言及のインスタンス、プロパティの言及のインスタンス、及びそれらの関係の言及のインスタンスを抽出し、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及び関係の言及のインスタンスを、メタ・モデル・クラスの対応するインスタンスに関連づけ、抽出された、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及び関係の言及のインスタンスを、言及モデルの中にオブジェクト・グラフ形式で格納し、オブジェクト・グラフを、複数の文書の各々に関連づけられた、前処理された生テキストと共に、グラフ知識ベースに索引づけ、少なくとも1つの関心のあるドメインに対応するクエリ言語パーサを生成し、生成されたクエリ言語パーサを使用して、受信された検索クエリを索引づけされたグラフ知識ベース上で同等のクエリに変換し、検索クエリは、言及に対するオブジェクト・クエリ、キーワード・ベースのテキスト・クエリ、又はそれらの組合せのいずれかであり、同等のクエリは、少なくとも1つの関心のあるドメインに関し、グラフ知識ベース内の変換されたクエリに関連する、1つ又は複数の一致を識別する。
本開示の一実施例では、複数のメタ・モデル・クラスには、エンティティを取り込むよう構成されたOntMetaClassクラス、プロパティを取り込むよう構成されたOntMetaPropertyクラス、及び関係を取り込むよう構成されたOntMetaRelationクラスが含まれ、OntMetaPropertyクラスのインスタンスは、OntMetaClassのインスタンスに関連づけられ、複数のメタ・モデル・クラスは、抽出モデルに含まれるExtractionModelクラスに関連づけられる。
本開示の一実施例では、複数のインスタンス・クラスには、エンティティの少なくとも1つのインスタンスを取り込むよう構成されたOntClassInstanceクラス、エンティティの少なくとも1つのインスタンスのプロパティを取り込むよう構成されたOntPropertyInstanceクラス、及びエンティティの少なくとも1つのインスタンス間の関係を取り込むよう構成されたOntRelationInstanceクラスが含まれ、インスタンス・クラスのそれぞれが、複数のメタ・モデル・クラスからの対応するメタ・モデル・クラスに関連づけられる。
本開示の一実施例では、複数のインスタンス・クラスは、同義語の関連づけを使用して、同義語を取り込んで複数のインスタンス・クラスのインスタンスと関連づけるよう構成された、1つ又は複数のSynonymクラスと、OntPropertyInstanceクラスのインスタンスに関連づけられた値の取り得る単位を取り込むよう構成されるUnitクラスとをさらに含む。
本開示の一実施例では、少なくとも1つの抽出方法は、DictionaryExtractionModel、PatternExtractionModel又はMLExtractionModelのいずれかに含まれ、DictionaryExtractionModelは、エンティティのインスタンス、そのプロパティのインスタンス、及びそれらの関係のインスタンスの辞書を使用して、前処理された生テキスト内の、エンティティのインスタンス、プロパティのインスタンス、及び関係のインスタンスの言及を取り込み、PatternExtractionModelは、(a)前処理された生テキスト内の文字と一致するテキストのパターンを特定するためのTextPattern、及び(b)文字以外のパターンを特定するためのNLPPatternを含む、1組のパターンに関連づけられ、品詞(POS)タグ、依存関係、及び見出語認定を含む自然言語処理の特性に基づく。
本開示の一実施例では、少なくとも1つの抽出方法は、取得又は取り込まれた、エンティティ、そのプロパティ、及びそれらの関係の少なくとも1つのインスタンスに基づいて生成された、1つ又は複数の曖昧さ除去ルールに依存する。
本開示の一実施例では、少なくとも1つの抽出方法は、エンティティ、そのプロパティ、及びそれらの関係の汎化階層に従って継承される。
本開示の一実施例では、複数の言及クラスは、抽出されたエンティティの言及のインスタンス、プロパティの言及のインスタンス、及び関係の言及のインスタンスの位置をそれぞれ関連づけるよう構成された、OntClassMention、OntPropertyMention、及びOntRelMentionを含む。
前述の一般的な説明及び以下の詳細な説明の両方は、典型的及び説明的なものにすぎず、特許請求の範囲に記載の本発明を限定するものではないことを理解されたい。
本開示に組み入れられ、本開示の一部を構成する添付図面は、典型的な実施例を示し、説明と共に開示された原理を説明するように機能する。
本開示の一実施例による、モデル駆動型ドメイン固有検索を実行するためのシステムの、例示的構成図である。 本開示の一実施例による、モデル駆動型ドメイン固有検索を実行するためのシステムの、例示的実装形態のアキテクチャを示す図である。 本開示の一実施例による、モデル駆動型ドメイン固有検索を実行するための、コンピュータ実装方法の例示的流れ図である。 本開示の一実施例による、モデル駆動型ドメイン固有検索を実行するための、コンピュータ実装方法の例示的流れ図である。 本開示の一実施例による、例示的なメタ・モデルを示す図である。 本開示の一実施例による、材料工学ドメインについての例示的なメタ・モデルを示す図である。 本開示の一実施例による、例示的なインスタンス・モデルを示す図である。 本開示の一実施例による、例示的なインスタンス・モデルを示す図である。 本開示の一実施例による、材料工学ドメインについての例示的なインスタンス・モデルを示す図である。 本開示の一実施例による、例示的な抽出モデルを示す図である。 本開示の一実施例による、例示的な言及モデルを示す図である。 本開示の一実施例による、例示的な言及モデルを示す図である。
添付図面を参照して、典型的な実施例を説明する。図において、参照番号の最も左にある桁は、参照番号が最初に現れる図を特定する。好都合である場合はいつでも、同じ又は類似の部分を指すために、同じ参照番号が図全体を通して使用される。本明細書で、開示された原理の実例及び特徴が示されるが、本開示の実施例の精神及び範囲を逸脱することなく、修正形態、改作、及び他の実装形態が可能である。以下の詳細な説明は、例示としてのみ考慮されることを意図しており、真の範囲及び精神は、以下の特許請求の範囲によって示されている。
ドメイン固有の検索エンジンは、通常、テキストの前処理、構文解析、依存関係の分析、情報の抽出、索引の作成などを含む。テキストの前処理、構文解析、及び依存関係分析のために、Stanford Core NLPなど、いくつかの技術の積み重ねがある。しかし、かかる方法は、個人、組織などの一般的なエンティティを除いて、エンティティ及び関係の抽出には利用できない。いくつかの情報抽出ツールは、ドメイン固有のアルゴリズムのプラグインを可能にするが、こうしたツールは、特に科学及び工学のドメインで検索を実行するために重要となる、エンティティ及び関係の汎化、濃度の制約、プロパティ値の制約など、ドメイン知識を利用する手段を提供しない。たとえば、もし鋼材中の炭素の組成物の割合がドメイン知識の一部として理解されれば、そのドメイン知識を利用する検索エンジンは、その材料が鋼と関連づけられる可能性があるかどうかを推論するために、述べられた炭素の割合に頼ることができる。また、セマンティック・ウェブ技術に触発されたドメイン固有の検索手法は、コンテンツが最初にドメインのオントロジを使って注釈を附記される必要があり、それはすべてのシナリオにおいて実用的ではない可能性がある。
ここで図を、より具体的には図1から図9Bを参照して、好ましい実施例を示しており、こうした実施例について以下の例示的なシステム及び/又は方法に関して説明するが、ただし類似の参照する文字は、図全体を通して一貫して対応する特徴を示している。
図1は、本開示の一実施例によるモデル駆動型ドメイン固有検索のための、システム100の例示的な構成図を示す。一実施例では、システム100は、1つ又は複数のプロセッサ104、通信インタフェース装置又は入力/出力(I/O:input/output)インタフェース106、及び1つ又は複数のプロセッサ104に動作可能に結合された1つ又は複数のデータ記憶装置又はメモリ102を備える。ハードウェア・プロセッサである1つ又は複数のプロセッサ104は、1つ又は複数のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタル信号プロセッサ、中央処理装置、ステート・マシン、グラフィック・コントローラ、論理回路、及び/又は動作命令に基づいて信号を操作する任意の装置として実装され得る。他の機能の中でも、プロセッサは、メモリに格納されているコンピュータ可読命令を取り出して実行するよう構成される。本開示の文脈において、表現「プロセッサ」及び「ハードウェア・プロセッサ」は互換的に使用され得る。一実施例では、システム100は、ラップトップ・コンピュータ、ノートブック、ハンドヘルド装置、ワークステーション、メインフレーム・コンピュータ、サーバ、ネットワーク・クラウドなど、様々なコンピュータ処理システムに実装され得る。
I/Oインタフェース106は、たとえばウェブ・インタフェース、グラフィカル・ユーザ・インタフェースなどの、様々なソフトウェア及びハードウェア・インタフェースを備えることができ、たとえばLAN、ケーブルなどの有線ネットワーク、及びWLAN、携帯電話、又は衛星などの無線ネットワークを含む、多種多様なネットワークN/W及びプロトコルの種類の範囲内で、容易に複数の通信が可能である。一実施例では、I/Oインタフェースは、複数の装置を互いに、又は別のサーバに接続するための、1つ又は複数のポートを備えることができる。
メモリ102には、たとえば静的ランダム・アクセス・メモリ(SRAM:static random access memory)及び動的ランダム・アクセス・メモリ(DRAM:dynamic random access memory)などの揮発性メモリ、及び/又は、読み取り専用メモリ(ROM:read only memory)、消去可能でプログラム可能なROM、フラッシュ・メモリ、ハード・ディスク、光ディスク、及び磁気テープなどの不揮発性メモリを含む、当技術分野で知られたあらゆるコンピュータ可読媒体が含まれ得る。一実施例では、システム100の1つ又は複数のモジュール(図示せず)を、メモリ102に格納することができる。
図2は、本開示の一実施例によるモデル駆動型ドメイン固有検索のための、システム100の例示的実装形態のアキテクチャ200を示す。
図3Aから図3Bは、本開示の一実施例による、モデル駆動型ドメイン固有検索のための、コンピュータ実装方法300の例示的流れ図を示す。一実施例では、システム100は、1つ又は複数のプロセッサ104に動作可能に結合された1つ又は複数のデータ記憶装置又はメモリ102を備え、1つ又は複数のプロセッサ104によって方法300のステップを実行するよう構成される、命令を格納するよう構成される。ここで方法300のステップは、図1のシステム100の構成要素及び図2の例示的なアキテクチャを参照して、詳細に説明されることになる。処理ステップ、方法ステップ、技法などは、連続した順序で説明されることがあるが、かかる処理、方法、及び技法は、代替の順序で機能するよう構成され得る。言い換えれば、説明され得るステップの任意のシーケンス又は順序は、ステップがその順序で実行されるという要件を必ずしも示すものではない。本明細書に記載の処理ステップは、実用的な任意の順序で実行され得る。さらに、いくつかのステップは、同時に実行され得る。
一実施例では、アキテクチャ200は、特に非構造化テキストデータに対するドメイン固有の検索を実現するための、モデル駆動型の枠組みを主に示す。高レベルで、この枠組みには、様々なモデル(メタ・モデル、インスタンス・モデル、抽出モデル、及び言及モデルなど)を定義するための情報抽出システムと、情報抽出システムによって指定されるモデルを変換することで機能する、一般的なドメインにとらわれない検索システムとの、2つの部分がある。一実施例では、ドメイン・エキスパートは、メタ・モデルでさらに符号化されている新しいドメインの仕様を定義することを容易にする。モデルが情報抽出システムによって定義されると、テキスト・マイニングが開始され得る。ここでテキスト・マイニングは、情報抽出及び検索を含む。情報抽出は、抽出モデルを使用して、文書リポジトリからエンティティ、プロパティ及び関係のインスタンスを抽出することを含む。文書リポジトリは、社内報告、オンライン記事、出版物などの構造化及び非構造化テキスト・ソースを含むことができる。一実施例では、システム100は、ウェブ・クローラを使用し、ドメイン固有の文書を自動的にダウンロードして、文書リポジトリを作成するよう構成され得る。本開示によれば、抽出モデルは、文書リポジトリから各文書を取り出し、エンティティ、プロパティ、及び関係の抽出を実行する。次いで、抽出された情報は、言及モデル内のオブジェクト・グラフに格納され、オブジェクト・グラフはさらに索引づけモジュールによって索引づけされてグラフ知識ベースを形成し、検索モジュールによる検索クエリの処理に使用される。検索クエリを指定するために、検索クエリ・インタフェースを提供し得る。クエリ処理モジュールにより、ユーザのクエリは、関心のあるドメインに好適な形式で、同等のクエリに確実に変換される。ドメイン仕様は、情報の抽出及び検索のための入力として、明示的に取り込まれ供給されることに留意されたい。抽出モデル及び検索モジュールは、ドメインのハード・コーディングされた知識を持たない、ドメイン非依存であり、単に定義されたモデルを変換して、検索システムにドメインの特殊性を与える。次いで検索モジュールは、一致する文書を探索するために、知識グラフ知識ベースを処理する。
従って、本開示の一実施例では、1つ又は複数のプロセッサ104は、ステップ302で、メタ・モデル、インスタンス・モデル、抽出モデル、及び言及モデルを使用して、少なくとも1つの関心のあるドメインの要素を定義するよう構成される。少なくとも1つの関心のあるドメインの要素を定義するステップを、メタ・モデル、インスタンス・モデル、及び抽出モデルのための、モデル駆動型ドメイン仕様ユーザ・インタフェース(UI:user interface)を介して、ドメイン・エキスパートによって容易にすることができる。抽出モデルは、言及モデルを生成するために使用される。
一実施例では、メタ・モデルは、複数のメタ・モデル・クラスを含み、少なくとも1つの関心のあるドメインに関するエンティティ又は概念、そのエンティティに関連づけられたプロパティ、及びエンティティとそのプロパティとの間の関係を取得するよう構成される。さらに、メタ・モデルは、汎化又は特化階層の形でドメイン知識を取得し、関係濃度、プロパティ値の種類、値の範囲、単位などが取得される。図4は、本開示の一実施例による例示的なメタ・モデルを示す。一実施例では、複数のメタ・モデル・クラスには、エンティティを取り込むよう構成されたOntMetaClassクラス、プロパティを取り込むよう構成されたOntMetaPropertyクラス、及び関係を取り込むよう構成されたOntMetaRelationクラスが含まれ、OntMetaPropertyクラスのインスタンスは、OntMetaClassのインスタンスに関連づけられる。ある実例は、材料工学ドメインについてのメタ・モデル・クラスであり、以下の通りである。
OntMetaClass:Process、Materialなどのようなエンティティは、OntMetaClassクラスのインスタンスとして作成され得る。
OntMetaProperty:Processは、そのプロパティとしてProcess Parameterを有する。この事実は、次のように表現される。OntMetaPropertyクラスのインスタンス、すなわちProcessParameterが最初に作成される。次いで、OntMetaPropertyの関連づけを使用して、Process(OntMetaClassのインスタンス)をProcessParameterに関連づける。
OntMetaRelation:製造工程が、材料に加えられる。これは、OntMetaRelationクラスのインスタンス、すなわちprocess_materialを作成することによって取り込まれ得る。
これに加えて、OntMetaClassクラスの2つのインスタンス、すなわちProcess及びMaterialが作成される。次いで、これら2つのインスタンスは、図4に示すsrcRel及びtgtRelの関連づけを使用して、OntMetaRelationのインスタンス、すなわちprocess_materialに関連づけられる。OntMetaClassクラス、OntMetaPropertyクラス、OntMetaRelationクラスの3つのクラスは、材料工学ドメインの要素を完全に取り込んでいる。図5は、本開示の一実施例による、材料工学ドメインについての例示的なメタ・モデルを示す。一実施例では、メタ・モデルもまた、情報を抽出するやり方を提供する。この目的に向かって、複数のメタ・モデル・クラスは、抽出モデルに含まれるExtractionModelクラスに関連づけられる。図5に示すように、エンティティであるMaterial及びProcessは、OntMetaClassクラスのインスタンスとして作成され、関係であるprocess_materialは、OntMetaRelationクラスのインスタンスとして作成され、且つMaterialProperty及びProcessParameterは、OntMetaPropertyクラスのインスタンスとして作成され、それぞれエンティティであるMaterial及びProcessに関連づけられる。図5は、表記“<entity−name>:<meta−entity−name>”表記を持つ、エンティティを示す。図5はまた、関係process_materialの濃度を1..*:1..*として示しており、これは1つの材料が、1つ又は複数の工程と関連している可能性があることを意味し、その逆も成り立つ。図4に見られるように、エンティティ及び関係の間の汎化及び特化階層は、それぞれ‘superClass/subClass’及び‘superRelation/subRelation’の関連づけを使用して定義され得る。たとえば、製造ドメインでは、‘Part’、‘MechanicalPart’、‘ElectricalPart’などのエンティティがあってもよく、後者の2つは前者の特化である。同様に、部品間に‘Interaction’と呼ばれる関係のある場合があり、この関係には、‘energy_exchange’、‘matter_exchange’などの特化があり得る。
一実施例では、インスタンス・モデルは、複数のインスタンス・クラスを含み、エンティティ、そのプロパティ、及びエンティティとそのプロパティとの間で関連づけられた関係の少なくとも1つのインスタンスを取得又は取り込むよう構成される。少なくとも1つのインスタンスは、ドメイン・エキスパートから取得されてもよく、又は機械学習によって取り込まれてもよい。図6Aから図6Bは、本開示の一実施例による、例示的なインスタンス・モデルを示す。図6Aから図6Bのインスタンス・モデルを使用して、図7は、本開示の一実施例による、材料工学ドメインについての例示的なインスタンス・モデルを示し、ここで2つのプロセス・インスタンス及びそのパラメータが、OntClassInstanceクラス及びOntPropertyInstanceクラスのインスタンスとしてどのように作成され、対応するドメイン・エンティティ及びプロパティに関連づけられるかが示される。一実施例では、プロパティが取り得る値の範囲、使用可能な単位などもまた取り込まれ得る。たとえば、CoolingRateは、単位‘C per min’及び1から1000の範囲の値を有するよう指定され得る。特に、図7のインスタンス・モデルは、焼入れ、焼戻しなどが製造工程であり、引張り強度、硬度などは材料特性などである、などの事実を取り込む。一実施例では、複数のインスタンス・クラスは、エンティティの少なくとも1つのインスタンスを取り込むよう構成されたOntClassInstanceクラス、エンティティの少なくとも1つのインスタンスのプロパティを取り込むよう構成されたOntPropertyInstanceクラス、及びエンティティの少なくとも1つのインスタンス間の関係を取り込むよう構成されたOntRelationInstanceクラスを含み得る。本開示によれば、インスタンス・クラスのそれぞれが、複数のメタ・モデル・クラスからの、対応するメタ・モデル・クラスに関連づけられる。たとえば、焼入れは、OntClassInstanceクラスのインスタンスである。それが製造工程であるという事実は、焼入れを、OntMetaClassクラス、メタ・モデル・クラスのインスタンスであるProcessと関連づけることによって、取り込まれる。
本開示によれば、ドメイン・エンティティ及びそのプロパティの同義語及び語彙の変形もまた考慮される。一実施例では、複数のインスタンス・クラスは、同義語の関連づけを使用して、同義語を取り込んで複数のインスタンス・クラスのインスタンスと関連づけるよう構成された、Synonymクラスをさらに含むことができる。たとえば、降伏強度と降伏応力とは同義語であり、同じドメイン・エンティティを参照する。本開示によれば、これは以下のように取り込まれ得る。OntMetaPropertyクラスのインスタンスが、降伏強度用に作成され、Synonymクラスのインスタンスが降伏応力用に作成され、次いで降伏強度は、同義語の関連づけを使用して降伏応力と関連づけられる。
OntPropertyInstanceクラスのインスタンスは通常、テキスト・ソース内に出現するときに値を持つ。一実施例では、複数のインスタンス・クラスは、OntPropertyInstanceクラスのインスタンスに関連づけられた値について、取り得る単位を取り込むよう構成される、Unitクラスをさらに含むことができる。値を正しいプロパティ・インスタンスに関連づけるために、抽出モデルによって、値の単位が使用され得る。たとえば、テキスト・ソースで言及されている値を、その値がその単位としてパスカルを持っている場合にのみ、降伏強度と関連づけることができる。
一実施例では、抽出モデルは、抽出モデル・クラスを含み、エンティティ、プロパティ、及びエンティティに関連づけられた関係のうちの1つ又は複数について、少なくとも1つの抽出方法を指定するように構成される。図8は、本開示の一実施例による、例示的な抽出モデルを示す。一実施例では、少なくとも1つの抽出方法は、DictionaryExtractionModel、PatternExtractionModel、又はMLExtractionModelに含まれる。一実施例では、DictionaryExtractionModelは、エンティティのインスタンス、関連づけられたプロパティのインスタンス、及び関連づけられた関係のインスタンスの辞書を使用して、文書リポジトリからの検討中の複数の文書に含まれる、前処理された生テキスト内の、エンティティのインスタンス、プロパティのインスタンス、及び関係のインスタンスの言及を取り込む。一実施例では、PatternExtractionModelは、(a)前処理された生テキスト内の文字と一致するテキストのパターンを特定するためのTextPattern、及び(b)文字以外のパターンを特定するためのNLPPatternを含む、1組のパターンに関連づけられ、品詞(POS)タグ、依存関係、及び見出語認定を含む自然言語処理の特性に基づく。抽出モデルの相異なる種類が指定され得る。たとえば、エンティティであるMaterialは、PatternExtractionModelを有し、MaterialPropertyは、DictionaryExtractionModelを有し、関係であるprocess_materialは、MLExtractionModelなどの機械学習ベースのモデルを有することができる。
一実施例では、メタ・モデル・クラス及びインスタンス・クラスのインスタンス、関係、抽出モデルなどを定義するように、グラフィカル・ユーザ・インタフェース(GUI:graphical user interface)がドメイン・エキスパートのために提供され得る。たとえば、先に考慮された材料工学の実例を考えると、Processは、そのプロパティとしてProcessParameterを有する。これは、2つのインスタンスを作成することを必要とする。OntMetaClassクラスのインスタンスとしてのProcess、及びOntMetaPropertyクラスのインスタンスとしてのProcessParameterである。次いで、2つのインスタンスは、OntMetaPropertyの関連づけによって関連づけられる必要がある。本開示のシステム100は、OntMetaClassクラス、OntMetaPropertyクラス、及びOntMetaRelationクラスのインスタンスを作成するために、GUIページを提供することができる。インスタンスが作成されると、それは適切なOntMetaClassクラスのインスタンスに関連づけられ得る。一実施例では、システム100は、ドメイン・エキスパートによる選択のために、ドロップダウン・ボックス内に、OntMetaClassクラスのすべてのインスタンスのリストを提供することができる。GUIは、ドメイン・エキスパートがドメイン関連情報を入力するときに、関連づけの濃度の制約が考慮されるように設計され得る。
メタ・モデル・クラスのインスタンスが作成されると、ドメイン・エキスパートは、インスタンス・クラス及び抽出クラスのインスタンスを作成することができる。上記のProcessParameterの実例では、ドメイン・エキスパートは、冷却速度、均熱時間、オーステナイト化温度、焼鈍し時間、保持期間などのような様々なインスタンスを作成することができる。一実施例では、GUIはまた、インスタンスを、その関連づけられた工程名に容易に関連させることができる。各プロセス・パラメータについての、許される単位に関する詳細もまた、取り込まれ得る。一実施例では、システム100は、かかるインスタンスを外部ファイルからアップロードすることができる場合、インポート機能もまた提供することができる。インポート機能は、ドメイン要素のインスタンスが外部データ・ソースで直接利用できる場合、特に役立つ。
本開示の一実施例では、1つ又は複数のプロセッサ104は、ステップ304において、文書リポジトリから複数の文書を受信するよう構成される。文書リポジトリは、ポータブル文書形式(PDF:Portable Document Format)、ワード処理文書形式(DOC)、ハイパーテキスト・マークアップ言語(HTML:Hypertext Markup Language)など、種々の形式の構造化及び非構造化テキスト・ソースを含むことができる。
本開示の一実施例では、1つ又は複数のプロセッサ104は、ステップ306で、複数の文書に含まれる生テキストを、テキスト形式に前処理するよう構成される。一実施例では、前処理は、文分割、トークン化、語幹処理、品詞(POS)タグづけ、及び構文解析のうちの1つ又は複数を含み得る。
本開示の一実施例では、1つ又は複数のプロセッサ104は、ステップ308で、少なくとも1つの関心のあるドメインについて、複数のメタ・モデル・クラス、インスタンス・クラス、及び抽出モデル・クラスの少なくとも1つのインスタンスを取得するよう構成される。次いで、ドメイン内の関心のある各エンティティについて、テキスト内のエンティティの言及を抽出するためにエンティティ固有の抽出方法が使用され、その後、関心のあるエンティティに関連づけられた各プロパティに対して、プロパティの言及を抽出するためにプロパティ固有の方法が使用され、関心のある各関係に対して、関係の言及を抽出するために関係固有の方法が使用される。
従って、本開示の一実施例では、1つ又は複数のプロセッサ104は、ステップ310で、取得された抽出モデル・クラスのインスタンスを使用して、前処理された生テキストから、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及びそれらの関係の言及のインスタンスを抽出し、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及び関係の言及のインスタンスを、対応するメタ・モデル・クラスのインスタンスと関連づけるよう構成される。固有の抽出方法は、一般的なレベルで指定され、複数のエンティティに再利用され得る。従って、一般的なエンティティ、プロパティ、又は関係レベルで指定された抽出方法は、固有のエンティティ、プロパティ、又は関係レベルで明示的に上書きされるまで、汎化階層の下に継承される。たとえば、エンティティ‘Person’について指定された抽出方法は、より固有の抽出方法で明示的に上書きされない限り、‘Employee’、‘Manager’、‘President’などの抽出に使用され得る。これにより、何千ものエンティティ及び関係を含む、医療ドメインなど大規模ドメインについての情報抽出を、容易に規模拡大できる。本開示によれば、こうしたエンティティ及び関係のそれぞれについて、抽出方法を別々に指定する必要がない場合がある。一般的なレベルで抽出方法を指定し、抽出方法を継承することで再利用を可能にすることが、このシナリオの要求を満たす。
さらに、NLPでは、利用可能な抽出アルゴリズムは、完璧ではない場合がある。本開示の一実施例によれば、曖昧さがあれば、得られたドメイン知識を利用することによって対処され得る。たとえば、「試料は、1800℃まで加熱され、5分間保持された後、100℃/分で室温まで水焼入れされる。」という文があるとする。この文章がドメイン・エキスパートによって読まれると、100℃/分が「焼入れ」工程の「冷却速度」を指すことは明らかである。しかし、文中に「冷却速度」の明示的な言及がないので、抽出方法は、この情報を推測することができない可能性がある。本開示によれば、かかるシナリオでは、あらゆる曖昧さを回避するために、ドメイン知識が利用され得る。本開示の一実施例によれば、少なくとも1つの抽出方法は、取得又は取り込まれた、エンティティ、そのプロパティ、及びそれらの関係の少なくとも1つのインスタンスに基づいて生成された、1つ又は複数の曖昧さ除去ルールに依存する。所与の例文において、メタ・モデルが、プロパティ「冷却速度」を含むエンティティ「焼入れ」を取得し、プロパティ値の単位が「℃/分」である場合、生成され得る曖昧さ除去ルールは、「vがどのプロパティにも結びつけられていない値であり、且つ文中に、そのプロパティの単位がvの単位と一致するエンティティの言及がある場合は、そのプロパティにvを結合する」である。一実施例では、1つ又は複数の曖昧さ除去ルールは、単位だけでなく、値の種類、値の範囲の制約などについても生成され得る。曖昧さ除去ルールの別の実例は、例示の文「焼入れ後の焼戻しは、それぞれ120℃/分及び200℃/分の速度で行われた」に関して理解されるかもしれないが、ここでドメイン・エキスパートは、「120℃/分」が焼戻しの加熱速度を指し、「200℃/分」が焼入れの冷却速度を指すことを理解することができる。しかし、「加熱速度」及び「冷却速度」についての言及がないため、NLPは混乱する可能性がある。本開示によれば、抽出モデルは、ドメイン知識に基づいてこれを自動的に理解するよう構成される。「焼入れ」と「冷却速度」との間の濃度が1:1であるとすると、生成され得る曖昧さ除去ルールは、「エンティティの言及に2つの関連づけられたパラメータ値があり、濃度が1つのパラメータ値のみを許容する場合は、最も近いパラメータ値のみ結合し、結びつけられていない値について、次に最も近いエンティティの言及を探す」である。
一実施例では、以下の疑似コードによって表される曖昧さ除去ルールを生成することができ、ここでコードは、関連するパターンを見つけるために、関心のあるドメインの要素を走査する。
値中心の曖昧さ除去ルール
OntPropertyInstanceクラスの各インスタンスpについて、
以下のルールを生成する。
1.「vがどのプロパティにも結びつけられていない値の言及であり、文に、プロパティ・インスタンスとしてのpをもち、pの単位がvの単位と一致する、エンティティの言及eがある場合、vをプロパティpに結合する」
2.「vがどのプロパティにも結びつけられていない値の言及であり、文に、プロパティ・インスタンスとしてpをもち、pの値の範囲がvの値と一致する、エンティティの言及eがある場合、vをプロパティpに結合する」
関係中心の曖昧さ除去ルール
OntRelationInstanceクラスの各インスタンスrについて、
(r.tgtCardinality=1)の場合は、以下のルールを生成する。
「エンティティの言及eが2つの関連づけられたパラメータ値をもち、その両方ともrのターゲットのインスタンスである場合は、最も近いパラメータ値のみを結合し、結びつけられていない値について、次の最も近いエンティティの言及を探す」
本開示の一実施例では、抽出方法は、以下に示されるように表され得る。
1.OntMetaClassクラスの各エンティティEについて:
Eが、抽出方法を持っているかどうかを確認する。
持っていない場合は、その‘superClass’エンティティの1つが、抽出方法を持っているかどうかを確認する。
持っていない場合は、次のエンティティに進む。
テキストからEの言及を抽出するための、抽出方法を使用する。
1.1 (E union E.superClass*).ontMetaProperty.MetaPropertyの各プロパティPについて、
//E.superClass*は、スーパー・クラス・クロージャ、すなわちEのすべての先祖を指す。
//つまり、Eのすべての所有するプロパティ及び継承されたプロパティのリストを取得する。
Pが、抽出方法を持っているかどうかを確認する。
持っていない場合は、次のプロパティに進む。
テキストからPの言及を抽出するための、抽出方法を使用する。
2.OntMetaRelationクラスの各関係Rについて:
Rが、抽出方法を持っているかどうかを確認する。
持っていない場合は、その‘superRelation’関係の1つが、抽出方法を持っているかどうかを確認する。
持っていない場合は、次の関係に進む。
テキストからRの言及を抽出するための、抽出方法を使用する。
3.生成された曖昧さ除去ルールを、未解決の言及に適用する。
本開示の一実施例では、1つ又は複数のプロセッサ104は、ステップ312で、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及び関係の言及のインスタンスの、抽出された言及を、オブジェクト・グラフ形式で、言及モデルの中に格納するよう構成される。図9Aから図9Bは、本開示の一実施例による、例示的な言及モデルを示す。一実施例では、言及モデルは、複数の言及クラスを使用して、抽出された、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及びそれらの関係の言及のインスタンスの、値及び位置を取り込むよう構成される。たとえば、製品の破損に関する技術報告書が、文書の3ページの段落番号2に、破損した製品の材料の硬度値を記載している場合がある。この場合、硬度は、ファイル名、ページ番号、及び段落番号の情報を含む位置を持つことに留意されたい。位置は、以下の2つのクラスを含む。TableLocationクラス及びTextLocationクラスである。TableLocationクラスの場合は、TableLocationクラスの属性によって、表番号、説明文、行番号、及び列番号に関する情報が取り込まれ得る。TextLocationクラスは、ファイル名及びページ番号に加えて、言及の開始場所及び終了場所を取り込むことができる。TextLocationクラスは、この情報を取り込むのに好適な属性を持つことができる。上記の実例では、TextLocationクラスのインスタンスが作成される(ファイル名、ページ番号、開始場所及び終了場所の属性用の適切な値を含む)。値は、以下の相異なる5種類であり得る。TextValue(たとえば、焼入れ媒体用の「水」)NumericValue(たとえば、50ロックウェル硬さ)、RangeValue(たとえば、30〜50分間の焼入れ時間)、EnumValue(たとえば、<破損率に対して重大な/重大でない>)、及びBooleanValue(たとえば、<機器のオン/オフ状態>)である。一実施例では、Locationクラス及びValueクラスに加えて、言及クラスは、抽出された、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及び関係の言及のインスタンスのそれぞれの位置に関連づけるよう構成された、OntClassMention、OntPropertyMention、及びOntRelMentionをさらに含み得る。例示的な文「次いで、材料は、200℃/秒の速度で焼入れされた。」では、この文中の言及、すなわち「焼入れされた」及び「速度」について、OntClassMention及びOntPropertyMentionのインスタンスが作成される。次いで、適切な位置インスタンスが作成され、2つの言及に関連づけられる。「焼入れされた」は、焼入れプロセス・インスタンスの言及であり、「速度」は冷却速度インスタンスの言及であるという情報を取り込むために、2つの言及は、Quenching(OntClassInstanceのインスタンス)及びCoolingRate(OntPropertyInstanceのインスタンス)に関連づけられる。次に、Quenching及びCoolingRateは、それぞれProcess及びProcessParameterに関連づけられる。次いで、値を抽出するためのアルゴリズムは、Valueクラスのインスタンスとして200を、Unitクラスのインスタンスとして℃/秒を抽出する。次いで、ProcessParameter用に指定された抽出モデルは、値インスタンスを、速度の言及に関連づけることができる。かかる抽出モデルの実例は、以下のパターンを有するPatternExtractionModelのインスタンスであり得る。「<値><単位>の<プロパティ>」であり、ここでプロパティは、工程パラメータ・インスタンスと一致する必要があり、値は、Valueクラスのインスタンスである必要があり、単位は、Unitクラスのインスタンスである必要があり、一致した工程パラメータ・インスタンス用の許される単位リスト内に存在する必要がある。抽出のステップの最後で、各文書について、言及モデル内の様々なクラスのインスタンスが作成される。こうした言及インスタンスに関連づけられた要素に関する詳細は、インスタンス・モデル及びメタ・モデルのインスタンスによって取り込まれる。従って、言及を抽出するステップの後に、言及モデル、インスタンス・モデル、及びメタ・モデルにおける、クラスのオブジェクト・グラフが生成される。次いで、このグラフはさらなる処理のために、グラフ知識ベース内に格納される。
本開示の一実施例では、1つ又は複数のプロセッサ104は、ステップ314で、オブジェクト・グラフを、複数の文書の各々に関連づけられた、前処理された生テキストと共に、グラフ知識ベースに索引づけするよう構成される。前処理された生テキストの索引づけは、言及に対するオブジェクト・ベースのクエリが、キーワード・ベースのクエリと共に実行されることを可能にする。
各ドメインでの検索では、検討中のドメインに関連する固有の構文又は形式を持つ、固有の構造化クエリを使用する必要がある。新しい検索のためにドメインが変更された場合は、それに応じてクエリ言語もまた修正が必要となるはずである。本開示の一実施例では、1つ又は複数のプロセッサ104は、ステップ316において、少なくとも1つの関心のあるドメインに対応するクエリ言語パーサを生成するよう構成される。クエリ言語パーサはドメインに依存せず、検討中のドメインについてのメタ・モデル及びインスタンス・モデルのインスタンスに基づいて、受信されたクエリが、検討中のドメインと互換性があるかどうかの確認を実行する。本開示の一実施例では、1つ又は複数のプロセッサ104は、ステップ318において、索引づけされたグラフ知識ベース上で、受信された検索クエリを同等のクエリに変換するよう構成される。検索クエリは、言及に対するオブジェクト・クエリ、キーワード・ベースのテキスト・クエリ、又はそれらの組合せのいずれかであり得る。本開示によれば、同等のクエリは、少なくとも1つの関心のあるドメインに関し、生成されたクエリ言語パーサを使用する。
本開示の一実施例では、入力検索クエリを受信するための、検索クエリ・インタフェースが提供され得る。検索クエリ・インタフェースは、宣言型クエリ言語インタフェース又はGUIベースのインタフェースであり得る。一実施例では、クエリ・プロセッサ・モジュールは、クエリ言語パーサを生成し、クエリを変換し、それを索引づけされたグラフ知識ベースに適用し、その結果を提示する。本開示の一実施例では、1つ又は複数のプロセッサ104は、ステップ320で、グラフ知識ベース内の変換されたクエリに関連する1つ又は複数の一致を識別するよう構成される。
本開示の一実施例によるクエリ言語パーサで使用される文法のサブセットは、以下に示されるように表され得る。
クエリの基本単位は、ドメイン・インスタンス及びそのプロパティに対する値の制約/条件である(文法では、relationalTermで表される)。この言語は、かかる制約に対して複雑なクエリを作成するためのブール演算子を提供する。制約は、ポイント値の制約又は範囲値の制約として指定され得る。範囲の制約は、下限及び上限(たとえば[1、10])又は>、<、≧、又は≦などの関係演算子のいずれかを使って指定され得る。クエリ言語パーサは、ドメイン・エンティティとそのプロパティとの間の関連づけを走査するため、経路式に類似する構文を提供する。クエリ言語パーサは、値の制約ベースのクエリをキーワード・ベースのクエリと組み合わせるやり方もまた提供する。$で始まる言語での、すべての非終端(non−terminal)は、様々なドメイン・モデル・エンティティを参照する手段、又はそのプロパティ及び関係を走査するやり方を提供することに留意されたい。このようにして、クエリ言語パーサは、ドメイン・モデルの仕様によって所与のドメインに特化され得る、一般的なテンプレートを提供する。
一実施例では、ドメインに依存しないクエリ言語パーサは、以下のルールを生成することによって、材料工学ドメインについて例示され得る。
この生成されたフラグメントは、“tempering[HeatingRate>100]&quenching[CoolingRate<250]”のような形式のクエリを書くことを可能にする。
材料工学ドメインについての例示的なクエリは、以下に示す通りであり得る。
“material.carbon:[0.2,0.3]weight% AND material.elongation>0.4”:
このクエリは、使用される材料が、0.2から0.3重量パーセントの範囲内の炭素組成物を有し、実験中に材料の伸び量が0.4よりも大きかったすべての文書を検索する。
別の例示的なクエリは、以下に示す通りであり得る。
“quenching[cooling rate>=200C/s AND time>=30min]AND steel.UTS:[400,500]MPa”:
このクエリは、冷却速度200℃/s以上、且つ焼入れ時間30分以上で焼入れ工程が実行された、すべての文書を検索する。これらの文書はまた、その引張り強度が400から500MPaの範囲内にある鋼材に言及していなければならない。
従って、本開示によれば、NLP技術と共にドメイン知識を使用することによって、効果的なドメイン固有の検索が可能になる。モデル駆動型ドメイン固有検索は、新しいドメインで使用するための、検索システムの再コーディングが不要になることを保証する。メタ・モデルはドメイン知識を取り込み、インスタンス・モデル、抽出モデル及び言及モデルと共に、非構造化テキストでの効率的な関係認識検索を可能にする。さらに、検索クエリは、関心のあるドメインに好適なものになるように自動的にカスタマイズされる。オブジェクト・グラフに索引づけすることは、効率的で最適化された記憶装置及びより高速な検索、探索をもたらす。
記載の説明は、どんな当業者でも本実施例を作成し使用することができるように、本明細書で主題を示している。主題の実施例の範囲は、特許請求の範囲によって定義され、当業者が思いつく他の修正形態を含むことができる。特許請求の範囲の文字通りの言葉と異ならない、同様の要素を備えている場合、又は特許請求の範囲の文字通りの言葉と本質的な違いがない、同等の要素を備えている場合、かかる他の修正形態は、特許請求の範囲内にあることを意図している。
保護の範囲は、かかるプログラムと、さらにその中にメッセージを含むコンピュータ可読の手段とに拡張され、かかるコンピュータ可読の記憶手段は、プログラムがサーバ、携帯装置、又は任意の好適なプログラム可能な装置上で実行されるとき、方法の1つ又は複数のステップを実装するための、プログラムコード手段を含むことを理解されたい。ハードウェア装置は、たとえばサーバ、パーソナル・コンピュータなど、又はそれらの組合せのような、任意の種類のコンピュータを含む、プログラム可能な任意の種類の装置であってもよい。この装置はまた、たとえば特定用途向け集積回路(ASIC:application−specific integrated circuit)、現場でプログラム可能なゲートアレイ(FPGA:field−programmable gate array)のような、たとえばハードウェア手段、又はハードウェア手段とソフトウェア手段との組合せ、たとえばASIC及びFPGA、若しくは少なくとも1つのマイクロプロセッサ及びその中にソフトウェア・モジュールが配置された少なくとも1つのメモリであり得る、手段を含むことができる。すなわち、この手段は、ハードウェア手段とソフトウェア手段との両方を含むことができる。本明細書に示すこの方法の実施例は、ハードウェア及びソフトウェアで実装されてもよい。この装置はまた、ソフトウェア手段を含んでもよい。或いは、この実施例は、様々なハードウェア装置、たとえば複数のCPUを使用して実装されてもよい。
本明細書の実施例は、ハードウェア要素及びソフトウェア要素を含むことができる。ソフトウェアで実装される実施例は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むがそれに限定されるものではない。本明細書に示す様々なモジュールによって実行される機能は、他のモジュール又は他のモジュールの組合せで実装されてもよい。本説明の目的では、コンピュータが使用可能な又はコンピュータが可読の媒体は、命令実行システム、装置、若しくは装置によって又はそれらと共に使用されるプログラムを含む、格納する、通信する、伝搬する、或いは転送することが可能な任意の装置であってもよい。
例示されたステップは、示された典型的な実施例を説明するために提示されており、進行中の技術開発は、特定の機能が実行される手法を変えるであろうことを、前もって認識されたい。これらの実例は、例示の目的で本明細書に提示されており、限定するものではない。さらに、機能的構成要素の境界は、説明の便宜上、本明細書では任意に定義されている。特定の機能及びそれらの関係が適切に実行される限り、代替の境界を定義することができる。代替形態(本明細書に記載されたものの等価物、拡張形態、変形形態、変位形態などを含む)は、本明細書に含まれる教示に基づいて、当業者には明らかであろう。かかる代替形態は、開示された実施例の範囲及び精神の範囲内に入る。また、「comprising」、「having」、「containing」、及び「including」という単語、及び他の同様の形態は、意味において同等であり、これらの単語のうちのいずれか1つに続く1つ又は複数の品目は、かかる1つ又は複数の品目を網羅的に列挙したものであることを意味しないか、又は列挙された1つ又は複数の品目のみに限定されることを意味するか、という点で、制限がないことを意図している。本明細書及び添付の特許請求の範囲で使用されるとき、単数形「a」、「an」、及び「the」は、文脈が明らかにそうでないことを定めない限り、複数の参照を含むことにもまた留意されたい。
さらに、本開示と一致する実施例を実装するに当たっては、1つ又は複数のコンピュータ可読の記憶媒体を利用することができる。コンピュータ可読の記憶媒体は、プロセッサによって読み取り可能な情報又はデータが格納され得る、任意の種類の物理的なメモリを指す。従って、コンピュータ可読の記憶媒体は、本明細書で説明される実施例と一致するステップ又は段階をプロセッサに実行させるための命令を含む、1つ又は複数のプロセッサによる実行のための命令を格納することができる。「コンピュータ可読の媒体」という用語は、有形の品目を含み、搬送波及び過渡信号を除外する、すなわち非一時的なものと理解されたい。実例としては、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、揮発性メモリ、不揮発性メモリ、ハードドライブ、CD ROM、DVD、フラッシュ・ドライブ、ディスク、及び他の任意の既知の物理的記憶媒体を含む。
本開示及び実例は例示としてのみ考慮されることを意図しており、開示された実施例の真の範囲及び精神は、以下の特許請求の範囲によって示される。

Claims (17)

  1. モデル駆動型ドメイン固有検索を実行するためのプロセッサ実装方法(300)であって、
    メタ・モデル、インスタンス・モデル、抽出モデル、及び言及モデルを使用して、少なくとも1つの関心のあるドメインの要素を定義するステップであって、前記メタ・モデルは、複数のメタ・モデル・クラスを含み、前記少なくとも1つの関心のあるドメイン、そのプロパティ、及びそれらの関係に関するエンティティを取得するように構成され、前記インスタンス・モデルは、複数のインスタンス・クラスを含み、エンティティ、そのプロパティ、及びそれらの関係の少なくとも1つのインスタンスを取得又は取り込むように構成され、前記抽出モデルは、抽出モデル・クラスを含み、1つ又は複数のエンティティ、そのプロパティ、及びそれらの関係についての少なくとも1つの抽出方法を指定するように構成され、前記言及モデルは、複数の言及クラスを使用して、抽出された、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及びそれらの関係の言及のインスタンスの値及び位置を、取り込むように構成されるステップ(302)と、
    文書リポジトリから複数の文書を受信するステップ(304)と、
    前記複数の文書に含まれる生テキストをテキスト形式に前処理するステップであって、前記前処理は、文分割、トークン化、語幹処理、品詞(POS)タグづけ、及び構文解析のうちの1つ又は複数を含むステップ(306)と、
    前記少なくとも1つの関心のあるドメインについて、前記複数のメタ・モデル・クラス、前記複数のインスタンス・クラス、及び前記抽出モデル・クラスの少なくとも1つのインスタンスを取得するステップ(308)と、
    前記抽出モデル・クラスの取得されたインスタンスを使用して、前記前処理された生テキストから、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及びそれらの関係の言及のインスタンスを抽出するステップと、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及び関係の言及のインスタンスを、前記メタ・モデル・クラスの対応するインスタンスに関連づけるステップ(310)と、
    前記抽出された、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及び関係の言及のインスタンスを、前記言及モデルの中にオブジェクト・グラフ形式で格納するステップ(312)と、
    前記オブジェクト・グラフを、前記複数の文書の各々に関連づけられた、前記前処理された生テキストと共に、グラフ知識ベースに索引づけするステップ(314)と、
    前記少なくとも1つの関心のあるドメインに対応する、クエリ言語パーサを生成するステップ(316)と、
    前記生成されたクエリ言語パーサを使用して、受信された検索クエリを、前記索引づけされたグラフ知識ベース上で同等のクエリに変換するステップであって、前記検索クエリは、言及に対するオブジェクト・クエリ、キーワード・ベースのテキスト・クエリ、又はそれらの組合せのいずれかであり、前記同等のクエリは、前記少なくとも1つの関心のあるドメインに関するステップ(318)と、
    前記グラフ知識ベース内の前記変換されたクエリに関連する、1つ又は複数の一致を識別するステップ(320)と
    を含む、プロセッサ実装方法。
  2. 前記複数のメタ・モデル・クラスには、エンティティを取り込むよう構成されたOntMetaClassクラス、プロパティを取り込むよう構成されたOntMetaPropertyクラス、及び関係を取り込むよう構成されたOntMetaRelationクラスが含まれ、前記OntMetaPropertyクラスのインスタンスは、前記OntMetaClassのインスタンスに関連づけられ、前記複数のメタ・モデル・クラスは、前記抽出モデルに含まれるExtractionModelクラスに関連づけられる、請求項1に記載のプロセッサ実装方法。
  3. 前記複数のインスタンス・クラスには、エンティティの少なくとも1つのインスタンスを取り込むよう構成されたOntClassInstanceクラス、エンティティの少なくとも1つのインスタンスのプロパティを取り込むよう構成されたOntPropertyInstanceクラス、及びエンティティの少なくとも1つのインスタンス間の関係を取り込むよう構成されたOnRetlationInstanceクラスが含まれ、前記インスタンス・クラスのそれぞれが、前記複数のメタ・モデル・クラスからの対応するメタ・モデル・クラスに関連づけられる、請求項2に記載のプロセッサ実装方法。
  4. 前記複数のインスタンス・クラスは、同義語の関連づけを使用して、同義語を取り込んで前記複数のインスタンス・クラスのインスタンスと関連づけるよう構成された、1つ又は複数のSynonymクラスと、前記OntPropertyInstanceクラスのインスタンスに関連づけられた値の取り得る単位を取り込むよう構成されるUnitクラスとをさらに含む、請求項3に記載のプロセッサ実装方法。
  5. 前記少なくとも1つの抽出方法は、DictionaryExtractionModel、PatternExtractionModel又はMLExtractionModelのいずれかに含まれ、前記DictionaryExtractionModelは、エンティティのインスタンス、そのプロパティのインスタンス、及びそれらの関係のインスタンスの辞書を使用して、前記前処理された生テキスト内の、エンティティのインスタンス、プロパティのインスタンス、及び関係のインスタンスの言及を取り込み、前記PatternExtractionModelは、(a)前記前処理された生テキスト内の文字と一致するテキストのパターンを特定するためのTextPattern、及び(b)文字以外のパターンを特定するためのNLPPatternを含む、1組のパターンに関連づけられ、品詞(POS)タグ、依存関係、及び見出語認定を含む自然言語処理の特性に基づく、請求項4に記載のプロセッサ実装方法。
  6. 前記少なくとも1つの抽出方法は、取得又は取り込まれた、エンティティ、そのプロパティ、及びそれらの関係の少なくとも1つのインスタンスに基づいて生成された、1つ又は複数の曖昧さ除去ルールに依存する、請求項5に記載のプロセッサ実装方法。
  7. 前記少なくとも1つの抽出方法は、エンティティ、そのプロパティ、及びそれらの関係の汎化階層に従って継承される、請求項1に記載のプロセッサ実装方法。
  8. 前記複数の言及クラスは、前記抽出されたエンティティの言及のインスタンス、プロパティの言及のインスタンス、及び関係の言及のインスタンスの位置をそれぞれ関連づけるよう構成された、OntClassMention、OntPropertyMention、及びOntRelMentionを含む、請求項1に記載のプロセッサ実装方法。
  9. 1つ又は複数のハードウェア・プロセッサ(104)に動作可能に結合され、命令を格納するよう構成された、1つ又は複数のデータ記憶装置(102)
    を備えるシステム(100)であって、前記命令は、前記1つ又は複数のハードウェア・プロセッサで実行され、
    メタ・モデル、インスタンス・モデル、抽出モデル、及び言及モデルを使用して、少なくとも1つの関心のあるドメインの要素を定義し、前記メタ・モデルは、複数のメタ・モデル・クラスを含み、前記少なくとも1つの関心のあるドメイン、そのプロパティ、及びそれらの関係に関するエンティティを取得するように構成され、前記インスタンス・モデルは、複数のインスタンス・クラスを含み、エンティティ、そのプロパティ、及びそれらの関係の少なくとも1つのインスタンスを取得又は取り込むように構成され、前記抽出モデルは、抽出モデル・クラスを含み、1つ又は複数のエンティティ、そのプロパティ、及びそれらの関係についての少なくとも1つの抽出方法を指定するように構成され、前記言及モデルは、複数の言及クラスを使用して、抽出された、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及びそれらの関係の言及のインスタンスの値及び位置を、取り込むように構成され、
    文書リポジトリから複数の文書を受信し、
    前記複数の文書に含まれる生テキストをテキスト形式に前処理し、前記前処理は、文分割、トークン化、語幹処理、品詞(POS)タグづけ、及び構文解析のうちの1つ又は複数を含み、
    前記少なくとも1つの関心のあるドメインについて、前記複数のメタ・モデル・クラス、前記複数のインスタンス・クラス、及び前記抽出モデル・クラスの少なくとも1つのインスタンスを取得し、
    前記抽出モデル・クラスの取得されたインスタンスを使用して、前記前処理された生テキストから、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及びそれらの関係の言及のインスタンスを抽出し、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及び関係の言及のインスタンスを、前記メタ・モデル・クラスの対応するインスタンスに関連づけ、
    前記抽出された、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及び関係の言及のインスタンスを、前記言及モデルの中にオブジェクト・グラフ形式で格納し、
    前記オブジェクト・グラフを、前記複数の文書の各々に関連づけられた、前記前処理された生テキストと共に、グラフ知識ベースに索引づけ、
    前記少なくとも1つの関心のあるドメインに対応する、クエリ言語パーサを生成し、
    前記生成されたクエリ言語パーサを使用して、受信された検索クエリを前記索引づけされたグラフ知識ベース上で同等のクエリに変換し、前記検索クエリは、言及に対するオブジェクト・クエリ、キーワード・ベースのテキスト・クエリ、又はそれらの組合せのいずれかであり、前記同等のクエリは、前記少なくとも1つの関心のあるドメインに関し、且つ
    前記グラフ知識ベース内の前記変換されたクエリに関連する、1つ又は複数の一致を識別するように構成される、システム。
  10. 前記複数のメタ・モデル・クラスには、エンティティを取り込むよう構成されたOntMetaClassクラス、プロパティを取り込むよう構成されたOntMetaPropertyクラス、及び関係を取り込むよう構成されたOntMetaRelationクラスが含まれ、前記OntMetaPropertyクラスのインスタンスは、前記OntMetaClassのインスタンスに関連づけられ、前記複数のメタ・モデル・クラスは、前記抽出モデルに含まれるExtractionModelクラスに関連づけられる、請求項9に記載のシステム。
  11. 前記複数のインスタンス・クラスには、エンティティの少なくとも1つのインスタンスを取り込むよう構成されたOntClassInstanceクラス、エンティティの少なくとも1つのインスタンスのプロパティを取り込むよう構成されたOntPropertyInstanceクラス、及びエンティティの少なくとも1つのインスタンス間の関係を取り込むよう構成されたOntRelationInstanceクラスが含まれ、前記インスタンス・クラスのそれぞれが、前記複数のメタ・モデル・クラスからの対応するメタ・モデル・クラスに関連づけられる、請求項10に記載のシステム。
  12. 前記複数のインスタンス・クラスは、同義語の関連づけを使用して、同義語を取り込んで前記複数のインスタンス・クラスのインスタンスと関連づけるよう構成された、1つ又は複数のSynonymクラスと、前記OntPropertyInstanceクラスのインスタンスに関連づけられた値の取り得る単位を取り込むよう構成されるUnitクラスとをさらに含む、請求項11に記載のシステム。
  13. 前記少なくとも1つの抽出方法は、DictionaryExtractionModel、PatternExtractionModel又はMLExtractionModelのいずれかに含まれ、前記DictionaryExtractionModelは、エンティティのインスタンス、そのプロパティのインスタンス、及びそれらの関係のインスタンスの辞書を使用して、前記前処理された生テキスト内の、エンティティのインスタンス、プロパティのインスタンス、及び関係のインスタンスの言及を取り込み、前記PatternExtractionModelは、(a)前記前処理された生テキスト内の文字と一致するテキストのパターンを特定するためのTextPattern、及び(b)文字以外のパターンを特定するためのNLPPatternを含む、1組のパターンに関連づけられ、品詞(POS)タグ、依存関係、及び見出語認定を含む自然言語処理の特性に基づく、請求項12に記載のシステム。
  14. 前記少なくとも1つの抽出方法は、取得又は取り込まれた、エンティティ、そのプロパティ、及びそれらの関係の少なくとも1つのインスタンスに基づいて生成された、1つ又は複数の曖昧さ除去ルールに依存する、請求項13に記載のシステム。
  15. 前記少なくとも1つの抽出方法は、エンティティ、そのプロパティ、及びそれらの関係の汎化階層に従って継承される、請求項9に記載のシステム。
  16. 前記複数の言及クラスは、抽出されたエンティティの言及のインスタンス、プロパティの言及のインスタンス、及び関係の言及のインスタンスの位置をそれぞれ関連づけるよう構成された、OntClassMention、OntPropertyMention、及びOntRelMentionを含む、請求項9に記載のシステム。
  17. その中に具現化されているコンピュータ可読プログラムを含む非一時的コンピュータ可読媒体を備えるコンピュータプログラム製品であって、前記コンピュータ可読プログラムが、コンピュータ処理装置上で実行されると、前記コンピュータ処理装置は、
    メタ・モデル、インスタンス・モデル、抽出モデル、及び言及モデルを使用して、少なくとも1つの関心のあるドメインの要素を定義し、前記メタ・モデルは、複数のメタ・モデル・クラスを含み、前記少なくとも1つの関心のあるドメイン、そのプロパティ、及びそれらの関係に関するエンティティを取得するように構成され、前記インスタンス・モデルは、複数のインスタンス・クラスを含み、エンティティ、そのプロパティ、及びそれらの関係の少なくとも1つのインスタンスを取得又は取り込むように構成され、前記抽出モデルは、抽出モデル・クラスを含み、1つ又は複数のエンティティ、そのプロパティ、及びそれらの関係についての少なくとも1つの抽出方法を指定するように構成され、前記言及モデルは、複数の言及クラスを使用して、抽出された、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及びそれらの関係の言及のインスタンスの値及び位置を、取り込むように構成され、
    文書リポジトリから複数の文書を受信し、
    前記複数の文書に含まれる生テキストをテキスト形式に前処理し、前記前処理は、文分割、トークン化、語幹処理、品詞(POS)タグづけ、及び構文解析のうちの1つ又は複数を含み、
    前記少なくとも1つの関心のあるドメインについて、前記複数のメタ・モデル・クラス、前記複数のインスタンス・クラス、及び前記抽出モデル・クラスの少なくとも1つのインスタンスを取得し、
    前記抽出モデル・クラスの取得されたインスタンスを使用して、前記前処理された生テキストから、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及びそれらの関係の言及のインスタンスを抽出し、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及び関係の言及のインスタンスを、前記メタ・モデル・クラスの対応するインスタンスに関連づけ、
    前記抽出された、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及び関係の言及のインスタンスを、前記言及モデルの中にオブジェクト・グラフ形式で格納し、
    前記オブジェクト・グラフを、前記複数の文書の各々に関連づけられた、前記前処理された生テキストと共に、グラフ知識ベースに索引づけ、
    前記少なくとも1つの関心のあるドメインに対応する、クエリ言語パーサを生成し、
    前記生成されたクエリ言語パーサを使用して、受信された検索クエリを前記索引づけされたグラフ知識ベース上で同等のクエリに変換し、前記検索クエリは、言及に対するオブジェクト・クエリ、キーワード・ベースのテキスト・クエリ、又はそれらの組合せのいずれかであり、前記同等のクエリは、前記少なくとも1つの関心のあるドメインに関し、且つ
    前記グラフ知識ベース内の前記変換されたクエリに関連する、1つ又は複数の一致を識別する、コンピュータプログラム製品。
JP2019117569A 2018-06-26 2019-06-25 モデル駆動型ドメイン固有検索を実行する方法及びシステム Active JP6849741B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IN201821023737 2018-06-26
IN201821023737 2018-06-26

Publications (2)

Publication Number Publication Date
JP2020009430A true JP2020009430A (ja) 2020-01-16
JP6849741B2 JP6849741B2 (ja) 2021-03-31

Family

ID=67060265

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019117569A Active JP6849741B2 (ja) 2018-06-26 2019-06-25 モデル駆動型ドメイン固有検索を実行する方法及びシステム

Country Status (3)

Country Link
US (1) US11023507B2 (ja)
EP (1) EP3588324A1 (ja)
JP (1) JP6849741B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100778734B1 (ko) * 2001-12-24 2007-11-23 주식회사 포스코 레이들커버 및 랜스의 지금 제거장치

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11429876B2 (en) * 2020-03-10 2022-08-30 International Business Machines Corporation Infusing knowledge into natural language processing tasks using graph structures
CN111506608B (zh) * 2020-04-16 2023-06-16 泰康保险集团股份有限公司 一种结构化文本的比较方法和装置
WO2021226184A1 (en) 2020-05-06 2021-11-11 Morgan Stanley Services Group Inc. Automated knowledge base
US11429879B2 (en) 2020-05-12 2022-08-30 Ubs Business Solutions Ag Methods and systems for identifying dynamic thematic relationships as a function of time
CN112307767A (zh) * 2020-11-09 2021-02-02 国网福建省电力有限公司 一种基于Bi-LSTM技术的调控知识建模方法
CN113176878B (zh) * 2021-06-30 2021-10-08 深圳市维度数据科技股份有限公司 自动查询方法、装置和设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002082943A (ja) * 2000-09-08 2002-03-22 Nec Corp 固有表現判別装置、固有表現判別方法、および固有表現判別プログラムを記録した記録媒体
JP2003345821A (ja) * 2002-05-30 2003-12-05 Nippon Telegr & Teleph Corp <Ntt> 情報検索システムおよび情報検索方法、情報検索プログラム並びにそのプログラムを記録した記録媒体
JP2008262551A (ja) * 2007-03-15 2008-10-30 Honeywell Internatl Inc 動的なオントロジー・オブジェクトを用いるメタモデリングの方法及びシステム
JP2010117797A (ja) * 2008-11-11 2010-05-27 Hitachi Ltd 数値表現処理装置
JP2010231253A (ja) * 2009-03-25 2010-10-14 Hitachi Ltd データ名寄せ処理装置及び方法
KR20110002262A (ko) * 2009-07-01 2011-01-07 주식회사 솔트룩스 시맨틱 데이터 추출 시스템 및 이를 이용한 검색 엔진
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法
EP3173983A1 (en) * 2015-11-26 2017-05-31 Siemens Aktiengesellschaft A method and apparatus for providing automatically recommendations concerning an industrial system
WO2017100356A1 (en) * 2015-12-07 2017-06-15 Data4Cure, Inc. A method and system for ontology-based dynamic learning and knowledge integration from measurement data and text
US20170337268A1 (en) * 2016-05-17 2017-11-23 Xerox Corporation Unsupervised ontology-based graph extraction from texts

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US6516312B1 (en) 2000-04-04 2003-02-04 International Business Machine Corporation System and method for dynamically associating keywords with domain-specific search engine queries
US20040199491A1 (en) 2003-04-04 2004-10-07 Nikhil Bhatt Domain specific search engine
US10282468B2 (en) 2015-11-05 2019-05-07 International Business Machines Corporation Document-based requirement identification and extraction

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002082943A (ja) * 2000-09-08 2002-03-22 Nec Corp 固有表現判別装置、固有表現判別方法、および固有表現判別プログラムを記録した記録媒体
JP2003345821A (ja) * 2002-05-30 2003-12-05 Nippon Telegr & Teleph Corp <Ntt> 情報検索システムおよび情報検索方法、情報検索プログラム並びにそのプログラムを記録した記録媒体
JP2008262551A (ja) * 2007-03-15 2008-10-30 Honeywell Internatl Inc 動的なオントロジー・オブジェクトを用いるメタモデリングの方法及びシステム
JP2010117797A (ja) * 2008-11-11 2010-05-27 Hitachi Ltd 数値表現処理装置
JP2010231253A (ja) * 2009-03-25 2010-10-14 Hitachi Ltd データ名寄せ処理装置及び方法
KR20110002262A (ko) * 2009-07-01 2011-01-07 주식회사 솔트룩스 시맨틱 데이터 추출 시스템 및 이를 이용한 검색 엔진
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法
EP3173983A1 (en) * 2015-11-26 2017-05-31 Siemens Aktiengesellschaft A method and apparatus for providing automatically recommendations concerning an industrial system
WO2017100356A1 (en) * 2015-12-07 2017-06-15 Data4Cure, Inc. A method and system for ontology-based dynamic learning and knowledge integration from measurement data and text
US20170337268A1 (en) * 2016-05-17 2017-11-23 Xerox Corporation Unsupervised ontology-based graph extraction from texts

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
廣田 啓一、他2名: "オントロジー主導による情報抽出", 人工知能学会誌, vol. 第14巻,第6号, JPN6008001362, 1 November 1999 (1999-11-01), JP, pages 1010 - 1018, ISSN: 0004358146 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100778734B1 (ko) * 2001-12-24 2007-11-23 주식회사 포스코 레이들커버 및 랜스의 지금 제거장치

Also Published As

Publication number Publication date
JP6849741B2 (ja) 2021-03-31
US11023507B2 (en) 2021-06-01
EP3588324A1 (en) 2020-01-01
US20190391992A1 (en) 2019-12-26

Similar Documents

Publication Publication Date Title
Lin et al. Traceability transformed: Generating more accurate links with pre-trained bert models
JP6849741B2 (ja) モデル駆動型ドメイン固有検索を実行する方法及びシステム
US11321364B2 (en) System and method for analysis and determination of relationships from a variety of data sources
Mani et al. Deeptriage: Exploring the effectiveness of deep learning for bug triaging
US9836453B2 (en) Document-specific gazetteers for named entity recognition
US11687826B2 (en) Artificial intelligence (AI) based innovation data processing system
AU2020418514A1 (en) System and method for analysis and determination of relationships from a variety of data sources
CN111382571B (zh) 一种信息抽取方法、系统、服务器和存储介质
JP6263858B2 (ja) 知識や情報を処理する方法、装置及びコンピュータプログラム
Leonandya et al. A semi-supervised algorithm for Indonesian named entity recognition
Xie et al. The named entity recognition of Chinese cybersecurity using an active learning strategy
Cheng et al. A similarity integration method based information retrieval and word embedding in bug localization
Chen et al. Data extraction via semantic regular expression synthesis
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
CN118093629A (zh) 数据库查询语句的生成方法、装置、设备及介质
CN112487154B (zh) 一种基于自然语言的智能搜索方法
EP4369245A1 (en) Enhanced named entity recognition (ner) using custom-built regular expression (regex) matcher and heuristic entity ruler
CN114372454B (zh) 文本信息抽取方法、模型训练方法、装置及存储介质
Meyer et al. Extracting data objects and their states from process models
US9195940B2 (en) Jabba-type override for correcting or improving output of a model
CN112507108B (zh) 基于json规则文件的知识抽取方法、系统及规则解析引擎
CN112052340B (zh) 一种数据模型构建方法、装置以及电子设备
CN117494806B (zh) 基于知识图谱和大语言模型的关系抽取方法、系统及介质
CN112162746B (zh) 一种基于网络知识汇聚和迭代式搜索的程序自动构造方法
Wang et al. A Method for Automatic Code Comment Generation Based on Different Keyword Sequences

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190821

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200918

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210304

R150 Certificate of patent or registration of utility model

Ref document number: 6849741

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250