JP2020009430A - モデル駆動型ドメイン固有検索を実行する方法及びシステム - Google Patents
モデル駆動型ドメイン固有検索を実行する方法及びシステム Download PDFInfo
- Publication number
- JP2020009430A JP2020009430A JP2019117569A JP2019117569A JP2020009430A JP 2020009430 A JP2020009430 A JP 2020009430A JP 2019117569 A JP2019117569 A JP 2019117569A JP 2019117569 A JP2019117569 A JP 2019117569A JP 2020009430 A JP2020009430 A JP 2020009430A
- Authority
- JP
- Japan
- Prior art keywords
- instance
- model
- classes
- class
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000000605 extraction Methods 0.000 claims abstract description 90
- 238000007781 pre-processing Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 13
- 238000003058 natural language processing Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000013500 data storage Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 7
- 239000000463 material Substances 0.000 description 29
- 230000008569 process Effects 0.000 description 18
- 238000010791 quenching Methods 0.000 description 17
- 230000000171 quenching effect Effects 0.000 description 16
- 230000015654 memory Effects 0.000 description 15
- 238000001816 cooling Methods 0.000 description 10
- 238000003860 storage Methods 0.000 description 6
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical group [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 4
- 229910000831 Steel Inorganic materials 0.000 description 4
- 229910052799 carbon Inorganic materials 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 239000010959 steel Substances 0.000 description 4
- 238000005496 tempering Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000010438 heat treatment Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 238000002791 soaking Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本出願は、2018年6月26日に出願されたインド特許出願第201821023737号の優先権を主張する。上記出願の全内容は、参照により本明細書に組み入れられる。
OntMetaClass:Process、Materialなどのようなエンティティは、OntMetaClassクラスのインスタンスとして作成され得る。
OntMetaProperty:Processは、そのプロパティとしてProcess Parameterを有する。この事実は、次のように表現される。OntMetaPropertyクラスのインスタンス、すなわちProcessParameterが最初に作成される。次いで、OntMetaPropertyの関連づけを使用して、Process(OntMetaClassのインスタンス)をProcessParameterに関連づける。
OntMetaRelation:製造工程が、材料に加えられる。これは、OntMetaRelationクラスのインスタンス、すなわちprocess_materialを作成することによって取り込まれ得る。
これに加えて、OntMetaClassクラスの2つのインスタンス、すなわちProcess及びMaterialが作成される。次いで、これら2つのインスタンスは、図4に示すsrcRel及びtgtRelの関連づけを使用して、OntMetaRelationのインスタンス、すなわちprocess_materialに関連づけられる。OntMetaClassクラス、OntMetaPropertyクラス、OntMetaRelationクラスの3つのクラスは、材料工学ドメインの要素を完全に取り込んでいる。図5は、本開示の一実施例による、材料工学ドメインについての例示的なメタ・モデルを示す。一実施例では、メタ・モデルもまた、情報を抽出するやり方を提供する。この目的に向かって、複数のメタ・モデル・クラスは、抽出モデルに含まれるExtractionModelクラスに関連づけられる。図5に示すように、エンティティであるMaterial及びProcessは、OntMetaClassクラスのインスタンスとして作成され、関係であるprocess_materialは、OntMetaRelationクラスのインスタンスとして作成され、且つMaterialProperty及びProcessParameterは、OntMetaPropertyクラスのインスタンスとして作成され、それぞれエンティティであるMaterial及びProcessに関連づけられる。図5は、表記“<entity−name>:<meta−entity−name>”表記を持つ、エンティティを示す。図5はまた、関係process_materialの濃度を1..*:1..*として示しており、これは1つの材料が、1つ又は複数の工程と関連している可能性があることを意味し、その逆も成り立つ。図4に見られるように、エンティティ及び関係の間の汎化及び特化階層は、それぞれ‘superClass/subClass’及び‘superRelation/subRelation’の関連づけを使用して定義され得る。たとえば、製造ドメインでは、‘Part’、‘MechanicalPart’、‘ElectricalPart’などのエンティティがあってもよく、後者の2つは前者の特化である。同様に、部品間に‘Interaction’と呼ばれる関係のある場合があり、この関係には、‘energy_exchange’、‘matter_exchange’などの特化があり得る。
値中心の曖昧さ除去ルール
OntPropertyInstanceクラスの各インスタンスpについて、
以下のルールを生成する。
1.「vがどのプロパティにも結びつけられていない値の言及であり、文に、プロパティ・インスタンスとしてのpをもち、pの単位がvの単位と一致する、エンティティの言及eがある場合、vをプロパティpに結合する」
2.「vがどのプロパティにも結びつけられていない値の言及であり、文に、プロパティ・インスタンスとしてpをもち、pの値の範囲がvの値と一致する、エンティティの言及eがある場合、vをプロパティpに結合する」
関係中心の曖昧さ除去ルール
OntRelationInstanceクラスの各インスタンスrについて、
(r.tgtCardinality=1)の場合は、以下のルールを生成する。
「エンティティの言及eが2つの関連づけられたパラメータ値をもち、その両方ともrのターゲットのインスタンスである場合は、最も近いパラメータ値のみを結合し、結びつけられていない値について、次の最も近いエンティティの言及を探す」
1.OntMetaClassクラスの各エンティティEについて:
Eが、抽出方法を持っているかどうかを確認する。
持っていない場合は、その‘superClass’エンティティの1つが、抽出方法を持っているかどうかを確認する。
持っていない場合は、次のエンティティに進む。
テキストからEの言及を抽出するための、抽出方法を使用する。
1.1 (E union E.superClass*).ontMetaProperty.MetaPropertyの各プロパティPについて、
//E.superClass*は、スーパー・クラス・クロージャ、すなわちEのすべての先祖を指す。
//つまり、Eのすべての所有するプロパティ及び継承されたプロパティのリストを取得する。
Pが、抽出方法を持っているかどうかを確認する。
持っていない場合は、次のプロパティに進む。
テキストからPの言及を抽出するための、抽出方法を使用する。
2.OntMetaRelationクラスの各関係Rについて:
Rが、抽出方法を持っているかどうかを確認する。
持っていない場合は、その‘superRelation’関係の1つが、抽出方法を持っているかどうかを確認する。
持っていない場合は、次の関係に進む。
テキストからRの言及を抽出するための、抽出方法を使用する。
3.生成された曖昧さ除去ルールを、未解決の言及に適用する。
“material.carbon:[0.2,0.3]weight% AND material.elongation>0.4”:
このクエリは、使用される材料が、0.2から0.3重量パーセントの範囲内の炭素組成物を有し、実験中に材料の伸び量が0.4よりも大きかったすべての文書を検索する。
“quenching[cooling rate>=200C/s AND time>=30min]AND steel.UTS:[400,500]MPa”:
このクエリは、冷却速度200℃/s以上、且つ焼入れ時間30分以上で焼入れ工程が実行された、すべての文書を検索する。これらの文書はまた、その引張り強度が400から500MPaの範囲内にある鋼材に言及していなければならない。
Claims (17)
- モデル駆動型ドメイン固有検索を実行するためのプロセッサ実装方法(300)であって、
メタ・モデル、インスタンス・モデル、抽出モデル、及び言及モデルを使用して、少なくとも1つの関心のあるドメインの要素を定義するステップであって、前記メタ・モデルは、複数のメタ・モデル・クラスを含み、前記少なくとも1つの関心のあるドメイン、そのプロパティ、及びそれらの関係に関するエンティティを取得するように構成され、前記インスタンス・モデルは、複数のインスタンス・クラスを含み、エンティティ、そのプロパティ、及びそれらの関係の少なくとも1つのインスタンスを取得又は取り込むように構成され、前記抽出モデルは、抽出モデル・クラスを含み、1つ又は複数のエンティティ、そのプロパティ、及びそれらの関係についての少なくとも1つの抽出方法を指定するように構成され、前記言及モデルは、複数の言及クラスを使用して、抽出された、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及びそれらの関係の言及のインスタンスの値及び位置を、取り込むように構成されるステップ(302)と、
文書リポジトリから複数の文書を受信するステップ(304)と、
前記複数の文書に含まれる生テキストをテキスト形式に前処理するステップであって、前記前処理は、文分割、トークン化、語幹処理、品詞(POS)タグづけ、及び構文解析のうちの1つ又は複数を含むステップ(306)と、
前記少なくとも1つの関心のあるドメインについて、前記複数のメタ・モデル・クラス、前記複数のインスタンス・クラス、及び前記抽出モデル・クラスの少なくとも1つのインスタンスを取得するステップ(308)と、
前記抽出モデル・クラスの取得されたインスタンスを使用して、前記前処理された生テキストから、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及びそれらの関係の言及のインスタンスを抽出するステップと、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及び関係の言及のインスタンスを、前記メタ・モデル・クラスの対応するインスタンスに関連づけるステップ(310)と、
前記抽出された、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及び関係の言及のインスタンスを、前記言及モデルの中にオブジェクト・グラフ形式で格納するステップ(312)と、
前記オブジェクト・グラフを、前記複数の文書の各々に関連づけられた、前記前処理された生テキストと共に、グラフ知識ベースに索引づけするステップ(314)と、
前記少なくとも1つの関心のあるドメインに対応する、クエリ言語パーサを生成するステップ(316)と、
前記生成されたクエリ言語パーサを使用して、受信された検索クエリを、前記索引づけされたグラフ知識ベース上で同等のクエリに変換するステップであって、前記検索クエリは、言及に対するオブジェクト・クエリ、キーワード・ベースのテキスト・クエリ、又はそれらの組合せのいずれかであり、前記同等のクエリは、前記少なくとも1つの関心のあるドメインに関するステップ(318)と、
前記グラフ知識ベース内の前記変換されたクエリに関連する、1つ又は複数の一致を識別するステップ(320)と
を含む、プロセッサ実装方法。 - 前記複数のメタ・モデル・クラスには、エンティティを取り込むよう構成されたOntMetaClassクラス、プロパティを取り込むよう構成されたOntMetaPropertyクラス、及び関係を取り込むよう構成されたOntMetaRelationクラスが含まれ、前記OntMetaPropertyクラスのインスタンスは、前記OntMetaClassのインスタンスに関連づけられ、前記複数のメタ・モデル・クラスは、前記抽出モデルに含まれるExtractionModelクラスに関連づけられる、請求項1に記載のプロセッサ実装方法。
- 前記複数のインスタンス・クラスには、エンティティの少なくとも1つのインスタンスを取り込むよう構成されたOntClassInstanceクラス、エンティティの少なくとも1つのインスタンスのプロパティを取り込むよう構成されたOntPropertyInstanceクラス、及びエンティティの少なくとも1つのインスタンス間の関係を取り込むよう構成されたOnRetlationInstanceクラスが含まれ、前記インスタンス・クラスのそれぞれが、前記複数のメタ・モデル・クラスからの対応するメタ・モデル・クラスに関連づけられる、請求項2に記載のプロセッサ実装方法。
- 前記複数のインスタンス・クラスは、同義語の関連づけを使用して、同義語を取り込んで前記複数のインスタンス・クラスのインスタンスと関連づけるよう構成された、1つ又は複数のSynonymクラスと、前記OntPropertyInstanceクラスのインスタンスに関連づけられた値の取り得る単位を取り込むよう構成されるUnitクラスとをさらに含む、請求項3に記載のプロセッサ実装方法。
- 前記少なくとも1つの抽出方法は、DictionaryExtractionModel、PatternExtractionModel又はMLExtractionModelのいずれかに含まれ、前記DictionaryExtractionModelは、エンティティのインスタンス、そのプロパティのインスタンス、及びそれらの関係のインスタンスの辞書を使用して、前記前処理された生テキスト内の、エンティティのインスタンス、プロパティのインスタンス、及び関係のインスタンスの言及を取り込み、前記PatternExtractionModelは、(a)前記前処理された生テキスト内の文字と一致するテキストのパターンを特定するためのTextPattern、及び(b)文字以外のパターンを特定するためのNLPPatternを含む、1組のパターンに関連づけられ、品詞(POS)タグ、依存関係、及び見出語認定を含む自然言語処理の特性に基づく、請求項4に記載のプロセッサ実装方法。
- 前記少なくとも1つの抽出方法は、取得又は取り込まれた、エンティティ、そのプロパティ、及びそれらの関係の少なくとも1つのインスタンスに基づいて生成された、1つ又は複数の曖昧さ除去ルールに依存する、請求項5に記載のプロセッサ実装方法。
- 前記少なくとも1つの抽出方法は、エンティティ、そのプロパティ、及びそれらの関係の汎化階層に従って継承される、請求項1に記載のプロセッサ実装方法。
- 前記複数の言及クラスは、前記抽出されたエンティティの言及のインスタンス、プロパティの言及のインスタンス、及び関係の言及のインスタンスの位置をそれぞれ関連づけるよう構成された、OntClassMention、OntPropertyMention、及びOntRelMentionを含む、請求項1に記載のプロセッサ実装方法。
- 1つ又は複数のハードウェア・プロセッサ(104)に動作可能に結合され、命令を格納するよう構成された、1つ又は複数のデータ記憶装置(102)
を備えるシステム(100)であって、前記命令は、前記1つ又は複数のハードウェア・プロセッサで実行され、
メタ・モデル、インスタンス・モデル、抽出モデル、及び言及モデルを使用して、少なくとも1つの関心のあるドメインの要素を定義し、前記メタ・モデルは、複数のメタ・モデル・クラスを含み、前記少なくとも1つの関心のあるドメイン、そのプロパティ、及びそれらの関係に関するエンティティを取得するように構成され、前記インスタンス・モデルは、複数のインスタンス・クラスを含み、エンティティ、そのプロパティ、及びそれらの関係の少なくとも1つのインスタンスを取得又は取り込むように構成され、前記抽出モデルは、抽出モデル・クラスを含み、1つ又は複数のエンティティ、そのプロパティ、及びそれらの関係についての少なくとも1つの抽出方法を指定するように構成され、前記言及モデルは、複数の言及クラスを使用して、抽出された、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及びそれらの関係の言及のインスタンスの値及び位置を、取り込むように構成され、
文書リポジトリから複数の文書を受信し、
前記複数の文書に含まれる生テキストをテキスト形式に前処理し、前記前処理は、文分割、トークン化、語幹処理、品詞(POS)タグづけ、及び構文解析のうちの1つ又は複数を含み、
前記少なくとも1つの関心のあるドメインについて、前記複数のメタ・モデル・クラス、前記複数のインスタンス・クラス、及び前記抽出モデル・クラスの少なくとも1つのインスタンスを取得し、
前記抽出モデル・クラスの取得されたインスタンスを使用して、前記前処理された生テキストから、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及びそれらの関係の言及のインスタンスを抽出し、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及び関係の言及のインスタンスを、前記メタ・モデル・クラスの対応するインスタンスに関連づけ、
前記抽出された、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及び関係の言及のインスタンスを、前記言及モデルの中にオブジェクト・グラフ形式で格納し、
前記オブジェクト・グラフを、前記複数の文書の各々に関連づけられた、前記前処理された生テキストと共に、グラフ知識ベースに索引づけ、
前記少なくとも1つの関心のあるドメインに対応する、クエリ言語パーサを生成し、
前記生成されたクエリ言語パーサを使用して、受信された検索クエリを前記索引づけされたグラフ知識ベース上で同等のクエリに変換し、前記検索クエリは、言及に対するオブジェクト・クエリ、キーワード・ベースのテキスト・クエリ、又はそれらの組合せのいずれかであり、前記同等のクエリは、前記少なくとも1つの関心のあるドメインに関し、且つ
前記グラフ知識ベース内の前記変換されたクエリに関連する、1つ又は複数の一致を識別するように構成される、システム。 - 前記複数のメタ・モデル・クラスには、エンティティを取り込むよう構成されたOntMetaClassクラス、プロパティを取り込むよう構成されたOntMetaPropertyクラス、及び関係を取り込むよう構成されたOntMetaRelationクラスが含まれ、前記OntMetaPropertyクラスのインスタンスは、前記OntMetaClassのインスタンスに関連づけられ、前記複数のメタ・モデル・クラスは、前記抽出モデルに含まれるExtractionModelクラスに関連づけられる、請求項9に記載のシステム。
- 前記複数のインスタンス・クラスには、エンティティの少なくとも1つのインスタンスを取り込むよう構成されたOntClassInstanceクラス、エンティティの少なくとも1つのインスタンスのプロパティを取り込むよう構成されたOntPropertyInstanceクラス、及びエンティティの少なくとも1つのインスタンス間の関係を取り込むよう構成されたOntRelationInstanceクラスが含まれ、前記インスタンス・クラスのそれぞれが、前記複数のメタ・モデル・クラスからの対応するメタ・モデル・クラスに関連づけられる、請求項10に記載のシステム。
- 前記複数のインスタンス・クラスは、同義語の関連づけを使用して、同義語を取り込んで前記複数のインスタンス・クラスのインスタンスと関連づけるよう構成された、1つ又は複数のSynonymクラスと、前記OntPropertyInstanceクラスのインスタンスに関連づけられた値の取り得る単位を取り込むよう構成されるUnitクラスとをさらに含む、請求項11に記載のシステム。
- 前記少なくとも1つの抽出方法は、DictionaryExtractionModel、PatternExtractionModel又はMLExtractionModelのいずれかに含まれ、前記DictionaryExtractionModelは、エンティティのインスタンス、そのプロパティのインスタンス、及びそれらの関係のインスタンスの辞書を使用して、前記前処理された生テキスト内の、エンティティのインスタンス、プロパティのインスタンス、及び関係のインスタンスの言及を取り込み、前記PatternExtractionModelは、(a)前記前処理された生テキスト内の文字と一致するテキストのパターンを特定するためのTextPattern、及び(b)文字以外のパターンを特定するためのNLPPatternを含む、1組のパターンに関連づけられ、品詞(POS)タグ、依存関係、及び見出語認定を含む自然言語処理の特性に基づく、請求項12に記載のシステム。
- 前記少なくとも1つの抽出方法は、取得又は取り込まれた、エンティティ、そのプロパティ、及びそれらの関係の少なくとも1つのインスタンスに基づいて生成された、1つ又は複数の曖昧さ除去ルールに依存する、請求項13に記載のシステム。
- 前記少なくとも1つの抽出方法は、エンティティ、そのプロパティ、及びそれらの関係の汎化階層に従って継承される、請求項9に記載のシステム。
- 前記複数の言及クラスは、抽出されたエンティティの言及のインスタンス、プロパティの言及のインスタンス、及び関係の言及のインスタンスの位置をそれぞれ関連づけるよう構成された、OntClassMention、OntPropertyMention、及びOntRelMentionを含む、請求項9に記載のシステム。
- その中に具現化されているコンピュータ可読プログラムを含む非一時的コンピュータ可読媒体を備えるコンピュータプログラム製品であって、前記コンピュータ可読プログラムが、コンピュータ処理装置上で実行されると、前記コンピュータ処理装置は、
メタ・モデル、インスタンス・モデル、抽出モデル、及び言及モデルを使用して、少なくとも1つの関心のあるドメインの要素を定義し、前記メタ・モデルは、複数のメタ・モデル・クラスを含み、前記少なくとも1つの関心のあるドメイン、そのプロパティ、及びそれらの関係に関するエンティティを取得するように構成され、前記インスタンス・モデルは、複数のインスタンス・クラスを含み、エンティティ、そのプロパティ、及びそれらの関係の少なくとも1つのインスタンスを取得又は取り込むように構成され、前記抽出モデルは、抽出モデル・クラスを含み、1つ又は複数のエンティティ、そのプロパティ、及びそれらの関係についての少なくとも1つの抽出方法を指定するように構成され、前記言及モデルは、複数の言及クラスを使用して、抽出された、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及びそれらの関係の言及のインスタンスの値及び位置を、取り込むように構成され、
文書リポジトリから複数の文書を受信し、
前記複数の文書に含まれる生テキストをテキスト形式に前処理し、前記前処理は、文分割、トークン化、語幹処理、品詞(POS)タグづけ、及び構文解析のうちの1つ又は複数を含み、
前記少なくとも1つの関心のあるドメインについて、前記複数のメタ・モデル・クラス、前記複数のインスタンス・クラス、及び前記抽出モデル・クラスの少なくとも1つのインスタンスを取得し、
前記抽出モデル・クラスの取得されたインスタンスを使用して、前記前処理された生テキストから、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及びそれらの関係の言及のインスタンスを抽出し、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及び関係の言及のインスタンスを、前記メタ・モデル・クラスの対応するインスタンスに関連づけ、
前記抽出された、エンティティの言及のインスタンス、プロパティの言及のインスタンス、及び関係の言及のインスタンスを、前記言及モデルの中にオブジェクト・グラフ形式で格納し、
前記オブジェクト・グラフを、前記複数の文書の各々に関連づけられた、前記前処理された生テキストと共に、グラフ知識ベースに索引づけ、
前記少なくとも1つの関心のあるドメインに対応する、クエリ言語パーサを生成し、
前記生成されたクエリ言語パーサを使用して、受信された検索クエリを前記索引づけされたグラフ知識ベース上で同等のクエリに変換し、前記検索クエリは、言及に対するオブジェクト・クエリ、キーワード・ベースのテキスト・クエリ、又はそれらの組合せのいずれかであり、前記同等のクエリは、前記少なくとも1つの関心のあるドメインに関し、且つ
前記グラフ知識ベース内の前記変換されたクエリに関連する、1つ又は複数の一致を識別する、コンピュータプログラム製品。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN201821023737 | 2018-06-26 | ||
IN201821023737 | 2018-06-26 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020009430A true JP2020009430A (ja) | 2020-01-16 |
JP6849741B2 JP6849741B2 (ja) | 2021-03-31 |
Family
ID=67060265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019117569A Active JP6849741B2 (ja) | 2018-06-26 | 2019-06-25 | モデル駆動型ドメイン固有検索を実行する方法及びシステム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11023507B2 (ja) |
EP (1) | EP3588324A1 (ja) |
JP (1) | JP6849741B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100778734B1 (ko) * | 2001-12-24 | 2007-11-23 | 주식회사 포스코 | 레이들커버 및 랜스의 지금 제거장치 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11429876B2 (en) * | 2020-03-10 | 2022-08-30 | International Business Machines Corporation | Infusing knowledge into natural language processing tasks using graph structures |
CN111506608B (zh) * | 2020-04-16 | 2023-06-16 | 泰康保险集团股份有限公司 | 一种结构化文本的比较方法和装置 |
WO2021226184A1 (en) | 2020-05-06 | 2021-11-11 | Morgan Stanley Services Group Inc. | Automated knowledge base |
US11429879B2 (en) | 2020-05-12 | 2022-08-30 | Ubs Business Solutions Ag | Methods and systems for identifying dynamic thematic relationships as a function of time |
CN112307767A (zh) * | 2020-11-09 | 2021-02-02 | 国网福建省电力有限公司 | 一种基于Bi-LSTM技术的调控知识建模方法 |
CN113176878B (zh) * | 2021-06-30 | 2021-10-08 | 深圳市维度数据科技股份有限公司 | 自动查询方法、装置和设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002082943A (ja) * | 2000-09-08 | 2002-03-22 | Nec Corp | 固有表現判別装置、固有表現判別方法、および固有表現判別プログラムを記録した記録媒体 |
JP2003345821A (ja) * | 2002-05-30 | 2003-12-05 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索システムおよび情報検索方法、情報検索プログラム並びにそのプログラムを記録した記録媒体 |
JP2008262551A (ja) * | 2007-03-15 | 2008-10-30 | Honeywell Internatl Inc | 動的なオントロジー・オブジェクトを用いるメタモデリングの方法及びシステム |
JP2010117797A (ja) * | 2008-11-11 | 2010-05-27 | Hitachi Ltd | 数値表現処理装置 |
JP2010231253A (ja) * | 2009-03-25 | 2010-10-14 | Hitachi Ltd | データ名寄せ処理装置及び方法 |
KR20110002262A (ko) * | 2009-07-01 | 2011-01-07 | 주식회사 솔트룩스 | 시맨틱 데이터 추출 시스템 및 이를 이용한 검색 엔진 |
CN102609512A (zh) * | 2012-02-07 | 2012-07-25 | 北京中机科海科技发展有限公司 | 异构信息知识挖掘与可视化分析系统及方法 |
EP3173983A1 (en) * | 2015-11-26 | 2017-05-31 | Siemens Aktiengesellschaft | A method and apparatus for providing automatically recommendations concerning an industrial system |
WO2017100356A1 (en) * | 2015-12-07 | 2017-06-15 | Data4Cure, Inc. | A method and system for ontology-based dynamic learning and knowledge integration from measurement data and text |
US20170337268A1 (en) * | 2016-05-17 | 2017-11-23 | Xerox Corporation | Unsupervised ontology-based graph extraction from texts |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6076088A (en) * | 1996-02-09 | 2000-06-13 | Paik; Woojin | Information extraction system and method using concept relation concept (CRC) triples |
US6516312B1 (en) | 2000-04-04 | 2003-02-04 | International Business Machine Corporation | System and method for dynamically associating keywords with domain-specific search engine queries |
US20040199491A1 (en) | 2003-04-04 | 2004-10-07 | Nikhil Bhatt | Domain specific search engine |
US10282468B2 (en) | 2015-11-05 | 2019-05-07 | International Business Machines Corporation | Document-based requirement identification and extraction |
-
2019
- 2019-06-21 EP EP19181768.3A patent/EP3588324A1/en not_active Ceased
- 2019-06-25 JP JP2019117569A patent/JP6849741B2/ja active Active
- 2019-06-25 US US16/451,073 patent/US11023507B2/en active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002082943A (ja) * | 2000-09-08 | 2002-03-22 | Nec Corp | 固有表現判別装置、固有表現判別方法、および固有表現判別プログラムを記録した記録媒体 |
JP2003345821A (ja) * | 2002-05-30 | 2003-12-05 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索システムおよび情報検索方法、情報検索プログラム並びにそのプログラムを記録した記録媒体 |
JP2008262551A (ja) * | 2007-03-15 | 2008-10-30 | Honeywell Internatl Inc | 動的なオントロジー・オブジェクトを用いるメタモデリングの方法及びシステム |
JP2010117797A (ja) * | 2008-11-11 | 2010-05-27 | Hitachi Ltd | 数値表現処理装置 |
JP2010231253A (ja) * | 2009-03-25 | 2010-10-14 | Hitachi Ltd | データ名寄せ処理装置及び方法 |
KR20110002262A (ko) * | 2009-07-01 | 2011-01-07 | 주식회사 솔트룩스 | 시맨틱 데이터 추출 시스템 및 이를 이용한 검색 엔진 |
CN102609512A (zh) * | 2012-02-07 | 2012-07-25 | 北京中机科海科技发展有限公司 | 异构信息知识挖掘与可视化分析系统及方法 |
EP3173983A1 (en) * | 2015-11-26 | 2017-05-31 | Siemens Aktiengesellschaft | A method and apparatus for providing automatically recommendations concerning an industrial system |
WO2017100356A1 (en) * | 2015-12-07 | 2017-06-15 | Data4Cure, Inc. | A method and system for ontology-based dynamic learning and knowledge integration from measurement data and text |
US20170337268A1 (en) * | 2016-05-17 | 2017-11-23 | Xerox Corporation | Unsupervised ontology-based graph extraction from texts |
Non-Patent Citations (1)
Title |
---|
廣田 啓一、他2名: "オントロジー主導による情報抽出", 人工知能学会誌, vol. 第14巻,第6号, JPN6008001362, 1 November 1999 (1999-11-01), JP, pages 1010 - 1018, ISSN: 0004358146 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100778734B1 (ko) * | 2001-12-24 | 2007-11-23 | 주식회사 포스코 | 레이들커버 및 랜스의 지금 제거장치 |
Also Published As
Publication number | Publication date |
---|---|
JP6849741B2 (ja) | 2021-03-31 |
US11023507B2 (en) | 2021-06-01 |
EP3588324A1 (en) | 2020-01-01 |
US20190391992A1 (en) | 2019-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lin et al. | Traceability transformed: Generating more accurate links with pre-trained bert models | |
JP6849741B2 (ja) | モデル駆動型ドメイン固有検索を実行する方法及びシステム | |
US11321364B2 (en) | System and method for analysis and determination of relationships from a variety of data sources | |
Mani et al. | Deeptriage: Exploring the effectiveness of deep learning for bug triaging | |
US9836453B2 (en) | Document-specific gazetteers for named entity recognition | |
US11687826B2 (en) | Artificial intelligence (AI) based innovation data processing system | |
AU2020418514A1 (en) | System and method for analysis and determination of relationships from a variety of data sources | |
CN111382571B (zh) | 一种信息抽取方法、系统、服务器和存储介质 | |
JP6263858B2 (ja) | 知識や情報を処理する方法、装置及びコンピュータプログラム | |
Leonandya et al. | A semi-supervised algorithm for Indonesian named entity recognition | |
Xie et al. | The named entity recognition of Chinese cybersecurity using an active learning strategy | |
Cheng et al. | A similarity integration method based information retrieval and word embedding in bug localization | |
Chen et al. | Data extraction via semantic regular expression synthesis | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN118093629A (zh) | 数据库查询语句的生成方法、装置、设备及介质 | |
CN112487154B (zh) | 一种基于自然语言的智能搜索方法 | |
EP4369245A1 (en) | Enhanced named entity recognition (ner) using custom-built regular expression (regex) matcher and heuristic entity ruler | |
CN114372454B (zh) | 文本信息抽取方法、模型训练方法、装置及存储介质 | |
Meyer et al. | Extracting data objects and their states from process models | |
US9195940B2 (en) | Jabba-type override for correcting or improving output of a model | |
CN112507108B (zh) | 基于json规则文件的知识抽取方法、系统及规则解析引擎 | |
CN112052340B (zh) | 一种数据模型构建方法、装置以及电子设备 | |
CN117494806B (zh) | 基于知识图谱和大语言模型的关系抽取方法、系统及介质 | |
CN112162746B (zh) | 一种基于网络知识汇聚和迭代式搜索的程序自动构造方法 | |
Wang et al. | A Method for Automatic Code Comment Generation Based on Different Keyword Sequences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190821 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200918 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201002 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210104 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210202 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210304 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6849741 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |