JP2020500371A - 意味的検索のための装置および方法 - Google Patents
意味的検索のための装置および方法 Download PDFInfo
- Publication number
- JP2020500371A JP2020500371A JP2019525873A JP2019525873A JP2020500371A JP 2020500371 A JP2020500371 A JP 2020500371A JP 2019525873 A JP2019525873 A JP 2019525873A JP 2019525873 A JP2019525873 A JP 2019525873A JP 2020500371 A JP2020500371 A JP 2020500371A
- Authority
- JP
- Japan
- Prior art keywords
- text document
- query
- text
- document data
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
1)特定の、とりわけ専門化した専門用語の品詞タグ付けを行い、テキストを整理し、ストップワードを除去し、単語を語幹や字句単位まで削減し、スペルミスを訂正し、言語スタイルを標準化し、同義語を訂正し、OCR(光学式文字認識)のエラーを除去し、複数のコンポーネントの重み付けを行い、かつ種々の類似性指数を使用するための種々の方法を実装すること、
2)字句解析および意味解析アルゴリズムならびに仮定を組み込むこと、
3)種々のテキスト関連情報および種々のアルゴリズムを同時に考慮して実装すること、
4)すべての技術分野に及ぶテキストを解析すること、
5)テキストの類似性測度と文献特性との関連性を実装すること、および
6)類似性判定のためのテキストベースの方法と計量文献学的方法とを組み込むこと。
を使用して、特許文献特有のストップワードを除去することができる。つまり、「請求項」、「手段」、「発明」、「備える」、または他の類似の単語などの単語である。以下の式を使用することができる。
は特許および/または文書の総数を表し、
および
は特許および/または文書を指す指数であり、
は特許および/または文書
におけるターム
の出現頻度を表し、
の合計は、すべての特許および/または文書におけるターム
の出現頻度を表している。
の値は、0〜1間に入る。文書間で極めて明確かつ不均一に分布しているタームには、高いエントロピー値で重み付けすることができる。エントロピー値が高いほど、そのタームはより多くの情報を伝達することができる。特許特有のストップワードのリストは、要約、特許請求の範囲、発明の名称、明細書およびそれらのすべての組み合わせに対して、別々に計算することができる。特許における特許請求の範囲は、たとえば明細書とは極めて異なって定式化されているので、この差別化は重要である。
が1回だけ含むように、これを作成することができる。
個のタームまたはキーワードの合計を含めることができる。このベクトルに基づいて、ターム・文書行列(TDM)を生成することができる。TDMは、以下の式でタームベクトル
の重みを表す行ベクトルとして、
個の文書および/または特許のそれぞれを含み得る。
を数値重みベクトル
で記述できることを意味しており、これを文書ベクトルとも呼ぶことができる。文書ベクトルは、以下のように重みと関連付けることができる。
は値ゼロを有する。これにより、ベクトル空間モデルの実装中に2つの問題が発生する可能性がある。第1に、ヌル値が不必要なメモリを占有し、第2に、テキスト文書の比較中にベクトルを操作することにより、ヌル値による不必要な乗算が発生する。したがって、文書ベクトル
を座標-重み対
のセットとして提示すると、より有利かつ実用的である。そこで、上記の式からの文書ベクトルは、次のように記述することができる。
を表し、タームベクトル
内の位置および/または指数を表す。この表現では、
行列はその要素
のそれぞれとして二重括弧を含み得、これをテンソルと見なすことができる。
を使用して、実行することができる。
Claims (45)
- a)複数の第1のテキスト文書と関連付けられた第1のテキスト文書データ(21)を含むデータベースを構築するステップと、
b)クエリ(41)を受信するステップと、
c)前記クエリ(41)を第2のテキスト文書データ(31)へと変換するステップと、
d)第2のテキスト文書データ(31)を第1のテキスト文書データ(21)と比較し、かつ第2のテキスト文書データ(31と第1の文書データ(21)との間の少なくとも1つの類似性測度を計算するステップとを含む、
テキスト文書を比較するためのコンピュータ実装方法。 - 第1のテキスト文書データ(21)は、第1のテキスト文書に含まれるキーワードおよび/または前記キーワードに意味的に関連している単語から生成される文書ベクトル(27)を含む、請求項1に記載の方法。
- 前記クエリ(41)は、第2のテキスト文書、および/または前記メモリコンポーネント(20)内にすでに記憶されている前記第1のテキスト文書データ(21)内に含まれる第2のテキスト文書データ(31)と関連付けられた、第2のテキスト文書を識別する情報を含む、請求項1または2のいずれか一項に記載の方法。
- 前記クエリ(41)を第2のテキスト文書データ(31)へと変換するステップは、前記クエリ(41)を標準化することを含む、請求項1から3のいずれか一項に記載の方法。
- 前記クエリを第2のテキスト文書データ(31)へと変換するステップは、前記クエリ(41)を正規化することを含む、請求項1から4のいずれか一項に記載の方法。
- 前記クエリ(41)を正規化するステップは、少なくとも同義語、上位語、下位語、ストップワード、および/またはサブジェクト固有のストップワードを外部データベースから検索し、かつ前記検索した単語に少なくとも一部基づいて、前記クエリ(41)のキーワードに関するリストを生成することを含む、請求項5に記載の方法。
- ストップワードおよび/またはサブジェクト固有のストップワードを除去し、かつ前記クエリワードの同義語、上位語、および下位語のうちの少なくとも1つを含ませることによって、前記クエリ(41)のキーワードのリストを生成している、請求項6に記載の方法。
- 前記クエリ(41)を第2のテキスト文書データ(31)へと変換するステップは、少なくとも1つのクエリベクトル(47)を生成することを含む、請求項1から7のいずれか一項に記載の方法。
- 前記クエリ(41)からキーワードおよび/またはキーワードの同義語を識別し、かつ多次元ベクトル空間のベクトルのコンポーネントを用いて前記キーワードを識別することによって、前記クエリベクトル(47)を生成している、請求項8に記載の方法。
- 前記クエリベクトル(47)は100個〜500個のコンポーネント、好ましくは200個〜400個のコンポーネント、さらにより好ましくは200個〜300個のコンポーネントを含む、請求項9に記載の方法。
- 前記キーワードに重みを割り当てている、請求項1から10のいずれか一項に記載、かつ請求項9の特徴を有する方法。
- 前記クエリ(41)の一般的なサブジェクトに少なくとも一部基づいて、前記重みを割り当てている、請求項11に記載の方法。
- 前記類似性測度を計算するステップは、コサイン指数、ジャッカード指数、ダイス指数、包含指数、ピアソン相関指数、レーベンシュタイン距離、ジャロ・ウィンクラー距離および/またはニードルマン・ウンシュアルゴリズムの少なくとも1つ、またはこれらの組み合わせを適用することを含む、請求項1から12のいずれか一項に記載の方法。
- f)少なくとも1つの統計アルゴリズムを使用して、前記少なくとも1つの類似性測度を検証するステップと、
g)前記少なくとも1つの類似性測度を出力するステップとを、前記ステップd)の後にさらに含む、請求項1から13のいずれか一項に記載の方法。 - ユーザインターフェースから前記クエリ(41)を受信し、かつ前記インターフェースを介して前記類似性測度を返している、請求項14に記載の方法。
- 前記データベースは特許文献関連のテキスト文書を含み、前記データベースを構築し、かつ/または前記クエリ(41)を変換するステップは、特許文献関連のテキスト文書と関連付けられたストップワードを除去することを含む、請求項1から15のいずれか一項に記載の方法。
- 第1のテキスト文書データ(21)内および/または前記クエリ(41)内に含まれるタームと関連付けられたエントロピーを計算し、かつエントロピーが低いタームを除去することによって、特許関連のストップワードを除去している、請求項16に記載の方法。
- 前記複数の第1のテキスト文書から抽出されたキーワードを含むタームベクトル(7)を生成するステップをさらに含む、請求項1から17のいずれか一項に記載の方法。
- 前記文書ベクトル(27)および前記クエリベクトル(47)のコンポーネントを、前記タームベクトル(7)のコンポーネントに対して生成している、請求項18に記載、かつ請求項2および8の特徴を有する方法。
- 前記コサイン指数を使用して、前記クエリベクトル(47)と前記文書ベクトル(27)との間の距離を計算することにより、第2のテキスト文書データ(31)と第1の文書データ(21)との間の類似性測度を計算している、請求項1から19のいずれか一項に記載、かつ請求項2および8の特徴を有する方法。
- a)少なくとも1つの受信クエリ(41)を標準化するステップと、
b)前記少なくとも1つの標準化された受信クエリ(43)を正規化するステップと、
c)前記少なくとも1つの正規化された標準化クエリ(45)を使用して、少なくとも1つのクエリベクトル(47)を作成するステップと、
d)前記少なくとも1つのクエリベクトル(47)と前記少なくとも1つの別のテキスト文書との間の少なくとも1つの類似性測度を計算するステップであって、前記少なくとも1つの別のテキスト文書は前記先行ステップを経ている、ステップとを含む、
テキスト文書内の類似性を処理するためのコンピュータ実装方法。 - 前記テキスト文書は、技術的テキスト、科学的テキスト、特許テキスト、および/または製品説明の少なくとも1つまたはそれらの組み合わせを含む、請求項21に記載の方法。
- 標準化するステップは、誤字を訂正し、特定のスペリング規則および物理単位の規則を選択し、かつ特定のスペリング規則および物理単位の規則に基づいて前記テキストを調整し、かつ/または標準的な方法で式(たとえば化学式、遺伝子配列および/またはタンパク質表現)を記述することを含む、請求項21または22のいずれか一項に記載の方法。
- 前記正規化するステップは、ストップワードを識別して除去し、共通の語幹まで単語を削減し、同義語に関する語幹を解析し、かつ/または語列および複合語を識別することを含む、請求項21から23のいずれか一項に記載の方法。
- 前記正規化するステップは、好ましくは特定のタイプの複数のテキスト文書におけるタームのエントロピーを計算し、かつエントロピーが低い単語を除去することによって、前記タイプのテキスト文書と関連付けられたストップワードを識別し、かつ除去することをさらに含む、請求項24に記載の方法。
- 前記類似性測度を計算するステップは、コサイン指数、ジャッカード指数、ダイス指数、包含指数、ピアソン相関指数、レーベンシュタイン距離、ジャロ・ウィンクラー距離および/またはニードルマン・ウンシュアルゴリズムの少なくとも1つ、またはこれらの組み合わせを適用することを含む、請求項21から25のいずれか一項に記載の方法。
- f)少なくとも1つの統計アルゴリズムを使用して、前記少なくとも1つの類似性測度を検証するステップと、
g)前記少なくとも1つの類似性測度を出力するステップとを、前記ステップd)の後にさらに含む、請求項21から26のいずれか一項に記載の方法。 - a)第1のテキスト文書と関連付けられた複数の第1のテキスト文書データ(21)を含むデータベースを少なくとも記憶するように適合された、少なくとも1つのメモリコンポーネント(20)と、
b)クエリ(41)を受信するように適合された少なくとも1つの入力装置(40)であって、前記クエリ(41)は第2のテキスト文書および/または第2のテキスト文書を識別する情報を含み、前記第2のテキスト文書は、前記メモリコンポーネント(20)内にすでに記憶されている第1のテキスト文書データ(21)内に含まれる第2のテキスト文書データ(31)と関連付けられている、入力装置(40)と、
c)クエリ(41)を第2のテキスト文書データ(31)へと変換し、かつ/または前記少なくとも1つのメモリコンポーネント(20)内の記憶域から、前記クエリ(41)と関連付けられた第2のテキスト文書データ(31)を検索し、次いで第2のテキスト文書データ(31)を前記少なくとも1つのメモリコンポーネント(20)内に記憶されている前記第1のテキスト文書データ(21)と比較するように適合された、少なくとも1つの処理コンポーネント(30)と、
d)第1のテキスト文書データ(21)と関連付けられた少なくとも1つの類似の第1のテキスト文書(51)を識別する情報を返すように適合された、少なくとも1つの出力装置(50)であって、前記類似の第1のテキスト文書(51)は、第1のテキスト文書中で前記クエリ(41)に最も類似している、出力装置(50)とを備える、
請求項1から27のいずれか一項に記載のコンピュータ実装システム(10)。 - 前記第1のテキスト文書データ(21)は複数の文書ベクトル(27)を含み、前記第2のテキスト文書データ(31)はクエリベクトル(47)を含む、請求項28に記載のシステム。
- 前記メモリコンポーネント(20)は、科学論文および/または技術説明および/または特許文献および/または製品説明と関連付けられた、第1のテキスト文書データ(21)を含む、請求項28から29のいずれか一項に記載のシステム。
- 前記第2のテキスト文書を標準化かつ正規化して、少なくとも1つのクエリベクトル(47)を作成することにより、第2のテキスト文書データ(31)を取得している、請求項28から30のいずれか一項に記載のシステム。
- 第1のテキスト文書データ(21)と第2のテキスト文書データ(31)とを比較することにより、類似性指数を生成している、請求項28から31のいずれか一項に記載のシステム。
- 前記出力装置(50)は、前記類似性指数によって最も類似性の高いものから最も類似性の低いものへと順序付けられた複数の第1のテキスト文書と関連付けられた情報を返し、第1のテキスト文書データ(21)と関連付けられた前記第1のテキスト文書は、第2のテキスト文書データ(31)に対して最も類似性の高い指数を生成している、請求項32に記載のシステム。
- 前記類似性指数は、テキスト文書間の字句比較および/または意味比較に基づいている、請求項28から33のいずれか一項に記載のシステム。
- 前記処理コンポーネント(30)は、前記受信した第2のテキスト文書の標準化および正規化中に、キーワードを識別している、請求項28から34のいずれか一項に記載のシステム。
- 前記処理コンポーネント(30)は、エントロピーアルゴリズムに基づいてキーワードに重みを割り当てている、請求項28から35のいずれか一項に記載のシステム。
- 並列計算のために前記第2のテキスト文書を少なくとも2つの部分、好ましくは少なくとも4つの部分へと分割するように、前記処理コンポーネント(30)を適合させている、請求項28から36のいずれか一項に記載のシステム。
- 前記処理コンポーネント(30)は少なくとも2つ、好ましくは少なくとも4つ、より好ましくは少なくとも8つのカーネルを含む、請求項37に記載のシステム。
- 前記メモリコンポーネント(20)内に記憶された第1の文書データ(21)を定期的に更新するように、前記処理コンポーネント(30)を適合させている、請求項28から38のいずれか一項に記載のシステム。
- 類似のテキスト文書が含むべき、かつ/または含んではならない単語および/または文をリスト化することによって、前記クエリ(41)を特定できるように、前記入力装置(40)をさらに適合させている、請求項28から39のいずれか一項に記載のシステム。
- 出力される最も類似したテキスト文書の数を指定することにより、前記クエリ(41)を特定できるように、前記入力装置(40)をさらに適合させている、請求項28から40のいずれか一項に記載のシステム。
- 前記メモリコンポーネント(20)はRAM(ランダム・アクセス・メモリ)を含む、請求項28から41のいずれか一項に記載のシステム。
- 前記メモリコンポーネント(20)は、前記複数の第1のテキスト文書から抽出されたキーワードを含むタームベクトル(7)をさらに含む、請求項28から42のいずれか一項に記載のシステム。
- 前記タームベクトル(7)のコンポーネントに対して前記文書ベクトル(27)および前記クエリベクトル(47)のコンポーネントを生成するように、前記処理コンポーネント(30)を適合させている、請求項43に記載、かつ請求項29の特徴を有するシステム。
- 前記コサイン指数を使用して、前記クエリベクトル(47)と前記文書ベクトル(27)との間の距離を計算することにより、前記第2のテキスト文書データ(31)を前記第1のテキスト文書データ(21)と比較するように、前記処理コンポーネント(30)を適合させている、請求項28から44のいずれか一項に記載、かつ請求項29の特徴を有するシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16198539 | 2016-11-11 | ||
EP16198539.5 | 2016-11-11 | ||
PCT/EP2017/078674 WO2018087190A1 (en) | 2016-11-11 | 2017-11-08 | Apparatus and method for semantic search |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020500371A true JP2020500371A (ja) | 2020-01-09 |
JP2020500371A5 JP2020500371A5 (ja) | 2020-12-17 |
JP7089513B2 JP7089513B2 (ja) | 2022-06-22 |
Family
ID=57288265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019525873A Active JP7089513B2 (ja) | 2016-11-11 | 2017-11-08 | 意味的検索のための装置および方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20190347281A1 (ja) |
EP (1) | EP3539018A1 (ja) |
JP (1) | JP7089513B2 (ja) |
CN (1) | CN110023924A (ja) |
AU (1) | AU2017358691A1 (ja) |
WO (1) | WO2018087190A1 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11762989B2 (en) | 2015-06-05 | 2023-09-19 | Bottomline Technologies Inc. | Securing electronic data by automatically destroying misdirected transmissions |
US20170163664A1 (en) | 2015-12-04 | 2017-06-08 | Bottomline Technologies (De) Inc. | Method to secure protected content on a mobile device |
US11163955B2 (en) | 2016-06-03 | 2021-11-02 | Bottomline Technologies, Inc. | Identifying non-exactly matching text |
US11416713B1 (en) | 2019-03-18 | 2022-08-16 | Bottomline Technologies, Inc. | Distributed predictive analytics data set |
US11030222B2 (en) * | 2019-04-09 | 2021-06-08 | Fair Isaac Corporation | Similarity sharding |
US11232267B2 (en) * | 2019-05-24 | 2022-01-25 | Tencent America LLC | Proximity information retrieval boost method for medical knowledge question answering systems |
US11042555B1 (en) | 2019-06-28 | 2021-06-22 | Bottomline Technologies, Inc. | Two step algorithm for non-exact matching of large datasets |
US11269841B1 (en) | 2019-10-17 | 2022-03-08 | Bottomline Technologies, Inc. | Method and apparatus for non-exact matching of addresses |
CN111339261A (zh) * | 2020-03-17 | 2020-06-26 | 北京香侬慧语科技有限责任公司 | 一种基于预训练模型的文档抽取方法及系统 |
US11526551B2 (en) * | 2020-04-10 | 2022-12-13 | Salesforce, Inc. | Search query generation based on audio processing |
CN111710387A (zh) * | 2020-04-30 | 2020-09-25 | 上海数创医疗科技有限公司 | 一种心电图诊断报告的质控方法 |
US11449870B2 (en) | 2020-08-05 | 2022-09-20 | Bottomline Technologies Ltd. | Fraud detection rule optimization |
US11694276B1 (en) | 2021-08-27 | 2023-07-04 | Bottomline Technologies, Inc. | Process for automatically matching datasets |
US11544798B1 (en) | 2021-08-27 | 2023-01-03 | Bottomline Technologies, Inc. | Interactive animated user interface of a step-wise visual path of circles across a line for invoice management |
CN113987115A (zh) * | 2021-09-26 | 2022-01-28 | 润联智慧科技(西安)有限公司 | 一种文本相似度计算方法、装置、设备及存储介质 |
CN113806491A (zh) * | 2021-09-28 | 2021-12-17 | 上海航空工业(集团)有限公司 | 一种信息处理的方法、装置、设备和介质 |
US20230281396A1 (en) * | 2022-03-03 | 2023-09-07 | International Business Machines Corporation | Message mapping and combination for intent classification |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002063192A (ja) * | 2000-08-22 | 2002-02-28 | Patolis Corp | 特許文献システム |
JP2003157270A (ja) * | 2001-11-22 | 2003-05-30 | Ntt Data Technology Corp | 特許文献検索方法及び特許文献検索システム |
JP2006065387A (ja) * | 2004-08-24 | 2006-03-09 | Fuji Xerox Co Ltd | テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム |
US20110082839A1 (en) * | 2009-10-02 | 2011-04-07 | Foundationip, Llc | Generating intellectual property intelligence using a patent search engine |
JP2012247869A (ja) * | 2011-05-25 | 2012-12-13 | Fujitsu Ltd | 検索プログラム、装置及び方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5974412A (en) * | 1997-09-24 | 1999-10-26 | Sapient Health Network | Intelligent query system for automatically indexing information in a database and automatically categorizing users |
JP4142881B2 (ja) * | 2002-03-07 | 2008-09-03 | 富士通株式会社 | 文書類似度算出装置、クラスタリング装置および文書抽出装置 |
US7383258B2 (en) | 2002-10-03 | 2008-06-03 | Google, Inc. | Method and apparatus for characterizing documents based on clusters of related words |
US7409383B1 (en) * | 2004-03-31 | 2008-08-05 | Google Inc. | Locating meaningful stopwords or stop-phrases in keyword-based retrieval systems |
US9311390B2 (en) * | 2008-01-29 | 2016-04-12 | Educational Testing Service | System and method for handling the confounding effect of document length on vector-based similarity scores |
US8935230B2 (en) | 2011-08-25 | 2015-01-13 | Sap Se | Self-learning semantic search engine |
US20140280088A1 (en) | 2013-03-15 | 2014-09-18 | Luminoso Technologies, Inc. | Combined term and vector proximity text search |
CN104765779A (zh) * | 2015-03-20 | 2015-07-08 | 浙江大学 | 一种基于YAGO2s的专利文档查询扩展方法 |
-
2017
- 2017-11-08 US US16/348,825 patent/US20190347281A1/en not_active Abandoned
- 2017-11-08 WO PCT/EP2017/078674 patent/WO2018087190A1/en unknown
- 2017-11-08 EP EP17798181.8A patent/EP3539018A1/en not_active Ceased
- 2017-11-08 AU AU2017358691A patent/AU2017358691A1/en not_active Abandoned
- 2017-11-08 CN CN201780069862.1A patent/CN110023924A/zh active Pending
- 2017-11-08 JP JP2019525873A patent/JP7089513B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002063192A (ja) * | 2000-08-22 | 2002-02-28 | Patolis Corp | 特許文献システム |
JP2003157270A (ja) * | 2001-11-22 | 2003-05-30 | Ntt Data Technology Corp | 特許文献検索方法及び特許文献検索システム |
JP2006065387A (ja) * | 2004-08-24 | 2006-03-09 | Fuji Xerox Co Ltd | テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム |
US20110082839A1 (en) * | 2009-10-02 | 2011-04-07 | Foundationip, Llc | Generating intellectual property intelligence using a patent search engine |
JP2012247869A (ja) * | 2011-05-25 | 2012-12-13 | Fujitsu Ltd | 検索プログラム、装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2018087190A1 (en) | 2018-05-17 |
EP3539018A1 (en) | 2019-09-18 |
CN110023924A (zh) | 2019-07-16 |
US20190347281A1 (en) | 2019-11-14 |
JP7089513B2 (ja) | 2022-06-22 |
AU2017358691A1 (en) | 2019-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7089513B2 (ja) | 意味的検索のための装置および方法 | |
US9715493B2 (en) | Method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model | |
US9280535B2 (en) | Natural language querying with cascaded conditional random fields | |
WO2020143184A1 (zh) | 知识融合方法、装置、计算机设备和存储介质 | |
US20100205198A1 (en) | Search query disambiguation | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
Giunchiglia et al. | A large dataset for the evaluation of ontology matching | |
WO2008106667A1 (en) | Searching heterogeneous interrelated entities | |
US8812504B2 (en) | Keyword presentation apparatus and method | |
KR20130056207A (ko) | 관계 정보 확장 장치, 관계 정보 확장 방법, 및 프로그램 | |
AU2011210742A1 (en) | Method and system for conducting legal research using clustering analytics | |
Nikas et al. | Open domain question answering over knowledge graphs using keyword search, answer type prediction, SPARQL and pre-trained neural models | |
Wei et al. | DF-Miner: Domain-specific facet mining by leveraging the hyperlink structure of Wikipedia | |
Oh et al. | Efficient semantic network construction with application to PubMed search | |
US7657417B2 (en) | Method, system and machine readable medium for publishing documents using an ontological modeling system | |
CN109213830B (zh) | 专业性技术文档的文档检索系统 | |
Schmidts et al. | Catalog Integration of Low-quality Product Data by Attribute Label Ranking. | |
Ajitha et al. | EFFECTIVE FEATURE EXTRACTION FOR DOCUMENT CLUSTERING TO ENHANCE SEARCH ENGINE USING XML. | |
JP2012243130A (ja) | 情報検索装置、方法、及びプログラム | |
Díaz De Burgos Llaberia | Enhancing table discovery and similarity evaluation in data lakes | |
Terekhov et al. | Semantic Search System with Metagraph Knowledge Base and Natural Language Processing | |
Inje et al. | Document retrieval using clustering-based Aquila hash-Q optimization with query expansion based on pseudo relevance feedback | |
Sridevi et al. | Doc-To-Tokens based Pre-Processing in Information Retrieval System | |
KHASHFEH et al. | AN AGENT-BASED DOCUMENT CLASSIFICATION MODEL TO IMPROVE THE EFFICIENCY OF THE AUTOMATED SYSTEMATIC REVIEW PROCESS | |
Sheth et al. | IMPACT SCORE ESTIMATION WITH PRIVACY PRESERVATION IN INFORMATION RETRIEVAL. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201104 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201104 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210609 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210622 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20210916 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20211109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220524 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220610 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7089513 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |