JP2020537268A - 大規模なデータベースにおけるセマンティック検索のための方法及びシステム - Google Patents
大規模なデータベースにおけるセマンティック検索のための方法及びシステム Download PDFInfo
- Publication number
- JP2020537268A JP2020537268A JP2020521321A JP2020521321A JP2020537268A JP 2020537268 A JP2020537268 A JP 2020537268A JP 2020521321 A JP2020521321 A JP 2020521321A JP 2020521321 A JP2020521321 A JP 2020521321A JP 2020537268 A JP2020537268 A JP 2020537268A
- Authority
- JP
- Japan
- Prior art keywords
- document
- features
- query
- text
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
図1Aは、本開示による処理システムによって実行されるべきセマンティック検索のためのデータベースを構築するように構成された前処理システムの構成要素を示す概略ブロック図であり、基本構成要素は実線矢印によってリンクされ、随意の構成要素は破線矢印によってリンクされている。
図1Bは、本開示によるソース文書におけるセマンティック検索を実行するために使用される処理システムの基本構成要素の概略ブロック図を示す。処理システムは通信ネットワークに一体化され得、それによって、処理システムの検索機能は他の処理システム又デバイスからアクセスされ得る。通信ネットワークは、コンピュータ、ラップトップ、タブレット、スマートフォン、PDAなど、プロセッサ・デバイス上で動作するアプリケーション・プログラムと対話する、インターネット、企業イントラネット、又は任意の他の適切な通信ネットワークであり得る。
次に、いくつかの実施例によるセマンティック検索ツールの動作について、図2〜図6を参照しながら説明する。図2は、本開示によるセマンティック検索の方法の基本ステップの流れ図であり、図3〜図6は、本開示の方法の様々な随意のステップを示す流れ図である。
いくつかの実施例では、検索ツールの動作は、少なくとも、複数のフォーマット済みテキスト文書を含有する文書ストアの存在を仮定し、テキスト文書のうち、関連のある文書が検索クエリを使用して探し求められ得る。文書ストアは、ソース文書データベース、たとえば、企業文書ストア、コンテンツ固有のプライベート又はパブリック・データベース、及び/又はインターネットのような通信ネットワークを介したアクセスが制限される又は制限されない任意のタイプの文書を含有する任意の他のデータベースを使用して構築され得る。いくつかの実施例では、ソース文書データベースは、インターネットを介して自由にアクセス可能な電子文書の予め定義されたセットであり得る。
セマンティック検索は、(前処理フェーズでは)ソース文書から獲得された特定のセマンティック情報の使用に基づき、(検索フェーズでは)検索クエリのテキストに基づき得る。セマンティック情報は固有特徴のセットによって表され得る。ソース文書又は文書パートの固有特徴はコンテンツ特徴と呼ばれ、検索クエリ・テキストの固有特徴はクエリ特徴と呼ばれる。
トークナイザが、フォーマット済みテキスト文書を読み取り、関連するソース文書のためのコンテンツ特徴を生成すると、ステップ204において、特定の文書に関連するコンテンツ特徴(いわゆる文書特徴)のリストが、上述のように、これらの特徴を処理して様々なリストにするインデックス・ビルダー構成要素に転送され得る。インデックス・ビルダー構成要素は、ステップ206において、文書特徴リストをインデックス・データベースに、特にそれの順方向インデックス・データベースに記憶し得る。いくつかの実施例では、フォーマット済みテキスト文書がトークナイザによってブロックに区分されると、インデックス・ビルダー構成要素はまた、ステップ206において、インデックス・データベースの順方向インデックス・データベース中の識別されたブロック(いわゆるブロック特徴)の各々について、ブロック特徴リストとも呼ばれる、コンテンツ特徴のリストを記憶し得る。
クエリ・テキストの固有特徴(すなわち、クエリ特徴)は、ソース文書のコンテンツ特徴に関して上述したのと同様の方法でクエリ・テキストから獲得される。クエリ特徴は、たとえば、テキストのよく知られているセマンティック モデル化技法である、バッグオブワード・モデル、nグラム・モデル、又はベクトル空間モデルに従って表され得る。いくつかの実施例では、固有特徴の意味表現が、簡単なクエリ・ワードのために使用され得る。いくつかの実施例では、固有特徴の意味表現が、より長いクエリ・テキストにおいて有益であり得る。
クエリ特徴がトークナイザによって生成された後、クエリ特徴は検索エンジンに転送される。分類器構成要素は、最初に、ステップ220において、クエリ特徴セットを使用してトレーニング特徴を生成することによって、トレーニング特徴のセットを用いたトレーニングのために準備される。トレーニング特徴のセットは、以下で説明するように、様々な方式に従って検索エンジンによって生成され得る。
検索エンジンの分類器構成要素は、ステップ230において、トレーニング特徴のセットを使用して、あらゆるクエリにおいてトレーニングされ得る。分類器構成要素は、その特徴が文書をランク付けする際に分類器構成要素に提示される、ソース文書の関連度に対応する少なくとも1つの出力クラスを有する。1出力クラスの場合、いわゆる1クラス分類又は単項分類が分類器構成要素によって実行され、トレーニング特徴のみが、分類器構成要素をトレーニングするために使用される。一般に、SVM(Support Vector Machine)又はニューラル・ネットワークが、分類器を実装するために使用され得る。好ましい実施例では、分類器構成要素はちょうど2つのクラスを有し、第1のクラスは関連のある特徴(すなわちトレーニング特徴)に対応し、第2のクラスは関連のない特徴(トレーニング特徴とは異なる特徴のいずれか又はすべて)に対応する。適切なアルゴリズムは、一般に、文書の関連度を決定するための、デシジョン・ツリー、ランダム・フォレスト、ナイーブ・ベイズ、ニューラル・ネットワーク、SVMなど、一般的なバイナリ分類器を含む。文書の関連度値は、第1のクラスに関連する値として定義され得る。他の実施例では、分類器構成要素は3つ以上のクラスを有する。トレーニング・プロシージャについて、分類器構成要素が関連度の2つのクラス、すなわち第1のクラスと第2のクラスとを有すると仮定して、以下で説明する。しかしながら、当業者は、他の分類器のトレーニングを実行するために、これらの技法を推定することができる。
分類器構成要素が、クエリ特徴と、インデックス・データベースから選択される文書特徴のセットとに基づいて生成されるトレーニング特徴でトレーニングされると、検索エンジンは文書ストア中の任意の数の文書を分類することができる。分類のために、ステップ240において、文書ストアからフォーマット済みテキスト文書のセットが選択される。分類プロセスにおいて、分類器構成要素は、選択された文書の文書特徴を評価して、関連度の各クラスへのそれらの帰属に関して、選択された各文書についての関連度値を生成する。分類されるべき文書のセットは様々な方法で選択され得る。
文書を分類するとき、所与の文書をそれの関連度に関して評価するために、各前に選択された文書の文書特徴のすべてが分類器構成要素に提示される。この目的のために、選択された文書の文書特徴は、ソース文書データベースからの文書のすべてを読み取ることによって取得され得るか、又は好ましくは、ステップ245において、ソース文書の文書特徴が順方向インデックス・データベースから取り出され得る。次いで、ステップ250において、このようにして得られた文書特徴は、文書を評価するために、前にトレーニングされた分類器構成要素に提示される。
分類器構成要素が選択された文書の分類を完了した後、ステップ260において、分類された文書は、検索エンジンのランク付け構成要素を使用して関連度によって順序付けされる。文書を関連度によって順序付けするために、特定の検索ツールのタイプに応じて様々な方式が使用され得る。
第1の例では、いわゆる類似検索のステップについて図7を参照しながら説明する。検索は、より長いコヒーレントなテキスト(たとえば、会議資料、書籍、公文書などの選択されたパート)に基づいて、セマンティック検索のために最適化される。
次に、本発明による検索エンジンの動作を具体的な実例によって示す。この実例では、検索エンジンは単項分類器(unary classifier)を使用すると仮定する。固有特徴は、ソース文書のテキスト中の特定のワードの出現確率として定義される。分類器構成要素の出力は、文書特徴セットが単一のクラスに属するパーセンテージ値として定義される。検索エンジンは、さらに、あらかじめ複数のソース文書で充填されたインデックス・データベースを使用すると仮定する。
特徴ID ワード 確率
1 「電気」 0.5
2 「車」 0.5
クエリ特徴の数が比較的少ないので、より高い精度のために追加の固有特徴が必要とされ、したがって、検索エンジンの特徴エクステンダ構成要素は、クエリ・テキストのワードを含有するソース文書のパートを使用して、トレーニング特徴のより大きいセットを生成する。これらの文書パートは、トレーニング特徴としてクエリ特徴の拡張セットを取得するために処理される。本実例では、以下の文書パートが処理される。
「ポルシェの電気自動車は、テスラよりも良くなる...」
「テスラは10万台強を達成した。これは電気自動車企業にとっての記録であった」
「...はまたテスラPowerpack蓄電池を...にする」
「...その車は1回のバッテリー充電で64.37km(40マイル)走行するように設計されている」
「...VW Up。電気自動車の売上げを3倍にし得た、フランスでは、...」
このようにして得られた固有特徴は一緒にトレーニング特徴のセットを形成する。
トレーニング特徴ID ワード 確率
1 バッテリー (0.01)
2 車 (0.05)
3 車両 (0.003)
4 テスラ (0.02)
5 vw (0.005)
6 電気 (0.08)
7 ルノー (0.002)
8 マイル (0.0009)
9 ドライブ (0.001)
10 充電器 (0.005)
11 ポルシェ (0.01)
次に、検索エンジンは、インデックス・データベースから上記のトレーニング特徴のうちのいずれかを含有する文書を選択する。これらの文書は以下でそれらのタイトルによって識別される。
ルノー カングーZE、11月に登場
ダイムラー、ジンデルフィンゲンにバッテリー工場を建設
ポルシェの洗練された充電器はわずか15分でEVをパワーアップする
フォルクスワーゲン・グループは第1波で1000万台の電気自動車を製造する予定
アストン・マーチン初の電気スポーツカー、Rapide Eのご紹介
検索エンジンは、次に、分類器構成要素によって上記の文書の分類を実行し、次いで、分類器構成要素の出力値に基づいて文書をランク付けする。したがって、クエリ・テキストに対する文書の関連度に関する文書の仮定される順位は以下のようになり得る。
ランク 文書タイトル クラスに属するパーセンテージ
1. ポルシェの洗練された充電器はわずか15分でEVをパワーアップする 93%
2. ダイムラー、ジンデルフィンゲンにバッテリー工場を建設 90%
3. アストン・マーチン初の電気スポーツカー、Rapide Eのご紹介 86%
4. フォルクスワーゲン・グループは第1波で1000万台の電気自動車を製造する予定 83%
5. ルノー カングーZE、11月に登場 82%
Claims (15)
- それぞれ一意の文書識別子によって識別される文書を含有するソース文書データベースにおいてセマンティック検索を実行するコンピュータ実装方法であって、
テキスト含有クエリのテキスト構成要素を読み取ることと、
予め定義された特徴抽出モデルを使用して前記クエリの前記テキスト構成要素からクエリ特徴のセットを生成することと、
前記複数のクエリ特徴に基づいてトレーニング特徴のセットを生成することと、
前記トレーニング特徴、及び、予め定義された特徴抽出モデルを使用して前記ソース文書の少なくとも一部分から取得された文書特徴のセットを用いて、トレーニング可能な分類器をトレーニングすることと、
予め定義された選択方式に従って分類のために複数のソース文書を選択することと、
前記選択された文書の特徴を取得することと、
前記トレーニングされた分類器によって、前記選択された文書の特徴を使用することによって前記選択されたソース文書を関連度の異なるクラスに分類することであって、関連度の少なくとも1つの値が各選択された文書に関連する、分類することと、
関連度の前記少なくとも1つの値に基づいて順序付きリスト中で前記分類された文書をランク付けすることと、
前記ランク付けされた文書の前記識別子の前記順序付きリストをコンピュータ可読メモリに記憶することと
を含む方法。 - 前記クエリ・エンティティが、ユーザ・インターフェース及びアプリケーション・プログラミング・インターフェースのうちの少なくとも1つを含む、請求項1に記載の方法。
- 前記トレーニング特徴を前記クエリ特徴と同等であると定義することをさらに含む、請求項1又は2に記載の方法。
- 前記分類の前に、
前記ソース文書データベースに記憶された前記文書の少なくとも一部分をブロックに区分することであって、各ブロックがブロック識別子によって一意に識別される、区分することと、
各ブロックについて複数のブロック特徴を生成することと
をさらに含む、請求項1から3までのいずれか一項に記載の方法。 - 分類のために文書を選択することが、
クエリ特徴の拡張セットの前記特徴のうちの少なくとも1つに関連する前記ソース文書の前記識別子を取得すること
を含む、請求項1から4までのいずれか一項に記載の方法。 - トレーニング特徴のセットを生成することが、
前記クエリ特徴のうちの少なくとも1つに関連する前記ブロックの前記識別子を取得することと、
前記前に選択されたブロックの各々に関連するブロック特徴を取得することであって、それによってクエリ特徴の拡張セットを生成する、ブロック特徴を取得することと、
クエリ特徴の前記拡張セットを前記トレーニングの特徴セットであると定義することと
を含む、請求項1から5までのいずれか一項に記載の方法。 - 分類のために文書を選択することが、
前記ソース文書データベースに記憶されたすべての文書を選択すること、又は
前記クエリ特徴のうちの少なくとも1つに関連する前記ソース文書の前記識別子を取得すること
を含む、請求項1から6までのいずれか一項に記載の方法。 - 前記テキスト含有クエリが、印刷された紙文書、手書きの紙文書、編集可能な又は編集不可能な電子テキスト文書、テキスト・コンテンツをもつ画像ファイル、表示されたテキスト・コンテンツ若しくは音声テキスト・コンテンツをもつビデオ・ファイル、又は、可聴テキスト・コンテンツをもつ音声ファイルのうちのいずれか1つを含む、請求項1から7までのいずれか一項に記載の方法。
- 前記特徴抽出モデルが、バッグオブワード・モデル、連続バッグオブワード・モデル、連続空間言語モデル、nグラム・モデル、スキップグラム・モデル、及びベクトル空間モデルのうちの1つである、請求項1から8までのいずれか一項に記載の方法。
- 前記トレーニング可能な分類器が、単純ベイズ分類器、サポート・ベクター・マシン(SVM)分類器、多項ロジスティック回帰分類器、隠れマルコフ・モデル分類器、ニューラル・ネットワーク分類器、k最近傍法分類器、及び最大エントロピー分類器のうちの1つである、請求項1から9までのいずれか一項に記載の方法。
- 文書データベースにおいてセマンティック検索を実行するための処理システムであって、
テキスト含有クエリを受信し、前記テキスト含有クエリからテキスト構成要素を生成するように構成されたクエリ・インターフェースと、
前記クエリの前記テキスト構成要素からクエリ特徴のセットを生成するように構成されたトークナイザ構成要素と、
意味的に関連のある文書の識別子の順序付きリストを生成するように構成された検索エンジン構成要素であって、前記検索エンジンが、
前記クエリの前記テキスト構成要素に対して選択された文書のセットの関連度を評価するように構成された分類器構成要素、及び
前記分類された文書の前記関連度に基づいて前記分類された文書の識別子の順序付きリストを生成するように構成されたランク付け構成要素
を備える、検索エンジン構成要素と、
前記関連のある文書の前記識別子の前記順序付きリストを記憶するためのコンピュータ可読メモリと
を備える少なくとも1つのプロセッサ・デバイス
を備える、処理システム。 - 前記ソース文書に関連する複数のメタデータを記憶するように構成されたメタデータ・ストアをさらに備える、請求項11に記載の処理システム。
- 前記トークナイザによって与えられる前記クエリ特徴を使用してクエリ特徴の拡張セットを生成するように構成された特徴エクステンダ構成要素をさらに備える、請求項11又は12に記載の処理システム。
- 少なくとも1つのプロセッサ・デバイスに、請求項1から10までの一項に記載のソース文書データベースにおけるセマンティック検索のための方法を実行させるための命令を記憶する、コンピュータ可読媒体。
- 1つ又は複数のプロセッサ・デバイスと、前記1つ又は複数のプロセッサ・デバイスによって実行されたとき、前記1つ又は複数のプロセッサ・デバイスに請求項1から10までのいずれか一項に記載の方法を実行させるように動作可能である命令を記憶する1つ又は複数の記憶デバイスとを備えるシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/729,296 | 2017-10-10 | ||
US15/729,296 US20190108276A1 (en) | 2017-10-10 | 2017-10-10 | Methods and system for semantic search in large databases |
PCT/IB2018/057807 WO2019073376A1 (en) | 2017-10-10 | 2018-10-09 | METHODS AND SYSTEM FOR SEMANTIC SEARCH IN LARGE DATABASES |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020537268A true JP2020537268A (ja) | 2020-12-17 |
Family
ID=64267862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020521321A Pending JP2020537268A (ja) | 2017-10-10 | 2018-10-09 | 大規模なデータベースにおけるセマンティック検索のための方法及びシステム |
Country Status (8)
Country | Link |
---|---|
US (2) | US20190108276A1 (ja) |
EP (1) | EP3695324A1 (ja) |
JP (1) | JP2020537268A (ja) |
KR (1) | KR20200067180A (ja) |
CN (1) | CN111213140A (ja) |
AU (1) | AU2018349276A1 (ja) |
CA (1) | CA3078585A1 (ja) |
WO (1) | WO2019073376A1 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11182433B1 (en) | 2014-07-25 | 2021-11-23 | Searchable AI Corp | Neural network-based semantic information retrieval |
US11087088B2 (en) * | 2018-09-25 | 2021-08-10 | Accenture Global Solutions Limited | Automated and optimal encoding of text data features for machine learning models |
CN113474767B (zh) * | 2019-02-14 | 2023-09-01 | 株式会社力森诺科 | 文件检索装置、文件检索系统、文件检索程序及文件检索方法 |
US20220092130A1 (en) * | 2019-04-11 | 2022-03-24 | Mikko Kalervo Vaananen | Intelligent search engine |
CN110222194B (zh) * | 2019-05-21 | 2022-10-04 | 深圳壹账通智能科技有限公司 | 基于自然语言处理的数据图表生成方法和相关装置 |
CN110765230B (zh) * | 2019-09-03 | 2022-08-09 | 平安科技(深圳)有限公司 | 一种法律文本存储方法、装置、可读存储介质及终端设备 |
US11501067B1 (en) * | 2020-04-23 | 2022-11-15 | Wells Fargo Bank, N.A. | Systems and methods for screening data instances based on a target text of a target corpus |
US11941497B2 (en) * | 2020-09-30 | 2024-03-26 | Alteryx, Inc. | System and method of operationalizing automated feature engineering |
US10930272B1 (en) * | 2020-10-15 | 2021-02-23 | Drift.com, Inc. | Event-based semantic search and retrieval |
US20220237195A1 (en) * | 2021-01-23 | 2022-07-28 | Anthony Brian Mallgren | Full Fidelity Semantic Aggregation Maps of Linguistic Datasets |
CN113781155B (zh) * | 2021-04-27 | 2023-11-03 | 北京京东振世信息技术有限公司 | 一种订单数据的处理方法、装置和系统 |
US11252113B1 (en) | 2021-06-15 | 2022-02-15 | Drift.com, Inc. | Proactive and reactive directing of conversational bot-human interactions |
WO2024075086A1 (en) * | 2022-10-07 | 2024-04-11 | Open Text Corporation | System and method for hybrid multilingual search indexing |
CN116680422A (zh) * | 2023-07-31 | 2023-09-01 | 山东山大鸥玛软件股份有限公司 | 一种多模态题库资源查重方法、系统、装置及存储介质 |
CN117909299B (zh) * | 2024-03-19 | 2024-05-10 | 电子科技大学 | 一种动态分级数据拆分系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001134588A (ja) * | 1999-11-04 | 2001-05-18 | Ricoh Co Ltd | 文書検索装置 |
JP2007200167A (ja) * | 2006-01-30 | 2007-08-09 | Nomura Research Institute Ltd | 特許分析システム及び特許分析プログラム |
US20160335263A1 (en) * | 2015-05-15 | 2016-11-17 | Yahoo! Inc. | Method and system for ranking search content |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7249121B1 (en) | 2000-10-04 | 2007-07-24 | Google Inc. | Identification of semantic units from within a search query |
US20050187913A1 (en) * | 2003-05-06 | 2005-08-25 | Yoram Nelken | Web-based customer service interface |
US8090738B2 (en) * | 2008-05-14 | 2012-01-03 | Microsoft Corporation | Multi-modal search wildcards |
US8924314B2 (en) * | 2010-09-28 | 2014-12-30 | Ebay Inc. | Search result ranking using machine learning |
WO2012121728A1 (en) * | 2011-03-10 | 2012-09-13 | Textwise Llc | Method and system for unified information representation and applications thereof |
US20140006012A1 (en) * | 2012-07-02 | 2014-01-02 | Microsoft Corporation | Learning-Based Processing of Natural Language Questions |
WO2014040263A1 (en) * | 2012-09-14 | 2014-03-20 | Microsoft Corporation | Semantic ranking using a forward index |
US9069857B2 (en) * | 2012-11-28 | 2015-06-30 | Microsoft Technology Licensing, Llc | Per-document index for semantic searching |
WO2017188926A1 (en) * | 2016-04-25 | 2017-11-02 | Google Inc. | Allocating communication resources via information technology infrastructure |
-
2017
- 2017-10-10 US US15/729,296 patent/US20190108276A1/en not_active Abandoned
-
2018
- 2018-10-09 AU AU2018349276A patent/AU2018349276A1/en not_active Abandoned
- 2018-10-09 KR KR1020207013284A patent/KR20200067180A/ko active Search and Examination
- 2018-10-09 JP JP2020521321A patent/JP2020537268A/ja active Pending
- 2018-10-09 CN CN201880066512.4A patent/CN111213140A/zh active Pending
- 2018-10-09 EP EP18800320.6A patent/EP3695324A1/en not_active Withdrawn
- 2018-10-09 CA CA3078585A patent/CA3078585A1/en active Pending
- 2018-10-09 WO PCT/IB2018/057807 patent/WO2019073376A1/en active Search and Examination
-
2022
- 2022-03-02 US US17/685,155 patent/US20220261427A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001134588A (ja) * | 1999-11-04 | 2001-05-18 | Ricoh Co Ltd | 文書検索装置 |
JP2007200167A (ja) * | 2006-01-30 | 2007-08-09 | Nomura Research Institute Ltd | 特許分析システム及び特許分析プログラム |
US20160335263A1 (en) * | 2015-05-15 | 2016-11-17 | Yahoo! Inc. | Method and system for ranking search content |
Non-Patent Citations (1)
Title |
---|
別所 克人 外: "単語間の階層関係に基づくテキスト分類方式", 電子情報通信学会技術研究報告, vol. 107, no. 58, JPN6022051598, 17 May 2007 (2007-05-17), JP, pages 79 - 84, ISSN: 0004937504 * |
Also Published As
Publication number | Publication date |
---|---|
CN111213140A (zh) | 2020-05-29 |
AU2018349276A1 (en) | 2020-05-28 |
WO2019073376A1 (en) | 2019-04-18 |
KR20200067180A (ko) | 2020-06-11 |
US20190108276A1 (en) | 2019-04-11 |
US20220261427A1 (en) | 2022-08-18 |
CA3078585A1 (en) | 2019-04-18 |
EP3695324A1 (en) | 2020-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020537268A (ja) | 大規模なデータベースにおけるセマンティック検索のための方法及びシステム | |
Wang et al. | Learning to reduce the semantic gap in web image retrieval and annotation | |
CN111680173A (zh) | 统一检索跨媒体信息的cmr模型 | |
WO2006108069A2 (en) | Searching through content which is accessible through web-based forms | |
CN105045852A (zh) | 一种教学资源的全文搜索引擎系统 | |
CN107844493B (zh) | 一种文件关联方法及系统 | |
Landthaler et al. | Extending Full Text Search for Legal Document Collections Using Word Embeddings. | |
Silva et al. | Tag recommendation for georeferenced photos | |
CN108875065B (zh) | 一种基于内容的印尼新闻网页推荐方法 | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索系统 | |
CN111651675B (zh) | 一种基于ucl的用户兴趣主题挖掘方法及装置 | |
Pan et al. | Reducing ambiguity in tagging systems with folksonomy search expansion | |
Zemlyanskiy et al. | DOCENT: Learning self-supervised entity representations from large document collections | |
CN109460477B (zh) | 信息收集分类系统和方法及其检索和集成方法 | |
CN114491079A (zh) | 知识图谱构建和查询方法、装置、设备和介质 | |
Tsatsaronis et al. | A Maximum-Entropy approach for accurate document annotation in the biomedical domain | |
Xia et al. | Content-irrelevant tag cleansing via bi-layer clustering and peer cooperation | |
Shah | Review of indexing techniques applied in information retrieval | |
CN117688140B (zh) | 文档查询方法、装置、计算机设备和存储介质 | |
CN112860940B (zh) | 基于描述逻辑知识库上有序概念空间的音乐资源检索方法 | |
CN117076658B (zh) | 基于信息熵的引文推荐方法、装置及终端 | |
AU2021100441A4 (en) | A method of text mining in ranking of web pages using machine learning | |
Kambau et al. | Unified concept-based multimedia information retrieval technique | |
KR100932046B1 (ko) | 도서 검색 방법 및 도서 검색 시스템 | |
Sharma et al. | Normalized similarity based semantic approach for discovery of web services |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200522 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A525 Effective date: 20200605 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210927 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221206 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230303 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230628 |