JP2016541069A - 非構造化テキストにおける特徴の曖昧性除去方法 - Google Patents

非構造化テキストにおける特徴の曖昧性除去方法 Download PDF

Info

Publication number
JP2016541069A
JP2016541069A JP2016536850A JP2016536850A JP2016541069A JP 2016541069 A JP2016541069 A JP 2016541069A JP 2016536850 A JP2016536850 A JP 2016536850A JP 2016536850 A JP2016536850 A JP 2016536850A JP 2016541069 A JP2016541069 A JP 2016541069A
Authority
JP
Japan
Prior art keywords
node
feature
features
primary
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016536850A
Other languages
English (en)
Other versions
JP2016541069A5 (ja
JP6284643B2 (ja
Inventor
スコット ライトナー
スコット ライトナー
フランツ ウェックザー
フランツ ウェックザー
サンジェイ ボッヅ
サンジェイ ボッヅ
ラケシュ デイヴ
ラケシュ デイヴ
ロバート フラッグ
ロバート フラッグ
Original Assignee
キューベース リミテッド ライアビリティ カンパニー
キューベース リミテッド ライアビリティ カンパニー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by キューベース リミテッド ライアビリティ カンパニー, キューベース リミテッド ライアビリティ カンパニー filed Critical キューベース リミテッド ライアビリティ カンパニー
Publication of JP2016541069A publication Critical patent/JP2016541069A/ja
Publication of JP2016541069A5 publication Critical patent/JP2016541069A5/ja
Application granted granted Critical
Publication of JP6284643B2 publication Critical patent/JP6284643B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

非構造化テキストにおける特徴の曖昧性除去方法が提供される。ここに開示される方法は、既存のリンクの存在を要求するものではない。非構造化テキストにおける特徴の曖昧性除去方法は、ソースドキュメント及び大きなドキュメントコーパスの両方から導出された共起特徴を使用する。ここに開示される方法は、ソースドキュメントから導出された特徴を既存の知識ベースの共起特徴にリンクするためのリンキングモジュールを含む複数のモジュールを包含する。ここに開示される特徴の曖昧性除去方法は、共起特徴の独特のセットを伴うエンティティを含む知識ベースから独特のエンティティを識別できるようにし、これは、次いで、大量コーパスに勝る進歩した分析方法を使用し、エンティティ、共起エンティティ、トピックID、及び他の導出された特徴の組み合わせを使用して、知識発見及びサーチ結果の精度を高めることができる。【選択図】図4

Description

本発明は、一般的に、データマネージメントに関するもので、より詳細には、ネットワークを経て受け取ったソースアイテムから資料を抽出しそして記憶するデータマネージメントシステム及び方法に関する。
ネットワークのようなソースを含む大きなドキュメント集合体におけるエンティティ(即ち、人々、位置、組織)に関する情報のサーチは、しばしば曖昧なものであり、不正確なテキスト処理機能、知識抽出中の特徴の不正確な関連付け、ひいては、不正確なデータ分析を招くことがある。
最新のシステムは、PageRank及びハイパーリンク誘起トピックサーチ(HITS)アルゴリズムのような多数のアルゴリズムにおけるリンケージベースのクラスター化及びランク付けを使用している。この解決策及び関連解決策の背景にある基本的アイデアは、既存のリンクが、典型的に、関連ページ又はコンセプト間に存在することである。クラスター化ベースの技術の制約は、エンティティを曖昧性除去するのに必要なコンテキスト情報がコンテキストに存在しないことが時々あって、不正確な曖昧性除去結果を招くことである。同様に、同じ又は表面的に同様のコンテキストにおける異なるエンティティに関するドキュメントが不正確にクラスター化されることもある。
他のシステムは、エンティティの1つ以上の外部ディクショナリ(又は知識ベース)を参照することによりエンティティの曖昧性除去を試みる。そのようなシステムでは、エンティティのコンテキストがディクショナリ内の考えられる一致エンティティと比較され、そして最も近い一致が返送される。現在のディクショナリベース技術に関連した制約は、いつでもエンティティの数が増加し、それ故、世界中の全てのエンティティの表現を含むディクショナリがないことから生じる。従って、ドキュメントのコンテキストがディクショナリのエンティティに一致する場合に、この技術では、ディスクショナリ内の最も類似したエンティティだけが識別され、ディクショナリ以外にある正しいエンティティが必ずしも識別されない。
ほとんどの方法は、曖昧性除去プロセスにおいてエンティティ及びキーフレーズだけを使用する。それ故、正確なデータ分析を行うことのできる正確なエンティティ曖昧性除去技術が依然要望されている。
ある実施形態では、特徴を曖昧性除去する方法について述べる。この方法は、1つ以上の特徴抽出モジュール、1つ以上の曖昧性除去モジュール、1つ以上のスコア付けモジュール、及び1つ以上のリンキングモジュールのような複数のモジュールを含む。
特徴の曖昧性除去は、特徴の周囲ドキュメントからトピックを抽出し、レイテントディリクレアロケーション(MC−LDA)トピックモデルのマルチコンポーネント拡張を使用することにより、一部分、サポートされる。ここで、各コンポーネントは、既存の知識ベースに記憶されるか又は到来するドキュメントにおいて抽出される各二次的特徴に関してモデリングされる。更に、リンキング又は曖昧性除去プロセスは、MC−LDAからのトピック推論としてモデリングされ、これは、MC−LDAトレーニングの間に自動重み推定を与え、そして推論中にそれを容易に適用する。
この規範的方法は、ドキュメントリンキングを考慮せずに達成できるものを越えてエンティティ曖昧性除去の精度を改善する。ドキュメントリンケージを考慮し、リンクにより暗示されるドキュメント及びエンティティ関係を考えることで良好な曖昧性除去を行うことができる。
ある実施形態において、方法は、インメモリデータベースをホストするシステムのノードにより、1つ以上の抽出された特徴に一致する1つ以上の候補を識別するために候補レコードのセットをサーチし、候補に一致する抽出された特徴は、一次特徴であり;ノードにより、抽出された特徴の各々を1つ以上のマシン発生トピック識別子(トピックID)と関連付け;ノードにより、トピックIDの関連度に基づき一次特徴の各々を互いに曖昧性除去し;ノードにより、トピックIDの関連度に基づき各一次特徴に関連した二次特徴のセットを識別し;ノードにより、トピックIDの関連度に基づき二次特徴の関連セットにおける二次特徴の各々から一次特徴の各々を曖昧性除去し;ノードにより、各一次特徴を二次特徴の関連セットにリンクして新たなクラスターを形成し;ノードにより、新たなクラスターが既存の知識ベースクラスターに一致するかどうか決定し、一致があるときには、インメモリデータベースサーバーコンピュータの曖昧性除去モジュールにより、知識ベースクラスターにおける各一致する一次特徴に対応する既存の独特の識別子(独特のID)を決定しそしてその新たなクラスターを含むように知識ベースクラスターを更新し、及び一致がないときには、ノードにより、新たな知識ベースクラスターを生成し、そしてその新たな知識ベースクラスターの一次特徴に新たな独特のIDを指定し;及びノードにより、既存の独特のID及び新たな独特のIDの一方を一次特徴として送出する;ことを含む。
別の実施形態において、非一時的コンピュータ読み取り可能な媒体に記憶されるコンピュータ実行可能なインストラクションは、インメモリデータベースをホストするシステムのノードにより、1つ以上の抽出された特徴に一致する1つ以上の候補を識別するために候補レコードのセットをサーチし、候補に一致する抽出された特徴は、一次特徴であり;ノードにより、抽出された特徴の各々を1つ以上のマシン発生トピック識別子(トピックID)と関連付け;ノードにより、トピックIDの関連度に基づき一次特徴の各々を互いに曖昧性除去し;ノードにより、トピックIDの関連度に基づき各一次特徴に関連した二次特徴のセットを識別し;ノードにより、トピックIDの関連度に基づき二次特徴の関連セットにおける二次特徴の各々から一次特徴の各々を曖昧性除去し;ノードにより、各一次特徴を二次特徴の関連セットにリンクして新たなクラスターを形成し;ノードにより、新たなクラスターが既存の知識ベースクラスターに一致するかどうか決定し、一致があるときには、ノードにより、知識ベースクラスターにおける各一致する一次特徴に対応する既存の独特の識別子(独特のID)を決定しそしてその新たなクラスターを含むように知識ベースクラスターを更新し、及び一致がないときには、新たな知識ベースクラスターを生成し、そしてその新たな知識ベースクラスターの一次特徴に新たな独特のIDを指定し;及びノードにより、既存の独特のID及び新たな独特のIDの一方を一次特徴として送出する;ことを含む。
一実施形態の付加的な特徴及び効果は以下の説明に述べられ、そして一部分はその説明から明らかとなろう。本発明の目的及び他の効果は、以下の説明の規範的実施形態、特許請求の範囲及び添付図面に特に指摘された構造により実現され且つ達成される。
以上の一般的な説明及び以下の詳細な説明は、どちらも、規範的な説明に過ぎず、請求の範囲に述べる本発明の更なる説明を与えるものであることを理解されたい。
本開示は、添付図面を参照することにより良く理解することができる。添付図面は、本明細書の一部分を構成するもので、本発明の実施形態を示し、そして明細書と共に本発明を説明するものである。図面中のコンポーネントは、必ずしも、正しい縮尺ではなく、むしろ、本開示の原理を例示する際に強調されている。図中、参照番号は、異なる図面全体を通して対応部分を示している。
規範的実施形態により、非構造化テキストにおける特徴を曖昧性除去する方法のフローチャートである。 規範的実施形態により、特徴を曖昧性除去する方法に使用される曖昧性除去モジュールにより遂行されるステップのフローチャートである。 規範的実施形態により、特徴を曖昧性除去する方法に使用されるリンクオンザフライモジュールにより遂行されるステップのフローチャートである。 規範的実施形態により、特徴を曖昧性除去する方法の実施に使用されるシステムを示す図である。 規範的実施形態によるマルチコンポーネント条件独立のレイテントディリクレアロケーション(MC−LDA)トピックモデルのグラフ表示である。 規範的実施形態によるマルチコンポーネント条件独立のレイテントディリクレアロケーション(MC−LDA)トピックモデルのギブスサンプリング方程式の実施形態を示す。 規範的実施形態によるマルチコンポーネント条件独立のレイテントディリクレアロケーション(MC−LDA)トピックモデルにおけるトレーニング及び推論のための確率変化推論アルゴリズムの実施形態を示す。 規範的実施形態によるマルチコンポーネント条件独立のレイテントディリクレアロケーション(MC−LDA)トピックモデルのためのサンプルトピックを示すテーブルである。
定義
ここで使用する次の用語は、次のような定義を有する。
「ドキュメント」は、出発点及び終了点を有する情報の個別の電子的表現を指す。
「マルチドキュメント」は、トークン、異なる形式の名前付きエンティティ、及び個別の「bag-of-surface-forms」コンポーネントに編成されるキーフレーズを伴うドキュメントを指す。
「データベース」は、1つ以上の集合体を記憶するのに適し且つ1つ以上の質問を処理するのに適したクラスター及びモジュールの組み合わせを含むシステムを指す。
「コーパス」は、1つ以上のドキュメントの集合体を指す。
「生のコーパス」又は「ドキュメントストリーム」は、新たなドキュメントがネットワークにアップロードされるときに恒常的に供給されるコーパスを指す。
「特徴(Features)」は、ドキュメントから少なくとも一部分導出される情報である。
「特徴属性」は、特徴に関連したメタデータ、例えば、とりわけ、ドキュメントにおける特徴の位置、信頼スコアを指す。
「クラスター」は、特徴の集合体を指す。
「エンティティ知識ベース」は、特徴/エンティティを含むベースを指す。
「リンクオンザフライモジュール」又は「リンクOTF」は、生のコーパスが更新されるにつれてデータを更新するリンキングモジュールを指す。
「メモリ」は、充分に高い速度で情報を記憶し且つその情報を検索するのに適したハードウェアコンポーネントを指す。
「モジュール」は、1つ以上の定義されたタスクを実行するのに適したコンピュータソフトウェアコンポーネントを指す。
「センチメント(Sentiment)」は、ドキュメント、ドキュメントの一部分、又は特徴に関連した客観的評価を指す。
「トピック」は、コーパスから少なくとも一部分導出されるセマティック情報のセットを指す。
「トピック識別子」又は「トピックID」は、トピックの特定インスタンスを指す識別子である。
「トピック集合体」は、コーパスから導出されるトピックの特定セットを指し、各トピックは、独特の識別子(独特のID)を有する。
「トピック分類」は、特定のトピック識別子をドキュメントの特徴として指定することを指す。
「質問」は、1つ以上の適当なデータベースから情報を検索するための要求を指す。
詳細な説明
添付図面に各々示された好ましい実施形態を以下に詳細に説明する。上述した実施形態は、例示に過ぎない。当業者であれば、ここに述べる特定の実施例について、本発明の範囲内で、多数の別のコンポーネント及び実施形態に置き換えできることが認識されよう。
本開示は、非構造化テキストにおける特徴を曖昧性除去する方法について述べる。規範的な実施形態は、本開示に従って特徴を曖昧性除去する慣習について述べるが、ここに述べるシステム及び方法は、本開示の範囲内で適当に使用するように構成できることが意図される。
既存の知識ベースは、曖昧さのない特徴及びそれに関連した特徴を含み、これは、信頼性の低いテキスト分析を招く。本開示の観点は、特徴及びエンティティの曖昧性除去精度を高め、それ故、テキスト分析の精度を高める。
一実施形態によれば、特徴を曖昧性除去するここに開示する方法は、初期データコーパスに使用されて、ドキュメント取り込み及び特徴抽出を遂行し、初期コーパスに含まれた各ドキュメントに対してトピック分類及び他のテキスト分析を行えるようにする。各特徴は、とりわけ、ドキュメントの名前、タイプ、位置情報、及び信頼性スコアとして識別されそして記録される。
図1は、非構造化テキストにおける特徴を曖昧性除去する複数のステップを示す方法100のフローチャートである。一実施形態によれば、特徴曖昧性除去方法100は、既存の知識ベースにおいて新たなドキュメント入力ステップ102が実行されるときに開始する。ドキュメントに対して特徴抽出ステップ104が遂行される。一実施形態によれば、特徴は、とりわけ、トピック識別子(トピックID)、ドキュメント識別子(ドキュメントID)、特徴のタイプ、特徴の名前、信頼性スコア及び特徴の位置のような異なる特徴属性に関連している。
種々の実施形態によれば、ステップ102のドキュメント入力は、大量コーパス又は生のコーパス(インターネット又はネットワーク接続のコーパスのような)から供給され、これは、次いで、毎秒供給される。
異なる実施形態によれば、特徴抽出ステップ104の間に、ドキュメント入力ステップ102の非構造化テキストを分析するために1つ以上の特徴確認及び抽出アルゴリズムが使用される。抽出された各特徴にスコアが指定される。そのスコアは、正しい属性で正しく抽出される特徴の確度レベルを指示する。
加えて、特徴抽出ステップ104の間に、ステップ102のドキュメント入力から1つ以上の一次特徴が識別される。各一次特徴は、特徴属性のセット及び1つ以上の二次特徴に関連付けられる。各二次特徴は、特徴属性のセットに関連付けられる。ある実施形態では、1つ以上の二次特徴は、特徴属性のそれ自身のセットを各々有する1つ以上の三次特徴を有する。
特徴属性を考慮して、ステップ102のドキュメント入力内の各特徴の相対的重み又は関連度が決定される。加えて、重み付けされたスコア付けモデルを使用して、特徴と特徴との間の関連付けの関連度が決定される。
特徴抽出ステップ104に続いて、ステップ102のドキュメント入力から抽出された特徴及びそれに関連した全ての情報は、ステップ106においてMemDBに特徴を含ませる間に、特徴曖昧性除去要求ステップ108の一部分として、インメモリデータベース(MemDB)にロードされる。
一実施形態では、MemDBは、図1から8に関連して述べるステップを実行する1つ以上のプロセッサを有する曖昧性除去コンピュータサーバー環境の一部分を形成する。ある実施形態では、MemDBは、1つ以上のサーチコントローラ、複数のサーチノード、圧縮データの集合体、及び曖昧性除去サブモジュールを含むコンピュータモジュールである。1つのサーチコントローラが1つ以上のサーチノードに選択的に関連付けられる。各サーチノードは、圧縮データの集合体を通して曖昧キーサーチを独立して遂行し、そしてスコア付けされた結果のセットをそれに関連したサーチコントローラへ返送することができる。
特徴の曖昧性除去ステップ108は、MemDB内の曖昧性除去サブモジュールにより遂行される。特徴の曖昧性除去108プロセスは、マシンで発生されるトピックIDを含み、これは、特徴、ドキュメント、又はコーパスを分類するのに使用される。個々の特徴及び特定のトピックIDの関連度は、曖昧性除去アルゴリズムを使用して決定される。あるドキュメントにおいて、そのドキュメント内の特徴の異なる発生のコンテキストに基づき、1つ以上のトピックIDに同じ特徴が関連付けられる。
あるドキュメントから抽出された特徴(同じトピック、接近用語及びエンティティ、キーフレーズ、イベント及びファクト)のセットは、異なるドキュメントにわたる2つ以上の特徴が単一の特徴である場合、又はそれらが別々の特徴である場合に、ある精度レベルで定義する曖昧性除去アルゴリズムを使用して、他のドキュメントからの特徴のセットと比較される。ある例では、データベースにおけるドキュメントの集合体にわたる2つ以上の特徴の共起を分析して、特徴曖昧性除去プロセス108の精度を改善する。ある実施形態では、全体的スコア付けアルゴリズムを使用して、特徴が同じである確率を決定する。
ある実施形態では、特徴曖昧性除去プロセス108の一部分として、MemDB内に知識ベースが発生される。この知識ベースは、関連する曖昧性除去された一次特徴及びそれに関連する二次特徴のクラスターを一時的に記憶するのに使用される。新たなドキュメントがMemDBにロードされたときに、曖昧性除去された新たな特徴セットを既存の知識ベースと比較し、特徴と特徴との関係を決定し、そして新たな特徴と既に抽出された特徴との間に一致があるかどうか決定する。
比較された特徴が一致する場合には、知識ベースが更新され、一致する特徴の特徴IDがユーザ及び/又は要求側アプリケーション又はプロセスへ返送され、そして更に、一致の頻度に基づいて目立った手段を特徴IDと共に取り付けることができ、これは、所与のコーパスにおいてその人気指数を捕らえるものである。比較された特徴が既に抽出された特徴のいずれとも一致しない場合には、曖昧性除去されたエンティティ又は特徴に独特の特徴IDが指定され、その独特の特徴IDは、特徴を定義するクラスターに関連付けられそしてMemDBの知識ベース内に記憶される。その後、ステップ110において、曖昧性除去された特徴の特徴IDがシステムインターフェイスを通してソースへ返送される。ある実施形態では、曖昧性除去された特徴の特徴IDは、二次特徴、特徴のクラスター、関連特徴属性、又は他の要求データを含む。特徴曖昧性除去ステップ108に対して使用される曖昧性除去サブモジュールを、図2について以下に詳細に述べる。
曖昧性除去サブモジュール
図2は、一実施形態により、方法100(図1)の特徴曖昧性除去ステップ108の非構造化テキストに使用される曖昧性除去サブモジュールにより遂行されるプロセス200のフローチャートである。曖昧性除去プロセス200は、図1のステップ106においてMemDBに特徴を含ませた後に始まる。ステップ202において与えられる抽出された特徴は、ステップ204において候補サーチを遂行するのに使用され、抽出された特徴についてのサーチは、共起特徴を含めて全ての候補レコードを通して遂行される。
種々の実施形態によれば、候補は、特徴の曖昧性除去プロセス108に使用される関連二次特徴のセットを伴う一次特徴である。
曖昧性除去結果は、トピックIDの共起とトピックIDの中の関連度とにより改善される。トピックIDの関連度は、異なるトピックモデルにわたるものであっても、トピックIDが指定された大きなコーパスから発見することができる。関連トピックIDをレコードリンケージステップ206の間に使用して、厳密なトピックIDを含まないが1つ以上の関連トピックIDを含むドキュメントへのリンケージを与えることができる。この解決策は、レコードリンケージステップ206に含まれるべき関連特徴のリコールを改善し、そしてあるケースでは、曖昧性除去結果を改善する。
潜在的に関連するドキュメントのセットが識別され、そしてそれらのドキュメント内の関連する一次及び二次特徴が抽出されると、特徴の属性、同じドキュメント(意義のあるコンテキスト)の特徴と特徴との間の関係、特徴の相対的重み、及び他の変数をレコードリンケージプロセス206の間に使用して、それらのドキュメントにわたる一次及び二次特徴を曖昧性除去する。次いで、各レコードを他のレコードにリンクして、曖昧性除去された一次特徴及びそれらの関連する二次特徴のクラスターを決定する。レコードリンケージ206に使用されるアルゴリズムは、マイニング非構造化データセットのスペルエラー又は翻字及び他の課題を克服することができる。
クラスター比較ステップ208は、比較的一致するスコアを、曖昧性除去された特徴のクラスターに指定することを含み、異なるアプリケーションに対して異なる受け容れスレッシュホールドが定義される。定義された精度レベルは、どのスコアが肯定的一致サーチと考えられそしてどのスコアが否定的一致サーチと考えられるか決定する(ステップ210)。各新たなクラスターは、独特のIDが与えられ、そして知識ベースに一時的に記憶される。各新たなクラスターは、曖昧性除去された新たな一次特徴及び二次特徴のセットを含む。新たなクラスターが、知識ベースに既に記憶されているクラスターに一致する場合には、システムは、ステップ212において知識ベースを更新し、そしてユーザ及び/又は要求側アプリケーション又はプロセスへの一致特徴IDの返送がステップ214において遂行される。知識ベースの更新212は、1つの一次特徴への付加的な二次特徴の関連付け、或いは一次又は二次特徴に以前に関連付けされていない特徴属性の追加を意味する。
評価されているクラスターに、肯定的一致サーチ210のスレッシュホールドより低いスコアが指定された場合には、システムは、ステップ216において、クラスターの一次特徴に独特のID指定を遂行し、そしてステップ212において、知識ベースを更新する。その後、システムは、一致ID返送プロセス214を遂行する。レコードリンケージステップ206は、図3を参照して更に詳細に説明する。
リンクオンザフライサブモジュール
図3は、一実施形態により、特徴を曖昧性除去する方法100に使用されるリンクオンザフライ(リンクOTF)サブモジュールにより遂行されるプロセス300のフローチャートである。リンクOTFプロセス300は、情報のフィードを定常的に評価し、スコア付けし、リンクし、そしてクラスター化することができる。リンクOTFサブモジュールは、複数のアルゴリズムを使用してレコードリンケージ206を遂行する。ステップ204の候補サーチ結果は、リンクOTFモジュール300へ定常的にフィードされる。データの入力に続いて、一致スコア付けアルゴリズムが適用され(ステップ302)、ここでは、1つ以上の一致スコア付けアルゴリズムがMemDBの複数のサーチノードに同時に適用される一方、とりわけ、ストリンク編集距離、表音及び意味のような複数の特徴属性を考慮して、関連する結果を評価及びスコア付けするために曖昧キーサーチを遂行する。
その後、一致スコア付けアルゴリズム適用ステップ302の間に識別された全ての候補レコードを互いに比較するために、リンキングアルゴリズムの適用ステップ304が追加される。リンキングアルゴリズムの適用304は、MemDBの複数のサーチノードの内部で遂行される曖昧キーサーチのスコア付けされた結果をフィルタリング及び評価できる1つ以上の分析リンキングアルゴリズムの使用を含む。ある例では、MemDBにおける識別された候補レコードの集合体にわたる2つ以上の特徴の共起を分析して、プロセスの精度を改善する。リンキングアルゴリズムの適用304には、異なる特徴属性に関連した異なる重み付けモデル及び信頼性スコアが考慮される。
リンキングアルゴリズムの適用ステップ304の後に、リンクされた結果が関連特徴のクラスターに配置され、そしてステップ306において、リンクされたレコードのクラスターの返送の一部分として返送される。
図4は、図1を参照して上述した非構造化テキストにおいて特徴を曖昧性除去するシステム400の一実施形態を例示する図である。このシステム400は、インメモリデータベースをホストし、そして1つ以上のノードを含む。
一実施形態によれば、システム400は、1つ以上のドキュメント内の特徴を曖昧性除去するため複数の特殊目的コンピュータモジュール401、402、411、412及び414(以下に述べる)のコンピュータインストラクションを実行する1つ以上のプロセッサを備えている。図4に示すように、ドキュメント入力モジュール401、402は、インターネットベースのソース及び/又はドキュメントの生のコーパスからドキュメントを受け取る。多数の新たなドキュメントがネットワーク接続404を通してドキュメント入力モジュール402へアップロードされる。それ故、ソースは、常時、新たな知識を得て、ユーザワークステーション406により更新され、そのような新たな知識は、スタティックな仕方で予めリンクされない。従って、評価されるべきドキュメントの数は、無限に増加する。
この評価は、MemDBコンピュータ408を経て達成される。MemDB408は、高速の曖昧性除去プロセスを促進し、曖昧性除去プロセスをオンザフライで促進し、これは、MemDB408に貢献しようとする最新情報の受信を促進する。特徴をリンクするための種々の方法が使用され、これは、重み付けされたモデルを本質的に使用して、どのエンティティタイプが最も重要であるか決定し、どれがより大きな重みを有するか決定し、そして信頼性スコアに基づき、正しい特徴の抽出及び曖昧性除去がどれほどの信頼性で遂行されたか決定し、且つ正しい特徴が結果の特徴クラスターに向かうことを決定する。図4に示すように、より多くのシステムノードが並列に機能するほど、プロセスは、より効率的となる。
種々の実施形態によれば、新たなドキュメントがドキュメント入力モジュール401、402を経てネットワーク接続404を通してシステム400に到着するとき、特徴抽出が抽出モジュール411を経て遂行され、次いで、特徴の曖昧性除去が新たなドキュメントにおいてMemDB408の特徴曖昧性除去サブモジュール414を経て遂行される。ある実施形態では、新たなドキュメントの特徴曖昧性除去が遂行された後に、抽出された新たな特徴410は、リンクOTFサブモジュール412を通過するためにMemDBに含まれ、ここで、特徴は、比較され及びリンクされ、そして曖昧性除去された特徴110の特徴IDが質問からの結果としてユーザに返送される。特徴IDに加えて、曖昧性除去された特徴を定義する結果の特徴クラスターが任意に返送されてもよい。
MemDBコンピュータ408は、装置メインメモリにデータレコードを記憶するように構成されたデータベースマネージメントシステム(DBMS)(図示せず)により制御されるレコードにデータを記憶するデータベースであり、これは、データを「ディスク」メモリに記憶する従来のデータベース及びDBMSモジュールと対照的である。従来のディスクストレージは、装置のハードディスクへの読み取り及び書き込みコマンドをプロセッサ(CPU)が実行することを要求し、従って、CPUがデータのためのメモリ位置を位置付け(即ち、シークし)及び検索するインストラクションを実行した後に、そのメモリ位置におけるデータとのある形式のオペレーションを遂行することを要求する。インメモリデータベースシステムは、メインメモリに入れられて適宜にアドレスされるデータにアクセスし、従って、CPUにより遂行されるインストラクションの数を軽減し、そしてハードディスクのデータをCPUがシークするのに関連したシークタイムを排除する。
インメモリデータベースは、ノードの各リソース(例えば、メモリ、ディスク、プロセッサ)をアグリゲートするように構成された1つ以上のノードを含むコンピューティングシステムである分散型コンピューティングアーキテクチャーにおいて実施される。ここに開示されるように、インメモリデータベースをホストするコンピューティングシステムの実施形態は、1つ以上のノードの間でデータベースのデータレコードを分散しそして記憶する。ある実施形態では、これらのノードは、ノードの「クラスター」へと形成される。ある実施形態では、ノードのこれらクラスターは、データベース情報の部分又は「集合体」を記憶する。
種々の実施形態は、共起トピック、キーフレーズ、接近用語、イベント、ファクト及びトレンド人気指数のような二次特徴を記憶するように構成された進化する効率的にリンク可能な特徴知識ベースを使用するコンピュータ実行の特徴曖昧性除去技術を提供する。ここに開示する実施形態は、知識ベースに記憶された特徴に対して所与の抽出特徴を分析する上で役立つ関連二次特徴の次元に基づいて簡単な概念的距離尺度から精巧なグラフクラスター化解決策まで変化し得る種々様々なリンキングアルゴリズムを経て遂行される。加えて、それらの実施形態は、既存の特徴エントリの二次特徴を更新するだけでなく、知識ベースに追加できる新たな特徴を発見することでそれを拡張もする能力により既存の特徴知識ベースを進化させる解決策を導入することができる。
曖昧性除去解決策の実施形態は、トピックモデリング解決策を使用して、トピック推論としてモデリングされる自動重み付け(全ての二次特徴にわたる)リンキングプロセスを提供する。この自動重み付け型リンキングプロセスをサポートするため、それら実施形態は、多数のコンポーネント(二次特徴)を条件独立としてサポートできるマルチコンポーネントLDA(MC−LDA)と称される新規なトピックモデリング解決策を構築するように従来のLDAトピックモデリングを拡張する。又、モデリング解決策の実施形態は、トレーニング中にコンポーネントの重みを自動的に学習し、そしてそれを曖昧性除去に関する推論(リンキング)のために使用することができる。曖昧性除去のために導入されるMC−LDA解決策は、曖昧性除去精度を高めるために導入できる付加的な数の二次特徴のためにスケーリングすることができる。
図5は、上述した図4のシステム400によって使用されるマルチコンポーネント条件独立のレイテントディリクレアロケーション(MC−LDA)トピックコンピュータモデリング解決策の実施形態のグラフィック表示である。ここに示す実施形態では、各コンポーネントブロックは、例えば、図5に示すパラメータで初期化される図4のMemDB408を経て実行される、知識ベースにわたる各二次特徴のモデリングを表す。
図6は、上述した図5に使用されるMC−LDAトピックモデルのギブスサンプリング方程式の実施形態を示す。このサンプリング解決策の実施形態は、個々のコンポーネント(二次特徴)の重みを自動的に且つ効率的にトレーニングする上で図4のシステム400の助けとなる。
図7は、例えば、図7に示すパラメータで初期化される図4のシステム400のMemDB408を経て実行される、図5−6のMC−LDAトピックモデルにおけるトレーニング及び推論のための確率論的変化推論アルゴリズムのコンピュータ実行の実施形態を示す。この推論方法の実施形態は、全ての二次特徴(当該ドキュメントから抽出された)を入力として取り上げそして重み付けされたトピックを出力として与えることにより、リンキング/曖昧性除去プロセスをトピック推論としてモデリングするように容易に適用される。これらの重み付けされたトピックは、次いで、記憶された特徴知識ベースエントリに対して類似性スコアを計算するのに使用できる。
図8は、MC−LDAトピックモデルに対するサンプルトピックを示すテーブルである。図8は、一実施形態により、例えば、図4のシステム400のMemDB408を経て実行される、モデルの各コンポーネントに対するトップスコア付け表面フォームを示す。
例#1は、当該特徴(一次特徴)がフットボール選手のJohn DoeでありそしてユーザがJohn Doeについて言及するニュースの監視を希望する場合に、非構造化テキストにおける特徴を曖昧性除去する方法100を適用するものである。ある実施形態によれば、John Doeについて述べるドキュメント入力102がネットワークにアップロードされる。ドキュメント入力102の特徴が抽出されて、MemDB408に含まれ、曖昧性除去されて、一次特徴(John Doe)に関連した二次特徴のクラスターにリンクされ、そして同様の特徴の既存のクラスターと比較される。方法100は、異なる特徴ID及び特徴IDの関連クラスターを出力し、これは、John Doeに対する全ての関連二次特徴、例えば、エンジニアのJohn Doe;教師のJohn Doe;及びフットボール選手のJohn Doe;を含む。同様の二次特徴を伴う他の一次特徴、例えば、ニックネーム又は省略名が考えられる。フットボール選手のJohn Doeと同じチームから、同じ年齢及び経験の「JD」フットボール選手は、同じ一次特徴と考えられる。それ故、フットボール選手のJohn Doeに関連した全てのドキュメントは、容易にアクセスすることができる。
例#2は、一次特徴が画像である場合に、非構造化ドキュメントにおける特徴を曖昧性除去する方法100を適用するものである。ある実施形態によれば、方法100は、特徴の抽出104を含み、ここで、特徴は、とりわけ、縁及び形状のような一般的な属性であるか、或いはとりわけ、タンク、個人及び時計のような特定の属性である。例えば、新たな画像が入力され、ここで、画像は、特定の形状(例えば、方形、個人又は車の形状)のような二次特徴を有し、二次特徴が抽出されてMemDB408に含まれ、ここで、同様の二次特徴を有する他の全ての画像の間で一致が見出される。ここに示す実施形態によれば、特徴は、画像のみを含み、即ちテキストは、特徴として含まれない。
例#3は、一次特徴がイベントである場合に、非構造化テキストにおける特徴を曖昧性除去する方法100を適用するものである。ある実施形態によれば、質問がなされたときに、方法100は、ユーザが、とりわけ、地震、火災、又は伝染病の発生のようなイベントに関連した結果を受け取ることができるようにする。方法100は、特徴の抽出104及び特徴の曖昧性除去108を遂行して、イベントに関連した特徴を見出すと共に、曖昧性除去された特徴110の特徴IDを与える。
例#4は、1つ以上のイベントの発生の予想がなされる場合の方法100の実施形態である。ある実施形態によれば、ユーザは、オペレーションの前に当該特徴及びイベントを前もって指示し、それ故、当該イベントに関連した異なる特徴間のリンクが前もって確立される。関連特徴が高い発生数でネットワークに現われるとき、方法100は、関連特徴の発生数増加に基づいて、当該事象が発生することを予想する。切迫したイベントが検出されると、ユーザに警報が送られる。例えば、タイからの保健省に対して仕事をするユーザは、デング熱の伝染病発生についての警報を受け取ることを選択する。例えば、ソーシャルネットワークからの他のユーザ406がデング熱の兆候又は包括を含めたコメントを病院へアップロードするとき、方法100は、ソーシャルネットワークからの全ての関連コメントを曖昧性除去し、そして関連情報を含めたユーザ406の数を考慮して、デング熱の伝染病発生が生じることを予想し、保健省の職員に警報する。それ故、保健省の職員は、付加的な形跡を得て、影響のある共同体への更なる対策を取り、伝染病が広がらないようにする。
例#5は、一次特徴が地理的な場所の名前である場合の方法100の適用である。一実施形態によれば、方法100は、都市の名前を曖昧性除去するのに使用され、曖昧性除去サブモジュールにおいて二次特徴に異なるスコア付け重みが関連付けられる。例えば、方法100は、Paris、TexasをParis、Franceから曖昧性除去するのに使用される。
例#6は、一次特徴が、とりわけ、個人、イベント、又は会社に関連した感情であり、その感情が、とりわけ、個人、イベント、又は会社に関する肯定的又は否定的コメントであって、ソーシャルネットワークを含む適当なソースから供給される場合に、非構造化テキストにおける特徴を曖昧性除去する方法100を適用するものである。ある実施形態によれば、方法100は、会社が一般大衆の中で有している容認性を確認するために使用される。
例#7は、特徴の信頼性スコアを高めるために人間の確認を含む方法100の実施形態である。ある実施形態によれば、リンクOTFプロセス300(図4)は、ユーザにより支援され、ユーザは、曖昧性除去された特徴が正しく曖昧性除去されたかどうか指示し、そして2つの異なるクラスターが1つでなければならないかどうか指示し、これは、ユーザが知っている2つの異なる一次特徴が同じであるときに方法100が(全ての特徴及びトピック共起情報を考慮して)何を指示するかを意味する。それ故、そのクラスターに関連した信頼性スコアが高くなり、従って、特徴が正しく曖昧性除去されたという確率が高くなる。
例#8は、曖昧性除去プロセス200及びリンクOTFプロセス300を使用する方法100の実施形態である。この例では、リンキングアルゴリズムの適用304に使用されるリンキングアルゴリズムは、1000msの期間内に0.85より高い信頼性スコアを与えるように構成される。
例#9は、曖昧性除去プロセス200及びリンクOTFプロセス300を使用する方法100の実施形態である。この例では、リンキングアルゴリズムの適用304に使用されるリンキングアルゴリズムは、300ms以下の期間内に0.80より高い信頼性スコアを与えるように構成される。この例に使用されるアルゴリズムは、例#8に使用されるアルゴリズムに比して短い期間内に応答を与えるが、一般的に、低い信頼性スコアを返送する。
例#10は、曖昧性除去プロセス200及びリンクOTFプロセス300を使用する方法100の実施形態である。この例では、リンキングアルゴリズムの適用304に使用されるリンキングアルゴリズムは、一般的に3000msを越える期間内に0.90より高い信頼性スコアを与えるように構成される。この例に使用されるアルゴリズムは、例#8に使用されるアルゴリズムにより返送されるものより一般的に大きな信頼性スコアをもつ応答を与えるが、著しく長い期間を一般的に要求する。
例#11は、複数のソースからのドキュメントの大きなコーパスにおいてeディスカバリーを遂行するために非構造化テキストにおける特徴を曖昧性除去する方法100の一例である。複数のリソースからのドキュメントの大きなコーパスが与えられると、それらドキュメントにおける全ての特徴を曖昧性除去するための方法100の適用は、コーパスにおいて全ての特徴を発見できるようにする。発見された特徴の集合体は、特徴に関連した全てのドキュメントの発見及び関連特徴の発見に更に使用することができる。
以上の方法の説明及びプロセスフロー図は、単なる例示として示されたもので、種々の実施形態のステップを、提示した順序で遂行しなければならないことを要求し又は意味することは意図されない。当業者に明らかなように、前記実施形態におけるステップは、任意の順序で遂行されてもよい。「次いで(then)」、「次に(next)」、等のワードは、ステップの順序を限定するものではなく、これらのワードは、単に、方法の説明を通して読者を誘導するのに使用されるだけである。プロセスフロー図は、オペレーションを一連のプロセスとして示すが、多数のオペレーションを並列に又は同時に遂行することもできる。加えて、オペレーションの順序は、再構成してもよい。プロセスは、方法、機能、手順、サブルーチン、サブプログラム、等に対応する。プロセスが機能に対応するとき、その終了は、コーリング機能又はメイン機能への機能の復帰に対応する。
ここに開示する実施形態に関連して述べた種々の例示的論理ブロック、モジュール、回路及びアルゴリズムステップは、電子的ハードウェア、コンピュータソフトウェア又はその両方の組み合わせとして具現化されてもよい。ハードウェア及びソフトウェアのこの互換性を明確に示すために、種々の例示的コンポーネント、ブロック、モジュール、回路、及びステップは、それらの機能に関して一般的に説明された。そのような機能がハードウェアとして具現化されるかソフトウェアとして具現化されるかは、システム全体に課せられる特定アプリケーション及び設計上の制約に依存する。当業者であれば、ここに述べた機能を特定アプリケーションごとに色々な仕方で具現化できるが、そのような具現化の判断は、本発明の範囲から逸脱すると解釈されてはならない。
コンピュータソフトウェアで具現化される実施形態は、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はその組み合わせで具現化される。コードセグメント又はマシン実行可能なインストラクションは、手順、機能、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、或いはインストラクション、データ構造体又はプログラムステートメントの組合せを表わす。コードセグメントは、情報、データ、アーギュメント、パラメータ又はメモリコンテンツを通し及び/又は受け取ることにより別のコードセグメント又はハードウェア回路に結合される。情報、アーギュメント、パラメータ、データ、等は、メモリ共有、メッセージ通過、トークン通過、ネットワーク送信、等を含む適当な手段を経て通され、転送され又は送信される。
これらのシステム及び方法を実施するのに使用される実際のソフトウェアコード又は特殊な制御ハードウェアは、本発明を限定するものではない。従って、システム及び方法のオペレーション及び振舞いは、ここでの記載に基づいてシステム及び方法を実施するようにソフトウェア及び制御ハードウェアを設計できることを理解して、特定のソフトウェアコードを参照せずに説明した。
ソフトウェアで実施されるときに、機能は、非一時的コンピュータ読み取り可能な又はプロセッサ読み取り可能なストレージ媒体に1つ以上のインストラクション又はコードとして記憶される。ここに開示する方法又はアルゴリズムのステップは、コンピュータ読み取り可能な又はプロセッサ読み取り可能なストレージ媒体に存在するプロセッサ実行可能なソフトウェアモジュールにおいて実施される。非一時的なコンピュータ読み取り可能な又はプロセッサ読み取り可能な媒体は、ある場所から別の場所へのコンピュータプログラムの転送を容易にするコンピュータストレージ媒体及び有形のストレージ媒体の両方を含む。非一時的なプロセッサ読み取り可能なストレージ媒体は、コンピュータによりアクセスされる利用可能な媒体である。これに限定されないが、一例として、そのような非一時的なプロセッサ読み取り可能な媒体は、RAM、ROM、EEPROM、CD−ROM又は他の光学ディスクストレージ、磁気ディスクストレージ又は他の磁気ストレージ装置、或いはインストラクション又はデータ構造体の形態で望ましいプログラムコードを記憶するのに使用され且つコンピュータ又はプロセッサによりアクセスされる他の有形のストレージ媒体を含む。ここで使用するディスク(disk & disc)とは、コンパクトディスク(CD)、レーザーディスク(登録商標)、光学ディスク、デジタル多様性ディスク(DVD)、フロッピーディスク、及びブルーレイディスクを含み、ここで、ディスク(disk)は、通常、データを磁気的に再生するものであり、一方、ディスク(disc)は、データをレーザで光学的に再生するものである。前記の組み合わせも、コンピュータ読み取り可能な媒体の範囲内に包含される。加えて、方法又はアルゴリズムのオペレーションは、コンピュータプログラム製品に合体される非一時的プロセッサ読み取り可能な媒体及び/又はコンピュータ読み取り可能な媒体にコード及び/又はインストラクションの1つ又は組み合わせ或いはセットとして存在する。
技術の種々のコンポーネントは、分散型ネットワーク及び/又はインターネットの遠隔部分に、或いは専用のセキュア、アンセキュア及び/又は暗号化システム内に配置できることが明らかである。従って、システムのコンポーネントは、1つ以上の装置に結合するか、又はテレコミュニケーションネットワークのような分散型ネットワークの特定ノードに共通配置できることが明らかである。以上の説明から明らかなように、計算効率の理由で、システムのコンポーネントは、システムのオペレーションに影響することなく、分散型ネットワーク内の任意の位置に配置することができる。更に、それらのコンポーネントは、専用マシンに埋め込むこともできる。
更に、エレメントを接続する種々のリンクは、ワイヤード又はワイヤレスリンク又はその組み合わせ、或いは接続されたエレメントへ及びそこからデータを供給及び/又は通信することのできる他の既知の又は今後開発されるエレメントであることが明らかである。ここで使用するモジュールという語は、エレメントに関連した機能を遂行できる既知の又は今後開発されるハードウェア、ソフトウェア、ファームウェア、又はその組み合わせを指す。又、ここで使用する決定、計算及びコンピューティング、並びにその変形の語は、交換可能に使用され、そして任意のタイプの方法、プロセス、数学演算又は技術を包含する。
ここに開示する実施形態の前記説明は、当業者が本発明を実施又は利用できるようにするためになされたものである。これら実施形態に対する種々の変更は、当業者に容易に明らかであり、そしてここに定義する一般的な原理は、本発明の精神又は範囲から逸脱せずに他の実施形態に適用される。従って、本発明は、ここに示す実施形態に限定されるものではなく、特許請求の範囲並びにここに開示した原理及び新規な特徴に一致する最も広い範囲と調和されるべきである。
以上に述べた実施形態は、例示に過ぎない。当業者であれば、ここに述べた特定例に対して置き換えられ且つ依然として本発明の範囲内に入る多数の代替的コンポーネント及び実施形態が認識されよう。
400:システム
401、402:ドキュメント入力モジュール
404:ネットワーク接続
406:ユーザワークステーション
408:MemDBコンピュータ
410:抽出された新たな特徴
411:抽出ノード
412:リンクOTFサブモジュール

Claims (20)

  1. インメモリデータベースをホストするシステムのノードにより、1つ以上の抽出された特徴に一致する1つ以上の候補を識別するために候補レコードのセットをサーチし、候補に一致する抽出された特徴は、一次特徴であり、
    ノードにより、抽出された特徴の各々を1つ以上のマシン発生トピック識別子(トピックID)と関連付け、
    ノードにより、トピックIDの関連度に基づき一次特徴の各々を互いに曖昧性除去し、
    ノードにより、トピックIDの関連度に基づき各一次特徴に関連した二次特徴のセットを識別し、
    ノードにより、トピックIDの関連度に基づき二次特徴の関連セットにおける二次特徴の各々から一次特徴の各々を曖昧性除去し、
    ノードにより、各一次特徴を二次特徴の関連セットにリンクして、新たなクラスターを形成し、
    ノードにより、前記新たなクラスターが既存の知識ベースクラスターに一致するかどうか決定し、
    一致があるときには、インメモリデータベースサーバーコンピュータの曖昧性除去モジュールにより、知識ベースクラスターにおける各一致する一次特徴に対応する既存の独特の識別子(独特のID)を決定しそして前記新たなクラスターを含むように知識ベースクラスターを更新し、及び
    一致がないときには、ノードにより、新たな知識ベースクラスターを生成し、そしてその新たな知識ベースクラスターの一次特徴に新たな独特のIDを指定し、及び
    ノードにより、既存の独特のID及び新たな独特のIDの一方を一次特徴として送出する、
    ことを含む方法。
  2. ノードにより、抽出された特徴に一致する候補レコードの各々を比較し、及びノードにより、その比較に基づいて前記抽出された特徴の各々に重み付けされた一致スコア結果を指定する、ことを更に含む、請求項1に記載の方法。
  3. ノードにより、抽出された特徴の各々を、重み付けされた特徴属性のセットに関連付けることを更に含む、請求項2に記載の方法。
  4. ノードにより、1つ以上の重み付けされた特徴属性に基づいて抽出された特徴の各々の関連度を決定することを更に含む、請求項3に記載の方法。
  5. ノードの抽出モジュールにより確認及び抽出を行い、1つ以上の抽出された特徴において1つ以上の一次特徴を識別し、及び
    ノードの抽出モジュールにより、抽出された特徴の各々をデータベースに記憶する、
    ことを更に含む、請求項1に記載の方法。
  6. ノードの抽出モジュールにより、各特徴に抽出確度スコアを指定することを更に含む、請求項5に記載の方法。
  7. 各々の一次特徴は、1つ以上の特徴属性のセットに関連付けられる、請求項1に記載の方法。
  8. 特徴属性は、トピックID、ドキュメント識別子(ドキュメントID)、特徴タイプ、特徴名、信頼性スコア、及び特徴位置より成るグループから選択される、請求項7に記載の方法。
  9. 各関連特徴は、予め定義されたクラスターハイアラーキーに従って下位順序特徴のセットに関連付けられる、請求項1に記載の方法。
  10. ノードにより、候補レコードのセットの曖昧キーサーチを遂行することを更に含む、請求項1に記載の方法。
  11. ノードのリンクオンザフライモジュールにより、関連トピックIDの共起及び1つ以上の特徴属性に基づいて2つ以上のデータソースをリンクすることを更に含む、請求項7に記載の方法。
  12. ノードにより、データソースにおける抽出された特徴が第2データソースにおいて共起するかどうかを、その抽出された特徴を第2データソースにおける特徴と比較することで決定し、及び
    ノードにより、前期比較に基づいてデータソースの各々をリンクする、
    ことを更に含む、請求項1に記載の方法。
  13. ノードにより、異なるデータソースからの抽出された特徴の共起を分析して、抽出された特徴の曖昧性除去の精度を改善することを更に含む、請求項1に記載の方法。
  14. ノードにより、1つ以上の新たなデータソースを連続的に受け取り、
    ノードにより、1つ以上の抽出される特徴を連続的に抽出し、
    ノードにより、1つ以上の抽出された特徴において候補サーチを連続的に遂行し、
    ノードにより、抽出された特徴を連続的に曖昧性除去し、及び
    ノードにより、抽出された特徴を1つ以上の新たなクラスターへ連続的にリンクする、
    ことを更に含む、請求項1に記載の方法。
  15. インメモリデータベースをホストするシステムのノードにより、1つ以上の抽出された特徴に一致する1つ以上の候補を識別するために候補レコードのセットをサーチし、候補に一致する抽出された特徴は、一次特徴であり、
    ノードにより、抽出された特徴の各々を1つ以上のマシン発生トピック識別子(トピックID)と関連付け、
    ノードにより、トピックIDの関連度に基づき一次特徴の各々を互いに曖昧性除去し、
    ノードにより、トピックIDの関連度に基づき各一次特徴に関連した二次特徴のセットを識別し、
    ノードにより、トピックIDの関連度に基づき二次特徴の関連セットにおける二次特徴の各々から一次特徴の各々を曖昧性除去し、
    ノードにより、各一次特徴を二次特徴の関連セットにリンクして、新たなクラスターを形成し、
    ノードにより、前記新たなクラスターが既存の知識ベースクラスターに一致するかどうか決定し、
    一致があるときには、ノードにより、知識ベースクラスターにおける各一致する一次特徴に対応する既存の独特の識別子(独特のID)を決定しそして前記新たなクラスターを含むように知識ベースクラスターを更新し、及び
    一致がないときには、新たな知識ベースクラスターを生成し、そしてその新たな知識ベースクラスターの一次特徴に新たな独特のIDを指定し、及び
    ノードにより、既存の独特のID及び新たな独特のIDの一方を一次特徴として送出する、
    ことを含むコンピュータ実行可能なインストラクションが記憶された非一時的コンピュータ読み取り可能な媒体。
  16. 前記インストラクションは、更に、ノードにより、抽出された特徴に一致する候補レコードの各々を比較し、及びノードにより、その比較に基づいて前記抽出された特徴の各々に重み付けされた一致スコア結果を指定する、ことを含む、請求項15に記載のコンピュータ読み取り可能な媒体。
  17. 前記インストラクションは、更に、ノードにより、抽出された特徴の各々を、重み付けされた特徴属性のセットに関連付けることを含む、請求項16に記載のコンピュータ読み取り可能な媒体。
  18. 前記インストラクションは、更に、ノードにより、1つ以上の重み付けされた特徴属性に基づいて抽出された特徴の各々の関連度を決定することを含む、請求項17に記載のコンピュータ読み取り可能な媒体。
  19. 前記インストラクションは、更に、
    ノードの抽出モジュールにより、1つ以上の抽出された特徴を確認し及び抽出し、その1つ以上の抽出された特徴において1つ以上の一次特徴を識別し、及び
    ノードの抽出モジュールにより、抽出された特徴の各々をデータベースに記憶する、
    ことを含む、請求項15に記載のコンピュータ読み取り可能な媒体。
  20. 前記インストラクションは、更に、ノードの抽出モジュールにより、各特徴に抽出確度スコアを指定することを含む、請求項19に記載のコンピュータ読み取り可能な媒体。
JP2016536850A 2013-12-02 2014-12-01 非構造化テキストにおける特徴の曖昧性除去方法 Active JP6284643B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361910739P 2013-12-02 2013-12-02
US61/910,739 2013-12-02
PCT/US2014/067918 WO2015084724A1 (en) 2013-12-02 2014-12-01 Method for disambiguating features in unstructured text

Publications (3)

Publication Number Publication Date
JP2016541069A true JP2016541069A (ja) 2016-12-28
JP2016541069A5 JP2016541069A5 (ja) 2018-01-11
JP6284643B2 JP6284643B2 (ja) 2018-02-28

Family

ID=53265533

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016536850A Active JP6284643B2 (ja) 2013-12-02 2014-12-01 非構造化テキストにおける特徴の曖昧性除去方法

Country Status (7)

Country Link
US (2) US9239875B2 (ja)
EP (1) EP3077919A4 (ja)
JP (1) JP6284643B2 (ja)
KR (1) KR20160124742A (ja)
CN (1) CN106164890A (ja)
CA (1) CA2932399A1 (ja)
WO (1) WO2015084724A1 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9424294B2 (en) 2013-12-02 2016-08-23 Qbase, LLC Method for facet searching and search suggestions
US9424524B2 (en) 2013-12-02 2016-08-23 Qbase, LLC Extracting facts from unstructured text
US9547701B2 (en) 2013-12-02 2017-01-17 Qbase, LLC Method of discovering and exploring feature knowledge
US9025892B1 (en) 2013-12-02 2015-05-05 Qbase, LLC Data record compression with progressive and/or selective decomposition
US9348573B2 (en) * 2013-12-02 2016-05-24 Qbase, LLC Installation and fault handling in a distributed system utilizing supervisor and dependency manager nodes
EP3077927A4 (en) 2013-12-02 2017-07-12 Qbase LLC Design and implementation of clustered in-memory database
US9659108B2 (en) 2013-12-02 2017-05-23 Qbase, LLC Pluggable architecture for embedding analytics in clustered in-memory databases
US9201744B2 (en) 2013-12-02 2015-12-01 Qbase, LLC Fault tolerant architecture for distributed computing systems
US9355152B2 (en) 2013-12-02 2016-05-31 Qbase, LLC Non-exclusionary search within in-memory databases
US10572935B1 (en) * 2014-07-16 2020-02-25 Intuit, Inc. Disambiguation of entities based on financial interactions
US10176457B2 (en) * 2015-02-05 2019-01-08 Sap Se System and method automatically learning and optimizing sequence order
US11157920B2 (en) * 2015-11-10 2021-10-26 International Business Machines Corporation Techniques for instance-specific feature-based cross-document sentiment aggregation
US10200397B2 (en) 2016-06-28 2019-02-05 Microsoft Technology Licensing, Llc Robust matching for identity screening
US10311092B2 (en) * 2016-06-28 2019-06-04 Microsoft Technology Licensing, Llc Leveraging corporal data for data parsing and predicting
CN106991171A (zh) * 2017-03-25 2017-07-28 贺州学院 基于智慧校园信息服务平台的话题发现方法
US10810408B2 (en) * 2018-01-26 2020-10-20 Viavi Solutions Inc. Reduced false positive identification for spectroscopic classification
US11009452B2 (en) 2018-01-26 2021-05-18 Viavi Solutions Inc. Reduced false positive identification for spectroscopic quantification
US11656174B2 (en) 2018-01-26 2023-05-23 Viavi Solutions Inc. Outlier detection for spectroscopic classification
CN109344256A (zh) * 2018-10-12 2019-02-15 中国科学院重庆绿色智能技术研究院 一种新闻稿件主题分类及审核方法
KR102037453B1 (ko) 2018-11-29 2019-10-29 부산대학교 산학협력단 부분단어 정보에 기반을 둔 워드임베딩을 이용한 수분류사 중의성 해소 장치 및 방법
CN110110046B (zh) * 2019-04-30 2021-10-01 北京搜狗科技发展有限公司 同名实体推荐方法及装置
US11636355B2 (en) * 2019-05-30 2023-04-25 Baidu Usa Llc Integration of knowledge graph embedding into topic modeling with hierarchical Dirichlet process
CN110942765B (zh) * 2019-11-11 2022-05-27 珠海格力电器股份有限公司 一种构建语料库的方法、设备、服务器和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020165847A1 (en) * 2001-05-02 2002-11-07 Mccartney Jason Logical semantic compression
JP2003150442A (ja) * 2001-11-19 2003-05-23 Fujitsu Ltd メモリ展開プログラムおよびデータ処理装置
US20130290665A1 (en) * 2012-04-30 2013-10-31 Martin Heidel Storing large objects on disk and not in main memory of an in-memory database system
JP2013239162A (ja) * 2012-04-30 2013-11-28 Sap Ag レコードロックなしでのマルチレベルストレージアーキテクチャ内の記録の削除

Family Cites Families (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5828843A (en) 1996-03-21 1998-10-27 Mpath Interactive, Inc. Object-oriented method for matching clients together with servers according to attributes included in join request
US6178529B1 (en) 1997-11-03 2001-01-23 Microsoft Corporation Method and system for resource monitoring of disparate resources in a server cluster
US6353926B1 (en) 1998-07-15 2002-03-05 Microsoft Corporation Software update notification
US6266781B1 (en) 1998-07-20 2001-07-24 Academia Sinica Method and apparatus for providing failure detection and recovery with predetermined replication style for distributed applications in a network
US6338092B1 (en) 1998-09-24 2002-01-08 International Business Machines Corporation Method, system and computer program for replicating data in a distributed computed environment
US6959300B1 (en) 1998-12-10 2005-10-25 At&T Corp. Data compression method and apparatus
US7099898B1 (en) 1999-08-12 2006-08-29 International Business Machines Corporation Data access system
US6738759B1 (en) 2000-07-07 2004-05-18 Infoglide Corporation, Inc. System and method for performing similarity searching using pointer optimization
US8692695B2 (en) 2000-10-03 2014-04-08 Realtime Data, Llc Methods for encoding and decoding data
US6832373B2 (en) 2000-11-17 2004-12-14 Bitfone Corporation System and method for updating and distributing information
US6691109B2 (en) 2001-03-22 2004-02-10 Turbo Worx, Inc. Method and apparatus for high-performance sequence comparison
GB2374687A (en) 2001-04-19 2002-10-23 Ibm Managing configuration changes in a data processing system
US6961723B2 (en) 2001-05-04 2005-11-01 Sun Microsystems, Inc. System and method for determining relevancy of query responses in a distributed network search mechanism
US20030028869A1 (en) 2001-08-02 2003-02-06 Drake Daniel R. Method and computer program product for integrating non-redistributable software applications in a customer driven installable package
US6954456B2 (en) 2001-12-14 2005-10-11 At & T Corp. Method for content-aware redirection and content renaming
US6829606B2 (en) 2002-02-14 2004-12-07 Infoglide Software Corporation Similarity search engine for use with relational databases
US7421478B1 (en) 2002-03-07 2008-09-02 Cisco Technology, Inc. Method and apparatus for exchanging heartbeat messages and configuration information between nodes operating in a master-slave configuration
US8015143B2 (en) 2002-05-22 2011-09-06 Estes Timothy W Knowledge discovery agent system and method
US7570262B2 (en) 2002-08-08 2009-08-04 Reuters Limited Method and system for displaying time-series data and correlated events derived from text mining
US7249312B2 (en) * 2002-09-11 2007-07-24 Intelligent Results Attribute scoring for unstructured content
US7058846B1 (en) 2002-10-17 2006-06-06 Veritas Operating Corporation Cluster failover for storage management services
US20040205064A1 (en) 2003-04-11 2004-10-14 Nianjun Zhou Adaptive search employing entropy based quantitative information measurement
US7543174B1 (en) 2003-09-24 2009-06-02 Symantec Operating Corporation Providing high availability for an application by rapidly provisioning a node and failing over to the node
US9009153B2 (en) 2004-03-31 2015-04-14 Google Inc. Systems and methods for identifying a named entity
US7818615B2 (en) 2004-09-16 2010-10-19 Invensys Systems, Inc. Runtime failure management of redundantly deployed hosts of a supervisory process control data acquisition facility
US7403945B2 (en) 2004-11-01 2008-07-22 Sybase, Inc. Distributed database system providing data and space management methodology
US20060179026A1 (en) 2005-02-04 2006-08-10 Bechtel Michael E Knowledge discovery tool extraction and integration
US20060294071A1 (en) 2005-06-28 2006-12-28 Microsoft Corporation Facet extraction and user feedback for ranking improvement and personalization
US7630977B2 (en) 2005-06-29 2009-12-08 Xerox Corporation Categorization including dependencies between different category systems
US8386463B2 (en) 2005-07-14 2013-02-26 International Business Machines Corporation Method and apparatus for dynamically associating different query execution strategies with selective portions of a database table
US7681075B2 (en) 2006-05-02 2010-03-16 Open Invention Network Llc Method and system for providing high availability to distributed computer applications
US7447940B2 (en) 2005-11-15 2008-11-04 Bea Systems, Inc. System and method for providing singleton services in a cluster
US8341622B1 (en) 2005-12-15 2012-12-25 Crimson Corporation Systems and methods for efficiently using network bandwidth to deploy dependencies of a software package
US7899871B1 (en) 2006-01-23 2011-03-01 Clearwell Systems, Inc. Methods and systems for e-mail topic classification
US7519613B2 (en) 2006-02-28 2009-04-14 International Business Machines Corporation Method and system for generating threads of documents
US8726267B2 (en) 2006-03-24 2014-05-13 Red Hat, Inc. Sharing software certification and process metadata
US8190742B2 (en) 2006-04-25 2012-05-29 Hewlett-Packard Development Company, L.P. Distributed differential store with non-distributed objects and compression-enhancing data-object routing
US20070282959A1 (en) 2006-06-02 2007-12-06 Stern Donald S Message push with pull of information to a communications computing device
US8615800B2 (en) 2006-07-10 2013-12-24 Websense, Inc. System and method for analyzing web content
US7624118B2 (en) 2006-07-26 2009-11-24 Microsoft Corporation Data processing over very large databases
US8122026B1 (en) 2006-10-20 2012-02-21 Google Inc. Finding and disambiguating references to entities on web pages
US7853611B2 (en) * 2007-02-26 2010-12-14 International Business Machines Corporation System and method for deriving a hierarchical event based database having action triggers based on inferred probabilities
US8352455B2 (en) 2007-06-29 2013-01-08 Allvoices, Inc. Processing a content item with regard to an event and a location
US20090043792A1 (en) 2007-08-07 2009-02-12 Eric Lawrence Barsness Partial Compression of a Database Table Based on Historical Information
US10698886B2 (en) 2007-08-14 2020-06-30 John Nicholas And Kristin Gross Trust U/A/D Temporal based online search and advertising
GB2453174B (en) 2007-09-28 2011-12-07 Advanced Risc Mach Ltd Techniques for generating a trace stream for a data processing apparatus
KR100898339B1 (ko) 2007-10-05 2009-05-20 한국전자통신연구원 홈 네트워크 환경을 위한 자율적인 오류 처리 시스템 및 그방법
US8396838B2 (en) 2007-10-17 2013-03-12 Commvault Systems, Inc. Legal compliance, electronic discovery and electronic document handling of online and offline copies of data
US8375073B1 (en) 2007-11-12 2013-02-12 Google Inc. Identification and ranking of news stories of interest
US8294763B2 (en) 2007-12-14 2012-10-23 Sri International Method for building and extracting entity networks from video
US8326847B2 (en) * 2008-03-22 2012-12-04 International Business Machines Corporation Graph search system and method for querying loosely integrated data
WO2009117835A1 (en) 2008-03-27 2009-10-01 Hotgrinds Canada Search system and method for serendipitous discoveries with faceted full-text classification
US8712926B2 (en) 2008-05-23 2014-04-29 International Business Machines Corporation Using rule induction to identify emerging trends in unstructured text streams
US8358308B2 (en) 2008-06-27 2013-01-22 Microsoft Corporation Using visual techniques to manipulate data
US8171547B2 (en) 2008-12-03 2012-05-01 Trend Micro Incorporated Method and system for real time classification of events in computer integrity system
US8874576B2 (en) 2009-02-27 2014-10-28 Microsoft Corporation Reporting including filling data gaps and handling uncategorized data
GB0904113D0 (en) * 2009-03-10 2009-04-22 Intrasonics Ltd Video and audio bookmarking
US20100235311A1 (en) * 2009-03-13 2010-09-16 Microsoft Corporation Question and answer search
US8213725B2 (en) 2009-03-20 2012-07-03 Eastman Kodak Company Semantic event detection using cross-domain knowledge
US8161048B2 (en) * 2009-04-24 2012-04-17 At&T Intellectual Property I, L.P. Database analysis using clusters
US8055933B2 (en) 2009-07-21 2011-11-08 International Business Machines Corporation Dynamic updating of failover policies for increased application availability
US9165034B2 (en) * 2009-10-15 2015-10-20 Hewlett-Packard Development Company, L.P. Heterogeneous data source management
CA2779208C (en) 2009-10-30 2016-03-22 Evri, Inc. Improving keyword-based search engine results using enhanced query strategies
US20110125764A1 (en) 2009-11-26 2011-05-26 International Business Machines Corporation Method and system for improved query expansion in faceted search
CN102356393B (zh) 2010-01-29 2014-04-09 松下电器产业株式会社 数据处理装置
US9710556B2 (en) * 2010-03-01 2017-07-18 Vcvc Iii Llc Content recommendation based on collections of entities
US8595234B2 (en) 2010-05-17 2013-11-26 Wal-Mart Stores, Inc. Processing data feeds
US8429256B2 (en) 2010-05-28 2013-04-23 Red Hat, Inc. Systems and methods for generating cached representations of host package inventories in remote package repositories
US8345998B2 (en) 2010-08-10 2013-01-01 Xerox Corporation Compression scheme selection based on image data type and user selections
US8321443B2 (en) 2010-09-07 2012-11-27 International Business Machines Corporation Proxying open database connectivity (ODBC) calls
US20120102121A1 (en) * 2010-10-25 2012-04-26 Yahoo! Inc. System and method for providing topic cluster based updates
US8423522B2 (en) 2011-01-04 2013-04-16 International Business Machines Corporation Query-aware compression of join results
US20120246154A1 (en) 2011-03-23 2012-09-27 International Business Machines Corporation Aggregating search results based on associating data instances with knowledge base entities
US20120310934A1 (en) 2011-06-03 2012-12-06 Thomas Peh Historic View on Column Tables Using a History Table
KR20120134916A (ko) 2011-06-03 2012-12-12 삼성전자주식회사 저장 장치 및 저장 장치를 위한 데이터 처리 장치
US9104979B2 (en) 2011-06-16 2015-08-11 Microsoft Technology Licensing, Llc Entity recognition using probabilities for out-of-collection data
WO2013003770A2 (en) 2011-06-30 2013-01-03 Openwave Mobility Inc. Database compression system and method
US9032387B1 (en) 2011-10-04 2015-05-12 Amazon Technologies, Inc. Software distribution framework
US9026480B2 (en) 2011-12-21 2015-05-05 Telenav, Inc. Navigation system with point of interest classification mechanism and method of operation thereof
US9037579B2 (en) 2011-12-27 2015-05-19 Business Objects Software Ltd. Generating dynamic hierarchical facets from business intelligence artifacts
US9251250B2 (en) * 2012-03-28 2016-02-02 Mitsubishi Electric Research Laboratories, Inc. Method and apparatus for processing text with variations in vocabulary usage
US10908792B2 (en) 2012-04-04 2021-02-02 Recorded Future, Inc. Interactive event-based information system
US20130290232A1 (en) * 2012-04-30 2013-10-31 Mikalai Tsytsarau Identifying news events that cause a shift in sentiment
US8948789B2 (en) 2012-05-08 2015-02-03 Qualcomm Incorporated Inferring a context from crowd-sourced activity data
US9703833B2 (en) 2012-11-30 2017-07-11 Sap Se Unification of search and analytics
US9542652B2 (en) 2013-02-28 2017-01-10 Microsoft Technology Licensing, Llc Posterior probability pursuit for entity disambiguation
US9104710B2 (en) * 2013-03-15 2015-08-11 Src, Inc. Method for cross-domain feature correlation
US8977600B2 (en) 2013-05-24 2015-03-10 Software AG USA Inc. System and method for continuous analytics run against a combination of static and real-time data
CN103365974A (zh) * 2013-06-28 2013-10-23 百度在线网络技术(北京)有限公司 一种基于相关词主题的语义消歧方法和系统
US9734221B2 (en) 2013-09-12 2017-08-15 Sap Se In memory database warehouse
US9223875B2 (en) 2013-12-02 2015-12-29 Qbase, LLC Real-time distributed in memory search architecture
US9201744B2 (en) 2013-12-02 2015-12-01 Qbase, LLC Fault tolerant architecture for distributed computing systems
US9025892B1 (en) 2013-12-02 2015-05-05 Qbase, LLC Data record compression with progressive and/or selective decomposition
US9424294B2 (en) 2013-12-02 2016-08-23 Qbase, LLC Method for facet searching and search suggestions

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020165847A1 (en) * 2001-05-02 2002-11-07 Mccartney Jason Logical semantic compression
JP2003150442A (ja) * 2001-11-19 2003-05-23 Fujitsu Ltd メモリ展開プログラムおよびデータ処理装置
US20130290665A1 (en) * 2012-04-30 2013-10-31 Martin Heidel Storing large objects on disk and not in main memory of an in-memory database system
JP2013239162A (ja) * 2012-04-30 2013-11-28 Sap Ag レコードロックなしでのマルチレベルストレージアーキテクチャ内の記録の削除

Also Published As

Publication number Publication date
CN106164890A (zh) 2016-11-23
JP6284643B2 (ja) 2018-02-28
EP3077919A1 (en) 2016-10-12
US20150154286A1 (en) 2015-06-04
WO2015084724A1 (en) 2015-06-11
KR20160124742A (ko) 2016-10-28
US20160110446A1 (en) 2016-04-21
EP3077919A4 (en) 2017-05-10
CA2932399A1 (en) 2015-06-11
US9239875B2 (en) 2016-01-19

Similar Documents

Publication Publication Date Title
JP6284643B2 (ja) 非構造化テキストにおける特徴の曖昧性除去方法
US9201931B2 (en) Method for obtaining search suggestions from fuzzy score matching and population frequencies
US9720944B2 (en) Method for facet searching and search suggestions
Bagheri et al. Care more about customers: Unsupervised domain-independent aspect detection for sentiment analysis of customer reviews
US9613166B2 (en) Search suggestions of related entities based on co-occurrence and/or fuzzy-score matching
JP7232831B2 (ja) 複雑な回答の補強証拠取り出し
US20160239500A1 (en) System and methods for extracting facts from unstructured text
US10956472B2 (en) Dynamic load balancing based on question difficulty
US9619571B2 (en) Method for searching related entities through entity co-occurrence
Sleeman et al. Entity type recognition for heterogeneous semantic graphs
US20120317125A1 (en) Method and apparatus for identifier retrieval
US10198497B2 (en) Search term clustering
WO2015084757A1 (en) Systems and methods for processing data stored in a database
US20170124090A1 (en) Method of discovering and exploring feature knowledge
US9507834B2 (en) Search suggestions using fuzzy-score matching and entity co-occurrence
US20160085760A1 (en) Method for in-loop human validation of disambiguated features
JP6145562B2 (ja) 情報構造化システム及び情報構造化方法
Lu et al. Improving web search relevance with semantic features
CN113656574A (zh) 用于搜索结果排序的方法、计算设备和存储介质
Li Connecting Text with Knowledge

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171122

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171122

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20171122

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20171213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180130

R150 Certificate of patent or registration of utility model

Ref document number: 6284643

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250