JP2011501847A - コンピュータで実現される方法 - Google Patents
コンピュータで実現される方法 Download PDFInfo
- Publication number
- JP2011501847A JP2011501847A JP2010529460A JP2010529460A JP2011501847A JP 2011501847 A JP2011501847 A JP 2011501847A JP 2010529460 A JP2010529460 A JP 2010529460A JP 2010529460 A JP2010529460 A JP 2010529460A JP 2011501847 A JP2011501847 A JP 2011501847A
- Authority
- JP
- Japan
- Prior art keywords
- entity
- document
- data
- digital representation
- instance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
Abstract
Description
本発明は、自動情報抽出手順によって文書のデジタル表現から抽出されたデータのキュレーションを容易にするユーザインターフェイスを提供するための、コンピュータで実現される方法に関する。
社会および業界で発生する情報量は増加の一途を辿り、そのために、その情報を記憶し、見つけ出し、かつ分析することが難しくなり続けている。科学および技術文献などの情報を印刷した形態で記憶し、手作業で索引付けることが十分に可能であった時代もあったが、そのような時代は過去のものとなり、電子的記憶、検索および分析システムが近代世界の不可欠な部分となっている。
本発明の第1の局面に従うと、文書のデジタル表現から自動的に抽出された抽出データを見直しのために管理人に提示するコンピュータで実現される方法であって、抽出されたデータは、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備え、注釈エンティティデータは、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータを備え、方法は、
(i) ディスプレイ画面の第1の領域に、文書のデジタル表現のユーザ選択可能部分を表示するステップを備え、注釈エンティティデータによって文書のデジタル表現の表示された部分内に位置するとして特定されるエンティティの当該インスタンスは、注釈エンティティデータによって特定される場所でハイライトされ、さらに
(ii) ディスプレイ画面の第2の領域に、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストを表示するステップを備え、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、さらに
(iii) エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するステップを備える、コンピュータで実現される方法が提供される。
(i) 文書のデジタル表現および注釈データを入力データとして受けるステップを備え、注釈データは文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備え、注釈エンティティデータは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子および文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータを備え、エンティティのインスタンスの識別子はオントロジデータへの参照番号を備え、さらに
(ii) ディスプレイ画面の第1の領域に、(コンピュータ−ユーザインターフェイスなどの)コンピュータ−ユーザインターフェイス手段のユーザに対して文書のデジタル表現のユーザ選択可能部分を表示するステップを備え、注釈は注釈データに依存し、当該注釈は、注釈エンティティデータによって特定される文書のデジタル表現内の場所で、その場所が注釈エンティティデータ中に特定されるエンティティのインスタンスのうち1つ以上を少なくともハイライトすることを含み、さらに
(iii) コンピュータ−ユーザインターフェイス手段のユーザから受けた指示に応答して、修正された注釈データを準備するステップと、
(iv) 修正された注釈データから導出される出力データを出力するステップとを備え、
この方法はさらに、コンピュータ−ユーザインターフェイス手段が、ディスプレイ画面の第2の領域に、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストを表示するように動作可能であるユーザ選択可能動作モードを提供するステップを備え、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、さらに、エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するステップを備える、方法が提供される。
好ましい実施例では、注釈データを編集する方法は、データベースに投入する方法の一部である。したがって、発明は、第3の局面では、データベースに投入する方法に拡張され、この方法は、本発明の第1の局面に従う方法によって、文書のデジタル表現と関連付けられた注釈データを編集するステップと、データベースに出力データを投入するステップとを備える。この明細書および添付の請求項内で「注釈データを編集する」とは、注釈データの変更などの注釈データの修正と、新しい注釈データまたは注釈データもしくはそれから導出されるデータを修正することによって新しい注釈データから導出される出力データの準備との両方を含む。
データベース中のエンティティおよび/または関係に関するデータは、オントロジデータを参照して記憶され得る。しかしながら、データベース中のエンティティおよび/または関係に関するデータは、第2のオントロジデータを参照して記憶され得、データベースに投入するステップは、参照番号をオントロジデータに翻訳して第2のオントロジデータを参照するステップを含み得る。参照番号をオントロジデータに翻訳するステップは典型的に、エンティティの識別子を翻訳するステップを備える。
(i) 文書のデジタル表現を入力データとして受けるステップと、
(ii) 文書のデジタル表現を分析するステップと、文書のデジタル表現中に含有されるエンティティの1つ以上のインスタンスを識別するステップと、エンティティの識別されたインスタンスのうち少なくともいくつかについては、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備える注釈データを記憶するステップとを備え、注釈エンティティデータは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子と、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータとを備え、エンティティの識別子はオントロジデータへの参照番号を備え、さらに
(iii) ディスプレイ画面の第1の領域に、コンピュータ−ユーザインターフェイス手段のユーザに対して文書のデジタル表現のユーザ選択可能部分を表示するステップを備え、注釈は注釈データに依存し、当該注釈は、注釈エンティティデータによって特定された文書のデジタル表現内の場所で、その場所が注釈エンティティデータ中に特定されたエンティティのインスタンスのうち1つ以上を少なくともハイライトすることを含み、さらに
(iv) コンピュータ−ユーザインターフェイス手段のユーザにオントロジデータを修正する手段を提供するステップと、
(v) コンピュータ−ユーザインターフェイス手段のユーザから受けた指示に応答して修正注釈データを準備するステップと、
(vi) コンピュータ−ユーザインターフェイス手段のユーザが受けた指示に応答してオントロジデータを修正するステップとを備え、
方法は、コンピュータ−ユーザインターフェイス手段が、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストをディスプレイ画面の第2の領域に表示するように動作可能なユーザ選択可能動作モードを提供するステップをさらに備え、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、方法はさらに、エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するステップを備える、方法が提供される。
(i) 文書のデジタル表現を入力データとして受けるステップと、
(ii) トレーニング可能情報抽出モジュールを用いて文書のデジタル表現を分析するステップとを備え、トレーニング可能情報抽出モジュールは、文書のデジタル表現中に含有されるエンティティの1つ以上のインスタンスを識別し、さらに、エンティティの識別されたインスタンスのうち少なくともいくつかについては、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備える注釈データを記憶するステップを備え、注釈エンティティデータは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子と、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータとを備え、エンティティの識別子はオントロジデータへの参照番号を備え、さらに
(iii) ディスプレイ画面の第1の領域において、コンピュータ−ユーザインターフェイス手段のユーザに対して文書のデジタル表現のユーザ選択可能部分を表示するステップを備え、注釈は注釈データに依存し、当該注釈は、注釈エンティティデータによって特定される文書のデジタル表現内の場所で、その場所が注釈エンティティデータ中で特定されるエンティティのインスタンスのうち1つ以上を少なくともハイライトすることを含み、さらに
(iv) コンピュータ−ユーザインターフェイス手段のユーザから受けた指示に応答して修正注釈データを準備するステップと、
(v) コンピュータ−ユーザインターフェイス手段のユーザに、トレーニング可能情報抽出モジュールをトレーニングする際に用いるための、文書のデジタル表現を選択する手段を提供するステップと、
(vi) 文書の選択されたデジタル表現の少なくとも一部を備えるトレーニングデータおよび文書の選択されたデジタル表現に関する修正注釈データを用いてトレーニング可能情報抽出モジュールを周期的に再トレーニングするステップとを備え、
方法はさらに、コンピュータ−ユーザインターフェイス手段が文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストをディスプレイ画面の第2の領域に表示するように動作可能なユーザ選択可能動作モードを提供するステップを備え、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、さらに、エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するステップを備える、方法が提供される。
コンピュータ−ユーザインターフェイス手段は、文書のデジタル表現および注釈データを入力データとして受けるように動作可能であり、注釈データは、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備え、注釈エンティティデータは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子と、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータとを備え、エンティティのインスタンスの識別子はオントロジデータへの参照番号を備え、
コンピュータ−ユーザインターフェイス手段は、ディスプレイ画面の第1の領域において、コンピュータ−ユーザインターフェイス手段のユーザに対して文書のデジタル表現のユーザ選択可能部分を表示するように動作可能であり、注釈は注釈データに依存し、当該注釈は、注釈エンティティデータが特定する文書のデジタル表現内の場所で、その場所が注釈エンティティデータ中に特定されるエンティティのインスタンスのうち1つ以上を少なくともハイライトすることを含み、
コンピュータ−ユーザインターフェイス手段は、コンピュータ−ユーザインターフェイス手段のユーザから指示を受け、受けた指示に応答して修正注釈データを準備するように動作可能であり、
出力手段は、修正注釈データから導出された出力データを出力するように動作可能であり、
コンピュータ−ユーザインターフェイス手段は、ユーザ選択可能動作モードでは、ディスプレイ画面の第2の領域に、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストを表示するように動作可能であり、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、コンピュータ−ユーザインターフェイス手段は、エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するように動作可能である、システムである。
コンピュータ−ユーザインターフェイス手段は、文書のデジタル表現および注釈データを入力データとして受けるように動作可能であり、注釈データは、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備え、注釈エンティティデータは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子と、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータとを備え、エンティティのインスタンスの識別子はオントロジデータへの参照番号を備え、
コンピュータ−ユーザインターフェイス手段は、ディスプレイ画面の第1の領域において、コンピュータ−ユーザインターフェイス手段のユーザに対して文書のデジタル表現のユーザ選択可能部分を表示するように動作可能であり、注釈は注釈データに依存し、当該注釈は、注釈エンティティデータによって特定される文書のデジタル表現内の場所で、その場所が注釈エンティティデータ中で特定されるエンティティのインスタンスのうち1つ以上を少なくともハイライトすることを含み、
コンピュータ−ユーザインターフェイス手段は、コンピュータ−ユーザインターフェイス手段のユーザから指示を受け、受けた指示に応答して修正注釈データを準備するように動作可能であり、
出力手段は、修正注釈データから導出される出力データをデータベースに投入するように動作可能であり、
コンピュータ−ユーザインターフェイス手段は、ユーザ選択可能動作モードでは、ディスプレイ画面の第2の領域に、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストを表示するように動作可能であり、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、コンピュータ−ユーザインターフェイス手段は、エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するように動作可能である、システムである。
分析手段は、文書のデジタル表現を入力データとして受け、文書のデジタル表現を分析し、文書のデジタル表現に含有されるエンティティの1つ以上のインスタンスを識別し、かつエンティティの識別されたインスタンスのうち少なくともいくつかについては、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備える注釈データを記憶するように動作可能であり、注釈エンティティデータは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子と、文書のデジタル表現内でエンティティの識別されたインスタンスの場所を特定するデータとを備え、エンティティの識別子はオントロジデータへの参照番号を備え、
コンピュータ−ユーザインターフェイス手段は、文書のデジタル表現および分析手段が記憶した注釈データを入力データとして受け、ディスプレイ画面の第1の領域において、コンピュータ−ユーザインターフェイス手段のユーザに対して文書のデジタル表現のユーザ選択可能部分を表示するように動作可能であり、注釈は注釈データに依存し、当該注釈は、注釈エンティティデータによって特定される文書のデジタル表現内の場所で、その場所が注釈エンティティデータ中で特定されるエンティティのインスタンスのうち1つ以上を少なくともハイライトすることを含み、
コンピュータ−ユーザインターフェイス手段は、コンピュータ−ユーザインターフェイス手段のユーザから指示を受け、受けた指示に応答して修正注釈データを準備するように動作可能であり、
出力手段は、修正注釈データから導出される出力データをデータベースに投入するように動作可能であり、
コンピュータ−ユーザインターフェイス手段は、ユーザ選択可能動作モードでは、ディスプレイ画面の第2の領域に、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストを表示するように動作可能であり、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、コンピュータ−ユーザインターフェイス手段は、エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するように動作可能である、システムである。
分析手段は、文書のデジタル表現を入力データとして受け、文書のデジタル表現を分析し、文書のデジタル表現に含有されるエンティティの1つ以上のインスタンスを識別し、エンティティの識別されたインスタンスのうち少なくともいくつかについては、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備える注釈データを記憶するように動作可能であり、注釈エンティティデータは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子と、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータとを備え、エンティティの識別子はオントロジデータへの参照番号を備え、
コンピュータ−ユーザインターフェイス手段は、文書のデジタル表現および分析手段によって記憶される注釈データを入力データとして受け、ディスプレイ画面の第1の領域において、コンピュータ−ユーザインターフェイス手段のユーザに対して文書のデジタル表現のユーザ選択可能部分を表示するように動作可能であり、注釈は注釈データに依存し、当該注釈は、注釈エンティティデータによって特定される文書のデジタル表現内の場所で、その場所が注釈エンティティデータ中で特定されるエンティティのインスタンスのうち1つ以上を少なくともハイライトすることを含み、
コンピュータ−ユーザインターフェイス手段は、コンピュータ−ユーザインターフェイス手段のユーザから指示を受け、受けた指示に応答して修正注釈データを準備するように動作可能であり、
コンピュータ−ユーザインターフェイス手段は、コンピュータ−ユーザインターフェイス手段のユーザから指示を受け、受けた指示に応答してオントロジデータを修正しかつオントロジデータを修正するように動作可能であり、
出力手段は、修正注釈データから導出される出力データをデータベースに投入するように動作可能であり、
コンピュータ−ユーザインターフェイス手段は、ユーザ選択可能動作モードでは、ディスプレイ画面の第2の領域に、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストを表示するように動作可能であり、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、コンピュータ−ユーザインターフェイス手段は、エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するように動作可能である、システムが提供される。
分析手段は、文書のデジタル表現を入力データとして受け、文書のデジタル表現を分析し、文書のデジタル表現に含有されるエンティティの1つ以上のインスタンスを識別し、エンティティの識別されたインスタンスのうち少なくともいくつかについては、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備える注釈データを記憶するように動作可能なトレーニング可能情報抽出モジュールを備え、注釈エンティティデータは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子と、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータとを備え、エンティティの識別子はオントロジデータへの参照番号を備え、
コンピュータ−ユーザインターフェイス手段は、文書のデジタル表現および分析手段によって記憶された注釈データを入力データとして受け、ディスプレイ画面の第1の領域において、コンピュータ−ユーザインターフェイス手段のユーザに対して文書のデジタル表現のユーザ選択可能部分を表示するように動作可能であり、注釈は注釈データに依存し、当該注釈は、注釈エンティティデータによって特定される文書のデジタル表現内の場所で、その場所が注釈エンティティデータ中で特定されるエンティティのインスタンスのうち1つ以上を少なくともハイライトすることを含み、
コンピュータ−ユーザインターフェイス手段は、コンピュータ−ユーザインターフェイス手段のユーザから指示を受け、受けた指示に応答して修正注釈データを準備するように動作可能であり、
コンピュータ−ユーザインターフェイス手段は、トレーニング可能情報抽出モジュールをトレーニングするのに用いるための文書のデジタル表現をユーザが選択する手段を備え、
出力手段は、修正注釈データから導出される出力データをデータベースに投入するように動作可能であり、
システムは、文書の選択されたデジタル表現の少なくとも一部および文書の選択されたデジタル表現に関する修正注釈データを備えるトレーニングデータを用いてトレーニング可能情報抽出モジュールを周期的に再トレーニングするように動作可能であり、
コンピュータ−ユーザインターフェイス手段は、ユーザ選択可能動作モードでは、ディスプレイ画面の第2の領域に、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストを表示するように動作可能であり、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、コンピュータ−ユーザインターフェイス手段は、エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するように動作可能である、システムである。
ノード要素の群からユーザが選択したノード要素の表現を表示するステップを備え、ノード要素の群中の各々のノード要素は、親ノード要素および1つ以上の子ノード要素のうちいずれかまたはその両方を有し、さらに、分岐ツリー構造を形成するステップを備え、ノード要素の群中の少なくとも2つのノード要素は子ノード要素を有しない葉ノード要素であり、残余のノード要素は少なくとも1つの子ノード要素を有する非葉ノード要素であり、各々の表わされた非葉ノード要素は、当該表わされた非葉ノード要素の子ノード要素を表わすか否かを判断するようにユーザが選択可能であり、
各々の葉ノード要素は、自動的に抽出されたデータによって特定されるエンティティのインスタンスと関連付けられ、各々の非葉ノード要素はエンティティのインスタンスのプロパティの値と関連付けられ、それぞれの非葉ノード要素の究極の子である各々の葉ノード要素は、プロパティの同じそれぞれの値を有するエンティティのインスタンスと関連付けられることを特徴とする、コンピュータで実現される方法が提供される。
始めに、図1は、本発明に従う情報抽出システムを通る情報の主な流れの概略図である。例示的なシステムは、自然言語テキストを含む生物医学テキスト文書のデジタル表現からデータを抽出し、得られた抽出データを見直しのために人間の管理人に提示する。例示的なシステムは、抽出データが人間の管理人のチームによってキュレーションされる、文書の多数のデジタル表現の分析のために設計される。
アプリケーションロジックの重要な局面は4つの重要なサービスの中に封入される。すなわち、ターゲットデータベースに投入するための出力データのエクスポートに関連するロジックを含むターゲットデータベース14との双方向通信に関連する制御ロジックを含むターゲットサービス36;集められ記憶された文書ファイルの集合に対してAPIとして働き、システムの他の構成要素が抽象的かつ制御された態様でデータに読出/書込アクセスできるようにする文書サービス38;システム内で用いられるオントロジの永続的表現を管理し、かつ情報抽出エンジンによる使用に好適なフォーマットのオントロジデータのエクスポートおよびターゲットデータベースからのオントロジデータのインポートも管理するオントロジサービス40;ならびにキュレーションジョブの開始およびモニタを可能にするように適合されるコンピュータ−ユーザインターフェイスを提供するウェブ層およびキュレーションジョブを扱うためのコア機能性を封入するサービスレイヤを備えるパイプラインマネージャサービス42である。データベース永続レイヤ44は、制御ロジックを提供し、JDBCを介したHibernateオブジェクト/リレーショナル永続性とクエリサービスまたはカスタマイズされたSQLを用いて(JDBCはサンマイクロシステムズの商標である。Hibernateは、www.hibernate.orgに記載されるオープンソースプロジェクトである)リレーショナルデータベース管理システム18にデータが均一に永続するようにする。情報抽出はJMSキュー45を介して切離され、自然言語処理(NLP)パイプライン48とインターフェイスする情報抽出エンジン46によって管理される。システムの別の重要な一部は、ターゲットサービスからターゲットデータベースへ出力データをマッピングするターゲットマッピング制御モジュール50である。
使用の際、文書ファイルは、パイプラインマネージャサービスの制御下で外部ソースから検索される。図4は、情報抽出前に文書ファイルを検索しそれらをフィルタリングすることに係るステップのフロー図である。文書ファイル100は、1つ以上の遠隔のソースから検索され102、キャッシュされる104。特定のサーチクエリを満たすまたは予め定められた判断基準に従う文書ファイルが受けられ得る。たとえば、ある判断基準を満たす文書は、PubMed(www.ncbi.nlm.nih.gov/entrez/query.fcgi)から周期的に自動的に検索され得る。
図5は、その後の情報抽出手順に係るステップのフロー図である。トークン化ソフトウェアモジュール110はXMLフォーマットのキャッシュされた文書ファイルを入力として受付け、トークン化マークアップを含む修正XMLファイル112を出力する。固有表現抽出ソフトウェアモジュール114は修正XMLファイル112を入力として受け、エンティティの個別のインスタンスが認識されマークアップされた、さらに修正されたXMLファイル116を出力する。固有表現抽出ソフトウェアモジュール114は、以前トレーニングデータ118に対してトレーニングされている。固有表現抽出ソフトウェアモジュールは、固有表現抽出ソフトウェアモジュールの性能を決めるデータとして機能する複数の異なる先行ファイルを備える。精度と再現率との間の異なるバランスを与えるように修正された異なる先行ファイル115は、異なる管理人による見直しのためにデータを抽出するのに用いるために提供された。トレーニングデータ118は以下にさらに説明される。次に修正XMLファイル116は、これもオントロジデータ122を入力として取る用語正規化ソフトウェアモジュール120によって処理されて、エンティティの個別のインスタンスがオントロジデータに記憶されるエンティティの正規形への参照番号によって標識付けされた、さらに修正されたXMLファイル124を出力する。次に修正XMLファイル124は、関係抽出ソフトウェアモジュール126によって処理され、これは、文書ファイル中で識別された関係に関するデータを含む注釈付きXMLファイル128を出力する。
図6は、システムによる処理に好適な文書の例である。図7は、システムによる処理に好適なXMLファイルのタイトルおよび本文タグ内に含まれる同じ文書のXMLファイルである。テキストの本文は本文タグ内のブレーンテキストフォーマットで与えられる。図8A、図8B、図8Cおよび図8Dは、上述の手順による情報抽出後の例示的な文書に関する注釈付きXMLファイルの連続部分である。
キュレーションツールコンピュータ−ユーザインターフェイスは、アプリケーションを実行するコンピュータにJava(登録商標)アプリケーションを配信するウェブサービスコンポーネントおよびキュレーションされるべき文書に関する注釈付けされたXMLファイルによって実現される。ユーザは、コンピュータのモニタおよびキーボードおよびコンピュータマウスなどの入力周辺装置を介してインターフェイスと対話する。
「『Medline要約』コレクションからのものであり、PubMed ID456を有する文書ID123の文字オフセット100と文字オフセット200との間の、『p19』(タンパク質p19、オントロジID135)および『ADPリボシル化因子』(タンパク質Arf、オントロジID680)が相互作用すると言われている。」
このように、注釈関係データは、特定の関係を参照するテキストの断片の開始および終了場所への参照番号(『文字オフセット100』および『文字オフセット200』)、ならびに(内部文書識別子である『文書ID123』および対応の外部文書識別子である『PubMed ID456』を含む)文書識別子、ならびに文書のソース(「Medline要約」コレクション)の識別子、ならびに文書中で見出された状態(『p19』、『ADPリボシル化因子)およびその正規形(『p19』および『Arf』)の両方で関連のエンティティを示すテキストの両方を含み得る。注釈関係データはまた、エンティティの種類(『タンパク質』)、ならびにそれらのオントロジデータ内のID(『オントロジID680』および『オントロジID135』)、ならびに関係の性質の詳細(『相互作用すると言われている』)も含むことができる。
周期的に、ターゲットサービスはキュレーションされたデータをターゲットデータベースにエクスポートする。ターゲットサービスはエクスポートすべきデータを順に系統的に進め、データがターゲットデータベース内に既に見出されるか否かをチェックする。見出されない場合、ターゲットデータベースのAPIを呼出すまたはSQLインサート/アップデートを生成することにより、データがターゲットデータベース中に挿入される。データをターゲットデータベース用の適切なフォーマットに翻訳する必要があるかもしれない。ターゲットデータベースが異なるオントロジデータを有する場合、これらの参照番号を翻訳する必要がある。この手順は、1つよりも多くのターゲットデータベースに投入するため繰返し可能であるまたは並行して実行可能である。
図15は、情報抽出において用いるためのオントロジデータのフィードバックの概略図である。エンティティに関するオントロジデータ122は用語正規化のステップの際に用いられ、関係に関するオントロジデータも関係抽出のステップの際に用いられ得る。これらのステップの際に用いられるオントロジデータは、予め定められたオントロジデータ134とキュレーションプロセスの間に管理人によって追加された新たなオントロジデータ136との組合せである。このフィードバック手順は、情報抽出手順の信頼性を向上させ、費用効果を向上させ、ある状況ではシステム全体の精度を向上させる。新しいオントロジデータは、ときどき、情報抽出のために用いられるオントロジデータにバッチ式に追加可能であるか、または情報抽出のために用いられるオントロジデータに即時に追加されてもよい。
図17は、システム内のトレーニングデータのフィードバックの概略図である。固有表現抽出モジュールは、まず、その目的のために与えられ、典型的にはそれらが正しく注釈付けされることを確実にするように注意深くチェックされた注釈付き文書ファイルからなるトレーニングデータを用いてトレーニングされる。
使用の際、情報抽出手順は、利用可能な先行ファイルの中から選択された先行ファイルを用いて固有表現抽出を実行することにより、複数の動作モードのうち1つに従って機能する。固有表現抽出ソフトウェアおよび特定の先行ファイルはともに、選択可能な代替的情報抽出モジュールの群から選択される情報抽出モジュールとして機能する。
管理人の成績を表わす好適な測定基準は、その特定の管理人についてまたは全般について情報抽出パイプラインを最適化するようにモニタ可能である。情報抽出パイプラインの個別の段階を実現する代替的なモジュールを試してみるためまたは情報抽出パイプラインの個別の段階を実現するモジュールを最適化するためにこれを用いることができる。
情報抽出パイプラインはエンティティの個別の言及に関するデータを抽出し、エンティティの各々の個別の言及の文脈からそれらに識別子を割当てる。これは、特定の文字列が示すエンティティの異なるインスタンスに、文書のデジタル表現中の異なる場所で異なる識別子を割当て得るという効果を有する。時にはこれが正しいが、常にそうであるわけではない。
本明細書中に開示された発明の範囲内でさらなる変形および変更がなされ得る。
Claims (28)
- 文書のデジタル表現から自動的に抽出されたデータを見直しのために管理人に提示するコンピュータで実現される方法であって、抽出されたデータは、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備え、注釈エンティティデータは、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータを備え、方法は、
(i) ディスプレイ画面の第1の領域に、文書のデジタル表現のユーザ選択可能部分を表示するステップを備え、注釈エンティティデータによって文書のデジタル表現の表示された部分内に位置するとして特定されるエンティティの前記インスタンスは、注釈エンティティデータによって特定される場所でハイライトされ、さらに
(ii) ディスプレイ画面の第2の領域に、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストを表示するステップを備え、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、さらに
(iii) エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するステップを備える、コンピュータで実現される方法。 - 文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストは、エンティティの自動的に識別されたインスタンスを備えるか、またはそれらからなる、請求項1に記載のコンピュータで実現される方法。
- 文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストは、管理人によって見直されたエンティティの識別されたインスタンスを備えるか、またはそれらからなる、請求項1または2に記載のコンピュータで実現される方法。
- 文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストは、抽出されたデータ中で特定されなかったが管理人によって識別されたエンティティのインスタンスを備え得る、先行するいずれか1つの請求項に記載のコンピュータで実現される方法。
- エンティティの複数のインスタンスのリスト中の、エンティティの個別のインスタンスの付近から、文書のデジタル表現からのテキストのセグメントを表示するステップを備える、先行するいずれか1つの請求項に記載のコンピュータで実現される方法。
- ユーザ選択可能ユーザインターフェイス要素は、エンティティの個別のインスタンスに関するテキストのセグメント、またはエンティティの個別のインスタンスに関するテキストのセグメントの部分を備える、請求項5に記載のコンピュータで実現される方法。
- 選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するステップは、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが第1の領域の特定的な部分内に位置するように、第1の領域に表示される文書のデジタル表現の部分を調整するステップを備える、先行するいずれか1つの請求項に記載のコンピュータで実現される方法。
- 方法は、関係の識別されたインスタンスの識別された場所で、第1の領域に表示される文書のデジタル表現の部分内に位置すると識別された関係のインスタンスをハイライトするステップをさらに備え、方法は、文書のデジタル表現中で識別された関係の複数のインスタンスのリストをディスプレイ画面の第2の領域に表示するステップをさらに備え、関係の列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、さらに、関係のインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられた関係のインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するステップを備える、先行するいずれか1つの請求項に記載のコンピュータで実現される方法。
- 関係の複数のインスタンスのリストは、エンティティの複数のインスタンスのリストとは異なる時期に表示される、請求項8に記載のコンピュータで実現される方法。
- 方法は、エンティティのインスタンスに関する抽出されたデータを見直すためのコンピュータ−ユーザインターフェイス手段をユーザに提供するステップをさらに備える、先行するいずれか1つの請求項に記載のコンピュータで実現される方法。
- 方法は、エンティティのインスタンスに関する新しいまたは修正されたデータを管理人から受けるように動作可能なコンピュータ−ユーザインターフェイス手段をユーザに提供するステップをさらに備える、請求項10に記載のコンピュータで実現される方法。
- 方法は、管理人によって文書のデジタル表現内で識別されたが抽出データによっては特定されないエンティティのインスタンスに関するデータを受けるように動作可能なコンピュータ−ユーザインターフェイス手段をユーザに提供するステップをさらに備える、請求項10または11に記載のコンピュータで実現される方法。
- 情報抽出装置を用いてエンティティのインスタンスに関する注釈エンティティデータを自動的に抽出して見直し用の抽出データを準備するステップを備える、先行するいずれか1つの請求項に記載のコンピュータで実現される方法。
- 文書のデジタル表現から自動的に抽出されたデータをユーザに提示するコンピュータで実現される方法であって、自動的に抽出されたデータは、文書のデジタル表現中で自動的に識別されたエンティティのインスタンスを特定するデータを備え、エンティティのインスタンスはそれと関連付けられた1つ以上のプロパティを有し、方法は、
(i) ノード要素の群からユーザが選択したノード要素の表現を表示するステップを備え、ノード要素の群中の各々のノード要素は親ノード要素および1つ以上の子ノード要素のいずれかまたは両方を有し、さらに、分岐ツリー構造を形成するステップを備え、ノード要素の群中の少なくとも2つのノード要素は子ノード要素を有しない葉ノード要素であり、残余のノード要素は少なくとも1つの子ノード要素を有する非葉ノード要素であり、各々の表わされた非葉ノード要素は、前記表わされた非葉ノード要素の子ノード要素を表わすか否かを判断するようにユーザが選択可能であり、
(ii) 各々の葉ノード要素は、自動的に抽出されたデータによって特定されるエンティティのインスタンスと関連付けられ、各々の非葉ノード要素はエンティティのインスタンスのプロパティの値と関連付けられ、それぞれの非葉ノード要素の究極の子である各々の葉ノード要素は、プロパティの同じそれぞれの値を有するエンティティのインスタンスと関連付けられることを特徴とする、コンピュータで実現される方法。 - 葉ノード要素は、エンティティのインスタンスを表わす文字列を用いて表わされる、請求項14に記載のコンピュータで実現される方法。
- 子として非葉ノード要素を有する非葉ノード要素の少なくとも大部分については、各々の子非葉ノード要素は同じプロパティの異なる値と関連付けられる、請求項14または15に記載のコンピュータで実現される方法。
- 同じ非葉要素の子である非葉要素が異なる値を有するというプロパティは、分岐ツリー構造内の少なくとも1つの深さの各々の非葉要素について同じである、請求項14から16のいずれか1つに記載のコンピュータで実現される方法。
- 少なくともいくつかの非葉ノード要素は、その非葉ノード要素の究極の子の数に対応する数字を含む画像によって表わされる、請求項14から17のいずれか1つに記載のコンピュータで実現される方法。
- 各々の葉ノード要素は、ツリー構造の中でその上にある各々のノード要素と関連付けられるプロパティの値を有するエンティティのインスタンスと関連付けられる、請求項14から18のいずれか1つに記載のコンピュータで実現される方法。
- 少なくとも1つのプロパティは、文書のデジタル表現内のエンティティのインスタンスの場所を備える、請求項14から19のいずれか1つに記載のコンピュータで実現される方法。
- 少なくとも1つのプロパティはエンティティのインスタンスの種類である、請求項14から20のいずれか1つに記載のコンピュータで実現される方法。
- 少なくとも1つのプロパティは、エンティティのインスタンスの表層形式の正規化形式である、請求項14から21のいずれか1つに記載のコンピュータで実現される方法。
- 同じ親ノード要素の子である異なるノード要素と関連付けられた異なる値を有するプロパティは、異なる適用例について異なり得る構成パラメータによって決まる、請求項14から22のいずれか1つに記載のコンピュータで実現される方法。
- 異なるノード要素と関連付けられた異なる値を有するプロパティのうち1つ以上は、エンティティのインスタンスのキュレーションのステータスであり、方法は、葉ノード要素と関連付けられたエンティティのインスタンスのキュレーションのステータスの変化に応答して、ツリー構造中の別の場所に葉ノード要素を移動させるステップを含む、請求項14から23のいずれか1つに記載のコンピュータで実現される方法。
- 文書のデジタル表現の少なくとも一部はディスプレイの第1の領域に表示され、ユーザが選択したノード要素の表現は、請求項1から13のいずれか1つに従う方法によってディスプレイの第2の領域に表示され、葉ノード要素は、ユーザによって選択されると、それぞれの葉ノード要素が関するエンティティのインスタンスが文書のデジタル表現中でハイライトされ、および/または、ディスプレイの第1の領域中の文書のデジタル表現の少なくとも一部のビューが修正されてそれぞれの葉ノード要素が関するエンティティのインスタンスを示すようにするユーザ選択可能ユーザインターフェイス要素として表わされ、葉ノード要素は、それらが関連付けられるエンティティのインスタンスの1つ以上のリストの形式で表わされる、請求項17または18に記載のコンピュータで実現される方法。
- 先行するいずれか1つの請求項の方法を実行するように動作可能な演算装置。
- 演算装置によって実行されると、演算装置に請求項1から25のうちいずれか1つの方法を実行させるコンピュータプログラムコード。
- 請求項27に従うコンピュータプログラムコードを記憶するコンピュータ読出可能記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0720304A GB0720304D0 (en) | 2007-10-17 | 2007-10-17 | Computer-implemented methods |
GB0803073A GB0803073D0 (en) | 2008-02-20 | 2008-02-20 | Computer-implemented methods |
PCT/GB2008/050959 WO2009050521A2 (en) | 2007-10-17 | 2008-10-17 | Computer-implemented methods displaying, in a first part, a document and in a second part, a selected index of entities identified in the document |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011501847A true JP2011501847A (ja) | 2011-01-13 |
Family
ID=40567859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010529460A Ceased JP2011501847A (ja) | 2007-10-17 | 2008-10-17 | コンピュータで実現される方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8504908B2 (ja) |
EP (1) | EP2218023A2 (ja) |
JP (1) | JP2011501847A (ja) |
WO (1) | WO2009050521A2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140125361A (ko) * | 2012-01-23 | 2014-10-28 | 마이크로소프트 코포레이션 | 웹 애플리케이션에서의 협업 통신 기법 |
JP2021512393A (ja) * | 2018-02-01 | 2021-05-13 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 会話エージェント学習モデルを動的に構築して構成する方法、コンピュータ・プログラム、およびシステム |
JP7161257B1 (ja) | 2021-05-17 | 2022-10-26 | 弁理士法人Ipx | 情報処理システム、情報処理方法及びプログラム |
Families Citing this family (84)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7779347B2 (en) * | 2005-09-02 | 2010-08-17 | Fourteen40, Inc. | Systems and methods for collaboratively annotating electronic documents |
US8806325B2 (en) * | 2009-11-18 | 2014-08-12 | Apple Inc. | Mode identification for selective document content presentation |
US8555155B2 (en) * | 2010-06-04 | 2013-10-08 | Apple Inc. | Reader mode presentation of web content |
JP5573457B2 (ja) * | 2010-07-23 | 2014-08-20 | ソニー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
JP2012138027A (ja) * | 2010-12-27 | 2012-07-19 | Toshiba Corp | 情報検索システム、検索キーワード提示方法、およびプログラム |
US10185477B1 (en) | 2013-03-15 | 2019-01-22 | Narrative Science Inc. | Method and system for configuring automatic generation of narratives from data |
US9720899B1 (en) | 2011-01-07 | 2017-08-01 | Narrative Science, Inc. | Automatic generation of narratives from data using communication goals and narrative analytics |
US10657201B1 (en) | 2011-01-07 | 2020-05-19 | Narrative Science Inc. | Configurable and portable system for generating narratives |
US8977947B2 (en) | 2011-06-03 | 2015-03-10 | Apple Inc. | Method for presenting documents using a reading list panel |
US20130024459A1 (en) * | 2011-07-20 | 2013-01-24 | Microsoft Corporation | Combining Full-Text Search and Queryable Fields in the Same Data Structure |
US20130031455A1 (en) * | 2011-07-28 | 2013-01-31 | Peter Griffiths | System for Linking to Documents with Associated Annotations |
US9164990B2 (en) * | 2011-12-20 | 2015-10-20 | Sap Portals Israel Ltd | Annotating contextual workspaces |
US8892579B2 (en) * | 2012-04-26 | 2014-11-18 | Anu Pareek | Method and system of data extraction from a portable document format file |
US20140195884A1 (en) * | 2012-06-11 | 2014-07-10 | International Business Machines Corporation | System and method for automatically detecting and interactively displaying information about entities, activities, and events from multiple-modality natural language sources |
US20130332450A1 (en) * | 2012-06-11 | 2013-12-12 | International Business Machines Corporation | System and Method for Automatically Detecting and Interactively Displaying Information About Entities, Activities, and Events from Multiple-Modality Natural Language Sources |
US9471559B2 (en) * | 2012-12-10 | 2016-10-18 | International Business Machines Corporation | Deep analysis of natural language questions for question answering system |
US20140181633A1 (en) * | 2012-12-20 | 2014-06-26 | Stanley Mo | Method and apparatus for metadata directed dynamic and personal data curation |
US9244952B2 (en) | 2013-03-17 | 2016-01-26 | Alation, Inc. | Editable and searchable markup pages automatically populated through user query monitoring |
CN105378706B (zh) * | 2013-05-30 | 2018-02-06 | 朗桑有限公司 | 实体提取反馈 |
US9535902B1 (en) | 2013-06-28 | 2017-01-03 | Digital Reasoning Systems, Inc. | Systems and methods for entity resolution using attributes from structured and unstructured data |
US9348815B1 (en) * | 2013-06-28 | 2016-05-24 | Digital Reasoning Systems, Inc. | Systems and methods for construction, maintenance, and improvement of knowledge representations |
US10915222B2 (en) | 2013-07-02 | 2021-02-09 | Cerner Innovation, Inc. | Multi-disciplinary team workspace |
US9495347B2 (en) * | 2013-07-16 | 2016-11-15 | Recommind, Inc. | Systems and methods for extracting table information from documents |
US10534528B2 (en) | 2013-12-31 | 2020-01-14 | Barnes & Noble College Booksellers, Llc | Digital flash card techniques |
US9563741B2 (en) * | 2014-05-16 | 2017-02-07 | Battelle Memorial Institute | Constructing custom knowledgebases and sequence datasets with publications |
US9311301B1 (en) | 2014-06-27 | 2016-04-12 | Digital Reasoning Systems, Inc. | Systems and methods for large scale global entity resolution |
US9927963B2 (en) * | 2014-07-17 | 2018-03-27 | Barnes & Noble College Booksellers, Llc | Digital flash cards including links to digital content |
US11120210B2 (en) | 2014-07-18 | 2021-09-14 | Microsoft Technology Licensing, Llc | Entity recognition for enhanced document productivity |
US20160048542A1 (en) | 2014-08-14 | 2016-02-18 | Tamr, Inc. | Data curation system with version control for workflow states and provenance |
RU2014134291A (ru) * | 2014-08-21 | 2016-03-20 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способы и системы классификации и структурирования документов |
US10747823B1 (en) | 2014-10-22 | 2020-08-18 | Narrative Science Inc. | Interactive and conversational data exploration |
US11475076B2 (en) | 2014-10-22 | 2022-10-18 | Narrative Science Inc. | Interactive and conversational data exploration |
US11922344B2 (en) | 2014-10-22 | 2024-03-05 | Narrative Science Llc | Automatic generation of narratives from data using communication goals and narrative analytics |
US11238090B1 (en) | 2015-11-02 | 2022-02-01 | Narrative Science Inc. | Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from visualization data |
US20160162569A1 (en) * | 2014-12-09 | 2016-06-09 | Idibon, Inc. | Methods and systems for improving machine learning performance |
US10102275B2 (en) | 2015-05-27 | 2018-10-16 | International Business Machines Corporation | User interface for a query answering system |
CN105138631B (zh) * | 2015-08-20 | 2019-10-11 | 小米科技有限责任公司 | 知识库的构建方法及装置 |
US11232268B1 (en) | 2015-11-02 | 2022-01-25 | Narrative Science Inc. | Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from line charts |
US11188588B1 (en) | 2015-11-02 | 2021-11-30 | Narrative Science Inc. | Applied artificial intelligence technology for using narrative analytics to interactively generate narratives from visualization data |
US11222184B1 (en) | 2015-11-02 | 2022-01-11 | Narrative Science Inc. | Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from bar charts |
US11120342B2 (en) | 2015-11-10 | 2021-09-14 | Ricoh Company, Ltd. | Electronic meeting intelligence |
US10146858B2 (en) | 2015-12-11 | 2018-12-04 | International Business Machines Corporation | Discrepancy handler for document ingestion into a corpus for a cognitive computing system |
US10176250B2 (en) * | 2016-01-12 | 2019-01-08 | International Business Machines Corporation | Automated curation of documents in a corpus for a cognitive computing system |
US9842161B2 (en) | 2016-01-12 | 2017-12-12 | International Business Machines Corporation | Discrepancy curator for documents in a corpus of a cognitive computing system |
US10078632B2 (en) * | 2016-03-12 | 2018-09-18 | International Business Machines Corporation | Collecting training data using anomaly detection |
JP2017167433A (ja) * | 2016-03-17 | 2017-09-21 | 株式会社東芝 | サマリ生成装置、サマリ生成方法及びサマリ生成プログラム |
US10853583B1 (en) | 2016-08-31 | 2020-12-01 | Narrative Science Inc. | Applied artificial intelligence technology for selective control over narrative generation from visualizations of data |
US11307735B2 (en) | 2016-10-11 | 2022-04-19 | Ricoh Company, Ltd. | Creating agendas for electronic meetings using artificial intelligence |
US10860985B2 (en) | 2016-10-11 | 2020-12-08 | Ricoh Company, Ltd. | Post-meeting processing using artificial intelligence |
KR102630668B1 (ko) * | 2016-12-06 | 2024-01-30 | 한국전자통신연구원 | 입력 텍스트를 자동으로 확장하는 시스템 및 방법 |
US10679008B2 (en) * | 2016-12-16 | 2020-06-09 | Microsoft Technology Licensing, Llc | Knowledge base for analysis of text |
US10572606B1 (en) | 2017-02-17 | 2020-02-25 | Narrative Science Inc. | Applied artificial intelligence technology for runtime computation of story outlines to support natural language generation (NLG) |
US10860637B2 (en) * | 2017-03-23 | 2020-12-08 | International Business Machines Corporation | System and method for rapid annotation of media artifacts with relationship-level semantic content |
US10540444B2 (en) * | 2017-06-20 | 2020-01-21 | The Boeing Company | Text mining a dataset of electronic documents to discover terms of interest |
US11062271B2 (en) | 2017-10-09 | 2021-07-13 | Ricoh Company, Ltd. | Interactive whiteboard appliances with learning capabilities |
US11030585B2 (en) | 2017-10-09 | 2021-06-08 | Ricoh Company, Ltd. | Person detection, person identification and meeting start for interactive whiteboard appliances |
US10846341B2 (en) | 2017-10-13 | 2020-11-24 | Kpmg Llp | System and method for analysis of structured and unstructured data |
US11907299B2 (en) | 2017-10-13 | 2024-02-20 | Kpmg Llp | System and method for implementing a securities analyzer |
US11321364B2 (en) | 2017-10-13 | 2022-05-03 | Kpmg Llp | System and method for analysis and determination of relationships from a variety of data sources |
US11042709B1 (en) | 2018-01-02 | 2021-06-22 | Narrative Science Inc. | Context saliency-based deictic parser for natural language processing |
US11561986B1 (en) | 2018-01-17 | 2023-01-24 | Narrative Science Inc. | Applied artificial intelligence technology for narrative generation using an invocable analysis service |
US11030408B1 (en) | 2018-02-19 | 2021-06-08 | Narrative Science Inc. | Applied artificial intelligence technology for conversational inferencing using named entity reduction |
US10757148B2 (en) | 2018-03-02 | 2020-08-25 | Ricoh Company, Ltd. | Conducting electronic meetings over computer networks using interactive whiteboard appliances and mobile devices |
US11194967B2 (en) * | 2018-03-15 | 2021-12-07 | International Business Machines Corporation | Unsupervised on-the-fly named entity resolution in dynamic corpora |
US10762142B2 (en) | 2018-03-16 | 2020-09-01 | Open Text Holdings, Inc. | User-defined automated document feature extraction and optimization |
US11048762B2 (en) | 2018-03-16 | 2021-06-29 | Open Text Holdings, Inc. | User-defined automated document feature modeling, extraction and optimization |
US11042713B1 (en) * | 2018-06-28 | 2021-06-22 | Narrative Scienc Inc. | Applied artificial intelligence technology for using natural language processing to train a natural language generation system |
EP3660699A1 (en) * | 2018-11-29 | 2020-06-03 | Tata Consultancy Services Limited | Method and system to extract domain concepts to create domain dictionaries and ontologies |
JP7330691B2 (ja) * | 2018-12-12 | 2023-08-22 | 株式会社日立製作所 | 語彙抽出支援システムおよび語彙抽出支援方法 |
US11610277B2 (en) | 2019-01-25 | 2023-03-21 | Open Text Holdings, Inc. | Seamless electronic discovery system with an enterprise data portal |
US10990767B1 (en) | 2019-01-28 | 2021-04-27 | Narrative Science Inc. | Applied artificial intelligence technology for adaptive natural language understanding |
US11144579B2 (en) * | 2019-02-11 | 2021-10-12 | International Business Machines Corporation | Use of machine learning to characterize reference relationship applied over a citation graph |
JP7358748B2 (ja) * | 2019-03-01 | 2023-10-11 | 富士通株式会社 | 学習方法、抽出方法、学習プログラムおよび情報処理装置 |
US11281685B1 (en) * | 2019-03-12 | 2022-03-22 | Pet Hospital Solutions, LLC | Modular communication middleware for data retrieval and presentation |
US11080466B2 (en) | 2019-03-15 | 2021-08-03 | Ricoh Company, Ltd. | Updating existing content suggestion to include suggestions from recorded media using artificial intelligence |
US11720741B2 (en) | 2019-03-15 | 2023-08-08 | Ricoh Company, Ltd. | Artificial intelligence assisted review of electronic documents |
US11270060B2 (en) | 2019-03-15 | 2022-03-08 | Ricoh Company, Ltd. | Generating suggested document edits from recorded media using artificial intelligence |
US11573993B2 (en) | 2019-03-15 | 2023-02-07 | Ricoh Company, Ltd. | Generating a meeting review document that includes links to the one or more documents reviewed |
US11263384B2 (en) | 2019-03-15 | 2022-03-01 | Ricoh Company, Ltd. | Generating document edit requests for electronic documents managed by a third-party document management service using artificial intelligence |
US11392754B2 (en) * | 2019-03-15 | 2022-07-19 | Ricoh Company, Ltd. | Artificial intelligence assisted review of physical documents |
TWI697851B (zh) * | 2019-05-03 | 2020-07-01 | 宏碁股份有限公司 | 電子裝置與模型更新方法 |
US11514897B2 (en) * | 2020-09-25 | 2022-11-29 | Genesys Telecommunications Laboratories, Inc. | Systems and methods relating to bot authoring by mining intents from natural language conversations |
US11868727B2 (en) * | 2021-01-20 | 2024-01-09 | Oracle International Corporation | Context tag integration with named entity recognition models |
CN115146622B (zh) * | 2022-07-21 | 2023-05-05 | 平安科技(深圳)有限公司 | 数据标注纠错方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08255163A (ja) * | 1995-03-16 | 1996-10-01 | Fuji Xerox Co Ltd | 文書検索装置 |
JPH11213011A (ja) * | 1997-12-22 | 1999-08-06 | Ricoh Co Ltd | コンピュータで実施する電子的に記憶された文書の注釈方法およびコンピュータプログラム製品およびコンピュータシステム |
US20060143559A1 (en) * | 2001-03-09 | 2006-06-29 | Copernicus Investments, Llc | Method and apparatus for annotating a line-based document |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2088106B (en) * | 1980-10-07 | 1983-11-30 | Marconi Co Ltd | Word processor systems |
CA2048039A1 (en) * | 1991-07-19 | 1993-01-20 | Steven Derose | Data processing system and method for generating a representation for and random access rendering of electronic documents |
US7082426B2 (en) * | 1993-06-18 | 2006-07-25 | Cnet Networks, Inc. | Content aggregation method and apparatus for an on-line product catalog |
US5838313A (en) * | 1995-11-20 | 1998-11-17 | Siemens Corporate Research, Inc. | Multimedia-based reporting system with recording and playback of dynamic annotation |
US5745113A (en) * | 1996-04-03 | 1998-04-28 | Institute For Research On Learning | Representing work practices |
US6711585B1 (en) * | 1999-06-15 | 2004-03-23 | Kanisa Inc. | System and method for implementing a knowledge management system |
WO2002008948A2 (en) * | 2000-07-24 | 2002-01-31 | Vivcom, Inc. | System and method for indexing, searching, identifying, and editing portions of electronic multimedia files |
US7454708B2 (en) * | 2001-05-25 | 2008-11-18 | Learning Tree International | System and method for electronic presentations with annotation of preview material |
EP1410258A4 (en) * | 2001-06-22 | 2007-07-11 | Inc Nervana | SYSTEM AND METHOD FOR RECALLING, MANAGING, DELIVERING AND PRESENTING KNOWLEDGE |
US20040153445A1 (en) * | 2003-02-04 | 2004-08-05 | Horvitz Eric J. | Systems and methods for constructing and using models of memorability in computing and communications applications |
US20040261016A1 (en) * | 2003-06-20 | 2004-12-23 | Miavia, Inc. | System and method for associating structured and manually selected annotations with electronic document contents |
WO2005017692A2 (en) | 2003-08-12 | 2005-02-24 | Cognia Corporation | An advanced databasing system for chemical, molecular and cellular biology |
US7502812B2 (en) * | 2003-08-21 | 2009-03-10 | Microsoft Corporation | Electronic ink processing |
US7707039B2 (en) * | 2004-02-15 | 2010-04-27 | Exbiblio B.V. | Automatic modification of web pages |
US8521737B2 (en) * | 2004-10-01 | 2013-08-27 | Ricoh Co., Ltd. | Method and system for multi-tier image matching in a mixed media environment |
US9405751B2 (en) * | 2005-08-23 | 2016-08-02 | Ricoh Co., Ltd. | Database for mixed media document system |
US20070192140A1 (en) * | 2005-08-17 | 2007-08-16 | Medcommons, Inc. | Systems and methods for extending an information standard through compatible online access |
US7810021B2 (en) * | 2006-02-24 | 2010-10-05 | Paxson Dana W | Apparatus and method for creating literary macramés |
WO2007116204A1 (en) | 2006-04-11 | 2007-10-18 | Iti Scotland Limited | Information extraction methods and apparatus including a computer-user interface |
US20080065685A1 (en) * | 2006-08-04 | 2008-03-13 | Metacarta, Inc. | Systems and methods for presenting results of geographic text searches |
CN101110073A (zh) * | 2006-07-20 | 2008-01-23 | 朗迅科技公司 | 用于对网络web页面内容加亮并添加注释的方法和系统 |
-
2008
- 2008-10-17 WO PCT/GB2008/050959 patent/WO2009050521A2/en active Application Filing
- 2008-10-17 EP EP08806773A patent/EP2218023A2/en not_active Withdrawn
- 2008-10-17 JP JP2010529460A patent/JP2011501847A/ja not_active Ceased
- 2008-10-17 US US12/738,751 patent/US8504908B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08255163A (ja) * | 1995-03-16 | 1996-10-01 | Fuji Xerox Co Ltd | 文書検索装置 |
JPH11213011A (ja) * | 1997-12-22 | 1999-08-06 | Ricoh Co Ltd | コンピュータで実施する電子的に記憶された文書の注釈方法およびコンピュータプログラム製品およびコンピュータシステム |
US20060143559A1 (en) * | 2001-03-09 | 2006-06-29 | Copernicus Investments, Llc | Method and apparatus for annotating a line-based document |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140125361A (ko) * | 2012-01-23 | 2014-10-28 | 마이크로소프트 코포레이션 | 웹 애플리케이션에서의 협업 통신 기법 |
US10528653B2 (en) | 2012-01-23 | 2020-01-07 | Microsoft Technology Licensing, Llc | Collaborative communication in a web application |
KR102122104B1 (ko) * | 2012-01-23 | 2020-06-11 | 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 | 웹 애플리케이션에서의 협업 통신 기법 |
JP2021512393A (ja) * | 2018-02-01 | 2021-05-13 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 会話エージェント学習モデルを動的に構築して構成する方法、コンピュータ・プログラム、およびシステム |
JP7263370B2 (ja) | 2018-02-01 | 2023-04-24 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 会話エージェント学習モデルを動的に構築して構成する方法、コンピュータ・プログラム、およびシステム |
US11886823B2 (en) | 2018-02-01 | 2024-01-30 | International Business Machines Corporation | Dynamically constructing and configuring a conversational agent learning model |
JP7161257B1 (ja) | 2021-05-17 | 2022-10-26 | 弁理士法人Ipx | 情報処理システム、情報処理方法及びプログラム |
JP2022176877A (ja) * | 2021-05-17 | 2022-11-30 | 弁理士法人Ipx | 情報処理システム、情報処理方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP2218023A2 (en) | 2010-08-18 |
US8504908B2 (en) | 2013-08-06 |
WO2009050521A3 (en) | 2009-07-02 |
WO2009050521A2 (en) | 2009-04-23 |
US20120011428A1 (en) | 2012-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8504908B2 (en) | Computer-implemented methods displaying, in a first part, a document and in a second part, a selected index of entities identified in the document | |
US8495042B2 (en) | Information extraction apparatus and methods | |
US20110022941A1 (en) | Information Extraction Methods and Apparatus Including a Computer-User Interface | |
US10204168B2 (en) | Systems and methods for automatically identifying and linking names in digital resources | |
US8370352B2 (en) | Contextual searching of electronic records and visual rule construction | |
CN114616572A (zh) | 跨文档智能写作和处理助手 | |
Wang et al. | Disambiguating the species of biomedical named entities using natural language parsers | |
US20100169299A1 (en) | Method and system for information extraction and modeling | |
US20110320459A1 (en) | Term identification method and apparatus | |
Abulaish et al. | A concept-driven biomedical knowledge extraction and visualization framework for conceptualization of text corpora | |
Ozyurt et al. | Resource disambiguator for the web: extracting biomedical resources and their citations from the scientific literature | |
Moreno et al. | Ontology-based information extraction of regulatory networks from scientific articles with case studies for Escherichia coli | |
Scharpf et al. | Mathematics in wikidata | |
de la Calle et al. | BIRI: a new approach for automatically discovering and indexing available public bioinformatics resources from the literature | |
Feinerer | A text mining framework in R and its applications | |
Higuchi | KH Coder 2. x reference manual | |
Feldman et al. | Mining biomedical literature using information extraction | |
Uçar et al. | A novel algorithm for extracting the user reviews from web pages | |
JP2007226843A (ja) | 文書管理システム及び文書管理方法 | |
Lv et al. | MEIM: a multi-source software knowledge entity extraction integration model | |
Dahlquist | Using Gen MAPP and MAPPFinder to View Microarray Data on Biological Pathways and Identify Global Trends in the Data | |
Lama | Clustering system based on text mining using the K-means algorithm: news headlines clustering | |
Berggrav | Enhanced biomedical data extraction from scientific publications | |
Yilmaz et al. | Snippet Generation Using Local Alignment for Information Retrieval (LAIR) | |
Qiao et al. | From Text-based Genome, Population Variations, and Transcriptome Datafiles to SQLite Database and Web Application: A Bioinformatical Study on Alfalfa |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111007 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121005 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130108 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130405 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130412 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130417 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130514 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130712 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130924 |
|
A045 | Written measure of dismissal of application [lapsed due to lack of payment] |
Free format text: JAPANESE INTERMEDIATE CODE: A045 Effective date: 20140128 |