JP2011513810A - 用語識別方法および装置 - Google Patents
用語識別方法および装置 Download PDFInfo
- Publication number
- JP2011513810A JP2011513810A JP2010547260A JP2010547260A JP2011513810A JP 2011513810 A JP2011513810 A JP 2011513810A JP 2010547260 A JP2010547260 A JP 2010547260A JP 2010547260 A JP2010547260 A JP 2010547260A JP 2011513810 A JP2011513810 A JP 2011513810A
- Authority
- JP
- Japan
- Prior art keywords
- entity
- entry
- identifier
- user
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- User Interface Of Digital Computer (AREA)
- Input From Keyboards Or The Like (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
本発明は、テキスト文書におけるエンティティの言及(mention)に識別子を割当てる人間の管理者を支援するための方法および装置に関する。
用語識別(Term identification)は、識別子をデータの本体中の用語に割当てる処理であり、本発明は、テキスト文書におけるエンティティの言及に識別子を割当てるための用語識別方法に関する。本発明は、生物医学におけるエンティティの言及に識別子を割当てる分野からの例によって示されるが、他の領域の知識に関するテキスト文書の分析にも等しく適用可能である。
WO05/017692(コグニアコーポレーション(Cognia Corporation))は、人間の管理者が生物医学テキスト文書を読み、生物医学テキスト文書と関係する生物学的エンティティに識別子を割り当て、識別子および他の注釈がオントロジへの参照によって標準化されたことを保証するコンピュータユーザインターフェースからの支援を伴うシステムを開示する。その結果得られる識別データは、多数の科学的アプリケーションとともに、クエリ可能な(queriable)データベースに含まれる。この手続きは、熟練の人間の管理者の入力から恩恵を受けるものの、管理人によって費やされなければならない時間が相当あり、それは、この手続きのコスト効率を制限する。
本発明の第1の局面に従うと、文書中のエンティティの言及に識別子を割当てる方法が提供される。その方法は、ディスプレイと1以上のユーザ操作可能な入力デバイスとを含むコンピュータ装置によって実行される以下のステップを備える:
(i)文書中のエンティティの言及に関して、用語識別モジュールから、エンティティの言及の複数の候補識別子を受けるステップであって、各候補識別子は、どのエンティティ特性データが1以上のエンティティデータベースに記憶されているかに関する、エンティティへの参照である、複数の候補識別子を受けるステップ;
(ii)ディスプレイの第1の領域に、複数のユーザ選択可能なエントリを有するリストを表示するステップであって、リスト中の各エントリは、前記複数の候補識別子の1つによって参照されるエンティティに関し、各エントリは、それぞれのエンティティの特性を備え、前記特性の少なくとも1つは、前記1以上のエンティティデータベースから読み出される、表示するステップ;
(iii)リスト中のエントリのユーザによる選択に応じて、ディスプレイの第2の領域に、選択されたエントリに関するエンティティの付加的特性を表示するステップであって、付加的特性は、少なくとも一部において、1以上の前記データベースから検索される、付加的特性を表示するステップ;および
(iv)リストエントリに関する選択されたエンティティに関する、ユーザから受けた識別子割当命令に応じて、選択されたエンティティの識別子を、エンティティの言及の識別子として割当てるステップ。
好ましくは、方法は、ユーザの選択に応答して、1以上のユーザ選択可能な基準を満たす、リストエントリが提供されることに関するエンティティを制限することを含む。したがって、方法は、好ましくは、ユーザが特定する1以上の基準を特定するために、ユーザによって選択可能な、ユーザ選択可能なユーザインターフェイス要素を表示することを含む。ユーザ選択可能なユーザインターフェイス要素は、好ましくは、たとえばドロップダウンメニューのようなメニューにおいて、エンティティの1以上のユーザ選択可能な特性を表示する。方法は、選択された特性を有するエンティティにリストエントリが与えられることに関連してエンティティを制限することを備えてもよい。
図1を参照して、コンピュータ装置は、クライアントコンピュータ2と、ネットワーク6を介して接続されるサーバ4とを備える。サーバは、生物医学論文のテキスト文書のようなテキスト文書から情報の抽出を実行して、人間の管理者への提示のために、分析された文書およびエンティティの候補識別子をクライアントコンピュータへ送信する。
情報抽出を実行し、エンティティの個別の言及に関する候補識別子のグループを準備するために適したコンピュータソフトウェアが図5を参照して説明される。図5は、情報抽出手順に含まれるステップのフロー図である。トークン化ソフトウェアモジュール200はXMLフォーマットのキャッシュされた文書ファイルを入力として受付け、トークン化マークアップを含む修正XMLファイル202を出力する。固有エンティティ認識ソフトウェアモジュール204は修正XMLファイル112を入力として受け、エンティティの個別の言及が認識されマークアップされた、さらに修正されたXMLファイル116を出力する。固有エンティティ認識ソフトウェアモジュールは、以前トレーニングデータ208に対してトレーニングされている。固有エンティティ認識ソフトウェアモジュールは、複数の異なる先行ファイルを備える。修正XMLファイルは、これもオントロジデータ212を入力として取る用語識別ソフトウェアモジュール210によって処理されて、エンティティの個別の言及が、10から20の候補識別子のグループへの参照によって標識付けされた、さらに修正されたXMLファイル214を出力する。次に修正XMLファイル124は、関係抽出ソフトウェアモジュール126によって処理され、これは、文書ファイル中で識別された関係に関するデータを含む注釈付きXMLファイル128を出力する。各候補識別子は、オントロジデータに記憶されたエンティティへの参照であり、候補識別子のグループは、複数の候補識別子として機能する。エンティティの各個別の言及の候補識別子のグループに加え、用語識別ソフトウェアモジュールは、それぞれの候補識別子が、エンティティのその言及が表現する正しいエンティティと考えられるものを参照する、計算された確率に関するパラメータを出力する。エンティティの各個別の言及の候補識別子のグループに加え、修正出力XMLファイル216はまた、テキスト文書において少なくとも一度、固有のエンティティを表現するとして識別されたあらゆる文字列に関し、潜在的に、それぞれの文字列によって表わされると用語識別ソフトウェアモジュールが考える、数百のエンティティの識別子のリストを含む。
Claims (16)
- 文書中のエンティティの言及に識別子を割当てる方法であって、前記方法は、ディスプレイと1以上のユーザ操作可能な入力デバイスとを含むコンピュータ装置によって実行される以下のステップ:
(i)文書中のエンティティの言及に関して、用語識別モジュールから、エンティティの前記言及の複数の候補識別子を受けるステップであって、各候補識別子は、どのエンティティ特性データが1以上のエンティティデータベースに記憶されているかに関するエンティティへの参照である、前記複数の候補識別子を受けるステップ、
(ii)ディスプレイの第1の領域に、複数のユーザ選択可能なエントリを有するリストを表示するステップであって、前記リスト中の各エントリは、前記複数の候補識別子の1つによって参照されるエンティティに関し、各エントリは、それぞれのエンティティの特性を備え、前記特性の少なくとも1つは、前記1以上のエンティティデータベースから検索される、前記リストを表示するステップ、
(iii)前記リスト中のエントリのユーザによる選択に応じて、前記ディスプレイの第2の領域に、前記選択されたエントリに関する前記エンティティの付加的特性を表示するステップであって、前記付加的特性は、少なくとも一部において、前記1以上の前記データベースから読み出される、前記付加的特性を表示するステップ、および
(iv)リストエントリに関する選択されたエンティティに関する、ユーザから受けた識別子割当命令に応じて、前記選択されたエンティティの識別子を、前記エンティティの言及の識別子として割当てるステップ、
を備える、方法。 - 確率パラメータが、前記複数の候補識別子の各々に関する前記用語識別モジュールから受信されて、前記確率パラメータは、前記候補識別子が参照するエンティティが、エンティティの前記言及によって示されるエンティティである確率に関し、
前記リストを表示するステップは、
エントリに関する候補識別子の前記確率パラメータに従うエントリを指示するため、または、各エントリに関する前記候補識別子の前記確率パラメータに関する視覚的指示を与えるために、各エントリに関する前記候補識別子の前記確率パラメータを考慮することを含む、請求項1に記載の方法。 - 前記ディスプレイの前記第2の領域は、前記用語識別モジュールが、エンティティの言及の望ましい識別子に最もふさわしいと決定した前記エンティティの付加的特性を最初に表示する、請求項2に記載の方法。
- 前記リスト中の各エントリが備える少なくとも1つの特性は、前記エントリに関する前記エントリの識別子である、先行する請求項のいずれか1項に記載の方法。
- 前記ディスプレイの前記第1の領域に表示される前記特性は、情報が前記1以上のデータベースに記憶されることに関する、特性のより大きなグループから、表示のための特性の選択を可能にするために、編集可能な構成パラメータによって決定される、先行する請求項のいずれか1項に記載の方法。
- 前記方法は、ユーザの選択に応答して、1以上のユーザ選択可能な基準を満たす、リストエントリが提供されることに関する前記エンティティを制限することを含む、先行する請求項のいずれか1項に記載の方法。
- 前記方法は、前記ユーザが特定する1以上の基準を特定するために、ユーザによって選択可能な、ユーザ選択可能なユーザインターフェイス要素を表示することを含む、請求項6に記載の方法。
- 前記ユーザ選択可能なユーザインターフェイス要素は、たとえば、ドロップダウンメニューのようなメニューにおいて、エンティティの1以上のユーザ選択可能な特性を表示し、前記方法は、前記選択された特性を有するエンティティにリストエントリが与えられることに関する前記エンティティを制限する、請求項7に記載の方法。
- 前記方法は、現在選択されたエントリに関するエンティティと共通した特性を有するところにリストエントリが表示されることに関する前記エンティティを制限するために選択可能な、ユーザ選択可能なユーザインターフェイス要素を提供することを含む、請求項6から8のいずれか1項に記載の方法。
- テキスト文書を受けるステップと、前記文書内のエンティティの1以上の言及の前記複数の候補識別子を決定するために、用語識別モジュールを用いて、前記文書を分析するステップとを含む、先行する請求項のいずれか1項に記載の方法。
- 識別子割当命令が受信されることに関する前記選択されたエンティティは、前記選択されたリストエントリに関する前記エンティティである、先行する請求項のいずれか1項に記載の方法。
- 前記テキスト文書は、生物医学的テキスト文書であり、前記エンティティは、1以上のタンパク質と、ポリ核酸と、巨大分子構造と、複合体と、生物と、細胞小器官とを含む、先行する請求項のいずれか1項に記載の方法。
- 前記エンティティの前記言及の識別子として割当てられる前記識別子は、前記選択されたエンティティを参照する前記候補識別子である、先行する請求項のいずれか1項に記載の方法。
- ディスプレイと、先行する請求項のいずれか1項の方法を実行するようにコンピュータ装置が動作可能である1以上の入力デバイスとを備える、コンピュータ装置。
- ディスプレイと1以上のユーザ入力デバイスとを有するコンピュータ装置で実行されるときに、前記コンピュータ装置に請求項1から14のいずれか1項に記載の方法を実行させる、コンピュータプログラムコード。
- 請求項15に記載のプログラムコードを記憶する、コンピュータ読取可能な担体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0803075A GB0803075D0 (en) | 2008-02-20 | 2008-02-20 | Term identification methods and apparatus |
GB0819075A GB0819075D0 (en) | 2008-10-17 | 2008-10-17 | Term identification methods and apparatus |
PCT/GB2009/050173 WO2009104023A2 (en) | 2008-02-20 | 2009-02-20 | Term identification methods and apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011513810A true JP2011513810A (ja) | 2011-04-28 |
Family
ID=40974508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010547260A Pending JP2011513810A (ja) | 2008-02-20 | 2009-02-20 | 用語識別方法および装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20110320459A1 (ja) |
EP (1) | EP2255303A2 (ja) |
JP (1) | JP2011513810A (ja) |
WO (1) | WO2009104023A2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10176188B2 (en) * | 2012-01-31 | 2019-01-08 | Tata Consultancy Services Limited | Automated dictionary creation for scientific terms |
US20150019537A1 (en) | 2012-09-07 | 2015-01-15 | Splunk Inc. | Generating Reports from Unstructured Data |
US8788525B2 (en) | 2012-09-07 | 2014-07-22 | Splunk Inc. | Data model for machine data for semantic search |
US9582585B2 (en) * | 2012-09-07 | 2017-02-28 | Splunk Inc. | Discovering fields to filter data returned in response to a search |
US11120210B2 (en) | 2014-07-18 | 2021-09-14 | Microsoft Technology Licensing, Llc | Entity recognition for enhanced document productivity |
US10698937B2 (en) | 2017-12-13 | 2020-06-30 | Microsoft Technology Licensing, Llc | Split mapping for dynamic rendering and maintaining consistency of data processed by applications |
US11144337B2 (en) * | 2018-11-06 | 2021-10-12 | International Business Machines Corporation | Implementing interface for rapid ground truth binning |
EP4058903A4 (en) * | 2019-11-15 | 2023-11-08 | Tellic LLC | TECHNOLOGIES FOR LINKING TERMS AND ONTOLOGICAL CONCEPTS |
US11227183B1 (en) * | 2020-08-31 | 2022-01-18 | Accenture Global Solutions Limited | Section segmentation based information retrieval with entity expansion |
CN116724305A (zh) * | 2021-01-20 | 2023-09-08 | 甲骨文国际公司 | 上下文标签与命名实体识别模型的集成 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0922414A (ja) * | 1995-07-06 | 1997-01-21 | Hitachi Ltd | 文書分類支援方法および装置 |
JP2005182133A (ja) * | 2003-12-16 | 2005-07-07 | Canon Inc | 文書分類装置および文書分類方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110022941A1 (en) * | 2006-04-11 | 2011-01-27 | Brian Osborne | Information Extraction Methods and Apparatus Including a Computer-User Interface |
-
2009
- 2009-02-20 US US12/735,851 patent/US20110320459A1/en not_active Abandoned
- 2009-02-20 WO PCT/GB2009/050173 patent/WO2009104023A2/en active Application Filing
- 2009-02-20 EP EP09712003A patent/EP2255303A2/en not_active Withdrawn
- 2009-02-20 JP JP2010547260A patent/JP2011513810A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0922414A (ja) * | 1995-07-06 | 1997-01-21 | Hitachi Ltd | 文書分類支援方法および装置 |
JP2005182133A (ja) * | 2003-12-16 | 2005-07-07 | Canon Inc | 文書分類装置および文書分類方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2009104023A3 (en) | 2009-10-29 |
EP2255303A2 (en) | 2010-12-01 |
US20110320459A1 (en) | 2011-12-29 |
WO2009104023A2 (en) | 2009-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8495042B2 (en) | Information extraction apparatus and methods | |
US8504908B2 (en) | Computer-implemented methods displaying, in a first part, a document and in a second part, a selected index of entities identified in the document | |
JP2011513810A (ja) | 用語識別方法および装置 | |
Higuchi | KH Coder 3 reference manual | |
Ananiadou et al. | Text mining for biology and biomedicine | |
US20110022941A1 (en) | Information Extraction Methods and Apparatus Including a Computer-User Interface | |
Campos et al. | A modular framework for biomedical concept recognition | |
Karamanis et al. | Integrating natural language processing with FlyBase curation | |
US20050203889A1 (en) | System and computer software program for visibly processing an observed information's relationship with knowledge accumulations | |
KR20220060699A (ko) | 논문의 요약과 본문 매칭에 기반한 학술 정보 제공 방법 및 장치 | |
Fu et al. | Supporting the annotation of chronic obstructive pulmonary disease (COPD) phenotypes with text mining workflows | |
López-Escobedo et al. | Analysis of intertextual distances using multidimensional scaling in the context of authorship attribution | |
Higuchi | KH Coder 2. x reference manual | |
Bagga et al. | HATHI 1M: Introducing a million page historical prose dataset in English from the Hathi Trust | |
JPH1153394A (ja) | 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 | |
Uçar et al. | A novel algorithm for extracting the user reviews from web pages | |
JPH1145289A (ja) | 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 | |
JP5269399B2 (ja) | 構造化文書検索装置、方法およびプログラム | |
JP2021064143A (ja) | 文作成装置、文作成方法および文作成プログラム | |
JP2012226768A (ja) | 技術動向情報作成装置 | |
JP2000194725A (ja) | 類似グル―プ抽出装置、及び類似グル―プ抽出プログラムが記憶された記憶媒体 | |
Teixeira Lopes et al. | Assisting health consumers while searching the web through medical annotations | |
JP4877930B2 (ja) | 文書処理装置及び文書処理方法 | |
Lama | Clustering system based on text mining using the K-means algorithm: news headlines clustering | |
JP4169618B2 (ja) | テキスト情報管理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130604 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130903 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130910 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20131217 |