JP6829559B2 - 固有表現抽出用ドキュメント専用地名辞典 - Google Patents

固有表現抽出用ドキュメント専用地名辞典 Download PDF

Info

Publication number
JP6829559B2
JP6829559B2 JP2016158512A JP2016158512A JP6829559B2 JP 6829559 B2 JP6829559 B2 JP 6829559B2 JP 2016158512 A JP2016158512 A JP 2016158512A JP 2016158512 A JP2016158512 A JP 2016158512A JP 6829559 B2 JP6829559 B2 JP 6829559B2
Authority
JP
Japan
Prior art keywords
document
entity
token
features
place name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016158512A
Other languages
English (en)
Other versions
JP2017045453A (ja
Inventor
ウィリアム・ラドフォード
ザビエル・カレラス
ジェームス・ブリントン・ヘンダーソン
Original Assignee
コンデュエント ビジネス サービシーズ エルエルシー
コンデュエント ビジネス サービシーズ エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コンデュエント ビジネス サービシーズ エルエルシー, コンデュエント ビジネス サービシーズ エルエルシー filed Critical コンデュエント ビジネス サービシーズ エルエルシー
Publication of JP2017045453A publication Critical patent/JP2017045453A/ja
Application granted granted Critical
Publication of JP6829559B2 publication Critical patent/JP6829559B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

この例示的な実施形態は、固有表現抽出に関し、ドキュメントレベルの実体名およびタグの型を使用するシステムおよび方法において特定の用途を発見する。
固有表現抽出(NER)では、通常、テキスト内の名前(1つ以上の単語)を特定し、それらの名前を型に割り当てる(例えば、人、場所、組織)。最先端の監視アプローチでは、統計的モデルが用いられており、これらのモデルでは、名前の形態、その言語的脈絡、およびその互換性を既知の名前に組み込んでいる。これらのモデルは、通常、監視される機械学習を用いて訓練され、テキストの大集合に依存し、各名前には手作業で注釈が付けられ、単語スパンおよび名前付きの実体型を指定する。このプロセスは、モデルを訓練する上で有用であるが、手作業のため時間がかかり、かつ、ドキュメント内の名前の出現を全て示すラベルを提供するにはコストがかかりすぎる。
地名辞典とは、外部情報源から掘り出された特定の型を有する名前の大きなリストであり、例として、Wikipedia、マッピングデータ、または人口調査などが挙げられる。一般的な使用法は、ある単語が既知の名前の一部かどうかの、NERモデル用の2項素性を生成することである。例えば、Bobは、人名の大きなリストに現われるため、wentよりも名前である可能性が最も高い。地名辞典内の名前は、NERのタスク内で適用されている型構成と同じ型構成で分類される必要はない(例えば、この型は単純に人の大きなリストでよい)。地名辞典を使用する目的は、NERのモデルを訓練するために用いられる注釈付の訓練データ内で必ずしも見られない既知の名前を加えることにより、思い出す能力を向上させることである。
英語のニュースワイヤーサービス用に開発された統計的NERシステムは、標準的なデータセット上ではうまく機能するが、言語および領域内でデータが変化すると、その機能は低下してしまう。
外部の知識をNERモデルに組み込むために、膨大な作業が行われている。その概要に関しては、David Nadeau, et alによる「A survey of named entity recognition and classification」(Linguisticae Investigationes,30(1):3−26,2007)を参照。例えば、1つの方法では、地名辞典の項目ごとに構造符号化を用いている。その詳細については、Jun’ichi Kazama et alによる「Exploiting Wikipedia as external knowledge for named entity recognition」(Proc.2007 Joint Conf.on Empirical Methods in Natural Language Processing and Computational Natural Language Learning(EMNLP−CoNLL), pp.698−707,2007(以後本明細書では、Kazama 2007と呼ぶ))を参照。この符号化には一連の特徴が用いられる。これらの特徴を用いて、CRFモデルにおけるラベルをモデリングすることができる。このことは、例えば、Lev Ratinov, et alによる「Design challenges and misconceptions in named entity recognition」(Proc. 13th Conf. on Computational Natural Language Learning(CoNLL−2009),pp.147−155,2009,以後本明細書では「Ratinov 2009」と呼ぶ)に記載されている。NERを支援するために、知識ベース(KB)にデータをリンクさせることも行われている。このことについては、Angus Roberts, et alによる「Combining terminology resources and statistical methods for entity recognition:an evaluation」(Proc. 6th Int’l Conf.on Language Resources and Evaluation(LREC’08),pp.2974−2980,2008)に記載されている。
リンクされたデータは、NERのためのデータ取得法としても使用されてきた。具体的には、Wikipediaから訓練データを生成する(Kazama 2007、Alexander E.Richman,et alによる「Mining wiki resources for multilingual named entity recognition」(Proc.ACL−08:HLT,pp.1−9,2008)、Joel Nothman,et alによる「Learning multilingual named entity recognition from Wikipedia」(Artificial Intelligence,194(0):151−175,2013))、あるいは遺伝子名の記事から訓練データを生成する(Andreas Vlachos,et alによる「Bootstrapping and evaluating named entity recognition in the biomedical domain」(Proc.HLT−NAACL BioNLP Workshop on Linking Natural Language and Biology,pp.138−145,2006)、Alex Morgan,et alによる「Gene name extraction using flybase resources」(Proc.ACL 2003 Workshop on Natural Language Processing in Biomedicine,pp.1−8,2003))。これらの方法の目的は、標準的なNERモデル用に、大量の訓練データを生成することである。
外部知識をベクトル空間埋込み(例えば、ブラウンクラスタ、神経言語モデル、またはスキップグラムモデル)で表すことも、NERに対して効果的であるとみられてきた。(Ratinov 2009、Joseph Turian, et alによる「Word representations: A simple and general method for semi−supervised learning」(Proc.48th Annual Meeting of the ACL,pp.384−394 2010)、 Alexandre Passos, et alによる「Lexicon infused phrase embeddings for named entity resolution」(Proc.18th Conf. on Computational Natural Language Learning,pp.78−86,2014))
しかし、これらの方法では、一般に、非常に大きなNERモデルが作られてしまい、ドキュメントを処理することを考慮に入れていない。
モデルを訓練するために、大量の付加的な訓練データを集めて使用する必要なく、NERモデルの性能を向上させるシステムおよび方法が依然として必要である。
例示的な実施形態の一態様に係る表現抽出方法には、ドキュメントレベルの実体タグでタグ付けされる訓練サンプルから抽出される特徴で訓練された固有表現抽出モデルを提供するステップが含まれる。各訓練サンプルには、少なくとも1つのテキスト列が含まれる。この方法には、名前付き実体でラベル付けされるテキストドキュメントを受け取るステップも含まれる。このテキストドキュメントは、少なくとも1つのドキュメントレベルの実体タグでタグ付けされる。この方法には、少なくとも1つのドキュメントレベルの実体タグに基づいて、ドキュメント専用の地名辞典を生成するステップも含まれる。このドキュメント専用の地名辞典には、一連の項目が含まれる、すなわち、一連の実体名のそれぞれに対して1つの項目が含まれる。この方法には、ドキュメントのテキスト列に関して、テキスト列のトークンに関する特徴を抽出するステップも含まれる。これらの特徴には、地名辞典の項目のうちの1つの実体名の少なくとも一部と一致するトークンに関するドキュメント専用の特徴が含まれる。この方法には、固有表現抽出モデルを用いて、この抽出された特徴に基づいて、ドキュメントのテキスト列内のトークンに関して実体のラベルを予測するステップも含まれる。
生成するステップ、抽出するステップ、および予測するステップのうちの少なくとも1つは、プロセッサにより行われ得る。
例示的な実施形態の別の態様によると、表現抽出システムはメモリを含み、このメモリが、ドキュメントレベルの実体タグでタグ付けされるテキスト列から抽出された特徴で訓練された固有表現抽出モデルを格納する。このシステムは、実体ラベルでラベル付けされる入力テキストドキュメントに関するドキュメント専用の地名辞典を生成する地名辞典生成器も含む。テキストドキュメントは、少なくとも1つのドキュメントレベルの実体タグでタグ付けされる。このドキュメント専用の地名辞典には、少なくとも1つのドキュメントレベルの実体タグにそれぞれ基づく項目が含まれる。地名辞典の項目は、実体名、および随意的には実体型の所定の集合から選択された実体型を含む。このシステムは、テキストドキュメントのテキスト列に関する、テキスト列のトークンに関する特徴を抽出する特徴抽出コンポーネントも含み、これらの特徴が、地名辞典の項目のうちの1つと一致するトークンに関するドキュメント専用の特徴を含む。固有表現抽出モデルを用いて、この抽出された特徴に基づいて、テキスト列内のトークンのうちの少なくともいくつかに関する実体ラベルを予測する認識コンポーネントをこのシステムは含む。メモリと通信し、地名辞典生成器、特徴抽出コンポーネント、および認識コンポーネントを実行するプロセッサをこのシステムは含む。
例示的な実施形態の別の態様に係る固有表現抽出を訓練する方法には、注釈付きの訓練サンプルの集合を受け取るステップが含まれる。この集合内の各訓練サンプルは、トークンの少なくとも1つの訓練シーケンスを含む。各訓練サンプルは、サンプル内の記載と整合することなく、この記載に対応する実体名を含む少なくとも1つのドキュメントレベルの実体タグでタグ付けされる。各訓練シーケンスは、トークンレベルの実体ラベルで注釈を付けられる。この方法には、各訓練サンプルに関して、注釈付きの訓練サンプルの少なくとも1つのドキュメントレベルの実体タグに基づいて、ドキュメント専用の地名辞典を生成するステップが含まれる。ドキュメント専用の地名辞典は、一連の項目を含み、各項目は個々の実体名を含む。この方法には、ドキュメント専用の地名辞典を用いて、注釈付きの訓練シーケンスのトークンに関して特徴を抽出するステップが含まれる。これらの特徴には、ドキュメント専用の特徴が含まれ、これらのドキュメント専用の特徴は、トークンが少なくとも2つのトークンの地名辞典の実体名のうちの最初のトークンと一致するかどうかを示す特徴、トークンが少なくとも3つのトークンの地名辞典の実体名のうちの中間のトークンと一致するかどうかを示す特徴、トークンが少なくとも2つのトークンの地名辞典の実体名のうちの最後のトークンと一致するかどうかを示す特徴、およびトークンがユニグラムの地名辞典の実体名と一致するかどうかを示す特徴から成る群から選択される。この方法には、これらの抽出された特徴、および訓練シーケンスごとのトークンレベルの実体ラベルで固有表現抽出モデルを訓練するステップが含まれる。
生成するステップ、抽出するステップ、および訓練するステップのうちの少なくとも1つは、プロセッサにより実行することができる。
図1は、例示的な実施形態の一態様による、固有表現抽出システムの機能ブロック図である。 図2は、例示的な実施形態の別の態様による、固有表現抽出を実行する方法を示すフローチャートである。 図3は、実体タグを有するドキュメントを示す図である。 図4は、異なる数のセンテンスに関する様々な表現抽出システムを実体に関してチェックした結果を示すグラフである。 図5は、異なる数のセンテンスに関する様々な表現抽出システムを、別の評価で実体に関してチェックした結果を示すグラフである。
例示的な実施形態は、固有表現抽出(NER)のシステム、および固有表現抽出を使用し、訓練する方法に関し、各ドキュメントが、(訓練および予測時間で)1つ以上のドキュメントレベルの実体タグを有し、各ドキュメントレベルの実体タグは、ドキュメント内で現われる個々の既知の実体を引用する。これらのドキュメントレベルの実体タグは、NER認識モデルに入力されるドキュメントの特徴を符号化する際に使用される。
ドキュメントレベルの実体タグは、知識ベース(例えば、WikipediaのタイトルまたはURL)内の識別子などの実体の正規名を含むことができる。各タグは、人、組織、場所、種々雑多(その他の型にはない実体名をカバーする)などの2つ以上の一連の実体型から選択される実体型に関連し得る。これらのタグには、基準型(正しいと仮定された)が割り当てられているが、これらのタグは、テキスト内のフレーズとは整合せず、その記載のいずれか、または、全てと同じ形態を共有することはできない。例えば、United Nationsというタグは、UNという記載を有するドキュメントと関連し得る。各タグは、ドキュメント内の少なくとも1つの記載と一致するが、どの記載かを規定しない。これらのタグは別の知識ベースから得ることができる、あるいは、かなり正確なNERが必要な場合の要求事項となる。後者の場合、ドキュメントレベルのタグと型を割り当てることは、ドキュメント内の各記載のマーキングを行うよりも時間がかからない可能性があり、したがって、実行可能である。
普段、ドキュメントの作成者は不明瞭な名前を使用しないという推測に基づいて、予測時間に与えられる基準のドキュメントレベルのタグにより、ドキュメントごとに1つの意味という前提を作ることが可能となる。例えば、United Nationsを指してUNと記載されているドキュメントでは、例えば、University of Nebraskaを指すのに同じ頭字語を使用しないはずである。
例示的なドキュメントレベルの実体タグは、以下に記載する様々な用途で使用することができる。
1.顧客ケア:ドキュメントレベルの実体タグは、顧客関係管理システム内で見ることができ、ウェブチャットのトランスクリプトでNERを向上させるために用いられている。例えば、リアルタイムで、確実に顧客に関連する実体(例えば名前、装置)にタグ付けできると有用である。チャット・トランスクリプト内で顧客の名前をタグ付けすることができ、知識ベースから更なる情報を検索することが可能である。また、高精度のNERにより、知識獲得などのダウンストリームのオフライン処理が可能となる。チャット中、またはチャット後にドキュメントレベルのタグを適用可能である。
2.ドキュメントの見出し:ニュース記事に見出しを付けるために、関連する実体のドキュメントレベルの実体タグを用いることができる。例えば、New York Times Annotated Corpus(https://catalog.ldc.upenn.edu/LDC2008T19)がまさにこの例であり、この中には、人、組織、場所、および話題のキーワードの正規化した見出し付き語彙から検索されたタグで、ライブラリの科学者により手作業でタグ付けされた1,500,000を超えるニュース関連記事が収められている。
したがって、これらのドキュメントレベルの実体タグにより提供される情報は、大きな地名辞典を用いる必要なしに、NERを向上させるために使用されるが、地名辞典の使用を除外するわけではない。ドキュメントごとに数個のドキュメントレベルの実体タグでさえ、有用な情報を提供することができる。それに加えて、ドキュメントレベルの実体タグを、外部知識ベースからの情報によって向上させることができる。
この方法はこれらの用途には限定されず、その他の用途にも適用可能であり、確認のための付加的な記載のラベルを人間の注釈者に提案することにより、あるいは、自動的にそれらをラベル付けすることにより、体系化されていないテキストにドキュメントレベルのタグを提供する、具体的には、実体のうちの同じものに対する記載がドキュメント内に複数回現われて、人間の注釈者の効率を向上させる。
図1を参照すると、コンピュータにより実施される表現抽出システム10は、図2に示される表現抽出方法を実行するソフトウェア命令14を格納するメモリ12と、メモリ12と通信し、それらの命令を実行するプロセッサ装置(「プロセッサ」)16と、を含む。このシステム10は、図示されているサーバコンピュータ18などの1つ以上のコンピュータ装置上に駐在する。このシステムは、図示されているクライアントコンピュータ装置24などの外部装置と通信するための1つ以上の入力/出力装置20、22を含む。このシステムのハードウェア・コンポーネント12、16、20、22は、データ制御バス26によって通信する。
システム10は、クライアント装置24から、インターネットなどの有線または無線のリンク32を介して、処理される1つ以上のドキュメント30を入力として受け取る。このドキュメント30は、テキスト34、および、少なくとも1つのドキュメントレベルの実体の注釈(タグ)36、38を含み、これらは既知である、あるいは正しいことを前提とする。すなわち、未調整であるがドキュメント30内のその実体を指す、少なくとも1つの記載を有する。すなわち、実体を記載するテキストのそれらのトークン(複数可)とは関連しない、あるいは、より一般的には、ドキュメント全体より短い特定のテキスト列とは関連しない。したがって、実際には、訓練サンプルおよび入力ドキュメントはそれぞれ、複数のトークンに関して、それらが含む実体の個々の記載(複数可)よりも長い。
ドキュメントレベルの実体タグ36のうちのいくつかはそれぞれ、ドキュメント内に記載42があるとユーザが判断した知識ベース40内に存在する特定の知識ベース(KB)の実体を特定する。本明細書で使用される通り、記載とは実体44を指す単語またはフレーズであり得る。例えば、UNおよびUnited Nationsは両方とも、United Nations(国際機関)であるKBの実体44を指す記載42であり得、George Washingtonは、George Washington、すなわち米国大統領を指す記載であり得る。これらのドキュメントレベルの実体タグ36には、テキスト内の記載と若干重複するKB40(例えば、Wikipedia)内に存在する実体名も含まれているため、本細書ではKBの実体タグと呼ぶ。
いくつかの実施形態では、KB40内に存在しない他のドキュメントレベルの実体タグ38が使用されており、これらをニルリンクの実体タグと呼ぶ、あるいは単にニルリンクと呼ぶ。例えば、記載されている特定のJohn Smith(ツアーガイドのオーガナイザー)はKB40内に存在しないため、注釈者がJohn Smithと呼ぶ実体Joe Smithを含むドキュメントをニルリンク実体タグ38でタグ付けすることができる。実施形態によっては、ニルリンク実体タグ38は使用されない。
図3には、別の例示的なテキスト34が示されている。このテキストは、太文字で強調された(単に説明を簡単にするために)実体の記載42、およびドキュメントレベルの実体タグ36、38を有する。KB実体に関するKBの実体タグ36はそれぞれ、正規名46、例えば、IPhone5S、およびそれに対応する実体型48(図示されている例の中のMISC)を含み得る。
図1をもう一度参照すると、命令14には、タグの地名辞典生成器50、特徴抽出コンポーネント52、NERモデル訓練コンポーネント54、認識コンポーネント56、および情報出力コンポーネント58が含まれる。
簡単に説明すると、タグの地名辞典生成器50は、ドキュメントレベルのKB実体タグ36(および随意的には、ニルリンク実体タグ38)からの情報を用いて、一連の1つ以上の項目を含む、ドキュメント専用タグの地名辞典60を作り、有効な場合、各項目が、実体名および個々の実体型48を含む。注釈者が特定の知識ベースのタイトルを実体名として認識した場合、その知識ベースのタイトルを読むことができる語彙形式に変換することができる。例えば、Wikipediaのタイトル(またはその他の百科事典的な正規名)をテキスト内で一致させるためにより好適な、有用な地名辞典の項目に変換するために、小文字化すること、下線を引いて分割すること、括弧でくくられた接尾語を取り除くことのうちの1つ以上のことによりこれらのタイトルを変換することができる。例えば、App_Store_(iOS)をapp storeに変換することができる。KB実体タグ36に関して、知識ベースの項目から実体の別名を抽出し(随意的には、地名辞典に含ませる)、KB実体タグを付けて提供する際、同じ型の情報と共に地名辞典に載せることができる。いくつかの実施形態では、実体タグ36を用いて、例えば、個々のKB項目内のリンクを通して、追加のKBからの個々の実体に関する追加情報(関連情報)を集めることができる。
特徴抽出コンポーネント52は、ドキュメント26内のトークンから特徴を抽出し、それらのトークンに対応するラベルを供給し、これらのラベルは2つ以上のラベルの所定の集合から引き出す。ドキュメントレベルのタグに関して、ドキュメントレベルの実体タグの名前、または地名辞典60内のその他の項目の中のどこで、トークンが一致するかに基づいて、トークンの特徴を指定するために符号化方式が用いられる。
例として、Kazama 2007に記載されているものと同様の符号化方式を用いて、タグの名前(またはその他の地名辞典の項目)のどこで、トークンが一致するかに基づいてトークンの特徴を抽出する。ドキュメントレベルのタグに一致するトークンに関する例示的な符号化方式では、ドキュメント専用のトークン特徴として、次の例のいくつか、または全てを使用する。:
Bトークンは、少なくとも2つのトークンの地名辞典の名前の最初のトークンと一致する。
Mトークンは、少なくとも3つのトークンの地名辞典の名前の真ん中の(すなわち、中間:最初でなく、最後でない)トークンと一致する。
Eトークンは、少なくとも2つのトークンの地名辞典の名前の最後のトークンと一致する。
Wトークンは、ユニグラムの地名辞典の名前と一致する。
これらを型情報に加えて(有効ならば)、2項のドキュメント専用のトークン特徴を16個生成することができる。
B−PERトークンは、少なくとも2つのトークンの地名辞典の人の名前の最初と一致する。
B−LOCトークンは、少なくとも2つのトークンの地名辞典の場所の名前の最初と一致する。
B−ORGトークンは、少なくとも2つのトークンの地名辞典の組織の名前の最初と一致する。
B−MISCトークンは、少なくとも2つのトークンの地名辞典のその他の名前の最初と一致する。
M、E、およびWに関しても同様である。
例えば、地名辞典60内に、組織および場所:New York UniversityおよびNew Yorkの2つの既知の実体名が存在すると仮定する。単語Newに関してB−ORGおよびB−LOCの2つの2項のドキュメント専用のトークン特徴を算出する。このように、特徴を生成するためにあらゆる数のドキュメント実体のタグが有効であり得、デフォルトで全ての可能性のある実体タグを選択する。
ドキュメントレベルの実体タグ36がKBの識別子(例えば、Wikipediaのタイトル)の場合、各ドキュメントレベルのタグに関してKBから抽出された関連する名前に基づいて、付加的なドキュメント専用のトークン特徴を抽出することができる。ドキュメント内に実体が記載されている場合、その実態に関連するその他の実体を監視できることも期待できる。例えば、ドキュメントレベルの実体タグがWikipediaのページを特定し得、そこから、それが示す一連の他のWikipediaのページが抽出され、関連する名前として使用され得る。これらの実体タグは自動的に抽出されるため、それらの型は未知であり、これらの実体タグを用いて、B−UNK、M−UNK、E−UNK、およびW−UNKのさらに4個の2項のドキュメント専用のトークン特徴を生成する。
より簡略化した一連のドキュメント専用のトークン特徴も考えられることは理解されよう。例えば、目的が人の名前を特定するだけなら、B−PER、M−PER、E−PER、およびW−PERのドキュメント専用の特徴だけが使用され得る。用途によっては、より細分化されたトークン特徴も考えられる。ドキュメント専用のトークン特徴は、そのシーケンス内の前のトークンのドキュメント専用のトークン特徴にも基づき得る。例えば、「直前のトークンは、ラベル付きのB−PERか?」など。
一連のトークン特徴内の特徴の数が増えるほど、予測は複雑になり、効率費用が発生することは理解されよう。さらに、CRFモデルを訓練するための訓練シーケンスの数も増える。一般に、少なくとも4個、または、少なくとも8個、または、少なくとも12個、または、少なくとも16個、または、30個以下、または、24個以下、または、20個以下のドキュメント専用のトークン特徴が存在し得る。少なくとも5個、または、少なくとも10個、または、少なくとも20個、または、少なくとも40個、または、100個以下、または、より標準的なトークンの特徴が存在し得る。
標準的な特徴は、従来使用されている特徴のいずれでもよい。例えば:
1.トークン自体の特徴、例えば、
トークンの品詞、例えば、トークンは名詞か[または代名詞、動詞、副詞、形容詞など]、
トークンの最初の文字が大文字か?
トークンは、有効であれば、既知の人の名前のリストなどの既存の非ドキュメント専用の一般地名辞典66であり得る、地名辞典内に記載されているか。
2.直前のトークンは地名辞典に記載されるか?などのシーケンスの前のトークン(複数可)の特徴。
例示的なNERモデル62は、条件付き確率場(CRF)モデルなどの統計的NERモデルである。そのようなモデルに関して、例えば、John D.Lafferty,et al.,による「Conditional random fields: Probabilistic models for segmenting and labeling sequence data」(Proc.18th Int’l Conf. on MachineLearning、ICML’01、pp.282−289、2001、以後「Lafferty 2001」と呼ぶ)を参照。例示的なCRFモデル62は、センテンスなどのトークンの入力シーケンスを考慮して、同じ長さの出力シーケンスを予測する統計的モデルであり、各出力のエレメントが、それに対応するトークンに関するトークンレベルのラベルである。CRFモデルは、異なる型の特徴を組む上で非常に柔軟性がある。したがって、標準的なCRFモデルの特徴は上記に記載した例示的な2項素性とともに、増大することができる。
CRFモデル62は、前のトークン(複数可)の特徴を考慮して、連続的に動作する。この方法は、全ての特定の一連の特徴に限定されることなく、より少ない、より多い および/または異なる特徴を使用できることは理解されよう。入力テストドキュメント30の各シーケンスに関して、CRFモデルは、それらのトークンに関する実体ラベルのシーケンス68を予測し、これらの予測されるラベルは、例えば、一連のラベル(例えば、PER、LOC、ORG、MISC、およびO、但し、Oは、実体名でないと予測されたトークンを指定する)から検索される。各トークンがわずか1つの実体名ラベルに割り当てられた状態で、一連のラベル内には、少なくとも2つの潜在的なラベル、または、少なくとも3つの潜在的なラベル、または、少なくとも4つの潜在的なラベルが存在し得る。したがって、複数のトークンレベルの実体ラベルは、個々のシーケンス内の複数のトークンと同じである。例えば、ドキュメントレベルのタグ38であるJohn York[PER]でタグ付けされ、そのドキュメントのシーケンス、My name is John Yorkに関する、ドキュメント30を考慮すると、CRFモデル62は、希望的に、トークンレベルの実体ラベル:OOO PER PER(OOO PER LOCでなく)のシーケンスを予測する。
訓練コンポーネント54は、それぞれがセンテンスなどの少なくとも1つのテキスト列を含む注釈付きの訓練サンプル64の集合を用いて、NERモデル62を生成する。例えば、指数損失の目的関数を用いて、CRFモデル62を損失規則化で訓練することができる、この指数損失の目的関数は、例えば、Lafferty 2001、 Freund, et al.,による「A decision−theoretic generalization of on−line learning and an application to boosting」(J.Computer and System Sciences、55、119−139(1997))、またはCollins,M,et al.による「Discriminative reranking for natural language parsing」(Computational Linguistics,Vol.31,No.1,pp.25−69(2004))に記載される。
訓練サンプル64の集合は、テストドキュメント30と同じ一般分野から選択することができる。集合64内の各訓練サンプルをドキュメントレベルの実体タグ36、38でタグ付けし、実体名46、およびPERS(人)ORG(組織)LOC(場所)またはMISC(種々雑多)などの個々の実体型48を特定する。例示的な方法では、ドキュメントレベルの実体タグのうちの少なくともいくつかは、または全ては、知識ベース内の項目44に対応し、ドキュメントレベルの実体タグに対応する可能性のある記載(別名)のリストなどの付加的な情報でドキュメントレベルのタグを補足するために使用される。各訓練シーケンス内のトークンはそれぞれ、そのトークンの正しいラベルに対応する、一連の実体ラベル(例えば、PER、LOC、ORG、MISC、またはO)から検索される個々のトークンレベルの実体ラベルで注釈を付けられる。したがって、各訓練サンプルは、シーケンスの少なくとも1つの対、トークンのシーケンス、および同じ長さの正しい実体ラベルのシーケンス(例えば、例、My name is John York内のOOO PER PER)である。KBタグがドキュメントレベルであるため、訓練サンプルが1つのセンテンスより長い場合、ドキュメントレベルのタグが、ドキュメント内のあらゆるセンテンスに対応するトークンを有する保証はなく、それらのうちのたった1つのセンテンスに対応するトークンを有する。
特徴抽出コンポーネント52を呼び出して、各訓練センテンスのトークンを、各特徴に関するラベルとともに符号化する。したがって、一連のドキュメント専用の2項素性のそれぞれに関して、各単語が2項素性のラベルを受け取る(例えば、特徴が抽出されれば1、特徴が抽出されなければ0)。これらの一連の特徴、および訓練センテンス64ごとの正しい実体ラベルの対応するシーケンスを用いて、CRFモデル62を訓練して、訓練シーケンス内のトークンごとの正確な実体ラベルを予測する。
既にCRFモデルは、ラベル付けされた訓練センテンスの大きなコーパスを用いて、一連の基本的な特徴(すなわち、ドキュメント専用の特徴ではない特徴)で以前に訓練されている可能性がある。この場合、訓練することによりCRFモデルを更新して、新しいドキュメントレベルの特徴を組み込む。
訓練されたモデル62と、少なくとも1つのドキュメントレベルの実体タグとともに入力されるドキュメントと、を考慮すると、訓練シーケンスと同様に、特徴が抽出される。ユーザ・ドキュメント30をトークンレベルの実体ラベルでラベル付けするために、訓練されたCRFモデル62を認識コンポーネント56により呼び出す。CRFモデル62は、従来のサポート・ベクター・マシン(SVM)ベースの分類法を用いて、地名辞典60からの項目を、抽出される特徴に基づいて、所与のドキュメント42の各トークンと関連付けるべきかどうかを判定する。このCFRモデルは、入力されるドキュメントのセンテンスを考慮して、そのトークンに関する最も可能性のある実体型ラベルのシーケンス68を予測する。
情報出力コンポーネントは、特定されたシーケンス68に基づく情報70、例えばシーケンス68自体、ドキュメント内で認識された名前付き実体のリスト、ドキュメント内で認識された実体名に関する知識ベース40へのリンク、特定された実体名(複数可)に基づくドキュメントの分類、承認された実体名(複数可)に基づく検索された一連の同様のドキュメント、または、それらの組合せを出力する。
ある実施形態では、システム10は、自然言語処理システムの一部を形成することができる。この自然言語処理システムが、構文解析プログラムを含み、この構文解析プログラムが入力テキスト列を処理して、品詞を割り当て、テキスト内の構文上の従属物を特定する。構文解析プログラムは、入力文字列の言語の構文上の特性を記述する複数の規則を適用することができる。構文解析プログラムは、表現抽出システム10を呼び出して、テキスト内の名前付き実体の特定の支援を行うことができる。自然言語処理システムは、例えば、米国特許出願公開第2004/0024581号明細書、第2004/0030551号明細書、第2006/0190241号明細書、第2007/0150257号明細書、第2007/0265825号明細書、第2008/0300857号明細書、第2008/0319978号明細書、第2009/0204596号明細書、第2010/0070521号明細書、第2010/0082331号明細書、第2013/0311467号明細書、および第2014/0163951、ならびに米国特許第6,182,026号明細書、第6,263,335号明細書、第6,311,152号明細書、第6,975,766号明細書、第7,058,567号明細書、第7,171,350号明細書、および第8,543,563号明細書、およびSalahAit−Mokhtar,et al.,による「Robustness beyond shallowness:incremental dependency parsing,」(Special Issue of the NLE Journal,2002)で記載されている。
コンピュータで実施されるシステム10は、デスクトップコンピュータ、ラップトップコンピュータ、パームトップコンピュータ、デジタル携帯端末(PDA)、サーバコンピュータ、携帯電話、タブレットコンピュータ、ポケットベル、これらの組合せ、または例示的な方法を行うための命令を実行可能なその他のコンピュータ装置などのPCなどの1つ以上のコンピュータ装置18を含むことができる。
メモリ12は、ランダム・アクセス・メモリ(RAM)、リード・オンリー・メモリ(ROM)、磁気ディスクまたは磁気テープ、光ディスク、フラッシュメモリ、またはホログラフィック・メモリなどのあらゆるタイプの非一時的なコンピュータ可読媒体を表し得る。ある実施形態では、メモリ12は、ランダム・アクセス・メモリとリード・オンリー・メモリの組合せを含む。いくつかの実施形態では、プロセッサ16とメモリ12を、単一のチップに組み込むことができる。メモリ12は、例示的な方法を実行する命令、および処理データ60、68を格納している。
ネットワークインターフェース20、22により、コンピュータは、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)、またはインターネットなどのコンピュータネットワークを介して、他の装置と通信することができ、これらのネットワークインターフェースは、変調器/復調器(MODEM)、ルータ、ケーブル、および/またはイーサネット(登録商標)ポートを含むことができる。
デジタルプロセッサ装置16は、シングルコアプロセッサ、デュアルコアプロセッサ(または、より一般的にマルチコアプロセッサにより)、デジタルプロセッサ、および協働する数値演算コプロセッサー、デジタルコントローラなどにより様々に埋め込まれ得る。デジタルプロセッサ16は命令14を実行し、コンピュータ18の動作を制御することもできる。
本明細者で使用される「ソフトウェア」という用語は、そのソフトウェアが意図するタスクを実行するコンピュータまたはその他のデジタルシステムを構成するために、コンピュータまたはその他のデジタルシステムにより実行可能な命令の全ての集まり、または集合を含有することを意図する。本明細者で使用される「ソフトウェア」という用語は、RAM、ハードディスク、光ディスクなどの記憶媒体に格納されるそのような命令、および、「ファームウェア」と呼ばれる、ROMなどに格納されるソフトウェアを含有することを意図する。そのようなソフトウェアは、様々な方法で構成でき、ライブラリとして構成されるソフトウェアコンポーネント、遠隔サーバなどに格納されるインターネットベースのプログラム、ソースコード、解釈コード、オブジェクトコード、直接実行可能コードなどを含むことができる。ソフトウェアは、システムレベルのコードを起動させることができる、あるいは、特定の機能を実行するための、サーバまたはその他の場所に駐在するその他のソフトウェアを呼び起こすことができることも考えられる。
図2を参照すると、図1のシステムを用いて実行される表現抽出に関する例示的な方法が示されている。この方法は、S100で始まる。NERモデルの学習フェーズは、以下のように進む。
S102で、注釈付の訓練センテンスの集合64を受け取る。これらのドキュメントはそれぞれ、少なくとも1つのドキュメントレベルの実体タグ36、38で手動でタグ付けされている。
S104で、ドキュメントレベルの実体タグ36、38を用いて、訓練センテンスごとにドキュメント専用タグの地名辞典60を作ることができる。随意的には、タグの地名辞典60は、Wikipediaのような知識ベースからの情報で補足される。訓練サンプルでは、場合によっては、タグの地名辞典60は単一の項目だけを含むことができる。
S106で、訓練センテンスごとに、特徴抽出コンポーネント52により、シーケンス内のトークンごとにトークンの特徴を抽出する。これらの抽出されたトークン特徴には、ドキュメント専用のトークン特徴が含まれ、標準的な特徴も含まれる。シーケンスの各トークンをドキュメント専用タグの地名辞典60と比較して、トークンのドキュメント専用のトークン特徴が、地名辞典60内の項目のどれかと一致するかどうかを判定し、発見された一致に基づいてトークンに関する値を生成することにより、ドキュメント専用のトークン特徴を抽出する。
S108で、実体名のシーケンス68と同じフォーマットを有する、各訓練センテンスのトークン特徴のシーケンス、およびシーケンス内のトークンごとの関連する真の実体ラベル(複数可)を用いて、CRFモデル62を訓練する。CRFモデル62を訓練することには、最初からCRFモデルを訓練する、あるいは、既存のCRFモデルを更新して、例示的なドキュメント専用のトークン特徴を組み込むことが含まれる。
次いで、推測フェーズは、以下のように進むことができる。
S110で、システムが、トークンレベルの名前付き実体ラベルで注釈を付けられるドキュメント30を受け取る。一般に、ドキュメント30は訓練セット64の一部ではない。このドキュメント30は、センテンスなどの少なくとも1つのテキスト列を含み、複数の(少なくとも2つの)テキスト列を含むことができる。このドキュメントは、少なくとも1つのドキュメントレベルの実体タグ36、38を含む。いくつかの場合では、最低でも少なくとも2つ、少なくとも3つ、少なくとも4つ、または、少なくとも5つのドキュメントレベルの実体タグなどの、閾値数のドキュメントレベルの実体タグ36、38を提供するよう人間の注釈者に求めることができる。あるいは、複数のドキュメントが処理されている場合、3つ、4つ、または5つの平均などのドキュメントに対して平均した閾値数のドキュメントレベルの実体タグ36、38を提供するよう人間の注釈者に求めることができる。別の実施形態では、少なくとも閾値数のセンテンスの確認に基づいて、1、2、3、4、または5個のセンテンスなどの、あるいは、第1のパラグラフなどの1つ以上のドキュメントのパラグラフなどの、ドキュメントレベルの実体タグを提供することを注釈者に求めることができる。別の実施形態では、固有表現抽出モデル(モデル60と同じモデル、または異なるモデルでもよい)を用いて、ドキュメント内に記載された名前付き実体に自動的にタグ付けすることができ、ドキュメントレベルの実体タグ(複数可)を生成するために、人間の注釈者は、これらの記載を1つ以上選択することができる。別の実施形態では、ドキュメントの集合に関するドキュメントレベルの実体タグ36、38を1人以上の注釈者から事前に取得する。これらの全てのアプローチでは、注釈者は、ドキュメントレベルの実体タグ36、38と一致する、テキスト内の記載を特定することを要求されない、あるいは、その記載のあるセンテンス、またはその他の全てのドキュメントのサブシーケンスを特定することさえも要求されない。
S112で、ドキュメントレベルの実体タグ36、38を用いて、ドキュメント用のドキュメント専用タグの地名辞典60を作る。随意的には、タグの地名辞典60は、Wikipediaなど、または同じ知識ベースまたは異なる知識ベースのリンクされた項目からの知識ベース40内の対応する項目から別名などの情報で補足される。
S114で、ドキュメント30のテキスト列ごとに、ドキュメント専用のトークン特徴を抽出するためのタグ地名辞典60を用いて、特徴抽出コンポーネント52により、各トークンに関するトークン特徴を抽出する。これらの抽出されたトークン特徴には、一般的な地名辞典66、または、その他の手段を用いて抽出された標準的なトークン特徴も含まれ得る。ドキュメント専用のトークン特徴を抽出することには、シーケンス内の各トークンを各ドキュメントレベルの実体タグに対応する地名辞典60内の実体名(および、有効な場合は、型)と比較して、一致部分が存在するかを確認すること、および、地名辞典内の個々の実体名内の一致部分のトークンの位置に基づいて、各ドキュメント専用のトークン特徴の値を設定することが含まれる。このように、ドキュメント専用のトークン特徴ごとに、各トークンには、値(0または1)が割り当てられる。
S116で、ドキュメント30内の各テキスト列に関して、認識コンポーネント56が、個々の特徴を、訓練されるCRFモデル62に入力し、このCRFモデル62が、テキスト列に関する予測されるラベルシーケンス68を出力し、このシーケンス68が、シーケンス内の各トークンに関する、あるいは、少なくともいくつかのシーケンス内のトークンに関するトークンレベルの名前付き実体ラベルを含む。
S118で、ドキュメントに関して、予測されたラベルシーケンス68(または複数のシーケンス)に基づいて、情報70を生成することができる。S120で、情報出力コンポーネント58により、情報を出力する。S122で、この方法は終了する。
ある実施形態では、入力ドキュメントを処理する自然言語のために、構文解析プログラムにより情報70が使用され得る。
別の実施形態では、CFRモデル62を従来の統計的NERモデルと組み合わせることができる。ある実施形態では、高い信用が予測されたタグだけを用いて、訓練および予測のためのドキュメントへの注釈付けを支援するために、統計的NERモデルを使用することができる。別の実施形態では、統計的NERモデルを繰り返し向上させることができる。これには、i)基本のCRFモデルを学習し、データをタグ付けすることと、ii)発見的方法によりドキュメントレベルの実体タグを抽出することと、iii)CRF+NAME+TYPEモデルを再学習することと、iv)データを再タグ付けすることとが含まれ得る。
NERモデルを訓練するために使用する同じ領域内に存在しないデータにNERを適用するために、特に、このシステムおよび方法が有用である。
図2に示される方法は、コンピュータで実行可能なコンピュータプログラム製品において実施可能である。コンピュータプログラム製品には、ディスク、ハードドライブなどの制御プログラムを記録する(格納する)、非一時的なコンピュータ可読記録媒体が含まれ得る。非一時的なコンピュータ可読媒体の一般的な形態には、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、またはその他の全ての磁気記憶媒体、CD−ROM、DVD、またはその他の全ての光学媒体、RAM、PROM、EPROM、FLASH−EPROM、またはその他のメモリチップ、またはカートリッジ、またはコンピュータが読取り、使用可能なその他全ての非一時的媒体が含まれる。このコンピュータプログラム製品は、コンピュータ18と一体可能である(例えば、RAMの内部ハードドライブ)、あるいは、コンピュータ18と分割可能である(例えば、コンピュータ18と動作可能に接続する外部ハードドライブ)、あるいは、分離可能、およびローカル・エリア・ネットワーク(LAN)、またはインターネットなどのデジタルデータネットワークを介してアクセス可能である(例えば、リダンダント・アレイ・オブ・インエクスペンシブ・ディスクズ(RAID)またはデジタルネットワークを介してコンピュータ18により間接的にアクセス可能なその他のネットワークサーバストレージとして)。
あるいは、この方法は、無線波および赤外線データ通信などを行っている間に生成される、音波または光波などの、伝送媒体を用いるデータ信号として制御プログラムが埋め込まれる送信可能な搬送波などの一時媒体において実施可能である。
例示的な方法は、1つ以上の汎用コンピュータ、専用コンピュータ(複数可)、プログラムされたマイクロプロセッサ、またはマイクロコントローラ、および周辺集積回路素子、ASIC、またはその他の集積回路、デジタル信号プロセッサ、個別素子回路などの配線電気回路または配線論理回路、PLD、PLA、FPGA、グラフィックカードCPU (GPU)、またはPALなどのプログラマブル論理装置上で実施可能である。一般に、この方法は、図2に示されるフローチャートを実施可能な有限状態機械を実施可能な全ての装置を用いて実施可能である。この方法のステップは、全てコンピュータにより実施可能であるが、いくつかの実施形態では、1つ以上のステップを少なくとも部分的に手動で実行することもできることは理解されよう。この方法のステップは、示されている順番で実施される必要はなく、示されているより少ない、または、多い、あるいは、異なるステップを実行してもよいことは理解されよう。
以下の例は、この方法の適応範囲を示しており、例示的な実施形態の範囲を限定する意図はない。

いくつかの構成が作られている。
比較するために、以下のシステムを開発した。
A.基本的なCRF
このシステムには、標準的なCRFモデルが含まれ、この標準的なCRFモデルでは、文脈特徴、および文字の形の特徴が用いられるが、外部知識の特徴は用いられない。CRFsuiteが用いられて、学習フェーズおよび推測フェーズが実行される。(Naoaki Okazaki、CRFsuite:a fast implementation of conditional random fields(crfs)(2007) (http://www.chokkan.org/software/crfsuiteにて利用可能))
B.CRF+WIDE
CRF+WIDEシステムは、標準的なCRFシステムにイリノイのNERシステムからの地名辞典の特徴を加えたものである(Lev Ratinov et al.による「Design challenges and misconceptions in named entity recognition」 Proc.13th Conf.on Computational Natural Language Learning(CoNLL−2009),pp.147−155,2009)。数多くの供給源から引き出された33個の地名辞典が存在し、それらの中にはトータルで約2百万の項目が記載されている。
以下のシステムは、本明細書に記載される実施形態に従って作られている。
C.CRF+NAME+TYPE
このシステムは、地名辞典60を含んでおり、実体型の情報(PERS、ORG、LOC、およびMISC)を有するドキュメントレベルの実体タグを用いる。型は文脈により変化するため、いつも正しいとは限らない可能性があるが、参考にすることはできる。
Kazama 2007に記載される通り、トークンと一致するタグの名前に基づくドキュメント専用のトークン特徴を設計するためにタグ符号化方式を用いる。この符号化方式では、型情報が有効であればそれも加え、B符号化、M符号化、E符号化、およびW符号化を用いて、16個の2項素性:B−PER、B−LOC、B−ORG、B−MISC、M−PER、M−LOC、M−ORG、M−MISC、E−PER、E−LOC、E−ORG、E−MISC、W−PER、W−LOC、W−ORG、W−MISCを生成する。
D.CRF+NAME+TYPE+REL
地名辞典60は、CRF+NAME+TYPEに関し、上記のドキュメントレベルの実体タグを用い、これらのドキュメントレベルの実体タグを用いて、付加的なKBから追加情報、および関連情報を集める。例えば、既知の型(有効であれば)、KBタグの名前、型、KBの別名、および大きな地名辞典を有する、United Nationsに対してUNを追加する。ドキュメントレベルの実体タグとは、KBの識別子(Wikipediaのタイトル)である。関連する名前のリストは、KBからタグごとに抽出される、すなわち、Wikipediaのページを用いて、そのWikipediaのページが示す別のWikipediaの一連のページを抽出し、それらを関連する名前として使用する。これらは自動的に抽出されるため、それらの型は未知であり、さらに4つの2項素性、すなわち、B−UNK、M−UNK、E−UNK、およびW−UNKが生成される。
これらのシステムは、CoNLL 2003 shared task(Erik F.Tjong Kim Sang,et alによる「Introduction to the CoNLL−2003 shared task: Language independent named entity recognition」(Proc. 7th Conf. on「Natural Language Learning at HLT−NAACL 2003,pp. 142−147,2003)を参照)で紹介された標準のNERベンチマークのデータセット上で評価され、Wikipediaへのリンク注釈と組み合わされる(Johannes Hoffart, et alによる「Robust disambiguation of named entities in text」(Proc. 2011 Conf. on Empirical Methods in Natural Language Processing,pp.782−792,2011,https://www.mpi−inf.mpg.de/departments/databases−and−information−systems/research/yago−naga/aida)を参照)。このデータセットには、TRAIN、TESTA、およびTESTBと示される3つのスプリットが含まれている。人(PER)、組織(ORG)、場所(LOC)および種々雑多(MISC)に関する標準的なタグの、およびCONLLevalの評価スクリプトが使用される。KBにリンクされたドキュメントにおける記載の平均割合は、TRAINおよびTESTBのスプリットで81%であり、TESTAのスプリットで85%である。
例1
表1には、CoNLL03のデータセットのTESTAの開発スプリット上での異なるシステム構成の性能が示されている。この例では、これらのモデルは、ドキュメント内の全ての記載から引用される実体にアクセスした。
表1:CoNLL03のTESTAに関する結果
Figure 0006829559
基本モデルでは、87.68%のFスコアで良好に動作し、大きな地名辞典を用いることにより、Fスコアは89.85%まで向上する。CRF+NAME+TYPEのモデルは、92.7%のFスコアを達成し、これはCRFの基本モデルやCRF+WIDEよりも良好な性能である。KB(CRF+NAME+TYPE+RELATED)からの型を持たない関連スパンでドキュメントの地名辞典を増やすと、全体的な性能は92.65%のFスコアまで落ちる。
例2
ドキュメント内の全ての記載から引用される実体にアクセスすることはモデルにとっては実行可能でないため、この例では、ドキュメントレベルの地名辞典は、最初のn個のセンテンスの記載から引用された実体のみに限定されている。このことは、分析者にドキュメントレベルの実体のリストを要求して、わざわざ最初のn個のセンテンスしか見ないのと同じである。図4には、より多くのセンテンスからそれぞれのモデルのドキュメントレベルの地名辞典が引用されると、CRF+NAME+TYPEおよびCRF+NAME+TYPE+RELの2つの例示的なモデルがどのように動作するかがFスコアにより示されている。この結果により、CRF+WIDEのモデルよりも良好な性能を実現するためには、CRF+NAME+TYPEのモデルでは、最初の4つのセンテンスのドキュメントレベルの実体タグを抽出しなければならなく、CRF+NAME+TYPE+RELのモデルでは、最初の5つのセンテンス(それぞれ4個または5個のタグの平均で)を抽出しなければならない。型を持たないKBスパンでドキュメントレベルの地名辞典を増やすことは、より少ないセンテンスでは有用であるが、全てのドキュメントレベルの実体タグが有効である場合、その性能を低下させる。
例3
この例では、システムが、上記のシステムの付加的なシステムを使用した。
E.KBタグの一致部分(MATCH)
ドキュメントの地名辞典からの最長の一致部分を見つけ、既知の型を割り当てる。これは、部分的な名前または非正規的な名前とは一致しないが、高精度であると予想される。これは、CoNLL 2003の基本システムと同様である(Erik F. Tjong Kim Sang, et al.,による「Introduction to the CoNLL−2003 shared task:Language independent named entity recognition」(Proc.7th Conf.on Natural Language Learning at HLT−NAACL 2003,142−147,2003))。
F.KBタグの修正(CRF+REPAIR)
CRFの基本モデルを用いてテキストにラベル付けを行い、ドキュメント地名辞典からの最長の一致部分を見つけ、既知の型を割り当てる。地名辞典の一致部分がCRFの一致部分と重複すると、地名辞典を使用し、CRFの一致部分を取り除く。部分的な一致部分は考慮されていないが、従来のCRFモデルでは難しい、より長い名前を認識することができる。
G.KBタグの名前(CRF+NAME)
上記のCRF+NAME+TYPEシステムと類似するが、型の情報を持たない、ドキュメント専用のタグの特徴が生成されるが、項目ごとに同じ型が使用される。
H.型と別名を有するKBタグの名前(CRF+NAME+TYPE+AKA)
上記のCRF+NAME+TYPEシステムと類似するが、KBを用いてKBタグの既知の別名でドキュメント専用の地名辞典を増やす。例えば、既知の型を用いて、United NationsにUNを追加する。
I.型と別名を有し広くカバーするKBタグの名前(CRF+NAME+TYPE+AKA+WIDE)
これは、KBタグの名前、タグの型、KBの別名を広くカバーする地名辞典に組み合わせたものである。
J.型と別名を有するKBタグの名前、および関連する名前(CRF+NAME+TYPE+AKA+WIDE)
これは、KBタグの名前、タグの型、KBの別名、およびリンクされたページから抽出した関連する名前を組み合せたものである。
WikipediaのAPIクライアントを用いて、KB情報を取得しキャッシュメモリに格納する。人(PER)、組織(ORG)、場所(LOC)、および種々雑多(MISC)のタグのセットが再度用いられ、精度、思い出す能力、およびFスコアがConlleval評価スクリプトから報告される。
地名辞典を別名で増やすことにより、TESTA単独でKBタグとして、平均26倍の数の地名辞典の項目が作られ、TESTBで23倍の項目が作られる。
表2には、Fスコア全体のTESTAに最初に注目した、異なる構成の性能が示されている。
表2:CoNLL2003のTESTAおよびTESTBの結果。全てのタグおよび型ごとのFスコアに関してP/R/Fが付与される。
特徴を修正したり、追加したりすることにより、標準のCRF基本モデル上に作られる「+」で始まる方法。
Figure 0006829559
MATCHの場合、KBタグの名前に対する一致により、精度は高くなるが、思い出す能力は55.35%のFスコアで低くなり、基本モデルのCRFの87.68%でよりもかなり悪くなる。その単純な推測にもかかわらず、ドキュメントの地名辞典内の最も長い一致部分を用いて、CRFタグを修正することにより、Fスコアは、驚くことに89.76%まで上昇し、89.85%のFスコアを有する広範囲の地名辞典よりほんの少し劣るだけだった。CRFの特徴(CRF+NAME)としてKBのタグを用いる第1の設定は、型のない名前を含み、89.29%のFスコアを有する。広い範囲をカバーする地名辞典よりも精度と思い出す能力が低くなり、型の情報がなければ、地名辞典が大きくなるほど良いことを示している。型の特徴(CRF+NAME+TYPE)を加えることにより、92.7%のFスコアとなり、CRFまたはCRF+WIDEよりも良好な性能を発揮する。33個の地名辞典のファイル名を4つのNER型に手作業でマッピングしてみると、TESTAの性能が落ちることが分かった。KBからの別名を用いてドキュメントの地名辞典を増やすことにより、別名に関するFスコアがさらに改善される(92.85%)。広い範囲をカバーする地名辞典をKBのタグに加えると、Fスコアが92.57%となり、若干落ちる。
KBのタグが、どのようにNERを向上させるかということを理解するために、TESTAに関するタグごとのFスコアを調べてみた。CRF+NAME+TYPE+AKAを用いることにより、PERの実体およびLOCの実体に関して、約95.5%のFスコアを得ることができる。CRF+WIDEでは、MISCの実体は、依然として正確にタグ付けするのが難しい。しかし、CRFの基本モデル全体に渡る型により得られるFスコアのパーセンテージを考慮すると、CRF+WIDEの地名辞典により、PERの実体の性能が最も向上し(+2.94%)、次いでORGの実体の性能も向上する(2.77%)。CRF+NAME+TYPE+AKAでは、上位の2つの実体は、ORGの実体(+6.83%)、次いで、PERの実体(+5.48%)となり逆転する。このことは、KBのタグは、組織の名前の認識を支援するのに、特に適していることを示している。KBのタグとCRF+WIDEが相補的であることを除けば、TESTBでも同様の傾向が確認できる。
上記の結果により、KBのタグが有効ならば、これらのタグによりNERが向上することが明らかとなる。しかし、上記のモデルは、全ての可能性のあるKBのタグを用い、上限を考慮に入れなければならない。忙しい作業者の事例を好適にモデリングするために、最初のn個のセンテンス内の記載からのKBのタグのみに地名辞典を限定する。これは、最初のn個のセンテンスのみを見直すよう注釈者に求める事例に対応する。
図5には、nの数が増加するにつれ、KBタグのモデルが、どのようにCRF+WIDE上で動作するかが示されている。これらの結果により、CRF+WIDEよりも良好な性能を達成するためには、CRF+NAME+TYPEでは、最初の5つのセンテンスを確認しなければならないことが分かる。2〜3個のセンテンスを用いるだけでは、別名(CRF+NAME+TYPE+AKA)を加えることで、性能は若干下降するが、4つより多いセンテンスを使用することにより、別名は常に変わることなく有用となる。この傾向はTESTBでも明らかであり、2〜3個のタグだけが有効である場合は特に、KB情報でタグを増やすことにより、NERが向上することが示される。
これらの結果により、正しいとされるが、テキストと整合されないKB実体タグ36が、NERを認識するために有用であることを示している。例で示されているように最初のn個のセンテンス内で、あるいは、ドキュメント内の任意の部分を形成する、人間の注釈者により認識される名前付き実体からドキュメント専用の地名辞典を作ることができる。CRFモデルを用いることにより、この証拠を原則に基づいた方法で利用することができる。これらの実験により、少数のドキュメントレベルのタグだけでも、非常に大きな地名辞典を用いたときと、同じ結果を得ることができることが示され、このことは、高精度のNERが必要な状況では良い投資になると見なすことができる。システムが、このKBを利用して、タイプされていない名前を有する地名辞典を拡張すれば、KBの実体タグ36の数を少なくすることができ、これにより、2〜3個のタグだけしか供給されていない場合でも、良好な性能を維持することができる。

Claims (10)

  1. 表現抽出方法であって、
    ドキュメントレベルの実体タグでタグ付けされる訓練サンプルから抽出される特徴で訓練された固有表現抽出モデルを提供するステップであって、各訓練サンプルには、少なくとも1つのテキスト列が含まれる、ステップと、
    ラベル付けされるテキストドキュメントを受け取るステップであって、前記テキストドキュメントが、少なくとも1つのドキュメントレベルの実体タグでタグ付けされる、ステップと、
    前記少なくとも1つのドキュメントレベルの実体タグに基づいて、ドキュメント専用の地名辞典を生成するステップであって、前記ドキュメント専用の地名辞典には、一連の項目、すなわち、一連の実体名のそれぞれに対して1項目が含まれる、ステップと、
    前記テキストドキュメントのテキスト列に関して、前記テキスト列のトークンに関する特徴を抽出するステップであって、前記特徴が、前記地名辞典の項目のうちの1つの前記実体名の少なくとも一部と一致するトークンに関するドキュメント専用の特徴を含む、ステップと、
    前記固有表現抽出モデルを用いて、前記抽出された特徴に基づいて、前記テキストドキュメントのテキスト列内のトークンに関する実体ラベルを予測するステップと、を含み、
    前記生成するステップ、前記抽出するステップ、および予測するステップの少なくとも1つは、プロセッサにより行われる、表現抽出方法。
  2. 前記固有表現抽出モデルを訓練するステップをさらに含む請求項1に記載の方法。
  3. 前記訓練するステップには、
    注釈付きの訓練サンプルを受け取ることであって、各訓練サンプルが、前記訓練サンプルの前記少なくとも1つのテキスト列のうちの少なくとも1つの記載を有する少なくとも1つのドキュメントレベルの実体タグでタグ付けされ、前記訓練サンプルの各テキスト列は、トークンレベルの実体ラベルで注釈される、ことと、
    訓練サンプルごとに、前記注釈付きの訓練サンプルの前記少なくとも1つのドキュメントレベルの実体タグに基づいて、ドキュメント専用の地名辞典を生成することであって、前記ドキュメント専用の地名辞典には、一連の実体名が含まれることと、
    前記ドキュメント専用の地名辞典を用いて、前記訓練サンプル内の各テキスト列のトークンに関する特徴を抽出することであって、前記特徴には、ドキュメント専用の特徴が含まれる、ことと、
    訓練サンプルごとに、前記抽出された特徴および前記トークンレベルの実体ラベルで前記固有表現抽出モデルを訓練することと、
    が含まれる、請求項2に記載の方法。
  4. 前記固有表現抽出モデルは、条件付き確率場のモデルである、請求項1に記載の方法。
  5. 前記ドキュメント専用の特徴が2項素性である、請求項1に記載の方法。
  6. 前記ドキュメント専用の特徴には、
    トークンが、少なくとも2つのトークンの地名辞典の実体名の最初のトークンと一致するかどうかを示す特徴、
    トークンが、少なくとも3つのトークンの地名辞典の実体名のうちの中間のトークンと一致するかどうかを示す特徴、
    トークンが、少なくとも2つのトークンの地名辞典の実体名のうちの最後のトークンと一致するかどうかを示す特徴、および
    トークンが、ユニグラムの地名辞典の実体名と一致するかどうかを示す特徴から成る群から選択される特徴が含まれる、請求項1に記載の方法。
  7. 前記ドキュメント専用の特徴には、前記群内の前記特徴のうちの少なくとも3つが含まれる、請求項6に記載の方法。
  8. 前記選択されるドキュメント専用の特徴のうちの少なくともいくつかが、複数の実体名の型から選択される実体名の型とそれぞれ関連する、請求項6に記載の方法。
  9. 表現抽出システムであって、
    ドキュメントレベルの実体タグでタグ付けされたテキスト列から抽出される特徴で訓練された固有表現抽出モデルを格納するメモリと、
    名前付き実体でラベル付けされる入力されるテキストドキュメントに関するドキュメント専用の地名辞典を生成する地名辞典生成器であって、前記テキストドキュメントが、少なくとも1つのドキュメントレベルの実体タグでタグ付けされ、前記ドキュメント専用の地名辞典が、前記少なくとも1つのドキュメントレベルの実体タグのそれぞれに基づく項目を含み、前記地名辞典項目が、実体名、および随意的には、実体型の所定の集合から選択される実体型を含む、地名辞典生成器と、
    前記テキストドキュメントのテキスト列に関して、前記テキスト列のトークンに関する特徴を抽出する特徴抽出コンポーネントであって、前記特徴には、トークンに関する前記地名辞典の項目のうちの1つと一致するドキュメント専用の特徴が含まれる、特徴抽出コンポーネントと、
    前記固有表現抽出モデルを用いて、前記抽出された特徴に基づいて、前記テキスト列内の前記トークンのうちの少なくともいくつかに関する実体ラベルを予測する認識コンポーネントと、
    前記メモリと通信し、前記地名辞典生成器、前記特徴抽出コンポーネント、および前記認識コンポーネントを実行するプロセッサと、を含む表現抽出システム。
  10. 固有表現抽出システムを訓練する方法であって、
    訓練サンプルの集合を受け取るステップであって、各訓練サンプルが、少なくとも1つの注釈付きの訓練シーケンスを含み、各訓練シーケンスが、トークンのシーケンスを含み、各訓練サンプルが、少なくとも1つのドキュメントレベルの実体タグでタグ付けされ、前記実体タグが、前記訓練サンプル内の記載と整合することなく、前記記載に対応する実体名を含み、前記訓練シーケンスがそれぞれ、トークンレベルの実体ラベルで注釈を付けられる、ステップと、
    訓練サンプルごとに、前記注釈付きの訓練サンプルの前記少なくとも1つのドキュメントレベルの実体タグに基づいて、ドキュメント専用の地名辞典を生成するステップであって、前記ドキュメント専用の地名辞典が、一連の項目を含み、各項目が個々の実体名を含む、ステップと、
    前記ドキュメント専用の地名辞典を用いて、前記注釈付きの訓練シーケンスのトークンに関する特徴を抽出するステップであって、前記特徴には、ドキュメント専用の特徴が含まれ、前記ドキュメント専用の特徴は、
    トークンが、少なくとも2つのトークンの地名辞典の実体名の最初のトークンと一致するかどうかを示す特徴、
    トークンが、少なくとも3つのトークンの地名辞典の実体名のうちの中間のトークンと一致するかどうかを示す特徴、
    トークンが、少なくとも2つのトークンの地名辞典の実体名のうちの最後のトークンと一致するかどうかを示す特徴、および
    トークンがユニグラムの地名辞典の実体名と一致するかどうかを示す特徴から成る群から選択される、ステップと、
    前記抽出された特徴および各訓練シーケンスに関する前記トークンレベルの実体ラベルを用いて、固有表現抽出モデルを訓練するステップと、を含み、
    前記生成するステップ、前記抽出するステップ、および前記訓練するステップは、プロセッサにより行われる、方法。
JP2016158512A 2015-08-27 2016-08-12 固有表現抽出用ドキュメント専用地名辞典 Active JP6829559B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/837,687 2015-08-27
US14/837,687 US9836453B2 (en) 2015-08-27 2015-08-27 Document-specific gazetteers for named entity recognition

Publications (2)

Publication Number Publication Date
JP2017045453A JP2017045453A (ja) 2017-03-02
JP6829559B2 true JP6829559B2 (ja) 2021-02-10

Family

ID=56683851

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016158512A Active JP6829559B2 (ja) 2015-08-27 2016-08-12 固有表現抽出用ドキュメント専用地名辞典

Country Status (3)

Country Link
US (1) US9836453B2 (ja)
EP (1) EP3136257A3 (ja)
JP (1) JP6829559B2 (ja)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
KR102437689B1 (ko) * 2015-09-16 2022-08-30 삼성전자주식회사 음성 인식 서버 및 그 제어 방법
CN106874256A (zh) * 2015-12-11 2017-06-20 北京国双科技有限公司 识别领域命名实体的方法及装置
US10765956B2 (en) * 2016-01-07 2020-09-08 Machine Zone Inc. Named entity recognition on chat data
US10489439B2 (en) * 2016-04-14 2019-11-26 Xerox Corporation System and method for entity extraction from semi-structured text documents
JP2018010532A (ja) * 2016-07-14 2018-01-18 株式会社レトリバ 情報処理装置、プログラム及び情報処理方法
WO2018039772A1 (en) 2016-09-02 2018-03-08 FutureVault Inc. Real-time document filtering systems and methods
CA3035100A1 (en) 2016-09-02 2018-03-08 FutureVault Inc. Systems and methods for sharing documents
US10467346B2 (en) * 2017-05-18 2019-11-05 Wipro Limited Method and system for generating named entities
US10062039B1 (en) * 2017-06-28 2018-08-28 CS Disco, Inc. Methods and apparatus for asynchronous and interactive machine learning using word embedding within text-based documents and multimodal documents
US10740560B2 (en) 2017-06-30 2020-08-11 Elsevier, Inc. Systems and methods for extracting funder information from text
US10652592B2 (en) 2017-07-02 2020-05-12 Comigo Ltd. Named entity disambiguation for providing TV content enrichment
US10108902B1 (en) * 2017-09-18 2018-10-23 CS Disco, Inc. Methods and apparatus for asynchronous and interactive machine learning using attention selection techniques
US10769387B2 (en) 2017-09-21 2020-09-08 Mz Ip Holdings, Llc System and method for translating chat messages
US20190108440A1 (en) 2017-10-09 2019-04-11 Yodlee, Inc. Information Enrichment Using Global Structure Learning
US11475209B2 (en) 2017-10-17 2022-10-18 Handycontract Llc Device, system, and method for extracting named entities from sectioned documents
US10726198B2 (en) 2017-10-17 2020-07-28 Handycontract, LLC Method, device, and system, for identifying data elements in data structures
CN108021557A (zh) * 2017-12-25 2018-05-11 北京牡丹电子集团有限责任公司数字电视技术中心 基于深度学习的不规则实体识别方法
US11086913B2 (en) * 2018-01-02 2021-08-10 Freshworks Inc. Named entity recognition from short unstructured text
CN108280064B (zh) * 2018-02-28 2020-09-11 北京理工大学 分词、词性标注、实体识别及句法分析的联合处理方法
CN110555206A (zh) * 2018-06-01 2019-12-10 中兴通讯股份有限公司 一种命名实体识别方法、装置、设备及存储介质
US10831997B2 (en) * 2018-08-09 2020-11-10 CloudMinds Technology, Inc. Intent classification method and system
AU2019346440A1 (en) 2018-09-26 2021-05-27 Leverton Holding Llc Named entity recognition with convolutional networks
CN109657239B (zh) * 2018-12-12 2020-04-21 电子科技大学 基于注意力机制和语言模型学习的中文命名实体识别方法
US11301633B2 (en) 2018-12-25 2022-04-12 Microsoft Technology Licensing, Llc Technical document issues scanner
CN111435411B (zh) * 2019-01-15 2023-07-11 菜鸟智能物流控股有限公司 命名体类型识别方法和装置以及电子设备
CN110321550A (zh) * 2019-04-25 2019-10-11 北京科技大学 一种面向中医古籍文献的命名实体识别方法和装置
CN110110335B (zh) * 2019-05-09 2023-01-06 南京大学 一种基于层叠模型的命名实体识别方法
CN110188359B (zh) * 2019-05-31 2023-01-03 成都火石创造科技有限公司 一种文本实体抽取方法
CN112434530A (zh) * 2019-08-06 2021-03-02 富士通株式会社 信息处理装置和信息处理方法
US11386463B2 (en) * 2019-12-17 2022-07-12 At&T Intellectual Property I, L.P. Method and apparatus for labeling data
CN111259134B (zh) * 2020-01-19 2023-08-08 出门问问信息科技有限公司 一种实体识别方法、设备及计算机可读存储介质
CN111310456B (zh) * 2020-02-13 2023-06-20 支付宝(杭州)信息技术有限公司 一种实体名称匹配方法、装置及设备
CN111506803B (zh) 2020-03-17 2023-10-31 阿波罗智联(北京)科技有限公司 内容推荐方法、装置、电子设备及存储介质
CN111460824B (zh) * 2020-03-30 2022-06-14 华南理工大学 一种基于对抗迁移学习的无标注命名实体识别方法
WO2021214941A1 (ja) * 2020-04-23 2021-10-28 富士通株式会社 機械学習プログラム、機械学習方法および固有表現認識装置
CN111651993A (zh) * 2020-05-11 2020-09-11 北京理工大学 融合局部-全局字符级关联特征的中文命名实体识别方法
CN111476023B (zh) * 2020-05-22 2023-09-01 北京明朝万达科技股份有限公司 识别实体关系的方法及装置
US11604925B1 (en) * 2020-05-22 2023-03-14 Amazon Technologies, Inc. Architecture for gazetteer-augmented named entity recognition
CN113743117B (zh) * 2020-05-29 2024-04-09 华为技术有限公司 用于实体标注的方法和装置
US11704580B2 (en) 2020-05-31 2023-07-18 International Business Machines Corporation Automated combination of predictions made by different prediction systems
CN113761968A (zh) * 2020-06-01 2021-12-07 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备及计算机存储介质
CN111882165A (zh) * 2020-07-01 2020-11-03 国网河北省电力有限公司经济技术研究院 一种综合项目造价分析数据拆分装置及方法
US20220012830A1 (en) * 2020-07-10 2022-01-13 MounTavor, Inc. Method and system for automatic analysis of legal documents using sequence alignemnt
CN111858938B (zh) * 2020-07-23 2024-05-24 鼎富智能科技有限公司 一种裁判文书标签的提取方法及装置
CN112051996B (zh) * 2020-08-18 2023-09-29 远光软件股份有限公司 一种基于开发平台元素统一命名字典的建模方法及装置
CN111931509A (zh) * 2020-08-28 2020-11-13 北京百度网讯科技有限公司 实体链指方法、装置、电子设备及存储介质
US11790172B2 (en) 2020-09-18 2023-10-17 Microsoft Technology Licensing, Llc Systems and methods for identifying entities and constraints in natural language input
CN112287680B (zh) * 2020-10-23 2024-04-09 微医云(杭州)控股有限公司 一种问诊信息的实体抽取方法、装置、设备及存储介质
CN112582074B (zh) * 2020-11-02 2022-10-18 吉林大学 基于Bi-LSTM与TF-IDF的新冠疫情预测与分析方法
CN112800175B (zh) * 2020-11-03 2022-11-25 广东电网有限责任公司 一种电力系统知识实体跨文档搜索方法
US11663407B2 (en) * 2020-12-02 2023-05-30 International Business Machines Corporation Management of text-item recognition systems
CN112711948B (zh) * 2020-12-22 2022-11-11 北京邮电大学 一种中文句子的命名实体识别方法及装置
CN113011186B (zh) * 2021-01-25 2024-04-26 腾讯科技(深圳)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN113361253B (zh) * 2021-05-28 2024-04-09 北京金山数字娱乐科技有限公司 识别模型训练方法及装置
CN113032585B (zh) * 2021-05-31 2021-08-20 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于文档结构和外部知识的文档级实体关系抽取方法
CN113255357A (zh) * 2021-06-24 2021-08-13 北京金山数字娱乐科技有限公司 数据处理、目标识别模型训练、目标识别方法及装置
CN113822026B (zh) * 2021-09-10 2022-07-08 神思电子技术股份有限公司 一种多标签实体标注方法
CN113626564B (zh) * 2021-10-09 2021-12-17 腾讯科技(深圳)有限公司 一种概念标签生成方法、装置、电子设备和存储介质
CN114218951B (zh) * 2021-12-16 2023-03-24 北京百度网讯科技有限公司 实体识别模型的训练方法、实体识别方法及装置

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6076088A (en) 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
EP0932897B1 (en) 1997-06-26 2003-10-08 Koninklijke Philips Electronics N.V. A machine-organized method and a device for translating a word-organized source text into a word-organized target text
CN1159661C (zh) 1999-04-08 2004-07-28 肯特里奇数字实验公司 用于中文的标记和命名实体识别的系统
JP4200645B2 (ja) 2000-09-08 2008-12-24 日本電気株式会社 情報処理装置、情報処理方法および記録媒体
US7058567B2 (en) 2001-10-10 2006-06-06 Xerox Corporation Natural language parser
CN1643512A (zh) 2002-03-27 2005-07-20 南加利福尼亚大学 统计机译中短语化联合概率模型的短语
WO2003083709A2 (en) 2002-03-28 2003-10-09 University Of Southern California Statistical machine translation
TWI256562B (en) 2002-05-03 2006-06-11 Ind Tech Res Inst Method for named-entity recognition and verification
US7672830B2 (en) 2005-02-22 2010-03-02 Xerox Corporation Apparatus and methods for aligning words in bilingual sentences
US7536295B2 (en) 2005-12-22 2009-05-19 Xerox Corporation Machine translation using non-contiguous fragments of text
US8260785B2 (en) * 2006-02-17 2012-09-04 Google Inc. Automatic object reference identification and linking in a browseable fact repository
US7542893B2 (en) 2006-05-10 2009-06-02 Xerox Corporation Machine translation using elastic chunks
US9020804B2 (en) 2006-05-10 2015-04-28 Xerox Corporation Method for aligning sentences at the word level enforcing selective contiguity constraints
US20080052262A1 (en) * 2006-08-22 2008-02-28 Serhiy Kosinov Method for personalized named entity recognition
US8374844B2 (en) 2007-06-22 2013-02-12 Xerox Corporation Hybrid system for named entity resolution
JP2011501258A (ja) * 2007-10-10 2011-01-06 アイティーアイ・スコットランド・リミテッド 情報抽出装置および方法
US8594996B2 (en) 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
US8000956B2 (en) 2008-02-08 2011-08-16 Xerox Corporation Semantic compatibility checking for automatic correction and discovery of named entities
US8775154B2 (en) 2008-09-18 2014-07-08 Xerox Corporation Query translation through dictionary adaptation
US8370128B2 (en) 2008-09-30 2013-02-05 Xerox Corporation Semantically-driven extraction of relations between named entities
US8429099B1 (en) * 2010-10-14 2013-04-23 Aro, Inc. Dynamic gazetteers for entity recognition and fact association
EP2839391A4 (en) * 2012-04-20 2016-01-27 Maluuba Inc CONVERSATION AGENT
US9189473B2 (en) 2012-05-18 2015-11-17 Xerox Corporation System and method for resolving entity coreference
US8543563B1 (en) 2012-05-24 2013-09-24 Xerox Corporation Domain adaptation for query translation
US20140163951A1 (en) 2012-12-07 2014-06-12 Xerox Corporation Hybrid adaptation of named entity recognition
US9292797B2 (en) * 2012-12-14 2016-03-22 International Business Machines Corporation Semi-supervised data integration model for named entity classification
US8805845B1 (en) * 2013-07-31 2014-08-12 LinedIn Corporation Framework for large-scale multi-label classification
US9971763B2 (en) * 2014-04-08 2018-05-15 Microsoft Technology Licensing, Llc Named entity recognition

Also Published As

Publication number Publication date
JP2017045453A (ja) 2017-03-02
US20170060835A1 (en) 2017-03-02
EP3136257A2 (en) 2017-03-01
EP3136257A3 (en) 2017-05-03
US9836453B2 (en) 2017-12-05

Similar Documents

Publication Publication Date Title
JP6829559B2 (ja) 固有表現抽出用ドキュメント専用地名辞典
US11030199B2 (en) Systems and methods for contextual retrieval and contextual display of records
CN111382571B (zh) 一种信息抽取方法、系统、服务器和存储介质
GB2555207A (en) System and method for identifying passages in electronic documents
Ekbal et al. Maximum entropy based bengali part of speech tagging
Hu et al. Self-supervised synonym extraction from the web.
Gupta et al. Designing and development of stemmer of Dogri using unsupervised learning
Dalai et al. Part-of-speech tagging of Odia language using statistical and deep learning based approaches
Jafari et al. SatelliteNER: An Effective Named Entity Recognition Model for the Satellite Domain.
Tran et al. Semi-supervised approach based on co-occurrence coefficient for named entity recognition on twitter
Veera Prathap Reddy et al. NERSE: named entity recognition in software engineering as a service
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
Celikyilmaz et al. An empirical investigation of word class-based features for natural language understanding
Room Named entity recognition
US20220366135A1 (en) Extended open information extraction system
Gupta et al. A Statistical Language Modeling Framework for Extractive Summarization of Text Documents
Dhanalakshmi et al. Chunker for tamil
Schacht et al. PromptIE-Information Extraction with Prompt-Engineering and Large Language Models
Matos et al. Towards automatic creation of annotations to foster development of named entity recognizers
Ulanganathan et al. Benchmarking Mi-NER: Malay entity recognition engine
Babhulgaonkar et al. Experimenting with factored language model and generalized back-off for Hindi
Krishnan et al. Employing Wikipedia as a resource for Named Entity Recognition in Morphologically complex under-resourced languages
Nair et al. A study on morphological analyser for indian languages: A literature perspective
US11222165B1 (en) Sliding window to detect entities in corpus using natural language processing
Choi et al. Abbreviation Disambiguation: A Review of Modern Techniques to Improve Machine Reading Comprehension

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20161004

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20161117

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20181010

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181114

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181214

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190813

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200901

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201023

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210122

R150 Certificate of patent or registration of utility model

Ref document number: 6829559

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150