JP2017045453A - 固有表現抽出用ドキュメント専用地名辞典 - Google Patents
固有表現抽出用ドキュメント専用地名辞典 Download PDFInfo
- Publication number
- JP2017045453A JP2017045453A JP2016158512A JP2016158512A JP2017045453A JP 2017045453 A JP2017045453 A JP 2017045453A JP 2016158512 A JP2016158512 A JP 2016158512A JP 2016158512 A JP2016158512 A JP 2016158512A JP 2017045453 A JP2017045453 A JP 2017045453A
- Authority
- JP
- Japan
- Prior art keywords
- document
- entity
- token
- features
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
Bトークンは、少なくとも2つのトークンの地名辞典の名前の最初のトークンと一致する。
Mトークンは、少なくとも3つのトークンの地名辞典の名前の真ん中の(すなわち、中間:最初でなく、最後でない)トークンと一致する。
Eトークンは、少なくとも2つのトークンの地名辞典の名前の最後のトークンと一致する。
Wトークンは、ユニグラムの地名辞典の名前と一致する。
B−PERトークンは、少なくとも2つのトークンの地名辞典の人の名前の最初と一致する。
B−LOCトークンは、少なくとも2つのトークンの地名辞典の場所の名前の最初と一致する。
B−ORGトークンは、少なくとも2つのトークンの地名辞典の組織の名前の最初と一致する。
B−MISCトークンは、少なくとも2つのトークンの地名辞典のその他の名前の最初と一致する。
1.トークン自体の特徴、例えば、
トークンの品詞、例えば、トークンは名詞か[または代名詞、動詞、副詞、形容詞など]、
トークンの最初の文字が大文字か?
トークンは、有効であれば、既知の人の名前のリストなどの既存の非ドキュメント専用の一般地名辞典66であり得る、地名辞典内に記載されているか。
2.直前のトークンは地名辞典に記載されるか?などのシーケンスの前のトークン(複数可)の特徴。
いくつかの構成が作られている。
このシステムには、標準的なCRFモデルが含まれ、この標準的なCRFモデルでは、文脈特徴、および文字の形の特徴が用いられるが、外部知識の特徴は用いられない。CRFsuiteが用いられて、学習フェーズおよび推測フェーズが実行される。(Naoaki Okazaki、CRFsuite:a fast implementation of conditional random fields(crfs)(2007) (http://www.chokkan.org/software/crfsuiteにて利用可能))
CRF+WIDEシステムは、標準的なCRFシステムにイリノイのNERシステムからの地名辞典の特徴を加えたものである(Lev Ratinov et al.による「Design challenges and misconceptions in named entity recognition」 Proc.13th Conf.on Computational Natural Language Learning(CoNLL−2009),pp.147−155,2009)。数多くの供給源から引き出された33個の地名辞典が存在し、それらの中にはトータルで約2百万の項目が記載されている。
このシステムは、地名辞典60を含んでおり、実体型の情報(PERS、ORG、LOC、およびMISC)を有するドキュメントレベルの実体タグを用いる。型は文脈により変化するため、いつも正しいとは限らない可能性があるが、参考にすることはできる。
地名辞典60は、CRF+NAME+TYPEに関し、上記のドキュメントレベルの実体タグを用い、これらのドキュメントレベルの実体タグを用いて、付加的なKBから追加情報、および関連情報を集める。例えば、既知の型(有効であれば)、KBタグの名前、型、KBの別名、および大きな地名辞典を有する、United Nationsに対してUNを追加する。ドキュメントレベルの実体タグとは、KBの識別子(Wikipediaのタイトル)である。関連する名前のリストは、KBからタグごとに抽出される、すなわち、Wikipediaのページを用いて、そのWikipediaのページが示す別のWikipediaの一連のページを抽出し、それらを関連する名前として使用する。これらは自動的に抽出されるため、それらの型は未知であり、さらに4つの2項素性、すなわち、B−UNK、M−UNK、E−UNK、およびW−UNKが生成される。
表1には、CoNLL03のデータセットのTESTAの開発スプリット上での異なるシステム構成の性能が示されている。この例では、これらのモデルは、ドキュメント内の全ての記載から引用される実体にアクセスした。
ドキュメント内の全ての記載から引用される実体にアクセスすることはモデルにとっては実行可能でないため、この例では、ドキュメントレベルの地名辞典は、最初のn個のセンテンスの記載から引用された実体のみに限定されている。このことは、分析者にドキュメントレベルの実体のリストを要求して、わざわざ最初のn個のセンテンスしか見ないのと同じである。図4には、より多くのセンテンスからそれぞれのモデルのドキュメントレベルの地名辞典が引用されると、CRF+NAME+TYPEおよびCRF+NAME+TYPE+RELの2つの例示的なモデルがどのように動作するかがFスコアにより示されている。この結果により、CRF+WIDEのモデルよりも良好な性能を実現するためには、CRF+NAME+TYPEのモデルでは、最初の4つのセンテンスのドキュメントレベルの実体タグを抽出しなければならなく、CRF+NAME+TYPE+RELのモデルでは、最初の5つのセンテンス(それぞれ4個または5個のタグの平均で)を抽出しなければならない。型を持たないKBスパンでドキュメントレベルの地名辞典を増やすことは、より少ないセンテンスでは有用であるが、全てのドキュメントレベルの実体タグが有効である場合、その性能を低下させる。
この例では、システムが、上記のシステムの付加的なシステムを使用した。
ドキュメントの地名辞典からの最長の一致部分を見つけ、既知の型を割り当てる。これは、部分的な名前または非正規的な名前とは一致しないが、高精度であると予想される。これは、CoNLL 2003の基本システムと同様である(Erik F. Tjong Kim Sang, et al.,による「Introduction to the CoNLL−2003 shared task:Language independent named entity recognition」(Proc.7th Conf.on Natural Language Learning at HLT−NAACL 2003,142−147,2003))。
CRFの基本モデルを用いてテキストにラベル付けを行い、ドキュメント地名辞典からの最長の一致部分を見つけ、既知の型を割り当てる。地名辞典の一致部分がCRFの一致部分と重複すると、地名辞典を使用し、CRFの一致部分を取り除く。部分的な一致部分は考慮されていないが、従来のCRFモデルでは難しい、より長い名前を認識することができる。
上記のCRF+NAME+TYPEシステムと類似するが、型の情報を持たない、ドキュメント専用のタグの特徴が生成されるが、項目ごとに同じ型が使用される。
上記のCRF+NAME+TYPEシステムと類似するが、KBを用いてKBタグの既知の別名でドキュメント専用の地名辞典を増やす。例えば、既知の型を用いて、United NationsにUNを追加する。
これは、KBタグの名前、タグの型、KBの別名を広くカバーする地名辞典に組み合わせたものである。
これは、KBタグの名前、タグの型、KBの別名、およびリンクされたページから抽出した関連する名前を組み合せたものである。
表2:CoNLL2003のTESTAおよびTESTBの結果。全てのタグおよび型ごとのFスコアに関してP/R/Fが付与される。
Claims (10)
- 表現抽出方法であって、
ドキュメントレベルの実体タグでタグ付けされる訓練サンプルから抽出される特徴で訓練された固有表現抽出モデルを提供するステップであって、各訓練サンプルには、少なくとも1つのテキスト列が含まれる、ステップと、
ラベル付けされるテキストドキュメントを受け取るステップであって、前記テキストドキュメントが、少なくとも1つのドキュメントレベルの実体タグでタグ付けされる、ステップと、
前記少なくとも1つのドキュメントレベルの実体タグに基づいて、前記ドキュメント専用の地名辞典を生成するステップであって、前記ドキュメント専用の地名辞典には、一連の項目、すなわち、一連の実体名のそれぞれに対して1項目が含まれる、ステップと、
前記ドキュメントのテキスト列に関して、前記テキスト列のトークンに関する特徴を抽出するステップであって、前記特徴が、前記地名辞典の項目のうちの1つの前記実体名の少なくとも一部と一致するトークンに関するドキュメント専用の特徴を含む、ステップと、
前記固有表現抽出モデルを用いて、前記抽出された特徴に基づいて、前記ドキュメントのテキスト列内のトークンに関する実体ラベルを予測するステップと、を含み、
前記生成するステップ、前記抽出するステップ、および予測するステップの少なくとも1つは、プロセッサにより行われる、表現抽出方法。 - 前記固有表現抽出モデルを訓練するステップをさらに含む請求項1に記載の方法。
- 前記訓練するステップには、
注釈付きの訓練サンプルを受け取ることであって、各訓練サンプルが、前記訓練サンプルの前記シーケンスのうちの少なくとも1つの記載を有する少なくとも1つのドキュメントレベルの実体タグでタグ付けされ、前記訓練サンプルの各シーケンスは、トークンレベルの実体ラベルで注釈される、ことと、
訓練サンプルごとに、前記注釈付きの訓練サンプルの前記少なくとも1つのドキュメントレベルの実体タグに基づいて、ドキュメント専用の地名辞典を生成することであって、前記ドキュメント専用の地名辞典には、一連の実体名が含まれることと、
前記ドキュメント専用の地名辞典を用いて、前記訓練サンプル内の各シーケンスのトークンに関する特徴を抽出することであって、前記特徴には、ドキュメント専用の特徴が含まれる、ことと、
訓練シーケンスごとに、前記抽出された特徴および前記トークンレベルの実体ラベルで前記固有表現抽出モデルを訓練することと、が含まれる、請求項2に記載の方法。 - 前記固有表現抽出モジュールは、条件付き確率場のモデルである、請求項1に記載の方法。
- 前記ドキュメント専用の特徴が2項素性である、請求項1に記載の方法。
- 前記ドキュメント専用の特徴には、
トークンが、少なくとも2つのトークンの地名辞典の実体名の最初のトークンと一致するかどうかを示す特徴、
トークンが、少なくとも3つのトークンの地名辞典の実体名のうちの中間のトークンと一致するかどうかを示す特徴、
トークンが、少なくとも2つのトークンの地名辞典の実体名のうちの最後のトークンと一致するかどうかを示す特徴、および
トークンが、ユニグラムの地名辞典の実体名と一致するかどうかを示す特徴から成る群から選択される特徴が含まれる、請求項1に記載の方法。 - 前記ドキュメント専用の特徴には、前記群内の前記特徴のうちの少なくとも3つが含まれる、請求項6に記載の方法。
- 前記選択されるドキュメント専用の特徴のうちの少なくともいくつかが、複数の実体名の型から選択される実体名の型とそれぞれ関連する、請求項6に記載の方法。
- 表現抽出システムであって、
ドキュメントレベルの実体タグでタグ付けされたテキスト列から抽出される特徴で訓練された固有表現抽出モデルを格納するメモリと、
名前付き実体でラベル付けされる入力されるテキストドキュメントに関するドキュメント専用の地名辞典を生成する地名辞典生成器であって、前記テキストドキュメントが、少なくとも1つのドキュメントレベルの実体タグでタグ付けされ、前記ドキュメント専用の地名辞典が、前記少なくとも1つのドキュメントレベルの実体タグのそれぞれに基づく項目を含み、前記地名辞典項目が、実体名、および随意的には、実体型の所定の集合から選択される実体型を含む、地名辞典生成器と、
前記テキストドキュメントのテキスト列に関して、前記テキスト列のトークンに関する特徴を抽出する特徴抽出コンポーネントであって、前記特徴には、トークンに関する前記地名辞典の項目のうちの1つと一致するドキュメント専用の特徴が含まれる、特徴抽出コンポーネントと、
前記固有表現抽出モデルを用いて、前記抽出された特徴に基づいて、前記テキスト列内の前記トークンのうちの少なくともいくつかに関する実体ラベルを予測する認識コンポーネントと、
前記メモリと通信し、前記地名辞典生成器、前記特徴抽出コンポーネント、および前記認識コンポーネントを実行するプロセッサと、を含む表現抽出システム。 - 固有表現抽出システムを訓練する方法であって、
訓練サンプルの集合を受け取るステップであって、各訓練サンプルが、少なくとも1つの注釈付きの訓練シーケンスを含み、各訓練シーケンスが、トークンのシーケンスを含み、各訓練サンプルが、少なくとも1つのドキュメントレベルの実体タグでタグ付けされ、前記実体タグが、前記サンプル内の記載と整合することなく、前記記載に対応する実体名を含み、前記訓練シーケンスがそれぞれ、トークンレベルの実体ラベルで注釈を付けられる、ステップと、
訓練サンプルごとに、前記注釈付きの訓練サンプルの前記少なくとも1つのドキュメントレベルの実体タグに基づいて、ドキュメント専用の地名辞典を生成するステップであって、前記ドキュメント専用の地名辞典が、一連の項目を含み、各項目が個々の実体名を含む、ステップと、
前記ドキュメント専用の地名辞典を用いて、前記注釈付きの訓練シーケンスのトークンに関する特徴を抽出するステップであって、前記特徴には、ドキュメント専用の特徴が含まれ、前記ドキュメント専用の特徴は、
トークンが、少なくとも2つのトークンの地名辞典の実体名の最初のトークンと一致するかどうかを示す特徴、
トークンが、少なくとも3つのトークンの地名辞典の実体名のうちの中間のトークンと一致するかどうかを示す特徴、
トークンが、少なくとも2つのトークンの地名辞典の実体名のうちの最後のトークンと一致するかどうかを示す特徴、および
トークンがユニグラムの地名辞典の実体名と一致するかどうかを示す特徴から成る群から選択される、ステップと、
前記抽出された特徴および各訓練シーケンスに関する前記トークンレベルの実体ラベルを用いて、固有表現抽出モデルを訓練するステップと、を含み、
前記生成するステップ、前記抽出するステップ、および前記訓練するステップは、プロセッサにより行われる、方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/837,687 | 2015-08-27 | ||
US14/837,687 US9836453B2 (en) | 2015-08-27 | 2015-08-27 | Document-specific gazetteers for named entity recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017045453A true JP2017045453A (ja) | 2017-03-02 |
JP6829559B2 JP6829559B2 (ja) | 2021-02-10 |
Family
ID=56683851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016158512A Active JP6829559B2 (ja) | 2015-08-27 | 2016-08-12 | 固有表現抽出用ドキュメント専用地名辞典 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9836453B2 (ja) |
EP (1) | EP3136257A3 (ja) |
JP (1) | JP6829559B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657239A (zh) * | 2018-12-12 | 2019-04-19 | 电子科技大学 | 基于注意力机制和语言模型学习的中文命名实体识别方法 |
CN111460824A (zh) * | 2020-03-30 | 2020-07-28 | 华南理工大学 | 一种基于对抗迁移学习的无标注命名实体识别方法 |
WO2021214941A1 (ja) * | 2020-04-23 | 2021-10-28 | 富士通株式会社 | 機械学習プログラム、機械学習方法および固有表現認識装置 |
Families Citing this family (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9634855B2 (en) | 2010-05-13 | 2017-04-25 | Alexander Poltorak | Electronic personal interactive device that determines topics of interest using a conversational agent |
KR102437689B1 (ko) * | 2015-09-16 | 2022-08-30 | 삼성전자주식회사 | 음성 인식 서버 및 그 제어 방법 |
CN106874256A (zh) * | 2015-12-11 | 2017-06-20 | 北京国双科技有限公司 | 识别领域命名实体的方法及装置 |
US10765956B2 (en) * | 2016-01-07 | 2020-09-08 | Machine Zone Inc. | Named entity recognition on chat data |
US10489439B2 (en) * | 2016-04-14 | 2019-11-26 | Xerox Corporation | System and method for entity extraction from semi-structured text documents |
JP2018010532A (ja) * | 2016-07-14 | 2018-01-18 | 株式会社レトリバ | 情報処理装置、プログラム及び情報処理方法 |
SG11201901775SA (en) | 2016-09-02 | 2019-03-28 | Futurevault Inc | Real-time document filtering systems and methods |
EP3507723A4 (en) | 2016-09-02 | 2020-04-01 | FutureVault Inc. | SYSTEMS AND METHODS FOR SHARING DOCUMENTS |
US10467346B2 (en) * | 2017-05-18 | 2019-11-05 | Wipro Limited | Method and system for generating named entities |
US10062039B1 (en) * | 2017-06-28 | 2018-08-28 | CS Disco, Inc. | Methods and apparatus for asynchronous and interactive machine learning using word embedding within text-based documents and multimodal documents |
US10740560B2 (en) | 2017-06-30 | 2020-08-11 | Elsevier, Inc. | Systems and methods for extracting funder information from text |
US10652592B2 (en) | 2017-07-02 | 2020-05-12 | Comigo Ltd. | Named entity disambiguation for providing TV content enrichment |
US10108902B1 (en) * | 2017-09-18 | 2018-10-23 | CS Disco, Inc. | Methods and apparatus for asynchronous and interactive machine learning using attention selection techniques |
US10769387B2 (en) | 2017-09-21 | 2020-09-08 | Mz Ip Holdings, Llc | System and method for translating chat messages |
US20190108440A1 (en) | 2017-10-09 | 2019-04-11 | Yodlee, Inc. | Information Enrichment Using Global Structure Learning |
WO2019077405A1 (en) | 2017-10-17 | 2019-04-25 | Handycontract, LLC | METHOD, DEVICE AND SYSTEM FOR IDENTIFYING DATA ELEMENTS IN DATA STRUCTURES |
US11475209B2 (en) | 2017-10-17 | 2022-10-18 | Handycontract Llc | Device, system, and method for extracting named entities from sectioned documents |
CN108021557A (zh) * | 2017-12-25 | 2018-05-11 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 基于深度学习的不规则实体识别方法 |
US11086913B2 (en) * | 2018-01-02 | 2021-08-10 | Freshworks Inc. | Named entity recognition from short unstructured text |
CN108280064B (zh) * | 2018-02-28 | 2020-09-11 | 北京理工大学 | 分词、词性标注、实体识别及句法分析的联合处理方法 |
CN110555206A (zh) * | 2018-06-01 | 2019-12-10 | 中兴通讯股份有限公司 | 一种命名实体识别方法、装置、设备及存储介质 |
US10831997B2 (en) * | 2018-08-09 | 2020-11-10 | CloudMinds Technology, Inc. | Intent classification method and system |
US11138425B2 (en) | 2018-09-26 | 2021-10-05 | Leverton Holding Llc | Named entity recognition with convolutional networks |
WO2020132850A1 (en) * | 2018-12-25 | 2020-07-02 | Microsoft Technology Licensing, Llc | Technical document issues scanner |
CN111435411B (zh) * | 2019-01-15 | 2023-07-11 | 菜鸟智能物流控股有限公司 | 命名体类型识别方法和装置以及电子设备 |
CN110321550A (zh) * | 2019-04-25 | 2019-10-11 | 北京科技大学 | 一种面向中医古籍文献的命名实体识别方法和装置 |
CN110110335B (zh) * | 2019-05-09 | 2023-01-06 | 南京大学 | 一种基于层叠模型的命名实体识别方法 |
CN110188359B (zh) * | 2019-05-31 | 2023-01-03 | 成都火石创造科技有限公司 | 一种文本实体抽取方法 |
CN112434530A (zh) * | 2019-08-06 | 2021-03-02 | 富士通株式会社 | 信息处理装置和信息处理方法 |
US11386463B2 (en) * | 2019-12-17 | 2022-07-12 | At&T Intellectual Property I, L.P. | Method and apparatus for labeling data |
CN111259134B (zh) * | 2020-01-19 | 2023-08-08 | 出门问问信息科技有限公司 | 一种实体识别方法、设备及计算机可读存储介质 |
CN111310456B (zh) * | 2020-02-13 | 2023-06-20 | 支付宝(杭州)信息技术有限公司 | 一种实体名称匹配方法、装置及设备 |
CN111506803B (zh) | 2020-03-17 | 2023-10-31 | 阿波罗智联(北京)科技有限公司 | 内容推荐方法、装置、电子设备及存储介质 |
CN111651993A (zh) * | 2020-05-11 | 2020-09-11 | 北京理工大学 | 融合局部-全局字符级关联特征的中文命名实体识别方法 |
US11604925B1 (en) * | 2020-05-22 | 2023-03-14 | Amazon Technologies, Inc. | Architecture for gazetteer-augmented named entity recognition |
CN111476023B (zh) * | 2020-05-22 | 2023-09-01 | 北京明朝万达科技股份有限公司 | 识别实体关系的方法及装置 |
CN113743117B (zh) * | 2020-05-29 | 2024-04-09 | 华为技术有限公司 | 用于实体标注的方法和装置 |
US11704580B2 (en) | 2020-05-31 | 2023-07-18 | International Business Machines Corporation | Automated combination of predictions made by different prediction systems |
CN113761968A (zh) * | 2020-06-01 | 2021-12-07 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置、电子设备及计算机存储介质 |
CN111882165A (zh) * | 2020-07-01 | 2020-11-03 | 国网河北省电力有限公司经济技术研究院 | 一种综合项目造价分析数据拆分装置及方法 |
US20220012830A1 (en) * | 2020-07-10 | 2022-01-13 | MounTavor, Inc. | Method and system for automatic analysis of legal documents using sequence alignemnt |
CN111858938B (zh) * | 2020-07-23 | 2024-05-24 | 鼎富智能科技有限公司 | 一种裁判文书标签的提取方法及装置 |
CN112051996B (zh) * | 2020-08-18 | 2023-09-29 | 远光软件股份有限公司 | 一种基于开发平台元素统一命名字典的建模方法及装置 |
CN111931509A (zh) * | 2020-08-28 | 2020-11-13 | 北京百度网讯科技有限公司 | 实体链指方法、装置、电子设备及存储介质 |
US11790172B2 (en) | 2020-09-18 | 2023-10-17 | Microsoft Technology Licensing, Llc | Systems and methods for identifying entities and constraints in natural language input |
CN112287680B (zh) * | 2020-10-23 | 2024-04-09 | 微医云(杭州)控股有限公司 | 一种问诊信息的实体抽取方法、装置、设备及存储介质 |
CN112582074B (zh) * | 2020-11-02 | 2022-10-18 | 吉林大学 | 基于Bi-LSTM与TF-IDF的新冠疫情预测与分析方法 |
CN112800175B (zh) * | 2020-11-03 | 2022-11-25 | 广东电网有限责任公司 | 一种电力系统知识实体跨文档搜索方法 |
US11663407B2 (en) * | 2020-12-02 | 2023-05-30 | International Business Machines Corporation | Management of text-item recognition systems |
CN112711948B (zh) * | 2020-12-22 | 2022-11-11 | 北京邮电大学 | 一种中文句子的命名实体识别方法及装置 |
CN113011186B (zh) * | 2021-01-25 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN113361253B (zh) * | 2021-05-28 | 2024-04-09 | 北京金山数字娱乐科技有限公司 | 识别模型训练方法及装置 |
CN113032585B (zh) * | 2021-05-31 | 2021-08-20 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于文档结构和外部知识的文档级实体关系抽取方法 |
CN113255357A (zh) * | 2021-06-24 | 2021-08-13 | 北京金山数字娱乐科技有限公司 | 数据处理、目标识别模型训练、目标识别方法及装置 |
CN113822026B (zh) * | 2021-09-10 | 2022-07-08 | 神思电子技术股份有限公司 | 一种多标签实体标注方法 |
CN113626564B (zh) * | 2021-10-09 | 2021-12-17 | 腾讯科技(深圳)有限公司 | 一种概念标签生成方法、装置、电子设备和存储介质 |
CN114218951B (zh) * | 2021-12-16 | 2023-03-24 | 北京百度网讯科技有限公司 | 实体识别模型的训练方法、实体识别方法及装置 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6076088A (en) | 1996-02-09 | 2000-06-13 | Paik; Woojin | Information extraction system and method using concept relation concept (CRC) triples |
EP0932897B1 (en) | 1997-06-26 | 2003-10-08 | Koninklijke Philips Electronics N.V. | A machine-organized method and a device for translating a word-organized source text into a word-organized target text |
WO2000062193A1 (en) | 1999-04-08 | 2000-10-19 | Kent Ridge Digital Labs | System for chinese tokenization and named entity recognition |
JP4200645B2 (ja) | 2000-09-08 | 2008-12-24 | 日本電気株式会社 | 情報処理装置、情報処理方法および記録媒体 |
US7058567B2 (en) | 2001-10-10 | 2006-06-06 | Xerox Corporation | Natural language parser |
DE60332220D1 (de) | 2002-03-27 | 2010-06-02 | Univ Southern California | Phrasenbasiertes gemeines wahrscheinlichkeitsmodell zur statistischen maschinellen übersetzung |
JP2005527894A (ja) | 2002-03-28 | 2005-09-15 | ユニバーシティ・オブ・サザン・カリフォルニア | 統計的機械翻訳 |
TWI256562B (en) | 2002-05-03 | 2006-06-11 | Ind Tech Res Inst | Method for named-entity recognition and verification |
US7672830B2 (en) | 2005-02-22 | 2010-03-02 | Xerox Corporation | Apparatus and methods for aligning words in bilingual sentences |
US7536295B2 (en) | 2005-12-22 | 2009-05-19 | Xerox Corporation | Machine translation using non-contiguous fragments of text |
US8260785B2 (en) * | 2006-02-17 | 2012-09-04 | Google Inc. | Automatic object reference identification and linking in a browseable fact repository |
US9020804B2 (en) | 2006-05-10 | 2015-04-28 | Xerox Corporation | Method for aligning sentences at the word level enforcing selective contiguity constraints |
US7542893B2 (en) | 2006-05-10 | 2009-06-02 | Xerox Corporation | Machine translation using elastic chunks |
US20080052262A1 (en) * | 2006-08-22 | 2008-02-28 | Serhiy Kosinov | Method for personalized named entity recognition |
US8374844B2 (en) | 2007-06-22 | 2013-02-12 | Xerox Corporation | Hybrid system for named entity resolution |
US8495042B2 (en) * | 2007-10-10 | 2013-07-23 | Iti Scotland Limited | Information extraction apparatus and methods |
US8594996B2 (en) | 2007-10-17 | 2013-11-26 | Evri Inc. | NLP-based entity recognition and disambiguation |
US8000956B2 (en) | 2008-02-08 | 2011-08-16 | Xerox Corporation | Semantic compatibility checking for automatic correction and discovery of named entities |
US8775154B2 (en) | 2008-09-18 | 2014-07-08 | Xerox Corporation | Query translation through dictionary adaptation |
US8370128B2 (en) | 2008-09-30 | 2013-02-05 | Xerox Corporation | Semantically-driven extraction of relations between named entities |
US8429099B1 (en) * | 2010-10-14 | 2013-04-23 | Aro, Inc. | Dynamic gazetteers for entity recognition and fact association |
WO2013155619A1 (en) * | 2012-04-20 | 2013-10-24 | Sam Pasupalak | Conversational agent |
US9189473B2 (en) | 2012-05-18 | 2015-11-17 | Xerox Corporation | System and method for resolving entity coreference |
US8543563B1 (en) | 2012-05-24 | 2013-09-24 | Xerox Corporation | Domain adaptation for query translation |
US20140163951A1 (en) | 2012-12-07 | 2014-06-12 | Xerox Corporation | Hybrid adaptation of named entity recognition |
US9292797B2 (en) * | 2012-12-14 | 2016-03-22 | International Business Machines Corporation | Semi-supervised data integration model for named entity classification |
US8805845B1 (en) * | 2013-07-31 | 2014-08-12 | LinedIn Corporation | Framework for large-scale multi-label classification |
US9971763B2 (en) * | 2014-04-08 | 2018-05-15 | Microsoft Technology Licensing, Llc | Named entity recognition |
-
2015
- 2015-08-27 US US14/837,687 patent/US9836453B2/en active Active
-
2016
- 2016-08-12 JP JP2016158512A patent/JP6829559B2/ja active Active
- 2016-08-12 EP EP16184076.4A patent/EP3136257A3/en not_active Ceased
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657239A (zh) * | 2018-12-12 | 2019-04-19 | 电子科技大学 | 基于注意力机制和语言模型学习的中文命名实体识别方法 |
CN109657239B (zh) * | 2018-12-12 | 2020-04-21 | 电子科技大学 | 基于注意力机制和语言模型学习的中文命名实体识别方法 |
CN111460824A (zh) * | 2020-03-30 | 2020-07-28 | 华南理工大学 | 一种基于对抗迁移学习的无标注命名实体识别方法 |
WO2021214941A1 (ja) * | 2020-04-23 | 2021-10-28 | 富士通株式会社 | 機械学習プログラム、機械学習方法および固有表現認識装置 |
JP7440797B2 (ja) | 2020-04-23 | 2024-02-29 | 富士通株式会社 | 機械学習プログラム、機械学習方法および固有表現認識装置 |
Also Published As
Publication number | Publication date |
---|---|
US9836453B2 (en) | 2017-12-05 |
US20170060835A1 (en) | 2017-03-02 |
EP3136257A3 (en) | 2017-05-03 |
JP6829559B2 (ja) | 2021-02-10 |
EP3136257A2 (en) | 2017-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6829559B2 (ja) | 固有表現抽出用ドキュメント専用地名辞典 | |
US10157177B2 (en) | System and method for extracting entities in electronic documents | |
CN111382571B (zh) | 一种信息抽取方法、系统、服务器和存储介质 | |
Ekbal et al. | Maximum entropy based Bengali part of speech tagging | |
US8204736B2 (en) | Access to multilingual textual resources | |
US10740570B2 (en) | Contextual analogy representation | |
US10133736B2 (en) | Contextual analogy resolution | |
de Souza et al. | A multilabel approach to Portuguese clinical named entity recognition | |
Wong et al. | iSentenizer‐μ: Multilingual Sentence Boundary Detection Model | |
Tran et al. | Semi-supervised approach based on co-occurrence coefficient for named entity recognition on twitter | |
Veera Prathap Reddy et al. | NERSE: named entity recognition in software engineering as a service | |
Gero et al. | Word centrality constrained representation for keyphrase extraction | |
Room | Named entity recognition | |
Aejas et al. | Named entity recognition for cultural heritage preservation | |
Celikyilmaz et al. | An empirical investigation of word class-based features for natural language understanding | |
CN110705285A (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
Deka et al. | A study of various natural language processing works for assamese language | |
Schacht et al. | Promptie-information extraction with prompt-engineering and large language models | |
Theivendiram et al. | Named-entity-recognition (ner) for tamil language using margin-infused relaxed algorithm (mira) | |
Rajan et al. | Named entity recognizer for konkani text | |
Dhanalakshmi et al. | Chunker for tamil | |
Ganesh et al. | Grammar error detection tool for medical transcription using stop words parts-of-speech tags ngram based model | |
Konopík et al. | LDA in character-LSTM-CRF named entity recognition | |
Krishnan et al. | Employing Wikipedia as a resource for named entity recognition in morphologically complex under-resourced languages | |
US20180150452A1 (en) | Contextual Analogy Representation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20161004 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20161117 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20181010 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181114 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181214 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190813 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200901 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201023 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210119 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210122 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6829559 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |