JP2021108140A - 情報抽出方法、情報抽出装置及び電子機器 - Google Patents
情報抽出方法、情報抽出装置及び電子機器 Download PDFInfo
- Publication number
- JP2021108140A JP2021108140A JP2021042217A JP2021042217A JP2021108140A JP 2021108140 A JP2021108140 A JP 2021108140A JP 2021042217 A JP2021042217 A JP 2021042217A JP 2021042217 A JP2021042217 A JP 2021042217A JP 2021108140 A JP2021108140 A JP 2021108140A
- Authority
- JP
- Japan
- Prior art keywords
- tuple
- main
- relational
- tuples
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 138
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000003062 neural network model Methods 0.000 claims abstract description 28
- 230000015654 memory Effects 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 abstract description 5
- 230000000750 progressive effect Effects 0.000 abstract 1
- 238000000354 decomposition reaction Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 241000699666 Mus <mouse, genus> Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Radar Systems Or Details Thereof (AREA)
Abstract
Description
図面は、本解決手段をよりよく理解するためのものであり、本願を限定するものではない。
Claims (13)
- テキスト情報を取得することと、
前記テキスト情報における第1主関係タプルを取得することと、
前記第1主関係タプルのパラメータに基づいて取得された少なくとも1つの第2主関係タプルを含むN(Nは正整数である)個の主関係タプルを取得することと、
前記第1主関係タプル及び前記N個の主関係タプルに基づいて、前記テキスト情報の情報抽出結果を決定することと、
を含み、
前記第1主関係タプルが、前記テキスト情報における他の関係タプルに含まれていない関係タプルであり、前記第2主関係タプルが、前記第1主関係タプルのパラメータにおける他の関係タプルに含まれていない関係タプルである情報抽出方法。 - 前記N個の主関係タプルが、前記第2主関係タプルのパラメータから得られた、前記第2主関係タプルのパラメータにおける他の関係タプルに含まれていない関係タプルである少なくとも1つの第3主関係タプルを含む請求項1に記載の情報抽出方法。
- 前記N個の主関係タプルを取得することが、
前記第1主関係タプルのパラメータから、前記少なくとも1つの第2主関係タプルを取得することと、
前記N個の主関係タプルのうち、i回目に取得された主関係タプルのパラメータに対して主関係タプル抽出を実行するにより、i+1回目に取得された主関係タプルを取得することと、
を含み、
前記第2主関係タプルが、前記N個の主関係タプルのうち、1回目に取得された主関係タプルであり、前記N個の主関係タプルのうち、最後に取得された主関係タプルにおけるパラメータが、主関係タプルを含まず、iが前記N以下の正整数である請求項1に記載の情報抽出方法。 - 前記テキスト情報における第1主関係タプルを取得することが、前記テキスト情報をニューラルネットワークモデルに入力し、前記テキスト情報の第1主関係タプルを取得することを含み、
前記ニューラルネットワークモデルが、前記テキスト情報に基づいてエンコーディング特徴を取得するエンコーダと、前記エンコーディング特徴に基づいて前記テキスト情報の第1主関係タプルを取得するデコーダとを備える請求項1に記載の情報抽出方法。 - 前記エンコーダが、注釈が付されていないトレーニングコーパスに対してコンテキスト予測を行うことにより決定される請求項4に記載の情報抽出方法。
- テキスト情報を取得する第1取得モジュールと、
前記テキスト情報における第1主関係タプルを取得する第2取得モジュールと、
前記第1主関係タプルのパラメータに基づいて取得された少なくとも1つの第2主関係タプルを含むN(Nは正整数である)個の主関係タプルを取得する第3取得モジュールと、
前記第1主関係タプル及び前記N個の主関係タプルに基づいて、前記テキスト情報の情報抽出結果を決定する決定モジュールと、
を備え、
前記第1主関係タプルが、前記テキスト情報における他の関係タプルに含まれていない関係タプルであり、前記第2主関係タプルが、前記第1主関係タプルのパラメータにおける他の関係タプルに含まれていない関係タプルである情報抽出装置。 - 前記N個の主関係タプルが、前記第2主関係タプルのパラメータから得られた、前記第2主関係タプルのパラメータにおける他の関係タプルに含まれていない関係タプルである少なくとも1つの第3主関係タプルを含む請求項6に記載の情報抽出装置。
- 前記第3取得モジュールが、
前記第1主関係タプルのパラメータから、前記少なくとも1つの第2主関係タプルを取得する第1取得サブモジュールと、
前記N個の主関係タプルのうち、i回目に取得された主関係タプルのパラメータに対して主関係タプル抽出を実行することにより、i+1回目に取得された主関係タプルを取得第2取得サブモジュールと、
を含み、
前記第2主関係タプルが、前記N個の主関係タプルのうち、1回目に取得された主関係タプルであり、前記N個の主関係タプルのうち、最後に取得された主関係タプルにおけるパラメータが、主関係タプルを含まず、iが前記N以下の正整数である請求項6に記載の情報抽出装置。 - 前記第2取得モジュールが、前記テキスト情報をニューラルネットワークモデルに入力し、前記テキスト情報の第1主関係タプルを取得することに用いられ、
前記ニューラルネットワークモデルが、前記テキスト情報に基づいてエンコーディング特徴を取得するエンコーダと、前記エンコーディング特徴に基づいて前記テキスト情報の第1主関係タプルを取得するデコーダとを備える請求項6に記載の情報抽出装置。 - 前記エンコーダが、注釈が付されていないトレーニングコーパスに対してコンテキスト予測を行うことにより決定される請求項9に記載の情報抽出装置。
- 少なくとも1つのプロセッサと、
該少なくとも1つのプロセッサと通信接続されるメモリと、
を備え、
前記メモリには、前記少なくとも1つのプロセッサに実行可能で、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1から5のいずれか一項に記載の方法を実行させる命令が記憶されている電子機器。 - 請求項1から5のいずれか一項に記載の方法をコンピュータに実行させるコンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体。
- プロセッサによって実行されると、請求項1から5のいずれか一項に記載の方法が実現されるコンピュータプログラムを備えるコンピュータプログラム製品。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010183085.7 | 2020-03-16 | ||
CN202010183085.7A CN111400451B (zh) | 2020-03-16 | 2020-03-16 | 信息抽取方法、信息抽取装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021108140A true JP2021108140A (ja) | 2021-07-29 |
JP7146986B2 JP7146986B2 (ja) | 2022-10-04 |
Family
ID=71428941
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021042217A Active JP7146986B2 (ja) | 2020-03-16 | 2021-03-16 | 情報抽出方法、情報抽出装置及び電子機器 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP3869353A3 (ja) |
JP (1) | JP7146986B2 (ja) |
KR (1) | KR102663523B1 (ja) |
CN (1) | CN111400451B (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7495162B1 (ja) | 2023-02-14 | 2024-06-04 | Necプラットフォームズ株式会社 | ボタン電話システム、ボタン電話装置、避難誘導メッセージ出力方法およびプログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019144706A (ja) * | 2018-02-16 | 2019-08-29 | 日本電信電話株式会社 | 関係性推定モデル学習装置、方法、及びプログラム |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6304870B1 (en) * | 1997-12-02 | 2001-10-16 | The Board Of Regents Of The University Of Washington, Office Of Technology Transfer | Method and apparatus of automatically generating a procedure for extracting information from textual information sources |
US20060009966A1 (en) | 2004-07-12 | 2006-01-12 | International Business Machines Corporation | Method and system for extracting information from unstructured text using symbolic machine learning |
US8504490B2 (en) | 2010-04-09 | 2013-08-06 | Microsoft Corporation | Web-scale entity relationship extraction that extracts pattern(s) based on an extracted tuple |
CN106372038A (zh) * | 2015-07-23 | 2017-02-01 | 北京国双科技有限公司 | 关键词的抽取方法及装置 |
CN107220238A (zh) * | 2017-05-24 | 2017-09-29 | 电子科技大学 | 一种基于混合网络模型的文本对象抽取方法 |
CN107608949B (zh) * | 2017-10-16 | 2019-04-16 | 北京神州泰岳软件股份有限公司 | 一种基于语义模型的文本信息抽取方法及装置 |
CN107808011B (zh) * | 2017-11-20 | 2021-04-13 | 北京大学深圳研究院 | 信息的分类抽取方法、装置、计算机设备和存储介质 |
CN108038426A (zh) * | 2017-11-29 | 2018-05-15 | 阿博茨德(北京)科技有限公司 | 一种提取文件中图表信息的方法及装置 |
CN107957991B (zh) * | 2017-12-05 | 2021-06-01 | 湖南星汉数智科技有限公司 | 一种基于句法依赖的实体属性信息抽取方法及装置 |
CN110717034A (zh) * | 2018-06-26 | 2020-01-21 | 杭州海康威视数字技术股份有限公司 | 一种本体构建方法及装置 |
CN109063159B (zh) * | 2018-08-13 | 2021-04-23 | 桂林电子科技大学 | 一种基于神经网络的实体关系抽取方法 |
CN110046351B (zh) * | 2019-04-19 | 2022-06-14 | 福州大学 | 规则驱动下基于特征的文本关系抽取方法 |
CN110348003B (zh) * | 2019-05-22 | 2023-10-17 | 安徽省泰岳祥升软件有限公司 | 文本有效信息的抽取方法及装置 |
CN110196982B (zh) * | 2019-06-12 | 2022-12-27 | 腾讯科技(深圳)有限公司 | 上下位关系抽取方法、装置及计算机设备 |
CN110427623B (zh) * | 2019-07-24 | 2021-09-21 | 深圳追一科技有限公司 | 半结构化文档知识抽取方法、装置、电子设备及存储介质 |
CN110619053A (zh) * | 2019-09-18 | 2019-12-27 | 北京百度网讯科技有限公司 | 实体关系抽取模型的训练方法和抽取实体关系的方法 |
-
2020
- 2020-03-16 CN CN202010183085.7A patent/CN111400451B/zh active Active
-
2021
- 2021-03-15 KR KR1020210033430A patent/KR102663523B1/ko active IP Right Grant
- 2021-03-16 EP EP21162794.8A patent/EP3869353A3/en active Pending
- 2021-03-16 JP JP2021042217A patent/JP7146986B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019144706A (ja) * | 2018-02-16 | 2019-08-29 | 日本電信電話株式会社 | 関係性推定モデル学習装置、方法、及びプログラム |
Non-Patent Citations (2)
Title |
---|
LEI CUI ET AL.: ""Neural Open Information Extraction"", ARXIV.ORG [ONLINE], vol. arXiv:1805.04270v1, JPN6022006264, 2018, ISSN: 0004711621 * |
NIKITA BHUTANI ET AL.: ""Nested Propositions in Open Information Extraction"", PROCEEDINGS OF THE 2016 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING, JPN6022006265, 2016, pages 55 - 64, ISSN: 0004711620 * |
Also Published As
Publication number | Publication date |
---|---|
CN111400451A (zh) | 2020-07-10 |
KR102663523B1 (ko) | 2024-05-03 |
JP7146986B2 (ja) | 2022-10-04 |
EP3869353A3 (en) | 2021-09-15 |
KR20210036316A (ko) | 2021-04-02 |
CN111400451B (zh) | 2023-05-09 |
EP3869353A2 (en) | 2021-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7317791B2 (ja) | エンティティ・リンキング方法、装置、機器、及び記憶媒体 | |
US20210192141A1 (en) | Method and apparatus for generating vector representation of text, and related computer device | |
JP7178441B2 (ja) | 要約生成方法、装置、プログラム、電子デバイス及び記憶媒体 | |
JP2021157802A (ja) | テキスト生成モデルのトレーニング方法、装置及び電子機器 | |
US20210209309A1 (en) | Semantics processing method, electronic device, and medium | |
KR102538467B1 (ko) | 모델의 증류 방법, 장치, 전자기기 및 저장매체 | |
EP3940581A1 (en) | Method and apparatus for training multilingual semantic representation model, device and storage medium | |
JP7413630B2 (ja) | 要約生成モデルの訓練方法、装置、デバイス及び記憶媒体 | |
JP7044839B2 (ja) | エンドツーエンドモデルのトレーニング方法および装置 | |
KR102606514B1 (ko) | 유사도 처리 방법, 장치, 서버, 저장 매체 및 컴퓨터 프로그램 | |
JP2021099798A (ja) | 構造化処理方法、装置、コンピュータ機器及び媒体 | |
JP2021111334A (ja) | 検索データに基づくヒューマンコンピュータ対話型インタラクションの方法、装置及び電子機器 | |
CN113160822B (zh) | 语音识别处理方法、装置、电子设备以及存储介质 | |
JP2022006173A (ja) | 知識事前訓練モデルの訓練方法、装置及び電子機器 | |
JP2021192283A (ja) | 情報照会方法、装置及び電子機器 | |
JP7286737B2 (ja) | テキスト誤り訂正方法、装置、電子デバイス、記憶媒体及びプログラム | |
JP7186255B2 (ja) | 医療衝突の検出方法、装置、電子デバイス及び記憶媒体 | |
KR20210080150A (ko) | 번역 방법, 장치, 전자 기기 및 판독 가능 저장 매체 | |
JP2021108140A (ja) | 情報抽出方法、情報抽出装置及び電子機器 | |
JP2022017173A (ja) | 情報を出力するための方法および装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム | |
US11900918B2 (en) | Method for training a linguistic model and electronic device | |
KR20210040315A (ko) | 관계형 네트워크 생성방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 | |
CN111859981B (zh) | 语言模型获取及中文语义理解方法、装置及存储介质 | |
CN115688796B (zh) | 用于自然语言处理领域中预训练模型的训练方法及其装置 | |
CN115952790A (zh) | 信息抽取方法及其装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210316 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220518 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220906 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220921 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7146986 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |