JP7283547B2 - 構造化文書処理学習装置、構造化文書処理装置、構造化文書処理学習方法、構造化文書処理方法及びプログラム - Google Patents
構造化文書処理学習装置、構造化文書処理装置、構造化文書処理学習方法、構造化文書処理方法及びプログラム Download PDFInfo
- Publication number
- JP7283547B2 JP7283547B2 JP2021536582A JP2021536582A JP7283547B2 JP 7283547 B2 JP7283547 B2 JP 7283547B2 JP 2021536582 A JP2021536582 A JP 2021536582A JP 2021536582 A JP2021536582 A JP 2021536582A JP 7283547 B2 JP7283547 B2 JP 7283547B2
- Authority
- JP
- Japan
- Prior art keywords
- structured document
- document
- meta
- character strings
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/137—Hierarchical processing, e.g. outlines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Description
・同じ記載内容でも様々なHTML表現方法がある。
・同じメタ文字列(HTMLタグ)でも文書毎に使われ方(意味合い)が異なる。
・メタ文字列(HTMLタグ)を普通の単語と同様に扱って読解させるのは難しい。
・「提供条件」の下位
・「xxxTVの・・・」の上位
・「契約可能数」と並列
そこで、第1の実施の形態では、タグの構造的意味が一意に決まるようにHTML文書の構造を分割してタグの揺らぎを解消することで、当該HTML文書について、機械読解モデルにとって読解可能であって、かつ、当該HTML文書の構造情報が保持された形式へ変換が行われる。
html数:38html/QAペア数:22129件
また、評価セット(タスクの実行時における質問群)としては、以下の2種類が用意された。
評価セットA:機械読解技術を理解している人が作成した質問群(機械読解技術にフレンドリな質問)
評価セットB:機械読解技術を利用したことがない人が作成した質問群(人にとってより自然な聞き方)
機械読解により得られた回答結果の上位5つに正解が含まれていれば正解とし、完全一致でなくても部分一致していれば正解とした。
11 構造変換部
12 学習部
13 読解部
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 CPU
105 インタフェース装置
111 構造解析部
112 構造分割部
113 抽出部
114 結合部
115 縮退部
121 変換後文書記憶部
122 学習パラメータ記憶部
B バス
Claims (7)
- 構造化文書の階層構造を表現するメタ文字列と、前記メタ文字列によって区切られた内容文字列とのうち、前記階層構造に寄与する文字列を前記構造化文書から抽出する抽出部と、
抽出された文字列を結合する結合部と、
前記結合部による結合結果に含まれる複数の前記メタ文字列を共通の文字列に変換することで、前記結合結果から変換後文書を生成する変換部と、
前記変換後文書と、前記変換後文書に対する所定の処理を行う際の正解情報とを入力として、前記所定の処理を実行するニューラルネットワークの学習を行う学習部と、
を有することを特徴とする構造化文書処理学習装置。 - 前記学習部は、前記ニューラルネットワークについて、情報検索と機械読解とのマルチタスク学習を行う、
ことを特徴とする請求項1記載の構造化文書処理学習装置。 - 構造化文書の階層構造を表現するメタ文字列と、前記メタ文字列によって区切られた内容文字列とのうち、前記階層構造に寄与する文字列を前記構造化文書から抽出する抽出部と、
抽出された文字列を結合する結合部と、
前記結合部による結合結果に含まれる複数の前記メタ文字列を共通の文字列に変換することで、前記結合結果から変換後文書を生成する変換部と、
前記変換後文書について、ニューラルネットワークが学習済みの処理を実行する処理部と、
を有することを特徴とする構造化文書処理装置。 - 構造化文書の階層構造を表現するメタ文字列と、前記メタ文字列によって区切られた内容文字列とのうち、前記階層構造に寄与する文字列を前記構造化文書から抽出する抽出手順と、
抽出された文字列を結合する結合手順と、
前記結合手順による結合結果に含まれる複数の前記メタ文字列を共通の文字列に変換することで、前記結合結果から変換後文書を生成する変換手順と、
前記変換後文書と、前記変換後文書に対する所定の処理を行う際の正解情報とを入力として、前記所定の処理を実行するニューラルネットワークの学習を行う学習手順と、
をコンピュータが実行することを特徴とする構造化文書処理学習方法。 - 構造化文書の階層構造を表現するメタ文字列と、前記メタ文字列によって区切られた内容文字列とのうち、前記階層構造に寄与する文字列を前記構造化文書から抽出する抽出手順と、
抽出された文字列を結合する結合手順と、
前記結合手順による結合結果に含まれる複数の前記メタ文字列を共通の文字列に変換することで、前記結合結果から変換後文書を生成する変換手順と、
前記変換後文書について、ニューラルネットワークが学習済みの処理を実行する処理手順と、
をコンピュータが実行することを特徴とする構造化文書処理方法。 - 請求項1又は2記載の構造化文書処理学習装置としてコンピュータを機能させることを特徴とするプログラム。
- 請求項3に記載の構造化文書処理装置としてコンピュータを機能させることを特徴とするプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/030277 WO2021019773A1 (ja) | 2019-08-01 | 2019-08-01 | 構造化文書処理学習装置、構造化文書処理装置、構造化文書処理学習方法、構造化文書処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021019773A1 JPWO2021019773A1 (ja) | 2021-02-04 |
JP7283547B2 true JP7283547B2 (ja) | 2023-05-30 |
Family
ID=74230625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021536582A Active JP7283547B2 (ja) | 2019-08-01 | 2019-08-01 | 構造化文書処理学習装置、構造化文書処理装置、構造化文書処理学習方法、構造化文書処理方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220269856A1 (ja) |
JP (1) | JP7283547B2 (ja) |
WO (1) | WO2021019773A1 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012027852A (ja) | 2010-07-27 | 2012-02-09 | Nippon Telegr & Teleph Corp <Ntt> | 本文抽出方法、本文抽出装置、本文抽出プログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7668888B2 (en) * | 2003-06-05 | 2010-02-23 | Sap Ag | Converting object structures for search engines |
WO2011024716A1 (ja) * | 2009-08-26 | 2011-03-03 | 日本電気株式会社 | 構造化文書検索式生成装置、その方法及びプログラム、並びに構造化文書検索装置、その方法及びプログラム |
JP2011100403A (ja) * | 2009-11-09 | 2011-05-19 | Sony Corp | 情報処理装置、情報抽出方法、プログラム及び情報処理システム |
EP3430531A1 (en) * | 2016-03-16 | 2019-01-23 | Maluuba Inc. | Parallel-hierarchical model for machine comprehension on small data |
US20170371956A1 (en) * | 2016-06-23 | 2017-12-28 | International Business Machines Corporation | System and method for precise domain question and answer generation for use as ground truth |
US20180300315A1 (en) * | 2017-04-14 | 2018-10-18 | Novabase Business Solutions, S.A. | Systems and methods for document processing using machine learning |
JP7215098B2 (ja) * | 2018-11-12 | 2023-01-31 | 富士通株式会社 | 学習プログラム、学習方法および学習装置 |
-
2019
- 2019-08-01 US US17/630,491 patent/US20220269856A1/en active Pending
- 2019-08-01 JP JP2021536582A patent/JP7283547B2/ja active Active
- 2019-08-01 WO PCT/JP2019/030277 patent/WO2021019773A1/ja active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012027852A (ja) | 2010-07-27 | 2012-02-09 | Nippon Telegr & Teleph Corp <Ntt> | 本文抽出方法、本文抽出装置、本文抽出プログラム |
Non-Patent Citations (1)
Title |
---|
米井由美 他2名,XML文書における構造の素性を用いた照応による人物検索,Journal of the DBSJ,日本,日本データベース学会,2008年06月27日,Vol.7,No.1,151-156頁,ISSN 1883-1060 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2021019773A1 (ja) | 2021-02-04 |
WO2021019773A1 (ja) | 2021-02-04 |
US20220269856A1 (en) | 2022-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6842167B2 (ja) | 要約生成装置、要約生成方法及びコンピュータプログラム | |
KR20180048624A (ko) | 질의 응답 시스템의 훈련 장치 및 그것을 위한 컴퓨터 프로그램 | |
CN105138575A (zh) | 语音文本串的解析方法和装置 | |
CN101872350A (zh) | 网页正文抽取方法和装置 | |
WO2004025463A1 (ja) | 要件定義方法、ソフトウェアの開発方法、及び、要件単語の変更方法並びに新規規定方法 | |
US20220414463A1 (en) | Automated troubleshooter | |
WO2011008862A2 (en) | Markup language-based authoring and runtime environment for interactive content platform | |
JP2019101149A (ja) | 設問自動生成プログラム及び設問自動生成装置 | |
CN110909174B (zh) | 一种基于知识图谱的简单问答中实体链接的改进方法 | |
JP7283547B2 (ja) | 構造化文書処理学習装置、構造化文書処理装置、構造化文書処理学習方法、構造化文書処理方法及びプログラム | |
JP6062829B2 (ja) | 係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラム | |
JP2019133229A (ja) | 質問応答システムの訓練データの作成方法及び質問応答システムの訓練方法 | |
JP7474260B2 (ja) | 構造化文書処理装置、構造化文書処理方法及びプログラム | |
CN110110050B (zh) | 一种新闻事件生成式问答数据集的生成方法 | |
KR102569381B1 (ko) | 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법 | |
Shawar et al. | Using the Corpus of Spoken Afrikaans to generate an Afrikaans chatbot | |
CN114973798A (zh) | 一种单词学习卡生成方法及装置 | |
CN110830851B (zh) | 一种视频文案的制作方法及装置 | |
WO2021124489A1 (ja) | 要約学習方法、要約学習装置及びプログラム | |
CN113688606A (zh) | 一种自动化进行文档报告写作的方法 | |
Daryanto et al. | Indonesian AMR-to-Text Generation by Language Model Fine-tuning | |
JP2007279795A (ja) | プログラムによって表示される画面が仕様を満たすか判断するシステム | |
CN112149399B (zh) | 基于rpa及ai的表格信息抽取方法、装置、设备及介质 | |
Kinnaird et al. | TED talks as data | |
CN110728116B (zh) | 一种视频文案配音稿的生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230110 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230418 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230501 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7283547 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |