JP6665050B2 - 項目値抽出モデル学習装置、項目値抽出装置、方法、及びプログラム - Google Patents
項目値抽出モデル学習装置、項目値抽出装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6665050B2 JP6665050B2 JP2016143807A JP2016143807A JP6665050B2 JP 6665050 B2 JP6665050 B2 JP 6665050B2 JP 2016143807 A JP2016143807 A JP 2016143807A JP 2016143807 A JP2016143807 A JP 2016143807A JP 6665050 B2 JP6665050 B2 JP 6665050B2
- Authority
- JP
- Japan
- Prior art keywords
- item
- value
- text
- extracted
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
<本発明の第1の実施の形態に係る項目値抽出モデル学習装置の構成>
次に、本発明の第1の実施の形態に係る項目値抽出モデル学習装置の構成について説明する。図4に示すように、本発明の第1の実施の形態に係る項目値抽出モデル学習装置100は、CPUと、RAMと、後述する項目値抽出モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この項目値抽出モデル学習装置100は、機能的には図4に示すように入力部10と、演算部20と、出力部50とを備えている。
次に、本発明の第1の実施の形態に係る項目値抽出装置の構成について説明する。図9に示すように、本発明の第1の実施の形態に係る項目値抽出装置150は、CPUと、RAMと、後述する項目値抽出処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この項目値抽出装置150は、機能的には図9に示すように入力部60と、演算部70と、出力部90とを備えている。
次に、本発明の第1の実施の形態に係る項目値抽出モデル学習装置100の作用について説明する。入力部10においてタイトルとテキストと構造化データからなる記事群を受け付けると、受け付けた記事群の各記事から、タイトル、構造化データ、テキスト部分を抽出し、記事群記憶部22に格納する。
次に、本発明の第1の実施の形態に係る項目値抽出装置150の作用について説明する。まず、項目値抽出モデル学習装置100によって学習された抽出モデルが、項目値抽出装置150の抽出モデル記憶部74に格納される。また、入力部60においてタイトルとテキストからなる記事を受け付けると、項目値抽出装置150は、図13に示す項目値抽出処理ルーチンを実行する。
次に、第2の実施の形態について説明する。第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
<本発明の第2の実施の形態に係る項目値抽出モデル学習装置の構成>
次に、本発明の第2の実施の形態に係る項目値抽出装置の構成について説明する。図16に示すように、本発明の第2の実施の形態に係る項目値抽出装置250は、入力部60と、演算部270と、出力部90とを備えている。
次に、本発明の第2の実施の形態に係る項目値抽出モデル学習装置200の作用について説明する。入力部10においてテキストと構造化データの組からなるテキストデータ群を受け付けると、受け付けたテキストデータ群の各テキストデータから、構造化データ及びテキスト部分を抽出し、テキストデータ群記憶部222に格納する。
次に、本発明の第2の実施の形態に係る項目値抽出装置150の作用について説明する。まず、項目値抽出モデル学習装置200によって学習された抽出モデルが、項目値抽出装置250の抽出モデル記憶部74に格納される。また、入力部60において対象語に関するテキスト及び対象語を受け付けると、項目値抽出装置250は、図19に示す項目値抽出処理ルーチンを実行する。
また、上記第2の実施の形態において、対象語を入力とし、テキストから、抽出対象とする項目の値を抽出する場合を例に説明したが、これに限定されるものではなく、テキストから、抽出対象とする項目の関係となる、対象語と、項目の値とのペアを抽出するようにしてもよい。
20、70、220、270 演算部
22 記事群記憶部
24 指定項目抽出部
26 疑似教師データ作成部
28、72 素性抽出部
30 抽出モデル学習部
50、90 出力部
74 抽出モデル記憶部
76 タイトル項目値抽出部
100、200 項目値抽出モデル学習装置
150、250 項目値抽出装置
222 テキストデータ群記憶部
276 項目値抽出部
Claims (8)
- 抽出対象とする項目を定める項目名として指定された項目名のリスト、並びに対象語に関する項目名及び項目の値の組を含む構造化データと、前記対象語に関する前記項目の値を含むテキストと、前記対象語との3つ組を複数組含むテキストデータ群を受け付ける入力部と、
前記テキストデータ群の構造化データの各々から、前記リストに含まれる、前記指定された項目名と一致する項目の値を、前記抽出対象とする項目の値として抽出する指定項目抽出部と、
前記テキストから、前記指定項目抽出部によって抽出された前記抽出対象とする項目の値である箇所を特定し、前記特定された箇所に、前記対象語に関する、前記抽出対象とする項目の値であることを示すアノテーションを付与し、前記アノテーションが付与された前記テキストを、疑似教師データとして作成する疑似教師データ作成部と、
前記疑似教師データ作成部によって作成された疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて、前記テキストから、前記抽出対象とする項目の値を抽出するための抽出モデルを学習する抽出モデル学習部と、
を含む項目値抽出モデル学習装置。 - 対象語に関する項目名及び項目の値の組を含む構造化データと、前記対象語に関する前記項目の値を含むテキストと、前記対象語との3つ組を複数組含むテキストデータ群に含まれる前記構造化データの各々から抽出された、抽出対象とする項目を定める項目名として指定された項目名のリストに含まれる、前記指定された項目名と一致する項目の値に対して、前記対象語に関する、前記抽出対象とする項目の値であることを示すアノテーションが付与された前記テキストである疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて予め学習された、前記テキストから、前記抽出対象とする項目の値を抽出するための抽出モデルを記憶する抽出モデル記憶部と、
入力されたテキストから前記素性を抽出する素性抽出部と、
前記素性抽出部によって抽出された前記素性と、前記抽出モデルとに基づいて、前記テキストから、前記抽出対象とする項目の値を抽出する項目値抽出部と、
を含む項目値抽出装置。 - 前記対象語はタイトルであり、
前記テキストデータ群は、前記タイトルに関する項目名と項目の値の組を含む構造化データと、前記タイトルに関する前記項目の値を含むテキストと、前記タイトルとの3つ組からなる記事の記事群であり、
前記入力部は、前記記事群、及び前記項目名のリストを受け付け、
前記疑似教師データ作成部は、前記記事群の構造化データの各々から、前記リストに含まれる、前記指定された項目名と一致する項目の値を、前記抽出対象とする項目の値として抽出し、
前記疑似教師データ作成部は、前記テキストから、前記指定項目抽出部によって抽出された前記抽出対象とする項目の値である箇所を特定し、前記特定された箇所に、前記タイトルに関する、前記抽出対象とする項目の値であることを示すアノテーションを付与し、前記アノテーションが付与された前記テキストを、疑似教師データとして作成する
請求項1記載の項目値抽出モデル学習装置。 - 前記抽出対象とする項目を、別称とした請求項1又は3記載の項目値抽出モデル学習装置。
- 入力部が、抽出対象とする項目を定める項目名として指定された項目名のリスト、並びに対象語に関する項目名及び項目の値の組を含む構造化データと、前記対象語に関する前記項目の値を含むテキストと、前記対象語との3つ組を複数組含むテキストデータ群を受け付け、
指定項目抽出部が、前記テキストデータ群の構造化データの各々から、前記リストに含まれる、前記指定された項目名と一致する項目の値を、前記抽出対象とする項目の値として抽出し、
疑似教師データ作成部が、前記テキストから、前記指定項目抽出部によって抽出された前記抽出対象とする項目の値である箇所を特定し、前記特定された箇所に、前記対象語に関する、前記抽出対象とする項目の値であることを示すアノテーションを付与し、前記アノテーションが付与された前記テキストを、疑似教師データとして作成し、
抽出モデル学習部が、前記疑似教師データ作成部によって作成された疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて、前記テキストから、前記抽出対象とする項目の値を抽出するための抽出モデルを学習する
項目値抽出モデル学習方法。 - 対象語に関する項目名及び項目の値の組を含む構造化データと、前記対象語に関する前記項目の値を含むテキストと、前記対象語との3つ組を複数組含むテキストデータ群に含まれる前記構造化データの各々から抽出された、抽出対象とする項目を定める項目名として指定された項目名のリストに含まれる、前記指定された項目名と一致する項目の値に対して、前記対象語に関する、前記抽出対象とする項目の値であることを示すアノテーションが付与された前記テキストである疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて予め学習された、前記テキストから、前記抽出対象とする項目の値を抽出するための抽出モデルを記憶する抽出モデル記憶部を含む項目値抽出装置における項目値抽出方法であって、
素性抽出部が、入力されたテキストから前記素性を抽出し、
項目値抽出部が、前記素性抽出部によって抽出された前記素性と、前記抽出モデルとに基づいて、前記テキストから、前記抽出対象とする項目の値を抽出する
項目値抽出方法。 - コンピュータを、請求項1又は請求項3に記載の項目値抽出モデル学習装置の各部として機能させるためのプログラム。
- コンピュータを、請求項2に記載の項目値抽出装置の各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016143807A JP6665050B2 (ja) | 2016-07-21 | 2016-07-21 | 項目値抽出モデル学習装置、項目値抽出装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016143807A JP6665050B2 (ja) | 2016-07-21 | 2016-07-21 | 項目値抽出モデル学習装置、項目値抽出装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018014003A JP2018014003A (ja) | 2018-01-25 |
JP6665050B2 true JP6665050B2 (ja) | 2020-03-13 |
Family
ID=61019500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016143807A Active JP6665050B2 (ja) | 2016-07-21 | 2016-07-21 | 項目値抽出モデル学習装置、項目値抽出装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6665050B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7298286B2 (ja) * | 2019-05-10 | 2023-06-27 | 富士通株式会社 | モデル提供プログラム、モデル提供方法及びモデル提供装置 |
CN113407610B (zh) * | 2021-06-30 | 2023-10-24 | 北京百度网讯科技有限公司 | 信息抽取方法、装置、电子设备和可读存储介质 |
-
2016
- 2016-07-21 JP JP2016143807A patent/JP6665050B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018014003A (ja) | 2018-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107797991B (zh) | 一种基于依存句法树的知识图谱扩充方法及系统 | |
US8583420B2 (en) | Method for the extraction of relation patterns from articles | |
JP6238494B2 (ja) | 文法コンパイル方法、語義解析方法、及び装置 | |
CN112926327B (zh) | 一种实体识别方法、装置、设备及存储介质 | |
KR20150070171A (ko) | 스트링 변환의 귀납적 합성을 위한 랭킹 기법 | |
Sidorov et al. | Computing text similarity using tree edit distance | |
CN104699797B (zh) | 一种网页数据结构化解析方法和装置 | |
US20080243905A1 (en) | Attribute extraction using limited training data | |
CN107967152B (zh) | 基于最小分支路径函数胎记的软件局部抄袭证据生成方法 | |
Nuhn et al. | Beam search for solving substitution ciphers | |
Darwish et al. | Using Stem-Templates to Improve Arabic POS and Gender/Number Tagging. | |
Urmi et al. | A corpus based unsupervised Bangla word stemming using N-gram language model | |
CN110245349B (zh) | 一种句法依存分析方法、装置及一种电子设备 | |
Sasidhar et al. | A survey on named entity recognition in Indian languages with particular reference to Telugu | |
JP6665050B2 (ja) | 項目値抽出モデル学習装置、項目値抽出装置、方法、及びプログラム | |
CN107273354A (zh) | 一种融合谓词先验信息的语义角色标注方法 | |
JP2007041767A (ja) | テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム | |
CN112559691B (zh) | 语义相似度的确定方法及确定装置、电子设备 | |
JP6334587B2 (ja) | 単語抽出装置、方法、及びプログラム | |
Kumar et al. | Punjabi deconverter for generating Punjabi from universal networking language | |
JP2008021139A (ja) | 意味タグ付け用モデル構築装置、意味タグ付け装置及びコンピュータプログラム | |
Harmeling | An extensible probabilistic transformation-based approach to the third recognizing textual entailment challenge | |
JP2019144844A (ja) | 形態素解析学習装置、形態素解析装置、方法、及びプログラム | |
CN107203512B (zh) | 用于从用户的自然语言输入中提取关键元素的方法 | |
JP2007164462A (ja) | 質問応答システム、質問応答方法及び質問応答プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180628 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190408 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190521 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20190722 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190828 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200128 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200219 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6665050 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |