JP7229887B2 - 文書情報抽出装置、および文書情報抽出方法 - Google Patents
文書情報抽出装置、および文書情報抽出方法 Download PDFInfo
- Publication number
- JP7229887B2 JP7229887B2 JP2019165316A JP2019165316A JP7229887B2 JP 7229887 B2 JP7229887 B2 JP 7229887B2 JP 2019165316 A JP2019165316 A JP 2019165316A JP 2019165316 A JP2019165316 A JP 2019165316A JP 7229887 B2 JP7229887 B2 JP 7229887B2
- Authority
- JP
- Japan
- Prior art keywords
- category
- document
- word
- categories
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
用な情報(以下、「文書情報」と称する。)の抽出元(情報源)となる文書(以下、「対象文書111」と称する。)から、対象文書111に含まれている単語をカテゴリ別に分類してまとめたカテゴリ別単語抽出表118(文書情報)を生成する(S1~S3)。
タノール 15mmolを攪拌下に滴下し、滴下終了後25℃で 1時間反応させた。」から、「塩
化アルミニウム」、「15mol」、「トルエン」、「40mL」、「添加」等の単語を抽出し、
抽出した単語をカテゴリ(物質、量、操作、温度、時間等)に分類したカテゴリ別単語抽出表118を生成する。ユーザは、生成されたカテゴリ別単語抽出表118を材料開発に活用する。
情報(以下、「カテゴリ確率」と称する。)を含む。
リ確率表(調整前)112を生成する。上記学習において、機械学習モデルは、例えば、学習用の文書に含まれている単語について、当該単語の周辺に現れる特徴的な表現(特徴量)と当該単語の分類先のカテゴリとの関係を学習する。カテゴリ確率は、例えば、単語の周辺に現れる特徴的な表現の出現率や単語と特徴的な表現との間の距離等に基づき算出する。尚、カテゴリ確率表(調整前)112の生成方法は必ずしも以上の方法に限定されない。
<0.3」という条件1141に合致するので、カテゴリ確からしさ表115の対応する欄
には、当該条件1141について設定されたカテゴリ確からしさ1142である「0.8」が設定されている。
115の各単語のカテゴリの出現パターンへの一致度(以下、「マッチ度」と称する。)を求め、その結果を出現パターン毎にまとめたカテゴリパターンマッチ表116を生成する。
、当該単語である「塩化アルミニウム」とのマッチ度を次式から求め、
マッチ度=(当該単語のカテゴリが[物質]か)×(当該単語の1つ後ろの単語のカテゴリ
が[量]か)×(当該単語の2つ後ろの単語が「を」か)×頻度
・・・ 式1
求めたマッチ度(=0.8×0.7×1.0×0.8=0.448)をカテゴリパターンマッチ表116
の当該単語の欄に設定する。尚、上式は積の形であるので、要素に0となるものがあれば(カテゴリ確からしさが0の単語があれば)マッチ度は0となる。
変更差分=α×マッチ度=0.448α=0.224(α=0.5の時)
但しαは変更差分の調整値
・・・ 式2
カテゴリ確率表(調整前)112の対応する値「0.8」に、求めた変更差分を加算した
値「0.824」を、カテゴリ確率表(調整後)117の対応する欄に設定する。尚、マッチ
度が0(カテゴリ確からしさが0)の単語とカテゴリの組み合わせについては、変更差分は0となるのでカテゴリ確率は変更されない(カテゴリ確率の変更外と判定される)。
以下、「抽出判定閾値191」と称する。)以上の単語を抽出することにより、カテゴリ別単語抽出表118(文書情報)を生成する。
「量」または「操作」のいずれのカテゴリに分類されるかを判定することができない。
Gate Array)、ASIC(Application Specific Integrated Circuit)、AI(Artificial Intelligence)チップ等を用いて構成されている。
Only Memory)、RAM(Random Access Memory)、不揮発性メモリ(NVRAM(Non Volatile RAM))等である。
)、光学式記憶装置(CD(Compact Disc)、DVD(Digital Versatile Disc)等)、ストレージシステム、ICカード、SDカードや光学式記録媒体等の記録媒体の読取/書込装置、クラウドサーバの記憶領域等である。補助記憶装置13には、記録媒体の読取装置や通信装置16を介してプログラムやデータを読み込むことができる。補助記憶装置13に格納(記憶)されているプログラムやデータは主記憶装置12に随時読み込まれる。
モリカード、ROMなどが用いられる。
110 記憶部
111 対象文書
112 カテゴリ確率表(調整前)
113 カテゴリ出現パターン表
114 カテゴリ確からしさ判定指標
115 カテゴリ確からしさ表
116 カテゴリパターンマッチ表
117 カテゴリ確率表(調整後)
118 カテゴリ別単語抽出表
119 変更差分の調整池α
191 抽出判定閾値
120 カテゴリ確率表生成部
130 カテゴリ確率表調整部
131 カテゴリ出現パターン抽出部
132 カテゴリ確からしさ算出部
133 カテゴリパターンマッチ度算出部
134 カテゴリ確率表変更部
140 カテゴリ別単語抽出表生成部
150 設定情報受付部
1300 設定情報受付画面
Claims (8)
- 文書から情報を抽出する文書情報抽出装置であって、
情報処理装置を用いて構成され、
抽出元の文書から抽出された単語をカテゴリに分類した結果と、前記単語の分類先の前記カテゴリへの適合度を示す値であるカテゴリ確率とを示す情報を含む、カテゴリ確率表(調整前)、
文書におけるカテゴリの出現態様である出現パターンの頻度を示す情報を含む、カテゴリ出現パターン表、および、
前記カテゴリ確率について設定された条件に対応づけて、前記カテゴリ確率表(調整前)における前記単語の分類先の前記カテゴリへの分類の確からしさの指標であるカテゴリ確からしさを定義した情報を含む、カテゴリ確からしさ判定指標
を記憶し、
前記出現パターンは、カテゴリの出現順、カテゴリ間に記述されている単語、カテゴリの直前または直後に記述されている単語、およびカテゴリ間の係り受けの関係、のうちの少なくともいずれかにより規定され、
前記カテゴリ確率表(調整前)に前記カテゴリ確からしさ判定指標を適用することにより、抽出元の前記文書から抽出された前記単語と前記単語の分類先の前記カテゴリとの間の前記カテゴリ確からしさを示す情報を含む、カテゴリ確からしさ表を生成し、
前記カテゴリ確からしさ表の前記単語のカテゴリ確からしさと、前記カテゴリ出現パターン表とに基づき、抽出元の前記文書から抽出された前記単語の前記出現パターンとの一致度を示す情報を含むカテゴリパターンマッチ表を生成し、
前記カテゴリパターンマッチ表の前記一致度に基づき、対応する前記単語の前記カテゴリ確率表(調整前)の前記カテゴリ確率を更新することにより、前記カテゴリ確率表(調整前)を調整したカテゴリ確率表(調整後)を生成し、
前記カテゴリ確率表(調整後)から前記カテゴリ確率が予め設定された閾値を超える単語を抽出することにより、前記文書に含まれている単語をカテゴリ別に分類してまとめたカテゴリ別単語抽出表を生成して出力する、
文書情報抽出装置。 - 請求項1に記載の文書情報抽出装置であって、
前記条件は、前記単語の複数の前記カテゴリの夫々の前記カテゴリ確率の値について設定された条件を含む、
文書情報抽出装置。 - 請求項1に記載の文書情報抽出装置であって、
前記カテゴリ確率表(調整前)は、学習用の文書と抽出される単語の分類先のカテゴリ
を示す情報とを含む学習データを用いて、当該単語の周辺に現れる特徴的な表現(特徴量)と当該単語の分類先のカテゴリとの関係を学習させた機械学習モデルを用いて生成されたものである、
文書情報抽出装置。 - 請求項1に記載の文書情報抽出装置であって、
前記カテゴリ出現パターン表は、学習用の文書と抽出される単語の分類先のカテゴリを示す情報とを含む学習データを用いて、関係づけたい単語間をつなげる特徴的な表現を学習させることにより生成されたものである、
文書情報抽出装置。 - 文書から情報を抽出する方法であって、
情報処理装置が、
抽出元の文書から抽出された単語をカテゴリに分類した結果と、前記単語の分類先の前記カテゴリへの適合度を示す値であるカテゴリ確率とを示す情報を含む、カテゴリ確率表(調整前)、
文書におけるカテゴリの出現態様である出現パターンの頻度を示す情報を含む、カテゴリ出現パターン表、および、
前記カテゴリ確率について設定された条件に対応づけて、前記カテゴリ確率表(調整前)における前記単語の分類先の前記カテゴリへの分類の確からしさの指標であるカテゴリ確からしさを定義した情報を含む、カテゴリ確からしさ判定指標
を記憶するステップを実行し、
前記出現パターンは、カテゴリの出現順、カテゴリ間に記述されている単語、カテゴリの直前または直後に記述されている単語、およびカテゴリ間の係り受けの関係、のうちの少なくともいずれかにより規定され、
前記カテゴリ確率表(調整前)に前記カテゴリ確からしさ判定指標を適用することにより、抽出元の前記文書から抽出された前記単語と前記単語の分類先の前記カテゴリとの間の前記カテゴリ確からしさを示す情報を含む、カテゴリ確からしさ表を生成するステップと、
前記カテゴリ確からしさ表の前記単語のカテゴリ確からしさと、前記カテゴリ出現パターン表とに基づき、抽出元の前記文書から抽出された前記単語の前記出現パターンとの一致度を示す情報を含むカテゴリパターンマッチ表を生成するステップと、
前記カテゴリパターンマッチ表の前記一致度に基づき、対応する前記単語の前記カテゴリ確率表(調整前)の前記カテゴリ確率を更新することにより、前記カテゴリ確率表(調整前)を調整したカテゴリ確率表(調整後)を生成するステップと、
前記カテゴリ確率表(調整後)から前記カテゴリ確率が予め設定された閾値を超える単語を抽出することにより、前記文書に含まれている単語をカテゴリ別に分類してまとめたカテゴリ別単語抽出表を生成して出力するステップと、
を実行する、文書情報抽出方法。 - 請求項5に記載の文書情報抽出方法であって、
前記条件は、前記単語の複数の前記カテゴリの夫々の前記カテゴリ確率の値について設定された条件を含む、
文書情報抽出方法。 - 請求項5に記載の文書情報抽出方法であって、
前記カテゴリ確率表(調整前)は、学習用の文書と抽出される単語の分類先のカテゴリ
を示す情報とを含む学習データを用いて、当該単語の周辺に現れる特徴的な表現(特徴量)と当該単語の分類先のカテゴリとの関係を学習させた機械学習モデルを用いて生成されたものである、
文書情報抽出方法。 - 請求項5に記載の文書情報抽出方法であって、
前記カテゴリ出現パターン表は、学習用の文書と抽出される単語の分類先のカテゴリを示す情報とを含む学習データを用いて、関係づけたい単語間をつなげる特徴的な表現を学習させることにより生成されたものである、
文書情報抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019165316A JP7229887B2 (ja) | 2019-09-11 | 2019-09-11 | 文書情報抽出装置、および文書情報抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019165316A JP7229887B2 (ja) | 2019-09-11 | 2019-09-11 | 文書情報抽出装置、および文書情報抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021043704A JP2021043704A (ja) | 2021-03-18 |
JP7229887B2 true JP7229887B2 (ja) | 2023-02-28 |
Family
ID=74861674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019165316A Active JP7229887B2 (ja) | 2019-09-11 | 2019-09-11 | 文書情報抽出装置、および文書情報抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7229887B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010257406A (ja) | 2009-04-28 | 2010-11-11 | Yahoo Japan Corp | 適正単語取得装置、機械学習装置及び方法 |
JP2012173810A (ja) | 2011-02-17 | 2012-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 主題抽出装置、方法、及びプログラム |
US20170161255A1 (en) | 2015-12-02 | 2017-06-08 | Abbyy Infopoisk Llc | Extracting entities from natural language texts |
JP2018200650A (ja) | 2017-05-30 | 2018-12-20 | 株式会社ソケッツ | 言語情報分析装置および方法 |
-
2019
- 2019-09-11 JP JP2019165316A patent/JP7229887B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010257406A (ja) | 2009-04-28 | 2010-11-11 | Yahoo Japan Corp | 適正単語取得装置、機械学習装置及び方法 |
JP2012173810A (ja) | 2011-02-17 | 2012-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 主題抽出装置、方法、及びプログラム |
US20170161255A1 (en) | 2015-12-02 | 2017-06-08 | Abbyy Infopoisk Llc | Extracting entities from natural language texts |
JP2018200650A (ja) | 2017-05-30 | 2018-12-20 | 株式会社ソケッツ | 言語情報分析装置および方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2021043704A (ja) | 2021-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7000341B2 (ja) | 機械学習に基づくウェブインタフェース生成及びテストシステム | |
TWI790443B (zh) | 用於機器學習模型建立之技術 | |
US10002131B2 (en) | Classifying languages for objects and entities | |
TWI718643B (zh) | 異常群體識別方法及裝置 | |
CN108629687B (zh) | 一种反洗钱方法、装置及设备 | |
CN107644011B (zh) | 用于细粒度医疗实体提取的系统和方法 | |
CN104813275B (zh) | 用于预测文本的方法和系统 | |
WO2022057658A1 (zh) | 推荐模型训练方法、装置、计算机设备及存储介质 | |
US20210406266A1 (en) | Computerized information extraction from tables | |
US10885452B1 (en) | Relation graph optimization using inconsistent cycle detection | |
JPWO2019102533A1 (ja) | 文献分類装置 | |
US11481734B2 (en) | Machine learning model for predicting litigation risk on construction and engineering projects | |
US20210350068A1 (en) | Descriptive insight generation and presentation system | |
US11615361B2 (en) | Machine learning model for predicting litigation risk in correspondence and identifying severity levels | |
JP2018112853A (ja) | 話題分類装置およびそのプログラム | |
WO2022039803A1 (en) | Identifying noise in verbal feedback using artificial text from non-textual parameters and transfer learning | |
JP7229887B2 (ja) | 文書情報抽出装置、および文書情報抽出方法 | |
JP2016110256A (ja) | 情報処理装置及び情報処理プログラム | |
JP7275591B2 (ja) | 評価支援プログラム、評価支援方法および情報処理装置 | |
US20220156529A1 (en) | Anomaly detection by ranking from algorithm | |
JP2023181819A (ja) | 言語処理装置、機械学習方法、推定方法及びプログラム | |
JP7364512B2 (ja) | ラベル付与モデル生成装置、及びラベル付与モデル生成方法 | |
US20210295036A1 (en) | Systematic language to enable natural language processing on technical diagrams | |
CN110990256A (zh) | 开源代码检测方法、装置及计算机可读存储介质 | |
JP5946949B1 (ja) | データ分析システム、その制御方法、プログラム、および、記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211102 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220921 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221004 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221024 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230215 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7229887 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |