JP7229887B2 - 文書情報抽出装置、および文書情報抽出方法 - Google Patents

文書情報抽出装置、および文書情報抽出方法 Download PDF

Info

Publication number
JP7229887B2
JP7229887B2 JP2019165316A JP2019165316A JP7229887B2 JP 7229887 B2 JP7229887 B2 JP 7229887B2 JP 2019165316 A JP2019165316 A JP 2019165316A JP 2019165316 A JP2019165316 A JP 2019165316A JP 7229887 B2 JP7229887 B2 JP 7229887B2
Authority
JP
Japan
Prior art keywords
category
document
word
categories
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019165316A
Other languages
English (en)
Other versions
JP2021043704A (ja
Inventor
絵理 照屋
理 竹内
美智子 田中
琢也 小田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019165316A priority Critical patent/JP7229887B2/ja
Publication of JP2021043704A publication Critical patent/JP2021043704A/ja
Application granted granted Critical
Publication of JP7229887B2 publication Critical patent/JP7229887B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書情報抽出装置、および文書情報抽出方法に関する。
特許文献1には、特定の場所や物事を指す表現である固有表現のカテゴリを示すラベルが付与された固有表現を固有表現抽出装置について記載されている。固有表現抽出装置は、形態素解析済みの入力文書に基づいて、入力文書中の各単語について、単語内の情報に関する特徴、および単語の周辺の文脈に関する特徴を示す素性を算出し、素性に基づいて、単語が、固有物を表す表現である固有表現のカテゴリを示すラベルが付与された固有表現であるか否かを識別するための予め学習された識別モデルと、素性算出手段によって算出された各単語の素性とに基づいて、入力文書中の各単語が、ラベルが付与された固有表現であるか否かを識別し、入力文書からラベルが付与された固有表現を抽出する。
特開2013-246795号公報
近年、材料開発の分野においては、ビッグデータの解析やAI(Artificial Intelligence)に関する技術を活用するMI(Materials Informatics)が注目されている。MIにおいては、実際に計測されたデータに限らず、特許文献等のデータから有用な情報(物質名、物性値、反応条件、生成物質等)を抽出し、より効果的に材料開発を行いたいというニーズがある。しかし形式が整っていない膨大なデータから有用な情報を効率よく抽出することは必ずしも容易ではない。
本発明は、こうした背景に鑑みてなされたものであり、膨大なデータから有用な情報を効率よく抽出することが可能な文書情報抽出装置、および文書情報抽出方法を提供することを目的とする。
上記目的を達成するための本発明の一つは、文書から情報を抽出する文書情報抽出装置であって、情報処理装置を用いて構成され、抽出元の文書から抽出された単語をカテゴリに分類した結果と、前記単語の分類先の前記カテゴリへの適合度を示す値であるカテゴリ確率とを示す情報を含む、カテゴリ確率表(調整前)、文書におけるカテゴリの出現態様である出現パターンの頻度を示す情報を含む、カテゴリ出現パターン表、および、前記カテゴリ確率について設定された条件に対応づけて、前記カテゴリ確率表(調整前)における前記単語の分類先の前記カテゴリへの分類の確からしさの指標であるカテゴリ確からしさを定義した情報を含む、カテゴリ確からしさ判定指標を記憶し、前記出現パターンは、カテゴリの出現順、カテゴリ間に記述されている単語、カテゴリの直前または直後に記述されている単語、およびカテゴリ間の係り受けの関係、のうちの少なくともいずれかにより規定され、前記カテゴリ確率表(調整前)に前記カテゴリ確からしさ判定指標を適用することにより、抽出元の前記文書から抽出された前記単語と前記単語の分類先の前記カテゴリとの間の前記カテゴリ確からしさを示す情報を含む、カテゴリ確からしさ表を生成し、 前記カテゴリ確からしさ表の前記単語のカテゴリ確からしさと、前記カテゴリ出現パターン表とに基づき、抽出元の前記文書から抽出された前記単語の前記出現パターンとの一致度を示す情報を含むカテゴリパターンマッチ表を生成し、前記カテゴリパターンマッチ表の前記一致度に基づき、対応する前記単語の前記カテゴリ確率表(調整前)の前記カテゴリ確率を更新することにより、前記カテゴリ確率表(調整前)を調整したカテゴリ確率表(調整後)を生成し、前記カテゴリ確率表(調整後)から前記カテゴリ確率が予め設定された閾値を超える単語を抽出することにより、前記文書に含まれている単語をカテゴリ別に分類してまとめたカテゴリ別単語抽出表を生成して出力する
その他、本願が開示する課題、およびその解決方法は、発明を実施するための形態の欄、および図面により明らかにされる。
本発明によれば、膨大なデータから有用な情報を効率よく抽出することができる。
文書情報抽出装置の概略的な機能を説明する図である。 対象文書からカテゴリ別単語抽出表を生成する例を示す図である。 カテゴリ確率表(調整前)の一例である。 文書から出現パターンを抽出する方法を説明する図である。 カテゴリ確からしさ表を生成する方法を説明する図である。 カテゴリパターンマッチ表を生成する方法を説明する図である。 カテゴリ確率表(調整後)を生成する方法を説明する図である。。 カテゴリ別単語抽出表を生成する方法を説明する図である。 カテゴリ確率表(調整前)の一例である。 文書情報抽出装置の実現に用いる情報処理装置の一例を示す図である。 文書情報抽出装置が備える主な機能を説明する図である。 対象文書に基づきカテゴリ別単語抽出表を生成する際に行う処理の流れを説明する図である。 設定情報受付画面の一例である。
以下、実施形態について図面を参照しつつ説明する。以下の説明において、同一又は類似の機能を有する構成について同一の符号を付すことにより重複した説明を省略することがある。また以下の説明において、符号の前に付した「S」の文字は処理ステップを意味する。また以下の説明において、「文書」という場合、文書をテキストデータ等の所定の形式で電子化したデータを意味するものとする。また以下の説明において、「表」という場合、データベースのテーブルをいうものとする。
図1に、本発明の一実施形態として説明する文書情報抽出装置100の概略的な機能を示している。文書情報抽出装置100は、MI(Materials Informatics)等で用いる有
用な情報(以下、「文書情報」と称する。)の抽出元(情報源)となる文書(以下、「対象文書111」と称する。)から、対象文書111に含まれている単語をカテゴリ別に分類してまとめたカテゴリ別単語抽出表118(文書情報)を生成する(S1~S3)。
図2は、文書情報抽出装置100が、対象文書111からカテゴリ別単語抽出表118を生成する例を示す図である。例示する対象文書111は特許文書(特許公報、出願公開公報等)である。同図に示すように、文書情報抽出装置100は、対象文書111に記載されている文111a「塩化アルミニウム 15molをトルエン 40mLに添加し、次いで、エ
タノール 15mmolを攪拌下に滴下し、滴下終了後25℃で 1時間反応させた。」から、「塩
化アルミニウム」、「15mol」、「トルエン」、「40mL」、「添加」等の単語を抽出し、
抽出した単語をカテゴリ(物質、量、操作、温度、時間等)に分類したカテゴリ別単語抽出表118を生成する。ユーザは、生成されたカテゴリ別単語抽出表118を材料開発に活用する。
図1に示すように、カテゴリ別単語抽出表118の生成に際し、文書情報抽出装置100は、まず対象文書111に基づきカテゴリ確率表(調整前)112を生成する(S1)。
図3にカテゴリ確率表(調整前)112の一例を示す。同図に示すように、例示するカテゴリ確率表(調整前)112は、対象文書111から抽出された単語(塩化アルミニウム、15mol、トルエン、40mL、添加)について、夫々のカテゴリへの適合の度合いを示す
情報(以下、「カテゴリ確率」と称する。)を含む。
文書情報抽出装置100は、例えば、学習用の文書(例えば、対象文書111と同一又は類似の技術分野に属する文書)と、単語の分類先のカテゴリを示す情報とを含む学習データを用いて学習させた機械学習モデルに対象文書111を入力することにより、カテゴ
リ確率表(調整前)112を生成する。上記学習において、機械学習モデルは、例えば、学習用の文書に含まれている単語について、当該単語の周辺に現れる特徴的な表現(特徴量)と当該単語の分類先のカテゴリとの関係を学習する。カテゴリ確率は、例えば、単語の周辺に現れる特徴的な表現の出現率や単語と特徴的な表現との間の距離等に基づき算出する。尚、カテゴリ確率表(調整前)112の生成方法は必ずしも以上の方法に限定されない。
図1に戻り、続いて、文書情報抽出装置100は、生成したカテゴリ確率表(調整前)112を以下に説明する方法により調整してカテゴリ確率表(調整後)117を生成する(S2)。
まず図4に示すように、文書情報抽出装置100は、学習用の文書(例えば、対象文書111と同じ技術分野に属する文書)からカテゴリの出現の態様(以下、「出現パターン」と称する。)を抽出する。文書情報抽出装置100は、例えば、学習用の文書と、単語の分類先のカテゴリを示す情報とを含む学習データを用いて学習させた機械学習モデルを用いて、カテゴリ出現パターン表113を生成する。上記学習において、機械学習モデルは、例えば、関係づけたい単語間をつなげる特徴的な表現(カテゴリの出現順、カテゴリ間の単語(カテゴリとカテゴリとの間に記述されている単語)、カテゴリの直前または直後の単語、カテゴリ間の係り受けの関係等)を学習する。尚、カテゴリ出現パターン表113の生成方法は上記したものに必ずしも限定されない。
同図に示すカテゴリ出現パターン表113は、パターンID1131、出現パターン1132、および頻度1133の各項目を有する一つ以上のレコードで構成される。パターンID1131には、抽出された出現パターンの識別子(以下、「パターンID」と称する。)が設定される。出現パターン1132には抽出された出現パターンを示す文字列(記号列)が設定される。頻度1133には、当該出現パターンの頻度(学習用の文書について計数された当該出現パターンの出現頻度)が設定される。
続いて、図5に示すように、文書情報抽出装置100は、S1の処理で生成したカテゴリ確率表(調整前)112の各単語に夫々の分類先(カテゴリ)の確からしさ(相応しさ)を判定するための基準(以下、「カテゴリ確からしさ判定指標114」と称する。)を適用することにより、カテゴリ確からしさ表115を生成する。
同図に示すように、カテゴリ確からしさ判定指標114は、条件1141とカテゴリ確からしさ1142の各項目を含む一つ以上のレコードで構成される。条件1141には、カテゴリ確率が満たすべき条件が設定される。カテゴリ確からしさ1142には、条件について設定されたカテゴリの確からしさを示す指標(以下、「カテゴリ確からしさ」と称する。)が設定される。
カテゴリ確からしさ表115には、S1の処理で生成したカテゴリ確率表(調整前)112の各単語についてカテゴリ確からしさ判定指標114を適用して求めたカテゴリ確からしさが設定される。例えば、例示するカテゴリ確率表(調整前)112において「物質」のカテゴリに分類されている「塩化アルミニウム」は、カテゴリ確からしさ判定指標114の2行目の「0.6≦ある一つのカテゴリ確率 <0.8 かつ、それ以外のカテゴリ確率
<0.3」という条件1141に合致するので、カテゴリ確からしさ表115の対応する欄
には、当該条件1141について設定されたカテゴリ確からしさ1142である「0.8」が設定されている。
続いて、図6に示すように、文書情報抽出装置100は、生成したカテゴリ確からしさ表115にカテゴリ出現パターン表113を適用することにより、カテゴリ確からしさ表
115の各単語のカテゴリの出現パターンへの一致度(以下、「マッチ度」と称する。)を求め、その結果を出現パターン毎にまとめたカテゴリパターンマッチ表116を生成する。
例えば、カテゴリ確からしさ表115の単語「塩化アルミニウム」について、文書情報抽出装置100は、パターンIDが「パターン1」の出現パターン「[物質] [量]を」と
、当該単語である「塩化アルミニウム」とのマッチ度を次式から求め、
マッチ度=(当該単語のカテゴリが[物質]か)×(当該単語の1つ後ろの単語のカテゴリ
が[量]か)×(当該単語の2つ後ろの単語が「を」か)×頻度
・・・ 式1
求めたマッチ度(=0.8×0.7×1.0×0.8=0.448)をカテゴリパターンマッチ表116
の当該単語の欄に設定する。尚、上式は積の形であるので、要素に0となるものがあれば(カテゴリ確からしさが0の単語があれば)マッチ度は0となる。
続いて、図7に示すように、文書情報抽出装置100は、生成したカテゴリパターンマッチ表116に基づきカテゴリ確率表(調整前)112を変更(調整)し、カテゴリ確率表(調整後)117を生成する。
例えば、「物質」のカテゴリに分類されている「塩化アルミニウム」という単語について、文書情報抽出装置100は、変更差分を次式から求め、
変更差分=α×マッチ度=0.448α=0.224(α=0.5の時)
但しαは変更差分の調整値
・・・ 式2
カテゴリ確率表(調整前)112の対応する値「0.8」に、求めた変更差分を加算した
値「0.824」を、カテゴリ確率表(調整後)117の対応する欄に設定する。尚、マッチ
度が0(カテゴリ確からしさが0)の単語とカテゴリの組み合わせについては、変更差分は0となるのでカテゴリ確率は変更されない(カテゴリ確率の変更外と判定される)。
図1に戻り、続いて、文書情報抽出装置100は、生成したカテゴリ確率表(調整後)117に基づき、カテゴリ別単語抽出表118を生成する。文書情報抽出装置100は、カテゴリ確率表(調整後)117からカテゴリ確率が予め設置された閾値(例えば0.8。
以下、「抽出判定閾値191」と称する。)以上の単語を抽出することにより、カテゴリ別単語抽出表118(文書情報)を生成する。
以上のように、文書情報抽出装置100は、カテゴリ確からしさや、カテゴリの出現パターンへのマッチ度に基づきカテゴリ確率表(調整前)112を調整してカテゴリ確率表(調整後)117を生成し(S2の処理)、生成したカテゴリ確率表(調整後)117に基づき文書情報を抽出(カテゴリ別単語抽出表118を生成)するので、対象文書111からの文書情報の抽出精度を高めることができる。
またカテゴリ確率表(調整前)112の単語のうち、カテゴリ確率を変更する単語を限定する(変更しない単語についてはカテゴリ確からしさ表155のカテゴリ確からしさを0に設定する)ので、情報処理負荷が小さく、効率よく文書情報の抽出精度を高めることができる。またユーザは、設定情報受付画面1300を介して少量のデータを設定するだけで本実施形態の方法を利用することができるので、対象文書111から効率よく短い時間で有用な文書情報を抽出することができる。
ところで、図1に示したS2の処理を経由せずに、即ち、S1の処理で生成したカテゴリ確率表(調整前)112から直接、カテゴリ別単語抽出表118を生成することも可能である。
しかし図9に示すように、S1の処理で生成したカテゴリ確率表(調整前)112のカテゴリ確率は、確信をもって単語の分類先のカテゴリを特定できるような値にならないことがある。例えば、同図において符号41で示す値「0.6」は他のカテゴリの値「0.2」との差が小さく、確信をもって当該単語「塩化アルミニウム」が「物質」のカテゴリに分類することができない。またある単語について複数のカテゴリについてのカテゴリ確率が同程度になることがあり、この場合も当該単語の分類先を特定することができない。例えば、同図において符号42で示す2つの値「0.8」は同値であり、当該単語「15mol」が
「量」または「操作」のいずれのカテゴリに分類されるかを判定することができない。
しかし以上に説明したように、本実施形態の文書情報抽出装置100は、S2の処理を行って、カテゴリ確からしさやカテゴリの出現パターンへのマッチ度に基づきカテゴリ確率表(調整前)を調整してカテゴリ確率表(調整後)を生成するので、対象文書111から抽出される単語を精度よく適切なカテゴリに分類することができる。
続いて、文書情報抽出装置100の具体的な構成について説明する。
図10は、文書情報抽出装置100の実現に用いる情報処理装置の一例を示すブロック図である。同図に示すように、例示する情報処理装置10は、プロセッサ11、主記憶装置12、補助記憶装置13、入力装置14、出力装置15、および通信装置16を備える。尚、情報処理装置10は、例えば、クラウドシステム(Cloud System)により提供されるクラウドサーバ(Cloud Server)のように仮想的な情報処理資源を用いて実現されるものであってもよい。
プロセッサ11は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field Programmable
Gate Array)、ASIC(Application Specific Integrated Circuit)、AI(Artificial Intelligence)チップ等を用いて構成されている。
主記憶装置12は、プログラムやデータを記憶する装置であり、例えば、ROM(Read
Only Memory)、RAM(Random Access Memory)、不揮発性メモリ(NVRAM(Non Volatile RAM))等である。
補助記憶装置13は、例えば、ハードディスクドライブ、SSD(Solid State Drive
)、光学式記憶装置(CD(Compact Disc)、DVD(Digital Versatile Disc)等)、ストレージシステム、ICカード、SDカードや光学式記録媒体等の記録媒体の読取/書込装置、クラウドサーバの記憶領域等である。補助記憶装置13には、記録媒体の読取装置や通信装置16を介してプログラムやデータを読み込むことができる。補助記憶装置13に格納(記憶)されているプログラムやデータは主記憶装置12に随時読み込まれる。
入力装置14は、外部からの入力を受け付けるインタフェースであり、例えば、キーボード、マウス、タッチパネル、カードリーダ、音声入力装置等である。
出力装置15は、処理経過や処理結果等の各種情報を出力するインタフェースである。出力装置15は、例えば、上記の各種情報を可視化する表示装置(液晶モニタ、LCD(Liquid Crystal Display)、グラフィックカード等)、上記の各種情報を音声化する装置(音声出力装置(スピーカ等))、上記の各種情報を文字化する装置(印字装置等)である。尚、例えば、情報処理装置10が通信装置16を介して他の装置との間で情報の入力や出力を行う構成としてもよい。
通信装置16は、他の装置との間の通信を実現する装置である。通信装置16は、通信ネットワーク5を介した他の装置との間の通信を実現する、有線方式または無線方式の通信インタフェースであり、例えば、NIC(Network Interface Card)、無線通信モジュール、USBモジュール、シリアル通信モジュール等である。
文書情報抽出装置100が備える機能は、プロセッサ11が、主記憶装置12に格納されているプログラムを読み出して実行することにより、もしくは、これらの装置を構成するハードウェア(FPGA、ASIC、AIチップ等)によって実現される。文書情報抽出装置100には、例えば、オペレーティングシステム、デバイスドライバ、ファイルシステム、DBMS(DataBase Management System)等が導入されていてもよい。
図11は、文書情報抽出装置100が備える主な機能を説明する図である。同図に示すように、文書情報抽出装置100は、記憶部110、カテゴリ確率表生成部120、カテゴリ確率表調整部130、およびカテゴリ別単語抽出表生成部140の各機能を備える。またカテゴリ確率表調整部130は、カテゴリ出現パターン抽出部131、カテゴリ確からしさ算出部132、カテゴリパターンマッチ度算出部133、およびカテゴリ確率表変更部134の各機能を含む。
記憶部110は、対象文書111、カテゴリ確率表(調整前)112、カテゴリ出現パターン表113、カテゴリ確からしさ判定指標114、カテゴリ確からしさ表115、カテゴリパターンマッチ表116、カテゴリ確率表(調整後)117、カテゴリ別単語抽出表118、変更差分の調整値α119、および抽出判定閾値191を記憶する。尚、記憶部110は、例えば、DBMSが提供するデータベースのテーブルや、ファイルシステムが提供するファイルとして、これらの情報(データ)を記憶する。設定情報受付部150は、前述したカテゴリ確からしさ判定指標114の内容、変更差分の調整値α119の設定、および抽出判定閾値191の設定をユーザから受け付ける。
図12は、文書情報抽出装置100が、対象文書111に基づきカテゴリ別単語抽出表118を生成する際に行う処理の流れを説明する処理ブロック図である。以下、同図とともに説明する。
同図に示すように、カテゴリ確率表生成部120は、対象文書111に基づきカテゴリ確率表(調整前)112を生成する。
カテゴリ出現パターン抽出部131は、対象文書111に基づきカテゴリ出現パターン表113を生成する。尚、カテゴリ出現パターン表113の生成は事前に行っておくようにしてもよい。
カテゴリ確からしさ算出部132は、カテゴリ確率表(調整前)112とカテゴリ確からしさ判定指標114とに基づき、カテゴリ確からしさ表115を生成する。尚、カテゴリ確からしさ判定指標114は、例えば、ユーザが事前に作成しておく。
カテゴリパターンマッチ度算出部133は、カテゴリ出現パターン表113とカテゴリ確からしさ表115とに基づき、カテゴリパターンマッチ表116を生成する。
カテゴリ確率表変更部134は、カテゴリ確率表(調整前)112を、カテゴリパターンマッチ表116に基づき変更してカテゴリ確率表(調整後)117を生成する。
カテゴリ別単語抽出表生成部140は、カテゴリ確率表(調整後)117に基づきカテゴリ別単語抽出表118を生成する。
尚、カテゴリ別単語抽出表118を生成する処理を任意の複数回繰り返してもよい。例えば、始めに上記で述べた処理によりカテゴリ確率表(調整後)117を出力する。その後、カテゴリ確率表(調整前)112を先ほど出力したカテゴリ確率表(調整後)117と置き換え、カテゴリ確からしさ算出部132以降の処理を再度実施する。このような処理を複数回繰り返すことにより、カテゴリ確率表を複数回調整することも可能である。
図13は、文書情報抽出装置100の設定情報受付部150が、カテゴリ確からしさ判定指標114の内容、変更差分の調整値α119の設定、抽出判定閾値191の設定をユーザから受け付ける際に表示する画面(以下、「設定情報受付画面1300」と称する。)の一例である。
同図に示すように、設定情報受付画面1300は、カテゴリ確からしさ判定指標の受け付け欄1311、変更差分の調整値αの受付欄1312、および抽出判定閾値の設定欄1313を有する。ユーザが、これらの欄の少なくともいずれかに内容を入力して設定ボタン1314を操作すると、文書情報抽出装置100の記憶部110は、カテゴリ確からしさ判定指標の受け付け欄1311に入力された内容についてはカテゴリ確からしさ判定指標114として、変更差分の調整値αの受付欄1312に入力された内容については変更差分の調整値α119として、抽出判定閾値の設定欄1313に入力された内容については抽出判定閾値191として、夫々記憶する。
以上に説明したように、本実施形態の文書情報抽出装置100は、カテゴリの出現パターンへのマッチ度やカテゴリ確からしさに基づきカテゴリ確率表(調整前)112を調整してカテゴリ確率表(調整後)117を生成し、生成したカテゴリ確率表(調整後)117に基づき文書情報を抽出するので、対象文書111から、対象文書111からMI等に用いる有用な文書情報を精度よく抽出することができる。
尚、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。
また上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体を情報処理装置(コンピュータ)に提供し、その情報処理装置が備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、およびそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD-ROM、DVD-ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD-R、磁気テープ、不揮発性のメ
モリカード、ROMなどが用いられる。
また以上では各種の情報を表形式で例示したが、これらの情報は表以外の形式で管理してもよい。
また本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
さらに、実施例の機能を実現するソフトウェアのプログラムコードを、通信ネットワークを介して配信することによって、それを情報処理装置のハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。
100 文書情報抽出装置
110 記憶部
111 対象文書
112 カテゴリ確率表(調整前)
113 カテゴリ出現パターン表
114 カテゴリ確からしさ判定指標
115 カテゴリ確からしさ表
116 カテゴリパターンマッチ表
117 カテゴリ確率表(調整後)
118 カテゴリ別単語抽出表
119 変更差分の調整池α
191 抽出判定閾値
120 カテゴリ確率表生成部
130 カテゴリ確率表調整部
131 カテゴリ出現パターン抽出部
132 カテゴリ確からしさ算出部
133 カテゴリパターンマッチ度算出部
134 カテゴリ確率表変更部
140 カテゴリ別単語抽出表生成部
150 設定情報受付部
1300 設定情報受付画面

Claims (8)

  1. 文書から情報を抽出する文書情報抽出装置であって、
    情報処理装置を用いて構成され、
    抽出元の文書から抽出された単語をカテゴリに分類した結果と、前記単語の分類先の前記カテゴリへの適合度を示す値であるカテゴリ確率とを示す情報を含む、カテゴリ確率表(調整前)、
    文書におけるカテゴリの出現態様である出現パターンの頻度を示す情報を含む、カテゴリ出現パターン表、および、
    前記カテゴリ確率について設定された条件に対応づけて、前記カテゴリ確率表(調整前)における前記単語の分類先の前記カテゴリへの分類の確からしさの指標であるカテゴリ確からしさを定義した情報を含む、カテゴリ確からしさ判定指標
    を記憶し、
    前記出現パターンは、カテゴリの出現順、カテゴリ間に記述されている単語、カテゴリの直前または直後に記述されている単語、およびカテゴリ間の係り受けの関係、のうちの少なくともいずれかにより規定され、
    前記カテゴリ確率表(調整前)に前記カテゴリ確からしさ判定指標を適用することにより、抽出元の前記文書から抽出された前記単語と前記単語の分類先の前記カテゴリとの間の前記カテゴリ確からしさを示す情報を含む、カテゴリ確からしさ表を生成し、
    前記カテゴリ確からしさ表の前記単語のカテゴリ確からしさと、前記カテゴリ出現パターン表とに基づき、抽出元の前記文書から抽出された前記単語の前記出現パターンとの一致度を示す情報を含むカテゴリパターンマッチ表を生成し、
    前記カテゴリパターンマッチ表の前記一致度に基づき、対応する前記単語の前記カテゴリ確率表(調整前)の前記カテゴリ確率を更新することにより、前記カテゴリ確率表(調整前)を調整したカテゴリ確率表(調整後)を生成し、
    前記カテゴリ確率表(調整後)から前記カテゴリ確率が予め設定された閾値を超える単語を抽出することにより、前記文書に含まれている単語をカテゴリ別に分類してまとめたカテゴリ別単語抽出表を生成して出力する、
    文書情報抽出装置。
  2. 請求項1に記載の文書情報抽出装置であって、
    前記条件は、前記単語の複数の前記カテゴリの夫々の前記カテゴリ確率の値について設定された条件を含む、
    文書情報抽出装置。
  3. 請求項に記載の文書情報抽出装置であって、
    前記カテゴリ確率表(調整前)は、学習用の文書と抽出される単語の分類先のカテゴリ
    を示す情報とを含む学習データを用いて、当該単語の周辺に現れる特徴的な表現(特徴量)と当該単語の分類先のカテゴリとの関係を学習させた機械学習モデルを用いて生成されたものである、
    文書情報抽出装置。
  4. 請求項に記載の文書情報抽出装置であって、
    前記カテゴリ出現パターン表は、学習用の文書と抽出される単語の分類先のカテゴリを示す情報とを含む学習データを用いて、関係づけたい単語間をつなげる特徴的な表現を学習させることにより生成されたものである、
    文書情報抽出装置。
  5. 文書から情報を抽出する方法であって、
    情報処理装置が、
    抽出元の文書から抽出された単語をカテゴリに分類した結果と、前記単語の分類先の前記カテゴリへの適合度を示す値であるカテゴリ確率とを示す情報を含む、カテゴリ確率表(調整前)、
    文書におけるカテゴリの出現態様である出現パターンの頻度を示す情報を含む、カテゴリ出現パターン表、および、
    前記カテゴリ確率について設定された条件に対応づけて、前記カテゴリ確率表(調整前)における前記単語の分類先の前記カテゴリへの分類の確からしさの指標であるカテゴリ確からしさを定義した情報を含む、カテゴリ確からしさ判定指標
    を記憶するステップを実行し、
    前記出現パターンは、カテゴリの出現順、カテゴリ間に記述されている単語、カテゴリの直前または直後に記述されている単語、およびカテゴリ間の係り受けの関係、のうちの少なくともいずれかにより規定され、
    前記カテゴリ確率表(調整前)に前記カテゴリ確からしさ判定指標を適用することにより、抽出元の前記文書から抽出された前記単語と前記単語の分類先の前記カテゴリとの間の前記カテゴリ確からしさを示す情報を含む、カテゴリ確からしさ表を生成するステップと、
    前記カテゴリ確からしさ表の前記単語のカテゴリ確からしさと、前記カテゴリ出現パターン表とに基づき、抽出元の前記文書から抽出された前記単語の前記出現パターンとの一致度を示す情報を含むカテゴリパターンマッチ表を生成するステップと、
    前記カテゴリパターンマッチ表の前記一致度に基づき、対応する前記単語の前記カテゴリ確率表(調整前)の前記カテゴリ確率を更新することにより、前記カテゴリ確率表(調整前)を調整したカテゴリ確率表(調整後)を生成するステップと、
    前記カテゴリ確率表(調整後)から前記カテゴリ確率が予め設定された閾値を超える単語を抽出することにより、前記文書に含まれている単語をカテゴリ別に分類してまとめたカテゴリ別単語抽出表を生成して出力するステップと、
    を実行する、文書情報抽出方法。
  6. 請求項5に記載の文書情報抽出方法であって、
    前記条件は、前記単語の複数の前記カテゴリの夫々の前記カテゴリ確率の値について設定された条件を含む、
    文書情報抽出方法。
  7. 請求項5に記載の文書情報抽出方法であって、
    前記カテゴリ確率表(調整前)は、学習用の文書と抽出される単語の分類先のカテゴリ
    を示す情報とを含む学習データを用いて、当該単語の周辺に現れる特徴的な表現(特徴量)と当該単語の分類先のカテゴリとの関係を学習させた機械学習モデルを用いて生成されたものである、
    文書情報抽出方法。
  8. 請求項5に記載の文書情報抽出方法であって、
    前記カテゴリ出現パターン表は、学習用の文書と抽出される単語の分類先のカテゴリを示す情報とを含む学習データを用いて、関係づけたい単語間をつなげる特徴的な表現を学習させることにより生成されたものである、
    文書情報抽出方法。
JP2019165316A 2019-09-11 2019-09-11 文書情報抽出装置、および文書情報抽出方法 Active JP7229887B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019165316A JP7229887B2 (ja) 2019-09-11 2019-09-11 文書情報抽出装置、および文書情報抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019165316A JP7229887B2 (ja) 2019-09-11 2019-09-11 文書情報抽出装置、および文書情報抽出方法

Publications (2)

Publication Number Publication Date
JP2021043704A JP2021043704A (ja) 2021-03-18
JP7229887B2 true JP7229887B2 (ja) 2023-02-28

Family

ID=74861674

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019165316A Active JP7229887B2 (ja) 2019-09-11 2019-09-11 文書情報抽出装置、および文書情報抽出方法

Country Status (1)

Country Link
JP (1) JP7229887B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010257406A (ja) 2009-04-28 2010-11-11 Yahoo Japan Corp 適正単語取得装置、機械学習装置及び方法
JP2012173810A (ja) 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 主題抽出装置、方法、及びプログラム
US20170161255A1 (en) 2015-12-02 2017-06-08 Abbyy Infopoisk Llc Extracting entities from natural language texts
JP2018200650A (ja) 2017-05-30 2018-12-20 株式会社ソケッツ 言語情報分析装置および方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010257406A (ja) 2009-04-28 2010-11-11 Yahoo Japan Corp 適正単語取得装置、機械学習装置及び方法
JP2012173810A (ja) 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 主題抽出装置、方法、及びプログラム
US20170161255A1 (en) 2015-12-02 2017-06-08 Abbyy Infopoisk Llc Extracting entities from natural language texts
JP2018200650A (ja) 2017-05-30 2018-12-20 株式会社ソケッツ 言語情報分析装置および方法

Also Published As

Publication number Publication date
JP2021043704A (ja) 2021-03-18

Similar Documents

Publication Publication Date Title
JP7000341B2 (ja) 機械学習に基づくウェブインタフェース生成及びテストシステム
TWI790443B (zh) 用於機器學習模型建立之技術
US10002131B2 (en) Classifying languages for objects and entities
TWI718643B (zh) 異常群體識別方法及裝置
CN108629687B (zh) 一种反洗钱方法、装置及设备
CN107644011B (zh) 用于细粒度医疗实体提取的系统和方法
CN104813275B (zh) 用于预测文本的方法和系统
WO2022057658A1 (zh) 推荐模型训练方法、装置、计算机设备及存储介质
US20210406266A1 (en) Computerized information extraction from tables
US10885452B1 (en) Relation graph optimization using inconsistent cycle detection
JPWO2019102533A1 (ja) 文献分類装置
US11481734B2 (en) Machine learning model for predicting litigation risk on construction and engineering projects
US20210350068A1 (en) Descriptive insight generation and presentation system
US11615361B2 (en) Machine learning model for predicting litigation risk in correspondence and identifying severity levels
JP2018112853A (ja) 話題分類装置およびそのプログラム
WO2022039803A1 (en) Identifying noise in verbal feedback using artificial text from non-textual parameters and transfer learning
JP7229887B2 (ja) 文書情報抽出装置、および文書情報抽出方法
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
JP7275591B2 (ja) 評価支援プログラム、評価支援方法および情報処理装置
US20220156529A1 (en) Anomaly detection by ranking from algorithm
JP2023181819A (ja) 言語処理装置、機械学習方法、推定方法及びプログラム
JP7364512B2 (ja) ラベル付与モデル生成装置、及びラベル付与モデル生成方法
US20210295036A1 (en) Systematic language to enable natural language processing on technical diagrams
CN110990256A (zh) 开源代码检测方法、装置及计算机可读存储介质
JP5946949B1 (ja) データ分析システム、その制御方法、プログラム、および、記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211102

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230215

R150 Certificate of patent or registration of utility model

Ref document number: 7229887

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150