JP7286291B2 - 固有表現抽出装置、方法およびプログラム - Google Patents

固有表現抽出装置、方法およびプログラム Download PDF

Info

Publication number
JP7286291B2
JP7286291B2 JP2018183861A JP2018183861A JP7286291B2 JP 7286291 B2 JP7286291 B2 JP 7286291B2 JP 2018183861 A JP2018183861 A JP 2018183861A JP 2018183861 A JP2018183861 A JP 2018183861A JP 7286291 B2 JP7286291 B2 JP 7286291B2
Authority
JP
Japan
Prior art keywords
extraction
learning
extracted
named
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018183861A
Other languages
English (en)
Other versions
JP2020052902A (ja
Inventor
義賢 飛田
優 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Priority to JP2018183861A priority Critical patent/JP7286291B2/ja
Priority to PCT/JP2019/037915 priority patent/WO2020067313A1/ja
Priority to CN201980054951.8A priority patent/CN112585611A/zh
Publication of JP2020052902A publication Critical patent/JP2020052902A/ja
Priority to US17/202,752 priority patent/US11868726B2/en
Application granted granted Critical
Publication of JP7286291B2 publication Critical patent/JP7286291B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明の実施形態は、固有表現抽出装置、方法およびプログラムに関する。
従来、人手によるルール又は機械学習などの様々な手法によって、文書データ中に出現する固有表現を抽出する仕組みが提案されてきた。
また、文書データから抽出した固有表現について、この固有表現の分類名が出現する度合いから、分類名の重みを算出することで、どの固有表現を出力するかを判定するなどの応用技術も存在する。
特開2007-148785号公報
しかしながら、他の認識技術と同様に、固有表現抽出にも、理想的には100%の精度が期待されており、さらなる精度向上が求められている。
本発明が解決しようとする課題は、文書からの固有表現抽出の精度を向上させることが可能な固有表現抽出装置、方法およびプログラムを提供することである。
実施形態に係る固有表現抽出装置は、文書データから当該文書データの固有表現として抽出させる文字列および固有表現同士の関係として抽出させる固有表現の組を抽出する抽出ルールを定めた抽出用辞書を格納する第1の格納手段と、前記固有表現に対応する文字列および前記固有表の抽出対象である抽出用文書データならびに前記抽出用辞書の学習に用いられる学習用文書データの入力を受け付ける文書受付手段と、入力操作に従い、前記文書受付手段により受け付けた学習用文書データにおける文字列のうち前記抽出用文書データから抽出させる固有表現に対応する文字列を指定し、前記学習用文書データ中の、前記抽出用文書データから固有表現同士の関係として抽出させる固有表現の組を指定することで、前記抽出用辞書の学習に用いられ、前記固有表現として抽出させる文字列および前記固有表現同士の関係として抽出させる固有表現の組をそれぞれ定めた学習データを生成する第1の生成手段と、前記抽出用文書データから抽出させる、固有表現の分類同士の関係を定めた関係抽出ルールを格納する第2の格納手段と、前記生成された学習データに、前記第2の格納手段に格納された関係抽出ルールを適用することで、前記生成された学習データにおける前記固有表のうち前記関係抽出ルールで定められた分類に属する固有表が登録された学習文書を生成する第2の生成手段と、前記第2の生成手段により生成された学習文書に含まれる、前記固有表現として抽出させる文字列および前記固有表現同士の関係として抽出させる前記固有表現の組を前記抽出用辞書に反映することで、前記抽出用辞書を学習する学習手段と、前記学習手段により学習された前記抽出用辞書を用いて、前記文書受付手段により受け付けた抽出用文書データから前記固有表現に対応する文字列および前記固有表をそれぞれ抽出する抽出手段と、を有する。
本発明によれば、文書からの固有表現抽出の精度を向上させることができる。
実施形態に係る固有表現抽出装置の機能構成例を示すブロック図。 実施形態に係る固有表現抽出装置の文書DBに格納される文書データの一例を表形式で示す図。 実施形態に係る固有表現抽出装置のオリジナル学習文書DBに格納される、固有表現に係る学習データの一例を表形式で示す図。 実施形態に係る固有表現抽出装置のオリジナル学習文書DBに格納される、固有表現同士の関係に係る学習データの一例を表形式で示す図。 実施形態に係る固有表現抽出装置の関係抽出ルールDBに格納される関係抽出ルールの一例を表形式で示す図。 実施形態に係る固有表現抽出装置の解析辞書DBに格納される解析辞書の一例を表形式で示す図。 実施形態に係る固有表現抽出装置の第1の処理手順の一例を示すフローチャート。 実施形態に係る固有表現抽出装置による、文書データの記述へのタグの付与時の表示画面の一例を示す図。 実施形態に係る固有表現抽出装置の第2の処理手順の一例を示すフローチャート。 実施形態に係る固有表現抽出装置による、抽出されたタグ、およびタグ同士の関係の表示画面の一例を示す図。 実施形態に係る固有表現抽出装置による、抽出されたタグ、およびタグ同士の関係の編集画面の一例を示す図。 実施形態に係る固有表現抽出装置の第3の処理手順の一例を示すフローチャート。 実施形態に係る固有表現抽出装置による、文書データのタグ同士の関係の付与時の表示画面の一例を示す図。 実施形態に係る固有表現抽出装置による、抽出されなかったタグ、およびタグ同士の関係の表示画面の一例を示す図。 実施形態に係る固有表現抽出装置の第4の処理手順の一例を示すフローチャート。 実施形態に係る固有表現抽出装置による、学習されなかったが抽出されたタグ、およびタグ同士の関係の表示画面の一例を示す図。
以下、実施形態について図面を用いて説明する。
図1は、本発明の実施形態に係る固有表現抽出装置の機能構成例を示すブロック図である。
図1に示すように、実施形態に係る固有表現抽出装置10は、文書受付部11、文書DB(データベース)12、固有表現・関係の学習データ編集部13、オリジナル学習文書DB14、学習データへの関係抽出ルール登録部15、関係抽出ルールDB16、学習データへの関係抽出ルール適用部17、学習文書DB18、固有表現・関係抽出の学習部19、解析辞書DB20、固有表現・関係抽出部21、および固有表現・関係抽出結果の表示部22を有する。
また、固有表現抽出装置10は、パーソナルコンピュータ(PC)などのコンピュータデバイスを用いたシステムにより実現可能である。例えば、コンピュータデバイスは、CPU(Central Processing Unit)などのプロセッサと、プロセッサに接続されるメモリと、入出力インタフェースとを備える。このうちメモリは、不揮発性メモリなどの記憶媒体を有する記憶装置により構成される。
文書受付部11、固有表現・関係の学習データ編集部13、学習データへの関係抽出ルール登録部15、学習データへの関係抽出ルール適用部17、固有表現・関係抽出の学習部19、固有表現・関係抽出部21、および固有表現・関係抽出結果の表示部22の機能は、例えば、プロセッサがメモリに格納されているプログラムを読み出して実行することにより実現される。なお、これらの機能の一部または全部は、特定用途向け集積回路(ASIC)などの回路によって実現されてもよい。
上記の機能のうち、文書受付部11、固有表現・関係の学習データ編集部13、学習データへの関係抽出ルール登録部15、および固有表現・関係抽出結果の表示部22の機能は、ユーザインタフェース(UI)における図示しない入力装置および表示装置と協働した機能として実現することができる。入力装置は、例えばキーボードおよびマウスである。表示装置は、例えば液晶ディスプレイである。
文書DB12、オリジナル学習文書DB14、関係抽出ルールDB16、学習文書DB18、解析辞書DB20は、上記メモリのうち随時書込および読み出しが可能な不揮発性メモリに設けられる。
固有表現抽出装置10は、文書データにおける固有表現(以下、タグと称することがある)の抽出結果と、固有表現同士の関係(以下、リンクと称することがある)の抽出結果とをあわせて表示装置に表示することができる。また、ユーザに、表示を参照して固有表現および固有表現同士の関係の誤抽出および未抽出を発見させることで、文書データからの固有表現および固有表現同士の関係抽出ルールを定めた解析辞書(抽出用辞書と称することもある)の学習に用いられる学習データを修正することを支援することもできる。
文書受付部11は、1つ以上の文書データの入力(登録)を受け付けて、この受け付けた文書データを文書DB12に格納する。この格納される文書データは、(1)固有表現、および固有表現同士の関係抽出の対象となる抽出用文書データである場合と、(2)抽出用文書データからの固有表現、および固有表現同士の関係抽出ルールを定めた解析辞書の学習に用いる学習用文書データである場合とがある。
図2は、実施形態に係る固有表現抽出装置10の文書DB12に格納される文書データの一例を表形式で示す図である。
図2に示した例では、文書DB12に格納される文書データは、(1)文書データに固有のコンテンツID、(2)タイトル、(3)本文などが関連付けられる。
固有表現・関係の学習データ編集部13は、ユーザからの入力装置に対する操作に従い、文書DB12に格納される学習用文書データ中の、抽出させる(抽出されるべき)固有表現に対応する文字列と、固有表現同士の関係として抽出させる固有表現の組とを指定(付与)することで、固有表現、固有表現同士の関係の学習データ(オリジナル学習文書)を生成する。この学習データは、オリジナル学習文書DB14に格納される。
固有表現・関係の学習データ編集部13は、固有表現として抽出させる文字列と、固有表現同士の関係として抽出させる固有表現の組とを指定する指定手段と呼ぶこともできる。
オリジナル学習文書DB14に格納される学習データは、固有表現に係る学習データと、固有表現同士の関係に係る学習データとに区分される。
図3は、実施形態に係る固有表現抽出装置10のオリジナル学習文書DB14に格納される、固有表現に係る学習データの一例を表形式で示す図である。
図3に示した例では、オリジナル学習文書DB14に格納される、固有表現に係る学習データは、(1)固有表現に固有のタグID、(2)固有表現が記述される文書データのコンテンツID、(3)タグの種類、(4)タグの値などが関連付けられる。
タグの種類は、固有表現の分類名、例えば「人名」、「地名」などである。タグの値は、具体的な固有表現の記述、例えば具体的な人名、地名などである。
図4は、実施形態に係る固有表現抽出装置10のオリジナル学習文書DB14に格納される、固有表現同士の関係に係る学習データの一例を表形式で示す図である。
図4に示した例では、オリジナル学習文書DB14に格納される、固有表現同士の関係に係る学習データは、(1)固有表現同士の関係に固有の関係ID、(2)第1のタグID、(3)第1のタグの役割、(4)第2のタグID、(5)第2のタグの役割などが関連付けられる。
図4に示した例では、関係ID「1」に関する関係として、タグIDが「1」である固有表現の役割「住人」と、タグIDが「2」である固有表現の役割「住んでいる地域」との間に関係が存在することが示される。また、この例では、関係ID「2」に関する関係として、タグIDが「3」である固有表現の役割「スポーツ」と、タグIDが「4」である固有表現の役割「順位」との間に関係が存在することが示される。
図4では、2種類の固有表現同士に存在する関係について定義された例について示したが、これに限らず3種類以上の固有表現同士に存在する関係について定義されてもよい。
学習データへの関係抽出ルール登録部15は、抽出用文書データから関係が抽出されるべき固有表現の分類名(種類)の組を定める関係抽出ルールを、UIに対するユーザからの入力操作に従って指定(登録)して、関係抽出ルールDB16に格納する。
図5は、実施形態に係る固有表現抽出装置10の関係抽出ルールDB16に格納される関係抽出ルールの一例を表形式で示す図である。
図5に示した例では、関係抽出ルールDB16に格納される関係抽出ルールは、(1)関係抽出ルールに固有のルールID、(2)第1のタグの種類、(3)第2のタグの種類、(4)第1のタグの役割、(5)第2のタグの役割などが関連付けられる。関係抽出ルールDB16が設けられる不揮発性メモリは、関係抽出ルールを格納する格納手段と呼ぶこともできる。
図5に示した例では、ルールID「1」に関する関係として、第1のタグの種類「人名」と、第2のタグの種類「地名」と、第1のタグの役割「住人」と、第2のタグの役割「住んでいる地域」との間に関係が存在することが示される。また、この例では、ルールID「2」に関する関係として、第1のタグの種類「スポーツ」と、第2のタグの種類「順位」と、第1のタグの役割「競技名」と、第2のタグの役割「競技結果」との間に関係が存在することが示される。
学習データへの関係抽出ルール適用部17は、オリジナル学習文書DB14に格納される学習データに、関係抽出ルールDB16に格納される関係抽出ルールを適用することで、当該学習データにおける固有表現同士の関係のうち関係抽出ルールで定められる分類名で示される分類に属する固有表現同士の関係を一括で登録する。これにより、学習データへの関係抽出ルール適用部17は、固有表現同士の関係が登録された学習データである学習文書を生成する。この学習文書は学習文書DB18に格納される。学習データへの関係抽出ルール適用部17は、学習文書を生成する生成手段と呼ぶこともできる。
学習文書DB18に格納される学習文書の各項目は、上記のオリジナル学習文書DB14に格納される各種の学習データ(図3、4参照)と同じである。
固有表現・関係抽出の学習部19は、学習文書DB18に格納された学習文書の内容を解析辞書DB20に格納される解析辞書に反映することで、固有表現と固有表現同士の関係との抽出ルールを定めた抽出用辞書を学習する。
図6は、実施形態に係る固有表現抽出装置10の解析辞書DB20に格納される解析辞書の一例を表形式で示す図である。
図6に示した例では、解析辞書DB20に格納される解析辞書(抽出用辞書)は、各行に固有の辞書ID、タグの種類、タグの特徴、タグの値、複数種類のタグ同士の関係などが関連付けられる。タグの特徴とは、タグの記述形式、例えばバイナリデータを示す。解析辞書DB20が設けられる不揮発性メモリは、解析辞書を格納する格納手段と呼ぶこともできる。
この解析辞書は、抽出用文書データから固有表現と固有表現同士の関係とを抽出するために照合される辞書である。この解析辞書は、過去の学習用文書データに基づく学習結果が反映されており、また、新たな学習用文書データに基づく学習結果が反映される。この解析辞書は、ニューラルネットワークから構成される学習器であってもよい。
固有表現・関係抽出部21は、解析辞書DB20に格納される解析辞書と、文書DB12に格納される抽出用文書データとを照合することで、抽出用文書データから固有表現と固有表現同士の関係をそれぞれ抽出する。
固有表現・関係抽出結果の表示部22は、固有表現・関係抽出部21による固有表現および固有表現同士の関係の抽出結果を表示装置に表示する。固有表現・関係抽出結果の表示部22は、固有表現および固有表現同士の関係の抽出結果を出力する出力手段と呼ぶこともできる。
また、固有表現・関係抽出結果の表示部22は、固有表現の抽出結果と固有表現同士の関係の抽出結果とを重ねて表示装置に表示することもできる。これにより、ユーザは、固有表現の誤抽出および未検出を発見しやすくなる。
(第1の処理)
次に、固有表現抽出装置10の第1の処理について説明する。
図7は、実施形態に係る固有表現抽出装置10の第1の処理手順の一例を示すフローチャートである。
まず、ユーザからの入力操作に従って、文書受付部11は、学習用文書データの登録を受け付けて、登録した学習用文書データを文書DB12に格納する(S11)。
文書DB12に格納された学習用文書データは表示装置に表示される。この表示された状態で、表示画面上の学習用文書データの本文の記述に対するユーザからの入力操作に従って、固有表現・関係の学習データ編集部13は、学習用文書データにおける、ユーザの入力操作により指定された記述にタグであることを示すマーク(下線)を付与する(以下、タグを付与すると称することがある)。タグの付与により生成された、固有表現に係る学習データ(図3参照)はオリジナル学習文書DB14に格納される(S12)。なお、固有表現同士の関係に係る学習データ(図4参照)は、第1の処理では生成されない。
図8は、実施形態に係る固有表現抽出装置10による、文書データの記述へのタグの付与時の表示画面G1の一例を示す図である。
図8に示した例では、固有表現抽出装置10の表示装置に表示された画面G1上の文書データの本文中の各記述「搬送異常」、「ボルト」、「ボルトが緩んでいます。」、「アームに付いているネジを締めました。」への画面上のポインタによる指定などにより、各記述にタグをそれぞれ付与することができる。
画面G1上の分類名にかかるウインドウに対するポインタによる指定などにより、タグが付与される各記述には当該タグの分類名をあわせて付与できる。図8に示した例では、タグが付与された上記の記述「搬送異常」にはタグの分類名「現象」を、上記の記述「ボルト」には分類名「部位」を、上記の記述「ボルトが緩んでいます。」には分類名「原因」を、上記の記述「アームに付いているネジを締めました。」には分類名「対処」をそれぞれ付与できる。
また、画面G1と異なる図示しない設定画面上でのユーザからの入力操作に従って、学習データへの関係抽出ルール登録部15は、タグの任意の第1の分類名とタグの任意の第2の分類名との間に関係(リンク)を付与する。この付与により生成される関係抽出ルール(図5参照)は関係抽出ルールDB16に格納される(S13)。この設定画面は、画面G1における学習用文書データの表示と並べて表示することができる。第1の処理におけるタグの任意の分類名同士の関係の付与は、上記の学習用文書データの記述によらない付与である。この付与は、1つの分類名と複数の分類名との間で行なうこともできる。
ここで、学習データへの関係抽出ルール適用部17は、以下条件の時に、関係抽出ルールDB16に格納される関係抽出ルールの登録内容に合わせて、オリジナル学習文書DB14に格納される学習データで示されるタグのうち、後述のある分類名に係るタグと、別の分類名に係るタグとの関係を追加、編集、または削除する処理を行なう。上述の条件とは、S13において、(1)学習データへの関係抽出ルール登録部15によって、関係抽出ルールに対して、ある分類名に係るタグと、別の分類名に係るタグとの間の関係付与(登録)が完了している場合(S14のNO)、または、(2)完了する前で、当該付与を新たに行なう場合(S15のYES)である。この処理により生成された学習文書は学習文書DB18に格納される(S16)。例えば、関係抽出ルールで、分類名Aと分類名Bとの関係が定義されていれば、学習データにおける、分類名Aに属するタグと分類名Bに属するタグとの間に関係が付与されることになる。
上記の第1の処理によれば、学習データで示される、ある分類名に係るタグと、別の分類名に係るタグとの関係を一括で登録できる。
(第2の処理)
次に、固有表現抽出装置10の第2の処理について説明する。
図9は、実施形態に係る固有表現抽出装置10の第2の処理手順の一例を示すフローチャートである。
第2の処理では、まず、固有表現・関係抽出結果の表示部22は、固有表現・関係抽出部21により抽出用文書データから抽出したタグ、およびタグ同士の関係を分類名ごとにグループ化した抽出結果の表示画面G2を表示装置に表示する(S21)。固有表現・関係抽出部21による抽出結果と抽出元文書データとの関係を示す情報は、固有表現・関係抽出結果の表示部22に接続される内部メモリに格納されているとする。
図10は、実施形態に係る固有表現抽出装置10による、抽出されたタグ、およびタグ同士の関係の表示画面G2の一例を示す図である。
図10に示した表示画面G2では、分類(分類名)A,B,C,Dなどに属する複数種類のタグが示され、ある分類に属するタグと異なる分類に属するタグとの間の関係を示す。
図10では、分類Aと分類Bとの間、分類Bと分類Cとの間、分類Cと分類Dとの間でのタグ同士の関係がそれぞれ設定される例を示すが、これに限らず、例えば分類Aと分類Cとの間、分類Bと分類Dとの間などでのタグ同士の関係が設定されてもよい。
ユーザは、抽出結果の表示画面G2で示される、気になるタグ、またはタグ同士との関係を入力操作により指定することができる(S22)。気になるタグ、またはタグ同士の関係とは、抽出用文書データからの抽出結果として適切でない可能性があるタグ、またはタグ同士の関係である。S22での指定に伴い、固有表現・関係抽出結果の表示部22は、上記の内部メモリに格納される、固有表現・関係抽出部21による抽出結果と抽出元文書データとの関係を示す情報を固有表現・関係の学習データ編集部13に渡す。
S22での指定を受けて、固有表現・関係の学習データ編集部13は、指定されたタグ、またはタグ同士の関係の抽出元文書データを上記の渡された情報から検索して、この検索された抽出元文書データの本文などを表示装置に表示する(S23)。
この表示を受けて、ユーザからの入力操作により、固有表現・関係の学習データ編集部13は、抽出元文書データの記述に付与されているタグ、またはタグとタグの関係を編集する(S24)。
図11は、実施形態に係る固有表現抽出装置10による、抽出されたタグ、およびタグ同士の関係の編集画面G3の一例を示す図である。
図11に示した例では、分類Bに属する1つ目のタグと分類Cに属する1つ目のタグ同士の関係が編集対象として指定された例を示す。この画面G3では、ユーザからの入力操作に従って、固有表現・関係の学習データ編集部13は、指定された関係の変更、例えば分類Bに属する1つ目のタグと、分類Cに属する2つ目以降のタグ同士の関係への修正、または関係の削除などを行なうことができる。
また、上記のように、付与済みのタグ自体の修正または削除などを行なうこともできる。タグ自体の修正とは、例えば分類名の修正、対象となる記述の変更である。タグ自体の削除とは、対象となる記述に対する固有表現としての指定の解除である。
第2の処理によれば、タグ、およびタグとタグとの関係の抽出結果のうち、指定された抽出結果の抽出元文書を容易に表示することができる。また、タグとタグとの関係の確認、編集を容易に行うことができる。
(第3の処理)
次に、固有表現抽出装置10の第3の処理について説明する。
図12は、実施形態に係る固有表現抽出装置10の第3の処理手順の一例を示すフローチャートである。
まず、ユーザからの入力操作に従って、文書受付部11は、学習用文書データの登録を受け付けて、登録した学習用文書データを文書DB12に格納する(S31)。ここでは抽出用文書データは文書DB12に格納済みであるとする。
文書DB12に格納される学習用文書データは表示装置に表示される。この表示された状態で、表示画面上の学習用文書データの記述に対するユーザからの入力操作に従って、固有表現・関係の学習データ編集部13は、学習用文書データの記述にタグを付与する。タグの付与により生成された、固有表現に係る学習データ(図3参照)はオリジナル学習文書DB14に格納される。
ここでは、学習用文書データの記述へのタグの付与時の表示画面は図8に示した表示画面G1であるとする。
この表示画面G1に表示される学習用文書データの記述に対するユーザからの入力操作にしたがって、固有表現・関係の学習データ編集部13は、学習用文書データにおける記述に付与された第1のタグと第2のタグとの間に関係(リンク)を付与する。この付与により生成された、固有表現同士の関係に係る学習データ(図4参照)はオリジナル学習文書DB14に格納される(S32)。第3の処理におけるタグ同士の関係の付与は、上記の学習用文書データの本文の記述に対する付与である。ここでの関係の付与は、1つのタグと複数のタグとの間で行なうこともできる。
図13は、実施形態に係る固有表現抽出装置10による、文書データのタグ同士の関係の付与時の表示画面G4の一例を示す図である。
図13では、表示装置に表示された画面G4上の文書データの本文中の第1の記述「ボルトが緩んでいます。」に付与された、分類名「原因」に係るタグと、本文中の第2の記述「アームに付いているネジを締めました。」に付与された、分類名「対処」に係るタグとの関係を示す線L1が付与された例を示す。
第3の処理では、第1の処理で説明した、学習データへの関係抽出ルール登録部15による処理は行なわれず、S32でオリジナル学習文書DB14に格納された各種学習データは、学習データへの関係抽出ルール適用部17を介して学習文書として学習文書DB18に格納される。
次に、固有表現・関係抽出の学習部19は、学習文書DB18に格納された学習文書の内容を解析辞書DB20に格納される解析辞書に反映することで、固有表現と固有表現同士の関係との抽出ルールを学習する(S33)。
固有表現・関係抽出部21は、解析辞書DB20に格納される解析辞書を用いて、文書DB12に格納される抽出用文書データから、タグ、およびタグとタグの関係をそれぞれ抽出する(S34)。
固有表現・関係抽出結果の表示部22は、S34で抽出されたタグ、およびタグ同士の関係を分類名ごとにグループ化した抽出結果の表示画面G2を表示装置に表示する(S35)。
固有表現・関係抽出結果の表示部22は、学習文書DB18に格納された学習文書とS34での抽出結果とを照合する。この照合により、固有表現・関係抽出結果の表示部22は、固有表現・関係抽出の学習部19により学習文書として生成されたが、S34で当該抽出用文書データから抽出されなかったタグ、およびタグとタグの関係を特定し、この特定した結果を示す表示画面G5を表示装置に表示する(S36)。
上記の、学習文書として生成されたが、抽出用文書データから抽出されなかったタグ、およびタグとタグの関係は、例えば、固有表現・関係抽出の学習部19による解析辞書への学習の不具合、ここでは解析辞書に反映させる定義の欠落などに起因して生ずる。
図14は、実施形態に係る固有表現抽出装置10による、抽出されなかったタグ、およびタグ同士の関係の表示画面G5の一例を示す図である。
図14に示した例では、点線で囲まれる、分類Bに属する1つ目のタグ、分類Cに属する1つ目および3つ目のタグは、学習文書に含まれていたが抽出用文書データから抽出されなかったタグとして示される。
また、図14に示した例では、点線で示される、(1)分類Aに属する2つ目のタグと分類Bに属する1つ目のタグとの間の関係、(2)分類Bに属する3つ目のタグと分類Cに属する3つ目のタグとの間の関係、および(3)分類Cに属する2つ目のタグと分類Dに属する3つ目のタグとの間の関係は、学習文書に含まれていたが抽出用文書データから抽出されなかった関係として示される。
第3の処理により、タグ、およびタグとタグの関係の抽出結果の抽出漏れを容易に確認することができる。
(第4の処理)
次に、固有表現抽出装置10の第4の処理について説明する。
図15は、実施形態に係る固有表現抽出装置10の第4の処理手順の一例を示すフローチャートである。
第4の処理では、第3の処理で説明したS31~S35までの処理がなされる(S41~S45)。
そして、固有表現・関係抽出結果の表示部22は、学習文書DB18に格納された学習文書とS44(S34と同様)での抽出結果とを照合する。この照合により、固有表現・関係抽出結果の表示部22は、固有表現・関係抽出の学習部19により学習文書として生成されておらず、直近の学習された解析辞書にも定義されていないが、S44で当該抽出用文書データから抽出されたタグ、およびタグとタグの関係を特定し、この特定した結果の表示画面G6を表示装置に表示する(S46)。
上記の、学習文書として生成されなかったが、抽出用文書データから抽出されたタグ、およびタグとタグの関係は、例えば、固有表現・関係抽出の学習部19による解析辞書への学習の不具合、ここでは解析辞書に対する不必要な定義の追加などに起因して生ずる。
図16は、実施形態に係る固有表現抽出装置10による、学習されなかったが抽出されたタグ、およびタグ同士の関係の表示画面G6の一例を示す図である。
図16に示した例では、二重線で囲まれる、分類Cに属する1つ目のタグは、学習文書には含まれなかったが抽出用文書データから抽出されたタグとして示される。
また、図16に示した例では、二重線で示される、(1)分類Aに属する2つ目のタグと分類Bに属する1つ目のタグとの間の関係、(2)分類Bに属する1つ目のタグと分類Cに属する1つ目のタグとの間の関係が示される。これらの関係は、学習文書には含まれなかったが抽出用文書データから抽出された関係として示される。
第4の処理により、タグ、およびタグとタグの関係の抽出結果の誤抽出を容易に確認することができる。
以上説明したように、実施形態に係る固有表現抽出装置は、学習データにおけるタグ同士の関係を一括で登録したり、抽出元文書を容易に表示したり、抽出結果の抽出漏れ又は誤抽出を容易に確認できたりするので、文書からの固有表現抽出の精度を向上させることができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
また、各実施形態に記載した手法は、計算機(コンピュータ)に実行させることができるプログラム(ソフトウェア手段)として、例えば磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD、MO等)、半導体メモリ(ROM、RAM、フラッシュメモリ等)等の記録媒体に格納し、また通信媒体により伝送して頒布することもできる。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウェア手段(実行プログラムのみならずテーブルやデータ構造も含む)を計算機内に構成させる設定プログラムをも含む。本装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウェア手段を構築し、このソフトウェア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書でいう記録媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスクや半導体メモリ等の記憶媒体を含むものである。
10…固有表現抽出装置、11…文書受付部、12…文書DB、13…固有表現・関係の学習データ編集部、14…オリジナル学習文書DB、15…学習データへの関係抽出ルール登録部、16…関係抽出ルールDB、17…学習データへの関係抽出ルール適用部、18…学習文書DB、19…固有表現・関係抽出の学習部、20…解析辞書DB、21…固有表現・関係抽出部、22…固有表現・関係抽出結果の表示部。

Claims (6)

  1. 文書データから当該文書データの固有表現として抽出させる文字列および固有表現同士の関係として抽出させる固有表現の組を抽出する抽出ルールを定めた抽出用辞書を格納する第1の格納手段と、
    前記固有表現に対応する文字列および前記固有表の抽出対象である抽出用文書データならびに前記抽出用辞書の学習に用いられる学習用文書データの入力を受け付ける文書受付手段と、
    入力操作に従い、前記文書受付手段により受け付けた学習用文書データにおける文字列のうち前記抽出用文書データから抽出させる固有表現に対応する文字列を指定し、前記学習用文書データ中の、前記抽出用文書データから固有表現同士の関係として抽出させる固有表現の組を指定することで、前記抽出用辞書の学習に用いられ、前記固有表現として抽出させる文字列および前記固有表現同士の関係として抽出させる固有表現の組をそれぞれ定めた学習データを生成する第1の生成手段と、
    前記抽出用文書データから抽出させる、固有表現の分類同士の関係を定めた関係抽出ルールを格納する第2の格納手段と、
    前記生成された学習データに、前記第2の格納手段に格納された関係抽出ルールを適用することで、前記生成された学習データにおける前記固有表のうち前記関係抽出ルールで定められた分類に属する固有表が登録された学習文書を生成する第2の生成手段と、
    前記第2の生成手段により生成された学習文書に含まれる、前記固有表現として抽出させる文字列および前記固有表現同士の関係として抽出させる前記固有表現の組を前記抽出用辞書に反映することで、前記抽出用辞書を学習する学習手段と、
    前記学習手段により学習された前記抽出用辞書を用いて、前記文書受付手段により受け付けた抽出用文書データから前記固有表現に対応する文字列および前記固有表をそれぞれ抽出する抽出手段と、
    を備えた固有表現抽出装置。
  2. 前記抽出手段により抽出された前記固有表現に対応する文字列および前記固有表現のをそれぞれ出力する第1の出力手段と、
    前記第1の出力手段により出力された、前記固有表現に対応する文字列および前記固有表現ののうち入力操作で指定された、前記固有表現に対応する文字列および前記固有表現のの少なくとも一方の抽出元の文書データを出力する第2の出力手段と、
    入力操作に従い、前記第2の出力手段により出力された抽出元の文書データの前記固有表現に対応する文字列および前記固有表現のの少なくとも一方を編集する編集手段と、
    をさらに備えた請求項1に記載の固有表現抽出装置。
  3. 文書データから当該文書データの固有表現および固有表現同士の関係を抽出する抽出ルールを定めた抽出用辞書を格納する格納手段と、
    前記固有表現および前記固有表現同士の関係の抽出対象である抽出用文書データならびに前記抽出用辞書の学習に用いられる学習用文書データの入力を受け付ける文書受付手段と、
    前記抽出用辞書を用いて、前記文書受付手段により受け付けた抽出用文書データから固有表現および固有表現同士の関係をそれぞれ抽出する抽出手段と、
    入力操作に従い、前記文書受付手段により受け付けた学習用文書データにおける文字列のうち前記抽出手段により抽出させる固有表現に対応する文字列および固有表現同士の関係をそれぞれ指定する指定手段と、
    前記指定手段により指定された固有表現に対応する文字列および固有表現同士の関係を前記抽出用辞書に反映することで、前記抽出用辞書を学習する学習手段と、
    前記指定手段により指定された固有表現に対応する文字列および固有表現同士の関係のうち、前記抽出手段により抽出されなかった、固有表現に対応する文字列および固有表現同士の関係を出力する出力手段と、を備えた固有表現抽出装置。
  4. 文書データから当該文書データの固有表現および固有表現同士の関係を抽出する抽出ルールを定めた抽出用辞書を格納する格納手段と、
    前記固有表現および前記固有表現同士の関係の抽出対象である抽出用文書データならびに前記抽出用辞書の学習に用いられる学習用文書データの入力を受け付ける文書受付手段と、
    前記抽出用辞書を用いて、前記文書受付手段により受け付けた抽出用文書データから固有表現および固有表現同士の関係をそれぞれ抽出する抽出手段と、
    入力操作に従い、前記文書受付手段により受け付けた学習用文書データにおける文字列のうち前記抽出手段により抽出させる固有表現に対応する文字列および固有表現同士の関係をそれぞれ指定する指定手段と、
    前記指定手段により指定された固有表現に対応する文字列および固有表現同士の関係を前記抽出用辞書に反映することで、前記抽出用辞書を学習する学習手段と、
    前記指定手段により指定されない固有表現に対応する文字列および固有表現同士の関係のうち、前記抽出手段により抽出された、固有表現に対応する文字列および固有表現同士の関係を出力する出力手段と、を備えた固有表現抽出装置。
  5. 文書データから当該文書データの固有表現として抽出させる文字列および固有表現同士の関係として抽出させる固有表現の組を抽出する抽出ルールを定めた抽出用辞書を記憶する第1の記憶装置ならびに前記固有表現に対応する文字列および前記固有表の抽出対象である抽出用文書データから抽出させる、固有表現の分類同士の関係を定めた関係抽出ルールを記憶する第2の記憶装置と、を有する固有表現抽出装置に適用する方法であって、
    前記固有表現に対応する文字列および前記固有表の抽出対象である抽出用文書データならびに前記抽出用辞書の学習に用いられる学習用文書データの入力を受け付ける処理と、
    入力操作に従い、前記受け付けた学習用文書データにおける文字列のうち前記抽出用文書データから抽出させる固有表現に対応する文字列を指定し、前記学習用文書データ中の、前記抽出用文書データから固有表現同士の関係として抽出させる固有表現の組を指定することで、前記抽出用辞書の学習に用いられ、前記固有表現として抽出させる文字列および前記固有表現同士の関係として抽出させる固有表現の組をそれぞれ定めた学習データを生成する処理と、
    前記生成された学習データに、前記第2の記憶装置に記憶された関係抽出ルールを適用することで、前記生成された学習データにおける前記固有表のうち前記関係抽出ルールで定められた分類に属する固有表が登録された学習文書を生成する処理と、
    前記生成された学習文書に含まれる、前記固有表現として抽出させる文字列および前記固有表現同士の関係として抽出させる前記固有表現の組を前記抽出用辞書に反映することで、前記抽出用辞書を学習する処理と、
    前記学習された前記抽出用辞書を用いて、前記受け付けた抽出用文書データから前記固有表現に対応する文字列および前記固有表をそれぞれ抽出する処理と、
    を実行する固有表現抽出方法。
  6. コンピュータを、
    文書データから当該文書データの固有表現として抽出させる文字列および固有表現同士の関係として抽出させる固有表現の組を抽出する抽出ルールを定めた抽出用辞書を格納する第1の格納手段、
    前記固有表現に対応する文字列および前記固有表の抽出対象である抽出用文書データならびに前記抽出用辞書の学習に用いられる学習用文書データの入力を受け付ける文書受付手段、
    入力操作に従い、前記文書受付手段により受け付けた学習用文書データにおける文字列のうち前記抽出用文書データから抽出させる固有表現に対応する文字列を指定し、前記学習用文書データ中の、前記抽出用文書データから固有表現同士の関係として抽出させる固有表現の組を指定することで、前記抽出用辞書の学習に用いられ、前記固有表現として抽出させる文字列および前記固有表現同士の関係として抽出させる固有表現の組をそれぞれ定めた学習データを生成する第1の生成手段、
    前記抽出用文書データから抽出させる、固有表現の分類同士の関係を定めた関係抽出ルールを格納する第2の格納手段、
    前記生成された学習データに、前記第2の格納手段に格納された関係抽出ルールを適用することで、前記生成された学習データにおける前記固有表のうち前記関係抽出ルールで定められた分類に属する固有表が登録された学習文書を生成する第2の生成手段、
    前記第2の生成手段により生成された学習文書に含まれる、前記固有表現として抽出させる文字列および前記固有表現同士の関係として抽出させる前記固有表現の組を前記抽出用辞書に反映することで、前記抽出用辞書を学習する学習手段、および
    前記学習手段により学習された前記抽出用辞書を用いて、前記文書受付手段により受け付けた抽出用文書データから前記固有表現に対応する文字列および前記固有表をそれぞれ抽出する抽出手段、
    として機能させる固有表現抽出処理プログラム。
JP2018183861A 2018-09-28 2018-09-28 固有表現抽出装置、方法およびプログラム Active JP7286291B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2018183861A JP7286291B2 (ja) 2018-09-28 2018-09-28 固有表現抽出装置、方法およびプログラム
PCT/JP2019/037915 WO2020067313A1 (ja) 2018-09-28 2019-09-26 固有表現抽出装置、方法および記憶媒体
CN201980054951.8A CN112585611A (zh) 2018-09-28 2019-09-26 固有表达提取装置、方法以及存储介质
US17/202,752 US11868726B2 (en) 2018-09-28 2021-03-16 Named-entity extraction apparatus, method, and non-transitory computer readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018183861A JP7286291B2 (ja) 2018-09-28 2018-09-28 固有表現抽出装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2020052902A JP2020052902A (ja) 2020-04-02
JP7286291B2 true JP7286291B2 (ja) 2023-06-05

Family

ID=69950713

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018183861A Active JP7286291B2 (ja) 2018-09-28 2018-09-28 固有表現抽出装置、方法およびプログラム

Country Status (4)

Country Link
US (1) US11868726B2 (ja)
JP (1) JP7286291B2 (ja)
CN (1) CN112585611A (ja)
WO (1) WO2020067313A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006137516A1 (ja) 2005-06-23 2006-12-28 National Institute Of Information And Communications Technology 二項関係抽出装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62212830A (ja) * 1986-03-14 1987-09-18 Nec Corp 推論装置
JP4074316B2 (ja) 2005-11-28 2008-04-09 株式会社東芝 固有表現抽出装置および方法
CN101305366B (zh) * 2005-11-29 2013-02-06 国际商业机器公司 从非结构化文本提取和显现图表结构化关系的方法和系统
JP5604475B2 (ja) * 2012-06-08 2014-10-08 日本電信電話株式会社 固有表現タイプ推定装置、方法、及びプログラム
CN104933164B (zh) * 2015-06-26 2018-10-09 华南理工大学 互联网海量数据中命名实体间关系提取方法及其系统
US20180130019A1 (en) * 2016-06-21 2018-05-10 0934781 B.C. Ltd System and method for Managing user and project nodes in a graph database
US10713432B2 (en) * 2017-03-31 2020-07-14 Adobe Inc. Classifying and ranking changes between document versions

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006137516A1 (ja) 2005-06-23 2006-12-28 National Institute Of Information And Communications Technology 二項関係抽出装置

Also Published As

Publication number Publication date
CN112585611A (zh) 2021-03-30
US11868726B2 (en) 2024-01-09
JP2020052902A (ja) 2020-04-02
WO2020067313A1 (ja) 2020-04-02
US20210200953A1 (en) 2021-07-01

Similar Documents

Publication Publication Date Title
US8112401B2 (en) Analyzing externally generated documents in document management system
CN103098051B (zh) 搜索引擎优化助理
JP2017224184A (ja) 機械学習装置
US9495424B1 (en) Recognition of characters and their significance within written works
CN108496190B (zh) 用于从电子数据结构中提取属性的注释系统
CN103246690A (zh) 标签继承
US20150379166A1 (en) Model compilation for feature selection in statistical models
US11934781B2 (en) Systems and methods for controllable text summarization
CN105446986A (zh) 用于处理web页面的方法和装置
JP2019032704A (ja) 表データ構造化システムおよび表データ構造化方法
Machanavajjhala et al. Collective extraction from heterogeneous web lists
Adamu et al. Similarity Assessment of UML Sequence Diagrams Using Dynamic Programming
JP6768738B2 (ja) 学習データ生成装置、方法、およびプログラム
JP7286291B2 (ja) 固有表現抽出装置、方法およびプログラム
CN113033178B (zh) 用于商业计划书的文本评估方法、装置及计算机
JP2020047229A (ja) 記事解析装置、および、記事解析方法
JP5550959B2 (ja) 文書処理システム、及びプログラム
US20110313993A1 (en) Grammar compression
JP7157245B2 (ja) ファイル管理装置、ファイル管理方法、及びプログラム
JP6768750B2 (ja) 学習方法、誤り判定方法、学習システム、誤り判定システム、およびプログラム
US11074517B2 (en) Predicting keywords in an application
Hänig et al. NLP-based Decision Support System for Examination of Eligibility Criteria from Securities Prospectuses at the German Central Bank
Choi et al. Building an annotated corpus for automatic metadata extraction from multilingual journal article references
Alreshedy et al. Predicting the programming language of questions and snippets of StackOverflow using natural language processing
WO2015030016A1 (ja) 非構造化データ処理システム、非構造化データ処理方法および記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210326

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220524

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220722

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221213

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20230111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20230113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230524

R150 Certificate of patent or registration of utility model

Ref document number: 7286291

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150