JP2021056830A

JP2021056830A - 概念構造抽出装置、プログラム及び方法

Info

Publication number: JP2021056830A
Application number: JP2019180061A
Authority: JP
Inventors: 貴宏山崎; Takahiro Yamazaki; 白石　哲也; Tetsuya Shiraishi; 哲也白石
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2021-04-08
Also published as: WO2021065058A1

Abstract

【課題】カテゴリ分けされた１又は複数の文書をデータセットし、各文書を分類する分類タスクとして学習を行ない、学習過程で得られた注意情報を用いることにより、概念対とその関係を抽出する概念構造抽出装置、概念構造抽出プログラム及び概念構造抽出方法を提供する。【解決手段】概念構造抽出装置１は、カテゴリ分けされた入力文書を数値表現に変換し、当該入力文書内に含まれる単語群の中から強く注意が当たる注意情報を抽出すると共に、再帰的に学習する注意情報抽出部２１と、注意情報抽出部２１により抽出された注意情報を用いて、入力文書に含まれる各単語と入力文書の分類ラベルとの概念対の相関を導出する分類部２１３と、を備える。【選択図】図１

Description

本発明は、概念構造抽出装置、プログラム及び方法に関する。

例えば、概念と概念の対である概念対とその関係を表現する形式は、計算機で扱える知識表現として広く用いられている。このような知識体系を拡充するために、文書から概念対（単語対）とその関係を抽出する知識獲得が開発されている。

近年、このような技術の多くは教師データあり機械学習の手法を用いているが、その場合に必要となる教師データが問題となる。知識獲得において教師データを作成する場合、文書中から単語対およびその関係を特定した教師データを作成するため、非常にコストが高く、十分な量の教師データを作成することが難しい。

非特許文献１では、既存の知識ベースを利用することで、テキストそのものに教師となる情報を付与するコストを抑えている。しかしながら、非特許文献１は、既知の知識データベースが必要になるという問題がある。

非特許文献２では、学術論文の概要といった文書とその内容を表すキーワードを教師情報とし、文書を固定長密ベクトル表現に変換し、文書ベクトル表現および注意機構を用いてキーフレーズの系列を出力するという系列変換モデルであり、文書内からその内容を表すキーフレーズを生成している。

Mintz, M., Bills, S., Snow, R., Jurafsky, D. (2009). Distant supervision for relation extraction without labeled data. In Proceedings of the 47rd Annual Meeting of the Association for Computational Linguistics (ACL’09), pp. 1003-1011. Meng, R., Zhao, R., Han, S., He, D., Brusilovsky, P., Chi, Yu. (2017). Deep keyphrase generation. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL' 17), pp. 582-592.

しかしながら、既存の技術は、次の２つの問題がある。１つ目は、文書からその内容を表す概念を抽出して出力することはできるが、抽出した概念と概念との概念対の関係を特定できない。２つ目は、データセットする対象（文書）は限られた文書しか扱えない。

非特許文献２は、対象とする文書そのものからキーフレーズ集合を抽出しているが、抽出したキーフレーズ同士の関係、及びその上位となる概念を特定することができない。また、前述の通り、教師データとなる文書の形式として、文書とキーワードが与えられている必要があり、教師データとして用いるデータとしては、学術論文の概要といった特定の形式の文書しか扱えないという問題があった。

本発明は、上述した問題を解決するため、カテゴリ分けされた１又は複数の文書をデータセットし、各文書を分類する分類タスクとして学習を行ない、学習過程で得られた注意情報を用いることにより、概念対とその関係を抽出することができる概念構造抽出装置、プログラム及び方法を提供しようとするものである。

かかる課題を解決するためには、第１の本発明に係る概念構造抽出装置は、（１）カテゴリ分けされた入力文書を数値表現に変換し、当該入力文書内に含まれる単語群の中から強く注意が当たる注意情報を抽出すると共に、再帰的に学習する注意情報抽出部と、（２）注意情報抽出部により抽出された注意情報を用いて、入力文書に含まれる各単語と入力文書の分類ラベルとの概念対の相関を導出する分類部とを備えることを特徴とする。

第２の本発明に係る概念構造抽出プログラムは、コンピュータを、（１）カテゴリ分けされた入力文書を数値表現に変換し、当該入力文書内に含まれる単語群の中から強く注意が当たる注意情報を抽出すると共に、再帰的に学習する注意情報抽出部と、（２）注意情報抽出部により抽出された注意情報を用いて、入力文書に含まれる各単語と入力文書の分類ラベルとの概念対の相関を導出する分類部として機能させることを特徴とする。

第３の本発明に係る概念構造抽出方法は、（１）注意情報抽出部が、カテゴリ分けされた入力文書を数値表現に変換し、当該入力文書内に含まれる単語群の中から強く注意が当たる注意情報を抽出すると共に、再帰的に学習し、（２）分類部が、注意情報抽出部により抽出された注意情報を用いて、入力文書に含まれる各単語と入力文書の分類ラベルとの概念対の相関を導出することを特徴とする。

本発明によれば、カテゴリ分けされた１又は複数の文書をデータセットし、各文書を分類する分類タスクとして学習を行ない、学習過程で得られた注意情報を用いることにより、概念対とその関係を抽出できる。

実施形態に係る概念構造抽出装置の構成を示す構成図である。実施形態に係る概念構造抽出装置における処理動作を示すフローチャートである。実施形態に係る概念構造抽出処理のイメージを示すイメージ図である。実施形態における分類部における分類処理を説明する説明図である。

（Ａ）主たる実施形態
以下では、本発明に係る概念構造抽出装置、プログラム及び方法の実施形態を、図面を参照しながら詳細に説明する。

（Ａ−１）実施形態の構成
図１は、実施形態に係る概念構造抽出装置の構成を示す構成図である。

図１において、実施形態に係る概念構造抽出装置１は、制御部２００、文書記憶部１００、記憶部３００、入出力部４００を有する。

概念構造抽出装置１は、一部又は全部をソフトウェア的に構成するようにしてもよい。例えば、概念構造抽出装置１は、コンピュータ（例えば、プロセッサ及びメモリを有するプログラムの実行構成）にプログラム（例えば、概念構造抽出プログラム）をインストールすることにより構成するようにしてもよい。例えば、図１において、制御部２００をコンピュータ上のプログラムとして構成し、文書記憶部１００及び記憶部３００をコンピュータ上の記録媒体（例えば、ハードディスクドライブやフラッシュメモリ等の記録手段）で構成するようにしてもよい。

文書記憶部１００は、複数の文書データを記憶する記憶手段である。文書記憶部１００には文書集合が記憶される。文書データは、例えば、テキストデータ等の種々の形式の文書データのファイルとしてもよい。制御部２００によりデータセットとして入力される文書は、当該文書に記述されている内容が分類（カテゴライズ）されているものとする。つまり、制御部２００に入力される文書は、ある分野に関する内容の文章が記述されており、各文章には単語群が含まれている。したがって、制御部２００に入力される文書は特定の概念を持ち、当該文書に記述される文章は当該文書の概念に関連する概念を持ち、更に、各文章に含まれる単語群の各単語も当該文書の概念に関連する概念を持つ。当該文書に含まれる単語と単語（概念対）との間の関係は、当該文書の概念と関係性が強いものと考えられる。

記憶部３００は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ)、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶手段である。記憶部３００は、後述する入力文書変換部２０１から出力されるデータや、学習されたデータや、学習過程で利用されるデータ等を記憶する。

入出力部４００は、ユーザインタフェースの機能（入出力手段）を担っており、ユーザからの操作や情報入力を受け付ける入力部４２０と、ユーザへ情報出力する表示部４１０を有する。表示部４１０は、例えばディスプレイやプリンタ等の出力デバイスを適用できる。また、入力部４２０は、例えば、キーボードやマウス等の入力デバイスを適用できる。

制御部２００は、概念構造抽出装置１の各構成要素を制御する機能を担っており、入力文書変換部２１０、出力制御部２２０を有する。

入力文書変換部２１０は、文書記憶部１００の文書集合の中から各文書データ（カテゴリ分けされた文書データ）が入力され、各文書データに基づいて、固定長密ベクトル表現に変換し、有限個のカテゴリに分類する分類タスクとして学習を行ない、その学習過程で得られた注意情報を用いて、カテゴリ特有のフレーズを抽出する。

入力文書変換部２１０は、数値表現変換部２１１、注意情報学習部２１２、分類部２１３を有する。なお、数値表現変換部２１１及び注意情報学習部２１２を含む概念をキーフレーズ抽出部（又は注意情報抽出部）２１とも呼ぶ。

数値表現変換部２１１には、カテゴリ分けされた文書データが入力する。数値表現変換部２１１は、入力された文書に含まれる単語群の各単語をベクトル表現に変換して得た文書の数値表現を、注意情報学習部２１２及び分類部２１３に与える。数値表現変換部２１１は、入力された文書に含まれる各文章（テキストデータ）を形態素解析し、文書に含まれている各単語をベクトルに変換する。

注意情報学習部２１２は、数値表現変換部２１１から、数値表現に変換された文書データ（すなわち、文書内の各単語がベクトル表現されたデータ）が入力し、文書データの中から、当該文書の分類に寄与した要素（例えば、文書データに含まれる単語）に対して、強く注意が当たるような学習を行なう。

注意情報学習部２１２は、図示しない学習器と復元器を用いて、文書に含まれている単語と単語との確率の分布の中から、高い確率の分布を持つキーフレーズを抽出して、キーフレーズ特定部２２２及び分類部２１３に出力する。注意情報学習部２１２は学習器及び復元器として、リカレントニューラルネットワーク（ＲＮＮ）の学習を行なう。注意情報学習部２１２に適用するアルゴリズムは、固定長密ベクトル表現のアルゴリズムを用いて、文書内のセマンティック情報（すなわち、文書の意味理解）を、密なベクトルに表現する。なお、固定長密ベクトル表現のアルゴリズムの具体的な手法の詳細な説明は省略するが、例えば非特許文献２に記載されている手法を適用できる。

分類部２１３は、数値表現変換部２１１からの文書の数値表現と、注意情報学習部１０２から注意情報が入力され、注意情報と文書内の各単語との間の関係性を示す値（確率の数値）を文書内の単語毎に導出して分類する。分類部２１３により導出された文書内の各単語の確率は、分類出力部２２１に出力される。なお、初期段階では、データセットする文書の分類項目（分類ラベルとも呼ぶ。）が分類部２１３にセットされるようにしてもよい。当該文書のカテゴリは分かっているので、当該文書の分類項目がセットされることで、分類項目と関係性が強いキーフレーズを抽出し易くすることができる。

出力制御部２２０は、分類出力部２２１、キーフレーズ特定部２２２を有する。

分類出力部２２１は、分類部２１３から取得した、文書内の全ての単語の確率（確率の数値）を、表示部４１０への表示形式に従って加工する。分類出力部２２１で加工された情報は、表示部４１０に表示される。例えば、文書内の全ての単語の確率を用いて、確率が高いものを抽出し、単語とこれに対応する確率とを単語毎に関連付けるようにしてもよい。その際、予め設定した閾値を設定し、その閾値以上の確率を持つものを抽出しても良いし、確率が高いものから順に所定数のものを抽出してもよい。

キーフレーズ特定部２２２は、注意情報学習部２１２により文書内から抽出されたキーフレーズを取得し、表示部４１０への表示形式に従って、文書内でキーフレーズが特定できるように加工するものである。キーフレーズ特定部２２２によって特定されたキーフレーズは表示部４１０に表示される。

（Ａ−２）実施形態の動作
次に、実施形態の概念構造抽出装置１における処理動作を、図面を参照して説明する。

図２は、実施形態に係る概念構造抽出装置１における処理動作を示すフローチャートである。図３は、実施形態に係る概念構造抽出処理のイメージを示すイメージ図である。

［Ｓ１０１］
まず、文書記憶部１００に記憶されている、カテゴリ分けされている文書が、数値表現変換部２１１に入力される。

概念構造抽出装置１の入力文書変換部２１０に入力される文書は、あらかじめ当該文書の分野の分類項目が分かっているものとする。図３に例示するように、文書６１は「休暇」をカテゴリとし、文書６２は「出張」をカテゴリとし、文書６３は「勤務形態」をカテゴリとする等のように、あらかじめ文書の分野が分類されている。そうすると、例えばカテゴリを「休暇」とする文書６１には、「休暇」に関する文章が記述されており、「休暇」に関連する単語が文書６１に含まれていることになる。

［Ｓ１０２］
数値表現変換部２１１では、文書の各文章が形態素解析され、各単語がベクトル表現に変換され、当該文書は数値表現に変換される（Ｓ１０２）。各単語がベクトル表現された文書は、注意情報学習部２１２及び分類部２１３に出力される。

［Ｓ１０３］
数値表現変換部２１１から出力された文書データの数値表現が注意情報学習部２１２に入力されると、注意情報学習部２１２による注意情報学習が行なわれる（Ｓ１０３）。

注意情報学習部２１２は、例えば非特許文献２に記載される固定長密ベクトル表現のアルゴリズムを用いて、リカレントニューラルネットワーク（ＲＮＮ）の学習器及び復元器により、文書内の単語と単語との分布が予測され、各単語の確率が導出される。例えば、注意情報学習部２１２では、文書に含まれるある単語（基準となる単語）の分散表現と、それ以外の他の単語の分散表現との間の類似度（例えばコサイン類似度）を算出する。そして、ある単語（基準となる単語）と他の単語との間の類似度の分散を確率分布として推定する。文書内の他の単語の数を増やしていき、ある単語の分散表現と他の単語の分散表現の類似度の分散分布が変動していき、所定の閾値以上の確率で含まれる単語をキーフレーズとして出力される。

つまり、文書に含まれる全ての単語について確率が導出され、その中で、確率が所定の閾値以上の単語がキーフレーズして出力される。閾値は、その値が異なる複数の閾値を設定してランク付けをしてもよい。注意情報は、文書のカテゴリにおいて強く注意されるフレーズである。換言すると、高い確率を持ったフレーズといえ、それを判断するための閾値も高い。したがって、確率が高い閾値以上のフレーズが注意情報となる。

［Ｓ１０４］
注意情報学習部２１２から出力されたキーフレーズは、キーフレーズ特定部２２２に入力し、キーフレーズ特定部２２２によりキーフレーズが特定される（Ｓ１０４）。

キーフレーズ特定部２２２による特定方法の一例を説明する。例えば、図３において、「休暇」をカテゴリとする文書６１の場合、注意情報学習部２１２によって、「リフレッシュ休暇」、「有給休暇」、「看病」、「ボランティア」、「留学」などがキーフレーズとして出力されたとする。その場合、表示部４１０に表示される文書６１中に出現するキーフレーズを、例えば太文字で表示する等の強調表示をするようにしてもよい。なお、キーフレーズ特定部２２２によるキーフレーズの特定方法はこれに限定されず、種々の方法を適用できる。

また、確率が高い注意情報（高い閾値以上の確率を持つフレーズ）を特定する際、キーフレーズ特定部２２２は、文書に含まれる他のキーフレーズと区別できるように特定してもよい。例えば、図３の例のように、注意情報には下線を引いて特定しても良い。その他に、確率が高くなるにつれて明度が濃いマーカを付与し、逆に確率が低くなるにつれて明度が薄くマーカを付与する等としてもよい。

［Ｓ１０５］
数値表現変換部２１１から出力された文書データの数値表現が分類部２１３に入力されると、分類部２１３による分類処理が行なわれる。このとき、注意情報学習部２１２における学習過程で得られた注意情報が分類部２１３に入力し、分類部２１３は、注意情報を用いて分類処理を行なう（Ｓ１０３）。

図４は、実施形態における分類部２１３における分類処理を説明する説明図である。

図４では、文書の各単語のベクトル表現を「ｘ１」、「ｘ２」、「ｘ３」、…、「ｘＮ」とする。Ｎは１以上の整数である。例えば、文書に含まれる単語群のうち、先に出現する単語を「ｘ１」、その次に出現する単語を「ｘ２」等のように、文書内の各単語を出現順にベクトル表現している。また図４において、分類部２１３による分類処理前の「ｘ１」の確率が「０．４」、「ｘ２」の確率が「０．１」等としている。そして、分類部２１３により注意情報と各単語との距離が導出されて、各単語の確率に反映することにより、各単語の確率が変動する。例えば、分類処理後の「ｘ１」の確率が「０．４」、「ｘ２」の確率が「０．１」等となる。

分類部２１３では、注意情報とするフレーズ（注意情報はキーフレーズでもある。）が入力され、分類部２１３により、注意情報とするフレーズと、文書に含まれる各単語との間の確率が導出される。つまり、注意情報とするフレーズと、文書内の各単語との間の距離が導出されるので、注意情報とするフレーズとの間の関係性が分かることになる。言い換えれば、注意情報とするフレーズと距離が近い単語や、距離が遠い単語等が分かることになる。

なお、分類部２１３に入力される注意情報の数は、基本的には１つとしてもいよい。複数の注意情報がある場合には、いずれか１つの注意情報が選択され、その注意情報が入力されるようにしてもよい。

注意情報とするフレーズと、文書内の各単語との距離の導出方法は、様々な方法を適用できるが、例えば次のような方法がある。例えば、第１軸（第１の成分の軸）から第Ｍ軸（第Ｍの成分の軸）をもつ超平面を、求めるＭ次元平面とし、Ｍ次元平面と、各単語のベクトル表現の示す点との距離を導出するようにしてもよい。

なお初期状態では、例えば入力部４２０から、データセットされた文書のカテゴリである分類項目が入力されるようにしてもよい。例えば図４の文書６１を対象とする場合、文書６１のカテゴリである「休暇」を、分類部２１３にセットしてもよい。これにより、学習が安定する前には、例えば「休暇」などの分類項目と各単語との関係性が良好な結果が得らえる。「休暇」をカテゴリとする文書６１には、「休暇」に関連する単語が多く含まれているので、関係性が高い単語対が得らえる。また、文書の分類項目の単語に限らず、分類項目と関係性が強い単語であってもよい。

［Ｓ１０６］
分類部２１３は、文書の各単語と各単語の確率とを、分類出力部２２１に出力する。分類出力部２２１では、文書内の各単語の確率を所定形式で表示部４１０に出力する（Ｓ１０６）。

例えば、図４では、「休暇」と、文書内の各単語との確率の値を、単語毎に表示する場合を例示している。確率は例えば０〜１の範囲の値をとし、確率の値が１に近づくにつれて、相関が高いものする。この場合、例えば「休暇」と文書６１内の「リフレッシュ休暇」との確率の値が「０．７」となっており、単語「休暇」と単語「リフレッシュ休暇」との関係性（相関）が高いことが分かる。一方、単語「休暇」と単語「ボランティア」との値は「０．２」となっており、関係性が比較的低いことが分かる。

なお、ここでは表示部４１０に表示する値が確率の値である場合を例示しているが、これに限定されず、分類部２１３から出力されたデータに基づいて、所定の評価方法で評価した値としてもよい。

また、分類出力部２２１は、表示部４１０に出力することとしたが、当該文書に含まれる単語対の関係を示す情報として記憶部３００や、概念対と概念対の関係と対応付けて記憶する辞書（例えばオントロジー記憶部）等に記憶されてもよい。その場合、文書のカテゴリの概念が上位概念となり、文書内に含まれる各単語の概念が下位概念となる関係性が得られる。換言すると、文書のカテゴリの概念の下位が各単語の概念となるようなツリー構造を形成できる。

（Ａ−３）実施形態の効果
以上のように、実施形態によれば、あらかじめカテゴリ分けされた、文書集合中の各文書をそれぞれ固定長密ベクトル表現に変換し、有限個のカテゴリへ分類する分類タスクとして学習を行い、学習過程に得られた注意情報を用いて、カテゴリ特有のフレーズを抽出する。注意情報学習部による注意機構（注意情報を抽出する機能）は、分類タスクの学習時に、入力データの中から、分類に寄与した要素に対して強く注意が当たるような学習を行うため、その文書カテゴリを表すフレーズが抽出できる。そのため、抽出されたフレーズと分類カテゴリを表す分類ラベルの間には概念的に親子関係が成り立つものが多く含まれる。

（Ｂ）他の実施形態
上述した実施形態においても本発明の種々の変形実施形態を言及したが、本発明は以下の変形実施形態にも適用できる。

（Ｂ−１）上述した実施形態では、分類部において注意情報を用いた分類処理の１回（すなわち、段数が１の分類処理を）行なう場合を例示したが、注意情報を用いて複数段数の分類処理を行なうようにしてもよい。

（Ｂ−２）上述した実施形態を利用すれば、例えば新聞や書籍など、多くの文書はカテゴリ分けや章立てといった、分類ラベルとして利用可能な情報が付与されており、そのような文書に含まれているデータは数多くあるので、教師データの入手が容易となる。

（Ｂ−３）分類されていない文書集合であったとしても、単語といった単位ではなく、文書単位で有限個の分類ラベルを付与することは比較的容易であり、他の手法と比較して利用可能となる教師データの入手が容易である。

（Ｂ−４）対象となる文書そのものではなく、分類カテゴリに対して注意機構が働くため、分類カテゴリと相関の高い概念対が獲得できる。

１…概念構造抽出装置、１００…文書記憶部、２００…制御部、３００…記憶部、４００…入出力部、２１０…入力文書変換部、２１１…数値表現変換部、２１２…注意情報学習部、２１３…分類部、２２１…分類出力部、２２２…キーフレーズ特定部、４１０…表示部４１０…入力部。

Claims

カテゴリ分けされた入力文書を数値表現に変換し、当該入力文書内に含まれる単語群の中から強く注意が当たる注意情報を抽出すると共に、再帰的に学習する注意情報抽出部と、
上記注意情報抽出部により抽出された上記注意情報を用いて、上記入力文書に含まれる各単語と上記入力文書の分類ラベルとの概念対の相関を導出する分類部と
を備えることを特徴とする概念構造抽出装置。
上記分類部からの、上記入力文書に含まれる各単語と上記入力文書の上記分類ラベルとの概念対の相関に基づいて、上記各単語と上記分類ラベルとの概念対の相関を表す値を出力制御する分類出力部を備えることを特徴とする請求項１に記載の概念構造抽出装置。
上記注意情報抽出部から出力される上記注意情報を所定の特定方法で特定して出力制御するキーフレーズ特定部を備えることを特徴とする請求項１又は２に記載の概念構造抽出装置。
コンピュータを、
カテゴリ分けされた入力文書を数値表現に変換し、当該入力文書内に含まれる単語群の中から強く注意が当たる注意情報を抽出すると共に、再帰的に学習する注意情報抽出部と、
上記注意情報抽出部により抽出された上記注意情報を用いて、上記入力文書に含まれる各単語と上記入力文書の分類ラベルとの概念対の相関を導出する分類部と
して機能させることを特徴とする概念構造抽出プログラム。
注意情報抽出部が、カテゴリ分けされた入力文書を数値表現に変換し、当該入力文書内に含まれる単語群の中から強く注意が当たる注意情報を抽出すると共に、再帰的に学習し、
分類部が、上記注意情報抽出部により抽出された上記注意情報を用いて、上記入力文書に含まれる各単語と上記入力文書の分類ラベルとの概念対の相関を導出する
ことを特徴とする概念構造抽出方法。