JP2021056830A - 概念構造抽出装置、プログラム及び方法 - Google Patents
概念構造抽出装置、プログラム及び方法 Download PDFInfo
- Publication number
- JP2021056830A JP2021056830A JP2019180061A JP2019180061A JP2021056830A JP 2021056830 A JP2021056830 A JP 2021056830A JP 2019180061 A JP2019180061 A JP 2019180061A JP 2019180061 A JP2019180061 A JP 2019180061A JP 2021056830 A JP2021056830 A JP 2021056830A
- Authority
- JP
- Japan
- Prior art keywords
- document
- unit
- classification
- input document
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/274—Converting codes to words; Guess-ahead of partial word inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Abstract
【課題】カテゴリ分けされた1又は複数の文書をデータセットし、各文書を分類する分類タスクとして学習を行ない、学習過程で得られた注意情報を用いることにより、概念対とその関係を抽出する概念構造抽出装置、概念構造抽出プログラム及び概念構造抽出方法を提供する。【解決手段】概念構造抽出装置1は、カテゴリ分けされた入力文書を数値表現に変換し、当該入力文書内に含まれる単語群の中から強く注意が当たる注意情報を抽出すると共に、再帰的に学習する注意情報抽出部21と、注意情報抽出部21により抽出された注意情報を用いて、入力文書に含まれる各単語と入力文書の分類ラベルとの概念対の相関を導出する分類部213と、を備える。【選択図】図1
Description
本発明は、概念構造抽出装置、プログラム及び方法に関する。
例えば、概念と概念の対である概念対とその関係を表現する形式は、計算機で扱える知識表現として広く用いられている。このような知識体系を拡充するために、文書から概念対(単語対)とその関係を抽出する知識獲得が開発されている。
近年、このような技術の多くは教師データあり機械学習の手法を用いているが、その場合に必要となる教師データが問題となる。知識獲得において教師データを作成する場合、文書中から単語対およびその関係を特定した教師データを作成するため、非常にコストが高く、十分な量の教師データを作成することが難しい。
非特許文献1では、既存の知識ベースを利用することで、テキストそのものに教師となる情報を付与するコストを抑えている。しかしながら、非特許文献1は、既知の知識データベースが必要になるという問題がある。
非特許文献2では、学術論文の概要といった文書とその内容を表すキーワードを教師情報とし、文書を固定長密ベクトル表現に変換し、文書ベクトル表現および注意機構を用いてキーフレーズの系列を出力するという系列変換モデルであり、文書内からその内容を表すキーフレーズを生成している。
Mintz, M., Bills, S., Snow, R., Jurafsky, D. (2009). Distant supervision for relation extraction without labeled data. In Proceedings of the 47rd Annual Meeting of the Association for Computational Linguistics (ACL’09), pp. 1003-1011.
Meng, R., Zhao, R., Han, S., He, D., Brusilovsky, P., Chi, Yu. (2017). Deep keyphrase generation. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL' 17), pp. 582-592.
しかしながら、既存の技術は、次の2つの問題がある。1つ目は、文書からその内容を表す概念を抽出して出力することはできるが、抽出した概念と概念との概念対の関係を特定できない。2つ目は、データセットする対象(文書)は限られた文書しか扱えない。
非特許文献2は、対象とする文書そのものからキーフレーズ集合を抽出しているが、抽出したキーフレーズ同士の関係、及びその上位となる概念を特定することができない。また、前述の通り、教師データとなる文書の形式として、文書とキーワードが与えられている必要があり、教師データとして用いるデータとしては、学術論文の概要といった特定の形式の文書しか扱えないという問題があった。
本発明は、上述した問題を解決するため、カテゴリ分けされた1又は複数の文書をデータセットし、各文書を分類する分類タスクとして学習を行ない、学習過程で得られた注意情報を用いることにより、概念対とその関係を抽出することができる概念構造抽出装置、プログラム及び方法を提供しようとするものである。
かかる課題を解決するためには、第1の本発明に係る概念構造抽出装置は、(1)カテゴリ分けされた入力文書を数値表現に変換し、当該入力文書内に含まれる単語群の中から強く注意が当たる注意情報を抽出すると共に、再帰的に学習する注意情報抽出部と、(2)注意情報抽出部により抽出された注意情報を用いて、入力文書に含まれる各単語と入力文書の分類ラベルとの概念対の相関を導出する分類部とを備えることを特徴とする。
第2の本発明に係る概念構造抽出プログラムは、コンピュータを、(1)カテゴリ分けされた入力文書を数値表現に変換し、当該入力文書内に含まれる単語群の中から強く注意が当たる注意情報を抽出すると共に、再帰的に学習する注意情報抽出部と、(2)注意情報抽出部により抽出された注意情報を用いて、入力文書に含まれる各単語と入力文書の分類ラベルとの概念対の相関を導出する分類部として機能させることを特徴とする。
第3の本発明に係る概念構造抽出方法は、(1)注意情報抽出部が、カテゴリ分けされた入力文書を数値表現に変換し、当該入力文書内に含まれる単語群の中から強く注意が当たる注意情報を抽出すると共に、再帰的に学習し、(2)分類部が、注意情報抽出部により抽出された注意情報を用いて、入力文書に含まれる各単語と入力文書の分類ラベルとの概念対の相関を導出することを特徴とする。
本発明によれば、カテゴリ分けされた1又は複数の文書をデータセットし、各文書を分類する分類タスクとして学習を行ない、学習過程で得られた注意情報を用いることにより、概念対とその関係を抽出できる。
(A)主たる実施形態
以下では、本発明に係る概念構造抽出装置、プログラム及び方法の実施形態を、図面を参照しながら詳細に説明する。
以下では、本発明に係る概念構造抽出装置、プログラム及び方法の実施形態を、図面を参照しながら詳細に説明する。
(A−1)実施形態の構成
図1は、実施形態に係る概念構造抽出装置の構成を示す構成図である。
図1は、実施形態に係る概念構造抽出装置の構成を示す構成図である。
図1において、実施形態に係る概念構造抽出装置1は、制御部200、文書記憶部100、記憶部300、入出力部400を有する。
概念構造抽出装置1は、一部又は全部をソフトウェア的に構成するようにしてもよい。例えば、概念構造抽出装置1は、コンピュータ(例えば、プロセッサ及びメモリを有するプログラムの実行構成)にプログラム(例えば、概念構造抽出プログラム)をインストールすることにより構成するようにしてもよい。例えば、図1において、制御部200をコンピュータ上のプログラムとして構成し、文書記憶部100及び記憶部300をコンピュータ上の記録媒体(例えば、ハードディスクドライブやフラッシュメモリ等の記録手段)で構成するようにしてもよい。
文書記憶部100は、複数の文書データを記憶する記憶手段である。文書記憶部100には文書集合が記憶される。文書データは、例えば、テキストデータ等の種々の形式の文書データのファイルとしてもよい。制御部200によりデータセットとして入力される文書は、当該文書に記述されている内容が分類(カテゴライズ)されているものとする。つまり、制御部200に入力される文書は、ある分野に関する内容の文章が記述されており、各文章には単語群が含まれている。したがって、制御部200に入力される文書は特定の概念を持ち、当該文書に記述される文章は当該文書の概念に関連する概念を持ち、更に、各文章に含まれる単語群の各単語も当該文書の概念に関連する概念を持つ。当該文書に含まれる単語と単語(概念対)との間の関係は、当該文書の概念と関係性が強いものと考えられる。
記憶部300は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶手段である。記憶部300は、後述する入力文書変換部201から出力されるデータや、学習されたデータや、学習過程で利用されるデータ等を記憶する。
入出力部400は、ユーザインタフェースの機能(入出力手段)を担っており、ユーザからの操作や情報入力を受け付ける入力部420と、ユーザへ情報出力する表示部410を有する。表示部410は、例えばディスプレイやプリンタ等の出力デバイスを適用できる。また、入力部420は、例えば、キーボードやマウス等の入力デバイスを適用できる。
制御部200は、概念構造抽出装置1の各構成要素を制御する機能を担っており、入力文書変換部210、出力制御部220を有する。
入力文書変換部210は、文書記憶部100の文書集合の中から各文書データ(カテゴリ分けされた文書データ)が入力され、各文書データに基づいて、固定長密ベクトル表現に変換し、有限個のカテゴリに分類する分類タスクとして学習を行ない、その学習過程で得られた注意情報を用いて、カテゴリ特有のフレーズを抽出する。
入力文書変換部210は、数値表現変換部211、注意情報学習部212、分類部213を有する。なお、数値表現変換部211及び注意情報学習部212を含む概念をキーフレーズ抽出部(又は注意情報抽出部)21とも呼ぶ。
数値表現変換部211には、カテゴリ分けされた文書データが入力する。数値表現変換部211は、入力された文書に含まれる単語群の各単語をベクトル表現に変換して得た文書の数値表現を、注意情報学習部212及び分類部213に与える。数値表現変換部211は、入力された文書に含まれる各文章(テキストデータ)を形態素解析し、文書に含まれている各単語をベクトルに変換する。
注意情報学習部212は、数値表現変換部211から、数値表現に変換された文書データ(すなわち、文書内の各単語がベクトル表現されたデータ)が入力し、文書データの中から、当該文書の分類に寄与した要素(例えば、文書データに含まれる単語)に対して、強く注意が当たるような学習を行なう。
注意情報学習部212は、図示しない学習器と復元器を用いて、文書に含まれている単語と単語との確率の分布の中から、高い確率の分布を持つキーフレーズを抽出して、キーフレーズ特定部222及び分類部213に出力する。注意情報学習部212は学習器及び復元器として、リカレントニューラルネットワーク(RNN)の学習を行なう。注意情報学習部212に適用するアルゴリズムは、固定長密ベクトル表現のアルゴリズムを用いて、文書内のセマンティック情報(すなわち、文書の意味理解)を、密なベクトルに表現する。なお、固定長密ベクトル表現のアルゴリズムの具体的な手法の詳細な説明は省略するが、例えば非特許文献2に記載されている手法を適用できる。
分類部213は、数値表現変換部211からの文書の数値表現と、注意情報学習部102から注意情報が入力され、注意情報と文書内の各単語との間の関係性を示す値(確率の数値)を文書内の単語毎に導出して分類する。分類部213により導出された文書内の各単語の確率は、分類出力部221に出力される。なお、初期段階では、データセットする文書の分類項目(分類ラベルとも呼ぶ。)が分類部213にセットされるようにしてもよい。当該文書のカテゴリは分かっているので、当該文書の分類項目がセットされることで、分類項目と関係性が強いキーフレーズを抽出し易くすることができる。
出力制御部220は、分類出力部221、キーフレーズ特定部222を有する。
分類出力部221は、分類部213から取得した、文書内の全ての単語の確率(確率の数値)を、表示部410への表示形式に従って加工する。分類出力部221で加工された情報は、表示部410に表示される。例えば、文書内の全ての単語の確率を用いて、確率が高いものを抽出し、単語とこれに対応する確率とを単語毎に関連付けるようにしてもよい。その際、予め設定した閾値を設定し、その閾値以上の確率を持つものを抽出しても良いし、確率が高いものから順に所定数のものを抽出してもよい。
キーフレーズ特定部222は、注意情報学習部212により文書内から抽出されたキーフレーズを取得し、表示部410への表示形式に従って、文書内でキーフレーズが特定できるように加工するものである。キーフレーズ特定部222によって特定されたキーフレーズは表示部410に表示される。
(A−2)実施形態の動作
次に、実施形態の概念構造抽出装置1における処理動作を、図面を参照して説明する。
次に、実施形態の概念構造抽出装置1における処理動作を、図面を参照して説明する。
図2は、実施形態に係る概念構造抽出装置1における処理動作を示すフローチャートである。図3は、実施形態に係る概念構造抽出処理のイメージを示すイメージ図である。
[S101]
まず、文書記憶部100に記憶されている、カテゴリ分けされている文書が、数値表現変換部211に入力される。
まず、文書記憶部100に記憶されている、カテゴリ分けされている文書が、数値表現変換部211に入力される。
概念構造抽出装置1の入力文書変換部210に入力される文書は、あらかじめ当該文書の分野の分類項目が分かっているものとする。図3に例示するように、文書61は「休暇」をカテゴリとし、文書62は「出張」をカテゴリとし、文書63は「勤務形態」をカテゴリとする等のように、あらかじめ文書の分野が分類されている。そうすると、例えばカテゴリを「休暇」とする文書61には、「休暇」に関する文章が記述されており、「休暇」に関連する単語が文書61に含まれていることになる。
[S102]
数値表現変換部211では、文書の各文章が形態素解析され、各単語がベクトル表現に変換され、当該文書は数値表現に変換される(S102)。各単語がベクトル表現された文書は、注意情報学習部212及び分類部213に出力される。
数値表現変換部211では、文書の各文章が形態素解析され、各単語がベクトル表現に変換され、当該文書は数値表現に変換される(S102)。各単語がベクトル表現された文書は、注意情報学習部212及び分類部213に出力される。
[S103]
数値表現変換部211から出力された文書データの数値表現が注意情報学習部212に入力されると、注意情報学習部212による注意情報学習が行なわれる(S103)。
数値表現変換部211から出力された文書データの数値表現が注意情報学習部212に入力されると、注意情報学習部212による注意情報学習が行なわれる(S103)。
注意情報学習部212は、例えば非特許文献2に記載される固定長密ベクトル表現のアルゴリズムを用いて、リカレントニューラルネットワーク(RNN)の学習器及び復元器により、文書内の単語と単語との分布が予測され、各単語の確率が導出される。例えば、注意情報学習部212では、文書に含まれるある単語(基準となる単語)の分散表現と、それ以外の他の単語の分散表現との間の類似度(例えばコサイン類似度)を算出する。そして、ある単語(基準となる単語)と他の単語との間の類似度の分散を確率分布として推定する。文書内の他の単語の数を増やしていき、ある単語の分散表現と他の単語の分散表現の類似度の分散分布が変動していき、所定の閾値以上の確率で含まれる単語をキーフレーズとして出力される。
つまり、文書に含まれる全ての単語について確率が導出され、その中で、確率が所定の閾値以上の単語がキーフレーズして出力される。閾値は、その値が異なる複数の閾値を設定してランク付けをしてもよい。注意情報は、文書のカテゴリにおいて強く注意されるフレーズである。換言すると、高い確率を持ったフレーズといえ、それを判断するための閾値も高い。したがって、確率が高い閾値以上のフレーズが注意情報となる。
[S104]
注意情報学習部212から出力されたキーフレーズは、キーフレーズ特定部222に入力し、キーフレーズ特定部222によりキーフレーズが特定される(S104)。
注意情報学習部212から出力されたキーフレーズは、キーフレーズ特定部222に入力し、キーフレーズ特定部222によりキーフレーズが特定される(S104)。
キーフレーズ特定部222による特定方法の一例を説明する。例えば、図3において、「休暇」をカテゴリとする文書61の場合、注意情報学習部212によって、「リフレッシュ休暇」、「有給休暇」、「看病」、「ボランティア」、「留学」などがキーフレーズとして出力されたとする。その場合、表示部410に表示される文書61中に出現するキーフレーズを、例えば太文字で表示する等の強調表示をするようにしてもよい。なお、キーフレーズ特定部222によるキーフレーズの特定方法はこれに限定されず、種々の方法を適用できる。
また、確率が高い注意情報(高い閾値以上の確率を持つフレーズ)を特定する際、キーフレーズ特定部222は、文書に含まれる他のキーフレーズと区別できるように特定してもよい。例えば、図3の例のように、注意情報には下線を引いて特定しても良い。その他に、確率が高くなるにつれて明度が濃いマーカを付与し、逆に確率が低くなるにつれて明度が薄くマーカを付与する等としてもよい。
[S105]
数値表現変換部211から出力された文書データの数値表現が分類部213に入力されると、分類部213による分類処理が行なわれる。このとき、注意情報学習部212における学習過程で得られた注意情報が分類部213に入力し、分類部213は、注意情報を用いて分類処理を行なう(S103)。
数値表現変換部211から出力された文書データの数値表現が分類部213に入力されると、分類部213による分類処理が行なわれる。このとき、注意情報学習部212における学習過程で得られた注意情報が分類部213に入力し、分類部213は、注意情報を用いて分類処理を行なう(S103)。
図4は、実施形態における分類部213における分類処理を説明する説明図である。
図4では、文書の各単語のベクトル表現を「x1」、「x2」、「x3」、…、「xN」とする。Nは1以上の整数である。例えば、文書に含まれる単語群のうち、先に出現する単語を「x1」、その次に出現する単語を「x2」等のように、文書内の各単語を出現順にベクトル表現している。また図4において、分類部213による分類処理前の「x1」の確率が「0.4」、「x2」の確率が「0.1」等としている。そして、分類部213により注意情報と各単語との距離が導出されて、各単語の確率に反映することにより、各単語の確率が変動する。例えば、分類処理後の「x1」の確率が「0.4」、「x2」の確率が「0.1」等となる。
分類部213では、注意情報とするフレーズ(注意情報はキーフレーズでもある。)が入力され、分類部213により、注意情報とするフレーズと、文書に含まれる各単語との間の確率が導出される。つまり、注意情報とするフレーズと、文書内の各単語との間の距離が導出されるので、注意情報とするフレーズとの間の関係性が分かることになる。言い換えれば、注意情報とするフレーズと距離が近い単語や、距離が遠い単語等が分かることになる。
なお、分類部213に入力される注意情報の数は、基本的には1つとしてもいよい。複数の注意情報がある場合には、いずれか1つの注意情報が選択され、その注意情報が入力されるようにしてもよい。
注意情報とするフレーズと、文書内の各単語との距離の導出方法は、様々な方法を適用できるが、例えば次のような方法がある。例えば、第1軸(第1の成分の軸)から第M軸(第Mの成分の軸)をもつ超平面を、求めるM次元平面とし、M次元平面と、各単語のベクトル表現の示す点との距離を導出するようにしてもよい。
なお初期状態では、例えば入力部420から、データセットされた文書のカテゴリである分類項目が入力されるようにしてもよい。例えば図4の文書61を対象とする場合、文書61のカテゴリである「休暇」を、分類部213にセットしてもよい。これにより、学習が安定する前には、例えば「休暇」などの分類項目と各単語との関係性が良好な結果が得らえる。「休暇」をカテゴリとする文書61には、「休暇」に関連する単語が多く含まれているので、関係性が高い単語対が得らえる。また、文書の分類項目の単語に限らず、分類項目と関係性が強い単語であってもよい。
[S106]
分類部213は、文書の各単語と各単語の確率とを、分類出力部221に出力する。分類出力部221では、文書内の各単語の確率を所定形式で表示部410に出力する(S106)。
分類部213は、文書の各単語と各単語の確率とを、分類出力部221に出力する。分類出力部221では、文書内の各単語の確率を所定形式で表示部410に出力する(S106)。
例えば、図4では、「休暇」と、文書内の各単語との確率の値を、単語毎に表示する場合を例示している。確率は例えば0〜1の範囲の値をとし、確率の値が1に近づくにつれて、相関が高いものする。この場合、例えば「休暇」と文書61内の「リフレッシュ休暇」との確率の値が「0.7」となっており、単語「休暇」と単語「リフレッシュ休暇」との関係性(相関)が高いことが分かる。一方、単語「休暇」と単語「ボランティア」との値は「0.2」となっており、関係性が比較的低いことが分かる。
なお、ここでは表示部410に表示する値が確率の値である場合を例示しているが、これに限定されず、分類部213から出力されたデータに基づいて、所定の評価方法で評価した値としてもよい。
また、分類出力部221は、表示部410に出力することとしたが、当該文書に含まれる単語対の関係を示す情報として記憶部300や、概念対と概念対の関係と対応付けて記憶する辞書(例えばオントロジー記憶部)等に記憶されてもよい。その場合、文書のカテゴリの概念が上位概念となり、文書内に含まれる各単語の概念が下位概念となる関係性が得られる。換言すると、文書のカテゴリの概念の下位が各単語の概念となるようなツリー構造を形成できる。
(A−3)実施形態の効果
以上のように、実施形態によれば、あらかじめカテゴリ分けされた、文書集合中の各文書をそれぞれ固定長密ベクトル表現に変換し、有限個のカテゴリへ分類する分類タスクとして学習を行い、学習過程に得られた注意情報を用いて、カテゴリ特有のフレーズを抽出する。注意情報学習部による注意機構(注意情報を抽出する機能)は、分類タスクの学習時に、入力データの中から、分類に寄与した要素に対して強く注意が当たるような学習を行うため、その文書カテゴリを表すフレーズが抽出できる。そのため、抽出されたフレーズと分類カテゴリを表す分類ラベルの間には概念的に親子関係が成り立つものが多く含まれる。
以上のように、実施形態によれば、あらかじめカテゴリ分けされた、文書集合中の各文書をそれぞれ固定長密ベクトル表現に変換し、有限個のカテゴリへ分類する分類タスクとして学習を行い、学習過程に得られた注意情報を用いて、カテゴリ特有のフレーズを抽出する。注意情報学習部による注意機構(注意情報を抽出する機能)は、分類タスクの学習時に、入力データの中から、分類に寄与した要素に対して強く注意が当たるような学習を行うため、その文書カテゴリを表すフレーズが抽出できる。そのため、抽出されたフレーズと分類カテゴリを表す分類ラベルの間には概念的に親子関係が成り立つものが多く含まれる。
(B)他の実施形態
上述した実施形態においても本発明の種々の変形実施形態を言及したが、本発明は以下の変形実施形態にも適用できる。
上述した実施形態においても本発明の種々の変形実施形態を言及したが、本発明は以下の変形実施形態にも適用できる。
(B−1)上述した実施形態では、分類部において注意情報を用いた分類処理の1回(すなわち、段数が1の分類処理を)行なう場合を例示したが、注意情報を用いて複数段数の分類処理を行なうようにしてもよい。
(B−2)上述した実施形態を利用すれば、例えば新聞や書籍など、多くの文書はカテゴリ分けや章立てといった、分類ラベルとして利用可能な情報が付与されており、そのような文書に含まれているデータは数多くあるので、教師データの入手が容易となる。
(B−3)分類されていない文書集合であったとしても、単語といった単位ではなく、文書単位で有限個の分類ラベルを付与することは比較的容易であり、他の手法と比較して利用可能となる教師データの入手が容易である。
(B−4)対象となる文書そのものではなく、分類カテゴリに対して注意機構が働くため、分類カテゴリと相関の高い概念対が獲得できる。
1…概念構造抽出装置、100…文書記憶部、200…制御部、300…記憶部、400…入出力部、210…入力文書変換部、211…数値表現変換部、212…注意情報学習部、213…分類部、221…分類出力部、222…キーフレーズ特定部、410…表示部410…入力部。
Claims (5)
- カテゴリ分けされた入力文書を数値表現に変換し、当該入力文書内に含まれる単語群の中から強く注意が当たる注意情報を抽出すると共に、再帰的に学習する注意情報抽出部と、
上記注意情報抽出部により抽出された上記注意情報を用いて、上記入力文書に含まれる各単語と上記入力文書の分類ラベルとの概念対の相関を導出する分類部と
を備えることを特徴とする概念構造抽出装置。 - 上記分類部からの、上記入力文書に含まれる各単語と上記入力文書の上記分類ラベルとの概念対の相関に基づいて、上記各単語と上記分類ラベルとの概念対の相関を表す値を出力制御する分類出力部を備えることを特徴とする請求項1に記載の概念構造抽出装置。
- 上記注意情報抽出部から出力される上記注意情報を所定の特定方法で特定して出力制御するキーフレーズ特定部を備えることを特徴とする請求項1又は2に記載の概念構造抽出装置。
- コンピュータを、
カテゴリ分けされた入力文書を数値表現に変換し、当該入力文書内に含まれる単語群の中から強く注意が当たる注意情報を抽出すると共に、再帰的に学習する注意情報抽出部と、
上記注意情報抽出部により抽出された上記注意情報を用いて、上記入力文書に含まれる各単語と上記入力文書の分類ラベルとの概念対の相関を導出する分類部と
して機能させることを特徴とする概念構造抽出プログラム。 - 注意情報抽出部が、カテゴリ分けされた入力文書を数値表現に変換し、当該入力文書内に含まれる単語群の中から強く注意が当たる注意情報を抽出すると共に、再帰的に学習し、
分類部が、上記注意情報抽出部により抽出された上記注意情報を用いて、上記入力文書に含まれる各単語と上記入力文書の分類ラベルとの概念対の相関を導出する
ことを特徴とする概念構造抽出方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019180061A JP2021056830A (ja) | 2019-09-30 | 2019-09-30 | 概念構造抽出装置、プログラム及び方法 |
PCT/JP2020/016393 WO2021065058A1 (ja) | 2019-09-30 | 2020-04-14 | 概念構造抽出装置、記憶媒体及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019180061A JP2021056830A (ja) | 2019-09-30 | 2019-09-30 | 概念構造抽出装置、プログラム及び方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021056830A true JP2021056830A (ja) | 2021-04-08 |
Family
ID=75272597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019180061A Pending JP2021056830A (ja) | 2019-09-30 | 2019-09-30 | 概念構造抽出装置、プログラム及び方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2021056830A (ja) |
WO (1) | WO2021065058A1 (ja) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2009150758A1 (ja) * | 2008-06-13 | 2011-11-10 | 株式会社パテント・リザルト | 情報処理装置、プログラム、情報処理方法 |
CN102640152B (zh) * | 2009-12-09 | 2014-10-15 | 国际商业机器公司 | 根据检索关键词检索文档数据的方法及其计算机系统 |
JP6800825B2 (ja) * | 2017-10-02 | 2020-12-16 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
-
2019
- 2019-09-30 JP JP2019180061A patent/JP2021056830A/ja active Pending
-
2020
- 2020-04-14 WO PCT/JP2020/016393 patent/WO2021065058A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2021065058A1 (ja) | 2021-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9542477B2 (en) | Method of automated discovery of topics relatedness | |
US20210192126A1 (en) | Generating structured text summaries of digital documents using interactive collaboration | |
WO2020245754A1 (en) | Machine-learning natural language processing classifier | |
KR20180077690A (ko) | 문서의 내러티브 학습 장치 및 방법, 문서의 내러티브 생성 장치 및 방법 | |
CN106778878B (zh) | 一种人物关系分类方法及装置 | |
US9645988B1 (en) | System and method for identifying passages in electronic documents | |
US20140180728A1 (en) | Natural Language Processing | |
US10699112B1 (en) | Identification of key segments in document images | |
US10963647B2 (en) | Predicting probability of occurrence of a string using sequence of vectors | |
Nassiri et al. | Arabic readability assessment for foreign language learners | |
JP2010061176A (ja) | テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム | |
Viswanathan et al. | Detection of duplicates in Quora and Twitter corpus | |
JP2016110256A (ja) | 情報処理装置及び情報処理プログラム | |
KR102400689B1 (ko) | 의미 관계 학습 장치, 의미 관계 학습 방법, 및 의미 관계 학습 프로그램 | |
WO2021065058A1 (ja) | 概念構造抽出装置、記憶媒体及び方法 | |
Dey et al. | A deep dive into supervised extractive and abstractive summarization from text | |
JPWO2015040860A1 (ja) | 分類辞書生成装置、分類辞書生成方法及びプログラム | |
Esteves et al. | Named entity recognition in twitter using images and text | |
Panthum et al. | Generating functional requirements based on classification of mobile application user reviews | |
Marchenko et al. | Authorship attribution system | |
Vora et al. | Named entity recognition and classification for Gujarati language | |
Oswal | Identifying and Categorizing Offensive Language in Social Media | |
Testas | Natural Language Processing with Pandas, Scikit-Learn, and PySpark | |
Yashaswini et al. | Story telling: learning to visualize sentences through generated scenes | |
JP7323669B1 (ja) | オントロジー生成方法及び学習方法 |