JP2018025874A - テキスト解析装置及びプログラム - Google Patents

テキスト解析装置及びプログラム Download PDF

Info

Publication number
JP2018025874A
JP2018025874A JP2016155722A JP2016155722A JP2018025874A JP 2018025874 A JP2018025874 A JP 2018025874A JP 2016155722 A JP2016155722 A JP 2016155722A JP 2016155722 A JP2016155722 A JP 2016155722A JP 2018025874 A JP2018025874 A JP 2018025874A
Authority
JP
Japan
Prior art keywords
word
text
classification
snippet
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016155722A
Other languages
English (en)
Other versions
JP6720764B2 (ja
Inventor
康秀 三浦
Yasuhide Miura
康秀 三浦
大熊 智子
Tomoko Okuma
智子 大熊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2016155722A priority Critical patent/JP6720764B2/ja
Publication of JP2018025874A publication Critical patent/JP2018025874A/ja
Application granted granted Critical
Publication of JP6720764B2 publication Critical patent/JP6720764B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】効率的に単語単位の分類情報を用いてテキスト解析を行うことができる装置を提供する。【解決手段】テキスト解析装置は、単語分類学習部10と文/文書分類学習部12を備える。単語分類学習部10は、テキストから分類情報付き見出し語周辺の1つ又は複数の単語をスニペットとして抽出し、抽出したスニペット中の単語を用いて第1ニューラルネットワークで学習して単語単位の分類情報を取得する。文/文書分類学習部12は、得られた単語単位の分類情報を用いて第2ニューラルネットワークの重みを初期化し、分類情報付きテキストを用いて第2ニューラルネットワークで学習してテキストが入力された場合に当該テキストの分類を出力する。【選択図】図1

Description

本発明は、テキスト解析装置及びプログラムに関する。
従来から、テキストを解析する種々の手法が開発されている。
特許文献1には、日本語文に対して形態素解析、構文解析を行い、結果に対して感情要素が登録された単語辞書と感情情報変換規則を用いて感情情報の抽出を行うことが記載されている。
非特許文献1には、機械学習手法の1種である畳み込みニューラルネットワークを用いて、テキストに対して品詞付与、チャンク同定、固有名抽出、意味役割付与を行うことが記載されている。
非特許文献2には、機械学習手法の1種である再帰ニューラルネットワークを用いて、構文木の部分枝単位の評判分類を行うことが記載されている。
特公平6−82377号公報
Ronan Collobert, Jason Weston, Leon Bottou, Michael Karlen, Koray Kavukcuoglu, and Pavel Kuksa. 2011. Natural Language Processing (Almost) from Scratch. Journal of Machine Learning Research 12, pp. 2461-2505. Richard Socher, Alex Perelygin, Jean Y. Wu, Jason Chuang, Christopher D. Manning, Andrew Y. Ng, and Christopher Potts. 2013. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank. In Proceedings of 2013 Conference on Empirical Methods in Natural Language Processing, pp. 1632- 1642
テキスト解析を行う際に、単語単位の分類情報を機械学習モデルに取り込んでいないと、テキスト解析の精度が十分でない。また、単語単位の分類情報を用いるのに、分類情報が付与された構文木コーパスを用いる場合には、当該コーパス構築分だけコストが増大してしまう。
本発明の目的は、効率的に単語単位の分類情報を用いてテキスト解析を行うことができる装置及びプログラムを提供することにある。
請求項1に記載の発明は、テキストから分類情報付き見出し語周辺の1つ又は複数の単語をスニペットとして抽出するスニペット抽出手段と、抽出したスニペット中の単語を用いて第1ニューラルネットワークで学習して単語単位の分類情報を取得する取得手段とを備えるテキスト解析装置である。
請求項2に記載の発明は、事前学習手段で得られた単語単位の分類情報を用いて第2ニューラルネットワークの重みを初期化し、分類情報付きテキストを用いて第2ニューラルネットワークで学習してテキストが入力された場合に当該テキストの分類を出力する学習手段とを備える請求項1に記載のテキスト解析装置である。
請求項3に記載の発明は、スニペット中の単語を単語分散表現に変換する単語分散表現変換手段と、単語分散表現の列に対して畳み込み演算を行う単語畳み込み演算手段と、誤差逆伝播法により単語分散表現、及び単語畳み込み層の重みを更新する更新手段とを備える請求項1,2のいずれかに記載のテキスト解析装置である。
請求項4に記載の発明は、コンピュータを、テキストから分類情報付き見出し語周辺の1つ又は複数の単語をスニペットとして抽出するスニペット抽出手段と、抽出したスニペット中の単語を用いて第1ニューラルネットワークで学習して単語単位の分類情報を取得する取得手段として機能させるプログラムである。
請求項1,4に記載の発明によれば、単語単位の分類情報を事前に取得することができる。また、分類情報が付与された構文木コーパスを用いる必要がない。
請求項2に記載の発明によれば、さらに、単語単位の分類情報を用いない場合と比べて高精度のテキスト解析が可能となる。
請求項3に記載の発明によれば、さらに、単語分散表現、及び単語畳み込み層の重みを適切な値に設定できる。
実施形態の機能ブロック図である。 実施形態の構成ブロック図である。 実施形態の分類情報付き辞書データベースのデータ例である。 実施形態のテキスト(ラベルなし)データベースのデータ例である。 実施形態の文/文書ラベル付きテキストデータベースのデータ例である。 実施形態の処理フローチャート(その1)である。 実施形態の処理フローチャート(その2)である。 実施形態の処理フローチャート(その3)である。 実施形態の入出力説明図である。 変形例のシステム構成図である。
以下、図面に基づき本発明の実施形態について説明する。
図1は、本実施形態におけるテキスト解析装置の機能ブロック図を示す。テキスト解析装置は、単語分類学習部10と、文/文書分類学習部12から構成される。
単語分類学習部10は、単語単位の分類を事前に機械学習するモジュールである。単語分類学習部10は、単語抽出手段103、スニペット抽出手段104、単語分散表現変換手段105、単語畳み込み手段106、最大特徴抽出手段107、辞書分類対応付け手段108を備える。
単語抽出手段103は、テキスト(ラベルなし)データベース101からテキストを読み出し、当該テキストから単語を抽出する。ここで、「ラベル」とは、肯定的(ポジティブ)、否定的(ネガティブ)、中立的(ニュートラル)等、何らかの分類に基づく情報である。従って、テキスト(ラベルなし)とは、このような分類がなされていないテキストである。
スニペット抽出手段104は、単語抽出手段103で抽出されたテキストを対象として、見出し語を含むテキスト集合を抽出し、見出し語の周辺L語(Lは例えば2,3,4,・・・)のスニペットを抽出する。ここで、「スニペット」とは、テキスト中で辞書の見出し語とその周辺L語から構成されるテキスト断片である。見出し語は、分類情報付き辞書データベース102から読み出す。例えば、テキストが「彼にとても悲しいことを言われた」であり、見出し語が「悲しい」であり、L=2である場合には、テキストのうち見出し語である「悲しい」の前後の2語をスニペットとして抽出し、
「に/とても/悲しい/こと/を」
となる。
単語分散表現変換手段105は、抽出したスニペット中の単語を単語分散表現に変換する。ここで、「単語分散表現」とは、単語の意味をn次元の実数で表すことである。単語ベクトルということもできる。
単語畳み込み手段106は、単語分散表現の列に対して、フィルタ幅h1、特徴マップ数k1の畳み込み演算(コンボリューション)を行う。
最大特徴抽出手段107は、単語畳み込み手段106で演算して得られたk1個の特徴マップについて最大の値を抽出する。
辞書分類対応付け手段108は、k1個の最大特徴と辞書分類との間の損失関数を算出し、損失を単語畳み込み層に逆伝播させて単語畳み込み層の重みを更新する。また、損失を単語分散表現に逆伝播させて単語分散表現を更新する。そして、更新した単語分散表現と単語畳み込み層の重みを単語単位の分類情報として保存する。辞書分類対応付け手段108は、実施形態において単語単位の分類情報を取得する取得手段として機能する。
他方、文/文書分類学習部12は、単語分類学習部10で事前に機械学習した結果を用いて文/文書を機械学習により分類するモジュールである。文/文書分類学習部12は、単語抽出手段122、単語分散表現変換手段123、単語畳み込み手段124、文/文書畳み込み手段125、最大特徴抽出手段126、文/文書ラベル対応付け手段127を備える。
単語抽出手段122は、文/文書ラベル付きテキストデータベース121からラベル付テキストを選択し、選択したテキストから単語を抽出する。
単語分散表現変換手段123は、スニペット中の単語を単語分散表現に変換する。
単語畳み込み手段124は、単語分散表現の列に対してフィルタ幅h1、特徴マップ数k1の畳み込み演算を行う。
文/文書畳み込み手段125は、単語畳み込み結果に対してフィルタ幅h2、特徴マップ数k2の畳み込み演算を行う。
最大特徴抽出手段126は、k2個の特徴マップについて最大の値を抽出する。
文/文書ラベル対応付け手段127は、k2個の最大特徴とラベルとの間の損失関数を算出し、損失を文/文書畳み込み層に逆伝播させて文/文書畳み込み層の重みを更新する。また、損失を単語畳み込み層に逆伝播させて単語畳み込み層の重みを更新する。さらに、損失を単語分散表現に逆伝播させて単語分散表現を更新する。文/文書ラベル対応付け手段127は、実施形態において更新手段として機能する。
なお、本実施形態において、「モジュール」とは、論理的に分離可能なソフトウェア、ハードウェア等の部品を意味する。従って、本実施形態におけるモジュールはコンピュータプログラムにおけるモジュールのみならず、ハードウェア構成におけるモジュールも意味する。モジュールは機能に対して1:1に対応してもよいが、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよい。また、複数モジュールは1つのプロセッサないしコンピュータによって実行されてもよいし、分散又は並列環境における複数のプロセッサないしコンピュータによって実行されてもよい。各モジュールによる処理では、対象となる情報を記憶装置から読み込み、CPU等のプロセッサで処理を行った後に、処理結果を記憶装置に出力して書き込む。記憶装置には、HDD、RAM、CPU内のレジスタ等が含まれる。
図2は、本実施形態におけるテキスト解析装置の構成ブロック図を示す。テキスト解析装置は、コンピュータで実現され、具体的には、CPU20、ROM22、RAM24、入出力インターフェイス(I/F)26、通信インターフェイス(I/F)28、記憶装置30を備える。
CPU20は、ROM22あるいはHDD、SSD等に記憶された処理プログラムを読み込み、RAM24をワーキングメモリとして用いて各種処理を実行する。入出力I/F26は、キーボードやマウス、ディスプレイ、タッチパネル等である。通信I/F28は、インターネット等のネットワークに接続する。CPU20は、図1における単語抽出手段103、スニペット抽出手段104、単語分散表現変換手段105、単語畳み込み手段106、最大特徴抽出手段107、辞書分類対応付け手段108として機能するとともに、単語抽出手段122、単語分散表現変換手段123、単語畳み込み手段124、文/文書畳み込み手段125、最大特徴抽出手段126、文/文書ラベル対応付け手段127として機能する。記憶装置30は、ハードディスク等で構成され各種データを記憶してテキスト(ラベルなし)データベース101、分類情報付き辞書データベース102、文/文書ラベル付きテキストデータベース121として機能する。
なお、記憶装置30は、ネットワーク上のサーバコンピュータあるいはクラウドコンピュータ内に設けられていてもよい。すなわち、テキスト(ラベルなし)データベース101、分類情報付き辞書データベース102、文/文書ラベル付きテキストデータベース121は、テキスト解析装置とは別のコンピュータで構成されていて通信I/F28を介してデータ送受可能に構成されていてもよい。
図3は、分類情報付き辞書データベース102に記憶されるデータの一例を示す。ID、ラベル及び見出し語が関連付けて記憶される。例えば、
ID=1のラベルは「喜」で見出し語は「嬉しい」
ID=2のラベルは「怒」で見出し語は「腹立たしい」
ID=3のラベルは「哀」で見出し語は「悲しい」
等である。
図4は、テキスト(ラベルなし)データベース101に記憶されるデータの一例を示す。ID及びテキストが関連付けて記憶される。例えば、
ID=1のテキストは「彼にとても悲しいことを言われた」
ID=2のテキストは「思いがけずプレゼントを貰えて嬉しい」
ID=3のテキストは「嬉しいことがとても多い」
等である。
図5は、文/文書ラベル付きテキストデータベース121に記憶されるデータの一例を示す。ID、ラベル及びテキストが関連付けて記憶される。例えば、
ID=1のラベルは「ポジティブ」でテキストは「新しいスマホが買えてとても嬉しいです!!」
ID=2のラベルは「ネガティブ」でテキストは「今日は仕事で失敗して悲しい」
ID=3のラベルは「ニュートラル」でテキストは「今電車で移動しています」
等である。
図6、図7及び図8は、本実施形態の処理フローチャートを示す。図6及び図7は、単語分類学習部10における単語単位の分類を事前に機械学習する処理であり、図8は、文/文書分類学習部12における文/文書の分類を機械学習する処理である。なお、機械学習にはニューラルネットワークを用い、誤差逆伝播法を用いて重みを最適化する。単語単位の分類を事前に機械学習する際のニューラルネットワークを第1ニューラルネットワークとし、文/文書単位の分類を機械学習する際のニューラルネットワークを第2ニューラルネットワークとする。
図6において、テキスト(ラベルなし)データベース101に記憶されているテキスト群から最初のテキストを抽出する(S101)。図4に示すデータの例では、最初のテキストはID=1の「彼にとても悲しいことを言われた。」である。
次に、テキストから単語を抽出する(S102)。単語の抽出には公知の形態素解析方法を用いることができる。
次に、テキスト(ラベルなし)データベース101内の全テキストを処理したか否かを判定し(S103)、全テキストを処理していなければ(S103でNO)、次のテキストを選択して同様の処理を繰り返す(S104)。
全テキストを処理した場合(S103でYES)、次に、分類情報付き辞書データベース102から最初の見出し語を選択する(S105)。図3に示すデータの例では、最初の見出し語はID=1の「嬉しい」である。
次に、見出し語を含むテキストを抽出する(S106)。見出し語が「嬉しい」であれば、これを含むテキストは「思いがけずプレゼントを貰えて嬉しい。」、及び「嬉しいことがとても多い。」である。
次に、見出し語の周辺L語のスニペットを抽出する。例えばL=2とすると、テキスト「思いがけずプレゼントを貰えて嬉しい」では、「貰え/て/嬉しい/。」がスニペットとして抽出され、テキスト「嬉しいことがとても多い。」では、「嬉しい/こと/が」がスニペットとして抽出される。
次に、スニペット中の見出し語を未知語に置換する。例えば、未知語をXXとすると、
「貰え/て/嬉しい/。」→「貰え/て/XX/。」
「嬉しい/こと/が」→「XX/こと/が」
と置換する。
次に、分類情報付き辞書データベース102内の全見出し語を処理したか否かを判定し(S109)、全見出し語を処理していなければ(S109でNO)、次の見出し語を選択して同様の処理を繰り返す(S110)。例えば、見出し語「悲しい」では、テキストとして「彼にとても悲しいことを言われた。」が抽出され、周辺L語のスニペットとして、「に/とても/悲しい/こと/を」が抽出される。そして、スニペット中の見出し語を未知語に置換し、
「に/とても/悲しい/こと/を」→「に/とても/XX/こと/を」
と置換する。
全見出し語を処理した場合(S109でYES)、図7の処理に移行する。図7において、抽出したスニペット群からスニペットを選択する(S201)。
次に、スニペット中の単語を単語分散表現に変換する(S202)。初期化処理として、各単語についてランダムに一様分布で初期化したn次元の単語分散表現を構築する。
次に、単語分散表現の列に対してフィルタ幅h1、特徴マップ数k1の畳み込み演算を行う(S203)。
次に、k1個の特徴マップについて最大の値を抽出する(S204)。
次に、k1個の最大特徴と辞書分類との間の損失関数を算出する(S205)。
次に、S205で算出された損失を単語畳み込み層に逆伝播させ、第1ニューラルネットワークの単語畳み込み層の重みを更新する(S206)。
次に、S205で算出された損失を単語分散表現に逆伝播させ、第1ニューラルネットワークの単語分散表現を更新する(S207)。
次に、抽出した全スニペットを処理したか否かを判定し(S208)、全スニペットを処理していなければ(S208でNO)、次のスニペットを選択して同様の処理を繰り返す(S209)。
全スニペットを処理した場合(S208でYES)、更新後の第1ニューラルネットワークの単語分散表現と単語畳み込み層の重みをRAM24あるいは記憶装置30に保存し、事前学習が終了する(S210)。
例えば、単語分散表現が3次元として
「嬉しい」=[1.1,0.1,−0.2]
「悲しい」=[0.2,0.3,1.5]
「貰う」=[0.7,0.2,−0.1]
であると仮定する。
畳み込み層の計算では、i番目の結果ciは、xを単語列として以下の式で表現される。
ci=f(w・xi:i+h−1
w∈Rhk
ここで、hは畳み込みのウィンドウ幅、kは特徴マップ数、wは重み(重み行列)、xi:i+h−1はi番目からi+h−1番目までの部分単語列である。
ウィンドウ幅h=1の単語畳み込み処理の重み行列wは、ランダムに初期化される。例えば、
w=[0.1,−0.1,−0.2]
に初期化される。なお、h>1であれば、2単語以上について単語分散表現の次元の組合せに対する処理となる。
単語学習処理を行い、単語分散表現の第1次元がポジティブに相間があり第3次元がネガティブに相間があるとすると、重み行列wの第1次元と第3次元の重みが学習により更新される。例えば、上記の初期値に対し、
w=[2.0,−0.1,−1.8]
に更新される。
以上のようにして更新された重み行列wには単語分散表現の各次元とポジティブ・ネガティブの関係が学習されているので、文/文書分類学習部12で別途、ランダムに初期化する場合と比べて性能向上及び学習時間の短縮が得られる。
事前学習が終了した後、事前学習で得られた重み行列wを用いて図8の処理を実行する。言い換えれば、第1ニューラルネットワークで事前学習して得られた重み行列wを、第2ニューラルネットワークの重み行列wの初期値として与える。
図8において、まず重みを初期化する(S301)。RAM24あるいは記憶装置30に保存された重みを用いて、単語分散表現と単語畳み込み層の重みを初期化する。
次に、文/文書ラベル付きテキストデータベース121からラベル付きテキストを選択する(S302)。
次に、ラベル付きテキストから単語を抽出し(S303)、スニペット中の単語を単語分散表現に変換する(S304)。
次に、単語分散表現の列に対してフィルタ幅h1、特徴マップ数k1の畳み込み演算を行い(S305)、単語畳み込み結果に対してさらにフィルタ幅h2、特徴マップ数k2の畳み込み演算を行う(S306)。フィルタ幅h2、特徴マップ数k2の畳み込み演算が文/文書の畳み込みに相当する。
次に、k2個の特徴マップについて最大の値を抽出し(S307)、k2個の最大特徴とラベルとの間の損失関数を算出する(S308)。
次に、算出された損失を文/文書畳み込み層に逆伝播させ、第2ニューラルネットワークの文/文書畳み込み層の重みを更新する(S309)。
次に、算出された損失を単語畳み込み層に逆伝播させ、第2ニューラルネットワークの単語畳み込み層の重みを更新する(S310)。
次に、算出された損失を単語分散表現に逆伝播させ、第2ニューラルネットワークの単語分散表現を更新する(S311)。
次に、全ラベル付きテキストについて処理したか否かを判定し(S312)、全ラベル付きテキストを処理していなければ(S312でNO)、次のラベル付きテキストを選択して同様の処理を繰り返す(S313)。
以上の処理により、ラベル付きテキストデータベース121を教師データとして用いて単語分散表現、単語畳み込み層の重み、及び文/文書畳み込み層の重みが更新される。
図9は、学習済みのテキスト解析装置の入出力の一例を示す。学習済みのテキスト解析装置に対して、任意のテキスト、例えば「新しいスマホを買えてとても嬉しいです!!」等のテキストを入力すると、「ポジティブ」のラベルが出力され分類される。この場合、テキスト解析装置は、文/文書の評判分類器として機能し得る。
このように、本実施形態では、テキスト(ラベルなし)データベース101と分類情報付き辞書データベース102を用いて単語単位の分類情報を第1ニューラルネットワークで事前に学習し、この事前学習により得られた単語単位の分類情報を部分構造として用いて文/文書単位で第2ニューラルネットワークで処理しているので、単語単位の分類情報を用いない場合と比べて文/文書単位の処理の精度を向上させることができる。
また、本実施形態では、単語単位の分類情報を第1ニューラルネットワークで事前に学習して取得するので、単語単位の分類情報が付与された構文木コーパスが不要であり、当該コーパスを構築するためのコストが不要化される。
以上、本発明の実施形態について説明したが、本発明はこれに限定されず種々の変形が可能である。以下にこれらの変形例について説明する。
<変形例1>
実施形態では、テキスト(ラベルなし)データベース101、分類情報付き辞書データベース102、及び文/文書ラベル付きテキストデータベース121は記憶装置30に記憶されているが、それぞれ別の記憶装置に記憶されていてもよく、ネットワーク上のそれぞれ別のサーバコンピュータに記憶されていてもよい。
また、本実施形態において、CPU20が図1における単語抽出手段103、スニペット抽出手段104、単語分散表現変換手段105、単語畳み込み手段106、最大特徴抽出手段107、辞書分類対応付け手段108として機能するとともに、単語抽出手段122、単語分散表現変換手段123、単語畳み込み手段124、文/文書畳み込み手段125、最大特徴抽出手段126、文/文書ラベル対応付け手段127として機能するとして説明したが、これら複数のモジュールを複数のCPUで分担して実現してもよい。
さらに、単語抽出手段103と単語抽出手段122、単語分散表現変換手段105と単語分散表現変換手段123、単語畳み込み手段106と単語畳み込み手段124、最大特徴抽出手段107と最大特徴抽出手段126はそれぞれ同一又は類似する機能を有しているので、これらをそれぞれ共通化してもよい。
<変形例2>
実施形態では、スニペットとして見出し語の周辺L語を抽出するものとし、L=2としているが、L=1、あるいはL=3、L=4等としてもよい。要するに、分類情報付き辞書データベース102に記憶されている見出し語の前後の1つ又は複数の単語を抽出してスニペットを抽出すればよい。一般に、Lは1よりも2,3,4・・・の方が解析精度は向上すると考えられるが、スニペットの数が増大するとその分だけ処理が複雑化して時間を要することになる。従って、見出し語の前後2語程度が適当と考えられるが、必ずしもこれに限定されない。種々のLについて学習し、精度及び処理時間の観点からLを最適化してもよい。
<変形例3>
実施形態の解析対象は文/文書のテキストであるが、音声を入力してテキスト化し、当該テキストを解析対象としてもよい。この場合、テキスト解析装置は、テキスト化音声解析装置として機能し得る。
<変形例4>
実施形態では、一つのコンピュータに単語分類学習部10及び文/文書分類学習部12がともに実装されているが、これらをそれぞれ別のコンピュータに実装してもよい。
図10は、この場合のシステム構成を示す。単語分類学習部10を実装するコンピュータ、及び文/文書分類学習部12を実装するコンピュータがネットワーク100に接続される。また、テキスト(ラベルなし)データベース101、分類情報付き辞書データベース102、及び文/文書ラベル付きテキストデータベース121もネットワーク100に接続される。単語分類学習部10は、単語抽出手段103、スニペット抽出手段104、単語分散表現変換手段105、単語畳み込み手段106、最大特徴抽出手段107、辞書分類対応付け手段108を備える。文/文書分類学習部12は、単語抽出手段122、単語分散表現変換手段123、単語畳み込み手段124、文/文書畳み込み手段125、最大特徴抽出手段126、文/文書ラベル対応付け手段127を備える。
単語分類学習部10は、事前学習して得られた更新後の単語分散表現と単語畳み込み層の重みをネットワーク100を介して文/文書分類学習部12に供給する。文/文書分類学習部12は、供給された単語分散表現と単語畳み込み層の重みを用いて初期化し、文/文書ラベル付きテキストデータベース121を用いて学習する。
単語分類学習部10は、事前学習して得られた更新後の単語分散表現と単語畳み込み層の重みを自己の記憶装置に記憶してもよく、あるいはネットワーク上の記憶装置、例えば文/文書ラベル付きテキストデータベース121に記憶してもよい。この場合、文/文書分類学習部12は、ネットワーク100を介して文/文書ラベル付きテキストデータベース121からテキストとともに事前学習された更新後の単語分散表現と単語畳み込み層の重みを読み込む。
単語分類学習部10が実装されたコンピュータは、文/文書分類学習部12にて実行される文/文書分類学習処理及び学習終了後のテキスト解析処理用の事前処理を実行するものであり、この意味で当該コンピュータもテキスト解析処理として機能し得る。
<変形例5>
実施形態では、CPU20及び処理プログラムによりニューラルネットワーク(第1ニューラルネットワーク及び第2ニューラルネットワーク)を実装しているが、これに代えて、専用ハードウェア(ASIC)によりニューラルネットワークを実装してもよく、あるいはFPGAを用いて実装してもよい。FPGAを用いる場合でも、その一部をソフトウェアで実装してもよく、ハードウェアとソフトウェアの複合体として実装してもよい。
10 単語分類学習部、12 文/文書分類学習部、101 テキスト(ラベルなし)データベース、102 分類情報付きデータベース、103 単語抽出手段、104 スニペット抽出手段、105 単語分散表現変換手段、106 単語畳み込み手段、107 最大特徴抽出手段、108 辞書分類対応付け手段、121 文/文書ラベル付きテキストデータベース、122 単語抽出手段、123 単語分散表現変換手段、124 単語畳み込み手段、125 文/文書畳み込み手段、126 最大特徴抽出手段、127 文/文書ラベル対応付け手段。

Claims (4)

  1. テキストから分類情報付き見出し語周辺の1つ又は複数の単語をスニペットとして抽出するスニペット抽出手段と、
    抽出したスニペット中の単語を用いて第1ニューラルネットワークで学習して単語単位の分類情報を取得する取得手段と、
    を備えるテキスト解析装置。
  2. 事前学習手段で得られた単語単位の分類情報を用いて第2ニューラルネットワークの重みを初期化し、分類情報付きテキストを用いて第2ニューラルネットワークで学習してテキストが入力された場合に当該テキストの分類を出力する学習手段と、
    を備える請求項1に記載のテキスト解析装置。
  3. スニペット中の単語を単語分散表現に変換する単語分散表現変換手段と、
    単語分散表現の列に対して畳み込み演算を行う単語畳み込み演算手段と、
    誤差逆伝播法により単語分散表現、及び単語畳み込み層の重みを更新する更新手段と、
    を備える請求項1,2のいずれかに記載のテキスト解析装置。
  4. コンピュータを
    テキストから分類情報付き見出し語周辺の1つ又は複数の単語をスニペットとして抽出するスニペット抽出手段と、
    抽出したスニペット中の単語を用いて第1ニューラルネットワークで学習して単語単位の分類情報を取得する取得手段
    として機能させるプログラム。
JP2016155722A 2016-08-08 2016-08-08 テキスト解析装置及びプログラム Expired - Fee Related JP6720764B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016155722A JP6720764B2 (ja) 2016-08-08 2016-08-08 テキスト解析装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016155722A JP6720764B2 (ja) 2016-08-08 2016-08-08 テキスト解析装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2018025874A true JP2018025874A (ja) 2018-02-15
JP6720764B2 JP6720764B2 (ja) 2020-07-08

Family

ID=61193789

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016155722A Expired - Fee Related JP6720764B2 (ja) 2016-08-08 2016-08-08 テキスト解析装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6720764B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018230551A1 (ja) * 2017-06-16 2018-12-20 新日鉄住金ソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム
CN110472040A (zh) * 2019-06-26 2019-11-19 平安科技(深圳)有限公司 评价信息的提取方法及装置、存储介质、计算机设备
JP2020027359A (ja) * 2018-08-09 2020-02-20 株式会社日立製作所 計算機システム及び学習方法
CN111222344A (zh) * 2020-01-03 2020-06-02 支付宝(杭州)信息技术有限公司 训练神经网络的方法、装置及电子设备
JP2020091549A (ja) * 2018-12-03 2020-06-11 日本放送協会 テキスト分類装置、学習装置、およびプログラム
JP2020113035A (ja) * 2019-01-11 2020-07-27 株式会社東芝 分類支援システム、分類支援装置、学習装置、分類支援方法、及びプログラム
JP2022068101A (ja) * 2020-10-21 2022-05-09 ネイバー コーポレーション 検索クエリの意図を反映した検索結果提供の方法及びシステム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04117560A (ja) * 1990-09-07 1992-04-17 Fujitsu Ltd 節/句境界抽出方式
JP2007323475A (ja) * 2006-06-02 2007-12-13 Advanced Telecommunication Research Institute International 自然言語における多義解消装置及びコンピュータプログラム
JP2010152561A (ja) * 2008-12-24 2010-07-08 Toshiba Corp 類似表現抽出装置、サーバ装置及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04117560A (ja) * 1990-09-07 1992-04-17 Fujitsu Ltd 節/句境界抽出方式
JP2007323475A (ja) * 2006-06-02 2007-12-13 Advanced Telecommunication Research Institute International 自然言語における多義解消装置及びコンピュータプログラム
JP2010152561A (ja) * 2008-12-24 2010-07-08 Toshiba Corp 類似表現抽出装置、サーバ装置及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KIM, YOON: "Convolutional Neural Networks for Sentence Classification", EMNLP2014, JPN6019051801, 3 September 2014 (2014-09-03), US, pages 1 - 6, ISSN: 0004188368 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018230551A1 (ja) * 2017-06-16 2018-12-20 新日鉄住金ソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム
JPWO2018230551A1 (ja) * 2017-06-16 2019-06-27 日鉄ソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム
US11386354B2 (en) 2017-06-16 2022-07-12 Ns Solutions Corporation Information processing apparatus, information processing method, and program
JP2020027359A (ja) * 2018-08-09 2020-02-20 株式会社日立製作所 計算機システム及び学習方法
JP2020091549A (ja) * 2018-12-03 2020-06-11 日本放送協会 テキスト分類装置、学習装置、およびプログラム
JP7186591B2 (ja) 2018-12-03 2022-12-09 日本放送協会 テキスト分類装置、学習装置、およびプログラム
JP2020113035A (ja) * 2019-01-11 2020-07-27 株式会社東芝 分類支援システム、分類支援装置、学習装置、分類支援方法、及びプログラム
CN110472040A (zh) * 2019-06-26 2019-11-19 平安科技(深圳)有限公司 评价信息的提取方法及装置、存储介质、计算机设备
CN111222344A (zh) * 2020-01-03 2020-06-02 支付宝(杭州)信息技术有限公司 训练神经网络的方法、装置及电子设备
CN111222344B (zh) * 2020-01-03 2023-07-18 支付宝(杭州)信息技术有限公司 训练神经网络的方法、装置及电子设备
JP2022068101A (ja) * 2020-10-21 2022-05-09 ネイバー コーポレーション 検索クエリの意図を反映した検索結果提供の方法及びシステム

Also Published As

Publication number Publication date
JP6720764B2 (ja) 2020-07-08

Similar Documents

Publication Publication Date Title
Farahani et al. Parsbert: Transformer-based model for persian language understanding
Arora et al. Character level embedding with deep convolutional neural network for text normalization of unstructured data for Twitter sentiment analysis
CN109213995B (zh) 一种基于双语词嵌入的跨语言文本相似度评估技术
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
JP6720764B2 (ja) テキスト解析装置及びプログラム
CN108614875B (zh) 基于全局平均池化卷积神经网络的中文情感倾向性分类方法
Wang et al. Mapping customer needs to design parameters in the front end of product design by applying deep learning
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
CN109670180B (zh) 向量化译员的翻译个性特征的方法及装置
CN107861954B (zh) 基于人工智能的信息输出方法和装置
US11769011B2 (en) Universal language segment representations learning with conditional masked language model
Shirsat et al. Document level sentiment analysis from news articles
Kheiri et al. Sentimentgpt: Exploiting gpt for advanced sentiment analysis and its departure from current machine learning
CN112256860A (zh) 客服对话内容的语义检索方法、系统、设备及存储介质
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN111858935A (zh) 一种航班点评的细粒度情感分类系统
CN109325120A (zh) 一种分离用户和产品注意力机制的文本情感分类方法
Banik et al. Gru based named entity recognition system for bangla online newspapers
Ayutthaya et al. Thai sentiment analysis via bidirectional LSTM-CNN model with embedding vectors and sentic features
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN115860006A (zh) 一种基于语义句法的方面级情感预测方法及装置
Elsherif et al. Perspectives of Arabic machine translation
Matrane et al. A systematic literature review of Arabic dialect sentiment analysis
Svärd et al. Semantic domains in Akkadian texts
CN113505583A (zh) 基于语义决策图神经网络的情感原因子句对提取方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190610

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200519

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200601

R150 Certificate of patent or registration of utility model

Ref document number: 6720764

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees