JP2018025874A

JP2018025874A - テキスト解析装置及びプログラム

Info

Publication number: JP2018025874A
Application number: JP2016155722A
Authority: JP
Inventors: 康秀三浦; Yasuhide Miura; 大熊　智子; Tomoko Okuma; 智子大熊
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2016-08-08
Filing date: 2016-08-08
Publication date: 2018-02-15
Anticipated expiration: 2036-08-08
Also published as: JP6720764B2

Abstract

【課題】効率的に単語単位の分類情報を用いてテキスト解析を行うことができる装置を提供する。【解決手段】テキスト解析装置は、単語分類学習部１０と文／文書分類学習部１２を備える。単語分類学習部１０は、テキストから分類情報付き見出し語周辺の１つ又は複数の単語をスニペットとして抽出し、抽出したスニペット中の単語を用いて第１ニューラルネットワークで学習して単語単位の分類情報を取得する。文／文書分類学習部１２は、得られた単語単位の分類情報を用いて第２ニューラルネットワークの重みを初期化し、分類情報付きテキストを用いて第２ニューラルネットワークで学習してテキストが入力された場合に当該テキストの分類を出力する。【選択図】図１

Description

本発明は、テキスト解析装置及びプログラムに関する。

従来から、テキストを解析する種々の手法が開発されている。

特許文献１には、日本語文に対して形態素解析、構文解析を行い、結果に対して感情要素が登録された単語辞書と感情情報変換規則を用いて感情情報の抽出を行うことが記載されている。

非特許文献１には、機械学習手法の１種である畳み込みニューラルネットワークを用いて、テキストに対して品詞付与、チャンク同定、固有名抽出、意味役割付与を行うことが記載されている。

非特許文献２には、機械学習手法の１種である再帰ニューラルネットワークを用いて、構文木の部分枝単位の評判分類を行うことが記載されている。

特公平６−８２３７７号公報

Ronan Collobert, Jason Weston, Leon Bottou, Michael Karlen, Koray Kavukcuoglu, and Pavel Kuksa. 2011. Natural Language Processing (Almost) from Scratch. Journal of Machine Learning Research 12, pp. 2461-2505. Richard Socher, Alex Perelygin, Jean Y. Wu, Jason Chuang, Christopher D. Manning, Andrew Y. Ng, and Christopher Potts. 2013. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank. In Proceedings of 2013 Conference on Empirical Methods in Natural Language Processing, pp. 1632- 1642

テキスト解析を行う際に、単語単位の分類情報を機械学習モデルに取り込んでいないと、テキスト解析の精度が十分でない。また、単語単位の分類情報を用いるのに、分類情報が付与された構文木コーパスを用いる場合には、当該コーパス構築分だけコストが増大してしまう。

本発明の目的は、効率的に単語単位の分類情報を用いてテキスト解析を行うことができる装置及びプログラムを提供することにある。

請求項１に記載の発明は、テキストから分類情報付き見出し語周辺の１つ又は複数の単語をスニペットとして抽出するスニペット抽出手段と、抽出したスニペット中の単語を用いて第１ニューラルネットワークで学習して単語単位の分類情報を取得する取得手段とを備えるテキスト解析装置である。

請求項２に記載の発明は、事前学習手段で得られた単語単位の分類情報を用いて第２ニューラルネットワークの重みを初期化し、分類情報付きテキストを用いて第２ニューラルネットワークで学習してテキストが入力された場合に当該テキストの分類を出力する学習手段とを備える請求項１に記載のテキスト解析装置である。

請求項３に記載の発明は、スニペット中の単語を単語分散表現に変換する単語分散表現変換手段と、単語分散表現の列に対して畳み込み演算を行う単語畳み込み演算手段と、誤差逆伝播法により単語分散表現、及び単語畳み込み層の重みを更新する更新手段とを備える請求項１，２のいずれかに記載のテキスト解析装置である。

請求項４に記載の発明は、コンピュータを、テキストから分類情報付き見出し語周辺の１つ又は複数の単語をスニペットとして抽出するスニペット抽出手段と、抽出したスニペット中の単語を用いて第１ニューラルネットワークで学習して単語単位の分類情報を取得する取得手段として機能させるプログラムである。

請求項１，４に記載の発明によれば、単語単位の分類情報を事前に取得することができる。また、分類情報が付与された構文木コーパスを用いる必要がない。

請求項２に記載の発明によれば、さらに、単語単位の分類情報を用いない場合と比べて高精度のテキスト解析が可能となる。

請求項３に記載の発明によれば、さらに、単語分散表現、及び単語畳み込み層の重みを適切な値に設定できる。

実施形態の機能ブロック図である。実施形態の構成ブロック図である。実施形態の分類情報付き辞書データベースのデータ例である。実施形態のテキスト（ラベルなし）データベースのデータ例である。実施形態の文／文書ラベル付きテキストデータベースのデータ例である。実施形態の処理フローチャート（その１）である。実施形態の処理フローチャート（その２）である。実施形態の処理フローチャート（その３）である。実施形態の入出力説明図である。変形例のシステム構成図である。

以下、図面に基づき本発明の実施形態について説明する。

図１は、本実施形態におけるテキスト解析装置の機能ブロック図を示す。テキスト解析装置は、単語分類学習部１０と、文／文書分類学習部１２から構成される。

単語分類学習部１０は、単語単位の分類を事前に機械学習するモジュールである。単語分類学習部１０は、単語抽出手段１０３、スニペット抽出手段１０４、単語分散表現変換手段１０５、単語畳み込み手段１０６、最大特徴抽出手段１０７、辞書分類対応付け手段１０８を備える。

単語抽出手段１０３は、テキスト（ラベルなし）データベース１０１からテキストを読み出し、当該テキストから単語を抽出する。ここで、「ラベル」とは、肯定的（ポジティブ）、否定的（ネガティブ）、中立的（ニュートラル）等、何らかの分類に基づく情報である。従って、テキスト（ラベルなし）とは、このような分類がなされていないテキストである。

スニペット抽出手段１０４は、単語抽出手段１０３で抽出されたテキストを対象として、見出し語を含むテキスト集合を抽出し、見出し語の周辺Ｌ語（Ｌは例えば２，３，４，・・・）のスニペットを抽出する。ここで、「スニペット」とは、テキスト中で辞書の見出し語とその周辺Ｌ語から構成されるテキスト断片である。見出し語は、分類情報付き辞書データベース１０２から読み出す。例えば、テキストが「彼にとても悲しいことを言われた」であり、見出し語が「悲しい」であり、Ｌ＝２である場合には、テキストのうち見出し語である「悲しい」の前後の２語をスニペットとして抽出し、
「に／とても／悲しい／こと／を」
となる。

単語分散表現変換手段１０５は、抽出したスニペット中の単語を単語分散表現に変換する。ここで、「単語分散表現」とは、単語の意味をｎ次元の実数で表すことである。単語ベクトルということもできる。

単語畳み込み手段１０６は、単語分散表現の列に対して、フィルタ幅ｈ１、特徴マップ数ｋ１の畳み込み演算（コンボリューション）を行う。

最大特徴抽出手段１０７は、単語畳み込み手段１０６で演算して得られたｋ１個の特徴マップについて最大の値を抽出する。

辞書分類対応付け手段１０８は、ｋ１個の最大特徴と辞書分類との間の損失関数を算出し、損失を単語畳み込み層に逆伝播させて単語畳み込み層の重みを更新する。また、損失を単語分散表現に逆伝播させて単語分散表現を更新する。そして、更新した単語分散表現と単語畳み込み層の重みを単語単位の分類情報として保存する。辞書分類対応付け手段１０８は、実施形態において単語単位の分類情報を取得する取得手段として機能する。

他方、文／文書分類学習部１２は、単語分類学習部１０で事前に機械学習した結果を用いて文／文書を機械学習により分類するモジュールである。文／文書分類学習部１２は、単語抽出手段１２２、単語分散表現変換手段１２３、単語畳み込み手段１２４、文／文書畳み込み手段１２５、最大特徴抽出手段１２６、文／文書ラベル対応付け手段１２７を備える。

単語抽出手段１２２は、文／文書ラベル付きテキストデータベース１２１からラベル付テキストを選択し、選択したテキストから単語を抽出する。

単語分散表現変換手段１２３は、スニペット中の単語を単語分散表現に変換する。

単語畳み込み手段１２４は、単語分散表現の列に対してフィルタ幅ｈ１、特徴マップ数ｋ１の畳み込み演算を行う。

文／文書畳み込み手段１２５は、単語畳み込み結果に対してフィルタ幅ｈ２、特徴マップ数ｋ２の畳み込み演算を行う。

最大特徴抽出手段１２６は、ｋ２個の特徴マップについて最大の値を抽出する。

文／文書ラベル対応付け手段１２７は、ｋ２個の最大特徴とラベルとの間の損失関数を算出し、損失を文／文書畳み込み層に逆伝播させて文／文書畳み込み層の重みを更新する。また、損失を単語畳み込み層に逆伝播させて単語畳み込み層の重みを更新する。さらに、損失を単語分散表現に逆伝播させて単語分散表現を更新する。文／文書ラベル対応付け手段１２７は、実施形態において更新手段として機能する。

なお、本実施形態において、「モジュール」とは、論理的に分離可能なソフトウェア、ハードウェア等の部品を意味する。従って、本実施形態におけるモジュールはコンピュータプログラムにおけるモジュールのみならず、ハードウェア構成におけるモジュールも意味する。モジュールは機能に対して１：１に対応してもよいが、１モジュールを１プログラムで構成してもよいし、複数モジュールを１プログラムで構成してもよい。また、複数モジュールは１つのプロセッサないしコンピュータによって実行されてもよいし、分散又は並列環境における複数のプロセッサないしコンピュータによって実行されてもよい。各モジュールによる処理では、対象となる情報を記憶装置から読み込み、ＣＰＵ等のプロセッサで処理を行った後に、処理結果を記憶装置に出力して書き込む。記憶装置には、ＨＤＤ、ＲＡＭ、ＣＰＵ内のレジスタ等が含まれる。

図２は、本実施形態におけるテキスト解析装置の構成ブロック図を示す。テキスト解析装置は、コンピュータで実現され、具体的には、ＣＰＵ２０、ＲＯＭ２２、ＲＡＭ２４、入出力インターフェイス（Ｉ／Ｆ）２６、通信インターフェイス（Ｉ／Ｆ）２８、記憶装置３０を備える。

ＣＰＵ２０は、ＲＯＭ２２あるいはＨＤＤ、ＳＳＤ等に記憶された処理プログラムを読み込み、ＲＡＭ２４をワーキングメモリとして用いて各種処理を実行する。入出力Ｉ／Ｆ２６は、キーボードやマウス、ディスプレイ、タッチパネル等である。通信Ｉ／Ｆ２８は、インターネット等のネットワークに接続する。ＣＰＵ２０は、図１における単語抽出手段１０３、スニペット抽出手段１０４、単語分散表現変換手段１０５、単語畳み込み手段１０６、最大特徴抽出手段１０７、辞書分類対応付け手段１０８として機能するとともに、単語抽出手段１２２、単語分散表現変換手段１２３、単語畳み込み手段１２４、文／文書畳み込み手段１２５、最大特徴抽出手段１２６、文／文書ラベル対応付け手段１２７として機能する。記憶装置３０は、ハードディスク等で構成され各種データを記憶してテキスト（ラベルなし）データベース１０１、分類情報付き辞書データベース１０２、文／文書ラベル付きテキストデータベース１２１として機能する。

なお、記憶装置３０は、ネットワーク上のサーバコンピュータあるいはクラウドコンピュータ内に設けられていてもよい。すなわち、テキスト（ラベルなし）データベース１０１、分類情報付き辞書データベース１０２、文／文書ラベル付きテキストデータベース１２１は、テキスト解析装置とは別のコンピュータで構成されていて通信Ｉ／Ｆ２８を介してデータ送受可能に構成されていてもよい。

図３は、分類情報付き辞書データベース１０２に記憶されるデータの一例を示す。ＩＤ、ラベル及び見出し語が関連付けて記憶される。例えば、
ＩＤ＝１のラベルは「喜」で見出し語は「嬉しい」
ＩＤ＝２のラベルは「怒」で見出し語は「腹立たしい」
ＩＤ＝３のラベルは「哀」で見出し語は「悲しい」
等である。

図４は、テキスト（ラベルなし）データベース１０１に記憶されるデータの一例を示す。ＩＤ及びテキストが関連付けて記憶される。例えば、
ＩＤ＝１のテキストは「彼にとても悲しいことを言われた」
ＩＤ＝２のテキストは「思いがけずプレゼントを貰えて嬉しい」
ＩＤ＝３のテキストは「嬉しいことがとても多い」
等である。

図５は、文／文書ラベル付きテキストデータベース１２１に記憶されるデータの一例を示す。ＩＤ、ラベル及びテキストが関連付けて記憶される。例えば、
ＩＤ＝１のラベルは「ポジティブ」でテキストは「新しいスマホが買えてとても嬉しいです！！」
ＩＤ＝２のラベルは「ネガティブ」でテキストは「今日は仕事で失敗して悲しい」
ＩＤ＝３のラベルは「ニュートラル」でテキストは「今電車で移動しています」
等である。

図６、図７及び図８は、本実施形態の処理フローチャートを示す。図６及び図７は、単語分類学習部１０における単語単位の分類を事前に機械学習する処理であり、図８は、文／文書分類学習部１２における文／文書の分類を機械学習する処理である。なお、機械学習にはニューラルネットワークを用い、誤差逆伝播法を用いて重みを最適化する。単語単位の分類を事前に機械学習する際のニューラルネットワークを第１ニューラルネットワークとし、文／文書単位の分類を機械学習する際のニューラルネットワークを第２ニューラルネットワークとする。

図６において、テキスト（ラベルなし）データベース１０１に記憶されているテキスト群から最初のテキストを抽出する（Ｓ１０１）。図４に示すデータの例では、最初のテキストはＩＤ＝１の「彼にとても悲しいことを言われた。」である。

次に、テキストから単語を抽出する（Ｓ１０２）。単語の抽出には公知の形態素解析方法を用いることができる。

次に、テキスト（ラベルなし）データベース１０１内の全テキストを処理したか否かを判定し（Ｓ１０３）、全テキストを処理していなければ（Ｓ１０３でＮＯ）、次のテキストを選択して同様の処理を繰り返す（Ｓ１０４）。

全テキストを処理した場合（Ｓ１０３でＹＥＳ）、次に、分類情報付き辞書データベース１０２から最初の見出し語を選択する（Ｓ１０５）。図３に示すデータの例では、最初の見出し語はＩＤ＝１の「嬉しい」である。

次に、見出し語を含むテキストを抽出する（Ｓ１０６）。見出し語が「嬉しい」であれば、これを含むテキストは「思いがけずプレゼントを貰えて嬉しい。」、及び「嬉しいことがとても多い。」である。

次に、見出し語の周辺Ｌ語のスニペットを抽出する。例えばＬ＝２とすると、テキスト「思いがけずプレゼントを貰えて嬉しい」では、「貰え／て／嬉しい／。」がスニペットとして抽出され、テキスト「嬉しいことがとても多い。」では、「嬉しい／こと／が」がスニペットとして抽出される。

次に、スニペット中の見出し語を未知語に置換する。例えば、未知語をＸＸとすると、
「貰え／て／嬉しい／。」→「貰え／て／ＸＸ／。」
「嬉しい／こと／が」→「ＸＸ／こと／が」
と置換する。

次に、分類情報付き辞書データベース１０２内の全見出し語を処理したか否かを判定し（Ｓ１０９）、全見出し語を処理していなければ（Ｓ１０９でＮＯ）、次の見出し語を選択して同様の処理を繰り返す（Ｓ１１０）。例えば、見出し語「悲しい」では、テキストとして「彼にとても悲しいことを言われた。」が抽出され、周辺Ｌ語のスニペットとして、「に／とても／悲しい／こと／を」が抽出される。そして、スニペット中の見出し語を未知語に置換し、
「に／とても／悲しい／こと／を」→「に／とても／ＸＸ／こと／を」
と置換する。

全見出し語を処理した場合（Ｓ１０９でＹＥＳ）、図７の処理に移行する。図７において、抽出したスニペット群からスニペットを選択する（Ｓ２０１）。

次に、スニペット中の単語を単語分散表現に変換する（Ｓ２０２）。初期化処理として、各単語についてランダムに一様分布で初期化したｎ次元の単語分散表現を構築する。

次に、単語分散表現の列に対してフィルタ幅ｈ１、特徴マップ数ｋ１の畳み込み演算を行う（Ｓ２０３）。

次に、ｋ１個の特徴マップについて最大の値を抽出する（Ｓ２０４）。

次に、ｋ１個の最大特徴と辞書分類との間の損失関数を算出する（Ｓ２０５）。

次に、Ｓ２０５で算出された損失を単語畳み込み層に逆伝播させ、第１ニューラルネットワークの単語畳み込み層の重みを更新する（Ｓ２０６）。

次に、Ｓ２０５で算出された損失を単語分散表現に逆伝播させ、第１ニューラルネットワークの単語分散表現を更新する（Ｓ２０７）。

次に、抽出した全スニペットを処理したか否かを判定し（Ｓ２０８）、全スニペットを処理していなければ（Ｓ２０８でＮＯ）、次のスニペットを選択して同様の処理を繰り返す（Ｓ２０９）。

全スニペットを処理した場合（Ｓ２０８でＹＥＳ）、更新後の第１ニューラルネットワークの単語分散表現と単語畳み込み層の重みをＲＡＭ２４あるいは記憶装置３０に保存し、事前学習が終了する（Ｓ２１０）。

例えば、単語分散表現が３次元として
「嬉しい」＝［１．１，０．１，−０．２］
「悲しい」＝［０．２，０．３，１．５］
「貰う」＝［０．７，０．２，−０．１］
であると仮定する。

畳み込み層の計算では、ｉ番目の結果ｃｉは、ｘを単語列として以下の式で表現される。
ｃｉ＝ｆ（ｗ・ｘ_{ｉ：ｉ＋ｈ−１}）
ｗ∈Ｒ^ｈｋ

ここで、ｈは畳み込みのウィンドウ幅、ｋは特徴マップ数、ｗは重み（重み行列）、ｘ_{ｉ：ｉ＋ｈ−１}はｉ番目からｉ＋ｈ−１番目までの部分単語列である。

ウィンドウ幅ｈ＝１の単語畳み込み処理の重み行列ｗは、ランダムに初期化される。例えば、
ｗ＝［０．１，−０．１，−０．２］
に初期化される。なお、ｈ＞１であれば、２単語以上について単語分散表現の次元の組合せに対する処理となる。

単語学習処理を行い、単語分散表現の第１次元がポジティブに相間があり第３次元がネガティブに相間があるとすると、重み行列ｗの第１次元と第３次元の重みが学習により更新される。例えば、上記の初期値に対し、
ｗ＝［２．０，−０．１，−１．８］
に更新される。

以上のようにして更新された重み行列ｗには単語分散表現の各次元とポジティブ・ネガティブの関係が学習されているので、文／文書分類学習部１２で別途、ランダムに初期化する場合と比べて性能向上及び学習時間の短縮が得られる。

事前学習が終了した後、事前学習で得られた重み行列ｗを用いて図８の処理を実行する。言い換えれば、第１ニューラルネットワークで事前学習して得られた重み行列ｗを、第２ニューラルネットワークの重み行列ｗの初期値として与える。

図８において、まず重みを初期化する（Ｓ３０１）。ＲＡＭ２４あるいは記憶装置３０に保存された重みを用いて、単語分散表現と単語畳み込み層の重みを初期化する。

次に、文／文書ラベル付きテキストデータベース１２１からラベル付きテキストを選択する（Ｓ３０２）。

次に、ラベル付きテキストから単語を抽出し（Ｓ３０３）、スニペット中の単語を単語分散表現に変換する（Ｓ３０４）。

次に、単語分散表現の列に対してフィルタ幅ｈ１、特徴マップ数ｋ１の畳み込み演算を行い（Ｓ３０５）、単語畳み込み結果に対してさらにフィルタ幅ｈ２、特徴マップ数ｋ２の畳み込み演算を行う（Ｓ３０６）。フィルタ幅ｈ２、特徴マップ数ｋ２の畳み込み演算が文／文書の畳み込みに相当する。

次に、ｋ２個の特徴マップについて最大の値を抽出し（Ｓ３０７）、ｋ２個の最大特徴とラベルとの間の損失関数を算出する（Ｓ３０８）。

次に、算出された損失を文／文書畳み込み層に逆伝播させ、第２ニューラルネットワークの文／文書畳み込み層の重みを更新する（Ｓ３０９）。

次に、算出された損失を単語畳み込み層に逆伝播させ、第２ニューラルネットワークの単語畳み込み層の重みを更新する（Ｓ３１０）。

次に、算出された損失を単語分散表現に逆伝播させ、第２ニューラルネットワークの単語分散表現を更新する（Ｓ３１１）。

次に、全ラベル付きテキストについて処理したか否かを判定し（Ｓ３１２）、全ラベル付きテキストを処理していなければ（Ｓ３１２でＮＯ）、次のラベル付きテキストを選択して同様の処理を繰り返す（Ｓ３１３）。

以上の処理により、ラベル付きテキストデータベース１２１を教師データとして用いて単語分散表現、単語畳み込み層の重み、及び文／文書畳み込み層の重みが更新される。

図９は、学習済みのテキスト解析装置の入出力の一例を示す。学習済みのテキスト解析装置に対して、任意のテキスト、例えば「新しいスマホを買えてとても嬉しいです！！」等のテキストを入力すると、「ポジティブ」のラベルが出力され分類される。この場合、テキスト解析装置は、文／文書の評判分類器として機能し得る。

このように、本実施形態では、テキスト（ラベルなし）データベース１０１と分類情報付き辞書データベース１０２を用いて単語単位の分類情報を第１ニューラルネットワークで事前に学習し、この事前学習により得られた単語単位の分類情報を部分構造として用いて文／文書単位で第２ニューラルネットワークで処理しているので、単語単位の分類情報を用いない場合と比べて文／文書単位の処理の精度を向上させることができる。

また、本実施形態では、単語単位の分類情報を第１ニューラルネットワークで事前に学習して取得するので、単語単位の分類情報が付与された構文木コーパスが不要であり、当該コーパスを構築するためのコストが不要化される。

以上、本発明の実施形態について説明したが、本発明はこれに限定されず種々の変形が可能である。以下にこれらの変形例について説明する。

＜変形例１＞
実施形態では、テキスト（ラベルなし）データベース１０１、分類情報付き辞書データベース１０２、及び文／文書ラベル付きテキストデータベース１２１は記憶装置３０に記憶されているが、それぞれ別の記憶装置に記憶されていてもよく、ネットワーク上のそれぞれ別のサーバコンピュータに記憶されていてもよい。

また、本実施形態において、ＣＰＵ２０が図１における単語抽出手段１０３、スニペット抽出手段１０４、単語分散表現変換手段１０５、単語畳み込み手段１０６、最大特徴抽出手段１０７、辞書分類対応付け手段１０８として機能するとともに、単語抽出手段１２２、単語分散表現変換手段１２３、単語畳み込み手段１２４、文／文書畳み込み手段１２５、最大特徴抽出手段１２６、文／文書ラベル対応付け手段１２７として機能するとして説明したが、これら複数のモジュールを複数のＣＰＵで分担して実現してもよい。

さらに、単語抽出手段１０３と単語抽出手段１２２、単語分散表現変換手段１０５と単語分散表現変換手段１２３、単語畳み込み手段１０６と単語畳み込み手段１２４、最大特徴抽出手段１０７と最大特徴抽出手段１２６はそれぞれ同一又は類似する機能を有しているので、これらをそれぞれ共通化してもよい。

＜変形例２＞
実施形態では、スニペットとして見出し語の周辺Ｌ語を抽出するものとし、Ｌ＝２としているが、Ｌ＝１、あるいはＬ＝３、Ｌ＝４等としてもよい。要するに、分類情報付き辞書データベース１０２に記憶されている見出し語の前後の１つ又は複数の単語を抽出してスニペットを抽出すればよい。一般に、Ｌは１よりも２，３，４・・・の方が解析精度は向上すると考えられるが、スニペットの数が増大するとその分だけ処理が複雑化して時間を要することになる。従って、見出し語の前後２語程度が適当と考えられるが、必ずしもこれに限定されない。種々のＬについて学習し、精度及び処理時間の観点からＬを最適化してもよい。

＜変形例３＞
実施形態の解析対象は文／文書のテキストであるが、音声を入力してテキスト化し、当該テキストを解析対象としてもよい。この場合、テキスト解析装置は、テキスト化音声解析装置として機能し得る。

＜変形例４＞
実施形態では、一つのコンピュータに単語分類学習部１０及び文／文書分類学習部１２がともに実装されているが、これらをそれぞれ別のコンピュータに実装してもよい。

図１０は、この場合のシステム構成を示す。単語分類学習部１０を実装するコンピュータ、及び文／文書分類学習部１２を実装するコンピュータがネットワーク１００に接続される。また、テキスト（ラベルなし）データベース１０１、分類情報付き辞書データベース１０２、及び文／文書ラベル付きテキストデータベース１２１もネットワーク１００に接続される。単語分類学習部１０は、単語抽出手段１０３、スニペット抽出手段１０４、単語分散表現変換手段１０５、単語畳み込み手段１０６、最大特徴抽出手段１０７、辞書分類対応付け手段１０８を備える。文／文書分類学習部１２は、単語抽出手段１２２、単語分散表現変換手段１２３、単語畳み込み手段１２４、文／文書畳み込み手段１２５、最大特徴抽出手段１２６、文／文書ラベル対応付け手段１２７を備える。

単語分類学習部１０は、事前学習して得られた更新後の単語分散表現と単語畳み込み層の重みをネットワーク１００を介して文／文書分類学習部１２に供給する。文／文書分類学習部１２は、供給された単語分散表現と単語畳み込み層の重みを用いて初期化し、文／文書ラベル付きテキストデータベース１２１を用いて学習する。

単語分類学習部１０は、事前学習して得られた更新後の単語分散表現と単語畳み込み層の重みを自己の記憶装置に記憶してもよく、あるいはネットワーク上の記憶装置、例えば文／文書ラベル付きテキストデータベース１２１に記憶してもよい。この場合、文／文書分類学習部１２は、ネットワーク１００を介して文／文書ラベル付きテキストデータベース１２１からテキストとともに事前学習された更新後の単語分散表現と単語畳み込み層の重みを読み込む。

単語分類学習部１０が実装されたコンピュータは、文／文書分類学習部１２にて実行される文／文書分類学習処理及び学習終了後のテキスト解析処理用の事前処理を実行するものであり、この意味で当該コンピュータもテキスト解析処理として機能し得る。

＜変形例５＞
実施形態では、ＣＰＵ２０及び処理プログラムによりニューラルネットワーク（第１ニューラルネットワーク及び第２ニューラルネットワーク）を実装しているが、これに代えて、専用ハードウェア（ＡＳＩＣ）によりニューラルネットワークを実装してもよく、あるいはＦＰＧＡを用いて実装してもよい。ＦＰＧＡを用いる場合でも、その一部をソフトウェアで実装してもよく、ハードウェアとソフトウェアの複合体として実装してもよい。

１０単語分類学習部、１２文／文書分類学習部、１０１テキスト（ラベルなし）データベース、１０２分類情報付きデータベース、１０３単語抽出手段、１０４スニペット抽出手段、１０５単語分散表現変換手段、１０６単語畳み込み手段、１０７最大特徴抽出手段、１０８辞書分類対応付け手段、１２１文／文書ラベル付きテキストデータベース、１２２単語抽出手段、１２３単語分散表現変換手段、１２４単語畳み込み手段、１２５文／文書畳み込み手段、１２６最大特徴抽出手段、１２７文／文書ラベル対応付け手段。

Claims

テキストから分類情報付き見出し語周辺の１つ又は複数の単語をスニペットとして抽出するスニペット抽出手段と、
抽出したスニペット中の単語を用いて第１ニューラルネットワークで学習して単語単位の分類情報を取得する取得手段と、
を備えるテキスト解析装置。
事前学習手段で得られた単語単位の分類情報を用いて第２ニューラルネットワークの重みを初期化し、分類情報付きテキストを用いて第２ニューラルネットワークで学習してテキストが入力された場合に当該テキストの分類を出力する学習手段と、
を備える請求項１に記載のテキスト解析装置。
スニペット中の単語を単語分散表現に変換する単語分散表現変換手段と、
単語分散表現の列に対して畳み込み演算を行う単語畳み込み演算手段と、
誤差逆伝播法により単語分散表現、及び単語畳み込み層の重みを更新する更新手段と、
を備える請求項１，２のいずれかに記載のテキスト解析装置。
コンピュータを
テキストから分類情報付き見出し語周辺の１つ又は複数の単語をスニペットとして抽出するスニペット抽出手段と、
抽出したスニペット中の単語を用いて第１ニューラルネットワークで学習して単語単位の分類情報を取得する取得手段
として機能させるプログラム。