JP2015169951A

JP2015169951A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2015169951A
Application number: JP2014041983A
Authority: JP
Inventors: 塚原　裕史; Yasushi Tsukahara; 裕史塚原; 慶内海; Kei Uchiumi
Original assignee: Denso IT Laboratory Inc
Current assignee: Denso IT Laboratory Inc
Priority date: 2014-03-04
Filing date: 2014-03-04
Publication date: 2015-09-28
Anticipated expiration: 2034-03-04
Also published as: JP6312467B2

Abstract

【課題】学習データを単語分割し、分割された単語の意味的な類似度を自動的に獲得する情報処理装置を提供する。【解決手段】文字Ｎグラムまたは単語分割モデルを用いて学習データを単語分割する単語分割部１１と、分割された単語のデータに基づいて文字Ｎグラムの学習を行う文字Ｎグラム学習部１２と、分割された単語のデータに基づいて単語分割モデルの学習を行う単語境界学習部１６と、再帰型ニューラルネットワークで表される単語Ｎグラムの学習を行う単語Ｎグラム学習部１４とを備える。文字Ｎグラムを用いた単語分割と単語分割モデルを用いた単語分割とを交互に行う処理と、単語Ｎグラムを学習する処理とを所定の収束条件を満たすまで繰り返し行う。そして、学習が行われた単語Ｎグラムの再帰型ニューラルネットワークに単語のデータを入力し、中間層にて求められるベクトルを概念ベクトルとして求める。【選択図】図１

Description

本発明は、自然言語処理を行う情報処理装置に関し、特に、与えられた文字列を単語分割し、分割された単語の意味的な類似度を求める情報処理装置に関する。

従来、与えられた文字列を単語分割する方法として、あらかじめ単語辞書を用意しておき、その辞書に基づいて、与えられた文字列を単語へ分割する方法が知られている（非特許文献１）。また、単語辞書を用意することなく、教師なし学習によって文字列を単語へ分割する手法も知られている。この方法では、文字Ｎグラム、単語Ｎグラムをノンパラメトリックベイズ法によって確率モデル化し、単語を推定する（非特許文献２）。

単語間の意味的な類似度を推定する方法として、あらかじめ概念ベースを用意し、その概念ベースへの照合により、単語間の類似度を推定する方法が知られている。この方法では、概念ベースに登録されていない単語に対しては、その単語を含む文において、それらの文中にあり概念ベースに登録されている単語との関係によって、類似度を推定する（特許文献１）。また、概念ベースを用いることなく、多層のニューラルネットワークを利用し、ニューラルネットワークの中間層に、自発的に単語間の類似度を構成する方法が知られている（非特許文献３）。

特開２０１０−２２４８８７号公報

「言語処理のための機械学習入門」奥村学監修、高村大也著（コロナ社）「ベイズ階層言語モデルによる教師なし形態素解析」、持橋大地山田武士上田修功、自然言語処理学会（NL190） "Linguistic Regularities in Continuous Space Word Representations", T. Mikolov, W-T Yih, G. Zweig, (INTERSPEECH 2013)

しかし、単語辞書に基づき、単語分割を行う方法は、辞書に登録されていない未知語が含まれた文字列に対しては、正しく単語分割ができないという課題がある。未知語を少なくするためには、大規模な単語辞書を作成しなければならない。教師なし学習による単語分割では、上記のような課題はクリアーされているが、分割された単語の意味的な類似度を推定することができない。

意味的な類似度を推定するために、従来技術では、特許文献１に記載されているようにあらかじめ概念ベースを用意しておく必要があるが、概念ベースの構築には、非常に多くの人手を要する。また、概念ベースに登録されていない単語については、その単語の周辺に出現する他の概念ベースに登録がある単語を利用しているが、それらの単語が対象となる単語と無関係のものが含まれていることにより、正しく意味を推定することができないという課題がある。また、特許文献１の方法では、単語はあらかじめ正しく分割されることが仮定されており、単語分割に関する上記の課題が同様に当てはまる。

非特許文献３にある方法によれば、概念ベースを用意することなく、単語を意味的な関係を表す連続空間へ埋め込み、その空間における距離によって、単語間の意味的な類似度を獲得することができる。但し、非特許文献３の方法でも、単語はあらかじめ正しく分割されることが仮定されており、単語分割に関する上記の課題が同様に当てはまる。

以上のように、従来技術においては、単語分割と分割された単語の意味的な類似度とを教師データをあらかじめ用意することなく、同時に推定することができなかった。

単語分割と単語の意味的な類似度とを教師なしで自動獲得するには、以上のような課題があるが、これらの課題を解決するような枠組みは、現在まで存在していなかった。

そこで、本発明は、与えられた学習データの単語分割を行い、分割された単語の意味的な類似度を自動的に獲得する情報処理装置を提供することを目的とする。

本発明の情報処理装置は、学習データとして文のデータを入力する入力部と、文字Ｎグラムまたは単語分割モデルを用いて前記学習データを単語分割する単語分割部と、分割された単語のデータに基づいて文字Ｎグラムの学習を行い、学習した文字Ｎグラムを文字Ｎグラム記憶部に記憶する文字Ｎグラム学習部と、分割された単語のデータに基づいて単語境界の認識を行う系列ラベリングによる単語分割モデルの学習を行い、学習によって得られた単語分割モデルを単語分割モデル記憶部に記憶する単語境界学習部と、入力層、中間層及び出力層を有し、中間層からの出力を入力層にも入力する再帰型ニューラルネットワークで表される単語Ｎグラムを、分割された単語のデータを教師データとして用いて学習し、単語Ｎグラム記憶部に記憶する単語Ｎグラム学習部と、前記単語Ｎグラム記憶部に記憶されている再帰型ニューラルネットワークに単語のデータを入力し、中間層にて求められるデータを概念データとして求める概念データ算出部と、前記概念データを出力する出力部とを備え、前記単語分割部が、前記文字Ｎグラム学習部にて学習された文字Ｎグラムを用いた単語分割と前記単語境界学習部にて学習された単語分割モデルを用いた単語分割とを交互に行う処理と、前記単語Ｎグラム学習部が前記単語分割部にて分割された単語のデータを用いて単語Ｎグラムを学習する処理とを、所定の収束条件を満たすまで繰り返し行う。

このように単語分割部にて分割された単語のデータを教師データとして用いて、再帰型ニューラルネットワークで表された単語Ｎグラムを繰り返し学習することにより、中間層において、単語の概念を表す概念データを求めることができる。したがって、本発明によれば、単語辞書や概念辞書を用意しなくても、与えられた学習データから自動的に単語の概念を表すデータを獲得することができる。従来、適用が困難であったブログや話し言葉などの自然言語処理による活用を促進できる。

また、前記再帰型ニューラルネットワークは、文を構成する１番目からＮ番目までの単語のデータを入力とし、Ｎ＋１番目の単語を出力とするものであってもよい。これにより、中間層には、文脈のファクターを反映した概念データが現れる。

本発明の情報処理装置は、前記概念データに基づいて、単語どうしの類似度が所定の閾値より大きい単語どうしを同じグループにクラスタリングするクラスタリング部を備え、前記出力部は、クラスタリングの結果を出力してもよい。この際、クラスタを代表する単語として、当該クラスタ内に存在する単語のうち最も頻度の高い単語を出力してもよい。また、前記クラスタリング部は、階層的にクラスタリングを行ってもよい。

本発明の情報処理装置において、前記単語分割部は、前記学習データが与えられたときに、文字コードに基づいて前記学習データの初期分割を行ってもよい。これにより、文字Ｎグラムや単語分割モデルがない場合でも、学習データから単語への初期分割を適切に行うことができる。

本発明の情報処理方法は、情報処理装置によって、入力された学習データを単語分割し、分割された単語の概念を求める方法であって、前記情報処理装置が、学習データとして文のデータを入力するステップと、前記情報処理装置が、前記学習データに対して、文字Ｎグラムを用いた単語分割と単語分割モデルを用いた単語分割とを交互に行い、分割された単語のデータを教師データとして用いて、入力層、中間層及び出力層を有し、中間層からの出力を入力層にも入力する再帰型ニューラルネットワークで表される単語Ｎグラムを学習する処理を、所定の収束条件を満たすまで繰り返し行うステップと、前記情報処理装置が、前記単語Ｎグラム記憶部に記憶されている再帰型ニューラルネットワークに単語のデータを入力し、中間層にて求められるデータを概念データとして求めるステップと、前記情報処理装置が、前記概念データを出力するステップとを備え、前記単語Ｎグラムを学習するステップは、前記情報処理装置が、文字Ｎグラムを用いて前記学習データの単語分割を行うステップと、前記情報処理装置が、分割された単語のデータを教師データとして用いて、前記再帰型ニューラルネットワークで表される単語Ｎグラムの学習を行い、単語Ｎグラム記憶部に記憶するステップと、前記情報処理装置が、分割された単語のデータに基づいて単語境界の認識を行う系列ラベリングによる単語分割モデルの学習を行い、学習によって得られた単語分割モデルを単語分割モデル記憶部に記憶するステップと、前記情報処理装置が、前記単語分割モデルを用いて前記学習データの単語分割を行うステップと、前記情報処理装置が、分割された単語のデータを教師データとして用いて、前記再帰型ニューラルネットワークで表される単語Ｎグラムの学習を行い、単語Ｎグラム記憶部に記憶するステップと、前記情報処理装置が、分割された単語のデータに基づいて文字Ｎグラムの学習を行い、学習した文字Ｎグラムを文字Ｎグラム記憶部に記憶するステップとを有する。

本発明のプログラムは、上記した情報処理方法をコンピュータに実行させるプログラムである。

本発明によれば、単語辞書、および概念辞書を用意することなく、与えられたテキストデータから、単語の意味的な類似度を自動で獲得することができる。従来適用が難しかったブログや話し言葉などに対して自然言語処理を行うことを促進することができる。

実施の形態の情報処理装置の機能ブロックを示す図である。再帰型ニューラルネットワークの例を示す図である。実施の形態の情報処理装置のハードウェア構成を示す図である。実施の形態の情報処理装置の動作の概要を示す図である。単語分割と単語Ｎグラムの学習の処理の一例を示す図である。単語分割と単語Ｎグラムの学習の処理の一例を示す図である。

以下、本発明の実施の形態の情報処理装置について、図面を参照しながら説明する。
図１は、実施の形態の情報処理装置の機能ブロックを示す図である。情報処理装置は、学習データ２１を入力する入力部１０と、学習データ２１の単語分割を行う単語分割部１１と、分割された単語のデータに基づいて学習を行う文字Ｎグラム学習部１２と、単語Ｎグラム学習部１４と、単語境界学習部１６とを有している。単語Ｎグラム学習部１４は、図２に示す再帰型ニューラルネットワークを用いて、単語Ｎグラムの学習を行う。また、情報処理装置は、学習された再帰型ニューラルネットワークを用いて単語の概念ベクトル２２を算出する概念ベクトル算出部１８と、概念ベクトル２２に基づいて単語のクラスタリングを行うクラスタリング部１９と、概念ベクトル２２を出力する出力部２０とを有している。

情報処理装置は、単語のデータをベクトルとして扱う。具体的には、１単語の最大長をＫ、文字種別をＬとしてＬ^K個の可能な単語を定義し、定義された単語を一意に識別する単語ベクトルを与える。なお、単語を定義する際に、文字種別の切り替え最大数をＭに制限してもよい。単語ベクトルは、具体的には、Ｌ^K個の成分のうち、当該単語を表す成分のみを「１」とし、残りを「０」とするベクトルである。このような単語ベクトルの表現を１ｏｆＮコーディングという。

情報処理装置の入力部１０は、学習データ２１として文のテキストデータの入力を受け付ける。学習データ２１は、例えば、ウェブ上にあるブログ等から取得することとしてもよい。

単語分割部１１は、学習データ２１の単語分割を行う機能を有する。単語分割部１１は、次の３つの方法で単語分割を行うことができる。すなわち、（１）文字コードが切り替わる点で単語分割を行う。（２）文字Ｎグラムを用いて単語分割を行う。（３）単語分割モデルを用いて単語分割を行う。

（１）のように、文字コードが切り替わる点で単語分割を行うのは、学習データ２１が与えられた最初の単語分割時である。学習データ２１が最初に与えられたときには、その学習データ２１に対する文字Ｎグラム、単語分割モデルが求められていないので、文字コードの切り替わりによって初期分割を行う。なお、本実施の形態では、初期分割に、文字コードの切り替わりを利用する方法を用いているが、既存の形態素分析器（弱識別器として）によって、分割することも可能である。

（２）の文字Ｎグラムを用いた単語分割は、次のように行う。
文ｘの分割候補ｗを次のように書く。

単語分割は、次の式を最大化するように求められる。

（３）の単語分割モデルを用いた単語分割は、公知の技術を用いることができる。

文字Ｎグラム学習部１２は、分割された単語の前後に単語開始、単語終了を示す仮想的な文字を挿入した上で、文字Ｎグラムの学習を行う。文字Ｎグラムの学習には、統計的なＮグラムモデルを用いることができ、例えば、Kneser-Neyスムージングと呼ばれる方法を用いてもよい。文字Ｎグラム学習部１２は、学習により得られた文字Ｎグラムのデータを、文字Ｎグラム記憶部１３に記憶する。

単語Ｎグラム学習部１４は、上述したとおり、図２に示す再帰型ニューラルネットワークを利用して、単語Ｎグラムの学習を行う。再帰型ニューラルネットワークは、分割された単語の単語ベクトルｗ（ｔ）が入力される入力層３０と、中間層３２と、中間層３２の出力を受けて再度中間層３２への出力を行う入力層３１と、出力層３３とを有している。中間層３２は、ネットワークの中で、再帰的に入力データと共に更新を受ける。出力層３３には、入力された（Ｎ−１）個の単語ベクトルに後続するＮ番目の単語ベクトルが、確率分布の形で出力される。図２において、矢印の近傍に記載したアルファベットは、各層の結合荷重ベクトルである。また、各層に現れるベクトルを各層の上に記載している。

ここで、単語ベクトルｗ（ｔ）を入力したときに、中間層３２に現れるベクトルｓ（ｔ）が、その単語の概念ベクトルに相当する。再帰型ニューラルネットワークにおいては、中間層３２の出力が入力層３１に入力され、再度中間層３２に入力される。つまり、一つ前の単語ベクトルｗ（ｔ−１）が、単語ベクトルｗ（ｔ）の概念ベクトルｓ（ｔ）に影響を与え、文脈を考慮して単語ベクトルｗ（ｔ）が求められることになる。

再帰型ニューラルネットワークは、分割された単語のデータを教師データとし、（Ｎ−１）個の単語ベクトルが入力されたときのＮ番目の単語ベクトルに基づいて逆伝搬法によって、学習が行われる。単語Ｎグラム学習部１４は、学習によって更新された再帰型ニューラルネットワークのデータを単語Ｎグラム記憶部１５に記憶する。

単語境界学習部１６は、単語境界の認識を行う系列ラベリングによって単語分割モデルを学習する。単語モデルには、ＣＲＦ（Conditional Random Field）のような統計モデルを利用してもよいし、structured perceptronなどのニューラルネットワークを用いることとしてもよい。単語境界学習部１６は、学習された単語分割モデルを単語分割モデル記憶部１７に記憶する。

情報処理装置は、上述した単語分割部１１にて分割された単語のデータを教師データとして、単語Ｎグラムを示す再帰型ニューラルネットワークを更新すると共に、分割された単語のデータに基づいた単語Ｎグラムや単語境界の学習を行い、学習された単語Ｎグラムや単語分割モデルを使って単語分割を行う処理を繰り返す。繰り返し処理を完了する収束判定としては、例えば、所定の回数Ｉだけ単語分割を行った時点、あるいは、パープレキシティを計算し、その値が所定の値以上変化しなくなった時点で、繰り返し処理を完了するなどの方法が考えらえる。

概念ベクトル算出部１８は、単語Ｎグラム学習部１４にて学習された再帰型ニューラルネットワークに対して単語ベクトルを入力し、その入力に対する中間層のベクトルを概念ベクトル２２として求める。概念ベクトル２２は、その単語の概念空間における位置を与え、概念ベクトル２２の距離や方向が意味的な類似度を表す。

クラスタリング部１９は、概念ベクトル算出部１８にて算出された概念ベクトル２２に基づいて、類似の単語をクラスタリングする機能を有する。クラスタリング部１９は、階層的にクラスタリングを行ってもよい。

出力部２０は、概念ベクトル算出部１８にて算出された概念ベクトル２２のデータとクラスタリングの結果を出力する。出力部２０は、クラスタを代表する単語として、当該クラスタ内に存在する単語のうち最も頻度の高い単語を出力してもよい。なお、出力部２０は、これらに加えて、単語Ｎグラムのデータを出力してもよい。

図３は、上に説明した情報処理装置の機能を実現するハードウェア構成を示す図である。情報処理装置のハードウェアは、ＣＰＵ４０、ＲＡＭ４１、ＲＯＭ４２、通信インターフェース４４、ハードディスク４５、キーボード４６、モニタ４７を備えた通常のコンピュータである。ＲＯＭ４２に記憶されたプログラム４３を読み出して実行することにより、上に説明した情報処理装置が実現される。このようなプログラム４３も本発明の範囲に含まれる。

続いて、実施の形態の情報処理装置の動作について説明する。図４は、情報処理装置の動作の概要を示す図であり、図５および図６は、単語分割と単語Ｎグラムの学習の動作を示す図である。まず、図４を参照して、情報処理装置の動作の概要について説明する。

まず、情報処理装置は、１単語の最大長をＫ、文字種別をＬとしてＬ^K個の可能な単語を定義し、定義された単語を一意に識別する単語ベクトルを与える（Ｓ１０）。続いて、情報処理装置は、学習データ２１を入力する（Ｓ１１）。

情報処理装置は、入力された学習データ２１の単語分割と分割された単語のデータに基づく単語Ｎグラムの学習を行う（Ｓ１２）。ここでの処理については、図５および図６を参照して、後述する。情報処理装置は、単語分割と単語Ｎグラムの学習が収束すると、単語Ｎグラムの再帰型ニューラルネットワークを用いて、各単語の概念ベクトル２２を求め（Ｓ１３）、概念ベクトル２２に基づいて単語のクラスタリングを行う（Ｓ１４）。そして、情報処理装置は、単語の概念ベクトル２２と単語のクラスタリング結果を出力する（Ｓ１５）。

図５を参照して、単語分割と単語Ｎグラムの処理について説明する。情報処理装置は、まず、初期単語分割を行う（Ｓ２０）。本実施の形態では、情報処理装置は、文字コードの切り替わりで単語を分割する。次に、情報処理装置は、分割された単語のデータを用いて、単語Ｎグラムの学習を行う（Ｓ２１）。具体的には、文に含まれる１〜Ｎ個の単語に続いて、Ｎ＋１番目にどの単語が現れるかを、再帰型ニューラルネットワークにて学習する。

情報処理装置は、分割された単語のデータに基づいて文字Ｎグラムの学習を行い（Ｓ２２）、学習した文字Ｎグラムを用いて、学習データ２１の単語分割を行う（Ｓ２３）。

次に、情報処理装置は、分割された単語のデータを用いて、単語Ｎグラムの学習を行い（Ｓ２４）、系列ラベリングにより単語分割モデルの学習を行う（Ｓ２５）。そして、学習した単語分割モデルを用いて、学習データ２１を単語分割する（Ｓ２６）。

情報処理装置は、単語分割および単語Ｎグラムの学習の繰り返し処理の収束条件を満たすか否かを判定する（Ｓ２７）。収束条件を満たす場合には（Ｓ２７でＹＥＳ）、情報処理装置は、単語分割および単語Ｎグラムの学習を終了する。収束条件を満たさない場合には（Ｓ２７でＮＯ）、情報処理装置は、再度、単語Ｎグラムを学習する処理を開始する（Ｓ２１）。

このように、本実施の形態の情報処理装置は、文字Ｎグラムによる単語分割と単語分割モデルによる単語分割を交互に行うと共に、各単語分割の処理の後に単語Ｎグラムの学習を行う。これにより、単語Ｎグラムを構成する再帰型ニューラルネットワークの学習が行われ、この再帰型ニューラルネットワークの中間層３２によって、単語の概念ベクトル２２を求めることができるようになる。

図６は、情報処理装置による単語分割と単語Ｎグラムの学習の別の例を示す図である。図６に示す処理は、図５に示す処理と基本的に同じであるが、図５に示した例では、初期分割（Ｓ２０）の後に、文字Ｎグラムの学習（Ｓ２２）、文字Ｎグラムによる単語分割（Ｓ２３）を行っているのに対し、図６に示す例では、初期分割（Ｓ３０）の後に、単語分割モデルの学習（Ｓ３２）、単語分割モデルを用いた単語分割（Ｓ３３）を行っている点が異なる。図６に示す例も、文字Ｎグラムによる単語分割と単語分割モデルによる単語分割を交互に行い、各単語分割の処理の後に単語Ｎグラムの学習を行う点では、図５に示した例と同じである。このように単語分割後の学習を文字Ｎグラムと単語分割モデルのいずれを先に行うかは任意である。

以上、本発明の実施の形態の情報処理装置について、実施の形態を挙げて説明したが、本発明は上記した実施の形態に限定されるものではない。例えば、単語分割を行った後に行う単語Ｎグラムの学習は、単語分割を行った毎に必ず行わなくてはならないというものではなく、例えば、文字Ｎグラムに基づく単語分割と、単語分割モデルに基づく単語分割が行われたときに、単語Ｎグラムの学習を行うこととしてもよい。

本発明の情報処理装置は、単語辞書、および概念辞書を用意することなく、与えられたテキストデータから、単語の意味的な類似度を自動で獲得することができるという効果を有し、自然言語処理を行う装置として有用である。

１０入力部
１１単語分割部
１２文字Ｎグラム学習部
１３文字Ｎグラム記憶部
１４単語Ｎグラム学習部
１５単語Ｎグラム記憶部
１６単語境界学習部
１７単語分割モデル記憶部
１８概念ベクトル算出部
１９出力部
２０学習データ
２１概念ベクトル
３０入力層
３１入力層
３２中間層
３３出力層
４０ＣＰＵ
４１ＲＡＭ
４２ＲＯＭ
４３プログラム
４４通信インターフェース
４５ハードディスク
４６キーボード
４７モニタ

Claims

学習データとして文のデータを入力する入力部と、
文字Ｎグラムまたは単語分割モデルを用いて前記学習データを単語分割する単語分割部と、
分割された単語のデータに基づいて文字Ｎグラムの学習を行い、学習した文字Ｎグラムを文字Ｎグラム記憶部に記憶する文字Ｎグラム学習部と、
分割された単語のデータに基づいて単語境界の認識を行う系列ラベリングによる単語分割モデルの学習を行い、学習によって得られた単語分割モデルを単語分割モデル記憶部に記憶する単語境界学習部と、
入力層、中間層及び出力層を有し、中間層からの出力を入力層にも入力する再帰型ニューラルネットワークで表される単語Ｎグラムを、分割された単語のデータを教師データとして用いて学習し、単語Ｎグラム記憶部に記憶する単語Ｎグラム学習部と、
前記単語Ｎグラム記憶部に記憶されている再帰型ニューラルネットワークに単語のデータを入力し、中間層にて求められるデータを概念データとして求める概念データ算出部と、
前記概念データを出力する出力部と、
を備え、
前記単語分割部が、前記文字Ｎグラム学習部にて学習された文字Ｎグラムを用いた単語分割と前記単語境界学習部にて学習された単語分割モデルを用いた単語分割とを交互に行う処理と、前記単語Ｎグラム学習部が前記単語分割部にて分割された単語のデータを用いて単語Ｎグラムを学習する処理とを、所定の収束条件を満たすまで繰り返し行う情報処理装置。
前記再帰型ニューラルネットワークは、文を構成する１番目からＮ番目までの単語のデータを入力とし、Ｎ＋１番目の単語を出力とする請求項１に記載の情報処理装置。
前記概念データに基づいて、単語どうしの類似度が所定の閾値より大きい単語どうしを同じグループにクラスタリングするクラスタリング部を備え、
前記出力部は、クラスタリングの結果を出力する請求項１または２に記載の情報処理装置。
前記クラスタリング部は、階層的にクラスタリングを行う請求項３に記載の情報処理装置。
前記単語分割部は、前記学習データが与えられたときに、文字コードに基づいて前記学習データの初期分割を行う請求項１〜４のいずれかに記載の情報処理装置。
情報処理装置によって、入力された学習データを単語分割し、分割された単語の概念を求める方法であって、
前記情報処理装置が、学習データとして文のデータを入力するステップと、
前記情報処理装置が、前記学習データに対して、文字Ｎグラムを用いた単語分割と単語分割モデルを用いた単語分割とを交互に行い、分割された単語のデータを教師データとして用いて、入力層、中間層及び出力層を有し、中間層からの出力を入力層にも入力する再帰型ニューラルネットワークで表される単語Ｎグラムを学習する処理を、所定の収束条件を満たすまで繰り返し行うステップと、
前記情報処理装置が、前記再帰型ニューラルネットワークに単語のデータを入力し、中間層にて求められるデータを概念データとして求めるステップと、
前記情報処理装置が、前記概念データを出力するステップと、
を備え、
前記単語Ｎグラムを学習するステップは、
前記情報処理装置が、文字Ｎグラムを用いて前記学習データの単語分割を行うステップと、
前記情報処理装置が、分割された単語のデータを教師データとして用いて、前記再帰型ニューラルネットワークで表される単語Ｎグラムの学習を行い、単語Ｎグラム記憶部に記憶するステップと、
前記情報処理装置が、分割された単語のデータに基づいて単語境界の認識を行う系列ラベリングによる単語分割モデルの学習を行い、学習によって得られた単語分割モデルを単語分割モデル記憶部に記憶するステップと、
前記情報処理装置が、前記単語分割モデルを用いて前記学習データの単語分割を行うステップと、
前記情報処理装置が、分割された単語のデータを教師データとして用いて、前記再帰型ニューラルネットワークで表される単語Ｎグラムの学習を行い、単語Ｎグラム記憶部に記憶するステップと、
前記情報処理装置が、分割された単語のデータに基づいて文字Ｎグラムの学習を行い、学習した文字Ｎグラムを文字Ｎグラム記憶部に記憶するステップと、
を有する情報処理方法。
入力された学習データを単語分割し、分割された単語の概念を求めるためのプログラムであって、コンピュータに、
学習データとして文のデータを入力するステップと、
前記学習データに対して、文字Ｎグラムを用いた単語分割と単語分割モデルを用いた単語分割とを交互に行い、分割された単語のデータを教師データとして用いて、入力層、中間層及び出力層を有し、中間層からの出力を入力層にも入力する再帰型ニューラルネットワークで表される単語Ｎグラムを学習する処理を、所定の収束条件を満たすまで繰り返し行うステップと、
前記再帰型ニューラルネットワークに単語のデータを入力し、中間層にて求められるデータを概念データとして求めるステップと、
前記概念データを出力するステップと、
を実行させ、
前記単語Ｎグラムを学習するステップにおいて、コンピュータに、
文字Ｎグラムを用いて前記学習データの単語分割を行うステップと、
分割された単語のデータを教師データとして用いて、前記再帰型ニューラルネットワークで表される単語Ｎグラムの学習を行い、単語Ｎグラム記憶部に記憶するステップと、
分割された単語のデータに基づいて単語境界の認識を行う系列ラベリングによる単語分割モデルの学習を行い、学習によって得られた単語分割モデルを単語分割モデル記憶部に記憶するステップと、
前記単語分割モデルを用いて前記学習データの単語分割を行うステップと、
分割された単語のデータを教師データとして用いて、前記再帰型ニューラルネットワークで表される単語Ｎグラムの学習を行い、単語Ｎグラム記憶部に記憶するステップと、
分割された単語のデータに基づいて文字Ｎグラムの学習を行い、学習した文字Ｎグラムを文字Ｎグラム記憶部に記憶するステップと、
を繰り返し実行させるプログラム。