JP2015169951A - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP2015169951A
JP2015169951A JP2014041983A JP2014041983A JP2015169951A JP 2015169951 A JP2015169951 A JP 2015169951A JP 2014041983 A JP2014041983 A JP 2014041983A JP 2014041983 A JP2014041983 A JP 2014041983A JP 2015169951 A JP2015169951 A JP 2015169951A
Authority
JP
Japan
Prior art keywords
word
data
gram
learning
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014041983A
Other languages
English (en)
Other versions
JP6312467B2 (ja
Inventor
塚原 裕史
Yasushi Tsukahara
裕史 塚原
慶 内海
Kei Uchiumi
慶 内海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso IT Laboratory Inc
Original Assignee
Denso IT Laboratory Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso IT Laboratory Inc filed Critical Denso IT Laboratory Inc
Priority to JP2014041983A priority Critical patent/JP6312467B2/ja
Publication of JP2015169951A publication Critical patent/JP2015169951A/ja
Application granted granted Critical
Publication of JP6312467B2 publication Critical patent/JP6312467B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】学習データを単語分割し、分割された単語の意味的な類似度を自動的に獲得する情報処理装置を提供する。【解決手段】文字Nグラムまたは単語分割モデルを用いて学習データを単語分割する単語分割部11と、分割された単語のデータに基づいて文字Nグラムの学習を行う文字Nグラム学習部12と、分割された単語のデータに基づいて単語分割モデルの学習を行う単語境界学習部16と、再帰型ニューラルネットワークで表される単語Nグラムの学習を行う単語Nグラム学習部14とを備える。文字Nグラムを用いた単語分割と単語分割モデルを用いた単語分割とを交互に行う処理と、単語Nグラムを学習する処理とを所定の収束条件を満たすまで繰り返し行う。そして、学習が行われた単語Nグラムの再帰型ニューラルネットワークに単語のデータを入力し、中間層にて求められるベクトルを概念ベクトルとして求める。【選択図】図1

Description

本発明は、自然言語処理を行う情報処理装置に関し、特に、与えられた文字列を単語分割し、分割された単語の意味的な類似度を求める情報処理装置に関する。
従来、与えられた文字列を単語分割する方法として、あらかじめ単語辞書を用意しておき、その辞書に基づいて、与えられた文字列を単語へ分割する方法が知られている(非特許文献1)。また、単語辞書を用意することなく、教師なし学習によって文字列を単語へ分割する手法も知られている。この方法では、文字Nグラム、単語Nグラムをノンパラメトリックベイズ法によって確率モデル化し、単語を推定する(非特許文献2)。
単語間の意味的な類似度を推定する方法として、あらかじめ概念ベースを用意し、その概念ベースへの照合により、単語間の類似度を推定する方法が知られている。この方法では、概念ベースに登録されていない単語に対しては、その単語を含む文において、それらの文中にあり概念ベースに登録されている単語との関係によって、類似度を推定する(特許文献1)。また、概念ベースを用いることなく、多層のニューラルネットワークを利用し、ニューラルネットワークの中間層に、自発的に単語間の類似度を構成する方法が知られている(非特許文献3)。
特開2010−224887号公報
「言語処理のための機械学習入門」奥村学監修、高村大也著(コロナ社) 「ベイズ階層言語モデルによる教師なし形態素解析」、持橋大地 山田武士 上田修功、自然言語処理学会(NL190) "Linguistic Regularities in Continuous Space Word Representations", T. Mikolov, W-T Yih, G. Zweig, (INTERSPEECH 2013)
しかし、単語辞書に基づき、単語分割を行う方法は、辞書に登録されていない未知語が含まれた文字列に対しては、正しく単語分割ができないという課題がある。未知語を少なくするためには、大規模な単語辞書を作成しなければならない。教師なし学習による単語分割では、上記のような課題はクリアーされているが、分割された単語の意味的な類似度を推定することができない。
意味的な類似度を推定するために、従来技術では、特許文献1に記載されているようにあらかじめ概念ベースを用意しておく必要があるが、概念ベースの構築には、非常に多くの人手を要する。また、概念ベースに登録されていない単語については、その単語の周辺に出現する他の概念ベースに登録がある単語を利用しているが、それらの単語が対象となる単語と無関係のものが含まれていることにより、正しく意味を推定することができないという課題がある。また、特許文献1の方法では、単語はあらかじめ正しく分割されることが仮定されており、単語分割に関する上記の課題が同様に当てはまる。
非特許文献3にある方法によれば、概念ベースを用意することなく、単語を意味的な関係を表す連続空間へ埋め込み、その空間における距離によって、単語間の意味的な類似度を獲得することができる。但し、非特許文献3の方法でも、単語はあらかじめ正しく分割されることが仮定されており、単語分割に関する上記の課題が同様に当てはまる。
以上のように、従来技術においては、単語分割と分割された単語の意味的な類似度とを教師データをあらかじめ用意することなく、同時に推定することができなかった。
単語分割と単語の意味的な類似度とを教師なしで自動獲得するには、以上のような課題があるが、これらの課題を解決するような枠組みは、現在まで存在していなかった。
そこで、本発明は、与えられた学習データの単語分割を行い、分割された単語の意味的な類似度を自動的に獲得する情報処理装置を提供することを目的とする。
本発明の情報処理装置は、学習データとして文のデータを入力する入力部と、文字Nグラムまたは単語分割モデルを用いて前記学習データを単語分割する単語分割部と、分割された単語のデータに基づいて文字Nグラムの学習を行い、学習した文字Nグラムを文字Nグラム記憶部に記憶する文字Nグラム学習部と、分割された単語のデータに基づいて単語境界の認識を行う系列ラベリングによる単語分割モデルの学習を行い、学習によって得られた単語分割モデルを単語分割モデル記憶部に記憶する単語境界学習部と、入力層、中間層及び出力層を有し、中間層からの出力を入力層にも入力する再帰型ニューラルネットワークで表される単語Nグラムを、分割された単語のデータを教師データとして用いて学習し、単語Nグラム記憶部に記憶する単語Nグラム学習部と、前記単語Nグラム記憶部に記憶されている再帰型ニューラルネットワークに単語のデータを入力し、中間層にて求められるデータを概念データとして求める概念データ算出部と、前記概念データを出力する出力部とを備え、前記単語分割部が、前記文字Nグラム学習部にて学習された文字Nグラムを用いた単語分割と前記単語境界学習部にて学習された単語分割モデルを用いた単語分割とを交互に行う処理と、前記単語Nグラム学習部が前記単語分割部にて分割された単語のデータを用いて単語Nグラムを学習する処理とを、所定の収束条件を満たすまで繰り返し行う。
このように単語分割部にて分割された単語のデータを教師データとして用いて、再帰型ニューラルネットワークで表された単語Nグラムを繰り返し学習することにより、中間層において、単語の概念を表す概念データを求めることができる。したがって、本発明によれば、単語辞書や概念辞書を用意しなくても、与えられた学習データから自動的に単語の概念を表すデータを獲得することができる。従来、適用が困難であったブログや話し言葉などの自然言語処理による活用を促進できる。
また、前記再帰型ニューラルネットワークは、文を構成する1番目からN番目までの単語のデータを入力とし、N+1番目の単語を出力とするものであってもよい。これにより、中間層には、文脈のファクターを反映した概念データが現れる。
本発明の情報処理装置は、前記概念データに基づいて、単語どうしの類似度が所定の閾値より大きい単語どうしを同じグループにクラスタリングするクラスタリング部を備え、前記出力部は、クラスタリングの結果を出力してもよい。この際、クラスタを代表する単語として、当該クラスタ内に存在する単語のうち最も頻度の高い単語を出力してもよい。また、前記クラスタリング部は、階層的にクラスタリングを行ってもよい。
本発明の情報処理装置において、前記単語分割部は、前記学習データが与えられたときに、文字コードに基づいて前記学習データの初期分割を行ってもよい。これにより、文字Nグラムや単語分割モデルがない場合でも、学習データから単語への初期分割を適切に行うことができる。
本発明の情報処理方法は、情報処理装置によって、入力された学習データを単語分割し、分割された単語の概念を求める方法であって、前記情報処理装置が、学習データとして文のデータを入力するステップと、前記情報処理装置が、前記学習データに対して、文字Nグラムを用いた単語分割と単語分割モデルを用いた単語分割とを交互に行い、分割された単語のデータを教師データとして用いて、入力層、中間層及び出力層を有し、中間層からの出力を入力層にも入力する再帰型ニューラルネットワークで表される単語Nグラムを学習する処理を、所定の収束条件を満たすまで繰り返し行うステップと、前記情報処理装置が、前記単語Nグラム記憶部に記憶されている再帰型ニューラルネットワークに単語のデータを入力し、中間層にて求められるデータを概念データとして求めるステップと、前記情報処理装置が、前記概念データを出力するステップとを備え、前記単語Nグラムを学習するステップは、前記情報処理装置が、文字Nグラムを用いて前記学習データの単語分割を行うステップと、前記情報処理装置が、分割された単語のデータを教師データとして用いて、前記再帰型ニューラルネットワークで表される単語Nグラムの学習を行い、単語Nグラム記憶部に記憶するステップと、前記情報処理装置が、分割された単語のデータに基づいて単語境界の認識を行う系列ラベリングによる単語分割モデルの学習を行い、学習によって得られた単語分割モデルを単語分割モデル記憶部に記憶するステップと、前記情報処理装置が、前記単語分割モデルを用いて前記学習データの単語分割を行うステップと、前記情報処理装置が、分割された単語のデータを教師データとして用いて、前記再帰型ニューラルネットワークで表される単語Nグラムの学習を行い、単語Nグラム記憶部に記憶するステップと、前記情報処理装置が、分割された単語のデータに基づいて文字Nグラムの学習を行い、学習した文字Nグラムを文字Nグラム記憶部に記憶するステップとを有する。
本発明のプログラムは、上記した情報処理方法をコンピュータに実行させるプログラムである。
本発明によれば、単語辞書、および概念辞書を用意することなく、与えられたテキストデータから、単語の意味的な類似度を自動で獲得することができる。従来適用が難しかったブログや話し言葉などに対して自然言語処理を行うことを促進することができる。
実施の形態の情報処理装置の機能ブロックを示す図である。 再帰型ニューラルネットワークの例を示す図である。 実施の形態の情報処理装置のハードウェア構成を示す図である。 実施の形態の情報処理装置の動作の概要を示す図である。 単語分割と単語Nグラムの学習の処理の一例を示す図である。 単語分割と単語Nグラムの学習の処理の一例を示す図である。
以下、本発明の実施の形態の情報処理装置について、図面を参照しながら説明する。
図1は、実施の形態の情報処理装置の機能ブロックを示す図である。情報処理装置は、学習データ21を入力する入力部10と、学習データ21の単語分割を行う単語分割部11と、分割された単語のデータに基づいて学習を行う文字Nグラム学習部12と、単語Nグラム学習部14と、単語境界学習部16とを有している。単語Nグラム学習部14は、図2に示す再帰型ニューラルネットワークを用いて、単語Nグラムの学習を行う。また、情報処理装置は、学習された再帰型ニューラルネットワークを用いて単語の概念ベクトル22を算出する概念ベクトル算出部18と、概念ベクトル22に基づいて単語のクラスタリングを行うクラスタリング部19と、概念ベクトル22を出力する出力部20とを有している。
情報処理装置は、単語のデータをベクトルとして扱う。具体的には、1単語の最大長をK、文字種別をLとしてLK個の可能な単語を定義し、定義された単語を一意に識別する単語ベクトルを与える。なお、単語を定義する際に、文字種別の切り替え最大数をMに制限してもよい。単語ベクトルは、具体的には、LK個の成分のうち、当該単語を表す成分のみを「1」とし、残りを「0」とするベクトルである。このような単語ベクトルの表現を1ofNコーディングという。
情報処理装置の入力部10は、学習データ21として文のテキストデータの入力を受け付ける。学習データ21は、例えば、ウェブ上にあるブログ等から取得することとしてもよい。
単語分割部11は、学習データ21の単語分割を行う機能を有する。単語分割部11は、次の3つの方法で単語分割を行うことができる。すなわち、(1)文字コードが切り替わる点で単語分割を行う。(2)文字Nグラムを用いて単語分割を行う。(3)単語分割モデルを用いて単語分割を行う。
(1)のように、文字コードが切り替わる点で単語分割を行うのは、学習データ21が与えられた最初の単語分割時である。学習データ21が最初に与えられたときには、その学習データ21に対する文字Nグラム、単語分割モデルが求められていないので、文字コードの切り替わりによって初期分割を行う。なお、本実施の形態では、初期分割に、文字コードの切り替わりを利用する方法を用いているが、既存の形態素分析器(弱識別器として)によって、分割することも可能である。
(2)の文字Nグラムを用いた単語分割は、次のように行う。
文xの分割候補wを次のように書く。
単語分割は、次の式を最大化するように求められる。
(3)の単語分割モデルを用いた単語分割は、公知の技術を用いることができる。
文字Nグラム学習部12は、分割された単語の前後に単語開始、単語終了を示す仮想的な文字を挿入した上で、文字Nグラムの学習を行う。文字Nグラムの学習には、統計的なNグラムモデルを用いることができ、例えば、Kneser-Neyスムージングと呼ばれる方法を用いてもよい。文字Nグラム学習部12は、学習により得られた文字Nグラムのデータを、文字Nグラム記憶部13に記憶する。
単語Nグラム学習部14は、上述したとおり、図2に示す再帰型ニューラルネットワークを利用して、単語Nグラムの学習を行う。再帰型ニューラルネットワークは、分割された単語の単語ベクトルw(t)が入力される入力層30と、中間層32と、中間層32の出力を受けて再度中間層32への出力を行う入力層31と、出力層33とを有している。中間層32は、ネットワークの中で、再帰的に入力データと共に更新を受ける。出力層33には、入力された(N−1)個の単語ベクトルに後続するN番目の単語ベクトルが、確率分布の形で出力される。図2において、矢印の近傍に記載したアルファベットは、各層の結合荷重ベクトルである。また、各層に現れるベクトルを各層の上に記載している。
ここで、単語ベクトルw(t)を入力したときに、中間層32に現れるベクトルs(t)が、その単語の概念ベクトルに相当する。再帰型ニューラルネットワークにおいては、中間層32の出力が入力層31に入力され、再度中間層32に入力される。つまり、一つ前の単語ベクトルw(t−1)が、単語ベクトルw(t)の概念ベクトルs(t)に影響を与え、文脈を考慮して単語ベクトルw(t)が求められることになる。
再帰型ニューラルネットワークは、分割された単語のデータを教師データとし、(N−1)個の単語ベクトルが入力されたときのN番目の単語ベクトルに基づいて逆伝搬法によって、学習が行われる。単語Nグラム学習部14は、学習によって更新された再帰型ニューラルネットワークのデータを単語Nグラム記憶部15に記憶する。
単語境界学習部16は、単語境界の認識を行う系列ラベリングによって単語分割モデルを学習する。単語モデルには、CRF(Conditional Random Field)のような統計モデルを利用してもよいし、structured perceptronなどのニューラルネットワークを用いることとしてもよい。単語境界学習部16は、学習された単語分割モデルを単語分割モデル記憶部17に記憶する。
情報処理装置は、上述した単語分割部11にて分割された単語のデータを教師データとして、単語Nグラムを示す再帰型ニューラルネットワークを更新すると共に、分割された単語のデータに基づいた単語Nグラムや単語境界の学習を行い、学習された単語Nグラムや単語分割モデルを使って単語分割を行う処理を繰り返す。繰り返し処理を完了する収束判定としては、例えば、所定の回数Iだけ単語分割を行った時点、あるいは、パープレキシティを計算し、その値が所定の値以上変化しなくなった時点で、繰り返し処理を完了するなどの方法が考えらえる。
概念ベクトル算出部18は、単語Nグラム学習部14にて学習された再帰型ニューラルネットワークに対して単語ベクトルを入力し、その入力に対する中間層のベクトルを概念ベクトル22として求める。概念ベクトル22は、その単語の概念空間における位置を与え、概念ベクトル22の距離や方向が意味的な類似度を表す。
クラスタリング部19は、概念ベクトル算出部18にて算出された概念ベクトル22に基づいて、類似の単語をクラスタリングする機能を有する。クラスタリング部19は、階層的にクラスタリングを行ってもよい。
出力部20は、概念ベクトル算出部18にて算出された概念ベクトル22のデータとクラスタリングの結果を出力する。出力部20は、クラスタを代表する単語として、当該クラスタ内に存在する単語のうち最も頻度の高い単語を出力してもよい。なお、出力部20は、これらに加えて、単語Nグラムのデータを出力してもよい。
図3は、上に説明した情報処理装置の機能を実現するハードウェア構成を示す図である。情報処理装置のハードウェアは、CPU40、RAM41、ROM42、通信インターフェース44、ハードディスク45、キーボード46、モニタ47を備えた通常のコンピュータである。ROM42に記憶されたプログラム43を読み出して実行することにより、上に説明した情報処理装置が実現される。このようなプログラム43も本発明の範囲に含まれる。
続いて、実施の形態の情報処理装置の動作について説明する。図4は、情報処理装置の動作の概要を示す図であり、図5および図6は、単語分割と単語Nグラムの学習の動作を示す図である。まず、図4を参照して、情報処理装置の動作の概要について説明する。
まず、情報処理装置は、1単語の最大長をK、文字種別をLとしてLK個の可能な単語を定義し、定義された単語を一意に識別する単語ベクトルを与える(S10)。続いて、情報処理装置は、学習データ21を入力する(S11)。
情報処理装置は、入力された学習データ21の単語分割と分割された単語のデータに基づく単語Nグラムの学習を行う(S12)。ここでの処理については、図5および図6を参照して、後述する。情報処理装置は、単語分割と単語Nグラムの学習が収束すると、単語Nグラムの再帰型ニューラルネットワークを用いて、各単語の概念ベクトル22を求め(S13)、概念ベクトル22に基づいて単語のクラスタリングを行う(S14)。そして、情報処理装置は、単語の概念ベクトル22と単語のクラスタリング結果を出力する(S15)。
図5を参照して、単語分割と単語Nグラムの処理について説明する。情報処理装置は、まず、初期単語分割を行う(S20)。本実施の形態では、情報処理装置は、文字コードの切り替わりで単語を分割する。次に、情報処理装置は、分割された単語のデータを用いて、単語Nグラムの学習を行う(S21)。具体的には、文に含まれる1〜N個の単語に続いて、N+1番目にどの単語が現れるかを、再帰型ニューラルネットワークにて学習する。
情報処理装置は、分割された単語のデータに基づいて文字Nグラムの学習を行い(S22)、学習した文字Nグラムを用いて、学習データ21の単語分割を行う(S23)。
次に、情報処理装置は、分割された単語のデータを用いて、単語Nグラムの学習を行い(S24)、系列ラベリングにより単語分割モデルの学習を行う(S25)。そして、学習した単語分割モデルを用いて、学習データ21を単語分割する(S26)。
情報処理装置は、単語分割および単語Nグラムの学習の繰り返し処理の収束条件を満たすか否かを判定する(S27)。収束条件を満たす場合には(S27でYES)、情報処理装置は、単語分割および単語Nグラムの学習を終了する。収束条件を満たさない場合には(S27でNO)、情報処理装置は、再度、単語Nグラムを学習する処理を開始する(S21)。
このように、本実施の形態の情報処理装置は、文字Nグラムによる単語分割と単語分割モデルによる単語分割を交互に行うと共に、各単語分割の処理の後に単語Nグラムの学習を行う。これにより、単語Nグラムを構成する再帰型ニューラルネットワークの学習が行われ、この再帰型ニューラルネットワークの中間層32によって、単語の概念ベクトル22を求めることができるようになる。
図6は、情報処理装置による単語分割と単語Nグラムの学習の別の例を示す図である。図6に示す処理は、図5に示す処理と基本的に同じであるが、図5に示した例では、初期分割(S20)の後に、文字Nグラムの学習(S22)、文字Nグラムによる単語分割(S23)を行っているのに対し、図6に示す例では、初期分割(S30)の後に、単語分割モデルの学習(S32)、単語分割モデルを用いた単語分割(S33)を行っている点が異なる。図6に示す例も、文字Nグラムによる単語分割と単語分割モデルによる単語分割を交互に行い、各単語分割の処理の後に単語Nグラムの学習を行う点では、図5に示した例と同じである。このように単語分割後の学習を文字Nグラムと単語分割モデルのいずれを先に行うかは任意である。
以上、本発明の実施の形態の情報処理装置について、実施の形態を挙げて説明したが、本発明は上記した実施の形態に限定されるものではない。例えば、単語分割を行った後に行う単語Nグラムの学習は、単語分割を行った毎に必ず行わなくてはならないというものではなく、例えば、文字Nグラムに基づく単語分割と、単語分割モデルに基づく単語分割が行われたときに、単語Nグラムの学習を行うこととしてもよい。
本発明の情報処理装置は、単語辞書、および概念辞書を用意することなく、与えられたテキストデータから、単語の意味的な類似度を自動で獲得することができるという効果を有し、自然言語処理を行う装置として有用である。
10 入力部
11 単語分割部
12 文字Nグラム学習部
13 文字Nグラム記憶部
14 単語Nグラム学習部
15 単語Nグラム記憶部
16 単語境界学習部
17 単語分割モデル記憶部
18 概念ベクトル算出部
19 出力部
20 学習データ
21 概念ベクトル
30 入力層
31 入力層
32 中間層
33 出力層
40 CPU
41 RAM
42 ROM
43 プログラム
44 通信インターフェース
45 ハードディスク
46 キーボード
47 モニタ

Claims (7)

  1. 学習データとして文のデータを入力する入力部と、
    文字Nグラムまたは単語分割モデルを用いて前記学習データを単語分割する単語分割部と、
    分割された単語のデータに基づいて文字Nグラムの学習を行い、学習した文字Nグラムを文字Nグラム記憶部に記憶する文字Nグラム学習部と、
    分割された単語のデータに基づいて単語境界の認識を行う系列ラベリングによる単語分割モデルの学習を行い、学習によって得られた単語分割モデルを単語分割モデル記憶部に記憶する単語境界学習部と、
    入力層、中間層及び出力層を有し、中間層からの出力を入力層にも入力する再帰型ニューラルネットワークで表される単語Nグラムを、分割された単語のデータを教師データとして用いて学習し、単語Nグラム記憶部に記憶する単語Nグラム学習部と、
    前記単語Nグラム記憶部に記憶されている再帰型ニューラルネットワークに単語のデータを入力し、中間層にて求められるデータを概念データとして求める概念データ算出部と、
    前記概念データを出力する出力部と、
    を備え、
    前記単語分割部が、前記文字Nグラム学習部にて学習された文字Nグラムを用いた単語分割と前記単語境界学習部にて学習された単語分割モデルを用いた単語分割とを交互に行う処理と、前記単語Nグラム学習部が前記単語分割部にて分割された単語のデータを用いて単語Nグラムを学習する処理とを、所定の収束条件を満たすまで繰り返し行う情報処理装置。
  2. 前記再帰型ニューラルネットワークは、文を構成する1番目からN番目までの単語のデータを入力とし、N+1番目の単語を出力とする請求項1に記載の情報処理装置。
  3. 前記概念データに基づいて、単語どうしの類似度が所定の閾値より大きい単語どうしを同じグループにクラスタリングするクラスタリング部を備え、
    前記出力部は、クラスタリングの結果を出力する請求項1または2に記載の情報処理装置。
  4. 前記クラスタリング部は、階層的にクラスタリングを行う請求項3に記載の情報処理装置。
  5. 前記単語分割部は、前記学習データが与えられたときに、文字コードに基づいて前記学習データの初期分割を行う請求項1〜4のいずれかに記載の情報処理装置。
  6. 情報処理装置によって、入力された学習データを単語分割し、分割された単語の概念を求める方法であって、
    前記情報処理装置が、学習データとして文のデータを入力するステップと、
    前記情報処理装置が、前記学習データに対して、文字Nグラムを用いた単語分割と単語分割モデルを用いた単語分割とを交互に行い、分割された単語のデータを教師データとして用いて、入力層、中間層及び出力層を有し、中間層からの出力を入力層にも入力する再帰型ニューラルネットワークで表される単語Nグラムを学習する処理を、所定の収束条件を満たすまで繰り返し行うステップと、
    前記情報処理装置が、前記再帰型ニューラルネットワークに単語のデータを入力し、中間層にて求められるデータを概念データとして求めるステップと、
    前記情報処理装置が、前記概念データを出力するステップと、
    を備え、
    前記単語Nグラムを学習するステップは、
    前記情報処理装置が、文字Nグラムを用いて前記学習データの単語分割を行うステップと、
    前記情報処理装置が、分割された単語のデータを教師データとして用いて、前記再帰型ニューラルネットワークで表される単語Nグラムの学習を行い、単語Nグラム記憶部に記憶するステップと、
    前記情報処理装置が、分割された単語のデータに基づいて単語境界の認識を行う系列ラベリングによる単語分割モデルの学習を行い、学習によって得られた単語分割モデルを単語分割モデル記憶部に記憶するステップと、
    前記情報処理装置が、前記単語分割モデルを用いて前記学習データの単語分割を行うステップと、
    前記情報処理装置が、分割された単語のデータを教師データとして用いて、前記再帰型ニューラルネットワークで表される単語Nグラムの学習を行い、単語Nグラム記憶部に記憶するステップと、
    前記情報処理装置が、分割された単語のデータに基づいて文字Nグラムの学習を行い、学習した文字Nグラムを文字Nグラム記憶部に記憶するステップと、
    を有する情報処理方法。
  7. 入力された学習データを単語分割し、分割された単語の概念を求めるためのプログラムであって、コンピュータに、
    学習データとして文のデータを入力するステップと、
    前記学習データに対して、文字Nグラムを用いた単語分割と単語分割モデルを用いた単語分割とを交互に行い、分割された単語のデータを教師データとして用いて、入力層、中間層及び出力層を有し、中間層からの出力を入力層にも入力する再帰型ニューラルネットワークで表される単語Nグラムを学習する処理を、所定の収束条件を満たすまで繰り返し行うステップと、
    前記再帰型ニューラルネットワークに単語のデータを入力し、中間層にて求められるデータを概念データとして求めるステップと、
    前記概念データを出力するステップと、
    を実行させ、
    前記単語Nグラムを学習するステップにおいて、コンピュータに、
    文字Nグラムを用いて前記学習データの単語分割を行うステップと、
    分割された単語のデータを教師データとして用いて、前記再帰型ニューラルネットワークで表される単語Nグラムの学習を行い、単語Nグラム記憶部に記憶するステップと、
    分割された単語のデータに基づいて単語境界の認識を行う系列ラベリングによる単語分割モデルの学習を行い、学習によって得られた単語分割モデルを単語分割モデル記憶部に記憶するステップと、
    前記単語分割モデルを用いて前記学習データの単語分割を行うステップと、
    分割された単語のデータを教師データとして用いて、前記再帰型ニューラルネットワークで表される単語Nグラムの学習を行い、単語Nグラム記憶部に記憶するステップと、
    分割された単語のデータに基づいて文字Nグラムの学習を行い、学習した文字Nグラムを文字Nグラム記憶部に記憶するステップと、
    を繰り返し実行させるプログラム。
JP2014041983A 2014-03-04 2014-03-04 情報処理装置、情報処理方法、およびプログラム Active JP6312467B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014041983A JP6312467B2 (ja) 2014-03-04 2014-03-04 情報処理装置、情報処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014041983A JP6312467B2 (ja) 2014-03-04 2014-03-04 情報処理装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2015169951A true JP2015169951A (ja) 2015-09-28
JP6312467B2 JP6312467B2 (ja) 2018-04-18

Family

ID=54202683

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014041983A Active JP6312467B2 (ja) 2014-03-04 2014-03-04 情報処理装置、情報処理方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6312467B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107730002A (zh) * 2017-10-13 2018-02-23 国网湖南省电力公司 一种通信网关机遥控参数智能模糊比对方法
JP2018533148A (ja) * 2015-10-02 2018-11-08 ネイバー コーポレーションNAVER Corporation データのカテゴリ分類のための方法およびシステム
JP2018195012A (ja) * 2017-05-16 2018-12-06 富士通株式会社 学習プログラム、学習方法、学習装置、及び変換パラメータ製造方法
WO2018230551A1 (ja) * 2017-06-16 2018-12-20 新日鉄住金ソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム
JP2019204362A (ja) * 2018-05-24 2019-11-28 Zホールディングス株式会社 判定装置、判定方法、判定プログラムおよびプログラムパラメータ
JP2020113041A (ja) * 2019-01-11 2020-07-27 株式会社東芝 学習装置、学習方法、プログラムおよび情報処理システム
CN111639661A (zh) * 2019-08-29 2020-09-08 上海卓繁信息技术股份有限公司 文本相似度判别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004272243A (ja) * 2003-02-20 2004-09-30 Sony Internatl Europ Gmbh 音声認識方法
JP2010108239A (ja) * 2008-10-30 2010-05-13 Nippon Telegr & Teleph Corp <Ntt> 顔文字検出装置、その方法、プログラム及び記録媒体
JP2010170252A (ja) * 2009-01-21 2010-08-05 Nippon Telegr & Teleph Corp <Ntt> 言語モデル作成方法、言語モデル作成装置および言語モデル作成プログラム
JP2012146263A (ja) * 2011-01-14 2012-08-02 Nippon Telegr & Teleph Corp <Ntt> 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004272243A (ja) * 2003-02-20 2004-09-30 Sony Internatl Europ Gmbh 音声認識方法
JP2010108239A (ja) * 2008-10-30 2010-05-13 Nippon Telegr & Teleph Corp <Ntt> 顔文字検出装置、その方法、プログラム及び記録媒体
JP2010170252A (ja) * 2009-01-21 2010-08-05 Nippon Telegr & Teleph Corp <Ntt> 言語モデル作成方法、言語モデル作成装置および言語モデル作成プログラム
JP2012146263A (ja) * 2011-01-14 2012-08-02 Nippon Telegr & Teleph Corp <Ntt> 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ボッレーガラ ダヌシカ: "自然言語処理のための深層学習", 人工知能, vol. 第29巻第2号, JPN6018007741, 1 March 2014 (2014-03-01), JP, pages 195 - 201, ISSN: 0003751925 *
久保 陽太郎: "音声認識のための深層学習", 人工知能, vol. 第29巻第1号, JPN6017024816, 1 January 2014 (2014-01-01), JP, pages 62 - 71, ISSN: 0003591791 *
篠沢 佳久 外1名: "単語の連接情報を利用した語系列予測モデル", 電子情報通信学会技術研究報告, vol. 第106巻第79号, JPN6017024817, 19 May 2006 (2006-05-19), JP, pages 41 - 46, ISSN: 0003591792 *
鶴見 美智子 外4名: "ニューラルネットワークの恒等写像学習を用いた完成空間の構築", 第57回(平成10年後期)全国大会講演論文集(2), JPN6017024818, 7 October 1998 (1998-10-07), JP, pages 2 - 120, ISSN: 0003591793 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018533148A (ja) * 2015-10-02 2018-11-08 ネイバー コーポレーションNAVER Corporation データのカテゴリ分類のための方法およびシステム
JP2018195012A (ja) * 2017-05-16 2018-12-06 富士通株式会社 学習プログラム、学習方法、学習装置、及び変換パラメータ製造方法
CN110612524A (zh) * 2017-06-16 2019-12-24 日铁系统集成株式会社 信息处理装置、信息处理方法以及程序
WO2018230551A1 (ja) * 2017-06-16 2018-12-20 新日鉄住金ソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム
JPWO2018230551A1 (ja) * 2017-06-16 2019-06-27 日鉄ソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム
US11386354B2 (en) 2017-06-16 2022-07-12 Ns Solutions Corporation Information processing apparatus, information processing method, and program
CN110612524B (zh) * 2017-06-16 2023-11-10 日铁系统集成株式会社 信息处理装置、信息处理方法以及记录介质
CN107730002A (zh) * 2017-10-13 2018-02-23 国网湖南省电力公司 一种通信网关机遥控参数智能模糊比对方法
CN107730002B (zh) * 2017-10-13 2020-06-02 国网湖南省电力公司 一种通信网关机遥控参数智能模糊比对方法
JP2019204362A (ja) * 2018-05-24 2019-11-28 Zホールディングス株式会社 判定装置、判定方法、判定プログラムおよびプログラムパラメータ
JP7058556B2 (ja) 2018-05-24 2022-04-22 ヤフー株式会社 判定装置、判定方法、および判定プログラム
JP2020113041A (ja) * 2019-01-11 2020-07-27 株式会社東芝 学習装置、学習方法、プログラムおよび情報処理システム
CN111639661A (zh) * 2019-08-29 2020-09-08 上海卓繁信息技术股份有限公司 文本相似度判别方法

Also Published As

Publication number Publication date
JP6312467B2 (ja) 2018-04-18

Similar Documents

Publication Publication Date Title
JP6312467B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6972265B2 (ja) ポインタセンチネル混合アーキテクチャ
CN106997370B (zh) 基于作者的文本分类和转换
CN111079442B (zh) 文档的向量化表示方法、装置和计算机设备
KR102195223B1 (ko) 전역적으로 노멀화된 신경 네트워크들
US20190236135A1 (en) Cross-lingual text classification
CN107301170B (zh) 基于人工智能的切分语句的方法和装置
US9633002B1 (en) Systems and methods for coreference resolution using selective feature activation
JP7108675B2 (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
BR112019004524B1 (pt) Sistema de redes neurais, um ou mais meios de armazenamento legíveis por computador não transitório e método para gerar autorregressivamente uma sequência de saída de dados de áudio
US9613185B2 (en) Influence filtering in graphical models
US11636341B2 (en) Processing sequential interaction data
KR102573637B1 (ko) 엔티티 링킹 방법, 장치, 전자 기기 및 기록 매체
US20210035556A1 (en) Fine-tuning language models for supervised learning tasks via dataset preprocessing
CN112906392B (zh) 一种文本增强方法、文本分类方法及相关装置
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
CN110023930B (zh) 利用神经网络和在线学习的语言数据预测
CN108304376B (zh) 文本向量的确定方法、装置、存储介质及电子装置
CN111046659B (zh) 上下文信息生成方法、上下文信息生成装置及计算机可读记录介质
US20180246856A1 (en) Analysis method and analysis device
US20200279079A1 (en) Predicting probability of occurrence of a string using sequence of vectors
WO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
CN113505583A (zh) 基于语义决策图神经网络的情感原因子句对提取方法
US20210304056A1 (en) Learning Parameter Sampling Configuration for Automated Machine Learning
CN116821299A (zh) 智能问答方法、智能问答装置、设备及存储介质

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20151113

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160720

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170512

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170704

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180320

R150 Certificate of patent or registration of utility model

Ref document number: 6312467

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150