JP2018087935A

JP2018087935A - 音声言語識別装置、その方法、及びプログラム

Info

Publication number: JP2018087935A
Application number: JP2016231976A
Authority: JP
Inventors: 亮増村; Akira Masumura; 太一浅見; Taichi Asami
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-11-30
Filing date: 2016-11-30
Publication date: 2018-06-07
Anticipated expiration: 2036-11-30
Also published as: JP6615736B2

Abstract

【課題】音声に含まれる音韻情報を頑健に捉え、その情報を利用して音声言語識別を行うことができる音声言語識別装置等を提供することを目的とする。【解決手段】音声言語識別装置は、ニューラルネットワーク音響モデルを用いて、対象となる音声データから得られるフレーム単位の音響特徴量系列Xからボトルネック特徴量系列を計算するボトルネック特徴量計算部と、S個のボトルネック特徴量系列と、音響特徴量系列Xとを含むパラレルボトルネック特徴量系列を構成するパラレルボトルネック特徴量構成部と、パラレルボトルネック特徴量系列を音声言語識別用ニューラルネットワークの入力として、対象となる音声データが何れの言語によるものかを識別する言語識別部とを含み、ボトルネック特徴量は、ニューラルネットワーク音響モデルの中間層または出力層の何れかであるボトルネック層の出力値である。【選択図】図１

Description

本発明は、入力発話がどの言語で話されたものかを識別するための言語識別技術に関する。

音声言語識別技術は、入力された音声がどの言語なのかを識別する技術である。例えば、入力された言語が、英語、日本語、中国語のどれなのかを識別する。音声言語識別技術では、あらかじめ各言語の言語らしさを統計的にモデル化しておくことで、入力された発話がどれに一番近いかを計算して識別を行う枠組みが一般的となっている。具体的には、音声データと言語ラベル(音声データの言語を示すラベルであり、例えば、「この音声は日本語で話されている」という内容を示す情報)の組を大量に準備して、機械学習の枠組みで各言語らしさを捉えることで言語識別装置を構築する。

上述の枠組みとして、非特許文献１で挙げられるニューラルネットワーク音声言語識別に着目する。非特許文献１では、ニューラルネットワーク、特にディープニューラルネットワークと呼ばれる統計モデルを利用して上述の枠組みを実現している。具体的には、数ミリ秒程度のフレーム単位で言語らしさを統計的に捉えておく。そのためにニューラルネットワークという統計モデルを利用している。ニューラルネットワークは、例えば言語ラベルの可能性が3言語（日本語、英語、中国語）とした場合に、ある音声幅(例えば25ミリ秒)のフレーム単位のモデルを学習しておくとすると、任意のフレームが入力された際に上述の3言語のどれに当たるかといった確率値を算出する枠組みを実現できる。また、フレーム単位のニューラルネットワークの入力は、MFCC（メル周波数ケプストラム係数）等の音響特徴量が用いられる。なお、ディープニューラルネットワークの学習方法及びMFCCについては、公知の技術であるためここでは説明を省略する。

次に学習したニューラルネットワークを利用して言語識別を行う際は、どの言語で話されたかが未知である入力音声に対して、ニューラルネットワークが採用した音声幅のフレーム単位に音声を分割し、フレームごとに、前述の音響特徴量をニューラルネットワークに入力して、言語ごとの確率値を得る。この確率値は、入力音響特徴量がどの言語であるかの推定確率値を表す。その後、その確率の対数をとった対数確率を全てのフレームで平均化する。そして、平均対数確率が最も高い言語が入力音声の言語であると識別する。

例えば入力音声が3秒で、1フレームの長さを25ミリ秒と定義すると、入力音声には120フレーム存在することとなる。この時、120フレーム中の最初のフレームを学習済みのディープニューラルネットワークに入力すると、最初のフレームに対する言語ごとの確率値が出力される。例えば、英語である確率が0.5、日本語である確率が0.3、中国語である確率が0.2と出力される。このような処理を残り119フレーム全てに対しても同様に行う。その後、言語ごと(英語ごと、日本語ごと、中国語ごと)に対数確率値の平均値を算出する。例えば英語であれば、1フレーム目から120フレーム目までの全ての英語である対数確率値を加算し120で割ることで算出できる。このような処理を行った場合、英語である平均対数確率が-10、日本語である平均対数確率が-50、中国語である平均対数確率が-100であったとする。この結果として、音声言語識別装置は平均対数確率が最大の言語である英語であったと入力音声を識別する。

Javier Gonzalez-Dominguez, Ignacio Lopez-Moreno, Pedro J. Moreno, Joaquin Gonzalez-Rodriguez, "Frame by Frame Language Identification in Short Utterances using Deep Neural Networks", Neural Networks Special Issue: Neural Network Learning in Big Data, 2014.

しかしながら、従来のニューラルネットワークを利用した音声言語識別では、音声に含まれる音韻情報を精緻に捉えた音声言語識別を行うことができない。従来の音声言語識別では、MFCC等の音響特徴量から直接言語ごとの事後確率をモデル化しているが、この枠組みでは音韻を精緻に捉える構造が含まれていない。言い換えると、MFCC等の音響特徴量には音韻に関わる情報が包含されているものの、上述のニューラルネットワークは、言語識別のためのモデルであり、音韻を精緻に捉える構造とは言えない。しかし、音声言語識別では、音韻の並びが重要とされている。

そこで、本発明では、音声に含まれる音韻情報を頑健に捉え、その情報を利用して音声言語識別を行うことができる音声言語識別装置、その方法、及びプログラムを提供することを目的とする。

上記の課題を解決するために、本発明の一態様によれば、音声言語識別装置は、s=1,2,…,Sとし、Sを1以上の整数の何れかとし、音声データから得られるフレーム単位の音響特徴量を入力とし、その音声データに対する所定の言語sの音韻情報をフレーム単位で出力するニューラルネットワーク音響モデルを用いて、対象となる音声データから得られるフレーム単位の音響特徴量系列Xからボトルネック特徴量系列を計算するボトルネック特徴量計算部と、S個のボトルネック特徴量系列と、音響特徴量系列Xとを含むパラレルボトルネック特徴量系列を構成するパラレルボトルネック特徴量構成部と、パラレルボトルネック特徴量系列を音声言語識別用ニューラルネットワークの入力として、対象となる音声データが何れの言語によるものかを識別する言語識別部とを含み、ボトルネック特徴量は、ニューラルネットワーク音響モデルの中間層または出力層の何れかであるボトルネック層の出力値である。

上記の課題を解決するために、本発明の他の態様によれば、音声言語識別方法は、s=1,2,…,Sとし、Sを1以上の整数の何れかとし、ボトルネック特徴量計算部が、音声データから得られるフレーム単位の音響特徴量を入力とし、その音声データに対する所定の言語sの音韻情報をフレーム単位で出力するニューラルネットワーク音響モデルを用いて、対象となる音声データから得られるフレーム単位の音響特徴量系列Xからボトルネック特徴量系列を計算するボトルネック特徴量計算ステップと、パラレルボトルネック特徴量構成部が、S個のボトルネック特徴量系列と、音響特徴量系列Xとを含むパラレルボトルネック特徴量系列を構成するパラレルボトルネック特徴量構成ステップと、言語識別部が、パラレルボトルネック特徴量系列を音声言語識別用ニューラルネットワークの入力として、対象となる音声データが何れの言語によるものかを識別する言語識別ステップとを含み、ボトルネック特徴量は、ニューラルネットワーク音響モデルの中間層または出力層の何れかであるボトルネック層の出力値である。

本発明によれば、従来よりも頑強に捉えた音韻情報を利用して音声言語識別を行うことができるという効果を奏する。

第一実施形態に係る音声言語識別装置の機能ブロック図。第一実施形態に係る音声言語識別装置の処理フローの例を示す図。ユニット数を絞った音声認識用ニューラルネットワーク音響モデルの例を示す図。ボトルネック層よりも後段の中間層及び出力層を削除した音声認識用ニューラルネットワーク音響モデルの例を示す図。

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態のポイント＞
本実施形態では、音韻情報を捉えるための部位を言語識別部の前段に設置し、捉えた音韻情報も含めたニューラルネットワーク音声言語識別を実施する。

具体的な実現方法としては、音韻情報を頑健に捉えるために、音声認識システムで利用するようなニューラルネットワーク音響モデル（以下、単に「NN音響モデル」ともいう）を複数利用する。なお、複数のNN音響モデルはそれぞれ複数の言語に対応する。例えば、日本語音声認識用NN音響モデル、英語音声認識用NN音響モデル、中国語音声認識用NN音響モデルなどを意味する。各NN音響モデルは、フレーム単位で対象とする言語の音素を識別するためのものである。本実施形態では、NN音響モデルからフレーム単位で抽出することが可能なニューラルネットワークの中間層の情報（ボトルネック特徴量）を、複数のNN音響モデルを使ってそれぞれ抽出し、それらを統合した「パラレルボトルネック特徴量」を通常の音声言語識別用のニューラルネットワークの入力に加えて利用し、それにより音声言語識別を実施する。

＜第一実施形態＞
図１は第一実施形態に係る音声言語識別装置１００の機能ブロック図を、図２はその処理フローを示す。

音声言語識別装置１００は、対象となる入力音声から得られるフレーム単位の音響特徴量系列X={x₁,x₂,…,x_T}と、S個の音声認識用NN音響モデルF^sと、音声言語識別用ニューラルネットワークFとを入力とし、入力音声の言語を識別し、識別結果を言語ラベルLとして出力する。ただし、X={x₁,x₂,…,x_T}であり、Tは時系列の長さ（全フレーム数）であり、t=1,2,…,Tであり、x_tはtフレーム目の音響特徴量のベクトルを表す。Sは各音声認識用NN音響モデルが対象とする言語の種類の総数を示し、sは言語の種類を表すインデックスであり、s=1,2,…,Sである。例えば、フランス語、ドイツ語、ポルトガル語の3つを識別対象の言語とすると、S=3となる。

例えば、この音声言語識別装置１００は、CPUと、RAMと、以下の音声言語識別処理を実行するためのプログラムを記録したROMを備えたコンピュータで構成され、機能的には次に示すように構成されている。音声言語識別装置１００は、音響モデル削除部１１０と、ボトルネック特徴量計算部１２０と、パラレルボトルネック特徴量構成部１３０と、言語識別部１４０とを含む。以下、各部の処理内容を説明する。

＜音響モデル削除部１１０＞
音響モデル削除部１１０は、S個の音声認識用NN音響モデルF^sを入力とし、予め定めたボトルネック層k_sよりも後段の中間層及び出力層を削除し、削除後のS個の音声認識用NN音響モデルF^s,k_sを出力する。なお、上付き添え字k_sは、k_sを意味する。

ここで、音声認識用NN音響モデルF^sの中間層の数をN_sとする。N_sは1以上の整数の何れかである。なお、ボトルネック層k_s(N_s≧k_s≧1)は、人手により決定する。例えば、N_s=5の音声認識用NN音響モデルであれば、k_sを1以上5以下の整数の何れかとする。例えば、k_s=4として決定する。例えば、各音声認識用NN音響モデルF^sのボトルネック層k_sはそれぞれ実験的に決定すればよい。

音声認識用NN音響モデルF^sは、ボトルネック層k_sを設定できるならば任意の構造を利用できる。例えば、予めボトルネック層k_sとして設定したい中間層に対しては、他の中間層よりもユニット数を絞ってもよい(図３参照)。ユニット数をしぼっておくことで、ボトルネック特徴量の次元数を制御できる。例えば、中間層5層の音声認識用NN音響モデルF^sにおいて、4層目をボトルネック層として設定し、4層目のみユニット数64、その他のユニット数は512などとして準備しておく。音声認識用NN音響モデルの学習方法としては、既存の如何なる技術を用いてもよい。例えば、参考文献１の学習方法を用いる。
（参考文献１）Geoffrey Hinton, etc., "Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups", IEEE Signal Processing Magazine, Volume: 29, Issue: 6, Pages: 82 - 97, Nov. 2012.

図３はユニット数を絞った音声認識用NN音響モデルF^sの例を、図４はボトルネック層k_sよりも後段の中間層及び出力層を削除した音声認識用NN音響モデルF^s,k_sの例を示す。
なお、音声認識用NN音響モデルF^sを学習する際には、中間層及び出力層を削除することはできないので、学習が済んでから削除し、音声言語識別時に利用する。

＜ボトルネック特徴量計算部１２０＞
ボトルネック特徴量計算部１２０は、対象となる音声データから得られるフレーム単位の音響特徴量系列X={x₁,x₂,…,x_T}を入力とし、音声認識用NN音響モデルF^s,k_sを用いて、音響特徴量系列X={x₁,x₂,…,x_T}からボトルネック特徴量系列V^s={v₁ ^s,v₂ ^s,…,v_T ^s}を計算し（Ｓ１２０）、出力する。ボトルネック特徴量v_t ^sは、前述のボトルネック層k_sの出力値(音声認識用NN音響モデルF^sのk_s番目の中間層の出力値)であり、音韻情報を陽に表す数値ベクトルである。

なお、ボトルネック特徴量計算部１２０は、音声認識用NN音響モデルF^s,k_sごとに実施される部位である。つまり、S個の音声認識用NN音響モデルF^1,k_1,F^2,k_2,…,F^S,k_Sを用いる場合、ボトルネック特徴量系列V^sは、S個の時系列V¹,V²,…,V^Sを得ることになる。

なお、ボトルネック特徴量系列V^sは、音声認識用NN音響モデルF^s,k_sに音響特徴量系列Xを入力した場合のボトルネック層の出力として表される。
v_t=f(x_t)
ここで、f()は音声認識用NN音響モデルF^s,k_sによるボトルネック層までの計算を表す。同様に、v_tはtフレーム目のボトルネック特徴量のベクトルを表す。つまり、ボトルネック特徴量の計算はフレーム単位で実施され、長さTの音響特徴量系列Xに対して、長さTのボトルネック特徴量系列V^sを得る。

＜パラレルボトルネック特徴量構成部１３０＞
パラレルボトルネック特徴量構成部１３０は、S個のボトルネック特徴量系列V¹,V²,…,V^Sと、音響特徴量系列Xとを入力とし、これらの情報を含むパラレルボトルネック特徴量系列Pを構成し（Ｓ１３０）、出力する。

例えば、パラレルボトルネック特徴量構成部１３０は、S個のボトルネック特徴量系列V¹,V²,…,V^Sと音響特徴量系列Xとをフレームtごとに結合して、新たなベクトル系列を作る。tフレーム目のS個のボトルネック特徴量をv_t ¹,v_t ²,…,v_t ^Sとおく。tフレーム目のパラレルボトルネック特徴量p_tは、
p_t=[{v_t ¹}^T,{v_t ²}^T,…,{v_t ^S}^T,x_t ^T]^T
として構成する。ただし、上付き添え字Tは転置を示す。つまり、元の音響特徴量x_tと複数のボトルネック特徴量v_t ¹,v_t ²,…,v_t ^Sの各要素とを並べたベクトルを構成する。最終的な、パラレルボトルネック特徴量系列は、P=p₁,p₂,…,p_Tとして構成される。

＜言語識別部１４０＞
言語識別部１４０は、パラレルボトルネック特徴量系列Pと音声言語識別用ニューラルネットワークFとを入力とし、これらの値を用いて、対象となる音声データが何れの言語によるものかを識別し（Ｓ１４０）、識別結果である言語ラベルLを出力する。

なお、この枠組みは、ニューラルネットワーク音声言語識別の入力として、従来は音響特徴量系列を用いていた部分を、パラレルボトルネック特徴量系列を扱うことで実現できる。つまり、本実施形態では、パラレルボトルネック特徴量系列Pを音声言語識別用ニューラルネットワークFの入力として、対象となる音声データが何れの言語によるものかを識別する。よって、P=p₁,…,p_Tのフレームtごとに、音声言語識別用ニューラルネットワークFに入力して、言語ごとの確率値を得る。この確率は、音響特徴量x_tがどの言語であるかの推定確率値を表す。その後、その確率の対数をとった対数確率を全てのフレームで平均化する。そして、平均対数確率が最も高い言語が入力音声の言語であると識別する。

なお、この音声言語識別用ニューラルネットワークFは、学習データに対してもそれぞれパラレルボトルネック特徴量系列を計算し、パラレルボトルネック特徴量系列と言語ラベルとの組を教師データとして学習することでモデル化できる。

＜効果＞
以上の構成により、従来よりも頑強に捉えた音韻情報を利用して音声言語識別を行うことができる。前述の通り、音声言語識別では、音韻の並びが重要とされているため、より頑強に捉えた音韻情報を利用して音声言語識別を行うことで、音声言語識別の性能を大きく向上することができ、従来よりも高精度化が期待できる。

＜変形例＞
なお、ボトルネック特徴量計算部１２０で用いる音響モデルの言語と、最終的な音声言語識別で対象とする言語は全く独立の存在であり、音声言語識別で扱わない言語の音響モデルを利用してもよい。要は、ある言語Aで発せられた音声データの音響特徴量系列Xからボトルネック特徴量(音韻情報を陽に表す数値ベクトル)を計算することができればよい。例えば、ある言語Aに類似する音韻を持つ他の言語BのNN音響モデルをある言語AのNN音響モデルに流用したり、ある言語Aに含まれる音韻の大部分を含む他の言語BのNN音響モデルをある言語AのNN音響モデルに流用する方法などが考えられる。例えば、言語Bに含まれる音韻の種類は、日本語の音韻の種類よりも多く、日本語の音韻の種類を全て包含する場合には、言語BのNN音響モデルを用いて、日本語の音声データから得られる音響特徴量系列Xからボトルネック特徴量系列Vを計算してもよく、さらに、最終的な音声言語識別で対象とする言語の中に言語Bが含まれなくともよい。

必ずしも音声認識用NN音響モデルでなくともよい。要は、NN音響モデルは、音声データから得られるフレーム単位の音響特徴量を入力とし、その音声データに対する所定の言語sの音韻情報をフレーム単位で出力とする音響モデルであれば、どのようなものでもよく、必ずしも音声認識用である必要はない。なお、本実施形態の音声言語識別装置を、音声認識装置の中に組み込むことで音声認識用の音響モデルを共用することができるというメリットがある。また、音声認識装置は、従来よりも高い精度で言語を特定することができ、結果として、音声認識の精度を向上させることができるというメリットがある。

本実施形態では、音響モデル削除部１１０において、ボトルネック層以降の中間層や出力層を削除しているが、削除せずに音声認識用NN音響モデルをそのまま用いてもよい。その場合には、音響モデル削除部１１０を設けなくともよい。なお、音声認識用NN音響モデルをそのまま用いる場合には、ボトルネック特徴量計算部１２０に各音声認識用NN音響モデルF^sに対するボトルネック層k_sを知らせ、ボトルネック特徴量計算部１２０では、音声認識用NN音響モデルF^sのボトルネック層k_sの出力値をボトルネック特徴量として出力する。

本実施形態では、ボトルネック層をNNの中間層の何れかとしたが、必ずしも中間層である必要はなく、出力層をボトルネック層として用いてもよい。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

s=1,2,…,Sとし、Sを1以上の整数の何れかとし、音声データから得られるフレーム単位の音響特徴量を入力とし、その音声データに対する所定の言語sの音韻情報をフレーム単位で出力するニューラルネットワーク音響モデルを用いて、対象となる音声データから得られるフレーム単位の音響特徴量系列Xからボトルネック特徴量系列を計算するボトルネック特徴量計算部と、
S個のボトルネック特徴量系列と、前記音響特徴量系列Xとを含むパラレルボトルネック特徴量系列を構成するパラレルボトルネック特徴量構成部と、
前記パラレルボトルネック特徴量系列を音声言語識別用ニューラルネットワークの入力として、対象となる音声データが何れの言語によるものかを識別する言語識別部とを含み、
前記ボトルネック特徴量は、前記ニューラルネットワーク音響モデルの中間層または出力層の何れかであるボトルネック層の出力値である、
音声言語識別装置。
請求項１の音声言語識別装置であって、
前記音声言語識別用ニューラルネットワークは、学習用の音声データから得られるフレーム単位のパラレルボトルネック特徴量系列と、学習用の音声データの言語を示す言語ラベルとを用いて学習される、
音声言語識別装置。
s=1,2,…,Sとし、Sを1以上の整数の何れかとし、ボトルネック特徴量計算部が、音声データから得られるフレーム単位の音響特徴量を入力とし、その音声データに対する所定の言語sの音韻情報をフレーム単位で出力するニューラルネットワーク音響モデルを用いて、対象となる音声データから得られるフレーム単位の音響特徴量系列Xからボトルネック特徴量系列を計算するボトルネック特徴量計算ステップと、
パラレルボトルネック特徴量構成部が、S個のボトルネック特徴量系列と、前記音響特徴量系列Xとを含むパラレルボトルネック特徴量系列を構成するパラレルボトルネック特徴量構成ステップと、
言語識別部が、前記パラレルボトルネック特徴量系列を音声言語識別用ニューラルネットワークの入力として、対象となる音声データが何れの言語によるものかを識別する言語識別ステップとを含み、
前記ボトルネック特徴量は、前記ニューラルネットワーク音響モデルの中間層または出力層の何れかであるボトルネック層の出力値である、
音声言語識別方法。
請求項３の音声言語識別方法であって、
前記音声言語識別用ニューラルネットワークは、学習用の音声データから得られるフレーム単位のパラレルボトルネック特徴量系列と、学習用の音声データの言語を示す言語ラベルとを用いて学習される、
音声言語識別方法。
請求項１または請求項２の音声言語識別装置としてコンピュータを機能させるためのプログラム。