JP2018087935A - 音声言語識別装置、その方法、及びプログラム - Google Patents

音声言語識別装置、その方法、及びプログラム Download PDF

Info

Publication number
JP2018087935A
JP2018087935A JP2016231976A JP2016231976A JP2018087935A JP 2018087935 A JP2018087935 A JP 2018087935A JP 2016231976 A JP2016231976 A JP 2016231976A JP 2016231976 A JP2016231976 A JP 2016231976A JP 2018087935 A JP2018087935 A JP 2018087935A
Authority
JP
Japan
Prior art keywords
bottleneck
language
feature quantity
language identification
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016231976A
Other languages
English (en)
Other versions
JP6615736B2 (ja
Inventor
亮 増村
Akira Masumura
亮 増村
太一 浅見
Taichi Asami
太一 浅見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016231976A priority Critical patent/JP6615736B2/ja
Publication of JP2018087935A publication Critical patent/JP2018087935A/ja
Application granted granted Critical
Publication of JP6615736B2 publication Critical patent/JP6615736B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】音声に含まれる音韻情報を頑健に捉え、その情報を利用して音声言語識別を行うことができる音声言語識別装置等を提供することを目的とする。【解決手段】音声言語識別装置は、ニューラルネットワーク音響モデルを用いて、対象となる音声データから得られるフレーム単位の音響特徴量系列Xからボトルネック特徴量系列を計算するボトルネック特徴量計算部と、S個のボトルネック特徴量系列と、音響特徴量系列Xとを含むパラレルボトルネック特徴量系列を構成するパラレルボトルネック特徴量構成部と、パラレルボトルネック特徴量系列を音声言語識別用ニューラルネットワークの入力として、対象となる音声データが何れの言語によるものかを識別する言語識別部とを含み、ボトルネック特徴量は、ニューラルネットワーク音響モデルの中間層または出力層の何れかであるボトルネック層の出力値である。【選択図】図1

Description

本発明は、入力発話がどの言語で話されたものかを識別するための言語識別技術に関する。
音声言語識別技術は、入力された音声がどの言語なのかを識別する技術である。例えば、入力された言語が、英語、日本語、中国語のどれなのかを識別する。音声言語識別技術では、あらかじめ各言語の言語らしさを統計的にモデル化しておくことで、入力された発話がどれに一番近いかを計算して識別を行う枠組みが一般的となっている。具体的には、音声データと言語ラベル(音声データの言語を示すラベルであり、例えば、「この音声は日本語で話されている」という内容を示す情報)の組を大量に準備して、機械学習の枠組みで各言語らしさを捉えることで言語識別装置を構築する。
上述の枠組みとして、非特許文献1で挙げられるニューラルネットワーク音声言語識別に着目する。非特許文献1では、ニューラルネットワーク、特にディープニューラルネットワークと呼ばれる統計モデルを利用して上述の枠組みを実現している。具体的には、数ミリ秒程度のフレーム単位で言語らしさを統計的に捉えておく。そのためにニューラルネットワークという統計モデルを利用している。ニューラルネットワークは、例えば言語ラベルの可能性が3言語(日本語、英語、中国語)とした場合に、ある音声幅(例えば25ミリ秒)のフレーム単位のモデルを学習しておくとすると、任意のフレームが入力された際に上述の3言語のどれに当たるかといった確率値を算出する枠組みを実現できる。また、フレーム単位のニューラルネットワークの入力は、MFCC(メル周波数ケプストラム係数)等の音響特徴量が用いられる。なお、ディープニューラルネットワークの学習方法及びMFCCについては、公知の技術であるためここでは説明を省略する。
次に学習したニューラルネットワークを利用して言語識別を行う際は、どの言語で話されたかが未知である入力音声に対して、ニューラルネットワークが採用した音声幅のフレーム単位に音声を分割し、フレームごとに、前述の音響特徴量をニューラルネットワークに入力して、言語ごとの確率値を得る。この確率値は、入力音響特徴量がどの言語であるかの推定確率値を表す。その後、その確率の対数をとった対数確率を全てのフレームで平均化する。そして、平均対数確率が最も高い言語が入力音声の言語であると識別する。
例えば入力音声が3秒で、1フレームの長さを25ミリ秒と定義すると、入力音声には120フレーム存在することとなる。この時、120フレーム中の最初のフレームを学習済みのディープニューラルネットワークに入力すると、最初のフレームに対する言語ごとの確率値が出力される。例えば、英語である確率が0.5、日本語である確率が0.3、中国語である確率が0.2と出力される。このような処理を残り119フレーム全てに対しても同様に行う。その後、言語ごと(英語ごと、日本語ごと、中国語ごと)に対数確率値の平均値を算出する。例えば英語であれば、1フレーム目から120フレーム目までの全ての英語である対数確率値を加算し120で割ることで算出できる。このような処理を行った場合、英語である平均対数確率が-10、日本語である平均対数確率が-50、中国語である平均対数確率が-100であったとする。この結果として、音声言語識別装置は平均対数確率が最大の言語である英語であったと入力音声を識別する。
Javier Gonzalez-Dominguez, Ignacio Lopez-Moreno, Pedro J. Moreno, Joaquin Gonzalez-Rodriguez, "Frame by Frame Language Identification in Short Utterances using Deep Neural Networks", Neural Networks Special Issue: Neural Network Learning in Big Data, 2014.
しかしながら、従来のニューラルネットワークを利用した音声言語識別では、音声に含まれる音韻情報を精緻に捉えた音声言語識別を行うことができない。従来の音声言語識別では、MFCC等の音響特徴量から直接言語ごとの事後確率をモデル化しているが、この枠組みでは音韻を精緻に捉える構造が含まれていない。言い換えると、MFCC等の音響特徴量には音韻に関わる情報が包含されているものの、上述のニューラルネットワークは、言語識別のためのモデルであり、音韻を精緻に捉える構造とは言えない。しかし、音声言語識別では、音韻の並びが重要とされている。
そこで、本発明では、音声に含まれる音韻情報を頑健に捉え、その情報を利用して音声言語識別を行うことができる音声言語識別装置、その方法、及びプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、音声言語識別装置は、s=1,2,…,Sとし、Sを1以上の整数の何れかとし、音声データから得られるフレーム単位の音響特徴量を入力とし、その音声データに対する所定の言語sの音韻情報をフレーム単位で出力するニューラルネットワーク音響モデルを用いて、対象となる音声データから得られるフレーム単位の音響特徴量系列Xからボトルネック特徴量系列を計算するボトルネック特徴量計算部と、S個のボトルネック特徴量系列と、音響特徴量系列Xとを含むパラレルボトルネック特徴量系列を構成するパラレルボトルネック特徴量構成部と、パラレルボトルネック特徴量系列を音声言語識別用ニューラルネットワークの入力として、対象となる音声データが何れの言語によるものかを識別する言語識別部とを含み、ボトルネック特徴量は、ニューラルネットワーク音響モデルの中間層または出力層の何れかであるボトルネック層の出力値である。
上記の課題を解決するために、本発明の他の態様によれば、音声言語識別方法は、s=1,2,…,Sとし、Sを1以上の整数の何れかとし、ボトルネック特徴量計算部が、音声データから得られるフレーム単位の音響特徴量を入力とし、その音声データに対する所定の言語sの音韻情報をフレーム単位で出力するニューラルネットワーク音響モデルを用いて、対象となる音声データから得られるフレーム単位の音響特徴量系列Xからボトルネック特徴量系列を計算するボトルネック特徴量計算ステップと、パラレルボトルネック特徴量構成部が、S個のボトルネック特徴量系列と、音響特徴量系列Xとを含むパラレルボトルネック特徴量系列を構成するパラレルボトルネック特徴量構成ステップと、言語識別部が、パラレルボトルネック特徴量系列を音声言語識別用ニューラルネットワークの入力として、対象となる音声データが何れの言語によるものかを識別する言語識別ステップとを含み、ボトルネック特徴量は、ニューラルネットワーク音響モデルの中間層または出力層の何れかであるボトルネック層の出力値である。
本発明によれば、従来よりも頑強に捉えた音韻情報を利用して音声言語識別を行うことができるという効果を奏する。
第一実施形態に係る音声言語識別装置の機能ブロック図。 第一実施形態に係る音声言語識別装置の処理フローの例を示す図。 ユニット数を絞った音声認識用ニューラルネットワーク音響モデルの例を示す図。 ボトルネック層よりも後段の中間層及び出力層を削除した音声認識用ニューラルネットワーク音響モデルの例を示す図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
本実施形態では、音韻情報を捉えるための部位を言語識別部の前段に設置し、捉えた音韻情報も含めたニューラルネットワーク音声言語識別を実施する。
具体的な実現方法としては、音韻情報を頑健に捉えるために、音声認識システムで利用するようなニューラルネットワーク音響モデル(以下、単に「NN音響モデル」ともいう)を複数利用する。なお、複数のNN音響モデルはそれぞれ複数の言語に対応する。例えば、日本語音声認識用NN音響モデル、英語音声認識用NN音響モデル、中国語音声認識用NN音響モデルなどを意味する。各NN音響モデルは、フレーム単位で対象とする言語の音素を識別するためのものである。本実施形態では、NN音響モデルからフレーム単位で抽出することが可能なニューラルネットワークの中間層の情報(ボトルネック特徴量)を、複数のNN音響モデルを使ってそれぞれ抽出し、それらを統合した「パラレルボトルネック特徴量」を通常の音声言語識別用のニューラルネットワークの入力に加えて利用し、それにより音声言語識別を実施する。
<第一実施形態>
図1は第一実施形態に係る音声言語識別装置100の機能ブロック図を、図2はその処理フローを示す。
音声言語識別装置100は、対象となる入力音声から得られるフレーム単位の音響特徴量系列X={x1,x2,…,xT}と、S個の音声認識用NN音響モデルFsと、音声言語識別用ニューラルネットワークFとを入力とし、入力音声の言語を識別し、識別結果を言語ラベルLとして出力する。ただし、X={x1,x2,…,xT}であり、Tは時系列の長さ(全フレーム数)であり、t=1,2,…,Tであり、xtはtフレーム目の音響特徴量のベクトルを表す。Sは各音声認識用NN音響モデルが対象とする言語の種類の総数を示し、sは言語の種類を表すインデックスであり、s=1,2,…,Sである。例えば、フランス語、ドイツ語、ポルトガル語の3つを識別対象の言語とすると、S=3となる。
例えば、この音声言語識別装置100は、CPUと、RAMと、以下の音声言語識別処理を実行するためのプログラムを記録したROMを備えたコンピュータで構成され、機能的には次に示すように構成されている。音声言語識別装置100は、音響モデル削除部110と、ボトルネック特徴量計算部120と、パラレルボトルネック特徴量構成部130と、言語識別部140とを含む。以下、各部の処理内容を説明する。
<音響モデル削除部110>
音響モデル削除部110は、S個の音声認識用NN音響モデルFsを入力とし、予め定めたボトルネック層ksよりも後段の中間層及び出力層を削除し、削除後のS個の音声認識用NN音響モデルFs,k_sを出力する。なお、上付き添え字k_sは、ksを意味する。
ここで、音声認識用NN音響モデルFsの中間層の数をNsとする。Nsは1以上の整数の何れかである。なお、ボトルネック層ks(Ns≧ks≧1)は、人手により決定する。例えば、Ns=5の音声認識用NN音響モデルであれば、ksを1以上5以下の整数の何れかとする。例えば、ks=4として決定する。例えば、各音声認識用NN音響モデルFsのボトルネック層ksはそれぞれ実験的に決定すればよい。
音声認識用NN音響モデルFsは、ボトルネック層ksを設定できるならば任意の構造を利用できる。例えば、予めボトルネック層ksとして設定したい中間層に対しては、他の中間層よりもユニット数を絞ってもよい(図3参照)。ユニット数をしぼっておくことで、ボトルネック特徴量の次元数を制御できる。例えば、中間層5層の音声認識用NN音響モデルFsにおいて、4層目をボトルネック層として設定し、4層目のみユニット数64、その他のユニット数は512などとして準備しておく。音声認識用NN音響モデルの学習方法としては、既存の如何なる技術を用いてもよい。例えば、参考文献1の学習方法を用いる。
(参考文献1)Geoffrey Hinton, etc., "Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups", IEEE Signal Processing Magazine, Volume: 29, Issue: 6, Pages: 82 - 97, Nov. 2012.
図3はユニット数を絞った音声認識用NN音響モデルFsの例を、図4はボトルネック層ksよりも後段の中間層及び出力層を削除した音声認識用NN音響モデルFs,k_sの例を示す。
なお、音声認識用NN音響モデルFsを学習する際には、中間層及び出力層を削除することはできないので、学習が済んでから削除し、音声言語識別時に利用する。
<ボトルネック特徴量計算部120>
ボトルネック特徴量計算部120は、対象となる音声データから得られるフレーム単位の音響特徴量系列X={x1,x2,…,xT}を入力とし、音声認識用NN音響モデルFs,k_sを用いて、音響特徴量系列X={x1,x2,…,xT}からボトルネック特徴量系列Vs={v1 s,v2 s,…,vT s}を計算し(S120)、出力する。ボトルネック特徴量vt sは、前述のボトルネック層ksの出力値(音声認識用NN音響モデルFsのks番目の中間層の出力値)であり、音韻情報を陽に表す数値ベクトルである。
なお、ボトルネック特徴量計算部120は、音声認識用NN音響モデルFs,k_sごとに実施される部位である。つまり、S個の音声認識用NN音響モデルF1,k_1,F2,k_2,…,FS,k_Sを用いる場合、ボトルネック特徴量系列Vsは、S個の時系列V1,V2,…,VSを得ることになる。
なお、ボトルネック特徴量系列Vsは、音声認識用NN音響モデルFs,k_sに音響特徴量系列Xを入力した場合のボトルネック層の出力として表される。
vt=f(xt)
ここで、f()は音声認識用NN音響モデルFs,k_sによるボトルネック層までの計算を表す。同様に、vtはtフレーム目のボトルネック特徴量のベクトルを表す。つまり、ボトルネック特徴量の計算はフレーム単位で実施され、長さTの音響特徴量系列Xに対して、長さTのボトルネック特徴量系列Vsを得る。
<パラレルボトルネック特徴量構成部130>
パラレルボトルネック特徴量構成部130は、S個のボトルネック特徴量系列V1,V2,…,VSと、音響特徴量系列Xとを入力とし、これらの情報を含むパラレルボトルネック特徴量系列Pを構成し(S130)、出力する。
例えば、パラレルボトルネック特徴量構成部130は、S個のボトルネック特徴量系列V1,V2,…,VSと音響特徴量系列Xとをフレームtごとに結合して、新たなベクトル系列を作る。tフレーム目のS個のボトルネック特徴量をvt 1,vt 2,…,vt Sとおく。tフレーム目のパラレルボトルネック特徴量ptは、
pt=[{vt 1}T,{vt 2}T,…,{vt S}T,xt T]T
として構成する。ただし、上付き添え字Tは転置を示す。つまり、元の音響特徴量xtと複数のボトルネック特徴量vt 1,vt 2,…,vt Sの各要素とを並べたベクトルを構成する。最終的な、パラレルボトルネック特徴量系列は、P=p1,p2,…,pTとして構成される。
<言語識別部140>
言語識別部140は、パラレルボトルネック特徴量系列Pと音声言語識別用ニューラルネットワークFとを入力とし、これらの値を用いて、対象となる音声データが何れの言語によるものかを識別し(S140)、識別結果である言語ラベルLを出力する。
なお、この枠組みは、ニューラルネットワーク音声言語識別の入力として、従来は音響特徴量系列を用いていた部分を、パラレルボトルネック特徴量系列を扱うことで実現できる。つまり、本実施形態では、パラレルボトルネック特徴量系列Pを音声言語識別用ニューラルネットワークFの入力として、対象となる音声データが何れの言語によるものかを識別する。よって、P=p1,…,pTのフレームtごとに、音声言語識別用ニューラルネットワークFに入力して、言語ごとの確率値を得る。この確率は、音響特徴量xtがどの言語であるかの推定確率値を表す。その後、その確率の対数をとった対数確率を全てのフレームで平均化する。そして、平均対数確率が最も高い言語が入力音声の言語であると識別する。
なお、この音声言語識別用ニューラルネットワークFは、学習データに対してもそれぞれパラレルボトルネック特徴量系列を計算し、パラレルボトルネック特徴量系列と言語ラベルとの組を教師データとして学習することでモデル化できる。
<効果>
以上の構成により、従来よりも頑強に捉えた音韻情報を利用して音声言語識別を行うことができる。前述の通り、音声言語識別では、音韻の並びが重要とされているため、より頑強に捉えた音韻情報を利用して音声言語識別を行うことで、音声言語識別の性能を大きく向上することができ、従来よりも高精度化が期待できる。
<変形例>
なお、ボトルネック特徴量計算部120で用いる音響モデルの言語と、最終的な音声言語識別で対象とする言語は全く独立の存在であり、音声言語識別で扱わない言語の音響モデルを利用してもよい。要は、ある言語Aで発せられた音声データの音響特徴量系列Xからボトルネック特徴量(音韻情報を陽に表す数値ベクトル)を計算することができればよい。例えば、ある言語Aに類似する音韻を持つ他の言語BのNN音響モデルをある言語AのNN音響モデルに流用したり、ある言語Aに含まれる音韻の大部分を含む他の言語BのNN音響モデルをある言語AのNN音響モデルに流用する方法などが考えられる。例えば、言語Bに含まれる音韻の種類は、日本語の音韻の種類よりも多く、日本語の音韻の種類を全て包含する場合には、言語BのNN音響モデルを用いて、日本語の音声データから得られる音響特徴量系列Xからボトルネック特徴量系列Vを計算してもよく、さらに、最終的な音声言語識別で対象とする言語の中に言語Bが含まれなくともよい。
必ずしも音声認識用NN音響モデルでなくともよい。要は、NN音響モデルは、音声データから得られるフレーム単位の音響特徴量を入力とし、その音声データに対する所定の言語sの音韻情報をフレーム単位で出力とする音響モデルであれば、どのようなものでもよく、必ずしも音声認識用である必要はない。なお、本実施形態の音声言語識別装置を、音声認識装置の中に組み込むことで音声認識用の音響モデルを共用することができるというメリットがある。また、音声認識装置は、従来よりも高い精度で言語を特定することができ、結果として、音声認識の精度を向上させることができるというメリットがある。
本実施形態では、音響モデル削除部110において、ボトルネック層以降の中間層や出力層を削除しているが、削除せずに音声認識用NN音響モデルをそのまま用いてもよい。その場合には、音響モデル削除部110を設けなくともよい。なお、音声認識用NN音響モデルをそのまま用いる場合には、ボトルネック特徴量計算部120に各音声認識用NN音響モデルFsに対するボトルネック層ksを知らせ、ボトルネック特徴量計算部120では、音声認識用NN音響モデルFsのボトルネック層ksの出力値をボトルネック特徴量として出力する。
本実施形態では、ボトルネック層をNNの中間層の何れかとしたが、必ずしも中間層である必要はなく、出力層をボトルネック層として用いてもよい。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (5)

  1. s=1,2,…,Sとし、Sを1以上の整数の何れかとし、音声データから得られるフレーム単位の音響特徴量を入力とし、その音声データに対する所定の言語sの音韻情報をフレーム単位で出力するニューラルネットワーク音響モデルを用いて、対象となる音声データから得られるフレーム単位の音響特徴量系列Xからボトルネック特徴量系列を計算するボトルネック特徴量計算部と、
    S個のボトルネック特徴量系列と、前記音響特徴量系列Xとを含むパラレルボトルネック特徴量系列を構成するパラレルボトルネック特徴量構成部と、
    前記パラレルボトルネック特徴量系列を音声言語識別用ニューラルネットワークの入力として、対象となる音声データが何れの言語によるものかを識別する言語識別部とを含み、
    前記ボトルネック特徴量は、前記ニューラルネットワーク音響モデルの中間層または出力層の何れかであるボトルネック層の出力値である、
    音声言語識別装置。
  2. 請求項1の音声言語識別装置であって、
    前記音声言語識別用ニューラルネットワークは、学習用の音声データから得られるフレーム単位のパラレルボトルネック特徴量系列と、学習用の音声データの言語を示す言語ラベルとを用いて学習される、
    音声言語識別装置。
  3. s=1,2,…,Sとし、Sを1以上の整数の何れかとし、ボトルネック特徴量計算部が、音声データから得られるフレーム単位の音響特徴量を入力とし、その音声データに対する所定の言語sの音韻情報をフレーム単位で出力するニューラルネットワーク音響モデルを用いて、対象となる音声データから得られるフレーム単位の音響特徴量系列Xからボトルネック特徴量系列を計算するボトルネック特徴量計算ステップと、
    パラレルボトルネック特徴量構成部が、S個のボトルネック特徴量系列と、前記音響特徴量系列Xとを含むパラレルボトルネック特徴量系列を構成するパラレルボトルネック特徴量構成ステップと、
    言語識別部が、前記パラレルボトルネック特徴量系列を音声言語識別用ニューラルネットワークの入力として、対象となる音声データが何れの言語によるものかを識別する言語識別ステップとを含み、
    前記ボトルネック特徴量は、前記ニューラルネットワーク音響モデルの中間層または出力層の何れかであるボトルネック層の出力値である、
    音声言語識別方法。
  4. 請求項3の音声言語識別方法であって、
    前記音声言語識別用ニューラルネットワークは、学習用の音声データから得られるフレーム単位のパラレルボトルネック特徴量系列と、学習用の音声データの言語を示す言語ラベルとを用いて学習される、
    音声言語識別方法。
  5. 請求項1または請求項2の音声言語識別装置としてコンピュータを機能させるためのプログラム。
JP2016231976A 2016-11-30 2016-11-30 音声言語識別装置、その方法、及びプログラム Active JP6615736B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016231976A JP6615736B2 (ja) 2016-11-30 2016-11-30 音声言語識別装置、その方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016231976A JP6615736B2 (ja) 2016-11-30 2016-11-30 音声言語識別装置、その方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018087935A true JP2018087935A (ja) 2018-06-07
JP6615736B2 JP6615736B2 (ja) 2019-12-04

Family

ID=62493023

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016231976A Active JP6615736B2 (ja) 2016-11-30 2016-11-30 音声言語識別装置、その方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6615736B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109192199A (zh) * 2018-06-30 2019-01-11 中国人民解放军战略支援部队信息工程大学 一种结合瓶颈特征声学模型的数据处理方法
CN110491382A (zh) * 2019-03-11 2019-11-22 腾讯科技(深圳)有限公司 基于人工智能的语音识别方法、装置及语音交互设备
CN110610720A (zh) * 2019-09-19 2019-12-24 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN110930978A (zh) * 2019-11-08 2020-03-27 北京搜狗科技发展有限公司 一种语种识别方法、装置和用于语种识别的装置
WO2020195897A1 (ja) * 2019-03-28 2020-10-01 国立研究開発法人情報通信研究機構 言語識別装置及びそのためのコンピュータプログラム、並びに音声処理装置
WO2021179701A1 (zh) * 2020-10-19 2021-09-16 平安科技(深圳)有限公司 多语种语音识别方法、装置及电子设备
JP2022537011A (ja) * 2019-08-29 2022-08-23 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 人工知能に基づく音声駆動アニメーション方法及び装置、デバイス及びコンピュータプログラム
CN116825108A (zh) * 2023-08-25 2023-09-29 深圳市友杰智新科技有限公司 语音命令词识别方法、装置、设备和介质

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109192199A (zh) * 2018-06-30 2019-01-11 中国人民解放军战略支援部队信息工程大学 一种结合瓶颈特征声学模型的数据处理方法
CN110491382A (zh) * 2019-03-11 2019-11-22 腾讯科技(深圳)有限公司 基于人工智能的语音识别方法、装置及语音交互设备
WO2020195897A1 (ja) * 2019-03-28 2020-10-01 国立研究開発法人情報通信研究機構 言語識別装置及びそのためのコンピュータプログラム、並びに音声処理装置
JP2020160374A (ja) * 2019-03-28 2020-10-01 国立研究開発法人情報通信研究機構 言語識別装置及びそのためのコンピュータプログラム、並びに音声処理装置
JP7332132B2 (ja) 2019-03-28 2023-08-23 国立研究開発法人情報通信研究機構 言語識別装置及びそのためのコンピュータプログラム
JP2022537011A (ja) * 2019-08-29 2022-08-23 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 人工知能に基づく音声駆動アニメーション方法及び装置、デバイス及びコンピュータプログラム
JP7312853B2 (ja) 2019-08-29 2023-07-21 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 人工知能に基づく音声駆動アニメーション方法及び装置、デバイス及びコンピュータプログラム
CN110610720A (zh) * 2019-09-19 2019-12-24 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN110930978A (zh) * 2019-11-08 2020-03-27 北京搜狗科技发展有限公司 一种语种识别方法、装置和用于语种识别的装置
WO2021179701A1 (zh) * 2020-10-19 2021-09-16 平安科技(深圳)有限公司 多语种语音识别方法、装置及电子设备
CN116825108A (zh) * 2023-08-25 2023-09-29 深圳市友杰智新科技有限公司 语音命令词识别方法、装置、设备和介质
CN116825108B (zh) * 2023-08-25 2023-12-08 深圳市友杰智新科技有限公司 语音命令词识别方法、装置、设备和介质

Also Published As

Publication number Publication date
JP6615736B2 (ja) 2019-12-04

Similar Documents

Publication Publication Date Title
JP6615736B2 (ja) 音声言語識別装置、その方法、及びプログラム
US11664020B2 (en) Speech recognition method and apparatus
Shi et al. Sentiment adaptive end-to-end dialog systems
JP6980119B2 (ja) 音声認識方法、並びにその装置、デバイス、記憶媒体及びプログラム
CN108346436B (zh) 语音情感检测方法、装置、计算机设备及存储介质
US10657962B2 (en) Modeling multiparty conversation dynamics: speaker, response, addressee selection using a novel deep learning approach
JP2017228160A (ja) 対話行為推定方法、対話行為推定装置及びプログラム
US11164562B2 (en) Entity-level clarification in conversation services
US20180130460A1 (en) Splitting utterances for quick responses
CN113793599B (zh) 语音识别模型的训练方法和语音识别方法及装置
WO2020110815A1 (ja) キーワード抽出装置、キーワード抽出方法、およびプログラム
CN112860871B (zh) 自然语言理解模型训练方法、自然语言理解方法及装置
KR102183284B1 (ko) 교차언어 환경에서의 대화 상태 추적 방법 및 시스템
US20220270637A1 (en) Utterance section detection device, utterance section detection method, and program
KR102559849B1 (ko) 악플 필터 장치 및 방법
JP6389776B2 (ja) 言語識別モデル学習装置、言語識別装置、言語識別方法、およびプログラム
CN116050425A (zh) 建立预训练语言模型的方法、文本预测方法及装置
WO2021171552A1 (ja) 感情認識装置、感情認識モデル学習装置、それらの方法、およびプログラム
KR20230156425A (ko) 자체 정렬을 통한 스트리밍 asr 모델 지연 감소
JP2015141368A (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
WO2020162240A1 (ja) 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体
JP6992725B2 (ja) パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム
JP6699945B2 (ja) 音響モデル学習装置、その方法、及びプログラム
JP7411149B2 (ja) 学習装置、推定装置、学習方法、推定方法及びプログラム
Yu et al. An end-to-end neural network approach to story segmentation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181212

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191023

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191106

R150 Certificate of patent or registration of utility model

Ref document number: 6615736

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150