JP7329393B2 - 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム - Google Patents

音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム Download PDF

Info

Publication number
JP7329393B2
JP7329393B2 JP2019159954A JP2019159954A JP7329393B2 JP 7329393 B2 JP7329393 B2 JP 7329393B2 JP 2019159954 A JP2019159954 A JP 2019159954A JP 2019159954 A JP2019159954 A JP 2019159954A JP 7329393 B2 JP7329393 B2 JP 7329393B2
Authority
JP
Japan
Prior art keywords
neural network
speech
recognition
feature
target speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019159954A
Other languages
English (en)
Other versions
JP2021039219A (ja
Inventor
マーク デルクロア
翼 落合
慶介 木下
成樹 苅田
厚徳 小川
智広 中谷
晋治 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Johns Hopkins University
Original Assignee
Johns Hopkins University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Johns Hopkins University filed Critical Johns Hopkins University
Priority to JP2019159954A priority Critical patent/JP7329393B2/ja
Publication of JP2021039219A publication Critical patent/JP2021039219A/ja
Application granted granted Critical
Publication of JP7329393B2 publication Critical patent/JP7329393B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Telephonic Communication Services (AREA)

Description

特許法第30条第2項適用 https://ieeexplore.ieee.org/document/8683087 ウェブサイトの掲載日 2019年4月17日
本発明は、音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラムに関する。
ニューラルネットワークを用いたend-to-endの音声認識モデルの学習技術は、音声を入力とし、記号列を特定する情報を出力する系全体として最適化を行うことができ、音響モデルと言語モデルとを別個の系として学習させる従来型の音声認識よりも精度の高い音声認識が可能な技術として注目されている。
例えば、話者分離技術とend-to-endの音声認識器との技術を直列に組み合わせることで、2人の話者の音声が混合された混合音声信号から、それぞれの話者の音声認識結果を分離して得ることができる技術が知られている(例えば、非特許文献1を参照)。
X. Chang, Y. Qian, K. Yu, and S. Watanabe, "End-to-end monaural multi-speaker asr system without pretraining," in Proc. of ICASSP’19, 2019.
しかしながら、従来の技術には、end-to-endの音声認識モデルを使った音声認識及び当該モデルの学習に要する計算量が多くなる場合があるという問題がある。
例えば、非特許文献1の技術では、入力される混合音声信号を短時間区間ごとに個々の話者に分離し、分離された音声それぞれについてend-to-endのモデルを用いて音声認識を行う。このとき、分離された音声のうち、特定の話者(第1話者)の音声が含まれる側の音声が、短時間区間ごとにランダムに入れ替わってしまう問題が生じる。結果として、混合音声信号全体から、第1話者の音声認識結果と、第2話者の音声認識結果とを分離して出力させるためには、短時間区間ごとに話者分離部で得られる分離信号の各々がどちらの話者に対応するかを特定し、話者ごとの音声認識結果をつなげる処理が必要となり、音声認識の際の計算量が増大する。
また、学習時においても、モデルにより分離された音声のそれぞれがどの話者に対応するかを特定するための計算は必要である。話者の数が多くなるとさらにこの計算が複雑となり、計算量が増大する。
上述した課題を解決し、目的を達成するために、音声認識装置は、第1のニューラルネットワークを用いて、目的話者の音声の特徴量から補助特徴量を抽出する補助特徴量抽出部と、第2のニューラルネットワークを用いて、前記補助特徴量及び混合音声の特徴量から、前記目的話者の発話を認識するための認識用特徴量を抽出する認識用特徴量抽出部と、前記認識用特徴量から、前記目的話者の発話に対応するシンボル系列を特定する情報を取得し、当該取得した情報を音声認識結果として出力する認識部と、を有することを特徴とする。
本発明によれば、end-to-endの音声認識モデルを使った音声認識及び当該モデルの学習に要する計算量を削減することができる。
図1は、第1の実施形態に係る音声認識装置の構成の一例を示す図である。 図2は、第1の実施形態に係る学習装置の構成の一例を示す図である。 図3は、第1の実施形態に係る音声認識装置の処理の流れを示すフローチャートである。 図4は、第1の実施形態に係る学習装置の処理の流れを示すフローチャートである。 図5は、第2の実施形態に係る音声認識装置の構成の一例を示す図である。 図6は、第2の実施形態に係る学習装置の構成の一例を示す図である。 図7は、第2の実施形態に係る音声認識装置の処理の流れを示すフローチャートである。 図8は、第4の実施形態に係る発話情報推定装置の構成の一例を示す図である。 図9は、第4の実施形態に係る発話情報推定装置の処理の流れを示すフローチャートである。 図10は、第6の実施形態に係る発話情報推定装置の構成の一例を示す図である。 図11は、第6の実施形態に係る発話情報推定装置の処理の流れを示すフローチャートである。 図12は、時間区間推定手法の比較結果を示す図である。 図13は、実験結果を示す図である。 図14は、実験結果を示す図である。 図15は、実験結果を示す図である。 図16は、音声認識プログラムを実行するコンピュータの一例を示す図である。
以下に、本願に係る音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。また、実施形態における音声認識装置及び発話情報推定装置は、いずれも音声信号処理装置の一例である。
<第1の実施形態>
まず、第1の実施形態の音声認識装置について説明する。第1の実施形態の音声認識装置は、従来のend-to-endの音声認識装置の中に特定の話者の音声信号に着目させる機能を加えることで、特定話者の音声認識結果を出力させるようにしたものである。
[第1の実施形態の音声認識装置の構成]
まず、図1を用いて、第1の実施形態に係る音声認識装置の構成について説明する。図1は、第1の実施形態に係る音声認識装置の構成の一例を示す図である。図1に示すように、音声認識装置10は、符号化部11、補助特徴量抽出部12及び復号部13を有する。なお、符号化部11は、認識用特徴量抽出部の一例である。また、復号部13は、認識部の一例である。第1の実施形態に係る音声認識装置は、従来のend-to-endの音声認識装置と比べると、補助特徴量抽出部12を備え、符号化部11において補助特徴量抽出部12から得られる情報に着目した符号化処理を行う(適応部112を備える)点が異なる。
ここで、図1に示すように、音声認識装置10には、混合音声の特徴量及び目的話者の音声の特徴量が入力される。また、音声認識装置10は、シンボル系列を特定する情報を出力する。例えば、音声認識装置10は、図1のようにシンボル系列そのものを出力してもよいし、シンボル系列の各シンボルに対応する事後確率を出力してもよい。なお、シンボルとは、アルファベット、漢字、スペース等のあらゆる文字を含む。また、シンボル系列は、シンボルの系列であり、単語や文章として認識できるものであってもよい。
混合音声の特徴量は、目的話者を含む複数の話者の発話を録音して得た音声信号から計算されたMFCC(Mel frequency cepstral coefficient)、対数メルフィルタバンク(FBANK:log Mel filterbank coefficients)、ΔMFCC(MFCCの1階微分)、ΔΔMFCC(MFCCの2階微分)、対数パワー、Δ対数パワー(対数パワーの1階微分)等である。
目的話者の音声の特徴量は、目的話者の発話を録音して得た音声信号から同様の計算により得られる特徴量である。ここで、「目的話者の発話を録音して得た音声信号」とは、目的話者の音声の特徴量を抽出するために予め目的話者から取得しておく音声信号であり、例えば、2秒から10秒程度の短時間の発話データであって、目的話者が単独で発話したものを収録したものである。他の話者の音声の干渉はないが、背景雑音等は含まれていてもよい。第1の実施形態では、混合音声の特徴量及び目的話者の音声の特徴量は、いずれも対数メルフィルタバンクであるものとする。
補助特徴量抽出部12は、学習済みの補助ニューラルネットワークを用いて、目的話者の音声の特徴量から補助特徴量を抽出する。補助特徴量抽出部12は、補助ニューラルネットワークとして、参考文献1に記載のsequence summary network等を用いることができる。なお、補助ニューラルネットワークは、第1のニューラルネットワークの一例である。
参考文献1:K. Vesely, S. Watanabe, K. Zmolikova, M. Karafiat, L. Burget, and J. H. Cernocky, “Sequence summarizing neural network for speaker adaptation,” in Proc. of ICASSP’16, 2016, pp. 5315-5319.
補助特徴量抽出部12は、補助ニューラルネットワークの出力の時間平均を表すベクトルαsを(1)式により計算し、符号化部11に受け渡す。
Figure 0007329393000001
ここで、目的話者の発話の特徴量Asは、T´個の時間フレームに対応する特徴量の系列として表される。このとき、as,τは、Asに含まれる特徴量のうちの第τフレームに対応する特徴量である。
符号化部11及び復号部13は、それぞれエンコーダ及びデコーダとして機能する(例えば、参考文献2を参照)。ただし、符号化部11は、既知のエンコーダと異なり、所定の中間層を適応層として機能させる。以降、符号化部11及び復号部13をそれぞれエンコーダ及びデコーダとして含むニューラルネットワークを音声認識ニューラルネットワークと呼ぶ。音声認識ニューラルネットワークは、第2のニューラルネットワークの一例である。
参考文献2:S. Watanabe, T. Hori, S. Kim, J. R. Hershey, and T. Hayashi, “Hybrid CTC/attention architecture for end-to-end speech recognition,” IEEE Journal of Selected Topics in Signal Processing, vol. 11, no. 8, pp. 1240-1253, 2017.
符号化部11は、音声認識ニューラルネットワークのエンコーダを用いて、補助特徴量及び混合音声の特徴量から、混合音声中の目的話者の発話の特徴を反映した認識用特徴量を抽出する。ここで、図1に示すように、符号化部11は、第1変換部111、適応部112、第2変換部113を有する。なお、符号化部11によって抽出される認識用特徴量は、混合音声に含まれる目的話者の発話の特徴を表す特徴量の推定値と言い換えられてもよい。
適応部112は適応層として用いられる中間層である。第1変換部111は、適応層よりも前段(入力側)の中間層であり、例えばVGGである。一方、第2変換部113は、適応層よりも後段(出力側)の中間層であり、例えばBLSTMである。適応部112は、第1変換部111により出力され適応層に入力された中間特徴量を、(2)式のように変換し、適応層から出力させる。
Figure 0007329393000002
ただし、ht out及びht inは、それぞれ適応層へ入力される中間特徴量及び適応層から出力される中間特徴量である。また、(2)式中の丸の中心に点を有する記号は、ベクトルの要素ごとの積(element-wise product)、若しくは、ベクトルの要素ごとの和(element-wise sum)、ベクトルの結合(concatenation)等、2つのベクトルの情報を統合した情報を生成する演算を表す演算子である。中間特徴量の計算は、例示した演算に限らず、例えば、context adaptive neural neural network(参考文献3)のような演算により実現してもよい。
参考文献3:M. Delcroix, K. Kinoshita, A. Ogawa, C. Huemmer and T. Nakatani, "Context Adaptive Neural Network Based Acoustic Models for Rapid Adaptation," in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, no. 5, pp. 895-908, May 2018.
ここで、例えば、適応層から出力される中間特徴量は、混合音声の信号のうち、目的話者に対応する音声信号に着目して抽出される特徴量であるということができる。また、適応層は、補助特徴量を用いて、エンコーダに、目的話者の音声の特徴量のみに着目し、他の話者の特徴量を無視することを促しているということができる。
なお、適応部112は、適応層を有するニューラルネットワークとして、参考文献4に記載されたものを用いてもよい。
参考文献4:M. Delcroix, K. Zmolikova, T. Ochiai, K. Kinoshita, S. Araki, and T. Nakatani, “Compact network for speakerbeam target speaker extraction,” in Proc. of ICASSP19, 2019.
第2変換部113は、適応層から出力された中間特徴量をさらに変換し、エンコード済みの特徴量を出力する。第2変換部113から出力される特徴量は、認識用特徴量の一例である。
このように、符号化部11は、音声認識ニューラルネットワークの所定の中間層に入力された中間特徴量を、補助特徴量を用いて目的話者に適応した中間特徴量に変換し、当該中間層から出力させ、当該中間層から出力させた中間特徴量を認識用特徴量として抽出する。
復号部13は、符号化部11によって抽出された認識用特徴量から、目的話者の発話に対応するシンボル系列を特定する情報を取得し、当該取得した情報を音声認識結果として出力する。復号部13における処理は、音響モデルにより得た中間特徴量(音響特徴量)を、言語モデルを用いてシンボル系列を特定する情報に変換する処理と同等であるといえる。復号部13は、例えば参考文献2に記載されたJoint CTC-Attention decoderを用いてシンボル系列を特定する情報を取得することができる。
[第1の実施形態の学習装置の構成]
ここで、図2を用いて、音声認識装置10で用いられる各ニューラルネットワークの学習を行うための学習装置の構成を説明する。図2は、第1の実施形態に係る学習装置の構成の一例を示す図である。
図2に示すように、学習装置20は、符号化部21、補助特徴量抽出部22、復号部23及び更新部24を有する。また、符号化部21は、第1変換部211、適応部212及び第2変換部213を有する。学習装置20の各処理部は、更新部24を除き、音声認識装置10の同名の処理部と同様の処理を行う。また、学習装置20に入力される各特徴量は学習データであり、混合音声に対応する正解のシンボル系列が既知であるものとする。
更新部24は、補助ニューラルネットワーク及び音声認識ニューラルネットワークを1つのend-to-endのニューラルネットワークとみなして、各ニューラルネットワークのパラメータの学習を行う。これは周知の誤差逆伝播学習等を用いればよく、例えば、更新部24は、復号部23によって出力されたシンボル系列と正解のシンボル系列との間の損失が小さくなるように各ニューラルネットワークのパラメータを更新する。
[第1の実施形態の音声認識装置の処理の流れ]
図3を用いて、音声認識装置10の処理の流れを説明する。図3は、第1の実施形態に係る音声認識装置の処理の流れを示すフローチャートである。図3に示すように、まず、音声認識装置10は、混合音声の特徴量の入力を受け付ける(ステップS101)。次に、音声認識装置10は、混合音声の特徴量を中間特徴量に変換する(ステップS102)。
ここで、音声認識装置10は、目的話者の音声の特徴量の入力を受け付ける(ステップS103)。そして、音声認識装置10は、目的話者の音声の特徴量を補助特徴量に変換する(ステップS104)。なお、ステップS103及びステップS104は、ステップS101及びステップS102より前に行われてもよいし、同時に並行して行われてもよい。
音声認識装置10は、中間特徴量及び補助特徴量を適応済み中間特徴量に変換する(ステップS105)。適応済み中間特徴量は、符号化部11から出力される中間特徴量である。そして、音声認識装置10は、適応済み中間特徴量を復号しシンボル系列を出力する(ステップS106)。
[第1の実施形態の学習装置の処理の流れ]
図4を用いて、学習装置20の処理の流れを説明する。図4は、第1の実施形態に係る学習装置の処理の流れを示すフローチャートである。図4に示すように、まず、学習装置20は、音声認識処理を実行し、シンボル系列を出力する(ステップS201)。ここで、音声認識処理は、図3に示す音声認識装置10による処理と同等の処理である。
次に、学習装置20は、出力したシンボル系列の正解のシンボル系列に対する損失を計算する(ステップS202)。そして、学習装置20は、全NN(ニューラルネットワーク)を1つのend-to-endのモデルとみなし、損失が小さくなるように各NNのパラメータを更新する(ステップS203)。
[第1の実施形態の効果]
これまで説明してきたように、音声認識装置10は、第1のニューラルネットワークを用いて、目的話者の発話の特徴量から補助特徴量を抽出する。また、音声認識装置10は、第2のニューラルネットワークを用いて、補助特徴量及び混合音声の特徴量から、混合音声中の目的話者の発話の特徴を反映した認識用特徴量を抽出する。また、音声認識装置10は、認識用特徴量から、目的話者の発話に対応するシンボル系列を特定する情報を取得する。
このように、音声認識装置10は、end-to-endのニューラルネットワークに適応層を備えることで、認識対象の特徴量を目的話者に適応させておくことができる。このため、第1の実施形態では、分離された音声に対応する話者が短時間区間ごとに入れ替わるという問題が回避され、計算量が削減される。
音声認識装置10で用いられる第1のニューラルネットワークのパラメータ、及び第2のニューラルネットワークのパラメータは、両方のニューラルネットワークを1つのend-to-endのニューラルネットワークとみなして学習されたものである。これにより、音声認識の結果に適応層が最適化されるため、目的話者の音声の認識精度が向上する。
音声認識装置10は、第2のニューラルネットワークの所定の中間層に入力された中間特徴量を、補助特徴量を用いて、目的話者に適応した中間特徴量に変換し中間層から出力させ、中間層から出力させた中間特徴量を認識用特徴量として抽出する。これにより、エンコーダ及びデコーダを持つニューラルネットワークを利用して、目的話者の音声認識を行うことが可能になる。
<第2の実施形態>
第2の実施形態の音声認識装置について説明する。第1の実施形態の音声認識装置と同様に、第2の実施形態の音声認識装置は、従来のend-to-endの音声認識装置の中に特定の話者の音声信号に着目させる機能を加えることで、特定話者の音声認識結果を出力させるようにしたものである。
[第2の実施形態の音声認識装置の構成]
まず、図5を用いて、第2の実施形態に係る音声認識装置の構成について説明する。図5は、第2の実施形態に係る音声認識装置の構成の一例を示す図である。図5に示すように、音声認識装置30は、マスク推定部31、補助特徴量抽出部32及、マスク適用部33及び認識部34を有する。なお、マスク推定部31及びマスク適用部33は、認識用特徴量抽出部の一例である。
音声認識装置30に入力される特徴量及び音声認識装置30から出力される音声認識結果は、第1の実施形態の音声認識装置10のものと同様であるため、説明を省略する。また、補助特徴量抽出部32は、第1の実施形態の補助特徴量抽出部12と同様に、目的話者の音声の特徴量から、補助特徴量を抽出する。なお、第2の実施形態では、混合音声の特徴量及び目的話者の音声の特徴量は、いずれも振幅スペクトル係数(amplitude spectrum coefficients)であるものとする。
マスク推定部31は、学習済みのマスク推定ニューラルネットワークを用いてマスクを推定する。マスクは、混合音声の特徴量から目的話者の音声の特徴量を抽出するための情報である。例えば、マスクは、各時間周波数点の混合音声信号における、目的話者の音声信号の占有率を重みとして表したものである。また、例えば、マスクは、各時間周波数点の混合音声信号において目的話者の音声信号が優勢であるか否かを二値で表したものであってもよい。
マスク推定部31は、マスク推定ニューラルネットワークとして、参考文献5又は参考文献6に記載のニューラルネットワークを用いることができる。なお、マスク推定ニューラルネットワークは、第2のニューラルネットワークの一例である。
参考文献5:A. Narayanan and D. Wang, “Ideal ratio mask estimation using deep neural networks for robust speech recognition,” in Proc. ICASSP’13. IEEE, 2013, pp. 7092-7096.
参考文献6:D. Wang and J. Chen, “Supervised speech separation based on deep learning: An overview,” IEEE/ACM Trans. ASLP, vol. 26, no. 10, pp. 1702-1726, 2018.
マスク推定部31は、マスク推定ニューラルネットワークの所定の中間層に入力された中間特徴量を、補助特徴量を用いて、目的話者に適応した中間特徴量に変換し中間層から出力させた上で、第2のニューラルネットワークの出力をマスクとして取得する。そして、マスク適用部33は、マスクを用いて、混合音声の特徴量から認識用特徴量を抽出する。マスク推定部31及びマスク適用部33は、認識用特徴量抽出部の一例である。
ここで、図5に示すように、マスク推定部31は、第1変換部311、適応部312、第2変換部313を有する。マスク推定部31は、第1の実施形態の符号化部11と同様の方法により中間特徴量を話者に適応させることができる。
適応部312は、適応層として用いられる中間層である。第1変換部311は、適応層よりも前段(入力側)の中間層であり、例えばBLSTMである。一方、第2変換部313は、適応層よりも後段(出力側)の中間層であり、例えばBLSTMである。適応部312は、第1の実施形態と同様に、第1変換部311により出力され適応層に入力された中間特徴量を、(2)式のように変換し、適応層から出力させることができる。
第2変換部113は、適応層から出力された中間特徴量をさらに変換し、マスクを出力する。第2変換部113は、適応層から出力された中間特徴量を線形変換し、さらに活性化関数(Sigmoid関数、ReLU等)により値の範囲を0から1に収めた上でマスクとして出力する。
マスク適用部33は、(3)式のように混合音声の特徴量にマスクを適用し、認識用特徴量を抽出する。ただし、^Xs Ampは認識用特徴量である。また、YAmpは混合音声の特徴量である。また、Msはマスクである。また、(3)式中の丸の中心に点を有する記号は、ベクトルの要素ごとの積(element-wise product)を表す演算子である。
Figure 0007329393000003
そして、認識部34は、認識用特徴量からシンボル系列を出力する。ただし、このとき、認識部34は、振幅スペクトル係数で表される認識用特徴量を対数メルフィルタバンクに変換し、対数メルフィルタバンクに対応する既存のモジュールを利用して音声認識を行ってもよい。
[第2の実施形態の学習装置の構成]
図6を用いて、音声認識装置30で用いられる各ニューラルネットワークの学習を行うための学習装置の構成を説明する。図6は、第2の実施形態に係る学習装置の構成の一例を示す図である。
図6に示すように、学習装置40は、マスク推定部41、補助特徴量抽出部42、マスク適用部43、認識部44及び更新部45を有する。また、マスク推定部41は、第1変換部411、適応部412及び第2変換部413を有する。学習装置40の各処理部は、更新部45を除き、音声認識装置30の同名の処理部と同様の処理を行う。また、学習装置20に入力される各特徴量は学習データであり、混合音声に対応する正解のシンボル系列が既知であるものとする。
更新部45は、補助ニューラルネットワーク及びマスク推定ニューラルネットワークを1つのend-to-endのニューラルネットワークとみなして、各ニューラルネットワークのパラメータの学習を行う。例えば、更新部45は、認識部44によって出力されたシンボル系列と正解のシンボル系列との間の損失が小さくなるように各ニューラルネットワークのパラメータを更新する。
[第2の実施形態の音声認識装置の処理の流れ]
図7を用いて、音声認識装置30の処理の流れを説明する。図7は、第2の実施形態に係る音声認識装置の処理の流れを示すフローチャートである。図7に示すように、まず、音声認識装置30は、混合音声の特徴量の入力を受け付ける(ステップS301)。次に、音声認識装置30は、混合音声の特徴量を中間特徴量に変換する(ステップS302)。
ここで、音声認識装置30は、目的話者の音声の特徴量の入力を受け付ける(ステップS303)。そして、音声認識装置30は、目的話者の音声の特徴量を補助特徴量に変換する(ステップS304)。なお、ステップS303及びステップS304は、ステップS301及びステップS302より前に行われてもよいし、同時に並行して行われてもよい。
音声認識装置30は、中間特徴量及び補助特徴量を適応済み中間特徴量に変換する(ステップS305)。適応済み中間特徴量は、第1変換部311から出力される中間特徴量である。そして、音声認識装置30は、適応済み中間特徴量をマスクに変換する(ステップS306)。
ここで、音声認識装置30は、マスクを用いて、混合音声の特徴量から目的話者特徴量を抽出する(ステップS307)。そして、音声認識装置30は、目的話者特徴量をシンボル系列に変換し出力する(ステップS308)。
なお、学習装置40の処理の流れは、図4に示す第1の実施形態の学習装置20の処理の流れと同様である。ただし、学習装置40は、音声認識装置30と同様の、マスクを使った音声認識処理を行う。
[第2の実施形態の効果]
これまで説明してきたように、音声認識装置30は、マスク推定ニューラルネットワークの所定の中間層に入力された中間特徴量を、補助特徴量を用いて、目的話者に適応した中間特徴量に変換し中間層から出力させた上で、マスク推定ニューラルネットワークの出力をマスクとして取得し、マスクを用いて、混合音声の特徴量から認識用特徴量を抽出する。これにより、マスク推定を行うニューラルネットワークを利用して、目的話者の音声認識を行うことが可能になる。
<第3の実施形態>
これまで説明してきたように、各実施形態においては、全てのニューラルネットワークを1つのend-to-endのニューラルネットワークとみなして学習が行われる。例えば、第1の実施形態では、補助ニューラルネットワークと音声認識ニューラルネットワークとを1つのend-to-endのニューラルネットワークとみなすことができる。また、第2の実施形態では、補助ニューラルネットワークとマスク推定ニューラルネットワークに加え、認識部34によって用いられる音声認識用のニューラルネットワークを1つのend-to-endのニューラルネットワークとみなすことができる。
このようなend-to-endのニューラルネットワークの学習は、マルチタスク学習の枠組みにより行われてもよい。ここでは、第3の実施形態として、マルチタスク学習の枠組みを用いた学習について説明する。なお、以降の説明では、音声認識装置10及び音声認識装置30を区別せずに単に音声認識装置と表記する場合がある。学習装置20及び学習装置40についても同様に、単に学習装置と表記する場合がある。
ここで、学習用に用意された目的話者のクリーンな音声の特徴量をXs(s=1,2,…,N:Nは学習用データの個数)とする。また、混合音声信号の特徴量をYとする。また、目的話者の特徴量Asを音声認識装置に入力して得られる音声認識結果(シンボル系列を特定する情報の推定結果)をWsとする。また、学習装置は、混合音声に基づく損失LMix(Y,Ws,As)及びクリーンな音声に基づく損失LClean(Xs,Ws)の重み付き和を、(4)式のように計算する。ただし、μ及びνはマルチタスク重みである。
Figure 0007329393000004
そして、学習装置は、(4)式の重み付き和が小さくなるように、各ニューラルネットワークのパラメータを更新する。なお、クリーンな音声の特徴量から音声認識結果を得るためには、第1の実施形態では、符号化部にクリーンな音声の特徴量を入力し、適応層における処理を行わないようにすればよい。また、第2の実施形態では、マスク推定部による処理を行わずに、クリーンな音声の特徴量を認識部に直接入力すればよい。
このように、第1のニューラルネットワークのパラメータ、及び第2のニューラルネットワークのパラメータは、音声認識装置が、認識用特徴量から音声認識結果を取得した場合の損失関数と、音声認識装置が、認識用特徴量の代わりに、目的話者のクリーンな音声に基づく特徴量から音声認識結果を取得した場合の損失関数と、の重み付き和を最小化するように学習されたものであってもよい。
<第4の実施形態>
これまでの実施形態では、音声認識装置が、音声認識の結果として、シンボル系列を特定するための情報を出力するものとして説明してきた。一方で、音声認識装置の処理の過程で得られる情報を用いて、目的話者のアクティブな時間区間、すなわち、混合音声の時間区間のうち、目的話者の音声が含まれている時間区間を示す情報を特定する用途に利用することもできる。つまり、上述の実施形態で説明した音声認識装置を、目的話者の発話区間を推定する発話情報推定装置として用いることもできる。発話情報推定装置で得られる発話区間の情報は、混合音声信号の解析(誰が、いつ、発言したかのトラッキング)や、音声強調信号処理(特定の話者の発話区間の音声を強調した強調音声信号を生成する)に応用することができる。
[第4の実施形態の発話情報推定装置の構成]
第4の実施形態の発話情報推定装置の構成を図8に示す。図8は、第4の実施形態に係る発話情報推定装置の構成の一例を示す図である。図8に示すように、発話情報推定装置50は、符号化部51、補助特徴量抽出部52、復号部53及び発話区間推定部53aを有する。また、符号化部51は、第1変換部511、適応部512及び第2変換部513を有する。
ここで、符号化部51、補助特徴量抽出部52及び復号部53は、それぞれ第1の実施形態の符号化部11、補助特徴量抽出部12及び復号部13と同様の機能を有するものとする。また、復号部53は、前述のJoint CTC-Attention decoderであり、復号部53はCTC(Connectionist Temporal Classification)デコーダ531及びアテンションデコーダ532を有する(参考文献2を参照)ものとする。
発話情報推定装置50は、復号部53の処理過程で得られる情報を発話区間の推定に用いることで、目的話者の発話区間(アクティブな区間)の情報を出力することを目的とするものである。このため、発話情報推定装置50は、復号部53から発話区間の推定に必要な情報が得られればよく、混合音声中の目的話者の音声の認識結果である、記号列を特定する情報を必ずしも出力する必要はない。
以下、第1の実施形態との相違点を中心に説明する。第4の実施形態において、符号化部51は、所定時間区間ごとの混合音声信号に基づき、認識用特徴量を抽出する。また、復号部53は、アテンションデコーダ532を用いて、所定時間区間ごとの認識用特徴量から、所定時間区間の混合音声に含まれる目的話者の発話に対応するシンボル系列を特定する情報を取得する。
アテンションデコーダ532は、各時間区間のエンコーダの出力ht及びアテンション重みαu,tから、(5)式のようにコンテキストベクトルcuを計算する。
Figure 0007329393000005
発話区間推定部53aは、所定時間区間ごとに、アテンションデコーダ532で得られるアテンション重みの総和を計算し、当該総和が所定の閾値以上となる時間区間を目的話者がアクティブな時間区間として出力する。具体的には、発話区間推定部53aは、(6)式により、時間区間ごとのアテンション重みの合計を計算し、アテンション重みの合計が閾値以上である時間区間を、目的話者のアクティブな時間区間として特定して出力する。
Figure 0007329393000006
アテンションデコーダ532におけるアテンション重みは、復号情報(記号列を特定する情報)を得る際に、どのエンコーダの出力に着目すべきかを表す。このため、目的話者の音声の情報が含まれる時間区間には大きなアテンション重みが割り当てられると期待される。つまり、アテンション重みの合計が大きい時間区間は、目的話者の音声信号が大きいため、発話区間推定部53aは、(6)式により目的話者がアクティブな区間を特定することができるのである。
[第4の実施形態の発話情報推定装置の処理の流れ]
図9を用いて、発話情報推定装置50の処理の流れを説明する。図9は、第4の実施形態に係る発話情報推定装置の処理の流れを示すフローチャートである。図9に示すように、まず、発話情報推定装置50は、混合音声の特徴量の入力を受け付ける(ステップS501)。次に、発話情報推定装置50は、混合音声の特徴量を中間特徴量に変換する(ステップS502)。
ここで、発話情報推定装置50は、目的話者の音声の特徴量の入力を受け付ける(ステップS503)。そして、発話情報推定装置50は、目的話者の音声の特徴量を補助特徴量に変換する(ステップS504)。なお、ステップS503及びステップS504は、ステップS501及びステップS502より前に行われてもよいし、同時に並行して行われてもよい。
発話情報推定装置50は、中間特徴量及び補助特徴量を適応済み中間特徴量に変換する(ステップS505)。適応済み中間特徴量は、符号化部51から出力される中間特徴量である。そして、発話情報推定装置50は、適応済み中間特徴量の復号において得られる情報を用いて、目的話者のアクティブな時間区間を推定し出力する(ステップS506)。なお、第4の実施形態において、適応済み中間特徴量の復号において得られる情報は、アテンションデコーダ532によって計算されるアテンション重みである。
[第4の実施形態の効果]
発話情報推定装置50は、所定時間区間ごとの混合音声信号に基づき、認識用特徴量を抽出する。また、発話情報推定装置50は、アテンションデコーダを用いて、所定時間区間ごとの認識用特徴量から、所定時間区間の混合音声に含まれる目的話者の発話に対応するシンボル系列を特定する情報を取得する。また、発話情報推定装置50は、所定時間区間ごとに、アテンションデコーダで得られるアテンション重みの総和を計算し、当該総和が所定の閾値以上となる時間区間を目的話者がアクティブな時間区間として出力する。
このように、発話情報推定装置50は、音声認識の過程で得られるアテンション重みを利用して目的話者のアクティブな時間区間を得ることができる。また、音声認識が行われる場合、発話情報推定装置50は、時間区間の推定のための計算を省略し、計算量を削減することが可能になる。
<第5の実施形態>
[第5の実施形態の発話情報推定装置の構成]
第5の実施形態は、第4の実施形態と同じく、目的話者のアクティブな時間区間(発話区間)を推定する発話情報推定装置である。第5の実施形態の発話情報推定装置の構成は、第4の実施形態のものと同じである。一方で、第5の実施形態では、発話区間推定部53aの処理が第4の実施形態のものと相違する。以下、第4の実施形態との相違点を中心に説明する。
ここで、復号部13のCTCデコーダ531は、エンコーダである符号化部51からの出力を記号列として復号する。具体的には、CTCデコーダ531は、ブランクシンボルεを含む各シンボルの時間区間ごとの事後確率を出力する(a、A、bは非ブランクシンボル)。また、シンボル系列は、以下のようなルールにより変換される。
aaa → a
Aab → ab
aεa → aa
目的話者の音声が含まれていない時間区間ほど、ブランクシンボルεの事後確率は大きくなる。発話区間推定部53aは、この性質を利用して、CTCデコーダ531で得られるブランクシンボルの事後確率が所定の閾値以下となる時間区間を、目的話者がアクティブな時間区間として出力する。具体的には、発話区間推定部53aは、復号部13からブランクシンボルεの事後確率を取得し、当該事後確率が閾値以下である時間区間を、目的話者のアクティブな時間区間として特定して出力する。
[第5の実施形態の発話情報推定装置の処理の流れ]
第5の実施形態の発話情報推定装置50の処理の流れは、図9に示すものと同様である。ただし、第5の実施形態においては、適応済み中間特徴量の復号において得られる情報は、CTCデコーダ531によって計算される事後確率である。
[第5の実施形態の効果]
発話情報推定装置50は、所定時間区間ごとの混合音声信号に基づき、認識用特徴量を抽出する。また、発話情報推定装置50は、CTCデコーダ531を用いて、所定時間区間ごとの認識用特徴量から、所定時間区間の混合音声に含まれる目的話者の発話に対応するシンボル系列を特定する情報を取得する。また、発話区間推定部53aは、CTCデコーダ531で得られるブランクシンボルの事後確率が所定の閾値以下となる時間区間を、目的話者がアクティブな時間区間として出力する。
このように、発話情報推定装置50は、音声認識の過程で得られるブランクシンボルの事後確率を利用して、目的話者のアクティブな時間区間を得ることができる。また、音声認識が行われる場合、発話情報推定装置50は、時間区間の推定のための計算を省略し、計算量を削減することが可能になる。
<第4の実施形態及び第5の実施形態の変形例>
第4の実施形態及び第5の実施形態は、第1の実施形態をベースに説明をしたが、第2実施形態の構成を前提としてもよい。第2の実施形態を前提とする場合、認識部34を構成するデコーダ部分がCTCデコーダ及びアテンションデコーダで構成されていれば、そこから第1実施形態の復号部13と同じ情報が得られるので、発話区間推定部は、このデコーダで得られるアテンション重み、若しくはブランクシンボルの事後確率を用いて、目的話者のアクティブな時間区間を特定することができる。
<第6の実施形態>
目的話者のアクティブな時間区間は、第2の実施形態において推定されるマスクから推定することもできる。第6の実施形態では、発話情報推定装置は、マスクを基に時間区間を推定する。
第6の実施形態の発話情報推定装置の構成を図10に示す。図10は、第6の実施形態に係る発話情報推定装置の構成の一例を示す図である。図10に示すように、発話情報推定装置70は、マスク推定部71、補助特徴量抽出部72、マスク適用部73及び発話区間推定部73aを有する。また、マスク推定部71は、第1変換部711、適応部712及び第2変換部713を有する。
ここで、マスク推定部71、補助特徴量抽出部72及びマスク適用部73は、それぞれ第2の実施形態のマスク推定部31、補助特徴量抽出部32及びマスク適用部33と同様の機能を有するものとする。なお、発話情報推定装置70は、第2の実施形態の認識部34に相当する機能部を備えていてもよいし、備えていなくてもよい。
マスク適用部33では、入力された混合音声信号にマスク情報を適用した信号を出力する。この出力される信号は、入力された混合音声信号中の目的話者の音声を強調した強調音声信号といえる。
そこで、発話区間推定部73aは、マスクを混合音声に適用することで得られる信号のエネルギーが所定の閾値以上となる時間区間を、目的話者がアクティブな時間区間として出力する。
[第6の実施形態の発話情報推定装置の処理の流れ]
図11を用いて、発話情報推定装置70の処理の流れを説明する。図11は、第6の実施形態に係る発話情報推定装置の処理の流れを示すフローチャートである。図11に示すように、まず、発話情報推定装置70は、混合音声の特徴量の入力を受け付ける(ステップS701)。次に、発話情報推定装置70は、混合音声の特徴量を中間特徴量に変換する(ステップS702)。
ここで、発話情報推定装置70は、目的話者の音声の特徴量の入力を受け付ける(ステップS703)。そして、発話情報推定装置70は、目的話者の音声の特徴量を補助特徴量に変換する(ステップS704)。なお、ステップS703及びステップS704は、ステップS701及びステップS702より前に行われてもよいし、同時に並行して行われてもよい。
発話情報推定装置70は、中間特徴量及び補助特徴量を適応済み中間特徴量に変換する(ステップS705)。適応済み中間特徴量は、第1変換部311から出力される中間特徴量である。そして、発話情報推定装置70は、適応済み中間特徴量をマスクに変換する(ステップS706)。
ここで、発話情報推定装置70は、マスクを用いて、混合音声の信号から目的話者の強調音声信号を抽出する(ステップS707)。そして、発話情報推定装置70は、強調音声信号のエネルギーが閾値より大きい時間区間を抽出し出力する(ステップS708)。
[第6の実施形態の効果]
発話情報推定装置50は、マスクを混合音声に適用することで得られる信号のエネルギーが所定の閾値以上となる時間区間を、目的話者がアクティブな時間区間として出力する。
このように、発話情報推定装置70は、音声認識の過程で得られるマスクを利用して、目的話者のアクティブな時間区間を得ることができる。また、音声認識が行われる場合、発話情報推定装置70は、時間区間の推定のための計算を省略し、計算量を削減することが可能になる。
<時間区間推定手法の比較結果>
図12は、時間区間推定手法の比較結果を示す図である。図12は、(1)第6の実施形態、(2)第4の実施形態、(3)第5の実施形態のそれぞれの方法を使って目的話者がアクティブな時間区間を抽出した結果を可視化したものである。図12の(a)は、入力として用いる混合音声信号である。(b)は、混合音声信号に含まれる第1の話者のクリーンな音声信号(正解)である。(c)は、混合音声信号に含まれる第2の話者のクリーンな音声信号(正解)である。(d)は、音声認識装置30が推定したマスクを適用して抽出した第1の話者の音声信号(推定値)である。(e)は、音声認識装置30が推定したマスクを適用して抽出した第2の話者の音声信号(推定値)である。
(f)は、各方法により特定された、第1の話者の音声がアクティブな区間である。(g)は、各方法により特定された、第2の話者の音声がアクティブな区間である。(f)及び(g)において、Ref及びMixは、それぞれ正解及び混合音声が発生した時間区間を表している。(1)Enh、(2)Att、(3)CTCは、それぞれ上記の(1)、(2)、(3)の手法に対応している。図12から、特に(3)の方法で、目的話者の音声がアクティブな時間区間を精度良く特定できることがわかる。
<実験結果>
図13から15を用いて、実験の結果について説明する。実験はいずれもESPnet(https://github.com/espnet/espnet)を用いて行われた。まず、従来手法と実施形態の手法の音声認識の精度を比較した結果を図13に示す。「Clean baseline」及び「Dominant baseline」は従来の手法である。「Clean baseline」は、クリーンな音声を用いてモデル学習させた従来のend-to-end音声認識装置(参考文献2)を使ったときの認識結果の精度を示す。「Dominant baseline」は、入力された混合音声信号のうち、音量が大きい方の話者の音声を対象として、従来のend-to-endの音声認識装置で音声認識したときの認識結果の精度を示す。また、「SpkBeam adap enc」は第1の実施形態である。また、「SpkBeam cascade」は第2の実施形態である。また、MTLは、マルチタスク学習を行うか否かを示している。図13に示すように、実施形態では、従来の手法と比べてCER(文字誤り率)及びWER(単語誤り率)が非常に小さくなった。また、マルチタスク学習を行うことでわずかに精度が向上した。
図14は、第2の実施形態のマスク推定部31により得られるマスクを使って目的話者の音声を強調した強調音声信号のSDR(Signal-to-Distortion Ratio)を示している。また、Sameは目的話者と他の話者の性別が同じであることを表している。また、Diffは、目的話者と他の話者の性別が異なることを表している。図14に示すように、マルチタスク学習により強調音声の精度が向上していることがいえる。
図15は、上記の時間区間推定手法の比較結果を表で表したものである。前述の通り、(3)のCTCの事後確率を利用する方法が、DER(Diarization Error Rate)が最も小さくなっており、精度が良いことがいえる。
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU(Central Processing Unit)及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
一実施形態として、実施形態に係る音声認識装置は、パッケージソフトウェアやオンラインソフトウェアとして上記の音声認識処理を実行する音声認識プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の音声認識プログラムを情報処理装置に実行させることにより、情報処理装置を音声認識装置として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
また、音声認識装置は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の音声認識処理に関するサービスを提供する学習サーバ装置として実装することもできる。例えば、学習サーバ装置は、音声データ及び記号列データを入力とし、パラメータを出力とする学習サービスを提供するサーバ装置として実装される。この場合、学習サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の音声認識処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。
図16は、音声認識プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、音声認識装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、音声認識装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020は、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した実施形態の処理を実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10、30 音声認識装置
20、40 学習装置
50、70 発話情報推定装置
11、21、51 符号化部
12、22、32、42、52、72 補助特徴量抽出部
13、23、53 復号部
24、45 更新部
31、41、71 マスク推定部
33、43、73 マスク適用部
34、44 認識部
53a、73a 発話区間推定部
111、211、311、411、511、711 第1変換部
112、212、312、412、512、712 適応部
113、213、313、413、513、713 第2変換部
531 CTCデコーダ
532 アテンションデコーダ

Claims (8)

  1. 目的話者の発話の特徴量を基に第1のニューラルネットワークから出力された所定の個数の時間フレームに対応する特徴量の系列の要素の時間平均を表すベクトルである補助特徴量を計算する補助特徴量抽出部と、
    第2のニューラルネットワークを用いて、前記補助特徴量及び混合音声の特徴量から、前記混合音声中の目的話者の発話の特徴を反映した認識用特徴量を抽出する認識用特徴量抽出部と、
    前記認識用特徴量から、前記目的話者の発話に対応するシンボル系列を取得する認識部と、
    を有することを特徴とする音声信号処理装置。
  2. 前記第1のニューラルネットワーク及び前記第2のニューラルネットワークは、両方のニューラルネットワークを1つのend-to-endのニューラルネットワークとみなして学習されたものであることを特徴とする請求項1に記載の音声信号処理装置。
  3. 前記認識用特徴量抽出部は、第2のニューラルネットワークの所定の中間層に入力された中間特徴量を、前記補助特徴量を用いて、前記目的話者に適応した中間特徴量に変換し前記中間層から出力させ、前記中間層から出力させた中間特徴量を前記認識用特徴量として抽出することを特徴とする請求項1に記載の音声信号処理装置。
  4. コンピュータが、
    目的話者の発話の特徴量を基に第1のニューラルネットワークから出力された所定の個数の時間フレームに対応する特徴量の系列の要素の時間平均を表すベクトルである補助特徴量を計算する補助特徴量抽出工程と、
    第2のニューラルネットワークを用いて、前記補助特徴量及び混合音声の特徴量から、前記目的話者の発話を認識するための認識用特徴量を抽出する認識用特徴量抽出工程と、
    前記認識用特徴量から、前記目的話者の発話に対応するシンボル系列を取得し、当該取得した情報を音声認識結果として出力する認識工程と、
    を実行することを特徴とする音声信号処理方法。
  5. コンピュータを、請求項1から3のいずれか1項に記載の音声信号処理装置として機能させるための音声信号処理プログラム。
  6. 目的話者の発話の特徴量を基に第1のニューラルネットワークから出力された所定の個数の時間フレームに対応する特徴量の系列の要素の時間平均を表すベクトルである補助特徴量を計算する補助特徴量抽出部と、
    第2のニューラルネットワークを用いて、前記補助特徴量及び混合音声の特徴量から、前記混合音声中の前記目的話者の発話の特徴を反映した認識用特徴量を抽出する認識用特徴量抽出部と、
    前記認識用特徴量から、前記目的話者の発話に対応するシンボル系列を取得する認識部と、
    前記第1のニューラルネットワーク及び前記第2のニューラルネットワークを1つのend-to-endのニューラルネットワークとみなして、前記認識部によって取得された情報の正解に対する損失が小さくなるように、各ニューラルネットワークのパラメータを更新する更新部と、
    を有することを特徴とする学習装置。
  7. コンピュータが、
    目的話者の発話の特徴量を基に第1のニューラルネットワークから出力された所定の個数の時間フレームに対応する特徴量の系列の要素の時間平均を表すベクトルである補助特徴量を計算する補助特徴量抽出工程と、
    第2のニューラルネットワークを用いて、前記補助特徴量及び混合音声の特徴量から、前記混合音声中の目的話者の特徴を反映した認識用特徴量を抽出する認識用特徴量抽出工程と、
    前記認識用特徴量から、前記目的話者の発話に対応するシンボル系列を取得する認識工程と、
    前記第1のニューラルネットワーク及び前記第2のニューラルネットワークを1つのend-to-endのニューラルネットワークとみなして、前記認識工程によって取得された情報の正解に対する損失が小さくなるように、各ニューラルネットワークのパラメータを更新する更新工程と、
    を実行することを特徴とする学習方法。
  8. コンピュータを、請求項6に記載の学習装置として機能させるための学習プログラム。
JP2019159954A 2019-09-02 2019-09-02 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム Active JP7329393B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019159954A JP7329393B2 (ja) 2019-09-02 2019-09-02 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019159954A JP7329393B2 (ja) 2019-09-02 2019-09-02 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム

Publications (2)

Publication Number Publication Date
JP2021039219A JP2021039219A (ja) 2021-03-11
JP7329393B2 true JP7329393B2 (ja) 2023-08-18

Family

ID=74848560

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019159954A Active JP7329393B2 (ja) 2019-09-02 2019-09-02 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム

Country Status (1)

Country Link
JP (1) JP7329393B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022259555A1 (ja) * 2021-06-11 2022-12-15 日本電信電話株式会社 音声認識方法、音声認識装置および音声認識プログラム
WO2023238231A1 (ja) * 2022-06-07 2023-12-14 日本電信電話株式会社 目的話者抽出学習システム、目的話者抽出学習方法、及びプログラム
CN117690421A (zh) * 2024-02-02 2024-03-12 深圳市友杰智新科技有限公司 降噪识别联合网络的语音识别方法、装置、设备及介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
デルクロア マーク Marc DELCROIX,日本音響学会 2018年 春季研究発表会講演論文集CD-ROM [CD-ROM],2018年03月,pp.97-98
上乃 聖,CTCによる文字単位のモデルを併用したAttentionによる単語単位のEnd-to-End音声認識,情報処理学会研究報告,Vol. 2018-MUS-118, No.16,日本,日本情報処理学会,2018年02月21日,P1-6及び正誤表
木下 慶介 KEISUKE KINOSHITA,コミュニケーション科学のさらなる深化,NTT技術ジャーナル 第30巻 第9号 ,一般社団法人電気通信協会,2018年09月,第30巻,pp.12-15

Also Published As

Publication number Publication date
JP2021039219A (ja) 2021-03-11

Similar Documents

Publication Publication Date Title
CN108520741B (zh) 一种耳语音恢复方法、装置、设备及可读存储介质
CN106688034B (zh) 具有情感内容的文字至语音转换
JP7329393B2 (ja) 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
US8386254B2 (en) Multi-class constrained maximum likelihood linear regression
CN106875936B (zh) 语音识别方法及装置
JP2015075706A (ja) 誤り修正モデル学習装置、及びプログラム
US10089978B2 (en) Detecting customers with low speech recognition accuracy by investigating consistency of conversation in call-center
JP2020027193A (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
Deena et al. Recurrent neural network language model adaptation for multi-genre broadcast speech recognition and alignment
EP3989217B1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
CN111081230A (zh) 语音识别方法和设备
JP2019215500A (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
Picheny et al. Trends and advances in speech recognition
Gao et al. Seamless equal accuracy ratio for inclusive CTC speech recognition
Shahnawazuddin et al. Improvements in IITG Assamese spoken query system: Background noise suppression and alternate acoustic modeling
Nasr et al. End-to-end speech recognition for arabic dialects
CN114360514A (zh) 语音识别方法、装置、设备、介质及产品
Wu et al. Denoising Recurrent Neural Network for Deep Bidirectional LSTM Based Voice Conversion.
Sakamoto et al. StarGAN-VC+ ASR: Stargan-based non-parallel voice conversion regularized by automatic speech recognition
WO2016152132A1 (ja) 音声処理装置、音声処理システム、音声処理方法、および記録媒体
Drgas et al. Speaker recognition based on multilevel speech signal analysis on Polish corpus
JP6646337B2 (ja) 音声データ処理装置、音声データ処理方法および音声データ処理プログラム
JP7291099B2 (ja) 音声認識方法及び装置
JP7028203B2 (ja) 音声認識装置、音声認識方法、プログラム
JP2021189402A (ja) 音声処理プログラム、音声処理装置及び音声処理方法

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20190917

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20190924

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211021

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230329

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230725

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230807

R150 Certificate of patent or registration of utility model

Ref document number: 7329393

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150