JP2023075883A

JP2023075883A - 音声認識装置およびプログラム

Info

Publication number: JP2023075883A
Application number: JP2022017159A
Authority: JP
Inventors: 裕明佐藤; Hiroaki Sato; 智康小森; Tomoyasu Komori; 剛三島; Takeshi Mishima; 吉彦河合; Yoshihiko Kawai; 貴裕望月; Takahiro Mochizuki; 庄衛佐藤; Shoe Sato
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp; NHK Engineering System Inc
Current assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2021-11-19
Filing date: 2022-02-07
Publication date: 2023-05-31

Abstract

【課題】対象の話題（領域）のテキストのみを用いて音声認識モデルに学習させ、推論時に話題（領域）に適した記号列を出力させることのできる音声認識装置を提供する。【解決手段】エンコーダー部は、音響特徴量のフレームの列を入力し前記音響特徴量のフレームに対応する記号の列として成る出力記号列を出力するように、複数階層で成るモデルを有する。アダプター部は、目的とする領域に属する記号列を入力し、前記エンコーダー部の最終層のモデルに入力するための特徴量を出力する。前記エンコーダー部は、前記音響特徴量のフレーム列と前記出力記号列との関係に基づく機械学習をした後に、前記アダプター部が出力する前記特徴量を前記エンコーダー部の前記最終層のモデルに入力して前記最終層のモデルからの出力に基づく損失である第１損失を用いて前記最終層のモデルの前記目的とする領域への適応化を行うことを可能として構成される。【選択図】図１

Description

本発明は、音声認識装置およびプログラムに関する。

音声認識処理のために用いる手法の一つとして、ＣＴＣ音声認識モデルがある。ＣＴＣは、「Connectionist Temporal Classification」（コネクショニスト時間分類）の略である。ＣＴＣ音声認識モデルは、発音記号等を介さずに、音声と文字列との関係を直接学習するように構成したモデルである。つまり、ＣＴＣ音声認識モデルは、end-to-end音声認識モデルの手法の一つである。ＣＴＣ音声認識モデルは、出力記号列に空白文字列＜ｂｌａｎｋ＞を挿入することと、出力記号列に同一の記号が連続して出現することを許す。これにより、ＣＴＣ音声認識モデルは、特徴量フレームと出力記号列とを対応させる。

非特許文献１には、Intermediate Loss Regularization（中間損失正則化）の手法が記載されている。Intermediate Loss Regularizationは、ＣＴＣ音声認識モデルの中間層にＣＴＣ損失関数を算出する手段を設け、複数の層のＣＴＣ損失関数の値を重み付けして加算することで学習する手法である。

非特許文献２には、Shallow Fusion（シャローフュージョン）の手法が記載されている。Shallow Fusionは、テキストデータのみで学習した言語モデルを音声認識に活用する手法の一つである。Shallow Fusionの手法では、推論時に音声認識モデルと言語モデルの推論確率を対数領域で線形補間することによって、認識結果を出力する。

Jaesong Lee, Shinji Watanabe, "Intermediate Loss Regularization for CTC-based Speech Recognition," In Proc. 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6224-6228, 2021年． Caglar Gulcehre, Orhan Firat, Kelvin Xu, Kyunghyun Cho, Loic Barrault, Huei-Chi Lin, Fethi Bougares, Holger Schwenk, Yoshua Bengio, "On Using Monolingual Corpora in Neural Machine Translation," in arXiv:1503.03535v2, 2015年.

例えば日本語では、「橋」（はし）と「端」（はし）のように、異なる記号列であるがその発音が同一または類似となる表現が存在する。ＣＴＣ音声認識モデルは、出力記号（文字)間の確率が独立であると仮定するモデルである。言い換えれば、出力記号の確率は、隣接する他の記号または近傍の他の記号の確率に依存しない。このため、ＣＴＣ音声認識モデルは、複数の出力記号列の候補が存在する発音に対して、学習結果として得られた発音と記号列との対応に従って、記号列を出力する。このようなＣＴＣ音声認識モデルに、学習時に使用したテキストの話題と異なる話題の音声を認識させると、学習時のテキストに基づいた記号列を出現してしまう傾向がある。例えば、ＣＴＣ音声認識モデルは、認識対象の音声が天気の話題に関するものであって認識結果として「最低気温」と出力すべき箇所において、「最適音」と出力してしまうことが起こり得る。つまり、ＣＴＣ音声認識モデルは、推論するテキストの話題に適さない記号列を出力し、認識誤りを引き起こすという問題がある。

目的とする話題の音声とテキスト（音声認識結果の正解）との対のデータが入手できれば、そのデータを用いて事前にＣＴＣ音声認識モデルの学習を行うこともできるが、そのような音声のデータが事前に入手できるとは限らない。また、そのようなデータの入手が可能であっても、音声に対するアノテーションの作業にはコストがかかる。つまり、従来技術におけるＣＴＣ音声認識モデルの出力記号列を所望の話題に適応させることは、不可能または困難である。

本発明は、上記の課題認識に基づいて行なわれたものであり、推論対象の話題（領域）について音声とテキストとの対のデータが入手できない場合であっても、テキストのみが入手できれば、そのテキストのデータのみを用いて音声認識モデルに学習させ、推論時に話題（領域）に適した記号列を出力させることのできる音声認識装置およびプログラムを提供しようとするものである。

［１］上記の課題を解決するため、本発明の一態様による音声認識装置は、音響特徴量のフレームの列を入力し前記音響特徴量のフレームに対応する記号の列として成る出力記号列を出力するように、複数階層で成るモデルを有し、前記複数階層のモデルのそれぞれが機械学習可能に構成されたエンコーダー部と、目的とする領域に属する記号列を入力し、前記エンコーダー部の最終層のモデルに入力するための特徴量を出力するアダプター部と、を備え、前記エンコーダー部の前記複数階層のモデルにおけるある階層のモデルから次の階層のモデルへは中間特徴量が渡されるものであり、前記エンコーダー部は、前記音響特徴量のフレーム列と前記出力記号列との関係に基づく機械学習をした後に、前記アダプター部が出力する前記特徴量を前記エンコーダー部の前記最終層のモデルに入力して前記最終層のモデルからの出力に基づく損失である第１損失を用いて前記最終層のモデルの前記目的とする領域への適応化を行うことを可能として構成された、ものである。

［２］また、本発明の一態様は、上記の音声認識装置において、前記目的とする領域に属するテキストを基に、前記テキスト内の文字の繰り返し、または前記テキスト内の文字と文字との間への０個以上のブランク記号の挿入、の少なくともいずれかを行うことによって、前記アダプター部に入力するための前記記号列を生成する擬似記号列生成部、をさらに備える。

［３］また、本発明の一態様は、上記の音声認識装置において、所定の統計データを基に得られた出力文字確率分布にしたがって、前記目的とする領域に属するテキストに含まれる文字を別の文字で置換する処理を行う置換処理部、をさらに備え、前記擬似記号列生成部は、前記置換処理部が出力する置換処理後の前記目的とする領域に属するテキストを基に、前記記号列を生成する、ものである。

［４］また、本発明の一態様は、上記の音声認識装置において、前記擬似記号列生成部は、前記テキスト内の文字を繰り返す際の同一文字の繰り返し回数を、前記音響特徴量のフレーム列と前記出力記号列との関係に基づいて学習済みの前記エンコーダー部における所定の階層の前記モデルから出力される特徴量に基づいて算出される記号列である中間記号列における同一文字の繰り返し回数に関する統計に基づいて決定し、前記テキスト内の文字と文字との間に挿入するブランク記号の連続する個数を、前記中間記号列における前記ブランク記号の連続する個数に関する統計に基づいて決定する、ものである。

［５］また、本発明の一態様は、上記の音声認識装置において、前記アダプター部を学習するために前記アダプター部への入力となる記号列を、前記音響特徴量に基づいて前記エンコーダー部の所定の層のモデルから出力された前記中間特徴量に基づいて生成する記号列生成部と、前記記号列生成部によって生成された前記記号列に基づいて前記アダプター部が出力する特徴量についての損失である第２損失を算出するアダプター部用損失計算部と、をさらに備え、前記アダプター部用損失計算部が算出した前記第２損失を用いて前記アダプター部の機械学習を行えるように構成した、ものである。

［６］また、本発明の一態様は、上記の音声認識装置において、前記アダプター部用損失計算部は、前記アダプター部から出力される特徴量を前提としたときの正解の出力記号列の尤度に基づく損失と、前記アダプター部から出力される特徴量と前記エンコーダー部において対応する階層のモデルからの出力である特徴量との差を表す損失と、に基づく前記第２損失を算出する、ものである。

［７］また、本発明の一態様は、上記の音声認識装置において、前記出力記号列の中で繰り返されている文字を集約するとともに、前記出力記号列に含まれる前記ブランク記号を削除することによって得られる文字列を音声認識結果として出力する、ものである。

［８］また、本発明の一態様は、上記の音声認識装置において、前記エンコーダー部は、前記第１損失を用いて前記最終層のモデルの前記目的とする領域への適応化を行う際に、前記音響特徴量のフレーム列に基づいて前記エンコーダー部が有する前記複数階層で成るモデルが出力した記号列と、前記音響特徴量のフレーム列に対応する正解の前記出力記号列と、から得られる第３損失にも基づいた適応化を行う、というものである。なお、本態様は、後述する第２再学習手法を用いるものである。本態様によると、前記目的とする領域（ターゲットドメインと呼ぶ）への適応化を行いながら、エンコーダー部の元の学習を行った領域（ソースドメインと呼ぶ）での認識性能の劣化を防ぐ、あるいは少なくとも抑制することが可能である。

［９］また、本発明の一態様は、音響特徴量のフレームの列を入力し前記音響特徴量のフレームに対応する記号の列として成る出力記号列を出力するように、複数階層で成るモデルを有し、前記複数階層のモデルのそれぞれが機械学習可能に構成されたエンコーダー部と、目的とする領域に属する記号列を入力し、前記エンコーダー部の最終層のモデルに入力するための特徴量を出力するアダプター部と、を備え、前記エンコーダー部の前記複数階層のモデルにおけるある階層のモデルから次の階層のモデルへは中間特徴量が渡されるものであり、前記エンコーダー部は、前記音響特徴量のフレーム列と前記出力記号列との関係に基づく機械学習をした後に、前記アダプター部が出力する前記特徴量を前記エンコーダー部の前記最終層のモデルに入力して前記最終層のモデルからの出力に基づく損失である第１損失を用いて前記最終層のモデルの前記目的とする領域への適応化を行うことを可能として構成された、音声認識装置、としてコンピューターを機能させるためのプログラムである。

本発明によれば、目的領域のテキストデータのみを用いて、音声認識モデルのドメイン適応を行うことが可能となる。

本発明の一実施形態による音声認識装置の概略機能構成を示したブロック図である。同実施形態による音声認識装置が持つ音声認識機能の主要部の機能構成を示すブロック図である。同実施形態による音声認識装置が持つ、アダプター部の学習を行うための機能構成を示すブロック図である。同実施形態による音声認識装置が、第１再学習手法を用いてＥｎｃｏｄｅｒ_ｈ（第３層エンコーダー部）の再学習を行うための機能の構成を示すブロック図である。同実施形態による音声認識装置が、第２再学習手法を用いてＥｎｃｏｄｅｒ_ｈ（第３層エンコーダー部）の再学習を行うための機能の構成を示すブロック図である。同実施形態における、文字列を基にして擬似的なＣＴＣ記号列への変換の処理の手順を示すフローチャート（１／２）である。同実施形態における、文字列を基にして擬似的なＣＴＣ記号列への変換の処理の手順を示すフローチャート（２／２）である。同実施形態による音声認識装置の内部構成の例を示すブロック図である。同実施形態の音声認識装置における、変形例５による置換処理のための部分の機能構成を示すブロック図である。

次に、本発明の一実施形態について、図面を参照しながら説明する。以下では、本実施形態が前提とする技術事項を最初に説明した後で、本実施形態に特有の構成を順次説明する。

発音記号等を介さずに音声と文字列との関係を直接学習させるEnd-to-end音声認識モデルは、長さＴのログメルペクトログラムのような入力音響特徴量系列を、長さＬの出力記号列（文字列）に変換するモデルである。この入力音響特徴量系列ｘは、下の式（１）で表わされる。また、出力記号列ｙは、下の式（２）で表わされる。

上の式（１）におけるＤは、１フレーム分の音響特徴量ｘ［ｔ］の次元数である。上の式（２）におけるＶは、出力記号の集合（ボキャブラリー）である。

従来技術に属する手法であるShallow Fusion（非特許文献２）は、推論時に、音声認識モデルの推論確率と言語モデルの推論確率とを対数領域で線形補間する。Shallow Fusionの手法による認識結果ｙ（ハット）は、下の式（３）で表わされる。

式（３）におけるＰ_ＡＭ（ｙ｜ｘ）は、音声認識モデルの出力記号列の推論確率（入力音響特徴量系列ｘを前提としたときの出力記号列ｙの確率）である。また、Ｐ_ＬＭ（ｙ）は、言語モデルの出力記号列の推論確率（出力記号列ｙの確率）である。この言語モデルＰ_ＬＭ（ｙ）は、テキストデータのみを用いて学習し得るものである。一方、音声認識モデルＰ_ＡＭ（ｙ｜ｘ）は、音声とテキストとの対のデータを用いて学習するものである。

本実施形態の特徴は、テキストデータのみを用いて、言語モデルＰ_ＬＭ（ｙ）ではなく、音声認識モデルＰ_ＡＭ（ｙ｜ｘ）を学習するための構成を有することである。つまり、本実施形態の音声認識装置は、学習用のテキストデータが持つ話題に音声認識モデルを適応化するものである。

次に、ＣＴＣ音声認識モデルの概要を説明する。ＣＴＣ音声認識モデル自体は、既存技術に属する手法である。ＣＴＣ音声認識モデルは、入力される特徴量１フレームごとに１記号を出力する。特徴量のフレーム長と出力記号間の系列長との差は、ブランク記号＜ｂｌａｎｋ＞を挿入し得ることと、出力記号（文字）を連続させ得ることとで吸収される。一例として、４フレームの音響特徴に対して「天気」という記号列を対応させる場合のアラインメントは、以下の１７通りである。なお、ここでは、ブランク記号＜ｂｌａｎｋ＞を「＿」に置き換えて表記している。また、記号と記号との間の区切りを、スラッシュで表わしている。
０１：＿／＿／天／気
０２：＿／天／＿／気
０３：＿／天／気／＿
０４：天／＿／＿／気
０５：天／＿／気／＿
０６：天／気／＿／＿
０７：＿／天／天／気
０８：天／＿／天／気
０９：天／天／＿／気
１０：天／天／気／＿
１１：＿／天／気／気
１２：天／＿／気／気
１３：天／気／＿／気
１４：天／気／気／＿
１５：天／気／気／気
１６：天／天／気／気
１７：天／天／天／気

ＣＴＣ音声認識モデルが推論結果として出力した記号列は、ブランク記号＜ｂｌａｎｋ＞を消去するとともに、連続した同一の記号を１文字に圧縮することによって、認識結果に変換され得る。つまり、上記の１７通りのアラインメントのそれぞれは、「天気」という認識結果に変換される。ただし、正解とする文字が例えば「いい天気」における「いい」のように、正解の認識結果において同一の文字が連続する場合のアラインメントは、これらの「い」と「い」の間に必ずブランク記号＜ｂｌａｎｋ＞が挿入されなければならない。

ＣＴＣ音声認識モデルの学習については、次の通りである。ＣＴＣ音声認識モデルを用いた認識処理では、ニューラルネットワークから抽出された特徴量フレーム列ｈに対して、出力記号列のアラインメントａの確率を計算する。ここで、特徴量フレーム列ｈは、下の式（４）で表わされる。また、アラインメントａは、下の式（５）で表わされる。なお、式（４）および式（５）におけるＴ_ｈは、系列の長さである。

入力される特徴量フレーム列ｈを前提とした出力記号列のアラインメントａは、下の式（６）で表わされる。

出力記号列ｙの、あり得るすべてのアライメントにおける確率の総和は、下の式（７）で求められる。

式（７）におけるβ^－１（ｙ）は、出力記号列ｙと特徴量列ｈに対してとり得るすべてのアラインメントの集合である。ＣＴＣ損失関数Ｌは、上記のＰ（ｙ｜ｈ）の対数をとり、下の式（８）で計算される。

ＣＴＣ音声認識モデルの学習は、上記の損失関数値Ｌを最小化するようにニューラルネットワークの内部パラメーターの値を更新することによって行われる。

本実施形態の音声認識装置が持つ機能のそれぞれは、例えば、コンピューターと、プログラムとで実現することが可能である。また、それらの機能の各々は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ（ＳＳＤ）といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。

本実施形態の音声認識装置１は、Intermediate CTC（非特許文献１）を前提として構成される。本実施形態での音声認識モデルの概要は、次の通りである。本実施形態の音声認識モデルは、Githubで提供されるオープンソースEspnet（https://github.com/espnet/espnet）をベースとして改良を加えたものである。Intermediate CTCでは、ニューラルネットワークの中間の層でもＣＴＣ損失関数の値を計算し、層ごとの重み付けを行った和を最終的な損失関数として、モデルの学習を行う。

図１は、本実施形態による音声認識装置１の概略機能構成を示すブロック図である。図示するように、音声認識装置１は、音声供給部１０と、畳み込みニューラルネットワーク部２０と、第１層エンコーダー部３０（Ｅｎｃｏｄｅｒ_ｌ・３０）と、第２層エンコーダー部４０（Ｅｎｃｏｄｅｒ_ｍ・４０）と、第３層エンコーダー部５０（Ｅｎｃｏｄｅｒ_ｈ・５０）と、目的領域テキスト供給部１１０と、擬似ＣＴＣ記号列生成部１２０と、アダプター部１３０と、ＣＴＣ記号列生成部２１０と、平均二乗誤差損失計算部２２０と、ＣＴＣ損失計算部２３０とを含んで構成される。

音声供給部１０は、音声認識装置１による認識処理の対象となる音声のデータを供給する。音声供給部１０は、音声のデータを、畳み込みニューラルネットワーク部２０に渡す。音声供給部１０は、音声のデータとして、例えばベクトルで表わされる音響特徴量の列を供給する。

畳み込みニューラルネットワーク部２０は、音声供給部１０から渡される音声データの畳み込み処理を行う。畳み込みニューラルネットワーク部２０は、畳み込み処理の結果として得られる特徴量（後述するｈ_０）を、第１層エンコーダー部３０に渡す。

第１層エンコーダー部３０と、第２層エンコーダー部４０と、第３層エンコーダー部５０とは、３層構成のエンコーダーである。第１層エンコーダー部３０と、第２層エンコーダー部４０と、第３層エンコーダー部５０とのそれぞれは、セルフアテンションニューラルネットワークを用いて実現される。音声認識装置１は、第１層エンコーダー部３０と、第２層エンコーダー部４０と、第３層エンコーダー部５０とのそれぞれの出力について、損失を計算する機能（ＣＴＣ損失計算部）を有するが、本図ではその機能を省略している。損失を計算する機能については、図２で説明する。

複数の階層のモデルで構成される第１層エンコーダー部３０と、第２層エンコーダー部４０と、第３層エンコーダー部５０とを、あわせて「エンコーダー部」と呼んでもよい。エンコーダー部は、音響特徴量のフレームの列を入力し前記音響特徴量のフレームに対応する記号の列として成る出力記号列を出力するように、複数階層で成るモデルを有し、前記複数階層のモデルのそれぞれが機械学習可能に構成されたものである。エンコーダー部の複数階層のモデルにおけるある階層のモデルから次の階層のモデルへは中間特徴量（後述するｈ_ｌやｈ_ｍ）が渡される。なお、このエンコーダー部は、前記音響特徴量のフレーム列と前記出力記号列との関係に基づく機械学習をした後に、前記アダプター部が出力する前記特徴量を前記エンコーダー部の前記最終層のモデル（第３層エンコーダー部５０）に入力して前記最終層のモデル（第３層エンコーダー部５０）からの出力に基づく損失である第１損失を用いて前記最終層のモデル（第３層エンコーダー部５０）の前記目的とする領域への適応化を行うことを可能として構成されている。

第１層エンコーダー部３０は、Ｅｎｃｏｄｅｒ_ｌ・３０とも呼ばれ、畳み込みニューラルネットワーク部２０から受け取る特徴量ｈ_０を基に、特徴量ｈ_ｌを算出し、第２層エンコーダー部４０に渡す。第２層エンコーダー部４０は、Ｅｎｃｏｄｅｒ_ｍ・４０とも呼ばれ、第１層エンコーダー部３０から受け取る特徴量ｈ_ｌを基に、特徴量ｈ_ｍを算出し、第３層エンコーダー部５０に渡す。第３層エンコーダー部５０は、Ｅｎｃｏｄｅｒ_ｈ・５０とも呼ばれ、第２層エンコーダー部４０から受け取る特徴量ｈ_ｍを基に、特徴量ｈ_ｈを算出し、出力する。

なお、特徴量ｈ_０、ｈ_ｌ、ｈ_ｍ、ｈ_ｈのそれぞれは、ベクトルの系列である。

目的領域テキスト供給部１１０は、Ｅｎｃｏｄｅｒ_ｈ・５０の適応化を行うためのテキストデータを供給する。目的領域テキスト供給部１１０は、推論時にＥｎｃｏｄｅｒ_ｈ・５０が目的とする領域（ドメイン）に合ったテキストを出力するように、当該領域のテキストを供給する。目的領域テキスト供給部１１０は、目的領域のテキストを擬似ＣＴＣ記号列生成部１２０に渡す。

擬似ＣＴＣ記号列生成部１２０は、目的領域テキスト供給部１１０から渡されるテキスト文字列を基に、擬似的なＣＴＣ記号列を生成する。擬似ＣＴＣ記号列生成部１２０は、単に「擬似記号列生成部」とも呼ばれる。擬似的なＣＴＣ記号列の生成の方法については、後でフローチャート等を参照しながら詳細に説明する。１つのテキスト文字列に対して、複数のＣＴＣ記号列が対応し得る。つまり、擬似ＣＴＣ記号列生成部１２０は、１つのテキスト文字列に対応して、複数の擬似的なＣＴＣ記号列を出力する。言い換えれば、擬似ＣＴＣ記号列生成部１２０は、１つのテキスト文字列を、複数通りの擬似的ＣＴＣ記号列に変換する。なお、擬似ＣＴＣ記号列生成部１２０は、目的領域テキスト供給部１１０が供給するテキストデータに含まれるそれぞれのテキスト文字列に対応して、複数の擬似的ＣＴＣ記号列を生成することができる。

擬似ＣＴＣ記号列生成部１２０は、目的とするドメインに属するテキストを基に、前記テキスト内の文字の繰り返し、または前記テキスト内の文字と文字との間への０個以上のブランク記号の挿入、の少なくともいずれかを行うことによって、アダプター部１３０に入力するための記号列を生成するものである。擬似ＣＴＣ記号列生成部１２０は、前記テキスト内の文字を繰り返す際の同一文字の繰り返し回数を、前記音響特徴量のフレーム列と前記出力記号列との関係に基づいて学習済みの前記エンコーダー部における所定の階層の前記モデルから出力される特徴量に基づいて算出される記号列である中間記号列における同一文字の繰り返し回数に関する統計に基づいて決定してよい。また、擬似ＣＴＣ記号列生成部１２０は、前記テキスト内の文字と文字との間に挿入するブランク記号の連続する個数を、前記中間記号列における前記ブランク記号の連続する個数に関する統計に基づいて決定してよい。

アダプター部１３０は、Ｅｎｃｏｄｅｒ_ｈ・５０の適応化を行う場合に、擬似ＣＴＣ記号列生成部１２０から渡される擬似ＣＴＣ記号列のそれぞれを、Ｅｎｃｏｄｅｒ_ｈ・５０に入力するための特徴量に変換する。つまり、アダプター部１３０は、ターゲットとする領域に属する記号列（擬似ＣＴＣ記号列）を入力し、その記号列に基づいて、前記エンコーダー部の最終層のモデル（Ｅｎｃｏｄｅｒ_ｈ・５０）に入力するための特徴量を出力するものである。

なお、アダプター部１３０は、セルフアテンションニューラルネットワークを用いて実現され、学習可能となるように構成されている。つまり、アダプター部１３０は、学習する。アダプター部１３０の学習を行う場合には、アダプター部１３０は、後述するＣＴＣ記号列生成部２１０から渡される記号列を基に、Ｅｎｃｏｄｅｒ_ｍ・４０が出力する特徴量に近い特徴量を生成する。アダプター部１３０の学習により、アダプター部１３０が出力する特徴量は、Ｅｎｃｏｄｅｒ_ｍ・４０が出力する特徴量に近づくことが期待される。アダプター部１３０の学習の際には、後述する平均二乗誤差損失計算部２２０とＣＴＣ損失計算部２３０とが計算する損失に基づいて、アダプター部１３０の内部のニューラルネットワークのパラメーターの調整が行われる。つまり、アダプター部１３０は、後述する「第２損失」を用いて機械学習を行えるように構成されている。

ＣＴＣ記号列生成部２１０は、アダプター部１３０の学習を行う際に、Ｅｎｃｏｄｅｒ_ｌ・３０から出力される特徴量ｈ_ｌを基に、アラインメントａ_ｌ（ハット）を求める。ＣＴＣ記号列生成部２１０は、求めたａ_ｌ（ハット）をアダプター部１３０に渡す。つまり、ＣＴＣ記号列生成部２１０は、アダプター部１３０を学習するためにアダプター部１３０への入力となる記号列を、音響特徴量に基づいてエンコーダー部の所定の層（Ｅｎｃｏｄｅｒ_ｌ・３０）のモデルから出力された中間特徴量に基づいて生成する。ＣＴＣ記号列生成部２１０は、単に「記号列生成部」とも呼ばれる。

平均二乗誤差損失計算部２２０とＣＴＣ損失計算部２３０とは、アダプター部１３０の学習を行う際に、それぞれ、アダプター部１３０から出力される特徴量ｈ_ｍ（ハット）に関する損失を計算する。つまり、平均二乗誤差損失計算部２２０とＣＴＣ損失計算部２３０とのそれぞれは、アダプター部１３０の学習のための損失を計算するアダプター部用損失計算部の機能の一部である。平均二乗誤差損失計算部２２０およびＣＴＣ損失計算部２３０が算出する損失の詳細については、後で説明する。平均二乗誤差損失計算部２２０とＣＴＣ損失計算部２３０とが算出する損失は、アダプター部１３０の内部のニューラルネットワークのパラメーターの更新のために用いられる。

［音声認識機能］
図２は、本実施形態による音声認識装置１が持つ音声認識機能の主要部の機能構成を示すブロック図である。図示するように、音声認識装置１は、畳み込みニューラルネットワーク部２０と、Ｅｎｃｏｄｅｒ_ｌ・３０と、ＣＴＣ損失計算部３２と、Ｅｎｃｏｄｅｒ_ｍ・４０と、ＣＴＣ損失計算部４２と、Ｅｎｃｏｄｅｒ_ｈ・５０と、ＣＴＣ損失計算部５２とを含んで構成される。

図示する通り、音声認識モデルは、Ｃｏｎｖｏｌｕｔｉｏｎ（畳み込みニューラルネットワーク部２０）、Ｅｎｃｏｄｅｒ_ｌ・３０（低レベルエンコーダー）、Ｅｎｃｏｄｅｒ_ｍ・４０（中間レベルエンコーダー）、Ｅｎｃｏｄｅｒ_ｈ・５０（高レベルエンコーダー）の４つのニューラルネットワークを持つように構成される。これら４つのニューラルネットワークのそれぞれは、複数の層で構成される。なお、Ｅｎｃｏｄｅｒ_ｌ・３０と、Ｅｎｃｏｄｅｒ_ｍ・４０と、Ｅｎｃｏｄｅｒ_ｈ・５０とは、それぞれセルフアテンションネットワークである。この音声認識モデルは、Ｅｎｃｏｄｅｒ_ｌ・３０、Ｅｎｃｏｄｅｒ_ｍ・４０、Ｅｎｃｏｄｅｒ_ｈ・５０の出力から、それぞれ、ＣＴＣ損失関数値Ｌ_ｌ、Ｌ_ｍ、Ｌ_ｈを算出する。なお、Ｃｏｎｖｏｌｕｔｉｏｎの出力である特徴量ｈ_０は、下の式（９）および式（１０）の通りである。

なお、式（９）において、Ｔ_ｈは、特徴量の系列長である。また、Ｄ_ｈは、ｈ_０に含まれる個々のベクトルの次元数である。また、式（１０）に示すように、ｈ_０は、音響特徴量ｘを入力したときのＣｏｎｖｏｌｕｔｉｏｎの出力である。

Ｅｎｃｏｄｅｒ_ｌ・３０からの出力ｈ_ｌ、Ｅｎｃｏｄｅｒ_ｍ・４０からの出力ｈ_ｍ、およびＥｎｃｏｄｅｒ_ｈ・５０からの出力ｈ_ｈは、下の式（１１）の通りであり、それぞれ、式（１２）、式（１３）、および式（１４）で算出される。

即ち、特徴量ｈ_ｌは、特徴量ｈ_０を入力としてＥｎｃｏｄｅｒ_ｌ・３０が出力する量である。また、特徴量ｈ_ｍは、特徴量ｈ_ｌを入力としてＥｎｃｏｄｅｒ_ｍ・４０が出力する量である。また、特徴量ｈ_ｈは、特徴量ｈ_ｍを入力としてＥｎｃｏｄｅｒ_ｈ・５０が出力する量である。

Ｅｎｃｏｄｅｒ_ｌ・３０、Ｅｎｃｏｄｅｒ_ｍ・４０、およびＥｎｃｏｄｅｒ_ｈ・５０が出からの出力に対するそれぞれの損失関数値Ｌ_ｌ、Ｌ_ｍ、およびＬ_ｈは、それぞれ下の式（１５）、式（１６）、および式（１７）によって算出される。ＣＴＣ損失計算部３２は、Ｅｎｃｏｄｅｒ_ｌ・３０から出力される特徴量ｈ_ｌを基に、損失Ｌ_ｌを算出する。ＣＴＣ損失計算部４２は、Ｅｎｃｏｄｅｒ_ｍ・４０から出力される特徴量ｈ_ｍを基に、損失Ｌ_ｍを算出する。ＣＴＣ損失計算部５２は、Ｅｎｃｏｄｅｒ_ｈ・５０から出力される特徴量ｈ_ｈを基に、損失Ｌ_ｈを算出する。

ベースモデルにおける目的関数は、例えば上記の損失関数値Ｌ_ｌとＬ_ｍとＬ_ｈとの平均として、下の式（１８）で計算される。

つまり、本実施形態が前提とするIntermediate CTCでは、式（１８）によって算出されるＬｏｓｓ_１を最小化するように、ニューラルネットワークの内部パラメーターを更新することによって学習を行う。

次に、本実施形態の音声認識装置１において、目的とする話題のテキストデータを用いて、音声認識モデルを再学習するための構成について説明する。本実施形態では、テキスト文字列を疑似的にＣＴＣ記号列に変換し、その変換結果であるＣＴＣ記号列を、後述するニューラルネットワークＡｄａｐｔｅｒで特徴量フレームに変換する。本実施形態では、この特徴量フレームを用いて前述のIntermediate CTC音声認識モデル（本実施形態が前提とするモデル）のＥｎｄｏｃｅｒ_ｈを再学習することによって、目的とする話題にニューラルネットワークを適応させる。

［Ａｄａｐｔｅｒの学習］
図３は、本実施形態による音声認識装置１が持つ、アダプター部１３０（単に「Ａｄａｐｔｅｒ」とも呼ぶ）の学習を行うための構成を示すブロック図である。Ａｄａｐｔｅｒは、後述する音声認識モデルの再学習において、擬似ＣＴＣ記号列を、Ｅｎｃｏｄｅｒ_ｈ・５０に入力するための特徴量に変換する役割を果たす。図示するように、音声認識装置１は、畳み込みニューラルネットワーク部２０と、Ｅｎｃｏｄｅｒ_ｌ・３０と、Ｅｎｃｏｄｅｒ_ｍ・４０と、Ｅｎｃｏｄｅｒ_ｈ・５０と、アダプター部１３０と、ＣＴＣ記号列生成部２１０と、平均二乗誤差損失計算部２２０と、ＣＴＣ損失計算部２３０とを含んで構成される。

図３に示す各部の機能については、既に説明した通りである。つまり、ＣＴＣ記号列生成部２１０は、Ｅｎｃｏｄｅｒ_ｌ・３０から出力される特徴量ｈ_ｌに基づいて、アラインメントａ_ｌ（ハット）を生成する。アダプターは、アラインメントａ_ｌ（ハット）を入力し、特徴量の推定値ｈ_ｍ（ハット）を出力する。平均二乗誤差損失計算部２２０およびＣＴＣ損失計算部２３０がそれぞれ算出する損失に基づいて、アダプター部１３０の学習が行われる。学習により、アダプター部１３０は、Ｅｎｃｏｄｅｒ_ｍ・４０が出力する特徴量ｈ_ｍに近い特徴量を出力するようになることが期待される。

ここで、ニューラルネットワークＡｄａｐｔｅｒの学習の詳細について説明する。音声認識装置１は、学習済みのIntermediate CTC音声認識モデル（図３）に音響特徴量ｘを入力し、下の式（１９）および式（２０）によって特徴量ｈ_ｍを算出する。

このｈ_ｍの算出の過程は、既に式（１０）、式（１２）、および式（１３）で説明した計算と同様である。また、特徴量ｈ_ｌに対して最も尤度の高いアラインメントａ_ｌ（ハット）は、次の式（２１）で算出される。

音声認識装置１は、ＣＴＣアラインメント系列がＥｎｃｏｄｅｒ_ｍの出力特徴量フレームｈ_ｍに近づくように、Ａｄａｐｔｅｒの学習を行う。つまり、音声認識装置１は、Ａｄａｐｔｅｒが持つニューラルネットワークの内部パラメーターを更新する。アラインメントａ_ｌ（ハット）をＡｄａｐｔｅｒに入力したときの出力であるｈ_ｍ（ハット）は、下の式（２２）で求められる。

音声認識装置１は、式（２２）のｈ_ｍ（ハット）をｈ_ｍに近づけるように、Ａｄａｐｔｅｒの学習を行う。具体的には、音声認識装置１は、下の式（２３）で算出される損失関数値Ｌ_ｍと、式（２４）によって算出される損失関数値Ｌ_ｍｓｅに基づいて、Ａｄａｐｔｅｒが持つニューラルネットワークの内部パラメーターを更新する。なお、ＣＴＣ損失計算部２３０が、式（２３）に基づいて、Ａｄａｐｔｅｒからの出力であるｈ_ｍ（ハット）を前提としたときの正解の出力記号列であるｙの尤度に基づく損失Ｌ_ｍを算出する。また、平均二乗誤差損失計算部２２０が、式（２４）に基づいて、Ａｄａｐｔｅｒからの出力であるｈ_ｍ（ハット）とＥｎｃｏｄｅｒ_ｍ・４０（Ａｄａｐｔｅｒに対応する階層のモデル）からの出力である特徴量との差を表す損失Ｌ_ｍｓｅを算出する。

式（２４）に示す損失関数値Ｌ_ｍｓｅは、平均二乗誤差損失である。音声認識装置１が、Ａｄａｐｔｅｒを学習する際の目的関数の一例は、下の式（２５）によって計算されるものである。

なお、式（２５）において、αはハイパーパラメーターである。音声認識装置１は、式（２５）で表わされる損失Ｌｏｓｓ_２を最小化するように、Ａｄａｐｔｅｒが持つニューラルネットワークの内部パラメーターを更新する。この損失Ｌｏｓｓ_２を便宜的に「第２損失」と呼ぶ場合がある。なお、音声認識装置１は、Ａｄａｐｔｅｒ内の複数層のニューラルネットワークの最終層以外の層についてのパラメーターを更新するように、Ａｄａｐｔｅｒの学習を行う。なお、音声認識装置１は、Ａｄａｐｔｅｒの学習時には、学習済みのＥｎｃｏｄｅｒ_ｍ・４０の最終層のパラメーターの値をそのままＡｄａｐｔｅｒの最終層のパラメーターに流用する。このようにすることで、Ｅｎｃｏｄｅｒ_ｍ・４０の出力が模擬できるように、Ａｄａｐｔｅｒの最終層以外の層のパラメーターが調整（更新）される。このようなＡｄａｐｔｅｒの学習を行うことによって、Ａｄａｐｔｅｒは、ＣＴＣ記号列をＥｎｃｏｄｅｒ_ｍの出力特徴量フレームｈ_ｍに変換するモデルになることが期待される。

［Ｅｎｃｏｄｅｒ_ｈ・５０の再学習］
次に、Ｅｎｃｏｄｅｒ_ｈ・５０の再学習について説明する。Ｅｎｃｏｄｅｒ_ｈ・５０の再学習では、推論対象の音声の話題が含まれるテキスト文字列を学習データとして用いて、推論対象の話題の認識精度を向上させる。以下において、前述のIntermediate CTC音声認識モデルおよびＡｄａｐｔｅｒを学習した音声の話題が属するドメインをソースドメインと呼び、推論対象の音声の話題が属するドメインをターゲットドメインと呼ぶ。Ｅｎｃｏｄｅｒ_ｈ・５０の再学習を行うための手法として、以下に説明する、第１再学習手法および第２再学習手法のいずれかを用いるようにしてよい。本実施形態では、用途等に応じて、第１再学習手法あるいは第２再学習手法のいずれかを任意に選択することができる。

［Ｅｎｃｏｄｅｒ_ｈ・５０の再学習：第１再学習手法］
図４は、本実施形態による音声認識装置１が、第１再学習手法を用いてＥｎｃｏｄｅｒ_ｈ・５０の再学習を行うための機能の構成を示すブロック図である。第１再学習手法では、ターゲットドメインのテキストのみを用いたドメイン適応を行う。Ｅｎｃｏｄｅｒ_ｈ・５０の再学習を行うのは、上述したＡｄａｐｔｅｒの学習が完了していることが前提である。図示するように、音声認識装置１は、Ｅｎｃｏｄｅｒ_ｈ・５０と、ＣＴＣ損失計算部５２と、擬似ＣＴＣ記号列生成部１２０と、アダプター部１３０とを含んで構成される。なお、図４には、畳み込みニューラルネットワーク部２０と、Ｅｎｃｏｄｅｒ_ｌ・３０と、Ｅｎｃｏｄｅｒ_ｍ・４０も記載している。

なお、図示する通り、擬似ＣＴＣ記号列生成部１２０と、アダプター部１３０と、Ｅｎｃｏｄｅｒ_ｈ・５０と、ＣＴＣ損失計算部５２とを含む構成を、モデル適応化装置２と呼んでもよい。モデル適応化装置２は、畳み込みニューラルネットワーク部２０と、Ｅｎｃｏｄｅｒ_ｌ・３０と、Ｅｎｃｏｄｅｒ_ｍ・４０と、Ｅｎｃｏｄｅｒ_ｈ・５０とを含んで成る音声認識モデルの、少なくとも認識結果出力側の層のエンコーダー（本実施形態ではＥｎｃｏｄｅｒ_ｈ・５０のみ）の目的領域への適応化を行う。本実施形態の特徴は、このモデル適応化装置２が、目的とする領域の音声データを必要とせず、その領域のテキストデータのみに基づいて動作する点である。

なお、図４に示す各部の機能の概略については、既に説明した通りである。つまり、学習済みのアダプター部１３０は、擬似ＣＴＣ記号列生成部１２０が出力する擬似ＣＴＣ記号列に基づいて、Ｅｎｃｏｄｅｒ_ｍ・４０が出力するであろう特徴量ｈ_ｍに近い特徴量を出力する。Ｅｎｃｏｄｅｒ_ｈ・５０は、そのアダプター部１３０からの出力に基づいて、特徴量ｈ_ｈ，ｉ（ハット）を出力する。Ｅｎｃｏｄｅｒ_ｈ・５０は、ＣＴＣ損失計算部５２が算出する損失に基づいて、内部のニューラルネットワークのパラメーターを調整する。なお、Ｅｎｃｏｄｅｒ_ｈ・５０の再学習のためにＣＴＣ損失計算部５２が算出する損失を便宜的に「第１損失」と呼ぶ場合がある。つまり、第１損失は、Ａｄａｐｔｅｒが出力する特徴量をＥｎｃｏｄｅｒ_ｈ・５０のモデルに入力して得られるＥｎｃｏｄｅｒ_ｈ・５０からの出力に基づく損失である。

図４を参照しながら、第１再学習手法によるＥｎｃｏｄｅｒ_ｈ・５０の再学習の詳細について説明する。上でＡｄａｐｔｅｒの学習方法について説明したが、ここでは、学習済みのＡｄａｐｔｅｒを用いて、Ｅｎｃｏｄｅｒ_ｈ・５０の再学習を行う。Ｅｎｃｏｄｅｒ_ｈ・５０の再学習では、認識対象とする音声の話題が含まれるテキスト文字列のみを学習データとして用いる。言い換えれば、Ｅｎｃｏｄｅｒ_ｈ・５０の再学習では、目的とする話題（領域）のテキスト文字列の学習データを用いる。

第１再学習手法によるＥｎｃｏｄｅｒ_ｈ・５０の再学習においては、音声認識装置１は、まず、学習データであるターゲットドメインのテキスト文字列を基に、後述する擬似ＣＴＣ記号列変換手法を用いて、Ｎ個の擬似的なＣＴＣ記号列を生成する。このＮ個の擬似的なＣＴＣ記号列は、下の式（２６）で表わされるａ_ｉ（ハット）である。

音声認識装置１のＣＴＣ損失計算部５２は、上記のａ_ｉ（ハット）に対して、下の式（２７）および式（２８）によって、損失関数値Ｌ_ｈ，ｉを計算する。

つまり、ｉ番目の損失関数値（ｉ＝１，・・・，Ｎ）であるＬ_ｈ，ｉは、ｉ番目のＣＴＣ記号列であるａ_ｉ（ハット）を入力することによってＡｄａｐｔｅｒが出力する特徴量を、Ｅｎｃｏｄｅｒ_ｈ・５０に入力することによって得られるｈ_ｈ，ｉ（ハット）を基に算出される。第１再学習手法によってＥｎｃｏｄｅｒ_ｈ・５０の適応化学習を行う際の目的関数は、Ｎ個の損失関数値の平均として下の式（２９）によって計算される。

Ｅｎｃｏｄｅｒ_ｈの再学習の過程では、音声認識装置１は、式（２９）で表わされるＬｏｓｓ_３の値を最小化するように、ニューラルネットワークの内部パラメーターを更新する。ただし、Ｅｎｃｏｄｅｒ_ｈ・５０の再学習の際には、音声認識装置１は、学習済みのＡｄａｐｔｅｒのパラメーターを固定とする。即ち、音声認識装置１は、Ｅｎｃｏｄｅｒ_ｈ・５０の再学習の段階では、Ａｄａｐｔｅｒの内部パラメーターを更新せず、Ｅｎｃｏｄｅｒ_ｈ・５０の内部パラメーターの更新を行う。

上記のような再学習を完了したときには、Ｅｎｃｏｄｅｒ_ｈ・５０のニューラルネットワークは、再学習に用いたテキスト文字列の話題に適応していることが期待される。

［Ｅｎｃｏｄｅｒ_ｈ・５０の再学習：第２再学習手法］
図５は、本実施形態による音声認識装置１が、第１再学習手法を用いてＥｎｃｏｄｅｒ_ｈ・５０の再学習を行うための機能の構成を示すブロック図である。図示するように、音声認識装置１は、Ｅｎｃｏｄｅｒ_ｈ・５０と、ＣＴＣ損失計算部５２と、擬似ＣＴＣ記号列生成部１２０と、アダプター部１３０と、畳み込みニューラルネットワーク部２０と、Ｅｎｃｏｄｅｒ_ｌ・３０と、Ｅｎｃｏｄｅｒ_ｍ・４０とを含んで構成される。また、ここでは、Ｅｎｃｏｄｅｒ_ｈ・５０と、ＣＴＣ損失計算部５２と、擬似ＣＴＣ記号列生成部１２０と、アダプター部１３０と、畳み込みニューラルネットワーク部２０と、Ｅｎｃｏｄｅｒ_ｌ・３０と、Ｅｎｃｏｄｅｒ_ｍ・４０とを含む構成は、第２再学習手法による処理を実行するモデル適応化装置２として機能する。第２再学習手法では、Ｅｎｃｏｄｅｒ_ｈ・５０の再学習に、ターゲットドメインのテキストだけではなく、ソースドメインの音声テキスト対も用いたドメイン適応を行う。第２再学習手法を用いる場合には、ソースドメインの音声認識精度劣化を軽減する効果が期待される。

第２再学習手法によるＥｎｃｏｄｅｒ_ｈ・５０の再学習においては、音声認識装置１は、学習データであるターゲットドメインのテキスト文字列を基に、後述する擬似ＣＴＣ記号列変換手法を用いて、Ｎ_ｔ個の擬似的なＣＴＣ記号列を生成する。このＮ_ｔ個の擬似的なＣＴＣ記号列は、下の式（３０）で表わされるａ_ｔ，ｉ（ハット）である。

音声認識装置１のＣＴＣ損失計算部５２は、上記のａ_ｔ，ｉ（ハット）に対して、下の式（３１）および式（３２）によって、損失関数値Ｌ_ｔ，ｉを計算する。

また、学習済みのIntermediate CTC音声認識モデルにＮ_ｓ個の音響特徴量の列を入力することによって、損失関数値Ｌ_ｓ，ｊを計算する。この音響特徴量の列は、下の式（３３）によって表される。また、損失関数値Ｌ_ｓ，ｊは、式（３４）、式（３５）、式（３６）、および式（３７）によって計算される。

つまり、畳み込みニューラルネットワーク部２０は、音響特徴量の列ｘ_ｊの畳み込みを行い、Ｃｏｎｖｏｌｕｔｉｏｎ（ｘ_ｊ）を出力する。Ｅｎｃｏｄｅｒ_ｌ・３０は、Ｃｏｎｖｏｌｕｔｉｏｎ（ｘ_ｊ）を基に、ｈ_ｓｌ，ｊを出力する。Ｅｎｃｏｄｅｒ_ｍ・４０は、ｈ_ｓｌ，ｊを基に、ｈ_ｓｍ，ｊを出力する。Ｅｎｃｏｄｅｒ_ｈ・５０は、ｈ_ｓｍ，ｊを基に、ｈ_ｓｈ，ｊを出力する。

第２再学習手法における目的関数は、下の式（３８）に表わされるＬｏｓｓ_ｓｔである。

つまり、Ｌｏｓｓ_ｓｔは、Ｎ_ｔ個の損失関数値Ｌ_ｔ，ｉの平均に対して、Ｎ_ｓ個の損失関数値Ｌ_ｓ，ｊの平均を、ソースドメインの認識精度劣化を抑制する正則化項として加えたものである。モデル適応化装置２は、Ｌｏｓｓ_ｓｔを最小化するようにモデルのパラメーターを更新することにより、Ｅｎｃｏｄｅｒ_ｈ・５０の再学習を行う。ただし、このとき、Ａｄａｐｔｅｒのパラメーターについては学習せず、固定とする。再学習の完了したＥｎｃｏｄｅｒ_ｈ・５０は、ソースドメインの音声に対する処理能力を落とさずに、テキスト文字列の話題に適応したニューラルネットワークとなる。

上記の式（３７）によって算出される損失を便宜的に「第３損失」と呼ぶ。つまり、第３損失は、音響特徴量のフレーム列に基づいてエンコーダー部が有する複数階層（本実施形態では、第１層エンコーダー部３０、第２層エンコーダー部４０、および第３層エンコーダー部５０）で成るモデルが出力した記号列と、音響特徴量のフレーム列に対応する正解の出力記号列と、から得られる（算出される）損失である。つまり、ここで説明する第２再学習手法では、エンコーダー部は、第１損失を用いて最終層のモデルの目的とする領域（ターゲットドメイン）への適応化を行う際に、上記の第３損失にも基づいた適応化を行う。即ち、式（３８）で表わされる損失Ｌｏｓｓ_ｓｔに基づく再学習を行う。第２再学習手法によると、目的とする領域（ターゲットドメイン）への適応化を行いながら、エンコーダー部の元の学習を行った領域（ソースドメイン）での認識性能の劣化を防ぐ、あるいは少なくとも抑制することが可能である。

以上において説明した第１再学習手法と第２再学習手法とを比較したとき、第１再学習手法を用いる場合の方が、第２再学習手法を用いる場合よりも、ターゲットドメインでの音声認識精度の向上が期待できる。なお、第１再学習手法を用いた場合には、ソースドメインでの音声認識精度は劣化する。第２再学習手法を用いる場合には、ターゲットドメインの音声認識精度の改善効果は小さくなるが、ソースドメインの音声認識精度劣化を軽減する効果が期待できる。

［擬似ＣＴＣ記号列の生成］
次に、テキスト文字列を、疑似的なＣＴＣ記号列に変換する方法について説明する。擬似ＣＴＣ記号列は、上述したＥｎｃｏｄｅｒ_ｈ・５０の再学習のために用いたものである。音声認識装置１は、学習用のテキストデータに含まれる文字列を基に、擬似的なＣＴＣ記号列の集合を生成する。

あるテキスト文字列を疑似的なＣＴＣ記号列に変換する場合を考える。例えば、ＣＴＣ記号列の長さを６に限定した場合、「いい天気」という文字列に対応するＣＴＣ記号列は以下の９通りである。
１：＿／い／＿／い／天／気
２：い／＿／＿／い／天／気
３：い／＿／い／＿／天／気
４：い／＿／い／天／＿／気
５：い／＿／い／天／気／＿
６：い／い／＿／い／天／気
７：い／＿／い／い／天／気
８：い／＿／い／天／天／気
９：い／＿／い／天／気／気

上記の擬似的なＣＴＣ記号列において、「＿」は、ブランク記号＜ｂｌａｎｋ＞を簡略化した表現である。ＣＴＣ記号列では、「いい」のように同じ記号が連続する箇所には必ずブランク記号＜ｂｌａｎｋ＞がその間に挿入される。なお、記号と記号との間の区切りを、スラッシュで表わしている。

ブランク記号＜ｂｌａｎｋ＞の位置は、特徴量フレームのうちの発音が存在しない位置（時間帯）であると捉えることができる。上で例示したように、ある文字列（ここでは「いい天気」）に対応するＣＴＣ記号列は数多く存在する。つまり、ある文字列に対応するすべてのＣＴＣ記号列のパターンを用いてニューラルネットワークの学習を行うと、その学習処理に膨大な時間を必要とする場合もある。一方で、ＣＴＣ記号列においては、存在し得る記号列であるが現実的には生じにくい記号列も存在する。例えば、「いい天気」という文字列に対して、長さ１０のＣＴＣ記号列が生成されることを仮定した場合に、「い／＿／＿／＿／＿／＿／＿／い／天／気」といった、「い」と「い」の間に長時間発音が存在しない区間がある場合や、「い／＿／い／天／気／気／気／気／気／気」のように特定の記号の繰り返し（発音区間）が所定の長さ以上に長くなるような特徴量フレームは、現実的には生じにくい。したがって、あるテキスト文字列をＣＴＣ記号列に変換するときに、現実的に生じ得ると考えられるパターンの記号列のみに限定することもできる。

そこで、本実施形態の音声認識装置１は、学習済みのIntermediate CTCのＥｎｃｏｄｅｒ_ｌから出力される特徴量フレームｈ_ｌに基づいて算出されるＣＴＣ記号列であるａ_ｉ（ハット）において、統計に基づいて、生じやすい擬似的なＣＴＣ記号列への変換を行う。具体的には、音声認識装置１は、同一記号の連続数およびブランク記号＜ｂｌａｎｋ＞の連続数の統計から生成する確率密度関数に則って、疑似的なＣＴＣ記号列への変換を行う。

擬似的なＣＴＣ記号列を生成するための統計をとるために、例えば、Intermediate CTCの学習に使用した音声データを使用する。音声データを、学習済みのIntermediate CTCに入力し、Ｅｎｃｏｄｅｒ_ｌから出力されるａ_ｌ（ハット）を基に統計をとる。具体的には、ａ_ｌ（ハット）において、同一の記号（ただしブランク記号を除く）が連続してｎ回出現した回数をＮ_ｃ（ｎ）とし、ブランク記号＜ｂｌａｎｋ＞が連続してｎ回出現した回数をＮ_ｂ（ｎ）とする。これらの回数のデータを基に、同一の記号（ただしブランク記号を除く）の連続数の確率密度関数Ｐ_ｃ（ｎ）、およびブランク記号＜ｂｌａｎｋ＞の連続数の確率密度関数Ｐ_ｂ（ｎ）を、それぞれ、下の式（３９）および式（４０）で求める。つまり、本実施形態では、音声に基づいてエンコーダーから実際に出力される記号列に関する統計に基づいて、確率密度関数を生成する。

確率密度関数を求めるための計算の例は、次の通りである。音声データの中に、「いい天気」および「明日」という２つの言語表現が含まれる場合を想定する。「いい天気」および「明日」という音声に対してＥｎｃｏｄｅｒ_ｌが出力するＣＴＣ記号列が、それぞれ、「＿／＿／い／＿／い／い／い／＿／天／気／＿／＿／＿」および「＿／明／明／＿／＿／＿／日／日／＿」である場合に、記号の連続数は次の通りである。なお、ブランク記号＜ｂｌａｎｋ＞を「＿」と表している。

ブランク記号以外の記号（文字）の連続数ごとの出現回数は、以下の通りである。
Ｎ_ｃ（０）＝０
Ｎ_ｃ（１）＝３：（「い」、「天」、「気」が該当）
Ｎ_ｃ（２）＝２：（「明／明」、「日／日」が該当）
Ｎ_ｃ（３）＝１：（「い／い／い」が該当する）

よって、確率Ｐ_ｃ（ｎ）は、次の通りである。
Ｐ_ｃ（０）＝０／６＝０
Ｐ_ｃ（１）＝３／６＝１／２
Ｐ_ｃ（２）＝２／６＝１／３
Ｐ_ｃ（３）＝１／６

一方、ブランク記号＜ｂｌａｎｋ＞の連続数ごとの出現回数は、以下の通りである。
Ｎ_ｂ（０）＝１：（「天」と「気」の間に「＿」が存在しないため、Ｎ_ｂ（０）をカウントする）
Ｎ_ｂ（１）＝４：（「い」と「い」の間、「い」と「天」の間、「明」の前、「日」の後が該当）
Ｎ_ｂ（２）＝１：（「い」の前が該当）
Ｎ_ｂ（３）＝２：（「気」の後、「明」と「日」の間が該当）

よって、確率Ｐ_ｂ（ｎ）は、次の通りである。
Ｐ_ｂ（０）＝１／８
Ｐ_ｂ（１）＝４／８＝１／２
Ｐ_ｂ（２）＝１／８
Ｐ_ｂ（３）＝２／８＝１／４

上記の例は、「いい天気」および「明日」という２つの音声データに基づいて算出した確率値であるが、実際にとる統計はIntermediate CTCの学習に用いたすべての音声データに基づいて作成するものである。これにより、学習に用いた音声データに対応するＣＴＣ記号列において、連続して出現する記号（ブランク記号以外、あるいはブランク記号＜ｂｌａｎｋ＞）の連続数に関する確率（傾向）が把握される。

図６および図７は、擬似的なＣＴＣ記号列への変換の処理の手順を示すフローチャートである。図６と図７とは結合子で結合されており、これら両図で１つのフローチャートである。このフローチャートの処理を実行するのは、擬似ＣＴＣ記号列生成部１２０である。以下では、このフローチャートを参照しながら、ＣＴＣ記号列を生成するための処理の手順を説明する。

このフローチャートの処理では、テキスト文字列ｃを、ＣＴＣ記号列ａ_ｉ（ハット）に変換する。このフローチャートの処理を繰り返すことにより、複数の（Ｎ個の）ＣＴＣ記号列ａ_ｉ（ハット）（ただし、ｉ＝１，・・・，Ｎ）を作り出すことができる。なお、テキスト文字列ｃは、下の式（４１）で表わされる通りである。なお、式（４１）において、Ｖはブランク記号を含まない出力記号（つまり、文字）の集合であり、Ｊは文字列ｃの長さ（文字数）である。

まず図６のステップＳ１において、擬似ＣＴＣ記号列生成部１２０は、ａ_ｉ（ハット）をヌル記号列に設定（初期化）する。

次のステップＳ２は、ループ１の始点である。ここで擬似ＣＴＣ記号列生成部１２０は、ループ１に関する条件の制御を行う。このフローチャートにおいて、ｊは、ループ１における繰り返しの指標となる変数である。そして、ループ１の初期条件はｊ＝１である。ループ１の繰り返し時の条件は「＋１」（即ち、ｊ＝ｊ＋１）である。ループ１の終了判定条件は「Ｊ」（ｊ≦Ｊの条件を満たさなくなるようなｊの場合にはループを抜ける）である。つまり、ループ１の処理は、ｊ＝１のときから、ｊ＝Ｊのときまで、ｊを１ずつ増分させながら繰り返される。なお、ループ１の終点は、ステップＳ１０である。

次にステップＳ３において、擬似ＣＴＣ記号列生成部１２０は、Ｐ_ｂ（ｎ）に従い、確率的にブランク記号＜ｂｌａｎｋ＞の連続数Ｎ_ｂを選択する。つまり、擬似ＣＴＣ記号列生成部１２０は、予め得られた統計に基づいて且つランダムな要素にしたがって連続数Ｎ_ｂを選択する。ステップＳ３の処理では、確率がゼロでない限りは、Ｎ_ｂ＝０，１，２，・・・のいずれかであり得る。

次にステップＳ４において、擬似ＣＴＣ記号列生成部１２０は、その時点での文字の位置ｊに関して、（ｊ≠１）且つ（ｃ［ｊ－１］＝＝ｃ［ｊ］）という条件の真偽を判定する。なお、ｊ＝１の場合には条件が偽であることが確定するためｃ［ｊ－１］を参照しないようにしてもよい。あるいはｃ［０］が任意の何らかの記号であるという前提を置いてもよい。上記の条件が真の場合（ステップＳ４：ＹＥＳ）には次のステップＳ５に進む。上記の条件が偽の場合（ステップＳ４：ＮＯ）には図７のステップＳ８に飛ぶ。このステップＳ４における条件判定に基づく分岐は、入力文字列内において同一文字が連続する箇所についてのみ、ステップＳ５からＳ７までの処理を実行させるためのものである。

次にステップＳ５に進んだ場合、次の通りである。即ち、ステップＳ５は、ループ２の始点である。ここで擬似ＣＴＣ記号列生成部１２０は、ループ２に関する条件の制御を行う。ループ２の内部の処理が実行される条件は、（Ｎ_ｂ＝０）である。Ｎ_ｂの初期値（ステップＳ３において決定されたＮ_ｂ）が０ではない場合には、ループ２の内部の処理は一度も実行されない。Ｎ_ｂの初期値が０である場合は、Ｎ_ｂの値が０である間、ループ２の処理を繰り返す。Ｎ_ｂの値が０ではなくなったときに、ループ２を抜け出す。なお、ループ２の終点は、ステップＳ７である。

ステップＳ６は、ループ２の内部における唯一のステップである。ステップＳ６において、擬似ＣＴＣ記号列生成部１２０は、Ｐ_ｂ（ｎ）に従い、確率的にブランク記号＜ｂｌａｎｋ＞の連続数Ｎ_ｂを選択する。なお、Ｎ_ｂの選択を行う都度、異なる確率的要素に基づいた選択を行うこととする。つまり、Ｎ_ｂの選択を繰り返すうちに、Ｎ_ｂとして０以外の値が選択されることが期待できる。

ステップＳ７は、ループ２の終点である。前記の（Ｎ_ｂ＝０）の条件が真である場合には、ループ２の処理を繰り返す。（Ｎ_ｂ＝０）の条件が偽である場合には、ループ２を抜け出して次の図７のステップＳ８に進む。つまり、ループ２を抜け出した時点で、Ｎ_ｂとして０以外の値が選択されている。

図７のステップＳ８において、擬似ＣＴＣ記号列生成部１２０は、既に決定されているＮ_ｂの値に基づいて、Ｎ_ｂ個のブランク記号＜ｂｌａｎｋ＞を、その時点での記号列ａ_ｉ（ハット）の後側（通常は、右側）に連結する。

次にステップＳ９において、擬似ＣＴＣ記号列生成部１２０は、予め求められているＰ_ｃ（ｎ）に従い、確率的に文字（ブランク記号以外の記号）の連続数Ｎ_ｃを選択する。つまり、擬似ＣＴＣ記号列生成部１２０は、予め得られた統計に基づいて且つランダムな要素にしたがって連続数Ｎ_ｃを選択する。つまり、確率がゼロでない限りは、Ｎ_ｃ＝０，１，２，・・・のいずれかであり得る。次に、擬似ＣＴＣ記号列生成部１２０は、連続するＮ_ｃ個（Ｎ_ｃは、本ステップにおいて選択された値）の文字ｃ［ｊ］を、その時点での記号列ａ_ｉ（ハット）の後側（通常は、右側）に連結する。

ステップＳ１０は、ループ１の終点である。前記の条件の通り、ｊの値を＋１（増分１）して、その結果としてｊの値が１，２，・・・，Ｊのいずれかである限りは、ループ１の処理を繰り返す。繰り返しの条件が満たされなくなるとき、即ち、Ｊを増分することによってｊの値がＪ＋１に達する場合には、ループ１を抜け出して次のＳ１１に進む。つまり、ループ１を抜け出した時点で、変換元の文字列における文字ｃ［１］からｃ［Ｊ］までの処理が完了している。

次にステップＳ１１において、擬似ＣＴＣ記号列生成部１２０は、予め求められているＰ_ｂ（ｎ）に従い、確率的にブランク記号＜ｂｌａｎｋ＞の連続数Ｎ_ｂを選択する。つまり、擬似ＣＴＣ記号列生成部１２０は、予め得られた統計に基づいて且つランダムな要素にしたがって連続数Ｎ_ｂを選択する。つまり、確率がゼロでない限りは、Ｎ_ｂ＝０，１，２，・・・のいずれかであり得る。次に、擬似ＣＴＣ記号列生成部１２０は、連続するＮ_ｂ個（Ｎ_ｂは、本ステップにおいて選択された値）のブランク記号＜ｂｌａｎｋ＞を、その時点での記号列ａ_ｉ（ハット）の最後に連結する。

このフローチャートで示す処理のうち、ステップＳ１の処理を初期化処理と捉えることができる。また、ステップＳ３からＳ８までの処理を第１フェーズの処理と捉えることができる。第１フェーズの処理は、連続するブランク記号＜ｂｌａｎｋ＞の連続数を決めてその数のブランク記号＜ｂｌａｎｋ＞を生成すべき文字列の一部として連結する処理である。また、ステップＳ９の処理を第２フェーズの処理と捉えることができる。第２フェーズの処理は、連続する文字（ブランク記号以外）の連続数を決めてその数の文字生成すべき文字列の一部として連結する処理である。第１フェーズの処理と第２フェーズの処理とは、変換元のテキスト文字列に含まれる各文字（先頭から順に）について繰り返される（ステップＳ２とステップＳ１０とで制御されるループ１の処理）。そして、ステップＳ１１の処理を第３フェーズの処理と捉えることができる。第３フェーズの処理は、上記のループ１の処理の後に、即ち入力文字列の最後の文字の後に続くブランク記号＜ｂｌａｎｋ＞の連続数を決めてその数のブランク記号＜ｂｌａｎｋ＞を生成すべき文字列の一部として連結する処理である。

ここで、実例を用いて、上記のフローチャートの処理を説明する。例として、変換元のテキスト文字列が「明日はいい天気」である場合を想定する。

＜第１フェーズの処理＞
前述のフローチャートのステップＳ３における処理として、算出済みのＰ_ｂ（ｎ）にしたがって、確率的にブランク記号＜ｂｌａｎｋ＞の連続数であるＮ_ｂを選択する。ここでは選択されたＮ_ｂが３である場合を想定する。Ｎ_ｂ＝３が選択される確率は、前記の例ではＰ_ｂ（３）＝１／４である。前述のフローチャートのステップＳ８における処理として、ａ_ｉ（ハット）に３個のブランク記号＜ｂｌａｎｋ＞を連結すると、ａ_ｉ（ハット）＝「＿／＿／＿」となる。ただし、スラッシュは、便宜的に挿入している記号間の区切りである。

＜第２フェーズの処理＞
前述のフローチャートのステップＳ９における処理として、算出済みのＰ_ｃ（ｎ）にしたがって、確率的にブランク以外の記号（つまり、文字）の連続数であるＮ_ｃを選択する。選択されたＮ_ｃが２である場合を想定する。ここではＮ_ｃ＝２が選択される確率は、前記の例ではＰ_ｃ（２）＝１／３である。そして、Ｎ_ｃ個（即ちここでは２個）の文字「明」の連続を、ａ_ｉ（ハット）に連結する。すると、ａ_ｉ（ハット）＝「＿／＿／＿／明／明」となる。スラッシュは、便宜的に挿入している記号間の区切りである。

＜第１フェーズと第２フェーズの繰り返し＞
入力文字列に含まれる残りの文字である「日」、「は」、「い」、「い」、「天」、「気」のそれぞれについても、上記の第１フェーズおよび第２フェーズの処理が繰り返される。

＜第３フェーズの処理＞
上記の繰り返し処理が終了した後に、第３フェーズの処理を行うことにより、ＣＴＣ記号列に、最後に連続するブランク記号＜ｂｌａｎｋ＞が付加される。

なお、入力文字列内において同一の文字が連続する場合（「明日はいい天気」における「いい」が該当）には、その連続する文字（「い」と「い」）の間のブランク記号＜ｂｌａｎｋ＞の数Ｎ_ｂは０にはならない。このことは、フローチャート内のステップＳ５からＳ７までの処理によって保証される。

以上のようにして、「明日はいい天気」という文字列を基に、例えば、「＿／＿／＿／明／明／＿／日／日／＿／＿／は／い／＿／い／＿／天／天／気／＿／＿」などといったＣＴＣ記号列が出力される。なお、Ｎ個のＣＴＣ記号列ａ_ｉ（ハット）のそれぞれは、確率的要素（文字の連続数またはブランク記号＜ｂｌａｎｋ＞の連続数）に基づいて生成されるため、偶然に一致する場合の組を除いて互いに異なる記号列となることが充分に期待される。

［推論時の処理］
次に、モデルの学習が完了した状態における音声認識装置１の推論時の処理について説明する。なお、推論を実行する前提として、目的とする領域のテキストデータを用いたＥｎｃｏｄｅｒ_ｈの再学習も完了している。

入力される認識対象の音声ｘに対して、音声認識装置１は、下の式（４２）によって、出力特徴量ｈ_ｈを算出する。また、音声認識装置１は、下の式（４３）によって、特徴量ｈ_ｈを基に、ＣＴＣ記号列ａ（ハット）を求める。

そして、音声認識装置１は、従来技術におけるＣＴＣ音声認識の手法と同様に、求められたＣＴＣ記号列ａ（ハット）に含まれる同一文字の連続を１文字にまとめるとともに、ブランク記号＜ｂｌａｎｋ＞を削除することにより、音声認識結果のテキストを得る。つまり、音声認識装置１は、出力記号列（ａ（ハット））の中で繰り返されている文字を集約するとともに、当該出力記号列に含まれるブランク記号を削除することによって得られる文字列を音声認識結果として出力する。

図８は、本実施形態の音声認識装置１の内部構成の例を示すブロック図である。音声認識装置１は、コンピューターを用いて実現され得る。図示するように、そのコンピューターは、中央処理装置９０１と、ＲＡＭ９０２と、入出力ポート９０３と、入出力デバイス９０４や９０５等と、バス９０６と、を含んで構成される。コンピューター自体は、既存技術を用いて実現可能である。中央処理装置９０１は、ＲＡＭ９０２等から読み込んだプログラムに含まれる命令を実行する。中央処理装置９０１は、各命令にしたがって、ＲＡＭ９０２にデータを書き込んだり、ＲＡＭ９０２からデータを読み出したり、算術演算や論理演算を行ったりする。ＲＡＭ９０２は、データやプログラムを記憶する。ＲＡＭ９０２に含まれる各要素は、アドレスを持ち、アドレスを用いてアクセスされ得るものである。なお、ＲＡＭは、「ランダムアクセスメモリー」の略である。入出力ポート９０３は、中央処理装置９０１が外部の入出力デバイス等とデータのやり取りを行うためのポートである。入出力デバイス９０４や９０５は、入出力デバイスである。入出力デバイス９０４や９０５は、入出力ポート９０３を介して中央処理装置９０１との間でデータをやりとりする。バス９０６は、コンピューター内部で使用される共通の通信路である。例えば、中央処理装置９０１は、バス９０６を介してＲＡＭ９０２のデータを読んだり書いたりする。また、例えば、中央処理装置９０１は、バス９０６を介して入出力ポートにアクセスする。

なお、上述した実施形態における音声認識装置１の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。つまり、「コンピューター読み取り可能な記録媒体」とは、非一過性の（non-transitory）コンピューター読み取り可能な記録媒体であってよい。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

なお、ニューラルネットワークの学習（パラメーターの更新）においては、算出された損失に基づく誤差逆伝播法を用いることができる。

以上、実施形態を説明したが、本発明はさらに下記のような変形例でも実施することが可能である。なお、複数の実施形態および変形例を、組み合わせることが可能な限りにおいて、組み合わせて実施してもよい。

［変形例１］
上記実施形態では、エンコーダーを３階層（第１層エンコーダー部３０（Ｅｎｃｏｄｅｒ_ｌ・３０）と、第２層エンコーダー部４０（Ｅｎｃｏｄｅｒ_ｍ・４０）と、第３層エンコーダー部５０（Ｅｎｃｏｄｅｒ_ｈ・５０））で実現した。エンコーダーの階層数を他の数としてもよい。例えば、エンコーダーの階層数を４以上としてもよい。そのような場合にも、少なくともエンコーダーの最終層（高レベル側）を含む層について、目的領域のテキストに基づく適応化を行えるようにする。

［変形例２］
図１に示した音声認識装置１の全体を実施する代わりに、図４に示したモデル適応化装置２のみを実施してもよい。その場合にも、モデル適応化装置２は、音声認識モデルの適応化を行うことができる。つまり、モデル適応化装置２は、目的領域のテキストに基づいて、音声認識モデルが目的領域に合った音声認識結果の文字列を出力するように、適応化を行うことができる。

［変形例３］
話題（分野、領域）ごとに異なるＥｎｃｏｄｅｒ_ｈ・５０の再学習を予め行っておいてもよい。その場合には、音声認識対象の話題に合ったＥｎｃｏｄｅｒ_ｈ・５０をその都度選択することにより、話題に合った音声認識結果の文字列が出力されることとなる。また、逆に、その都度、目的とする話題のテキストを用いて、Ｅｎｃｏｄｅｒ_ｈの学習を行ってもよい。

［変形例４］
上記実施形態では、Ｅｎｃｏｄｅｒ_ｈ・５０の再学習のために、擬似ＣＴＣ記号列生成部１２０が擬似的なＣＴＣ記号列を生成した。変形例として、擬似ＣＴＣ記号列生成部１２０を設ける代わりに、目的とする領域に属する記号列（擬似ＣＴＣ記号列に相当するもの）を外部から与えるようにしてもよい。この場合にも、Ａｄａｐｔｅｒは、その記号列に基づいて、Ｅｎｃｏｄｅｒ_ｈ・５０に入力するための特徴量を算出して、出力する。

［変形例５］
変形例５として、テキスト文字列を疑似的なＣＴＣ記号列に変換する前に、テキスト文字列における文字の置換処理を行ってもよい。このような置換処理を行うことにより、テキスト文字列は、Ｅｎｃｏｄｅｒ_ｌ・３０が出力する文字列の誤りのパターンに似るという効果がある。そして、そのような置換処理後のテキスト文字列を基に、擬似的なＣＴＣ記号列を生成するようにする。つまり、このような誤りを含み得る文字列に対応するＣＴＣ記号列を基に、Ａｄａｐｔｅｒを介して、Ｅｎｃｏｄｅｒ_ｈ・５０の再学習を行うことができる。これにより、認識性能のさらなる向上を期待することができる。

図９は、音声認識装置１内における、この変形例５による置換処理のための部分の機能構成を示すブロック図である。図示するように、変形例５による音声認識装置１（モデル適応化装置２）は、置換処理部１１５を備える。置換処理部１１５は、目標領域テキスト供給部１１０が供給するテキストデータ（文字列）における文字の置換の処理を行う。置換処理部１１５は、置換後のテキストデータ（文字列）を、擬似ＣＴＣ記号列生成部１２０に渡す。変形例５においては、擬似ＣＴＣ記号列生成部１２０は、目的領域テキスト供給部１１０から渡されるテキスト文字列を基に、置換処理部１１５が文字の置換を行った後の文字列を用いて、擬似的なＣＴＣ記号列を生成する。

変形例５で用いる出力文字確率分布の算出方法は、次の通りである。学習済みのIntermediate CTCに、Intermediate CTCの学習に使用した音声データを入力する。各音声データに対してＥｎｃｏｄｅｒ_ｌ・３０が出力した最も高い確率であるアライメントａ_ｌ（ハット）は下の式（４４）で表わされる。

このａ_ｌ（ハット）の位置ｔ＝ｔ´において、下の式（４５）である場合を考える。

上記の式（４５）の場合に、ｔ＝ｔ´の位置において、Ｅｎｃｏｄｅｒ_ｌ・３０が各記号ｖ（ｖはＶの要素）を出力する確率を、下の式（４６）の通りとする。つまり、式（４６）が表す確率は、記号ｓが記号ｖによって置換される確率であり、ｔに依存しない。

各学習データの各ｔにおいて、その位置の記号がｓ（ｓは、上記の通りＶの要素）であった場合に、上記の式（４６）の確率を計算し、計算された確率を平均したものを、出力文字確率分布Ｐ_ｓ（ｖ）と定義する。この出力文字確率分布が求まると、下の式（４７）で表わされる値は、ある文字ｓが正解の文字である場合に、Ｅｎｃｏｄｅｒ_ｌ・３０が誤って他の文字ｓ´を出力する確率であるとみなせる。

すべてのｓ（ｓはＶの要素）に対し、出力文字確率分布Ｐ_ｓ（ｖ）を算出し、テキスト文字列の置換処理に利用することができる。

この変形例５におけるテキスト文字列の置換処理は、次のように行われる。つまり、テキスト文字列ｃに含まれる各文字ｃ［ｊ］に対して、下の式（４８）で表わされる出力文字確率分布（上で獲得済み）にしたがって、文字の置換を行う。

例えばテキスト文字列ｃが「天気予報です」である場合、ｃ［１］＝天である。また、文字の置換に関して、下の式（４９）および式（５０）の通りであるとする。

この例の場合には、０．８の確率で天から天への置換処理を行う。即ち、天の文字は変化せず、このような置換によって元の文字列ｃは変化しない。一方、０．１の確率で天から点への置換処理を行う。即ち、天が点に置換されるため、元の文字列ｃは「点気予報です」に変化する。上記の置換処理を、文字列ｃに含まれるすべてのｃ［ｊ］について行うことによって、Ｅｎｃｏｄｅｒ_ｌ・３０が出力する文字列の誤りに類似することを意図した文字列を得ることができる。そして、このような置換処理に基づいて得られるＣＴＣ記号列を用いて、Ｅｎｃｏｄｅｒ_ｈ・５０の再学習を行うことができる。

つまり、変形例５において、置換処理部１１５は、所定の統計データを基に得られた出力文字確率分布にしたがって、目的とする領域に属するテキスト（目標領域テキスト供給部１１０から供給されるテキスト）に含まれる文字を別の文字で置換する処理を行う。また、擬似ＣＴＣ記号列生成部１２０は、この置換処理部１１５が出力する置換処理後の目的とする領域に属するテキストを基に、ＣＴＣ記号列を生成する処理を行う。

以上、この発明の実施形態（変形例を含む）について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

以上説明したように、本実施形態（変形例を含む）では、テキストデータのみによってend-to-end音声認識モデルを適応化することができる。つまり、テキストデータのみで（音声データなしで）、音声認識モデルをドメイン適応させ、対象ドメインの認識精度を向上させることが可能である。

［構成の効果の検証］
上で説明した実施形態による音声認識装置１の効果を検証するための実証実験を行った。実証実験に用いた第１の音声は、音声学に関する学会発表音声等を収録するＣＳＪコーパスである。このＣＳＪコーパスを用いて、Intermediate CTCの学習、およびＡｄａｐｔｅｒの学習を行った。その後、上で学習済みのIntermediate CTCのうちのＥｎｃｏｄｅｒ_ｈについて、天気予報のテキストデータを用いて、第１再学習手法および第２再学習手法のそれぞれでの再学習を行った。天気予報のテキストデータによる再学習の前後のそれぞれのＥｎｃｏｄｅｒ_ｈを用いて、第２の音声である天気予報評価セットとＣＳＪコーパス評価セットにおける文字誤り率（ＣＥＲ、Character Error Rate）を算出した。また、テキスト文字列の置換処理（変形例５で説明した処理）がある場合とない場合との文字誤り率を算出した。

第１再学習手法および第２再学習手法の両方に共通する実験の諸元は、次の通りである。
特徴量：ログメルスペクトログラム８０次元＋ピッチ３次元+Δ+ΔΔの合計２４９次元
文字種：３２６０種類

使用したモデルは、次の通りである。
Ｃｏｎｖｏｌｕｔｉｏｎ：畳み込みニューラルネットワーク２層
Ｅｎｃｏｄｅｒ_ｌ： Conformer ６層
Ｅｎｃｏｄｅｒ_ｍ： Conformer ３層
Ｅｎｃｏｄｅｒ_ｈ： Conformer ３層
Ａｄａｐｔｅｒ： Conformer ６層
生成する疑似ＣＴＣ記号列数Ｎ：６４

以下は、Ｅｎｃｏｄｅｒ_ｈ・５０の再学習を行うための、第１再学習手法と第２再学習手法のそれぞれの個別の実験諸元と実験結果である。

第１再学習手法（ターゲットドメインのテキストのみを用いたドメイン適応）に関する学習用データは、次の通りである。
１）Intermediate CTCの学習：ＣＳＪコーパス
２）Ａｄａｐｔｅｒの学習：ＣＳＪコーパス
３）Ｅｎｃｏｄｅｒ_ｈの再学習：天気予報テキスト１０００文

第１再学習手法に関する評価データは、次の通りである。
１）ＣＳＪ評価セットの、eval1、eval2、およびeval3
２）天気予報評価音声２時間分ただし、Ｅｎｃｏｄｅｒ_ｈの再学習に使用した天気予報テキスト１０００文の音声は含まれていない。

第１再学習手法に関する学習諸元は、次の通りである。
１）Intermediate CTCの学習：１００エポック（epoch）中の、validation loss（検証損失）が最も低かったときのエポックを学習したモデルを使用
２）Ａｄａｐｔｅｒの学習：５０エポック中、validation loss が最も低かったときのエポックを学習したモデルを使用
３）Ｅｎｃｏｄｅｒ_ｈの再学習：２０エポック中、最もＣＥＲ（Character Error Rate，文字誤り率）の改善が見られたエポックを学習したモデルを使用
なお、疑似ＣＴＣ文字列数Ｎは、６４である。

下の表１は、Ｅｎｃｏｄｅｒ_ｈの再学習（第１再学習手法の場合）の前後におけるＣＥＲ（文字誤り率）の比較結果を示す。

上の表１の通り、天気予報評価音声については、テキスト文字列の置換処理がない場合には、ＣＥＲは、Ｅｎｃｏｄｅｒ_ｈの再学習前の１８．７％から１５．５％に、３．２％改善した。テキスト文字列の置換処理がある場合（変形例５の場合）には、ＣＥＲは、Ｅｎｃｏｄｅｒ_ｈの再学習前の１８．７％から１３．７％に、５．０％改善した。逆に、ＣＳＪコーパスのｅｖａｌ１、ｅｖａｌ２、ｅｖａｌ３のそれぞれの音声については、当然ながら、Ｅｎｃｏｄｅｒ_ｈの再学習を行ったことにより、ＣＥＲが悪化している。ＣＳＪコーパスの評価データで、Ｅｎｃｏｄｅｒ_ｈの再学習後において認識精度が劣化したのは、Ｅｎｃｏｄｅｒ_ｈが、元のＣＳＪコーパスの話題から天気予報の話題に適応し直したためである。

天気予報評価音声についての改善の具体例（ただし、テキスト文字列の置換処理がある場合）は、下記の通りである。
評価音声の発話：「予想最低気温です」
Ｅｎｃｏｄｅｒ_ｈの再学習前の認識結果：「予想最適基音です」
Ｅｎｃｏｄｅｒ_ｈの再学習後の認識結果：「予想最低気温です」

以上のように、ここに記した実証実験では、天気予報のテキストデータのみを用いてＥｎｃｏｄｅｒ_ｈの再学習を行い、推論時に天気予報の話題に適した記号列を出力させることが可能となったことを示せた。

第２再学習手法（ターゲットドメインのテキストと、ソースドメインの音声テキスト対とを用いたドメイン適応）に関する学習用データは、次の通りである。
１）Intermediate CTCの学習：ＣＳＪコーパス
２）Ａｄａｐｔｅｒの学習：ＣＳＪコーパス
３）Ｅｎｃｏｄｅｒ_ｈの再学習：天気予報テキスト１０００文およびＣＳＪコーパス

第２再学習手法に関する評価データは、次の通りである。
１）ＣＳＪ評価セットの、eval2
２）天気予報評価音声２時間分ただし、Ｅｎｃｏｄｅｒ_ｈの再学習に使用した天気予報テキスト１０００文の音声は含まれていない。

第２再学習手法に関する学習諸元は、次の通りである。
１）Intermediate CTCの学習：１００エポック（epoch）中の、validation loss（検証損失）が最も低かったときのエポックを学習したモデルを使用
２）Ａｄａｐｔｅｒの学習：５０エポック中、validation loss が最も低かったときのエポックを学習したモデルを使用
３）Ｅｎｃｏｄｅｒ_ｈの再学習：２０エポック中、最もＣＥＲの改善が見られたエポックを学習したモデルを使用（下の表２における、第２再学習手法でのＥｎｃｏｄｅｒ_ｈの再学習後）
ただしエポックに関して、天気予報テキストの学習が一巡した際に１エポックとカウントした。
疑似ＣＴＣ文字列数Ｎ_ｔは、６４である。
疑似ＣＴＣ文字列と同時に学習するＣＳＪ音声数Ｎ_ｓは、６４である。

下の表２は、Ｅｎｃｏｄｅｒ_ｈの再学習（第２再学習手法の場合）の前後におけるＣＥＲの比較結果を示す。ただし、表２に示す再学習後の結果は、テキスト文字列の置換処理を行った場合（変形利５）である。

表２に示す結果において、Ｅｎｃｏｄｅｒ_ｈの再学習前と、第２再学習手法でのＥｎｃｏｄｅｒ_ｈの再学習後との両方において、ソースドメインであるＣＳＪ評価セット（CSJ eval2）のＣＥＲは、いずれも、５．２％である。つまり、ソースドメインにおける認識精度は、第２再学習手法での再学習によって劣化していない。一方で、ターゲットドメインである天気予報評価セット（天気予報）におけるＣＥＲは、再学習前の１８．７％から、第２再学習手法による再学習後の１５．３％へと改善されている。

表２において、第１再学習手法でのＥｎｃｏｄｅｒ_ｈの再学習後（４エポックの場合および５エポックの場合）のＣＥＲは、比較対象である。これは、ソースドメインの音声認識精度を劣化させずにターゲットドメインの音声認識精度を改善する方法として、テキストデータのみを学習データとして用いた第１再学習手法による再学習を途中で停止させる方法が考えられるためである。つまり、第１再学習手法を用いた場合に、第２再学習手法を用いた場合の天気予報評価セットのＣＥＲ（１５．３％）と同等のＣＥＲが達成されるのが、４エポック（ＣＥＲは１５．５％）あるいは５エポック（ＣＥＲは１５．１％）である。第１再学習手法での再学習後４エポックの場合の、ＣＳＪ評価セット（CSJ eval2）のＣＥＲは５．８％である。また、第１再学習手法での再学習後５エポックの場合の、ＣＳＪ評価セット（CSJ eval2）のＣＥＲは６．１％である。つまり、４エポックの場合も５エポックの場合も、ＣＳＪ評価セット（CSJ eval2）でのＣＥＲは、再学習前の５．２％からは劣化している。つまり、ソースドメインの音声認識精度を劣化させないという目的においては、比較対象の第１再学習手法よりも第２再学習手法が有効であることを確認できた。

以上のように、第１再学習手法と第２再学習手法とは、適宜、使い分けることができる。また、第１再学習手法と第２再学習手法のいずれを用いる場合にも、本実施形態による再学習を行う方法は有効であることを示せた。つまり、予め学習させた汎用音声認識モデルに対し、認識させたい話題の音声に対する認識精度を向上させたい場合を想定する。例えば、流行り始めのスポーツの話題について、音声とテキストとの対のペアが入手できず、テキストのみが入手できる状況であると仮定する。このような状況において、対象スポーツの話題のテキストを用いて、本実施形態の適応化学習（Ｅｎｃｏｄｅｒ_ｈの再学習）をすることにより、認識性能を改善することができる。

本発明は、例えば、音声認識処理や、音声認識のためのモデルの適応化の処理のために利用することができる。このような発明を利用できる業種は、広範囲に渡る。なお、本発明の利用範囲はここに例示したものには限られない。

１音声認識装置
２モデル適応化装置
１０音声供給部
２０畳み込みニューラルネットワーク部
３０第１層エンコーダー部（Ｅｎｃｏｄｅｒ_ｌ）
３２ＣＴＣ損失計算部
４０第２層エンコーダー部（Ｅｎｃｏｄｅｒ_ｍ）
４２ＣＴＣ損失計算部
５０第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）
５２ＣＴＣ損失計算部
１１０目的領域テキスト供給部
１１５置換処理部
１２０擬似ＣＴＣ記号列生成部（擬似記号列生成部）
１３０アダプター部
２１０ＣＴＣ記号列生成部（記号列生成部）
２２０平均二乗誤差損失計算部（アダプター部用損失計算部）
２３０ＣＴＣ損失計算部（アダプター部用損失計算部）
９０１中央処理装置
９０２ＲＡＭ
９０３入出力ポート
９０４，９０５入出力デバイス
９０６バス

Claims

音響特徴量のフレームの列を入力し前記音響特徴量のフレームに対応する記号の列として成る出力記号列を出力するように、複数階層で成るモデルを有し、前記複数階層のモデルのそれぞれが機械学習可能に構成されたエンコーダー部と、
目的とする領域に属する記号列を入力し、前記エンコーダー部の最終層のモデルに入力するための特徴量を出力するアダプター部と、
を備え、
前記エンコーダー部の前記複数階層のモデルにおけるある階層のモデルから次の階層のモデルへは中間特徴量が渡されるものであり、
前記エンコーダー部は、前記音響特徴量のフレーム列と前記出力記号列との関係に基づく機械学習をした後に、前記アダプター部が出力する前記特徴量を前記エンコーダー部の前記最終層のモデルに入力して前記最終層のモデルからの出力に基づく損失である第１損失を用いて前記最終層のモデルの前記目的とする領域への適応化を行うことを可能として構成された、
音声認識装置。
前記目的とする領域に属するテキストを基に、前記テキスト内の文字の繰り返し、または前記テキスト内の文字と文字との間への０個以上のブランク記号の挿入、の少なくともいずれかを行うことによって、前記アダプター部に入力するための前記記号列を生成する擬似記号列生成部、
をさらに備える、
請求項１に記載の音声認識装置。
所定の統計データを基に得られた出力文字確率分布にしたがって、前記目的とする領域に属するテキストに含まれる文字を別の文字で置換する処理を行う置換処理部、
をさらに備え、
前記擬似記号列生成部は、前記置換処理部が出力する置換処理後の前記目的とする領域に属するテキストを基に、前記記号列を生成する、
請求項２に記載の音声認識装置。
前記擬似記号列生成部は、
前記テキスト内の文字を繰り返す際の同一文字の繰り返し回数を、前記音響特徴量のフレーム列と前記出力記号列との関係に基づいて学習済みの前記エンコーダー部における所定の階層の前記モデルから出力される特徴量に基づいて算出される記号列である中間記号列における同一文字の繰り返し回数に関する統計に基づいて決定し、
前記テキスト内の文字と文字との間に挿入するブランク記号の連続する個数を、前記中間記号列における前記ブランク記号の連続する個数に関する統計に基づいて決定する、
請求項２または３に記載の音声認識装置。
前記アダプター部を学習するために前記アダプター部への入力となる記号列を、前記音響特徴量に基づいて前記エンコーダー部の所定の層のモデルから出力された前記中間特徴量に基づいて生成する記号列生成部と、
前記記号列生成部によって生成された前記記号列に基づいて前記アダプター部が出力する特徴量についての損失である第２損失を算出するアダプター部用損失計算部と、
をさらに備え、
前記アダプター部用損失計算部が算出した前記第２損失を用いて前記アダプター部の機械学習を行えるように構成した、
請求項１から４までのいずれか一項に記載の音声認識装置。
前記アダプター部用損失計算部は、
前記アダプター部から出力される特徴量を前提としたときの正解の出力記号列の尤度に基づく損失と、
前記アダプター部から出力される特徴量と前記エンコーダー部において対応する階層のモデルからの出力である特徴量との差を表す損失と、
に基づく前記第２損失を算出する、
請求項５に記載の音声認識装置。
前記音声認識装置は、
前記出力記号列の中で繰り返されている文字を集約するとともに、前記出力記号列に含まれるブランク記号を削除することによって得られる文字列を音声認識結果として出力する、
請求項２または３に記載の音声認識装置。
前記エンコーダー部は、前記第１損失を用いて前記最終層のモデルの前記目的とする領域への適応化を行う際に、前記音響特徴量のフレーム列に基づいて前記エンコーダー部が有する前記複数階層で成るモデルが出力した記号列と、前記音響特徴量のフレーム列に対応する正解の前記出力記号列と、から得られる第３損失にも基づいた適応化を行う、
請求項１から７までのいずれか一項に記載の音声認識装置。
音響特徴量のフレームの列を入力し前記音響特徴量のフレームに対応する記号の列として成る出力記号列を出力するように、複数階層で成るモデルを有し、前記複数階層のモデルのそれぞれが機械学習可能に構成されたエンコーダー部と、
目的とする領域に属する記号列を入力し、前記エンコーダー部の最終層のモデルに入力するための特徴量を出力するアダプター部と、
を備え、
前記エンコーダー部の前記複数階層のモデルにおけるある階層のモデルから次の階層のモデルへは中間特徴量が渡されるものであり、
前記エンコーダー部は、前記音響特徴量のフレーム列と前記出力記号列との関係に基づく機械学習をした後に、前記アダプター部が出力する前記特徴量を前記エンコーダー部の前記最終層のモデルに入力して前記最終層のモデルからの出力に基づく損失である第１損失を用いて前記最終層のモデルの前記目的とする領域への適応化を行うことを可能として構成された、
音声認識装置、としてコンピューターを機能させるためのプログラム。