JP2008129028A - 音響モデル適応化処理方法、音響モデル適応化処理装置、音響モデル適応化処理プログラム、記録媒体 - Google Patents

音響モデル適応化処理方法、音響モデル適応化処理装置、音響モデル適応化処理プログラム、記録媒体 Download PDF

Info

Publication number
JP2008129028A
JP2008129028A JP2006309879A JP2006309879A JP2008129028A JP 2008129028 A JP2008129028 A JP 2008129028A JP 2006309879 A JP2006309879 A JP 2006309879A JP 2006309879 A JP2006309879 A JP 2006309879A JP 2008129028 A JP2008129028 A JP 2008129028A
Authority
JP
Japan
Prior art keywords
acoustic model
adaptation
recorded
synchronization signal
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006309879A
Other languages
English (en)
Inventor
Satoru Kobashigawa
哲 小橋川
Tasuku Shinozaki
翼 篠崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006309879A priority Critical patent/JP2008129028A/ja
Publication of JP2008129028A publication Critical patent/JP2008129028A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】高価な装置を用いることなく、かつ、短時間に音響モデルの適応化処理を実行することができる音響モデル適応化処理方法、装置を提案する。
【解決手段】学習音声データの前端及び後端に同期信号を付与した再生音声データを生成し、再生音声データを適応化対象経路を通じて収録し、収録した収録音声データから前記同期信号を使って前記学習音声データに相当する部分を切り出し、切り出した収録音声データにより適応前音響モデルを適応化処理し、適応後音響モデルを生成する。
【選択図】図1

Description

この発明は音声認識装置に用いられる音響モデルを適応化対象経路の環境に適応した音響モデルに変換する音響モデル適応化処理方法、音響モデル適応化処理装置、音響モデル適応化処理プログラム、このプログラムを記録した記録媒体に関する。
音声認識を実施する場合、或る環境で収録した音声の認識性能は、話者の口の位置およびマイクの位置が決まった場合、話者の口とマイクの間のインパルス応答(空間伝達特性)を測定し、測定したインパルス応答を畳み込んだ音声データから学習した音響モデルを構築することにより、認識性能を向上することができる。
しかし、測定したインパルス応答を畳み込んだ音声データから特定の環境に対応する音響モデルを新たに再学習する場合、膨大な計算時間とコストがかかることになる。そこで、例えば接話マイクを利用して、伝達特性の影響の少ない収録環境で収録された音声から構築した既存の音響モデルから、インパルス応答の畳み込みを反映した音響モデルを合成する手法が提案されている(特許文献1)。
この特許文献1に開示された手法は、対象の収録環境で収録した伝達特性(インパルス応答)を、基準信号に畳み込み、畳み込み後の信号から得られた特徴パラメータから、畳み込み前の元信号から得られた特徴パラメータを差し引いた差分を求め、この差分を用いて音響モデルを変換することで、収録環境での伝達特性を模擬した音響モデルを合成する手法である。
図6を用いて特許文献1で提案されている音響モデル適応化処理方法を説明する。音声認識を行う環境において、予め収録した伝達特性(インパルス応答)11を、例えば数十秒程度の発話音声からなる畳み込み前基準信号12に畳み込み処理部13で畳み込み、畳み込み後基準信号14を得る。
畳み込み前基準信号12は特徴パラメータ分析部15Aで特徴パラメータに変換される。畳み込み後基準信号14は特徴パラメータ分析部15Bで特徴パラメータに変換される。
特徴パラメータ差分計算部16では、特徴パラメータ分析部15A、15Bのそれぞれで得られた特徴パラメータの差分を計算する。適応前音響モデル17に対して、得られた特徴パラメータの差分を用いて、モデルパラメータ中の平均パラメータをシフトする処理をモデル合成部18で行い、適応後音響モデル19を得る。
特開2005−301097号公報
従来の技術では伝達特性(インパルス応答)の収録が必要となる。また音響モデルの平均パラメータのみの適応であり、伝達特性の影響のみを考慮するので加法性雑音(例えば回線上で混入する雑音或いは、音声認識環境下で混入する周辺雑音)の影響まで考慮できない。
この発明の目的は伝達特性の収録が必要なく、また加法性雑音の影響を考慮して音響モデルを適応化処理することができる音響モデル適応化処理方法及びこの処理方法を用いて動作する音響モデル適応化処理装置を提案するものである。
この発明による音響モデル適応化処理方法は学習データの前端及び後端に同期信号を付加した再生音声データを生成し、再生音声データを適応化対象経路を通じて収録し、収録した収録音声データから前記同期信号を使って学習音声データに相当する部分を切り出し、切り出した収録音声データにより適応前音響モデルを適応化処理し、適応後音響モデルを生成することを特徴とする。
この発明による音響モデル適応化処理方法は、更に学習音声データの前端及び後端に同期信号を付加した再生音声データを生成し、再生音声データを適応化対象経路を通じて収録し、収録した収録音声データの時間長を前記同期信号を使って計測し、計測した時間長と、前記学習データの時間長とから時間伸縮係数を求め、この時間伸縮係数により収録音声データの時間情報ラベルを補正し、時間補正された時間補正収録音声データにより適応前音響モデルを適応化処理し、適応後音響モデルを生成することを特徴とする。
この発明による音響モデル適応化処理方法は、更に前記の音響モデル適応化処理方法において、適応化対象経路を伝播可能な予め定めた信号であることを特徴とする。
この発明による音響モデル適応化処理装置は学習音声データの前端及び後端に同期信号を付加する同期信号付加手段と、同期信号が付加された学習音声データを適応化対象経路を通じて再生する再生手段と、再生された同期信号付き学習音声データを収録する収録手段と、収録した同期信号付き学習音声データから、同期信号を用いて学習音声データに相当する部分を抽出する音声データ抽出手段と、音声データ抽出手段で抽出した音声データにより適応前音響モデルを適応化処理し、適応後音響モデルを生成する音響モデル適応部とを備えることを特徴とする。
この発明による音響モデル適応化処理装置は、更に学習音響データの前端及び後端に同期信号を付加する同期信号付加手段と、同期信号付き学習音声データを適応化対象経路を通じて再生する再生手段と、再生された前記同期信号付き学習音声データを収録する収録手段と、収録した収録音声データから、同期信号を用いて学習音声データに相当する音声データを抽出する音声データ抽出手段と、同期信号を用いて抽出した収録音声データの時間長を計測する時間長計測手段と、時間長計測手段が計測した収録音声データの時間長と学習音声データの時間長とから時間伸縮係数を算出する時間伸縮係数算出手段と、時間伸縮係数算出手段が算出した時間伸縮係数により収録音声データの時間情報ラベルを補正する時間情報ラベル補正手段と、時間補正された収録音声データにより適応前音響モデルを適応化処理し、適応後音響モデルを生成する音響モデル適応手段とを備えることを特徴とする。
この発明による音響モデル適応化処理装置は、更に前記記載の音響モデル適応化処理装置において、同期信号付加手段で付加する同期信号は適応化対象経路を伝播可能な予め定めた信号であることを特徴とする。
この発明による音響モデル適応化処理装置は、更にコンピュータが解読可能なプログラム言語によって記述され、コンピュータに前記記載の音響モデル適応化処理装置として機能させる音響モデル適応化処理プログラムであることを特徴とする。
この発明による記録媒体はコンピュータが読み取り可能な記録媒体によって構成され、この記録媒体に前記記載の音響モデル適応化処理プログラムを記録したことを特徴とする。
この発明によれば学習音声データの前端及び後端に同期信号を付加し、同期信号を付加した同期信号付学習音声データを適応化対象経路を通じて収録したから、同期信号を用いることにより収録側で収録音声データの時間長を計測することができる。この結果、再生系と収録系は独立のもので良く、再生系と収録系の時間のずれを補正することができるため、簡単かつ別途に特別な装置を必要とせずに認識対象の音声に頑健な音響モデルを生成することができる。
この発明による音響モデル適応化処理装置を実施する場合、全てをハードウェアによって構成することもできるが、簡素に実施するにはこの発明で提案する音響モデル適応化処理プログラムをコンピュータにインストールし、インストールした音響モデル適応化処理プログラムをコンピュータに備えたCPUに解読させ、実行させることによりコンピュータに音響モデル適応化処理装置として機能させる実施形態が最良の実施形態である。
コンピュータにこの発明による音響モデル適応化処理装置として機能させるには、コンピュータに学習音声データの前端及び後端に同期信号を付加する同期信号付加手段と、同期信号が付加された学習音声データを適応化対象経路を通じて再生する再生手段と、再生された同期信号付き学習音声データを収録する収録手段と、収録した同期信号付き学習音声データから、同期信号を用いて学習音声データに相当する部分を抽出する音声データ抽出手段と、音声データ抽出手段で抽出した音声データにより適応前音響モデルを適応化処理し、適応後音響モデルを生成する音響モデル適応部とを構築し、音響モデル適応化処理装置として機能させる第1の実施形態と、
学習音響データの前端及び後端に同期信号を付加する同期信号付加手段と、同期信号付き学習音声データを適応化対象経路を通じて再生する再生手段と、再生された同期信号付き学習音声データを収録する収録手段と、収録した収録音声データから、同期信号を用いて学習音声データに相当する部分を抽出する音声データ抽出手段と、同期信号を用いて抽出した収録音声データの時間長を計測する時間長計測手段と、時間長計測手段が計測した収録音声データの時間長と学習音声データの時間長とから時間伸縮係数を算出する時間伸縮係数算出手段と、時間伸縮係数算出手段が算出した時間伸縮係数により収録音声データの時間長を学習音声データの時間長に対応させる時間情報ラベル補正手段と、時間補正された収録音声データにより適応前音響モデルを適応化処理し、適応後音響モデルを生成する音響モデル適応手段とを構築し、音響モデル適応化処理装置として機能させる第2実施形態とが考えられる。
第1の実施形態は再生及び収録音声データに時間軸方向の揺らぎが発生しない場合の実施形態であり、第2の実施形態は再生及び収録音声データに時間軸方向の揺らぎが発生する場合の実施形態である。
この実施例1は収録音声データに時間軸方向の揺らぎがない、上記第1の実施形態に相当する実施例である。図1に示す学習データ蓄積手段21に蓄積した学習音声データS1は伝達特性の影響を極力排除したクリーンな環境で収録した音声データである。この発明では、この学習音声データに対して同期信号蓄積手段20に蓄積した同期信号データの中から適当な同期信号VSを選択して、同期信号付加手段22で時間同期用の同期信号VSを付与する。同期信号VSとしては適応化対象経路24Cを伝播可能で、予め同期信号として決定しておくことにより、音声信号と区別して検出できればどのような信号でも用いることができる。この場合検出を容易に行えるようにするためには、単一スペクトルで構成される例えば1kHz程度の単一周波数の正弦波信号を5秒間程度挿入して構成することができる。同期信号VSは図2に示すように学習音声データS1の前端と後端とに付与し、学習音声データS1の開始時刻と終了時刻とを検出するために利用する。図2Aでは一発声毎の学習音声データS1の前端と後端に同期信号VSを付与した場合を示すが、図2Bに示すように複数の学習音声データS1を一群とし、群の前端と後端に同期信号VSを付与してもよい。この場合は、同期箇所の同定処理が少なく、計算処理を抑えることができることと、同期信号の数が減るので、収録データのサイズを小さくできる利点が得られる。
同期信号VSが付与された学習音声データは再生音声データS2とされ、再生データ蓄積手段23に蓄積される。再生データ蓄積手段23に蓄積された再生音声データS2は必要に応じて読み出され、再生収録手段24へ入力される。再生収録手段24は再生手段24Aと収録手段24Bと、適応化対象経路24Cとによって構成される。
適応化対象経路24Cは例えば音声認識を適用する音場空間である場合と、音声認識を適用する電話回線の場合とが考えられる。
音声認識の為の適応化対象経路24Cが音声認識を適用する音場空間である場合には再生手段24Aはスピーカを備え、スピーカから再生音声データS2を音として放音する。放音された再生音声は音声認識対象となる音場空間の伝達特性を重畳し、収録手段24Bに備えたマイクに収音される。収音される音声には伝搬空間に存在する例えば空調音、その他の騒音を含み、加法性雑音の影響も重畳し、収録手段24Bに収録音声データS3として収録され、収録データ蓄積手段25に蓄積される。蓄積された収録音声データS3は音声データ抽出手段26で音声データ部分を抽出する。この音声データ部分の抽出に同期信号VSを利用し、同期信号VSの検出により音声データの始端と終端を検出する。収録信号中の同期信号区間の検出には、同期信号VSと収録信号の相関を取り、相関の高い区間を同期信号すると良い。また、5秒間の1kHzの単一周波数の正弦波信号を同期信号に用いる場合は、音声データ抽出手段26側で同期信号を用いなくても収録信号中の1kHz成分のパワーレベルが閾値以上5秒程度続く区間を同期信号とすることで容易に同期信号区間の検出が可能である。
ここでは収録音声データS3に時間軸方向の揺らぎが無いものとしているから、収録音声の時間情報ラベルは学習音声データS1の時間情報ラベルと一致している。つまり、抽出した音声データの時間情報ラベルは書き替えることなく、そのまま用いることができる。
従って、この音声データ抽出手段26で抽出した抽出データを抽出データ蓄積手段27に蓄積すれば、この抽出データを利用して音響モデル適応手段28で適応前音響モデル17を適応化対象経路24Cで学習した伝達特性及び加法性雑音に適応した適応化処理を実行することができ、適応後音響モデル19を得ることができる。音響モデル適応手段28における適応化処理の方法は従来からよく知られている処理方法で実現される。
以上は適応化対象経路24Cが音声認識を適用する音場空間である場合を例示して説明したが、音声認識対象が電話回線から得られる音声である場合も考えられる。この場合には再生手段24Aは再生音声を電話回線に送出する。収録手段24Bは電話回線を通じて音声を取り出し収録する。収録された音声データは電話回線を伝搬中に学習した電話回線の伝達特性と、更に、加法性雑音の学習データとを備え、これらを含めて適応化処理を行う。
図3には収録音声データS3に時間軸方向の揺らぎが発生する場合の実施例を示す。収録音声データS3に時間軸方向の揺らぎが発生する要因は、学習音声データS1の収録機器と、再生手段24A及び収録手段24Bの各処理速度の差違(例えばAD変換速度、DA変換速度等の差違)によって発生する。この揺らぎの発生によって、収録音声データS3の時間長は元の学習音声データS1の時間長と異なる値となる。この時間長の差により収録音声データS3の時間情報ラベルは元の学習音声データS1の時間情報ラベルと不一致となり、このままでは音響モデル適応処理を行うことができなくなる。
このため、この実施例では収録音声データS3の時間長を同期信号を用いて計測し、計測した収録音声データS3の時間長と、元の学習音声データS1の時間長とから時間伸縮係数を算出する。この時間伸縮係数により収録音声データS3の時間情報ラベルを補正し、時間情報ラベルを学習音声データS1のそれに合致する値に補正する。この時間情報ラベルの補正により音響モデル適応処理が可能となる。
つまり、収録手段24Bで収録した収録音声データS3は音声データ抽出手段26で音声部分のみを抽出する。抽出された音声データは時間長計測手段31で時間長を計測する。元の学習音声データS1の音声部分の時間長がT1、収録音声データS3から計測した時間長がT2とした場合、時間伸縮係数算出手段32は時間伸縮係数Cを例えばC=T2/T1で算出する。
時間伸縮係数Cが算出されることにより時間情報ラベル補正手段33は収録データ蓄積手段25の時間情報ラベルを補正することができる。時間情報ラベル補正手段33で行われる時間情報ラベルの補正は以下の如くして行われる。
学習音声データS1の時間情報ラベルが例えば
開始時刻 終了時刻 ラベル
1 5 あいうえお
10 20 かきくけこ
であった場合、
時間情報ラベル補正手段33は収録音声データS3の時間情報ラベルを、
開始時刻 終了時刻 ラベル
1C 5C あいうえお
10C 20C かきくけこ
と変換する。
この変換により、収録データ蓄積手段25の時間情報ラベルは元の学習データ蓄積手段21の時間情報ラベルに修正され、音響モデル適応処理に適用することができる。
時間情報ラベルの値が補正された音声データは時間補正収録音声データS5として時間補正収録データ蓄積手段34に蓄積し、必要に応じて音響モデル適応手段28に与えられる。音響モデル適応手段28では時間補正収録音声データS5を用いて適応前音響モデル17の適応化処理が実行され、適応後音響モデル19が得られる。
上述したように、収録音声データS3に時間軸方向の揺らぎが発生する場合でも、同期信号VSの挿入により収録音声データS3の時間長T2を計測することができ、これにより収録音声データS3の時間長T2と、元の学習音声データS1の時間長T1とにより時間伸縮係数Cを求めることが可能となる。時間伸縮係数Cが求められることにより伸縮変形した収録音声データの時間情報ラベルを元の学習音声データS1の時間情報ラベルに等しい値に補正することができる。
従って、同期信号付加手段22と、再生収録手段24、音声データ抽出手段26、時間長計測手段31、時間伸縮係数算出手段32、時間情報ラベル補正手段33を設けるだけの簡素な構成で音響モデルの適応化処理を行うことができ、しかも適応化処理を学習によって実施する場合と比較して短時間に処理できる利点が得られる。
図1及び図3で説明した同期信号付加手段22、再生手段24Aの一部、収録手段24Bの一部、音声データ抽出手段26、時間長計測手段31、時間伸縮係数算出手段32、時間情報ラベル補正手段33、音響モデル適応手段28はこの発明による音響モデル適応化処理プログラムをインストールしたコンピュータ内に構築される。
コンピュータによってこの発明による音響モデル適応化処理装置を構築する場合、共通のコンピュータによって再生側と収録側の双方を構成する実施形態と、2台のコンピュータによって一方で再生側を構成し、他方で収録側を構成する実施形態が考えられる。
図4に共通のコンピュータによってこの発明による音響モデル適応化処理装置100を構成した実施例を示す。コンピュータはよく知られているように、CPU101と、CPU101から引き出されたバスライン102と、読出専用メモリ103と、書替可能なメモリ104と、入力ポート105と、出力ポート106とを備えて構成される。書替可能なメモリ104にはこの発明による音響モデル適応化処理プログラムが記憶され、このプログラムをCPU101が解読することにより、同期信号付加手段22、再生手段24Aの一部を構成するDA変換手段24A−1、収録手段24Bの一部を構成するAD変換手段24B−1、音声データ抽出手段26、時間長計測手段31、時間伸縮係数算出手段32、時間情報ラベル補正手段33、音響モデル適応手段28とを構築する。尚、学習データ蓄積手段21、再生データ蓄積手段23、収録データ蓄積手段25、時間補正収録データ蓄積手段34、適応前音響モデル17、適応後音響モデル19はデータベースの形態で例えばハードディスクのように記録手段に記録される。
DA変換手段24A−1は同期信号VSが付与されている再生音声データS2を再生データ蓄積手段23から読み出し、この再生音声データS2をDA変換する。DA変換された再生音声は出力ポート106を通じて再生収録手段24を構成する再生手段24A−2に入力され、スピーカSPから音として放音される。スピーカSPから放音された音声は適応化対象経路24Cを通じて収録手段24Bの一部を構成するマイクMに収録される。マイクMに収録された音声信号は入力ポート105を通じてコンピュータに取り込まれAD変換手段24B−1でAD変換され、AD変換されたデジタル音声データは収録音声データS3として収録データ蓄積手段25に蓄積される。これ以後の処理は図3の説明と同じであるから、ここではその重複説明は省略する。
図5は2台のコンピュータにより一方で音響モデル適応化処理再生装置100Aを構成し、他方で音響モデル適応化処理収録装置100Bを構成した場合を示す。この場合の適応化対象経路24Cは電話回線とした場合を示す。このため、電話回線とコンピュータとの接続はモデム107と108を介して行われる。
音響モデル適応化処理再生装置100Aは最小構成要素として少なくとも学習データ蓄積手段21と、再生データ蓄積手段23と、同期信号付加手段22と、DA変換手段24A−1が存在すればよい。
音響モデル適応化処理収録装置100Bは少なくとも収録データ蓄積手段25と、時間補正収録データ蓄積手段34と、適応前音響モデル17と、適応後音響モデル19と、AD変換手段24B−1と、音声データ抽出手段26と、時間長計測手段31と、時間伸縮係数算出手段32と、時間情報ラベル補正手段33と、音響モデル適応手段28とが存在すればよい。
この実施形態によれば同期信号VSを付与した収録音声データS3を利用して収録音声の時間長を計測し、収録音声の伸縮係数を算出することができるから離れた遠隔地間でも音響モデル適応化処理を行うことができ、同期信号VSを用いたことに起因する大きな作用効果を得ることができる。
この発明による音響モデル適応化処理プログラムはコンピュータが解読可能なプログラム言語によって記述され、その符号化されたデータがコンピュータが読み取り可能な磁気ディスク、CD−ROM或いは半導体メモリ等の記録媒体に記録される。記録媒体に記録されたプログラムは、これらの記録媒体から直接、又は通信回線を通じてコンピュータにインストールされる。コンピュータにインストールされたプログラムはコンピュータに備えられたCPUに解読され、プログラムを実行することにより、音響モデル適応化処理装置として機能する。
音声認識装置を利用する分野で活用される。
この発明の実施例1を説明するためのブロック図。 この発明で用いる再生音声データの一例を説明するための波形図。 この発明の実施例2を説明するためのブロック図。 この発明の実施例3を説明するためのブロック図。 この発明の実施例4を説明するためのブロック図。 従来の技術を説明するためのブロック図。
符号の説明
17 適応前音響モデル 31 時間長計測手段
18 モデル合成部 32 時間伸縮係数算出手段
19 適応後音響モデル 33 時間情報ラベル補正手段
21 学習データ蓄積手段 34 時間補正収録データ蓄積手段 22 同期信号付加手段 100 音響モデル適応化処理装置
23 再生データ蓄積手段 100A 音響モデル適応化処理再生装置 24 再生収録手段 100B 音響モデル適応化処理収録装置24A 再生手段 101 CPU
24B 収録手段 102 バスライン
24C 適応化対象経路 103 読出専用メモリ
25 収録データ蓄積手段 104 書替可能なメモリ
26 音声データ抽出手段 105 入力ポート
27 抽出データ蓄積手段 106 出力ポート
28 音響モデル適応手段 107,108 モデム

Claims (8)

  1. 学習音声データの前端及び後端に同期信号を付加した再生音声データを生成し、再生音声データを適応化対象経路を通じて収録し、収録した収録音声データから前記同期信号を使って前記学習音声データに相当する部分を切り出し、切り出した収録音声データにより適応前音響モデルを適応化処理し、適応後音響モデルを生成することを特徴とする音響モデル適応化処理方法。
  2. 学習音声データの前端及び後端に同期信号を付加した再生音声データを生成し、再生音声データを適応化対象経路を通じて収録し、収録した収録音声データの時間長を前記同期信号を使って計測し、計測した時間長と、前記音声学習データの時間長とから時間伸縮係数を求め、この時間伸縮係数により前記収録音声データの時間ラベルを補正し、補正された時間補正収録音声データにより適応前音響モデルを適応化処理し、適応後音響モデルを生成することを特徴とする音響モデル適応化処理方法。
  3. 請求項1又は2の何れかに記載の音響モデル適応化処理方法において、前記同期信号は前記適応化対象経路を伝播可能な予め定めた信号であることを特徴とする音響モデル適応化処理方法。
  4. 学習音声データの前端及び後端に同期信号を付加する同期信号付加手段と、
    同期信号が付加された学習音声データを適応化対象経路を通じて再生する再生手段と、
    再生された前記同期信号付き学習音声データを収録する収録手段と、
    収録した前記同期信号付き学習音声データから、前記同期信号を用いて前記学習音声データに相当する部分を抽出する音声データ抽出手段と、
    音声データ抽出手段で抽出した音声データにより適応前音響モデルを適応化処理し、適応後音響モデルを生成する音響モデル適応部と、
    を備えることを特徴とする音響モデル適用化処理装置。
  5. 学習音響データの前端及び後端に同期信号を付加する同期信号付加手段と、
    同期信号付き学習音声データを適応化対象経路を通じて再生する再生手段と、
    再生された前記同期信号付き学習音声データを収録する収録手段と、
    収録した収録音声データから、前記同期信号を用いて前記学習音声データに相当する音声データを抽出する音声データ抽出手段と、
    前記同期信号を用いて抽出した収録音声データの時間長を計測する時間長計測手段と、
    時間長計測手段が計測した収録音声データの時間長と前記学習音声データの時間長とから時間伸縮係数を算出する時間伸縮係数算出手段と、
    時間伸縮係数算出手段が算出した時間伸縮係数により前記収録音声データの時間情報ラベルを補正する時間情報ラベル補正手段と、
    時間補正された収録音声データにより適応前音響モデルを適応化処理し、適応後音響モデルを生成する音響モデル適応手段と、
    を備えることを特徴とする音響モデル適応化処理装置。
  6. 請求項4又は5の何れかに記載の音響モデル適応化処理装置において、前記同期信号付加手段で付加する同期信号は前記適応化対象経路を伝播可能な予め定めた信号であることを特徴とする音響モデル適応化処理装置。
  7. コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項4乃至6の何れかに記載の音響モデル適応化処理装置として機能させる音響モデル適応化処理プログラム。
  8. コンピュータが読み取り可能な記録媒体によって構成され、この記録媒体に請求項7記載の音響モデル適応化処理プログラムを記録したことを特徴とする記録媒体。
JP2006309879A 2006-11-16 2006-11-16 音響モデル適応化処理方法、音響モデル適応化処理装置、音響モデル適応化処理プログラム、記録媒体 Pending JP2008129028A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006309879A JP2008129028A (ja) 2006-11-16 2006-11-16 音響モデル適応化処理方法、音響モデル適応化処理装置、音響モデル適応化処理プログラム、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006309879A JP2008129028A (ja) 2006-11-16 2006-11-16 音響モデル適応化処理方法、音響モデル適応化処理装置、音響モデル適応化処理プログラム、記録媒体

Publications (1)

Publication Number Publication Date
JP2008129028A true JP2008129028A (ja) 2008-06-05

Family

ID=39554949

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006309879A Pending JP2008129028A (ja) 2006-11-16 2006-11-16 音響モデル適応化処理方法、音響モデル適応化処理装置、音響モデル適応化処理プログラム、記録媒体

Country Status (1)

Country Link
JP (1) JP2008129028A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021501912A (ja) * 2017-11-02 2021-01-21 華為技術有限公司Huawei Technologies Co.,Ltd. フィルタリングモデル訓練方法および音声認識方法
CN113791727A (zh) * 2021-08-10 2021-12-14 广东省科学院智能制造研究所 一种应用于工业声学智能感知的边端采集设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021501912A (ja) * 2017-11-02 2021-01-21 華為技術有限公司Huawei Technologies Co.,Ltd. フィルタリングモデル訓練方法および音声認識方法
US11211052B2 (en) 2017-11-02 2021-12-28 Huawei Technologies Co., Ltd. Filtering model training method and speech recognition method
JP7034279B2 (ja) 2017-11-02 2022-03-11 華為技術有限公司 フィルタリングモデル訓練方法および音声認識方法
CN113791727A (zh) * 2021-08-10 2021-12-14 广东省科学院智能制造研究所 一种应用于工业声学智能感知的边端采集设备
CN113791727B (zh) * 2021-08-10 2023-03-24 广东省科学院智能制造研究所 一种应用于工业声学智能感知的边端采集设备

Similar Documents

Publication Publication Date Title
JP4774100B2 (ja) 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体
US8055505B2 (en) Audio content digital watermark detection
CN100525101C (zh) 使用波束形成算法来记录信号的方法和设备
JP2007180669A5 (ja)
JP5634959B2 (ja) 雑音/残響除去装置とその方法とプログラム
KR101666521B1 (ko) 입력 신호의 피치 주기 검출 방법 및 그 장치
JP6464005B2 (ja) 雑音抑圧音声認識装置およびそのプログラム
CN105118520A (zh) 一种音频开头爆音的消除方法及装置
US20180144755A1 (en) Method and apparatus for inserting watermark to audio signal and detecting watermark from audio signal
CN104937955A (zh) 自动的扬声器极性检测
CN100354931C (zh) 补偿在所接收信号中的线性时间尺度改变的方法和设备
JP2007065204A (ja) 残響除去装置、残響除去方法、残響除去プログラム及びその記録媒体
KR101152781B1 (ko) 스피커 공진 감쇄 방법 및 장치
JP2008129028A (ja) 音響モデル適応化処理方法、音響モデル適応化処理装置、音響モデル適応化処理プログラム、記録媒体
JP4770194B2 (ja) 音響信号に対する情報の埋め込み装置および方法
CN111462732A (zh) 语音识别方法和装置
JP2009229921A (ja) 音響信号分析装置
JP5199915B2 (ja) 音場補正方法及び音場補正装置
JP2011211547A (ja) 収音装置および収音システム
JP2002297193A (ja) デジタルオーディオデータ出力装置
JP2008112056A (ja) 音声信号処理装置
JP2007086554A (ja) 音声認識装置及び音声認識処理用プログラム
WO2021234904A1 (ja) 学習データ生成装置、モデル学習装置、学習データ生成方法、およびプログラム
JP2016133522A (ja) 声門閉鎖時刻推定装置、ピッチマーク時刻推定装置、ピッチ波形接続点推定装置、その方法及びプログラム
JP2022181759A (ja) 音声品質評価装置、音声品質評価方法、および音声品質評価プログラム