WO2023100374A1

WO2023100374A1 - 信号処理装置、信号処理方法及び信号処理プログラム

Info

Publication number: WO2023100374A1
Application number: PCT/JP2021/044564
Authority: WO
Inventors: 翼落合; マークデルクロア; 林太郎池下; 宏佐藤; 章子荒木
Original assignee: 日本電信電話株式会社
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2023-06-08

Abstract

信号処理装置（１０）は、観測信号から、話者の音声を強調した強調信号を生成する音声強調部（１１）と、強調信号に観測信号を付加する原音付加部（１２）と、原音付加部（１２）によって観測信号が付加された強調信号に対して、音声認識を行う音声認識部（１３）と、を有する。

Description

信号処理装置、信号処理方法及び信号処理プログラム

　本発明は、信号処理装置、信号処理方法及び信号処理プログラムに関する。

　背景雑音や残響などの音響干渉に対して頑健な音声認識システムを構築することは音声処理において課題となっている。ここで、複数のマイクを使用するマルチチャネルでの音声強調技術（ビームフォーマー）が音声認識性能を大きく向上させることが確認されている。

Szu-Jui　Chen,　Aswin　Shanmugam　Subramanian,　Hainan　Xu,　and　Shinji　Watanabe,　"Building　state-of-the-art　distant　speech　recognition　using　the　chime-4　challenge　with　a　setup　of　speech　enhancement　baseline",　in　Interspeech,　2018,　pp.　1571-1575.

　一方、単一のマイクを使用するシングルチャネルでの音声強調技術は、雑音を除去した強調信号を用いても、雑音あり観測信号よりもむしろ音声認識性能が劣化する場合もあり、音声認識性能向上への効果は限定的であった。

　実際には、単一のマイクロホンしか備えていないデバイスも多い。したがって、頑強な音声認識システムを実現するためには、マルチチャネルでの音声強調技術とともに、シングルチャネルに対しても音声強調技術を開発することが重要である。

　本発明は、上記に鑑みてなされたものであって、音声強調による音声認識性能の向上を可能とする信号処理装置、信号処理方法及び信号処理プログラムを提供することを目的とする。

　上述した課題を解決し、目的を達成するために、本発明に係る信号処理装置は、観測信号から、話者の音声を強調した強調信号を生成する音声強調部と、強調信号に観測信号を付加する付加部と、付加部によって観測信号が付加された強調信号に対して、音声認識を行う音声認識部と、を有することを特徴とする。

　本発明によれば、音声強調による音声認識性能の向上を可能とする。

図１は、直交投影による強調信号の信号分解を説明する図である。図２は、評価強調信号に対する単語誤り率（Word　Error　Rate：WER）を示す図である。図３は、強調信号に観測信号を付加した変更強調信号の信号分解を説明する図である。図４は、実施の形態に係る信号処理装置の構成の一例を模式的に示す図である。図５は、実施の形態に係る信号処理方法の処理手順を示すフローチャートである。図６は、変更強調信号に対するSDR，SNR，SARを示す図である。図７は、変更強調信号に対するWERのスコアを示す図である。図８は、実録音による観測信号に対する信号処理装置によるWERのスコアを示す図である。図９は、プログラムが実行されることにより、信号処理装置が実現されるコンピュータの一例を示す図である。

　以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。なお、以下では、ベクトルまたは行列であるAに対し、“＾A”と記載する場合は「“A”の直上に“＾”が記された記号」と同じであるとする。ベクトルまたは行列であるAに対し、“￣A”と記載する場合は「“A”の直上に“￣”が記された記号」と同じであるとする。

［実施の形態］
　本実施の形態では、一例として、シングルチャネル音声強調（Speech　Enhancement：SE）による強調信号が、音声認識性能を劣化される要因を分析した分析結果を基に、音声認識性能を向上させる信号処理方法を提案する。なお、本実施の形態では、単一のマイクロホン（シングルチャネル）で録音された音声信号（観測信号）に対する信号処理方法について説明するが、シングルチャネルに限らず、複数のマイクロホン（マルチチャネル）で録音された音声信号にも適用可能である。

［強調信号の分析］
　まず、シングルチャネルSEによる強調信号に対して、音声認識性能を劣化させる要因を分析した。

　通常、シングルチャネルSEによって生じる処理歪みが音声認識性能低下の原因であると想定されることが多い。しかしながら、こうした歪み、特に、音声認識への影響について系統的な詳しい分析や解明はこれまでされてこなかった。音声認識に対するシングルチャネルSE推定誤差の影響について解明していくことがSEフロントエンド設計を改良する上で欠かせないと考える。

　ここで、シングルチャネルSEタスクに焦点を当てる。y∈R^Tは、観測信号のT長時間領域波形を示す。観測信号yは、式（１）としてモデル化される。s∈R^Tは、音源信号を示す。n∈R^Tは、背景の雑音信号を示す。

　SEは、観測信号yから雑音信号nを減らすことを目的とする。観測信号yが入力された場合、強調信号＾s∈R^Tは、＾s=SE（y）と推定される。SE（・）は、例えば、ニューラルネットワークによって行われるSE処理を示す。

　続いて、SE推定誤差が音声認識性能に与える影響を分析するため、直交投影を用いてSE推定誤差分解を検討した。図１は、直交投影による強調信号の信号分解を説明する図である。

　強調信号＾sは、推定処理を行うことで取得されるものであるため、推定誤差を含むことは避けられない。強調信号＾sを式（２）のように直交投影を用いて分解する。

　式（２）において、s_targetは、対象音源要素を示し、e_noise∈R^Tは、雑音要素（誤差）を示し、e_artif∈R^Tは、アーティファクト要素（誤差）を示す（図１参照）。

　具体的には、直交投影による誤差分解により、SEにおける誤差を雑音要素とアーティファクト要素とに分解する。この２つの要素は、SE誤差を、音声／雑音信号に跨る音声／雑音サブ空間、及び、音声／雑音サブ空間に直交するサブ空間に投影することにより得られる。

　雑音要素e_noiseは、音声信号と雑音信号との線形結合で構成されるため、自然に観測可能な信号であると期待される。これらを自然信号と呼ぶ。訓練サンプルには類似する雑音要素が自然に現れるため、この自然信号が音声認識性能に与える影響は限定的である可能性がある。

　一方、アーティファクト要素e_artifは、音声信号と雑音信号との線形結合では表すことのできない信号で構成され（図１参照）、人工的／不自然信号である。この不自然信号は、非常に多様であり、訓練サンプルに現れることはほとんどない可能性がある。したがって、音声認識は、雑音要素よりもアーティファクト要素に対して感度が高いという仮説を立てる。

　SE評価指標として、信号対歪比（Signal　to　Distortion　Ratio：SDR）（式（３））、信号対雑音比（Signal　to　Noise　Ratio：SNR）（式（４））、信号対アーティファクト比（Signal　to　　Artifact　Ratio：SAR）（式（５））を使用する。

　次に、アーティファクト要素e_artifの音声認識性能への誤差要素の影響を調べる実験を行った。実験では、アーティファクト要素e_artif及び雑音要素e_noiseの音声認識性能への影響を測定するため、誤差要素の大きさを変えることにより強調信号を変更し、変更強調信号を入力として音声認識を行った。

　具体的には、直交投影を用いて強調信号＾sを分解した後、アーティファクト要素e_artif及び雑音要素e_noiseを、式（６）のように増減することにより、強調信号＾s_ω∈R^Tを合成した。

　ω_noiseは、雑音要素e_noiseの量を制御するパラメータであり、ω_nartifは、アーティファクト要素e_artifの量を制御するパラメータである。今回の実験では、雑音要素やアーティファクト要素の割合が異なる多様な強調信号＾s_ωを得るため、ω_noiseとω_artifとの値を変更した。これにより、SNRとSARの値を制御しつつ同じ対象音源要素s_targetを保持することができる。このような変更済みの強調信号を評価強調信号として音声認識システムに入力することにより、各誤差要素が音声認識性能に与える影響を直接測定した。

　図２は、評価強調信号に対するWERを示す図である。図２の（ａ）は、雑音／アーティファクト誤差の比率を変更された評価強調信号に対する音声認識結果を示す３Ｄプロットである。図２の（ｂ）は、ω_noiseとω_artifの重みのうち１つのみを変更することによって得られる対応する２Ｄプロットである。図２の（ｂ）のbaseline（obs.）は、観測信号の基準WERスコアを表し、四角記号は、変更なしの元の強調信号のWERスコアを表す。なお、図７及び図８におけるbaseline（obs.）及び四角記号も同様である。

　図２に示すように、元の強調信号は、観測信号と比して、音声認識性能を実際には低下させるということが確認できる。図２に示すように、アーティファクト要素e_artifを減らすことによって、音声認識性能の大幅な向上が可能であることが観測された。一方、音声認識性能は、雑音要素e_noiseを増減してもそれほど影響を受けなかった。これらの結果により、雑音要素e_noiseとアーティファクト要素e_artifとのうち、アーティファクト要素e_artifの方が音声認識性能の低下に大きな影響を及ぼすということが確認できた。

　そこで、この知見に基づいて、本実施の形態では、音声認識性能を向上させる信号処理方法を提案する。本実施の形態では、アーティファクト要素の影響を減らすアプローチとして、音声認識システムに入力される信号におけるアーティファクト成分の比率を減らす方法を検討した。

　本実施の形態では、強調信号に原音（観測信号）付加を行い、音声認識システムに入力される信号におけるアーティファクト要素の比率を減らした。具体的には、スケーリングした観測信号yを強調信号＾sに付加した信号を、変更強調信号￣sとして、音声認識システムに入力する。変更強調信号￣s∈R^Tは、式（７）のように算出される。

　ω_obs≧0は、強調信号＾sに付加する観測信号yの量を制御するパラメータである。図３は、強調信号に観測信号を付加した変更強調信号の信号分解を説明する図である。図１及び図３に示すように、アーティファクト要素e_artifは、Sn平面に対する強調信号＾sの垂線に相当する。強調信号＾sに観測信号yを加算した場合であっても、観測信号yは、Sn平面と平行であるため、アーティファクト要素e_artifのベクトルの長さは、変更強調信号￣sと強調信号＾sとの間で変わらない。

　これに対し、変更強調信号￣sは、強調信号＾sに観測信号yを付加したため、強調信号＾sと比して、対象音源要素￣s_targetと雑音要素￣e_noiseとが増加する。したがって、変更強調信号￣sは、強調信号＾sと比して、アーティファクト要素e_artifの比率を減らすことができる。このため、変更強調信号￣sを用いることで、アーティファクト要素e_artifの音声認識への影響を低減することができるため、音声認識性能の向上が期待できる。以下、数理的にも、原音付加が音声認識性能の向上に寄与することが証明できる。

　SARの改善値SARiは、式（８）のように算出される。SARi>0であれば、原音付加を行った場合に、アーティファクト要素e_artifの比率が減ることとなる。なお、Ps∈R^T×Tは、音源信号｛s^T｝_L－1T=0（L－1は許容最大遅延の数）が跨るサブ空間上の直交投影行列を示す。P_s,n∈R^T×Tは、音源信号と雑音信号｛s^T,　n^T｝_L－1T=0とが跨るサブ空間上の直交投影行列を示す。

　式（８）における２列目の等式では、P_s,ny=yと￣e_artif=＾e_artifとを使用した。式（８）の３列目に示すように、＜P_s,ns,y＞>0の場合に、SARi>0となる。このため、元の強調信号＾s=SE（y）のSARを改善するには、＜P_s,ns,y＞>0が十分条件となる。この十分条件は、式（９）と書き換えることも可能であり、この緩い条件のもとであれば、原音付加によって、変更強調信号￣sにおけるアーティファクト成分の比率を減らすことを証明できる。

［信号処理装置］
　原音付加を音声認識性能向上のために適用した信号処理装置について説明する。図４は、実施の形態に係る信号処理装置の構成の一例を模式的に示す図である。

　実施の形態に係る信号処理装置１０は、例えば、ＲＯＭ（Read　Only　Memory）、ＲＡＭ（Random　Access　Memory）、ＣＰＵ（Central　Processing　Unit）等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。また、信号処理装置１０は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースを有する。図１に示すように、信号処理装置１０は、音声強調部１１、原音付加部１２（付加部）及び音声認識部１３を有する。信号処理装置１０には、シングルチャネルで録音された観測信号yが入力され、例えば、音信信号をテキストに変換した音声認識結果を出力する。

　音声強調部１１は、シングルチャネルで録音され観測信号yの入力を受け付ける。音声強調部１１は、観測信号yから雑音信号nを減らすことを目的として、観測信号yから、話者の音声を強調した強調信号＾sを生成する。音声強調部１１は、例えば、ニューラルネットワークを用いて、音声強調処理を行う。

　原音付加部１２は、強調信号＾sに観測信号y（原音）を付加する。原音付加部１２は、重み付けした観測信号yを強調信号＾sに付加した信号を、変更強調信号￣sとして（式（７）参照）、音声認識部１３に入力する。

　なお、原音付加部１２は、観測信号yに含まれる雑音信号の比率に応じて、強調信号＾sに付加する観測信号ｙの重みω_obsを調整する。例えば、原音付加部１２は、観測信号yに含まれる雑音信号の比率が一定値よりも低い場合は、重みω_obsの値を規定していた値よりも下げてもよい。また、原音付加部１２は、観測信号yに含まれる雑音信号の比率が一定値よりも高い場合は、重みω_obsの値を規定していた値よりも上げてもよい。原音付加部１２は、観測信号yのSNR推定し、この推定結果を基に、重みω_obsの値を決めてもよい。

　また、原音付加部１２は、式（１０）に示すように、観測信号ｙの重みと強調信号＾sに付加する観測信号の重みとの和が１となる関係で、観測信号ｙと強調信号＾sに付加する観測信号との双方に重み付けを行ってもよい。

　また、原音付加部１２は、式（１１）に示すように、観測信号yの重みαと強調信号＾sに付加する観測信号の重みβとを適宜設定してもよい。

　音声認識部１３は、変更強調信号￣sに対して、音声認識を行う。音声認識部１３は、例えば、音信信号をテキストに変換した音声認識結果を出力する。音声認識部１３は、例えば、学習済みの深層学習モデルを用いて、音声強調処理を行う。

［信号処理方法］
　次に、信号処理装置１０が実行する信号処理方法について説明する。図５は、実施の形態に係る信号処理方法の処理手順を示すフローチャートである。

　図５に示すように、信号処理装置１０は、観測信号yの入力を受け付けると、音声強調部１１が、観測信号yから、話者の音声を強調した強調信号＾sを生成する音声強調処理を行う（ステップＳ１）。原音付加部１２は、強調信号＾sに観測信号ｙを付加する原音付加処理を行う（ステップＳ２）。原音付加部１２は、観測信号yを強調信号＾sに付加した信号を、変更強調信号￣sとして、音声認識部１３に入力する。音声認識部１３は、変更強調信号￣sに対して、音声認識処理を行い（ステップＳ３）、音声認識結果を出力する。

［評価実験］
　実際に、信号処理装置１０の音声認識精度を評価した。音声強調部１１として、ニューラルネットワーク基盤の時間領域雑音除去ネットワーク（Denoising－TasNet）を採用した。音声認識部１３として、Kaldiの標準法に基づくディープニューラルネットワーク隠れマルコフモデル（DNN-HMM）ハイブリッドASR（Automatic　Speech　Recognition）システムを採用した。音声音源のWall　Street　Journal（WSJ0）コーパスと雑音音源のCHiME-3コーパスから再現残響雑音下音声信号のデータセットを生成し、訓練セット、開発セット及び評価セットとした。

　図６は、変更強調信号￣sに対するSDR，SNR，SARを示す図である。図７は、変更強調信号￣sに対するWERのスコアを示す図である。図６及び図７は、式（７）のω_obsの値を0.0から1.5の間で変化させることにより得られた結果である。

　図６及に示すように、ω_obsが大きくなるにつれて、すなわち、観測信号を追加するごとに、SDRとSNRは低下する一方で、SARは単調的に上がる。言い換えると、ω_obsが大きくなるにつれて、SARの改善が認められ、変更強調信号￣sに対するアーティファクト要素の比率が低下する。このSARの改善にしたがい、図７に示すように、WERが改善することが観測された。

　したがって、信号処理装置１０は、原音付加を行うことで、基準観測信号や元の強調信号＾sと比して、音声認識の性能を向上させることができた。言い換えると、信号処理装置１０は、変更強調信号￣sにおけるアーティファクト要素の比率を下げることによって、すなわち、SARを上げることによって、シングルチャネルSEフロントエンドの音声認識性能を向上させることができた。

　続いて、実録音に対する評価を行った。実録音の結果を確認するためCHiME-3データセットの実際に録音された音声データ（et05_real）を使用した。図８は、実録音による観測信号に対する信号処理装置１０によるWERのスコアを示す図である。

　図８に示すように、信号処理装置１０によれば、実録音に適用した場合もWERを低下させることが観測された。すなわち、アーティファクト要素軽減による音声認識性能の向上効果が実録音にも当てはまることが証明できた。

［実施の形態の効果］
　このように、実施の形態に係る信号処理装置１０は、音声認識性能に対するアーティファクト要素の影響を軽減するために、観測信号yを強調信号＾sに付加し、音声認識部１３に入力する。これによって、信号処理装置１０は、SAR値を単調的に上げることができ、音声認識性能を向上することが実証された。また、信号処理装置１０は、実録音においても音声認識性能を効果的に向上させることが分かった。

　従来、特に、シングルチャネル音声強調では、音声認識性能を向上させることが難しかった。また、音声認識のフロントエンドとして原音付加を行っているものは、これまでになかった。

　本実施の形態に係る信号処理装置１０は、強調信号に原音（観測信号）を付加するという簡易な処理を音声認識の前段に追加するのみで、シングルチャネル音声強調での音声認識性能の向上に成功した。

［実施の形態のシステム構成について］
　信号処理装置１０の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、信号処理装置１０の機能の分散及び統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。

　また、信号処理装置１０においておこなわれる各処理は、全部または任意の一部が、ＣＰＵ、ＧＰＵ（Graphics　Processing　Unit）、及び、ＣＰＵ、ＧＰＵにより解析実行されるプログラムにて実現されてもよい。また、信号処理装置１０においておこなわれる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。

　また、実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。

［プログラム］
　図９は、プログラムが実行されることにより、信号処理装置１０が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ（Operating　System）１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、信号処理装置１０の各処理を規定するプログラムは、コンピュータ１０００により実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、信号処理装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

　１０　信号処理装置
　１１　音声強調部
　１２　原音付加部
　１３　音声認識部

Claims

　観測信号から、話者の音声を強調した強調信号を生成する音声強調部と、
　前記強調信号に前記観測信号を付加する付加部と、
　前記付加部によって前記観測信号が付加された強調信号に対して、音声認識を行う音声認識部と、
　を有することを特徴とする信号処理装置。
　前記観測信号は、単一のマイクロホンで録音された音声信号であることを特徴とする請求項１に記載の信号処理装置。
　前記付加部は、前記観測信号に含まれる雑音信号の比率に応じて、前記強調信号に付加する観測信号の重みを調整することを特徴とする請求項１または２に記載の信号処理装置。
　前記付加部は、前記強調信号に付加する観測信号のみに重み付けし、または、前記観測信号の重みと前記強調信号に付加する観測信号の重みとの和が１となる関係で前記観測信号と前記強調信号に付加する観測信号との双方に重み付けすることを特徴とする請求項３に記載の信号処理装置。
　信号処理装置が実行する方法であって、
　観測信号から、話者の音声を強調した強調信号を生成する工程と、
　前記強調信号に前記観測信号を付加する工程と、
　前記付加する工程において前記観測信号が付加された強調信号に対して、音声認識を行う工程と、
　を含んだことを特徴とする信号処理方法。
　観測信号から、話者の音声を強調した強調信号を生成するステップと、
　前記強調信号に前記観測信号を付加するステップと、
　前記付加するステップにおいて前記観測信号が付加された強調信号に対して、音声認識を行うステップと、
　をコンピュータに実行させるための信号処理プログラム。