JP2019074580A

JP2019074580A - 音声認識方法、装置およびプログラム

Info

Publication number: JP2019074580A
Application number: JP2017198997A
Authority: JP
Inventors: 信行西澤; Nobuyuki Nishizawa
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2017-10-13
Filing date: 2017-10-13
Publication date: 2019-05-16
Anticipated expiration: 2037-10-13
Also published as: JP6831767B2

Abstract

【課題】既存の音声認識アルゴリズムによる認識率が向上するように、入力音声を少ない計算量で予め変形する音声認識方法、装置およびプログラムを提供する。【解決手段】入力音声の声質を変形させてから音声認識を行う音声認識装置１において、音声特徴ベクトル抽出部２１は、入力音声から特徴ベクトルを抽出する。音声特徴変形部２２は、入力音声の特徴ベクトルを認識率の向上が期待できる特徴ベクトルに変形する。音声波形生成部２３は、変形した特徴ベクトルに基づいて音声波形を生成する。この際、後段の音声認識部３が音声認識プロセスにおいて考慮しない特徴量を再現せず、計算量の削減を優先させた特徴量を採用にする。音声認識部３は、生成された音声波形に対して音声認識を実行する。【選択図】図１

Description

本発明は、音声認識方法、装置およびプログラムに係り、特に、既存の音声認識アルゴリズムによる認識率が向上するように、入力音声を少ない計算量で予め変形してから音声認識アルゴリズムに適用する音声認識方法、装置およびプログラムに関する。

音声認識のパターンマッチに用いられる特徴量として、音声波形（例えば、８kHzから３２kHz程度のサンプリングにより離散時間の時系列情報として表現された音声波形。以下同様）の数十ミリ秒から百数十ミリ秒の長さの区間を切り出し、それらのスペクトル包絡特性を表すようなベクトルを用いることが多い。

このようなスペクトル包絡特性としては、例えば、離散フーリエ変換結果の対数変換等により求められる対数パワースペクトルにおいて、主に音声波形の周期性に由来する調波成分の各ピーク値を滑らかな曲線でつないだ周波数−対数パワー特性がある。

そして、このようなベクトルの１つとして、メル周波数ケプストラム係数（MFCC）がある。以下、このようなある時刻を中心とする区間の音声の特徴を表すベクトルを音響特徴ベクトルと表現する。

音声認識システムでは、この音響特徴ベクトルを数十ミリ程度の時間間隔で計算し（通常、音響特徴ベクトルを計算するために切り出す区間の時間長の方が、切り出し処理を行う時間間隔よりも長くなるので、音声波形を切り出す区間は重なり合うことになる）、その時系列データに対してパターンマッチを行い、音声認識結果を出力する。このような音声特徴ベクトルは、音声の特に音韻性をよく表す一方、話者性や基本周波数の違いに対して比較的鈍感であることが知られている。

特開２００８−５８６９６号公報

MFCCのような音声特徴ベクトルは、話者性に対して比較的に鈍感だが、それでも話者性の影響を受ける。したがって、パターンマッチのパターンを作成する基となった話者と、実際の音声認識対象の話者とが異なる場合、音声特徴ベクトルに現れる話者性の影響がパターンマッチの際の障害になり得る。このため、不特定話者を対象とする音声認識システムでは、音声特徴ベクトル空間上の点ではなく、様々な人の声を学習データとして用いて音声特徴ベクトルの分布をモデル化することで、様々な人の音声を認識できるようにしている。

しかしながら、そのような方法でも全ての人の音声の特徴を網羅することは難しく、音声認識が困難なケースがある。そこで、入力話者の音声の特徴ベクトルの分布が既知であると、モデルの分布または特徴ベクトルに対してアフィン変換等を行い、音声認識ができるようにモデルの分布あるいは特徴ベクトルを変形させることがある。この方法は話者適応と呼ばれる。また、同じ話者であっても、音声の伝達特性が異なる場合には同様の問題が生じ得るが、これも同様の方法で対処できる。

しかしながら、音声認識システムの入力は一般に音声波形、出力は音声認識結果であり、例えば分散型音声認識（DSR）システムのように、クライアント側で音声特徴ベクトルを抽出して特徴ベクトルをサーバに送信するような一部の特殊なシステムを除き、音声特徴ベクトルが外側からアクセス可能である必要はない。

したがって、多くの場合、音声特徴ベクトルの抽出処理は音声認識システムの内部に完全に埋め込まれており、アプリケーションで既存の音声認識システムを使う場合、使用する音声認識システムに音声特徴ベクトルの入出力機能がなければ、アプリケーションで上述のアフィン変換を自由に適用できない。あるいは、変形制御のためのインタフェースが公開されていなければ、アプリケーションからアフィン変換の機能を用いることができない。

さらに、仮にインタフェースが利用可能であっても、上述のDSRシステムのように特殊なケースを除くと、そのインタフェースは通常、標準化されるようなものではないため、アプリケーションで音声認識システムを置き換える場合には、そのインタフェース部分も作り直す必要が生じる。

このような技術課題に対処するアプローチとして、音声波形を特許文献１に記載の声質変換技術を用いて音声認識しやすい形に変形し、変形後の音声波形を音声認識システムに入力する方法が考えられる。多くの声質変換技術では、まず音声認識と同様に特徴量抽出を行い、それに適当な変形を施したのち、変形された特徴量に基づき、音声波形を信号処理技術により合成することで入力音声の声質の変換を実現している。

この様な方法により、音声認識システム側を変更することなく、音声認識率の改善を図ることができる。しかしながら、声質変換処理における音声波形の合成処理では、演算量の多いフィルタを用いる必要があるため、その計算量が比較的大きいという技術課題があった。

本発明の目的は、上記の技術課題を解決し、声質変換技術により音声特徴量を音声認識し易い形に予め変形するシステムにおいて、声質変換に要する計算量が比較的大きい処理を不要とすることで、全体として計算量を減ぜられる音声認識方法、装置およびプログラムを提供することにある。

上記の目的を達成するために、本発明は、入力音声の声質を音声認識前に変形する音声認識装置において、以下の構成を具備した点に特徴がある。

(1) 入力音声から特徴量を抽出する手段と、前記特徴量を変形する手段と、前記変形した特徴量に基づいて音声波形を生成する手段とを具備し、前記音声波形を生成する手段は、音声認識プロセスで考慮されない特徴量を再現しないようにした。

(2) 生成された音声波形に基づいて音声認識を実行する手段をさらに具備した。

(3) 音声波形を生成する手段は、基本周期が入力音声と異なる音声波形を生成するようにした。

(4) 音声波形を生成する手段は、基本周期が、波形生成処理の処理区間長と等しい又はその整数分の１となる音声波形を生成するようにした。

(5) 音声波形を生成する手段は、複数の正弦関数の足し合わせに相当する処理により音声波形を生成するようにした。

(6) 音声波形を生成する手段は、１周期の音声波形を所定回数繰り返す音声波形を生成するようにした。

本発明によれば、以下のような効果が達成される。

(1) 入力音声に基づいて音声認識率の高い音声波形を生成する際に、後段の音声認識において考慮されない特徴量については、これを再現せず、計算量の削減を優先させた特徴量を採用するので、計算量の増加を抑えながら音声認識率を向上させることができる。

(2) 音声認識の実行部を後段に設けて一体構成とすれば、音声認識率の向上のために声質変換技術を用いる場合に、人による聴取を目的とした音声波形を出力する声質変換装置と、音声波形を入力とする音声認識装置とを縦続に接続した場合よりも計算量の増加を抑えた音声認識装置を構成できるようになる。

(3) 音声認識の実行部を分離すれば、既存、汎用の音声認識装置を用いて認識率の高い音声認識を実現できるようになる。

(4) 入力音声の基本周期は音声認識において考慮されず、かつ基本周期を所定値とすることで音声波形を生成する際の計算量を減じることができるので、計算量の増加を抑えながら音声認識率を向上させることができるようになる。

(5) 音声波形を生成する際に、基本周期が、波形生成処理の処理区間長と等しい又はその整数分の１となる音声波形を生成するようにしたので、離散時間フーリエ変換およびその逆変換を高速フーリエ変換で実現できるようになる。

(6) 音声波形を生成する際に、複数の正弦関数の足し合わせに相当する処理により音声波形を生成するようにしたので、余弦関数の足し合わせでは生じる、調波成分のエネルギーが特定の時刻に集中することを防止でき、音声波形の量子化ビット数が同じ場合に、信号対雑音比のより高い音声認識が可能になる。

(7) 音声波形を生成する際に、１周期の音声波形を所定回数繰り返す音声波形を生成するようにしたので、その間は音声波形生成処理を行わないようにすれば計算量を削減できるようになる。

本発明の一実施形態に係る音声認識装置の主要部の構成を示した機能ブロック図である。窓関数の離散時間フーリエ変換における正規化周波数（横軸）と対数パワースペクトル（縦軸）との関係を示した図である。音声波形が周波数f0=fs／Nの周期波形であるときの正規化周波数（横軸）と対数パワースペクトル（縦軸）との関係を示した図である。本発明の他の実施形態に係る音声認識装置の主要部の構成を示した機能ブロック図である。

以下、図面を参照して本発明の実施の形態について詳細に説明する。ここでは、初めに本発明の概要について説明し、次いで、本発明の実施の形態について具体的に説明する。

音声認識において、入力音声から抽出される音響特徴ベクトルは、スペクトル包絡特性に対応する値のみで構成することが多い。その場合、周期的な音声波形の基本周波数の直接的な情報は捨てられることになる。したがって、このような音声認識システムにおいては、入力音声の基本周波数は、人間の音声の基本周波数を正確に表現している必要はなく、音声波形合成処理にとって都合の良い周波数を基本周波数としても良いことになる。

このような処理は、音声波形合成を、時間領域において合成音声波形の基本周期と等しい長さの離散時間フーリエ変換で行うことで実現できる。そして、離散時間フーリエ変換の窓長（処理区間長）を２のべき乗となる長さ（サンプル数）とすることで、離散時間フーリエ変換およびその逆変換を高速フーリエ変換で実現できるようになる。

本実施形態では、離散時間フーリエ変換を有限時間（サンプル数）で打ち切るために、矩形窓やハニング窓などの適当な窓関数を用いる。また、以下ではサンプリング周波数をfs、離散時間フーリエ変換の時間領域の窓長をN点として説明を続ける。

ここで、f0をfs／Nとし、かつ周波数領域において音声の成分がf0の整数倍（ただし、その倍数であるkは|k|＜fs／(2×f0)とする）のみで構成されるとき（これは、音声波形が周波数f0の定常な周期波形であることに対応する）、窓掛けされた離散時間領域のN点のサンプル値は、周波数領域におけるk×f0の各点の値から、N点の離散フーリエ逆変換で厳密に求まり、Nが２のべき乗となる数であれば、その計算に高速フーリエ変換を容易に適用できる。これは以下の理由による。

すなわち、一般的に離散時間領域における窓掛けは、周波数領域において、窓関数の離散時間フーリエ変換の畳み込みと等価である。窓長がNサンプルのとき、窓関数の離散時間フーリエ変換は、n×fs／N（nは０でない整数）の点で０となる。

また、正規化周波数（＝f／fs）上においては、n／Nの点で振幅が０となる。例えば、図２はN=１６の矩形窓関数に対するフーリエ変換のパワースペクトルで、横軸は正規化周波数、縦軸は対数パワースペクトル（dB）である。正規化周波数において、０を除いた１／１６の倍数となる正規化周波数において、パワースペクトルが０（対数軸上において無限小）となることがわかる。

一方、音声波形が周波数f0=fs／Nの周期波形であるとき、その定常性を仮定すれば、周波数領域ではその調波成分であるf0 (=fs／N) の整数倍の成分のみ（線スペクトルの足し合わせ）となる。つまり正規化周波数軸上においては、１／Nの整数倍の成分のみで構成され、例えば図３のようになる。

ここで、前記窓長N点の窓関数の離散時間フーリエ変換と、周波数f0の定常な周期波形に対する離散時間フーリエ変換との畳み込みを考えると、ある正規化周波数k／N（k：整数）上におけるパワースペクトルは、その周波数の線スペクトルのパワーで決まる。なぜなら、別の線スペクトルに対する畳み込みに由来する成分は、他の線スペクトルが存在する周波数ではちょうど０となって、その影響を受けないためである。

つまり、正規化周波数k／N上のパワースペクトルは、同じ周波数上の周期波形の調波成分のみで決まる。また、パワースペクトルから対応する周期波形の計算は、その周期がNサンプルであるとき、正規化周波数k／Nの点のみで決まる。

以上より、周期波形の周期と窓長とが等しいとき、時間領域における窓掛けの影響は生じない。なお、ここでは周期波形の定常性を仮定しているが、Nが数ミリ秒に対応する程度の短い時間であれば、一般的な音声の時間変化の速度を考慮し、実用上定常と見なして良い。

したがって、周期波形の周期が既知で、かつ定常性を仮定できれば、窓関数の選択において畳み込みの影響を考慮する必要はなく、窓関数として矩形窓を用いることができる。そして、矩形窓を用いることで、実際には窓掛けのための乗算処理が不要になる。

処理の高速化および時間解像度の観点からはNは短い方がよく、Nを決めるf0は音声認識システムが対応可能な範囲で大きい（周波数が高い）方が望ましい。例えばfsが１６kHzの場合、Nを６４とすればf0は２５０Hzとなる。これは、通常観測される人間の基本周波数の範囲であり、多くの音声認識システムで、そのような基本周波数の周期波形を入力できる。また、Nは周波数解像度にも対応し、Nが小さいほど周波数解像度は低下するが、例えば先述のN=６４は、音声認識システムで通常用いられるMFCCの次数（例えば１２次程度）を考えると、そのような次数のMFCCで表せるスペクトル包絡特性を表現するには十分に大きな値である。

このとき、Nの長さは時間としては４msであり、音声認識に用いられる一般的な分析周期である数十msよりも十分に短く、例えば矩形窓で切り取られる区間が連続するように４ミリ秒周期で変換後の音声波形の生成処理を行っても、時間変化の表現における影響は小さい。

さらに、声質変換出力の波形生成処理における時間解像度が音声認識システムの時間解像度よりも高い場合は、その解像度を下げてもその影響は小さい。１周期の波形を複数回繰り返して出力し、その間は離散フーリエ変換を伴うような音声波形生成処理を行わないことで、処理量を削減することができる。この場合、単純な処理では、数ms〜数十ms継続した周期波形が急激に切り替わることになる。そこで、その影響を避けるために、一般にoverlap and add呼ばれる、切り替わりの前後それぞれの区間で、それぞれ後方、前方にもそれらの波形の繰り返しを延長して両者をオーバラップさせ、オーバラップさせた区間で両者の重み付け和を計算する等の方法により、波形上で徐々に切り替わっていくようにする方法が有効である。

音声波形の合成では、時刻ｉのスペクトル包絡特性の対数パワースペクトルをS (i，ω)(ω：角周波数)とするとき、次式(1)のように、調波成分の余弦関数を足し合わせることで合成音声x(i)が得られる。

x(i)=Σ_k {exp(s(i，2π×k×fs／N)／2)×cos(2π×k×fs／N×i)} …(1)

この場合、i=n×N（n：整数）となる時刻ですべての調波成分のエネルギーが集中し、x(i)の振幅が非常に大きくなる。したがって、このような点を基準に音声認識システムへの入力レベルを決めると、その他の部分では相対的に振幅が小さくなり、信号対雑音比的に不利になる。

そこで、本実施形態では次式(2)のように、正弦関数の足し合わせにより合成音声x(i)を得ている。

x(i)=Σ_k {exp(s(i，2π×k×fs／N)／2)×sin(2π×k×fs／N×i)} …(2)

多くの音声認識システムでは、その音声特徴抽出にパワースペクトルのみを用い、音声波形の位相成分を考慮していない。したがって、このように位相を変えた波形を入力しても音声認識システムへの影響は生じない。そして、これらの計算は、Nが２のべき乗であるとき、高速フーリエ変換により容易かつ高速に行うことができる。

図１は、本発明の一実施形態に係る音声認識装置１の主要部の構成を示した機能ブロック図であり、入力音声の声質を変換する声質変換部２および声質を変換した音声を対象に音声認識を実行する音声認識部３から構成される。ここで、音声認識部３としては既存の音声認識システムを適用可能であり、音声波形をその入力とし、音声認識結果をその出力とする。

前記音声認識装置１または声質変換部２は、汎用のコンピュータやサーバに各機能を実現するアプリケーション（プログラム）を実装することで構成できる。あるいはアプリケーションの一部がハードウェア化またはROM化された専用機や単能機としても構成できる。

前記声質変換部２は、音声特徴ベクトル抽出部２１、音声特徴変形部２２および音声波形生成部２３で構成される。前記音声特徴ベクトル抽出部２１は、入力された音声波形から音声特徴ベクトルの時系列データを抽出して出力する。本実施形態では、１つのベクトルで音声特徴ベクトルの時間変化を表すために、複数時刻に対応する音声特徴を１つのベクトルに結合する音声特徴結合部２１１を備える。

音声特徴結合部２１１は、例えば連続する時刻t，t＋1，t＋2における各音声特徴を表す３つのベクトルを、それぞれv(t)、v(t＋1)、v(t＋2)とするとき、これら３つのベクトルを連結し、さらに予め設定した変換行列Ｗを用いて変換することで、次式(3)で表されるベクトルv'(t)を求め、これを音声特徴ベクトルとして出力することができる。なお、^Tは転置を表す。

v'(t)=W［v(t) v(t＋1) v(t＋2)］^T …(3)

このような構成とすることで、音声の特徴の短時間（ここでは、３つのベクトル間）の時間変化も考慮した音声特徴ベクトルを構築することができる。

前記音声特徴変形部２２は、音声特徴ベクトル抽出部２１が出力する各時刻の音声特徴ベクトルを、別途に入力される話者適応用の変換制御情報に基づいて、認識率の改善が見込まれる音声特徴ベクトルに変換し、これを音声波形を合成するのに必要な特徴ベクトルとして出力する。

出力する特徴ベクトルの形式は、入力された特徴ベクトルと同じ形式であっても良いし異なる形式であっても良い。前記音声特徴変形部２２による変形は、例えばアフィン変換により実現できる。この場合、音声認識率が高い特定話者の音声データを予め用意しておき、入力話者の声質から特定話者の声質への声質変換が行われる。

あるいは、音声認識部３での音声認識率の改善が見込める変形を、別の話者の音声データから作成する等により予め複数用意しておき、対象話者による正解が分かっている（複数の）音声データに対して、用意してある変換をそれぞれ実験的に適用し、その結果に対して音声認識部３で認識率を測定し、最も認識率の高い変換を選ぶようにしても良い。このような方法により変換情報を決めることができる。

前記音声波形生成部２３は、音声特徴変形部２２が出力した特徴ベクトルから音声のスペクトル包絡特性を求め、これを再現するような音声波形を合成し、その結果を音声認識部３へ送る。

本実施形態では、上述の通り、入力音声の基本周期が音声認識部３での音声認識において考慮されないことを鑑みて基本周期決定部２３１を設け、当該基本周期決定部２３１が、音声合成に際して基本周期を再現せず、高速フーリエ変換の適用が容易な基本周期に変換する。すなわち、本実施形態では基本周期が波形生成処理の処理区間長Nと等しい又はその整数分の１となる音声波形を生成するようにしている。

また、本実施形態では音声波形生成部２３に音声波形加工部２３２を設け、１周期の音声波形を所定回数繰り返す音声波形を生成するようにした。したがって、その間は音声波形生成処理を行わなくすることで計算量を削減できるようになる。

さらに、本実施形態では音声波形生成部２３に正弦関数合成部２３３を設け、調波成分を合成する際、複数の正弦関数の足し合わせに相当する処理により音声波形を生成するようにしている。これにより、調波成分のエネルギーが特定の時刻に集中することを防止できるので、信号対雑音比の高い音声認識が可能になる。

前記音声認識部３は、音声波形生成部２３が合成した音声波形に対する音声認識処理を行って音声認識結果を出力する。

本実施形態によれば、入力音声に基づいて音声認識率の高い音声波形を生成する際に、後段の音声認識において考慮されない特徴量については、これを再現せず、計算量の削減を優先させた特徴量を採用するので、計算量の増加を抑えながら音声認識率を向上させることができる。

また、本実施形態では、音声認識の実行部を後段に設けて一体構成としたので、人による聴取を目的とした音声波形を出力する声質変換装置と、音声波形を入力とする音声認識装置とを縦続に接続した場合よりも計算量の増加を抑えながら音声認識率を向上させる音声認識装置を構成できるようになる。

なお、上記の実施形態では、窓長（処理区間長）Ｎと音声波形生成部２３で合成する音声波形の基本周期とが等しいものとして説明したが、本発明はこれのみに限定されるものではなく、窓長Nは合成する音声波形の基本周期の整数倍であっても良い。これにより、離散フーリエ変換で行う際の変換長が長くなるため処理量的な不利は生じるが、この場合でも窓関数の影響を避けることができる。

また、上記の実施形態では、音声認識装置１が声質変換部２を内蔵する場合を例にして説明したが、本発明はこれのみに限定されるものではなく、図４に示したように、声質変換部２を含む声質変換装置４と音声認識部３を含む音声認識装置５とを分離し、声質変換装置４が生成した音声波形を、有線、無線またはネットワーク経由で音声認識装置５へ入力させるようにしても良い。

このような分離構造とすれば、既存、汎用の音声認識装置を用いて認識率の高い音声認識を実現できるようになる。

１…音声認識装置，２…声質変換部，３…音声認識部，４…特徴変形部，５…音声波形生成部，２１…音声特徴ベクトル抽出部，２２…音声特徴変形部，２３…音声波形生成部

Claims

入力音声の声質を音声認識前に変形する音声認識装置において、
入力音声から特徴量を抽出する手段と、
前記特徴量を変形する手段と、
前記変形した特徴量に基づいて音声波形を生成する手段とを具備し、
前記音声波形を生成する手段は、音声認識プロセスで考慮されない特徴量を再現しないことを特徴とする音声認識装置。
前記生成された音声波形に基づいて音声認識を実行する手段をさらに具備したことを特徴とする請求項１に記載の音声認識装置。
前記音声波形を生成する手段は、基本周期が入力音声と異なる音声波形を生成することを特徴とする請求項１または２に記載の音声認識装置。
前記音声波形を生成する手段は、基本周期が、波形生成処理の処理区間長と等しい又はその整数分の１となる音声波形を生成することを特徴とする請求項１ないし３のいずれかに記載の音声認識装置。
前記音声波形を生成する手段は、複数の正弦関数の足し合わせに相当する処理により音声波形を生成することを特徴とする請求項１ないし４のいずれかに記載の音声認識装置。
前記音声波形を生成する手段は、１周期の音声波形を所定回数繰り返す音声波形を生成することを特徴とする請求項１ないし５のいずれかに記載の音声認識装置。
コンピュータが、入力音声の声質を音声認識前に変形する音声認識方法において、
入力音声から特徴量を抽出し、
前記特徴量を変形し、
前記変形した特徴量に基づいて音声波形を生成し、
前記音声波形を生成する際に、音声認識プロセスで考慮されない特徴量を再現しないことを特徴とする音声認識方法。
前記生成された音声波形に基づいて音声認識を実行することを特徴とする請求項７に記載の音声認識方法。
入力音声の声質を音声認識前に変形する音声認識プログラムにおいて、
入力音声から特徴量を抽出する手順と、
前記特徴量を変形する手順と、
前記変形した特徴量に基づいて音声波形を生成する手順とをコンピュータに実行させ、
前記音声波形を生成する手順では、音声認識プロセスで考慮されない特徴量を再現しないことを特徴とする音声認識プログラム。
前記生成された音声波形に基づいて音声認識を実行する手順をさらに含むことを特徴とする請求項９に記載の音声認識プログラム。