JP2010237269A

JP2010237269A - 音声認識装置、その方法及びそのプログラム

Info

Publication number: JP2010237269A
Application number: JP2009082380A
Authority: JP
Inventors: Koichi Yamamoto; 幸一山本; Masahide Arisei; 政秀蟻生
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-03-30
Filing date: 2009-03-30
Publication date: 2010-10-21

Abstract

【課題】雑音を推定しつつ、発声開始イベントを通知してから発声可能になるまでの遅延を短くし、かつ、報知音の再生直後に発声ができる音声認識装置を提供する。
【解決手段】音声認識装置は、報知音の周波数帯域において報知音を含む背景雑音の雑音スペクトルを背景雑音のみの雑音スペクトルに補正し、報知音の再生終了後にユーザーによって発声された音響信号のスペクトルから補正後の雑音スペクトルを除去して、雑音スペクトルを除去した音響信号のスペクトルについて音声認識を行う。
【選択図】図１

Description

本発明は、入力信号から雑音成分を除去することにより認識率の向上を図る音声認識装置、その方法及びそのプログラムに関するものである。

音声認識のための信号入力手段としては、ＰＴＴ（push-to-talk）が広く使用されている。このＰＴＴは、ユーザーによるトークスイッチの押下後、音声認識装置から発声許可を通知するための報知音が再生される。この報知音が再生された後にユーザーが、所定のコマンドを発声する。そして、音声認識装置は、この報知音の再生後にマイクロホンからの入力信号の取り込みを開始し、音声認識処理を行う。

ところで、音声認識では入力信号から雑音成分を除去することにより認識率の向上を図っている。例えば、（１）式で表されるＳＳ（Spectral Subtraction）による雑音除去が音声認識の前処理として広く使用されている。

従来技術の音声認識装置では、ユーザーがトークスイッチをＯＮ状態にして報知音を再生し、この報知音再生後に入力信号の取り込みを開始する。その後一定区間を雑音区間であると仮定して雑音成分の推定を行っている。すなわち、（２）式で表されるように、報知音再生後の雑音推定区間Ｎにおける入力スペクトルの平均値を推定雑音スペクトルとして使用している。

上記従来の音声認識装置においては、報知音再生後、雑音推定区間経過前にユーザーが発声をした場合、雑音推定精度が低下するという問題点があった。すなわち、（２）式における雑音推定区間に音声が含まれることになり、雑音成分を正確に抽出することができず、これにより音声認識の精度が低下していた。

そこでこの問題点を解決するために、特許文献１では、ユーザーがトークスイッチをＯＮ状態にした後、入力信号の取り込みを開始し雑音推定が終了した後に、報知音を再生している。これにより、報知音再生直後にユーザーが発声しても正確に雑音スペクトルを推定できる。
特許第３６５４０４５公報

しかし、特許文献１では、雑音スペクトル推定のために必要な雑音推定区間を確保した後に報知音を再生するため、ユーザーがトークスイッチをＯＮ状態にしてから発声可能状態になるまでに、雑音推定区間長に報知音区間長を加えた分の遅延が生じる。例えば、この雑音推定区間は２００ｍｓ程度、報知音区間は１５０ｍｓ程度であり、トークスイッチをＯＮ状態にした後から少なくとも３５０ｍｓ程度の間、ユーザーは発声をすることができないという問題点があった。そして、この遅延はユーザーに与えるストレスの原因となっていた。

そこで本発明は、上記問題点に鑑みてなされたものであって、雑音を推定しつつ、発声開始イベントを通知してから発声可能になるまでの遅延を短くし、かつ、報知音の再生直後に発声ができる音声認識装置、その方法及びそのプログラムを提供する。

本発明の一態様は、ユーザーによる発声開始イベントを通知する通知部と、前記発声開始イベントが通知された後、前記ユーザーに発声許可を知らせる報知音を再生する報知音再生部と、前記報知音の周波数が含まれる周波数帯域を取得する報知音取得部と、前記報知音を含む音響信号を取得する信号取得部と、前記音響信号を周波数解析してスペクトルを求める周波数解析部と、前記スペクトルから前記報知音を含む前記背景雑音の雑音スペクトルを推定する雑音推定部と、前記報知音の周波数帯域において前記報知音を含む前記背景雑音の雑音スペクトルを前記背景雑音のみの雑音スペクトルに補正する雑音補正部と、前記報知音の再生終了後に前記ユーザーによって発声された音響信号のスペクトルから前記補正後の雑音スペクトルを除去し、前記雑音スペクトルを除去した音響信号のスペクトルについて音声認識を行う音声認識部と、を備えたことを特徴とする音声認識装置である。

本発明によれば、雑音を推定しつつ、発声開始イベントを通知してから発声可能になるまでの遅延が短く、かつ、報知音の再生直後に発声できる。

以下、本発明の一実施形態の音声認識装置１０を図１〜図３に基づいて説明する。

図１は、本実施形態に係る音声認識装置１０の構成を示すブロック図である。図２は、本実施形態に係るトークスイッチのＯＮ／ＯＦＦ状態と入力した音響信号のタイムチャートを示す図である。

音声認識装置１０の構成について図１に基づいて説明する。

図１に示すように、音声認識装置１０は、通知部１２、報知音再生部１４、報知音取得部１６、信号取得部１８、周波数解析部２０、雑音推定部２２、雑音補正部２４、音声認識部２６を有する。

なお、この音声認識装置１０は、例えば、汎用のコンピュータを基本ハードウェアとして用いることでも実現することが可能である。すなわち、通知部１２、報知音再生部１４、報知音取得部１６、信号取得部１８、周波数解析部２０、雑音推定部２２、雑音補正部２４、音声認識部２６は、上記のコンピュータに搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声認識装置１０は、上記のプログラムをコンピュータに予めインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、又はネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータに適宜インストールすることで実現してもよい。

信号取得部１８は、マイク１７から入力したアナログの音響信号である入力信号を、１６０００Ｈｚのサンプリング周波数でデジタルの入力信号にＡ／Ｄ変換する。

周波数解析部２０は、信号取得部１８で取得したデジタルの入力信号を予め定めた単位のフレームの時間信号に分割する。本実施形態では、フレーム長を２５ｍｓｅｃ（４００点）、シフト幅を１０ｍｓｅｃ（１６０点）で分割する。このとき、フレーム化処理を行う窓関数としてハミング窓を用いる。そして、分割された各フレームの時間信号から離散フーリエ変換によりパワースペクトルを計算する。具体的には、４００点の各フレームデータに１１２点の０詰めを行った後、５１２点のＦＦＴを行う。

なお、パワースペクトルではなく振幅スペクトルを用いて後段の処理をすることも可能である。

通知部１２は、ユーザーがトークスイッチ１３をＯＮ状態にすると、音声認識を行うことを示す発声開始イベントを雑音推定部２２及び報知音再生部１４に通知する。

雑音推定部２２は、周波数解析部２０で得られたパワースペクトルから背景雑音のパワースペクトルを表す雑音スペクトルを推定する。本実施形態では、発声開始イベント後２００ｍｓｅｃの区間（２０フレーム）を雑音と仮定し、雑音スペクトルを推定する。この場合、雑音スペクトルは以下の（３）式で推定する。

ここで、ｉ＝１は発声開始イベント後に最初の取り込まれたフレーム番号を表している。すなわち、本実施形態では発声開始イベント通知後にマイクに入力された信号を利用して雑音スペクトルを推定している。

上記以外の推定方法としては、発声開始イベント通知前における入力信号も用いて雑音スペクトルを推定することもできる。

また、本実施形態では、発声開始イベント後２００ｍｓｅｃの区間を利用して雑音を推定しているが、２００ｍｓｅｃ以後の信号も利用して推定された雑音スペクトルを更新することもできる。

報知音再生部１４は、通知部１２からの発声開始イベントを取得した後、報知音を再生する。ユーザーはこの報知音再生終了後に発声を行う。報知音には、例えば、５００Ｈｚの単一周波数の音響信号を使用する。なお、単一周波数は多少の帯域幅を持ってもよい。報知音の再生タイミングは、報知音区間の始端が、雑音推定区間の終端より前であり、かつ、報知音区間の終端が雑音推定区間の終端と同時刻、又は、それより時間的に遅れて再生されるように制御しておく。なお、雑音推定区間とは、上記方法で雑音を推定している時間をいい、報知音区間とは報知音が再生されている時間をいう。例えば、報知音区間を１５０ｍｓとすると、発声開始イベントから５０ｍｓ後に報知音を再生する。これにより、報知音の再生が終了した時点で雑音推定区間（２００ｍｓ）を経過しているため、報知音再生終了直後にユーザーが発声しても雑音スペクトルの推定に影響を与えることはない。なお、単一周波数の音響信号とは、ＦＦＴによって解析できる周波数帯域幅より狭い周波数帯域幅を有していてもよい。

報知音取得部１６は、入力信号の相関値を利用して報知音の周波数が含まれる周波数帯域を取得する。報知音は単一の周波数の音響信号から構成されているため、相関値の高い周波数を報知音の周波数と推定する。

本実施形態では、報知音の周波数帯域が２００Ｈｚから１０００Ｈｚの間に含まれていると仮定して、自己相関の探索範囲を決定する。すなわち、（４）式、（５）式のように１６（＝１６０００／１０００）から８０（＝１６０００／２００）までの幅について相関値を探索する。

報知音の周波数を正確に推定するため、自己相関関数は報知音区間に対応する時間信号について計算することが望ましい。すなわち、１５０ｍｓの報知音が、発声開始イベントから５０ｍｓ後に再生される場合は、発声開始イベント後５０ｍｓから２００ｍｓまでの時間信号を用いて報知音の周波数帯域の推定を行う（図２の自己相関関数の計算区間参照）。本実施形態では、ｊ＝３２すなわち５００Ｈｚにおいて相関値が最大になったものとする。

雑音補正部２４は、報知音取得部１６で取得した報知音の周波数帯域に基づいて推定された雑音スペクトルを補正する。

すなわち、（３）式で計算された雑音スペクトルは、報知音を含む背景雑音の入力信号について計算されているため、報知音の周波数帯域（５００Ｈｚ）における補正前の推定雑音スペクトルは、図３に示すように実際の正解雑音スペクトルとは異なるパワーを有している。具体的には、窓関数のメインローブの影響により５００Ｈｚの報知音の影響が、隣接する周波数帯域まで及んでいる。

そこで、雑音補正部２４は、隣接する周波数帯域の雑音スペクトルを補正する。補正対象となる隣接幅は、報知音の周波数帯域で１００Ｈｚ程度の幅に設定することが望ましい。本実施形態では、内挿フィルタの一つである線形補間を用いて隣接する４６８．７５Ｈ及び５３１．２５Ｈｚにおける雑音スペクトルを補正する。４６８．７５Ｈ、５００Ｈｚ、５３１．２５Ｈｚは１６０００Ｈｚの５１２点ＦＦＴにおいて、１５、１６、１７次元目（０オリジン）のＦＦＴ−ＢＩＮに対応する。

図３には補正後の報知音の周波数帯域も記載している。この記載からもわかるように、雑音補正部２４により、報知音の影響により不当な値となった５００Ｈｚにおける雑音スペクトルを背景雑音のみの雑音ベクトルに補正できる。

本実施形態では、窓関数のメインローブの影響を考慮して隣接周波数帯域の補正を行ったが、この他にも、サイドローブの影響を考慮して補正できる。

また、ｓｉｎｃ関数、ランツォシュ補間等を用いて雑音スペクトルの補正をすることもできる。

報知音区間が１５０ｍｓ、雑音推定区間が２００ｍｓであった場合、特許文献１では発声可能状態になるまでに３５０ｍｓの遅延が生じていた。しかし、本実施形態では、報知音区間においても雑音スペクトルの推定を行うことができるため、図２に示すように遅延を２００ｍｓに削減できる。

音声認識部２６では、上記補正後の雑音スペクトルを用いて、報知音再生終了後にユーザーが発声した入力信号から背景雑音を除去する。本実施形態では、ＳＳを用いて入力信号から雑音成分を除去する。

音声認識部２６は、雑音成分除去後のパワースペクトルから以下の式（１０）〜（１３）により２８次元のメルフィルタバンクに分割する。

そして、当該メルフィルタバンクに離散コサイン変換を適用することで１３次元のＭＦＣＣ（Mel Frequency Cepstrum Coefficient）を以下の（１４）式によって抽出する。

その後、以下の（１５）〜（１７）式によりＭＦＣＣ特徴量の９フレーム幅におけるΔ及びΔ特徴量を計算し、最終的に３９次元の特徴ベクトルＸ（ｔ）を求める。

そして、予め学習しておいた認識対象語彙の音響モデル（ＨＭＭ）と入力信号から抽出される３９次元の特徴ベクトル系列を照合する。その結果、最尤のスコアを出す語彙を認識結果として出力する。

音声認識装置１０の処理状態について、図４のフローチャートに基づいて説明する。

ステップ１では、通知部１２は、ユーザーがトークスイッチ１３をＯＮ状態にすると、音声認識を行うことを示す発声開始イベントを雑音推定部２２及び報知音再生部１４に通知する。

ステップ２では、雑音推定部２２は、発声開始イベント後２００ｍｓｅｃの区間を雑音と仮定し、信号取得部１８で取得したデジタルの入力信号から雑音スペクトルを推定する。

ステップ３では、通知部１２からの発声開始イベントを取得した後、報知音を再生する。

ステップ４では、報知音取得部１６は、報知音の周波数が含まれる周波数帯域を取得する。

ステップ５では、雑音補正部２４は、報知音取得部１６で取得した報知音の周波数帯域に基づいて、雑音推定部２２で推定された雑音スペクトルを補正する。

ステップ６では、ユーザーが報知音再生終了後に発声を行い、音声認識部２６は、上記補正後の雑音スペクトルを用いて、前記ユーザーの発声に基づく入力信号から雑音成分を除去し、この雑音成分を除去した入力信号から音声認識を行う。

本実施形態によれば、図３に示すように、雑音推定区間においても報知音を再生することができ、トークスイッチ１３をＯＮ状態にしてから発声可能になるまでの遅延を雑音推定区間長及び報知音区間長の最大値に削減できる。

また、本実施形態によれば、報知音に、単一周波数の音響信号を用いているため、最大の相関値を示す周波数を報知音の周波数帯域として推定できる。

また、本実施形態によれば、報知音の周波数帯域以外における雑音スペクトルの推定値は報知音の影響が少ないため、内挿フィルタを利用して報知音帯域における雑音スペクトル値を補間することができる。

また、本実施形態によれば、報知音の再生が終了した時点で雑音スペクトルの推定が終了していることが保証されるため、報知音直後にユーザーが発声した場合でも雑音スペクトルの推定は影響を受けない。

（変更例）
本発明は上記各実施形態に限らず、その主旨を逸脱しない限り種々に変更することができる。

なお、上記実施形態では、報知音取得部１６において、自己相関関数を利用して自動的に報知音の周波数帯域を推定していた。しかし、これに代えて、報知音再生部１４が使用する報知音の周波数帯域が予め分っている場合は、その値を記憶して用いることもできる。

これにより、雑音スペクトルを正確に補正することができる。

本実施形態に係る音声認識装置の構成を示すブロック図である。本実施形態に係るトークスイッチのＯＮ／ＯＦＦ状態と入力信号のタイムチャートを示す図である。報知音の帯域を示すグラフである。本実施形態に係る音声認識装置のフローチャートである。

１０音声認識装置
１２通知部
１４報知音再生部
１６報知音取得部
１８信号取得部
２０周波数解析部
２２雑音推定部
２４雑音補正部
２６音声認識部

Claims

ユーザーによる発声開始イベントを通知する通知部と、
前記発声開始イベントが通知された後、前記ユーザーに発声許可を知らせる報知音を再生する報知音再生部と、
前記報知音の周波数が含まれる周波数帯域を取得する報知音取得部と、
前記報知音を含む音響信号を取得する信号取得部と、
前記音響信号を周波数解析してスペクトルを求める周波数解析部と、
前記スペクトルから前記報知音を含む前記背景雑音の雑音スペクトルを推定する雑音推定部と、
前記報知音の周波数帯域において前記報知音を含む前記背景雑音の雑音スペクトルを前記背景雑音のみの雑音スペクトルに補正する雑音補正部と、
前記報知音の再生終了後に前記ユーザーによって発声された音響信号のスペクトルから前記補正後の雑音スペクトルを除去し、前記雑音スペクトルを除去した音響信号のスペクトルについて音声認識を行う音声認識部と、
を備えたことを特徴とする音声認識装置。
前記報知音取得部は、前記報知音を再生している時間における前記音響信号の相関値を用いて、前記報知音の周波数帯域を取得する、
ことを特徴とする請求項１に記載の音声認識装置。
前記雑音補正部は、内挿フィルタを用いて前記報知音の周波数帯域における前記雑音スペクトルを補正する、
ことを特徴とする請求項１に記載の音声認識装置。
前記雑音補正部は、前記報知音の周波数帯域及びその隣接周波数帯域における前記雑音スペクトルを補正する、
ことを特徴とする請求項１に記載の音声認識装置。
前記報知音再生部は、前記報知音を再生する時間の始端が、前記雑音スペクトを推定する時間の終端より前であり、かつ、前記報知音を再生する時間の終端が、前記雑音スペクトを推定する時間の終端と同時刻、又は、それより遅くなるように前記報知音を再生する、
ことを特徴とする請求項１に記載の音声認識装置。
通知部が、ユーザーによる発声開始イベントを通知する通知ステップと、
報知音再生部が、前記発声開始イベントが通知された後、前記ユーザーに発声許可を知らせる報知音を再生する報知音再生ステップと、
報知音取得部が、前記報知音の周波数が含まれる周波数帯域を取得する報知音取得ステップと、
信号取得部が、前記報知音を含む音響信号を取得する信号取得ステップと、
周波数解析部が、前記音響信号を周波数解析してスペクトルを求める周波数解析ステップと、
雑音推定部が、前記スペクトルから前記報知音を含む前記背景雑音の雑音スペクトルを推定する雑音推定ステップと、
雑音補正部が、前記報知音の周波数帯域において前記報知音を含む前記背景雑音の雑音スペクトル
を前記背景雑音のみの雑音スペクトルに補正する雑音補正ステップと、
音声認識部が、前記報知音の再生終了後に前記ユーザーによって発声された音響信号のスペクトルから前記補正後の雑音スペクトルを除去し、前記雑音スペクトルを除去した前記音響信号のスペクトルについて音声認識を行う音声認識ステップと、
を備えたことを特徴とする音声認識方法。
コンピュータを、
ユーザーによる発声開始イベントを通知する通知部、
前記発声開始イベントが通知された後、前記ユーザーに発声許可を知らせる報知音を再生する報知音再生部、
前記報知音の周波数が含まれる周波数帯域を取得する報知音取得部、
前記報知音を含む音響信号を取得する信号取得部、
前記音響信号を周波数解析してスペクトルを求める周波数解析部、
前記スペクトルから前記報知音を含む前記背景雑音の雑音スペクトルを推定する雑音推定部、
前記報知音の周波数帯域において前記報知音を含む前記背景雑音の雑音スペクトルを前記背景雑音のみの雑音スペクトルに補正する雑音補正部、
前記報知音の再生終了後に前記ユーザーによって発声された音響信号のスペクトルから前記補正後の雑音スペクトルを除去し、前記雑音スペクトルを除去した音響信号のスペクトルについて音声認識を行う音声認識部、
として機能させるための音声認識プログラム。