JP2006053459A

JP2006053459A - 話者認識装置

Info

Publication number: JP2006053459A
Application number: JP2004236429A
Authority: JP
Inventors: Naoki Sekine; 直樹関根; Tomonari Kakino; 友成柿野; Tomonori Ikumi; 智則伊久美; Keisuke Yoshizaki; 圭祐吉崎
Original assignee: Toshiba TEC Corp
Current assignee: Toshiba TEC Corp
Priority date: 2004-08-16
Filing date: 2004-08-16
Publication date: 2006-02-23
Anticipated expiration: 2024-08-16
Also published as: JP4255897B2

Abstract

【課題】妨害音により音声登録時の盗み聞きを防止し、演算量負荷及びコストを低減して、精度が高い話者認識を実現することである。
【解決手段】妨害音下で音声入力部３から入力された入力音を基にして特徴量計算部４により音声特徴量を計算し、使用者の音声を登録する場合には、その音声特徴量を音声情報である標準パターンとして音声登録部７により標準パターンＤＢ８に登録し、使用者の音声を照合する場合には、その音声特徴量と標準パターンＤＢ８に登録されている標準パターンとを比較することで音声照合を行うようにした。これにより、妨害音により音声登録時の盗み聞きを防止し、演算量負荷及びコストを低減して、精度が高い話者認識を実現することができる。
【選択図】図１

Description

本発明は、話者認識装置に関する。

従来、話者認識装置としては、特定の話者（使用者）がパスワード等を発声した音声パターンを標準パターンとして保持するテキスト依存型の話者認識装置等が提案されている。この話者認識装置はＡＴＭ（Automatic Tellers Machine）等に用いられている。

通常、話者認識装置では、認識時に入力音声と本人の標準パターンとの時間軸整合後の距離を計算し、その値を一定の閾値と比較することにより本人か否かを判断している。このとき、話者認識装置では、詐称者が、予め登録されている特定話者のパスワードと同じパスワードを発声した場合でも、詐称者を本人として照合してしまうことがあるため、パスワードを他人に知られないようにすることは重要である。

ところが、従来の話者認識装置では、使用者は音声入力用のマイクに向かってパスワードを発声する。このため、使用者の周囲にいる他人はそのパスワードを容易に聞くことが可能でありパスワード等の情報が簡単に他人に知られてしまうという問題がある。

そこで、その問題を解決する方法として、特許文献１では、使用者の音声が周囲に聞こえることを防止する妨害音をスピーカから発生させて音声登録時の盗み聞きを防止する方法が提案されている。このとき、マイクに入力される入力音は音声と共に妨害音も含んでいる。この入力音をそのまま話者認識に用いると話者認識の精度が低下してしまうため、特許文献１では、適応フィルタを用いて入力音から妨害音を除去することで話者認識精度の向上を図っている。

特開平９−１２７９７４号公報

しかしながら、特許文献１の方法では、使用者の音声に妨害音が重畳した波形から妨害音のみを完全に除去することは困難であり、話者認識精度は十分でない。さらに、特許文献１の方法では、妨害音を除去するための演算量負荷も大きいため、運用上大きな問題を抱えている。

本発明の目的は、使用者の音声が周囲に聞こえることを防止する妨害音により音声登録時の盗み聞きを防止し、演算量負荷及びコストを低減して、精度が高い話者認識を実現することである。

本発明の話者認識装置は、使用者の音声が周囲に聞こえることを防止する妨害音を生成する妨害音生成手段と、前記妨害音生成手段により生成された前記妨害音を出力する妨害音出力部と、前記使用者の音声を入力するための音声入力部と、前記使用者による操作を受け付ける操作部と、情報を記憶する記憶部と、前記操作部に対する前記使用者の操作に応じて、前記使用者の音声の登録を行うための登録状態と前記使用者の音声の照合を行うための照合状態とを切り替える状態切替手段と、前記妨害音出力部により出力された前記妨害音と前記使用者の音声とが重なることで生成され前記音声入力部に入力された入力音を基にして音声特徴量を計算する特徴量計算手段と、前記状態切替手段により切り替えられた前記登録状態で、前記特徴量計算手段により計算された前記音声特徴量を用いて前記記憶部に前記情報として前記使用者の音声の登録を行う音声登録手段と、前記状態切替手段により切り替えられた前記照合状態で、前記記憶部に記憶されている前記使用者の音声と前記特徴量計算部により計算された前記音声特徴量とを用いて前記使用者の音声の照合を行う音声照合手段と、を備える。

これにより、妨害音下で音声入力部から入力された入力音を基にして特徴量計算手段により音声特徴量が計算され、使用者の音声を登録する場合には、その音声特徴量が音声情報として音声登録手段により記憶部に登録され、使用者の音声を照合する場合には、その音声特徴量と記憶部に登録されている音声情報とを比較することで音声照合が行われるため、妨害音を除去するための適応フィルタ等を必要とせず、妨害音下で精度が高い話者認識が可能になる。

本発明によれば、使用者の音声が周囲に聞こえることを防止する妨害音により音声登録時の盗み聞きを防止し、演算量負荷及びコストを低減して、精度が高い話者認識を実現することができる。

本発明の第一の実施の形態を図１ないし図６に基づいて説明する。

図１は本実施の形態の話者認識装置１００の概略構成を示すブロック図である。本実施の形態の話者認識装置１００は、使用者が特定のパスワードを発声することで話者認識を行う一例である。

図１に示すように、話者認識装置１００は、使用者の音声が周囲に聞こえることを防止する妨害音を生成する妨害音生成部１、生成された妨害音を出力する妨害音出力部２、使用者の音声を入力するための音声入力部３、音声入力部３に入力された入力音を基にして音声特徴量を計算する特徴量計算部４、使用者による操作を受け付ける操作部５、操作部５に対する使用者の操作に応じて、使用者の音声の登録を行うための登録状態と使用者の音声の照合を行うための照合状態とを切り替える状態切替部６、特徴量計算部４により計算された音声特徴量を用いて登録状態で使用者の音声の登録を行う音声登録部７、音声登録部７からの音声情報を標準パターンとして記憶する標準パターンＤＢ（データベース）８、標準パターンＤＢ８に記憶されている標準パターンと特徴量計算部４により計算された音声特徴量とを用いて照合状態で使用者の音声の照合を行う音声照合部９、及び音声入力部３に入力された入力音に基づいて妨害音を変更する妨害音変更部１０等から構成されている。

なお、妨害音は、妨害音出力部２から出力されて音声入力部３にループバックして入力される。したがって、入力音は、妨害音出力部２により出力された妨害音と使用者の音声とが重なる（混ざる）ことで生成され、音声入力部３に入力される。

妨害音生成部１は、音楽、ビープ音、合成音声及びラジオ音等の妨害音をデジタル信号として生成し、妨害音出力部２に送る。この妨害音は、使用者の音声をかき消すことで、使用者の音声が周囲に聞こえることを防止する。このような妨害音生成部１は妨害音生成手段として機能する。

妨害音出力部２は、生成されたデジタル信号をアナログ信号に変換するＤ／Ａ変換器、変換されたアナログ信号を増幅する増幅器及び増幅されたアナログ信号を出力音として出力するスピーカ（いずれも図示せず）を備えている。このような妨害音出力部２は、妨害音生成部１で生成された妨害音のデジタル信号をアナログ信号に変換して増幅し、出力音として外部に出力する。

音声入力部３は、使用者の音声等の音をアナログ信号として入力するためのマイク、入力されたアナログ信号を増幅する増幅器及び増幅されたアナログ信号をデジタル信号に変換するＡ／Ｄ変換器（いずれも図示せず）を備えている。このような音声入力部３には、主に使用者の音声が入力されるが、使用者の音声以外に妨害音出力部２から出力された妨害音も使用者の音声に重なって（混ざって）入力される。したがって、音声入力部３は、妨害音と使用者の音声とから生成された入力音（合成音）を増幅してアナログ信号からデジタル信号に変換し、特徴量計算部４及び妨害音変更部１０に送信する。

特徴量計算部４は、音声入力部３から送られた入力音を基にして線形予測分析を行って音声特徴量を求める。線形予測分析は入力音からスペクトル包絡を求める手法であり、発声メカニズムの声道特性を反映した一般に知られた音声特徴量抽出手法である（鹿野清宏（他４名） “音声認識システム” オーム社出版第１版（２００１年５月）Ｐ１〜Ｐ１３参照）。このような特徴量計算部４は特徴量計算手段として機能する。

操作部５は、使用者により操作される操作パネルであり、テンキーや複数の選択ボタン（いずれも図示せず）等から構成されている。例えば、使用者は選択ボタン等を押下することで登録状態と照合状態とを切り替える。

状態切替部６は、操作部５に対する使用者の操作に応じて話者認識装置１００の状態を登録状態又は照合状態に切り替える。登録状態では、特徴量計算部４の出力は音声登録部７に渡り、認識状態では、特徴量計算部４の出力は音声照合部９に渡る。すなわち、状態切替部６は、登録状態で、特徴量計算部４により計算された音声特徴量を音声登録部７に送信し、認識状態で、特徴量計算部４により計算された音声特徴量を音声照合部９に送信する。このような状態切替部６は状態切替手段として機能する。

音声登録部７は、登録状態で、状態切替部６から送られた音声特徴量（音声パターン）を音声情報である標準パターンとして標準パターンＤＢ８に登録する。このとき、音声特徴量は、使用者（特定の話者）が妨害音下でパスワードを発声した際の入力音（音声及び妨害音を含む入力音）から求められた特徴量である。このような音声登録部７は音声登録手段として機能する。

標準パターンＤＢ８は、音声情報である標準パターンを記憶する記憶部である。標準パターンＤＢとしては、例えばＨＤＤ（ハードディスク）やメモリ等が用いられる。

音声照合部９は、照合状態で、状態切替部６から送られた音声特徴量（音声パターン）と標準パターンＤＢ８に記憶されている標準パターンとの時間軸整合後の距離を計算し、その値を一定の閾値と比較することによって音声照合を行う。このとき、状態切替部６から送られてきた音声特徴量は、使用者（特定の話者）が妨害音下でパスワードを発声した際の入力音（音声及び妨害音を含む入力音）から求められた特徴量である。このような音声照合部９は音声照合手段として機能する。

妨害音変更部１０は、音声入力部３から送られた入力音に基づいて使用者の発声音量と妨害音の音量との比率により、妨害音出力部２での妨害音の音量を自在に変更する。このような妨害音変更部１０は妨害音変更手段として機能する。

次に、音声登録部７での音声登録について図２ないし図６を参照して説明する。図２は静かな環境下での音声登録時の音声の波形を示す模式図、図３は妨害音下での音声の波形を示す模式図、図４は適応フィルタ処理後の妨害音下での音声の波形を示す模式図である。また、図５は妨害音下での音声登録時の音声の波形を示す模式図、図６は妨害音下での音声照合時の音声の波形を示す模式図である。

静かな環境下での音声登録時の音声は、図２に示すようなｘ（ｔ）の波形になる。また、妨害音下での音声は、妨害音をｙ（ｔ）とすると、図３に示すようなｘ（ｔ）＋ｙ（ｔ）の波形になる。さらに、適応フィルタ処理後の妨害音下での音声の波形は、適応フィルタ処理後の妨害音をｙ´（ｔ）とすると、図４に示すようなｘ（ｔ）＋ｙ´（ｔ）の波形になる。

ここで、従来の技術では、図２に示すような音声ｘ（ｔ）と図４に示すような音声ｘ（ｔ）＋ｙ´（ｔ）とを比較することで音声照合を行うが、それらの間に差ｙ´（ｔ）が生じているため、話者認識精度は低くなってしまう。これは、静かな環境下での音声が音声登録時の音声として使用されているためである。

そこで、本実施の形態では、妨害音下での音声が音声登録時の音声として使用される。妨害音下での音声登録時の音声は、図５に示すようなｘ（ｔ）＋ｙ（ｔ）の波形になる。また、妨害音下での音声照合時の音声は、図６に示すようなｘ（ｔ）＋ｙ（ｔ）の波形になる。このとき、図５に示すようなｘ（ｔ）＋ｙ（ｔ）の波形と図６に示すようなｘ（ｔ）＋ｙ（ｔ）の波形との差は、ｙ（ｔ）の定常性を加味すると非常に小さく、それらの波形はほぼ同じである。これにより、話者認識精度は向上する。

このような構成において、話者認識装置１００は、妨害音生成部１により妨害音を生成し、生成した妨害音を妨害音出力部２により外部に出力する。この妨害音が発生している状態で、使用者は音声入力部３のマイクに向かってパスワードを発声する。このとき、使用者の音声は、妨害音出力部２から出力された妨害音と重なって（混ざって）音声入力部３に入力音として入力される。

話者認識装置１００は、音声入力部３から入力された入力音（音声及び妨害音を含む入力音）に基づいて特徴量計算部４により音声特徴量を求める。その後、状態切替部６により登録状態が選択されている場合には、音声登録部７によりその音声特徴量を標準パターンとして標準パターンＤＢ８に登録する。一方、状態切替部６により照合状態が選択されている場合には、音声照合部９によりその音声特徴量と標準パターンＤＢ８に記憶されている標準パターンとを比較して音声照合を行う。なお、使用者は操作部５を操作することによって話者認識装置１００の登録状態と照合状態とを切り替える。

このように本実施の形態では、妨害音下で音声入力部３から入力された入力音を基にして特徴量計算部４により音声特徴量が計算され、使用者の音声を登録する場合には、その音声特徴量が標準パターンとして音声登録部７により標準パターンＤＢ８に登録され、使用者の音声を照合する場合には、その音声特徴量と標準パターンＤＢ８に登録されている標準パターンとを比較することで音声照合が行われるため、妨害音を除去するための適応フィルタ等を必要せず、妨害音下で精度が高い話者認識が可能になる。これにより、使用者の音声が周囲に聞こえることを防止する妨害音により音声登録時の盗み聞きを防止し、演算量負荷及びコストを低減して、精度が高い話者認識を実現することができる。

また、本実施の形態においては、入力音に基づいて妨害音を変更する妨害音変更手段である妨害音変更部１０を備えることから、妨害音は、例えばその音量が使用者の音声の音量に応じて調整され変更されるため、必要以上に妨害音の音量を上げる必要が無くなり、周囲の人に不快感を与えることを防止することができる。

本発明の第二の実施の形態を図７に基づいて説明する。

図７は本実施の形態の話者認識装置１０１の概略構成を示すブロック図である。本実施の形態は、使用者が特定のパスワードを発声することで話者認識を行う話者認識装置１０１の一例である。なお、第一の実施の形態と同一部分は同一符号で示し、その説明も省略する。

図７に示すように、話者認識装置１０１は、使用者の音声が周囲に聞こえることを防止する妨害音を生成する妨害音生成部１、生成された妨害音を出力する妨害音出力部２、使用者の音声を入力するための音声入力部３、音声入力部３に入力された入力音を基にして音声特徴量を計算する特徴量計算部４、使用者による操作を受け付ける操作部５、操作部５に対する使用者の操作に応じて、使用者の音声の登録を行うための登録状態と使用者の音声の照合を行うための照合状態とを切り替える状態切替部６、特徴量計算部４により計算された音声特徴量を用いて登録状態で使用者の音声の登録を行う音声登録部７、音声登録部７からの音声情報を標準パターンとして記憶する標準パターンＤＢ（データベース）８、標準パターンＤＢ８に記憶されている標準パターンと特徴量計算部４により計算された音声特徴量とを用いて照合状態で使用者の音声の照合を行う音声照合部９、及び音声入力部３に入力された入力音に基づいて妨害音を変更する妨害音変更部１０等から構成されている。

特徴量計算部４は、音声入力部３から送られた入力音から妨害音以外の雑音を推定して除去する雑音除去手段を備えており、推定した雑音を入力音から除去し、その入力音を基にして線形予測分析を行って音声特徴量を求める。このような特徴量計算部４は特徴量計算手段として機能する。なお、本実施の形態では、雑音推定手段としてスペクトル・サブトラクション法が用いられるが、これに限るものではない。その方法は、音声入力部３から送られた入力音のスペクトルを周波数毎に時間加算平均し、逐次差し引く方法である（Boll S.F.：Suppression of Acoustic Noise in Speech Using Spectral Subtraction，IEEE Trans.ASSP-27, P.113-120, 1979参照）。また、線形予測分析は、入力音からスペクトル包絡を求める手法であり、発声メカニズムの声道特性を反映した一般に知られた音声特徴量抽出手法である（鹿野清宏（他４名） “音声認識システム” オーム社出版第１版（２００１年５月）Ｐ１〜Ｐ１３参照）。

操作部５は、使用者により操作される操作パネルであり、テンキーや選択ボタン（いずれも図示せず）等から構成されている。例えば、使用者は選択ボタン等を押下することで登録状態と照合状態とを切り替える。さらに、使用者はテンキー等を操作することでパスワードやＩＤ番号等の申告情報を入力して本人であることを自己申告する。

状態切替部６は、操作部５に対する使用者の操作に応じて話者認識装置１０１の状態を登録状態又は照合状態に切り替える。登録状態では、特徴量計算部４の出力は音声登録部７に渡り、認識状態では、特徴量計算部４の出力は音声照合部９に渡る。すなわち、状態切替部６は、登録状態で、特徴量計算部４により計算された音声特徴量を音声登録部７に送信し、認識状態で、特徴量計算部４により計算された音声特徴量を音声照合部９に送信する。このような状態切替部６は状態切替手段として機能する。

ここで、音声照合部９は、操作部５で入力された申告情報に基づいて話者認識を行い、その認識結果を妨害音生成部１に送る。妨害音生成部１は、音声照合部９による申告情報に基づく認識結果に応じて、音楽、ビープ音、合成音声及びラジオ音等の妨害音を選定し、その妨害音をデジタル信号として生成する。例えば、妨害音生成部１は、予め使用者（登録者）毎に生成する妨害音を設定したファイル等を記憶する記憶部（図示せず）を備えており、音声照合部９による申告情報に基づく認識結果に応じて、ファイルから生成する妨害音を選択し、その妨害音をデジタル信号として生成する。

このような構成において、話者認識装置１０１は、使用者が操作部５によりパスワードやＩＤ番号等の申告情報を入力すると、その申告情報に基づいて音声照合部９により話者認識を行い、その認識結果に基づいて妨害音生成部１により妨害音を生成し、生成した妨害音を妨害音出力部２により外部に出力する。この妨害音が発生している状態で、使用者は音声入力部３のマイクに向かってパスワードを発声する。このとき、使用者の音声は、妨害音出力部２から出力された妨害音と重なって（混ざって）音声入力部３に入力音として入力される。

話者認識装置１０１は、音声入力部３から入力された入力音（音声及び妨害音を含む入力音）に基づいて特徴量計算部４により音声特徴量を求める。その後、状態切替部６により登録状態が選択されている場合には、音声登録部７によりその音声特徴量を標準パターンとして標準パターンＤＢ８に登録する。一方、状態切替部６により照合状態が選択されている場合には、音声照合部９によりその音声特徴量と標準パターンとを比較して音声照合を行う。なお、使用者は操作部５を操作することによって話者認識装置１０１の登録状態と照合状態とを切り替える。

特に、特徴量計算手段である特徴量計算部４は、入力音から妨害音以外の雑音を推定して除去し、その入力音を基にして音声特徴量を計算することから、より精度が高い話者認識を実現することができる。

さらに、操作部５は、使用者が本人であることを自己申告するための申告情報を入力する操作を受け付け、話者認識手段である音声照合部９は、操作部５により入力された申告情報に基づいて話者認識を行い、妨害音生成手段である妨害音生成部１は、音声照合部９による話者認識の結果に応じて妨害音を変更することから、使用者毎に生成する妨害音を変更することができる。その結果として、使用者の好み等に応じて妨害音を変更出力することができる。

なお、本発明は前述したような実施の形態に示す特定のハードウェア構成に限定されるものではなく、ソフトウェアによっても実現可能である。すなわち、話者認識装置１００，１０１が備える各部の機能をソフトウェアで実現することが可能である。この場合には、話者認識装置１００，１０１は、各部を集中的に制御するＣＰＵ（図示せず）を備えている。このＣＰＵには、ＢＩＯＳや各種プログラム等を記憶しているＲＯＭや各種データを書換え可能に記憶するＲＡＭ（いずれも図示せず）等がバス接続されている。ＣＰＵは、ＲＯＭに記憶されているプログラムに基づいて、各種の機能を実現する処理を実行する。

本発明の第一の実施の形態の話者認識装置の概略構成を示すブロック図である。静かな環境下での音声登録時の音声の波形を示す模式図である。妨害音下での音声の波形を示す模式図である。適応フィルタ処理後の妨害音下での音声の波形を示す模式図である。妨害音下での音声登録時の音声の波形を示す模式図である。妨害音下での音声照合時の音声の波形を示す模式図である。本発明の第二の実施の形態の話者認識装置の概略構成を示すブロック図である。

符号の説明

１妨害音生成手段（妨害音生成部）
２妨害音出力部
３音声入力部
４特徴量計算手段（特徴量計算部）
５操作部
６状態切替手段（状態切替部）
７音声登録手段（音声登録部）
８記憶部（標準パターンＤＢ）
９音声照合手段（音声照合部）
１０妨害音変更手段（妨害音変更部）
１００話者認識装置
１０１話者認識装置

Claims

使用者の音声が周囲に聞こえることを防止する妨害音を生成する妨害音生成手段と、
前記妨害音生成手段により生成された前記妨害音を出力する妨害音出力部と、
前記使用者の音声を入力するための音声入力部と、
前記使用者による操作を受け付ける操作部と、
前記使用者の音声情報を記憶する記憶部と、
前記操作部に対する前記使用者の操作に応じて、前記使用者の音声の登録を行うための登録状態と前記使用者の音声の照合を行うための照合状態とを切り替える状態切替手段と、
前記妨害音出力部により出力された前記妨害音と前記使用者の音声とが重なることで生成され前記音声入力部に入力された入力音を基にして音声特徴量を計算する特徴量計算手段と、
前記状態切替手段により切り替えられた前記登録状態で、前記特徴量計算手段により計算された前記音声特徴量を用いて前記記憶部に前記音声情報として前記使用者の音声の登録を行う音声登録手段と、
前記状態切替手段により切り替えられた前記照合状態で、前記記憶部に記憶されている前記音声情報と前記特徴量計算手段により計算された前記音声特徴量とを用いて前記使用者の音声の照合を行う音声照合手段と、
を備える話者認識装置。
前記入力音に基づいて前記妨害音を変更する妨害音変更手段を備える、
請求項１記載の話者認識装置。
前記特徴量計算手段は、前記入力音から前記妨害音以外の雑音を推定して除去し、その入力音を基にして前記音声特徴量を計算する、
請求項１又は２記載の話者認識装置。
前記操作部は、前記使用者が本人であることを自己申告するための申告情報を入力する操作を受け付け、
前記音声照合部は、前記操作部により入力された前記申告情報に基づいて話者認識を行い、
前記妨害音生成手段は、前記音声照合部による話者認識の結果に応じて前記妨害音を変更する、
請求項１、２又は３記載の話者認識装置。