JP2006053459A - 話者認識装置 - Google Patents

話者認識装置 Download PDF

Info

Publication number
JP2006053459A
JP2006053459A JP2004236429A JP2004236429A JP2006053459A JP 2006053459 A JP2006053459 A JP 2006053459A JP 2004236429 A JP2004236429 A JP 2004236429A JP 2004236429 A JP2004236429 A JP 2004236429A JP 2006053459 A JP2006053459 A JP 2006053459A
Authority
JP
Japan
Prior art keywords
voice
sound
unit
user
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004236429A
Other languages
English (en)
Other versions
JP4255897B2 (ja
Inventor
Naoki Sekine
直樹 関根
Tomonari Kakino
友成 柿野
Tomonori Ikumi
智則 伊久美
Keisuke Yoshizaki
圭祐 吉崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba TEC Corp
Original Assignee
Toshiba TEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba TEC Corp filed Critical Toshiba TEC Corp
Priority to JP2004236429A priority Critical patent/JP4255897B2/ja
Publication of JP2006053459A publication Critical patent/JP2006053459A/ja
Application granted granted Critical
Publication of JP4255897B2 publication Critical patent/JP4255897B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】 妨害音により音声登録時の盗み聞きを防止し、演算量負荷及びコストを低減して、精度が高い話者認識を実現することである。
【解決手段】 妨害音下で音声入力部3から入力された入力音を基にして特徴量計算部4により音声特徴量を計算し、使用者の音声を登録する場合には、その音声特徴量を音声情報である標準パターンとして音声登録部7により標準パターンDB8に登録し、使用者の音声を照合する場合には、その音声特徴量と標準パターンDB8に登録されている標準パターンとを比較することで音声照合を行うようにした。これにより、妨害音により音声登録時の盗み聞きを防止し、演算量負荷及びコストを低減して、精度が高い話者認識を実現することができる。
【選択図】 図1

Description

本発明は、話者認識装置に関する。
従来、話者認識装置としては、特定の話者(使用者)がパスワード等を発声した音声パターンを標準パターンとして保持するテキスト依存型の話者認識装置等が提案されている。この話者認識装置はATM(Automatic Tellers Machine)等に用いられている。
通常、話者認識装置では、認識時に入力音声と本人の標準パターンとの時間軸整合後の距離を計算し、その値を一定の閾値と比較することにより本人か否かを判断している。このとき、話者認識装置では、詐称者が、予め登録されている特定話者のパスワードと同じパスワードを発声した場合でも、詐称者を本人として照合してしまうことがあるため、パスワードを他人に知られないようにすることは重要である。
ところが、従来の話者認識装置では、使用者は音声入力用のマイクに向かってパスワードを発声する。このため、使用者の周囲にいる他人はそのパスワードを容易に聞くことが可能でありパスワード等の情報が簡単に他人に知られてしまうという問題がある。
そこで、その問題を解決する方法として、特許文献1では、使用者の音声が周囲に聞こえることを防止する妨害音をスピーカから発生させて音声登録時の盗み聞きを防止する方法が提案されている。このとき、マイクに入力される入力音は音声と共に妨害音も含んでいる。この入力音をそのまま話者認識に用いると話者認識の精度が低下してしまうため、特許文献1では、適応フィルタを用いて入力音から妨害音を除去することで話者認識精度の向上を図っている。
特開平9−127974号公報
しかしながら、特許文献1の方法では、使用者の音声に妨害音が重畳した波形から妨害音のみを完全に除去することは困難であり、話者認識精度は十分でない。さらに、特許文献1の方法では、妨害音を除去するための演算量負荷も大きいため、運用上大きな問題を抱えている。
本発明の目的は、使用者の音声が周囲に聞こえることを防止する妨害音により音声登録時の盗み聞きを防止し、演算量負荷及びコストを低減して、精度が高い話者認識を実現することである。
本発明の話者認識装置は、使用者の音声が周囲に聞こえることを防止する妨害音を生成する妨害音生成手段と、前記妨害音生成手段により生成された前記妨害音を出力する妨害音出力部と、前記使用者の音声を入力するための音声入力部と、前記使用者による操作を受け付ける操作部と、情報を記憶する記憶部と、前記操作部に対する前記使用者の操作に応じて、前記使用者の音声の登録を行うための登録状態と前記使用者の音声の照合を行うための照合状態とを切り替える状態切替手段と、前記妨害音出力部により出力された前記妨害音と前記使用者の音声とが重なることで生成され前記音声入力部に入力された入力音を基にして音声特徴量を計算する特徴量計算手段と、前記状態切替手段により切り替えられた前記登録状態で、前記特徴量計算手段により計算された前記音声特徴量を用いて前記記憶部に前記情報として前記使用者の音声の登録を行う音声登録手段と、前記状態切替手段により切り替えられた前記照合状態で、前記記憶部に記憶されている前記使用者の音声と前記特徴量計算部により計算された前記音声特徴量とを用いて前記使用者の音声の照合を行う音声照合手段と、を備える。
これにより、妨害音下で音声入力部から入力された入力音を基にして特徴量計算手段により音声特徴量が計算され、使用者の音声を登録する場合には、その音声特徴量が音声情報として音声登録手段により記憶部に登録され、使用者の音声を照合する場合には、その音声特徴量と記憶部に登録されている音声情報とを比較することで音声照合が行われるため、妨害音を除去するための適応フィルタ等を必要とせず、妨害音下で精度が高い話者認識が可能になる。
本発明によれば、使用者の音声が周囲に聞こえることを防止する妨害音により音声登録時の盗み聞きを防止し、演算量負荷及びコストを低減して、精度が高い話者認識を実現することができる。
本発明の第一の実施の形態を図1ないし図6に基づいて説明する。
図1は本実施の形態の話者認識装置100の概略構成を示すブロック図である。本実施の形態の話者認識装置100は、使用者が特定のパスワードを発声することで話者認識を行う一例である。
図1に示すように、話者認識装置100は、使用者の音声が周囲に聞こえることを防止する妨害音を生成する妨害音生成部1、生成された妨害音を出力する妨害音出力部2、使用者の音声を入力するための音声入力部3、音声入力部3に入力された入力音を基にして音声特徴量を計算する特徴量計算部4、使用者による操作を受け付ける操作部5、操作部5に対する使用者の操作に応じて、使用者の音声の登録を行うための登録状態と使用者の音声の照合を行うための照合状態とを切り替える状態切替部6、特徴量計算部4により計算された音声特徴量を用いて登録状態で使用者の音声の登録を行う音声登録部7、音声登録部7からの音声情報を標準パターンとして記憶する標準パターンDB(データベース)8、標準パターンDB8に記憶されている標準パターンと特徴量計算部4により計算された音声特徴量とを用いて照合状態で使用者の音声の照合を行う音声照合部9、及び音声入力部3に入力された入力音に基づいて妨害音を変更する妨害音変更部10等から構成されている。
なお、妨害音は、妨害音出力部2から出力されて音声入力部3にループバックして入力される。したがって、入力音は、妨害音出力部2により出力された妨害音と使用者の音声とが重なる(混ざる)ことで生成され、音声入力部3に入力される。
妨害音生成部1は、音楽、ビープ音、合成音声及びラジオ音等の妨害音をデジタル信号として生成し、妨害音出力部2に送る。この妨害音は、使用者の音声をかき消すことで、使用者の音声が周囲に聞こえることを防止する。このような妨害音生成部1は妨害音生成手段として機能する。
妨害音出力部2は、生成されたデジタル信号をアナログ信号に変換するD/A変換器、変換されたアナログ信号を増幅する増幅器及び増幅されたアナログ信号を出力音として出力するスピーカ(いずれも図示せず)を備えている。このような妨害音出力部2は、妨害音生成部1で生成された妨害音のデジタル信号をアナログ信号に変換して増幅し、出力音として外部に出力する。
音声入力部3は、使用者の音声等の音をアナログ信号として入力するためのマイク、入力されたアナログ信号を増幅する増幅器及び増幅されたアナログ信号をデジタル信号に変換するA/D変換器(いずれも図示せず)を備えている。このような音声入力部3には、主に使用者の音声が入力されるが、使用者の音声以外に妨害音出力部2から出力された妨害音も使用者の音声に重なって(混ざって)入力される。したがって、音声入力部3は、妨害音と使用者の音声とから生成された入力音(合成音)を増幅してアナログ信号からデジタル信号に変換し、特徴量計算部4及び妨害音変更部10に送信する。
特徴量計算部4は、音声入力部3から送られた入力音を基にして線形予測分析を行って音声特徴量を求める。線形予測分析は入力音からスペクトル包絡を求める手法であり、発声メカニズムの声道特性を反映した一般に知られた音声特徴量抽出手法である(鹿野 清宏(他4名) “音声認識システム” オーム社出版 第1版(2001年5月) P1〜P13 参照)。このような特徴量計算部4は特徴量計算手段として機能する。
操作部5は、使用者により操作される操作パネルであり、テンキーや複数の選択ボタン(いずれも図示せず)等から構成されている。例えば、使用者は選択ボタン等を押下することで登録状態と照合状態とを切り替える。
状態切替部6は、操作部5に対する使用者の操作に応じて話者認識装置100の状態を登録状態又は照合状態に切り替える。登録状態では、特徴量計算部4の出力は音声登録部7に渡り、認識状態では、特徴量計算部4の出力は音声照合部9に渡る。すなわち、状態切替部6は、登録状態で、特徴量計算部4により計算された音声特徴量を音声登録部7に送信し、認識状態で、特徴量計算部4により計算された音声特徴量を音声照合部9に送信する。このような状態切替部6は状態切替手段として機能する。
音声登録部7は、登録状態で、状態切替部6から送られた音声特徴量(音声パターン)を音声情報である標準パターンとして標準パターンDB8に登録する。このとき、音声特徴量は、使用者(特定の話者)が妨害音下でパスワードを発声した際の入力音(音声及び妨害音を含む入力音)から求められた特徴量である。このような音声登録部7は音声登録手段として機能する。
標準パターンDB8は、音声情報である標準パターンを記憶する記憶部である。標準パターンDBとしては、例えばHDD(ハードディスク)やメモリ等が用いられる。
音声照合部9は、照合状態で、状態切替部6から送られた音声特徴量(音声パターン)と標準パターンDB8に記憶されている標準パターンとの時間軸整合後の距離を計算し、その値を一定の閾値と比較することによって音声照合を行う。このとき、状態切替部6から送られてきた音声特徴量は、使用者(特定の話者)が妨害音下でパスワードを発声した際の入力音(音声及び妨害音を含む入力音)から求められた特徴量である。このような音声照合部9は音声照合手段として機能する。
妨害音変更部10は、音声入力部3から送られた入力音に基づいて使用者の発声音量と妨害音の音量との比率により、妨害音出力部2での妨害音の音量を自在に変更する。このような妨害音変更部10は妨害音変更手段として機能する。
次に、音声登録部7での音声登録について図2ないし図6を参照して説明する。図2は静かな環境下での音声登録時の音声の波形を示す模式図、図3は妨害音下での音声の波形を示す模式図、図4は適応フィルタ処理後の妨害音下での音声の波形を示す模式図である。また、図5は妨害音下での音声登録時の音声の波形を示す模式図、図6は妨害音下での音声照合時の音声の波形を示す模式図である。
静かな環境下での音声登録時の音声は、図2に示すようなx(t)の波形になる。また、妨害音下での音声は、妨害音をy(t)とすると、図3に示すようなx(t)+y(t)の波形になる。さらに、適応フィルタ処理後の妨害音下での音声の波形は、適応フィルタ処理後の妨害音をy´(t)とすると、図4に示すようなx(t)+y´(t)の波形になる。
ここで、従来の技術では、図2に示すような音声x(t)と図4に示すような音声x(t)+y´(t)とを比較することで音声照合を行うが、それらの間に差y´(t)が生じているため、話者認識精度は低くなってしまう。これは、静かな環境下での音声が音声登録時の音声として使用されているためである。
そこで、本実施の形態では、妨害音下での音声が音声登録時の音声として使用される。妨害音下での音声登録時の音声は、図5に示すようなx(t)+y(t)の波形になる。また、妨害音下での音声照合時の音声は、図6に示すようなx(t)+y(t)の波形になる。このとき、図5に示すようなx(t)+y(t)の波形と図6に示すようなx(t)+y(t)の波形との差は、y(t)の定常性を加味すると非常に小さく、それらの波形はほぼ同じである。これにより、話者認識精度は向上する。
このような構成において、話者認識装置100は、妨害音生成部1により妨害音を生成し、生成した妨害音を妨害音出力部2により外部に出力する。この妨害音が発生している状態で、使用者は音声入力部3のマイクに向かってパスワードを発声する。このとき、使用者の音声は、妨害音出力部2から出力された妨害音と重なって(混ざって)音声入力部3に入力音として入力される。
話者認識装置100は、音声入力部3から入力された入力音(音声及び妨害音を含む入力音)に基づいて特徴量計算部4により音声特徴量を求める。その後、状態切替部6により登録状態が選択されている場合には、音声登録部7によりその音声特徴量を標準パターンとして標準パターンDB8に登録する。一方、状態切替部6により照合状態が選択されている場合には、音声照合部9によりその音声特徴量と標準パターンDB8に記憶されている標準パターンとを比較して音声照合を行う。なお、使用者は操作部5を操作することによって話者認識装置100の登録状態と照合状態とを切り替える。
このように本実施の形態では、妨害音下で音声入力部3から入力された入力音を基にして特徴量計算部4により音声特徴量が計算され、使用者の音声を登録する場合には、その音声特徴量が標準パターンとして音声登録部7により標準パターンDB8に登録され、使用者の音声を照合する場合には、その音声特徴量と標準パターンDB8に登録されている標準パターンとを比較することで音声照合が行われるため、妨害音を除去するための適応フィルタ等を必要せず、妨害音下で精度が高い話者認識が可能になる。これにより、使用者の音声が周囲に聞こえることを防止する妨害音により音声登録時の盗み聞きを防止し、演算量負荷及びコストを低減して、精度が高い話者認識を実現することができる。
また、本実施の形態においては、入力音に基づいて妨害音を変更する妨害音変更手段である妨害音変更部10を備えることから、妨害音は、例えばその音量が使用者の音声の音量に応じて調整され変更されるため、必要以上に妨害音の音量を上げる必要が無くなり、周囲の人に不快感を与えることを防止することができる。
本発明の第二の実施の形態を図7に基づいて説明する。
図7は本実施の形態の話者認識装置101の概略構成を示すブロック図である。本実施の形態は、使用者が特定のパスワードを発声することで話者認識を行う話者認識装置101の一例である。なお、第一の実施の形態と同一部分は同一符号で示し、その説明も省略する。
図7に示すように、話者認識装置101は、使用者の音声が周囲に聞こえることを防止する妨害音を生成する妨害音生成部1、生成された妨害音を出力する妨害音出力部2、使用者の音声を入力するための音声入力部3、音声入力部3に入力された入力音を基にして音声特徴量を計算する特徴量計算部4、使用者による操作を受け付ける操作部5、操作部5に対する使用者の操作に応じて、使用者の音声の登録を行うための登録状態と使用者の音声の照合を行うための照合状態とを切り替える状態切替部6、特徴量計算部4により計算された音声特徴量を用いて登録状態で使用者の音声の登録を行う音声登録部7、音声登録部7からの音声情報を標準パターンとして記憶する標準パターンDB(データベース)8、標準パターンDB8に記憶されている標準パターンと特徴量計算部4により計算された音声特徴量とを用いて照合状態で使用者の音声の照合を行う音声照合部9、及び音声入力部3に入力された入力音に基づいて妨害音を変更する妨害音変更部10等から構成されている。
なお、妨害音は、妨害音出力部2から出力されて音声入力部3にループバックして入力される。したがって、入力音は、妨害音出力部2により出力された妨害音と使用者の音声とが重なる(混ざる)ことで生成され、音声入力部3に入力される。
妨害音生成部1は、音楽、ビープ音、合成音声及びラジオ音等の妨害音をデジタル信号として生成し、妨害音出力部2に送る。この妨害音は、使用者の音声をかき消すことで、使用者の音声が周囲に聞こえることを防止する。このような妨害音生成部1は妨害音生成手段として機能する。
妨害音出力部2は、生成されたデジタル信号をアナログ信号に変換するD/A変換器、変換されたアナログ信号を増幅する増幅器及び増幅されたアナログ信号を出力音として出力するスピーカ(いずれも図示せず)を備えている。このような妨害音出力部2は、妨害音生成部1で生成された妨害音のデジタル信号をアナログ信号に変換して増幅し、出力音として外部に出力する。
音声入力部3は、使用者の音声等の音をアナログ信号として入力するためのマイク、入力されたアナログ信号を増幅する増幅器及び増幅されたアナログ信号をデジタル信号に変換するA/D変換器(いずれも図示せず)を備えている。このような音声入力部3には、主に使用者の音声が入力されるが、使用者の音声以外に妨害音出力部2から出力された妨害音も使用者の音声に重なって(混ざって)入力される。したがって、音声入力部3は、妨害音と使用者の音声とから生成された入力音(合成音)を増幅してアナログ信号からデジタル信号に変換し、特徴量計算部4及び妨害音変更部10に送信する。
特徴量計算部4は、音声入力部3から送られた入力音から妨害音以外の雑音を推定して除去する雑音除去手段を備えており、推定した雑音を入力音から除去し、その入力音を基にして線形予測分析を行って音声特徴量を求める。このような特徴量計算部4は特徴量計算手段として機能する。なお、本実施の形態では、雑音推定手段としてスペクトル・サブトラクション法が用いられるが、これに限るものではない。その方法は、音声入力部3から送られた入力音のスペクトルを周波数毎に時間加算平均し、逐次差し引く方法である(Boll S.F.:Suppression of Acoustic Noise in Speech Using Spectral Subtraction,IEEE Trans.ASSP-27, P.113-120, 1979参照)。また、線形予測分析は、入力音からスペクトル包絡を求める手法であり、発声メカニズムの声道特性を反映した一般に知られた音声特徴量抽出手法である(鹿野 清宏(他4名) “音声認識システム” オーム社出版 第1版(2001年5月) P1〜P13 参照)。
操作部5は、使用者により操作される操作パネルであり、テンキーや選択ボタン(いずれも図示せず)等から構成されている。例えば、使用者は選択ボタン等を押下することで登録状態と照合状態とを切り替える。さらに、使用者はテンキー等を操作することでパスワードやID番号等の申告情報を入力して本人であることを自己申告する。
状態切替部6は、操作部5に対する使用者の操作に応じて話者認識装置101の状態を登録状態又は照合状態に切り替える。登録状態では、特徴量計算部4の出力は音声登録部7に渡り、認識状態では、特徴量計算部4の出力は音声照合部9に渡る。すなわち、状態切替部6は、登録状態で、特徴量計算部4により計算された音声特徴量を音声登録部7に送信し、認識状態で、特徴量計算部4により計算された音声特徴量を音声照合部9に送信する。このような状態切替部6は状態切替手段として機能する。
音声登録部7は、登録状態で、状態切替部6から送られた音声特徴量(音声パターン)を音声情報である標準パターンとして標準パターンDB8に登録する。このとき、音声特徴量は、使用者(特定の話者)が妨害音下でパスワードを発声した際の入力音(音声及び妨害音を含む入力音)から求められた特徴量である。このような音声登録部7は音声登録手段として機能する。
標準パターンDB8は、音声情報である標準パターンを記憶する記憶部である。標準パターンDBとしては、例えばHDD(ハードディスク)やメモリ等が用いられる。
音声照合部9は、照合状態で、状態切替部6から送られた音声特徴量(音声パターン)と標準パターンDB8に記憶されている標準パターンとの時間軸整合後の距離を計算し、その値を一定の閾値と比較することによって音声照合を行う。このとき、状態切替部6から送られてきた音声特徴量は、使用者(特定の話者)が妨害音下でパスワードを発声した際の入力音(音声及び妨害音を含む入力音)から求められた特徴量である。このような音声照合部9は音声照合手段として機能する。
妨害音変更部10は、音声入力部3から送られた入力音に基づいて使用者の発声音量と妨害音の音量との比率により、妨害音出力部2での妨害音の音量を自在に変更する。このような妨害音変更部10は妨害音変更手段として機能する。
ここで、音声照合部9は、操作部5で入力された申告情報に基づいて話者認識を行い、その認識結果を妨害音生成部1に送る。妨害音生成部1は、音声照合部9による申告情報に基づく認識結果に応じて、音楽、ビープ音、合成音声及びラジオ音等の妨害音を選定し、その妨害音をデジタル信号として生成する。例えば、妨害音生成部1は、予め使用者(登録者)毎に生成する妨害音を設定したファイル等を記憶する記憶部(図示せず)を備えており、音声照合部9による申告情報に基づく認識結果に応じて、ファイルから生成する妨害音を選択し、その妨害音をデジタル信号として生成する。
このような構成において、話者認識装置101は、使用者が操作部5によりパスワードやID番号等の申告情報を入力すると、その申告情報に基づいて音声照合部9により話者認識を行い、その認識結果に基づいて妨害音生成部1により妨害音を生成し、生成した妨害音を妨害音出力部2により外部に出力する。この妨害音が発生している状態で、使用者は音声入力部3のマイクに向かってパスワードを発声する。このとき、使用者の音声は、妨害音出力部2から出力された妨害音と重なって(混ざって)音声入力部3に入力音として入力される。
話者認識装置101は、音声入力部3から入力された入力音(音声及び妨害音を含む入力音)に基づいて特徴量計算部4により音声特徴量を求める。その後、状態切替部6により登録状態が選択されている場合には、音声登録部7によりその音声特徴量を標準パターンとして標準パターンDB8に登録する。一方、状態切替部6により照合状態が選択されている場合には、音声照合部9によりその音声特徴量と標準パターンとを比較して音声照合を行う。なお、使用者は操作部5を操作することによって話者認識装置101の登録状態と照合状態とを切り替える。
このように本実施の形態では、妨害音下で音声入力部3から入力された入力音を基にして特徴量計算部4により音声特徴量が計算され、使用者の音声を登録する場合には、その音声特徴量が標準パターンとして音声登録部7により標準パターンDB8に登録され、使用者の音声を照合する場合には、その音声特徴量と標準パターンDB8に登録されている標準パターンとを比較することで音声照合が行われるため、妨害音を除去するための適応フィルタ等を必要せず、妨害音下で精度が高い話者認識が可能になる。これにより、使用者の音声が周囲に聞こえることを防止する妨害音により音声登録時の盗み聞きを防止し、演算量負荷及びコストを低減して、精度が高い話者認識を実現することができる。
特に、特徴量計算手段である特徴量計算部4は、入力音から妨害音以外の雑音を推定して除去し、その入力音を基にして音声特徴量を計算することから、より精度が高い話者認識を実現することができる。
さらに、操作部5は、使用者が本人であることを自己申告するための申告情報を入力する操作を受け付け、話者認識手段である音声照合部9は、操作部5により入力された申告情報に基づいて話者認識を行い、妨害音生成手段である妨害音生成部1は、音声照合部9による話者認識の結果に応じて妨害音を変更することから、使用者毎に生成する妨害音を変更することができる。その結果として、使用者の好み等に応じて妨害音を変更出力することができる。
なお、本発明は前述したような実施の形態に示す特定のハードウェア構成に限定されるものではなく、ソフトウェアによっても実現可能である。すなわち、話者認識装置100,101が備える各部の機能をソフトウェアで実現することが可能である。この場合には、話者認識装置100,101は、各部を集中的に制御するCPU(図示せず)を備えている。このCPUには、BIOSや各種プログラム等を記憶しているROMや各種データを書換え可能に記憶するRAM(いずれも図示せず)等がバス接続されている。CPUは、ROMに記憶されているプログラムに基づいて、各種の機能を実現する処理を実行する。
本発明の第一の実施の形態の話者認識装置の概略構成を示すブロック図である。 静かな環境下での音声登録時の音声の波形を示す模式図である。 妨害音下での音声の波形を示す模式図である。 適応フィルタ処理後の妨害音下での音声の波形を示す模式図である。 妨害音下での音声登録時の音声の波形を示す模式図である。 妨害音下での音声照合時の音声の波形を示す模式図である。 本発明の第二の実施の形態の話者認識装置の概略構成を示すブロック図である。
符号の説明
1 妨害音生成手段(妨害音生成部)
2 妨害音出力部
3 音声入力部
4 特徴量計算手段(特徴量計算部)
5 操作部
6 状態切替手段(状態切替部)
7 音声登録手段(音声登録部)
8 記憶部(標準パターンDB)
9 音声照合手段(音声照合部)
10 妨害音変更手段(妨害音変更部)
100 話者認識装置
101 話者認識装置

Claims (4)

  1. 使用者の音声が周囲に聞こえることを防止する妨害音を生成する妨害音生成手段と、
    前記妨害音生成手段により生成された前記妨害音を出力する妨害音出力部と、
    前記使用者の音声を入力するための音声入力部と、
    前記使用者による操作を受け付ける操作部と、
    前記使用者の音声情報を記憶する記憶部と、
    前記操作部に対する前記使用者の操作に応じて、前記使用者の音声の登録を行うための登録状態と前記使用者の音声の照合を行うための照合状態とを切り替える状態切替手段と、
    前記妨害音出力部により出力された前記妨害音と前記使用者の音声とが重なることで生成され前記音声入力部に入力された入力音を基にして音声特徴量を計算する特徴量計算手段と、
    前記状態切替手段により切り替えられた前記登録状態で、前記特徴量計算手段により計算された前記音声特徴量を用いて前記記憶部に前記音声情報として前記使用者の音声の登録を行う音声登録手段と、
    前記状態切替手段により切り替えられた前記照合状態で、前記記憶部に記憶されている前記音声情報と前記特徴量計算手段により計算された前記音声特徴量とを用いて前記使用者の音声の照合を行う音声照合手段と、
    を備える話者認識装置。
  2. 前記入力音に基づいて前記妨害音を変更する妨害音変更手段を備える、
    請求項1記載の話者認識装置。
  3. 前記特徴量計算手段は、前記入力音から前記妨害音以外の雑音を推定して除去し、その入力音を基にして前記音声特徴量を計算する、
    請求項1又は2記載の話者認識装置。
  4. 前記操作部は、前記使用者が本人であることを自己申告するための申告情報を入力する操作を受け付け、
    前記音声照合部は、前記操作部により入力された前記申告情報に基づいて話者認識を行い、
    前記妨害音生成手段は、前記音声照合部による話者認識の結果に応じて前記妨害音を変更する、
    請求項1、2又は3記載の話者認識装置。


JP2004236429A 2004-08-16 2004-08-16 話者認識装置 Expired - Fee Related JP4255897B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004236429A JP4255897B2 (ja) 2004-08-16 2004-08-16 話者認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004236429A JP4255897B2 (ja) 2004-08-16 2004-08-16 話者認識装置

Publications (2)

Publication Number Publication Date
JP2006053459A true JP2006053459A (ja) 2006-02-23
JP4255897B2 JP4255897B2 (ja) 2009-04-15

Family

ID=36030961

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004236429A Expired - Fee Related JP4255897B2 (ja) 2004-08-16 2004-08-16 話者認識装置

Country Status (1)

Country Link
JP (1) JP4255897B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012112993A (ja) * 2010-11-19 2012-06-14 Shimizu Corp ノイズマスキングシステム
JP2016136299A (ja) * 2015-01-23 2016-07-28 株式会社日本総合研究所 認証サーバ、声紋認証システム、及び声紋認証方法
WO2022024188A1 (ja) * 2020-07-27 2022-02-03 日本電気株式会社 音声登録装置、制御方法、プログラム及び記憶媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012112993A (ja) * 2010-11-19 2012-06-14 Shimizu Corp ノイズマスキングシステム
JP2016136299A (ja) * 2015-01-23 2016-07-28 株式会社日本総合研究所 認証サーバ、声紋認証システム、及び声紋認証方法
WO2022024188A1 (ja) * 2020-07-27 2022-02-03 日本電気株式会社 音声登録装置、制御方法、プログラム及び記憶媒体

Also Published As

Publication number Publication date
JP4255897B2 (ja) 2009-04-15

Similar Documents

Publication Publication Date Title
JP4764995B2 (ja) 雑音を含む音響信号の高品質化
JP6553111B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP5613335B2 (ja) 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置
EP1994529B1 (en) Communication device having speaker independent speech recognition
JPH096390A (ja) 音声認識対話処理方法および音声認識対話装置
JP6435644B2 (ja) 電子楽器、発音制御方法及びプログラム
JP4246703B2 (ja) 自動音声認識の方法
WO2016088557A1 (ja) 会話評価装置および方法
JP2004101901A (ja) 音声対話装置及び音声対話プログラム
JP2018191145A (ja) 収音装置、収音方法、収音プログラム及びディクテーション方法
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
JP4255897B2 (ja) 話者認識装置
JP3837061B2 (ja) 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法
JP2005338454A (ja) 音声対話装置
JP2000194392A (ja) 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
JP2010164992A (ja) 音声対話装置
JPS58181099A (ja) 音声識別装置
CN111226278B (zh) 低复杂度的浊音语音检测和基音估计
CN112133320A (zh) 语音处理装置及语音处理方法
JP2006154484A (ja) 音声処理装置,音声処理方法,プログラム及び記録媒体
WO2020230460A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
RU66103U1 (ru) Устройство обработки речевой информации для модуляции входного голосового сигнала путем его преобразования в выходной голосовой сигнал
KR102148245B1 (ko) 문자 음성변환 시스템
JPH06138895A (ja) 音声認識装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080624

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080820

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090127

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090128

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120206

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120206

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130206

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130206

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140206

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees