JP4255897B2 - Speaker recognition device - Google Patents
Speaker recognition device Download PDFInfo
- Publication number
- JP4255897B2 JP4255897B2 JP2004236429A JP2004236429A JP4255897B2 JP 4255897 B2 JP4255897 B2 JP 4255897B2 JP 2004236429 A JP2004236429 A JP 2004236429A JP 2004236429 A JP2004236429 A JP 2004236429A JP 4255897 B2 JP4255897 B2 JP 4255897B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- sound
- unit
- user
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、話者認識装置に関する。 The present invention relates to a speaker recognition device.
従来、話者認識装置としては、特定の話者(使用者)がパスワード等を発声した音声パターンを標準パターンとして保持するテキスト依存型の話者認識装置等が提案されている。この話者認識装置はATM(Automatic Tellers Machine)等に用いられている。 2. Description of the Related Art Conventionally, as a speaker recognition device, a text-dependent speaker recognition device or the like that holds, as a standard pattern, a voice pattern in which a specific speaker (user) utters a password or the like has been proposed. This speaker recognition device is used in ATM (Automatic Tellers Machine) and the like.
通常、話者認識装置では、認識時に入力音声と本人の標準パターンとの時間軸整合後の距離を計算し、その値を一定の閾値と比較することにより本人か否かを判断している。このとき、話者認識装置では、詐称者が、予め登録されている特定話者のパスワードと同じパスワードを発声した場合でも、詐称者を本人として照合してしまうことがあるため、パスワードを他人に知られないようにすることは重要である。 In general, the speaker recognition apparatus calculates the distance after time axis matching between the input voice and the user's standard pattern at the time of recognition, and compares the value with a certain threshold value to determine whether or not the user is the user. At this time, in the speaker recognition device, even if the spoofer utters the same password as the password of the specific speaker registered in advance, the spoofer may be collated as the person himself, so the password is transferred to another person. It is important not to know.
ところが、従来の話者認識装置では、使用者は音声入力用のマイクに向かってパスワードを発声する。このため、使用者の周囲にいる他人はそのパスワードを容易に聞くことが可能でありパスワード等の情報が簡単に他人に知られてしまうという問題がある。 However, in the conventional speaker recognition device, the user utters the password toward the voice input microphone. For this reason, there is a problem that others around the user can easily hear the password, and information such as the password is easily known to others.
そこで、その問題を解決する方法として、特許文献1では、使用者の音声が周囲に聞こえることを防止する妨害音をスピーカから発生させて音声登録時の盗み聞きを防止する方法が提案されている。このとき、マイクに入力される入力音は音声と共に妨害音も含んでいる。この入力音をそのまま話者認識に用いると話者認識の精度が低下してしまうため、特許文献1では、適応フィルタを用いて入力音から妨害音を除去することで話者認識精度の向上を図っている。
Therefore, as a method for solving the problem,
しかしながら、特許文献1の方法では、使用者の音声に妨害音が重畳した波形から妨害音のみを完全に除去することは困難であり、話者認識精度は十分でない。さらに、特許文献1の方法では、妨害音を除去するための演算量負荷も大きいため、運用上大きな問題を抱えている。
However, in the method of
本発明の目的は、使用者の音声が周囲に聞こえることを防止する妨害音により音声登録時の盗み聞きを防止し、演算量負荷及びコストを低減して、精度が高い話者認識を実現することである。 An object of the present invention is to prevent eavesdropping at the time of voice registration by using a disturbing sound that prevents the user's voice from being heard in the surroundings, and to reduce the amount of calculation load and cost, thereby realizing highly accurate speaker recognition. It is.
本発明の話者認識装置は、妨害音を生成する妨害音生成手段と、前記妨害音生成手段により生成された前記妨害音を外部空間に出力する妨害音出力部と、使用者の音声を入力するための音声入力部と、前記音声入力部から入力される入力音に含まれる前記使用者の音声の音量と前記外部空間に出力された妨害音の音量との比率により前記妨害音出力部が出力しようとする妨害音の音量を変更する妨害音変更手段と、前記使用者による操作を受け付ける操作部と、前記使用者の音声情報を記憶する記憶部と、前記操作部に対する前記使用者の操作に応じて、前記使用者の音声の登録を行うための登録状態と前記使用者の音声の照合を行うための照合状態とを切り替える状態切替手段と、前記入力音を基にして音声特徴量を計算する特徴量計算手段と、前記状態切替手段により切り替えられた前記登録状態で、前記特徴量計算手段により計算された前記音声特徴量を用いて前記記憶部に前記音声情報として前記使用者の音声の登録を行う音声登録手段と、前記状態切替手段により切り替えられた前記照合状態で、前記記憶部に記憶されている前記音声情報と前記特徴量計算手段により計算された前記音声特徴量とを用いて前記使用者の音声の照合を行う音声照合手段と、を備える。
The speaker recognition apparatus according to the present invention includes a disturbing sound generating means for generating a disturbing sound, a disturbing sound output unit for outputting the disturbing sound generated by the disturbing sound generating means to an external space, and a user's voice. And the interference sound output unit according to a ratio between a volume of the user's voice included in the input sound input from the sound input unit and a volume of the interference sound output to the external space. Interfering sound changing means for changing the volume of the interfering sound to be output, an operation unit that accepts an operation by the user, a storage unit that stores voice information of the user, and an operation of the user with respect to the operation unit And a state switching means for switching between a registration state for registering the user's voice and a collation state for collating the user's voice, and a voice feature amount based on the input sound. Feature quantity calculator to calculate Voice registration for registering the user's voice as the voice information in the storage unit using the voice feature quantity calculated by the feature quantity calculation means in the registration state switched by the state switching means The user's voice using the voice information stored in the storage unit and the voice feature quantity calculated by the feature quantity calculation means in the collation state switched by the state switching means. Voice collating means for performing collation.
これにより、妨害音下で音声入力部から入力された入力音を基にして特徴量計算手段により音声特徴量が計算され、使用者の音声を登録する場合には、その音声特徴量が音声情報として音声登録手段により記憶部に登録され、使用者の音声を照合する場合には、その音声特徴量と記憶部に登録されている音声情報とを比較することで音声照合が行われるため、妨害音を除去するための適応フィルタ等を必要とせず、妨害音下で精度が高い話者認識が可能になる。 As a result, the voice feature quantity is calculated by the feature quantity calculation means based on the input sound input from the voice input unit under the interference sound, and when the user's voice is registered, the voice feature quantity is the voice information. Is registered in the storage unit by the voice registration unit, and when the user's voice is collated, the voice collation is performed by comparing the voice feature amount with the voice information registered in the storage unit. An adaptive filter or the like for removing sound is not required, and speaker recognition can be performed with high accuracy under interference sound.
本発明によれば、使用者の音声が周囲に聞こえることを防止する妨害音により音声登録時の盗み聞きを防止し、演算量負荷及びコストを低減して、精度が高い話者認識を実現することができる。 According to the present invention, it is possible to prevent eavesdropping at the time of voice registration by using a disturbing sound that prevents the user's voice from being heard in the surroundings, and to reduce the amount of calculation load and cost, thereby realizing highly accurate speaker recognition. Can do.
本発明の第一の実施の形態を図1ないし図6に基づいて説明する。 A first embodiment of the present invention will be described with reference to FIGS.
図1は本実施の形態の話者認識装置100の概略構成を示すブロック図である。本実施の形態の話者認識装置100は、使用者が特定のパスワードを発声することで話者認識を行う一例である。
FIG. 1 is a block diagram showing a schematic configuration of a
図1に示すように、話者認識装置100は、使用者の音声が周囲に聞こえることを防止する妨害音を生成する妨害音生成部1、生成された妨害音を出力する妨害音出力部2、使用者の音声を入力するための音声入力部3、音声入力部3に入力された入力音を基にして音声特徴量を計算する特徴量計算部4、使用者による操作を受け付ける操作部5、操作部5に対する使用者の操作に応じて、使用者の音声の登録を行うための登録状態と使用者の音声の照合を行うための照合状態とを切り替える状態切替部6、特徴量計算部4により計算された音声特徴量を用いて登録状態で使用者の音声の登録を行う音声登録部7、音声登録部7からの音声情報を標準パターンとして記憶する標準パターンDB(データベース)8、標準パターンDB8に記憶されている標準パターンと特徴量計算部4により計算された音声特徴量とを用いて照合状態で使用者の音声の照合を行う音声照合部9、及び音声入力部3に入力された入力音に基づいて妨害音を変更する妨害音変更部10等から構成されている。
As shown in FIG. 1, the
なお、妨害音は、妨害音出力部2から出力されて音声入力部3にループバックして入力される。したがって、入力音は、妨害音出力部2により出力された妨害音と使用者の音声とが重なる(混ざる)ことで生成され、音声入力部3に入力される。
The disturbing sound is output from the disturbing
妨害音生成部1は、音楽、ビープ音、合成音声及びラジオ音等の妨害音をデジタル信号として生成し、妨害音出力部2に送る。この妨害音は、使用者の音声をかき消すことで、使用者の音声が周囲に聞こえることを防止する。このような妨害音生成部1は妨害音生成手段として機能する。
The interfering
妨害音出力部2は、生成されたデジタル信号をアナログ信号に変換するD/A変換器、変換されたアナログ信号を増幅する増幅器及び増幅されたアナログ信号を出力音として出力するスピーカ(いずれも図示せず)を備えている。このような妨害音出力部2は、妨害音生成部1で生成された妨害音のデジタル信号をアナログ信号に変換して増幅し、出力音として外部に出力する。
The interfering
音声入力部3は、使用者の音声等の音をアナログ信号として入力するためのマイク、入力されたアナログ信号を増幅する増幅器及び増幅されたアナログ信号をデジタル信号に変換するA/D変換器(いずれも図示せず)を備えている。このような音声入力部3には、主に使用者の音声が入力されるが、使用者の音声以外に妨害音出力部2から出力された妨害音も使用者の音声に重なって(混ざって)入力される。したがって、音声入力部3は、妨害音と使用者の音声とから生成された入力音(合成音)を増幅してアナログ信号からデジタル信号に変換し、特徴量計算部4及び妨害音変更部10に送信する。
The voice input unit 3 includes a microphone for inputting a sound such as a user's voice as an analog signal, an amplifier for amplifying the input analog signal, and an A / D converter for converting the amplified analog signal into a digital signal ( Neither is shown). The user's voice is mainly input to such a voice input unit 3, but the disturbing sound output from the disturbing
特徴量計算部4は、音声入力部3から送られた入力音を基にして線形予測分析を行って音声特徴量を求める。線形予測分析は入力音からスペクトル包絡を求める手法であり、発声メカニズムの声道特性を反映した一般に知られた音声特徴量抽出手法である(鹿野 清宏(他4名) “音声認識システム” オーム社出版 第1版(2001年5月) P1〜P13 参照)。このような特徴量計算部4は特徴量計算手段として機能する。
The feature
操作部5は、使用者により操作される操作パネルであり、テンキーや複数の選択ボタン(いずれも図示せず)等から構成されている。例えば、使用者は選択ボタン等を押下することで登録状態と照合状態とを切り替える。
The
状態切替部6は、操作部5に対する使用者の操作に応じて話者認識装置100の状態を登録状態又は照合状態に切り替える。登録状態では、特徴量計算部4の出力は音声登録部7に渡り、認識状態では、特徴量計算部4の出力は音声照合部9に渡る。すなわち、状態切替部6は、登録状態で、特徴量計算部4により計算された音声特徴量を音声登録部7に送信し、認識状態で、特徴量計算部4により計算された音声特徴量を音声照合部9に送信する。このような状態切替部6は状態切替手段として機能する。
The
音声登録部7は、登録状態で、状態切替部6から送られた音声特徴量(音声パターン)を音声情報である標準パターンとして標準パターンDB8に登録する。このとき、音声特徴量は、使用者(特定の話者)が妨害音下でパスワードを発声した際の入力音(音声及び妨害音を含む入力音)から求められた特徴量である。このような音声登録部7は音声登録手段として機能する。
In the registration state, the
標準パターンDB8は、音声情報である標準パターンを記憶する記憶部である。標準パターンDBとしては、例えばHDD(ハードディスク)やメモリ等が用いられる。
The
音声照合部9は、照合状態で、状態切替部6から送られた音声特徴量(音声パターン)と標準パターンDB8に記憶されている標準パターンとの時間軸整合後の距離を計算し、その値を一定の閾値と比較することによって音声照合を行う。このとき、状態切替部6から送られてきた音声特徴量は、使用者(特定の話者)が妨害音下でパスワードを発声した際の入力音(音声及び妨害音を含む入力音)から求められた特徴量である。このような音声照合部9は音声照合手段として機能する。
The
妨害音変更部10は、音声入力部3から送られた入力音に基づいて使用者の発声音量と妨害音の音量との比率により、妨害音出力部2での妨害音の音量を自在に変更する。このような妨害音変更部10は妨害音変更手段として機能する。
The interfering
次に、音声登録部7での音声登録について図2ないし図6を参照して説明する。図2は静かな環境下での音声登録時の音声の波形を示す模式図、図3は妨害音下での音声の波形を示す模式図、図4は適応フィルタ処理後の妨害音下での音声の波形を示す模式図である。また、図5は妨害音下での音声登録時の音声の波形を示す模式図、図6は妨害音下での音声照合時の音声の波形を示す模式図である。
Next, voice registration in the
静かな環境下での音声登録時の音声は、図2に示すようなx(t)の波形になる。また、妨害音下での音声は、妨害音をy(t)とすると、図3に示すようなx(t)+y(t)の波形になる。さらに、適応フィルタ処理後の妨害音下での音声の波形は、適応フィルタ処理後の妨害音をy´(t)とすると、図4に示すようなx(t)+y´(t)の波形になる。 The voice at the time of voice registration in a quiet environment has a waveform of x (t) as shown in FIG. Further, the sound under the disturbing sound has a waveform of x (t) + y (t) as shown in FIG. 3 where the disturbing sound is y (t). Furthermore, the waveform of the sound under the interference sound after the adaptive filter processing is a waveform of x (t) + y ′ (t) as shown in FIG. 4 where the interference sound after the adaptive filter processing is y ′ (t). become.
ここで、従来の技術では、図2に示すような音声x(t)と図4に示すような音声x(t)+y´(t)とを比較することで音声照合を行うが、それらの間に差y´(t)が生じているため、話者認識精度は低くなってしまう。これは、静かな環境下での音声が音声登録時の音声として使用されているためである。 Here, in the conventional technique, the speech x (t) as shown in FIG. 2 is compared with the speech x (t) + y ′ (t) as shown in FIG. Since there is a difference y ′ (t) between them, the speaker recognition accuracy is lowered. This is because the voice in a quiet environment is used as the voice at the time of voice registration.
そこで、本実施の形態では、妨害音下での音声が音声登録時の音声として使用される。妨害音下での音声登録時の音声は、図5に示すようなx(t)+y(t)の波形になる。また、妨害音下での音声照合時の音声は、図6に示すようなx(t)+y(t)の波形になる。このとき、図5に示すようなx(t)+y(t)の波形と図6に示すようなx(t)+y(t)の波形との差は、y(t)の定常性を加味すると非常に小さく、それらの波形はほぼ同じである。これにより、話者認識精度は向上する。 Therefore, in the present embodiment, the voice under the disturbing sound is used as the voice at the time of voice registration. The voice at the time of voice registration under the interference sound has a waveform of x (t) + y (t) as shown in FIG. Further, the voice at the time of voice collation under the interference sound has a waveform of x (t) + y (t) as shown in FIG. At this time, the difference between the waveform of x (t) + y (t) as shown in FIG. 5 and the waveform of x (t) + y (t) as shown in FIG. 6 takes into account the steadiness of y (t). Then it is very small and their waveforms are almost the same. Thereby, speaker recognition accuracy is improved.
このような構成において、話者認識装置100は、妨害音生成部1により妨害音を生成し、生成した妨害音を妨害音出力部2により外部に出力する。この妨害音が発生している状態で、使用者は音声入力部3のマイクに向かってパスワードを発声する。このとき、使用者の音声は、妨害音出力部2から出力された妨害音と重なって(混ざって)音声入力部3に入力音として入力される。
In such a configuration, the
話者認識装置100は、音声入力部3から入力された入力音(音声及び妨害音を含む入力音)に基づいて特徴量計算部4により音声特徴量を求める。その後、状態切替部6により登録状態が選択されている場合には、音声登録部7によりその音声特徴量を標準パターンとして標準パターンDB8に登録する。一方、状態切替部6により照合状態が選択されている場合には、音声照合部9によりその音声特徴量と標準パターンDB8に記憶されている標準パターンとを比較して音声照合を行う。なお、使用者は操作部5を操作することによって話者認識装置100の登録状態と照合状態とを切り替える。
The
このように本実施の形態では、妨害音下で音声入力部3から入力された入力音を基にして特徴量計算部4により音声特徴量が計算され、使用者の音声を登録する場合には、その音声特徴量が標準パターンとして音声登録部7により標準パターンDB8に登録され、使用者の音声を照合する場合には、その音声特徴量と標準パターンDB8に登録されている標準パターンとを比較することで音声照合が行われるため、妨害音を除去するための適応フィルタ等を必要せず、妨害音下で精度が高い話者認識が可能になる。これにより、使用者の音声が周囲に聞こえることを防止する妨害音により音声登録時の盗み聞きを防止し、演算量負荷及びコストを低減して、精度が高い話者認識を実現することができる。
As described above, in the present embodiment, when the voice feature amount is calculated by the feature
また、本実施の形態においては、入力音に基づいて妨害音を変更する妨害音変更手段である妨害音変更部10を備えることから、妨害音は、例えばその音量が使用者の音声の音量に応じて調整され変更されるため、必要以上に妨害音の音量を上げる必要が無くなり、周囲の人に不快感を与えることを防止することができる。
Further, in the present embodiment, since the interference
本発明の第二の実施の形態を図7に基づいて説明する。 A second embodiment of the present invention will be described with reference to FIG.
図7は本実施の形態の話者認識装置101の概略構成を示すブロック図である。本実施の形態は、使用者が特定のパスワードを発声することで話者認識を行う話者認識装置101の一例である。なお、第一の実施の形態と同一部分は同一符号で示し、その説明も省略する。
FIG. 7 is a block diagram showing a schematic configuration of the
図7に示すように、話者認識装置101は、使用者の音声が周囲に聞こえることを防止する妨害音を生成する妨害音生成部1、生成された妨害音を出力する妨害音出力部2、使用者の音声を入力するための音声入力部3、音声入力部3に入力された入力音を基にして音声特徴量を計算する特徴量計算部4、使用者による操作を受け付ける操作部5、操作部5に対する使用者の操作に応じて、使用者の音声の登録を行うための登録状態と使用者の音声の照合を行うための照合状態とを切り替える状態切替部6、特徴量計算部4により計算された音声特徴量を用いて登録状態で使用者の音声の登録を行う音声登録部7、音声登録部7からの音声情報を標準パターンとして記憶する標準パターンDB(データベース)8、標準パターンDB8に記憶されている標準パターンと特徴量計算部4により計算された音声特徴量とを用いて照合状態で使用者の音声の照合を行う音声照合部9、及び音声入力部3に入力された入力音に基づいて妨害音を変更する妨害音変更部10等から構成されている。
As shown in FIG. 7, the
なお、妨害音は、妨害音出力部2から出力されて音声入力部3にループバックして入力される。したがって、入力音は、妨害音出力部2により出力された妨害音と使用者の音声とが重なる(混ざる)ことで生成され、音声入力部3に入力される。
The disturbing sound is output from the disturbing
妨害音生成部1は、音楽、ビープ音、合成音声及びラジオ音等の妨害音をデジタル信号として生成し、妨害音出力部2に送る。この妨害音は、使用者の音声をかき消すことで、使用者の音声が周囲に聞こえることを防止する。このような妨害音生成部1は妨害音生成手段として機能する。
The interfering
妨害音出力部2は、生成されたデジタル信号をアナログ信号に変換するD/A変換器、変換されたアナログ信号を増幅する増幅器及び増幅されたアナログ信号を出力音として出力するスピーカ(いずれも図示せず)を備えている。このような妨害音出力部2は、妨害音生成部1で生成された妨害音のデジタル信号をアナログ信号に変換して増幅し、出力音として外部に出力する。
The interfering
音声入力部3は、使用者の音声等の音をアナログ信号として入力するためのマイク、入力されたアナログ信号を増幅する増幅器及び増幅されたアナログ信号をデジタル信号に変換するA/D変換器(いずれも図示せず)を備えている。このような音声入力部3には、主に使用者の音声が入力されるが、使用者の音声以外に妨害音出力部2から出力された妨害音も使用者の音声に重なって(混ざって)入力される。したがって、音声入力部3は、妨害音と使用者の音声とから生成された入力音(合成音)を増幅してアナログ信号からデジタル信号に変換し、特徴量計算部4及び妨害音変更部10に送信する。
The voice input unit 3 includes a microphone for inputting a sound such as a user's voice as an analog signal, an amplifier for amplifying the input analog signal, and an A / D converter for converting the amplified analog signal into a digital signal ( Neither is shown). The user's voice is mainly input to such a voice input unit 3, but the disturbing sound output from the disturbing
特徴量計算部4は、音声入力部3から送られた入力音から妨害音以外の雑音を推定して除去する雑音除去手段を備えており、推定した雑音を入力音から除去し、その入力音を基にして線形予測分析を行って音声特徴量を求める。このような特徴量計算部4は特徴量計算手段として機能する。なお、本実施の形態では、雑音推定手段としてスペクトル・サブトラクション法が用いられるが、これに限るものではない。その方法は、音声入力部3から送られた入力音のスペクトルを周波数毎に時間加算平均し、逐次差し引く方法である(Boll S.F.:Suppression of Acoustic Noise in Speech Using Spectral Subtraction,IEEE Trans.ASSP-27, P.113-120, 1979参照)。また、線形予測分析は、入力音からスペクトル包絡を求める手法であり、発声メカニズムの声道特性を反映した一般に知られた音声特徴量抽出手法である(鹿野 清宏(他4名) “音声認識システム” オーム社出版 第1版(2001年5月) P1〜P13 参照)。
The feature
操作部5は、使用者により操作される操作パネルであり、テンキーや選択ボタン(いずれも図示せず)等から構成されている。例えば、使用者は選択ボタン等を押下することで登録状態と照合状態とを切り替える。さらに、使用者はテンキー等を操作することでパスワードやID番号等の申告情報を入力して本人であることを自己申告する。
The
状態切替部6は、操作部5に対する使用者の操作に応じて話者認識装置101の状態を登録状態又は照合状態に切り替える。登録状態では、特徴量計算部4の出力は音声登録部7に渡り、認識状態では、特徴量計算部4の出力は音声照合部9に渡る。すなわち、状態切替部6は、登録状態で、特徴量計算部4により計算された音声特徴量を音声登録部7に送信し、認識状態で、特徴量計算部4により計算された音声特徴量を音声照合部9に送信する。このような状態切替部6は状態切替手段として機能する。
The
音声登録部7は、登録状態で、状態切替部6から送られた音声特徴量(音声パターン)を音声情報である標準パターンとして標準パターンDB8に登録する。このとき、音声特徴量は、使用者(特定の話者)が妨害音下でパスワードを発声した際の入力音(音声及び妨害音を含む入力音)から求められた特徴量である。このような音声登録部7は音声登録手段として機能する。
In the registration state, the
標準パターンDB8は、音声情報である標準パターンを記憶する記憶部である。標準パターンDBとしては、例えばHDD(ハードディスク)やメモリ等が用いられる。
The
音声照合部9は、照合状態で、状態切替部6から送られた音声特徴量(音声パターン)と標準パターンDB8に記憶されている標準パターンとの時間軸整合後の距離を計算し、その値を一定の閾値と比較することによって音声照合を行う。このとき、状態切替部6から送られてきた音声特徴量は、使用者(特定の話者)が妨害音下でパスワードを発声した際の入力音(音声及び妨害音を含む入力音)から求められた特徴量である。このような音声照合部9は音声照合手段として機能する。
The
妨害音変更部10は、音声入力部3から送られた入力音に基づいて使用者の発声音量と妨害音の音量との比率により、妨害音出力部2での妨害音の音量を自在に変更する。このような妨害音変更部10は妨害音変更手段として機能する。
The interfering
ここで、音声照合部9は、操作部5で入力された申告情報に基づいて話者認識を行い、その認識結果を妨害音生成部1に送る。妨害音生成部1は、音声照合部9による申告情報に基づく認識結果に応じて、音楽、ビープ音、合成音声及びラジオ音等の妨害音を選定し、その妨害音をデジタル信号として生成する。例えば、妨害音生成部1は、予め使用者(登録者)毎に生成する妨害音を設定したファイル等を記憶する記憶部(図示せず)を備えており、音声照合部9による申告情報に基づく認識結果に応じて、ファイルから生成する妨害音を選択し、その妨害音をデジタル信号として生成する。
Here, the
このような構成において、話者認識装置101は、使用者が操作部5によりパスワードやID番号等の申告情報を入力すると、その申告情報に基づいて音声照合部9により話者認識を行い、その認識結果に基づいて妨害音生成部1により妨害音を生成し、生成した妨害音を妨害音出力部2により外部に出力する。この妨害音が発生している状態で、使用者は音声入力部3のマイクに向かってパスワードを発声する。このとき、使用者の音声は、妨害音出力部2から出力された妨害音と重なって(混ざって)音声入力部3に入力音として入力される。
In such a configuration, when the user inputs report information such as a password and an ID number by the
話者認識装置101は、音声入力部3から入力された入力音(音声及び妨害音を含む入力音)に基づいて特徴量計算部4により音声特徴量を求める。その後、状態切替部6により登録状態が選択されている場合には、音声登録部7によりその音声特徴量を標準パターンとして標準パターンDB8に登録する。一方、状態切替部6により照合状態が選択されている場合には、音声照合部9によりその音声特徴量と標準パターンとを比較して音声照合を行う。なお、使用者は操作部5を操作することによって話者認識装置101の登録状態と照合状態とを切り替える。
The
このように本実施の形態では、妨害音下で音声入力部3から入力された入力音を基にして特徴量計算部4により音声特徴量が計算され、使用者の音声を登録する場合には、その音声特徴量が標準パターンとして音声登録部7により標準パターンDB8に登録され、使用者の音声を照合する場合には、その音声特徴量と標準パターンDB8に登録されている標準パターンとを比較することで音声照合が行われるため、妨害音を除去するための適応フィルタ等を必要せず、妨害音下で精度が高い話者認識が可能になる。これにより、使用者の音声が周囲に聞こえることを防止する妨害音により音声登録時の盗み聞きを防止し、演算量負荷及びコストを低減して、精度が高い話者認識を実現することができる。
As described above, in the present embodiment, when the voice feature amount is calculated by the feature
特に、特徴量計算手段である特徴量計算部4は、入力音から妨害音以外の雑音を推定して除去し、その入力音を基にして音声特徴量を計算することから、より精度が高い話者認識を実現することができる。
In particular, the feature
さらに、操作部5は、使用者が本人であることを自己申告するための申告情報を入力する操作を受け付け、話者認識手段である音声照合部9は、操作部5により入力された申告情報に基づいて話者認識を行い、妨害音生成手段である妨害音生成部1は、音声照合部9による話者認識の結果に応じて妨害音を変更することから、使用者毎に生成する妨害音を変更することができる。その結果として、使用者の好み等に応じて妨害音を変更出力することができる。
Further, the
なお、本発明は前述したような実施の形態に示す特定のハードウェア構成に限定されるものではなく、ソフトウェアによっても実現可能である。すなわち、話者認識装置100,101が備える各部の機能をソフトウェアで実現することが可能である。この場合には、話者認識装置100,101は、各部を集中的に制御するCPU(図示せず)を備えている。このCPUには、BIOSや各種プログラム等を記憶しているROMや各種データを書換え可能に記憶するRAM(いずれも図示せず)等がバス接続されている。CPUは、ROMに記憶されているプログラムに基づいて、各種の機能を実現する処理を実行する。
The present invention is not limited to the specific hardware configuration shown in the embodiment as described above, and can be realized by software. That is, the function of each unit included in the
1 妨害音生成手段(妨害音生成部)
2 妨害音出力部
3 音声入力部
4 特徴量計算手段(特徴量計算部)
5 操作部
6 状態切替手段(状態切替部)
7 音声登録手段(音声登録部)
8 記憶部(標準パターンDB)
9 音声照合手段(音声照合部)
10 妨害音変更手段(妨害音変更部)
100 話者認識装置
101 話者認識装置
1 Interference sound generation means (interference sound generator)
2 Interfering sound output section 3
5
7 Voice registration means (voice registration part)
8 storage unit (standard pattern DB)
9 Voice verification means (voice verification unit)
10 Interference sound change means (interference sound change part)
100
Claims (3)
前記妨害音生成手段により生成された前記妨害音を外部空間に出力する妨害音出力部と、
使用者の音声を入力するための音声入力部と、
前記音声入力部から入力される入力音に含まれる前記使用者の音声の音量と前記外部空間に出力された妨害音の音量との比率により前記妨害音出力部が出力しようとする妨害音の音量を変更する妨害音変更手段と、
前記使用者による操作を受け付ける操作部と、
前記使用者の音声情報を記憶する記憶部と、
前記操作部に対する前記使用者の操作に応じて、前記使用者の音声の登録を行うための登録状態と前記使用者の音声の照合を行うための照合状態とを切り替える状態切替手段と、
前記入力音を基にして音声特徴量を計算する特徴量計算手段と、
前記状態切替手段により切り替えられた前記登録状態で、前記特徴量計算手段により計算された前記音声特徴量を用いて前記記憶部に前記音声情報として前記使用者の音声の登録を行う音声登録手段と、
前記状態切替手段により切り替えられた前記照合状態で、前記記憶部に記憶されている前記音声情報と前記特徴量計算手段により計算された前記音声特徴量とを用いて前記使用者の音声の照合を行う音声照合手段と、
を備える話者認識装置。 An interference sound generating means for generating the interference sound;
An interference sound output unit for outputting the interference sound generated by the interference sound generation means to an external space;
A voice input unit for inputting the user's voice;
Volume of the interference sound to be output by the disturbing sound output unit by the ratio of the volume of the sound input unit included in the input sound input from the output volume of the audio of the user to the external space the interference sound Disturbing sound changing means for changing
An operation unit for receiving an operation by the user;
A storage unit for storing voice information of the user;
A state switching unit that switches between a registration state for registering the voice of the user and a collation state for collating the voice of the user in response to an operation of the user with respect to the operation unit;
Feature quantity calculating means for calculating a voice feature quantity based on the input sound;
Voice registration means for registering the voice of the user as the voice information in the storage unit using the voice feature quantity calculated by the feature quantity calculation means in the registration state switched by the state switching means; ,
In the collation state switched by the state switching unit, collation of the user's voice is performed using the voice information stored in the storage unit and the voice feature amount calculated by the feature amount calculation unit. Voice collation means to perform;
A speaker recognition device comprising:
請求項1記載の話者認識装置。 The feature amount calculating means estimates and removes noise other than the interference sound from the input sound, and calculates the speech feature amount based on the input sound.
The speaker recognition device according to claim 1.
前記入力された申告情報により特定される話者に対応して予め設定されている妨害音を前記妨害音生成手段に生成させる手段を備える、
請求項1又は2記載の話者認識装置。 The operation unit accepts an operation of inputting report information for self-reporting that the user is the user,
Means for causing the disturbing sound generating means to generate a preset disturbing sound corresponding to a speaker specified by the input report information;
The speaker recognition device according to claim 1 or 2.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004236429A JP4255897B2 (en) | 2004-08-16 | 2004-08-16 | Speaker recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004236429A JP4255897B2 (en) | 2004-08-16 | 2004-08-16 | Speaker recognition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006053459A JP2006053459A (en) | 2006-02-23 |
JP4255897B2 true JP4255897B2 (en) | 2009-04-15 |
Family
ID=36030961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004236429A Expired - Fee Related JP4255897B2 (en) | 2004-08-16 | 2004-08-16 | Speaker recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4255897B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5590394B2 (en) * | 2010-11-19 | 2014-09-17 | 清水建設株式会社 | Noise masking system |
JP6561345B2 (en) * | 2015-01-23 | 2019-08-21 | 株式会社日本総合研究所 | Authentication server, voiceprint authentication system, and voiceprint authentication method |
US20230282217A1 (en) * | 2020-07-27 | 2023-09-07 | Nec Corporation | Voice registration device, control method, program, and storage medium |
-
2004
- 2004-08-16 JP JP2004236429A patent/JP4255897B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006053459A (en) | 2006-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4764995B2 (en) | Improve the quality of acoustic signals including noise | |
EP1994529B1 (en) | Communication device having speaker independent speech recognition | |
JPH096390A (en) | Voice recognition interactive processing method and processor therefor | |
WO2013027360A1 (en) | Voice recognition system, recognition dictionary logging system, and audio model identifier series generation device | |
JP6435644B2 (en) | Electronic musical instrument, pronunciation control method and program | |
JP2004101901A (en) | Speech interaction system and speech interaction program | |
WO2016088557A1 (en) | Conversation evaluation device and method | |
JPH10105191A (en) | Speech recognition device and microphone frequency characteristic converting method | |
JP2005534983A (en) | Automatic speech recognition method | |
JP2018191145A (en) | Voice collection device, voice collection method, voice collection program, and dictation method | |
KR101312451B1 (en) | Extraction method and extraction apparatus of voice signal used for voice recognition in enviroment outputting a plurality of audio sources | |
JP2012163692A (en) | Voice signal processing system, voice signal processing method, and voice signal processing method program | |
JP4255897B2 (en) | Speaker recognition device | |
JPH06124097A (en) | Portable terminal device | |
JP3837061B2 (en) | Sound signal recognition system, sound signal recognition method, dialogue control system and dialogue control method using the sound signal recognition system | |
JP2004279768A (en) | Device and method for estimating air-conducted sound | |
JP2005338454A (en) | Speech interaction device | |
JP2000194392A (en) | Noise adaptive type voice recognition device and recording medium recording noise adaptive type voice recognition program | |
JP2010164992A (en) | Speech interaction device | |
JPS58181099A (en) | Voice identifier | |
CN112133320A (en) | Voice processing device and voice processing method | |
CN111226278B (en) | Low complexity voiced speech detection and pitch estimation | |
JPH04324499A (en) | Speech recognition device | |
JP2007248529A (en) | Voice recognizer, voice recognition program, and voice operable device | |
JP2006154484A (en) | Apparatus and method for speech processing, program, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070831 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071017 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080624 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080820 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090127 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090128 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120206 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120206 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130206 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130206 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140206 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |