JP4255897B2 - Speaker recognition device - Google Patents

Speaker recognition device Download PDF

Info

Publication number
JP4255897B2
JP4255897B2 JP2004236429A JP2004236429A JP4255897B2 JP 4255897 B2 JP4255897 B2 JP 4255897B2 JP 2004236429 A JP2004236429 A JP 2004236429A JP 2004236429 A JP2004236429 A JP 2004236429A JP 4255897 B2 JP4255897 B2 JP 4255897B2
Authority
JP
Japan
Prior art keywords
voice
sound
unit
user
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004236429A
Other languages
Japanese (ja)
Other versions
JP2006053459A (en
Inventor
直樹 関根
友成 柿野
智則 伊久美
圭祐 吉崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba TEC Corp
Original Assignee
Toshiba TEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba TEC Corp filed Critical Toshiba TEC Corp
Priority to JP2004236429A priority Critical patent/JP4255897B2/en
Publication of JP2006053459A publication Critical patent/JP2006053459A/en
Application granted granted Critical
Publication of JP4255897B2 publication Critical patent/JP4255897B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、話者認識装置に関する。   The present invention relates to a speaker recognition device.

従来、話者認識装置としては、特定の話者(使用者)がパスワード等を発声した音声パターンを標準パターンとして保持するテキスト依存型の話者認識装置等が提案されている。この話者認識装置はATM(Automatic Tellers Machine)等に用いられている。   2. Description of the Related Art Conventionally, as a speaker recognition device, a text-dependent speaker recognition device or the like that holds, as a standard pattern, a voice pattern in which a specific speaker (user) utters a password or the like has been proposed. This speaker recognition device is used in ATM (Automatic Tellers Machine) and the like.

通常、話者認識装置では、認識時に入力音声と本人の標準パターンとの時間軸整合後の距離を計算し、その値を一定の閾値と比較することにより本人か否かを判断している。このとき、話者認識装置では、詐称者が、予め登録されている特定話者のパスワードと同じパスワードを発声した場合でも、詐称者を本人として照合してしまうことがあるため、パスワードを他人に知られないようにすることは重要である。   In general, the speaker recognition apparatus calculates the distance after time axis matching between the input voice and the user's standard pattern at the time of recognition, and compares the value with a certain threshold value to determine whether or not the user is the user. At this time, in the speaker recognition device, even if the spoofer utters the same password as the password of the specific speaker registered in advance, the spoofer may be collated as the person himself, so the password is transferred to another person. It is important not to know.

ところが、従来の話者認識装置では、使用者は音声入力用のマイクに向かってパスワードを発声する。このため、使用者の周囲にいる他人はそのパスワードを容易に聞くことが可能でありパスワード等の情報が簡単に他人に知られてしまうという問題がある。   However, in the conventional speaker recognition device, the user utters the password toward the voice input microphone. For this reason, there is a problem that others around the user can easily hear the password, and information such as the password is easily known to others.

そこで、その問題を解決する方法として、特許文献1では、使用者の音声が周囲に聞こえることを防止する妨害音をスピーカから発生させて音声登録時の盗み聞きを防止する方法が提案されている。このとき、マイクに入力される入力音は音声と共に妨害音も含んでいる。この入力音をそのまま話者認識に用いると話者認識の精度が低下してしまうため、特許文献1では、適応フィルタを用いて入力音から妨害音を除去することで話者認識精度の向上を図っている。   Therefore, as a method for solving the problem, Patent Document 1 proposes a method for preventing an eavesdropping at the time of voice registration by generating a disturbing sound from a speaker to prevent a user's voice from being heard in the surroundings. At this time, the input sound input to the microphone includes interference sound as well as sound. If this input sound is used as it is for speaker recognition, the accuracy of speaker recognition will be reduced. Therefore, Patent Document 1 improves the speaker recognition accuracy by removing the interfering sound from the input sound using an adaptive filter. I am trying.

特開平9−127974号公報JP-A-9-127974

しかしながら、特許文献1の方法では、使用者の音声に妨害音が重畳した波形から妨害音のみを完全に除去することは困難であり、話者認識精度は十分でない。さらに、特許文献1の方法では、妨害音を除去するための演算量負荷も大きいため、運用上大きな問題を抱えている。   However, in the method of Patent Document 1, it is difficult to completely remove only the disturbing sound from the waveform in which the disturbing sound is superimposed on the user's voice, and the speaker recognition accuracy is not sufficient. Furthermore, the method of Patent Document 1 has a large operational problem because of a large calculation load for removing the interference sound.

本発明の目的は、使用者の音声が周囲に聞こえることを防止する妨害音により音声登録時の盗み聞きを防止し、演算量負荷及びコストを低減して、精度が高い話者認識を実現することである。   An object of the present invention is to prevent eavesdropping at the time of voice registration by using a disturbing sound that prevents the user's voice from being heard in the surroundings, and to reduce the amount of calculation load and cost, thereby realizing highly accurate speaker recognition. It is.

本発明の話者認識装置は、妨害音を生成する妨害音生成手段と、前記妨害音生成手段により生成された前記妨害音を外部空間に出力する妨害音出力部と、使用者の音声を入力するための音声入力部と、前記音声入力部から入力される入力音に含まれる前記使用者の音声の音量と前記外部空間に出力された妨害音の音量との比率により前記妨害音出力部が出力しようとする妨害音の音量を変更する妨害音変更手段と、前記使用者による操作を受け付ける操作部と、前記使用者の音声情報を記憶する記憶部と、前記操作部に対する前記使用者の操作に応じて、前記使用者の音声の登録を行うための登録状態と前記使用者の音声の照合を行うための照合状態とを切り替える状態切替手段と、前記入力音を基にして音声特徴量を計算する特徴量計算手段と、前記状態切替手段により切り替えられた前記登録状態で、前記特徴量計算手段により計算された前記音声特徴量を用いて前記記憶部に前記音声情報として前記使用者の音声の登録を行う音声登録手段と、前記状態切替手段により切り替えられた前記照合状態で、前記記憶部に記憶されている前記音声情報と前記特徴量計算手段により計算された前記音声特徴量とを用いて前記使用者の音声の照合を行う音声照合手段と、を備える。
The speaker recognition apparatus according to the present invention includes a disturbing sound generating means for generating a disturbing sound, a disturbing sound output unit for outputting the disturbing sound generated by the disturbing sound generating means to an external space, and a user's voice. And the interference sound output unit according to a ratio between a volume of the user's voice included in the input sound input from the sound input unit and a volume of the interference sound output to the external space. Interfering sound changing means for changing the volume of the interfering sound to be output, an operation unit that accepts an operation by the user, a storage unit that stores voice information of the user, and an operation of the user with respect to the operation unit And a state switching means for switching between a registration state for registering the user's voice and a collation state for collating the user's voice, and a voice feature amount based on the input sound. Feature quantity calculator to calculate Voice registration for registering the user's voice as the voice information in the storage unit using the voice feature quantity calculated by the feature quantity calculation means in the registration state switched by the state switching means The user's voice using the voice information stored in the storage unit and the voice feature quantity calculated by the feature quantity calculation means in the collation state switched by the state switching means. Voice collating means for performing collation.

これにより、妨害音下で音声入力部から入力された入力音を基にして特徴量計算手段により音声特徴量が計算され、使用者の音声を登録する場合には、その音声特徴量が音声情報として音声登録手段により記憶部に登録され、使用者の音声を照合する場合には、その音声特徴量と記憶部に登録されている音声情報とを比較することで音声照合が行われるため、妨害音を除去するための適応フィルタ等を必要とせず、妨害音下で精度が高い話者認識が可能になる。   As a result, the voice feature quantity is calculated by the feature quantity calculation means based on the input sound input from the voice input unit under the interference sound, and when the user's voice is registered, the voice feature quantity is the voice information. Is registered in the storage unit by the voice registration unit, and when the user's voice is collated, the voice collation is performed by comparing the voice feature amount with the voice information registered in the storage unit. An adaptive filter or the like for removing sound is not required, and speaker recognition can be performed with high accuracy under interference sound.

本発明によれば、使用者の音声が周囲に聞こえることを防止する妨害音により音声登録時の盗み聞きを防止し、演算量負荷及びコストを低減して、精度が高い話者認識を実現することができる。   According to the present invention, it is possible to prevent eavesdropping at the time of voice registration by using a disturbing sound that prevents the user's voice from being heard in the surroundings, and to reduce the amount of calculation load and cost, thereby realizing highly accurate speaker recognition. Can do.

本発明の第一の実施の形態を図1ないし図6に基づいて説明する。   A first embodiment of the present invention will be described with reference to FIGS.

図1は本実施の形態の話者認識装置100の概略構成を示すブロック図である。本実施の形態の話者認識装置100は、使用者が特定のパスワードを発声することで話者認識を行う一例である。   FIG. 1 is a block diagram showing a schematic configuration of a speaker recognition device 100 according to the present embodiment. The speaker recognition device 100 according to the present embodiment is an example that performs speaker recognition by a user uttering a specific password.

図1に示すように、話者認識装置100は、使用者の音声が周囲に聞こえることを防止する妨害音を生成する妨害音生成部1、生成された妨害音を出力する妨害音出力部2、使用者の音声を入力するための音声入力部3、音声入力部3に入力された入力音を基にして音声特徴量を計算する特徴量計算部4、使用者による操作を受け付ける操作部5、操作部5に対する使用者の操作に応じて、使用者の音声の登録を行うための登録状態と使用者の音声の照合を行うための照合状態とを切り替える状態切替部6、特徴量計算部4により計算された音声特徴量を用いて登録状態で使用者の音声の登録を行う音声登録部7、音声登録部7からの音声情報を標準パターンとして記憶する標準パターンDB(データベース)8、標準パターンDB8に記憶されている標準パターンと特徴量計算部4により計算された音声特徴量とを用いて照合状態で使用者の音声の照合を行う音声照合部9、及び音声入力部3に入力された入力音に基づいて妨害音を変更する妨害音変更部10等から構成されている。   As shown in FIG. 1, the speaker recognition device 100 includes a disturbing sound generating unit 1 that generates a disturbing sound that prevents a user's voice from being heard in the surroundings, and a disturbing sound output unit 2 that outputs the generated disturbing sound. A voice input unit 3 for inputting a user's voice, a feature amount calculation unit 4 for calculating a voice feature amount based on an input sound input to the voice input unit 3, and an operation unit 5 for accepting an operation by the user A state switching unit 6 that switches between a registration state for registering a user's voice and a collation state for collating the user's voice in accordance with a user's operation on the operation unit 5; 4, a voice registration unit 7 that registers a user's voice in a registered state using the voice feature amount calculated by 4, a standard pattern DB (database) 8 that stores voice information from the voice registration unit 7 as a standard pattern, and a standard Store in pattern DB8 The voice collation unit 9 that collates the user's voice in the collation state using the standard pattern and the voice feature amount calculated by the feature amount calculation unit 4, and the input sound input to the voice input unit 3 Based on the disturbing sound changing unit 10 or the like for changing the disturbing sound based on this.

なお、妨害音は、妨害音出力部2から出力されて音声入力部3にループバックして入力される。したがって、入力音は、妨害音出力部2により出力された妨害音と使用者の音声とが重なる(混ざる)ことで生成され、音声入力部3に入力される。   The disturbing sound is output from the disturbing sound output unit 2 and looped back and input to the sound input unit 3. Therefore, the input sound is generated by overlapping (mixing) the disturbing sound output from the disturbing sound output unit 2 and the user's voice and is input to the sound input unit 3.

妨害音生成部1は、音楽、ビープ音、合成音声及びラジオ音等の妨害音をデジタル信号として生成し、妨害音出力部2に送る。この妨害音は、使用者の音声をかき消すことで、使用者の音声が周囲に聞こえることを防止する。このような妨害音生成部1は妨害音生成手段として機能する。   The interfering sound generation unit 1 generates interfering sounds such as music, beep sounds, synthesized sounds, and radio sounds as digital signals and sends them to the interfering sound output unit 2. This disturbing sound drowns out the user's voice, thereby preventing the user's voice from being heard in the surroundings. Such an interference sound generator 1 functions as an interference sound generator.

妨害音出力部2は、生成されたデジタル信号をアナログ信号に変換するD/A変換器、変換されたアナログ信号を増幅する増幅器及び増幅されたアナログ信号を出力音として出力するスピーカ(いずれも図示せず)を備えている。このような妨害音出力部2は、妨害音生成部1で生成された妨害音のデジタル信号をアナログ信号に変換して増幅し、出力音として外部に出力する。   The interfering sound output unit 2 includes a D / A converter that converts the generated digital signal into an analog signal, an amplifier that amplifies the converted analog signal, and a speaker that outputs the amplified analog signal as output sound (both shown in FIG. Not shown). Such an interference sound output unit 2 converts the digital signal of the interference sound generated by the interference sound generation unit 1 into an analog signal, amplifies it, and outputs it as an output sound to the outside.

音声入力部3は、使用者の音声等の音をアナログ信号として入力するためのマイク、入力されたアナログ信号を増幅する増幅器及び増幅されたアナログ信号をデジタル信号に変換するA/D変換器(いずれも図示せず)を備えている。このような音声入力部3には、主に使用者の音声が入力されるが、使用者の音声以外に妨害音出力部2から出力された妨害音も使用者の音声に重なって(混ざって)入力される。したがって、音声入力部3は、妨害音と使用者の音声とから生成された入力音(合成音)を増幅してアナログ信号からデジタル信号に変換し、特徴量計算部4及び妨害音変更部10に送信する。   The voice input unit 3 includes a microphone for inputting a sound such as a user's voice as an analog signal, an amplifier for amplifying the input analog signal, and an A / D converter for converting the amplified analog signal into a digital signal ( Neither is shown). The user's voice is mainly input to such a voice input unit 3, but the disturbing sound output from the disturbing sound output unit 2 other than the user's voice also overlaps (mixes) with the user's voice. ) Is input. Therefore, the voice input unit 3 amplifies the input sound (synthetic sound) generated from the interference sound and the user's voice and converts it from an analog signal to a digital signal. The feature amount calculation unit 4 and the interference sound change unit 10 Send to.

特徴量計算部4は、音声入力部3から送られた入力音を基にして線形予測分析を行って音声特徴量を求める。線形予測分析は入力音からスペクトル包絡を求める手法であり、発声メカニズムの声道特性を反映した一般に知られた音声特徴量抽出手法である(鹿野 清宏(他4名) “音声認識システム” オーム社出版 第1版(2001年5月) P1〜P13 参照)。このような特徴量計算部4は特徴量計算手段として機能する。   The feature quantity calculation unit 4 performs linear prediction analysis based on the input sound sent from the voice input unit 3 to obtain the voice feature quantity. Linear prediction analysis is a technique for obtaining a spectral envelope from input sound, and is a commonly known speech feature extraction method that reflects the vocal tract characteristics of the utterance mechanism (Kiyohiro Shikano (4 others) “Speech recognition system” Ohm Publication 1st edition (May 2001) See P1-P13). Such a feature quantity calculation unit 4 functions as a feature quantity calculation means.

操作部5は、使用者により操作される操作パネルであり、テンキーや複数の選択ボタン(いずれも図示せず)等から構成されている。例えば、使用者は選択ボタン等を押下することで登録状態と照合状態とを切り替える。   The operation unit 5 is an operation panel operated by a user, and includes a numeric keypad, a plurality of selection buttons (all not shown), and the like. For example, the user switches between a registration state and a collation state by pressing a selection button or the like.

状態切替部6は、操作部5に対する使用者の操作に応じて話者認識装置100の状態を登録状態又は照合状態に切り替える。登録状態では、特徴量計算部4の出力は音声登録部7に渡り、認識状態では、特徴量計算部4の出力は音声照合部9に渡る。すなわち、状態切替部6は、登録状態で、特徴量計算部4により計算された音声特徴量を音声登録部7に送信し、認識状態で、特徴量計算部4により計算された音声特徴量を音声照合部9に送信する。このような状態切替部6は状態切替手段として機能する。   The state switching unit 6 switches the state of the speaker recognition device 100 to a registration state or a collation state in accordance with a user operation on the operation unit 5. In the registration state, the output of the feature amount calculation unit 4 passes to the speech registration unit 7, and in the recognition state, the output of the feature amount calculation unit 4 passes to the speech collation unit 9. That is, the state switching unit 6 transmits the voice feature amount calculated by the feature amount calculation unit 4 to the voice registration unit 7 in the registration state, and the voice feature amount calculated by the feature amount calculation unit 4 in the recognition state. It transmits to the voice collation part 9. Such a state switching unit 6 functions as a state switching unit.

音声登録部7は、登録状態で、状態切替部6から送られた音声特徴量(音声パターン)を音声情報である標準パターンとして標準パターンDB8に登録する。このとき、音声特徴量は、使用者(特定の話者)が妨害音下でパスワードを発声した際の入力音(音声及び妨害音を含む入力音)から求められた特徴量である。このような音声登録部7は音声登録手段として機能する。   In the registration state, the voice registration unit 7 registers the voice feature amount (voice pattern) sent from the state switching unit 6 in the standard pattern DB 8 as a standard pattern that is voice information. At this time, the voice feature amount is a feature amount obtained from the input sound (input sound including the voice and the disturbing sound) when the user (specific speaker) utters the password under the disturbing sound. Such a voice registration unit 7 functions as a voice registration unit.

標準パターンDB8は、音声情報である標準パターンを記憶する記憶部である。標準パターンDBとしては、例えばHDD(ハードディスク)やメモリ等が用いられる。   The standard pattern DB 8 is a storage unit that stores a standard pattern that is audio information. As the standard pattern DB, for example, an HDD (hard disk) or a memory is used.

音声照合部9は、照合状態で、状態切替部6から送られた音声特徴量(音声パターン)と標準パターンDB8に記憶されている標準パターンとの時間軸整合後の距離を計算し、その値を一定の閾値と比較することによって音声照合を行う。このとき、状態切替部6から送られてきた音声特徴量は、使用者(特定の話者)が妨害音下でパスワードを発声した際の入力音(音声及び妨害音を含む入力音)から求められた特徴量である。このような音声照合部9は音声照合手段として機能する。   The voice collation unit 9 calculates the distance after time axis matching between the voice feature amount (speech pattern) sent from the state switching unit 6 and the standard pattern stored in the standard pattern DB 8 in the collation state. Is compared with a certain threshold value. At this time, the voice feature amount sent from the state switching unit 6 is obtained from the input sound (the input sound including the voice and the disturbing sound) when the user (specific speaker) utters the password under the disturbing sound. Feature amount. Such a voice collating unit 9 functions as a voice collating unit.

妨害音変更部10は、音声入力部3から送られた入力音に基づいて使用者の発声音量と妨害音の音量との比率により、妨害音出力部2での妨害音の音量を自在に変更する。このような妨害音変更部10は妨害音変更手段として機能する。   The interfering sound changing unit 10 can freely change the volume of the interfering sound at the interfering sound output unit 2 based on the input sound sent from the audio input unit 3 according to the ratio of the user's utterance volume and the interfering sound volume. To do. Such a disturbing sound changing unit 10 functions as a disturbing sound changing means.

次に、音声登録部7での音声登録について図2ないし図6を参照して説明する。図2は静かな環境下での音声登録時の音声の波形を示す模式図、図3は妨害音下での音声の波形を示す模式図、図4は適応フィルタ処理後の妨害音下での音声の波形を示す模式図である。また、図5は妨害音下での音声登録時の音声の波形を示す模式図、図6は妨害音下での音声照合時の音声の波形を示す模式図である。   Next, voice registration in the voice registration unit 7 will be described with reference to FIGS. FIG. 2 is a schematic diagram showing a waveform of a voice at the time of voice registration in a quiet environment, FIG. 3 is a schematic diagram showing a waveform of a voice under a disturbing sound, and FIG. 4 is a diagram showing the sound under the disturbing sound after adaptive filter processing. It is a schematic diagram which shows the waveform of an audio | voice. FIG. 5 is a schematic diagram showing a waveform of a voice at the time of voice registration under an interfering sound, and FIG. 6 is a schematic diagram showing a waveform of a voice at the time of voice collation under the disturbing sound.

静かな環境下での音声登録時の音声は、図2に示すようなx(t)の波形になる。また、妨害音下での音声は、妨害音をy(t)とすると、図3に示すようなx(t)+y(t)の波形になる。さらに、適応フィルタ処理後の妨害音下での音声の波形は、適応フィルタ処理後の妨害音をy´(t)とすると、図4に示すようなx(t)+y´(t)の波形になる。   The voice at the time of voice registration in a quiet environment has a waveform of x (t) as shown in FIG. Further, the sound under the disturbing sound has a waveform of x (t) + y (t) as shown in FIG. 3 where the disturbing sound is y (t). Furthermore, the waveform of the sound under the interference sound after the adaptive filter processing is a waveform of x (t) + y ′ (t) as shown in FIG. 4 where the interference sound after the adaptive filter processing is y ′ (t). become.

ここで、従来の技術では、図2に示すような音声x(t)と図4に示すような音声x(t)+y´(t)とを比較することで音声照合を行うが、それらの間に差y´(t)が生じているため、話者認識精度は低くなってしまう。これは、静かな環境下での音声が音声登録時の音声として使用されているためである。   Here, in the conventional technique, the speech x (t) as shown in FIG. 2 is compared with the speech x (t) + y ′ (t) as shown in FIG. Since there is a difference y ′ (t) between them, the speaker recognition accuracy is lowered. This is because the voice in a quiet environment is used as the voice at the time of voice registration.

そこで、本実施の形態では、妨害音下での音声が音声登録時の音声として使用される。妨害音下での音声登録時の音声は、図5に示すようなx(t)+y(t)の波形になる。また、妨害音下での音声照合時の音声は、図6に示すようなx(t)+y(t)の波形になる。このとき、図5に示すようなx(t)+y(t)の波形と図6に示すようなx(t)+y(t)の波形との差は、y(t)の定常性を加味すると非常に小さく、それらの波形はほぼ同じである。これにより、話者認識精度は向上する。   Therefore, in the present embodiment, the voice under the disturbing sound is used as the voice at the time of voice registration. The voice at the time of voice registration under the interference sound has a waveform of x (t) + y (t) as shown in FIG. Further, the voice at the time of voice collation under the interference sound has a waveform of x (t) + y (t) as shown in FIG. At this time, the difference between the waveform of x (t) + y (t) as shown in FIG. 5 and the waveform of x (t) + y (t) as shown in FIG. 6 takes into account the steadiness of y (t). Then it is very small and their waveforms are almost the same. Thereby, speaker recognition accuracy is improved.

このような構成において、話者認識装置100は、妨害音生成部1により妨害音を生成し、生成した妨害音を妨害音出力部2により外部に出力する。この妨害音が発生している状態で、使用者は音声入力部3のマイクに向かってパスワードを発声する。このとき、使用者の音声は、妨害音出力部2から出力された妨害音と重なって(混ざって)音声入力部3に入力音として入力される。   In such a configuration, the speaker recognition device 100 generates a disturbing sound by the disturbing sound generation unit 1 and outputs the generated disturbing sound to the outside by the disturbing sound output unit 2. The user utters a password toward the microphone of the voice input unit 3 while the disturbing sound is generated. At this time, the user's voice is input to the voice input unit 3 as an input sound, overlapping (mixed) with the disturbing sound output from the disturbing sound output unit 2.

話者認識装置100は、音声入力部3から入力された入力音(音声及び妨害音を含む入力音)に基づいて特徴量計算部4により音声特徴量を求める。その後、状態切替部6により登録状態が選択されている場合には、音声登録部7によりその音声特徴量を標準パターンとして標準パターンDB8に登録する。一方、状態切替部6により照合状態が選択されている場合には、音声照合部9によりその音声特徴量と標準パターンDB8に記憶されている標準パターンとを比較して音声照合を行う。なお、使用者は操作部5を操作することによって話者認識装置100の登録状態と照合状態とを切り替える。   The speaker recognition device 100 obtains a speech feature value by the feature value calculation unit 4 based on the input sound (input sound including speech and interference sound) input from the speech input unit 3. Thereafter, when the registration state is selected by the state switching unit 6, the voice registration unit 7 registers the voice feature amount in the standard pattern DB 8 as a standard pattern. On the other hand, when the collation state is selected by the state switching unit 6, the voice collation unit 9 compares the voice feature amount with the standard pattern stored in the standard pattern DB 8, and performs voice collation. The user switches the registration state and the collation state of the speaker recognition device 100 by operating the operation unit 5.

このように本実施の形態では、妨害音下で音声入力部3から入力された入力音を基にして特徴量計算部4により音声特徴量が計算され、使用者の音声を登録する場合には、その音声特徴量が標準パターンとして音声登録部7により標準パターンDB8に登録され、使用者の音声を照合する場合には、その音声特徴量と標準パターンDB8に登録されている標準パターンとを比較することで音声照合が行われるため、妨害音を除去するための適応フィルタ等を必要せず、妨害音下で精度が高い話者認識が可能になる。これにより、使用者の音声が周囲に聞こえることを防止する妨害音により音声登録時の盗み聞きを防止し、演算量負荷及びコストを低減して、精度が高い話者認識を実現することができる。   As described above, in the present embodiment, when the voice feature amount is calculated by the feature amount calculation unit 4 based on the input sound input from the voice input unit 3 under the interference sound, and the user's voice is registered, The voice feature quantity is registered as a standard pattern in the standard pattern DB 8 by the voice registration unit 7. When the user's voice is collated, the voice feature quantity is compared with the standard pattern registered in the standard pattern DB 8. Thus, voice collation is performed, so that an adaptive filter or the like for removing the interfering sound is not required, and speaker recognition can be performed with high accuracy under the interfering sound. Thereby, it is possible to prevent eavesdropping at the time of voice registration by using a disturbing sound that prevents the user's voice from being heard in the surroundings, reduce the calculation load and cost, and realize speaker recognition with high accuracy.

また、本実施の形態においては、入力音に基づいて妨害音を変更する妨害音変更手段である妨害音変更部10を備えることから、妨害音は、例えばその音量が使用者の音声の音量に応じて調整され変更されるため、必要以上に妨害音の音量を上げる必要が無くなり、周囲の人に不快感を与えることを防止することができる。   Further, in the present embodiment, since the interference sound changing unit 10 which is an interference sound changing means for changing the interference sound based on the input sound is provided, the interference sound has, for example, the volume of the sound of the user's voice. Since it is adjusted and changed accordingly, it is not necessary to increase the volume of the disturbing sound more than necessary, and it is possible to prevent the surrounding people from feeling uncomfortable.

本発明の第二の実施の形態を図7に基づいて説明する。   A second embodiment of the present invention will be described with reference to FIG.

図7は本実施の形態の話者認識装置101の概略構成を示すブロック図である。本実施の形態は、使用者が特定のパスワードを発声することで話者認識を行う話者認識装置101の一例である。なお、第一の実施の形態と同一部分は同一符号で示し、その説明も省略する。   FIG. 7 is a block diagram showing a schematic configuration of the speaker recognition apparatus 101 of the present embodiment. The present embodiment is an example of a speaker recognition device 101 that performs speaker recognition by a user uttering a specific password. In addition, the same part as 1st embodiment is shown with the same code | symbol, and the description is also abbreviate | omitted.

図7に示すように、話者認識装置101は、使用者の音声が周囲に聞こえることを防止する妨害音を生成する妨害音生成部1、生成された妨害音を出力する妨害音出力部2、使用者の音声を入力するための音声入力部3、音声入力部3に入力された入力音を基にして音声特徴量を計算する特徴量計算部4、使用者による操作を受け付ける操作部5、操作部5に対する使用者の操作に応じて、使用者の音声の登録を行うための登録状態と使用者の音声の照合を行うための照合状態とを切り替える状態切替部6、特徴量計算部4により計算された音声特徴量を用いて登録状態で使用者の音声の登録を行う音声登録部7、音声登録部7からの音声情報を標準パターンとして記憶する標準パターンDB(データベース)8、標準パターンDB8に記憶されている標準パターンと特徴量計算部4により計算された音声特徴量とを用いて照合状態で使用者の音声の照合を行う音声照合部9、及び音声入力部3に入力された入力音に基づいて妨害音を変更する妨害音変更部10等から構成されている。   As shown in FIG. 7, the speaker recognition device 101 includes an interference sound generator 1 that generates an interference sound that prevents the user's voice from being heard in the surroundings, and an interference sound output unit 2 that outputs the generated interference sound. A voice input unit 3 for inputting a user's voice, a feature amount calculation unit 4 for calculating a voice feature amount based on an input sound input to the voice input unit 3, and an operation unit 5 for accepting an operation by the user A state switching unit 6 that switches between a registration state for registering a user's voice and a collation state for collating the user's voice in accordance with a user's operation on the operation unit 5; 4, a voice registration unit 7 that registers a user's voice in a registered state using the voice feature amount calculated by 4, a standard pattern DB (database) 8 that stores voice information from the voice registration unit 7 as a standard pattern, and a standard Store in pattern DB8 The voice collation unit 9 that collates the user's voice in the collation state using the standard pattern and the voice feature amount calculated by the feature amount calculation unit 4, and the input sound input to the voice input unit 3 Based on the disturbing sound changing unit 10 or the like for changing the disturbing sound based on this.

なお、妨害音は、妨害音出力部2から出力されて音声入力部3にループバックして入力される。したがって、入力音は、妨害音出力部2により出力された妨害音と使用者の音声とが重なる(混ざる)ことで生成され、音声入力部3に入力される。   The disturbing sound is output from the disturbing sound output unit 2 and looped back and input to the sound input unit 3. Therefore, the input sound is generated by overlapping (mixing) the disturbing sound output from the disturbing sound output unit 2 and the user's voice and is input to the sound input unit 3.

妨害音生成部1は、音楽、ビープ音、合成音声及びラジオ音等の妨害音をデジタル信号として生成し、妨害音出力部2に送る。この妨害音は、使用者の音声をかき消すことで、使用者の音声が周囲に聞こえることを防止する。このような妨害音生成部1は妨害音生成手段として機能する。   The interfering sound generation unit 1 generates interfering sounds such as music, beep sounds, synthesized sounds, and radio sounds as digital signals and sends them to the interfering sound output unit 2. This disturbing sound drowns out the user's voice, thereby preventing the user's voice from being heard in the surroundings. Such an interference sound generator 1 functions as an interference sound generator.

妨害音出力部2は、生成されたデジタル信号をアナログ信号に変換するD/A変換器、変換されたアナログ信号を増幅する増幅器及び増幅されたアナログ信号を出力音として出力するスピーカ(いずれも図示せず)を備えている。このような妨害音出力部2は、妨害音生成部1で生成された妨害音のデジタル信号をアナログ信号に変換して増幅し、出力音として外部に出力する。   The interfering sound output unit 2 includes a D / A converter that converts the generated digital signal into an analog signal, an amplifier that amplifies the converted analog signal, and a speaker that outputs the amplified analog signal as output sound (both shown in FIG. Not shown). Such an interference sound output unit 2 converts the digital signal of the interference sound generated by the interference sound generation unit 1 into an analog signal, amplifies it, and outputs it as an output sound to the outside.

音声入力部3は、使用者の音声等の音をアナログ信号として入力するためのマイク、入力されたアナログ信号を増幅する増幅器及び増幅されたアナログ信号をデジタル信号に変換するA/D変換器(いずれも図示せず)を備えている。このような音声入力部3には、主に使用者の音声が入力されるが、使用者の音声以外に妨害音出力部2から出力された妨害音も使用者の音声に重なって(混ざって)入力される。したがって、音声入力部3は、妨害音と使用者の音声とから生成された入力音(合成音)を増幅してアナログ信号からデジタル信号に変換し、特徴量計算部4及び妨害音変更部10に送信する。   The voice input unit 3 includes a microphone for inputting a sound such as a user's voice as an analog signal, an amplifier for amplifying the input analog signal, and an A / D converter for converting the amplified analog signal into a digital signal ( Neither is shown). The user's voice is mainly input to such a voice input unit 3, but the disturbing sound output from the disturbing sound output unit 2 other than the user's voice also overlaps (mixes) with the user's voice. ) Is input. Therefore, the voice input unit 3 amplifies the input sound (synthetic sound) generated from the interference sound and the user's voice and converts it from an analog signal to a digital signal. The feature amount calculation unit 4 and the interference sound change unit 10 Send to.

特徴量計算部4は、音声入力部3から送られた入力音から妨害音以外の雑音を推定して除去する雑音除去手段を備えており、推定した雑音を入力音から除去し、その入力音を基にして線形予測分析を行って音声特徴量を求める。このような特徴量計算部4は特徴量計算手段として機能する。なお、本実施の形態では、雑音推定手段としてスペクトル・サブトラクション法が用いられるが、これに限るものではない。その方法は、音声入力部3から送られた入力音のスペクトルを周波数毎に時間加算平均し、逐次差し引く方法である(Boll S.F.:Suppression of Acoustic Noise in Speech Using Spectral Subtraction,IEEE Trans.ASSP-27, P.113-120, 1979参照)。また、線形予測分析は、入力音からスペクトル包絡を求める手法であり、発声メカニズムの声道特性を反映した一般に知られた音声特徴量抽出手法である(鹿野 清宏(他4名) “音声認識システム” オーム社出版 第1版(2001年5月) P1〜P13 参照)。   The feature quantity calculation unit 4 includes a noise removal unit that estimates and removes noise other than the interference sound from the input sound sent from the voice input unit 3, and removes the estimated noise from the input sound. Based on the above, a linear prediction analysis is performed to obtain a speech feature amount. Such a feature quantity calculation unit 4 functions as a feature quantity calculation means. In the present embodiment, the spectrum subtraction method is used as the noise estimation means, but the present invention is not limited to this. The method is a method in which the spectrum of the input sound sent from the voice input unit 3 is time-averaged for each frequency and subtracted sequentially (Boll SF: Suppression of Acoustic Noise in Speech Using Spectral Subtraction, IEEE Trans.ASSP-27). , P. 113-120, 1979). Linear prediction analysis is a technique for obtaining a spectral envelope from input sound, and is a generally known speech feature extraction method that reflects the vocal tract characteristics of the utterance mechanism (Kiyohiro Shikano (4 others) “Speech recognition system” "Ohm Publishing Co., Ltd. 1st edition (May 2001) See P1-P13).

操作部5は、使用者により操作される操作パネルであり、テンキーや選択ボタン(いずれも図示せず)等から構成されている。例えば、使用者は選択ボタン等を押下することで登録状態と照合状態とを切り替える。さらに、使用者はテンキー等を操作することでパスワードやID番号等の申告情報を入力して本人であることを自己申告する。   The operation unit 5 is an operation panel operated by a user, and includes a numeric keypad, a selection button (both not shown), and the like. For example, the user switches between a registration state and a collation state by pressing a selection button or the like. Further, the user inputs the report information such as a password and an ID number by operating the numeric keypad, and self-reports himself / herself.

状態切替部6は、操作部5に対する使用者の操作に応じて話者認識装置101の状態を登録状態又は照合状態に切り替える。登録状態では、特徴量計算部4の出力は音声登録部7に渡り、認識状態では、特徴量計算部4の出力は音声照合部9に渡る。すなわち、状態切替部6は、登録状態で、特徴量計算部4により計算された音声特徴量を音声登録部7に送信し、認識状態で、特徴量計算部4により計算された音声特徴量を音声照合部9に送信する。このような状態切替部6は状態切替手段として機能する。   The state switching unit 6 switches the state of the speaker recognition device 101 to a registration state or a collation state in accordance with a user operation on the operation unit 5. In the registration state, the output of the feature amount calculation unit 4 passes to the speech registration unit 7, and in the recognition state, the output of the feature amount calculation unit 4 passes to the speech collation unit 9. That is, the state switching unit 6 transmits the voice feature amount calculated by the feature amount calculation unit 4 to the voice registration unit 7 in the registration state, and the voice feature amount calculated by the feature amount calculation unit 4 in the recognition state. It transmits to the voice collation part 9. Such a state switching unit 6 functions as a state switching unit.

音声登録部7は、登録状態で、状態切替部6から送られた音声特徴量(音声パターン)を音声情報である標準パターンとして標準パターンDB8に登録する。このとき、音声特徴量は、使用者(特定の話者)が妨害音下でパスワードを発声した際の入力音(音声及び妨害音を含む入力音)から求められた特徴量である。このような音声登録部7は音声登録手段として機能する。   In the registration state, the voice registration unit 7 registers the voice feature amount (voice pattern) sent from the state switching unit 6 in the standard pattern DB 8 as a standard pattern that is voice information. At this time, the voice feature amount is a feature amount obtained from the input sound (input sound including the voice and the disturbing sound) when the user (specific speaker) utters the password under the disturbing sound. Such a voice registration unit 7 functions as a voice registration unit.

標準パターンDB8は、音声情報である標準パターンを記憶する記憶部である。標準パターンDBとしては、例えばHDD(ハードディスク)やメモリ等が用いられる。   The standard pattern DB 8 is a storage unit that stores a standard pattern that is audio information. As the standard pattern DB, for example, an HDD (hard disk) or a memory is used.

音声照合部9は、照合状態で、状態切替部6から送られた音声特徴量(音声パターン)と標準パターンDB8に記憶されている標準パターンとの時間軸整合後の距離を計算し、その値を一定の閾値と比較することによって音声照合を行う。このとき、状態切替部6から送られてきた音声特徴量は、使用者(特定の話者)が妨害音下でパスワードを発声した際の入力音(音声及び妨害音を含む入力音)から求められた特徴量である。このような音声照合部9は音声照合手段として機能する。   The voice collation unit 9 calculates the distance after time axis matching between the voice feature amount (speech pattern) sent from the state switching unit 6 and the standard pattern stored in the standard pattern DB 8 in the collation state. Is compared with a certain threshold value. At this time, the voice feature amount sent from the state switching unit 6 is obtained from the input sound (the input sound including the voice and the disturbing sound) when the user (specific speaker) utters the password under the disturbing sound. Feature amount. Such a voice collating unit 9 functions as a voice collating unit.

妨害音変更部10は、音声入力部3から送られた入力音に基づいて使用者の発声音量と妨害音の音量との比率により、妨害音出力部2での妨害音の音量を自在に変更する。このような妨害音変更部10は妨害音変更手段として機能する。   The interfering sound changing unit 10 can freely change the volume of the interfering sound at the interfering sound output unit 2 based on the input sound sent from the audio input unit 3 according to the ratio of the user's utterance volume and the interfering sound volume. To do. Such a disturbing sound changing unit 10 functions as a disturbing sound changing means.

ここで、音声照合部9は、操作部5で入力された申告情報に基づいて話者認識を行い、その認識結果を妨害音生成部1に送る。妨害音生成部1は、音声照合部9による申告情報に基づく認識結果に応じて、音楽、ビープ音、合成音声及びラジオ音等の妨害音を選定し、その妨害音をデジタル信号として生成する。例えば、妨害音生成部1は、予め使用者(登録者)毎に生成する妨害音を設定したファイル等を記憶する記憶部(図示せず)を備えており、音声照合部9による申告情報に基づく認識結果に応じて、ファイルから生成する妨害音を選択し、その妨害音をデジタル信号として生成する。   Here, the voice collation unit 9 performs speaker recognition based on the report information input by the operation unit 5 and sends the recognition result to the interference sound generation unit 1. The interfering sound generating unit 1 selects interfering sounds such as music, beep sound, synthesized speech, and radio sound according to the recognition result based on the report information by the voice collating unit 9, and generates the interfering sound as a digital signal. For example, the interfering sound generation unit 1 includes a storage unit (not shown) that stores a file or the like in which an interfering sound generated for each user (registrant) is set in advance. According to the recognition result based on, the interference sound generated from the file is selected, and the interference sound is generated as a digital signal.

このような構成において、話者認識装置101は、使用者が操作部5によりパスワードやID番号等の申告情報を入力すると、その申告情報に基づいて音声照合部9により話者認識を行い、その認識結果に基づいて妨害音生成部1により妨害音を生成し、生成した妨害音を妨害音出力部2により外部に出力する。この妨害音が発生している状態で、使用者は音声入力部3のマイクに向かってパスワードを発声する。このとき、使用者の音声は、妨害音出力部2から出力された妨害音と重なって(混ざって)音声入力部3に入力音として入力される。   In such a configuration, when the user inputs report information such as a password and an ID number by the operation unit 5, the speaker recognition device 101 performs speaker recognition by the voice collation unit 9 based on the report information. Based on the recognition result, the disturbing sound generating unit 1 generates a disturbing sound, and the disturbing sound output unit 2 outputs the generated disturbing sound to the outside. The user utters a password toward the microphone of the voice input unit 3 while the disturbing sound is generated. At this time, the user's voice is input to the voice input unit 3 as an input sound, overlapping (mixed) with the disturbing sound output from the disturbing sound output unit 2.

話者認識装置101は、音声入力部3から入力された入力音(音声及び妨害音を含む入力音)に基づいて特徴量計算部4により音声特徴量を求める。その後、状態切替部6により登録状態が選択されている場合には、音声登録部7によりその音声特徴量を標準パターンとして標準パターンDB8に登録する。一方、状態切替部6により照合状態が選択されている場合には、音声照合部9によりその音声特徴量と標準パターンとを比較して音声照合を行う。なお、使用者は操作部5を操作することによって話者認識装置101の登録状態と照合状態とを切り替える。   The speaker recognition apparatus 101 obtains a voice feature value by the feature value calculation unit 4 based on the input sound (input sound including voice and interference sound) input from the voice input unit 3. Thereafter, when the registration state is selected by the state switching unit 6, the voice registration unit 7 registers the voice feature amount in the standard pattern DB 8 as a standard pattern. On the other hand, when the collation state is selected by the state switching unit 6, the voice collation unit 9 compares the voice feature amount with the standard pattern and performs voice collation. The user switches the registration state and the collation state of the speaker recognition device 101 by operating the operation unit 5.

このように本実施の形態では、妨害音下で音声入力部3から入力された入力音を基にして特徴量計算部4により音声特徴量が計算され、使用者の音声を登録する場合には、その音声特徴量が標準パターンとして音声登録部7により標準パターンDB8に登録され、使用者の音声を照合する場合には、その音声特徴量と標準パターンDB8に登録されている標準パターンとを比較することで音声照合が行われるため、妨害音を除去するための適応フィルタ等を必要せず、妨害音下で精度が高い話者認識が可能になる。これにより、使用者の音声が周囲に聞こえることを防止する妨害音により音声登録時の盗み聞きを防止し、演算量負荷及びコストを低減して、精度が高い話者認識を実現することができる。   As described above, in the present embodiment, when the voice feature amount is calculated by the feature amount calculation unit 4 based on the input sound input from the voice input unit 3 under the interference sound, and the user's voice is registered, The voice feature quantity is registered as a standard pattern in the standard pattern DB 8 by the voice registration unit 7. When the user's voice is collated, the voice feature quantity is compared with the standard pattern registered in the standard pattern DB 8. Thus, voice collation is performed, so that an adaptive filter or the like for removing the interfering sound is not required, and speaker recognition can be performed with high accuracy under the interfering sound. Thereby, it is possible to prevent eavesdropping at the time of voice registration by using a disturbing sound that prevents the user's voice from being heard in the surroundings, reduce the calculation load and cost, and realize speaker recognition with high accuracy.

特に、特徴量計算手段である特徴量計算部4は、入力音から妨害音以外の雑音を推定して除去し、その入力音を基にして音声特徴量を計算することから、より精度が高い話者認識を実現することができる。   In particular, the feature quantity calculation unit 4 which is a feature quantity calculation means estimates and removes noise other than the interference sound from the input sound, and calculates the voice feature quantity based on the input sound, so that the accuracy is higher. Speaker recognition can be realized.

さらに、操作部5は、使用者が本人であることを自己申告するための申告情報を入力する操作を受け付け、話者認識手段である音声照合部9は、操作部5により入力された申告情報に基づいて話者認識を行い、妨害音生成手段である妨害音生成部1は、音声照合部9による話者認識の結果に応じて妨害音を変更することから、使用者毎に生成する妨害音を変更することができる。その結果として、使用者の好み等に応じて妨害音を変更出力することができる。   Further, the operation unit 5 accepts an operation of inputting report information for self-reporting that the user is the user, and the speech collation unit 9 as a speaker recognition unit receives the report information input by the operation unit 5. The interference sound generation unit 1 that is the interference sound generation means changes the interference sound according to the result of the speaker recognition by the speech collation unit 9, and thus generates the interference for each user. The sound can be changed. As a result, the disturbing sound can be changed and output according to the user's preference or the like.

なお、本発明は前述したような実施の形態に示す特定のハードウェア構成に限定されるものではなく、ソフトウェアによっても実現可能である。すなわち、話者認識装置100,101が備える各部の機能をソフトウェアで実現することが可能である。この場合には、話者認識装置100,101は、各部を集中的に制御するCPU(図示せず)を備えている。このCPUには、BIOSや各種プログラム等を記憶しているROMや各種データを書換え可能に記憶するRAM(いずれも図示せず)等がバス接続されている。CPUは、ROMに記憶されているプログラムに基づいて、各種の機能を実現する処理を実行する。   The present invention is not limited to the specific hardware configuration shown in the embodiment as described above, and can be realized by software. That is, the function of each unit included in the speaker recognition devices 100 and 101 can be realized by software. In this case, the speaker recognition devices 100 and 101 include a CPU (not shown) that controls each unit in a centralized manner. The CPU is connected to a ROM storing a BIOS and various programs, a RAM (not shown) that stores various data in a rewritable manner, and the like. The CPU executes processing for realizing various functions based on a program stored in the ROM.

本発明の第一の実施の形態の話者認識装置の概略構成を示すブロック図である。It is a block diagram which shows schematic structure of the speaker recognition apparatus of 1st embodiment of this invention. 静かな環境下での音声登録時の音声の波形を示す模式図である。It is a schematic diagram which shows the waveform of the audio | voice at the time of the audio | voice registration in a quiet environment. 妨害音下での音声の波形を示す模式図である。It is a schematic diagram which shows the waveform of the audio | voice under interference sound. 適応フィルタ処理後の妨害音下での音声の波形を示す模式図である。It is a schematic diagram which shows the waveform of the sound under the disturbance sound after an adaptive filter process. 妨害音下での音声登録時の音声の波形を示す模式図である。It is a schematic diagram which shows the waveform of the audio | voice at the time of the audio | voice registration under disturbance sound. 妨害音下での音声照合時の音声の波形を示す模式図である。It is a schematic diagram which shows the waveform of the audio | voice at the time of the audio | voice collation under interference sound. 本発明の第二の実施の形態の話者認識装置の概略構成を示すブロック図である。It is a block diagram which shows schematic structure of the speaker recognition apparatus of 2nd embodiment of this invention.

符号の説明Explanation of symbols

1 妨害音生成手段(妨害音生成部)
2 妨害音出力部
3 音声入力部
4 特徴量計算手段(特徴量計算部)
5 操作部
6 状態切替手段(状態切替部)
7 音声登録手段(音声登録部)
8 記憶部(標準パターンDB)
9 音声照合手段(音声照合部)
10 妨害音変更手段(妨害音変更部)
100 話者認識装置
101 話者認識装置
1 Interference sound generation means (interference sound generator)
2 Interfering sound output section 3 Voice input section 4 Feature quantity calculation means (feature quantity calculation section)
5 Operation part 6 State switching means (state switching part)
7 Voice registration means (voice registration part)
8 storage unit (standard pattern DB)
9 Voice verification means (voice verification unit)
10 Interference sound change means (interference sound change part)
100 speaker recognition device 101 speaker recognition device

Claims (3)

妨害音を生成する妨害音生成手段と、
前記妨害音生成手段により生成された前記妨害音を外部空間に出力する妨害音出力部と、
使用者の音声を入力するための音声入力部と、
前記音声入力部から入力される入力音に含まれる前記使用者の音声の音量と前記外部空間に出力された妨害音の音量との比率により前記妨害音出力部が出力しようとする妨害音の音量を変更する妨害音変更手段と、
前記使用者による操作を受け付ける操作部と、
前記使用者の音声情報を記憶する記憶部と、
前記操作部に対する前記使用者の操作に応じて、前記使用者の音声の登録を行うための登録状態と前記使用者の音声の照合を行うための照合状態とを切り替える状態切替手段と、
前記入力音を基にして音声特徴量を計算する特徴量計算手段と、
前記状態切替手段により切り替えられた前記登録状態で、前記特徴量計算手段により計算された前記音声特徴量を用いて前記記憶部に前記音声情報として前記使用者の音声の登録を行う音声登録手段と、
前記状態切替手段により切り替えられた前記照合状態で、前記記憶部に記憶されている前記音声情報と前記特徴量計算手段により計算された前記音声特徴量とを用いて前記使用者の音声の照合を行う音声照合手段と、
を備える話者認識装置。
An interference sound generating means for generating the interference sound;
An interference sound output unit for outputting the interference sound generated by the interference sound generation means to an external space;
A voice input unit for inputting the user's voice;
Volume of the interference sound to be output by the disturbing sound output unit by the ratio of the volume of the sound input unit included in the input sound input from the output volume of the audio of the user to the external space the interference sound Disturbing sound changing means for changing
An operation unit for receiving an operation by the user;
A storage unit for storing voice information of the user;
A state switching unit that switches between a registration state for registering the voice of the user and a collation state for collating the voice of the user in response to an operation of the user with respect to the operation unit;
Feature quantity calculating means for calculating a voice feature quantity based on the input sound;
Voice registration means for registering the voice of the user as the voice information in the storage unit using the voice feature quantity calculated by the feature quantity calculation means in the registration state switched by the state switching means; ,
In the collation state switched by the state switching unit, collation of the user's voice is performed using the voice information stored in the storage unit and the voice feature amount calculated by the feature amount calculation unit. Voice collation means to perform;
A speaker recognition device comprising:
前記特徴量計算手段は、前記入力音から前記妨害音以外の雑音を推定して除去し、その入力音を基にして前記音声特徴量を計算する、
請求項1記載の話者認識装置。
The feature amount calculating means estimates and removes noise other than the interference sound from the input sound, and calculates the speech feature amount based on the input sound.
The speaker recognition device according to claim 1.
前記操作部は、前記使用者が本人であることを自己申告するための申告情報を入力する操作を受け付け、
前記入力された申告情報により特定される話者に対応して予め設定されている妨害音を前記妨害音生成手段に生成させる手段を備える、
請求項1又は2記載の話者認識装置。
The operation unit accepts an operation of inputting report information for self-reporting that the user is the user,
Means for causing the disturbing sound generating means to generate a preset disturbing sound corresponding to a speaker specified by the input report information;
The speaker recognition device according to claim 1 or 2.
JP2004236429A 2004-08-16 2004-08-16 Speaker recognition device Expired - Fee Related JP4255897B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004236429A JP4255897B2 (en) 2004-08-16 2004-08-16 Speaker recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004236429A JP4255897B2 (en) 2004-08-16 2004-08-16 Speaker recognition device

Publications (2)

Publication Number Publication Date
JP2006053459A JP2006053459A (en) 2006-02-23
JP4255897B2 true JP4255897B2 (en) 2009-04-15

Family

ID=36030961

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004236429A Expired - Fee Related JP4255897B2 (en) 2004-08-16 2004-08-16 Speaker recognition device

Country Status (1)

Country Link
JP (1) JP4255897B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5590394B2 (en) * 2010-11-19 2014-09-17 清水建設株式会社 Noise masking system
JP6561345B2 (en) * 2015-01-23 2019-08-21 株式会社日本総合研究所 Authentication server, voiceprint authentication system, and voiceprint authentication method
US20230282217A1 (en) * 2020-07-27 2023-09-07 Nec Corporation Voice registration device, control method, program, and storage medium

Also Published As

Publication number Publication date
JP2006053459A (en) 2006-02-23

Similar Documents

Publication Publication Date Title
JP4764995B2 (en) Improve the quality of acoustic signals including noise
EP1994529B1 (en) Communication device having speaker independent speech recognition
JPH096390A (en) Voice recognition interactive processing method and processor therefor
WO2013027360A1 (en) Voice recognition system, recognition dictionary logging system, and audio model identifier series generation device
JP6435644B2 (en) Electronic musical instrument, pronunciation control method and program
JP2004101901A (en) Speech interaction system and speech interaction program
WO2016088557A1 (en) Conversation evaluation device and method
JPH10105191A (en) Speech recognition device and microphone frequency characteristic converting method
JP2005534983A (en) Automatic speech recognition method
JP2018191145A (en) Voice collection device, voice collection method, voice collection program, and dictation method
KR101312451B1 (en) Extraction method and extraction apparatus of voice signal used for voice recognition in enviroment outputting a plurality of audio sources
JP2012163692A (en) Voice signal processing system, voice signal processing method, and voice signal processing method program
JP4255897B2 (en) Speaker recognition device
JPH06124097A (en) Portable terminal device
JP3837061B2 (en) Sound signal recognition system, sound signal recognition method, dialogue control system and dialogue control method using the sound signal recognition system
JP2004279768A (en) Device and method for estimating air-conducted sound
JP2005338454A (en) Speech interaction device
JP2000194392A (en) Noise adaptive type voice recognition device and recording medium recording noise adaptive type voice recognition program
JP2010164992A (en) Speech interaction device
JPS58181099A (en) Voice identifier
CN112133320A (en) Voice processing device and voice processing method
CN111226278B (en) Low complexity voiced speech detection and pitch estimation
JPH04324499A (en) Speech recognition device
JP2007248529A (en) Voice recognizer, voice recognition program, and voice operable device
JP2006154484A (en) Apparatus and method for speech processing, program, and recording medium

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080624

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080820

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090127

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090128

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120206

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120206

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130206

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130206

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140206

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees