JP2005300958A - Talker check system - Google Patents
Talker check system Download PDFInfo
- Publication number
- JP2005300958A JP2005300958A JP2004117669A JP2004117669A JP2005300958A JP 2005300958 A JP2005300958 A JP 2005300958A JP 2004117669 A JP2004117669 A JP 2004117669A JP 2004117669 A JP2004117669 A JP 2004117669A JP 2005300958 A JP2005300958 A JP 2005300958A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- voice
- section
- snr
- registered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
この発明は、登録音声と照合音声とを発話した人物の同一性を判定する話者照合装置に係るものであり、特に騒音が照合処理に及ぼす影響を考慮して同一性判定処理の精度を向上する技術に関する。 The present invention relates to a speaker verification device that determines the identity of a person who utters registered speech and verification speech, and in particular, improves the accuracy of identity determination processing in consideration of the effect of noise on verification processing. Related to technology.
携帯電話などの移動体通信端末では、キー操作を行わずに手軽に施錠、解錠を行う方法として音声処理技術を用いた話者照合機能が注目を浴びている。また自動車でも、キーによる施錠、解錠に替えて、音声による施錠、解錠を行う話者照合機能により商品の付加価値を高めることが検討されている。家電機器では、子供に誤操作をさせないように手軽に操作をロック・解除できるようなユーザインターフェースが求められており、話者照合機能はそのための有力な解決策と考えられている。 In mobile communication terminals such as mobile phones, a speaker verification function using a voice processing technique is attracting attention as a method for easily locking and unlocking without performing key operations. Also in automobiles, it has been studied to increase the added value of a product by a speaker verification function that performs locking and unlocking by voice instead of locking and unlocking by keys. In home appliances, a user interface that can easily lock and release an operation so that a child does not perform an erroneous operation is required, and a speaker verification function is considered to be an effective solution for that purpose.
これらの話者照合機能は、いずれも騒音レベルの高い環境で使用されることを前提とする必要がある。例えば、携帯電話であれば駅構内や街頭のように極めて騒音レベルの高い環境で使用されるし、自動車の場合は、道路騒音を考慮しなければならない。家電機器であればテレビやエアコン、掃除機の音といった生活騒音に反応しないように話者照合機能を構成する必要がある。 These speaker verification functions must all be premised on being used in an environment with a high noise level. For example, a mobile phone is used in an environment where the noise level is extremely high, such as in a station yard or on the street, and in the case of an automobile, road noise must be taken into consideration. For home appliances, it is necessary to configure a speaker verification function so that it does not react to daily noise such as the sound of a TV, air conditioner, or vacuum cleaner.
このように、騒音の影響を考慮した音声認識技術乃至話者照合技術として従来から提案されているものとしては、騒音が重畳したテスト音声と騒音とのS/N比を求め、複数の周波数特性からこのS/Nに基づいて好ましい周波数特性を選択する技術が知られている(特許文献1)。 As described above, as a speech recognition technique or a speaker verification technique in consideration of the influence of noise, an S / N ratio between a test voice on which noise is superimposed and noise is obtained, and a plurality of frequency characteristics are obtained. Therefore, a technique for selecting a preferable frequency characteristic based on the S / N is known (Patent Document 1).
話者照合装置をきわめて長時間騒音下においた場合、登録者が発声しなくてもたまたま登録データが騒音データに一致してしまい、誤照合が出力される可能性があるという問題点があった。より具体的に言えば、話者照合機能では、予め準備しておいた登録音声と照合時に発声する入力音声との距離値を算出して、距離値が所定の閾値を下回るか否かを判断し、閾値を下回った場合に照合したと判断するが、静かな環境では最適である照合閾値が、騒音下ではかならずしも最適でないという問題点があったのである。 When the speaker verification device is left in a noise for a very long time, the registration data happens to match the noise data without the registrant speaking, and there is a possibility that an incorrect verification may be output. . More specifically, the speaker verification function calculates a distance value between a registered voice prepared in advance and an input voice uttered at the time of verification, and determines whether the distance value is below a predetermined threshold value. However, it is determined that the collation is performed when the threshold value is below the threshold value. However, there is a problem that the collation threshold value that is optimal in a quiet environment is not necessarily optimal under noise.
この発明に係る話者照合装置は、音声として検出・照合された区間の音響パワーSと、照合された区間の直前および直後の区間の音響パワーNとの比S/Nを求め、S/Nが小さい場合に入力音声を棄却することでノイズによる誤照合を防ぐものである。 The speaker verification apparatus according to the present invention obtains a ratio S / N between the acoustic power S of a section detected and verified as speech and the acoustic power N of a section immediately before and immediately after the verified section, and S / N If the input signal is small, the input speech is rejected to prevent erroneous verification due to noise.
この発明に係る話者照合装置は、入力音声の一部を照合区間として選択し、その照合区間と登録音声とを照合してこの登録音声と上記入力音声との話者同一性を判定する話者照合装置において、
選択された上記照合区間の音響パワーSを算出する照合区間音響パワー算出手段と、
上記照合区間に先行又は後続する上記入力音声の一部の音響パワーNを算出する騒音区間音響パワー算出手段と、
上記照合区間を上記登録音声に照合してこの登録音声と上記入力音声との話者同一性を判定するとともに、SをNで割った値SNRが所定の閾値THを下回る場合に、これらの音声の話者は非同一であると判定する話者判定手段と、
を備えたものである。
The speaker verification device according to the present invention selects a part of the input speech as a verification interval, compares the verification interval with the registered speech, and determines the speaker identity between the registered speech and the input speech. In person verification device,
A matching section acoustic power calculating means for calculating the acoustic power S of the selected matching section;
A noise section sound power calculating means for calculating a sound power N of a part of the input speech preceding or following the matching section;
The collation interval is collated with the registered voice to determine the speaker identity between the registered voice and the input voice, and when the value SNR obtained by dividing S by N falls below a predetermined threshold TH, these voices Speaker determination means for determining that the speakers are non-identical,
It is equipped with.
このように、この発明に係る話者照合装置は、照合区間に先行する区間の音響パワーに基づいて騒音レベルを取得し、照合区間の音響パワーSと騒音区間の音響パワーNとの比S/Nが小さい場合には話者照合を失敗させることによって誤照合を防止することができるのである。 Thus, the speaker verification apparatus according to the present invention acquires the noise level based on the acoustic power of the section preceding the verification section, and the ratio S / of the acoustic power S of the verification section and the acoustic power N of the noise section. When N is small, erroneous verification can be prevented by failing speaker verification.
次にこの発明の実施の形態を図を用いて説明する。
実施の形態1.
図1はこの発明の実施の形態1による話者照合装置を構成を示すブロック図である。図において、話者照合装置1は音声入力部101、音響分析部102、音声区間検出部103、登録部104、登録データ記憶部105、連続DPマッチング部106,照合区間内平均音響パワー計算部107、照合前区間平均音響パワー計算部108、SNR計算部109、判定部110,報知手段111を備えている。
Next, embodiments of the present invention will be described with reference to the drawings.
1 is a block diagram showing the configuration of a speaker verification apparatus according to
話者照合装置1において、音声入力部101は、マイクロホンで集音した音声信号をデジタル信号に変換する装置である。音響分析部102は、デジタルデータに変換された音声データから,話者照合に適するような特徴(たとえば周知であるメルケプストラムや音響パワーなどの特徴)である音響特徴量を計算する部位(回路又は素子)である。音声区間検出部103は音響パワーなどの特徴から、音響パワーの立ち上がりと立ち下がりを検出することにより実際の発声区間を検出する部位である。登録部104は、検出した区間の音響特徴量を、後述する登録データ記憶部105に登録する部位である。登録データ記憶部105は、音響特徴量を記憶するための記憶素子又は回路、あるいは記憶媒体である。
In the
連続DPマッチング部106は、入力音声の音響特徴量と、登録データ記憶部105に登録されている登録データの音響特徴量との距離を連続DP法により計算する部位である。照合区間内平均音響パワー計算部107は、連続DPマッチング部106が検出した照合区間の音響パワーから、照合区間内の平均音響パワーを計算する部位である。照合前区間音響パワー計算部108は、照合区間の直前の所定区間内の音響パワーから、その平均音響パワーを計算する部位である。SNR計算部109は、照合区間内の平均音響パワーと照合区間の直前の所定区間内の音響パワーとの比を算出する部位である。判定部110は、連続DPマッチング部106やSNR計算部109の算出結果と所定の条件とを照らし合わせて、照合の成否を判断する部位である。
The continuous DP matching
報知手段111は判定部110の判定結果を視覚的あるいは聴覚的、触覚的に利用者である話者に通知するための手段である。視覚的に話者に通知するためには、LED(発光ダイオード)やランプ、ディスプレイなどの装置を用いて報知手段111を構成すればよいし、聴覚的に話者に通知するためにはスピーカーを用いるようにすればよい。また触覚的に話者に判定結果を通知するには偏心モータを用いたバイブレータ機能によって報知手段111を構成する。
The
なお、照合区間内平均音響パワー計算部107は、照合区間音響パワー算出手段の例をなすものである。また照合前区間音響パワー計算部108は、騒音区間音響パワー算出手段の例をなすものである。SNR計算部109及び判定部110は話者判定手段の例をなすものである。また照合区間内平均音響パワー計算部107や照合前区間音響パワー計算部108はパワーを算出するものであるので、独立した部位として設けられている必要はなく、連続DPマッチング部106の処理の過程でパワーが算出されるのであれば、そこで算出されたパワーを照合区間内平均音響パワー計算部107や照合前区間音響パワー計算部108の出力とみなしてもよい。
The average acoustic
また、図1のような構成の他、汎用的な制御機能を有する中央演算装置(CPU:Central Processing Unit)やコンピュータ、DSP(Digital Signal Processor)などの制御手段を設けて、図1の各部位を制御する構成を採用しても構わない。また図1の構成を図1の各部位に相当する処理を制御手段であるCPUやコンピュータに実行させるコンピュータプログラムと制御手段との組み合わせに替えてもよい。しかし以降では、図1の各部位がそれぞれ該当する機能を果たすこととして説明することとする。 In addition to the configuration shown in FIG. 1, control units such as a central processing unit (CPU), a computer, and a DSP (Digital Signal Processor) having a general-purpose control function are provided. You may employ | adopt the structure which controls. Further, the configuration of FIG. 1 may be replaced with a combination of a control program and a computer program that causes a CPU or computer to execute processing corresponding to each part of FIG. However, hereinafter, each part in FIG. 1 will be described as performing the corresponding function.
図2は、携帯電話として構成した場合の話者照合装置1の正面図である。図において、符号101aが示す部位は、音声入力部101の備えるマイクロホンであり、また報知手段111は液晶ディスプレイが該当する。また報知手段111はスピーカーやバイブレータを用いて構成してもよい。
FIG. 2 is a front view of the
続いて、この発明の実施の形態1による話者照合装置の動作について説明する。図2はこの話者照合装置における登録音声の登録処理の動作を示すフローチャートである。話者は登録しようとするキーワードを発声し、音声入力部101は入力された音声に対してサンプリングを行いデジタルデータに変換する(ステップS01)。次に音響分析部102は、デジタルデータに変換された音声データから,話者照合に適するような特徴(たとえば周知であるメルケプストラムや音響パワーなどの特徴)である音響特徴量を計算する(ステップS02)。次に音声区間検出部103は、音響パワーなどの特徴から音響パワーの立ち上がりと立ち下がりを検出することにより、実際の発声区間を検出する(ステップS03)。次に登録部104は、検出した区間の音響特徴量を登録データ記憶部105に登録する(ステップS04)。ここで、発話の安定性を確認するために、2発声以上を発声させ、相互の距離が小さい場合ときのみそれらのデータの平均値などを登録するようにしてもよい。
Next, the operation of the speaker verification device according to
続いて、この話者照合装置における照合時の動作について説明する。図3は、この話者照合装置における照合処理の動作を示すフローチャートである。音声入力部101は、逐次的に音声を取り込み、取り込んだ音声に対してサンプリングを行いデジタルデータに変換する(ステップS11)。次に音響分析部102は、デジタルデータに変換された音声データから,話者照合に適するような特徴(たとえば周知であるメルケプストラムや音響パワーなどの特徴)である音響特徴量を計算する(ステップS12)。
Next, the operation at the time of verification in this speaker verification device will be described. FIG. 3 is a flowchart showing the operation of verification processing in this speaker verification device. The
続いて、連続DPマッチング部106は、入力音声の音響特徴量と、登録データ記憶部105に登録されている登録データの音響特徴量との距離を連続DP法により計算し、この距離値に基づいて照合区間を検出する(ステップS13)。
Subsequently, the continuous
ここで連続DP法について説明する。連続DP法とは、DPマッチングを、入力された音声データの始端から連続的に行っていく方法であり、具体的には、図4に示すような傾斜制限を用いて、入力音声中の任意の区間と登録データとのマッチングを行う。入力音声の第i時刻における音響特徴量と登録データの第j番目の音響特徴量の距離を局所距離としてd(i,j)で表す。一般的には、音響特徴量はベクトルとして表現されるので、ベクトルの次元をKとすると、入力音声の第i時刻における音響特徴量を(V(i)1,V(i)2,V(i)3,…,V(i)K)、登録データの第j時刻における音響特徴量を(R(j)1,R(j)2,R(j)3,…,R(j)K)と表すことができる。このとき、局所距離は、ユークリッド距離を用いた場合、
次に、入力音声の第i時刻と登録データの第j時刻の累積距離g(i,j)を以下で定義する。
同時にパスの長さ(重み)を以下で定義する。
数2と数3を各時刻iにおいて、jについてj=0からj=J(Jは登録データの長さ)まで計算する。数2の累積距離は直前の累積距離と局所距離に依存し、最小値を選択することによって累積距離を通るi−jの組が逐次的に決定されていく。ある時刻i0でのg(i0,J)は入力音声の第i0時刻と登録パターンの終端を対応させたときの最小累積距離を表す。同時にi−jの組がj=0の開始点からj=Jまでの経路も定まり、これを最適パスという。c(i0,J)は最適パスの長さを示すことになる。そこで、長さによる変動を正規化した累積距離を
連続DPマッチング照合手段では、以上のような手続きで、登録されたデータと現在時刻i0までに入力された入力音声データとの最適な対応関係(最適パス)と、最適パスの各点における局所距離と、最適パスを通った場合の累積距離値が同時に求められる。このとき、最適パスはたとえば図4のように決定される。なお、図中においてMは照合された発声の長さである。 In the continuous DP matching matching means, the optimum correspondence (optimum path) between the registered data and the input speech data input up to the current time i 0 and the local at each point of the optimum path by the procedure as described above. The distance and the cumulative distance value when the optimum path is passed are obtained simultaneously. At this time, the optimum path is determined as shown in FIG. 4, for example. In the figure, M is the length of the collated utterance.
連続DPマッチング部106は、数4により求めた累積距離Gが所定値以下となる区間を照合区間とする。
The continuous
次に、照合区間内平均音響パワー計算部107は、連続DPマッチング部106が検出した照合区間の音響パワーから、照合区間内の平均音響パワー(これをSとする)を計算する(ステップS14)。具体的には、時刻iで照合して照合区間をi−M+1、i−M+2、…、i−1、i、その音響パワーをP(i−M+1)、P(i−M+2)、…、P(i)としたとき、Sを以下のように計算する。なお、Mは照合された音声の長さである。
次に照合区間前平均音響パワー計算部108は、照合区間の直前の所定区間内の音響パワーから、その平均音響パワー(これをNとする)を計算する(ステップS15)。具体的には直前の所定区間の長さをLとしたときに、Nを以下のように計算する。
これらの音響パワーは、音響分析手段が逐次的に出力する各時刻の音響パワーを照合区間内平均音響パワー計算部106および照合区間前平均音響パワー計算部107が一時的に記憶保持し、照合区間が検出した際にそれらのデータをさかのぼって各平均音響パワーを計算する。
These acoustic powers are temporarily stored in the collation interval average acoustic
次にSNR計算部109は、ステップS14とS15で求めたSとNの比(S/N)を計算し、これをSNRとする(ステップS16)。次に判定部110は、連続DPマッチング部106が出力した累積距離値Gと照合区間について、所定の照合閾値THGと比較し、G<THGであり、かつ、SNRと所定の閾値THSNRとを比較し、SNR<THSNRである場合に登録音声と入力音声の話者は同一であると判定する(ステップS17:同一)。また、G<THGとSNR<THSNRとのいずれかの条件が満たされなければ、話者は非同一であると判定され(ステップS17:非同一)、ステップS18に進む。なお、ここではSNRはSとNの比として説明したが、この他にSとNの比の対数をとったlog(S/N)をSNRとして用いるようにしてもよい。
Next, the
ステップS18では報知手段を介して話者に判定状況を知らせる。図5は報知手段111によって携帯電話のディスプレイに表示された判定状況の例を示す図である。図において111aは現在、携帯電話が話者照合中の状態にあることを示す文字列であり、111bは話者照合の結果を示す文字列である。なお、これらは報知手段111の構成方法の一例に過ぎず、判定状況が利用者に理解されるような方法であれば如何なる方法で報知してもよい。このように報知手段111を設けたことによって、照合処理が失敗した場合には、利用者はそのことを理解して照合を再試行したり、または騒音の少ない場所に移動するなどの対処を採ることができるようになる。その後、ステップS11に戻って次の時刻の音声データの取得を行う。
In step S18, the determination status is notified to the speaker via the notification means. FIG. 5 is a diagram showing an example of the determination status displayed on the display of the mobile phone by the notification means 111. In the figure, 111a is a character string indicating that the mobile phone is currently in speaker verification, and 111b is a character string indicating the result of speaker verification. These are merely examples of the configuration method of the
以上から明らかなように、この発明の実施の形態1による話者照合装置によれば、SNRは、検出された照合区間の平均音響パワーが、その直前の平均音響パワーに比べて大きくない場合にはより小さい値となってステップS17は偽(非同一)と判定されることとなる。このことにより、騒音環境下で騒音区間の音響データと登録データが偶然一致することによる誤照合を避けることができるのである。
As is clear from the above, according to the speaker verification device according to
なお、上述の構成において、登録時の処理を話者照合装置1以外の機器で行い、登録音声のみをフラッシュメモリや通信データなどを介して話者照合装置1に転送するように構成してもよいことはいうまでもない。
In the configuration described above, the registration process may be performed by a device other than the
また、報知手段111は話者照合装置1の用途によっては必須の構成要素とはならない場合がある。例えば、自動車の施錠・解錠を行うことを目的とする場合、いたずらに照合が失敗したことを報知すると却って音声で解錠しうることを不特定の人間に知らしめてしまい安全性が脅かされることも考えられる。したがって、このように話者照合機能が稼働していることを知らしめない方が安全上望ましい場合は、話者照合が失敗しても何も表示しない方がよいので、報知手段111を省略して構成するとよい。
Further, the
また、この発明の実施の形態1においては、騒音区間音響パワー算出手段として、照合区間に先行する区間の音響パワーを算出する照合前区間音響パワー計算部108を用いて構成する例をとって説明した。しかし照合区間に先行する区間のパワーを算出する処理に替えて、照合区間に後続する区間(照合区間の直後の区間)の音響パワーを算出してもよいことはいうまでもない。この場合には、数6において、直後の区間のパワーの総和を算出するようにし、さらにこの総和を長さLで割ることで、N(i)を求めればよい。
Further, in the first embodiment of the present invention, an explanation will be given by taking an example in which the noise section acoustic power calculation means is configured using the pre-matching section acoustic
実施の形態2.
実施の形態1による話者照合装置は、算出したSNRと一定の閾値とを比較して定常的に入力音声を棄却する構成としていた。しかしその他に、場面に応じて異なる閾値を設定するようにしてもよい。実施の形態2による話者照合装置は、かかる特徴を有するものである。
The speaker verification device according to
図7はこの発明の実施の形態2による話者照合装置の構成を示すブロック図である。図において、照合閾値設定部201は、照合閾値を再計算して設定し直す部位である。その他、図1と同一の符号を付した構成要素については、実施の形態1と同様であるので、説明を省略する。
FIG. 7 is a block diagram showing a configuration of a speaker verification apparatus according to
続いて、この発明の実施の形態2による話者照合装置(以下、話者照合装置1という)の動作について説明する。なお、登録時の動作は実施の形態1と同様であるので説明を省略する。図8は話者照合装置1の照合時の動作を表すフローチャートである。図においてステップはS11〜S13は実施の形態1と同様である。ステップS24において、照合前区間平均音響パワー計算部108は、照合区間の直前の所定区間内の音響パワーから、その平均音響パワーNを計算する。具体的には、時刻iで照合して照合区間をi−M+1、i−M+2、…、i−1、iとし、直前の所定区間の長さをL、時刻iでの音響パワーをP(i)としたときに、Nを数6によって算出する。
Next, the operation of the speaker verification device (hereinafter referred to as speaker verification device 1) according to
音響分析部102が逐次的に出力する各時刻の音響パワーは、照合前区間平均音響パワー計算部108によって一時的に記憶保持される。そして照合区間が検出された際に、それらのデータをさかのぼって各平均音響パワーを計算する。
The acoustic power at each time sequentially output by the
次に照合閾値設定部201は、照合区間前音響パワー計算部108が計算したNから、照合閾値THGを所定の対応関係にしたがって決定する。具体的には、THa、THN、THM、wをそれぞれ所定値として、
次に判定部110は、連続DPマッチング部106が出力した距離値Gと照合閾値設定部201が設定した照合閾値THGについて、G<THGである場合に話者は同一であると判定する(ステップS26)。またG<THGでない場合は話者非同一であるとして次の時刻の音声データの取得を行う(ステップS26)。
Next, the
以上の処理により、騒音レベルが変動する環境下において話者照合装置を使用する場合でも最適な閾値を設定できるため、本人棄却率が増加することを防ぐことができる。 With the above processing, an optimum threshold value can be set even when the speaker verification device is used in an environment where the noise level varies, so that it is possible to prevent the person rejection rate from increasing.
なお、上述の説明では、照合前区間平均音響パワー計算部108が計算した音響パワーNの増加関数として閾値THGを算出することとしているが、音響パワーNに替えてSNRの増加関数として閾値THGを算出するようにしてもよい。具体的には、例えば
また、上述の処理では、照合閾値THGを再計算するように構成例を示したが、実施の形態1と同様に構成し、照合閾値THGに替えて、SNRと比較する閾値THSNRを再計算するように構成してもよい。 In the above-described processing, the configuration example is shown so that the collation threshold value THG is recalculated. However, the configuration is the same as in the first embodiment, and the threshold value TH SNR to be compared with the SNR is recalculated instead of the collation threshold value THG. You may comprise.
なお、この発明の実施の形態2による話者照合装置においても、実施の形態1と同様に報知手段を設けてもよいのはいうまでもないことである。 Needless to say, the speaker verification apparatus according to the second embodiment of the present invention may also be provided with notification means as in the first embodiment.
実施の形態3.
この発明の実施の形態2による話者照合装置によれば、音響パワーやSNRによって異なる閾値を適用するように構成した。この他、使用局面(解錠する操作の内容)に応じて異なる閾値を適用するように構成してもよい。この発明の実施の形態3による話者照合装置はかかる特徴を有するものである。
The speaker verification device according to
図9は、この発明の実施の形態3による話者照合装置の構成を示すブロック図である。この図と図1が異なる点は判定部110が登録データ記憶部105を参照するように構成されている点である。またこの発明の実施の形態3による話者照合装置(話者照合装置1)では登録データ記憶部105の構成が異なる。図10は、話者照合装置1が携帯電話として構成された場合の、登録データ記憶部105に記憶されるデータの構成例を示す図である。図に示すように、この実施の形態3による登録データ記憶部105は各コマンド毎に閾値フィールドと登録音声データフィールドとを記憶している。閾値フィールドはこの携帯電話が音声によって実行可能なコマンドの内容を示すものである。これに対して登録音声データはこのコマンドを起動するために予め利用者が登録した登録音声である。なお、ここでは簡単のために登録音声データをローマ字で表記しているが、実際には音声データであるので、このような形式ではなく、メルケプストラムや音響パワーなどの特徴が記録される。また閾値はそのコマンドに対するSNRと比較するTHSNRが格納される。ここでこの閾値が小さければ、多少の騒音があっても照合される局面が多くなり、この閾値が大きければ、騒音の発生に対して厳格となって照合がされにくくなることに注意すべきである。
FIG. 9 is a block diagram showing a configuration of a speaker verification apparatus according to
例えば図10の例では、受話や発話に対しては閾値として2.0を設定している。一方、この携帯電話にはデジタルカメラ機能が装着されており、さらに話者が「ハイ、チーズ」と発話するとシャッターが降りるようになっているとすると、このような用途では耐騒音性(騒音により誤照合が発生する割合を低く抑える必要性)よりも、シャッターチャンスの方を重視すべきであると考えられるので、閾値1.5というように他のコマンドや操作よりも閾値を小さく設定している。このようにすることで、騒音による誤照合を防いで安全性を維持しつつ、使い勝手を向上することができるのである。 For example, in the example of FIG. 10, 2.0 is set as the threshold value for receiving and speaking. On the other hand, if this mobile phone is equipped with a digital camera function and the shutter is released when the speaker speaks “high, cheese”, in such applications, noise resistance (due to noise) Since it is thought that the photo opportunity should be more important than the need to keep the rate of occurrence of erroneous verification low, set the threshold to be smaller than other commands and operations, such as threshold 1.5. Yes. By doing so, it is possible to improve usability while maintaining safety by preventing erroneous verification due to noise.
なお、話者照合装置1の動作については実施の形態1と同様である。ただし判定部110は照合処理の際に、連続DPマッチング部106が最も距離が近いと判断した登録音声のコマンドに対して記憶されているTHSNRを登録データ記憶部105から読み出すようになっている点が異なっている。
The operation of the
以上から明らかなように、この発明の実施の形態3の話者照合装置によれば、使用の局面に応じて異なる閾値を適用するので、騒音による誤照合を防いで安全性を維持しつつ、使い勝手を向上することができる As is clear from the above, according to the speaker verification device of the third embodiment of the present invention, different thresholds are applied depending on the situation of use, so that erroneous verification due to noise is prevented and safety is maintained. Usability can be improved
なお、登録データ記憶部105が各コマンドについて記憶するTHSNRを初期値として、実施の形態2で行ったような閾値の再設定を行ってもよい。また実施の形態2で示したように閾値の上限値と下限値をコマンド毎に登録データ記憶部105に記憶させておき、これを判定部110による照合処理の際に参照するようにしてもよいことはいうまでもない。
Note that the threshold value may be reset as in the second embodiment using the TH SNR stored in the registered
この発明は、例えば機器の使用開始可否を操作者が発話する音声に基づいて判断する話者照合装置に適用することが可能である。 The present invention can be applied to, for example, a speaker verification device that determines whether or not to start using a device based on voice uttered by an operator.
105 登録データ記憶部、
106 連続DPマッチング部、
107 照合区間内平均音響パワー計算部、
108 照合前区間平均音響パワー計算部、
109 SNR計算部、
110 判定部、
111 報知手段、
201 照合閾値設定部。
105 registered data storage unit,
106 continuous DP matching unit,
107 average acoustic power calculation section in the verification section,
108 section average sound power calculation section before verification,
109 SNR calculator,
110 determination unit,
111 notification means,
201 Collation threshold value setting unit.
Claims (7)
選択された上記照合区間の音響パワーSを算出する照合区間音響パワー算出手段と、
上記照合区間に先行又は後続する上記入力音声の一部の音響パワーNを算出する騒音区間音響パワー算出手段と、
上記照合区間を上記登録音声に照合してこの登録音声と上記入力音声との話者同一性を判定するとともに、SをNで割った値SNRが所定の閾値THを下回る場合に、これらの音声の話者は非同一であると判定する話者判定手段と、
を備えたことを特徴とする話者照合装置。 In the speaker verification device that selects a part of the input speech as a verification interval, and compares the verification interval with the registered speech to determine speaker identity between the registered speech and the input speech,
A matching section acoustic power calculating means for calculating the acoustic power S of the selected matching section;
A noise section sound power calculating means for calculating a sound power N of a part of the input speech preceding or following the matching section;
The collation interval is collated with the registered voice to determine the speaker identity between the registered voice and the input voice, and when the value SNR obtained by dividing S by N falls below a predetermined threshold TH, these voices Speaker determination means for determining that the speakers are non-identical,
A speaker verification device comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004117669A JP2005300958A (en) | 2004-04-13 | 2004-04-13 | Talker check system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004117669A JP2005300958A (en) | 2004-04-13 | 2004-04-13 | Talker check system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005300958A true JP2005300958A (en) | 2005-10-27 |
JP2005300958A5 JP2005300958A5 (en) | 2007-03-15 |
Family
ID=35332563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004117669A Pending JP2005300958A (en) | 2004-04-13 | 2004-04-13 | Talker check system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005300958A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013231797A (en) * | 2012-04-27 | 2013-11-14 | Fujitsu Ltd | Voice recognition device, voice recognition method and program |
JP2019049742A (en) * | 2012-08-10 | 2019-03-28 | エイディシーテクノロジー株式会社 | Voice response device |
WO2020153158A1 (en) * | 2019-01-23 | 2020-07-30 | 日本電信電話株式会社 | Determination device, method therefor, and program |
WO2023100905A1 (en) * | 2021-12-03 | 2023-06-08 | パナソニックIpマネジメント株式会社 | Authentication device and authentication method |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10260693A (en) * | 1997-02-03 | 1998-09-29 | Philips Electron Nv | Method and device for speech recognition |
JPH10313357A (en) * | 1997-05-13 | 1998-11-24 | Nec Corp | Automatic answering telephone set |
JP2000163098A (en) * | 1998-11-25 | 2000-06-16 | Mitsubishi Electric Corp | Voice recognition device |
JP2001034291A (en) * | 1999-07-21 | 2001-02-09 | Mitsubishi Electric Corp | Voice recognition device |
JP2001042896A (en) * | 1999-08-04 | 2001-02-16 | Kdd Corp | Speaker recognition system and apparatus therefor |
JP2002073061A (en) * | 2000-09-05 | 2002-03-12 | Matsushita Electric Ind Co Ltd | Voice recognition device and its method |
JP2002132283A (en) * | 2000-10-25 | 2002-05-09 | Olympus Optical Co Ltd | Medical control system |
JP2003036087A (en) * | 2001-07-25 | 2003-02-07 | Sony Corp | Apparatus and method for detecting information |
JP2003241785A (en) * | 2002-02-21 | 2003-08-29 | Toshiba Tec Corp | Device and system for telephone call with individual authenticating function |
JP2004086356A (en) * | 2002-08-23 | 2004-03-18 | Fujitsu Ten Ltd | Authentication method and authentication system |
-
2004
- 2004-04-13 JP JP2004117669A patent/JP2005300958A/en active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10260693A (en) * | 1997-02-03 | 1998-09-29 | Philips Electron Nv | Method and device for speech recognition |
JPH10313357A (en) * | 1997-05-13 | 1998-11-24 | Nec Corp | Automatic answering telephone set |
JP2000163098A (en) * | 1998-11-25 | 2000-06-16 | Mitsubishi Electric Corp | Voice recognition device |
JP2001034291A (en) * | 1999-07-21 | 2001-02-09 | Mitsubishi Electric Corp | Voice recognition device |
JP2001042896A (en) * | 1999-08-04 | 2001-02-16 | Kdd Corp | Speaker recognition system and apparatus therefor |
JP2002073061A (en) * | 2000-09-05 | 2002-03-12 | Matsushita Electric Ind Co Ltd | Voice recognition device and its method |
JP2002132283A (en) * | 2000-10-25 | 2002-05-09 | Olympus Optical Co Ltd | Medical control system |
JP2003036087A (en) * | 2001-07-25 | 2003-02-07 | Sony Corp | Apparatus and method for detecting information |
JP2003241785A (en) * | 2002-02-21 | 2003-08-29 | Toshiba Tec Corp | Device and system for telephone call with individual authenticating function |
JP2004086356A (en) * | 2002-08-23 | 2004-03-18 | Fujitsu Ten Ltd | Authentication method and authentication system |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013231797A (en) * | 2012-04-27 | 2013-11-14 | Fujitsu Ltd | Voice recognition device, voice recognition method and program |
JP2019049742A (en) * | 2012-08-10 | 2019-03-28 | エイディシーテクノロジー株式会社 | Voice response device |
WO2020153158A1 (en) * | 2019-01-23 | 2020-07-30 | 日本電信電話株式会社 | Determination device, method therefor, and program |
WO2023100905A1 (en) * | 2021-12-03 | 2023-06-08 | パナソニックIpマネジメント株式会社 | Authentication device and authentication method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100854044B1 (en) | Detection of end of utterance in speech recognition system | |
US11087764B2 (en) | Speech recognition apparatus and speech recognition system | |
CN106796786B (en) | Speech recognition system | |
JP3363630B2 (en) | Voice recognition method | |
JP6621613B2 (en) | Voice operation system, server device, in-vehicle device, and voice operation method | |
US6134527A (en) | Method of testing a vocabulary word being enrolled in a speech recognition system | |
JP4246703B2 (en) | Automatic speech recognition method | |
JP2006194959A (en) | Voice detector, automatic imaging device and voice detecting method | |
JP6797338B2 (en) | Information processing equipment, information processing methods and programs | |
JP2008033198A (en) | Voice interaction system, voice interaction method, voice input device and program | |
US7319963B2 (en) | Voice recognition system preventing lowering performance | |
JP2005300958A (en) | Talker check system | |
JP6616182B2 (en) | Speaker recognition device, discriminant value generation method, and program | |
US20090106025A1 (en) | Speaker model registering apparatus and method, and computer program | |
JP2018028733A (en) | Input device, input device control method, display device and input program | |
JP2559031B2 (en) | Voice recognition system | |
JP7172120B2 (en) | Speech recognition device and speech recognition method | |
JP6571587B2 (en) | Voice input device, method thereof, and program | |
JP2001350494A (en) | Device and method for collating | |
KR100449912B1 (en) | Apparatus and method for detecting topic in speech recognition system | |
JP2020101778A (en) | Voice recognition system, learned model generation method, voice recognition system control method, program, and moving body | |
JP2020091435A (en) | Voice recognition system, notification method of voice recognition system, program, and mobile body mounted apparatus | |
CN109559759B (en) | Electronic device with incremental registration unit and method thereof | |
JP4391031B2 (en) | Voice recognition device | |
JP2024011740A (en) | Information processing device and estimation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070129 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100323 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100615 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101019 |