CN101145342B - 语音认证设备 - Google Patents
语音认证设备 Download PDFInfo
- Publication number
- CN101145342B CN101145342B CN2007101541029A CN200710154102A CN101145342B CN 101145342 B CN101145342 B CN 101145342B CN 2007101541029 A CN2007101541029 A CN 2007101541029A CN 200710154102 A CN200710154102 A CN 200710154102A CN 101145342 B CN101145342 B CN 101145342B
- Authority
- CN
- China
- Prior art keywords
- noise
- voice
- corrected value
- authentication
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012937 correction Methods 0.000 claims abstract description 16
- 238000004458 analytical method Methods 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 16
- 238000000034 method Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 description 12
- 238000012360 testing method Methods 0.000 description 8
- 230000005055 memory storage Effects 0.000 description 7
- 230000001915 proofreading effect Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000009434 installation Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012109 statistical procedure Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Collating Specific Patterns (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Image Processing (AREA)
- Telephone Function (AREA)
- Lock And Its Accessories (AREA)
- Devices For Checking Fares Or Tickets At Control Points (AREA)
Abstract
一种语音认证设备,其中特性分析装置对在被测者产生用于被测者认证的采样语音时在所述被测者周围所产生的采样噪音的特性进行分析。设置装置根据由所述特性分析器分析的所述采样噪音的特性来设置校正值。校正装置根据所设置的校正值来校正指标值,所述指标值指示了已提前登记的基准语音的特征量与从被测者获得的采样语音的特征量之间的相似程度。确定器通过对校正过的指标值与预定阈值进行比较来确定对所述被测者的认证。
Description
技术领域
本发明涉及一种对使用语音的个人的认证技术。
背景技术
已经提出了一种传统的语音认证技术,该技术通过将预先从认可用户获得的语音(以下称为“基准语音”或“登记语音”)的特征量与从要被认证的人(以下称为“被测者”)获得的语音(以下称为“采样语音”或“认证语音”)的特征量之间的差异与一个阈值进行比较来确定对被测者的认证。日本专利申请公开第2003-248661号专利参考描述了一种构造,其中根据认证目的或根据认证所需的精确水平来改变所述阈值。
图8是用于评估语音认证的曲线图。图8中的误拒绝率(FRR)表示即使被测者为认可用户时在认证期间对被测者的认证将被拒绝的概率(用户拒绝率),而误接受率(FAR)表示即使被测者不是认可用户时在认证期间对被测者的认证将被接受的概率(陌生人接受率)。从图8中可以看出,如果认证中所使用的阈值被设为图8中的值“a”,则拒绝未授权被测者的概率被保持在足够高的水平,而拒绝认可用户的概率被充分降低。
然而,由于认证噪音会影响认证语音的特性,所以认证语音与登记语音之间的差异会根据认证期间产生的环境声音(以下称为“采样噪音”或“认证噪音”)而改变。因此,图8中FRR和FAR每一个的曲线都依照认证噪音的特性来平行于水平轴(差异)移动。例如,如果图8中的实线示出的FAR改变为虚线L1,则错误地接受陌生人的认证的概率会增加(即,认证的精确水平会降低),并且如果图8中的FRR改变为虚线L2,则拒绝认可用户的认证的概率会增加(即认证的方便性会降低)。也就是说,传统语音认证会有这样的问题,即由于认证噪音特性而破坏认证精确性和认证方便性之间的平衡。
即使如日本专利申请公开第2003-248661号专利参考中那样根据认证目的或所需精确水平来改变阈值,也无法解决该问题。在使用以移动电话为代表的便携式电子装置来执行认证时,由于验证噪音的特性根据电子装置的使用环境而以许多方式发生改变,该问题会变得更加严重。
发明内容
考虑到这样的环境而作出本发明,并且本发明的一个目的是不考虑采样噪音的影响而解决在保持认证精确性和认证方便性之间的平衡中所出现的问题。
为了解决上述问题,根据本发明一个方面的语音认证设备包括:
特性分析装置,其对在被测者产生用于被测者认证的采样语音或认证语音时在该被测者周围所产生的采样噪音或认证噪音的特性进行分析;第一设置装置(例如,图1中的设置器51),其根据由特性分析装置分析的认证噪音的特性来设置第一校正值(例如,图1中的校正值Aa);校正装置,其根据第一设置装置所设置的第一校正值来校正指标值(例如,图1中的差异D0),该指标值指示了提前登记的基准语音或登记语音的特征量与从被测者获得的认证语音的特征量之间的相似程度;以及确定器,其通过对校正装置校正过的指标值与预定阈值进行比较来确定对被测者的认证。
根据这个方面,在根据认证噪音的特性对指标值进行校正之后,将指示了登记语音是否类似于认证语音的指标值与预定阈值进行比较,从而维持了认证方便性与认证精确性之间的平衡,而不受认证噪音的影响。所述预定阈值可以是固定值或可变值。
在本发明的优选实施例中,第一设置装置根据认证噪音以及登记语音与在对登记语音进行登记期间产生的登记噪音之间的声级比(例如,图4中的声级比EN_SN)二者来确定第一校正值,以使得该第一校正值被设置为预定阈值与一个变量(例如,图4中的阈值TH)之间的差,该变量是结合认证噪音的特性以及登记语音与登记噪音之间的声级比二者而确定的。
例如,第一设置装置将第一校正值设置为预定阈值与随着登记语音与登记噪音之间的声级比而沿着对应于认证噪音特性的直线或曲线变化的变量之间的差。
更具体的说,第一设置装置根据登记语音与登记噪音之间的声级比和认证噪音的特性二者来设置第一校正值,给出所述第一校正值来作为登记语音和登记噪音之间的声级比与认证语音和认证噪音之间的声级比(例如,声级比V_SN)之间的声级比之差(例如,图4中的声级比差DIF_SN1~DIF_SN3)。
本实施例可以通过简单的处理来保持认证方便性和认证精确性之间的平衡,而不会受到登记噪音或认证噪音的特性的影响。第一设置装置可以根据定义了第一校正值与在登记语音和登记噪音之间的声级比以及认证噪音特性(具体地说为登记语音和登记噪音之间的声级比与认证语音和认证噪音之间的声级比之间的声级比之差)之间的关系的表来设置第一校正值,并且还可以通过使用表示了这些值之间关系的等式进行计算来设置第一校正值。表的内容或等式可以根据例如来自用户的指令而适当地作出改变。
根据本发明实施例的一种语音认证设备还包括第二设置装置(例如,图1中的设置器52),其根据认证噪音和登记噪音之间的差(例如,图6中的关系值NOISE_DIF)来设置第二校正值(例如,图1中的校正值Ab),其中所述校正装置根据第一和第二校正值来校正指标值。
根据本实施例,即使当登记噪音(即,基准噪音)与实际认证期间的认证噪音(即,采样噪音)之间的实际关系不同于登记噪音与当确定了第一校正值与登记噪音和登记语音的关系时所假设的认证噪音之间的原始关系的时候,也可以根据依照实际认证噪音与登记噪音之间差值的第二校正值来校正指标值,从而有效地维持认证方便性与认证精确性之间的平衡。第二设置装置可以根据定义了第二校正值与在认证噪音和登记噪音之间的差值之间的关系的表来设置第二校正值,并且还可以通过使用表示了这些关系的等式进行计算来设置第二校正值。表的内容或等式可以根据例如来自用户的指令而适当地作出改变。
根据本发明一个实施例的语音认证设备还包括第三设置装置(例如,图1中的设置器53),其根据认证语音(即,采样语音)或登记语音(即,基准语音)的持续时间(例如,图7中的语言长度EN_SPEECH_LEN或V_SPEECH_LEN)来设置第三校正值(例如,图1中的校正值Ac),其中所述校正装置根据第一和第三校正值来校正指标值。
根据本实施例,即使当登记语音或认证语音的语言长度(或持续时间)与当确定了第一校正值与登记噪音和登记语音的关系时所假设的语言长度不相同的时候,也可以根据依照认证语音或登记语音的第三校正值来校正指标值,从而有效地维持认证方便性与认证精确性之间的平衡。第三设置装置可以根据定义了第三校正值与认证语音或登记语音的持续时间之间的关系的表来设置第三校正值,并且还可以通过使用表示了这些关系的等式进行计算来设置第三校正值。表的内容或等式可以根据例如来自用户的指令而适当地作出改变。
用作基础来确定用来校正指标值的校正值的参数并不限于认证语音或登记语音的持续时间以及认证噪音与登记噪音之间的差。例如,语音认证设备还可以包括这样的设置装置,其根据包括在登记语音或认证语音中的语音与非语音声音的持续时间之间的比来设置校正值,或者还可以包括这样的设置装置,其根据登记语音或认证语音的音节数来设置校正值。在这些实施例的任意一个中采用了如上所述根据表或等式来确定校正值的配置,或者采用了表的内容或等式可变的配置。
本发明的特征还在于一种语音认证方法,其对按照上述实施例的每一个的语音认证设备进行控制。根据本发明一个实施例的一种语音认证方法包括:分析认证噪音的特性,该认证噪音是在被测者产生用于被测者认证的认证语音时在该被测者周围产生的;根据分析出的认证噪音的特性来设置校正值;根据所设置的校正值来校正指标值,该指标值指示了提前登记的登记语音的特征量与从被测者获得的认证语音的特征量之间的相似程度;以及通过对校正过的指标值与预定阈值进行比较来确定被测者的可靠性。该方法实现了与根据本发明的语音认证设备相同的作用和好处。
根据上述实施例的每一个的语音认证设备通过专用于每个处理的诸如数字信号处理器(DSP)之类的硬件(电路)来实现,并且还通过程序与中央处理单元(CPU)之类的通用处理单元之间的协作来实现。根据本发明的一个程序使得计算机执行以下处理:特性分析处理,用来对当被测者产生用于被测者认证的采样语音同时在该被测者周围产生的认证噪音的特性进行分析;设置处理,用来根据在特性分析处理中分析出的认证噪音的特性来设置校正值;校正处理,用来根据在设置处理中所设置的校正值来校正指标值,该指标值指示了提前登记的登记语音的特征量与从被测者获得的认证语音的特征量之间的相似程度;以及确定处理,用来通过对校正过的指标值与预定阈值进行比较来确定对被测者的认证。该处理也实现了与根据以上每个实施例的语音认证设备相同的作用和好处。本发明的程序是以存储在如CD-ROM之类的机器可读介质或便携记录介质中并随后安装在计算机上的形式被提供给用户的,并且还可采用以通过网络的发布方式从服务器设备提供并安装在计算机上。
附图说明
图1是示出根据本发明一个实施例的语音认证设备的配置的框图。
图2是由输入单元产生的声音信号的波形图。
图3是示出由校正值控制器执行的处理过程的流程图。
图4是示出校正值Aa与声级比EN_SN和声级比之差DIF_SN的关系的曲线图。
图5是示出用于确定校正值Aa的表的内容的概念图。
图6是示出关系值NOISE_DIF与校正值Ab之间关系的曲线图。
图7是示出语言长度EN_SPEECH_LEN与校正值Ac之间关系的曲线图。
图8是示出阈值与FAR和FRR之间关系的曲线图。
具体实施方式
<A:语音认证设备的配置>
图1是示出根据本发明一个实施例的语音认证设备的配置的框图。语音认证设备100是一个根据被测者说出特定词时产生的语音来对该被测者的认证进行判定(即,判定该被测者是否为一个已被提前登记的正式用户)的装置。语音认证设备100被安装在如移动电话或信息处理设备之类的多种电子设备中。图1中示出的特性分析器20、认证器40、或校正值控制器50每一个都可以是例如作为由CPU之类的处理单元执行的程序来实现的,并且也可以通过DSP之类的硬件电路来实现。
语音认证设备100的操作被分成最初登记和认证。最初登记是在认证之前对认可用户说出的语音(登记语音)进行登记的操作。认证是通过将登记语音与被测者说出的语音(认证语音)进行对比来对该被测者的认证进行判定的操作。操作单元10包括由用户操作的多个操作器。用户可通过对操作单元10进行适当操作来指示语音认证设备100开始最初登记或认证。
图1中的输入单元15和特性分析器20用于检测在执行认证时语音认证设备100的认证语音或环境噪音(认证噪音)的特性,并且用于检测如图1中的虚线R所示在执行最初登记时语音认证设备100的登记语音或环境噪音(登记噪音)的特性。
输入单元15是一个依照环境声音(语音和噪音)来产生声音信号S的声音收集器。如图2所示,声音信号S被分为未说话部分P1和说话部分P2。说话部分P2是其中认可用户在最初登记期间说出登记语音的部分或是其中被测者在认证期间说出认证语音的部分。另一方面,未说话部分P1是其中没有说出登记或认证语音的部分。由于在语音认证设备100安装的环境中可能产生各种噪音,所以未说话部分P1并非完全安静的(即,在未说话部分P1中声音信号S的幅度不为零),并且输入单元15收集未说话部分P1中的登记噪音或认证噪音。
由输入单元15产生的声音信号S被提供到图1的特性分析器20。特性分析器20是用来分析由输入单元15收集到的声音的装置。特性分析器20包括部分检测器22、开关23、噪音分析器25、语音分析器26、和特征分析器28。部分检测器22辨别未说话部分P1和说话部分P2。例如,部分检测器22检测声音信号S的幅度不连续地增加或减少的时刻来作为未说话部分P1和说话部分P2间的分界。可采用各种已知技术来辨别未说话部分P1和说话部分P2。
开关23是用来切换由输入单元15产生的声音信号S的供给目标的装置。这使得被部分检测器22确认为未说话部分P1的一部分声音信号S被提供到噪音分析器25,并且使得被部分检测器22确认为说话部分P2的一部分声音信号S被提供到语音分析器26和特征分析器28。
噪音分析器25是用于根据未说话部分P1中的声音信号S来分析登记噪音或认证噪音的特性的装置。本实施例中的噪音分析器25在未说话部分P1中周期性地对声音信号S的特性进行分析。当对操作单元10进行操作来指示语音认证设备100开始最初登记或认证时,噪音分析器25确定在该指示时刻之前的预定时刻开始并在该指示时刻结束的部分P(称为检测部分)的被分析的特性为图2中示出的登记噪音或认证噪音的特性。在以下的描述中,与登记噪音或登记语音相关的项由包括“EN”(“enroll(登记)”的缩写)的符号表示,而与认证噪音或认证语音有关的项由包括“V”(“verify(验证)”的缩写)的符号表示。
如图1所示,本实施例中的噪音分析器25在执行最初登记时计算登记噪音的频率特性EN_NOISE_FC和噪音声级EN_NOISE_LEVEL,并在执行认证时计算认证噪音的频率特性V_NOISE_FC和噪音声级V_NOISE_LEVEL。每个噪音声级EN_NOISE_LEVEL和V_NOISE_LEVEL是未说话部分P1的检测部分P中在声音信号S的分量当中包含于特定频带中的分量的平均量(声压)。频率特性EN_NOISE_FC或V_NOISE_FC是表示将检测部分P中的声音信号S分成的多个频带的分量的各个量的信息。因此,噪音分析器25例如包括了具有不同通频带的多个带通滤波器(滤波器组)。频率特性EN_NOISE_FC和V_NOISE_FC的信息只需反映登记噪音或认证噪音的特性。例如,噪音分析器25可以是用来通过快速傅立叶变换(FFT)之类的频率分析来计算作为频率特性EN_NOISE_FC和V_NOISE_FC的频谱的装置。
语音分析器26根据说话部分P2中的声音信号S来分析登记语音或认证语音的特性。本实施例中的语音分析器26在执行最初登记时计算登记语音的语言声级EN_SPEECH_LEVEL和语言长度(或持续时间)EN_SPEECH_LEN,并在执行认证时计算认证语音的语言声级V_SPEECH_LEVEL和语言长度V_SPEECH_LEN。每一个语言声级EN_SPEECH_LEVEL和V_SPEECH_LEVEL都是在说话部分P2的声音信号S中特定频带所包括的分量的平均量。每一个语言长度EN_SPEECH_LEN和V_SPEECH_LEN都表示说话部分P2的持续时间(即,说话所持续的时间段)。检测从声音信号S的幅度迅速增大(对应于说话部分P2的开始)时刻到声音信号S的幅度迅速减小(对应于说话部分P2的结束)时刻的时间段来作为语言长度EN_SPEECH_LEN和V_SPEECH_LEN。
特征分析器28是用来分析登记语音或认证语音的特征的装置。本实施例中的特征分析器28在执行最初登记时计算登记语音的特征量EN_DATA,并在执行认证时计算认证语音的特征量V_DATA。每一个特征量EN_DATA和V_DATA都是由说话部分P2中的声音信号S计算出的倒频谱向量的时间序列。因此,用于执行包括频率分析(例如FFT处理)的各种计算的装置被优选地用作特征分析器28。
存储装置32是用于存储认证中所使用的各种信息的装置。例如,如图1所示,存储装置32作为认证数据库存储了特性分析器20针对登记语音和登记噪音指定的各种信息。具体地说,在执行认证之前,在存储装置32中存储了由噪音分析器25指定的频率特性EN_NOISE_FC和噪音声级EN_NOISE_LEVEL、由语音分析器26指定的语言声级EN_SPEECH_LEVEL和语言长度EN_SPEECH_LEN、以及由特征分析器28指定的特征量EN_DATA。存储装置32可以是固定到语音认证设备100上的装置,也可以是可拆卸地接到语音认证设备100上的便携装置(存储器)。
认证器40是用于通过将认证语音与登记语音进行对比来确定被测者的可靠性的装置。认证器40包括差异计算器42、校正器44、以及确定器46。差异计算器42计算存储在存储装置32中的特征量EN_DATA与特征分析器28针对认证语音产生的特征量V_DATA之间的差异D0。差异计算器42使用各种图形匹配技术来计算差异D0,例如用来计算特征量EN_DATA与V_DATA的向量顺序之间的标准化差异的DP匹配。差异D0越小,认证语音与登记语音越相似(即,被测者是认可用户的可能性越大)。
校正器44是用于根据校正值A(Aa、Ab、和Ac)来校正由差异计算器42计算出的差异D0的装置。本实施例中的校正器44通过从差异D0中减去由校正值控制器50设置的每个校正值Aa、Ab、和Ac来计算校正差异D1。
确定器46通过将校正器44校正过的差异D1与阈值THO进行比较来判定被测者的可靠性。具体地讲,如果差异D1低于阈值THO(即,如果登记语音与认证语音相似),则确定器46接受被测者的可靠性,而如果差异D1高于阈值THO(即,如果登记语音不同于认证语音),则确定器46拒绝被测者的可靠性。阈值THO是预定的固定值。确定器46的判定结果通过输出单元60输出。例如,输出一个指示了认证结果的图像的显示器或者输出一个指示了认证结果的声音的音频输出装置优选地被用作输出单元60。
校正值控制器50是用来设置在由校正器44所进行的校正中所使用的校正值A(Aa、Ab、和Ac)的装置。校正值控制器50包括设置器51、52、和53。设置器51根据初始登记和认证期间特性分析器20产生的信息来设置校正值Aa。设置器52根据认证噪音的特性与登记噪音的特性之间的差异来设置校正值Ab。设置器53根据初始登记期间的语言长度EN_SPEECH_LEN来设置校正值Ac。校正值控制器50的详细操作将在下文进行描述。图1中的存储单元35存储了校正值控制器50用来设置校正值A的表。存储装置32中的指定存储区可被用作存储单元35。
<B:语音认证设置的操作>
现在将描述语音认证设备100的详细操作,其中集中描述认证期间校正值控制器50设置校正值Aa、Ab、和Ac的处理过程。校正值控制器50在每次需要认证时执行图3的处理。需要认证的时刻的示例包括:当包括了语音认证设备100的电子装置随着施加了电源而开始工作时,以及当电子装置开始一指定操作(例如,访问特定信息的操作)时。当对认证初始化时,在通过对操作单元10进行操作来发出语言开始指令之后,被测者对输入单元15说出指定单词。噪音分析器25由对操作单元10进行操作时结束的检测部分P中的声音信号S来指定频率特性V_NOISE_FC和噪音声级V_NOISE_LEVEL,并且由检测部分P之后的讲话部分P2中的声音信号S来指定语言声级V_SPEECH_LEVEL和语言长度V_SPEECH_LEN。
如图3所示,校正值控制器50计算登记语音和登记噪音之间的声级比EN_SN(步骤S10)。该声级比EN_SN是存储在存储装置32中的语言声级EN_SPEECH_LEVEL和噪音声级EN_NOI_SE_LEVEL之间的比。例如,使用公式(1)来计算声级比EN_SN。
EN_SN=Log(EN_SPEECH_LEVEL/EN_NOISE_LEVEL)……(1)
之后,校正值控制器50计算认证语音和认证噪音之间的声级比V_SN(步骤S11)。该声级比V_SN是噪音分析器25所提供的噪音声级V_NOISE_LEVEL和语音分析器26所提供的语音声级V_SPEECH_LEVEL之间的比。类似于声级比EN_SN,声级比V_SN使用公式(2)来计算。
V_SN=Log(V_SPEECH_LEVEL/V_NOISE_LEVEL)……(2)
接下来,在步骤S12,校正值控制器50计算在步骤S10计算出的初始登记中的声级比EN_SN与在步骤S11计算出的认证中的声级比V_SN之间的差DIF_SN(DIF_SN=V_SN-EN_SN)。在下面,差DIF_SN将被称作“声级比差”。校正值控制器50计算表示了登记噪音特性与认证噪音特性之间的相互关系的关系值NOISE_DIF(步骤S13)。这里,相互关系是例如登记噪音和认证噪音各自的频谱形状是否相似。例如使用公式(3)来计算关系值NOISE_DIF。
公式(3)中的值EN_MAG(i)是在多个频带中由变量i指定的一个频带中的登记噪音量,而从值EN_MAG(i)中减去的值EN_MAG_AVG是在变量i指定的频带中的登记噪音的平均量。类似的,公式(3)中的值V_MAG(i)是变量i所指定的一个频带中的认证噪音量,而从值V_MAG(i)中减去的值V_MAG_AVG是在该频带中的认证噪音的平均量。因此,如果登记噪音与认证噪音精确匹配则关系值NOISE_DIF为1,并且关系值NOI_SE_DIF随两个噪音特性间差异的增大而减小(-1≤NOISE_DIF≤1)。
之后,校正值控制器50的设置器51根据在步骤10计算的声级比EN SN和在步骤S12计算的声级比差DIF_SN来设置校正值Aa(步骤S14)。校正值Aa与声级比EN_SN和声级比差DIF_SN之间的关系用以下方式确定。
首先,考虑的是根据差异计算器42所计算的差异D0是大于还是小于阈值TH来确定被测者可靠性的情况。通过传导测试,本申请的发明人发现保持高水平的认证精确性的阈值TH满足与声级比EN_SN和声级比差DIF_SN的指定关系。具体的,如图4所示,设置阈值TH使得针对每一种情况认证精确性都能满足指定的条件(如,使得FRR和FAR每一个都低于指定水平),所述的每一情况为声级比EN_SN的值变为新的值并随后垂直轴上的阈值TH相对水平轴上的每个对应声级比EN_SN来被描绘。当描绘的点经过统计学上的处理时,它们趋于沿着声级比差DIF_SN的线来分布。例如,当声级比差DIF_SN被设置为值DIF_SN1时,满足指定条件的阈值TH随着沿具有如斜率和截距之类对应于值DIF_SN1的属性的线的声级比EN_SN而变化。另外,如图4所示,保持认证精确性在一个期望水平的阈值TH随声级比EN_SN或声级比差DIF_SN(DIF_SN1>DIF_SN2>DIF_SN3)的增加而增加。
因此,如果针对在步骤S10计算的声级比EN_SN来设置阈值TH以使阈值TH和声级比EN_SN满足对应于在步骤S12计算出的声级比差DIF_SN的直线关系,则可将认证保持在一个期望的精确度水平。例如,在声级比EN_SN被计算为图4中的值SNa的情况下,如果声级比差DIF_SN为DIF_SN1,则将阈值TH设置为THa,而如果声级比差DIF_SN为DIF_SN2,则将阈值TH设置为THb。
由于在认证期间确定了所述差异是大于还是小于阈值,所以用于通过指定值来改变要与差异D0进行比较的阈值TH的处理等同于用于在阈值TH固定为THO时通过指定值Aa来校正差异D0的处理。因此,本实施例的设置器51将预定阈值THO与阈值TH之间的差异设置为校正值Aa,所述阈值TH满足对应于声级比差DIF_SN的直线与声级比EN_SN的关系。即,例如当在步骤S10把声级比EN_SN计算为值SNa时,如图4所示,如果声级比差DIF_SN在步骤S12被计算为DIF_SN1,则阈值THO与值THa之间的差a1被设置为校正值Aa,并且如果声级比差DIF_SN在步骤S12被计算为DIF_SN2,则阈值THO与值THb之间的差a2被设置为校正值Aa。通过用差异D0减去以此方式设置的校正值Aa而计算出的差异D1在确定器46处被与阈值THO进行比较,从而将本实施例的认证保持在期望的精确性水平。
具体的,本实施例的设置器51根据所创建的用来满足上述条件的表来从声级比EN_SN和声级比差DIF_SN确定校正值Aa。图5是示出步骤S14所使用的表的内容的概念图。如图5所示,对应于不同声级比差DIF_SN(DIF_SN1、DIF_SN2、DIF_SN3...)的多个表被存储在存储单元35中。在每个表中,每个声级比EN_SN与满足图4中与声级比EN_SN的关系相对应的校正值Aa相关。即,在对应于声级比差DIF_SN的表中,每个声级比EN_SN与相应校正值Aa相关,从而通过将校正值Aa加到阈值THO而获得的阈值TH具有对应于声级比差DIF_SN的直线与声级比EN_SN的关系。
在步骤S14,设置器51搜索对应于在步骤S12计算出的声级比差DIF_SN的表,并且输出与在步骤S10计算出的声级比EN_SN对应的校正值Aa,该校正值Aa包括在对校正器44恢复的表中。如果不存在对应于在步骤S12计算出的声级比差DIF_SN的表,则设置器51根据来自于与所计算的声级比差DIF_SN之前和之后的声级比差DIF_SN相对应的表中的声级比EN_SN来指定校正值Aa,并且通过在指定校正值Aa之间进行插值来计算要被实际应用于校正器44的校正的校正值Aa。因此,例如,如果声级比差DIF_SN在步骤S12被计算为是值DIF_SN1和值DIF_SN2的平均值,则将校正值Aa计算为是对应于值DIF_SN1的校正值Aa(值a1)与对应于值DIF_SN2的校正值Aa(值a2)的平均值。
然而,例如假定了登记噪音的特性与认证噪音的特性是一致的,则阈值TH与声级比EN_SN和声级比差DIF_SN之间的关系是确定的。然而在许多情况下,登记噪音的特性是不同于认证噪音的特性的。因此,设置器52计算出一个校正值Ab来根据登记噪音与认证噪音间的关系值NOISE_DIF对差异D0进行校正(步骤S15)。校正器44从差异D0中减去校正值Ab。
图6是示出关系值NOISE_DIF与校正值Ab间关系的曲线图。由公式(3)计算出的关系值NOISE_DIF根据登记噪音和认证噪音间的相互关系而在从“-1”到“1”的范围内变化。当两个噪音的特性完全一致时关系值NOISE_DIF为“1”。如果当登记噪音与认证噪音间的关系与图4中的那些关系被确定了时的关系等同时(如果在本实施例中两个噪音一致),则无需根据关系值NOISE_DIF来校正差异D0。当登记噪音与认证噪音间的关系与图4中的那些关系被确定了时的关系越不相同时,必须对差异D0进行越大程度的校正。因此,设置器52在关系值NOI_SE_DIF为“1”时将校正值Ab设置为0(即,不校正差异D0),并随着关系值NOI_SE_DIF减小到小于“1”而将校正值Ab设置为越来越大。具体的说,存储单元35存储了一个表,在该表中,每一个关系值NOISE_DIF都与满足与关系值NOISE_DIF的这种关系的对应校正值Aa相关联,并且设置器52根据该表来确定校正值Ab。
另外,例如基于当在特定持续时间(时间长度)L0连续说出登记语音时收集到的数据,图4中示出的阈值TH与声级比EN_SN和声级比差DIF_SN之间的关系是确定的。然而,实际初始登记中登记语音的语言长度EN_SPEECH_LEN是不同的。因此,设置器53根据该语言长度EN_SPEECH_LEN计算一个校正值Ac来校正差异D0(步骤S16)。校正器44从差异D0中减去校正值Ac。
图7是示出语言长度EN_SPEECH_LEN与校正值Ac之间关系的曲线图。如果当图4的关系被确定了时语言长度EN_SPEECH_LEN与时间段L0一致,则无需根据语言长度EN_SPEECH_LEN来校正差异D0。因此,如果存储在存储单元32中的语言长度EN_SPEECH_LEN与时间段L0一致,则设置器53将校正值Ac设置为“0”。随着语言长度EN_SPEECH_LEN的增加,登记语音的语言更加稳定,从而特征量EN_DATA更可靠地反映认可用户的固有基本特性,因此增加了差异D0的精确度。因此,即使为了减少对陌生人的认证被接受的可能性来与差异D0相关地降低了阈值THO,也不会太过增加拒绝认可用户的可能性。
因此,如果语言长度EN_SPEECH_LEN大于时间段L0,则设置器53根据语言长度EN_SPEECH_LEN选择一个负值作为校正值Ac。由于校正器44从差异D0中减去了校正值Ac,所以如果校正值Ac为负值则校正差异D1大于差异D0。也就是说,由于与差异D0相关地减小了阈值THO,从而对陌生人的认证被错误接受的可能性减小了。相反,如果语言长度EN_SPEECH_LEN小于时间段L0,则设置器53根据语言长度EN_SPEECH_LEN选择一个正值作为校正值Ac。设置器53例如根据其中每个语言长度EN_SPEECH_LEN都与对应校正值Ac相关的表来确定校正值Ac。
如上所述,在本实施例中,由于根据认证噪音与认证语音(V_SN)之间的关系或者登记噪音与登记语音(EN_SN)之间的关系来校正了差异D0,因此可以将认证保持在期望的精确度水平,而不用考虑认证噪音的特性或登记噪音的特性。也就是说,可以实现方便性的增加(FRR的减少)和认证精确性的增加(FAR的减少),而不受认证噪音或登记噪音的影响。
特别是在本实施例中,根据阈值TH与满足期望条件的声级比EN_SN具有对应于声级比差DIF_SN的线性关系的知识来调整校正值Aa。因此,本实施例的优点在于可以指定高精确性的理想校正值Aa,同时充分减少设置校正值Aa所需的变量数目。由于根据关系值NOISE_DIF或语言长度EN_SPEECH_LEN校正了差异D0,所以还可以通过全面考虑语音认证设备100在初始登记或认证中的环境来实现高精确度的认证。
<C:改进实施例>
可以通过各种方式来修改上述实施例。以下说明了特定修改的实施例。以下改进实施例的组合也是可行的。
(1)改进实施例1
尽管上述实施例中描述的构造使用了存储在存储单元35中的表,通过使用预定等式的计算处理来计算校正值A(Aa、Ab、和Ac)的配置也是可能的。例如,存储单元35存储多个公式来分别表示依照声级比差(DIF_SN)的直线(即,图4的直线,每一个都定义了声级比EN_SN与阈值TH之间的关系),并且设置器51通过将步骤S10中计算出的声级比EN_SN带入对应于步骤S12中计算出的声级比差DIF_SN的等式来计算阈值TH,并且通过从计算出的阈值TH中减去阈值THO来计算校正值Aa。该实例还利用了这样的构造,其中设置器52根据表示了关系值NOISE_DIF与校正值Ab间关系的等式来计算校正值Ab,或者其中设置器53根据表示了语言长度EN_SPEECH_LEN与校正值Ac间关系的等式来计算校正值Ac。
(2)改进实施例2
确定差异D0的校正范围的变量并不限于关系值NOI_SE_DIF和语言长度EN_SPEECH_LEN。例如,可以取代根据语言长度EN_SPEECH_LEN设置校正值Ab的配置或者结合该配置来使用这样一种配置,即根据认证语音的语言长度V_SPEECH_LEN来计算校正值Ab,或者根据语言长度EN_SPEECH_LEN和语言长度V_SPEECH_LEN的平均值来计算校正值Ab。例如,设置校正值Ab从而使校正差异D1随语言长度V_SPEECN_LEN的增加而增加,类似于校正值Ab与语言长度EN_SPEECH_LEN间的关系。
还使用了这样的配置,即校正值控制器50根据上述变量以外的其他变量来确定每个校正值。例如,可以根据登记语音或认证语音(在说话部分P2中)中所包括的语音声音和非语音声音的持续时间之间的比来设置每个校正值。随着语音声音的比例增加,特征量EN_DATA和V_DATA的值更可靠地反映了讲话者的特性,从而增加了差异D0的精确度。因此,即使差异D1比差异D0有所增加也不会使FRR过度地增加。所以,使用了这样的配置,即设置每个校正值以使差异D1随登记语音或认证语音中语音声音的比例增加而增加。另外,使用这样的配置,即设置每个校正值以使差异D1随登记语音或认证语音的音节数目的增加而增加,这是因为差异D0的精确度是随着登记语音或认证语音的音节数目的增加而增加的。
(3)改进实施例3
还使用了其中的变量与校正值间的关系可变的配置。例如,可以提供这样的配置,其中通过对依照操作单元10的操作的表进行更新来改变校正值Aa与声级比EN_SN或声级比差DIF_SN的关系。类似地,可以根据对操作单元10的操作来修改对应于关系值NOISE_DIF的校正值Ab或对应于语言长度EN_SPEECH_LEN的校正值Ac。这些配置可以按照用户的期望来实现认证。在其中的校正值A(Aa、Ab、和Ac)是通过改进实施例1中说明的等式的计算而被算出的配置中,可以根据对操作单元10的操作来修改每个等式的内容(例如,变量的系数)。
(4)改进实施例4
虽然在上述实施例中说明的配置在认证中使用了差异D0(校正差异D1),但是指示了登记语音与认证语音间相似度的值并不限于差异D0。例如,可以使用这样的配置,其根据各种变量(即,任何指标值)来执行认证,所述变量的值随着登记语音与认证语音的特性彼此接近而增大。在此配置中,根据每个变量的校正值A(Aa、Ab、和Ac)中的增大和减小与上述实施例相比是相反的。例如,与图4的配置相反,该配置中的校正值Aa随声级比EN_SN的增大而减小。
(5)改进实施例5
虽然在上述实施例中所说明的配置中三种校正值Aa、Ab、和Ac被各自输出到校正器44,但是也可以使用其中的校正值控制器50将校正值Aa、Ab、和Ac的总和输出到校正器44这样的配置。此外,可以对用来校正差异D0的校正器44的计算操作进行适当的修改。例如,使用了这样的配置,其中校正器44将每个校正值A(Aa、Ab、和Ac)加到差异D0或者用差异D0乘每个校正值A(Aa、Ab、和Ac)。在其中通过将每个校正值A加到差异D0而计算出差异D1的配置中,每个校正值A的符号与图1的配置相反。
(6)改进实施例6
虽然上述实施例中所说明的配置计算了预定阈值THO与随声级比EN_SN线性变化的变量(阈值)TH之间的差来作为校正值Aa,声级比EN_SN与阈值TH之间的关系也可以做适当的改变。例如,本实施例使用了这样的配置,其中根据声级比EN_SN和声级比差DIF_SN来指定了阈值TH以使声级比EN_SN与阈值TH满足对应于声级比差DIF_SN的曲线的关系(即,以使阈值TH沿对应于声级比差DIF_SN的曲线而随声级比EN_SN改变),并且其中阈值TH与阈值THO之间的差被确定为校正值Aa。根据认证噪音来设置阈值TH以使阈值TH与声级比EN_SN具有不同关系(典型地,根据声级比差DIF_SN的直线或曲线关系)就足够了。适当改变声级比EN_SN与对应于一个声级比差DIF_SN的阈值TH之间的特定关系,例如根据测试结果得出这些变量间的关系,或者根据测试结果的统计学处理结果。因此,本发明优选实施例中的校正值Aa将被确定为预定阈值THO与阈值TH间的差,其中阈值TH满足根据认证噪音与声级比EN_SN的关系。
(7)改进实施例7
虽然在上述实施例中说明了语音认证设备100被用于在认可用户和陌生人之间作出分辨的情况,但是根据上述实施例的语音认证设备100也可被用于语音口令认证,该语音口令认证判定认证语音所指定的口令是否与基于认可用户的语言而提前登记的口令相符。
Claims (6)
1.一种语音认证设备,包括:
特性分析装置,其对在被测者产生用于被测者认证的采样语音时在所述被测者周围所产生的采样噪音的特性进行分析;
第一设置装置,其根据由所述特性分析装置分析的所述采样噪音的特性来设置第一校正值;
校正装置,其根据所述第一设置装置设置的第一校正值来校正指标值,所述指标值指示了已提前登记的基准语音的特征量与从被测者获得的采样语音的特征量之间的相似程度;以及
确定器,其通过对所述校正装置校正过的指标值与预定阈值进行比较来确定对所述被测者的认证,
其中,所述第一设置装置根据采样噪音的特性以及基准语音与登记基准语音期间产生的基准噪音之间的声级比二者来设置所述第一校正值,以使得所述第一校正值被设置为预定阈值与一个变量之间的差,所述变量是结合采样噪音的特性以及基准语音与基准噪音之间的声级比二者而确定的。
2.如权利要求1所述的语音认证设备,其中所述第一设置装置将所述第一校正值设置为所述预定阈值与随着基准语音与基准噪音之间的声级比而沿着对应于采样噪音特性的直线或曲线变化的变量之间的差。
3.如权利要求1或2所述的语音认证设备,其中所述第一设置装置根据基准语音与基准噪音之间的声级比和采样噪音的特性二者来设置第一校正值,给出所述第一校正值来作为基准语音和基准噪音间的声级比与采样语音和采样噪音间的声级比这两个声级比之间的声级比差。
4.如权利要求1所述的语音认证设备,进一步包括第二设置装置,其根据采样噪音和基准噪音之间的差来设置第二校正值,
其中所述校正装置根据所述第一校正值和第二校正值来校正指标值。
5.如权利要求1所述的语音认证设备,进一步包括第三设置装置,其根据采样语音或基准语音的持续时间来设置第三校正值,
其中所述校正装置根据所述第一校正值和第三校正值来校正指标值。
6.一种语音认证方法,包括步骤:
分析采样噪音的特性,该采样噪音是在被测者产生用于对被测者进行认证的采样语音时在该被测者周围产生的;
根据分析出的采样噪音的特性来设置校正值;
根据所设置的校正值来校正指标值,该指标值指示了提前登记的基准语音的特征量与从被测者获得的采样语音的特征量之间的相似程度;以及
通过对校正过的指标值与预定阈值进行比较来确定被测者的可靠性,
其中,根据采样噪音的特性以及基准语音与登记基准语音期间产生的基准噪音之间的声级比二者来设置所述校正值,以使得所述校正值被设置为预定阈值与一个变量之间的差,所述变量是结合采样噪音的特性以及基准语音与基准噪音之间的声级比二者而确定的。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006249160 | 2006-09-14 | ||
JP2006-249160 | 2006-09-14 | ||
JP2006249160A JP5151102B2 (ja) | 2006-09-14 | 2006-09-14 | 音声認証装置、音声認証方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101145342A CN101145342A (zh) | 2008-03-19 |
CN101145342B true CN101145342B (zh) | 2011-01-19 |
Family
ID=38830359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007101541029A Expired - Fee Related CN101145342B (zh) | 2006-09-14 | 2007-09-12 | 语音认证设备 |
Country Status (8)
Country | Link |
---|---|
US (1) | US8694314B2 (zh) |
EP (1) | EP1901285B1 (zh) |
JP (1) | JP5151102B2 (zh) |
KR (1) | KR100929958B1 (zh) |
CN (1) | CN101145342B (zh) |
AT (1) | ATE441176T1 (zh) |
DE (1) | DE602007002132D1 (zh) |
TW (1) | TWI342008B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8849199B2 (en) * | 2010-11-30 | 2014-09-30 | Cox Communications, Inc. | Systems and methods for customizing broadband content based upon passive presence detection of users |
US9372979B2 (en) * | 2011-01-07 | 2016-06-21 | Geoff Klein | Methods, devices, and systems for unobtrusive mobile device user recognition |
JP5782810B2 (ja) * | 2011-04-22 | 2015-09-24 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
US8949958B1 (en) * | 2011-08-25 | 2015-02-03 | Amazon Technologies, Inc. | Authentication using media fingerprinting |
WO2015085237A1 (en) * | 2013-12-06 | 2015-06-11 | Adt Us Holdings, Inc. | Voice activated application for mobile devices |
US20160302210A1 (en) * | 2015-04-10 | 2016-10-13 | Enovate Medical, Llc | Communication hub and repeaters |
US9734682B2 (en) | 2015-03-02 | 2017-08-15 | Enovate Medical, Llc | Asset management using an asset tag device |
US10614813B2 (en) * | 2016-11-04 | 2020-04-07 | Intellisist, Inc. | System and method for performing caller identity verification using multi-step voice analysis |
US10579814B2 (en) * | 2017-10-30 | 2020-03-03 | International Business Machines Corporation | Monitoring and preventing unauthorized data access |
KR20200066149A (ko) * | 2018-11-30 | 2020-06-09 | 삼성전자주식회사 | 사용자 인증 방법 및 장치 |
CN109636937A (zh) * | 2018-12-18 | 2019-04-16 | 深圳市沃特沃德股份有限公司 | 语音考勤方法、装置及终端设备 |
JPWO2022249801A1 (zh) | 2021-05-28 | 2022-12-01 | ||
WO2023182014A1 (ja) * | 2022-03-22 | 2023-09-28 | パナソニックIpマネジメント株式会社 | 音声認証装置および音声認証方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1662956A (zh) * | 2002-06-19 | 2005-08-31 | 皇家飞利浦电子股份有限公司 | 大量说话人识别(id)系统及其相应方法 |
EP1210711B1 (en) * | 1999-08-30 | 2005-10-26 | Harman Becker Automotive Systems-Wavemakers, Inc. | Sound source classification |
CN1719516A (zh) * | 2005-07-15 | 2006-01-11 | 北京中星微电子有限公司 | 自适应滤波装置以及自适应滤波方法 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6006175A (en) * | 1996-02-06 | 1999-12-21 | The Regents Of The University Of California | Methods and apparatus for non-acoustic speech characterization and recognition |
JPH1055194A (ja) * | 1996-08-08 | 1998-02-24 | Sanyo Electric Co Ltd | 音声制御装置と音声制御方法 |
US6466906B2 (en) * | 1999-01-06 | 2002-10-15 | Dspc Technologies Ltd. | Noise padding and normalization in dynamic time warping |
GB2349259B (en) * | 1999-04-23 | 2003-11-12 | Canon Kk | Speech processing apparatus and method |
JP2001021309A (ja) | 1999-07-12 | 2001-01-26 | Toshiba Tec Corp | 個体認証方法及び個人認証方法 |
KR100435411B1 (ko) | 1999-10-12 | 2004-06-10 | 홋가이도 다이가쿠쵸가 다이효수루 니혼고쿠 | 무선 수신 시스템 |
TW521266B (en) | 2000-07-13 | 2003-02-21 | Verbaltek Inc | Perceptual phonetic feature speech recognition system and method |
JP2002236665A (ja) * | 2001-02-09 | 2002-08-23 | Matsushita Electric Ind Co Ltd | 個人認証装置 |
US7277853B1 (en) * | 2001-03-02 | 2007-10-02 | Mindspeed Technologies, Inc. | System and method for a endpoint detection of speech for improved speech recognition in noisy environments |
US20030033143A1 (en) * | 2001-08-13 | 2003-02-13 | Hagai Aronowitz | Decreasing noise sensitivity in speech processing under adverse conditions |
JP2003248661A (ja) | 2002-02-25 | 2003-09-05 | Sony Corp | 認証処理装置および認証処理方法、情報処理装置および情報処理方法、認証処理システム、記録媒体、並びにプログラム |
JP2003308091A (ja) * | 2002-04-17 | 2003-10-31 | Pioneer Electronic Corp | 音声認識装置、音声認識方法および音声認識プログラム |
JP4212825B2 (ja) * | 2002-04-19 | 2009-01-21 | 株式会社アプコット | 個人認証方法とその装置、及び個人認証システム |
CN1453767A (zh) * | 2002-04-26 | 2003-11-05 | 日本先锋公司 | 语音识别装置以及语音识别方法 |
TWI225640B (en) | 2002-06-28 | 2004-12-21 | Samsung Electronics Co Ltd | Voice recognition device, observation probability calculating device, complex fast fourier transform calculation device and method, cache device, and method of controlling the cache device |
JP3926242B2 (ja) * | 2002-09-19 | 2007-06-06 | 富士通株式会社 | 音声対話システム、音声対話のためのプログラムおよび音声対話方法 |
US20040186724A1 (en) * | 2003-03-19 | 2004-09-23 | Philippe Morin | Hands-free speaker verification system relying on efficient management of accuracy risk and user convenience |
JP2004325897A (ja) | 2003-04-25 | 2004-11-18 | Pioneer Electronic Corp | 音声認識装置及び音声認識方法 |
CN1802694A (zh) * | 2003-05-08 | 2006-07-12 | 语音信号科技公司 | 信噪比中介的语音识别算法 |
JP4548646B2 (ja) * | 2003-09-12 | 2010-09-22 | 株式会社エヌ・ティ・ティ・ドコモ | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム |
TWI242729B (en) | 2004-01-16 | 2005-11-01 | Micro Star Int Co Ltd | Speech database establishment and recognition method and system thereof |
US8340309B2 (en) * | 2004-08-06 | 2012-12-25 | Aliphcom, Inc. | Noise suppressing multi-microphone headset |
TWI269268B (en) | 2005-01-24 | 2006-12-21 | Delta Electronics Inc | Speech recognizing method and system |
JP4670483B2 (ja) * | 2005-05-31 | 2011-04-13 | 日本電気株式会社 | 雑音抑圧の方法及び装置 |
EP1843325B1 (en) * | 2006-04-03 | 2009-11-18 | Voice.Trust Ag | Speaker authentication in digital communication networks |
-
2006
- 2006-09-14 JP JP2006249160A patent/JP5151102B2/ja not_active Expired - Fee Related
-
2007
- 2007-08-23 TW TW096131267A patent/TWI342008B/zh not_active IP Right Cessation
- 2007-09-04 DE DE602007002132T patent/DE602007002132D1/de active Active
- 2007-09-04 AT AT07115597T patent/ATE441176T1/de not_active IP Right Cessation
- 2007-09-04 EP EP07115597A patent/EP1901285B1/en not_active Not-in-force
- 2007-09-05 US US11/850,365 patent/US8694314B2/en active Active
- 2007-09-12 CN CN2007101541029A patent/CN101145342B/zh not_active Expired - Fee Related
- 2007-09-13 KR KR1020070093249A patent/KR100929958B1/ko not_active IP Right Cessation
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1210711B1 (en) * | 1999-08-30 | 2005-10-26 | Harman Becker Automotive Systems-Wavemakers, Inc. | Sound source classification |
CN1662956A (zh) * | 2002-06-19 | 2005-08-31 | 皇家飞利浦电子股份有限公司 | 大量说话人识别(id)系统及其相应方法 |
CN1719516A (zh) * | 2005-07-15 | 2006-01-11 | 北京中星微电子有限公司 | 自适应滤波装置以及自适应滤波方法 |
Also Published As
Publication number | Publication date |
---|---|
US20080071535A1 (en) | 2008-03-20 |
JP5151102B2 (ja) | 2013-02-27 |
KR20080025018A (ko) | 2008-03-19 |
EP1901285A3 (en) | 2008-09-03 |
DE602007002132D1 (de) | 2009-10-08 |
KR100929958B1 (ko) | 2009-12-04 |
JP2008070596A (ja) | 2008-03-27 |
EP1901285A2 (en) | 2008-03-19 |
EP1901285B1 (en) | 2009-08-26 |
US8694314B2 (en) | 2014-04-08 |
CN101145342A (zh) | 2008-03-19 |
TW200828267A (en) | 2008-07-01 |
TWI342008B (en) | 2011-05-11 |
ATE441176T1 (de) | 2009-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101145342B (zh) | 语音认证设备 | |
Jelil et al. | Spoof Detection Using Source, Instantaneous Frequency and Cepstral Features. | |
US7877254B2 (en) | Method and apparatus for enrollment and verification of speaker authentication | |
US7133826B2 (en) | Method and apparatus using spectral addition for speaker recognition | |
US20120173239A1 (en) | Method for verifying the identityof a speaker, system therefore and computer readable medium | |
US20230402048A1 (en) | Method and Apparatus for Detecting Correctness of Pitch Period | |
JP2969862B2 (ja) | 音声認識装置 | |
JP2006235243A (ja) | 音響信号分析装置及び音響信号分析プログラム | |
US7012186B2 (en) | 2-phase pitch detection method and apparatus | |
JP5151103B2 (ja) | 音声認証装置、音声認証方法およびプログラム | |
Ye et al. | Detection of replay attack based on normalized constant q cepstral feature | |
JP3311467B2 (ja) | 音声認識システム | |
Brent | Perceptually based pitch scales in cepstral techniques for percussive timbre identification | |
Veesa et al. | Implicit processing of linear prediction residual for replay attack detection | |
Thakur et al. | Speaker Authentication Using GMM-UBM | |
Pattanayak et al. | Significance of single frequency filter for the development of children's KWS system. | |
WO2023083471A1 (en) | Method and apparatus for voice spoofing detection in noisy environment | |
WO2004015552A2 (en) | Method of authentication | |
KR20100073165A (ko) | 음성/음악 판별장치 및 방법 | |
Zamalloa et al. | Increasing robustness to training-test mismatch in speaker verification through shallow source modelling | |
JP2006285868A (ja) | 電子ビジネスの取引方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110119 Termination date: 20160912 |
|
CF01 | Termination of patent right due to non-payment of annual fee |