CN112735437A - 一种声纹比对方法及系统及装置及存储机构 - Google Patents
一种声纹比对方法及系统及装置及存储机构 Download PDFInfo
- Publication number
- CN112735437A CN112735437A CN202011473077.2A CN202011473077A CN112735437A CN 112735437 A CN112735437 A CN 112735437A CN 202011473077 A CN202011473077 A CN 202011473077A CN 112735437 A CN112735437 A CN 112735437A
- Authority
- CN
- China
- Prior art keywords
- voiceprint
- voice
- model
- database
- comparison
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012795 verification Methods 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 12
- 238000012546 transfer Methods 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 description 3
- 238000013499 data model Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种声纹比对方法,其通过将验证语音的声纹模型与声纹数据底库中的模型进行大量比对,结合确定的使用精度获取动态阈值,进而根据动态阈值判断验证语音和注册语音的声纹模型是否一致。本发明还公开了基于该方法的系统、装置及存储机构。由于声纹数据底库中的模型来源广泛,并且使用的场景与验证语音的声纹模型较为一致,从而根据声纹数据底库中的模型进行调整阈值,可以有效的避免不同场景、不同噪声及不同人等因素对阈值带来的波动影响,从而可以有效的提供识别精度。
Description
技术领域
本发明涉及声纹识别领域,尤其涉及一种声纹比对方法及系统及装置及存储机构。
背景技术
目前声纹比对中,会根据所需的精度设置阈值,当两个声纹模型比对大于阈值认为两者声纹一致否则声纹不一致。具体及计算方式是,给出一定数量的负对打分和正对打分,然后根据需求的far(错误接受率)求出对应的阈值及frr;far:负对(两个声纹不同属于一个人)打分高于阈值的数量除以负对数量,frr:正对(两者声纹属于同一个人)打分低于阈值的数量除以正对的数量。常见的相似度计算方法有cosine及plda计算。例如现有技术中的比对过程如下:1、确认使用的精度far,根据预先的测试数据确认固定阈值t;2、提取注册语音的声纹模型a;3、提取验证语音的声纹模型b;计算模型a和模型b的打分s,s大于t,则认为模型a和模型b一致,否则不一致。
采用上述方法后,由于实际场景中,对于不同场景,不同噪声,不同人等因素影响,其相同far下的阈值是不一样的,会有波动,而阈值的波动往往会对识别精度造成较大影响。
发明内容
本发明要解决的技术问题是如何提高声纹识别精度,针对上述要解决的技术问题,现提出一种声纹比对方法及系统及装置及存储机构。
为实现上述目的,本发明提供如下技术方案:一种声纹比对方法,其通过如下步骤实现声纹的比对:
S01,创建声纹数据底库;
S02,确定使用的精度far;
S03,提取注册语音的声纹模型a和验证语音的声纹模型b;
S04,将验证语音的声纹模型b与声纹数据底库中的n个模型分别进行比对并得出每个选择的声纹数据底库中的模型与验证语音的声纹模型b的比对分值;
S05,将声纹数据底库中的n个模型分别与验证语音的声纹模型b的比对分值s按照从大到小排序并编号,将精度far与n的乘积N作为新确定的阈值的编号,即新确定的阈值t=sN;若N为非整数则新确定的阈值t为与N的绝对差值最小的两个编号所对应的分值的平均数。
S06,将注册语音的声纹模型a和验证语音的声纹模型b进行比对并计算出比对分值s0;
S07,若s0大于t,则注册语音的声纹模型a和验证语音的声纹模型b一致,否则注册语音的声纹模型a和验证语音的声纹模型b不一致。
进一步的,选取的声纹数据底库中的模型个数n不小于1/far。
进一步的,选取的声纹数据底库中的n个模型的来源各不相同,所述n个模型的应用场景相同。
进一步的,所述步骤S04和S06中的比对分值计算方法为cosine计算方法或plda计算方法。
本发明的另一个目的是提供一种声纹比对系统,包括数据库、声纹获取模块、比对模块、处理模块和判断模块;
所述数据库用于存储声纹数据作为声纹数据底库;
所述声纹获取模块用于获取注册语音的声纹模型和验证语音的声纹模型;
所述比对模块用于计算比对注册语音的声纹模型和验证语音的声纹模型的相似值及选取的声纹数据底库中的模型与验证语音的声纹模型的相似值;
所述处理模块用于根据选取的声纹数据底库中的模型与验证语音的声纹模型的相似值及用户设定的精度计算确定动态阈值;所述处理模块包括分别用于调用数据库、声纹获取模块、比对模块和判断模块的调用单元;
所述判断模块用于根据计算得到的注册语音的声纹模型和验证语音的声纹模型的相似值及处理模块得到动态阈值判断注册语音的声纹模型和验证语音的声纹模型是否一致。
进一步的,该系统还可以包括一通信模块,所述通信模块用于数据库与处理模块之间的数据传输。
本发明的再一个目的是提供一种声纹比对装置,其包括一处理机构和一存储机构,所述存储机构用于存储声纹数据底库、注册语音的声纹模型、验证语音的声纹模型和按照如前所述的方法的处理机构运行程序,所述处理机构用于运行存储机构中存储的运行程序实现如前所述的方法。
本发明的再一个目的是提供一种存储机构,所述存储机构上存储有计算机运行程序,当所述计算机运行程序被运行时,实现如前所述的方法。
与现有技术相比,本发明的有益效果是:
本发明通过采用底库声纹模型与验证语音声纹模型按照精度进行比对调整动态阀值,从而有效的避免了不同场景、不同噪声及不同人等因素对阈值带来的波动影响,从而可以有效的提供识别精度。
附图说明
图1为本发明的方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本具体实施方式披露了一种声纹比对方法,其通过如下步骤实现声纹的比对:
S01,创建声纹数据底库,可行的,该声纹数据底库可以是创建的,也可以是来自云数据库的收集。为了增加声纹数据底库的多样性,声纹数据底库中的数据来源可以尽可能广泛,选取的样本要尽可能不同,可以从人声的年龄、性别、口音、场景、噪音等各个方法加以扩大样本范围。声纹数据底库可以不是专门为本方法而制作的数据库,并且数据的获取可以通过通信的手段实现。
S02,确定使用的精度far,需要的精度由用户根据具体需要确定,例如千分之五、千分之10等精度,在具体应用时,在具体设备中,可以提供选择项给用户选择。
S03,提取注册语音的声纹模型a和验证语音的声纹模型b。注册语音的声纹模型a是根据用户注册时用存储的用作识别的标准声纹模型,声纹模型的获取可以是通过录音、频谱化和解析等过程形成,当然也可以是其他方法,其不作为本发明的创新点,在本具体实施方式中不作罗列。验证语音的声纹模型b是用户进行识别时录入的语音生成的声纹模型,用作本次识别的声纹模型。
S04,将验证语音的声纹模型b与声纹数据底库中的n个模型分别进行比对并得出每个选择的声纹数据底库中的模型与验证语音的声纹模型b的比对分值,可行的,选取的声纹数据底库中的模型个数n不小于1/far,并且选择的模型所应用的场景应当尽量一致,例如可以大致都是应用于门禁的或应用于智能声控的等等。在具体应用中,例如可以采用精度为千分之五,选择的底库模型个数为10000,其中,验证语音的声纹模型b与声纹数据底库中的n个模型分别进行比对的相似度计算方法与现有技术中的比对方法相同,例如可以采用cosine计算方法或plda计算方法。
S05,将声纹数据底库中的n个模型分别与验证语音的声纹模型b的比对分值s按照从大到小排序并编号,将精度far与n的乘积N作为新确定的阈值的编号,即新确定的阈值t=sN;若N为非整数则新确定的阈值t为与N的绝对差值最小的两个编号所对应的分值的平均数。例如,选择底库模型个数为10000,则将10000个底库模型与验证语音的声纹模型b的比对分值从大到小排序依次为s1、s2、s3……s10000,例如精度选择千分之五,则t=s50,若n与far的乘积为非整数,例如50.6,则t=(s50+s51)/2。
S06,将注册语音的声纹模型a和验证语音的声纹模型b进行比对并计算出比对分值s0;可行的,其中注册语音的声纹模型a可以是存储在识别设备上的,验证语音的声纹模型b则可以是识别设备通过声音获取设备进行实时获取的。而注册语音的声纹模型和验证语音的声纹模型均可以通过频谱化等处理过程由声音转换为模型数据。该过程中比对分值计算方法也可以采用cosine计算方法或plda计算方法。
S07,若s0大于t,则注册语音的声纹模型a和验证语音的声纹模型b一致,否则注册语音的声纹模型a和验证语音的声纹模型b不一致。
采用底库声纹模型与验证语音声纹模型按照精度进行比对调整动态阀值,从而有效的避免了不同场景、不同噪声及不同人等因素对阈值带来的波动影响,从而可以有效的提供识别精度。
实施例2
本具体实施例披露了一种声纹比对系统,其实现如实施例1中的方法,其包括数据库、声纹获取模块、比对模块、处理模块和判断模块;
具体的,数据库用于存储声纹数据作为声纹数据底库,优选的,该数据库可以是通过通信的方式与用于识别的终端设备进行互联,从而在识别时终端可以读取数据库内的数据。数据库可以是设置在服务器内的数据库,也可以是基于云存储方式的云数据库,其可以是现有的可获取的声纹数据库,也可以是专为某个场景所收集的声纹数据模型库。
所述声纹获取模块用于获取注册语音的声纹模型和验证语音的声纹模型;可行的,声纹获取模块可以包括一录音设备和数据调用设备,录音设备用于录制注册语音和验证语音并传输给处理器进行频谱化过程处理生成声纹数据模型并存储到存储设备中。而数据调用设备则通过数据接口进行获取数据,也可以通过数据接口连接通信设备调用远程数据中的数据。
所述比对模块用于计算比对注册语音的声纹模型和验证语音的声纹模型的相似值及选取的声纹数据底库中的模型与验证语音的声纹模型的相似值,具体的,比对模块可以是通过处理设备进行计算的算法。处理设备调用相对应的数据中,按照实施例1中的方法设定的算法程序进行计算得到相似值。
所述处理模块用于根据选取的声纹数据底库中的模型与验证语音的声纹模型的相似值及用户设定的精度计算确定动态阈值;所述处理模块包括分别用于调用数据库、声纹获取模块、比对模块和判断模块的调用单元。可行的,该处理模块可以是处理器的一部分,例如一计算机,该计算机中还包括对声音处理为声纹模型的程序,程序存储在存储设备中,根据调用进行计算并输出结果。动态阈值的计算方法按照实施例1中的方法进行。
所述判断模块用于根据计算得到的注册语音的声纹模型和验证语音的声纹模型的相似值及处理模块得到动态阈值判断注册语音的声纹模型和验证语音的声纹模型是否一致。该判断模块也可以是集成在计算机内的程序,也可以通过虚拟内存进行缓存数据进行判断比对,从而加快速度,该判断模块的判断逻辑算法按照实施例1中的方法进行运行判定。
此外,该系统还可以包括一通信模块,所述通信模块用于数据库与处理模块之间的数据传输。该通信模块可以是基于通信接口的有线通信模块也可以基于无线传输的无线通信模块,例如5G通信模块等。
上述系统可以应用到具体的识别设备中,这种识别设备,最简要的结构应当包括一处理机构和一存储机构,所述存储机构用于存储声纹数据底库、注册语音的声纹模型、验证语音的声纹模型和按照实施例1中的方法的处理机构运行程序,所述处理机构用于运行存储机构中存储的运行程序实现如前所述的方法。该识别设备可以是例如打卡机、门禁设备、智能控制设备等基于微型计算机的语音识别控制设备,所列单并不局限于上述应用。
可行的,上述存储机构上存储有计算机运行程序,当所述计算机运行程序被运行时,实现如实施例1的方法。可行的,存储机构的形式不限于固态硬盘、机械硬盘、虚拟内存或云存储结构等。
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。
Claims (8)
1.一种声纹比对方法,其特征在于,通过如下步骤实现声纹的比对:
S01,创建声纹数据底库;
S02,确定使用的精度far;
S03,提取注册语音的声纹模型a和验证语音的声纹模型b;
S04,将验证语音的声纹模型b与声纹数据底库中的n个模型分别进行比对并得出每个选择的声纹数据底库中的模型与验证语音的声纹模型b的比对分值;
S05,将声纹数据底库中的n个模型分别与验证语音的声纹模型b的比对分值s按照从大到小排序并编号,将精度far与n的乘积N作为新确定的阈值的编号,即新确定的阈值t=sN;若N为非整数则新确定的阈值t为与N的绝对差值最小的两个编号所对应的分值的平均数;
S06,将注册语音的声纹模型a和验证语音的声纹模型b进行比对并计算出比对分值s0;
S07,若s0大于t,则注册语音的声纹模型a和验证语音的声纹模型b一致,否则注册语音的声纹模型a和验证语音的声纹模型b不一致。
2.根据权利要求1所述的一种声纹比对方法,其特征在于,选取的声纹数据底库中的模型个数n不小于1/far。
3.根据权利要求1所述的一种声纹比对方法,其特征在于,选取的声纹数据底库中的n个模型的来源各不相同,所述n个模型的应用场景相同。
4.根据权利要求1所述的一种声纹比对方法,其特征在于,所述步骤S04和S06中的比对分值计算方法为cosine计算方法或plda计算方法。
5.一种声纹比对系统,其特征在于,包括数据库、声纹获取模块、比对模块、处理模块和判断模块;
所述数据库用于存储声纹数据作为声纹数据底库;
所述声纹获取模块用于获取注册语音的声纹模型和验证语音的声纹模型;
所述比对模块用于计算比对注册语音的声纹模型和验证语音的声纹模型的相似值及选取的声纹数据底库中的模型与验证语音的声纹模型的相似值;
所述处理模块用于根据选取的声纹数据底库中的模型与验证语音的声纹模型的相似值及用户设定的精度计算确定动态阈值;所述处理模块包括分别用于调用数据库、声纹获取模块、比对模块和判断模块的调用单元;
所述判断模块用于根据计算得到的注册语音的声纹模型和验证语音的声纹模型的相似值及处理模块得到动态阈值判断注册语音的声纹模型和验证语音的声纹模型是否一致。
6.根据权利要求5所述的一种声纹比对系统,其特征在于,还包括一通信模块,所述通信模块用于数据库与处理模块之间的数据传输。
7.一种声纹比对装置,其特征在于,包括一处理机构和一存储机构,所述存储机构用于存储声纹数据底库、注册语音的声纹模型、验证语音的声纹模型和按照如权利要求1中的方法的处理机构运行程序,所述处理机构用于运行存储机构中存储的运行程序实现如权利要求1-4任意一项的方法。
8.一种存储机构,其特征在于,所述存储机构上存储有计算机运行程序,当所述计算机运行程序被运行时,实现如权利要求1-4任意一项的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011473077.2A CN112735437A (zh) | 2020-12-15 | 2020-12-15 | 一种声纹比对方法及系统及装置及存储机构 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011473077.2A CN112735437A (zh) | 2020-12-15 | 2020-12-15 | 一种声纹比对方法及系统及装置及存储机构 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112735437A true CN112735437A (zh) | 2021-04-30 |
Family
ID=75602016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011473077.2A Pending CN112735437A (zh) | 2020-12-15 | 2020-12-15 | 一种声纹比对方法及系统及装置及存储机构 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112735437A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113327617A (zh) * | 2021-05-17 | 2021-08-31 | 西安讯飞超脑信息科技有限公司 | 声纹判别方法、装置、计算机设备和存储介质 |
CN113327618A (zh) * | 2021-05-17 | 2021-08-31 | 西安讯飞超脑信息科技有限公司 | 声纹判别方法、装置、计算机设备和存储介质 |
WO2023004561A1 (en) * | 2021-07-27 | 2023-02-02 | Qualcomm Incorporated | Voice or speech recognition using contextual information and user emotion |
-
2020
- 2020-12-15 CN CN202011473077.2A patent/CN112735437A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113327617A (zh) * | 2021-05-17 | 2021-08-31 | 西安讯飞超脑信息科技有限公司 | 声纹判别方法、装置、计算机设备和存储介质 |
CN113327618A (zh) * | 2021-05-17 | 2021-08-31 | 西安讯飞超脑信息科技有限公司 | 声纹判别方法、装置、计算机设备和存储介质 |
CN113327618B (zh) * | 2021-05-17 | 2024-04-19 | 西安讯飞超脑信息科技有限公司 | 声纹判别方法、装置、计算机设备和存储介质 |
CN113327617B (zh) * | 2021-05-17 | 2024-04-19 | 西安讯飞超脑信息科技有限公司 | 声纹判别方法、装置、计算机设备和存储介质 |
WO2023004561A1 (en) * | 2021-07-27 | 2023-02-02 | Qualcomm Incorporated | Voice or speech recognition using contextual information and user emotion |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
CN112735437A (zh) | 一种声纹比对方法及系统及装置及存储机构 | |
CN110265037B (zh) | 身份验证方法、装置、电子设备及计算机可读存储介质 | |
CN109147797B (zh) | 基于声纹识别的客服方法、装置、计算机设备及存储介质 | |
US6401063B1 (en) | Method and apparatus for use in speaker verification | |
CN108197282B (zh) | 文件数据的分类方法、装置及终端、服务器、存储介质 | |
CN108346427A (zh) | 一种语音识别方法、装置、设备及存储介质 | |
CN110718228B (zh) | 语音分离方法、装置、电子设备及计算机可读存储介质 | |
CN108694949B (zh) | 基于重排序超向量和残差网络的说话人识别方法及其装置 | |
CN107229627B (zh) | 一种文本处理方法、装置及计算设备 | |
CN101154380B (zh) | 说话人认证的注册及验证的方法和装置 | |
CN110648670B (zh) | 欺诈识别方法、装置、电子设备及计算机可读存储介质 | |
CN106991312B (zh) | 基于声纹识别的互联网反欺诈认证方法 | |
CN109299594B (zh) | 身份验证方法及装置 | |
CN103794207A (zh) | 一种双模语音身份识别方法 | |
US9947323B2 (en) | Synthetic oversampling to enhance speaker identification or verification | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
CN109947971B (zh) | 图像检索方法、装置、电子设备及存储介质 | |
CN110972112A (zh) | 地铁运行方向的确定方法、装置、终端及存储介质 | |
CN111274390B (zh) | 一种基于对话数据的情感原因确定方法及装置 | |
JPH10207484A (ja) | 抑制標準パターン選択式話者認識装置 | |
CN113948090A (zh) | 语音检测方法、会话记录产品及计算机存储介质 | |
CN111583938B (zh) | 电子装置与语音识别方法 | |
CN113112992B (zh) | 一种语音识别方法、装置、存储介质和服务器 | |
US6499012B1 (en) | Method and apparatus for hierarchical training of speech models for use in speaker verification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |