CN107424614A - 一种声纹模型更新方法 - Google Patents
一种声纹模型更新方法 Download PDFInfo
- Publication number
- CN107424614A CN107424614A CN201710585058.0A CN201710585058A CN107424614A CN 107424614 A CN107424614 A CN 107424614A CN 201710585058 A CN201710585058 A CN 201710585058A CN 107424614 A CN107424614 A CN 107424614A
- Authority
- CN
- China
- Prior art keywords
- target speaker
- sound
- model
- speech data
- matching degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Collating Specific Patterns (AREA)
Abstract
本发明公开了一种声纹模型更新方法,包括如下步骤:接收用户语音数据;采用零规整方法对当前用户进行身份认证,认证成功的用户作为目标说话人;采用时间聚团方法对所述目标说话人语音数据进行筛选,得到筛选后的目标说话人模型更新数据;利用所述目标说话人模型更新数据及原声纹模型训练数据重新训练新的声纹模型,利用所述新的声纹模型更新原声纹模型。本发明防止与目标说话人很相似的冒认者说话人在短时间内连续冒认,对目标说话人声纹模型持续更新,导致目标说话人无法进行身份认证的情况,以及防止不同用户的声纹模型更新程度不同而导致的模型匹配度得分布不一致,从而提高目标说话人声纹模型更新的正确性。
Description
技术领域
本发明涉及声纹识别技术领域,尤其涉及一种声纹模型更新方法。
背景技术
声纹特征是人体重要生物特征之一,具有较强的个体特殊性,常用于声纹识别、声纹认证等领域作为身份认证的一种特征。因此,可以通过建立声纹模型来表征不同的个体,进而利用该声纹模型识别不同的个体。目前,声纹模型的应用面临的共同的问题是训练数据的获取。一般情况下,声纹模型获取到的训练数据都非常少,因此,训练得到的模型准确度和适应性较差,为了增加声纹模型的实用性,需要后期不断的更新模型来增加模型的准确度和适应性。现有的模型更新方法一般是直接将认证成功用户的新录制语音数据加入到原声纹模型的训练数据中重新训练模型,利用所述新模型对原模型进行更新。当与目标说话人相似的冒认者说话人在很短时间内连续冒认时,如连续录入大量数据,目标说话人模型会持续更新,从而导致目标说话人模型偏离目标说话人声纹特征,最终导致目标说话人无法认证。此外,现有方法中,不同目标说话人模型更新程度往往不同,使用所述模型进行认证得到的模型匹配度得分分布也不一致,对所有用户使用统一阈值判定认证结果显然不合理。因此,如何可以准确合适的对声纹模型进行更新成为研究人员亟需解决的问题。
发明内容
本发明提供一种声纹模型更新方法,解决现有技术中与目标说话人声纹特征相似的冒认说话人在很短时间内连续冒认时,导致更新后的声纹模型偏离目标说话人声纹特征的问题。
本发明采用如下技术方案:
一种声纹模型更新方法,包括如下步骤:
接收用户语音数据;
采用零规整方法对当前用户进行身份认证,认证成功的用户作为目标说话人;
采用时间聚团方法对所述目标说话人语音数据进行筛选,得到筛选后的目标说话人模型更新数据;
利用所述目标说话人模型更新数据及原声纹模型训练数据重新训练新的声纹模型,利用所述新的声纹模型更新原声纹模型。
进一步地,所述采用零规整方法对当前用户进行身份认证,认证成功的用户作为目标说话人的步骤包括具体如下步骤:
在对用户进行声纹认证时,获取当前用户的语音数据;
计算所述当前用户的语音数据的声纹特征与目标说话人声纹模型的匹配度,将所述匹配度作为待规整匹配度;
对所述待规整匹配度进行零规整,得到规整后的匹配度;
如果规整后的匹配度大于设定的第二阈值,则确定当前用户为目标说话人。
作为上述方案的改进,该方法还包括:
预先收集大量来自不同说话人的语音数据作为种子数据,放入种子集合中;
计算所述种子集合中每条语音数据的声纹特征与所述目标说话人声纹模型的匹配度,得到匹配度集合;
计算所述匹配度集合中所有匹配度的均值及标准差,并将计算得到的均值及标准差作为冒认者说话人语音数据的声纹特征与所述目标说话人声纹模型匹配度分布的均值及标准差;
所述对所述待规整匹配度进行零规整,得到规整后的匹配度包括:
利用所述均值及标准差对所述待规整匹配度进行零规整,得到规整后的匹配度。
进一步地,所述采用时间聚团方法对所述目标说话人语音数据进行筛选,得到筛选后的目标说话人模型更新数据的步骤具体包括如下步骤:
获取目标说话人当前登录时间及目标说话人声纹模型上一次的更新时间;
将目标说话人声纹模型上一次的更新时间至目标说话人当前登录时间的时间段划分为多个时间聚团;
获取每个时间聚团内所述目标说话人声纹认证成功时的语音数据,从每个时间聚团内认证成功的语音数据中选择语音数据,并将选择的语音数据作为目标说话人每个时间聚团内的语音数据;
对于每个时间聚团,获取所述时间聚团内认证成功的语音数据相对目标说话人声纹模型的匹配度;筛选出大于设定的第一阈值的匹配度对应的语音数据;或者按照匹配度由大到小的顺序对各条语音数据进行排序,筛选出设定条数的语音数据;
对所述每个时间聚团内已筛选出的语音数据进行采样,作为目标说话人模型更新数据。
有益效果
本发明采用零规整方法对当前用户进行身份认证,认证成功的用户作为目标说话人,防止不同用户的声纹模型更新程度不同而导致的模型匹配度得分布不一致,从而提高目标说话人声纹模型更新的正确性。采用时间聚团方法对所述目标说话人语音数据进行筛选,得到筛选后的目标说话人模型更新数据;防止与目标说话人很相似的冒认者说话人在短时间内连续冒认,对目标说话人声纹模型持续更新,导致目标说话人无法进行身份认证的情况。
附图说明
图1是本发明提供的一个实施例的声纹模型更新方法的流程图示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明提供的一个实施例的声纹模型更新方法的流程图,该方法包括如下步骤:
S1:接收用户语音数据;
具体地,所述语音数据可以为用户通话、聊天或登录时的录音数据,也可为用户自己录制的语音数据。
S2:采用零规整方法对当前用户进行身份认证,认证成功的用户作为目标说话人;
S3:采用时间聚团方法对所述目标说话人语音数据进行筛选,得到筛选后的目标说话人模型更新数据;
S4:利用所述目标说话人模型更新数据及原声纹模型训练数据重新训练新的声纹模型,利用所述新的声纹模型更新原声纹模型。
进一步地,所述步骤S2,所述采用零规整方法对当前用户进行身份认证,认证成功的用户作为目标说话人步骤,为了防止不同用户的声纹模型更新程度不同而导致的模型匹配度得分布不一致,具体实现流程步骤如下:
S201:计算当前用户语音数据的声纹模型匹配度得分如式1所示:
其中,p(X|SM)为所述声纹特征X相对说话人声纹模型SM(Speaker Model,SM)的似然度,P(X|UBM)为所述声纹特征X相对通用背景模型UBM(Universal Background Model,UBM)的似然度。所述声纹模型SM和通用背景模型UBM可以通过收集数据预先进行构建。
S202:采用零规整方法对所述模型匹配度得分进行零规整。
S203:所述规整后的模型匹配度得分判定当前用户是否匹配成功,匹配结果为I,如果当前用户匹配成功,则将当前用户作为目标说话人,具体如式6所示:
其中,I为1表示当前用户匹配成功,当前用户作为目标说话人;I为0表示当前用户匹配失败。σ表示模型匹配度得分阈值,一般根据实验结果或经验取值。
上述均值μ及标准差σ可以按以下方式来计算:
步1)收集大量来自不同说话人的语音数据作为种子数据,放入种子集合中;计算种子集合中每条语音声纹特征相对目标说话人模型的匹配度得分QS:
其中,QSi表示第i条语音特征相对目标说话人模型匹配度得分,Ai表示第i条语音的声纹特征。
步2)计算所述种子集合中每条语音特征相对目标发音人模型匹配度得分的均值及标准差,具体计算方法如式3和式4所示:
其中,N表示种子集合中语音条数;
步3)将步2)所述均值及标准差作为冒认者说话人在目标说话人模型上匹配度得分分布的均值及标准差,使用所述均值及标准差对步骤S201所述用户模型匹配度得分进行规整,得到规整后的模型匹配度得分S′。规整后的模型匹配度得分分布大致可以被规整到均值为0,方差为1的标准正态分布上,具体如式5所示:
进一步地,所述步骤S3,所述采用时间聚团方法对所述目标说话人语音数据进行筛选,得到筛选后的目标说话人模型更新数据步骤,为了防止与目标说话人很相似的冒认者说话人在短时间内连续冒认,对目标说话人声纹模型持续更新,导致目标说话人无法进行身份认证的情况,具体实现流程步骤如下:
S301:获取目标说话人当前登录时间T1及声纹模型上一次的更新时间T2。所述模型更新时间一般根据用户的习惯来确定,如用户在某一段时间内登录较频繁,而平常却很少登录使用,模型更新时间一般较长,如一个月更新一次;如果用户一直很频繁的登录,模型更新时间一般较短,如一个星期更新一次;
S302:根据所述T1和T2及预先确定的聚团数N,计算第i个时间聚团大小ti,具体如式7所示:
其中,λi为影响因子,所述影响因子根据实际应用环境而定,具体取值可以人工设定,也可以通过大量数据训练得出;如实际应用环境在某段时间内网络安全性较差,黑客较多,此时需要相应增加影响因子λi,扩大时间聚团大小ti,防止冒认者说话人在较短时间内连续录入大量语音数据持续将目标说话人模型更新。当时,即为平均划分每个时间聚团大小。
S303:根据步所述划分的时间聚团,搜索目标说话人每个时间聚团内匹配成功的语音数据;从而得到目标说话人每个时间聚团内的语音数据。
S304:对所述时间聚团内语音数据进行筛选,具体筛选方法可以根据阈值筛选;也可以根据模型匹配度得分对语音数据进行排序,选择TopN条语音数据,也可以采用其它方法进行数据筛选。以阈值筛选为例,判定每个时间聚团内的每条语音数据相对目标发音人声纹模型的模型匹配度得分是否大于预先设定的阈值;如果是,则保留当前语音数据;否则,删除当前语音数据。
S305:对每个时间聚团内保留的语音数据进行采样,如果时间聚团内的语音数据为0条,则不进行采样,如果为1条,则直接使用,如果大于1条,则进行采样,选择1条或多条语音数据,具体采样方法可以为随机采样或其它采样方法。
S306:获取每个时间聚团内采样得到的语音数据,作为目标说话人模型更新数据。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (4)
1.一种声纹模型更新方法,其特征在于,包括如下步骤:
接收用户语音数据;
采用零规整方法对当前用户进行身份认证,认证成功的用户作为目标说话人;
采用时间聚团方法对所述目标说话人语音数据进行筛选,得到筛选后的目标说话人模型更新数据;
利用所述目标说话人模型更新数据及原声纹模型训练数据重新训练新的声纹模型,利用所述新的声纹模型更新原声纹模型。
2.如权利要求1所述的声纹模型更新方法,其特征在于,所述采用零规整方法对当前用户进行身份认证,认证成功的用户作为目标说话人的步骤包括具体如下步骤:
在对用户进行声纹认证时,获取当前用户的语音数据;
计算所述当前用户的语音数据的声纹特征与目标说话人声纹模型的匹配度,将所述匹配度作为待规整匹配度;
对所述待规整匹配度进行零规整,得到规整后的匹配度;
如果规整后的匹配度大于设定的第二阈值,则确定当前用户为目标说话人。
3.如权利要求2所述的声纹模型更新方法,其特征在于,该方法还包括:
预先收集大量来自不同说话人的语音数据作为种子数据,放入种子集合中;
计算所述种子集合中每条语音数据的声纹特征与所述目标说话人声纹模型的匹配度,得到匹配度集合;
计算所述匹配度集合中所有匹配度的均值及标准差,并将计算得到的均值及标准差作为冒认者说话人语音数据的声纹特征与所述目标说话人声纹模型匹配度分布的均值及标准差;
所述对所述待规整匹配度进行零规整,得到规整后的匹配度包括:
利用所述均值及标准差对所述待规整匹配度进行零规整,得到规整后的匹配度。
4.如权利要求1所述的声纹模型更新方法,其特征在于,所述采用时间聚团方法对所述目标说话人语音数据进行筛选,得到筛选后的目标说话人模型更新数据的步骤具体包括如下步骤:
获取目标说话人当前登录时间及目标说话人声纹模型上一次的更新时间;
将目标说话人声纹模型上一次的更新时间至目标说话人当前登录时间的时间段划分为多个时间聚团;
获取每个时间聚团内所述目标说话人声纹认证成功时的语音数据,从每个时间聚团内认证成功的语音数据中选择语音数据,并将选择的语音数据作为目标说话人每个时间聚团内的语音数据;
对于每个时间聚团,获取所述时间聚团内认证成功的语音数据相对目标说话人声纹模型的匹配度;筛选出大于设定的第一阈值的匹配度对应的语音数据;或者按照匹配度由大到小的顺序对各条语音数据进行排序,筛选出设定条数的语音数据;
对所述每个时间聚团内已筛选出的语音数据进行采样,作为目标说话人模型更新数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710585058.0A CN107424614A (zh) | 2017-07-17 | 2017-07-17 | 一种声纹模型更新方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710585058.0A CN107424614A (zh) | 2017-07-17 | 2017-07-17 | 一种声纹模型更新方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107424614A true CN107424614A (zh) | 2017-12-01 |
Family
ID=60430725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710585058.0A Pending CN107424614A (zh) | 2017-07-17 | 2017-07-17 | 一种声纹模型更新方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107424614A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108231082A (zh) * | 2017-12-29 | 2018-06-29 | 广州势必可赢网络科技有限公司 | 一种自学习声纹识别的更新方法和装置 |
CN108428455A (zh) * | 2018-02-13 | 2018-08-21 | 上海爱优威软件开发有限公司 | 声纹特征的采集方法及系统 |
CN109273011A (zh) * | 2018-09-04 | 2019-01-25 | 国家电网公司华东分部 | 一种可自动更新模型的操作人员身份识别系统及方法 |
WO2019136911A1 (zh) * | 2018-01-12 | 2019-07-18 | 平安科技(深圳)有限公司 | 更新声纹数据的语音识别方法、终端装置及存储介质 |
CN110660398A (zh) * | 2019-09-19 | 2020-01-07 | 北京三快在线科技有限公司 | 声纹特征更新方法、装置、计算机设备及存储介质 |
CN110827834A (zh) * | 2019-11-11 | 2020-02-21 | 广州国音智能科技有限公司 | 声纹注册方法、系统及计算机可读存储介质 |
CN111341326A (zh) * | 2020-02-18 | 2020-06-26 | RealMe重庆移动通信有限公司 | 语音处理方法及相关产品 |
WO2020140376A1 (zh) * | 2019-01-04 | 2020-07-09 | 平安科技(深圳)有限公司 | 基于声纹识别的酒驾检测方法、装置、设备及存储介质 |
CN111755011A (zh) * | 2019-03-11 | 2020-10-09 | 深圳市冠旭电子股份有限公司 | 音箱控制方法、装置、设备及可读存储介质 |
CN108364654B (zh) * | 2018-01-30 | 2020-10-13 | 网易乐得科技有限公司 | 语音处理方法、介质、装置和计算设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106157959A (zh) * | 2015-03-31 | 2016-11-23 | 讯飞智元信息科技有限公司 | 声纹模型更新方法及系统 |
-
2017
- 2017-07-17 CN CN201710585058.0A patent/CN107424614A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106157959A (zh) * | 2015-03-31 | 2016-11-23 | 讯飞智元信息科技有限公司 | 声纹模型更新方法及系统 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019127897A1 (zh) * | 2017-12-29 | 2019-07-04 | 广州势必可赢网络科技有限公司 | 一种自学习声纹识别的更新方法和装置 |
CN108231082A (zh) * | 2017-12-29 | 2018-06-29 | 广州势必可赢网络科技有限公司 | 一种自学习声纹识别的更新方法和装置 |
WO2019136911A1 (zh) * | 2018-01-12 | 2019-07-18 | 平安科技(深圳)有限公司 | 更新声纹数据的语音识别方法、终端装置及存储介质 |
CN108364654B (zh) * | 2018-01-30 | 2020-10-13 | 网易乐得科技有限公司 | 语音处理方法、介质、装置和计算设备 |
CN108428455A (zh) * | 2018-02-13 | 2018-08-21 | 上海爱优威软件开发有限公司 | 声纹特征的采集方法及系统 |
CN109273011A (zh) * | 2018-09-04 | 2019-01-25 | 国家电网公司华东分部 | 一种可自动更新模型的操作人员身份识别系统及方法 |
WO2020140376A1 (zh) * | 2019-01-04 | 2020-07-09 | 平安科技(深圳)有限公司 | 基于声纹识别的酒驾检测方法、装置、设备及存储介质 |
CN111755011A (zh) * | 2019-03-11 | 2020-10-09 | 深圳市冠旭电子股份有限公司 | 音箱控制方法、装置、设备及可读存储介质 |
CN110660398A (zh) * | 2019-09-19 | 2020-01-07 | 北京三快在线科技有限公司 | 声纹特征更新方法、装置、计算机设备及存储介质 |
CN110660398B (zh) * | 2019-09-19 | 2020-11-20 | 北京三快在线科技有限公司 | 声纹特征更新方法、装置、计算机设备及存储介质 |
CN110827834A (zh) * | 2019-11-11 | 2020-02-21 | 广州国音智能科技有限公司 | 声纹注册方法、系统及计算机可读存储介质 |
CN110827834B (zh) * | 2019-11-11 | 2022-07-12 | 广州国音智能科技有限公司 | 声纹注册方法、系统及计算机可读存储介质 |
CN111341326A (zh) * | 2020-02-18 | 2020-06-26 | RealMe重庆移动通信有限公司 | 语音处理方法及相关产品 |
CN111341326B (zh) * | 2020-02-18 | 2023-04-18 | RealMe重庆移动通信有限公司 | 语音处理方法及相关产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107424614A (zh) | 一种声纹模型更新方法 | |
CN106157959B (zh) | 声纹模型更新方法及系统 | |
DE102016125494B4 (de) | Das sichere Ausführen von Sprachfunktionen unter der Verwendung kontextabhängiger Signale | |
US10692503B2 (en) | Voice data processing method, apparatus and storage medium | |
McLaren et al. | Advances in deep neural network approaches to speaker recognition | |
CN1236423C (zh) | 说话人声音的后台学习 | |
US20190318743A1 (en) | Metadata-based diarization of teleconferences | |
CN108920622A (zh) | 一种意图识别的训练方法、训练装置和识别装置 | |
CN103856689B (zh) | 面向新闻视频的人物对话字幕提取方法 | |
CN108597525B (zh) | 语音声纹建模方法及装置 | |
CN107102990A (zh) | 对语音进行翻译的方法和装置 | |
CN103632668B (zh) | 一种基于中文语音信息训练英文语音模型的方法与设备 | |
CN101188110B (zh) | 提高文本和语音匹配效率的方法 | |
KR20170139650A (ko) | 계정 추가 방법, 단말, 서버, 및 컴퓨터 저장 매체 | |
US20180308501A1 (en) | Multi speaker attribution using personal grammar detection | |
CN107578778A (zh) | 一种口语评分的方法 | |
CN105744368A (zh) | 电视上使用声纹识别技术分账户管理用户的方法 | |
CN110634472A (zh) | 一种语音识别方法、服务器及计算机可读存储介质 | |
CN106448653A (zh) | 一种可穿戴智能终端 | |
CN109410956A (zh) | 一种音频数据的对象识别方法、装置、设备及存储介质 | |
CN112541095A (zh) | 视频标题生成方法、装置、电子设备及存储介质 | |
CN110491394B (zh) | 唤醒语料的获取方法和装置 | |
CN108447489B (zh) | 一种带反馈的连续声纹认证方法及系统 | |
CN110600029A (zh) | 用于智能语音设备的自定义唤醒方法和装置 | |
CN109074809B (zh) | 信息处理设备、信息处理方法和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171201 |