CN110797032A - 一种声纹数据库建立方法及声纹识别方法 - Google Patents

一种声纹数据库建立方法及声纹识别方法 Download PDF

Info

Publication number
CN110797032A
CN110797032A CN202010007842.5A CN202010007842A CN110797032A CN 110797032 A CN110797032 A CN 110797032A CN 202010007842 A CN202010007842 A CN 202010007842A CN 110797032 A CN110797032 A CN 110797032A
Authority
CN
China
Prior art keywords
sample
voiceprint
model
information
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010007842.5A
Other languages
English (en)
Other versions
CN110797032B (zh
Inventor
谢志强
王�琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sound Power Technology Co ltd
Original Assignee
Shenzhen Zhongchuanghuaan Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhongchuanghuaan Technology Co Ltd filed Critical Shenzhen Zhongchuanghuaan Technology Co Ltd
Priority to CN202010007842.5A priority Critical patent/CN110797032B/zh
Publication of CN110797032A publication Critical patent/CN110797032A/zh
Application granted granted Critical
Publication of CN110797032B publication Critical patent/CN110797032B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种声纹数据库建立方法及声纹识别方法,该方法通过采集已知说话人的多条样本语音,和已知说话人的身份信息,并且在所述已知说话人的身份信息内提取出已知说话人的属性信息;根据算法模型预测样本语音的说话人的属性信息,得到样本预测信息,进而判断多条样本预测信息是否均与所述已知说话人的属性信息相同;若均相同,则提取多条所述样本语音的声纹特征进行训练并生成样本语音模型;最后将所述已知说话人的属性信息和所述已知说话人的身份信息二者与所述样本语音模型相关联并存储至声纹数据库中;因此,本发明能够对非已知说话人的异常语音数据进行排除,提升声纹数据库的质量和识别模型的准备率。

Description

一种声纹数据库建立方法及声纹识别方法
技术领域
本发明涉及声纹识别技术领域,更具体地说,涉及一种声纹数据库建立方法及声纹识别方法。
背景技术
声纹识别(speaker verification),也称做说话人识别,是一种通过采集语音片段识别说话人身份(speaker ID)的技术。声纹识别系统性能好坏,关键就在于算法能否有效学习个体差异信息,以及从声纹库中检索的复杂度。
声纹识别技术对语音质量要求较高,若语音预处理不恰当,会极大影响结果的准确率。在生活中,人们可以在各种各样的场景下使用语音技术,这样就不可避免地产生由说话人或环境引起的噪声。当前的语音预处理噪声方法主要包括预加重、加窗和分帧等,其目的是从复杂的环境中区分出语音部分和非语音部分。但是此种预处理方法无法排除异常语音数据,例如:一台手机发出的微信语音有时候不是同一个人,可能会掺杂其他亲属的语音。这种异常语音数据,会对结果造成重大的影响,并且很难被检测。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种声纹数据库建立方法及声纹识别方法。
本发明解决其技术问题所采用的技术方案是:
本发明提供了一种声纹数据库建立方法,其中,所述声纹数据库建立方法包括如下步骤:
采集已知说话人的多条样本语音,和已知说话人的身份信息;
在所述已知说话人的身份信息内提取出已知说话人的属性信息;
采用预先建立的算法模型预测所述样本语音的说话人的属性信息,得到样本预测信息;
判断多条所述样本预测信息是否均与所述已知说话人的属性信息相同;若均相同,则提取多条所述样本语音的声纹特征进行训练并生成模型,得到样本语音模型;若不均相同,则将与所述已知说话人的属性信息不同的所述样本预测信息对应的所述样本语音删除,然后提取剩余的所述样本语音的声纹特征进行训练并生成模型,得到样本语音模型;
将所述已知说话人的属性信息和所述已知说话人的身份信息二者与所述样本语音模型相关联并存储至声纹数据库中。
本发明所述声纹数据库建立方法,其中,所述属性信息包括年龄段信息和性别信息。
本发明所述声纹数据库建立方法,其中,所述模型具体为高斯混合模型。
本发明所述声纹数据库建立方法,其中,所述预先建立的算法模型是依据预设算法和多个声纹信息进行建立的,其建立过程为:采用预设算法对与多个声纹信息分别对应的声纹特征进行分析训练,得到算法识别模型;所述预设算法包括性别识别算法和年龄段识别算法。
本发明所述声纹数据库建立方法,其中,所述声纹特征包括声强、响度、音高、基音周期和基音频率中的一种或多种。
另一方面,本发明还提供了一种声纹识别方法,基于上述声纹数据库建立方法,其中,所述声纹识别方法包括如下步骤:
采集未知说话人的检材语言,提取所述检材语音的声纹特征;
采用预先建立的所述算法模型预测所述检材语音的说话人的属性信息,得到检材预测信息;
在声纹数据库中筛选出所述已知说话人的属性信息与所述检材预测信息一致的样本语音模型;
将所述检材语音的声纹特征与筛选出的所述样本语音模型进行匹配,将筛选出的所述样本语音模型根据与所述检材语音的相似度进行排序;
根据筛选出的所述样本语音模型的排序从高到低输出与所述样本语音模型相关联的已知说话人的身份信息。
本发明所述声纹识别方法,其中,所述预先建立的算法模型还对所述检材语音进行情绪信息预测,得到所述情绪信息。
本发明所述声纹识别方法,其中,输出所述样本语音模型对应的已知说话人的身份信息时,所述检材语音的所述情绪信息被一同输出。
本发明所述声纹识别方法,其中,将所述检材语音的声纹特征与筛选出的所述样本语音模型进行匹配后,根据所述样本语音模型与所述检材语音的相似程度进行打分。
本发明所述声纹识别方法,其中,输出所述样本语音模型对应的已知说话人的身份信息时,可以设定输出的数量。
本发明的有益效果在于:通过采集已知说话人的多条样本语音,和已知说话人的身份信息,在所述已知说话人的身份信息内提取出已知说话人的属性信息;根据采用预先建立的算法模型预测所述样本语音的说话人的属性信息,得到样本预测信息,进而判断多条所述样本预测信息是否均与所述已知说话人的属性信息相同;若均相同,则提取多条所述样本语音的声纹特征进行训练并生成模型,得到样本语音模型;若多个所述样本预测信息中存在一个或多个与所述已知说话人的属性信息不同的所述样本预测信息,则将与所述属性信息不同的所述样本预测信息对应的所述样本语音删除,然后提取剩余的所述样本语音的声纹特征进行训练并生成模型,得到样本语音模型;将所述已知说话人的属性信息和所述已知说话人的身份信息二者与所述样本语音模型相关联并存储至声纹数据库中;因此,本发明能够对非已知说话人的异常语音数据进行排除,提升声纹数据库的质量和识别模型的准备率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将结合附图及实施例对本发明作进一步说明,下面描述中的附图仅仅是本发明的部分实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图:
图1是本发明较佳实施例的声纹数据库建立方法的实现流程图;
图2是本发明另一较佳实施例的声纹识别方法的实现流程图。
具体实施方式
为了使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的部分实施例,而不是全部实施例。基于本发明的实施例,本领域普通技术人员在没有付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明较佳实施例的一种声纹数据库建立方法及声纹识别方法,如图1所示,包括如下步骤:
步骤S101:采集已知说话人的多条样本语音,和已知说话人的身份信息;
具体的,利用采集设备采集声音信息和身份信息;其中,采集设备可以为安装有需要进行身份识别的系统的电子设备;采集到的声音信息包括已知说话人朗读随机生成的字符、字符串或者数字的语音,或者已知说话人随意说的一段语音。
步骤S102:在所述已知说话人的身份信息内提取出已知说话人的属性信息;
提取出的属性信息包括年龄段信息和性别信息。
步骤S103:采用预先建立的算法模型预测样本语音的说话人的属性信息,得到样本预测信息;
具体的,预先建立的算法模型是依据预设算法和多个声纹信息进行建立的,其建立过程为:采用预设算法对与多个声纹信息分别对应的声纹特征进行分析训练,得到算法识别模型;所述预设算法包括性别识别算法和年龄段识别算法;性别识别算法和年龄段识别算法均为基于深度神经网络算法。
步骤S104:判断多条样本预测信息是否均与已知说话人的属性信息相同;
具体的,判断多条样本预测信息均与已知说话人的属性信息相同,则执行步骤S106;判断所述多条样本预测信息不均与已知说话人的属性信息相同,则先执行步骤S105,再执行步骤S106。
步骤S105:将与已知说话人的属性信息不同的样本预测信息对应的样本语音删除;
具体的,通过对比预测出的样本预测信息和已知说话人的属性信息,对多个样本语音本中非已知说话人的异常样本语音进行排除,提升声纹数据库的质量和识别模型的准备率。
步骤S106:提取多条样本语音的声纹特征进行训练并生成模型,得到样本语音模型;
具体的,将多条样本语音的声纹特征提取出来,声纹特征包括声强、响度、音高、基音周期和基音频率中的一种或多种;将提取出的声纹特征训练成高斯混合模型,得到样本语音模型。
步骤S107:将已知说话人的属性信息和所述已知说话人的身份信息二者与样本语音模型相关联并存储至声纹数据库中;以便在声纹识别时依据已知说话人的属性信息对样本语音模型进行筛选;
具体的,在已知说话人的属性信息与样本语音模型相关联并存储至声纹数据库中的同时,存储的还有与已知说话人的身份信息,具体的可以将属性信息和身份信息写入同一条记录中,并将该记录存储至声纹数据库中。
本发明实施例中,通过采集已知说话人的多条样本语音,和已知说话人的身份信息,并在所述已知说话人的身份信息内提取出已知说话人的属性信息;根据采用预先建立的算法模型预测所述样本语音的说话人的属性信息,得到样本预测信息;然后判断多条所述样本预测信息是否均与所述已知说话人的属性信息相同;若均相同,则提取多条所述样本语音的声纹特征进行训练并生成模型,得到样本语音模型;若多个所述样本预测信息中存在一个或多个与所述已知说话人的属性信息不同的所述样本预测信息,则将与所述属性信息不同的所述样本预测信息对应的所述样本语音删除,然后提取剩余的所述样本语音的声纹特征进行训练并生成模型,得到样本语音模型;将所述已知说话人的属性信息和所述已知说话人的身份信息二者与所述样本语音模型相关联并存储至声纹数据库中;因此,本发明能够对非已知说话人的异常语音数据进行排除,提升声纹数据库的质量和识别模型的准备率。
本发明另一较佳实施例的声纹识别方法,如图2所示,包括如下步骤:
步骤S201:采集未知说话人的检材语言,提取检材语音的声纹特征;
具体的,声纹特征包括声强、响度、音高、基音周期和基音频率中的一种或多种。
步骤S202:采用预先建立的算法模型预测检材语音的说话人的属性信息,得到检材预测信息;
具体的,预先建立的算法模型不仅预测检材语音的说话人的属性信息,还对所述检材语音进行情绪信息预测,得到所述情绪信息。
步骤S203:在声纹数据库中筛选出所述已知说话人的属性信息与所述检材预测信息一致的样本语音模型;
具体的,在声纹数据库筛选出所述已知说话人的属性信息与所述检材预测信息一致的样本语音模型,可在性别、年龄段预测的基础上提高声纹识别准确率。
步骤204:将检材语音的声纹特征与筛选出的样本语音模型进行匹配,将筛选出的样本语音模型根据与检材语音的相似度进行排序;
具体的,将所述检材语音的声纹特征与筛选出的所述样本语音模型进行匹配后,根据所述样本语音模型与所述检材语音的相似程度进行打分;依据打分的高低对筛选出的所述样本语音模型进行排序。
步骤S205:根据筛选出的所述样本语音模型的排序从高到低输出与所述样本语音模型相关联的已知说话人的身份信息;
具体的,输出所述样本语音模型对应的已知说话人的身份信息时,所述情绪信息被一同输出,同时还可以设定已知说话人的身份信息输出的数量。
本发明实施例中,依据待识别检材语言,通过预先建立的所述算法模型预测所述检材语音的说话人的检材预测信息;在声纹数据库中筛选出所述已知说话人的属性信息与所述检材预测信息一致的样本语音模型;将所述检材语音的声纹特征与筛选出的所述样本语音模型进行匹配,将筛选出的所述样本语音模型根据与所述检材语音的相似度进行排序;根据筛选出的所述样本语音模型与所述检材语音的相似度从高到低输出与所述样本语音模型相关联的已知说话人的身份信息;因此,本发明可在性别、年龄段预测的基础上提高声纹识别准确率,同时通过情绪预测辅助检索与破案进度。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种声纹数据库建立方法,其特征在于,所述声纹数据库建立方法包含如下步骤:
采集已知说话人的多条样本语音,和已知说话人的身份信息;
在所述已知说话人的身份信息内提取出已知说话人的属性信息;
采用预先建立的算法模型预测所述样本语音的说话人的属性信息,得到样本预测信息;
判断多条所述样本预测信息是否均与所述已知说话人的属性信息相同;若均相同,则提取多条所述样本语音的声纹特征进行训练并生成模型,得到样本语音模型;若不均相同,则将与所述已知说话人的属性信息不同的所述样本预测信息对应的所述样本语音删除,然后提取剩余的所述样本语音的声纹特征进行训练并生成模型,得到样本语音模型;
将所述已知说话人的属性信息和所述已知说话人的身份信息二者与所述样本语音模型相关联并存储至声纹数据库中。
2.根据权利要求1所述的声纹数据库建立方法,其特征在于,所述属性信息包括年龄段信息和性别信息。
3.根据权利要求1所述的声纹数据库建立方法,其特征在于,所述模型具体为高斯混合模型。
4.根据权利要求1所述的声纹数据库建立方法,其特征在于,所述预先建立的算法模型是依据预设算法和多个声纹信息进行建立的,其建立过程为:采用预设算法对与多个声纹信息分别对应的声纹特征进行分析训练,得到算法识别模型;所述预设算法包括性别识别算法和年龄段识别算法。
5.根据权利要求1所述的声纹数据库建立方法,其特征在于,所述声纹特征包括声强、响度、音高、基音周期和基音频率中的一种或多种。
6.一种声纹识别方法,基于权利要求1-5任一所述声纹数据库建立方法,其特征在于,所述声纹识别方法包括如下步骤:
采集未知说话人的检材语言,提取所述检材语音的声纹特征;
采用预先建立的所述算法模型预测所述检材语音的说话人的属性信息,得到检材预测信息;
在声纹数据库中筛选出所述已知说话人的属性信息与所述检材预测信息一致的样本语音模型;
将所述检材语音的声纹特征与筛选出的所述样本语音模型进行匹配,将筛选出的所述样本语音模型根据与所述检材语音的相似度进行排序;
根据筛选出的所述样本语音模型的排序从高到低输出与所述样本语音模型相关联的已知说话人的身份信息。
7.根据权利要求6所述的声纹识别方法,其特征在于,所述预先建立的算法模型还对所述检材语音进行情绪信息预测,得到所述情绪信息。
8.根据权利要求7所述的声纹识别方法,其特征在于,输出所述样本语音模型对应的已知说话人的身份信息时,所述检材语音的所述情绪信息被一同输出。
9.根据权利要求6所述的声纹识别方法,其特征在于,将所述检材语音的声纹特征与筛选出的所述样本语音模型进行匹配后,根据所述样本语音模型与所述检材语音的相似程度进行打分。
10.根据权利要求6所述的声纹识别方法,其特征在于,输出所述样本语音模型对应的已知说话人的身份信息时,可以设定输出的数量。
CN202010007842.5A 2020-01-06 2020-01-06 一种声纹数据库建立方法及声纹识别方法 Expired - Fee Related CN110797032B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010007842.5A CN110797032B (zh) 2020-01-06 2020-01-06 一种声纹数据库建立方法及声纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010007842.5A CN110797032B (zh) 2020-01-06 2020-01-06 一种声纹数据库建立方法及声纹识别方法

Publications (2)

Publication Number Publication Date
CN110797032A true CN110797032A (zh) 2020-02-14
CN110797032B CN110797032B (zh) 2020-05-12

Family

ID=69448503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010007842.5A Expired - Fee Related CN110797032B (zh) 2020-01-06 2020-01-06 一种声纹数据库建立方法及声纹识别方法

Country Status (1)

Country Link
CN (1) CN110797032B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112185344A (zh) * 2020-09-27 2021-01-05 北京捷通华声科技股份有限公司 语音交互方法、装置、计算机可读存储介质和处理器
CN113327617A (zh) * 2021-05-17 2021-08-31 西安讯飞超脑信息科技有限公司 声纹判别方法、装置、计算机设备和存储介质
CN113327618A (zh) * 2021-05-17 2021-08-31 西安讯飞超脑信息科技有限公司 声纹判别方法、装置、计算机设备和存储介质
WO2021174760A1 (zh) * 2020-03-03 2021-09-10 深圳壹账通智能科技有限公司 声纹数据生成方法、装置、计算机装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130166301A1 (en) * 2010-02-09 2013-06-27 International Business Machines Corporation Adaptive voice print for conversational biometric engine
CN105513597A (zh) * 2015-12-30 2016-04-20 百度在线网络技术(北京)有限公司 声纹认证处理方法及装置
CN107481720A (zh) * 2017-06-30 2017-12-15 百度在线网络技术(北京)有限公司 一种显式声纹识别方法及装置
CN109036436A (zh) * 2018-09-18 2018-12-18 广州势必可赢网络科技有限公司 一种声纹数据库建立方法、声纹识别方法、装置及系统
CN110265040A (zh) * 2019-06-20 2019-09-20 Oppo广东移动通信有限公司 声纹模型的训练方法、装置、存储介质及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130166301A1 (en) * 2010-02-09 2013-06-27 International Business Machines Corporation Adaptive voice print for conversational biometric engine
CN105513597A (zh) * 2015-12-30 2016-04-20 百度在线网络技术(北京)有限公司 声纹认证处理方法及装置
CN107481720A (zh) * 2017-06-30 2017-12-15 百度在线网络技术(北京)有限公司 一种显式声纹识别方法及装置
CN109036436A (zh) * 2018-09-18 2018-12-18 广州势必可赢网络科技有限公司 一种声纹数据库建立方法、声纹识别方法、装置及系统
CN110265040A (zh) * 2019-06-20 2019-09-20 Oppo广东移动通信有限公司 声纹模型的训练方法、装置、存储介质及电子设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021174760A1 (zh) * 2020-03-03 2021-09-10 深圳壹账通智能科技有限公司 声纹数据生成方法、装置、计算机装置及存储介质
CN112185344A (zh) * 2020-09-27 2021-01-05 北京捷通华声科技股份有限公司 语音交互方法、装置、计算机可读存储介质和处理器
CN113327617A (zh) * 2021-05-17 2021-08-31 西安讯飞超脑信息科技有限公司 声纹判别方法、装置、计算机设备和存储介质
CN113327618A (zh) * 2021-05-17 2021-08-31 西安讯飞超脑信息科技有限公司 声纹判别方法、装置、计算机设备和存储介质
CN113327617B (zh) * 2021-05-17 2024-04-19 西安讯飞超脑信息科技有限公司 声纹判别方法、装置、计算机设备和存储介质
CN113327618B (zh) * 2021-05-17 2024-04-19 西安讯飞超脑信息科技有限公司 声纹判别方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN110797032B (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN112804400B (zh) 客服呼叫语音质检方法、装置、电子设备及存储介质
CN110797032B (zh) 一种声纹数据库建立方法及声纹识别方法
WO2021128741A1 (zh) 语音情绪波动分析方法、装置、计算机设备及存储介质
CN107154257B (zh) 基于客户语音情感的客服服务质量评价方法及系统
WO2020211354A1 (zh) 基于说话内容的说话者身份识别方法、装置及存储介质
CN105938716A (zh) 一种基于多精度拟合的样本复制语音自动检测方法
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
CN105895078A (zh) 动态选择语音模型的语音识别方法及装置
CN110136696B (zh) 音频数据的监控处理方法和系统
US20180308501A1 (en) Multi speaker attribution using personal grammar detection
CN112259083B (zh) 音频处理方法及装置
CN110782902A (zh) 音频数据确定方法、装置、设备和介质
CN113920986A (zh) 会议记录生成方法、装置、设备及存储介质
CN114373452A (zh) 基于深度学习的嗓音异常识别和评价的方法及系统
Mary et al. Analysis and detection of mimicked speech based on prosodic features
CN108665901B (zh) 一种音素/音节提取方法及装置
CN109817223A (zh) 基于音频指纹的音素标记方法及装置
Bancroft et al. Exploring the intersection between speaker verification and emotion recognition
KR102113879B1 (ko) 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치
CN113990288B (zh) 一种语音客服自动生成部署语音合成模型的方法
CN112466287B (zh) 一种语音分割方法、装置以及计算机可读存储介质
CN110931020B (zh) 一种语音检测方法及装置
CN113409774A (zh) 语音识别方法、装置及电子设备
US7454337B1 (en) Method of modeling single data class from multi-class data
Manikandan et al. Speaker identification using a novel prosody with fuzzy based hierarchical decision tree approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220302

Address after: 518000 1505, floor 15, block a, building 7 (blocks a and B, Guohong building), No. 2283, Meilong Avenue, Qinghua community, Longhua street, Longhua District, Shenzhen, Guangdong

Patentee after: Shenzhen Sound Power Technology Co.,Ltd.

Address before: 518000 7e, building 6, Baoneng Science Park, Qinghu village, Qinghu community, Longhua street, Longhua District, Shenzhen, Guangdong Province

Patentee before: SHENZHEN ZHONGCHUANGHUAAN TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200512

CF01 Termination of patent right due to non-payment of annual fee