CN111063360B - 一种声纹库的生成方法和装置 - Google Patents
一种声纹库的生成方法和装置 Download PDFInfo
- Publication number
- CN111063360B CN111063360B CN202010071212.4A CN202010071212A CN111063360B CN 111063360 B CN111063360 B CN 111063360B CN 202010071212 A CN202010071212 A CN 202010071212A CN 111063360 B CN111063360 B CN 111063360B
- Authority
- CN
- China
- Prior art keywords
- audio
- voiceprint
- candidate
- calculating
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000009193 crawling Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000007477 logistic regression Methods 0.000 claims description 3
- 230000001755 vocal effect Effects 0.000 claims 1
- 238000010801 machine learning Methods 0.000 abstract description 5
- 238000013145 classification model Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种声纹库的生成方法和装置,该方法包括以下步骤:获取目标说话人的音频数据库,从所述音频数据库中标注出一个或多个标准音频段,将所述标准音频段保存到声纹库;提取所述标准音频段的第一声纹特征;提取所述音频数据库中的候选音频段的第二声纹特征;计算所述第一声纹特征与所述第二声纹特征之间的相似度;计算所述候选音频段的离散系数;根据所述相似度和所述离散系数,计算所述候选音频段的置信度;在所述置信度大于或等于预设阈值的情况下,将所述候选音频段保存到所述声纹库。本发明依靠机器学习的方法自动生成声纹库,能够减少人为失误,提高数据精度,并降低成本。
Description
技术领域
本发明涉及音频技术领域,特别涉及一种声纹库的生成方法和装置。
背景技术
声纹识别,又称说话人识别,是一种从语音信号中提取说话人相关特征,并对该特征进行分析以判断说话人身份的技术。声纹识别广泛应用于安全监控、智能设备唤醒与交互等领域,并从传统的GMM-UBM模型发展到近年来的ivector特征以及最新的深度学习方法,取得了大幅进步。
然而,在真实、自然的环境下,声纹识别依然面临巨大的挑战,原因在于:背景中的噪音、音乐和其他人声的叠加,以及录音设备和信道等因素,影响到音频信号的质量;且说话人的声音特性受到情绪、年龄、身体状况等因素的影响而有所差异。最新的深度学习技术可在大数据量的条件下发挥巨大优势,但如何获取大量的、覆盖上述问题的数据一直是亟待解决的问题。
发明内容
本发明提供了一种声纹库的生成方法和装置,以解决现有技术无法大量获取声纹数据的缺陷。
本发明提供了一种声纹库的生成方法,包括以下步骤:
获取目标说话人的音频数据库,从所述音频数据库中标注出一个或多个标准音频段,将所述标准音频段保存到声纹库;
提取所述标准音频段的第一声纹特征;
提取所述音频数据库中的候选音频段的第二声纹特征;
计算所述第一声纹特征与所述第二声纹特征之间的相似度;
计算所述候选音频段的离散系数;
根据所述相似度和所述离散系数,计算所述候选音频段的置信度;
在所述置信度大于或等于预设阈值的情况下,将所述候选音频段保存到所述声纹库。
可选地,所述提取所述音频数据库中的候选音频段的第二声纹特征之前,还包括:
对所述音频数据库中除所述标准音频段之外的其他音频进行分割,得到多个候选音频段。
可选地,所述获取目标说话人的音频数据库,具体包括:
使用预设信息和所述目标说话人的人名作为搜索条件,爬取网络视频;
从所述网络视频中提取所述目标说话人的音频数据库。
可选地,所述预设信息为“访谈”和/或“采访”字样。
可选地,所述计算所述候选音频段的离散系数,包括:
使用预设时长以及预设移动步长的时间窗,将所述候选音频段分割成多个音频片段;
提取每个所述音频片段的声纹特征,根据多个所述音频片段的声纹特征,计算所述候选音频段的离散系数。
本发明还提供了一种声纹库的生成装置,包括:
获取模块,用于获取目标说话人的音频数据库;
标注模块,用于从所述音频数据库中标注出一个或多个标准音频段,将所述标准音频段保存到声纹库;
第一提取模块,用于提取所述标准音频段的第一声纹特征;
第二提取模块,用于提取所述音频数据库中的候选音频段的第二声纹特征;
第一计算模块,用于计算所述第一声纹特征与所述第二声纹特征之间的相似度;
第二计算模块,用于计算所述候选音频段的离散系数;
第三计算模块,用于根据所述相似度和所述离散系数,计算所述候选音频段的置信度;
保存模块,用于在所述置信度大于或等于预设阈值的情况下,将所述候选音频段保存到所述声纹库。
可选地,所述的装置,还包括:
分割模块,用于对所述音频数据库中除所述标准音频段之外的其他音频进行分割,得到多个候选音频段。
可选地,所述获取模块,具体用于使用预设信息和所述目标说话人的人名作为搜索条件,爬取网络视频;从所述网络视频中提取所述目标说话人的音频数据库。
可选地,所述预设信息为“访谈”和/或“采访”字样。
可选地,所述第二计算模块,具体用于使用预设时长以及预设移动步长的时间窗,将所述候选音频段分割成多个音频片段;提取每个所述音频片段的声纹特征,根据多个所述音频片段的声纹特征,计算所述候选音频段的离散系数。
本发明根据声纹特征之间的相似度以及候选音频段的离散系数,将符合条件的候选音频段保存到声纹库,从而实现依靠机器学习的方法自动生成声纹库,能够减少人为失误,提高数据精度,并降低成本。
附图说明
图1为本发明实施例中的一种声纹库的生成方法流程图;
图2为本发明实施例中的另一种声纹库的生成方法流程图;
图3为本发明实施例中的一种“精度-召回曲线”的示意图;
图4为本发明实施例中的一种声纹库的生成装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种声纹库的生成方法,如图1所示,包括以下步骤::
步骤101,获取目标说话人的音频数据库,从音频数据库中标注出一个或多个标准音频段,将标准音频段保存到声纹库。
具体地,可以使用预设信息和目标说话人的人名作为搜索条件,爬取网络视频,并从网络视频中提取目标说话人的音频数据库。
步骤102,提取标准音频段的第一声纹特征。
步骤103,提取音频数据库中的候选音频段的第二声纹特征。
步骤104,计算第一声纹特征与第二声纹特征之间的相似度。
步骤105,计算候选音频段的离散系数。
具体地,可以使用预设时长以及预设移动步长的时间窗,将候选音频段分割成多个音频片段;提取每个音频片段的声纹特征,根据多个音频片段的声纹特征,计算候选音频段的离散系数。
步骤106,根据相似度和离散系数,计算候选音频段的置信度。
步骤107,在置信度大于或等于预设阈值的情况下,将候选音频段保存到声纹库。
本发明实施例根据声纹特征之间的相似度以及候选音频段的离散系数,将符合条件的候选音频段保存到声纹库,从而实现依靠机器学习的方法自动生成声纹库,能够减少人为失误,提高数据精度,并降低成本。
本发明实施例提供了另一种声纹库的生成方法,如图2所示,包括以下步骤:
步骤201,使用预设信息和目标说话人的人名作为搜索条件,爬取网络视频。
其中,预设信息为“访谈”和/或“采访”字样。由于与目标说话人相关的新闻报道往往不包含与目标说话人相关的视频数据,通过将“访谈”和/或“采访”字样作为搜索条件,能够避免爬取到新闻报道等视频。
本实施例中,在爬取网络视频之前,需要准备目标说话人列表。由于需要保证针对每个说话人爬取到足够多的网络视频,因此,可以选取公众人物作为目标说话人。例如,目标说话人列表中包括中、日、韩各界名人,共5000人。相应地,在准备目标说话人列表后,根据各个目标说话人的人名以及“访谈”和/或“采访”字样,爬取网络视频。
步骤202,从网络视频中提取目标说话人的音频数据库。
具体地,可以从每个目标说话人的网络视频中提取足够长的音频数据,作为各个目标说话人的音频数据库,从而实现按照人名分类存放音频数据。
步骤203,从音频数据库中标注出一个或多个标准音频段,将标准音频段保存到声纹库。
具体地,可以对音频数据库中的音频数据进行语音端点检测,得到有效语音段,并以该音频数据库对应的网络视频的画面作为辅助,从有效语音段中人工标注出一个或多个标准音频段。
其中,标准音频段可以是时长为30秒的干净音频,即,在标准音频段中只有目标说话人的声音,且噪音等环境条件在合理范围内。由于人工标注有视频画面作为辅助,能够确保标注的正确性。
步骤204,提取标准音频段的第一声纹特征。
具体地,可以将标准音频段输入到说话人分类模型中,将该模型的倒数第二层的输出作为标准音频段的第一声纹特征,即,目标说话人的身份标识。其中,说话人分类模型是一个训练好的深度神经网络,第一声纹特征为x-vector特征。
需要说明的是,本实施例以x-vector特征作为声纹特征为例进行说明,在本发明的其他实施例中,还可以将i-vector特征或d-vector特征作为声纹特征。
步骤205,对音频数据库中除标准音频段之外的其他音频进行分割,得到多个候选音频段。
具体地,可以对音频数据库中除标准音频段之外的其他音频进行语音活动检测,即过滤掉噪音和音乐,并将人声切割成小片段,仅保留3秒-15秒的片段,从而得到多个候选音频段。由于候选音频段中通常会包含其他人的声音,或目标说话人与其他人的声音叠加,因此需进一步筛选。
需要说明的是,在分割得到多个候选音频段后,可以针对每个候选音频段,执行以下步骤。
步骤206,提取候选音频段的第二声纹特征。
具体地,可以将候选音频段输入到说话人分类模型中,将该模型的倒数第二层的输出作为标准音频段的第二声纹特征。其中,说话人分类模型是一个训练好的深度神经网络,第二声纹特征为x-vector特征。
需要说明的是,本实施例以x-vector特征作为声纹特征为例进行说明,在本发明的其他实施例中,还可以将i-vector特征或d-vector特征作为声纹特征。
步骤207,计算第一声纹特征与第二声纹特征之间的相似度。
具体地,可以对第一声纹特征与第二声纹特征分别计算余弦相似度、概率线性判别,以及计算皮尔森相关系数,将计算结果分别记为:s1、s2和s3。
步骤208,计算候选音频段的离散系数。
具体地,可以使用预设时长以及预设移动步长的时间窗,将候选音频段分割成多个音频片段;提取每个音频片段的声纹特征,根据多个音频片段的声纹特征,计算候选音频段的离散系数。
本实施例中,预设时长为1.5秒,预设移动步长为0.5秒,即,时间窗的窗长为1.5秒,窗移为0.5秒。通过计算多个音频片段的声纹特征的标准差与均值的比值,得到候选音频段的离散系数,即s0。
步骤209,根据相似度和离散系数,计算候选音频段的置信度。
具体地,可以结合上述得分(s0,s1,s2,s3),通过逻辑回归得到置信度S,该置信度S用于衡量第一声纹特征与第二声纹特征之间的多维度相似度。
步骤210,判断候选音频段的置信度是否小于预设阈值,如果是,则执行步骤211;否则,执行步骤212。
本实施例中,为保证不需人工参与筛查候选音频段,以完全自动的方式提取出目标说话人的音频,故选取能够使得筛选精度达到100%的预设阈值t,即图3所示的“精度(precision)-召回(recall)曲线”中的示意点,使得错误接受概率为零。因此,采用本方案生成的声纹库的正确率可接近100%。
步骤211,丢弃候选音频段。
步骤212,将候选音频段保存到声纹库。
本发明实施例采用机器自动筛选为主、人工标注为辅的方法,从爬取到的网络视频中提取出目标说话人的音频数据,由于网络视频的来源广、种类多、时间跨度长,使得获取到的声纹库中的目标说话人的音频特性、情绪状态和表达方式都是丰富多样的,甚至能得到一个人在不同年龄的音频数据,从而覆盖丰富多样的声学条件,在声纹识别领域极具价值。此外,在获取大量的高质量音频数据的情况下,尽可能地依靠机器学习的方法自动获取、筛选出所需数据,并在机器大规模筛选中,通过综合置信度的评定以及高精度阈值的选取设定,能够减少人为失误,提高数据精度,并降低成本。
基于上述方法实施例,本发明实施例还提供了一种声纹库的生成装置,如图4所示,包括:
获取模块401,用于获取目标说话人的音频数据库;
具体地,获取模块401,具体用于使用预设信息和所述目标说话人的人名作为搜索条件,爬取网络视频;从所述网络视频中提取所述目标说话人的音频数据库。
其中,预设信息可以为“访谈”和/或“采访”字样。
标注模块402,用于从所述音频数据库中标注出一个或多个标准音频段,将所述标准音频段保存到声纹库;
第一提取模块403,用于提取所述标准音频段的第一声纹特征;
第二提取模块404,用于提取所述音频数据库中的候选音频段的第二声纹特征;
第一计算模块405,用于计算所述第一声纹特征与所述第二声纹特征之间的相似度;
第二计算模块406,用于计算所述候选音频段的离散系数;
具体地,第二计算模块406,具体用于使用预设时长以及预设移动步长的时间窗,将所述候选音频段分割成多个音频片段;提取每个所述音频片段的声纹特征,根据多个所述音频片段的声纹特征,计算所述候选音频段的离散系数。
第三计算模块407,用于根据所述相似度和所述离散系数,计算所述候选音频段的置信度;
保存模块408,用于在所述置信度大于或等于预设阈值的情况下,将所述候选音频段保存到所述声纹库。
进一步的,上述装置,还包括:
分割模块,用于对所述音频数据库中除所述标准音频段之外的其他音频进行分割,得到多个候选音频段。
本发明实施例根据声纹特征之间的相似度以及候选音频段的离散系数,将符合条件的候选音频段保存到声纹库,从而实现依靠机器学习的方法自动生成声纹库,能够减少人为失误,提高数据精度,并降低成本。
结合本文中所公开的实施例描述的方法中的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种声纹库的生成方法,其特征在于,包括以下步骤:
获取目标说话人的音频数据库,从所述音频数据库中标注出一个或多个标准音频段,将所述标准音频段保存到声纹库;
提取所述标准音频段的第一声纹特征;
提取所述音频数据库中的候选音频段的第二声纹特征;
计算所述第一声纹特征与所述第二声纹特征之间的相似度;
计算所述候选音频段的离散系数;
根据所述相似度和所述离散系数,计算所述候选音频段的置信度;
在所述置信度大于或等于预设阈值的情况下,将所述候选音频段保存到所述声纹库;
所述计算所述第一声纹特征与所述第二声纹特征之间的相似度,包括:
对所述第一声纹特征与所述第二声纹特征分别计算余弦相似度、概率线性判别,以及计算皮尔森相关系数;
所述根据所述相似度和所述离散系数,计算所述候选音频段的置信度,包括:
结合所述余弦相似度、所述概率线性判别、所述皮尔森相关系数,以及所述离散系数,通过逻辑回归得到所述候选音频段的置信度,所述置信度用于衡量所述第一声纹特征与所述第二声纹特征之间的多维度相似度。
2.如权利要求1所述的方法,其特征在于,所述提取所述音频数据库中的候选音频段的第二声纹特征之前,还包括:
对所述音频数据库中除所述标准音频段之外的其他音频进行分割,得到多个候选音频段。
3.如权利要求1所述的方法,其特征在于,所述获取目标说话人的音频数据库,具体包括:
使用预设信息和所述目标说话人的人名作为搜索条件,爬取网络视频;
从所述网络视频中提取所述目标说话人的音频数据库。
4.如权利要求3所述的方法,其特征在于,所述预设信息为“访谈”和/或“采访”字样。
5.如权利要求1所述的方法,其特征在于,所述计算所述候选音频段的离散系数,包括:
使用预设时长以及预设移动步长的时间窗,将所述候选音频段分割成多个音频片段;
提取每个所述音频片段的声纹特征,根据多个所述音频片段的声纹特征,计算所述候选音频段的离散系数。
6.一种声纹库的生成装置,其特征在于,包括:
获取模块,用于获取目标说话人的音频数据库;
标注模块,用于从所述音频数据库中标注出一个或多个标准音频段,将所述标准音频段保存到声纹库;
第一提取模块,用于提取所述标准音频段的第一声纹特征;
第二提取模块,用于提取所述音频数据库中的候选音频段的第二声纹特征;
第一计算模块,用于计算所述第一声纹特征与所述第二声纹特征之间的相似度;
第二计算模块,用于计算所述候选音频段的离散系数;
第三计算模块,用于根据所述相似度和所述离散系数,计算所述候选音频段的置信度;
保存模块,用于在所述置信度大于或等于预设阈值的情况下,将所述候选音频段保存到所述声纹库;
所述第一计算模块,具体用于对所述第一声纹特征与所述第二声纹特征分别计算余弦相似度、概率线性判别,以及计算皮尔森相关系数;
所述第三计算模块,具体用于结合所述余弦相似度、所述概率线性判别、所述皮尔森相关系数,以及所述离散系数,通过逻辑回归得到所述候选音频段的置信度,所述置信度用于衡量所述第一声纹特征与所述第二声纹特征之间的多维度相似度。
7.如权利要求6所述的装置,其特征在于,还包括:
分割模块,用于对所述音频数据库中除所述标准音频段之外的其他音频进行分割,得到多个候选音频段。
8.如权利要求6所述的装置,其特征在于,
所述获取模块,具体用于使用预设信息和所述目标说话人的人名作为搜索条件,爬取网络视频;从所述网络视频中提取所述目标说话人的音频数据库。
9.如权利要求8所述的装置,其特征在于,所述预设信息为“访谈”和/或“采访”字样。
10.如权利要求6所述的装置,其特征在于,
所述第二计算模块,具体用于使用预设时长以及预设移动步长的时间窗,将所述候选音频段分割成多个音频片段;提取每个所述音频片段的声纹特征,根据多个所述音频片段的声纹特征,计算所述候选音频段的离散系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010071212.4A CN111063360B (zh) | 2020-01-21 | 2020-01-21 | 一种声纹库的生成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010071212.4A CN111063360B (zh) | 2020-01-21 | 2020-01-21 | 一种声纹库的生成方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111063360A CN111063360A (zh) | 2020-04-24 |
CN111063360B true CN111063360B (zh) | 2022-08-19 |
Family
ID=70307970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010071212.4A Active CN111063360B (zh) | 2020-01-21 | 2020-01-21 | 一种声纹库的生成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111063360B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022236827A1 (zh) * | 2021-05-14 | 2022-11-17 | 华为技术有限公司 | 一种声纹管理方法及装置 |
CN116597839B (zh) * | 2023-07-17 | 2023-09-19 | 山东唐和智能科技有限公司 | 一种智能语音交互系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106373575A (zh) * | 2015-07-23 | 2017-02-01 | 阿里巴巴集团控股有限公司 | 一种用户声纹模型构建方法、装置及系统 |
CN108231082A (zh) * | 2017-12-29 | 2018-06-29 | 广州势必可赢网络科技有限公司 | 一种自学习声纹识别的更新方法和装置 |
CN110600038A (zh) * | 2019-08-23 | 2019-12-20 | 北京工业大学 | 一种基于离散基尼系数的音频指纹降维方法 |
CN110648671A (zh) * | 2019-08-21 | 2020-01-03 | 广州国音智能科技有限公司 | 声纹模型重建方法、终端、装置及可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9721571B2 (en) * | 2015-06-14 | 2017-08-01 | Nice Ltd. | System and method for voice print generation |
US10003895B2 (en) * | 2015-12-10 | 2018-06-19 | Cisco Technology, Inc. | Selective environmental classification synchronization |
-
2020
- 2020-01-21 CN CN202010071212.4A patent/CN111063360B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106373575A (zh) * | 2015-07-23 | 2017-02-01 | 阿里巴巴集团控股有限公司 | 一种用户声纹模型构建方法、装置及系统 |
CN108231082A (zh) * | 2017-12-29 | 2018-06-29 | 广州势必可赢网络科技有限公司 | 一种自学习声纹识别的更新方法和装置 |
CN110648671A (zh) * | 2019-08-21 | 2020-01-03 | 广州国音智能科技有限公司 | 声纹模型重建方法、终端、装置及可读存储介质 |
CN110600038A (zh) * | 2019-08-23 | 2019-12-20 | 北京工业大学 | 一种基于离散基尼系数的音频指纹降维方法 |
Non-Patent Citations (2)
Title |
---|
声纹自动识别技术与声纹库建设应用;李敬阳等;《警察技术》;20120707(第4期);全文 * |
深度迁移模型下的小样本声纹识别方法;孙存威等;《计算机工程与设计》;20181216(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111063360A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11900947B2 (en) | Method and system for automatically diarising a sound recording | |
CN111128223B (zh) | 一种基于文本信息的辅助说话人分离方法及相关装置 | |
US8918316B2 (en) | Content identification system | |
JP4442081B2 (ja) | 音声抄録選択方法 | |
US7263485B2 (en) | Robust detection and classification of objects in audio using limited training data | |
CN107562760B (zh) | 一种语音数据处理方法及装置 | |
EP1531478A1 (en) | Apparatus and method for classifying an audio signal | |
JPWO2005069171A1 (ja) | 文書対応付け装置、および文書対応付け方法 | |
CN111063360B (zh) | 一种声纹库的生成方法和装置 | |
JP2009544985A (ja) | コンピュータによって実施されるビデオをセグメント化する方法 | |
CN111429943B (zh) | 音频中音乐及音乐相对响度的联合检测方法 | |
CN113421586A (zh) | 梦呓识别方法、装置和电子设备 | |
US7680654B2 (en) | Apparatus and method for segmentation of audio data into meta patterns | |
CN111429919B (zh) | 基于会议实录系统的防串音方法、电子装置及存储介质 | |
CN113420178A (zh) | 一种数据处理方法以及设备 | |
CN112992175B (zh) | 一种语音区分方法及其语音记录装置 | |
US7454337B1 (en) | Method of modeling single data class from multi-class data | |
CN111681671A (zh) | 异常音识别方法、装置及计算机存储介质 | |
CN114360580B (zh) | 基于多特征决策融合的音频copy-move篡改检测与定位方法和系统 | |
Kartik et al. | Speaker change detection using support vector machines | |
Vuorinen et al. | Unsupervised speaker change detection for mobile device recorded speech | |
CN116013322A (zh) | 一种台词对应人物的确定方法、装置及电子设备 | |
Wang et al. | Speaker-and-environment change detection in broadcast news using the common component GMM-based divergence measure. | |
CN117807564A (zh) | 音频数据的侵权识别方法、装置、设备及介质 | |
CN114038482A (zh) | 一种口语发音测评方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 411, 4th floor, building 4, No.44, Middle North Third Ring Road, Haidian District, Beijing 100088 Patentee after: Beijing Qingshu Intelligent Technology Co.,Ltd. Address before: 100044 1415, 14th floor, building 1, yard 59, gaoliangqiaoxie street, Haidian District, Beijing Patentee before: BEIJING AISHU WISDOM TECHNOLOGY CO.,LTD. |