CN105679324A - 一种声纹识别相似度评分的方法和装置 - Google Patents
一种声纹识别相似度评分的方法和装置 Download PDFInfo
- Publication number
- CN105679324A CN105679324A CN201511016012.4A CN201511016012A CN105679324A CN 105679324 A CN105679324 A CN 105679324A CN 201511016012 A CN201511016012 A CN 201511016012A CN 105679324 A CN105679324 A CN 105679324A
- Authority
- CN
- China
- Prior art keywords
- score
- application
- voiceprint recognition
- score set
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013077 scoring method Methods 0.000 title abstract 3
- 238000000034 method Methods 0.000 claims abstract description 46
- 230000000630 rising effect Effects 0.000 claims description 69
- 230000001755 vocal effect Effects 0.000 claims description 23
- 239000000463 material Substances 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 15
- 238000011156 evaluation Methods 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 14
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000004321 preservation Methods 0.000 description 2
- 230000003019 stabilising effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000931705 Cicada Species 0.000 description 1
- 241001441724 Tetraodontidae Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/12—Score normalisation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种声纹识别相似度评分方法和装置,其中方法包括如下步骤:获取声纹数据,并将声纹数据与语料库中所有的声音模型进行匹配,得到第二声纹识别得分集合;语料库中的各个对象的语料子集中挑选若干音频数据与语料库中所有的声音模型进行匹配,得到各自的第一声纹识别得分集合;根据第二声纹识别得分集合的高低顺序分配对应的第一得分系数集合;根据第一声纹识别得分集合和第二声纹识别得分集合计算对应的第二得分系数集合。本发明通过第一声纹识别得分和第二声纹识别得分并算上权重,对声纹识别进行综合性评定,使得评定的得分结果稳定,区分度高,不易出现声纹识别结果相差大的问题。
Description
技术领域
本发明涉及声纹识别技术领域,尤其涉及一种声纹识别相似度评分的方法和装置。
背景技术
由于歌曲演唱(singing)相对于自然人说话的语音(voice)更为多变和复杂,歌曲演唱虽然也是由人的声道产生声音,但是无论现实演唱还是语料库的歌曲干声语料,都含有音乐伴奏带来的干扰,且目前并没有相关技术可以将音乐和人声完美分离,因此现有声纹识别技术应用于歌曲演唱进行歌唱者识别或者计算相似度时,评分结果不稳定,如,同一个人多次演唱相同或不同歌曲,相关声纹识别得分会出现很大的不同。通常需要得到相对一致的得分时,一方面要求演唱者能够以稳定的音色或演唱技巧进行演唱,并且不含过多背景音乐,如KTV场合,另一方面要求语料库的歌曲干声尽量纯净,即不含过多音乐伴奏。而上述两方面是比较难办到的,导致现有声纹识别评分结果不稳定。
发明内容
为此,需要提供一种声纹识别相似度评分的方法和装置,解决现有声纹识别结果不稳定的问题。
为实现上述目的,发明人提供了一种声纹识别相似度评分的方法,包括如下步骤:
在语料库中的各个对象的语料子集内挑选若干音频数据与语料库中所有的声音模型进行匹配,得到各自的第一声纹识别得分集合;
获取声纹数据,并将声纹数据与语料库中所有的声音模型进行匹配,得到第二声纹识别得分集合;
根据第二声纹识别得分集合的高低顺序分配对应的第一得分系数集合;
根据第一声纹识别得分集合和第二声纹识别得分集合计算对应的第二得分系数集合;
根据第一得分系数集合、第二得分系数集合和二者对应的得分权重算出最终得分集合;
将最终得分集合中最高得分作为声纹相似度的得分。
进一步地,步骤“根据第一声纹识别得分集合和第二声纹识别得分集合计算对应的第二得分系数集合”包括步骤:
根据第一声纹识别得分集合和第二声纹识别得分集合,计算语料库中每个对象的声纹识别得分集合与第二声纹识别得分集合的相关性系数,并根据相关性系数的高低顺序分配对应的第二得分系数集合。
进一步地,所述声纹数据为用户声纹数据,步骤“将声纹数据与语料库中所有的声音模型进行匹配,得到第二声纹识别得分集合”后包括如下步骤:
将用户声纹数据及对应的第二声纹识别得分集合制作为用户的虚拟名片信息并保存。
进一步地,获取虚拟名片信息,根据虚拟名片信息得到用户声纹数据及对应的声纹识别得分集合,将对应的声纹识别得分集合作为第二声纹识别得分集合。
进一步地,步骤“将用户声纹数据及对应的第二声纹识别得分集合制作为用户的虚拟名片信息并保存”包括步骤:
将用户声纹数据及对应的第二声纹识别得分集合经过压缩或者加密后转化为用户虚拟名片字符串信息或者虚拟名片二维码信息。
进一步地,还包括如下步骤:
将最终得分集合中最高得分对应的声音模型作为声纹数据最匹配的声音模型,根据最匹配的声音模型推荐歌曲或者歌曲演唱者。
进一步地,还包括步骤:将语料库中各个对象的语料子集内的音频数据训练得到对应的声音模型。
以及本发明还提供一种声纹识别相似度评分装置,包括如下模块:
第一声纹评分模块:用于在语料库中的各个对象的语料子集内挑选若干音频数据与语料库中所有的声音模型进行匹配,得到各自的第一声纹识别得分集合;
第二声纹评分模块:用于获取声纹数据,并将声纹数据与语料库中所有的声音模型进行匹配,得到第二声纹识别得分集合;
第一得分系数模块:用于根据第二声纹识别得分集合的高低顺序分配对应的第一得分系数集合;
第二得分系数模块:用于根据第一声纹识别得分集合和第二声纹识别得分集合,计算语料库中每个对象的声纹识别得分集合与第二声纹识别得分集合的相关性系数,并根据相关性系数的高低顺序分配对应的第二得分系数集合;
最终得分计算模块:用于根据第一得分系数集合、第二得分系数集合和二者对应的得分权重算出最终得分集合;
相似度得分模块:用于将最终得分集合中最高得分作为声纹相似度的得分。
进一步地,所述声纹数据为用户声纹数据,第一得分系数模块还用于将用户声纹数据及对应的第二声纹识别得分集合制作为用户的虚拟名片信息并保存。
进一步地,第一得分系数模块还用于:将用户声纹数据及对应的第二声纹识别得分集合经过压缩或者加密后转化为用户虚拟名片字符串信息或者虚拟名片二维码信息;
第一得分系数模块还用于获取虚拟名片字符串信息或者虚拟名片二维码信息,根据上述信息得到用户声纹数据及对应的声纹识别得分集合,将对应声纹识别得分集合作为第二声纹识别得分集合。
进一步地,还包括推荐模块:
将最终得分集合中最高得分对应的声音模型作为声纹数据最匹配的声音模型,根据最匹配的声音模型推荐歌曲或者歌曲演唱者。
进一步地,还包括声音模型训练模块:将语料库中各个对象的语料子集内的音频数据训练得到对应的声音模型。
区别于现有技术,上述技术方案具有如下优点:1、第一得分系数优点:一般的声纹识别方法或应用,最终得分即第二声纹识别得分集合,本专利在此基础上将此得分进行排名并按排名分段配置得分系数,最终与第一得分权重(<=100分)相乘作为最终得分的一部分。2、第二得分系数优点:是发明人在实验中发现语料库中每个对象的任意语料与语料库内所有声纹模型进行匹配后得到的得分排名始终保持基本一致(绘制成曲线后,这些曲线走势相近,即相关性高),这一稳定特性最终被本发明人作为“新声纹特征”用于声纹识别,优化最终得分,使得最终得分区分度高,稳定性好。因此将对应用户的第一声纹识别得分与每个语料库对象的声纹识别得分集合进行匹配,相关性高即可以说明用户的声纹特性很大可能性与对应的预料库对象相似。最后,通过第一声纹识别得分和第二声纹识别得分并算上权重,对声纹识别进行综合性评定,使得评定的得分结果稳定,区分度高,可以让声纹识别的结果相对稳定,不易出现声纹识别结果相差大的问题。
附图说明
图1为本发明方法实施例的流程图;
图2为本发明装置实施例的结构示意图。
附图标记说明:
200、声纹识别装置,210、声纹数据,
201、声音模型训练模块,202、第一声纹评分模块,
203、第二声纹评分模块,204、第一得分系数模块,
205、第二得分系数模块,206、最终得分计算模块,
207、相似度得分模块,208、推荐模块,
209、存储模块。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1和图2,本实施例提供一种声纹识别相似度评分的方法,用于对声纹数据进行识别和匹配,可以应用于声纹识别装置。其中声纹数据包括存储的声纹数据,如存储在本地或者云端的用户的声纹数据;或者是实时采集的声纹数据,如从麦克风实时采集到的声纹数据。本发明的方法包括如下步骤:步骤S101将语料库中各个对象的语料子集内的音频数据训练得到对应的声音模型。语料库就是语音资料数据库,即是存储有语音资料的数据库。在某些实施例中,步骤S101可以不执行,只需要在语料库中存储可以被使用的声音模型即可。通过步骤S101可以实时对语料库新增的音频数据进行训练得到相应的声音模型。本发明中训练可以使用基于某类声纹特征(如MFCC、LPCC等)和声纹识别算法(如GMM、DTW等)的包含声音训练模块和声音匹配模块的声纹识别装置,其中,各个简写英文的含义如下:梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient,MFCC)、线性预测倒谱系数(LinearPredictionCepstrumCoefficient,LPCC)、高斯混合模型(GaussianMixtureModel,GMM),改进动态时间弯折算法(DynamicTimeWarping,DTW)。本发明在应用到歌曲声音的实施例中,可以将一定数量歌星语料库中对应每个歌星的若干首歌曲干声音频数据训练得到与该语料库中每个歌星对应的声音模型,即每个歌星或者歌曲演唱者对应有声音模型。
上述匹配的同时可以进行步骤S102将语料库中的各个对象的语料子集内挑选若干音频数据与语料库中所有的声音模型进行匹配,得到各自的第一声纹识别得分集合{Pi,j|i=1,2,3,...,N,j=1,2,3,...,N},其中Pi,j表示语料库中第i个音频数据对象与第j个声音模块对象匹配的基础声纹识别得分。在实际应用中,因为语料库中的语料是事先采集、准备好的,第一声纹识别得分集合可以先进行计算并相对持久地存储在云端或后台。只要该语料库质量和数量足够好,甚至就不会再被需要进行重新训练、计算、更新,而永久地保存着。而实际也只有非常必要时,可能会考虑给其中某个对象语料子集中增加、取消或替换某个语料,譬如某个歌星的某首歌的歌曲干声预料被发现有质量问题,替换为另一首歌曲,然后需要重新训练一个声音模型作为该歌星对象的新声音模型,同时也就需要重新计算第一声纹识别得分集合。
而后在步骤S103获取声纹数据,并将声纹数据与语料库中所有的声音模型进行匹配,得到第二声纹识别得分集合。如用户的声纹数据,可以与每个歌星的声音模型进行匹配,匹配操作同样可以使用上述的声纹识别装置。匹配后得到基础声纹识别得分集合{pii=1,2,3,...,N},其中pi表示用户输入的声纹数据与第i个语料库对象匹配的基础声纹识别得分,N则是声音模型的数目总和。
而后在步骤S104根据第二声纹识别得分集合的高低顺序分配对应的第一得分系数集合,即根据{pi|i=1,2,3,...,N}中各项的排名计算得分系数{ai|i=1,2,3,...,N},本发明中得分系数集合可以根据需要进行设定,在本实施例中,可以按照排名顺序进行分组,每组分配预设个数,而后每组的排名分配一个对应的得分系数。如对于前5名,有ai=0.95,6-10名,有ai=0.8,其他类似地进行设置,每个层次的系数区分度要明显即可,需要根据应用和语料库质量情况而设定。
同时还要计算第二得分系数集合,即在步骤S105根据第一声纹识别得分集合和第二声纹识别得分集合计算对应的第二得分系数集合。其中,第二得分系数集合应当要反映第一声纹识别得分与第二声纹识别得分的关联性的大小。具体在某一实施例中,可以为:根据第一声纹识别得分集合和第二声纹识别得分集合,计算语料库中每个对象的声纹识别得分集合与第二声纹识别得分集合的相关性系数,并根据相关性系数的高低顺序分配对应的第二得分系数集合;即根据{pi|i=1,2,3,...,N}和{Pi,j|i=1,2,3,...,N,j=1,2,3,...,N}计算第二得分系数集合{bi|i=1,2,3,...,N}。作为一种可选的计算方式,每个{pi|i=1,2,3,...,N}分别与每组{Pi,j|i=1,2,3,...,N,j=1,2,3,...,N}计算互相关系数然后求平均,即得到{bi|i=1,2,3,...,N}。具体地,bi=xcorr(p,Pi),xcorr表示计算两个序列的互相关系数。p={pj|j=1,2,Λ,N},表示的是用户的声纹数据匹配语料库模型后得到的第二声纹识别得分集合,Pi={Pi,j|j=1,2,Λ,N},表示的是语料库中每个对象与语料库中所有对象的声纹得分集合,所有的Pi即组成所述的第二声纹识别结合。
第一得分系数和第二得分系数计算出来后,进入步骤S106根据第一得分系数集合、第二得分系数集合和二者对应的得分权重算出最终得分集合。其中,第一得分系数集合、第二得分系数集合二者对应的得分权重可以根据实际需要设定,从而保证结果正确可靠并且区分度高,例如对于同一演唱者多次演唱相同或不同歌曲的情况,使得结果趋于稳定,不容易出现每次测试结果不同的情况。如两个权重分别为50,则最终声纹识别得分集合ci=ai×50+bi×50,当然这个权重可以根据需要设置成不同的值。
其中,设置第一得分系数的优点:现在技术中,声纹识别技术描述的声纹识别方法或应用,最终的相似度得分即为本发明中提到的第二声纹识别得分集合中的最高分,本发明在此现有技术的基础上将第二声纹识别得分集合进行排名并按排名分段配置得分系数,最终与第二得分权重(<=100分)相乘得到最终得分的一部分,从而使最终计算得到的声纹相似度的值更加客观。
设置第二得分系数优点:在多次实验过程中发现语料库中每个对象的任意语料与语料库内所有声纹模型进行匹配后得到的得分排名始终保持基本一致(绘制成曲线后,这些曲线走势相近,即相关性高),这一稳定特性在本发明中提取为第二得分系数,作为一“新声纹特征”用于声纹识别,优化最终得分,使得最终得分区分度高,稳定性好,因此将对应用户的第二声纹识别得分与每个语料库对象的声纹识别得分集合进行匹配,相关性高即可以说明用户的声纹特性很大可能性与对应的预料库对象相似。结合本发明第一得分系数和第二得分系数后,计算得到的最高得分声纹相似度更加客观、稳定且区分度好(由于各个层次分配的得分系数不同,从而将各个层次的得分区分开)。
由于最终得分集合的最高得分相对稳定,则可以在步骤S107将最终得分集合中最高得分声纹相似度的得分。上述实施例通过第一声纹识别得分和第二声纹识别得分并算上权重,对声纹识别进行综合性评定,使得评定的得分结果稳定,区分度高,可以让声纹识别的结果相对稳定,不易出现同个用户多次进行声纹识别,结果相差很大的问题。
上述方法可以用于声纹相似度识别,在某些实施例中,可以用作用户的声纹名片信息,即用声纹数据作为用户的身份标识信息,虚拟名片即将用户名片虚拟化信息化。则所述声纹数据为用户声纹数据,步骤S102包括如下步骤:将用户声纹数据及对应的第二声纹识别得分集合制作为用户的虚拟名片信息并保存。这样保存的虚拟名片信息可以用于检索,并最终可以调用到用户声纹数据和第二声纹识别得分集合,用户只需要保存对应的虚拟名片信息即可,无需保存声纹数据和第二声纹识别得分集合。
虚拟名片信息在具体应用时,用户可以输入虚拟名片信息,而后声纹识别装置可以获取虚拟名片信息,根据虚拟名片信息得到已经存储起来的用户声纹和对应的声纹识别得分集合,将对应的声纹识别得分集合作为第二声纹识别得分集合。即在步骤S102计算出用户声纹数据对应的声纹识别得分集合时,存储用户的声纹数据和该声纹识别得分集合为用户虚拟名片信息,而后在需要使用用户相关信息的时候,直接根据用户虚拟名片信息获取对应的用户声纹数据和声纹识别得分集合,则用户输入虚拟名片信息,即可以方便地得到用户声纹数据和第二识别得分集合。
其中,用户的虚拟名片信息可以存在本地或者云端,云端即远程端,如远程服务器端。当本地和云端都存储有用户的虚拟名片信息,则可以对此进行同步。一方面用户可以在本地随时更新自己的虚拟名片信息,另一方面云端可以主动更新用户本地虚拟名片信息中{pi|i=1,2,3,...,N}数据,因为后台可以根据需要调整语料库中任意对象的声纹模型数据。
根据不同的传输需要,可以将虚拟名片信息做成特定的形式,可以做成字符串或者二维码的形式。则步骤“将用户声纹数据和第二声纹识别得分集合存储为用户的虚拟名片信息”包括步骤:将用户声纹数据和第二声纹识别得分集合存储为用户的虚拟名片字符串信息或者虚拟名片二维码信息。在具体操作时,可以对用户的声纹数据和第二声纹识别得分集合进行压缩或者加密,当然也可以压缩后同时加密。压缩方法和加密方法很多,例如:压缩方法包括字典算法,RLE算法,LZ777算法等等;加密方法包括BlowFish,DES等等。压缩或者加密前,不论是用户的声纹特征,还是本实施例中提到的用户的第二声纹识别得分集合,都是一长串直观看来无具体意义的数字,通过压缩、加密后,可以缩短长度,同时兼顾了安全性,最后转化为二维码和字符串形式,就成为比较具体的实体信息。实际应用中是否需要进行加密需要根据应用需求,可能应用时并不需要考虑这方面的安全性问题,则可以不进行加密。在某些具体实施例中,虚拟名片信息的形式可以是将用户的声纹特征数据和{pi|i=1,2,3,...,N}经过压缩形成短“数字+字母”组合的字符串形式存储下来,或者生成对应二维码形式,这些保存形式下对应的信息即为虚拟名片信息,用户即可以通过提供这些信息,而后本发明方法可以利用这些信息匹配到对应的声音模型。
匹配声音模型后,本发明的方法进一步可以用作声音推荐。具体步骤为:将最终得分集合中最高得分对应的声音模型作为声纹数据最匹配的声音模型,根据最匹配的声音模型推荐歌曲或者歌曲演唱者。即取其中得分最高的ci即语料库中第i个对象的声音模型与声纹数据最匹配,或者说最相似。根据这个声音模型可以推荐歌曲或者歌曲演唱者(歌星),即根据用户虚拟名片信息进行精确的音乐歌曲推荐或歌星推荐等等。
以及本发明还提供一种声纹识别相似度评分装置200,声纹识别装置用于对声纹数据210进行识别操作,如图2所示,包括如下模块:声音模型训练模块201:用于将语料库中各个对象的语料子集内的音频数据训练得到对应的声音模型。在某些实施例中,也可以不包括有声音模型训练模块,只要语料库中存储有声音模型即可。第一声纹评分模块202:用于语料库中的各个对象的语料子集中挑选若干音频数据与语料库中所有的声音模型进行匹配,得到各自的第一声纹识别得分集合;第二声纹评分模块203:用于获取声纹数据,并将声纹数据与语料库中所有的声音模型进行匹配,得到第二声纹识别得分集合;第一得分系数模块204:用于根据第二声纹识别得分集合的高低顺序分配对应的第一得分系数集合;第二得分系数模块205:用于根据第一声纹识别得分集合和第二声纹识别得分集合计算对应的第二得分系数集合;最终得分计算模块206:用于根据第一得分系数集合、第二得分系数集合和二者对应的得分权重算出最终得分集合;相似度得分模块207:用于将最终得分集合中最高得分对应的声音模型作为声纹相似度的得分。本装置通过第一声纹识别得分和第二声纹识别得分并算上权重,对声纹识别进行综合性评定,使得评定的得分结果稳定,区分度高,可以让声纹识别的结果相对稳定,不易出现声纹识别结果相差大的问题。
其中本装置可以用于生成用户的虚拟名片信息。则所述声纹数据为用户声纹数据,第一得分系数模块还用于将用户声纹数据及对应的第二声纹识别得分集合制作为用户的虚拟名片信息并保存。保存后的虚拟名片信息可以被本装置识别,即本装置可以识别用户的虚拟名片信息,则第一得分系数模块还用于获取虚拟名片信息,根据虚拟名片信息得到用户声纹数据和对应的声纹识别得分集合,将对应的声纹识别得分集合作为第二声纹识别得分集合。根据用户的虚拟名片信息可以快速得到对应的用户声纹数据和基础声纹识别得分,而后可以根据这些信息获得最匹配的声音模型。
本发明的装置在匹配的声音模型的基础上可以进一步用于信息推荐,则本还包括如下模块:推荐模块208:将最终得分集合中最高得分对应的声音模型作为声纹数据最匹配的声音模型,用于根据最匹配的声音模型推荐歌曲或者歌曲演唱者。用户根据推荐歌曲或者歌曲演唱者可以选择对应的歌曲或者歌曲演唱者对应的歌曲进行演唱。
在某些实施例中,本装置还包括如下模块:存储模块209:用于存储用户的虚拟名片信息到本地和云端,同步本地和云端的虚拟名片信息。通过存储模块可以方便地对用户虚拟名片信息进行存储和更新。
其中,虚拟名片信息可以有多种形式,如字符串或者二维码,则第一得分系数模块还用于将用户声纹数据和对应的第二声纹识别得分集合存储为用户的虚拟名片字符串信息或者虚拟名片二维码信息。在存储的过程中可以根据需要选择压缩或者加密的方式对虚拟名片信息进行相应的操作。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
本领域内的技术人员应明白,上述各实施例可提供为方法、装置、或计算机程序产品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备,包括但不限于:个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等;所述的存储介质,包括但不限于:RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。
上述各实施例是参照根据实施例所述的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到计算机设备的处理器以产生一个机器,使得通过计算机设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机设备以特定方式工作的计算机设备可读存储器中,使得存储在该计算机设备可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机设备上,使得在计算机设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。
Claims (11)
1.一种声纹识别相似度评分的方法,其特征在于,包括如下步骤:
在语料库中的各个对象的语料子集内挑选若干音频数据与语料库中所有的声音模型进行匹配,得到各自的第一声纹识别得分集合;
获取声纹数据,并将声纹数据与语料库中所有的声音模型进行匹配,得到第二声纹识别得分集合;
根据第二声纹识别得分集合的高低顺序分配对应的第一得分系数集合;
根据第一声纹识别得分集合和第二声纹识别得分集合计算对应的第二得分系数集合;
根据第一得分系数集合、第二得分系数集合和二者对应的得分权重算出最终得分集合;
将最终得分集合中最高得分作为声纹相似度的得分。
2.根据权利要求1所述的一种声纹识别相似度评分的方法,其特征在于,步骤“根据第一声纹识别得分集合和第二声纹识别得分集合计算对应的第二得分系数集合”包括步骤:
根据第一声纹识别得分集合和第二声纹识别得分集合,计算语料库中每个对象的声纹识别得分集合与第二声纹识别得分集合的相关性系数,并根据相关性系数的高低顺序分配对应的第二得分系数集合。
3.根据权利要求1所述的一种声纹识别相似度评分的方法,其特征在于,
所述声纹数据为用户声纹数据,步骤“将声纹数据与语料库中所有的声音模型进行匹配,得到第二声纹识别得分集合”后包括如下步骤:
将用户声纹数据及对应的第二声纹识别得分集合制作为用户的虚拟名片信息并保存。
4.根据权利要求3所述的一种声纹识别相似度评分的方法,其特征在于,
获取虚拟名片信息,根据虚拟名片信息得到用户声纹数据及对应的声纹识别得分集合,将对应的声纹识别得分集合作为第二声纹识别得分集合。
5.根据权利要求3所述的一种声纹识别相似度评分的方法,其特征在于,步骤“将用户声纹数据及对应的第二声纹识别得分集合制作为用户的虚拟名片信息并保存”包括步骤:
将用户声纹数据及对应的第二声纹识别得分集合经过压缩或者加密后转化为用户虚拟名片字符串信息或者虚拟名片二维码信息。
6.根据权利要求1所述的一种声纹识别相似度评分的方法,其特征在于,还包括如下步骤:
将最终得分集合中最高得分对应的声音模型作为声纹数据最匹配的声音模型,根据最匹配的声音模型推荐歌曲或者歌曲演唱者。
7.根据权利要求1所述的一种声纹识别相似度评分的方法,其特征在于,还包括步骤:将语料库中各个对象的语料子集内的音频数据训练得到对应的声音模型。
8.一种声纹识别相似度评分装置,其特征在于,包括如下模块:
第一声纹评分模块:用于在语料库中的各个对象的语料子集内挑选若干音频数据与语料库中所有的声音模型进行匹配,得到各自的第一声纹识别得分集合;
第二声纹评分模块:用于获取声纹数据,并将声纹数据与语料库中所有的声音模型进行匹配,得到第二声纹识别得分集合;
第一得分系数模块:用于根据第二声纹识别得分集合的高低顺序分配对应的第一得分系数集合;
第二得分系数模块:用于根据第一声纹识别得分集合和第二声纹识别得分集合,计算语料库中每个对象的声纹识别得分集合与第二声纹识别得分集合的相关性系数,并根据相关性系数的高低顺序分配对应的第二得分系数集合;
最终得分计算模块:用于根据第一得分系数集合、第二得分系数集合和二者对应的得分权重算出最终得分集合;
相似度得分模块:用于将最终得分集合中最高得分作为声纹相似度的得分。
9.根据权利要求8所述的一种声纹识别相似度评分装置,其特征在于,
所述声纹数据为用户声纹数据,第一得分系数模块还用于将用户声纹数据及对应的第二声纹识别得分集合制作为用户的虚拟名片信息并保存。
10.根据权利要求9所述的一种声纹识别相似度评分装置,其特征在于,第一得分系数模块还用于:将用户声纹数据及对应的第二声纹识别得分集合经过压缩或者加密后转化为用户虚拟名片字符串信息或者虚拟名片二维码信息;
第一得分系数模块还用于获取虚拟名片字符串信息或者虚拟名片二维码信息,根据上述信息得到用户声纹数据及对应的声纹识别得分集合,将对应声纹识别得分集合作为第二声纹识别得分集合。
11.根据权利要求8所述的一种声纹识别相似度评分装置,其特征在于,还包括推荐模块:
将最终得分集合中最高得分对应的声音模型作为声纹数据最匹配的声音模型,根据最匹配的声音模型推荐歌曲或者歌曲演唱者。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511016012.4A CN105679324B (zh) | 2015-12-29 | 2015-12-29 | 一种声纹识别相似度评分的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511016012.4A CN105679324B (zh) | 2015-12-29 | 2015-12-29 | 一种声纹识别相似度评分的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105679324A true CN105679324A (zh) | 2016-06-15 |
CN105679324B CN105679324B (zh) | 2019-03-22 |
Family
ID=56189730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511016012.4A Active CN105679324B (zh) | 2015-12-29 | 2015-12-29 | 一种声纹识别相似度评分的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105679324B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108415942A (zh) * | 2018-01-30 | 2018-08-17 | 福建星网视易信息系统有限公司 | 个性化教唱和演唱评分二维码生成方法、装置和系统 |
CN110163460A (zh) * | 2018-03-30 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种确定应用分值的方法及设备 |
CN111009248A (zh) * | 2018-10-05 | 2020-04-14 | 松下电器(美国)知识产权公司 | 说话者识别装置、说话者识别方法及记录介质 |
CN111183322A (zh) * | 2017-10-11 | 2020-05-19 | 三菱电机株式会社 | 空气调节用控制器 |
CN112270929A (zh) * | 2020-11-18 | 2021-01-26 | 上海依图网络科技有限公司 | 一种歌曲识别的方法及装置 |
CN112825109A (zh) * | 2019-11-20 | 2021-05-21 | 南京贝湾信息科技有限公司 | 一种句子对齐方法及计算设备 |
CN113327622A (zh) * | 2021-06-02 | 2021-08-31 | 云知声(上海)智能科技有限公司 | 一种语音分离方法、装置、电子设备和存储介质 |
CN113571054A (zh) * | 2020-04-28 | 2021-10-29 | 中国移动通信集团浙江有限公司 | 语音识别信号预处理方法、装置、设备及计算机存储介质 |
TWI745338B (zh) * | 2017-01-19 | 2021-11-11 | 香港商阿里巴巴集團服務有限公司 | 伴奏音樂的提供方法和裝置 |
CN114299921A (zh) * | 2021-12-07 | 2022-04-08 | 浙江大学 | 一种语音指令的声纹安全性评分方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030236663A1 (en) * | 2002-06-19 | 2003-12-25 | Koninklijke Philips Electronics N.V. | Mega speaker identification (ID) system and corresponding methods therefor |
CN101042870A (zh) * | 2006-03-24 | 2007-09-26 | 雅马哈株式会社 | 用于评估声音间相似度的方法和设备 |
CN102270451A (zh) * | 2011-08-18 | 2011-12-07 | 安徽科大讯飞信息科技股份有限公司 | 说话人识别方法及系统 |
CN102834842A (zh) * | 2010-03-23 | 2012-12-19 | 诺基亚公司 | 用于确定用户年龄范围的方法和装置 |
CN103065623A (zh) * | 2012-12-17 | 2013-04-24 | 深圳Tcl新技术有限公司 | 音色匹配方法和装置 |
CN104183245A (zh) * | 2014-09-04 | 2014-12-03 | 福建星网视易信息系统有限公司 | 一种演唱者音色相似的歌星推荐方法与装置 |
-
2015
- 2015-12-29 CN CN201511016012.4A patent/CN105679324B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030236663A1 (en) * | 2002-06-19 | 2003-12-25 | Koninklijke Philips Electronics N.V. | Mega speaker identification (ID) system and corresponding methods therefor |
CN101042870A (zh) * | 2006-03-24 | 2007-09-26 | 雅马哈株式会社 | 用于评估声音间相似度的方法和设备 |
CN102834842A (zh) * | 2010-03-23 | 2012-12-19 | 诺基亚公司 | 用于确定用户年龄范围的方法和装置 |
CN102270451A (zh) * | 2011-08-18 | 2011-12-07 | 安徽科大讯飞信息科技股份有限公司 | 说话人识别方法及系统 |
CN103065623A (zh) * | 2012-12-17 | 2013-04-24 | 深圳Tcl新技术有限公司 | 音色匹配方法和装置 |
CN104183245A (zh) * | 2014-09-04 | 2014-12-03 | 福建星网视易信息系统有限公司 | 一种演唱者音色相似的歌星推荐方法与装置 |
Non-Patent Citations (1)
Title |
---|
K.-P. LI 等: "Normalizations and selection of speech segments for speaker recognition scoring", 《ICASSP-88., INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI745338B (zh) * | 2017-01-19 | 2021-11-11 | 香港商阿里巴巴集團服務有限公司 | 伴奏音樂的提供方法和裝置 |
CN111183322A (zh) * | 2017-10-11 | 2020-05-19 | 三菱电机株式会社 | 空气调节用控制器 |
CN108415942A (zh) * | 2018-01-30 | 2018-08-17 | 福建星网视易信息系统有限公司 | 个性化教唱和演唱评分二维码生成方法、装置和系统 |
CN108415942B (zh) * | 2018-01-30 | 2021-06-25 | 福建星网视易信息系统有限公司 | 个性化教唱和演唱评分二维码生成方法、装置和系统 |
CN110163460A (zh) * | 2018-03-30 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种确定应用分值的方法及设备 |
CN110163460B (zh) * | 2018-03-30 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 一种确定应用分值的方法及设备 |
CN111009248A (zh) * | 2018-10-05 | 2020-04-14 | 松下电器(美国)知识产权公司 | 说话者识别装置、说话者识别方法及记录介质 |
CN112825109B (zh) * | 2019-11-20 | 2024-02-23 | 南京贝湾信息科技有限公司 | 一种句子对齐方法及计算设备 |
CN112825109A (zh) * | 2019-11-20 | 2021-05-21 | 南京贝湾信息科技有限公司 | 一种句子对齐方法及计算设备 |
CN113571054A (zh) * | 2020-04-28 | 2021-10-29 | 中国移动通信集团浙江有限公司 | 语音识别信号预处理方法、装置、设备及计算机存储介质 |
CN113571054B (zh) * | 2020-04-28 | 2023-08-15 | 中国移动通信集团浙江有限公司 | 语音识别信号预处理方法、装置、设备及计算机存储介质 |
CN112270929A (zh) * | 2020-11-18 | 2021-01-26 | 上海依图网络科技有限公司 | 一种歌曲识别的方法及装置 |
CN112270929B (zh) * | 2020-11-18 | 2024-03-22 | 上海依图网络科技有限公司 | 一种歌曲识别的方法及装置 |
CN113327622A (zh) * | 2021-06-02 | 2021-08-31 | 云知声(上海)智能科技有限公司 | 一种语音分离方法、装置、电子设备和存储介质 |
CN114299921A (zh) * | 2021-12-07 | 2022-04-08 | 浙江大学 | 一种语音指令的声纹安全性评分方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105679324B (zh) | 2019-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105679324A (zh) | 一种声纹识别相似度评分的方法和装置 | |
CN103823867A (zh) | 一种基于音符建模的哼唱式音乐检索方法及系统 | |
CN111309965B (zh) | 音频匹配方法、装置、计算机设备及存储介质 | |
CN107464555A (zh) | 向包含语音的音频数据添加背景声音 | |
CN103824565A (zh) | 一种基于音符和时值建模的哼唱识谱方法及系统 | |
CN105956053A (zh) | 一种基于网络信息的搜索方法及装置 | |
CN106302987A (zh) | 一种音频推荐方法及设备 | |
CN106649644A (zh) | 一种歌词文件生成方法及装置 | |
CN104573114A (zh) | 一种音乐分类方法及装置 | |
CN105677690A (zh) | 生成音乐播放列表的方法和装置 | |
CN107293308A (zh) | 一种音频处理方法及装置 | |
CN102723079A (zh) | 基于稀疏表示的音乐和弦自动识别方法 | |
CN111462761A (zh) | 声纹数据生成方法、装置、计算机装置及存储介质 | |
CN110377782A (zh) | 音频检索方法、装置和存储介质 | |
CN112632318A (zh) | 一种音频推荐方法、装置、系统及存储介质 | |
CN104167211B (zh) | 基于分层事件检测和上下文模型的多源场景声音摘要方法 | |
WO2016102738A1 (en) | Similarity determination and selection of music | |
CN101578600A (zh) | 用于将一个用户的分类标签与由另一个用户定义的分类标签相关联的系统和方法 | |
CN112860850B (zh) | 人机交互方法、装置、设备及存储介质 | |
Siddiquee et al. | Association rule mining and audio signal processing for music discovery and recommendation | |
CN106294563B (zh) | 一种多媒体数据的处理方法和装置 | |
CN105788609A (zh) | 多路音源的关联方法和装置及评定方法和系统 | |
CN111445922A (zh) | 音频匹配方法、装置、计算机设备及存储介质 | |
CN112270929B (zh) | 一种歌曲识别的方法及装置 | |
CN115242927A (zh) | 客服对象分配方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |