CN112509587B - 移动号码与声纹动态匹配及索引构建方法、装置与设备 - Google Patents
移动号码与声纹动态匹配及索引构建方法、装置与设备 Download PDFInfo
- Publication number
- CN112509587B CN112509587B CN202110144671.5A CN202110144671A CN112509587B CN 112509587 B CN112509587 B CN 112509587B CN 202110144671 A CN202110144671 A CN 202110144671A CN 112509587 B CN112509587 B CN 112509587B
- Authority
- CN
- China
- Prior art keywords
- voiceprint
- mobile number
- similar
- owner
- mobile
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000012790 confirmation Methods 0.000 claims abstract description 59
- 230000006854 communication Effects 0.000 claims abstract description 51
- 238000004891 communication Methods 0.000 claims abstract description 50
- 239000013598 vector Substances 0.000 claims description 57
- 239000000284 extract Substances 0.000 claims description 8
- 238000010276 construction Methods 0.000 abstract description 10
- 238000004364 calculation method Methods 0.000 abstract description 4
- 238000000605 extraction Methods 0.000 description 13
- 230000006399 behavior Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 230000003203 everyday effect Effects 0.000 description 4
- 230000002354 daily effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 210000000554 iris Anatomy 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了移动号码与声纹动态匹配及索引构建方法、装置与设备,具体涉及移动号码与所有者声纹的动态匹配、移动号码所有者声纹与移动号码的动态匹配以及移动号码、声纹、身份证件间的索引构建。本发明区分了号码使用者与号码所有者,能够真实反应移动号码在其生命周期内各阶段对应的自然人,在移动号码所有者的确认精度、方便性及确认效率上,都有实质性提升;本发明通过在大的声纹集合里,充分结合高效的汉明距离计算、通讯指纹预运算、多种相似计算逻辑组合,提升了在大声纹集合中匹配相同声纹的精度和效率。使得不同的数字应用即使关联的不同移动号码也能关联到同一自然人这一丰富的应用场景成为可能。
Description
技术领域
本发明涉及通信、信息技术领域,具体涉及移动号码与声纹的动态匹配、索引构建的方法、装置与设备。
背景技术
随着5G、物联网、区块链的应用时代的到来,互联网逐步从信息网络过渡到价值网络。随着人工智能、知识网络应用的到来,现实空间与数字空间、数字空间之间的数据融合要求至新的高度。人工智能、知识网络、价值网络的应用,要求支撑这些网络应用的关键数据,具有相对于人的唯一性和相对于应用的普遍性。
需要一种方法和手段工具,能将人在现实空间和数字空间的行为方便的融合起来,融合后的数据要具有独特性和普遍性,独特性即能区分所有的人,普遍性即能在所有的数字空间里应用。
人的生物特征如人脸、声音、指纹、虹膜等可以数字化,可以在数字空间代表唯一的生物人。人的身份证件号码,可以在数字空间代表现实的人。人的电话号码,可以在数字应用空间代表数字应用的人。生物人、现实人、数字应用人的通用对应方法和工具,是互联网深化应用的前提。
目前的生物人、现实人、数字应用人的对应方法,如短信认证、人脸确认对应,都是局部的对应方法。通用方便的生物人、现实人、数字应用人的对应方法和工具,是互联网深化应用绕不过去的过程。
自然人在现实空间的行为是通过身份证件号码关联的,在数字空间的行为是通过应用注册ID关联的。自然人的生物人特征,如指纹、人脸、声音、虹膜等是唯一、孪生的,不可伪造。自然人的现实人特征,如身份证件号码,是法律意义上的自然人唯一代表,在应用时需要确认与自然人的对应。自然人的数字人特征,如电话号码,是自然人在数字应用中的一般代表,在应用时没有限定。因此,即使应用ID捆绑了证件号码,也不能证明该应用是对应的自然人所为,对于一些要严格确认自然人的应用,要经常性的进行如人脸、声纹、指纹的生物验证。这种在应用过程中频繁的进行验证的方法一是应用场景的局限、二是麻烦、三是不能普及到所有人群。需要一种通用的、方便的、可以普及到所有人的数字应用中自然人的验证方法和工具,特别是在今后的深度数字应用、数字城市建设中,关于人的数字化建设,需要精准的映射到自然人。这就需要一个能被所有数字应用接受,低成本的数字应用与自然人的映射方法和工具。
语音通讯过程中,可以唯一关联通话者声纹与电话号码,而所有的移动应用都可以自动采集到手机的MISI(手机SIM卡唯一识别码),即唯一对应到电话号码。也就是说只要确认电话号码所有者的声纹,所有的数字应用就能自动关联到自然人而不仅仅是数字应用人。实现了自然人在数字空间行为的唯一性。若电话号码关联了身份证件号码或声纹关联了证件号码,也实现了自然人在现实空间行为的唯一性确认。通过用语音通讯中的声纹将自然人与电话号码、身份证件号码关联,可以在所有数字应用中直接自动确认特定自然人。由于是通过语音通讯持续关联声纹与号码的对应关系,所以无论自然人是否变更电话号码,都能持续将自然人声纹、证件号码、电话号码关联到一起。从而得到普遍的低成本的数字应用与自然人的映射方法和工具。
目前自然人与移动电话号码的映射,是在电信运营商侧,通过登记本人身份信息来对应入网的,是名义上的,这种自然人与移动号码的映射,不能保证该自然人在实际使用时使用该号码,同时,该自然人可以同时使用几个移动号码。即移动号码的实际使用者与该号码对应的入网身份信息可以不一致。一是自然人可以使用不同的身份验证的移动号码,二是自然人可以使用多个移动号码。因此通过移动号码入网的实名认证,是无法解决自然人与其所有的号码一一映射的。
移动号码是运营商的重要资产,通过电话号码,将声纹、证件号码做动态关联,将会新增众多新的应用,意味着每个用户号码增加了新的价值,运营商的资产获得了增加。
发明内容
发明目的:针对上述现有技术存在的问题,本发明的目的在于通过分析移动号码使用者声纹,提供一种移动号码与所有者声纹的动态匹配方法、移动号码所有者声纹与移动号码的动态匹配方法,以建立移动号码与声纹之间的动态对应关系,进而构建移动号码、声纹、身份证件号码间的索引,实现生物人、现实人、数字应用人的动态对应关系,为互联网深化应用提供基础。
技术方案:为实现上述发明目的,本发明采用如下技术方案:
一种移动号码与所有者声纹的动态匹配方法,包括如下步骤:
确定移动号码在观察时间窗口内每次通话或抽取的若干次通话的使用者声纹与该移动号码所有者声纹是否相同,并记录比较结果;
对比较结果进行统计,确定设定的第一时间范围内移动号码使用者声纹是否为所有者声纹,得到以第一时间范围为单位的标记移动号码使用者声纹与所有者声纹是否相同的连续字符串;
根据设定的第二时间范围和时间间隔对所得到的连续字符串进行分组后重新组合得到移动号码声纹确认结果特征向量;其中相邻两组中首个字符对应的时间之间相隔设定的时间间隔;
计算移动号码声纹确认结果特征向量的SIMHASH值,并计算与标记全为移动号码所有者声纹的连续字符串对应的移动号码声纹确认结果特征向量的SIMHASH值的汉明距离,根据阈值确定观察时间窗口内移动号码使用者与所有者声纹是否相同;
若观察时间窗口内移动号码使用者与所有者声纹不相同,则记录移动号码在观察时间窗口内最后的通话声纹作为所有者声纹,从而得到移动号码与所有者声纹基于时间轴的动态对应关系。
作为优选,所述第一时间范围为一日;所述第二时间范围为三日,时间间隔为一日。
作为优选,所述对比较结果进行统计,确定设定的第一时间范围内移动号码使用者声纹是否为所有者声纹的方法是:若第一时间范围内记录的通话的使用者声纹与所有者声纹相同的次数多于不相同的次数,则认为第一时间范围内移动号码使用者声纹与所有者声纹相同。
一种移动号码所有者声纹与移动号码的动态匹配方法,包括如下步骤:
获取收集到的所有移动号码的所有者声纹集合,记其中某一声纹为目标声纹,其余声纹组成第一待匹配声纹集合;
计算目标声纹与第一待匹配声纹集合中每个声纹的汉明距离,得到基于汉明距离的相似声纹集合,作为第二待匹配声纹集合;
计算目标声纹与第二待匹配声纹集合中每个声纹的余弦距离或欧氏距离,得到基于余弦距离或欧氏距离的相似声纹集合,作为一度相似声纹集合;
计算一度相似声纹集合中每个声纹i与第一待匹配声纹集合中每个声纹的汉明距离,得到声纹i基于汉明距离的相似声纹集合,作为声纹i的二度汉明相似声纹集合;
计算一度相似声纹集合中每个声纹i与声纹i的二度汉明相似声纹集合中的每个声纹的余弦距离或欧氏距离,得到声纹i的二度相似声纹集合;一度相似声纹集合中所有声纹的二度相似声纹集合构成目标声纹的二度相似声纹集合;
计算一度相似声纹集合中每个声纹i的二度相似声纹集合与一度相似声纹集合中相同声纹的重合度,选择重合度超过设定阈值的一度相似声纹集合中声纹作为目标声纹的最优相似声纹,从而得到目标声纹的最优相似声纹集合;
计算一度相似声纹集合中最优相似声纹的二度相似声纹集合的并集中相同声纹的重合度,选择重合度大于设定阈值,且不属于最优相似声纹的声纹为目标声纹的次优相似声纹,从而得到目标声纹的次优相似声纹集合;
记收集到的所有移动号码中的某一移动号码为目标移动号码,将目标移动号码所有者声纹的最优相似声纹集合和次优相似声纹集合去重合并后,得到目标移动号码所有者声纹的总体相似声纹集合;
将目标移动号码所有者声纹与其总体相似声纹集合中的声纹进行一对一确认或一对多辨认,确定相同声纹及对应的移动号码,从而得到与目标移动号码所有者声纹相同的其他移动号码。
作为优选,目标移动号码所有者声纹的总体相似声纹集合中还包括相似通讯指纹的相似声纹集合;所述相似通讯指纹的相似声纹集合根据如下方法确定:
获取目标移动号码的通话对端移动号码集合,作为一度通话对端移动号码集合;
获取一度通话对端移动号码集合中移动号码的通话对端,作为目标移动号码的二度通话对端移动号码集合;
计算目标移动号码与二度通话对端移动号码集合中移动号码的通讯指纹的相似度,根据阈值确定目标移动号码的相似移动号码集合;所述通讯指纹由包括通话对端号码、与通话对端通话次数、通话基站信息计算的标记相似程度的特征向量;
获取目标移动号码的相似移动号码集合中的移动号码所有者声纹,得到相似通讯指纹的相似声纹集合。
作为优选,在计算目标声纹与第一待匹配声纹集合中每个声纹的汉明距离之前,先根据如下方法缩小第一待匹配声纹集合中的声纹数量:
获取目标移动号码的通话对端移动号码集合,作为一度通话对端移动号码集合;
获取一度通话对端移动号码集合中移动号码的通话对端,作为目标移动号码的二度通话对端移动号码集合;
将二度通话对端移动号码集合对应的声纹集合作为第一待匹配声纹集合。
一种移动号码与声纹的索引构建方法,包括如下步骤:
采用所述的移动号码与所有者声纹的动态匹配方法,得到各移动号码与所有者声纹基于时间轴的动态对应关系;
采用所述的移动号码所有者声纹与移动号码的动态匹配方法,得到与各移动号码最新的所有者声纹相同的其他移动号码;
将目标移动号码的所有者声纹的编码,及与所有者声纹相同的其他移动号码的所有者声纹的编码更新为同一声纹编码;得到新声纹编码下移动号码与所有者声纹基于时间轴的动态对应关系,以及新声纹编码下相同编码的声纹与对应的移动号码基于时间轴的动态对应关系;
以移动号码和声纹为实体,移动号码与声纹之间的对应为关系建立索引DWM。
作为优选,所述移动号码与声纹的索引构建方法,还包括:更新声纹编码后,以新声纹编码建立各声纹与对应的总体相似声纹集合的索引DWW。
作为优选,所述移动号码与声纹的索引构建方法,还包括:根据移动号码与自然人身份证件号码的对应关系,以移动号码、声纹和自然人身份证件号码为实体,移动号码、声纹和自然人身份证件号码之间的对应为关系建立索引DIWM。
一种移动号码与所有者声纹的动态匹配装置,包括:
通话声纹比对单元,用于确定移动号码在观察时间窗口内每次通话或抽取的若干次通话的使用者声纹与该移动号码所有者声纹是否相同,并记录比较结果;
比对结果统计单元,用于对比较结果进行统计,确定设定的第一时间范围内移动号码使用者声纹是否为所有者声纹,得到以第一时间范围为单位的标记移动号码使用者声纹与所有者声纹是否相同的连续字符串;
声纹确认结果特征向量生成单元,用于根据设定的第二时间范围和时间间隔对所得到的连续字符串进行分组后重新组合得到移动号码声纹确认结果特征向量;其中相邻两组中首个字符对应的时间之间相隔设定的时间间隔;
SIMHASH比较单元,用于计算移动号码声纹确认结果特征向量的SIMHASH值,并计算与标记全为移动号码所有者声纹的连续字符串对应的移动号码声纹确认结果特征向量的SIMHASH值的汉明距离,根据阈值确定观察时间窗口内移动号码使用者与所有者声纹是否相同;
以及,所有者声纹记录单元,用于若观察时间窗口内移动号码使用者与所有者声纹不相同,则记录移动号码在观察时间窗口内最后的通话声纹作为所有者声纹,从而得到移动号码与所有者声纹基于时间轴的动态对应关系。
一种移动号码所有者声纹与移动号码的动态匹配装置,包括:
第一待匹配声纹集合生成单元,用于获取收集到的所有移动号码的所有者声纹集合,记其中某一声纹为目标声纹,其余声纹组成第一待匹配声纹集合;
第二待匹配声纹集合生成单元,用于计算目标声纹与第一待匹配声纹集合中每个声纹的汉明距离,得到基于汉明距离的相似声纹集合,作为第二待匹配声纹集合;
一度相似声纹集合生成单元,用于计算目标声纹与第二待匹配声纹集合中每个声纹的余弦距离或欧氏距离,得到基于余弦距离或欧氏距离的相似声纹集合,作为一度相似声纹集合;
二度汉明相似声纹集合生成单元,用于计算一度相似声纹集合中每个声纹i与第一待匹配声纹集合中每个声纹的汉明距离,得到声纹i基于汉明距离的相似声纹集合,作为声纹i的二度汉明相似声纹集合;
目标声纹的二度相似声纹集合生成单元,用于计算一度相似声纹集合中每个声纹i与声纹i的二度汉明相似声纹集合中的每个声纹的余弦距离或欧氏距离,得到声纹i的二度相似声纹集合;一度相似声纹集合中所有声纹的二度相似声纹集合构成目标声纹的二度相似声纹集合;
最优相似声纹集合生成单元,用于计算一度相似声纹集合中每个声纹i的二度相似声纹集合与一度相似声纹集合中相同声纹的重合度,选择重合度超过设定阈值的一度相似声纹集合中声纹作为目标声纹的最优相似声纹,从而得到目标声纹的最优相似声纹集合;
次优相似声纹集合生成单元,用于计算一度相似声纹集合中最优相似声纹的二度相似声纹集合的并集中相同声纹的重合度,选择重合度大于设定阈值,且不属于最优相似声纹的声纹为目标声纹的次优相似声纹,从而得到目标声纹的次优相似声纹集合;
总体相似声纹集合生成单元,用于将目标移动号码所有者声纹的最优相似声纹集合和次优相似声纹集合去重合并后,得到目标移动号码所有者声纹的总体相似声纹集合;
以及,所有者声纹的移动号码记录单元,用于将目标移动号码所有者声纹与其总体相似声纹集合中的声纹进行一对一确认或一对多辨认,确定相同声纹及对应的移动号码,从而得到与目标移动号码所有者声纹相同的其他移动号码。
一种移动号码与声纹的索引构建装置,包括:
所述的移动号码与所有者声纹的动态匹配装置,用于获取各移动号码与所有者声纹基于时间轴的动态对应关系;
所述的移动号码所有者声纹与移动号码的动态匹配装置,用于获取与各移动号码最新的所有者声纹相同的其他移动号码;
声纹重编码单元,用于将目标移动号码的所有者声纹的编码,及与所有者声纹相同的其他移动号码的所有者声纹的编码更新为同一声纹编码;得到新声纹编码下移动号码与所有者声纹基于时间轴的动态对应关系,以及新声纹编码下相同编码的声纹与对应的移动号码基于时间轴的动态对应关系;
以及,索引DWM建立单元,用于以移动号码和声纹为实体,移动号码与声纹之间的对应为关系建立索引DWM。
作为优选,所述移动号码与声纹的索引构建装置,还包括:索引DWW建立单元,用于更新声纹编码后,以新声纹编码建立各声纹与对应的总体相似声纹集合的索引DWW。
作为优选,所述移动号码与声纹的索引构建装置,还包括:索引DIWM建立单元,用于根据移动号码与自然人身份证件号码的对应关系,以移动号码、声纹和自然人身份证件号码为实体,移动号码、声纹和自然人身份证件号码之间的对应为关系建立索引DIWM。
一种移动号码与所有者声纹的动态匹配设备,包括:存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现所述的移动号码与所有者声纹的动态匹配方法的各个步骤。
一种移动号码所有者声纹与移动号码的动态匹配设备,包括:存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现所述的移动号码所有者声纹与移动号码的动态匹配方法的各个步骤。
一种移动号码与声纹的索引构建设备,包括:存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现所述的移动号码与声纹的索引构建方法的各个步骤。
有益效果: 与现有技术相比,本发明具有如下优点:
本发明提供的移动号码与所有者声纹的动态匹配方法,区分了号码使用者与号码所有者,并且记录了各个时间点移动号码的所有者。真实反应了移动号码在其生命周期内各阶段对应的自然人。其利用SIMHASH签名的汉明距离确认方法确认来确认移动号码的所有者是否变更,考虑了声纹确认结果特征向量中,距离移动号码所有者确认时间窗口时间越短,对确认结果影响越大的实际场景,避免了现有技术中单纯依靠每次确认结果的比例大小来确认移动号码所有的归属。同时对声纹确认结果的特征向量的长度不作要求。在移动号码所有者的确认精度、方便性及确认效率上,都有实质性提升。
本发明提供的移动号码所有者声纹与移动号码的动态匹配方法,通过在大的声纹集合里,充分结合高效的汉明距离计算、通讯指纹预运算、多种相似计算逻辑组合,提升了在大声纹集合中匹配相同声纹的精度和效率,同时匹配上相同声纹对应的各自时间戳及移动号码,相比现有大声纹集合中匹配相同声纹的技术,在相似向量计算逻辑组合上更加丰富,通过相同声纹的匹配,不仅匹配了相同声纹,同时还匹配了相同声纹作为所有者声纹对应的移动号码及时间戳。从而不仅匹配了相同声纹,更是实现了自然人声纹匹配了不同时间点对应的作为所有者声纹的不同移动号码。使得不同的数字应用即使关联的不同移动号码也能关联到同一自然人这一丰富的应用场景成为可能。
本发明提供的移动号码与声纹的索引构建方法,为了更现实的将上述方法在相关装置上实现,对相同声纹实现统一的相同编码,从而实现了声纹的唯一性编码。因此可以建立与声纹关联的多种复杂的索引DWM、DWM、DIWM。建立了全面的关于声纹、证件号码、电话号码基于时间轴的综合索引,相较目前单一的声纹索引,比如声纹移动号码静态索引,其使用场景和使用效率将有效提升。
基于本发明所述提供的移动号码与声纹的动态匹配方法,以及声纹、证件号码、电话号码构建方法,为生物人、现实人、数字应用人的融合提供了技术基础,有助于互联网的深化应用。
附图说明
图1为本发明实施例中涉及的语音信号提取确认系统结构示意图。
图2为本发明实施例提供的移动号码与所有者声纹的动态匹配方法流程图。
图3为本发明实施例提供的移动号码所有者声纹与移动号码的动态匹配方法流程图。
图4为本发明实施例提供的移动号码与声纹的索引构建方法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明实施例一部分实施例,而不是全部的实施例。
首先对本发明所基于的现有技术进行解释:
如图1所示,在运营商语音网络汇集局端局(MSC/MGW)的链路或在呼叫中心语音网络部署语音信号提取系统,该系统包括分光采集设备、数据传输设备及数据应用系统,分光采集设备根据现有技术的方式采集话务数据,话务数据包括呼叫信令和对应呼叫话务。
分光采集设备用于旁路采集以光口或电口为载体的链路通信数据,数据传输设备用于实时将采集话务数据送至语音信号提取系统,提取所采集的语音信号,语音信号提取无需保存所述话务数据,也无需监听通话的内容。
语音信号提取系统提取的语音信号如语音信号技术中所述的FBANK、MFCC向量等。将提取的语音向量送至声纹提取确认系统从语音信号中提取声纹,所提取的声纹就是现有语音技术中所述的由语音信号特征向量FBANK、MFCC等经过一系列数学变换形成的可以区别说话人语音的特征向量模型如GMM模型等。
声纹提取确认系统提取记录移动号码第一次通话的声纹或者更改移动号码所有者后第一次通话的声纹作为该移动号码的预留声纹。
声纹提取确认系统,还可以提供1:1声纹确认和1:N声纹辨认功能,将采集的语音信号与预留声纹进行比对,确认采集的语音声纹与预留的声纹是否相同或者在给定的声纹集合中匹配相同声纹。
将语音信号提取系统和声纹提取确认系统合并称为语音信号提取确认系统。
实施例一
如图2所示,本发明实施例公开的一种移动号码与所有者声纹的动态匹配方法,包括如下步骤:
步骤S101:确定移动号码在观察时间窗口内每次通话或抽取的若干次通话的使用者声纹与该移动号码所有者声纹是否相同,并记录比较结果。
步骤S102:对比较结果进行统计,确定设定的第一时间范围内移动号码使用者声纹是否为所有者声纹,得到以第一时间范围为单位的标记移动号码使用者声纹与所有者声纹是否相同的连续字符串。
步骤S103:根据设定的第二时间范围和时间间隔对所得到的连续字符串进行分组后重新组合得到移动号码声纹确认结果特征向量;其中相邻两组中首个字符对应的时间之间相隔设定的时间间隔。
步骤S104:计算移动号码声纹确认结果特征向量的SIMHASH值,并计算与标记全为移动号码所有者声纹的连续字符串对应的移动号码声纹确认结果特征向量的SIMHASH值的汉明距离,根据阈值确定观察时间窗口内移动号码使用者与所有者声纹是否相同。
步骤S105:若观察时间窗口内移动号码使用者与所有者声纹不相同,则记录移动号码在观察时间窗口内最后的通话声纹作为所有者声纹,从而得到移动号码与所有者声纹基于时间轴的动态对应关系。
可选地,在运营商环境,用户通话比较频繁,观察时间窗口可以设定为连续几日、一个月等,第一时间范围为一日。对于呼叫中心环境用户通话频次不及运营商环境,相关时间范围可以适当延长,如数月、数十日等。下面以运营商环境为例,通过语音信号提取确认系统,提取移动号码每日每次或随机提取每日N次通话的语音信号,与该号码记录的声纹进行比对,若比对相同,则记录该次比对状态为t,若比对不同,则记录该次比对状态为f。
可选地,统计当日移动号码通话声纹比较结果为t或f的次数,如果t的次数大于f的次数,则认为当日该号码的使用者的声纹与该号码所有者的声纹相同,记为T;如果不相同,记为F(若当日移动号码无通话,可以默认为T或空字符)。形成以T,F组成的字符串来表示移动号码连续每日的所有者归宿。进而从记录开始日起,以连续若干日为一组,比如D日,间隔若干日,比如G日,对上述T,F组成的字符串进行重新分组。比如,连续6日组成的字符串TTFTTF,以3日为一组,间隔一日,将TTFTTF重新组成为TTF,TFT,FTT,TTF。一般的,对连续N日的T,F字符串,以连续D日为一组,各组间隔G日,则对N日可以分成(N-D)/G+1向上取整组,形成新的T,F的字符串,即移动号码(连续日)声纹确认结果特征向量,来表示移动号码(观察时间窗口内)连续使用日使用者的声纹与该号码所有者的声纹相同的特征。一般取D=3,G=1,则对连续N日通话,我们可以得到(N-3)+1组以T,F组成的特征向量来表示移动号码连续使用日使用者是否为该号码所有者的使用轨迹。
本发明实施例利用SIMHASH算法通过T、F组成的特征向量来判断移动号码连续使用日使用者是否为该号码的所有者。具体地,移动号码连续日声纹确认结果特征向量中每组字符串是一个向量值,首先将每个向量变换成HASH值。将每个向量的HASH值变换为二进制形式,并对二进制每个位进行一个权重的变换,如果二进制位上的值是1,则该位的值变换位权重本身,如果二进制位上的值为0,则该位变换为权重的负值。得到移动号码连续日声纹确认结果特征向量中每个向量的HASH值进行时间权重变换后的新字串,记为HASH-W。这里的权重是一个随时间单调变化的值,移动号码连续日声纹确认结果特征向量中每组字符串向量是按照时间来排列的,开始时对应的权重最小,当前日的权重值最大。具体的值可通过训练获得。
将每个HASH-W对应的位的值相加,如果>0,则该位置1,否则置0。从而得到移动号码连续日声纹确认结果特征向量的SIMHASH值。该值是一串由0和1组成的字串。该字串为移动号码连续日声纹确认结果特征向量的SIMHASH签名。
可选地,计算一段时间全是T的移动号码连续日声纹确认结果特征向量的SIMHASH签名。比较正常移动号码连续日声纹确认结果特征向量的SIMHASH签名,求这二个SIMHASH签名的汉明距离(Hamming Distance):即比较2个签名对应位的值,不同时结果为1,否则为0。对各个位的比较结果求和即为移动号码连续日声纹确认结果特征向量的SIMHASH签名与全是T的移动号码连续日声纹确认结果特征向量的SIMHASH签名的汉明距离。当汉明距离大于阈值时,说明该移动号码连续日声纹确认结果特征向量对应的最后一日移动号码的使用者声纹与移动号码的所有者声纹不相同,否则是相同的。如果判断使用者声纹与移动号码的所有者声纹不相同,重新记录该移动号码最后的通话声纹。本发明中所涉及到的相关阈值均可以根据经验设定或通过训练获得。
随着观察时间窗口向前推移,通过步骤S101-S105的不断重复,即可获得移动号码与所有者声纹基于时间轴的动态对应关系。
实施例二
实施例一的上述步骤已经建立了移动号码与所有者声纹基于时间轴的动态对应关系,为方便应用,还需建立所有者声纹与移动号码基于时间轴的动态对应关系。即建立每个移动号码所有者的声纹所对应的移动号码基于时间轴的集合。
在获得了移动号码与所有者声纹基于时间轴的动态对应关系基础上,所有者可以同时拥有若干移动号码使用,通过各移动号码所对应的所有者的声纹之间的对比,可以确定同一声纹所对应的移动号码集合。
建立每个移动号码所有者的声纹所对应的移动号码基于时间轴的集合,就是匹配相同声纹向量,由相同向量对应的移动号码组成的集合就是所有者声纹对应的移动号码基于时间轴的集合,以下阐述在移动号码与所有者声纹基于时间轴的动态对应关系基础上,匹配同一声纹的方法。当然,本领域技术人员可以理解的是,利用实施例一的方法获得的移动号码与所有者声纹基于时间轴的动态对应关系,并非是本实施例的必要条件,本实施例方法主要用于从移动号码的所有者声纹集合中匹配相同声纹向量,从而获得同一声纹对应的不同移动号码。其中移动号码对应的所有者声纹集合,也可以是直接采集的,或采用其他方法获取的。
如图3所示,本发明实施例公开的一种移动号码所有者声纹与移动号码的动态匹配方法,包括如下步骤:
步骤S201:获取收集到的所有移动号码的所有者声纹集合,记其中某一声纹为目标声纹,其余声纹组成第一待匹配声纹集合。
步骤S202:计算目标声纹与第一待匹配声纹集合中每个声纹的汉明距离,得到基于汉明距离的相似声纹集合,作为第二待匹配声纹集合。
步骤S203:计算目标声纹与第二待匹配声纹集合中每个声纹的余弦距离或欧氏距离,得到基于余弦距离或欧氏距离的相似声纹集合,作为一度相似声纹集合。
步骤S204:计算一度相似声纹集合中每个声纹i与第一待匹配声纹集合中每个声纹的汉明距离,得到声纹i基于汉明距离的相似声纹集合,作为声纹i的二度汉明相似声纹集合。
步骤S205:计算一度相似声纹集合中每个声纹i与声纹i的二度汉明相似声纹集合中的每个声纹的余弦距离或欧氏距离,得到声纹i的二度相似声纹集合;一度相似声纹集合中所有声纹的二度相似声纹集合构成目标声纹的二度相似声纹集合。
步骤S206:计算一度相似声纹集合中每个声纹i的二度相似声纹集合与一度相似声纹集合中相同声纹的重合度,选择重合度超过设定阈值的一度相似声纹集合中声纹作为目标声纹的最优相似声纹,从而得到目标声纹的最优相似声纹集合。
步骤S207:计算一度相似声纹集合中最优相似声纹的二度相似声纹集合的并集中相同声纹的重合度,选择重合度大于设定阈值,且不属于最优相似声纹的声纹为目标声纹的次优相似声纹,从而得到目标声纹的次优相似声纹集合。
步骤S208:记收集到的所有移动号码中的某一移动号码为目标移动号码,将目标移动号码所有者声纹的最优相似声纹集合和次优相似声纹集合去重合并后,得到目标移动号码所有者声纹的总体相似声纹集合。
步骤S209:将目标移动号码所有者声纹与其总体相似声纹集合中的声纹进行一对一确认或一对多辨认,确定相同声纹及对应的移动号码,从而得到与目标移动号码所有者声纹相同的其他移动号码。
具体地,记目标声纹为实施例一得到的所有移动号码与所有者声纹基于时间轴的动态对应关系中声纹集合中的某声纹(每个移动号码最新的所有者声纹),待匹配声纹就是这个集合除目标声纹的其他所有声纹,记为待匹配声纹集合W。
首先一一计算目标声纹和待匹配声纹集合W中每个声纹的汉明距离,二个声纹的汉明距离计算如下。对待计算声纹向量里的每个向量值做符号函数变换,这里的符号函数可以是标准的sign函数,值域为(-1,0,1),当向量值<0,=0,>0,分别返回-1,0,1。也可以是自定义的‘符号函数’,根据全体声纹向量对应向量值的大小分布,取恰当的返回值域,比如某对应向量值的分布在0-30之间,可以分区间比如1-10,11-20,21-30,分别返回-1,0,1,得到变换后的声纹向量,以该新声纹向量,计算目标声纹和所有待匹配声纹的汉明距离。选定汉明距离的阈值h,来确定与目标声纹汉明距离小于h的待匹配声纹的一度汉明相似集合H1。
再以声纹集合H1为待匹配声纹集合,计算目标声纹与H1里所有声纹的余弦距离(或欧氏距离),选定余弦距离(或欧氏距离)的阈值c,确定待匹配声纹集合H1里与目标声纹余弦距离(或欧氏距离)小于c的声纹集合C1,为目标声纹的一度相似声纹集合。
计算声纹集合C1中每个声纹,与待匹配声纹集合W中每个声纹的汉明距离,确定汉明距离小于阈值h的声纹集合,记为H2i,H2表示目标声纹一度相似声纹集合里的声纹基于汉明距离确定的二度汉明相似集合,i表示目标声纹一度相似声纹集合C1中的第i个声纹,H2i为C1中的第i个声纹在待匹配声纹W中匹配的基于汉明距离的汉明相似声纹集合。
以声纹集合H2i为待匹配声纹集合,计算目标声纹的一度相似声纹集合C1中的第i声纹与H2i里所有声纹的余弦距离(或欧氏距离),选定余弦距离(或欧氏距离)的阈值c,确定待匹配声纹集合H2i里与C1中的i声纹的余弦距离(或欧氏距离)小于c的声纹集合C2i,为目标声纹一度相似声纹i的二度相似声纹集合。记C2为目标声纹的二度相似声纹集合。
分别计算每个C2i与C1中的相同声纹重合度,即每个C2i与C1中的相同声纹标识数。选定重合度阈值r0 ,确定重合度大于r0 对应的第i声纹为目标声纹的最优相似声纹,由最优相似声纹组成的集合为目标声纹的最优相似声纹集合C优。如C1中包含a、b、c、d、e。当i=a时,C2a包含声纹b、d、e、f、g。则 C1与C2a的相同声纹重合度为3,如重合度阈值r0 =2,则a声纹为目标声纹的最优相似声纹。由最优相似声纹组成的声纹集合为最优相似声纹集合C优。
筛选目标声纹一度相似声纹中最优相似声纹的二度相似声纹集合C2i,其中i ∈C优 。确定C2i并集中相同标识的声纹数大于选定声纹相同度阈值r0对应的不包含最优相似声纹的声纹为目标声纹的次优相似声纹,由次优相似声纹组成的集合为目标声纹的次优相似声纹集合C良 如最优声纹为a、b,c,二度相似声纹集合C2a包含声纹b、d、e、f、g,C2b 包含声纹f、g、h、i、j,C2c包含声纹g、h、i、j、k,若r0为2,则声纹g为目标声纹的次优相似声纹,若r0为1,则f、g、h、i、j 为次优相似声纹。由次优相似声纹组成的集合为C良。
为进一步提高算法的匹配精度,还通过通讯指纹来圈定移动号码所有者所拥有的其他移动号码的可能集合,得到移动号码所有者声纹对应的其他移动号码。所述通讯指纹是指移动号码在语音通讯中留下的,如通话对端号码,与通话对端的通话次数,通话时间,通话基站地址等标志。这些标志可以整理成可以数学计算的特征量进行相似比较。比如我们可以记录某阶段的通话对端号码、对应的通话次数、通话时长、通话时点、通话基站等,这些数据是移动号码的所有者的通话指纹。由于所有者的社会关系不同、工作生活环境不同、习惯不同等,不同人的通讯指纹是不同的,可以通过通讯指纹的相似性比较,来得到移动号码的所有者拥有的其他移动号码的集合。
可选地,通过下述方法计算2个移动号码通讯指纹的相似度。计算相同时期2个移动号码的通话对端号码数、共同对端号码数、共同对端号码的通话次数、在每日相同时段内的通话次数、覆盖总的基站数,相同的基站数等作为2个移动号码相似程度的特征量。2个移动号码通讯指纹的相似度值v=∑mjaj;其中mj权重,aj分别为2个移动号码的对端数差与对端数和的比、2个移动号码对端交集的数与2个移动号码对端并集的数的比、2个号码与共同对端的通话数与总通话数的比、2个号码特定时段通话数与总通话数之比、2个号码覆盖的共同基站数与总基站数之比等。
具体地,可从通话详单中关联目标移动号码的通话对端,得到目标移动号码的一度通话对端移动号码集合F,关联F集合中移动电话的通话对端,得到目标移动号码二度通话对端移动号码集合S。计算目标移动号码与S集合中的每个移动号码的通讯指纹的相似度,确定相似度阈值V0,得到目标移动号码与其二度通话对端移动号码集合S中的移动号码通讯指纹相似度大于V0 的相似移动号码集合D。同时得到相似移动号码集合D所对应的目标移动号码所有者的声纹所对应的基于相似通讯指纹的相似声纹集合C通 。
求移动号码所有者声纹a的最优相似声纹集合C优、次优相似声纹集合C良、相似通讯指纹的相似声纹集合C通,三个相似声纹集合的去重复并集为总体相似声纹集合CA,通过声纹提取确认系统,一一比对a与a的总体相似声纹集合CA中声纹,应用1:1声纹确认或1:N声纹辨认技术,进行确认比对,得到与目标声纹a相同的声纹,同时得到与a声纹相同声纹的移动号码,从而得到目标移动号码所有者的a声纹相同的其他移动号码,并根据移动号码与所有者声纹基于时间轴的动态对应关系,得到移动号码所有者的声纹所对应的相同声纹的移动号码基于时间轴的集合。
实施例三
在实施例二的基础上,通常所有移动号码的所有者声纹库比较庞大,为了提高声纹匹配的效率,本实施例借助通信对端对不同目标移动号码的待匹配声纹集合W先进行初步筛选。即先从通话详单中关联目标移动号码的通话对端,得到目标移动号码的一度通话对端移动号码集合F,关联F集合中移动电话的通话对端,得到目标移动号码二度通话对端移动号码集合S,将集合S对应的声纹作为目标移动号码的待匹配声纹集合W。
实施例四
在获得上述目标移动号码所有者的声纹所对应的相同声纹移动号码基于时间轴的集合及目标移动号码与所有者声纹基于时间轴的集合后,即可建立全体移动号码与全体所有者声纹的动态对应关系。
如图4所示,本发明实施例公开的一种移动号码与声纹的索引构建方法,包括如下步骤:
步骤S301:采用实施例一中的移动号码与所有者声纹的动态匹配方法,得到各移动号码与所有者声纹基于时间轴的动态对应关系。
步骤S302:采用实施例二中的移动号码所有者声纹与移动号码的动态匹配方法,得到与各移动号码最新的所有者声纹相同的其他移动号码。
步骤S303:将目标移动号码的所有者声纹的编码,及与所有者声纹相同的其他移动号码的所有者声纹的编码更新为同一声纹编码;得到新声纹编码下移动号码与所有者声纹基于时间轴的动态对应关系,以及新声纹编码下相同编码的声纹与对应的移动号码基于时间轴的动态对应关系。
步骤S304:建立各实体之间的关系索引。
具体地,初始的任意移动号码所有者的声纹编码暂记为移动号码,再根据目标移动号码所有者当前的声纹所对应的相同声纹的移动号码基于时间轴的集合,此时,相同的声纹编码为对应的不同移动号码,对相同的声纹进行重新统一编码,将不同移动号码标识的相同声纹更新为同一新编码的相同声纹,得到新声纹编码下目标移动号码所有者的声纹所对应的相同声纹移动号码基于时间轴的集合及目标移动号码与所有者声纹基于时间轴的集合,以及新声纹编码下的任意目标声纹所对应的总体相似声纹集合CA。设全体移动号码集合为M,全体新编码下的声纹集合W,形成新声纹编码下全体移动号码集合M与全体所有者声纹集合W的动态对应关系及任意目标声纹与其总体相似声纹集合CA的对应关系。
可选地,以数据库技术、大数据技术、图谱等数据技术建立以W、M为实体,W-M之间的对应为关系的索引DWM。以声纹编码建立各声纹与对应的总体相似声纹集合CA的索引DWW。
可选地,当新移动号码出现或移动号码与所有者声纹基于时间轴的当前动态对应关系出现变化,对新移动号码所有者声纹和当前移动号码新的所有者声纹作为目标声纹,更新计算上述W-M、W-CA对应关系及索引。
可选地,设自然人证件号码的集合为I,我们较易获得移动号码与身份证件号码的对应关系,从而可以建立以I、M、W为实体I、M、W之间对应为关系的索引DIWM。
利用上述I、M、W为实体I、M、W之间对应关系及相关索引,可以产生一系列的新应用。例如,可以根据电话诈骗类型通讯指纹、群众举报或诈骗黑名单电话号码库,获得通讯诈骗电话号码,进而获得电话诈骗声纹集合,及诈骗者对应的身份信息、位置信息、社交圈等信息,对具有部分诈骗通讯特征或诈骗电话黑名单的通话进行监测,从而判断监测的号码是否为诈骗电话。可用于呼叫中心进行身份确认,采集接听者的声纹,利用索引确认呼出号码接听者的声纹是否与预留的号码所有者的声纹是否一致,辅助业务流程判断。又如根据移动号码和通话声纹,通过索引查找出移动号码所有者的身份证件号码,识别出移动号码所有者是否为老年人、青少年等特殊人群,从而为其定制专用的App应用模式。
实施例五
基于与实施例一相同的发明构思,本发明实施例公开的一种移动号码与所有者声纹的动态匹配装置,包括:
通话声纹比对单元,用于确定移动号码在观察时间窗口内每次通话或抽取的若干次通话的使用者声纹与该移动号码所有者声纹是否相同,并记录比较结果;
比对结果统计单元,用于对比较结果进行统计,确定设定的第一时间范围内移动号码使用者声纹是否为所有者声纹,得到以第一时间范围为单位的标记移动号码使用者声纹与所有者声纹是否相同的连续字符串;
声纹确认结果特征向量生成单元,用于根据设定的第二时间范围和时间间隔对所得到的连续字符串进行分组后重新组合得到移动号码声纹确认结果特征向量;其中相邻两组中首个字符对应的时间之间相隔设定的时间间隔;
SIMHASH比较单元,用于计算移动号码声纹确认结果特征向量的SIMHASH值,并计算与标记全为移动号码所有者声纹的连续字符串对应的移动号码声纹确认结果特征向量的SIMHASH值的汉明距离,根据阈值确定观察时间窗口内移动号码使用者与所有者声纹是否相同;
以及,所有者声纹记录单元,用于若观察时间窗口内移动号码使用者与所有者声纹不相同,则记录移动号码在观察时间窗口内最后的通话声纹作为所有者声纹,从而得到移动号码与所有者声纹基于时间轴的动态对应关系。
实施例六
基于与实施例二相同的发明构思,本发明实施例公开的一种移动号码所有者声纹与移动号码的动态匹配装置,包括:
第一待匹配声纹集合生成单元,用于获取收集到的所有移动号码的所有者声纹集合,记其中某一声纹为目标声纹,其余声纹组成第一待匹配声纹集合;
第二待匹配声纹集合生成单元,用于计算目标声纹与第一待匹配声纹集合中每个声纹的汉明距离,得到基于汉明距离的相似声纹集合,作为第二待匹配声纹集合;
一度相似声纹集合生成单元,用于计算目标声纹与第二待匹配声纹集合中每个声纹的余弦距离或欧氏距离,得到基于余弦距离或欧氏距离的相似声纹集合,作为一度相似声纹集合;
二度汉明相似声纹集合生成单元,用于计算一度相似声纹集合中每个声纹i与第一待匹配声纹集合中每个声纹的汉明距离,得到声纹i基于汉明距离的相似声纹集合,作为声纹i的二度汉明相似声纹集合;
目标声纹的二度相似声纹集合生成单元,用于计算一度相似声纹集合中每个声纹i与声纹i的二度汉明相似声纹集合中的每个声纹的余弦距离或欧氏距离,得到声纹i的二度相似声纹集合;一度相似声纹集合中所有声纹的二度相似声纹集合构成目标声纹的二度相似声纹集合;
最优相似声纹集合生成单元,用于计算一度相似声纹集合中每个声纹i的二度相似声纹集合与一度相似声纹集合中相同声纹的重合度,选择重合度超过设定阈值的一度相似声纹集合中声纹作为目标声纹的最优相似声纹,从而得到目标声纹的最优相似声纹集合;
次优相似声纹集合生成单元,用于计算一度相似声纹集合中最优相似声纹的二度相似声纹集合的并集中相同声纹的重合度,选择重合度大于设定阈值,且不属于最优相似声纹的声纹为目标声纹的次优相似声纹,从而得到目标声纹的次优相似声纹集合;
总体相似声纹集合生成单元,用于将目标移动号码所有者声纹的最优相似声纹集合和次优相似声纹集合去重合并后,得到目标移动号码所有者声纹的总体相似声纹集合;
以及,所有者声纹的移动号码记录单元,用于将目标移动号码所有者声纹与其总体相似声纹集合中的声纹进行一对一确认或一对多辨认,确定相同声纹及对应的移动号码,从而得到与目标移动号码所有者声纹相同的其他移动号码。
实施例七
基于与实施例四相同的发明构思,本发明实施例公开的一种移动号码与声纹的索引构建装置,包括:
所述的移动号码与所有者声纹的动态匹配装置,用于获取各移动号码与所有者声纹基于时间轴的动态对应关系;
所述的移动号码所有者声纹与移动号码的动态匹配装置,用于获取与各移动号码最新的所有者声纹相同的其他移动号码;
声纹重编码单元,用于将目标移动号码的所有者声纹的编码,及与所有者声纹相同的其他移动号码的所有者声纹的编码更新为同一声纹编码;得到新声纹编码下移动号码与所有者声纹基于时间轴的动态对应关系,以及新声纹编码下相同编码的声纹与对应的移动号码基于时间轴的动态对应关系;
以及,索引DWM建立单元,用于以移动号码和声纹为实体,移动号码与声纹之间的对应为关系建立索引DWM。
实施例八
基于与实施例一相同的发明构思,本发明实施例公开的一种移动号码与所有者声纹的动态匹配设备,包括:存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现实施例一所述的移动号码与所有者声纹的动态匹配方法的各个步骤。
实施例九
基于与实施例二或实施例三相同的发明构思,本发明实施例公开的一种移动号码所有者声纹与移动号码的动态匹配设备,包括:存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现实施例二或实施例三所述的移动号码所有者声纹与移动号码的动态匹配方法的各个步骤。
实施例十
基于与实施例四相同的发明构思,本发明实施例公开的一种移动号码与声纹的索引构建设备,包括:存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现实施例四所述的移动号码与声纹的索引构建方法的各个步骤。
Claims (20)
1.一种移动号码与所有者声纹的动态匹配方法,其特征在于,包括如下步骤:
确定移动号码在观察时间窗口内每次通话或抽取的若干次通话的使用者声纹与该移动号码所有者声纹是否相同,并记录比较结果;
对比较结果进行统计,确定设定的第一时间范围内移动号码使用者声纹是否为所有者声纹,得到以第一时间范围为单位的标记移动号码使用者声纹与所有者声纹是否相同的连续字符串;
根据设定的第二时间范围和时间间隔对所得到的连续字符串进行分组后重新组合得到移动号码声纹确认结果特征向量;其中相邻两组中首个字符对应的时间之间相隔设定的时间间隔;
计算移动号码声纹确认结果特征向量的SIMHASH值,并计算与标记全为移动号码所有者声纹的连续字符串对应的移动号码声纹确认结果特征向量的SIMHASH值的汉明距离,根据阈值确定观察时间窗口内移动号码使用者与所有者声纹是否相同;
若观察时间窗口内移动号码使用者与所有者声纹不相同,则记录移动号码在观察时间窗口内最后的通话声纹作为所有者声纹,从而得到移动号码与所有者声纹基于时间轴的动态对应关系。
2.根据权利要求1所述的一种移动号码与所有者声纹的动态匹配方法,其特征在于,所述第一时间范围为一日;所述第二时间范围为三日,时间间隔为一日。
3.根据权利要求1所述的一种移动号码与所有者声纹的动态匹配方法,其特征在于,所述对比较结果进行统计,确定设定的第一时间范围内移动号码使用者声纹是否为所有者声纹的方法是:若第一时间范围内记录的通话的使用者声纹与所有者声纹相同的次数多于不相同的次数,则认为第一时间范围内移动号码使用者声纹与所有者声纹相同。
4.一种移动号码所有者声纹与移动号码的动态匹配方法,其特征在于,包括如下步骤:
获取收集到的所有移动号码的所有者声纹集合,记其中某一声纹为目标声纹,其余声纹组成第一待匹配声纹集合;
计算目标声纹与第一待匹配声纹集合中每个声纹的汉明距离,得到基于汉明距离的相似声纹集合,作为第二待匹配声纹集合;
计算目标声纹与第二待匹配声纹集合中每个声纹的余弦距离或欧氏距离,得到基于余弦距离或欧氏距离的相似声纹集合,作为一度相似声纹集合;
计算一度相似声纹集合中每个声纹i与第一待匹配声纹集合中每个声纹的汉明距离,得到声纹i基于汉明距离的相似声纹集合,作为声纹i的二度汉明相似声纹集合;
计算一度相似声纹集合中每个声纹i与声纹i的二度汉明相似声纹集合中的每个声纹的余弦距离或欧氏距离,得到声纹i的二度相似声纹集合;一度相似声纹集合中所有声纹的二度相似声纹集合构成目标声纹的二度相似声纹集合;
计算一度相似声纹集合中每个声纹i的二度相似声纹集合与一度相似声纹集合中相同声纹的重合度,选择重合度超过设定阈值的一度相似声纹集合中声纹作为目标声纹的最优相似声纹,从而得到目标声纹的最优相似声纹集合;
计算一度相似声纹集合中最优相似声纹的二度相似声纹集合的并集中相同声纹的重合度,选择重合度大于设定阈值,且不属于最优相似声纹的声纹为目标声纹的次优相似声纹,从而得到目标声纹的次优相似声纹集合;
记收集到的所有移动号码中的某一移动号码为目标移动号码,将目标移动号码所有者声纹的最优相似声纹集合和次优相似声纹集合去重合并后,得到目标移动号码所有者声纹的总体相似声纹集合;
将目标移动号码所有者声纹与其总体相似声纹集合中的声纹进行一对一确认或一对多辨认,确定相同声纹及对应的移动号码,从而得到与目标移动号码所有者声纹相同的其他移动号码。
5.根据权利要求4所述的一种移动号码所有者声纹与移动号码的动态匹配方法,其特征在于,目标移动号码所有者声纹的总体相似声纹集合中还包括相似通讯指纹的相似声纹集合;所述相似通讯指纹的相似声纹集合根据如下方法确定:
获取目标移动号码的通话对端移动号码集合,作为一度通话对端移动号码集合;
获取一度通话对端移动号码集合中移动号码的通话对端,作为目标移动号码的二度通话对端移动号码集合;
计算目标移动号码与二度通话对端移动号码集合中移动号码的通讯指纹的相似度,根据阈值确定目标移动号码的相似移动号码集合;所述通讯指纹由包括通话对端号码、与通话对端通话次数、通话基站信息计算的标记相似程度的特征向量;
获取目标移动号码的相似移动号码集合中的移动号码所有者声纹,得到相似通讯指纹的相似声纹集合。
6.根据权利要求4所述的一种移动号码所有者声纹与移动号码的动态匹配方法,其特征在于,在计算目标声纹与第一待匹配声纹集合中每个声纹的汉明距离之前,先根据如下方法缩小第一待匹配声纹集合中的声纹数量:
获取目标移动号码的通话对端移动号码集合,作为一度通话对端移动号码集合;
获取一度通话对端移动号码集合中移动号码的通话对端,作为目标移动号码的二度通话对端移动号码集合;
将二度通话对端移动号码集合对应的声纹集合作为第一待匹配声纹集合。
7.一种移动号码与声纹的索引构建方法,其特征在于,包括如下步骤:
采用根据权利要求1-3任一项所述的移动号码与所有者声纹的动态匹配方法,得到各移动号码与所有者声纹基于时间轴的动态对应关系;
采用根据权利要求4-5任一项所述的移动号码所有者声纹与移动号码的动态匹配方法,得到与各移动号码最新的所有者声纹相同的其他移动号码;
将目标移动号码的所有者声纹的编码,及与所有者声纹相同的其他移动号码的所有者声纹的编码更新为同一声纹编码;得到新声纹编码下移动号码与所有者声纹基于时间轴的动态对应关系,以及新声纹编码下相同编码的声纹与对应的移动号码基于时间轴的动态对应关系;
以移动号码和声纹为实体,移动号码与声纹之间的对应为关系建立索引DWM。
8.根据权利要求7所述的一种移动号码与声纹的索引构建方法,其特征在于,还包括:更新声纹编码后,以新声纹编码建立各声纹与对应的总体相似声纹集合的索引DWW。
9.根据权利要求7所述的一种移动号码与声纹的索引构建方法,其特征在于,还包括:根据移动号码与自然人身份证件号码的对应关系,以移动号码、声纹和自然人身份证件号码为实体,移动号码、声纹和自然人身份证件号码之间的对应为关系建立索引DIWM。
10.一种移动号码与所有者声纹的动态匹配装置,其特征在于,包括:
通话声纹比对单元,用于确定移动号码在观察时间窗口内每次通话或抽取的若干次通话的使用者声纹与该移动号码所有者声纹是否相同,并记录比较结果;
比对结果统计单元,用于对比较结果进行统计,确定设定的第一时间范围内移动号码使用者声纹是否为所有者声纹,得到以第一时间范围为单位的标记移动号码使用者声纹与所有者声纹是否相同的连续字符串;
声纹确认结果特征向量生成单元,用于根据设定的第二时间范围和时间间隔对所得到的连续字符串进行分组后重新组合得到移动号码声纹确认结果特征向量;其中相邻两组中首个字符对应的时间之间相隔设定的时间间隔;
SIMHASH比较单元,用于计算移动号码声纹确认结果特征向量的SIMHASH值,并计算与标记全为移动号码所有者声纹的连续字符串对应的移动号码声纹确认结果特征向量的SIMHASH值的汉明距离,根据阈值确定观察时间窗口内移动号码使用者与所有者声纹是否相同;
以及,所有者声纹记录单元,用于若观察时间窗口内移动号码使用者与所有者声纹不相同,则记录移动号码在观察时间窗口内最后的通话声纹作为所有者声纹,从而得到移动号码与所有者声纹基于时间轴的动态对应关系。
11.一种移动号码所有者声纹与移动号码的动态匹配装置,其特征在于,包括:
第一待匹配声纹集合生成单元,用于获取收集到的所有移动号码的所有者声纹集合,记其中某一声纹为目标声纹,其余声纹组成第一待匹配声纹集合;
第二待匹配声纹集合生成单元,用于计算目标声纹与第一待匹配声纹集合中每个声纹的汉明距离,得到基于汉明距离的相似声纹集合,作为第二待匹配声纹集合;
一度相似声纹集合生成单元,用于计算目标声纹与第二待匹配声纹集合中每个声纹的余弦距离或欧氏距离,得到基于余弦距离或欧氏距离的相似声纹集合,作为一度相似声纹集合;
二度汉明相似声纹集合生成单元,用于计算一度相似声纹集合中每个声纹i与第一待匹配声纹集合中每个声纹的汉明距离,得到声纹i基于汉明距离的相似声纹集合,作为声纹i的二度汉明相似声纹集合;
目标声纹的二度相似声纹集合生成单元,用于计算一度相似声纹集合中每个声纹i与声纹i的二度汉明相似声纹集合中的每个声纹的余弦距离或欧氏距离,得到声纹i的二度相似声纹集合;一度相似声纹集合中所有声纹的二度相似声纹集合构成目标声纹的二度相似声纹集合;
最优相似声纹集合生成单元,用于计算一度相似声纹集合中每个声纹i的二度相似声纹集合与一度相似声纹集合中相同声纹的重合度,选择重合度超过设定阈值的一度相似声纹集合中声纹作为目标声纹的最优相似声纹,从而得到目标声纹的最优相似声纹集合;
次优相似声纹集合生成单元,用于计算一度相似声纹集合中最优相似声纹的二度相似声纹集合的并集中相同声纹的重合度,选择重合度大于设定阈值,且不属于最优相似声纹的声纹为目标声纹的次优相似声纹,从而得到目标声纹的次优相似声纹集合;
总体相似声纹集合生成单元,用于记收集到的所有移动号码中的某一移动号码为目标移动号码,将目标移动号码所有者声纹的最优相似声纹集合和次优相似声纹集合去重合并后,得到目标移动号码所有者声纹的总体相似声纹集合;
以及,所有者声纹的移动号码记录单元,用于将目标移动号码所有者声纹与其总体相似声纹集合中的声纹进行一对一确认或一对多辨认,确定相同声纹及对应的移动号码,从而得到与目标移动号码所有者声纹相同的其他移动号码。
12.根据权利要求11所述的一种移动号码所有者声纹与移动号码的动态匹配装置,其特征在于,目标移动号码所有者声纹的总体相似声纹集合中还包括相似通讯指纹的相似声纹集合;所述相似通讯指纹的相似声纹集合根据如下方法确定:
获取目标移动号码的通话对端移动号码集合,作为一度通话对端移动号码集合;
获取一度通话对端移动号码集合中移动号码的通话对端,作为目标移动号码的二度通话对端移动号码集合;
计算目标移动号码与二度通话对端移动号码集合中移动号码的通讯指纹的相似度,根据阈值确定目标移动号码的相似移动号码集合;所述通讯指纹由包括通话对端号码、与通话对端通话次数、通话基站信息计算的标记相似程度的特征向量;
获取目标移动号码的相似移动号码集合中的移动号码所有者声纹,得到相似通讯指纹的相似声纹集合。
13.根据权利要求11所述的一种移动号码所有者声纹与移动号码的动态匹配装置,其特征在于,所述第一待匹配声纹集合生成单元中,根据如下方法缩小第一待匹配声纹集合中的声纹数量:
获取目标移动号码的通话对端移动号码集合,作为一度通话对端移动号码集合;
获取一度通话对端移动号码集合中移动号码的通话对端,作为目标移动号码的二度通话对端移动号码集合;
将二度通话对端移动号码集合对应的声纹集合作为第一待匹配声纹集合。
14.一种移动号码与声纹的索引构建装置,其特征在于,包括:
根据权利要求10所述的移动号码与所有者声纹的动态匹配装置,用于获取各移动号码与所有者声纹基于时间轴的动态对应关系;
根据权利要求11-13任一项所述的移动号码所有者声纹与移动号码的动态匹配装置,用于获取与各移动号码最新的所有者声纹相同的其他移动号码;
声纹重编码单元,用于将目标移动号码的所有者声纹的编码,及与所有者声纹相同的其他移动号码的所有者声纹的编码更新为同一声纹编码;得到新声纹编码下移动号码与所有者声纹基于时间轴的动态对应关系,以及新声纹编码下相同编码的声纹与对应的移动号码基于时间轴的动态对应关系;
以及,索引DWM建立单元,用于以移动号码和声纹为实体,移动号码与声纹之间的对应为关系建立索引DWM。
15.根据权利要求14所述的一种移动号码与声纹的索引构建装置,其特征在于,还包括:索引DWW建立单元,用于更新声纹编码后,以新声纹编码建立各声纹与对应的总体相似声纹集合的索引DWW。
16.根据权利要求14所述的一种移动号码与声纹的索引构建装置,其特征在于,还包括:索引DIWM建立单元,用于根据移动号码与自然人身份证件号码的对应关系,以移动号码、声纹和自然人身份证件号码为实体,移动号码、声纹和自然人身份证件号码之间的对应为关系建立索引DIWM。
17.一种移动号码与所有者声纹的动态匹配设备,其特征在于,包括:存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现根据权利要求1-3任一项所述的移动号码与所有者声纹的动态匹配方法的各个步骤。
18.一种移动号码所有者声纹与移动号码的动态匹配设备,其特征在于,包括:存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现根据权利要求4-5任一项所述的移动号码所有者声纹与移动号码的动态匹配方法的各个步骤。
19.一种移动号码与声纹的索引构建设备,其特征在于,包括:存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现根据权利要求7所述的移动号码与声纹的索引构建方法的各个步骤。
20.一种移动号码与声纹的索引构建设备,其特征在于,包括:存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现根据权利要求8或9所述的移动号码与声纹的索引构建方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110144671.5A CN112509587B (zh) | 2021-02-03 | 2021-02-03 | 移动号码与声纹动态匹配及索引构建方法、装置与设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110144671.5A CN112509587B (zh) | 2021-02-03 | 2021-02-03 | 移动号码与声纹动态匹配及索引构建方法、装置与设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112509587A CN112509587A (zh) | 2021-03-16 |
CN112509587B true CN112509587B (zh) | 2021-04-30 |
Family
ID=74952508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110144671.5A Active CN112509587B (zh) | 2021-02-03 | 2021-02-03 | 移动号码与声纹动态匹配及索引构建方法、装置与设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112509587B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115064176B (zh) * | 2022-06-22 | 2023-06-16 | 广州市迪声音响有限公司 | 一种声纹筛系统及方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104732972B (zh) * | 2015-03-12 | 2018-02-27 | 广东外语外贸大学 | 一种基于分组统计的hmm声纹识别签到方法及系统 |
CN109102801A (zh) * | 2017-06-20 | 2018-12-28 | 京东方科技集团股份有限公司 | 语音识别方法和语音识别装置 |
CN107958669B (zh) * | 2017-11-28 | 2021-03-09 | 国网电子商务有限公司 | 一种声纹识别的方法及装置 |
CN109257362A (zh) * | 2018-10-11 | 2019-01-22 | 平安科技(深圳)有限公司 | 声纹验证的方法、装置、计算机设备以及存储介质 |
CN110428842A (zh) * | 2019-08-13 | 2019-11-08 | 广州国音智能科技有限公司 | 语音模型训练方法、装置、设备及计算机可读存储介质 |
-
2021
- 2021-02-03 CN CN202110144671.5A patent/CN112509587B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112509587A (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112818316B (zh) | 基于声纹的身份识别及应用方法、装置与设备 | |
US11388490B2 (en) | Call classification through analysis of DTMF events | |
EP2793495A1 (en) | Mobile terminal and user identification method | |
CN111405562B (zh) | 一种基于通信行为规律的移动恶意用户识别方法及系统 | |
CN103731832A (zh) | 防电话、短信诈骗的系统和方法 | |
CN110337059B (zh) | 一种用户家庭关系的分析算法、服务器及网络系统 | |
CN111950937A (zh) | 一种基于融合时空轨迹的重点人员风险评估方法 | |
CN111726460B (zh) | 一种基于时空图的诈骗号码识别方法 | |
CN102438205B (zh) | 一种基于移动用户行为的业务推送的方法与系统 | |
CN113961712B (zh) | 一种基于知识图谱的诈骗电话分析方法 | |
CN107092651B (zh) | 一种基于通信网络数据分析的关键人物挖掘方法及系统 | |
CN106936971B (zh) | 一种来电人信息提示系统及提示方法 | |
CN112509587B (zh) | 移动号码与声纹动态匹配及索引构建方法、装置与设备 | |
CN111741472A (zh) | 一种GoIP诈骗电话识别方法、系统、介质及设备 | |
CN112241687A (zh) | 一种具有陌生人脸库功能的人脸识别方法及系统 | |
CN106341555A (zh) | 一种通信监控方法和装置 | |
CN114331473A (zh) | 电信诈骗事件的识别方法及其装置、计算机可读存储介质 | |
US20060281469A1 (en) | Employee tracking system with verification | |
CN116127337B (zh) | 基于位置和图像的风险挖掘方法、装置、存储介质及设备 | |
CN116016769A (zh) | 一种欺诈团伙的识别方法、装置及可读存储介质 | |
CN100405870C (zh) | 一种采集和使用用户特征数据识别用户的系统和方法 | |
CN116418915A (zh) | 非正常号码识别方法、装置、服务器和存储介质 | |
CN106686192B (zh) | 仿冒号码识别方法及装置 | |
CN109711134A (zh) | 基于网络的用户身份防盗用系统、方法、设备及存储介质 | |
CN116501906A (zh) | 基于云办公的远程会议图像分析方法及数字办公服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |