CN112820297A - 声纹识别方法、装置、计算机设备及存储介质 - Google Patents
声纹识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112820297A CN112820297A CN202011604899.XA CN202011604899A CN112820297A CN 112820297 A CN112820297 A CN 112820297A CN 202011604899 A CN202011604899 A CN 202011604899A CN 112820297 A CN112820297 A CN 112820297A
- Authority
- CN
- China
- Prior art keywords
- audio
- target
- voiceprint
- video
- time length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 239000012634 fragment Substances 0.000 claims abstract description 22
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 22
- 238000006243 chemical reaction Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 15
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 21
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Abstract
本申请公开了声纹识别方法、装置、计算机设备及存储介质,涉及人工智能技术领域,方法包括:接收用户终端发送的第一音视频数据,第一音视频数据包括至少一次会话中的多段有效音视频片段,每段有效音视频片段的播放时长不小于第一预设时长;从多段有效音视频片段中的第一音视频片段中确定机器人播报完话术的第一时刻;对第一音视频片段进行语音转换,得到第一文本,从第一音视频片段中确定第一文本发送给机器人的第二时刻;根据第一时刻和第二时刻确定目标时段;从第一音视频片段中提取目标时段的目标音视频片段,最终得到多个目标音视频片段;将多个目标音视频片段合成,得到目标声纹;对目标声纹进行声纹识别。本方案能够提高声纹识别的准确性。
Description
技术领域
本申请涉及人工智能的声纹识别技术领域,尤其涉及一种声纹识别方法、装置、计算机设备及存储介质。
背景技术
声纹(Voiceprint)是用电声学仪器显示的携带言语信息的声波频谱,声纹是由波长、频率以及强度等百余种特征维度组成的生物特征,具有稳定性、可测量性、唯一性等特点。由于人在讲话时使用的发声器官在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。由此,通常通过声纹识别(通过比对两段语音的说话人在相同音素上的发声)判断是否为同一个人,以实现“闻声识人”的功能。
客户在申请信贷产品过程中,通常被要求读一段固定文本内容的声音(例如大于10秒)作为注册声音。在基于人工智能对客户的声音进行审批时,需要先截取客户说话的声音,再将其与注册声音比较,以判断是否客户本人。
但是,在基于人工智能(Artificial Intelligence,AI)对客户的声音进行审批中,AI机器人与客户对话采用的是一问一答方式,绝大部分客户回答都是短语句,其语音时长属于短语音。因此,在基于AI对客户的声音过程中,短语句的语音会影响声纹识别的精度,导致声纹识别的存在较大的误差。
发明内容
本申请实施例提供了一种声纹识别方法、装置、计算机设备及存储介质,旨在解决现有技术中在基于AI对客户的声音过程中,短语句的语音会影响声纹识别的精度,导致声纹识别的存在较大的误差的问题。
第一方面,本申请实施例提供了一种声纹识别方法,其包括:
接收用户终端发送的第一音视频数据,所述第一音视频数据包括至少一次会话中的多段有效音视频片段,每段有效音视频片段的播放时长不小于第一预设时长;
从所述多段有效音视频片段中的第一音视频片段中确定机器人播报完话术的第一时刻;所述机器人为服务器中设置的虚拟用户;
对所述第一音视频片段进行语音转换,得到第一文本,以及从所述第一音视频片段中确定所述第一文本发送给机器人的第二时刻;
根据所述第一时刻和所述第二时刻确定目标时段;
从所述第一音视频片段中提取所述目标时段的目标音视频片段,最终得到多个目标音视频片段;
将所述多个目标音视频片段合成,得到目标声纹;
对所述目标声纹进行声纹识别。
第二方面,本申请实施例提供了一种声纹识别装置,其包括:
输入输出模块,用于接收用户终端发送的第一音视频数据,所述第一音视频数据包括至少一次会话中的多段有效音视频片段,每段有效音视频片段的播放时长不小于第一预设时长;
处理模块,用于从所述多段有效音视频片段中的第一音视频片段中确定机器人播报完话术的第一时刻;对所述第一音视频片段进行语音转换,得到第一文本,以及从所述第一音视频片段中确定所述第一文本发送给机器人的第二时刻;所述机器人为服务器中设置的虚拟用户;
所述处理模块还用于根据所述第一时刻和所述第二时刻确定目标时段;从所述第一音视频片段中提取所述目标时段的目标音视频片段,最终得到多个目标音视频片段;将所述多个目标音视频片段合成,得到目标声纹;
识别模块,用于对所述目标声纹进行声纹识别。
第三方面,本申请实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的声纹识别方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的声纹识别方法。
本申请实施例提供了一种声纹识别方法、装置、计算机设备及存储介质,对从多段有效音视频片段中的第一音视频片段中确定机器人播报完话术的第一时刻,对第一音视频片段进行语音转换,得到第一文本,以及从第一音视频片段中确定第一文本发送给机器人的第二时刻;根据第一时刻和所述第二时刻确定目标时段;从第一音视频片段中提取目标时段的目标音视频片段,最终得到多个目标音视频片段;将多个目标音视频片段合成,得到目标声纹,然后对目标声纹进行声纹识别。本方案能够提高声纹识别的准确性。在使用合成得到的目标声纹,能够在一轮AI审批中,做到多次声纹识别,因此能提达到纹识别的准确性和业务的要求。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的声纹识别方法的应用场景示意图;
图2为本申请实施例提供的声纹识别方法的流程示意图;
图3为本申请实施例提供的声纹识别装置的示意性框图;
图4为本申请实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本申请实施例提供的声纹识别方法的应用场景示意图,本申请实施例可应用于AI审批、电话平台等应用场景;图2为本申请实施例提供的声纹识别方法的流程示意图,该声纹识别方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。
如图2所示,该方法包括步骤S101~S107。
S101、接收用户终端发送的第一音视频数据。
其中,第一音视频数据可包括音频数据和视频数据中至少一项,例如,第一音频数据包括机器人向用户的至少一段提问的语音信号或者视频信号,以及用户对机器人的至少一段回答的语音信号或视频信号,例如,用户对机器人的至少一段回答的语音信号:我是XX,现在要查询XX业务。一些实施方式中,用户终端可通过业务应用客户端与业务终端或者业务服务器之间进行通信交互,例如,用户终端侧安装了业务应用,该业务应用可提供用户向业务服务终端发起业务服务,该业务服务可通过业务终端或者业务服务器与用户终端之间的通信交互来实现。另一些实施方式中,用户终端也可以通过通信运营商提供的电话、视频等功能与业务终端或者业务服务器之间建立通信连接关系。本申请实施例不对用户终端与业务终端或者业务服务器之间的通信连接方式作限定。
本申请实施例中,所述第一音视频数据包括至少一次会话中的多段有效音视频片段,每段有效音视频片段的播放时长不小于第一预设时长。
业务终端是指业务服务提供方面向用户提供业务服务的终端,例如,座机、网络电话或者安装了业务应用服务端的终端。
业务服务器是指业务服务提供方面向用户提供业务服务的服务器,其可安装业务应用服务端,能够与任意用户终端或者安装了业务应用客户端的终端之间进行通信交互。
S102、从所述多段有效音视频片段中的第一音视频片段确定机器人播报完话术的第一时刻。
其中,机器人播报话术是指机器人基于用户资料和话术流程图所配置的外呼引擎向用户播报应答话术的操作。应答话术为预先设置,且与用户的意图匹配。本申请中的机器人为服务器中预先设置的虚拟用户,例如人工智能(Artificial Intelligence,AI),机器人可以模拟真实用户与用户终端侧的用户之间进行对话,例如,机器人可以向用户终端侧的用户播报话术。本申请中,机器人也可称作虚拟用户、虚拟客服、模拟用户等名称,不对此作限定。
S103、对所述第一音视频片段进行语音转换,得到第一文本,以及从所述第一音视频片段中确定所述第一文本发送给机器人的第二时刻。
一些实施方式中,第一文本可采用自动语音识别技术(Automatic SpeechRecognition,ASR)对所述第一音视频数据进行语音转换得到。其中,ASR是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。语音识别系统的性能大致取决于以下4类因素:1.识别词汇表的大小和语音的复杂性;2.语音信号的质量;3.单个说话人还是多说话人;4.硬件。
本实施方式中,语音识别系统中包括声学模型、字典和语言模型,通过声学模型、字典和语言模型即可对提取特征后的第一音视频片段进行文字输出。具体来说,首先,可以对第一音视频片段进行首尾端的静音切除,以降低干扰;然后对第一音视频片段进行分帧处理,即使用移动窗函数将第一音视频片段切开一小段一小段,每小段称为一帧。这样第一音视频片段变为一个12行(假设声学特征是12维)、N列的一个矩阵,称之为观察序列,N为总帧数。在分帧处理后,对每帧进行特征提取,即将每一帧的波形转换为一个包含声音信息的多维向量。将多维向量输入声学模型(该声学模型通过对语音数据进行训练获得,输入是特征向量,输出为音素信息),以输出音素信息。再查字典,以查询与音素信息中的各音素对应的字或者词。将音素信息和查询得到的字或词输入语言模型,以得到每个字或者词相互关联的概率。最后,基于概率输出对应的文本,例如可选最高概率的字或者词。
其中,ASR技术的目标是让计算机能够“听写”出不同人所说出的连续语音,也就是俗称的“语音听写机”,是实现“声音”到“文字”转换的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。
语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息的一门新兴的边缘学科。它是语音信号处理学科的一个分支。本申请不对语音识别和声纹识别做区分,可看作等同。
声纹识别系统的性能主要取决于识别词汇表的大小和语音的复杂性、语音信号的质量、单个说话人还是多说话人、以及硬件。
自动语音识别通常有以下几种分类方法:
(1)按使用声纹识别系统的用户情况分:特定人和非特定人识别系统;
(2)按使用声纹识别系统词汇量分:小词汇量、中词汇量和大词汇量系统;
(3)按语音的输入方式分:孤立词、连接词、连续语音系统等;
(4)按输入语音的发音方式分:朗读式、口语(自然发音)式;
(5)按输入语音的方言背景情况分:普通话、方言背景普通话、方言语音识别系统;
(6)按输入语音的情感状态分;中性语音、情感语音识别系统。
训练(Training):预先分析出语音特征参数,制作语音模板,并存放在语音参数库中。
识别(Recognition):待识语音经过与训练时相同的分析,得到语音参数。将它与库中的参考模板一一比较,并采用判决的方法找出最接近语音特征的模板,得出识别结果。
失真测度(Distortion Measures):在进行比较时要有个标准,这就是计量语音特征参数矢量之间的“失真测度”。
主要识别框架:基于模式匹配的动态时间规整法(DTW)和基于统计模型的隐马尔可夫模型法(HMM)。
S104、根据所述第一时刻和所述第二时刻确定目标时段。
其中,所述目标时段为用户的一段连续说话时长,例如,用户针对机器人的一次提问进行回答时,该回答持续的总时长。例如,记录AI机器人播报完话术时间为T1,记录ASR转义并且发给AI机器人的时间为T2;计算客户说话时间是:L1=T2-T1。
S105、从所述第一音视频片段中提取所述目标时段的目标音视频片段,最终得到多个目标音视频片段。
具体来说,以目标时段的起始时刻为音视频播放的时刻(即上述第一时刻),结束时刻为音视频截止播放的时刻(即上述第二时刻),本申请中的时刻(例如第一时刻、第二时刻)均对应音视频片段(例如第一音视频片段)中的播放位置,不作区分。因此,先在第一音视频片段中找到第一时刻对应的播放位置a,以及第二时刻对应的播放位置b,然后将播放位置a与播放位置b之间的音视频片段截取出来,进而得到一个目标音视频片段。以此类推,从所述多段有效音视频片段中的每个第一音视频片段都如此操作,最终得到多个目标音视频片段。
S106、将所述多个目标音视频片段合成,得到目标声纹。
其中,目标声纹是指针对用户与机器人的一次有效会话中获取的用户的声纹,该目标声纹为将多个目标音视频进行拼接或合成后得到的声纹。因此,该目标声纹能够涵盖一次会话流程中用户对机器人的问题的回答的完整声纹。那么,可将该目标声纹用于对本次会话中对用户身份的识别。
一些实施方式中,所述接收用户终端发送的第一音视频数据之前,所述方法还包括:
确定一次会话的有效声纹时长为所述第一预设时长;
向所述用户终端发送第一指令,所述第一指令用于指示用户在一次会话中的有效声纹时长高于所述第一预设时长;
所述将所述多个目标音视频片段合成,得到目标声纹,包括:
根据各段目标音视频片段分别确定所述用户在每次会话中的会话起始时刻和会话结束时刻;
根据所述会话起始时刻和所述会话结束时刻得到各段目标音视频片段中的第一有效声纹;
将各段目标音视频片段中的第一有效声纹合成,得到目标声纹。
一些实施方式中,所述根据所述会话起始时刻和所述会话结束时刻得到各段目标音视频片段中的第一有效声纹之后,所述将各段音视频片段中的第一有效声纹合成,得到目标声纹之前,所述方法还包括:
累计至少一个所述目标时段对应的时长,得到候选累计时长;
比较所述累计时长与所述第一预设时长;
当确定所述累计时长小于所述第一预设时长时,获取下一个第一音视频片段对应的目标时段,重复比较累计时长与所述第一预设时长的操作,直至累计时长不小于所述第一预设时长时,将参与累计时长计算的第一音视频片段中的目标音视频片段进行合成,得到所述目标声纹。
举例来说,首先将有效声纹的时长做配置化,比如:声纹匹配系统中,设置注册声纹时长为20秒(例如,要求用户读一段标准段落),且匹配声纹要求12秒。那么为了保证匹配,在一次会话过程中,要保证获取到20秒的长声音。该20秒的长声音,需要将多轮人工智能(AI)与客户会话过程中用户对AI回答的语音拼接起来。因此,可以基于用户发送的语音即可识别出用户每次回答AI的问题的开始时间和结束时间,每次用户回答AI的问题时,都会对应产生一个短的语音。此后,将该用户在针对AI的多次回答中所识别出的多个短的语音使用程序拼接起来,即可保证拼接的时长达到20秒。一轮AI审批会话通常达到180秒以上,用户正常回答时间大约占1/3,即60秒。
累计计算用户的说话时间,S1=SUM(L1+L2+…+LN),其中L2是T4-T3;L3=T6-T5等多轮时间。然后判断S1是否大于拼接语音时长,若大于,则重新计算开始计算第二轮拼接S2。若小于,则声纹匹配系统将S1期间产生的音频文件,F1,F2,…等文件,用程序拼接成一个独立的:wav文件。然后将拼接的wav文件,调用声纹识别接口,例如启用声纹模型识别接的wav文件是否属于同一个用户,以及是否属于当前参与会话的用户是否为合法用户。
可见,在使用拼接wav和记录判断用户说话开始,结束时间后。使用拼接的文件,能够在一轮AI审批中进行至少3次声纹识别,这样就能提供声纹识别的准确性,达到声纹识别业务的要求。
S107、对所述目标声纹进行声纹识别。
一些实施方式中,所述向所述用户终端发送第一指令之前,所述方法还包括:
设置第一预设时长,所述第一预设时长为所述目标声纹的最小时长。
一些实施方式中,所述对所述目标声纹进行声纹识别,包括:
基于声纹模型对所述目标声纹进行声纹识别;
若确定所述目标声纹均属于同一个用户且所述用户为预设用户,则确定所述本次会话为有效会话。
一些实施例中,所述基于声纹模型对所述目标声纹进行声纹识别之前,所述方法还包括:
获取多次会话中得到的多次历史目标声纹;
将所述多次历史目标声纹输入神经网络模型,以对所述神经网络模型进行训练,得到所述声纹模型。
本申请实施例中,对从多段有效音视频片段中的第一音视频片段中确定机器人播报完话术的第一时刻,对第一音视频片段进行语音转换,得到第一文本,以及从第一音视频片段中确定第一文本发送给机器人的第二时刻;根据第一时刻和所述第二时刻确定目标时段;从第一音视频片段中提取目标时段的目标音视频片段,最终得到多个目标音视频片段;将多个目标音视频片段合成,得到目标声纹,然后对目标声纹进行声纹识别。本方案能够提高声纹识别的准确性。在使用拼接wav和记录判断客户说话开始,结束时间后。使用拼接的语音文件,能够在一轮AI审批中,做到多次声纹识别,因此能提达到纹识别的准确性和业务的要求。举例来说,在使用拼接wav和记录判断客户说话开始,结束时间后。使用拼接的文件,能够在一轮AI审批中,做到>3次声纹识别。这样就能提供声纹识别的准确性,达到业务的要求。
此外,本方案还能积累更多声纹数据,以便于做更高的声纹模型识别训练。将零散的短语句利用起来,提取这些声纹数据的隐藏价值。
本申请实施例还提供一种声纹识别装置,该声纹识别装置用于执行前述声纹识别方法的任一实施例。具体地,请参阅图3,图3是本申请实施例提供的声纹识别装置的示意性框图。该声纹识别装置30可以配置于服务器中。
如图3所示,声纹识别装置30包括:
输入输出模块301,用于接收用户终端发送的第一音视频数据,所述第一音视频数据包括至少一次会话中的多段有效音视频片段,每段有效音视频片段的播放时长不小于第一预设时长;
处理模块302,用于从所述多段有效音视频片段中的第一音视频片段中确定机器人播报完话术的第一时刻;对所述第一音视频片段进行语音转换,得到第一文本,以及从所述第一音视频片段中确定所述第一文本发送给机器人的第二时刻;
所述处理模块302还用于根据所述第一时刻和所述第二时刻确定目标时段;从所述第一音视频片段中提取所述目标时段的目标音视频片段,最终得到多个目标音视频片段;将所述多个目标音视频片段合成,得到目标声纹;
识别模块303,用于对所述目标声纹进行声纹识别。
在一实施例中,所述处理模块302在所述输入输出模块301接收用户终端发送的第一音视频数据之前,还用于:
确定一次会话的有效声纹时长为所述第一预设时长;
通过所述输入输出模块301向所述用户终端发送第一指令,所述第一指令用于指示用户在一次会话中的有效声纹时长高于所述第一预设时长;
根据各段目标音视频片段分别确定所述用户在每次会话中的会话起始时刻和会话结束时刻;
根据所述会话起始时刻和所述会话结束时刻得到各段目标音视频片段中的第一有效声纹;
将各段目标音视频片段中的第一有效声纹合成,得到目标声纹。
在一实施例中,所述处理模块302在所述输入输出模块301向所述用户终端发送第一指令之前,还用于:
设置第一预设时长,所述第一预设时长为所述目标声纹的最小时长。
在一实施例中,所述处理模块302根据所述会话起始时刻和所述会话结束时刻得到各段目标音视频片段中的第一有效声纹之后,所述处理模块302将各段音视频片段中的第一有效声纹合成,得到目标声纹之前,还用于:
累计至少一个所述目标时段对应的时长,得到候选累计时长;
比较所述累计时长与所述第一预设时长;
当确定所述累计时长小于所述第一预设时长时,获取下一个第一音视频片段对应的目标时段,重复比较累计时长与所述第一预设时长的操作,直至累计时长不小于所述第一预设时长时,将参与累计时长计算的第一音视频片段中的目标音视频片段进行合成,得到所述目标声纹。
在一实施例中,所述识别模块303具体用于:
基于声纹模型对所述目标声纹进行声纹识别;
若确定所述目标声纹均属于同一个用户且所述用户为预设用户,则确定所述本次会话为有效会话。
在一实施例中,所述处理模块302在所述识别模块303基于声纹模型对所述目标声纹进行声纹识别之前,还用于:
获取多次会话中得到的多次历史目标声纹;
将所述多次历史目标声纹输入神经网络模型,以对所述神经网络模型进行训练,得到所述声纹模型。
在一实施例中,所述目标声纹是指针对用户与机器人的一次有效会话中获取的用户的声纹,所述目标声纹为将多个目标音视频进行拼接或合成后得到的声纹。
该装置能够提高声纹识别的准确性。在使用合成得到的目标声纹,能够在一轮AI审批中,做到多次声纹识别,因此能提达到纹识别的准确性和业务的要求。
上述声纹识别装置可以实现为计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
请参阅图4,图4是本申请实施例提供的计算机设备的示意性框图。该计算机设备400是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图4,该计算机设备400包括通过系统总线401连接的处理器402、存储器和网络接口405,其中,存储器可以包括存储介质403和内存储器404。
该存储介质403可存储操作系统4031和计算机程序4032。该计算机程序4032被执行时,可使得处理器402执行声纹识别方法。
该处理器402用于提供计算和控制能力,支撑整个计算机设备400的运行。
该内存储器404为存储介质403中的计算机程序4032的运行提供环境,该计算机程序4032被处理器402执行时,可使得处理器402执行声纹识别方法。
该网络接口405用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备400的限定,具体的计算机设备400可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器402用于运行存储在存储器中的计算机程序4032,以实现本申请实施例公开的声纹识别方法。
本领域技术人员可以理解,图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图4所示实施例一致,在此不再赘述。
应当理解,在本申请实施例中,处理器402可以是中央处理单元(CentralProcessing Unit,CPU),该处理器402还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本申请的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本申请实施例公开的声纹识别方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种声纹识别方法,其特征在于,所述方法包括:
接收用户终端发送的第一音视频数据,所述第一音视频数据包括至少一次会话中的多段有效音视频片段,每段有效音视频片段的播放时长不小于第一预设时长;
从所述多段有效音视频片段中的第一音视频片段中确定机器人播报完话术的第一时刻;所述机器人为服务器中设置的虚拟用户;
对所述第一音视频片段进行语音转换,得到第一文本,以及从所述第一音视频片段中确定所述第一文本发送给机器人的第二时刻;
根据所述第一时刻和所述第二时刻确定目标时段;
从所述第一音视频片段中提取所述目标时段的目标音视频片段,最终得到多个目标音视频片段;
将所述多个目标音视频片段合成,得到目标声纹;
对所述目标声纹进行声纹识别。
2.根据权利要求1所述的方法,其特征在于,所述接收用户终端发送的第一音视频数据之前,所述方法还包括:
确定一次会话的有效声纹时长为所述第一预设时长;
向所述用户终端发送第一指令,所述第一指令用于指示用户在一次会话中的有效声纹时长高于所述第一预设时长;
所述将所述多个目标音视频片段合成,得到目标声纹,包括:
根据各段目标音视频片段分别确定所述用户在每次会话中的会话起始时刻和会话结束时刻;
根据所述会话起始时刻和所述会话结束时刻得到各段目标音视频片段中的第一有效声纹;
将各段目标音视频片段中的第一有效声纹合成,得到所述目标声纹。
3.根据权利要求2所述的方法,其特征在于,所述向所述用户终端发送第一指令之前,所述方法还包括:
设置第一预设时长,所述第一预设时长为所述目标声纹的最小时长。
4.根据权利要求3所述的方法,其特征在于,所述根据所述会话起始时刻和所述会话结束时刻得到各段目标音视频片段中的第一有效声纹之后,所述将各段目标音视频片段中的第一有效声纹合成,得到所述目标声纹之前,所述方法还包括:
累计至少一个所述目标时段对应的时长,得到候选累计时长;
比较所述累计时长与所述第一预设时长;
当确定所述累计时长小于所述第一预设时长时,获取下一个第一音视频片段对应的目标时段,重复比较累计时长与所述第一预设时长的操作,直至累计时长不小于所述第一预设时长时,将参与累计时长计算的第一音视频片段中的目标音视频片段进行合成,得到所述目标声纹。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述对所述目标声纹进行声纹识别,包括:
基于声纹模型对所述目标声纹进行声纹识别;
若确定所述目标声纹均属于同一个用户且所述用户为预设用户,则确定所述本次会话为有效会话。
6.根据权利要求5所述的方法,其特征在于,所述基于声纹模型对所述目标声纹进行声纹识别之前,所述方法还包括:
获取多次会话中得到的多次历史目标声纹;
将所述多次历史目标声纹输入神经网络模型,以对所述神经网络模型进行训练,得到所述声纹模型。
7.根据权利要求6所述的方法,其特征在于,所述目标声纹是指针对用户与机器人的一次有效会话中获取的用户的声纹,所述目标声纹为将多个目标音视频进行拼接或合成后得到的声纹。
8.一种声纹识别装置,其特征在于,包括:
输入输出模块,用于接收用户终端发送的第一音视频数据,所述第一音视频数据包括至少一次会话中的多段有效音视频片段,每段有效音视频片段的播放时长不小于第一预设时长;
处理模块,用于从所述多段有效音视频片段中的第一音视频片段中确定机器人播报完话术的第一时刻;对所述第一音视频片段进行语音转换,得到第一文本,以及从所述第一音视频片段中确定所述第一文本发送给机器人的第二时刻;所述机器人为服务器中设置的虚拟用户;
所述处理模块还用于根据所述第一时刻和所述第二时刻确定目标时段;从所述第一音视频片段中提取所述目标时段的目标音视频片段,最终得到多个目标音视频片段;将所述多个目标音视频片段合成,得到目标声纹;
识别模块,用于对所述目标声纹进行声纹识别。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的声纹识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时执行如权利要求1至7任一项所述的声纹识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011604899.XA CN112820297A (zh) | 2020-12-30 | 2020-12-30 | 声纹识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011604899.XA CN112820297A (zh) | 2020-12-30 | 2020-12-30 | 声纹识别方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112820297A true CN112820297A (zh) | 2021-05-18 |
Family
ID=75854437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011604899.XA Pending CN112820297A (zh) | 2020-12-30 | 2020-12-30 | 声纹识别方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112820297A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106162321A (zh) * | 2016-08-31 | 2016-11-23 | 成都广电视讯文化传播有限公司 | 一种声纹特征和音频水印相结合的音频信号识别方法 |
CN110222719A (zh) * | 2019-05-10 | 2019-09-10 | 中国科学院计算技术研究所 | 一种基于多帧音视频融合网络的人物识别方法及系统 |
CN110335612A (zh) * | 2019-07-11 | 2019-10-15 | 招商局金融科技有限公司 | 基于语音识别的会议记录生成方法、装置及存储介质 |
CN110415704A (zh) * | 2019-06-14 | 2019-11-05 | 平安科技(深圳)有限公司 | 庭审笔录数据处理方法、装置、计算机设备和存储介质 |
CN110738998A (zh) * | 2019-09-11 | 2020-01-31 | 深圳壹账通智能科技有限公司 | 基于语音的个人信用评估方法、装置、终端及存储介质 |
CN111370032A (zh) * | 2020-02-20 | 2020-07-03 | 厦门快商通科技股份有限公司 | 语音分离方法、系统、移动终端及存储介质 |
WO2020220541A1 (zh) * | 2019-04-29 | 2020-11-05 | 平安科技(深圳)有限公司 | 一种识别说话人的方法及终端 |
-
2020
- 2020-12-30 CN CN202011604899.XA patent/CN112820297A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106162321A (zh) * | 2016-08-31 | 2016-11-23 | 成都广电视讯文化传播有限公司 | 一种声纹特征和音频水印相结合的音频信号识别方法 |
WO2020220541A1 (zh) * | 2019-04-29 | 2020-11-05 | 平安科技(深圳)有限公司 | 一种识别说话人的方法及终端 |
CN110222719A (zh) * | 2019-05-10 | 2019-09-10 | 中国科学院计算技术研究所 | 一种基于多帧音视频融合网络的人物识别方法及系统 |
CN110415704A (zh) * | 2019-06-14 | 2019-11-05 | 平安科技(深圳)有限公司 | 庭审笔录数据处理方法、装置、计算机设备和存储介质 |
CN110335612A (zh) * | 2019-07-11 | 2019-10-15 | 招商局金融科技有限公司 | 基于语音识别的会议记录生成方法、装置及存储介质 |
CN110738998A (zh) * | 2019-09-11 | 2020-01-31 | 深圳壹账通智能科技有限公司 | 基于语音的个人信用评估方法、装置、终端及存储介质 |
CN111370032A (zh) * | 2020-02-20 | 2020-07-03 | 厦门快商通科技股份有限公司 | 语音分离方法、系统、移动终端及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5946654A (en) | Speaker identification using unsupervised speech models | |
US7231019B2 (en) | Automatic identification of telephone callers based on voice characteristics | |
Muhammad et al. | E-hafiz: Intelligent system to help muslims in recitation and memorization of Quran | |
Hirschberg et al. | Prosodic and other cues to speech recognition failures | |
WO1995002879A1 (en) | Multi-language speech recognition system | |
Justin et al. | Speaker de-identification using diphone recognition and speech synthesis | |
JPH11143346A (ja) | 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体 | |
Muhammad et al. | Voice content matching system for quran readers | |
Jin | Robust speaker recognition | |
CA3160315C (en) | Real-time speech-to-speech generation (rssg) apparatus, method and a system therefore | |
Nagano et al. | Data augmentation based on vowel stretch for improving children's speech recognition | |
US20040073425A1 (en) | Arrangement for real-time automatic recognition of accented speech | |
CN111739536A (zh) | 一种音频处理的方法和装置 | |
US7308407B2 (en) | Method and system for generating natural sounding concatenative synthetic speech | |
CN109273012B (zh) | 一种基于说话人识别和数字语音识别的身份认证方法 | |
WO2021152566A1 (en) | System and method for shielding speaker voice print in audio signals | |
US20210279427A1 (en) | Systems and methods for generating multi-language media content with automatic selection of matching voices | |
Mary et al. | Analysis and detection of mimicked speech based on prosodic features | |
Hämäläinen et al. | Improving speech recognition through automatic selection of age group–specific acoustic models | |
CN114303186A (zh) | 用于在语音合成中适配人类说话者嵌入的系统和方法 | |
Georgescu et al. | Rodigits-a romanian connected-digits speech corpus for automatic speech and speaker recognition | |
Cahyaningtyas et al. | Development of under-resourced Bahasa Indonesia speech corpus | |
Robert et al. | Automatic speech recognition and its application to media monitoring | |
CN112820297A (zh) | 声纹识别方法、装置、计算机设备及存储介质 | |
Hanani et al. | Speech-based identification of social groups in a single accent of British English by humans and computers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |