CN111768789B - 电子设备及其语音发出者身份确定方法、装置和介质 - Google Patents

电子设备及其语音发出者身份确定方法、装置和介质 Download PDF

Info

Publication number
CN111768789B
CN111768789B CN202010767641.5A CN202010767641A CN111768789B CN 111768789 B CN111768789 B CN 111768789B CN 202010767641 A CN202010767641 A CN 202010767641A CN 111768789 B CN111768789 B CN 111768789B
Authority
CN
China
Prior art keywords
detection
preset
voiceprint
information
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010767641.5A
Other languages
English (en)
Other versions
CN111768789A (zh
Inventor
汪俊
李索恒
张志齐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yitu Information Technology Co ltd
Original Assignee
Shanghai Yitu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yitu Information Technology Co ltd filed Critical Shanghai Yitu Information Technology Co ltd
Priority to CN202010767641.5A priority Critical patent/CN111768789B/zh
Publication of CN111768789A publication Critical patent/CN111768789A/zh
Application granted granted Critical
Publication of CN111768789B publication Critical patent/CN111768789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

本申请涉及语音处理技术领域,公开了一种语音发出者身份确定方法及其电子设备和介质。该方法包括:电子设备获取语音信号;电子设备对语音信号进行内容检测得到包含预设文本信息的检测结果;电子设备在判断出检测结果满足预设检测条件的情况下,对满足预设检测条件的语音信号进行声纹特征提取,得到声纹信息;电子设备将声纹信息与声纹库里的声纹信息进行匹配得到匹配结果;电子设备在判断出匹配结果满足预设匹配条件的情况下,根据满足预设匹配条件的匹配结果确定声纹信息对应的语音发出者的身份标识信息。如此,能够结合语音内容检测、声纹识别确定语音发出者身份,从而能够准确的确定说了预设文本信息的语音发出者的身份。

Description

电子设备及其语音发出者身份确定方法、装置和介质
技术领域
本申请涉及语音处理技术领域,尤其涉及电子设备及其语音发出者身份确定方法、装置和介质。
背景技术
语音携带的信息非常丰富,随着人工智能技术的发展,语音在人工智能领域越来越受重视并由此衍生出了语音识别技术和声纹识别技术。
语音内容检测算法目前采用的方案是先语音识别,即把语音信号转化为文本,再对识别出来的文本做文本检测,例如检测特定词及其变体、特定句式、特定语义等。
目前的语音内容检测算法存在两个问题,一方面,没有用到说话人的历史信息来帮助内容检测,比如说同一个人,可能会说多次被检测的内容。例如过去说了某个词,之后很可能会再说;在一个平台上说了某些东西,很可能会在另一个平台也说。
另一方面,传统的基于人工的语音内容检测,一般会维护一个用户列表,一般是黑名单表,重点检测列表中的用户的语音。依赖人工维护,但该方法维护成本高,且各语音平台自己维护自己的,无法跨平台。
如此,现有的语音内容检测方法未利用上语音说话人本身的信息,存在维护成本高、无法跨平台的问题。
发明内容
本申请实施例提供了电子设备及其语音发出者身份确定方法和介质,能够结合语音内容检测、声纹识别确定语音发出者身份,从而能够准确的确定说了预设文本信息的语音发出者的身份,确定语音发出者身份的不止匹配结果,还包括历史检测结果,防止单一的当前结果造成的误判率,提高语音发出者身份确定的鲁棒性,电子设备自主从各个平台获取声纹信息确定声纹库的,节省人力,降低维护成本。
第一方面,本申请的实施例公开了一种语音发出者身份确定方法,包括:
电子设备获取语音信号;
所述电子设备对所述语音信号进行内容检测得到包含预设文本信息的检测结果;
所述电子设备在判断出所述检测结果满足预设检测条件的情况下,对满足预设检测条件的语音信号进行声纹特征提取,得到声纹信息;
所述电子设备将声纹信息与声纹库里的声纹信息进行匹配得到匹配结果;所述声纹库中包括身份标识信息和声纹信息,所述身份标识信息和所述声纹信息一一对应;
所述电子设备在判断出所述匹配结果满足预设匹配条件的情况下,根据满足预设匹配条件的匹配结果确定所述声纹信息对应的所述语音发出者的身份标识信息。
本申请实施例能够在语音识别、语音内容检测和声纹识别和声纹库确定说了敏感信息等预设文本信息的语音发出者身份,在一定程度上提高了确定语音发出者的身份的准确度。
在上述第一方面的一种实现中,所述电子设备对所述语音信号进行内容检测得到包含预设文本信息的检测结果,包括:
所述电子设备对所述语音信号进行语音识别,得到文本信息;
所述电子设备对文本信息进行内容检测得到包含预设文本信息的检测结果。
本申请实施例中,将文本信息进行内容检测,一一比对,可提高检测效率。
在上述第一方面的一种实现中,所述检测结果为一段文本信息中包含预设文本信息与一段文本信息的比值,所述预设检测条件为所述检测结果大于预设检测值。
本申请实施例中,每个人讲话的风格不同及暴露的讲话内容不同,有的只包含了预设文本信息中的一部分信息,而故意隐藏了一部分信息,则将检测值大于检测阈值,大大提高了检测效率。
在上述第一方面的一种实现中,所述匹配结果为声纹信息与声纹库里的声纹信息的相似度值,所述预设匹配条件为所述匹配结果大于预设匹配值。
本申请中,设定预设匹配值,排除了低相似度值,在一定程度上提高了匹配的准确度。
在上述第一方面的一种实现中,所述匹配结果包括当前匹配结果和历史检测结果;加权匹配结果为对所述当前匹配结果和所述历史检测结果进行加权处理得到的;所述匹配结果满足预设检测条件包括所述加权匹配结果大于预设加权匹配值。
本申请实施例中,确定语音发出者身份的不止包括当前匹配结果,还利用到了同一个人极有可能说了同样的话的历史检测结果,防止单一的当前匹配结果造成的误判率,提高语音发出者身份确定的鲁棒性。
在上述第一方面的一种实现中,所述电子设备对所述语音信号进行内容检测得到包含预设文本信息的检测结果,包括:
所述电子设备对所述文本信息进行多次内容检测,得到多个包含预设文本信息的检测结果;
所述电子设备对所述多个检测结果进行加权处理的到的加权处理结果;
所述电子设备在判断出所述检测结果满足预设检测条件的情况下,对满足预设检测条件的语音信号进行声纹特征提取,得到声纹信息,包括:
所述电子设备在判断出所述加权处理结果大于预设加权处理值的情况下,对满足预设检测条件的语音信号进行声纹特征提取,得到声纹信息。
本申请实施例中,只取一次检测结果中的检测值,误判率较大,利用多次检测到的检测结果,可以在一定程度上提高检测准确度。
在上述第一方面的一种实现中,所述电子设备在判断出所述匹配结果满足预设匹配条件的情况下,将满足预设匹配条件的声纹信息、满足预设匹配条件的检测结果、满足预设匹配条件的匹配结果中的至少一种存储在所述声纹库中。
在上述第一方面的一种实现中,所述身份标识信息为社交账号、手机号或身份证号。
例如:可以通过语音信号确定制造舆论的人的身份证号、社交账号或手机号,在一定程度上提高网络安全检测度。
在上述第一方面的一种实现中,所述预设文本信息为敏感信息或关键词。
例如,敏感信息为制造舆论的敏感词或者敏感句子,确定包含敏感信息的人的身份,在一定程度上提高网络安全检测度。
第二方面,本申请的实施例公开了一种语音发出者身份确定装置,所述装置包括:
语音信号获取模块,所述语音信号获取模块用于获取语音信号;
内容检测模块,所述内容检测模块用于对所述语音信号进行内容检测得到包含预设文本信息的检测结果;
声纹特征提取模块,所述声纹特征提取模块用于在判断出所述检测结果满足预设检测条件的情况下,对满足预设检测条件的语音信号进行声纹特征提取,得到声纹信息;
匹配模块,所述匹配模块用于将声纹信息与声纹库里的声纹信息进行匹配得到匹配结果;所述声纹库中包括身份标识信息和声纹信息,所述身份标识信息和所述声纹信息一一对应;
语音发出者身份确定模块,所述语音发出者身份确定模块用于在判断出所述匹配结果满足预设匹配条件的情况下,根据满足预设匹配条件的匹配结果确定所述声纹信息对应的所述语音发出者的身份标识信息。
在上述第一方面的一种实现中,所述内容检测模块包括:
语音识别模块,所述语音识别模块用于对所述语音信号进行语音识别,得到文本信息;
检测结果确定模块,所述检测结果确定模块用于对文本信息进行内容检测得到包含预设文本信息的检测结果。
在上述第一方面的一种实现中,所述内容检测模块还用于将所述检测结果配置为一段文本信息中包含的预设文本信息与一段文本信息的比值,所述预设检测条件配置为所述检测结果大于预设检测值。
在上述第一方面的一种实现中,所述匹配模块还用于将所述匹配结果配置为声纹信息与声纹库里的声纹信息的相似度值,所述预设匹配条件配置为所述匹配结果大于预设匹配值。
在上述第一方面的一种实现中,所述内容检测模块还用于将所述匹配结果配置为当前匹配结果和历史检测结果;加权匹配结果为对所述当前匹配结果和所述历史检测结果进行加权处理得到的;
将所述匹配结果满足预设检测条件配置为所述加权匹配结果大于预设加权匹配值。
在上述第一方面的一种实现中,所述内容检测模块还用于对所述文本信息进行多次内容检测,得到多个包含预设文本信息的检测结果;对所述多个检测结果进行加权处理的到的加权处理结果;
声纹特征提取模块还用于在判断出所述加权处理结果大于预设加权处理值的情况下,对满足预设检测条件的语音信号进行声纹特征提取,得到声纹信息。
在上述第一方面的一种实现中,所述装置还包括存储模块,所述存储模块用于存储声纹库,所述存储模块用于在所述声纹库中存储满足预设匹配条件的声纹信息、满足预设匹配条件的检测结果、满足预设匹配条件的匹配结果中的至少一种。
在上述第一方面的一种实现中,所述匹配模块还用于将所述身份标识信息配置为社交账号、手机号或身份证号。
在上述第一方面的一种实现中,所述内容检测模块还用于将所述预设文本信息配置为敏感信息或关键词。
第三方面,本申请的实施例公开了一种计算机可读介质,所述可读介质上存储有指令,该指令在电子设备上执行时使机器执行第一方面中所述的语音发出者身份确定方法。
第四方面,本申请的实施例公开了一种电子设备,所述电子设备包括:
存储器,用于存储由电子设备的一个或多个处理器执行的指令,以及
处理器,是电子设备的处理器之一,用于执行第一方面中所述的语音发出者身份确定方法。
附图说明
图1所示为本申请实施例提供的一种语音发出者身份确定方法的应用场景图。
图2所示为本申请实施例提供的一种手机的硬件结构示意图。
图3所示为本申请实施例提供的一种语音发出者身份确定方法的流程示意图。
图4所示为本申请实施例提供的一种语音发出者身份确定装置的结构示意图。
具体实施方式
下面结合具体实施例和附图对本申请做进一步说明。
本申请的说明性实施例包括但不限于电子设备及其语音发出者身份确定方法、装置和介质。
本申请公开了电子设备及其语音发出者身份确定方法、装置和介质,电子设备将语音信号进行语音识别、内容检测、声纹特征匹配处理,检测出语音发出者的身份。其中,声纹特征匹配过程中的声纹库主要是利用声纹识别建立的,该声纹库可以跨多个平台,只和说话人说的语音信号有关,并且能基于数据动态更新,并且能够在语音内容检测的时候,结合语音内容检测、声纹识别和声纹库确定语音发出者身份,从而能够准确的确定语音发出者的身份,确定语音发出者身份的不止匹配结果,还包括历史检测结果,防止单一的当前结果造成的误判率,提高语音发出者身份确定的鲁棒性,电子设备自主从各个平台获取声纹信息确定声纹库的,节省人力,降低维护成本。
下面将结合附图对本申请实施例作进一步地详细描述。
图1示出了根据本申请的实施例提供的一种语音发出者身份确定方法应用场景示意图。如图1所示,该场景包括移动终端110、平台服务器120和电子设备130,电子设备130可以包括电脑主机131和显示屏132;
用户通过移动终端110上的平台发出一段语音信号,平台可以为社交APP,移动终端110将接收到的语音信号发送给平台服务器120,平台服务,120接收并存储移动终端110发送的语音信号,电子设备130向平台服务器120发送语音信号获取请求,接收到平台服务器120发送的语音信号,对该段语音信号进行检测,判断该段语音信号里是否包含敏感信息,若该段语音信号里包含敏感信息,获取该段语音信号的声纹特征,根据该段语音信号的声纹特征从平台服务器120中的声纹库中确定该段语音发出者的身份标识信息,身份标识信息可以为语音发出者的社交账号、手机号、身份证号等。
移动终端110可以为手机、电脑、可穿戴设备等,但不限于此。图1中虽然示出了电子设备130为电脑,但适用于语音发出者身份确定方法的设备不限于此;电子设备130还可以为手机、网警检测中心的手机、穿戴设备、服务器等。
在下文的描述中,为了简化说明,以电脑130为例说明本申请的技术方案。
具体的,图2示出了根据本申请的实施例的一种电脑的硬件结构示意图;在一些实施例中,电脑130包括显示屏250、处理器210、存储器220和无线通信模块230。下面结合图2,对电脑130的各功能组件进行介绍:
显示屏250可以用于显示语音发出者身份等信息。
处理器210用于进行系统调度,控制显示屏250,支持处理无线通信模块230等。
存储器220用于存储软件程序以及各种数据,处理器210通过运行存储在存储器220的软件程序以及数据,执行电脑130的各种功能应用以及数据处理。例如,在本申请的一些实施例中,存储器220可以存储声纹库。
无线通信模块230,电脑130通过无线通信模块230与其他电子设备(如手机、平板电脑等)实现无线通信,例如,可以包括无线局域网(wireless local area networks,WLAN),(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。
可以理解,图2所示的结构仅仅是实现本申请技术方案中语音发出者身份确功能的一种具体结构,具有其他结构并能实现类似的功能的结构也适用于本申请的技术方案,在此不做限制。
下面以电子设备130为电脑130为例,根据本申请的一实施例来详细说明语音发出者身份确定方法。
根据本申请的一些实施例,图3示出了一种语音发出者身份确定方法的流程示意图,如图3所示,该方法包括:
S301:电脑130获取语音信号;
可以理解,在一些实施例中,语音信号也可以叫做音频信号,但不限于此。
S302:电脑130对所述语音信号进行内容检测得到包含预设文本信息的检测结果;
在一些实施例中,通过语音信号中的文本信息得到包含预设文本信息的检测结果;具体的,包括:
电脑130对所述语音信号进行语音识别,得到文本信息;
电脑130对所述文本信息进行内容检测得到包含预设文本信息的检测结果;
例如:以中文语音信号转化为中文为例,对一段语音信号进行语音信号切片处理得到多个语音信号子单元,假设语音信号A的PCM编码为(a1、a2、a3...an),每个a表示每个语音信号子单元对应的数值,具体为PCM(Pulse Code Modulation,脉冲编码调制)编码。接下来对语音信号A进行语音识别,会把语音信号A(a1、a2、a3...an)转化为文本B(b1、b2、b3...bm),每个b表示每个语音信号子单元对应的文本,即每个语音信号子单元可以为一句话,每个b是每句话对应的文字,对语音信号进行语音识别,将语音信号转成文字。此外,可以理解,在其他一些实施例中,英文语音信号转化为英文,中文语音信号转化英文等,但不限于此。
在一些实施例中,语音识别算法可以是隐马尔可夫模型(Hidden Markov Model,HMM)、卷积神经网络(Convolutional Neural Network,CNN)、长短期记忆网络LSTM(LongShort-Term Memory)等,但不限于此。
可以理解,在一些实施例中,所述检测结果为一段文本信息中包含的预设文本信息与一段文本信息的比值,可以通过对所述文本信息进行内容检测得到包含敏感信息、关键词等某一内容的检测结果,敏感信息可以为敏感词或敏感句子等。
例如,由语音信号A转成的文本B进行内容检测,检测文本B(b1、b2、b3...bm)中包含某一内容的检测结果为p1,一般是0到1,检测结果可以为百分比或者小数,也可以叫做检测置信度、检测值等,但不限于此。以敏感词为例,若敏感词为AAAA,文本B为AAAa,则检测结果为75%,若敏感词为AAAA,文本B为AAAA,则检测结果为100%。具体的算法可以为关键词检测、语义理解分析等,但不限于此。
S303:电脑130判断所述检测结果是否满足预设检测条件,若是,则转至S304;在一些实施例中,若否,则在显示屏上显示提示信息“检测失败”。
在一些实施例中,所述预设检测条件为检测结果大于预设检测值,通过判断检测结果大于预设检测值,确定检测结果满足预设检测条件。预设检测值可以根据具体实际情况设置。例如,75%以上。
检测结果可以为当前的检测结果,也可以为过去一段时间的检测结果。
在一些实施例中,通过当前一次检测结果确定判断结果。
此外,在一些实施例中,与上述实施方式不同,电脑130对所述文本信息进行多次内容检测,得到多个包含预设文本信息的检测结果;所述电子设备对所述多个检测结果进行加权处理的到的加权处理结果。所述检测结果满足预设检测条件的情况为所述加权处理结果大于预设加权处理值,对满足预设检测条件的语音信号进行声纹特征提取,得到声纹信息。
多次内容检测包括当前检测结果和历史检测结果。当前检测结果为当前一次的检测结果,历史检测结果可以为当前一次检测之前进行的一次或者多次的检测结果,当前检测结果和历史检测结果均是对同一段信息进行的内容检测。
具体的,对多次检测的检测结果进行加权处理,重新得到一个加权处理结果,若重新得到的加权处理结果大于预设加权处理值,判断出检测结果满足预设检测条件。
结合历史检测结果和当前检测结果,即结合多次检测的检测结果判断检测结果是否满足预设检测条件。这样平衡了当前检测结果的和历史检测结果,防止根据一次检测结果确定判断结果的误判,判断的鲁棒性更强。
例如,p=a*p1+(1-a)*p_h,a为当前检测结果的权重,p1为当前检测结果,(1-a)为历史检测结果的权重,p_h为历史检测结果。最终输出的检测结果为p,符号*表示相乘的意思。若当p大于预设检测值,判断出检测结果满足预设检测条件。
此外,在一些实施例中,预设文本信息也可以包括多个检测内容,以检测内容为敏感词为例,预设文本信息可以是多个敏感词,至少一个包含敏感词的检测结果满足预设检测值,则判定检测结果满足预设检测条件。
例如:敏感词为x1、x2、x3,与敏感词为x1、x2和x3对应的检测结果为px1、px2、px3。px1为一段文本信息中,一段文本信息包含的敏感词x1与整段文本信息的比值,px2为同一段文本信息中,一段文本信息包含的敏感词x2与整段文本信息的比值,px3为同一段文本信息中,一段文本信息包含的敏感词x3与整段文本信息的比值。只要px1、px2、px3中的至少一个满足预设检测值,则判定检测结果满足预设检测条件。
S304:对满足预设检测条件的语音信号进行声纹特征提取,得到声纹信息;
声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱,是由波长、频率以及强度等百余种特征维度组成的生物特征,具有稳定性、可测量性、唯一性等特点,声纹信息中包括语音信号中音素的波长、频率、强度等参数信息。声纹信息是语音发出者特有的信息,可以根据声纹信息辨别语音发出者的身份。
S305:电脑130将声纹信息与声纹库里的声纹信息进行匹配得到匹配结果;所述声纹库中包括身份标识信息和声纹信息,所述身份标识信息和声纹信息一一对应。
在一些实施例中,所述匹配结果为待匹配声纹信息与声纹库里的声纹信息的相似度值。
在一些实施例中,与上述实施例不同的是,所述匹配结果为对待匹配声纹信息与声纹库里的声纹信息的相似度值和历史检测结果进行加权处理得到加权匹配结果;
S306:电脑130判断所述匹配结果是否满足预设匹配条件,若是,则转至S307;在一些实施例中,若否,则在显示屏上显示提示信息“匹配失败”。
在一些实施例中,声纹库里面存储着许多人的身份标识信息和声纹信息之间的映射关系表,声纹信息为从语音信号提取出来的声纹特征。通过查询声纹库中括身份标识信息和声纹信息之间的映射关系表来确定发出某一内容的语音信号的人的身份。所述匹配结果为待匹配声纹信息与声纹库里的声纹信息的相似度值,所述预设匹配条件为待匹配声纹信息与声纹库里的声纹信息的相似度值大于预设匹配值。相似度值为通过比对两段语音的说话人在相同音素上的发声来判断是否为同一个人的概率。若所述匹配结果大于预设匹配值,则确定所述匹配结果满足匹配条件。
在一些实施例中,与上述实施例不同的是,所述声纹库中还包括历史检测结果,考虑到同一个人在不同平台很有可能说了同样的话的历史检测结果,通过历史检测结果和匹配结果结合判断是否满足预设匹配条件,防止单一的匹配判断造成的误判,在一定程度上提高了匹配判断的准确度。具体的,声纹库里存储着身份标识信息、声纹信息、历史上的检测结果和/或者历史上的检测结果的平均值之间的映射关系。
在一些实施例中,所述匹配结果为对待匹配声纹信息与声纹库里的声纹信息的相似度值和所述历史检测结果进行加权处理得到加权匹配结果;所述匹配结果满足预设检测条件可以为加权匹配结果大于预设加权匹配值。
例如,id n为声纹库中不同声纹信息对应的标号,匹配的结果是与所有idn对应的匹配结果或者部分idn对应的匹配结果,n为自然数。匹配结果包括需要匹配的的声纹信息与声纹库中的所有idn对应的的声纹信息的相似度。
因为很多匹配结果非常低,为无用数据,造电脑130计算量较大,因此需要删除匹配结果非常低的数据,取相似度较高的M个id及对应匹配结果,按照匹配结果从大到小排列M个id。例如,下文都假设id1、id2的顺序是按照p_id大小排序过的,p_id1是p_idn中最大的。
id1、p_id1(id1对应的匹配结果)、p_hid1(id1对应的预设信息的平均历史检测结果);
id2、p_id2(id2对应的匹配结果)、p_hid2(id2对应的预设信息的平均历史检测结果);
在一些实施例中,只考虑匹配结果,取p_id1,并且p_id1大于预设匹配值算有效,例如,pid1大于0.8。
电脑130在判断出所述匹配结果满足预设匹配条件的情况下,将满足预设匹配条件的声纹信息、满足预设匹配条件的检测结果、满足预设匹配条件的匹配结果中的至少一种存储在所述声纹库中。
在声纹库中将有效的匹配结果对应的当前检测结果去更新对应的p_hid1,增加了一次有效的该id的内容检测结果,还可以更新该id对应的预设信息的平均历史检测结果。例如,历史上的检测结果一般初始全0,然后线上逐步更新。声纹库中的数据量也是线上逐步更新的。
更新的平均检测结果p_hid1可以是(phid1*id1_count+p)/(id1_count+1),id1_count+1表示匹配的有效次数在历史有效的检测基础上增加一次计数。与当前匹配结果相比,过去历史上所有的匹配结果之和为P,P除以id1_count等于phid1,phid1为过去的平均值,phid1*id1_count=P。匹配的有效次数增加一次后,当前的匹配结果为P更新的平均检测结果p_hid1=(phid1*id1_count+P)/(id1_count+1)。
更新的p_hid1还可以是phid1*t+p*(1-t),t是根据实际情况设置,例如,t取0.1,此处的P是指更新的平均检测结果。
在一些实施例中,与上述实施例不同的是,考虑到历史检测结果:得到p_h1=p_id1*p_hid1;
p_h2=p_id2*p_hid2;
p_h3=p_id3*p_hid3;
p_hn=p_idn*p_hidn;
取p_h 1、p_h2、p_h3、p_hn中最大的值作为满足预设匹配条件的匹配结果。
p_h=sum(p_id1*p_hid1+p_id2*p_hid2+p_id3*p_hid3...+p_idn*p_hidn)。
p_id1表示id1对应的匹配结果;p_id1表示是语音发出者的标号为id1的概率。例如,假如有3个id,p_id1=0.5,p_id2=0.3,p_id3=0.2,加起来等于1,使用者不是id1就是id2或者id3。
p_hid1表示id1对应的历史上的检测结果。p_hid1表示id1历史上的平均检测结果,比如,p_hid1=0.8,含义是id1很有可能再次说出违规的话的概率。p_hid2、p_hid3都可以是0~1之间任意数,代表id2、id3历史上的被检出概率。
p_id1*p_hid1的语义是语音发出者对应的身份标号为id1并且违规的概率。例如,p_id1=0.5,p_hid1=0.8,p_id1和p_hid1两者相乘结果是0.4,代表着语音发出者对应的身份标号为id1并且违规的概率。1减去0.4剩下的0.6包括:id不是id1并且违规、id不是id1并且不违规、id是id1并且不违规的概率。
语音发出者是id1并且违规的概率+语音发出者是id2并且违规的概率+...+语音发出者是idn并且违规的概率。最终算出来的是语音发出者说出违规的话的概率。这个计算过程就是一个贝叶斯概率,把所有的id并且违规加起来,就等于id这个维度没有了,只剩下违规了。语音发出者或者说需要检测的人可能是id1、id2、id3...idn(分别对应到1个人),都有分别的概率。并且历史上id1有违规的概率、id2有违规的概率...每个人都有不同的违规的概率。两者通过联合概率计算,就知道语音发出者违规的概率是什么。
所有的p_id1*p_hid1都是0~1之间的数字。sum(p_id1*p_hid1+p_id2*p_hid2+p_id3*p_hid3...+p_idn*p_hidn)也是0~1之间的数字。
S307:根据满足预设匹配条件的匹配结果确定所述声纹信息对应的所述语音发出者的身份标识信息。
可以理解,本申请实施例中,身份标识信息可以为语音发出者的社交账号、手机号、身份证号(Identity document,id)等。
本申请的实施例还提供了一种语音发出者身份确定装置,图4所示为本申请实施例提供的一种语音发出者身份确定装置的结构示意图。如图4所示,所述装置包括:
语音信号获取模块401,所述语音信号获取模块用于获取语音信号;
内容检测模块402,所述内容检测模块用于对所述语音信号进行内容检测得到包含预设文本信息的检测结果;
声纹特征提取模块403,所述声纹特征提取模块用于在判断出所述检测结果满足预设检测条件的情况下,对所述语音信号进行声纹特征提取,得到声纹信息;
匹配模块404,所述匹配模块用于将声纹信息与声纹库里的声纹信息进行匹配得到匹配结果;所述声纹库中包括身份标识信息和声纹信息,所述身份标识信息和所述声纹信息一一对应;
语音发出者身份确定模块405,所述语音发出者身份确定模块用于在判断出所述匹配结果满足预设匹配条件的情况下,根据所述匹配结果从所述声纹库中确定所述语音发出者的身份标识信息。
在一些实施例中,所述内容检测模块包括:
语音识别模块,所述语音识别模块用于对所述语音信号进行语音识别,得到文本信息;
检测结果确定模块,所述检测结果确定模块用于对文本信息进行内容检测得到包含预设文本信息的检测结果。
在一些实施例中,所述内容检测模块还用于将所述检测结果配置为一段文本信息中包含的预设文本信息与一段文本信息的比值,所述预设检测条件配置为所述检测结果大于预设检测值。
在一些实施例中,所述匹配模块还用于将所述匹配结果配置为声纹信息与声纹库里的声纹信息的相似度值,所述预设匹配条件配置为所述匹配结果大于预设匹配值。
在一些实施例中,所述内容检测模块还用于将所述匹配结果配置为当前匹配结果和历史检测结果;加权匹配结果为对所述当前匹配结果和所述历史检测结果进行加权处理得到的;
将所述匹配结果满足预设检测条件配置为所述加权匹配结果大于预设加权匹配值。
在一些实施例中,所述内容检测模块还用于对所述文本信息进行多次内容检测,得到多个包含预设文本信息的检测结果;对所述多个检测结果进行加权处理的到的加权处理结果;
声纹特征提取模块还用于在判断出所述加权处理结果大于预设加权处理值的情况下,对满足预设检测条件的语音信号进行声纹特征提取,得到声纹信息。
在一些实施例中,所述装置还包括存储模块,所述存储模块用于存储声纹库,所述存储模块用于在所述声纹库中存储满足预设匹配条件的声纹信息、满足预设匹配条件的检测结果、满足预设匹配条件的匹配结果中的至少一种。
在一些实施例中,所述匹配模块还用于将所述身份标识信息配置为社交账号、手机号或身份证号。
在一些实施例中,所述内容检测模块还用于将所述预设文本信息配置为敏感信息或关键词。
本申请提供的装置实施例与方法实施例中基于相同的申请构思。
本申请的实施例还提供了一种计算机可读介质,所述计算机可读介质上存储有指令,该指令在电子设备上执行时使机器执行上述的所述的语音发出者身份确定方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本申请的实施例还提供了一种电子设备,所述电子设备包括:
存储器,用于存储由电子设备的一个或多个处理器执行的指令,以及
处理器,是电子设备的处理器之一,该电子设备具有实现上述语音发出者身份确定方法中的各电子设备的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多于一个与上述功能相对应的模块。
虽然通过参照本申请的某些优选实施例,已经对本申请进行了图示和描述,但本领域的普通技术人员应该明白,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。

Claims (18)

1.一种语音发出者身份确定方法,其特征在于,包括:
电子设备获取语音信号;
所述电子设备对所述语音信号进行内容检测得到包含预设文本信息的检测结果;
所述电子设备在判断出所述检测结果满足预设检测条件的情况下,对满足预设检测条件的语音信号进行声纹特征提取,得到声纹信息;
所述电子设备将声纹信息与声纹库里的声纹信息进行匹配得到匹配结果;所述声纹库中包括身份标识信息和声纹信息,所述身份标识信息和所述声纹信息一一对应;
所述电子设备在判断出所述匹配结果满足预设匹配条件的情况下,根据满足预设匹配条件的匹配结果确定所述声纹信息对应的所述语音发出者的身份标识信息;
所述匹配结果包括当前匹配结果和历史检测结果;加权匹配结果为对所述当前匹配结果和所述历史检测结果进行加权处理得到的;
所述匹配结果满足预设检测条件包括所述加权匹配结果大于预设加权匹配值;
所述历史检测结果为当前一次检测之前进行的一次或者多次的检测结果。
2.根据权利要求1所述的方法,其特征在于,所述电子设备对所述语音信号进行内容检测得到包含预设文本信息的检测结果,包括:
所述电子设备对所述语音信号进行语音识别,得到文本信息;
所述电子设备对文本信息进行内容检测得到包含预设文本信息的检测结果。
3.根据权利要求2所述的方法,其特征在于,所述检测结果为一段文本信息中包含的预设文本信息与一段文本信息的比值,所述预设检测条件为所述检测结果大于预设检测值。
4.根据权利要求2所述的方法,其特征在于,所述匹配结果为声纹信息与声纹库里的声纹信息的相似度值,所述预设匹配条件为所述匹配结果大于预设匹配值。
5.根据权利要求1所述的方法,其特征在于,所述电子设备对所述语音信号进行内容检测得到包含预设文本信息的检测结果,包括:
所述电子设备对所述文本信息进行多次内容检测,得到多个包含预设文本信息的检测结果;
所述电子设备对所述多个检测结果进行加权处理的到的加权处理结果;
所述电子设备在判断出所述检测结果满足预设检测条件的情况下,对满足预设检测条件的语音信号进行声纹特征提取,得到声纹信息,包括:
所述电子设备在判断出所述加权处理结果大于预设加权处理值的情况下,对满足预设检测条件的语音信号进行声纹特征提取,得到声纹信息。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:将满足预设匹配条件的声纹信息、满足预设匹配条件的检测结果、满足预设匹配条件的匹配结果中的至少一种存储在所述声纹库中。
7.根据权利要求1所述的方法,其特征在于,所述身份标识信息为社交账号、手机号或身份证号。
8.根据权利要求1所述的方法,其特征在于,所述预设文本信息为敏感信息或关键词。
9.一种语音发出者身份确定装置,其特征在于,包括:
语音信号获取模块,所述语音信号获取模块用于获取语音信号;
内容检测模块,所述内容检测模块用于对所述语音信号进行内容检测得到包含预设文本信息的检测结果;
声纹特征提取模块,所述声纹特征提取模块用于在判断出所述检测结果满足预设检测条件的情况下,对所述语音信号进行声纹特征提取,得到声纹信息;
匹配模块,所述匹配模块用于将声纹信息与声纹库里的声纹信息进行匹配得到匹配结果;所述声纹库中包括身份标识信息和声纹信息,所述身份标识信息和所述声纹信息一一对应;
语音发出者身份确定模块,所述语音发出者身份确定模块用于在判断出所述匹配结果满足预设匹配条件的情况下,根据所述匹配结果从所述声纹库中确定所述语音发出者的身份标识信息;
所述内容检测模块还用于将所述匹配结果配置为当前匹配结果和历史检测结果;加权匹配结果为对所述当前匹配结果和所述历史检测结果进行加权处理得到的;
将所述匹配结果满足预设检测条件配置为所述加权匹配结果大于预设加权匹配值;
所述历史检测结果为当前一次检测之前进行的一次或者多次的检测结果。
10.根据权利要求9所述的装置,其特征在于,所述内容检测模块包括:
语音识别模块,所述语音识别模块用于对所述语音信号进行语音识别,得到文本信息;
检测结果确定模块,所述检测结果确定模块用于对文本信息进行内容检测得到包含预设文本信息的检测结果。
11.根据权利要求9所述的装置,其特征在于,所述内容检测模块还用于将所述检测结果配置为一段文本信息中包含的预设文本信息与一段文本信息的比值,所述预设检测条件配置为所述检测结果大于预设检测值。
12.根据权利要求9所述的装置,其特征在于,所述匹配模块还用于将所述匹配结果配置为声纹信息与声纹库里的声纹信息的相似度值,所述预设匹配条件配置为所述匹配结果大于预设匹配值。
13.根据权利要求9所述的装置,其特征在于,所述内容检测模块还用于对所述文本信息进行多次内容检测,得到多个包含预设文本信息的检测结果;对所述多个检测结果进行加权处理的到的加权处理结果;
声纹特征提取模块还用于在判断出所述加权处理结果大于预设加权处理值的情况下,对满足预设检测条件的语音信号进行声纹特征提取,得到声纹信息。
14.根据权利要求9所述的装置,其特征在于,还包括:
存储模块,所述存储模块用于存储声纹库,所述存储模块用于在所述声纹库中存储满足预设匹配条件的声纹信息、满足预设匹配条件的检测结果、满足预设匹配条件的匹配结果中的至少一种。
15.根据权利要求9所述的装置,其特征在于,所述匹配模块还用于将所述身份标识信息配置为社交账号、手机号或身份证号。
16.根据权利要求9所述的装置,其特征在于,所述内容检测模块还用于将所述预设文本信息配置为敏感信息或关键词。
17.一种计算机可读介质,其特征在于,所述可读介质上存储有指令,该指令在电子设备上执行时使机器执行权利要求1至8中任一项所述的语音发出者身份确定方法。
18.一种电子设备,其特征在于,包括:
存储器,用于存储由电子设备的一个或多个处理器执行的指令,以及
处理器,是电子设备的处理器之一,用于执行权利要求1至8中任一项所述的语音发出者身份确定方法。
CN202010767641.5A 2020-08-03 2020-08-03 电子设备及其语音发出者身份确定方法、装置和介质 Active CN111768789B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010767641.5A CN111768789B (zh) 2020-08-03 2020-08-03 电子设备及其语音发出者身份确定方法、装置和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010767641.5A CN111768789B (zh) 2020-08-03 2020-08-03 电子设备及其语音发出者身份确定方法、装置和介质

Publications (2)

Publication Number Publication Date
CN111768789A CN111768789A (zh) 2020-10-13
CN111768789B true CN111768789B (zh) 2024-02-23

Family

ID=72728842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010767641.5A Active CN111768789B (zh) 2020-08-03 2020-08-03 电子设备及其语音发出者身份确定方法、装置和介质

Country Status (1)

Country Link
CN (1) CN111768789B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113257230B (zh) * 2021-06-23 2022-02-08 北京世纪好未来教育科技有限公司 语音处理方法及装置、计算机可存储介质
CN116092226A (zh) * 2022-12-05 2023-05-09 北京声智科技有限公司 一种语音开锁方法、装置、设备及存储介质
CN116072123B (zh) * 2023-03-06 2023-06-23 南昌航天广信科技有限责任公司 广播信息播放方法、装置、可读存储介质及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107331400A (zh) * 2017-08-25 2017-11-07 百度在线网络技术(北京)有限公司 一种声纹识别性能提升方法、装置、终端及存储介质
CN107733762A (zh) * 2017-11-20 2018-02-23 马博 一种智能家居的语音控制方法及装置、系统
CN108766439A (zh) * 2018-04-27 2018-11-06 广州国音科技有限公司 一种基于声纹识别的监控方法及装置
CN108831476A (zh) * 2018-05-31 2018-11-16 平安科技(深圳)有限公司 语音采集方法、装置、计算机设备及存储介质
CN109508402A (zh) * 2018-11-15 2019-03-22 上海指旺信息科技有限公司 违规用语检测方法及装置
CN109817224A (zh) * 2019-02-22 2019-05-28 深圳云游四海信息科技有限公司 一种语音敏感词监督系统和方法
CN110111798A (zh) * 2019-04-29 2019-08-09 平安科技(深圳)有限公司 一种识别说话人的方法及终端
CN110830771A (zh) * 2019-11-11 2020-02-21 广州国音智能科技有限公司 智能监控方法、装置、设备及计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113206737A (zh) * 2015-09-01 2021-08-03 北京三星通信技术研究有限公司 语音通信加密方法、解密方法及其装置
US20190182176A1 (en) * 2016-12-21 2019-06-13 Facebook, Inc. User Authentication with Voiceprints on Online Social Networks
US11152006B2 (en) * 2018-05-07 2021-10-19 Microsoft Technology Licensing, Llc Voice identification enrollment
CN110517106A (zh) * 2019-07-24 2019-11-29 合肥善达信息科技有限公司 一种用于评标的专家身份认证系统及其实时监测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107331400A (zh) * 2017-08-25 2017-11-07 百度在线网络技术(北京)有限公司 一种声纹识别性能提升方法、装置、终端及存储介质
CN107733762A (zh) * 2017-11-20 2018-02-23 马博 一种智能家居的语音控制方法及装置、系统
CN108766439A (zh) * 2018-04-27 2018-11-06 广州国音科技有限公司 一种基于声纹识别的监控方法及装置
CN108831476A (zh) * 2018-05-31 2018-11-16 平安科技(深圳)有限公司 语音采集方法、装置、计算机设备及存储介质
CN109508402A (zh) * 2018-11-15 2019-03-22 上海指旺信息科技有限公司 违规用语检测方法及装置
CN109817224A (zh) * 2019-02-22 2019-05-28 深圳云游四海信息科技有限公司 一种语音敏感词监督系统和方法
CN110111798A (zh) * 2019-04-29 2019-08-09 平安科技(深圳)有限公司 一种识别说话人的方法及终端
CN110830771A (zh) * 2019-11-11 2020-02-21 广州国音智能科技有限公司 智能监控方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN111768789A (zh) 2020-10-13

Similar Documents

Publication Publication Date Title
US11564090B1 (en) Audio verification
US12051408B2 (en) Promoting voice actions to hotwords
CN110268469B (zh) 服务器侧热词
US11915699B2 (en) Account association with device
CN108428446B (zh) 语音识别方法和装置
KR101824158B1 (ko) 화자 검증을 위한 동적 임계치
US10032451B1 (en) User recognition for speech processing systems
CN111768789B (zh) 电子设备及其语音发出者身份确定方法、装置和介质
US10917758B1 (en) Voice-based messaging
US11763808B2 (en) Temporary account association with voice-enabled devices
US10714085B2 (en) Temporary account association with voice-enabled devices
KR20210009596A (ko) 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스
JPWO2016092807A1 (ja) 話者識別装置および話者識別用の登録音声の特徴量登録方法
CN110047481A (zh) 用于语音识别的方法和装置
US11361764B1 (en) Device naming-indicator generation
US11862170B2 (en) Sensitive data control
CN104462912B (zh) 改进的生物密码安全
CN109462482A (zh) 声纹识别方法、装置、电子设备及计算机可读存储介质
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
KR102312993B1 (ko) 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치
CN112037772A (zh) 基于多模态的响应义务检测方法、系统及装置
EP3776300A1 (en) Temporary account association with voice-enabled devices
CN114171014A (zh) 语音识别方法、装置、设备、可读存储介质及计算机程序

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant