CN112927680B - 一种基于电话信道的声纹有效语音的识别方法及装置 - Google Patents

一种基于电话信道的声纹有效语音的识别方法及装置 Download PDF

Info

Publication number
CN112927680B
CN112927680B CN202110183528.7A CN202110183528A CN112927680B CN 112927680 B CN112927680 B CN 112927680B CN 202110183528 A CN202110183528 A CN 202110183528A CN 112927680 B CN112927680 B CN 112927680B
Authority
CN
China
Prior art keywords
voice
speech
section
segment
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110183528.7A
Other languages
English (en)
Other versions
CN112927680A (zh
Inventor
宁博
唐绮雯
李艳华
龚小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110183528.7A priority Critical patent/CN112927680B/zh
Publication of CN112927680A publication Critical patent/CN112927680A/zh
Application granted granted Critical
Publication of CN112927680B publication Critical patent/CN112927680B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

本发明提供一种基于电话信道的声纹有效语音的识别方法及装置,涉及人工智能技术领域。所述方法包括:接收语音流数据,并将所述语音流数据合成为待识别语音;对所述待识别语音进行静音识别,并将所述待识别语音拆分为多段语音;对每个非静音语音段进行噪声识别,获得第一类语音段和第二类语音段;对所述第一类语音段进行静音填补,并对所述第二类语音段进行降噪处理;对所有静音段语音和经过处理的第一类语音段和第二类语音段进行拼接,合并为长语音;若获知所述长语音的有效语音时长大于时长阈值,则结束有效语音的识别。所述装置用于执行上述方法。本发明实施例提供的基于电话信道的声纹有效语音的识别方法及装置,提高了声纹识别的准确性。

Description

一种基于电话信道的声纹有效语音的识别方法及装置
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于电话信道的声纹有效语音的识别方法及装置。
背景技术
目前,为适应欺诈风险防控要求,电话银行以及电话银行呼叫中心使用声纹识别作为用户身份验证的辅助手段并搭建声纹黑名单,以抵制电话诈骗。
由于目前声纹识别算法的局限性,要取得较理想的声纹识别准确率必须对有效长语音进行识别。但是在声纹识别的实际应用中,用户的录音数据往往混杂了彩铃声,杂音、噪音和无效语言等干扰,导致实际应用中的声纹识别准确率较低,在某些特定场景下甚至无法达到可应用的最低要求。因此,如何获得声纹识别所需要的有效语音,以提高声纹识别的准确性,成为本领域需要解决的重要课题。
发明内容
针对现有技术中的问题,本发明实施例提供一种基于电话信道的声纹有效语音的识别方法及装置,能够至少部分地解决现有技术中存在的问题。
一方面,本发明提出一种基于电话信道的声纹有效语音的识别方法,包括:
接收语音流数据,并将所述语音流数据合成为待识别语音;
对所述待识别语音进行静音识别,并将所述待识别语音拆分为多段语音;其中,每段语音标记为静音段和非静音段;
对每个标记为非静音段的语音段进行噪声识别,获得第一类语音段和第二类语音段;
对所述第一类语音段进行静音填补,并对所述第二类语音段进行降噪处理;
对所有标记为静音段的语音段、经过处理的第一类语音段和第二类语音段进行拼接,合并为长语音;
若获知所述长语音的有效语音时长大于时长阈值,则结束有效语音的识别。
另一方面,本发明提供一种基于电话信道的声纹有效语音的识别装置,包括:
接收单元,用于接收语音流数据,并将所述语音流数据合成为待识别语音;
静音识别单元,用于对所述待识别语音进行静音识别,并将所述待识别语音拆分为多段语音;其中,每段语音标记为静音段和非静音段;
噪音识别单元,用于对每个标记为静音段的语音段进行噪声识别,获得第一类语音段和第二类语音段;
降噪处理单元,用于对所述第一类语音段进行静音填补,并对所述第二类语音段进行降噪处理;
合并单元,用于对所有标记为静音段的语音段和经过处理的第一类语音段和第二类语音段进行拼接,合并为长语音;
判断单元,用于在获知所述长语音的有效语音时长大于时长阈值之后,结束有效语音的识别。
再一方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述基于电话信道的声纹有效语音的识别方法的步骤。
又一方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例所述基于电话信道的声纹有效语音的识别方法的步骤。
本发明实施例提供的基于电话信道的声纹有效语音的识别方法及装置,能够接收语音流数据,并将语音流数据合成为待识别语音,对待识别语音进行静音识别,并将待识别语音拆分为多段语音,对每个非静音语音段进行噪声识别,获得第一类语音段和第二类语音段,对第一类语音段进行静音填补,并对第二类语音段进行降噪处理,对静音段语音和经过处理的第一类语音段和第二类语音段进行拼接,合并为长语音,在判断获知长语音的有效语音时长大于时长阈值之后,结束有效语音的识别,能够去除待识别语音中的无效语音,提供有效语音进行声纹识别,有利于提高声纹识别的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明一实施例提供的基于电话信道的声纹有效语音的识别方法的流程示意图。
图2是本发明另一实施例提供的基于电话信道的声纹有效语音的识别方法的流程示意图。
图3是本发明再一实施例提供的基于电话信道的声纹有效语音的识别方法的流程示意图。
图4是本发明一实施例提供的声纹识别系统的结构示意图。
图5是本发明又一实施例提供的基于电话信道的声纹有效语音的识别方法的流程示意图。
图6是本发明一实施例提供的基于电话信道的声纹有效语音的识别装置的结构示意图。
图7是本发明一实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
图1是本发明一实施例提供的基于电话信道的声纹有效语音的识别方法的流程示意图,如图1所示,本发明实施例提供的基于电话信道的声纹有效语音的识别方法,包括:
S101、接收语音流数据,并将所述语音流数据合成为待识别语音;
具体地,服务器可以接收语音流数据,然后将所述语音流数据合成为待识别语音。其中,本发明实施例提供的基于电话信道的声纹有效语音的识别方法的执行主体包括但不限于服务器。
例如,语音采集终端可以以SIP流、MRCP流或者其他形式接收客户端发送的语音流数据,然后将接收到的语音流数据发送给所述服务器。其中,语音采集终端可以为交换机或者呼叫中心的服务器。所述客户端可以为固定电话或者移动电话。
S102、对所述待识别语音进行静音识别,并将所述待识别语音拆分为多段语音;其中,每段语音标记为静音段和非静音段;
具体地,所述服务器在获得所述待识别语音之后,会对所述待识别语音进行静音识别,以识别出所述待识别语音包括的静音语音段和非静音语音段,并将识别出的静音语音段标记为静音段,将识别出的非静音语音段标记为非静音段,从而将所述待识别语音拆分为多段语音,每段语音标记为静音段或者非静音段。
S103、对每个标记为非静音段的语音段进行噪声识别,获得第一类语音段和第二类语音段;
具体地,对于每个非静音语音段,即标记为非静音段的语音段,所述服务器会进行噪声识别,以识别出每个非静音语音段是第一类语音段还是第二类语音段,如果非静音语音段是第一类语音段,表明该非静音语音段的声音能量在短时间内突然升高或者降低,声音能量不平稳。如果非静音语音段是第二类语音段,表明该非静音语音段的声音能量是平稳的。可理解的是,所述第一类语音段可以为一个语音段、两个语音段或者两个以上的语音段。所述第二类语音段可以为一个语音段、两个语音段或者两个以上的语音段。
S104、对所述第一类语音段进行静音填补,并对所述第二类语音段进行降噪处理;
具体地,所述服务器在获得所述第一类语音段之后,会对所述第一类语音段进行静音填补,即消除所述第一类语音段中的声音,使所述第一类语音段静音。所述服务器会对所述第二类语音段进行降噪处理,以消除所述第二类语音段中的音乐、彩铃、干扰人声等噪音。
S105、对所有标记为静音段的语音段、经过处理的第一类语音段和第二类语音段进行拼接,合并为长语音;
具体地,所述服务器在对所述第一类语音段进行静音填补,并对所述第二类语音段进行降噪处理之后,会对所有标记为静音段的语音段、经过静音填补的第一类语音段和经过降噪处理第二类语音段进行拼接,合并为长语音。可理解的是,所述服务器在拆分所述待识别语音时,会按照时间顺序标记每个语音段的在所述待识别语音中的顺序,在合并长语音时会按照所有标记为静音段的语音段、第一类语音段和第二类语音段中每个语音段的在所述待识别语音中的顺序进行合并。其中,长语音的合并可以采用PCM协议。
S106、若判断获知所述长语音的有效语音时长大于时长阈值,则结束有效语音的识别。
具体地,所述服务器在合并长语音之后,会计算所述长语音的有效语音时长,即长语音中有人声的语音的时长,然后将所述长语音的有效语音时长与时长阈值进行比较,如果所述长语音的有效语音时长大于时长阈值,说明获得的长语音包括足够的语音进行语音识别,可以结束有效语音的识别。所述服务器可以对所述长语音进行语音识别,或者将所述长语音发送给业务服务器进行语音识别。其中,所述时长阈值根据实际经验进行设置,本发明实施例不做限定。计算所述长语音的有效语音时长所采用的语音算法包括但不限于同步叠加算法PSOLA,基于LV-AMDF的基因标注算法,基因周期检测算法等。
本发明实施例提供的基于电话信道的声纹有效语音的识别方法,能够接收语音流数据,并将语音流数据合成为待识别语音,对待识别语音进行静音识别,并将待识别语音拆分为多段语音,对每个标记为非静音段的语音段进行噪声识别,获得第一类语音段和第二类语音段,对第一类语音段进行静音填补,并对第二类语音段进行降噪处理,对标记为静音段的语音段、经过处理的第一类语音段和第二类语音段进行拼接,合并为长语音,在判断获知长语音的有效语音时长大于时长阈值之后,结束有效语音的识别,能够去除待识别语音中的无效语音,提供有效语音进行声纹识别,有利于提高声纹识别的准确性。
在上述各实施例的基础上,进一步地,所述将所述语音流数据合成为待识别语音包括:
若所述语音流数据的语音格式满足格式要求,则将所述语音流数据合成为待识别语音;其中,所述格式要求是预设的。
具体地,所述服务器在获得语音流数据之后,会判断所述语音流数据的语音格式是否满足格式要求,如果所述语音流数据满足所述格式要求,那么会将所述语音流数据合成为待识别语音。如果所述语音流数据不满足所述格式要求,那么无法合成待识别语音,可以提示识别失败。其中,所述格式要求可以包括对语音流数据的语音采样率的要求,音频格式的要求和语音解码算法的要求,根据实际需要进行设置,本发明实施例不做限定。
例如,所述格式要求为语音采样率为8k或者16k,音频格式为wav或者MP3,语音解码算法为729或者711。
图2是本发明另一实施例提供的基于电话信道的声纹有效语音的识别方法的流程示意图,如图2所示,在上述各实施例的基础上,进一步地,所述对所述待识别语音进行静音识别包括:
S201、通过短时语音能量算法逐帧计算所述待识别语音的语音能量,获得每帧语音的语音能量;
具体地,所述服务器可以根据短时语音能量算法计算所述待识别语音中每帧语音的语音能量,获得所述待识别语音的每帧语音的语音能量。短时语音能量为每一帧中所有语音信号的平方和。
所述短时语音能量算法的标准公式如下:
Figure BDA0002942743940000061
其中,x2(n)表示语音信号各个样点值平方,h(n)表示滤波器,En表示由短时能量构成的时间序列。x2(n)通过一个冲击响应为h(n)的滤波器,输出由短时能量构成的时间序列En
S202、根据各帧语音的语音能量以及静音识别规则,对所述待识别语音的各段语音进行静音段和非静音段标记。
具体地,所述服务器根据各帧语音的语音能量以及静音识别规则,识别出满足静音识别规则的语音段,并标记为静音段,对于不满足所述静音识别规则的语音段可以标记为非静音段。其中,所述静音识别规则是预设的,根据实际需要进行设置,本发明实施例不做限定。
例如,所述静音识别规则为如果至少连续3帧语音的语音能量低于静音阈值,那么至少连续3帧语音构成的语音段标记为静音段。其中,所述静音阈值可以设置为3db,根据实际经验进行设置,本发明实施例不做限定。
图3是本发明再一实施例提供的基于电话信道的声纹有效语音的识别方法的流程示意图,如图3所示,在上述各实施例的基础上,进一步地,所述对每个非静音语音段进行噪声识别,获得第一类语音段和第二类语音段包括:
S301对所述标记为非静音段的语音段进行语音能量特征提取,获得所述标记为非静音段的语音段的语音能量特征;
具体地,所述服务器对所述非静音语音段进行语音能量特征提取,获得所述非静音语音段的语音能量特征。其中,通过快速傅里叶变换将语音从时域转换到频域,然后经过从高频率中心从低频到高频呈对数关系的Mel(梅尔三角)滤波器组,模拟人耳的遮掩效应,在取LOG对数模拟人耳非线性感知特性,再通过离散余弦变换去除冗余信息并降维,将信号传唤为倒谱域,最后通过一阶二阶差分提取声音能量特征。
S302、根据所述标记为非静音段的语音段的语音能量特征和基于TDNN神经网络训练的瞬态噪音识别模型,确定所述标记为非静音段的语音段为第一类语音段或者第二类语音段。
具体地,所述服务器将所述标记为非静音段的语音段的语音能量特征与瞬态噪音模型进行比较,如果所述标记为非静音段的语音段的语音能量特征满足所述瞬态噪音模型,那么所述标记为非静音段的语音段属于第一类语音段,如果所述标记为非静音段的语音段的语音能量特征不满足所述瞬态噪音模型,那么所述标记为非静音段的语音段属于第二类语音段。
对每个标记为非静音段的语音段重复步骤S301和S302,能够判断出每个标记为非静音段的语音段是第一类语音段或者第二类语音段。
在上述各实施例的基础上,进一步地,所述对所述第二类语音段进行降噪处理包括:
对所述第二类语音段进行多人说话识别,并对存在多人说话的第二类语音段进行静音填补。
具体地,所述服务器对所述第二类语音段进行多人说话识别,以判断是否存在两个或两个以上的人说话的语音段。如果存在两个或两个以上的人说话的语音段,那么对存在多人说话的第二类语音段进行静音填补,即消除存在多人说话的第二类语音段中的声音,使存在多人说话的第二类语音段静音。
其中,多人说话的识别可以将语音段细分为多个小段语音,然后将各小段语音就进行对比,如果是单个人的语音段,多个小段语音之间的相似度会比较高,如果存在多个人说话,多个小段语音之间的相似度会比较低。设置相似度阈值,将多个小段语音的相似度与相似度阈值进行比较,如果多个小段语音的所有相似度都大于相似度阈值,那么该语音段不存在多人说话;如果多个小段语音的的某个相似度小于等于相似度阈值,那么该语音段存在多人说话。
在上述各实施例的基础上,进一步地,所述对所述第二类语音段进行降噪处理包括:
对所述第二类语音段进行非人声识别,并对存在非人声的第二类语音段进行静音填补。
具体地,所述服务器对所述第二类语音段进行非人声识别,所述非人声例如为音乐、彩铃等不是人的声音,以判断是否存在非人声的语音段。如果识别出语音段中存在非人声,那么对存在非人声的第二类语音段进行静音填补,即消除存存在非人声的第二类语音段中的声音,使存在非人声的第二类语音段静音。
例如,可以通过梅尔倒谱系数(MFCC)获取语音段的语音频域信息,如果语音段的语音频域信息大于人声频域阈值,那么判定语音段存在非人声;如果语音段的语音频域信息小于等于人声频域阈值,那么判定语音段不存在非人声。其中,人声频域阈值根据实际情况进行设置,本发明实施例不做限定。
在上述各实施例的基础上,进一步地,所述对所述第二类语音段进行降噪处理包括:
对所述第二类语音段进行无效人声识别,并对存在无效人声的语音段进行静音填补。
具体地,所述服务器通过语义内容识算法识别所述第二类语音段的语义内容,如果语义内容为是、对、嗯等重复度很高的确认短语或者哦、呵等语气词,那么将该段语音视为待确认无效人声语音段。计算待确认无效人声语音段的语音时长,如果语音时长低于预设值,并且与待确认无效人声语音段相邻的两个语音段为静音段,上述两个静音段语音的静音时长都大于等于所述预设值,那么将待确认无效人声语音段作为存在无效人声的语音段。对于存在无效人声的语音段,会进行静音填补,即消除存在无效人声的第二类语音段中的声音,使存在无效人声的第二类语音段静音。其中,所述预设值根据实际经验进行设置,本发明实施例不做限定。
在上述各实施例的基础上,进一步地,在对所述第一类语音段进行静音填补,并对所述第二类语音段进行降噪处理之后还包括:
若第一语音段的长度大于第一阈值,第二语音段的长度和第三语音段的长度小于第二阈值,则对所述第二语音段和第三语音段进行语音补全;其中,所述第一语音段存在人声,所述第二语音段和所述第三语音段静音,所述第二语音段和所述第三语音段是与所述第一语音段相邻的语音段。
具体地,对所述第一类语音段进行静音填补之后,所述第一类语音段中各个语音段都是静音的语音段,对所述第二类语音段进行降噪处理之后,所述第二类语音段中各个语音段,要么是存在人声的语音段,要么是静音的语音段。对于存在人声的第一语音段,所述服务器会获取与第一语音段相邻的第二语音段和第三语音段,如果第一语音段的长度大于第一阈值,第二语音段的长度和第三语音段的长度小于第二阈值,那么对所述第二语音段和第三语音段进行语音补全。其中,语音补全是将原有的静音语音段替换为一段相同长度的人声语音段。
其中,所述第一阈值和所述第二阈值根据实际经验进行设置,本发明实施例不做限定。
图4是本发明一实施例提供的声纹识别系统的结构示意图,如图4所示,本发明实施例提供的声纹识别系统包括前端声纹采集模块401、有效语音处理模块402、声纹识别模块403和声纹识别主控模块404,其中:
前端声纹采集模块401、有效语音处理模块402和声纹识别模块403分别与声纹识别主控模块404连接。其中,前端声纹采集模块401采用交换机或呼叫中心的客服服务器,
前端声纹采集模块401可以以SIP流、MRCP流或者其他形式获取客户端发送的语音流数据,并将语音流信号通过声纹识别主控模块404发送给有效语音处理模块402。
有效语音处理模块402用于将语音流数据转换为待识别语音,执行本发明实施例提供的基于电话信道的声纹有效语音的识别方法,获得长语音。有效语音处理模块402可以将长语音的有效语音时长通过声纹识别主控模块404反馈给给业务服务器,供客服人员查看,如果有效语音时长不够,那么客服人员可以引导客户说话,使前端声纹采集模块401继续接收语音流数据。
有效语音处理模块402将满足时长阈值的长语音发送给声纹识别主控模块404,声纹识别主控模块404会将满足时长阈值的长语音发送给声纹识别模块403进行声纹识别。声纹识别模块403会向声纹识别主控模块404反馈声纹识别结果。
图5是本发明又一实施例提供的基于电话信道的声纹有效语音的识别方法的流程示意图,如图5所示,本发明实施例提供的基于电话信道的声纹有效语音的识别方法,可以应用于图4所示的声纹识别系统,具体流程如下:
第一步、接收语音流数据。前端声纹采集模块401可以接收客户端发送的语音流数据。其中,客户端可以为固定电话或者移动电话。
第二步、发送有效语音识别请求。前端声纹采集模块401将语音流数据携带在有效语音识别请求中发送给声纹识别主控模块404,声纹识别主控模块404会将有效语音识别请求转发给有效语音处理模块402。
第三步、判断语音流格式是否正确。有效语音处理模块402接收到语音流数据之后,会判断语音流数据的语音格式是否满足格式要求,如果满足格式要求,那么语音流格式正确,进入第四步;如果不满足格式要求,那么语音流格式不正确,进入第十七步。
第四步、合成待识别语音。有效语音处理模块402将接收到的语音流数据合成为待识别语音。
第五步、进行静音识别。有效语音处理模块402对待识别语音进行静音识别,标记出待识别语音中的静音段和非静音段。
第六步、进行语音分割。有效语音处理模块402基于每段语音的标记,将待识别语音拆分为多段语音,每段语音记为静音段和非静音段。
第七步、进行噪声识别。有效语音处理模块402对所有标记为非静音段的语音段进行噪音识别,获得第一类语音段和第二类语音段。
第八步、判断是否进行静音填补。有效语音处理模块402判断语音段属于第一类语音段,那么需要就那些静音填补,进入到第十六步;有效语音处理模块402判断语音段属于第二类语音段,那么进入到第九步。
第九步、判断是否存在多人说话。有效语音处理模块402对第二类语音段进行多人说话识别,如果存在多人说明,那么进入到第十六步;如果不存在多人说话,那么进入到第十步。
第十步、判断是否存在非人声。有效语音处理模块402对所述第二类语音段进行非人声识别,如果存在非人声,那么进入到第十六步;如果不存在非人声,那么进入到第十一步。
第十一步、判断是否存在无效人声。有效语音处理模块402对所述第二类语音段进行无效人声识别,如果存在无效人声,那么进入到第十六步;如果不存在无效人声,那么进入到第十二步。
第十二步、进行语音补全。有效语音处理模块402在判断出第一语音段的长度大于第一阈值,第二语音段的长度和第三语音段的长度小于第二阈值之后,对所述第二语音段和第三语音段进行语音补全。
第十三步、进行语音合并。有效语音处理模块402对标记为静音段的语音段、经过处理的第一类语音段和第二类语音段进行拼接,合并为长语音。
第十四步、计算有效语音时长。有效语音处理模块402通过语音算法计算长语音的有效语音时长。
第十五步、发送有效语音。有效语音处理模块402对比有效语音时长和时长阈值,如果有效语音时长大于时长阈值,那么将长语音发送给声纹识别主控模块404,由声纹识别主控模块404转发给声纹识别模块403进行声纹识别。
第十六步、进行静音填补。有效语音处理模块402消除语音段中的声音,使语音段静音。
第十七步、结束识别流程。
本发明提供的基于电话信道的声纹有效语音的识别方法,解决了电话信道有效短语音识别问题,能够有效识别出电话声音中各种非人声的噪声,如彩铃、敲击、风燥等,通过基于内容识别的人声分析算法,有效识别出电话声音中各种人声的无效语音,提高了有效语音计算的精准度,提高了声纹识别的准确率。
图6是本发明一实施例提供的基于电话信道的声纹有效语音的识别装置的结构示意图,如图6所示,本发明实施例提供的基于电话信道的声纹有效语音的识别装置,包括接收单元601、静音识别单元602、噪音识别单元603、降噪处理单元604、合并单元605和判断单元606,其中:
接收单元601用于接收语音流数据,并将所述语音流数据合成为待识别语音;静音识别单元602用于对所述待识别语音进行静音识别,并将所述待识别语音拆分为多段语音;其中,每段语音标记为静音段和非静音段;噪音识别单元603用于对每个标记为静音段的语音段进行噪声识别,获得第一类语音段和第二类语音段;降噪处理单元604用于对所述第一类语音段进行静音填补,并对所述第二类语音段进行降噪处理;合并单元605用于对所有标记为静音段的语音段和经过处理的第一类语音段和第二类语音段进行拼接,合并为长语音;判断单元606用于在获知所述长语音的有效语音时长大于时长阈值之后,结束有效语音的识别。
具体地,接收单元601可以接收语音流数据,然后将所述语音流数据合成为待识别语音。
在获得所述待识别语音之后,静音识别单元会对所述待识别语音进行静音识别,以识别出所述待识别语音包括的静音语音段和非静音语音段,并将识别出的静音语音段标记为静音段,将识别出的非静音语音段标记为非静音段,从而将所述待识别语音拆分为多段语音,每段语音标记为静音段或者非静音段。
对于每个非静音语音段,即标记为非静音段的语音段,噪音识别单元603会进行噪声识别,以识别出每个非静音语音段是第一类语音段还是第二类语音段,如果非静音语音段是第一类语音段,表明该非静音语音段的声音能量在短时间内突然升高或者降低,声音能量不平稳。如果非静音语音段是第二类语音段,表明该非静音语音段的声音能量是平稳的。可理解的是,所述第一类语音段可以为一个语音段、两个语音段或者两个以上的语音段。所述第二类语音段可以为一个语音段、两个语音段或者两个以上的语音段。
在获得所述第一类语音段之后,降噪处理单元604会对所述第一类语音段进行静音填补,即消除所述第一类语音段中的声音,使所述第一类语音段静音。所述服务器会对所述第二类语音段进行降噪处理,以消除所述第二类语音段中的音乐、彩铃、干扰人声等噪音。
在对所述第一类语音段进行静音填补,并对所述第二类语音段进行降噪处理之后,合并单元605会对所有标记为静音段的语音段、经过静音填补的第一类语音段和经过降噪处理第二类语音段进行拼接,合并为长语音。可理解的是,在拆分所述待识别语音时,会按照时间顺序标记每个语音段的在所述待识别语音中的顺序,合并单元605在合并长语音时会按照所有标记为静音段的语音段、第一类语音段和第二类语音段中每个语音段的在所述待识别语音中的顺序进行合并。其中,长语音的合并可以采用PCM协议。
在合并长语音之后,判断单元606会计算所述长语音的有效语音时长,即长语音中有人声的语音的时长,然后将所述长语音的有效语音时长与时长阈值进行比较,如果所述长语音的有效语音时长大于时长阈值,说明获得的长语音包括足够的语音进行语音识别,可以结束有效语音的识别。所述服务器可以对所述长语音进行语音识别,或者将所述长语音发送给业务服务器进行语音识别。其中,所述时长阈值根据实际经验进行设置,本发明实施例不做限定。
本发明实施例提供的基于电话信道的声纹有效语音的识别装置,能够接收语音流数据,并将语音流数据合成为待识别语音,对待识别语音进行静音识别,并将待识别语音拆分为多段语音,对每个标记为非静音段的语音段进行噪声识别,获得第一类语音段和第二类语音段,对第一类语音段进行静音填补,并对第二类语音段进行降噪处理,对标记为静音段的语音段、经过处理的第一类语音段和第二类语音段进行拼接,合并为长语音,在判断获知长语音的有效语音时长大于时长阈值之后,结束有效语音的识别,能够去除待识别语音中的无效语音,提供有效语音进行声纹识别,有利于提高声纹识别的准确性。
本发明实施例提供的装置的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
图7是本发明一实施例提供的电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)701、通信接口(Communications Interface)702、存储器(memory)703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信。处理器701可以调用存储器703中的逻辑指令,以执行如下方法:接收语音流数据,并将所述语音流数据合成为待识别语音;对所述待识别语音进行静音识别,并将所述待识别语音拆分为多段语音;其中,每段语音标记为静音段和非静音段;对每个标记为非静音段的语音段进行噪声识别,获得第一类语音段和第二类语音段;对所述第一类语音段进行静音填补,并对所述第二类语音段进行降噪处理;对所有标记为静音段的语音段、经过处理的第一类语音段和第二类语音段进行拼接,合并为长语音;若获知所述长语音的有效语音时长大于时长阈值,则结束有效语音的识别。
此外,上述的存储器703中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:接收语音流数据,并将所述语音流数据合成为待识别语音;对所述待识别语音进行静音识别,并将所述待识别语音拆分为多段语音;其中,每段语音标记为静音段和非静音段;对每个标记为非静音段的语音段进行噪声识别,获得第一类语音段和第二类语音段;对所述第一类语音段进行静音填补,并对所述第二类语音段进行降噪处理;对所有标记为静音段的语音段、经过处理的第一类语音段和第二类语音段进行拼接,合并为长语音;若获知所述长语音的有效语音时长大于时长阈值,则结束有效语音的识别。
本实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述各方法实施例所提供的方法,例如包括:接收语音流数据,并将所述语音流数据合成为待识别语音;对所述待识别语音进行静音识别,并将所述待识别语音拆分为多段语音;其中,每段语音标记为静音段和非静音段;对每个标记为非静音段的语音段进行噪声识别,获得第一类语音段和第二类语音段;对所述第一类语音段进行静音填补,并对所述第二类语音段进行降噪处理;对所有标记为静音段的语音段、经过处理的第一类语音段和第二类语音段进行拼接,合并为长语音;若获知所述长语音的有效语音时长大于时长阈值,则结束有效语音的识别。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种基于电话信道的声纹有效语音的识别方法,其特征在于,包括:
接收语音流数据,并将所述语音流数据合成为待识别语音;
对所述待识别语音进行静音识别,并将所述待识别语音拆分为多段语音;其中,每段语音标记为静音段和非静音段;
对每个标记为非静音段的语音段进行噪声识别,获得第一类语音段和第二类语音段;
对所述第一类语音段进行静音填补,并对所述第二类语音段进行降噪处理;
对所有标记为静音段的语音段、经过处理的第一类语音段和第二类语音段进行拼接,合并为长语音;
若获知所述长语音的有效语音时长大于时长阈值,则结束有效语音的识别。
2.根据权利要求1所述的方法,其特征在于,所述将所述语音流数据合成为待识别语音包括:
若所述语音流数据的语音格式满足格式要求,则将所述语音流数据合成为待识别语音;其中,所述格式要求是预设的。
3.根据权利要求1所述的方法,其特征在于,所述对所述待识别语音进行静音识别包括:
通过短时语音能量算法逐帧计算所述待识别语音的语音能量,获得每帧语音的语音能量;
根据各帧语音的语音能量以及静音识别规则,对所述待识别语音的各段语音进行静音段和非静音段标记。
4.根据权利要求1所述的方法,其特征在于,所述对每个标记为非静音段的语音段进行噪声识别,获得第一类语音段和第二类语音段包括:
对所述标记为非静音段的语音段进行语音能量特征提取,获得所述标记为非静音段的语音段的语音能量特征;
根据所述标记为非静音段的语音段的语音能量特征和瞬态噪音模型,确定所述标记为非静音段的语音段为第一类语音段或者第二类语音段。
5.根据权利要求1所述的方法,其特征在于,所述对所述第二类语音段进行降噪处理包括:
对所述第二类语音段进行多人说话识别,并对存在多人说话的第二类语音段进行静音填补。
6.根据权利要求1所述的方法,其特征在于,所述对所述第二类语音段进行降噪处理包括:
对所述第二类语音段进行非人声识别,并对存在非人声的第二类语音段进行静音填补。
7.根据权利要求1所述的方法,其特征在于,所述对所述第二类语音段进行降噪处理包括:
对所述第二类语音段进行无效人声识别,并对存在无效人声的语音段进行静音填补。
8.根据权利要求1至7任一项所述的方法,其特征在于,在对所述第一类语音段进行静音填补,并对所述第二类语音段进行降噪处理之后还包括:
若第一语音段的长度大于第一阈值,第二语音段的长度和第三语音段的长度小于第二阈值,则对所述第二语音段和第三语音段进行语音补全;其中,所述第一语音段存在人声,所述第二语音段和所述第三语音段静音,所述第二语音段和所述第三语音段是与所述第一语音段相邻的语音段。
9.一种基于电话信道的声纹有效语音的识别装置,其特征在于,包括:
接收单元,用于接收语音流数据,并将所述语音流数据合成为待识别语音;
静音识别单元,用于对所述待识别语音进行静音识别,并将所述待识别语音拆分为多段语音;其中,每段语音标记为静音段和非静音段;
噪音识别单元,用于对每个标记为静音段的语音段进行噪声识别,获得第一类语音段和第二类语音段;
降噪处理单元,用于对所述第一类语音段进行静音填补,并对所述第二类语音段进行降噪处理;
合并单元,用于对所有标记为静音段的语音段和经过处理的第一类语音段和第二类语音段进行拼接,合并为长语音;
判断单元,用于在获知所述长语音的有效语音时长大于时长阈值之后,结束有效语音的识别。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任一项所述方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。
CN202110183528.7A 2021-02-10 2021-02-10 一种基于电话信道的声纹有效语音的识别方法及装置 Active CN112927680B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110183528.7A CN112927680B (zh) 2021-02-10 2021-02-10 一种基于电话信道的声纹有效语音的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110183528.7A CN112927680B (zh) 2021-02-10 2021-02-10 一种基于电话信道的声纹有效语音的识别方法及装置

Publications (2)

Publication Number Publication Date
CN112927680A CN112927680A (zh) 2021-06-08
CN112927680B true CN112927680B (zh) 2022-06-17

Family

ID=76171512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110183528.7A Active CN112927680B (zh) 2021-02-10 2021-02-10 一种基于电话信道的声纹有效语音的识别方法及装置

Country Status (1)

Country Link
CN (1) CN112927680B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113936698B (zh) * 2021-09-26 2023-04-28 度小满科技(北京)有限公司 音频数据的处理方法、装置以及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105139849A (zh) * 2015-07-22 2015-12-09 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN106531159A (zh) * 2016-12-09 2017-03-22 宁波大学 一种基于设备本底噪声频谱特征的手机来源识别方法
CN107799126A (zh) * 2017-10-16 2018-03-13 深圳狗尾草智能科技有限公司 基于有监督机器学习的语音端点检测方法及装置
CN110473552A (zh) * 2019-09-04 2019-11-19 平安科技(深圳)有限公司 语音识别认证方法及系统
CN112017685A (zh) * 2020-08-27 2020-12-01 北京字节跳动网络技术有限公司 语音生成方法、装置、设备和计算机可读介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140031790A (ko) * 2012-09-05 2014-03-13 삼성전자주식회사 잡음 환경에서 강인한 음성 구간 검출 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105139849A (zh) * 2015-07-22 2015-12-09 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN106531159A (zh) * 2016-12-09 2017-03-22 宁波大学 一种基于设备本底噪声频谱特征的手机来源识别方法
CN107799126A (zh) * 2017-10-16 2018-03-13 深圳狗尾草智能科技有限公司 基于有监督机器学习的语音端点检测方法及装置
CN110473552A (zh) * 2019-09-04 2019-11-19 平安科技(深圳)有限公司 语音识别认证方法及系统
CN112017685A (zh) * 2020-08-27 2020-12-01 北京字节跳动网络技术有限公司 语音生成方法、装置、设备和计算机可读介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于言语情境分析的数字语音篡改检测;丁琦等;《计算机应用》;20110501(第05期);全文 *
语噪分离技术综合算法及其应用;刘健波等;《四川大学学报(自然科学版)》;20020428(第02期);全文 *

Also Published As

Publication number Publication date
CN112927680A (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
CN105161093B (zh) 一种判断说话人数目的方法及系统
KR100636317B1 (ko) 분산 음성 인식 시스템 및 그 방법
CN111968679B (zh) 情感识别方法、装置、电子设备及存储介质
CN111128223B (zh) 一种基于文本信息的辅助说话人分离方法及相关装置
CN105244026B (zh) 一种语音处理方法及装置
CN111508498B (zh) 对话式语音识别方法、系统、电子设备和存储介质
CN111145786A (zh) 语音情感识别方法和装置、服务器、计算机可读存储介质
CN112133277B (zh) 样本生成方法及装置
CN109147796A (zh) 语音识别方法、装置、计算机设备及计算机可读存储介质
JPH10507536A (ja) 言語認識
CN102543073A (zh) 一种沪语语音识别信息处理方法
US11763801B2 (en) Method and system for outputting target audio, readable storage medium, and electronic device
CN111951796A (zh) 语音识别方法及装置、电子设备、存储介质
CN112581963A (zh) 一种语音意图识别方法及系统
CN112927680B (zh) 一种基于电话信道的声纹有效语音的识别方法及装置
CN112116909A (zh) 语音识别方法、装置及系统
CN112489692B (zh) 语音端点检测方法和装置
Mandel et al. Audio super-resolution using concatenative resynthesis
Vlaj et al. Voice activity detection algorithm using nonlinear spectral weights, hangover and hangbefore criteria
CN112634859A (zh) 用于文本相关说话人识别的数据增强方法及系统
KR100794140B1 (ko) 분산 음성 인식 단말기에서 음성 부호화기의 전처리를공유해 잡음에 견고한 음성 특징 벡터를 추출하는 장치 및그 방법
CN117153196B (zh) Pcm语音信号处理方法、装置、设备及介质
CN114155840A (zh) 语音发起方的区分方法和装置
CN112599114A (zh) 一种语音识别方法及装置
CN116504247A (zh) 语音识别方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant