CN111048072A - 一种应用于电力企业的声纹识别方法 - Google Patents

一种应用于电力企业的声纹识别方法 Download PDF

Info

Publication number
CN111048072A
CN111048072A CN201911145607.8A CN201911145607A CN111048072A CN 111048072 A CN111048072 A CN 111048072A CN 201911145607 A CN201911145607 A CN 201911145607A CN 111048072 A CN111048072 A CN 111048072A
Authority
CN
China
Prior art keywords
voice
voice signal
signal
voiceprint recognition
recognition method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911145607.8A
Other languages
English (en)
Inventor
刘丽
洪丹轲
黄昱
胡飞飞
曾时博
舒然
范俊成
梁寿愚
王科
张坤
方文崇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Southern Power Grid Co Ltd
Original Assignee
China Southern Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Southern Power Grid Co Ltd filed Critical China Southern Power Grid Co Ltd
Priority to CN201911145607.8A priority Critical patent/CN111048072A/zh
Publication of CN111048072A publication Critical patent/CN111048072A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及人工智能的智能语音分析技术领域,具体公开了一种应用于电力企业的声纹识别方法,该方法具体包括以下步骤:步骤一,语音数据采集;步骤二,语音处理及特征提取;步骤三,生成语音语义匹配库;步骤四,语音信号匹配;步骤五,输出结果;采用智能化的声纹识别方法,提高了用户交互过程中的安全性;整个语音交互过程高效安全,有效的降低了运营成本并提高了用户体验度;提高了电力服务环节的自动化程度,具有较高的研究价值。

Description

一种应用于电力企业的声纹识别方法
技术领域
本发明涉及人工智能客服的智能语音识别技术领域,具体涉及一种基于人工智能的应用于电力企业的声纹识别方法。
背景技术
随着电力电网应用的不断升级完善,用户规模进一步增长,作为服务全网30万用户的通信服务热线的话务压力将急剧增加,同时随着通信业务不断发展,通信服务业务范围也将越来越广,受限于现有人工客服人力、工作时间、知识水平等因素,客户信息的安全性更加重要,当前的通信客服平台已难以满足与日俱增的安全性需求,如果信息泄露将造成极大的灾难性威胁。声纹识别是通过对一种或多种语音信号的特征分析来达到对未知声音辨别的目的。声纹识别的理论基础是每一个声音都具有独特的特征,通过该特征能将不同人的声音进行有效的区分。而采用基于人工智能的声纹识别技术将有效的提升客户的信息的安全性,相比于传统的安全手段更加智能便捷,客户的服务质量也将得到大大的提升。
为此,我们提出了一种基于人工智能的应用于电力企业的声纹识别方法。
发明内容
本发明要解决的技术问题是克服传统声纹识别方法的缺陷,提供一种基于人工智能的声纹识别方法,可以有效提升声纹识别的准确率和速度。
为实现上述目的,本发明提供如下技术方案:一种应用于电力企业的声纹识别方法,该方法具体包括以下步骤:
步骤一,确定语音语义匹配库需要的语音匹配内容,所述语音匹配内容包含电力调度领域语音数据和通用语音数据;采集所述语音匹配内容形成第一语音信号,并对所述第一语音信号进行预处理;
步骤二,将所述第一语音信号通过卷积神经网络转换成对应的语义文字;同时对所述第一语音信号依次进行去噪处理和特征提取处理得到具有第一特征参数的第一语音信号;
步骤三,将具有所述第一特征参数的第一语音信号与所述语义文字进行匹配以形成包含所述电力调度领域语音数据和通用语音数据的所述语音语义匹配库;
步骤四,采集用户语音形成第二语音信号,并对所述第二语音信号依次进行去噪处理和特征提取处理得到具有第二特征参数的第二语音信号;将具有所述第二特征参数的第二语音信号与所述语音语义匹配库中的所有具有所述第一特征参数的第一语音信号进行比对得到与所述第二语音信号最接近的第一语音信号;
步骤五,将与所述第二语音信号最接近的所述第一语音信号作为识别结果。
优选的,步骤一中采集的所述语音匹配内容包括所述通用语音数据中的全部或部分语音和所述电力调度领域语音数据。
优选的,步骤一中所述预处理包括:对所述第一语音信号先进行高通滤波,再进行分帧和快速傅里叶变换得到平稳的信号,所述平稳的信号接着通过梅尔滤波器组进行滤波得到平滑的频谱,最后消除所述频谱中的谐波。
优选的,步骤二中所述的去噪处理具体包括:对第一语音信号进行重复平移、阈值处理以及求平均信号。
优选的,步骤二中所述的特征提取处理具体包括:对经过去噪处理后的所述第一语音信号进行共振峰提取法得到所述第一语音信号的所述第一特征参数。
优选的,所述第一特征参数包括梅尔倒谱系数。
优选的,步骤四中对所述第二语音信号进行去噪处理和特征提取处理的方式与步骤二中对所述第一语音信号进行去噪处理和特征提取处理的方式相同。
与现有技术相比,本发明的有益效果是:
1.采用基于人工智能的声纹识别方法,生成适用于电力企业中电力调度领域的语义匹配库,使得识别速度和效率得到较大的提高;
2.整个识别过程更加安全高效,有效提升了用户数据的安全性,并且提升了用户体验;
3.语音语义匹配库在之后的数据匹配过程中更加智能高效,有很好的应用价值。
附图说明
图1为本发明的应用于电力企业的声纹识别方法的整体流程示意图;
图2为本发明的应用于电力企业的声纹识别方法的具体流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1和图2所示,本发明提供一种应用于电力企业的声纹识别方法,该方法具体包括以下步骤:
步骤一,确定语音语义匹配库需要的语音匹配内容,所述语音匹配内容包含电力调度领域语音数据和通用语音数据;采集所述语音匹配内容形成第一语音信号,并对所述第一语音信号进行预处理;
步骤二,将所述第一语音信号通过卷积神经网络转换成对应的语义文字;同时对所述第一语音信号依次进行去噪处理和特征提取处理得到具有第一特征参数的第一语音信号;
步骤三,将具有所述第一特征参数的第一语音信号与所述语义文字进行匹配以形成包含所述电力调度领域语音数据和通用语音数据的所述语音语义匹配库;
步骤四,采集用户语音形成第二语音信号,并对所述第二语音信号依次进行去噪处理和特征提取处理得到具有第二特征参数的第二语音信号;将具有所述第二特征参数的第二语音信号与所述语音语义匹配库中的所有具有所述第一特征参数的第一语音信号进行比对得到与所述第二语音信号最接近的第一语音信号;
步骤五,将与所述第二语音信号最接近的第一语音信号作为识别结果。
其中,步骤二中所述的去噪处理具体包括:
1)将第一语音信号f(t)(0≤t≤N)进行重复平移后形成平移信号Fn,f(t)包括噪音信号和有效信号,Fn与f(t)的关系式为:Fn(f(t))=f(t+n)mod(N),其中,n为平移大小,0≤n≤N,且n为整数;Fn为f(t)经过n位重复平移的信号;mod(N)表示f(t)重复平移,每一次平移时f(t+n)中的n的最大值为N;
2)去噪公式为:
Figure BDA0002282075180000041
其中,
Figure BDA0002282075180000042
为有效信号,T(Fn(f))表示对Fn(f)进行阈值处理,AVE为求平均函数,D={n:0≤n≤N,且n为整数}。具体来说,Fn(f)包括将f(t)从平移0位到平移N位的每一个信号,即Fn(f)包括f(t)、f(t+1)、f(t+2)…f(t+N)。先对Fn(f)整体进行阈值处理,即,当Fn(f)中的某一段信号的频率系数位于预定频率系数范围(预定频率系数范围具有最大阈值和最小阈值)内时,保留该段信号;当Fn(f)中的某一段信号的频率系数位于所述预定频率系数范围外时,该段信号置零处理。最后,将进行阈值处理后的Fn(f)中的每一个信号平移至初始位置(例如,在进行阈值处理前,f(t)平移N位形成f(t+N),在进行阈值处理后,再将处理后的f(t+N)平移-N位),最后对所有回到初始位置的信号求平均值即可得到有效信号
Figure BDA0002282075180000051
与现有技术相比,现有技术中直接对单个信号进行阈值处理,当硬件电路因受到短暂的电磁干扰等问题而造成其输出的信号的频率系数改变时,会造成经过阈值处理得到的有效信号准确度较差;本发明通过将信号平移后的整体信号进行阈值处理,再将信号回归至初始位置求平均值得到有效信号,能够减小因硬件电路电压受到短暂干扰而造成的负面影响,提高去噪效果。
在本实施例中,步骤一中采集的所述语音匹配内容通用语音数据(例如普通的用户)和电力企业中电力调度专用语音数据,即预先采集。步骤一中所述预处理包括:对所述第一语音信号先进行高通滤波,再进行分帧和快速傅里叶变换得到平稳的信号,接着通过梅尔滤波器组进行滤波得到平滑的频谱,最后消除谐波。在实际应用时,所述预处理的具体处理方式并不以此为限,只要能够对语音信号进行初步处理即可。
步骤二中所述的特征提取处理具体包括:对经过去噪处理后的所述第一语音信号进行共振峰提取法得到所述第一语音信号的所述第一特征参数,所述第一特征参数包括梅尔倒谱系数。在本实施例中,步骤四中对所述第二语音信号进行去噪处理和特征提取处理的方式与步骤二中对所述第一语音信号进行去噪处理和特征提取处理的方式相同,在此不再赘述。
此外,所述第一特征参数经过卷积神经网络模型进行训练后,将具有所述第一特征参数的第一语音信号所转写的文字内容进行匹配以形成所述包含电力调度领域专有语句的语音语义匹配库,使用了语义信息,不同于传统处理方式,使得所述第二语音信号在匹配过程中更加快速高效。
本实例在实验测试中使用五千条语音数据,其中包含专业电力调度员和普通用户,相比传统模型的80%准确率,本实例的准确率在测试中达到89%的准确率,达到目标结果。
综上所述,本发明通过预先形成语音语义匹配库,便于识别用户的声纹信息,提高了人工智能客服识别客户的效率。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (7)

1.一种应用于电力企业的声纹识别方法,其特征在于,该方法具体包括以下步骤:
步骤一,确定语音语义匹配库需要的语音匹配内容,所述语音匹配内容包含电力调度领域语音数据和通用语音数据;采集所述语音匹配内容形成第一语音信号,并对所述第一语音信号进行预处理;
步骤二,将所述第一语音信号通过卷积神经网络转换成对应的语义文字;同时对所述第一语音信号依次进行去噪处理和特征提取处理得到具有第一特征参数的第一语音信号;
步骤三,将具有所述第一特征参数的第一语音信号与所述语义文字进行匹配以形成包含所述电力调度领域语音数据和通用语音数据的所述语音语义匹配库;
步骤四,采集用户语音形成第二语音信号,并对所述第二语音信号依次进行去噪处理和特征提取处理得到具有第二特征参数的第二语音信号;将具有所述第二特征参数的第二语音信号与所述语音语义匹配库中的所有具有所述第一特征参数的第一语音信号进行比对得到与所述第二语音信号最接近的第一语音信号;
步骤五,将与所述第二语音信号最接近的第一语音信号作为识别结果。
2.根据权利要求1所述的应用于电力企业的声纹识别方法,其特征在于,步骤一中采集的所述语音匹配内容包括所述通用语音数据中的全部或部分语音和所述电力调度领域语音数据。
3.根据权利要求1所述的应用于电力企业的声纹识别方法,其特征在于,步骤一中所述预处理包括:对所述第一语音信号先进行高通滤波,再进行分帧和快速傅里叶变换得到平稳的信号,所述平稳的信号接着通过梅尔滤波器组进行滤波得到平滑的频谱,最后消除所述频谱中的谐波。
4.根据权利要求1所述的应用于电力企业的声纹识别方法,其特征在于,步骤二中所述的去噪处理具体包括:
将第一语音信号f(t)(0≤t≤N)进行重复平移后形成平移信号Fn,f(t)包括噪音信号和有效信号,Fn与f(t)的关系式为:
Fi(f(t))=f(t+n)mod(N),
其中,n为平移大小,0≤n≤N,且n为整数;Fn为f(t)经过n位重复平移的信号;mod(N)表示f(t)重复平移,每一次平移时f(t+n)中的n的最大值为N;
去噪公式为:
Figure FDA0002282075170000021
其中,
Figure FDA0002282075170000022
为有效信号,T(Fn(f))表示对Fn(f)进行阈值处理,AVE为求平均函数,D={n:0≤n≤N,且n为整数}。
5.根据权利要求4所述的应用于电力企业的声纹识别方法,其特征在于,步骤二中所述的特征提取处理具体包括:对经过去噪处理后的所述第一语音信号进行共振峰提取法得到所述第一语音信号的所述第一特征参数。
6.根据权利要求5所述的应用于电力企业的声纹识别方法,其特征在于,所述第一特征参数包括梅尔倒谱系数。
7.根据权利要求5所述的应用于电力企业的声纹识别方法,其特征在于,步骤四中对所述第二语音信号进行去噪处理和特征提取处理的方式与步骤二中对所述第一语音信号进行去噪处理和特征提取处理的方式相同。
CN201911145607.8A 2019-11-21 2019-11-21 一种应用于电力企业的声纹识别方法 Pending CN111048072A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911145607.8A CN111048072A (zh) 2019-11-21 2019-11-21 一种应用于电力企业的声纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911145607.8A CN111048072A (zh) 2019-11-21 2019-11-21 一种应用于电力企业的声纹识别方法

Publications (1)

Publication Number Publication Date
CN111048072A true CN111048072A (zh) 2020-04-21

Family

ID=70232869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911145607.8A Pending CN111048072A (zh) 2019-11-21 2019-11-21 一种应用于电力企业的声纹识别方法

Country Status (1)

Country Link
CN (1) CN111048072A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112581958A (zh) * 2020-12-07 2021-03-30 中国南方电网有限责任公司 一种应用于电力领域的简短语音智能导航方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103680497A (zh) * 2012-08-31 2014-03-26 百度在线网络技术(北京)有限公司 基于视频的语音识别系统及方法
CN105489221A (zh) * 2015-12-02 2016-04-13 北京云知声信息技术有限公司 一种语音识别方法及装置
CN105895101A (zh) * 2016-06-08 2016-08-24 国网上海市电力公司 用于电力智能辅助服务系统的语音处理设备及处理方法
CN106128465A (zh) * 2016-06-23 2016-11-16 成都启英泰伦科技有限公司 一种声纹识别系统及方法
CN107863098A (zh) * 2017-12-07 2018-03-30 广州市艾涛普电子有限公司 一种语音识别控制方法和装置
WO2018107810A1 (zh) * 2016-12-15 2018-06-21 平安科技(深圳)有限公司 声纹识别方法、装置、电子设备及介质
CN108831484A (zh) * 2018-05-29 2018-11-16 广东声将军科技有限公司 一种离线的且与语言种类无关的声纹识别方法及装置
CN109005303A (zh) * 2018-09-18 2018-12-14 中国工商银行股份有限公司 交互语音应答方法及装置
CN109617772A (zh) * 2018-12-11 2019-04-12 鹤壁国立光电科技股份有限公司 一种基于语音识别的智能家居系统
WO2019134247A1 (zh) * 2018-01-03 2019-07-11 平安科技(深圳)有限公司 基于声纹识别模型的声纹注册方法、终端装置及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103680497A (zh) * 2012-08-31 2014-03-26 百度在线网络技术(北京)有限公司 基于视频的语音识别系统及方法
CN105489221A (zh) * 2015-12-02 2016-04-13 北京云知声信息技术有限公司 一种语音识别方法及装置
CN105895101A (zh) * 2016-06-08 2016-08-24 国网上海市电力公司 用于电力智能辅助服务系统的语音处理设备及处理方法
CN106128465A (zh) * 2016-06-23 2016-11-16 成都启英泰伦科技有限公司 一种声纹识别系统及方法
WO2018107810A1 (zh) * 2016-12-15 2018-06-21 平安科技(深圳)有限公司 声纹识别方法、装置、电子设备及介质
CN107863098A (zh) * 2017-12-07 2018-03-30 广州市艾涛普电子有限公司 一种语音识别控制方法和装置
WO2019134247A1 (zh) * 2018-01-03 2019-07-11 平安科技(深圳)有限公司 基于声纹识别模型的声纹注册方法、终端装置及存储介质
CN108831484A (zh) * 2018-05-29 2018-11-16 广东声将军科技有限公司 一种离线的且与语言种类无关的声纹识别方法及装置
CN109005303A (zh) * 2018-09-18 2018-12-14 中国工商银行股份有限公司 交互语音应答方法及装置
CN109617772A (zh) * 2018-12-11 2019-04-12 鹤壁国立光电科技股份有限公司 一种基于语音识别的智能家居系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王国恩 等: "小波变换在信号去噪方面的应用研究", 《舰船电子工程》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112581958A (zh) * 2020-12-07 2021-03-30 中国南方电网有限责任公司 一种应用于电力领域的简短语音智能导航方法
CN112581958B (zh) * 2020-12-07 2024-04-09 中国南方电网有限责任公司 一种应用于电力领域的简短语音智能导航方法

Similar Documents

Publication Publication Date Title
CN108460081B (zh) 语音数据库创建方法、声纹注册方法、装置、设备及介质
CN108597496B (zh) 一种基于生成式对抗网络的语音生成方法及装置
WO2021128741A1 (zh) 语音情绪波动分析方法、装置、计算机设备及存储介质
CN109256150B (zh) 基于机器学习的语音情感识别系统及方法
CN102543073B (zh) 一种沪语语音识别信息处理方法
CN108682432B (zh) 语音情感识别装置
CN109036470B (zh) 语音区分方法、装置、计算机设备及存储介质
CN106024010A (zh) 一种基于共振峰曲线的语音信号动态特征提取方法
CN111243617B (zh) 一种基于深度学习降低mfcc特征失真的语音增强方法
CN113327626A (zh) 语音降噪方法、装置、设备及存储介质
CN114360557B (zh) 语音音色转换方法、模型训练方法、装置、设备和介质
CN103021405A (zh) 基于music和调制谱滤波的语音信号动态特征提取方法
CN110428853A (zh) 语音活性检测方法、语音活性检测装置以及电子设备
CN111883181A (zh) 音频检测方法、装置、存储介质及电子装置
CN113823293A (zh) 一种基于语音增强的说话人识别方法及系统
Labied et al. An overview of automatic speech recognition preprocessing techniques
CN113744715A (zh) 声码器语音合成方法、装置、计算机设备及存储介质
CN111048072A (zh) 一种应用于电力企业的声纹识别方法
CN107993666B (zh) 语音识别方法、装置、计算机设备及可读存储介质
CN115938346A (zh) 音准评估方法、系统、设备及存储介质
CN114550741A (zh) 一种语义识别的方法和系统
CN115171710A (zh) 基于多角度判别的生成对抗网络的语音增强方法及系统
CN114283822A (zh) 一种基于伽马通频率倒谱系数的多对一语音转换方法
Malewadi et al. Development of Speech recognition technique for Marathi numerals using MFCC & LFZI algorithm
CN110689875A (zh) 一种语种识别方法、装置及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200421

RJ01 Rejection of invention patent application after publication