CN116798408A

CN116798408A - 语音识别方法、终端设备及计算机可读存储介质

Info

Publication number: CN116798408A
Application number: CN202210248254.XA
Authority: CN
Inventors: 房鹏; 周波; 郑明钊; 李瑶; 康志文; 韩琮师; 房钦国
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Design Institute Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Design Institute Co Ltd
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2023-09-22
Also published as: WO2023173966A1

Abstract

本发明公开了语音识别方法、终端设备及计算机可读存储介质，该方法包括：获取待识别音频文件的声谱特征数据，根据所述声谱特征数据确定所述待识别音频文件对应的声谱图；将所述声谱图作为预先训练的卷积神经网络模型的输入，基于所述卷积神经网络模型确定所述声谱图对应的音频拼音序列；将与所述音频拼音序列匹配的预存文本拼音序列对应的语音内容，识别为所述待识别音频文件包含的语音内容。达到了提取在电信诈骗实施完成前，提前识别出电信诈骗的效果。

Description

语音识别方法、终端设备及计算机可读存储介质

技术领域

本发明涉及语音识别领域，尤其涉及语音识别方法、终端设备及计算机可读存储介质。

背景技术

在相关技术中，为了识别电信诈骗，需要在银行侧接入用户的银行卡信息和ATM取现信息等用户数据，并在取款环节进行诈骗行为的识别。这导致该方法只能在用户已经被成功诈骗之后，才能识别出电信诈骗。

需要说明的是，上述内容仅用于辅助理解本发明所解决的技术问题，并不代表承认上述内容是现有技术。

发明内容

本申请实施例通过提供一种语音识别方法、终端设备及计算机可读存储介质，解决了相关技术中，电信诈骗识别存在滞后性的技术问题，实现了在电信诈骗完成前，提前识别出电信诈骗的效果。

本申请实施例提供了一种语音识别方法，所述语音识别方法包括以下步骤：

获取待识别音频文件的声谱特征数据，根据所述声谱特征数据确定所述待识别音频文件对应的声谱图；

将所述声谱图作为预先训练的卷积神经网络模型的输入，基于所述卷积神经网络模型确定所述声谱图对应的音频拼音序列；

将与所述音频拼音序列匹配的预存文本拼音序列对应的语音内容，识别为所述待识别音频文件包含的语音内容。

可选地，所述将与所述音频拼音序列匹配的预存文本拼音序列对应的语音内容，识别为所述待识别音频文件包含的语音内容的步骤之前，还包括：

获取预设文本；

根据所述预设文本生成所述预存文本拼音序列。

可选地，所述根据所述预设文本生成所述预存文本拼音序列的步骤之后，还包括：

生成所述预存文本拼音序列对应的拼音数据字典，所述拼音数据字典的键为文本拼音，值为所述预设文本中包含所述文本拼音的文本索引；

基于所述拼音数据字典，查询与所述音频拼音序列匹配的预存文本拼音序列。

可选地，所述拼音序列中，每一音节对应至少一个音频拼音，所述卷积神经网络模型基于所述声谱图，确定拼音库中的各个可选拼音为所述音节对应音频拼音的概率，并根据所述概率，选定至少一个所述可选拼音作为所述音节对应的音频拼音。

可选地，所述将所述声谱图作为预先训练的卷积神经网络模型的输入，基于所述卷积神经网络模型确定所述声谱图对应的音频拼音序列的步骤之前，还包括：

获取用于模型训练的样本声谱图，以及所述样本声谱图对应的样本拼音序列；

使用CTC算法构建损失函数，并基于所述损失函数、所述样本声谱图和所述样本拼音序列训练所述卷积神经网络模型。

可选地，所述获取待识别音频文件的声谱特征数据，根据所述声谱特征数据确定所述待识别音频文件对应的声谱图的步骤包括：

读取所述待识别音频文件，确定所述待识别音频文件对应的频域信号；

基于所述频域信号进行数据分帧；

对分帧后的每一帧数据加明汉窗；

基于快速傅里叶变换分离加窗后的每一帧数据对应的组成频率；

根据分类处理的组成频率及每一帧数据对应的时序信息生成所述声谱图。

可选地，所述音频文件为通话录音，所述预存文本拼音序列为诈骗话术文本对应的拼音序列，所述语音内容为诈骗话术。

此外，为实现上述效果，本发明实施例还提供一种终端设备，包括：

获取模块，用于获取待识别音频文件的声谱特征数据，根据所述声谱特征数据确定所述待识别音频文件对应的声谱图；

分析模块，用于将所述声谱图作为预先训练的卷积神经网络模型的输入，基于所述卷积神经网络模型确定所述声谱图对应的音频拼音序列；

识别模块，用于将与所述音频拼音序列匹配的预存文本拼音序列对应的语音内容，识别为所述待识别音频文件包含的语音内容。

此外，为实现上述效果，本发明实施例还提供一种终端设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的语音识别程序，所述处理器执行所述语音识别程序时实现如上所述语音识别方法。

此外，为实现上述效果，本发明实施例还提供一种计算机可读存储介质，其上存储有语音识别程序，该语音识别程序被处理器执行时实现如上所述语音识别方法。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

1、由于本实施提供的语音识别方法，可以直接识别通话录音中是否存在诈骗话术，进而在诈骗完成前，提前识别出电信诈骗。

2、由于识别过程可以在终端设备中完成，从而使得通话录音无需流出终端设备，因而提升了诈骗识别过程中，用户隐私保护的效果。

附图说明

图1为本发明语音识别方法的一实施例的流程示意图；

图2为本发明实施例涉及的音频频域信号图；

图3为图2所示的音频频域信号分帧帧后的单帧数据图；

图4为图3中示出的单帧数据加窗后的效果图；

图5为基于图4中示出的信号的组成频率示意图；

图6为本发明实施例涉及的声谱图；

图7为本发明实施例涉及的拼音数据字典的示意图；

图8为本发明实施例涉及的终端设备的模块化示意图；

图9为本发明实施例涉及的终端设备的结构简图。

具体实施方式

在相关技术中，一般通过以下两种方式实现电信诈骗的识别。

其一，在运营商侧接入用户数据，进行诈骗电话的分析和识别。接入的数据包括信令数据、IMEI(International Mobile Equipment Identity，国际移动设备识别码)数据、通话语音数据等，分析的方法包括类型匹配，自然语言分析等。

其二，在银行侧接入用户数据，在取款环节进行诈骗行为的识别，接入的数据包括银行卡信息、ATM(Automated Teller Machine，自动取款机)取现信息等。

在上述识别方式中，需要通过运营商和银行获取大量用户隐私数据，例如，用户的通话记录、联系人、通话内容、IMEI、银行卡信息、取现照片等。这导致实现电信诈骗识别就会造成用户隐私数据的泄露。

并且，基于运营商数据的诈骗识，在识别出电信诈骗后，只能通过运营商给用户发短信提醒或是直接挂断用户通话，这种方式直接干扰了用户的正常通话。而基于银行数据的电信诈骗识别，则在用户经济利益受损之后才能识别出电信诈骗，导致电信诈骗识别存在滞后性。

为解决现有电信诈骗识别会造成用户隐私泄露，以及存在滞后性的缺陷，本发明实施例提出一种语音识别方法，制作通过将诈骗识别功能部署于用户个人终端中，使得用于识别的数据不流出用户的个人终端，从而保障用户隐私。与此同时，通过对用户的通话数据进行语音识别，来快速识别电信诈骗，从而实现在电信诈骗实施成功之前，提取识别出电信诈骗，以提示用户注意防范。

以下，结合附图，对本实施例提出的语音识别方法做进一地解释说明。

在一实施例中，所述语音识别方法包括以下步骤：

步骤S10、获取待识别音频文件的声谱特征数据，根据所述声谱特征数据确定所述待识别音频文件对应的声谱图；

步骤S20、将所述声谱图作为预先训练的卷积神经网络模型的输入，基于所述卷积神经网络模型确定所述声谱图对应的音频拼音序列；

步骤S30、将与所述音频拼音序列匹配的预存文本拼音序列对应的语音内容，识别为所述待识别音频文件包含的语音内容。

在本实施例中，实施语音识别方法用于识别音频文件对应的音频，是否包含预设文本库或者数据库中对应的语音内容。

例如，在本发明实施例提出的语音识别方法的一种应用场景，所述待识别音频文件可是通话录音，使得可以基于本实施例提出的语音识别方法，识别出所述通话录音中是否包含预设的诈骗话术文本对应的话术语音。进而在通话录音中存在诈骗话术文本对应的话术语音是，判定该通话录音存在电信诈骗风险，进而对用户进行防诈骗提示。

在另一种应用场景，待识别音频文件也可以是视频文件对应的音频文件。比如，在监控排查过程中，可以根据本实施例提出的语音识别方法，来识别监控视频中是否出现目标话语。其中，目标话语可以是自定义设置，例如，设置为“xx，准备好今晚动手了吗”。

在又一种应用场景中，待识别音频文件可以是影视作品，短视频作品或者音乐文件对应的音频文件。在本应用场景中，可以通过本发明实施例提出的语音识别方法，识别影视坐标，短时频作品或者音乐文件中，是否包含目标台词或者歌词。

以下，结合电信诈骗预警场景，对本发明实施例提出的语音识别方法，做进一步地解释说明，可以理解的是，以下内容旨在帮助本领域技术人员理解本发明语音识别方法的权利范围，而不对本发明的作出限定。

在本实施例中，执行本实施语音识别方法的可以是移动终端，如手机，平板电脑等。所述移动终端可以基于移动网络与其它终端建立通话连接。例如，可以基于通话网络建立电话通信，或者基于如微信、QQ、钉钉、飞书等建立网络语音通话。

当终端检测到进入通话状态时，可以启动录音装置，通过录音装置录制通话音频。并将通话录音作为所述待识别音频文件。在通话结束后，基于所述待识别音频文件，执行所述语音识别方法。

当确定待识别音频文件后，可以获取待识别音频文件的声谱特征数据，根据所述声谱特征数据确定所述待识别音频文件对应的声谱图。

示例性地，终端可以读取所述待识别音频文件，确定所述待识别音频文件对应的频域信号。即在读取待识别音频文件，提取待识别音频文件的采样频率和采样数据，获得原始音频数据信息。如图2所示。这是语音在时域上的表示，振幅代表声音的强度，振幅为零表示静音。因此这些振幅不能代表语音的内容，需要将振幅转为频率域的表示。

当将振幅转换为频域表示，即得到待识别音频文件对应的频域信号后，基于所述频域信号进行数据分帧，进而对分帧后的每一帧数据加明汉窗。可以理解的是，人通过声带发出声音，声带不同的震动频率会发出不同的含义的声音，通常在10ms-30ms的范围内。人发出声音的震动频率会保持平稳，因此将原始的语音数据按照20ms进行分割，每一帧的数据长度为20ms。可选地，为了使帧与帧之间平滑过度，可以采用交叠分帧的方式进行分帧。例如，前一帧与后一帧交叠10ms。截取的一帧数据如图3所示。

当分帧完成后，由于每一帧的数据是从原始语音数据中截取出来的，会导致每一帧的数据不是一个周期的数据，因而产生频谱泄露。因此需要对帧数据加汉明窗，以改善频谱泄露的情况。

可选地，在一实施方案中，窗函数w(t)可以为：

如图4所示，将一帧数据加窗后，帧数据近似表现为周期数据。

在对帧数据加窗后，可以基于快速傅里叶变换分离加窗后的每一帧数据对应的组成频率。可以理解的是，声音信号由不同频率的声波构成，使用快速傅里叶变换将不同频率的声波分离出来，并取得频率的大小。如图5所示为傅里叶变化分离的声音信号的组成频率。

最后，根据分类处理的组成频率及每一帧数据对应的时序信息生成所述声谱图。即根据分类处理的组成频率及每一帧数据对应的时序信息生成如图6所示的声谱图。

需要说明的是，上述确定声谱图的方式为本发明语音识别方法的可以采用的一种可选实施方案。在电信诈骗预警场景中，终端可以在录音文件不流出终端的情况先，基于上述方案实现确定待识别音频文件的声谱图的效果，从而保障用户隐私。当然，在一些无需考虑用户隐私，例如影视作品的音频识别或者歌曲音频识别场景中，执行终端可以通过调用云端服务，进而基于云端服务实现确定待识别音频文件对应的声谱图的效果。而通过云端服务实现声谱图的确定，可以有效地减小终端设备的计算开销。

进一步的，在确定声谱图后，可以将所述声谱图作为预先训练的卷积神经网络模型的输入，基于所述卷积神经网络模型确定所述声谱图对应的音频拼音序列。

可以理解的是，传统语音识别方法需要将通话录音转为文本内容后再进行文本识别，识别速度慢，计算要求高，不适合在如手机，平板电脑等计算能力有限的终端中使用。而采用声学模型进行语音分析，省去了语音转文本的过程，直接在语音发音层面对语音中的骚扰诈骗话术特征进行识别，计算量小，识别速度快，模型体积也小，可在手机端部署并流畅运行，同时还支持识别生词和模糊发音，大大提高了语音识别率。因此，在实施例中，可以通过一个预先训练的卷积神经网络模型，来实现基于声谱图，确定待识别语音文件对应的拼音序列的效果。

示例性地，得到待识别音频文件对应的声谱图后，就将语音识别转换为图形识别，例如，该卷积神经网络的网络结构可以如下：

第一层卷积层：共32个卷积核，大小为3×3，激活函数relu。

第二层卷积层：共32个卷积核，大小为3×3，激活函数relu。

第三层池化层：2×2的核，最大池化。

第四层卷积层：共64个卷积核，大小为3×3，激活函数relu。

第五层卷积层：共64个卷积核，大小为3×3，激活函数relu。

第六层池化层：2×2的核，最大池化。

第七层卷积层：共128个卷积核，大小为3×3，激活函数relu。

第八层卷积层：共128个卷积核，大小为3×3，激活函数relu。

第九层池化层：2×2的核，最大池化。

第十层卷积层：共128个卷积核，大小为3×3，激活函数relu。

第十一层卷积层：共128个卷积核，大小为3×3，激活函数relu。

第十二层卷积层：共128个卷积核，大小为3×3，激活函数relu。

第十三层卷积层：共128个卷积核，大小为3×3，激活函数relu。

第十四层全连接层：256个神经元。

第十五层全连接层：神经元个数为拼音字典的个数，激活函数softmax，最终输出层。

需要说明的是，在模型训练过程中，可以使用CTC(Connectionist TemporalClassification，联结主义时间分类)算法构建损失函数，进行模型训练。然后获取用于模型训练的样本声谱图，以及所述样本声谱图对应的样本拼音序列，并基于所述损失函数、所述样本声谱图和所述样本拼音序列训练所述卷积神经网络模型。使得训练后的卷积神经网络模型可以直接根据输入的声谱图，确定对应的拼音序列。所述拼音序列中，每一音节对应至少一个音频拼音，所述卷积神经网络模型基于所述声谱图，确定拼音库中的各个可选拼音为所述音节对应音频拼音的概率，并根据所述概率，选定至少一个所述可选拼音作为所述音节对应的音频拼音。例如，可以将概率前五的5个拼音，作为该音节对应的音频拼音。这样使得最终识别出的结果，达到模糊查询的效果，即可以实现模糊发音的识别。

进一地，在得到音频拼音序列之后，将与所述音频拼音序列匹配的预存文本拼音序列对应的语音内容，识别为所述待识别音频文件包含的语音内容。

可选地，作为一种实现方案，可以在终端中，先获取预设文本，并根据所述预设文本生成所述预存文本拼音序列。然后，生成所述预存文本拼音序列对应的拼音数据字典，所述拼音数据字典的键为文本拼音，值为所述预设文本中包含所述文本拼音的文本索引；基于所述拼音数据字典，查询与所述音频拼音序列匹配的预存文本拼音序列。

示例性地，在电信诈骗识别场景中，可以将通话语音(待识别音频文件) 转为音频拼音序列后，与诈骗话术本(预设文本)中的诈骗话术进行模型匹配，计算该通话的诈骗概率，判断是否为诈骗电话。

在本示例中，可以先将诈骗话术本中的每一条中文话术转为相应的拼音序列，用于与通话语音的音频拼音序列进行对比。然后计算诈骗话术本中全部话术转为拼音后的平均长度，计算公式如下：

然后根据诈骗话术对应音频拼音序列，以及所述话术拼音平均长度，生成拼音数据字典，其中键为文本对应的文本拼音，值为话术本中包含该文本拼音的话术索引，示例如图7所示。

在确定音频拼音序列和拼音数据字典后，可以根据拼音数据字典，计算当前处理的通话拼音在每条话术中出现的次数，并按降序排列。然后，根据排序的结果，可以选取前N个话术作为本次话术匹配的备选话术，N值越大，匹配的话术越全面，N值越小，话术匹配的速度越快。N值根据实际情况可灵活设置。在本应用场景中，为了保持最全的匹配效率，N设为最大值，即话术的数量。

进一步地，根据得到的话术备选集合，进行循环遍历。逐个取出备选话术与音频拼音序列进行对比，由于话术拼音序列(即预存文本拼音序列)和音频拼音序列长度不固定且不相等。因此，可以设置滑动窗口，滑动窗口长度为话术拼音长度，步长为1，依次截取音频拼音序列与话术拼音序列进行对比。比对算法采用基于动态规划的最长公共子序列算法，如果匹配率大于50％，则命中该话术，跳出滑动窗口的训练，进行下一个备选话术的比对。

所有备选话术对比完成后，计算本次通话为诈骗电话的概率，计算公式如下：

可选地，确定概率后，可以将本次诈骗电话的识别结果及命中的话术，通过终端反馈给用户。

可以理解的是，在本实施例提供的语音识别方法中，由于波形图的训练过程不涉及待识别的预存文本拼音序列。因此，当更新待识别的语音内容，即增加新的预存文本拼音序列时，无需对卷积神经网络模型进行重新训练。从而使得该方法可以支持生词识别。

在本实施例公开的技术方案中，先获取待识别音频文件的声谱特征数据，根据所述声谱特征数据确定所述待识别音频文件对应的声谱图，然后将所述声谱图作为预先训练的卷积神经网络模型的输入，基于所述卷积神经网络模型确定所述声谱图对应的音频拼音序列，进而将与所述音频拼音序列匹配的预存文本拼音序列对应的语音内容，识别为所述待识别音频文件包含的语音内容。在电信诈骗防范场景中，由于本实施提供的语音识别方法，可以直接识别通话录音中是否存在诈骗话术，进而在诈骗完成前，提前识别出电信诈骗。并且，由于识别过程可以在终端设备中完成，从而使得通话录音无需流出终端设备，因而提升了诈骗识别过程中，用户隐私保护的效果。

此外，本发明实施例还提出一种终端设备，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别程序，所述语音识别程序被处理器执行时实现如上各个实施例所述的语音识别方法的步骤。

此外，本发明实施例还提出一种计算机可读存储介质，其上存储有语音识别程序，该语音识别程序被处理器执行时实现如上述实施例所述的语音识别方法的步骤。

此外，请参照图8，本发明实施例还提出一种终端设备100，包括：

获取模块101，用于获取待识别音频文件的声谱特征数据，根据所述声谱特征数据确定所述待识别音频文件对应的声谱图；

分析模块102，用于将所述声谱图作为预先训练的卷积神经网络模型的输入，基于所述卷积神经网络模型确定所述声谱图对应的音频拼音序列；

识别模块103，用于将与所述音频拼音序列匹配的预存文本拼音序列对应的语音内容，识别为所述待识别音频文件包含的语音内容。

如图9所示，图9是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

如图9所示，该控制终端可以包括：处理器1001，例如CPU，网络接口 1003，存储器1004，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。网络接口1003可选的可以包括标准的有线接口、无线接口 (如WI-FI接口)。存储器1004可以是高速RAM存储器，也可以是稳定的存储器。存储器1004可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图9中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图9所示，作为一种计算机存储介质的存储器1004中可以包括操作系统、网络通信模块、以及语音识别程序。

在图9所示的终端中，处理器1001可以用于调用存储器1004中存储的语音识别程序，并执行以下操作：

可选地，处理器1001可以调用存储器1004中存储的语音识别程序，还执行以下操作：

获取预设文本；

根据所述预设文本生成所述预存文本拼音序列。

基于所述频域信号进行数据分帧；

对分帧后的每一帧数据加明汉窗；

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(如手机、平板电脑等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音识别方法，其特征在于，所述语音识别方法包括以下步骤：

2.如权利要求1所述的语音识别方法，其特征在于，所述将与所述音频拼音序列匹配的预存文本拼音序列对应的语音内容，识别为所述待识别音频文件包含的语音内容的步骤之前，还包括：

获取预设文本；

根据所述预设文本生成所述预存文本拼音序列。

3.如权利要求2所述的语音识别方法，其特征在于，所述根据所述预设文本生成所述预存文本拼音序列的步骤之后，还包括：

4.如权利要求1所述的语音识别方法，其特征在于，所述拼音序列中，每一音节对应至少一个音频拼音，所述卷积神经网络模型基于所述声谱图，确定拼音库中的各个可选拼音为所述音节对应音频拼音的概率，并根据所述概率，选定至少一个所述可选拼音作为所述音节对应的音频拼音。

5.如权利要求1所述的语音识别方法，其特征在于，所述将所述声谱图作为预先训练的卷积神经网络模型的输入，基于所述卷积神经网络模型确定所述声谱图对应的音频拼音序列的步骤之前，还包括：

6.如权利要求1所述的语音识别方法，其特征在于，所述获取待识别音频文件的声谱特征数据，根据所述声谱特征数据确定所述待识别音频文件对应的声谱图的步骤包括：

基于所述频域信号进行数据分帧；

对分帧后的每一帧数据加明汉窗；

7.如权利要求1所述的语音识别方法，其特征在于，所述音频文件为通话录音，所述预存文本拼音序列为诈骗话术文本对应的拼音序列，所述语音内容为诈骗话术。

8.一种终端设备，其特征在于，包括：

9.一种终端设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的语音识别程序，所述处理器执行所述语音识别程序时实现权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有语音识别程序，该语音识别程序被处理器执行时实现权利要求1-7中任一项所述的语音识别方法。