CN114580432A

CN114580432A - 一种基于语音识别的电话语义分析方法

Info

Publication number: CN114580432A
Application number: CN202210200740.4A
Authority: CN
Inventors: 郑宁; 丁正; 顾晓东; 贺东海; 贾岩峰; 韩慎勇; 杨亚鹏; 赵学哲
Original assignee: Shanghai Xinfang Software Co ltd; Shanghai Cintel Intelligent System Co ltd
Current assignee: Shanghai Xinfang Software Co ltd; Shanghai Cintel Intelligent System Co ltd
Priority date: 2022-03-02
Filing date: 2022-03-02
Publication date: 2022-06-03

Abstract

本发明提供了一种基于语音识别的电话语义分析方法，包括：获取通话内容，将所述通话内容转写为文本数据；从所述文本数据提取关键词，根据提取的关键词构造关键词列表向量；将所述关键词列表向量分别与每个意图特征模型进行比对，以分别得到所述关键词列表向量与每个意图特征模型之间的疑似度分值，根据多个疑似度分值的最大值，确定所述通话内容所表征的意图；其中，不同意图特征模型分别表征不同意图；本发明提供的方法通过连续语音转写技术，将通话语音转成文本内容，再结合意图理解技术，让系统分析出该通话内容的意图，提高了对通话内容意图识别的准确率。

Description

一种基于语音识别的电话语义分析方法

技术领域

本发明涉及语音识别、语义理解的技术领域，具体地说，本发明涉及一种基于语音识别的电话语义分析方法、装置、电子设备。

背景技术

随着通信技术的发展，越来越多不法分子借助于移动、固定电话通信技术进行非法宣传和诈骗，给很多电话用户带来了经济损失，扰乱了正常社会秩序。

电信用户希望有一个安全的通话环境，减少和杜绝诈骗电话的发生，政府部门、电信运营商也希望能够通过技术途径从源头上打击诈骗电话，给公众一个安全可信的通话环境。

限于技术发展，早期建设的电话诈骗防范系统中诈骗电话分析研判，主要依靠人工介入听取录音进行研判，或通过语音识别内容提取简单关键词进行自动研判。在实际系统运行操作中，由于录音量过大远超人工处理能力，大量灰名单不能及时研判，影响了系统拦截作用的发挥。而提取简单关键词实现自动研判，造成诈骗号码分析的准确率不高，因此带来后续大量的误拦号码投诉。

发明内容

有鉴于此，一种能够克服现有技术的上述至少一个缺陷的解决方案。

本发明一方面提供了一种基于语音识别的电话语义分析方法，包括：获取通话内容，将所述通话内容转写为文本数据；从所述文本数据提取关键词，根据提取的关键词构造关键词列表向量；将所述关键词列表向量分别与每个意图特征模型进行比对，以分别得到所述关键词列表向量与每个意图特征模型之间的疑似度分值，根据多个疑似度分值的最大值，确定所述通话内容所表征的意图，其中，不同意图特征模型分别表征不同意图。

在一个实施方式中，将所述通话内容转写为文本数据之前，所述方法还包括：对所述通话内容进行背景高斯噪声去除处理。

在一个实施方式中，所述关键词提取模块将所述文本数据转换为关键词列表向量包括：对所述文本数据进行分割，得到多个文本段；对所述文本段进行过滤，得到关键词节点集；根据所述关键词节点集以及预设的边集合，得到节点权重；对所述节点权重进行倒序排序，将排序最前的至少一个节点权重作为候选关键词向量；对所述文本数据中与所述候选关键词相同的部分进行标记，当多个所述候选关键词在所述文本数据中相邻，则将相邻的候选关键词合并作为多词关键词向量；将多个所述多词关键词向量合并，得到所述关键词列表向量。

在一个实施方式中，对所述文本段进行过滤包括：对文本段进行分词处理，得到分词数据；对所述分词数据的词性进行标注；去除分词数据中的停用词以及分词数据中不带有预设词性标注的分词数据，得到关键词节点集；其中，所述预设词性为预设的关键词词性。

在一个实施方式中，基于共现关系，根据所述关键词节点集以及预设的边集合对所述关键词节点集中的每个关键词节点进行处理，将一关键词节点与另一关键词节点连接形成边，并分别根据该关键词所连接的所述边的数量，基于预设阈值，去除边的数量未达到所述预设阈值的对应的关键词节点。

在一个实施方式中，将剩余的所述关键词节点通过迭代计算，得到所述节点权重包括：

其中，V_i、V_j所述关键词节点集中的任意两个节点，WS(V_i)为V_i的节点权重，d 为阻尼系数；w_ji、w_jk分别表示V_i、V_j的权重系数，In(V_i)为指向V_i的集合、out(V_j) 为指向V_j的集合。

在一个实施方式中，所述意图理解模块将所述关键词列表向量与每个所述意图特征模型进行比对，以得到所述关键词列表向量与每个所述意图特征模型对应的疑似度分值包括：分别计算所述关键词向量与每个意图特征模型的相对熵，其中多个相对熵中的最小值对应所述疑似度分值的最大值。

在一个实施方式中，所述分别计算关键词向量计算与每个所述意图特征模型的相对熵具体包括：

其中，P(x)表示所述关键词列表向量中一关键词的概率分布，Q(x)表示所述意图特征模型中该关键词的概率分布，x表示所述意图特征模型中预设的关键词字符集，KL(P||Q)表示P(x)与Q(x)对应的相对熵。

本发明的另一方面提供了一种基于语音识别的电话语义分析系统，包括：语音识别模块，用于获取通话内容，将所述通话内容转写为文本数据，并发送至关键词提取模块；关键词提取模块，用于将所述文本数据转换为关键词列表向量，并发送至意图理解模块；意图理解模块，其特征库中包括多个表征不同意图的意图特征模型，用于将所述关键词列表向量与每个意图特征模型进行比对，以得到所述关键词列表向量与每个意图特征模型对应的疑似度分值，根据多个疑似度分值的最大值，确定所述通话内容所表征的意图。

本发明的另一方面提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上所述基于语音识别的电话语义分析方法的步骤。

与现有技术相比，本发明具有以下技术效果：通过提取语义属性特征，从内容认知角度，基于语音识别、语义理解技术，构建多维度认知模型，对诈骗号码进行分析、检测，最大限度的提高了对诈骗电话识别的准确率，降低了误判率。

附图说明

以下附图仅对本发明做示意性说明和解释，并不限定本发明的范围：

图1示出了本发明一个实施例的方法流程示意图；以及

图2示出了本发明一个实施例的方法流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明作进一步详细说明。

应注意，在本说明书中，第一、第二等的表述仅用于将一个特征与另一个特征区分开来，而不表示对特征的任何限制。因此，在不背离本申请的教导的情况下，下文中讨论的第一缓冲区也可被称作第二缓冲区。

在附图中，为了便于说明，已稍微夸大了物体的厚度、尺寸和形状。附图仅为示例而并非严格按比例绘制。

还应理解的是，用语“包括”、“包括有”、“具有”、“包含”和/或“包含有”，当在本说明书中使用时表示存在所陈述的特征、整体、步骤、操作、元件和/或部件，但不排除存在或附加有一个或多个其它特征、整体、步骤、操作、元件、部件和/ 或它们的组合。此外，当诸如“...中的至少一个”的表述出现在所列特征的列表之后时，修饰整个所列特征，而不是修饰列表中的单独元件。此外，当描述本申请的实施方式时，使用“可以”表示“本申请的一个或多个实施方式”。并且，用语“示例性的”旨在指代示例或举例说明。

如在本文中使用的，用语“基本上”、“大约”以及类似的用语用作表近似的用语，而不用作表程度的用语，并且旨在说明将由本领域普通技术人员认识到的、测量值或计算值中的固有偏差。

除非另外限定，否则本文中使用的所有用语(包括技术用语和科学用语)均具有与本申请所属领域普通技术人员的通常理解相同的含义。还应理解的是，用语 (例如在常用词典中定义的用语)应被解释为具有与它们在相关技术的上下文中的含义一致的含义，并且将不被以理想化或过度正式意义解释，除非本文中明确如此限定。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了本发明一个实施例的方法流程示意图；本发明提供的一种基于语音识别的电话语义分析方法，包括以下步骤：

S1，获取通话内容，将通话内容转写为文本数据；

S2，从文本数据提取关键词，根据提取的关键词构造关键词列表向量；

S3，将关键词列表向量分别与每个意图特征模型进行比对，以分别得到关键词列表向量与每个意图特征模型之间的疑似度分值，根据多个疑似度分值的最大值，确定通话内容所表征的意图，其中，不同意图特征模型分别表征不同意图。

下面将对本发明提供的方法逐步展开说明。

S1，获取通话内容，将该通话内容转写为文本数据。

在一些实施方式中，S1具体可通过串行地先将通话内容输入到声学模型，再把声学模型的输出特征输入到语言模型对通话内容进行解码，利用贝叶斯公式计算候选词语的后验概率，计算可信度得分，进行断句分段处理，将通话内容转写成文本数据，供后续的文本处理。

在一些实施方式中，获取通话内容，将通话内容转写为文本数据具体可采用随机模型法，利用人工神经网络的方法，或概率语法分析中的一种或多种。

具体地，通话内容进行采样得到波形数据之后，首先要输入到特征提取模块，提取出合适的声学特征参数供后续声学模型使用。好的声学特征应当考虑以下三个方面的因素。第一，应当具有比较优秀的区分特性.以使声学模型不同的建模单元可以方便准确的建模。第二，特征提取也可以认为是语音信息的压缩编码过程，既需要将信道、说话人的因素消除，保留与内容相关的信息，又需要在不损失过多有用信息的情况下使用尽量低的参数维度，便于高效准确的进行模型的训练。第三，需要考虑鲁棒性，即对环境噪声的抗干扰能力。

在一些实施方式中，可采用隐马尔科夫模型(Hidden Markov Model，HMM)作为声学模型，这是因为HMM具有很多优良特性。HMM模型的状态跳转模型很适合人类语音的短时平稳特性，可以对不断产生的观测值(通话内容)进行方便的统计建模。

以汉语为例：汉语按音素的发音特征分类分为辅音、单元音、复元音、复鼻尾音四种，按音节结构分类为声母和韵母，并且由音素构成声母或韵母。有时，将含有声调的韵母称为调母。由单个调母或由声母与调母拼音成为音节。汉语的一个音节就是汉语一个字的音，即音节字。由音节字构成词，最后再由词构成句子。汉语声母共有22个，其中包括零声母，韵母共有38个。按音素分类，汉语辅音共有 22个，单元音13个，复元音13个，复鼻尾音16个。目前常用的声学模型基元为声韵母、音节或词，根据实现目的不同来选取不同的基元。汉语加上语气词共有412 个音节，包括轻音字，共有1282个有调音节字，所以当在小词汇表孤立词语音识别时常选用词作为基元，在大词汇表语音识别时常采用音节或声韵母建模，而在连续语音识别时，由于协同发音的影响，常采用声韵母建模。

基于统计的声学模型常用的就是HMM模型，涉及到HMM模型的相关理论包括模型的结构选取、模型的初始化、模型参数的重估以及相应的识别算法等。

在本发明提供的实施方式中，将通话内容转写为文本数据之前，还需对该通话内容进行语音去噪，具体地，去除通话内容中的背景高斯噪声。

在一些实施方式中，语音去噪方法可以为：基于TF(Time-Frequency，时频) 域的方法、基于时域的方法。

S2，从该文本数据提取关键词，根据提取的关键词构造关键词列表向量。

在本发明提供的实施方式中，本步骤S2具体包括：对该文本数据进行分割，得到多个文本段；对每个文本段进行过滤，得到由多个关键词组成的关键词节点集，其中，每个关键词作为一个关键词节点，所有关键词节点的集合为关键词节点集，所有文本段对应一个关键词节点集；根据关键词节点集以及预设的边集合，得到节点权重；对节点权重进行倒序排序，将排序最前的至少一个，即排在前n名的n个节点权重组成候选关键词向量(n取值可根据实际情况确定)；对所述文本数据中与所述候选关键词相同的部分进行标记，当多个所述候选关键词在所述文本数据中相邻，则将相邻的候选关键词合并作为多词关键词向量；将多个所述多词关键词向量合并，得到所述关键词列表向量。

在一些实施方式中，对文本段进行过滤包括：对文本段进行分词处理，得到分词数据；对所述分词数据的词性进行标注；去除分词数据中的停用词以及分词数据中不带有所述预设词性标注的分词数据，得到关键词节点集；其中，所述预设词性为预设的关键词词性。

在一些实施方式中，分词处理可采用的算法为：基于字符串匹配的分词方法、基于理解的分词方法或基于统计的分词方法。按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。

在一些实施方式中，分词处理可采用结巴分词作为分词等工具实现。

在一些实施方式中，被标注的词性可以是一种词性，也可以根据实际需要标注多种词性。

在一些实施方式中，根据关键词节点集以及预设的边集合，得到节点权重包括：基于共现关系，根据所述关键词节点集以及预设的边集合对所述关键词节点集中的每个关键词节点进行处理，将一关键词节点与另一关键词节点连接形成边，并分别根据该关键词所连接的所述边的数量，基于预设阈值，去除边的数量未达到所述预设阈值的对应的关键词节点。

具体地，边集合包括多个文本区域的集合，每个文本区域为在上述过滤后的文本段中，选择一关键词作为该文本区域的起点，再选择该词之后的某一关键词作为该文本区域的终点，所形成的当前文本段作为边集合中的一个文本区域，并记录该起点-终点出现的次数，边集合为上述多个文本区域以及对应起点-终点出现次数的集合，对于文本区域的数量、起点以及终点具体的选择可根据实际需要进行设置；在一些实施方式中，也可以是两个以上的关键词节点构成该文本区域。

进一步地，根据每个关键词所连接的边的个数，基于预设阈值，去除边的个数未达该阈值的对应的关键词节点，该预设阈值可用K来表示。

在一些实施方式中，将剩余的关键词节点通过迭代计算，得到所述节点权重如下式：

其中，V_i、V_j所述关键词节点集中的任意两个节点，WS(V_i)为V_i的节点权重，d 为阻尼系数；w_ji、w_jk分别表示V_i、V_j的预设的权重系数，In(V_i)为指向V_i的集合、 out(V_j)为指向V_j的集合。

在一些实施方式中，d的取值可以为0.85。

在一些实施方式中，多词关键词也可以由不相邻的多个候选关键词构成，当多个候选关键词构成的边的数目达到K，则上述多个候选关键词也可构成多词关键词。

S3，将所述关键词列表向量分别与每个意图特征模型进行比对，以分别得到所述关键词列表向量与每个意图特征模型之间的疑似度分值，根据多个疑似度分值的最大值，确定所述通话内容所表征的意图，其中，不同意图特征模型分别表征不同意图。

参考图2，示例性地，意图特征模型可以包括：假冒电商客服类模型、虚假网络贷款类模型、假冒投资理财类模型、假冒公检法模型、刷单类模型，其表征的意图依次为：假冒电商客服、虚假网络贷款、假冒投资理财、假冒公检法、刷单类；各个模型的特征库提前被配置于设备的处理器中，进一步地，意图特征模型可以根据实际情况需要被配置为表征其他任何意图的特征模型，本文对此不做限制。

在一些实施方式中，所述意图理解模块将所述关键词列表向量与每个所述意图特征模型进行比对，以得到所述关键词列表向量与每个所述意图特征模型对应的疑似度分值包括：分别计算所述关键词向量与每个意图特征模型的相对熵，其中多个相对熵中的最小值对应所述疑似度分值的最大值。

相似度计算采用相对熵算法来衡量关键词列表向量与模型特征库之间的距离，当两者相同时，它们的相对熵为零，当两者的差别增大时，它们的相对熵也会增大。所以相对熵可以用于比较文本的相似度，先统计出词的频率，然后计算相对熵。

设P(x)，Q(x)是随机变量x上的两个概率分布，则在离散和连续随机变量的情形下，P(x)和Q(x)的相对熵KL(P||Q)的定义分别为：

进一步地，相对熵用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的比特个数。P表示数据的真实分布，Q表示数据的理论分布、模型分布或 P的近似分布。给定一个字符集的概率分布，设计一种编码，使得表示该字符集组成的字符串平均需要的比特数最少。假设这个字符集是X，对x∈X，其出现概率为P(x)，那么其最优编码平均需要的比特数等于这个字符集的熵H(x)：

在同样的字符集上，假设存在另一个概率分布Q(x)，如果用概率分布P(x)的最优编码(即字符x的编码长度等于

)，来为符合分布P(x)的字符编码，那么表示这些字符就会比理想情况多用一些比特数。相对熵就是用来衡量这种情况下平均每个字符多用的比特数，因此可以用来衡量两个分布的距离。

在本发明提供的实施方式中，随机变量X不涉及连续随机变量，但本领域人员可以理解的是，在一些实施方式中，X可以为连续随机变量。

本发明提供的实施方式中，分别计算关键词向量计算与每个所述意图特征模型的相对熵具体包括：

其中，P(x)表示关键词列表向量中的一关键词向量x的概率分布，Q(x) 表示意图特征模型中的关键词x的概率分布，X表示所述意图特征模型中预设的关键词字符集，x为关键词列表向量X中的一关键词向量x，KL(P||Q)表示P(x)与 Q(x)对应的相对熵。

本发明的另一方面还提供一种语音识别模块，用于获取通话内容，将所述通话内容转写为文本数据，并发送至关键词提取模块；关键词提取模块，用于将所述文本数据转换为关键词列表向量，并发送至意图理解模块；意图理解模块，其特征库中包括多个表征不同意图的意图特征模型，用于将所述关键词列表向量与每个意图特征模型进行比对，以得到所述关键词列表向量与每个意图特征模型对应的疑似度分值，根据多个疑似度分值的最大值，确定所述通话内容所表征的意图。其设计与上述提供的方法基于相同的思路，本文对此将不再赘述

本发明的另一方面还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，处理器执行计算机程序时实现如上所述基于语音识别的电话语义分析方法的步骤，其设计与该方法基于相同的思路，本文对此将不再赘述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于语音识别的电话语义分析方法，其特征在于，包括：

获取通话内容，将所述通话内容转写为文本数据；

从所述文本数据提取关键词，根据提取的关键词构造关键词列表向量；

将所述关键词列表向量分别与每个意图特征模型进行比对，以分别得到所述关键词列表向量与每个意图特征模型之间的疑似度分值，根据多个疑似度分值的最大值，确定所述通话内容所表征的意图，其中，不同意图特征模型分别表征不同意图。

2.根据权利要求1所述的方法，其特征在于，将所述通话内容转写为文本数据之前，所述方法还包括：

对所述通话内容进行背景高斯噪声去除处理。

3.根据权利要求1所述的方法，其特征在于，所述关键词提取模块将所述文本数据转换为关键词列表向量包括：

对所述文本数据进行分割，得到多个文本段；

对所述文本段进行过滤，得到关键词节点集；

根据所述关键词节点集以及预设的边集合，得到节点权重；

对所述节点权重进行倒序排序，将排序最前的至少一个节点权重作为候选关键词向量；

对所述文本数据中与所述候选关键词相同的部分进行标记，当多个所述候选关键词在所述文本数据中相邻，则将相邻的候选关键词合并作为多词关键词向量；

将多个所述多词关键词向量合并，得到所述关键词列表向量。

4.根据权利要求3所述的方法，其特征在于，对所述文本段进行过滤包括：

对文本段进行分词处理，得到分词数据；

对所述分词数据的词性进行标注；

去除分词数据中的停用词以及分词数据中不带有预设词性标注的分词数据，得到关键词节点集；其中，所述预设词性为预设的关键词词性。

5.根据权利要求3所述的方法，其特征在于，根据所述关键词节点集以及预设的边集合，得到节点权重包括：

基于共现关系，根据所述关键词节点集以及预设的边集合对所述关键词节点集中的每个关键词节点进行处理，将一关键词节点与另一关键词节点连接形成边，并分别根据该关键词所连接的所述边的数量，基于预设阈值，去除边的数量未达到所述预设阈值的对应的关键词节点；

根据预设的阻尼系数，对剩余的关键词节点进行迭代计算，得到剩余的每个关键词节点的节点权重。

6.根据权利要求5所述的方法，其特征在于，将剩余的所述关键词节点通过迭代计算，得到所述节点权重包括：

其中，V_i、V_j所述关键词节点集中的任意两个节点，WS(V_i)为V_i的节点权重，d为阻尼系数；w_ji、w_jk分别表示V_i、V_j的权重系数，In(V_i)为指向V_i的集合、out(V_j)为指向V_j的集合。

7.根据权利要求1所述的方法，其特征在于，所述意图理解模块将所述关键词列表向量与每个所述意图特征模型进行比对，以得到所述关键词列表向量与每个所述意图特征模型对应的疑似度分值包括：

分别计算所述关键词向量与每个意图特征模型的相对熵，其中多个相对熵中的最小值对应所述疑似度分值的最大值。

8.根据权利要求7所述的方法，其特征在于：所述分别计算关键词向量计算与每个所述意图特征模型的相对熵具体包括：

9.一种基于语音识别的电话语义分析系统，其特征在于，包括：

语音识别模块，用于获取通话内容，将所述通话内容转写为文本数据，并发送至关键词提取模块；

关键词提取模块，用于将所述文本数据转换为关键词列表向量，并发送至意图理解模块；

意图理解模块，其特征库中包括多个表征不同意图的意图特征模型，用于将所述关键词列表向量与每个意图特征模型进行比对，以得到所述关键词列表向量与每个意图特征模型对应的疑似度分值，根据多个疑似度分值的最大值，确定所述通话内容所表征的意图。

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述基于语音识别的电话语义分析方法的步骤。