CN114299924A

CN114299924A - 基于语音情绪的话术推送方法、装置、设备及存储介质

Info

Publication number: CN114299924A
Application number: CN202111602186.4A
Authority: CN
Inventors: 李良斌; 陈孝良
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-08

Abstract

本发明公开了一种基于语音情绪的话术推送方法、装置、设备及存储介质，包括：对用户回复的语音进行检测，获取目标语音；对目标语音进行识别，获取目标语音所包含的目标情绪；基于算法模型，获取目标情绪的目标值；将目标值与阈值进行对比，确定推送的目标话术。本发明的技术方案，在判断第一次劝阻话术劝阻失败后，会采集用户回复的语音，并对其进行情绪识别处理，再对消极情绪的进行分类细化，并通过语料库检索算法，对应的赋予每种消极情绪对应的权重，再通过算法，计算是否达到相应劝阻话术的阈值，若达到则推荐对应的劝阻话术，实现了反诈骗系统和推荐算法相结合，针对将用户语音细化后的情绪，对应的推荐相适应的劝阻话术。

Description

基于语音情绪的话术推送方法、装置、设备及存储介质

技术领域

本发明属于计算机技术领域，尤其涉及一种基于语音情绪的话术推送方法、装置、设备以及存储介质。

背景技术

在反诈骗系统中，现有的方案是通过语音情绪识别技术，粗略的将用户的情绪分为三类：消极、中性、积极；当系统识别到可能为诈骗电话时，会接入通话，并推送统一的劝阻话术，这时会对用户的反应话语进行情绪识别，而当用户的语音情绪被识别为消极时，将直接将诈骗警告推送给该用户的亲属，防止其受骗；具体的，当系统识别到可能为诈骗电话并推送统一的劝阻话术后，一旦用户的语音情绪识别结果为消极，就会判断劝阻失败，将可能受诈骗的警告推送给该用户的亲属。

但是，并没有针对用户面对劝阻话术后作出的反应情绪，给出相应的第二次劝阻话术，就直接给用户的亲属推送诈骗警告，这样做不能具有针对性地推送适合用户当时情绪的劝阻话术，也就起不到更好的劝阻效果；而且判断一次劝阻失败就推送警告，作出判断失误的可能性也会上升。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种基于语音情绪的话术推送方法、装置、设备以及存储介质。

为了解决上述技术问题，本发明的实施例提供如下技术方案：

一种基于语音情绪的话术推送方法，包括：

对用户回复的语音进行检测，获取目标语音；

对所述目标语音进行识别，获取所述目标语音所包含的目标情绪；

基于算法模型，获取所述目标情绪的目标值；

将所述目标值与阈值进行对比，确定推送的目标话术。

可选的，在对用户回复的语音进行检测，获取目标语音之前，还包括：

建立语料库，所述语料库包括多个训练样本；

对多个所述训练样本进行训练，得到每种参考情绪的权重值以及特征值；

基于每种所述参考情绪的权重值以及特征值，得到每个所述训练样本的阈值。

可选的，所述对所述目标语音进行识别，获取所述目标语音所包含的目标情绪，包括：

对所述目标语音进行识别，确定所述目标语音的情绪类别；

若所述情绪类别为消极，则基于所述语料库对所述目标语音进行识别，获取和所述目标语音匹配的目标参考语音；

基于所述目标参考语音，获取所述目标参考语音包括的目标情绪。

可选的，基于语料库对所述目标语音进行识别，获取和所述目标语音匹配的目标参考语音，包括如下公式：

式中，x_i为用户回复的语音的向量的分量，y_i为目标参考语音的向量的分量，n为向量中分量的个数。

可选的，所述基于算法模型，获取所述目标情绪的目标值，包括：

将所述目标情绪的每种情绪的特征值以及权重值输入所述算法模型；

所述算法模型对所述目标情绪的每种情绪的特征值以及权重值进行计算，获取所述目标情绪的目标值。

可选的，所述算法模型包括如下公式：

式中：j为神经元，χ_i为特征值；

为权重值，netj为输出的目标值。

可选的，所述将所述目标值与阈值进行对比，确定推送的目标话术，包括：

将所述目标值与所述阈值进行对比，获取对比结果；

若所述对比结果为所述目标值大于所述阈值，则将与所述目标参考语音匹配的话术推送给所述用户；

若所述对比结果为所述目标值小于所述阈值，则不对所述用户推送所述话术。

本发明的实施例还提供一种基于语音情绪的话术推送装置，包括：

检测模块，用于对用户回复的语音进行检测，获取目标语音；

识别模块，用于对所述目标语音进行识别，获取所述目标语音所包含的目标情绪；

计算模块，用于基于算法模型，获取所述目标情绪的目标值；

推送模块，用于将所述目标值与阈值进行对比，确定推送的目标话术。

本发明的实施例还提供一种电子设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的方法。

本发明的实施例还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上所述的方法。

本发明的实施例，具有如下技术效果：

本发明的上述技术方案，(1)在判断第一次劝阻话术劝阻失败后，会采集用户回复的语音，并对其进行情绪识别处理，再对消极情绪的进行分类细化，并通过语料库检索算法，对应的赋予每种消极情绪对应的权重值，再通过算法，计算是否达到相应劝阻话术的阈值，若达到则推荐对应的劝阻话术，实现了反诈骗系统和推荐算法相结合，针对将用户语音细化后的情绪，对应的推荐相适应的劝阻话术。

(2)通过将推送算法结合到语音情绪识别技术上，给可能受到诈骗的用户推送更适合的劝阻话术，实现了更好的劝阻效果；同时，避免了劝阻话术统一而造成的不能针对性劝阻的问题；此外，二次劝阻也大大降低了语音情绪识别算法出现误判的概率。

(3)M-P算法等还可以不断优化每种情绪对应的权重值和阈值，进而使得获取的目标值更加精准，获取的阈值也更具有参考价值，在提高推送话术的准确性的同时，提高用户的体验。

(4)基于不同的目标语音，匹配不同的目标参考语音，因而实现了根据用户的情绪的不同推送不同的劝阻话术，起到了更好的劝阻效果。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1是本发明实施例提供的基于语音情绪的话术推送方法的流程示意图；

图2是本发明实施例提供的基于语音情绪的话术推送装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

为了便于本领域的技术人员对实施例的理解，对部分用语进行解释：

(1)M-P模型：按照生物神经元的结构和工作原理构造出来的一个抽象和简化了的模型,实际上是对单个神经元的一种建模；其中，每个神经元都是一个多输入单输出的信息处理单元。

(2)BP算法：Back Propagation，后向传播算法，由学习过程由信号的正向传播与误差的反向传播两个过程组成。

如图1所示，本发明的实施例提供一种基于语音情绪的话术推送方法，包括：

步骤S1：对用户回复的语音进行检测，获取目标语音；

在实际应用场景中，在判断第一次劝阻话术劝阻失败以后，进行二次劝阻；

其中，基于系统预设的经验值，对用户回复的语音进行初步检测，确定用户是否正在进行诈骗通话；

若检测到用户有可能正在进行诈骗通话，则将用户回复的语音作为目标语音进并进行后续处理；若检测到用户未进行诈骗通话，则不对用户的该语音进行后续处理。

步骤S2：对所述目标语音进行识别，获取所述目标语音所包含的目标情绪；

具体的，所述对所述目标语音进行识别，获取所述目标语音所包含的目标情绪，包括：

对所述目标语音进行识别，确定所述目标语音的情绪类别；若所述情绪类别为消极，则基于所述语料库对所述目标语音进行识别，获取和所述目标语音匹配的目标参考语音；基于所述目标参考语音，获取所述目标参考语音包括的目标情绪。

在实际应用场景中，在获取目标语音后，基于语音情绪识别算法对目标语音进行识别，识别用户的情绪，若用户的情绪为消极，则基于目标语音对语料库进行检索，初步获取较为接近的几个参考语音，然后获取几个参考语音中与目标语音最为相似的目标参考语音；若用户的情绪不是消极，则不对目标语音进行后续的处理。

一般地，目标参考语音所包含的目标情绪涉及几种情绪，例如：愤怒、沮丧、自闭、紧张、憎恨以及焦虑等。

其中，基于语料库对所述目标语音进行识别，获取和所述目标语音匹配的目标参考语音，包括如下公式：

式中，x_i为用户回复的语音的向量的分量，y_i为参考语音的向量的分量，n为向量中分量的个数。

本发明的上述实施例以矢量化余弦距离，计算出目标语音与语料库的语音的余弦值，进而获取与目标语音最为相似的目标参考语音。

其中，当计算获得的余弦值越接近1或-1，则表明目标参考语音与目标语音越相似，余弦值越接近于0，则表明目标参考语音与目标语音越不相似。

在实际应用场景中，可以通过以下步骤获取目标参考语音：

(1)找出目标参考语音以及目标语音的关键词；

(2)目标参考语音以及目标语音各取出若干个关键词，合并成一个集合，计算目标参考语音以及目标语音对于这个集合中的词的词频；例如，出现过一次、两次等；

(3)生成目标参考语音以及目标语音各自的词频向量；

(4)计算两个向量的余弦相似度，值越接近1或-1就表示越相似。

例如：对目标参考语音以及目标语音进行分词(获取语音中的关键词)、列出所有的关键词、计算关键词频然后获取关键词频向量：

目标语音的向量(x₁,x₂,x₃，,x₄,x₅,x₆)；

第一目标参考语音的向量(y₁,y₂,y₃，,y₄,y₅,y₆)；

第二目标参考语音的向量(y₇,y₈,y₉，,y₁₀,y₁₁,y₁₂)；

第三目标参考语音的向量(y₁₃,y₁₄,y₁₅，,y₁₆,y₁₇,y₁₈)；

然后，计算目标语音的向量与目标参考语音的向量的相似度；

并将上述目标语音的向量与第一目标参考语音、目标语音的向量与第二目标参考语音、目标语音的向量与第三目标参考语音，分别代入公式，计算获取的余弦值分别为0.89、0.91、0.66，则表明目标语音与第二参考语音的相似度较大，也即第二参考语音为目标参考语音。

然后基于语料库，获取目标参考语音包含的几种情绪(例如：愤怒、烦躁、焦虑等)，并基于语料库获取这几种情绪各自对应的权重值以及特征值。

本发明的实施例，通过将推送算法结合到语音情绪识别技术上，给可能受到诈骗的用户推送更适合的劝阻话术，实现了更好的劝阻效果；同时，避免了劝阻话术统一而造成的不能针对性劝阻的问题；此外，二次劝阻也大大降低了语音情绪识别算法出现误判的概率。

步骤S3：基于算法模型，获取所述目标情绪的目标值；

具体的，获取所述阈值以及权重值的方法，包括：建立语料库，所述语料库包括多个训练样本；对多个所述训练样本进行训练，获取每种参考情绪的权重值以及特征值；基于每种所述参考情绪的权重值以及特征值，获取每个所述训练样本的阈值。

其中，本发明的实施例算法模型在对用户回复的语音进行检测之前，已经建立好，以便于节省获取目标情绪的目标值的时间成本，此外，可以根据需要对语料库实时进行更新，以便于提高适用性。

在实际应用场景中，利用神经网络常用的M-P算法(或神经网络的M-P模型)对多个训练样本进行学习训练。

例如，设置训练次数为100次(可以根据实际进行设定)，并对多个训练样本(某段带有消极情绪的语音)进行训练，获取每个训练样本所包含的情绪，并记录训练好每种情绪对应的权重值，以及每个训练样本对应的阈值，并将权重值标注在语料库的对应情绪上，以便于后续调取使用。

本发明的实施例，上述M-P算法等还可以不断优化每种情绪对应的权重值和阈值，进而使得获取的目标值更加精准，获取的阈值也更具有参考价值，在提高推送话术的准确性的同时，提高用户的体验。

其中，所述基于算法模型，获取所述目标情绪的目标值，包括：

可选的，所述算法模型包括如下公式：

式中：j为神经元，χ_i为特征值；

为权重值，netj为输出的目标值。

具体的，在算法模型中，权重值对全部的特征值，基于其对应的权重值进行累加整合，输出目标值。

例如，在语料库中，根据M-P算法训练的结果，“请您不要着急，咱们慢慢心平气和地谈。”这一劝阻话术的阈值为2，目标语音经过上述公式计算，获取目标情绪，目标情绪包括愤怒、烦躁、焦虑情绪，其中，各个情绪对应的权重值分为0.2、0.2、0.6，将目标情绪所包括的各个情绪对应的权重值以及目标语音的信号，带入上述公式，可得目标语音的目标值为2.1，可知，目标语音的目标值大于阈值，因此会给用户推送这一“请您不要着急，咱们慢慢心平气和地谈。”劝阻话术。

在语料库中，根据M-P算法训练的结果，“您不要把话压在心里，有什么话您可以跟我说，我会耐心倾听。”这一劝阻话术的阈值为3，若目标语音经过上述公式计算，获取目标情绪，目标情绪包括自闭和沮丧，其中，各个情绪对应的权重值分别是：0.6，0.4，将目标情绪所包括的各个情绪对应的权重值以及特征值，代入上述公式，可得目标语音的目标值为3.2，可知，目标语音的目标值大于阈值，则通过上述算法最后推送的劝阻话术可能就是：“您不要把话压在心里，有什么话您可以跟我说，我会耐心倾听。”这类的话术。

本发明的实施例，基于不同的目标语音，匹配不同的目标参考语音，因而实现了根据用户的情绪的不同推送不同的劝阻话术，起到了更好的劝阻效果。

本发明一可选的实施例，还可以基于BP算法对目标语音所包括的各个情绪对应的特征值以及权重值处理，得到目标值；本发明的实施例对BP算法的具体执行过程不做具体限定。

步骤S4：将所述目标值与阈值进行对比，确定推送的目标话术。

具体的，所述将所述目标值与阈值进行对比，确定推送的目标话术，包括：

将所述目标值与所述阈值进行对比，获取对比结果；

其中，在语料库中，每个参考语音均对应一个阈值，每个参考语音对应一个劝阻话术，若计算获得的目标语音的目标值大于目标参考语音的阈值，则将与目标参考语音匹配的劝阻话术推送给用户；若计算获得的目标语音的目标值不大于目标参考语音的阈值，则不将与目标参考语音匹配的劝阻话术，推送给用户。

此外，M-P算法可以基于设置不断对语料库或者不断获取新的训练样本，对多个训练样本进行训练，以实现对语料库中的每个情绪对应的权重值以及阈值进行更精准地优化。

本发明的实施例，在判断第一次劝阻话术劝阻失败后，会采集用户回复的语音，并对其进行情绪识别处理，再对消极情绪的进行分类细化，并通过语料库检索算法，对应的赋予每种消极情绪对应的权重值，再通过算法，计算是否达到相应劝阻话术的阈值，若达到则推荐对应的劝阻话术，实现了反诈骗系统和推荐算法相结合，针对将用户语音细化后的情绪，对应的推荐相适应的劝阻话术。

如图2所示，本发明的实施例还提供一种基于语音情绪的话术推送装置200，包括：

检测模块201，用于对用户回复的语音进行检测，获取目标语音；

识别模块202，用于对所述目标语音进行识别，获取所述目标语音所包含的目标情绪；

计算模块203，用于基于算法模型，获取所述目标情绪的目标值；

推送模块204，用于将所述目标值与阈值进行对比，确定推送的目标话术。

本发明一可选的实施例，上述装置，还包括语料库检索算法，用于计算目标语音与参考语音的相似度，进而确定目标参考语音。

本发明一可选的实施例，上述装置，还包括目标值计算模块，用于计算目标情绪的特征值及权重值之积的之和，并输出目标值。

可选的，获取所述阈值以及权重值的方法，包括：

建立语料库，所述语料库包括多个训练样本；

对多个所述训练样本进行训练，获取每种参考情绪的权重值以及特征值；

基于每种所述参考情绪的权重值值以及特征值，获取每个所述训练样本的阈值。

对所述目标语音进行识别，确定所述目标语音的情绪类别；

若所述情绪类别为消极，则基于所述语料库对所述目标语音进行识别，获取和所述目标语音匹配的目标参考语音；基于所述目标参考语音，获取所述目标参考语音包括的目标情绪。

可选的，基于语料库对所述目标语音进行识别，获取和所述目标语音匹配的参考语音，包括如下公式：

可选的，所述算法模型包括如下公式：

式中：j为神经元，χ_i为特征值；

为权重值，netj为输出的目标值。

将所述目标值与所述阈值进行对比，获取对比结果；

若所述对比结果为所述目标值大于所述阈值，则将与所述参考语音匹配的话术推送给所述用户；

另外，本发明实施例的设备的其他构成及作用对本领域的技术人员来说是已知的，为减少冗余，此处不做赘述。

需要说明的是，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于语音情绪的话术推送方法，其特征在于，包括：

对用户回复的语音进行检测，获取目标语音；

基于算法模型，获取所述目标情绪的目标值；

将所述目标值与阈值进行对比，确定推送的目标话术。

2.根据权利要求1所述的方法，其特征在于，在对用户回复的语音进行检测，获取目标语音之前，还包括：

建立语料库，所述语料库包括多个训练样本；

3.根据权利要求2所述的方法，其特征在于，所述对所述目标语音进行识别，获取所述目标语音所包含的目标情绪，包括：

对所述目标语音进行识别，确定所述目标语音的情绪类别；

4.根据权利要求3所述的方法，其特征在于，基于语料库对所述目标语音进行识别，获取和所述目标语音匹配的目标参考语音，包括如下公式：

5.根据权利要求3所述的方法，其特征在于，所述基于算法模型，获取所述目标情绪的目标值，包括：

6.根据权利要求2所述的方法，其特征在于，所述算法模型包括如下公式：

式中：j为神经元，χ_i为特征值；

为权重值，netj为输出的目标值。

7.根据权利要求3所述的方法，其特征在于，所述将所述目标值与阈值进行对比，确定推送的目标话术，包括：

将所述目标值与所述阈值进行对比，获取对比结果；

8.一种基于语音情绪的话术推送装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的方法。