CN116049360A

CN116049360A - 基于客户画像的智能语音对话场景话术干预方法及系统

Info

Publication number: CN116049360A
Application number: CN202211508878.7A
Authority: CN
Inventors: 莫迪; 何平; 陈佳蔚; 张健; 王细雨; 陈安东
Original assignee: Industrial Bank Co Ltd; CIB Fintech Services Shanghai Co Ltd
Current assignee: Industrial Bank Co Ltd; CIB Fintech Services Shanghai Co Ltd
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-05-02

Abstract

本发明提供了一种基于客户画像的智能语音对话场景话术干预方法及系统，包括：进行场景意图识别、实体识别和多轮对话；基于语音和语义进行情绪识别；进行潜在信息标签体系定义和识别；通过接口对接方式，基于客户唯一信息，获取客户的画像信息，并进行存储记录；基于识别客户的场景意图、客户的情绪信息、客户的潜在信息标签和客户画像信息，通过预设话术生成模型生成多个适用的体验话术和推荐值，在每次客户和智能语音交互时随机返回一个体验话术；通过干预范围配置和干预方式配置，对回复话术进行控制。本发明可在客户场景意图回复处理的同时，从已构建的话术库中找到或生成最匹配的话术，整体提升智能语音对话的交互体验。

Description

基于客户画像的智能语音对话场景话术干预方法及系统

技术领域

本发明涉及人工智能技术领域，具体地，涉及一种基于客户画像的智能语音对话场景话术干预方法及系统。

背景技术

智能对话依赖于语义理解和处理，目前已经应用于各行各业，人机对话的方式既降低了各行业的成本，也提升了沟通的效率，提升了用户体验。在金融银行领域已经渗透在多个场景中，如智能语音、智能外呼、短信通知、坐席辅助等应用。其中智能对话应用在智能语音提供7*24服务已经在金融银行领域得到了发展和普及。

但千篇一律的业务回复方式，已经不能满足用户的个性化体验需求，越来越多用户希望在获得客户服务时能够按照用户自身情况和行为轨迹匹配最适合的服务，包括产品推荐、服务引导、服务感知等方面。

专利文献CN111797210A(申请号：CN202010138636.8)公开了一种基于用户画像的信息推荐方法，包括以下步骤：通过日志采集系统Flume实时接收第一场景下的人机对话聊天记录；对聊天记录进行脱敏处理，得到第一数据；对第一数据进行去停用词处理，得到第二数据；通过预置词图提取第二数据的关键词；根据关键词得到第一标签集；对第一标签集数据去重，得到第二标签集；基于第二标签集生成用户兴趣画像，并将用户兴趣画像存储于数据库；接收推荐指令，根据推荐指令获取用户兴趣画像；根据用户兴趣画像获取与推荐指令对应的待推荐信息。

当前领域内基于呼叫中心的智能语音方案中，主要依赖智能对话平台配置提供对话机器人的服务。通常在任务式对话引擎内通过对接业务系统的方式，获取用户画像、交易信息等数据，并根据获取的信息进行简单的维度划分，针对划分后的维度配置不同的话术。虽能够一定程度满足用户需求，但仍存在一些缺点。首先是精细度问题，简单的维护划分在应用一段时间后会逐渐降低用户的体验感知，既不能达到千人千面的体验效果，也无法较好的根据时间和用户行为的积累快速进行调整和应用。其次是对话交付范围的问题，方案主要利用任务式对话可支持业务系统对接的方式进行话术优化，在其他对话引擎如FAQ单轮知识问答、结构化数据问答等能力基础不具备优化能力。再次是配置维护成本问题，要实现在多种对话引擎基础上实现话术优化，除系统方案可支持外还需要运营人员在对应的引擎进行话术的更新配置。同样为长期持续满足业务变化和用户体验需求，也需要运营人员不断在多种对话引擎的话术基础上进行配置调整。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于客户画像的智能语音对话场景话术干预方法及系统。

根据本发明提供的基于客户画像的智能语音对话场景话术干预方法，包括：

步骤1：进行场景意图识别、实体识别和多轮对话；

步骤2：基于语音和语义进行情绪识别；

步骤3：进行潜在信息标签体系定义和识别；

步骤4：通过接口对接方式，基于客户唯一信息，获取客户的画像信息，并进行存储记录；

步骤5：基于识别客户的场景意图、客户的情绪信息、客户的潜在信息标签和客户画像信息，通过预设话术生成模型生成多个适用的体验话术和推荐值，在每次客户和智能语音交互时随机返回一个体验话术；

步骤6：通过干预范围配置和干预方式配置，对回复话术进行控制。

优选的，基于传统机器学习模型，包括朴素贝叶斯模型、支持向量机，或神经网络模型，包括卷积神经网络、循环神经网络，对标注好的训练数据进行分类学习，在识别时将用户新输入的语音信息提取的文字通过分类映射到意图，基于对话流程返回对应的回复话术。

优选的，通过语音语义一体化的多模态深度学习模型，对用户的语音和文本进行分类识别，得到用户的情绪类别，通过语音信号采集和语义理解提取客户在智能语音场景的语音信息中的情感特征。

优选的，对客户在智能语音不同场景实施对话交互过程中存在意图之外的潜在信息创建对应标签；

基于端到端的文本生成模型获取回复话术，所述文本生成模型基于encoder-decoder框架，首先encoder通过LSTM、Transformer神经网络对输入信息进行编码，在生成阶段，decoder综合encoder的信息和已经生成的文本信息，生成下一句内容。

优选的，干预范围：指定干预的知识范围，包括任务式会话、FAQ问答、闲聊和第三方引擎；

干预条件：为节点条件设置，选择内容包括：态度：肯定、否定、无态度；情绪：积极、消极、中立；画像标签：系统内置城市、性别、年龄、职业类型，支持客户接口自定义标签；

干预动作：支持添加句子前后缀和输出固定回复；

在多个规则之间根据顺序调节优先级，若启用多个规则，则依次做条件判断，规则支持移动、拖动，实现不同业务、不同场景下的具体需求。

根据本发明提供的基于客户画像的智能语音对话场景话术干预系统，包括：

场景意图对话模块：进行场景意图识别、实体识别和多轮对话；

多模情绪识别模块：基于语音和语义进行情绪识别；

潜在信息标签模块：进行潜在信息标签体系定义和识别；

客户画像对接模块：通过接口对接方式，基于客户唯一信息，获取客户的画像信息，并进行存储记录；

体验话术生成模块：基于识别客户的场景意图、客户的情绪信息、客户的潜在信息标签和客户画像信息，通过预设话术生成模型生成多个适用的体验话术和推荐值，在每次客户和智能语音交互时随机返回一个体验话术；

话术干预配置模块：通过干预范围配置和干预方式配置，对回复话术进行控制。

优选的，所述场景意图对话模块包括：基于传统机器学习模型，包括朴素贝叶斯模型、支持向量机，或神经网络模型，包括卷积神经网络、循环神经网络，对标注好的训练数据进行分类学习，在识别时将用户新输入的语音信息提取的文字通过分类映射到意图，基于对话流程返回对应的回复话术。

优选的，所述多模情绪识别模块包括：通过语音语义一体化的多模态深度学习模型，对用户的语音和文本进行分类识别，得到用户的情绪类别，通过语音信号采集和语义理解提取客户在智能语音场景的语音信息中的情感特征。

优选的，所述潜在信息标签模块包括：对客户在智能语音不同场景实施对话交互过程中存在意图之外的潜在信息创建对应标签；

所述体验话术生成模块包括：基于端到端的文本生成模型获取回复话术，所述文本生成模型基于encoder-decoder框架，首先encoder通过LSTM、Transformer神经网络对输入信息进行编码，在生成阶段，decoder综合encoder的信息和已经生成的文本信息，生成下一句内容。

优选的，所述话术干预配置模块包括：

干预范围：指定干预的知识范围，包括任务式会话、FAQ问答、闲聊和第三方引擎；

干预动作：支持添加句子前后缀和输出固定回复；

与现有技术相比，本发明具有如下的有益效果：

(1)本发明将行内现有的会话数据进一步数据化、结构化，并提供了对应的标签体系，实现更精细的客户分类；

(2)本发明利用NLP技术提高了银行客户使用电话银行办理业务的用户体验，实现了“千人千面”的个性化交互服务，最大限度的提升了客户转化率和客户满意度；

(3)本发明支持模型生成话术和规则配置，基于这两种干预策略的模式可以更好的兼顾干预话术的效果和可控性；支持全链路客服场景的干预策略配置，集中统一管理，有效降低全局策略管理难度，提升运营效率；

(4)本发明提供基于金融行业场景的内置数据，在金融行业的通用场景基础上提供场景意图、情绪信息、潜在标签的理解识别能力，和对应的干预策略，可大幅降低启动阶段的配置成本；

(5)本发明在智能语音场景接收到客户的语音信息后，识别客户的场景意图、客户的情绪信息、客户的潜在信息标签，同时结合客户画像进行综合分析，在客户场景意图回复处理的同时，从已构建的话术库中找到或生成最匹配的话术，整体提升智能语音的交互体验。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的基本业务流程图；

图2为本发明的系统架构图；

图3为业务场景案例图；

图4为意图识别模型训练流程图；

图5为实体识别模型训练流程图；

图6为情绪识别流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1：

本发明提供了一种基于客户画像的智能语音对话场景话术干预方法，包括：步骤1：进行场景意图识别、实体识别和多轮对话；步骤2：基于语音和语义进行情绪识别；步骤3：进行潜在信息标签体系定义和识别；步骤4：通过接口对接方式，基于客户唯一信息，获取客户的画像信息，并进行存储记录；步骤5：基于识别客户的场景意图、客户的情绪信息、客户的潜在信息标签和客户画像信息，通过预设话术生成模型生成多个适用的体验话术和推荐值，在每次客户和智能语音交互时随机返回一个体验话术；步骤6：通过干预范围配置和干预方式配置，对回复话术进行控制。

基于传统机器学习模型，包括朴素贝叶斯模型、支持向量机，或神经网络模型，包括卷积神经网络、循环神经网络，对标注好的训练数据进行分类学习，在识别时将用户新输入的语音信息提取的文字通过分类映射到意图，基于对话流程返回对应的回复话术。

通过语音语义一体化的多模态深度学习模型，对用户的语音和文本进行分类识别，得到用户的情绪类别，通过语音信号采集和语义理解提取客户在智能语音场景的语音信息中的情感特征。

对客户在智能语音不同场景实施对话交互过程中存在意图之外的潜在信息创建对应标签；基于端到端的文本生成模型获取回复话术，所述文本生成模型基于encoder-decoder框架，首先encoder通过LSTM、Transformer神经网络对输入信息进行编码，在生成阶段，decoder综合encoder的信息和已经生成的文本信息，生成下一句内容。

干预动作：支持添加句子前后缀和输出固定回复；

实施例2：

实施例2为实施例1的优选例。

本发明提供了一种基于客户画像的智能语音对话场景话术优化系统，在智能语音对话场景接收到客户的语音信息后，识别客户的场景意图、客户的情绪信息、客户的潜在信息标签，同时结合客户画像进行综合分析，在客户场景意图回复处理的同时，从已构建的话术库中找到或生成最匹配的话术，整体提升智能语音对话的交互体验。

通过采用在智能语音场景接收到客户的语音信息后，对识别到的场景意图、客户情绪信息、客户潜在信息标签和客户画像的建模分析，在满足场景需求的同时，从而能够回复最优的体验话术。

通过采用话术生成模型，以当前客户的场景意图、客户情绪信息、客户潜在信息标签和客户画像作为输入，生成面向不同客户的体验话术，从而减少原有模型需要人工配置话术库的成本。其中话术生成模型是基于银行行业相关数据预训练的行业大模型，具有更好的效果。

通过采用UNIT对话干预交互机制，可以在当前客户场景意图的基础上干预优化原有话术，针对不同场景、不同知识，在不影响原有回复内容的基础上增加干预后的体验话术，从而实现了在实际业务场景下为客户提供千人千面的引导、安抚、种草等体验话术的能力。

如图1，本发明分为数据采集与处理、模型生成、对话干预应用三个阶段，在对话干预阶段，可以生成来电预判话术，也可以在人机通过过程中，根据用户的情绪、画像信息生成个性话术。

如图2，为本发明的系统架构图，结合云原生技术进行开发、部署，保障系统的高可用、高性能、易运维。

如图3，为本发明的业务场景案例，根据用户的画像信息和业务办理信息，为用户提供量身定制的服务，以加速业务受理，提升用户满意度。

本发明提供了一种基于客户画像的智能语音场景话术干预系统，包括：

场景意图对话模块，包括场景意图识别、实体识别和多轮对话流程；基于已配置的场景意图、实体和对话流程进行对应的模型训练，在接收到在智能语音场景接收到客户的语音信息后，通过模型识别客户的意图、实体，基于对话流程返回对应的回复话术。客户意图识别本质是分类问题，分类问题的输入是一个样本，输出是一个类别。通过标注好的训练数据学习分类模型，在识别的时候，将用户新输入的语音信息提取的文字通过分类模型映射到意图。模型一般可以选取传统机器学习模型，例如朴素贝叶斯模型(Naive Bayes)、支持向量机(SVM)等，也可以选取神经网络模型，例如卷积神经网络(CNNS)、循环神经网络(RNN)等。

如图4，为意图识别模型训练过程，对于标注好的样本做预处理之后，进行模型训练，产出分类模型；对于需要识别的新样本，同样经过预处理之后，基于训练好的模型进行意图识别。

实体识别本质是序列标注问题，序列标注问题的输入是一个观测序列，输出是一个标记序列或状态序列。通过标注好的训练样本学习一个模型，在识别的时候，输入新的观测序列输出标记序列。模型一般可以选取传统机器学习模型，例如隐马尔可夫模型(HMM)、条件随机场(CRF)，也可以选取神经网络模型，例如长短期记忆网络(LSTM)等。

如图5，是实体识别模型训练过程，对于标注好的样本做预处理之后，进行模型训练，产出序列标注模型；对于需要识别的新样本，同样经过预处理之后，基于训练好的模型进行序列标注识别实体。

多模情绪识别模块，包括基于语音和语义的情绪识别；通过语音信号采集和语义理解提取客户在智能语音场景的语音信息中的情感特征，多模情绪识别可以定义银行行业场景情感特征，具备训练和预测该情感特征的模型能力。多模情绪识别本质是一个分类任务，根据对话系统的特性，整体策略采用层级化模型结构模型，各模型通过语音语义一体化的多模态深度学习模型，对用户输入的语音和文本进行分类识别用户的情绪，例如愉快、感谢、抱怨、愤怒、厌恶等。

如图6，是情绪识别的过程，对于输入的语音和文字，基于多模态深度学习模型先做情感的正负向识别，再继续细分到用户情绪。例如”谢谢！”先被识别为正向情感，再在正向情感里面细分识别成感谢。

潜在信息标签模块，包括潜在信息标签体系定义和识别；所谓潜在信息主要是指客户在智能语音不同场景实施对话交互过程，存在意图之外的一些潜在信息，如在咨询理财产品场景，反复咨询理财知识，那么可以对该客户打上『理财知识欠缺』的潜在信息标签。

客户画像对接模块，主要包括获取画像信息；接口对接方式，基于客户唯一信息作为输入，实时返回客户的画像信息，并进行存储记录。

体验话术生成模块，主要包括体验话术生成能力；基于识别客户的场景意图、客户的情绪信息、客户的潜在信息标签和客户画像信息，由话术生成模型生成多个适用的体验话术和推荐值，可以在每次客户和智能语音交互时随机返回一个体验话术。话术生成模型本质上是一个端到端的文本生成模型，输入是上文信息、当前场景、客户情绪等，输出是回复话术。模型基于encoder-decoder框架，首先encoder通过LSTM、Transformer等对输入信息进行编码，在生成阶段，decoder综合encoder的信息和已经生成的文本信息，生成下一句的内容。

话术干预配置模块，是对回复话术进行有效的控制，避免出现风险，包括干预范围配置和干预方式配置；在人机对话过程中，机器人回复内容是统一配置、千篇一律的。答案生成干预可实现回复内容动态调整，根据用户情绪、态度、标签的不同，对标准回复内容进行干预，在不改变回复原意的前提下实现个性化回复，提高用户满意度。整体包括三个部分，干预范围：可指定此规则能干预的知识范围，包括：任务式会话、FAQ问答、闲聊、第三方引擎。干预条件：类似于节点条件设置，支持普通模式的和高级模式，可选择内容包括：态度-肯定、否定、无态度，情绪-积极、消极、中立，画像标签-系统内置城市、性别、年龄、职业类型，支持客户接口自定义标签。干预动作：支持添加句子前后缀、输出固定回复。在干预配置模块可以选择对具体一个或多个场景意图进行干预，也可以选择该意图场景进行干预的具体对话流程节点，干预范围可便捷控制体验话术策略的影响范围；在干预方式配置中可以选择直接答复和在原话术前后答复，干预方式可以更好的控制在不同场景意图对话流程节点。多个规则之间根据顺序调节优先级，若启用多个可以依次做条件判断，规则支持移动、拖动，实现不同业务、不同场景下的具体需求。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于客户画像的智能语音对话场景话术干预方法，其特征在于，包括：

步骤1：进行场景意图识别、实体识别和多轮对话；

步骤2：基于语音和语义进行情绪识别；

步骤3：进行潜在信息标签体系定义和识别；

2.根据权利要求1所述的基于客户画像的智能语音对话场景话术干预方法，其特征在于，基于传统机器学习模型，包括朴素贝叶斯模型、支持向量机，或神经网络模型，包括卷积神经网络、循环神经网络，对标注好的训练数据进行分类学习，在识别时将用户新输入的语音信息提取的文字通过分类映射到意图，基于对话流程返回对应的回复话术。

3.根据权利要求1所述的基于客户画像的智能语音对话场景话术干预方法，其特征在于，通过语音语义一体化的多模态深度学习模型，对用户的语音和文本进行分类识别，得到用户的情绪类别，通过语音信号采集和语义理解提取客户在智能语音场景的语音信息中的情感特征。

4.根据权利要求1所述的基于客户画像的智能语音对话场景话术干预方法，其特征在于，对客户在智能语音不同场景实施对话交互过程中存在意图之外的潜在信息创建对应标签；

5.根据权利要求1所述的基于客户画像的智能语音对话场景话术干预方法，其特征在于，干预范围：指定干预的知识范围，包括任务式会话、FAQ问答、闲聊和第三方引擎；

干预动作：支持添加句子前后缀和输出固定回复；

6.一种基于客户画像的智能语音对话场景话术干预系统，其特征在于，包括：

多模情绪识别模块：基于语音和语义进行情绪识别；

潜在信息标签模块：进行潜在信息标签体系定义和识别；

7.根据权利要求6所述的基于客户画像的智能语音对话场景话术干预系统，其特征在于，所述场景意图对话模块包括：基于传统机器学习模型，包括朴素贝叶斯模型、支持向量机，或神经网络模型，包括卷积神经网络、循环神经网络，对标注好的训练数据进行分类学习，在识别时将用户新输入的语音信息提取的文字通过分类映射到意图，基于对话流程返回对应的回复话术。

8.根据权利要求6所述的基于客户画像的智能语音对话场景话术干预系统，其特征在于，所述多模情绪识别模块包括：通过语音语义一体化的多模态深度学习模型，对用户的语音和文本进行分类识别，得到用户的情绪类别，通过语音信号采集和语义理解提取客户在智能语音场景的语音信息中的情感特征。

9.根据权利要求6所述的基于客户画像的智能语音对话场景话术干预系统，其特征在于，所述潜在信息标签模块包括：对客户在智能语音不同场景实施对话交互过程中存在意图之外的潜在信息创建对应标签；

10.根据权利要求6所述的基于客户画像的智能语音对话场景话术干预系统，其特征在于，所述话术干预配置模块包括：

干预动作：支持添加句子前后缀和输出固定回复；