CN116883888A

CN116883888A - 基于多模态特征融合的银行柜面服务问题溯源系统及方法

Info

Publication number: CN116883888A
Application number: CN202310660431.XA
Authority: CN
Inventors: 王新宇; 李剑锋; 王云楠; 吴骏航; 吴疆; 王心雨; 王思维; 王宁; 王海涵; 龙璇; 王诗健
Original assignee: Bank of Communications Co Ltd
Current assignee: Bank of Communications Co Ltd
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-10-13

Abstract

本发明涉及一种基于多模态特征融合的银行柜面服务问题溯源系统及方法，其中，系统包括：视频输入单元，用于采集客户上半部分身体信息；音频输入单元，用于采集客户与柜员办理业务过程中的语音信息；数据分析与存储模块，用于实时接收视频与音频输入单元采集的数据流，分析客户满意度评分并进行存储，数据分析与存储模块包括人体检测模型、语音识别模型、多模态情感分类模型、综合评分单元与数据存储单元；所述数据存储单元用于存储相关数据；银行网络，用于实现各个单元和模块之间的通讯。与现有技术相比，本发明具有评价结果客观、准确等优点。

Description

基于多模态特征融合的银行柜面服务问题溯源系统及方法

技术领域

本发明涉及多模态情感分析领域，尤其是涉及一种基于多模态特征融合的银行柜面服务问题溯源系统及方法。

背景技术

随着我国经济的飞速发展,各大商业银行的金融业务不断扩展，市场竞争日趋激烈。银行作为商业服务组织，服务是营销的基础，是连接产品和市场的桥梁和纽带，卓越的服务品质不仅是市场经济发展对银行提出的具体要求，也正逐渐成为一家银行核心竞争力的重要内容之一，在很大程度上影响着其未来的发展前景。银行柜面作为向客户直接提供各类服务的重要渠道之一，其服务质量对于提升企业形象、增强客户信任与满意度至关重要，受到各大商业银行的重视。

客户满意度是衡量银行服务质量的重要指标，客户的评价与建议可作为市场驱动质量的一种手段，为银行提高服务质量提供重要依据。为收集客户评价与建议，各大商业银行常采用的传统方法包括：通过柜面处的评价器或者电子屏幕，让客户对柜员的服务进行打分或者选择满意度等级；通过电话、短信、邮件、微信等渠道，以随机抽样方式向客户发送满意度调查问卷，了解客户对柜面服务的意见和建议；通过柜面处意见箱或者留言板，收集客户的意见和投诉。然而这些方式在一定程度上需要耽误客户的宝贵时间，较多客户评价意愿低，难以深入调研客户不满意的地方，导致无法了解客户的真实需求与满意度，另一方面，传统评价方式无法对业务流程中出现的问题进行追踪溯源，无法在后续对相应柜员提出有针对性的服务改进意见。

申请公布号为CN109801096A的专利提供了一种多模态客户满意度综合评价系统、方法。该系统利用数据获取模块，至少获取客户人体姿态信息、面部表情信息、文本信息及语音信息的一项或多项，接着使用多个深度学习模型分别识别肢体动作、面部表情、语音进行情绪分析，最终分配不同权重等级，加权获取综合评分。然而该方法仍存在以下问题：1)该方法用于业务办理完成后的客户评价阶段，针对业务整体流程进行评价，未顾及对业务流程中的客户评价进行分析，无法对具体问题进行定位；2)使用了包括人脸检测、面部表情识别、姿态识别、语音内容识别、语音情绪识别在内的多个模型分别进行评分，加权获取综合评分，为应对只能获取到其中部分数据的情况，设计了多种权重方案，其复杂度较高且难以顾及所有情况。

申请公布号为CN103310373A的专利提供了一种基于音频、视频识别的银行柜面服务评价系统及方法，通过视频、音频采集设备获取客户办理业务时的视频、音频，分别输入使用典型样本训练好的SVM分类器识别模块，输出基于视频与音频的服务效率评价结果、服务质量评价结果、服务态度评价结果，将这三个数据加权求和得到服务评价得分，最后将视频与音频加权求和得到综合服务评价。但该方法存在以下问题：1)该方法对整体业务流程给出最终的综合评分，未考虑对流程中的每个具体环节进行评分，无法准确定位问题的位置；2)未考虑客户与柜员的具体对话内容，且分别对视频与音频数据预测评分，而忽略了两者的关联；3)在对话内容增长时，SVM分类器的预测准确率将急剧降低。

发明内容

本发明的目的是为了提供一种基于多模态特征融合的银行柜面服务问题溯源系统及方法，结合多种模态数据识别客户情绪，以判断客户在服务过程中每轮对话的满意程度，可以实现自动化且全面地记录业务流程中客户对于柜员服务的低评价片段，有利于节省客户等待时间，减少传统评价方法中工作人员收集分析客户反馈的工作量，并且存储的大量对话文本信息可用于后续统计分析，为业务流程问题溯源、优化服务质量提供客观依据。

本发明的目的可以通过以下技术方案来实现：

一种基于多模态特征融合的银行柜面服务问题溯源系统，包括：

视频输入单元，用于采集客户上半部分身体信息；

音频输入单元，用于采集客户与柜员办理业务过程中的语音信息；

数据分析与存储模块，用于实时接收视频与音频输入单元采集的数据流，分析客户满意度评分并进行存储，所述数据分析与存储模块包括人体检测模型、语音识别模型、多模态情感分类模型、综合评分单元与数据存储单元，其中，所述人体检测模型通过实时检测视频流中的人体信息，用于判断是否有客户来到柜台办理业务；所述语音识别模型用于对音频输入单元采集到的音频流数据进行转换，输出相应的文本数据；所述多模态情感分类模型融合客户视频、音频与语音转换后的文本信息三种模态特征进行分析，用于实时预测客户与柜员每句对话的情感类别；所述综合评分单元利用多模态情感分类模型输出的情感类别概率分布，以加权求和方式综合计算客户说出每句话时的分数，作为综合客户满意度评分；所述数据存储单元用于存储相关数据，以便后续针对服务问题进行溯源；

银行网络，用于实现视频输入单元、音频输入单元与数据分析与存储模块之间的通讯，将视频与音频流实时传输至服务器。

所述数据分析与存储模块部署于GPU服务器或嵌入式AI平台，视频、音频输入单元通过银行有线或无线局域网络和数据分析与存储模块连接，将采集的视频与音频数据实时传输至该模块进行分析。

所述数据存储单元记录的信息包括柜员工号，业务流水号，日期时间，客户与柜员的完整对话语音与文本内容、相应的满意度评分与起始终止时间。

所述多模态情感分类模型采用包含视频、音频与文本标签的中文多模态情感分析数据集CH-SIMS进行训练。

所述多模态情感分类模型采用多路多模态注意力网络模型。

所述多模态情感分类模型执行以下步骤：

获取输入的原始视频、音频与文本数据并进行预处理，提取相应特征，转换为特征矩阵；

将经过特征提取后的视频、音频与文本特征张量输入预训练的多路多模态注意力网络模型，通过计算多路注意力张量，利用特征之间的关联与差异对关键部分赋予更高权重，多层叠加逐步实现多种模态特征的深层聚合，并通过分类器输出综合多种信息后的情感类别预测结果。

所述多模态情感分类模型的特征提取方法具体为：

对于视频数据，以30Hz频率进行采样，采用面部表情分析工具Facet提取包括面部动作单元、面部标志、头部姿势、凝视追踪、HOG在内的多种特征；

对于音频数据，使用开源工具包COVAREP提取声音特征，包括梅尔倒谱系数MFCCs、音高追踪、声门闭合即刻检测；

对于文本数据，采用GloVe词向量进行编码。

所述多模态情感分类模型的分类器将输出11种情感类别的概率分布，其总和为1，对应的类别标签分别为：{-1.0,-0.8,-0.6,-0.4,-0.2,0.0,0.2,0.4,0.6,0.8,1.0}，其中，负面为{-1.0,-0.8}，弱负面为{-0.6,-0.4,-0.2}，中性为{0.0}，弱正面为{0.2,0.4,0.6}，正面为{0.8,1.0}。

所述综合评分单元计算客户满意度评分的方法为：

其中，E表示情感类型标签值，P表示预测概率值，n代表可预测的情感类别总数。

一种基于多模态特征融合的银行柜面服务问题溯源方法，包括以下步骤：

S1：启动视频输入单元采集视频流，输入至数据分析与存储模块，利用人体检测模型的检测结果确定是否有客户来到柜台办理业务，若有客户来到柜台办理业务，执行步骤S2；

S2：启动音频输入单元，采集客户与柜员对话音频，并输入至数据分析与存储模块，利用语音识别模型将音频数据转换为相应对话文本信息；

S3：数据分析与存储模块将视频、语音与文本信息输入至多模态情感分类模型，以一句话为单位预测客户的情感类别，输出情感类别概率分布；

S4：利用综合评分单元结合情感类别概率分布计算客户办理业务过程中每句对话的综合客户满意度评分；

S5：利用存储单元存储步骤S1-S4中获取或生成的相关数据，以供后续分析与查找；

S6：判断此轮业务办理是否结束，若是，则关闭音频输入单元，并返回步骤S1进行持续监测。

与现有技术相比，本发明具有以下有益效果：

(1)本发明结合多种模态数据识别客户情绪，以判断客户在服务过程中每轮对话的满意程度，可以实现自动化且全面地记录业务流程中客户对于柜员服务的低评价片段，有利于节省客户等待时间，减少传统评价方法中工作人员收集分析客户反馈的工作量，并且存储的大量对话文本信息可用于后续统计分析，为业务流程问题溯源、优化服务质量提供客观依据。

(2)本发明可以对流程中的每个具体环节，乃至于每一句话进行评分，准确定位问题的位置。

(3)本发明采用多模态融合的方式对视频、音频、文本进行特征融合，得到预测评分，紧密考虑了三者之间的关联，预测结果准确度高。

附图说明

图1为本发明的系统结构示意图；

图2为本发明的方法流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施例提供一种基于多模态特征融合的银行柜面服务问题溯源系统，如图1所示，包括：

(1)视频输入单元，布置于银行柜面客户一侧，用于采集客户上半部分身体信息。

本实施例中，视频输入单元由设置于银行网点柜面的多个摄像头组成，每处柜面设置一个朝向客户的摄像头，可选用IP网络摄像机接入本地局域网，用来采集客户办理业务过程中的视频数据，只需拍摄到客户上半身即可。各个摄像头可设置在营业时间开启，非营业时间关闭，无需在每个客户到来时手动开启。

(2)音频输入单元，分别布置于客户与柜员一侧，用于采集客户与柜员办理业务过程中的语音信息。

本实施例中，若视频输入单元中的摄像头采用可同时录制音频的型号，则无需在客户侧额外另设麦克风。

(3)数据分析与存储模块，部署于GPU服务器或嵌入式AI平台，用于实时接收视频与音频输入单元采集的数据流，分析客户满意度评分并进行存储，便于后续查询分析低评分客户评价。

数据分析与存储模块包括人体检测模型、语音识别模型、多模态情感分类模型、综合评分单元与数据存储单元。

(31)人体检测模型

人体检测模型通过实时检测视频流中的人体信息，用于判断是否有客户来到柜台办理业务。

本实施例中，人体检测模型可使用目前主流的基于CNN卷积神经网络的目标检测模型，由于本实施例对实时性要求不高，可将视频图像每秒抽取若干帧输入利用人体检测数据集训练好的模型中，便可实现人体检测。人体检测模型输出一个包围人体图像的最小外接矩形即人体检测框，检测框的大小及位置即反映了人体的大小与位置。为实现较高的检测准确率，可采用目标检测算法YOLOv7-E6E模型。

(32)语音识别模型

语音识别模型用于对音频输入单元采集到的音频流数据进行转换，输出相应的文本数据。

语音识别模型用于实现将客户与柜员的语音转换为文本，文本识别结果可以为分析客户情感类型提供关键线索，另一方面可用于数据存储，便于后续对大量文本数据统计分析，为改进服务提供建议。语音识别模型可以基于各种成熟的转换工具来实现，如使用Wenet语音识别工具包，该工具包为语音识别提供了一套高性能易部署的工业级解决方案，在准确率与实时性方面都有着非常出色表现。

(33)多模态情感分类模型

多模态情感分类模型融合客户视频、音频与语音转换后的文本信息三种模态特征进行分析，用于实时预测客户与柜员每句对话的情感类别，输出不同情感类别的概率。

本实施例采用包含视频、音频与文本标签的中文多模态情感分析数据集CH-SIMS对多模态情感分类模型进行训练，多模态情感分类模型采用目前具有代表性的多路多模态注意力网络模型multiway multimodal transformer(MMT)。

在输入原始视频、音频与文本数据后，预处理阶段对其进行特征提取，转换为特征矩阵。特征提取方法与MMT一致，对于视频流，以30Hz频率进行采样，用iMotions公司的面部表情分析工具Facet来提取包括面部动作单元、面部标志、头部姿势、凝视追踪、HOG在内的多种特征；对于音频流，使用开源工具包COVAREP提取声音特征，包括梅尔倒谱系数MFCCs，音高追踪，声门闭合即刻检测等等；文本信息用GloVe词向量编码。

编码后的视频、音频与文本特征张量输入预训练的MMT模型，其核心思想是提出了多路多模态注意力，可输入多种模态数据计算多路注意力张量，利用特征之间的关联与差异对其中的关键部分赋予更高权重，多层叠加逐步实现多种模态特征的深层聚合。最终模型在分类器输出综合多种信息后的情感类别预测结果。

使用多模态情感分类模型的优势在于，相比于单模态评价方法，多模态数据为判断客户情感类别提供了更全面的信息，实现更准确的预测。例如记录下客户说“明天再过来”，如果只分析文字，难以确定该场景下客户的真实意图。此时表情、肢体动作与声音语调，可为判断情感类型补充关键信息，假如此时从声音与表情中体现出疑惑的情绪，则可判断为一个疑问句“明天再过来？”。再比如客户在某时间段未讲话，但表情表现出疑惑，则也可以根据视频数据分析出此时的情感类型。

另一方面，过去一些方法使用多个不同模型分别对相应模态信息预测评分，最终以加权求和方式计算综合评分。与此相比，如MMT的多模态情感分类模型，在深层次地融合不同模态特征后，直接预测综合了各种信息的情感类别。在某种模态数据缺失时，前者需要针对不同情况设计相应的权重比例，后者在这种情况下仍可只输入获取的部分数据进行预测，因此工作量与复杂度较低，鲁棒性更高。

多模态情感分类模型的分类器将输出11种情感类别的概率分布，其总和为1，对应的类别标签分别为：{-1.0,-0.8,-0.6,-0.4,-0.2,0.0,0.2,0.4,0.6,0.8,1.0}，其中，负面为{-1.0,-0.8}，弱负面为{-0.6,-0.4,-0.2}，中性为{0.0}，弱正面为{0.2,0.4,0.6}，正面为{0.8,1.0}。

(34)综合评分单元

综合评分单元利用多模态情感分类模型输出的情感类别概率分布，以加权求和方式综合计算客户说出每句话时的分数，作为综合客户满意度评分。计算公式如下：

其中，E表示情感类型标签值，P表示预测概率值，n代表可预测的情感类别总数。评分数值越小，表示客户情感状态越负面。

(35)数据存储单元

数据存储单元用于存储包括柜员工号，业务流水号，日期时间，客户与柜员的完整对话语音与文本内容、相应的满意度评分与起始终止时间在内的相关数据，以便后续针对服务问题进行溯源。本实施例中，对话的起始终止时间可以设置为绝对时间，或以业务开始为起始位置的绝对时间。

为节省存储空间，可选择不保存视频数据。后续数据中心可利用存储的大量文本数据进行统计分析，员工也可查询自己办理的业务中低评分对话历史记录，以此找出服务中存在的普遍问题与员工个人的问题，为提高服务质量提供指导。可使用MongoDB数据库进行存储，存储格式举例如下：

(4)银行网络，用于实现视频输入单元、音频输入单元与数据分析与存储模块之间的通讯，将视频与音频流实时传输至服务器。

本实施例中，数据分析与存储模块视频、音频输入单元通过银行有线或无线局域网络和数据分析与存储模块连接，将采集的视频与音频数据实时传输至该模块进行分析。

本实施例还提供一种基于多模态特征融合的银行柜面服务问题溯源方法，如图2所示，包括以下步骤：

S1：营业时间段内，启动视频输入单元采集视频流，输入至数据分析与存储模块，视频帧采样后输入人体检测模型，当画面中有人出现时，人体检测模型将输出包围人体图像的最小外接矩形，如(x,y,w,h)，其中x和y表示矩形框中心点坐标，w和h表示矩形框长和宽。检测到人体后，需对路过的人与柜台前的人进行区分，由于坐在柜台前的人占据画面比例大，当人体矩形框与图像面积比值大于设定的阈值，且超过一定时间后，可判断有客户来到该处柜台办理业务。若有客户来到柜台办理业务，执行步骤S2。

S2：启动音频输入单元(启动客户与柜员一侧的麦克风)，采集客户与柜员对话音频，同时，生成业务流水号，记录员工号与此时的日期时间等信息，将数据输入至数据分析与存储模块，利用语音识别模型将音频数据转换为相应对话文本信息。

S3：数据分析与存储模块将视频、语音与文本信息输入至多模态情感分类模型，以一句话为单位预测客户的情感类别，输出11种情感类别的概率分布，其总和为1，对应的类别标签分别为：{-1.0,-0.8,-0.6,-0.4,-0.2,0.0,0.2,0.4,0.6,0.8,1.0}。

S4：利用综合评分单元结合情感类别概率分布计算客户办理业务过程中每句对话的综合客户满意度评分。

S5：待评分结束后，利用存储单元将该轮对话语音、文本内容、评分、起始终止时间等信息存入数据库，与相应业务流水号相关联，以待后续数据查询分析。

S6：当画面中检测人体矩形框消失或与图像面积比值大于设定的阈值，且超过一定时间，认为此次业务办理结束，关闭麦克风，返回步骤S1，进行持续监测。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依据本发明的构思在现有技术的基础上通过逻辑分析、推理、或者有限的实验可以得到的技术方案，皆应在权利要求书所确定的保护范围内。

Claims

1.一种基于多模态特征融合的银行柜面服务问题溯源系统，其特征在于，包括：

视频输入单元，用于采集客户上半部分身体信息；

2.根据权利要求1所述的一种基于多模态特征融合的银行柜面服务问题溯源系统，其特征在于，所述数据分析与存储模块部署于GPU服务器或嵌入式AI平台，视频、音频输入单元通过银行有线或无线局域网络和数据分析与存储模块连接，将采集的视频与音频数据实时传输至该模块进行分析。

3.根据权利要求1所述的一种基于多模态特征融合的银行柜面服务问题溯源系统，其特征在于，所述数据存储单元记录的信息包括柜员工号，业务流水号，日期时间，客户与柜员的完整对话语音与文本内容、相应的满意度评分与起始终止时间。

4.根据权利要求1所述的一种基于多模态特征融合的银行柜面服务问题溯源系统，其特征在于，所述多模态情感分类模型采用包含视频、音频与文本标签的中文多模态情感分析数据集CH-SIMS进行训练。

5.根据权利要求1所述的一种基于多模态特征融合的银行柜面服务问题溯源系统，其特征在于，所述多模态情感分类模型采用多路多模态注意力网络模型。

6.根据权利要求5所述的一种基于多模态特征融合的银行柜面服务问题溯源系统，其特征在于，所述多模态情感分类模型执行以下步骤：

7.根据权利要求6所述的一种基于多模态特征融合的银行柜面服务问题溯源系统，其特征在于，所述多模态情感分类模型的特征提取方法具体为：

对于文本数据，采用GloVe词向量进行编码。

8.根据权利要求6所述的一种基于多模态特征融合的银行柜面服务问题溯源系统，其特征在于，所述多模态情感分类模型的分类器将输出11种情感类别的概率分布，其总和为1，对应的类别标签分别为：{-1.0,-0.8,-0.6,-0.4,-0.2,0.0,0.2,0.4,0.6,0.8,1.0}，其中，负面为{-1.0,-0.8}，弱负面为{-0.6,-0.4,-0.2}，中性为{0.0}，弱正面为{0.2,0.4,0.6}，正面为{0.8,1.0}。

9.根据权利要求1所述的一种基于多模态特征融合的银行柜面服务问题溯源系统，其特征在于，所述综合评分单元计算客户满意度评分的方法为：

10.一种基于多模态特征融合的银行柜面服务问题溯源方法，其特征在于，包括以下步骤：