CN110689052B - 会话消息处理方法、装置、计算机设备和存储介质 - Google Patents

会话消息处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110689052B
CN110689052B CN201910844582.4A CN201910844582A CN110689052B CN 110689052 B CN110689052 B CN 110689052B CN 201910844582 A CN201910844582 A CN 201910844582A CN 110689052 B CN110689052 B CN 110689052B
Authority
CN
China
Prior art keywords
session
conversation
picture
pixel value
following
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910844582.4A
Other languages
English (en)
Other versions
CN110689052A (zh
Inventor
韩铃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN201910844582.4A priority Critical patent/CN110689052B/zh
Publication of CN110689052A publication Critical patent/CN110689052A/zh
Application granted granted Critical
Publication of CN110689052B publication Critical patent/CN110689052B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/333Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/36Matching; Classification

Abstract

本申请涉及一种会话消息处理方法、装置、计算机设备和存储介质。所述方法包括:监听用于答复上文会话消息的下文会话图片;识别下文会话图片的绘图轨迹;将下文会话图片中绘图轨迹经过的像素点的像素值确定为第一像素值,绘图轨迹未经过的像素点的像素值确定为第二像素值;提取完成像素值更新的下文会话图片中每个绘图笔画的图形特征;对多个绘图笔画的图形特征进行融合,得到下文会话图片的序列特征;基于下文会话图片的序列特征与上文会话消息对应参考讲解图的序列特征的相似度进行会话监控。采用本方法能够适用于对图片会话消息进行监控。

Description

会话消息处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及通信技术领域,特别是涉及一种会话消息处理方法、装置、计算机设备和存储介质。
背景技术
随着通信技术的发展,出现了很多可以发起会话的应用,用户可通过这些应用实现与真实的用户或虚拟用户对象之间的通信交流。其中,虚拟用户对象是通过软件实现的可以响应用户诉求的、且与用户进行交流的虚拟的用户对象。基于专业培训、服务质量监控、信息安全保证等需求,有时需要对用户与虚拟用户对象之间的会话消息进行监控。传统的监控方式主要是针对文本会话消息进行关键词匹配,对于绘图等非文本会话消息不再适用。
发明内容
基于此,有必要针对上述技术问题,提供一种能够对图片会话消息进行监控的会话消息处理方法、装置、计算机设备和存储介质。
一种会话消息处理方法,所述方法包括:监听用于答复上文会话消息的下文会话图片;识别所述下文会话图片的绘图轨迹;将所述下文会话图片中绘图轨迹经过的像素点的像素值确定为第一像素值,绘图轨迹未经过的像素点的像素值确定为第二像素值;提取完成像素值更新的下文会话图片中每个绘图笔画的图形特征;对多个绘图笔画的图形特征进行融合,得到下文会话图片的序列特征;基于所述下文会话图片的序列特征与所述上文会话消息对应参考讲解图的序列特征的相似度进行会话监控。
在一个实施例中,所述监听用于答复上文会话消息的下文会话消息包括:展示当前会话分支的上文会话消息;确定所述当前会话分支的会话模式;当所述会话模式为图文讲解时,展示绘图页面;获取在所述绘图页面的绘图操作所产生的下文会话图片。
在一个实施例中,所述方法还包括:根据所述相似度,确定将跳转至的下一会话分支;展示所述下一会话分支的上文会话消息;监听用于答复上文会话消息的下文会话消息;根据所述下一会话分支的会话模式对所述下文会话消息进行监控。
在一个实施例中,所述将所述下文会话图片中绘图轨迹经过的像素点的像素值确定为第一像素值,绘图轨迹未经过的像素点的像素值确定为第二像素值包括:将所述下文会话图片缩放至标准大小;将所述标准大小的下文会话图片中绘图轨迹经过的像素点的像素值确定为第一像素值,绘图轨迹未经过的像素点的像素值确定为第二像素值。
在一个实施例中,所述下文会话图片由多个步骤图按照绘制时间顺序拼接得到;所述对多个绘图笔画的图形特征进行融合,得到下文会话图片的序列特征包括:对当前顺序步骤图中多个绘图笔画的图形特征进行融合,得到所述当前顺序步骤图的序列特征;当监听到下一顺序步骤图时,将所述下一顺序步骤图作为当前顺序步骤图进行迭代,直至最后顺序步骤图;对多个步骤图的序列特征进行融合,得到下文会话图片的序列特征。
一种会话消息处理装置,所述装置包括:轨迹跟踪模块,用于监听用于答复上文会话消息的下文会话图片;识别所述下文会话图片的绘图轨迹;特征提取模块,用于将所述下文会话图片中绘图轨迹经过的像素点的像素值确定为第一像素值,绘图轨迹未经过的像素点的像素值确定为第二像素值;提取完成像素值更新的下文会话图片中每个绘图笔画的图形特征;对多个绘图笔画的图形特征进行融合,得到下文会话图片的序列特征;会话监控模块,用于基于所述下文会话图片的序列特征与所述上文会话消息对应参考讲解图的序列特征的相似度进行会话监控。
在一个实施例中,所述轨迹跟踪模块还用于展示当前会话分支的上文会话消息;确定所述当前会话分支的会话模式;当所述会话模式为图文讲解时,展示绘图页面;获取在所述绘图页面的绘图操作所产生的下文会话图片。
在一个实施例中,所述装置还包括会话跳转模块,用于根据所述相似度,确定将跳转至的下一会话分支;展示所述下一会话分支的上文会话消息;监听用于答复上文会话消息的下文会话消息;根据所述下一会话分支的会话模式对所述下文会话消息进行监控
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本申请任意一个实施例中提供的会话消息处理方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请任意一个实施例中提供的会话消息处理方法的步骤。
上述会话消息处理方法、装置、计算机设备和存储介质,在监听到用于答复上文会话消息的下文会话图片时,可以跟踪得到所述下文会话图片的绘图轨迹;根据所述绘图轨迹,可以确定所述下文会话图片中每个绘图笔画的图形特征;通过将对多个绘图笔画的图形特征进行融合,可以得到下文会话图片的序列特征;通过计算下文会话图片的序列特征与上文会话消息对应参考讲解图的序列特征的相似度,可以对所述下文会话图片进行监控。通过对绘图轨迹进行跟踪,可以按照绘图笔画进行图形特征提取,不仅可以实现对绘图格式的会话消息进行监控,还可以细化图形特征提取粒度,有助于提高所提取图形特征的准确性,继而有助于提高监控结果准确性。
附图说明
图1为一个实施例中会话消息处理方法的应用场景图;
图2为一个实施例中会话消息处理方法的流程示意图;
图3为一个实施例中会话消息处理装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的会话消息处理方法,可以应用于如图1所示的应用环境中。其中,终端102与服务器104通过网络进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端102上运行了会话应用。基于会话应用,用户可以与虚拟用户对象进行会话。该会话消息处理方法可以在终端102或服务器104完成。当用户基于终端102上的会话应用提交用于答复虚拟用户对象发送的上文会话消息的下文会话消息时,终端102可以直接对下文会话消息进行监控,也可以在获取下文会话消息之后将下文会话消息发送至服务器104,有服务器104对下文会话消息进行监控共。
在一个实施例中,如图2所示,提供了一种会话消息处理方法,以该方法应用于图1中的终端或服务器为例进行说明,包括以下步骤:
步骤202,监听用于答复上文会话消息的下文会话图片。
终端上运行了会话应用。会话应用可以是用户通过与其他用户或虚拟用户对象之间发送会话消息,以实现不同社交用途的应用。会话应用具体可以是即时通讯应用、智能客服应用、技能陪练应用等。其中,技能陪练应用是由虚拟用户对象充当某种角色的用户与待培训的另一种角色的用户进行模拟会话,以提高待培训用户技能的应用程序。比如,虚拟用户对象充当客户与业务员进行会话,以提高业务员服务能力;或者,虚拟用户对象充当学生或家长与老师进行会话,以提高老师教学水平等。
技能陪练应用包括旁白对话、固定对话、固定问答、意图对话和评分对话等多个对话组件,支持多分支对话。用户可以通过自由拖拽多个对话组件的方式快速创建对话流任务,并发布预配置的对话流任务给待培训用户进行练习。具体地,通过拖拽不同对话组件可以生成不同会话类型的练习对话。比如,基于对话组件“意图对话”可以实现会话类型为“意图识别”;基于对话组件“评分对话”可以实现会话类型为“专业评分”等。
每组练习对话包括预置的上文会话消息以及对应的下文参考消息。用户可以对讲述该上文会话消息的虚拟对象的模特形象和表情等进行配置。用户还可以对每组练习对话的会话模式进行配置。会话模式是指定的用户答复上文会话消息的方式,比如口头讲解、图文讲解等。用户在配置每个会话模式为“图文讲解”的上文会话消息的下文参考消息时,需要预先配置对应的参考讲解图。参考讲解图被划分为多个讲解步骤。将整个参考讲解图按讲解步骤拆解为多个步骤图。
多组练习对话按照一定顺序排列形成一个对话流任务。一个对话流任务可能存在一个或多个会话分支,即在当前顺序的练习对话结束后,存在多个下一顺序的练习对话,可以根据当前顺序练习对话的会话类型对当前顺序练习会话进行意图识别或评分等分析处理,根据分析结果确定具体跳转至哪一会话分支。
当基于技能陪练应用完成不同的对话流任务时,虚拟用户对象在会话窗口展示当前顺序练习对话中的上文会话消息,用户可以采用口头讲解或图文讲解的方式在会话窗口录入下文会话消息,以答复上文会话消息。对于会话类型为“专业评分”、会话模式为“图文讲解”的练习对话,用户需要按照提示进行绘图及讲解,在会话窗口录入图片格式的下文会话消息(记作下文会话图片)。
在一个实施例中,所述监听用于答复上文会话消息的下文会话消息包括:展示当前会话分支的上文会话消息;确定所述当前会话分支的会话模式;当所述会话模式为图文讲解时,展示绘图页面;获取在绘图页面的绘图操作所产生的下文会话图片。
若当前顺序练习对话的会话类型为“专业评分”、会话模式为“图文讲解”,终端在会话窗口展示绘图讲解提示,并展示绘图页面。绘图页面可以是会话窗口中的会话消息录入区域,也可以是区别于会话窗口的其他页面。
步骤204,识别所述下文会话图片的绘图轨迹。
终端对下文会话图片的绘制过程进行跟踪。具体地,技能陪练应用进行讲解步骤提示,即提示用户当前应当绘制哪一讲解步骤对应的局部的步骤图,每个步骤图可能对应多个绘图笔画和标注文本。绘图笔画可以通过停顿时间和是否离开屏幕来判定。当绘制完当前顺序的步骤图之后,根据对“下一步”按钮的触发操作,进行下一顺序讲解步骤提示。在不同的业务场景,所需绘制的下文会话图片的类型可以不同,比如,在产品销售场景,下文会话图片的类型可以是草帽图、爬坡图、钢丝图等。
步骤206,将下文会话图片中绘图轨迹经过的像素点的像素值确定为第一像素值,绘图轨迹未经过的像素点的像素值确定为第二像素值。
步骤208,提取完成像素值更新的下文会话图片中每个绘图笔画的图形特征。
在一个实施例中,所述根据所述绘图轨迹,确定所述下文会话图片中每个绘图笔画的图形特征包括:将所述下文会话图片缩放至标准大小;根据所述绘图轨迹,更新标准大小的下文会话图片中每个像素点的像素值;提取完成像素值更新的下文会话图片中每个绘图笔画的图形特征。
每当监听到一个讲解步骤的步骤图绘制完成,终端提取每个步骤图的图形特征,并根据提取的图形特征对下文会话图片评分;或将每个步骤图发送至服务器,由服务器进行图形特征提取并根据提取的图形特征对下文会话图片评分。或者,在整个下文会话图片绘制完成时,终端或服务器按照上述方式提取每个步骤图的图形特征,并根据提取的图形特征对下文会话图片评分。
不同用户采用的第一终端的尺寸可能不同,使得绘制的下文会话图片的画布尺寸不同。计算机设备将当前的步骤图缩放至标准大小,使压缩后的每个步骤图具有相同数量的像素点。标准大小是指指定的图片尺寸。
计算机设备将获取到的每个步骤图缩放至标准大小后,根据所述绘图轨迹,更新标准大小的步骤图中每个像素点的像素值,对步骤图中绘图轨迹未经过的像素点(多余点)过滤、通过缩放及像素值更新可以实现坐标归一化及步骤图重绘。
在一个实施例中,根据所述绘图轨迹,更新标准大小的下文会话图片中每个像素点的像素值包括:将所述标准大小的下文会话图片中绘图轨迹经过的像素点的像素值更新为第一像素值;将将所述标准大小的下文会话图片中绘图轨迹未经过的像素点的像素值更新为第二像素值。
计算机设备将更新为标准大小的当前步骤图中绘图轨迹未经过的像素点的像素值更新为第一像素值,将绘图轨迹经过的像素点的像素值更新为第二像素值。第一像素值与第二像素值为不同的像素数值,通过不同的像素值对绘图轨迹经过与未经过的像素点进行区分。
进一步地,计算机提取已缩放至标准大小并更新了像素值的步骤图的图形矢量信息。图形矢量信息可以是一条JSON(JavaScript Object Notation,JS对象)数据。JSON数据包括文本字段testing和绘画字段drawing。例如,Json{"drawing":[
Figure BDA0002194760250000071
步骤图有一个或多个绘图笔画构成,每个绘图笔画由多个坐标连续的像素点组成。从而,绘画字段包括相应步骤图中每个绘图笔画对应各个像素点的横坐标x和纵坐标y。比如,上例(x1,y1)为一个绘图笔画中各个像素点的坐标,x2,y2)为另一个绘图笔画中各个像素点的坐标。
计算机设备将图形矢量信息输入图形特征提取模型,得到相应步骤图对应的序列特征。其中,图形特征提取模型包括lenet模型(卷积神经网络模型)和序列模型。lenet模型包括卷积层、池化层和全连接层。计算机设备将图形矢量信息输入卷积层进行卷积运算,将卷积层输出的第一特征矩阵输入池化层进行归一化运算,得到由第一特征矩阵中每个特征向量中最大权重投影得到的第二特征矩阵。计算机设备将第二特征矩阵输入全连接层进行分类运算,得到每个分类对应的图形特征。图形特征具体可以是计算机设备从下文会话图片中提取出的可以表示图片的形状或空间关系等数据,得到图片的“非图片”的表示或描述,如数值、向量或符号等。
步骤210,对多个绘图笔画的图形特征进行融合,得到下文会话图片的序列特征。
计算机设备调用序列模型对图形特征进行编码,得到相应步骤图的序列特征。序列模型可以是循环神经网络模型,包括3层卷积层、2层LSTM层和Softmax分类层。容易理解,卷积层与LSTM层的数量可以根据需求动态确定。卷积层用于在保证图形特征信息完整的情况下,减少图形特征数据量。LSTM层用于结合前一笔画的图形特征和当前笔画的图形特征计算当前笔画的序列特征。LSTM层包括遗忘门、输入门和输出门。通过遗忘门对前一顺序绘图笔画的图形特征进行遗忘处理,通过输入门对当前顺序绘图笔画对应的图形特征进行更新,通过输出门对遗忘处理后得到的图形特征以及更新得到的图形特征进行运算,得到当前顺序绘图笔画对应的序列特征。
Softmax分类层用于将多个绘图笔画的序列特征进行特征融合,得到相应步骤图的序列特征。具体地,计算机设备可以将具有相同维度的多个绘图笔画的序列特征映射至同一空间内的数据,再对映射后的数据进行融合处理,得到综合特征。特征融合的算法具体可采用向量拼接的方式。容易理解,计算机设备也可以基于贝叶斯决策理论的算法、基于稀疏表示理论的算法或基于深度学习理论算法等将多个序列特征进行融合,得到整个下文会话图片的序列特征。
步骤212,基于所述下文会话图片的序列特征与所述上文会话消息对应参考讲解图的序列特征的相似度进行会话监控。
如上文所述,对话流任务中预置了每个上文会话消息对应的下文参考消息。当某组练习对话的会话模式为“图文讲解”时,对应下文参考消息为参考讲解图。参考讲解图的序列特征可以是每次需要用到时临时动态计算得到的,减少对计算机设备存储资源的占用。参考讲解图的序列特征也可以是预先计算并存储在计算机设备的,提高序列特征获取效率,进而提高相应讲解图进行评分的效率。
计算机设备基于相似度计算模型计算下文会话图片的序列特征与相应参考讲解图的序列特征的相似度。其中,相似度计算模型可以是孪生神经网络模型(siamesenetwork)。容易理解,计算机设备也可以采用其他方法计算下文会话图片的序列特征与相应参考讲解图的序列特征的相似度,对此不作限制。计算机设备将相似度作为下文会话图片的评分,或者按照预设逻辑对相似度进行数值换算,得到下文会话图片的评分。
在一个实施例中,所述下文会话图片由多个步骤图按照绘制时间顺序拼接得到;所述对多个绘图笔画的图形特征进行融合,得到下文会话图片的序列特征包括:对当前顺序步骤图中多个绘图笔画的图形特征进行融合,得到所述当前顺序步骤图的序列特征;当监听到下一顺序步骤图时,将所述下一顺序步骤图作为当前顺序步骤图进行迭代,直至最后顺序步骤图;对多个步骤图的序列特征进行融合,得到下文会话图片的序列特征。
计算机设备在按照上述方式提取得到构成下文会话图片中每个步骤图的序列特征后,对多个步骤图的序列特征进行融合,得到下文会话图片的序列特征,根据下文会话图片的序列特征与参考讲解图的序列特征的相似度,对下文会话图片进行评分。
在另一个实施例中,计算机设备也可以在提取得到每个步骤图的序列特征后,根据该步骤图的序列特征与参考讲解图中相应讲解步骤的局部图的序列特征的相似度,及时对当前步骤图进行评分,最后根据全部步骤图的评分计算整个下文会话图片的评分。
上述会话消息处理方法中,在监听到用于答复上文会话消息的下文会话图片时,可以跟踪得到所述下文会话图片的绘图轨迹;根据所述绘图轨迹,可以确定所述下文会话图片中每个绘图笔画的图形特征;通过将对多个绘图笔画的图形特征进行融合,可以得到下文会话图片的序列特征;通过计算下文会话图片的序列特征与上文会话消息对应参考讲解图的序列特征的相似度,可以得到所述下文会话图片的监控结果。通过对绘图轨迹进行跟踪,可以按照绘图笔画进行图形特征提取,不仅可以实现对绘图格式的会话消息进行监控,还可以细化图形特征提取粒度,有助于提高所提取图形特征的准确性,继而有助于提高监控结果准确性。
在一个实施例中,上述会话消息处理方法还包括:根据所述相似度,确定将跳转至的下一会话分支;展示所述下一会话分支的上文会话消息;监听用于答复上文会话消息的下文会话消息;根据所述下一会话分支的会话模式对所述下文会话消息进行监控。
如上文所述,一个对话流任务可能存在一个或多个会话分支,即在当前顺序的练习对话结束后,存在多个下一顺序的练习对话,可以根据当前顺序练习对话的会话类型对当前顺序练习会话进行意图识别或评分等分析处理,根据分析结果确定具体跳转至哪一会话分支。换言之,不同会话模式的练习对话具有不同的确定跳转至哪一会话分支的方式。
上述实施例中,根据用户完成当前会话分支的情况动态跳转至不同的下一会话分支,从而通过设定一种对话流任务可以是适用多种不同的实际执行场景,使对话流任务更急贴合实际应用需求。
在一个实施例中,上述会话消息处理方法还包括会话意图识别的步骤,具体包括:获取会话消息;当所述会话消息包括会话图片时,通过第一模型提取会话图片的图形特征;通过所述第一模型并根据所述图形特征,确定与所述会话图片相应的类别标签文本;将所述图形特征和相应的类别标签文本进行跨模态融合,得到综合特征;通过第二模型处理所述综合特征,输出所述会话图片的意图描述文本。
当所述会话消息包括会话图片时,计算机设备通过第一模型提取会话图片的图形特征。其中,模型是由人工神经网络构成的模型。神经网络模型具体可以是VGG(VisualGeometry Group视觉集合组)网络模型、GoogleNet(谷歌网络)模型或ResNet(能效评估系统)网络模型等CNN(Convolutional Neural Network,卷积神经网络)模型,也可以是DNN(Deep Neural Network,深度神经网络)模型,还可以是LSTM(Long Short-Term MemoryNeural Network,长短时记忆神经网络)模型等RNN(Recurrent Neural Network,循环神经网络)模型等。图形特征具体可以是计算机设备从下文会话图片中提取出的可以表示图片的形状或空间关系等数据,得到图片的“非图片”的表示或描述,如数值、向量或符号等。
第一模型具体可以是卷积神经网络模型,比如ResNet-80。计算机设备可将下文会话图片输入至第一模型中,通过第一模型提取下文会话图片的图形特征。比如,计算机设备可将下文会话图片输入至卷积神经网络模型中,通过卷积神经网络的卷积层对下文会话图片进行卷积处理,提取下文会话图片的feature map(特征图),即本实施例中的图形特征。
在一个实施例中,第一模型是以图形库(ImageNet)中大量的手绘图片和相应的类别标签作为训练数据,进行学习训练得到的用于对下文会话图片进行分类的模型。计算机设备在获取到手绘图片后,将手绘图片输入第一模型,通过第一模型的卷积层结构提取手绘图片的图形特征,通过第一模型的池化层结构和/或全连接层结构确定手绘图片相应的类别标签文本。
计算机设备通过所述第一模型并根据所述图形特征,确定与所述会话图片相应的类别标签文本。其中,类别标签文本是下文会话图片所属的类别对应的标签文本。具体地,计算机设备可通过第一模型提取图形特征,再对提取的图形特征进行分类处理,得到下文会话图片的类别,进而确定下文会话图片相应的类别标签文本。
在一个实施例中,第一模型具体可以是卷积神经网络模型。计算机设备可将下文会话图片输入至卷积神经网络模型中,以提取下文会话图片的图形特征。再通过池化层和全连接层对图形特征进行处理,得到下文会话图片所属类别的概率值。将最大概率值所对应的类别标签作为与下文会话图片相应的类别标签。
计算机设备将图形特征和相应的类别标签文本进行跨模态融合,得到综合特征。其中,跨模态融合是将具有不同模态的数据进行融合。在本实施例中,不同模态的数据具体是指与下文会话图片对应的图形特征、以及与类别标签文本对应的文本数据。具体地,可将提取的图形特征和相应的类别标签文本映射至同一空间内的数据,再对映射后的数据进行融合处理,得到综合特征。
在一个实施例中,通过第一模型提取下文会话图片的图形特征。计算机设备可通过循环神经网络提取类别标签文本的文本特征。其中,图形特征和文本特征的表现形式都可以是向量形式。计算机设备在对图形特征和文本特征进行融合之前,可将图形特征和文本特征分别转换成标准形式,使两者的特征向量都处于同一范围内。比如,可分别对图形特征和文本特征进行归一化处理。常用的归一化算法有函数法和概率密度法。其中,函数法,比如最大-最小函数、均值-方差函数(将特征都归一化到了一个一致的区间,比如均值为0,方差为1的区间)或双曲sigmoid(S型生长曲线)函数等。
进一步地,计算机设备可对归一化处理后的图形特征和相应的类别标签文本对应的文本特征,执行融合操作,得到综合特征。其中,将图形特征和文本特征进行融合的算法具体可采用基于贝叶斯决策理论的算法、基于稀疏表示理论的算法或基于深度学习理论算法等。或者,计算机设备可对归一化处理后的两个向量进行加权求和,已将图形特征和文本特征进行融合,得到综合特征。
在一个实施例中,计算机设备可通过循环神经网络提取类别标签文本的文本特征,对图形特征和文本特征做注意力分配处理,也就是attention处理,得到注意力分配权值,也就是注意力权值(attention value),再将attention value和图形特征结合,得到综合特征。其中,attention处理,可以理解为从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上,忽略大多不重要的信息。聚焦的过程体现在注意力分配权值的计算上,注意力分配权值越大越,则越聚焦于其对应的图形特征上。
计算机设备通过第二模型处理所述综合特征,输出会话图片的意图描述文本。其中,意图描述文本是描述下文会话图片所表达意图的文本,比如识别下文会话图片中的物体、理解物体间的关系等。意图描述文本具体可以是一个词、一个整句或段落文本等。第二模型具体可以是循环神经网络模型,如LSTM模型。具体地,计算机设备可将综合特征输入至第二模型中,通过第二模型对综合特征进行处理,以输出下文会话图片的意图描述文本。在一个实施例中,所述通过第二模型处理所述综合特征,输出所述会话图片的意图描述文本包括:获取与所述会话图片对应的意图预描述文本;将所述综合特征及所述意图预描述文本各个词向量依次输入至第二模型,得到所述会话图片的意图描述文本。
其中,意图预描述文本是预先对下文会话图片进行描述的文本。意图预描述文本具体可以是认为对下文会话图片进行理解后,得到的初始的较为粗糙的描述文本。意图预描述文本和意图描述文本可以是同一种语言种系,也可以是不同的语言种系。比如,意图预描述文本可以是以中文对下文会话图片所表达意图进行描述的文本,而意图描述文本则是以英文对下文会话图片所表达意图进行描述的文本。
在一个实施例中,计算机设备可获取与下文会话图片对应的意图预描述文本,并获取意图预描述文本的各个词向量。计算机设备可以采用编码-解码的方式,将综合特征作为第一时刻输入,将各个词向量分别作为后续时刻的输入,通过第二模型处理依次输入的综合特征和词向量,输出意图描述文本。这样,第二模型可以结合综合特征和意图预描述文本,使得输出的意图描述文本更贴合下文会话图片所表达真实意图,大大提高了图形理解信息的准确性。
上述会话意图识别方法中,根据第一模型提取得到的会话图片的图形特征,可以快速准确地获得会话图片相应的类别标签文本。将图形特征和相应的类别标签文本进行跨模态融合,得到综合特征,再通过第二模型处理综合特征,得到图像描述文本。这样,可以使得第二模型在处理过程中既能充分利用会话图片本身的图形特征,又能结合会话图片所属的类别信息。这样细致且充分地利用了会话图片的特征,在对会话图片进行理解时,得到了图形特征和类别标签文本的双重指导,大大提高了会话图片理解信息的准确性。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种会话消息处理装置,包括:轨迹跟踪模块302、特征提取模块304和会话监控模块306,其中:
轨迹跟踪模块302,用于监听用于答复上文会话消息的下文会话图片;识别所述下文会话图片的绘图轨迹。
特征提取模块304,用于将所述下文会话图片中绘图轨迹经过的像素点的像素值确定为第一像素值,绘图轨迹未经过的像素点的像素值确定为第二像素值;提取完成像素值更新的下文会话图片中每个绘图笔画的图形特征;对多个绘图笔画的图形特征进行融合,得到下文会话图片的序列特征。
会话监控模块306,用于基于所述下文会话图片的序列特征与所述上文会话消息对应参考讲解图的序列特征的相似度进行会话监控。
在一个实施例中,轨迹跟踪模块302还用于展示当前会话分支的上文会话消息;确定所述当前会话分支的会话模式;当所述会话模式为图文讲解时,展示绘图页面;获取在绘图页面的绘图操作所产生的下文会话图片。
在一个实施例中,上述会话消息处理装置还包括会话跳转模块308,用于根据相似度,确定将跳转至的下一会话分支;展示下一会话分支的上文会话消息;监听用于答复上文会话消息的下文会话消息;根据下一会话分支的会话模式对下文会话消息进行监控。
在一个实施例中,特征提取模块304还用于将所述下文会话图片缩放至标准大小;将所述标准大小的下文会话图片中绘图轨迹经过的像素点的像素值确定为第一像素值,绘图轨迹未经过的像素点的像素值确定为第二像素值。
在一个实施例中,所述下文会话图片由多个步骤图按照绘制时间顺序拼接得到;特征提取模块304还用于对当前顺序步骤图中多个绘图笔画的图形特征进行融合,得到所述当前顺序步骤图的序列特征;当监听到下一顺序步骤图时,将所述下一顺序步骤图作为当前顺序步骤图进行迭代,直至最后顺序步骤图;对多个步骤图的序列特征进行融合,得到下文会话图片的序列特征。
关于会话消息处理装置的具体限定可以参见上文中对于会话消息处理方法的限定,在此不再赘述。上述会话消息处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种会话消息处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请任意一个实施例中提供的会话消息处理方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种会话消息处理方法,所述方法包括:
监听用于答复上文会话消息的下文会话图片;
识别所述下文会话图片的绘图轨迹;
将所述下文会话图片中绘图轨迹经过的像素点的像素值确定为第一像素值,绘图轨迹未经过的像素点的像素值确定为第二像素值;
提取完成像素值更新的下文会话图片中每个绘图笔画的图形特征;
对多个绘图笔画的图形特征进行融合,得到下文会话图片的序列特征;
基于所述下文会话图片的序列特征与所述上文会话消息对应参考讲解图的序列特征的相似度进行会话监控。
2.根据权利要求1所述的方法,其特征在于,所述监听用于答复上文会话消息的下文会话图片包括:
展示当前会话分支的上文会话消息;
确定所述当前会话分支的会话模式;
当所述会话模式为图文讲解时,展示绘图页面;
获取在所述绘图页面的绘图操作所产生的下文会话图片。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述相似度,确定将跳转至的下一会话分支;
展示所述下一会话分支的上文会话消息;
监听用于答复上文会话消息的下文会话消息;
根据所述下一会话分支的会话模式对所述下文会话消息进行监控。
4.根据权利要求1所述的方法,其特征在于,所述将所述下文会话图片中绘图轨迹经过的像素点的像素值确定为第一像素值,绘图轨迹未经过的像素点的像素值确定为第二像素值包括:
将所述下文会话图片缩放至标准大小;
将所述标准大小的下文会话图片中绘图轨迹经过的像素点的像素值确定为第一像素值,绘图轨迹未经过的像素点的像素值确定为第二像素值。
5.根据权利要求1所述的方法,其特征在于,所述下文会话图片由多个步骤图按照绘制时间顺序拼接得到;所述对多个绘图笔画的图形特征进行融合,得到下文会话图片的序列特征包括:
对当前顺序步骤图中多个绘图笔画的图形特征进行融合,得到所述当前顺序步骤图的序列特征;
当监听到下一顺序步骤图时,将所述下一顺序步骤图作为当前顺序步骤图进行迭代,直至最后顺序步骤图;
对多个步骤图的序列特征进行融合,得到下文会话图片的序列特征。
6.一种会话消息处理装置,其特征在于,所述装置包括:
轨迹跟踪模块,用于监听用于答复上文会话消息的下文会话图片;识别所述下文会话图片的绘图轨迹;
特征提取模块,用于将所述下文会话图片中绘图轨迹经过的像素点的像素值确定为第一像素值,绘图轨迹未经过的像素点的像素值确定为第二像素值;提取完成像素值更新的下文会话图片中每个绘图笔画的图形特征;对多个绘图笔画的图形特征进行融合,得到下文会话图片的序列特征;
会话监控模块,用于基于所述下文会话图片的序列特征与所述上文会话消息对应参考讲解图的序列特征的相似度进行会话监控。
7.根据权利要求6所述的装置,其特征在于,所述轨迹跟踪模块还用于展示当前会话分支的上文会话消息;确定所述当前会话分支的会话模式;当所述会话模式为图文讲解时,展示绘图页面;获取在所述绘图页面的绘图操作所产生的下文会话图片。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括会话跳转模块,用于根据所述相似度,确定将跳转至的下一会话分支;展示所述下一会话分支的上文会话消息;监听用于答复上文会话消息的下文会话消息;根据所述下一会话分支的会话模式对所述下文会话消息进行监控。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN201910844582.4A 2019-09-06 2019-09-06 会话消息处理方法、装置、计算机设备和存储介质 Active CN110689052B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910844582.4A CN110689052B (zh) 2019-09-06 2019-09-06 会话消息处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910844582.4A CN110689052B (zh) 2019-09-06 2019-09-06 会话消息处理方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN110689052A CN110689052A (zh) 2020-01-14
CN110689052B true CN110689052B (zh) 2022-03-11

Family

ID=69107981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910844582.4A Active CN110689052B (zh) 2019-09-06 2019-09-06 会话消息处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110689052B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625171B (zh) * 2020-07-28 2020-11-03 深圳市千分一智能技术有限公司 笔画显示方法、装置、设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101729850A (zh) * 2008-10-13 2010-06-09 刘盛举 基于笔迹特征数据流的视频通信方法及其处理系统
CN107133349A (zh) * 2017-05-24 2017-09-05 北京无忧创新科技有限公司 一种对话机器人系统
CN109002852A (zh) * 2018-07-11 2018-12-14 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN109902155A (zh) * 2018-12-29 2019-06-18 清华大学 多模态对话状态处理方法、装置、介质及计算设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11048406B2 (en) * 2017-07-11 2021-06-29 Facebook, Inc. Methods and systems for defining and transmitting a drawing stroke

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101729850A (zh) * 2008-10-13 2010-06-09 刘盛举 基于笔迹特征数据流的视频通信方法及其处理系统
CN107133349A (zh) * 2017-05-24 2017-09-05 北京无忧创新科技有限公司 一种对话机器人系统
CN109002852A (zh) * 2018-07-11 2018-12-14 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN109902155A (zh) * 2018-12-29 2019-06-18 清华大学 多模态对话状态处理方法、装置、介质及计算设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
线上培训模式研究及路径探索;高宏等;《农银学刊》;20190630;全文 *

Also Published As

Publication number Publication date
CN110689052A (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
CN110717514A (zh) 会话意图识别方法、装置、计算机设备和存储介质
CN114155543B (zh) 神经网络训练方法、文档图像理解方法、装置和设备
CN111444723B (zh) 信息抽取方法、计算机设备和存储介质
CN110334179B (zh) 问答处理方法、装置、计算机设备和存储介质
US20210390370A1 (en) Data processing method and apparatus, storage medium and electronic device
CN109711356B (zh) 一种表情识别方法和系统
CN113688245B (zh) 基于人工智能的预训练语言模型的处理方法、装置及设备
CN111597341A (zh) 一种文档级关系抽取方法、装置、设备及存储介质
Bohra et al. Real-time two way communication system for speech and hearing impaired using computer vision and deep learning
CN113435182A (zh) 自然语言处理中分类标注的冲突检测方法、装置和设备
CN112395887A (zh) 对话应答方法、装置、计算机设备和存储介质
CN111224863B (zh) 会话任务生成方法、装置、计算机设备和存储介质
Siddique et al. Deep learning-based bangla sign language detection with an edge device
CN114821736A (zh) 基于对比学习的多模态人脸识别方法、装置、设备及介质
CN110689052B (zh) 会话消息处理方法、装置、计算机设备和存储介质
CN111444906B (zh) 基于人工智能的图像识别方法和相关装置
Goyal Indian sign language recognition using mediapipe holistic
CN113536784A (zh) 文本处理方法、装置、计算机设备和存储介质
CN116484224A (zh) 一种多模态预训练模型的训练方法、装置、介质及设备
Avula et al. CNN based recognition of emotion and speech from gestures and facial expressions
CN111339786B (zh) 语音处理方法、装置、电子设备及存储介质
CN114038451A (zh) 对话数据的质检方法、装置、计算机设备及存储介质
CN113065512A (zh) 人脸微表情识别方法、装置、设备及存储介质
Petkar et al. Real Time Sign Language Recognition System for Hearing and Speech Impaired People
Suzon Face mask detection in real time using python

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant