CN113326373A

CN113326373A - 一种融合会话场景信息的微信群聊天记录识别方法及系统

Info

Publication number: CN113326373A
Application number: CN202110547942.1A
Authority: CN
Inventors: 吴江; 王诚坤; 黄晓; 胡忠义
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-08-31
Anticipated expiration: 2041-05-19
Also published as: CN113326373B

Abstract

本发明提供了一种融合会话场景信息的微信聊天记录识别方法及系统，包括：获取微信聊天记录文本，并进行预处理；确定每条文本的词向量，并基于社会支持理论将每条文本的对话场景进行类别划分，输出每条文本对应的分类向量；将文本中两条文本分类向量合并，得到对应的文本场景信息；基于领域适配的BERT模型提取得到任意两条文本的文本语义特征，结合两条文本场景信息和文本语义特征对两条文本的上下文关系进行预测，输出两条文本属于上下文关系的概率，通过对比每条文本与其他文本属于上下文关系的概率，选择上下文关系概率最大的两条文本建立对话关系，实现微信聊天记录的对话识别。本发明融合文本所处的场景信息，使得对话识别模型准确率更高。

Description

一种融合会话场景信息的微信群聊天记录识别方法及系统

技术领域

本发明属于智能识别领域，更具体地，涉及一种融合会话场景信息的微信群聊天记录识别方法及系统。

背景技术

现有技术提供一种对话的情绪识别控制系统，包括登录模块、接收模块、识别分析模块、对比模块、提示模块和存储模块，通过设置视频接收模块和音频接收模块，利用实时接收和录制文件接收两种方式对用户对话进行接收，方便用户实时对话和录制对话使用，且将对话杂音滤除，识别更加清晰，用户使用更加便捷。

现有技术提供一种基于所述会话请求创建交互会话中进行分类意图识别的分类识别线程交互对话中的意图识别方法。该发明可以节省意图识别过程中每次执行多并发线程需要耗费的时间，提高意图识别的效率。

现有技术提供一种针对青少年聊天机器人的对话意图识别方法及装置，包括：基于词块集的组合创建包括附加有长度属性和年龄阶段优先属性结构的若干意图匹配模板。其优点是对青少年聊天领域对话意图的识别效率高及识别精准度高，能够满足多种复杂应用场景。

现有技术提供一种医美聊天机器人意图识别方法及装置，其通过获取训练语料，根据训练语料中的文本数据及对应的意图标签进行训练得到意图识别分类器；预测时对待识别的当前的文本数据进行预处理并输入训练好的意图识别分类器中，意图识别分类器返回意图识别结果；并进一步判断所述意图识别结果是否为有效结果，若是，则输出当前的文本数据对应的意图识别结果；若否，则输出上一组的文本数据对应的有效的意图识别结果；从而通过上文信息来判断访客意图特征，使得意图识别结果更准确，以辅助机器人做出正确的回应决策。

现有技术提供一种基于神经网络识别对话信息的方法及系统，其将不同类型的对话信息进行有针对性的神经网络或识别规则进行分别处理后，再将不同类型的对话信息结果进行汇总，从而不像背景技术那样直接以文本识别方式识别对话信息，从而提高对话信息的识别率。

综上，目前有较多的基于对话识别的系统的设计，但是还没有一种融合会话情景的微信聊天记录识别设计，无法融合会话场景信息进行聊天记录识别。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种融合会话场景信息的微信群聊天记录识别方法及系统，旨在解决现有技术无法融合会话场景信息进行微信聊天记录识别的问题。

为实现上述目的，第一方面，本发明提供了一种融合会话场景信息的微信聊天记录识别方法，包括如下步骤：

获取微信聊天记录文本，并对微信聊天记录文本进行预处理，所述预处理包括：结合聊天记录的会话场景信息进行连续文本合并、分词以及文本领域适配；

基于预处理后的结果，确定每条微信聊天记录文本的词向量表示，并基于社会支持理论将每条微信聊天记录文本的对话场景进行类别划分，输出每条微信聊天记录文本对应的分类向量，所划分的类别包括以下几种：提供信息支持、获得信息支持、提供情感支持、获取情感支持以及陪伴；

将微信聊天记录文本中两条微信聊天记录文本对应的分类向量合并，得到对应的对话文本场景信息；

对所述微信聊天记录文本进行编码，基于经过领域适配的BERT模型提取得到任意两条微信聊天记录文本的文本语义特征，最后结合可能存在对话关系的两条微信聊天记录文本的对话文本场景信息和文本语义特征对两条微信聊天记录文本的上下文关系进行预测，输出两条微信聊天记录文本属于上下文关系的概率，通过对比每条微信聊天记录文本与其他各条微信聊天记录文本属于上下文关系的概率，选择上下文关系概率最大的两条微信聊天记录文本对其建立对话关系，实现微信聊天记录的对话识别。

在一个可选的示例中，所述对微信聊天记录文本进行预处理，具体为：

针对微信聊天记录文本中口语化与碎片化的特征，将微信聊天记录文本进行连续文本自动化合并与分词操作，并根据微信聊天记录文本所在微信群的领域，对聊天记录文本进行领域适配。

在一个可选的示例中，所述基于社会支持理论将每条微信聊天记录文本的对话场景进行类别划分，输出每条微信聊天记录文本对应的分类向量，具体为：

在文本对话场景信息分类过程中，输入的是文本的词向量表示，通过WordEmbedding的方式，将长文本转化为多个词向量的合并，合并得到的文本向量，然后通过四层双向LSTM模型提取文本信息，最后使用三层全连接神经网络实现对话文本场景信息分类并输出，输出结果为5维向量；各维向量元素的数值分别指示输入文本的类别是否为：提供信息支持、获得信息支持、提供情感支持、获取情感支持和陪伴，当该维向量元素的数值为1时表示是，为0时表示否。

在一个可选的示例中，将可能存在对话关系的两条微信聊天记录文本的分类向量合并得到10维向量；

所述微信聊天记录文本来自微信群；根据微信群所处的领域对BERT模型进行领域适配；

对所述微信聊天记录文本进行Embedding处理以对文本进行编码，将编码后的文本输入到领域适配后的BERT模型，提取得到任意两条微信聊天记录文本的文本语义特征；

将可能存在对话关系的两条微信聊天记录文本的对话文本场景信息与文本语义特征进行拼接，将拼接后的向量作为全连接神经网络的输入，以对两条微信聊天记录文本的上下文关系进行预测，输出两条微信聊天记录文本属于上下文关系的概率。

第二方面，本发明提供了一种融合会话场景信息的微信聊天记录识别系统，包括：

聊天记录文本获取单元，用于获取微信聊天记录文本，并对微信聊天记录文本进行预处理，所述预处理包括：结合聊天记录的会话场景信息进行连续文本合并、分词以及文本领域适配；

场景类别划分单元，用于基于预处理后的结果，确定每条微信聊天记录文本的词向量表示，并基于社会支持理论将每条微信聊天记录文本的对话场景进行类别划分，输出每条微信聊天记录文本对应的分类向量，所划分的类别包括以下几种：提供信息支持、获得信息支持、提供情感支持、获取情感支持以及陪伴；以及将微信聊天记录文本中两条微信聊天记录文本对应的分类向量合并，得到对应的对话文本场景信息；

对话识别单元，用于对所述微信聊天记录文本进行编码，基于经过领域适配的BERT模型提取得到任意两条微信聊天记录文本的文本语义特征，最后结合可能存在对话关系的两条微信聊天记录文本的对话文本场景信息和文本语义特征对两条微信聊天记录文本的上下文关系进行预测，输出两条微信聊天记录文本属于上下文关系的概率，通过对比每条微信聊天记录文本与其他各条微信聊天记录文本属于上下文关系的概率，选择上下文关系概率最大的两条微信聊天记录文本对其建立对话关系，实现微信聊天记录的对话识别。

在一个可选的示例中，所述聊天记录文本获取单元对微信聊天记录文本进行预处理，具体为：针对微信聊天记录文本中口语化与碎片化的特征，将微信聊天记录文本进行连续文本自动化合并与分词操作，并根据微信聊天记录文本所在微信群的领域，对聊天记录文本进行领域适配。

在一个可选的示例中，所述场景类别划分单元基于社会支持理论将每条微信聊天记录文本的对话场景进行类别划分，输出每条微信聊天记录文本对应的分类向量，具体为：在文本对话场景信息分类过程中，输入的是文本的词向量表示，通过WordEmbedding的方式，将长文本转化为多个词向量的合并，合并得到的文本向量，然后通过四层双向LSTM模型提取文本信息，最后使用三层全连接神经网络实现对话文本场景信息分类并输出，输出结果为5维向量；各维向量元素的数值分别指示输入文本的类别是否为：提供信息支持、获得信息支持、提供情感支持、获取情感支持和陪伴，当该维向量元素的数值为1时表示是，为0时表示否。

在一个可选的示例中，所述对话识别单元将可能存在对话关系的两条微信聊天记录文本的分类向量合并得到10维向量；所述微信聊天记录文本来自微信群；根据微信群所处的领域对BERT模型进行领域适配；对所述微信聊天记录文本进行Embedding处理以对文本进行编码，将编码后的文本输入到领域适配后的BERT模型，提取得到任意两条微信聊天记录文本的文本语义特征；将可能存在对话关系的两条微信聊天记录文本的对话文本场景信息与文本语义特征进行拼接，将拼接后的向量作为全连接神经网络的输入，以对两条微信聊天记录文本的上下文关系进行预测，输出两条微信聊天记录文本属于上下文关系的概率。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明提供一种融合会话场景信息的微信群聊天记录识别方法及系统，针对微信群“口语化、短文本”的特性，提出一个能够实时响应的微信群聊天记录对话识别系统，依托网页应用的灵活性和及时性，能够针对不同类型的文本信息，提供包括在线识别、跨平台API和离线自训练模型等多种服务方式，满足用户的多样化需求。本发明根据社会支持理论，将聊天信息划分为信息提供、信息获得、情感提供、情感获得、陪伴等五种类别，提出一种分类效果更好，实现更为简单的文本分类模型，对原有的分类模型进行改进，针对特殊领域(医疗、学术、经济等)进行微调，得到更高的分类准确率。本发明针对现有的对话识别方法只是单纯的从文本内容出发，忽略了文本所处的会话场景，从而对话识别效率不高的问题，提出一种融合了社会支持理论的对话识别方式，在原有的对话识别模型的基础上，融合文本所处的场景信息，是否在提供信息、是否在提供情感等，使得对话识别模型准确率更高。

附图说明

图1是本发明实施例提供的融合会话场景信息的微信群聊天记录识别方法流程图；

图2是本发明实施例提供的一种融合会话场景信息的微信群聊天记录识别示例流程图；

图3是本发明实施例提供的Embedding处理流程图；

图4是本发明实施例提供的对话识别模型架构图；

图5是本发明实施例提供的融合会话场景信息的微信群聊天记录识别系统架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

图1是本发明实施例提供的融合会话场景信息的微信群聊天记录识别方法流程图；如图1所示，包括如下步骤：

S101，获取微信聊天记录文本，并对微信聊天记录文本进行预处理，所述预处理包括：结合聊天记录的会话场景信息进行连续文本合并、分词以及文本领域适配；

S102，基于预处理后的结果，确定每条微信聊天记录文本的词向量表示，并基于社会支持理论将每条微信聊天记录文本的对话场景进行类别划分，输出每条微信聊天记录文本对应的分类向量，所划分的类别包括以下几种：提供信息支持、获得信息支持、提供情感支持、获取情感支持以及陪伴；

S103，将微信聊天记录文本中两条微信聊天记录文本对应的分类向量合并，得到对应的对话文本场景信息；

S104，对所述微信聊天记录文本进行编码，基于经过领域适配的BERT模型提取得到任意两条微信聊天记录文本的文本语义特征，最后结合可能存在对话关系的两条微信聊天记录文本的对话文本场景信息和文本语义特征对两条微信聊天记录文本的上下文关系进行预测，输出两条微信聊天记录文本属于上下文关系的概率，通过对比每条微信聊天记录文本与其他各条微信聊天记录文本属于上下文关系的概率，选择上下文关系概率最大的两条微信聊天记录文本对其建立对话关系，实现微信聊天记录的对话识别。

在一个具体的实施例中，本发明提供一种微信聊天记录的识别输入输出示例，详见图2。

如图2所示，在输入部分，针对某一特定微信群，将聊天信息与发言者绑定，并确定每条记录的发言时间，并按照时间顺序建立编号索引。例如：第一条信息可以表示为“(1,A,2019-03-19 20:08:01,‘有好的医院推荐下吗？’)”。

在输出部分，采用JSON字符串的方式实现结果的便捷传输，其中“data”代表整个文本中对话识别情况，图2右下角中的输出可以解释为，索引为2的聊天记录，回应索引为1的概率为99.2％，即“去肿瘤医院吧”回应“有好的医院推荐下吗？”的概率为99.2％。

本发明提供多样化的输入方式，用户可以通过直接网页输入文本，也可以通过上传固定格式的Excel表格和TXT文本，又或者利用编程语言(Java、Python、C++等)调用模型的API实现高效、个性化的输入。输入的内容应包含单个群一段时间的聊天记录，包括聊天内容、相对时间、发言者编号。

整个微信群聊天记录在线识别系统可以划分为三个模块：数据预处理、文本对话场景信息分类模型与对话识别模型。首先，数据预处理是指针对微信群聊天中口语化与碎片化的特征，将文本进行自动化合并、错别字纠正与分词等一系列操作，并根据文本所属领域的差别，进行更深层次的文本表示模型或预训练模型的领域适配。在保证文本内容的前提下，更好的向后续分类模型传递语义信息。

其次是文本对话场景信息分类模型，在完成文本信息的预处理之后，获得了每条文本聊天记录的词向量表示，并基于社会支持理论将文本的对话场景进行类别划分，可以按照五个类别进行划分：提供信息支持、获得信息支持、提供情感支持、获取情感支持和陪伴。这五种类别互相独立，即每条文本的对话场景既可以是在为别人提供信息支持，同时也可以提供情感帮助。在文本对话场景信息分类过程中，输入的是文本的词向量表示，通过WordEmbedding的方式，将长文本转化为多个词向量的合并，合并得到的文本向量，然后通过四层双向LSTM模型提取文本信息，最后使用三层全连接神经网络实现对话文本场景信息分类并输出，输出结果为5维向量，例如：(1,0,1,0,0)，此向量代表输入的文本类别为提供信息支持和提供情感支持，但没有获得信息支持和情感支持，也没有表达陪伴的意愿。

最后是对话识别模型，需要依赖两部分特征：对话场景信息类别特征和文本语义特征。对话场景信息类别特征由文本对话场景信息分类模型获得，上下文两句话经过模型分类可得到10维向量。与此同时，文本语义特征的提取过程中采用BERT预训练模型，BERT模型采用多层Transformer结构堆叠而成，可以根据微信群所处的特定领域文本对公开的预训练模型文本进行适当的领域适配训练得到，能够实现更加准确的文本语义理解。在语义特征提取过程中，对话文本信息需要经过文本拼接与特定的Embedding处理，处理方式如图3所示，整个过程可大致划分为四个部分：

第一部分：将文本进行特定的编码处理，在最开始的位置，添加“[CLS]”作为文本的开始，并在两句话中间添加“[SEP]”作为分隔符；

第二部分：TokenEmbeddings表示使用特定数字索引代表具体的中文文字，实现文字的向量化表示，例如“天”可以用“1921”表示；

第三部分：SegmentEmbeddings可以区分文本的位置，特殊标识“[SEP]”将整个文本拆分成了两段，例如图3示例，“[SEP]”前面的文本被标记为0，后面的文本标记为1，实现了两句话的区分；

第四部分：PositionEmbeddings表示对于文本中文字之间相对位置的区分，“[CLS]”的位置索引可以用0表示，代表文本的第一个字符，所以为1代表第二个字符“明”，依此类推，按照位置依次加一，最大为511。

在对文本进行正确的编码之后，输入到BERT模型，即可得到两句话对应的完整语义信息，通常而言，BERT模型输出层第一个字符“[CLS]”对应的768维向量即可代表对话文本的语义特征。基于此，将文本语义信息与对话文本的语义特征进行拼接，组成778维向量，作为全连接神经网络的输入，完成对话文本中两句话的上下文关系预测，输出两句话属于上下文关系的概率，模型结构如图4所示。通过对比当前文本与候选文本集中所有文本的关系概率，并选择上下文关系概率最大的文本建立对话关系，最终实现微信群的对话识别。

在经过上述三个模块的处理，本发明将一段微信群聊天文本中每条对话都进行了对话匹配，匹配结果如图2输出判定结果所示，图中结果代表“去肿瘤医院吧”这段文本回应第一句话的概率是99.2％。输入的每条聊天记录都可以得到对应的上下文关系预测数据，组成JSON数据返回结果。

本发明提供一套训练方案和初始模型。通常而言，医疗、学术、信息技术等微信群的主题不同，专有名词、对话文本之间的差异也就越大，因此当用户想要实现更好的对话识别效果，需要利用特定领域的文本语料对模型进行领域适配与微调。本发明的初始模型选择的是由谷歌发布的BERT预训练模型，经由大规模全领域的文本数据训练而成，在某些特定的领域仍然存在提升空间。因此，利用特定领域的文本数据进行模型的领域适配能够提升对话识别模型的效果。例如，使用好大夫在线的医患问答数据构建句子邻接关系预测训练完成医疗领域的适配；利用小木虫论坛交流数据构建遮蔽语言模型进行学术领域的适配。

此外，还可以通过对话识别模型的微调提升效果，在微调时，需要准备充足的且已经完成标注的语料(不小于1w条微信群聊天记录)，并对文本数据进行完整的文本预处理流程，包括短文本合并、分词等操作，已经针对特定文本进行合理的词向量训练，保证训练语料达到模型的输入要求。在完成语料的准备工作之后，并在对应的硬件资源上配置完成训练代码和初始模型，用户就可以按照特定思路进行参数调整和模型评价，最终根据不同的需求产出不同的模型，从而达到针对特定领域优化的目的。

图5是本发明实施例提供的融合会话场景信息的微信群聊天记录识别系统架构图，如图5所示，包括：

聊天记录文本获取单元510，用于获取微信聊天记录文本，并对微信聊天记录文本进行预处理，所述预处理包括：结合聊天记录的会话场景信息进行连续文本合并、分词以及文本领域适配；

场景类别划分单元520，用于基于预处理后的结果，确定每条微信聊天记录文本的词向量表示，并基于社会支持理论将每条微信聊天记录文本的对话场景进行类别划分，输出每条微信聊天记录文本对应的分类向量，所划分的类别包括以下几种：提供信息支持、获得信息支持、提供情感支持、获取情感支持以及陪伴；以及将微信聊天记录文本中两条微信聊天记录文本对应的分类向量合并，得到对应的对话文本场景信息；

对话识别单元530，用于对所述微信聊天记录文本进行编码，基于经过领域适配的BERT模型提取得到任意两条微信聊天记录文本的文本语义特征，最后结合可能存在对话关系的两条微信聊天记录文本的对话文本场景信息和文本语义特征对两条微信聊天记录文本的上下文关系进行预测，输出两条微信聊天记录文本属于上下文关系的概率，通过对比每条微信聊天记录文本与其他各条微信聊天记录文本属于上下文关系的概率，选择上下文关系概率最大的两条微信聊天记录文本对其建立对话关系，实现微信聊天记录的对话识别。

具体地，图5中各个单元的详细功能可参见前述方法实施例中的介绍，在此不做赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合会话场景信息的微信聊天记录识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的微信聊天记录识别方法，其特征在于，所述对微信聊天记录文本进行预处理，具体为：

3.根据权利要求1所述的微信聊天记录识别方法，其特征在于，所述基于社会支持理论将每条微信聊天记录文本的对话场景进行类别划分，输出每条微信聊天记录文本对应的分类向量，具体为：

在文本对话场景信息分类过程中，输入的是文本的词向量表示，通过Word Embedding的方式，将长文本转化为多个词向量的合并，合并得到的文本向量，然后通过四层双向LSTM模型提取文本信息，最后使用三层全连接神经网络实现对话文本场景信息分类并输出，输出结果为5维向量；各维向量元素的数值分别指示输入文本的类别是否为：提供信息支持、获得信息支持、提供情感支持、获取情感支持和陪伴，当该维向量元素的数值为1时表示是，为0时表示否。

4.根据权利要求3所述的微信聊天记录识别方法，其特征在于，将可能存在对话关系的两条微信聊天记录文本的分类向量合并得到10维向量；

5.一种融合会话场景信息的微信聊天记录识别系统，其特征在于，包括：

6.根据权利要求5所述的微信聊天记录识别系统，其特征在于，所述聊天记录文本获取单元对微信聊天记录文本进行预处理，具体为：针对微信聊天记录文本中口语化与碎片化的特征，将微信聊天记录文本进行连续文本自动化合并与分词操作，并根据微信聊天记录文本所在微信群的领域，对聊天记录文本进行领域适配。

7.根据权利要求5所述的微信聊天记录识别系统，其特征在于，所述场景类别划分单元基于社会支持理论将每条微信聊天记录文本的对话场景进行类别划分，输出每条微信聊天记录文本对应的分类向量，具体为：在文本对话场景信息分类过程中，输入的是文本的词向量表示，通过Word Embedding的方式，将长文本转化为多个词向量的合并，合并得到的文本向量，然后通过四层双向LSTM模型提取文本信息，最后使用三层全连接神经网络实现对话文本场景信息分类并输出，输出结果为5维向量；各维向量元素的数值分别指示输入文本的类别是否为：提供信息支持、获得信息支持、提供情感支持、获取情感支持和陪伴，当该维向量元素的数值为1时表示是，为0时表示否。

8.根据权利要求7所述的微信聊天记录识别系统，其特征在于，所述对话识别单元将可能存在对话关系的两条微信聊天记录文本的分类向量合并得到10维向量；所述微信聊天记录文本来自微信群；根据微信群所处的领域对BERT模型进行领域适配；对所述微信聊天记录文本进行Embedding处理以对文本进行编码，将编码后的文本输入到领域适配后的BERT模型，提取得到任意两条微信聊天记录文本的文本语义特征；将可能存在对话关系的两条微信聊天记录文本的对话文本场景信息与文本语义特征进行拼接，将拼接后的向量作为全连接神经网络的输入，以对两条微信聊天记录文本的上下文关系进行预测，输出两条微信聊天记录文本属于上下文关系的概率。