CN110705250A

CN110705250A - 一种用于识别聊天记录中目标内容的方法与系统

Info

Publication number: CN110705250A
Application number: CN201910900122.9A
Authority: CN
Inventors: 陆晨昱; 舒畅; 李竹桥; 刘尧; 李先云; 郑思璇; 朱婷婷; 祁丽华
Original assignee: Semantic Intelligent Technology (guangzhou) Co Ltd
Current assignee: Semantic Intelligent Technology (guangzhou) Co Ltd
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2020-01-17

Abstract

本申请通过一种用于识别聊天记录中目标内容的方法，首先获取待识别的聊天记录，接着基于所述待识别的聊天记录确定多个对话块，其中，每个对话块包括一条待识别的聊天记录以及包括该条聊天记录在内的、预设数目的连续聊天记录，然后将所述多个对话块输入经过训练的神经网络模型，获得每个对话块所对应的每条待识别的聊天记录是否是目标内容的预测值，最后将所述预测值达到预设阈值的待识别的聊天记录确定为目标内容。通过该方法识别聊天记录中的目标内容，适用于快速、高效地识别海量聊天记录中的目标内容，特别是对于上下文有语义关联的聊天记录中目标内容的识别非常有效。

Description

一种用于识别聊天记录中目标内容的方法与系统

技术领域

本申请涉及网络信息安全技术领域，尤其涉及一种用于识别聊天记录中目标内容的技术。

背景技术

随着信息时代网络的普及，网络上的信息越来越多，人们使用各种社交、聊天工具随时随地都可以连接网络上传信息，聊天互动，其中不乏有人利用网络的便利传递非法内容，有必要对聊天内容及时进行识别，对非法内容进行处理。

识别聊天内容的过程也就是对内容作标识进而识别的过程。在内容数据量不大的情况下完全可以由人工来完成，然而在信息网络时代，海量数据量使得人工方法变得不可行，通常采用的识别方法是基于关键词对待识别的聊天记录进行检索。

但是，基于关键词检索的方法只关注聊天内容中是否出现了特定的关键词，由于关键词表达的差异性，例如，同样的内容往往有多重不同的表达，不同的人表达方式往往差异很大，因此，基于关键词识别的方式识别率较低。

发明内容

为了快速、更有效地识别聊天记录中的非法内容，本申请的目的是提供一种用于识别聊天记录中目标内容的方法与系统。

根据本申请的一个方面，提供了一种用于识别聊天记录中目标内容的方法，其中，所述方法包括：

获取待识别的聊天记录；

基于所述待识别的聊天记录确定多个对话块，其中，每个对话块包括一条待识别的聊天记录以及包括该条聊天记录在内的、预设数目的连续聊天记录；

将所述多个对话块输入经过训练的神经网络模型，获得每个对话块所对应的每条待识别的聊天记录是否是目标内容的预测值；

将所述预测值达到预设阈值的待识别的聊天记录确定为目标内容。

优选地，所述将所述多个对话块输入经过训练的神经网络模型，获得每个对话块所对应的每条待识别的聊天记录是否是目标内容的预测值之前，所述方法还包括：

对所述对话块中的每条聊天记录进行预处理。

优选地，所述将所述预测值达到预设阈值的待识别的聊天记录确定为目标内容之前，所述方法还包括：

基于预设长度的平滑窗口确定每条待识别的聊天记录平滑之后的预测值，其中，每个平滑窗口内包括每条待识别的聊天记录在内的、与该预设长度对应数目的连续聊天记录，该平滑之后的预测值基于平滑窗口内的所有待识别的聊天记录的预测值的均值确定。

优选地，所述一种用于识别聊天记录中目标内容的方法还包括：

当对话块中待识别的聊天记录的长度超过预设阈值，对所述待识别的聊天记录进行简化处理。

优选地，其中，所述构建所述经过训练的神经网络模型包括：

从样本聊天记录中获取已标注的目标聊天记录；

将包括所述目标聊天记录在内的预设数目的连续聊天记录，作为正样本；

将从所述样本聊天记录中抽取的、不包括所述目标聊天记录的、相同预设数目的连续聊天记录，作为负样本；

将所述正样本及负样本组成的训练数据集输入神经网络模型进行训练直至满足预设的训练阈值，获得构建后的所述经过训练的神经网络模型。

对所述正样本及负样本中的每条聊天记录进行预处理。

根据本申请的另一方面，还提供了一种用于识别聊天记录中目标内容的方法，其中，所述方法包括：

获取待识别的聊天记录；

基于与目标内容相关的关键词，确定所述待识别的聊天记录中与目标内容相关的一条或多条目标聊天记录；

将包括所述每条目标聊天记录在内的、预设数目的连续聊天记录确定为一个对话块；

将关于所述目标聊天记录的对话块输入经过训练的神经网络模型，获得每个对话块所对应的每条待识别的目标聊天记录是否是目标内容的预测值；

将所述预测值达到预设阈值的目标聊天记录确定为目标内容。

根据本申请的另一方面，还提供了一种用于识别聊天记录中目标内容的系统，其中，所述系统包括：

获取模块，用于获取待识别的聊天记录；

分块模块，用于基于所述待识别的聊天记录确定多个对话块，其中，每个对话块包括一条待识别的聊天记录以及包括该条聊天记录在内的、预设数目的连续聊天记录；

神经网络模块，用于将所述多个对话块输入经过训练的神经网络模型，获得每个对话块所对应的每条待识别的聊天记录是否是目标内容的预测值；

识别模块，用于将所述预测值达到预设阈值的待识别的聊天记录确定为目标内容。

与现有技术相比，本申请通过一种用于识别聊天记录中目标内容的方法，首先获取待识别的聊天记录，接着基于所述待识别的聊天记录确定多个对话块，其中，每个对话块包括一条待识别的聊天记录以及包括该条聊天记录在内的、预设数目的连续聊天记录，然后将所述多个对话块输入经过训练的神经网络模型，获得每个对话块所对应的每条待识别的聊天记录是否是目标内容的预测值，最后将所述预测值达到预设阈值的待识别的聊天记录确定为目标内容。通过该方法识别聊天记录中的目标内容，可快速、高效地识别海量聊天记录中的目标内容，特别是对于上下文有语义关联的聊天记录中目标内容的识别非常有效。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个方面的一种用于识别聊天记录中目标内容的方法流程图；

图2示出根据本申请一个方面的另一个实施例的一种用于识别聊天记录中目标内容的方法流程图；

图3示出根据本申请另一个方面的一种用于识别聊天记录中目标内容的系统框图；

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

在本申请一个典型的配置中，系统各模块和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

为更进一步阐述本申请所采取的技术手段及取得的效果，下面结合附图及优选实施例，对本申请的技术方案，进行清楚和完整的描述。

图1示出本申请一个方面的一种用于识别聊天记录中目标内容的方法流程图，其中，一个实施例的方法包括：

S11获取待识别的聊天记录；

S12基于所述待识别的聊天记录确定多个对话块，其中，每个对话块包括一条待识别的聊天记录以及包括该条聊天记录在内的、预设数目的连续聊天记录；

S13将所述多个对话块输入经过训练的神经网络模型，获得每个对话块所对应的每条待识别的聊天记录是否是目标内容的预测值；

S14将所述预测值达到预设阈值的待识别的聊天记录确定为目标内容。

在本申请中，所述方法通过设备1执行，所述设备1为计算机设备和/或云，所述计算机设备包括但不限于个人计算机、笔记本电脑、工业计算机、网络主机、单个网络服务器、多个网络服务器集；所述云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。

在此，所述计算机设备和/或云仅为举例，其他现有的或者今后可能出现的设备和/或资源共享平台如适用于本申请也应包含在本申请的保护范围内，在此，以引用的方式包含于此。

在该实施例中，在所述步骤S11中，设备1获取所述待识别的聊天记录，所述待识别的聊天记录是指通过包括但不限于移动终端或计算机等设备上的社交、聊天或其它具有内容发布功能的应用程序发布到网络，并传递给特定或不特定对象的各种文本聊天内容，也可以是可通过转换工具转换成文本的语音或其它聊天内容，如是语音或其它形式的聊天内容，其转换后的文本内容作为本案中所述待识别的聊天记录。在此不做具体限定。

继续在该实施例中，在所述步骤S12中，基于所述待识别的聊天记录确定多个对话块，其中，每个对话块包括一条待识别的聊天记录以及包括该条聊天记录在内的、预设数目的连续聊天记录。

其中，待识别的聊天记录中的每一条聊天记录对应一个对话块，每个对话块包括一条待识别的聊天记录以及包括该条聊天记录在内的、预设数目的连续聊天记录，具体地，一个对话块包含预设数目条聊天记录，可以对应确定由一条待识别的聊天记录以及其前后对应多条连续聊天记录组成，也可以对应确定由一条待识别的聊天记录以及其前面或后面多条连续聊天记录组成，其中，各对话块不要求字符数量相同，即各对话块中的文本字数可能不同，文本长度可能不同，但各对话块包含的聊天记录条数都是预设数目。

例如，假设按一个对话块对应确定由一条待识别的聊天记录以及其前后对应多条连续聊天记录组成，待识别的聊天记录有n条聊天记录，对话块包含预设数目为N条连续聊天记录(为便于描述，此处N为奇数，N如预设为偶数同样可适用)n条聊天记录可确定有n个对话块，对话块A对应确定由一条待识别的聊天记录a以及其前后对称的a-(N-1)/2、…、a+(N-1)/2共N条连续聊天记录组成，特别地，待识别的聊天记录中的起始(N-1)/2条和最后(N-1)/2条聊天记录对应的对话块包含的连续聊天记录数会少于N条。

假设，N预设是5，那么每个对话块包含5条聊天记录，包括对应的1条聊天记录以及该聊天记录前2条聊天记录和后2条聊天记录，起始第1条聊天记录对应的对话块包含第1～3条聊天记录，起始第2条聊天记录对应的对话块包含第1～4条聊天记录，倒数第2条聊天记录对应的对话块包含倒数第1～4条聊天记录，倒数第1条聊天记录对应的对话块包含倒数第1～3条聊天记录，其它每条聊天记录对应的对话块都包含5条聊天记录(对应的聊天记录以及其前2条聊天记录和其后2条聊天记录)。

优选地，基于所述待识别的聊天记录确定对话块后，对所述对话块中的每条聊天记录进行预处理。其中，所述预处理包括但不限于对每条聊天记录的文本做分词、归一化、简繁转换等操作。具体地，对每条聊天记录的文本进行分词以及归一化处理，例如，对英文字母、数字、标点符号的多种形式进行归一化，统一成一种形式，比如全角/半角的转换，大小写的转换等，进一步地，检测是否存在繁体字，如有则做简繁转换，统一转换成简体字，为后续进一步识别作准备。

优选地，如果对话块中待识别的聊天记录的长度超过设备1可允许的上限预设阈值，对所述该条待识别的聊天记录进行简化处理，包括但不限于去除明显无实际意义的词、字或公式符号等，或者是对该条待识别的聊天记录进行截取分句。

继续在该实施例中，在所述步骤S13中，所述将所述多个对话块输入经过训练的神经网络模型，获得每个对话块所对应的每条待识别的聊天记录是否是目标内容的预测值。其中，将处理好的对话块输入经过训练的神经网络模型，每个对话块，也就是每条聊天记录对应一个输出值。

优选地，构建所述经过训练的神经网络模型包括：

S131(未示出)从样本聊天记录中获取已标注的目标聊天记录；

S132(未示出)将包括所述目标聊天记录在内的预设数目的连续聊天记录，作为正样本；

S133(未示出)将从所述样本聊天记录中抽取的、不包括所述目标聊天记录的、相同预设数目的连续聊天记录，作为负样本；

S134(未示出)将所述正样本及负样本组成的训练数据集输入神经网络模型进行训练直至满足预设的训练阈值，获得构建后的所述经过训练的神经网络模型。

在所述步骤S131中，所述从样本聊天记录中获取已标注的目标聊天记录。其中，获取各种聊天记录作为样本，针对确定的目标内容，例如包含涉毒、涉黄、涉赌、邪教、拐卖等非法内容，将此类目标内容从样本聊天记录中标注出来，获取、归集已标注的目标聊天记录。

在所述步骤132中，所述将包括所述目标聊天记录在内的预设数目的连续聊天记录，作为正样本。其中，在样本聊天记录中将已标注的目标聊天记录以及前后连续多条聊天记录一起组成一个正样本，其中，正样本中聊天记录条数应是预设数目(此预设数目应与S12中的预设数目相同)，每条已标注的目标聊天记录对应一个正样本。进一步地，也可以继续细分针对每一类别标注目标聊天记录，例如，包含涉毒内容标注为正样本1，包含涉黄内容标注为正样本2，包含涉赌内容标注为正样本3，等等。

在所述步骤S133中，所述将从所述样本聊天记录中抽取的、不包括所述目标聊天记录的、相同预设数目的连续聊天记录，作为负样本。其中，排除已标注的目标聊天记录，从剩下的样本聊天记录中选择，每连续预设数目(此预设数目应与S12中的预设数目相同)条聊天记录一起组成一个负样本。

在所述步骤S134中，所述将所述正样本及负样本组成的训练数据集输入神经网络模型进行训练直至满足预设的训练阈值，获得构建后的所述经过训练的神经网络模型。其中，正样本数量和负样本数量应能足够多的，组成的训练数据集应保证满足神经网络模型的训练，直至获得满足预设的训练阈值。

原则上任何可以将文本输入转为类别标签输出的神经网络模型都适用，神经网络模型选择主要考虑比如模型大小、训练时初始参数的设置、数据集等等因素，例如，神经网络模型可是编码器选择transformer模型，再加上softmax分类器组成。其中，编码器负责将文本输入转化为一个连续空间中的稠密向量，分类器负责将不同文本编码后得到的向量映射到所有类别的概率分布空间，最后选取概率最大的类别作为输出结果。分类器设置个数应与类别数量相同，例如，如果有正样本1、正样本2、正样本3和负样本共四个类别，那么分类器应设置为四个。

具体地，参照一般的神经网络训练方法，将训练数据集中的训练样本(一类或多类正样本及负样本)组成的mini-batch输入模型，其中，在每一次迭代训练之前，对数据进行随机混洗，然后创建mini-batches，因为这些mini-batches是随机的，对每一个mini-batch，用SGD(Stochastic Gradient Descent，随机梯度下降)法或SGD法的一些变种方法(例如，加入了动量或自适应学习率)训练网络权重，优化模型的损失函数，直至获得满足预设的精度。

基于预设长度的平滑窗口确定平滑之后的每条待识别的聊天记录的预测值，其中，每个平滑窗口内包括每条待识别的聊天记录在内的、与该预设长度对应数目的连续聊天记录，该平滑之后的预测值基于平滑窗口内的所有待识别的聊天记录对应对话块的预测值的均值确定。

例如，假设平滑窗口的预设长度为M，该预设长度可以与对话块包含的连续聊天记录条数相同或者不同，当前待识别聊天记录a对应的对话块A(包含N条连续聊天记录：a-(N-1)/2、…、a、…、a+(N-1)/2)，经输入训练后的神经网络模型后，获得关于聊天记录a对应的得分，用以表示聊天记录a是否属于目标内容的概率值。

对聊天记录a的得分做平滑处理，就是将包含a在内的连续的M条聊天记录的得分做平滑处理，即取在平滑窗口内的M条聊天记录的得分的算术平均值，作为聊天记录a的得分。对每条聊天记录都做平滑处理，最后得出每条聊天记录平滑后的得分，作为每条待识别的聊天记录的预测值。

继续在该实施例中，在所述步骤S14中，所述将所述预测值达到预设阈值的待识别的聊天记录确定为目标内容。

其中，所述预设阈值通过大量样本数据训练神经网络模型获得。进一步地，可通过人工校验所述目标内容的确认是否无误，以纠正神经网络模型的误判。而且，将待识别聊天记录，特别是误判的聊天记录作为新的样本，预处理后加入数据训练集，可继续训练、优化神经网络模型。

图2示出根据本申请一个方面的另一个实施例的一种用于识别聊天记录中目标内容的方法流程图，其中，所述方法包括：

S21获取待识别的聊天记录；

S22基于与目标内容相关的关键词，确定所述待识别的聊天记录中与目标内容相关的一条或多条目标聊天记录；

S23将包括所述每条目标聊天记录在内的、预设数目的连续聊天记录确定为一个对话块；

S24将关于所述目标聊天记录的对话块输入经过训练的神经网络模型，获得每个对话块所对应的每条待识别的目标聊天记录是否是目标内容的预测值；

S25将所述预测值达到预设阈值的目标聊天记录确定为目标内容。

在该实施例中，在所述步骤S21中，设备1获取所述待识别的聊天记录，所述待识别的聊天记录是指通过包括但不限于移动终端或计算机等设备上的社交、聊天或其它具有内容发布功能的应用程序发布到网络，并传递给特定或不特定对象的各种文本聊天内容，也可以是通过转换工具转换成文本的语音或其它聊天内容，在此不做具体限定。如是语音或其它形势聊天内容，其转换后的文本内容作为本申请中所述待识别的聊天记录。

继续在该实施例中，在所述步骤S22中，基于与目标内容相关的关键词，确定所述待识别的聊天记录中与目标内容相关的一条或多条目标聊天记录。其中，关键词由本领域专家创建并维护一个与识别目标内容有关的关键词列表，包括但不限于关键词本身，与关键词含义相同或相近的同义字、词，可直接引申出于关键词含义相同或相近的字、词等等。基于与目标内容相关的关键词，确定所述待识别的聊天记录中与目标内容相关的一条或多条目标聊天记录，可无需对每条聊天记录进行识别，只需识别与目标内容相关的部分聊天记录。对于那些聊天内容相对简单，明显不存在基于上下文语义确认内容的聊天记录可以减少后续处理数据量、提高识别效率。

继续在该实施例中，在所述步骤S23中，将包括所述每条目标聊天记录在内的、预设数目的连续聊天记录确定为一个对话块。其中，每一条目标聊天记录对应一个对话块，每个对话块包括该条目标聊天记录在内的、预设数目的连续聊天记录，具体地，一个对话块可以对应确定由一条目标聊天记录以及其前后对应多条连续聊天记录组成，也可以对应确定由一条目标聊天记录以及其前面或后面多条连续聊天记录组成，其中，聊天记录数目为预定数目。

继续在该实施例中，在所述步骤S24中，将关于所述目标聊天记录的对话块输入经过训练的神经网络模型，获得每个对话块所对应的每条待识别的目标聊天记录是否是目标内容的预测值。其中，将对话块输入经过训练的神经网络模型，每个对话块，也就是每条目标聊天记录对应一个输出值。

在此，构建所述经过训练的神经网络模型包括步骤S131～S134。

继续在该实施例中，在所述步骤S25中，将所述预测值达到预设阈值的目标聊天记录确定为目标内容。

其中，所述预设阈值通过大量样本数据训练神经网络模型获得。进一步地，可通过人工校验所述目标内容的确认是否无误，以纠正神经网络模型的误判。而且，将待识别聊天记录作为新的样本，预处理后加入数据训练集，可继续训练、优化神经网络模型。

图3示出根据本申请另一个方面的一种用于识别聊天记录中目标内容的系统框图，其中，所述系统包括：

获取模块31，用于获取待识别的聊天记录；

分块模块32，用于基于所述待识别的聊天记录确定多个对话块，其中，每个对话块包括一条待识别的聊天记录以及包括该条聊天记录在内的、预设数目的连续聊天记录；

神经网络模块33，用于将所述多个对话块输入经过训练的神经网络模型，获得每个对话块所对应的每条待识别的聊天记录是否是目标内容的预测值；

识别模块34，用于将所述预测值达到预设阈值的待识别的聊天记录确定为目标内容。

根据本申请的又一方面，还提供了一种计算机可读介质，所述计算机可读介质存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现前述方法。

根据本申请的又一方面，还提供了一种用于识别聊天记录中目标内容的设备，其中，该设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如前述方法的操作。

例如，计算机可读指令在被执行时使所述一个或多个处理器：获取待识别的聊天记录；基于所述待识别的聊天记录确定多个对话块，其中，每个对话块包括一条待识别的聊天记录以及包括该条聊天记录在内的、预设数目的连续聊天记录；将所述多个对话块输入经过训练的神经网络模型，获得每个对话块所对应的每条待识别的聊天记录是否是目标内容的预测值；将所述预测值达到预设阈值的待识别的聊天记录确定为目标内容。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种用于识别聊天记录中目标内容的方法，其特征在于，所述方法包括：

获取待识别的聊天记录；

2.根据权利要求1所述的方法，其特征在于，所述将所述多个对话块输入经过训练的神经网络模型，获得每个对话块所对应的每条待识别的聊天记录是否是目标内容的预测值之前，所述方法还包括：

对所述对话块中的每条聊天记录进行预处理。

3.根据权利要求1所述的方法，其特征在于，所述将所述预测值达到预设阈值的待识别的聊天记录确定为目标内容之前，所述方法还包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1至3任一项所述的方法，其特征在于，构建所述经过训练的神经网络模型包括：

从样本聊天记录中获取已标注的目标聊天记录；

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

对所述正样本及负样本中的每条聊天记录进行预处理。

7.一种用于识别聊天记录中目标内容的方法，其特征在于，所述方法包括：

获取待识别的聊天记录；

8.一种用于识别聊天记录中目标内容的系统，其特征在于，所述系统包括：

获取模块，用于获取待识别的聊天记录；

9.一种计算机可读介质，其中，

其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1至7中任一项所述的方法。

10.一种用于识别聊天记录中目标内容的设备，其中，该设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如权利要求1至7中任一项所述方法的操作。