CN106372062A

CN106372062A - 一种通讯消息中非文明用语的识别方法及装置

Info

Publication number: CN106372062A
Application number: CN201610824480.2A
Authority: CN
Inventors: 陈包容
Original assignee: Changsha Dove Software Co Ltd
Current assignee: Changsha Dove Software Co Ltd
Priority date: 2016-09-18
Filing date: 2016-09-18
Publication date: 2017-02-01

Abstract

本发明提供的通讯消息中非文明用语的识别方法及装置，通过采集训练样本的与预设的语境属性条目对应的语境属性内容，并基于语境属性内容和训练样本的词向量提取训练样本的特征向量，以及基于提取的特征向量训练用于识别非文明用语的非文明用语识别模型，并最后根据训练好的非文明用语识别模型，确定待识别的通讯消息中是否包含非文明用语，解决了现有技术没有结合通讯消息的语义语境识别非文明用语，导致识别不准确的技术问题，通过采集训练样本的与预设的语境属性条目对应的语境属性内容以及基于训练样本的词向量训练出结合语义语境识别非文明用语的识别模型，使得根据该识别模型识别非文明用语的准确度高，适用性强。

Description

一种通讯消息中非文明用语的识别方法及装置

技术领域

本发明涉及通信技术领域，具体涉及一种通讯消息中非文明用语的识别方法及装置。

背景技术

随着互联网技术的发展，互联网即时通讯产品得以广泛使用。人们借助即时通讯工具实现了简单快捷的交流。这些沟通过程以文字、图片、声音等为载体形成通讯消息，然后通过互联网由一个网络终端发送给另一个使用即时通讯工具的网络终端，给人们生活带来极大便利。

但是，通讯消息作为传达人们思想、意志、情感、欲求的介质，也可能会被一些人从事不文明的网络行为，甚至一些非法分子通过通讯消息传播违法犯罪内容，比如将涉及色情、暴力等非法内容的通讯消息进行大面积的“广播”。为净化网络环境，需要一个“过滤器”对这些通讯消息进行检查，以剔除或屏蔽非文明用语信息。现有对通讯消息中的非文明用语进行识别主要采用匹配的方式，即将通讯消息与预先建立的非文明用语数据库进行匹配，从而识别出非文明用语。采用这种匹配方式识别非文明用语没有考虑通讯消息的语义或语境。例如两个关系亲昵的通讯终端之间发送或接收包含“傻瓜”的通讯信息，系统也可能将该通讯消息识别为非文明用语，并将其屏蔽或过滤，从而导致非文明用语识别不准确。故亟需提供一种结合通讯消息语义或语境的通讯消息中非文明用语的识别方法及装置。

发明内容

本发明提供了一种通讯消息中非文明用语的识别方法及装置，以解决现有技术没有结合通讯消息的语义语境识别非文明用语，导致识别不准确的技术问题。

根据本发明的一方面，提供了一种通讯消息中非文明用语的识别方法，包括：

预先设定语境属性条目；

采集训练样本的与语境属性条目对应的语境属性内容，其中，训练样本包括包含非文明用语和不包含非文明用语训练样本;

基于训练样本的词向量以及语境属性内容，提取训练样本的特征向量；

根据特征向量训练分类器，获得非文明用语识别模型；

根据非文明用语识别模型，确定待识别的通讯消息中是否包含非文明用语。

进一步地，基于训练样本的词向量以及语境属性内容，提取训练样本的特征向量包括：

将训练样本转换为词向量；

对语境属性内容进行归一化；

基于词向量与归一化后的语境属性内容，获得训练样本的特征向量。

进一步地，根据非文明用语识别模型，确定待识别的通讯消息中是否包含非文明用语包括：

对待识别的通讯消息进行分词，获得分词文本；

采集每一个分词文本的与语境属性条目对应的语境属性内容，获得分词语境内容；

结合每一个分词文本的词向量和分词语境内容，获得每一个分词文本的特征向量；

将每一个分词文本的特征向量依次输入非文明用语识别模型，识别通讯消息中是否包含非文明用语。

进一步地，识别通讯消息中包含非文明用语之后包括：

将非文明用语替换为与之语义相同的文明用语或屏蔽非文明用语。

进一步地，语境属性条目包括：

上下文条目、时间条目、地点条目、天气条目、发送和接收通讯消息的终端的关系条目、发送和/或接收通讯消息的终端的性别、年龄条目中的一种或多种。

根据本发明的另一方面，提供了一种通讯消息中非文明用语的识别装置，包括：

语境属性条目预设装置，用于预先设定语境属性条目；

采集装置，用于采集训练样本的与语境属性条目对应的语境属性内容，其中，训练样本包括包含非文明用语和不包含非文明用语训练样本;

特征向量提取装置，用于基于训练样本的词向量以及语境属性内容，提取训练样本的特征向量；

训练装置，用于根据特征向量训练分类器，获得非文明用语识别模型；

识别装置，用于根据非文明用语识别模型，确定待识别的通讯消息中是否包含非文明用语。

进一步地，特征向量提取装置包括：

转换装置，用于将训练样本转换为词向量；

归一化装置，用于对语境属性内容进行归一化；

特征向量获取装置，用于基于词向量与归一化后的语境属性内容，获得训练样本的特征向量。

进一步地，识别装置包括：

分词装置，用于对待识别的通讯消息进行分词，获得分词文本；

分词语境内容获取装置，用于采集每一个分词文本的与语境属性条目对应的语境属性内容，获得分词语境内容；

分词文本特征向量获取装置，用于结合每一个分词文本的词向量和分词语境内容，获得每一个分词文本的特征向量；

非文明用语识别装置，用于将每一个分词文本的特征向量依次输入非文明用语识别模型，识别通讯消息中是否包含非文明用语。

进一步地，通讯消息中非文明用语的识别装置还包括：

替换装置，用于将非文明用语替换为与之语义相同的文明用语或屏蔽非文明用语。

本发明具有以下有益效果：

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构建本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构建对本发明的不当限定。在附图中：

图1是本发明优选实施例的通讯消息中非文明用语的识别方法流程图；

图2是本发明优选实施例针对的一个精简实施例的通讯消息中非文明用语的识别方法流程图；

图3是本发明优选实施例的通讯消息中非文明用语的识别装置结构框图。

附图标记说明：

10、语境属性条目预设装置；20、采集装置；30、特征向量提取装置；40、训练装置；50、识别装置。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

参照图1，本发明的优选实施例提供了一种通讯消息中非文明用语的识别方法，包括：

步骤S101，预先设定语境属性条目；

步骤S102，采集训练样本的与语境属性条目对应的语境属性内容，其中，训练样本包括包含非文明用语和不包含非文明用语训练样本;

步骤S103，基于训练样本的词向量以及语境属性内容，提取训练样本的特征向量；

步骤S104，根据特征向量训练分类器，获得非文明用语识别模型；

步骤S105，根据非文明用语识别模型，确定待识别的通讯消息中是否包含非文明用语。

本发明提供的通讯消息中非文明用语的识别方法，通过采集训练样本的与预设的语境属性条目对应的语境属性内容，并基于语境属性内容和训练样本的词向量提取训练样本的特征向量，以及基于提取的特征向量训练用于识别非文明用语的非文明用语识别模型，并最后根据训练好的非文明用语识别模型，确定待识别的通讯消息中是否包含非文明用语，解决了现有技术没有结合通讯消息的语义语境识别非文明用语，导致识别不准确的技术问题，通过采集训练样本的与预设的语境属性条目对应的语境属性内容以及基于训练样本的词向量训练出结合语义语境识别非文明用语的识别模型，使得根据该识别模型识别非文明用语的准确度高，适用性强。

由于本实施例是在通讯消息中识别非文明用语，也即可以将该识别问题的结果分为两大类，分别为文明用语和非文明用语。基于该分类结果，本实施例将非文明用语识别问题巧妙地转化为分类问题，而解决该分类问题时，本实施例采取了经典的机器学习训练方法，即将分类器的输出首先设定为两大类，分别是文明用语和非文明用语；然后基于训练样本对该分类器进行训练，并最终基于训练好的非文明用语识别模型对通讯消息中的非文明用语进行识别。

具体地，本实施例在训练用于识别非文明用语的识别模型时，充分结合训练样本的语义和语境信息。其中，本实施例一方面将训练样本的词向量作为分类器的输入特征之一，这是由于词向量能从一定程度上表征语义特征，另一方面，本实施例还将训练样本的与语境属性条目对应的语境属性内容作为分类器的另一个重要的输入特征。从而使得根据训练样本的词向量以及语境属性内容提取的特征向量能训练出充分结合语义语境识别非文明用语的识别模型。

可选地，基于训练样本的词向量以及语境属性内容，提取训练样本的特征向量包括：

将训练样本转换为词向量；

对语境属性内容进行归一化；

本实施例中的词向量是指词语的向量表示，最简单的表示方法是稀疏描述法(One-hot Representation)，该方法将词表中的每个词表示成一个由0 和1 组成的向量，其中，只有一个维度值为1，其余维度值都为0，向量的维度为词表的大小，词表由所有需要进行向量化词语组成，词语的个数即为词表的大小，例如，一个词表包含10 个词语，则该词表的所有词语转换成10 维的向量，例如，“话筒”的词向量表示为[0,0,0,0,1,0,0,0,0,0]，“麦克”的词向量表示为[0,1,0,0,0,0,0,0,0,0]，向量中数值为1 的位置对应该词在词表的位置，即“话筒”位于词表中第6 个位置，“麦克”位于词表中第2 个位置。另一种表示方法为分布式描述方法(Distributed Representation)，该方法是一种低维词向量表示方法。例如，一个词表同样包含10 个词语时，“话筒”的词向量可以仅通过五维向量进行表示，例如[0.792,-0.177,-0.107,0.109,-0.542]，这种方式能够大大减少向量的维数。

由于稀疏描述法一方面存在“词汇鸿沟”的问题，即得到的词向量之间相互孤立，从两个词向量中不能得出两个词之间的相似关系，另一方面该方法容易出现“维数灾难”，即词向量维数过大，导致训练难度、内存占用量过大。分布式描述方法最大的优势在于能够让相关或者相似的词转换得到的词向量在距离上更接近，所谓的距离即余弦夹角的距离。此外，分布式描述方法表示的词向量具有较低的维度，适合于进行机器训练，训练的效率都较高，所占用的内存相对于稀疏描述法较少。因此，本实施例采用分布式描述方法将训练样本转换为词向量。在具体的实施过程中，本实施例需要先对训练样本进行分词，然后再将分词得到的分词文本分别转换为与其对应的词向量。

由于本实施例采集的训练样本的与语境属性条目对应的语境属性内容，可能是定性的属性内容，也可能是定量的属性内容。例如针对发送和接收通讯消息的终端的关系的语境属性条目，采集的属性内容可能是同学关系、朋友关系、同事关系、恋人关系等等，而针对发送和/或接收通讯消息的终端的年龄的语境属性条目，采集的属性内容可能是18岁，25岁，35岁等等。因此，本实施例需要对语境属性内容进行归一化。具体地，本实施例可以针对不同语境属性条目对应的语境属性内容分别进行归一化，也可以针对所选取的语境属性条目对应的语境属性内容同时进行归一化。本实施例采取分别对语境属性条目对应的语境属性内容进行归一化，例如针对发送和接收通讯消息的终端的关系的语境属性条目，采集的属性内容为同学关系、朋友关系、同事关系、恋人关系时，分别设置与其对应的归一化值为1,2,3,4。而针对发送和/或接收通讯消息的终端的年龄的语境属性条目，采集的18岁，25岁，35岁的属性内容，则分别用属性内容值作为归一化后的归一化值，具体参照表1。

需要说明的是，表1中列举的语境属性内容可能不仅仅包括表中所列举的选项，具体根据实际情况定义。此外，本实施例针对上下文条目进行归一化的方式是将上下文条目对应的词向量作为归一化后的语境属性内容，也即归一化值。

表1

本实施例根据获得的训练样本的词向量以及归一化后的语境属性内容，获得训练样本的特征向量。具体地，假设本实施例中的训练样本为“傻瓜”，且假设预设的语境属性条目包括发送和接收通讯消息的终端的关系条目、发送和/或接收通讯消息的终端的年龄条目、性别条目，则可以获得与之对应的特征向量的组成部分为{“傻瓜”的词向量，与发送和/或接收通讯消息的终端的关系条目对应的归一化后的语境属性内容，与发送和/或接收通讯消息的终端的年龄条目对应的归一化后的语境属性内容，与发送和/或接收通讯消息的终端的性别条目对应的归一化后的语境属性内容}。

本实施例通过将训练样本转换为与其对应的词向量，并将采集的语境属性内容进行归一化，并最终结合词向量与归一化后的语境属性内容，获得训练样本的特征向量，充分考虑了训练样本的语义语境，为后续根据该特征向量训练准确度高的非文明用语识别模型奠定了基础。

可选地，根据非文明用语识别模型，确定待识别的通讯消息中是否包含非文明用语包括：

对待识别的通讯消息进行分词，获得分词文本；

由于待识别的通讯消息可能包括多个用词用语，故本实施例在识别通讯消息中的非文明用语时，首先需要对通讯消息进行分词，具体可以采用最大正向匹配法或最大逆向匹配法；然后采集每一个分词文本的与语境属性条目对应的语境属性内容，获得分词语境内容，并结合每一个分词文本的词向量和分词语境内容，获得每一个分词文本的特征向量，也即针对每一个分词文本均采集与其对应的语境属性内容，以及获得与之对应的特征向量；最后将每一个分词文本的特征向量依次输入非文明用语识别模型，识别通讯消息中是否包含非文明用语。

可选地，识别通讯消息中包含非文明用语之后包括：

本实施例在识别出通讯消息中包含非文明用语时，通过将非文明用语替换为与之语义相同的文明用语或屏蔽非文明用语，净化通讯环境，避免了非文明用语的传播以及不良影响。具体地，本实施例在识别出非文明用语后，可以通过搜索的方式获得与非文明用语语义相同的文明用语，也可以将非文明用语直接屏蔽掉。

可选地，语境属性条目包括：

上下文条目、时间条目、地点条目、天气条目、发送和接收通讯消息的终端的关系条目、发送和/或接收通讯消息的终端的性别、年龄条目中的一个或多个。

本实施例中的语境属性条目不限于只包括上下文条目、时间条目、地点条目、天气条目、发送和接收通讯消息的终端的关系条目、发送和/或接收通讯消息的终端的性别、年龄条目中的一个或多个，具体由用户自定义。

下面针对一个精简实施例对本发明的通讯消息中非文明用语的识别方法进行更进一步说明。

参照图2，本发明的精简实施例提供的通讯消息中非文明用语的识别方法，包括：

步骤S201，预先设定语境属性条目。

具体地，本实施例预先设定语境属性条目是为后续采集训练样本和待识别通讯消息的语境属性内容奠定基础。且预设的语境属性条目可以是上下文条目、时间条目、地点条目、天气条目、发送和接收通讯消息的终端的关系条目、发送和/或接收通讯消息的终端的性别、年龄条目中的一种或多种，具体由用户自定义。本实施例假设预设的语境属性条目为发送和接收通讯消息的终端的年龄条目、性别条目、关系条目。

步骤S202，采集训练样本的与语境属性条目对应的语境属性内容，其中，训练样本包括包含非文明用语和不包含非文明用语训练样本。

具体地，本实施例首先采集训练样本的与语境属性条目对应的语境属性内容，也即分别采集包含非文明用语和不包含非文明用语训练样本的与语境属性条目对应的语境属性内容。其中，训练样本的数量应尽可能大，从而保证非文明用语识别模型的识别率。假设本实施例的训练样本的数量为1000，则分别采集这1000个训练样本的与语境属性条目对应的语境属性内容。

步骤S203，将训练样本转换为词向量。

具体地，本实施例采用分布式描述方法获取训练样本的词向量，当训练样本包含多个用语时，则首先对训练样本进行分析，获得分词文本，然后再将每一个训练样本转换为词向量。

步骤S204，对语境属性内容进行归一化。

具体地，本实施例采集到训练样本的与语境属性条目对应的语境属性内容后，按照预设的归一化规则对与每一个语境属性条目对应的语境属性内容进行归一化，具体可参照表1。

步骤S205，基于词向量与归一化后的语境属性内容，获得训练样本的特征向量。

具体地，由于本实施例预设的语境属性条目有三个，则可以获知训练样本的特征向量由四部分组成，分别是训练样本的词向量、与发送和接收通讯消息的终端的年龄条目对应的归一化后的语境属性内容、与发送和接收通讯消息的终端的性别条目对应的归一化后的语境属性内容、与发送和接收通讯消息的终端的关系条目对应的归一化后的语境属性内容。

步骤S206，根据特征向量训练分类器，获得非文明用语识别模型。

步骤S207，对待识别的通讯消息进行分词，获得分词文本。

具体地，假设本实施例的通讯消息内容为“你真是傻瓜！”。则首先对待识别的通讯消息进行分词，获得分词文本，具体为{你，真是，傻瓜}。

步骤S208，采集每一个分词文本的与语境属性条目对应的语境属性内容，获得分词语境内容。

具体地，由于根据步骤S207获得的三个分词文本的语境相同，即与每一个分词文本的与语境属性条目对应的语境属性内容相同。假设本实施例采集到与预设的三个语境属性条目（发送和接收通讯消息的终端的年龄条目、性别条目、关系条目）对应的语境属性内容分别为{25岁，<男，女>，恋人}。

步骤S209，结合每一个分词文本的词向量和分词语境内容，获得每一个分词文本的特征向量。

具体地，本实施例结合每一个分词文本的词向量和分词语境内容，获得每一个分词文本的特征向量。例如，结合“傻瓜”这个分词文本的词向量和分词语境内容，可以获得与之对应的特征向量为{“傻瓜”对应的词向量，发送和接收通讯消息的终端的年龄条目、性别条目、关系条目分别对应的语境属性内容}。

步骤S210，将每一个分词文本的特征向量依次输入非文明用语识别模型，识别通讯消息中是否包含非文明用语。

具体地，本实施例将每一个分词文本的特征向量依次输入非文明用语识别模型，从而识别通讯消息中是否包含非文明用语。

参照图3，本发明的优选实施例提供的通讯消息中非文明用语的识别装置，包括：

语境属性条目预设装置10，用于预先设定语境属性条目；

采集装置20，用于采集训练样本的与语境属性条目对应的语境属性内容，其中，训练样本包括包含非文明用语和不包含非文明用语训练样本;

特征向量提取装置30，用于基于训练样本的词向量以及语境属性内容，提取训练样本的特征向量；

训练装置40，用于根据特征向量训练分类器，获得非文明用语识别模型；

识别装置50，用于根据非文明用语识别模型，确定待识别的通讯消息中是否包含非文明用语。

可选地，特征向量提取装置30包括：

转换装置，用于将训练样本转换为词向量；

归一化装置，用于对语境属性内容进行归一化；

可选地，识别装置50包括：

可选地，通讯消息中非文明用语的识别装置还包括：

本发明提供的通讯消息中非文明用语的识别装置，通过采集训练样本的与预设的语境属性条目对应的语境属性内容，并基于语境属性内容和训练样本的词向量提取训练样本的特征向量，以及基于提取的特征向量训练用于识别非文明用语的非文明用语识别模型，并最后根据训练好的非文明用语识别模型，确定待识别的通讯消息中是否包含非文明用语，解决了现有技术没有结合通讯消息的语义语境识别非文明用语，导致识别不准确的技术问题，通过采集训练样本的与预设的语境属性条目对应的语境属性内容以及基于训练样本的词向量训练出结合语义语境识别非文明用语的识别模型，使得根据该识别模型识别非文明用语的准确度高，适用性强。

本实施例的通讯消息中非文明用语的识别装置的具体工作过程和工作原理可参照本实施例的通讯消息中非文明用语的识别方法的工作过程和工作原理。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种通讯消息中非文明用语的识别方法，其特征在于，包括：

预先设定语境属性条目；

采集训练样本的与所述语境属性条目对应的语境属性内容，其中，所述训练样本包括包含非文明用语和不包含非文明用语训练样本;

基于所述训练样本的词向量以及所述语境属性内容，提取所述训练样本的特征向量；

根据所述特征向量训练分类器，获得非文明用语识别模型；

根据所述非文明用语识别模型，确定待识别的通讯消息中是否包含非文明用语。

2.根据权利要求1所述的通讯消息中非文明用语的识别方法，其特征在于，基于所述训练样本的词向量以及所述语境属性内容，提取所述训练样本的特征向量包括：

将所述训练样本转换为词向量；

对所述语境属性内容进行归一化；

基于所述词向量与归一化后的所述语境属性内容，获得所述训练样本的特征向量。

3.根据权利要求2所述的通讯消息中非文明用语的识别方法，其特征在于，根据所述非文明用语识别模型，确定待识别的通讯消息中是否包含非文明用语包括：

对待识别的通讯消息进行分词，获得分词文本；

采集每一个所述分词文本的与所述语境属性条目对应的语境属性内容，获得分词语境内容；

结合每一个所述分词文本的词向量和所述分词语境内容，获得每一个所述分词文本的特征向量；

将每一个所述分词文本的特征向量依次输入所述非文明用语识别模型，识别所述通讯消息中是否包含非文明用语。

4.根据权利要求3所述的通讯消息中非文明用语的识别方法，其特征在于，识别所述通讯消息中包含非文明用语之后包括：

将所述非文明用语替换为与之语义相同的文明用语或屏蔽所述非文明用语。

5.根据权利要求4所述的通讯消息中非文明用语的识别方法，其特征在于，所述语境属性条目包括：

6.一种通讯消息中非文明用语的识别装置，其特征在于，包括：

语境属性条目预设装置，用于预先设定语境属性条目；

采集装置，用于采集训练样本的与所述语境属性条目对应的语境属性内容，其中，所述训练样本包括包含非文明用语和不包含非文明用语训练样本;

特征向量提取装置，用于基于所述训练样本的词向量以及所述语境属性内容，提取所述训练样本的特征向量；

训练装置，用于根据所述特征向量训练分类器，获得非文明用语识别模型；

识别装置，用于根据所述非文明用语识别模型，确定待识别的通讯消息中是否包含非文明用语。

7.根据权利要求6所述的通讯消息中非文明用语的识别装置，其特征在于，所述特征向量提取装置包括：

转换装置，用于将所述训练样本转换为词向量；

归一化装置，用于对所述语境属性内容进行归一化；

特征向量获取装置，用于基于所述词向量与归一化后的所述语境属性内容，获得所述训练样本的特征向量。

8.根据权利要求7所述的通讯消息中非文明用语的识别装置，其特征在于，所述识别装置包括：

分词语境内容获取装置，用于采集每一个所述分词文本的与所述语境属性条目对应的语境属性内容，获得分词语境内容；

分词文本特征向量获取装置，用于结合每一个所述分词文本的词向量和所述分词语境内容，获得每一个所述分词文本的特征向量；

非文明用语识别装置，用于将每一个所述分词文本的特征向量依次输入所述非文明用语识别模型，识别所述通讯消息中是否包含非文明用语。

9.根据权利要求8所述的通讯消息中非文明用语的识别装置，其特征在于，所述通讯消息中非文明用语的识别装置还包括：

替换装置，用于将所述非文明用语替换为与之语义相同的文明用语或屏蔽所述非文明用语。