CN105930359A

CN105930359A - 倾向性监控方法及装置

Info

Publication number: CN105930359A
Application number: CN201610219422.7A
Authority: CN
Inventors: 贠挺
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-04-11
Filing date: 2016-04-11
Publication date: 2016-09-07

Abstract

本发明提供一种倾向性监控方法及装置。本发明实施例通过获取待识别内容，进而利用情感分类模型，对所述待识别内容进行识别，以获得所述待识别内容的情感标签，使得能够根据所述待识别内容的情感标签，对所述待识别内容进行倾向性监控处理，无需人工参与，将人工设置成本降低为零，从而提高了倾向性监控处理的可靠性。

Description

倾向性监控方法及装置

【技术领域】

本发明涉及通信技术，尤其涉及一种倾向性监控方法及装置。

【背景技术】

当今互联网中信息丰富多彩，各种各样，大多数信息都是对我们有益的，但是也会掺杂着一些负面的信息，例如，反动政治信息、色情信息等具有负面倾向性的信息。这些具有负面倾向性的信息，通常会对读者产生不好的影响。例如，反动政治信息会蒙蔽读者，容易引起读者反动情绪，不利于社会的和谐与稳定；再例如，色情信息会危害青少年的心理健康，影响未成年人的健康成长。因此，能够准确的识别出这些具有负面倾向性的信息，成为互联网公司必须解决的问题，以给读者提供一个安全健康的互联网环境。

现有技术中，具体可以预先通过人工采集大量的倾向性词汇，以形成倾向性内容列表。利用这个倾向性内容列表，对待识别的内容，例如，万维网(World Wide Web，Web)页面等，进行匹配处理。若匹配出的内容特征满足指定阈值条件，则将所述倾向性监控为具有某种倾向性例如，负面倾向性等的内容，进而进行倾向性监控处理。这种倾向性监控处理的可靠性不高。

【发明内容】

本发明的多个方面提供一种倾向性监控方法及装置，用以提高倾向性监控处理的可靠性。

本发明的一方面，提供一种倾向性监控方法，包括：

获取待识别内容；

利用情感分类模型，对所述待识别内容进行识别，以获得所述待识别内容的情感标签；

根据所述待识别内容的情感标签，对所述待识别内容进行倾向性监控处理。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述利用情感分类模型，对所述待识别内容进行识别，以获得所述待识别内容的情感标签之前，还包括：

对样本数据进行分词处理，以获得样本特征；

利用所述样本特征，训练所述情感分类模型。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述方法还包括：

获得无法识别的待识别内容；

将所述待识别内容加入所述样本特征；

利用加入所述待识别内容的样本特征，重新训练所述情感分类模型。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述利用情感分类模型，对所述待识别内容进行识别，以获得所述待识别内容的情感标签之后，还包括：

若所述待识别内容的情感标签不正确，将所述待识别内容加入所述样本特征；

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述待识别内容的情感标签，对所述待识别内容进行倾向性监控处理，包括：

根据所述待识别内容的情感标签，获得所述待识别内容所属的倾向性分类；

利用所述倾向性分类的处理策略，对所述待识别内容进行处理；或者根据预先设置的预设分类，获得满足所述预设分类的所述倾向性分类所对应的待识别内容。

本发明的另一方面，提供一种倾向性监控装置，包括：

获取单元，用于获取待识别内容；

识别单元，用于利用情感分类模型，对所述待识别内容进行识别，以获得所述待识别内容的情感标签；

监控单元，用于根据所述待识别内容的情感标签，对所述待识别内容进行倾向性监控处理。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述装置还包括构建单元，用于

对样本数据进行分词处理，以获得样本特征；以及

利用所述样本特征，训练所述情感分类模型。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述构建单元，还用于

获得无法识别的待识别内容；

将所述待识别内容加入所述样本特征；以及

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述监控单元，具体用于

根据所述待识别内容的情感标签，获得所述待识别内容所属的倾向性分类；以及

由上述技术方案可知，本发明实施例通过获取待识别内容，进而利用情感分类模型，对所述待识别内容进行识别，以获得所述待识别内容的情感标签，使得能够根据所述待识别内容的情感标签，对所述待识别内容进行倾向性监控处理，无需人工参与，将人工设置成本降低为零，从而提高了倾向性监控处理的可靠性。

另外，采用本发明所提供的技术方案，通过将无法识别的待识别内容，以及所获得的不正确的情感标签所对应的待识别内容，加入样本特征，进而则可以利用加入所述待识别内容的样本特征，重新训练情感分类模型，能够进一步提高倾向性监控处理的可靠性。

【附图说明】

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的倾向性监控方法的流程示意图；

图2为本发明另一实施例提供的倾向性监控装置的结构示意图；

图3为本发明另一实施例提供的倾向性监控装置的结构示意图。

【具体实施方式】

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant，PDA)、无线手持设备、平板电脑(Tablet Computer)、个人电脑(Personal Computer，PC)、MP3播放器、MP4播放器、可穿戴设备(例如，智能眼镜、智能手表、智能手环等)等。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1为本发明一实施例提供的倾向性监控方法的流程示意图，如图1所示。

101、获取待识别内容。

102、利用情感分类模型，对所述待识别内容进行识别，以获得所述待识别内容的情感标签。

103、根据所述待识别内容的情感标签，对所述待识别内容进行倾向性监控处理。

需要说明的是，101～103的执行主体的部分或全部可以为位于本地终端的应用，或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元，或者还可以为位于网格侧服务器中的处理引擎，或者还可以为位于网格侧的分布式系统，本实施例对此不进行特别限定。

可以理解的是，所述应用可以是安装在终端上的本地程序(nativeApp)，或者还可以是终端上的浏览器的一个网页程序(webApp)，本实施例对此不进行特别限定。

这样，通过获取待识别内容，进而利用情感分类模型，对所述待识别内容进行识别，以获得所述待识别内容的情感标签，使得能够根据所述待识别内容的情感标签，对所述待识别内容进行倾向性监控处理，无需人工参与，将人工设置成本降低为零，从而提高了倾向性监控处理的可靠性。

本发明中，无需通过人工采集大量的倾向性词汇，以形成倾向性内容列表，而是可以利用样本数据，训练一个情感分类模型。可选地，在本实施例的一个可能的实现方式中，在102之前，对样本数据进行分词处理，以获得样本特征，进而，则可以利用所述样本特征，训练所述情感分类模型。

在该实现方式中，具体可以通过离线任务对目标网站进行分布式数据采集，建立离线数据仓库，进而提取待分析的样本数据。其中，所谓的网站(Website)，是指在互联网上，根据一定的规则，使用编程语言构建的用于展示特定内容的相关网页的集合。网站是一种沟通工具，可以通过网站来发布自己想要公开的内容，或者利用网站来提供相关的业务。互联网用户可以通过浏览器应用或网站所对应的特定应用(Application，APP)来访问网站，获取自己需要的内容或者使用业务。

提取待分析的样本数据之后，可以对样本数据进行分词处理。在对样本数据进行分词处理之后，为了提高后续处理的效率和减小噪音，对分词处理后得到的各词语进行过滤处理，以获得样本特征。所述过滤处理可以包括但不限于以下所列过滤处理：过滤掉预设的停用词表所包含的词语；其中，通用词表是预先基于词频统计出的虚词、助词、代词、冠词、副词、语气词等，这些词语通常不具备独立表意能力。具体可以通过对已有资源中出现频率达到预设的高频条件的词语进行收集得到，例如，助词“的”具有很高的出现频率，但其通常具有很低的表意能力，因此，将其收集到停用词表中。

在获得样本特征之后，则可以利用样本特征作为情感分类模型的训练基础，由人工进行情感类别标注即正面倾向性、中性和负面倾向性。具体来说，所采用的训练方法，可以为支持向量机(Support Vector Machine，SVM)训练方法，或者还可以为梯度提升决策树(Gradient Boosting Decision Tree，GBDT)，本实施例对此不进行特别限定。

这样，在获得情感分类模型之后，可以应用程序接口(ApplicationProgramming Interface，API)形式提供线上服务，用于对输入的待识别内容进行识别，以获得所述待识别内容的情感标签。

具体来说，以采用SVM训练方法所训练的情感分类模型为例。首先，可以对待识别内容进行分词处理；接着，将分词处理之后的样本特征与情感分类模型所采用的情感词分类进行向量运算，再将向量运算的运算结果进行方差运算；最后，将方差运算的运算结果与阈值进行比较，来判断待识别内容的情感标签即正面标签、中性标签和负面标签。

可选地，在本实施例的一个可能的实现方式中，在103中，具体可以根据所述待识别内容的情感标签，获得所述待识别内容所属的倾向性分类。进而，则可以利用所述倾向性分类的处理策略，对所述待识别内容进行处理。例如，小米手机的情感标签可以为正面标签、中性标签或负面标签。

可选地，在本实施例的一个可能的实现方式中，在103中，具体可以根据所述待识别内容的情感标签，获得所述待识别内容所属的倾向性分类即正面倾向性、中性和负面倾向性。进而，则可以根据预先设置的预设分类，获得满足所述预设分类的所述倾向性分类所对应的待识别内容。例如，正面倾向性，来获取一些列相关词语价钱便宜、用户界面(User interface，UI)人性化等。

此外，本发明中，还可以基于训练所述情感分类模型的样本特征，生成一个情感词库，以供对外开放使用。

在获得待识别内容的情感标签之后，还可以进一步将所获得的识别结果进行上报。接收到上报的识别结果之后，具体可以通过离线任务对上报的识别结果进行再次筛选和处理，使用离线数据仓库来存储处理结果；接着，对识别结果进行聚类和统计操作，以在线报表形式开放给相关人员，此类人员可以查询用户上报的异常情况(即bad case)，如果核实处理不准确，可提供修改后的识别结果，以对情感分类模型进行修正。

可选地，在本实施例的一个可能的实现方式中，还可以进一步获得无法识别的待识别内容，进而，则可以将所述待识别内容加入所述样本特征。然后，利用加入所述待识别内容的样本特征，重新训练所述情感分类模型。

可选地，在本实施例的一个可能的实现方式中，在102之后，若所述待识别内容的情感标签不正确，将所述待识别内容加入所述样本特征，则可以利用加入所述待识别内容的样本特征，重新训练所述情感分类模型。

本发明中，可以利用脚本分布式爬取样本数据，同时构建情感分类模型；分析情感分类模型在完成样本数据的训练和准确性的测试之后，可提供线上接口用于输出任意文本的情感标签；通过沉淀情感词库，可对外输出情感标签。

在本发明中，可以通过情感分类模型对外开放的API，自动获取待识别内容的情感标签。人工只需选择需要进行倾向性监控处理的情感标签或倾向性分类即可。如果捕获的待识别内容，在预先设置的监控范围之内，就会触发所定制的策略，来执行业务操作，例如，自动回复等。对于无法输出情感标签的待识别内容，将会自动入库进行存储。此时，本发明会定期离线对这些自动入库进行存储的待识别内容，进行重新训练，然后将更新后的情感分类模型同步到线上，从而形成从生产、应用、再到反馈的闭环。

本实施例中，通过获取待识别内容，进而利用情感分类模型，对所述待识别内容进行识别，以获得所述待识别内容的情感标签，使得能够根据所述待识别内容的情感标签，对所述待识别内容进行倾向性监控处理，无需人工参与，将人工设置成本降低为零，从而提高了倾向性监控处理的可靠性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

图2为本发明另一实施例提供的倾向性监控装置的结构示意图，如图2所示。本实施例的倾向性监控装置可以包括获取单元21、识别单元22和监控单元23。其中，获取单元21，用于获取待识别内容；识别单元22，用于利用情感分类模型，对所述待识别内容进行识别，以获得所述待识别内容的情感标签；监控单元23，用于根据所述待识别内容的情感标签，对所述待识别内容进行倾向性监控处理。

需要说明的是，本实施例所提供的倾向性监控装置的部分或全部可以为位于本地终端的应用，或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元，或者还可以为位于网格侧服务器中的处理引擎，或者还可以为位于网格侧的分布式系统，本实施例对此不进行特别限定。

可选地，在本实施例的一个可能的实现方式中，如图3所示，本实施例所提供的倾向性监控装置还可以进一步包括构建单元31，可以用于对样本数据进行分词处理，以获得样本特征；以及利用所述样本特征，训练所述情感分类模型。

在一个具体的实现过程中，所述构建单元31，还可以进一步用于获得无法识别的待识别内容；将所述待识别内容加入所述样本特征；以及利用加入所述待识别内容的样本特征，重新训练所述情感分类模型。

在另一个具体的实现过程中，所述构建单元31，还可以进一步用于若所述待识别内容的情感标签不正确，将所述待识别内容加入所述样本特征；利用加入所述待识别内容的样本特征，重新训练所述情感分类模型。

可选地，在本实施例的一个可能的实现方式中，所述监控单元33，具体可以用于根据所述待识别内容的情感标签，获得所述待识别内容所属的倾向性分类；以及利用所述倾向性分类的处理策略，对所述待识别内容进行处理；或者根据预先设置的预设分类，获得满足所述预设分类的所述倾向性分类所对应的待识别内容。

需要说明的是，图1对应的实施例中方法，可以由本实施例提供的倾向性监控装置实现。详细描述可以参见图1对应的实施例中的相关内容，此处不再赘述。

本实施例中，通过获取单元获取待识别内容，进而由识别单元利用情感分类模型，对所述待识别内容进行识别，以获得所述待识别内容的情感标签，使得监控单元能够根据所述待识别内容的情感标签，对所述待识别内容进行倾向性监控处理，无需人工参与，将人工设置成本降低为零，从而提高了倾向性监控处理的可靠性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种倾向性监控方法，其特征在于，包括：

获取待识别内容；

2.根据权利要求1所述的方法，其特征在于，所述利用情感分类模型，对所述待识别内容进行识别，以获得所述待识别内容的情感标签之前，还包括：

对样本数据进行分词处理，以获得样本特征；

利用所述样本特征，训练所述情感分类模型。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获得无法识别的待识别内容；

将所述待识别内容加入所述样本特征；

4.根据权利要求2所述的方法，其特征在于，所述利用情感分类模型，对所述待识别内容进行识别，以获得所述待识别内容的情感标签之后，还包括：

5.根据权利要求1～4任一权利要求所述的方法，其特征在于，所述根据所述待识别内容的情感标签，对所述待识别内容进行倾向性监控处理，包括：

6.一种倾向性监控装置，其特征在于，包括：

获取单元，用于获取待识别内容；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括构建单元，用于

对样本数据进行分词处理，以获得样本特征；以及

利用所述样本特征，训练所述情感分类模型。

8.根据权利要求7所述的装置，其特征在于，所述构建单元，还用于

获得无法识别的待识别内容；

将所述待识别内容加入所述样本特征；以及

9.根据权利要求7所述的装置，其特征在于，所述构建单元，还用于

10.根据权利要求6～9任一权利要求所述的装置，其特征在于，所述监控单元，具体用于