CN111488738B

CN111488738B - 非法信息的识别方法、装置

Info

Publication number: CN111488738B
Application number: CN201910073513.8A
Authority: CN
Inventors: 康杨杨; 孙常龙; 刘晓钟; 司罗
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2023-04-28
Anticipated expiration: 2039-01-25
Also published as: CN111488738A

Abstract

本发明实施例提供了一种非法信息的识别方法、装置，非法信息的识别方法包括：确定待识别信息中实体词及对应的属性数据的组合，其中，所述实体词及对应的属性数据的组合与常识相悖，所述实体词被用于非法信息的概率小于第一阈值；若所述属性数据被用于非法信息的概率大于第二阈值，则根据与常识相悖的所述实体词及对应的属性数据的组合确定常识推理表征；至少根据所述常识推理表征进行识别，以确定所述待识别信息是否非法。通过本申请实施例提供的方案，可以准确地识别出实体词被用于非法信息的概率小于第一阈值、词语或者语义较为正向的非法信息。

Description

非法信息的识别方法、装置

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种非法信息的识别方法、装置。

背景技术

现有技术中，对于由文本形式传播的信息来说，在识别信息是否非法时，可以将是否非法的问题转换为文本分类的问题，然后通过部分人工标注的样本信息训练机器学习模型，使得机器学习模型可以根据信息中的词语或者语义等进行文本分类，例如可以通过机器学习模型将信息分为非法类和合法类两类。

但是，这种方法仅可以识别词语或者语义较为明显的非法信息，但是，有些非法的信息，其中的词语和语义等均比较正向，例如，涉黄信息“【**车行】好消息！车行新车已到，出厂日期99年底，车况极品，试驾先预约，预约电话158*******1”，这则信息中的词语以及语义均比较正向并无明显的涉黄倾向，通过上述方法进行分类的结果为非涉黄(即合法)，但是进行分析后可知出厂日期为99年的车与今年(2019年)相差极大，不可能是新车，并结合信息中的“车况极品”、“试驾先预约”等可以确定，上述信息的分类结果应为涉黄(即非法)，但通过上述现有技术的方案进行识别时，无法正确识别词语和语义等均比较正向但实际非法的情形。

发明内容

有鉴于此，本发明实施例提供一种非法信息的识别方法、装置，以解决上述问题中的任一种。

根据本发明实施例的第一方面，提供了一种非法信息的识别方法，其包括：确定待识别信息中实体词及对应的属性数据的组合，其中，所述实体词及对应的属性数据的组合与常识相悖，所述实体词被用于非法信息的概率小于第一阈值；若所述属性数据被用于非法信息的概率大于第二阈值，则根据与常识相悖的所述实体词及对应的属性数据的组合确定常识推理表征；至少根据所述常识推理表征进行识别，以确定所述待识别信息是否非法。

根据本发明实施例的第二方面，提供了一种非法信息的识别装置，其包括：实体词确定模块，用于确定待识别信息中实体词及对应的属性数据的组合，其中，所述实体词及对应的属性数据的组合与常识相悖，所述实体词被用于非法信息的概率小于第一阈值；常识推理确定模块，用于若所述属性数据被用于非法信息的概率大于第二阈值，则根据与常识相悖的所述实体词及对应的属性数据的组合确定常识推理表征；识别模块，用于至少根据所述常识推理表征进行识别，以确定所述待识别信息是否非法。

根据本发明实施例提供的方案，通过确定待识别信息中与常识相悖的所述实体词及对应的属性数据的组合，并且，若所述属性数据被用于非法信息的概率大于第二阈值，则进一步根据与常识相悖的所述实体词及对应的属性数据的组合确定常识推理表征；并至少根据所述常识推理表征进行识别，以确定所述待识别信息是否非法，从而可以准确地识别出实体词被用于非法信息的概率小于第一阈值、词语或者语义较为正向的非法信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例一的一种非法信息的识别方法的步骤流程图；

图2为本发明实施例二的一种确定与常识相悖的所述实体词及属性数据的组合的方法步骤流程图；

图3为本发明实施例二的一种知识图谱的结构示意图；

图4为本发明实施例三的一种涉黄信息的识别方法的步骤流程图；

图5为本发明实施例三的一种确定常识推理表征的方法步骤流程图；

图6为本发明实施例四的一种非法信息的识别装置的结构框图；

图7为本发明实施例五的一种终端设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

实施例一

参照图1，示出了根据本发明实施例一的一种非法信息的识别方法的步骤流程图。

本实施例提供的方法包括以下步骤：

S102、确定待识别信息中实体词及对应的属性数据的组合。

本实施例中，待识别信息可以为SMS短信息、社交软件信息等。实体词是指待识别信息中与真实实体对应的词，例如车、茶叶等；实体词对应的属性数据反应待识别信息中真实实体的属性，例如车对应的属性数据可以为颜色为蓝色、茶对应的属性数据可以为等级为一级。

本实施例中，所述实体词及对应的属性数据的组合与常识相悖，所述实体词被用于非法信息的概率小于第一阈值。对于词语或者语义较为正向的待识别信息，其中的实体词被用于非法信息的概率小于第一阈值，例如，实体词“车”等。信息中的内容为针对实体词的相关描述内容，使得信息中的词语和语义均较为正向。然而，为了达到传播非法信息的目的，待识别信息中存在部分表面上用来限定实体词但实际上用于描述非法内容的属性数据，换言之实体词及对应的属性数据的组合与常识相悖。本实施例中，第一阈值的具体数值可以由本领域的技术人员根据实际使用情况确定，本实施例对此不进行限定。

例如，确定的实体词为茶，对应的属性数据为等级为S级，但是在常识中茶的等级为特级、一级、二级、三级等，其中并不包括S级，则实体词“茶”及对应的属性数据“等级为S级”的组合与常识相悖。

S104、若所述属性数据被用于非法信息的概率大于第二阈值，则根据与常识相悖的所述实体词及对应的属性数据的组合确定常识推理表征。

由于在实际使用时，还可能存在其他导致实体词及对应的属性数据的组合与常识相悖的原因，例如，待识别信息中存在笔误等，这导致与常识相悖的所述实体词及对应的属性数据的组合可能用于传播非法信息，也可能不是。例如，待识别信息中可能出现实体词为“茶叶”但对应的属性数据为车的属性数据的情况。同时由于本实施例提供的方法用于识别非法信息，因此本实施例中，需要确定所述属性数据被用于非法信息的概率是否大于第二阈值，从而忽略其他并非用于传播非法信息的实体词及对应的属性数据的组合。本实施例中，第二阈值的具体数值同样可以由本领域的技术人员根据实际使用情况确定，本实施例对此不进行限定。

若确定所述属性数据被用于非法信息的概率大于第二阈值，则确定与常识相悖的原因可能是待识别信息非法，当然，也可能是其他原因例如笔误等，因此，本实施例中，进一步根据与常识相悖的所述实体词及对应的属性数据的组合，确定对应的常识推理表征，以在步骤S106中根据常识推理表征识别待识别信息是否非法。常识推理表征具体可以用于表征实体词及对应的属性数据的组合与常识相悖的原因是待识别信息非法的可能性，例如，常识推理表征具体可以为“导致实体词及对应的属性数据的组合与常识相悖的原因是待识别信息非法”这一情况发生的概率对应的向量。

反之，若属性数据被用于非法信息的概率小于第二阈值，则确定与常识相悖的原因并非是待识别信息非法，进而不再关注与常识相悖的实体词及对应的属性数据的组合。即不再根据与常识相悖的实体词及对应的属性数据的组合确定常识推理表征，而是直接将常识推理表征设为与可能性为0对应的预设表征。例如可以直接确定常识推理表征为“导致实体词及对应的属性数据的组合与常识相悖的原因是待识别信息非法”这一情况发生的概率为0对应的向量。

S106、至少根据所述常识推理表征进行识别，以确定所述待识别信息是否非法。

本实施例中，可以根据常识推理表征确定待识别信息是否非法。同时，如上所述，导致实体词及对应的属性数据的组合与常识相悖的原因可能为待识别信息非法，也可能为其他原因，因此，本实施例中，还可以同时根据常识推理表征以及待识别信息的语义数据，来识别待识别信息是否非法，以提高识别结果的准确率。当然，在识别时，也可以结合其他数据，例如结合待识别信息中的某一个或几个短语等。

本实施例提供的方案，通过确定待识别信息中与常识相悖的所述实体词及对应的属性数据的组合，并且，若所述属性数据被用于非法信息的概率大于第二阈值，则进一步根据与常识相悖的所述实体词及对应的属性数据的组合确定常识推理表征；并至少根据所述常识推理表征进行识别，以确定所述待识别信息是否非法，从而可以准确地识别出实体词被用于非法信息的概率小于第一阈值、词语或者语义较为正向的非法信息。

实施例二

参照图2，示出了根据本发明实施例二的一种确定与常识相悖的所述实体词及属性数据的组合的方法步骤流程图。

本申请下述实施例以非法信息为涉黄信息进行举例说明，但这不作为本申请的限定，本领域的技术人员可以根据本申请实施例的相关内容，直接确定适用于其他非法信息的识别方案，这也属于本申请的保护范围。

本实施例提供的方法包括以下步骤：

S202、确定所述待识别信息的分词结果，并从业务标签集合中确定与分词结果中的各个词对应的业务标签。

业务标签集合中的业务标签为知识图谱中的各个实体词及属性标签。

本实施例中，知识图谱用于记录常识性的实体词及对应的属性数据的组合，知识图谱中的属性数据包括属性标签及对应的所有属性值。在预先建立知识图谱时，可以仅建立传播涉黄信息时常用的实体词及属性数据的组合，例如茶叶、车、女等。例如图3所示，图3示出知识图谱中包括实体词“茶叶”、“车”，以及“茶叶”对应的属性标签“等级”，“车”对应的属性标签“生产时间”等，属性值在图中未示出。

其中，茶叶、车等实体词为被用于涉黄信息的概率小于第一阈值的实体词，即针对实体词“车”采集样本信息后，涉黄信息占所有实体词“车”对应的样本信息的比例小于第一阈值；实体词女为被用于涉黄信息的概率大于第一阈值的实体词，即针对实体词“女”采集样本信息后，涉黄信息占所有实体词“女”对应的样本信息的比例大于第一阈值。建立知识图谱时即可确定实体词被用于涉黄信息的概率是否小于第一阈值。

当然，知识图谱也可以在执行上述方案的过程中进行修改，本实施对此不进行限定。

建立完知识图谱后，直接将知识图谱中的每个实体词及每个属性标签均作为业务标签，从而进一步形成业务标签集合。

本实施例中，对待识别信息进行分词处理，并根据分词结果中词的语义、词性等，在业务标签集合中确定与该词对应的业务标签，例如，分词结果中的某个名词与知识图谱中的某个实体词相同或相近，则该名词对应的业务标签为知识图谱中的该实体词，而在待识别信息中该名词的限定词的业务标签可以为知识图谱中该实体词对应的属性标签。

此处，需要说明的是，由于分词结果中的名词可以包括真实实体对应的词、代词、以及用于限定真实实体的名词，用于限定真实实体的名词例如生产时间、出厂时间等，其中真实实体对应的词以及用于指代真实实体的代词的业务标签为知识图谱中与其相同或相近的实体词，用于限定真实实体的名词的业务标签为知识图谱中该真实实体对应的实体词的属性标签。在具体实现时，可以通过条件随机场(CRF)序列标注模型对待识别信息进行分词，并确定各个词对应的业务标签，以通过步骤S204依据该业务标签确定待识别信息中与常识相悖的实体词及对应的属性数据的组合。

S204、根据分词结果中各个词对应的业务标签确定所述待识别信息中的实体词及属性标签，并根据业务标签为属性标签的词确定属性标签对应的属性值，以确定所述待识别信息中的实体词及对应的属性数据的组合。

本实施例中，由于分词结果中各个词可能为实体词，也可能并非为实体词，而由于与知识图谱进行匹配时只有与知识图谱中的各个实体词及属性标签对应上，才会有业务标签，因此，可以根据分词结果中各个词对应的业务标签确定所述待识别信息中的实体词及属性标签。

另外，在根据业务标签为属性标签的词确定该属性标签的属性值时，可以根据属性标签的类型来选择不同的属性值确定方式，其中，属性标签对应的属性值的确定方式可以为预先设置好的。

具体地，所述属性标签的类型包括：静态属性标签以及动态属性标签。

若所述属性标签的类型为静态属性标签，则根据业务标签为属性标签的词确定该属性标签的属性值时，直接确定业务标签为属性标签的词为所述属性值。例如，如果待识别信息为“新到多种S级好茶,加Wei Xin：****可看茶,进店可海选并可免费品茶一次,电话********.回T退订”，确定分词结果中各个词对应的业务标签后，待识别信息中的“茶”的业务标签为知识图谱中的实体词“茶叶”，待识别信息中的“S级”的业务标签为知识图谱中的属性标签“等级”，则确定属性标签“等级”对应的属性值时，可以直接将待识别信息中的业务标签为属性标签“等级”的词“S级”作为属性值。则确定的待识别信息中的实体词及对应的属性数据的组合包括：茶，茶的属性标签为“等级”，属性值为“S级”。

或者，若所述属性值的类型为动态属性标签，则根据业务标签为属性标签的词确定该属性标签的属性值时，根据业务标签为属性标签的词进行计算以确定所述属性值。例如，如果待识别信息为“好消息！车行新车已到，出厂日期99年底，车况极品，试驾先预约，预约电话****”，确定分词结果中各个词对应的业务标签后，待识别信息中的“车”的业务标签为知识图谱中的实体词“车辆”，待识别信息中的“出厂日期99年底”的业务标签为知识图谱中的属性标签“新-出场时间距今”，确定属性标签“新-出场时间距今”的属性值时，可以根据待识别信息中的“出厂日期99年底”进行计算，从而确定今年与“99年”的年份差值，并确定得到的年份差值为属性标签“新-出场时间距今”的属性值。则确定的待识别信息中的实体词及对应的属性数据的组合包括：车辆，车辆的属性标签为“新-出场时间距今”，属性值为年份差值。

S206、判断待识别信息中的实体词及对应的属性数据的组合是否与常识相悖。

本实施例中，同样可以通过知识图谱判断待识别信息中的实体词及对应的属性数据的组合是否与常识相悖。

具体地，由于知识图谱用于记录常识性的实体词及对应的属性数据的组合，因此，可以直接判断待识别信息中的实体词及对应的属性数据的组合，是否与知识图谱中记载的实体词及对应的属性数据的组合匹配；如果不匹配，则确定待识别信息中的实体词及对应的属性数据的组合与常识相悖；如果匹配，则确定待识别信息中的实体词及对应的属性数据的组合与常识相符。

进一步地，待识别信息中包括多组实体词及对应的属性数据的组合，其可以表示为[实体词，属性标签，属性值]。若待识别信息中的某一组[实体词，属性标签，属性值]与知识图谱中记载的[实体词，属性标签，属性值]不匹配，则可以确定待识别信息中的该组[实体词，属性标签，属性值]与常识相悖。例如，待识别信息中的实体词与属性标签的对应关系与知识图谱中记载的实体词及属性标签的对应关系不匹配，则确定待识别信息中的该组[实体词，属性标签，属性值]与常识相悖；或者，若待识别信息中的属性标签及属性值的对应关系与知识图谱中记载的属性标签以及属性值的对应关系不匹配，则确定待识别信息中的该组[实体词，属性标签，属性值]与常识相悖。

例如，待识别信息中的实体词及对应的属性数据的组合为[茶叶，身材，S级],确定其是否与常识相悖时，例如，参见图3，知识图谱中存储的“茶叶”的属性标签中不包括“身材”，即待识别信息中的实体词与属性标签的对应关系与知识图谱中记载的实体词及属性标签的对应关系不匹配，则可以确定待识别信息中的[茶叶，身材，S级]与常识相悖。

或者，待识别信息中的实体词及对应的属性数据的组合为[茶叶，等级，S级],确定其是否与常识相悖时，例如，参见图3，知识图谱中存储的实体词“茶叶”的属性标签“等级”对应的属性值包括：特级、1级、2级、3级、4级、5级、6级、7级、8级、9级；而待识别信息中的实体词“茶叶”的属性标签“等级”对应的属性值为“S级”，“S级”与知识图谱中记载的实体词“茶叶”的属性标签“等级”的多个属性值均不相同，即待识别信息中的属性标签及属性值的对应关系与知识图谱中记载的属性标签以及属性值的对应关系不匹配，则可以确定待识别信息中的[茶叶，等级，S级]与常识相悖。

通过上述方法，可以直接根据知识图谱方便、快捷、准确地确定待识别信息中与常识相悖的实体词及对应的属性数据的组合。

实施例三

参照图4，示出了根据本发明实施例三的一种涉黄信息的识别方法的步骤流程图。

本实施例提供的方法包括以下步骤：

S302、确定待识别信息中与常识相悖的实体词及对应的属性数据的组合。

本实施例中，步骤S302的实现方式可参考实施例二，本实施例在此不再赘述。

S304、确定与常识相悖的实体词及对应的属性数据的组合中的所述属性数据被用于涉黄信息的概率大于第二阈值。

本实施例中，建立知识图谱时，知识图谱中包括被用于涉黄信息的概率大于第一阈值的实体词对应的知识图谱,知识图谱中包括这些实体词的属性数据，则确定待识别信息的属性数据被用于涉黄信息的概率大于第二阈值时，可以直接确定属性数据是否与知识图谱中被用于涉黄信息的概率大于第一阈值的实体词对应的属性数据匹配，若匹配，则可以确定待识别信息的属性数据被用于涉黄信息的概率大于第二阈值；若不匹配，则可以确定待识别信息的属性数据被用于涉黄信息的概率小于第二阈值。例如，图3示出的知识图谱中包括被用于涉黄信息的概率大于第一阈值的实体词“女”及其对应的属性标签“身材”、“年龄”等，知识图谱中属性标签“身材”的属性值可以包括“S级”等，知识图谱中属性标签“年龄”的属性值可以包括“20岁”等，属性值在图3中并未示出。若确定待识别信息中的属性数据与知识图谱中的属性数据“年龄，20岁”匹配，则可以确定属性数据被用于涉黄信息的概率大于第二阈值。

本实施例中，从待识别信息中确定的所述属性数据包括属性标签以及属性值。若所述属性值被用于涉黄信息的概率大于第二阈值，则包括其的属性数据被用于涉黄信息的概率大于第二阈值；或者，若所述属性标签以及所述属性值被用于涉黄信息的概率大于第二阈值，则所述属性数据被用于涉黄信息的概率大于第二阈值。若上述两种情况均未出现，则可以确定属性数据被用于涉黄信息的概率小于第二阈值。

通过上述方法，可以直接根据知识图谱方便、快捷、准确地确定属性数据被用于涉黄信息的概率是否大于第二阈值。

S306、根据与常识相悖的所述实体词及对应的属性数据的组合确定常识推理表征。

本实施例中，如图5所示，步骤S306具体包括：

S316、根据与常识相悖的所述实体词及对应的属性数据的组合，确定与其相同的样本实体词及对应的样本属性数据的组合，以确定所述样本实体词及对应的样本属性数据的组合的出现概率。

本实施例中，样本实体词及对应的样本属性数据的组合为根据预先采集的样本信息确定的。

本实施例中，每组样本实体词及对应的属性概率均对应有一预先确定的出现概率。出现概率可以用来表征样本实体词及对应的样本属性数据的组合在样本信息中出现的概率，出现概率越大，该组样本实体词及对应的样本属性数据的组合是被有意使用的可能性越大，被有意使用是指在编辑用户的主观意愿下使用而并非由于客观错误导致，例如，编辑用户主动将与常识相悖的所述实体词及对应的属性数据的组合用于涉黄信息；出现概率越小，该组样本实体词及对应的样本属性数据的组合是被无意间使用的可能性越大，被无意使用是指并非在编辑用户的主观意愿下使用，例如编辑用户的笔误等。

进一步地，在实际使用时，若与常识相悖的所述实体词及对应的属性数据的组合被有意使用，则包括其的待识别信息涉黄的概率较大；若被无意使用，则包括其的待识别信息涉黄的概率较小。且，由于本步骤是根据与常识相悖的实体词及对应的属性数据的组合，确定相同的样本实体词及对应的样本属性数据的组合，因此，可以直接通过样本实体词及对应的样本属性数据的组合的出现概率，来表征与其相同的与常识相悖的实体词及对应的属性数据的组合用于涉黄信息的概率，进而可以根据出现概率确定所述常识推理表征。

另外需要说明的是，所述样本实体词及对应的样本属性数据的组合的出现概率通过下述方法确定：

1)根据知识图谱，确定多个样本信息中各自包括的样本实体词及对应样本属性数据的组合。

本实施例中，确定样本信息中的样本实体词及对应的属性数据的组合的方法，与上述步骤中确定待识别信息中的实体词及对应的属性数据的组合的方法相同，本实施例对此不再赘述。

2)确定某一组所述样本实体词及对应的样本属性数据的组合在所有样本实体词及对应的样本属性数据的组合中的出现次数，以确定该样本实体词及对应的样本属性数据的组合的出现概率。

在具体实现时，可以统计各个样本实体词及对应的属性数据的组合的出现次数，然后将出现次数进行归一化处理，从而直接确定所有的样本实体词及对应的样本属性数据的组合的出现概率。

或者，也可以仅统计所有用于涉黄信息的样本实体词及对应的样本属性数据的组合的出现次数，然后计算出现次数与总次数的比值，以确定样本实体词及对应的样本属性数据的组合的出现概率，即，重点计算用于涉黄信息的样本实体词及对应的样本属性数据的组合的出现概率。

本实施例中，通过上述方法，可以在大规模的样本信息的基础上确定出现概率，使得确定的出现概率更加准确。

上述确定样本实体词及对应的样本属性数据的组合的终端设备可以与执行识别涉黄信息方案的终端设备为同一个终端设备执行，也可以为不同的终端设备，本实施例对此不进行限定。

S326、根据确定的所述样本实体词及对应的样本属性数据的组合在样本信息中的出现概率，确定所述常识推理表征。

本实施例中，待识别信息中可能包括一组与常识相悖的实体词及对应的属性数据的组合，也可能包括多组。

若待识别信息中包括一组与常识相悖的所述实体词及对应的属性数据的组合，则可以直接根据与其相同的样本实体词及对应的样本属性数据的组合的出现概率，确定常识推理表征。

若待识别信息中存在多组与常识相悖的所述实体词及对应的属性数据的组合，则根据分别与多组所述实体词及对应的属性数据的组合各自相同的所述样本实体词及对应的样本属性数据的组合，确定多个所述出现概率，以根据多个所述出现概率的平均值确定所述常识推理表征。

进一步地，根据多个所述出现概率的平均值确定所述常识推理表征时，可以为不同的出现概率设置不同的权重，然后确定多个出现概率的加权平均值，进而确定常识推理表征。通过设置不同的权重值，可以将重点关注的实体词及对应的属性数据的组合设置的权重较高，反之设置的权重较低，使得重点关注的实体词及对应的属性数据的组合对常识推理表征的影响较大。权重的设置方式可以由本领域的技术人员根据需求进行任意适当设置，例如，若识别是否涉黄时重点关注某一实体词，则可以将该实体词及对应的属性数据的组合的权重值较高。

S308、确定用于表征所述待识别信息语义信息的第一向量，以及确定所述常识推理表征对应的第二向量，将所述第一向量与所述第二向量拼接得到组合数据，以根据所述组合数据确定所述待识别信息是否涉黄。

本实施例中，通过对向量进行拼接，无需进行复杂的计算，即可得到组合数据，计算更加简单；且，确定组合数据后，即可直接通过组合数据代表待识别信息和常识推理表征，从而可以直接根据组合数据确定待识别信息是否涉黄。

具体地，可以通过预设的深度学习模型(例如CNN模型等)对待识别信息进行处理，进而确定用于表征其语义信息的第一向量。确定第一向量的具体方法本领域的技术人员可根据需要选择，本实施例对此不进行限定。

本实施例中，根据上述步骤S326可知，常识推理表征是根据出现概率确定的，则可以将出现概率映射得到的向量确定为常识推理表征，并将其直接作为第二向量。在具体实现时，可以通过任意适当的方式将出现概率映射为向量，例如，将数字0-1分为5段，每段对应向量中的一位数字，从而得到一个5维实数向量；当出现概率落入某段时，该段对应的数字为1，其余为0，以将出现概率映射为一个5维实数向量；或者，可以直接计算出现概率中的小数点后两位对应的二进制表示，并将其作为向量等。

确定第一向量以及第二向量后，可以直接将第一向量与第二向量进行拼接得到组合数据，例如，第一向量为n维实数向量，第二向量为m维实数向量，则直接将第二向量拼接于第一向量之后，得到的组合数据为一个m+n维的实数向量。

确定组合数据后，根据组合数据进行识别时，可以通过预先确定的分类器进行识别，例如softmax等。本实施例中，分类器可以根据上述样本信息进行监督训练确定。具体地，若组合数据为m+n维的实数向量，则进行识别时，分类器可以将m+n维的实数向量转换为2维的实数向量，以确定识别结果。2维的实数向量的值可以为01、10，其中，01可以表示识别结果为涉黄，10可以表示识别结果为非涉黄。

本实施例提供的方法，可以基于预设设置的知识图谱准确地确定出待识别信息中的与常识相悖的所述实体词及对应的属性数据的组合，可以根据知识图谱准确地确定属性数据被用于涉黄信息的概率是否大于第二阈值；此外，根据样本实体词及对应的样本属性数据的组合的出现概率，可以准确地确定与常识相悖的实体词及对应的属性数据的组合出现的原因是待识别信息涉黄的概率，进而可以准确地确定常识推理表征，再结合待识别信息的语义信息，可以准确地识别出实体词被用于涉黄信息的概率小于第一阈值、词语或者语义较为正向的信息是否为涉黄信息。

本申请实施例一、二、三提供的方法可以由任意适当的具有数据处理能力的终端设备执行，包括但不限于：移动终端(如平板电脑、手机等)和PC机等。

实施例四

参照图6，示出了根据本发明实施例四的一种非法信息的识别装置的结构框图。

如图6所示，非法信息的识别装置包括：实体词确定模块402、常识推理确定模块404、识别模块406。

实体词确定模块402用于确定待识别信息中实体词及对应的属性数据的组合，其中，所述实体词及对应的属性数据的组合与常识相悖，所述实体词被用于非法信息的概率小于第一阈值。

常识推理确定模块404用于若所述属性数据被用于非法信息的概率大于第二阈值，则根据与常识相悖的所述实体词及对应的属性数据的组合确定常识推理表征。

识别模块406用于至少根据所述常识推理表征进行识别，以确定所述待识别信息是否非法。

在一种可选的实施方式中，所述常识推理确定模块404包括：样本匹配模块，用于根据与常识相悖的所述实体词及对应的属性数据的组合，确定与其相同的样本实体词及对应的样本属性数据的组合，以确定所述样本实体词及对应的样本属性数据的组合的出现概率；常识推理确定子模块，用于根据确定的所述样本实体词及对应的样本属性数据的组合的出现概率，确定所述常识推理表征。

在一种可选的实施方式中，若待识别信息中存在多组与常识相悖的所述实体词及对应的属性数据的组合，则根据分别与多组所述实体词及对应的属性数据的组合各自相同的所述样本实体词及对应的样本属性数据的组合，确定多个所述出现概率，以根据多个所述出现概率的平均值确定所述常识推理表征。

在一种可选的实施方式中，所述样本实体词及对应的样本属性数据的出现概率通过样本确定模块确定，所述样本确定模块包括：样本实体词确定模块402，用于根据知识图谱，确定多个样本信息中各自包括的样本实体词及对应样本属性数据的组合；出现概率确定模块，用于确定某一组所述样本实体词及对应的样本属性数据的组合在所有样本实体词及对应的样本属性数据的组合中的出现次数，以确定该样本实体词及对应的样本属性数据的组合的出现概率。

在一种可选的实施方式中，所述属性数据包括属性标签以及属性值，对应地，若所述属性值被用于非法信息的概率大于第二阈值，则包括其的属性数据被用于非法信息的概率大于第二阈值；或者，若所述属性标签以及所述属性值被用于非法信息的概率大于第二阈值，则所述属性数据被用于非法信息的概率大于第二阈值。

在一种可选的实施方式中，所述实体词确定模块402包括：业务标签确定模块，用于确定所述待识别信息的分词结果，并从业务标签集合中确定与分词结果中的各个词对应的业务标签，业务标签集合中的业务标签为知识图谱中的各个实体词及属性标签；实体词确定子模块，用于根据分词结果中各个词对应的业务标签确定所述待识别信息中的实体词及属性标签，并根据业务标签为属性标签的词确定属性标签对应的属性值，以确定所述待识别信息中与常识相悖的所述实体词及对应的属性数据的组合。

在一种可选的实施方式中，若待识别信息中的所述实体词与属性标签的对应关系与知识图谱中记载的实体词及属性标签的对应关系不匹配，则确定所述实体词及属性数据的组合与常识相悖；或者，若待识别信息中的属性标签及属性值的对应关系与知识图谱中记载的属性标签以及属性值的对应关系不匹配，则确定所述实体词及属性数据的组合与常识相悖。

在一种可选的实施方式中，所述属性标签的类型包括：静态属性标签以及动态属性标签，对应的，若所述属性标签的类型为静态属性标签，则根据业务标签为属性标签的词确定该属性标签的属性值时，直接确定业务标签为属性标签的词为所述属性值；或者，若所述属性值的类型为动态属性标签，则根据业务标签为属性标签的词确定该属性标签的属性值时，根据业务标签为属性标签的词进行计算以确定所述属性值。

在一种可选的实施方式中，所述识别模块406包括：向量确定模块，用于确定用于表征所述待识别信息语义信息的第一向量，以及确定所述常识推理表征对应的第二向量；拼接模块，用于将所述第一向量与所述第二向量拼接得到组合数据，以根据所述组合数据确定所述待识别信息是否非法。

在一种可选的实施方式中，所述实体词被用于涉黄信息的概率小于第一阈值，所述属性数据被用于涉黄信息的概率大于第二阈值，对应的，确定所述待识别信息是否非法包括确定所述待识别信息是否涉黄。

本实施例提供的非法信息的识别方案，通过确定待识别信息中与常识相悖的所述实体词及对应的属性数据的组合，并且，若所述属性数据被用于非法信息的概率大于第二阈值，则进一步根据与常识相悖的所述实体词及对应的属性数据的组合确定常识推理表征；并至少根据所述常识推理表征进行识别，以确定所述待识别信息是否非法，从而可以准确地识别出实体词被用于非法信息的概率小于第一阈值、词语或者语义较为正向的非法信息。

实施例五

一种终端设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如上所述的非法信息的识别方法对应的操作。

具体地，参照图7，示出了根据本发明实施例五的一种终端设备的结构示意图，本发明具体实施例并不对终端设备的具体实现做限定。

如图7所示，该终端设备可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中：

处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它终端设备或服务器进行通信。

处理器502，用于执行程序510，具体可以执行上述非法信息的识别方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。

处理器502可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。终端设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行以下操作：确定待识别信息中实体词及对应的属性数据的组合，其中，所述实体词及对应的属性数据的组合与常识相悖，所述实体词被用于非法信息的概率小于第一阈值；若所述属性数据被用于非法信息的概率大于第二阈值，则根据与常识相悖的所述实体词及对应的属性数据的组合确定常识推理表征；至少根据所述常识推理表征进行识别，以确定所述待识别信息是否非法。

在一种可选的实施方式中，根据与常识相悖的所述实体词及对应的属性数据的组合，确定与其相同的样本实体词及对应的样本属性数据的组合，以确定所述样本实体词及对应的样本属性数据的组合的出现概率；根据确定的所述样本实体词及对应的样本属性数据的组合的出现概率，确定所述常识推理表征。

在一种可选的实施方式中，所述样本实体词及对应的样本属性数据的组合的出现概率通过下述方法确定：根据知识图谱，确定多个样本信息中各自包括的样本实体词及对应样本属性数据的组合；确定某一组所述样本实体词及对应的样本属性数据的组合在所有样本实体词及对应的样本属性数据的组合中的出现次数，以确定该样本实体词及对应的样本属性数据的组合的出现概率。

在一种可选的实施方式中，确定所述待识别信息的分词结果，并从业务标签集合中确定与分词结果中的各个词对应的业务标签，业务标签集合中的业务标签为知识图谱中的各个实体词及属性标签；根据分词结果中各个词对应的业务标签确定所述待识别信息中的实体词及属性标签，并根据业务标签为属性标签的词确定属性标签对应的属性值，以确定所述待识别信息中与常识相悖的所述实体词及对应的属性数据的组合。

在一种可选的实施方式中，确定用于表征所述待识别信息语义信息的第一向量，以及确定所述常识推理表征对应的第二向量；将所述第一向量与所述第二向量拼接得到组合数据，以根据所述组合数据确定所述待识别信息是否非法。

程序510中各步骤的具体实现可以参见上述非法信息的识别方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

本实施例的终端设备，通过确定待识别信息中与常识相悖的所述实体词及对应的属性数据的组合，并且，若所述属性数据被用于非法信息的概率大于第二阈值，则进一步根据与常识相悖的所述实体词及对应的属性数据的组合确定常识推理表征；并至少根据所述常识推理表征进行识别，以确定所述待识别信息是否非法，从而可以准确地识别出实体词被用于非法信息的概率小于第一阈值、词语或者语义较为正向的非法信息。

实施例六

本申请实施例提供一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的非法信息的识别方法。

本实施例的计算机存储介质，通过确定待识别信息中与常识相悖的所述实体词及对应的属性数据的组合，并且，若所述属性数据被用于非法信息的概率大于第二阈值，则进一步根据与常识相悖的所述实体词及对应的属性数据的组合确定常识推理表征；并至少根据所述常识推理表征进行识别，以确定所述待识别信息是否非法，从而可以准确地识别出实体词被用于非法信息的概率小于第一阈值、词语或者语义较为正向的非法信息。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的非法信息的识别方法。此外，当通用计算机访问用于实现在此示出的非法信息的识别方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的非法信息的识别方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种非法信息的识别方法，其特征在于，包括：

确定待识别信息中实体词及对应的属性数据的组合，其中，所述实体词及对应的属性数据的组合与常识相悖，所述实体词被用于非法信息的概率小于第一阈值；

若所述属性数据被用于非法信息的概率大于第二阈值，则根据与常识相悖的所述实体词及对应的属性数据的组合确定常识推理表征；

至少根据所述常识推理表征进行识别，以确定所述待识别信息是否非法。

2.根据权利要求1所述的方法，其中，

根据与常识相悖的所述实体词及对应的属性数据的组合，确定与其相同的样本实体词及对应的样本属性数据的组合，以确定所述样本实体词及对应的样本属性数据的组合的出现概率；

根据确定的所述样本实体词及对应的样本属性数据的组合的出现概率，确定所述常识推理表征。

3.根据权利要求2所述的方法，其中，若待识别信息中存在多组与常识相悖的所述实体词及对应的属性数据的组合，则根据分别与多组所述实体词及对应的属性数据的组合各自相同的所述样本实体词及对应的样本属性数据的组合，确定多个所述出现概率，以根据多个所述出现概率的平均值确定所述常识推理表征。

4.根据权利要求2所述的方法，其中，所述样本实体词及对应的样本属性数据的组合的出现概率通过下述方法确定：

根据知识图谱，确定多个样本信息中各自包括的样本实体词及对应样本属性数据的组合；

确定某一组所述样本实体词及对应的样本属性数据的组合在所有样本实体词及对应的样本属性数据的组合中的出现次数，以确定该样本实体词及对应的样本属性数据的组合的出现概率。

5.根据权利要求1所述的方法，其中，所述属性数据包括属性标签以及属性值，对应地，若所述属性值被用于非法信息的概率大于第二阈值，则包括其的属性数据被用于非法信息的概率大于第二阈值；或者，若所述属性标签以及所述属性值被用于非法信息的概率大于第二阈值，则所述属性数据被用于非法信息的概率大于第二阈值。

6.根据权利要求1所述的方法，其中，

确定所述待识别信息的分词结果，并从业务标签集合中确定与分词结果中的各个词对应的业务标签，业务标签集合中的业务标签为知识图谱中的各个实体词及属性标签；

根据分词结果中各个词对应的业务标签确定所述待识别信息中的实体词及属性标签，并根据业务标签为属性标签的词确定属性标签对应的属性值，以确定所述待识别信息中与常识相悖的所述实体词及对应的属性数据的组合。

7.根据权利要求6所述的方法，其中，若待识别信息中的所述实体词与属性标签的对应关系与知识图谱中记载的实体词及属性标签的对应关系不匹配，则确定所述实体词及属性数据的组合与常识相悖；

或者，若待识别信息中的属性标签及属性值的对应关系与知识图谱中记载的属性标签以及属性值的对应关系不匹配，则确定所述实体词及属性数据的组合与常识相悖。

8.根据权利要求6所述的方法，其中，所述属性标签的类型包括：静态属性标签以及动态属性标签，对应的，

若所述属性标签的类型为静态属性标签，则根据业务标签为属性标签的词确定该属性标签的属性值时，直接确定业务标签为属性标签的词为所述属性值；

或者，若所述属性值的类型为动态属性标签，则根据业务标签为属性标签的词确定该属性标签的属性值时，根据业务标签为属性标签的词进行计算以确定所述属性值。

9.根据权利要求1-8任一项所述的方法，其中，

确定用于表征所述待识别信息语义信息的第一向量，以及确定所述常识推理表征对应的第二向量；

将所述第一向量与所述第二向量拼接得到组合数据，以根据所述组合数据确定所述待识别信息是否非法。

10.根据权利要求1-8任一项所述的方法，其中，所述实体词被用于涉黄信息的概率小于第一阈值，所述属性数据被用于涉黄信息的概率大于第二阈值，对应的，确定所述待识别信息是否非法包括确定所述待识别信息是否涉黄。

11.一种非法信息的识别装置，其特征在于，包括：

实体词确定模块，用于确定待识别信息中实体词及对应的属性数据的组合，其中，所述实体词及对应的属性数据的组合与常识相悖，所述实体词被用于非法信息的概率小于第一阈值；

常识推理确定模块，用于若所述属性数据被用于非法信息的概率大于第二阈值，则根据与常识相悖的所述实体词及对应的属性数据的组合确定常识推理表征；

识别模块，用于至少根据所述常识推理表征进行识别，以确定所述待识别信息是否非法。