CN108959264A

CN108959264A - 非法网页的判断方法和装置

Info

Publication number: CN108959264A
Application number: CN201810758143.7A
Authority: CN
Inventors: 董金波
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2018-07-11
Filing date: 2018-07-11
Publication date: 2018-12-07

Abstract

本发明公开了非法网页的判断方法和装置。该方法包括：如果判断网页包括文本内容，则将网页的文本内容拆分成各个完整的句子；调用自然语言理解模型来判断每个句子的句子结构，并且根据判断出的句子的句子结构，将每个句子拆分成多个词语；根据句子结构，确定各个词语的词性，并且为各个词语添加相应的词性标签；根据带有词性标签的词语所对应的非法内容权重，计算网页的文本内容的非法内容分数，作为网页的非法内容分数；根据网页的非法内容分数，判断网页是否是非法网页。根据词语的权重来确定网页是否是非法网页，可以节省了大量的人工成本以及审核网页所需的时间，减小了人工审核时存在的判断错误的可能性或者遗漏非法网页内容的可能性。

Description

非法网页的判断方法和装置

技术领域

本发明涉及信息识别技术，尤指一种非法网页的判断方法和装置。

背景技术

伴随着互联网事业的迅速发展，互联网中充斥着大量的非法信息，这些非法信息藏匿在网页中，往往并不容易辨别出。目前，为了审核出网页中的非法信息，需要人工查看网页中的文本内容，然而，网页的文本内容更新的速度很快，如果采用人工岔开网页的文本内容的方式来审核的话，需要大量人工，产生巨大的工作量，成本高昂并且所耗费的时间很长；此外，人工在审核网页内容的时候，容易遗漏网页中的边角处的文本，最终造成非法信息并没有被审核出而漏过，审核效果不好。

发明内容

为了解决上述技术问题，本发明提供了一种非法网页的判断方法和装置，其可以减少审核非法网页所耗费的人工以及时间，并且审核效果更好。

一方面，本发明的实施例提供了一种非法网页的判断方法，该方法包括：

判断网页是否包括文本内容和图像内容；

如果网页包括文本内容，则将网页的文本内容拆分成各个完整的句子；

调用自然语言理解模型来判断每个句子的句子结构，并且根据判断出的句子的句子结构，将每个句子拆分成多个词语；

根据句子结构，确定各个词语的词性，并且为各个词语添加相应的词性标签；

根据带有词性标签的词语所对应的非法内容权重，计算网页的文本内容的非法内容分数，作为网页的非法内容分数；

根据网页的非法内容分数，判断网页是否是非法网页。

进一步地，在一个可选的实施例中，该方法还包括：

调用自然语言理解模型并且根据词语的词性，来为词语分配具有词性的词语的初始的非法内容权重；

接收用户定义的词语的非法内容权重以及用户对于词语的词性的定义，采用用户定义的词语的非法内容权重来修改词语的非法内容权重；并且采用对于词语的词性的定义，来训练自然语言理解模型。

进一步地，在一个可选的实施例中，将网页的文本内容拆分成各个完整的句子的步骤包括：

从网页的文本内容中识别出网页的标签，并且删除网页的标签，然后将网页的文本内容拆分成各个完整的句子。

从网页的文本内容中识别出多种自然语言的具有语义的文本，将多种自然语言中的一种自然语言作为标准自然语言，并且联网查询其他语言的具有语义的文本的标准自然语言的语义，然后按照网页的文本内容的标准自然语言的语义，将网页的文本内容拆分成各个完整的句子。

进一步地，在一个可选的实施例中，在调用自然语言理解模型来判断每个句子的句子结构的步骤之前，该方法还包括：

如果网页中的元素包括图像内容，则调用字符识别工具来识别并且存储图像内容中的的字符，并且将从图像内容中识别出的字符所包括的文本内容拆分成各个完整的句子。

另一方面，本发明的实施例提供了一种非法网页的判断装置，该装置包括：

内容判断模块，用于判断网页是否包括文本内容和图像内容；

句子拆分模块，用于：如果内容判断模块判断网页包括文本内容，则将网页的文本内容拆分成各个完整的句子；

词语拆分模块，用于：调用自然语言理解模型来判断每个句子的句子结构，并且根据判断出的句子的句子结构，将每个句子拆分成多个词语；

词性确定模块，用于：根据句子结构，确定各个词语的词性，并且为各个词语添加相应的词性标签；

权重计算模块，用于：根据带有词性标签的词语所对应的非法内容权重，计算网页的文本内容的非法内容分数，作为网页的非法内容分数；

非法网页判断模块，用于：根据网页的非法内容分数，判断网页是否是非法网页。

进一步地，在一个可选的实施例中，该装置还包括：

初始权重分配模块，用于：调用自然语言理解模型并且根据词语的词性，来为词语分配具有词性的词语的初始的非法内容权重；

权重修改与模型训练模块，用于：接收用户定义的词语的非法内容权重以及用户对于词语的词性的定义，采用用户定义的词语的非法内容权重来修改词语的非法内容权重；并且采用对于词语的词性的定义，来训练自然语言理解模型。

进一步地，在一个可选的实施例中，句子拆分模块用于：

进一步地，在一个可选的实施例中，该装置还包括：

图像内容识别与拆分模块，用于：在词语拆分模块调用自然语言理解模型来判断每个句子的句子结构之前，如果内容判断模块判断网页中的元素包括图像内容，则图像内容识别与拆分模块调用字符识别工具来识别并且存储图像内容中的的字符，并且将从图像内容中识别出的字符所包括的文本内容拆分成各个完整的句子。

本发明的实施例的有益效果在于，通过将网页的内容拆分成各个语义完整的句子，可以以每个句子作为单位进行分析。然后通过自然语言理解模型来判断每个句子的句子结构，并且根据判断出的句子的句子结构，将每个句子拆分成多个词语；通过这种方式，可以确定词语的词性，并且查询具有该词性的词语的非法内容权重；以网页中的词语所对应的非法网页内容权重为基础，可以计算出网页的内容的非法内容分数，作为网页的非法内容分数，进而判断网页是否是非法网页。通过本发明实施例提供的判断方法，可以采取自动化的方式根据词语的权重来确定网页是否是非法网页，节省了大量的人工成本并且节省了审核网页所需的时间，适合互联网事业未来的发展方向；另外，不易遗漏网页中的内容，减小了人工审核时存在的判断错误的可能性或者遗漏非法网页内容的可能性，因此审核的效果更好。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例提供的非法网页的判断方法的流程图；

图2为本发明的可选的实施例提供的非法网页的判断方法的流程图；

图3为本发明实施例提供的非法网页的判断装置的框图；

图4为本发明的可选的实施例提供的非法网页的判断装置的框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

一方面，本发明的实施例提供了一种非法网页的判断方法，如图1所示，该方法包括步骤S101-步骤S111。

步骤S101，判断网页是否包括文本内容和图像内容。

网页的基本元素主要包括文本内容和图像内容。因此，针对文本内容和图像内容，需要采取不同的处理措施。

步骤S103，如果网页包括文本内容，则将网页的文本内容拆分成各个完整的句子。

在此，可以通过文本符号、间隔符、空格、段落符等各种符号来将网页的文本内容分成各个句子。但不排除通过其他方式将网页的文本内容分成各个句子。

步骤S105，调用自然语言理解模型来判断每个句子的句子结构，并且根据判断出的句子的句子结构，将每个句子拆分成多个词语。

自然语言处理(NLP，Natural Language Processing)是使用自然语言同计算机进行通讯的技术,因为处理自然语言的关键是要让计算机“理解”自然语言,所以自然语言处理又叫做自然语言理解(NLU，Natural Language Understanding),也称为计算语言学(Computational Linguistics)。自然语言理解是人工智能的分支学科。研究用电子计算机模拟人的语言交际过程，使计算机能理解和运用人类社会的自然语言如汉语、英语等，实现人机之间的自然语言通信，以代替人的部分脑力劳动，包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。自然语言理解模型用来实现上述的功能。

常规的句子结构包括单句和复句，其中，单句具体包括主谓句(动词谓语句、形容词谓语句、名词谓语句、主谓谓语句)和非主谓句(名词非主谓句、动词非主谓句、形容词非主谓句、叹词非主谓句)；复句由多个单句组成，复句之中的多个单句之间的关系包括并列关系、承接关系、递进关系、选择关系、总分关系、转折关系、假设关系、条件关系、因果关系以及目的关系。一个句子可以具有多个组成部分(即句子的成分)，各个组成部分包括：主语、谓语、宾语、表语、定语、状语、补足语和同位语。在此调用自然语言理解模型来判断每个句子的句子结构，并且根据判断出的句子的句子结构，将每个句子拆分成多个词语。对于一个句子来说，不同的成分对于句子的语义表达来说，作用是不同的；对于一个词语来说，在各个句子中作为不同的句子成分，表达语义的作用(即，对于语义表达来说的重要性)也是不同的。因此，需要根据词语在句子中的词性，来确定这个词的作用。根据以上的原理，可以通过关注特定词语的词性，来理解网页中所表达的语义，进而确定网页的内容的意思，确定网页是否是非法网页。

步骤S107，根据句子结构，确定各个词语的词性，并且为各个词语添加相应的词性标签。

步骤S109，根据带有词性标签的词语所对应的非法内容权重，计算网页的文本内容的非法内容分数，作为网页的非法内容分数。

步骤S111，根据网页的非法内容分数，判断网页是否是非法网页。

进一步地，在一个可选的实施例中，该方法还包括：

在最初调用自然语言理解模型的时候，用户需要根据识别非法网页的实际的情况而为词语分配初始的非法内容权重。此后，当接收到用户定义的词语的非法内容权重的时候，采用用户定义的词语的非法内容权重来词语的非法内容权重，这样可以使为词语分配的非法内容权重逐渐靠近用户的体验和判断。

进一步地，在一个可选的实施例中，步骤S103包括：

网页的文本内容除了具有语义的句子之外，还包括编辑网页时产生的标签，这些标签用于后台的处理以及前端的显示，因此并不能够算作网页的文本内容，需要删除这些标签，之后再将剩下的文本内容拆分成各个句子。

进一步地，在一个可选的实施例中，步骤S103包括：

如图2所示，进一步地，在一个可选的实施例中，在步骤S105之前，该方法还包括步骤S104。

步骤S104，如果网页中的元素包括图像内容，则调用字符识别工具来识别并且存储图像内容中的的字符，并且将从图像内容中识别出的字符所包括的文本内容拆分成各个完整的句子。

可以通过字符识别工具(例如，扫描仪和光学字符识别(Optical CharacterRecognition，简称OCR)软件)将网页的图像内容中所表达的自然语言的语义转换并且输出成字符。然后将图像内容中识别转换并且输出的字符按照上述非法网页的判断方法的步骤S105开始的各步骤进行处理，从而可以判断出图像内容所表达的语义是否包含非法的内容，并且据此判断网页是否是非法网页。

另一方面，本发明实施例还提供了一种非法网页的判断装置，如图3所示，该装置包括内容判断模块201、句子拆分模块203、词语拆分模块205、词性确定模块207、权重计算模块209和非法网页判断模块211。

内容判断模块201用于判断网页是否包括文本内容和图像内容。

句子拆分模块203用于：如果内容判断模块判断网页包括文本内容，则将网页的文本内容拆分成各个完整的句子。

词语拆分模块205用于：调用自然语言理解模型来判断每个句子的句子结构，并且根据判断出的句子的句子结构，将每个句子拆分成多个词语。

词性确定模块207用于：根据句子结构，确定各个词语的词性，并且为各个词语添加相应的词性标签。

权重计算模块209用于：根据带有词性标签的词语所对应的非法内容权重，计算网页的文本内容的非法内容分数，作为网页的非法内容分数。

非法网页判断模块211用于：根据网页的非法内容分数，判断网页是否是非法网页。

进一步地，在一个可选的实施例中，该装置还包括：

进一步地，在一个可选的实施例中，句子拆分模块203用于：

如图4所示，进一步地，在一个可选的实施例中，该装置还包括图像内容识别与拆分模块204。

图像内容识别与拆分模块204用于：在词语拆分模块205调用自然语言理解模型来判断每个句子的句子结构之前，如果内容判断模块201判断网页中的元素包括图像内容，则图像内容识别与拆分模块204调用字符识别工具来识别并且存储图像内容中的的字符，并且将从图像内容中识别出的字符所包括的文本内容拆分成各个完整的句子。

虽然本发明所揭露的实施方式如上，但上述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种非法网页的判断方法，其特征在于，包括：

判断网页是否包括文本内容和图像内容；

如果所述网页包括文本内容，则将所述网页的文本内容拆分成各个完整的句子；

根据所述句子结构，确定各个词语的词性，并且为各个所述词语添加相应的词性标签；

根据带有所述词性标签的所述词语所对应的非法内容权重，计算所述网页的文本内容的非法内容分数，作为所述网页的非法内容分数；

根据所述网页的非法内容分数，判断所述网页是否是非法网页。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

调用所述自然语言理解模型并且根据词语的词性，来为词语分配具有所述词性的词语的初始的非法内容权重；

接收用户定义的词语的非法内容权重以及用户对于词语的词性的定义，采用所述用户定义的词语的非法内容权重来修改所述词语的非法内容权重；并且采用对于词语的词性的定义，来训练所述自然语言理解模型。

3.根据权利要求1所述的方法，其中，所述将网页的文本内容拆分成各个完整的句子的步骤包括：

从所述网页的文本内容中识别出网页的标签，并且删除网页的标签，然后将所述网页的文本内容拆分成各个完整的句子。

4.根据权利要求1所述的方法，其中，所述将网页的文本内容拆分成各个完整的句子的步骤包括：

从所述网页的文本内容中识别出多种自然语言的具有语义的文本，将所述多种自然语言中的一种自然语言作为标准自然语言，并且联网查询所述其他语言的具有语义的文本的标准自然语言的语义，然后按照所述网页的文本内容的标准自然语言的语义，将所述网页的文本内容拆分成各个完整的句子。

5.根据权利要求1所述的方法，其中，在所述调用自然语言理解模型来判断每个句子的句子结构的步骤之前，所述方法还包括：

如果所述网页中的元素包括图像内容，则调用字符识别工具来识别并且存储所述图像内容中的的字符，并且将从所述图像内容中识别出的字符所包括的文本内容拆分成各个完整的句子。

6.一种非法网页的判断装置，其特征在于，包括：

句子拆分模块，用于：如果所述内容判断模块判断所述网页包括文本内容，则将所述网页的文本内容拆分成各个完整的句子；

词性确定模块，用于：根据所述句子结构，确定各个词语的词性，并且为各个所述词语添加相应的词性标签；

权重计算模块，用于：根据带有所述词性标签的所述词语所对应的非法内容权重，计算所述网页的文本内容的非法内容分数，作为所述网页的非法内容分数；

非法网页判断模块，用于：根据所述网页的非法内容分数，判断所述网页是否是非法网页。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

初始权重分配模块，用于：调用所述自然语言理解模型并且根据词语的词性，来为词语分配具有所述词性的词语的初始的非法内容权重；

权重修改与模型训练模块，用于：接收用户定义的词语的非法内容权重以及用户对于词语的词性的定义，采用所述用户定义的词语的非法内容权重来修改所述词语的非法内容权重；并且采用对于词语的词性的定义，来训练所述自然语言理解模型。

8.根据权利要求6所述的装置，其中，所述句子拆分模块用于：

9.根据权利要求6所述的装置，其中，所述句子拆分模块用于：

10.根据权利要求6所述的装置，所述装置还包括：

图像内容识别与拆分模块，用于：在所述词语拆分模块调用自然语言理解模型来判断每个句子的句子结构之前，如果所述内容判断模块判断所述网页中的元素包括图像内容，则所述图像内容识别与拆分模块调用字符识别工具来识别并且存储所述图像内容中的的字符，并且将从所述图像内容中识别出的字符所包括的文本内容拆分成各个完整的句子。