CN110543632A

CN110543632A - 一种文本信息识别方法、装置、储存介质及电子设备

Info

Publication number: CN110543632A
Application number: CN201910786037.4A
Authority: CN
Inventors: 张凯; 魏亮
Original assignee: Beijing Chalk Blue Sky Technology Co Ltd
Current assignee: Beijing Chalk Blue Sky Technology Co Ltd
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2019-12-06
Anticipated expiration: 2039-08-23
Also published as: CN110543632B

Abstract

本发明公开了一种文本信息识别方法、装置、储存介质及电子设备,其中文本信息识别方法，包括：将已知文本进行预处理，得到分词文本；根据所述分词文本构建语义关系图；根据所述语义关系图来判断文本信息垃圾信息等级。该方法通过构建语义关系图，利用语义关系图对文本信息进行判断显著提高垃圾文本识别的准确率和召回率。

Description

一种文本信息识别方法、装置、储存介质及电子设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种文本信息识别方法、装置、储存介质及电子设备。

背景技术

在线社区环境中，文字信息是用户的一种主要沟通方式。随着在线社区的不断发展，在社区中讨论和交流的人越来越多，在社区中难免会出现垃圾信息和广告，以及色情/暴力等信息，甚至是对他人进行人身攻击和恶意中伤。

各个在线社区基本都会有人工处理，关键词屏蔽处理。

但是以上的处理办法都有很大的局限性，要么垃圾文本的处理不及时；要么规则很固定，很容易被绕过。并且，现有技术中的垃圾文本的召回率和准确率都很低。

发明内容

(一)发明目的

本发明的目的是提供一种文本信息识别方法、装置、储存介质及电子设备以解决现有技术的垃圾文本的召回率和准确率都很低的问题。

(二)技术方案

为解决上述问题，本发明的第一方面提供了一种文本信息识别方法，包括：将已知文本进行预处理，得到分词文本；根据所述分词文本构建语义关系图；根据所述语义关系图来判断文本信息垃圾信息等级。

进一步地，所述将已知的普通文本和垃圾文本进行预处理包括：将所述已知文本进行非可用词过滤处理，得到纯可用词文本；将所述纯可用词文本进行分词处理，得到分词文本。

进一步地，所述根据所述分词文本构建语义关系图包括：根据所述分词文本中的正常文本构建正常语义关系图；和/或根据所述分词文本中的垃圾文本构建垃圾语义关系图。

进一步地，还包括：根据所述文本信息的垃圾信息等级，对所述文本信息进行识别处理。

进一步地，所述根据所述垃圾信息等级，对所述文本信息进行识别处理包括下述中的至少一种：将垃圾信息等级为高的，进行屏蔽处理；将垃圾信息等级为中的，进行人工审核处理；将垃圾信息等级为低的，进行放行处理。

进一步地，还包括：根据用户的反馈信息，对所述语义关系图进行更新。

根据本发明的另一个方面，提供一种文本信息识别装置，包括：已知文本处理模块，用于将已知文本进行预处理，得到分词文本；关系图构建模块，用于根据所述分词文本构建语义关系图；判断模块，用于根据所述语义关系图来判断文本信息垃圾信息等级。

进一步地，所述已知文本处理模块包括：过滤单元，用于将所述已知文本进行非可用词过滤处理，得到纯可用词文本；分词单元，用于将所述纯可用词文本进行分词处理，得到分词文本。

进一步地，所述关系图构建模块包括：正常语义关系图构建单元，用于根据所述分词文本中的正常文本构建正常语义关系图；和/或垃圾语义关系图构建单元，用于根据所述分词文本中的垃圾文本构建垃圾语义关系图。

进一步地，还包括：识别处理模块，用于根据所述文本信息的垃圾信息等级，对所述文本信息进行识别处理。

进一步地，所述识别处理模块包括下述中的至少一种：屏蔽单元，用于将垃圾信息等级为高的，进行屏蔽处理；人工审核处理单元，用于将垃圾信息等级为中的，进行人工审核处理；放行单元，用于将垃圾信息等级为低的，进行放行处理。

进一步地，还包括：更新模块，用于根据用户的反馈信息，对所述语义关系图进行更新。

根据本发明的又一方面，提供一种计算机存储介质，所述存储介质上存储有计算机程序，所述程序被处理器执行时实现上述技术方案中任意一项所述方法的步骤。

根据本发明的又一方面，提供一种电子设备，包括存储器、显示器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述技术方案中任意一项所述方法的步骤。

发明提供的一种文本信息识别方法，包括：将已知文本进行预处理，得到分词文本；根据分词文本构建语义关系图；根据语义关系图来判断文本信息垃圾信息等级。

(三)有益效果

本发明的上述技术方案具有如下有益的技术效果：

通过构建语义关系图，利用语义关系图对文本信息进行判断显著提高垃圾文本识别的准确率和召回率。

附图说明

图1是根据本发明第一实施方式文本信息识别方法的流程图；

图2是根据本发明一具体实施方式构建语义关系图的方法的流程图；

图3是根据本发明一具体实施方式构建词组之间的无向加权图方法的流程图；

图4是根据本发明一具体实施方式文的语义关系图的示意图；

图5是根据本发明一具体实施方式根据语义关系图进行文本识别的方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

如图1所示，在本发明实施例的第一方面，提供了一种文本信息识别方法，包括：

S1：将已知文本进行预处理，得到分词文本；可选的，所述将已知的普通文本和垃圾文本进行预处理包括：将所述已知文本进行非可用词过滤处理；可选的，还包括：对文本进行繁简体的转换，得到纯可用词文本；将所述纯可用词文本进行分词处理，得到分词文本。其中，已知文本是根据初期的屏蔽关键词进行初步筛选出来的，之后再进行多轮迭代进行筛选。过滤处理是对原始文本进行非可用词的过滤，去掉除中文和英文以外的其他字符。分词处理是对文本进行停用词过滤后的分词处理结果，具体是通过利用ANSJ分词器进行分词处理。

S2：根据所述分词文本构建语义关系图；可选的，所述根据所述分词文本构建语义关系图包括：根据所述分词文本中的正常文本构建正常语义关系图；和/或根据所述分词文本中的垃圾文本构建垃圾语义关系图。根据分词处理结果，分别构建正常文本和垃圾文本中词组的无向加权图，如果词组之间可以组合成为一个正常的句子，则说明词组之间是有路径的，如果词组之间可以组合成的句子越多则词组之间的路径的权重越大。(如果一个文本只有一个词组，则该词组会有一条指向自己的路径)。具体的，根据分类后的文本中的词组建立二维矩阵，如果两个词组在一个文本中出现过，则说明词组之间有路径，两个词组在一个文本中出现的次数越多，则它们之间的路径值越大；统计各个分类中文本和词组的词频；结合某一词组在当前分类和其他分类中的词频来计算该词组在当前分类中的权重值。

S3：根据所述语义关系图来判断文本信息垃圾信息等级。在待检测文本信息被输入之后，会使用上述同样的算法进行分词处理。分词处理之后分别通过正常文本和垃圾文本的语义关系图进行判断，检查这些词语在正常文本的语义关系图中所覆盖路径的条数以及整体路径所占用的权重。同理，检查这些词语在垃圾文本的语义关系图中所覆盖路径的条数以及整体路径所占用的权重。根据之前设置好的阈值来返回文本是正常文本还是垃圾文本的可信度，还是根据双方路径数量和权重的差异来判断的。其中，阈值可以根据不同社区平台进行调节设置。

可选的，上述文本信息识别方法还包括：根据所述文本信息的垃圾信息等级，对所述文本信息进行识别处理。可选的，所述根据所述垃圾信息等级，对所述文本信息进行识别处理包括下述中的至少一种：将垃圾信息等级为高的，进行屏蔽处理；将垃圾信息等级为中的，进行人工审核处理；将垃圾信息等级为低的，进行放行处理。

可选的，上述文本信息识别方法还包括：根据用户的反馈信息，对所述语义关系图进行更新。

在一具体实施例中，提供一种构建语义关系图的方法，如图2所示，包括以下步骤：

S11：读取已分类的文本样本集合；

S12：对文本样本集合进行特殊字符过滤；

S13：对文本样本集合进行繁简体转换；

S14：文本样本集合中的数字符号变形检查与转换；

S15：文本样本集合中停用词过滤；

S16：利用ANSJ分词器进行分词处理；

S17：按照分词结果构建词组之间的无向加权图；

S18：待样本读取完毕构建语义关系图。

其中，按照分词结果构建词组之间的无向加权图，如图3所示具体包括：

S171：获取已分词文本的词组；

S172：根据词组建立二维矩阵，如果两个词组在一个文本中出现过，则说明两个词组之间有路径，两个词组在一个文本中出现的次数越多，则它们之间的路径值越大；

S173：计算词组之间路径的权重；

S174：统计各个分词中文本的词频；

S175：统计各个分词中词组的词频；

S176：结合词组A在当前分类和其他分类中的词频来计算词组A在当前分词中的权重值。语义关系图如图4所示。

词组A在文本分类a中自身权重计算公式：

WAa＝(WordCountAa/WordCountalla)/k*(WordCountAother)；

其中，

WordCountAa为词组A在文本分类a中出现的次数；

WordCountalla为文本分类a中所以词组的数量；

WordCountAother为词组A在其他文本分类中出现的次数；

K为调节参数，当不同文本分类中样本数量不一致时进行调节使用；

词组A为任一词组，文本分类a为任一文本分类。

上述方法通过构建语义关系图，利用语义关系图对文本信息进行判断显著提高垃圾文本识别的准确率和召回率。

在本实施例中，还提供一种根据语义关系图进行文本识别的方法，具体流程如图5所示，包括：获取待检测文本；对待检测文本进行特殊字符过滤、繁简体转换、数字符号变形转换与检测及停用词过滤；利用ANSJ分词器进行分词处理；将分词文本中的词组放入语义关系图中进行检查；其中将分词文本中的词组放入语义关系图中进行检查，具体检查流程包括：查看词组在各个语义关系图中的路径数量，如果在语义关系图A中的路径数量多于其他语义关系图中的数量，则输入文本判断为A类文本，如果在各个语义关系图中的路径数量相同，则比较路径的权重情况，其权重计算公式为：

W_ab＝W_a+W_b+W_path；

其中，W_a代表词组a在语义关系图中的权重；W_b代表词组b在语义关系图中的权重；W_path代表词组a和b之间路径的权重；

W_path＝PathNum_ablnA/(PathNum_a+PathNum_b)；

其中，PathNum_ablnA是词组a和词组b之间在分类A中的路径数量，PathNum_a代表词组a与其他词组组合成的所有路径数量，PathNum_b代表词组b与其他词组组合成的所有路径数量。

在本发明实施例的另一个方面，提供一种文本信息识别装置，包括：已知文本处理模块，用于将已知文本进行预处理，得到分词文本；关系图构建模块，用于根据所述分词文本构建语义关系图；判断模块，用于根据所述语义关系图来判断文本信息垃圾信息等级。

上述系统通过关系图构建模块构建语义关系图，判断模块利用语义关系图对文本信息进行判断，该装置显著提高垃圾文本识别的准确率和召回率。

可选的，所述已知文本处理模块包括：过滤单元，用于将所述已知文本进行非可用词过滤处理，得到纯可用词文本；分词单元，用于将所述纯可用词文本进行分词处理，得到分词文本。

可选的，所述关系图构建模块包括：正常语义关系图构建单元，用于根据所述分词文本中的正常文本构建正常语义关系图；和/或垃圾语义关系图构建单元，用于根据所述分词文本中的垃圾文本构建垃圾语义关系图。

可选的，还包括：识别处理模块，用于根据所述文本信息的垃圾信息等级，对所述文本信息进行识别处理。

可选的，所述识别处理模块包括下述中的至少一种：屏蔽单元，用于将垃圾信息等级为高的，进行屏蔽处理；人工审核处理单元，用于将垃圾信息等级为中的，进行人工审核处理；放行单元，用于将垃圾信息等级为低的，进行放行处理。

可选的，还包括：更新模块，用于根据用户的反馈信息，对所述语义关系图进行更新。

在本发明实施例的又一方面，提供一种计算机存储介质，所述存储介质上存储有计算机程序，所述程序被处理器执行时实现上述技术方案中任意一项所述方法的步骤。

在本发明实施例的又一方面，提供一种电子设备，包括存储器、显示器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述技术方案中任意一项所述方法的步骤。

本发明旨在保护一种文本信息识别方法，包括：将已知文本进行预处理，得到分词文本；根据所述分词文本构建语义关系图；根据所述语义关系图来判断文本信息垃圾信息等级。上述方法通过构建语义关系图，利用语义关系图对文本信息进行判断显著提高垃圾文本识别的准确率和召回率。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种文本信息识别方法，其特征在于，包括：

将已知文本进行预处理，得到分词文本；

根据所述分词文本构建语义关系图；

根据所述语义关系图来判断文本信息垃圾信息等级。

2.根据权利要求1所述的方法，其特征在于，所述将已知的普通文本和垃圾文本进行预处理包括：

将所述已知文本进行非可用词过滤处理，得到纯可用词文本；

将所述纯可用词文本进行分词处理，得到分词文本。

3.根据权利要求1所述的方法，其特征在于，所述根据所述分词文本构建语义关系图包括：

根据所述分词文本中的正常文本构建正常语义关系图；和/或

根据所述分词文本中的垃圾文本构建垃圾语义关系图。

4.根据权利要求1-3任一项所述的方法，其特征在于，还包括：

根据所述文本信息的垃圾信息等级，对所述文本信息进行识别处理。

5.根据权利要求4所述的方法，其特征在于，所述根据所述垃圾信息等级，对所述文本信息进行识别处理包括下述中的至少一种：

将垃圾信息等级为高的，进行屏蔽处理；

将垃圾信息等级为中的，进行人工审核处理；

将垃圾信息等级为低的，进行放行处理。

6.根据权利要求1-5任一项所述的方法，其特征在于，还包括：

根据用户的反馈信息，对所述语义关系图进行更新。

7.一种文本信息识别装置，其特征在于，包括：

已知文本处理模块，用于将已知文本进行预处理，得到分词文本；

关系图构建模块，用于根据所述分词文本构建语义关系图；

判断模块，用于根据所述语义关系图来判断文本信息垃圾信息等级。

8.根据权利要求7所述的装置，其特征在于，所述已知文本处理模块包括：

过滤单元，用于将所述已知文本进行非可用词过滤处理，得到纯可用词文本；

分词单元，用于将所述纯可用词文本进行分词处理，得到分词文本。

9.根据权利要求7所述的装置，其特征在于，所述关系图构建模块包括：

正常语义关系图构建单元，用于根据所述分词文本中的正常文本构建正常语义关系图；和/或

垃圾语义关系图构建单元，用于根据所述分词文本中的垃圾文本构建垃圾语义关系图。

10.根据权利要求7-9任一项所述的装置，其特征在于，还包括：

识别处理模块，用于根据所述文本信息的垃圾信息等级，对所述文本信息进行识别处理。

11.根据权利要求10所述的装置，其特征在于，所述识别处理模块包括下述中的至少一种：

屏蔽单元，用于将垃圾信息等级为高的，进行屏蔽处理；

人工审核处理单元，用于将垃圾信息等级为中的，进行人工审核处理；

放行单元，用于将垃圾信息等级为低的，进行放行处理。

12.根据权利要求7-11任一项所述的装置，其特征在于，还包括：

更新模块，用于根据用户的反馈信息，对所述语义关系图进行更新。

13.一种计算机存储介质，其特征在于，所述存储介质上存储有计算机程序，所述程序被处理器执行时实现权利要求1-6中任意一项所述方法的步骤。

14.一种电子设备，其特征在于，包括存储器、显示器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-6中任意一项所述方法的步骤。