CN110162624A - 一种文本处理方法、装置以及相关设备 - Google Patents
一种文本处理方法、装置以及相关设备 Download PDFInfo
- Publication number
- CN110162624A CN110162624A CN201910304358.6A CN201910304358A CN110162624A CN 110162624 A CN110162624 A CN 110162624A CN 201910304358 A CN201910304358 A CN 201910304358A CN 110162624 A CN110162624 A CN 110162624A
- Authority
- CN
- China
- Prior art keywords
- text
- information
- property parameters
- target
- object content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 239000013598 vector Substances 0.000 claims description 84
- 238000000605 extraction Methods 0.000 claims description 30
- 238000009826 distribution Methods 0.000 claims description 28
- 230000015654 memory Effects 0.000 claims description 18
- 230000002123 temporal effect Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 12
- 241000208340 Araliaceae Species 0.000 claims description 11
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 11
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 11
- 235000008434 ginseng Nutrition 0.000 claims description 11
- 239000002131 composite material Substances 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 239000006185 dispersion Substances 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 description 29
- 238000010586 diagram Methods 0.000 description 18
- 230000010354 integration Effects 0.000 description 15
- 230000006870 function Effects 0.000 description 13
- 238000012549 training Methods 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 10
- 230000014509 gene expression Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000005304 joining Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种文本处理方法、装置以及相关设备,方法包括:获取目标文本,从所述目标文本的主题信息中,获取所述目标文本的目标主题属性参数;将所述目标文本的内容信息划分为多个单位目标内容信息,并获取与每个单位目标内容信息分别对应的目标内容属性参数,将多个目标内容属性参数组合为目标内容属性参数序列;根据所述目标主题属性参数和所述目标内容属性参数序列识别所述目标文本的安全类型。采用本发明,可以提高识别文本安全类型的效率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本处理方法、装置以及相关设备。
背景技术
随着通信信息技术的迅速发展,网络信息安全问题日益突出,特别是互联网上色情、暴力、低俗等不良信息的传播,严重破坏社会风气,极大地影响广大青少年的健康成长。数据统计,互联网上的色情文章已经超过2亿篇,由于大多数色情文章都可以随意访问,因此识别出互联网中的色情文章具有重要的社会价值。
现有的识别互联网上的色情文章主要是通过人工审核,即由人工阅读文章并人工自主判断该篇文章是否为色情文章,进而根据人工识别结果确定在互联网上删除该篇文章或者保留该篇文章。
人工识别一篇文章是否为色情文章需要经历人工阅读、理解,判别过程,会耗费大量的时间,造成对色情文章的识别效率低下。
发明内容
本发明实施例提供一种文本处理方法、装置以及相关设备,可以提高识别文本安全类型的效率。
本发明实施例一方面提供了一种文本处理方法,包括:
获取目标文本,从所述目标文本的主题信息中,获取所述目标文本的目标主题属性参数;
将所述目标文本的内容信息划分为多个单位目标内容信息,并获取与每个单位目标内容信息分别对应的目标内容属性参数,将多个目标内容属性参数组合为目标内容属性参数序列;
根据所述目标主题属性参数和所述目标内容属性参数序列识别所述目标文本的安全类型。
其中,所述主题信息包括标题信息和封面图像;
所述从所述目标文本的主题信息中,获取所述目标文本的目标主题属性参数,包括:
根据所述标题信息所包含的字符,生成标题关键词信息;
获取所述目标文本所属的消息分发群组对应的质量属性参数;
识别所述封面图像的封面图像安全参数,并获取所述目标文本所属业务领域的领域属性参数;
识别所述标题信息的文本安全参数;
将所述标题关键词信息、所述质量属性参数、所述封面图像安全参数、所述领域属性参数和所述文本安全参数组合为所述目标主题属性参数。
其中,所述根据所述标题信息所包含的字符,生成标题关键词信息,包括:
获取标题关键词字典,并创建关键词数组;所述标题关键词字典包括多个标题关键词;
从所述多个标题关键词中选择目标标题关键词,并确定所述目标标题关键词在所述标题关键词字典中的位置信息;
若所述目标标题关键词存在于所述标题信息中,则根据所述位置信息,在所述关键词数组中填充第一数值;
若所述目标标题关键词不存在于所述标题信息中,则根据所述位置信息,在所述关键词数组中填充第二数值;
当所有的标题关键词均被确定为所述目标标题关键词时,将填充后的关键词数组作为所述标题关键词信息。
其中,所述根据所述标题信息所包含的字符,生成标题关键词信息,包括:
将所述标题信息划分为多个标题字符,并在字符词袋中查找与每个标题字符分别对应的独热码,作为字符输入向量;所述字符词袋包括多个字符,以及与每个字符分别对应的独热码;
基于字符词向量转换模型中的隐藏层,将多个字符输入向量分别进行降维,得到多个字符词向量,并将所述多个字符词向量合并为所述标题关键词信息。
其中,所述获取与每个单位目标内容信息分别对应的目标内容属性参数,包括:
当单位目标内容信息的内容属性为图像属性时,识别所述单位目标内容信息的内容图像安全参数,将所述内容图像安全参数确定为与所述单位目标内容信息对应的目标内容属性参数;
当单位目标内容信息的内容属性为字符属性时,根据所述单位目标内容信息所包含的关键词,生成内容关键词信息,将所述内容关键词信息确定为与所述单位目标内容信息对应的目标内容属性参数。
其中,所述将多个目标内容属性参数组合为目标内容属性参数序列,包括:
从所述多个目标内容属性参数中提取多个第一目标内容属性参数;所述多个第一目标内容属性参数对应的单位目标内容信息的内容属性均为字符属性,且所述多个第一目标内容属性参数对应的单位目标内容信息在所述目标文本中相邻;
将所述多个第一目标内容属性参数合并为统计目标内容属性参数;
将所述统计目标内容属性参数和第二目标内容属性参数组合为所述目标内容属性参数序列;所述第二目标内容属性参数是在所述多个目标内容属性参数中除所述多个第一目标内容属性参数以外的目标内容属性参数。
其中,所述根据所述目标主题属性参数和所述目标内容属性参数序列识别所述目标文本的安全类型,包括:
基于所述目标文本识别模型中的编码层,对所述目标内容属性参数序列进行编码,得到隐藏状态信息;
基于目标文本识别模型中的注意力层,确定与所述隐藏状态信息对应的权重系数,根据所述权重系数与所述隐藏状态信息,生成时序特征信息;
将所述目标主题属性参数和所述时序特征信息拼接为目标特征信息;
基于所述目标文本识别模型中的分类器,识别所述目标特征信息与所述目标文本识别模型中多种安全类型之间的匹配概率,将具有最高匹配概率的安全类型作为所述目标文本的安全类型。
其中,还包括:
获取样本文本,从所述样本文本的主题信息中,获取所述样本文本的样本主题属性参数;
将所述样本文本的内容信息划分为多个单位样本内容信息,并获取每个单位样本内容信息的样本内容属性参数,将多个样本内容属性参数组合为样本内容属性参数序列;
根据所述样本主题属性参数、所述样本内容属性参数序列和所述样本文本的样本安全类型,调整初始文本识别模型;
当调整后的初始文本识别模型满足目标收敛条件时,将调整后的初始文本识别模型确定为所述目标文本识别模型;所述目标文本识别模型是用于预测目标文本的安全类型。
其中,所述根据所述样本主题属性参数、所述样本内容属性参数序列和所述样本文本的样本安全类型,调整初始文本识别模型,包括:
识别所述样本主题属性参数、所述样本内容属性参数序列与所述初始文本识别模型中多种安全类型之间的样本匹配概率,将所述样本匹配概率和所述初始文本识别模型中多种安全类型的标签信息进行关联,得到预测标签信息集合;
获取所述样本文本的样本安全类型,根据所述样本安全类型和所述预测标签信息集合确定分类误差,并根据所述分类误差反向传播调整所述初始文本识别模型。
其中,还包括:
当调整次数达到次数阈值时,确定调整后的初始文本识别模型满足所述目标收敛条件;或,
当调整后的初始文本识别模型的模型参数和调整前的初始文本识别模型的模型参数之间的差异量小于差异阈值时,确定调整后的初始文本识别模型满足所述目标收敛条件。
本发明实施例另一方面提供了一种文本处理装置,包括:
获取模块,用于获取目标文本;
第一提取模块,用于从所述目标文本的主题信息中,获取所述目标文本的目标主题属性参数;
划分模块,用于将所述目标文本的内容信息划分为多个单位目标内容信息;
第二提取模块,用于获取与每个单位目标内容信息分别对应的目标内容属性参数;
组合模块,用于将多个目标内容属性参数组合为目标内容属性参数序列;
识别模块,用于根据所述目标主题属性参数和所述目标内容属性参数序列识别所述目标文本的安全类型。
其中,所述主题信息包括标题信息和封面图像;
所述第一提取模块,包括:
生成单元,用于根据所述标题信息所包含的字符,生成标题关键词信息;
获取单元,用于获取所述目标文本所属的消息分发群组对应的质量属性参数;
所述获取单元,还用于识别所述封面图像的封面图像安全参数,并获取所述目标文本所属业务领域的领域属性参数;
所述获取单元,还用于识别所述标题信息的文本安全参数;
组合单元,用于将所述标题关键词信息、所述质量属性参数、所述封面图像安全参数、所述领域属性参数和所述文本安全参数组合为所述目标主题属性参数。
其中,所述生成单元,包括:
获取子单元,用于获取标题关键词字典,并创建关键词数组;所述标题关键词字典包括多个标题关键词;
选择子单元,用于从所述多个标题关键词中选择目标标题关键词,并确定所述目标标题关键词在所述标题关键词字典中的位置信息;
所述选择子单元,还用于若所述目标标题关键词存在于所述标题信息中,则根据所述位置信息,在所述关键词数组中填充第一数值;
所述选择子单元,还用于若所述目标标题关键词不存在于所述标题信息中,则根据所述位置信息,在所述关键词数组中填充第二数值;
所述选择子单元,还用于当所有的标题关键词均被确定为所述目标标题关键词时,将填充后的关键词数组作为所述标题关键词信息。
其中,所述生成单元,包括:
划分子单元,用于将所述标题信息划分为多个标题字符,并在字符词袋中查找与每个标题字符分别对应的独热码,作为字符输入向量;所述字符词袋包括多个字符,以及与每个字符分别对应的独热码;
转换子单元,用于基于字符词向量转换模型中的隐藏层,将多个字符输入向量分别进行降维,得到多个字符词向量,并将所述多个字符词向量合并为所述标题关键词信息。
其中,所述第二提取模块,包括:
第一确定单元,用于当单位目标内容信息的内容属性为图像属性时,识别所述单位目标内容信息的内容图像安全参数,将所述内容图像安全参数确定为与所述单位目标内容信息对应的目标内容属性参数;
第二确定单元,用于当单位目标内容信息的内容属性为字符属性时,根据所述单位目标内容信息所包含的关键词,生成内容关键词信息,将所述内容关键词信息确定为与所述单位目标内容信息对应的目标内容属性参数。
其中,所述组合模块,包括:
提取单元,用于从所述多个目标内容属性参数中提取多个第一目标内容属性参数;所述多个第一目标内容属性参数对应的单位目标内容信息的内容属性均为字符属性,且所述多个第一目标内容属性参数对应的单位目标内容信息在所述目标文本中相邻;
合并单元,用于将所述多个第一目标内容属性参数合并为统计目标内容属性参数;
所述合并单元,还用于将所述统计目标内容属性参数和第二目标内容属性参数组合为所述目标内容属性参数序列;所述第二目标内容属性参数是在所述多个目标内容属性参数中除所述多个第一目标内容属性参数以外的目标内容属性参数。
其中,所述识别模块,包括:
编码单元,用于基于所述目标文本识别模型中的编码层,对所述目标内容属性参数序列进行编码,得到隐藏状态信息;
所述编码单元,还用于基于目标文本识别模型中的注意力层,确定与所述隐藏状态信息对应的权重系数,根据所述权重系数与所述隐藏状态信息,生成时序特征信息;
拼接单元,用于将所述目标主题属性参数和所述时序特征信息拼接为目标特征信息;
识别单元,用于基于所述目标文本识别模型中的分类器,识别所述目标特征信息与所述目标文本识别模型中多种安全类型之间的匹配概率,将具有最高匹配概率的安全类型作为所述目标文本的安全类型。
其中,还包括:
第一确定模块,用于获取样本文本,从所述样本文本的主题信息中,获取所述样本文本的样本主题属性参数;
所述第一确定模块,还用于将所述样本文本的内容信息划分为多个单位样本内容信息,并获取每个单位样本内容信息的样本内容属性参数,将多个样本内容属性参数组合为样本内容属性参数序列;
调整模块,用于根据所述样本主题属性参数、所述样本内容属性参数序列和所述样本文本的样本安全类型,调整初始文本识别模型;
所述第一确定模块,还用于当调整后的初始文本识别模型满足目标收敛条件时,将调整后的初始文本识别模型确定为所述目标文本识别模型;所述目标文本识别模型是用于预测目标文本的安全类型。
其中,所述调整模块,包括:
关联单元,用于识别所述样本主题属性参数、所述样本内容属性参数序列与所述初始文本识别模型中多种安全类型之间的样本匹配概率,将所述样本匹配概率和所述初始文本识别模型中多种安全类型的标签信息进行关联,得到预测标签信息集合;
调整单元,用于获取所述样本文本的样本安全类型,根据所述样本安全类型和所述预测标签信息集合确定分类误差,并根据所述分类误差反向传播调整所述初始文本识别模型。
其中,还包括:
第二确定模块,用于当调整次数达到次数阈值时,确定调整后的初始文本识别模型满足所述目标收敛条件;或,
所述第二确定模块,还用于当调整后的初始文本识别模型的模型参数和调整前的初始文本识别模型的模型参数之间的差异量小于差异阈值时,确定调整后的初始文本识别模型满足所述目标收敛条件。
本发明实施例另一方面提供了一种电子设备,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如本发明实施例中一方面中的方法。
本发明实施例另一方面提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如本发明实施例中一方面中的方法。
本发明实施例通过分别获取目标文本的目标主题属性参数以及多个目标内容属性参数,根据目标主题属性参数以及多个目标内容属性参数识别目标文本的安全类型。上述可知,终端可以通过提取目标文本的目标主题属性参数以及多个目标内容属性参数自动识别目标文本的安全类型,相比人工识别,自动识别不仅可以节约人力资源,还可以提高文本识别的效率;进一步地,基于目标文本的目标主题属性参数以及多个目标内容属性参数多维度特征识别目标文本,相比单一特征识别目标文本,多维度特征可以更全面的表达目标文本,进而提高文本识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种文本处理的系统架构图;
图2是本发明实施例提供的一种文本处理方法的流程示意图;
图3是本发明实施例提供的一种目标文本识别模型的示意图;
图4是本发明实施例提供的确定目标主题属性参数的流程示意图;
图5是本发明实施例提供的一种文本处理的示意图;
图6是本发明实施例提供的另一个文本处理方法的流程示意图;
图7是本发明实施例提供的一种训练目标文本识别模型的示意图;
图8是本发明实施例提供的一种文本处理装置的结构示意图;
图9是是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,是本发明实施例提供的一种文本处理的系统架构图。服务器10f通过交换机10e和通信总线10d与用户终端集群建立连接,用户终端集群可以包括:用户终端10a、用户终端10b、...、用户终端10c。
以用户终端10a为例,当用户终端10a获取到目标文本时,用户终端10a通过交换机10e和通信总线10d将目标文本发送至服务器10f。服务器10f对应的数据库10g中存储了文本识别模型,服务器10f基于文本识别模型识别目标目标文本的安全类型,安全类型可以包括正常类型,警告类型和异常类型。服务器10f可以将识别到的安全类型发送至用户终端10a,后续用户终端10a可以在屏幕上显示该安全类型,或者根据该安全类型确定是否删除该目标文本。
当然,若用户终端10a本地存储了文本识别模型,也可以直接由用户终端10a根据该文本识别模型确定目标文本的安全类型,同样地可以根据安全类型确定是否删除目标文本。其中,图1所示的用户终端10a、用户终端10b、用户终端10c等可以包括手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(MID,mobile internet device)、可穿戴设备(例如智能手表、智能手环等)等。
请参见图2,是本发明实施例提供的一种文本处理方法的流程示意图,如图2所示,该方法可以包括:
步骤S101,获取目标文本,从所述目标文本的主题信息中,获取所述目标文本的目标主题属性参数。
具体的,终端设备获取待识别的文本,称为目标文本。终端设备从目标文本的主题信息中,提取目标文本的主题属性参数(称为目标主题属性参数),主题信息可以包括:标题信息和封面图像。
终端设备可以根据标题信息所包含的关键词,生成标题关键词信息;也可以将标题信息中的字符转换为词向量,并将转换得到的词向量作为标题关键词信息。
终端设备查找目标文本所属的消息分发群组的质量属性参数,消息分发群组可以是目标文本所属的公众号,也可以是目标文本所属的网站等。
终端设备识别封面图像的封面图像安全参数,封面图像安全参数是用于度量该封面图像的安全性。
终端设备获取目标文本所属业务领域的领域属性参数,业务领域可以包括财经领域、体育领域、娱乐领域、军事领域、科技领域、健康领域等。
终端设备识别所述标题信息的文本安全参数,文本安全参数是用于度量该目标文本的标题信息的安全性。
终端设备可以将上述标题关键词信息、质量属性参数、封面图像安全参数、领域属性参数以及文本安全参数组合为目标主题属性参数。
值得注意的时,终端设备获取标题关键词信息、质量属性参数、封面图像安全参数、领域属性参数以及文本安全参数的前后顺序没有限定。
步骤S102,将所述目标文本的内容信息划分为多个单位目标内容信息,并获取每个单位目标内容信息分别对应的目标内容属性参数。
具体的,解析目标文本的内容信息的文本结构,得到由内容图像以及文字段落组成为文本结构序列L,其中可以通过解析目标文本所在页面的HTML(HyperText MarkupLanguage,超级文本标记语言),得到目标文本的内容信息中所包含的多个内容图像,以及多个文字段落,将解析目标文本所得到的内容图像以及文字段落均称为单位目标内容信息,上述可知,目标文本包括主题信息和内容信息。
举例来说,目标文本的内容信息包括文字段落1、文字段落2、内容图像1以及文字段落3,即目标文本的内容信息包括4个单位目标内容信息,分别为:文字段落1、文字段落2、内容图像1以及文字段落3。
下面以一个单位目标内容信息为例进行说明,如何确定与之对应的目标内容属性参数:
若单位目标内容信息的内容属性为图像属性,那么终端设备获取图像识别模型,该图像识别模型可以识别图像的图像安全参数,图像安全参数可以包括:色情分、低俗分、擦边分、性感分、广告分、清晰度分、二维码分、文字过多分、图像宽度分、图像高度分、图像命中图像模板库分等;其中,二维码分是用于度量图像是否为二维码图像;文字过多分是用于度量图像中所包含文字的数量;图像模板库是指在同一消息分发群组中重复出现次数超过次数阈值的图像集合,若图像命中了图像模板库,那么该图像的图像命中图像模板库分等于数值1;对应地,若图像没有命中图像模板库,那么该图像的图像命中图像模板库分等于数值0。
将单位目标内容信息输入该图像识别模型中,图像识别模型可以输出与单位目标内容信息对应的图像安全参数(可以称为内容图像安全参数)。终端设备将识别到的内容图像安全参数作为该单位目标内容信息的目标内容属性参数。
若单位目标内容信息的内容属性为字符属性,那么终端设备可以获取内容关键词字典,并创建空白数组(可以称为辅助数组),其中内容关键词字典包括多个内容关键词。终端设备判断单位目标内容信息是否命中内容关键词字典中的内容关键词,若命中,则可以向辅助数组的对应位置(该位置是指命中的内容关键词在内容关键词字典中的位置)中填充第一数值(例如,数值1);若没有命中,则可以向辅助数组的对应位置中填充第二数值(例如,数值0)。当内容关键词字典中的所有内容关键词都参与了上述运算时,另外再确定该单位目标内容信息中所包含的字符数量,将确定的字符数量也填充至辅助数组中。最后将填充后的辅助数组作为内容关键词信息,并将上述内容关键词信息作为该单位目标内容信息的目标内容属性参数。
可选的,若单位目标内容信息的内容属性为字符属性,可以将目标内容信息划分为多个内容字符,并将每个内容字符转换为词向量(称为内容词向量)。终端设备将所有的内容词向量对位相加,得到的向量作为内容关键词信息,并将上述内容关键词信息作为该单位目标内容信息的目标内容属性参数。
若存在多个单位目标内容信息,终端设备可以基于上述方式分别确定每个单位目标内容信息的目标内容属性参数。
步骤S103,将多个目标内容属性参数组合为目标内容属性参数序列。
具体的,终端设备在目标文本中检测是否存在连续(或者说是相邻)且均为字符属性的单位目标内容信息,若存在,则将上述连续且均为字符属性的单位目标内容信息的目标内容属性参数均作为第一目标内容属性参数,对应地,在所有的目标内容属性参数中剩余的(即是除第一目标内容属性参数以外的)目标内容属性参数均为第二目标内容属性参数。
终端设备将多个第一目标内容属性参数进行相加,得到统计目标内容属性参数。
举例来说,目标文本中包括4个单位目标内容信息:文字段落1、文字段落2、内容图像1以及文字段落3;若文字段落1的目标内容属性参数为:[1,1,0,0];文字段落2的目标内容属性参数为:[0,0,1,0];内容图像1的目标内容属性参数为:[1,1,1,1,0,0,0];文字段落3的目标内容属性参数为:[0,0,0,0]。由于文字段落1和文字段落2是在目标文本中连续,且均是具有字符属性的,因此文字段落1的目标内容属性参数“[1,1,0,0]”与文字段落2的目标内容属性参数“[0,0,1,0]”为第一目标内容属性参数,其余的内容图像1的目标内容属性参数与文字段落3的目标内容属性参数均为第二目标内容属性参数。可以将文字段落1的目标内容属性参数“[1,1,0,0]”与文字段落2的目标内容属性参数“[0,0,1,0]”进行相加,得到统计目标内容属性参数:[1,1,1,0]。
终端设备可以将统计目标内容属性参数以及第二目标内容属性参数组合为目标内容属性参数序列。
由于属于图像属性的目标内容属性参数与属于字符属性的目标内容属性参数的维度可能不一致,为了后续输入模型的数据的维度保持一致,因此还可以将所有的目标内容属性参数进行整合,分别得到综合目标内容属性参数,综合目标内容属性参数的维度=属于图像属性的目标内容属性参数的维度+属于字符属性的目标内容属性参数的维度。
终端设备再将所有的综合目标内容属性参数按照在目标文本的前后位置关系,组合为目标内容属性参数序列。
整合的具体方式是,对属于图像属性的目标内容属性参数来说,字符特征部分均填数值0;对属于字符属性的目标内容属性参数来说,图像特征部分均填数值0。需要说明的是,前述中的统计目标内容属性参数也是属于字符属性的,且属于图像属性的目标内容属性参数表示图像特征,属于字符属性的目标内容属性参数表示字符特征。
仍以前述例子进行说明,统计目标内容属性参数为:[1,1,1,0];内容图像1的目标内容属性参数为:[1,1,1,1,0,0,0];文字段落3的目标内容属性参数为:[0,0,0,0]。对统计目标内容属性参数“[1,1,1,0]”整合后得到综合目标内容属性参数:[0,0,0,0,0,0,0,1,1,1,0],即综合目标内容属性参数中,前7位表示图像特征,后4位表示字符特征,由于统计目标内容属性参数属于字符属性,因此图像特征均设置为0,即前7位为0,后4位仍旧是该统计目标内容属性参数。同理,对内容图像1的目标内容属性参数“[1,1,1,1,0,0,0]”整合后得到综合目标内容属性参数:[1,1,1,1,0,0,0,0,0,0,0];文字段落3的目标内容属性参数“[0,0,0,0]”整合后得到综合目标内容属性参数:[0,0,0,0,0,0,0,0,0,0,0],即综合目标内容属性参数“[0,0,0,0,0,0,0,1,1,1,0]”、“[1,1,1,1,0,0,0,0,0,0,0]”、“[0,0,0,0,0,0,0,0,0,0,0]”可以组合为目标内容属性参数序列。
需要说明的,上述举例中,前7位表示图像特征,后4位表示字符特征,也可以将前4位表示字符特征,后7位表示图像特征,当前4位表示字符特征,后7位表示图像特征时,对统计目标内容属性参数“[1,1,1,0]”整合后得到综合目标内容属性参数为:[1,1,1,0,0,0,0,0,0,0,0]。
还需注意的是,可以在合并多个第一目标内容属性参数得到统计目标内容属性参数之后再分别对统计目标内容属性参数以及第二目标内容属性参数进行整合;也可以在合并多个第一目标内容属性参数得到统计目标内容属性参数之前,先对所有的目标内容属性参数进行整合,然后再合并多个连续的第一目标内容属性参数,以得到统计目标内容属性参数。
可选的,当目标内容属性参数序列的长度大于长度阈值时,可以从目标内容属性参数序列中提取出目标内容属性参数中色情分、低俗分、擦边分和性感分低于分数阈值的目标内容属性参数(即是属于图像属性,且色情分、低俗分、擦边分和性感分低于分数阈值的目标内容属性参数),以及提取出目标内容属性参数中没有命中内容关键词字典的目标内容属性参数(即是属于字符属性,且取值全是数值0的目标内容属性参数),将提取出上述目标内容属性参数后剩余的目标内容属性参数组合为目标内容属性参数序列。
终端设备可以先压缩目标内容属性参数序列的长度,再合并多个第一目标内容属性参数得到统计目标内容属性参数;也可以先合并多个第一目标内容属性参数得到统计目标内容属性参数,再压缩目标内容属性参数序列的长度。
步骤S104,根据所述目标主题属性参数和所述目标内容属性参数序列识别所述目标文本的安全类型。
具体的,终端设备获取目标文本识别模型,该目标文本识别模型的输入是目标内容属性参数序列以及目标主题属性参数,模型的输出是与多种安全类型之间的匹配概率,其中目标文本识别模型可以是Wide&Deep(宽度-深度)模型,且该模型中的Deep分支可以是基于RNN(Recurrent Neural Network,循环神经网络)训练得到的,也可以是基于LSTM(Long Short-Term Memory,长短期记忆网络)训练得到,目标文本识别模型包括注意力(Attention)层、编码层,以及分类器(分离器也可以由全连接层和softmax输出层组合而成)。
首先对目标内容属性参数序列进行编码,终端设备初始化隐藏状态向量h10,在t1时刻,将目标内容属性参数序列中位于首位的目标内容属性参数x1、隐藏状态向量h0输入目标文本识别模型中的编码层,根据公式(1)计算t1时刻的隐藏状态向量h11,
其中,σ(·)是σ函数,tanh(·)是双曲正切函数,i,f,o分别表示输入门、遗忘门、输出门。所有的W表示两门之间的权重矩阵。在编码过程中,目标文本识别模型中编码层的模型参数是共享的,即是在计算每一个时刻的隐藏状态向量时,上述参数都不变。
在t12时刻,将目标内容属性参数序列中位于第二位的目标内容属性参数x2、t11时刻的隐藏状态向量h11输入编码层,根据公式(1)再计算t12时刻的隐藏状态向量h12;在t13时刻,同样根据公式(1)计算t13时刻的隐藏状态向量h13。换句话说,t时刻的隐藏状态向量ht是由t-1时刻的隐藏状态向量h(t-1)和t时刻的目标内容属性参数xt决定的,不断地迭代,直至最后一次迭代得到隐藏状态向量h1n,将隐藏状态向量h11、h12、...、h1n组合为隐藏状态信息H(h11,h12,...,h1n),可以知道,隐藏状态信息是一个矩阵,且该矩阵的的尺寸可以表示为:m×n,其中m表示每个目标内容属性参数编码后的隐藏状态向量的维数,n表示目标内容属性参数序列所包含目标内容属性参数的数量。
将隐藏状态信息H(h11,h12,...,h1n)输入注意力层,根据公式(2)确定权重系数α:
其中,softmax是归一化指数函数,w是注意力层的模型参数,其中w的尺寸为m×1,那么权重系数α的尺寸为1×n,权重系数α也可以理解为是目标内容属性参数序列所包含的各目标内容属性参数的权重。
根据权重系数α、隐藏状态信息H(h11,h12,...,h1n)以及公式(3)确定时序特征信息r:
r=HαT (3)
可以知道,时序特征信息r的尺寸为m×1。
在目标文本识别模型中加入注意力层,是为了从目标内容属性参数序列中学习到每一个目标内容属性参数的重要程度,然后按重要程度将元素合并。
可选的,在目标文本识别模型中也可以不要注意力层,当编码层编码后将最后一次迭代得到隐藏状态向量h1n,直接作为时序特征信息。
将目标主题属性参数和时序特征信息拼接为目标特征信息,若目标主题属性参数的尺寸为:1×p,时序特征信息r的尺寸为1×m,那么拼接后得到的目标特征信息T可以表示为:1×(p+m)。
基于目标文本识别模型中的分类器(全连接层+softmax层),识别目标特征信息T与多个安全类型之间的匹配概率,分类器的计算公式可以为公式(4):
其中,wout的分类器中的全连接层的模型参数,b是全连接层的偏移项,y1是全连接层的输出,y2是softmax层的输出(或者说是分类器的输出)。
从分类器识别到的多个匹配概率中,将具有最大匹配概率的安全类型作为目标文本的安全类型。
举例来说,若当前场景为色情文章识别,且目标文本识别模型包括3种安全类型,分别是正常文本类型、轻微色情文本类型、色情文本类型,若基于目标文本A从softmax层的输出为:[0.8,0.1,0.1],那么表示目标文本A属于正常文本类型的匹配概率为0.8;目标文本A属于轻微色情文本类型的匹配概率为0.1;目标文本A属于色情文本类型的匹配概率为0.1。终端设备可以将最高匹配概率0.8对应的安全类型:正常文本类型,作为目标文本A的安全类型。
后续,可以根据不同的业务需求以及识别出来的目标文本的安全类型,执行对应的业务操作,例如,若识别到目标文本A是属于色情文本类型的文本,那么可以向目标文本A所在消息分发群组(例如,公众号)或者向目标文本A的上传者发送警告消息,并将目标文本A删除;也可以在向用户推荐文本时,将目标文本A排除在推荐列表之外,即是不向用户推荐目标文本A。
当然,若识别到目标文本是属于轻微色情文本类型的文本,可以仅仅向目标文本A所在消息分发群组(例如,公众号)或者向目标文本A的上传者发送警告消息,而不必删除该目标文本A;也可以在向用户推荐文本时,将目标文本A设置在推荐列表靠后的位置,即是识别出来的安全类型可以影响目标文本A的推荐顺序。
请参见图3,是本发明实施例提供的一种目标文本识别模型的示意图,如图3所示,将目标内容属性参数序列中的各目标内容属性参数按序依次输入目标文本识别模型中的编码层(编码层中的模型参数是基于LSTM训练得到的),确定隐藏状态信息,基于目标文本识别模型中的注意力层,确定权重系数,将隐藏状态信息与权重系数之积,作为时序特征信息。将目标文本的主题信息的目标主题属性参数和上述时序特征信息组合为目标特征信息,并输入全连接层以及softmax层进行分类,输出与多种安全类型之间的匹配概率。
请参见图4,是本发明实施例提供的确定目标主题属性参数的流程示意图,如图4所示,确定目标主题属性参数的具体过程包括如下步骤S201-步骤S205,且步骤S201-步骤S205为图2所对应实施例中步骤S101的一个具体实施例:
步骤S201,获取目标文本,根据所述标题信息所包含的字符,生成标题关键词信息。
具体的,终端设备获取目标文本。终端设备根据目标文本的标题信息,生成标题关键词信息的方式有两种,下面对其中一种方式进行详细说明:终端设备获取标题关键词字典,并创建空白数组(称为关键词数组),其中标题关键词字典包括多个标题关键词;关键词数组的长度等于标题关键词字典中所包含标题关键词的数量。终端设备从多个标题关键词中任意选择一个标题关键词作为目标标题关键词,并确定目标标题关键词在标题关键词字典中的位置信息,也即是确定目标标题关键词在标题关键词字典中的位置信息。
若目标标题关键词存在于标题信息中,则根据位置信息,在关键词数组中填充第一数值,其中第一数值可以是数值1;若目标标题关键词不存在于标题信息中,则根据位置信息,在关键词数组中填充第二数值,其中第二数值可以是数值0,也即是判断目标文本的标题信息是否命中标题关键词字典中的标题关键词,若命中,则可以向关键词数组的对应位置中填充第一数值(例如数值1);若没有命中,则可以向关键词数组的对应位置中填充第二数值(例如,数值0)。
终端设备再从剩余的标题关键词中,再任意选择一个标题关键词作为新的目标标题关键词,再确定新的位置信息,再判断新的目标标题关键词是否存在于标题信息中,再根据判断结果以及新的位置信息,再向关键词数组填充第一数值或者第二数值。
当标题关键词字典中的所有标题关键词均被确定为目标标题关键词时,将填充后的关键词数组作为标题关键词信息。
举例来说,标题关键词字典包括6个标题关键词,分别为:“国家”、“脱欧”、“英国”、“欧盟”、“首相”、“女王”;目标文本的标题信息为:“英国就脱欧举行第四次公投”,终端设备创建长为为6的为空白关键词数组:______。终端设备首先从上述6个标题关键词中选择“国家”作为目标标题关键词,且该目标标题关键词在6个标题关键词中位于第一位,由于目标标题关键词“国家”不存在于标题信息中,因此,可以在关键词数组的第一位中填充第二数值0,即此时的关键词数组为:0_____;再将“脱欧”作为目标标题关键词,且该目标标题关键词在6个标题关键词中位于第二位,由于目标标题关键词“脱欧”存在于标题信息中,因此,可以在关键词数组的第二位中填充第二数值1,即此时的关键词数组为:0 1____。再选择目标标题关键词,当上述6个标题关键词均被确定为目标标题关键词时,可以得到关键词数组:0 1 1 0 0 0,即该关键词数组“0 1 1 0 0 0”就是标题关键词信息。
下面对终端设备根据目标文本的标题信息,生成标题关键词信息的另一种方式进行详细说明:终端设备将目标文本的标题信息划分为多个字符(称为标题字符),下面对终端设备将一个标题字符转换为对应的字符词向量进行说明,若存在多个标题字符,可以按照相同的方式将每个标题字符转换为与之对应的字符词向量。
终端设备从字符词袋中查找与标题字符对应的独热码,作为字符输入向量。字符词袋中包括多个字符,以及与每个字符对应的独热码(one-hot),one-hot是指向量中只包含一个数值1,其余的均为数值0。例如,字符词袋中包括3个字符:“你”、“我”、“他”,字符“你”的独热码可以是:[1,0,0];字符“我”的独热码可以是:[0,1,0];字符“他”的独热码可以是:[0,0,1]。可以知道,词袋中包含字符的数量等于独热码的维数。
终端设备获取字符词向量转换模型,字符词向量转换模型可以将高维度的字符输入向量,降低为低维度的词向量。终端设备将字符输入向量输入字符词向量转换模型中,基于字符词向量转换模型中的隐藏层对应的隐藏矩阵,将字符输入向量与隐藏矩阵进行矩阵乘法运算,乘法运算后得到向量称为字符词向量,其中,隐藏矩阵的行数等于字符输入向量的维数,隐藏矩阵的列数等于字符词向量的维数。例如,字符输入向量的尺寸为:1×1000,隐藏矩阵的尺寸为:1000×100,那么字符词向量的尺寸为:1×100。
字符词向量转换模型可以是根据fasttext(快速文本分类器)、word2vec(词向量转换模型)以及大量的语料训练得到的,训练过程中还需要在隐藏层后加一个分类器,用于预测当前字符的相邻字符(一般是当前字符的前2个以及后2个字符),根据预测的相邻字符与实际的相邻字符可以确定字符预测误差,并将该符预测误差通过反向传播传递至隐藏层,用于更新隐藏层中隐藏矩阵的参数值。
若存在多个标题字符,可以基于字符词袋以及字符词向量转换模型将每个标题字符分别转换为与之对应的字符词向量,t个字符词向量可以表示为:{x-1,x-2...x-t},其中x-n表示第n个字符词向量,1≤n≤t。
终端设备将每个标题字符分别对应的字符词向量对位相加,得到的向量称为标题关键词向量。例如,现有3个标题字符,标题字符1的字符词向量为:[0,0.5,1,0];标题字符1的字符词向量为:[0,0,1,2];标题字符3的字符词向量为:[1,0,1,0],将上述3个标题字符的字符词向量对位相加后,可以得到向量:[1,0.5,3,2],即向量“[1,0.5,3,2]”是标题关键词信息。
可以知道,确定标题关键词信息的过程与前述中确定内容关键词信息的过程相似。
步骤S202,获取所述目标文本所属的消息分发群组对应的质量属性参数。
具体的,终端设备从消息分发群组打分字典中,获取目标文本所属的消息分发群组的质量属性参数,消息分发群组可以是目标文本所属的公众号,也可以是目标文本所属的网站等,质量属性参数是用于度量消息分发群组的内容质量,质量属性参数越高,说明对应的内容质量越高。
其中,消息分发群组打分字典可以包括多个消息分发群组的质量属性参数,且上述质量属性参数可以根据关联该消息分发群组的用户数量(例如,关注该公众号的用户数量)、该消息分发群组的每日访问量等因素决定,关联消息分发群组的用户数量越多,或者是消息分发群组的每日访问量越高,那么该消息分发群组的质量属性参数就越高。
步骤S203,识别所述封面图像的封面图像安全参数,并获取所述目标文本所属业务领域的领域属性参数。
终端设备将目标文本的封面图像输入图像识别模型中,图像识别模型可以输出与该封面图像对应的图像安全参数(可以称为封面图像安全参数),其中,根据图像识别模型确定目标文本的封面图像的具体过程可以参见上述图2对应实施例中的步骤S102中确定内容图像安全参数的详细描述。
终端设备获取目标文本所属业务领域的领域属性参数,领域属性参数可以是采用one-hot(独热码)形式,领域属性参数可以是一维向量。业务领域可以包括财经领域、体育领域、娱乐领域、军事领域、科技领域、健康领域等。
举例来说,现有5个业务领域,分别为财经领域、体育领域、娱乐领域、军事领域以及科技领域,那么财经领域的领域属性参数可以为:[1,0,0,0,0];体育领域的领域属性参数可以为:[0,1,0,0,0];娱乐领域的领域属性参数可以为:[0,0,1,0,0];军事领域的领域属性参数可以为:[0,0,0,1,0];科技领域的领域属性参数可以为:[0,0,0,0,1]。
终端设备可以从目标文本对应的领域标签中获取所属的业务领域,其中领域标签是目标文本的作者上传该目标文本时所设置的标签,该领域标签是用于标识目标文本所属的业务领域;若目标文本不存在领域标签,终端设备也可以语义识别目标文本,进而确定目标文本所属的业务领域。
步骤S204,识别所述标题信息的文本安全参数。
具体的,终端设备获取标题识别模型,该标题识别模型可以识别文本的文本安全参数,例如,文本安全参数可以包括:色情分、低俗分、擦边分、性感分等。终端设备将目标文本的标题信息输入该标题识别模型中,标题识别模型可以输出与该标题信息对应的文本安全参数。
步骤S205,将所述标题关键词信息、所述质量属性参数、所述封面图像安全参数、所述领域属性参数和所述文本安全参数组合为所述目标主题属性参数。
具体的,终端设备可以将上述标题关键词信息、目标文本的质量属性参数、封面图像安全参数、目标文本的领域属性参数以及目标文本的文本安全参数组合为目标主题属性参数,可以知道目标主题属性参数是一维向量。
请参见图5,是本发明实施例提供的一种文本处理的示意图,终端设备获取目标文本并读取已经训练好的目标文本识别模型,可以将目标文本分为主题信息以及多个单位目标内容信息。
主题信息包括目标文本的标题信息和目标文本的封面图像,终端设备根据目标文本的标题信息生成标题关键词信息,其中确定标题关键词信息的具体过程可以参见图4对应实施例中的步骤S201。终端设备查找目标文本所属消息分发群组的质量属性参数。终端设备将目标文本的封面图像输入图像识别模型中,基于图像识别模型识别该封面图像的封面图像安全参数。终端设备获取目标文本所属业务领域的领域属性参数。终端设备将目标文本的标题信息输入标题识别模型中,基于标题识别模型识别目标文本的标题信息的文本安全参数。终端设备将上述标题关键词信息、质量属性参数、封面图像安全参数、领域属性参数以及文本安全参数组合为目标主题属性参数。
多个单位目标内容信息分为属于图像属性的单位目标内容信息以及属于字符属性的单位目标内容信息。若单位目标内容信息属于图像属性,那么终端设备根据图像识别模型识别该单位目标内容信息的内容图像安全参数,并将该内容图像安全参数整合为综合目标内容属性参数;若单位目标内容信息属于字符属性,那么终端设备生成内容关键词信息,并将该内容关键词信息整合为综合目标内容属性参数;其中生成内容关键词信息与生成标题关键词信息的过程类似。
终端设备将每个单位目标内容信息的综合目标内容属性参数组合为目标内容属性参数序列,若该目标内容属性参数序列的长度大于长度阈值,还需要压缩该目标内容属性参数序列的长度直至小于或者长度阈值。
终端设备将目标主题属性参数以及压缩后的目标内容属性参数序列输入目标文本识别模型,目标文本识别模型输出与目标文本匹配的安全类型(即是预测结果),其中目标文本识别模型识别目标文本的具体过程可以参见上述图2对应实施例中的步骤S104。终端设备后续可以根据识别到的安全类型筛选目标我呢本,例如保留或者删除目标文本。
本发明实施例通过分别获取目标文本的目标主题属性参数以及多个目标内容属性参数,根据目标主题属性参数以及多个目标内容属性参数识别目标文本的安全类型。上述可知,终端可以通过提取目标文本的目标主题属性参数以及多个目标内容属性参数自动识别目标文本的安全类型,相比人工识别,自动识别不仅可以节约人力资源,还可以提高文本识别的效率;进一步地,基于目标文本的目标主题属性参数以及多个目标内容属性参数多维度特征识别目标文本,相比单一特征识别目标文本,多维度特征可以更全面的表达目标文本,进而提高文本识别的准确率。
请参见图6,是本发明实施例提供的另一个文本处理方法的流程示意图,文本处理方法包括下述步骤S301-步骤S307,且步骤S301-步骤S304是对如何训练目标文本识别模型的说明,步骤S305-步骤S307是对如何使用目标文本识别模型的说明:
步骤S301,获取样本文本,从所述样本文本的主题信息中,获取所述样本文本的样本主题属性参数。
具体的,终端设备获取用于模型训练的文本,称为样本文本。终端设备根据样本文本的标题信息所包含的字符,生成样本标题关键词信息;从消息分发群组打分字典中,查找样本文本所属的消息分发群组对应的样本质量属性参数;识别样本文本的封面图像的样本封面图像安全参数,并获取样本文本所属业务领域的样本领域属性参数;识别样本文本的标题信息的样本文本安全参数,将上述样本标题关键词信息、样本质量属性参数、样本封面图像安全参数、样本领域属性参数以及样本文本安全参数组合为样本主题属性参数。
获取样本主题属性参数的过程和上述图4对应实施例中的步骤S201-步骤S205中获取目标文本的目标主题属性参数的过程相似,不同之处在于处理对象(一个是确定目标文本的主题参数,一个是确定样本文本的主题参数)的不同。
步骤S302,将所述样本文本的内容信息划分为多个单位样本内容信息,并获取每个单位样本内容信息的样本内容属性参数,将多个样本内容属性参数组合为样本内容属性参数序列。
具体的,终端设备将样本文本的内容信息划分为多个单位样本内容信息,其中确定多个单位样本内容信息的过程和上述图2对应实施例中的步骤S102中确定目标文本的多个单位目标内容信息的过程相似,不同之处在于处理对象(一个是将目标文本划分为多个单位目标内容信息,一个是将样本文本划分为多个单位样本内容信息)的不同。
当单位样本内容信息的内容属性为图像属性时,识别该单位样本内容信息的样本内容图像安全参数,将样本内容图像安全参数确定为与该单位样本内容信息对应的样本内容属性参数;
当单位样本内容信息的内容属性为字符属性时,根据该单位样本内容信息所包含的关键词,生成样本内容关键词信息,将样本内容关键词信息确定为与该单位样本内容信息对应的样本内容属性参数;
终端设备可以按照上述方式确定每个单位样本内容信息的样本内容属性参数,并将获取到的多个样本内容属性参数组合为样本内容属性参数序列,其中获取样本文本的多个样本内容属性参数的过程和上述图2对应实施例中的步骤S102中获取目标文本的多个目标内容属性参数的过程相似,不同之处在于处理对象(一个是获取每个单位目标内容信息的目标内容属性参数,一个是获取每个单位样本内容信息的样本内容属性参数)的不同。
终端设备将多个样本内容属性参数按照在样本文本中的前后位置关系,组合为样本内容属性参数序列,其中将多个样本内容属性参数组合为样本内容属性参数序列的过程与上述图2对应实施例中的步骤S103中将多个目标内容属性参数组合为目标内容属性参数序列的过程类似。
步骤S303,根据所述样本主题属性参数、所述样本内容属性参数序列和所述样本文本的样本安全类型,调整初始文本识别模型。
具体的,终端设备获取初始文本识别模型,将样本主题属性参数以及样本内容属性参数序列输入该初始文本识别模型中,基于初始文本识别模型中的编码层,对样本内容属性参数序列进行编码,得到样本隐藏状态信息,基于初始文本识别模型中的注意力层以及样本隐藏状态信息生成样本时序特征信息,将样本时序特征信息以及样本主题属性参数拼接为样本目标特征信息,基于初始文本识别模型中的分类器,识别样本目标特征信息与多个安全类型之间的匹配概率,将匹配概率以及对应安全类型的标签信息进行关联,得到预测标签信息集合。其中,确定样本目标特征信息与多个安全类型之间的匹配概率的过程与前述图2中的步骤S104中确定目标特征信息与多个安全类型之间的匹配概率的过程相似,不同之处在于编码层的模型参数、注意力层的模型参数、分类器的模型参数不同。
例如,初始文本识别模型包括3种安全类型,分别是正常文本类型、轻微色情文本类型、色情文本类型,若基于样本文本从softmax层(即是分类器)的输出为:[0.6,0.3,0.1],可以得到预测标签集合为:0.6-正常文本类型、0.3-轻微色情文本类型、0.1-色情文本类型。
终端设备获取样本文本的真实安全类型(称为样本安全类型),根据样本安全类型可以生成真实的标签集合(称为样本标签集合)。例如,样本文本的样本安全类型为正常文本类型,那么对应的样本标签集合可以为:1-正常文本类型、0-轻微色情文本类型、0-色情文本类型,终端设备根据预测标签集合以及样本标签集合可以确定分类误差,分类误差的计算公式为公式(5)
Error=(Y-out)2/2 (5)
其中,Y是样本标签集合,out是预测标签集合。
终端设备确定了分类误差后,通过梯度下降规则将分类误差反向传播至初始文本识别模型中的编码层、注意力层、分类器,用于调整初始文本识别模型中的编码层的模型参数、注意力层的模型参数、分类器的模型参数。
步骤S304,当调整后的初始文本识别模型满足目标收敛条件时,将调整后的初始文本识别模型确定为所述目标文本识别模型;所述目标文本识别模型是用于预测目标文本的安全类型。
当调整次数达到次数阈值,或者初始文本识别模型中的编码层的模型参数、注意力层的模型参数、分类器的模型参数的变化量小于差异阈值,或者基于初始文本识别模型确定的分类误差小于误差阈值,说明此时调整后的初始文本识别模型满足目标收敛条件。
当调整后的初始文本识别模型满足目标收敛条件时,将调整后的初始文本识别模型确定为目标文本识别模型,该目标文本识别模型是用于预测目标文本的安全类型。
步骤S305,获取目标文本,从所述目标文本的主题信息中,获取所述目标文本的目标主题属性参数。
步骤S306,将所述目标文本的内容信息划分为多个单位目标内容信息,并获取与每个单位目标内容信息分别对应的目标内容属性参数,将多个目标内容属性参数组合为目标内容属性参数序列。
步骤S307,根据所述目标主题属性参数和所述目标内容属性参数序列识别所述目标文本的安全类型。
其中,步骤S305-步骤S307的具体过程可以参见上述图2对应实施例中的步骤S101-步骤S104。
请参见图7,是本发明实施例提供的一种训练目标文本识别模型的示意图,终端设备从训练集中获取用于模型训练的样本文本,同样可以将样本文本分为主题信息以及多个单位样本内容信息。
主题信息包括样本文本的标题信息和样本文本的封面图像,终端设备根据样本文本的标题信息生成样本标题关键词信息,其中确定样本标题关键词信息的具体过程可以参见图4对应实施例中的步骤S201。终端设备查找样本文本所属消息分发群组的样本质量属性参数。终端设备将样本文本的封面图像输入图像识别模型中,基于图像识别模型识别该封面图像的样本封面图像安全参数。终端设备获取样本文本所属业务领域的样本领域属性参数。终端设备将样本文本的标题信息输入标题识别模型中,基于标题识别模型识别样本文本的标题信息的样本文本安全参数。终端设备将上述样本标题关键词信息、样本质量属性参数、样本封面图像安全参数、样本领域属性参数以及样本文本安全参数组合为样本主题属性参数。
多个单位样本内容信息分为属于图像属性的单位样本内容信息以及属于字符属性的单位样本内容信息。若单位样本内容信息属于图像属性,那么终端设备根据图像识别模型识别该单位样本内容信息的样本内容图像安全参数,并将该样本内容图像安全参数整合为综合样本内容属性参数;若单位样本内容信息属于字符属性,那么终端设备生成样本内容关键词信息,并将该样本内容关键词信息整合为综合样本内容属性参数;其中生成样本内容关键词信息与生成标题关键词信息的过程类似。
终端设备将每个单位样本内容信息的综合样本内容属性参数组合为样本内容属性参数序列,若该样本内容属性参数序列的长度大于长度阈值,还需要压缩该样本内容属性参数序列的长度直至小于或者长度阈值。
终端设备将样本主题属性参数以及压缩后的样本内容属性参数序列输入初始文本识别模型,初始文本识别模型输出与多种安全类型之间的匹配概率,并读取样本文本的样本安全类型,根据预测的与多种安全类型之间的匹配概率以及样本文本的样本安全类型,确定分类误差,并基于分类误差反向传播调整初始文本识别模型的模型参数。当调整后的初始文本识别模型满足目标收敛条件时,将调整后的初始文本识别模型确定为目标文本识别模型,其中模型调整过程可以参见上述图6对应实施例中的步骤S303-步骤S304。终端设备可以保存训练好的目标文本识别模型。
本发明实施例通过分别获取目标文本的目标主题属性参数以及多个目标内容属性参数,根据目标主题属性参数以及多个目标内容属性参数识别目标文本的安全类型。上述可知,终端可以通过提取目标文本的目标主题属性参数以及多个目标内容属性参数自动识别目标文本的安全类型,相比人工识别,自动识别不仅可以节约人力资源,还可以提高文本识别的效率;进一步地,基于目标文本的目标主题属性参数以及多个目标内容属性参数多维度特征识别目标文本,相比单一特征识别目标文本,多维度特征可以更全面的表达目标文本,进而提高文本识别的准确率。
进一步的,请参见图8,是本发明实施例提供的一种文本处理装置的结构示意图。如图8所示,文本处理装置1可以应用于上述图3-图7对应实施例中的终端设备,文本处理装置1可以包括:获取模块11、第一提取模块12、划分模块13、第二提取模块14、组合模块15、识别模块16。
获取模块11,用于获取目标文本;
第一提取模块12,用于从所述目标文本的主题信息中,获取所述目标文本的目标主题属性参数;
具体的,第一提取模块12从目标文本的主题信息中,提取目标文本的主题属性参数(称为目标主题属性参数),主题信息可以包括:标题信息和封面图像。
第一提取模块12可以根据标题信息所包含的关键词,生成标题关键词信息;也可以将标题信息中的字符转换为词向量,并将转换得到的词向量作为标题关键词信息。
第一提取模块12查找目标文本所属的消息分发群组的质量属性参数,消息分发群组可以是目标文本所属的公众号,也可以是目标文本所属的网站等。
第一提取模块12识别封面图像的封面图像安全参数,封面图像安全参数是用于度量该封面图像的安全性。
第一提取模块12获取目标文本所属业务领域的领域属性参数,业务领域可以包括财经领域、体育领域、娱乐领域、军事领域、科技领域、健康领域等。
第一提取模块12识别所述标题信息的文本安全参数,文本安全参数是用于度量该目标文本的标题信息的安全性。
第一提取模块12可以将上述标题关键词信息、质量属性参数、封面图像安全参数、领域属性参数以及文本安全参数组合为目标主题属性参数。
值得注意的时,第一提取模块12获取标题关键词信息、质量属性参数、封面图像安全参数、领域属性参数以及文本安全参数的前后顺序没有限定。
划分模块13,用于将所述目标文本的内容信息划分为多个单位目标内容信息;
具体的,划分模块13解析目标文本的内容信息的文本结构,得到由内容图像以及文字段落组成为文本结构序列L,其中可以通过解析目标文本所在页面的HTML(HyperTextMarkup Language,超级文本标记语言),得到目标文本的内容信息中所包含的多个内容图像,以及多个文字段落,将解析目标文本所得到的内容图像以及文字段落均称为单位目标内容信息,上述可知,目标文本包括主题信息和内容信息。
举例来说,目标文本的内容信息包括文字段落1、文字段落2、内容图像1以及文字段落3,即目标文本的内容信息包括4个单位目标内容信息,分别为:文字段落1、文字段落2、内容图像1以及文字段落3。
下面以一个单位目标内容信息为例进行说明,如何确定与之对应的目标内容属性参数:
若单位目标内容信息的内容属性为图像属性,那么划分模块13获取图像识别模型,该图像识别模型可以识别图像的图像安全参数,图像安全参数可以包括:色情分、低俗分、擦边分、性感分、广告分、清晰度分、二维码分、文字过多分、图像宽度分、图像高度分、图像命中图像模板库分等;其中,二维码分是用于度量图像是否为二维码图像;文字过多分是用于度量图像中所包含文字的数量;图像模板库是指在同一消息分发群组中重复出现次数超过次数阈值的图像集合,若图像命中了图像模板库,那么该图像的图像命中图像模板库分等于数值1;对应地,若图像没有命中图像模板库,那么该图像的图像命中图像模板库分等于数值0。
划分模块13将单位目标内容信息输入该图像识别模型中,图像识别模型可以输出与单位目标内容信息对应的图像安全参数(可以称为内容图像安全参数)。划分模块13将识别到的内容图像安全参数作为该单位目标内容信息的目标内容属性参数。
若单位目标内容信息的内容属性为字符属性,那么划分模块13可以获取内容关键词字典,并创建空白数组(可以称为辅助数组),其中内容关键词字典包括多个内容关键词。划分模块13判断单位目标内容信息是否命中内容关键词字典中的内容关键词,若命中,则可以向辅助数组的对应位置(该位置是指命中的内容关键词在内容关键词字典中的位置)中填充第一数值(例如,数值1);若没有命中,则可以向辅助数组的对应位置中填充第二数值(例如,数值0)。当内容关键词字典中的所有内容关键词都参与了上述运算时,另外再确定该单位目标内容信息中所包含的字符数量,将确定的字符数量也填充至辅助数组中。最后将填充后的辅助数组作为内容关键词信息,并将上述内容关键词信息作为该单位目标内容信息的目标内容属性参数。
可选的,若单位目标内容信息的内容属性为字符属性,可以将目标内容信息划分为多个内容字符,并将每个内容字符转换为词向量(称为内容词向量)。划分模块13将所有的内容词向量对位相加,得到的向量作为内容关键词信息,并将上述内容关键词信息作为该单位目标内容信息的目标内容属性参数。
若存在多个单位目标内容信息,划分模块13可以基于上述方式分别确定每个单位目标内容信息的目标内容属性参数。
第二提取模块14,用于获取与每个单位目标内容信息分别对应的目标内容属性参数;
组合模块15,用于将多个目标内容属性参数组合为目标内容属性参数序列;
识别模块16,用于根据所述目标主题属性参数和所述目标内容属性参数序列识别所述目标文本的安全类型。
其中,获取模块11、第一提取模块12、划分模块13、第二提取模块14、组合模块15、识别模块16的具体功能实现方式可以参见上述图2对应实施例中的步骤S101-步骤S104,这里不再进行赘述。
请参见图8,主题信息包括标题信息和封面图像;
第一提取模块12可以包括:生成单元121、获取单元122、组合单元123。
生成单元121,用于根据所述标题信息所包含的字符,生成标题关键词信息;
获取单元122,用于获取所述目标文本所属的消息分发群组对应的质量属性参数;
所述获取单元122,还用于识别所述封面图像的封面图像安全参数,并获取所述目标文本所属业务领域的领域属性参数;
所述获取单元122,还用于识别所述标题信息的文本安全参数;
组合单元123,用于将所述标题关键词信息、所述质量属性参数、所述封面图像安全参数、所述领域属性参数和所述文本安全参数组合为所述目标主题属性参数。
其中,生成单元121、获取单元122、组合单元123的具体功能实现方式可以参见上述图4对应实施例中的步骤S201-步骤S205,这里不再进行赘述。
请参见图8,生成单元121可以包括:获取子单元1211、选择子单元1212。
获取子单元1211,用于获取标题关键词字典,并创建关键词数组;所述标题关键词字典包括多个标题关键词;
选择子单元1212,用于从所述多个标题关键词中选择目标标题关键词,并确定所述目标标题关键词在所述标题关键词字典中的位置信息;
所述选择子单元1212,还用于若所述目标标题关键词存在于所述标题信息中,则根据所述位置信息,在所述关键词数组中填充第一数值;
所述选择子单元1212,还用于若所述目标标题关键词不存在于所述标题信息中,则根据所述位置信息,在所述关键词数组中填充第二数值;
所述选择子单元1212,还用于当所有的标题关键词均被确定为所述目标标题关键词时,将填充后的关键词数组作为所述标题关键词信息。
其中,获取子单元1211、选择子单元1212的具体功能实现方式可以参见上述图4对应实施例中的步骤S201,这里不再进行赘述。
请参见图8,生成单元121可以包括:划分子单元1213、转换子单元1214。
划分子单元1213,用于将所述标题信息划分为多个标题字符,并在字符词袋中查找与每个标题字符分别对应的独热码,作为字符输入向量;所述字符词袋包括多个字符,以及与每个字符分别对应的独热码;
转换子单元1214,用于基于字符词向量转换模型中的隐藏层,将多个字符输入向量分别进行降维,得到多个字符词向量,并将所述多个字符词向量合并为所述标题关键词信息。
其中,划分子单元1213、转换子单元1214的具体功能实现方式可以参见上述图4对应实施例中的步骤S201,这里不再进行赘述。
请参见图8,第二提取模块14:第一确定单元141、第二确定单元142。
第一确定单元141,用于当单位目标内容信息的内容属性为图像属性时,识别所述单位目标内容信息的内容图像安全参数,将所述内容图像安全参数确定为与所述单位目标内容信息对应的目标内容属性参数;
第二确定单元142,用于当单位目标内容信息的内容属性为字符属性时,根据所述单位目标内容信息所包含的关键词,生成内容关键词信息,将所述内容关键词信息确定为与所述单位目标内容信息对应的目标内容属性参数。
其中,第一确定单元141、第二确定单元142的具体功能实现方式可以参见上述图2对应实施例中的步骤S102,这里不再进行赘述。
请参见图8,组合模块15可以包括:提取单元151、合并单元152。
提取单元151,用于从所述多个目标内容属性参数中提取多个第一目标内容属性参数;所述多个第一目标内容属性参数对应的单位目标内容信息的内容属性均为字符属性,且所述多个第一目标内容属性参数对应的单位目标内容信息在所述目标文本中相邻;
合并单元152,用于将所述多个第一目标内容属性参数合并为统计目标内容属性参数;
所述合并单元152,还用于将所述统计目标内容属性参数和第二目标内容属性参数组合为所述目标内容属性参数序列;所述第二目标内容属性参数是在所述多个目标内容属性参数中除所述多个第一目标内容属性参数以外的目标内容属性参数。
其中,提取单元151、合并单元152的具体功能实现方式可以参见上述图2对应实施例中的步骤S103。
请参见图8,识别模块16可以包括:编码单元161、拼接单元162、识别单元163。
编码单元161,用于基于所述目标文本识别模型中的编码层,对所述目标内容属性参数序列进行编码,得到隐藏状态信息;
所述编码单元161,还用于基于目标文本识别模型中的注意力层,确定与所述隐藏状态信息对应的权重系数,根据所述权重系数与所述隐藏状态信息,生成时序特征信息;
拼接单元162,用于将所述目标主题属性参数和所述时序特征信息拼接为目标特征信息;
识别单元163,用于基于所述目标文本识别模型中的分类器,识别所述目标特征信息与所述目标文本识别模型中多种安全类型之间的匹配概率,将具有最高匹配概率的安全类型作为所述目标文本的安全类型。
其中,编码单元161、拼接单元162、识别单元163的具体功能实现方式可以参见上述图2对应实施例中的步骤S104,这里不再进行赘述。
请参见图8,文本处理装置1可以包括:获取模块11、第一提取模块12、划分模块13、第二提取模块14、组合模块15、识别模块16;还可以包括:第一确定模块17、调整模块18。
第一确定模块17,用于获取样本文本,从所述样本文本的主题信息中,获取所述样本文本的样本主题属性参数;
所述第一确定模块17,还用于将所述样本文本的内容信息划分为多个单位样本内容信息,并获取每个单位样本内容信息的样本内容属性参数,将多个样本内容属性参数组合为样本内容属性参数序列;
调整模块18,用于根据所述样本主题属性参数、所述样本内容属性参数序列和所述样本文本的样本安全类型,调整初始文本识别模型;
所述第一确定模块17,还用于当调整后的初始文本识别模型满足目标收敛条件时,将调整后的初始文本识别模型确定为所述目标文本识别模型;所述目标文本识别模型是用于预测目标文本的安全类型。
其中,第一确定模块17、调整模块18的具体功能实现方式可以参见上述图6对应实施例中的步骤S301-步骤S304,这里不再进行赘述。
请参见图8,调整模块18可以包括:关联单元181、调整单元182。
关联单元181,用于识别所述样本主题属性参数、所述样本内容属性参数序列与所述初始文本识别模型中多种安全类型之间的样本匹配概率,将所述样本匹配概率和所述初始文本识别模型中多种安全类型的标签信息进行关联,得到预测标签信息集合;
调整单元182,用于获取所述样本文本的样本安全类型,根据所述样本安全类型和所述预测标签信息集合确定分类误差,并根据所述分类误差反向传播调整所述初始文本识别模型。
其中,关联单元181、调整单元182的具体功能实现方式可以参见上述图6对应实施例中的步骤S303,这里不再进行赘述。
请参见图8,文本处理装置1可以包括:获取模块11、第一提取模块12、划分模块13、第二提取模块14、组合模块15、识别模块16、第一确定模块17、调整模块18;还可以包括:第二确定模块19。
第二确定模块19,用于当调整次数达到次数阈值时,确定调整后的初始文本识别模型满足所述目标收敛条件;或,
所述第二确定模块19,还用于当调整后的初始文本识别模型的模型参数和调整前的初始文本识别模型的模型参数之间的差异量小于差异阈值时,确定调整后的初始文本识别模型满足所述目标收敛条件。
其中,第二确定模块19的具体功能实现方式可以参见上述图6对应实施例中的步骤S304,这里不再进行赘述。
进一步地,请参见图9,是本发明实施例提供的一种电子设备的结构示意图。上述图3-图7对应实施例中的终端设备可以为电子设备1000,如图9所示,所述电子设备1000可以包括:用户接口1002、处理器1004、编码器1006以及存储器1008。信号接收器1016用于经由蜂窝接口1010、WIFI接口1012、...、或NFC接口1014接收或者发送数据。编码器1006将接收到的数据编码为计算机处理的数据格式。存储器1008中存储有计算机程序,处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。存储器1008可包括易失性存储器(例如,动态随机存取存储器DRAM),还可以包括非易失性存储器(例如,一次性可编程只读存储器OTPROM)。在一些实例中,存储器1008可进一步包括相对于处理器1004远程设置的存储器,这些远程存储器可以通过网络连接至电子设备1000。用户接口1002可以包括:键盘1018和显示器1020。
在图9所示的电子设备1000中,处理器1004可以用于调用存储器1008中存储计算机程序,以实现:
获取目标文本,从所述目标文本的主题信息中,获取所述目标文本的目标主题属性参数;
将所述目标文本的内容信息划分为多个单位目标内容信息,并获取与每个单位目标内容信息分别对应的目标内容属性参数,将多个目标内容属性参数组合为目标内容属性参数序列;
根据所述目标主题属性参数和所述目标内容属性参数序列识别所述目标文本的安全类型。
在一个实施例中,所述主题信息包括标题信息和封面图像;
所述处理器1004在执行从所述目标文本的主题信息中,获取所述目标文本的目标主题属性参数时,具体执行以下步骤:
根据所述标题信息所包含的字符,生成标题关键词信息;
获取所述目标文本所属的消息分发群组对应的质量属性参数;
识别所述封面图像的封面图像安全参数,并获取所述目标文本所属业务领域的领域属性参数;
识别所述标题信息的文本安全参数;
将所述标题关键词信息、所述质量属性参数、所述封面图像安全参数、所述领域属性参数和所述文本安全参数组合为所述目标主题属性参数。
在一个实施例中,所述处理器1004在执行根据所述标题信息所包含的字符,生成标题关键词信息时,具体执行以下步骤:
获取标题关键词字典,并创建关键词数组;所述标题关键词字典包括多个标题关键词;
从所述多个标题关键词中选择目标标题关键词,并确定所述目标标题关键词在所述标题关键词字典中的位置信息;
若所述目标标题关键词存在于所述标题信息中,则根据所述位置信息,在所述关键词数组中填充第一数值;
若所述目标标题关键词不存在于所述标题信息中,则根据所述位置信息,在所述关键词数组中填充第二数值;
当所有的标题关键词均被确定为所述目标标题关键词时,将填充后的关键词数组作为所述标题关键词信息。
在一个实施例中,所述处理器1004在执行根据所述标题信息所包含的字符,生成标题关键词信息时,具体执行以下步骤:
将所述标题信息划分为多个标题字符,并在字符词袋中查找与每个标题字符分别对应的独热码,作为字符输入向量;所述字符词袋包括多个字符,以及与每个字符分别对应的独热码;
基于字符词向量转换模型中的隐藏层,将多个字符输入向量分别进行降维,得到多个字符词向量,并将所述多个字符词向量合并为所述标题关键词信息。
在一个实施例中,所述处理器1004在执行获取与每个单位目标内容信息分别对应的目标内容属性参数时,具体执行以下步骤:
当单位目标内容信息的内容属性为图像属性时,识别所述单位目标内容信息的内容图像安全参数,将所述内容图像安全参数确定为与所述单位目标内容信息对应的目标内容属性参数;
当单位目标内容信息的内容属性为字符属性时,根据所述单位目标内容信息所包含的关键词,生成内容关键词信息,将所述内容关键词信息确定为与所述单位目标内容信息对应的目标内容属性参数。
在一个实施例中,所述处理器1004在执行将多个目标内容属性参数组合为目标内容属性参数序列时,具体执行以下步骤:
从所述多个目标内容属性参数中提取多个第一目标内容属性参数;所述多个第一目标内容属性参数对应的单位目标内容信息的内容属性均为字符属性,且所述多个第一目标内容属性参数对应的单位目标内容信息在所述目标文本中相邻;
将所述多个第一目标内容属性参数合并为统计目标内容属性参数;
将所述统计目标内容属性参数和第二目标内容属性参数组合为所述目标内容属性参数序列;所述第二目标内容属性参数是在所述多个目标内容属性参数中除所述多个第一目标内容属性参数以外的目标内容属性参数。
在一个实施例中,所述处理器1004在执行根据所述目标主题属性参数和所述目标内容属性参数序列识别所述目标文本的安全类型时,具体执行以下步骤:
基于所述目标文本识别模型中的编码层,对所述目标内容属性参数序列进行编码,得到隐藏状态信息;
基于目标文本识别模型中的注意力层,确定与所述隐藏状态信息对应的权重系数,根据所述权重系数与所述隐藏状态信息,生成时序特征信息;
将所述目标主题属性参数和所述时序特征信息拼接为目标特征信息;
基于所述目标文本识别模型中的分类器,识别所述目标特征信息与所述目标文本识别模型中多种安全类型之间的匹配概率,将具有最高匹配概率的安全类型作为所述目标文本的安全类型。
在一个实施例中,所述处理器1004还执行以下步骤:
获取样本文本,从所述样本文本的主题信息中,获取所述样本文本的样本主题属性参数;
将所述样本文本的内容信息划分为多个单位样本内容信息,并获取每个单位样本内容信息的样本内容属性参数,将多个样本内容属性参数组合为样本内容属性参数序列;
根据所述样本主题属性参数、所述样本内容属性参数序列和所述样本文本的样本安全类型,调整初始文本识别模型;
当调整后的初始文本识别模型满足目标收敛条件时,将调整后的初始文本识别模型确定为所述目标文本识别模型;所述目标文本识别模型是用于预测目标文本的安全类型。
在一个实施例中,所述处理器1004在执行根据所述样本主题属性参数、所述样本内容属性参数序列和所述样本文本的样本安全类型,调整初始文本识别模型时,具体执行以下步骤:
识别所述样本主题属性参数、所述样本内容属性参数序列与所述初始文本识别模型中多种安全类型之间的样本匹配概率,将所述样本匹配概率和所述初始文本识别模型中多种安全类型的标签信息进行关联,得到预测标签信息集合;
获取所述样本文本的样本安全类型,根据所述样本安全类型和所述预测标签信息集合确定分类误差,并根据所述分类误差反向传播调整所述初始文本识别模型。
在一个实施例中,所述处理器1004还执行以下步骤:
当调整后的初始文本识别模型的模型参数和调整前的初始文本识别模型的模型参数之间的差异量小于差异阈值时,确定调整后的初始文本识别模型满足所述目标收敛条件。
应当理解,本发明实施例中所描述的电子设备1000可执行前文图2到图7所对应实施例中对所述文本处理方法的描述,也可执行前文图8所对应实施例中对所述文本处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本发明实施例还提供了一种计算机存储介质,且所述计算机存储介质中存储有前文提及的文本处理装置1所执行的计算机程序,且所述计算机程序包括程序指令,当所述处理器执行所述程序指令时,能够执行前文图2到图7所对应实施例中对所述文本处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (13)
1.一种文本处理方法,其特征在于,包括:
获取目标文本,从所述目标文本的主题信息中,获取所述目标文本的目标主题属性参数;
将所述目标文本的内容信息划分为多个单位目标内容信息,并获取与每个单位目标内容信息分别对应的目标内容属性参数,将多个目标内容属性参数组合为目标内容属性参数序列;
根据所述目标主题属性参数和所述目标内容属性参数序列识别所述目标文本的安全类型。
2.根据权利要求1所述的方法,其特征在于,所述主题信息包括标题信息和封面图像;
所述从所述目标文本的主题信息中,获取所述目标文本的目标主题属性参数,包括:
根据所述标题信息所包含的字符,生成标题关键词信息;
获取所述目标文本所属的消息分发群组对应的质量属性参数;
识别所述封面图像的封面图像安全参数,并获取所述目标文本所属业务领域的领域属性参数;
识别所述标题信息的文本安全参数;
将所述标题关键词信息、所述质量属性参数、所述封面图像安全参数、所述领域属性参数和所述文本安全参数组合为所述目标主题属性参数。
3.根据权利要求2所述的方法,其特征在于,所述根据所述标题信息所包含的字符,生成标题关键词信息,包括:
获取标题关键词字典,并创建关键词数组;所述标题关键词字典包括多个标题关键词;
从所述多个标题关键词中选择目标标题关键词,并确定所述目标标题关键词在所述标题关键词字典中的位置信息;
若所述目标标题关键词存在于所述标题信息中,则根据所述位置信息,在所述关键词数组中填充第一数值;
若所述目标标题关键词不存在于所述标题信息中,则根据所述位置信息,在所述关键词数组中填充第二数值;
当所有的标题关键词均被确定为所述目标标题关键词时,将填充后的关键词数组作为所述标题关键词信息。
4.根据权利要求2所述的方法,其特征在于,所述根据所述标题信息所包含的字符,生成标题关键词信息,包括:
将所述标题信息划分为多个标题字符,并在字符词袋中查找与每个标题字符分别对应的独热码,作为字符输入向量;所述字符词袋包括多个字符,以及与每个字符分别对应的独热码;
基于字符词向量转换模型中的隐藏层,将多个字符输入向量分别进行降维,得到多个字符词向量,并将所述多个字符词向量合并为所述标题关键词信息。
5.根据权利要求1所述的方法,其特征在于,所述获取与每个单位目标内容信息分别对应的目标内容属性参数,包括:
当单位目标内容信息的内容属性为图像属性时,识别所述单位目标内容信息的内容图像安全参数,将所述内容图像安全参数确定为与所述单位目标内容信息对应的目标内容属性参数;
当单位目标内容信息的内容属性为字符属性时,根据所述单位目标内容信息所包含的关键词,生成内容关键词信息,将所述内容关键词信息确定为与所述单位目标内容信息对应的目标内容属性参数。
6.根据权利要求1所述的方法,其特征在于,所述将多个目标内容属性参数组合为目标内容属性参数序列,包括:
从所述多个目标内容属性参数中提取多个第一目标内容属性参数;所述多个第一目标内容属性参数对应的单位目标内容信息的内容属性均为字符属性,且所述多个第一目标内容属性参数对应的单位目标内容信息在所述目标文本中相邻;
将所述多个第一目标内容属性参数合并为统计目标内容属性参数;
将所述统计目标内容属性参数和第二目标内容属性参数组合为所述目标内容属性参数序列;所述第二目标内容属性参数是在所述多个目标内容属性参数中除所述多个第一目标内容属性参数以外的目标内容属性参数。
7.根据权利要求1所述的方法,其特征在于,所述根据所述目标主题属性参数和所述目标内容属性参数序列识别所述目标文本的安全类型,包括:
基于所述目标文本识别模型中的编码层,对所述目标内容属性参数序列进行编码,得到隐藏状态信息;
基于目标文本识别模型中的注意力层,确定与所述隐藏状态信息对应的权重系数,根据所述权重系数与所述隐藏状态信息,生成时序特征信息;
将所述目标主题属性参数和所述时序特征信息拼接为目标特征信息;
基于所述目标文本识别模型中的分类器,识别所述目标特征信息与所述目标文本识别模型中多种安全类型之间的匹配概率,将具有最高匹配概率的安全类型作为所述目标文本的安全类型。
8.根据权利要求1所述的方法,其特征在于,还包括:
获取样本文本,从所述样本文本的主题信息中,获取所述样本文本的样本主题属性参数;
将所述样本文本的内容信息划分为多个单位样本内容信息,并获取每个单位样本内容信息的样本内容属性参数,将多个样本内容属性参数组合为样本内容属性参数序列;
根据所述样本主题属性参数、所述样本内容属性参数序列和所述样本文本的样本安全类型,调整初始文本识别模型;
当调整后的初始文本识别模型满足目标收敛条件时,将调整后的初始文本识别模型确定为所述目标文本识别模型;所述目标文本识别模型是用于预测目标文本的安全类型。
9.根据权利要求8所述的方法,其特征在于,所述根据所述样本主题属性参数、所述样本内容属性参数序列和所述样本文本的样本安全类型,调整初始文本识别模型,包括:
识别所述样本主题属性参数、所述样本内容属性参数序列与所述初始文本识别模型中多种安全类型之间的样本匹配概率,将所述样本匹配概率和所述初始文本识别模型中多种安全类型的标签信息进行关联,得到预测标签信息集合;
获取所述样本文本的样本安全类型,根据所述样本安全类型和所述预测标签信息集合确定分类误差,并根据所述分类误差反向传播调整所述初始文本识别模型。
10.根据权利要求8所述的方法,其特征在于,还包括:
当调整次数达到次数阈值时,确定调整后的初始文本识别模型满足所述目标收敛条件;或,
当调整后的初始文本识别模型的模型参数和调整前的初始文本识别模型的模型参数之间的差异量小于差异阈值时,确定调整后的初始文本识别模型满足所述目标收敛条件。
11.一种文本处理装置,其特征在于,包括:
获取模块,用于获取目标文本;
第一提取模块,用于从所述目标文本的主题信息中,获取所述目标文本的目标主题属性参数;
划分模块,用于将所述目标文本的内容信息划分为多个单位目标内容信息;
第二提取模块,用于获取与每个单位目标内容信息分别对应的目标内容属性参数;
组合模块,用于将多个目标内容属性参数组合为目标内容属性参数序列;
识别模块,用于根据所述目标主题属性参数和所述目标内容属性参数序列识别所述目标文本的安全类型。
12.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如权利要求1-10任一项所述的方法。
13.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910304358.6A CN110162624B (zh) | 2019-04-16 | 2019-04-16 | 一种文本处理方法、装置以及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910304358.6A CN110162624B (zh) | 2019-04-16 | 2019-04-16 | 一种文本处理方法、装置以及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110162624A true CN110162624A (zh) | 2019-08-23 |
CN110162624B CN110162624B (zh) | 2024-04-09 |
Family
ID=67639464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910304358.6A Active CN110162624B (zh) | 2019-04-16 | 2019-04-16 | 一种文本处理方法、装置以及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110162624B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110958252A (zh) * | 2019-12-05 | 2020-04-03 | 深信服科技股份有限公司 | 一种网络安全设备及其网络攻击检测方法、装置和介质 |
CN113590851A (zh) * | 2020-05-01 | 2021-11-02 | 脸谱公司 | 建议在线系统中的实体创建内容并向内容添加标签 |
CN113591593A (zh) * | 2021-07-06 | 2021-11-02 | 厦门路桥信息股份有限公司 | 基于因果干预的异常天气下目标检测方法、设备及介质 |
CN114579740A (zh) * | 2022-01-20 | 2022-06-03 | 马上消费金融股份有限公司 | 文本分类方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040193870A1 (en) * | 2003-03-25 | 2004-09-30 | Digital Doors, Inc. | Method and system of quantifying risk |
CN103699521A (zh) * | 2012-09-27 | 2014-04-02 | 腾讯科技(深圳)有限公司 | 文本分析方法及装置 |
CN106445998A (zh) * | 2016-05-26 | 2017-02-22 | 达而观信息科技(上海)有限公司 | 一种基于敏感词的文本内容审核方法及系统 |
CN108304483A (zh) * | 2017-12-29 | 2018-07-20 | 东软集团股份有限公司 | 一种网页分类方法、装置及设备 |
CN108965245A (zh) * | 2018-05-31 | 2018-12-07 | 国家计算机网络与信息安全管理中心 | 基于自适应异构多分类模型的钓鱼网站检测方法和系统 |
CN109471937A (zh) * | 2018-10-11 | 2019-03-15 | 平安科技(深圳)有限公司 | 一种基于机器学习的文本分类方法及终端设备 |
-
2019
- 2019-04-16 CN CN201910304358.6A patent/CN110162624B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040193870A1 (en) * | 2003-03-25 | 2004-09-30 | Digital Doors, Inc. | Method and system of quantifying risk |
CN103699521A (zh) * | 2012-09-27 | 2014-04-02 | 腾讯科技(深圳)有限公司 | 文本分析方法及装置 |
CN106445998A (zh) * | 2016-05-26 | 2017-02-22 | 达而观信息科技(上海)有限公司 | 一种基于敏感词的文本内容审核方法及系统 |
CN108304483A (zh) * | 2017-12-29 | 2018-07-20 | 东软集团股份有限公司 | 一种网页分类方法、装置及设备 |
CN108965245A (zh) * | 2018-05-31 | 2018-12-07 | 国家计算机网络与信息安全管理中心 | 基于自适应异构多分类模型的钓鱼网站检测方法和系统 |
CN109471937A (zh) * | 2018-10-11 | 2019-03-15 | 平安科技(深圳)有限公司 | 一种基于机器学习的文本分类方法及终端设备 |
Non-Patent Citations (2)
Title |
---|
ALI AHMADI等: "Intelligent classification of web pages using contextual and visual features", 《ELSEVIER》, pages 1638 - 1647 * |
HONGFAN YE等: "Web Services Classification Based on Wide & Bi-LSTM Model", 《IEEE》, pages 43697 - 43705 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110958252A (zh) * | 2019-12-05 | 2020-04-03 | 深信服科技股份有限公司 | 一种网络安全设备及其网络攻击检测方法、装置和介质 |
CN110958252B (zh) * | 2019-12-05 | 2020-11-27 | 深信服科技股份有限公司 | 一种网络安全设备及其网络攻击检测方法、装置和介质 |
CN113590851A (zh) * | 2020-05-01 | 2021-11-02 | 脸谱公司 | 建议在线系统中的实体创建内容并向内容添加标签 |
CN113591593A (zh) * | 2021-07-06 | 2021-11-02 | 厦门路桥信息股份有限公司 | 基于因果干预的异常天气下目标检测方法、设备及介质 |
CN113591593B (zh) * | 2021-07-06 | 2023-08-15 | 厦门路桥信息股份有限公司 | 基于因果干预的异常天气下目标检测方法、设备及介质 |
CN114579740A (zh) * | 2022-01-20 | 2022-06-03 | 马上消费金融股份有限公司 | 文本分类方法、装置、电子设备及存储介质 |
CN114579740B (zh) * | 2022-01-20 | 2023-12-05 | 马上消费金融股份有限公司 | 文本分类方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110162624B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110309427B (zh) | 一种对象推荐方法、装置及存储介质 | |
CN110162624A (zh) | 一种文本处理方法、装置以及相关设备 | |
CN111259215A (zh) | 基于多模态的主题分类方法、装置、设备、以及存储介质 | |
CN112016313B (zh) | 口语化要素识别方法及装置、警情分析系统 | |
CN112148831B (zh) | 图文混合检索方法、装置、存储介质、计算机设备 | |
CN115601582A (zh) | 一种基于多模态数据的商品识别方法和系统 | |
CN112015901A (zh) | 文本分类方法及装置、警情分析系统 | |
CN113127632A (zh) | 基于异质图的文本摘要方法及装置、存储介质和终端 | |
CN114969316A (zh) | 一种文本数据处理方法、装置、设备以及介质 | |
CN112507167A (zh) | 一种识别视频合集的方法、装置、电子设备及存储介质 | |
CN116205222A (zh) | 一种基于多通道注意力融合的方面级情感分析系统及方法 | |
CN111949848A (zh) | 一种基于特定事件的跨平台传播态势评估及分级方法 | |
CN112749330A (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
CN116975615A (zh) | 基于视频多模态信息的任务预测方法和装置 | |
CN107908649B (zh) | 一种文本分类的控制方法 | |
CN113204624A (zh) | 一种多特征融合的文本情感分析模型及装置 | |
CN116958997A (zh) | 一种基于异质图神经网络的图文摘要方法及系统 | |
CN116955591A (zh) | 用于内容推荐的推荐语生成方法、相关装置和介质 | |
CN116977701A (zh) | 视频分类模型训练的方法、视频分类的方法和装置 | |
CN114781348B (zh) | 一种基于词袋模型的文本相似度计算方法及系统 | |
CN111813927A (zh) | 一种基于主题模型和lstm的句子相似度计算方法 | |
CN115269846A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
CN116523024B (zh) | 召回模型的训练方法、装置、设备及存储介质 | |
Huang et al. | A Study of Danmaku Video Recommendation Algorithm Incorporating Multiple Features | |
CN116452283A (zh) | 检索方法、模型训练方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |