CN111950037A - 检测方法、装置、电子设备及存储介质 - Google Patents
检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111950037A CN111950037A CN202010868070.4A CN202010868070A CN111950037A CN 111950037 A CN111950037 A CN 111950037A CN 202010868070 A CN202010868070 A CN 202010868070A CN 111950037 A CN111950037 A CN 111950037A
- Authority
- CN
- China
- Prior art keywords
- text
- sentences
- detected
- sentence
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种检测方法、装置、电子设备及存储介质,包括:获取待测文本;基于预定关键字段,从所述待测文本中提取出与所述预定关键字段对应的关键文本信息;从所述待测文本中,提取出与所述关键文本信息相关的特征语句;将所述特征语句输入至预先训练好的检测模型中,得到表征所述待测文本是否被篡改的结果,与利用完整的待测文本来进行篡改检测相比,极大地降低检测复杂度;其次,由于若一个文本被篡改,那么与该文本的关键字段相关的语句通常会包括篡改后的信息,因此,利用特征语句能够准确地检测出待测文本是否被篡改。
Description
技术领域
本申请涉及网络安全技术领域,具体而言,涉及一种检测方法、装置、电子设备及存储介质。
背景技术
我们正处于一个数字经济化时代,不论是刚刚起步或发展的中小企业,还是已经有了丰富资金经济脉络的大型企业,都需要建立自己的网站。网站已成为企事业单位的形象窗口,也是对外开展业务、提供服务的重要手段。如果网站的网页内容被恶意篡改,不仅会影响正常业务的开展,而且还会对企业形象带来极其不好的影响。
基于此,现有技术提出通过模拟在浏览器地址栏中输入统一资源定位符URL的方式,发起访问目标网页的请求,并将得到的页面内容确定为第一页面内容,并通过模拟链接跳转的方式,发起访问所述目标网页的请求,并将得到的页面内容确定为第二页面内容,继而通过比较所述第一页面内容与第二页面内容,得到一比较结果,最后根据所述比较结果识别所述目标网页是否为被篡改网页。然而,现有技术使用页面的全部内容进行检测,势必存在检测复杂度过大的问题。
发明内容
鉴于此,本申请实施例的目的在于提供一种检测方法、装置、电子设备及存储介质,以较低的复杂度准确地确定出待测文件是否被篡改。
第一方面,本申请实施例提供一种检测方法,所述方法包括:获取待测文本;基于预定关键字段,从所述待测文本中提取出与所述预定关键字段对应的关键文本信息;从所述待测文本中,提取出与所述关键文本信息相关的特征语句;将所述特征语句输入至预先训练好的检测模型中,得到表征所述待测文本是否被篡改的结果。
在实际实施过程中,若一个文本被篡改,那么与该文本的关键字段相关的语句通常会包含篡改后的信息,因此,在上述实现过程中,在获取到待测文本之后,基于预定关键字段,从所述待测文本中快速地提取出与所述预定关键字段对应的关键文本信息,继而从所述待测文本中,提取出与所述关键文本信息相关的特征语句,并将所述特征语句输入至预先训练好的检测模型中进行检测,与利用完整的待测文本来进行篡改检测相比,极大地降低检测复杂度;其次,由于若一个文本被篡改,那么与该文本的关键字段相关的语句通常会包括篡改后的信息,因此,利用特征语句能够准确地检测出待测文本是否被篡改。
基于第一方面,在一种可能的设计中,所述从所述待测文本中,提取出与所述关键文本信息相关的特征语句,包括:对所述待测文本进行分句处理,得到多个语句;针对所述多个语句中的每个语句,确定该语句与所述关键文本信息的相关性;从所述多个语句中,提取出相关性大于预设值的特征语句。
与关键文本信息越相关的语句越能反映待测文本是否被篡改,因此,在上述实现过程中,利用与关键文本信息相关性大于预设值的语句来进行检测,不仅能够有效剔除噪声数据,提高检测精度,而且能够降低检测所需复杂度。
基于第一方面,在一种可能的设计中,所述从所述多个语句中,提取出相关性大于预设值的特征语句,包括:从所述多个语句中,提取出相关性大于预设值的多条待选特征语句;根据相关性大小,按照从大到小的顺序对所述多条待选特征语句进行排序;根据排序结果,从所述多条待选特征语句中确定出相关性排序位于前预设位的至少两条特征语句。
为了能够在保证检测准确度的基础上,进一步降低检测复杂度,因此,在上述实现过程中,在从所述多个语句中,提取出相关性大于预设值的多条待选特征语句之后,根据相关性大小,按照从大到小的顺序对所述多条待选特征语句进行排序,由于与关键文本信息越相关的语句越能反映待测文本是否被篡改,因此,根据排序结果,从所述多条待选特征语句中确定出相关性排序位于前预设位的至少两条特征语句来进行检测,保证检测准确度,其次,与直接利用全部待选特征语句进行检测相比,进一步降低检测复杂度。
基于第一方面,在一种可能的设计中,所述将所述特征语句输入至预先训练好的检测模型中,得到表征所述待测文本是否被篡改的结果,包括:将所述特征语句和所述关键文本信息输入至所述检测模型中,得到表征所述待测文本是否被篡改的结果。
在上述实现过程中,通过将关键文本信息和特征语句一起用于篡改检测,进一步提高检测精度。
基于第一方面,在一种可能的设计中,若所述特征语句的数量为至少两条;所述将所述特征语句输入至预先训练好的检测模型中,得到表征所述待测的文本是否被篡改的结果,包括:根据相关性的大小,按照从大到小的顺序对至少两条所述特征语句进行排序,得到一条排序后的语句;根据预先确定的字符输入长度,从所述排序后的语句中确定出排序结果靠前,且长度等于所述字符输入长度的目标语句;将所述目标语句输入至所述检测模型中,得到表征所述待测的文本是否被篡改的结果。
在检测模型对输入的字符的长度有限制的情况下,为了能够准确地确定出待测文本是否被篡改,其次,与关键文本信息越相关的语句越能反映待测文本是否被篡改,因此,在上述实现过程中,根据相关性的大小,按照从大到小的顺序对至少两条所述特征语句进行排序,得到一条排序后的语句之后,从所述排序后的语句中确定出排序结果靠前,且长度等于所述字符输入长度的目标语句来作为检测模型的最终输入,继而能够在满足模型输入长度限制的前提下,准确地确定出待测文本是否被篡改。
基于第一方面,在一种可能的设计中,所述获取待测文本,包括:获取待检测的原始文本;从所述待检测的原始文本中,删除ASCII值不满足预设条件的字符,得到所述待测文本。
由于待检测的原始文本中可能会存在乱码字符情况,可以理解的是,乱码字符不仅会增加检测复杂度,而且还会对检测形成干扰,因此,在上述实现过程中,从所述待检测的原始文本中,删除ASCII值不满足预设条件的字符,得到所述待测文本,继而能够使得待测文本中不包含乱码字符,进而降低后续检测复杂度,以及提高检测精度。
基于第一方面,在一种可能的设计中,所述方法还包括:建立待训练的检测模型;获取多个待训练的文本样本和表征各个待训练的文本样本是否被篡改的标签;所述多个待训练的文本样本包括:包含篡改信息的文本样本,以及未包含篡改信息的文本样本;基于所述多个待训练的文本样本,以及与各个待训练的文本样本对应的标签,对所述待训练的检测模型进行训练。
在上述实现过程中,利用包含篡改信息和未包含篡改信息的待训练文本来训练检测模型,继而便于后续能够利用训练好的模型来进行篡改检测。
第二方面,本申请实施例提供一种检测装置,所述装置包括:获取单元,用于获取待测文本;文本信息提取单元,用于基于预定关键字段,从所述待测文本中提取出与所述预定关键字段对应的关键文本信息;特征语句提取单,用于从所述待测文本中,提取出与所述关键文本信息相关的特征语句;检测单元,用于将所述特征语句输入至预先训练好的检测模型中,得到表征所述待测文本是否被篡改的结果。
基于第二方面,在一种可能的设计中,所述特征语句提取单元,包括:分句单元,用于对所述待测文本进行分句处理,得到多个语句;相关性确定单元,用于针对所述多个语句中的每个语句,确定该语句与所述关键文本信息的相关性;特征语句提取子单元,用于从所述多个语句中,提取出相关性大于预设值的特征语句。
基于第二方面,在一种可能的设计中,所述特征语句提取子单元,具体用于从所述多个语句中,提取出相关性大于预设值的多条待选特征语句;以及根据相关性大小,按照从大到小的顺序对所述多条待选特征语句进行排序;根据排序结果,从所述多条待选特征语句中确定出相关性排序位于前预设位的至少两条特征语句。
基于第二方面,在一种可能的设计中,所述检测单元,具体用于将所述特征语句和所述关键文本信息输入至所述检测模型中,得到表征所述待测文本是否被篡改的结果。
基于第二方面,在一种可能的设计中,若所述特征语句的数量为至少两条;所述检测单元,还用于根据相关性的大小,按照从大到小的顺序对至少两条所述特征语句进行排序,得到一条排序后的语句;以及根据预先确定的字符输入长度,从所述排序后的语句中确定出排序结果靠前,且长度等于所述字符输入长度的目标语句;将所述目标语句输入至所述检测模型中,得到表征所述待测的文本是否被篡改的结果。
基于第二方面,在一种可能的设计中,所述获取单元,具体用于获取待检测的原始文本;以及从所述待检测的原始文本中,删除ASCII值不满足预设条件的字符,得到所述待测文本。
基于第二方面,在一种可能的设计中,所述装置还包括:模型训练单元,用于建立待训练的检测模型;以及获取多个待训练的文本样本和表征各个待训练的文本样本是否被篡改的标签;所述多个待训练的文本样本包括:包含篡改信息的文本样本,以及未包含篡改信息的文本样本;基于所述多个待训练的文本样本,以及与各个待训练的文本样本对应的标签,对所述待训练的检测模型进行训练。
第三方面,本申请实施例提供一种电子设备,包括处理器以及与所述处理器连接的存储器,所述存储器内存储计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备执行第一方面所述的方法。
第四方面,本申请实施例提供一种存储介质,所述存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行第一方面所述的方法。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的检测方法的流程示意图。
图2为本申请实施例提供的检测装置的结构示意图。
图3为本申请实施例提供的电子设备的结构示意图。
图标:200-检测装置;210-获取单元;220-文本信息提取单元;230-特征语句提取单元;240-检测单元;300-电子设备;301-处理器;302-存储器;303-通信接口。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1,图1为本申请实施例提供的一种检测方法的流程图,下面将对图1所示的流程进行详细阐述,所述方法包括步骤:S11、S12、S13和S14。
S11:获取待测文本。
S12:基于预定关键字段,从所述待测文本中提取出与所述预定关键字段对应的关键文本信息。
S13:从所述待测文本中,提取出与所述关键文本信息相关的特征语句。
S14:将所述特征语句输入至预先训练好的检测模型中,得到表征所述待测文本是否被篡改的结果。
下面对上述方法进行详细介绍。
S11:获取待测文本。
由于待检测的原始文本中可能会存在乱码字符情况,可以理解的是,乱码字符不仅会增加检测复杂度,而且还会对检测形成干扰,因此,作为一种实施方式,S11包括步骤:A1和A2。
A1:获取待检测的原始文本。
其中,在本实施例中,所述待检测的原始文本为待检测网页的文本,在其他实施例中,所述待检测的原始文本也可以为待检测的邮件中的文本等。
在获取到所述待检测的原始文本之后,执行步骤A2。
A2:从所述待检测的原始文本中,删除ASCII值不满足预设条件的字符,得到所述待测文本。
针对所述待检测的原始文本中的每个字符,确定出该字符的ASCII值,确定该字符的ASCII值是否存在于预先确定的ASCII库中,若存在,则确定该字符的ASCII值满足所述预设条件,反之确定该字符的ASCII不满足所述预设条件,继而从所述待检测的原始文本中删除该字符,可以理解的是,从所述待检测的原始文本中,删除ASCII值不满足预设条件的全部字符之后,得到所述待测文本。
作为一种实施方式,S11中的待测文本也可以为步骤A1中的待检测的原始文本。
在获取到所述待测文本之后,执行步骤S12。
S12:基于预定关键字段,从所述待测文本中提取出与所述预定关键字段对应的关键文本信息。
其中,所述预定关键字段可以为title字段、keywords字段、description字段中的任意一个字段或任意两个字段或者三个字段。
可以理解的是,所述待测文本中包括所述预定关键字段和文本字段(即text字段),其中,所述文本字段位于所述预定关键字段之后,针对所述预定关键字段中的每个关键字段,与该关键字段对应的文本信息位于该关键字段之后,且位于下一个字段之前,与所述文本字段对应的文本信息位于该文本字段之后,因此,针对所述预定关键字段中的每个关键字段,从所述待测文本中确定出该字段之后,将位于该关键字段之后且位于下一个字段之前的文本信息作为与该字段对应的关键文本信息。
例如:所述待测文本包括:
title a1b1c1
keywords a2b2c2
description a3b3c3
text a4b4c4
那么,若所述预定关键字段为title字段和keywords字段,从所述待测文本中提取出与title字段对应的关键文本信息为a1b1c1,从所述待测文本中提取出与keywords字段对应的关键文本信息为a3b3c3。
S13:从所述待测文本中,提取出与所述关键文本信息相关的特征语句。
作为一种实施方式,S13包括步骤:B1、B2和B3。
B1:对所述待测文本进行分句处理,得到多个语句。
根据预定语句标点符号,对所述待测文本进行分句处理,得到多个语句,可以理解的是,在存在预定语句标点符号的位置处,对所述待测文本进行分句。其中,在本实施例中,所述预定语句标点符号包括:句号、逗号、分号等。在其他实施例中,所述预定语句标点符号也可以只包括句号和分号。
例如:我今天上午要去跑步,下午要去打球,晚上要去唱歌。那么所述多个语句包括:第一句:我今天上午要去跑步;第二句:下午要去打球;第三句:晚上要去唱歌。
B2:针对所述多个语句中的每个语句,确定该语句与所述关键文本信息的相关性。
若所述预定关键字段包括至少两个字段,则需要将所述至少两个字段分别对应的关键文本信息拼接成一句之后,得到拼接后的关键文本信息,针对所述多个语句中的每个语句,利用BM25算法确定该语句与所述拼接后的关键文本信息的相关性。
若所述预定关键字段只包括一个字段,则针对所述多个语句中的每个语句,利用BM25算法确定该语句与该字段对应的关键文本信息的相关性。
其中,由于利用BM25算法确定该语句与所述拼接后的关键文本信息的相关性的具体实施方式为本领域熟知技术,因此,在此不再赘述。
其中,在其他实施例中,也可以采用其他方式确定该语句与所述关键文本信息的相关性。
B3:从所述多个语句中,提取出相关性大于预设值的特征语句。
作为一种实施方式,B3包括步骤:B31、B32和B33。
B31:从所述多个语句中,提取出相关性大于预设值的多条待选特征语句。
针对所述多个语句中的每个语句,在确定出该语句与关键文本信息的相关性之后,将该语句的相关性与所述预设值进行大小比较,继而从所述多个语句中提取出相关性大于所述预设值的多条待选特征语句。
B32:根据相关性大小,按照从大到小的顺序对所述多条待选特征语句进行排序。
在实际实施过程中,可以给所述多条待选特征语句分配一个唯一标识,可以理解的是,需要建立并存储标识与待选特征语句的对应关系,继而根据相关性大小,按照从大到小的顺序对各条待特征语句的标识进行排序,得到排序结果。
在其他实施例中,也可以根据相关性大小,按照从大到小的顺序直接对所述多条待选特征语句进行排序,其中,各条待选特征语句之间采用换行分隔符分开,得到排序结果,可以理解的是,相关性最大的待选特征语句位于排序结果中的第一行,相关性排在第二的待选特征语句位于排序结果中的第二行,依次类推。在其他实施例中,所述排序结果中的各条待选特征语句之间采用分号或者句号分开。
B33:根据排序结果,从所述多条待选特征语句中确定出相关性排序位于前预设位的至少两条特征语句。
其中,所述前预设位可以为前二位、前三位等,所述前预设位可以根据实际需求设定。
值的一提的是,若所述排序结果为所述多条待选特征语句中的各条特征语句的标识的排序结果,则从所述排序结果中确定出排序位位于前预设位的至少两个标识,继而针对所述至少两个标识中的每个标识,查找出与该标识对应的待选特征语句。
作为一种实施方式,B3包括步骤:B34、B35和B36。
B34:从所述多个语句中,提取出相关性大于预设值的多条待选特征语句。
B35:根据相关性大小,按照从小到大的顺序对所述多条待选特征语句进行排序。
B36:根据排序结果,从所述多条待选特征语句中确定出相关性排序位于后预设位的至少两条特征语句。
其中,B34-B36的具体实施方式可以参照B31-B33,因此,在此不再赘述。
作为一种实施方式,可以直接将B31中的待选特征语句作为B3中的特征语句。
S14:将所述特征语句输入至预先训练好的检测模型中,得到表征所述待测文本是否被篡改的结果。
作为一种实施方式,S14包括:将所述特征语句和所述关键文本信息输入至所述检测模型中,得到表征所述待测文本是否被篡改的结果。
将所述特征语句拼接在所述关键文本信息之后,也可以将所述关键文本信息拼接在所述特征语句之后,得到拼接后的信息,并将所述拼接后的信息输入至所述检测模型中,得到表征所述待测文本是否被篡改的结果。
作为一种实施方式,也可以依次将所述特征语句和所述关键文本信息输入至所述检测模型中,得到表征所述待测文本是否被篡改的结果。
作为一种实施方式,也可以依次将所述关键文本信息和所述特征语句输入至所述检测模型中,得到表征所述待测文本是否被篡改的结果。
作为一种实施方式,若所述特征语句的数量为至少两条,S14包括步骤:C1、C2和C3。
C1:根据相关性的大小,按照从大到小的顺序对至少两条所述特征语句进行排序,得到一条排序后的语句。
其中,在本实施例中,根据相关性的大小,按照从大到小的顺序对至少两条所述特征语句进行排序,并以逗号或者分号将各条所述特征语句分开,得到排序后的语句。
在得到排序后的语句之后,执行步骤C2。
C2:根据预先确定的字符输入长度,从所述排序后的语句中确定出排序结果靠前,且长度等于所述字符输入长度的目标语句。
例如,所述预先确定的字符输入长度为6,所述排序后的语句为:今天天气多云,我要去打羽毛球,去逛街。那么所述目标语句为:今天天气多云。
C3:将所述目标语句输入至所述检测模型中,得到表征所述待测的文本是否被篡改的结果。
其中,在本实施例中,所述检测模型可以为谷歌公司在2019年开源的NLP预训练模型Albert模型,在其他实施例中,所述检测模型也可以为其他用于检测文本是否被篡改的分类模型,例如Bert模型。
Albert模型使用了目前NLP领域最前沿的技术,如Transformer、self-attention。Albert模型对输入的文本数据进行了:词编码特征的嵌入、位置编码特征的嵌入、句子编码特征的嵌入,更好地捕获了文本信息,从而提高分类精度,与Bert模型相比,Albert模型具有参数少,预测时间更短,性能更好的优点,因此,本实施例采用Albert模型进行待测文本的篡改检测。
作为一种实施方式,所述方法还包括步骤:D1、D2和D3。
D1:建立待训练的检测模型。
其中,在本实施中,所述待训练的检测模型为Albert模型,在其他实施例中,所述待训练的检测模型也可以为Bert模型。
D2:获取多个待训练的文本样本和表征各个待训练的文本样本是否被篡改的标签;所述多个待训练的文本样本包括:包含篡改信息的文本样本,以及未包含篡改信息的文本样本。
作为一种实施方式,所述多个待训练的文本样本中包括:各种篡改类型的文本样本。
D3:基于所述多个待训练的文本样本,以及与各个待训练的文本样本对应的标签,对所述待训练的检测模型进行训练。
针对所述多个待训练的文本样本中的每个待训练的文本样本,基于预定关键字段,从该待训练的文本样本中提取出与所述预定关键字段对应的目标文本信息;从该待训练的文本样本中,提取出与所述目标文本信息相关的目标特征语句,继而利用所述目标特征语句和与该待训练的文本样本对应的标签,对所述待训练的检测模型进行训练。
其中,利所述目标特征语句和与该待训练的文本样本对应的标签,对所述待训练的检测模型进行训练的具体实施方式为本领域熟知技术,因此,在此不再赘述。
请参照图2,图2是本申请实施例提供的一种检测装置200的结构框图。下面将对图2所示的结构框图进行阐述,所示装置包括:
获取单元210,用于获取待测文本。
文本信息提取单元220,用于基于预定关键字段,从所述待测文本中提取出与所述预定关键字段对应的关键文本信息。
特征语句提取单元230,用于从所述待测文本中,提取出与所述关键文本信息相关的特征语句。
检测单元240,用于将所述特征语句输入至预先训练好的检测模型中,得到表征所述待测文本是否被篡改的结果。
作为一种实施方式,所述特征语句提取单元230,包括:分句单元,用于对所述待测文本进行分句处理,得到多个语句;相关性确定单元,用于针对所述多个语句中的每个语句,确定该语句与所述关键文本信息的相关性;特征语句提取子单元,用于从所述多个语句中,提取出相关性大于预设值的特征语句。
作为一种实施方式,所述特征语句提取子单元,具体用于从所述多个语句中,提取出相关性大于预设值的多条待选特征语句;以及根据相关性大小,按照从大到小的顺序对所述多条待选特征语句进行排序;根据排序结果,从所述多条待选特征语句中确定出相关性排序位于前预设位的至少两条特征语句。
作为一种实施方式,所述检测单元240,具体用于将所述特征语句和所述关键文本信息输入至所述检测模型中,得到表征所述待测文本是否被篡改的结果。
作为一种实施方式,若所述特征语句的数量为至少两条;所述检测单元240,还用于根据相关性的大小,按照从大到小的顺序对至少两条所述特征语句进行排序,得到一条排序后的语句;以及根据预先确定的字符输入长度,从所述排序后的语句中确定出排序结果靠前,且长度等于所述字符输入长度的目标语句;将所述目标语句输入至所述检测模型中,得到表征所述待测的文本是否被篡改的结果。
作为一种实施方式,所述获取单元210,具体用于获取待检测的原始文本;以及从所述待检测的原始文本中,删除ASCII值不满足预设条件的字符,得到所述待测文本。
作为一种实施方式,所述装置还包括:模型训练单元,用于建立待训练的检测模型;以及获取多个待训练的文本样本和表征各个待训练的文本样本是否被篡改的标签;所述多个待训练的文本样本包括:包含篡改信息的文本样本,以及未包含篡改信息的文本样本;基于所述多个待训练的文本样本,以及与各个待训练的文本样本对应的标签,对所述待训练的检测模型进行训练。
本实施例对的各功能单元实现各自功能的过程,请参见上述图1所示实施例中描述的内容,此处不再赘述。
请参照图3,图3为本申请实施例提供的一种电子设备300的结构示意图,电子设备300可以为上述实施例中的站点服务器,电子设备300可以是个人电脑(personalcomputer,PC)、平板电脑、智能手机、个人数字助理(personal digital assistant,PDA)等。
电子设备300可以包括:存储器302、处理301、通信接口303和通信总线,通信总线用于实现这些组件的连接通信。
所述存储器302用于存储本申请实施例提供的检测方法和装置对应的计算程序指令等各种数据,其中,存储器302可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。
处理器301用于读取并运行存储于存储器中的检测方法和装置对应的计算机程序指令,以获取待测文本;基于预定关键字段,从所述待测文本中提取出与所述预定关键字段对应的关键文本信息;从所述待测文本中,提取出与所述关键文本信息相关的特征语句;将所述特征语句输入至预先训练好的检测模型中,得到表征所述待测文本是否被篡改的结果。
其中,处理器301可能是一种集成电路芯片,具有信号的处理能力。上述的处理器301可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
通信接口303,用于接收或者发送数据。
此外,本申请实施例还提供了一种存储介质,在该存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行本申请任一项实施方式所提供的方法。
综上所述,本申请各实施例提出的检测方法、装置、电子设备及存储介质,在获取到待测文本之后,基于预定关键字段,从所述待测文本中快速地提取出与所述预定关键字段对应的关键文本信息,继而从所述待测文本中,提取出与所述关键文本信息相关的特征语句,并将所述特征语句输入至预先训练好的检测模型中进行检测,与利用完整的待测文本来进行篡改检测相比,极大地降低检测复杂度;其次,由于若一个文本被篡改,那么与该文本的关键字段相关的语句通常会包括篡改后的信息,因此,利用特征语句能够准确地检测出待测文本是否被篡改。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的装置来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
Claims (10)
1.一种检测方法,其特征在于,所述方法包括:
获取待测文本;
基于预定关键字段,从所述待测文本中提取出与所述预定关键字段对应的关键文本信息;
从所述待测文本中,提取出与所述关键文本信息相关的特征语句;
将所述特征语句输入至预先训练好的检测模型中,得到表征所述待测文本是否被篡改的结果。
2.根据权利要求1所述的方法,其特征在于,所述从所述待测文本中,提取出与所述关键文本信息相关的特征语句,包括:
对所述待测文本进行分句处理,得到多个语句;
针对所述多个语句中的每个语句,确定该语句与所述关键文本信息的相关性;
从所述多个语句中,提取出相关性大于预设值的特征语句。
3.根据权利要求2所述的方法,其特征在于,所述从所述多个语句中,提取出相关性大于预设值的特征语句,包括:
从所述多个语句中,提取出相关性大于预设值的多条待选特征语句;
根据相关性大小,按照从大到小的顺序对所述多条待选特征语句进行排序;
根据排序结果,从所述多条待选特征语句中确定出相关性排序位于前预设位的至少两条特征语句。
4.根据权利要求1所述的方法,其特征在于,所述将所述特征语句输入至预先训练好的检测模型中,得到表征所述待测文本是否被篡改的结果,包括:
将所述特征语句和所述关键文本信息输入至所述检测模型中,得到表征所述待测文本是否被篡改的结果。
5.根据权利要求1所述的方法,其特征在于,若所述特征语句的数量为至少两条;所述将所述特征语句输入至预先训练好的检测模型中,得到表征所述待测的文本是否被篡改的结果,包括:
根据相关性的大小,按照从大到小的顺序对至少两条所述特征语句进行排序,得到一条排序后的语句;
根据预先确定的字符输入长度,从所述排序后的语句中确定出排序结果靠前,且长度等于所述字符输入长度的目标语句;
将所述目标语句输入至所述检测模型中,得到表征所述待测的文本是否被篡改的结果。
6.根据权利要求1所述的方法,其特征在于,所述获取待测文本,包括:
获取待检测的原始文本;
从所述待检测的原始文本中,删除ASCII值不满足预设条件的字符,得到所述待测文本。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
建立待训练的检测模型;
获取多个待训练的文本样本和表征各个待训练的文本样本是否被篡改的标签;所述多个待训练的文本样本包括:包含篡改信息的文本样本,以及未包含篡改信息的文本样本;
基于所述多个待训练的文本样本,以及与各个待训练的文本样本对应的标签,对所述待训练的检测模型进行训练。
8.一种检测装置,其特征在于,所述装置包括:
获取单元,用于获取待测文本;
文本信息提取单元,用于基于预定关键字段,从所述待测文本中提取出与所述预定关键字段对应的关键文本信息;
特征语句提取单,用于从所述待测文本中,提取出与所述关键文本信息相关的特征语句;
检测单元,用于将所述特征语句输入至预先训练好的检测模型中,得到表征所述待测文本是否被篡改的结果。
9.一种电子设备,其特征在于,包括存储器以及处理器,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器读取并运行时,执行如权利要求1-7中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序指令,所述计算机程序指令被计算机读取并运行时,执行如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010868070.4A CN111950037A (zh) | 2020-08-25 | 2020-08-25 | 检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010868070.4A CN111950037A (zh) | 2020-08-25 | 2020-08-25 | 检测方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111950037A true CN111950037A (zh) | 2020-11-17 |
Family
ID=73366547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010868070.4A Pending CN111950037A (zh) | 2020-08-25 | 2020-08-25 | 检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111950037A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818002A (zh) * | 2021-01-10 | 2021-05-18 | 温州市特种设备检测科学研究院(温州市特种设备应急处置中心) | 一种基于防坠安全器性能的检测数据管理方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106598997A (zh) * | 2015-10-19 | 2017-04-26 | 北京国双科技有限公司 | 一种计算文本主题归属度的方法及装置 |
CN107885870A (zh) * | 2017-11-24 | 2018-04-06 | 北京神州泰岳软件股份有限公司 | 一种业务文档公式提取方法及装置 |
US20190156486A1 (en) * | 2016-12-30 | 2019-05-23 | Ping An Technology (Shenzhen) Co., Ltd. | Method and system of detecting image tampering, electronic device and storage medium |
CN111488623A (zh) * | 2019-01-25 | 2020-08-04 | 深信服科技股份有限公司 | 一种网页篡改检测方法及相关装置 |
-
2020
- 2020-08-25 CN CN202010868070.4A patent/CN111950037A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106598997A (zh) * | 2015-10-19 | 2017-04-26 | 北京国双科技有限公司 | 一种计算文本主题归属度的方法及装置 |
US20190156486A1 (en) * | 2016-12-30 | 2019-05-23 | Ping An Technology (Shenzhen) Co., Ltd. | Method and system of detecting image tampering, electronic device and storage medium |
CN107885870A (zh) * | 2017-11-24 | 2018-04-06 | 北京神州泰岳软件股份有限公司 | 一种业务文档公式提取方法及装置 |
CN111488623A (zh) * | 2019-01-25 | 2020-08-04 | 深信服科技股份有限公司 | 一种网页篡改检测方法及相关装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818002A (zh) * | 2021-01-10 | 2021-05-18 | 温州市特种设备检测科学研究院(温州市特种设备应急处置中心) | 一种基于防坠安全器性能的检测数据管理方法及装置 |
CN112818002B (zh) * | 2021-01-10 | 2022-12-27 | 温州市特种设备检测科学研究院(温州市特种设备应急处置中心) | 一种基于防坠安全器性能的检测数据管理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020424B (zh) | 合同信息的提取方法、装置和文本信息的提取方法 | |
CN113822067A (zh) | 关键信息提取方法、装置、计算机设备及存储介质 | |
CN110602045B (zh) | 一种基于特征融合和机器学习的恶意网页识别方法 | |
CN111176996A (zh) | 测试用例生成方法、装置、计算机设备及存储介质 | |
CN110941702A (zh) | 一种法律法规和法条的检索方法及装置、可读存储介质 | |
CN111291551B (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN110737770B (zh) | 文本数据敏感性识别方法、装置、电子设备及存储介质 | |
CN112579781B (zh) | 文本归类方法、装置、电子设备及介质 | |
CN113869789A (zh) | 一种风险监控的方法、装置、计算机设备及存储介质 | |
CN111950037A (zh) | 检测方法、装置、电子设备及存储介质 | |
CN112231696A (zh) | 恶意样本的识别方法、装置、计算设备以及介质 | |
CN115150354B (zh) | 一种生成域名的方法、装置、存储介质及电子设备 | |
CN115186240A (zh) | 基于关联性信息的社交网络用户对齐方法、装置、介质 | |
CN111382383A (zh) | 网页内容敏感类型确定方法、装置、介质和计算机设备 | |
CN111581950B (zh) | 同义名称词的确定方法和同义名称词的知识库的建立方法 | |
CN111259259B (zh) | 大学生新闻推荐方法、装置、设备及存储介质 | |
CN114021064A (zh) | 网站分类方法、装置、设备及存储介质 | |
CN114595309A (zh) | 一种培训装置实现方法及系统 | |
CN112949299A (zh) | 新闻稿件的生成方法及装置、存储介质、电子装置 | |
CN112749258A (zh) | 数据搜索的方法和装置、电子设备和存储介质 | |
CN113553839B (zh) | 一种文本原创识别方法、装置、电子设备及存储介质 | |
CN113176878B (zh) | 自动查询方法、装置和设备 | |
CN111310465B (zh) | 平行语料获取方法、装置、电子设备、及存储介质 | |
CN111259237B (zh) | 一种用于公众有害信息的识别方法 | |
CN117992966A (zh) | 漏洞检测方法、模型训练方法及对应装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |