CN108038101A

CN108038101A - 一种篡改文本的识别方法及装置

Info

Publication number: CN108038101A
Application number: CN201711286637.1A
Authority: CN
Inventors: 王树太; 李�杰; 吴庆
Original assignee: Hangzhou DPTech Technologies Co Ltd
Current assignee: Hangzhou DPtech Information Technology Co Ltd
Priority date: 2017-12-07
Filing date: 2017-12-07
Publication date: 2018-05-15
Anticipated expiration: 2037-12-07
Also published as: CN108038101B

Abstract

本申请提供一种篡改文本的识别方法及装置。一种篡改文本的识别方法，包括：根据已建立的语义库，识别目标文本所属的领域，所述语义库中保存有参考词汇与各领域的关联度；当所述目标文本所属的领域与目标领域不相同时，确定所述目标文本被篡改。本申请可提高对篡改文本的识别效率。

Description

一种篡改文本的识别方法及装置

技术领域

本申请涉及互联网领域，尤其涉及一种篡改文本的识别方法及装置。

背景技术

随着信息化的发展，大多数企业通常会在自己的官网上发布本企业所涉及的业务等信息，例如一互联网公司会在本公司官网上发布本公司在互联网领域的相关业务信息等，用于向客户介绍企业业务以及进行企业宣传。

但随之而来的是，不免会存在一些恶意用户通过盗取管理员账号在企业官网发布虚假信息，或者发布违背企业发布者意图的信息，这样的恶意攻击事件将极有可能给企业造成不良影响。

现有技术中，可通过人工对要发布的信息进行审核，在确定上述信息正常后方可允许发布该信息。此外，网站也可通过自动向用户发送短信等方式对用户身份进行验证，身份验证通过后可允许用户发布信息。从而可避免恶意用户的攻击。

但采用现有技术人工审核的方案，审核效率较低；而采用短信等方式验证用户身份的方案，对企业来说，网站的使用较为繁琐，并且网站的维护成本较高。

发明内容

有鉴于此，本申请提供一种篡改文本的识别方法及装置，以提高对篡改文本的识别效率。

具体地，本申请是通过如下技术方案实现的：

一种篡改文本的识别方法，包括：

根据已建立的语义库，识别目标文本所属的领域，所述语义库中保存有参考词汇与各领域的关联度；

当所述目标文本所属的领域与目标领域不相同时，确定所述目标文本被篡改。

可选的，所述根据已建立的语义库，识别目标文本所属的领域，包括：

根据已建立的语义库，计算所述目标文本与各领域的目标交叉度；

将最大目标交叉度对应的领域确定为所述目标文本所属的领域。

可选的，所述方法还包括：

当所述目标文本所属的领域与所述目标领域相同，且所述最大目标交叉度大于等于参考交叉度时，确定所述目标文本未被篡改；

所述参考交叉度是所述目标领域中参考文本与所述目标领域的交叉度。

可选的，所述方法还包括：

当所述目标文本所属的领域与所述目标领域相同，但所述最大目标交叉度小于所述参考交叉度时，判断所述最大目标交叉度与所述参考交叉度的方差是否在第一预设范围内；

若在所述第一预设范围内，则确定所述目标文本未被篡改；

若不在所述第一预设范围内，则确定所述目标文本被篡改。

可选的，所述方法还包括：

根据所述语义库，计算所述目标文本与非目标领域的目标外延度；

当所述最大目标交叉度与所述参考交叉度的方差在第一预设范围内时，判断所述目标外延度与参考外延度的方差是否在第二预设范围内，所述参考外延度是所述目标领域中参考文本与所述非目标领域的外延度；

若在所述第二预设范围内，则确定所述目标文本未被篡改；

若不在所述第二预设范围内，则确定所述目标文本被篡改。

可选的，所述语义库的建立过程包括：

分别将各领域参考文本进行分词，并根据词性和词义对分词结果进行筛选，以获取所述各领域参考文本中的参考词汇；

针对每个领域，计算该领域参考文本中参考词汇出现的概率，将所述概率作为所述参考词汇与该领域的关联度进行保存。

一种篡改文本的识别装置，包括：

识别模块，用于根据已建立的语义库，识别目标文本所属的领域，所述语义库中保存有参考词汇与各领域的关联度；

确定模块，用于在识别出所述目标文本所属的领域与目标领域不相同时，确定所述目标文本被篡改。

可选的，所述识别模块，还用于：

可选的，所述确定模块，还用于：

若在所述第一预设范围内，则确定所述目标文本未被篡改；

若不在所述第一预设范围内，则确定所述目标文本被篡改。

可选的，所述装置还包括：

第一计算模块，用于根据所述语义库，计算所述目标文本与非目标领域的目标外延度；

判断模块，用于当所述最大目标交叉度与所述参考交叉度的方差在第一预设范围内时，判断所述目标外延度与参考外延度的方差是否在第二预设范围内，所述参考外延度是所述目标领域中参考文本与所述非目标领域的外延度；

若在所述第二预设范围内，则确定所述目标文本未被篡改；

若不在所述第二预设范围内，则确定所述目标文本被篡改。

可选的，所述所述装置还包括：

筛选模块，用于分别将各领域参考文本进行分词，并根据词性和词义对分词结果进行筛选，以获取所述各领域参考文本中的参考词汇；

第二计算模块，用于针对每个领域，计算该领域参考文本中参考词汇出现的概率，将所述概率作为所述参考词汇与该领域的关联度进行保存。

本申请的技术方案，可通过查找预先建立的语义库，识别目标文本所属的领域，并可在识别出目标文本所属的领域与目标领域不相同时，确定该目标文本被篡改。与现有技术相比，一方面，本申请技术方案可自动对目标文本进行识别，无需管理员人工审核，因此提高了识别效率；另一方面，整个识别过程可无需用户参与，提升了网站的易用性。

附图说明

图1是本申请实施例示出的一种篡改文本的识别方法流程图；

图2是本申请实施例示出的一种网管设备的硬件结构图；

图3是本申请实施例示出的一种篡改文本的识别装置的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

现有技术中，通常通过人工对发布的信息进行审核，在确定上述信息正常后方可允许发布上述信息。此外，网站也可通过自动向用户发送短信等方式对用户身份进行验证，身份验证通过后可允许用户发布信息。从而可避免恶意用户的攻击。

因此，为了解决上述问题，本申请提供了一种篡改文本的识别方法，根据预先建立的语义库，识别目标文本所属的领域，当确定目标文本所属的领域与目标领域不相同时，即可确定目标文本被篡改。与现有技术相比，本申请可自动对目标文本进行识别，无需管理员人工审核，因此提高了识别效率；另一方面，整个识别过程可无需用户参与，提升了网站的易用性。

下面将结合具体实施例对本申请的实现过程进行描述。

请参考图1，图1所示为本申请实施例示出的一种篡改文本的识别方法的流程图，该方法可用于网管设备，例如，网站服务器。其中，该方法可以包括以下步骤：

S101，根据人工预选的各领域参考文本建立语义库。

在本申请实施例中，为满足不同领域的网站的需求，可先人工选取不同领域的若干文本作为参考文本，例如，可选取军事领域、科技领域、教育领域、金融领域等常见领域的相关文本，之后可将上述不同领域的参考文本分别导入网管设备。

当网管设备接收到人工导入的上述参考文本时，以该参考文本属于军事领域为例，可利用词法分析、语法分析等对上述军事领域的参考文本进行分词，之后根据词性和词义对分词结果进行筛选，从而获取该军事领域参考文本中的参考词汇，并计算军事领域的参考文本中参考词汇出现的概率。在完成军事领域的参考文本的处理后，可继续对接收到的其它领域的参考文本进行处理，并分别计算其它领域参考文本中参考词汇出现的概率，用于建立语义库。

为了详细描述语义库的建立过程，下面将以人工导入的军事领域的参考文本为例。例如，该参考文本中一语句：“军用飞机是直接参与作战、保障作战和军事训练的飞机的总称，是航空部队的主要技术装备...”。利用词法分析、语法分析对上述文本进行处理，例如，可将“军用飞机是直接参与作战”进行分词得到“军用飞机”、“是”、“直接”、“参与”、“作战”等词汇，之后可根据词性和词义对所得到的上述词汇进行筛选，可筛选掉一些对领域的区分无实际作用的副词如“直接”以及动词如“是”、“参与”等，剩余的词汇可作为参考词汇，如“军用飞机”、“作战”。

在获取上述文本中的参考词汇后，可根据上述文本中某一参考词汇出现的次数及从上述文本中获取的参考词汇的总个数，计算出上述参考词汇出现的概率。假设从上述军事领域的文本中共获取了100个参考词汇，其中，上述文本中“军用飞机”出现的次数为30，则可算得“军用飞机”这一参考词汇出现的概率为0.3，由此可得到“军用飞机”这一参考词汇与军事领域的关联度为0.3。同理可一一得到上述文本中其它参考词汇与军事领域的关联度。

需要说明的是，当文本中出现2个意思相同的参考词汇时，例如“军队”和“部队”，可将这2个参考词汇当作2个均为“军队”的参考词汇，或2个均为“部队”的参考词汇。另外，在计算上述文本中参考词汇的总个数时，可将2个均为“军队”的参考词汇，当作2个参考词汇计数。

此外，对其它领域的参考文本的处理方法与上述对军事领域的参考文本的处理方法相同，可参照上述描述得到其它领域参考文本中的参考词汇与相应领域的关联度，在此不再赘述。

当完成各领域参考文本中参考词汇与各领域关联度的计算后，即可根据所得的关联度，建立语义库，可假设建立的语义库如表1所示。

表1

需要说明的是，表1仅为示例性说明，除了表中所示的领域外，还可以根据需要增添其它领域，比如体育领域等，此处不作限定。

S102，根据所述语义库，识别目标文本所属的领域。

S103，判断所述目标文本所属的领域是否与目标领域相同。

在建立了表1所示的语义库后，后续当接收到用户发布的目标文本时，可利用词法分析、语法分析对该目标文本进行分词，并根据词性和词义对分词结果进行筛选，获取该目标文本中的参考词汇，之后基于所获取的上述参考词汇查找表1，根据所查找到的对应参考词汇与各领域的关联度，计算该目标文本与表1中各领域的目标交叉度。

假设从上述目标文本中获取的参考词汇包括“军队”和“作战”，查找表1可知，“军队”和“作战”与军事领域的关联度分别为0.25和0.35，与科技领域的关联度分别为0.01和0.01，与教育领域的关联度分别为0.05和0.02，与金融领域的关联度分别为0.01和0.01。由此可算得该目标文本与各领域的目标交叉度如表2所示，其中，该目标文本与军事领域的目标交叉度为上述2个参考词汇与军事领域的关联度之和，即0.25+0.35＝0.6，同理，与科技领域的目标交叉度为0.01+0.01＝0.02，与教育领域的目标交叉度为0.05+0.02＝0.07，与金融领域的目标交叉度为0.01+0.01＝0.02。

需要说明的是，当一个参考词汇多次出现时，例如目标文本中出现3个“军队”，一个“作战”，在计算目标交叉度时，仅将一个“军队”对应的关联度与“作战”对应的关联度相加。

领域	军事	科技	教育	金融
					目标交叉度	0.6	0.02	0.07	0.02

表2

根据上述算得的目标交叉度可知，该目标文本与军事领域的目标交叉度最大，可确定该目标文本属于军事领域。

当确定目标文本所属的领域后，可继续判断该目标文本所属的领域与目标领域是否相同，若不相同，则执行步骤S107，确定该目标文本被篡改；若相同，则可进一步执行步骤S104。

其中，上述目标领域是指用户发布上述目标文本的网站所属的领域，例如，用户在某军事网站发布目标文本，则目标领域为军事领域。

S104，判断所述目标文本与目标领域的交叉度是否大于等于参考交叉度。

当确定上述目标文本所属的领域与目标领域相同，例如均为军事领域时，可进一步判断上述目标文本与军事领域的目标交叉度是否大于等于参考交叉度，若是，则可执行步骤S106，确定该目标文本未被篡改，并允许发布该目标文本；若否，则可继续执行步骤S105。

对于上述参考交叉度，是指目标领域中参考文本与目标领域的交叉度。其中，参考文本是目标领域中已发布的未被篡改的文本，上述文本可以是经人工审核，确定上述文本未被篡改后，发布在目标领域的，也可以是指定的目标领域的文本，此处不作限定。

关于参考交叉度的计算，与目标交叉度的计算相同，通过对参考文本进行分词，并对分词结果进行筛选，获取参考文本中的参考词汇，之后根据上述参考词汇查找表1所示的语义库，计算上述参考文本与各领域的参考交叉度，具体的计算过程可参考上述对目标交叉度的相关描述，此处不再赘述。

可假设算得的参考文本与各领域的参考交叉度如表3所示，当目标领域为军事领域时，可确定该参考文本与军事领域的参考交叉度为0.65，即与目标领域的参考交叉度为0.65。

领域	军事	科技	教育	金融
					参考交叉度	0.65	0.03	0.03	0.02

表3

S105，判断目标文本与目标领域的目标交叉度的方差是否在第一预设范围内。

S106，确定所述目标文本未被篡改。

S107，确定所述目标文本被篡改。

当确定上述目标文本所属的领域与目标领域相同，且目标文本与目标领域的目标交叉度小于参考交叉度时，还可进一步判断上述目标交叉度与参考交叉度的方差是否在第一预设范围内，若是，则可执行步骤S106，确定该目标文本未被篡改，并发布该目标文本；若否，则可执行步骤S107，确定该目标文本可能被篡改，为进一步确保识别结果的准确度，此时可发出提醒，通知管理员对该目标文本进行人工审核。当人工审核通过后，才允许发布上述目标文本。

其中，上述第一预设范围可根据实际需求设定，如欲使得识别结果的准确度较高，可设定第一预设范围为一个较小范围，例如，可设定为0～0.02，也可设定为0～0.05，此处不作限定。

上述目标交叉度与参考交叉度的方差的具体判断过程，仍以步骤S103示出的目标文本为例进行说明，上述目标文本所属的领域为军事领域，且与军事领域的目标交叉度为0.6，假设目标领域也为军事领域，根据表3知，目标领域的参考交叉度为0.65。因目标文本与目标领域的目标交叉度0.6小于参考交叉度为0.65，此时可进一步计算上述目标交叉度与参考交叉度的方差D₁，可得，D₁＝(0.6-0.65)²＝0.0025。假设设定的第一预设范围为0～0.02，可知，方差D₁在0～0.02范围内，因此可确定上述目标文本未被篡改，可发布上述目标文本。

在本申请中，可通过对导入的参考文本进行分词，并对分词结果进行筛选，以从参考文本中获取参考词汇，并计算上述参考词汇与上述参考文本所属的领域的关联度，用以建立语义库。之后在接收到目标文本时，可基于从上述目标文本中获取的参考词汇，查找已建立的语义库，并计算上述目标文本与各领域的目标交叉度，以及根据上述目标交叉度，识别上述目标文本所属的领域，并可在识别出上述目标文本所属的领域与目标领域不相同时，确定目标文本被篡改。而当上述目标文本所属的领域与目标领域相同时，可进一步判断上述目标文本与目标领域的目标交叉度是否大于等于参考交叉度，若是，则可确定目标文本未被篡改；若否，则可继续判断上述目标交叉度与参考交叉度的方差是否在第一预设范围内，若是，则可确定目标文本未被篡改；若否，则可确定目标文本被篡改。

与现有技术相比，本申请的技术方案，在接收到目标文本后，可自动对目标文本进行识别，无需管理员人工审核，因此提高了识别效率；另外，整个识别过程可无需用户参与，提升了网站的易用性。

此外，为进一步确保识别结果的准确度，在本申请优选实施例中，还可在上述目标交叉度与参考交叉度的方差在第一预设范围内时，进一步计算上述目标文本与非目标领域的目标外延度，并判断上述目标外延度与参考外延度的方差是否在第二预设范围内。若是，则确定上述目标文本未被篡改；若否，则确定上述目标文本被篡改。

上述第二预设范围可以与第一预设范围相同，也可以不同，此处不作限定。

此外，对于目标领域为军事领域的上述目标文本来说，表2中的科技领域、教育领域、金融领域即为上述目标文本的非目标领域，并且可将表2中上述目标文本与科技领域、教育领域、金融领域的目标交叉度之和作为上述目标文本与非目标领域的目标外延度，即上述目标文本与非目标领域的目标外延度为0.11。

对于上述参考外延度，是指目标领域中参考文本与非目标领域的外延度。当目标领域为军事领域时，参考外延度为表3中参考文本与科技领域、教育领域、金融领域的参考交叉度之和，即参考外延度为0.08。

计算上述目标外延度与参考外延度的方差D₂，可得，D_2＝(0.11-0.08)²＝0.0009，此处假设设定的第二预设范围仍为0～0.02，可知D₂在0～0.02范围内，由此可确定上述目标文本未被篡改，可发布上述目标文本。

本申请在目标交叉度与参考交叉度的方差满足第一预设范围时，还可进一步根据目标外延度进行目标文本的二次识别，从而可确保识别结果的准确度。

与前述一种篡改文本的识别方法的实施例相对应，本申请还提供了一种篡改文本的识别装置的实施例。

本申请一种篡改文本的识别装置的实施例可以应用在网管设备上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在网管设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图2所示，为本申请一种篡改文本的识别装置所在网管设备的一种硬件结构图，除了图2所示的处理器、内存、网络出接口、以及非易失性存储器之外，实施例中装置所在的网管设备通常根据该网管设备的实际功能，还可以包括其他硬件，对此不再赘述。

请参考图3，图3所示为本申请实施例示出的一种篡改文本的识别装置的结构示意图，该装置可包括以下模块：

筛选模块310，用于分别将各领域参考文本进行分词，并根据词性和词义对分词结果进行筛选，以获取所述各领域参考文本中的参考词汇；

第二计算模块320，用于针对每个领域，计算该领域参考文本中参考词汇出现的概率，将所述概率作为所述参考词汇与该领域的关联度进行保存。

识别模块330，用于根据已建立的语义库，识别目标文本所属的领域，所述语义库中保存有参考词汇与各领域的关联度；

确定模块340，用于在识别出所述目标文本所属的领域与目标领域不相同时，确定所述目标文本被篡改。

在本申请实施例中，所述识别模块330，还用于：

在本申请实施例中，所述确定模块340，还用于：

若在所述第一预设范围内，则确定所述目标文本未被篡改；

若不在所述第一预设范围内，则确定所述目标文本被篡改。

在本申请优选实施例中，所述装置还包括：

第一计算模块350，用于根据所述语义库，计算所述目标文本与非目标领域的目标外延度；

判断模块360，用于当所述最大目标交叉度与所述参考交叉度的方差在第一预设范围内时，判断所述目标外延度与参考外延度的方差是否在第二预设范围内，所述参考外延度是所述目标领域中参考文本与所述非目标领域的外延度；

若在所述第二预设范围内，则确定所述目标文本未被篡改；

若不在所述第二预设范围内，则确定所述目标文本被篡改。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种篡改文本的识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据已建立的语义库，识别目标文本所属的领域，包括：

3.根据权利要求1所述的方法，其特征在于，还包括：

4.根据权利要求3所述的方法，其特征在于，还包括：

若在所述第一预设范围内，则确定所述目标文本未被篡改；

若不在所述第一预设范围内，则确定所述目标文本被篡改。

5.根据权利要求4所述的方法，其特征在于，还包括：

若在所述第二预设范围内，则确定所述目标文本未被篡改；

若不在所述第二预设范围内，则确定所述目标文本被篡改。

6.根据权利要求1所述的方法，其特征在于，所述语义库的建立过程包括：

7.一种篡改文本的识别装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述识别模块，还用于：

9.根据权利要求7所述的装置，其特征在于，所述确定模块，还用于：

10.根据权利要求9所述的装置，其特征在于，所述确定模块，还用于：

若在所述第一预设范围内，则确定所述目标文本未被篡改；

若不在所述第一预设范围内，则确定所述目标文本被篡改。

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

若在所述第二预设范围内，则确定所述目标文本未被篡改；

若不在所述第二预设范围内，则确定所述目标文本被篡改。

12.根据权利要求7所述的装置，其特征在于，所述装置还包括：