CN113239224A

CN113239224A - 异常文档识别方法、装置、设备和存储介质

Info

Publication number: CN113239224A
Application number: CN202110529816.3A
Authority: CN
Inventors: 张欢; 熊俊峰; 王洋
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2021-08-10

Abstract

本公开提供了一种异常文档识别方法、装置、设备和存储介质，涉及人工智能技术领域，尤其涉及智能搜索和计算机视觉技术。具体实现方案为：获取待识别文档中的待检索图片；将所述待检索图片与预设检索库中至少一个敏感剪切图进行特征匹配；其中，所述敏感剪切图为携带有敏感信息的目标图片的切分处理结果；根据匹配结果，确定所述待识别文档是否为异常文档。本公开为通过拼接图携带敏感信息，绕过敏感信息审核的异常文档提供了一种新的审核思路，降低了异常文档的漏识别率，进而提高了异常文档识别结果的准确度。

Description

异常文档识别方法、装置、设备和存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及智能搜索和计算机视觉技术。

背景技术

网络黑产是指在互联网上通过非正当途径和非正当手段而获得的产业或经济等方面的利益。

为了避免网络黑产给网络秩序及网络安全等方面带来的干扰，网络平台通常设置有审核机制，以对用户上传的文档信息进行异常审核。

发明内容

本公开提供了一种异常文档识别方法、装置、设备和存储介质。

根据本公开的一方面，提供了一种异常文档识别方法，包括：

获取待识别文档中的待检索图片；

将所述待检索图片与预设检索库中至少一个敏感剪切图进行特征匹配；其中，所述敏感剪切图为携带有敏感信息的目标图片的切分处理结果；

根据匹配结果，确定所述待识别文档是否为异常文档。

根据本公开的另一方面，还提供了一种异常文档识别装置，包括：

待检索图片获取模块，用于获取待识别文档中的待检索图片；

特征匹配模块，用于将所述待检索图片与预设检索库中至少一个敏感剪切图进行特征匹配；其中，所述敏感剪切图为携带有敏感信息的目标图片的切分处理结果；

异常文档确定模块，用于根据匹配结果，确定所述待识别文档是否为异常文档。

根据本公开的另一方面，还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开实施例提供的任意一种异常文档识别方法。

根据本公开的另一方面，还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开实施例提供的任意一种异常文档识别方法。

根据本公开的另一方面，还提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开实施例提供的任意一种异常文档识别方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例提供的一种异常文档识别方法的流程图；

图2是本公开实施例提供的另一种异常文档识别方法的流程图；

图3是本公开实施例提供的另一种异常文档识别方法的流程图；

图4是本公开实施例提供的另一种异常文档识别方法的流程图；

图5是本公开实施例提供的一种异常文档识别装置的结构图；

图6是用来实现本公开实施例的异常文档识别方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开涉及的各异常文档识别方法和异常文档识别装置，适用于对网络平台中内容包括至少一张图片的待识别文档进行异常识别的情况，所谓异常识别可以理解为敏感信息识别，也即待识别文档的图片中是否包括敏感信息。本公开中的各异常文档识别方法，可以由异常文档识别装置执行，该装置可以采用软件和/或硬件实现，并具体配置于电子设备中。该电子设备可以是网络平台的服务端，还可以与网络平台服务端通信连接，且专用于进行异常文档识别的其他设备。

为了便于理解，本公开首先对异常文档识别方法进行详细说明。

参见图1所示的一种异常文档识别方法，包括：

S101、获取待识别文档中的待检索图片。

其中，待识别文档可以理解为已上传网络平台，但尚未在网络平台传播的文档。若将网络平台中的文档的生命周期包括用户撰写并上传对应的生成阶段、对文档进行审核的审核阶段以及审核完成后的传播阶段。那么，待识别文档即为处于审核阶段的已生成文档。

其中，待识别文档中至少包括内容图片，可选的，待识别文档中还可以包括内容文字。本公开仅针对文档中的图片内容中是否包括敏感信息进行异常检测。图片内容可以是至少两张图片拼接后得到的完整图片中的内容。换言之，若待检索图片中包含有敏感信息的一部分。

举例而言，若敏感信息为非法网址，则待检索图片中仅包含非法网址的一部分，通过与其他图片按照设定顺序拼接，如“三宫格”或“九宫格”等，可以呈现完整的非法网址。

在一个可选实施例中，响应于用户在用户终端的文档上传请求，平台服务端获取用户已上传文档中的内容图片；平台服务端向执行异常文档识别方法的电子设备发送至少一个内容图片。相应的，该电子设备根据接收到的内容图片，确定待检索图片。

可选的，可以直接将接收到的内容图片作为待检索图片。或者，为了减少异常文档识别过程的数据运算量，可选的，还可以对内容图片进行初筛，将筛选后的内容图片，作为待检索图片。

在一个具体实现方式中，可以识别内容图片的类型；将包含文字的内容图片作为待检索图片。

S102、将待检索图片与预设检索库中至少一个敏感剪切图进行特征匹配；其中，敏感剪切图为携带有敏感信息的目标图片的切分处理结果。

其中，预设检索库中存储有多个敏感剪切图，至少两个敏感剪切图按照一定方式拼接后，可以呈现完整的敏感信息。

其中，敏感信息可以包括涉黄文字、涉政文字、涉暴文字、违规网址和违法网址等信息中的至少一种。

在一个可选实施例中，预设检索库中的图片可以通过以下方式得到：将携带有完整敏感信息的目标图片，按照设定方式切分得到的至少两个敏感剪切图得到。其中，切分得到的各敏感剪切图中均包括部分敏感信息。

可选的，可以将目标图片按照设定模板，均匀切分成设定数量的敏感剪切图。其中，设定模板可以由技术人员根据需要或经验值进行确定或调整，例如“1×3”、“3×1”、“1×4”、“2×2”、“2×3”、“3×2”和“3×3”等模板中的至少一种。

为了保证预设检索库中的敏感剪切图的图片大小一致性，可选的，还可以将各目标图片切分得到的敏感剪切图，统一进行缩放处理，以保证敏感剪切图的一致性。其中，缩放后的敏感剪切图的图片大小可以由技术人员根据需要或经验值进行设定或调整，还可以通过反复试验进行确定。

由于上述方式构建的敏感剪切图，与各网络平台中实际传播的敏感剪切图可能存在一定偏差。为了提高预设检索库中的敏感剪切图与实际传播的敏感剪切图的相似度，进而为异常文档识别结果的准确度奠定基础，在另一可选实施例中，还可以将识别到的网络传播的敏感剪切图添加至预设检索库中。其中，本公开对敏感剪切图的识别方式不作任何限定。

其中，预设检索库可以存储在执行异常文档识别方法的电子设备本地、与该电子设备关联的其他存储设备或云端中，并在需要进行异常文档识别时，从相应的存储位置进行预设检索库的查找使用。

由于不同目标图片对应的各敏感剪切图，可能存在部分敏感剪切图相同的情况。为了避免相同敏感剪切图的存储带来存储量的浪费，同时避免相同敏感剪切图带来特征匹配过程数据运算量的增加，在一个可选实施例中，可以对预设检索库中的敏感剪切图进行去重处理。

示例性的，将待检索图片与预设检索库中至少一个敏感剪切图进行特征匹配，可以是：确定待检索图片的第一特征数据与预设检索库中的敏感剪切图的特征数据的第二特征数据；确定第一特征数据与第二特征数据的相似度；若相似度大于设定相似度阈值，则匹配成功；否则，匹配失败。其中，设定相似度阈值可以由技术人员根据需要或经验值进行确定，或通过大量试验反复确定。

为了避免特征数据的重复计算，还可以在预设检索库中存储各敏感剪切图的特征数据，从而在进行特征匹配时，仅进行待检索图片的特征提取得到第一特征数据，以及从预设检索库中获取敏感剪切图的第二特征数据即可。

示例性的，将待检索图片与预设检索库中至少一个敏感剪切图进行特征匹配，可以是：识别待检索图片中的文字区域；根据文字区域对待检索图片进行剪裁和/或缩放处理，以更新待检索图片；将更新后的待检索图片与预设检索库中至少一个敏感剪切图进行特征匹配。

在一个可选实现方式中，采用OCR(光学字符识别，Optical CharacterRecognition)技术对待检索图片进行文字区域识别；确定包括文字区域的剪裁区域；根据该裁剪区域对待检索图片进行剪裁处理，以更新待检索图片。

在另一可选实现方式中，将待检索图片进行缩放处理，以使待检索图片与预设检索库中的敏感剪切图的图片大小相一致。其中，该待检索图片可以是原始待检索图片，也可以是经剪裁处理更新之后的待检索图片。

可以理解的是，通过对待检索图片进行预处理，能够避免无关信息在特征匹配时带来的干扰，提高了特征匹配结果的准确度。

S103、根据匹配结果，确定待识别文档是否为异常文档。

示例性的，若待检索图片在预设检索库中存在与之匹配成功的敏感剪切图，则确定该待检索图片为携带有敏感信息的异常图片；将该异常图片所属的待识别文档作为异常文档。

本公开实施例通过引入携带有敏感信息的目标图片的切分处理得到的敏感剪切图，与待检索图片进行特征匹配，从而能够识别出通过至少两张图片的拼接图携带敏感信息的异常文档，为异常文档识别提供了一种新的思路。通过包含有敏感剪切图的预设检索库的使用，避免了通过拼接图携带敏感信息绕过现有敏感信息审查方式的情况，降低了异常文档的漏识别率，进而提高了异常文档识别结果的准确度。

在上述各技术方案的基础上，本公开还提供了一个可选实施例。在该实施例中，将特征匹配操作细化为“根据待检索图片的附加属性信息，从预设检索库中选取至少一个敏感剪切图作为候选剪切图；将待检索图片与候选剪切图进行特征匹配”，以减少特征匹配的数据运算量，进而提高匹配效率。需要说明的是，在本公开未详述部分，可参见前述各技术方案的相关描述。

参见图2所示的一种异常文档识别方法，包括：

S201、获取待识别文档中的待检索图片。

S202、根据待检索图片的附加属性信息，从预设检索库中选取至少一个敏感剪切图作为候选剪切图；其中，敏感剪切图为携带有敏感信息的目标图片的切分处理结果。

其中，附加属性信息用于作为待检索图片的至少一个维度信息，对待检索图片进行归类。其中，维度信息可以包括图片类型、图片内容和发布时间等维度中的至少一种。

示例性的，通过待检索图片的附加属性信息的属性值，将预设检索库中的各敏感剪切图进行分类；将类别与待检索图片的附加属性信息相关联的至少一个敏感剪切图作为候选剪切图。可以理解的是，从而实现了对敏感剪切图的初步筛选，减少了后续进行特征匹配时的敏感剪切图的数据量。

示例性的，与待检索图片的附加属性信息相关联，可以是与待检索图片的附加属性信息的属性值相同或互补等。

在一个可选实施例中，附加属性信息可以包括发布时间信息，用于表征待识别文档的发布时间。

在另一可选实施例中，附加属性信息可以包括切分类型信息，用于表征待识别文档中的内容图片的排版结构，也即若将待识别文档中的各内容图片按照上传后的排版结构组合得到参考图片，那么通过何种切分类型的切分模板，可以将参考图片切分成待识别文档中的各内容图片。

可以理解的是，通过将附加属性信息细化为包括发布时间信息和/或切分类型信息，能够从不同维度进行候选剪切图的筛选，从而丰富了候选剪切图的筛选方式，为异常文档识别方法的多样性奠定了基础。

S203、将待检索图片与候选剪切图进行特征匹配。

示例性的，将待检索图片与候选剪切图进行特征匹配，可以是：确定待检索图片的第一特征数据和候选剪切图的第二特征数据；确定第一特征数据与第二特征数据的相似度；若相似度大于设定相似度阈值，则匹配成功；否则，匹配失败。其中，设定相似度阈值可以由技术人员根据需要或经验值进行确定，或通过大量试验反复确定。

为了避免特征数据的重复计算，还可以在预设检索库中存储各敏感剪切图的特征数据，从而在进行特征匹配时，仅进行待检索图片的特征提取得到第一特征数据，以及从预设检索库中获取候选剪切图的第二特征数据即可。

S204、根据匹配结果，确定待识别文档是否为异常文档。

本公开通过将特征匹配操作，细化为根据待检索图片的附加属性信息，从预设检索库中选取至少一个敏感剪切图作为候选剪切图；将待检索图片与候选剪切图进行特征匹配，从而完善了特征匹配机制。另外，通过引入待检索图片的附加属性信息，对敏感剪切图进行初步筛选，从而减少了参与特征匹配的敏感剪切图的数据量，进而减少了特征匹配时的计算量，提高了特征匹配效率，进而提高了异常文本的识别效率。

在上述各技术方案的基础上，本公开还提供了一个可选实施例。在该实施例中，将候选剪切图的选取操作，细化为“从预设检索库中选取与待检索图片的附加属性信息相同的至少一个敏感剪切图，作为候选剪切图”；相应的，将异常文档确定操作细化为“若存在匹配成功的候选剪切图，则确定待识别文档为异常文档”，从而实现异常文档识别过程的具体化。

参见图3所示的一种异常文档识别方法，包括：

S301、获取待识别文档中的待检索图片。

S302、从预设检索库中选取与待检索图片的附加属性信息的属性值相同的至少一个敏感剪切图，作为候选剪切图；其中，敏感剪切图为携带有敏感信息的目标图片的切分处理结果。

为了节约成本，网络黑产在进行包括携带有敏感信息的拼接图的文档发布时，通常会进行文档的批量发布，因此，网络黑产单批次所发布文档的附加属性信息相同。

在本实施例中，将预设检索库中与待检索图片的附加属性信息的属性值相同的敏感剪切图作为候选剪切图，从而大大减少了候选剪切图的数量。当预设检索库中存在相同网络黑产同批次发布的目标图片的敏感剪切图时，仅通过候选剪切图即可实现后续的特征匹配，效率更高，计算量更少。

在一个可选实施方式中，附加属性信息包括发布时间信息；相应的，从预设检索库中选取与待检索图片相同发布时间的至少一个敏感剪切图作为候选剪切图。

在另一可选实施例中，附加属性信息包括切分类型信息；相应的，从预设检索库中选取与待检索图片相同切分类型的至少一个敏感剪切图作为候选剪切图。

S303、将待检索图片与候选剪切图进行特征匹配。

S304、若存在匹配成功的候选剪切图，则确定待识别文档为异常文档。

示例性的，若存在与待检索图片匹配成功的候选剪切图，则确定待检索图片为异常图片；将异常图片对应的待识别文档，作为异常文档。

可选的，若不存在与待检索图片匹配成功的候选剪切图，则确定待检索图片为正常图片；相应的，将正常图片对应的待识别文档，作为正常文档。

由于预设检索库中在与待检索图片的附加属性信息属性值相同的对应类别下，未存储有与待检索图片相同或相似的敏感剪切图。例如，网络黑产在不同时间分别批量发布了相同异常文档，该异常文档中包括携带有敏感信息的拼接图。此时，仅通过图3所示的异常文档识别方法，将存在异常文档漏识别情况的发生。为了进一步提高异常文档的识别结果准确度，还可以在确定不存在与待检索图片匹配成功的候选剪切图时，需要对待检索图片进行二次识别。

参见图4所示的一种异常文档识别方法，包括：

S401、获取待识别文档中的待检索图片。

S402、从预设检索库中选取与待检索图片的附加属性信息相同的至少一个敏感剪切图，作为候选剪切图；其中，敏感剪切图为携带有敏感信息的目标图片的切分处理结果。

S403、将待检索图片与候选剪切图进行特征匹配。

S404、确定是否存在与待检索图片匹配成功的候选剪切图。若是，则执行S405A；否则，执行S405B。

S405A、确定待识别文档为异常文档。

S405B、根据预设外延规则，确定待检索图片的附加属性信息的属性值对应的外延属性值。

其中，预设外延规则可以由技术人员根据需要或经验值进行确定，或通过大量试验调整确定。

在一个可选实施方式中，将预设检索库中与待检索图片的附加属性信息不同的属性值中的至少一种，作为外延属性值。

可选的，附加属性信息包括发布时间信息，外延属性值包括外延发布时间；相应的，根据预设外延规则，确定待检索图片的附加属性信息的属性值对应的外延属性值，可以是：将待检索图片的发布时间的邻近发布时间，作为待检索图片的外延发布时间；或者，将预设检索库中各敏感剪切图的发布时间作为候选发布时间，并将与待检索图片的发布时间不一致的至少一个候选发布时间作为外延发布时间。

示例性的，可以预先设定外延时间间隔；将待检索图片的发布时间信息的时间值作为当前时间；将与当前时间的时间间隔小于外延时间间隔的各时间值中的至少一种，作为外延发布时间。例如，待检索图片的发布时间为T1，外延时间间隔为ΔT，则将(T1-ΔT,T1)以及(T1,T1+ΔT)对应时间段中的至少一个时间值(如全部时间值)作为外延发布时间。

示例性的，还可以进一步设置外延方向。示例性的，可以通过正负号表征外延时间间隔的外延方向。如负号表示向历史方向延伸，正号表示向未来方向延伸。例如，待检索图片的发布时间为T1，外延时间间隔为ΔT，方向为“-”，则将(T1-ΔT,T1)对应时间段中的至少一个时间值(如全部时间值)作为外延发布时间。又如，待检索图片的发布时间为T1，外延时间间隔为ΔT，方向为“+”，则将(T1,T1+ΔT)对应时间段中的至少一个时间值(如全部时间值)作为外延发布时间。

可选的，附加属性信息包括切分类型信息，外延属性值包括外延类型；相应的，根据预设外延规则，确定待检索图片的附加属性信息的属性值对应的外延属性值，可以是：将预设检索库中各敏感剪切图的切分类型作为候选切分类型；将与待检索图片的切分类型不一致的至少一个候选切分类型作为外延类型。

可以理解的是，通过将附加属性信息细化为包括发布时间信息和/或切分类型信息；相应的，将外延属性值细化为包括外延发布时间和/或外延类型，丰富了外延属性值的确定方式，保证了新的候选剪切图确定方式的多样性，进而提高了异常文档识别结果的多样性。

S406、从预设检索库中选取与待检索图片的外延属性值相同的至少一个敏感剪切图，作为新的候选剪切图。

S407、将待检索图片与新的候选剪切图进行二次特征匹配。

将待检索图片与新的候选剪切图的二次匹配操作与待检索图片与候选剪切图的匹配操作相同，在此不再赘述。

S408、根据二次匹配结果，确定待识别文档是否为异常文档。

示例性的，若存在与待检索图片相匹配的新的候选剪切图，则确定该待检索图片为异常图片，相应的该待识别文档为异常文档；若不存在与待检索图片相匹配的新的候选剪切图，则确定该待检索图片为正常图片，相应的该待识别文档为正常文档。

在一个可选实施例中，若根据二次匹配结果确定待识别文档为异常文档，则说明预设检索库中所包含的敏感剪切图不全，因此，可以通过将新识别到的异常文档中所包含内容图片，对预设检索库加以更新，从而提高了预设检索库中敏感剪切图的全面性，为后续的待识别文档的异常识别提供便利。

示例性的，若根据二次匹配结果确定待识别文档为异常文档，则获取待识别文档中的至少一个内容图片；其中，至少一个内容图片中包括待检索图片；将至少一个内容图片添加至预设检索库中，以更新预设检索库。

本公开通过引入预设外延规则进行新的候选剪切图的确定，从而将待检索图片在预设检索库中的匹配范围加以扩展，避免了由于匹配范围过小，导致图片漏匹配情况的发生，从而避免了由于预设检索库中相同附加属性信息的敏感剪切图不全，导致异常文档漏识别情况的发生，进而提高了异常文档识别结果准确度。

作为上述各异常文档识别方法的实现，本公开还提供了实施上述各异常文档识别方法的虚拟装置的一个可选实施例。

进一步参见图5所示的一种异常文档识别装置500，包括：待检索图片获取模块501、特征匹配模块502和异常文档确定模块503。其中，

待检索图片获取模块501，用于获取待识别文档中的待检索图片；

特征匹配模块502，用于将所述待检索图片与预设检索库中至少一个敏感剪切图进行特征匹配；其中，所述敏感剪切图为携带有敏感信息的目标图片的切分处理结果；

异常文档确定模块503，用于根据匹配结果，确定所述待识别文档是否为异常文档。

本公开实施例通过引入携带有敏感信息的目标图片的切分处理得到的敏感剪切图与待检索图片进行特征匹配，从而能够识别出通过至少两张图片的拼接图携带敏感信息的异常文档，为异常文档识别提供了一种新的思路。通过包含有敏感剪切图的预设检索库的使用，避免了通过拼接图携带敏感信息绕过现有敏感信息审查方式的情况，降低了异常文档的漏识别率，进而提高了异常文档识别结果的准确度。

在一个可选实施例中，所述特征匹配模块502，包括：

候选剪切图选取单元，用于根据所述待检索图片的附加属性信息，从所述预设检索库中选取至少一个敏感剪切图作为候选剪切图；

特征匹配单元，用于将所述待检索图片与所述候选剪切图进行特征匹配。

在一个可选实施例中，所述候选剪切图选取单元，包括：

候选剪切图选取子单元，用于从所述预设检索库中选取与所述待检索图片的附加属性信息的属性值相同的至少一个敏感剪切图，作为候选剪切图；

所述异常文档确定模块，包括：

异常文档确定单元，用于若存在匹配成功的候选剪切图，则确定所述待识别文档为异常文档。

在一个可选实施例中，所述特征匹配模块502，还包括：

外延属性值确定单元，用于若不存在与所述待检索图片匹配成功的所述候选剪切图，则根据预设外延规则，确定所述待检索图片的附加属性信息的属性值对应的外延属性值；

所述候选剪切图选取单元，还用于从所述预设检索库中选取与所述待检索图片的外延属性值相同的至少一个敏感剪切图，作为新的候选剪切图；

所述特征匹配单元，还用于将所述待检索图片与所述新的候选剪切图进行二次特征匹配；

所述特征匹配单元，还用于根据二次匹配结果，确定所述待识别文档是否为异常文档。

在一个可选实施例中，所述装置还包括：

内容图片获取模块，用于若根据二次匹配结果确定所述待识别文档为异常文档，则获取所述待识别文档中的至少一个内容图片；其中，所述至少一个内容图片包括所述待检索图片；

预设检索库更新模块，用于将所述至少一个内容图片添加至所述预设检索库中，以更新所述预设检索库。

在一个可选实施例中，所述附加属性信息包括发布时间信息和/或切分类型信息。

在一个可选实施例中，所述附加属性信息包括发布时间信息，所述外延属性值包括外延发布时间；

所述外延属性值确定单元，包括：

第一外延发布时间确定子单元，用于将所述待检索图片的发布时间的邻近发布时间，作为所述待检索图片的外延发布时间；或者，

第二外延发布时间确定子单元，用于将所述预设检索库中各敏感剪切图的发布时间作为候选发布时间，并将与所述待检索图片的发布时间不一致的至少一个候选发布时间作为所述外延发布时间。

在一个可选实施例中，所述附加属性信息包括切分类型信息，所述外延属性值包括外延类型；

所述外延属性值确定单元，包括：

候选切分类型确定子单元，用于将所述预设检索库中各敏感剪切图的切分类型作为候选切分类型；

外延类型确定子单元，用于将与所述待检索图片的切分类型不一致的至少一个候选切分类型作为所述外延类型。

在一个可选实施例中，所述特征匹配模块502，包括：

文字区域识别单元，用于识别所述待检索图片中的文字区域；

待检索图片更新单元，用于根据所述文字区域对所述待检索图片进行剪裁和/或缩放处理，以更新所述待检索图片；

特征匹配单元，用于将更新后的待检索图片与预设检索库中至少一个敏感剪切图进行特征匹配。

上述异常文档识别装置可执行本公开任意实施例所提供的异常文档识别方法，具备执行异常文档识别方法相应的功能模块和有益效果。

需要说明的是，本公开的技术方案中，所涉及的待检索图片的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如异常文档识别方法。例如，在一些实施例中，异常文档识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的异常文档识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行异常文档识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。

云计算(cloud computing)，指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作系统、网络、软件、应用和存储设备等，并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种异常文档识别方法，包括：

获取待识别文档中的待检索图片；

根据匹配结果，确定所述待识别文档是否为异常文档。

2.根据权利要求1所述的方法，其中，所述将所述待检索图片与预设检索库中至少一个敏感剪切图进行特征匹配，包括：

根据所述待检索图片的附加属性信息，从所述预设检索库中选取至少一个敏感剪切图作为候选剪切图；

将所述待检索图片与所述候选剪切图进行特征匹配。

3.根据权利要求2所述的方法，其中，所述根据所述待检索图片的附加属性信息，从所述预设检索库中选取至少一个敏感剪切图作为候选剪切图，包括：

从所述预设检索库中选取与所述待检索图片的附加属性信息的属性值相同的至少一个敏感剪切图，作为候选剪切图；

所述根据匹配结果，确定所述待识别文档是否为异常文档，包括：

若存在匹配成功的候选剪切图，则确定所述待识别文档为异常文档。

4.根据权利要求3所述的方法，其中，所述根据匹配结果，确定所述待识别文档是否为异常文档，还包括：

若不存在与所述待检索图片匹配成功的所述候选剪切图，则根据预设外延规则，确定所述待检索图片的附加属性信息的属性值对应的外延属性值；

从所述预设检索库中选取与所述待检索图片的外延属性值相同的至少一个敏感剪切图，作为新的候选剪切图；

将所述待检索图片与所述新的候选剪切图进行二次特征匹配；

根据二次匹配结果，确定所述待识别文档是否为异常文档。

5.根据权利要求4所述的方法，还包括：

若根据二次匹配结果确定所述待识别文档为异常文档，则获取所述待识别文档中的至少一个内容图片；其中，所述至少一个内容图片包括所述待检索图片；

将所述至少一个内容图片添加至所述预设检索库中，以更新所述预设检索库。

6.根据权利要求2-5中任一项所述的方法，其中，所述附加属性信息包括发布时间信息和/或切分类型信息。

7.根据权利要求4所述的方法，其中，所述附加属性信息包括发布时间信息，所述外延属性值包括外延发布时间；

所述根据预设外延规则，确定所述待检索图片的附加属性信息的属性值对应的外延属性值，包括：

将所述待检索图片的发布时间的邻近发布时间，作为所述待检索图片的外延发布时间；或者，

将所述预设检索库中各敏感剪切图的发布时间作为候选发布时间，并将与所述待检索图片的发布时间不一致的至少一个候选发布时间作为所述外延发布时间。

8.根据权利要求4所述的方法，其中，所述附加属性信息包括切分类型信息，所述外延属性值包括外延类型；

将所述预设检索库中各敏感剪切图的切分类型作为候选切分类型；

将与所述待检索图片的切分类型不一致的至少一个候选切分类型作为所述外延类型。

9.根据权利要求1-8中任一项所述的方法，其中，所述将所述待检索图片与预设检索库中至少一个敏感剪切图进行特征匹配，包括：

识别所述待检索图片中的文字区域；

根据所述文字区域对所述待检索图片进行剪裁和/或缩放处理，以更新所述待检索图片；

将更新后的待检索图片与预设检索库中至少一个敏感剪切图进行特征匹配。

10.一种异常文档识别装置，包括：

11.根据权利要求10所述的装置，其中，所述特征匹配模块，包括：

12.根据权利要求11所述的装置，其中，所述候选剪切图选取单元，包括：

所述异常文档确定模块，包括：

13.根据权利要求12所述的装置，其中，所述特征匹配模块还包括：

14.根据权利要求13所述的装置，还包括：

15.根据权利要求11-14中任一项所述的装置，其中，所述附加属性信息包括发布时间信息和/或切分类型信息。

16.根据权利要求13所述的装置，其中，所述附加属性信息包括发布时间信息，所述外延属性值包括外延发布时间；

所述外延属性值确定单元，包括：

17.根据权利要求13所述的装置，其中，所述附加属性信息包括切分类型信息，所述外延属性值包括外延类型；

所述外延属性值确定单元，包括：

18.根据权利要求10-17中任一项所述的装置，其中，所述特征匹配模块，包括：

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的一种异常文档识别方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的一种异常文档识别方法。

21.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的一种异常文档识别方法。