CN114298236A

CN114298236A - 非结构化内容相似度确定方法、装置和电子设备

Info

Publication number: CN114298236A
Application number: CN202111657830.8A
Authority: CN
Inventors: 孙强; 郑传义; 朱岩; 曲志峰; 徐国龙
Original assignee: BEIJING ZHONGFU TAIHE TECHNOLOGY DEVELOPMENT CO LTD; Nanjing Zhongfu Information Technology Co Ltd; Zhongfu Information Co Ltd; Zhongfu Safety Technology Co Ltd
Current assignee: BEIJING ZHONGFU TAIHE TECHNOLOGY DEVELOPMENT CO LTD; Nanjing Zhongfu Information Technology Co Ltd; Zhongfu Information Co Ltd; Zhongfu Safety Technology Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-08

Abstract

本发明提供了一种非结构化内容相似度确定方法、装置和电子设备，对从非结构化内容中得到的提取内容进行归一化，得到归一化内容；基于从归一化内容中提取的指定特征为归一化内容设置标签，对设置标签的归一化内容进行语义相似度匹配得到第一匹配结果；基于归一化内容的上下文相关性，对设置有标签的归一化内容进行度量融合的关系计算，得到关系度量信息；根据关系度量信息进行上下文相似度匹配得到第二匹配结果；根据归一化内容、归一化内容设置的标签和关系度量信息，对非结构化内容进行内容相似度匹配得到第三匹配结果。该方式综合利用内容分析的多维度方法，对非结构化内容进行相似度匹配，可以使各维度方法进行优势互补，提升了分析的准确度。

Description

非结构化内容相似度确定方法、装置和电子设备

技术领域

本发明涉及网络安全技术领域，尤其是涉及一种非结构化内容相似度确定方法、装置和电子设备。

背景技术

在内容分析领域逐渐发展起规则化、统计方法及人工智能方法，依据语义规则的专家知识，行业知识对内容进行规则化分析，依据数学统计模型进行内容的主题判断，依据人工智能进行内容局部特征，全局特征的综合分析分类等方法，内容分析的方法逐步成熟可用。

在企业生产经营活动中，伴随业务数据的采集、传输、存储、处理、交换、销毁，具有敏感信息的文件随着业务流程在数据生存的整个周期产生多种版本，对存量文件的数据采集、识别以及数据的内容分析历来是一个难点和重点，特别对非结构化内容，通常存在标记不足，存放随机，面临泄露等安全问题，在诸如数据分级分类、文档溯源检测、内容泄密检测等业务场景，急需对非结构化内容中的敏感信息进行相似度计算，以避免安全问题的发生。

发明内容

本发明的目的在于提供一种非结构化内容相似度确定方法、装置和电子设备，以从多维度确定非结构化内容相似度，从而提高数据安全性。

第一方面，本发明提供了一种非结构化内容相似度确定方法，该方法包括：对非结构化内容进行内容提取，得到提取内容；对提取内容进行归一化处理，得到归一化内容；提取归一化内容中的指定特征，基于指定特征为归一化内容设置标签；对设置有标签的归一化内容进行语义相似度匹配，得到第一匹配结果；基于归一化内容的上下文相关性，对设置有标签的归一化内容进行度量融合的关系计算，得到关系度量信息；根据关系度量信息进行上下文相似度匹配，得到第二匹配结果；其中，上下文相关性包括词频、序列特征和长距离结构模式；根据归一化内容、归一化内容设置的标签和关系度量信息，对非结构化内容进行内容相似度匹配，得到第三匹配结果。

在可选的实施方式中，上述非结构化内容包括文本、图片、音视频、信息流和加密状况中的一种或多种；上述对非结构化内容进行内容提取，得到提取内容的步骤，包括：通过预设提取方式中的一种或多种，对非结构化内容进行内容提取，得到提取内容；其中，预设提取方式包括内嵌提取、加密检测、文本提取、元数据提取、音频抽取、视频抽帧、缩略图生成、PDF生成和OCR处理。

在可选的实施方式中，上述对提取内容进行归一化处理，得到归一化内容的步骤，包括：通过内容定义解析工具或者预设框架，对提取内容进行模型定义，以使提取内容采用模型中的规范格式进行归一化表示，将归一化表示的提取内容确定为所述归一化内容。

在可选的实施方式中，上述提取归一化内容中的指定特征，基于指定特征为归一化内容设置标签的步骤，包括：基于预设的特征提取算法，从归一化内容中提取出指定特征；其中，指定特征包括内容实体、关键词、主题、关系信息和属性信息；根据提取到的指定特征，为归一化内容设置至少一个标签。

在可选的实施方式中，上述基于归一化内容的上下文相关性，对设置有标签的归一化内容进行度量融合的关系计算，得到关系度量信息的步骤之后，上述方法还包括：根据预设量化方法和指定策略，生成设置有标签的归一化内容的多维度关系信息。

在可选的实施方式中，上述基于归一化内容的上下文相关性，对设置有标签的归一化内容进行度量融合的关系计算，得到关系度量信息的步骤，包括：保留归一化内容的上下文相关性，针对多维度关系信息和归一化内容设置的标签进行度量融合的关系计算，得到关系度量信息。

在可选的实施方式中，上述根据归一化内容、归一化内容设置的标签和关系度量信息，对非结构化内容进行内容相似度匹配，得到第三匹配结果的步骤，包括：基于归一化内容、归一化内容设置的标签和关系度量信息，提取目标特征；针对目标特征对归一化内容进行特征向量化，以对向量化的内容进行内容相似度匹配，得到第三匹配结果。

第二方面，本发明提供了一种非结构化内容相似度确定装置，该装置包括：内容提取模块，用于对非结构化内容进行内容提取，得到提取内容；归一化模块，用于对提取内容进行归一化处理，得到归一化内容；标签化模块，用于提取归一化内容中的指定特征，基于指定特征为归一化内容设置标签；对设置有标签的归一化内容进行语义相似度匹配，得到第一匹配结果；特征关系化模块，用于基于归一化内容的上下文相关性，对设置有标签的归一化内容进行度量融合的关系计算，得到关系度量信息；根据关系度量信息进行上下文相似度匹配，得到第二匹配结果；其中，上下文相关性包括词频、序列特征和长距离结构模式；特征向量化模块，用于根据归一化内容、归一化内容设置的标签和关系度量信息，对非结构化内容进行内容相似度匹配，得到第三匹配结果。

第三方面，本发明提供了一种电子设备，该电子设备包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述非结构化内容相似度确定方法。

第四方面，本发明提供了一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，该机器可执行指令促使处理器实现上述非结构化内容相似度确定方法。

本发明实施例带来了以下有益效果：

本发明提供了一种非结构化内容相似度确定方法、装置和电子设备，首先对非结构化内容进行内容提取，得到提取内容；进而对提取内容进行归一化处理，得到归一化内容；再提取归一化内容中的指定特征，基于指定特征为归一化内容设置标签；对设置有标签的归一化内容进行语义相似度匹配，得到第一匹配结果；然后基于归一化内容的上下文相关性，对设置有标签的归一化内容进行度量融合的关系计算，得到关系度量信息；根据关系度量信息进行上下文相似度匹配，得到第二匹配结果；再根据归一化内容、归一化内容设置的标签和关系度量信息，对非结构化内容进行内容相似度匹配，得到第三匹配结果。该方式综合利用内容分析的多维度方法，对非结构化内容进行相似度匹配，可以使各维度方法进行优势互补，提升了分析的准确度。

另外，本发明采用内容相似度方式来处理敏感文件(该敏感文件相当于包含有非结构内容的文件)，将业务流程产生的大量文件直接与历史已知文件分析结果比对，计算相似度，直接产生文件敏感级别。在数据分级分类、文档溯源检测、内容泄密检测等场景大量减轻判定复杂度。

本发明提供的一种非结构化内容相似度确定方法、装置和电子设备，

本发明的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本发明的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施方式，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种非结构化内容相似度确定方法的流程图；

图2为本发明实施例提供的另一种非结构化内容相似度确定方法的流程图；

图3为本发明实施例提供的一种非结构化内容相似度确定装置的结构示意图；

图4为本发明实施例提供的一种非结构化内容相似度确定装置的结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

基于背景技术中涉及到的问题，本发明实施例提供了一种非结构化内容相似度确定方法、装置和电子设备，该技术可以应用于对非结构化数据进行相似度匹配的场景中，尤其涉及对敏感词或者非法词的过滤场景。为便于对本实施例进行理解，首先对本发明实施例所公开的一种非结构化内容相似度确定方法进行详细介绍，如图1所示，该方法包括如下具体步骤：

步骤S102，对非结构化内容进行内容提取，得到提取内容。

上述非结构化内容包括但不限于文本、图片、音视频、信息流、健米状况和表格等。从非结构化内容中提取出的提取内容包括归一化所需的对象对应的内容，其中，归一化所需的对象可以根据研发需求设置，在此不做具体限定。

步骤S104，对上述提取内容进行归一化处理，得到归一化内容。

在具体实现时，可以根据用户关注业务的需要和可能对业务产生影响的信息，对提取内容进行建模，以统一、完整地表示各类提取内容，得到对一化内容。该归一化内容也可以理解为转换为规范格式后的内容，以为后续内容检测和匹配提供内容定义对象，也便于后续数据处理。

步骤S106，提取归一化内容中的指定特征，基于该指定特征为归一化内容设置标签；对设置有标签的归一化内容进行语义相似度匹配，得到第一匹配结果。

上述指定特征可以包括下述中的一种或多种：内容实体、关键词、文中、主体和关系等。在具体实现时，预先设置有每种指定特征对应的标签，因而，可根据指定特征为归一化内容设置至少一个标签。例如，如果归一化内容中包含有非法信息(例如，关键词中有非法信息)，将该归一化内容的标签设置为非法。

上述第一匹配结果为对设置有标签的归一化内容与指定内容进行语义相似度匹配后得到的相似程度(或者相似等级)，该指定内容可以根据用户需求设置，例如，可以是历史文件中包含的内容的分析结果，该历史文件中包含的内容也即是非结构化内容，该历史文件对应的分析结果可以是通过本发明得到的分析结果，该分析结果可以包括非结构化内容对应的标签、关系度量信息、和特征化向量等。

步骤S108，基于上述归一化内容的上下文相关性，对设置有标签的归一化内容进行度量融合的关系计算，得到关系度量信息；根据关系度量信息进行上下文相似度匹配，得到第二匹配结果。

上述上下文相关性包括词频、序列特征和长距离结构模式。在具体实现时，可以将设置有标签的归一化数据的标签为输入，对归一化内容进行度量融合关系计算，得到关系度量信息，进而保留上下文相关性用于对归一化内容和指定内容进行下文相似度匹配，得到第二匹配结果。

步骤S110，根据上述归一化内容、归一化内容设置的标签和关系度量信息，对非结构化内容进行内容相似度匹配，得到第三匹配结果。

在具体实现时，从归一化内容设置的标签、关系度量信息和指定特征中选取典型特征，然后对典型特征进行向量化处理，得到向量化的内容；然后对向量化的内容与指定内容进行内容相似度匹配，得到第三匹配结果。

本发明实施例提供的一种非结构化内容相似度确定方法，首先对非结构化内容进行内容提取，得到提取内容；进而对提取内容进行归一化处理，得到归一化内容；再提取归一化内容中的指定特征，基于指定特征为归一化内容设置标签；对设置有标签的归一化内容进行语义相似度匹配，得到第一匹配结果；然后基于归一化内容的上下文相关性，对设置有标签的归一化内容进行度量融合的关系计算，得到关系度量信息；根据关系度量信息进行上下文相似度匹配，得到第二匹配结果；再根据归一化内容、归一化内容设置的标签和关系度量信息，对非结构化内容进行内容相似度匹配，得到第三匹配结果。该方式综合利用内容分析的多维度方法，对非结构化内容进行相似度匹配，可以使各维度方法进行优势互补，提升了分析的准确度。

本发明实施例还提供了另一种非结构化内容相似度确定方法，该方法在上述实施例方法的基础上实现；该方法重点描述对非结构化内容进行内容提取，得到提取内容的具体过程(通过下述步骤S202实现)、对提取内容进行归一化处理，得到归一化内容的具体过程(通过下述步骤S204实现)，以及基于指定特征为归一化内容设置标签的具体过程(通过下述步骤S206-S208实现)；如图2所示，该方法包括如下具体步骤：

步骤S202，通过预设提取方式中的一种或多种，对非结构化内容进行内容提取，得到提取内容。

具体地，上述非结构化内容包括文本、图片、信息流和加密状况中的一种或多种。上述预设提取方式包括内嵌提取、加密检测、文本提取、元数据提取、音频抽取、视频抽帧、缩略图生成、PDF(Portable Document Format，便携式文件格式)生成和OCR(OpticalCharacter Recognition，光学字符识别)处理等。在具体实现时，不同的非结构内容会采用不同的预设提取方式进行内容提取，例如，对于音视频可以采用音频抽取和视频抽帧的方式进行内容提取，以得到音频数据或者视频数据。

步骤S204，通过内容定义解析工具或者预设框架，对上述提取内容进行模型定义，以使提取内容采用模型中的规范格式进行归一化表示，将归一化表示的提取内容确定为归一化内容。

在对内容进行模型定义时，主要关注提取内容中业务需要和可能对业务产生影响的信息，以对提取内容用规范格式进行归一化表示，例如，提取内容可以包括文本内容及描述信息(该描述信息用于指示文本的串讲时间和来源等)，可用key、value属性对的方式表示。

步骤S206，基于预设的特征提取算法，从归一化内容中提取出指定特征。

在具体实现时，上述指定特征包括内容实体、关键词、主题、关系信息和属性信息等，该内容实体可以包括人名、号码、部门和行业等。上述特征提取算法包括：关键词检测、文本分类、标密检测、指纹检测、与或非检测、主题提取、公文要素提取、分词、标密和发文范围提取、图片分类、图片公章识别、图片公文检测、图片标密检测、图片过滤、实体提取、关键词提取、属性判定和文种提取等。

步骤S208，根据提取到的指定特征为归一化内容设置至少一个标签。

步骤S210，对设置有标签的归一化内容进行语义相似度匹配，得到第一匹配结果。

步骤S212，基于上述归一化内容的上下文相关性，对设置有标签的归一化内容进行度量融合的关系计算，得到关系度量信息；根据关系度量信息进行上下文相似度匹配，得到第二匹配结果。

步骤S214，根据上述归一化内容、归一化内容设置的标签和关系度量信息，对非结构化内容进行内容相似度匹配，得到第三匹配结果。

上述非结构化内容相似度确定方法，采用内容相似度方式来处理敏感文件(该敏感文件相当于包含有非结构内容的文件)，将业务流程产生的大量文件直接与历史已知文件分析结果比对，计算相似度，直接产生文件敏感级别。在数据分级分类、文档溯源检测、内容泄密检测等场景大量减轻判定复杂度。

本发明实施例还提供了另一种非结构化内容相似度确定方法，该方法在上述实施例方法的基础上实现；该方法重点描述基于归一化内容的上下文相关性，对设置有标签的归一化内容进行度量融合的关系计算，得到关系度量信息的具体过程(通过下述步骤S310实现)，以及根据归一化内容、归一化内容设置的标签和关系度量信息，对非结构化内容进行内容相似度匹配，得到第三匹配结果的具体过程(通过下述步骤S312-S314实现)；如图3所示，该方法包括如下具体步骤：

步骤S302，对非结构化内容进行内容提取，得到提取内容。

步骤S304，对上述提取内容进行归一化处理，得到归一化内容。

步骤S306，提取归一化内容中的指定特征，基于该指定特征为归一化内容设置标签；对设置有标签的归一化内容进行语义相似度匹配，得到第一匹配结果。

步骤S308，根据预设量化方法和指定策略，生成设置有标签的归一化内容的多维度关系信息。

上述多维度关系信息包含有指定特征之间的关系和标签之间的关系等，该指定特征包括内容实体、关键词、主题、关系信息、文种和属性信息等。

步骤S310，保留归一化内容的上下文相关性，针对多维度关系信息和归一化内容设置的标签进行度量融合的关系计算，得到关系度量信息。

步骤S312，基于上述归一化内容、归一化内容设置的标签和关系度量信息，提取目标特征。

步骤S314，针对目标特征对归一化内容进行特征向量化，以对向量化的内容进行内容相似度匹配，得到第三匹配结果。

在具体实现时，从归一化内容设置的标签、关系度量信息和指定特征中选取典型特征，然后对典型特征进行向量化处理，得到向量化的内容；然后对向量化的内容与指定内容进行内容相似度匹配，得到第三匹配结果。具体地，下式可表示向量化内容：

其中，a1、b1、c1、d1和e1分别表示不同的典型特征。

上述非结构化内容相似度确定方法，该方式通过对非结构化内容进行内容提取，并对提取内容进行内容归一化；从归一化内容中提取主要的特征信息并进行标签化，做语义相似度匹配；依据内容的标签为输入，保留上下文相关性，进行度量融合的关系计算，做上下文相似度匹配；对内容的特征及关系信息进行向量化，做内容相似度匹配。综合以上归一化、标签化、关系化和向量化操作，完成内容多维度相似度匹配，从而该方式可提高非结构化内容分析的准确度。

对应于上述方法实施例，本发明实施例还提供了一种非结构化内容相似度确定装置，如图4所示，该装置包括：

内容提取模块40，用于对非结构化内容进行内容提取，得到提取内容。

归一化模块41，用于对提取内容进行归一化处理，得到归一化内容。

标签化模块42，用于提取归一化内容中的指定特征，基于指定特征为归一化内容设置标签；对设置有标签的归一化内容进行语义相似度匹配，得到第一匹配结果。

特征关系化模块43，用于基于归一化内容的上下文相关性，对设置有标签的归一化内容进行度量融合的关系计算，得到关系度量信息；根据关系度量信息进行上下文相似度匹配，得到第二匹配结果；其中，上下文相关性包括词频、序列特征和长距离结构模式。

特征向量化模块44，用于根据归一化内容、归一化内容设置的标签和关系度量信息，对非结构化内容进行内容相似度匹配，得到第三匹配结果。

上述非结构化内容相似度确定装置，首先对非结构化内容进行内容提取，得到提取内容；进而对提取内容进行归一化处理，得到归一化内容；再提取归一化内容中的指定特征，基于指定特征为归一化内容设置标签；对设置有标签的归一化内容进行语义相似度匹配，得到第一匹配结果；然后基于归一化内容的上下文相关性，对设置有标签的归一化内容进行度量融合的关系计算，得到关系度量信息；根据关系度量信息进行上下文相似度匹配，得到第二匹配结果；再根据归一化内容、归一化内容设置的标签和关系度量信息，对非结构化内容进行内容相似度匹配，得到第三匹配结果。该方式综合利用内容分析的多维度方法，对非结构化内容进行相似度匹配，可以使各维度方法进行优势互补，提升了分析的准确度。

在具体实现时，上述非结构化内容包括文本、图片、视音频、信息流和加密状况中的一种或多种；上述内容提取模块40，用于通过预设提取方式中的一种或多种，对非结构化内容进行内容提取，得到提取内容；其中，预设提取方式包括内嵌提取、加密检测、文本提取、元数据提取、音频抽取、视频抽帧、缩略图生成、PDF生成和OCR处理。

进一步地，上述归一化模块41，还用于：通过内容定义解析工具或者预设框架，对提取内容进行模型定义，以使提取内容采用模型中的规范格式进行归一化表示，将归一化表示的提取内容确定为归一化内容。

进一步地，上述标签化模块42，还用于：基于预设的特征提取算法，从归一化内容中提取出指定特征；其中，该指定特征包括内容实体、关键词、主题、关系信息和属性信息；根据提取到的指定特征，为归一化内容设置至少一个标签。

在具体实现时，上述装置还包括关系确定模块，用于：在基于归一化内容的上下文相关性，对设置有标签的归一化内容进行度量融合的关系计算，得到关系度量信息之后，根据预设量化方法和指定策略，生成设置有标签的归一化内容的多维度关系信息。

进一步地，上述特征关系化模块43，用于：保留归一化内容的上下文相关性，针对多维度关系信息和归一化内容设置的标签进行度量融合的关系计算，得到关系度量信息。

在一些实施例中，上述特征向量化模块44，还用于：基于归一化内容、归一化内容设置的标签和关系度量信息，提取目标特征；针对目标特征对归一化内容进行特征向量化，以对向量化的内容进行内容相似度匹配，得到第三匹配结果。

本发明实施例所提供的非结构化内容相似度确定装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本发明实施例还提供了一种电子设备，如图5所示，该电子设备包括处理器101和存储器100，该存储器100存储有能够被处理器101执行的机器可执行指令，该处理器101执行机器可执行指令以实现上述非结构化内容相似度确定方法。

进一步地，图5所示的电子设备还包括总线102和通信接口103，处理器101、通信接口103和存储器100通过总线102连接。

其中，存储器100可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器101可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processing，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器100，处理器101读取存储器100中的信息，结合其硬件完成前述实施例的方法的步骤。

本发明实施例还提供了一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，该机器可执行指令促使处理器实现上述非结构化内容相似度确定方法，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种非结构化内容相似度确定方法，其特征在于，所述方法包括：

对非结构化内容进行内容提取，得到提取内容；

对所述提取内容进行归一化处理，得到归一化内容；

提取所述归一化内容中的指定特征，基于所述指定特征为所述归一化内容设置标签；对设置有标签的归一化内容进行语义相似度匹配，得到第一匹配结果；

基于所述归一化内容的上下文相关性，对所述设置有标签的归一化内容进行度量融合的关系计算，得到关系度量信息；根据所述关系度量信息进行上下文相似度匹配，得到第二匹配结果；其中，所述上下文相关性包括词频、序列特征和长距离结构模式；

根据所述归一化内容、所述归一化内容设置的标签和所述关系度量信息，对所述非结构化内容进行内容相似度匹配，得到第三匹配结果。

2.根据权利要求1所述的方法，其特征在于，所述非结构化内容包括文本、图片、音视频、信息流和加密状况中的一种或多种；

所述对非结构化内容进行内容提取，得到提取内容的步骤，包括：

通过预设提取方式中的一种或多种，对所述非结构化内容进行内容提取，得到所述提取内容；其中，所述预设提取方式包括内嵌提取、加密检测、文本提取、元数据提取、音频抽取、视频抽帧、缩略图生成、PDF生成和OCR处理。

3.根据权利要求1或2所述的方法，其特征在于，所述对所述提取内容进行归一化处理，得到归一化内容的步骤，包括：

通过内容定义解析工具或者预设框架，对所述提取内容进行模型定义，以使所述提取内容采用模型中的规范格式进行归一化表示，将归一化表示的所述提取内容确定为所述归一化内容。

4.根据权利要求1所述的方法，其特征在于，所述提取所述归一化内容中的指定特征，基于所述指定特征为所述归一化内容设置标签的步骤，包括：

基于预设的特征提取算法，从所述归一化内容中提取出所述指定特征；其中，所述指定特征包括内容实体、关键词、主题、关系信息和属性信息；

根据提取到的所述指定特征，为所述归一化内容设置至少一个标签。

5.根据权利要求1所述的方法，其特征在于，所述基于所述归一化内容的上下文相关性，对所述设置有标签的归一化内容进行度量融合的关系计算，得到关系度量信息的步骤之后，所述方法还包括：

根据预设量化方法和指定策略，生成所述设置有标签的归一化内容的多维度关系信息。

6.根据权利要求5所述的方法，其特征在于，所述基于所述归一化内容的上下文相关性，对所述设置有标签的归一化内容进行度量融合的关系计算，得到关系度量信息的步骤，包括：

保留所述归一化内容的上下文相关性，针对所述多维度关系信息和所述归一化内容设置的标签进行度量融合的关系计算，得到关系度量信息。

7.根据权利要求1所述的方法，其特征在于，所述根据所述归一化内容、所述归一化内容设置的标签和所述关系度量信息，对所述非结构化内容进行内容相似度匹配，得到第三匹配结果的步骤，包括：

基于所述归一化内容、所述归一化内容设置的标签和所述关系度量信息，提取目标特征；

针对所述目标特征对所述归一化内容进行特征向量化，以对向量化的内容进行内容相似度匹配，得到第三匹配结果。

8.一种非结构化内容相似度确定装置，其特征在于，所述装置包括：

内容提取模块，用于对非结构化内容进行内容提取，得到提取内容；

归一化模块，用于对所述提取内容进行归一化处理，得到归一化内容；

标签化模块，用于提取所述归一化内容中的指定特征，基于所述指定特征为所述归一化内容设置标签；对设置有标签的归一化内容进行语义相似度匹配，得到第一匹配结果；

特征关系化模块，用于基于所述归一化内容的上下文相关性，对所述设置有标签的归一化内容进行度量融合的关系计算，得到关系度量信息；根据所述关系度量信息进行上下文相似度匹配，得到第二匹配结果；其中，所述上下文相关性包括词频、序列特征和长距离结构模式；

特征向量化模块，用于根据所述归一化内容、所述归一化内容设置的标签和所述关系度量信息，对所述非结构化内容进行内容相似度匹配，得到第三匹配结果。

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1至7任一项所述的非结构化内容相似度确定方法。

10.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使处理器实现权利要求1至7任一项所述的非结构化内容相似度确定方法。