CN116127013A

CN116127013A - 一种个人敏感信息知识图谱查询方法和装置

Info

Publication number: CN116127013A
Application number: CN202211630159.2A
Authority: CN
Inventors: 李阳春; 宋首友; 王海龙; 王忠儒; 杜春来; 黄九鸣; 段炼
Original assignee: China Academy Of Cyberspace Research; North China University of Technology
Current assignee: China Academy Of Cyberspace Research; North China University of Technology
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-05-16

Abstract

本发明公开了一种个人敏感信息知识图谱查询方法和装置，方法包括：S1、对用户输入的查询文本进行文本错误纠正；S2、对纠错后的查询文本进行输入构建，得到后续流程所需的特定输入格式的查询文本；S3、对纠错后的查询文本和具有特定输入格式的查询文本进行文本信息识别，所述文本信息识别包括：命名实体识别、隐私信息识别、修饰短语识别和场景信息识别；S4、根据识别的文本信息，进行查询语句片段生成，所述查询语句片段生成包括：查询起始节点生成、查询条件生成和查询目的生成；S5、将所述查询语句片段进行拼接，形成完整的知识图谱Cypher查询语句。采用本发明，可以自动进行查询的场景理解，并生成指定场景下个人敏感信息知识图谱Cypher查询语句。

Description

一种个人敏感信息知识图谱查询方法和装置

技术领域

本发明涉及知识图谱技术领域，特别是指一种个人敏感信息知识图谱查询方法和装置。

背景技术

与通用知识图谱不同，个人敏感信息知识图谱中信息的敏感程度与信息来源场景通常密切相关。例如用户在社交媒体场景下乐于主动展示个人肖像信息，但在金融借贷场景下，个人肖像则是一种重要隐私信息，用户更希望加以保护。

由于个人敏感信息知识图谱的场景依赖性，通用的知识图谱查询方法不适用于查询个人敏感信息知识图谱，如何高效、便捷的查询个人敏感信息知识图谱中蕴含的知识，帮助人们保护个人敏感信息成为了研究难点，急需一个创新的方法帮助解决难题。

发明内容

本发明提供了一种个人敏感信息知识图谱查询方法和装置，用以对个人敏感信息知识图谱进行查询。所述技术方案如下：

一方面，提供了一种个人敏感信息知识图谱查询方法，所述方法包括：

S1、对用户输入的查询文本进行文本错误纠正；

S2、对纠错后的查询文本进行输入构建，得到后续流程所需的特定输入格式的查询文本；

S3、对纠错后的查询文本和具有特定输入格式的查询文本进行文本信息识别，所述文本信息识别包括：命名实体识别、隐私信息识别、修饰短语识别和场景信息识别；

S4、根据识别的文本信息，进行查询语句片段生成，所述查询语句片段生成包括：查询起始节点生成、查询条件生成和查询目的生成；

S5、将所述查询语句片段进行拼接，形成完整的知识图谱Cypher查询语句。

可选地，所述S2的对纠错后的查询文本进行输入构建，得到后续流程所需的特定输入格式的查询文本，具体包括：

将所述纠错后的查询文本根据预设的最大文本长度进行切分对齐，若切分后的某个文本片段大于所述最大文本长度，则对切分后的这个文本片段进行删减；若切分后的某个文本片段小于所述最大文本长度，则填充指定符号，使切分后的这个文本片段达到最大文本长度；

将对齐后的各个文本片段进行分词；

使用切分对齐后的各个文本片段作为后续命名实体识别和隐私信息识别的输入，使用分词结果作为后续修饰短语识别的输入。

可选地，所述S3的对纠错后的查询文本和具有特定输入格式的查询文本进行命名实体识别，具体包括：

将切分对齐后的各个文本片段输入到到命名实体识别模型，识别查询文本中存在的命名实体，用于支持对用户查询意图的分析；

所述命名实体识别模型包括：采用开源NLP工具的Hanlp、Jieba，或者采用特定领域定制的命名实体识别模型；

所述S3的对纠错后的查询文本和具有特定输入格式的查询文本进行隐私信息识别，具体包括：将切分对齐后的各个文本片段输入到隐私信息识别模型，识别查询文本中存在的隐私信息；

所述隐私信息识别模型包括：预先训练的序列标注模型，或者使用特定领域的隐私词典；

所述S3的对纠错后的查询文本和具有特定输入格式的查询文本进行修饰短语识别，具体包括：

将分词结果输入到通用依存句法模型，进行句法解析，抽取出根节点的直接宾语，并提取出直接宾语的各个修饰短语。

可选地，所述S3的对纠错后的查询文本和具有特定输入格式的查询文本进行场景信息识别，具体包括：

将纠错后的查询文本输入到分类神经网络模型，所述分类神经网络模型对查询文本语义进行理解，输出不同场景对应的标签，所述分类神经网络模型包括：循环神经网络模型、卷积神经网络模型或者其他进行文本分类的神经网络模型；

当所述分类神经网络模型为循环神经网络模型时，接收文本输入并进行词向量编码嵌入后，所述循环神经网络模型在t＝l时刻计算操作定义如公式(1)和(2)：

h_l＝f(U·x_l+W·h_l-1) (1)

y_l＝g(V·h_l) (2)

其中f，g是激活函数，U为输入层到隐藏层的权重，W为隐藏层到隐藏层的权重，V为隐藏层到输出层的权重，x_l表示l时刻模型的输入，h_l表示l时刻隐藏层的输入，y_l表示l时刻模型的输出。

可选地，所述S4的根据识别的文本信息，进行查询起始节点生成，具体包括：

根据识别出的命名实体信息、场景信息与纠错后的查询文本，生成知识图谱查询语言Cypher的查询起始节点语句；

其中，使用深度神经网络模型判断识别出所有命名实体是否包括开始节点，如果是，则根据开始节点的实体名称生成Cypher查询起始节点语句，反之则不生成查询起始节点语句，继续进行后续查询条件生成和查询目的生成，并将查询条件和查询目的拼接成统计查询语句；

所述深度神经网络模型输入需要经过特殊处理，利用特殊标记来界定实体范围，将所述特殊标记接在查询文本的末尾并共享实体位置编码；

所述深度神经网络模型分为三层，底层对查询文本语义进行理解，并对所述特殊标记进行编码，使其包含实体的信息；中层为特征选择层，挑选出特殊标记所在位置的向量输出；高层为多头分类层，由多个线性分类器组成，每种不同的场景都存在一个独立的分类器，确保所述深度神经网络模型在不同场景下能正确的对实体进行判断，不会互相干扰；

所述深度神经网络模型根据识别出的场景信息选择合适的分类器对所述特殊标记所在位置的向量进行二分类，判断其是否属于开始节点。

可选地，所述S4的根据识别的文本信息，进行查询条件生成，具体包括：

使用生成模型对识别出的修饰短语进行语义理解，并生成单个Cypher的查询条件语句；

其中，在生成过程中使用提示学习的方式为每个场景定制的专属场景提示信息；

基于提示学习的生成模型需要对模型的输出做特殊处理，在模型输出的0位置预设一段专属场景提示信息，当作模型的输出，实现将识别出的场景信息融入到生成模型中，最终获取提示信息到结束位置的所有文本作为模型的输出结果。

可选地，所述S4的根据识别的文本信息，进行查询目的生成，具体包括：

构建一份关键词与知识图谱对应属性的映射表；

利用通用依存句法模型从纠错后的查询文本中提取根节点的直接宾语；

根据直接宾语对应的内容和识别的隐私信息，使用所述映射表进行匹配，若匹配成功则返回查询实体的对应属性知识图谱查询语句；若匹配不成功，则将直接宾语通过聚合操作分类模型判断返回所需的聚合操作，并生成对应聚合操作的知识图谱查询语句；

其中，所述聚合操作分类模型分为两层，底层结构使用循环神经网络作为特征提取，上层结构使用多个线性分类器作为模型的输出层，每种不同的场景都存在一个独立的分类器，确保模型在不同场景下能正确的对实体进行判断，不会互相干扰。

另一方面，提供了一种个人敏感信息知识图谱查询装置，所述装置包括：

纠错模块，用于对用户输入的查询文本进行文本错误纠正；

输入构建模块，用于对纠错后的查询文本进行输入构建，得到后续流程所需的特定输入格式的查询文本；

文本信息识别模块，用于对纠错后的查询文本和具有特定输入格式的查询文本进行文本信息识别，所述文本信息识别包括：命名实体识别、隐私信息识别、修饰短语识别和场景信息识别；

查询语句片段生成模块，用于根据识别的文本信息，进行查询语句片段生成，所述查询语句片段生成包括：查询起始节点生成、查询条件生成和查询目的生成；

拼接模块，用于将所述查询语句片段进行拼接，形成完整的知识图谱Cypher查询语句。

另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述个人敏感信息知识图谱查询方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述个人敏感信息知识图谱查询方法。

本发明提供的技术方案带来的有益效果至少包括：

本发明能智能分析用户的查询场景，并采用深度语义解析技术结合用户查询场景自动生成指定场景下敏感信息知识图谱Cypher查询语句Cypher，不需要人工添加大量模板以及后期的维护，极大的减轻了开发难度。

另外本发明能够让用户使用自然语言查询多场景个人敏感信息知识图谱，且不需要用户额外选择实际场景，极大的降低了用户的使用难度，不需要专门学习知识图谱查询语言。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种个人敏感信息知识图谱查询方法流程图；

图2是本发明实施例提供的实际应用场景举例示意图；

图3是本发明实施例提供的另一种个人敏感信息知识图谱查询方法流程图；

图4是本发明实施例提供的一种个人敏感信息知识图谱查询装置框图；

图5是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

如图1所示，本发明实施例提供了一种个人敏感信息知识图谱查询方法，所述方法包括：

S1、对用户输入的查询文本进行文本错误纠正；

下面结合图2-图3，详细说明本发明实施例的一种个人敏感信息知识图谱查询方法。

如图2所示，为本发明实施例的实际应用场景举例，在实际应用场景中，通常基于不同领域的信息，构建个人敏感信息知识图谱，使得知识图谱的关注重点可能存在差异，如金融领域的个人敏感信息更侧重金融账户、个人交易、资产信息、贷款信息等，而医疗领域知识图谱更倾向于对健康状况、病史信息等。本发明实施例的应用在于对个人敏感信息知识图谱进行查询，尤其对多场景个人敏感信息知识图谱进行查询，以便对下游的智能客服、关联分析、泄露隐私机构发现等提供更好的支持。

本发明实施例的前置工作可以包括：基于不同场景收集数据，构建多场景个人敏感信息知识图谱，常规流程包括：数据清洗、命名实体实体识别、敏感信息抽取、属性关系抽取、实体链接等操作。

也如图3所示，本发明实施例的个人敏感信息知识图谱查询方法，所述方法包括：

S1、对用户输入的查询文本进行文本错误纠正；

可选地，所述S1的对用户输入的查询文本进行文本错误纠正，具体包括：

使用二元语言模型构建容易拼写错误的近音词或形近词词表；

将所述用户输入的查询文本中，在所述词表出现过的词语，进行近音词或形近词替换，分别计算各个替换词的概率，选取概率最高的替换词并与上下文组成纠错后的查询文本。

可选地，可以基于统计方式使用大量数据训练得到所述二元语言模型，或者直接使用网上已经训练好的二元语言模型。

将对齐后的各个文本片段进行分词；

命名实体(named entity)，就是人名、机构名、地名以及其他所有以名称为标识的实体。本发明实施例的命名实体识别和知识图谱里面支持的节点对应，如果知识图谱支持存储人物、地点、机构、以及其他，那么这个命名实体识别也需要支持。

识别命名实体用于分析用户查询意图，比如用户需要从多场景个人敏感信息知识图谱中查询哪一个实体的信息？

所述命名实体识别模型包括：采用开源NLP工具的Hanlp、Jieba，或者采用特定领域定制的命名实体识别模型。

所述隐私信息包括：个人出生年月日、体重、身份证号、照片等。

所述句法解析是将文本中不同的分词通过判断词之间的依赖关系，把句法关系构建成一颗句法树，其中根节点就是句子中最为关键的节点，选择根节点是因为通过根节点可以提取出句子的骨干。

所述根节点的直接宾语可能有多个，则提取出所述根节点的多个直接宾语，以及每个直接宾语的各个修饰短语。

h_l＝f(U·x_l+W·h_l-1) (1)

y_l＝g(V·h_l) (2)

所述词向量编码嵌入可以为Word2Vev编码嵌入、BERT编码嵌入或者其他编码嵌入方式：所述f可以是Sigmoid、tanh、ReLu等激活函数：所述g通常为Softmax。

可选地，循环神经网络的超参数设置如下：输入最大长度设置为20，隐藏层维度为512，训练轮次为20，初始学习率为0.001，网络输出层维度设置为场景数目，从而得到查询语句希望的场景标签。也就是多场景个人敏感信息知识图谱里面可能包含很多场景的知识，比如医疗、信贷、社交。本发明实施例就通过用户的输入的自然语言文本，自动感知用户想要那个领域的知识(查询语句希望的场景标签)，从知识图谱里面进行查询。

本发明实施例用户以自然语言形式输入查询文本，例如：张三在社交网路上的相貌图片？本发明实施例首先通过二元语言模型进行文本错误纠正和输入构建后，通过命名实体识别、隐私信息识别、场景信息识别和修饰短语识别，得到命名实体为张三，隐私信息为相貌，场景信息为社交，修饰短语为社交网络。最后根据上述文本信息通过神经网络模型进行进行查询语句片段生成生成，将所述查询语句片段进行拼接，形成完整的知识图谱Cypher查询语句。

Cypher：一种描述性的图数据库查询语言，允许不必编写图形结构的遍历代码对图形存储有表现力和效率的查询。本发明实施例根据用户的自然语言形式的查询文本，自动形成知识图谱Cypher查询语句。

根据识别出的命名实体信息、场景信息与纠错后的查询文本，生成知识图谱查询语言Cypher的查询起始节点语句：

通常查询文本的多个命名实体中会包括开始节点，比如查询文本为：张三的身份证号是多少？张三为开始节点。但也存在查询文本不包括开始节点，比如：年龄大于25岁的有多少？

查询文本一般只包括一个开始节点，也可以包括多个开始节点，当包括多个开始节点时，根据多个开始节点生成Cypher查询起始节点语句，在所述Cypher查询起始节点语句中将多个开始节点进行并列。

比如使用“[unused1]”来标记实体的开始位置，“[unused2]”来标记实体的结束位置，将所述特殊标记接在查询文本的末尾并共享实体位置编码，比如查询文本：请问有可能泄露王某身份证号码的公司有哪些？经过处理后形成文本“请问有可能泄露王某身份证号码的公司有哪些？[unused1][unused2]”，其中，“[unused1]”位置编码与“王”字相同，比如为7；“[unused2]”位置编码与“某”字相同，比如为8。

所述深度神经网络模型分为三层，底层，可以采用比如BERT模型，对查询文本语义进行理解，并对所述特殊标记进行编码，使其包含实体的信息；中层为特征选择层，挑选出特殊标记所在位置的向量输出，比如“[unused1]”位置的向量输出；高层为多头分类层，由多个线性分类器组成，每种不同的场景都存在一个独立的分类器，确保所述深度神经网络模型在不同场景下能正确的对实体进行判断，不会互相干扰；

可选地，所述深度神经网络模型的超参数设置如下：输入最大长度设置为40，分类层输入维度为768，输出维度为2，分类器个数与场景数相同，训练轮次为20，初始学习率为0.00002，在一个分类器训练时，其他分类器权重保持不变，在分类器训练时，底层BERT网络的参数都会一起训练。

所述生成模型可以采用T5，或者其他生成模型。

采用专属场景提示信息，方便所述生成模型更好的挖掘语义信息，同时可以考虑到场景信息。

正常生成模型直接获取模型从0位置输出到结束位置的所有文本作为模型结果，但这样的方式，模型无法根据不同的场景信息生成不同的Cypher查询条件语句。使用本发明实施例基于提示学习的生成模型在模型输出的0位置预设值一段专属场景提示信息，比如当前场景为金融借贷，则在输出的0位置预设提示信息“在金融借贷场景下，Cypher查询条件语句为：”当作模型的输出，之后的模型输出会根据已有的文本进行调整，从而实现将场景信息融入到生成模型中，最终获取提示信息到结束位置的所有文本作为模型的输出结果。模型输出的提示信息会根据模型的场景进行更换。

可选地，所述生成模型超参数设置如下：输入最大长度设置为10，生成文本最大长度为20，训练轮次为20，初始学习率为0.00003。

构建一份关键词与知识图谱对应属性的映射表；

比如关键词“高度”，知识图谱对应属性为“height”，构建两者的映射表。

因为所述直接宾语可能无法获得直接的隐私信息，所以可以对直接宾语对应的内容和识别的隐私信息进行双重判断，当存在直接宾语和隐私信息重合的时候，二者结果都可以作为查询目的，如果存在二缺一，就以另外一个结果作为查询目的，如果冲突的话，优先使用直接宾语。

比如用户输入查询：李四的身高是多少？直接宾语是身高，那么用户的查询目的是：希望的查询结果是身高这个属性；如果用户输入的查询文本没法直接获取查询目的，比如：李四的爸爸的妈妈是谁？这时候就需要对“爸爸的妈妈”进行聚合，得到用户查询目的是“奶奶”这个属性。

可选地，所述聚合操作分类模型超参数设置如下：输入最大长度设置为5，循环神经网络隐藏层维度为256，输出层维度为256，上层神经网络的输入维度为256，输出维度为网络输出层维度设置为Cypher语言聚合操作数目，数量为场景数，训练轮次为20，初始学习率为0.001。

需要先判断多个查询条件之间的关系，并将生成的查询语句片段按语法进行拼接，形成完整的知识图谱Cypher查询语句。

本发明实施例还提供一种个人敏感信息知识图谱查询装置，所述装置包括：

纠错模块410，用于对用户输入的查询文本进行文本错误纠正；

输入构建模块420，用于对纠错后的查询文本进行输入构建，得到后续流程所需的特定输入格式的查询文本；

文本信息识别模块430，用于对纠错后的查询文本和具有特定输入格式的查询文本进行文本信息识别，所述文本信息识别包括：命名实体识别、隐私信息识别、修饰短语识别和场景信息识别；

查询语句片段生成模块440，用于根据识别的文本信息，进行查询语句片段生成，所述查询语句片段生成包括：查询起始节点生成、查询条件生成和查询目的生成；

拼接模块450，用于将所述查询语句片段进行拼接，形成完整的知识图谱Cypher查询语句。

本发明实施例提供的一种个人敏感信息知识图谱查询装置，其功能结构与本发明实施例提供的一种个人敏感信息知识图谱查询方法相对应，在此不再赘述。

图5是本发明实施例提供的一种电子设备500的结构示意图，该电子设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)501和一个或一个以上的存储器502，其中，所述存储器502中存储有至少一条指令，所述至少一条指令由所述处理器501加载并执行以实现上述个人敏感信息知识图谱查询方法的步骤。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述个人敏感信息知识图谱查询方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种个人敏感信息知识图谱查询方法，其特征在于，所述方法包括：

S1、对用户输入的查询文本进行文本错误纠正；

2.根据权利要求1所述的方法，其特征在于，所述s2的对纠错后的查询文本进行输入构建，得到后续流程所需的特定输入格式的查询文本，具体包括：

将对齐后的各个文本片段进行分词；

3.根据权利要求2所述的方法，其特征在于，所述S3的对纠错后的查询文本和具有特定输入格式的查询文本进行命名实体识别，具体包括：

4.根据权利要求2所述的方法，其特征在于，所述s3的对纠错后的查询文本和具有特定输入格式的查询文本进行场景信息识别，具体包括：

h_l＝f(U·x_l+W·h_l-1) (1)

y_l＝g(V·h_l) (2)

5.根据权利要求1所述的方法，其特征在于，所述s4的根据识别的文本信息，进行查询起始节点生成，具体包括：

6.根据权利要求1所述的方法，其特征在于，所述s4的根据识别的文本信息，进行查询条件生成，具体包括：

7.根据权利要求1所述的方法，其特征在于，所述S4的根据识别的文本信息，进行查询目的生成，具体包括：

构建一份关键词与知识图谱对应属性的映射表；

8.一种个人敏感信息知识图谱查询装置，其特征在于，所述装置包括：

纠错模块，用于对用户输入的查询文本进行文本错误纠正；

9.一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，其特征在于，所述至少一条指令由所述处理器加载并执行以实现如权利要求1-7任一项所述个人敏感信息知识图谱查询方法。

10.一种计算机可读存储介质，所述存储介质中存储有至少一条指令，其特征在于，所述至少一条指令由处理器加载并执行以实现如权利要求1-7任一项所述个人敏感信息知识图谱查询方法。