CN117113385B

CN117113385B - 一种应用于用户信息加密的数据提取方法及系统

Info

Publication number: CN117113385B
Application number: CN202311386429.4A
Authority: CN
Inventors: 邓丽; 涂浩; 唐丽; 刘杰
Original assignee: Chengdu Lechaoren Technology Co ltd
Current assignee: Chengdu Lechaoren Technology Co ltd
Priority date: 2023-10-25
Filing date: 2023-10-25
Publication date: 2024-03-01
Anticipated expiration: 2043-10-25
Also published as: CN117113385A

Abstract

本申请提供一种应用于用户信息加密的数据提取方法及系统，通过确定获取多个范例对话行为文本数据中的第一和第二范例文本段落，获取每个第一范例文本内容向量并转换至编码域，生成编码特征分布，获取每个第二范例文本内容向量并转换至检索域，生成检索特征分布，由此确定训练显著性指标后汇聚各范例文本内容向量，生成训练隐私文本段落向量，进而进行神经网络参数更新，生成文本隐私处理网络。任意目标用户的用户对话行为对应的目标隐私文本段落向量可以通过该文本隐私处理网络确定，并以此进行用户信息加密处理，由此可以提高对隐私信息的决策有效性，在实现有效保护用户隐私的同时，提高了信息加密的安全。

Description

一种应用于用户信息加密的数据提取方法及系统

技术领域

本申请涉及数字化信息技术领域，具体而言，涉及一种应用于用户信息加密的数据提取方法及系统。

背景技术

在当前的信息技术背景下，个人隐私数据的处理和保护是一个极其重要的议题。传统上，数据处理系统常通过对用户输入的文本数据进行分析，提取关键信息来为服务或产品提供支持，如个性化推荐、搜索优化等。

然而，这种处理方式存在明显的隐私风险。用户在交互过程中可能会无意间泄露敏感信息，如地址、联系方式、信用卡信息、账户安全沟通等，这些信息如果被恶意利用，将对用户造成极大的伤害。此外，由于数据处理通常涉及到存储、传输等步骤，这也可能成为信息泄露的潜在风险点。

目前的技术主要依赖于人工规则设定和简单的关键词匹配来实现隐私信息的检测和过滤，但这样的方法存在很大的局限性。一方面，随着网络语言的不断演变，固定的规则和关键词很难覆盖所有的隐私信息场景。另一方面，这些方法对于含义模糊或者是非直接的隐私信息表示往往束手无策。

发明内容

有鉴于此，本申请的目的在于提供一种应用于用户信息加密的数据提取方法及系统。

依据本申请的第一方面，提供一种应用于用户信息加密的数据提取方法，应用于应用于用户信息加密的数据提取系统，所述方法包括：

获取范例对话行为的多个范例对话行为文本数据，确定每个所述范例对话行为文本数据中的第一范例文本段落和除所述第一范例文本段落之外的第二范例文本段落；每个所述第一范例文本段落中涵盖所述范例对话行为的设定对话关键词；

获取各所述第一范例文本段落分别对应的第一范例文本内容向量，将各所述第一范例文本内容向量转换至编码域，生成每个所述第一范例文本内容向量的编码特征分布；

获取各所述第二范例文本段落分别对应的第二范例文本内容向量，将各所述第二范例文本内容向量转换至检索域，生成每个所述第二范例文本内容向量的检索特征分布；

基于各所述编码特征分布和各所述检索特征分布，确定所述多个范例对话行为文本数据对应的训练显著性指标；

依据所述训练显著性指标，汇聚各所述第一范例文本内容向量和各所述第二范例文本内容向量，生成所述多个范例对话行为文本数据对应的训练隐私文本段落向量；

获取所述多个范例对话行为文本数据对应的标注隐私文本段落向量，依据所述训练隐私文本段落向量与所述标注隐私文本段落向量之间的特征距离进行神经网络参数更新，生成文本隐私处理网络，并基于所述文本隐私处理网络确定任意目标用户的用户对话行为对应的目标隐私文本段落向量后，基于所述目标隐私文本段落向量进行用户信息加密处理。

在第一方面的一种可能的实施方式中，所述基于各所述编码特征分布和各所述检索特征分布，确定所述多个范例对话行为文本数据对应的训练显著性指标，包括：

确定各所述编码特征分布之间的第一特征相关度和各所述检索特征分布之间的第二特征相关度；

对于各所述编码特征分布，确定该编码特征分布分别与每个所述检索特征分布之间的语义相关度；

将各所述第一特征相关度、各所述第二特征相关度和各所述语义相关度进行加权计算，生成所述多个范例对话行为文本数据对应的训练显著性指标。

在第一方面的一种可能的实施方式中，所述将各所述第一范例文本内容向量转换至编码域，生成每个所述第一范例文本内容向量的编码特征分布，包括：

获取起始关键词影响权值，依据所述起始关键词影响权值，将各所述第一范例文本内容向量转换至编码域，生成每个所述第一范例文本内容向量的编码特征分布；

所述将各所述第二范例文本内容向量转换至检索域，生成每个所述第二范例文本内容向量的检索特征分布，包括：

获取起始搜索条件影响权值，依据所述起始搜索条件影响权值将各所述第二范例文本内容向量转换至检索域，生成每个所述第二范例文本内容向量的检索特征分布。

在第一方面的一种可能的实施方式中，所述依据所述训练隐私文本段落向量与所述标注隐私文本段落向量之间的特征距离进行神经网络参数更新，生成文本隐私处理网络，包括：

确定所述训练隐私文本段落向量与所述标注隐私文本段落向量之间的特征距离；

当所述特征距离符合设定循环要求，确定各所述编码特征分布之间的第一特征相关度，并基于各所述第一特征相关度更新所述起始关键词影响权值，生成优化后的关键词影响权值；

确定各所述检索特征分布之间的第二特征相关度，基于各所述第二特征相关度更新所述起始搜索条件影响权值，生成优化后的搜索条件影响权值；

将所述优化后的关键词影响权值作为下一轮循环阶段的起始关键词影响权值，将优化后的搜索条件影响权值作为下一轮循环阶段的起始搜索条件影响权值，返回依据所述起始关键词影响权值，将各所述第一范例文本内容向量转换至编码域的操作进行迭代，直到对应的特征距离不符合所述设定循环要求时结束，生成文本隐私处理网络。

在第一方面的一种可能的实施方式中，所述方法还包括：

获取起始文本语义影响权值，依据所述起始文本语义影响权值，将各所述第一范例文本内容向量和各所述第二范例文本内容向量分别转换至文本语义编码域，生成每个所述第一范例文本内容向量的文本隐私特征和每个所述第二范例文本内容向量的文本隐私特征；

所述依据所述训练显著性指标，汇聚各所述第一范例文本内容向量和各所述第二范例文本内容向量，生成所述多个范例对话行为文本数据对应的训练隐私文本段落向量，包括：

依据所述训练显著性指标，汇聚各所述第一范例文本内容向量的文本隐私特征和各所述第二范例文本内容向量的文本隐私特征，生成所述多个范例对话行为文本数据对应的训练隐私文本段落向量。

在第一方面的一种可能的实施方式中，所述方法还包括：

当所述特征距离符合设定循环要求，对于各所述编码特征分布，确定该编码特征分布分别与每个所述检索特征分布之间的语义相关度；

基于各所述语义相关度更新所述起始文本语义影响权值，生成优化后的文本语义影响权值；

将优化后的文本语义影响权值作为下一轮循环阶段的起始文本语义影响权值，并执行返回所述依据所述起始关键词影响权值，将各所述第一范例文本内容向量转换至编码域的步骤。

在第一方面的一种可能的实施方式中，所述确定每个所述范例对话行为文本数据中的第一范例文本段落和除所述第一范例文本段落之外的第二范例文本段落，包括：

分别提取每个所述范例对话行为文本数据的实体拆分信息；

依据每个所述范例对话行为文本数据分别对应的实体拆分信息，确定每个所述范例对话行为文本数据中的设定对话关键词，并确定每个所述范例对话行为文本数据中所述设定对话关键词所处的第一范例文本段落；

对于各所述范例对话行为文本数据，确定该范例对话行为文本数据中除相应的所述第一范例文本段落之外的第二范例文本段落。

在第一方面的一种可能的实施方式中，所述基于所述文本隐私处理网络确定任意目标用户的用户对话行为对应的目标隐私文本段落向量的步骤，包括：

获取任意目标用户的用户对话行为的多个对话行为文本数据；

依据所述文本隐私处理网络，确定每个所述对话行为文本数据中的第一隐私文本段落和除所述第一隐私文本段落之外的第二隐私文本段落；每个所述第一隐私文本段落中涵盖所述对话行为的设定对话关键词，所述文本隐私处理网络包括依据网络训练生成的隐私显著性指标；

依据所述文本隐私处理网络获取各所述第一隐私文本段落分别对应的第一文本内容向量，以及各所述第二隐私文本段落分别对应的第二文本内容向量；

依据所述文本隐私处理网络，依据所述隐私显著性指标汇聚各所述第一文本内容向量和各所述第二文本内容向量，生成所述多个对话行为文本数据对应的隐私文本段落向量。

在第一方面的一种可能的实施方式中，所述文本隐私处理网络还包括依据网络训练生成的文本语义影响权值；所述方法还包括：

依据所述文本隐私处理网络，依据所述文本语义影响权值将各所述第一文本内容向量和各所述第二文本内容向量分别转换至文本语义编码域，生成每个所述第一文本内容向量的文本隐私特征和每个所述第二文本内容向量的文本隐私特征；

所述依据所述文本隐私处理网络，依据所述隐私显著性指标汇聚各所述第一文本内容向量和各所述第二文本内容向量，生成所述多个对话行为文本数据对应的隐私文本段落向量，包括：

依据所述文本隐私处理网络，依据所述隐私显著性指标汇聚每个所述第一文本内容向量的文本隐私特征和每个所述第二文本内容向量的文本隐私特征，生成所述多个对话行为文本数据对应的隐私文本段落向量。

依据本申请的第二方面，提供一种应用于用户信息加密的数据提取系统，所述应用于用户信息加密的数据提取系统包括机器可读存储介质及处理器，所述机器可读存储介质存储有机器可执行指令，所述处理器在执行所述机器可执行指令时，该应用于用户信息加密的数据提取系统实现前述的应用于用户信息加密的数据提取方法。

依据本申请的第三方面，提供提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，当所述计算机可执行指令被执行时，实现前述的应用于用户信息加密的数据提取方法。

依据上述任意一个方面，本申请中，通过获取多个范例对话行为文本数据，并确定其中的第一和第二范例文本段落。然后，获取每个第一范例文本段落对应的第一范例文本内容向量并转换至编码域，生成编码特征分布。同样，获取每个第二范例文本段落对应的第二范例文本内容向量并转换至检索域，生成检索特征分布。接着，基于这些特征分布，确定训练显著性指标，并依据此指标汇聚各范例文本内容向量，生成训练隐私文本段落向量。最后，获取标注的隐私文本段落向量，根据其与训练隐私文本段落向量的特征距离进行神经网络参数更新，生成文本隐私处理网络。任意目标用户的用户对话行为对应的目标隐私文本段落向量可以通过该文本隐私处理网络确定，并以此进行用户信息加密处理，由此可以提高对隐私信息的决策有效性，在实现有效保护用户隐私的同时，提高了信息加密的安全。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以依据这些附图获得其它相关的附图。

图1本申请实施例所提供的应用于用户信息加密的数据提取方法的流程示意图；

图2示出了本申请实施例所提供的用于实现上述的应用于用户信息加密的数据提取方法的应用于用户信息加密的数据提取系统的组件结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将依据本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了依据本申请实施例的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其它操作，也可以从流程图中销毁一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。依据本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例，都属于本申请保护的范围。

图1示出了本申请实施例提供的应用于用户信息加密的数据提取方法的流程示意图，应当理解，在其它实施例中，本实施例的应用于用户信息加密的数据提取方法其中部分步骤的顺序可以依据实际需要相互共享，或者其中的部分步骤也可以省略或维持。该应用于用户信息加密的数据提取方法的详细包括：

步骤S110，获取范例对话行为的多个范例对话行为文本数据，确定每个所述范例对话行为文本数据中的第一范例文本段落和除所述第一范例文本段落之外的第二范例文本段落。

本实施例中，每个所述第一范例文本段落中涵盖所述范例对话行为的设定对话关键词。

例如，以对话行为为在线客服系统中的对话行为为例，在该在线客服系统中，每天都会有大量的用户与客服代表进行交流。这些对话行为都被记录下来作为范例对话行为文本数据。例如，范例对话行为文本数据中的部分文本内容可能包括：用户：“我想更改我的账户密码。”（第一范例文本段落）；客服代表：“没问题，您可以通过点击“设置”菜单，然后选择“修改密码”选项进行操作。”（第二范例文本段落）。在这个对话中，“更改”，“账户密码”可以是设定对话关键词。

步骤S120，获取各所述第一范例文本段落分别对应的第一范例文本内容向量，将各所述第一范例文本内容向量转换至编码域，生成每个所述第一范例文本内容向量的编码特征分布。

步骤S130，获取各所述第二范例文本段落分别对应的第二范例文本内容向量，将各所述第二范例文本内容向量转换至检索域，生成每个所述第二范例文本内容向量的检索特征分布。

转换至键空间和查询空间的操作主要涉及到在信息检索或者注意力机制中的概念。以下是一些具体步骤：

本实施例中，可以将各所述第一范例文本段落和各所述第二范例文本段落中的每个单词或短语从对话内容映射到一个高维向量，这种向量通常称为词嵌入，可以通过预训练的词嵌入模型（如Word2Vec，GloVe等）实现。

在此基础上，各所述第一范例文本段落分别对应的第一范例文本内容向量都会进一步通过转换至编码域从而转换成编码特征分布，可以通过一个神经网络（例如多层感知器）完成的，该神经网络被训练用于捕获和编码相关的上下文信息。

同样地，对于需要进行匹配或检索的查询，也会将各所述第二范例文本段落分别对应的第二范例文本内容向量转换至检索域从而转换成检索特征分布，可以通过一个可能与编码域特征转换使用不同参数的神经网络来完成。

例如，一种可替代的实施方式中，可以获取起始关键词影响权值，依据所述起始关键词影响权值，将各所述第一范例文本内容向量转换至编码域，生成每个所述第一范例文本内容向量的编码特征分布。同样地，可以获取起始搜索条件影响权值，依据所述起始搜索条件影响权值将各所述第二范例文本内容向量转换至检索域，生成每个所述第二范例文本内容向量的检索特征分布。

例如，假设有两组范例文本数据：第一组是用户提供的私人信息，例如"我的信用卡号是1234-5678-9012-3456"；第二组是一些非私人信息，例如"我喜欢吃苹果"。的目标是训练一个模型，当新的用户对话出现时，能够正确区分和处理这两类信息。

首先，需要确定每个词或短语的起始关键词影响权值。在这个场景中，"信用卡号"可能被认为是一个重要的关键词，因此它的影响权值应该很高。根据这些权值，可以将第一组范例文本内容向量转换至编码域，生成每个文本的编码特征分布。

然后，也需要确定每个搜索条件的起始搜索条件影响权值。在这个场景中，"苹果"可能被认为是一个重要的搜索条件，因此它的影响权值也应该很高。同样地，可以根据这些权值将第二组范例文本内容向量转换至检索域，生成每个文本的检索特征分布。

这样，通过将文本内容向量转换到编码域和检索域，就可以更好地理解和比较不同类型的信息，从而有效地保护用户的隐私。

步骤S140，基于各所述编码特征分布和各所述检索特征分布，确定所述多个范例对话行为文本数据对应的训练显著性指标。

步骤S150，依据所述训练显著性指标，汇聚各所述第一范例文本内容向量和各所述第二范例文本内容向量，生成所述多个范例对话行为文本数据对应的训练隐私文本段落向量。

步骤S160，获取所述多个范例对话行为文本数据对应的标注隐私文本段落向量，依据所述训练隐私文本段落向量与所述标注隐私文本段落向量之间的特征距离进行神经网络参数更新，生成文本隐私处理网络，并基于所述文本隐私处理网络确定任意目标用户的用户对话行为对应的目标隐私文本段落向量后，基于所述目标隐私文本段落向量进行用户信息加密处理。

例如，可以直接对用户对话行为对应的目标隐私文本段落向量进行用户信息加密处理，如针对所述目标隐私文本段落向量生成对应的密钥后进行对应的用户信息加密处理。

基于以上步骤，本实施例通过获取多个范例对话行为文本数据，并确定其中的第一和第二范例文本段落。然后，获取每个第一范例文本段落对应的第一范例文本内容向量并转换至编码域，生成编码特征分布。同样，获取每个第二范例文本段落对应的第二范例文本内容向量并转换至检索域，生成检索特征分布。接着，基于这些特征分布，确定训练显著性指标，并依据此指标汇聚各范例文本内容向量，生成训练隐私文本段落向量。最后，获取标注的隐私文本段落向量，根据其与训练隐私文本段落向量的特征距离进行神经网络参数更新，生成文本隐私处理网络。任意目标用户的用户对话行为对应的目标隐私文本段落向量可以通过该文本隐私处理网络确定，并以此进行用户信息加密处理，由此可以提高对隐私信息的决策有效性，在实现有效保护用户隐私的同时，提高了信息加密的安全。

一种可替代的实施方式中，步骤S140中，基于各所述编码特征分布和各所述检索特征分布，确定所述多个范例对话行为文本数据对应的训练显著性指标，可以通过以下示例性的子步骤实现。

子步骤S141，确定各所述编码特征分布之间的第一特征相关度和各所述检索特征分布之间的第二特征相关度。

例如，如果两个编码特征分布都代表了信用卡号相关的特征，那么它们之间的第一特征相关度就应该很高。同样，如果两个检索特征分布都代表了用户的住址相关的特征，那么它们之间的第二特征相关度也应该很高。

子步骤S142，对于各所述编码特征分布，确定该编码特征分布分别与每个所述检索特征分布之间的语义相关度。

例如，如果一个编码特征分布代表了信用卡号相关的特征，而一个检索特征分布代表了用户的住址相关的特征，那么它们之间的语义相关度可能就较低。因为信用卡号相关的特征和住址相关的特征在语义上没有太大的关联。

子步骤S143，将各所述第一特征相关度、各所述第二特征相关度和各所述语义相关度进行加权计算，生成所述多个范例对话行为文本数据对应的训练显著性指标。

例如，如果认为语义相关度更重要，那么在加权计算时就可以给它分配更高的权重。

这样，可以得到每个范例对话行为文本数据的训练显著性指标，这个训练显著性指标可以反映出该范例对话行为文本数据中含有的敏感信息的重要程度，基于这个指标，就可以训练出一个能够有效检测和加密敏感信息的文本隐私处理网络。

一种可替代的实施方式中，在步骤S160中，依据所述训练隐私文本段落向量与所述标注隐私文本段落向量之间的特征距离进行神经网络参数更新，生成文本隐私处理网络，可以通过以下示例性的子步骤实现。

子步骤S161，确定所述训练隐私文本段落向量与所述标注隐私文本段落向量之间的特征距离。

子步骤S162，当所述特征距离符合设定循环要求，确定各所述编码特征分布之间的第一特征相关度，并基于各所述第一特征相关度更新所述起始关键词影响权值，生成优化后的关键词影响权值。

子步骤S163，确定各所述检索特征分布之间的第二特征相关度，基于各所述第二特征相关度更新所述起始搜索条件影响权值，生成优化后的搜索条件影响权值。

子步骤S164，将所述优化后的关键词影响权值作为下一轮循环阶段的起始关键词影响权值，将优化后的搜索条件影响权值作为下一轮循环阶段的起始搜索条件影响权值，返回依据所述起始关键词影响权值，将各所述第一范例文本内容向量转换至编码域的操作进行迭代，直到对应的特征距离不符合所述设定循环要求时结束，生成文本隐私处理网络。

本实施例中，当特征距离符合设定的循环要求时（比如特征距离足够小），则会进一步确定各编码特征分布之间的第一特征相关度，并基于这些第一特征相关度来更新起始关键词影响权值。这个过程可能涉及到类似于梯度下降的优化算法，不断调整权值以最小化特征距离。

同时，也会确定各检索特征分布之间的第二特征相关度，并基于这些第二特征相关度来更新起始搜索条件影响权值。这个过程同样可能涉及到类似于梯度下降的优化算法。

然后，将优化后的关键词影响权值和搜索条件影响权值作为下一轮循环阶段的起始权值，再次进行操作迭代，直到对应的特征距离不再符合设定的循环要求为止。

通过这个过程，可以生成一个能够对用户文本进行有效隐私特征决策处理的文本隐私处理网络，该文本隐私处理网络能够根据用户输入的内容，自动判断用户的隐私信息。

进一步地，在以上描述的基础上，本实施例还可以获取起始文本语义影响权值，依据所述起始文本语义影响权值，将各所述第一范例文本内容向量和各所述第二范例文本内容向量分别转换至文本语义编码域，生成每个所述第一范例文本内容向量的文本隐私特征和每个所述第二范例文本内容向量的文本隐私特征。

其中，文本语义影响权值可能根据不同的上下文、话题或者用户需求有所不同。然后依据这个文本语义影响权值，将第一范例文本内容向量和第二范例文本内容向量分别转换至文本语义编码域，生成每个范例文本内容向量的文本隐私特征。这个过程可能涉及到一些自然语言处理技术，比如词嵌入、句子嵌入等。

在此基础上针对步骤S150，可以依据所述训练显著性指标，汇聚各所述第一范例文本内容向量的文本隐私特征和各所述第二范例文本内容向量的文本隐私特征，生成所述多个范例对话行为文本数据对应的训练隐私文本段落向量。

例如，这个过程实际上是一个特征融合的过程，训练显著性指标在这里作为汇聚权重使用，可以帮助识别哪些特征更重要。举个例子，假设有两个范例文本内容向量A和B，他们的文本隐私特征分别是A'和B'，并且已经得到了训练显著性指标W。

首先，会依据W对A'和B'进行加权，具体来说，如果W中对应A'的权重大于对应B'的权重，那么在最终的训练隐私文本段落向量中，A'的影响就会大于B'。反之亦然。

接下来，将加权后的A'和B'进行汇聚，这一步可以通过多种方式完成，例如简单的相加、取平均、或者更复杂的神经网络结构。

最后，生成的结果就是需要的训练隐私文本段落向量。这个向量包含了所有范例对话行为文本数据的重要信息，并且尽可能地保护了用户的隐私。

总结起来，依据训练显著性指标，汇聚各所述第一范例文本内容向量的文本隐私特征和各所述第二范例文本内容向量的文本隐私特征，生成所述多个范例对话行为文本数据对应的训练隐私文本段落向量，主要是通过特征加权和汇聚技术实现的。

进一步地，在以上描述的基础上，当所述特征距离符合设定循环要求，对于各所述编码特征分布，确定该编码特征分布分别与每个所述检索特征分布之间的语义相关度，基于各所述语义相关度更新所述起始文本语义影响权值，生成优化后的文本语义影响权值，将优化后的文本语义影响权值作为下一轮循环阶段的起始文本语义影响权值，并执行返回所述依据所述起始关键词影响权值，将各所述第一范例文本内容向量转换至编码域的步骤。

例如，当特征距离满足设定的循环要求，需要对每个编码特征分布进行处理。这里的编码特征分布是指通过神经网络训练得到的隐私文本段落向量在键空间和查询空间中的表现。

然后，确定该编码特征分布与每个检索特征分布之间的语义相关度。检索特征分布是根据搜索条件和起始关键词影响权值得出的，在键空间和查询空间中表示待查找信息的向量。

然后，基于每个语义相关度，更新起始文本语义影响权值，生成优化后的文本语义影响权值。这一步的目标是降低原始文本中可能泄露隐私信息的部分的权重，增加其他无关但有助于混淆隐私信息的部分的权重。

然后，将优化后的文本语义影响权值作为下一轮循环阶段的起始文本语义影响权值。这意味着在下一轮循环中，会基于这个新的权值来生成新的编码特征分布和检索特征分布。之后，返回至第一步，依据新的起始关键词影响权值，将各第一范例文本内容向量转换至编码域，然后重复上述过程。通过这样的迭代过程，可以不断优化文本语义影响权值，使得AI技术在处理文本数据时能更好地保护用户隐私。

进一步地，在以上描述的基础上，确定每个所述范例对话行为文本数据中的第一范例文本段落和除所述第一范例文本段落之外的第二范例文本段落，包括：分别提取每个所述范例对话行为文本数据的实体拆分信息。依据每个所述范例对话行为文本数据分别对应的实体拆分信息，确定每个所述范例对话行为文本数据中的设定对话关键词，并确定每个所述范例对话行为文本数据中所述设定对话关键词所处的第一范例文本段落。对于各所述范例对话行为文本数据，确定该范例对话行为文本数据中除相应的所述第一范例文本段落之外的第二范例文本段落。

一种可替代的实施方式中，步骤S160中，基于所述文本隐私处理网络确定任意目标用户的用户对话行为对应的目标隐私文本段落向量可以参考以下示例性的子步骤。

子步骤S161，获取任意目标用户的用户对话行为的多个对话行为文本数据。

子步骤S162，依据所述文本隐私处理网络，确定每个所述对话行为文本数据中的第一隐私文本段落和除所述第一隐私文本段落之外的第二隐私文本段落。每个所述第一隐私文本段落中涵盖所述对话行为的设定对话关键词，所述文本隐私处理网络包括依据网络训练生成的隐私显著性指标。

子步骤S163，依据所述文本隐私处理网络获取各所述第一隐私文本段落分别对应的第一文本内容向量，以及各所述第二隐私文本段落分别对应的第二文本内容向量。

子步骤S164，依据所述文本隐私处理网络，依据所述隐私显著性指标汇聚各所述第一文本内容向量和各所述第二文本内容向量，生成所述多个对话行为文本数据对应的隐私文本段落向量。

本实施例中，还可以进一步依据所述文本隐私处理网络，依据所述文本语义影响权值将各所述第一文本内容向量和各所述第二文本内容向量分别转换至文本语义编码域，生成每个所述第一文本内容向量的文本隐私特征和每个所述第二文本内容向量的文本隐私特征。

由此，在子步骤S164中，可以依据所述文本隐私处理网络，依据所述隐私显著性指标汇聚每个所述第一文本内容向量的文本隐私特征和每个所述第二文本内容向量的文本隐私特征，生成所述多个对话行为文本数据对应的隐私文本段落向量。

图2示意性地示出了可被用于实现本申请中所述的各个实施例的应用于用户信息加密的数据提取系统100。

对于一个实施例，图2示出了应用于用户信息加密的数据提取系统100，该应用于用户信息加密的数据提取系统100具有一个或多个处理器102、被耦合到(一个或多个)处理器102中的一个或多个的控制模块(芯片组)104、被耦合到控制模块104的存储器106、被耦合到控制模块104的非易失性存储器(NVM)/存储设备108、被耦合到控制模块104的一个或多个输入/输出设备110，和被耦合到控制模块104的网络接口112。

处理器102可包括一个或多个单核或多核处理器，处理器102可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。一些示例性的设计思路中，应用于用户信息加密的数据提取系统100能够作为本申请实施例中所述网关等服务器设备。

一些示例性的设计思路中，应用于用户信息加密的数据提取系统100可包括具有指令114的一个或多个计算机可读介质(例如，存储器106或NVM/存储设备108)和与该一个或多个计算机可读介质相汇聚被配置为执行指令114以实现模块从而执行本公开中所述的动作的一个或多个处理器102。

对于一个实施例，控制模块104可包括任意适当的接口控制器，以向(一个或多个)处理器102中的一个或多个和/或与控制模块104通信的任意适当的设备或组件提供任意适当的接口。

控制模块104可包括存储器控制器模块，以向存储器106提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

存储器106可被用于例如为应用于用户信息加密的数据提取系统100加载和存储数据和/或指令114。对于一个实施例，存储器106可包括任意适当的易失性存储器，例如，适当的DRAM。一些示例性的设计思路中，存储器106可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，控制模块104可包括一个或多个输入/输出控制器，以向NVM/存储设备108及(一个或多个)输入/输出设备110提供接口。

例如，NVM/存储设备108可被用于存储数据和/或指令114。NVM/存储设备108可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备108可包括在物理上作为应用于用户信息加密的数据提取系统100被安装在其上的设备的一部分的存储资源，或者其可被该设备访问可不必作为该设备的一部分。例如，NVM/存储设备108可依据网络经由(一个或多个)输入/输出设备110进行访问。

(一个或多个)输入/输出设备110可为应用于用户信息加密的数据提取系统100提供接口以与任意其它适当的设备通信，输入/输出设备110可以包括通信组件、拼音组件、传感器组件等。网络接口112可为应用于用户信息加密的数据提取系统100提供接口以依据一个或多个网络通信，应用于用户信息加密的数据提取系统100可依据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入依据通信标准的无线网络，或它们的组合进行无线通信。

对于一个实施例，(一个或多个)处理器102中的一个或多个可与控制模块104的一个或多个控制器(例如，存储器控制器模块)的逻辑加载在一起。对于一个实施例，(一个或多个)处理器102中的一个或多个可与控制模块104的一个或多个控制器的逻辑加载在一起以形成系统级加载。对于一个实施例，(一个或多个)处理器102中的一个或多个可与控制模块104的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器102中的一个或多个可与控制模块104的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。

在各个实施例中，应用于用户信息加密的数据提取系统100可以但不限于是：服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中，应用于用户信息加密的数据提取系统100可具有更多或更少的组件和/或不同的架构。例如，一些示例性的设计思路中，应用于用户信息加密的数据提取系统100包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种应用于用户信息加密的数据提取方法，其特征在于，应用于应用于用户信息加密的数据提取系统，所述方法包括：

2.根据权利要求1所述的应用于用户信息加密的数据提取方法，其特征在于，所述基于各所述编码特征分布和各所述检索特征分布，确定所述多个范例对话行为文本数据对应的训练显著性指标，包括：

3.根据权利要求1所述的应用于用户信息加密的数据提取方法，其特征在于，所述将各所述第一范例文本内容向量转换至编码域，生成每个所述第一范例文本内容向量的编码特征分布，包括：

4.根据权利要求3所述的应用于用户信息加密的数据提取方法，其特征在于，所述依据所述训练隐私文本段落向量与所述标注隐私文本段落向量之间的特征距离进行神经网络参数更新，生成文本隐私处理网络，包括：

5.根据权利要求4所述的应用于用户信息加密的数据提取方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的应用于用户信息加密的数据提取方法，其特征在于，所述方法还包括：

7.根据权利要求1至6任意一项所述的应用于用户信息加密的数据提取方法，其特征在于，所述确定每个所述范例对话行为文本数据中的第一范例文本段落和除所述第一范例文本段落之外的第二范例文本段落，包括：

分别提取每个所述范例对话行为文本数据的实体拆分信息；

8.根据权利要求1至6任意一项所述的应用于用户信息加密的数据提取方法，其特征在于，所述基于所述文本隐私处理网络确定任意目标用户的用户对话行为对应的目标隐私文本段落向量的步骤，包括：

9.根据权利要求8所述的应用于用户信息加密的数据提取方法，其特征在于，所述文本隐私处理网络还包括依据网络训练生成的文本语义影响权值；所述方法还包括：

10.一种应用于用户信息加密的数据提取系统，其特征在于，包括处理器以及计算机可读存储介质，所述计算机可读存储介质存储有机器可执行指令，所述机器可执行指令被处理器执行时实现权利要求1-8中任意一项所述的应用于用户信息加密的数据提取方法。