CN117113385B - 一种应用于用户信息加密的数据提取方法及系统 - Google Patents
一种应用于用户信息加密的数据提取方法及系统 Download PDFInfo
- Publication number
- CN117113385B CN117113385B CN202311386429.4A CN202311386429A CN117113385B CN 117113385 B CN117113385 B CN 117113385B CN 202311386429 A CN202311386429 A CN 202311386429A CN 117113385 B CN117113385 B CN 117113385B
- Authority
- CN
- China
- Prior art keywords
- text
- privacy
- paragraph
- dialogue
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013075 data extraction Methods 0.000 title claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 197
- 238000009826 distribution Methods 0.000 claims abstract description 83
- 238000012545 processing Methods 0.000 claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 57
- 230000009471 action Effects 0.000 claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 claims abstract description 13
- 230000006399 behavior Effects 0.000 claims description 45
- 238000003860 storage Methods 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 241000220225 Malus Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Bioethics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种应用于用户信息加密的数据提取方法及系统,通过确定获取多个范例对话行为文本数据中的第一和第二范例文本段落,获取每个第一范例文本内容向量并转换至编码域,生成编码特征分布,获取每个第二范例文本内容向量并转换至检索域,生成检索特征分布,由此确定训练显著性指标后汇聚各范例文本内容向量,生成训练隐私文本段落向量,进而进行神经网络参数更新,生成文本隐私处理网络。任意目标用户的用户对话行为对应的目标隐私文本段落向量可以通过该文本隐私处理网络确定,并以此进行用户信息加密处理,由此可以提高对隐私信息的决策有效性,在实现有效保护用户隐私的同时,提高了信息加密的安全。
Description
技术领域
本申请涉及数字化信息技术领域,具体而言,涉及一种应用于用户信息加密的数据提取方法及系统。
背景技术
在当前的信息技术背景下,个人隐私数据的处理和保护是一个极其重要的议题。传统上,数据处理系统常通过对用户输入的文本数据进行分析,提取关键信息来为服务或产品提供支持,如个性化推荐、搜索优化等。
然而,这种处理方式存在明显的隐私风险。用户在交互过程中可能会无意间泄露敏感信息,如地址、联系方式、信用卡信息、账户安全沟通等,这些信息如果被恶意利用,将对用户造成极大的伤害。此外,由于数据处理通常涉及到存储、传输等步骤,这也可能成为信息泄露的潜在风险点。
目前的技术主要依赖于人工规则设定和简单的关键词匹配来实现隐私信息的检测和过滤,但这样的方法存在很大的局限性。一方面,随着网络语言的不断演变,固定的规则和关键词很难覆盖所有的隐私信息场景。另一方面,这些方法对于含义模糊或者是非直接的隐私信息表示往往束手无策。
发明内容
有鉴于此,本申请的目的在于提供一种应用于用户信息加密的数据提取方法及系统。
依据本申请的第一方面,提供一种应用于用户信息加密的数据提取方法,应用于应用于用户信息加密的数据提取系统,所述方法包括:
获取范例对话行为的多个范例对话行为文本数据,确定每个所述范例对话行为文本数据中的第一范例文本段落和除所述第一范例文本段落之外的第二范例文本段落;每个所述第一范例文本段落中涵盖所述范例对话行为的设定对话关键词;
获取各所述第一范例文本段落分别对应的第一范例文本内容向量,将各所述第一范例文本内容向量转换至编码域,生成每个所述第一范例文本内容向量的编码特征分布;
获取各所述第二范例文本段落分别对应的第二范例文本内容向量,将各所述第二范例文本内容向量转换至检索域,生成每个所述第二范例文本内容向量的检索特征分布;
基于各所述编码特征分布和各所述检索特征分布,确定所述多个范例对话行为文本数据对应的训练显著性指标;
依据所述训练显著性指标,汇聚各所述第一范例文本内容向量和各所述第二范例文本内容向量,生成所述多个范例对话行为文本数据对应的训练隐私文本段落向量;
获取所述多个范例对话行为文本数据对应的标注隐私文本段落向量,依据所述训练隐私文本段落向量与所述标注隐私文本段落向量之间的特征距离进行神经网络参数更新,生成文本隐私处理网络,并基于所述文本隐私处理网络确定任意目标用户的用户对话行为对应的目标隐私文本段落向量后,基于所述目标隐私文本段落向量进行用户信息加密处理。
在第一方面的一种可能的实施方式中,所述基于各所述编码特征分布和各所述检索特征分布,确定所述多个范例对话行为文本数据对应的训练显著性指标,包括:
确定各所述编码特征分布之间的第一特征相关度和各所述检索特征分布之间的第二特征相关度;
对于各所述编码特征分布,确定该编码特征分布分别与每个所述检索特征分布之间的语义相关度;
将各所述第一特征相关度、各所述第二特征相关度和各所述语义相关度进行加权计算,生成所述多个范例对话行为文本数据对应的训练显著性指标。
在第一方面的一种可能的实施方式中,所述将各所述第一范例文本内容向量转换至编码域,生成每个所述第一范例文本内容向量的编码特征分布,包括:
获取起始关键词影响权值,依据所述起始关键词影响权值,将各所述第一范例文本内容向量转换至编码域,生成每个所述第一范例文本内容向量的编码特征分布;
所述将各所述第二范例文本内容向量转换至检索域,生成每个所述第二范例文本内容向量的检索特征分布,包括:
获取起始搜索条件影响权值,依据所述起始搜索条件影响权值将各所述第二范例文本内容向量转换至检索域,生成每个所述第二范例文本内容向量的检索特征分布。
在第一方面的一种可能的实施方式中,所述依据所述训练隐私文本段落向量与所述标注隐私文本段落向量之间的特征距离进行神经网络参数更新,生成文本隐私处理网络,包括:
确定所述训练隐私文本段落向量与所述标注隐私文本段落向量之间的特征距离;
当所述特征距离符合设定循环要求,确定各所述编码特征分布之间的第一特征相关度,并基于各所述第一特征相关度更新所述起始关键词影响权值,生成优化后的关键词影响权值;
确定各所述检索特征分布之间的第二特征相关度,基于各所述第二特征相关度更新所述起始搜索条件影响权值,生成优化后的搜索条件影响权值;
将所述优化后的关键词影响权值作为下一轮循环阶段的起始关键词影响权值,将优化后的搜索条件影响权值作为下一轮循环阶段的起始搜索条件影响权值,返回依据所述起始关键词影响权值,将各所述第一范例文本内容向量转换至编码域的操作进行迭代,直到对应的特征距离不符合所述设定循环要求时结束,生成文本隐私处理网络。
在第一方面的一种可能的实施方式中,所述方法还包括:
获取起始文本语义影响权值,依据所述起始文本语义影响权值,将各所述第一范例文本内容向量和各所述第二范例文本内容向量分别转换至文本语义编码域,生成每个所述第一范例文本内容向量的文本隐私特征和每个所述第二范例文本内容向量的文本隐私特征;
所述依据所述训练显著性指标,汇聚各所述第一范例文本内容向量和各所述第二范例文本内容向量,生成所述多个范例对话行为文本数据对应的训练隐私文本段落向量,包括:
依据所述训练显著性指标,汇聚各所述第一范例文本内容向量的文本隐私特征和各所述第二范例文本内容向量的文本隐私特征,生成所述多个范例对话行为文本数据对应的训练隐私文本段落向量。
在第一方面的一种可能的实施方式中,所述方法还包括:
当所述特征距离符合设定循环要求,对于各所述编码特征分布,确定该编码特征分布分别与每个所述检索特征分布之间的语义相关度;
基于各所述语义相关度更新所述起始文本语义影响权值,生成优化后的文本语义影响权值;
将优化后的文本语义影响权值作为下一轮循环阶段的起始文本语义影响权值,并执行返回所述依据所述起始关键词影响权值,将各所述第一范例文本内容向量转换至编码域的步骤。
在第一方面的一种可能的实施方式中,所述确定每个所述范例对话行为文本数据中的第一范例文本段落和除所述第一范例文本段落之外的第二范例文本段落,包括:
分别提取每个所述范例对话行为文本数据的实体拆分信息;
依据每个所述范例对话行为文本数据分别对应的实体拆分信息,确定每个所述范例对话行为文本数据中的设定对话关键词,并确定每个所述范例对话行为文本数据中所述设定对话关键词所处的第一范例文本段落;
对于各所述范例对话行为文本数据,确定该范例对话行为文本数据中除相应的所述第一范例文本段落之外的第二范例文本段落。
在第一方面的一种可能的实施方式中,所述基于所述文本隐私处理网络确定任意目标用户的用户对话行为对应的目标隐私文本段落向量的步骤,包括:
获取任意目标用户的用户对话行为的多个对话行为文本数据;
依据所述文本隐私处理网络,确定每个所述对话行为文本数据中的第一隐私文本段落和除所述第一隐私文本段落之外的第二隐私文本段落;每个所述第一隐私文本段落中涵盖所述对话行为的设定对话关键词,所述文本隐私处理网络包括依据网络训练生成的隐私显著性指标;
依据所述文本隐私处理网络获取各所述第一隐私文本段落分别对应的第一文本内容向量,以及各所述第二隐私文本段落分别对应的第二文本内容向量;
依据所述文本隐私处理网络,依据所述隐私显著性指标汇聚各所述第一文本内容向量和各所述第二文本内容向量,生成所述多个对话行为文本数据对应的隐私文本段落向量。
在第一方面的一种可能的实施方式中,所述文本隐私处理网络还包括依据网络训练生成的文本语义影响权值;所述方法还包括:
依据所述文本隐私处理网络,依据所述文本语义影响权值将各所述第一文本内容向量和各所述第二文本内容向量分别转换至文本语义编码域,生成每个所述第一文本内容向量的文本隐私特征和每个所述第二文本内容向量的文本隐私特征;
所述依据所述文本隐私处理网络,依据所述隐私显著性指标汇聚各所述第一文本内容向量和各所述第二文本内容向量,生成所述多个对话行为文本数据对应的隐私文本段落向量,包括:
依据所述文本隐私处理网络,依据所述隐私显著性指标汇聚每个所述第一文本内容向量的文本隐私特征和每个所述第二文本内容向量的文本隐私特征,生成所述多个对话行为文本数据对应的隐私文本段落向量。
依据本申请的第二方面,提供一种应用于用户信息加密的数据提取系统,所述应用于用户信息加密的数据提取系统包括机器可读存储介质及处理器,所述机器可读存储介质存储有机器可执行指令,所述处理器在执行所述机器可执行指令时,该应用于用户信息加密的数据提取系统实现前述的应用于用户信息加密的数据提取方法。
依据本申请的第三方面,提供提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,当所述计算机可执行指令被执行时,实现前述的应用于用户信息加密的数据提取方法。
依据上述任意一个方面,本申请中,通过获取多个范例对话行为文本数据,并确定其中的第一和第二范例文本段落。然后,获取每个第一范例文本段落对应的第一范例文本内容向量并转换至编码域,生成编码特征分布。同样,获取每个第二范例文本段落对应的第二范例文本内容向量并转换至检索域,生成检索特征分布。接着,基于这些特征分布,确定训练显著性指标,并依据此指标汇聚各范例文本内容向量,生成训练隐私文本段落向量。最后,获取标注的隐私文本段落向量,根据其与训练隐私文本段落向量的特征距离进行神经网络参数更新,生成文本隐私处理网络。任意目标用户的用户对话行为对应的目标隐私文本段落向量可以通过该文本隐私处理网络确定,并以此进行用户信息加密处理,由此可以提高对隐私信息的决策有效性,在实现有效保护用户隐私的同时,提高了信息加密的安全。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以依据这些附图获得其它相关的附图。
图1本申请实施例所提供的应用于用户信息加密的数据提取方法的流程示意图;
图2示出了本申请实施例所提供的用于实现上述的应用于用户信息加密的数据提取方法的应用于用户信息加密的数据提取系统的组件结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将依据本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了依据本申请实施例的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其它操作,也可以从流程图中销毁一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。依据本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本申请保护的范围。
图1示出了本申请实施例提供的应用于用户信息加密的数据提取方法的流程示意图,应当理解,在其它实施例中,本实施例的应用于用户信息加密的数据提取方法其中部分步骤的顺序可以依据实际需要相互共享,或者其中的部分步骤也可以省略或维持。该应用于用户信息加密的数据提取方法的详细包括:
步骤S110,获取范例对话行为的多个范例对话行为文本数据,确定每个所述范例对话行为文本数据中的第一范例文本段落和除所述第一范例文本段落之外的第二范例文本段落。
本实施例中,每个所述第一范例文本段落中涵盖所述范例对话行为的设定对话关键词。
例如,以对话行为为在线客服系统中的对话行为为例,在该在线客服系统中,每天都会有大量的用户与客服代表进行交流。这些对话行为都被记录下来作为范例对话行为文本数据。例如,范例对话行为文本数据中的部分文本内容可能包括:用户:“我想更改我的账户密码。”(第一范例文本段落);客服代表:“没问题,您可以通过点击“设置”菜单,然后选择“修改密码”选项进行操作。”(第二范例文本段落)。在这个对话中,“更改”,“账户密码”可以是设定对话关键词。
步骤S120,获取各所述第一范例文本段落分别对应的第一范例文本内容向量,将各所述第一范例文本内容向量转换至编码域,生成每个所述第一范例文本内容向量的编码特征分布。
步骤S130,获取各所述第二范例文本段落分别对应的第二范例文本内容向量,将各所述第二范例文本内容向量转换至检索域,生成每个所述第二范例文本内容向量的检索特征分布。
转换至键空间和查询空间的操作主要涉及到在信息检索或者注意力机制中的概念。以下是一些具体步骤:
本实施例中,可以将各所述第一范例文本段落和各所述第二范例文本段落中的每个单词或短语从对话内容映射到一个高维向量,这种向量通常称为词嵌入,可以通过预训练的词嵌入模型(如Word2Vec,GloVe等)实现。
在此基础上,各所述第一范例文本段落分别对应的第一范例文本内容向量都会进一步通过转换至编码域从而转换成编码特征分布,可以通过一个神经网络(例如多层感知器)完成的,该神经网络被训练用于捕获和编码相关的上下文信息。
同样地,对于需要进行匹配或检索的查询,也会将各所述第二范例文本段落分别对应的第二范例文本内容向量转换至检索域从而转换成检索特征分布,可以通过一个可能与编码域特征转换使用不同参数的神经网络来完成。
例如,一种可替代的实施方式中,可以获取起始关键词影响权值,依据所述起始关键词影响权值,将各所述第一范例文本内容向量转换至编码域,生成每个所述第一范例文本内容向量的编码特征分布。同样地,可以获取起始搜索条件影响权值,依据所述起始搜索条件影响权值将各所述第二范例文本内容向量转换至检索域,生成每个所述第二范例文本内容向量的检索特征分布。
例如,假设有两组范例文本数据:第一组是用户提供的私人信息,例如"我的信用卡号是1234-5678-9012-3456";第二组是一些非私人信息,例如"我喜欢吃苹果"。的目标是训练一个模型,当新的用户对话出现时,能够正确区分和处理这两类信息。
首先,需要确定每个词或短语的起始关键词影响权值。在这个场景中,"信用卡号"可能被认为是一个重要的关键词,因此它的影响权值应该很高。根据这些权值,可以将第一组范例文本内容向量转换至编码域,生成每个文本的编码特征分布。
然后,也需要确定每个搜索条件的起始搜索条件影响权值。在这个场景中,"苹果"可能被认为是一个重要的搜索条件,因此它的影响权值也应该很高。同样地,可以根据这些权值将第二组范例文本内容向量转换至检索域,生成每个文本的检索特征分布。
这样,通过将文本内容向量转换到编码域和检索域,就可以更好地理解和比较不同类型的信息,从而有效地保护用户的隐私。
步骤S140,基于各所述编码特征分布和各所述检索特征分布,确定所述多个范例对话行为文本数据对应的训练显著性指标。
步骤S150,依据所述训练显著性指标,汇聚各所述第一范例文本内容向量和各所述第二范例文本内容向量,生成所述多个范例对话行为文本数据对应的训练隐私文本段落向量。
步骤S160,获取所述多个范例对话行为文本数据对应的标注隐私文本段落向量,依据所述训练隐私文本段落向量与所述标注隐私文本段落向量之间的特征距离进行神经网络参数更新,生成文本隐私处理网络,并基于所述文本隐私处理网络确定任意目标用户的用户对话行为对应的目标隐私文本段落向量后,基于所述目标隐私文本段落向量进行用户信息加密处理。
例如,可以直接对用户对话行为对应的目标隐私文本段落向量进行用户信息加密处理,如针对所述目标隐私文本段落向量生成对应的密钥后进行对应的用户信息加密处理。
基于以上步骤,本实施例通过获取多个范例对话行为文本数据,并确定其中的第一和第二范例文本段落。然后,获取每个第一范例文本段落对应的第一范例文本内容向量并转换至编码域,生成编码特征分布。同样,获取每个第二范例文本段落对应的第二范例文本内容向量并转换至检索域,生成检索特征分布。接着,基于这些特征分布,确定训练显著性指标,并依据此指标汇聚各范例文本内容向量,生成训练隐私文本段落向量。最后,获取标注的隐私文本段落向量,根据其与训练隐私文本段落向量的特征距离进行神经网络参数更新,生成文本隐私处理网络。任意目标用户的用户对话行为对应的目标隐私文本段落向量可以通过该文本隐私处理网络确定,并以此进行用户信息加密处理,由此可以提高对隐私信息的决策有效性,在实现有效保护用户隐私的同时,提高了信息加密的安全。
一种可替代的实施方式中,步骤S140中,基于各所述编码特征分布和各所述检索特征分布,确定所述多个范例对话行为文本数据对应的训练显著性指标,可以通过以下示例性的子步骤实现。
子步骤S141,确定各所述编码特征分布之间的第一特征相关度和各所述检索特征分布之间的第二特征相关度。
例如,如果两个编码特征分布都代表了信用卡号相关的特征,那么它们之间的第一特征相关度就应该很高。同样,如果两个检索特征分布都代表了用户的住址相关的特征,那么它们之间的第二特征相关度也应该很高。
子步骤S142,对于各所述编码特征分布,确定该编码特征分布分别与每个所述检索特征分布之间的语义相关度。
例如,如果一个编码特征分布代表了信用卡号相关的特征,而一个检索特征分布代表了用户的住址相关的特征,那么它们之间的语义相关度可能就较低。因为信用卡号相关的特征和住址相关的特征在语义上没有太大的关联。
子步骤S143,将各所述第一特征相关度、各所述第二特征相关度和各所述语义相关度进行加权计算,生成所述多个范例对话行为文本数据对应的训练显著性指标。
例如,如果认为语义相关度更重要,那么在加权计算时就可以给它分配更高的权重。
这样,可以得到每个范例对话行为文本数据的训练显著性指标,这个训练显著性指标可以反映出该范例对话行为文本数据中含有的敏感信息的重要程度,基于这个指标,就可以训练出一个能够有效检测和加密敏感信息的文本隐私处理网络。
一种可替代的实施方式中,在步骤S160中,依据所述训练隐私文本段落向量与所述标注隐私文本段落向量之间的特征距离进行神经网络参数更新,生成文本隐私处理网络,可以通过以下示例性的子步骤实现。
子步骤S161,确定所述训练隐私文本段落向量与所述标注隐私文本段落向量之间的特征距离。
子步骤S162,当所述特征距离符合设定循环要求,确定各所述编码特征分布之间的第一特征相关度,并基于各所述第一特征相关度更新所述起始关键词影响权值,生成优化后的关键词影响权值。
子步骤S163,确定各所述检索特征分布之间的第二特征相关度,基于各所述第二特征相关度更新所述起始搜索条件影响权值,生成优化后的搜索条件影响权值。
子步骤S164,将所述优化后的关键词影响权值作为下一轮循环阶段的起始关键词影响权值,将优化后的搜索条件影响权值作为下一轮循环阶段的起始搜索条件影响权值,返回依据所述起始关键词影响权值,将各所述第一范例文本内容向量转换至编码域的操作进行迭代,直到对应的特征距离不符合所述设定循环要求时结束,生成文本隐私处理网络。
本实施例中,当特征距离符合设定的循环要求时(比如特征距离足够小),则会进一步确定各编码特征分布之间的第一特征相关度,并基于这些第一特征相关度来更新起始关键词影响权值。这个过程可能涉及到类似于梯度下降的优化算法,不断调整权值以最小化特征距离。
同时,也会确定各检索特征分布之间的第二特征相关度,并基于这些第二特征相关度来更新起始搜索条件影响权值。这个过程同样可能涉及到类似于梯度下降的优化算法。
然后,将优化后的关键词影响权值和搜索条件影响权值作为下一轮循环阶段的起始权值,再次进行操作迭代,直到对应的特征距离不再符合设定的循环要求为止。
通过这个过程,可以生成一个能够对用户文本进行有效隐私特征决策处理的文本隐私处理网络,该文本隐私处理网络能够根据用户输入的内容,自动判断用户的隐私信息。
进一步地,在以上描述的基础上,本实施例还可以获取起始文本语义影响权值,依据所述起始文本语义影响权值,将各所述第一范例文本内容向量和各所述第二范例文本内容向量分别转换至文本语义编码域,生成每个所述第一范例文本内容向量的文本隐私特征和每个所述第二范例文本内容向量的文本隐私特征。
其中,文本语义影响权值可能根据不同的上下文、话题或者用户需求有所不同。然后依据这个文本语义影响权值,将第一范例文本内容向量和第二范例文本内容向量分别转换至文本语义编码域,生成每个范例文本内容向量的文本隐私特征。这个过程可能涉及到一些自然语言处理技术,比如词嵌入、句子嵌入等。
在此基础上针对步骤S150,可以依据所述训练显著性指标,汇聚各所述第一范例文本内容向量的文本隐私特征和各所述第二范例文本内容向量的文本隐私特征,生成所述多个范例对话行为文本数据对应的训练隐私文本段落向量。
例如,这个过程实际上是一个特征融合的过程,训练显著性指标在这里作为汇聚权重使用,可以帮助识别哪些特征更重要。举个例子,假设有两个范例文本内容向量A和B,他们的文本隐私特征分别是A'和B',并且已经得到了训练显著性指标W。
首先,会依据W对A'和B'进行加权,具体来说,如果W中对应A'的权重大于对应B'的权重,那么在最终的训练隐私文本段落向量中,A'的影响就会大于B'。反之亦然。
接下来,将加权后的A'和B'进行汇聚,这一步可以通过多种方式完成,例如简单的相加、取平均、或者更复杂的神经网络结构。
最后,生成的结果就是需要的训练隐私文本段落向量。这个向量包含了所有范例对话行为文本数据的重要信息,并且尽可能地保护了用户的隐私。
总结起来,依据训练显著性指标,汇聚各所述第一范例文本内容向量的文本隐私特征和各所述第二范例文本内容向量的文本隐私特征,生成所述多个范例对话行为文本数据对应的训练隐私文本段落向量,主要是通过特征加权和汇聚技术实现的。
进一步地,在以上描述的基础上,当所述特征距离符合设定循环要求,对于各所述编码特征分布,确定该编码特征分布分别与每个所述检索特征分布之间的语义相关度,基于各所述语义相关度更新所述起始文本语义影响权值,生成优化后的文本语义影响权值,将优化后的文本语义影响权值作为下一轮循环阶段的起始文本语义影响权值,并执行返回所述依据所述起始关键词影响权值,将各所述第一范例文本内容向量转换至编码域的步骤。
例如,当特征距离满足设定的循环要求,需要对每个编码特征分布进行处理。这里的编码特征分布是指通过神经网络训练得到的隐私文本段落向量在键空间和查询空间中的表现。
然后,确定该编码特征分布与每个检索特征分布之间的语义相关度。检索特征分布是根据搜索条件和起始关键词影响权值得出的,在键空间和查询空间中表示待查找信息的向量。
然后,基于每个语义相关度,更新起始文本语义影响权值,生成优化后的文本语义影响权值。这一步的目标是降低原始文本中可能泄露隐私信息的部分的权重,增加其他无关但有助于混淆隐私信息的部分的权重。
然后,将优化后的文本语义影响权值作为下一轮循环阶段的起始文本语义影响权值。这意味着在下一轮循环中,会基于这个新的权值来生成新的编码特征分布和检索特征分布。之后,返回至第一步,依据新的起始关键词影响权值,将各第一范例文本内容向量转换至编码域,然后重复上述过程。通过这样的迭代过程,可以不断优化文本语义影响权值,使得AI技术在处理文本数据时能更好地保护用户隐私。
进一步地,在以上描述的基础上,确定每个所述范例对话行为文本数据中的第一范例文本段落和除所述第一范例文本段落之外的第二范例文本段落,包括:分别提取每个所述范例对话行为文本数据的实体拆分信息。 依据每个所述范例对话行为文本数据分别对应的实体拆分信息,确定每个所述范例对话行为文本数据中的设定对话关键词,并确定每个所述范例对话行为文本数据中所述设定对话关键词所处的第一范例文本段落。对于各所述范例对话行为文本数据,确定该范例对话行为文本数据中除相应的所述第一范例文本段落之外的第二范例文本段落。
一种可替代的实施方式中,步骤S160中,基于所述文本隐私处理网络确定任意目标用户的用户对话行为对应的目标隐私文本段落向量可以参考以下示例性的子步骤。
子步骤S161,获取任意目标用户的用户对话行为的多个对话行为文本数据。
子步骤S162,依据所述文本隐私处理网络,确定每个所述对话行为文本数据中的第一隐私文本段落和除所述第一隐私文本段落之外的第二隐私文本段落。每个所述第一隐私文本段落中涵盖所述对话行为的设定对话关键词,所述文本隐私处理网络包括依据网络训练生成的隐私显著性指标。
子步骤S163,依据所述文本隐私处理网络获取各所述第一隐私文本段落分别对应的第一文本内容向量,以及各所述第二隐私文本段落分别对应的第二文本内容向量。
子步骤S164,依据所述文本隐私处理网络,依据所述隐私显著性指标汇聚各所述第一文本内容向量和各所述第二文本内容向量,生成所述多个对话行为文本数据对应的隐私文本段落向量。
本实施例中,还可以进一步依据所述文本隐私处理网络,依据所述文本语义影响权值将各所述第一文本内容向量和各所述第二文本内容向量分别转换至文本语义编码域,生成每个所述第一文本内容向量的文本隐私特征和每个所述第二文本内容向量的文本隐私特征。
由此,在子步骤S164中,可以依据所述文本隐私处理网络,依据所述隐私显著性指标汇聚每个所述第一文本内容向量的文本隐私特征和每个所述第二文本内容向量的文本隐私特征,生成所述多个对话行为文本数据对应的隐私文本段落向量。
图2示意性地示出了可被用于实现本申请中所述的各个实施例的应用于用户信息加密的数据提取系统100。
对于一个实施例,图2示出了应用于用户信息加密的数据提取系统100,该应用于用户信息加密的数据提取系统100具有一个或多个处理器102、被耦合到(一个或多个)处理器102中的一个或多个的控制模块(芯片组)104、被耦合到控制模块104的存储器106、被耦合到控制模块104的非易失性存储器(NVM)/存储设备108、被耦合到控制模块104的一个或多个输入/输出设备110,和被耦合到控制模块104的网络接口112。
处理器102可包括一个或多个单核或多核处理器,处理器102可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。一些示例性的设计思路中,应用于用户信息加密的数据提取系统100能够作为本申请实施例中所述网关等服务器设备。
一些示例性的设计思路中,应用于用户信息加密的数据提取系统100可包括具有指令114的一个或多个计算机可读介质(例如,存储器106或NVM/存储设备108)和与该一个或多个计算机可读介质相汇聚被配置为执行指令114以实现模块从而执行本公开中所述的动作的一个或多个处理器102。
对于一个实施例,控制模块104可包括任意适当的接口控制器,以向(一个或多个)处理器102中的一个或多个和/或与控制模块104通信的任意适当的设备或组件提供任意适当的接口。
控制模块104可包括存储器控制器模块,以向存储器106提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
存储器106可被用于例如为应用于用户信息加密的数据提取系统100加载和存储数据和/或指令114。对于一个实施例,存储器106可包括任意适当的易失性存储器,例如,适当的DRAM。一些示例性的设计思路中,存储器106可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,控制模块104可包括一个或多个输入/输出控制器,以向NVM/存储设备108及(一个或多个)输入/输出设备110提供接口。
例如,NVM/存储设备108可被用于存储数据和/或指令114。NVM/存储设备108可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备108可包括在物理上作为应用于用户信息加密的数据提取系统100被安装在其上的设备的一部分的存储资源,或者其可被该设备访问可不必作为该设备的一部分。例如,NVM/存储设备108可依据网络经由(一个或多个)输入/输出设备110进行访问。
(一个或多个)输入/输出设备110可为应用于用户信息加密的数据提取系统100提供接口以与任意其它适当的设备通信,输入/输出设备110可以包括通信组件、拼音组件、传感器组件等。网络接口112可为应用于用户信息加密的数据提取系统100提供接口以依据一个或多个网络通信,应用于用户信息加密的数据提取系统100可依据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入依据通信标准的无线网络,或它们的组合进行无线通信。
对于一个实施例,(一个或多个)处理器102中的一个或多个可与控制模块104的一个或多个控制器(例如,存储器控制器模块)的逻辑加载在一起。对于一个实施例,(一个或多个)处理器102中的一个或多个可与控制模块104的一个或多个控制器的逻辑加载在一起以形成系统级加载。对于一个实施例,(一个或多个)处理器102中的一个或多个可与控制模块104的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器102中的一个或多个可与控制模块104的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,应用于用户信息加密的数据提取系统100可以但不限于是:服务器、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中,应用于用户信息加密的数据提取系统100可具有更多或更少的组件和/或不同的架构。例如,一些示例性的设计思路中,应用于用户信息加密的数据提取系统100包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种应用于用户信息加密的数据提取方法,其特征在于,应用于应用于用户信息加密的数据提取系统,所述方法包括:
获取范例对话行为的多个范例对话行为文本数据,确定每个所述范例对话行为文本数据中的第一范例文本段落和除所述第一范例文本段落之外的第二范例文本段落;每个所述第一范例文本段落中涵盖所述范例对话行为的设定对话关键词;
获取各所述第一范例文本段落分别对应的第一范例文本内容向量,将各所述第一范例文本内容向量转换至编码域,生成每个所述第一范例文本内容向量的编码特征分布;
获取各所述第二范例文本段落分别对应的第二范例文本内容向量,将各所述第二范例文本内容向量转换至检索域,生成每个所述第二范例文本内容向量的检索特征分布;
基于各所述编码特征分布和各所述检索特征分布,确定所述多个范例对话行为文本数据对应的训练显著性指标;
依据所述训练显著性指标,汇聚各所述第一范例文本内容向量和各所述第二范例文本内容向量,生成所述多个范例对话行为文本数据对应的训练隐私文本段落向量;
获取所述多个范例对话行为文本数据对应的标注隐私文本段落向量,依据所述训练隐私文本段落向量与所述标注隐私文本段落向量之间的特征距离进行神经网络参数更新,生成文本隐私处理网络,并基于所述文本隐私处理网络确定任意目标用户的用户对话行为对应的目标隐私文本段落向量后,基于所述目标隐私文本段落向量进行用户信息加密处理。
2.根据权利要求1所述的应用于用户信息加密的数据提取方法,其特征在于,所述基于各所述编码特征分布和各所述检索特征分布,确定所述多个范例对话行为文本数据对应的训练显著性指标,包括:
确定各所述编码特征分布之间的第一特征相关度和各所述检索特征分布之间的第二特征相关度;
对于各所述编码特征分布,确定该编码特征分布分别与每个所述检索特征分布之间的语义相关度;
将各所述第一特征相关度、各所述第二特征相关度和各所述语义相关度进行加权计算,生成所述多个范例对话行为文本数据对应的训练显著性指标。
3.根据权利要求1所述的应用于用户信息加密的数据提取方法,其特征在于,所述将各所述第一范例文本内容向量转换至编码域,生成每个所述第一范例文本内容向量的编码特征分布,包括:
获取起始关键词影响权值,依据所述起始关键词影响权值,将各所述第一范例文本内容向量转换至编码域,生成每个所述第一范例文本内容向量的编码特征分布;
所述将各所述第二范例文本内容向量转换至检索域,生成每个所述第二范例文本内容向量的检索特征分布,包括:
获取起始搜索条件影响权值,依据所述起始搜索条件影响权值将各所述第二范例文本内容向量转换至检索域,生成每个所述第二范例文本内容向量的检索特征分布。
4.根据权利要求3所述的应用于用户信息加密的数据提取方法,其特征在于,所述依据所述训练隐私文本段落向量与所述标注隐私文本段落向量之间的特征距离进行神经网络参数更新,生成文本隐私处理网络,包括:
确定所述训练隐私文本段落向量与所述标注隐私文本段落向量之间的特征距离;
当所述特征距离符合设定循环要求,确定各所述编码特征分布之间的第一特征相关度,并基于各所述第一特征相关度更新所述起始关键词影响权值,生成优化后的关键词影响权值;
确定各所述检索特征分布之间的第二特征相关度,基于各所述第二特征相关度更新所述起始搜索条件影响权值,生成优化后的搜索条件影响权值;
将所述优化后的关键词影响权值作为下一轮循环阶段的起始关键词影响权值,将优化后的搜索条件影响权值作为下一轮循环阶段的起始搜索条件影响权值,返回依据所述起始关键词影响权值,将各所述第一范例文本内容向量转换至编码域的操作进行迭代,直到对应的特征距离不符合所述设定循环要求时结束,生成文本隐私处理网络。
5.根据权利要求4所述的应用于用户信息加密的数据提取方法,其特征在于,所述方法还包括:
获取起始文本语义影响权值,依据所述起始文本语义影响权值,将各所述第一范例文本内容向量和各所述第二范例文本内容向量分别转换至文本语义编码域,生成每个所述第一范例文本内容向量的文本隐私特征和每个所述第二范例文本内容向量的文本隐私特征;
所述依据所述训练显著性指标,汇聚各所述第一范例文本内容向量和各所述第二范例文本内容向量,生成所述多个范例对话行为文本数据对应的训练隐私文本段落向量,包括:
依据所述训练显著性指标,汇聚各所述第一范例文本内容向量的文本隐私特征和各所述第二范例文本内容向量的文本隐私特征,生成所述多个范例对话行为文本数据对应的训练隐私文本段落向量。
6.根据权利要求5所述的应用于用户信息加密的数据提取方法,其特征在于,所述方法还包括:
当所述特征距离符合设定循环要求,对于各所述编码特征分布,确定该编码特征分布分别与每个所述检索特征分布之间的语义相关度;
基于各所述语义相关度更新所述起始文本语义影响权值,生成优化后的文本语义影响权值;
将优化后的文本语义影响权值作为下一轮循环阶段的起始文本语义影响权值,并执行返回所述依据所述起始关键词影响权值,将各所述第一范例文本内容向量转换至编码域的步骤。
7.根据权利要求1至6任意一项所述的应用于用户信息加密的数据提取方法,其特征在于,所述确定每个所述范例对话行为文本数据中的第一范例文本段落和除所述第一范例文本段落之外的第二范例文本段落,包括:
分别提取每个所述范例对话行为文本数据的实体拆分信息;
依据每个所述范例对话行为文本数据分别对应的实体拆分信息,确定每个所述范例对话行为文本数据中的设定对话关键词,并确定每个所述范例对话行为文本数据中所述设定对话关键词所处的第一范例文本段落;
对于各所述范例对话行为文本数据,确定该范例对话行为文本数据中除相应的所述第一范例文本段落之外的第二范例文本段落。
8.根据权利要求1至6任意一项所述的应用于用户信息加密的数据提取方法,其特征在于,所述基于所述文本隐私处理网络确定任意目标用户的用户对话行为对应的目标隐私文本段落向量的步骤,包括:
获取任意目标用户的用户对话行为的多个对话行为文本数据;
依据所述文本隐私处理网络,确定每个所述对话行为文本数据中的第一隐私文本段落和除所述第一隐私文本段落之外的第二隐私文本段落;每个所述第一隐私文本段落中涵盖所述对话行为的设定对话关键词,所述文本隐私处理网络包括依据网络训练生成的隐私显著性指标;
依据所述文本隐私处理网络获取各所述第一隐私文本段落分别对应的第一文本内容向量,以及各所述第二隐私文本段落分别对应的第二文本内容向量;
依据所述文本隐私处理网络,依据所述隐私显著性指标汇聚各所述第一文本内容向量和各所述第二文本内容向量,生成所述多个对话行为文本数据对应的隐私文本段落向量。
9.根据权利要求8所述的应用于用户信息加密的数据提取方法,其特征在于,所述文本隐私处理网络还包括依据网络训练生成的文本语义影响权值;所述方法还包括:
依据所述文本隐私处理网络,依据所述文本语义影响权值将各所述第一文本内容向量和各所述第二文本内容向量分别转换至文本语义编码域,生成每个所述第一文本内容向量的文本隐私特征和每个所述第二文本内容向量的文本隐私特征;
所述依据所述文本隐私处理网络,依据所述隐私显著性指标汇聚各所述第一文本内容向量和各所述第二文本内容向量,生成所述多个对话行为文本数据对应的隐私文本段落向量,包括:
依据所述文本隐私处理网络,依据所述隐私显著性指标汇聚每个所述第一文本内容向量的文本隐私特征和每个所述第二文本内容向量的文本隐私特征,生成所述多个对话行为文本数据对应的隐私文本段落向量。
10.一种应用于用户信息加密的数据提取系统,其特征在于,包括处理器以及计算机可读存储介质,所述计算机可读存储介质存储有机器可执行指令,所述机器可执行指令被处理器执行时实现权利要求1-8中任意一项所述的应用于用户信息加密的数据提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311386429.4A CN117113385B (zh) | 2023-10-25 | 2023-10-25 | 一种应用于用户信息加密的数据提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311386429.4A CN117113385B (zh) | 2023-10-25 | 2023-10-25 | 一种应用于用户信息加密的数据提取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117113385A CN117113385A (zh) | 2023-11-24 |
CN117113385B true CN117113385B (zh) | 2024-03-01 |
Family
ID=88809644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311386429.4A Active CN117113385B (zh) | 2023-10-25 | 2023-10-25 | 一种应用于用户信息加密的数据提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117113385B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104468090A (zh) * | 2014-11-12 | 2015-03-25 | 辽宁大学 | 基于图像像素坐标的汉字密码编码方法 |
EP3174240A1 (en) * | 2013-12-08 | 2017-05-31 | Mao Ye | Digital token system for physical medium digitalization and physical store optimization |
CN108712260A (zh) * | 2018-05-09 | 2018-10-26 | 曲阜师范大学 | 云环境下保护隐私的多方深度学习计算代理方法 |
CN109471964A (zh) * | 2018-10-23 | 2019-03-15 | 哈尔滨工程大学 | 一种基于同义词集的模糊多关键词可搜索加密方法 |
CN109495426A (zh) * | 2017-09-12 | 2019-03-19 | 腾讯科技(深圳)有限公司 | 一种数据访问方法、装置及电子设备 |
US10346617B1 (en) * | 2010-01-25 | 2019-07-09 | Hrl Laboratories, Llc | Protocol for securely searching streaming data with constant bandwidth |
CN114519202A (zh) * | 2022-01-25 | 2022-05-20 | 鹏城实验室 | 跨模态隐私语义检索方法、系统及存储介质 |
CN114528588A (zh) * | 2022-01-25 | 2022-05-24 | 鹏城实验室 | 跨模态隐私语义表征方法、装置、设备及存储介质 |
CN115017107A (zh) * | 2022-06-02 | 2022-09-06 | 润联软件系统(深圳)有限公司 | 基于保护隐私的数据检索方法、装置、计算机设备及介质 |
CN116150776A (zh) * | 2022-10-14 | 2023-05-23 | 矩阵时光数字科技有限公司 | 一种共享信息的隐私共享方法及系统 |
CN116663058A (zh) * | 2023-06-05 | 2023-08-29 | 广西师范大学 | 一种基于联盟链的核应急监测图像可搜索加密检索方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201517331D0 (en) * | 2015-10-01 | 2015-11-18 | Chase Information Technology Services Ltd And Cannings Nigel H | System and method for preserving privacy of data in a cloud |
US20220012357A1 (en) * | 2020-07-10 | 2022-01-13 | Bank Of America Corporation | Intelligent privacy and security enforcement tool for unstructured data |
-
2023
- 2023-10-25 CN CN202311386429.4A patent/CN117113385B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10346617B1 (en) * | 2010-01-25 | 2019-07-09 | Hrl Laboratories, Llc | Protocol for securely searching streaming data with constant bandwidth |
EP3174240A1 (en) * | 2013-12-08 | 2017-05-31 | Mao Ye | Digital token system for physical medium digitalization and physical store optimization |
CN104468090A (zh) * | 2014-11-12 | 2015-03-25 | 辽宁大学 | 基于图像像素坐标的汉字密码编码方法 |
CN109495426A (zh) * | 2017-09-12 | 2019-03-19 | 腾讯科技(深圳)有限公司 | 一种数据访问方法、装置及电子设备 |
CN108712260A (zh) * | 2018-05-09 | 2018-10-26 | 曲阜师范大学 | 云环境下保护隐私的多方深度学习计算代理方法 |
CN109471964A (zh) * | 2018-10-23 | 2019-03-15 | 哈尔滨工程大学 | 一种基于同义词集的模糊多关键词可搜索加密方法 |
CN114519202A (zh) * | 2022-01-25 | 2022-05-20 | 鹏城实验室 | 跨模态隐私语义检索方法、系统及存储介质 |
CN114528588A (zh) * | 2022-01-25 | 2022-05-24 | 鹏城实验室 | 跨模态隐私语义表征方法、装置、设备及存储介质 |
CN115017107A (zh) * | 2022-06-02 | 2022-09-06 | 润联软件系统(深圳)有限公司 | 基于保护隐私的数据检索方法、装置、计算机设备及介质 |
CN116150776A (zh) * | 2022-10-14 | 2023-05-23 | 矩阵时光数字科技有限公司 | 一种共享信息的隐私共享方法及系统 |
CN116663058A (zh) * | 2023-06-05 | 2023-08-29 | 广西师范大学 | 一种基于联盟链的核应急监测图像可搜索加密检索方法 |
Non-Patent Citations (2)
Title |
---|
Domain-general and domain-specific computations in single word prcessing;Anastasia Klimovich-Gray;《NeuroImage》;第202卷;1-9 * |
基于模型驱动的海洋环境数据平台研究与应用;刘美健;《海洋通报》;第33卷(第2期);193-198+221 * |
Also Published As
Publication number | Publication date |
---|---|
CN117113385A (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959246B (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
US11227118B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
US10984316B2 (en) | Context aware sensitive information detection | |
US11308286B2 (en) | Method and device for retelling text, server, and storage medium | |
US10956469B2 (en) | System and method for metadata correlation using natural language processing | |
Feng et al. | AC-Net: Assessing the consistency of description and permission in Android apps | |
CN110516210B (zh) | 文本相似度的计算方法和装置 | |
KR101896973B1 (ko) | 기계학습 모델을 이용한 자연어 생성 시스템, 방법, 및 컴퓨터 판독가능매체 | |
CN114861889B (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
CN115146068B (zh) | 关系三元组的抽取方法、装置、设备及存储介质 | |
JP7291181B2 (ja) | 業界テキスト増分方法、関連装置、およびコンピュータプログラム製品 | |
CN113434636A (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 | |
US20230334075A1 (en) | Search platform for unstructured interaction summaries | |
CN117113385B (zh) | 一种应用于用户信息加密的数据提取方法及系统 | |
CN108683749B (zh) | 一种随机邮箱地址的判断方法、设备和介质 | |
CN113704466B (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 | |
US11880664B2 (en) | Identifying and transforming text difficult to understand by user | |
US20220405487A1 (en) | Causal Knowledge Identification and Extraction | |
CN111199170B (zh) | 配方文件识别方法及装置、电子设备、存储介质 | |
SrirangamSridharan et al. | Doc2img: A new approach to vectorization of documents | |
KR20210024748A (ko) | Gan을 이용한 문서형 악성코드 탐지 장치 및 방법 | |
US11663251B2 (en) | Question answering approach to semantic parsing of mathematical formulas | |
CN115455179B (zh) | 敏感词汇检测方法、装置、设备及存储介质 | |
RU2665915C1 (ru) | Система и способ определения текста, содержащего конфиденциальные данные | |
Wei et al. | Multi-language IoT information security standard item matching based on deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |