CN118035712B - 一种基于nlp的数据收集合规识别方法 - Google Patents
一种基于nlp的数据收集合规识别方法 Download PDFInfo
- Publication number
- CN118035712B CN118035712B CN202410442552.1A CN202410442552A CN118035712B CN 118035712 B CN118035712 B CN 118035712B CN 202410442552 A CN202410442552 A CN 202410442552A CN 118035712 B CN118035712 B CN 118035712B
- Authority
- CN
- China
- Prior art keywords
- data
- compliance
- text
- requirements
- nlp
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000013480 data collection Methods 0.000 title claims abstract description 14
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 5
- 230000001105 regulatory effect Effects 0.000 claims abstract description 4
- 238000003058 natural language processing Methods 0.000 claims description 60
- 230000005540 biological transmission Effects 0.000 claims description 33
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 230000014509 gene expression Effects 0.000 claims description 4
- 239000000956 alloy Substances 0.000 claims description 3
- 229910045601 alloy Inorganic materials 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000006978 adaptation Effects 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims 1
- 238000013523 data management Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于NLP的数据收集合规识别方法,包括S1、构建La‑NLP模型,并对La‑NLP模型进行预训练;S2、调用经过预训练的La‑NLP模型对相关法律法规文本数据进行训练理解并生成合规要求;S3、获取待评估数据,使用基于La‑NLP模型对待评估数据进行处理,得到文本信息单元;S4、将文本信息单元生成的相应语义框架表示与合规要求的表示进行对齐,分析待评估数据的合规性;S5、根据分析结果评估数据合规,得到数据合规以及不合规部分的总结报告。本发明解决了现有技术存在的数据合规识别准确率低、效率低以及实用性低的问题。
Description
技术领域
本发明涉及数据分析技术领域,尤其涉及一种基于NLP的数据收集合规识别方法。
背景技术
数据合规是数据管理的基本保障,对数据资产的全生命周期管理起到基础性支持作用。然而,在数据合规的判断过程中,如果依靠人工检查给定的收集数据是否符合相关法律法规,需要花费大量的时间和精力。而且目前的数据合规体系还未建立完善,对于数据管理没有健全风险识别和预警机制,难以准确掌握生产经营中的合规风险。最后,实际业务中因行业、数据应用场景的不同,而且数据合规实务的合规依据更新较快,数据合规理论研究远远滞后于数据合规实务的发展。因此,如何提供一种基于NLP的数据收集合规识别方法是本领域技术人员亟需解决的问题。
发明内容
本发明的一个目的在于提出一种基于NLP的数据收集合规识别方法,本发明解决了现有技术存在的数据合规识别准确率低、效率低以及实用性低的问题。
根据本发明实施例的一种基于NLP的数据收集合规识别方法,包括如下方法步骤:
S1、构建La-NLP模型,并对La-NLP模型进行预训练;
S2、调用经过预训练的La-NLP模型对相关法律法规文本数据进行训练理解并生成合规要求;
S3、获取待评估数据,使用基于La-NLP模型对待评估数据进行处理,得到文本信息单元;
S4、将文本信息单元生成的相应语义框架表示与合规要求的表示进行对齐,分析待评估数据的合规性;
S5、根据分析结果评估数据合规,得到数据合规以及不合规部分的总结报告。
可选的,所述La-NLP模型构建具体包括:
调用经过预训练的La-NLP模型对相关法律法规文本数据进行训练理解并生成规则库。在La-NLP模型中,为了解决在编码过程中的范围偏离问题,使用层次注意力机制替代传统注意力机制。具体实现是通过设计了一个注意力掩码应用到传统注意力操作上,层次注意力机制可以表示如下:
;
其中,C代表注意力掩码,代表哈达玛乘积,Q代表查询,K代表键,V代表值,
表示特征维度;
所述注意力掩码C通过计算相邻注意力分数确定,相邻注意力分数代表相邻La-
NLP模型输入基本单元的范围趋势,对于任何相邻La-NLP模型输入基本单元,相
邻注意力分数计算如下:
;
其中,表示查询矩阵,表示键矩阵,表示两个相邻模型输入基
本单元,表示超参数作为缩放因子;
和重复更新,将相邻亲和分数通过计算和的归一化
结果的平均值得到:
;
其中,Softmax表示Softmax归一化函数;
设定添加一个约束,约束随着网络深入,相邻亲和分数为增加趋势,第层中的亲
和分数计算如下:
;
其中,表示网络的第I-1层,表示相邻亲和分数;
对给定输入基本单元对,注意力掩码矩阵C的元素计算如下:
。
计算得到的注意力掩码矩阵C由所有注意头共享,并逐步更新。许多在语义和空间上相似的输入基本单元逐渐合并形成不同的聚类,这些不同的聚类被视为不同条文内容的范围。
可选的,所述La-NLP模型使用层次注意力机制划分文本中的每个法律条文的范
围,将法律条文范围和规则库之间的对齐,视为最优传输问题,利用最优传输模块进行对
法律条文范围和规则库之间的相互引导。
可选的,所述S2具体包括:
最优传输问题在传输之前给定初始状态,传输后的最终状态以及单位成本函数,表示从中第i位置到中第j位置的单
位传输成本,制定一个传输计划使总传输成本最小化,每个元素表示从
传输到的量,总传输成本计算如下:
;
;
;
其中,表示初始状态i位置,表示传输位置j位置,表示从传输到
的量,对于编码器获得的法律条文范围预测和规则库预测,利用最优传输模块度
量法律条文范围预测和规则库预测之间的距离,法律条文范围预测和规则库预测的传输成本计算如下:
;
;
;
其中,表示单位成本函数,第i个法律条文范围预测,表示第j个
规则预测;
利用余弦相似度定义单位成本函数,随着和之间的余弦相似度
增加,对应的单位成本变低:
;
其中,表示和之间的余弦相似度值;
通过La-NLP模型对法律法规进行解析,提取出规则和要素,将规则和要素编码成
一种被计算机理解的形式,并总结出规则库;
与法律专家合作从相关法律法规要求中提取n个合规要求,n个合规要求分为四个
类别包括个元数据要求、个关于数据处理者义务的要求、个关于数据控制
者权利的要求以及个关于数据控制者义务的要求,根据法律专家的反馈,四个类别有个是强制性要求,个是可选要求,根据合规要求建立人工库;
将规则库和人工库的合规要求进行人工合并得到完整合规要求。
可选的,所述规则库中包括对于法律法规中的条款,将复合语句分解为简单要
求,定义为第一规则库,对于行业报告中的合规要求,定义为第二规则库。
可选的,所述强制性要求为有关数据控制者和处理者的身份隐私信息的关键信息,基于关键信息进行合规性检查,所述可选要求为根据法律专家的意见以及行业报告、专家学者实践中推导出的,当数据违反强制性要求时判定为不合规,在数据违反可选要求时会产生警告。
可选的,所述S3具体包括:
S31、获取待评估数据,使用La-NLP模型对输入的待评估数据进行解析和预处理;
S32、创建基于合规要求的语义框架为基础语义框架,用于表征合规要求中每个
要求的信息内容,在待评估数据的文本部分上生成NLP注释,基础语义框架包括人物、权限
和动作;
S33、基于基础语义框架的表示方法,自动生成输入的待评估数据生成基于语义框架的表示:
确定语句中的语义角色;
使用语义角色动作生成谓词,并使用剩余的语义角色生成论证;
使用La-NLP模型进行语义角色标注的结果,La-NLP模型处理语义角色标记工具为输入数据中文本内容的每个语句分解为使用与要求中相似的语义角色标记的有意义的短语。
S34、根据生成的语义框架的表示得到文本信息单元。
可选的,所述S33具体包括:
S331、给定语句中的语义角色,利用训练过的La-NLP模型进行注释,所述注释包括同义词理解适应文本中应用的不同措辞;
S332、当识别出一个语义角色,对标记分配给的文本范围进行界定,使用文本块分块产生的自然语言处理注释找到其所在的完整短语;
S333、输入的数据文本中的每个语句都被分割成一组短语,每组短语都有一个语义角色标签;
S334、短语构成对语句的基于语义框架的表示。
可选的,所述S4具体包括:
S41、使用基于合规要求和基于输入数据文本中创建的文本信息单元检查输入
数据的合规性:
将基于合规要求的语义框架表示与输入数据文本中每个语句的语义框架表示
进行对奇比较,并计算匹配程度的分数,通过将规则库的表示和文本信息单元的语义框架
表示进行对比,验证数据的合规性;
S42、解析对齐分析结果,得到待评估数据对应的每个文本信息单元的合规属性。
可选的,所述S5具体包括根据分析结果来评估数据合规,生成一个数据合规以及
不合规部分的详细总结报告,在输入数据文本级别上做出合规决策,在待评估数据中,如果
至少有一条语句满足要求,在输入数据文本中将该要求标记为满足,否则,要求将被标记为
违反,当至少一个强制要求被违反时,将视为不合规,当违反可选要求时,会有一个
警告,所有的待评估数据内容都会被标记,生成总结报告。
本发明的有益效果是:
本发明考虑了在数据合规的判断过程中,人工检查给定的收集数据是否合规需要耗时费力的问题,一方面理解和识别相关法律法规的合规性要求,并在收集数据中验证这些要求。而且法律文本由于术语多、句式复杂增加了额外的复杂性,可能导致误解,因此,提出了一种自动化的解决方案来检查给定的数据是否符合相关法律法规,解决了现有技术存在的数据合规识别准确率低、效率低以及实用性低的问题。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明提出的一种基于NLP的数据收集合规识别方法的流程图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
参考图1,一种基于NLP的数据收集合规识别方法,包括如下方法步骤:
S1、构建La-NLP模型,并对La-NLP模型进行预训练;
本实施方式中,La-NLP模型构建具体包括:
在La-NLP模型中应用层次注意力机制:
;
其中,C代表注意力掩码,代表哈达玛乘积,Q代表查询,K代表键,V代表值,
表示特征维度;
注意力掩码C通过计算相邻注意力分数确定,相邻注意力分数代表相邻La-NLP模
型输入基本单元的范围趋势,对于任何相邻La-NLP模型输入基本单元,相邻注意
力分数计算如下:
;
其中,表示查询矩阵,表示键矩阵,表示两个相邻模型输入基
本单元,表示超参数作为缩放因子;
和重复更新,将相邻亲和分数通过计算和的归一化
结果的平均值得到:
;
其中,Softmax表示Softmax归一化函数;
设定添加一个约束,约束随着网络深入,相邻亲和分数为增加趋势,第层中的亲
和分数计算如下:
;
其中,表示网络的第I-1层,表示相邻亲和分数;
对给定输入基本单元对,注意力掩码矩阵C的元素计算如下:
。
本实施方式中,La-NLP模型使用层次注意力机制划分文本中的每个法律条文的范
围,将法律条文范围和规则库之间的对齐,视为最优传输问题,利用最优传输模块进行对
法律条文范围和规则库之间的相互引导。S2、调用经过预训练的La-NLP模型对相关法律
法规文本数据进行训练理解并生成合规要求;
本实施方式中,S2具体包括:
最优传输问题在传输之前给定初始状态,传输后的最终状态以及单位成本函数,表示从中第i位置到中第j位置的单
位传输成本,制定一个传输计划使总传输成本最小化,每个元素表示从
传输到的量,总传输成本计算如下:
;
;
;
其中,表示初始状态i位置,表示传输位置j位置,表示从传输到
的量,对于编码器获得的法律条文范围预测和规则库预测,利用最优传输模块度
量法律条文范围预测和规则库预测之间的距离,法律条文范围预测和规则库预测的传输成本计算如下:
;
;
;
其中,表示单位成本函数,第i个法律条文范围预测,表示第j个
规则预测;
利用余弦相似度定义单位成本函数,随着和之间的余弦相似度
增加,对应的单位成本变低:
;
其中,表示和之间的余弦相似度值;
通过La-NLP模型对法律法规进行解析,提取出规则和要素,将规则和要素编码成
一种被计算机理解的形式,并总结出规则库;
与法律专家合作从相关法律法规要求中提取n个合规要求,n个合规要求分为四个
类别包括个元数据要求、个关于数据处理者义务的要求、个关于数据控制
者权利的要求以及个关于数据控制者义务的要求,根据法律专家的反馈,四个类别有个是强制性要求,个是可选要求,根据合规要求建立人工库;
将规则库和人工库的合规要求进行人工合并得到完整合规要求。
本实施方式中,规则库中包括对于法律法规中的条款,将复合语句分解为简单
要求,定义为第一规则库,对于行业报告中的合规要求,定义为第二规则库。
本实施方式中,强制性要求为有关数据控制者和处理者的身份隐私信息的关键信息,基于关键信息进行合规性检查,可选要求为根据法律专家的意见以及行业报告、专家学者实践中推导出的,当数据违反强制性要求时判定为不合规,在数据违反可选要求时会产生警告。
S3、获取待评估数据,使用基于La-NLP模型对待评估数据进行处理,得到文本信息单元;
本实施方式中,S3具体包括:
S31、获取待评估数据,使用La-NLP模型对输入的待评估数据进行解析和预处理;
S32、创建基于合规要求的语义框架为基础语义框架,用于表征合规要求中每个
要求的信息内容,在待评估数据的文本部分上生成NLP注释,基础语义框架包括人物、权限
和动作;
S33、基于基础语义框架的表示方法,自动生成输入的待评估数据生成基于语义框架的表示:
确定语句中的语义角色;
使用语义角色动作生成谓词,并使用剩余的语义角色生成论证;
使用La-NLP模型进行语义角色标注的结果,La-NLP模型处理语义角色标记工具为输入数据中文本内容的每个语句分解为使用与要求中相似的语义角色标记的有意义的短语。
S34、根据生成的语义框架的表示得到文本信息单元。
S4、将文本信息单元生成的相应语义框架表示与合规要求的表示进行对齐,分析待评估数据的合规性;
本实施方式中,S4具体包括:
S41、使用基于合规要求和基于输入数据文本中创建的文本信息单元检查输入
数据的合规性:
将基于合规要求的语义框架表示与输入数据文本中每个语句的语义框架表示
进行对奇比较,并计算匹配程度的分数,通过将规则库的表示和文本信息单元的语义框架
表示进行对比,验证数据的合规性;
S42、解析对齐分析结果,得到待评估数据对应的每个文本信息单元的合规属性。
S5、根据分析结果评估数据合规,得到数据合规以及不合规部分的总结报告。
本实施方式中,S5具体包括根据分析结果来评估数据合规,生成一个数据合规以
及不合规部分的详细总结报告,在输入数据文本级别上做出合规决策,在待评估数据中,如
果至少有一条语句满足要求,在输入数据文本中将该要求标记为满足,否则,要求将被标记
为违反,当至少一个强制要求被违反时,将视为不合规,当违反可选要求时,会有一
个警告,所有的待评估数据内容都会被标记,生成总结报告。
实施例1:
实施例子背景:
设想一家名为“xxxx”的互联网公司,主要业务是提供个性化的在线内容推荐服务。公司拥有大量用户行为数据、内容数据以及交互数据。在用户使用企业产品时,企业同时也在收集和处理数据,这时会接触到大量的个人信息,如果没有合法合规地进行收集和处理数据等相关行为,大概率会侵犯到个人信息权甚至是个人隐私,从而对个人信息保护产生极大的危害。企业进行数据合规是在承担个人信息保护的社会责任,也是履行自己必要的适格处理个人信息的企业责任。
步骤一:调用预先训练的NLP模型对相关法律法规理解生成规则库;
需要调用预先训练的NLP模型来理解相关的法律法规,并生成一个规则库。这个规则库将包含与数据合规相关的法律要求、隐私政策、行业标准等信息。通过使用NLP模型,自动化地从法律法规文本中提取关键规则和要素,并将其编码成计算机可理解的形式。
步骤二:获取待评估数据,使用基于NLP模型的文本特征提取算法对待评估数据进行处理,得到文本信息单元;
xxxx互联网公司在提供个性化的在线内容推荐服务过程中会收集大量的用户行为数据、内容数据以及交互数据。为了进行数据合规审查,需要获取这些待评估数据,并使用NLP文本特征提取算法对其进行处理。这个处理过程可以包括分词、去除停用词、词性标注等步骤,以便更好地理解文本内容。处理后的数据将被分成文本信息单元,这些单元可以是句子、段落或其他合适的文本单位,以便后续的分析和对齐。
步骤三:通过将文本信息单元生成的相应语义框架表示与规则库的表示进行对齐来分析待评估数据的合规性;
在这一步骤中,使用生成的规则库和待评估数据中的文本信息单元进行对齐。这可以通过计算文本信息单元的语义框架表示(如使用BERT模型提取的特征表示)和规则库中规则的语义表示之间的相似度来实现。
通过比较语义框架表示和规则库的对齐程度,可以分析待评估数据的合规性。如果一个文本信息单元与规则库中的规则高度对齐,那么可以认为该数据在合规方面是符合要求的。相反,如果不符合规则库中的规则,那么该数据可能存在合规问题。
步骤四:最后,根据对待评估数据的分析结果来评估数据的合规性。根据对齐程度和规则库中的规则,我们可以确定数据的合规程度,并生成数据合规以及不合规部分的总结报告。
这份报告将提供详细的分析结果,包括哪些数据符合合规要求,哪些数据存在不合规问题,哪些数据存在警告合规问题,以确保xxxx互联网公司在数据收集和处理过程中遵守相关的法律法规和隐私政策,保护用户的个人信息和隐私权。通过执行以上步骤,xxxx互联网公司可以进行数据合规审查,并履行其个人信息保护的社会责任,确保合法合规地处理个人信息,为用户提供安全可靠的服务。
本发明考虑了在数据合规的判断过程中,人工检查给定的收集数据是否合规需要耗时费力的问题,一方面理解和识别相关法律法规的合规性要求,并在收集数据中验证这些要求。而且法律文本由于术语多、句式复杂增加了额外的复杂性,可能导致误解,因此,提出了一种自动化的解决方案来检查给定的数据是否符合相关法律法规,解决了现有技术存在的数据合规识别准确率低、效率低以及实用性低的问题。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (4)
1.一种基于NLP的数据收集合规识别方法,其特征在于,包括如下方法步骤:
S1、构建La-NLP模型,并对La-NLP模型进行预训练;
S2、调用经过预训练的La-NLP模型对相关法律法规文本数据进行训练理解并生成合规要求;
S3、获取待评估数据,使用基于La-NLP模型对待评估数据进行处理,得到文本信息单元;
所述S3具体包括:
S31、获取待评估数据,使用La-NLP模型对输入的待评估数据进行解析和预处理;
S32、创建基于合规要求的语义框架为基础语义框架,用于表征合规要求中每个要求
的信息内容,在待评估数据的文本部分上生成NLP注释,基础语义框架包括人物、权限和动
作;
S33、基于基础语义框架的表示方法,自动生成输入的待评估数据生成基于语义框架的表示:
确定语句中的语义角色;
使用语义角色动作生成谓词,并使用剩余的语义角色生成论证;
使用La-NLP模型进行语义角色标注的结果,La-NLP模型处理语义角色标记工具为输入数据中文本内容的每个语句分解为使用与要求中相似的语义角色标记的有意义的短语;
所述S33具体包括:
S331、给定语句中的语义角色,利用训练过的La-NLP模型进行注释,所述注释包括同义词理解适应文本中应用的不同措辞;
S332、当识别出一个语义角色,对标记分配给的文本范围进行界定,使用文本块分块产生的自然语言处理注释找到其所在的完整短语;
S333、输入的数据文本中的每个语句都被分割成一组短语,每组短语都有一个语义角色标签;
S334、短语构成对语句的基于语义框架的表示;
S34、根据生成的语义框架的表示得到文本信息单元;
S4、将文本信息单元生成的相应语义框架表示与合规要求的表示进行对齐,分析待评估数据的合规性;
所述S4具体包括:
S41、使用基于合规要求和基于输入数据文本中创建的文本信息单元检查输入数据的合规性:
将基于合规要求的语义框架表示与输入数据文本中每个语句的语义框架表示进行对齐比较,并计算匹配程度的分数,通过将规则库的表示和文本信息单元的语义框架表示进行对比,验证数据的合规性;
S42、解析对齐分析结果,得到待评估数据对应的每个文本信息单元的合规属性;
S5、根据分析结果评估数据合规,得到数据合规以及不合规部分的总结报告;
所述S5具体包括根据分析结果来评估数据合规,生成一个数据合规以及不合规部分的详细总结报告,在输入数据文本级别上做出合规决策,在待评估数据中,如果至少有一条语句满足要求,在输入数据文本中将该要求标记为满足,否则,要求将被标记为违反,当至少一个强制要求被违反时,将视为不合规,当违反可选要求/>时,会有一个警告,所有的待评估数据内容都会被标记,生成总结报告;
所述La-NLP模型构建具体包括:
在La-NLP模型中应用层次注意力机制:
;
其中,C代表注意力掩码,代表哈达玛乘积,Q代表查询,K代表键,V代表值,/>表示特征维度;
所述注意力掩码C通过计算相邻注意力分数确定,相邻注意力分数代表相邻La-NLP模型输入基本单元的范围趋势,对于任何相邻La-NLP模型输入基本单元,相邻注意力分数/>计算如下:
;
其中,表示查询矩阵,/>表示键矩阵,/>表示两个相邻模型输入基本单元,/>表示超参数作为缩放因子;
和/>重复更新,将相邻亲和分数/>通过计算/>和/>的归一化结果的平均值得到:
;
其中,Softmax表示Softmax归一化函数;
设定添加一个约束,约束随着网络深入,相邻亲和分数为增加趋势,第层中的亲和分数/>计算如下:
;
其中,表示网络的第I-1层,/>表示相邻亲和分数;
对给定输入基本单元对,注意力掩码矩阵C的元素/>计算如下:
;
所述S2具体包括最优传输问题在传输之前给定初始状态,传输后的最终状态/>以及单位成本函数/>,表示从/>中第i位置到/>中第j位置的单位传输成本,制定一个传输计划/>使总传输成本/>最小化,每个元素/>表示从/>传输到/>的量,总传输成本/>计算如下:
;
;
;
其中,表示初始状态i位置,/>表示传输位置j位置,/>表示从/>传输到/>的量,对于编码器获得的法律条文范围预测/>和规则库/>预测/>,利用最优传输模块度量法律条文范围预测/>和规则库/>预测/>之间的距离,法律条文范围预测/>和规则库/>预测的传输成本/>计算如下:
;
;
;
其中,表示单位成本函数,/>第i个法律条文范围预测,/>表示第j个规则预测;
利用余弦相似度定义单位成本函数,随着/>和/>之间的余弦相似度增加,对应的单位成本变低:
;
其中,表示/>和/>之间的余弦相似度值;
通过La-NLP模型对法律法规进行解析,提取出规则和要素,将规则和要素编码成一种被计算机理解的形式,并总结出规则库;
与法律专家合作从相关法律法规要求中提取n个合规要求,n个合规要求分为四个类别包括个元数据要求、/>个关于数据处理者义务的要求、/>个关于数据控制者权利的要求以及/>个关于数据控制者义务的要求,根据法律专家的反馈,四个类别有/>个是强制性要求,/>个是可选要求,根据合规要求建立人工库/>;
将规则库和人工库/>的合规要求进行人工合并得到完整合规要求/>。
2.根据权利要求1所述的一种基于NLP的数据收集合规识别方法,其特征在于,所述La-NLP模型使用层次注意力机制划分文本中的每个法律条文的范围,将法律条文范围和规则库之间的对齐,视为最优传输问题,利用最优传输模块进行对法律条文范围和规则库/>之间的相互引导。
3.根据权利要求2所述的一种基于NLP的数据收集合规识别方法,其特征在于,所述规则库中包括对于法律法规中的条款,将复合语句分解为简单要求,定义为第一规则库/>,对于行业报告中的合规要求,定义为第二规则库/>。
4.根据权利要求3所述的一种基于NLP的数据收集合规识别方法,其特征在于,所述强制性要求为有关数据控制者和处理者的身份隐私信息的关键信息,基于关键信息进行合规性检查,所述可选要求为根据法律专家的意见以及行业报告、专家学者实践中推导出的,当数据违反强制性要求时判定为不合规,在数据违反可选要求时会产生警告。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410442552.1A CN118035712B (zh) | 2024-04-12 | 2024-04-12 | 一种基于nlp的数据收集合规识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410442552.1A CN118035712B (zh) | 2024-04-12 | 2024-04-12 | 一种基于nlp的数据收集合规识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118035712A CN118035712A (zh) | 2024-05-14 |
CN118035712B true CN118035712B (zh) | 2024-06-21 |
Family
ID=90991790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410442552.1A Active CN118035712B (zh) | 2024-04-12 | 2024-04-12 | 一种基于nlp的数据收集合规识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118035712B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116402334A (zh) * | 2022-12-31 | 2023-07-07 | 浙江大学 | 一种多模态数据合规分析与智能评估方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818081A (zh) * | 2017-09-25 | 2018-03-20 | 沈阳航空航天大学 | 基于深度语义模型与语义角色标注的句子相似度评估方法 |
US20200184584A1 (en) * | 2018-12-07 | 2020-06-11 | Capital One Services, Llc | Systems and methods for legal clause matching and explanation |
CN116401343A (zh) * | 2022-12-31 | 2023-07-07 | 浙江大学 | 一种数据合规分析方法 |
CN116483942A (zh) * | 2023-05-15 | 2023-07-25 | 湖南大学 | 基于再注意力机制和对比损失的法律案情要素抽取方法 |
CN117390409A (zh) * | 2023-09-17 | 2024-01-12 | 复旦大学 | 大规模语言模型生成答案可靠性检测方法 |
-
2024
- 2024-04-12 CN CN202410442552.1A patent/CN118035712B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116402334A (zh) * | 2022-12-31 | 2023-07-07 | 浙江大学 | 一种多模态数据合规分析与智能评估方法及装置 |
Non-Patent Citations (1)
Title |
---|
Towards Multi-Intent Spoken Language Understanding via Hierarchical Attention and Optimal Transport;Xuxin Cheng 等;《The Thirty-Eighth AAAI Conference on Artificial Intelligence (AAAI-24)》;20240324;17844- 17852 * |
Also Published As
Publication number | Publication date |
---|---|
CN118035712A (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110597964B (zh) | 一种双录质检语义分析方法、装置及双录质检系统 | |
CN109597994B (zh) | 短文本问题语义匹配方法和系统 | |
JP7268273B2 (ja) | 法律文書分析システム及び方法 | |
CN106611375A (zh) | 一种基于文本分析的信用风险评估方法及装置 | |
CN115098634B (zh) | 一种基于语义依存关系融合特征的舆情文本情感分析方法 | |
CN115687634A (zh) | 一种结合先验知识的金融实体关系抽取系统及方法 | |
CN117252255B (zh) | 一种面向辅助决策的灾害应急知识图谱构建方法 | |
Fantechi et al. | Hacking an ambiguity detection tool to extract variation points: an experience report | |
JP5678774B2 (ja) | テキストデータの冗長性を解析する情報解析装置 | |
Parde et al. | Exploring the terrain of metaphor novelty: A regression-based approach for automatically scoring metaphors | |
Osterrieder | A primer on natural language processing for finance | |
CN111815426B (zh) | 一种涉及金融投研的数据处理方法及终端 | |
CN113782123A (zh) | 一种基于网络数据的在线医疗患者满意度测量方法 | |
US20230394235A1 (en) | Domain-specific document validation | |
CN113822040A (zh) | 一种主观题阅卷评分方法、装置、计算机设备及存储介质 | |
CN117745482A (zh) | 合同条款的确定方法、装置、设备和介质 | |
CN118035712B (zh) | 一种基于nlp的数据收集合规识别方法 | |
CN114328819A (zh) | 一种基于知识图谱的电力安全生产隐患预控方法 | |
CN113326348A (zh) | 一种博客质量评估方法及工具 | |
CN117540727B (zh) | 基于albert模型与rpa技术的主观题评分方法及系统 | |
Li et al. | An Accounting Classification System Using Constituency Analysis and Semantic Web Technologies | |
Chauhan et al. | A Pre-Trained Model for Aspect-based Sentiment Analysis Task: using Online Social Networking | |
CN117787800B (zh) | 一种基于工程建设施工的认证管理系统 | |
Peng et al. | Readability assessment for Chinese L2 sentences: an extended knowledge base and comprehensive evaluation model-based method | |
Tan | Significant Revision Identification between Revised Texts in a Multi-Author Environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |