CN117493496A - 一种自然语言模型的生成对抗式样本处理系统 - Google Patents
一种自然语言模型的生成对抗式样本处理系统 Download PDFInfo
- Publication number
- CN117493496A CN117493496A CN202311812199.3A CN202311812199A CN117493496A CN 117493496 A CN117493496 A CN 117493496A CN 202311812199 A CN202311812199 A CN 202311812199A CN 117493496 A CN117493496 A CN 117493496A
- Authority
- CN
- China
- Prior art keywords
- sample
- countermeasure
- unit
- training
- policy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 73
- 238000012216 screening Methods 0.000 claims abstract description 20
- 238000003032 molecular docking Methods 0.000 claims abstract description 18
- 238000005457 optimization Methods 0.000 claims abstract description 16
- 238000011156 evaluation Methods 0.000 claims description 27
- 238000006243 chemical reaction Methods 0.000 claims description 19
- 230000003993 interaction Effects 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 12
- 238000000034 method Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000012790 confirmation Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种自然语言模型的生成对抗式样本处理系统,涉及电数字数据处理领域,包括模型对接模块、对抗策略处理模块、对抗样本生成模块、样本评估模块和迭代优化模块,所述模型对接模块用于与自然语言模型进行对接并接收模型的训练样本,所述对抗策略处理模块设置对抗策略信息,所述对抗样本生成模块根据对抗策略对训练样本进行处理生成对抗样本,所述样本评估模块用于将对抗样本在模型中运行并筛选出对抗性不足的对抗样本,所述迭代优化模块用于将筛选出的对抗样本进行迭代处理提高对抗性;本系统能够生成对抗样本能够从而有效缓解语言模型过拟合,提高模型的鲁棒性和安全性。
Description
技术领域
本发明涉及电数字数据处理领域,具体涉及一种自然语言模型的生成对抗式样本处理系统。
背景技术
自然语言模型是人工智能的基础模型,自然语言模型能够正确地识别出对话信息并给予反馈,而在自然语言模型的训练过程中,样本数据的质量会直接影响自然语言模型的应用效果,而样本数据大部分从正常对话数据中直接获取,导致模型的鲁棒性较低,容易产生过拟合现象,无法正确处理一些特殊信息,因此,需要一种系统能够生成用于训练的对抗式样本来提高模型的鲁棒性。
背景技术的前述论述仅意图便于理解本发明。此论述并不认可或承认提及的材料中的任一种公共常识的一部分。
现在已经开发出了很多样本生成系统,经过大量的检索与参考,发现现有的样本生成系统有如公开号为CN113222480B所公开的系统,这些系统方法一般包括:首先获取原始样本构成的样本集,其中包括正常样本和风险样本;还获取风险检测模型及其对应的损失函数。针对样本集中各个原始样本,利用生成模型生成扰动变换,并将其叠加在对应原始样本上,得到各个原始样本对应的各个变换样本;利用风险检测模型确定各个变换样本的各个风险预测值;以正常样本对应的标签值为比对标签值,分别将各个风险预测值代入前述损失函数,得到各个变换样本的对抗损失;至少根据各个变换样本的对抗损失的综合确定总对抗损失;以最小化总对抗损失为目标,调整生成模型中的参数。但是该系统并不是用于生成对抗性强的样本,而是生成对抗性低的样本,无法提高自然语言模型的鲁棒性。
发明内容
本发明的目的在于,针对所存在的不足,提出了一种自然语言模型的生成对抗式样本处理系统。
本发明采用如下技术方案:
一种自然语言模型的生成对抗式样本处理系统,包括模型对接模块、对抗策略处理模块、对抗样本生成模块、样本评估模块和迭代优化模块;
所述模型对接模块用于与自然语言模型进行对接并接收模型的训练样本,所述对抗策略处理模块设置对抗策略信息,所述对抗样本生成模块根据对抗策略对训练样本进行处理生成对抗样本,所述样本评估模块用于将对抗样本在模型中运行并筛选出对抗性不足的对抗样本,所述迭代优化模块用于将筛选出的对抗样本进行迭代处理提高对抗性;
所述对抗策略处理模块包括策略交互单元、策略存储单元和策略激活单元,所述策略交互单元用于提供策略参数的设置界面,所述策略存储单元用于保存策略参数类型以及对应的设置值,所述策略激活单元用于将确认的参数设置值发送给所述对抗样本生成模块;
所述对抗样本生成模块包括样本解析单元、策略应用单元、扰动实施单元和样本输出单元,所述样本解析单元用于接收原始样本数据并对原始样本数据进行解析,所述策略应用单元用于导入策略参数,所述扰动实施单元根据导入的策略参数对训练样本进行修改,所述样本输出单元用于将对抗样本发送至样本评估模块;
所述样本评估模块包括对抗训练单元和评估筛选单元,所述对抗训练单元用于接收对抗样本,并将对抗样本在自然语言中进行训练后接收训练结果,所述评估筛选单元用于对训练结果进行评估并筛选出对抗性不足的对抗样本;
进一步的,所述样本解析单元包括样本寄存器、拆解处理器和编码处理器,所述样本寄存器用于接收并保存样本信息,所述拆解处理器用于将样本信息拆解成多个单独的词汇,所述编码处理器将词汇转换成对应的词汇码,并根据词汇的位置在编码中添加词性码,由词性码和词汇码构成解析码;
进一步的,所述策略应用单元包括策略寄存器和参数转换处理器,所述策略寄存器用于存储每个策略参数的实际应用数值范围,所述参数转换处理器用于将策略参数转换成对应的实际应用值;
所述参数转换处理器根据下式将策略参数转换成实际应用值Vai:
;
其中,表示第i个策略参数的实际应用数值范围,/>为第i个策略参数;
所述参数转换处理器将实际应用值发送给所述扰动实施单元;
进一步的,所述扰动实施单元对样本文本进行修改的过程包括如下步骤:
S1、根据选择出需要替换的解析码作为目标解析码;
S2、根据确定目标解析码的替换范围;
S3、根据从替换范围中选择对抗解析码;
S4、根据将原有的解析码和对抗解析码重新排序;
S5、在将新排序的解析码还原成文字,并根据在文字中增删虚词,使新文本语句通顺;
S6、根据在新文本中加入噪音;
进一步的,所述对抗训练单元包括对抗样本寄存器、训练传输处理器和结果统计处理器,所述对抗样本寄存器用于保存接收的对抗样本信息,所述训练传输处理器用于与训练交互单元传输对抗样本和训练结果,所述结果统计处理器用于统计出每个对抗样本的训练结果;
所述结果统计处理器根据下式计算出每个对抗样本的对抗性At:
;
其中,n(0)表示判断错误的训练次数,n(1)表示判断正确的训练次数;
所述评估筛选单元根据下式计算整个对抗样本的对抗指数P:
;
其中,表示第i份对抗样本的对抗性,/>为对抗阈值,m为对抗样本的数量。
本发明所取得的有益效果是:
本系统能够自行设置策略参数来控制对抗样本的生成,并对对抗样本的对抗性进行量化分析处理,不断迭代来将对抗性不足的样本进行处理,最终得到保有原始样本基本含义的新对抗样本,提高自然语言的鲁棒性,本系统设置的多个策略参数,在样本生成过程中的每个步骤进行限制,能够有效避免生成低质量样本对训练造成干扰。
为使能更进一步了解本发明的特征及技术内容,请参阅以下有关本发明的详细说明与附图,然而所提供的附图仅用于提供参考与说明,并非用来对本发明加以限制。
附图说明
图1为本发明整体结构框架示意图;
图2为本发明模型对接模块构成示意图;
图3为本发明对抗策略处理模块构成示意图;
图4为本发明对抗样本生成模块构成示意图;
图5为本发明样本评估模块构成示意图。
具体实施方式
以下是通过特定的具体实施例来说明本发明的实施方式,本领域技术人员可由本说明书所公开的内容了解本发明的优点与效果。本发明可通过其他不同的具体实施例加以施行或应用,本说明书中的各项细节也可基于不同观点与应用,在不悖离本发明的精神下进行各种修饰与变更。另外,本发明的附图仅为简单示意说明,并非依实际尺寸的描绘,事先声明。以下的实施方式将进一步详细说明本发明的相关技术内容,但所公开的内容并非用以限制本发明的保护范围。
实施例一:本实施例提供了一种自然语言模型的生成对抗式样本处理系统,包括模型对接模块、对抗策略处理模块、对抗样本生成模块、样本评估模块和迭代优化模块;
所述模型对接模块用于与自然语言模型进行对接并接收模型的训练样本,所述对抗策略处理模块设置对抗策略信息,所述对抗样本生成模块根据对抗策略对训练样本进行处理生成对抗样本,所述样本评估模块用于将对抗样本在模型中运行并筛选出对抗性不足的对抗样本,所述迭代优化模块用于将筛选出的对抗样本进行迭代处理提高对抗性;
所述对抗策略处理模块包括策略交互单元、策略存储单元和策略激活单元,所述策略交互单元用于提供策略参数的设置界面,所述策略存储单元用于保存策略参数类型以及对应的设置值,所述策略激活单元用于将确认的参数设置值发送给所述对抗样本生成模块;
所述对抗样本生成模块包括样本解析单元、策略应用单元、扰动实施单元和样本输出单元,所述样本解析单元用于接收原始样本数据并对原始样本数据进行解析,所述策略应用单元用于导入策略参数,所述扰动实施单元根据导入的策略参数对训练样本进行修改,所述样本输出单元用于将对抗样本发送至样本评估模块;
所述样本评估模块包括对抗训练单元和评估筛选单元,所述对抗训练单元用于接收对抗样本,并将对抗样本在自然语言中进行训练后接收训练结果,所述评估筛选单元用于对训练结果进行评估并筛选出对抗性不足的对抗样本;
所述样本解析单元包括样本寄存器、拆解处理器和编码处理器,所述样本寄存器用于接收并保存样本信息,所述拆解处理器用于将样本信息拆解成多个单独的词汇,所述编码处理器将词汇转换成对应的词汇码,并根据词汇的位置在编码中添加词性码,由词性码和词汇码构成解析码;
所述策略应用单元包括策略寄存器和参数转换处理器,所述策略寄存器用于存储每个策略参数的实际应用数值范围,所述参数转换处理器用于将策略参数转换成对应的实际应用值;
所述参数转换处理器根据下式将策略参数转换成实际应用值Vai:
;
其中,表示第i个策略参数的实际应用数值范围,/>为第i个策略参数;
所述参数转换处理器将实际应用值发送给所述扰动实施单元;
所述扰动实施单元对样本文本进行修改的过程包括如下步骤:
S1、根据选择出需要替换的解析码作为目标解析码;
S2、根据确定目标解析码的替换范围;
S3、根据从替换范围中选择对抗解析码;
S4、根据将原有的解析码和对抗解析码重新排序;
S5、在将新排序的解析码还原成文字,并根据在文字中增删虚词,使新文本语句通顺;
S6、根据在新文本中加入噪音;
所述对抗训练单元包括对抗样本寄存器、训练传输处理器和结果统计处理器,所述对抗样本寄存器用于保存接收的对抗样本信息,所述训练传输处理器用于与训练交互单元传输对抗样本和训练结果,所述结果统计处理器用于统计出每个对抗样本的训练结果;
所述结果统计处理器根据下式计算出每个对抗样本的对抗性At:
;
其中,n(0)表示判断错误的训练次数,n(1)表示判断正确的训练次数;
所述评估筛选单元根据下式计算整个对抗样本的对抗指数P:
;
其中,表示第i份对抗样本的对抗性,/>为对抗阈值,m为对抗样本的数量。
实施例二:本实施例包含了实施例一中的全部内容,提供了一种自然语言模型的生成对抗式样本处理系统,包括模型对接模块、对抗策略处理模块、对抗样本生成模块、样本评估模块和迭代优化模块;
所述模型对接模块用于与自然语言模型进行对接并接收模型的训练样本,所述对抗策略处理模块设置对抗策略信息,所述对抗样本生成模块根据对抗策略对训练样本进行处理生成对抗样本,所述样本评估模块用于将对抗样本在模型中运行并筛选出对抗性不足的对抗样本,所述迭代优化模块用于将筛选出的对抗样本进行迭代处理提高对抗性;
结合图2,所述模型对接模块包括模型接入单元、数据接入单元和训练交互单元,所述模型接入单元用于与自然语言模型进行通讯对接,所述数据接入单元用于接收并保存原始训练样本,所述训练交互单元用于输入训练样本并输出训练结果;
结合图3,所述对抗策略处理模块包括策略交互单元、策略存储单元和策略激活单元,所述策略交互单元用于提供策略参数的设置界面,所述策略存储单元用于保存策略参数类型以及对应的设置值,所述策略激活单元用于将确认的参数设置值发送给所述对抗样本生成模块;
结合图4,所述对抗样本生成模块包括样本解析单元、策略应用单元、扰动实施单元和样本输出单元,所述样本解析单元用于接收原始样本数据并对原始样本数据进行解析,所述策略应用单元用于导入策略参数,所述扰动实施单元根据导入的策略参数对训练样本进行修改,所述样本输出单元用于将对抗样本发送至样本评估模块;
结合图5,所述样本评估模块包括对抗训练单元和评估筛选单元,所述对抗训练单元用于接收对抗样本,并将对抗样本在自然语言中进行训练后接收训练结果,所述评估筛选单元用于对训练结果进行评估并筛选出对抗性不足的对抗样本;
所述迭代优化模块包括迭代接收单元和参数优化单元,所述迭代优化单元用于接收对抗性不足的对抗样本,所述参数优化单元用于根据评估结果对策略参数进行调整;
所述策略交互单元包括界面设置处理器、参数转换处理器和激活响应处理器,所述界面设置处理器用于显示设置内容,所述设置内容包括策略参数类型、设置条和确认按钮,所述参数转换处理器用于将设置条转换成对应的参数值,所述激活响应处理器用于检测确认按钮状态并向策略激活单元发送激活信号;
所述策略参数类型包括词汇替换参数、同义词范围参数、语义偏移参数、句子结构变化参数、文本长度维持参数和噪声注入参数,分别用、/>、/>、/>、/>和/>表示,策略参数的取值范围均为/>,
所述词汇替换参数用于控制在文本中有多少比例的词汇会被替换;
所述同义词范围参数用于控制从同义词库中选择词汇的范围;
所述语义偏移参数用于控制替换词汇与原词汇之间的语义距离;
所述句子结构变化参数用于控制句子结构可以发生的变化程度;
所述文本长度维持参数用于控制对抗样本的长度与原始样本长度的比例范围;
所述噪声注入参数用于控制在文本中注入多少噪声;
所述样本解析单元包括样本寄存器、拆解处理器和编码处理器,所述样本寄存器用于接收并保存样本信息,所述拆解处理器用于将样本信息拆解成多个单独的词汇,所述编码处理器将词汇转换成对应的词汇码,并根据词汇的位置在编码中添加词性码,由词性码和词汇码构成解析码;
所述策略应用单元包括策略寄存器和参数转换处理器,所述策略寄存器用于存储每个策略参数的实际应用数值范围,所述参数转换处理器用于将策略参数转换成对应的实际应用值;
所述参数转换处理器根据下式将策略参数转换成实际应用值Vai:
;
其中,表示第i个策略参数的实际应用数值范围;
所述参数转换处理器将6个实际应用值发送给所述扰动实施单元;
所述扰动实施单元对样本文本进行修改的过程包括如下步骤:
S1、根据选择出需要替换的解析码作为目标解析码;
S2、根据确定目标解析码的替换范围;
S3、根据从替换范围中选择对抗解析码;
S4、根据将原有的解析码和对抗解析码重新排序;
S5、在将新排序的解析码还原成文字,并根据在文字中增删虚词,使新文本语句通顺;
S6、根据在新文本中加入噪音;
所述扰动实施单元包括编码词汇转换处理器、同义词汇处理器、结构句式处理器和噪音处理器,所述编码词汇转换处理器用于将解析码与词汇之间相互转换,所述同义词汇处理器用于记录同义词的词汇群以及并计算出整体的偏移距离,所述结构句式处理器用于确定文本的句式结构处于正确状态,所述噪音处理器用于生成错别字作为噪音内容;
所述同义词汇处理器根据下式计算出偏移距离D:
;
其中,n为替换的词汇数量,为第i个替换的词汇与源词汇的词义距离;
所述词汇群中记录了任意两个词汇的词义距离;
所述对抗训练单元包括对抗样本寄存器、训练传输处理器和结果统计处理器,所述对抗样本寄存器用于保存接收的对抗样本信息,所述训练传输处理器用于与训练交互单元传输对抗样本和训练结果,所述结果统计处理器用于统计出每个对抗样本的训练结果;
单次的训练结果为真和伪,真表示模型判断正确,用1表示,伪表示模型判断错误,用0表示,统计的训练结果用对抗性At表示:
;
其中,n(0)表示判断错误的训练次数,n(1)表示判断正确的训练次数;
所述评估筛选单元根据下式计算整个对抗样本的对抗指数P:
;
其中,表示第i份对抗样本的对抗性,/>为对抗阈值,m为对抗样本的数量;
当对抗指数小于0时,表示整个对抗样本的对抗性未达到要求,向对抗策略处理模块发送信息,并在策略交互单元上显示信息要求调整策略参数,当对抗指数大于等于0时,表示整个对抗样本的对抗性达到要求,将对抗指数小于YA的对抗样本发送给所述迭代优化模块;
所述参数优化单元根据下式计算出新的策略参数:
;
所述迭代优化模块将迭代接收单元中的样本和新的策略参数发送给对抗样本生成模块进行迭代生成新的对抗样本;
上文中出现的i为用于表示序号的序数。
以上所公开的内容仅为本发明的优选可行实施例,并非因此局限本发明的保护范围,所以凡是运用本发明说明书及附图内容所做的等效技术变化,均包含于本发明的保护范围内,此外,随着技术发展其中的元素可以更新的。
Claims (5)
1.一种自然语言模型的生成对抗式样本处理系统,其特征在于,包括模型对接模块、对抗策略处理模块、对抗样本生成模块、样本评估模块和迭代优化模块;
所述模型对接模块用于与自然语言模型进行对接并接收模型的训练样本,所述对抗策略处理模块设置对抗策略信息,所述对抗样本生成模块根据对抗策略对训练样本进行处理生成对抗样本,所述样本评估模块用于将对抗样本在模型中运行并筛选出对抗性不足的对抗样本,所述迭代优化模块用于将筛选出的对抗样本进行迭代处理提高对抗性;
所述对抗策略处理模块包括策略交互单元、策略存储单元和策略激活单元,所述策略交互单元用于提供策略参数的设置界面,所述策略存储单元用于保存策略参数类型以及对应的设置值,所述策略激活单元用于将确认的参数设置值发送给所述对抗样本生成模块;
所述对抗样本生成模块包括样本解析单元、策略应用单元、扰动实施单元和样本输出单元,所述样本解析单元用于接收原始样本数据并对原始样本数据进行解析,所述策略应用单元用于导入策略参数,所述扰动实施单元根据导入的策略参数对训练样本进行修改,所述样本输出单元用于将对抗样本发送至样本评估模块;
所述样本评估模块包括对抗训练单元和评估筛选单元,所述对抗训练单元用于接收对抗样本,并将对抗样本在自然语言中进行训练后接收训练结果,所述评估筛选单元用于对训练结果进行评估并筛选出对抗性不足的对抗样本。
2.如权利要求1所述的一种自然语言模型的生成对抗式样本处理系统,其特征在于,所述样本解析单元包括样本寄存器、拆解处理器和编码处理器,所述样本寄存器用于接收并保存样本信息,所述拆解处理器用于将样本信息拆解成多个单独的词汇,所述编码处理器将词汇转换成对应的词汇码,并根据词汇的位置在编码中添加词性码,由词性码和词汇码构成解析码。
3.如权利要求2所述的一种自然语言模型的生成对抗式样本处理系统,其特征在于,所述策略应用单元包括策略寄存器和参数转换处理器,所述策略寄存器用于存储每个策略参数的实际应用数值范围,所述参数转换处理器用于将策略参数转换成对应的实际应用值;
所述参数转换处理器根据下式将策略参数转换成实际应用值Vai:
;
其中,表示第i个策略参数的实际应用数值范围,/>为第i个策略参数;
所述参数转换处理器将实际应用值发送给所述扰动实施单元。
4.如权利要求3所述的一种自然语言模型的生成对抗式样本处理系统,其特征在于,所述扰动实施单元对样本文本进行修改的过程包括如下步骤:
S1、根据选择出需要替换的解析码作为目标解析码;
S2、根据确定目标解析码的替换范围;
S3、根据从替换范围中选择对抗解析码;
S4、根据将原有的解析码和对抗解析码重新排序;
S5、在将新排序的解析码还原成文字,并根据在文字中增删虚词,使新文本语句通顺;
S6、根据在新文本中加入噪音。
5.如权利要求4所述的一种自然语言模型的生成对抗式样本处理系统,其特征在于,所述对抗训练单元包括对抗样本寄存器、训练传输处理器和结果统计处理器,所述对抗样本寄存器用于保存接收的对抗样本信息,所述训练传输处理器用于与训练交互单元传输对抗样本和训练结果,所述结果统计处理器用于统计出每个对抗样本的训练结果;
所述结果统计处理器根据下式计算出每个对抗样本的对抗性At:
;
其中,n(0)表示判断错误的训练次数,n(1)表示判断正确的训练次数;
所述评估筛选单元根据下式计算整个对抗样本的对抗指数P:
;
其中,表示第i份对抗样本的对抗性,/>为对抗阈值,m为对抗样本的数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311812199.3A CN117493496B (zh) | 2023-12-27 | 2023-12-27 | 一种自然语言模型的生成对抗式样本处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311812199.3A CN117493496B (zh) | 2023-12-27 | 2023-12-27 | 一种自然语言模型的生成对抗式样本处理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117493496A true CN117493496A (zh) | 2024-02-02 |
CN117493496B CN117493496B (zh) | 2024-04-16 |
Family
ID=89683212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311812199.3A Active CN117493496B (zh) | 2023-12-27 | 2023-12-27 | 一种自然语言模型的生成对抗式样本处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117493496B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111461226A (zh) * | 2020-04-01 | 2020-07-28 | 深圳前海微众银行股份有限公司 | 对抗样本生成方法、装置、终端及可读存储介质 |
CN111783451A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 用于增强文本样本的方法和装置 |
CN114266050A (zh) * | 2022-03-03 | 2022-04-01 | 西南石油大学 | 一种跨平台恶意软件对抗样本生成方法及系统 |
US20220382880A1 (en) * | 2021-05-20 | 2022-12-01 | Royal Bank Of Canada | System and method for adversarial vulnerability testing of machine learning models |
CN115510986A (zh) * | 2022-09-29 | 2022-12-23 | 广东工业大学 | 一种基于AdvGAN的对抗样本生成方法 |
-
2023
- 2023-12-27 CN CN202311812199.3A patent/CN117493496B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111461226A (zh) * | 2020-04-01 | 2020-07-28 | 深圳前海微众银行股份有限公司 | 对抗样本生成方法、装置、终端及可读存储介质 |
CN111783451A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 用于增强文本样本的方法和装置 |
US20220382880A1 (en) * | 2021-05-20 | 2022-12-01 | Royal Bank Of Canada | System and method for adversarial vulnerability testing of machine learning models |
CN114266050A (zh) * | 2022-03-03 | 2022-04-01 | 西南石油大学 | 一种跨平台恶意软件对抗样本生成方法及系统 |
CN115510986A (zh) * | 2022-09-29 | 2022-12-23 | 广东工业大学 | 一种基于AdvGAN的对抗样本生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117493496B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12056458B2 (en) | Translation method and apparatus based on multimodal machine learning, device, and storage medium | |
CN114610515B (zh) | 基于日志全语义的多特征日志异常检测方法及系统 | |
CN113434357B (zh) | 基于序列预测的日志异常检测方法及装置 | |
WO2021068352A1 (zh) | Faq问答对自动构建方法、装置、计算机设备及存储介质 | |
CN1457041B (zh) | 为一个自然语言理解系统用来自动注解训练数据的一个系统 | |
CN116127953B (zh) | 一种基于对比学习的中文拼写纠错方法、装置和介质 | |
CN111597340A (zh) | 一种文本分类方法及装置、可读存储介质 | |
CN114528827B (zh) | 一种面向文本的对抗样本生成方法、系统、设备及终端 | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN112069787A (zh) | 一种基于词嵌入的日志参数异常检测方法 | |
CN114742069A (zh) | 一种代码相似度检测方法及装置 | |
CN114064117A (zh) | 一种基于字节码和神经网络的代码克隆检测方法及系统 | |
CN115359799A (zh) | 语音识别方法、训练方法、装置、电子设备及存储介质 | |
CN113449514A (zh) | 一种适用于特定垂直领域的文本纠错方法及其纠错装置 | |
CN113268985B (zh) | 基于关系路径的远程监督关系抽取方法、装置及介质 | |
CN113627173B (zh) | 一种制造商名称识别方法、装置、电子设备及可读介质 | |
CN110826325A (zh) | 一种基于对抗训练的语言模型预训练方法、系统及电子设备 | |
CN112488111B (zh) | 一种基于多层级表达引导注意力网络的指示表达理解方法 | |
CN117493496B (zh) | 一种自然语言模型的生成对抗式样本处理系统 | |
CN113761875A (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN113761950B (zh) | 一种翻译模型的测试方法及装置 | |
CN114896966A (zh) | 一种中文文本语法错误定位方法、系统、设备及介质 | |
CN112507064A (zh) | 一种基于主题感知的跨模态序列到序列生成方法 | |
Navarro-Cerdan et al. | Batch-adaptive rejection threshold estimation with application to OCR post-processing | |
CN118278394B (zh) | 一种中文拼写纠错方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |