CN114579763A - 一种针对中文文本分类任务的字符级对抗样本生成方法 - Google Patents
一种针对中文文本分类任务的字符级对抗样本生成方法 Download PDFInfo
- Publication number
- CN114579763A CN114579763A CN202210219212.3A CN202210219212A CN114579763A CN 114579763 A CN114579763 A CN 114579763A CN 202210219212 A CN202210219212 A CN 202210219212A CN 114579763 A CN114579763 A CN 114579763A
- Authority
- CN
- China
- Prior art keywords
- dictionary
- polyphone
- character
- data
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种对抗样本生成方法,涉及人工智能领域,尤其涉及自然语言处理领域,具体来说是一种针对中文文本分类任务的字符级对抗样本生成方法。具体实现方法为:获取用于生成对抗样本的原始数据,进行多音字字典的构建;对所述多音字字典中的数据进行标注;对所述原始数据进行利用所述多音字字典标注的数据进行多音字替换,得到对抗样本。本发明可以生成高质量的对抗样本。
Description
技术领域
本发明涉及人工智能领域,尤其涉及自然语言处理领域,具体来说是一种针对中文文本分类任务的字符级对抗样本生成方法。
技术背景
在文本领域中,大量的文本数据被用来进行各种分析。在利用文本数据进行相关任务时,都需要使用对抗样本进行模型鲁棒性检测或数据增强。同时为向训练数据中添加对抗样本,可以提高模型鲁棒性。
在目前的对抗样本生成方法中,都存在扰动幅度较大,容易被模型识别的问题,使得对抗样本没有发挥最好的性能。如何生成高质量的对抗样本,最大程度不被模型识别是至关重要的,也是本发明要解决的问题。
发明内容
针对上述问题,本发明通过深入挖掘文本特征信息,利用汉字本身特点,生成高质量的对抗样本,为各类有对抗样本数据需求的任务提供技术支持。
本发明提供了一种针对中文文本分类任务的字符级对抗样本生成方法。
本发明所述的一种航空旅客付费选座意愿画像及分析的方法,其特征在于包含以下步骤:
A)数据获取及存储:从众多网络评论中获取原始数据,并进行存储。
B)多音字字典构建:根据所述原始数据,构建多音字字典。
所述多音字字典表示为同时包含字符和读音之间关系的字典,用四元组(w,x,y,i)描述。
其中,w是多音字的中文表示,x是w的拼音表述,y是w的具体含义,i表示w的第i个读音,i∈[1,7]。
C)多音字字典标注:根据所述多音字字典格式,进行标注,确定所述多音字字典中每个字的四元组(w,x,y,i)具体值。
D)对抗样本生成:将所述原始样本作为输入,利用构建的所述多音字字典中的数据,在所述原始数据中进行全局匹配,找到w相同的字,进行替换操作,得到与原文字形相同但字音不同的对抗样本。
本发明所述的一种航空旅客付费选座意愿画像及分析的方法,其特征在于:
在[0007]行中,所述原始数据包括结构化数据和非结构化数据。
本发明所述的一种针对中文文本分类任务的字符级对抗样本生成方法,其特征在于:
将所述对抗样本输入至目标判别模型,得到所述目标判别模型输出的所述样本的判断类别;
根据所述判断类别,得到当前判断与所述原始数据类别之间的差异,得到扰动值,并将所述扰动返回至所述对抗样本生成过程。其中,所述目标判断类别与所述原始类别为不同。
由于采用上述技术方案,本发明通过深入挖掘文本特征信息,利用中文多音字信息,生成高质量的对抗样本。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本发明的限定。其中:
图1是一种针对中文文本分类任务的字符级对抗样本生成方法的替换向量描述图
具体实施方式
下面结合附图说明,帮助理解本发明的发明内容。
本发明所述一种航空旅客付费选座意愿画像及分析的方法,包含以下步骤:
A)数据获取及存储:从众多网络评论中获取原始数据,并进行存储。该步骤包括从各大网站平台抓取数据,包括但不限于,小红书中的观点评论、淘宝中的顾客评论、微博中的事件评论等结构化和非结构化数据信息,对获取的数据进行数据清洗,再进行存储。
B)多音字字典构建:根据所述原始数据,构建多音字字典。
所述多音字字典表示为同时包含字符和读音之间关系的字典,用四元组(w,x,y,i)描述。
其中,w是多音字的中文表示,x是w的拼音表述,y是w的具体含义,i表示w的第i个读音,i∈[1,7]。
C)多音字字典构建标注:根据所述多音字字典格式,进行构建标注,确定所述多音字字典中每个字的四元组(w,x,y,i)具体值。
针对多音字字典,标注信息需要对拼音以及数据之间信息进行计算,计算方法如下:
在读音与字义之间的联系,对应于归类任务,采用点互信息PMI算法来完成,PMI可以较为准确地衡量读音与字义的相关性,其计算如下所示:
其中,x表示多音字w的拼音表示,y表示多音字w的具体含义。若x与y无关,则p(x,y)=p(x)p(y),表示该读音没有此含义;若x与y相关,则p(x,y)和p(x)p(y)的比值就会越大,表示该读音有此含义。
通过PMI算法,将多音字的拼音与具体含义进行归类联系。
设多音字wi的含义集合为Wi={w1,w2,w3,…,wl},则构建的<拼音-含义>集合W为:
其中,wij表示单词Wi的第i个读音与对应的含义组成的<拼音-含义>集合,其中i∈[1,7],n∈[1,7],并且每个多音字的不同读音可能有多个含义。
根据得到的<拼音-含义>集合W,基于定义,可以得到所构建的多音字字典,其中包含的信息如前所述。
所述多音字字典构建详细算法步骤如下所述:
1.输入信息有包含多音字字符{wi}、读音{xi}和字义{yi}的多音字集合D,空字典DI,阈值σ
2.输出信息为目标多音字字典DI
3.初始化多音字字典D,DI
4.当{wi},{xi},{yi}都在D中时
5.满足i∈[1,7]时
6.计算X和Y之间的PIM值
7.如果PIM值大于阈值σ
8.则将(xi,yi)加入到DI中
9.否则输出“x与y不匹配不能加入字典DI中”
10.等待循环结束
11.最终输出目标字典DI
D)对抗样本生成:对抗样本生成具体包括下述详细步骤。结合附图进行细节阐述。
首先进行扰动定位,判断替换词位置。
对输入样本W进行分词得到W=[w1,w2,w3,w4,…,wn],其中n表示输入样本的字符长度,再将输入样本进行拼音化处理,通过与构建的多音字字典中进行比对,找到输入样本中全部的多音字位置,对序列W中的第i个多音字,计算整个样本和删除该字之后样本的输入分数差值:
TDS(wi)=f(w1,…,wi-1,wi,wi+1,…,wn)-f(w1,…,wi-1,wi+1,…,wn)
附图1详细描述了本发明通过矩阵变换得到不同含义且不同读音的同形字形式化流程,具体描述如下:
句子由[X1,X2,…,XT]等T个汉字组成,对其进行汉克尔矩阵化操作,变形为[X1,X2,…,XT]
其中,Xi表示为汉字对应的矩阵形式。
通过本发明内容,对含有多音字的汉字执行替换操作,即附图1中所述红色框处的0变为1,得到改变后的矩阵Mi,即可得到更新后的Xnew。
所述对抗样本生成详细算法步骤如下所述:
输入信息为多音字字典DI,文本X=[x1,x2,x3,…,xn],评分机制TDS,转换函数T,阈值λ
输出目标是对抗样本X'
1.对文本进行分词向量化X=[x1,x2,x3,…,xn]
2.对x在X中时
3.同时i在1-n范围中时
4.i的得分Score=TDS(xi)
5.进行得分判断,若分数大于λ
6.输出标签为yes
7否则为no
8.从DI中选择合适的x
9.将x'的索引值等价于T(xindexi)
10.返回最终目标X'
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (3)
1.一种针对中文文本分类任务的字符级对抗样本生成方法,其特征在于包含以下步骤:
A)数据获取及存储:从众多网络评论中获取原始数据,并进行存储。
B)多音字字典构建:根据所述原始数据,构建多音字字典。
所述多音字字典表示为同时包含字符和读音之间关系的字典,用四元组(w,x,y,i)描述。
其中,w是多音字的中文表示,x是w的拼音表述,y是w的具体含义,i表示w的第i个读音,i∈[1,7]。
C)多音字字典标注:根据所述多音字字典格式,进行标注,确定所述多音字字典中每个字的四元组(w,x,y,i)具体值。
D)对抗样本生成:将所述原始样本作为输入,利用构建的所述多音字字典中的数据,在所述原始数据中进行全局匹配,找到w相同的字,进行替换操作,得到与原文字形相同但字音不同的对抗样本。
2.根据权利要求1所述的一种针对中文文本分类任务的字符级对抗样本生成方法,其特征在于:
在步骤A),所述原始数据包括结构化数据和非结构化数据。
3.根据权利要求1所述的一种针对中文文本分类任务的字符级对抗样本生成方法,其特征在于:
将所述对抗样本输入至目标判别模型,得到所述目标判别模型输出的所述样本的判断类别;
根据所述判断类别,得到当前判断与所述原始数据类别之间的差异,得到扰动值,并将所述扰动返回至所述对抗样本生成过程。其中,所述目标判断类别与所述原始类别为不同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210219212.3A CN114579763A (zh) | 2022-03-08 | 2022-03-08 | 一种针对中文文本分类任务的字符级对抗样本生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210219212.3A CN114579763A (zh) | 2022-03-08 | 2022-03-08 | 一种针对中文文本分类任务的字符级对抗样本生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114579763A true CN114579763A (zh) | 2022-06-03 |
Family
ID=81773122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210219212.3A Pending CN114579763A (zh) | 2022-03-08 | 2022-03-08 | 一种针对中文文本分类任务的字符级对抗样本生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114579763A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115243250A (zh) * | 2022-07-25 | 2022-10-25 | 每日互动股份有限公司 | 一种获取wifi画像的方法、系统及存储介质 |
-
2022
- 2022-03-08 CN CN202210219212.3A patent/CN114579763A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115243250A (zh) * | 2022-07-25 | 2022-10-25 | 每日互动股份有限公司 | 一种获取wifi画像的方法、系统及存储介质 |
CN115243250B (zh) * | 2022-07-25 | 2024-05-28 | 每日互动股份有限公司 | 一种获取wifi画像的方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109190131B (zh) | 一种基于神经机器翻译的英语单词及其大小写联合预测方法 | |
CN110196894B (zh) | 语言模型的训练方法和预测方法 | |
CN108628823B (zh) | 结合注意力机制和多任务协同训练的命名实体识别方法 | |
CN110245229B (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN109685056B (zh) | 获取文档信息的方法及装置 | |
CN113591457B (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN112560478B (zh) | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 | |
CN110781663B (zh) | 文本分析模型的训练方法及装置、文本分析方法及装置 | |
WO2022048194A1 (zh) | 事件主体识别模型优化方法、装置、设备及可读存储介质 | |
CN116432655B (zh) | 基于语用知识学习的少样本命名实体识别方法和装置 | |
JP5809381B1 (ja) | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム | |
CN111222318A (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
CN114969275A (zh) | 一种基于银行知识图谱的对话方法及其系统 | |
CN115114926A (zh) | 一种中文农业命名实体识别方法 | |
JP5441937B2 (ja) | 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム | |
CN116861269A (zh) | 工程领域的多源异构数据融合及分析方法 | |
CN114579763A (zh) | 一种针对中文文本分类任务的字符级对抗样本生成方法 | |
CN116562295A (zh) | 一种面向桥梁领域文本的增强语义命名实体识别方法 | |
CN113761875B (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN110472243B (zh) | 一种中文拼写检查方法 | |
CN115204143A (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN112651590B (zh) | 一种指令处理流程推荐的方法 | |
CN114896966A (zh) | 一种中文文本语法错误定位方法、系统、设备及介质 | |
CN115017906A (zh) | 一种针对文本中实体的识别方法、装置及存储介质 | |
CN111859947B (zh) | 一种文本处理装置、方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |