CN114444476A - 信息处理方法、装置和计算机可读存储介质 - Google Patents

信息处理方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN114444476A
CN114444476A CN202210089635.8A CN202210089635A CN114444476A CN 114444476 A CN114444476 A CN 114444476A CN 202210089635 A CN202210089635 A CN 202210089635A CN 114444476 A CN114444476 A CN 114444476A
Authority
CN
China
Prior art keywords
text
sample
word
features
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210089635.8A
Other languages
English (en)
Other versions
CN114444476B (zh
Inventor
苏辉
施隈隈
周霄
周杰
方佳瑞
籍佗
沈晓宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210089635.8A priority Critical patent/CN114444476B/zh
Publication of CN114444476A publication Critical patent/CN114444476A/zh
Application granted granted Critical
Publication of CN114444476B publication Critical patent/CN114444476B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种信息处理方法、装置和计算机可读存储介质;通过获取至少一个文本样本;计算每一文本词样本在文本样本中的重要系数;根据重要系数在文本词样本中确定目标词样本,并对目标词样本进行多种对抗类型的转换,得到每一对抗类型对应的对抗词样本;基于对抗词样本对文本样本中对应的目标词样本进行替换,得到文本样本对应的至少一个对抗文本样本;采用预设信息处理模型在文本样本中提取出文本样本特征,并在对抗文本样本中提取出对抗文本样本特征;根据文本样本特征和对抗文本样本特征,对预设信息处理模型进行收敛,得到训练后信息处理模型。以此,提升模型在对抗数据上的鲁棒性,提升模型训练的效率,进而提高了信息处理效率。

Description

信息处理方法、装置和计算机可读存储介质
技术领域
本申请涉及人工智能技术领域,具体涉及一种信息处理方法、装置和计算机可读存储介质。
背景技术
自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能够实现人与计算机之间用自然语言进行有效通信的各种理论和方法。近年来,随着人工智能技术的快速发展,人们对自然语言处理技术的要求也不断提高,相应的,对模型的性能要求也在提高。现有的提高模型性能的方法可以通过对模型进行对抗训练,来提高模型的性能。
在对现有技术的研究和实践过程中,本发明的发明人发现,现有的对抗训练方法中对抗样本的数量以及类型较为有限,这种方法训练得到的模型无法很好的对复杂多样的对抗文本进行处理,使得模型在对抗样本上的鲁棒性较差,进而导致模型训练的效率较低,从而降低了信息处理效率。
发明内容
本申请实施例提供一种信息处理方法、装置和计算机可读存储介质,可以提升模型在对抗数据上的鲁棒性,进而提升了模型训练的效率,从而提高了信息处理效率。
本申请实施例提供一种信息处理方法,包括:
获取至少一个文本样本,所述文本样本包括至少一个文本词样本;
计算每一所述文本词样本在所述文本样本中的重要系数,所述重要系数用于表征每一所述文本词样本在所述文本样本中的重要程度;
根据所述重要系数在所述文本词样本中确定目标词样本,并对所述目标词样本进行多种对抗类型的转换,得到每一对抗类型对应的对抗词样本;
基于所述对抗词样本对所述文本样本中对应的目标词样本进行替换,得到所述文本样本对应的至少一个对抗文本样本;
采用预设信息处理模型在所述文本样本中提取出所述文本样本特征,并在所述对抗文本样本中提取出对抗文本样本特征;
根据所述文本样本特征和所述对抗文本样本特征,对所述预设信息处理模型进行收敛,得到训练后信息处理模型,所述训练后信息处理模型用于对待处理信息进行处理。
相应的,本申请实施例提供一种信息处理装置,包括:
获取单元,用于获取至少一个文本样本,所述文本样本包括至少一个文本词样本;
计算单元,用于计算每一所述文本词样本在所述文本样本中的重要系数,所述重要系数用于表征每一所述文本词样本在所述文本样本中的重要程度;
确定单元,用于根据所述重要系数在所述文本词样本中确定目标词样本,并对所述目标词样本进行多种对抗类型的转换,得到每一对抗类型对应的对抗词样本;
替换单元,用于基于所述对抗词样本对所述文本样本中对应的目标词样本进行替换,得到所述文本样本对应的至少一个对抗文本样本;
提取单元,用于采用预设信息处理模型在所述文本样本中提取出所述文本样本特征,并在所述对抗文本样本中提取出对抗文本样本特征;
收敛单元,用于根据所述文本样本特征和所述对抗文本样本特征,对所述预设信息处理模型进行收敛,得到训练后信息处理模型,所述训练后信息处理模型用于对待处理信息进行处理。
在一实施例中,所述确定单元,包括:
转换数量确定子单元,用于获取所述文本样本对应的文本词样本的样本数量,并根据预设转换数量参数和所述样本数量确定转换数量;
筛选子单元,用于基于所述重要系数和所述转换数量,在所述文本样本对应的文本词样本中筛选出目标词样本。
在一实施例中,所述提取单元,包括:
多维特征提取子单元,用于采用预设信息处理模型对所述文本样本中的每一所述文本词样本进行多维度特征提取,得到多个维度的文本词特征;
文本词特征融合子单元,用于将所述文本词特征进行融合,得到每一所述文本词样本对应的融合后文本词特征;
文本特征提取子单元,用于基于所述融合后文本词特征,对所述文本样本进行特征提取,得到所述文本样本的文本样本特征。
在一实施例中,所述多维特征提取子单元,包括:
词特征提取模块,用于采用预设信息处理模型对所述文本样本中每一文本词样本进行词特征提取,得到所述文本样本中每一文本词样本对应的词特征;
模态特征提取模块,用于对所述文本样本中每一文本词样本进行多模态特征提取,得到所述文本样本中每一文本词样本对应的至少一个模态特征;
赋值模块,用于将所述词特征和所述模态特征作为所述文本样本中每一文本词样本对应的多个维度的文本词特征。
在一实施例中,所述模态特征提取模块,包括:
字音特征筛选子模块,用于在预设字音特征集合中筛选出与所述文本样本中每一文本词样本对应的目标特征,得到所述文本样本中每一文本词样本对应的字音特征;
字形特征提取子模块,用于在所述文本样本中提取出每一文本词样本对应的词图像特征,并基于所述词图像特征,在所述文本样本中提取出每一文本词样本对应的字形特征;
赋值子模块,用于将所述字音特征和所述字形特征作为所述文本样本中每一文本词样本对应的模态特征。
在一实施例中,所述文本词特征融合子单元,包括:
关联权重计算模块,用于计算所述文本词特征中每一维度的文本词特征对应的关联权重;
关联权重加权模块,用于基于所述关联权重对所述多个维度的文本词特征进行加权,得到加权后文本词特征;
加权融合模块,用于对所述加权后文本词特征进行融合,得到所述文本词特征对应的融合后文本词特征。
在一实施例中,所述关联权重计算模块,用于:
对每一维度的文本词特征进行特征提取,得到每一维度的文本词特征对应的关联特征;
基于所述关联特征,确定每一维度的文本词特征对应的关联权重。
在一实施例中,所述加权融合模块,包括:
特征映射子模块,用于对所述文本词样本对应的词特征进行特征映射,得到所述文本词样本对应的隐层词特征;
初始融合子模块,用于将所述加权后文本词特征和对应的隐层词特征进行融合,得到初始融合后文本词特征;
全连接融合子模块,用于对所述初始融合后文本词特征进行全连接处理,并将全连接处理结果与所述初始融合后文本词特征进行融合,得到所述文本词特征对应的融合后文本词特征。
在一实施例中,所述初始融合子模块,用于:
将所述加权后文本词特征和对应的隐层词特征进行特征融合,得到特征融合后文本词特征;
对所述加权融合后文本词特征进行归一化处理,得到初始融合后文本词特征。
在一实施例中,所述收敛单元,包括:
对比损失信息确定子单元,用于根据所述文本样本特征和对抗文本样本特征,确定所述预设信息处理模型对应的对比损失信息;
预测损失信息确定子单元,用于根据所述文本样本特征和对抗文本样本特征,确定所述预设信息处理模型对应的预测损失信息;
收敛子单元,用于基于所述对比损失信息以及所述预测损失信息,对所述预设信息处理模型进行收敛,得到训练后预设信息处理模型。
在一实施例中,所述对比损失信息确定子单元,包括:
特征相似度计算模块,用于计算所述文本样本特征和对应的对抗文本样本特征之间的特征相似度;
关注度比值确定模块,用于获取预设温度系数,并确定所述特征相似度与所述预设温度系数之间的关注度比值;
对比损失信息计算模块,用于基于所述关注度比值计算所述文本样本特征和对应的对抗文本样本特征之间的对比损失信息。
在一实施例中,所述预测损失信息确定子单元,包括:
遮掩模块,用于在所述文本样本与对应的对抗文本样本中确定掩码位置,并对所述掩码位置对应的文本词样本以及对抗文本词样本进行遮掩处理,得到遮掩后文本词样本和遮掩后对抗文本词样本;
预测模块,用于通过预设信息处理模型预测所述遮掩后文本词样本和遮掩后对抗文本词样本对应的词,得到所述遮掩后文本词样本对应的预测文本词,以及所述遮掩后对抗文本词样本对应的预测对抗文本词;
预测损失信息确定模块,用于基于所述预测文本词和对应的文本词样本确定所述文本样本的预测损失信息,并基于所述预测对抗文本词以及对应的对抗文本词样本,确定所述对抗文本样本的预测损失信息;
预测损失信息赋值模块,用于将所述文本样本的预测损失信息,以及所述对抗文本样本的预测损失信息,作为所述预设信息处理模型对应的预测损失信息。
此外,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例所提供的任一种信息处理方法中的步骤。
此外,本申请实施例还提供一种计算机设备,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序实现本申请实施例提供的信息处理方法。
本申请实施例还提供一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行本申请实施例提供的信息处理方法中的步骤。
本申请实施例通过获取至少一个文本样本,该文本样本包括至少一个文本词样本;计算每一文本词样本在文本样本中的重要系数,该重要系数用于表征每一文本词样本在文本样本中的重要程度;根据重要系数在文本词样本中确定目标词样本,并对目标词样本进行多种对抗类型的转换,得到每一对抗类型对应的对抗词样本;基于对抗词样本对文本样本中对应的目标词样本进行替换,得到文本样本对应的至少一个对抗文本样本;采用预设信息处理模型在文本样本中提取出文本样本特征,并在对抗文本样本中提取出对抗文本样本特征;根据文本样本特征和对抗文本样本特征,对预设信息处理模型进行收敛,得到训练后信息处理模型。以此,通过计算每一文本词样本在文本样本中的重要系数,来将文本词样本中重要程度较高的目标词样本进行多种对抗类型的转换,进而得到多种类型的对抗文本词样本对应的对抗文本样本,并基于对抗文本样本和文本样本对预设信息处理模型进行收敛,来得到训练后信息处理模型,提升了训练后信息处理模型在对抗数据上的鲁棒性,进而提升模型训练的效率,通过该训练后信息处理模型对待处理信息进行处理,提高了信息处理效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种信息处理方法实施场景示意图;
图2是本申请实施例提供的一种信息处理方法的流程示意图;
图3是本申请实施例提供的一种信息处理方法的对抗类型转换示意图;
图4是本申请实施例提供的一种信息处理方法的结构示意图;
图5是本申请实施例提供的一种信息处理方法的另一流程示意图;
图6是本申请实施例提供的信息处理装置的结构示意图;
图7是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种信息处理方法、装置和计算机可读存储介质。其中,该信息处理装置可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是平板电脑、笔记本电脑、台式计算机、智能手机、智能音箱、智能手表等设备,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
请参阅图1,以信息处理装置集成在计算机设备中为例,图1为本申请实施例所提供的信息处理方法的实施场景示意图,其中,该计算机设备可以为服务器,也可以为终端,该计算机设备可以获取至少一个文本样本,该文本包括至少一个文本词样本;计算每一文本词样本在文本样本中的重要系数,该重要系数用于表征每一所述文本词样本在所述文本样本中的重要程度;根据重要系数在文本词样本中确定目标词样本,并对目标词样本进行多种对抗类型的转换,得到每一对抗类型对应的对抗词样本;基于对抗词样本对文本样本中对应的目标词样本进行替换,得到文本样本对应的至少一个对抗文本样本;采用预设信息处理模型在文本样本中提取出文本样本特征,并在对抗文本样本中提取出对抗文本样本特征;根据文本样本特征和对抗文本样本特征,对预设信息处理模型进行收敛,得到训练后信息处理模型。
需要说明的是,图1所示的信息处理方法的实施环境场景示意图仅仅是一个示例,本申请实施例描述的信息处理方法的实施环境场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定。本领域普通技术人员可知,随着信息处理的演变和新业务场景的出现,本申请提供的技术方案对于类似的技术问题,同样适用。
为了更好的说明本申请实施例,请参照以下名词进行参考:
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
预训练模型:指的是在大量无标签信息的数据上进行训练后得到的模型,可以用于文本处理、语义理解等自然语言处理任务的调优。
鲁棒性(Robustness):指在异常和危险情况下系统生存的能力。比如说,计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,就是该软件的鲁棒性。所谓“鲁棒性”,也是指控制系统在一定(结构,大小)的参数摄动下,维持其它某些性能的特性。
对抗样本(Adversarial examples):是指在数据集中通过故意添加细微的干扰所形成的输入样本,会导致模型以高置信度给出一个错误的输出。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的自然语言处理等技术,具体通过如下实施例进行说明。需要说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从信息处理装置的角度进行描述,该信息处理装置具体可以集成在计算机设备中,该计算机设备可以是服务器,本申请在此不作限制。
请参阅图2,图2是本申请实施例提供的信息处理方法的流程示意图。该信息处理方法包括:
101、获取至少一个文本样本。
其中,该文本样本可以为文本形式的样本,例如,可以为句子、段落、篇章等文本样本。该文本样本可以包括至少一个文本词样本,可以通过对文本样本进行分词处理,来得到至少一个文本词样本。分词处理的方式可以有多种,不同语种或者不同领域的文本样本可以有不同的分词处理方法,例如,对于英文,可以通过单词之间的空格进行分词,对于中文,可以利用分词工具进行处理,对于专业领域的文本样本,可以按照不同专业领域的样本特点设计分词算法,从而实现分词处理等等。所谓文本词样本可以为一个字,也可以为一个词,具体可以根据实际分词处理方式进行确定,在此不做限定。
其中,获取文本样本的方式可以有多种,例如,可以从与信息处理装置连接的存储器中获取,也可以从其他数据存储终端获取。还可以从实体终端的存储器中获取,也可以从虚拟的存储空间如数据集或者语料库中获取。可选的,文本样本可以从一个存储位置获取,也可以从多个存储位置获取,例如文本样本可以保存于区块链上,信息处理装置从区块链上获取上述训练样本数据。信息处理装置可以是响应于某一文本样本获取指令后在一个时间段中集中获取文本样本,也可以是根据某一文本样本获取逻辑持续进行文本样本的获取等。
102、计算每一文本词样本在文本样本中的重要系数。
其中,该重要系数可以用于表征每一文本词样本在文本样本中的重要程度。
其中,计算每一文本词样本在文本样本中的重要系数的方式可以有多种,例如,可以通过计算文本样本中缺少任一文本词样本后输入到语言模型中的得分变化,来确定每一文本词样本在文本样本中的重要程度,也可以通过基于词频的逆文本频率指数(termfrequency–inverse document frequency,简称tf-idf)等技术来计算每一文本词样本在文本样本中的重要系数。
103、根据重要系数在文本词样本中确定目标词样本,并对目标词样本进行多种对抗类型的转换,得到每一对抗类型对应的对抗词样本。
其中,该目标词样本可以为基于重要系数在文本样本中选中的文本词样本,用于生成对抗样本,该对抗词样本可以为基于目标词样本生成的对抗样本,该对抗类型可以为将文本词样本转换为对抗文本词样本的攻击方式对应的类型,例如,对于中文,可以有:同音近音字攻击(例如,将“吃”转换为同音子“痴”,或者转换为近音字“知”等)、相似字形攻击(例如,将“天”转换为相似字形字“夫”等)、中文转拼音(例如,将中文“今”转换为拼音“jin”)、同义词攻击(例如,将“高兴”转换为同义词“开心”等)、字分割攻击(例如,将“吃”转换为字分割后的“口乞”等)等类型的攻击方式;对于所有语言,可以有:相似字形攻击、随机插入新字符、随机交换字、随机删除字等类型的攻击方式。
对抗训练方法指的是在训练集中增加对抗样本,使得模型具有识别对抗样本的能力。在现有技术中,训练集中增加的对抗样本往往数量有限且样本类型固定,模型只能从这些样本中习得少量的信息,当出现更复杂的对抗样本后,模型的表现就会显著下降。为此,本申请实施例提供了一种信息处理方法,通过对文本样本中的文本词样本进行攻击,来实时生成多种对抗文本词样本来作为训练数据,使得模型在训练过程中可以习得更丰富的对抗样本信息,进而提高模型在对抗样本上的鲁棒性。
其中,为了提高对抗样本的质量,可以基于每一文本词样本在文本样本中的重要系数,在文本词样本中选取较为重要的样本作为目标词样本进行多种对抗类型的转换,来生成每一对抗类型对应的对抗词样本。相对于随机攻击的方式,可以提高对抗样本的质量,使得模型在训练过程中可以学习到更丰富和重要的对抗样本信息,进而提高模型在对抗样本上的鲁棒性。
其中,根据重要系数在文本词样本中确定目标词样本的方式可以有多种,例如,可以获取该文本样本对应的文本词样本的样本数量,并根据预设转换数量参数和该样本数量确定转换数量,基于该重要系数和该转换数量,在该文本样本对应的文本词样本中筛选出目标词样本。
其中,该样本数量可以为每一文本样本中包括的文本词样本的数量,该预设转换数量参数可以为预先设定的一个参数,基于该参数可以确定文本样本中需要进行对抗类型转换的文本词样本的数量,也即目标词样本的数量,该转换数量可以为需要进行对抗类型转换的文本词样本的数量,也即目标词样本的数量。为了可以保留文本样本的原意,不应该对每一文本词样本都进行对抗类型的转换,因此,可以通过设定一个预设转换数量参数来确定目标词样本的数量,例如,可以设定该预设转换数量参数为0.15,也即将文本样本中的样本数量的15%确定为目标词样本的数量。
其中,根据预设转换数量参数和该样本数量确定转换数量的方式可以有多种,例如,可以将样本数量与该预设转换数量参数进行加权,来得到转换数量。可选的,假设文本样本的样本数量为nc,该预设转换数量参数为d,可以将文本样本中dnc的文本词样本确定为转换数量,且该转换数量大于等于1,则该转换数量可以表示为
γ=min(max(int(∈),1),nc)
∈~N(max(1,dnc),1)
其中,γ可以表示每一文本样本中要被攻击的文本词样本的个数,也即转换数量,d表示为预设转换数量参数,nc是文本样本的长度,也即文本样本的样本数量,int(∈)为取整函数,表示将一个数值∈向下取整为最接近的整数,也即将转换数量取为整数,∈~N()可以为正态分布表示,以使得转换数量的取值处于max(1,dnc)和1之间,min(x,y)为最小值函数,表示取x和y中的最小值,在该转换数量表达式中表示max(int(∈),1)与nc中的最小值,max(x,y)为最大值函数,表示取x和y中的最大值,在该转换数量表达式中,max(int(∈),1)表示int(∈)和1中的最大值,max(1,dnc)表示1和dnc中的最大值。
在根据预设转换数量参数和该样本数量确定转换数量之后,便可以根据重要系数和该转换数量,在该文本样本对应的文本词样本中筛选出目标词样本,在该文本样本对应的文本词样本中筛选出目标词样本的方式可以有多种,比如,可以根据每一文本词样本对应的重要系数,对文本样本中的每一文本词样本进行排序,根据排序结果来筛选出与该转换数量对应的目标词样本,例如,假设该转换数量为γ,则可以对基于该重要系数对文本样本中的每一文本词样本进行由高到低排序,并将排名为前γ的文本词样本确定为目标词文本。
可选的,可以基于每一文本词样本在文本样本中的重要系数,来得到文本样本中每一文本词样本作为目标词样本的攻击概率,该根据概率可以表示位
Figure BDA0003488667070000121
其中,nc是文本样本中文本词样本的样本数量,ci是文本样本中的第i个文本词样本,f(ci)是计算每一文本词样本在文本样本中的重要系数的函数,|ci|指的是文本样本中包含的文本词样本的个数,exp为以自然常数e为底的指数函数,∑表示求和符号。以此,可以根据该攻击概率在文本样本对应的文本词样本中筛选出目标词样本。
在确定目标词样本之后,便可以对目标词样本进行多种对抗类型的转换,来得到每一对抗类型对应的对抗词样本,将目标词样本进行多种对抗类型的转换的方式可以有多种,比如,可以叠加多种攻击方式来对每一目标词样本进行多种对抗类型的转换,例如,可以对中文形式的文本词样本使用“中文转拼音”攻击方式,再对对应的拼音字母进行“随机删除字攻击”等。对于将目标词样本进行多种对抗类型的转换过程,可以表示为
Figure BDA0003488667070000122
p(S(c)=k)=q(1-q)(k-1)
其中,c为输入的目标词样本,
Figure BDA0003488667070000123
是攻击后的结果,也即目标词样本对应的对抗文本词样本,A(c)是攻击函数,对应一个对抗类型,S(c)是攻击次数,该攻击次数服从于指数衰减函数,k是攻击次数,该p(S(c)=k)可以表示目标词样本被攻击k次的概率,为了取得更好的效果,可以根据经验值将q赋值为0.7。
例如,请参考图3,图3为本申请实施例提供的一种信息处理方法的对抗类型转换示意图,对于文本样本“你今天吃什么”,可以基于每一文本词样本的重要系数确定目标词样本为“吃”,从而可以对目标词样本“吃”进行多中对抗类型的转换,具体的,可以对目标词样本“吃”进行“中文转拼音”对抗类型的攻击方式的转换,得到“chi”,再对对应的拼音字母“chi”进行“随机删除字攻击”,得到“ci”,以得可以得到一个对抗词样本“ci”,也可以继续对“ci”进行叠加多种对抗类型的转换,来得到不同的对抗词样本,也可以将目标词样本进行每一种对抗类型的转换得到的结果(例如“chi”)作为对抗词样本,以此来方法对抗样本的数量,还可以对同一目标词样本进行多次的多种对抗类型的转换,来得到每一目标词样本对应的多个对抗词样本等。以此,可以通过对每一目标词样本进行多次叠加多种对抗类型的攻击方式,来转换得到多个不同类型的对抗文本词样本。
104、基于对抗词样本对文本样本中对应的目标词样本进行替换,得到文本样本对应的至少一个对抗文本样本。
其中,该对抗文本样本可以为基于对抗文本词样本替换后的文本样本,例如,假设文本样本为“你今天吃什么”,对该文本样本进行分词处理,得到文本词样本集合“你,今,天,吃,什,么”,进而可以根据每一文本词样本在文本样本中的重要系数,在该文本词样本集合中确定目标词样本为“吃”,从而可以对目标词样本“吃”进行多中对抗类型的转换,得到对抗词样本“chi”、“ci”以及“痴”,以此,可以基于对抗词样本“chi”、“ci”以及“痴”,来对文本样本“你今天吃什么”中对应的目标词样本“吃”进行替换,得到文本样本对应的至少一个对抗文本样本分别为“你今天chi什么”、“你今天ci什么”以及“你今天痴什么”。以此,可以将对抗文本样本作为预设信息处理模型的训练样本,增加了预设信息处理模型的对抗样本的数量,使得预设信息处理模型可以处理更丰富的对抗数据的能力,进而提高预训练模型在对抗数据上的鲁棒性。
105、采用预设信息处理模型在文本样本中提取出文本样本特征,并在对抗文本样本中提取出对抗文本样本特征。
其中,该预设信息处理模型可以为预先设定的一个待训练的预训练模型,用于对待处理信息进行处理,例如,可以为语言表征模型bert(Bidirectional EncoderRepresentation from Transformers)等预训练模型,该文本样本特征可以为表征文本样本的特征信息,该对抗文本样本特征可以为表征对抗文本样本的特征信息。
其中,采用预设信息处理模型在该文本样本中提取出该文本样本特征的方式可以有多种,例如,可以采用预设信息处理模型对该文本样本中的每一该文本词样本进行多维度特征提取,得到多个维度的文本词特征,将该文本词特征进行融合,得到每一该文本词样本对应的融合后文本词特征,基于该融合后文本词特征,对该文本样本进行特征提取,得到该文本样本的文本样本特征。具体可以如下:
(1)采用预设信息处理模型对该文本样本中的每一该文本词样本进行多维度特征提取,得到多个维度的文本词特征。
其中,该文本词特征可以为表征每一文本词样本在多个维度上的特征信息。
其中,采用预设信息处理模型对该文本样本中的每一该文本词样本进行多维度特征提取的方式可以有多种,例如,可以提取文本词样本在词特征维度上的特征,以及提取文本词样本在不同模态特征维度上的模态特征,具体的,可以采用预设信息处理模型对该文本样本中每一文本词样本进行词特征提取,得到该文本样本中每一文本词样本对应的词特征,对该文本样本中每一文本词样本进行多模态特征提取,得到该文本样本中每一文本词样本对应的至少一个模态特征,将该词特征和该模态特征作为该文本样本中每一文本词样本对应的多个维度的文本词特征。
其中,该词特征可以为表征文本词样本的特征信息,例如可以为文本词样本对应的词向量,该模态特征可以为表征文本词样本在多个模态上的特征信息。
其中,对该文本样本中每一文本词样本进行多模态特征提取的方式也可以有多种,例如,可以提取每一文本词样本在字音以及字形等模态的特征信息,具体的,可以在预设字音特征集合中筛选出与该文本样本中每一文本词样本对应的目标特征,得到该文本样本中每一文本词样本对应的字音特征,在该文本样本中提取出每一文本词样本对应的词图像特征,并基于该词图像特征,在该文本样本中提取出每一文本词样本对应的字形特征,将该字音特征和该字形特征作为该文本样本中每一文本词样本对应的模态特征。
其中,该预设字音特征集合可以为预先设定的包含多个预设字音特征的整体,该目标特征可以为在预设字音特征集合中基于文本样本中文本词样本筛选出来的预设字音特征,该字音特征可以为每一文本词样本对应的预设字音特征的组合,也即可以为表征文本词样本在字音模态上的特征信息,该词图像特征可以为文本词样本在图像模态上的特征信息,该字形特征可以为基于词图像特征提取出来的文本词样本在字形模态上的特征信息。
可选的,该字音特征、字形特征以及词特征的表现形式可以都为词表大小的矩阵,在训练初期,可以对文本词样本的字音特征进行随机初始化,对于字形特征,可以先提取出文本词样本对应的词图像特征,再进行初始化,例如,可以使用残差神经网络(ResidualNeural Network,简称ResNet)来对文本词样本进行图像特征提取,并将提取到的词图像特征进行预训练,从而根据预训练的结果进行初始化,在训练过程中,字形特征的参数可以是固定的,并可以再训练过程中随着预设信息处理模型的训练而进行调整。
(2)将该文本词特征进行融合,得到每一该文本词样本对应的融合后文本词特征。
其中,该融合后文本词特征可以为基于文本词样本对应的多个维度的文本词特征进行融合之后得到的特征信息。
其中,将该文本词特征进行融合的方式可以有多种,例如,可以计算该文本词特征中每一维度的文本词特征对应的关联权重,基于该关联权重对该多个维度的文本词特征进行加权,得到加权后文本词特征,对该加权后文本词特征进行融合,得到该文本词特征对应的融合后文本词特征。
其中,该关联权重可以为文本词特征中每一维度的文本词特征的权重,该加权后文本词特征可以为基于关联权重对多个维度的文本词特征进行加权得到的结果。
其中,计算该文本词特征中每一维度的文本词特征对应的关联权重的方式可以有多种,例如,可以对每一维度的文本词特征进行特征提取,得到每一维度的文本词特征对应的关联特征,基于该关联特征,确定每一维度的文本词特征对应的关联权重。
其中,该关联特征可以为表征文本词特征与其他文本词特征之间的关联关系的特征。
其中,对每一维度的文本词特征进行特征提取,得到每一维度的文本词特征对应的关联特征的方式可以有多种,例如,可以采用注意力网络(Attention)对每一维度的文本词特征进行特征提取,来得到每一维度的文本词特征对应的关联特征,比如,可以将每一维度的文本词特征转换为三个维度的空间向量,包括查询向量(query,简称q)、键向量(key,简称k)和值向量(value,简称v),具体的转换方式可以理解为对每一维度的文本词特征与三个维度的转换参数进行融合而得到的,将查询向量、键向量和值向量作为每一维度的文本词特征对应的关联特征。
在对每一维度的文本词特征进行特征提取,得到每一维度的文本词特征对应的关联特征之后,便可以基于该关联特征,确定每一维度的文本词特征对应的关联权重。基于该关联特征,确定每一维度的文本词特征对应的关联权重的方式可以有多种,例如,可以采用注意力网络将每一维度的文本词特征对应的查询向量与其他维度的文本词特征的键向量进行点积,可以得到每一维度的文本词特征对应的注意力得分(score),再基于每一维度的文本词特征对应的注意力得分,来计算每一维度的文本词特征对应的关联权重。
其中,除了可以采用注意力网络对每一维度的文本词特征进行特征提取以外,还可以采用其他可以捕捉文本词特征中每一维度文本词特征与其他维度的文本词特征之间的关联关系,进而确定每一维度文本词特征在文本词特征中所占的权重的网络。
在计算该文本词特征中每一维度的文本词特征对应的关联权重之后,便可以基于该关联权重对该多个维度的文本词特征进行加权,得到加权后文本词特征,其中,基于该关联权重对该多个维度的文本词特征进行加权的方式可以有多种,例如,可以假设文本样本中包含文本词样本甲,对该文本词样本甲进行多维度特征提取之后,得到文本词样本甲对应的多个维度的文本词特征,分别可以为词特征e、字音特征p和字形特征v,对于词特征e,可以通过预设信息处理模型中的编码器(Encoder)单元来对词特征进行编码,即可以将输入的词特征映射为隐藏层的数学表达,从而得到文本词样本对应的隐层词特征
Figure BDA0003488667070000171
进而可以通过注意力网络来得到每一维度的文本词特征对应的关联权重,对于词特征e、字音特征p和字形特征v对应的关联特征,可以分别表示为
Figure BDA0003488667070000172
Figure BDA0003488667070000173
Figure BDA0003488667070000174
其中,K和V为预设信息处理模型中注意力网络中的模型参数,T可以为矩阵转置的符号,表示对K进行矩阵转置变换,进而可以基于该关联权重对该多个维度的文本词特征进行加权,可以得到加权后文本词特征为
Figure BDA0003488667070000175
在基于该关联权重对该多个维度的文本词特征进行加权,得到加权后文本词特征之后,便可以对该加权后文本词特征进行融合,得到该文本词特征对应的融合后文本词特征。其中,对该加权后文本词特征进行融合的方式可以有多种,例如,假设文本词样本存在包括字音特征以及字形特征和词特征等模态特征的多个维度的文本词特征,则可以对该文本词样本对应的词特征进行特征映射,得到该文本词样本对应的隐层词特征,将该加权后文本词特征和对应的隐层词特征进行融合,得到初始融合后文本词特征,对该初始融合后文本词特征进行全连接处理,并将全连接处理结果与该初始融合后文本词特征进行融合,得到该文本词特征对应的融合后文本词特征。
其中,该隐层词特征可以为表征将词特征映射为隐藏层的输出表示,该初始融合后文本词特征可以为对加权后文本词特征和对应的隐层词特征进行融合后得到的结果,该全连接处理结果可以为对该初始融合后文本词特征进行全连接处理后得到的结果。
其中,对该文本词样本对应的词特征进行特征映射的方式可以有多种,例如,请参考图4,图4是本申请实施例提供的一种信息处理方法的结构示意图,可以通过预设信息处理模型中的编码器(Encoder)单元来对词特征进行编码,即可以将输入的词特征映射为隐藏层的数学表达,从而得到文本样本中每一文本词样本对应的隐层词特征。
在对该文本词样本对应的词特征进行特征映射,得到该文本词样本对应的隐层词特征之后,便可以将该加权后文本词特征和对应的隐层词特征进行融合,其中,将该加权后文本词特征和对应的隐层词特征进行融合的方式可以有多种,例如,可以将该加权后文本词特征和对应的隐层词特征进行特征融合,得到特征融合后文本词特征,对该加权融合后文本词特征进行归一化处理,得到初始融合后文本词特征。
其中,将该加权后文本词特征和对应的隐层词特征进行特征融合的方式可以有多种,例如,请继续参考图4,可以通过特征融合和归一化单元(Add&Norm)中的残差模块(Add)把经过注意力网络后的输出和原来的输入进行求和,从而可以把原来的输入残差连接过来,以将加权后文本词特征和对应的隐层词特征进行特征融合,得到特征融合后文本词特征。比如,对于文本词样本甲对应的每一维度的文本词特征:词特征e、字音特征p和字形特征v,词特征e对应的隐层词特征
Figure BDA0003488667070000181
以及加权后文本词特征为
Figure BDA0003488667070000182
则将该加权后文本词特征和对应的隐层词特征进行特征融合后,得到特征融合后文本词特征可以表示为
Figure BDA0003488667070000183
在将该加权后文本词特征和对应的隐层词特征进行特征融合之后,便可以对该加权融合后文本词特征进行归一化处理,对该加权融合后文本词特征进行归一化处理的方式可以有多种,例如,请继续参考图4,可以通过特征融合和归一化单元中的归一化模块(Layer Normalization),对加权融合后文本词特征进行归一为标准正态分布,从而可以得到初始融合后文本词特征。可选的,该初始融合后文本词特征可以表示为
Figure BDA0003488667070000191
在将该加权后文本词特征和对应的隐层词特征进行融合之后,便可以对该初始融合后文本词特征进行全连接处理,并将全连接处理结果与该初始融合后文本词特征进行融合,得到该文本词特征对应的融合后文本词特征。例如,请继续参考图4,可以采用前馈网络(Feed Forward)对初始融合后文本词特征进行全连接处理,并采用特征融合和归一化单元中的残差模块将全连接处理结果与该初始融合后文本词特征进行求和,并采用特征融合和归一化单元中的归一化模块对求和后得到的结果进行归一化处理,从而可以得到该文本词特征对应的融合后文本词特征。可选的,对于文本词样本甲对应的每一维度的文本词特征:词特征e、字音特征p和字形特征v,词特征e对应的隐层词特征
Figure BDA0003488667070000192
该融合后文本词特征可以表示为
Figure BDA0003488667070000193
其中,
Figure BDA0003488667070000194
表示融合后文本词特征,htmp表示初始融合后文本词特征,LayerNorm()表示归一化处理,dense()表示全连接处理。
以此,通过本申请实施例提供的信息处理方法,将文本词样本对应的多个维度的文本词特征进行更加轻量的融合,得到每一该文本词样本对应的融合后文本词特征,可以很好地平衡字形特征、字音特征和词特征的输入比率,让模型更高效地学习和利用输入的字音字形信息,同时由于采用统一编码的策略,可以大大减少模型的计算时间,提高模型效率。
(3)基于该融合后文本词特征,对该文本样本进行特征提取,得到该文本样本的文本样本特征
例如,请继续参考图4,可以采用预设信息处理模型中的编码器单元,基于文本样本中每一文本词样本对应的融合后文本词特征,对文本样本进行编码,得到该文本样本的文本样本特征。
同理,对于对抗文本样本,可以与对抗样本一样采用相同的方法来在抗文本样本中提取出对抗文本样本特征,例如,请继续参考图4,可以与文本样本以相同的流程,采用预设信息处理模型对抗文本样本中提取出对抗文本样本特征,具体方式可以参考在文本样本中提取出文本样本特征的过程,在此不做赘述。
106、根据文本样本特征和对抗文本样本特征,对预设信息处理模型进行收敛,得到训练后信息处理模型。
其中,该训练后信息处理模型可以为训练后的预训练模型,用于对待处理信息进行处理,比如,该训练后信息处理模型可以应用到对抗攻击频率高的场景中,例如口令识别、黄反识别等场景,还可以广泛应用于需要基于预训练模型调优的场景中,例如情感分析系统、推荐系统、分类系统等场景中。
其中,根据文本样本特征和对抗文本样本特征,对预设信息处理模型进行收敛的方式可以有多种,例如,可以根据该文本样本特征和对抗文本样本特征,确定该预设信息处理模型对应的对比损失信息,根据该文本样本特征和对抗文本样本特征,确定该预设信息处理模型对应的预测损失信息,基于该对比损失信息以及该预测损失信息,对该预设信息处理模型进行收敛,得到训练后预设信息处理模型。
其中,该对比损失信息可以为表征文本样本特征和对抗文本样本特征之间的距离的信息。该预测损失信息可以为表征通过预设信息处理模型对文本词样本以及对抗文本词样本进行预测得到的预测值与真实值之间的差距的信息。
其中,根据该文本样本特征和对抗文本样本特征,确定该预设信息处理模型对应的对比损失信息的方式可以有多种,例如,可以基于文本样本和对抗文本样本在对比训练中确定的该预设信息处理模型对应的对比损失信息,所谓对比训练,也即对比学习,其基本思路是缩小同类样本向量表示的距离,并扩大不同类样本向量表示的距离,该方法可以使得模型更好地习得图像和文本的向量表示。本申请实施例将该方法应用于预训练模型中,来缩小文本样本和对抗文本样本之间的差距,扩大非同类样本之间的差距,从而提升模型在各类对抗文本样本上的鲁棒性。
具体的,可以计算该文本样本特征和对应的对抗文本样本特征之间的特征相似度,获取预设温度系数,并确定该特征相似度与该预设温度系数之间的关注度比值,基于该关注度比值计算该文本样本特征和对应的对抗文本样本特征之间的对比损失信息。
其中,该特征相似度可以表征文本样本特征和对应的对抗文本样本特征之间的相似程度,该预设温度系数可以为预先设定的一个温度系数,该关注度比值可以为该特征相似度与对应的预设温度系数之间的比值。
其中,计算该文本样本特征和对应的对抗文本样本特征之间的特征相似度的方式可以有多种,例如,可以通过余弦函数来计算文本样本特征和对应的对抗文本样本特征之间距离,来得到文本样本特征和对应的对抗文本样本特征之间的特征相似度,可选的,该特征相似度的计算公式可以表示为
Figure BDA0003488667070000211
其中,sim()表示特征相似度计算函数,si可以表示第i个文本样本特征,sj可以表示第j个样本特征,该样本特征可以包括文本样本特征和对抗文本样本特征。
其中,确定该特征相似度与该预设温度系数之间的关注度比值的方式可以有多种,例如,该关注度比值的确定公式可以表示为
Figure BDA0003488667070000212
其中,τ可以表示为预设温度系数,
Figure BDA0003488667070000213
表示为输入的batch中的第i个文本样本特征,
Figure BDA0003488667070000214
为第i个文本样本的对抗文本样本特征,i表示文本样本中的第i个文本样本。
在确定该特征相似度与该预设温度系数之间的关注度比值之后,便可以基于该关注度比值计算该文本样本特征和对应的对抗文本样本特征之间的对比损失信息,基于该关注度比值计算该文本样本特征和对应的对抗文本样本特征之间的对比损失信息的方式可以有多种,例如,可以采用对比训练对应的损失函数来计算文本样本特征和对应的对抗文本样本特征之间的对比损失信息,对比训练对应的损失函数可以为对比损失函数,该对比损失函数可以表示为
Figure BDA0003488667070000221
其中,losscls表示为对比损失函数,log表示对数符号,N表示输入批(batch)的大小,
Figure BDA0003488667070000222
表示为输入的batch中的第i个文本样本特征,
Figure BDA0003488667070000223
为第i个文本样本的对抗文本样本特征,
Figure BDA0003488667070000224
为输入的batch中其他文本样本特征,包括文本样本特征和对抗文本样本特征,τ为温度系数,可以是一个设定好的常数,
Figure BDA0003488667070000225
表示文本样本特征
Figure BDA0003488667070000226
与对应的对抗文本样本特征
Figure BDA0003488667070000227
之间的特征相似度。可选的,为了提升模型训练的效率,可以直接使用同个batch里的样本作为其他样本,以减少负采样的流程。
其中,根据该文本样本特征和对抗文本样本特征,确定该预设信息处理模型对应的预测损失信息的方式可以有多种,例如,可以在该文本样本与对应的对抗文本样本中确定掩码位置,并对该掩码位置对应的文本词样本以及对抗文本词样本进行遮掩处理,得到遮掩后文本词样本和遮掩后对抗文本词样本,通过预设信息处理模型预测该遮掩后文本词样本和遮掩后对抗文本词样本对应的词,得到该遮掩后文本词样本对应的预测文本词,以及该遮掩后对抗文本词样本对应的预测对抗文本词,基于该预测文本词和对应的文本词样本确定该文本样本的预测损失信息,并基于该预测对抗文本词以及对应的对抗文本词样本,确定该对抗文本样本的预测损失信息。基于文本样本的预测损失信息以及对抗文本样本的预测损失信息,可以得到该预设信息处理模型对应的预测损失信息。
其中,该掩码位置可以为文本样本与对应的对抗文本样本中需要进行掩码(Mask)的位置,该遮掩后文本词样本可以为被遮掩的文本词样本,该遮掩后对抗文本词样本可以为被遮掩的对抗文本词样本,该预测文本词可以为预设信息处理模型预测该遮掩后文本词样本得到对应的预测值,该预测对抗文本词可以为预设信息处理模型预测该遮掩后对抗文本词样本得到对应的预测值。
其中,在该文本样本与对应的对抗文本样本中确定掩码位置的方式可以有多种,例如,可以随机确定掩码位置,比如,可以在文本样本或者对抗文本样本中随机选取一定比率的词来进行遮掩,从而确定掩码位置,这个比率可以设定在10~15%中,也可以根据需求在文本样本与对应的对抗文本样本中进行选择掩码位置。
在对该掩码位置对应的文本词样本以及对抗文本词样本进行遮掩处理之后,便可以通过预设信息处理模型预测该遮掩后文本词样本和遮掩后对抗文本词样本对应的词,得到该遮掩后文本词样本对应的预测文本词,以及该遮掩后对抗文本词样本对应的预测对抗文本词,基于该预测文本词和对应的文本词样本确定该文本样本的预测损失信息,以及该预测对抗文本词以及对应的对抗文本词样本,确定该对抗文本样本的预测损失信息。
其中,需要说明的是,在通过预设信息处理模型预测该遮掩后文本词样本和遮掩后对抗文本词样本对应的词时,可以预测输入的每一未被遮掩的文本词样本和对抗文本词样本对应的词,以此来根据这些遮掩以及未遮掩的输入对应的预测值预测值来计算预设信息处理模型对应的预测损失信息。
可选的,为了更好地习得上下文信息,可以采用预训练模型对应的预测损失函数(Masked Language Model Loss,简称MLM loss),在训练过程中对输入的文本样本以及对抗文本样本进行随机Mask操作,让模型预测Mask部位原有的词,使预设信息处理模型从这些语料中习得基于上下文的语义语法等信息,从而具有一定的纠错能力,以此可以根据预测损失函数来计算该预设信息处理模型对应的预测损失信息。
在确定该预设信息处理模型对应的对比损失信息和预测损失信息之后,便可以基于该对比损失信息以及该预测损失信息,对该预设信息处理模型进行收敛,其中,基于该对比损失信息以及该预测损失信息对该预设信息处理模型进行收敛的方式可以又多种,例如,可以将对比损失信息以及该预测损失信息进行加权,并基于加权后损失信息对预设信息处理模型进行收敛,当加权后损失信息满足收敛条件时,可以得到训练后预设信息处理模型。
可选的,该加权后损失信息可以表示为
Figure BDA0003488667070000231
其中,θ表示预设信息处理模型的模型参数,x是训练样本,也即包括文本样本以及对抗文本样本,D是训练样本分布,lossmlm表示预设信息处理模型对应的预测损失信息,losscls表示预设信息处理模型对应的对比损失信息,该式子可以表示预设信息处理模型在学习上下文语义信息(减小lossmlm)的同时,还需要不断地拉近文本样本和对抗文本样本的距离以及拉远文本样本和其他样本的距离,进一步提升了预训练模型在对抗数据上的鲁棒性。
由以上可知,本申请实施例通过获取至少一个文本样本,该文本样本包括至少一个文本词样本;计算每一文本词样本在文本样本中的重要系数,该重要系数用于表征每一文本词样本在文本样本中的重要程度;根据重要系数在文本词样本中确定目标词样本,并对目标词样本进行多种对抗类型的转换,得到每一对抗类型对应的对抗词样本;基于对抗词样本对文本样本中对应的目标词样本进行替换,得到文本样本对应的至少一个对抗文本样本;采用预设信息处理模型在文本样本中提取出文本样本特征,并在对抗文本样本中提取出对抗文本样本特征;根据文本样本特征和对抗文本样本特征,对预设信息处理模型进行收敛,得到训练后信息处理模型。以此,通过计算每一文本词样本在文本样本中的重要系数,来将文本词样本中重要程度较高的目标词样本进行多种对抗类型的转换,进而得到多种类型的对抗文本词样本对应的对抗文本样本,并基于对抗文本样本和文本样本对预设信息处理模型进行收敛,来得到训练后信息处理模型,提升了训练后信息处理模型在对抗数据上的鲁棒性,进而提升模型训练的效率,通过该训练后信息处理模型对待处理信息进行处理,提高了信息处理效率。
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该信息处理装置具体集成在计算机设备为例进行说明。其中,该信息处理方法以服务器为执行主体进行具体的描述。
为了更好的描述本申请实施例,请参阅图5。如图5所示,图5为本申请实施例提供的信息处理方法的另一流程示意图。具体流程如下:
在步骤201中,服务器获取至少一个文本样本,计算每一该文本词样本在该文本样本中的重要系数。
其中,服务器获取文本样本的方式可以有多种,例如,可以从与信息处理装置连接的存储器中获取,也可以从其他数据存储终端获取。还可以从实体终端的存储器中获取,也可以从虚拟的存储空间如数据集或者语料库中获取。可选的,文本样本可以从一个存储位置获取,也可以从多个存储位置获取,例如文本样本可以保存于区块链上,信息处理装置从区块链上获取上述训练样本数据。信息处理装置可以是响应于某一文本样本获取指令后在一个时间段中集中获取文本样本,也可以是根据某一文本样本获取逻辑持续进行文本样本的获取等。
服务器在获取文本样本之后,便可以计算每一该文本词样本在该文本样本中的重要系数。其中,服务器计算每一文本词样本在文本样本中的重要系数的方式可以有多种,例如,服务器可以通过计算文本样本中缺少任一文本词样本后输入到语言模型中的得分变化,来确定每一文本词样本在文本样本中的重要程度,也可以通过基于词频的逆文本频率指数(tf-idf)等技术来计算每一文本词样本在文本样本中的重要系数。
在步骤202中,服务器获取该文本样本对应的文本词样本的样本数量,并根据预设转换数量参数和该样本数量确定转换数量,基于该重要系数和该转换数量,在该文本样本对应的文本词样本中筛选出目标词样本。
其中,服务器根据预设转换数量参数和该样本数量确定转换数量的方式可以有多种,例如,服务器可以将样本数量与该预设转换数量参数进行加权,来得到转换数量。可选的,假设文本样本的样本数量为nc,该预设转换数量参数为d,可以将文本样本中dnc的文本词样本确定为转换数量,且该转换数量大于等于1,则该转换数量可以表示为
γ=min(max(int(∈),1),nc)
∈~N(max(1,dnc),1)
其中,γ可以表示每一文本样本中要被攻击的文本词样本的个数,也即转换数量,d表示为预设转换数量参数,nc是文本样本的长度,也即文本样本的样本数量,int(∈)为取整函数,表示将一个数值∈向下取整为最接近的整数,也即将转换数量取为整数,∈~N()可以为正态分布表示,以使得转换数量的取值处于max(1,dnc)和1之间,min(x,y)为最小值函数,表示取x和y中的最小值,在该转换数量表达式中表示max(int(∈),1)与nc中的最小值,max(x,y)为最大值函数,表示取x和y中的最大值,在该转换数量表达式中,max(int(∈),1)表示int(∈)和1中的最大值,max(1,dnc)表示1和dnc中的最大值。
在根据预设转换数量参数和该样本数量确定转换数量之后,服务器便可以根据重要系数和该转换数量,在该文本样本对应的文本词样本中筛选出目标词样本,在该文本样本对应的文本词样本中筛选出目标词样本的方式可以有多种,比如,可以根据每一文本词样本对应的重要系数,对文本样本中的每一文本词样本进行排序,根据排序结果来筛选出与该转换数量对应的目标词样本,例如,假设该转换数量为γ,则可以对基于该重要系数对文本样本中的每一文本词样本进行由高到低排序,并将排名为前γ的文本词样本确定为目标词文本。
可选的,服务器可以基于每一文本词样本在文本样本中的重要系数,来得到文本样本中每一文本词样本作为目标词样本的攻击概率,该根据概率可以表示位
Figure BDA0003488667070000261
其中,nc是文本样本中文本词样本的样本数量,ci是文本样本中的第i个文本词样本,f(ci)是计算每一文本词样本在文本样本中的重要系数的函数,|ci|指的是文本样本中包含的文本词样本的个数,exp为以自然常数e为底的指数函数,∑表示求和符号。以此,可以根据该攻击概率在文本样本对应的文本词样本中筛选出目标词样本。
在步骤203中,服务器对该目标词样本进行多种对抗类型的转换,得到每一对抗类型对应的对抗词样本,基于该对抗词样本对该文本样本中对应的目标词样本进行替换,得到该文本样本对应的至少一个对抗文本样本。
在确定目标词样本之后,服务器便可以对目标词样本进行多种对抗类型的转换,来得到每一对抗类型对应的对抗词样本,将目标词样本进行多种对抗类型的转换的方式可以有多种,比如,可以叠加多种攻击方式来对每一目标词样本进行多种对抗类型的转换,例如,可以对中文形式的文本词样本使用“中文转拼音”攻击方式,再对对应的拼音字母进行“随机删除字攻击”等。对于将目标词样本进行多种对抗类型的转换过程,可以表示为
Figure BDA0003488667070000271
p(S(c)=k)=q(1-q)(k-1)
其中,c为输入的目标词样本,
Figure BDA0003488667070000272
是攻击后的结果,也即目标词样本对应的对抗文本词样本,A(c)是攻击函数,对应一个对抗类型,S(c)是攻击次数,该攻击次数服从于指数衰减函数,k是攻击次数,该p(S(c)=k)可以表示目标词样本被攻击k次的概率,为了取得更好的效果,可以根据经验值将q赋值为0.7。
例如,请参考图3,对于文本样本“你今天吃什么”,可以基于每一文本词样本的重要系数确定目标词样本为“吃”,从而可以对目标词样本“吃”进行多中对抗类型的转换,具体的,可以对目标词样本“吃”进行“中文转拼音”对抗类型的攻击方式的转换,得到“chi”,再对对应的拼音字母“chi”进行“随机删除字攻击”,得到“ci”,以得可以得到一个对抗词样本“ci”,也可以继续对“ci”进行叠加多种对抗类型的转换,来得到不同的对抗词样本,也可以将目标词样本进行每一种对抗类型的转换得到的结果(例如“chi”)作为对抗词样本,以此来方法对抗样本的数量,还可以对同一目标词样本进行多次的多种对抗类型的转换,来得到每一目标词样本对应的多个对抗词样本等。以此,可以通过对每一目标词样本进行多次叠加多种对抗类型的攻击方式,来转换得到多个不同类型的对抗文本词样本。
服务器在对该目标词样本进行多种对抗类型的转换,得到每一对抗类型对应的对抗词样本之后,便可以基于该对抗词样本对该文本样本中对应的目标词样本进行替换,得到该文本样本对应的至少一个对抗文本样本,例如,可以假设文本样本为“你今天吃什么”,对该文本样本进行分词处理,得到文本词样本集合“你,今,天,吃,什,么”,进而可以根据每一文本词样本在文本样本中的重要系数,在该文本词样本集合中确定目标词样本为“吃”,从而可以对目标词样本“吃”进行多中对抗类型的转换,得到对抗词样本“chi”、“ci”以及“痴”,以此,可以基于对抗词样本“chi”、“ci”以及“痴”,来对文本样本“你今天吃什么”中对应的目标词样本“吃”进行替换,得到文本样本对应的至少一个对抗文本样本分别为“你今天chi什么”、“你今天ci什么”以及“你今天痴什么”。以此,服务器可以将对抗文本样本作为预设信息处理模型的训练样本,增加了预设信息处理模型的对抗样本的数量,使得预设信息处理模型可以处理更丰富的对抗数据的能力,进而提高预训练模型在对抗数据上的鲁棒性。
在步骤204中,服务器采用预设信息处理模型对该文本样本中每一文本词样本进行词特征提取,得到该文本样本中每一文本词样本对应的词特征,在预设字音特征集合中筛选出与该文本样本中每一文本词样本对应的目标特征,得到该文本样本中每一文本词样本对应的字音特征。
其中,该词特征可以为表征文本词样本的特征信息,例如可以为文本词样本对应的词向量,该模态特征可以为表征文本词样本在多个模态上的特征信息。该预设字音特征集合可以为预先设定的包含多个预设字音特征的整体,该目标特征可以为在预设字音特征集合中基于文本样本中文本词样本筛选出来的预设字音特征,该字音特征可以为每一文本词样本对应的预设字音特征的组合,也即可以为表征文本词样本在字音模态上的特征信息,该词图像特征可以为文本词样本在图像模态上的特征信息,该字形特征可以为基于词图像特征提取出来的文本词样本在字形模态上的特征信息。
在步骤205中,服务器在该文本样本中提取出每一文本词样本对应的词图像特征,并基于该词图像特征,在该文本样本中提取出每一文本词样本对应的字形特征。
其中,该字音特征、字形特征以及词特征的表现形式可以都为词表大小的矩阵,在训练初期,可以对文本词样本的字音特征进行随机初始化,对于字形特征,可以先提取出文本词样本对应的词图像特征,再进行初始化,例如,可以使用残差神经网络(ResNet)来对文本词样本进行图像特征提取,并将提取到的词图像特征进行预训练,从而根据预训练的结果进行初始化,在训练过程中,字形特征的参数可以是固定的,并可以再训练过程中随着预设信息处理模型的训练而进行调整。
在步骤206中,服务器将该字音特征和该字形特征作为该文本样本中每一文本词样本对应的模态特征,将该词特征和该模态特征作为该文本样本中每一文本词样本对应的多个维度的文本词特征。
其中,服务器可以将该字音特征和该字形特征作为该文本样本中每一文本词样本对应的模态特征,将该词特征和该模态特征作为该文本样本中每一文本词样本对应的多个维度的文本词特征。
在步骤207中,服务器对每一维度的文本词特征进行特征提取,得到每一维度的文本词特征对应的关联特征,基于该关联特征,确定每一维度的文本词特征对应的关联权重,基于该关联权重对该多个维度的文本词特征进行加权,得到加权后文本词特征。
其中,服务器可以对每一维度的文本词特征进行特征提取,得到每一维度的文本词特征对应的关联特征的方式可以有多种,例如,服务器可以采用注意力网络对每一维度的文本词特征进行特征提取,来得到每一维度的文本词特征对应的关联特征,比如,可以将每一维度的文本词特征转换为三个维度的空间向量,包括查询向量(q)、键向量(k)和值向量(v),具体的转换方式可以理解为对每一维度的文本词特征与三个维度的转换参数进行融合而得到的,将查询向量、键向量和值向量作为每一维度的文本词特征对应的关联特征。
服务器在对每一维度的文本词特征进行特征提取,得到每一维度的文本词特征对应的关联特征之后,便可以基于该关联特征,确定每一维度的文本词特征对应的关联权重。基于该关联特征,确定每一维度的文本词特征对应的关联权重的方式可以有多种,例如,可以采用注意力网络将每一维度的文本词特征对应的查询向量与其他维度的文本词特征的键向量进行点积,可以得到每一维度的文本词特征对应的注意力得分,再基于每一维度的文本词特征对应的注意力得分,来计算每一维度的文本词特征对应的关联权重。
其中,除了可以采用注意力网络对每一维度的文本词特征进行特征提取以外,服务器还可以采用其他可以捕捉文本词特征中每一维度文本词特征与其他维度的文本词特征之间的关联关系,进而确定每一维度文本词特征在文本词特征中所占的权重的网络。
服务器在计算该文本词特征中每一维度的文本词特征对应的关联权重之后,便可以基于该关联权重对该多个维度的文本词特征进行加权,得到加权后文本词特征,其中,基于该关联权重对该多个维度的文本词特征进行加权的方式可以有多种,例如,可以假设文本样本中包含文本词样本甲,服务器对该文本词样本甲进行多维度特征提取之后,得到文本词样本甲对应的多个维度的文本词特征,分别可以为词特征e、字音特征p和字形特征v,对于词特征e,可以通过预设信息处理模型中的编码器单元来对词特征进行编码,即可以将输入的词特征映射为隐藏层的数学表达,从而得到文本词样本对应的隐层词特征
Figure BDA0003488667070000301
进而可以通过注意力网络来得到每一维度的文本词特征对应的关联权重,对于词特征e、字音特征p和字形特征v对应的关联特征,可以分别表示为
Figure BDA0003488667070000302
Figure BDA0003488667070000303
Figure BDA0003488667070000304
其中,K和V为预设信息处理模型中注意力网络中的模型参数,T可以为矩阵转置的符号,表示对K进行矩阵转置变换,进而可以基于该关联权重对该多个维度的文本词特征进行加权,可以得到加权后文本词特征为
Figure BDA0003488667070000305
在步骤208中,服务器对该文本词样本对应的词特征进行特征映射,得到该文本词样本对应的隐层词特征,将该加权后文本词特征和对应的隐层词特征进行特征融合,得到特征融合后文本词特征,对该加权融合后文本词特征进行归一化处理,得到初始融合后文本词特征。
其中,服务器对该文本词样本对应的词特征进行特征映射的方式可以有多种,例如,请参考图4,服务器可以通过预设信息处理模型中的编码器单元来对词特征进行编码,即可以将输入的词特征映射为隐藏层的数学表达,从而得到文本样本中每一文本词样本对应的隐层词特征。
服务器在对该文本词样本对应的词特征进行特征映射,得到该文本词样本对应的隐层词特征之后,便可以将该加权后文本词特征和对应的隐层词特征进行融合,其中,将该加权后文本词特征和对应的隐层词特征进行融合的方式可以有多种,例如,服务器可以将该加权后文本词特征和对应的隐层词特征进行特征融合,得到特征融合后文本词特征,对该加权融合后文本词特征进行归一化处理,得到初始融合后文本词特征。
其中,将该加权后文本词特征和对应的隐层词特征进行特征融合的方式可以有多种,例如,请继续参考图4,服务器可以通过特征融合和归一化单元(Add&Norm)中的残差模块(Add)把经过注意力网络后的输出和原来的输入进行求和,从而可以把原来的输入残差连接过来,以将加权后文本词特征和对应的隐层词特征进行特征融合,得到特征融合后文本词特征。比如,对于文本词样本甲对应的每一维度的文本词特征:词特征e、字音特征p和字形特征v,词特征e对应的隐层词特征
Figure BDA0003488667070000311
以及加权后文本词特征为
Figure BDA0003488667070000312
则将该加权后文本词特征和对应的隐层词特征进行特征融合后,得到特征融合后文本词特征可以表示为
Figure BDA0003488667070000313
在将该加权后文本词特征和对应的隐层词特征进行特征融合之后,服务器便可以对该加权融合后文本词特征进行归一化处理,对该加权融合后文本词特征进行归一化处理的方式可以有多种,例如,请继续参考图4,服务器可以通过特征融合和归一化单元中的归一化模块(Layer Normalization),对加权融合后文本词特征进行归一为标准正态分布,从而可以得到初始融合后文本词特征。可选的,该初始融合后文本词特征可以表示为
Figure BDA0003488667070000314
在步骤209中,服务器对该初始融合后文本词特征进行全连接处理,并将全连接处理结果与该初始融合后文本词特征进行融合,得到该文本词特征对应的融合后文本词特征。
在将该加权后文本词特征和对应的隐层词特征进行融合之后,服务器便可以对该初始融合后文本词特征进行全连接处理,并将全连接处理结果与该初始融合后文本词特征进行融合,得到该文本词特征对应的融合后文本词特征。例如,请继续参考图4,服务器可以采用前馈网络(Feed Forward)对初始融合后文本词特征进行全连接处理,并采用特征融合和归一化单元中的残差模块将全连接处理结果与该初始融合后文本词特征进行求和,并采用特征融合和归一化单元中的归一化模块对求和后得到的结果进行归一化处理,从而可以得到该文本词特征对应的融合后文本词特征。可选的,对于文本词样本甲对应的每一维度的文本词特征:词特征e、字音特征p和字形特征v,词特征e对应的隐层词特征
Figure BDA0003488667070000321
该融合后文本词特征可以表示为
Figure BDA0003488667070000322
其中,
Figure BDA0003488667070000323
表示融合后文本词特征,htmp表示初始融合后文本词特征,LayerNorm()表示归一化处理,dense()表示全连接处理。
以此,通过本申请实施例提供的信息处理方法,将文本词样本对应的多个维度的文本词特征进行融合,得到每一该文本词样本对应的融合后文本词特征,可以很好地平衡字形特征、字音特征和词特征的输入比率,让模型更高效地学习和利用输入的字音字形信息,同时由于采用统一编码的策略,可以大大减少模型的计算时间,提高模型效率。
在步骤210中,服务器基于该融合后文本词特征,对该文本样本进行特征提取,得到该文本样本的文本样本特征,并在该对抗文本样本中提取出对抗文本样本特征。
例如,请继续参考图4,服务器可以采用预设信息处理模型中的编码器单元,基于文本样本中每一文本词样本对应的融合后文本词特征,对文本样本进行编码,得到该文本样本的文本样本特征。
同理,对于对抗文本样本,服务器可以与对抗样本一样采用相同的方法来在抗文本样本中提取出对抗文本样本特征,例如,请继续参考图4,服务器可以与文本样本以相同的流程,采用预设信息处理模型对抗文本样本中提取出对抗文本样本特征,具体方式可以参考在文本样本中提取出文本样本特征的过程,在此不做赘述。
在步骤211中,服务器计算该文本样本特征和对应的对抗文本样本特征之间的特征相似度,获取预设温度系数,并确定该特征相似度与该预设温度系数之间的关注度比值,基于该关注度比值计算该文本样本特征和对应的对抗文本样本特征之间的对比损失信息。
其中,服务器计算该文本样本特征和对应的对抗文本样本特征之间的特征相似度的方式可以有多种,例如,服务器可以通过余弦函数来计算文本样本特征和对应的对抗文本样本特征之间距离,来得到文本样本特征和对应的对抗文本样本特征之间的特征相似度,可选的,该特征相似度的计算公式可以表示为
Figure BDA0003488667070000331
其中,sim()表示特征相似度计算函数,si可以表示第i个文本样本特征,sj可以表示第j个样本特征,该样本特征可以包括文本样本特征和对抗文本样本特征。
其中,服务器确定该特征相似度与该预设温度系数之间的关注度比值的方式可以有多种,例如,该关注度比值的确定公式可以表示为
Figure BDA0003488667070000332
其中,τ可以表示为预设温度系数,
Figure BDA0003488667070000333
表示为输入的batch中的第i个文本样本特征,
Figure BDA0003488667070000334
为第i个文本样本的对抗文本样本特征,i表示文本样本中的第i个文本样本。
在确定该特征相似度与该预设温度系数之间的关注度比值之后,服务器便可以基于该关注度比值计算该文本样本特征和对应的对抗文本样本特征之间的对比损失信息,基于该关注度比值计算该文本样本特征和对应的对抗文本样本特征之间的对比损失信息的方式可以有多种,例如,可以采用对比训练对应的损失函数来计算文本样本特征和对应的对抗文本样本特征之间的对比损失信息,对比训练对应的损失函数可以为对比损失函数,该对比损失函数可以表示为
Figure BDA0003488667070000341
其中,losscls表示为对比损失函数,log表示对数符号,N表示输入批(batch)的大小,
Figure BDA0003488667070000342
表示为输入的batch中的第i个文本样本特征,
Figure BDA0003488667070000343
为第i个文本样本的对抗文本样本特征,
Figure BDA0003488667070000344
为输入的batch中其他文本样本特征,包括文本样本特征和对抗文本样本特征,τ为温度系数,可以是一个设定好的常数,
Figure BDA0003488667070000345
表示文本样本特征
Figure BDA0003488667070000346
与对应的对抗文本样本特征
Figure BDA0003488667070000347
之间的特征相似度。可选的,为了提升模型训练的效率,可以直接使用同个batch里的样本作为其他样本,以减少负采样的流程。
在步骤212中,服务器在该文本样本与对应的对抗文本样本中确定掩码位置,并对该掩码位置对应的文本词样本以及对抗文本词样本进行遮掩处理,得到遮掩后文本词样本和遮掩后对抗文本词样本。
其中,服务器在该文本样本与对应的对抗文本样本中确定掩码位置的方式可以有多种,例如,服务器可以随机确定掩码位置,也可以根据需求在文本样本与对应的对抗文本样本中进行选择掩码位置。
在该文本样本与对应的对抗文本样本中确定掩码位置之后,服务器便可以对该掩码位置对应的文本词样本以及对抗文本词样本进行遮掩处理,其中,对该掩码位置对应的文本词样本以及对抗文本词样本进行遮掩处理的方式可以有多种,例如,可以通过遮掩语言模型(Masked Language Model,简称MLM)来对该掩码位置对应的文本词样本以及对抗文本词样本进行遮掩处理,得到遮掩后文本词样本和遮掩后对抗文本词样本。
在步骤213中,服务器通过预设信息处理模型预测该遮掩后文本词样本和遮掩后对抗文本词样本对应的词,得到该遮掩后文本词样本对应的预测文本词,以及该遮掩后对抗文本词样本对应的预测对抗文本词。
其中,该预测文本词可以为预设信息处理模型预测该遮掩后文本词样本得到对应的预测值,该预测对抗文本词可以为预设信息处理模型预测该遮掩后对抗文本词样本得到对应的预测值。
在步骤214中,服务器基于该预测文本词和对应的文本词样本确定该文本样本的预测损失信息,并基于该预测对抗文本词以及对应的对抗文本词样本,确定该对抗文本样本的预测损失信息,将该文本样本的预测损失信息,以及该对抗文本样本的预测损失信息,作为该预设信息处理模型对应的预测损失信息。
为了更好地习得上下文信息,服务器可以采用预训练模型对应的预测损失函数(Masked Language Model Loss,简称MLM loss),在训练过程中对输入的文本样本以及对抗文本样本进行随机Mask,让模型预测Mask部位原有的词。从而基于文本样本的预测损失信息,以及该对抗文本样本的预测损失信息,通过预测损失函数来计算该预设信息处理模型对应的预测损失信息。
在步骤215中,服务器基于该对比损失信息以及该预测损失信息,对该预设信息处理模型进行收敛,得到训练后预设信息处理模型。
在确定该预设信息处理模型对应的对比损失信息和预测损失信息之后,服务器便可以基于该对比损失信息以及该预测损失信息,对该预设信息处理模型进行收敛,其中,基于该对比损失信息以及该预测损失信息对该预设信息处理模型进行收敛的方式可以又多种,例如,服务器可以将对比损失信息以及该预测损失信息进行加权,并基于加权后损失信息对预设信息处理模型进行收敛,当加权后损失信息满足收敛条件时,可以得到训练后预设信息处理模型。
可选的,该加权后损失信息可以表示为
Figure BDA0003488667070000351
其中,θ表示预设信息处理模型的模型参数,x是训练样本,也即包括文本样本以及对抗文本样本,D是训练样本分布,lossmlm表示预设信息处理模型对应的预测损失信息,losscls表示预设信息处理模型对应的对比损失信息,该式子可以表示预设信息处理模型在学习上下文语义信息(减小lossmlm)的同时,还需要不断地拉近文本样本和对抗文本样本的距离以及拉远文本样本和其他样本的距离,进一步提升了预训练模型在对抗数据上的鲁棒性。
以此,本申请实施例提供的信息处理方法,可以在训练数据方面,实时生成多种类型不同的对抗文本样本,让预设信息处理模型在训练过程中能够习得各种类型样本的信息;在模型输入方面,结合了字音和字形信息,并提供了一种更为轻量的结合字音字形信息的方式,在融合字音字形信息时保证了模型的效率;此外,通过基于对比学习的损失函数以及对应的训练方法,让模型在训练过程中拉近对抗文本样本和文本样本的距离,让非同类样本的距离变大,进一步提升模型在对抗数据上的鲁棒性。
由以上可知,本申请实施例通过服务器获取至少一个文本样本,计算每一该文本词样本在该文本样本中的重要系数;服务器获取该文本样本对应的文本词样本的样本数量,并根据预设转换数量参数和该样本数量确定转换数量,基于该重要系数和该转换数量,在该文本样本对应的文本词样本中筛选出目标词样本;服务器对该目标词样本进行多种对抗类型的转换,得到每一对抗类型对应的对抗词样本,基于该对抗词样本对该文本样本中对应的目标词样本进行替换,得到该文本样本对应的至少一个对抗文本样本;服务器采用预设信息处理模型对该文本样本中每一文本词样本进行词特征提取,得到该文本样本中每一文本词样本对应的词特征,在预设字音特征集合中筛选出与该文本样本中每一文本词样本对应的目标特征,得到该文本样本中每一文本词样本对应的字音特征;服务器在该文本样本中提取出每一文本词样本对应的词图像特征,并基于该词图像特征,在该文本样本中提取出每一文本词样本对应的字形特征;服务器将该字音特征和该字形特征作为该文本样本中每一文本词样本对应的模态特征,将该词特征和该模态特征作为该文本样本中每一文本词样本对应的多个维度的文本词特征;服务器对每一维度的文本词特征进行特征提取,得到每一维度的文本词特征对应的关联特征,基于该关联特征,确定每一维度的文本词特征对应的关联权重,基于该关联权重对该多个维度的文本词特征进行加权,得到加权后文本词特征;服务器对该文本词样本对应的词特征进行特征映射,得到该文本词样本对应的隐层词特征,将该加权后文本词特征和对应的隐层词特征进行特征融合,得到特征融合后文本词特征,对该加权融合后文本词特征进行归一化处理,得到初始融合后文本词特征;服务器对该初始融合后文本词特征进行全连接处理,并将全连接处理结果与该初始融合后文本词特征进行融合,得到该文本词特征对应的融合后文本词特征;服务器基于该融合后文本词特征,对该文本样本进行特征提取,得到该文本样本的文本样本特征,并在该对抗文本样本中提取出对抗文本样本特征;服务器计算该文本样本特征和对应的对抗文本样本特征之间的特征相似度,获取预设温度系数,并确定该特征相似度与该预设温度系数之间的关注度比值,基于该关注度比值计算该文本样本特征和对应的对抗文本样本特征之间的对比损失信息;服务器在该文本样本与对应的对抗文本样本中确定掩码位置,并对该掩码位置对应的文本词样本以及对抗文本词样本进行遮掩处理,得到遮掩后文本词样本和遮掩后对抗文本词样本;服务器通过预设信息处理模型预测该遮掩后文本词样本和遮掩后对抗文本词样本对应的词,得到该遮掩后文本词样本对应的预测文本词,以及该遮掩后对抗文本词样本对应的预测对抗文本词;服务器基于该预测文本词和对应的文本词样本确定该文本样本的预测损失信息,并基于该预测对抗文本词以及对应的对抗文本词样本,确定该对抗文本样本的预测损失信息,将该文本样本的预测损失信息,以及该对抗文本样本的预测损失信息,作为该预设信息处理模型对应的预测损失信息;服务器基于该对比损失信息以及该预测损失信息,对该预设信息处理模型进行收敛,得到训练后预设信息处理模型。以此,通过计算每一文本词样本在文本样本中的重要系数,来将文本词样本中重要程度较高的目标词样本进行多种对抗类型的转换,进而得到多种类型的对抗文本词样本对应的对抗文本样本,从而对每一对抗文本词样本以及文本词样本中提取出包括词特征、字音特征以及字形特征等特征,并对这些多维度的特征进行轻量的融合,来使得模型更高效地利用输入样本的字音字形信息,并基于对抗文本样本特征和文本样本特征确定对比损失信息以及预测损失信息,来对预设信息处理模型进行收敛,来得到训练后信息处理模型,提升了训练后信息处理模型在对抗数据上的鲁棒性,进而提升模型训练的效率,通过该训练后信息处理模型对待处理信息进行处理,提高了信息处理效率。
为了更好地实施以上方法,本发明实施例还提供一种信息处理装置,该信息处理装置可以集成在计算机设备中,该计算机设备可以为服务器。
例如,如图6所示,为本申请实施例提供的信息处理装置的结构示意图,该信息处理装置可以包括获取单元301、计算单元302、确定单元303、替换单元304、提取单元305和收敛单元306,如下:
获取单元301,用于获取至少一个文本样本,该文本样本包括至少一个文本词样本;
计算单元302,用于计算每一该文本词样本在该文本样本中的重要系数,该重要系数用于表征每一该文本词样本在该文本样本中的重要程度;
确定单元303,用于根据该重要系数在该文本词样本中确定目标词样本,并对该目标词样本进行多种对抗类型的转换,得到每一对抗类型对应的对抗词样本;
替换单元304,用于基于该对抗词样本对该文本样本中对应的目标词样本进行替换,得到该文本样本对应的至少一个对抗文本样本;
提取单元305,用于采用预设信息处理模型在该文本样本中提取出该文本样本特征,并在该对抗文本样本中提取出对抗文本样本特征;
收敛单元306,用于根据该文本样本特征和该对抗文本样本特征,对该预设信息处理模型进行收敛,得到训练后信息处理模型,该训练后信息处理模型用于对待处理信息进行处理。
在一实施例中,该确定单元303,包括:
转换数量确定子单元,用于获取该文本样本对应的文本词样本的样本数量,并根据预设转换数量参数和该样本数量确定转换数量;
筛选子单元,用于基于该重要系数和该转换数量,在该文本样本对应的文本词样本中筛选出目标词样本。
在一实施例中,该提取单元305,包括:
多维特征提取子单元,用于采用预设信息处理模型对该文本样本中的每一该文本词样本进行多维度特征提取,得到多个维度的文本词特征;
文本词特征融合子单元,用于将该文本词特征进行融合,得到每一该文本词样本对应的融合后文本词特征;
文本特征提取子单元,用于基于该融合后文本词特征,对该文本样本进行特征提取,得到该文本样本的文本样本特征。
在一实施例中,该多维特征提取子单元,包括:
词特征提取模块,用于采用预设信息处理模型对该文本样本中每一文本词样本进行词特征提取,得到该文本样本中每一文本词样本对应的词特征;
模态特征提取模块,用于对该文本样本中每一文本词样本进行多模态特征提取,得到该文本样本中每一文本词样本对应的至少一个模态特征;
赋值模块,用于将该词特征和该模态特征作为该文本样本中每一文本词样本对应的多个维度的文本词特征。
在一实施例中,该模态特征提取模块,包括:
字音特征筛选子模块,用于在预设字音特征集合中筛选出与该文本样本中每一文本词样本对应的目标特征,得到该文本样本中每一文本词样本对应的字音特征;
字形特征提取子模块,用于在该文本样本中提取出每一文本词样本对应的词图像特征,并基于该词图像特征,在该文本样本中提取出每一文本词样本对应的字形特征;
赋值子模块,用于将该字音特征和该字形特征作为该文本样本中每一文本词样本对应的模态特征。
在一实施例中,该文本词特征融合子单元,包括:
关联权重计算模块,用于计算该文本词特征中每一维度的文本词特征对应的关联权重;
关联权重加权模块,用于基于该关联权重对该多个维度的文本词特征进行加权,得到加权后文本词特征;
加权融合模块,用于对该加权后文本词特征进行融合,得到该文本词特征对应的融合后文本词特征。
在一实施例中,该关联权重计算模块,用于:
对每一维度的文本词特征进行特征提取,得到每一维度的文本词特征对应的关联特征;
基于该关联特征,确定每一维度的文本词特征对应的关联权重。
在一实施例中,该加权融合模块,包括:
特征映射子模块,用于对文本词样本对应的词特征进行特征映射,得到文本词样本对应的隐层词特征;
初始融合子模块,用于将该加权后文本词特征和对应的隐层词特征进行融合,得到初始融合后文本词特征;
全连接融合子模块,用于对该初始融合后文本词特征进行全连接处理,并将全连接处理结果与该初始融合后文本词特征进行融合,得到该文本词特征对应的融合后文本词特征。
在一实施例中,该初始融合子模块,用于:
将该加权后文本词特征和对应的隐层词特征进行特征融合,得到特征融合后文本词特征;
对该加权融合后文本词特征进行归一化处理,得到初始融合后文本词特征。
在一实施例中,该收敛单元306,包括:
对比损失信息确定子单元,用于根据该文本样本特征和对抗文本样本特征,确定该预设信息处理模型对应的对比损失信息;
预测损失信息确定子单元,用于根据该文本样本特征和对抗文本样本特征,确定该预设信息处理模型对应的预测损失信息;
收敛子单元,用于基于该对比损失信息以及该预测损失信息,对该预设信息处理模型进行收敛,得到训练后预设信息处理模型。
在一实施例中,该对比损失信息确定子单元,包括:
特征相似度计算模块,用于计算该文本样本特征和对应的对抗文本样本特征之间的特征相似度;
关注度比值确定模块,用于获取预设温度系数,并确定该特征相似度与该预设温度系数之间的关注度比值;
对比损失信息计算模块,用于基于该关注度比值计算该文本样本特征和对应的对抗文本样本特征之间的对比损失信息。
在一实施例中,该预测损失信息确定子单元,包括:
遮掩模块,用于在该文本样本与对应的对抗文本样本中确定掩码位置,并对该掩码位置对应的文本词样本以及对抗文本词样本进行遮掩处理,得到遮掩后文本词样本和遮掩后对抗文本词样本;
预测模块,用于通过预设信息处理模型预测该遮掩后文本词样本和遮掩后对抗文本词样本对应的词,得到该遮掩后文本词样本对应的预测文本词,以及该遮掩后对抗文本词样本对应的预测对抗文本词;
预测损失信息确定模块,用于基于该预测文本词和对应的文本词样本确定该文本样本的预测损失信息,并基于该预测对抗文本词以及对应的对抗文本词样本,确定该对抗文本样本的预测损失信息;
预测损失信息赋值模块,用于将文本样本的预测损失信息,以及对抗文本样本的预测损失信息,作为预设信息处理模型对应的预测损失信息。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由以上可知,本申请实施例通过获取单元301获取至少一个文本样本,该文本样本包括至少一个文本词样本;计算单元302计算每一文本词样本在文本样本中的重要系数,该重要系数用于表征每一文本词样本在文本样本中的重要程度;确定单元303根据重要系数在文本词样本中确定目标词样本,并对目标词样本进行多种对抗类型的转换,得到每一对抗类型对应的对抗词样本;替换单元304,用于基于对抗词样本对文本样本中对应的目标词样本进行替换,得到文本样本对应的至少一个对抗文本样本;提取单元305采用预设信息处理模型在文本样本中提取出文本样本特征,并在对抗文本样本中提取出对抗文本样本特征;收敛单元306根据文本样本特征和对抗文本样本特征,对预设信息处理模型进行收敛,得到训练后信息处理模型。以此,通过计算每一文本词样本在文本样本中的重要系数,来将文本词样本中重要程度较高的目标词样本进行多种对抗类型的转换,进而得到多种类型的对抗文本词样本对应的对抗文本样本,并基于对抗文本样本和文本样本对预设信息处理模型进行收敛,来得到训练后信息处理模型,提升了训练后信息处理模型在对抗数据上的鲁棒性,进而提升模型训练的效率,通过该训练后信息处理模型对待处理信息进行处理,提高了信息处理效率。
本申请实施例还提供一种计算机设备,如图7所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,该计算机设备可以是服务器,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图7中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及信息处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取至少一个文本样本,该文本样本包括至少一个文本词样本;计算每一文本词样本在文本样本中的重要系数,该重要系数用于表征每一文本词样本在文本样本中的重要程度;根据重要系数在文本词样本中确定目标词样本,并对目标词样本进行多种对抗类型的转换,得到每一对抗类型对应的对抗词样本;基于对抗词样本对文本样本中对应的目标词样本进行替换,得到文本样本对应的至少一个对抗文本样本;采用预设信息处理模型在文本样本中提取出文本样本特征,并在对抗文本样本中提取出对抗文本样本特征;根据文本样本特征和对抗文本样本特征,对预设信息处理模型进行收敛,得到训练后信息处理模型。
以上各个操作的具体实施可参见前面的实施例,在此不作赘述。应当说明的是,本申请实施例提供的计算机设备与上文实施例中的适用于信息处理方法属于同一构思,其具体实现过程详见以上方法实施例,此处不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种信息处理方法中的步骤。例如,该指令可以执行如下步骤:
获取至少一个文本样本,该文本样本包括至少一个文本词样本;计算每一文本词样本在文本样本中的重要系数,该重要系数用于表征每一文本词样本在文本样本中的重要程度;根据重要系数在文本词样本中确定目标词样本,并对目标词样本进行多种对抗类型的转换,得到每一对抗类型对应的对抗词样本;基于对抗词样本对文本样本中对应的目标词样本进行替换,得到文本样本对应的至少一个对抗文本样本;采用预设信息处理模型在文本样本中提取出文本样本特征,并在对抗文本样本中提取出对抗文本样本特征;根据文本样本特征和对抗文本样本特征,对预设信息处理模型进行收敛,得到训练后信息处理模型。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种信息处理方法中的步骤,因此,可以实现本申请实施例所提供的任一种信息处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
其中,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。
以上对本申请实施例所提供的一种信息处理方法、装置和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (16)

1.一种信息处理方法,其特征在于,包括:
获取至少一个文本样本,所述文本样本包括至少一个文本词样本;
计算每一所述文本词样本在所述文本样本中的重要系数,所述重要系数用于表征每一所述文本词样本在所述文本样本中的重要程度;
根据所述重要系数在所述文本词样本中确定目标词样本,并对所述目标词样本进行多种对抗类型的转换,得到每一对抗类型对应的对抗词样本;
基于所述对抗词样本对所述文本样本中对应的目标词样本进行替换,得到所述文本样本对应的至少一个对抗文本样本;
采用预设信息处理模型在所述文本样本中提取出所述文本样本特征,并在所述对抗文本样本中提取出对抗文本样本特征;
根据所述文本样本特征和所述对抗文本样本特征,对所述预设信息处理模型进行收敛,得到训练后信息处理模型,所述训练后信息处理模型用于对待处理信息进行处理。
2.如权利要求1所述的信息处理方法,其特征在于,所述根据所述重要系数在所述文本词样本中确定目标词样本,包括:
获取所述文本样本对应的文本词样本的样本数量,并根据预设转换数量参数和所述样本数量确定转换数量;
基于所述重要系数和所述转换数量,在所述文本样本对应的文本词样本中筛选出目标词样本。
3.如权利要求1所述的信息处理方法,其特征在于,所述采用预设信息处理模型在所述文本样本中提取出所述文本样本特征,包括:
采用预设信息处理模型对所述文本样本中的每一所述文本词样本进行多维度特征提取,得到多个维度的文本词特征;
将所述文本词特征进行融合,得到每一所述文本词样本对应的融合后文本词特征;
基于所述融合后文本词特征,对所述文本样本进行特征提取,得到所述文本样本的文本样本特征。
4.如权利要求3所述的信息处理方法,其特征在于,所述采用预设信息处理模型对所述文本样本中的每一所述文本词样本进行多维度特征提取,得到多个维度的文本词特征,包括:
采用预设信息处理模型对所述文本样本中每一文本词样本进行词特征提取,得到所述文本样本中每一文本词样本对应的词特征;
对所述文本样本中每一文本词样本进行多模态特征提取,得到所述文本样本中每一文本词样本对应的至少一个模态特征;
将所述词特征和所述模态特征作为所述文本样本中每一文本词样本对应的多个维度的文本词特征。
5.如权利要求4所述的信息处理方法,其特征在于,所述对所述文本样本中每一文本词样本进行多模态特征提取,得到所述文本样本中每一文本词样本对应的至少一个模态特征,包括:
在预设字音特征集合中筛选出与所述文本样本中每一文本词样本对应的目标特征,得到所述文本样本中每一文本词样本对应的字音特征;
在所述文本样本中提取出每一文本词样本对应的词图像特征,并基于所述词图像特征,在所述文本样本中提取出每一文本词样本对应的字形特征;
将所述字音特征和所述字形特征作为所述文本样本中每一文本词样本对应的模态特征。
6.如权利要求3所述的信息处理方法,其特征在于,所述将所述文本词特征进行融合,得到所述文本词样本对应的融合后文本词特征,包括:
计算所述文本词特征中每一维度的文本词特征对应的关联权重;
基于所述关联权重对所述多个维度的文本词特征进行加权,得到加权后文本词特征;
对所述加权后文本词特征进行融合,得到所述文本词特征对应的融合后文本词特征。
7.如权利要求6所述的信息处理方法,其特征在于,所述计算所述文本词特征中每一维度的文本词特征对应的关联权重,包括:
对每一维度的文本词特征进行特征提取,得到每一维度的文本词特征对应的关联特征;
基于所述关联特征,确定每一维度的文本词特征对应的关联权重。
8.如权利要求6所述的信息处理方法,其特征在于,所述文本词特征包括所述文本词样本对应的词特征,所述对所述加权后文本词特征进行融合,得到所述文本词特征对应的融合后文本词特征,包括:
对所述文本词样本对应的词特征进行特征映射,得到所述文本词样本对应的隐层词特征;
将所述加权后文本词特征和对应的隐层词特征进行融合,得到初始融合后文本词特征;
对所述初始融合后文本词特征进行全连接处理,并将全连接处理结果与所述初始融合后文本词特征进行融合,得到所述文本词特征对应的融合后文本词特征。
9.如权利要求8所述的信息处理方法,其特征在于,所述将所述加权后文本词特征和对应的隐层词特征进行融合,得到初始融合后文本词特征,包括:
将所述加权后文本词特征和对应的隐层词特征进行特征融合,得到特征融合后文本词特征;
对所述加权融合后文本词特征进行归一化处理,得到初始融合后文本词特征。
10.如权利要求1至9中任一项所述的信息处理方法,其特征在于,所述根据所述文本样本特征和所述对抗文本样本特征,对所述预设信息处理模型进行收敛,得到训练后信息处理模型,包括:
根据所述文本样本特征和对抗文本样本特征,确定所述预设信息处理模型对应的对比损失信息;
根据所述文本样本特征和对抗文本样本特征,确定所述预设信息处理模型对应的预测损失信息;
基于所述对比损失信息以及所述预测损失信息,对所述预设信息处理模型进行收敛,得到训练后预设信息处理模型。
11.如权利要求10所述的信息处理方法,其特征在于,所述根据所述文本样本特征和对抗文本样本特征,确定所述预设信息处理模型对应的对比损失信息,包括:
计算所述文本样本特征和对应的对抗文本样本特征之间的特征相似度;
获取预设温度系数,并确定所述特征相似度与所述预设温度系数之间的关注度比值;
基于所述关注度比值计算所述文本样本特征和对应的对抗文本样本特征之间的对比损失信息。
12.如权利要求10所述的信息处理方法,其特征在于,所述根据所述文本样本特征和对抗文本样本特征,确定所述预设信息处理模型对应的预测损失信息,包括:
在所述文本样本与对应的对抗文本样本中确定掩码位置,并对所述掩码位置对应的文本词样本以及对抗文本词样本进行遮掩处理,得到遮掩后文本词样本和遮掩后对抗文本词样本;
通过预设信息处理模型预测所述遮掩后文本词样本和遮掩后对抗文本词样本对应的词,得到所述遮掩后文本词样本对应的预测文本词,以及所述遮掩后对抗文本词样本对应的预测对抗文本词;
基于所述预测文本词和对应的文本词样本确定所述文本样本的预测损失信息,并基于所述预测对抗文本词以及对应的对抗文本词样本,确定所述对抗文本样本的预测损失信息;
将所述文本样本的预测损失信息,以及所述对抗文本样本的预测损失信息,作为所述预设信息处理模型对应的预测损失信息。
13.一种信息处理装置,其特征在于,包括:
获取单元,用于获取至少一个文本样本,所述文本样本包括至少一个文本词样本;
计算单元,用于计算每一所述文本词样本在所述文本样本中的重要系数,所述重要系数用于表征每一所述文本词样本在所述文本样本中的重要程度;
确定单元,用于根据所述重要系数在所述文本词样本中确定目标词样本,并对所述目标词样本进行多种对抗类型的转换,得到每一对抗类型对应的对抗词样本;
替换单元,用于基于所述对抗词样本对所述文本样本中对应的目标词样本进行替换,得到所述文本样本对应的至少一个对抗文本样本;
提取单元,用于采用预设信息处理模型在所述文本样本中提取出所述文本样本特征,并在所述对抗文本样本中提取出对抗文本样本特征;
收敛单元,用于根据所述文本样本特征和所述对抗文本样本特征,对所述预设信息处理模型进行收敛,得到训练后信息处理模型,所述训练后信息处理模型用于对待处理信息进行处理。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至12任一项所述的信息处理方法中的步骤。
15.一种计算机设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的信息处理方法。
16.一种计算机程序,其特征在于,所述计算机程序包括计算机指令,所述计算机指令存储在存储介质中,计算机设备的处理器从所述存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行权利要求1至12任一项所述的信息处理方法。
CN202210089635.8A 2022-01-25 2022-01-25 信息处理方法、装置和计算机可读存储介质 Active CN114444476B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210089635.8A CN114444476B (zh) 2022-01-25 2022-01-25 信息处理方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210089635.8A CN114444476B (zh) 2022-01-25 2022-01-25 信息处理方法、装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN114444476A true CN114444476A (zh) 2022-05-06
CN114444476B CN114444476B (zh) 2024-03-01

Family

ID=81368792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210089635.8A Active CN114444476B (zh) 2022-01-25 2022-01-25 信息处理方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114444476B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117521674A (zh) * 2024-01-08 2024-02-06 腾讯科技(深圳)有限公司 对抗信息的生成方法、装置、计算机设备和存储介质
CN117540734A (zh) * 2024-01-10 2024-02-09 中南大学 一种中文医学实体标准化方法、装置及设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117482A (zh) * 2018-09-17 2019-01-01 武汉大学 一种面向中文文本情感倾向性检测的对抗样本生成方法
US20200234110A1 (en) * 2019-01-22 2020-07-23 Adobe Inc. Generating trained neural networks with increased robustness against adversarial attacks
CN111652267A (zh) * 2020-04-21 2020-09-11 清华大学 对抗样本的生成方法、装置、电子设备及存储介质
CN111783451A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 用于增强文本样本的方法和装置
CN112364641A (zh) * 2020-11-12 2021-02-12 北京中科闻歌科技股份有限公司 一种面向文本审核的中文对抗样本生成方法及装置
US20210334459A1 (en) * 2020-04-24 2021-10-28 Deepmind Technologies Limited Robustness to adversarial behavior for text classification models
CN113723076A (zh) * 2021-08-28 2021-11-30 重庆理工大学 基于词屏蔽数据增强与对抗学习的特定目标情感分析方法
CN113723506A (zh) * 2021-08-30 2021-11-30 南京星环智能科技有限公司 一种对抗样本的生成方法、设备及存储介质
US20210383237A1 (en) * 2020-06-03 2021-12-09 Google Llc Training Robust Neural Networks Via Smooth Activation Functions

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117482A (zh) * 2018-09-17 2019-01-01 武汉大学 一种面向中文文本情感倾向性检测的对抗样本生成方法
US20200234110A1 (en) * 2019-01-22 2020-07-23 Adobe Inc. Generating trained neural networks with increased robustness against adversarial attacks
CN111652267A (zh) * 2020-04-21 2020-09-11 清华大学 对抗样本的生成方法、装置、电子设备及存储介质
US20210334459A1 (en) * 2020-04-24 2021-10-28 Deepmind Technologies Limited Robustness to adversarial behavior for text classification models
US20210383237A1 (en) * 2020-06-03 2021-12-09 Google Llc Training Robust Neural Networks Via Smooth Activation Functions
CN111783451A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 用于增强文本样本的方法和装置
CN112364641A (zh) * 2020-11-12 2021-02-12 北京中科闻歌科技股份有限公司 一种面向文本审核的中文对抗样本生成方法及装置
CN113723076A (zh) * 2021-08-28 2021-11-30 重庆理工大学 基于词屏蔽数据增强与对抗学习的特定目标情感分析方法
CN113723506A (zh) * 2021-08-30 2021-11-30 南京星环智能科技有限公司 一种对抗样本的生成方法、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
仝鑫;王罗娜;王润正;王靖亚;: "面向中文文本分类的词级对抗样本生成方法", 信息网络安全, no. 09 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117521674A (zh) * 2024-01-08 2024-02-06 腾讯科技(深圳)有限公司 对抗信息的生成方法、装置、计算机设备和存储介质
CN117521674B (zh) * 2024-01-08 2024-04-09 腾讯科技(深圳)有限公司 对抗信息的生成方法、装置、计算机设备和存储介质
CN117540734A (zh) * 2024-01-10 2024-02-09 中南大学 一种中文医学实体标准化方法、装置及设备
CN117540734B (zh) * 2024-01-10 2024-04-09 中南大学 一种中文医学实体标准化方法、装置及设备

Also Published As

Publication number Publication date
CN114444476B (zh) 2024-03-01

Similar Documents

Publication Publication Date Title
JP6916383B2 (ja) 画像質問応答方法、装置、システムおよび記憶媒体
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
WO2020228376A1 (zh) 文本处理方法、模型训练方法和装置
CN110580292B (zh) 一种文本标签生成方法、装置和计算机可读存储介质
CN111767405A (zh) 文本分类模型的训练方法、装置、设备及存储介质
KR20180125905A (ko) 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
CN110796160A (zh) 一种文本分类方法、装置和存储介质
CN114444476B (zh) 信息处理方法、装置和计算机可读存储介质
CN110210032A (zh) 文本处理方法及装置
CN114676234A (zh) 一种模型训练方法及相关设备
WO2023134083A1 (zh) 基于文本的情感分类方法和装置、计算机设备、存储介质
CN113849653B (zh) 一种文本分类方法及装置
CN115130538A (zh) 文本分类模型的训练方法、文本处理的方法、设备及介质
CN110929532B (zh) 数据处理方法、装置、设备及存储介质
CN115129862A (zh) 语句实体处理方法、装置、计算机设备及存储介质
CN111581377B (zh) 文本分类方法、装置、存储介质及计算机设备
CN117494051A (zh) 一种分类处理的方法、模型训练的方法以及相关装置
CN113705315A (zh) 视频处理方法、装置、设备及存储介质
US20240037335A1 (en) Methods, systems, and media for bi-modal generation of natural languages and neural architectures
CN113095072A (zh) 文本处理方法及装置
CN116432705A (zh) 文本生成模型构建、文本生成方法和装置、设备及介质
CN112818688B (zh) 文本处理方法、装置、设备及存储介质
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN114627282A (zh) 目标检测模型的建立方法、应用方法、设备、装置及介质
CN114357152A (zh) 信息处理方法、装置、计算机可读存储介质和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40071907

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant