CN115114910B - 文本处理方法、装置、设备、存储介质及产品 - Google Patents

文本处理方法、装置、设备、存储介质及产品 Download PDF

Info

Publication number
CN115114910B
CN115114910B CN202210339912.6A CN202210339912A CN115114910B CN 115114910 B CN115114910 B CN 115114910B CN 202210339912 A CN202210339912 A CN 202210339912A CN 115114910 B CN115114910 B CN 115114910B
Authority
CN
China
Prior art keywords
text
sample
model
word vector
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210339912.6A
Other languages
English (en)
Other versions
CN115114910A (zh
Inventor
曾嘉莉
姜雨帆
吴双志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210339912.6A priority Critical patent/CN115114910B/zh
Publication of CN115114910A publication Critical patent/CN115114910A/zh
Application granted granted Critical
Publication of CN115114910B publication Critical patent/CN115114910B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请的实施例公开了一种文本处理方法、装置、设备、存储介质及产品,该方法包括:生成待处理文本的词向量序列,该词向量序列表示待处理文本中包含的各个词所对应的词向量;基于待处理文本的词向量序列,获得词向量序列中的各个词向量的置信度,该置信度表示词向量对应的语义对文本处理任务的重要度;根据各个词向量的置信度和词向量序列,生成待处理文本对应的关键信息;基于待处理文本对应的关键信息,生成待处理文本针对文本处理任务的处理结果。本申请实施例的技术方案提高了文本处理结果的准确性。

Description

文本处理方法、装置、设备、存储介质及产品
技术领域
本申请涉及计算机及通信技术领域,具体而言,涉及一种文本处理方法、文本处理装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
相关技术中提出的大规模预训练语言模型为自然语言领域带来了新的突破。目前,预训练语言模型在开放对话、知识问答和可控文本生成等认知推理任务上均有不错的表现。但是,相关技术中提出的预训练语言模型由于都倾向于将待处理文本编码到一个较小的空间区域,导致语句之间的区分性较低,进而影响了文本处理的效果。
发明内容
为解决上述技术问题,本申请的实施例提供了一种文本处理方法、文本处理装置、电子设备、计算机可读存储介质及计算机程序产品,可以提高文本处理结果的准确性。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种文本处理方法,包括:生成待处理文本的词向量序列,所述词向量序列表示所述待处理文本中包含的各个词所对应的词向量;基于所述待处理文本的词向量序列,获得所述词向量序列中的各个词向量的置信度;所述置信度表示词向量对应的语义对文本处理任务的重要度;根据所述各个词向量的置信度和所述词向量序列,生成所述待处理文本对应的关键信息;基于所述待处理文本对应的关键信息,生成所述待处理文本针对所述文本处理任务的处理结果。
根据本申请实施例的一个方面,提供一种模型训练方法,包括:获取样本文本,将所述样本文本的样本词向量序列输入到待训练模型中,以获得所述待训练模型生成的所述样本文本对应的关键信息,所述待训练模型用于获得所述样本词向量序列中的各个样本词向量的置信度,并根据所述各个样本词向量的置信度和所述样本词向量序列,生成所述样本文本对应的关键信息;根据所述样本文本的样本词向量序列,生成所述样本文本对应的冗余信息;根据所述样本文本对应的关键信息和所述样本文本对应的冗余信息,构建所述待训练模型对应的第一损失;根据所述第一损失调整所述待训练模型的模型参数,以得到所述文本处理模型。
根据本申请实施例的一个方面,提供了一种文本处理装置,包括:向量生成模块,用于生成待处理文本的词向量序列,所述词向量序列表示所述待处理文本中包含的各个词所对应的词向量;置信度获得模块,用于基于所述待处理文本的词向量序列,获得所述词向量序列中的各个词向量的置信度;所述置信度表示词向量对应的语义对文本处理任务的重要度;信息生成模块,用于根据所述各个词向量的置信度和所述词向量序列,生成所述待处理文本对应的关键信息;处理模块,用于基于所述待处理文本对应的关键信息,生成所述待处理文本针对所述文本处理任务的处理结果。
在本申请的一实施例中,所述信息生成模块具体用于基于所述各个词向量的置信度与所述各个词对应的词向量,计算得到各个词的语义信息保留度;对所述各个词向量的置信度进行扰动处理,得到所述各个词的扰动度;根据所述各个词的语义信息保留度和所述各个词的扰动度,计算各个关键词对应的词向量,将多个关键词分别对应的词向量所生成的序列作为所述关键信息。
在本申请的一实施例中,基于以下公式,根据所述各个词的语义信息保留度和所述各个词的扰动度,计算各个关键词对应的词向量:
其中,所述为第i个关键词对应的词向量,所述ei为第i个词的词向量,ci为第i个词的置信度,所述ci⊙ei为第i个词的语义信息保留度,μ0为扰动项,(1-ci)⊙μ0为第i个词的扰动度。
在本申请的一实施例中,通过文本处理模型获得所述词向量序列中的各个词向量的置信度,并根据所述各个词向量的置信度和所述词向量序列,生成所述待处理文本对应的关键信息,以及基于所述关键信息,生成所述待处理文本针对所述文本处理任务的处理结果;所述装置还包括训练模块,用于通过样本文本对待训练模型进行训练,以生成所述文本处理模型。
在本申请的一实施例中,所述训练模型包括输入单元、生成单元、构建单元和调整单元;输入单元用于将所述样本文本的样本词向量序列输入到所述待训练模型中,以获得所述待训练模型生成的所述样本文本对应的关键信息,所述待训练模型用于获得所述样本词向量序列中的各个样本词向量的置信度,并根据所述各个样本词向量的置信度和所述样本词向量序列,生成所述样本文本对应的关键信息;所述生成单元用于根据所述样本文本的样本词向量序列,生成所述样本文本对应的冗余信息;构建单元用于根据所述样本文本对应的关键信息和所述样本文本对应的冗余信息,构建所述待训练模型对应的第一损失;调整单元用于根据所述第一损失调整所述待训练模型的模型参数,以得到所述文本处理模型。
在本申请的一实施例中,所述构建单元还用于将所述样本文本输入到所述待训练模型中,以获得所述待训练模型针对所述样本文本输出的与所述文本处理任务相对应的任务处理结果;根据所述任务处理结果和所述样本文本的期望输出结果,构建所述待训练模型的第二损失;调整单元具体用于根据所述第一损失和所述第二损失调整所述待训练模型的模型参数,以得到所述文本处理模型。
在本申请的一实施例中,所述构建单元还用于根据所述样本文本对应的关键信息和所述样本文本中各个样本词向量的置信度构建所述待训练模型的第三损失;调整单元进一步用于根据所述第一损失、所述第二损失和所述第三损失,生成所述待训练模型的总损失;根据所述总损失调整所述待训练模型的模型参数,以得到所述文本处理模型。
在本申请的一实施例中,构建单元进一步用于将所述样本文本对应的关键信息输入到所述待训练模型中,以获得所述待训练模型针对所述样本文本的关键信息所输出的处理结果;根据所述待训练模型针对所述样本文本的关键信息所输出的处理结果,以及所述样本文本的关键信息所对应的期望输出结果,生成关键信息处理损失;对所述样本文本中各个样本词向量的置信度进行正则化处理得到惩罚项;根据所述关键信息处理损失和所述惩罚项生成所述第三损失。
在本申请的一实施例中,所述构建单元进一步用于将预设的超参数作为惩罚项的权重值;根据所述权重值对所述关键信息处理损失和所述惩罚项进行加权求和得到所述第三损失。
在本申请的一实施例中,所述构建单元进一步用于获取所述待训练模型针对所述样本文本所生成的第一全局向量、针对所述样本文本对应的关键信息所生成的第二全局向量,以及针对所述样本文本对应的冗余信息所生成的第三全局向量;根据所述第一全局向量和所述第二全局向量的距离、所述第三全局向量和所述第二全局向量的距离、以及所述第三全局向量和所述第一全局向量的距离,构建所述待训练模型对应的第一损失。
在本申请的一实施例中,所述生成单元进一步还用于获取所述样本文本中各个样本词向量的置信度;根据所述样本文本中各个样本词向量的置信度与所述样本文本中各个样本词向量,生成所述样本文本中各个样本词向量所对应的冗余词向量;将所述各个样本词向量所对应的冗余词向量所生成的序列作为所述冗余信息。
在本申请的一实施例中,所述置信度获得模块用于将所述待处理文本的词向量序列输入到以S型生长曲线作为激活函数的神经网络层,以获得所述词向量序列中的各个词向量的置信度。
根据本申请实施例的一个方面,提供一种模型训练装置,包括:获取模块,用于获取样本文本,将所述样本文本的样本词向量序列输入到待训练模型中,以获得所述待训练模型生成的所述样本文本对应的关键信息,所述待训练模型用于获得所述样本词向量序列中的各个样本词向量的置信度,并根据所述各个样本词向量的置信度和所述样本词向量序列,生成所述样本文本对应的关键信息;冗余信息生成模块,用于根据所述样本文本的样本词向量序列,生成所述样本文本对应的冗余信息;损失构建模块,用于根据所述样本文本对应的关键信息和所述样本文本对应的冗余信息,构建所述待训练模型对应的第一损失;模型调整模块,用于根据所述第一损失调整所述待训练模型的模型参数,以得到所述文本处理模型。
根据本申请实施例的一个方面,提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如上所述的文本处理方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被电子设备的处理器执行时,使电子设备执行如上所述的文本处理方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序存储在计算机可读存储介质中,电子设备的处理器从所述计算机可读存储介质读取并执行所述计算机程序,使得所述电子设备执行如上所述的文本处理方法。
在本申请的实施例所提供的技术方案中,通过基于待处理文本的词向量序列,获得词向量序列中的各个词向量的置信度,而该置信度表示词向量对应的语义对文本处理任务的重要度,使得可以确定出哪些词向量对文本处理任务重要,进而根据各个词向量的置信度和词向量序列,生成待处理文本对应的关键信息,由于待处理文本对应的关键信息能有效的区分开待处理文本中对文本处理任务关键的信息,因此基于关键信息可准确生成待处理文本针对文本处理任务的处理结果,提高了对针对文本处理任务的处理结果的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。在附图中:
图1是本申请涉及的一种实施环境的示意图;
图2是本申请的一示例性实施例示出的一种文本处理方法的流程图;
图3是图2所示实施例中的步骤S130在一示例性实施例中的流程图;
图4是本申请的一示例性实施例示出的另一种文本处理方法的流程示意图;
图5是本申请的一示例性实施例示出的模型训练方法的流程图;
图6是图5所示实施例中的步骤S540在一示例性实施例中的流程图;
图7是图6所示实施例中的步骤S543在一示例性实施例中的流程图;
图8为图7所示实施例中的步骤S710在一示例性实施例中的流程图;
图9为图8所示实施例中的步骤S714在一示例性实施例中的流程图;
图10为图5所示实施例中的步骤S530在一示例性实施例中的流程图;
图11为图5所示实施例中的步骤S520在一示例性实施例中的流程图;
图12为相关技术中提供的分类模型的微调训练框架;
图13是本申请的一示例性实施例示出的提供一种模型的微调训练框架的示意图;
图14是本申请的一示例性实施例示出的训练和测试例子的示意图;
图15是本申请的一示例性实施例示出的提供一种文本处理装置的结构示意图;
图16是本申请的一示例性实施例示出的提供一种模型训练装置的结构示意图;
图17示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
还需要说明的是:在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请实施例的技术方案涉及人工智能(Artificial Intelligence,AI)技术领域,在介绍本申请实施例的技术方案之前,先简单介绍AI技术。AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,AI是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。AI也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是AI的核心,是使计算机具有智能的根本途径,其应用遍及AI的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
本申请实施例的技术方案具体涉及AI中的机器学习技术,具体是基于机器学习技术实现对文本的处理,以下对本申请实施例的技术方案进行详细介绍:
请参阅图1,图1是本申请涉及的一种实施环境的示意图。该实施环境包括终端10、服务器20,终端10和服务器20之间通过有线或者无线网络进行通信。
其中,终端10为自然语言处理的发起端,即作为文本处理请求的发起方,例如可运行自然语言处理应用程序,该应用程序用于运行文本处理任务(例如文本分类,知识问答,情感分类等),进而终端10可通过自然语言处理应用程序接收使用对象上传的待处理文本,并将待处理文本发送给服务器20。
服务器20可以接收到该待处理文本后,执行对应的自然语言处理,从而得到针对该待处理文本的处理结果。例如,服务器20可生成待处理文本的词向量序列,该词向量序列表示待处理文本中包含的各个词所对应的词向量,然后基于待处理文本的词向量序列,获得词向量序列中的各个词向量的置信度,该置信度表示词向量对应的语义对文本处理任务的重要度,进而服务器20可以根据各个词向量的置信度和词向量序列,生成待处理文本对应的关键信息,并基于该关键信息,生成待处理文本针对文本处理任务的处理结果。在生成待处理文本针对文本处理任务的处理结果之后,可以将处理文本的处理结果发送给终端10,以展示给使用对象。
可选的,服务器20中可运行多个不同的文本处理任务,因此终端10在将待处理文本发送给服务器20时,还可以将想要执行的文本处理任务发送给服务器20,以便于服务器20生成待处理文本针对文本处理任务的处理结果。比如,文本处理任务可以是意图识别任务、人机对话任务、搜索查询任务等,终端10在将待处理文本发送给服务器20时,可以指定具体是哪种任务。
当然在一些实施例中,该服务器20可以针对终端10设置一种固定的处理任务,比如针对终端10设置为搜索查询任务,那么服务器20在接收到终端10发送的待处理文本之后,可以基于对应的搜索查询任务直接对待处理文本进行处理。
在一些实施例中,终端10也可以单独实现对待处理文本的处理,即终端10在获取到待处理文本后,可以生成待处理文本的词向量序列,然后基于待处理文本的词向量序列,获得词向量序列中的各个词向量的置信度,进而根据各个词向量的置信度和词向量序列,生成待处理文本对应的关键信息,并根据该关键信息生成待处理文本针对文本处理任务的处理结果。而在生成待处理文本针对文本处理任务的处理结果后,可以直接展示该处理结果。
需要说明的是:本申请实施例的技术方案可以对各种待处理文本进行处理,具体比如可以是云技术、AI、智慧交通、辅助驾驶等各种场景中的文本,或者也可以是对如购物网站应用程序、问答应用程序、内容平台应用程序中的文本进行处理。具体地,如应用在智慧交通场景中,终端为车载终端,车载终端将使用对象的地点搜索语音指令转换为文本,基于该文本的词向量序列生成文本的关键信息,进而确定出地点搜索语音指令需要搜索的指定地点,然后将该指定地点展示在车载终端的地图显示界面中;又例如应用在购物网站应用程序,终端为计算机,计算机获取使用对象针对某一商品的商品介绍,生成该商品介绍的词向量序列,进而获得词向量序列中的各个词向量的置信度,进而根据各个词向量的置信度和词向量序列,生成商品介绍对应的关键信息,并根据该关键信息确定商品介绍对应的具体商品信息,如商品型号、价格等使用对象会关注的信息。
前述终端10可以是智能手机、平板、笔记本电脑、计算机、智能语音交互设备、智能家电、车载终端、飞行器等电子设备;服务器20可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络)以及大数据和智能平台等基础云计算服务的云服务器,本处不对此进行限制。
如图2所示,图2是根据一示例性实施例示出的一种文本处理方法的流程图,该方法可以应用于图1所示的实施环境,该方法可以由终端或服务器执行,也可以由终端和服务器共同执行,在本申请实施例中,以该方法由服务器执行为例进行说明,该文本处理方法可以包括步骤S110至步骤S140,详细介绍如下:
S110、生成待处理文本的词向量序列,词向量序列表示待处理文本中包含的各个词所对应的词向量。
在本申请的一个实施例中,待处理文本指的是需要处理的一个句子或多个句子的组合,而一个句子或多个句子中包含多个词语。该待处理文本可以是使用对象输入的文本,也可以是从网络上下载得到的文本,当然该待处理文本可以是一段或多段文本,在此不进行限定。
其中,根据待处理文本的不同,文本处理任务对应的应用场景也不同。例如,若待处理文本为未知文本类型的文本,则文本处理任务对应的场景为文本类型分类场景;若待处理文本为用于指示使用对应的情感的文本,则文本处理任务对应的场景为情感分类场景。
在一些可选的实施例中,待处理文本的词向量序列是由待处理文本中包含的各个词所对应的词向量所组成的序列。可选的,词向量序列中的词向量的排序可以是按照待处理文本中各个词出现的顺序进行排序;例如待处理文本为:ADE,则待处理文本的词向量序列为:ade,其中a是词语A的词向量,d是词语D的词向量,e是词语E的词向量。
可以理解的是,词向量用于表示词语被映射到实数的向量,可选的,在接收到待处理文本后,可通过word2vec模型生成待处理文本的词向量序列,即将待处理文本输入到word2vec模型,以得到待处理文本的词向量序列。
S120、基于待处理文本的词向量序列,获得词向量序列中的各个词向量的置信度;置信度表示词向量对应的语义对文本处理任务的重要度。
在本申请一实施例中,每个词向量对应一个置信度,即词向量与置信度一一对应,可以通过待处理文本的词向量序列中的各个词向量所表征的语义获得每个词向量的置信度,该置信度表示词向量对应的语义对文本处理任务的重要度。
其中,该置信度可以用0到1的分数进行表示,即词向量对应的语义对文本处理任务越重要,则置信度对应分数越大。例如文本处理任务为文本分类时,则词向量对应的语义对于文本分类的贡献度越大时,该词向量对文本分类的判别越重要,该词向量的置信度越大。如在一个需要分类的文本中,包括“养殖”、“家禽”等对畜牧业刻画性强的词语,还包括“农户”等词语,而“养殖”的语义对于畜牧业的判别的重要度,大于“家禽”的语义对于畜牧业的判别的重要度,“家禽”的语义对于畜牧业的判别的重要度大于“农户”的语义对于畜牧业的判别的重要度,则“养殖”对应词向量大于“家禽”对应词向量的置信度,“农户”对应词向量的置信度最小。
在本申请另一实施例中,置信度还可以用0或1表示,1表示该词向量对应的语义对文本处理任务重要,0表示该词向量对应的语义对文本处理任务不重要。应当理解的是,对于同一个待处理文本,文本处理任务不同,任务所关注的文本信息也不同,则待处理文本中的各个词向量的置信度也不同,例如文本处理任务为文本匹配时,在一个需要信息检索的文本中,包括“养殖”、“家禽”、“农户”等词语,“家禽”的语义对于问题“畜禽品种”的判别的重要度大于“养殖”的语义对于问题“畜禽品种”的判别的重要度,则“家禽”对应词向量的置信度大于“养殖”对应词向量。
可选的,服务器在获取到待处理文本时,还需要获取该待处理文本对应的指定文本处理任务,进而在生成待处理文本的词向量序列后,可生成词向量序列中的各个词向量针对某一文本处理任务的置信度,以保证文本处理的有效性和准确性。
S130、根据各个词向量的置信度和词向量序列,生成待处理文本对应的关键信息。
在本申请的一实施例中,待处理文本对应的关键信息用于表示对文本处理任务的重要性较高的信息;关键信息可以是待处理文本的子集,且与待处理文本保持着相同的语义。
如前所述,当各个词向量的置信度有分数大小之分,因此通过各个词向量的置信度的大小,可以从词向量序列中抽取出关键的词向量,进而生成待处理文本对应的关键信息,承接上例,对于文本处理任务为文本分类,从词向量序列中抽取出包括“养殖”和“家禽”对应关键的词向量,则生成的关键信息包括与“养殖”和“家禽”相关的信息。
若各个词向量的置信度用0或1表示,有重要和不重要之分,则可以从词向量序列中抽取用“1”所表示的重要的词向量,进而生成待处理文本对应的关键信息。
S140、基于待处理文本对应的关键信息,生成待处理文本针对文本处理任务的处理结果。
在本申请的一个实施例中,当获得待处理文本的关键信息后,由于待处理文本对应的关键信息用于表示对文本处理任务的重要性较高的信息,因此基于对文本处理任务重要性较高的信息,可准确有效对待处理文本进行处理,生成针对文本处理任务的处理结果。例如文本处理任务为文本分类时,则基于包括“养殖”和“家禽”相关的信息对待处理文本进行类型分类,在分类的过程中,考虑“养殖”和“家禽”属于畜牧业的,则基于可“养殖”和“家禽”相关的信息确定该待处理文本的处理结果为畜牧业的文本类型。
在本申请实施例中,通过基于待处理文本的词向量序列,获得词向量序列中的各个词向量的置信度,而该置信度表示的词向量对应的语义对文本处理任务的重要度,使得可以确定出哪些词向量对文本处理任务重要,进而根据各个词向量的置信度和词向量序列,生成待处理文本对应的关键信息,通过关键信息所表示的对文本处理任务的重要性较高的信息,可准确的确定出有效信息,从而基于关键信息可准确生成待处理文本针对文本处理任务的处理结果。
在本申请一实施例中,步骤S120中基于待处理文本的词向量序列,获得词向量序列中的各个词向量的置信度包括:
将待处理文本的词向量序列输入到以S型生长曲线作为激活函数的神经网络层,以获得词向量序列中的各个词向量的置信度。
需要说明的是,该神经网络层可以位于文本处理模型内,也可以独立于文本处理模型。在一示例中,该神经网络层可以是一个单层的以sigmoid作为激活函数的神经网络层,通过sigmoid函数将待处理文本的词向量序列中的各个词向量映射到0~1之间,进而将映射得到的值作为词向量的置信度。
在另一示例中,该神经网络层可以是一个单层的以其他激活函数的神经网络层,以将待处理文本的词向量序列中的各个词向量映射为0或1。
在本申请实施例中,通过S型生长曲线作为激活函数的神经网络层生成词向量序列中的各个词向量映射到0~1之间,并作为表示词向量的语义对文本处理任务的重要度的置信度,便于后续基于该置信度可准确有效的生成关键信息。
在一些可选的实施例中,图2所示实施例中的步骤S130在一示例性实施例中的处理流程可以如图3所示,包括如下步骤:
S131、基于各个词向量的置信度与各个词对应的词向量,计算得到各个词的语义信息保留度。
在本申请一实施例中,语义信息保留度用于表示词保留了多少与待处理样本相同的语义,每个词各自对应有语义信息保留度;由于置信度越高,该词向量对应的语义对文本处理任务的越重要,则该词保留了越多的与待处理样本相同的语义。
可选的,将某个词向量的置信度与该词向量进行乘积,得到该词的语义信息保留度,然后计算待处理文本中所有词的语义信息保留度。
S132、对各个词向量的置信度进行扰动处理,得到各个词的扰动度。
在本申请一实施例中,扰动度指的是该词存在多少与待处理文本无关的语义,该扰动度可对待处理文本的处理产生影响,致使处理结果不准确。
扰动处理指的是对各个词向量的置信度加入扰动,可选的,由于置信度表示词向量对应的语义对文本处理任务的重要度,因此本申请实施例中,对词向量对应的语义对文本处理任务的重要性较低的部分加入扰动,得到词的扰动度。
需要说明的是:图3中所示的步骤S131和步骤S132之间的执行顺序并没有绝对的先后之分,既可以如图3所示先执行步骤S131,再执行步骤S132;也可以是先执行步骤S132,再执行步骤S131;还可以是同时执行步骤S131和步骤S132。
S133、根据各个词的语义信息保留度和各个词的扰动度,计算各个关键词对应的词向量,将多个关键词分别对应的词向量所生成的序列作为关键信息。
在本申请一实施例中,对于待处理文本中的每一个词,都有一个语义信息保留度和扰动度,因此可将语义信息保留度和扰动度进行组合对抗,以确定该词存在与待处理文本相同的语义更多,还是存在与待处理文本无关的语义更多,以此根据最终组合结果得到各个关键词对应的词向量,进而将依次得到的关键词的词向量进行排序,将多个关键词分别对应的词向量所生产的序列作为关键信息。
可选的,基于以下公式,根据各个词的语义信息保留度和各个词的扰动度,计算各个关键词对应的词向量:
其中,为第i个关键词对应的词向量,ei为第i个词的词向量,ci为第i个词的置信度,ci⊙ei为第i个词的语义信息保留度,μ0为扰动项,(1-ci)⊙μ0为第i个词的扰动度,⊙表示按位乘。
需要说明的是,μ0可以是一个0向量,也可以高斯分布中随机采样的一个向量,μ0根据实际需求进行灵活调整。
例如,“养殖”的词向量的置信度为0.8,μ0为0向量,则“养殖”关键词对应的词向量为“家禽”的词向量的置信度为0.6,则“家禽”关键词对应的词向量为“农户”的词向量的置信度为0.2,则“农户”关键词对应的词向量为则关键信息/>也就是说,在本申请实施例中,待处理文本中的每个词都是关键词,但作为关键词的词向量是依据该词的语义信息保留度和扰动度确定的。
在本申请实施例中,通过对置信度对应的词向量的语义保留,并对词向量对应的语义对文本处理任务的重要性较低的部分加入扰动,进而通过各个词的语义信息保留度和各个词的扰动度,生成关键信息,能够高效的抽取出对文本处理任务的判断最有效的信息,以提高后续处理结果的准确性。
值得注意的是,本申请的一示例性中,通过文本处理模型获得词向量序列中的各个词向量的置信度,并根据各个词向量的置信度和词向量序列,生成待处理文本对应的关键信息,以及基于关键信息,生成待处理文本针对文本处理任务的处理结果;例如将待处理文本的词向量序列输入到文本处理模型中,文本处理模型对待处理文本的词向量序列进行一系列处理,生成待处理文本针对文本处理任务的处理结果,进而获取文本处理模型输出的处理结果。
如图4所示,图4为本申请的一示例性实施例示出的另一种文本处理方法的流程示意图,该文本处理方法可以由终端或服务器执行,也可以由终端和服务器共同执行,在本申请实施例中,以该方法由服务器执行为例进行说明,文本处理方法包括:
S100、通过样本文本对待训练模型进行训练,以生成文本处理模型。
在申请一实施例中,文本处理任务不同,对应的文本处理模型也不同,则待训练模型可以相同,也可以不同,该待训练模型不具体限定某个模型类型和拓扑结构,比如可以是具有文本编码能力的模型结构,例如LSTM(Long Short-Term Memory,长短期记忆)、CNN(Convolutional Neural Networks,卷积神经网络)等。
样本文本可以是带标签的样本文本,例如通过带分类标签的样本文本对待训练模型进行训练,以生成用于文本分类的文本处理模型;又例如通过携带匹配标签的样本文本对待训练模型进行训练,以生成用于文本匹配的文本处理模型。
S110、生成待处理文本的词向量序列,其中,词向量序列表示待处理文本中包含的各个词所对应的词向量。
例如存在待处理文本时,对待处理文本进行转换,以生成待处理文本的词向量序列。
S120、基于待处理文本的词向量序列,获得词向量序列中的各个词向量的置信度。
S130、根据各个词向量的置信度和词向量序列,生成待处理文本对应的关键信息。
S140、基于待处理文本对应的关键信息,生成待处理文本针对文本处理任务的处理结果。
可以理解的是,当得到文本处理模型后,可将文本处理模型应用于自然语言处理;步骤S120~S140可以通过文本处理模型处理,即通过文本处理模型获得待处理文本针对文本处理任务的处理结果。文本处理模型对待处理文本的具体处理细节可以参照前述实施例中的内容,不再赘述。
在本申请实施例中,通过样本文本对预训练模型进行训练,进而可以通过训练完成的文本处理模型得到待处理文本针对文本处理任务的处理结果,提高了文本处理的自动化和效率。
在本申请一实施例中,图5示出了通过样本文本对待训练网络进行训练,以生成文本处理模型的过程,具体可以包括:
S510、将样本文本的样本词向量序列输入到待训练模型中,以获得待训练模型生成的样本文本对应的关键信息,待训练模型用于获得样本词向量序列中的各个样本词向量的置信度,并根据各个样本词向量的置信度和样本词向量序列,生成样本文本对应的关键信息。
在本申请一实施例中,可通过向量模型生成样本文本的样本词向量序列,将样本词向量序列输入到待训练模型中,该待训练模型内部会基于样本词向量序列获得样本词向量序列中的各个样本词向量的置信度,待训练模型根据各个样本词向量的置信度和样本词向量序列,生成样本文本对应的关键信息,其中,生成样本文本对应的关键信息的过程与生成待处理文本对应的关键信息的过程类似,具体可以参见图3,在此不再一一赘述。
S520、根据样本文本的样本词向量序列,生成样本文本对应的冗余信息。
冗余信息指的是样本文本中对文本处理任务的重要性较低(此处是相比于关键信息而言的)的信息,样本文本的样本词向量序列中包括每个词的词向量,而每个词包括对文本处理任务的重要性较高的语义,以及对文本处理任务的重要性较低的语义,因此可通过样本文本的样本词向量序列中各个词向量所表征的语义生成样本文本对应的冗余信息。
S530、根据样本文本对应的关键信息和样本文本对应的冗余信息,构建待训练模型对应的第一损失。
如前所述,样本文本对应的关键信息用于表示样本文本中对文本处理任务的重要性较高的信息,样本文本对应的冗余信息表示样本文本中对文本处理任务的重要性较低的信息,因此可通过样本文本对应的关键信息和样本文本对应的冗余信息进行对比学习,进而构建待训练模型对应的第一损失。
S540、根据第一损失调整待训练模型的模型参数,以得到文本处理模型。
在本申请一实施例中,通过关键信息和冗余信息的对比学习,可以解耦样本文本中与文本处理任务的重要性较高的关键信息和对文本处理任务的重要性较低的冗余信息在空间中的向量表示,拉远关键信息和冗余信息的距离,进而构建得到的第一损失调整待训练模型的模型参数时,使得待训练模型能够将与文本处理任务的重要性较高的信息和与文本处理任务的重要性较低的信息分割开,进而得到文本处理模型。
在本申请实施例中,通过预训练模型获得样本文本的各词向量的置信度,进而抽取出对文本处理任务的重要性较高的信息,作为关键信息,以及对文本处理任务的重要性较低的冗余信息,进而根据关键信息和冗余信息构建用于基于任务型知识表示解耦的第一损失(即对比损失),使得预训练模型可解耦文本表示中的关键信息和冗余信息在空间中的表示,进一步使得生成的文本处理模型可以编码得到更加鲁棒的文本表示。
在本申请一实施例中,如图6所示,图6为图5所示实施例中的步骤S540在一示例性实施例中的流程图,即根据第一损失调整待训练模型的模型参数,以得到文本处理模型的过程,包括:
S541、将样本文本输入到待训练模型中,以获得待训练模型针对样本文本输出的与文本处理任务相对应的任务处理结果。
将样本文本输入到待训练模型中,该待训练模型针对该样本文本输出一个与文本处理任务相对应的任务处理结果,例如文本处理任务为文本分类,样本文本为携带分类标签的文本,将携带分类标签的文本输入到待训练模型中,则待训练模型会输出一个针对该文本的分类结果,如该分类结果为该文本属于A类型的概率,该文本属于B类型的概率。
S542、根据任务处理结果和样本文本的期望输出结果,构建待训练模型的第二损失。
可以理解的是,样本文本对应有期望输出结果,该期望输出结果即为样本文本携带的标签,承接上例,如样本文本携带的标签为A类型,则根据任务处理结果中该文本属于A类型的概率、该文本属于B类型的概率以及样本文本的期望输出结果中该文本实际属于的A类型,构建待训练模型的第二损失。
S543、根据第一损失和第二损失调整待训练模型的模型参数,以得到文本处理模型。
在本申请实施例中,第一损失表示样本文本对应关键信息和冗余信息之间的距离,第二损失表示待训练模型输出的任务处理结果和样本文本的期望输出结果之间的差异,通过第一损失将关键信息和冗余信息分割开,在信息分割开后,通过第二损失使得待训练模型输出的任务处理结果接近样本文本的期望输出结果,以使得文本处理模型的处理结果更加准确。
在本申请一实施例中,如图7所示,图7为图6所示实施例中的步骤S543在一示例性实施例中的流程图,根据第一损失和第二损失调整待训练模型的模型参数,以得到文本处理模型,包括:
S710、根据样本文本对应的关键信息和样本文本中各个词向量的置信度构建待训练模型的第三损失。
在本申请实施例中,第三损失表示抽取得到关键信息中保留较少,但是非常重要的词的信息。
S720、根据第一损失、第二损失和第三损失,生成待训练模型的总损失。
可选的,将第一损失、第二损失和第三损失之和作为待训练模型的总损失。
可选的,分别为第一损失、第二损失和第三损失设置权重值,进而对第一损失、第二损失和第三损失进行加权求和得到总损失,其中可以基于第一损失、第二损失和第三损失的贡献设置权重值,如第一损失的权重值最大、第二损失的权重值最小,当然具体的权重值可以根据实际情况进行灵活调整,例如第一损失的权重值为0.5,第二损失的权重值为0.2,第三损失的权重值为0.3。
S730、根据总损失调整待训练模型的模型参数,以得到文本处理模型。
可选的,当根据总损失调整待训练模型的模型参数,当总损失收敛时,此时模型参数最优,基于最优的模型参数得到文本处理模型。
在本申请实施例中,通过第三损失使得待训练模型在抽取得到样本的关键信息时,关键信息为对任务非常重要的信息,进而再通过第一损失解耦关键信息和冗余信息在空间中的文本表示,进而再通过第三损失待训练模型输出的任务处理结果趋近于样本文本的期望输出结果,因此在根据总损失调整待训练模型的模型参数之后,进一步提高了文本处理模型的处理结果准确可靠性。
在本申请一实施例中,如图8所示,图8为图7所示实施例中的步骤S710在一示例性实施例中的流程图,根据样本文本对应的关键信息和样本文本中各个词向量的置信度构建待训练模型的第三损失的过程,包括:
S711、将样本文本对应的关键信息输入到待训练模型中,以获得待训练模型针对样本文本的关键信息所输出的处理结果。
由于样本文本对应的关键信息表示对文本处理任务的重要性较高的信息,即仅将对文本处理任务重要的信息输入到待训练模型中,该待训练模型针对该关键信息输出一个处理结果;该处理结果可以是针对文本处理任务的,例如该处理结果可以对应样本文本的分类结果;可以理解的是,针对样本文本的关键信息所输出的处理结果,相对于针对样本文本所输出的任务处理结果更加准确。
S712、根据待训练模型针对样本文本的关键信息所输出的处理结果,以及样本文本的关键信息所对应的期望输出结果,生成关键信息处理损失。
在本申请实施例中,样本文本的关键信息所对应的期望输出结果为样本文本的关键信息的标签,该样本文本的关键信息的标签是预先标记的,例如关键信息所包含的“养殖”和“家禽”的信息,其对应的标签为“畜牧”,根据待训练模型针对样本文本的关键信息所输出的处理结果,例如输出的处理结果为“农业”,则根据“畜牧”和“农业”的差异生成关键信息处理损失。
S713、对样本文本中的各个样本词向量的置信度进行正则化处理得到惩罚项。
在本申请实施例中,对样本文本中的各个样本词向量的置信度进行正则化处理,依次引入额外信息,即惩罚项,以约束模型的复杂度。
可选的,正则化处理可以是计算样本文本中的各个样本词向量的置信度的绝对值之和,旨在各个词的置信度分数尽量低,即大多数的置信度要趋近于0。
S714、根据关键信息处理损失和惩罚项生成第三损失。
在本申请实施例中,对于关键信息处理损失,为关键信息处理损失增加一个惩罚项,生成第三损失,以通过第三损失防止过拟合和提高模型泛化性能。
在本申请一实施例中,如图9所示,图9为图8所示实施例中的步骤S714在一示例性实施例中的流程图,根据关键信息处理损失和惩罚项生成第三损失,包括:
S910、将预设的超参数作为权重值。
在本申请实施例中,预先设置了超参数,将一超参数作为惩罚项的权重值,还可以将另一超参数作为关键信息处理损失的权重值,可选的,关键信息处理损失的权重值为1。
S920、根据权重值对关键信息处理损失和惩罚项进行加权求和得到第三损失。
可选的,将惩罚项的权重值与惩罚项相乘,将相乘得到的乘积与关键信息处理损失的之和作为第三损失。
在本申请实施例中,关键信息处理损失和惩罚项存在一定的对立,但两者的目标是一致的,即最小化期望误差,通过权重值平衡关键信息处理损失与惩罚项之间的关系,得到最优或者较优的解,促使文本处理模型在抽取出的关键信息保留较少,但是非常重要的词的信息。
在本申请一实施例中,如图10所示,图10为图5所示实施例中的步骤S530在一示例性实施例中的流程图,根据样本文本对应的关键信息和样本文本对应的冗余信息,构建待训练模型对应的第一损失,包括:
S531、获取待训练模型针对样本文本所生成的第一全局向量、针对样本文本对应的关键信息所生成的第二全局向量,以及针对样本文本对应的冗余信息所生成的第三全局向量。
在本申请实施例中,将样本文本输入到待训练模型,待训练模型会生成第一全局向量;将样本文本对应的关键信息输入到待训练模型,生成第二全局向量;将样本文本对应的冗余信息输入到待训练模型,生成第三全局向量。
S532、根据第一全局向量和第二全局向量的距离、第三全局向量和第二全局向量的距离、以及第三全局向量和第一全局向量的距离,构建待训练模型对应的第一损失。
在本申请实施例中,通过欧式距离或cosine(余弦)距离算法可以求得第一全局向量和第二全局向量的距离,第三全局向量和第二全局向量的距离、以及第三全局向量和第一全局向量的距离。
如前所述,关键信息是样本文本的子集,因此可拉进第一全局向量和第二全局向量之间的距离,使得文本处理模型可以结合样本文本和关键信息生成准确句子表示;而冗余信息是对文本处理任务的重要性较低的信息,则拉远第三全局向量和第一全局向量的距离,拉远第三全局向量和第二全局向量的距离,从而构建待训练模型对应的第一损失,通过构建第一损失,解耦样本文本中关键信息和冗余信息在空间中的向量表示,使得文本处理模型能够将关键信息与冗余信息分割开,生成更加鲁棒的句子表示,从而实现更加鲁棒的预测。
在本申请一实施例中,如图11所示,图11为图5所示实施例中的步骤S520在一示例性实施例中的流程图,根据样本文本的样本词向量序列,生成样本文本对应的冗余信息的过程,包括:
S521、获取样本文本的各个样本词向量的置信度。
在本申请实施例中,样本文本中的各个样本词向量均对应有一个置信度。具体地,比如可以基于样本文本中的样本词向量序列,获得样本词向量序列中各个样本词向量的置信度,如可以将样本文本中的样本词向量序列输入到以sigmoid作为激活函数的神经网络层,获得各个样本词向量的置信度。
S522、根据样本文本的各个样本词向量的置信度与样本文本中各个样本词向量,生成样本文本中各个样本词向量所对应的冗余词向量。
根据样本词向量的置信度可以确定出样本词向量的语义对文本处理任务不重要的程度,进而基于该不重要的程度可以生成样本词向量对应的冗余词向量。在一示例中,当样本词向量的置信度为0到1的分数时,可以根据数值1与样本文本的各个样本词向量的置信度的差值,以及样本文本中各个词向量,生成样本文本中各个样本词向量所对应的冗余词向量,例如将数据1与某个样本词向量的置信度的差值与该样本词向量进行按位乘,得到该样本词向量的冗余词向量。
在另一示例中,当样本词向量的置信度为0或1时,则将置信度为0的样本词向量作为冗余词向量。
S523、将各个样本词向量所对应的冗余词向量所生成的序列作为冗余信息。
该冗余信息是样本文本的词向量中剔除关键信息后剩下的信息。例如样本文本中“养殖”的词向量的置信度为0.8,则“养殖”词向量所对应的冗余词向量“家禽”的词向量的置信度为0.6,“家禽”词向量所对应的冗余词向量/>“农户”的词向量的置信度为0.2,则“农户”词向量所对应的冗余词向量/>则冗余信息为/>
在本申请实施例中,根据样本词向量的置信度可以确定出样本词向量的语义对文本处理任务不重要的程度,进而基于该不重要的程度可以生成样本词向量对应的冗余词向量,进而能够得到对文本处理任务无效的冗余信息,以便于后续与关键信息进行区分,构建第一损失。
以下以一个具体的应用场景对本申请实施例的技术方案的实现细节进行详细阐述:
如图12所示,图12为相关技术中提供的分类模型的微调训练框架,该微调训练框架包括预训练模型以及在预训练模型上的分类器,相关的微调方法仅利用下游任务的标注数据对预训练模型及新添加的分类器的参数进行优化更新,存在现实问题。首先,预训练模型的预训练阶段的优化目标,往往是与下游任务脱离的;由于预训练模型的“坍缩”现象,使得预训练模型对所有文本都倾向于编码到一个较小的空间区域,大多数的句子对都具有较高的相似度分数,即使是语义上完全无关的句子对也没有了区分性,对下游任务的目标(例如分类)存在挑战。其次,不同的下游任务所需要关注的文本信息不同;比如,情感分类任务更多的关注于输入文本中的情感词(形容词、副词),而新闻分类任务更多的关注于输入文本中的实词信息(名词);但是,下游任务的已标注数据往往是有限的。与此同时,预训练模型的参数规模已经到了百亿、千亿的级别,简单的微调策略和少量的标注数据,导致了无效的迁移,并造成模型在下游任务上的性能表现较差,导致微调过后仅学习到了次优的、缺乏泛化性和鲁棒性的模型。
为了解决上述问题,本申请的一实施例中提供一种模型的微调训练框架,本申请中称为TDT(话题检测与跟随技术,Topic Detection and Tracking)训练框架,如图13所示,在原始的微调训练框架中引入两个新的内容,词级别的知识抽取模型和基于任务知识表示解耦的第一损失。如下图13左半部分所示,词级别的知识抽取模型,其被督促为输入文本的每个词进行打分,作为这个词的语义对当前下游分类任务进行识别的重要程度,保留分数高的词的信息,并对分数低的词进行扰动,督促知识抽取模型必须尽可能找出对下游任务的判别最重要的信息;然后设计了一个第一损失,使模型对文本的编码过程中,能对文本处理任务的重要性较高的信息和文本处理任务的重要性较低的信息在空间中的表示进行解耦,生成更加鲁棒的文本表示,并更好地服务于下游任务。
基于图13所示的微调训练框架,则本申请实施例的中待训练模型包括预训练模型、词级别的知识抽取模型和分类器,其中预训练模型还包括一词向量层;通过对待训练模型进行训练得到用于文本分类的文本处理模型。其中待训练模型的训练过程包括:
获取训练样本,对于输入的训练样例<X,y>,其中,X={x1,…,xi,…,xn}是输入的样本文本序列,xi表示一个词,y是分类任务中该样本文本序列所对应的分类标签。通过预训练模型中的词向量层,得到输入的样本文本序列的每个词xi进行映射得到的词向量表示ei,得到词向量序列E={e1,…,ei,…,en}。
在本申请的知识抽取模型是一个单层的以sigmoid作为激活函数的神经网络层,通过sigmoid函数为每个词生成一个0到1的分数,作为置信度分数,表示这个词对于预测出分类标签y的重要程度。其中,置信度分数的计算过程为:
ci=σ(Wei+b)
其中,W和b为知识抽取模型的可训练参数。接下来,基于这个置信度分数,对分数高的词的信息进行保留,对分数低的词加入扰动(即去除文本序列中重要性较低的语义信息),从而获得一个新的词向量序列 将其为包含分类任务相关的“关键词”的序列。可选的,抽取的过程为:
其中,μ0代表一个扰动项,可以是一个0向量,也可以是高斯分布中随机采样的一个向量。⊙表示按位乘。为了使得知识抽取模型能够高效的抽取出对下游任务的判断最重要有效的信息,可采用最少的资源来完成目标,即在分类场景中,利用知识抽取模型,最低程度地保留文本序列中的关键信息来完成下游分类任务的目标。
具体的,将新的词向量序列送入预训练模型,得到关键信息的全局向量表示h+,并将全局向量表示h+输入到一个基于神经网络的分类器,获得分类的预测概率分布P(y|h+)。根据预测概率分布P(y|h+)和各个词向量的置信度得到知识抽取模型的第三损失:
Lc=-log P(y|h+)+γ||C||2
其中,C={ci}为输入文本的词的置信度向量,||.||2表示L2-norm正则。第三损失的第一项为传统的分类任务的交叉熵损失,即抽取出来的向量序列做下游分类任务;当然当下游任务不同时,第三损失的第一项则为对应下游任务的损失,如下游任务为知识问答,则对应知识问答任务的损失;第三损失的第二项作为惩罚项,旨在各个词的置信度分数尽量低,即大多数的ci要趋近于0,促使知识抽取模型在抽取出的关键信息序列中保留较少,但是非常重要的词的信息,以满足用最少的资源来完成目标的思想。两项之间通过超参数γ进行平衡,可选的,将γ设置为1e-4。
由于预训练模型的参数量较大,而下游分类任务可利用的标注数据较少,容易造成模型过拟合(over-fitting)的问题。如图14中的例子,以新闻分类为例,模型在相关技术的微调过程中,由于训练集中“苹果”这个词大量出现在“科技”类别的训练样例中,模型“偷懒”地总结为,只要出现“苹果”这个词的文本,都被分类为“科技”类的新闻,因此在对模型进行测试时,模型将任何带“苹果”的文本都预测为“科技”类别,进而打上“科技”的新闻标签;然而,“苹果”除了科技公司、苹果手机的语义以外,还有水果等其他的含义,带“苹果”的文本除了是“科技”类别,还可以是其他类别,如图14中的测试例子,“干旱地区苹果总产量下降,优质苹果价格上涨”中的“苹果”为水果的含义,而结合其他词语(如“干旱地区”、“价格”)的语义,该句子实际类别为“金融”类别,正确的新闻标签为“金融”;“苹果公司员工买了一栋新大厦”中“苹果”为科技公司的语义,而结合其他词语(如“买”、“大厦”)的语义,该句子实际类别为“房产”类别,正确的新闻标签为“房产”。为了缓解相关技术中模型在微调过程中的过拟合的现象,使得模型具备鲁棒性,本申请进一步提出了基于任务型知识表示解耦的第一损失。
具体的,将知识抽取模型抽取得到的关键信息序列作为输入的样本文本序列的正样本,并利用差集的概念,构建一个负样本。其中,负样本的构建过程为:
在这种构建方式下,负样本的词向量序列即为输入的样本文本序列中,剔除关键信息剩下的冗余信息。将负样本的词向量序列送入预训练模型,得到负样本的全局向量表示h-。将样本文本序列送入预训练模型,得到样本文本的向量表示h。
给定样本文本的向量表示h,关键信息的向量表示h+和冗余信息的向量表示h-,采用基于max-margin的对比损失函数,拉近样本文本与关键信息的表示,拉远冗余信息与另外两种向量表示的距离;进而构建得到的第一损失为:
LR=max(m+d(h,h+)-d(h,h-)-d(h+,h-),0)
其中,m为max-margin损失函数的超参数,m的取值范围为[0,2,4],针对不同的任务,根据开发集搜寻最佳的m。d(.)表示两个向量表示的距离,这里可以是欧式距离、cosine距离等等。通过这种方式,可以解耦样本文本中与关键信息和冗余信息在空间中的向量表示,使得模型能够将与分类任务的重要性较高的信息和与分类任务的重要性较低的信息分割开,生成更加鲁棒的句子表示,从而实现更加鲁棒的预测。
将第一损失、知识抽取模型的第三损失和传统的下游分类任务的损失函数(交叉熵损失函数)相加共同组成待训练模型的总损失:
L=-log p(y|h)+LC+LR
最后基于待训练模型的总损失对待训练模型的模型参数进行调整,以得到用于文本分类的文本处理模型。
在本实施例中,当用于文本分类的文本处理模型后,可以根据文本处理模型对待分类文本进行分类。将待分类文本输入到文本处理模型中,得到分类结果。如下表1所示,表1为本申请实施例提的文本处理模块与相关技术中文本分类模型在英文的自然语言阅读理解任务公开数据中的对比结果。
表1
其中,GLUE:一个多任务的自然语言理解基准和分析平台,共有九个任务,分别是CoLA(句子语言性判断)、SST-2(情感分析)、MRPC、STS-B(语义相似)、QQP(语义文本相似性/问题对是否等价/释义识别)、MNLI(自然语言推断)、QNLI(句子是否回答了问题)、RTE(自然语言推断,识别蕴涵)、WNLI(自然语言推断,识别蕴涵);其中,XLNET(XLNet是一种通用的自回归预训练的模型),ELECRTA(Efficiently Learning an Encoder that ClassifiesToken Replacements Accurately),DeBERTa(Decoding-enhanced BERT withDisentangled Attention),ALBERT(A Lite BERT For Self-Supervised Learning OfLanguage Representations)为语言类的预训练模型。
由表1可知,本申请提供的模型在这个九个任务的分类准确度的平均数均高于相关技术中的提供的模型。
如下表2所示,表2为本申请实施例的基于图13所示微调框架(TDT)提供的模型与相关技术中的文本分类模型在中文的自然语言阅读理解任务公开数据中的对比结果。
表2
其中,BERT-wwm-base、MacBERT-large和Roberta-wwm-large是三种不同的语言类的预训练模型,IFLYTEK为长文本分类数据集,CSL为论文关键词识别数据集,TNEWS为中文新闻(短文本)分类数据集,AFQMC为语义相似度数据集,OCNLI为自然语言推理任务数据集。
由表2可知,针对不同任务,不管基于什么模型作为微调框架中的基础的预训练模型,本申请提供的微调框架所训练的模型针对各个任务的分类准度的平均数均高于相关技术中的提供的模型。
本申请实施例提供的方法,从给定输入的文本中,抽取出对下游分类任务最重要的关键信息,即快速探寻输入文本中哪些词对于当前下游分类任务的判别更重要,作为分类任务特定的关键信息;将除去关键信息的剩余文本作为分类任务无关的冗余信息;随后,根据关键信息和冗余信息构建对比损失,通过第一损失解耦对分类任务的重要性较高的信息和对分类任务的重要性较低的信息在空间中的文本表示;使得训练后的模型可以将文本编码成为更加鲁棒的、有区分性的文本表示,以获得更鲁棒的模型以高效地服务于分类任务。
下面对文本处理过程适用的场景进行描述。
文本分类场景:
当使用对象需要获知某个文本的分类类型时,可以将待分类文本上传至终端,由终端生成待分类文本的词向量序列,进而获得各个词向量的置信度,并生成待分类文本对应的与类别相关的关键信息,基于关键信息生成该待分类文本的分类结果,将分类结果展示给使用对象。
知识问答场景:
使用对象通过语音输入一问题,终端基于该问题生成一个问题文本,并将问题文本发送给服务器,服务器通过用于知识问答的文本处理模型对问题文本进行处理,该文本处理模型用于问题文本的词向量序列,获得各个词向量的置信度,根据各个词向量的置信度和词向量序列,生成问答文本对应的关键信息,基于该关键信息从知识库中查找对应的答案,将答案发送给终端,以通过终端语音播报给使用对象。
情感分类场景:
服务器接收到通过终端的购物网站应用程序上传的一网络评价,通过用于情感分类的文本处理模型,生成该网络评价的情感分类场景,以判断该网络评价对应的使用对象的态度是正面的还是负面的,以便于基于网络评价进行对应的处理(如是负面的,则联系使用对象进行沟通)。
可控文本生成场景:
终端从网络上获取一故事简介,将该故事简介输入到文本处理模型中,通过该文本处理模型对故事简介进行处理,获取该故事简介的关键信息,进而基于关键信息生成故事情节,以产生可控和创造性的新故事。
文档摘要场景:
服务器通过内容平台应用程序接收到一篇新闻正文,生成该新闻正文的词向量序列,并基于词向量序列获得词向量的置信度,进而生成该新闻正文的关键信息,基于该关键信息从新闻正文中确定出总结性摘要。
下面介绍本申请的装置实施例,可以用于执行本申请上述实施例中的文本处理方法。对于本申请装置实施例中未披露的细节,请参照本申请上述的文本处理方法的实施例。
本申请实施例提供了一种文本处理装置,如图15所示,包括向量生成模块1510、置信度获得模块1520、信息生成模块1530和处理模块1540;
向量生成模块1510,用于生成待处理文本的词向量序列,词向量序列表示待处理文本中包含的各个词所对应的词向量;
置信度获得模块1520,用于基于待处理文本的词向量序列,获得词向量序列中的各个词向量的置信度;置信度表示词向量对应的语义对文本处理任务的重要度;
信息生成模块1530,用于根据各个词向量的置信度和词向量序列,生成待处理文本对应的关键信息;
处理模块1540,用于基于待处理文本对应的关键信息,生成待处理文本针对文本处理任务的处理结果。
在本申请的一个实施例中,基于前述方案,信息生成模块1530具体用于基于各个词向量的置信度与各个词对应的词向量,计算得到各个词的语义信息保留度;对各个词向量的置信度进行扰动处理,得到各个词的扰动度;根据各个词的语义信息保留度和各个词的扰动度,计算各个关键词对应的词向量,将多个关键词分别对应的词向量所生成的序列作为关键信息。
在本申请的一个实施例中,基于前述方案,基于以下公式,根据各个词的语义信息保留度和各个词的扰动度,计算各个关键词对应的词向量:
其中,为第i个关键词对应的词向量,ei为第i个词的词向量,ci为第i个词的置信度,ci⊙ei为第i个词的语义信息保留度,μ0为扰动项,(1-ci)⊙μ0为第i个词的扰动度。
在本申请的一个实施例中,基于前述方案,通过文本处理模型获得词向量序列中的各个词向量的置信度,并根据各个词向量的置信度和词向量序列,生成待处理文本对应的关键信息,以及基于关键信息,生成待处理文本针对文本处理任务的处理结果;装置还包括训练模块,用于通过样本文本对待训练模型进行训练,以生成文本处理模型。
在本申请的一个实施例中,基于前述方案,训练模块包括输入单元、生成单元、构建单元和调整单元;输入单元用于将样本文本的样本词向量序列输入到待训练模型中,以获得待训练模型生成的样本文本对应的关键信息,待训练模型用于获得样本词向量序列中的各个样本词向量的置信度,并根据各个样本词向量的置信度和样本词向量序列,生成样本文本对应的关键信息;生成单元用于根据样本文本的样本词向量序列,生成样本文本对应的冗余信息;构建单元用于根据样本文本对应的关键信息和样本文本对应的冗余信息,构建待训练模型对应的第一损失;调整单元用于根据第一损失调整待训练模型的模型参数,以得到文本处理模型。
在本申请的一个实施例中,基于前述方案,构建单元还用于将样本文本输入到待训练模型中,以获得待训练模型针对样本文本输出的与文本处理任务相对应的任务处理结果;根据任务处理结果和样本文本的期望输出结果,构建待训练模型的第二损失;调整单元具体用于根据第一损失和第二损失调整待训练模型的模型参数,以得到文本处理模型。
在本申请的一个实施例中,基于前述方案,构建单元还用于根据样本文本对应的关键信息和样本文本中各个样本词向量的置信度构建待训练模型的第三损失;调整单元进一步用于根据第一损失、第二损失和第三损失,生成待训练模型的总损失;根据总损失调整待训练模型的模型参数,以得到文本处理模型。
在本申请的一个实施例中,基于前述方案,构建单元进一步用于将样本文本对应的关键信息输入到待训练模型中,以获得待训练模型针对样本文本的关键信息所输出的处理结果;根据待训练模型针对样本文本的关键信息所输出的处理结果,以及样本文本的关键信息所对应的期望输出结果,生成关键信息处理损失;对样本文本中各个样本词向量的置信度进行正则化处理得到惩罚项;根据关键信息处理损失和惩罚项生成第三损失。在本申请的一个实施例中,基于前述方案,构建单元进一步用于将预设的超参数作为惩罚项的权重值;根据权重值对关键信息处理损失和惩罚项进行加权求和得到第三损失。
在本申请的一个实施例中,基于前述方案,构建单元进一步用于获取待训练模型针对样本文本所生成的第一全局向量、针对样本文本对应的关键信息所生成的第二全局向量,以及针对样本文本对应的冗余信息所生成的第三全局向量;根据第一全局向量和第二全局向量的距离、第三全局向量和第二全局向量的距离、以及第三全局向量和第一全局向量的距离,构建待训练模型对应的第一损失。
在本申请的一个实施例中,基于前述方案,生成单元进一步还用于获取样本文本中各个样本词向量的置信度;根据样本文本中各个样本词向量的置信度与样本文本中各个样本词向量,生成样本文本中各个样本词向量所对应的冗余词向量;将各个样本词向量所对应的冗余词向量所生成的序列作为冗余信息。
在本申请的一个实施例中,基于前述方案,置信度获得模块1520用于将待处理文本的词向量序列输入到以S型生长曲线作为激活函数的神经网络层,以获得词向量序列中的各个词向量的置信度。
本申请实施例提供了一种模型训练装置,如图16所示,该装置包括:
获取模块1610,用于获取样本文本,将样本文本的样本词向量序列输入到待训练模型中,以获得待训练模型生成的样本文本对应的关键信息,待训练模型用于获得样本词向量序列中的各个样本词向量的置信度,并根据各个样本词向量的置信度和样本词向量序列,生成样本文本对应的关键信息;
冗余信息生成模块1620,用于根据样本文本的样本词向量序列,生成样本文本对应的冗余信息;
损失构建模块1630,用于根据样本文本对应的关键信息和样本文本对应的冗余信息,构建待训练模型对应的第一损失;
模型调整模块1640,用于根据第一损失调整待训练模型的模型参数,以得到文本处理模型。
需要说明的是,上述实施例所提供的装置与上述实施例所提供的方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
本申请的实施例还提供了一种电子设备,包括一个或多个处理器,以及存储装置,其中,存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得所述电子设备实现如上所述的账号类型识别方法。
图17示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图17示出的电子设备的计算机系统1700仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制,其中,该电子设备可以是终端或服务器。
如图17所示,计算机系统1700包括处理器(Central Processing Unit,CPU)1701,其可以根据存储在只读存储器(Read-Only Memory,ROM)1702中的程序或者从储存部分1708加载到随机访问存储器(Random Access Memory,RAM)1703中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 1703中,还存储有系统操作所需的各种程序和数据。CPU 1701、ROM 1702以及RAM 1703通过总线1704彼此相连。输入/输出(Input/Output,I/O)接口1705也连接至总线1704。
在一些实施例中,以下部件连接至I/O接口1705:包括键盘、鼠标等的输入部分1706;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid CrystalDisplay,LCD)等以及扬声器等的输出部分1707;包括硬盘等的储存部分1708;以及包括诸如LAN(Local Area Network,局域网)卡、调制解调器等的网络接口卡的通信部分1709。通信部分1709经由诸如因特网的网络执行通信处理。驱动器1710也根据需要连接至I/O接口1705。可拆卸介质1711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1710上,以便于从其上读出的计算机程序根据需要被安装入储存部分1708。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1709从网络上被下载和安装,和/或从可拆卸介质1711被安装。在该计算机程序被处理器(CPU)1701执行时,执行本申请的系统中限定的各种功能。
可以理解的是,在本申请的具体实施方式中,涉及到使用对象账号相关的使用对象数据,当本申请以上实施例运用到具体产品或技术中时,需要获得使用对象许可或者同意,且相关的使用对象数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机程序的组合来实现。
描述于本申请实施例中所涉及到的单元或者模块可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元或者模块也可以设置在处理器中。其中,这些单元或者模块的名称在某种情况下并不构成对该单元或者模块本身的限定。
本申请的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前所述所述的方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
本申请的另一方面还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该电子设备执行上述各个实施例中提供如前所述所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
上述内容,仅为本申请的较佳示例性实施例,并非用于限制本申请的实施方案,本领域普通技术人员根据本申请的主要构思和精神,可以十分方便地进行相应的变通或修改,故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims (15)

1.一种文本处理方法,其特征在于,包括:
生成待处理文本的词向量序列,所述词向量序列表示所述待处理文本中包含的各个词所对应的词向量;
通过文本处理模型获得所述词向量序列中的各个词向量的置信度;所述置信度表示词向量对应的语义对文本处理任务的重要度;根据所述各个词向量的置信度和所述词向量序列,生成所述待处理文本对应的关键信息;
基于所述待处理文本对应的关键信息,生成所述待处理文本针对所述文本处理任务的处理结果;
所述方法还包括:
将样本文本的样本词向量序列输入到待训练模型中,以获得所述待训练模型生成的所述样本文本对应的关键信息,所述待训练模型用于获得所述样本词向量序列中的各个样本词向量的置信度,并根据所述各个样本词向量的置信度和所述样本词向量序列,生成所述样本文本对应的关键信息;
根据所述各个样本词向量的置信度与所述各个样本词向量,生成所述各个样本词向量所对应的冗余词向量;将所述各个样本词向量所对应的冗余词向量所生成的序列作为冗余信息;
根据所述样本文本对应的关键信息和所述样本文本对应的冗余信息,构建所述待训练模型对应的第一损失;
根据所述第一损失调整所述待训练模型的模型参数,以得到所述文本处理模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述各个词向量的置信度和所述词向量序列,生成所述待处理文本对应的关键信息,包括:
基于所述各个词向量的置信度与所述各个词对应的词向量,计算得到各个词的语义信息保留度;
对所述各个词向量的置信度进行扰动处理,得到所述各个词的扰动度;
根据所述各个词的语义信息保留度和所述各个词的扰动度,计算各个关键词对应的词向量,将多个关键词分别对应的词向量所生成的序列作为所述关键信息。
3.根据权利要求2所述的方法,其特征在于,基于以下公式,根据所述各个词的语义信息保留度和所述各个词的扰动度,计算各个关键词对应的词向量:
其中,所述为第i个关键词对应的词向量,所述ei为第i个词的词向量,ci为第i个词的置信度,所述ci⊙ei为第i个词的语义信息保留度,μ0为扰动项,(1-ci)⊙μ0为第i个词的扰动度。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一损失调整所述待训练模型的模型参数,以得到所述文本处理模型,包括:
将所述样本文本输入到所述待训练模型中,以获得所述待训练模型针对所述样本文本输出的与所述文本处理任务相对应的任务处理结果;
根据所述任务处理结果和所述样本文本的期望输出结果,构建所述待训练模型的第二损失;
根据所述第一损失和所述第二损失调整所述待训练模型的模型参数,以得到所述文本处理模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一损失和所述第二损失调整所述待训练模型的模型参数,以得到所述文本处理模型,包括:
根据所述样本文本对应的关键信息和所述样本文本中各个样本词向量的置信度构建所述待训练模型的第三损失;
根据所述第一损失、所述第二损失和所述第三损失,生成所述待训练模型的总损失;
根据所述总损失调整所述待训练模型的模型参数,以得到所述文本处理模型。
6.根据权利要求5所述的方法,其特征在于,所述根据所述样本文本对应的关键信息和所述样本文本中各个样本词向量的置信度构建所述待训练模型的第三损失,包括:
将所述样本文本对应的关键信息输入到所述待训练模型中,以获得所述待训练模型针对所述样本文本的关键信息所输出的处理结果;
根据所述待训练模型针对所述样本文本的关键信息所输出的处理结果,以及所述样本文本的关键信息所对应的期望输出结果,生成关键信息处理损失;
对所述样本文本中各个样本词向量的置信度进行正则化处理得到惩罚项;
根据所述关键信息处理损失和所述惩罚项生成所述第三损失。
7.根据权利要求6所述的方法,其特征在于,所述根据所述关键信息处理损失和所述惩罚项生成所述第三损失,包括:
将预设的超参数作为惩罚项的权重值;
根据所述权重值对所述关键信息处理损失和所述惩罚项进行加权求和得到所述第三损失。
8.根据权利要求1所述的方法,其特征在于,所述根据所述样本文本对应的关键信息和所述样本文本对应的冗余信息,构建所述待训练模型对应的第一损失,包括:
获取所述待训练模型针对所述样本文本所生成的第一全局向量、针对所述样本文本对应的关键信息所生成的第二全局向量,以及针对所述样本文本对应的冗余信息所生成的第三全局向量;
根据所述第一全局向量和所述第二全局向量的距离、所述第三全局向量和所述第二全局向量的距离、以及所述第三全局向量和所述第一全局向量的距离,构建所述待训练模型对应的第一损失。
9.根据权利要求1至8中任一项所述的方法,其特征在于,所述基于所述待处理文本的词向量序列,获得所述词向量序列中的各个词向量的置信度包括:
将所述待处理文本的词向量序列输入到以S型生长曲线作为激活函数的神经网络层,以获得所述词向量序列中的各个词向量的置信度。
10.一种模型训练方法,其特征在于,包括:
获取样本文本,将所述样本文本的样本词向量序列输入到待训练模型中,以获得所述待训练模型生成的所述样本文本对应的关键信息,所述待训练模型用于获得所述样本词向量序列中的各个样本词向量的置信度,并根据所述各个样本词向量的置信度和所述样本词向量序列,生成所述样本文本对应的关键信息;
根据所述各个样本词向量的置信度与所述各个样本词向量,生成所述各个样本词向量所对应的冗余词向量;将所述各个样本词向量所对应的冗余词向量所生成的序列作为冗余信息;
根据所述样本文本对应的关键信息和所述样本文本对应的冗余信息,构建所述待训练模型对应的第一损失;
根据所述第一损失调整所述待训练模型的模型参数,以得到文本处理模型。
11.一种文本处理装置,其特征在于,包括:
向量生成模块,用于生成待处理文本的词向量序列,所述词向量序列表示所述待处理文本中包含的各个词所对应的词向量;
置信度获得模块,通过文本处理模型获得所述词向量序列中的各个词向量的置信度;所述置信度表示词向量对应的语义对文本处理任务的重要度;根据所述各个词向量的置信度和所述词向量序列,生成所述待处理文本对应的关键信息;基于所述待处理文本对应的关键信息,生成所述待处理文本针对所述文本处理任务的处理结果;
装置还包括训练模块,用于将样本文本的样本词向量序列输入到待训练模型中,以获得所述待训练模型生成的所述样本文本对应的关键信息,所述待训练模型用于获得所述样本词向量序列中的各个样本词向量的置信度,并根据所述各个样本词向量的置信度和所述样本词向量序列,生成所述样本文本对应的关键信息;根据所述各个样本词向量的置信度与所述各个样本词向量,生成所述各个样本词向量所对应的冗余词向量;将所述各个样本词向量所对应的冗余词向量所生成的序列作为冗余信息;根据所述样本文本对应的关键信息和所述样本文本对应的冗余信息,构建所述待训练模型对应的第一损失;根据所述第一损失调整所述待训练模型的模型参数,以得到所述文本处理模型。
12.一种模型训练装置,其特征在于,包括:
获取模块,用于获取样本文本,将样本文本的样本词向量序列输入到待训练模型中,以获得待训练模型生成的样本文本对应的关键信息,待训练模型用于获得样本词向量序列中的各个样本词向量的置信度,并根据各个样本词向量的置信度和样本词向量序列,生成样本文本对应的关键信息;
冗余信息生成模块,用于根据所述各个样本词向量的置信度与所述各个样本词向量,生成所述各个样本词向量所对应的冗余词向量;将所述各个样本词向量所对应的冗余词向量所生成的序列作为冗余信息;
损失构建模块,用于根据样本文本对应的关键信息和样本文本对应的冗余信息,构建待训练模型对应的第一损失;
模型调整模块,用于根据第一损失调整待训练模型的模型参数,以得到文本处理模型。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备执行权利要求1至10任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,当所述计算机程序被电子设备的处理器执行时,使电子设备执行权利要求1至10中的任一项所述的方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,电子设备的处理器从所述计算机可读存储介质读取并执行所述计算机程序,使电子设备执行权利要求1至10中的任一项所述的方法。
CN202210339912.6A 2022-04-01 2022-04-01 文本处理方法、装置、设备、存储介质及产品 Active CN115114910B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210339912.6A CN115114910B (zh) 2022-04-01 2022-04-01 文本处理方法、装置、设备、存储介质及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210339912.6A CN115114910B (zh) 2022-04-01 2022-04-01 文本处理方法、装置、设备、存储介质及产品

Publications (2)

Publication Number Publication Date
CN115114910A CN115114910A (zh) 2022-09-27
CN115114910B true CN115114910B (zh) 2024-04-02

Family

ID=83325353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210339912.6A Active CN115114910B (zh) 2022-04-01 2022-04-01 文本处理方法、装置、设备、存储介质及产品

Country Status (1)

Country Link
CN (1) CN115114910B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740167A (zh) * 2019-02-01 2019-05-10 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN112364641A (zh) * 2020-11-12 2021-02-12 北京中科闻歌科技股份有限公司 一种面向文本审核的中文对抗样本生成方法及装置
CN112732896A (zh) * 2020-12-31 2021-04-30 天津开心生活科技有限公司 目标信息显示方法、装置、电子设备和介质
CN113392210A (zh) * 2020-11-30 2021-09-14 腾讯科技(深圳)有限公司 文本分类方法、装置、电子设备及存储介质
CN113591998A (zh) * 2021-08-03 2021-11-02 上海浦东发展银行股份有限公司 分类模型的训练和使用方法、装置、设备以及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150095017A1 (en) * 2013-09-27 2015-04-02 Google Inc. System and method for learning word embeddings using neural language models

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740167A (zh) * 2019-02-01 2019-05-10 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN112364641A (zh) * 2020-11-12 2021-02-12 北京中科闻歌科技股份有限公司 一种面向文本审核的中文对抗样本生成方法及装置
CN113392210A (zh) * 2020-11-30 2021-09-14 腾讯科技(深圳)有限公司 文本分类方法、装置、电子设备及存储介质
CN112732896A (zh) * 2020-12-31 2021-04-30 天津开心生活科技有限公司 目标信息显示方法、装置、电子设备和介质
CN113591998A (zh) * 2021-08-03 2021-11-02 上海浦东发展银行股份有限公司 分类模型的训练和使用方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN115114910A (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
US11501182B2 (en) Method and apparatus for generating model
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN111832290A (zh) 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质
CN111259647A (zh) 基于人工智能的问答文本匹配方法、装置、介质及电子设备
WO2023137911A1 (zh) 基于小样本语料的意图分类方法、装置及计算机设备
CN113761190A (zh) 文本识别方法、装置、计算机可读介质及电子设备
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN118261163B (zh) 基于transformer结构的智能评价报告生成方法及系统
CN116150306A (zh) 问答机器人的训练方法、问答方法及装置
CN114239730A (zh) 一种基于近邻排序关系的跨模态检索方法
CN116757195B (zh) 一种基于提示学习的隐性情感识别方法
CN113705207A (zh) 语法错误识别方法及装置
CN112926341A (zh) 文本数据处理方法、装置
CN113407776A (zh) 标签推荐方法、装置、标签推荐模型的训练方法和介质
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
CN116719915A (zh) 智能问答方法、装置、设备及存储介质
CN115114910B (zh) 文本处理方法、装置、设备、存储介质及产品
CN114491076B (zh) 基于领域知识图谱的数据增强方法、装置、设备及介质
CN112732917B (zh) 一种实体链指结果的确定方法和装置
CN114898426A (zh) 一种同义标签聚合方法、装置、设备及存储介质
CN113569091A (zh) 视频数据的处理方法、装置
CN114912009A (zh) 用户画像的生成方法、装置、电子设备和计算机程序介质
Kulkarni et al. Deep Reinforcement-Based Conversational AI Agent in Healthcare System
TS et al. Fake news detection on social media using Adaptive Optimization based Deep Learning Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant