CN115114904B - 语言模型的优化方法、装置以及电子设备 - Google Patents
语言模型的优化方法、装置以及电子设备 Download PDFInfo
- Publication number
- CN115114904B CN115114904B CN202210551564.9A CN202210551564A CN115114904B CN 115114904 B CN115114904 B CN 115114904B CN 202210551564 A CN202210551564 A CN 202210551564A CN 115114904 B CN115114904 B CN 115114904B
- Authority
- CN
- China
- Prior art keywords
- word
- standard
- detected
- probability
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 99
- 238000005457 optimization Methods 0.000 title abstract description 17
- 238000012549 training Methods 0.000 claims description 164
- 238000012937 correction Methods 0.000 claims description 64
- 238000003860 storage Methods 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 27
- 238000009826 distribution Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 description 33
- 238000001514 detection method Methods 0.000 description 24
- 238000005516 engineering process Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 17
- 238000012545 processing Methods 0.000 description 16
- 238000013473 artificial intelligence Methods 0.000 description 10
- 238000007726 management method Methods 0.000 description 8
- 230000000873 masking effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000011478 gradient descent method Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 239000003205 fragrance Substances 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 210000000988 bone and bone Anatomy 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- WCXDHFDTOYPNIE-UHFFFAOYSA-N acetamiprid Chemical compound N#CN=C(C)N(C)CC1=CC=C(Cl)N=C1 WCXDHFDTOYPNIE-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供了一种语言模型的优化方法、装置以及电子设备,本申请实施例涉及模型的优化技术领域中的语言模型的优化技术领域,本申请实施例通过先校验预训练语言模型针对待检测错别字的检测与纠正的能力是否足够,并在该预训练语言模型针对该待检测错别字的检测与纠正的能力不足的情况下,利用该待检测错别字作为该预训练语言模型的优化样本对该预训练语言模型进行优化,能够赋能该预训练语言模型“吃一堑,长一智”的能力,进而提升该预训练语言模型针对错别字的检测性能和纠正性能。
Description
技术领域
本申请实施例涉及模型的优化技术领域中的语言模型的优化技术领域,并且更具体地,涉及语言模型的优化方法、装置以及电子设备。
背景技术
错别字的检测和纠正技术指对错别字进行自动检测或自动纠正的技术。
截止目前,可利用训练好的语言模型对错别字进行自动检测或自动纠正,例如,可利用基于转换的双向编码器(Bidirectional Encoder Representation fromTransformers,BERT)等通用的预训练语言模型对错别字进行自动检测或自动纠正。
但是,利用通用的预训练语言模型能够对英文语句中的错别字进行自动检测或自动纠正,尤其是拼写错误的错别字。而对于中文语句中的错别字的自动检测和自动纠正,由于通用的预训练语言模型的预训练策略为遮蔽训练策略以及其所使用的预训练语料为通用语料,导致通用的预训练语言模型在进行错别字的检测和纠正时会极易倾向于预测常见但不合适的字作为语言模型输出结果,而中文语句中的错别字大多是由音近或形近的混淆字误用所造成的,故而通用的预训练语言模型在中文语句中的错别字检测与纠正任务中往往不能获得最优性能,存在较大的提升空间。
因此,本领域亟需对用于错别字检测或纠正的通用的预训练语言模型进行优化训练,以提升通用的预训练语言模型针对错别字的检测性能和纠正性能。
发明内容
本申请实施例提供了一种语言模型的优化方法、装置以及电子设备,能够提升预训练语言模型针对错别字的检测性能和纠正性能。
第一方面,本申请实施例提供了一种语言模型的优化方法,包括:
获取待检测语句中的待检测错别字、该待检测错别字的上下文、以及该待检测错别字对应的目标标准字;
基于该待检测错别字的上下文,利用预训练语言模型对该待检测错别字对应的标准字进行预测,以获取该待检测错别字的预测结果;其中,该预测结果包括M个预测标准字中的每一个预测标准字作为该待检测错别字对应的标准字的概率;该M个预测标准字包括该目标标准字,M为正整数;
基于该M个预测标准字中的每一个预测标准字作为该待检测错别字对应的标准字的概率和该目标标准字,确定是否对该预测结果进行错误纠正;
若确定对该预测结果进行错误纠正,则获取该M个预测标准字中的且作为该待检测错别字的标准字的概率排在前K位的K个预测标准字;K为正整数;
基于该目标标准字作为该待检测错别字对应的标准字的概率和该K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率,计算该预训练语言模型的概率损失;
基于该概率损失,对该预训练语言模型进行优化。
第二方面,本申请提供了一种语言模型的优化装置,包括:
第一获取单元,用于获取待检测语句中的待检测错别字、该待检测错别字的上下文、以及该待检测错别字对应的目标标准字;
预测单元,用于基于该待检测错别字的上下文,利用预训练语言模型对该待检测错别字对应的标准字进行预测,以获取该待检测错别字的预测结果;其中,该预测结果包括M个预测标准字中的每一个预测标准字作为该待检测错别字对应的标准字的概率;该M个预测标准字包括该目标标准字,M为正整数;
确定单元,用于基于该M个预测标准字中的每一个预测标准字作为该待检测错别字对应的标准字的概率和该目标标准字,确定是否对该预测结果进行错误纠正;
第二获取单元,用于若确定对该预测结果进行错误纠正,则获取该M个预测标准字中的且作为该待检测错别字的标准字的概率排在前K位的K个预测标准字;K为正整数;
计算单元,用于基于该目标标准字作为该待检测错别字对应的标准字的概率和该K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率,计算该预训练语言模型的概率损失;
优化单元,用于基于该概率损失,对该预训练语言模型进行优化。
第三方面,本申请提供了一种电子设备,包括处理器和存储器。该存储器用于存储计算机程序,该处理器用于调用并运行该存储器中存储的计算机程序,以执行上述第一方面或其各实现方式中的方法。
在一种实现方式中,该处理器为一个或多个,该存储器为一个或多个。
在一种实现方式中,该存储器可以与该处理器集成在一起,或者该存储器与处理器分离设置。
在一种实现方式中,该电子设备还包括发射机(发射器)和接收机(接收器)。
第四方面,提供了一种计算机可读存储介质,其特征在于,用于存储计算机程序,该计算机程序使得计算机执行上述第一方面的方法。
第五方面,提供了一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现如执行上述第一方面的方法。
第六方面,本申请提供了一种计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面至第二方面中的任一方面或其各实现方式中的方法。
基于以上技术方案,本申请实施例基于待检测错别字的上下文,利用预训练语言模型对该待检测错别字对应的标准字进行预测时,基于该M个预测标准字中的每一个预测标准字作为该待检测错别字对应的标准字的概率和该目标标准字,确定是否对该预测结果进行错误纠正;进一步的,在确定对该预测结果进行错误纠正时,基于该目标标准字作为该待检测错别字对应的标准字的概率和该K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率,计算该预训练语言模型的概率损失,并基于该概率损失,对该预训练语言模型进行优化,以提升该预训练语言模型针对错别字的检测性能和纠正性能。
换言之,本申请实施例通过该待检测错别字的预测结果和该待检测错别字对应的目标标准字,能够对该预训练语言模型针对该待检测错别字的检测与纠正的能力是否足够进行校验,并在确定该预训练语言模型针对该待检测错别字的检测与纠正的能力不足时,利用该待检测错别字作为该预训练语言模型的优化样本对该预训练语言模型进行优化,以缓解该预训练语言模型针对该待检测错别字检测与纠正的能力的不足,进而提升该预训练语言模型针对错别字的检测性能和纠正性能。
或者说,本申请实施例通过先校验该预训练语言模型针对该待检测错别字的检测与纠正的能力是否足够,并在该预训练语言模型针对该待检测错别字的检测与纠正的能力不足的情况下,利用该待检测错别字作为该预训练语言模型的优化样本对该预训练语言模型进行优化,即能够讲话该预训练语言模型对错别字检测与纠正任务的学习,或者说,利用该预训练语言模型过去容易犯错的样本作为该预训练语言模型的知识表示的约束能够提升该预训练语言模型对错别字的检测与纠正的能力,赋能该预训练语言模型“吃一堑,长一智”的能力,进而提升该预训练语言模型针对错别字的检测性能和纠正性能。
此外,在对该预训练语言模型进行优化时,本申请实施例考虑到中文语句中的错别字大多是由音近或形近的混淆字误用所造成的,因此,该目标标准字作为该待检测错别字对应的标准字的概率,能够体现出该预训练语言模型对该待检测错别字的期望预测能力,而该K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率,能够体现出该预训练语言模型利用学习到的知识对该待检测错别字对应的标准字的实际预测能力;基于此,将用于对该预训练语言模型进行优化的概率损失构建为:基于该目标标准字作为该待检测错别字对应的标准字的概率和该K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率计算得到的损失;相当于,从该预训练语言模型对该待检测错别字的期望预测能力以及该预训练语言模型利用学习到的知识对该待检测错别字对应的标准字的实际预测能力出发,构建用于对该预训练语言模型进行优化的概率损失,有利于引导该预训练语言模型在经过优化后不再犯之前容易犯的错误,进而有利于提升该预训练语言模型针对错别字的检测性能和纠正性能。
值得注意的是,预训练语言模型基于该待检测错别字的上下文对该待检测错别字进行识别,也即是说,该预训练语言模型在预训练过程中采用的训练策略为遮蔽训练策略,即通过上下文对字或词的语义表示进行训练,也即是说,其需要随机屏蔽(masking)部分输入,并利用遮蔽的输入的上文和下文,训练预训练语言模型去正确预测被屏蔽的输入。然而,本申请在计算概率损失时,通过引入该目标标准字作为该待检测错别字对应的标准字的概率,将该目标标准字标记为该待检测错别字的正样本,以对其优化结果进行监督。也即是说,在对预训练语言模型的优化过程中,本申请实施例打破了遮蔽训练策略的思维局限并给出了新的思路,即基于监督的概率损失对该预训练语言模型进行优化,能够提升该预训练语言模型针对错别字的检测性能和纠正性能。
另外,与依靠大量额外信息或者知识对预训练语言模型进行优化的方案相比,本申请实施例不需要引入任何额外的信息与知识,依靠该预训练语言模型曾经容易犯错的样本来作为该预训练语言模型的优化样本,能够降低该预训练语言模型的优化成本。
附图说明
图1是本申请实施例提供的系统框架的示例。
图2是本申请实施例提供的语言模型的优化方法的示意性流程图。
图3是本申请实施例提供的语言模型的优化方法的另一示意性流程图。
图4是本申请实施例提供的语言模型的优化方法的再一示意性流程图。
图5是本申请实施例提供的语言模型的优化装置的示意性框图。
图6是本申请实施例提供的电子设备的示意性框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面对本申请实施例中涉及的技术领域进行介绍和说明:
本申请提供的方案可涉及区块链技术领域。
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营检测控制等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营检测控制模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、检测控制网络情况、检测控制节点设备健康状态等。
平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
更具体的,本申请实施例提供的方案适用于区块链的应用服务技术领域。
本申请提供的方案可涉及云技术。
云计算(cloud computing)指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。
随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
本申请提供的方案还可涉及人工智能(Artificial Intelligence,AI)技术。
AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV):计算机视觉是一门研究如何使机器“看”的科学,更进一步地说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML):一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。
图1是本申请实施例提供的系统框架100的示例。
如图1所示,该系统框架100可以是一个应用程序系统,本申请实施例对该应用程序的具体类型不加以限定。该系统框架100包括:终端131、终端132和服务器集群110。终端131和终端132均可通过无线或有线网络120与服务器集群110相连。
终端131和终端132可以是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP4播放器、MP4播放器和膝上型便携计算机中的至少一种。终端131和终端132安装和运行有应用程序。该应用程序可以是在线视频程序、短视频程序、图片分享程序、声音社交程序、动漫程序、壁纸程序、新闻推送程序、供求信息推送程序、学术交流程序、技术交流程序、政策交流程序、包含评论机制的程序、包含观点发布机制的程序、知识分享程序中的任意一种。终端131和终端132可以分别是用户141、用户142使用的终端,终端131和终端132中运行的应用程序内登录有用户帐号。
服务器集群110包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。服务器集群110用于为应用程序(例如终端131和终端132上的应用程序)提供后台服务。可选地,服务器集群110承担主要计算工作,终端131和终端132承担次要计算工作;或者,服务器集群110承担次要计算工作,终端131和终端132承担主要计算工作;或者,终端131和终端132和服务器集群110之间采用分布式计算架构进行协同计算。
可选地,以系统框架100是网页浏览系统为例,该服务器集群110包括:接入服务器112、网页服务器111和数据服务器113。接入服务器112可以为一个或多个,接入服务器112可以就近部署在不同的城市中,接入服务器112用于接收终端131和终端132的服务请求,并将服务请求转发给相应的服务器进行处理。网页服务器111是用于向终端131和终端132提供网页的服务器,该网页中集成有埋点代码;数据服务器113是用于接收终端131和终端132上报的数据(用户交互数据、业务数据等)。
需要说明的是,该系统框架100安装有对错别字进行自动检测或自动纠正的应用或芯片。该应用可利用训练好的语言模型对错别字进行自动检测或自动纠正,例如,可利用基于转换的双向编码器(Bidirectional Encoder Representation from Transformers,BERT)等通用的预训练语言模型对错别字进行自动检测或自动纠正。
值得注意的是,利用通用的预训练语言模型能够对英文语句中的错别字进行自动检测或自动纠正,尤其是拼写错误的错别字。但是,对于中文语句中的错别字的自动检测和自动纠正,由于通用的预训练语言模型的预训练策略为遮蔽训练策略以及其所使用的预训练语料为通用语料,导致通用的预训练语言模型在进行错别字的检测和纠正时会极易倾向于预测常见但不合适的字作为语言模型输出结果,而中文语句中的错别字大多是由音近或形近的混淆字误用所造成的,故而通用的预训练语言模型在中文语句中的错别字检测与纠正任务中往往不能获得最优性能,存在较大的提升空间。
有鉴于此,本申请提供了一种语言模型的优化方法,能够提升通用的预训练语言模型针对错别字的检测性能和纠正性能。
应当理解,本申请提供的优化方法可应用到各种需要对汉字错别字或英文错别字进行检测和纠正的产品、任务或场景中。例如,其包括但不限于:搜索引擎的输入纠错任务或场景,输入法的纠错任务或场景,日常写作的错别字检测/纠正任务或场景,专业文书中的错别字检测/纠正任务或场景,考试中的错别字检测/纠正任务或场景等。当然,也可以将本申请实施例提出的优化方法标用于其他领域的其他任务或场景,以提升预训练语言模型针对其他特定任务的性能。例如语法检测/纠正任务或场景以及关键字检测任务或场景,本申请对此不做具体的限定。
图2示出了根据本申请实施例的语言模型的优化方法200的示意性流程图,语言模型的优化方法200可以由任何具有数据处理能力的电子设备执行。例如,该电子设备可实施为服务器。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器,服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。为便于描述,下文以优化装置为例对本申请提供的预测方法进行说明。
如图2所示,该方法200可包括以下部分或全部内容:
S210,获取待检测语句中的待检测错别字、该待检测错别字的上下文、以及该待检测错别字对应的目标标准字。
示例性地,该待检测语句可以是中文语句、英文语句甚至包括中文拼音或声调的语句。
示例性地,该待检测错别字也可称为混淆字。
示例性地,该待检测错别字的上下文可包括该检测语句中除该待检测错别字之外的字或词。
示例性地,该目标标准字可以是可用于替换该检测错别字的正确的字。
示例性地,若该待检测错别字为包括中文拼音的语句,则该待检测错别字和该目标标准字可以是中文拼音,也可以是包括声调的中文拼音。
S220,基于该待检测错别字的上下文,利用预训练语言模型对该待检测错别字对应的标准字进行预测,以获取该待检测错别字的预测结果;其中,该预测结果包括M个预测标准字中的每一个预测标准字作为该待检测错别字对应的标准字的概率;该M个预测标准字包括该目标标准字,M为正整数。
示例性地,在利用预训练语言模型对该待检测错别字对应的标准字进行预测时,可以先对该待检测错别字的上下文进行编码,以得到该语义表示,然后对该语义表示进行维度转换(例如可以通过输出层对该语义表示进行维度转换),得到维数为M的特征向量,并基于该特征向量对该待检测错别字对应的标准字进行预测。
示例性地,该M个预测标准字可以是该预训练语言模型的词库的中的词。也即是说,在利用预训练语言模型对该待检测错别字对应的标准字进行预测时,可以先对该待检测错别字的上下文进行编码,以得到该语义表示,然后对该语义表示进行维度转换(例如可以通过输出层对该语义表示进行维度转换),得到维度与该预训练语言模型的词库中的词的数量相等的特征向量,并基于该特征向量对该待检测错别字对应的标准字进行预测。
示例性地,假设该待检测语句记为X,该待检测错别字记为xi,该目标标准字记为t+;此时,可以利用该预训练语言模型预测xi对应的标准字,即该预训练语言模型的词库中的每一个词作为该xi对应的标准字的概率。示例性地,该预训练语言模型的词库中的每一个词作为该xi对应的标准字的概率可以通过以下公式表示:
p(yi=j|X)=softmax(Whi+b)[j];
其中,p(yi=j|X)表示xi被预测为该预训练语言模型的词库中的第j个词作为xi对应的标准字的概率,W和R是该预训练语言模型的可学习参数,hi是该预训练语言模型针对xi的语义表示进行维度转换后的输出,即特征向量。
S230,基于该M个预测标准字中的每一个预测标准字作为该待检测错别字对应的标准字的概率和该目标标准字,确定是否对该预测结果进行错误纠正。
示例性地,可基于该M个预测标准字中的每一个预测标准字作为该待检测错别字对应的标准字的概率和该目标标准字,确定该预测结果是否存在错误或是否达到预期,在确定该预测结果存在错误或未达到预期的情况下,可以确定对该预测结果进行错误纠正,否在,确定不对该预测结果进行错误纠正。
S240,若确定对该预测结果进行错误纠正,则获取该M个预测标准字中的且作为该待检测错别字的标准字的概率排在前K位的K个预测标准字;K为正整数。
示例性地,该K个预测标准字可作为该预训练语言模型的优化样本。在一种实现方式中,该K个预测标准字可包括该目标标准字,此时,可将该K个预测标准字中除该目标标准字之外的预测标准字作为该待检测错别字的负样本,并将该目标标准字作为该待检测错别字的正样本。在另一种实现方式中,该K个预测标准字不包括该目标标准字,此时,可将该K个预测标准字作为该待检测错别字的负样本,并将该目标标准字作为该待检测错别字的正样本。
需要说明的是,在本申请的其他可替代实施例中,该K个预测标准字包括该目标标准字时,也可将该K个预测标准字中除该目标标准字之外的预测标准字,以及该M个预测标准字中的且作为该待检测错别字的标准字的概率排在该K个预测标准字之后的一个或多个预测标准字作为该待检测错别字的负样本,并将该目标标准字作为该待检测错别字的正样本。本申请对此不作具体限定。
S250,基于该目标标准字作为该待检测错别字对应的标准字的概率和该K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率,计算该预训练语言模型的概率损失。
示例性地,可以通过对比该目标标准字作为该待检测错别字对应的标准字的概率和该K个预测标准字中的除该目标标准字之外的每一个预测标准字作为述待检测错别字对应的标准字的概率之间的差异,计算该预训练语言模型的概率损失。例如,若该K个预测标准字包括该目标标准字,则可通过对比该目标标准字作为该待检测错别字对应的标准字的概率和该K个预测标准字中的除该目标标准字之外的每一个预测标准字作为述待检测错别字对应的标准字的概率之间的差异,计算该预训练语言模型的概率损失。
示例性地,可以通过对比该目标标准字作为该待检测错别字对应的标准字的概率和该K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率之间的差异,计算该预训练语言模型的概率损失。例如,若该K个预测标准字不包括该目标标准字,则可通过对比该目标标准字作为该待检测错别字对应的标准字的概率和该K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率之间的差异,计算该预训练语言模型的概率损失。
S260,基于该概率损失,对该预训练语言模型进行优化。
示例性地,在基于该概率损失对该预训练语言模型进行优化时,可以对预训练语言模型输出的该待检测错别字的语义表示进行优化,也可以对由该语义表示进行维度转换后得到的特征向量进行优化,本申请对此不再具体限定。
简言之,本申请通过输入待检测错别字、该待检测错别字的上下文以及该待检测错别字对应的目标标准词;利用预训练语言模型根据输入的该待检测错别字的上下文,对待检测错别字对应的标准字进行预测;如果没有经过优化的预训练语言模型不能对该待检测错别字样本进行正确的预测,则说明该待检测错别字是该预训练语言模型做得不够好的地方,需要优化,进而将其视为优化样本对该预训练语言模型进行优化,从而达到提升该预训练语言模型针对特定的中文错别字检测和纠正任务的性能的目的。
本申请实施例中,基于待检测错别字的上下文,利用预训练语言模型对该待检测错别字对应的标准字进行预测时,基于该M个预测标准字中的每一个预测标准字作为该待检测错别字对应的标准字的概率和该目标标准字,确定是否对该预测结果进行错误纠正;进一步的,在确定对该预测结果进行错误纠正时,基于该目标标准字作为该待检测错别字对应的标准字的概率和该K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率,计算该预训练语言模型的概率损失,并基于该概率损失,对该预训练语言模型进行优化,以提升该预训练语言模型针对错别字的检测性能和纠正性能。
换言之,本申请实施例通过该待检测错别字的预测结果和该待检测错别字对应的目标标准字,能够对该预训练语言模型针对该待检测错别字的检测与纠正的能力是否足够进行校验,并在确定该预训练语言模型针对该待检测错别字的检测与纠正的能力不足时,利用该待检测错别字作为该预训练语言模型的优化样本对该预训练语言模型进行优化,以缓解该预训练语言模型针对该待检测错别字检测与纠正的能力的不足,进而提升该预训练语言模型针对错别字的检测性能和纠正性能。
或者说,本申请实施例通过先校验该预训练语言模型针对该待检测错别字的检测与纠正的能力是否足够,并在该预训练语言模型针对该待检测错别字的检测与纠正的能力不足的情况下,利用该待检测错别字作为该预训练语言模型的优化样本对该预训练语言模型进行优化,即能够讲话该预训练语言模型对错别字检测与纠正任务的学习,或者说,利用该预训练语言模型过去容易犯错的样本作为该预训练语言模型的知识表示的约束能够提升该预训练语言模型对错别字的检测与纠正的能力,赋能该预训练语言模型“吃一堑,长一智”的能力,进而提升该预训练语言模型针对错别字的检测性能和纠正性能。
此外,在对该预训练语言模型进行优化时,本申请实施例考虑到中文语句中的错别字大多是由音近或形近的混淆字误用所造成的,因此,该目标标准字作为该待检测错别字对应的标准字的概率,能够体现出该预训练语言模型对该待检测错别字的期望预测能力,而该K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率,能够体现出该预训练语言模型利用学习到的知识对该待检测错别字对应的标准字的实际预测能力;基于此,将用于对该预训练语言模型进行优化的概率损失构建为:基于该目标标准字作为该待检测错别字对应的标准字的概率和该K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率计算得到的损失;相当于,从该预训练语言模型对该待检测错别字的期望预测能力以及该预训练语言模型利用学习到的知识对该待检测错别字对应的标准字的实际预测能力出发,构建用于对该预训练语言模型进行优化的概率损失,有利于引导该预训练语言模型在经过优化后不再犯之前容易犯的错误,进而有利于提升该预训练语言模型针对错别字的检测性能和纠正性能。
值得注意的是,预训练语言模型基于该待检测错别字的上下文对该待检测错别字进行识别,也即是说,该预训练语言模型在预训练过程中采用的训练策略为遮蔽训练策略,即通过上下文对字或词的语义表示进行训练,也即是说,其需要随机屏蔽(masking)部分输入,并利用遮蔽的输入的上文和下文,训练预训练语言模型去正确预测被屏蔽的输入。然而,本申请在计算概率损失时,通过引入该目标标准字作为该待检测错别字对应的标准字的概率,将该目标标准字标记为该待检测错别字的正样本,以对其优化结果进行监督。也即是说,在对预训练语言模型的优化过程中,本申请实施例打破了遮蔽训练策略的思维局限并给出了新的思路,即基于监督的概率损失对该预训练语言模型进行优化,能够提升该预训练语言模型针对错别字的检测性能和纠正性能。
另外,与依靠大量额外信息或者知识对预训练语言模型进行优化的方案相比,本申请实施例不需要引入任何额外的信息与知识,依靠该预训练语言模型曾经容易犯错的样本来作为该预训练语言模型的优化样本,能够降低该预训练语言模型的优化成本。
需要说明的是,本申请涉及的预训练语言模型可以是通用的预训练语言模型。例如,该预训练的语言模型可以是基于各个领域通用的训练集训练好的语言模型。再如,该预训练语言模型可以是预训练的可用于处理除对错别字检测任务或错别字纠正任务之外的任务的语言模型,通过本申请实施例提供的优化方法能够使得该预训练语言模型能够具备对错别字进行检测或纠正的能力。
此外,本申请实施例对该预训练语言模型的具体类型不作限定。即该预训练语言模型可以是任意一种能够对语言进行检测的模型。例如,该预训练语言模型可以是BERT模型。
为便于理解本申请提供的方案,下面对BERT模型进行示例性说明。
其中,BERT模型旨在通过联合调节所有层中的左右上下文来预训练深度双向表示。因此,只需要一个额外的输出层,就可以对预训练的BERT表示进行微调,从而为广泛的任务(比如回答问题和语言推断任务)创建最先进的模型,而无需对特定于任务进行大量模型结构的修改。换言之,BERT模型的目标是利用大规模无标注语料训练、获得字/词的包含丰富语义信息的表示(Representation),即字/词的语义表示,然后将字/词的语义表示在特定NLP任务中作微调,最终应用于该NLP任务。举例来说,BERT模型训练字/词的语义表示的过程就好比我们在高中阶段学习语数英、物化生等各门基础学科,夯实基础知识;而模型在特定NLP任务中的参数微调就相当于我们在大学期间基于已有基础知识、针对所选专业作进一步强化,从而获得能够应用于实际场景的专业技能。
在基于深度神经网络的NLP方法中,文本中的字/词通常都用字/词向量来表示;在此基础上,BERT模型会将文本中各个字/词的初始向量作为输入,经过一系列复杂的转换后,输出一个向量作为字/词的语义表示。特别地,我们通常希望语义相近的字/词在特征向量空间上的距离也比较接近,如此一来,由字/词向量转换而来的向量也能够包含更为准确的语义信息。因此,BERT模型的主要输入是文本中各个字/词的原始词向量,该向量既可以随机初始化,也可以利用Word2Vector等算法进行预训练以作为初始值;输出是文本中各个字/词融合了全文语义信息后的向量表示。为方便描述且与BERT模型的当前中文版本保持一致,本文统一以词向量(Token embeddings)作为输入。
具体来说,BERT模型通过查询词向量表将文本中的每个词转换为初始向量,作为模型输入;模型输出则是输入各词对应的融合全文语义信息后的向量表示。此外,模型输入除了词向量,还包含另外两个部分:文本向量(Segment embeddings):该向量的取值在模型训练过程中自动学习,用于刻画文本的全局语义信息,并与词的语义信息相融合;位置向量(Positional embeddings):由于出现在文本不同位置的词所携带的语义信息存在差异,比如“我爱你”和“你爱我”,因此,BERT模型对不同位置的词分别附加一个不同的向量以作区分。最后,BERT模型将词向量、文本向量和位置向量的加和作为模型输入。特别地,BERT模型还可以将英文词汇作进一步切割,划分为更细粒度的语义单位(WordPiece),例如将playing分割为play和##ing;此外,对于中文文本,BERT模型可以直接将单字或词语作为构成文本的基本单位。
结合本申请提供的方案来说,BERT模型可用于回答问题任务。对于回答问题任务,BERT模型在序列前插入一个分类(classify,CLS)符号,并将该CLS符号对应的输出向量作为整个文本的语义表示。可以理解为:CLS符号与文本中已有的其它词相比,其无明显语义信息的符号,且能够更加“公平”地融合文本中各个词的语义信息。此外,BERT模型除了添加CLS符号并将对应的输出作为文本的语义表示之外,还对输入的待检测语句之间用一个结束(SEP)符号作分割。本申请中,可以将BERT模型输出的数值可以为该M个预测标准字分别对应的M个概率值。
当然,在其他可替代实施例中,该预训练语言模型也可以是除BERT模型之外的其他用于中文错别字检测与纠正模型,本申请对此不作具体限定。
在一些实施例中,该S230可包括:
通过对比该M个预测标准字中的且作为该待检测错别字对应的标准字的概率最高的预测标准字和该目标标准字,确定是否对该预测结果进行错误纠正。
示例性地,可通过对比该M个预测标准字中的且作为该待检测错别字对应的标准字的概率最高的预测标准字和该目标标准字,确定该预测结果是否存在错误或是否达到预期,在确定该预测结果存在错误或未达到预期的情况下,可以确定对该预测结果进行错误纠正,否在,确定不对该预测结果进行错误纠正。
本实施例中,该M个预测标准字中的每一个预测标准字作为该待检测错别字对应的标准字的概率,能够体现出该预训练语言模型对该待检测错别字的期望预测能力,而该K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率,能够体现出该预训练语言模型利用学习到的知识对该待检测错别字对应的标准字的实际预测能力,通过比较该预训练语言模型的期望预测能力和该预训练预测模型的实际预测能力,能够对该预训练语言模型针对该待检测错别字的检测与纠正的能力是否足够进行校验,进而,能够确定该预测结果是否存在错误或者是否需要对对该预测结果进行错误纠正。
在一些实施例中,若该M个预测标准字中的且作为该待检测错别字对应的标准字的概率最高的预测标准字和该目标标准字不相同,则确定对该预测结果进行错误纠正;若该M个预测标准字中的且作为该待检测错别字对应的标准字的概率最高的预测标准字和该目标标准字相同,则确定不对该预测结果进行错误纠正。
换言之,在确定是否对该预测结果进行错误纠正时,可以在该M个预测标准字中的每一个预测标准字作为该待检测错别字对应的标准字的概率中,选择作为该待检测错别字对应的标准字的概率,进而基于该目标标准字作为该待检测错别字对应的标准字的概率确定是否对该预测结果进行错误纠正。例如,若该目标标准字作为该待检测错别字对应的标准字的概率不是该M个预测标准字中的每一个预测标准字作为该待检测错别字对应的标准字的概率中的最大概率时,确定对该预测结果进行错误纠正,否则,不对该预测结果进行错误纠正。
当然,在本申请的替他可替代实施例中,也可以通过其他方式确定是否对该预测结果进行错误纠正。
例如,可以在该M个预测标准字中的且作为该待检测错别字对应的标准字的概率最高的预测标准字和该目标标准字之间的相似度小于或等于预设阈值时,确定对该预测结果进行错误纠正,否则,不对该预测结果进行错误纠正。例如,若该预训练语言模型的词库不包括该目标标准字,则在该M个预测标准字中的且作为该待检测错别字对应的标准字的概率最高的预测标准字和该目标标准字之间的相似度小于或等于预设阈值时,确定对该预测结果进行错误纠正,否则,不对该预测结果进行错误纠正。
再如,可以先获取该M个预测标准字中的且作为该待检测错别字的标准字的概率排在前S位的S个预测标准字,再利用该S个预测标准字替换该待检测错别字,并对替换后的待检测语句进行评分,以获取S个预测标准字中每一个预测标准字对应的得分;接着通过对比该S个预测标准字中得分最高的预测标准字和该目标标准字,确定是否对该预测结果进行错误纠正。例如,该S个预测标准字中得分最高的预测标准字和该目标标准字相同时,确定对该预测结果进行错误纠正,否则,不对该预测结果进行错误纠正。可选的,可以通过注意力机制来计算S个预测标准字中每一个预测标准字对应的得分。
在一些实施例中,该S250可包括:
基于该K个预测标准字是否包括该目标标准字、该目标标准字作为该待检测错别字对应的标准字的概率、以及该K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率,计算该概率损失。
示例性地,在计算该概率损失时,可以先基于该K个预测标准字是否包括该目标标准字确定该概率损失的计算方式,然后基于该概率损失的计算方式计算该概率损失,该概率损失的计算方式包括第一计算方法和第二计算方式,该第一计算方式指基于该K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率计算该概率损失,该第二计算方式指基于该目标标准字作为该待检测错别字对应的标准字的概率以及该K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率,计算该概率损失。
值得注意的是,本申请中涉及的因素“该K个预测标准字是否包括该目标标准字”,其作用旨在:确定该K个预测标准字中可作为该待检测错别字的负样本或明确用于计算概率损失的对比量。即,基于该K个预测标准字是否包括该目标标准字,能够用于确定出该K个预测标准字中可作为该待检测错别字的负样本的预测标准字为K个还是K-1个。例如,若该K个预测标准字包括该目标标准字,则确定该K个预测标准字中可作为该待检测错别字的负样本的预测标准字为K-1个;若该K个预测标准字不包括该目标标准字,则确定该K个预测标准字中可作为该待检测错别字的负样本的预测标准字为K个。
在一些实施例中,若该K个预测标准字不包括该目标标准字,则计算该目标标准字预测作为该待检测错别字对应的标准字的概率,与该K个预测标准字中的每一个预测标准字作为该待检测错别字对应的标准字的概率的差值,以得到K个差值;将该K个差值的平均值的负值,确定为该待检测错别字的损失;将该待检测语句中的每一个该待检测错别字的损失的均值,确定为该概率损失。
换言之,若该K个预测标准字不包括该目标标准字,则确定该K个预测标准字中可作为该待检测错别字的负样本的预测标准字为K个;此时,可以通过对比该目标标准字预测作为该待检测错别字对应的标准字的概率,与该K个预测标准字中的每一个预测标准字作为该待检测错别字对应的标准字的概率之间的差异,确定该概率损失。
在一些实施例中,若该K个预测标准字包括该目标标准字,则计算该目标标准字预测作为该待检测错别字对应的标准字的概率,与该K个预测标准字中除该目标标准字之外的每一个预测标准字作为该待检测错别字对应的标准字的概率的差值,以得到K-1个差值;将该K-1个差值的平均值的负值,确定为该待检测错别字的损失;将该待检测语句中的每一个该待检测错别字的损失的均值,确定为该概率损失。
换言之,若该K个预测标准字包括该目标标准字,则确定该K个预测标准字中可作为该待检测错别字的负样本的预测标准字为K-1个;此时,可以对比该目标标准字预测作为该待检测错别字对应的标准字的概率,与该K个预测标准字中除该目标标准字之外的每一个预测标准字作为该待检测错别字对应的标准字的概率之间的差异,确定该概率损失。
示例性地,在计算该概率损失时,可以将该目标标准字作为该待检测错别字的正样本,并基于该K个预测标准字是否包括该目标标准字在该K个预测标准字中或该M个预测标准字中选择该待检测错别字的负样本集合,并基于该正样本和该负样本集合,计算该概率损失。
示例性地,假设将该负样本集合记为Neg,则该负样本集合的选择过程可通过以下公式表示:
T={t|t∈V and t≠t+};
其中,t-和t+分别表示负样本和正样本。负样本t-是从该待检测子的预测结果中作为该待检测错别字的标准字的概率排在前K位的K个预测标准字中的负样本。例如,若该K个预测标准字包括该目标标准字,则确定Neg包括K-1个负样本;若该K个预测标准字不包括该目标标准字,则确定Neg包括K个负样本。
示例性地,在获取了正样本和负样本及其相应的概率之后,本申请实施例将使用新提出的概率损失对该预训练语言模型进行优化,该概率损失可通过以下公式计算:
其中,表示该概率损失N是待检测语句的数目,K是待检测错别字的负样本数目,/>表示Neg中的第k个负样本。该概率损失旨在在通过正样本和负样本的作为待检测错别字对应的标准字的概率之间差异的最大似然来引导模型增加对于正样本(即目标标准字)的预测概率,降低对于负样本(即预训练语言模型本来倾向于预测的常见但不合适的字)的预测概率。
在一些实施例中,该S260可包括:
计算用于表征该预测结果和该目标标准词之间的差异的分布损失;
基于该概率损失和该分布损失,对该预训练语言模型进行优化。
示例性地,该分布损失可以是交叉熵损失。
当然,在本申请的其他可替代实施例中,该分布损失也可以是其他用于计算预测的概率分布和真实的概率分布之间的任意损失,本申请对此不作具体限定。
本实施例中,通过将该概率损失结合到分布损失,能够进一步提升该预训练语言模型的优化效果。
在一些实施例中,对该概率损失和该分布损失进行加权平均,以得到最终目标损失;基于该目标损失对该预训练语言模型进行优化。
示例性地,可通过以下公式确定该最终目标损失:
其中,λ1为的权重,λ2是/>的权重,/>表示该分布损失,/>表示该概率损失。
当然,在其他可替代实施例中,也可以将该概率损失和该分布损失中的最大值或最小值,作为最终目标损失,并基于该目标损失对该预训练语言模型进行优化,本申请对此不作具体限定。
在一些实施例中,该待检测语句为适用于该预训练语言模型的场景和适用于该预训练语言模型的任务的语句。
本实施例中,将该待检测语句设计为为适用于该预训练语言模型的场景和适用于该预训练语言模型的任务的语句,能够针对特定的场景或特定任务对该预训练语言模型进行优化,能够进一步提升预训练语言模型针对错别字的检测性能和纠正性能。
在一些实施例中,该S260可包括:
利用梯度下降的方式,调整该预测结果,并重新计算该概率损失,直至该概率损失的计算次数满足设定的次数阈值或该概率损失小于或等于设定的函数值阈值,得到优化后的该预训练语言模型。
示例性地,可以利用梯度下降的方式,先计算目标函数的梯度值,其中,目标函数为用于计算该概率损失的函数,该目标函数的梯度的方向是该目标函数在给定点上升最快的方向,相应的,该目标函数的梯度的反方向就是该目标函数在给定点下降最快的方向;然后,基于该目标函数的梯度值调整该预训练模型的参数,并重新计算该概率损失,直至该概率损失的计算次数满足设定的次数阈值或该概率损失小于或等于设定的函数值阈值,得到优化后的该预训练语言模型。
示例性地,该预语言训练模型与输出层连接时,该预语言训练模型用于得到该待检测错别字的语义表示,该输出层用于对该语义表示进行维度转换,得到维度与该预训练语言模型的词库中的词的数量相等的特征向量,并基于该特征向量对该待检测错别字对应的标准字进行预测,得到该预测结果。此时,对于输出层,可以直接通过计算得到该概率损失并基于得到的该概率损失更新该输出层的参数;对于预语言训练模型中的隐藏层,可以先通过该输出层将该概率损失反向传播至该隐藏层,再基于收到的该概率损失更新该隐藏层的参数。
示例性地,该梯度下降的方式包括但不限于随机梯度下降法和动量法。
需要说明的是,梯度下降(gradient descent)的主要目的是通过迭代找到目标函数的最小值或者收敛到最小值。具体实现中,可以利用梯度下降的方式调整该预训练语言模型的参数(例如权重矩阵参数),进而实现对该预测结果的调整。
图3是本申请实施例提供的语言模型的优化方法的另一示意性流程图。
在一些实施例中,如图3所示,该方法200还可包括:
S270,若确定不对该预测结果进行错误纠正,则将该M个预测标准字中的且作为该待检测错别字对应的标准字的概率最高的预测标准字确定为该待检测错别字对应的标准字,或利用该M个预测标准字中的且作为该待检测错别字对应的标准字的概率最高的预测标准字替换该待检测语句中的待检测错别字。
换言之,如果没有经过优化的预训练语言模型本身已经可以该待检测错别字其进行正确的预测或其预测结果已经达到预期需求,在可以确定该预训练语言模型针对该待检测错别字的检测与纠正的能力足够,进而可以将该M个预测标准字中的且作为该待检测错别字对应的标准字的概率最高的预测标准字确定为该待检测错别字对应的标准字,或利用该M个预测标准字中的且作为该待检测错别字对应的标准字的概率最高的预测标准字替换该待检测语句中的待检测错别字,即可以将预训练语言模型的预测结果作为最终结果予以输出或使用。
在一些实施例中,如图3所示,该方法200还可包括:
S270,对待训练语句进行预处理,得到待检测语句中的待检测错别字、该待检测错别字的上下文、以及该待检测错别字对应的目标标准字。
示例性地,可以通过标注的方式获取该待检测错别字和该目标标准字。进一步的,可以通过去除该待检测语句中的非中文字符的方式,将去除非中文字符的除该待检测错别字之外的字确定为该待检测错别字的上下文。当然,在其他可替代实施例中,该待检测语句中的非中文字符也可作为该待检测错别字的上下文,本申请对此不作具体限定。
图4是本申请实施例提供的语言模型的优化方法的再一示意性流程图。
如图4所示,可以按照以下过程对预训练语言模型进行优化:
步骤1:
输入待检测错别字、该待检测错别字的上下文以及该待检测错别字对应的目标标准词至预训练语言模型。
步骤2:
利用预训练语言模型根据输入的该待检测错别字的上下文,对待检测错别字对应的标准字进行预测,以得到预测结果,该预测结果包括M个预测标准字中的每一个预测标准字作为该待检测错别字对应的标准字的概率;该M个预测标准字包括该目标标准字,M为正整数;例如,该M个预测标准字可以是该预训练语言模型的词库的中的词。也即是说,在利用预训练语言模型对该待检测错别字对应的标准字进行预测时,可以先利用该预训练语言模型对该待检测错别字的上下文进行编码,以得到该待检测错别字的语义表示,然后利用输出层对该语义表示进行维度转换,得到维度与该预训练语言模型的词库中的词的数量相等的特征向量,并基于该特征向量对该待检测错别字对应的标准字进行预测,得到该预测结果。
步骤3:
基于该M个预测标准字中的每一个预测标准字作为该待检测错别字对应的标准字的概率和该目标标准字,确定是否对该预测结果进行错误纠正。例如,若该M个预测标准字中的且作为该待检测错别字对应的标准字的概率最高的预测标准字和该目标标准字不相同,则确定对该预测结果进行错误纠正;若该M个预测标准字中的且作为该待检测错别字对应的标准字的概率最高的预测标准字和该目标标准字相同,则确定不对该预测结果进行错误纠正。
步骤4:
在确定对该预测结果进行错误纠正时,通过计算得到的概率损失(即)和分布损失(即/>)对该预训练语言模型进行优化。例如,可以将该M个预测标准字中的且作为该待检测错别字的标准字的概率排在前K位的K个预测标准字及其相应的概率视为负样本,将目标标准字(即茁)及其相应的预测概率视为正样本,计算概率损失;然后,在得到分布损失后,基于概率损失和分布损失对该预训练语言模型进行优化。具体地,可利用梯度下降的方式,先计算目标函数的梯度值(即/>以及/>),基于该目标函数的梯度值调整该预训练模型和输出层的参数,并重新计算该概率损失,直至该概率损失的计算次数满足设定的次数阈值或该概率损失小于或等于设定的函数值阈值,得到优化后的该预训练语言模型。
下面结合具体示例对本申请的方案进行说明。
示例1:
假设该待检测语句为“经过磨练才能让自己更加拙壮”,则其待检测错别字为“拙”,基于此,利用预训练语言模型根据输入的“拙”的上下文,对“拙”对应的标准字进行预测,以得到预测结果;假设按照由大到小的顺序对该M个预测标准字中的每一个预测标准字作为该待检测错别字对应的标准字的概率进行排序得到的序列为:“强、壮、粗、健、雄、……、茁、……”,由于该M个预测标准字中的且作为该“拙”对应的标准字的概率最高的预测标准字(即强)和该目标标准字(即茁)不相同,因此,确定对该预测结果进行错误纠正。此时,针对“拙”字,可以将该M个预测标准字中的且作为“拙”的标准字的概率排在前5位的5个预测标准字(即强、壮、粗、健、雄)及其相应的概率视为负样本,将目标标准字(即茁)及其相应的预测概率视为正样本,计算概率损失;然后,在得到分布损失后,基于概率损失和分布损失对该预训练语言模型进行优化。
示例2:
假设该待检测语句为“不经一番寒辙骨,焉得梅花扑鼻香”,则其待检测错别字为“辙”,基于此,利用预训练语言模型根据输入的“辙”的上下文,对“辙”对应的标准字进行预测,以得到预测结果;假设按照由大到小的顺序对该M个预测标准字中的每一个预测标准字作为“辙”对应的标准字的概率进行排序得到的序列为:“瘦、寒、打、冬、冷、……、彻、……”,由于该M个预测标准字中的且作为“辙”对应的标准字的概率最高的预测标准字(即瘦)和该目标标准字(即彻)不相同,因此,确定对该预测结果进行错误纠正。此时,针对“辙”字,可以将该M个预测标准字中的且作为“辙”的标准字的概率排在前5位的5个预测标准字(即瘦、寒、打、冬、冷)及其相应的概率视为负样本,将目标标准字(即彻)及其相应的预测概率视为正样本,计算概率损失;然后,在得到分布损失后,基于概率损失和分布损失对该预训练语言模型进行优化。
当然,在其他可替代实施例中,该待检测语句也可以是英文语句,本申请对此不作具体限定。例如,该待检测语句可以是“through the grind to make ourselves clumsy”,其中,“clumsy”为待检测错别字,该待检测错别字对应的目标标准字为“strong”。再如,该待检测语句可以是“if not for the bone-rutting winter cold,how can the plumblossom and its fragrance assail the nostrils?”,其中,“rutting”为待检测错别字,该待检测错别字对应的目标标准字可以为“biting”。
此外,在其他可替代实施例中,该该待检测错别字为包括中文拼音的语句,此时,该待检测错别字和该目标标准字可以是中文拼音。例如,该待检测语句可以是“经过磨练才能让自己更加拙壮”且包括“拙”的拼音以及声调,相应的,目标标准词可以包括“茁”的拼音以及声调。再如,该待检测语句可以是“不经一番寒辙骨,焉得梅花扑鼻香”且包括“辙”的拼音以及声调,相应的,目标标准词可以包括“彻”的拼音以及声调。
以上结合附图详细描述了本申请的优选实施方式,但是,本申请并不限于上述实施方式中的具体细节,在本申请的技术构思范围内,可以对本申请的技术方案进行多种简单变型,这些简单变型均属于本申请的保护范围。例如,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本申请对各种可能的组合方式不再另行说明。又例如,本申请的各种不同的实施方式之间也可以进行任意组合,只要其不违背本申请的思想,其同样应当视为本申请所公开的内容。还应理解,在本申请的各种方法实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上文对本申请实施例提供的方法进行了说明,下面对本申请实施例提供的装置进行说明。
图5是本申请实施例提供的语言模型的优化装置300的示意性框图。
如图5所示,该装置300可包括:
第一获取单元310,用于获取待检测语句中的待检测错别字、该待检测错别字的上下文、以及该待检测错别字对应的目标标准字;
预测单元320,用于基于该待检测错别字的上下文,利用预训练语言模型对该待检测错别字对应的标准字进行预测,以获取该待检测错别字的预测结果;其中,该预测结果包括M个预测标准字中的每一个预测标准字作为该待检测错别字对应的标准字的概率;该M个预测标准字包括该目标标准字,M为正整数;
确定单元330,用于基于该M个预测标准字中的每一个预测标准字作为该待检测错别字对应的标准字的概率和该目标标准字,确定是否对该预测结果进行错误纠正;
第二获取单元340,用于若确定对该预测结果进行错误纠正,则获取该M个预测标准字中的且作为该待检测错别字的标准字的概率排在前K位的K个预测标准字;K为正整数;
计算单元350,用于基于该目标标准字作为该待检测错别字对应的标准字的概率和该K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率,计算该预训练语言模型的概率损失;
优化单元360,用于基于该概率损失,对该预训练语言模型进行优化。
在一些实施例中,该预测单元320具体用于:
通过对比该M个预测标准字中的且作为该待检测错别字对应的标准字的概率最高的预测标准字和该目标标准字,确定是否对该预测结果进行错误纠正。
在一些实施例中,该预测单元320具体用于:
若该M个预测标准字中的且作为该待检测错别字对应的标准字的概率最高的预测标准字和该目标标准字不相同,则确定对该预测结果进行错误纠正;若该M个预测标准字中的且作为该待检测错别字对应的标准字的概率最高的预测标准字和该目标标准字相同,则确定不对该预测结果进行错误纠正。
在一些实施例中,该计算单元350具体用于:
基于该K个预测标准字是否包括该目标标准字、该目标标准字作为该待检测错别字对应的标准字的概率、以及该K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率,计算该概率损失。
在一些实施例中,该计算单元350具体用于:
若该K个预测标准字不包括该目标标准字,则计算该目标标准字预测作为该待检测错别字对应的标准字的概率,与该K个预测标准字中的每一个预测标准字作为该待检测错别字对应的标准字的概率的差值,以得到K个差值;将该K个差值的平均值的负值,确定为该待检测错别字的损失;将该待检测语句中的每一个该待检测错别字的损失的均值,确定为该概率损失。
在一些实施例中,该计算单元350具体用于:
若该K个预测标准字包括该目标标准字,则计算该目标标准字预测作为该待检测错别字对应的标准字的概率,与该K个预测标准字中除该目标标准字之外的每一个预测标准字作为该待检测错别字对应的标准字的概率的差值,以得到K-1个差值;将该K-1个差值的平均值的负值,确定为该待检测错别字的损失;将该待检测语句中的每一个该待检测错别字的损失的均值,确定为该概率损失。
在一些实施例中,该优化单元360具体用于:
计算用于表征该预测结果和该目标标准词之间的差异的分布损失;
基于该概率损失和该分布损失,对该预训练语言模型进行优化。
在一些实施例中,该优化单元360具体用于:
对该概率损失和该分布损失进行加权平均,以得到最终目标损失;
基于该目标损失对该预训练语言模型进行优化。
在一些实施例中,该待检测语句为适用于该预训练语言模型的场景和适用于该预训练语言模型的任务的语句。
在一些实施例中,该确定单元330还可用于:
若确定不对该预测结果进行错误纠正,则将该M个预测标准字中的且作为该待检测错别字对应的标准字的概率最高的预测标准字确定为该待检测错别字对应的标准字,或利用该M个预测标准字中的且作为该待检测错别字对应的标准字的概率最高的预测标准字替换该待检测语句中的待检测错别字。
应理解,装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,语言模型的优化装置300可以对应于执行本申请实施例的方法中的相应主体,并且语言模型的优化装置300中的各个单元分别为了实现方法中的相应流程,为了简洁,在此不再赘述。
还应当理解,本申请实施例涉及的语言模型的优化装置300中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,该语言模型的优化装置300也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。根据本申请的另一个实施例,可以通过在包括例如中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的通用计算机的通用计算设备上运行能够执行相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造本申请实施例涉及的语言模型的优化装置300,以及来实现本申请实施例的语言模型的优化方法。计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于电子设备中,并在其中运行,来实现本申请实施例的相应方法。
换言之,上文涉及的单元可以通过硬件形式实现,也可以通过软件形式的指令实现,还可以通过软硬件结合的形式实现。具体地,本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成,结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件组合执行完成。可选地,软件可以位于随机存储器,闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法实施例中的步骤。
图6是本申请实施例提供的电子设备400的示意结构图。
如图6所示,该电子设备400至少包括处理器410以及计算机可读存储介质420。其中,处理器410以及计算机可读存储介质420可通过总线或者其它方式连接。计算机可读存储介质420用于存储计算机程序421,计算机程序421包括计算机指令,处理器410用于执行计算机可读存储介质420存储的计算机指令。处理器410是电子设备400的计算核心以及控制核心,其适于实现一条或多条计算机指令,具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。
作为示例,处理器410也可称为中央处理器(Central Processing Unit,CPU)。处理器410可以包括但不限于:通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。
作为示例,计算机可读存储介质420可以是高速RAM存储器,也可以是非不稳定的存储器(Non-VolatileMemory),例如至少一个磁盘存储器;可选的,还可以是至少一个位于远离前述处理器410的计算机可读存储介质。具体而言,计算机可读存储介质420包括但不限于:易失性存储器和/或非易失性存储器。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)。
如图6所示,该电子设备400还可以包括收发器430。
其中,处理器410可以控制该收发器430与其他设备进行通信,具体地,可以向其他设备发送信息或数据,或接收其他设备发送的信息或数据。收发器430可以包括发射机和接收机。收发器430还可以进一步包括天线,天线的数量可以为一个或多个。
应当理解,该通信设备400中的各个组件通过总线系统相连,其中,总线系统除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。
在一种实现方式中,该电子设备400可以是任一具有数据处理能力的电子设备;该计算机可读存储介质420中存储有计算机指令;由处理器410加载并执行计算机可读存储介质420中存放的计算机指令,以实现本申请提供的方法实施例中的相应步骤;在具体实现中,计算机可读存储介质420中的计算机指令可由处理器410加载并执行相应步骤,为避免重复,此处不再赘述。
根据本申请的另一方面,本申请实施例还提供了一种计算机可读存储介质(Memory),计算机可读存储介质是电子设备400中的记忆设备,用于存放程序和数据。例如,计算机可读存储介质420。可以理解的是,此处的计算机可读存储介质420既可以包括电子设备400中的内置存储介质,当然也可以包括电子设备400所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了电子设备400的操作系统。并且,在该存储空间中还存放了适于被处理器410加载并执行的一条或多条的计算机指令,这些计算机指令可以是一个或多个的计算机程序421(包括程序代码)。
根据本申请的另一方面,本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。例如,计算机程序421。此时,数据处理设备400可以是计算机,处理器410从计算机可读存储介质420读取该计算机指令,处理器410执行该计算机指令,使得该计算机执行上述各种可选方式中提供的语言模型的优化方法。
换言之,当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地运行本申请实施例的流程或实现本申请实施例的功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质进行传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元以及流程步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
最后需要说明的是,以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (14)
1.一种语言模型的优化方法,其特征在于,包括:
获取待检测语句中的待检测错别字、所述待检测错别字的上下文、以及所述待检测错别字对应的目标标准字;
基于所述待检测错别字的上下文,利用预训练语言模型对所述待检测错别字对应的标准字进行预测,以获取所述待检测错别字的预测结果;其中,所述预测结果包括M个预测标准字中的每一个预测标准字作为所述待检测错别字对应的标准字的概率;所述M个预测标准字包括所述目标标准字,M为正整数;
基于所述M个预测标准字中的每一个预测标准字作为所述待检测错别字对应的标准字的概率和所述目标标准字,确定是否对所述预测结果进行错误纠正;
若确定对所述预测结果进行错误纠正,则获取所述M个预测标准字中的且作为所述待检测错别字的标准字的概率排在前K位的K个预测标准字;K为正整数;
基于所述目标标准字作为所述待检测错别字对应的标准字的概率和所述K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率,计算所述预训练语言模型的概率损失;
基于所述概率损失,对所述预训练语言模型进行优化。
2.根据权利要求1所述的方法,其特征在于,所述基于所述M个预测标准字中的每一个预测标准字作为所述待检测错别字对应的标准字的概率和所述目标标准字,确定是否对所述预测结果进行错误纠正,包括:
通过对比所述M个预测标准字中的且作为所述待检测错别字对应的标准字的概率最高的预测标准字和所述目标标准字,确定是否对所述预测结果进行错误纠正。
3.根据权利要求2所述的方法,其特征在于,所述通过对比所述M个预测标准字中的且作为所述待检测错别字对应的标准字的概率最高的预测标准字和所述目标标准字,确定是否对所述预测结果进行错误纠正,包括:
若所述M个预测标准字中的且作为所述待检测错别字对应的标准字的概率最高的预测标准字和所述目标标准字不相同,则确定对所述预测结果进行错误纠正;
若所述M个预测标准字中的且作为所述待检测错别字对应的标准字的概率最高的预测标准字和所述目标标准字相同,则确定不对所述预测结果进行错误纠正。
4.根据权利要求1所述的方法,其特征在于,所述基于所述目标标准字作为所述待检测错别字对应的标准字的概率和基于所述K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率,计算所述预训练语言模型的概率损失,包括:
基于所述K个预测标准字是否包括所述目标标准字、所述目标标准字作为所述待检测错别字对应的标准字的概率、以及所述K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率,计算所述概率损失。
5.根据权利要求4所述的方法,其特征在于,所述基于所述K个预测标准字是否包括所述目标标准字、所述目标标准字作为所述待检测错别字对应的标准字的概率、以及所述K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率,计算所述概率损失,包括:
若所述K个预测标准字不包括所述目标标准字,则计算所述目标标准字预测作为所述待检测错别字对应的标准字的概率,与所述K个预测标准字中的每一个预测标准字作为所述待检测错别字对应的标准字的概率的差值,以得到K个差值;
将所述K个差值的平均值的负值,确定为所述待检测错别字的损失;
将所述待检测语句中的每一个所述待检测错别字的损失的均值,确定为所述概率损失。
6.根据权利要求4所述的方法,其特征在于,所述基于所述K个预测标准字是否包括所述目标标准字、所述目标标准字作为所述待检测错别字对应的标准字的概率、以及所述K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率,计算所述概率损失,包括:
若所述K个预测标准字包括所述目标标准字,则计算所述目标标准字预测作为所述待检测错别字对应的标准字的概率,与所述K个预测标准字中除所述目标标准字之外的每一个预测标准字作为所述待检测错别字对应的标准字的概率的差值,以得到K-1个差值;
将所述K-1个差值的平均值的负值,确定为所述待检测错别字的损失;
将所述待检测语句中的每一个所述待检测错别字的损失的均值,确定为所述概率损失。
7.根据权利要求1所述的方法,其特征在于,所述基于所述概率损失,对所述预训练语言模型进行优化,包括:
计算用于表征所述预测结果和所述目标标准字之间的差异的分布损失;
基于所述概率损失和所述分布损失,对所述预训练语言模型进行优化。
8.根据权利要求7所述的方法,其特征在于,所述基于所述概率损失和所述分布损失,对所述预训练语言模型进行优化,包括:
对所述概率损失和所述分布损失进行加权平均,以得到最终目标损失;
基于所述目标损失对所述预训练语言模型进行优化。
9.根据权利要求1至8中任一项所述的方法,其特征在于,所述待检测语句为适用于所述预训练语言模型的场景和适用于所述预训练语言模型的任务的语句。
10.根据权利要求1至8中任一项所述的方法,其特征在于,所述方法还包括:
若确定不对所述预测结果进行错误纠正,则将所述M个预测标准字中的且作为所述待检测错别字对应的标准字的概率最高的预测标准字确定为所述待检测错别字对应的标准字,或利用所述M个预测标准字中的且作为所述待检测错别字对应的标准字的概率最高的预测标准字替换所述待检测语句中的待检测错别字。
11.根据权利要求1至8中任一项所述的方法,其特征在于,所述基于所述概率损失,对所述预训练语言模型进行优化,包括:
利用梯度下降的方式,调整所述预测结果,并重新计算所述概率损失,直至所述概率损失的计算次数满足设定的次数阈值或所述概率损失小于或等于设定的函数值阈值,得到优化后的所述预训练语言模型。
12.一种语言模型的优化装置,其特征在于,包括:
第一获取单元,用于获取待检测语句中的待检测错别字、所述待检测错别字的上下文、以及所述待检测错别字对应的目标标准字;
预测单元,用于基于所述待检测错别字的上下文,利用预训练语言模型对所述待检测错别字对应的标准字进行预测,以获取所述待检测错别字的预测结果;其中,所述预测结果包括M个预测标准字中的每一个预测标准字作为所述待检测错别字对应的标准字的概率;所述M个预测标准字包括所述目标标准字,M为正整数;
确定单元,用于基于所述M个预测标准字中的每一个预测标准字作为所述待检测错别字对应的标准字的概率和所述目标标准字,确定是否对所述预测结果进行错误纠正;
第二获取单元,用于若确定对所述预测结果进行错误纠正,则获取所述M个预测标准字中的且作为所述待检测错别字的标准字的概率排在前K位的K个预测标准字;K为正整数;
计算单元,用于基于所述目标标准字作为所述待检测错别字对应的标准字的概率和所述K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率,计算所述预训练语言模型的概率损失;
优化单元,用于基于所述概率损失,对所述预训练语言模型进行优化。
13.一种电子设备,其特征在于,包括:
处理器,适于执行计算机程序;
计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1至11中任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,用于存储计算机程序,所述计算机程序使得计算机执行如权利要求1至11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210551564.9A CN115114904B (zh) | 2022-05-18 | 2022-05-18 | 语言模型的优化方法、装置以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210551564.9A CN115114904B (zh) | 2022-05-18 | 2022-05-18 | 语言模型的优化方法、装置以及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115114904A CN115114904A (zh) | 2022-09-27 |
CN115114904B true CN115114904B (zh) | 2024-02-27 |
Family
ID=83325855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210551564.9A Active CN115114904B (zh) | 2022-05-18 | 2022-05-18 | 语言模型的优化方法、装置以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115114904B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442870A (zh) * | 2019-08-02 | 2019-11-12 | 深圳市珍爱捷云信息技术有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
CN112199945A (zh) * | 2020-08-19 | 2021-01-08 | 宿迁硅基智能科技有限公司 | 一种文本纠错的方法和装置 |
CN112348073A (zh) * | 2020-10-30 | 2021-02-09 | 北京达佳互联信息技术有限公司 | 一种多音字识别方法、装置、电子设备及存储介质 |
CN113239683A (zh) * | 2021-05-31 | 2021-08-10 | 平安科技(深圳)有限公司 | 中文文本纠错方法、系统及介质 |
CN113705165A (zh) * | 2021-04-06 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 错别字词的识别方法、装置、设备及计算机可读存储介质 |
CN113779185A (zh) * | 2020-06-10 | 2021-12-10 | 武汉Tcl集团工业研究院有限公司 | 一种自然语言模型的生成方法和计算机设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11107463B2 (en) * | 2018-08-01 | 2021-08-31 | Google Llc | Minimum word error rate training for attention-based sequence-to-sequence models |
-
2022
- 2022-05-18 CN CN202210551564.9A patent/CN115114904B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442870A (zh) * | 2019-08-02 | 2019-11-12 | 深圳市珍爱捷云信息技术有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
CN113779185A (zh) * | 2020-06-10 | 2021-12-10 | 武汉Tcl集团工业研究院有限公司 | 一种自然语言模型的生成方法和计算机设备 |
CN112199945A (zh) * | 2020-08-19 | 2021-01-08 | 宿迁硅基智能科技有限公司 | 一种文本纠错的方法和装置 |
CN112348073A (zh) * | 2020-10-30 | 2021-02-09 | 北京达佳互联信息技术有限公司 | 一种多音字识别方法、装置、电子设备及存储介质 |
CN113705165A (zh) * | 2021-04-06 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 错别字词的识别方法、装置、设备及计算机可读存储介质 |
CN113239683A (zh) * | 2021-05-31 | 2021-08-10 | 平安科技(深圳)有限公司 | 中文文本纠错方法、系统及介质 |
Non-Patent Citations (1)
Title |
---|
一种新的语言模型判别训练方法;于浩, 高剑峰, 步丰林;计算机学报(10);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115114904A (zh) | 2022-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112487182B (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
Logeswaran et al. | Sentence ordering and coherence modeling using recurrent neural networks | |
Cai et al. | A stacked BiLSTM neural network based on coattention mechanism for question answering | |
CN109033068A (zh) | 基于注意力机制的用于阅读理解的方法、装置和电子设备 | |
CN111104512B (zh) | 游戏评论的处理方法及相关设备 | |
CN108845990A (zh) | 基于双向注意力机制的答案选择方法、装置和电子设备 | |
Tan et al. | Context-aware answer sentence selection with hierarchical gated recurrent neural networks | |
CN113704460B (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
CN112580352B (zh) | 关键词提取方法、装置和设备及计算机存储介质 | |
CN113836866B (zh) | 文本编码方法、装置、计算机可读介质及电子设备 | |
CN110598070A (zh) | 应用类型识别方法及装置、服务器及存储介质 | |
CN114863194B (zh) | 面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置 | |
Patil et al. | Visual question generation: The state of the art | |
CN115310551A (zh) | 文本分析模型训练方法、装置、电子设备和存储介质 | |
Li et al. | Dual CNN for relation extraction with knowledge-based attention and word embeddings | |
CN110597956A (zh) | 一种搜索方法、装置及存储介质 | |
CN113821587B (zh) | 文本相关性确定方法、模型训练方法、装置及存储介质 | |
CN114330483A (zh) | 数据处理方法及模型训练方法、装置、设备、存储介质 | |
CN114282528A (zh) | 一种关键词提取方法、装置、设备及存储介质 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN115114904B (zh) | 语言模型的优化方法、装置以及电子设备 | |
CN114386436B (zh) | 文本数据的分析方法、模型训练方法、装置及计算机设备 | |
CN115309894A (zh) | 一种基于对抗训练和tf-idf的文本情感分类方法及装置 | |
Jin et al. | Bi-granularity Adversarial Training for Non-factoid Answer Retrieval | |
Babiker et al. | From Intermediate Representations to Explanations: Exploring Hierarchical Structures in NLP |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |