CN114048753A - 词义识别模型训练、词义判断方法、装置、设备及介质 - Google Patents

词义识别模型训练、词义判断方法、装置、设备及介质 Download PDF

Info

Publication number
CN114048753A
CN114048753A CN202111532656.4A CN202111532656A CN114048753A CN 114048753 A CN114048753 A CN 114048753A CN 202111532656 A CN202111532656 A CN 202111532656A CN 114048753 A CN114048753 A CN 114048753A
Authority
CN
China
Prior art keywords
sentence
trained
word
target
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111532656.4A
Other languages
English (en)
Inventor
马建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202111532656.4A priority Critical patent/CN114048753A/zh
Publication of CN114048753A publication Critical patent/CN114048753A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了涉及人工智能技术,公开了一种词义识别模型训练、词义判断方法、装置、设备及介质,该方法对第一待训练句子以及第二待训练句子进行文本预处理,得到初始训练文本;将初始训练文本输入至包含初始参数的预设识别模型中,得到文本分类向量、第一词向量以及第二词向量;根据文本分类向量、第一词向量以及第二词向量,确定与待训练句子组对应的预测词义标签;根据目标词义标签和预测词义标签,确定预设识别模型的预测损失值;在预测损失值未达到预设的收敛条件时,迭代更新预设识别模型中的初始参数,直至预测损失值达到收敛条件时,将收敛之后的预设识别模型记录为词义识别模型。本发明提高了词义识别准确率以及词义消歧准确率。

Description

词义识别模型训练、词义判断方法、装置、设备及介质
技术领域
本发明涉及检测模型技术领域,尤其涉及一种词义识别模型训练、词义判断方法、装置、设备及介质。
背景技术
随着科学技术的发展,自然语言处理技术也广泛应用在各个领域,进而可以实现如文字识别,文本相似度比较等功能。然而很多文本中经常出现多义词,因此词义消歧在自然语言处理技术中是非常重要的。
现有技术中,常常通过有监督的词义消歧方法,但是该方法需要基于庞大的数据基础,而往往在一些领域中数据是非常稀缺的,进而导致通过有监督方式训练得到的模型应用范围较小,且容易出现错误,从而导致词义消歧的准确率较低。
发明内容
本发明实施例提供一种词义识别模型训练、词义判断方法、装置、设备及介质,以解决现有技术中词义消歧的准确率较低的问题。
一种词义识别模型训练方法,包括:
获取包括第一待训练句子和第二待训练句子的待训练句子组;所述第一待训练句子与所述第二待训练句子中均具有一个相同的目标词;所述待训练句子组关联目标词义标签;
对所述第一待训练句子以及所述第二待训练句子进行文本预处理,得到初始训练文本;
将所述初始训练文本输入至包含初始参数的预设识别模型中,得到与所述初始训练文本对应的文本分类向量、与所述第一待训练句子中的目标词对应的第一词向量,以及与所述第二待训练句子中的目标词对应的第二词向量;
根据所述文本分类向量、所述第一词向量以及所述第二词向量,确定与所述待训练句子组对应的预测词义标签;
根据所述目标词义标签和所述预测词义标签,确定所述预设识别模型的预测损失值;
在所述预测损失值未达到预设的收敛条件时,迭代更新所述预设识别模型中的初始参数,直至所述预测损失值达到所述收敛条件时,将收敛之后的所述预设识别模型记录为词义识别模型。
一种词义判断方法,包括:
接收词义判断指令;所述词义判断指令中包括第一目标句子以及第二目标句子;所述第一目标句子和所述第二目标句子均具有待判断字词;
将所述第一目标句子以及所述第二目标句子输入至词义识别模型中,以通过所述词义识别模型确定所述待判断字词在所述第一目标句子和所述第二目标句子中的词义是否相同,并得到词义判断结果;所述词义识别模型是根据上述词义识别模型训练方法得到的。
一种词义识别模型训练装置,包括:
数据获取模块,用于获取待训练句子组;一个所述待训练句子组中包括第一待训练句子和第二待训练句子;所述第一待训练句子与所述第二待训练句子均具有一个相同的目标词;所述待训练句子组关联目标词义标签;
文本预处理模块,用于对所述第一待训练句子以及所述第二待训练句子进行文本预处理,得到初始训练文本;
文本识别模块,用于将所述初始训练文本输入至包含初始参数的预设识别模型中,得到与所述初始训练文本对应的文本分类向量、与所述第一待训练句子中的目标词对应的第一词向量,以及与所述第二待训练句子中的目标词对应的第二词向量;
词义预测模块,用于根据所述文本分类向量、所述第一词向量以及所述第二词向量,确定与所述待训练句子组对应的预测词义标签;
损失确定模块,用于根据所述目标词义标签和所述预测词义标签,确定所述预设识别模型的预测损失值;
模型训练模块,用于在所述预测损失值未达到预设的收敛条件时,迭代更新所述预设识别模型中的初始参数,直至所述预测损失值达到所述收敛条件时,将收敛之后的所述预设识别模型记录为词义识别模型。
一种词义判断装置,包括:
指令接收模块,用于接收词义判断指令;所述词义判断指令中包括第一目标句子以及第二目标句子;所述第一目标句子和所述第二目标句子均具有待判断字词;
词义判断模块,用于将所述第一目标句子以及所述第二目标句子输入至词义识别模型中,以通过所述词义识别模型确定所述待判断字词在所述第一目标句子和所述第二目标句子中的词义是否相同,并得到词义判断结果所述词义识别模型是根据上述词义识别模型训练方法得到的。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述词义识别模型训练方法,或所述处理器执行所述计算机程序时实现上述词义判断方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述词义识别模型训练方法,或所述计算机程序被处理器执行时实现上述词义判断方法。
上述词义识别模型训练、词义判断方法、装置、设备及介质,该方法通过对第一待训练句子和第二待训练句子进行文本预处理,得到初始训练文本,并在预设识别模型中除了关注初始训练文本的文本分类向量之外,还加入了目标词在第一待训练句子的第一词向量,以及目标词在第二待训练句子的第二词向量,从而通过第一词向量和第二词向量辅助文本分类向量,使得预设识别模型的词义识别准确率更高,从而使得训练得到的词义识别模型的词义消歧准确率更高。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中词义识别模型训练方法的一应用环境示意图;
图2是本发明一实施例中词义识别模型训练方法的一流程图;
图3是本发明一实施例中词义识别模型训练装置的一原理框图;
图4是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的词义识别模型训练方法,该词义识别模型训练方法可应用如图1所示的应用环境中。具体地,该词义识别模型训练方法应用在词义识别模型训练系统中,该词义识别模型训练系统包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于解决现有技术中词义消歧的准确率较低的问题。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一实施例中,如图2所示,提供一种词义识别模型训练方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S10:获取待训练句子组;一个所述待训练句子组中包括第一待训练句子和第二待训练句子;所述第一待训练句子与所述第二待训练句子均具有一个相同的目标词;所述待训练句子组关联目标词义标签。
可以理解地,待训练句子组中的第一待训练句子和第二待训练句子可以通过爬虫技术从不同的网站上爬取得到。第一待训练句子和第二待训练句子中具有一个相同的目标词,可以理解地,该目标词可以通过人工标注的方式,亦或者接收用户发送的目标词之后,通过对第一待训练句子和第二待训练句子进行字词遍历后确定。示例性地,假设第一待训练句子为:“In that context of coordination and integration,Bolivia holds a keypaly in any process of infrastructure development”,第二待训练句子为“Inschools,when water is needed,it fetch it,taking time away from their studiesand play”,其中目标词为“play”。目标词义标签表征目标词在第一待训练句子中的语义,是否与目标词在第二待训练句子中的语义相同,因此该目标词义标签存在两种类型,其中一种为表征目标词在第一待训练句子和第二待训练句子中的词义相同;另一种为表征目标词在第一待训练句子和第二待训练句子中的词义不同。
S20:对所述第一待训练句子以及所述第二待训练句子进行文本预处理,得到初始训练文本。
可以理解地,在本实施例中,对第一待训练句子和第二待训练句子进行文本预处理,包括对第一待训练句子和第二待训练句子中的目标词通过特殊字符进行嵌入,以及将第一待训练句子和第二待训练句子用分隔字符隔开等。初始训练文本即为包含文本预处理后的第一待训练句子和第二待训练句子的文本。
在一实施例中,所述对所述第一待训练句子以及所述第二待训练句子进行文本预处理,得到初始训练文本,包括:
对所述第一待训练句子中的目标词进行符号嵌入,得到第一嵌入句子。
对所述第二待训练句子中的目标词进行符号嵌入,得到第二嵌入句子。
可以理解地,本实施例中对第一待训练句子以及第二待训练句子中的目标词进行符号嵌入,是通过在目标词的左右两侧添加设定的符号。示例性地,假设第一待训练句子为:“In that context of coordination and integration,Bolivia holds a key palyin any process of infrastructure development”,第二待训练句子为“In schools,when water is needed,it fetch it,taking time away from their studies andplay”,其中目标词为“play”。在进行符号嵌入后得到的第一嵌入句子为:“In thatcontext of coordination and integration,Bolivia holds a key<t>paly</t>in anyprocess of infrastructure development”,第二嵌入句子为:“In schools,when wateris needed,it fetch it,taking time away from their studies and<t>paly</t>”,也即在目标词“paly”的左侧添加“<t>”符号,在目标词“paly”的右侧添加“</t>”符号,进而在后续通过预设识别模型对初始训练文本进行识别时,可以注意到目标词所处的位置。
通过预设句子分隔符号将所述第一嵌入句子和所述第二嵌入句子连接,得到所述初始训练文本。
可以理解地,预设句子分隔符号即用于将第一嵌入句子和第二嵌入句子进行区分,也即使得预设识别模型可以识别出第一嵌入句子的起始端以及结束端,同时也识别出第二嵌入句子的起始端以及结束端,如此可以区分开每一个不同的句子所包含的字词,从而使得在根据上下文字词进行词义判断时,不会将两个不同的句子之间的字词进行上下文关联,减少上下文信息识别的错误率,进而使得词义判断准确率更高。
示例性地,假设第一嵌入句子为:“In that context of coordination andintegration,Bolivia holds a key<t>paly</t>in any process of infrastructuredevelopment”,第二嵌入句子为:“In schools,when water is needed,it fetch it,taking time away from their studies and<t>paly</t>”,则通过预设句子分隔符号连接后得到的初始训练文本为“In that context of coordination and integration,Bolivia holds a key<t>paly</t>in any process of infrastructure development.<SEP>In schools,when water is needed,it fetch it,taking time away from theirstudies and<t>paly</t>”。
S30:将所述初始训练文本输入至包含初始参数的预设识别模型中,得到与所述初始训练文本对应的文本分类向量、与所述第一待训练句子中的目标词对应的第一词向量,以及与所述第二待训练句子中的目标词对应的第二词向量。
可以理解地,文本分类向量是指整个初始训练文本的向量表征,第一词向量是指在第一待训练句子中的目标词的词向量,第二词向量是指在第二待训练句子中的目标词的词向量。如此,通过整个初始训练文本的向量表征,以及目标词在两个句子中的向量表征,对第一待训练句子中的目标词的词义和第二待训练句子中的目标词的词义是否相同进行预测,可以提高预测的准确率。
具体地,在对所述第一待训练句子以及所述第二待训练句子进行文本预处理,得到初始训练文本之后,将初始训练文本输入至预设识别模型中,进而通过预设识别模型对初始训练文本进行分词处理以及词向量嵌入,进而得到与初始训练文本各字词对应的词向量;对各词向量进行字词信息处理,进而得到与各词向量一一对应的正向隐藏层向量以及反向隐藏层向量,从而根据与各词向量一一对应的正向隐藏层向量以及反向隐藏层向量生成文本分类向量。
进一步地,对第一待训练句子进行分词处理以及词向量嵌入,得到目标词在第一待训练句子中的第一嵌入向量,并对第一嵌入向量进行字词信息处理,得到与该第一嵌入向量对应的正向隐藏层向量以及反向隐藏层向量,从而根据与该第一嵌入向量对应的正向隐藏层向量以及反向隐藏层向量确定与第一待训练句子中的目标词对应的第一词向量。
进一步地,对第二待训练句子进行分词处理以及词向量嵌入,得到目标词在第二待训练句子中的第二嵌入向量,并对第二嵌入向量进行字词信息处理,得到与该第二嵌入向量对应的正向隐藏层向量以及反向隐藏层向量,从而根据与该第二嵌入向量对应的正向隐藏层向量以及反向隐藏层向量确定与第一二待训练句子中的目标词对应的第二词向量。
S40:根据所述文本分类向量、所述第一词向量以及所述第二词向量,确定与所述待训练句子组对应的预测词义标签。
可以理解地,预测词义标签即为预设识别模型预测出第一待训练句子中的目标词和第二待训练句子中的目标词的词义关系,该预测词义标签存在两种标签类型,其中一种为表征目标词在第一待训练句子和第二待训练句子中的词义相同;另一种为表征目标词在第一待训练句子和第二待训练句子中的词义不同。
具体地,在将所述初始训练文本输入至包含初始参数的预设识别模型中,得到与所述初始训练文本对应的文本分类向量、与所述第一待训练句子中的目标词对应的第一词向量,以及与所述第二待训练句子中的目标词对应的第二词向量之后,根据所述文本分类向量、所述第一词向量以及所述第二词向量,确定在第一待训练句子中的目标词的词义与第二待训练句子中的目标词的词义相同的概率,若该概率大于或等于预设概率阈值(预设概率阈值可以设定为85%,90%等),则确定预测词义标签表征目标词在第一待训练句子和第二待训练句子中的词义相同;若该概率小于预设概率阈值,则确定预测词义标签表征目标词在第一待训练句子和第二待训练句子中的词义不同。
S50:根据所述目标词义标签和所述预测词义标签,确定所述预设识别模型的预测损失值。
可以理解地,在根据所述文本分类向量、所述第一词向量以及所述第二词向量,确定与所述待训练句子组对应的预测词义标签之后,即可根据目标词义标签和预测词义标签,确定出预设识别模型的预测损失值,也即该预设识别模型预测得到的预测词义标签和目标词义标签之间的差异程度。
S60:在所述预测损失值未达到预设的收敛条件时,迭代更新所述预设识别模型中的初始参数,直至所述预测损失值达到所述收敛条件时,将收敛之后的所述预设识别模型记录为词义识别模型。
可以理解地,该收敛条件可以为预测损失值小于设定阈值的条件,也即在预测损失值小于设定阈值时,停止训练;收敛条件还可以为预测损失值经过了10000次计算后值为很小且不会再下降的条件,也即预测损失值经过10000次计算后值很小且不会下降时,停止训练,将收敛之后的所述预设识别模型记录为词义识别模型。
进一步地,根据所述目标词义标签和所述预测词义标签,确定所述预设识别模型的预测损失值之后,在预测损失值未达到预设的收敛条件时,根据该预测损失值调整预设识别模型的初始参数,并将该初始训练文本重新输入至调整初始参数后的预设识别模型中,以在该初始训练文本的预测损失值达到预设的收敛条件时,选取待训练句子集中另一个待训练句子组,并执行上述步骤S20至S50并得到与该待训练句子组对应的预测损失值,并在该预测损失值未达到预设的收敛条件时,根据该预测损失值再次调整预设识别模型的初始参数,使得该待训练句子组的预测损失值达到预设的收敛条件。
如此,在通过待训练句子集中所有待训练句子组对预设识别模型进行训练之后,使得预设识别模型输出的结果可以不断向准确地结果靠拢,让识别准确率越来越高,直至所有待训练句子组的预测损失值均达到预设的收敛条件时,将收敛之后的所述预设识别模型记录为词义识别模型。
在本实施例中,通过对第一待训练句子和第二待训练句子进行文本预处理,得到初始训练文本,并在预设识别模型中除了关注初始训练文本的文本分类向量之外,还加入了目标词在第一待训练句子的第一词向量,以及目标词在第二待训练句子的第二词向量,从而通过第一词向量和第二词向量辅助文本分类向量,使得预设识别模型的词义识别准确率更高,从而使得训练得到的词义识别模型的词义消歧准确率更高。
在一实施例中,步骤S10之前,也即所述获取待训练句子组之前,还包括:
获取第一待训练句子集;所述第一待训练句子集中包含至少一个所述第一待训练句子;一个所述第一待训练句子具有一个初始样本字词,且关联一个与所述初始样本字词对应的初始词义标签。
可以理解地,第一待训练句子可以通过爬虫技术从不同的网站上爬取文本得到等。初始样本字词可以预先通过人为标注的方式对第一待训练句子进行标注得到。初始词义标签即表征了初始样本字词在第一待训练句子中的词义,该初始词义标签可以预先通过人工标注得到。
检测所述第一待训练句子是否为英文句子。
具体地,在获取第一待训练句子之后,检测第一待训练句子是否为英文句子,如先对第一待训练句子进行分词处理(采用如结巴分词等分词方法),进而确定第一待训练句子中的各个字词是否为英文字词,若第一待训练句子中各个字词均为英文字词,则确定第一待训练句子为英文句子;若第一待训练句子中为非英文字词,则将第一待训练句子确定为非英文句子。
在所述第一待训练句子为英文句子时,获取预设英文词典;所述预设英文词典中包括至少一个预设英文字词;一个所述预设英文字词关联至少一个预设英文句子,且所述预设英文字词在与其关联的每一个预设英文句子中均具有一个预设词义标签。
可以理解地,预设英文词典可以预先通过爬虫技术在不同网站上爬取得到,例如爬取若干预设英文句子,进而在各预设英文句子中标注出对应的预设英文字词,将具有相同预设英文字词的预设英文句子与该预设英文字词关联,进而生成预设英文词典。其中,一个预设英文字词关联至少一个预设英文句子,也即在与预设英文字词关联的预设英文句子中均具有该预设英文字词,并在每一个预设英文句子中的预设英文字词均具有一个对应的预设词义标签,该预设词义标签表征该预设英文字词在预设英文句子中的词义,预设词义标签可以通过预先在预设英文句子中人工标注得到。
将所述初始样本字词与各所述预设英文字词进行匹配,将与所述初始样本字词匹配的预设英文字词记录为所述目标词,并将具有所述目标词的预设英文句子记录为第二待训练句子。
具体地,在获取预设英文词典之后,将初始样本字词与各预设英文字词进行匹配,从而确定出与初始样本字词相同的预设英文字词,进而将与初始样本字词匹配的预设英文字词记录为目标词(由于初始样本字词与预设英文字词相同,因此在预设英文字词被记录为目标词的同时,初始样本字词也被记录为目标词),从而将具有目标词的预设英文句子记录为第二待训练句子。
将所述第一待训练句子以及所述第二待训练句子关联记录为所述待训练句子组,并根据所述初始词义标签以及所述预设词义标签,确定与所述待训练句子组对应的目标词义标签。
具体地,在将与所述初始样本字词匹配的预设英文字词记录为所述目标词,并将具有所述目标词的预设英文句子记录为第二待训练句子之后,将第一待训练句子以及第二待训练句子关联记录为待训练句子组,并根据初始词义标签以及预设词义标签,确定目标词在第一待训练句子和第二待训练句子中的词义是否相同,进而确定与待训练句子组对应的目标词义标签。如初始词义标签和预设词义标签不同时,目标词义标签表征在目标词在第一待训练句子中的词义,与目标词在第二待训练句子中的词义不相同;初始词义标签和预设词义标签相同时,目标词义标签表征在目标词在第一待训练句子中的词义,与目标词在第二待训练句子中的词义相同。
在一实施例中,所述检测所述第一待训练句子是否为英文句子之后,还包括:
在所述第一待训练句子不是英文句子时,通过预设文本处理模型对所述第一待训练句子依次进行翻译和回译处理,得到与所述第一待训练句子对应的回译句子。
具体地,在检测第一待训练句子是否为英文句子之后,若第一待训练句子不是英文句子,则通过预设文本处理模型对第一待训练句子依次进行翻译和回译处理,得到与第一待训练句子对应的回译句子。
可以理解地,在上述说明中指出若第一待训练句子中的字词不是英文字词,则确定第一待训练句子不是英文句子,例如为中文句子,或者其它语言句子。预设文本处理模型用于将第一待训练句子转换为需求语言的句子,该预设文本处理模型中包括文本翻译模型以及文本回译模型。回译句子即为通过预设文本处理模型对第一待训练句子进行翻译和回译之后得到的句子。
确定所述第一待训练句子与各所述回译句子之间是否满足预设相似度条件,将满足预设相似度条件的回译句子记录为待筛选句子。
可以理解地,在通过预设文本处理模型对第一待训练句子进行翻译和回译之后,得到的回译句子可能与第一待训练句子完全不同,则该回译句子破坏了原来第一待训练句子的所有语义特征,因此需要在保证回译句子和第一待训练句子之间满足预设相似度条件的前提下,也即保证回译句子的大部分语义特征没有被破坏,才可以将回译句子作为待筛选句子。
具体地,在通过预设文本处理模型对所述第一待训练句子依次进行翻译和回译处理,得到与所述第一待训练句子对应的回译句子之后,确定第一待训练句子和回译句子之间的句子相似度,并确定句子相似度是否满足预设相似度条件,如将句子相似度与预设相似度阈值进行比较,在句子相似度大于或等于预设相似度阈值时,确定第一待训练句子和回译句子之间满足预设相似度条件;在句子相似度小于预设相似度阈值时,确定第一待训练句子和回译句子之间不满足预设相似度条件,则将满足预设相似度条件的回译句子记录为待筛选句子。
检测各所述待筛选句子中是否存在所述初始样本字词,将存在所述初始样本字词的待筛选句子记录为第二待训练句子,并将所述初始样本字词记录为所述目标词。
具体地,在确定所述第一待训练句子与各所述回译句子之间是否满足预设相似度条件,将满足预设相似度条件的回译句子记录为待筛选句子之后,检测各待筛选句子中是否存在初始样本字词,如对待筛选句子进行分词处理,进而确定待筛选句子中是否存在与初始样本字词相同的字词,若存在,则将该待筛选句子记录为第二待训练句子,并将初始样本字词记录为目标词。
将所述第一待训练句子和所述第二待训练句子关联记录为所述待训练句子组。
具体地,在检测各所述待筛选句子中是否存在所述初始样本字词,将存在所述初始样本字词的待筛选句子记录为第二待训练句子之后,将第一待训练句子和第二待训练句子关联记录为待训练句子组。
确定所述目标词在所述第二待训练句子中的样本词义标签,并根据所述样本词义标签以及所述初始词义标签确定与待训练句子组对应的目标词义标签。
具体地,在检测各所述待筛选句子中是否存在所述初始样本字词,将存在所述初始样本字词的待筛选句子记录为第二待训练句子之后,即可确定目标词在第二待训练句子中的词义,并根据该词义生成样本词义标签,根据样本词义标签以及初始词义标签确定与待训练句子组对应的目标词义标签。如初始词义标签和样本词义标签不同时,目标词义标签表征在目标词在第一待训练句子中的词义,与目标词在第二待训练句子中的词义不相同;初始词义标签和样本词义标签相同时,目标词义标签表征在目标词在第一待训练句子中的词义,与目标词在第二待训练句子中的词义相同。
在一实施例中,所述通过预设文本处理模型对所述第一待训练句子依次进行翻译和回译处理,得到与所述第一待训练句子对应的回译句子,包括:
采用所述预设文本处理模型中的文本翻译模型对所述第一待训练句子进行翻译,得到翻译句子。
采用所述预设文本处理模型中的文本回译模型对所述翻译句子进行回译,得到所述回译句子。
其中,翻译句子为文本翻译模型对第一待训练句子进行翻译之后得到的句子。回译句子即为文本回译模型对翻译句子进行回译之后得到的句子。文本翻译模型与文本回译模型均为翻译模型,文本翻译模型用于将第一待训练句子翻译为另一种语言的翻译句子,文本回译模型用于将翻译后的翻译句子回译成与第一待训练相同语言的回译句子。例如,假设第一待训练句子为中文句子,可以将第一待训练句子翻译为英文句子,再对翻译后得到的英文句子回译成中文句子,该中文句子即为回译句子,需要说明的是,回译句子与第一待训练句子之间不是相同的句子。具体地,在判定第一待训练句子不是英文句子之后,将第一待训练句子输入至预设文本处理模型中的文本翻译模型,采用文本翻译模型对第一待训练句子进行翻译,得到翻译句子。将翻译句子输入至预设文本处理模型中的文本回译模型,采用文本回译模型将翻译句子回译成与第一待训练句子相同的文本语言的句子,也即回译句子。其中,翻译句子与第一待训练句子之间是不属于同一语言系统的(如第一待训练句子为中文句子,翻译句子为英文句子),并且翻译句子与第一待训练句子之间的文本语法差别需要尽可能的大。
可选地,文本翻译模型与文本回译模型可采用第三方工具来执行建模,例如google、百度或者translate api等。进一步地,文本翻译模型与文本回译模型的训练语料可以使用CzEng语料和欧洲议会平行语料Europarl,CzEng语料量大,可以保证翻译文意一致性;而欧洲议会平行语料Europarl是官方的人工翻译数据,可以很好的保证输出文本的流畅度、语法结构等。
在一实施例中,提供一种词义判断方法,以该方法应用于图1中的服务器中,该方法包括如下步骤:
接收词义判断指令;所述词义判断指令中包括第一目标句子以及第二目标句子;所述第一目标句子和所述第二目标句子均具有待判断字词。
可以理解地,词义判断指令可以由用户发送,也可以在用户发送第一目标句子以及第二目标句子之后自动生成。待判断字词指的是在第一目标句子和第二目标句子中具有的字词,从而本实施的词义判断方法可以确定待判断字词在第一目标句子和第二目标句子中的词义是否相同。
将所述第一目标句子以及所述第二目标句子输入至词义识别模型中,以通过所述词义识别模型确定所述待判断字词在所述第一目标句子和所述第二目标句子中的词义是否相同,并得到词义判断结果;所述词义识别模型是根据上述词义识别模型训练方法得到的。
具体地,在接收到词义判断指令之后,将第一目标句子以及第二目标句子输入至词义识别模型中,以通过词义识别模型关注到待判断字词在第一目标句子中的词义信息,以及待判断字词在第二目标句子中的词义信息,从而确定出词义判断结果。其中,词义判断结果表征了待判断字词在第一目标句子中的词义和在第二目标句子中的词义是否相同。该词义判断结果包括表征待判断字词在第一目标句子中的词义和在第二目标句子中的词义相同的结果,以及待判断字词在第一目标句子中的词义和在第二目标句子中的词义不相同的结果。
在本实施例中,通过上述方法训练得到的词义识别模型对第一目标句子和第二目标句子进行词义识别,该词义识别模型除了关注第一目标句子和第二目标句子之外,还引入了待判断字词在第一目标句子中的特征向量,以及待判断字词在第二目标句子中的特征向量,从而确定待判断字词在第一目标句子和第二目标句子中的词义是否相同,如此,可以提高词义识别的效率,以及提高词义消歧的准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种词义识别模型训练装置,该词义识别模型训练装置与上述实施例中词义识别模型训练方法一一对应。如图3所示,该装置包括数据获取模块10、文本预处理模块20、文本识别模块30、词义预测模块40、损失确定模块50和模型训练模块60。各功能模块详细说明如下:
数据获取模块10,用于获取待训练句子组;一个所述待训练句子组中包括第一待训练句子和第二待训练句子;所述第一待训练句子与所述第二待训练句子均具有一个相同的目标词;所述待训练句子组关联目标词义标签;
文本预处理模块20,用于对所述第一待训练句子以及所述第二待训练句子进行文本预处理,得到初始训练文本;
文本识别模块30,用于将所述初始训练文本输入至包含初始参数的预设识别模型中,得到与所述初始训练文本对应的文本分类向量、与所述第一待训练句子中的目标词对应的第一词向量,以及与所述第二待训练句子中的目标词对应的第二词向量;
词义预测模块40,用于根据所述文本分类向量、所述第一词向量以及所述第二词向量,确定与所述待训练句子组对应的预测词义标签;
损失确定模块50,用于根据所述目标词义标签和所述预测词义标签,确定所述预设识别模型的预测损失值;
模型训练模块60,用于在所述预测损失值未达到预设的收敛条件时,迭代更新所述预设识别模型中的初始参数,直至所述预测损失值达到所述收敛条件时,将收敛之后的所述预设识别模型记录为词义识别模型。
优选地,词义识别模型训练装置还包括:
待训练句子获取模块,用于获取第一待训练句子集;所述第一待训练句子集中包含至少一个所述第一待训练句子;一个所述第一待训练句子具有一个初始样本字词,且关联一个与所述初始样本字词对应的初始词义标签;
英文句子检测模块,用于检测所述第一待训练句子是否为英文句子;
英文词典获取模块,用于在所述第一待训练句子为英文句子时,获取预设英文词典;所述预设英文词典中包括至少一个预设英文字词;一个所述预设英文字词关联至少一个预设英文句子,且所述预设英文字词在与其关联的每一个预设英文句子中均具有一个预设词义标签;
字词匹配模块,用于将所述初始样本字词与各所述预设英文字词进行匹配,将与所述初始样本字词相同的预设英文字词记录为所述目标词,并将具有所述目标词的预设英文句子记录为第二待训练句子;
第一词义标签确定模块,用于将所述第一待训练句子以及所述第二待训练句子关联记录为所述待训练句子组,并根据所述初始词义标签以及所述预设词义标签,确定与所述待训练句子组对应的目标词义标签。
优选地,词义识别模型训练装置还包括:
翻译回译模块,用于在所述第一待训练句子不是英文句子时,通过预设文本处理模型对所述第一待训练句子依次进行翻译和回译处理,得到与所述第一待训练句子对应的回译句子;
句子筛选模块,用于确定所述第一待训练句子与各所述回译句子之间是否满足预设相似度条件,将满足预设相似度条件的回译句子记录为待筛选句子;
字词检测模块,用于检测各所述待筛选句子中是否存在所述初始样本字词,将存在所述初始样本字词的待筛选句子记录为第二待训练句子,并将所述初始样本字词记录为所述目标词;
句子组记录模块,用于将所述第一待训练句子和所述第二待训练句子关联记录为所述待训练句子组;
第二词义标签确定模块,用于确定所述目标词在所述第二待训练句子中的样本词义标签,并根据所述样本词义标签以及所述初始词义标签确定与待训练句子组对应的目标词义标签。
优选地,翻译回译模块包括:
句子翻译单元,用于采用所述预设文本处理模型中的文本翻译模型对所述第一待训练句子进行翻译,得到翻译句子;
句子回译单元,用于采用所述预设文本处理模型中的文本回译模型对所述翻译句子进行回译,得到所述回译句子。
优选地,文本预处理模块20包括:
第一符号嵌入单元,用于对所述第一待训练句子中的目标词进行符号嵌入,得到第一嵌入句子;
第二符号嵌入单元,用于对所述第二待训练句子中的目标词进行符号嵌入,得到第二嵌入句子;
句子连接单元,用于通过预设句子分隔符号将所述第一嵌入句子和所述第二嵌入句子连接,得到所述初始训练文本。
关于词义识别模型训练装置的具体限定可以参见上文中对于词义识别模型训练方法的限定,在此不再赘述。上述词义识别模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一实施例中,提供一种词义判断装置,包括:
指令接收模块,用于接收词义判断指令;所述词义判断指令中包括第一目标句子以及第二目标句子;所述第一目标句子和所述第二目标句子均具有待判断字词;
词义判断模块,用于将所述第一目标句子以及所述第二目标句子输入至词义识别模型中,以通过所述词义识别模型确定所述待判断字词在所述第一目标句子和所述第二目标句子中的词义是否相同,并得到词义判断结果所述词义识别模型是根据上述词义识别模型训练方法得到的。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中词义识别模型训练方法或者词义判断方法所使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种词义识别模型训练方法,或该计算机程序被处理器执行时以实现一种词义判断方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中的词义识别模型训练方法,或处理器执行计算机程序时实现上述实施例中的词义判断方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中的词义识别模型训练方法,或计算机程序被处理器执行时实现上述实施例中的词义判断方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种词义识别模型训练方法,其特征在于,包括:
获取包括第一待训练句子和第二待训练句子的待训练句子组;所述第一待训练句子与所述第二待训练句子中均具有一个相同的目标词;所述待训练句子组关联目标词义标签;
对所述第一待训练句子以及所述第二待训练句子进行文本预处理,得到初始训练文本;
将所述初始训练文本输入至包含初始参数的预设识别模型中,得到与所述初始训练文本对应的文本分类向量、与所述第一待训练句子中的目标词对应的第一词向量,以及与所述第二待训练句子中的目标词对应的第二词向量;
根据所述文本分类向量、所述第一词向量以及所述第二词向量,确定与所述待训练句子组对应的预测词义标签;
根据所述目标词义标签和所述预测词义标签,确定所述预设识别模型的预测损失值;
在所述预测损失值未达到预设的收敛条件时,迭代更新所述预设识别模型中的初始参数,直至所述预测损失值达到所述收敛条件时,将收敛之后的所述预设识别模型记录为词义识别模型。
2.如权利要求1所述的词义识别模型训练方法,其特征在于,所述获取待训练句子组之前,还包括:
获取第一待训练句子集;所述第一待训练句子集中包含至少一个所述第一待训练句子;一个所述第一待训练句子具有一个初始样本字词,且关联一个与所述初始样本字词对应的初始词义标签;
检测所述第一待训练句子是否为英文句子;
在所述第一待训练句子为英文句子时,获取预设英文词典;所述预设英文词典中包括至少一个预设英文字词;一个所述预设英文字词关联至少一个预设英文句子,且所述预设英文字词在与其关联的每一个预设英文句子中均具有一个预设词义标签;
将所述初始样本字词与各所述预设英文字词进行匹配,将与所述初始样本字词相同的预设英文字词记录为所述目标词,并将具有所述目标词的预设英文句子记录为第二待训练句子;
将所述第一待训练句子以及所述第二待训练句子关联记录为所述待训练句子组,并根据所述初始词义标签以及所述预设词义标签,确定与所述待训练句子组对应的目标词义标签。
3.如权利要求2所述的词义识别模型训练方法,其特征在于,所述检测所述第一待训练句子是否为英文句子之后,还包括:
在所述第一待训练句子不是英文句子时,通过预设文本处理模型对所述第一待训练句子依次进行翻译和回译处理,得到与所述第一待训练句子对应的回译句子;
确定所述第一待训练句子与各所述回译句子之间是否满足预设相似度条件,将满足预设相似度条件的回译句子记录为待筛选句子;
检测各所述待筛选句子中是否存在所述初始样本字词,将存在所述初始样本字词的待筛选句子记录为第二待训练句子,并将所述初始样本字词记录为所述目标词;
将所述第一待训练句子和所述第二待训练句子关联记录为所述待训练句子组;
确定所述目标词在所述第二待训练句子中的样本词义标签,并根据所述样本词义标签以及所述初始词义标签确定与待训练句子组对应的目标词义标签。
4.如权利要求3所述的词义识别模型训练方法,其特征在于,所述通过预设文本处理模型对所述第一待训练句子依次进行翻译和回译处理,得到与所述第一待训练句子对应的回译句子,包括:
采用所述预设文本处理模型中的文本翻译模型对所述第一待训练句子进行翻译,得到翻译句子;
采用所述预设文本处理模型中的文本回译模型对所述翻译句子进行回译,得到所述回译句子。
5.如权利要求1所述的词义识别模型训练方法,其特征在于,所述对所述第一待训练句子以及所述第二待训练句子进行文本预处理,得到初始训练文本,包括:
对所述第一待训练句子中的目标词进行符号嵌入,得到第一嵌入句子;
对所述第二待训练句子中的目标词进行符号嵌入,得到第二嵌入句子;
通过预设句子分隔符号将所述第一嵌入句子和所述第二嵌入句子连接,得到所述初始训练文本。
6.一种词义判断方法,其特征在于,包括:
接收词义判断指令;所述词义判断指令中包括第一目标句子以及第二目标句子;所述第一目标句子和所述第二目标句子均具有待判断字词;
将所述第一目标句子以及所述第二目标句子输入至词义识别模型中,以通过所述词义识别模型确定所述待判断字词在所述第一目标句子和所述第二目标句子中的词义是否相同,并得到词义判断结果;所述词义识别模型是根据如权利要求1至5任一项所述词义识别模型训练方法得到的。
7.一种词义识别模型训练装置,其特征在于,包括:
数据获取模块,用于获取待训练句子组;一个所述待训练句子组中包括第一待训练句子和第二待训练句子;所述第一待训练句子与所述第二待训练句子均具有一个相同的目标词;所述待训练句子组关联目标词义标签;
文本预处理模块,用于对所述第一待训练句子以及所述第二待训练句子进行文本预处理,得到初始训练文本;
文本识别模块,用于将所述初始训练文本输入至包含初始参数的预设识别模型中,得到与所述初始训练文本对应的文本分类向量、与所述第一待训练句子中的目标词对应的第一词向量,以及与所述第二待训练句子中的目标词对应的第二词向量;
词义预测模块,用于根据所述文本分类向量、所述第一词向量以及所述第二词向量,确定与所述待训练句子组对应的预测词义标签;
损失确定模块,用于根据所述目标词义标签和所述预测词义标签,确定所述预设识别模型的预测损失值;
模型训练模块,用于在所述预测损失值未达到预设的收敛条件时,迭代更新所述预设识别模型中的初始参数,直至所述预测损失值达到所述收敛条件时,将收敛之后的所述预设识别模型记录为词义识别模型。
8.一种词义判断装置,其特征在于,包括:
指令接收模块,用于接收词义判断指令;所述词义判断指令中包括第一目标句子以及第二目标句子;所述第一目标句子和所述第二目标句子均具有待判断字词;
词义判断模块,用于将所述第一目标句子以及所述第二目标句子输入至词义识别模型中,以通过所述词义识别模型确定所述待判断字词在所述第一目标句子和所述第二目标句子中的词义是否相同,并得到词义判断结果所述词义识别模型是根据如权利要求1至5任一项所述词义识别模型训练方法得到的。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述词义识别模型训练方法,或所述处理器执行所述计算机程序时实现如权利要求6所述词义判断方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述词义识别模型训练方法,或所述计算机程序被处理器执行时实现如权利要求6所述词义判断方法。
CN202111532656.4A 2021-12-15 2021-12-15 词义识别模型训练、词义判断方法、装置、设备及介质 Pending CN114048753A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111532656.4A CN114048753A (zh) 2021-12-15 2021-12-15 词义识别模型训练、词义判断方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111532656.4A CN114048753A (zh) 2021-12-15 2021-12-15 词义识别模型训练、词义判断方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN114048753A true CN114048753A (zh) 2022-02-15

Family

ID=80212913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111532656.4A Pending CN114048753A (zh) 2021-12-15 2021-12-15 词义识别模型训练、词义判断方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN114048753A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024091087A1 (ko) * 2022-10-27 2024-05-02 (주)이팝소프트 Wsd와 연관된 모델 학습 방법 및 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024091087A1 (ko) * 2022-10-27 2024-05-02 (주)이팝소프트 Wsd와 연관된 모델 학습 방법 및 장치

Similar Documents

Publication Publication Date Title
CN110765265B (zh) 信息分类抽取方法、装置、计算机设备和存储介质
CN108595695B (zh) 数据处理方法、装置、计算机设备和存储介质
CN111666401B (zh) 基于图结构的公文推荐方法、装置、计算机设备及介质
CN108664595B (zh) 领域知识库构建方法、装置、计算机设备和存储介质
CN111753531A (zh) 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质
US11610060B2 (en) Automatic lexical sememe prediction system using lexical dictionaries
CN112380837B (zh) 基于翻译模型的相似句子匹配方法、装置、设备及介质
CN110427612B (zh) 基于多语言的实体消歧方法、装置、设备和存储介质
CN110688853B (zh) 序列标注方法、装置、计算机设备和存储介质
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN113536735B (zh) 一种基于关键词的文本标记方法、系统和存储介质
CN113536795B (zh) 实体关系抽取的方法、系统、电子装置和存储介质
CN112632258A (zh) 文本数据处理方法、装置、计算机设备和存储介质
CN112860919A (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
CN113836192B (zh) 平行语料的挖掘方法、装置、计算机设备及存储介质
CN114048753A (zh) 词义识别模型训练、词义判断方法、装置、设备及介质
CN113449081A (zh) 文本特征的提取方法、装置、计算机设备及存储介质
CN112559725A (zh) 文本匹配方法、装置、终端和存储介质
CN113609873A (zh) 翻译模型训练方法、装置及介质
CN109344385B (zh) 自然语言处理方法、装置、计算机设备和存储介质
CN115115432B (zh) 基于人工智能的产品信息推荐方法及装置
CN116956954A (zh) 文本翻译方法、装置、电子设备及存储介质
CN115169370B (zh) 语料数据增强方法、装置、计算机设备及介质
CN112087473A (zh) 文档下载方法、装置、计算机可读存储介质和计算机设备
CN112732423B (zh) 流程迁移方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination