CN114841174A - 分析对象释义的方法和装置 - Google Patents

分析对象释义的方法和装置 Download PDF

Info

Publication number
CN114841174A
CN114841174A CN202110142998.9A CN202110142998A CN114841174A CN 114841174 A CN114841174 A CN 114841174A CN 202110142998 A CN202110142998 A CN 202110142998A CN 114841174 A CN114841174 A CN 114841174A
Authority
CN
China
Prior art keywords
analyzed
sentence
candidate
target
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110142998.9A
Other languages
English (en)
Inventor
蔡艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN202110142998.9A priority Critical patent/CN114841174A/zh
Publication of CN114841174A publication Critical patent/CN114841174A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种分析对象释义的方法和装置。其中,该方法包括:获取目标语句以及目标语句中的待分析词语;对目标语句进行句法分析,确定待分析词语在目标语句中的目标词性;根据目标词性确定待分析词语对应的候选释义;基于预设模型对目标语句、待分析词语以及候选释义进行处理,得到待分析词语在目标语句中的目标释义,其中,预设模型采用语句拼接的方式训练得到的。本发明解决了现有技术中,对句子中的词汇进行翻译时存在翻译效率低的技术问题。

Description

分析对象释义的方法和装置
技术领域
本发明涉及文本翻译领域,具体而言,涉及一种分析对象释义的方法和装置。
背景技术
目前许多翻译软件和电子词典均具有翻译,然而,大部分翻译软件均是基于整个句子,或基于单个单词,对用户输入的全部文本进行翻译。而电子词典在对单词进行翻译时,输出的是待翻译词汇的全部释义。现有技术中,仅有少数的翻译软件及电子词典能够实现翻译出指定单词在句子中的含义。
目前,通常采用分类模型对句子中的指定词汇进行翻译,即利用词汇不同释义的例句,将词汇释义作为标签,训练分类模型,从而对于一个新的句子和指定词汇,只需将句子和指定词汇输入对应的分类模型中,即可得到分类模型词汇在句子中的释义。
然而,在现有技术中,如果训练分类模型,则分类模型的标签是全部词汇的全部释义,从而导致释义量非常大,例如,一个词汇至少有2个释义,则对于k个词汇,至少有2k个标签,对于1万个单词,则需要训练一个至少具有20000个标签的分类模型,而且,得到的分类模型的在对词汇进行翻译时不仅翻译的准确率较低,还使得翻译效率低。
另外,如果对每个词汇训练一个单独的分类模型,则对每个词汇的每个释义都要收集至少几百个例句,从而对数据的采样造成影响。除此之外,现有的分类模型的训练也无法保证一个只有几百至几千的训练数据的模型的训练效果,而且,由于日常生活中的词汇量较大,如果对于每个词汇训练一个单独的分类模型,还会增大模型训练和存储的开销。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种分析对象释义的方法和装置,以至少解决现有技术中,对句子中的词汇进行翻译时存在翻译效率低的技术问题。
根据本发明实施例的一个方面,提供了一种分析对象释义的方法,包括:获获取目标语句以及目标语句中的待分析词语;对目标语句进行句法分析,确定待分析词语在目标语句中的目标词性;根据目标词性确定待分析词语对应的候选释义;基于预设模型对目标语句、待分析词语以及候选释义进行处理,得到待分析词语在目标语句中的目标释义,其中,预设模型采用语句拼接的方式训练得到的。
进一步地,分析对象释义的方法还包括:在预设模型中,获取与候选释义对应的候选语句,其中,候选语句中至少包括待分析词语;将候选语句与目标语句进行拼接处理,得到拼接结果;根据拼接结果从候选释义中确定待分析词语在目标语句中的目标释义。
进一步地,分析对象释义的方法还包括:在候选语句与目标语句之间设置分隔符,按照分类标签、目标语句、分隔符、候选语句的顺序对目标语句与候选语句进行拼接处理,得到第一拼接结果;从第一拼接结果中获取目标语句中的待分析词语对应的第一向量以及候选语句中的待分析词语对应的第二向量;根据第一向量与第二向量确定候选语句对应的分类标签的数值;根据分类标签的数值确定待分析词语在目标语句中的第一释义与待分析词语在候选语句中的第二释义是否相同,得到拼接结果。
进一步地,分析对象释义的方法还包括:根据第一向量与第二向量确定第二释义对应的评分值,其中,评分值表征了第二释义的准确度;在评分值大于预设评分值的情况下,确定分类标签的数值为第一预设数值;在评分值小于或等于预设评分值的情况下,确定分类标签的数值为第二预设数值。
进一步地,分析对象释义的方法还包括:在分类标签的数值为第一预设数值,并且,候选释义的数量为一个时,确定与候选语句对应的候选释义为目标释义。
进一步地,分析对象释义的方法还包括:在分类标签的数值为第一预设数值,并且,候选释义的数量为多个时,获取在每个候选释义下,第一向量与第二向量所对应的候选评分值;确定候选评分值最大的候选释义为目标释义。
进一步地,分析对象释义的方法还包括:在所有候选语句对应的分类标签的数值均为第二预设数值时,获取在每个候选释义下,第一向量与第二向量所对应的候选评分值;确定候选评分值最大的候选释义为目标释义。
进一步地,分析对象释义的方法还包括:在基于预设模型对目标语句、待分析词语以及候选释义进行处理,得到待分析词语在目标语句中的目标释义之前,构建数据样本,其中,数据样本至少包括数据正样本和数据负样本;对数据样本进行训练,得到预设模型。
进一步地,分析对象释义的方法还包括:获取第一预设语句;对第一预设语句进行分词处理,并确定第一预设语句中待替换的词语;获取待替换的词语对应的同义词语;按照预设语法规则将待替换的词语替换为同义词语,得到第二预设语句;基于第一预设语句和第二预设语句构建数据正样本。
根据本发明实施例的另一方面,还提供了一种分析对象释义的方法,包括:获取待分析语句以及待分析语句中的待分析词语;将待分析语句与候选语句进行拼接处理,得到拼接结果,其中,候选语句中至少包括待分析词语;根据待分析词语在待分析语句中的第一释义,以及待分析词语在候选语句中的第二释义,确定拼接结果所对应的标签;根据待分析语句、待分析词语以及拼接结果所对应的标签进行模型训练,得到预设模型,以使预设模型输出待分析词语所对应的目标释义。
根据本发明实施例的另一方面,还提供了一种分析对象释义的装置,包括:获取模块,用于获取目标语句以及目标语句中的待分析词语;分析模块,用于对目标语句进行句法分析,确定待分析词语在目标语句中的目标词性;确定模块,用于根据目标词性确定待分析词语对应的候选释义;处理模块,用于基于预设模型对目标语句、待分析词语以及候选释义进行处理,得到待分析词语在目标语句中的目标释义,其中,预设模型采用语句拼接的方式训练得到的。
根据本发明实施例的另一方面,还提供了一种非易失性存储介质,该非易失性存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述的分析对象释义的方法。
根据本发明实施例的另一方面,还提供了一种处理器,该处理器用于运行程序,其中,程序被设置为运行时执行上述的分析对象释义的方法。
在本发明实施例中,采用语句拼接的方式得到预设模型,以使预设模型预测待分析词语在目标语句中的目标释义的方式,在获取目标语句以及目标语句中的待分析词语之后,通过对目标语句进行句法分析,确定待分析词语在目标语句中的目标词性,并根据目标词性确定待分析词语对应的候选释义,再基于预设模型对目标语句、待分析词语以及候选释义进行处理,得到待分析词语在目标语句中的目标释义。
在上述过程中,在对待分析词语进行翻译之前,首先确定待分析词语在目标语句中的词向,缩小了待分析词语对应的候选释义的范围,提高了预设模型对待分析词语进行翻译的翻译效率,提高了翻译的准确度。另外,预设模型是基于语句拼接的方式训练得到的,从而使得对于所有的词语只需要训练一个模型即可,无需对所有的词语单独训练模型,而且,采用语句拼接的方式训练预设模型降低了模型训练对数据量的要求,简化了数据采样的过程,从而提高了预设模型的训练效率。
由此可见,本申请所提供的方案达到了对句子中的词汇进行翻译的目的,从而实现了提高词汇的翻译效率的技术效果,进而解决了现有技术中,对句子中的词汇进行翻译时存在翻译效率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种分析对象释义的方法流程图;
图2是根据本发明实施例的一种可选的分析对象释义的方法流程图;
图3是根据本发明实施例的一种可选的分析对象释义的方法流程图;
图4是根据本发明实施例的一种可选的语句拼接示意图;
图5是根据本发明实施例的一种可选的预设模型的训练示意图;
图6是根据本发明实施例的一种分析对象释义的方法流程图;
图7是根据本发明实施例的一种分析对象释义的装置示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种分析对象释义的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
此外,还需要说明的是,翻译客户端可作为本实施例所提高的方法的执行主体,其中,翻译客户端可以为但不限于翻译软件、电子词典等。翻译客户端可运行在终端设备中,例如,电脑、手机、平板等。
图1是根据本发明实施例的分析对象释义的方法流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取目标语句以及目标语句中的待分析词语。
在步骤S102中,待分析词语为需要翻译的词语,而目标语句为待分析词语所在的例句,例如,对于例句“Let me take your coat”,“take”为待分析词语,上述例句为目标语句。
可选的,图2示出了一种可选的分析对象释义的方法流程图,在图2中,用户将目标语句“Let me take your coat”输入至翻译客户端中,并确定目标语句中的待分析词语为“take”,例如,通过向翻译客户端输入待分析词语的方式来确定目标语句中的待分析词语,也可通过对目标语句中的待分析词语进行特殊标识的方式来确定目标语句中的待分析词语。然后,翻译客户端即可对目标语句进行翻译,并输出待分析词语在目标语句中的目标释义。
步骤S104,对目标语句进行句法分析,确定待分析词语在目标语句中的目标词性。
可选的,如图2所示,翻译客户端可使用NLTK/WordNet/jieba等句法分析工具对目标语句进行句法分析,并对目标语句进行分词和词性标注,从而得到待分析词语在目标语句中的目标词性。
需要说明的是,对待分析词语在目标语句中的目标词性进行分析可缩小候选释义的范围,提高预设模型的效率。
步骤S106,根据目标词性确定待分析词语对应的候选释义。
可选的,如图2所示,翻译客户端根据待分析词语对应的目标词性来获取候选释义,例如,对于目标语句“Let me take your coat.”和待分析词语“take”。首先对目标语句进行分词和词性标注,得到“take”在目标语句中的词性为“V”动词。因此候选释义为take的所有作为动词的释义实体,包括:“v.取”,“v.需要”,“v.拿”,“v.接受”,“v.认为”,“v.花费”,“v.搭乘”,“v.执行”,“v.理解”,“v.修(课程)”,“v.吃(喝)”。
步骤S108,基于预设模型对目标语句、待分析词语以及候选释义进行处理,得到待分析词语在目标语句中的目标释义,其中,预设模型采用语句拼接的方式训练得到的。
可选的,如图2所示,在得到候选释义之后,翻译客户端将目标语句、待分析词语以及候选释义依次输入预设模型中,以使预设模型对待分析词语在目标语句中的释义进行预测,得到目标释义,并输出目标释义。
需要说明的是,在步骤S108中,语句拼接是指将目标语句与候选释义所对应的例句进行拼接的方式,以实现根据待分析词语在例句中的候选释义来确定待分析词语在目标语句中的目标释义。容易注意到的是,采用语句拼接的方式对目标语句中待分析词语的释义进行预测,只需要训练一个预测模型即可,无需对所有的词语单独训练模型,而且,采用语句拼接的方式训练预设模型降低了模型训练对数据量的要求,简化了数据采样的过程,从而提高了预设模型的训练效率。
基于上述步骤S102至步骤S108所限定的方案,可以获知,在本发明实施例中,采用语句拼接的方式得到预设模型,以使预设模型预测待分析词语在目标语句中的目标释义的方式,在获取目标语句以及目标语句中的待分析词语之后,通过对目标语句进行句法分析,确定待分析词语在目标语句中的目标词性,再基于预设模型对目标语句、待分析词语以及目标词性进行处理,得到待分析词语在目标语句中的目标释义。
容易注意到的是,在上述过程中,在对待分析词语进行翻译之前,首先确定待分析词语在目标语句中的词向,缩小了待分析词语对应的候选释义的范围,提高了预设模型对待分析词语进行翻译的翻译效率,提高了翻译的准确度。另外,预设模型是基于语句拼接的方式训练得到的,从而使得对于所有的词语只需要训练一个模型即可,无需对所有的词语单独训练模型,而且,采用语句拼接的方式训练预设模型降低了模型训练对数据量的要求,简化了数据采样的过程,从而提高了预设模型的训练效率。
由此可见,本申请所提供的方案达到了对句子中的词汇进行翻译的目的,从而实现了提高词汇的翻译效率的技术效果,进而解决了现有技术中,对句子中的词汇进行翻译时存在翻译效率低的技术问题。
在一种可选的实施例中,在对目标语句进行句法分析,确定待分析词语在目标语句中的目标词性,并根据目标词性确定待分析词语对应的候选释义之后,翻译客户端基于预设模型对目标语句、待分析词语以及候选释义进行处理,得到待分析词语在目标语句中的目标释义。
具体的,在预设模型中,获取与候选释义对应的候选语句,将候选语句与目标语句进行拼接处理,得到拼接结果,并根据拼接结果从候选释义中确定待分析词语在目标语句中的目标释义。其中,候选语句中至少包括待分析词语。例如,“take”在目标语句“Let metake your coat”中的词性为动词,“take”的候选释义“v.花费”对应的候选语句为“I hadheard an appeal could take years”;“take”的候选释义“v.拿”对应的候选语句为“Itake a handkerchief from my pocket”。将“Let me take your coat”与“I had heardan appeal could take years”进行拼接,以及将“Let me take your coat”与“I take ahandkerchief from my pocket”进行拼接,得到多个拼接结果,最后对拼接结果进行分析来确定“take”在目标语句“Let me take your coat”中的目标释义。
在一种可选的实施例中,如图3所示的一种可选的分析对象释义的方法流程图,由图3可知,翻译客户端在获取到目标语句以及待分析词语,并生成待分析词语对应的候选释义之后,对每个候选释义抽取出候选语句,并将候选语句与目标语句进行拼接处理,得到拼接结果,并根据拼接结果确定待分析词语在目标语句中的目标释义。
具体的,在候选语句与目标语句之间设置分隔符,按照分类标签、目标语句、分隔符、候选语句的顺序对目标语句与候选语句进行拼接处理,得到第一拼接结果。然后,从第一拼接结果中获取目标语句中的待分析词语对应的第一向量以及候选语句中的待分析词语对应的第二向量,根据第一向量与第二向量确定候选语句对应的分类标签的数值。最后,根据分类标签的数值确定待分析词语在目标语句中的第一释义与待分析词语在候选语句中的第二释义是否相同,得到拼接结果。
可选的,如图4所示的语句拼接示意图中,目标语句(即图4中的sentence1)为“Letme take your coat”,候选语句(即图4中的sentence2)为“I take a handkerchief frommy pocket”。对目标语句和候选语句进行拼接,得到的第一拼接结果可表示为:[CLS]+分词后的sentence1+[SEP]+分词后的sentence2+[SEP],其中,[CLS]表示分类标签,包含了语句级别的信息,分类标签对应的数值表示待分析词语在目标语句中的释义与在候选语句中的释义是否相同;待分析词语在目标语句中的第一向量和待分析词语在候选语句中的第二向量分别表征了待分析词语在目标语句和候选语句中的释义;[SEP]作为分隔符分隔两个句子/单词。
在获取到目标语句和候选语句之后,翻译客户端将目标语句和候选语句输入Bert模型。在该过程中,本申请对Bert模型的训练方式进行了改造,对于普通的文本匹配任务,只需将两个句子输入Bert模型,直接训练一个预测两个句子是否匹配的模型即可,而在本申请中,预测的是待分析词语在两个句子(即目标语句和候选语句)中是否是一样的含义,在将目标语句和候选语句输入Bert模型,并经过一轮训练后,可得到第二拼接结果:[CLS]+第一向量+[SEP]+第二向量+[SEP]继续训练。最后取[CLS]位置的向量对模型标签进行预测,即输出的分类目标是0/1。其中,0表示待分析词语在两个句子中的含义不一致,1表示待分析词语在两个句子中的含义一致。
举例来说,将“[CLS]Let me take your coat[SEP]I take a handkerchief frommy pocket[SEP]”输入Bert模型,经过一轮训练后,取:[CLS]位置的向量、第一句中“take”位置的向量(即第一向量)、[SEP]位置的向量、第二句中“take”位置的向量(即第二向量)以及结尾[SEP]位置的向量作为第二轮训练的输入,继续训练,最后取第二轮训练后[CLS]位置的向量来拟合最终的标签(此处标签=1),则预测“take”在两个句子中的含义是否一致。
进一步的,在得到第一向量和第二向量之后,根据第一向量与第二向量确定分类标签的数值。具体的,根据第一向量与第二向量确定第二释义对应的评分值,其中,在评分值大于预设评分值的情况下,确定分类标签的数值为第一预设数值;在评分值小于或等于预设评分值的情况下,确定分类标签的数值为第二预设数值。可选的,评分值表征了第二释义的准确度,其中,可采用相似度来确定评分值。例如,如果第一向量和第二向量的相似度大于预设相似度,则确定分类标签的数值为1,表示待分析词语在候选语句中的释义与待分析词语在目标语句中的释义相同;如果第一向量和第二向量的相似度小于等于预设相似度,则确定分类标签的数值为0,表示待分析词语在候选语句中的释义与待分析词语在目标语句中的释义不同。
可选的,在分类标签的数值为第一预设数值,并且,候选释义的数量为一个时,确定与候选语句对应的候选释义为目标释义。即如果只得到的一个分类标签的数值为1的候选释义,则该候选释义即为待分析词语在目标语句中的目标释义。
可选的,在分类标签的数值为第一预设数值,并且,候选释义的数量为多个时,获取在每个候选释义下,第一向量与第二向量所对应的候选评分值,并确定候选评分值最大的候选释义为目标释义。例如,如果出现多个分类标签的数值为1的候选释义,则候选释义的评分值进行排序,取评分值最高的候选释义作为待分析词语在目标语句中的目标释义。
可选的,在所有候选语句对应的分类标签的数值均为第二预设数值时,获取在每个候选释义下,第一向量与第二向量所对应的候选评分值,并确定候选评分值最大的候选释义为目标释义。例如,如果预所有的分类标签的数值均为0,仍可按照评分值进行排序,并取评分值最高的候选释义作为目标释义。但在这种场景下,还有很大的可能是,待分析词语在目标语句句子中的释义是一个新的没有出现在库内的释义,因此通过这样的方式,还可以对库内的词汇释义进行更新。
需要说明的是,在实际应用中,还可对预设评分值进行调整,从而避免在分类标签的数值均为0时,仍存在候选释义与目标释义相同的情况。
在一种可选的实施例中,在基于预设模型对目标语句、待分析词语以及候选释义进行处理,得到待分析词语在目标语句中的目标释义之前,还需要构建数据样本,并对数据样本进行训练,得到预设模型。其中,数据样本至少包括数据正样本和数据负样本。
可选的,如图5所示的预设模型的训练示意图,由图5可知,在构建数据样本之后,可生成正样本和负样本,并通过数据增强的方式平衡正样本和负样本的数量,同时生成训练、测试、验证数据集。然后,将上述数据集输入至模型中进行训练,得到预设模型。
在一种可选的实施例中,在构建数据正样本的过程中,首先获取第一预设语句,并对第一预设语句进行分词处理,并确定第一预设语句中待替换的词语,然后获取待替换的词语对应的同义词语,并按照预设语法规则将待替换的词语替换为同义词语,得到第二预设语句,最后,基于第一预设语句和第二预设语句构建数据正样本。
可选的,在构造训练、验证、测试数据集的过程中,将已有的上下文、实体指称(即待分析词语)、目标实体(即目标释义)以及候选实体(即候选释义)拆分为多条样本,其中,样本格式可以表示为:sentence1,sentence2,实体指称,label。为保证正负样本的平衡,需对数据正样本进行数据增强。
需要说明的是,对于一般的实体链接模型的训练数据来说,由于一个待分析词语通常可以找到多个候选释义,因此,每条数据可拆分为一条正样本和多条负样本,为了保证训练模型时的正、负样本数量的平衡,可对每条数据按照正、负样本1:2的比例进行抽取,当候选释义为目标释义时,该样本为正样本,分类标签对应的数值为1,否则为负样本,分类标签对应的数值为0。
而本申请中,由于候选释义为中文释义,包含待分析词语的目标语句为英文例句,考虑到训练出中文和英文向量的语义空间不同,在本申请中,使用待分析词语在目标语句中含义来代替候选的中文释义,从而将翻译问题变成为文本匹配的问题,例如:
对于输入的目标语句“Let me take your coat”和待分析词语“take”,此时,目标释义应为“v.拿”,对于目标释义“v.拿”,选择“take”在这个目标释义下的其他句子,例如,“I take a handkerchief from my pocket”来表示“take”的“v.拿”释义,此时“take”在这两个句子中的含义是一致的,因此“label”(即分类标签)为1,为正样本。样本对应的具体格式为:[“Let me take your coat”,“I take a handkerchief from my pocket”,“take”,“1”]。
在其他候选释义中,依次选取这些释义的其他例句,例如,“v.花费”这个释义的例句为:“I had heard an appeal could take years”,此时这两句中“take”的释义不一致,因此“label”为0,样本对应的具体格式为:[“Let me take your coat.”,”I had heard anappeal could take years.”,“take”,“0”]。按照该方法可构造出一系列的负样本。
在构建样本的过程中,由于候选释义中,正确的释义只有一个,而其余的都是负样本,因此负样本易于构建。为了平衡正、负样本的数量,可对负样本进行采样,使正、负样本的数量平衡,也可对正样本进行数据增强。
可选的,在本申请中,采用同义词来生成正样本的数据,例如,在例句“Let metake your coat.”中,在保证“take”这个词存在的情况下,随机将1-2个词汇替换为同义词,例如,将“coat”替换为“umbrella”,将“me”替换为“him”等。
需要注意的是,在进行同义词替换时,需要设置语法规则,例如,替换后的词语和原始词语的时态、单复数类型需保证一致,从而较大程度的避免替换后的语句出现主谓不一致的问题。在完成数据格式的转换后,可将数据打乱后按照6:2:2的比例拆分为训练、验证、测试数据。
此外,还需要说明的是,目前大多数的词典对词汇进行翻译时返回的是全部的释义,而这种预测词汇在句子中对应释义的算法,除了可返回词汇在句子中的精准释义,还可以丰富库内的例句信息,自动的为例句打上词汇释义的标签,因为在网络上要爬取到词汇例句很简单,但这样包含了词汇在例句中含义的数据是很有限的,使用本申请所提供的方法可以在只拥有部分完整数据的情况下,自动的对例句打上词汇释义的标签,同时也可以验证爬下来的数据(已有例句词汇释义标签)的准确性。
除此之外,本申请所提供的方案还可用于词汇学习的推荐场景,例如,对于小学生,可能只要求掌握“take”最基本的“拿,取”这个释义,而“take”作为“吃,喝,认为,花费”等释义是小学生还没有学习到的,在该场景中,翻译客户端可使用本申请所提供的方案对例句进行标签,在推荐学习的句子时,只返回特定释义下的例句。而对于高中生,已经学习到更丰富的释义时,采用本申请所提供的方案可推荐更丰富的例句。
由上述内容可知,本申请所提供的方案引入词性标注,首先对词汇的词性进行预测,缩小候选释义的范围,提高了模型效率。另外,采用语句拼接的方式对句子中词汇的释义进行预测,只需要训练一个模型,由于最终模型为0/1的二分类模型,无需对每个词汇在每个释义下抽取几百条数据,只需要保证每个词汇在每个释义下有数据,且0/1类别下的训练数据尽量平衡即可,从而降低了训练模型对数据量的要求,也无需进行复杂的数据采样。在数据采样的部分,对于只有一个例句的词汇释义,通过同义词替换的方式进行数据增强。另外,使用语句拼接的方式不需要强行对预测结果打上标签,当词汇在例句中的含义与库内的都不一致时,分类模型一定会给出一个结果,但结果大概率是错误的,实体链接模型的鲁棒性更强。最后,本申请还可对未出现在库内的词汇释义进行补全,完善库内的词汇释义。
实施例2
根据本发明实施例,还提供了一种分析对象释义的方法实施例,其中,图6是根据本发明实施例的分析对象释义的方法流程图,如图6所示,该方法包括如下步骤:
步骤S602,获取待分析语句以及待分析语句中的待分析词语。
在步骤S602中,待分析词语为需要翻译的词语,而待分析语句为待分析词语所在的例句,例如,对于例句“Let me take your coat”,“take”为待分析词语,上述例句为待分析语句。
可选的,可对网络上的词典进行爬取,以得到待分析语句以及待分析词语,也可通过其他的开源免费资源来获取待分析语句以及待分析词语。
步骤S604,将待分析语句与候选语句进行拼接处理,得到拼接结果,其中,候选语句中至少包括待分析词语。
需要说明的是,在步骤S604中,语句拼接是指将待分析语句与候选释义所对应的例句进行拼接的方式,以实现根据待分析词语在例句中的候选释义来确定待分析词语在待分析语句中的目标释义。容易注意到的是,采用语句拼接的方式对待分析语句中待分析词语的释义进行预测,只需要训练一个预测模型即可,无需对所有的词语单独训练模型,而且,采用语句拼接的方式训练预设模型降低了模型训练对数据量的要求,简化了数据采样的过程,从而提高了预设模型的训练效率。
可选的,在步骤S604中,在候选语句与待分析语句之间设置分隔符,按照分类标签、待分析词语、分隔符、候选语句的顺序对待分析语句与候选语句进行拼接处理,得到第一拼接结果,然后,从第一拼接结果中获取待分析语句中的待分析词语对应的第一向量以及候选语句中的待分析词语对应的第二向量,并根据第一向量与第二向量确定候选语句对应的分类标签的数值,最后,根据分类标签的数值确定待分析词语在待分析语句中的第一释义与待分析词语在候选语句中的第二释义是否相同,得到拼接结果。
步骤S606,根据待分析词语在待分析语句中的第一释义,以及待分析词语在候选语句中的第二释义,确定拼接结果所对应的标签。
可选的,可根据待分析语句中的待分析词语对应的第一向与候选语句中的待分析词语对应的第二向量确定第二释义对应的评分值,在评分值大于预设评分值的情况下,确定分类标签的数值为第一预设数值;在评分值小于或等于预设评分值的情况下,确定分类标签的数值为第二预设数值。其中,评分值表征了第二释义的准确度。
步骤S608,根据待分析语句、待分析词语以及拼接结果所对应的标签进行模型训练,得到预设模型,以使预设模型输出待分析词语所对应的目标释义。
可选的,在分类标签的数值为第一预设数值,并且,候选释义的数量为一个时,确定与候选语句对应的候选释义为目标释义。在分类标签的数值为第一预设数值,并且,候选释义的数量为多个时,获取在每个候选释义下,第一向量与第二向量所对应的候选评分值,确定候选评分值最大的候选释义为目标释义。在所有候选语句对应的分类标签的数值均为第二预设数值时,获取在每个候选释义下,第一向量与第二向量所对应的候选评分值,确定候选评分值最大的候选释义为目标释义。
基于上述步骤S602至步骤S608所限定的方案,可以获知,在本发明实施例中,采用语句拼接的方式得到预设模型,以使预设模型预测待分析词语在待分析语句中的目标释义的方式,在获取待分析语句以及待分析语句中的待分析词语之后,将待分析语句与候选语句进行拼接处理,得到拼接结果,并根据待分析词语在待分析语句中的第一释义,以及待分析词语在候选语句中的第二释义,确定拼接结果所对应的标签,最后,根据待分析语句、待分析词语以及拼接结果所对应的标签进行模型训练,得到预设模型,以使预设模型输出待分析词语所对应的目标释义。
容易注意到的是,在上述过程中,预设模型是基于语句拼接的方式训练得到的,从而使得对于所有的词语只需要训练一个模型即可,无需对所有的词语单独训练模型,而且,采用语句拼接的方式训练预设模型降低了模型训练对数据量的要求,简化了数据采样的过程,从而提高了预设模型的训练效率。
由此可见,本申请所提供的方案达到了对句子中的词汇进行翻译的目的,从而实现了提高词汇的翻译效率的技术效果,进而解决了现有技术中,对句子中的词汇进行翻译时存在翻译效率低的技术问题。
在一种可选的实施例中,在构建数据样本之后,可生成正样本和负样本,并通过数据增强的方式平衡正样本和负样本的数量,同时生成训练、测试、验证数据集。然后,将上述数据集输入至模型中进行训练,得到预设模型。
可选的,在构建数据正样本的过程中,首先获取第一预设语句,并对第一预设语句进行分词处理,并确定第一预设语句中待替换的词语,然后获取待替换的词语对应的同义词语,并按照预设语法规则将待替换的词语替换为同义词语,得到第二预设语句,最后,基于第一预设语句和第二预设语句构建数据正样本。
需要说明的是,对训练预设模型的过程已在实施例1中进行了详细说明,在此不再赘述。
实施例3
根据本发明实施例,还提供了一种分析对象释义的装置实施例,其中,图7是根据本发明实施例的分析对象释义的装置示意图,如图7所示,该装置包括:获取模块701、分析模块703、确定模块705以及处理模块707。
其中,获取模块701,用于获取目标语句以及目标语句中的待分析词语;分析模块703,用于对目标语句进行句法分析,确定待分析词语在目标语句中的目标词性;确定模块705,用于根据目标词性确定待分析词语对应的候选释义;处理模块707,用于基于预设模型对目标语句、待分析词语以及目标词性进行处理,得到待分析词语在目标语句中的目标释义,其中,预设模型采用语句拼接的方式训练得到的。
需要说明的是,上述获取模块701、分析模块703、确定模块705以及处理模块707对应于上述实施例中的步骤S102至步骤S108,四个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。
可选的,处理模块包括:第一获取模块、第一处理模块以及第一确定模块。其中,第一获取模块,用于在预设模型中,获取与候选释义对应的候选语句,其中,候选语句中至少包括待分析词语;第一处理模块,用于将候选语句与目标语句进行拼接处理,得到拼接结果;第一确定模块,用于根据拼接结果从候选释义中确定待分析词语在目标语句中的目标释义。
可选的,第一处理模块包括:第二处理模块、第二获取模块、第二确定模块以及第三确定模块。其中,第二处理模块,用于在候选语句与目标语句之间设置分隔符,按照分类标签、目标语句、分隔符、候选语句的顺序对目标语句与候选语句进行拼接处理,得到第一拼接结果;第二获取模块,用于从第一拼接结果中获取目标语句中的待分析词语对应的第一向量以及候选语句中的待分析词语对应的第二向量;第二确定模块,用于根据第一向量与第二向量确定候选语句对应的分类标签的数值;第三确定模块,用于根据分类标签的数值确定待分析词语在目标语句中的第一释义与待分析词语在候选语句中的第二释义是否相同,得到拼接结果。
可选的,第二确定模块包括:第四确定模块、第五确定模块以及第六确定模块。其中,第四确定模块,用于根据第一向量与第二向量确定第二释义对应的评分值,其中,评分值表征了第二释义的准确度;第五确定模块,用于在评分值大于预设评分值的情况下,确定分类标签的数值为第一预设数值;第六确定模块,用于在评分值小于或等于预设评分值的情况下,确定分类标签的数值为第二预设数值。
可选的,第一确定模块包括:第七确定模块,用于在分类标签的数值为第一预设数值,并且,候选释义的数量为一个时,确定与候选语句对应的候选释义为目标释义。
可选的,第一确定模块包括:第三获取模块以及第八确定模块。其中,第三获取模块,用于在分类标签的数值为第一预设数值,并且,候选释义的数量为多个时,获取在每个候选释义下,第一向量与第二向量所对应的候选评分值;第八确定模块,用于确定候选评分值最大的候选释义为目标释义。
可选的,第一确定模块包括:第四获取模块以及第九确定模块。其中,第四获取模块,用于在所有候选语句对应的分类标签的数值均为第二预设数值时,获取在每个候选释义下,第一向量与第二向量所对应的候选评分值;第九确定模块,用于确定候选评分值最大的候选释义为目标释义。
可选的,分析对象释义的装置还包括:第一构建模块以及训练模块。其中,第一构建模块,用于在基于预设模型对目标语句、待分析词语以及候选释义进行处理,得到待分析词语在目标语句中的目标释义之前,构建数据样本,其中,数据样本至少包括数据正样本和数据负样本;训练模块,用于对数据样本进行训练,得到预设模型。
可选的,第一构建模块包括:第五获取模块、第十确定模块、第六获取模块、替换模块以及第二构建模块。其中,第五获取模块,用于获取第一预设语句;第十确定模块,用于对第一预设语句进行分词处理,并确定第一预设语句中待替换的词语;第六获取模块,用于获取待替换的词语对应的同义词语;替换模块,用于按照预设语法规则将待替换的词语替换为同义词语,得到第二预设语句;第二构建模块,用于基于第一预设语句和第二预设语句构建数据正样本。
实施例4
根据本发明实施例的另一方面,还提供了一种非易失性存储介质,该非易失性存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述实施例1或实施例2中的分析对象释义的方法。
实施例5
根据本发明实施例的另一方面,还提供了一种处理器,该处理器用于运行程序,其中,程序被设置为运行时执行上述实施例1或实施例2中的分析对象释义的方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (13)

1.一种分析对象释义的方法,其特征在于,包括:
获取目标语句以及所述目标语句中的待分析词语;
对所述目标语句进行句法分析,确定所述待分析词语在所述目标语句中的目标词性;
根据所述目标词性确定所述待分析词语对应的候选释义;
基于预设模型对所述目标语句、所述待分析词语以及所述候选释义进行处理,得到所述待分析词语在所述目标语句中的目标释义,其中,所述预设模型采用语句拼接的方式训练得到的。
2.根据权利要求1所述的方法,其特征在于,基于预设模型对所述目标语句、所述待分析词语以及所述候选释义进行处理,得到所述待分析词语在所述目标语句中的目标释义,包括:
在所述预设模型中,获取与所述候选释义对应的候选语句,其中,所述候选语句中至少包括所述待分析词语;
将所述候选语句与所述目标语句进行拼接处理,得到拼接结果;
根据所述拼接结果从所述候选释义中确定所述待分析词语在所述目标语句中的目标释义。
3.根据权利要求2所述的方法,其特征在于,将所述候选语句与所述目标语句进行拼接处理,得到拼接结果,包括:
在所述候选语句与所述目标语句之间设置分隔符,按照分类标签、所述目标语句、所述分隔符、所述候选语句的顺序对所述目标语句与所述候选语句进行拼接处理,得到第一拼接结果;
从所述第一拼接结果中获取所述目标语句中的待分析词语对应的第一向量以及所述候选语句中的待分析词语对应的第二向量;
根据所述第一向量与所述第二向量确定所述候选语句对应的分类标签的数值;
根据所述分类标签的数值确定所述待分析词语在所述目标语句中的第一释义与所述待分析词语在所述候选语句中的第二释义是否相同,得到所述拼接结果。
4.根据权利要求3所述的方法,其特征在于,根据所述第一向量与所述第二向量确定所述分类标签的数值,包括:
根据所述第一向量与所述第二向量确定所述第二释义对应的评分值,其中,所述评分值表征了所述第二释义的准确度;
在所述评分值大于预设评分值的情况下,确定所述分类标签的数值为第一预设数值;
在所述评分值小于或等于所述预设评分值的情况下,确定所述分类标签的数值为第二预设数值。
5.根据权利要求4所述的方法,其特征在于,根据所述拼接结果从所述候选释义中确定所述待分析词语在所述目标语句中的目标释义,包括:
在所述分类标签的数值为所述第一预设数值,并且,所述候选释义的数量为一个时,确定与所述候选语句对应的候选释义为所述目标释义。
6.根据权利要求4所述的方法,其特征在于,根据所述拼接结果从所述候选释义中确定所述待分析词语在所述目标语句中的目标释义,包括:
在所述分类标签的数值为所述第一预设数值,并且,所述候选释义的数量为多个时,获取在每个候选释义下,所述第一向量与所述第二向量所对应的候选评分值;
确定所述候选评分值最大的候选释义为所述目标释义。
7.根据权利要求4所述的方法,其特征在于,根据所述拼接结果从所述候选释义中确定所述待分析词语在所述目标语句中的目标释义,包括:
在所有候选语句对应的分类标签的数值均为所述第二预设数值时,获取在每个候选释义下,所述第一向量与所述第二向量所对应的候选评分值;
确定所述候选评分值最大的候选释义为所述目标释义。
8.根据权利要求1所述的方法,其特征在于,在基于预设模型对所述目标语句、所述待分析词语以及所述候选释义进行处理,得到所述待分析词语在所述目标语句中的目标释义之前,所述方法还包括:
构建数据样本,其中,所述数据样本至少包括数据正样本和数据负样本;
对所述数据样本进行训练,得到所述预设模型。
9.根据权利要求8所述的方法,其特征在于,构建数据正样本,包括:
获取第一预设语句;
对所述第一预设语句进行分词处理,并确定所述第一预设语句中待替换的词语;
获取所述待替换的词语对应的同义词语;
按照预设语法规则将所述待替换的词语替换为所述同义词语,得到第二预设语句;
基于所述第一预设语句和所述第二预设语句构建所述数据正样本。
10.一种分析对象释义的方法,其特征在于,包括:
获取待分析语句以及所述待分析语句中的待分析词语;
将所述待分析语句与候选语句进行拼接处理,得到拼接结果,其中,所述候选语句中至少包括所述待分析词语;
根据所述待分析词语在所述待分析语句中的第一释义,以及所述待分析词语在所述候选语句中的第二释义,确定所述拼接结果所对应的标签;
根据所述待分析语句、所述待分析词语以及所述拼接结果所对应的标签进行模型训练,得到预设模型,以使所述预设模型输出所述待分析词语所对应的目标释义。
11.一种分析对象释义的装置,其特征在于,包括:
获取模块,用于获取目标语句以及所述目标语句中的待分析词语;
分析模块,用于对所述目标语句进行句法分析,确定所述待分析词语在所述目标语句中的目标词性;
确定模块,用于根据所述目标词性确定所述待分析词语对应的候选释义;
处理模块,用于基于预设模型对所述目标语句、所述待分析词语以及所述候选释义进行处理,得到所述待分析词语在所述目标语句中的目标释义,其中,所述预设模型采用语句拼接的方式训练得到的。
12.一种非易失性存储介质,其特征在于,所述非易失性存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至10任一项中所述的分析对象释义的方法。
13.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序被设置为运行时执行所述权利要求1至10任一项中所述的分析对象释义的方法。
CN202110142998.9A 2021-02-02 2021-02-02 分析对象释义的方法和装置 Pending CN114841174A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110142998.9A CN114841174A (zh) 2021-02-02 2021-02-02 分析对象释义的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110142998.9A CN114841174A (zh) 2021-02-02 2021-02-02 分析对象释义的方法和装置

Publications (1)

Publication Number Publication Date
CN114841174A true CN114841174A (zh) 2022-08-02

Family

ID=82560868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110142998.9A Pending CN114841174A (zh) 2021-02-02 2021-02-02 分析对象释义的方法和装置

Country Status (1)

Country Link
CN (1) CN114841174A (zh)

Similar Documents

Publication Publication Date Title
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
CN109460552B (zh) 基于规则和语料库的汉语语病自动检测方法及设备
CN111310440B (zh) 文本的纠错方法、装置和系统
Krasnowska-Kieraś et al. Empirical linguistic study of sentence embeddings
CN114580382A (zh) 文本纠错方法以及装置
CN108885617B (zh) 语句解析系统以及程序
US9646512B2 (en) System and method for automated teaching of languages based on frequency of syntactic models
CN110147546B (zh) 一种英语口语的语法校正方法及装置
Moradi et al. A hybrid approach for Persian named entity recognition
Nugraha et al. Typographic-based data augmentation to improve a question retrieval in short dialogue system
Alosaimy et al. Tagging classical Arabic text using available morphological analysers and part of speech taggers
Pham et al. A hybrid approach to vietnamese word segmentation using part of speech tags
CN112380848A (zh) 文本生成方法、装置、设备及存储介质
Jayasuriya et al. Learning a stochastic part of speech tagger for sinhala
Nama et al. Sentiment analysis of movie reviews: A comparative study between the naive-bayes classifier and a rule-based approach
Oudah et al. Person name recognition using the hybrid approach
Sreeram et al. A Novel Approach for Effective Recognition of the Code-Switched Data on Monolingual Language Model.
CN114298048A (zh) 命名实体识别方法及装置
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
CN114626463A (zh) 语言模型的训练方法、文本匹配方法及相关装置
CN114841174A (zh) 分析对象释义的方法和装置
CN114492362A (zh) 一种研报问答生成方法、系统及计算机可读存储介质
Matos et al. Vector-space models and terminologies in gene normalization and document classification
Sreeram et al. Exploiting Parts-of-Speech for improved textual modeling of code-switching data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination