CN115146623A - 文本词替换方法、装置、存储介质及电子设备 - Google Patents

文本词替换方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN115146623A
CN115146623A CN202210885844.3A CN202210885844A CN115146623A CN 115146623 A CN115146623 A CN 115146623A CN 202210885844 A CN202210885844 A CN 202210885844A CN 115146623 A CN115146623 A CN 115146623A
Authority
CN
China
Prior art keywords
word
replacement
words
text
replaced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210885844.3A
Other languages
English (en)
Inventor
林雨
安哲成
吴培昊
马泽君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youzhuju Network Technology Co Ltd
Original Assignee
Beijing Youzhuju Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youzhuju Network Technology Co Ltd filed Critical Beijing Youzhuju Network Technology Co Ltd
Priority to CN202210885844.3A priority Critical patent/CN115146623A/zh
Publication of CN115146623A publication Critical patent/CN115146623A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本公开涉及一种文本词替换方法、装置、存储介质及电子设备,在生成替换词时,能够考虑词的语义信息,使得替换词更符合上下文语境,保证替换前后语义一致。该方法包括:确定初始文本句中待替换的文本词,以及待替换的文本词在初始文本句中的目标位置;将包括目标位置的初始文本句输入替换词生成模型,得到替换词生成模型输出的替换词生成结果,其中,替换词生成模型是基于标注有语义信息的单词样本训练得到的,语义信息包括单词的释义,以及单词在释义下的例句,替换词生成结果包括待替换的文本词对应的多个替换词,以及多个替换词对应的概率分布;根据替换词生成结果,确定目标替换词;用目标替换词替换待替换的文本词。

Description

文本词替换方法、装置、存储介质及电子设备
技术领域
本公开涉及文本处理领域,具体地,涉及一种文本词替换方法、装置、存储介质及电子设备。
背景技术
润色文章指的是对语言进行修改,使得文章更加易读和富有文采,使得表述更加顺畅。而文本词替换技术则是文本润色的一种核心技术,其广泛的应用于语言学习和应用中,可以使语言学习者在措辞造句时使用更高级的词汇或词组等,进而使得文章具有更丰富的表达。因此,文本词替换技术对言语使用和学习都起到积极的作用。
发明内容
提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
第一方面,本公开提供一种文本词替换方法,包括:
确定初始文本句中待替换的文本词,以及所述待替换的文本词在所述初始文本句中的目标位置;
将包括所述目标位置的初始文本句输入替换词生成模型,得到所述替换词生成模型输出的替换词生成结果,其中,所述替换词生成模型是基于标注有语义信息的单词样本训练得到的,所述语义信息包括单词的释义,以及所述单词在所述释义下的例句,所述替换词生成结果包括所述待替换的文本词对应的多个替换词,以及所述多个替换词对应的概率分布;
根据所述替换词生成结果,确定目标替换词;
用所述目标替换词替换所述待替换的文本词。
根据本公开实施例的第二方面,提供一种文本词替换装置,包括:
第一确定模块,用于确定初始文本句中待替换的文本词,以及所述待替换的文本词在所述初始文本句中的目标位置;
替换词生成模块,用于将包括所述目标位置的初始文本句输入替换词生成模型,得到所述替换词生成模型输出的替换词生成结果,其中,所述替换词生成模型是基于标注有语义信息的单词样本训练得到的,所述语义信息包括单词的释义,以及所述单词在所述释义下的例句,所述替换词生成结果包括所述待替换的文本词对应的多个替换词,以及所述多个替换词对应的概率分布;
第二确定模块,用于根据所述替换词生成结果,确定目标替换词;
替换模块,用于用所述目标替换词替换所述待替换的文本词。
根据本公开实施例的第三方面,提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现本公开第一方面所提供的文本词替换方法的步骤。
根据本公开实施例的第四方面,提供一种电子设备,包括:
存储装置,其上存储有至少一个计算机程序;
至少一个处理装置,用于执行所述存储装置中的所述至少一个计算机程序,以实现本公开第一方面所提供的文本词替换方法的步骤。
在上述技术方案中,将包括待替换的文本词的目标位置的初始文本句输入替换词生成模型,得到替换词生成模型输出的替换词生成结果,然后根据替换词生成结果,确定目标替换词,再用目标替换词替换待替换的文本词。该文本词替换方法通过替换词生成模型自动生成文本中待替换文本词的替换词,不需要采用繁琐的自然语言处理规则对文本进行处理,在自动生成替换词的同时还降低了维护成本。进一步,由于替换词生成模型是基于标注有单词的释义,以及单词在释义下的例句的单词样本训练得到的,如此,在模型根据待替换的文本词的含义生成替换词的同时,能够考虑待替换的文本词的语义信息,进而使得生成的替换词更符合上下文语境、并且在实现替换词多样性的基础上保证了替换前后的文本句语义一致,提高了替换词的准确度。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。在附图中:
图1是根据一示例性实施例示出的一种文本词替换方法的流程图。
图2是根据一示例性实施例示出的一种预设语言模型的架构图。
图3是根据另一示例性实施例示出的一种文本词替换方法的流程图。
图4是根据一示例性实施例示出的一种文本词替换装置的框图。
图5是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
本公开中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
同时,可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
发明人研究发现,在相关技术中,词替换的方案可以分为两大类:第一类完全基于词典信息的,通过查询该单词的近义词或相关词,然后进行词替换,该方法忽略了句子的上下文信息,而且难以保证生成结果的多样性。第二类完全是基于语言模型的,语言模型输出模型判断得到的该单词的近义词或相关词,然后进行词替换,由于模型输出的是模型的结果完全依赖于统计数据,受统计相关的影响,模型进行判断时完全基于已有文本与待替换文本的单词组合方式,机械的将与待替换文本单词组合方式相似的文本句进行匹配,然后将与待替换的文本词处于同一位置的单词作为替换词,导致生成相关但语义相反的单词,不符合文本句的原义。
有鉴于此,本公开提供一种文本词替换方法、装置、存储介质及电子设备,通过结合词典信息和语言模型的方式,在模型生成替换词的同时,能够考虑词的语义信息,使得替换词更符合上下文语境,保证替换前后语义一致。
图1是根据本公开一示例性实施例示出的一种文本词替换方法的流程图。参照图1,该文本词替换方法包括以下步骤:
步骤101,确定初始文本句中待替换的文本词,以及待替换的文本词在初始文本句中的目标位置。
步骤102,将包括目标位置的初始文本句输入替换词生成模型,得到替换词生成模型输出的替换词生成结果,其中,替换词生成模型是基于标注有语义信息的单词样本训练得到的,语义信息包括单词的释义,以及单词在释义下的例句,替换词生成结果包括待替换的文本词对应的多个替换词,以及多个替换词对应的概率分布。
步骤103,根据替换词生成结果,确定目标替换词。
步骤104,用目标替换词替换待替换的文本词。
应当理解的是,由于本公开实施例是根据句子内单词对应的语义信息,即针对某个句子中包括的单词在该语境下的释义,来确定该单词的替换词。因此,单词样本可以是“单词-释义-例句”的形式,且一个单词可以包括多个释义,其一个释义下可以包括多个对应的例句。单词样本可以是通过人工对给定数据的给定单词,标注其释义以及每一释义对应的例句,也可以从词典/百科资料中抽取,词典或者百科会对单词的语义/内容做出详细的解释,并给出例句,可以从中抽取出“单词-释义-例句”的数据,本公开实施例对单词样本的来源不作限定。本公开实施例对词典的数量也不作限定,可以从多个词典中抽取同一单词的语义信息,共同构成“单词-释义-例句”形式的数据。另外,除了单语言词典,跨语言的也有不同语言下单词的解释和例句,因此可以从跨语言词典中抽取出“单词-释义-例句”形式的数据,本公开实施例对此也不作限定。
还应当理解的是,初始文本句可以是一个或多个,在一个初始文本句中可以有多个或一个待替换的文本词。目标替换词可以是一个或多个,最终可以得到多个替换句供用户选择。本公开实施例对此均不作限定。
在上述技术方案中,将包括待替换的文本词的目标位置的初始文本句输入替换词生成模型,得到替换词生成模型输出的替换词生成结果,然后根据替换词生成结果,确定目标替换词,再用目标替换词替换待替换的文本词。该文本词替换方法通过替换词生成模型自动生成文本中待替换文本词的替换词,不需要采用繁琐的自然语言处理规则对文本进行处理,在自动生成替换词的同时还降低了维护成本。进一步,由于替换词生成模型是基于标注有单词的释义,以及单词在释义下的例句的单词样本训练得到的,如此,在模型根据待替换的文本词的含义生成替换词的同时,能够考虑待替换的文本词的语义信息,进而使得生成的替换词更符合上下文语境、并且在实现替换词多样性的基础上保证了替换前后的文本句语义一致,提高了替换词的准确度。
在可能的方式中,替换词生成模型包括释义编码器和上下文编码器,替换词生成模型的训练可以是首先通过释义编码器将单词样本中的每一单词的释义编码为向量表征,然后通过上下文编码器针对单词样本中每一单词对应的例句,将例句中除单词外的其他单词编码为单词的上下文表征,并基于上下文表征输出替换词生成结果,再至少根据上下文表征与向量表征之间的语义相似度更新释义编码器的参数与上下文编码器的参数。
应当理解的是,替换词生成模型可以在给定句子和单词下生成可以替换给定单词的候选词,因此,替换词生成模型可以包括释义编码器和上下文编码器。在训练过程中,针对“单词-释义-例句”形式的单词样本数据,释义编码器将单词样本中的每一单词的释义编码为向量表征,上下文编码器针对单词样本中每一单词对应的例句,将例句中除单词外的其他单词编码为单词的上下文表征,然后替换词生成模型将向量表征和上下文表征进行匹配,学习二者之间的语义相似性。
同时,上下文编码器还同时进行单词预测任务,对例句中标注的对应单词位置的单词进行预测,再至少根据上下文表征与向量表征之间的语义相似度更新释义编码器的参数与上下文编码器的参数,进而提升替换词生成模型的性能。上下文编码器的单词预测任务可以是Mask Language Model中的掩盖词预测任务,即随机将例句中15%的内容掩盖,然后利用剩下的内容去预测被掩盖的原词,本公开实施例对上下文编码器的单词预测任务的具体内容不作限定。当然,还可以将其他评价指标和上下文表征与向量表征之间的语义相似度结合,共同作为更新释义编码器的参数与上下文编码器的参数的依据,本公开实施例对此不作限定。
在可能的方式中,释义编码器的初始参数和上下文编码器的初始参数是根据基于无标签的单词样本训练的预设语言模型确定的。
应当理解的是,由于上述单词样本为“单词-释义-例句”的复杂形式,采集单词样本需要花费较长的时间,因此,为了减少用于训练替换词生成模型的单词样本数,同时简化替换词生成模型的训练过程,在一定程度上提升替换词生成模型的性能,可以采用通用型的预设语言模型对释义编码器和上下文编码器进行初始化。
具体地,预设语言模型是基于大量无标签的单词样本训练得到的。如图2所示,预设语言模型包括释义编码器和上下文编码器,上下文编码器同时在掩模预测任务和释义匹配任务上进行训练,通过一起训练这两个任务,获得更好的上下文和单词释义的关系表征。在预设语言模型训练完成后,将预设语言模型的释义编码器的参数作为替换词生成模型的释义编码器的初始参数,以及将预设语言模型的上下文编码器的参数作为替换词生成模型的上下文编码器的初始参数,以便在预训练的通用型的语言模型的基础上训练替换词生成模型。
示例地,可以采用BERT模型中的MASK词预测任务,或者短语预测,或者XLNET回归式的词预测任务进行预设语言模型的训练,本公开实施例对预设语言模型使用的模型结构、模型尺寸等均不作限定,同时,本公开实施例对预设语言模型的上下文编码器所使用的词预测任务类型也不作限定。
在可能的方式中,确定初始文本句中待替换的文本词,可以是先确定待替换的文本中每一单词的语义重要度,然后根据每一单词的语义重要度,将待替换的文本中的单词进行排序,再根据排序结果确定待替换的文本词。
应当理解的是,单词的语义重要度指该单词在所处文本句中对文本句的语义的重要程度,因此可以在对书写文本进行词替换时,对文本句包括的单词进行筛选,过滤掉语义重要度低的单词,选择语义重要度高的单词进行词替换。具体可以先确定文本句中各个单词的语义重要度,然后根据各个单词的语义重要度将文本句中的所有单词进行排序,选择前n个语义重要度高的单词作为待替换的文本词,n可以取10-50,本公开实施例对此不作限定。
示例地,可以根据单词在文本句中出现的频率确定单词的语义重要度并排序,针对英语文本,还可以使用CEFR词级、单词的兰斯值lexile等作为单词语义重要度的参考标准。本公开实施例对确定文本句中单词的语义重要度的方式不作限定。
当然,也可以根据用户的选择,将文本句中部分或全部单词作为待替换的文本词。还可以根据单词的词性、成分等对文本句中的单词进行分类,过滤掉例如冠词、代词、数量词、专有名词、以及表示物体特征的类别(颜色、地点、状态等)等的单词,并将其他单词确定为待替换的文本词。本公开实施例对初始文本句中待替换的文本词的确定方式也不作限定。
在可能的方式中,根据替换词生成结果,确定目标替换词,可以是删除替换词生成结果中的以下至少一种替换词,得到目标替换词集合:
与待替换的文本词相同的替换词、与待替换的文本词原形相同的替换词、与待替换的文本词成分不同的替换词、带有敏感词汇的替换词以及语法错误的替换词。
应当理解的是,针对存在性数变化的语言,比如英语、法语、德语以及拉丁语等,可以删除替换词生成结果中与待替换的文本词原形相同的替换词,若待替换的文本词为going,而单词goes、went与going的原形相同,均为go,若替换词生成结果中包括goes、went,则可以删除,当然,going的原形go也可以删除。若待替换的文本词为book,可以删除替换词生成结果中文本词book的复数形式books。若待替换的文本词为angry,可以删除替换词生成结果中与文本词angry的原形相同的angrily、annoy、annoyed等。
针对待替换的文本词在原始文本句中的成分,可以删除替换词生成结果中与待替换的文本词成分不同的替换词,例如待替换的文本词在句子中扮演动词的成分,则可以删除替换词生成结果中非动词的替换词。
敏感词汇可以是包括脏话、不文明用语以及原始文本领域禁用词等,本公开实施例对敏感词汇的范畴不作具体限定。
针对替换词生成结果中替换词的语法判断,可以训练一个语法纠错模型,或直接采用商用/开源的语法纠错模型,用替换词生成结果中所有替换词替换待替换的文本词,得到多个替换句,然后将多个替换句输入语法纠错模型,若语法纠错模型将替换句中的替换词识别为语法错误并预测成另外一个单词,说明该替换词不符合上下文,则删除该替换词。还可以采用其他方式确定替换词生成结果中语法错误的替换词,本公开实施例对此不作限定。
当然,还可以删除替换词生成结果中其他不符合预设规则的替换词,预设规则可以由开发者或用户根据具体情况进行设定,本公开实施例对此也不作限定。
应当理解的是,上述删除替换词生成结果中的不满足条件的替换词,是基于替换词与待替换的文本词间的联系进行的,针对目标替换词集合中的替换词,可以进一步评估用替换词替换待替换的文本词后,得到的替换句的语义是否与原始文本句一致。因此,在一种可能的方式中,根据替换词生成结果,确定目标替换词,可以是用目标替换词集合中的替换词替换待替换的文本词,得到多个替换句,再计算每一替换句与初始文本句间的语义相似度,得到多个语义相似度值,然后根据多个语义相似度值以及目标替换词集合中替换词的概率分布,确定目标替换词集合中每一替换词的评分结果,最后根据每一替换词的评分结果,确定目标替换词。
示例地,可以基于通用语言模型的结果评估替换句和原始文本句的语义相似度,也可以采用基于BERT的词法替换的方法来评估替换词代入后的替换句和原始文本句的语义相似度,本公开实施例对此不作限定。在确定替换句和原始文本句的语义相似度后,可以结合目标替换词集合中替换词的概率分布,综合二者的加权结果作为替换词的最终评分结果,然后根据最终评分结果将目标替换词集合中替换词进行排序,选择前k个评分高的替换词为目标替换词,k一般取3-5,本公开实施例对此不作限定。
在可能的方式中,用目标替换词替换待替换的文本词,可以是根据预设规则,将目标替换词进行形态变化,得到形态变化后的目标替换词,然后用形态变化后的目标替换词替换待替换的文本词。
应当理解的是,对于中文等不存在单词形态变化的语言,可以直接用目标替换词替换待替换的文本词。而对于存在单词形态变化的语言,可以对目标替换词做进一步的形态变换,以满足句子的语法要求、保持目标替换词和待替换的文本词的形态的统一。
示例地,可以先确定待替换的文本词在原始文本句中的词性信息和形态信息,然后将目标替换词进行形态变化,得到与待替换的文本词形态一致的目标替换词。比如,若待替换的文本词是动词,且是第三人称单数,则可以将目标替换词转换为第三人称单数的形式,然后再替换待替换的文本词。其中,可以使用开源工具查询/使用单词的形态变化,本公开实施例对此不作限定。
在一些实施例中,图3是根据另一示例性实施例示出的一种文本词替换方法的流程图,如图3所示,文本词替换方法用于终端或服务器中,包括以下过程:数据采集、原词评估、替换词生成、替换词过滤、替换词重排序和替换词代入。
其中,数据采集可以是通过文本句采集装置采集文本数据或通过文本采集句拆分模块拆分文本中的文本句来采集文本数据,本公开实施例对此不作限定。
原词评估可以是先确定待替换的文本中每一单词的语义重要度,然后根据每一单词的语义重要度,将待替换的文本中的单词进行排序,再根据排序结果确定待替换的文本词。
替换词生成可以是将包括目标位置的初始文本句输入替换词生成模型,得到替换词生成模型输出的替换词生成结果,其中,替换词生成结果可以包括待替换的文本词对应的多个替换词,以及多个替换词对应的概率分布。替换词过滤可以是根据替换词生成结果,确定目标替换词,可以是删除替换词生成结果中满足预设条件的替换词,得到目标替换词集合,其中,预设条件可以是与待替换的文本词相同的替换词、与待替换的文本词原形相同的替换词、与待替换的文本词成分不同的替换词、带有敏感词汇的替换词以及语法错误的替换词等等,本公开实施例对此不作限定。
替换词重排序可以是用目标替换词集合中的替换词替换待替换的文本词,得到多个替换句,再计算每一替换句与初始文本句间的语义相似度,得到多个语义相似度值,然后根据多个语义相似度值以及目标替换词集合中替换词的概率分布,确定目标替换词集合中每一替换词的评分结果,最后根据每一替换词的评分结果,确定前k个评分高的替换词目标替换词。
替换词代入可以是根据预设规则,将目标替换词进行形态变化,得到形态变化后的目标替换词,然后用形态变化后的目标替换词替换待替换的文本词。
上述各过程的具体实施方式已在上文进行详细举例说明,这里不再赘述。另外应当理解的是,对于上述方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受上文所描述的动作顺序的限制。其次,本领域技术人员也应该知悉,上文所描述的实施例属于优选实施例,所涉及的步骤并不一定是本公开所必须的。
通过上述技术方案,将包括待替换的文本词的目标位置的初始文本句输入替换词生成模型,得到替换词生成模型输出的替换词生成结果,然后根据替换词生成结果,确定目标替换词,再用目标替换词替换待替换的文本词。该文本词替换方法通过替换词生成模型自动生成文本中待替换文本词的替换词,不需要采用繁琐的自然语言处理规则对文本进行处理,在自动生成替换词的同时还降低了维护成本。进一步,由于替换词生成模型是基于标注有单词的释义,以及单词在释义下的例句的单词样本训练得到的,如此,在模型根据待替换的文本词的含义生成替换词的同时,能够考虑待替换的文本词的语义信息,进而使得生成的替换词更符合上下文语境。同时,在替换词生成后,对替换词进行过滤,以及代入文本句与原始文本句进行比对,在实现替换词多样性的基础上保证了替换前后的文本句语义一致,提高了替换词的准确度。
基于同一构思,本公开实施例还提供一种文本词替换装置,该装置可以通过软件、硬件或者两者结合的方式成为电子设备的部分或全部。参照图4,该文本词替换装置400包括:
第一确定模块401,用于确定初始文本句中待替换的文本词,以及所述待替换的文本词在所述初始文本句中的目标位置;
替换词生成模块402,用于将包括所述目标位置的初始文本句输入替换词生成模型,得到所述替换词生成模型输出的替换词生成结果,其中,所述替换词生成模型是基于标注有语义信息的单词样本训练得到的,所述语义信息包括单词的释义,以及所述单词在所述释义下的例句,所述替换词生成结果包括所述待替换的文本词对应的多个替换词,以及所述多个替换词对应的概率分布;
第二确定模块403,用于根据所述替换词生成结果,确定目标替换词;
替换模块404,用于用所述目标替换词替换所述待替换的文本词。
可选地,所述替换词生成模型包括释义编码器和上下文编码器,所述替换词生成模型是通过如下模块训练得到的:
第一编码模块,用于通过所述释义编码器将所述单词样本中的每一单词的释义编码为向量表征;
第二编码模块,用于通过所述上下文编码器针对所述单词样本中每一单词对应的例句,将所述例句中除所述单词外的其他单词编码为所述单词的上下文表征;
输出模块,用于所述上下文编码器基于所述上下文表征输出替换词生成结果;
更新模块,用于至少根据所述上下文表征与所述向量表征之间的语义相似度更新所述释义编码器的参数与所述上下文编码器的参数。
可选地,所述释义编码器的初始参数和所述上下文编码器的初始参数是根据基于无标签的单词样本训练的预设语言模型确定的。
可选地,所述第二确定模块403用于:
删除所述替换词生成结果中的以下至少一种替换词,得到目标替换词集合:
与所述待替换的文本词相同的替换词、与所述待替换的文本词原形相同的替换词、与所述待替换的文本词成分不同的替换词、带有敏感词汇的替换词以及语法错误的替换词。
可选地,所述第二确定模块403用于:
用所述目标替换词集合中的替换词替换所述待替换的文本词,得到多个替换句;
计算每一替换句与所述初始文本句间的语义相似度,得到多个语义相似度值;
根据所述多个语义相似度值以及所述目标替换词集合中替换词的概率分布,确定所述目标替换词集合中每一替换词的评分结果;
根据所述每一替换词的评分结果,确定所述目标替换词。
可选地,所述替换模块404用于:
根据预设规则,将所述目标替换词进行形态变化,得到形态变化后的目标替换词;
用所述形态变化后的目标替换词替换所述待替换的文本词。
可选地,所述第一确定模块401用于:
确定待替换的文本中每一单词的语义重要度;
根据所述每一单词的语义重要度,将所述待替换的文本中的单词进行排序;
根据排序结果确定所述待替换的文本词。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
基于同一构思,本公开还提供一种非临时性计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现上述任一文本词替换方法的步骤。
基于同一构思,本公开还提供一种电子设备,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现上述任一文本词替换方法的步骤。
下面参考图5,其示出了适于用来实现本公开实施例的电子设备500的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
通常,以下装置可以连接至I/O接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507;包括例如磁带、硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从ROM 502被安装。在该计算机程序被处理装置501执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,可以利用诸如HTTP(HyperText Transfer Protocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:确定待提取特征的目标数据,并基于所述目标数据确定多个查询向量、多个键向量和多个值向量;确定每一所述查询向量对应的多个键值对信息,每一所述键值对信息是基于所述多个键向量、所述多个值向量和一数据样本确定的,其中用于确定所述多个键值对信息的多个所述数据样本是基于多个概率分布进行采样得到的,且所述多个概率分布基于所述多个查询向量确定;针对每一所述查询向量,基于所述查询向量和所述多个数据样本进行随机映射,得到多个随机查询向量,并基于所述多个随机查询向量和所述多个键值对信息,确定所述查询向量对应的特征信息。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,示例1提供了一种文本词替换方法,包括:
确定初始文本句中待替换的文本词,以及所述待替换的文本词在所述初始文本句中的目标位置;
将包括所述目标位置的初始文本句输入替换词生成模型,得到所述替换词生成模型输出的替换词生成结果,其中,所述替换词生成模型是基于标注有语义信息的单词样本训练得到的,所述语义信息包括单词的释义,以及所述单词在所述释义下的例句,所述替换词生成结果包括所述待替换的文本词对应的多个替换词,以及所述多个替换词对应的概率分布;
根据所述替换词生成结果,确定目标替换词;
用所述目标替换词替换所述待替换的文本词。
根据本公开的一个或多个实施例,示例2提供了示例1的方法,所述替换词生成模型包括释义编码器和上下文编码器,所述替换词生成模型的训练包括:
通过所述释义编码器将所述单词样本中的每一单词的释义编码为向量表征;
通过所述上下文编码器针对所述单词样本中每一单词对应的例句,将所述例句中除所述单词外的其他单词编码为所述单词的上下文表征;
所述上下文编码器基于所述上下文表征输出替换词生成结果;
至少根据所述上下文表征与所述向量表征之间的语义相似度更新所述释义编码器的参数与所述上下文编码器的参数。
根据本公开的一个或多个实施例,示例3提供了示例2的方法,所述释义编码器的初始参数和所述上下文编码器的初始参数是根据基于无标签的单词样本训练的预设语言模型确定的。
根据本公开的一个或多个实施例,示例4提供了示例1的方法,所述根据所述替换词生成结果,确定目标替换词,包括:
删除所述替换词生成结果中的以下至少一种替换词,得到目标替换词集合:
与所述待替换的文本词相同的替换词、与所述待替换的文本词原形相同的替换词、与所述待替换的文本词成分不同的替换词、带有敏感词汇的替换词以及语法错误的替换词。
根据本公开的一个或多个实施例,示例5提供了示例4的方法,所述根据所述替换词生成结果,确定目标替换词,包括:
用所述目标替换词集合中的替换词替换所述待替换的文本词,得到多个替换句;
计算每一替换句与所述初始文本句间的语义相似度,得到多个语义相似度值;
根据所述多个语义相似度值以及所述目标替换词集合中替换词的概率分布,确定所述目标替换词集合中每一替换词的评分结果;
根据所述每一替换词的评分结果,确定所述目标替换词。
根据本公开的一个或多个实施例,示例6提供了示例1的方法,所述用所述目标替换词替换所述待替换的文本词,包括:
根据预设规则,将所述目标替换词进行形态变化,得到形态变化后的目标替换词;
用所述形态变化后的目标替换词替换所述待替换的文本词。
根据本公开的一个或多个实施例,示例7提供了示例1的方法,所述确定初始文本句中待替换的文本词,包括:
确定待替换的文本中每一单词的语义重要度;
根据所述每一单词的语义重要度,将所述待替换的文本中的单词进行排序;
根据排序结果确定所述待替换的文本词。
根据本公开的一个或多个实施例,示例8提供了一种文本词替换装置,包括:
第一确定模块,用于确定初始文本句中待替换的文本词,以及所述待替换的文本词在所述初始文本句中的目标位置;
替换词生成模块,用于将包括所述目标位置的初始文本句输入替换词生成模型,得到所述替换词生成模型输出的替换词生成结果,其中,所述替换词生成模型是基于标注有语义信息的单词样本训练得到的,所述语义信息包括单词的释义,以及所述单词在所述释义下的例句,所述替换词生成结果包括所述待替换的文本词对应的多个替换词,以及所述多个替换词对应的概率分布;
第二确定模块,用于根据所述替换词生成结果,确定目标替换词;
替换模块,用于用所述目标替换词替换所述待替换的文本词。
根据本公开的一个或多个实施例,示例9提供了示例8的装置,所述替换词生成模型是通过如下模块训练得到的:
第一编码模块,用于通过所述释义编码器将所述单词样本中的每一单词的释义编码为向量表征;
第二编码模块,用于通过所述上下文编码器针对所述单词样本中每一单词对应的例句,将所述例句中除所述单词外的其他单词编码为所述单词的上下文表征;
输出模块,用于所述上下文编码器基于所述上下文表征输出替换词生成结果;
更新模块,用于至少根据所述上下文表征与所述向量表征之间的语义相似度更新所述释义编码器的参数与所述上下文编码器的参数。
根据本公开的一个或多个实施例,示例10提供了示例9的装置,所述释义编码器的初始参数和所述上下文编码器的初始参数是根据基于无标签的单词样本训练的预设语言模型确定的。
根据本公开的一个或多个实施例,示例11提供了示例8的装置,所述第二确定模块用于:
删除所述替换词生成结果中的以下至少一种替换词,得到目标替换词集合:
与所述待替换的文本词相同的替换词、与所述待替换的文本词原形相同的替换词、与所述待替换的文本词成分不同的替换词、带有敏感词汇的替换词以及语法错误的替换词。
根据本公开的一个或多个实施例,示例12提供了示例11的装置,所述第二确定模块用于:
用所述目标替换词集合中的替换词替换所述待替换的文本词,得到多个替换句;
计算每一替换句与所述初始文本句间的语义相似度,得到多个语义相似度值;
根据所述多个语义相似度值以及所述目标替换词集合中替换词的概率分布,确定所述目标替换词集合中每一替换词的评分结果;
根据所述每一替换词的评分结果,确定所述目标替换词。
根据本公开的一个或多个实施例,示例13提供了示例8的装置,所述替换模块用于:
根据预设规则,将所述目标替换词进行形态变化,得到形态变化后的目标替换词;
用所述形态变化后的目标替换词替换所述待替换的文本词。
根据本公开的一个或多个实施例,示例14提供了示例8的装置,所述第一确定模块用于:
确定待替换的文本中每一单词的语义重要度;
根据所述每一单词的语义重要度,将所述待替换的文本中的单词进行排序;
根据排序结果确定所述待替换的文本词。
根据本公开的一个或多个实施例,示例15提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现示例1-7中任一项所述方法的步骤。
根据本公开的一个或多个实施例,示例16提供了一种电子设备,包括:
存储装置,其上存储有至少一个计算机程序;
至少一个处理装置,用于执行所述存储装置中的所述至少一个计算机程序,以实现示例1-7中任一项所述方法的步骤。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

Claims (10)

1.一种文本词替换方法,其特征在于,包括:
确定初始文本句中待替换的文本词,以及所述待替换的文本词在所述初始文本句中的目标位置;
将包括所述目标位置的初始文本句输入替换词生成模型,得到所述替换词生成模型输出的替换词生成结果,其中,所述替换词生成模型是基于标注有语义信息的单词样本训练得到的,所述语义信息包括单词的释义,以及所述单词在所述释义下的例句,所述替换词生成结果包括所述待替换的文本词对应的多个替换词,以及所述多个替换词对应的概率分布;
根据所述替换词生成结果,确定目标替换词;
用所述目标替换词替换所述待替换的文本词。
2.根据权利要求1所述的方法,其特征在于,所述替换词生成模型包括释义编码器和上下文编码器,所述替换词生成模型的训练包括:
通过所述释义编码器将所述单词样本中的每一单词的释义编码为向量表征;
通过所述上下文编码器针对所述单词样本中每一单词对应的例句,将所述例句中除所述单词外的其他单词编码为所述单词的上下文表征;
所述上下文编码器基于所述上下文表征输出替换词生成结果;
至少根据所述上下文表征与所述向量表征之间的语义相似度更新所述释义编码器的参数与所述上下文编码器的参数。
3.根据权利要求2所述的方法,其特征在于,所述释义编码器的初始参数和所述上下文编码器的初始参数是根据基于无标签的单词样本训练的预设语言模型确定的。
4.根据权利要求1所述的方法,其特征在于,所述根据所述替换词生成结果,确定目标替换词,包括:
删除所述替换词生成结果中的以下至少一种替换词,得到目标替换词集合:
与所述待替换的文本词相同的替换词、与所述待替换的文本词原形相同的替换词、与所述待替换的文本词成分不同的替换词、带有敏感词汇的替换词以及语法错误的替换词。
5.根据权利要求4所述的方法,其特征在于,所述根据所述替换词生成结果,确定目标替换词,包括:
用所述目标替换词集合中的替换词替换所述待替换的文本词,得到多个替换句;
计算每一替换句与所述初始文本句间的语义相似度,得到多个语义相似度值;
根据所述多个语义相似度值以及所述目标替换词集合中替换词的概率分布,确定所述目标替换词集合中每一替换词的评分结果;
根据所述每一替换词的评分结果,确定所述目标替换词。
6.根据权利要求1所述的方法,其特征在于,所述用所述目标替换词替换所述待替换的文本词,包括:
根据预设规则,将所述目标替换词进行形态变化,得到形态变化后的目标替换词;
用所述形态变化后的目标替换词替换所述待替换的文本词。
7.根据权利要求1所述的方法,其特征在于,所述确定初始文本句中待替换的文本词,包括:
确定待替换的文本中每一单词的语义重要度;
根据所述每一单词的语义重要度,将所述待替换的文本中的单词进行排序;
根据排序结果确定所述待替换的文本词。
8.一种文本词替换装置,其特征在于,包括:
第一确定模块,用于确定初始文本句中待替换的文本词,以及所述待替换的文本词在所述初始文本句中的目标位置;
替换词生成模块,用于将包括所述目标位置的初始文本句输入替换词生成模型,得到所述替换词生成模型输出的替换词生成结果,其中,所述替换词生成模型是基于标注有语义信息的单词样本训练得到的,所述语义信息包括单词的释义,以及所述单词在所述释义下的例句,所述替换词生成结果包括所述待替换的文本词对应的多个替换词,以及所述多个替换词对应的概率分布;
第二确定模块,用于根据所述替换词生成结果,确定目标替换词;
替换模块,用于用所述目标替换词替换所述待替换的文本词。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-7中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储装置,其上存储有至少一个计算机程序;
至少一个处理装置,用于执行所述存储装置中的所述至少一个计算机程序,以实现权利要求1-7中任一项所述方法的步骤。
CN202210885844.3A 2022-07-26 2022-07-26 文本词替换方法、装置、存储介质及电子设备 Pending CN115146623A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210885844.3A CN115146623A (zh) 2022-07-26 2022-07-26 文本词替换方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210885844.3A CN115146623A (zh) 2022-07-26 2022-07-26 文本词替换方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN115146623A true CN115146623A (zh) 2022-10-04

Family

ID=83414372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210885844.3A Pending CN115146623A (zh) 2022-07-26 2022-07-26 文本词替换方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN115146623A (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427618A (zh) * 2019-07-22 2019-11-08 清华大学 对抗样本生成方法、介质、装置和计算设备
CN110991181A (zh) * 2019-11-29 2020-04-10 腾讯科技(深圳)有限公司 用于增强已标注样本的方法和设备
CN111339262A (zh) * 2020-05-21 2020-06-26 北京金山数字娱乐科技有限公司 一种语句选词方法及装置
CN111814451A (zh) * 2020-05-21 2020-10-23 北京嘀嘀无限科技发展有限公司 文本处理方法、装置、设备和存储介质
CN113177402A (zh) * 2021-04-26 2021-07-27 平安科技(深圳)有限公司 词语替换方法、装置、电子设备和存储介质
CN113408280A (zh) * 2021-06-30 2021-09-17 北京百度网讯科技有限公司 负例构造方法、装置、设备和存储介质
CN113919354A (zh) * 2021-10-15 2022-01-11 厦门市美亚柏科信息股份有限公司 一种文本对抗的自然语言增强处理方法及装置
CN114298031A (zh) * 2021-12-16 2022-04-08 科大讯飞股份有限公司 文本处理方法、计算机设备及存储介质
CN114595327A (zh) * 2022-02-22 2022-06-07 平安科技(深圳)有限公司 数据增强方法和装置、电子设备、存储介质
CN114662496A (zh) * 2022-02-23 2022-06-24 腾讯科技(深圳)有限公司 信息识别方法、装置、设备、存储介质及产品
CN114692628A (zh) * 2022-04-13 2022-07-01 北京百度网讯科技有限公司 样本生成方法、模型训练方法、文本抽取方法和装置
CN114722834A (zh) * 2022-04-25 2022-07-08 中国平安人寿保险股份有限公司 基于对比学习的语义识别模型训练方法、设备和介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427618A (zh) * 2019-07-22 2019-11-08 清华大学 对抗样本生成方法、介质、装置和计算设备
CN110991181A (zh) * 2019-11-29 2020-04-10 腾讯科技(深圳)有限公司 用于增强已标注样本的方法和设备
CN111339262A (zh) * 2020-05-21 2020-06-26 北京金山数字娱乐科技有限公司 一种语句选词方法及装置
CN111814451A (zh) * 2020-05-21 2020-10-23 北京嘀嘀无限科技发展有限公司 文本处理方法、装置、设备和存储介质
CN113177402A (zh) * 2021-04-26 2021-07-27 平安科技(深圳)有限公司 词语替换方法、装置、电子设备和存储介质
CN113408280A (zh) * 2021-06-30 2021-09-17 北京百度网讯科技有限公司 负例构造方法、装置、设备和存储介质
CN113919354A (zh) * 2021-10-15 2022-01-11 厦门市美亚柏科信息股份有限公司 一种文本对抗的自然语言增强处理方法及装置
CN114298031A (zh) * 2021-12-16 2022-04-08 科大讯飞股份有限公司 文本处理方法、计算机设备及存储介质
CN114595327A (zh) * 2022-02-22 2022-06-07 平安科技(深圳)有限公司 数据增强方法和装置、电子设备、存储介质
CN114662496A (zh) * 2022-02-23 2022-06-24 腾讯科技(深圳)有限公司 信息识别方法、装置、设备、存储介质及产品
CN114692628A (zh) * 2022-04-13 2022-07-01 北京百度网讯科技有限公司 样本生成方法、模型训练方法、文本抽取方法和装置
CN114722834A (zh) * 2022-04-25 2022-07-08 中国平安人寿保险股份有限公司 基于对比学习的语义识别模型训练方法、设备和介质

Similar Documents

Publication Publication Date Title
CN111027331B (zh) 用于评估翻译质量的方法和装置
CN110807332A (zh) 语义理解模型的训练方法、语义处理方法、装置及存储介质
CN110969012B (zh) 文本纠错方法、装置、存储介质及电子设备
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN111402861B (zh) 一种语音识别方法、装置、设备及存储介质
CN110795945A (zh) 一种语义理解模型训练方法、语义理解方法、装置及存储介质
CN113470619B (zh) 语音识别方法、装置、介质及设备
CN112507706B (zh) 知识预训练模型的训练方法、装置和电子设备
CN112154465A (zh) 一种意图识别模型的学习方法、装置及设备
CN111563390B (zh) 文本生成方法、装置和电子设备
CN111382261B (zh) 摘要生成方法、装置、电子设备及存储介质
CN113672708A (zh) 语言模型训练方法、问答对生成方法、装置及设备
CN112906381B (zh) 对话归属的识别方法、装置、可读介质和电子设备
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN112632283A (zh) 模型生成方法、文本分类方法、装置、设备及介质
CN113407814A (zh) 文本搜索方法、装置、可读介质及电子设备
CN112380876A (zh) 基于多语言机器翻译模型的翻译方法、装置、设备和介质
CN115270717A (zh) 一种立场检测方法、装置、设备及介质
CN111339789A (zh) 一种翻译模型训练方法、装置、电子设备及存储介质
CN111090993A (zh) 属性对齐模型训练方法及装置
CN115620726A (zh) 语音文本生成方法、语音文本生成模型的训练方法、装置
CN112836476B (zh) 一种纪要生成方法、装置、设备及介质
CN116821327A (zh) 文本数据处理方法、装置、设备、可读存储介质及产品
CN114881008A (zh) 一种文本生成方法、装置、电子设备及介质
CN115098665A (zh) 一种对话数据扩展方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination