CN112417848A - 语料生成方法、装置及计算机设备 - Google Patents
语料生成方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN112417848A CN112417848A CN201910765700.2A CN201910765700A CN112417848A CN 112417848 A CN112417848 A CN 112417848A CN 201910765700 A CN201910765700 A CN 201910765700A CN 112417848 A CN112417848 A CN 112417848A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- error correction
- replacement
- target field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000012937 correction Methods 0.000 claims abstract description 369
- 238000012549 training Methods 0.000 claims description 148
- 238000012545 processing Methods 0.000 claims description 44
- 238000013507 mapping Methods 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 26
- 230000000694 effects Effects 0.000 description 25
- 230000015654 memory Effects 0.000 description 22
- 238000013519 translation Methods 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000007619 statistical method Methods 0.000 description 8
- 230000005291 magnetic effect Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000003672 processing method Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 235000011305 Capsella bursa pastoris Nutrition 0.000 description 3
- 240000008867 Capsella bursa-pastoris Species 0.000 description 3
- 238000003491 array Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000005315 distribution function Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013106 supervised machine learning method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请实施例提供一种语料生成方法、装置及一种计算机设备。本申请实施例中,通过获取目标领域中的正样本,确定与所述正样本中的至少一个正确词对应的替换词。利用对应的替换词替换所述至少一个正确词,获得与所述正样本对应的负样本并至少基于所述正样本及所述负样本,生成所述目标领域的第一纠错平行语料。本申请实施例进一步可以快速获得大数量、高质量的目标领域的第一纠错平行语料。
Description
技术领域
本申请实施例涉及网络技术领域,尤其涉及一种语料生成方法、装置及一种计算机设备。
背景技术
随着互联网技术的快速发展,用户越来越多地通过网上商城进行消费。当用户搜索想要的商品时,一般需要在用户端的搜索框中输入待搜索商品的文本信息,用户端基于该文本信息进行商品搜索并将与该文本信息相匹配的商品展示给用户。
但在用户输入待搜索商品的文本信息时由于知识的局限性或输入过程中的手误可能会存在输入错误文本的情况,为了提高用户体验可以通过对用户输入的错误文本信息进行搜索纠错获得符合用户需求的正确文本信息,以基于正确文本信息进行搜索并返回用户正确的搜索结果。例如,用户想要搜索商品为荠菜,但输入错误文本信息为“齐菜”经过搜索纠错后得到的正确文本信息为“荠菜”,从而返回用户基于“荠菜”搜索到的与荠菜相关的商品。
目前,针对电商领域商品的搜索纠错主要通过人工标注方式来建立搜索文本信息中错误文本与正确文本的对应关系,生成纠错平行语料数据集,其中,纠错平行语料格式可以为<错误文本、正确文本>。然后结合统计分析方法或监督的机器学习方法,将纠错平行语料数据集作为训练样本输入至纠错模型中进行模型训练,获得该电商领域的纠错模型。然后,利用该纠错模型对用户输入的错误文本信息进行纠错,获得正确文本信息。
实际纠错模型的纠错效果很大程度上受到训练样本的质量和数量的影响,训练样本质量越高,数量越大训练获得的纠错模型的纠错效果就越好,反之纠错效果就越差。但由于目前电商领域的纠错平行语料数量较少,因此,如何快速、有效地获得数量大、质量高的纠错平行语料,以提高纠错模型的纠错效果成为亟待解决的问题。
发明内容
本申请实施例提供一种语料生成方法、装置及一种计算机设备,无需人工标注即可自动生成目标领域的大数量、高质量的纠错平行语料,从而为提高纠错模型的纠错效果奠定了基础。
第一方面,本申请实施例中提供了一种语料生成方法,包括:
获取目标领域中的正样本;
确定与所述正样本中的至少一个正确词对应的替换词;
利用对应的替换词替换所述至少一个正确词,获得与所述正样本对应的负样本;
至少基于所述正样本及所述负样本,生成所述目标领域的第一纠错平行语料。
第二方面,本申请实施例中提供了一种语料生成方法,包括:
获取目标领域的待预测正文本;
利用所述目标领域的预测模型预测获得所述待预测正文本对应的至少一个负文本;其中,所述预测模型至少基于所述目标领域中的正样本及所述正样本对应的负样本训练获得;所述负样本利用所述正样本中的至少一个正确词各自对应的替换词替换所述至少一个正确词获得;
基于所述待预测正文本及其对应的所述至少一个负文本,生成所述目标领域的第一纠错平行语料;其中,所述第一纠错平行语料用于训练所述目标领域的纠错模型,以利用所述纠错模型对用户输入的所述目标领域中的待纠错文本进行纠错,获得所述待纠错文本对应的正确文本。
第三方面,本申请实施例中提供了一种文本纠错方法,包括:
获取文本输入界面针对用户输入操作输出的至少一个候选文本;
判断所述至少一个候选文本中是否存在目标领域中的待纠错文本;
如果存在所述待纠错文本,利用所述目标领域的纠错模型确定所述待纠错文本对应的正确文本;其中,所述纠错模型基于所述目标领域中的第一纠错平行语料训练获得;所述第一纠错平行语料为利用所述目标领域的预测模型,通过预测获得所述目标领域的待预测正文本对应的至少一个负文本并基于所述待预测正文本及其对应的所述至少一个负文本生成;所述预测模型基于所述目标领域的正样本及利用所述替换词替换所述正样本中的至少一个正确词而获得负文本样本训练获得;
将所述正确文本替换所述至少一个候选文本,以供用户端基于所述用户确定的任一个替换后的候选文本搜索目标对象。
第四方面,本申请实施例中提供了一种语料生成装置,包括:
第一正样本获取模块,用于获取目标领域中的正样本;
第一替换词确定模块,用于确定与所述正样本中的至少一个正确词对应的替换词;
第一负样本获取模块,用于利用对应的替换词替换所述至少一个正确词,获得与所述正样本对应的负样本;
第一训练样本生成模块,用于至少基于所述正样本及所述负样本,生成所述目标领域的第一纠错平行语料。
第五方面,本申请实施例中提供了一种语料生成装置,包括:
待预测正文本获取模块,用于获取目标领域的待预测正文本;
负文本预测模块,用于利用所述目标领域的预测模型预测获得所述待预测正文本对应的至少一个负文本;其中,所述预测模型至少基于所述目标领域中的正样本及所述正样本对应的负样本训练获得;所述负样本利用所述正样本中的至少一个正确词各自对应的替换词替换所述至少一个正确词获得;
第二训练样本生成模块,用于基于所述待预测正文本及其对应的所述至少一个负文本,生成所述目标领域的第一纠错平行语料;其中,所述第一纠错平行语料用于训练所述目标领域的纠错模型,以利用所述纠错模型对用户输入的所述目标领域中的待纠错文本进行纠错,获得所述待纠错文本对应的正确文本。
第六方面,本申请实施例中提供了一种计算机设备,包括处理组件以及存储组件;所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行;
所述处理组件用于:
获取目标领域中的正样本;
确定与所述正样本中的至少一个正确词对应的替换词;
利用对应的替换词替换所述至少一个正确词,获得与所述正样本对应的负样本;
至少基于所述正样本及所述负样本,生成所述目标领域的第一纠错平行语料;其中,所述第一纠错平行语料用于训练所述目标领域的纠错模型,以利用所述纠错模型对用户输入的所述目标领域中的待纠错文本进行纠错,获得所述待纠错文本对应的正确文本。
第七方面,本申请实施例中提供了一种计算机设备,包括处理组件以及存储组件;所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行;
所述处理组件用于:
获取目标领域的待预测正文本;
利用所述目标领域的预测模型预测获得所述待预测正文本对应的至少一个负文本;其中,所述预测模型至少基于所述目标领域中的正样本及所述正样本对应的负样本训练获得;所述负样本利用所述正样本中的至少一个正确词各自对应的替换词替换所述至少一个正确词获得;
基于所述待预测正文本及其对应的所述至少一个负文本,生成所述目标领域的第一纠错平行语料;其中,所述第一纠错平行语料用于训练所述目标领域的纠错模型,以利用所述纠错模型对用户输入的所述目标领域中的待纠错文本进行纠错,获得所述待纠错文本对应的正确文本。
与现有技术相比,本申请可以获得包括以下技术效果:
本申请实施例提供了一种语料生成方法、装置及一种计算机设备,该方法通过确定目标领域中的与正样本的至少一个正确词对应的替换词并利用其对应的替换词替换所述至少一个正确词,获得与所述正样本对应的负样本,实现了所述正样本与所述负样本的对应关系的自动建立,从而可以快速有效地获得大数量、高质量的目标领域的第一纠错平行语料。且利用获得的第一纠错平行语料训练目标领域的纠错模型,可以进一步提高纠错模型的纠错效果,以利用所述纠错模型对用户输入的所述目标领域中的待纠错文本进行纠错,获得所述待纠错文本对应的最符合用户搜索需求的正确文本,大大提高用户体验。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本申请提供的一种语料生成方法一个实施例的流程示意图;
图2示出了根据本申请提供的一种语料生成方法又一个实施例的流程示意图;
图3示出了根据本申请提供的一种数据处理方法又一个实施例的流程示意图;
图4示出了根据本申请提供的一种语料生成方法再一个实施例的流程示意图;
图5示出了根据本申请提供的一种数据处理方法另一个实施例的流程示意图;
图6示出了根据本申请提供的一种文本纠错方法又一个实施例的流程示意图;
图7示出了根据本申请提供的一种基于输入文本界面的文本纠错方法的示意图;
图8示出了根据本申请提供的一种语料生成装置一个实施例的结构示意图;
图9示出了根据本申请提供的一种语料生成装置另一个实施例的结构示意图;
图10示出了根据本申请提供的一种数据处理装置又一个实施例的结构示意图;
图11示出了根据本申请提供的一种语料生成装置又一个实施例的结构示意图;
图12示出了根据本申请提供的一种数据处理装置再一个实施例的结构示意图;
图13示出了根据本申请提供的一种数据处理装置另一个实施例的结构示意图;
图14示出了根据本申请提供的一种文本纠错装置又一个实施例的结构示意图;
图15示出了根据本申请提供的一种计算机设备一个实施例的结构示意图;
图16示出了根据本申请提供的一种计算机设备一个实施例的结构示意图;
图17示出了根据本申请提供的一种计算机设备一个实施例的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在本申请的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
为了获得目标领域中大数量、高质量的纠错平行语料,发明人经过一系列研究提出了本申请技术方案,本申请实施例中,通过确定目标领域中的与正样本的至少一个正确词对应的替换词并利用其对应的替换词替换所述至少一个正确词,获得与所述正样本对应的负样本,实现了所述正样本与所述负样本的对应关系的自动建立,从而可以快速有效地获得大数量、高质量的目标领域的第一纠错平行语料。且利用获得的第一纠错平行语料训练目标领域的纠错模型,可以进一步提高纠错模型的纠错效果,以利用所述纠错模型对用户输入的所述目标领域中的待纠错文本进行纠错,获得所述待纠错文本对应的最符合用户搜索需求的正确文本,大大提高用户体验。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种语料生成方法一个实施例的流程示意图。该方法可以包括以下几个步骤:
101:获取目标领域中的正样本。
可选地,该目标领域例如可以是目前得到快速发展的新零售电商领域、视频直播领域等应用到搜索与查询技术的任一应用领域,在此不做具体限定。
目标领域的纠错平行语料生成过程实际是将目标领域中搜索的正确文本与其对应的错误文本建立对应关系的过程,从而生成<错误文本,正确文本>形式的纠错平行语料,通过获得目标领域大量纠错平行语料作为纠错模型的训练样本,从而可以训练获得目标领域的纠错模型。
为了提高纠错平行语料的指令,搜索正确文本可以根据目标领域的历史搜索文本获取,作为一种可选地实施方式,所述获取目标领域中的正样本可以包括:
获取所述目标领域中搜索频次满足搜索阈值的搜索文本;
将所述搜索文本作为所述正样本。
当用户通过搜索框搜索某一商品时,会输入该商品的商品名称、店铺名称等搜索文本信息,而少部分用户会输入错误的搜索文本,且由于每个用户输入错误的原因各不相同,因此错误的搜索文本可能会存在多个。但可以理解的是,当用户发现搜索错误后,会重新输入正确的搜索文本,根据统计概率发现,用户输入正确文本的搜索频次会高于输入错误文本的搜索频次。
因此,基于该目标领域的历史搜索记录,获取搜索记录中的高频搜索文本,即将搜索频次大于指定搜索阈值的搜索文本作为正样本。该搜索阈值可以根据搜索频次的概率分布确定,例如搜索频次大于500次的搜索文本的数量远远高于搜索频次低于500次时的搜索文本的数量,则可以设定搜索阈值为500次。从而基于设定的搜索阈值筛选出高频搜索文本,并将该高频搜索文本作为正样本。当然,为了保证确定的正样本中尽可能地不包括错误的搜索文本,还可设置一个较高搜索阈值,从而降低正样本中包含错误搜索文本概率。
可选地,为了进一步提高正样本的样本质量,还可以是基于目标领域中的商品名称或者店铺名称等商品信息文本作为正样本,在此不做具体限定,可根据实际需求进行选择。
102:确定与所述正样本中的至少一个正确词对应的替换词。
103:利用对应的替换词替换所述至少一个正确词,获得与所述正样本对应的负样本。
由于正样本为文本信息,因此正样本可以通过分词处理获得至少一个词。可以理解的是,通常搜索纠错平行语料中的错误文本与正确文本之间并非是完全不同的,而是其中的某个词或某几个词之间存在差异。
因此为了提高样本质量,避免替换后得到的负样本与正样本的差异过大与实际搜索状况不符,通常仅需替换正样本中的少部分正确词即可。通过将正样本中的至少一个正确词进行替换,获得目标领域中的正样本对应的负样本。可选地,在某些实施例中,所述确定与所述正样本中的至少一个正确词对应的替换词可以包括:
按照预设替换规则,选取所述正样本中待替换的至少一个正确词;
确定与所述至少一个正确词对应的替换词。
该预设替换规则可以根据样本需求进行设定,例如按照正样本中的每个词在正样本中的位置选择,可以优先选择位置居中的词作为正确词,或选择首位或末位的词作为正确词。当然,还可以是按照正样本中的每个词的词性进行选择例如优先选择名词、动词等,次之再选择形容词、助词等作为正确词。当然,还可以随机选取正样本的正确词,作为一种可选地实施方式,所述按照预设替换规则,选取所述正样本中待替换的至少一个正确词可以包括:
随机选取所述正样本中的第一预设值个待替换的正确词。
实际应用中,该正确词至少选择一个,因此第一预设值满足大于等于1。当然为了提高样本多样性还可以选择多个,但是要根据替换效果设定替换词的最大限值,例如最多选取正样本的三个正确词进行替换,以保证负样本的样本质量。
同时,由于搜索文本的多样性,可能存在仅包含一个词的正样本,也存在包含多个词的正样本,因此还可以设定一个阈值范围,该阈值范围可以是设定为[1,3],即可以根据正样本包含的词的数量随机选取至少一个正确词时,最少选择一个正确词,最多选取3个正确词进行替换,从而可以更加灵活、多样地获得正样本对应的负样本。
实际应用中,由于用户输入错误出现的常见错误文本,通常是搜索文本的个别词出现错误,其原因可能是输入对应正确词的形近字、同音字、同义词等引起的。因此,可以将形近字、同音字、同义词等作为正确词的替换词,并将正样本中的至少一个正确词进行替换。
作为一种可选地实施方式,所述确定用于所述至少一个正确词对应的替换词可以包括:
获取词对齐数据集;其中,所述词对齐数据集中建立了从多领域获取的正确词与替换词集合的对应关系;所述替换词集合中包含至少一个替换词。
基于所述词对齐数据集,确定与所述至少一个正确词对应的替换词。
该词对齐数据集中建立了正确词到错误词集合的映射关系,其中,错误词集合中包含至少一个错误词。因此基于词对齐数据集中建立的映射关系可以确定至少一个正确词各自对应的替换词。
可选地,所述获取词对齐数据集可以包括:
获取所述多领域中包含替换词与正确词的词对齐语料;其中,所述词对齐语料至少包括多领域中的第二纠错平行语料数据集;
对所述词对齐语料进行词对齐处理获得纠错词数据集;
至少基于所述纠错词数据集、形近字数据集及常见错误词数据集获得建立正确词与替换词集合对齐关系的词对齐数据集。
为了进一步提高样本的丰富性,使得词对齐数据集建立的映射关系更符合用户的纠错习惯,词对齐数据集基于多领域的第二纠错平行语料、形近字数据集、常见错误词表等生成,其中,该多领域可以包括目标领域。
由于该多领域的第二纠错平行语料是正确文本与错误文本的映射关系,因此需要对第二纠错平行语料进行词对齐处理,基于正确文本与错误文本的对应关系得到正确词与错误词的对应关系;而形近字数据集及常见错误词表可以基于现有的形近字表以及常见错误词表获得。
基于上述得到的正确词分别于错误词、形近词、同音词及同义词等对应关系,建立为正确词与替换词集合的对应关系,得到词对齐数据集。
进一步地,所述基于所述词对齐数据集,确定与所述至少一个正确词对应的替换词可以包括:
确定所述词对齐数据集中与所述至少一个正确词对应的替换词集合;
从所述替换词集合中确定与所述至少一个正确词对应的替换词。
正因为词对齐数据集中建立的正确词与替换词集合的映射关系,因此在确定至少一个正确词对应的替换词时,首先基于该映射关系确定正确词对应的替换词集合。根据预设替换次数,从该替换词集合中选取至少一个替换词。
例如,为了提高负样本的多样性,以获得数量更多的第一纠错平行语料可选地,可以对一个正样本进行N次替换,每替换一次就得到一个负样本,这样就可以基于一个正样本及对应的N个负样本得到N个第一纠错平行语料,从而可以极大丰富训练样本的数量。
但实际并不是每一个替换词符合替换要求,例如替换后得到的负样本语义及通顺程度均发生较大变化时,就会导致负样本质量较差,影响纠错模型的训练效果。
因此为了提高负样本的样本质量,可以通过确定第二纠错平行语料中错误词被纠错为对应替换词的概率。作为一种可选地实施方式,所述从所述替换词集合中确定与所述至少一个正确词对应的替换词可以包括:
计算所述替换词集合中的替换词对应的替换概率;
基于所述替换概率,从所述替换词集合中确定与所述至少一个正确词对应的替换词。
替换词的替换概率越高表明该替换词在搜索文本中出现的频次越多,其被纠错为正确词的概率就越大,反之,就表明该替换词在搜索文本中出现的频次较少,被纠错为正确词的概率越低。因此,优先选择替换概率高的替换词其得到的负样本的样本质量也就越高。
本申请实施例中可以采用数据统计方式确定每个替换词各自对应的替换概率,具体地,作为一种可实现的实施方式,所述计算所述替换词集合中的替换词对应的替换概率可以包括:
统计所述替换词集合中的替换词被纠错为对应的正确词的概率分布;
基于所述概率分布确定所述替换词集合中的替换词对应的替换概率。
实际多领域第二平行纠错语料中,包含了多个正确文本与错误文本,通过统计每个错误词出现在错误文本中的次数以及被纠错为正确词的次数,可以计算获得词对齐数据集中的替换词集合中的每个替换词被纠错为对应正确词的概率分布,例如统计得到词A被纠错为词D的次数为50词,词B被纠错为词D的次数为10词,词C被纠错为词D的次数为40次,词D对应的则替换词集合中的替换词A、B、C的概率分布为[0.5,0.1,0.4],当然,在实际统计中还可以计算获得替换词被纠错为各自对应的正确词概率分布函数,从而基于概率分布函数确定每个替换词的替换概率。在此仅作示意性描述,具体可根据实际情况统计每个替换词被纠错为对应正确词的概率分布。
基于所述概率分布确定所述替换词集合中的替换词各自对应的替换概率后,可以基于替换概率大小对替换词集合中的替换词进行排序,优先选取替换概率较大的替换词替换正样本的正确定。当需要选取多个替换词,替换得到多个负样本时,可以按照替换概率由大到小的顺序依次得到样本质量不同的多个负样本。
当正样本需要替换的正确词大于一个时,且每个正确词可以确定多个替换词时,为了进一步提高负样本的多样性,可以对该多个正确词对应的负样本进行排列组合,获得多种替换词组合。例如,确定正样本中的正确词D和正确词E,并分别确定正确词D对应的替换词A和B,以及正确词E对应的替换词W和H,通过排列组合得到替换词组合(A,W)、(A,H)、(B,W)及(B,H)分别替换正确词(D,E),从而可以得到正样本对应的四个负样本,可以生成四个第一纠错平行语料。
可以理解的,当正样本数据量较大时,其选取的正样本中的正确词存在重复的概率就会极大,例如正样本P中包含正确词D,正样本Q中同样也包含正确词D,但如果每次都按照替换词的替换概率大小进行选取,就会导致所有的每个样本中的正确词D确定均为的替换词A,这样就丧失了样本的多样性,因为即使替换概率小的替换词仍会有出现在错误文本中的概率。
为了进一步增加负样本的多样性,提高样本质量,作为一种可选地实施方式,所述基于所述替换概率,从所述替换词集合中确定与所述至少一个正确词对应的替换词可以包括:
将所述替换概率作为对应的所述替换词集合中的替换词的替换权重;
基于所述替换权重,通过加权随机采样选取所述替换词集合中与所述至少一个正确词对应的替换词。
通过将替换概率作为每个替换词的替换权重,采用加权随机采样的方式选取正确词对应的替换词可以避免相同正确词均替换为同一个替换词的问题,同时更加符合搜索中错误文本多样性的现象,从而大大提高了第一纠错平行语料的质量。
104:至少基于所述正样本及所述负样本,生成所述目标领域的第一纠错平行语料。
其中,所述第一纠错平行语料用于训练所述目标领域的纠错模型,以利用所述纠错模型对用户输入的所述目标领域中的待纠错文本进行纠错,获得所述待纠错文本对应的正确文本。
基于正样本及负样本的对应关系,可以将正样本作为正确文本,负样本作为错误文本生成目标领域的第一纠错平行语料,该第一纠错平行语料的数据格式可以表示为<负样本,正样本>。
由于词对齐数据集中的词量会受到实际获取的词对齐语料的数量和质量的限制,因此可能存在词对齐数据集中未包含某一正确词对应的替换词集合。作为一种可选地实施方式,所述确定与所述至少一个正确词对应的替换词可以包括:
判断所述词对齐数据集是否存在与所述至少一个正确词对应的替换词;
如果是,执行步骤103;
如果否,按照所述预设替换规则,重新确定所述正样本中待替换的至少一个正确词,直至确定所述词对齐数据集中存在与所述至少一个正确词对应的替换词。
因此,当判断词对齐数据集中不存在该至少一个正确词对应的替换词时分为至少两种情况,一种是该至少一个正确词中的任一个正确词不存在对应的替换词;另一种是全部的正确词均不存在对应的替换词。
如果基于替换规则,并未确定正样本固定的正确词数量,则对于第一种情况,可以仅将至少一个正确词中存在替换词的正确词进行替换;如果设定是固定正确词数量,例如每个正样本必须替换两个正确词,则针对上述两种情况可以按照预设替换规则,重新从正样本中选择的其它词作为待替换的正确词。如果该正样本中的所有的正确词均不存在对应的替换词时,则将该正样本去除。
本申请实施例中,采用词替换的方式建立正样本与负样本地对应关系,且通过基于统计方式确定正样本中的至少一个正确词对应的替换词,可以使得通过词替换得到的负样本符合用户日常的搜索习惯。本申请提供的纠错平行语料生成方式在保证训练样本质量的基础上,相较于传统的人工标注训练样本的方式可以更加快速、有效地获得大数量、高质量的目标领域的第一纠错平行语料,同时还能够大大地降低了人工成本。
因此,利用获得的高质量、大数量的第一纠错平行语料训练目标领域的纠错模型,可以进一步提高纠错模型的纠错效果,以利用所述纠错模型对用户输入的所述目标领域中的待纠错文本进行纠错,获得所述待纠错文本对应的最符合用户搜索需求的正确文本,大大提高用户体验。
图2为本申请实施例提供的一种语料生成方法一个实施例的流程示意图。该方法可以包括以下几个步骤:
201:获取目标领域中的正样本。
202:确定与所述正样本中的至少一个正确词对应的替换词。
203:利用对应的替换词替换所述至少一个正确词,获得与所述正样本对应的负样本。
204:至少基于所述正样本及所述负样本,训练所述目标领域的预测模型。
为了进一步提高纠错模型训练样本的样本质量,进一步地,可以通过基于统计方式生成的正样本和负样本作为预测模型的训练语料,训练获得目标领域的预测模型。
可选地,该预测模型可以是任一种机器翻译模型,例如Seq2Seq(Sequence toSequence,序列到序列)模型或依赖于Seq2Seq模型框架实现的NMT(Neural MachineTranslation,神经网络机器翻译)模型等,在此不做具体限定。Seq2Seq是一种通用的编码器-解码器框架,由于Seq2Seq不限制输入和输出的序列长度,因此被广泛应用于机器翻译领域。
实际应用中,编码器和解码器可以是采用RNN(Recurrent Neural Network,循环神经网络)模型或LSTM(Long Short Term Memory Network,长短记忆网络)模型等实现,在此不做具体限定。其中,编码器通过学习正样本和负样本,将其编码为一个语义向量,该语义向量可以表示正样本与负样本之间的语义关联关系。编码器将该语义向量传输至解码器中,使解码器通过该学习语义向量,对正样本进行解码得到对应的预测样本,模型训练中通过反复调整模型参数使得预测样本逐渐接近正样本对应的负样本,从而获得目标领域的预测模型。
本申请实施例中,为了使预测模型获得更加的预测效果,其编码器和解码器均可以优选采用2-layer LSTM(2层长短记忆网络),并增加了深度学习中的“注意力机制”,即在解码部分使用了Attention(注意力)模型,Attention模型作为编码器和解码器之间的接口,用于帮助解决在机器翻译过程中由于文本序列长度过长时导致有效信息被隐藏或稀释,导致在解码器解码过程中无法获得输入序列足够的有效信息造成预测效果欠佳的问题。
Attention模型可以获得编码器对输入序列进行编码时的注意力分数得到的对齐向量并将对齐向量引入语义向量中。对齐向量可以用于衡量输入序列中每个词对齐时的重要程度,基于对齐向量可以使得解码器在进行解码时确定应该关注的输入序列中的关注区域,保证输入序列中的有效信息可以被解码器获得,从而根据关注的区域产生输出序列。可以理解的是,尽管增加“注意力机制”在一定程度上提高了预测模型的模型复杂度,但该机制可以有效地提高预测模型的预测效果,从而为进一步获得高质量的第一纠错平行语料奠定基础。
作为一种可实现的实施方式,所述至少基于所述正样本及所述负样本,训练所述目标领域的预测模型可以包括:
基于所述正样本及所述负样本的对应关系,生成所述目标领域的第一反向纠错平行语料;
获取多领域中的第二反向纠错平行语料;
基于所述第一反向纠错平行语料及所述第二反向纠错平行语料,训练所述目标领域的预测模型。
由前述可知,训练纠错模型的纠错平行语料的数据格式可以表示为<错误文本、正确文本>,其映射关系是由错误文本至正确文本的正向映射。因此,在训练纠错模型时,是基于纠错平行语料中的错误文本作为源语言,正确文本作为目标语言训练纠错模型。
而预测模型实际是要用于预测正确文本对应的错误文本,因此需要建立错误文本至正确文本的反向映射关系,从而生成反向纠错平行语料其数据格式可以表示为<正样本、负样本>。
可选地,还可以将其他领域的反向纠错平行语料扩充为预测模型的训练语料,不仅可以增加训练语料的词量,学习到更多词对齐关系,还可以使得预测模型可以学习获得更多有效的语义信息,以进一步提高预测模型的预测效果。
可选地,所述获取多领域中的第二反向纠错平行语料可以包括:
获取所述多领域中的纠错平行语料;
对所述多领域中的纠错平行语料中的正文本与负文本的对应关系进行反向映射处理,获得所述多领域的第二反向纠错平行语料。
实际应用中,该多领域的纠错平行语料中包括目标领域中历史生成的纠错平行语料,例如由人工标注生成的纠错平语料,还可以引入其他领域的纠错平行语料以丰富训练语料的词汇量,例如搜索引擎涉及的视频直播领域、新闻媒体领域、科技领域等,在此不做具体限定。
对于预测模型训练可以采用两种方式,第一种是将第一反向纠错平行语料与第二反向纠错平行语料合并获得预测模型的训练语料,对预测模型进行训练,但由于训练语料数据量较大,因此训练的复杂度和时间成本均较高。
进一步地,为了提高预测模型的训练效率,可以采用第二种方式,即将基于经过第二反向纠错平行语料预训练获得预测模型作为初始模型,利用基于正样本及负样本得到的第一反向纠错平行语料对初始模型进行fine tune(优化训练),最终得到目标领域的预测模型,如下实施例所述。
作为一种可选地实施方式,所述基于所述第一反向纠错平行语料及所述第二反向纠错平行语料,训练所述目标领域的预测模型可以包括:
基于所述第二反向纠错平行语料,对所述目标领域的预测模型进行预训练,获得初始预测模型;
基于所述第一反向纠错平行语料,对所述初始预测模型进行优化训练获得所述预测模型。
作为一种可选地实施方式,所述基于所述第一反向纠错平行语料,对所述初始预测模型进行优化训练获得所述预测模型可以包括:
获取所述目标领域中的第三反向纠错平行语料。
其中,所述第三反向纠错平行语料基于所述目标领域中由人工标注得到的第二纠错平行语料生成。
基于所述第一反向纠错平行语料及所述第三反向纠错平行语料生成的优化训练样本,对所述初始预测模型进行优化训练获得所述预测模型。
在优化训练过程中,将得到的第一反向纠错平行语料扩充目标领域的历史获得的第三反向纠错平行语料生成预测模型的优化训练样本,进而对预训练得到的初始模型进行优化训练,得到目标领域的预测模型。
由于初始预测模型在预训练过程中可以大大减少训练语料的数据量,从而可以降低预训练时间和训练复杂度,得到预测模型的初始模型参数,在初始模型的基础上,利用优化训练样本优化初始预测模型的模型参数,可以大大提高预测模型的训练速度,但其预测效果较第一种方式训练获得预测模型的预测效果要差一些,因此实际应用中采用可根据实际需求选择不同的模型训练方式,训练目标领域的预测模型。
205:利用所述预测模型预测获得所述目标领域的待预测正文本对应的至少一个负文本。
206:基于所述待预测正文本及其对应的所述至少一个负文本生成所述目标领域的第一纠错平行语料。
其中,所述第一纠错平行语料用于训练所述目标领域的纠错模型,以利用所述纠错模型对用户输入的所述目标领域中的待纠错文本进行纠错,获得所述待纠错文本对应的正确文本。
基于训练获得的预测模型对目标领域的待预测正文本进进行预测,获得待预测正文本对应的至少一个负文本。由于预测模型可以学习获得正样本与负样本之间的深层语义信息,因此基于预测模型预测得到的负样本可以包含更多有效的语义信息,使预测得到的负样本不仅可以勾出更多类型的错误形式,还使得构造的错误形式更符合用户日常输入错误的习惯,从而进一步提高第一纠错样本的样本质量。
作为一种可选地实施方式,所述利用所述预测模型预测获得所述目标领域的待预测正文本对应的至少一个负文本可以包括:
获取所述目标领域的待预测正文本;
利用所述预测模型预测获得所述待预测正文本对应的至少一个负文本。
作为一种可选地实施方式,所述获取目标领域的待预测正文本可以包括:
获取所述目标领域中搜索频次满足搜索阈值的搜索文本;
将所述搜索文本作为所述待预测正文本。
可选地,作为一种可实现的实施方式,所述利用所述目标领域的预测模型预测获得所述待预测正文本对应的至少一个负文本可以包括:
利用所述预测模型对所述待预测正文本进行预测,获得按照匹配优先级排序的至少一个负文本;其中,所述匹配优先级表示所述至少一个负文本分别与所述待预测正文本的匹配程度。
由前述可知,当预测模型结合“注意力机制”时,通过Attention模型在基于对齐向量可以用于衡量待预测正文本中的每个词对齐的重要程度,从而基于这一重要程度确定对应负文本与待预测正文本的匹配程度。如果预测得到的负文本中的错误词对齐待预测正文本中的正确词,当该正确词对齐的注意力分值越高,则表明该负文本与该待预测正文本的匹配程度越高,反之,则匹配程度越低。可以理解的是,实际预测获得的负文本的匹配程度不仅基于词对齐的注意力分值,还与负文本的上下文的语义紧密相关,例如语句的通顺程度,以及与正文本的接近程度,都可以作为影响负文本匹配程度的匹配参数。
因此,当预测模型预测获得至少一个负文本时,可以基于每个负文本的匹配程度高低确定每个负文本的匹配优先级,匹配程度越高相应的匹配优先级越高,反之,匹配优先级越低。
作为另一种可实现的实施方式,所述利用所述目标领域的预测模型预测获得所述待预测正文本对应的至少一个负文本之后,还可以包括:
按照预设条件,确定所述至少一个负文本与所述待预测正文本的匹配优先级。
对于未结合“注意力机制”预测模型,可以对基于预设的匹配参数评估预测模型输出的至少一个负样本与待预测正样本的匹配程度。其中,匹配参数可以采用与前述相同的参数例如语义通顺程度、与待预测正文本的接近程度、以及负文本与待预测正文本中对齐词的重要程度等,可根据实际需求进行设置。匹配程度的评估方法可以采用任一方式实现,例如基于根据匹配参数的重要程度设置不同的权重值,通过加权求和方式计算每个负样本的匹配值等,在此不做具体限定。
实际应用中,基于匹配程度较低的负文本生成第一纠错平行语料的质量较差,因此为了获得高质量的第一纠错平行语料,可选地,所述基于所述待预测正文本及对应的所述至少一个负文本组成所述目标领域的第一纠错平行语料可以包括:
按照所述匹配优先级,选择所述至少一个负文本中预设前N个负文本作为预测负文本;其中,所述N大于等于1;
基于所述预测负文本与所述待预测正文本的对应关系,生成所述目标领域的第一纠错平行语料。
本申请实施例中,在基于统计分析进行词替换得到正样本与负样本的基础上,进一步地结合神经网络翻译模型学习正样本与负样本的语义关系并基于正样本与至少一个负样本的映射关系,使得神经网络模型可以构造出错误类型更加丰富、质量更高的负文本。
此外,通过引入与目标领域无关的第二纠错平行语料对预测模型进行训练可以引入更多的训练词量及语义信息,可以进一步丰富预测模型构造的负文本具有更多多样的错误形式,更贴加合用户日常输入错误的习惯,从而进一步提高第一纠错平行语料的样本质量,为获得更高质量的第一纠错平行语料奠定基础。
图3为本申请实施例提供的一种数据处理方法另一个实施例的流程示意图。该方法可以包括以下几个步骤:
301:获取目标领域中的正样本。
302:确定与所述正样本中的至少一个正确词对应的替换词。
303:利用对应的替换词替换所述至少一个正确词,获得与所述正样本对应的负样本。
304:至少基于所述正样本及所述负样本,训练所述目标领域的预测模型。
其中,所述预测模型用于预测获得所述目标领域的待预测正文本对应的至少一个负文本,以基于所述待预测正文本及其对应的所述至少一个负文本生成所述目标领域的第一纠错平行语料。
前述已对本申请实施例的具体实施方式进行详细地描述,在此不再赘述。
本申请实施例中,在基于统计分析进行词替换得到正样本与负样本的基础上,进一步地结合神经网络翻译模型学习正样本与负样本的语义关系并基于正样本与至少一个负样本的映射关系,使得神经网络模型可以构造出错误类型更加丰富、质量更高的负文本,为获得更高质量的第一纠错平行语料奠定基础。
图4为本申请实施例提供的一种语料生成方法一个实施例的流程示意图。该方法可以包括以下几个步骤:
401:获取目标领域的待预测正文本。
402:利用所述目标领域的预测模型预测获得所述待预测正文本对应的至少一个负文本。
其中,所述预测模型基于所述目标领域中的正样本及所述正样本对应的负样本训练获得;所述负样本利用所述正样本中的至少一个正确词各自对应的替换词替换所述至少一个正确词获得。
403:基于所述待预测正文本及其对应的所述至少一个负文本,生成所述目标领域的第一纠错平行语料。
其中,所述第一纠错平行语料用于训练所述目标领域的纠错模型,以利用所述纠错模型对用户输入的所述目标领域中的待纠错文本进行纠错,获得所述待纠错文本对应的正确文本。
前述已对本申请实施例的具体实施方式进行详细地描述,在此不再赘述。
本申请实施例中,在基于前述训练获得的目标领域的预测模型的基础上,利用该预测模型预测获得待预测正文本对应的至少一个负文本。为了进一步提高第一纠错平行语料的质量,在确定所述至少一个负文本与待预测正文本的匹配程度的基础上,优先选择匹配程度较大的负文本作为预测负文本。从而可以基于该预测模型更加快速、高效地获得高质量、大数量的第一纠错平行语料,为训练获得纠错效果更加的纠错模型奠定基础。
图5为本申请实施例提供的一种数据处理方法另一个实施例的流程示意图。该方法可以包括以下几个步骤:
501:获取所述目标领域的第一纠错平行语料。
其中,所述第一纠错平行语料为基于所述目标领域中的正样本及所述正样本对应的负样本生成;所述负样本利用所述正样本中的至少一个正确词各自对应的替换词替换所述至少一个正确词获得。
或所述第一纠错平行语料为利用所述目标领域的预测模型,通过预测获得所述目标领域的待预测正文本对应的至少一个负文本并基于所述待预测正文本及其对应的所述至少一个负文本生成;所述预测模型基于所述目标领域的正样本及利用所述替换词替换所述正样本中的至少一个正确词而获得负文本样本训练获得。
502:至少基于所述第一纠错平行语料训练所述目标领域的纠错模型。
其中,所述纠错模型用于对用户输入的所述目标领域的待纠错文本进行纠错,并返回所述待纠错文本对应的正确文本。
实际应用中所述纠错模型可以是任一种机器翻译模型,例如,除可以采用前述NMT模型之外,还可以采用SMT(Statistical Machine Translation,统计机器翻译模型)。SMT模型是通过对大量的纠错平行语料进行统计分析,构建的统计翻译模型,其训练过程可以基于第一纠错平行语料中正文本和负文本的对应关系,采用现有SMT模型训练方法对SMT模型的模型参数进行优化调整。无论纠错模型是采用NMT模型还是SMT模型,通过模型训练使得纠错模型基于负文本输出的正确文本与其对应的正文本相同,从而获得目标领域的纠错模型。
作为一种可选地实施方式,所述至少基于所述第一纠错平行语料训练所述目标领域的纠错模型可以包括:
获取所述目标领域的第二纠错平行语料;其中,所述第二纠错平行语料为所述目标领域中经人工标注生成的纠错平行语料;
基于所述第一纠错平行语料及所述第二纠错平行语料生成的纠错训练样本,训练获得所述目标领域的纠错模型。
实际应用中,纠错模型训练方式也可以分为两种,第一种是基于历史生成的第二纠错平行语料作为预训练语料,训练获得的目标领域的初始纠错模型;然后基于本申请生成的第一纠错平行语料作为优化训练语料对初始纠错模型进行优化训练,从而得到目标领域的纠错模型。
当然,为了进一步提高模型纠错效果,还可以将第一纠错平行语料与第二纠错平行语料合并生成纠错训练语料,由于该方式可以使纠错模型学习获得更多语义信息,进而可以进一步提高模型纠错效果。具体可以根据实际需求选择不同的模型训练方式,在此不做具体限定。
前述已对本申请实施例的具体实施方式进行详细地描述,在此不再赘述。
本申请实施例中,在需要大量平行语料训练数据场景下,基于前述实施例获得目标领域的大数量、高质量的优质第一纠错平行语料,对目标领域的纠错模型进行训练,可以进一步提高本领域纠错模型的纠错效果和质量,为用户提供更优质的搜错纠错服务提供了保障。
图6为本申请实施例提供的一种文本纠错方法另一个实施例的流程示意图。该装置可以包括:
601:获取用户输入的目标领域中的待纠错文本。
602:利用所述目标领域的纠错模型确定所述待纠错文本对应的正确文本。
其中,所述纠错模型至少基于所述目标领域中的第一纠错平行语料训练获得;所述第一纠错平行语料为利用所述目标领域的预测模型,通过预测获得所述目标领域的待预测正文本对应的至少一个负文本并基于所述待预测正文本及其对应的所述至少一个负文本生成;所述预测模型基于所述目标领域的正样本及利用所述替换词替换所述正样本中的至少一个正确词而获得负文本样本训练获得。
可选地,该待纠错文本为用户在任一搜索框中输入的目标领域的搜索文本。该搜索框可以是为目标领域的应用客户端或者任一网页页面中的搜索框,当用户输入搜索文本时会利用纠错模型自动检测该搜索文本是否与存在匹配的正确文本。如果存则,返回正确文本;如果不存在,则基于用户输入的正确文本进行搜多。
603:返回所述正确文本,以供用户端基于所述正确文本搜索目标对象。
搜索框基于返回的正确文本进行搜索,并在搜索页面提示用户纠错后的正确文本,以供用户确认是否纠错后的正确文本符合用户搜索需求,进而完成目标领域的自动搜索纠错过程。
实际应用中,本申请实施例还可以通过对任一文本输入服务提供的文本输入界面基于用户输入操作输出的候选词进行文本纠错,从而可以让用户可以在文本搜索框中直接输入正确文本以更加快速、高效地搜索获得目标对象。该文本应用服务例如可以由智能手机、计算机、平板电脑等终端设备中系统自带的本地输入法应用、或可调用的任一第三方应用平台的输入法应用提供,在此不做具体限定。
可选地,在某些实施例中,本申请实施例还提供一种文本纠错方法,可以包括:
获取文本输入界面针对用户输入操作输出的至少一个候选文本;
当用户通过文本输入键盘或输入画板等输入设备输入字符,文本输入应用会根据输入设备产生的字符确定至少一个与用户输入操作匹配的至少一个候选文本。实际应用中,该输入键盘可以是虚拟键盘用户可以通过电子显示屏显示虚拟键盘进行输入操作,用户还可借助辅助输入设备例如输入笔或用手指等,在输入画板中直接写入用户要输入的文本,文本输入应用通过识别用户输入的文本确定至少一个候选文本。
实际在用户触发输入操作时即可调用文本输入应用并显示文本输入界面,同时在文本输入界面中显示用户通过输入设备输入的字符,例如拼音输入法则显示用户输入的拼音字符,英文输入法则显示用户输入的英文字符等在此不做具体限定。同时,文本输入界面会同时显示根据用户输入字符确定的至少一个候选文本,且该至少一个候选文本会按照与用户输入字符的匹配程度确定的排列顺序进行显示,例如常用词汇、高频词汇等会进行优先显示。
判断所述至少一个候选文本中是否存在目标领域中的待纠错文本;
由于文本输入界面输出的至少一个候选词仅是根据用户输入操作确定的,因此该至少一个候选词中可能存在不属于目标领域中文本或词汇。因此,需要预先判断该至少一个候选文本是否属于目标领域范畴内的待纠错文本,以提高文本纠错效率。
如果存在所述待纠错文本,利用所述目标领域的纠错模型确定所述待纠错文本对应的正确文本;其中,所述纠错模型基于所述目标领域中的第一纠错平行语料训练获得;所述第一纠错平行语料为利用所述目标领域的预测模型,通过预测获得所述目标领域的待预测正文本对应的至少一个负文本并基于所述待预测正文本及其对应的所述至少一个负文本生成;所述预测模型基于所述目标领域的正样本及利用所述替换词替换所述正样本中的至少一个正确词而获得负文本样本训练获得;
将所述正确文本替换所述至少一个候选文本,以供用户端基于所述用户确定的任一个替换后的候选文本搜索目标对象。
可选地,本申请实施例中可以直接将该正确文本替换文本输入界面中对应的候选文本作为新的候选文本,还可以是将该正确文本在文本输入界面与原候选文本同时显示以对用户进行纠错提示,当用户选择该候选文本时可以提示用户将会在搜索文本框中输入正确文本,具体可根据实际需求进行设置,在此不做具体限定。
如图7(a)所示,当用户输入“q i’ca i”时,文本输入界面会显示:1、齐菜2、器材3、七彩等至少一个候选文本,当用户是在用户端的搜索文本框内进行文本输入操作时,则会执行对文本输入界面显示的至少一个候选文本的文本纠错操作,根据该用户端对应的目标领域确定该至少一个候选文本中“齐菜”为目标领域的待纠错文本,利用纠错模型对候选文本“齐菜”进行文本纠错,确定其对应的正确文本为“荠菜”。如图7(b)所示,为对文本输入界面显示的至少一个候选文本进行文本纠错后的示意图,文本输入界面纠错显示为:1、荠(ji)菜2、器材3、七彩等至少一个替换后的候选文本。当用户选择“1”时,文本搜索框内直接输入的为正确文本“荠菜”。
因此,本申请实施例还可以直接在输入文本界面上实现文本纠错,使得用户在进行文本输入过程中即可实现文本纠错,不仅可以节省文本纠错时间,从而提高目标对象搜索效率,进一步提高用户体验。
前述已对本申请实施例的具体实施方式进行详细地描述,在此不再赘述。
本申请实施例中,正由于基于统计分析和神经网络模型相结合的基础得到的大数量、高质量的第一纠错平行语料作为纠错训练样本,训练获得的纠错模型具有更佳的纠错效果,从而可以基于该纠错模型为用户提供更优质的搜错纠错服务,使得纠错后得到的正样本最大程度上符合用户的搜索需求,从而提高用户的搜索效率,使用户获得更好地用户体验。
图8为本申请实施例提供的一种语料生成装置一个实施例的结构示意图。该装置可以包括:
第一正样本获取模块801,用于获取目标领域中的正样本;
第一替换词确定模块802,用于确定与所述正样本中的至少一个正确词对应的替换词;
第一负样本获取模块803,用于利用对应的替换词替换所述至少一个正确词,获得与所述正样本对应的负样本;
第一训练样本生成模块804,用于至少基于所述正样本及所述负样本,生成所述目标领域的第一纠错平行语料。
其中,所述第一纠错平行语料用于训练所述目标领域的纠错模型,以利用所述纠错模型对用户输入的所述目标领域中的待纠错文本进行纠错,获得所述待纠错文本对应的正确文本。
为了提高纠错平行语料的指令,搜索正确文本可以根据目标领域的历史搜索文本获取,作为一种可选地实施方式,所述第一正样本获取模块801具体可以用于:
获取所述目标领域中搜索频次满足搜索阈值的搜索文本;
将所述搜索文本作为所述正样本。
可选地,在某些实施例中,所述第一替换词确定模块802具体可以包括:
正确词选取单元,用于按照预设替换规则,选取所述正样本中待替换的至少一个正确词;
替换词确定单元,用于确定与所述至少一个正确词对应的替换词。
当然,还可以随机选取正样本的正确词,作为一种可选地实施方式,正确词选取单元具体可以用于:
随机选取所述正样本中的第一预设值个待替换的正确词。
作为一种可选地实施方式,所述替换词确定单元具体可以用于:
获取词对齐数据集;其中,所述词对齐数据集中建立了从多领域获取的正确词与替换词集合的对应关系;所述替换词集合中包含至少一个替换词。
基于所述词对齐数据集,确定与所述至少一个正确词对应的替换词。
可选地,所述获取词对齐数据集具体可以用于:
获取所述多领域中包含替换词与正确词的词对齐语料;其中,所述词对齐语料至少包括多领域中的第二纠错平行语料数据集;
对所述词对齐语料进行词对齐处理获得纠错词数据集;
至少基于所述纠错词数据集、形近字数据集及常见错误词数据集获得建立正确词与替换词集合对齐关系的词对齐数据集。
进一步地,所述基于所述词对齐数据集,确定与所述至少一个正确词对应的替换词具体可以用于:
确定所述词对齐数据集中与所述至少一个正确词对应的替换词集合;
从所述替换词集合中确定与所述至少一个正确词对应的替换词。
因此为了提高负样本的样本质量,可以通过确定第二纠错平行语料中错误词被纠错为对应替换词的概率。作为一种可选地实施方式,所述从所述替换词集合中确定与所述至少一个正确词对应的替换词具体可以用于:
计算所述替换词集合中的替换词各自对应的替换概率;
基于所述替换概率,从所述替换词集合中确定与所述至少一个正确词对应的替换词。
本申请实施例中可以采用数据统计方式确定每个替换词各自对应的替换概率,具体地,作为一种可实现的实施方式,所述计算所述替换词集合中的替换词各自对应的替换概率具体可以用于:
统计所述替换词集合中的替换词被纠错为对应的正确词的概率分布;
基于所述概率分布确定所述替换词集合中的替换词对应的替换概率。
为了进一步增加负样本的多样性,提高样本质量,作为一种可选地实施方式,所述基于所述替换概率,从所述替换词集合中确定与所述至少一个正确词对应的替换词具体可以用于:
将所述替换概率作为对应的所述替换词集合中的替换词的替换权重;
基于所述替换权重,通过加权随机采样选取所述替换词集合中与所述至少一个正确词对应的替换词。
作为一种可选地实施方式,所述确定与所述至少一个正确词对应的替换词具体可以用于:
判断所述词对齐数据集是否存在与所述至少一个正确词对应的替换词;
如果是,触发第一负样本获取模块803;
如果否,按照所述预设替换规则,重新确定所述正样本中待替换的至少一个正确词,直至确定所述词对齐数据集中存在与所述至少一个正确词对应的替换词。
前述已对本申请实施例的具体实施方式进行详细地描述,在此不再赘述。
本申请实施例中,采用词替换地方式建立正样本与负样本地对应关系,且通过基于统计方式确定正样本中的至少一个正确词对应的替换词,可以使得通过词替换得到的负样本符合用户日常的搜索习惯。本申请提供的纠错平行语料生成方式在保证训练样本质量的基础上,相较于传统的人工标注训练样本的方式可以更加快速、有效地获得大数量、高质量的目标领域的第一纠错平行语料,同时还能够大大地降低了人工成本。
因此,利用获得的高质量、大数量的第一纠错平行语料训练目标领域的纠错模型,可以进一步提高纠错模型的纠错效果,以利用所述纠错模型对用户输入的所述目标领域中的待纠错文本进行纠错,获得所述待纠错文本对应的最符合用户搜索需求的正确文本,大大提高用户体验。
图9为本申请实施例提供的一种语料生成装置另一个实施例的结构示意图。该装置可以包括:
第一正样本获取模块901,用于获取目标领域中的正样本。
第一替换词确定模块902,用于确定与所述正样本中的至少一个正确词对应的替换词。
第一负样本获取模块903,用于利用对应的替换词替换所述至少一个正确词,获得与所述正样本对应的负样本。
第一训练样本生成模块904,用于至少基于所述正样本及所述负样本,生成所述目标领域的第一纠错平行语料。
所述第一训练样本生成模块904可以包括:
预测模型训练单元911,用于至少基于所述正样本及所述负样本,训练所述目标领域的预测模型。
作为一种可实现的实施方式,所述预测模型训练单元911具体可以用于:
基于所述正样本及所述负样本的对应关系,生成所述目标领域的第一反向纠错平行语料;
获取多领域中的第二反向纠错平行语料;
基于所述第一反向纠错平行语料及所述第二反向纠错平行语料,训练所述目标领域的预测模型。
可选地,所述获取多领域中的第二反向纠错平行语料具体可以用于:
获取所述多领域中的纠错平行语料;
对所述多领域中的纠错平行语料中的正文本与负文本的对应关系进行反向映射处理,获得所述多领域的第二反向纠错平行语料。
作为一种可选地实施方式,所述基于所述第一反向纠错平行语料及所述第二反向纠错平行语料,训练所述目标领域的预测模型具体可以用于:
基于所述第二反向纠错平行语料,对所述目标领域的预测模型进行预训练,获得初始预测模型;
基于所述第一反向纠错平行语料,对所述初始预测模型进行优化训练获得所述预测模型。
作为一种可选地实施方式,所述基于所述第一反向纠错平行语料,对所述初始预测模型进行优化训练获得所述预测模型具体可以用于:
获取所述目标领域中的第三反向纠错平行语料。
其中,所述第三反向纠错平行语料基于所述目标领域中由人工标注得到的第二纠错平行语料生成。
负文本预测单元912,用于利用所述预测模型预测获得所述目标领域的待预测正文本对应的至少一个负文本。
第一训练样本生成单元913,用于基于所述待预测正文本及其对应的所述至少一个负文本生成所述目标领域的第一纠错平行语料。
其中,所述第一纠错平行语料用于训练所述目标领域的纠错模型,以利用所述纠错模型对用户输入的所述目标领域中的待纠错文本进行纠错,获得所述待纠错文本对应的正确文本。
作为一种可选地实施方式,所述负文本预测单元912可以包括:
待预测正文本获取子单元,用于获取所述目标领域的待预测正文本;
负文本预测子单元,用于利用所述预测模型预测获得所述待预测正文本对应的至少一个负文本。
作为一种可选地实施方式,所述待预测正文本获取子单元具体可以用于:
获取所述目标领域中搜索频次满足搜索阈值的搜索文本;
将所述搜索文本作为所述待预测正文本。
可选地,作为一种可实现的实施方式,所述负文本预测子单元具体可以用于:
利用所述预测模型对所述待预测正文本进行预测,获得按照匹配优先级排序的至少一个负文本;其中,所述匹配优先级表示所述至少一个负文本分别与所述待预测正文本的匹配程度。
作为另一种可实现的实施方式,所述负文本预测子单元之后,还可以包括:
优先级确定子单元,用于按照预设条件,确定所述至少一个负文本与所述待预测正文本的匹配优先级。
实际应用中,基于匹配程度较低的负文本生成第一纠错平行语料的质量较差,因此为了获得高质量的第一纠错平行语料,可选地,所述第一训练样本生成单元913具体可以用于:
按照所述匹配优先级,选择所述至少一个负文本中预设前N个负文本作为预测负文本;其中,所述N大于等于1;
基于所述预测负文本与所述待预测正文本的对应关系,生成所述目标领域的第一纠错平行语料。
前述已对本申请实施例的具体实施方式进行详细地描述,在此不再赘述。
本申请实施例中,在基于统计分析进行词替换得到正样本与负样本的基础上,进一步地结合神经网络翻译模型学习正样本与负样本的语义关系并基于正样本与至少一个负样本的映射关系,使得神经网络模型可以构造出错误类型更加丰富、质量更高的负文本。
此外,通过引入与目标领域无关的第二纠错平行语料对预测模型进行训练可以引入更多的训练词量及语义信息,可以进一步丰富预测模型构造的负文本具有更多多样的错误形式,更贴加合用户日常输入错误的习惯,从而进一步提高第一纠错平行语料的样本质量,为获得更高质量的第一纠错平行语料奠定基础。
图10为本申请实施例提供的一种数据处理装置另一个实施例的结构示意图。该装置可以包括:
第二正样本获取模块1001,用于获取目标领域中的正样本;
第二替换词确定模块1002,用于确定与所述正样本中的至少一个正确自对应的替换词;
第二负样本获取模块1003,用于利用对应的替换词替换所述至少一个正确词,获得与所述正样本对应的负样本;
预测模型训练模块1004,用于至少基于所述正样本及所述负样本,训练所述目标领域的预测模型。
其中,所述预测模型用于预测获得所述目标领域的待预测正文本对应的至少一个负文本,以基于所述待预测正文本及其对应的所述至少一个负文本生成所述目标领域的第一纠错平行语料。
前述已对本申请实施例的具体实施方式进行详细地描述,在此不再赘述。
本申请实施例中,在基于统计分析进行词替换得到正样本与负样本的基础上,进一步地结合神经网络翻译模型学习正样本与负样本的语义关系并基于正样本与至少一个负样本的映射关系,使得神经网络模型可以构造出错误类型更加丰富、质量更高的负文本,为获得更高质量的第一纠错平行语料奠定基础。
图11为本申请实施例提供的一种语料生成装置另一个实施例的结构示意图。该装置可以包括:
待预测正文本获取模块1101,用于获取目标领域的待预测正文本;
负文本预测模块1102,用于利用所述目标领域的预测模型预测获得所述待预测正文本对应的至少一个负文本。
其中,所述预测模型至少基于所述目标领域中的正样本及所述正样本对应的负样本训练获得;所述负样本利用所述正样本中的至少一个正确词各自对应的替换词替换所述至少一个正确词获得。
第二训练样本生成模块1103,用于基于所述待预测正文本及其对应的所述至少一个负文本,生成所述目标领域的第一纠错平行语料。
其中,所述第一纠错平行语料用于训练所述目标领域的纠错模型,以利用所述纠错模型对用户输入的所述目标领域中的待纠错文本进行纠错,获得所述待纠错文本对应的正确文本。
前述已对本申请实施例的具体实施方式进行详细地描述,在此不再赘述。
本申请实施例中,在基于前述训练获得的目标领域的预测模型的基础上,利用该预测模型预测获得待预测正文本对应的至少一个负文本。为了进一步提高第一纠错平行语料的质量,在确定所述至少一个负文本与待预测正文本的匹配程度的基础上,优先选择匹配程度较大的负文本作为预测负文本。从而可以基于该预测模型更加快速、高效地获得高质量、大数量的第一纠错平行语料,为训练获得纠错效果更加的纠错模型奠定基础。
图12为本申请实施例提供的一种数据处理装置另一个实施例的结构示意图。该装置可以包括:
第一获取模块1201,用于获取所述目标领域的第一纠错平行语料。
其中,所述第一纠错平行语料为基于所述目标领域中的正样本及所述正样本对应的负样本生成;所述负样本利用所述正样本中的至少一个正确词各自对应的替换词替换所述至少一个正确词获得。
第一纠错模型训练模块1202,用于基于所述第一纠错平行语料训练所述目标领域的纠错模型。
其中,所述纠错模型用于对用户输入的所述目标领域的待纠错文本进行纠错,并返回所述待纠错文本对应的正确文本。
前述已对本申请实施例的具体实施方式进行详细地描述,在此不再赘述。
本申请实施例中,在需要大量平行语料训练数据场景下,基于前述实施例获得目标领域的大数量、高质量的优质第一纠错平行语料,对目标领域的纠错模型进行训练,可以进一步提高本领域纠错模型的纠错效果和质量,为用户提供更优质的搜错纠错服务提供了保障。
图13为本申请实施例提供的一种数据处理装置另一个实施例的结构示意图。该装置可以包括:
第二获取模块1301,用于获取所述目标领域的第一纠错平行语料。
其中,所述第一纠错平行语料为利用所述目标领域的预测模型,通过预测获得所述目标领域的待预测正文本对应的至少一个负文本并基于所述待预测正文本及其对应的所述至少一个负文本生成;所述预测模型基于所述目标领域的正样本及利用所述替换词替换所述正样本中的至少一个正确词而获得负文本样本训练获得。
第二纠错模型训练模块1302,用于基于所述第一纠错平行语料训练所述目标领域的纠错模型。
其中,所述纠错模型用于对用户输入的所述目标领域的待纠错文本进行纠错,并返回所述待纠错文本对应的正确文本。
作为一种可选地实施方式,所述第二纠错模型训练模块1302具体可以用于:
获取所述目标领域的第二纠错平行语料;其中,所述第二纠错平行语料为所述目标领域中经人工标注生成的纠错平行语料;
基于所述第一纠错平行语料及所述第二纠错平行语料生成的纠错训练样本,训练获得所述目标领域的纠错模型。
前述已对本申请实施例的具体实施方式进行详细地描述,在此不再赘述。
本申请实施例中,在需要大量平行语料训练数据场景下,基于前述实施例获得目标领域的大数量、高质量的优质第一纠错平行语料,对目标领域的纠错模型进行训练,可以进一步提高本领域纠错模型的纠错效果和质量,为用户提供更优质的搜错纠错服务提供了保障。
图14为本申请实施例提供的一种文本纠错装置另一个实施例的结构示意图。该装置可以包括:
待纠错文本获取模块1401,用于获取用户输入的目标领域中的待纠错文本。
纠错模块1402,用于利用所述目标领域的纠错模型确定所述待纠错文本对应的正确文本。
其中,所述纠错模型至少基于所述目标领域中的第一纠错平行语料训练获得;所述第一纠错平行语料为利用所述目标领域的预测模型,通过预测获得所述目标领域的待预测正文本对应的至少一个负文本并基于所述待预测正文本及其对应的所述至少一个负文本生成;所述预测模型基于所述目标领域的正样本及利用所述替换词替换所述正样本中的至少一个正确词而获得负文本样本训练获得。
返回模块1403,用于返回所述正确文本,以供用户端基于所述正确文本搜索目标对象。
前述已对本申请实施例的具体实施方式进行详细地描述,在此不再赘述。
本申请实施例中,正由于基于统计分析和神经网络模型相结合的基础得到的大数量、高质量的第一纠错平行语料作为纠错训练样本,训练获得的纠错模型具有更佳的纠错效果,从而可以基于该纠错模型为用户提供更优质的搜错纠错服务,使得纠错后得到的正样本最大程度上符合用户的搜索需求,从而提高用户的搜索效率,使用户获得更好地用户体验。
图15为本申请实施例提供的一种计算机一个实施例的结构示意图,该服务器可以包括处理组件1501以及存储组件1502。所述存储组件1502用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件调用执行。
所述处理组件1501可以用于:
获取目标领域中的正样本;
确定与所述正样本中的至少一个正确词对应的替换词;
利用对应的替换词替换所述至少一个正确词,获得与所述正样本对应的负样本;
至少基于所述正样本及所述负样本,生成所述目标领域的第一纠错平行语料;其中,所述第一纠错平行语料用于训练所述目标领域的纠错模型,以利用所述纠错模型对用户输入的所述目标领域中的待纠错文本进行纠错,获得所述待纠错文本对应的正确文本。
其中,处理组件1501可以包括一个或多个处理器来执行计算机指令,以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
存储组件1502被配置为存储各种类型的数据以支持在服务器中的操作。存储组件可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
当然,计算机设备必然还可以包括其他部件,例如输入/输出接口、通信组件等。
输入/输出接口为处理组件和外围接口模块之间提供接口,上述外围接口模块可以是输出设备、输入设备等。
通信组件被配置为便于服务器和其他设备之间有线或无线方式的通信,例如与终端之间的通信。
本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被计算机执行时可以实现上述图1-图4所示实施例的语料生成方法。
图16为本申请实施例提供的一种计算机设备一个实施例的结构示意图,该终端设备可以包括处理组件1601以及存储组件1602。所述存储组件1602用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件调用执行。
所述处理组件1601可以用于:
获取所述目标领域的第一纠错平行语料;其中,所述第一纠错平行语料为基于所述目标领域中的正样本及所述正样本对应的负样本生成;所述负样本利用所述正样本中的至少一个正确词各自对应的替换词替换所述至少一个正确词获得;
基于所述第一纠错平行语料训练所述目标领域的纠错模型;其中,所述纠错模型用于对用户输入的所述目标领域的待纠错文本进行纠错,并返回所述待纠错文本对应的正确文本。
其中,处理组件1601可以包括一个或多个处理器来执行计算机指令,以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
存储组件1602被配置为存储各种类型的数据以支持在服务器中的操作。存储组件可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
当然,计算机设备必然还可以包括其他部件,例如输入/输出接口、通信组件等。
本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被计算机执行时可以实现上述图5所示实施例的数据处理方法。
图17为本申请实施例提供的一种计算机设备一个实施例的结构示意图,该终端设备可以包括处理组件1701以及存储组件1702。所述存储组件1702用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件调用执行。
所述处理组件1701可以用于:
获取用户输入的目标领域中的待纠错文本;
利用所述目标领域的纠错模型确定所述待纠错文本对应的正确文本;其中,所述纠错模型至少基于所述目标领域中的第一纠错平行语料训练获得;所述第一纠错平行语料为利用所述目标领域的预测模型,通过预测获得所述目标领域的待预测正文本对应的至少一个负文本并基于所述待预测正文本及其对应的所述至少一个负文本生成;所述预测模型基于所述目标领域的正样本及利用所述替换词替换所述正样本中的至少一个正确词而获得负文本样本训练获得;
返回所述正确文本,以供用户端基于所述正确文本搜索目标对象。
其中,处理组件1701可以包括一个或多个处理器来执行计算机指令,以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
存储组件1702被配置为存储各种类型的数据以支持在服务器中的操作。存储组件可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
当然,计算机设备必然还可以包括其他部件,例如输入/输出接口、通信组件等。
本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被计算机执行时可以实现上述图6所示实施例的文本纠错方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (29)
1.一种语料生成方法,其特征在于,包括:
获取目标领域中的正样本;
确定与所述正样本中的至少一个正确词对应的替换词;
利用对应的替换词替换所述至少一个正确词,获得与所述正样本对应的负样本;
至少基于所述正样本及所述负样本,生成所述目标领域的第一纠错平行语料。
2.根据权利要求1所述的方法,其特征在于,所述至少基于所述正样本及所述负样本,生成所述目标领域的第一纠错平行语料包括:
至少基于所述正样本及所述负样本,训练所述目标领域的预测模型;
利用所述预测模型预测获得所述目标领域的待预测正文本对应的至少一个负文本;
基于所述待预测正文本及其对应的所述至少一个负文本生成所述目标领域的第一纠错平行语料。
3.根据权利要求1所述的方法,其特征在于,所述获取目标领域中的正样本包括:
获取所述目标领域中搜索频次满足搜索阈值的搜索文本;
将所述搜索文本作为所述正样本。
4.根据权利要求1所述的方法,其特征在于,所述确定与所述正样本中的至少一个正确词对应的替换词包括:
按照预设替换规则,选取所述正样本中待替换的至少一个正确词;
确定与所述至少一个正确词对应的替换词。
5.根据权利要求4所述的方法,其特征在于,所述按照预设替换规则,选取所述正样本中待替换的至少一个正确词包括:
随机选取所述正样本中的第一预设值个待替换的正确词。
6.根据权利要求4所述的方法,其特征在于,所述确定与所述至少一个正确词对应的替换词包括:
获取词对齐数据集;其中,所述词对齐数据集中建立了从多领域获取的正确词与替换词集合的对应关系;其中,所述替换词集合中包含至少一个替换词;
基于所述词对齐数据集,确定与所述至少一个正确词对应的替换词。
7.根据权利要求6所述的方法,其特征在于,所述获取词对齐数据集包括:
获取所述多领域中包含替换词与正确词的词对齐语料;其中,所述词对齐语料至少包括多领域中的第二纠错平行语料数据集;
对所述词对齐语料进行词对齐处理获得纠错词数据集;
至少基于所述纠错词数据集、形近字数据集及常见错误词数据集获得建立正确词与替换词集合对齐关系的词对齐数据集。
8.根据权利要求6所述的方法,其特征在于,所述基于所述词对齐数据集,确定与所述至少一个正确词对应的替换词包括:
确定所述词对齐数据集中与所述至少一个正确词对应的替换词集合;
从所述替换词集合中确定与所述至少一个正确词对应的替换词。
9.根据权利要求8所述的方法,其特征在于,所述从所述替换词集合中确定与所述至少一个正确词对应的替换词包括:
计算所述替换词集合中的替换词对应的替换概率;
基于所述替换概率,从所述替换词集合中确定与所述至少一个正确词对应的替换词。
10.根据权利要求9所述的方法,其特征在于,所述计算所述替换词集合中的替换词对应的替换概率包括:
统计所述替换词集合中的替换词被纠错为对应的正确词的概率分布;
基于所述概率分布确定所述替换词集合中的替换词对应的替换概率。
11.根据权利要求9所述的方法,其特征在于,所述基于所述替换概率,从所述替换词集合中确定与所述至少一个正确词对应的替换词包括:
将所述替换概率作为对应的所述替换词集合中的替换词的替换权重;
基于所述替换权重,通过加权随机采样选取所述替换词集合中与所述至少一个正确词对应的替换词。
12.根据权利要求6所述的方法,其特征在于,所述基于所述词对齐数据集,确定与所述至少一个正确词对应的替换词包括:
判断所述词对齐数据集是否存在与所述至少一个正确词对应的替换词;
如果是,执行利用对应的替换词替换所述至少一个正确词,获得与所述正样本对应的负样本的步骤;
如果否,按照预设替换规则,重新确定所述正样本中待替换的至少一个正确词,直至确定所述词对齐数据集中存在与所述至少一个正确词对应的替换词。
13.根据权利要求2所述的方法,其特征在于,所述至少基于所述正样本及所述负样本,训练所述目标领域的预测模型包括:
基于所述正样本及所述负样本的对应关系,生成所述目标领域的第一反向纠错平行语料;
获取多领域中的第二反向纠错平行语料;
基于所述第一反向纠错平行语料及所述第二反向纠错平行语料,训练所述目标领域的预测模型。
14.根据权利要求13所述的方法,其特征在于,所述获取多领域中的第二反向纠错平行语料包括:
获取所述多领域中的纠错平行语料;
对所述多领域中的纠错平行语料中的正文本与负文本的对应关系进行反向映射处理,获得所述多领域的第二反向纠错平行语料。
15.根据权利要求13所述的方法,其特征在于,所述基于所述第一反向纠错平行语料及所述第二反向纠错平行语料,训练所述目标领域的预测模型包括:
基于所述第二反向纠错平行语料,对所述目标领域的预测模型进行预训练,获得初始预测模型;
基于所述第一反向纠错平行语料,对所述初始预测模型进行优化训练获得所述预测模型。
16.根据权利要求15所述的方法,其特征在于,所述基于所述第一反向纠错平行语料,对所述初始预测模型进行优化训练获得所述预测模型包括:
获取所述目标领域中的第三反向纠错平行语料;其中,所述第三反向纠错平行语料基于所述目标领域中由人工标注得到的第二纠错平行语料生成;
基于所述第一反向纠错平行语料及所述第三反向纠错平行语料生成的优化训练样本,对所述初始预测模型进行优化训练获得所述预测模型。
17.根据权利要求2所述的方法,其特征在于,所述获取目标领域的待预测正文本包括:
获取所述目标领域中搜索频次满足搜索阈值的搜索文本;
将所述搜索文本作为所述待预测正文本。
18.根据权利要求2所述的方法,其特征在于,所述利用所述目标领域的预测模型预测获得所述待预测正文本对应的至少一个负文本包括:
利用所述预测模型对所述待预测正文本进行预测,获得按照匹配优先级排序的至少一个负文本;其中,所述匹配优先级表示所述至少一个负文本分别与所述待预测正文本的匹配程度。
19.根据权利要求2所述的方法,其特征在于,所述利用所述目标领域的预测模型预测获得所述待预测正文本对应的至少一个负文本之后,还包括:
按照预设条件,确定所述至少一个负文本与所述待预测正文本的匹配优先级。
20.根据权利要求18和19任一项所述的方法,其特征在于,所述基于所述待预测正文本及对应的所述至少一个负文本组成所述目标领域的第一纠错平行语料包括:
按照所述匹配优先级,选择所述至少一个负文本中预设前N个负文本作为预测负文本;其中,所述N大于等于1;
基于所述预测负文本与所述待预测正文本的对应关系,生成所述目标领域的第一纠错平行语料。
21.根据权利要求1所述的方法,其特征在于,所述至少基于所述正样本及所述负样本,生成所述目标领域的第一纠错平行语料之后,还包括:
至少基于所述第一纠错平行语料训练所述目标领域的纠错模型。
22.根据权利要求21所述的方法,其特征在于,所述至少基于所述第一纠错平行语料训练所述目标领域的纠错模型包括:
获取所述目标领域的第二纠错平行语料;其中,所述第二纠错平行语料为所述目标领域中经人工标注生成的纠错平行语料;
基于所述第一纠错平行语料及所述第二纠错平行语料生成的纠错训练样本,训练获得所述目标领域的纠错模型。
23.根据权利要求21所述的方法,其特征在于,所述基于所述第一纠错平行语料训练所述目标领域的纠错模型之后,还包括:
获取用户输入的目标领域中的待纠错文本;
利用所述目标领域的纠错模型确定所述待纠错文本对应的正确文本;
返回所述正确文本,以供用户端基于所述正确文本搜索目标对象。
24.一种语料生成方法,其特征在于,包括:
获取目标领域的待预测正文本;
利用所述目标领域的预测模型预测获得所述待预测正文本对应的至少一个负文本;其中,所述预测模型至少基于所述目标领域中的正样本及所述正样本对应的负样本训练获得;所述负样本利用所述正样本中的至少一个正确词各自对应的替换词替换所述至少一个正确词获得;
基于所述待预测正文本及其对应的所述至少一个负文本,生成所述目标领域的第一纠错平行语料;其中,所述第一纠错平行语料用于训练所述目标领域的纠错模型,以利用所述纠错模型对用户输入的所述目标领域中的待纠错文本进行纠错,获得所述待纠错文本对应的正确文本。
25.一种文本纠错方法,其特征在于,包括:
获取文本输入界面针对用户输入操作输出的至少一个候选文本;
判断所述至少一个候选文本中是否存在目标领域中的待纠错文本;
如果存在所述待纠错文本,利用所述目标领域的纠错模型确定所述待纠错文本对应的正确文本;其中,所述纠错模型基于所述目标领域中的第一纠错平行语料训练获得;所述第一纠错平行语料为利用所述目标领域的预测模型,通过预测获得所述目标领域的待预测正文本对应的至少一个负文本并基于所述待预测正文本及其对应的所述至少一个负文本生成;所述预测模型基于所述目标领域的正样本及利用所述替换词替换所述正样本中的至少一个正确词而获得负文本样本训练获得;
将所述正确文本替换所述至少一个候选文本,以供用户端基于所述用户确定的任一个替换后的候选文本搜索目标对象。
26.一种语料生成装置,其特征在于,包括:
第一正样本获取模块,用于获取目标领域中的正样本;
第一替换词确定模块,用于确定与所述正样本中的至少一个正确词对应的替换词;
第一负样本获取模块,用于利用对应的替换词替换所述至少一个正确词,获得与所述正样本对应的负样本;
第一训练样本生成模块,用于至少基于所述正样本及所述负样本,生成所述目标领域的第一纠错平行语料。
27.一种语料生成装置,其特征在于,包括:
待预测正文本获取模块,用于获取目标领域的待预测正文本;
负文本预测模块,用于利用所述目标领域的预测模型预测获得所述待预测正文本对应的至少一个负文本;其中,所述预测模型至少基于所述目标领域中的正样本及所述正样本对应的负样本训练获得;所述负样本利用所述正样本中的至少一个正确词各自对应的替换词替换所述至少一个正确词获得;
第二训练样本生成模块,用于基于所述待预测正文本及其对应的所述至少一个负文本,生成所述目标领域的第一纠错平行语料;其中,所述第一纠错平行语料用于训练所述目标领域的纠错模型,以利用所述纠错模型对用户输入的所述目标领域中的待纠错文本进行纠错,获得所述待纠错文本对应的正确文本。
28.一种计算机设备,其特征在于,包括处理组件以及存储组件;所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行;
所述处理组件用于:
获取目标领域中的正样本;
确定与所述正样本中的至少一个正确词对应的替换词;
利用对应的替换词替换所述至少一个正确词,获得与所述正样本对应的负样本;
至少基于所述正样本及所述负样本,生成所述目标领域的第一纠错平行语料。
29.一种计算机设备,其特征在于,包括处理组件以及存储组件;所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行;
所述处理组件用于:
获取目标领域的待预测正文本;
利用所述目标领域的预测模型预测获得所述待预测正文本对应的至少一个负文本;其中,所述预测模型至少基于所述目标领域中的正样本及所述正样本对应的负样本训练获得;所述负样本利用所述正样本中的至少一个正确词各自对应的替换词替换所述至少一个正确词获得;
基于所述待预测正文本及其对应的所述至少一个负文本,生成所述目标领域的第一纠错平行语料;其中,所述第一纠错平行语料用于训练所述目标领域的纠错模型,以利用所述纠错模型对用户输入的所述目标领域中的待纠错文本进行纠错,获得所述待纠错文本对应的正确文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910765700.2A CN112417848A (zh) | 2019-08-19 | 2019-08-19 | 语料生成方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910765700.2A CN112417848A (zh) | 2019-08-19 | 2019-08-19 | 语料生成方法、装置及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112417848A true CN112417848A (zh) | 2021-02-26 |
Family
ID=74779001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910765700.2A Pending CN112417848A (zh) | 2019-08-19 | 2019-08-19 | 语料生成方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112417848A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157897A (zh) * | 2021-05-26 | 2021-07-23 | 中国平安人寿保险股份有限公司 | 语料生成方法、装置、计算机设备及存储介质 |
CN113204966A (zh) * | 2021-06-08 | 2021-08-03 | 重庆度小满优扬科技有限公司 | 语料增广方法、装置、设备及存储介质 |
CN113704431A (zh) * | 2021-08-31 | 2021-11-26 | 平安普惠企业管理有限公司 | 意图识别的样本数据增强方法、装置、计算机设备及介质 |
CN113822044A (zh) * | 2021-09-29 | 2021-12-21 | 深圳市木愚科技有限公司 | 语法纠错数据生成方法、装置、计算机设备及存储介质 |
CN114386396A (zh) * | 2021-12-17 | 2022-04-22 | 北京达佳互联信息技术有限公司 | 语言模型训练方法、预测方法、装置及电子设备 |
CN114386396B (zh) * | 2021-12-17 | 2024-10-25 | 北京达佳互联信息技术有限公司 | 语言模型训练方法、预测方法、装置及电子设备 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106339418A (zh) * | 2016-08-15 | 2017-01-18 | 乐视控股(北京)有限公司 | 一种分类纠错方法及装置 |
CN106484660A (zh) * | 2016-10-21 | 2017-03-08 | 合网络技术(北京)有限公司 | 标题处理方法和装置 |
CN106992001A (zh) * | 2017-03-29 | 2017-07-28 | 百度在线网络技术(北京)有限公司 | 语音指令的处理方法、装置和系统 |
CN107491447A (zh) * | 2016-06-12 | 2017-12-19 | 百度在线网络技术(北京)有限公司 | 建立查询改写判别模型、查询改写判别的方法和对应装置 |
CN108108349A (zh) * | 2017-11-20 | 2018-06-01 | 北京百度网讯科技有限公司 | 基于人工智能的长文本纠错方法、装置及计算机可读介质 |
CN108228546A (zh) * | 2018-01-19 | 2018-06-29 | 北京中关村科金技术有限公司 | 一种文本特征提取方法、装置、设备及可读存储介质 |
CN108304385A (zh) * | 2018-02-09 | 2018-07-20 | 叶伟 | 一种语音识别文本纠错方法及装置 |
CN108874174A (zh) * | 2018-05-29 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 一种文本纠错方法、装置以及相关设备 |
CN109344831A (zh) * | 2018-08-22 | 2019-02-15 | 中国平安人寿保险股份有限公司 | 一种数据表识别方法、装置及终端设备 |
CN109376362A (zh) * | 2018-11-30 | 2019-02-22 | 武汉斗鱼网络科技有限公司 | 一种纠错文本的确定方法以及相关设备 |
CN109408813A (zh) * | 2018-09-30 | 2019-03-01 | 北京金山安全软件有限公司 | 一种文本纠正方法及装置 |
CN109858023A (zh) * | 2019-01-04 | 2019-06-07 | 北京车慧科技有限公司 | 一种语句纠错装置 |
CN109922371A (zh) * | 2019-03-11 | 2019-06-21 | 青岛海信电器股份有限公司 | 自然语言处理方法、设备及存储介质 |
-
2019
- 2019-08-19 CN CN201910765700.2A patent/CN112417848A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491447A (zh) * | 2016-06-12 | 2017-12-19 | 百度在线网络技术(北京)有限公司 | 建立查询改写判别模型、查询改写判别的方法和对应装置 |
CN106339418A (zh) * | 2016-08-15 | 2017-01-18 | 乐视控股(北京)有限公司 | 一种分类纠错方法及装置 |
CN106484660A (zh) * | 2016-10-21 | 2017-03-08 | 合网络技术(北京)有限公司 | 标题处理方法和装置 |
CN106992001A (zh) * | 2017-03-29 | 2017-07-28 | 百度在线网络技术(北京)有限公司 | 语音指令的处理方法、装置和系统 |
CN108108349A (zh) * | 2017-11-20 | 2018-06-01 | 北京百度网讯科技有限公司 | 基于人工智能的长文本纠错方法、装置及计算机可读介质 |
CN108228546A (zh) * | 2018-01-19 | 2018-06-29 | 北京中关村科金技术有限公司 | 一种文本特征提取方法、装置、设备及可读存储介质 |
CN108304385A (zh) * | 2018-02-09 | 2018-07-20 | 叶伟 | 一种语音识别文本纠错方法及装置 |
CN108874174A (zh) * | 2018-05-29 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 一种文本纠错方法、装置以及相关设备 |
CN109344831A (zh) * | 2018-08-22 | 2019-02-15 | 中国平安人寿保险股份有限公司 | 一种数据表识别方法、装置及终端设备 |
CN109408813A (zh) * | 2018-09-30 | 2019-03-01 | 北京金山安全软件有限公司 | 一种文本纠正方法及装置 |
CN109376362A (zh) * | 2018-11-30 | 2019-02-22 | 武汉斗鱼网络科技有限公司 | 一种纠错文本的确定方法以及相关设备 |
CN109858023A (zh) * | 2019-01-04 | 2019-06-07 | 北京车慧科技有限公司 | 一种语句纠错装置 |
CN109922371A (zh) * | 2019-03-11 | 2019-06-21 | 青岛海信电器股份有限公司 | 自然语言处理方法、设备及存储介质 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157897A (zh) * | 2021-05-26 | 2021-07-23 | 中国平安人寿保险股份有限公司 | 语料生成方法、装置、计算机设备及存储介质 |
CN113157897B (zh) * | 2021-05-26 | 2024-06-11 | 中国平安人寿保险股份有限公司 | 语料生成方法、装置、计算机设备及存储介质 |
CN113204966A (zh) * | 2021-06-08 | 2021-08-03 | 重庆度小满优扬科技有限公司 | 语料增广方法、装置、设备及存储介质 |
CN113704431A (zh) * | 2021-08-31 | 2021-11-26 | 平安普惠企业管理有限公司 | 意图识别的样本数据增强方法、装置、计算机设备及介质 |
CN113822044A (zh) * | 2021-09-29 | 2021-12-21 | 深圳市木愚科技有限公司 | 语法纠错数据生成方法、装置、计算机设备及存储介质 |
CN114386396A (zh) * | 2021-12-17 | 2022-04-22 | 北京达佳互联信息技术有限公司 | 语言模型训练方法、预测方法、装置及电子设备 |
CN114386396B (zh) * | 2021-12-17 | 2024-10-25 | 北京达佳互联信息技术有限公司 | 语言模型训练方法、预测方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112417848A (zh) | 语料生成方法、装置及计算机设备 | |
WO2020077824A1 (zh) | 异常问题的定位方法、装置、设备及存储介质 | |
CN109190049B (zh) | 关键词推荐方法、系统、电子设备和计算机可读介质 | |
CN111310440B (zh) | 文本的纠错方法、装置和系统 | |
JP5379138B2 (ja) | 領域辞書の作成 | |
CN110543552A (zh) | 对话交互方法、装置及电子设备 | |
CN113590796B (zh) | 排序模型的训练方法、装置和电子设备 | |
US9767409B1 (en) | Latent feature based tag routing | |
CN112528637A (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN110334356A (zh) | 文章质量的确定方法、文章筛选方法、以及相应的装置 | |
CN109492217B (zh) | 一种基于机器学习的分词方法及终端设备 | |
CN103870000A (zh) | 一种对输入法所产生的候选项进行排序的方法及装置 | |
CN110532354A (zh) | 内容的检索方法及装置 | |
CN114757176A (zh) | 一种获取目标意图识别模型的方法以及意图识别方法 | |
CN111639247A (zh) | 用于评估评论的质量的方法、装置、设备以及计算机可读存储介质 | |
CN112559725A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN110717008B (zh) | 基于语意识别的搜索结果排序方法及相关装置 | |
US11379527B2 (en) | Sibling search queries | |
CN117573985B (zh) | 一种应用于智能化在线教育系统的信息推送方法及系统 | |
CN114896382A (zh) | 人工智能问答模型生成方法、问答方法、装置及存储介质 | |
CN107329964A (zh) | 一种文本处理方法及装置 | |
CN112527967A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN117422064A (zh) | 搜索文本纠错方法、装置、计算机设备及存储介质 | |
CN116991252A (zh) | 一种输入文本的预测方法、装置、电子设备以及存储介质 | |
CN108845682B (zh) | 一种输入预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |