CN113392647B - 一种语料生成的方法、相关装置、计算机设备及存储介质 - Google Patents
一种语料生成的方法、相关装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113392647B CN113392647B CN202011338174.0A CN202011338174A CN113392647B CN 113392647 B CN113392647 B CN 113392647B CN 202011338174 A CN202011338174 A CN 202011338174A CN 113392647 B CN113392647 B CN 113392647B
- Authority
- CN
- China
- Prior art keywords
- corpus
- expanded
- expansion
- template
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 109
- 238000003860 storage Methods 0.000 title claims abstract description 22
- 238000002372 labelling Methods 0.000 claims abstract description 61
- 238000012549 training Methods 0.000 claims description 124
- 238000012545 processing Methods 0.000 claims description 54
- 238000004590 computer program Methods 0.000 claims description 8
- 230000002441 reversible effect Effects 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 14
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 30
- 239000013598 vector Substances 0.000 description 17
- 230000006870 function Effects 0.000 description 11
- 238000003058 natural language processing Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000001914 filtration Methods 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000009826 distribution Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000001502 supplementing effect Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种基于人工智能技术实现的语料生成方法,本申请包括获取待处理语料,其中,待处理语料中包括目标实体;将待处理语料中的目标实体替换为预设信息,得到待处理语料所对应的目标语料模板;根据目标语料模板获取M个扩展语料模板,其中,M个扩展语料模板中的每个扩展语料模板包括预设信息,M为大于或等于1的整数;根据M个扩展语料模板,生成N个第一扩展语料,其中,N个第一扩展语料中的每个第一扩展语料包括目标实体,N为大于或等于1,且小于或等于M的整数。本申请实施例还提供了相关装置、计算机设备及存储介质。本申请能够自动获取到更贴近于待处理语料的扩展语料,从而减少人工标注成本。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种语料生成的方法、相关装置、计算机设备及存储介质。
背景技术
在各个领域以及百科的建设过程之中,语料是非常重要的资产。使用某个领域内的语料训练而成的模型,可以让属于这个领域的语料能够被该模型识别出来。对于问答型任务而言,语料就更为重要,丰富的语料往往能够训练出更智能化的模型。
目前,通常采用日志挖掘的方式来补充问答型任务的语料。即利用数据挖掘技术,先提取一段时间内的日志,然后通过关键词或者关键字进行语料召回,例如,关键词是“课堂”,召回三个语料,分别为“我想听课堂这首歌”,“帮我导航到课堂这个地方”,“课堂今天的温度是多少”。
然而,采用上述方式召回到的语料可能属于不同领域,以上述三个语料为例,分别属于音乐领域、导航领域和天气领域,而并不属于课堂领域,由此可见,通过日志挖掘出属于某个领域下的语料并不准确,因此,还要花费大量的人力成本对这些语料进行标注。
发明内容
本申请实施例提供了一种语料生成的方法、相关装置、计算机设备及存储介质,能够自动获取到更贴近于待处理语料的扩展语料,从而减少人工标注成本。
有鉴于此,本申请一方面提供一种语料生成的方法,包括:
获取待处理语料,其中,待处理语料中包括目标实体;
将待处理语料中的目标实体替换为预设信息,得到待处理语料所对应的目标语料模板;
根据目标语料模板获取M个扩展语料模板,其中,M个扩展语料模板中的每个扩展语料模板包括预设信息,M为大于或等于1的整数;
根据M个扩展语料模板,生成N个第一扩展语料,其中,N个第一扩展语料中的每个第一扩展语料包括目标实体,N为大于或等于1,且小于或等于M的整数。
本申请另一方面提供一种语料生成的方法,包括:
获取待处理语料,其中,待处理语料中包括目标实体;
基于待处理语料,通过语料扩展模型获取t个第一扩展语料,其中,t为大于1的整数;
根据t个第一扩展语料生成r个第一扩展语料,其中,r为大于或等于1,且小于或等于t的整数。
本申请另一方面提供一种语料生成装置,包括:
获取模块,用于获取待处理语料;
处理模块,用于将待处理语料中的目标实体替换为预设信息,得到待处理语料所对应的目标语料模板;
获取模块,还用于根据目标语料模板获取M个扩展语料模板,其中,M个扩展语料模板中的每个扩展语料模板包括预设信息,M为大于或等于1的整数;
生成模块,用于根据M个扩展语料模板,生成N个第一扩展语料,其中,N个第一扩展语料中的每个第一扩展语料包括目标实体,N为大于或等于1,且小于或等于M的整数。
本申请另一方面提供一种语料生成装置,包括:
获取模块,用于获取待处理语料;
获取模块,还用于基于待处理语料,通过语料扩展模型获取t个第一扩展语料,其中,t为大于1的整数;
生成模块,用于根据t个第一扩展语料生成r个第一扩展语料,其中,r为大于或等于1,且小于或等于t的整数。
本申请的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
本申请的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方面所提供的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,提供了一种语料生成的方法,首先获取待处理语料,然后将待处理语料中的目标实体替换为预设信息,得到待处理语料所对应的目标语料模板,再根据目标语料模板获取M个扩展语料模板,最后根据M个扩展语料模板,生成N个第一扩展语料。通过上述方式,可以将待处理语料中的实体识别出来,然后将待处理语料退化成语料模板,由此可对语料模板进行泛化,从而得到多个具有相似语义的语料模板,最后将这些语料模板还原成语料,即可获得扩展语料,由此可见,本申请能够自动获取到更贴近于待处理语料的扩展语料,从而减少人工标注成本。
附图说明
图1为本申请实施例中语料生成系统的一个架构示意图;
图2为本申请实施例中语料生成方法的一个整体流程示意图;
图3为本申请实施例中序列到序列结构的一个预测模式示意图;
图4为本申请实施例中语料生成方法的一个实施例示意图;
图5为本申请实施例中基于数据平台获取模板样本的一个界面示意图;
图6为本申请实施例中基于数据平台获取语料样本的一个界面示意图;
图7为本申请实施例中基于数据平台获取语料样本的另一个界面示意图;
图8为本申请实施例中基于数据平台获取语料样本的另一个界面示意图;
图9为本申请实施例中基于数据平台获取语料样本的另一个界面示意图;
图10为本申请实施例中基于数据平台获取语料样本的另一个界面示意图;
图11为本申请实施例中基于数据平台获取语料样本的另一个界面示意图;
图12为本申请实施例中基于数据平台展示扩展语料的一个界面示意图;
图13为本申请实施例中基于数据平台展示扩展语料的另一个界面示意图;
图14为本申请实施例中基于数据平台展示扩展语料的另一个界面示意图;
图15为本申请实施例中基于数据平台展示扩展语料的另一个界面示意图;
图16为本申请实施例中语料生成方法的另一个实施例示意图;
图17为本申请实施例中语料生成装置的一个实施例示意图;
图18为本申请实施例中语料生成装置的另一个实施例示意图;
图19为本申请实施例中服务器的一个结构示意图。
具体实施方式
本申请实施例提供了一种语料生成的方法、相关装置、计算机设备及存储介质,能够自动获取到更贴近于待处理语料的扩展语料,从而减少人工标注成本。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
自然语言处理(Nature Language processing,NLP)作为人工智能(ArtificialIntelligence,AI)技术领域中重要的分支,随着其技术应用范围不断扩大,在数据处理领域占有越来越重要的地位。AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,AI是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。AI也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
AI技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。AI基础技术一般包括如传感器、专用AI芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。AI软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。NLP是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。NLP技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
在NLP任务中,语料是非常重要的资产,对于各个具体的任务型领域而言,有了语料才能训练得到一个性能较好的模型,让属于这个领域的语料都能被模型识别出来。对于问答型的任务而言,语料就更为重要,更多的语料就能让我们的产品更加的智能化,能回答用户各种各样的问题。由此,涉及到两个核心问题,一是语料的数量,二是语料的质量。语料的数量指的是语料要够多,数量要够大,语料的质量指的是语料的质量要好,要能包含用户的各种方式的问法。问答型任务中的算法也是非常核心的技能,算法能让相似的问题得到召回,进而回答用户的问题,因此,算法的泛化性能对于整个服务质量的提升都是非常关键的作用,然而算法模型的训练也是需要语料的,也就是说,一个性能较好的模型需要很多高质量语料的支撑才能得以实现。综上,语料和语料的泛化性以及质量对于问答型任务而言显得是重中之重。
如何增加问答型任务的语料一直是一个较为困扰的课题,其难点在于,一方面难以获取大量的用户的真实问法,另一方面难以获取大量不同的问法。为了解决上述问题,本申请提供了一种语料生成的方法,该方法应用于图1所示的语料生成系统,如图所示,语料生成系统包括服务器和终端设备,且客户端部署于终端设备上。用户可以通过终端设备上的客户端上次待处理语料,并通过终端设备与服务器之间的网络,将待处理设备发送至服务器。服务器在接收到待处理语料之后,在一种实现方式下,可以将待处理语料中的目标实体替换为预设信息,得到目标语料模板,然后泛化目标语料模板,以得到扩展语料模板,将预设信息替换为目标实体,以得到扩展语料,最后还可以对扩展语料进行语料扩展,进而得到更多的语料。在另一种实现方式下,可以对待处理语料进行语料扩展,得到更多的语料,然后分别将每个语料中的目标实体替换为预设信息,得到多个目标语料模板,再泛化多个目标语料模板,以得到扩展语料模板,最后将每个扩展语料模板中的预设信息替换为目标实体,以得到扩展语料。
本申请涉及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑、智能电视、智能手表等,但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。服务器和终端设备的数量也不做限制。
基于此,下面将结合图2对本申请提供的语料生成方法进行说明,请参阅图2,图2为本申请实施例中语料生成方法的一个整体流程示意图,如图所示,具体地:
在步骤S1中,获取问答任务型语料,即获取待处理语料。
在步骤S2中,对待处理语料进行命名实体识别(Named Entity Recognition,NER),得到目标实体,然后将目标实体替换为预设信息,从得到目标语料模板。
在步骤S3中,将目标语料模板输入至模板扩展模型,由目标扩展模型对目标语料模板进行泛化,由此得到多个扩展语料模板,例如,得到20个扩展语料模板。其中,模板扩展模型是一个问题生成(Question Generation,QG)模型,QG模型可以采用包含编码器与解码器的序列到序列(Sequence to Sequence,seq2seq)模型。
在步骤S4中,将每个扩展语料模板中的预设信息替换为目标实体,从而得到相应的扩展语料,例如,得到扩展语料。将每个扩展语料输入至语料扩展模型中,进而输出每个扩展语料的更多扩展语料,例如,1个扩展语料可以输出20个扩展语料,则20个扩展语料可得到400个扩展语料。其中,语料扩展模型是一个QG模型,QG模型可以采用包含编码器与解码器的seq2seq模型。
在步骤S5中,对所有扩展语料进行打分过滤,例如,对扩展语料进行去重,过滤到语义差异较大的扩展语料,以及过保留文本内容与待处理语料相似度较大的扩展语料。
在步骤S6中,对过滤得到的扩展语料进行上线处理。
本申请涉及到相关的专业术语,为了便于理解,下面将分别对这些专业术语进行介绍。
1、模板:表示具有扩展样例的一种通用句式。
2、语义分类器:表示采用深度学习算法预测语料属于某个领域或者意图的分类器。
3、双向转换编码器(Bidirectional Encoder Representation fromTransformer,BERT),利用大规模无标注语料训练,获取文本中丰富语义信息的表示,即文本的语义表示,然后将文本的语义表示在特定NLP任务中进行微调,最终应用于该NLP任务。BERT在动态词向量特征的提取上效果很好,可采用BERT作为特征提取器,也就是encoder。
4、transformer:可将transformer作为解码器,transformer自带的attention机制,会让模型自动的去寻找当前最需要重点关注的信息,而且transformer的解码效果也比较好。
5、seq2seq模型:seq2seq属于编码器-解码器(encoder-decoder)结构的一种,通常情况下,encoder-decoder结构的基本思想就是利用两个循环神经网络(RecurrentNeural Network,RNN),一个RNN作为encoder,另一个RNN作为decoder。encoder负责将输入序列压缩成指定长度的向量,这个向量就可以看成是这个序列的语义,这个过程称为编码。获取语义向量最简单的方式就是直接将最后一个输入的隐状态作为语义向量。也可以对最后一个隐含状态做一个变换得到语义向量,还可以将输入序列的所有隐含状态做一个变换得到语义变量。
为了便于理解,请参阅图3,图3为本申请实施例中序列到序列结构的一个预测模式示意图,如图所示,由于生成的问题之间是有联系的,也就是说下文是依赖于上文的输出的,例如,模型已经输出了“我是中国”,现在需要预测下一个字是什么,把输出和已经得到的输出“我是中国”一起输进去,预测下一个词得到“人”,即得到“我是中国人”。由此可见,下文的输出依赖于上文的输出。
6、问题生成:在NLP中的问题生成通常指的是,给定一段文字和相应的答案,根据这两个信息来生成答案对应的问题。
7、QG模型:其输入一般是一段文字或者一篇文档,外加人工标注的一些答案,输出就是针对这些答案而生成的对应的问题。例如,一段文字为“刘某某从某某小学毕业后升读某某中学。在某某中学读书期间,刘某某积极参加校内学校剧社的表演,在老师杜某某的指导下学习戏剧方面的知识。此外,他还参与包括编剧在内的幕后制作。中六上学期后,他到电视广播有限公司的艺员训练班受训,从而开始了演艺之路”,现在将“杜某某”标注出来,作为答案,希望QG模型针对“杜某某”能提出问题。那QG模型的输出可能就是,“刘某某在戏剧方面的老师是谁”。
8、迁移学习:在本申请中表示将QG模型应用于语料扩展应用,也就是将QG模型的能力迁移到相似语料的生成上。目标是希望能对据库中的已有语料进行扩展,能够得到它的相似语料,也就是同样的意思但是不同的问法,这样能极大扩充语料,提升模型的能力和线上的满意度。建模方式为,存在A和B(A表示原问题语料,B表示答案),目的是希望得到A’( A’表示A的相似问题语料),基于此,数据库存在A、A’和B,即多个问题对应一个答案,因此,多个问题本身就是相似问题。将A和B作为输入,把A’作为目标输出,这样即可训练出一个模型。预测的时候,输入A和B,即可得到大量A’作为结果,这就是迁移的基本思路。
9、微调(fine-tune):模型在运用到下游具体任务时,通常需要对下游具体任务进行训练,来微调模型参数,从而运用到具体的下游任务之中。
结合上述介绍,下面将对本申请中语料生成的方法进行介绍,请参阅图4,本申请实施例中语料生成方法的一个实施例包括:
101、获取待处理语料,其中,待处理语料中包括目标实体;
本实施例中,语料生成装置获取待处理语料,例如,待处理语料为“我要听一首冰雨”。其中,该待处理语料包括目标实体,在实际情况下,待处理语料还可能包括多个实体,本申请以其中一个实体(即目标实体)为例进行介绍,对于其他实体的处理方式类似,此处不做赘述。
具体地,可利用开源工具CoreNLP NER,将待处理语料中的实体识别出来,以待处理语料为“我要听一首冰雨”为例,经过CoreNLP NER识别后提取实体“冰雨”,即可将“冰雨”作为目标实体。可识别的实体类型包含但不仅限于人名、机构名、地名、时间、日期、货币和百分比。随着研究发展,人们对于这些实体进行更细致的划分,对于地名可以细分为国家名、省、州、城市名以及街道名等,对于人名可以细分为科学家、人物以及演员等。除了识别一般的专有名词,人们也开始关注对于特定领域的命名实体识别。在生物医学领域,可以识别出基因名和蛋白质名等,在社交媒体领域,可以识别出电影名、歌曲名以及电视剧名等。
需要说明的是,语料生成装置可部署于计算机设备,该计算机设备可以是服务器,也可以是终端设备,本申请以语料生成装置部署于服务器为例进行介绍,然而这不应理解为对本申请的限定。
102、将待处理语料中的目标实体替换为预设信息,得到待处理语料所对应的目标语料模板;
本实施例中,语料生成装置在确定待处理语料中的目标实体之后,可以将该目标实体替换为预设信息,其中,预设信息可以是一个符号,例如,“@”,或者,预设信息可以是一个字符,例如,“[song]”。将目标实体替换为预设信息之后,即得到目标语料模板。
具体地,以待处理语料为“我要听一首冰雨”为例,假设识别出的目标实体为“冰雨”,预设信息为“@”,则经过替换后得到的目标语料模板为“我要听一个@”。又假设预设信息为“[song]”,则经过替换后得到的目标语料模板为“我要听一个[song]”。
103、根据目标语料模板获取M个扩展语料模板,其中,M个扩展语料模板中的每个扩展语料模板包括预设信息,M为大于或等于1的整数;
本实施例中,语料生成装置根据目标语料模板生成至少一个扩展语料模板,且每个扩展语料模板包含有预设信息。
具体地,以待处理语料为“我要听一首冰雨”为例,将目标实体替换为预设信息之后得到的的目标语料模板为“我要听一个@”。由此得到的扩展语料模板可以是“放个@来听”,“放一首@吧”以及“播放@呀”等,由此得到M个扩展语料模板,M可以为10或者20,还可以是其他取值,此处不做限定。
104、根据M个扩展语料模板,生成N个第一扩展语料,其中,N个第一扩展语料中的每个第一扩展语料包括目标实体,N为大于或等于1,且小于或等于M的整数。
本实施例中,在获取到M个扩展语料模板之后,语料生成装置可以将预设信息再替换成目标实体,由此得到M个第一扩展语料,如果这M个第一扩展语料有重复的情况,可以进行去重处理,最终得到N个第一扩展语料,由此实现语料的自动化扩展。
具体地,为了便于理解,下面将结合表1、表2和表3进行介绍,假设目标语料模板为“我要听一个@”,基于此,请参阅表1,表1为M个扩展语料模板的一个示意。
表1
以M等于6为例,在得到6个扩展语料模板之后,还可以将预设信息“@”替换为目标实体“冰雨”,由此得到如表2所示的M个第一扩展语料。
表2
其中,语料编号3所对应的扩展语料与语料编号6所对应的扩展语料相同,于是需要进行去重处理,从而得到如表3所示的N个第一扩展语料。
表3
需要说明的是,如果M个第一扩展语料中没有重复的扩展语料,那么N也有可能等于M。进一步地,还可以对M个第一扩展语料进行优化处理,例如,判断第一扩展语料和待处理语料的语义是否相似,如果不相似,则需要过滤该第一扩展语料。
本申请实施例中,提供了一种语料生成的方法,可以将待处理语料中的实体识别出来,然后将待处理语料退化成语料模板,由此可对语料模板进行泛化,从而得到多个具有相似语义的语料模板,最后将这些语料模板还原成语料,即可获得扩展语料,由此可见,本申请能够自动获取到更贴近于待处理语料的扩展语料,从而减少人工标注成本。
可选地,在上述图4对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,根据目标语料模板获取M个扩展语料模板,具体包括:
根据目标语料模板确定目标意图;
根据目标意图,从数据库中获取M个扩展语料模板。
本实施例中,介绍了一种基于模板映射获取扩展语料模板的方式。语料生成装置对目标语料模板进行模板扩展,从而得到M个扩展语料模板。
在数据库中存储有不同意图的模板,因此,首先需要确定目标语料模板所对应的目标意图。示例性地,可采用基于词典规则的方法确定目标意图,不同的意图会有的不同的领域词典,例如,书名、歌曲名以及商品名等,因此,可根据意图和词典的匹配程度或者重合程度进行判断,一种规则是哪个领域的词典重合程度高,就将该目标语料模板判别给这个领域。示例性地,可采用基于查询点击日志的方法确定目标意图,如果是搜索引擎等类型业务场景,那们可以通过点击日志得到用户的意图。示例性地,还可采用分类模型对目标意图进行判别。
以目标语料模板为“我要听一个@”为例,采用上述方式可以确定目标意图为“播放”意图为例,基于此,可从数据库中查找出与“播放”意图相同的其他模板,例如,“放个@来听”,“放一首@吧”以及“播放@呀”等。
其次,本申请实施例中,提供了一种基于模板映射获取扩展语料模板的方式,可以直接从数据库查找出与目标语料模板匹配的扩展语料模板,匹配难度较低,且数据库更新频率较高,有利于获取到实时性更好的扩展语料模板。
可选地,在上述图4对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,根据目标语料模板获取M个扩展语料模板,具体包括:
从目标语料模板中获取目标关键词;
根据目标关键词确定联想关键词;
根据目标关键词获取Q个第一检索结果,其中,每个第一检索结果对于一个第一评分值,第一评分值为根据目标关键词的逆向文件频率IDF以及词频TF确定的,Q为大于或等于1的整数;
根据联想关键词获取P个第二检索结果,其中,每个第二检索结果对于一个第二评分值,第二评分值为根据联想关键词的IDF、TF以及评分权重值确定的,P为大于或等于1的整数;
根据每个第一检索结果所对应的第一评分值,以及每个第二检索结果的第二评分值,按照评分值从大至小的次序对Q个第一检索结果以及P个第二检索结果进行排序,得到排序结果;
将排序结果中的前M个检索结果确定为M个扩展语料模板。
本实施例中,介绍了一种基于模板检索获取扩展语料模板的方式。语料生成装置对目标语料模板进行模板扩展,从而得到M个扩展语料模板。
具体地,以目标语料模板为“我要听一个@”为例,其中,目标关键词为“听”,而联想词可以是“收听”。将目标关键词“听”作为检索词,由此得到Q个第一检索结果,每个第一检索结果具有一个第一评分值,第一评分值越高,表示第一检索结果越准确。可采用如下方式计算第一评分值:
Score1=IDF1*TF1;
其中,score1表示第一评分值,IDF1表示目标关键词的逆向文件频率(inversedocument frequency,IDF),TF1表示目标关键词的词频(term frequency,TF)。
类似地,将联想关键词“收听”作为检索词,由此得到P个第二检索结果,每个第二检索结果具有一个第二评分值,第二评分值越高,表示第二检索结果越准确。可采用如下方式计算第二评分值:
Score2=boost*IDF2*TF2;
其中,Score2表示第二评分值,boost表示评分权重,通常情况下,联想关键词的评分权重小于1。IDF2表示联想关键词的IDF,TF2表示联想关键词的TF。
需要说明的是,词频的含义是词条在查询字段上出现的频率,出现的次数越多,相关度越大。IDF表示词语在整个索引上出现的频率,出现的次数越多,相关度越低,词语出现在更多的文档中那么该词语的权重将会更低。IDF的计算方式如下:
IDF=In(numDocs/(docFreq+1))+1;
其中,In表示以自然数e为底的对数函数,numDocs表示索引中总文档数,docFreq表示查询词所出现的文档数。
在得到Q个第一评分值以及P个第二评分值之后,按照分值从大到小的顺序进行排列,从而得到排序结果。由此,可以将排列在前M的检索结果作为扩展语料模板。例如,“放个@来听”,“放一首@吧”以及“等会收听@”等。
其次,本申请实施例中,提供了一种基于模板检索获取扩展语料模板的方式,引入词语联想后可生成联想关键词,结合联想关键词和目标关键词共同进行检索,最后基于弹性检索(Elasticsearch,ES)能够爬取到扩展语料模板,且扩展语料模板的语义与目标语料模板,从而避免了字面差别大,但是语义相似的情况。
可选地,在上述图4对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,根据目标语料模板获取M个扩展语料模板,具体包括:
通过模板扩展模型所包括的编码器对目标语料模板进行编码,得到目标语料模板所对应的编码结果;
通过模板扩展模型所包括的解码器,对目标语料模板所对应的编码结果进行解码,得到M个扩展语料模板。
本实施例中,介绍了一种基于模板扩展模型获取扩展语料模板的方式。语料生成装置对目标语料模板进行模板扩展,从而得到M个扩展语料模板。
具体地,以目标语料模板为“我要听一个@”为例,将该目标语料模板作为模板扩展模型的输入,让模板扩展模型输出泛化后的M个语义相似,但是描述不同的扩展语料模板。模板扩展模型包括编码器以及解码器,编码器对目标语料模板进行编码,得到编码结果,该编码结果是所有字符的概率分布。由解码器利用集束搜索(Beam Search)的方式,可输出M个扩展语料模板,例如,“放个@来听”,“放一首@吧”以及“播放@呀”等。
需要说明的是,模板扩展模型属于QG模型,模板扩展模型可以是采用BERT作为编码器,采用Transformer作为解码器的seq2seq模型。或者,模板扩展模型可以是采用卷积神经网络(Convolutional Neural Networks,CNN)作为编码器,又或者,模板扩展模型可以是采用RNN作为编码器,本申请不做限定。
其次,本申请实施例中,提供了一种基于模板扩展模型获取扩展语料模板的方式,一方面能够弥补数据库中模板数量不足的情况,另一方面,能够降低检索所消耗的时间和资源。模型学习好之后是通用的,针对所有的模板都可以进行泛化,从而提升方案的可行性和可操作性。
可选地,在上述图4对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,还可以包括:
获取第一训练样本对,其中,第一训练样本对包括第一模板样本以及第二模板样本,第一模板样本以及第二模板样本具有相似意图;
通过待训练模板扩展模型所包括的编码器对第一模板样本进行编码,得到第一模板样本所对应的编码结果;
通过待训练模板扩展模型所包括的解码器,对第一模板样本所对应的编码结果进行解码,得到预测模板;
根据预测模板与第二模板样本之间的损失值,对待训练模板扩展模型的模型参数进行更新,直至满足模型训练调整,输出模板扩展模型。
本实施例中,介绍了一种训练模板扩展模型的方式。首先需要将相似的两个模板(即第一模板样本以及第二模板样本)作为一组第一训练样本对,然后采用多组第一训练样本对,对待训练模板扩展模型进行训练,即,将第一模板样本输入至待训练模板扩展模型,由待训练模板扩展模型对第一模板样本进行编码,再对编码结果进行解码,由此输出预测模板。最后,以最小化预测模板与第二模板样本之间的损失值为训练目标,通过随机梯度下降(stochastic gradient descent,SGD)算法来优化待训练模板扩展模型的模型参数。当预测模板与第二模板样本之间的损失值收敛,或者,迭代次数达到次数阈值时,可认为满足模型训练调整,由此输出模板扩展模型。其中,预测模板与第二模板样本之间的损失值可以为交叉熵损失值。
具体地,下面将结合图5,介绍获取第一训练样本对的方式,请参阅图5,图5为本申请实施例中基于数据平台获取模板样本的一个界面示意图,如图所示,用户可在数据平台上找到“音乐”这个大类,然后进一步选择一个意图,例如,选择“播放”意图,于是能够获取到“播放”意图下的各个模板,例如,图5所示的“播放”意图具有708个模板。基于此,可以将这些模板进行如下组合,从而得到多个第一训练样本对。请参阅表4,表4为若干个第一训练样本对的一个示意。
表4
由此可见,针对同一个意图下的9个模板,至少可生成8个第一训练样本对,此外,还可以进行两两组合,得到更多的第一训练样本对,在实际应用中,还可以利用第一训练样本对来fine-tune模板扩展模型。而在实际应用中,将一个模板输入至模板扩展模型之后,可通过模板扩展模型输出M个扩展后的模板。
再次,本申请实施例中,提供了一种训练模板扩展模型的方式,可以直接将数据平台上采集到的模板作为模板样本,对模板扩展模型进行训练。由于数据平台上的模板具有较好适应性,且还可以加入人工审核和人工修改的功能,因此,有助于训练得到鲁棒性更好的模型扩展模型。
可选地,在上述图4对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,根据M个扩展语料模板,生成N个第一扩展语料,具体包括:
将扩展语料模板中的预设信息替换为目标实体,得到第一扩展语料,其中,扩展语料模板来源于M个扩展语料模板;
基于第一扩展语料以及待处理语料,通过语义匹配模型获取语义匹配分值;
根据语义匹配分值,从M个第一扩展语料中获取N个第一扩展语料,其中,N个第一扩展语料中每个第一扩展语料所对应的语义匹配分值大于或等于语义匹配分阈值。
本实施例中,介绍了一种对第一扩展语料进行过滤的方式。在得到M个扩展语料模板之后,首先将每个扩展语料模板中的预设信息替换为目标实体,从而得到M个第一扩展语料。考虑到并非M个第一扩展语料都适合作为最终的结果,即最终得到N个第一扩展语料。因此,还需要进行如下两个方面的处理。
一、去重处理;
具体地,如果M个第一扩展语料中存在两个或两个以上完全相同的第一扩展语料,则需要删去相同的一个或多个第一扩展语料,同一个第一扩展语料仅保留一个。
二、语义匹配处理;
具体地,对M个第一扩展语料进行去重处理之后,还需要判断剩余的每个第一扩展语料与原始语料(即待处理语料)之间的语义相似度,此处可采用BERT模型进行打分。BERT模型输出第一扩展语料的低维度语义向量,以及待处理语料的低维度语义向量,然后计算两个低维度语义向量之间的余弦相似度,该余弦相似度即为语义匹配分值。由此得到第一扩展语料与待处理语料之间的语义匹配分值,如果语义匹配分值大于或等于语义匹配分阈值,则表示两者语义较为相似,反之,如果语义匹配分值小于语义匹配分阈值,则表示两者语义相差较大,因此,认为该第一扩展语料不符合要求,需要被过滤。
可以理解的是,除了可以使用BERT模型以外,还可以使用深度语义匹配模型(DeepStructured Semantic Model,DSSM),或者卷积潜在语义模型(convolutional latentsemantic model,CLSM)输出语义匹配分值。此外,语义匹配分阈值可以设置为0.65,此处仅为一个示意,不应理解为对本申请的限定。
其次,本申请实施例中,提供了一种对第一扩展语料进行过滤的方式,能够运用算法自动过滤掉质量较差的扩展语料,节省了人力审核成本。
可选地,在上述图4对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,根据M个扩展语料模板,生成N个第一扩展语料之后,还可以包括:
基于N个第一扩展语料,通过语料扩展模型获取T个第二扩展语料,其中,T个第二扩展语料包括N个第一扩展语料中每个第一扩展语料所对应的扩展语料,T为大于或等于N的整数;
从T个第二扩展语料中获取R个第二扩展语料,其中,R为小于或等于T的整数。
本实施例中,介绍了一种继续对第一扩展语料进行语料扩展的方式。语料生成装置在得到N个第一扩展语料之后,还可以对每个第一扩展语料进行语料扩展,从而得到T个第二扩展语料。可选地,也可以在得到M个第一扩展语料之后,对每个第一扩展语料进行语料扩展,从而得到T个第二扩展语料。本申请以对N个第一扩展语料做进一步扩展为例进行介绍,然而这不应理解为对本申请的限定。
具体地,以第一扩展语料为“我要听一首冰雨”为例,将该第一扩展语料作为语料扩展模型的输入,让语料扩展模型输出泛化后的T个语义相似,但是描述不同的第二扩展语料。语料扩展模型包括编码器以及解码器,编码器对第一扩展语料进行编码,得到编码结果,该编码结果是所有字符的概率分布。由解码器利用Beam Search的方式,输出至少一个第二扩展语料,例如,“放个冰雨来听”,“放一首冰雨吧”,“播放冰雨呀”等。如果有20个第一扩展语料,每个第一扩展语料再扩展出20个第二扩展语料,由此,可得到400个第二扩展语料。
需要说明的是,语料扩展模型属于QG模型,语料扩展模型可以是采用BERT作为编码器,采用Transformer作为解码器的seq2seq模型。或者,语料扩展模型可以是采用CNN作为编码器,又或者,语料扩展模型可以是采用RNN作为编码器,本申请不做限定。
其次,本申请实施例中,提供了一种继续对第一扩展语料进行语料扩展的方式,还可以利用语料扩展模型对语料做进一步扩展,由此得到更多泛化后的扩展语料,从而提升方案的灵活性和多样性,减少人工标注成本。
可选地,在上述图4对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,从T个第二扩展语料中获取R个第二扩展语料,具体包括:
基于第二扩展语料以及待处理语料,通过语义匹配模型获取语义匹配分值,其中,第二扩展语料来源于T个第二扩展语料;
根据语义匹配分值,从T个第二扩展语料中获取R个第二扩展语料,其中,R个第二扩展语料中每个第二扩展语料所对应的语义匹配分值大于或等于语义匹配分阈值。
本实施例中,介绍了一种对第二扩展语料进行过滤的方式。在得到T个第二扩展语料之后,考虑到并非T个第二扩展语料都适合作为最终的结果,即最终得到R个第二扩展语料。因此,还需要进行如下两个方面的处理。
一、去重处理;
具体地,如果T个第二扩展语料中存在两个或两个以上完全相同的第二扩展语料,则需要删去相同的一个或多个第二扩展语料,同一个第二扩展语料仅保留一个。
二、语义匹配处理;
具体地,对T个第二扩展语料进行去重处理之后,还需要判断剩余的每个第二扩展语料与原始语料(即待处理语料)之间的语义相似度,类似地,此处可采用BERT模型进行打分。BERT模型输出第二扩展语料的低维度语义向量,以及待处理语料的低维度语义向量,然后计算两个低维度语义向量之间的余弦相似度,该余弦相似度即为语义匹配分值。由此得到第二扩展语料与待处理语料之间的语义匹配分值,如果语义匹配分值大于或等于语义匹配分阈值,则表示两者语义较为相似,反之,如果语义匹配分值小于语义匹配分阈值,则表示两者语义相差较大,因此,认为该第二扩展语料不符合要求,需要被过滤。
可以理解的是,除了可以使用BERT模型以外,还可以使用DSSM或者CLSM输出语义匹配分值。此外,语义匹配分阈值可以设置为0.65,此处仅为一个示意,不应理解为对本申请的限定。
再次,本申请实施例中,提供了一种对第二扩展语料进行过滤的方式,能够运用算法自动过滤掉质量较差的扩展语料,节省了人力审核成本。
可选地,在上述图4对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,还可以包括:
获取第二训练样本对,其中,第二训练样本对包括原始问题样本以及标注问题样本,其中,原始问题样本与标注问题样本具有相似语义;
通过待训练语料扩展模型所包括的编码器对原始问题样本进行编码,得到原始问题样本所对应的编码结果;
通过待训练语料扩展模型所包括的解码器,对原始问题样本所对应的编码结果进行解码,得到预测问题;
根据预测问题与标注问题样本之间的损失值,对待训练语料扩展模型的模型参数进行更新,直至满足模型训练调整,输出语料扩展模型。
本实施例中,介绍了一种训练语料扩展模型的方式。首先需要将相关两个样本(即原始问题样本以及标注问题样本)作为一组第二训练样本对,然后采用多组第二训练样本对,对待训练语料扩展模型进行训练,即,将原始问题样本输入至待训练语料扩展模型,由待训练语料扩展模型对原始问题样本进行编码,再对编码结果进行解码,由此输出预测问题。最后,以最小化预测问题与标注问题样本之间的损失值为训练目标,通过SGD算法来优化待训练语料扩展模型的模型参数。当预测问题与标注问题样本之间的损失值收敛,或者,迭代次数达到次数阈值时,可认为满足模型训练调整,由此输出语料扩展模型。其中,预测问题与标注问题样本之间的损失值可以为交叉熵损失值。
具体地,下面将介绍获取第二训练样本对的方式,请参阅图6至图10,图6至图10分别为基于数据平台获取语料样本的一个界面示意图,如图6所示,可提取到一个问题样本,即“学生被禁止进入课堂”。如图7所示,可提取到另一个问题样本,即“学生进不了课堂,禁止进入了”。如图8所示,可提取到另一个问题样本,即“学生被禁止进入腾讯课堂怎么办”。如图9所示,可提取到另一个问题样本,即“学生进不了课堂,怎么办”。如图10所示,可提取到另一个问题样本,即“学生进不去腾讯课堂怎么办”。基于此,可以将这些问题样本进行如下组合,从而得到多个第二训练样本对。请参阅表5,表5为若干个第二训练样本对的一个示意。
表5
在实际应用中,还可以利用网上提供的相似度以及自己累积的相似句来fine-tune语种扩展模型。
再次,本申请实施例中,提供了一种训练语料扩展模型的方式,可以直接将数据平台上采集到的语料作为语料样本,对语料扩展模型进行训练。由于数据平台上的模板具有较好适应性,且还可以加入人工审核和人工修改的功能,因此,有助于训练得到鲁棒性更好的语料扩展模型。
可选地,在上述图4对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,还可以包括:
获取待处理语料所对应的目标答案;
基于N个第一扩展语料,通过语料扩展模型获取T个第二扩展语料,具体包括:
基于N个第一扩展语料以及目标答案,通过语料扩展模型获取T个第二扩展语料。
本实施例中,介绍了另一种继续对第一扩展语料进行语料扩展的方式。语料生成装置在得到N个第一扩展语料之后,还可以对每个第一扩展语料进行语料扩展,从而得到T个第二扩展语料。可选地,也可以在得到M个第一扩展语料之后,对每个第一扩展语料进行语料扩展,从而得到T个第二扩展语料。本申请以对N个第一扩展语料做进一步扩展为例进行介绍,然而这不应理解为对本申请的限定。
具体地,以第一扩展语料为“我要听一首冰雨”为例,且假设待处理语料所对应的目标答案是“正在为您搜索,马上播放”,基于此,将该第一扩展语料以及目标答案共同作为语料扩展模型的输入,让语料扩展模型输出泛化后的T个语义相似,但是描述不同的第二扩展语料。语料扩展模型包括编码器以及解码器,编码器对第一扩展语料进行编码,得到编码结果,该编码结果是所有字符的概率分布。由解码器利用Beam Search的方式,输出至少一个第二扩展语料,例如,“放个冰雨来听”,“放一首冰雨吧”,“播放冰雨呀”等。如果有20个第一扩展语料,每个第一扩展语料再扩展出20个第二扩展语料,由此,可得到400个第二扩展语料。
需要说明的是,语料扩展模型属于QG模型,语料扩展模型可以是采用BERT作为编码器,采用Transformer作为解码器的seq2seq模型。或者,语料扩展模型可以是采用CNN作为编码器,又或者,语料扩展模型可以是采用RNN作为编码器,本申请不做限定。
再次,本申请实施例中,提供了另一种继续对第一扩展语料进行语料扩展的方式,还可以利用语料扩展模型对语料做进一步扩展,由此得到更多泛化后的扩展语料,从而提升方案的灵活性和多样性,减少人工标注成本。
可选地,在上述图4对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,还可以包括:
获取第三训练样本对,其中,第三训练样本对包括原始问题样本、标注问题样本以及答案样本,其中,原始问题样本与标注问题样本具有相似语义,且答案样本为原始问题样本以及标注问题样本的答案;
通过待训练语料扩展模型所包括的编码器对原始问题样本以及答案样本进行编码,得到原始问题样本所对应的编码结果;
通过待训练语料扩展模型所包括的解码器,对原始问题样本所对应的编码结果进行解码,得到预测问题;
根据预测问题与标注问题样本之间的损失值,对待训练语料扩展模型的模型参数进行更新,直至满足模型训练调整,输出语料扩展模型。
本实施例中,提供了另一种训练语料扩展模型的方式。先需要将相关三个样本(即原始问题样本、标注问题样本以及答案样本)作为一组第三训练样本对,然后采用多组第三训练样本对,对待训练语料扩展模型进行训练,即,将原始问题样本和答案样本共同输入至待训练语料扩展模型,由待训练语料扩展模型对原始问题样本和答案样本进行编码,再对编码结果进行解码,由此输出预测问题。最后,以最小化预测问题与标注问题样本之间的损失值为训练目标,通过SGD算法来优化待训练语料扩展模型的模型参数。当预测问题与标注问题样本之间的损失值收敛,或者,迭代次数达到次数阈值时,可认为满足模型训练调整,由此输出语料扩展模型。其中,预测问题与标注问题样本之间的损失值可以为交叉熵损失值。
具体地,下面将介绍获取第三训练样本对的方式,请参阅图11,图11为本申请实施例中基于数据平台获取语料样本的另一个界面示意图,如图所示,可获取6个问题样本以及1个答案样本,因此,基于此,可以将这些问题样本进行如下组合,从而得到多个第三训练样本对。请参阅表6,表6为若干个第三训练样本对的一个示意。
表6
在实际应用中,还可以利用网上提供的相似度以及自己累积的相似句来fine-tune语种扩展模型。
进一步地,本申请实施例中,提供了另一种训练语料扩展模型的方式,可以直接将数据平台上采集到的语料作为语料样本,对语料扩展模型进行训练。由于数据平台上的模板具有较好适应性,且还可以加入人工审核和人工修改的功能,因此,有助于训练得到鲁棒性更好的语料扩展模型。
可选地,在上述图4对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,获取待处理语料,具体包括:
接收终端设备发送的语料扩展指令,其中,语料扩展指令携带待处理语料的标识;
响应于语料扩展指令,从至少一个语料中确定待处理语料;
根据M个扩展语料模板,生成N个第一扩展语料之后,还可以包括:
向终端设备发送N个第一扩展语料,以使终端设备展示N个第一扩展语料。
本实施例中,介绍了一种自动补充语料的方式。在数据平台中,用户可通过终端设备触发针对于待处理语料的语料扩展指令,由终端设备向服务器发送语料扩展指令,服务器根据语料扩展指令确定待处理语料,然后调用模板扩展模型以及语料扩展模型对待处理语料进行处理,得到N个第一扩展语料(或R个第二扩展语料),于是,服务器可直接向终端设备推送N个第一扩展语料(或R个第二扩展语料),由用户选择其中的一个或多个作为扩展语料。
具体地,请参阅图12至图15,图12至图15分别为基于数据平台展示扩展语料的一个界面示意图,如图12所示,一个自动生成的扩展语料可以是“学生被禁止进入腾讯课堂怎么办”,对应的答案语料是“学生可以换一个账号进入老师直播间”。如图13所示,一个自动生成的扩展语料可以是“学生被禁止进入课堂”,对应的答案语料是“学生可以换一个账号进入老师直播间”。如图14所示,一个自动生成的扩展语料可以是“学生进不了我的课堂”,对应的答案语料是“学生可以换一个账号进入老师直播间”。如图15所示,一个自动生成的扩展语料可以是“学生进不了课堂,禁止进入了”,对应的答案语料是“学生可以换一个账号进入老师直播间”。
由此可见,本申请类似的问法能够得到非常好的支持。扩展了模型的召回能力。
其次,本申请实施例中,提供了一种自动补充语料的方式,利用数据平台能够对各个领域的语料进行补充,当需要补充语料和扩展语料时,可通过模型添加更多的语料,保证每个领域的语料的高可用性和问法的多样性,使得数据平台在各个领域的语料结果越来越准确。与此同时,还能够对中间构建的一些结果,例如,QG模型以及其他的任务(例如,非结构化的问答对挖掘)也是有非常重要的帮助。
结合上述介绍,下面将对本申请中另一种语料生成的方法进行介绍,请参阅图16,本申请实施例中语料生成方法的一个实施例包括:
201、获取待处理语料;
本实施例中,语料生成装置获取待处理语料,例如,待处理语料为“我要听一首冰雨”。
需要说明的是,语料生成装置可部署于计算机设备,该计算机设备可以是服务器,也可以是终端设备,本申请以语料生成装置部署于服务器为例进行介绍,然而这不应理解为对本申请的限定。
202、基于待处理语料,通过语料扩展模型获取t个第一扩展语料,其中,t为大于1的整数;
本实施例中,语料生成装置在得到待处理语料之后,可以将待处理语料输入至训练好的语料扩展模型,由语料扩展模型输出t个第一扩展语料。
具体地,以待处理语料为“我要听一首冰雨”为例,将该待处理语料作为语料扩展模型的输入,让语料扩展模型输出泛化后的t个语义相似,但是描述不同的第一扩展语料。语料扩展模型包括编码器以及解码器,编码器对待处理语料进行编码,得到编码结果,该编码结果是所有字符的概率分布。由解码器利用Beam Search的方式,输出t个第一扩展语料,例如,“放个冰雨来听”,“放一首冰雨吧”,“播放冰雨呀”等。t可以为10或者20,还可以是其他取值,此处不做限定。
需要说明的是,语料扩展模型属于QG模型,语料扩展模型可以是采用BERT作为编码器,采用Transformer作为解码器的seq2seq模型。或者,语料扩展模型可以是采用CNN作为编码器,又或者,语料扩展模型可以是采用RNN作为编码器,本申请不做限定。
203、根据t个第一扩展语料生成r个第一扩展语料,其中,r为大于或等于1,且小于或等于t的整数。
本实施例中,语料生成装置在获取到t个第一扩展语料之后,如果这t个第一扩展语料有重复的情况,可以进行去重处理,最终得到r个第一扩展语料,由此实现语料的自动化扩展。
具体地,为了便于理解,下面将结合表7和表8进行介绍,假设待处理语料为“我要听一首冰雨”,基于此,请参阅表7,表7为t个第一扩展语料的一个示意。
表7
以t等于6为例,其中,语料编号3所对应的第一扩展语料与语料编号6所对应的第一扩展语料相同,于是需要进行去重处理,从而得到如表8所示的r个第一扩展语料。
表8
需要说明的是,如果r个第一扩展语料中没有重复的扩展语料,那么r也有可能等于t。进一步地,还可以对r个第一扩展语料进行优化处理,例如,判断第一扩展语料和待处理语料的语义是否相似,如果不相似,则需要过滤该第一扩展语料。
本申请实施例中,提供了一种语料生成的方法,可以直接利用训练好的语料扩展模型对待处理语料进行扩展,由此得到更多泛化后的扩展语料,由此可见,本申请能够自动获取到更贴近于待处理语料的扩展语料,从而减少人工标注成本。
可选地,在上述图16对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,根据t个第一扩展语料生成r个第一扩展语料,具体包括:
基于第一扩展语料以及待处理语料,通过语义匹配模型获取语义匹配分值,其中,第一扩展语料来源于t个第一扩展语料;
根据语义匹配分值,从t个第一扩展语料中获取t个第一扩展语料,其中,r个第一扩展语料中每个第一扩展语料所对应的语义匹配分值大于或等于语义匹配分阈值。
本实施例中,介绍了一种对第一扩展语料进行过滤的方式。在得到t个第一扩展语料之后,考虑到并非t个第一扩展语料都适合作为最终的结果,即最终得到t个第一扩展语料。因此,还需要进行如下两个方面的处理。
一、去重处理;
具体地,如果t个第一扩展语料中存在两个或两个以上完全相同的第一扩展语料,则需要删去相同的一个或多个第一扩展语料,同一个第一扩展语料仅保留一个。
二、语义匹配处理;
具体地,对t个第一扩展语料进行去重处理之后,还需要判断剩余的每个第一扩展语料与原始语料(即待处理语料)之间的语义相似度,此处可采用BERT模型进行打分。BERT模型输出第一扩展语料的低维度语义向量,以及待处理语料的低维度语义向量,然后计算两个低维度语义向量之间的余弦相似度,该余弦相似度即为语义匹配分值。由此得到第一扩展语料与待处理语料之间的语义匹配分值,如果语义匹配分值大于或等于语义匹配分阈值,则表示两者语义较为相似,反之,如果语义匹配分值小于语义匹配分阈值,则表示两者语义相差较大,因此,认为该第一扩展语料不符合要求,需要被过滤。
可以理解的是,除了可以使用BERT模型以外,还可以使用DSSM或者CLSM输出语义匹配分值。此外,语义匹配分阈值可以设置为0.65,此处仅为一个示意,不应理解为对本申请的限定。
其次,本申请实施例中,提供了一种对第一扩展语料进行过滤的方式,能够运用算法自动过滤掉质量较差的扩展语料,节省了人力审核成本。
可选地,在上述图16对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,还可以包括:
获取第一训练样本对,其中,第一训练样本对包括原始问题样本以及标注问题样本,其中,原始问题样本与标注问题样本具有相似语义;
通过待训练语料扩展模型所包括的编码器对原始问题样本进行编码,得到原始问题样本所对应的编码结果;
通过待训练语料扩展模型所包括的解码器,对原始问题样本所对应的编码结果进行解码,得到预测问题;
根据预测问题与标注问题样本之间的损失值,对待训练语料扩展模型的模型参数进行更新,直至满足模型训练调整,输出语料扩展模型。
本实施例中,介绍了一种训练语料扩展模型的方式。首先需要将相关两个样本(即原始问题样本以及标注问题样本)作为一组第一训练样本对,然后采用多组第一训练样本对,对待训练语料扩展模型进行训练,即,将原始问题样本输入至待训练语料扩展模型,由待训练语料扩展模型对原始问题样本进行编码,再对编码结果进行解码,由此输出预测问题。最后,以最小化预测问题与标注问题样本之间的损失值为训练目标,通过SGD算法来优化待训练语料扩展模型的模型参数。当预测问题与标注问题样本之间的损失值收敛,或者,迭代次数达到次数阈值时,可认为满足模型训练调整,由此输出语料扩展模型。其中,预测问题与标注问题样本之间的损失值可以为交叉熵损失值。
具体地,下面将介绍获取第一训练样本对的方式,请再次参阅图6至图10,图6至图10分别为基于数据平台获取语料样本的一个界面示意图,如图6所示,可提取到一个问题样本,即“学生被禁止进入课堂”。如图7所示,可提取到另一个问题样本,即“学生进不了课堂,禁止进入了”。如图8所示,可提取到另一个问题样本,即“学生被禁止进入腾讯课堂怎么办”。如图9所示,可提取到另一个问题样本,即“学生进不了课堂,怎么办”。如图10所示,可提取到另一个问题样本,即“学生进不去腾讯课堂怎么办”。基于此,可以将这些问题样本进行如下组合,从而得到多个第一训练样本对。请参阅表9,表9为若干个第一训练样本对的一个示意。
表9
在实际应用中,还可以利用网上提供的相似度以及自己累积的相似句来fine-tune语种扩展模型。
其次,本申请实施例中,提供了一种训练语料扩展模型的方式,可以直接将数据平台上采集到的语料作为语料样本,对语料扩展模型进行训练。由于数据平台上的模板具有较好适应性,且还可以加入人工审核和人工修改的功能,因此,有助于训练得到鲁棒性更好的语料扩展模型。
可选地,在上述图16对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,还可以包括:
获取待处理语料所对应的目标答案;
基于待处理语料,通过语料扩展模型获取t个第一扩展语料,具体包括:
基于待处理语料以及目标答案,通过语料扩展模型获取t个第一扩展语料。
本实施例中,介绍了另一种继续对第一扩展语料进行语料扩展的方式。语料生成装置还可以将待处理语料的目标答案共同作为语料扩展模型的输入,由语料扩展模型对待处理语料进行扩展,从而得到t个第一扩展语料。
具体地,以待处理语料为“我要听一首冰雨”为例,且假设待处理语料所对应的目标答案是“正在为您搜索,马上播放”,基于此,将该待处理语料以及目标答案共同作为语料扩展模型的输入,让语料扩展模型输出泛化后的t个语义相似,但是描述不同的第一扩展语料。语料扩展模型包括编码器以及解码器,编码器对待处理语料进行编码,得到编码结果,该编码结果是所有字符的概率分布。由解码器利用Beam Search的方式,输出至少一个第一扩展语料,例如,“放个冰雨来听”,“放一首冰雨吧”,“播放冰雨呀”等。
其次,本申请实施例中,提供了另一种继续对第一扩展语料进行语料扩展的方式,还可以利用语料扩展模型对语料做进一步扩展,由此得到更多泛化后的扩展语料,从而提升方案的灵活性和多样性,减少人工标注成本。
可选地,在上述图16对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,还可以包括:
获取第二训练样本对,其中,第二训练样本对包括原始问题样本、标注问题样本以及答案样本,其中,原始问题样本与标注问题样本具有相似语义,且答案样本为原始问题样本以及标注问题样本的答案;
通过待训练语料扩展模型所包括的编码器对原始问题样本以及答案样本进行编码,得到原始问题样本所对应的编码结果;
通过待训练语料扩展模型所包括的解码器,对原始问题样本所对应的编码结果进行解码,得到预测问题;
根据预测问题与标注问题样本之间的损失值,对待训练语料扩展模型的模型参数进行更新,直至满足模型训练调整,输出语料扩展模型。
本实施例中,提供了另一种训练语料扩展模型的方式。先需要将相关三个样本(即原始问题样本、标注问题样本以及答案样本)作为一组第二训练样本对,然后采用多组第二训练样本对,对待训练语料扩展模型进行训练,即,将原始问题样本和答案样本共同输入至待训练语料扩展模型,由待训练语料扩展模型对原始问题样本和答案样本进行编码,再对编码结果进行解码,由此输出预测问题。最后,以最小化预测问题与标注问题样本之间的损失值为训练目标,通过SGD算法来优化待训练语料扩展模型的模型参数。当预测问题与标注问题样本之间的损失值收敛,或者,迭代次数达到次数阈值时,可认为满足模型训练调整,由此输出语料扩展模型。其中,预测问题与标注问题样本之间的损失值可以为交叉熵损失值。
具体地,下面将介绍获取第二训练样本对的方式,请再次参阅图11,图11为本申请实施例中基于数据平台获取语料样本的另一个界面示意图,如图所示,可获取6个问题样本以及1个答案样本,因此,基于此,可以将这些问题样本进行如下组合,从而得到多个第二训练样本对。请参阅表10,表10为若干个第二训练样本对的一个示意。
表10
在实际应用中,还可以利用网上提供的相似度以及自己累积的相似句来fine-tune语种扩展模型。
再次,本申请实施例中,提供了另一种训练语料扩展模型的方式,可以直接将数据平台上采集到的语料作为语料样本,对语料扩展模型进行训练。由于数据平台上的模板具有较好适应性,且还可以加入人工审核和人工修改的功能,因此,有助于训练得到鲁棒性更好的语料扩展模型。
可选地,在上述图16对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,根据t个第一扩展语料生成r个第一扩展语料之后,还可以包括:
针对于r个第一扩展语料中的每个第一扩展语料,获取每个第一扩展语料中的目标实体;
针对于r个第一扩展语料中的每个第一扩展语料,将每个第一扩展语料中的目标实体替换为预设信息,得到r个目标语料模板;
根据r个目标语料模板获取m个扩展语料模板,其中,m个扩展语料模板中的每个扩展语料模板包括预设信息,m为大于或等于r的整数;
根据m个扩展语料模板,生成n个第二扩展语料,其中,n个第二扩展语料中的每个第二扩展语料包括目标实体,n为大于或等于1,且小于或等于m的整数。
本实施例中,介绍了一种语料生成的方法。在语料生成装置获取到r个第一扩展语料之后,分别对每个第一扩展语料中的实体进行识别,即得到每个第一扩展语料的目标实体,其中,这些目标实体可能相同,也可能不同,此处不做限定。在实际情况下,第一扩展语料还可能包括多个实体,本申请以其中一个实体(即目标实体)为例进行介绍,对于其他实体的处理方式类似,此处不做赘述。
具体地,可利用开源工具CoreNLP NER,将待处理语料中的实体识别出来,以待处理语料为“我要听一首冰雨”为例,经过CoreNLP NER识别后提取实体“冰雨”,即可将“冰雨”作为目标实体。可识别的实体类型包含但不仅限于人名、机构名、地名、时间、日期、货币和百分比。随着研究发展,人们对于这些实体进行更细致的划分,对于地名可以细分为国家名、省、州、城市名以及街道名等,对于人名可以细分为科学家、人物以及演员等。除了识别一般的专有名词,人们也开始关注对于特定领域的命名实体识别。在生物医学领域,可以识别出基因名和蛋白质名等,在社交媒体领域,可以识别出电影名、歌曲名以及电视剧名等。
在识别出r个第一扩展语料中每个第一扩展语料所对应的目标实体之后,将每个目标实体均替换为预设信息,从而得到r个目标语料模板,其中,预设信息可以是一个符号,例如,“@”,或者,预设信息可以是一个字符,例如,“[song]”。以第一扩展语料为“我要听一首冰雨”为例,假设识别出的目标实体为“冰雨”,预设信息为“@”,则经过替换后得到的目标语料模板为“我要听一个@”。又假设预设信息为“[song]”,则经过替换后得到的目标语料模板为“我要听一个[song]”。
基于此,对目标语料模板进行扩展,最终得到m个扩展语料模板,且每个扩展语料模板包含有预设信息。具体地,以第一扩展语料为“我要听一首冰雨”为例,将目标实体替换为预设信息之后得到的的目标语料模板为“我要听一个@”。由此得到的扩展语料模板可以是“放个@来听”,“放一首@吧”以及“播放@呀”等。例如,1个目标语料模板可以输出20个扩展语料模板,则20个目标语料模板可得到400个扩展语料模板。
最后,在获取到m个扩展语料模板之后,语料生成装置可以将预设信息再替换成目标实体,由此得到m个第二扩展语料,如果这m个第二扩展语料有重复的情况,可以进行去重处理,最终得到n个第二扩展语料,由此实现语料的自动化扩展。需要说明的是,将预设信息再替换成目标实体的时候,使用的目标实体应为从相应第一扩展语料中识别出来的目标实体。
其次,本申请实施例中,提供了一种语料生成的方法,可以将待处理语料中的实体识别出来,然后将待处理语料退化成语料模板,由此可对语料模板进行泛化,从而得到多个具有相似语义的语料模板,最后将这些语料模板还原成语料,即可获得扩展语料,由此可见,本申请能够自动获取到更贴近于待处理语料的扩展语料,从而减少人工标注成本。
可选地,在上述图16对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,根据r个目标语料模板获取m个扩展语料模板,可以包括:
根据r个目标语料模板确定目标意图;
根据目标意图,从数据库中获取m个扩展语料模板。
本实施例中,介绍了一种基于模板映射获取扩展语料模板的方式。语料生成装置根据r个目标语料模板,确定对应的目标意图,通常情况下,生成的r个目标语料模板会指向相同或相似的意图,如果存在不同意图,则可以采用“少数服从多数”的原则,将更多同类的意图确定为目标意图。
在数据库中存储有不同意图的模板,因此,首先需要确定目标语料模板所对应的目标意图。示例性地,可采用基于词典规则的方法确定目标意图,不同的意图会有的不同的领域词典,例如,书名、歌曲名以及商品名等,因此,可根据意图和词典的匹配程度或者重合程度进行判断,一种规则是哪个领域的词典重合程度高,就将该目标语料模板判别给这个领域。示例性地,可采用基于查询点击日志的方法确定目标意图,如果是搜索引擎等类型业务场景,那们可以通过点击日志得到用户的意图。示例性地,还可采用分类模型对目标意图进行判别。
以其中一个目标语料模板为“我要听一个@”为例,采用上述方式可以确定目标意图为“播放”意图为例,基于此,可从数据库中查找出与“播放”意图相同的其他模板,例如,“放个@来听”,“放一首@吧”以及“播放@呀”等。
再次,本申请实施例中,提供了一种基于模板映射获取扩展语料模板的方式,可以直接从数据库查找出与目标语料模板匹配的扩展语料模板,匹配难度较低,且数据库更新频率较高,有利于获取到实时性更好的扩展语料模板。
可选地,在上述图16对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,根据r个目标语料模板获取m个扩展语料模板,可以包括:
从r个目标语料模板中的每个目标语料模板中获取目标关键词;
根据每个目标语料模板中的目标关键词确定每个目标语料模板中的联想关键词;
根据每个目标语料模板中的目标关键词,获取q个第一检索结果,其中,每个第一检索结果对于一个第一评分值,第一评分值为根据目标关键词的逆向文件频率IDF以及词频TF确定的,q为大于或等于1的整数;
根据每个目标语料模板中的联想关键词,获取p个第二检索结果,其中,每个第二检索结果对于一个第二评分值,第二评分值为根据联想关键词的IDF、TF以及评分权重值确定的,p为大于或等于1的整数;
针对于每个目标语料模板,根据每个第一检索结果所对应的第一评分值,以及每个第二检索结果的第二评分值,按照评分值从大至小的次序对q个第一检索结果以及p个第二检索结果进行排序,得到排序结果;
根据每个目标语料模板所对应的排序结果,获取m个扩展语料模板。
本实施例中,介绍了一种基于模板检索获取扩展语料模板的方式。语料生成装置对每个目标语料模板进行模板扩展,从而得到m个扩展语料模板。
具体地,以其中一个目标语料模板为“我要听一个@”为例,其中,目标关键词为“听”,而联想词可以是“收听”。将目标关键词“听”作为检索词,由此得到该目标关键词所对应的q个第一检索结果,每个第一检索结果具有一个第一评分值,第一评分值越高,表示第一检索结果越准确。可采用如下方式计算第一评分值:
Score1=IDF1*TF1;
其中,Score1表示第一评分值,IDF1表示目标关键词的IDF,TF1表示目标关键词的TF。
类似地,将联想关键词“收听”作为检索词,由此得到该目标关键词所对应的Q个第二检索结果,每个第二检索结果具有一个第二评分值,第二评分值越高,表示第二检索结果越准确。可采用如下方式计算第二评分值:
Score2=boost*IDF2*TF2;
其中,Score2表示第二评分值,boost表示评分权重,通常情况下,联想关键词的评分权重小于1。IDF2表示联想关键词的IDF,TF2表示联想关键词的TF。
需要说明的是,词频的含义是词条在查询字段上出现的频率,出现的次数越多,相关度越大。IDF表示词语在整个索引上出现的频率,出现的次数越多,相关度越低,词语出现在更多的文档中那么该词语的权重将会更低。IDF的计算方式如下:
IDF=In(numDocs/(docFreq+1))+1;
其中,In表示以自然数e为底的对数函数,numDocs表示索引中总文档数,docFreq表示查询词所出现的文档数。
在得到q个第一评分值以及p个第二评分值之后,按照分值从大到小的顺序进行排列,从而得到排序结果。由此,可以将排列在前的若干个检索结果作为扩展语料模板。例如,“放个@来听”,“放一首@吧”以及“等会收听@”等,也可以在得到其他目标语料模板的检索结果之后,对r个目标语料模板的检索结果进行排序,最终取出m个扩展语料模板。
需要说明的是,对于其他目标语料模板的处理方式类似,故此处不做赘述。
再次,本申请实施例中,提供了一种基于模板检索获取扩展语料模板的方式,引入词语联想后可生成联想关键词,结合联想关键词和目标关键词共同进行检索,最后基于ES能够爬取到扩展语料模板,且扩展语料模板的语义与目标语料模板,从而避免了字面差别大,但是语义相似的情况。
可选地,在上述图16对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,根据r个目标语料模板获取m个扩展语料模板,可以包括:
通过模板扩展模型所包括的编码器对r个目标语料模板中的每个目标语料模板进行编码,得到每个目标语料模板所对应的编码结果;
通过模板扩展模型所包括的解码器,对每个目标语料模板所对应的编码结果进行解码,得到m个扩展语料模板。
本实施例中,介绍了一种基于模板扩展模型获取扩展语料模板的方式。语料生成装置对每个目标语料模板进行模板扩展,最终得到m个扩展语料模板。
具体地,以其中一个目标语料模板为“我要听一个@”为例,将该目标语料模板作为模板扩展模型的输入,让模板扩展模型输出泛化后的若干个(例如,20个)语义相似,但是描述不同的扩展语料模板。模板扩展模型包括编码器以及解码器,编码器对目标语料模板进行编码,得到编码结果,该编码结果是所有字符的概率分布。由解码器利用Beam Search的方式,可输出若干个扩展语料模板,例如,“放个@来听”,“放一首@吧”以及“播放@呀”等。最后,将r个目标语料模板中每个目标语料模板所对应的扩展语料模板,作为m个扩展语料模板。
需要说明的是,模板扩展模型属于QG模型,模板扩展模型可以是采用BERT作为编码器,采用Transformer作为解码器的seq2seq模型。或者,模板扩展模型可以是采用CNN作为编码器,又或者,模板扩展模型可以是采用RNN作为编码器,本申请不做限定。
再次,本申请实施例中,提供了一种基于模板扩展模型获取扩展语料模板的方式,一方面能够弥补数据库中模板数量不足的情况,另一方面,能够降低检索所消耗的时间和资源。模型学习好之后是通用的,针对所有的模板都可以进行泛化,从而提升方案的可行性和可操作性。
可选地,在上述图16对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,还可以包括:
获取第三训练样本对,其中,第三训练样本对包括第一模板样本以及第二模板样本,第一模板样本以及第二模板样本具有相似意图;
通过待训练模板扩展模型所包括的编码器对第一模板样本进行编码,得到第一模板样本所对应的编码结果;
通过待训练模板扩展模型所包括的解码器,对第一模板样本所对应的编码结果进行解码,得到预测模板;
根据预测模板与第二模板样本之间的损失值,对待训练模板扩展模型的模型参数进行更新,直至满足模型训练调整,输出模板扩展模型。
本实施例中,介绍了一种训练模板扩展模型的方式。首先需要将相似的两个模板(即第一模板样本以及第二模板样本)作为一组第三训练样本对,然后采用多组第三训练样本对,对待训练模板扩展模型进行训练,即,将第一模板样本输入至待训练模板扩展模型,由待训练模板扩展模型对第一模板样本进行编码,再对编码结果进行解码,由此输出预测模板。最后,以最小化预测模板与第二模板样本之间的损失值为训练目标,通过SGD算法来优化待训练模板扩展模型的模型参数。当预测模板与第二模板样本之间的损失值收敛,或者,迭代次数达到次数阈值时,可认为满足模型训练调整,由此输出模板扩展模型。其中,预测模板与第二模板样本之间的损失值可以为交叉熵损失值。
具体地,下面将介绍获取第三训练样本对的方式,请再次参阅图5,图5为本申请实施例中基于数据平台获取模板样本的一个界面示意图,如图所示,用户可在数据平台上找到“音乐”这个大类,然后进一步选择一个意图,例如,选择“播放”意图,于是能够获取到“播放”意图下的各个模板,例如,图5所示的“播放”意图具有708个模板。基于此,可以将这些模板进行如下组合,从而得到多个第三训练样本对。请参阅表4,表4为若干个第三训练样本对的一个示意。
表11
由此可见,针对同一个意图下的9个模板,至少可生成8个第三训练样本对,此外,还可以进行两两组合,得到更多的第三训练样本对,在实际应用中,还可以利用第三训练样本对来fine-tune模板扩展模型。
进一步地,本申请实施例中,提供了一种训练模板扩展模型的方式,可以直接将数据平台上采集到的模板作为模板样本,对模板扩展模型进行训练。由于数据平台上的模板具有较好适应性,且还可以加入人工审核和人工修改的功能,因此,有助于训练得到鲁棒性更好的模型扩展模型。
可选地,在上述图16对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,根据m个扩展语料模板,生成n个第二扩展语料,可以包括:
将m个扩展语料模板中的预设信息替换为目标实体,得到m个第二扩展语料;
基于m个第二扩展语料中的每个第二扩展语料以及待处理语料,通过语义匹配模型获取m个语义匹配分值;
获取m个第二扩展语料中每个第二扩展语料与待处理语料之间的相似度,得到m个相似度分值;
根据m个语义匹配分值以及m个相似度分值,从m个第二扩展语料中获取n个第二扩展语料,其中,n个第二扩展语料中每个第二扩展语料所对应的语义匹配分值大于或等于语义匹配分阈值。
本实施例中,介绍了一种对第二扩展语料进行过滤的方式。在得到m个扩展语料模板之后,首先将每个扩展语料模板中的预设信息替换为目标实体,从而得到m个第二扩展语料。考虑到并非到m个第二扩展语料都适合作为最终的结果,即最终得到n个第二扩展语料。因此,还需要进行如下两个方面的处理。
一、去重处理;
具体地,如果m个第二扩展语料中存在两个或两个以上完全相同的第二扩展语料,则需要删去相同的一个或多个第二扩展语料,同一个第二扩展语料仅保留一个。
二、语义匹配处理;
具体地,对m个第二扩展语料进行去重处理之后,还需要判断剩余的每个第二扩展语料与原始语料(即待处理语料)之间的语义相似度,类似地,此处可采用BERT模型进行打分。BERT模型输出第二扩展语料的低维度语义向量,以及待处理语料的低维度语义向量,然后计算两个低维度语义向量之间的余弦相似度,该余弦相似度即为语义匹配分值。由此得到第二扩展语料与待处理语料之间的语义匹配分值,如果语义匹配分值大于或等于语义匹配分阈值,则表示两者语义较为相似,反之,如果语义匹配分值小于语义匹配分阈值,则表示两者语义相差较大,因此,认为该第二扩展语料不符合要求,需要被过滤。
可以理解的是,除了可以使用BERT模型以外,还可以使用DSSM或者CLSM输出语义匹配分值。此外,语义匹配分阈值可以设置为0.65,此处仅为一个示意,不应理解为对本申请的限定。
再次,本申请实施例中,提供了一种对第二扩展语料进行过滤的方式,能够运用算法自动过滤掉质量较差的扩展语料,节省了人力审核成本。
可选地,在上述图16对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,获取待处理语料,可以包括:
接收终端设备发送的语料扩展指令,其中,语料扩展指令携带待处理语料的标识;
响应于语料扩展指令,从至少一个语料中确定待处理语料;
根据t个第一扩展语料生成r个第一扩展语料之后,方法还包括:
向终端设备发送r个第一扩展语料,以使终端设备展示r个第一扩展语料。
本实施例中,介绍了一种自动补充语料的方式。在数据平台中,用户可通过终端设备触发针对于待处理语料的语料扩展指令,由终端设备向服务器发送语料扩展指令,服务器根据语料扩展指令确定待处理语料,然后调用模板扩展模型以及语料扩展模型对待处理语料进行处理,得到r个第一扩展语料(或n个第二扩展语料),于是,服务器可直接向终端设备推送r个第一扩展语料(或n个第二扩展语料),由用户选择其中的一个或多个作为扩展语料。
具体地,请再次参阅图12至图15,图12至图15分别为基于数据平台展示扩展语料的一个界面示意图,如图12所示,一个自动生成的扩展语料可以是“学生被禁止进入腾讯课堂怎么办”,对应的答案语料是“学生可以换一个账号进入老师直播间”。如图13所示,一个自动生成的扩展语料可以是“学生被禁止进入课堂”,对应的答案语料是“学生可以换一个账号进入老师直播间”。如图14所示,一个自动生成的扩展语料可以是“学生进不了我的课堂”,对应的答案语料是“学生可以换一个账号进入老师直播间”。如图15所示,一个自动生成的扩展语料可以是“学生进不了课堂,禁止进入了”,对应的答案语料是“学生可以换一个账号进入老师直播间”。
由此可见,本申请类似的问法能够得到非常好的支持。扩展了模型的召回能力。
其次,本申请实施例中,提供了一种自动补充语料的方式,利用数据平台能够对各个领域的语料进行补充,当需要补充语料和扩展语料时,可通过模型添加更多的语料,保证每个领域的语料的高可用性和问法的多样性,使得数据平台在各个领域的语料结果越来越准确。与此同时,还能够对中间构建的一些结果,例如,QG模型以及其他的任务(例如,非结构化的问答对挖掘)也是有非常重要的帮助。
下面对本申请中的语料生成装置进行详细描述,请参阅图17,图17为本申请实施例中语料生成装置的一个实施例示意图,语料生成装置30包括:
获取模块301,用于获取待处理语料,其中,待处理语料中包括目标实体;
处理模块302,用于将待处理语料中的目标实体替换为预设信息,得到待处理语料所对应的目标语料模板;
获取模块301,还用于根据目标语料模板获取M个扩展语料模板,其中,M个扩展语料模板中的每个扩展语料模板包括预设信息,M为大于或等于1的整数;
生成模块303,用于根据M个扩展语料模板,生成N个第一扩展语料,其中,N个第一扩展语料中的每个第一扩展语料包括目标实体,N为大于或等于1,且小于或等于M的整数。
可选地,在上述图17所对应的实施例的基础上,本申请实施例提供的语料生成装置置30的另一实施例中,
获取模块301,具体用于根据目标语料模板确定目标意图;
根据目标意图,从数据库中获取M个扩展语料模板。
可选地,在上述图17所对应的实施例的基础上,本申请实施例提供的语料生成装置置30的另一实施例中,
获取模块301,具体用于从目标语料模板中获取目标关键词;
根据目标关键词确定联想关键词;
根据目标关键词获取Q个第一检索结果,其中,每个第一检索结果对于一个第一评分值,第一评分值为根据目标关键词的逆向文件频率IDF以及词频TF确定的,Q为大于或等于1的整数;
根据联想关键词获取P个第二检索结果,其中,每个第二检索结果对于一个第二评分值,第二评分值为根据联想关键词的IDF、TF以及评分权重值确定的,P为大于或等于1的整数;
根据每个第一检索结果所对应的第一评分值,以及每个第二检索结果的第二评分值,按照评分值从大至小的次序对Q个第一检索结果以及P个第二检索结果进行排序,得到排序结果;
将排序结果中的前M个检索结果确定为M个扩展语料模板。
可选地,在上述图17所对应的实施例的基础上,本申请实施例提供的语料生成装置置30的另一实施例中,
获取模块301,具体用于通过模板扩展模型所包括的编码器对目标语料模板进行编码,得到目标语料模板所对应的编码结果;
通过模板扩展模型所包括的解码器,对目标语料模板所对应的编码结果进行解码,得到M个扩展语料模板。
可选地,在上述图17所对应的实施例的基础上,本申请实施例提供的语料生成装置置30的另一实施例中,
获取模块301,还用于获取第一训练样本对,其中,第一训练样本对包括第一模板样本以及第二模板样本,第一模板样本以及第二模板样本具有相似意图;
处理模块302,还用于通过待训练模板扩展模型所包括的编码器对第一模板样本进行编码,得到第一模板样本所对应的编码结果;
处理模块302,还用于通过待训练模板扩展模型所包括的解码器,对第一模板样本所对应的编码结果进行解码,得到预测模板;
处理模块302,还用于根据预测模板与第二模板样本之间的损失值,对待训练模板扩展模型的模型参数进行更新,直至满足模型训练调整,输出模板扩展模型。
可选地,在上述图17所对应的实施例的基础上,本申请实施例提供的语料生成装置置30的另一实施例中,
生成模块303,具体用于将扩展语料模板中的预设信息替换为目标实体,得到第一扩展语料,其中,扩展语料模板来源于M个扩展语料模板;
基于第一扩展语料以及待处理语料,通过语义匹配模型获取语义匹配分值;
根据语义匹配分值,从M个第一扩展语料中获取N个第一扩展语料,其中,N个第一扩展语料中每个第一扩展语料所对应的语义匹配分值大于或等于语义匹配分阈值。
可选地,在上述图17所对应的实施例的基础上,本申请实施例提供的语料生成装置置30的另一实施例中,
获取模块301,还用于在生成模块根据M个扩展语料模板,生成N个第一扩展语料之后,基于N个第一扩展语料,通过语料扩展模型获取T个第二扩展语料,其中,T个第二扩展语料包括N个第一扩展语料中每个第一扩展语料所对应的扩展语料,T为大于或等于N的整数;
获取模块301,还用于从T个第二扩展语料中获取R个第二扩展语料,其中,R为小于或等于T的整数。
可选地,在上述图17所对应的实施例的基础上,本申请实施例提供的语料生成装置置30的另一实施例中,
获取模块301,具体用于基于第二扩展语料以及待处理语料,通过语义匹配模型获取语义匹配分值,其中,第二扩展语料来源于T个第二扩展语料;
根据语义匹配分值,从T个第二扩展语料中获取R个第二扩展语料,其中,R个第二扩展语料中每个第二扩展语料所对应的语义匹配分值大于或等于语义匹配分阈值。
可选地,在上述图17所对应的实施例的基础上,本申请实施例提供的语料生成装置置30的另一实施例中,
获取模块301,还用于获取第二训练样本对,其中,第二训练样本对包括原始问题样本以及标注问题样本,其中,原始问题样本与标注问题样本具有相似语义;
处理模块302,还用于通过待训练语料扩展模型所包括的编码器对原始问题样本进行编码,得到原始问题样本所对应的编码结果;
处理模块302,还用于通过待训练语料扩展模型所包括的解码器,对原始问题样本所对应的编码结果进行解码,得到预测问题;
处理模块302,还用于根据预测问题与标注问题样本之间的损失值,对待训练语料扩展模型的模型参数进行更新,直至满足模型训练调整,输出语料扩展模型。
可选地,在上述图17所对应的实施例的基础上,本申请实施例提供的语料生成装置置30的另一实施例中,
获取模块301,还用于获取待处理语料所对应的目标答案;
获取模块301,具体用于基于N个第一扩展语料以及目标答案,通过语料扩展模型获取T个第二扩展语料。
可选地,在上述图17所对应的实施例的基础上,本申请实施例提供的语料生成装置置30的另一实施例中,
获取模块301,还用于获取第三训练样本对,其中,第三训练样本对包括原始问题样本、标注问题样本以及答案样本,其中,原始问题样本与标注问题样本具有相似语义,且答案样本为原始问题样本以及标注问题样本的答案;
处理模块302,还用于通过待训练语料扩展模型所包括的编码器对原始问题样本以及答案样本进行编码,得到原始问题样本所对应的编码结果;
处理模块302,还用于通过待训练语料扩展模型所包括的解码器,对原始问题样本所对应的编码结果进行解码,得到预测问题;
处理模块302,还用于根据预测问题与标注问题样本之间的损失值,对待训练语料扩展模型的模型参数进行更新,直至满足模型训练调整,输出语料扩展模型。
可选地,在上述图17所对应的实施例的基础上,本申请实施例提供的语料生成装置置30的另一实施例中,语料生成装置30还包括发送模块304;
获取模块301,具体用于接收终端设备发送的语料扩展指令,其中,语料扩展指令携带待处理语料的标识;
响应于语料扩展指令,从至少一个语料中确定待处理语料;
发送模块304,用于生成模块303根据M个扩展语料模板,生成N个第一扩展语料之后,向终端设备发送N个第一扩展语料,以使终端设备展示N个第一扩展语料。
下面对本申请中的语料生成装置进行详细描述,请参阅图18,图18为本申请实施例中语料生成装置的另一个实施例示意图,语料生成装置40包括:
获取模块401,用于获取待处理语料;
获取模块,还用于基于待处理语料,通过语料扩展模型获取t个第一扩展语料,其中,t为大于1的整数;
生成模块402,用于根据t个第一扩展语料生成r个第一扩展语料,其中,r为大于或等于1,且小于或等于t的整数。
可选地,在上述图18所对应的实施例的基础上,本申请实施例提供的语料生成装置置40的另一实施例中,
生成模块402,具体用于基于第一扩展语料以及待处理语料,通过语义匹配模型获取语义匹配分值,其中,第一扩展语料来源于t个第一扩展语料;
根据语义匹配分值,从t个第一扩展语料中获取r个第一扩展语料,其中,r个第一扩展语料中每个第一扩展语料所对应的语义匹配分值大于或等于语义匹配分阈值。
可选地,在上述图18所对应的实施例的基础上,本申请实施例提供的语料生成装置置40的另一实施例中,语料生成装置40还包括处理模块403;
获取模块401,还用于获取第一训练样本对,其中,第一训练样本对包括原始问题样本以及标注问题样本,其中,原始问题样本与标注问题样本具有相似语义;
处理模块403,用于通过待训练语料扩展模型所包括的编码器对原始问题样本进行编码,得到原始问题样本所对应的编码结果;
处理模块403,还用于通过待训练语料扩展模型所包括的解码器,对原始问题样本所对应的编码结果进行解码,得到预测问题;
处理模块403,还用于根据预测问题与标注问题样本之间的损失值,对待训练语料扩展模型的模型参数进行更新,直至满足模型训练调整,输出语料扩展模型。
可选地,在上述图18所对应的实施例的基础上,本申请实施例提供的语料生成装置置40的另一实施例中,
获取模块401,还用于获取待处理语料所对应的目标答案;
获取模块401,具体用于基于待处理语料以及目标答案,通过语料扩展模型获取t个第一扩展语料。
可选地,在上述图18所对应的实施例的基础上,本申请实施例提供的语料生成装置置40的另一实施例中,
获取模块401,还用于获取第二训练样本对,其中,第二训练样本对包括原始问题样本、标注问题样本以及答案样本,其中,原始问题样本与标注问题样本具有相似语义,且答案样本为原始问题样本以及标注问题样本的答案;
处理模块403,还用于通过待训练语料扩展模型所包括的编码器对原始问题样本以及答案样本进行编码,得到原始问题样本所对应的编码结果;
处理模块403,还用于通过待训练语料扩展模型所包括的解码器,对原始问题样本所对应的编码结果进行解码,得到预测问题;
可选地,在上述图18所对应的实施例的基础上,本申请实施例提供的语料生成装置置40的另一实施例中,
处理模块403,还用于根据预测问题与标注问题样本之间的损失值,对待训练语料扩展模型的模型参数进行更新,直至满足模型训练调整,输出语料扩展模型。
可选地,在上述图18所对应的实施例的基础上,本申请实施例提供的语料生成装置置40的另一实施例中,
获取模块401,还用于根据t个第一扩展语料生成r个第一扩展语料之后,针对于r个第一扩展语料中的每个第一扩展语料,获取每个第一扩展语料中的目标实体;
处理模块403,还用于针对于r个第一扩展语料中的每个第一扩展语料,将每个第一扩展语料中的目标实体替换为预设信息,得到r个目标语料模板;
获取模块401,还用于根据r个目标语料模板获取m个扩展语料模板,其中,m个扩展语料模板中的每个扩展语料模板包括预设信息,m为大于或等于r的整数;
生成模块402,还用于根据m个扩展语料模板,生成n个第二扩展语料,其中,n个第二扩展语料中的每个第二扩展语料包括目标实体,n为大于或等于1,且小于或等于m的整数。
可选地,在上述图18所对应的实施例的基础上,本申请实施例提供的语料生成装置置40的另一实施例中,
获取模块401,具体用于根据r个目标语料模板确定目标意图;
根据目标意图,从数据库中获取m个扩展语料模板。
可选地,在上述图18所对应的实施例的基础上,本申请实施例提供的语料生成装置置40的另一实施例中,
获取模块401,具体用于从r个目标语料模板中的每个目标语料模板中获取目标关键词;
根据每个目标语料模板中的目标关键词确定每个目标语料模板中的联想关键词;
根据每个目标语料模板中的目标关键词,获取q个第一检索结果,其中,每个第一检索结果对于一个第一评分值,第一评分值为根据目标关键词的逆向文件频率IDF以及词频TF确定的,q为大于或等于1的整数;
根据每个目标语料模板中的联想关键词,获取p个第二检索结果,其中,每个第二检索结果对于一个第二评分值,第二评分值为根据联想关键词的IDF、TF以及评分权重值确定的,p为大于或等于1的整数;
针对于每个目标语料模板,根据每个第一检索结果所对应的第一评分值,以及每个第二检索结果的第二评分值,按照评分值从大至小的次序对q个第一检索结果以及p个第二检索结果进行排序,得到排序结果;
根据每个目标语料模板所对应的排序结果,获取m个扩展语料模板。
可选地,在上述图18所对应的实施例的基础上,本申请实施例提供的语料生成装置置40的另一实施例中,
获取模块401,具体用于通过模板扩展模型所包括的编码器对r个目标语料模板中的每个目标语料模板进行编码,得到每个目标语料模板所对应的编码结果;
通过模板扩展模型所包括的解码器,对每个目标语料模板所对应的编码结果进行解码,得到m个扩展语料模板。
可选地,在上述图18所对应的实施例的基础上,本申请实施例提供的语料生成装置置40的另一实施例中,
获取模块401,还用于获取第三训练样本对,其中,第三训练样本对包括第一模板样本以及第二模板样本,第一模板样本以及第二模板样本具有相似意图;
处理模块403,还用于通过待训练模板扩展模型所包括的编码器对第一模板样本进行编码,得到第一模板样本所对应的编码结果;
处理模块403,还用于通过待训练模板扩展模型所包括的解码器,对第一模板样本所对应的编码结果进行解码,得到预测模板;
处理模块403,还用于根据预测模板与第二模板样本之间的损失值,对待训练模板扩展模型的模型参数进行更新,直至满足模型训练调整,输出模板扩展模型。
可选地,在上述图18所对应的实施例的基础上,本申请实施例提供的语料生成装置置40的另一实施例中,
生成模块402,具体用于将m个扩展语料模板中的预设信息替换为目标实体,得到m个第二扩展语料;
基于m个第二扩展语料中的每个第二扩展语料以及待处理语料,通过语义匹配模型获取m个语义匹配分值;
获取m个第二扩展语料中每个第二扩展语料与待处理语料之间的相似度,得到m个相似度分值;
根据m个语义匹配分值以及m个相似度分值,从m个第二扩展语料中获取n个第二扩展语料,其中,n个第二扩展语料中每个第二扩展语料所对应的语义匹配分值大于或等于语义匹配分阈值。
可选地,在上述图18所对应的实施例的基础上,本申请实施例提供的语料生成装置置40的另一实施例中,语料生成装置40还包括发送模块404;
获取模块401,具体用于接收终端设备发送的语料扩展指令,其中,语料扩展指令携带待处理语料的标识;
响应于语料扩展指令,从至少一个语料中确定待处理语料;
发送模块404,用于在生成模块402根据t个第一扩展语料生成r个第一扩展语料之后,向终端设备发送r个第一扩展语料,以使终端设备展示r个第一扩展语料。
图19是本申请实施例提供的一种服务器结构示意图,该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)522(例如,一个或一个以上处理器)和存储器532,一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器522可以设置为与存储介质530通信,在服务器500上执行存储介质530中的一系列指令操作。
服务器500还可以包括一个或一个以上电源526,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口558,和/或,一个或一个以上操作系统541,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图19所示的服务器结构。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如前述各个实施例描述的方法。
本申请实施例中还提供一种包括程序的计算机程序产品,当其在计算机上运行时,使得计算机执行前述各个实施例描述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (25)
1.一种语料生成的方法,其特征在于,包括:
获取待处理语料,其中,所述待处理语料中包括目标实体;
将所述待处理语料中的目标实体替换为预设信息,得到所述待处理语料所对应的目标语料模板;
根据所述目标语料模板获取M个扩展语料模板,其中,所述M个扩展语料模板中的每个扩展语料模板包括所述预设信息,所述M为大于或等于1的整数;
根据所述M个扩展语料模板,生成N个第一扩展语料,其中,所述N个第一扩展语料中的每个第一扩展语料包括所述目标实体,所述N为大于或等于1,且小于或等于所述M的整数;
其中,所述根据所述目标语料模板获取M个扩展语料模板,包括:
从所述目标语料模板中获取目标关键词;
根据所述目标关键词确定联想关键词;
根据所述目标关键词获取Q个第一检索结果,其中,每个第一检索结果对于一个第一评分值,所述第一评分值为根据所述目标关键词的逆向文件频率IDF以及词频TF确定的,所述Q为大于或等于1的整数;
根据所述联想关键词获取P个第二检索结果,其中,每个第二检索结果对于一个第二评分值,所述第二评分值为根据所述联想关键词的IDF、TF以及评分权重值确定的,所述P为大于或等于1的整数;
根据所述每个第一检索结果所对应的第一评分值,以及所述每个第二检索结果的第二评分值,按照评分值从大至小的次序对所述Q个第一检索结果以及所述P个第二检索结果进行排序,得到排序结果;
将所述排序结果中的前M个检索结果确定为所述M个扩展语料模板。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标语料模板获取M个扩展语料模板,包括:
根据所述目标语料模板确定目标意图;
根据所述目标意图,从数据库中获取所述M个扩展语料模板。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标语料模板获取M个扩展语料模板,包括:
通过模板扩展模型所包括的编码器对所述目标语料模板进行编码,得到所述目标语料模板所对应的编码结果;
通过模板扩展模型所包括的解码器,对所述目标语料模板所对应的编码结果进行解码,得到所述M个扩展语料模板。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取第一训练样本对,其中,所述第一训练样本对包括第一模板样本以及第二模板样本,所述第一模板样本以及所述第二模板样本具有相似意图;
通过待训练模板扩展模型所包括的编码器对所述第一模板样本进行编码,得到所述第一模板样本所对应的编码结果;
通过所述待训练模板扩展模型所包括的解码器,对所述第一模板样本所对应的编码结果进行解码,得到预测模板;
根据所述预测模板与所述第二模板样本之间的损失值,对所述待训练模板扩展模型的模型参数进行更新,直至满足模型训练调整,输出所述模板扩展模型。
5.根据权利要求1所述的方法,其特征在于,所述根据所述M个扩展语料模板,生成N个第一扩展语料,包括:
将扩展语料模板中的所述预设信息替换为所述目标实体,得到第一扩展语料,其中,所述扩展语料模板来源于所述M个扩展语料模板;
基于所述第一扩展语料以及所述待处理语料,通过语义匹配模型获取语义匹配分值;
根据所述语义匹配分值,从所述M个第一扩展语料中获取所述N个第一扩展语料,其中,所述N个第一扩展语料中每个第一扩展语料所对应的语义匹配分值大于或等于语义匹配分阈值。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述根据所述M个扩展语料模板,生成N个第一扩展语料之后,所述方法还包括:
基于所述N个第一扩展语料,通过语料扩展模型获取T个第二扩展语料,其中,所述T个第二扩展语料包括所述N个第一扩展语料中每个第一扩展语料所对应的扩展语料,所述T为大于或等于所述N的整数;
从所述T个第二扩展语料中获取R个第二扩展语料,其中,所述R为小于或等于所述T的整数。
7.根据权利要求6所述的方法,其特征在于,所述从所述T个第二扩展语料中获取R个第二扩展语料,包括:
基于第二扩展语料以及所述待处理语料,通过语义匹配模型获取语义匹配分值,其中,所述第二扩展语料来源于所述T个第二扩展语料;
根据所述语义匹配分值,从所述T个第二扩展语料中获取所述R个第二扩展语料,其中,所述R个第二扩展语料中每个第二扩展语料所对应的语义匹配分值大于或等于语义匹配分阈值。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取第二训练样本对,其中,所述第二训练样本对包括原始问题样本以及标注问题样本,其中,所述原始问题样本与所述标注问题样本具有相似语义;
通过待训练语料扩展模型所包括的编码器对所述原始问题样本进行编码,得到所述原始问题样本所对应的编码结果;
通过所述待训练语料扩展模型所包括的解码器,对所述原始问题样本所对应的编码结果进行解码,得到预测问题;
根据所述预测问题与所述标注问题样本之间的损失值,对所述待训练语料扩展模型的模型参数进行更新,直至满足模型训练调整,输出所述语料扩展模型。
9.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取待处理语料所对应的目标答案;
所述基于所述N个第一扩展语料,通过语料扩展模型获取T个第二扩展语料,包括:
基于所述N个第一扩展语料以及所述目标答案,通过所述语料扩展模型获取所述T个第二扩展语料。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
获取第三训练样本对,其中,所述第三训练样本对包括原始问题样本、标注问题样本以及答案样本,其中,所述原始问题样本与所述标注问题样本具有相似语义,且所述答案样本为所述原始问题样本以及所述标注问题样本的答案;
通过待训练语料扩展模型所包括的编码器对所述原始问题样本以及所述答案样本进行编码,得到所述原始问题样本所对应的编码结果;
通过所述待训练语料扩展模型所包括的解码器,对所述原始问题样本所对应的编码结果进行解码,得到预测问题;
根据所述预测问题与所述标注问题样本之间的损失值,对所述待训练语料扩展模型的模型参数进行更新,直至满足模型训练调整,输出所述语料扩展模型。
11.根据权利要求1所述的方法,其特征在于,所述获取待处理语料,包括:
接收终端设备发送的语料扩展指令,其中,所述语料扩展指令携带所述待处理语料的标识;
响应于所述语料扩展指令,从至少一个语料中确定所述待处理语料;
所述根据所述M个扩展语料模板,生成N个第一扩展语料之后,所述方法还包括:
向所述终端设备发送所述N个第一扩展语料,以使所述终端设备展示所述N个第一扩展语料。
12.一种语料生成装置,其特征在于,包括:
获取模块,用于获取待处理语料,其中,所述待处理语料中包括目标实体;
处理模块,用于将所述待处理语料中的目标实体替换为预设信息,得到所述待处理语料所对应的目标语料模板;
所述获取模块,还用于根据所述目标语料模板获取M个扩展语料模板,其中,所述M个扩展语料模板中的每个扩展语料模板包括所述预设信息,所述M为大于或等于1的整数;
生成模块,用于根据所述M个扩展语料模板,生成N个第一扩展语料,其中,所述N个第一扩展语料中的每个第一扩展语料包括所述目标实体,所述N为大于或等于1,且小于或等于所述M的整数;
其中,所述获取模块,具体用于:
从所述目标语料模板中获取目标关键词;
根据所述目标关键词确定联想关键词;
根据所述目标关键词获取Q个第一检索结果,其中,每个第一检索结果对于一个第一评分值,所述第一评分值为根据所述目标关键词的逆向文件频率IDF以及词频TF确定的,所述Q为大于或等于1的整数;
根据所述联想关键词获取P个第二检索结果,其中,每个第二检索结果对于一个第二评分值,所述第二评分值为根据所述联想关键词的IDF、TF以及评分权重值确定的,所述P为大于或等于1的整数;
根据所述每个第一检索结果所对应的第一评分值,以及所述每个第二检索结果的第二评分值,按照评分值从大至小的次序对所述Q个第一检索结果以及所述P个第二检索结果进行排序,得到排序结果;
将所述排序结果中的前M个检索结果确定为所述M个扩展语料模板。
13.根据权利要求12所述的装置,其特征在于,所述获取模块,具体用于:
根据所述目标语料模板确定目标意图;
根据所述目标意图,从数据库中获取所述M个扩展语料模板。
14.根据权利要求12所述的装置,其特征在于,所述获取模块,具体用于:
通过模板扩展模型所包括的编码器对所述目标语料模板进行编码,得到所述目标语料模板所对应的编码结果;
通过模板扩展模型所包括的解码器,对所述目标语料模板所对应的编码结果进行解码,得到所述M个扩展语料模板。
15.根据权利要求14所述的装置,其特征在于,所述获取模块,还用于获取第一训练样本对,其中,所述第一训练样本对包括第一模板样本以及第二模板样本,所述第一模板样本以及所述第二模板样本具有相似意图;
处理模块,还用于通过待训练模板扩展模型所包括的编码器对所述第一模板样本进行编码,得到所述第一模板样本所对应的编码结果;通过所述待训练模板扩展模型所包括的解码器,对所述第一模板样本所对应的编码结果进行解码,得到预测模板;根据所述预测模板与所述第二模板样本之间的损失值,对所述待训练模板扩展模型的模型参数进行更新,直至满足模型训练调整,输出所述模板扩展模型。
16.根据权利要求12所述的装置,其特征在于,所述生成模块,具体用于:
将扩展语料模板中的所述预设信息替换为所述目标实体,得到第一扩展语料,其中,所述扩展语料模板来源于所述M个扩展语料模板;
基于所述第一扩展语料以及所述待处理语料,通过语义匹配模型获取语义匹配分值;
根据所述语义匹配分值,从所述M个第一扩展语料中获取所述N个第一扩展语料,其中,所述N个第一扩展语料中每个第一扩展语料所对应的语义匹配分值大于或等于语义匹配分阈值。
17.根据权利要求12至16中任一项所述的装置,其特征在于,所述获取模块,还用于在根据所述M个扩展语料模板,生成N个第一扩展语料之后,基于所述N个第一扩展语料,通过语料扩展模型获取T个第二扩展语料,其中,所述T个第二扩展语料包括所述N个第一扩展语料中每个第一扩展语料所对应的扩展语料,所述T为大于或等于所述N的整数;从所述T个第二扩展语料中获取R个第二扩展语料,其中,所述R为小于或等于所述T的整数。
18.根据权利要求17所述的装置,其特征在于,所述获取模块,具体用于:
基于第二扩展语料以及所述待处理语料,通过语义匹配模型获取语义匹配分值,其中,所述第二扩展语料来源于所述T个第二扩展语料;
根据所述语义匹配分值,从所述T个第二扩展语料中获取所述R个第二扩展语料,其中,所述R个第二扩展语料中每个第二扩展语料所对应的语义匹配分值大于或等于语义匹配分阈值。
19.根据权利要求17所述的装置,其特征在于,所述获取模块,还用于获取第二训练样本对,其中,所述第二训练样本对包括原始问题样本以及标注问题样本,其中,所述原始问题样本与所述标注问题样本具有相似语义;
所述处理模块,还用于通过待训练语料扩展模型所包括的编码器对所述原始问题样本进行编码,得到所述原始问题样本所对应的编码结果;通过所述待训练语料扩展模型所包括的解码器,对所述原始问题样本所对应的编码结果进行解码,得到预测问题;根据所述预测问题与所述标注问题样本之间的损失值,对所述待训练语料扩展模型的模型参数进行更新,直至满足模型训练调整,输出所述语料扩展模型。
20.根据权利要求17所述的装置,其特征在于,所述获取模块,还用于获取待处理语料所对应的目标答案;
所述获取模块,具体用于基于所述N个第一扩展语料以及所述目标答案,通过所述语料扩展模型获取所述T个第二扩展语料。
21.根据权利要求20所述的装置,其特征在于,所述获取模块,还用于获取第三训练样本对,其中,所述第三训练样本对包括原始问题样本、标注问题样本以及答案样本,其中,所述原始问题样本与所述标注问题样本具有相似语义,且所述答案样本为所述原始问题样本以及所述标注问题样本的答案;
所述处理模块,还用于通过待训练语料扩展模型所包括的编码器对所述原始问题样本以及所述答案样本进行编码,得到所述原始问题样本所对应的编码结果;通过所述待训练语料扩展模型所包括的解码器,对所述原始问题样本所对应的编码结果进行解码,得到预测问题;根据所述预测问题与所述标注问题样本之间的损失值,对所述待训练语料扩展模型的模型参数进行更新,直至满足模型训练调整,输出所述语料扩展模型。
22.根据权利要求12所述的装置,其特征在于,所述装置还包括发送模块;
所述获取模块,具体用于接收终端设备发送的语料扩展指令,其中,所述语料扩展指令携带所述待处理语料的标识;响应于所述语料扩展指令,从至少一个语料中确定所述待处理语料;
所述发送模块,用于在根据所述M个扩展语料模板,生成N个第一扩展语料之后,向所述终端设备发送所述N个第一扩展语料,以使所述终端设备展示所述N个第一扩展语料。
23.一种计算机设备,其特征在于,包括:存储器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,所述处理器用于根据程序代码中的指令执行权利要求1至11中任一项所述的方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
24.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至11中任一项所述的方法。
25.一种计算机程序产品,其特征在于,所述计算机程序产品包括程序,当所述程序在计算机上运行时,使得计算机执行如权利要求1至11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011338174.0A CN113392647B (zh) | 2020-11-25 | 2020-11-25 | 一种语料生成的方法、相关装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011338174.0A CN113392647B (zh) | 2020-11-25 | 2020-11-25 | 一种语料生成的方法、相关装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113392647A CN113392647A (zh) | 2021-09-14 |
CN113392647B true CN113392647B (zh) | 2024-04-26 |
Family
ID=77616595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011338174.0A Active CN113392647B (zh) | 2020-11-25 | 2020-11-25 | 一种语料生成的方法、相关装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113392647B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114298001A (zh) * | 2021-11-29 | 2022-04-08 | 腾讯科技(深圳)有限公司 | 语料模板生成方法、装置、电子设备及存储介质 |
CN114912448B (zh) * | 2022-07-15 | 2022-12-09 | 山东海量信息技术研究院 | 一种文本扩展方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019052261A1 (zh) * | 2017-09-18 | 2019-03-21 | 京东方科技集团股份有限公司 | 用于问答服务的方法、问答服务系统以及存储介质 |
CN110162753A (zh) * | 2018-11-08 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 用于生成文本模板的方法、装置、设备和计算机可读介质 |
CN110188204A (zh) * | 2019-06-11 | 2019-08-30 | 腾讯科技(深圳)有限公司 | 一种扩展语料挖掘方法、装置、服务器及存储介质 |
CN110442859A (zh) * | 2019-06-28 | 2019-11-12 | 中国人民解放军国防科技大学 | 标注语料生成方法、装置、设备及存储介质 |
CN111859092A (zh) * | 2020-07-29 | 2020-10-30 | 苏州思必驰信息科技有限公司 | 文本语料扩增方法、装置、电子设备及存储介质 |
CN111967252A (zh) * | 2020-08-29 | 2020-11-20 | 深圳呗佬智能有限公司 | 一种实体词表示学习方法、装置、计算机设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8543565B2 (en) * | 2007-09-07 | 2013-09-24 | At&T Intellectual Property Ii, L.P. | System and method using a discriminative learning approach for question answering |
US11276010B2 (en) * | 2017-03-06 | 2022-03-15 | Wipro Limited | Method and system for extracting relevant entities from a text corpus |
US10496752B1 (en) * | 2018-01-04 | 2019-12-03 | Facebook, Inc. | Consumer insights analysis using word embeddings |
-
2020
- 2020-11-25 CN CN202011338174.0A patent/CN113392647B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019052261A1 (zh) * | 2017-09-18 | 2019-03-21 | 京东方科技集团股份有限公司 | 用于问答服务的方法、问答服务系统以及存储介质 |
CN110162753A (zh) * | 2018-11-08 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 用于生成文本模板的方法、装置、设备和计算机可读介质 |
CN110188204A (zh) * | 2019-06-11 | 2019-08-30 | 腾讯科技(深圳)有限公司 | 一种扩展语料挖掘方法、装置、服务器及存储介质 |
CN110442859A (zh) * | 2019-06-28 | 2019-11-12 | 中国人民解放军国防科技大学 | 标注语料生成方法、装置、设备及存储介质 |
CN111859092A (zh) * | 2020-07-29 | 2020-10-30 | 苏州思必驰信息科技有限公司 | 文本语料扩增方法、装置、电子设备及存储介质 |
CN111967252A (zh) * | 2020-08-29 | 2020-11-20 | 深圳呗佬智能有限公司 | 一种实体词表示学习方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113392647A (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN111324728B (zh) | 文本事件摘要的生成方法、装置、电子设备及存储介质 | |
CN107798140B (zh) | 一种对话系统构建方法、语义受控应答方法及装置 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
Tahsin Mayeesha et al. | Deep learning based question answering system in Bengali | |
Tariq et al. | A context-driven extractive framework for generating realistic image descriptions | |
CN113392647B (zh) | 一种语料生成的方法、相关装置、计算机设备及存储介质 | |
CN114357127A (zh) | 基于机器阅读理解及常用问题解答模型的智能问答方法 | |
CN112749341A (zh) | 重点舆情推荐方法、可读存储介质及数据处理装置 | |
US20210374168A1 (en) | Semantic cluster formation in deep learning intelligent assistants | |
CN112948562A (zh) | 问答处理方法、装置、计算机设备及可读存储介质 | |
CN111552773A (zh) | 一种阅读理解任务中是否类问题关键句寻找方法及系统 | |
CN112417119A (zh) | 一种基于深度学习的开放域问答预测方法 | |
Landthaler et al. | Extending Thesauri Using Word Embeddings and the Intersection Method. | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
Zemlyanskiy et al. | DOCENT: Learning self-supervised entity representations from large document collections | |
Al-Radaideh | Applications of mining arabic text: A review | |
Pal et al. | A personalised recommendation framework for ubiquitous learning system | |
Chavula et al. | Intercomprehension in retrieval: User perspectives on six related scarce resource languages | |
CN115455152A (zh) | 写作素材的推荐方法、装置、电子设备及存储介质 | |
Agrawal et al. | Comparative analysis of NLP models for Google Meet Transcript summarization | |
CN114943236A (zh) | 关键词提取方法及装置 | |
CN114818727A (zh) | 关键句抽取方法及装置 | |
CN114328820A (zh) | 信息搜索方法以及相关设备 | |
CN114090778A (zh) | 基于知识锚点的检索方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40052315 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |