CN108304439A - 一种语义模型优化方法、装置及智能设备、存储介质 - Google Patents

一种语义模型优化方法、装置及智能设备、存储介质 Download PDF

Info

Publication number
CN108304439A
CN108304439A CN201711035043.3A CN201711035043A CN108304439A CN 108304439 A CN108304439 A CN 108304439A CN 201711035043 A CN201711035043 A CN 201711035043A CN 108304439 A CN108304439 A CN 108304439A
Authority
CN
China
Prior art keywords
sentence
model
vector
trained
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711035043.3A
Other languages
English (en)
Other versions
CN108304439B (zh
Inventor
鲁亚楠
林芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201711035043.3A priority Critical patent/CN108304439B/zh
Publication of CN108304439A publication Critical patent/CN108304439A/zh
Application granted granted Critical
Publication of CN108304439B publication Critical patent/CN108304439B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种语义模型优化方法、装置及智能设备,其中,所述方法包括:获取用于训练第一模型的第一语句和第二语句;采用第二模型对所述第一语句和第二语句进行编码,得到第一编码结果;采用为第一模型配置的编码规则对所述第一语句和第二语句进行编码,得到第二编码结果;根据第一模型对所述第一编码结果和第二编码结果进行相似度训练处理,并根据训练处理结果对所述第一模型进行优化。采用本发明实施例,能够显著地提高领域语义模型的语义匹配能力,可以在一定程度上减小训练语句的获取量,使得对领域语义模型的优化速度更快。

Description

一种语义模型优化方法、装置及智能设备、存储介质
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种语义模型优化方法、装置及智能设备、存储介质。
背景技术
在基于检索式的对话机器人、或者搜索引擎等场景中,语义匹配是核心技术,构建的语义模型的性能直接影响对话机器人、搜索引擎的性能。
在构建语义模型时,可以针对不同领域来构建得到不同的模型。例如,可以构建得到电子商务领域、通信服务领域等领域下的领域语义模型,其中,基于电子商务领域的领域语义模型,能够实现电子商务方面的对话机器人,能够自动实现一些与客户之间的例如分析客户的语句进行价格回复、产品介绍等功能。
也可以根据需要构建通用语义模型,通用语义模型能够根据需要涵盖多个领域,例如,基于通用语义模型,能够同时实现电子商务、通讯服务等领域的对话机器人。
通用语义模型可以处理各个领域的语义匹配相似度计算,存在语义匹配覆盖面广、语义匹配难度大、语义匹配精度不高等因数。领域语义模型则需要处理指定领域相关语句之间的相似度计算,其具有针对性强等特点。
如何对语义匹配相关的语义模型进行优化成为研究的热点问题。
发明内容
本发明实施例提供了一种语义模型优化方法、装置及智能设备,可较好地对语义分析的相关模型进行优化。
一方面,本发明实施例提供了一种语义模型优化方法,包括:
获取训练语句,所述训练语句用于对待优化的第一模型进行优化训练,所述训练语句包括第一语句和第二语句,所述第一模型是用于识别语句之间相似度的模型;
采用所述第一模型对所述第一语句进行编码得到第一语句向量,并采用所述第一模型对所述第二语句进行编码得到第二语句向量;
采用第二模型对所述第一语句进行编码得到第三语句向量,并采用第二模型对所述第二语句进行编码得到第四语句向量,所述第二模型中包括的用于对语句进行编码的编码规则为已经优化后的规则;
根据所述第一语句向量和所述第三语句向量组合得到第一组合语句向量,并根据所述第二语句向量和所述第四语句向量组合得到第二组合语句向量;
计算所述第一组合语句和第二组合语句向量之间的相似度,并根据计算得到的相似度和为所述第一语句和第二语句配置的相似描述信息对所述第一模型进行优化处理。
另一方面,本发明实施例提供了一种语义模型优化装置,包括:
获取模块,用于获取训练语句,所述训练语句用于对待优化的第一模型进行优化训练,所述训练语句包括第一语句和第二语句,所述第一模型是用于识别语句之间相似度的模型;
处理模块,用于采用所述第一模型对所述第一语句进行编码得到第一语句向量,并采用所述第一模型对所述第二语句进行编码得到第二语句向量;采用第二模型对所述第一语句进行编码得到第三语句向量,并采用第二模型对所述第二语句进行编码得到第四语句向量;所述第二模型中包括的用于对语句进行编码的编码规则为已经优化后的规则;
组合模块,用于根据所述第一语句向量和所述第三语句向量组合得到第一组合语句向量;并根据所述第二语句向量和所述第四语句向量组合得到第二组合语句向量;
优化模块,用于计算所述第一组合语句和第二组合语句向量之间的相似度,并根据计算得到的相似度和为所述第一语句和第二语句配置的相似描述信息对所述第一模型进行优化处理。
再一方面,本发明实施例提供了一种智能设备,包括:存储装置和处理器;
所述存储装置,用于存储程序指令;所述处理器,调用所述程序指令,用于执行上述的模型优化方法。
本发明实施例还提供了一种计算机存储介质,该计算机存储介质存储有程序指令,该程序指令被执行时,用于实现上述的模型优化方法。
本发明实施例通过将一个已经优化了编码规则的模型来对另一个模型进行优化,不仅可以在一定程度上减小训练语句的获取量,提高模型优化的效率,而且提高了被优化模型的准确率,增强被优化模型的语义匹配能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的构建第一类子模型的示意图;
图2是本发明实施例的构建点击排序模型的示意图;
图3是本发明实施例的训练第二模型的方法的流程示意图;
图4是本发明实施例的训练第一模型的示意图;
图5是本发明实施例的一种语义模型优化方法的流程示意图;
图6是本发明实施例的模型优化的结构示意图;
图7是本发明实施例的一种对模型进行优化的方法的流程示意图;
图8是本发明实施例的一种语义模型优化装置的结构示意图;
图9是本发明实施例的一种智能设备的结构示意图。
具体实施方式
本发明实施例可以利用无标注数据、query(查询)点击数据、机器翻译数据、对话流数据等数据作为由人工标注数据训练的语义模型的初始值和特征,对通用语义模型和领域语义模型进行训练优化。在本发明实施例中,可以先基于人工标注的数据训练得到领域语义模型,然后再基于大量的无标注数据、自然标注数据等来对领域语义模型进行训练优化,得到最终的领域语义模型。其中,在本发明实施例中,所说的领域语义模型为第一模型,通用语义模型为第二模型。
在本发明实施例中,对第二模型的训练可以是多任务的,在第二模型中至少包括两个子模型,针对每一个子模型存在一个模型训练任务。在一个实施例中,第二模型可以包括:自编码机、对话生成模型、机器翻译模型以及点击排序模型等模型中的任意两个或者多个,其中的自编码机、对话生成模型、机器翻译模型可以分类为第一类子模型,而点击排序模型则为第二类子模型。
在一个实施例中,在对模型进行训练过程中,首先是数据的确定阶段。用作对语义模型进行构建、训练优化等用途的数据有多种来源,可以包括上述提到的无标注数据、自然标注数据、人工标注数据。无标注数据可以是一些自然语句,在使用无标注数据时,并不知道两条或多条无标注数据之间的关系,例如并不清楚数据之间是否相似。而自然标注数据之间的关系则是预先可以确定的,例如对于机器翻译的数据,可以确定待翻译的语句与翻译后得到的语句之间存在相应的翻译关系,例如中文语句与翻译得到的英文语句之间,两者存在中英文翻译关系,这两个语句可以用在翻译机器人对应的机器翻译模型中。而人工标注数据则可以认为是人工手动输入的存在相应关系的语句、词语等数据,例如人工获取两个句子“去餐馆吃饭”与“到酒店聚餐”之间是相似的。人工标注的数据可以由用户标注数据之间的相似描述信息,作为模型优化所使用的训练语料。
无标注数据可以来自于网页新闻数据、即时通信公众号文章数据等。自然标注数据来自于搜索模型的query点击数据、机器翻译数据、对话数据、问答数据等,自然标注的数据之间存在一定的关系。
对于query点击数据,主要包括语义相似的query数据,可以根据用户的查询关键字的搜索结果,按照点击文章频率进行排序,点击频率高的文章排在点击频率低的文章前面,点击的文章排在展现的文章前面,这样可以构造出来大规模的查询关键字到点击文章的标题的排序数据。例如,用户可以通过目前的搜索方式搜索“怎么才能快乐”,查询关键字到点击文章的标题的排序数据可以包括:对应搜索结果的文章的标题,根据点击频率排序为1人怎样才能快乐一点,2怎样才能快乐起来,3如何自爱让自己更快乐。这些排序数据表明:“怎么才能快乐”与“人怎样才能快乐一点”之间的语义匹配程度比“怎么才能快乐”与“如何自爱让自己快乐”的语义匹配程度更强。
对于机器翻译的数据,语义相似的中文语句,与该中文语句对应翻译的英文语句之间是存在翻译关系的。语义相似的对话问题与答案之间存在问答关系。而人工标注数据,则已经由用户直接标注了两个数据之间的相似描述信息,即相似、相关、不相似的关系。
在确定了数据之后,即可进入对构建得到的初始语义模型的训练阶段。可以利用对话数据训练对话生成模型、利用机器翻译数据训练机器翻译模型、利用query点击数据训练点击排序模型。在一个实施例中,第二模型的各子模型的训练主要通过以下步骤来完成。
如图1所示,为训练第一类子模型的示意图,分别对初始的第一模型中的自编码机、机器翻译模型以及对话生成模型等第一类子模型进行训练优化。在一个实施例中,可以利用seq2seq的序列到序列的学习模型,分别对基于神经网络构建的初始第二模型中的自编码机、对话生成模型、机器翻译模型等第一类子模型进行训练。其中,Seq2seq是一种序列到序列的学习模型,通过RNN(循环神经网络)/CNN(卷积神经网络)将输入的第一训练语句的词向量编码成一个定长的语句向量,然后利用该语句向量解码并输出与第一训练语句对应的语句。第一类子模型的输入都是语句,输出也是语句,只是不同的子模型输出的信息不一样,输出的三种信息都可以从不同的侧面表示所述第一训练语句的语义信息。例如:输入文本是“怎么才能快乐”,自编码机解码得到原句“怎么才能快乐”,对话生成模型输出是“随喜!”,机器翻译模型输出“How can we enjoy ourselves?”。因此,在本发明实施例中,第一类子模型可以共享编码向量,只是解码方式不同。
在一个实施例中,基于第一模型编码得到第一类子模型的词向量,首先获取用于训练第一类子模型的第一训练语句,可以利用该第一训练语句所在的文本窗口的上下文词,预测该第一训练语句的中心词,将上下文的每个词wt编码成定长向量(词向量)vec(wt),将上下文的每个词语编码得到的定长向量vec(wt-2)~vec(wt+2)取平均,根据平均值预测该第一训练语句的中心词wt,按照估计算法和所述中心词,估计每个词的词向量vec(wt)。在一个实施例中,所述估计算法可以采用极大似然估计算法。在图1中,可以编码得到第一训练语句“怎么才能快乐?”中词语“怎么”、“才能”、“快乐”、“?”所对应的词向量。
采用RNN/CNN可以将语句编码成定长的语句向量sen(s),然后基于初始的第一模型中的第一类子模型,由自编码机将sen(s)分别解码得出每一个词wt,最终得到并输出自编码语句。如果输出的不是原句,则自编码机中的解码参数还需要进行更新,而如果输出的是原句,则表明自编码机能够很好地对该句进行自编码,可以进一步地获取下一句进行上述相应的处理。例如图1中,对于原句“怎么才能快乐?”得到的定长语句向量,通过自编码机解码后,如果输出的语句为“怎么才能快乐?”,则表明该自编码机针对该语句不需要进行优化,而如果输出的不是“怎么才能快乐?”,则需要对自编码机中的模型参数进行优化。
由机器翻译模型对应翻译得出对应的每一个翻译词weng,t,最终得到翻译的语句并输出该翻译的语句,而如果翻译的语句与原获取到的自然标注数据中该原句对应的翻译语句不相同,则需要对机器翻译模型进行模型参数的优化更新,而如果翻译得到的翻译语句与原来获取到的自然标注数据中该原句对应的翻译语句相同,则可以获取下一句进行上述的相应处理。例如如图1所示,对于原句“怎么才能快乐?”得到的定长语句向量,通过机器翻译模型解码后,如果得到并输出的语句与原获取到的自然标注数据中该原句对应的翻译语句“How to enjoy ourselves?”相同,则不需要进行机器翻译模型的模型参数的优化更新,否则需要进行优化更新。
由对话生成模型解码得到对话下一句的每一个对话词weng,t,并输出下一句对话语句,而如果输出的对话语句与原来获取到的自然标注数据中该原句对应的对话语句不相同,则需要对该对话生成模型的模型参数进行更新,如果输出的对话语句与原来获取到的自然标注数据中该原句对应的对话语句相同,则可以获取下一个语句进行上述相应的处理。例如如图1所示,对于原句“怎么才能快乐?”得到的定长语句向量,通过对话生成模型解码后,如果得到并输出的对话语句与原获取到的自然标注数据中该原句对应的对话语句“随喜”相同,则不需要进行机器翻译模型的模型参数优化更新,否则需要进行优化更新。
在一个实施例中,根据结果对模型参数进行优化可参考现有技术。
在一个实施例中,训练第一类子模型时所采用的数据包括:现有的机器翻译的数据、搜集到的对话数据、搜集到的查询点击数据等自然标注数据,在一个实施例中,任何文本语义存在相关性的数据都可以作为构建第一类子模型的训练数据,例如还可以包括:文本转语音的数据、图片的文本描述数据、文章中每个语句的上下文语句等。
在本发明实施例中,也可以对第二模型中的第二类子模型进行训练优化,即对基于query的点击排序模型进行训练优化。如图2所示,是训练点击排序模型即第二类子模型的示意图,在一个实施例中,首先获取获取第二训练语句,第二训练语句为相关度不同的两组训练语句,例如图2所示的“怎么才能快乐?”和“人怎么才能活得快乐”构成第一组数据内容,而“怎么才能快乐?”和“解释快乐的含义”构成第二组数据内容,针对第一组数据内容query“怎么才能快乐”和title1“人怎么样才能活的快乐”,第二组数据内容query“怎么才能快乐”和title2“解释快乐的含义”,第一组数据内容中的数据之间的相关度是大于第二组数据内容中的数据的相关度,也就是说,在query点击数据中title1的点击率大于title2的点击率,该点击率可以表示语义匹配的相关性。在本发明实施例中,通过对包括上述提及的已知相关性的两组训练语句进行打分,来对点击排序模型进行训练优化。构建的点击排序模型中,能够计算得到query点击频率高的文档之间的相关度大于点击频率低的文档之间的相关度。
训练query点击排序模型时,利用相同的RNN网络结构分别对上述的query、title1和query、title2进行编码得到定长的语句向量,分别通过初始点击排序模型计算query、title1之间的相关度score1,query、title2之间的相关度score2,使得计算结果是score1大于score2,以此来完成对初始点击排序模型的训练优化,以得到最终的点击排序模型。也就是说,在原查询关键字到点击文章的标题的排序数据中,“query-title1”之间的相关度是大于“query-title2”,因此,如果score1>score2,则可以不用对query点击排序模型的模型参数进行优化更新,否则,需要对query点击排序模型的模型参数进行优化更新。
在一个实施例中,可以使用Hinge损失函数Loss=max(0,1-score1+score2),这里使用最小化Loss函数,通过随机梯度下降法可以求解出深度神经网络的参数。基于随机梯度下降方法可以首先求出损失函数对参数的梯度,然后对参数进行更新。
上述建立的第一类子模型和第二类子模型后,得到本发明实施例所述的通用语义模型,在一个实施例中,如图3所示,训练通用语义模型的方法包括:在S301中,获取用于对第二模型进行训练的训练语句,例如获取“怎么才能快乐?”,在S302中,编码得到语句向量,可以通过第二模型对得到的词向量进行编码,得到所述训练语句的词向量,并得到关于所述训练语句的语句向量,例如,针对训练语句“怎么才能快乐?”,计算得到的词向量表示为“怎么”、“才能”、“快乐”、“?”,在一个实施例中,可以基于上述提到的CNN/RNN等神经网络进行编码,分别得到词向量和语句向量。在S303中,基于所述语句向量对所述第二模型下的各个子模型进行训练优化。基于所述语句向量对所述第二模型进行优化包括:对所述至少两个子模型进行优化,或者包括对第二模型的编码规则和各个子模型的解码规则进行优化;或者仅对所述第二模型的编码规则进行优化。
在一个实施例中,在构建得到通用语义模型即第二模型后,可以对初始领域语义模型即第一模型进行训练。在本发明实施例所述的第一模型中,判断两个语句的语义匹配的类别包括:语义相似、相关、不相似。针对输入的用作训练的两个语句(第一语句和第二语句),将第二模型中输出的两个语句向量和构建的初始第一模型对两个语句编码后得到的语句向量进行组合,作为初始第一模型的相似度训练的额外的特征向量和初始向量,对初始第一模型进行相似度训练。
如图4所示,是训练第一模型的示意图,首先获取两个语句query,target,并获取该两个语句的相似描述信息,该相似描述信息作为这两个语句的训练语料,方便后续作比对,以便于根据比对结果来确定是否对第一模型进行优化,所述相似描述信息用来描述这两个语句相似、相关或不相似。分别使用上述训练优化后得到的第二模型对query,target进行编码,得到query,target的词向量,并基于各个语句的词向量对应获取初始语句向量vec1(query),vec2(target)。根据初始第一模型中对query,target进行编码得到初始语句向量vec3(query),vec4(target)。将对query,target进行编码后各自得到的初始语句向量进行组合处理,最终得到语句的两个组合语句向量vec(query)=[vec1(query),vec3(query)]、vec(target)=[vec2(target),vec4(target)]。使用神经网络(例如张量神经网络或者Attention机制网络)计算vec(query),vec(target)之间的交互特征向量,最后利用交互特征向量做三分类,确定并输出出两个语句query,target之间之间的相似度,相似度来表明两个语句相似、或相关、或不相似的结果。将该相似度与所述的相似描述信息进行比较,如果不相同,则可以利用交叉熵损失函数训练所述第一模型中的模型参数。
在一个实施例中,对于上述提到的语义相似、相关、不相似,语义相似表示两个语句为同一个含义的,例如:“天空为什么是蓝的”与“天空为啥是蓝色的呢”相似,语义相关表示同一个语义范围,一个语义覆盖面大,一个语义覆盖面小,例如:“给我讲个笑话”与“给我讲个冷笑话”相关。不相似表示两句的意思不相同,例如:“我想打包”与“我想打的”。
在一个实施例中,根据初始第一模型中的编码规则对query,target进行编码得到初始语句向量vec3(query),vec4(target)的方式可参考图4,对于两个语句query,target,分别使用上述方式训练优化后得到的第二模型对query,target进行编码,得到query,target的,并将query,target的词向量作为第一模型的一个输入。第一模型的另一个输入为query,target,第一模型分别对query,target进行编码得到对应的词向量,然后将对应词语的词向量进行组合,将组合的词向量作为query,target的最终词向量,所述第一模型是基于该最终的词向量得到query,target的语句向量的。
如图4所示,对于query和target,第二模型编码得到“怎么”、“才能”、“快乐”、“?”四个词对于的词向量,和“人”、“为”、“什么”、“而”、“活着”五个词对于的词向量。同样,第一模型编码得到“怎么”、“才能”、“快乐”、“?”四个词对于的词向量,和“人”、“为”、“什么”、“而”、“活着”五个词对于的词向量,由图4可以看出,编码得到的词向量是定长的向量,可以使用<s>对词长度不够的句子进行向量补齐处理。可以理解的是,第一模型和第二模型的用途并不相同,因此,第一模型和第二模型中所使用的参数并不相同,并且第一模型为进行参数优化后的规则。将对应词语的词向量进行组合是指按照词语进行组合,具体得到词向量1“怎么怎么”、“才能才能”、“快乐快乐”、“??”,组合得到词向量2“人人”、“为为”、“什么什么”、“而而”、“活着活着”。第一模型基于词向量1和词向量2再进一步基于神经网络编码得到query和target的语句向量。基于该方式提高了对第一模型进行训练优化的词向量的维数,提高了对第一模型进行优化的效率和准确性。
在一个实施例中,原始录入的query,target的相似描述信息表明了query,target之间是相似的,通过上述对query,target进行相应处理并输出结果,如果输出的结果表明query,target之间是相似的,则可以不用对第一模型的模型参数进行优化。而如果输出的结果表明query,target之间不相似,则需要进行第一模型的模型参数的优化。同样,如果原始录入的query,target被人工标记为两者是相关的,而上述对query,target进行相应处理并输出结果,如果输出的结果也为相关,则可以不用对第一模型的模型参数进行优化,否则,需要进行模型参数的优化。
在完成了通用语义模型和领域语义模型的上述训练后,后续仍然可以再利用海量的无标注数据进一步训练通用语义模型和领域语义模型,首先获取语句的语句向量,然后将训练好的语句向量作为自编码机、机器翻译模型、对话生成模型和点击模型的词编码的初始值。同时训练自编码机、机器翻译模型、对话生成模型和query点击模型,这四种模型共享语句编码输出的参数。
上述对领域语义模型的构建过程,也可以作为意图识别、实体识别、槽位识别等自然语义所对应的语义模型的构建过程。本发明实施例中可以通过将通用语义模型中训练得到的编码规则编码得到词向量和语句向量,迁移到关于意图识别、实体识别、槽位识别等自然语义所对应的领域语义模型中,对这些模型进行训练优化。
本发明实施例中,对各类语句进行编码是由第一模型或者第二模型中的编码规则进行的,具体是指第一模型或第二模型中配置的编码器。所述对模型参数进行优化至少包括对第一模型或第二模型中的编码器的相关参数进行优化。
本发明实施例通过将一个已经优化了编码规则的模型来对另一个模型进行优化,不仅可以在一定程度上减小训练语句的获取量,提高模型优化的效率,而且提高了被优化模型的准确率,增强被优化模型的语义匹配能力。
再请参见图5,是本发明实施例的一种语义模型优化方法的流程示意图,本发明实施例的所述方法可以由一个用于构建、优化语义模型的智能设备来执行,例如一台或者多台能够搜集训练数据,并进行语义模型构建以及优化处理的服务器。本发明实施例的所述方法包括如下步骤。
S501:获取训练语句,所述训练语句用于对待优化的第一模型进行优化训练,所述训练语句包括第一语句和第二语句,所述第一模型是用于识别语句之间相似度的模型。用于训练第一模型的至少两个语句的来源可参考上述实施例中的描述。在一个实施例中,这些语句可以来自于高质量的网页新闻数据、即时通信公众号文章数据、query点击数据、机器翻译数据、对话数据、问答数据、针对图像的描述数据等等。用于训练第一模型的至少两个语句作为原始的输入参数,输入到第一模型中。
S502:采用所述第一模型对所述第一语句进行编码得到第一语句向量,并采用所述第一模型对所述第二语句进行编码得到第二语句向量。所述第一模型可以是开发人员基于语义分析需求,基于神经网络算法构建得到的一个等待优化的模型。
在一个实施例中,所述S502可以直接基于编码规则对第一语句和第二语句进行词编码,得到对应的词向量。在其他实施例中,所述S502还可以包括:采用第一模型对所述第一语句进行编码得到第一词向量,并采用第一模型对所述第二语句进行编码得到第二词向量;采用所述第二模型对所述第一语句进行编码得到第三词向量,并采用所述第二模型对所述第二语句进行编码得到第四词向量;将第一词向量和第三词向量组合得到第一语句的词向量,将第二词向量和第四词向量组合得到第二语句的词向量;采用所述第一模型对所述第一语句的词向量进行编码,得到第一语句向量,并对所述第二语句的词向量进行编码得到第二语句向量。在一个实施例中,所述S502还可以包括:采用第一分词规则对所述第一语句和第二语句进行词语拆分,得到多个词语,以便于根据得到的词语来编码得到所述第一词向量和第二词向量,所述第一分词规则可以是在所述第一模型中配置的规则;采用第二分词规则对所述第一语句和第二语句进行词语拆分,得到多个词语,以便于根据得到的词语来编码得到第三词向量和第四词向量,所述第二分词规则可以是在所述第二模型中配置的规则;其中,所述第一分词规则和第二分词规则为相同的分词规则。也就是说,在本发明实施例中,在对每个语句进行词编码之前所使用的分词规则均可以相同。
S503:采用第二模型对所述第一语句进行编码得到第三语句向量,并采用第二模型对所述第二语句进行编码得到第四语句向量,所述第二模型为已经训练得到的模型,至少所述第二模型中包括的用于对语句进行编码的编码规则为已经优化后的规则。所述第一模型和所述第二模型是根据相同的神经网络算法、但使用不同的网络参数计算得到的。也就是说,第一模型和第二模型的构建原理相同,但为了达到不同的语义分析效果,具体构建时所使用的参数并不相同。并且,第二模型是已经优化的,所述第二模型为在开发人员基于神经网络来预先构建得到的初始模型的基础上,通过大量人工标注数据、自然标注数据等对该初始模型进行训练优化后得到的。对第二模型进行训练优化的方式则可以参考上述图1至图3所对应实施例的描述。
所述第一模型可以认为是上述提到的领域语义模型,所述第二模型可以是上述提到的通用语义模型。
在本发明实施例中,可以将第一模型归结为两个模块,即包括编码模块和解码模块,同样第二模型也可以包括编码模块和解码模块。编码模块的作用在于对输入的原始语句进行处理,作为后续的解码模块的输入参数。解码模块则配置了相应的语义模型,通过对输入参数的语义匹配,来对原始语句进行匹配识别,例如,可以对原始语句进行翻译、确定与原始语句对应的对话语句等。在本发明实施例中,所述编码模块可以包括词向量的编码器和语句向量的编码器。
上述对采用第二模型和第一模型对所述第一语句和第二语句的编码过程均包括:对所述第一语句和第二语句分别进行词编码得到词向量,再对词向量分别进行语句编码,得到对应于第一语句的语句向量,和对应于第二语句的语句向量。
在本发明实施例中,针对第一模型的优化,输入的向量参数不仅仅是第一模型本身的编码规则进行词编码和语句编码得到的向量参数,还包括由另一模型的编码规则进行词编码和语句编码得到的向量参数。两个模型的编码规则都包括词编码和语句编码,最终作为输入的向量参数均是语句向量。如图6所示,是本发明实施例的模型优化的结构示意图,在第二模型中包括了编码模块601和解码模块602,编码模块601基于其自身的编码规则进行词编码和语句编码,解码模块602则包括上述提及的基于自编码机、对话生成模型、机器翻译模型等第一类子模型,和/或点击排序模型等第二类子模型。第一模型中同样包括了编码模块603和解码模块604,编码模块603基于其自身的编码规则同样执行词编码和语句编码,而解码模块604则主要用于确定两个语句所对应的语句向量的相似度,根据相似度来确定两个语句的匹配程度。
S504:根据所述第一语句向量和所述第三语句向量组合得到第一组合语句向量,并根据所述第二语句向量和所述第四语句向量组合得到第二组合语句向量。在一个实施例中,通过向量的组合来组成对应的语句向量,例如,将100维的第一语句向量和100维的第三语句向量直接组合,构成200维的第一组合语句向量,同样,将100维第二语句向量和100维第四语句向量直接组合,构成200维的第二组合语句向量,扩大了语句向量的位数,可以提高对模型的训练效率。第一组合语句向量和第二组合语句向量均为定长向量。
如上实施例所述,确定相应语句的词向量、语句向量的方式可基于RNN/CNN等神经网络,基于极大似然估计算法等来完成。
S505:计算所述第一组合语句向量和第二组合语句向量之间的相似度,并根据计算得到的相似度和为所述第一语句和第二语句配置的相似描述信息对所述第一模型进行优化处理。在本发明实施例中,上述步骤对第一模型的训练优化的具体实现方式可参考图4所对应实施例的描述。第一语句和第二语句可以是指上述提到的自然标注数据、人工标注数据等,在获取第一语句和第二语句时,同时还获取了该第一语句和第二语句的相似描述信息,该相似描述信息描述了第一语句之间是相似关系、相关关系或者不相似关系。
在得到所述第一组合语句向量和第二组合语句向量之间的相似度后,判断该相似度所指示的关系与所述相似描述信息所描述的关系是否相同,如果相同,则不对所述第一模型进行优化,再次获取新的第一语句和第二语句对第一模型进行训练。如果不相同,则需要对第一模型中的模型参数进行优化。在通过上述方式确定需要对第一模型的模型参数进行优化后,后续对第一模型中的模型参数进行优化可以采用现有的方式来实现。
本发明实施例通过将一个已经优化了编码规则的模型来对另一个模型进行优化,不仅可以在一定程度上减小训练语句的获取量,提高模型优化的效率,而且提高了被优化模型的准确率,增强被优化模型的语义匹配能力。
再请参见图7,是本发明实施例的一种对模型进行优化的方法的流程示意图,本发明实施例的所述方法同样可以由一个用于构建、优化语义模型的智能设备来执行,例如一台或者多台能够搜集训练数据,并进行语义模型构建以及优化处理的服务器。在该智能设备中已经至少构建了上述提及的第二模型,例如通用语义模型。可以在执行上述的S501至S504的任何一个步骤之前、同时或者之后来执行本发明实施例的所述方法。在一个实施例中,所述对模型进行优化的方法包括如下步骤。
S701:获取用于对第二模型进行训练的训练语句。
S702:通过第二模型对所述训练语句进行编码,得到关于所述训练语句的语句向量。
S703:基于所述语句向量对所述第二模型进行训练优化。所述第二模型下包括至少两个子模型,具体可以包括上述提到的自编码机、对话生成模型、机器翻译模型以及点击排序模型中的任意两个或者多个。
其中,所述基于所述语句向量对所述第二模型进行训练优化,包括:对所述第二模型中的至少两个子模型进行优化;和/或对所述第二模型中包括的编码规则进行优化。
在一个实施例中,所述S702具体可以包括:通过第二模型对所述训练语句进行词编码,得到词向量;通过第二模型对得到的词向量进行语句编码,得到关于所述训练语句的语句向量。编码得到词向量的方式可参考上述实施例中提到的编码方式,例如基于RNN的词编码方式。编码得到语句向量的方式可参考上述实施例中提到的编码方式,例如基于CNN的词编码方式。
在一个实施例中,当所述第二模型包括第一类子模型的情况下,获取的训练语句为用于对构建的第一类子模型进行训练的第一训练语句;所述S702具体可以包括:按照第二模型的估计算法,估计得到所述第一训练语句中包括的词语的词向量;根据估计得到的词向量编码得到定长的语句向量;所述根据第一训练语句最终编码得到的语句向量作为各第一类子模型的输入参数以对各第一类子模型进行训练优化。在一个实施例中,所述按照第二模型的估计算法,估计得到所述第一训练语句中包括的词语的词向量,包括:按照第二模型将所述第一训练语句的上下文的每个词语编码成定长向量;将上下文的每个词语编码得到的定长向量计算平均值,并根据平均值预测所述第一训练语句的中心词;按照估计算法和所述中心词,估计所述第一训练语句的每个词的词向量。
在一个实施例中,当所述第二模型包括第二类子模型的情况下,所述训练语句包括:用于训练第二类子模型的第二训练语句,且所述第二训练语句包括两组数据内容,两组数据内容中的第一组数据内容之间的相似度大于第二组数据内容之间的相似度;所述S702可以包括:通过第二模型分别对所述第一组数据内容和所述第二组数据内容进行词编码,得到所述第一组数据内容的词向量和所述第二组数据内容的词向量;按照第二模型分别对所述第一组数据内容的词向量和所述第二组数据内容的词向量进行语句编码,得到所述第一组数据内容的语句向量和所述第二组数据内容的语句向量;两组数据内容中的第一组数据内容之间的相似度大于第二组数据内容之间的相似度;所述S703则可以包括:通过构建的第二类子模型将根据第一组数据内容的语句向量得到的相似度和根据第二组数据内容的语句向量得到的相似度进行比较,得到比较结果;根据比较结果对各第二类子模型进行训练优化。在一个实施例中,所述根据比较结果对各第二类子模型进行训练优化,包括:根据比较结果,如果根据第一组数据内容的语句向量得到的相似度小于根据第二组数据内容的语句向量得到的相似度,则对各第二类子模型进行训练优化。对第二类子模型进行训练优化主要包括对第二类子模型中的参数进行更新,根据比较结果对模型参数进行优化可参考现有方式。具体可参考前述实施例的描述。
本发明实施例通过将一个已经优化了编码规则的模型来对另一个模型进行优化,不仅可以在一定程度上减小训练语句的获取量,提高模型优化的效率,而且提高了被优化模型的准确率,增强被优化模型的语义匹配能力。
再请参见图8,是本发明实施例的一种语义模型优化装置的结构示意图,本发明实施例的所述装置可以设置一个智能设备中,例如设置在一个服务器中,本发明实施例的所述装置包括如下结构。
获取模块801,用于获取训练语句,所述训练语句用于对待优化的第一模型进行优化训练,所述训练语句包括第一语句和第二语句,所述第一模型是用于识别语句之间相似度的模型;
处理模块802,用于采用所述第一模型对所述第一语句进行编码得到第一语句向量,并采用所述第一模型对所述第二语句进行编码得到第二语句向量;采用第二模型对所述第一语句进行编码得到第三语句向量,并采用第二模型对所述第二语句进行编码得到第四语句向量,所述第二模型中包括的用于对语句进行编码的编码规则为已经优化后的规则,根据所述第一语句向量和所述第三语句向量组合得到第一组合语句向量,并根据所述第二语句向量和所述第四语句向量组合得到第二组合语句向量;
优化模块803,用于计算所述第一组合语句和第二组合语句向量之间的相似度,并根据计算得到的相似度和为所述第一语句和第二语句配置的相似描述信息对所述第一模型进行优化处理。
在一个实施例中,所述处理模块802,在用于采用所述第一模型对所述第一语句进行编码得到第一语句向量,并采用所述第一模型对所述第二语句进行编码得到第二语句向量时,用于采用第一模型对所述第一语句进行编码得到第一词向量,并采用第一模型对所述第二语句进行编码得到第二词向量;采用所述第二模型对所述第一语句进行编码得到第三词向量,并采用所述第二模型对所述第二语句进行编码得到第四词向量;将第一词向量和第三词向量组合得到第一语句的词向量,将第二词向量和第四词向量组合得到第二语句的词向量;采用所述第一模型对所述第一语句的词向量进行编码,得到第一语句向量,并对所述第二语句的词向量进行编码得到第二语句向量。
在一个实施例中,所述处理模块802,用于采用所述第一模型对所述第一语句进行编码得到第一语句向量,并采用所述第一模型对所述第二语句进行编码得到第二语句向量时,还用于采用第一分词规则对所述第一语句和第二语句进行词语拆分,得到多个词语,以便于根据得到的词语来计编码得到所述第一词向量和第二词向量,所述第一分词规则可以是在所述第一模型中配置的规则;采用第二分词规则对所述第一语句和第二语句进行词语拆分,得到多个词语,以便于根据得到的词语来编码得到第三词向量和第四词向量,所述第二分词规则可以是在所述第二模型中配置的规则;其中,所述第一分词规则和第二分词规则为相同的分词规则。
在一个实施例中,对所述第一语句和第二语句的编码包括:对所述第一语句和第二语句分别进行词编码得到词向量,再对词向量分别进行语句编码得到对应于第一语句的初始语句向量和对应于第二语句的初始语句向量。
在一个实施例中,所述获取模块801,还用于获取用于对第二模型进行训练的训练语句;所述处理模块802,还用于通过第二模型对所述训练语句进行编码,得到关于所述训练语句的语句向量;所述优化模块803,还用于基于所述语句向量对所述第二模型进行训练优化。
在一个实施例中,所述处理模块802,在用于通过第二模型对所述训练语句进行编码,得到关于所述训练语句的语句向量时,用于通过第二模型对所述训练语句进行词编码,得到词向量;通过第二模型对得到的词向量进行语句编码,得到关于所述训练语句的语句向量。
在一个实施例中,所述优化模块803,在用于基于所述语句向量对所述第二模型进行训练优化时,用于对所述第二模型中的至少两个子模型进行优化;和/或对所述第二模型中包括的编码规则进行优化。
在一个实施例中,当所述第二模型包括第一类子模型的情况下,获取的训练语句为用于对构建的第一类子模型进行训练的第一训练语句;所述处理模块802,在用于通过第二模型对所述训练语句进行编码,得到关于所述训练语句的语句向量时,具体按照第二模型的估计算法,估计得到所述第一训练语句中包括的词语的词向量;根据估计得到的词向量编码得到定长的语句向量;所述语句向量作为各第一类子模型的输入参数以对各第一类子模型进行训练优化。
在一个实施例中,所述处理模块802,在用于按照第二模型的估计算法,估计得到所述第一训练语句中包括的词语的词向量时,用于按照第二模型将所述第一训练语句的上下文的每个词语编码成定长向量;将上下文的每个词语编码得到的定长向量计算平均值,并根据平均值预测所述第一训练语句的中心词;按照估计算法和所述中心词,估计所述第一训练语句的每个词的词向量。
在一个实施例中,当所述第二模型包括第二类子模型的情况下,所述训练语句包括:用于训练第二类子模型的第二训练语句,且所述第二训练语句包括两组数据内容,两组数据内容之间的相似度不相同;所述处理模块802,在用于通过第二模型对所述训练语句进行编码,得到关于所述训练语句的语句向量时,用于通过第二模型分别对所述第一组数据内容和所述第二组数据内容进行词编码,得到所述第一组数据内容的词向量和所述第二组数据内容的词向量;按照第二模型分别对所述第一组数据内容的词向量和所述第二组数据内容的词向量进行语句编码,得到所述第一组数据内容的语句向量和所述第二组数据内容的语句向量;所述优化模块803,在用于基于所述语句向量对所述第二模型进行训练优化时,用于通过构建的第二类子模型将根据第一组数据内容的语句向量得到的相似度和根据第二组数据内容的语句向量得到的相似度进行比较,得到比较结果;根据比较结果对第二类子模型进行训练优化。
在一个实施例中,两组数据内容中的第一组数据内容之间的相似度大于第二组数据内容之间的相似度;所述优化模块803,在用于根据比较结果对第二类子模型进行训练优化时,用于根据比较结果,如果根据第一组数据内容的语句向量得到的相似度小于根据第二组数据内容的语句向量得到的相似度,则对各第二类子模型进行训练优化。
本发明实施例中,所述装置的各个模块的具体实现可参考图1至图7所对应的实施例中相关内容的描述。
通过本发明所述的对模型进行优化的方法,能够将语句先拆分成词得到词向量,然后基于词向量来得到更准确的语句向量,基于准确的语句向量能够对各种语义模型进行训练,可以提高通用对话机器人中语义匹配的性能,并且可以降低语义匹配的偏差,提高语义匹配的泛化能力。在得到较好的通用语义模型后,那么基于通用语义模型中较好的的词编码和语句编码方式,能够进一步地为领域语义模型提供语句向量,是的领域语义模型的训练和优化更准确。
再请参见图9,是本发明实施例的一种智能设备的结构示意图,本发明实施例的所述智能设备可以包括供电电路等结构,还包括:存储装置902、处理器901以及数据接口903。
所述存储装置902可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储装置902也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flash memory),固态硬盘(solid-state drive,SSD)等;所述存储装置902还可以包括上述种类的存储器的组合。
所述处理器901可以是中央处理器(central processing unit,CPU)。所述处理器901还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit,ASIC),还可以是可编程逻辑器件(programmable logicdevice,PLD)等。上述PLD可以是现场可编程逻辑门阵列(field-programmable gatearray,FPGA),通用阵列逻辑(generic array logic,GAL)等。
通过一个或者多个所述数据接口903能够从网络搜索数据、用户接口录入数据等途径获取到各种数据,获取的数据包括上述提及的各种所需数据等。
可选地,所述存储装置902还用于存储程序指令。所述处理器901可以调用所述程序指令,实现上述提及的各种方法。
在一个实施例中,所述处理器901,调用所述程序指令,用于获取训练语句,所述训练语句用于对待优化的第一模型进行优化训练,所述训练语句包括第一语句和第二语句,所述第一模型是用于识别语句之间相似度的模型;采用所述第一模型对所述第一语句进行编码得到第一语句向量,并采用所述第一模型对所述第二语句进行编码得到第二语句向量;采用第二模型对所述第一语句进行编码得到第三语句向量,并采用第二模型对所述第二语句进行编码得到第四语句向量,所述第二模型中包括的用于对语句进行编码的编码规则为已经优化后的规则;根据所述第一语句向量和所述第三语句向量组合得到第一组合语句向量,并根据所述第二语句向量和所述第四语句向量组合得到第二组合语句向量;计算所述第一组合语句和第二组合语句向量之间的相似度,并根据计算得到的相似度和为所述第一语句和第二语句配置的相似描述信息对所述第一模型进行优化处理。
在一个实施例中,所述处理器901,在用于采用所述第一模型对所述第一语句进行编码得到第一语句向量,并采用所述第一模型对所述第二语句进行编码得到第二语句向量时,用于采用第一模型对所述第一语句进行编码得到第一词向量,并采用第一模型对所述第二语句进行编码得到第二词向量;采用所述第二模型对所述第一语句进行编码得到第三词向量,并采用所述第二模型对所述第二语句进行编码得到第四词向量;将第一词向量和第三词向量组合得到第一语句的词向量,将第二词向量和第四词向量组合得到第二语句的词向量;采用所述第一模型对所述第一语句的词向量进行编码,得到第一语句向量,并对所述第二语句的词向量进行编码得到第二语句向量。
在一个实施例中,所述处理器901,在用于采用所述第一模型对所述第一语句进行编码得到第一语句向量,并采用所述第一模型对所述第二语句进行编码得到第二语句向量时,还用于采用第一分词规则对所述第一语句和第二语句进行词语拆分,得到多个词语,以便于根据得到的词语来编码得到所述第一词向量和第二词向量,所述第一分词规则可以是在所述第一模型中配置的规则;采用第二分词规则对所述第一语句和第二语句进行词语拆分,得到多个词语,以便于根据得到的词语来编码得到第三词向量和第四词向量,所述第二分词规则可以是在所述第二模型中配置的规则;其中,所述第一分词规则和第二分词规则为相同的分词规则。
在一个实施例中,所述处理器901,还用于获取用于对第二模型进行训练的训练语句;通过第二模型对所述训练语句进行编码,得到关于所述训练语句的语句向量;基于所述语句向量对所述第二模型进行训练优化。
在一个实施例中,所述处理器901,在用于通过第二模型对所述训练语句进行编码,得到关于所述训练语句的语句向量时,用于通过第二模型对所述训练语句进行词编码,得到词向量;通过第二模型对得到的词向量进行语句编码,得到关于所述训练语句的语句向量。
在一个实施例中,所述处理器901,在用于基于所述语句向量对所述第二模型进行训练优化时,用于对所述第二模型中的至少两个子模型进行优化;和/或对所述第二模型中包括的编码规则进行优化。
在一个实施例中,当所述第二模型包括第一类子模型的情况下,获取的训练语句为用于对构建的第一类子模型进行训练的第一训练语句;所述处理器901,在用于当所述第二模型包括第一类子模型的情况下,获取的训练语句为用于对构建的第一类子模型进行训练的第一训练语句时,用于按照第二模型的估计算法,估计得到所述第一训练语句中包括的词语的词向量;根据估计得到的词向量编码得到定长的语句向量;所述语句向量作为各第一类子模型的输入参数以对各第一类子模型进行训练优化。
在一个实施例中,所述处理器901,在用于按照第二模型的估计算法,估计得到所述第一训练语句中包括的词语的词向量时,用于按照第二模型将所述第一训练语句的上下文的每个词语编码成定长向量;将上下文的每个词语编码得到的定长向量计算平均值,并根据平均值预测所述第一训练语句的中心词;按照估计算法和所述中心词,估计所述第一训练语句的每个词的词向量。
在一个实施例中,当所述第二模型包括第二类子模型的情况下,所述训练语句包括:用于训练第二类子模型的第二训练语句,且所述第二训练语句包括两组数据内容,两组数据内容之间的相似度不相同;所述处理器901,在用于通过第二模型对所述训练语句进行编码,得到关于所述训练语句的语句向量时,用于通过第二模型分别对所述第一组数据内容和所述第二组数据内容进行词编码,得到所述第一组数据内容的词向量和所述第二组数据内容的词向量;按照第二模型分别对所述第一组数据内容的词向量和所述第二组数据内容的词向量进行语句编码,得到所述第一组数据内容的语句向量和所述第二组数据内容的语句向量。
对应地,所述处理器901,在用于基于所述语句向量对所述第二模型进行训练优化时,用于通过构建的第二类子模型将根据第一组数据内容的语句向量得到的相似度和根据第二组数据内容的语句向量得到的相似度进行比较,得到比较结果;根据比较结果对第二类子模型进行训练优化。
在一个实施例中,两组数据内容中的第一组数据内容之间的相似度大于第二组数据内容之间的相似度,所述处理器901,在用于根据比较结果对第二类子模型进行训练优化时,用于根据比较结果,如果根据第一组数据内容的语句向量得到的相似度小于根据第二组数据内容的语句向量得到的相似度,则对各第二类子模型进行训练优化。
通过本发明所述的对模型进行优化的方法,能够将语句先拆分成词得到词向量,然后基于词向量来得到更准确的语句向量,基于准确的语句向量能够对各种语义模型进行训练,可以提高通用对话机器人中语义匹配的性能,并且可以降低语义匹配的偏差,提高语义匹配的泛化能力。在得到较好的通用语义模型后,那么基于通用语义模型中较好的的词编码和语句编码方式,能够进一步地为领域语义模型提供语句向量,是的领域语义模型的训练和优化更准确。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明的部分实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (13)

1.一种语义模型优化方法,其特征在于,包括:
获取训练语句,所述训练语句用于对待优化的第一模型进行优化训练,所述训练语句包括第一语句和第二语句;
采用所述第一模型对所述第一语句进行编码得到第一语句向量,并采用所述第一模型对所述第二语句进行编码得到第二语句向量;
采用第二模型对所述第一语句进行编码得到第三语句向量,并采用第二模型对所述第二语句进行编码得到第四语句向量;
根据所述第一语句向量和所述第三语句向量组合得到第一组合语句向量,并根据所述第二语句向量和所述第四语句向量组合得到第二组合语句向量;
计算所述第一组合语句向量和第二组合语句向量之间的相似度,并根据计算得到的相似度和为所述第一语句和第二语句配置的相似描述信息对所述第一模型进行优化处理。
2.如权利要求1所述的方法,其特征在于,采用所述第一模型对所述第一语句进行编码得到第一语句向量,并采用所述第一模型对所述第二语句进行编码得到第二语句向量,包括:
采用第一模型对所述第一语句进行编码得到第一词向量,并采用所述第一模型对所述第二语句进行编码得到第二词向量;
采用第二模型对所述第一语句进行编码得到第三词向量,并采用所述第二模型对所述第二语句进行编码得到第四词向量;
将第一词向量和第三词向量组合得到第一语句的词向量,将第二词向量和第四词向量组合得到第二语句的词向量;
采用所述第一模型对所述第一语句的词向量进行编码,得到第一语句向量,并采用所述第一模型对所述第二语句的词向量进行编码得到第二语句向量。
3.如权利要求2所述的方法,其特征在于,采用所述第一模型对所述第一语句进行编码得到第一语句向量,并采用所述第一模型对所述第二语句进行编码得到第二语句向量,还包括:
采用第一分词规则对所述第一语句和第二语句进行词语拆分,得到多个词语,以便于根据得到的词语来编码得到所述第一词向量和第二词向量;
采用第二分词规则对所述第一语句和第二语句进行词语拆分,得到多个词语,以便于根据得到的词语来编码得到第三词向量和第四词向量;
其中,所述第一分词规则和第二分词规则为相同的分词规则。
4.如权利要求1所述的方法,其特征在于,还包括:
获取用于对第二模型进行训练的训练语句;
通过第二模型对所述训练语句进行编码,得到关于所述训练语句的语句向量;
基于所述语句向量对所述第二模型进行训练优化。
5.如权利要求4所述的方法,其特征在于,所述通过第二模型对所述训练语句进行编码,得到关于所述训练语句的语句向量,包括:
通过第二模型对所述训练语句进行词编码,得到词向量;
通过第二模型对得到的词向量进行语句编码,得到关于所述训练语句的语句向量。
6.如权利要求4或5所述的方法,其特征在于,所述基于所述语句向量对所述第二模型进行训练优化,包括:
对所述第二模型中的至少两个子模型进行优化;和/或对所述第二模型中包括的编码规则进行优化。
7.如权利要求4所述的方法,其特征在于,当所述第二模型包括第一类子模型的情况下,获取的训练语句为用于对第一类子模型进行训练的第一训练语句;
所述通过第二模型对所述训练语句进行编码,得到关于所述训练语句的语句向量,包括:
按照第二模型的估计算法,估计得到所述第一训练语句中包括的词语的词向量;
根据估计得到的词向量编码得到定长的语句向量;该语句向量作为各第一类子模型的输入参数以对各第一类子模型进行训练优化。
8.如权利要求7所述的方法,其特征在于,所述按照第二模型的估计算法,估计得到所述第一训练语句中包括的词语的词向量,包括:
按照第二模型将所述第一训练语句的上下文的每个词语编码成定长向量;
将上下文的每个词语编码得到的定长向量计算平均值,并根据平均值预测所述第一训练语句的中心词;
按照估计算法和所述中心词,估计所述第一训练语句的每个词的词向量。
9.如权利要求4所述的方法,其特征在于,当所述第二模型包括第二类子模型的情况下,所述训练语句包括:用于训练第二类子模型的第二训练语句,且所述第二训练语句包括两组数据内容,两组数据内容之间的相似度不相同;
所述通过第二模型对所述训练语句进行编码,得到关于所述训练语句的语句向量,包括:
通过第二模型分别对所述第一组数据内容和所述第二组数据内容进行词编码,得到所述第一组数据内容的词向量和所述第二组数据内容的词向量;
按照第二模型分别对所述第一组数据内容的词向量和所述第二组数据内容的词向量进行语句编码,得到所述第一组数据内容的语句向量和所述第二组数据内容的语句向量;
所述基于所述语句向量对所述第二模型进行训练优化,包括:
通过构建的第二类子模型将根据第一组数据内容的语句向量得到的相似度和根据第二组数据内容的语句向量得到的相似度进行比较,得到比较结果;
根据比较结果对第二类子模型进行训练优化。
10.如权利要求9所述的方法,其特征在于,两组数据内容中的第一组数据内容之间的相似度大于第二组数据内容之间的相似度;所述根据比较结果对第二类子模型进行训练优化,包括:
根据比较结果,如果根据第一组数据内容的语句向量得到的相似度小于根据第二组数据内容的语句向量得到的相似度,则对各第二类子模型进行训练优化。
11.一种语义模型优化装置,其特征在于,包括:
获取模块,用于获取训练语句,所述训练语句用于对待优化的第一模型进行优化训练,所述训练语句包括第一语句和第二语句;
处理模块,用于采用所述第一模型对所述第一语句进行编码得到第一语句向量,并采用所述第一模型对所述第二语句进行编码得到第二语句向量;采用第二模型对所述第一语句进行编码得到第三语句向量,并采用第二模型对所述第二语句进行编码得到第四语句向量;根据所述第一语句向量和所述第三语句向量组合得到第一组合语句向量;并根据所述第二语句向量和所述第四语句向量组合得到第二组合语句向量;
优化模块,用于计算所述第一组合语句和第二组合语句向量之间的相似度,并根据计算得到的相似度和为所述第一语句和第二语句配置的相似描述信息对所述第一模型进行优化处理。
12.一种智能设备,其特征在于,包括:存储装置和处理器;
所述存储装置,用于存储程序指令;所述处理器,调用所述程序指令,用于执行如权利要求1-10任一项所述的方法。
13.一种计算机存储介质,其特征在于,该计算机存储介质存储有程序指令,该程序指令被执行时,用于实现如权利要求1至10任一项所述的方法。
CN201711035043.3A 2017-10-30 2017-10-30 一种语义模型优化方法、装置及智能设备、存储介质 Active CN108304439B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711035043.3A CN108304439B (zh) 2017-10-30 2017-10-30 一种语义模型优化方法、装置及智能设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711035043.3A CN108304439B (zh) 2017-10-30 2017-10-30 一种语义模型优化方法、装置及智能设备、存储介质

Publications (2)

Publication Number Publication Date
CN108304439A true CN108304439A (zh) 2018-07-20
CN108304439B CN108304439B (zh) 2021-07-27

Family

ID=62869581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711035043.3A Active CN108304439B (zh) 2017-10-30 2017-10-30 一种语义模型优化方法、装置及智能设备、存储介质

Country Status (1)

Country Link
CN (1) CN108304439B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063772A (zh) * 2018-08-02 2018-12-21 广东工业大学 一种基于深度学习的图像个性化语义分析方法、装置及设备
CN109741751A (zh) * 2018-12-11 2019-05-10 上海交通大学 面向智能语音控制的意图识别方法及装置
CN109815322A (zh) * 2018-12-27 2019-05-28 东软集团股份有限公司 应答的方法、装置、存储介质及电子设备
CN109918680A (zh) * 2019-03-28 2019-06-21 腾讯科技(上海)有限公司 实体识别方法、装置及计算机设备
CN109933662A (zh) * 2019-02-15 2019-06-25 北京奇艺世纪科技有限公司 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质
CN109992785A (zh) * 2019-04-09 2019-07-09 腾讯科技(深圳)有限公司 基于机器学习的内容计算方法、装置及设备
CN110210032A (zh) * 2019-05-31 2019-09-06 北京神州泰岳软件股份有限公司 文本处理方法及装置
CN110362823A (zh) * 2019-06-21 2019-10-22 北京百度网讯科技有限公司 描述文本生成模型的训练方法和装置
CN110377902A (zh) * 2019-06-21 2019-10-25 北京百度网讯科技有限公司 描述文本生成模型的训练方法和装置
CN110390110A (zh) * 2019-07-30 2019-10-29 阿里巴巴集团控股有限公司 用于语义匹配的预训练生成句子向量的方法和装置
CN110795945A (zh) * 2019-10-30 2020-02-14 腾讯科技(深圳)有限公司 一种语义理解模型训练方法、语义理解方法、装置及存储介质
CN110895553A (zh) * 2018-08-23 2020-03-20 国信优易数据有限公司 语义匹配模型训练方法、语义匹配方法及答案获取方法
CN111104514A (zh) * 2019-12-23 2020-05-05 北京百度网讯科技有限公司 文档标签模型的训练方法及装置
CN111651988A (zh) * 2020-06-03 2020-09-11 北京百度网讯科技有限公司 用于训练模型的方法、装置、设备以及存储介质
CN112036186A (zh) * 2019-06-04 2020-12-04 腾讯科技(深圳)有限公司 语料标注方法、装置、计算机存储介质及电子设备
CN112116095A (zh) * 2019-06-19 2020-12-22 北京搜狗科技发展有限公司 一种多任务学习模型训练的方法及相关装置
CN113449074A (zh) * 2021-06-22 2021-09-28 重庆长安汽车股份有限公司 一种含专有名词的句子向量相似度匹配优化方法、装置及存储介质
CN113724738A (zh) * 2021-08-31 2021-11-30 平安普惠企业管理有限公司 语音处理方法、决策树模型训练方法、装置、设备及存储介质
US20230409614A1 (en) * 2022-06-15 2023-12-21 Unitedhealth Group Incorporated Search analysis and retrieval via machine learning embeddings

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021115A (zh) * 2014-06-13 2014-09-03 北京理工大学 基于神经网络的中文比较句识别方法及装置
CN106326212A (zh) * 2016-08-26 2017-01-11 北京理工大学 一种基于层次深度语义的隐式篇章关系分析方法
US20170060844A1 (en) * 2015-08-28 2017-03-02 Microsoft Technology Licensing, Llc Semantically-relevant discovery of solutions
CN107146604A (zh) * 2017-04-27 2017-09-08 北京捷通华声科技股份有限公司 一种语言模型优化方法及装置
CN107291783A (zh) * 2016-04-12 2017-10-24 芋头科技(杭州)有限公司 一种语义匹配方法及智能设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021115A (zh) * 2014-06-13 2014-09-03 北京理工大学 基于神经网络的中文比较句识别方法及装置
US20170060844A1 (en) * 2015-08-28 2017-03-02 Microsoft Technology Licensing, Llc Semantically-relevant discovery of solutions
CN107291783A (zh) * 2016-04-12 2017-10-24 芋头科技(杭州)有限公司 一种语义匹配方法及智能设备
CN106326212A (zh) * 2016-08-26 2017-01-11 北京理工大学 一种基于层次深度语义的隐式篇章关系分析方法
CN107146604A (zh) * 2017-04-27 2017-09-08 北京捷通华声科技股份有限公司 一种语言模型优化方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘锋等: "一种优化的基于领域本体语义距离的概念相似度计算模型研究", 《曲阜师范大学学报》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063772A (zh) * 2018-08-02 2018-12-21 广东工业大学 一种基于深度学习的图像个性化语义分析方法、装置及设备
CN109063772B (zh) * 2018-08-02 2022-05-10 广东工业大学 一种基于深度学习的图像个性化语义分析方法、装置及设备
CN110895553A (zh) * 2018-08-23 2020-03-20 国信优易数据有限公司 语义匹配模型训练方法、语义匹配方法及答案获取方法
CN109741751A (zh) * 2018-12-11 2019-05-10 上海交通大学 面向智能语音控制的意图识别方法及装置
CN109815322A (zh) * 2018-12-27 2019-05-28 东软集团股份有限公司 应答的方法、装置、存储介质及电子设备
CN109933662A (zh) * 2019-02-15 2019-06-25 北京奇艺世纪科技有限公司 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质
CN109933662B (zh) * 2019-02-15 2021-03-12 北京奇艺世纪科技有限公司 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质
CN109918680A (zh) * 2019-03-28 2019-06-21 腾讯科技(上海)有限公司 实体识别方法、装置及计算机设备
CN109992785B (zh) * 2019-04-09 2023-07-25 腾讯科技(深圳)有限公司 基于机器学习的内容计算方法、装置及设备
CN109992785A (zh) * 2019-04-09 2019-07-09 腾讯科技(深圳)有限公司 基于机器学习的内容计算方法、装置及设备
CN110210032A (zh) * 2019-05-31 2019-09-06 北京神州泰岳软件股份有限公司 文本处理方法及装置
CN110210032B (zh) * 2019-05-31 2023-10-31 鼎富智能科技有限公司 文本处理方法及装置
CN112036186A (zh) * 2019-06-04 2020-12-04 腾讯科技(深圳)有限公司 语料标注方法、装置、计算机存储介质及电子设备
CN112116095B (zh) * 2019-06-19 2024-05-24 北京搜狗科技发展有限公司 一种多任务学习模型训练的方法及相关装置
CN112116095A (zh) * 2019-06-19 2020-12-22 北京搜狗科技发展有限公司 一种多任务学习模型训练的方法及相关装置
CN110362823A (zh) * 2019-06-21 2019-10-22 北京百度网讯科技有限公司 描述文本生成模型的训练方法和装置
CN110377902B (zh) * 2019-06-21 2023-07-25 北京百度网讯科技有限公司 描述文本生成模型的训练方法和装置
CN110377902A (zh) * 2019-06-21 2019-10-25 北京百度网讯科技有限公司 描述文本生成模型的训练方法和装置
CN110390110A (zh) * 2019-07-30 2019-10-29 阿里巴巴集团控股有限公司 用于语义匹配的预训练生成句子向量的方法和装置
CN110390110B (zh) * 2019-07-30 2023-06-27 创新先进技术有限公司 用于语义匹配的预训练生成句子向量的方法和装置
CN110795945A (zh) * 2019-10-30 2020-02-14 腾讯科技(深圳)有限公司 一种语义理解模型训练方法、语义理解方法、装置及存储介质
CN110795945B (zh) * 2019-10-30 2023-11-14 腾讯科技(深圳)有限公司 一种语义理解模型训练方法、语义理解方法、装置及存储介质
CN111104514A (zh) * 2019-12-23 2020-05-05 北京百度网讯科技有限公司 文档标签模型的训练方法及装置
CN111104514B (zh) * 2019-12-23 2023-04-25 北京百度网讯科技有限公司 文档标签模型的训练方法及装置
CN111651988B (zh) * 2020-06-03 2023-05-19 北京百度网讯科技有限公司 用于训练模型的方法、装置、设备以及存储介质
CN111651988A (zh) * 2020-06-03 2020-09-11 北京百度网讯科技有限公司 用于训练模型的方法、装置、设备以及存储介质
CN113449074A (zh) * 2021-06-22 2021-09-28 重庆长安汽车股份有限公司 一种含专有名词的句子向量相似度匹配优化方法、装置及存储介质
CN113724738A (zh) * 2021-08-31 2021-11-30 平安普惠企业管理有限公司 语音处理方法、决策树模型训练方法、装置、设备及存储介质
CN113724738B (zh) * 2021-08-31 2024-04-23 硅基(昆山)智能科技有限公司 语音处理方法、决策树模型训练方法、装置、设备及存储介质
US20230409614A1 (en) * 2022-06-15 2023-12-21 Unitedhealth Group Incorporated Search analysis and retrieval via machine learning embeddings

Also Published As

Publication number Publication date
CN108304439B (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
CN108304439A (zh) 一种语义模型优化方法、装置及智能设备、存储介质
CN110534087B (zh) 一种文本韵律层级结构预测方法、装置、设备及存储介质
CN110046240B (zh) 结合关键词检索与孪生神经网络的目标领域问答推送方法
CN108153913B (zh) 回复信息生成模型的训练方法、回复信息生成方法及装置
CN110083705A (zh) 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN117521675A (zh) 基于大语言模型的信息处理方法、装置、设备及存储介质
JP2023535709A (ja) 言語表現モデルシステム、事前訓練方法、装置、機器及び媒体
CN109564572A (zh) 生成用于自动聊天的问题-答案对
JP2020523699A (ja) 関心点コピーの生成
CN109960814B (zh) 模型参数搜索方法以及装置
KR102109369B1 (ko) 시계열 데이터의 변화를 예측하고 그 이유를 설명하는 인공지능 시스템
CN112749556B (zh) 多语言模型的训练方法和装置、存储介质和电子设备
WO2023137922A1 (zh) 语音消息生成方法和装置、计算机设备、存储介质
CN112364148A (zh) 一种基于深度学习方法的生成型聊天机器人
CN109933773A (zh) 一种多重语义语句解析系统及方法
Liu et al. Multimodal emotion recognition based on cascaded multichannel and hierarchical fusion
CN113011184A (zh) 一种语言表征模型的训练方法及装置
CN114372454B (zh) 文本信息抽取方法、模型训练方法、装置及存储介质
Wang et al. Up4ls: User profile constructed by multiple attributes for enhancing linguistic steganalysis
CN113157892B (zh) 用户意图处理方法、装置、计算机设备及存储介质
Saha et al. A unified dialogue management strategy for multi-intent dialogue conversations in multiple languages
CN113535946A (zh) 基于深度学习的文本鉴别方法、装置、设备及存储介质
Wang et al. Deep and shallow features learning for short texts matching
Kim et al. Wikipedia-based Kernels for dialogue topic tracking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant