CN104572614A - 一种语言模型的训练方法及系统 - Google Patents

一种语言模型的训练方法及系统 Download PDF

Info

Publication number
CN104572614A
CN104572614A CN201410727278.9A CN201410727278A CN104572614A CN 104572614 A CN104572614 A CN 104572614A CN 201410727278 A CN201410727278 A CN 201410727278A CN 104572614 A CN104572614 A CN 104572614A
Authority
CN
China
Prior art keywords
model
screening
seed
field
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410727278.9A
Other languages
English (en)
Inventor
郑晓明
李健
张连毅
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd
Original Assignee
JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd filed Critical JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd
Priority to CN201410727278.9A priority Critical patent/CN104572614A/zh
Publication of CN104572614A publication Critical patent/CN104572614A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种语言模型的训练方法及系统,其中的方法具体包括:获取各领域的种子语料,并依据所述各领域的种子语料训练相应领域的种子模型;分别利用语料对各领域的种子模型的困惑度对大数据语料进行筛选,得到相应领域的种子筛选语料;分别利用各领域的种子筛选语料训练得到相应领域的筛选模型;对所有领域的筛选模型进行融合,得到相应的筛选融合模型。本发明能够在减小运算量和省时的前提下,提高语言模型参数的合理性。

Description

一种语言模型的训练方法及系统
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种语言模型的训练方法及系统。
背景技术
在自然语言处理技术领域,语音识别是机器通过识别和理解过程将语音信号转变为相应的文本或命令的技术。
语音识别系统在本质上是一种模式识别系统,通常包括特征提取、模式匹配和参考模型等基本单元。参照图1,示出了现有一种语言识别系统的结构示意图,其中,输入的语音信号先经过特征提取单元分析后形成特征矢量,然后进入词级匹配单元,由所述词级匹配单元按照字典和子词模型集合串接成的词模型对所述特征矢量进行识别,所述词级匹配单元输出的词汇进入句子级匹配单元,由所述句子级匹配单元根据语言模型的句法限制在句子级进行输入语音与语言模型间的匹配,最后识别得到相应的句子。其中,语言模型是描述词汇概率分布的模型,一个能可靠反映语言识别时用词的概率分布的模型,是语音识别系统取得可靠结果的关键。而语言模型中词汇的概率分布取决于训练该语言模型时使用的语料。
目前,大数据的出现使更真实的语言模型的训练成为可能,其中,大数据可以通过互联网等方式获取。现有语言模型的训练方法通常直接对大数据进行训练得到语言模型,然而,由于大数据的尺寸和规模庞大,直接对其进行训练,不仅需要占用更多的硬盘和内存消耗,而且需要长的训练时间,也即现有语言模型的训练方法具有占用的计算资源量大、耗时等问题。
为了克服上述占用的计算资源量大、耗时等问题,还有一些语言模型的训练方法会对大数据进行一些裁剪,然后对裁剪后的大数据进行训练,然而,上述训练得到的语言模型容易失去大数据的原始统计分布,从而导致语言识别率降低。
发明内容
本发明实施例所要解决的技术问题是提供一种语言模型的训练方法及系统,能够在减小运算量和省时的前提下,提高语言模型参数的合理性。
为了解决上述问题,本发明公开了一种语言模型的训练方法,包括:
获取各领域的种子语料,并依据所述各领域的种子语料训练相应领域的种子模型;
分别利用语料对各领域的种子模型的困惑度对大数据语料进行筛选,得到相应领域的种子筛选语料;
分别利用各领域的种子筛选语料训练得到相应领域的筛选模型;
对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
优选的,所述分别利用各领域的种子模型的困惑度对大数据语料进行筛选,得到相应领域的种子筛选语料的步骤,包括:
计算所述大数据语料中句子或词汇序列对于某领域的种子模型的第一困惑度;
选取第一困惑度小于第一阈值的句子或词汇序列,作为该领域的种子筛选语料。
优选的,所述对所有领域的筛选模型进行融合,得到相应的筛选融合模型的步骤,包括:
分别计算各领域的筛选模型在通用测试集之上的第二困惑度;
依据各领域的筛选模型的第二困惑度确定其在筛选融合模型中的第一权重;
依据所述第一权重对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
优选的,所述方法还包括:
对所有领域的种子模型进行融合,得到相应的种子融合模型;
对所述筛选融合模块和所述种子融合模型进行融合,得到相应的通用模型。
优选的,所述依据所述第一权重对所有领域的筛选模型进行融合,得到 相应的筛选融合模型的步骤,包括:
采用线性插值的方式将所有领域的筛选模型融合成筛选融合模型;其中,插值系数用于调节各领域的筛选模型在筛选融合模型中的第一权重。
另一方面,本发明还公开了一种语言模型的训练系统,包括:
第一训练模块,用于获取各领域的种子语料,并依据所述各领域的种子语料训练相应领域的种子模型;
筛选模块,用于分别利用语料对各领域的种子模型的困惑度对大数据语料进行筛选,得到相应领域的种子筛选语料;
第二训练模块,用于分别利用各领域的种子筛选语料训练得到相应领域的筛选模型;及
第一融合模块,用于对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
优选的,所述筛选模块包括:
第一计算子模块,用于计算所述大数据语料中句子或词汇序列对于某领域的种子模型的第一困惑度;
选取子模块,用于选取第一困惑度小于第一阈值的句子或词汇序列,作为该领域的种子筛选语料。
优选的,所述第一融合模块包括:
第二计算子模块,用于分别计算各领域的筛选模型在通用测试集之上的第二困惑度;
确定子模块,用于依据各领域的筛选模型的第二困惑度确定其在筛选融合模型中的第一权重;
权重融合子模块,用于依据所述第一权重对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
优选的,所述系统还包括:
第二融合模块,用于对所有领域的种子模型进行融合,得到相应的种子融合模型;
第三融合模块,用于对所述筛选融合模块和所述种子融合模型进行融合,得到相应的通用模型。
优选的,所述权重融合子模块,具体用于采用线性插值的方式将所有领域的筛选模型融合成筛选融合模型;其中,插值系数用于调节各领域的筛选模型在筛选融合模型中的第一权重。
与现有技术相比,本发明实施例包括以下优点:
本发明实施例提供了一种语言模型训练的方案,该方案分别利用语料对各领域的种子模型的困惑度对大数据语料进行筛选,得到相应领域的种子筛选语料,分别利用各领域的种子筛选语料训练得到相应领域的筛选模型,且对所有领域的筛选模型进行融合,得到相应的筛选融合模型;
首先,由于上述种子筛选语料相对于原始的大数据语料而言,规模大小会变成几十分之一或者更小,因此,能够大大减小训练的数据规模较小,从而大大减小训练的计算资源量;
其次,在训练数据减少的情况下,训练过程耗时减少;
再者,筛选模型是依据与各领域相匹配的筛选语料数据训练得到的,而不是裁剪后的大数据训练得到的,因此语言模型估计得到的参数更合理、更科学;
进一步,由于由筛选模型的筛选融合模型作为通用模型能够覆盖通用领域,而筛选模型是依据与各领域相匹配的筛选语料数据训练得到的,而不是裁剪后的大数据训练得到的,因此筛选融合模型在数据分布和模型性能上之间能达到最优,因此,能够提高语音识别率。
附图说明
图1是现有一种语言识别系统的结构示意图;
图2是本发明的一种语言模型的训练方法实施例一的步骤流程图;
图3是本发明的一种语言模型的训练方法实施例二的步骤流程图;
图4是本发明的一种语言模型的训练系统实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
参照图2,示出了本发明的一种语言模型的训练方法实施例一的步骤流程图,具体可以包括如下步骤:
步骤201、获取各领域的种子语料,并依据所述各领域的种子语料训练相应领域的种子模型;
本发明实施例中,领域可以指数据的应用场景,如新闻、地名、网址、人名、地图导航、聊天、短信、问答、微博等为常见的领域。在实际应用中,可针对特定的领域,通过专业的抓取、合作等途径获得对应的种子语料,其中的合作可以与网站运营商合作,通过网站的日志文件来获取相应的种子语料,如通过微博网站的日志文件获取相应的种子语料等,本发明实施例对具体的获取各领域的种子语料的具体方法不加以限制。
本发明实施例中,种子模型、筛选模型、筛选融合模型等模型在本质上均隶属于语言模型。故可以采用语言模型的训练方法利用语料数据训练上述种子模型、筛选模型和筛选融合模型等模型,其中在训练前应对语料数据进行相应的分词处理。
语言模型是描述词汇概率分布的模型,利用语言模型,可以确定哪个词序列或句子的可能性更大,或者给定若干个词,可以预测下一个最可能出现的词语。假设,在语音识别过程中,输入拼音串为“nixianzaiganshenme”,对应的输出可以有多种形式,如你现在干什么、你先在赶什么,等等;利用语言模型,可以得知前者的概率大于后者,因此将上述拼音串识别成前者在多数情况下比较合理。
N-Gram(N元文法)语言模型是最常见的一种语言模型,该N-Gram语言模型基于这样一种假设,即第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。
p(S)=p(w1,w2,w3,w4,w5,…,wn)
=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|w1,w2,...,wn-1)     (1) 
公式(1)中,p(S)表示语言模型,可用于计算一个句子的概率,由于句子通常由多个词组成,故公式(1)中wi表示句子中的第i个词。
通常使用较多的为二元的Bi-Gram模型和三元的Tri-Gram模型。并且,更大的N对下一个词出现的约束信息更多,具有更大的辨别力,但需要的计算量越大;更小的N在训练语料库中出现的次数更多,具有更可靠的统计信息,具有更高的可靠性,本领域技术人员可以根据实际情况确定N值,本发明对具体的N值不做限制。
训练语言模型的过程,就是估计模型参数P(wi|wi-n+1,…,wi-1)的过程,其中,P(wi|wi-n+1,…,wi-1)可用于表示前n-1个词为wi-n+1,…,wi-1,后词为wi出现的概率。
在本发明的一种应用示例中,可以采用MLE(最大似然估计,Maximum Likelihood Estimation)方法对模型参数进行估计,相应的公式其可以表示为:
P(wi|wi-n+1,…,wi-1)=C(wi-n+1,…,wi-1,wi)/C(wi-n+1,…,wi-1)      (2) 
其中,C(wi-n+1,…,wi-1,wi)表示wi-n+1,…,wi-1,wi在训练语料中出现的次数,可基于统计得到,训练语料的规模越大,参数估计的结果越可靠。
在具体实现中,虽然训练语料的规模很大,如若干TB(万亿字节,Trillonbyte),还是会有N元文法C(wi-n+1,…,wi-1,wi)对在训练语料中没有出现的现象,也即数据稀疏现象。为了解决数据稀疏问题,本发明的一些实施例中,还可以对估计得到的模型参数进行数据平滑,相应的数据平滑技术具体可以包括:加法平滑技术、图灵估计、插值平滑技术等。
步骤202、分别利用语料对各领域的种子模型的困惑度对大数据语料进行筛选,得到相应领域的种子筛选语料;
由于大数据的尺寸和规模庞大,直接对其进行训练,不仅需要占用更多的硬盘和内存消耗,而且需要长的训练时间,故现有技术通常对其进行裁剪处理,然后对裁剪后的大数据进行训练,裁剪后的大数据容易失去大数据的原始统计分布。
而本专利发明人发现,大数据是可以分类的,分类的原则是大数据所隶 属的领域,于是创造性地利用各领域的种子模型的困惑度对大数据语料进行筛选,得到相应领域的种子筛选语料。
在自然语言处理技术领域,PPL(困惑度,Perplexity)可用于表示训练语料有序度的概率几何平均值,其值的大小说明训练语料对语言模型的支持程度,通常,其值越小,则对语言模型的支持程度越高。因此,本发明实施例利用语料对各领域的种子模型的困惑度对大数据语料进行筛选,由于各领域的种子模型是利用各自的种子语料训练出来的,而语料对各领域的种子模型的困惑度可表示语料对各领域的种子模型的支持程度,或者,语料与各领域的种子模型之间的距离,距离越小则二者越相似,因此,上述筛选的过程能够得到与各领域相匹配的语料数据。
在本发明的一种可选实施例中,所述分别利用各领域的种子模型的困惑度对大数据语料进行筛选,得到相应领域的种子筛选语料的步骤,具体可以包括:
子步骤S100、计算所述大数据语料中句子或词汇序列对于某领域的种子模型的第一困惑度;
子步骤S102、选取第一困惑度小于第一阈值的句子或词汇序列,作为该领域的种子筛选语料。
可以理解,上述第一阈值可用于使种子筛选语料对于各自种子模型限定在合适的范围内,其可由本领域技术人员实际需求确定,且可通过经验方式或者机器学习方式确定,本申请对第一阈值的值及确定方式不加以限制。
另外,本领域技术人员还可以根据上述第一阈值对种子筛选语料的规模进行自由控制,因此具有好的灵活性。
再者,由于筛选后的种子筛选语料为与各领域相匹配的语料数据,种子筛选语料对相应各自模型的第一困惑度均在第一阈值的范围内,因此,本发明实施例还能合理地去除冗余数据,在一定意义上解决数据稀疏问题。
步骤203、分别利用各领域的种子筛选语料训练得到相应领域的筛选模型;
假设有L个领域,那么可以首先针对该L个领域训练得到对应的L个 种子模型,然后利用这L个种子模型筛选大数据语料得到对应L份种子筛选语料,接着分别利用这L份种子筛选语料训练得到相应的L个筛选模型。
步骤204、对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
本发明实施例对所有领域的筛选模型进行融合后,筛选融合模型作为通用模型能够覆盖通用领域,因此能够提高相应的语音识别率。
在本发明的一种可选实施例中,所述对所有领域的筛选模型进行融合,得到相应的筛选融合模型的步骤,具体可以包括:
子步骤S200、分别计算各领域的筛选模型在通用测试集之上的第二困惑度;
子步骤S202、依据各领域的筛选模型的第二困惑度确定其在筛选融合模型中的第一权重;
子步骤S204、依据所述第一权重对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
通用测试集可以为通用领域的测试集,例如,其可由8000句通用领域的句子组成。
对于句子构成的通用测试集T,各领域的筛选模型在通用测试集之上的第二困惑度的计算公式可以表示为:
P P T ( T ) = 2 - log 2 P ( T ) W T - - - ( 3 )
其中, P ( T ) = Π i = 1 l T p ( t i ) - - - ( 4 )
P(T)表示T中所有句子概率p(ti)的乘积,每个句子概率可以通过筛选模型p(S)的概率公式得到,WT表示以词为单位度量的通用测试集文本T的长度。
在本发明的一种可选实施例中,依据各领域的筛选模型的第二困惑度确定的其在筛选融合模型中的第一权重,可以使得所有领域的筛选模型以最佳比例进行混合,最终满足筛选融合模型的在通用测试集之上的困惑度最小的原则。可以理解,本领域技术人员可以根据实际情况确定上述第一权重的值, 本发明实施例对具体的确定方法不加以限制。
在本发明的一种可选实施例中,所述依据所述第一权重对所有领域的筛选模型进行融合,得到相应的筛选融合模型的步骤,具体可以包括:
采用线性插值的方式将所有领域的筛选模型融合成筛选融合模型;其中,插值系数用于调节各领域的筛选模型在筛选融合模型中的第一权重。
假设L个领域中第j个领域的筛选模型训练出的N-gram概率为Pj(wi|wi-n+1,…,wi-1),第j个领域的筛选模型对应的第一权重分别为Hj,那么,对应L个筛选模型融合后的N-gram概率Pmixture(wi|wi-n+1,…,wi-1)可以表示为:
P mixture ( w i | w i - n + 1 , . . . , w i - 1 ) = H 1 * P 1 ( w i | w i - n + 1 , . . . , w i - 1 ) + H 2 * P 2 ( w i | w i - n + 1 , . . . , w i - 1 ) + . . . + H j * P j ( w i | w i - n + 1 , . . . , w i - 1 ) + . . . + H L * P L ( w i | w i - n + 1 , . . . , w i - 1 ) - - - ( 5 )
其中,H1+H2+...+Hj+...+HL=1。
综上,本发明实施例具有如下优点:
首先,大大减小训练的计算资源量;由于种子筛选语料相对于原始的大数据语料而言,规模大小会变成几十分之一或者更小,因此,能够大大减小训练的数据规模较小,从而大大减小训练的计算资源量;
其次,省时;在训练数据减少的情况下,训练过程耗时减少;
再者,模型参数更合理;筛选模型是依据与各领域相匹配的筛选语料数据训练得到的,而不是裁剪后的大数据训练得到的,因此语言模型估计得到的参数更合理,更科学;
进一步,提高语音识别率;由于由筛选模型的筛选融合模型作为通用模型能够覆盖通用领域,而筛选模型是依据与各领域相匹配的筛选语料数据训练得到的,而不是裁剪后的大数据训练得到的,因此筛选融合模型在数据分布和模型性能上之间能达到最优,因此,能够提高语音识别率。
实施例二
参照图3,示出了本发明的一种信息搜索方法实施例二的步骤流程图, 具体可以包括如下步骤:
步骤301、获取各领域的种子语料,并依据所述各领域的种子语料训练相应领域的种子模型;
步骤302、分别利用语料对各领域的种子模型的困惑度对大数据语料进行筛选,得到相应领域的种子筛选语料;
步骤303、分别利用各领域的种子筛选语料训练得到相应领域的筛选模型;
步骤304、对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
步骤305、对所有领域的种子模型进行融合,得到相应的种子融合模型;
步骤306、对所述筛选融合模块和所述种子融合模型进行融合,得到相应的通用模型。
相对于实施例一,本实施例还可以对所有领域的种子模型进行融合,得到相应的种子融合模型,并对所述筛选融合模块和所述种子融合模型进行融合,得到相应的通用模型;由于上述种子融合模型覆盖了通用的各个领域,因此,本实施例在筛选融合模型的基础上又增加了领域数据的覆盖性,因此能够提高最终通用模型的覆盖性。
对所有领域的种子模型进行融合的过程与前述对所有领域的筛选模型进行融合的过程类似,具体可以包括:
子步骤S300、分别计算各领域的种子模型在通用测试集之上的第三困惑度;
子步骤S302、依据各领域的种子模型的第三困惑度确定其在种子融合模型中的第二权重;
子步骤S304、依据所述第二权重对所有领域的种子模型进行融合,得到相应的种子融合模型。
对所述筛选融合模块和所述种子融合模型进行融合与前述对所有领域的筛选模型进行融合的过程类似,具体可以包括:
子步骤S400、分别计算所述筛选融合模块和所述种子融合模型在通用测试集之上的第四困惑度和第五困惑度;
子步骤S402、依据第四困惑度和第五困惑度确定所述筛选融合模块和所述种子融合模型在通用模型中的第三权重和第四权重;
子步骤S304、依据所述第三权重和第四权重对所述筛选融合模块和所述种子融合模型进行融合,得到相应的通用模型。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图4,示出了本发明一种语言模型的训练系统实施例的结构框图,具体可以包括如下模块:
第一训练模块401,用于获取各领域的种子语料,并依据所述各领域的种子语料训练相应领域的种子模型;
筛选模块402,用于分别利用语料对各领域的种子模型的困惑度对大数据语料进行筛选,得到相应领域的种子筛选语料;
第二训练模块403,用于分别利用各领域的种子筛选语料训练得到相应领域的筛选模型;及
第一融合模块404,用于对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
在本发明的一种可选实施例中,所述筛选模块402具体可以包括:
第一计算子模块,用于计算所述大数据语料中句子或词汇序列对于某领域的种子模型的第一困惑度;
选取子模块,用于选取第一困惑度小于第一阈值的句子或词汇序列,作为该领域的种子筛选语料。
在本发明的另一种可选实施例中,所述第一融合模块404具体可以包括:
第二计算子模块,用于分别计算各领域的筛选模型在通用测试集之上的第二困惑度;
确定子模块,用于依据各领域的筛选模型的第二困惑度确定其在筛选融合模型中的第一权重;
权重融合子模块,用于依据所述第一权重对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
在本发明的再一种可选实施例中,所述系统还可以包括:
第二融合模块,用于对所有领域的种子模型进行融合,得到相应的种子融合模型;
第三融合模块,用于对所述筛选融合模块和所述种子融合模型进行融合,得到相应的通用模型。
在本发明实施例中,可选的是,所述权重融合子模块,可具体用于采用线性插值的方式将所有领域的筛选模型融合成筛选融合模型;其中,插值系数用于调节各领域的筛选模型在筛选融合模型中的第一权重。
对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、 专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种语言模型训练的方法和系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实 施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种语言模型的训练方法,其特征在于,包括:
获取各领域的种子语料,并依据所述各领域的种子语料训练相应领域的种子模型;
分别利用语料对各领域的种子模型的困惑度对大数据语料进行筛选,得到相应领域的种子筛选语料;
分别利用各领域的种子筛选语料训练得到相应领域的筛选模型;
对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
2.根据权利要求1所述的方法,其特征在于,所述分别利用各领域的种子模型的困惑度对大数据语料进行筛选,得到相应领域的种子筛选语料的步骤,包括:
计算所述大数据语料中句子或词汇序列对于某领域的种子模型的第一困惑度;
选取第一困惑度小于第一阈值的句子或词汇序列,作为该领域的种子筛选语料。
3.根据权利要求1所述的方法,其特征在于,所述对所有领域的筛选模型进行融合,得到相应的筛选融合模型的步骤,包括:
分别计算各领域的筛选模型在通用测试集之上的第二困惑度;
依据各领域的筛选模型的第二困惑度确定其在筛选融合模型中的第一权重;
依据所述第一权重对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所有领域的种子模型进行融合,得到相应的种子融合模型;
对所述筛选融合模块和所述种子融合模型进行融合,得到相应的通用模型。
5.根据权利要求3所述的方法,其特征在于,所述依据所述第一权重对所有领域的筛选模型进行融合,得到相应的筛选融合模型的步骤,包括:
采用线性插值的方式将所有领域的筛选模型融合成筛选融合模型;其中,插值系数用于调节各领域的筛选模型在筛选融合模型中的第一权重。
6.一种语言模型的训练系统,其特征在于,包括:
第一训练模块,用于获取各领域的种子语料,并依据所述各领域的种子语料训练相应领域的种子模型;
筛选模块,用于分别利用语料对各领域的种子模型的困惑度对大数据语料进行筛选,得到相应领域的种子筛选语料;
第二训练模块,用于分别利用各领域的种子筛选语料训练得到相应领域的筛选模型;及
第一融合模块,用于对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
7.根据权利要求6所述的系统,其特征在于,所述筛选模块包括:
第一计算子模块,用于计算所述大数据语料中句子或词汇序列对于某领域的种子模型的第一困惑度;
选取子模块,用于选取第一困惑度小于第一阈值的句子或词汇序列,作为该领域的种子筛选语料。
8.根据权利要求6所述的系统,其特征在于,所述第一融合模块包括:
第二计算子模块,用于分别计算各领域的筛选模型在通用测试集之上的第二困惑度;
确定子模块,用于依据各领域的筛选模型的第二困惑度确定其在筛选融合模型中的第一权重;
权重融合子模块,用于依据所述第一权重对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
9.根据权利要求6所述的系统,其特征在于,所述系统还包括:
第二融合模块,用于对所有领域的种子模型进行融合,得到相应的种子融合模型;
第三融合模块,用于对所述筛选融合模块和所述种子融合模型进行融合,得到相应的通用模型。
10.根据权利要求8所述的系统,其特征在于,所述权重融合子模块,具体用于采用线性插值的方式将所有领域的筛选模型融合成筛选融合模型;其中,插值系数用于调节各领域的筛选模型在筛选融合模型中的第一权重。
CN201410727278.9A 2014-12-03 2014-12-03 一种语言模型的训练方法及系统 Pending CN104572614A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410727278.9A CN104572614A (zh) 2014-12-03 2014-12-03 一种语言模型的训练方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410727278.9A CN104572614A (zh) 2014-12-03 2014-12-03 一种语言模型的训练方法及系统

Publications (1)

Publication Number Publication Date
CN104572614A true CN104572614A (zh) 2015-04-29

Family

ID=53088718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410727278.9A Pending CN104572614A (zh) 2014-12-03 2014-12-03 一种语言模型的训练方法及系统

Country Status (1)

Country Link
CN (1) CN104572614A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389303A (zh) * 2015-10-27 2016-03-09 北京信息科技大学 一种异源语料自动融合方法
CN105654945A (zh) * 2015-10-29 2016-06-08 乐视致新电子科技(天津)有限公司 一种语言模型的训练方法及装置、设备
CN106228980A (zh) * 2016-07-21 2016-12-14 百度在线网络技术(北京)有限公司 数据处理方法和装置
CN107423280A (zh) * 2017-04-19 2017-12-01 广州视源电子科技股份有限公司 一种语句判别方法与系统
CN108509406A (zh) * 2017-02-24 2018-09-07 北京搜狗科技发展有限公司 一种语料抽取方法、装置和电子设备
CN110019832A (zh) * 2017-09-29 2019-07-16 阿里巴巴集团控股有限公司 语言模型的获取方法和装置
CN111143518A (zh) * 2019-12-30 2020-05-12 北京明朝万达科技股份有限公司 跨领域语言模型训练方法、装置、电子设备及存储介质
WO2021098397A1 (zh) * 2019-11-21 2021-05-27 腾讯科技(深圳)有限公司 数据处理方法、设备及存储介质
CN113378562A (zh) * 2020-03-10 2021-09-10 中国移动通信集团辽宁有限公司 分词处理方法、装置、计算设备及存储介质
CN113780418A (zh) * 2021-09-10 2021-12-10 平安科技(深圳)有限公司 一种数据的筛选方法、系统、设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
CN101604520A (zh) * 2009-07-16 2009-12-16 北京森博克智能科技有限公司 基于统计模型和语法规则的口语语音识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
CN101604520A (zh) * 2009-07-16 2009-12-16 北京森博克智能科技有限公司 基于统计模型和语法规则的口语语音识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
REINHARD KNESER 等: "ON THE DYNAMIC ADAPTATION OF STOCHASTIC LANGUAGE MODELS", 《ICASSP 93 PROCESSINGS OF THE 1993 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS,SPEECH, AND SIGNAL PROCESSING:SPEECH PROCESSING》 *
曲卫民 等: "基于主题的汉语语言模型的研究", 《计算机研究与发展》 *
陈梦喆 等: "多领域系统融合在语音云系统中的应用", 《声学技术》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389303A (zh) * 2015-10-27 2016-03-09 北京信息科技大学 一种异源语料自动融合方法
CN105389303B (zh) * 2015-10-27 2018-11-27 北京信息科技大学 一种异源语料自动融合方法
CN105654945A (zh) * 2015-10-29 2016-06-08 乐视致新电子科技(天津)有限公司 一种语言模型的训练方法及装置、设备
CN105654945B (zh) * 2015-10-29 2020-03-06 乐融致新电子科技(天津)有限公司 一种语言模型的训练方法及装置、设备
CN106228980B (zh) * 2016-07-21 2019-07-05 百度在线网络技术(北京)有限公司 数据处理方法和装置
CN106228980A (zh) * 2016-07-21 2016-12-14 百度在线网络技术(北京)有限公司 数据处理方法和装置
CN108509406A (zh) * 2017-02-24 2018-09-07 北京搜狗科技发展有限公司 一种语料抽取方法、装置和电子设备
CN108509406B (zh) * 2017-02-24 2023-04-18 北京搜狗科技发展有限公司 一种语料抽取方法、装置和电子设备
CN107423280A (zh) * 2017-04-19 2017-12-01 广州视源电子科技股份有限公司 一种语句判别方法与系统
CN110019832A (zh) * 2017-09-29 2019-07-16 阿里巴巴集团控股有限公司 语言模型的获取方法和装置
CN110019832B (zh) * 2017-09-29 2023-02-24 阿里巴巴集团控股有限公司 语言模型的获取方法和装置
WO2021098397A1 (zh) * 2019-11-21 2021-05-27 腾讯科技(深圳)有限公司 数据处理方法、设备及存储介质
CN111143518A (zh) * 2019-12-30 2020-05-12 北京明朝万达科技股份有限公司 跨领域语言模型训练方法、装置、电子设备及存储介质
CN113378562A (zh) * 2020-03-10 2021-09-10 中国移动通信集团辽宁有限公司 分词处理方法、装置、计算设备及存储介质
CN113378562B (zh) * 2020-03-10 2023-09-19 中国移动通信集团辽宁有限公司 分词处理方法、装置、计算设备及存储介质
CN113780418A (zh) * 2021-09-10 2021-12-10 平安科技(深圳)有限公司 一种数据的筛选方法、系统、设备和存储介质

Similar Documents

Publication Publication Date Title
CN104572614A (zh) 一种语言模型的训练方法及系统
CN104572631A (zh) 一种语言模型的训练方法及系统
CN107862087B (zh) 基于大数据和深度学习的情感分析方法、装置和存储介质
CN111344779A (zh) 训练和/或使用编码器模型确定自然语言输入的响应动作
CN106910497A (zh) 一种中文词语发音预测方法及装置
KR20220005416A (ko) 다항 관계 생성 모델의 트레이닝 방법, 장치, 전자 기기 및 매체
US11537792B2 (en) Pre-training method for sentiment analysis model, and electronic device
CN110688489B (zh) 基于交互注意力的知识图谱推演方法、装置和存储介质
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
CN109933792A (zh) 基于多层双向lstm和验证模型的观点型问题阅读理解方法
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN111178036B (zh) 一种知识蒸馏的文本相似度匹配模型压缩方法及系统
CN114281968B (zh) 一种模型训练及语料生成方法、装置、设备和存储介质
CN104933158A (zh) 数学问题求解模型的训练方法和装置、推理方法和装置
CN110678882A (zh) 使用机器学习从电子文档选择回答跨距
CN111400584A (zh) 联想词的推荐方法、装置、计算机设备和存储介质
CN108536735A (zh) 基于多通道自编码器的多模态词汇表示方法与系统
CN103885935A (zh) 基于图书阅读行为的图书章节摘要生成方法
CN117370378A (zh) 自然语言转化为数据库语句的方法、装置、设备及介质
CN103559289A (zh) 语种无关的关键词检索方法及系统
CN113569559B (zh) 短文本实体情感分析方法、系统、电子设备及存储介质
CN104199811B (zh) 短句解析模型建立方法及系统
CN113705207A (zh) 语法错误识别方法及装置
CN112380844A (zh) 武器装备属性同义词扩展方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150429