CN104572631A - 一种语言模型的训练方法及系统 - Google Patents

一种语言模型的训练方法及系统 Download PDF

Info

Publication number
CN104572631A
CN104572631A CN201410727566.4A CN201410727566A CN104572631A CN 104572631 A CN104572631 A CN 104572631A CN 201410727566 A CN201410727566 A CN 201410727566A CN 104572631 A CN104572631 A CN 104572631A
Authority
CN
China
Prior art keywords
model
screening
seed
field
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410727566.4A
Other languages
English (en)
Other versions
CN104572631B (zh
Inventor
郑晓明
李健
张连毅
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing InfoQuick SinoVoice Speech Technology Corp.
Original Assignee
JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd filed Critical JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd
Priority to CN201410727566.4A priority Critical patent/CN104572631B/zh
Publication of CN104572631A publication Critical patent/CN104572631A/zh
Application granted granted Critical
Publication of CN104572631B publication Critical patent/CN104572631B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种语言模型的训练方法及系统,其中的方法具体包括:获取各领域的种子语料;依据各领域的种子语料的向量空间模型对大数据语料进行筛选,得到相应领域的种子筛选语料;分别利用各领域的种子筛选语料训练得到相应领域的筛选模型;对所有领域的筛选模型进行融合,得到相应的筛选融合模型。本发明实施例能够在减小运算量和省时的前提下,提高语言模型参数的合理性。

Description

一种语言模型的训练方法及系统
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种语言模型的训练方法及系统。
背景技术
在自然语言处理技术领域,语音识别是机器通过识别和理解过程将语音信号转变为相应的文本或命令的技术。
语音识别系统在本质上是一种模式识别系统,通常包括特征提取、模式匹配和参考模型等基本单元。参照图1,示出了现有一种语言识别系统的结构示意图,其中,输入的语音信号先经过特征提取单元分析后形成特征矢量,然后进入词级匹配单元,由所述词级匹配单元按照字典和子词模型集合串接成的词模型对所述特征矢量进行识别,所述词级匹配单元输出的词汇进入句子级匹配单元,由所述句子级匹配单元根据语言模型的句法限制在句子级进行输入语音与语言模型间的匹配,最后识别得到相应的句子。其中,语言模型是描述词汇概率分布的模型,一个能可靠反映语言识别时用词的概率分布的模型,是语音识别系统取得可靠结果的关键。而语言模型中词汇的概率分布取决于训练该语言模型时使用的语料。
目前,大数据的出现使更真实的语言模型的训练成为可能,其中,大数据可以通过互联网等方式获取。现有语言模型的训练方法通常直接对大数据进行训练得到语言模型,然而,由于大数据的尺寸和规模庞大,直接对其进行训练,不仅需要占用更多的硬盘和内存消耗,而且需要长的训练时间,也即现有语言模型的训练方法具有占用的计算资源量大、耗时等问题。
为了克服上述占用的计算资源量大、耗时等问题,还有一些语言模型的训练方法会对大数据进行一些裁剪,然后对裁剪后的大数据进行训练,然而,上述训练得到的语言模型容易失去大数据的原始统计分布,从而导致语言识别率降低。
发明内容
本发明实施例所要解决的技术问题是提供一种语言模型的训练方法及系统,能够在减小运算量和省时的前提下,提高语言模型参数的合理性。
为了解决上述问题,本发明公开了一种语言模型的训练方法,包括:
获取各领域的种子语料;
依据各领域的种子语料的向量空间模型对大数据语料进行筛选,得到相应领域的种子筛选语料;
分别利用各领域的种子筛选语料训练得到相应领域的筛选模型;
对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
优选的,所述依据各领域的种子语料的向量空间模型,得到相应领域的种子筛选语料的步骤,包括:
计算所述大数据语料中句子与某领域的向量空间模型之间的内容相关度;
依据所述内容相关度对大数据语料进行筛选,得到相应领域的种子筛选语料。
优选的,所述对所有领域的筛选模型进行融合,得到相应的筛选融合模型的步骤,包括:
分别计算各领域的筛选模型在通用测试集之上的第一困惑度;
依据各领域的筛选模型的第一困惑度确定其在筛选融合模型中的第一权重;
依据所述第一权重对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
优选的,所述方法还包括:
依据所述各领域的种子语料训练相应领域的种子模型;
对所有领域的种子模型进行融合,得到相应的种子融合模型;
对所述筛选融合模块和所述种子融合模型进行融合,得到相应的通用模型。
优选的,所述依据所述第一权重对所有领域的筛选模型进行融合,得到相应的筛选融合模型的步骤,包括:
采用线性插值的方式将所有领域的筛选模型融合成筛选融合模型;其中,插值系数用于调节各领域的筛选模型在筛选融合模型中的第一权重。
另一方面,本发明还公开了一种语言模型的训练系统,包括:
获取模块,用于获取各领域的种子语料;
筛选模块,用于依据各领域的种子语料的向量空间模型对大数据语料进行筛选,得到相应领域的种子筛选语料;
训练模块,用于分别利用各领域的种子筛选语料训练得到相应领域的筛选模型;及
第一融合模块,用于对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
优选的,所述筛选模块包括:
第一计算子模块,用于计算所述大数据语料中句子与某领域的向量空间模型之间的内容相关度;
选取子模块,用于依据所述内容相关度对大数据语料进行筛选,得到相应领域的种子筛选语料。
优选的,所述第一融合模块包括:
第二计算子模块,用于分别计算各领域的筛选模型在通用测试集之上的第一困惑度;
确定子模块,用于依据各领域的筛选模型的第一困惑度确定其在筛选融合模型中的第一权重;
权重融合子模块,用于依据所述第一权重对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
优选的,所述系统还包括:
种子模型训练模块,用于依据所述各领域的种子语料训练相应领域的种子模型;
第二融合模块,用于对所有领域的种子模型进行融合,得到相应的种子融合模型;
第三融合模块,用于对所述筛选融合模块和所述种子融合模型进行融合,得到相应的通用模型。
优选的,所述权重融合子模块,具体用于采用线性插值的方式将所有领域的筛选模型融合成筛选融合模型;其中,插值系数用于调节各领域的筛选模型在筛选融合模型中的第一权重。
与现有技术相比,本发明实施例包括以下优点:
本发明实施例提供了一种语言模型训练的方案,该方案依据各领域的种子语料的向量空间模型对大数据语料进行筛选,得到相应领域的种子筛选语料,得到相应领域的种子筛选语料,并分别利用各领域的种子筛选语料训练得到相应领域的筛选模型,且对所有领域的筛选模型进行融合,得到相应的筛选融合模型;
首先,由于上述种子筛选语料相对于原始的大数据语料而言,规模大小会变成几十分之一或者更小,因此,能够大大减小训练的数据规模较小,从而大大减小训练的计算资源量;
其次,在训练数据减少的情况下,训练过程耗时减少;
再者,筛选模型是依据与各领域相匹配的筛选语料数据训练得到的,而不是裁剪后的大数据训练得到的,因此语言模型估计得到的参数更合理、更科学;
进一步,由于由筛选模型的筛选融合模型作为通用模型能够覆盖通用领域,而筛选模型是依据与各领域相匹配的筛选语料数据训练得到的,而不是裁剪后的大数据训练得到的,因此筛选融合模型在数据分布和模型性能上之间能达到最优,因此,能够提高语音识别率。
附图说明
图1是现有一种语言识别系统的结构示意图;
图2是本发明的一种语言模型的训练方法实施例一的步骤流程图;
图3是本发明的一种语言模型的训练方法实施例二的步骤流程图;以及
图4是本发明的一种语言模型的训练系统实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
参照图2,示出了本发明的一种语言模型的训练方法实施例一的步骤流程图,具体可以包括如下步骤:
步骤201、获取各领域的种子语料;
本发明实施例中,领域可以指数据的应用场景,如新闻、地名、网址、人名、地图导航、聊天、短信、问答、微博等为常见的领域。在实际应用中,可针对特定的领域,通过专业的抓取、合作等途径获得对应的种子语料,其中的合作可以与网站运营商合作,通过网站的日志文件来获取相应的种子语料,如通过微博网站的日志文件获取相应的种子语料等,本发明实施例对具体的获取各领域的种子语料的具体方法不加以限制。
本发明实施例中,种子模型、筛选模型、筛选融合模型等模型在本质上均隶属于语言模型。故可以采用语言模型的训练方法利用语料数据训练上述种子模型、筛选模型和筛选融合模型等模型,其中在训练前应对语料数据进行相应的分词处理。
语言模型是描述词汇概率分布的模型,利用语言模型,可以确定哪个词序列或句子的可能性更大,或者给定若干个词,可以预测下一个最可能出现的词语。假设,在语音识别过程中,输入拼音串为“nixianzaiganshenme”,对应的输出可以有多种形式,如你现在干什么、你先在赶什么,等等;利用语言模型,可以得知前者的概率大于后者,因此将上述拼音串识别成前者在多数情况下比较合理。
N-Gram(N元文法)语言模型是最常见的一种语言模型,该N-Gram语言模型基于这样一种假设,即第N个词的出现只与前面N-1个词相关, 而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。
p(S)=p(w1,w2,w3,w4,w5,…,wn)
=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)  (1) 
公式(1)中,p(S)表示语言模型,可用于计算一个句子的概率,由于句子通常由多个词组成,故公式(1)中wi表示句子中的第i个词。
通常使用较多的为二元的Bi-Gram模型和三元的Tri-Gram模型。并且,更大的N对下一个词出现的约束信息更多,具有更大的辨别力,但需要的计算量越大;更小的N在训练语料库中出现的次数更多,具有更可靠的统计信息,具有更高的可靠性,本领域技术人员可以根据实际情况确定N值,本发明对具体的N值不做限制。
训练语言模型的过程,就是估计模型参数P(wi|wi-n+1,...,wi-1)的过程,其中,P(wi|wi-n+1,...,wi-1)可用于表示前n-1个词为wi-n+1,...,wi-1,后词为wi出现的概率。
在本发明的一种应用示例中,可以采用MLE(最大似然估计,Maximum Likelihood Estimation)方法对模型参数进行估计,相应的公式其可以表示为:
P(wi|wi-n+1,...,wi-1)=C(wi-n+1,...,wi-1,wi)/C(wi-n+1,...,wi-1)  (2) 
其中,C(wi-n+1,...,wi-1,wi)表示wi-n+1,...wi-1,wi在训练语料中出现的次数,可基于统计得到,训练语料的规模越大,参数估计的结果越可靠。
在具体实现中,虽然训练语料的规模很大,如若干TB(万亿字节,Trillonbyte),还是会有N元文法C(wi-n+1,...,wi-1,wi)对在训练语料中没有出现的现象,也即数据稀疏现象。为了解决数据稀疏问题,本发明的一些实施例中,还可以对估计得到的模型参数进行数据平滑,相应的数据平滑技术具体可以包括:加法平滑技术、图灵估计、插值平滑技术等。
步骤202、依据各领域的种子语料的向量空间模型对大数据语料进行筛选,得到相应领域的种子筛选语料;
由于大数据的尺寸和规模庞大,直接对其进行训练,不仅需要占用更多的硬盘和内存消耗,而且需要长的训练时间,故现有技术通常对其进行裁剪处理,然后对裁剪后的大数据进行训练,裁剪后的大数据容易失去大数据的原始统计分布。
而本专利发明人发现,大数据是可以分类的,分类的原则是大数据所隶属的领域,于是创造性地依据各领域的种子语料的向量空间模型对大数据语料进行筛选,得到相应领域的种子筛选语料。
无论是大数据中的句子,还是各领域的种子语料中的句子,都可被VSM(各领域的种子语料的向量空间模型,Vector Space Model)作为文本特征表示,VSM将句子或文档表示成一个向量,向量的每一维表示一个词项;其具体可通过TF-IDF(词频-逆向文件频率,term frequency-inverse document frequency)来定义词的权重。
在本发明的一种实施例中,所述依据各领域的种子语料的向量空间模型对大数据语料进行筛选,得到相应领域的种子筛选语料的步骤,可以进一步包括:
子步骤S100、计算所述大数据语料中句子与某领域的向量空间模型之间的内容相关度;
子步骤S102、依据所述内容相关度对大数据语料进行筛选,得到相应领域的种子筛选语料。
其中,所述子步骤100的实现过程具体可以包括:
子步骤S110、将某领域的种子语料向量化;
在具体实现中,可以将该种子语料的每一个句子转换为一个向量,具体可以采用TF-IDF等统计方法进行转换;TF-IDF的主要思想是:如果某个词或短语在一篇文档中出现的频率较高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,故可以赋予较高的权重。
假设某领域的种子语料中的第m个句子对应的向量表示为Dm(T1,W1;T2,W2;...;Tn,Wn),其中,T1,T2,...,Tn分别表示Dm对应句子中的词,W1,W2,...,Wn分别表示Dm对应句子中各词的权重,可以简记为Dm(W1,W2,...,Wn)。
子步骤S112、将所述大数据语料向量化;
本发明实施例可以依据布尔模型将所述大数据语料向量化。
布尔(Boolean)模型是基于集合论和布尔代数的一种简单检索模型。 它的特点是查找那些于某个查询词返回为“真”的文档。在该模型中,一个查询词就是一个布尔表达式,包括关键词以及逻辑运算符。
例如,当tk在查询条件Q中时,将对应的第k坐标置为1,否则置为0,即
Q k = 1 t k ∈ Q 0 t k ∉ Q - - - ( 3 )
子步骤S114、计算所述大数据语料中句子向量与所述种子语料中每个句子向量之间的距离;
子步骤S116、计算所述大数据语料中句子向量与所述种子语料中所有句子向量之间的距离的平均值,作为所述大数据语料中句子向量与所述种子语料中所有句子对应向量的距离。
考虑到种子语料中句子的数量较多,子步骤S114和子步骤S116的运算量较大,故在本发明的一种优选实施例中,在计算所述大数据语料中句子向量与所述种子语料中每个句子向量的距离的子步骤S114之前,所述方法还可以包括:将所述种子语料中所有句子向量聚类为N个类,且将各类中所有句子向量的均值作为各类的向量,则子步骤S114可以仅需计算所述大数据语料中句子向量与所述N个类的向量的距离,子步骤S116仅需计算所述大数据语料中句子向量与所述种子语料中所有类的向量的距离的平均值,因此能够大大减少运算量;其中,可以采用K-均值方法、层次方法等聚类方法,本发明对具体的聚类方法不加以限制。
在本发明的一种应用示例中,所述大数据语料中句子向量D1与所述种子语料中每个句子向量Dm的距离可用向量之间夹角的余弦值表示:
Sim ( D 1 , D m ) = cos θ = Σ k = 1 n Q k × W k ( Σ k = = 1 n Q k 2 ) ( Σ k = 1 n W k 2 ) - - - ( 4 )
在本发明的一种应用示例中,可以采用下面的公式确定Wk
在本发明的一种应用示例中,子步骤S102依据所述内容相关度对大数据语料进行筛选的过程中,可以设定一个阈值,挑选子步骤S116得到距离小于阈值的大数据语料,也即挑选与种子语料内容相关度更大的大数据语料作为相应领域的种子筛选语料,这里的阈值可以为经验值,也可以通过测试得到的值,本发明实施例对具体的阈值及其设定方法不加以限制。
综上,由于D1和D2的内容相关度关注了语义,因此能够筛选得到更贴近种子语料、更符合实际应用的种子筛选语料;另外,D1和D2的内容相关度对句子中各个词赋予了权重,因此能够筛选得到更准确、更重要的种子筛选语料。
步骤203、分别利用各领域的种子筛选语料训练得到相应领域的筛选模型;
假设有L个领域,那么可以首先针对该L个领域训练得到对应的L个种子模型,然后利用这L个种子模型筛选大数据语料得到对应L份种子筛选语料,接着分别利用这L份种子筛选语料训练得到相应的L个筛选模型。 
步骤204、对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
本发明实施例对所有领域的筛选模型进行融合后,筛选融合模型作为通用模型能够覆盖通用领域,因此能够提高相应的语音识别率。
在本发明的一种可选实施例中,所述对所有领域的筛选模型进行融合,得到相应的筛选融合模型的步骤,具体可以包括:
子步骤S200、分别计算各领域的筛选模型在通用测试集之上的第一困惑度;
子步骤S202、依据各领域的筛选模型的第一困惑度确定其在筛选融合模型中的第一权重;
子步骤S204、依据所述第一权重对所有领域的筛选模型进行融合,得 到相应的筛选融合模型。
在自然语言处理技术领域,PPL(困惑度,Perplexity)可用于表示训练语料有序度的概率几何平均值,其值的大小说明训练语料对语言模型的支持程度,通常,其值越小,则对语言模型的支持程度越高。
通用测试集可以为通用领域的测试集,例如,其可由8000句通用领域的句子组成。
对于句子构成的通用测试集T,各领域的筛选模型在通用测试集之上的第一困惑度的计算公式可以表示为:
PP T ( T ) = 2 - log 2 P ( T ) W T - - - ( 6 )
其中, P ( T ) = Π i = 1 l T p ( t i ) - - - ( 7 )
P(T)表示T中所有句子概率p(ti)的乘积,每个句子概率可以通过筛选模型p(S)的概率公式得到,WT表示以词为单位度量的通用测试集文本T的长度。
在本发明的一种可选实施例中,可以依据各领域的筛选模型的第一困惑度确定的其在筛选融合模型中的第一权重,可以使得所有领域的筛选模型以最佳比例进行混合,最终满足筛选融合模型的在通用测试集之上的困惑度最小的原则。可以理解,本领域技术人员可以根据实际情况确定上述第一权重的值,本发明实施例对具体的确定方法不加以限制。
在本发明的一种可选实施例中,所述依据所述第一权重对所有领域的筛选模型进行融合,得到相应的筛选融合模型的步骤,具体可以包括:
采用线性插值的方式将所有领域的筛选模型融合成筛选融合模型;其中,插值系数用于调节各领域的筛选模型在筛选融合模型中的第一权重。
假设L个领域中第j个领域的筛选模型训练出的N-gram概率为Pj(wi|wi-n+1,...,wi-1),第j个领域的筛选模型对应的第一权重分别为Hj,那么,对应L个筛选模型融合后的N-gram概率Pmixture(wi|wi-n+1,...,wi-1)可以表示为:
P mixture ( w i | w i - n + 1 , . . . , w i - 1 ) = H 1 * P 1 ( w i | w i - n + 1 , . . . , w i - 1 )
+ H 2 * P 2 ( w i | w i - n + 1 , . . . , w i - 1 ) + . . . + H j * P j ( w i | w i - n + 1 , . . . , w i - 1 ) + . . . + H L * P L ( w i | w i - n + 1 , . . . , w i - 1 ) - - - ( 8 )
其中,H1+H2+...+Hj+...+HL=1。
综上,本发明实施例具有如下优点:
首先,大大减小训练的计算资源量;由于种子筛选语料相对于原始的大数据语料而言,规模大小会变成几十分之一或者更小,因此,能够大大减小训练的数据规模较小,从而大大减小训练的计算资源量;
其次,省时;在训练数据减少的情况下,训练过程耗时减少;
再者,模型参数更合理;筛选模型是依据与各领域相匹配的筛选语料数据训练得到的,而不是裁剪后的大数据训练得到的,因此语言模型估计得到的参数更合理,更科学;
进一步,提高语音识别率;由于由筛选模型的筛选融合模型作为通用模型能够覆盖通用领域,而筛选模型是依据与各领域相匹配的筛选语料数据训练得到的,而不是裁剪后的大数据训练得到的,因此筛选融合模型在数据分布和模型性能上之间能达到最优,因此,能够提高语音识别率。
实施例二
参照图3,示出了本发明的一种信息搜索方法实施例二的步骤流程图,具体可以包括如下步骤:
步骤301、获取各领域的种子语料,并依据所述各领域的种子语料训练相应领域的种子模型;
步骤302、依据各领域的种子语料的向量空间模型对大数据语料进行筛选,得到相应领域的种子筛选语料;
步骤303、分别利用各领域的种子筛选语料训练得到相应领域的筛选模型;
步骤304、对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
步骤305、对所有领域的种子模型进行融合,得到相应的种子融合模型;
步骤306、对所述筛选融合模块和所述种子融合模型进行融合,得到相应的通用模型。
相对于实施例一,本实施例还可以依据所述各领域的种子语料训练相应领域的种子模型,对所有领域的种子模型进行融合,得到相应的种子融合模型,并对所述筛选融合模块和所述种子融合模型进行融合,得到相应的通用模型;由于上述种子融合模型覆盖了通用的各个领域,因此,本实施例在筛选融合模型的基础上又增加了领域数据的覆盖性,因此能够提高最终通用模型的覆盖性。
对所有领域的种子模型进行融合的过程与前述对所有领域的筛选模型进行融合的过程类似,具体可以包括:
子步骤S300、分别计算各领域的种子模型在通用测试集之上的第三困惑度;
子步骤S302、依据各领域的种子模型的第三困惑度确定其在种子融合模型中的第二权重;
子步骤S304、依据所述第二权重对所有领域的种子模型进行融合,得到相应的种子融合模型。
对所述筛选融合模块和所述种子融合模型进行融合与前述对所有领域的筛选模型进行融合的过程类似,具体可以包括:
子步骤S400、分别计算所述筛选融合模块和所述种子融合模型在通用测试集之上的第四困惑度和第五困惑度;
子步骤S402、依据第四困惑度和第五困惑度确定所述筛选融合模块和所述种子融合模型在通用模型中的第三权重和第四权重;
子步骤S304、依据所述第三权重和第四权重对所述筛选融合模块和所述种子融合模型进行融合,得到相应的通用模型。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例 均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图4,示出了本发明一种语言模型的训练系统实施例的结构框图,具体可以包括如下模块:
获取模块401,用于获取各领域的种子语料;
筛选模块402,用于依据各领域的种子语料的向量空间模型对大数据语料进行筛选,得到相应领域的种子筛选语料;
训练模块403,用于分别利用各领域的种子筛选语料训练得到相应领域的筛选模型;及
第一融合模块404,用于对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
在本发明的一种可选实施例中,所述筛选模块402具体可以包括:
第一计算子模块,用于计算所述大数据语料中句子与某领域的向量空间模型之间的内容相关度;
选取子模块,用于依据所述内容相关度对大数据语料进行筛选,得到相应领域的种子筛选语料。
在本发明的另一种可选实施例中,所述第一融合模块404具体可以包括:
第二计算子模块,用于分别计算各领域的筛选模型在通用测试集之上的第一困惑度;
确定子模块,用于依据各领域的筛选模型的第一困惑度确定其在筛选融合模型中的第一权重;
权重融合子模块,用于依据所述第一权重对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
在本发明的再一种可选实施例中,所述系统还可以包括:
种子模型训练模块,用于依据所述各领域的种子语料训练相应领域的种子模型;
第二融合模块,用于对所有领域的种子模型进行融合,得到相应的种子融合模型;
第三融合模块,用于对所述筛选融合模块和所述种子融合模型进行融合,得到相应的通用模型。
在本发明实施例中,可选的是,所述权重融合子模块,可具体用于采用线性插值的方式将所有领域的筛选模型融合成筛选融合模型;其中,插值系数用于调节各领域的筛选模型在筛选融合模型中的第一权重。
对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种语言模型训练的方法和系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种语言模型的训练方法,其特征在于,包括:
获取各领域的种子语料;
依据各领域的种子语料的向量空间模型对大数据语料进行筛选,得到相应领域的种子筛选语料;
分别利用各领域的种子筛选语料训练得到相应领域的筛选模型;
对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
2.根据权利要求1所述的方法,其特征在于,所述依据各领域的种子语料的向量空间模型,得到相应领域的种子筛选语料的步骤,包括:
计算所述大数据语料中句子与某领域的向量空间模型之间的内容相关度;
依据所述内容相关度对大数据语料进行筛选,得到相应领域的种子筛选语料。
3.根据权利要求1所述的方法,其特征在于,所述对所有领域的筛选模型进行融合,得到相应的筛选融合模型的步骤,包括:
分别计算各领域的筛选模型在通用测试集之上的第一困惑度;
依据各领域的筛选模型的第一困惑度确定其在筛选融合模型中的第一权重;
依据所述第一权重对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
依据所述各领域的种子语料训练相应领域的种子模型;
对所有领域的种子模型进行融合,得到相应的种子融合模型;
对所述筛选融合模块和所述种子融合模型进行融合,得到相应的通用模型。
5.根据权利要求3所述的方法,其特征在于,所述依据所述第一权重对所有领域的筛选模型进行融合,得到相应的筛选融合模型的步骤,包括:
采用线性插值的方式将所有领域的筛选模型融合成筛选融合模型;其中,插值系数用于调节各领域的筛选模型在筛选融合模型中的第一权重。
6.一种语言模型的训练系统,其特征在于,包括:
获取模块,用于获取各领域的种子语料;
筛选模块,用于依据各领域的种子语料的向量空间模型对大数据语料进行筛选,得到相应领域的种子筛选语料;
训练模块,用于分别利用各领域的种子筛选语料训练得到相应领域的筛选模型;及
第一融合模块,用于对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
7.根据权利要求6所述的系统,其特征在于,所述筛选模块包括:
第一计算子模块,用于计算所述大数据语料中句子与某领域的向量空间模型之间的内容相关度;
选取子模块,用于依据所述内容相关度对大数据语料进行筛选,得到相应领域的种子筛选语料。
8.根据权利要求6所述的系统,其特征在于,所述第一融合模块包括:
第二计算子模块,用于分别计算各领域的筛选模型在通用测试集之上的第一困惑度;
确定子模块,用于依据各领域的筛选模型的第一困惑度确定其在筛选融合模型中的第一权重;
权重融合子模块,用于依据所述第一权重对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
9.根据权利要求6所述的系统,其特征在于,所述系统还包括:
种子模型训练模块,用于依据所述各领域的种子语料训练相应领域的种子模型;
第二融合模块,用于对所有领域的种子模型进行融合,得到相应的种子融合模型;
第三融合模块,用于对所述筛选融合模块和所述种子融合模型进行融合,得到相应的通用模型。
10.根据权利要求8所述的系统,其特征在于,所述权重融合子模块,具体用于采用线性插值的方式将所有领域的筛选模型融合成筛选融合模型;其中,插值系数用于调节各领域的筛选模型在筛选融合模型中的第一权重。
CN201410727566.4A 2014-12-03 2014-12-03 一种语言模型的训练方法及系统 Active CN104572631B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410727566.4A CN104572631B (zh) 2014-12-03 2014-12-03 一种语言模型的训练方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410727566.4A CN104572631B (zh) 2014-12-03 2014-12-03 一种语言模型的训练方法及系统

Publications (2)

Publication Number Publication Date
CN104572631A true CN104572631A (zh) 2015-04-29
CN104572631B CN104572631B (zh) 2018-04-13

Family

ID=53088734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410727566.4A Active CN104572631B (zh) 2014-12-03 2014-12-03 一种语言模型的训练方法及系统

Country Status (1)

Country Link
CN (1) CN104572631B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389303A (zh) * 2015-10-27 2016-03-09 北京信息科技大学 一种异源语料自动融合方法
CN105654945A (zh) * 2015-10-29 2016-06-08 乐视致新电子科技(天津)有限公司 一种语言模型的训练方法及装置、设备
CN105760361A (zh) * 2016-01-26 2016-07-13 北京云知声信息技术有限公司 一种语言模型建立方法及装置
CN107330011A (zh) * 2017-06-14 2017-11-07 北京神州泰岳软件股份有限公司 多策略融合的命名实体的识别方法及装置
CN107564513A (zh) * 2016-06-30 2018-01-09 阿里巴巴集团控股有限公司 语音识别方法及装置
CN108228576A (zh) * 2017-12-29 2018-06-29 科大讯飞股份有限公司 文本翻译方法及装置
CN109543041A (zh) * 2018-11-30 2019-03-29 安徽听见科技有限公司 一种语言模型得分的生成方法及装置
CN110120221A (zh) * 2019-06-06 2019-08-13 上海蔚来汽车有限公司 用于车机系统的用户个性化离线语音识别方法及其系统
CN111143518A (zh) * 2019-12-30 2020-05-12 北京明朝万达科技股份有限公司 跨领域语言模型训练方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
CN1298172A (zh) * 1999-11-29 2001-06-06 松下电器产业株式会社 用于中等或大词汇量语音识别的上下文相关声模型
CN1310825A (zh) * 1998-06-23 2001-08-29 微软公司 用于分类文本以及构造文本分类器的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1310825A (zh) * 1998-06-23 2001-08-29 微软公司 用于分类文本以及构造文本分类器的方法和装置
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
CN1298172A (zh) * 1999-11-29 2001-06-06 松下电器产业株式会社 用于中等或大词汇量语音识别的上下文相关声模型

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
REINHARD KNESER等: "ON THE DYNAMIC ADAPTATION OF STOCHASTIC LANGUAGE MODELS", 《ICASSP 93 PROCESSINGS OF THE 1993 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS,SPEECH, AND SIGNAL PROCESSING:SPEECH PROCESSING》 *
SALTON G.等: "Term-weighting approaches in automatic text retrieval", 《INFORMATIONPROEESSING&MANAGEMEN》 *
刘挺等: "《信息检索系统导论》", 31 August 2008 *
张友华: "面向智能服务的Web内容计算研究与应用", 《中国优秀硕博士学位论文全文数据库(博士)信息科技辑》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389303A (zh) * 2015-10-27 2016-03-09 北京信息科技大学 一种异源语料自动融合方法
CN105389303B (zh) * 2015-10-27 2018-11-27 北京信息科技大学 一种异源语料自动融合方法
CN105654945B (zh) * 2015-10-29 2020-03-06 乐融致新电子科技(天津)有限公司 一种语言模型的训练方法及装置、设备
CN105654945A (zh) * 2015-10-29 2016-06-08 乐视致新电子科技(天津)有限公司 一种语言模型的训练方法及装置、设备
CN105760361A (zh) * 2016-01-26 2016-07-13 北京云知声信息技术有限公司 一种语言模型建立方法及装置
CN105760361B (zh) * 2016-01-26 2019-06-14 北京云知声信息技术有限公司 一种语言模型建立方法及装置
CN107564513A (zh) * 2016-06-30 2018-01-09 阿里巴巴集团控股有限公司 语音识别方法及装置
US10891944B2 (en) 2016-06-30 2021-01-12 Alibaba Group Holding Limited Adaptive and compensatory speech recognition methods and devices
CN107564513B (zh) * 2016-06-30 2020-09-08 阿里巴巴集团控股有限公司 语音识别方法及装置
CN107330011A (zh) * 2017-06-14 2017-11-07 北京神州泰岳软件股份有限公司 多策略融合的命名实体的识别方法及装置
CN108228576A (zh) * 2017-12-29 2018-06-29 科大讯飞股份有限公司 文本翻译方法及装置
CN109543041A (zh) * 2018-11-30 2019-03-29 安徽听见科技有限公司 一种语言模型得分的生成方法及装置
CN110120221A (zh) * 2019-06-06 2019-08-13 上海蔚来汽车有限公司 用于车机系统的用户个性化离线语音识别方法及其系统
CN111143518A (zh) * 2019-12-30 2020-05-12 北京明朝万达科技股份有限公司 跨领域语言模型训练方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN104572631B (zh) 2018-04-13

Similar Documents

Publication Publication Date Title
CN104572631A (zh) 一种语言模型的训练方法及系统
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN109284357B (zh) 人机对话方法、装置、电子设备及计算机可读介质
CN108763510B (zh) 意图识别方法、装置、设备及存储介质
CN105095204B (zh) 同义词的获取方法及装置
CN104572614A (zh) 一种语言模型的训练方法及系统
CN107562919B (zh) 一种基于信息检索的多索引集成软件构件检索方法及系统
CN105843897A (zh) 一种面向垂直领域的智能问答系统
CN105528349A (zh) 知识库中问句解析的方法及设备
CN110334209B (zh) 文本分类方法、装置、介质及电子设备
CN104915340A (zh) 自然语言问答方法及装置
CN110705612A (zh) 一种混合多特征的句子相似度计算方法、存储介质及系统
CN103154936A (zh) 用于自动化文本校正的方法和系统
CN103440314A (zh) 一种基于Ontology的语义检索方法
CN102955848A (zh) 一种基于语义的三维模型检索系统和方法
CN109933792A (zh) 基于多层双向lstm和验证模型的观点型问题阅读理解方法
CN105095430A (zh) 构建词语网络及抽取关键词的方法和装置
CN110795565A (zh) 基于语义识别的别名挖掘方法、装置、介质及电子设备
CN112036178A (zh) 一种配网实体相关的语义搜索方法
US20210174408A1 (en) Methods and systems for predicting a price of any subtractively manufactured part utilizing artificial intelligence at a computing device
CN112836487A (zh) 一种自动评论方法、装置、计算机设备及存储介质
CN114997288A (zh) 一种设计资源关联方法
CN112818091A (zh) 基于关键词提取的对象查询方法、装置、介质与设备
CN112883182A (zh) 一种基于机器阅读的问答匹配方法及装置
CN104199811B (zh) 短句解析模型建立方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 100193 Haidian District, Beijing, Northeast China, Beijing Zhongguancun Software Park incubator 2 floor 1.

Patentee after: Beijing InfoQuick SinoVoice Speech Technology Corp.

Address before: 100193 two, 206-1, Zhongguancun Software Park, 8 Northeast Northeast Road, Haidian District, Beijing, 206-1

Patentee before: Jietong Huasheng Speech Technology Co., Ltd.

CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: Building 2102, building 1, Haidian District, Beijing

Patentee after: BEIJING SINOVOICE TECHNOLOGY Co.,Ltd.

Address before: 100193 Haidian District, Beijing, Northeast China, Beijing Zhongguancun Software Park incubator 2 floor 1.

Patentee before: BEIJING SINOVOICE TECHNOLOGY Co.,Ltd.