CN104866472A - 分词训练集的生成方法和装置 - Google Patents
分词训练集的生成方法和装置 Download PDFInfo
- Publication number
- CN104866472A CN104866472A CN201510329109.4A CN201510329109A CN104866472A CN 104866472 A CN104866472 A CN 104866472A CN 201510329109 A CN201510329109 A CN 201510329109A CN 104866472 A CN104866472 A CN 104866472A
- Authority
- CN
- China
- Prior art keywords
- word segmentation
- segmentation result
- fundamental function
- sample
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明提出一种分词训练集的生成方法和装置,该分词训练集的生成方法包括获取训练语料,并采用不同的分词器分别对相同的训练语料进行分词,得到对应不同分词器的分词结果;将所述分词结果划分为精确匹配的分词结果和非精确匹配的分词结果;根据所述分词结果,对所述非精确匹配的分词结果进行降噪处理,得到分词训练集。该方法能够降低分词训练集生成的时间和花费,实现成本降低及效果提高。
Description
技术领域
本发明涉及语音处理技术领域,尤其涉及一种分词训练集的生成方法和装置。
背景技术
语音合成,又称文语转换(Text to Speech,TTS),能将文字信息实时转换为语音朗读出来,相当于给机器装上了人工嘴巴。对于语音合成系统,首先需要对输入的文本进行处理,其中包括分词处理。分词算法主要有两类,一种是基于词典匹配的算法,另一种是基于训练语料的学习算法。
现有技术中,条件随机场(Conditional Random Field,CRF)模型是一种主流的基于训练语料的学习算法。但是,CRF模型是一种有监督的机器学习算法,需要大量的人工标注数据作为支撑。使用人力做数据标注的工作无论从经济上还是时间花费的角度都是非常昂贵的。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种分词训练集的生成方法,该方法可以降低分词训练集生成的时间和花费,实现成本降低及效果提高。
本发明的另一个目的在于提出一种分词训练集的生成装置。
为达到上述目的,本发明第一方面实施例提出的分词训练集的生成方法,包括:获取训练语料,并采用不同的分词器分别对相同的训练语料进行分词,得到对应不同分词器的分词结果;将所述分词结果划分为精确匹配的分词结果和非精确匹配的分词结果;根据所述分词结果,对所述非精确匹配的分词结果进行降噪处理,得到分词训练集。
本发明第一方面实施例提出的分词训练集的生成方法,通过对训练语料进行分词,并根据分词结果得到分词训练集,可以实现分词训练集的自动生成,避免人工标注,降低分词训练集生成的时间和花费,实现成本降低及效果提高。
为达到上述目的,本发明第二方面实施例提出的分词训练集的生成装置,包括:分词模块,用于获取训练语料,并采用不同的分词器分别对相同的训练语料进行分词,得到对应不同分词器的分词结果;划分模块,用于将所述分词结果划分为精确匹配的分词结果和非精确匹配的分词结果;生成模块,用于根据所述分词结果,对所述非精确匹配的分词结果进行降噪处理,得到分词训练集。
本发明第二方面实施例提出的分词训练集的生成装置,通过对训练语料进行分词,并根据分词结果得到分词训练集,可以实现分词训练集的自动生成,避免人工标注,降低分词训练集生成的时间和花费,实现成本降低及效果提高。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例提出的分词训练集的生成方法的流程示意图;
图2是本发明实施例中S13的具体实现流程示意图;
图3是本发明实施例中S23的具体实现流程示意图;
图4是本发明另一实施例提出的分词训练集的生成装置的结构示意图;
图5是本发明另一实施例提出的分词训练集的生成装置的结构示意图;
图6是本发明另一实施例提出的分词训练集的生成装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修正和等同物。
图1是本发明一实施例提出的分词训练集的生成方法的流程示意图,该方法包括:
S11:获取训练语料,并采用不同的分词器分别对相同的训练语料进行分词,得到对应不同分词器的分词结果。
其中,可以对已有的文本数据(如新闻文本数据)进行收集,得到训练语料。训练语料是指未分词前的数据,通常是一句话,例如,你好北京,北京大学,人生命中的对比。
在得到训练语料后,可以采用分词器进行分词。分词器是已有的分词器,不限定具体的分词算法,例如,分词器可以包括基于词典匹配算法的分词器,或者,基于学习算法的分词器等。另外,在每种算法中,也可以采用不同的分词器,例如,基于词典匹配算法的分词器,可以采用基于不同词典的分词器。
由于分词器不同,对同一个训练语料进行分词后,可能得到相同或不同的分词结果。
S12:将所述分词结果划分为精确匹配的分词结果和非精确匹配的分词结果。
可以通过比较不同分词器得到的分词结果,实现对分词结果的划分。
根据分词结果的相同或者不同,不同分词器的分词结果可以存在如下关系:
第一种关系:精确匹配。
例如,对于同一个训练语料“你好北京”,两个分词器的分词结果分别是:
你好 北京
你好 北京
由于两个分词器得到的分词结果是相同的,因此,这类分词结果可以称为精确匹配的分词结果。
当分词结果不是精确匹配的分词结果时,可以统称为非精确匹配的分词结果。并且,非精确匹配的分词结果可以进一步分为:
第二种关系:粒度不同。
例如,对于同一个训练语料“北京大学”,两个分词器的分词结果分别是:
北京大学
北京 大学
由于两个分词结果中,总的边界相同但单个词条的长度不同,因此,这类分词结果可以称为粒度不同的分词结果。
第三种关系:歧义错误。
例如,对于同一个训练语料“人生命中的对比”,两个分词器的分词结果分别是:
人 生命中 的 对比
人生 命中 的 对比
由于两个分词器得到的分词结果中存在边界不一致的词条,因此,这类分词结果可以称为歧义错误的分词结果。
S13:根据所述分词结果,对所述非精确匹配的分词结果进行降噪处理,得到分词训练集。
如果分词训练集和真正符合语言现象的正确答案相比较,存在很多错误,那么用这样的分词训练集训练的分词模型的效果就会很差,从而影响分词效果以及语音合成效果。为了提高分词训练集的准确性,需要在分词训练集中尽量避免非精确匹配的分词结果。
由于非精确匹配的分词结果可以分为:歧义错误的分词结果和粒度不同的分词结果,因此,可以分别对歧义错误的分词结果进行降噪处理,以及对粒度不同的分词结果进行降噪处理。
可选的,参见图2,所述根据所述分词结果,对所述非精确匹配的分词结果进行降噪处理,得到分词训练集,包括:
S21:在获取的训练语料中,删除歧义错误的分词结果对应的训练语料,得到保留的训练语料,并获取所述保留的训练语料对应的分词结果。
例如,获取的训练语料包括:你好北京,北京大学,人生命中的对比,由于“人生命中的对比”被两个分词器分词后得到的分词结果属于歧义错误的分词结果,因此,在获取的训练语料中删除“人生命中的对比”,从而得到的保留的训练语料包括:你好北京,北京大学。
在确定出保留的训练语料后,可以获取相应的分词结果,例如,你好,北京,北京大学,北京,大学。
针对歧义错误的分词结果:由于采用的分词器是基于不同算法或基于不同训练数据得到的,不容易出现完全一样的歧义错误。因此,通过比较不同的分词器得到的分词结果,可以容易地查找到歧义错误的分词结果。
具体的查找歧义错误的方法如下:
分词结果1:人 生命中 的 对比
分词结果2:人生 命中 的 对比
以第一个分词结果为基准,当遍历到第二个词块“生命中”时,与第二个分词结果进行比较发现,“生”属于第二个分词结果的第一个词,而“命中”属于第二个分词结果的第二个词,并且“生”和“命中”组合起来在第二个分词结果中不是两个单独的词块,这样的情况一定是发生了歧义错误。通过这样的相互校验,就可以把训练集中的绝大部分歧义错误找出来。
由于语料池很大,可将出现歧义错误的句子直接从训练集中删除掉,最终仍然能够保证对语言现象进行比较全面的覆盖。通过删除可以完成歧义错误的降噪工作。
S22:在所述保留的训练语料对应的分词结果中,选择样本词条,并由所述样本词条组成样本训练集。
由于训练语料比较庞大,保留的训练语料也比较庞大,并且每一种分词结果会包括一个或多个词条,因此,会造成保留的词条数量很大。为了简化运算,可以在这些词条中进行选择,以获取样本词条。
在词条选择时,可以根据设置的选择算法进行。例如,可以设置一个阈值,当一个词条的出现频率大于该阈值时,确定该词条是样本词条。
在得到样本词条后,这些样本词条组成的词条集合可以称为样本训练集。例如,北京,大学,北京大学的出现频率都超过预设阈值,则样本训练集中包括北京,大学,北京大学这三个词条。
S23:在所述样本训练集内,对粒度不同的分词结果进行降噪处理,得到分词训练集。
通过对歧义错误的分词结果对应的训练数据进行删除,可以完成第一次降噪处理。该步骤中对粒度不同的分词结果进行降噪处理可以完成第二次降噪处理。
不同分词器的粒度不一致,很难通过简单比较不同分词结果的方式解决,因为不能说哪种粒度一定是对的。对应不同的具体应用问题,把“北京大学”这样的词条不切分开,或者切分成:“北京 大学”,都是有一定道理的。关键是在要生成的分词训练集中,出现的词条的粒度应该保持统一。
对粒度不同的分词结果进行降噪处理可以借助条件随机场模型本身的特点来实现。
参见图3,S23的具体流程可以包括:
S31:对所述样本训练集进行模型训练,生成多个特征函数,并获取每个特征函数的权重。
例如,模型训练时采用CRF模型训练。
CRF是给定随机变量X条件下,随机变量Y的马尔科夫随机场。常用的CRF模型是基于线性链的条件随机场,可用于标注问题。CRF在训练时,利用训练数据集通过极大似然估计对条件概率P(Y|X)进行建模。预测时,对于给定的输入序列X,基于维特比算法求出条件概率P(Y|X)最大的输出序列Y。
线性链条件随机场可定义如下:
设X=(X1,X2,…,Xn),Y=(Y1,Y2,…,Yn)均为线性链表示的随机变量序列,若在给定随机变量序列X的条件下,随机变量序列Y的条件概率分布P(Y|X)满足马尔科夫性假设:
P(Yi|X,Y1,Y2,…,Yi-1,Yi+1,…,Yn)=P(Yi|X,Yi-1,Yi+1)
i=1,2,…,n
则称P(Y|X)为线性链条件随机场。
在CRF模型训练时,可以获取预先定义的特征模板,采用该特征模板,根据样本训练集中的词条,提取出特征函数。其中,特征模板中用于定义特征函数的提取方式。
特征函数是可以用于描述自然语言中的现象。例如,特征函数用于说明字词之间的相互关系,词性,人名等。具体的特征函数的提取方式可以设置,从而可以根据词条生成特征函数。
例如,样本训练集中包括如下三个词条:北京大学,北京,大学,如果预先定义根据相互关系提取特征函数,则根据第一个词条“北京大学”,可以确定一个特征函数表明:“北”后面连接三个字“京大学”,类似的,根据词条“北京”,可以确定另一个特征函数表明:“北”后面连接一个字“京”。
条件随机场是基于特征函数的最大熵原理的概率分布,它是一种有监督的机器学习算法。在训练阶段,它会在确定的训练集上,针对预先设定好的特征函数,计算特征函数在训练集中每个样本上的样本数学期望。又知道条件随机场模型是基于马尔科夫性假设,被约束条件构成的特征函数决定的对数线性模型,它的条件概率计算公式可通过Hammersley-Clifford定理计算推导出来。于是,在给定模型参数后,就可以按照条件概率公式计算得到当前样本和模型参数的前提下的条件概率,以及当前参数下的模型数学期望。由于CRF最优模型的选取方法是极大似然估计,因此可以使用拟牛顿法(BFGS算法完成迭代计算部分)进行梯度下降,可知对于某个特征函数的梯度函数恰为该特征函数的模型数学期望与样本数学期望的差值(该差值可以称为模型样本期望差)。由此可知,模型最终优化的方向即是使得在每个特征函数上,模型数学期望与样本数学期望的差值收敛到0。
然而,如果训练集本身存在一定的噪声,比如,训练集中对于“北京大学”这个词条,有的时候标注结果是合起来的一个词,有的时候是分开的,如“北京大学”。那么对于条件随机场模型,关于这个词条的特征函数,它们的模型样本期望差,一定不会接近0,因为不论模型期望偏向于将该词如何切分,都会在一定情况下,与样本期望结果不一致。因此,在条件随机场模型训练结束的时候,可以对所有的特征函数的模型样本期望差进行从大到小排序,这样就相当于按模型特征函数无法收敛的严重程度进行了排序。
现在还需解决的问题是:有些特征函数,天然的在学习到的模型中,模型样本期望差本身就非常大,比如某些字词在不同情况下与前后字词结合的情况不一样,如“的”这个字:
快乐 的,我 的 东西
的的确确,的士司机
如果把“的”字出现单独看出一个可能的特征函数,它是独立成词还是需要与上下文合并是不确定的。这样的特征函数的“模型样本期望差”往往会非常高,如果排序后挑出的特征函数大部分是诸如此类的情况,是无法真正找到训练中粒度不一致的问题的。
下面的方法可以很大程度上缓解这个问题:
在条件随机场模型进行模型参数训练时,加入L2正则化参数后,会将一些对于模型预测意义不重要的特征函数的参数变得非常接近0。也就是说,特征函数的模型参数绝对值越小,说明这个特征函数在真正预测时能够起到的贡献也就越小。因此,在对特征函数的“模型样本期望差”进行排序时,将最终学习到的特征函数模型的参数作为一种权重考虑进来,对期望差的结果进行加权综合排序。最终得到的排序结果是把对预测结果影响重要,但是模型本身又无法收敛的这种特征函数由大到小排序。这时,排在前面的特征函数往往对应了训练集中粒度本身不一致的部分,从而,就找出了粒度可能有问题的训练集。
因此,在CRF训练时,可以对训练过程中得到特征函数模型的参数确定为该特征函数的权重,该权重可以用于后续的排序。
S32:计算每个特征函数的模型样本期望差,根据每个特征函数的权重和所述模型样本期望差,确定每个特征函数的加权期望差,并根据所述加权期望差对所述特征函数进行排序。
其中,一个特征函数的模型样本期望差是指该特征函数的模型数学期望与样本数学期望之间的差值。
特征函数的模型数学期望和特征函数的样本数学期望是在CRF模型训练时会涉及的参数,因此,具体计算过程可以参见已有的CRF算法。
在获取到权重以及模型样本期望差后,可以将两者相乘得到加权期望差。
在得到加权期望差后,可以按照加权期望差从大到小的顺序,对特征函数进行排序,其中,一个特征函数的加权期望差越大,该特征函数对应的词条的粒度的不准确性越高。
S33:根据排序后的特征函数,对粒度不同的分词结果进行修正。
其中,一个特征函数的加权期望差越大,该特征函数对应的词条的粒度的不准确性越高,在修正时,将粒度不准确的分词替换为粒度准确的分词,完成对粒度不同的分词结果的降噪处理,得到分词训练集。
可选的,当按照加权期望差从大到小的顺序排序时,所述根据排序后的特征函数,对粒度不同的分词结果进行修正,包括:
在样本训练集内,对应粒度不同的分词结果,将排序在前的特征函数对应的词条,统一替换为排序在后的特征函数对应的词条。
例如,第一个特征函数表明:“北”后面连接三个字“京大学”,第二个特征函数表明:“北”后面连接一个字“京”,如果经过计算,第一个特征函数的加权期望差大于第二个特征函数的加权期望差,则表明“北京大学”的粒度相对于“北京”是不准确的。之后,可以将样本训练集内所有的“北京大学”统一替换为“北京”和“大学”。
在修正后,可以将修正后的样本训练集内的词条组成分词训练集。
可以理解的是,修正的次数不限于一次,可以多次修正。例如,该方法还可以包括:
S34:判断是否需要继续修正,若是,重复执行S31及其后续步骤,否则,执行S35。
其中,是否需要继续修正可以根据预先条件确定。例如,当在修正后的样本训练集内,剩余的粒度不同的分词结果的数量小于预设值时,不需要继续修正,否则需要继续修正。
通过批量替换的方式,将样本训练集中的词条进行一遍修正,实现了对粒度不同的分词结果的降噪处理。在完成一遍修正后,可以再重新训练CRF模型,反复迭代若干次,使得样本训练集中的词条粒度都趋于统一。
S35:生成分词训练集。
当在样本训练集内,将粒度不准确的词条统一替换为粒度准确的词条后,可以将完成替换的样本训练集内的词条组成分词训练集。
在生成分词训练集后,可以采用该分词训练集进行分词模型训练,得到分词模型,在分词处理时,可以采用该分词模型。进一步的,在语音合成时,由于分词是语音合成的基础,可以采用基于该分词模型的分词处理流程。由于本实施例的分词训练集准确度高,从而可以提升分词处理以及语音合成等的效果。
本实施例中,通过对训练语料进行分词,并根据分词结果得到分词训练集,可以实现分词训练集的自动生成,避免人工标注,降低分词训练集生成的时间和花费,实现成本降低及效果提高。具体的,本实施例的时间成本非常低,在50万语料规模的训练集上只需花费一天左右的时间就可完成一次迭代。训练集的分词粒度可根据需要自行控制,适用于不同的应用问题。经验证,这样实现的分词器性能优于基于词表分词器,召回率可提高约6个百分点。通过提升分词性能,也可以提升语音合成系统整体的性能,改善了用户在使用tts时的主观体验感受。
图4是本发明另一实施例提出的分词训练集的生成装置的结构示意图,该装置40包括:
分词模块41,用于获取训练语料,并采用不同的分词器分别对相同的训练语料进行分词,得到对应不同分词器的分词结果;
其中,可以对已有的文本数据(如新闻文本数据)进行收集,得到训练语料。训练语料是指未分词前的数据,通常是一句话,例如,你好北京,北京大学,人生命中的对比。
在得到训练语料后,可以采用分词器进行分词。分词器是已有的分词器,不限定具体的分词算法,例如,分词器可以包括基于词典匹配算法的分词器,或者,基于学习算法的分词器等。另外,在每种算法中,也可以采用不同的分词器,例如,基于词典匹配算法的分词器,可以采用基于不同词典的分词器。
由于分词器不同,对同一个训练语料进行分词后,可能得到相同或不同的分词结果。
划分模块42,用于将所述分词结果划分为精确匹配的分词结果和非精确匹配的分词结果;
可以通过比较不同分词器得到的分词结果,实现对分词结果的划分。
根据分词结果的相同或者不同,不同分词器的分词结果可以存在如下关系:
第一种关系:精确匹配。
例如,对于同一个训练语料“你好北京”,两个分词器的分词结果分别是:
你好 北京
你好 北京
由于两个分词器得到的分词结果是相同的,因此,这类分词结果可以称为精确匹配的分词结果。
当分词结果不是精确匹配的分词结果时,可以统称为非精确匹配的分词结果。并且,非精确匹配的分词结果可以进一步分为:
第二种关系:粒度不同。
例如,对于同一个训练语料“北京大学”,两个分词器的分词结果分别是:
北京大学
北京 大学
由于两个分词结果中,总的边界相同但单个词条的长度不同,因此,这类分词结果可以称为粒度不同的分词结果。
第三种关系:歧义错误。
例如,对于同一个训练语料“人生命中的对比”,两个分词器的分词结果分别是:
人 生命中 的 对比
人生 命中 的 对比
由于两个分词器得到的分词结果中存在边界不一致的词条,因此,这类分词结果可以称为歧义错误的分词结果。
生成模块43,用于根据所述分词结果,对所述非精确匹配的分词结果进行降噪处理,得到分词训练集。
如果分词训练集和真正符合语言现象的正确答案相比较,存在很多错误,那么用这样的分词训练集训练的分词模型的效果就会很差,从而影响分词效果以及语音合成效果。为了提高分词训练集的准确性,需要在分词训练集中尽量避免非精确匹配的分词结果。
由于非精确匹配的分词结果可以分为:歧义错误的分词结果和粒度不同的分词结果,因此,可以分别对歧义错误的分词结果进行降噪处理,以及对粒度不同的分词结果进行降噪处理。
另一实施例中,参见图5,所述非精确匹配的分词结果包括:粒度不同的分词结果和歧义错误的分词结果,所述生成模块43包括:
第一降噪模块431,用于在获取的训练语料中,删除歧义错误的分词结果对应的训练语料,得到保留的训练语料,并获取所述保留的训练语料对应的分词结果;
例如,获取的训练语料包括:你好北京,北京大学,人生命中的对比,由于“人生命中的对比”被两个分词器分词后得到的分词结果属于歧义错误的分词结果,因此,在获取的训练语料中删除“人生命中的对比”,从而得到的保留的训练语料包括:你好北京,北京大学。
在确定出保留的训练语料后,可以获取相应的分词结果,例如,你好,北京,北京大学,北京,大学。
针对歧义错误的分词结果:由于采用的分词器是基于不同算法或基于不同训练数据得到的,不容易出现完全一样的歧义错误。因此,通过比较不同的分词器得到的分词结果,可以容易地查找到歧义错误的分词结果。
具体的查找歧义错误的方法如下:
分词结果1:人 生命中 的 对比
分词结果2:人生 命中 的 对比
以第一个分词结果为基准,当遍历到第二个词块“生命中”时,与第二个分词结果进行比较发现,“生”属于第二个分词结果的第一个词,而“命中”属于第二个分词结果的第二个词,并且“生”和“命中”组合起来在第二个分词结果中不是两个单独的词块,这样的情况一定是发生了歧义错误。通过这样的相互校验,就可以把训练集中的绝大部分歧义错误找出来。
由于语料池很大,可将出现歧义错误的句子直接从训练集中删除掉,最终仍然能够保证对语言现象进行比较全面的覆盖。通过删除可以完成歧义错误的降噪工作。
选择模块432,用于在所述保留的训练语料对应的分词结果中,选择样本词条,并由所述样本词条组成样本训练集;
由于训练语料比较庞大,保留的训练语料也比较庞大,并且每一种分词结果会包括一个或多个词条,因此,会造成保留的词条数量很大。为了简化运算,可以在这些词条中进行选择,以获取样本词条。
可选的,所述选择模块432具体用于:
在所述保留的训练语料对应的分词结果中,选择出现频率大于预设值的词条,确定为样本词条。
在词条选择时,可以根据设置的选择算法进行。例如,可以设置一个阈值,当一个词条的出现频率大于该阈值时,确定该词条是样本词条。
在得到样本词条后,这些样本词条组成的词条集合可以称为样本训练集。例如,北京,大学,北京大学的出现频率都超过预设阈值,则样本训练集中包括北京,大学,北京大学这三个词条。
第二降噪模块433,用于在所述样本训练集内,对粒度不同的分词结果进行降噪处理,得到分词训练集。
通过对歧义错误的分词结果对应的训练数据进行删除,可以完成第一次降噪处理。该步骤中对粒度不同的分词结果进行降噪处理可以完成第二次降噪处理。
不同分词器的粒度不一致,很难通过简单比较不同分词结果的方式解决,因为不能说哪种粒度一定是对的。对应不同的具体应用问题,把“北京大学”这样的词条不切分开,或者切分成:“北京 大学”,都是有一定道理的。关键是在要生成的分词训练集中,出现的词条的粒度应该保持统一。
对粒度不同的分词结果进行降噪处理可以借助条件随机场模型本身的特点来实现。
另一实施例中,参见图6,所述第二降噪模块433包括:
第一单元4331,用于对所述样本训练集进行模型训练,生成多个特征函数,并获取每个特征函数的权重;
例如,模型训练时采用CRF模型训练。
CRF是给定随机变量X条件下,随机变量Y的马尔科夫随机场。常用的CRF模型是基于线性链的条件随机场,可用于标注问题。CRF在训练时,利用训练数据集通过极大似然估计对条件概率P(Y|X)进行建模。预测时,对于给定的输入序列X,基于维特比算法求出条件概率P(Y|X)最大的输出序列Y。
线性链条件随机场可定义如下:
设X=(X1,X2,…,Xn),Y=(Y1,Y2,…,Yn)均为线性链表示的随机变量序列,若在给定随机变量序列X的条件下,随机变量序列Y的条件概率分布P(Y|X)满足马尔科夫性假设:
P(Yi|X,Y1,Y2,…,Yi-1,Yi+1,…,Yn)=P(Yi|X,Yi-1,Yi+1)
i=1,2,…,n
则称P(Y|X)为线性链条件随机场。
在CRF模型训练时,可以获取预先定义的特征模板,采用该特征模板,根据样本训练集中的词条,提取出特征函数。其中,特征模板中用于定义特征函数的提取方式。
特征函数是可以用于描述自然语言中的现象。例如,特征函数用于说明字词之间的相互关系,词性,人名等。具体的特征函数的提取方式可以设置,从而可以根据词条生成特征函数。
例如,样本训练集中包括如下三个词条:北京大学,北京,大学,如果预先定义根据相互关系提取特征函数,则根据第一个词条“北京大学”,可以确定一个特征函数表明:“北”后面连接三个字“京大学”,类似的,根据词条“北京”,可以确定另一个特征函数表明:“北”后面连接一个字“京”。
条件随机场是基于特征函数的最大熵原理的概率分布,它是一种有监督的机器学习算法。在训练阶段,它会在确定的训练集上,针对预先设定好的特征函数,计算特征函数在训练集中每个样本上的样本数学期望。又知道条件随机场模型是基于马尔科夫性假设,被约束条件构成的特征函数决定的对数线性模型,它的条件概率计算公式可通过Hammersley-Clifford定理计算推导出来。于是,在给定模型参数后,就可以按照条件概率公式计算得到当前样本和模型参数的前提下的条件概率,以及当前参数下的模型数学期望。由于CRF最优模型的选取方法是极大似然估计,因此可以使用拟牛顿法(BFGS算法完成迭代计算部分)进行梯度下降,可知对于某个特征函数的梯度函数恰为该特征函数的模型数学期望与样本数学期望的差值(该差值可以称为模型样本期望差)。由此可知,模型最终优化的方向即是使得在每个特征函数上,模型数学期望与样本数学期望的差值收敛到0。
然而,如果训练集本身存在一定的噪声,比如,训练集中对于“北京大学”这个词条,有的时候标注结果是合起来的一个词,有的时候是分开的,如“北京大学”。那么对于条件随机场模型,关于这个词条的特征函数,它们的模型样本期望差,一定不会接近0,因为不论模型期望偏向于将该词如何切分,都会在一定情况下,与样本期望结果不一致。因此,在条件随机场模型训练结束的时候,可以对所有的特征函数的模型样本期望差进行从大到小排序,这样就相当于按模型特征函数无法收敛的严重程度进行了排序。
现在还需解决的问题是:有些特征函数,天然的在学习到的模型中,模型样本期望差本身就非常大,比如某些字词在不同情况下与前后字词结合的情况不一样,如“的”这个字:
快乐 的,我 的 东西
的的确确,的士司机
如果把“的”字出现单独看出一个可能的特征函数,它是独立成词还是需要与上下文合并是不确定的。这样的特征函数的“模型样本期望差”往往会非常高,如果排序后挑出的特征函数大部分是诸如此类的情况,是无法真正找到训练中粒度不一致的问题的。
下面的方法可以很大程度上缓解这个问题:
在条件随机场模型进行模型参数训练时,加入L2正则化参数后,会将一些对于模型预测意义不重要的特征函数的参数变得非常接近0。也就是说,特征函数的模型参数绝对值越小,说明这个特征函数在真正预测时能够起到的贡献也就越小。因此,在对特征函数的“模型样本期望差”进行排序时,将最终学习到的特征函数模型的参数作为一种权重考虑进来,对期望差的结果进行加权综合排序。最终得到的排序结果是把对预测结果影响重要,但是模型本身又无法收敛的这种特征函数由大到小排序。这时,排在前面的特征函数往往对应了训练集中粒度本身不一致的部分,从而,就找出了粒度可能有问题的训练集。
因此,在CRF训练时,可以对训练过程中得到特征函数模型的参数确定为该特征函数的权重,该权重可以用于后续的排序。
第二单元4332,用于计算每个特征函数的模型样本期望差,根据每个特征函数的权重和所述模型样本期望差,确定每个特征函数的加权期望差,并根据所述加权期望差对所述特征函数进行排序;
其中,一个特征函数的模型样本期望差是指该特征函数的模型数学期望与样本数学期望之间的差值。
特征函数的模型数学期望和特征函数的样本数学期望是在CRF模型训练时会涉及的参数,因此,具体计算过程可以参见已有的CRF算法。
在获取到权重以及模型样本期望差后,可以将两者相乘得到加权期望差。
在得到加权期望差后,可以按照加权期望差从大到小的顺序,对特征函数进行排序,其中,一个特征函数的加权期望差越大,该特征函数对应的词条的粒度的不准确性越高。
第三单元4333,用于根据排序后的特征函数,对粒度不同的分词结果进行修正。
可选的,当按照加权期望差从大到小的顺序排序时,所述第三单元4333具体用于:
在样本训练集内,对应粒度不同的分词结果,将排序在前的特征函数对应的词条,统一替换为排序在后的特征函数对应的词条。
其中,一个特征函数的加权期望差越大,该特征函数对应的词条的粒度的不准确性越高,在修正时,将粒度不准确的分词替换为粒度准确的分词,完成对粒度不同的分词结果的降噪处理,得到分词训练集。
可选的,当按照加权期望差从大到小的顺序排序时,所述根据排序后的特征函数,对粒度不同的分词结果进行修正,包括:
在样本训练集内,对应粒度不同的分词结果,将排序在前的特征函数对应的词条,统一替换为排序在后的特征函数对应的词条。
例如,第一个特征函数表明:“北”后面连接三个字“京大学”,第二个特征函数表明:“北”后面连接一个字“京”,如果经过计算,第一个特征函数的加权期望差大于第二个特征函数的加权期望差,则表明“北京大学”的粒度相对于“北京”是不准确的。之后,可以将样本训练集内所有的“北京大学”统一替换为“北京”和“大学”。
在修正后,可以将修正后的样本训练集内的词条组成分词训练集。
另一实施例中,参见图6,所述第二降噪模块433还包括:
第四单元4334,用于判断是否需要继续修正;如果需要,触发重新进行模型训练以及修正;
第五单元4335,用于如果不需要,将修正后的样本训练集内的词条组成分词训练集。
其中,是否需要继续修正可以根据预先条件确定。例如,当在修正后的样本训练集内,剩余的粒度不同的分词结果的数量小于预设值时,不需要继续修正,否则需要继续修正。
通过批量替换的方式,将样本训练集中的词条进行一遍修正,实现了对粒度不同的分词结果的降噪处理。在完成一遍修正后,可以再重新训练CRF模型,反复迭代若干次,使得样本训练集中的词条粒度都趋于统一。
当在样本训练集内,将粒度不准确的词条统一替换为粒度准确的词条后,可以将完成替换的样本训练集内的词条组成分词训练集。
在生成分词训练集后,可以采用该分词训练集进行分词模型训练,得到分词模型,在分词处理时,可以采用该分词模型。进一步的,在语音合成时,由于分词是语音合成的基础,可以采用基于该分词模型的分词处理流程。由于本实施例的分词训练集准确度高,从而可以提升分词处理以及语音合成等的效果。
本实施例中,通过对训练语料进行分词,并根据分词结果得到分词训练集,可以实现分词训练集的自动生成,避免人工标注,降低分词训练集生成的时间和花费,实现成本降低及效果提高。具体的,本实施例的时间成本非常低,在50万语料规模的训练集上只需花费一天左右的时间就可完成一次迭代。训练集的分词粒度可根据需要自行控制,适用于不同的应用问题。经验证,这样实现的分词器性能优于基于词表分词器,召回率可提高约6个百分点。通过提升分词性能,也可以提升语音合成系统整体的性能,改善了用户在使用tts时的主观体验感受。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修正、替换和变型。
Claims (12)
1.一种分词训练集的生成方法,其特征在于,包括:
获取训练语料,并采用不同的分词器分别对相同的训练语料进行分词,得到对应不同分词器的分词结果;
将所述分词结果划分为精确匹配的分词结果和非精确匹配的分词结果;
根据所述分词结果,对所述非精确匹配的分词结果进行降噪处理,得到分词训练集。
2.根据权利要求1所述的方法,其特征在于,所述非精确匹配的分词结果包括:粒度不同的分词结果和歧义错误的分词结果,所述根据所述分词结果,对所述非精确匹配的分词结果进行降噪处理,得到分词训练集,包括:
在获取的训练语料中,删除歧义错误的分词结果对应的训练语料,得到保留的训练语料,并获取所述保留的训练语料对应的分词结果;
在所述保留的训练语料对应的分词结果中,选择样本词条,并由所述样本词条组成样本训练集;
在所述样本训练集内,对粒度不同的分词结果进行降噪处理,得到分词训练集。
3.根据权利要求2所述的方法,其特征在于,所述在所述样本训练集内,对粒度不同的分词结果进行降噪处理,得到分词训练集,包括:
对所述样本训练集进行模型训练,生成多个特征函数,并获取每个特征函数的权重;
计算每个特征函数的模型样本期望差,根据每个特征函数的权重和所述模型样本期望差,确定每个特征函数的加权期望差,并根据所述加权期望差对所述特征函数进行排序;
根据排序后的特征函数,对粒度不同的分词结果进行修正。
4.根据权利要求3所述的方法,其特征在于,所述在所述样本训练集内,对粒度不同的分词结果进行降噪处理,得到分词训练集,还包括:
判断是否需要继续修正;
如果需要,重新进行模型训练以及修正;
如果不需要,将修正后的样本训练集内的词条组成分词训练集。
5.根据权利要求3或4所述的方法,其特征在于,当按照加权期望差从大到小的顺序排序时,所述根据排序后的特征函数,对粒度不同的分词结果进行修正,包括:
在样本训练集内,对应粒度不同的分词结果,将排序在前的特征函数对应的词条,统一替换为排序在后的特征函数对应的词条。
6.根据权利要求2所述的方法,其特征在于,所述在所述保留的训练语料对应的分词结果中,选择样本词条,包括:
在所述保留的训练语料对应的分词结果中,选择出现频率大于预设值的词条,确定为样本词条。
7.一种分词训练集的生成装置,其特征在于,包括:
分词模块,用于获取训练语料,并采用不同的分词器分别对相同的训练语料进行分词,得到对应不同分词器的分词结果;
划分模块,用于将所述分词结果划分为精确匹配的分词结果和非精确匹配的分词结果;
生成模块,用于根据所述分词结果,对所述非精确匹配的分词结果进行降噪处理,得到分词训练集。
8.根据权利要求7所述的装置,其特征在于,所述非精确匹配的分词结果包括:粒度不同的分词结果和歧义错误的分词结果,所述生成模块包括:
第一降噪模块,用于在获取的训练语料中,删除歧义错误的分词结果对应的训练语料,得到保留的训练语料,并获取所述保留的训练语料对应的分词结果;
选择模块,用于在所述保留的训练语料对应的分词结果中,选择样本词条,并由所述样本词条组成样本训练集;
第二降噪模块,用于在所述样本训练集内,对粒度不同的分词结果进行降噪处理,得到分词训练集。
9.根据权利要求8所述的装置,其特征在于,所述第二降噪模块包括:
第一单元,用于对所述样本训练集进行模型训练,生成多个特征函数,并获取每个特征函数的权重;
第二单元,用于计算每个特征函数的模型样本期望差,根据每个特征函数的权重和所述模型样本期望差,确定每个特征函数的加权期望差,并根据所述加权期望差对所述特征函数进行排序;
第三单元,用于根据排序后的特征函数,对粒度不同的分词结果进行修正。
10.根据权利要求9所述的装置,其特征在于,所述第二降噪模块还包括:
第四单元,用于判断是否需要继续修正;如果需要,触发重新进行模型训练以及修正;
第五单元,用于如果不需要,将修正后的样本训练集内的词条组成分词训练集。
11.根据权利要求9或10所述的装置,其特征在于,当按照加权期望差从大到小的顺序排序时,所述第三单元具体用于:
在样本训练集内,对应粒度不同的分词结果,将排序在前的特征函数对应的词条,统一替换为排序在后的特征函数对应的词条。
12.根据权利要求8所述的装置,其特征在于,所述选择模块具体用于:
在所述保留的训练语料对应的分词结果中,选择出现频率大于预设值的词条,确定为样本词条。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510329109.4A CN104866472B (zh) | 2015-06-15 | 2015-06-15 | 分词训练集的生成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510329109.4A CN104866472B (zh) | 2015-06-15 | 2015-06-15 | 分词训练集的生成方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104866472A true CN104866472A (zh) | 2015-08-26 |
CN104866472B CN104866472B (zh) | 2017-10-27 |
Family
ID=53912311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510329109.4A Active CN104866472B (zh) | 2015-06-15 | 2015-06-15 | 分词训练集的生成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104866472B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202056A (zh) * | 2016-07-26 | 2016-12-07 | 北京智能管家科技有限公司 | 中文分词场景库更新方法和系统 |
CN106681980A (zh) * | 2015-11-05 | 2017-05-17 | 中国移动通信集团公司 | 一种垃圾短信分析方法和装置 |
WO2017177809A1 (zh) * | 2016-04-12 | 2017-10-19 | 华为技术有限公司 | 语言文本的分词方法和系统 |
CN107424612A (zh) * | 2017-07-28 | 2017-12-01 | 北京搜狗科技发展有限公司 | 处理方法、装置和机器可读介质 |
CN107832307A (zh) * | 2017-11-28 | 2018-03-23 | 南京理工大学 | 基于无向图与单层神经网络的中文分词方法 |
CN108038108A (zh) * | 2017-12-27 | 2018-05-15 | 东软集团股份有限公司 | 分词模型训练方法和装置、及存储介质 |
CN108536675A (zh) * | 2018-03-22 | 2018-09-14 | 北京云知声信息技术有限公司 | 异常分词的处理方法及系统 |
CN108694164A (zh) * | 2017-04-10 | 2018-10-23 | 普天信息技术有限公司 | 一种分词训练方法及装置 |
CN108960046A (zh) * | 2018-05-23 | 2018-12-07 | 北京图森未来科技有限公司 | 一种训练数据采样方法及其装置、计算机服务器 |
CN111339759A (zh) * | 2020-02-21 | 2020-06-26 | 北京百度网讯科技有限公司 | 领域要素识别模型训练方法、装置及电子设备 |
CN111461306A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 特征评估的方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021838A (zh) * | 2007-03-02 | 2007-08-22 | 华为技术有限公司 | 文本处理方法和系统 |
CN101261623A (zh) * | 2007-03-07 | 2008-09-10 | 国际商业机器公司 | 基于搜索的无词边界标记语言的分词方法以及装置 |
CN101719122A (zh) * | 2009-12-04 | 2010-06-02 | 中国人民解放军信息工程大学 | 一种从文本数据中提取中文命名实体的方法 |
CN102402502A (zh) * | 2011-11-24 | 2012-04-04 | 北京趣拿信息技术有限公司 | 用于搜索引擎的分词处理方法和装置 |
CN104142960A (zh) * | 2013-05-10 | 2014-11-12 | 上海普华诚信信息技术有限公司 | 互联网数据分析系统 |
-
2015
- 2015-06-15 CN CN201510329109.4A patent/CN104866472B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021838A (zh) * | 2007-03-02 | 2007-08-22 | 华为技术有限公司 | 文本处理方法和系统 |
CN101261623A (zh) * | 2007-03-07 | 2008-09-10 | 国际商业机器公司 | 基于搜索的无词边界标记语言的分词方法以及装置 |
CN101719122A (zh) * | 2009-12-04 | 2010-06-02 | 中国人民解放军信息工程大学 | 一种从文本数据中提取中文命名实体的方法 |
CN102402502A (zh) * | 2011-11-24 | 2012-04-04 | 北京趣拿信息技术有限公司 | 用于搜索引擎的分词处理方法和装置 |
CN104142960A (zh) * | 2013-05-10 | 2014-11-12 | 上海普华诚信信息技术有限公司 | 互联网数据分析系统 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106681980B (zh) * | 2015-11-05 | 2019-06-28 | 中国移动通信集团公司 | 一种垃圾短信分析方法和装置 |
CN106681980A (zh) * | 2015-11-05 | 2017-05-17 | 中国移动通信集团公司 | 一种垃圾短信分析方法和装置 |
WO2017177809A1 (zh) * | 2016-04-12 | 2017-10-19 | 华为技术有限公司 | 语言文本的分词方法和系统 |
US10691890B2 (en) | 2016-04-12 | 2020-06-23 | Huawei Technologies Co., Ltd. | Word segmentation method and system for language text |
CN106202056A (zh) * | 2016-07-26 | 2016-12-07 | 北京智能管家科技有限公司 | 中文分词场景库更新方法和系统 |
CN106202056B (zh) * | 2016-07-26 | 2019-01-04 | 北京智能管家科技有限公司 | 中文分词场景库更新方法和系统 |
CN108694164A (zh) * | 2017-04-10 | 2018-10-23 | 普天信息技术有限公司 | 一种分词训练方法及装置 |
CN107424612A (zh) * | 2017-07-28 | 2017-12-01 | 北京搜狗科技发展有限公司 | 处理方法、装置和机器可读介质 |
CN107832307A (zh) * | 2017-11-28 | 2018-03-23 | 南京理工大学 | 基于无向图与单层神经网络的中文分词方法 |
CN107832307B (zh) * | 2017-11-28 | 2021-02-23 | 南京理工大学 | 基于无向图与单层神经网络的中文分词方法 |
CN108038108A (zh) * | 2017-12-27 | 2018-05-15 | 东软集团股份有限公司 | 分词模型训练方法和装置、及存储介质 |
CN108536675A (zh) * | 2018-03-22 | 2018-09-14 | 北京云知声信息技术有限公司 | 异常分词的处理方法及系统 |
CN108536675B (zh) * | 2018-03-22 | 2021-09-03 | 云知声智能科技股份有限公司 | 异常分词的处理方法及系统 |
CN108960046A (zh) * | 2018-05-23 | 2018-12-07 | 北京图森未来科技有限公司 | 一种训练数据采样方法及其装置、计算机服务器 |
US11068719B2 (en) | 2018-05-23 | 2021-07-20 | Tusimple, Inc. | Method and apparatus for sampling training data and computer server |
US11631249B2 (en) | 2018-05-23 | 2023-04-18 | Beijing Tusen Zhitu Technology Co., Ltd. | Method and apparatus for sampling training data and computer server |
CN111339759A (zh) * | 2020-02-21 | 2020-06-26 | 北京百度网讯科技有限公司 | 领域要素识别模型训练方法、装置及电子设备 |
CN111339759B (zh) * | 2020-02-21 | 2023-07-25 | 北京百度网讯科技有限公司 | 领域要素识别模型训练方法、装置及电子设备 |
CN111461306A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 特征评估的方法及装置 |
CN111461306B (zh) * | 2020-03-31 | 2023-04-18 | 北京百度网讯科技有限公司 | 特征评估的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104866472B (zh) | 2017-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104866472A (zh) | 分词训练集的生成方法和装置 | |
CN112270379B (zh) | 分类模型的训练方法、样本分类方法、装置和设备 | |
CN110366734B (zh) | 优化神经网络架构 | |
CN109933656B (zh) | 舆情极性预测方法、装置、计算机设备及存储介质 | |
US20220092416A1 (en) | Neural architecture search through a graph search space | |
CN108052499B (zh) | 基于人工智能的文本纠错方法、装置及计算机可读介质 | |
CN107943847A (zh) | 企业关系提取方法、装置及存储介质 | |
US11803731B2 (en) | Neural architecture search with weight sharing | |
US20190317986A1 (en) | Annotated text data expanding method, annotated text data expanding computer-readable storage medium, annotated text data expanding device, and text classification model training method | |
CN112529153A (zh) | 基于卷积神经网络的bert模型的微调方法及装置 | |
AU2019204399A1 (en) | A neural dialog state tracker for spoken dialog systems using dynamic memory networks | |
CN101470732A (zh) | 一种辅助词库的生成方法和装置 | |
JP7293729B2 (ja) | 学習装置、情報出力装置、及びプログラム | |
CN110390017A (zh) | 基于注意力门控卷积网络的目标情感分析方法及系统 | |
CN111738002A (zh) | 基于Lattice LSTM的古文领域命名实体识别方法和系统 | |
JP6743942B2 (ja) | 語彙テーブルの選択方法、装置およびコンピュータ読み取り可能な記憶媒体 | |
CN110414005A (zh) | 意图识别方法、电子设备及存储介质 | |
CN116450813A (zh) | 文本关键信息提取方法、装置、设备以及计算机存储介质 | |
CN117709355B (zh) | 一种提高大语言模型训练效果的方法、装置及介质 | |
Lee et al. | An unsupervised approach to user simulation: toward self-improving dialog systems | |
CN104750484A (zh) | 一种基于最大熵模型的代码摘要生成方法 | |
CN114239589A (zh) | 语义理解模型的鲁棒性评估方法、装置及计算机设备 | |
US12020593B2 (en) | Automated evaluation of free-form answers and generation of actionable feedback to multidimensional reasoning questions | |
CN116738323B (zh) | 铁路信号设备的故障诊断方法、装置、设备及介质 | |
CN114997190A (zh) | 机器翻译方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |