CN109145282B

CN109145282B - 断句模型训练方法、断句方法、装置及计算机设备

Info

Publication number: CN109145282B
Application number: CN201710458473.XA
Authority: CN
Inventors: 谢瑜; 张昊; 王浩
Original assignee: Guizhou Xiaoai Robot Technology Co ltd
Current assignee: Guizhou Xiaoai Robot Technology Co ltd
Priority date: 2017-06-16
Filing date: 2017-06-16
Publication date: 2023-11-07
Anticipated expiration: 2037-06-16
Also published as: CN109145282A

Abstract

本发明提供一种断句模型训练方法、断句方法、装置及计算机设备，文本断句模型建立的方法包括：利用条件随机场算法，基于词的特征信息对带有特征信息的训练语料的分词结果进行训练，以得到文本断句模型；运用文本断句模型对测试数据进行断句，得到断句结果；基于断句结果和测试停顿信息计算断句结果的准确率；确定断句结果的准确率小于准确率阈值，则调整条件随机场算法的特征信息次数阈值参数和/或拟合参数，使调整后训练得到的文本断句模型对训练语料进行断句的断句结果的准确率大于或等于准确率阈值，则将调整后训练得到的文本断句模型作为最终的文本断句模型。对应上述方法，本发明还提供一种断句方法、装置及计算机设备。

Description

断句模型训练方法、断句方法、装置及计算机设备

技术领域

本发明涉及智能交互技术领域，尤其涉及一种断句模型训练方法、断句方法、装置及计算机设备。

背景技术

目前，通过语音的方式进行通信交互越来越普遍，而将语音内容通过文字文本形式保存下来后，保存的文本通常没有标点符号，甚至没有间断信息的，这就对保存下来的文本进行阅读和理解提供了障碍。

发明内容

本发明提供一种断句模型训练方法、断句方法、装置及计算机设备，能够更加准确地对没有停顿信息的数据进行断句。

根据上述目的，本发明提供一种断句模型训练方法，所述方法包括：利用条件随机场算法，基于所述词的特征信息对带有特征信息的训练语料的分词结果进行训练，以得到所述文本断句模型，所述特征信息包括训练停顿信息；

运用所述文本断句模型对测试数据进行断句，得到断句结果，其中，所述训练语料中包括测试停顿信息；

基于所述断句结果和所述测试停顿信息计算所述断句结果的准确率；

确定所述断句结果的准确率小于准确率阈值，则调整所述条件随机场算法的特征信息次数阈值参数和/或拟合参数，使调整后训练得到的文本断句模型对所述训练语料进行断句的断句结果的准确率大于或等于所述准确率阈值，则将所述调整后训练得到的文本断句模型作为最终的文本断句模型。

本发明还提供一种断句的方法，其特征在于，所述方法包括：

获取待断句文本；

将所述待断句文本输入文本断句模型中，得到断句结果，其中所述文本断句模型为采用上述的一种断句模型训练方法训练得到的。

本发明还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行上述的一种断句模型训练方法。

本发明还提供一种计算机存储介质，所述存储介质中存储有指令，其特征在于，所述指令运行时执行上述的一种断句模型训练方法。

本发明还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行上述的一种断句的方法。

本发明还提供一种计算机存储介质，所述存储介质中存储有指令，其特征在于，所述指令运行时执行上述的一种断句方法。

对应上述方法，本发明还提供一种断句模型训练装置，所述装置包括：训练模块，用于利用条件随机场算法，基于所述词的特征信息对带有特征信息的训练语料的分词结果进行训练，以得到所述文本断句模型，所述特征信息包括训练停顿信息；

测试模块，用于运用所述文本断句模型对测试数据进行断句，得到断句结果，其中，所述训练语料中包括测试停顿信息；

准确率计算模块，用于基于所述断句结果和所述测试停顿信息计算所述断句结果的准确率；

参数调整模块，用于确定所述断句结果的准确率小于准确率阈值，则调整所述条件随机场算法的特征信息次数阈值参数和/或拟合参数，使调整后训练得到的文本断句模型对所述训练语料进行断句的断句结果的准确率大于或等于所述准确率阈值，则将所述调整后训练得到的文本断句模型作为最终的文本断句模型。

本发明将条件随机场算法运用到断句模型的训练中，充分运用了条件随机场算法的优点，使得断句模型断句的准确率更高。

附图说明

图1示出了本发明一种断句模型训练方法一个方面的流程图；

图2示出了本发明一种断句模型训练方法另一个方面的流程图；

图3示出了对语音数据进行断句的方法的流程图；

图4示出了本发明一个方面一种断句模型训练装置的机构图。

具体实施方式

为了给无停顿标志的文本添加停顿信息，本发明提供一种断句模型训练方法，采用条件随机场算法对包含有停顿信息的数据进行训练，得到断句模型，利用训练得到的断句模型对无停顿标志的文本进行断句。

在一实施例中，请参看图1，图1示出了本发明一种断句模型训练方法一个方面的流程图，所述方法包括：

步骤101：利用条件随机场算法，基于所述词的特征信息对带有特征信息的训练语料的分词结果进行训练，以得到所述文本断句模型，所述特征信息包括训练停顿信息。

步骤102：运用所述文本断句模型对测试数据进行断句，得到断句结果，其中，所述测试语料中包括测试停顿信息。步骤103：基于所述断句结果和所述测试停顿信息计算所述断句结果的准确率；

步骤104：确定所述断句结果的准确率小于准确率阈值，则调整所述条件随机场算法的特征信息次数阈值参数和/或拟合参数，使调整后训练得到的文本断句模型对所述训练语料进行断句的断句结果的准确率大于或等于所述准确率阈值，则将所述调整后训练得到的文本断句模型作为最终的文本断句模型。

训练语料是至少具有训练停顿信息的文本数据，训练语料中可以具有标点符号，该标点符号即为训练语料的停顿位置符，可以基于标点符号以及基于人工的核对标注训练停顿信息，训练语料中可以不具有标点符号，仅基于人工的核对标注训练停顿信息。训练停顿信息为训练预料中用于训练模型的标准停顿信息。也就是需要用已经具有断句信息的数据，来进行断句模型的训练。找出训练语料中断句信息的规律，进而建立断句模型。

由于不同的领域所使用的语句和词具有一定的规律性，也可以针对不同的领域分别训练该领域对应的断句模型，例如，可以分别对电信客服领域、军事领域、金融领域、科技领域等分别建立不同的断句模型。

由于词是文本组成的基本单位，而一个词语中间不会出现间断信息，步骤101之前，还包括步骤S1011至S1012。S1011：对训练语料进行分词，使得需进行断句的文本转换成对应的词。

词具有很多属性，即特征，例如词性、语义、句子成分(例如主语、谓语、宾语等)等。词的这些属性通常跟该词是否在句子的停顿处具有联系，在通过考虑词的上述属性和各个词之间位置的相互关系，即可得出哪些词应当位于句子的停顿处。

例如一个句子“上海通用日前正式与美国通用签署金额达3.06亿美元的采购协议，用于采购后者的整车及零部件。”停顿处的“协议”和“零部件”都为名词，也就是说有在一定情况下，名词的后面出现停顿信息的可能性很高。

步骤S1012：为词添加特征信息，特征信息包括训练停顿信息。首先考虑，运用训练语料的词已有的训练停顿信息，来进行断句模型的训练，也就是说，找出已有具有训练停顿信息的训练语料对应的词的停顿规律，利用该停顿规律建立断句模型。在得到通过训练语料进行训练的断句模型后，运用测试数据来对得到的断句模型进行测试。也就是利用已知测试语料的测试停顿信息的数据，去测试断句模型的性能。

在一实施例中，步骤104中根据试验经验，在一实施例中，在1至5的数值范围内调整条件随机场算法的特征信息次数阈值参数，在1至3的数值范围内调整条件随机场算法的拟合参数。

在一实施例中，步骤103中在运用文本断句模型对测试数据进行断句时，包括以下步骤：运用文本断句模型对测试数据进行断句，得到多个初级断句结果；运用通过标准断句的语言数据训练得到的n-gram语言模型分别计算每一个初级断句结果的总成句概率，将总成句概率最高的对应的初级断句结果作为断句结果。

由于条件随机场算法是基于概率的，通过其训练出来的断句模型可以按照断句准确的概率的大小输出多个断句结果。

此时再通过标准断句的语言数据训练得到的n-gram语言模型分别计算每一个初级断句结果的总成句概率，将总成句概率最高的对应的初级断句结果作为断句结果。这样就通过多级筛选，来确定最终的断句结果，提高了断句的准确率。

n-gram语言模型基于一种假设，即第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。

步骤103中：具体例如，已知“上海通用日前正式与美国通用签署金额达3.06亿美元的采购协议，用于采购后者的整车及零部件。”的断句信息，将去除标点后的该句，即“上海通用日前正式与美国通用签署金额达3.06亿美元的采购协议用于采购后者的整车及零部件”作为测试数据，输入得到的断句模型，断句模型会输出对该测试数据的断句结果，比对该断句结果和已知的断句结果，即可判断该断句模型的准确率。

可以设定准确率阈值来判断断句模型的准确率是否符合要求，当准确率大于或等于准确率阈值时，即认为断句模型的准确率已经足够高了，可以使用此断句模型进行其他文本的断句。

测试过程可以是多次的，并通过统计学方法来综合衡量各次测试的综合准确率，并判断该综合准确率是否满足要求。

步骤104中其中，特征信息次数阈值参数是指训练语料中词的特征信息构成的相互之间的关系出现的次数阈值。

例如，在考虑“上一个词的词性、当前词的词性和下一个词的词性的组合”这个特征模板进行训练语料的训练时，一种特征信息构成的相互之间的关系为“名词副词名词”，是指训练的当前词为副词，其前面一个词和后面一个词都为名词的这种各个词的特征信息的关系。

拟合参数是指条件随机场算法中的超参数，可以调整过度拟合和不拟合之间的平衡度，拟合参数值越大，条件随机场算法拟合训练数据的程度越高。

在一实施例中，通过语音的输入来测试断句模型。此时，首先要对语音测试数据进行语音识别，将语音数据转换为文本数据即语音数据文本，然后，利用该语音数据文本进行断句模型的测试。

更优地，为语音数据文本添加停顿位置符，由于是测试数据，可以通过人工方式添加停顿位置符，该停顿可以为标点符号。

有了标点符号，即可为语音数据文本添加测试停顿信息，即有标点符号的地方即为停顿的地方。

利用具有停顿信息的文本，即可利用前述方法进行对断句模型断句准确率的测试。测试停顿信息为：测试预料中用于计算短句结果准确率的标准停顿信息。

若利用语音数据进行断句模型的测试，基于所述断句结果和所述测试停顿信息计算所述断句结果的准确率的过程包括：对语音测试数据进行语音识别，得到语音数据文本；对语音数据文本进行分词，得到语音数据文本对应的词；为语音数据文本添加停顿位置符；为所述语音数据文本添加停顿位置符；基于所述停顿位置符，为所述语音数据文本添加测试停顿信息；基于所述断句结果和所述语音数据文本的测试停顿信息，计算所述断句结果的准确率。

在一实施例中，前述的分词操作可以运用分词词典来进行。分词词典中记载了大量的词，将需分词的文本同分词词典中的各个词进行对照，若文本中出现了分词词典中存在的词，则将对应的文字设定为词。

在一实施例中，对训练语料进行新词发现，将得到的新词加入分词词典中。当发现训练语料中具有分词词典中没有的词时，可以通过人工的方式或新词发现方法辨别词，并将词加入分词词典中。

在一实施例中，初级断句结果的总成句概率为该初级断句结果各分句的成句概率之积。

优选的，基于训练语料的训练停顿信息进行断句模型的训练。

优选的，特征信息还包括所述练语料的分词结果的各词的位置信息和所述词的词性信息。

优选的，特征信息还包括句子成分信息。

为所述词添加特征信息的步骤，进一步包括：

为所述词添加句子成分信息。

具体的，可以通过对所述词进行句法分析以为所述词添加句子成分信息。

在一实施例中，所述训练语料为语音训练语料，所述方法还包括：

对所述语音训练数据进行语音识别，得到语音数据文本；

训练所述文本断句模型之前，还包括添加特征信息的步骤，还包括：

为所述语音数据文本添加停顿位置符；

基于所述停顿位置符，为所述语音数据文本添加训练停顿信息。

在一实施例中，将停顿位置符之前第一个训练语料对应的词的训练停顿信息标记为第一标记；将其他词的训练停顿信息标记为第二标记。

例如，对“上海通用日前正式与美国通用签署金额达3.06亿美元的采购协议，用于采购后者的整车及零部件。”分词并添加分词结果中每个词的训练停顿信息的结果如表1所示。

表1分词并添加训练停顿信息

词	训练停顿信息	词	训练停顿信息
				上海通用	S	的	S
日前	S	采购	S
				正式	S	协议	E
与	S	用于	S
				美国	S	采购	S
通用汽车	S	后者	S
				签署	S	的	S
金额	S	整车	S
				达	S	及	S
3.06亿美元	S	零部件	E

其中，S表示该词没有处于文本的停顿处，E表示该词处于句子的停顿处。

更优地，同时考虑词的其他特征信息来训练断句模型，可以预料到，运用的词的特征信息越多，则训练出来的断句模型的准确率越高。

在一实施例中，为词添加的特征信息还包括词的位置信息和词的词性信息。所谓词的位置信息，即前面提到的各个词的位置的相互关系，在前面的例子中，“日前”就在“上海通用”和“正式”的中间。当然，可以根据需要来综合考虑位置信息的范围，例如也可以考虑“美国”之前的词为“与”，之后的词为“通用汽车”，之前的第二个词为“正式”，之后的第二个词为“签署”。位置信息包含的范围越广，则训练得到的断句模型进行断句的准确率就越高。在算所述断句结果的准确率过程中，对测试数据的语音数据文本添加测试停顿信息的方法也可以参照次上述过程执行。

表1中的各个词已经包含了各个词的相互的位置信息，在训练的时候根据需要选择包含的位置信息的范围即可。

在为词添加完词性信息后，带有训练停顿信息和词性信息的分词结果如表2所示。

表2分词并添加训练停顿信息和词性信息

其中，各英文字母组合代表的词性含义如下：

名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习惯用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w，从语料库应用的角度，增加了专有名词(人名nr、地名ns、机构名称nt、其他专有名词nz)。

更优地，同时为词添加句子成分信息。句子成分信息包括主语、谓语、宾语、定语、状语、补语等。

在一实施例中，通过对词进行句法分析以为词添加句子成分信息。

在一实施例中，为词添加语义信息，语义信息由词的本身的含义决定，而该含义可以通过该词的文字表示获得。不同的文字表述可能会有相同的含义，在一实施例中，将具有不同文字表述，但有相同含义的词映射到相同的一个词。

基于词的属性及词的位置信息即可执行步骤103，利用条件随机场算法，对训练语料对应的词进行训练，以得到文本断句模型。在进行模型训练时，是一个词一个词进行训练的。

在针对每个词进行训练时，为了更高效地选择词的属性及词的位置信息的范围，在一实施例中，利用条件随机场算法，根据预设的特征模板提取与所述特征模板相应的所述分词结果及其特征信息，以对所述训练语料进行训练，得到所述文本断句模型，其中，提取的特征信息至少包含训练停顿信息，预设的特征模板用于表示与训练的分词结果中当前词的关系满足预设要求的词及其特征信息。

也就是说，特征模板规定了训练用到的分词结果中的词和词对应的特征信息。在一实施例中，特征模板表示的与训练的当前词满足的关系包括以下信息组合的任一个或多个：当前词的语义信息和当前词的训练停顿信息的组合；当前词的词性信息和当前词的训练停顿信息的组合；上一个词的语义信息、上一个词的训练停顿信息、当前词的语义信息和当前词的训练停顿信息的组合；当前词的语义信息、当前词的训练停顿信息、下一个词的词性信息和下一个词的训练停顿信息的组合；上上一个词的词性信息、上上一个词的训练停顿信息，上一个词的词性信息、上一个词的训练停顿信息、当前词的词性信息和当前词的训练停顿信息的组合；上一个词的词性信息、上一个词的训练停顿信息，当前词的词性信息、当前词的训练停顿信息、下一个词的词性信息和下一个词的训练停顿信息的组合。

其中，所述语义信息为当前词的文本本身来表达或可以分词后根据预设的语义信息匹配方法匹配得到，如匹配预设的词向量、匹配预设的同义词库、匹配预设的近义词库等来表示。所述语义信息可以通过文字、词向量、其所在的预设的同义词库、其所在的预设的近义词库等来表示。

采用上述特征模板，训练用到的词的特征信息不但包括训练停顿信息，还包括所述词的位置信息、所述词的词性信息等。

也就是说，一种特征模板规定只考虑当前词的语义信息进行训练，另一种特征模板规定考虑当前词的词性信息训练，还有模板规定同时考虑上一个词的词性信息、当前词的词性信息和下一个词的词性信息的组合来进行训练等。当然，特征模板不光包含上述列举的内容，各种训练范围都应当包含在本发明的范围内。

下面给出一种特征模板的代码表示方式(特征模板中默认包括需提取的词的训练停顿信息)：

U03:％x[0,0]#当前词语义

U04:％x[0,1]#当前词词性

U05:％x[-1,0]/％x[0,0]#上一个词语义与当前词语义的组合

U06:％x[0,0]/％x[1,1]#当前词语义与下一个词词性的组合

U20:％x[-2,1]/％x[-1,1]/％x[0,1]

#上上一个词的词性、上一个词的词性和当前词词性的组合

U24:％x[-1,1]/％x[0,1]/％x[1,1]

#上一个词的词性、当前词的词性和下一个词的词性的组合

其中，U03:％x[0,0]的代码表示运用当前词的语义信息进行模型的训练，U04:％x[0,1]的代码表示运用当前词的词性信息进行模型的训练，其他代码的含义以此类推。

在进行模型训练时，可以挑选一个特征模板进行训练，也可以同时挑选多个特征模板进行训练，运用的特征模板的个数越多，考虑的词及其对应的特征信息就越多，模型训练的效果越好，训练出来的断句模型的断句准确率也就越高。

为了进一步提高训练的断句模型的准确率，在一实施例中，请参看图2，图2示出了本发明一种断句模型训练方法另一个方面的流程图，所述方法包括：

步骤201：对训练语料进行分词，得到训练语料对应的词；

步骤202：为词添加特征信息，特征信息包括训练停顿信息；

步骤203：利用条件随机场算法，基于词的特征信息对训练语料对应的词进行训练，以得到文本断句模型。

步骤204：运用文本断句模型对测试数据进行断句，得到断句结果；

步骤205：判断所述断句结果的准确率是否大于或等于准确率阈值；若否，则进入步骤206，若是则进入步骤208。

步骤206：调整所述条件随机场算法的特征信息次数阈值参数和/或拟合参数；

步骤207：判断通过特征信息次数阈值参数和/或拟合参数调整后训练得到的文本断句模型对所述训练语料进行断句的断句结果的准确率大于或等于准确率阈值，若否，则返回步骤206，若是则进入步骤208；

步骤208：结束。

请参看图3，图3示出了对语音数据进行断句的方法的流程图。

步骤301：对语音数据进行语音识别，生成语音数据文本；

步骤302：将语音数据文本输入断句模型，得到多个初级断句结果；

步骤303：将多个初级断句结果输入n－gram语言模型，判断各初级断句结果的总成句概率，将总成句概率最高的初级断句结果作为最终断句结果。

由于断句模型是通过条件随机场算法训练获得的，条件随机场算法是基于概率的算法，步骤302中，将语音数据文本输入断句模型，即可得到按照准确率概率从高到低的多个初级断句结果。

本发明还提供一种断句的方法，首先获取待断句文本。

具体的：获取待断句语音数据；

对所述待断句语音数据进行语音识别，将识别结果作为所述待断句文本。

然后将待断句文本输入前述的任一训练得到的断句模型中，即可完成对语音数据的断句。

本发明还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行前述任一的一种断句模型训练方法。

本发明还提供一种计算机存储介质，所述存储介质中存储有指令，所述指令运行时执行前述的任一的一种断句模型训练方法。

对应前述方法，本发明还提供一种断句模型训练装置，请参看图4，图4示出了本发明一个方面一种断句模型训练装置的机构图。

所述装置包括：训练模块401，用于利用条件随机场算法，基于所述词的特征信息对带有特征信息的训练语料的分词结果进行训练，以得到所述文本断句模型，所述特征信息包括训练停顿信息；

测试模块402，用于运用所述文本断句模型对测试数据进行断句，得到断句结果，其中，所述测试语料中包括测试停顿信息；

准确率计算模块403，用于基于所述断句结果和所述测试停顿信息计算所述断句结果的准确率；

参数调整模块404，用于确定所述断句结果的准确率小于准确率阈值，则调整所述条件随机场算法的特征信息次数阈值参数和/或拟合参数，使调整后训练得到的文本断句模型对所述训练语料进行断句的断句结果的准确率大于或等于所述准确率阈值，则将所述调整后训练得到的文本断句模型作为最终的文本断句模型。

由于词是文本组成的基本单位，而一个词语中间不会出现间断信息，对训练语料进行分词，使得需进行断句的文本转换成对应的词。

特征信息包括训练停顿信息。首先考虑，运用训练语料的词已有的训练停顿信息，来进行断句模型的训练，也就是说，找出已有具有训练停顿信息的训练语料对应的词的停顿规律，利用该停顿规律建立断句模型。

在得到通过训练语料进行训练的断句模型后，运用测试数据来对得到的断句模型进行测试。也就是利用已知训练停顿信息的数据，去测试断句模型的性能。

更优地，所述参数调整模块404中：所述调整所述条件随机场算法的特征信息次数阈值参数和/或拟合参数，进一步包括：

在1至5的数值范围内调整所述条件随机场算法的特征信息次数阈值参数，在1至3的数值范围内调整所述条件随机场算法的拟合参数。

在一实施例中，所述测试模块402进一步用于：

运用所述文本断句模型对测试数据进行断句，得到多个初级断句结果；

运用通过标准断句的语言数据训练得到的n-gram语言模型分别计算每一个所述初级断句结果的总成句概率，将总成句概率最高的对应的初级断句结果作为所述断句结果，其中，所述初级断句结果的总成句概率为该初级断句结果各分句的成句概率之积。

上述的测试数据有可能是语音测试数据，在一实施例中，所述测试模块402还包括：

语音识别单元，用于对所述语音测试数据进行语音识别，得到语音数据文本；

断句单元：用于运用所述文本断句模型对所述语音数据文本进行断句，得到断句结果。

识别的语音测试数据可能没有测试停顿信息，在一实施例中，所述准确率计算模块403进一步包括：

停顿符号添加单元，用于为所述语音数据文本添加停顿位置符；

停顿信息添加单元，用于基于所述停顿位置符，为所述语音数据文本添加测试停顿信息；

计算单元，用于基于所述断句结果和所述语音数据文本的测试停顿信息，计算所述断句结果的准确率。

若训练语料为语音数据，则在一实施例中，所述训练语料为语音训练语料，所述装置还包括：

语音识别模块，用于对所述语音训练数据进行语音识别，得到语音数据文本；

第一特征信息添加模块：用于在训练所述文本断句模型之前，为所述语音数据文本添加停顿位置符，基于所述停顿位置符，为所述语音数据文本添加训练停顿信息。

在一实施例中，所述特征信息还包括：所述训练语料的分词结果的各词的位置信息和词性信息。

在一实施例中，所述特征信息包括句子成分信息。句子成分信息包括主语、谓语、宾语、定语、状语、补语等。

更优先的，所述装置还包括第二特征信息添加模块，用于在训练所述文本断句模型之前，通过对所述分词结果进行句法分析以为所述训练语料的分词结果添加句子成分信息。

在针对每个词进行训练时，为了更高效地选择词的属性及词的位置信息的范围，在一实施例中，所述训练模块101进一步用于：

利用条件随机场算法，根据预设的特征模板提取与所述特征模板相应的所述分词结果及其特征信息，以对所述训练语料进行训练，得到所述文本断句模型，其中，提取的特征信息至少包含所述停顿信息，预设的特征模板用于表示与所述分词结果中训练的当前词的关系满足预设要求的词及其特征信息。

优选的，所述特征模板表示的与训练的当前词满足的关系包括以下信息组合的任一个或多个：当前词的语义信息、当前词的训练停顿信息；当前词的词性信息和当前词的训练停顿信息；上一个词的语义信息、上一个词的训练停顿信息、当前词的语义信息和当前词的训练停顿信息；当前词的语义信息、当前词的训练停顿信息、下一个词的词性信息和下一个词的训练停顿信息；上上一个词的词性信息、上上一个词的训练停顿信息，上一个词的词性信息、上一个词的训练停顿信息、当前词的词性信息和当前词的训练停顿信息；上一个词的词性信息、上一个词的训练停顿信息，当前词的词性信息、当前词的训练停顿信息、下一个词的词性信息和下一个词的训练停顿信息。

在一实施例中，所述训练语料中包含停顿位置符，用于标识所述训练语料的训练停顿信息，还包括第三特征信息添加模块，用于在训练所述文本断句模型之前，基于所述训练语料的所述停顿位置符为所述词添加训练停顿信息。

优选的，第三特征信息添加模块进一步用于：

将所述停顿位置符之前第一个所述训练语料对应的所述词的训练停顿信息标记为第一标记；将其他所述词的训练停顿信息标记为第二标记。

在一实施例中，还包括分词模块，用于运用分词词典对所述训练语料进行分词，得到所述训练语料的分词结果。

在一实施例中，还包括新词发现模块，用于对所述训练语料进行新词发现，将得到的新词加入所述分词词典中。

上述一种断句模型训练装置的具体实现方式和技术效果，可以参照上述一种断句模型训练方法的实施例，在此不再赘述。

本发明还提供一种断句的装置，所述装置包括：文本获取模块，用于获取待断句文本；断句模块，用于将所述待断句文本输入文本断句模型中，得到断句结果，其中所述文本断句模型为采用前述的一种断句模型训练方法训练得到的。

在一实施例中，所述文本获取模块，包括：语音获取单元，用于获取待断句语音数据；语音识别单元，用于对所述待断句语音数据进行语音识别，将识别结果作为待断句文本。

本发明还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行前述的一种断句方法。

本发明还提供一种计算机存储介质，所述存储介质中存储有指令，所述指令运行时执行前述的一种断句方法。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此，本公开并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims

1.一种断句模型训练方法，其特征在于，所述方法包括：

利用条件随机场算法，基于词的特征信息对带有特征信息的训练语料的分词结果进行训练，以得到文本断句模型，所述特征信息包括训练停顿信息；

运用所述文本断句模型对测试数据进行断句，得到断句结果，其中，所述训练语料中包括测试停顿信息；所述运用所述文本断句模型对测试数据进行断句的步骤，进一步包括：运用所述文本断句模型对测试数据进行断句，得到多个初级断句结果；运用通过标准断句的语言数据训练得到的n-gram语言模型分别计算每一个所述初级断句结果的总成句概率，将总成句概率最高的对应的初级断句结果作为所述断句结果；

2.如权利要求1所述的方法，其特征在于，所述调整所述条件随机场算法的特征信息次数阈值参数和/或拟合参数的步骤，进一步包括：

3.如权利要求1所述的方法，其特征在于，所述运用所述文本断句模型对测试数据进行断句的步骤，还包括：

所述初级断句结果的总成句概率为该初级断句结果各分句的成句概率之积。

4.如权利要求1所述的方法，其特征在于，所述测试数据为语音测试数据，所述运用所述文本断句模型对测试数据进行断句的步骤，进一步包括：

对所述语音测试数据进行语音识别，得到语音数据文本；

运用所述文本断句模型对所述语音数据文本进行断句，得到断句结果。

5.如权利要求4所述的方法，其特征在于，所述基于所述断句结果和所述测试停顿信息计算所述断句结果的准确率的步骤进一步包括：

为所述语音数据文本添加停顿位置符；

基于所述停顿位置符，为所述语音数据文本添加测试停顿信息；

基于所述断句结果和所述语音数据文本的测试停顿信息，计算所述断句结果的准确率。

6.如权利要求1所述的方法，其特征在于，所述训练语料为语音训练语料，所述方法还包括：

对所述语音训练数据进行语音识别，得到语音数据文本；

为所述语音数据文本添加停顿位置符；

7.如权利要求1所述的方法，其特征在于，所述特征信息还包括：所述训练语料的分词结果的各词的位置信息和词性信息。

8.如权利要求1所述的方法，其特征在于，所述特征信息包括句子成分信息。

9.如权利要求8所述的方法，其特征在于，

通过对所述分词结果进行句法分析以为所述训练语料的分词结果添加句子成分信息。

10.如权利要求1所述的方法，其特征在于，所述训练的步骤进一步包括：

利用条件随机场算法，根据预设的特征模板提取与所述特征模板相应的所述分词结果及其特征信息，以对所述训练语料进行训练，得到所述文本断句模型，其中，提取的特征信息至少包含所述训练停顿信息，预设的特征模板用于表示与所述分词结果中训练的当前词的关系满足预设要求的词及其特征信息。

11.如权利要求10所述的方法，其特征在于，

所述特征模板表示的与训练的当前词满足的关系包括以下信息组合的任一个或多个：当前词的语义信息、当前词的训练停顿信息；当前词的词性信息和当前词的训练停顿信息；上一个词的语义信息、上一个词的训练停顿信息、当前词的语义信息和当前词的训练停顿信息；当前词的语义信息、当前词的训练停顿信息、下一个词的词性信息和下一个词的训练停顿信息；上上一个词的词性信息、上上一个词的训练停顿信息，上一个词的词性信息、上一个词的训练停顿信息、当前词的词性信息和当前词的训练停顿信息；上一个词的词性信息、上一个词的训练停顿信息，当前词的词性信息、当前词的训练停顿信息、下一个词的词性信息和下一个词的训练停顿信息。

12.如权利要求1所述的方法，其特征在于，所述训练语料中包含停顿位置符，用于标识所述训练语料的训练停顿信息，训练所述文本断句模型之前，还包括：基于所述训练语料的所述停顿位置符为所述词添加训练停顿信息。

13.如权利要求12所述的方法，其特征在于，为所述词添加训练停顿信息的步骤进一步包括：

将所述停顿位置符之前第一个所述训练语料对应的所述词的训练停顿信息标记为第一标记；

将其他所述词的训练停顿信息标记为第二标记。

14.如权利要求1所述的方法，其特征在于，所述对训练语料进行分词的步骤，进一步包括：

运用分词词典对所述训练语料进行分词，得到所述训练语料的分词结果。

15.如权利要求14所述的方法，其特征在于，所述方法还包括：

对所述训练语料进行新词发现，将得到的新词加入所述分词词典中。

16.一种断句的方法，其特征在于，所述方法包括：

获取待断句文本；

将所述待断句文本输入文本断句模型中，得到断句结果，其中所述文本断句模型为采用如权利要求1至15任一项所述的一种断句模型训练方法训练得到的。

17.如权利要求16所述的方法，其特征在于，所述获取待断句文本的步骤进一步包括：

获取待断句语音数据；

18.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行如权利要求1至15中任一项所述的一种断句模型训练方法。

19.一种计算机存储介质，所述存储介质中存储有指令，其特征在于，所述指令运行时执行如权利要求1至15中任一项所述的一种断句模型训练方法。

20.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行如权利要求16或17所述的一种断句的方法。

21.一种计算机存储介质，所述存储介质中存储有指令，其特征在于，所述指令运行时执行如权利要求16或17所述的一种断句方法。

22.一种断句模型训练装置，其特征在于，所述装置包括：

训练模块，用于利用条件随机场算法，基于词的特征信息对带有特征信息的训练语料的分词结果进行训练，以得到文本断句模型，所述特征信息包括训练停顿信息；

所述测试模块进一步用于：运用所述文本断句模型对测试数据进行断句，得到多个初级断句结果；运用通过标准断句的语言数据训练得到的n-gram语言模型分别计算每一个所述初级断句结果的总成句概率，将总成句概率最高的对应的初级断句结果作为所述断句结果；

23.如权利要求22所述的装置，其特征在于，所述参数调整模块中：所述调整所述条件随机场算法的特征信息次数阈值参数和/或拟合参数，进一步包括：

24.如权利要求22所述的装置，其特征在于，

所述测试模块还用于：

25.如权利要求22所述的装置，其特征在于，所述测试数据为语音测试数据，所述测试模块还包括：

26.如权利要求25所述的装置，其特征在于，所述准确率计算模块进一步包括：

计算模块，用于基于所述断句结果和所述语音数据文本的测试停顿信息，计算所述断句结果的准确率。

27.如权利要求22所述的装置，其特征在于，所述训练语料为语音训练语料，所述装置还包括：

28.如权利要求22所述的装置，其特征在于，所述特征信息还包括：所述训练语料的分词结果的各词的位置信息和词性信息。

29.如权利要求22所述的装置，其特征在于，所述特征信息包括句子成分信息。

30.如权利要求29所述的装置，其特征在于，还包括第二特征信息添加模块，用于在训练所述文本断句模型之前，通过对所述分词结果进行句法分析以为所述训练语料的分词结果添加句子成分信息。

31.如权利要求22所述的装置，其特征在于，所述训练模块进一步用于：

32.如权利要求31所述的装置，其特征在于，

33.如权利要求22所述的装置，其特征在于，所述训练语料中包含停顿位置符，用于标识所述训练语料的训练停顿信息，训练所述文本断句模型之前，还包括第三特征信息添加模块，用于：基于所述训练语料的所述停顿位置符为所述词添加训练停顿信息。

34.如权利要求33所述的装置，其特征在于，所述第三特征信息添加模块，进一步用于：

将其他所述词的训练停顿信息标记为第二标记。

35.如权利要求22所述的装置，其特征在于，还包括分词模块，用于运用分词词典对所述训练语料进行分词，得到所述训练语料的分词结果。

36.如权利要求35所述的装置，其特征在于，还包括新词发现模块，用于对所述训练语料进行新词发现，将得到的新词加入所述分词词典中。

37.一种断句的装置，其特征在于，所述装置包括：

文本获取模块，用于获取待断句文本；

断句模块，用于将所述待断句文本输入文本断句模型中，得到断句结果，其中所述文本断句模型为采用如权利要求1至15任一项所述的一种断句模型训练方法训练得到的。

38.如权利要求37所述的装置，其特征在于，所述文本获取模块，包括：

语音获取单元，用于获取待断句语音数据；

语音识别单元，用于对所述待断句语音数据进行语音识别，将识别结果作为待断句文本。