CN103971684B

CN103971684B - 一种添加标点的方法、系统及其语言模型建立方法、装置

Info

Publication number: CN103971684B
Application number: CN201310034265.9A
Authority: CN
Inventors: 刘海波; 王尔玉; 张翔; 卢鲤; 岳帅; 刘秋阁; 陈波; 刘荐; 李露
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2013-01-29
Filing date: 2013-01-29
Publication date: 2015-12-09
Anticipated expiration: 2033-01-29
Also published as: CN103971684A; WO2014117553A1

Abstract

本申请公开了一种添加标点的方法、系统及其语言模型建立方法、装置。该方法包括：识别待处理语句中的每个词、以及每个词的语义特征；根据预先设定的特征模板以及待处理语句中包含的每个词和每个词的语义特征，确定待处理语句中出现的所有特征单元；从用于添加标点的语言模型中获取所述所有特征单元中每个特征单元与自身各种标点状态的权重的对应关系；根据所述对应关系确定待处理语句中每个词的标点状态的权重，根据每个词的标点状态的权重确定待处理语句的各种标点状态的综合权重，根据所述综合权重为待处理语句添加标点。应用本发明能够提高添加标点的准确性、或提取出语句所蕴含的信息与语句的标点之间的真实关系。

Description

一种添加标点的方法、系统及其语言模型建立方法、装置

技术领域

本申请涉及信息处理技术领域，尤其涉及一种添加标点的方法、系统及其语言模型建立方法、装置。

背景技术

在通信领域以及互联网领域，在某些应用场景中需要为一些缺少标点的文件添加标点，例如，为语音文件添加标点。

关于为语音文件添加标点，目前存在着一种基于说话人的说话时的静音间隔自动添加标点的方案。

具体地，首先设置静音长短的阈值，如果说话人说话时的静音间隔的长度大于这个阈值，则在这个位置上添加标点，如果不大于所述阈值，则不添加标点。

简单的依靠说话人说话时的间隔阈值大小添加标点可能会过多的造成标点误加，断句错误等，例如，如果说话人说话的速度很快的话，语句之间没有间隔、或者间隔很短以至于小于阈值，那么整段语句中间将不添加任何标点，如果说话人的说话速度很慢，接近一字一顿的情况，那么整段语句将会有很多的标点，这两种情况都会造成标点添加错误，添加标点的准确性较低。

针对基于静音长短的阈值为语音文件添加标点的方案所存在的准确性较低的问题，存在一种基于分字处理以及每个字所处位置来添加标点的改进方案。

在所述改进方案中，首先对语料库中的语句进行分字处理，将待处理语句分成单个字以后，确定每个字在语句中所处的位置，即是处于句子的开始、中间还是结束，并确定每个字后面的标点符号情况，例如有无标点符号等，根据语料库中每个字所处的位置以及每个字后面的标点符号情况建立语言模型，利用建立的语言模型为待处理语句添加标点。

在所述改进方案中，利用单个字在句子中的位置以及单个字后面是否有标点来建立语言模型，由于所利用的信息有限，且所利用的信息与标点状态的关联性不强，因此所建立的语言模型并不能提取出语句所蕴含的信息与语句的标点状态之间的真实关系。

由于所述改进方案中所利用的语言模型没有提取出语句所蕴含的信息与语句的标点状态之间的真实关系，因此导致添加标点的准确性仍然较低。

发明内容

本申请提供了一种添加标点的方法、系统及其语言模型建立方法、装置，能够提高添加标点的准确性、或提取出语句所蕴含的信息与语句的标点之间的真实关系。

一种用于添加标点的语言模型建立方法，该方法包括：

对语料库中的语句进行分词处理，其中，语料库中的语句预先添加了标点；

为所述分词处理后的语句中每个词标注语义特征，所述语义特征包括词性和/或句子成分；根据在所述语句中所述每个词后面的标点状态信息，为所述每个词标注标点状态；

对于标注了语义特征和标点状态的每个词，以所述词在所述语句中的位置作为当前基准位置，依据预先设定的特征模板，从所述语句中提取出特征单元，所述特征单元包括词和词的语义特征，所述预先设定的特征模板用于指示获取与当前基准位置的相对位置关系满足预定要求的词及其语义特征；

对于每个特征单元，当所述语句中每出现一次所述特征单元时，根据本次出现的特征单元中每个词的标点状态，记录该特征单元的标点状态的出现次数；

根据每个特征单元的每种标点状态的出现次数，确定每个特征单元的每种标点状态的权重，建立包括每个特征单元与自身各种标点状态的权重的对应关系的语言模型；

其中，所述语言模型，用于在从缺少标点的语句中搜索出特征单元时，根据查询请求提供所述语言模型中所述特征单元与自身各种标点状态的权重的对应关系，以便根据所述对应关系为缺少标点的语句添加标点。

一种用于添加标点的语言模型建立装置，该装置包括分词模块、特征提取和记录模块、建立模块；

所述分词模块，用于对语料库中的语句进行分词处理，其中，语料库中的语句预先添加了标点；

所述特征提取和记录模块，用于为所述分词处理后的语句中每个词标注语义特征，所述语义特征包括词性和/或句子成分；根据在所述语句中所述每个词后面的标点状态信息，为所述每个词标注标点状态；对于标注了语义特征和标点状态的每个词，以所述词在所述语句中的位置作为当前基准位置，依据预先设定的特征模板，从所述语句中提取出特征单元，所述语义特征包括词性和/或句子成分；所述预先设定的特征模板用于指示获取与当前基准位置的相对位置关系满足预定要求的词及其语义特征；对于每个特征单元，当所述语句中每出现一次所述特征单元时，根据本次出现的特征单元中每个词的标点状态，记录该特征单元的标点状态的出现次数；

所述建立模块，用于根据每个特征单元的每种标点状态的出现次数，确定每个特征单元的每种标点状态的权重，建立包括每个特征单元与自身各种标点状态的权重的对应关系的语言模型；

一种添加标点的方法，该方法包括：

识别待处理语句中的每个词、以及每个词的语义特征；

根据预先设定的特征模板以及待处理语句中包含的每个词和每个词的语义特征，确定待处理语句中出现的所有特征单元，其中，所述特征模板包括获取的词的数量、获取词的语义特征，所述特征单元包括词和词的语义特征；

从上述用于添加标点的语言模型中获取所述所有特征单元中每个特征单元与自身各种标点状态的权重的对应关系；

根据获取的所述对应关系确定待处理语句中每个词的标点状态的权重，根据每个词的标点状态的权重确定待处理语句的各种标点状态的综合权重，根据所述综合权重为待处理语句添加标点，其中，待处理语句的每种标点状态包括该待处理语句中包含的每个词的标点状态。

一种添加标点的系统，该系统包括识别装置、特征单元提取装置、权重获取装置、综合权重确定装置和标点添加装置；

所述识别装置，用于识别待处理语句中的每个词、以及每个词的语义特征；

所述特征提取装置，用于根据预先设定的特征模板以及待处理语句中包含的每个词和每个词的语义特征，确定待处理语句中出现的所有特征单元，其中，所述特征模板包括获取的词的数量、获取词的语义特征，所述特征单元包括词和词的语义特征；

所述权重获取装置，用于从上述用于添加标点的语言模型中获取所述所有特征单元中每个特征单元与自身各种标点状态的权重的对应关系；

所述综合权重确定装置，用于根据获取的所述对应关系确定待处理语句中每个特征单元的标点状态的权重，根据每个特征单元的标点状态的权重确定待处理语句的各种标点状态的综合权重，其中，待处理语句的每种标点状态包括该待处理语句中包含的每个词的标点状态；

所述标点添加装置，用于根据所述综合权重为待处理语句添加标点。

由上述技术方案可见，本发明在建立用于添加标点的语言模型时，对语料库中的语句进行的是分词处理，并根据分词处理后的语句中每个词的语义信息为每个词标注语义特征，根据每个词的所述语义特征，依据预先设定的特征模板生成特征单元，从语料库的语句中搜索每个特征单元，记录每个特征单元出现时该特征单元的标点状态，记录特征单元的每种标点状态的出现次数，其中，特征单元的标点状态包括特征单元中每个词的标点状态，根据每个特征单元的每种标点状态的出现次数，确定每个特征单元的每种标点状态的权重，所建立的用于添加标点的语言模型包括每个特征单元与自身各种标点状态的权重的对应关系。

可见，本发明对语料库中的语句进行的是分词处理而非分字处理，并且进一步利用词在语句中的语义特征，建立词的语义特征与词的标点状态的权重关系，由于词在语句中的语义特征往往与词的标点状态有着较强的关联性，因此，通过建立包含所述权重关系的语言模型，能够提取出语句中所蕴含的信息(即所包含的词和词的语义特征)与语句的标点状态的真实关系。

在为待处理语句添加标点时，通过识别待处理语句中的每个词和每个词的语义特征，根据待处理语句中的词的语义特征从所述语言模型中获取词的语义特征与标点状态的权重关系，根据所述权重关系为待处理语句添加标点，由于在对待处理语句的处理过程中提取出了语句中所蕴含的信息(即语句中所包含的词及其语义特征)，并且所述语言模型中包括语句中所蕴含的信息与语句的标点状态的真实关系，因此，在从待处理语句中提取出该待处理语句中包含的词及其语义特征以后，进一步依据所述语言模型中的权重关系添加标点，能够提高添加标点的准确性。

附图说明

图1是本发明提供的用于添加标点的语言模型建立方法第一流程图。

图2是本发明提供的用于添加标点的语言模型建立方法第二流程图。

图3是本发明提供的用于添加标点的语言模型建立装置结构图。

图4是本发明提供的添加标点的方法流程图。

图5是本发明提供的添加标点的系统组成示意图。

具体实施方式

如图1所示，该第一流程包括：

步骤101，对语料库中的语句进行分词处理，其中，语料库中的语句预先添加了标点。

步骤102，根据分词处理后的语句中每个词的语义特征，依据预先设定的特征模板，搜索所述语料库中出现的特征单元，根据特征单元中的每个词后面的标点状态，记录所述语料库中每个特征单元的每种标点状态的出现次数。

步骤103，根据每个特征单元的每种标点状态的出现次数，确定每个特征单元的每种标点状态的权重，建立包括每个特征单元与自身各种标点状态的权重的对应关系的语言模型。

在图1所示方法的步骤102中，可以采用方法一，即预先标注所述语料库的语句中每个词的语义特征和标点状态，然后再根据预设的特征模板搜索所述语料库中出现的特征单元，并记录每个特征单元的每种标点状态的出现次数。也可以采用方法二，即在根据预先设定的特征模板搜索语料库中出现的特征单元时，实时地识别语句中每个词的语义特征以及每个词后面的标点状态。下面以采用所述方法一实现步骤102为例，对图1所示方法进行进一步的详细介绍，具体请参见图2。

如图2所示，该方法包括：

步骤201，对语料库中的语句进行分词处理，其中，语料库中的语句预先添加了标点。

步骤202，根据分词处理后的语句中的每个词在所述语句中的语义信息，为所述每个词标注语义特征，根据在所述语句中所述每个词后面的标点状态信息，为所述每个词标注标点状态。

步骤203，根据每个词的所述语义特征，依据预先设定的特征模版生成特征单元，所述特征模板包括获取的词的数量、获取词的语义特征，所述特征单元包括词和词的语义特征。

步骤204，从所述语料库的语句中搜索每个特征单元，记录每个特征单元出现时该特征单元的标点状态，记录该特征单元的每种标点状态的出现次数，其中，特征单元的标点状态包括该特征单元中每个词的标点状态。

步骤205，根据每个特征单元的每种标点状态的出现次数，确定每个特征单元的每种标点状态的权重，建立包括每个特征单元与自身各种标点状态的权重的对应关系的语言模型。

其中，所述语言模型，用于在从缺少标点的语句中搜索出特征单元时，根据调用请求返回所述语言模型中所述特征单元与自身各种标点状态的权重的对应关系，以便根据所述对应关系为缺少标点的语句添加标点。

为了提高建立的语言模型的质量，所述语料库中的语句中预先添加的标点的正确率较高，最好都是正确的。

图2所示流程中，步骤203和步骤204可以在一个过程中实现，例如根据预先设定的特征模板从语料库的语句中提取特征单元，如果提取出的特征单元之前没有出现过，则相当于生成一个新的特征单元、且从语料库的语句中搜索到该新的特征单元的次数为1次。

在根据语句中的词的语义特征提取特征单元的基础上，还可以进一步利用词的位置信息，所述词的位置信息是词与当前基准位置的相对位置信息，进而提取的特征单元除了包括词、词的语义特征以外，还包括词与当前基准位置的相对位置信息。

具体地，预先设定的特征模板包括获取的词的数量、获取词的语义特征、获取的词与当前基准位置的相对位置关系需要满足的预定要求，则依据预先设定的特征模板从语句中提取特征单元具体可以包括：

分别以分词处理后的语句中的每个词所处的位置作为当前基准位置，确定出在所述语句中的位置与当前基准位置的相对位置关系满足所述特征模板要求的词，根据所述相对位置关系满足特征模板要求的词的语义特征和相对位置关系信息生成特征单元，所述特征单元还包括词与当前基准位置的相对位置关系。

通过包含相对位置关系要求的特征模板，可以确定词与词之间的关联关系，进而根据所述特征模板提取的特征单元包含了词与词之间的关联关系，所述关联关系通常与标点状态存在联系，因此根据所述特征单元与每种标点状态的权重关系建立的语言模型能够更加准确地反映语句所蕴含的信息与标点状态的关系，进而利用所述语言模型能够提高添加标点的准确性。

根据预先设定的特征模板所要求获取的词的个数，预先设定的特征模板可以包括独词模板和/或多词模板。

其中，所述独词模板包括获取与当前基准位置的相对位置关系满足预定要求的单个词、以及所述单个词的语义特征。

依据独词模板从语句中提取特征单元时，分别以所述语句中的每个词所处的位置作为所述当前基准位置，根据所述独词特征模板确定与当前基准位置的相对位置关系满足所述独词特征模板要求的单个词，根据该单个词的语义特征确定待处理语句中出现的独词特征单元，所述独词特征单元包括所述单个词、所述单个词的语义特征以及所述单个词的位置与当前基准位置的相对位置关系。

所述多词模板包括获取分别与当前基准位置的相对位置关系满足预定要求的多个词、以及所述多个词中每个词的语义特征。

依据多词模板从语句中提取特征单元时，分别以所述语句中的每个词所处的位置作为所述当前基准位置，根据所述多词特征模板确定与当前基准位置的相对位置关系满足所述多词特征模板的相对位置关系要求的多个词，根据该多个词中每个词的语义特征确定待处理语句中出现的多词特征单元，所述多词特征单元包括所述多个词、所述多个词中每个词的语义特征、以及每个词的位置与所述当前基准位置的相对位置关系。

其中，通过对独词模板中与当前基准位置的相对位置关系的要求进行修改，可以获得不同种类的独词模板，例如用于获取当前基准位置的词及其语义特征的独词模板(可以记为模板T00)、用于获取当前基准位置的前一位置上的词及其语义特征的独词模板(可以记为模板T01)、用于获取当前基准位置的后一位置上的词及其语义特征的独词模板(可以记为模板T02)。

通过对多词模板中与当前基准位置的相对位置关系的要求进行修改，也可以获得不同种类的多词模板，例如，用于获取当前基准位置的前一位置、当前基准位置、当前基准位置的后一位置上的词及其语义特征的多词模板(可以记为模板T05)，用于获取当前基准位置的前两个位置以及当前基准位置上的词及其语义特征的多词模板(可以记为模板T06)。

一个多词模板要求获取的词的个数越多，词之间的关联性越强，进而利用建立的语言模型添加标点的准确性越高，模板的种类越多，对语句中出现的语义特征与标点状态的关联关系的考虑越全面，进而建立的语言模型添加标点的准确性越高。当然，模板的种类越多、一个多词模板要求获取的词的个数越多，建立语言模型所需要的计算量越大，所述语言模型的规模越大，利用建立的语言模型添加标点的信息处理量也越大。

在步骤205中，根据每个特征单元的每种标点状态的出现次数，确定每个特征单元的每种标点状态的权重时，为了便于操作，可以为每个特征单元赋予标识(ID)，建立的语言模型包括特征单元ID、该ID对应的特征单元、以及所述特征单元的各种标点状态的权重信息。

本发明中，词的语义特征可以包括但不限于该词在当前语句中的词性和/或在当前语句中充当的句子成分。

下面举一个具体的例子，对图2所示语言模型建立方法进行示例性介绍。

在该例子中，假设语料库中包括如下的语句：今天天气不错，我们下午去打球，然后去吃饭。

在利用图2所示方法建立语言模型时，需要执行如下步骤：

步骤1，对所述语句进行分词。

对语句“今天天气不错，我们下午去打球，然后去吃饭。”进行分词处理后得到的词包括：今天、天气、不错、我们、下午、去、打球、然后、去、吃饭。

步骤2，对分词处理后的语句中的每个词进行语义特征标注和标点状态标注。

作为示例性地，所述语义特征包括词性和句子成分，则对所述语句进行标注后的结果参见表一：

表一

步骤3，根据步骤2的标注结果，依据预先设定的特征模板，从所述语句中提取特征单元，为提取的特征单元分配ID，并记录特征单元的每种标点状态的出现次数，其中，所述特征单元包括词和词的语义特征。

本步骤中，假设预先设定的特征模板包括独词模板T00、T01、T02和多词模板T05，独词模板T00用于获取当前基准位置的词及其语义特征，独词模板T01用于获取当前基准位置的前一位置上的词及其语义特征，独词模板T02用于获取当前基准位置的后一位置上的词及其语义特征，多词模板T05用于获取当前基准位置的前一位置、当前基准位置、当前基准位置的后一位置上的词及其语义特征。

以步骤2标注后的语句中的每个词所在的位置为当前位置，根据独词模板T00、T01、T02和多词模板T05提取特征单元。

比如，当以“天气”所在的位置为当前基准位置时，根据模板T00得到的特征单元包括“今天”、以及“今天”的语义特征(即名词和状语)，根据模板T01得到的特征单元包括“天气”、以及“天气”的语义特征(即名词和主语)，根据模板T02得到的特征单元包括“不错”、以及“不错”的语义特征(即形容词和谓语)，根据模板T05得到的特征单元包括“今天”、以及“今天”的语义特征(即名词和状语)、“天气”、以及“天气”的语义特征(即名词和主语)“不错”、以及“不错”的语义特征(即形容词和谓语)。

其中，特征单元中的每个词与当前基准位置的相对位置信息，可以以显式方式存储在特征单元中，也可以根据每种模板对应的ID范围、通过为特征单元赋予相应范围内的ID等隐式方式进行存储。

当根据特征模板提取特征单元时，如果特征模板要求的某个相对位置上没有词，则可以采用约定方式表示无词，比如采用约定字符或字符串表示无词。例如所述语句中的“今天”前面没有词，当以“今天”所在的位置为当前基准位置，根据模板T00或T05提取特征单元时，需要采用约定的方式表示“今天”的前一位置无词。

提取出特征单元以后，通过为特征单元赋予不同的ID，来区分包括不同内容的特征单元。所述ID的赋予方式有多种，例如可以根据特征单元包含的内容生成的哈希值作为所述特征单元的ID。

对于每个特征单元，当语料库中的语句中每出现一次所述特征单元时，根据本次出现的特征单元中每个词的标点状态，记录该特征单元的标点状态的出现次数。其中，特征单元的标点状态包括特征单元中每个词的标点状态，换言之，当特征单元包含多个词时，特征单元的标点状态是由所述多个词的标点状态组合而成的，其中任意一个词的标点状态发生改变，则所述包含多个词的特征单元的标点状态也发送了改变。比如，一个特征单元包括三个词，三个词的标点状态分别为“无”、“无”和“逗号”时，该特征单元的标点状态时“无”、“无”和“逗号”的组合，当第三个词的标点状态变为“无”时，则该特征单元的标点状态变为另一种标点状态，即变为“无”、“无”和“无”。

通过步骤2和3可以看出本发明采用分词处理而非分字处理的好处：只有词语才具有明确的语义特征，单个字一般无法具备明确的语义特征，因此分词处理也为步骤2做了准备工作；另外，由于在特征提取的过程中，常常会用到语句中包含的上下文信息，词语的上下文仍然是词语，通过词语之间的关联关系能够更明确地体现出语义特征的联系，相互关联的语义特征与标点状态的关联关系通常也较强，因此，基于分词以及分词后的上下文关联关系提取的特征单元，能够较为准确地提取出语句中蕴含的语义信息与标点状态的关联关系。

步骤4，根据步骤3提取的特征单元，以及特征单元的每种标点状态的出现次数，确定每个特征单元的每种标点状态的权重，建立包括每个特征单元与自身各种标点状态的权重的对应关系的语言模型。

其中，具体可以通过迭代优化算法确定每个特征单元的每种标点状态的权重。

其中，可以采用的迭代优化算法有很多，例如牛顿迭代算法，BFGS(Large-scaleBound-constrainedOptimization)迭代算法，L-BFGS(SoftwareforLarge-scaleBound-constrainedOptimization)迭代算法，OWL-QN(Orthant-WiseLimited-memoryQuasi-Newton)迭代算法等。优选地，可以采用L-BFGS迭代算法，因为L-BFGS迭代算法具有迭代速度快的优点，能够提高语言模型的建立速度。

通过上述步骤1-步骤4，最终建立的语言模型包括每个特征单元与该特征单元自身的各种标点状态的权重的对应关系，其中，每个特征单元还具有一个区别于其他特征单元的ID，通过所述ID能够检索到所述特征单元与自身的各种标点状态的权重的对应关系。

根据图1所示建立语言模型的方法，本发明还提供了一种建立语言模型的装置，具体请参加图3。

如图3所示，该装置包括分词模块301、特征提取和记录模块302、建立模块303。

分词模块301，用于对语料库中的语句进行分词处理，其中，语料库中的语句预先添加了标点。

特征提取和记录模块302，用于根据分词处理后的语句中每个词的语义特征，依据预先设定的特征模板，搜索所述语料库中出现的特征单元，根据特征单元中的每个词后面的标点状态，记录所述语料库中每个特征单元的每种标点状态的出现次数。

建立模块303，用于根据每个特征单元的每种标点状态的出现次数，确定每个特征单元的每种标点状态的权重，建立包括每个特征单元与自身各种标点状态的权重的对应关系的语言模型。

图3所示装置还可以进一步包括标注模块。

所述标注模块，用于根据分词处理后的语句中的每个词在所述语句中的语义信息，为所述每个词标注语义特征，根据在所述语句中所述每个词后面的标点状态信息，为所述每个词标注标点状态。

特征提取和记录模块302，用于根据每个词的所述语义特征，依据预先设定的特征模版生成特征单元，所述特征模板包括获取的词的数量、获取词的语义特征，所述特征单元包括词和词的语义特征，从所述语料库的语句中搜索每个特征单元，记录每个特征单元出现时该特征单元的标点状态，记录该特征单元的每种标点状态的出现次数，其中，特征单元的标点状态包括该特征单元中每个词的标点状态。

所述预先设定的特征模板还可以包括获取与当前基准位置的相对位置关系满足预定要求的词。

特征提取和记录模块302，用于分别以分词处理后的语句中的每个词作为当前基准位置，确定出在所述语句中的位置与当前基准位置的相对位置关系满足所述特征模板要求的词，根据所述相对位置关系满足特征模板要求的词的语义特征和相对位置关系信息生成特征单元，所述特征单元还包括词与当前基准位置的相对位置关系。

所述预先设定的特征模板可以包括独词模板，所述独词模板包括获取与当前基准位置的相对位置关系满足预定要求的单个词、以及所述单个词的语义特征。

特征提取和记录模块302，用于分别以所述语句中的每个词所处的位置作为所述当前基准位置，根据所述独词特征模板确定与当前基准位置的相对位置关系满足所述独词特征模板要求的单个词，根据该单个词的语义特征确定待处理语句中出现的独词特征单元，所述独词特征单元包括所述单个词、所述单个词的语义特征以及所述单个词的位置与当前基准位置的相对位置关系。

和/或，所述预先设定的特征模板可以包括多词模板，所述多词模板包括获取分别与当前基准位置的相对位置关系满足预定要求的多个词、以及所述多个词中每个词的语义特征。

特征提取和记录模块302，用于分别以所述语句中的每个词所处的位置作为所述当前基准位置，根据所述多词特征模板确定与当前基准位置的相对位置关系满足所述多词特征模板的相对位置关系要求的多个词，根据该多个词中每个词的语义特征确定待处理语句中出现的多词特征单元，所述多词特征单元包括所述多个词、所述多个词中每个词的语义特征、以及每个词的位置与所述当前基准位置的相对位置关系。

建立了本发明所述的用于添加标点的语言模型以后，可以根据所述语言模型为待处理语句添加标点，下面结合附图4和附图5对添加标点的方法和系统进行详细介绍。

其中，本发明所述的用于添加标点的语言模型包括每个特征单元与自身各种标点状态的权重的对应关系，能够根据查询请求提供相应特征单元与自身各种标点状态的权重的对应关系，本发明所述添加标点的方法和系统对所述用于添加标点的语言模型的具体建立方法不做限定。

图4是本发明提供的添加标点的方法流程图。

如图4所示，该方法包括：

步骤401，识别待处理语句中的每个词、以及每个词的语义特征。

步骤402，根据预先设定的特征模板以及待处理语句中包含的每个词和每个词的语义特征，确定待处理语句中出现的所有特征单元。

其中，所述特征模板包括获取的词的数量、获取词的语义特征，所述特征单元包括词和词的语义特征。

步骤403，从用于添加标点的语言模型中获取所述所有特征单元中每个特征单元与自身各种标点状态的权重的对应关系。

步骤404，根据获取的所述对应关系确定待处理语句中每个词的标点状态的权重，根据每个词的标点状态的权重确定待处理语句的各种标点状态的综合权重。

其中，待处理语句的每种标点状态包括该待处理语句中包含的每个词的标点状态。

步骤405，根据所述综合权重为待处理语句添加标点。

本步骤中，选出综合权重最大的待处理语句标点状态，根据选出的标点状态为待处理语句添加标点。

其中，在步骤404中，根据获取的特征单元与自身各种标点状态的权重的对应关系，可以确定待处理语句中每个词的标点状态的权重。具体可以采用多种方法确定待处理语句中每个词的标点状态的权重，本发明对此不做限定。例如，可以根据所述对应关系采用映射函数的方法确定待处理语句中每个词的标点状态的权重，具体地，对于待处理语句中当前位置上的词，确定包含该当前位置上的词的所有特征单元，获取包含当前位置上的词的所有特征单元中的每个特征单元与该个特征单元自身的各种标点状态的权重对应关系，按照预设的映射函数，确定所述当前位置上的词的各种标点状态的权重。其中，当同一内容的词处于待处理语句中的不同位置时，相当于不同的词，因此其所在的特征单元也会有所不同，进而其标点状态也会有所不同。

在步骤404中，所述待处理语句的标点状态包括了该待处理语句中的每个词的标点状态，相当于该待处理语句中所有词的标点状态的组合，因此可以通过最优路径算法确定待处理语句的各种标点状态的综合权重，例如通过维特比(viterbi)算法确定出该待处理语句中所有词的标点状态的最佳组合方式，即确定出最优路径，该最佳组合方式的综合权重最高。

图4所示方法中，所述特征模板还可以包括获取与当前基准位置的相对位置关系满足预定要求的词，所述特征单元还包括词与当前基准位置的相对位置关系。

所述确定待处理语句中出现的所有特征单元包括：

分别以待处理语句中的每个词所处的位置作为当前基准位置，根据所述特征模板确定与当前基准位置的相对位置关系满足所述特征模板要求的词，根据该词的语义特征确定待处理语句中出现的特征单元。

所述确定待处理语句中出现的所有特征单元可以包括：

分别以待处理语句中的每个词所处的位置作为当前基准位置，根据所述独词特征模板确定与当前基准位置的相对位置关系满足所述独词特征模板要求的单个词，根据该单个词的语义特征确定待处理语句中出现的独词特征单元，所述独词特征单元包括所述单个词、所述单个词的语义特征以及所述单个词的位置与当前基准位置的相对位置关系。

所述确定待处理语句中出现的所有特征单元可以包括：

分别以待处理语句中的每个词所处的位置作为当前基准位置，根据所述多词特征模板确定与当前基准位置的相对位置关系满足所述多词特征模板的相对位置关系要求的多个词，根据该多个词中每个词的语义特征确定待处理语句中出现的多词特征单元，所述多词特征单元包括所述多个词、所述多个词中每个词的语义特征、以及每个词的位置与所述当前基准位置的相对位置关系。

图4所示方法中，在从用于添加标点的语言模型中获取所述所有特征单元中每个特征单元与自身各种标点状态的权重的对应关系时，可以向用于添加标点的语言引擎发送携带有特征单元的标识(ID)的查询请求，根据所述特征单元的ID从所述用于添加标点的语言模型中获取相应特征单元与自身各种标点状态的权重的对应关系，其中，所述用于添加标点的语言模型中存储有特征单元的ID、该ID对应的特征单元、以及该特征单元与自身各种标点状态的权重的对应关系。

其中，本发明所述的待处理语句可以是文本类的缺少标点的语句，也可以是语音类的语句。

图5是本发明提供的添加标点的系统组成示意图。

如图5所示，该系统包括识别装置501、特征单元提取装置502、权重获取装置503、综合权重确定装置504和标点添加装置505。

识别装置501，用于识别待处理语句中的每个词、以及每个词的语义特征。

特征提取装置502，用于根据预先设定的特征模板以及待处理语句中包含的每个词和每个词的语义特征，确定待处理语句中出现的所有特征单元，其中，所述特征模板包括获取的词的数量、获取词的语义特征，所述特征单元包括词和词的语义特征。

权重获取装置503，用于从用于添加标点的语言模型中获取所述所有特征单元中每个特征单元与自身各种标点状态的权重的对应关系。

综合权重确定装置504，用于根据获取的所述对应关系确定待处理语句中每个特征单元的标点状态的权重，根据每个特征单元的标点状态的权重确定待处理语句的各种标点状态的综合权重，其中，待处理语句的每种标点状态包括该待处理语句中包含的每个词的标点状态。

标点添加装置505，用于根据所述综合权重为待处理语句添加标点。

所述特征模板还可以包括获取与当前基准位置的相对位置关系满足预定要求的词，所述特征单元还包括词与当前基准位置的相对位置关系。

特征提取装置502，用于分别以待处理语句中的每个词所处的位置作为当前基准位置，根据所述特征模板确定与当前基准位置的相对位置关系满足所述特征模板要求的词，根据该词的语义特征确定待处理语句中出现的特征单元。

特征提取装置502，用于分别以待处理语句中的每个词所处的位置作为当前基准位置，根据所述独词特征模板确定与当前基准位置的相对位置关系满足所述独词特征模板要求的单个词，根据该单个词的语义特征确定待处理语句中出现的独词特征单元，所述独词特征单元包括所述单个词、所述单个词的语义特征以及所述单个词的位置与当前基准位置的相对位置关系。

特征提取装置502，用于分别以待处理语句中的每个词所处的位置作为当前基准位置，根据所述多词特征模板确定与当前基准位置的相对位置关系满足所述多词特征模板的相对位置关系要求的多个词，根据该多个词中每个词的语义特征确定待处理语句中出现的多词特征单元，所述多词特征单元包括多个词、每个词的语义特征、以及每个词的位置与所述当前基准位置的相对位置关系。

权重获取装置503，可以用于向用于添加标点的语言模型发送携带有特征单元的标识(ID)的查询请求，根据所述特征单元的ID从所述用于添加标点的语言模型中获取相应特征单元与自身各种标点状态的权重的对应关系，其中，所述用于添加标点的语言模型中存储有特征单元的ID、该ID对应的特征单元、以及该特征单元与自身各种标点状态的权重的对应关系。

其中，待处理语句可以是文本类的缺少标点的语句，也可以是语音类的语句。当待处理语句是语音类的语句时，识别装置501包括语音识别引擎，所述语音识别引擎根据声学模型、词典以及用于识别语句的语义特征的语言模型来识别出语音类的语句中所包含的词，以及每个词的语义特征。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种用于添加标点的语言模型建立方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述预先设定的特征模板包括获取与当前基准位置的相对位置关系满足预定要求的词，所述依据预先设定的特征模板，从所述语句中提取出特征单元包括：

3.根据权利要求1或2所述的方法，其特征在于，所述预先设定的特征模板包括独词模板，所述独词模板包括获取与当前基准位置的相对位置关系满足预定要求的单个词、以及所述单个词的语义特征，

依据预先设定的特征模板，从所述语句中提取出特征单元包括：

分别以所述语句中的每个词所处的位置作为所述当前基准位置，根据所述独词特征模板确定与当前基准位置的相对位置关系满足所述独词特征模板要求的单个词，根据该单个词的语义特征确定待处理语句中出现的独词特征单元，所述独词特征单元包括所述单个词、所述单个词的语义特征以及所述单个词的位置与当前基准位置的相对位置关系；

和/或，所述预先设定的特征模板包括多词模板，所述多词模板包括获取分别与当前基准位置的相对位置关系满足预定要求的多个词、以及所述多个词中每个词的语义特征，

分别以所述语句中的每个词所处的位置作为所述当前基准位置，根据所述多词特征模板确定与当前基准位置的相对位置关系满足所述多词特征模板的相对位置关系要求的多个词，根据该多个词中每个词的语义特征确定待处理语句中出现的多词特征单元，所述多词特征单元包括所述多个词、所述多个词中每个词的语义特征、以及每个词的位置与所述当前基准位置的相对位置关系。

4.一种用于添加标点的语言模型建立装置，其特征在于，该装置包括分词模块、特征提取和记录模块、建立模块；

所述特征提取和记录模块，用于为所述分词处理后的语句中每个词标注语义特征，所述语义特征包括词性和/或句子成分；根据在所述语句中所述每个词后面的标点状态信息，为所述每个词标注标点状态；对于标注了语义特征和标点状态的每个词，以所述词在所述语句中的位置作为当前基准位置，依据预先设定的特征模板，从所述语句中提取出特征单元，所述特征单元包括词和词的语义特征；所述预先设定的特征模板用于指示获取与当前基准位置的相对位置关系满足预定要求的词及其语义特征；对于每个特征单元，当所述语句中每出现一次所述特征单元时，根据本次出现的特征单元中每个词的标点状态，记录该特征单元的标点状态的出现次数；

5.根据权利要求4所述的装置，其特征在于，所述预先设定的特征模板包括获取与当前基准位置的相对位置关系满足预定要求的词，

所述特征提取和记录模块，用于分别以分词处理后的语句中的每个词作为当前基准位置，确定出在所述语句中的位置与当前基准位置的相对位置关系满足所述特征模板要求的词，根据所述相对位置关系满足特征模板要求的词的语义特征和相对位置关系信息生成特征单元，所述特征单元还包括词与当前基准位置的相对位置关系。

6.根据权利要求4或5所述的装置，其特征在于，所述预先设定的特征模板包括独词模板，所述独词模板包括获取与当前基准位置的相对位置关系满足预定要求的单个词、以及所述单个词的语义特征，

所述特征提取和记录模块，用于分别以所述语句中的每个词所处的位置作为所述当前基准位置，根据所述独词特征模板确定与当前基准位置的相对位置关系满足所述独词特征模板要求的单个词，根据该单个词的语义特征确定待处理语句中出现的独词特征单元，所述独词特征单元包括所述单个词、所述单个词的语义特征以及所述单个词的位置与当前基准位置的相对位置关系；

所述特征提取和记录模块，用于分别以所述语句中的每个词所处的位置作为所述当前基准位置，根据所述多词特征模板确定与当前基准位置的相对位置关系满足所述多词特征模板的相对位置关系要求的多个词，根据该多个词中每个词的语义特征确定待处理语句中出现的多词特征单元，所述多词特征单元包括所述多个词、所述多个词中每个词的语义特征、以及每个词的位置与所述当前基准位置的相对位置关系。

7.一种添加标点的方法，其特征在于，该方法包括：

识别待处理语句中的每个词、以及每个词的语义特征；

从如权利要求1所述的用于添加标点的语言模型中获取所述所有特征单元中每个特征单元与自身各种标点状态的权重的对应关系；

8.根据权利要求7所述的方法，其特征在于，所述特征模板还包括获取与当前基准位置的相对位置关系满足预定要求的词，所述特征单元还包括词与当前基准位置的相对位置关系；

所述确定待处理语句中出现的所有特征单元包括：

9.根据权利要求7所述的方法，其特征在于，所述预先设定的特征模板包括独词模板，所述独词模板包括获取与当前基准位置的相对位置关系满足预定要求的单个词、以及所述单个词的语义特征，

所述确定待处理语句中出现的所有特征单元包括：

分别以待处理语句中的每个词所处的位置作为当前基准位置，根据所述独词特征模板确定与当前基准位置的相对位置关系满足所述独词特征模板要求的单个词，根据该单个词的语义特征确定待处理语句中出现的独词特征单元，所述独词特征单元包括所述单个词、所述单个词的语义特征以及所述单个词的位置与当前基准位置的相对位置关系；

所述确定待处理语句中出现的所有特征单元包括：

10.根据权利要求7所述的方法，其特征在于，从用于添加标点的语言模型中获取所述所有特征单元中每个特征单元与自身各种标点状态的权重的对应关系包括：

向用于添加标点的语言模型发送携带有特征单元的标识(ID)的查询请求，根据所述特征单元的ID从所述用于添加标点的语言模型中获取相应特征单元与自身各种标点状态的权重的对应关系，其中，所述用于添加标点的语言模型中存储有特征单元的ID、该ID对应的特征单元、以及该特征单元与自身各种标点状态的权重的对应关系。

11.一种添加标点的系统，其特征在于，该系统包括识别装置、特征单元提取装置、权重获取装置、综合权重确定装置和标点添加装置；

所述权重获取装置，用于从如权利要求1所述的用于添加标点的语言模型中获取所述所有特征单元中每个特征单元与自身各种标点状态的权重的对应关系；

12.根据权利要求11所述的系统，其特征在于，所述特征模板还包括获取与当前基准位置的相对位置关系满足预定要求的词，所述特征单元还包括词与当前基准位置的相对位置关系；

所述特征提取装置，用于分别以待处理语句中的每个词所处的位置作为当前基准位置，根据所述特征模板确定与当前基准位置的相对位置关系满足所述特征模板要求的词，根据该词的语义特征确定待处理语句中出现的特征单元。

13.根据权利要求11或12所述的系统，其特征在于，所述预先设定的特征模板包括独词模板，所述独词模板包括获取与当前基准位置的相对位置关系满足预定要求的单个词、以及所述单个词的语义特征，

所述特征提取装置，用于分别以待处理语句中的每个词所处的位置作为当前基准位置，根据所述独词特征模板确定与当前基准位置的相对位置关系满足所述独词特征模板要求的单个词，根据该单个词的语义特征确定待处理语句中出现的独词特征单元，所述独词特征单元包括所述单个词、所述单个词的语义特征以及所述单个词的位置与当前基准位置的相对位置关系；

所述特征提取装置，用于分别以待处理语句中的每个词所处的位置作为当前基准位置，根据所述多词特征模板确定与当前基准位置的相对位置关系满足所述多词特征模板的相对位置关系要求的多个词，根据该多个词中每个词的语义特征确定待处理语句中出现的多词特征单元，所述多词特征单元包括多个词、每个词的语义特征、以及每个词的位置与所述当前基准位置的相对位置关系。

14.根据权利要求11所述的系统，其特征在于，

所述权重获取装置，用于向用于添加标点的语言模型发送携带有特征单元的标识(ID)的查询请求，根据所述特征单元的ID从所述用于添加标点的语言模型中获取相应特征单元与自身各种标点状态的权重的对应关系，其中，所述用于添加标点的语言模型中存储有特征单元的ID、该ID对应的特征单元、以及该特征单元与自身各种标点状态的权重的对应关系。