CN104142915A

CN104142915A - 一种添加标点的方法和系统

Info

Publication number: CN104142915A
Application number: CN201310196391.4A
Authority: CN
Inventors: 刘海波; 王尔玉; 张翔; 卢鲤; 岳帅; 陈波; 李露; 刘荐
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2013-05-24
Filing date: 2013-05-24
Publication date: 2014-11-12
Anticipated expiration: 2033-05-24
Also published as: US9442910B2; CN104142915B; US20140350918A1; WO2014187096A1

Abstract

本发明公开了一种添加标点的方法和系统。该方法包括：基于静音检测将待处理语音文件分为一个以上的待处理语段，根据每个待处理语段包含的每个词和每个词的语义特征，识别所述待处理语音文件中出现的所有特征单元；利用基于分词和词语的语义特征建立的语言模型，根据所述所有特征单元确定所述待处理语音文件的各种标点状态的综合权重；根据所述综合权重为所述待处理语音文件添加标点。应用本发明能提高添加标点准确性。

Description

一种添加标点的方法和系统

技术领域

本申请涉及信息处理技术领域，尤其涉及一种添加标点的方法和系统。

背景技术

在通信领域以及互联网领域，在某些应用场景中需要为一些缺少标点的文件添加标点，例如，为语音文件添加标点。

关于为语音文件添加标点，目前存在着一种基于分字处理以及每个字所处位置来添加标点的方案。

在所述方案中，预先对语料库中的语句进行分字处理，确定每个字在语句中所处的位置，即是处于句子的开始、中间还是结束，并确定每个字后面的标点符号情况，例如有无标点符号等，根据语料库中每个字所处的位置以及每个字后面的标点符号情况建立语言模型，在实际添加标点的过程中，将待处理语音文件作为一个整体，根据该待处理语音文件中出现的每个字，利用基于分字建立的语言模型为所述待处理语音文件添加标点。

可见，利用单个字在句子中的位置以及单个字后面是否有标点来建立语言模型，由于所利用的信息有限，且所利用的信息与标点状态的关联性不强，因此所建立的语言模型并不能提取出语句所蕴含的信息与语句的标点状态之间的真实关系，并且，将待处理语音文件简单地作为一个整体来添加标点，也没有考虑到待处理语音文件内部的结构特征，因此，综合上述因素，导致目前为语音文件添加标点的准确性仍然较低。

发明内容

本发明提供了一种添加标点的方法和系统，能够提高添加标点的准确性。

一种添加标点的方法，该方法包括：

基于静音检测将待处理语音文件分为一个以上的待处理语段，根据每个待处理语段包含的每个词和每个词的语义特征，识别所述待处理语音文件中出现的所有特征单元；

利用基于分词和词语的语义特征建立的语言模型，根据所述所有特征单元确定所述待处理语音文件的各种标点状态的综合权重；

根据所述综合权重为所述待处理语音文件添加标点。

一种添加标点的系统，该系统包括静音检测模块、识别模块和标点添加模块；

所述静音检测模块，用于基于静音检测将待处理语音文件分为一个以上的待处理语段；

所述识别模块，用于根据每个所述待处理语段包含的每个词和每个词的语义特征，识别所述待处理语音文件中出现的所有特征单元；

所述标点添加模块，用于利用基于分词和词语的语义特征建立的语言模型，根据所述所有特征单元确定所述待处理语音文件的各种标点状态的综合权重，根据所述综合权重为所述待处理语音文件添加标点。

由上述技术方案可见，由于本发明在添加标点时所利用的语言模型是基于分词和词语的语义特征建立的，由于进行的是分词处理而非分字处理，并且进一步利用词在语句中的语义特征，由于词在语句中的语义特征往往与词的标点状态有着较强的关联性，因此，通过基于对语料库进行分词和词在所述语料库中的语义特征来建立语言模型，能够提取出语句中所蕴含的信息（即所包含的词和词的语义特征）与语句的标点状态的真实关系，进而能够提高添加标点的准确性。

并且，由于本发明在利用基于分词和词语的语义特征建立的语言模型为待处理语音文件添加标点时，考虑了所述语言文件的内部结构特征，通过静音检测将待处理语音文件分为一个以上的待处理语段，根据每个待处理语段包含的每个词和每个词的语义特征确定待处理语音文件的各种标点状态的综合权重，然后根据所述综合权重为待处理语音文件添加标点，一方面，由于待处理语音文件的内部结构特征对待处理语音文件中各个词的语义特征会产生影响，进而会影响待处理语音文件中出现的特征单元，因而最终影响待处理语音文件的标点添加结果，因此，本发明通过基于静音检测将待处理语音文件分为一个以上的待处理语段，基于待处理语段中包含的每个词和每个词的语义特征识别待处理语音文件中出现的特征单元，从而考虑了待处理语音文件内部的结构特征对待处理语音文件标点状态的影响，从而进一步提高了为待处理语音文件添加标点的准确性，另一方面，由于所述综合权重的确定是综合考虑了待处理语音文件中每个语段中的每个词的语义特征而得到的，因此，该综合权重能全面地反映待处理语音文件中的每个词对待处理语音文件的标点状态的影响，从而能够进一步提高添加标点的准确性。

附图说明

图1是本发明实施例提供的添加标点的方法流程图。

图2是本发明实施例提供的标点添加系统的组成示意图。

图3是本发明实施例提供的用于添加标点的语言模型建立方法第一流程图。

图4是本发明提供的用于添加标点的语言模型建立方法第二流程图。

图5是基于本发明实施例提供的语言模型采用本发明实施例提供的标点添加方法和系统为待处理语音文件添加标点的流程图。

具体实施方式

图1是本发明实施例提供的添加标点的方法流程图。

步骤101，基于静音检测将待处理语音文件分为一个以上的待处理语段，根据每个待处理语段包含的每个词和每个词的语义特征，识别所述待处理语音文件中出现的所有特征单元。

其中，所述的语义特征一般包括词语的词性和/或句子成分，同一个词语的词性和/或句子成分在不同的语境中可以相同也可以不同。

步骤102，利用基于分词和词语的语义特征建立的语言模型，根据所述所有特征单元确定所述待处理语音文件的各种标点状态的综合权重。

其中，基于分词和词语的语义特征建立的语言模型中存储有每个特征单元与自身各种标点状态的权重的对应关系。

在根据所述所有特征单元确定所述待处理语音文件的各种标点状态的综合权重时，从所述语言模型中获取所述所有特征单元中的每个特征单元与自身各种标点状态的权重的对应关系，根据获取的所述对应关系确定所述待处理文件中每个词的标点状态的权重，根据每个词的标点状态的权重确定所述待处理语音文件的各种标点状态的综合权重。

步骤103，根据所述综合权重为所述待处理语音文件添加标点。

本步骤中，可以仅根据所述综合权重为所述待处理语音文件添加标点，即将取值最大的所述综合权重对应的待处理语音文件标点状态确定为最终的待处理语音文件标点状态，也可以将所述综合权重作为一个参考因素，综合考虑其他参考因素来为待处理语音文件添加标点。

由图1提供的方法可见，一方面，本发明实施例综合考虑了待处理语音文件中每个词的语义特征，根据待处理语音文件中出现的特征单元而得到用于为待处理语音文件添加标点的综合权重。另一方面，待处理语音文件的内部结构对语义特征以及特征单元会产生影响，例如，当名词或代词出现在句首时，该名词或代词充当的句子成分常常为主语或者定语，但是，当名词或代词出现在句末时，该名词或代词充当的句子成分常常为宾语，因此，图1提供的方法在语义特征的确定以及特征单元的提取过程中，通过静音检测将待处理语音文件分为一个以上的待处理语段，从而考虑了待处理语音文件的内部结构对语义特征以及特征单元的影响，通过提高确定语义特征以及提取特征单元的准确性，来提高所述综合权重的准确性，进而最终提高为待处理语音文件添加标点的准确性。

在图1提供的方法中，待处理语音文件标点的添加需要依据待处理语音文件标点状态的综合权重来确定，例如，即便词语1和词语2之间存在大于预设阈值的静音间隔，但是最大的综合权重（对应图1的方法中仅根据综合权重为待处理语音文件添加标点的实施例）对应的待处理语音文件标点状态显示词语1之后不应该添加标点，则在为待处理语音文件添加标点时，该词语1之后也是不添加标点的，从而避免仅仅根据静音间隔添加标点而造成在说话人语速过慢等情况下错误添加标点。

本发明实施例中，基于静音检测将待处理语音文件分为一个以上的待处理语段具体可以包括：检测待处理语音文件中的静音时长，将所述静音时长与预设的静音阈值作比较，在所述静音时长大于所述静音阈值时，在所述静音时长对应的静音处从所述待处理语音文件中划分出待处理语段。

优选地，在不同的应用场景中，可以预设不同的静音阈值，根据当前的应用场景确定当前需要采用的静音阈值，从而能够适应不同应用场景下语句标点状态特点的需求。例如，在基于地图应用的场景中为语音输入添加标点时，由于基于地图应用的场景常常会有关于地名的语音输入，有时会出现由于地名较长或者不够熟悉而产生短暂停顿的现象，因此，可以针对基于地图应用的场景设置较长的静音阈值，从而避免在一个完整的地名中间添加标点，提高标点添加的准确性。

在本发明的一实施例中，根据每个待处理语段包含的每个词和每个词的语义特征，识别所述待处理语音文件中出现的所有特征单元具体可以包括：识别每个待处理语段中出现的特征单元，将所有待处理语段中出现的特征单元的并集确定为所述所有特征单元。

例如，当接收到语音处理文件“今天天气不错，我们下午去打球，然后去吃饭”时，通过静音检测可以分出三个语段，分别为第一语段“今天天气不错”、第二语段“我们下午去打球”和第三语段“然后去吃饭”，根据第一语段“今天天气不错”中包含的每个词和每个词的语义特征，确定出第一语段包含的所有特征单元n1，根据第二语段“我们下午去打球”中包含的每个词和每个词的语义特征，确定出第二语段包含的所有特征单元n2，根据第三语段“然后去吃饭”中包含的每个词和每个词的语义特征，确定出第三语段包含的所有特征单元n3，将所有特征单元n1、n2和n3的并集确定为待处理语音文件“今天天气不错，我们下午去打球，然后去吃饭”中出现的所有特征单元。

本发明实施例还提供了一种标点添加系统，具体请参见图2。

图2是本发明实施例提供的标点添加系统的组成示意图。

如图2所示，该系统包括静音检测模块201、识别模块202和标点添加模块203。

静音检测模块201，用于基于静音检测将待处理语音文件分为一个以上的待处理语段。

识别模块202，用于根据每个所述待处理语段包含的每个词和每个词的语义特征，识别所述待处理语音文件中出现的所有特征单元。

标点添加模块203，用于利用基于分词和词语的语义特征建立的语言模型，根据所述所有特征单元确定所述待处理语音文件的各种标点状态的综合权重，根据所述综合权重为所述待处理语音文件添加标点。

其中，静音检测模块201，可以用于根据当前的应用场景确定静音阈值，检测所述待处理语音文件中的静音时长，在所述静音时长大于所述静音阈值时，在所述静音时长对应的静音处从所述待处理语音文件中划分出待处理语段。

其中，识别模块202，可以用于根据每个所述待处理语段包含的每个词和每个词的语义特征，识别每个待处理语段中出现的特征单元，将所有待处理语段中出现的特征单元的并集确定为所述所有特征单元。

其中，标点添加模块203，可以用于从所述语言模型中获取所述所有特征单元中的每个特征单元与自身各种标点状态的权重的对应关系，根据获取的所述对应关系确定所述待处理文件中每个词的标点状态的权重，根据每个词的标点状态的权重确定所述待处理文件的各种标点状态的综合权重。

在本发明实施例提供的标点添加系统中，还可以对该系统中的各个模块根据实际需要进行重新划分或者细化。

例如，识别模块202可以包括语义识别单元、特征提取单元，所述语义识别单元，用于识别待处理语段中的每个词、以及每个词的语义特征，所述特征提取单元，用于根据预先设定的特征模板以及待处理语段中包含的每个词和每个词的语义特征，确定待处理语音文件中出现的所有特征单元。

再例如，标点添加模块203可以包括权重获取单元和综合权重计算单元，所述权重获取单元，用于从语言模型中获取待处理语音文件的所有特征单元中的每个特征单元与该个特征单元自身各种标点状态的权重的对应关系，所述综合权重计算单元，用于根据所述权重获取单元获取的所述对应关系，确定待处理语音文件中每个特征单元的标点状态的权重，根据每个特征单元的标点状态的权重计算待处理语音文件的各种标点状态的所述综合权重。

在本发明实施例提供的标点添加方法和/或系统中，根据获取的特征单元与自身各种标点状态的权重的对应关系，可以确定待处理语音文件中每个词的标点状态的权重。具体可以采用多种方法确定待处理语音文件中每个词的标点状态的权重，本发明实施例对此不做限定。例如，可以根据所述对应关系采用映射函数的方法确定待处理语音文件中每个词的标点状态的权重，具体地，对于待处理语音文件中当前位置上的词，确定包含该当前位置上的词的所有特征单元，获取包含当前位置上的词的所有特征单元中的每个特征单元与该个特征单元自身的各种标点状态的权重对应关系，按照预设的映射函数，确定所述当前位置上的词的各种标点状态的权重。其中，当同一内容的词处于待处理语音文件中的不同位置时，相当于不同的词，因此其所在的特征单元也会有所不同，进而其标点状态也会有所不同。

待处理语音文件的标点状态包括了该待处理语音文件中的每个词的标点状态，相当于该待处理语音文件中所有词的标点状态的组合，因此可以通过最优路径算法确定待处理语音文件的各种标点状态的综合权重，例如通过维特比（viterbi）算法确定出该待处理语音文件中所有词的标点状态的最佳组合方式，即确定出最优路径，该最佳组合方式的综合权重最高。

本发明实施例所述的基于分词和词语的语义特征建立的语言模型，包括每个特征单元与自身各种标点状态的权重的对应关系，能够根据查询请求提供相应特征单元与自身各种标点状态的权重的对应关系，本发明实施例提供的添加标点的方法和系统对所述语言模型的具体建立方法不做限定。

作为示例性地，下面给出所述基于分词和词语的语义特征建立的语言模型的优选建立方法，其通过对语料库中的语句进行分词，根据词语在语料库中的语义特征以及标点状态的关联关系得到所述语言模型，具体请参见图3。

如图3所示，该第一流程包括：

步骤301，对语料库中的语句进行分词处理，其中，语料库中的语句预先添加了标点。

步骤302，根据分词处理后的语句中每个词的语义特征，依据预先设定的特征模板，搜索所述语料库中出现的特征单元，根据特征单元中的每个词后面的标点状态，记录所述语料库中每个特征单元的每种标点状态的出现次数。

步骤303，根据每个特征单元的每种标点状态的出现次数，确定每个特征单元的每种标点状态的权重，建立包括每个特征单元与自身各种标点状态的权重的对应关系的语言模型。

在图3所示方法的步骤302中，可以采用方法一，即预先标注所述语料库的语句中每个词的语义特征和标点状态，然后再根据预设的特征模板搜索所述语料库中出现的特征单元，并记录每个特征单元的每种标点状态的出现次数。也可以采用方法二，即在根据预先设定的特征模板搜索语料库中出现的特征单元时，实时地识别语句中每个词的语义特征以及每个词后面的标点状态。下面以采用所述方法一实现步骤302为例，对图3所示方法进行进一步的详细介绍，具体请参见图4。

如图4所示，该方法包括：

步骤401，对语料库中的语句进行分词处理，其中，语料库中的语句预先添加了标点。

步骤402，根据分词处理后的语句中的每个词在所述语句中的语义信息，为所述每个词标注语义特征，根据在所述语句中所述每个词后面的标点状态信息，为所述每个词标注标点状态。

步骤403，根据每个词的所述语义特征，依据预先设定的特征模版生成特征单元，所述特征模板包括获取的词的数量、获取词的语义特征，所述特征单元包括词和词的语义特征。

步骤404，从所述语料库的语句中搜索每个特征单元，记录每个特征单元出现时该特征单元的标点状态，记录该特征单元的每种标点状态的出现次数，其中，特征单元的标点状态包括该特征单元中每个词的标点状态。

步骤405，根据每个特征单元的每种标点状态的出现次数，确定每个特征单元的每种标点状态的权重，建立包括每个特征单元与自身各种标点状态的权重的对应关系的语言模型。

为了提高建立的语言模型的质量，所述语料库中的语句中预先添加的标点的正确率较高，最好都是正确的。

图4所示流程中，步骤403和步骤404可以在一个过程中实现，例如根据预先设定的特征模板从语料库的语句中提取特征单元，如果提取出的特征单元之前没有出现过，则相当于生成一个新的特征单元、且从语料库的语句中搜索到该新的特征单元的次数为1次。

在根据语句中的词的语义特征提取特征单元的基础上，还可以进一步利用词的位置信息，所述词的位置信息是词与当前基准位置的相对位置信息，进而提取的特征单元除了包括词、词的语义特征以外，还包括词与当前基准位置的相对位置信息。

具体地，预先设定的特征模板包括获取的词的数量、获取词的语义特征、获取的词与当前基准位置的相对位置关系需要满足的预定要求，则依据预先设定的特征模板从语句中提取特征单元具体可以包括：

分别以分词处理后的语句中的每个词所处的位置作为当前基准位置，确定出在所述语句中的位置与当前基准位置的相对位置关系满足所述特征模板要求的词，根据所述相对位置关系满足特征模板要求的词的语义特征和相对位置关系信息生成特征单元，所述特征单元还包括词与当前基准位置的相对位置关系。

通过包含相对位置关系要求的特征模板，可以确定词与词之间的关联关系，进而根据所述特征模板提取的特征单元包含了词与词之间的关联关系，所述关联关系通常与标点状态存在联系，因此根据所述特征单元与每种标点状态的权重关系建立的语言模型能够更加准确地反映语句所蕴含的信息与标点状态的关系，进而利用所述语言模型能够提高添加标点的准确性。

根据预先设定的特征模板所要求获取的词的个数，预先设定的特征模板可以包括独词模板和/或多词模板。

其中，所述独词模板包括获取与当前基准位置的相对位置关系满足预定要求的单个词、以及所述单个词的语义特征。其中，独词模板涉及的所述相对位置关系可以就是获取当前基准位置上的词，也可以是获取当前基准位置的前一位置、或后一位置等其他位置上的词。

依据独词模板从语句中提取特征单元时，分别以所述语句中的每个词所处的位置作为所述当前基准位置，根据所述独词特征模板确定与当前基准位置的相对位置关系满足所述独词特征模板要求的单个词，根据该单个词的语义特征确定待处理语句中出现的独词特征单元，所述独词特征单元包括所述单个词、所述单个词的语义特征以及所述单个词的位置与当前基准位置的相对位置关系。

所述多词模板包括获取分别与当前基准位置的相对位置关系满足预定要求的多个词、以及所述多个词中每个词的语义特征。

依据多词模板从语句中提取特征单元时，分别以所述语句中的每个词所处的位置作为所述当前基准位置，根据所述多词特征模板确定与当前基准位置的相对位置关系满足所述多词特征模板的相对位置关系要求的多个词，根据该多个词中每个词的语义特征确定待处理语句中出现的多词特征单元，所述多词特征单元包括所述多个词、所述多个词中每个词的语义特征、以及每个词的位置与所述当前基准位置的相对位置关系。

其中，通过对独词模板中与当前基准位置的相对位置关系的要求进行修改，可以获得不同种类的独词模板，例如用于获取当前基准位置的词及其语义特征的独词模板（可以记为模板T00）、用于获取当前基准位置的前一位置上的词及其语义特征的独词模板（可以记为模板T01）、用于获取当前基准位置的后一位置上的词及其语义特征的独词模板（可以记为模板T02）。

通过对多词模板中与当前基准位置的相对位置关系的要求进行修改，也可以获得不同种类的多词模板，例如，用于获取当前基准位置的前一位置、当前基准位置、当前基准位置的后一位置上的词及其语义特征的多词模板（可以记为模板T05），用于获取当前基准位置的前两个位置以及当前基准位置上的词及其语义特征的多词模板（可以记为模板T06）。

一个多词模板要求获取的词的个数越多，词之间的关联性越强，进而利用建立的语言模型添加标点的准确性越高，模板的种类越多，对语句中出现的语义特征与标点状态的关联关系的考虑越全面，进而利用建立的语言模型添加标点的准确性越高。当然，模板的种类越多、一个多词模板要求获取的词的个数越多，建立语言模型所需要的计算量越大，所述语言模型的规模越大，利用建立的语言模型添加标点的信息处理量也越大。

在步骤405中，根据每个特征单元的每种标点状态的出现次数，确定每个特征单元的每种标点状态的权重时，为了便于操作，可以为每个特征单元赋予标识（ID），建立的语言模型包括特征单元ID、该ID对应的特征单元、以及所述特征单元的各种标点状态的权重信息。

本发明中，词的语义特征可以包括但不限于该词在当前语句中的词性和/或在当前语句中充当的句子成分。

下面举一个具体的例子，对图4所示语言模型建立方法进行示例性介绍。

在该例子中，假设语料库中包括如下的语句：今天天气不错，我们下午去打球，然后去吃饭。

在利用图4所示方法建立语言模型时，需要执行如下步骤：

步骤1，对所述语句进行分词。

对语句“今天天气不错，我们下午去打球，然后去吃饭。”进行分词处理后得到的词包括：今天、天气、不错、我们、下午、去、打球、然后、去、吃饭。

步骤2，对分词处理后的语句中的每个词进行语义特征标注和标点状态标注。

作为示例性地，所述语义特征包括词性和句子成分，则对所述语句进行标注后的结果参见表一：

表一

步骤3，根据步骤2的标注结果，依据预先设定的特征模板，从所述语句中提取特征单元，为提取的特征单元分配ID，并记录特征单元的每种标点状态的出现次数，其中，所述特征单元包括词和词的语义特征。

本步骤中，假设预先设定的特征模板包括独词模板T00、T01、T02和多词模板T05，独词模板T00用于获取当前基准位置的词及其语义特征，独词模板T01用于获取当前基准位置的前一位置上的词及其语义特征，独词模板T02用于获取当前基准位置的后一位置上的词及其语义特征，多词模板T05用于获取当前基准位置的前一位置、当前基准位置、当前基准位置的后一位置上的词及其语义特征。

以步骤2标注后的语句中的每个词所在的位置为当前位置，根据独词模板T00、T01、T02和多词模板T05提取特征单元。

比如，当以“天气”所在的位置为当前基准位置时，根据模板T00得到的特征单元包括“今天”、以及“今天”的语义特征（即名词和状语），根据模板T01得到的特征单元包括“天气”、以及“天气”的语义特征（即名词和主语），根据模板T02得到的特征单元包括“不错”、以及“不错”的语义特征（即形容词和谓语），根据模板T05得到的特征单元包括“今天”、以及“今天”的语义特征（即名词和状语）、“天气”、以及“天气”的语义特征（即名词和主语）“不错”、以及“不错”的语义特征（即形容词和谓语）。

其中，特征单元中的每个词与当前基准位置的相对位置信息，可以以显式方式存储在特征单元中，也可以根据每种模板对应的ID范围、通过为特征单元赋予相应范围内的ID等隐式方式进行存储。

当根据特征模板提取特征单元时，如果特征模板要求的某个相对位置上没有词，则可以采用约定方式表示无词，比如采用约定字符或字符串表示无词。例如所述语句中的“今天”前面没有词，当以“今天”所在的位置为当前基准位置，根据模板T00或T05提取特征单元时，需要采用约定的方式表示“今天”的前一位置无词。

提取出特征单元以后，通过为特征单元赋予不同的ID，来区分包括不同内容的特征单元。所述ID的赋予方式有多种，例如可以根据特征单元包含的内容生成的哈希值作为所述特征单元的ID。

对于每个特征单元，当语料库中的语句中每出现一次所述特征单元时，根据本次出现的特征单元中每个词的标点状态，记录该特征单元的标点状态的出现次数。其中，特征单元的标点状态包括特征单元中每个词的标点状态，换言之，当特征单元包含多个词时，特征单元的标点状态是由所述多个词的标点状态组合而成的，其中任意一个词的标点状态发生改变，则所述包含多个词的特征单元的标点状态也发送了改变。比如，一个特征单元包括三个词，三个词的标点状态分别为“无”、“无”和“逗号”时，该特征单元的标点状态时“无”、“无”和“逗号”的组合，当第三个词的标点状态变为“无”时，则该特征单元的标点状态变为另一种标点状态，即变为“无”、“无”和“无”。

通过步骤2和3可以看出本发明采用分词处理而非分字处理的好处：只有词语才具有明确的语义特征，单个字一般无法具备明确的语义特征，因此分词处理也为步骤2做了准备工作；另外，由于在特征提取的过程中，常常会用到语句中包含的上下文信息，词语的上下文仍然是词语，通过词语之间的关联关系能够更明确地体现出语义特征的联系，相互关联的语义特征与标点状态的关联关系通常也较强，因此，基于分词以及分词后的上下文关联关系提取的特征单元，能够较为准确地提取出语句中蕴含的语义信息与标点状态的关联关系。

步骤4，根据步骤3提取的特征单元，以及特征单元的每种标点状态的出现次数，确定每个特征单元的每种标点状态的权重，建立包括每个特征单元与自身各种标点状态的权重的对应关系的语言模型。

其中，具体可以通过迭代优化算法确定每个特征单元的每种标点状态的权重。

其中，可以采用的迭代优化算法有很多，例如牛顿迭代算法，BFGS（Large-scaleBound-constrained Optimization）迭代算法，L-BFGS（Software for Large-scaleBound-constrained Optimization）迭代算法，OWL-QN(Orthant-Wise Limited-memoryQuasi-Newton)迭代算法等。优选地，可以采用L-BFGS迭代算法，因为L-BFGS迭代算法具有迭代速度快的优点，能够提高语言模型的建立速度。

通过上述步骤1-步骤4，最终建立的语言模型包括每个特征单元与该特征单元自身的各种标点状态的权重的对应关系，其中，每个特征单元还可以具有一个区别于其他特征单元的ID，通过所述ID能够检索到所述特征单元与自身的各种标点状态的权重的对应关系，从而，在从语言模型中获取特征单元与自身各种标点状态的权重的对应关系时，可以向所述语言模型发送携带有特征单元的标识（ID）的查询请求，根据所述特征单元的ID从所述语言模型中获取相应特征单元与自身各种标点状态的权重的对应关系，其中，所述语言模型中存储有特征单元的ID、该ID对应的特征单元、以及该特征单元与自身各种标点状态的权重的对应关系。

基于包括所述独词特征单元和/或所述多词特定单元的语言模型添加标点时，在本发明实施例提供的添加标点的方法中，分别以每个词所处的位置作为所述当前基准位置，根据独词特征模板确定与当前基准位置的相对位置关系满足所述独词特征模板要求的单个词，根据该单个词的语义特征识别独词特征单元，其中，所述独词特征模板包括获取与当前基准位置的相对位置关系满足预定要求的单个词、以及所述单个词的语义特征，所述独词特征单元包括所述单个词、所述单个词的语义特征以及所述单个词的位置与当前基准位置的相对位置关系；和/或，分别以每个词所处的位置作为所述当前基准位置，根据多词特征模板确定与当前基准位置的相对位置关系满足所述多词特征模板要求的多个词，根据该多个词中每个词的语义特征识别多词特征单元，其中，所述多词特征模板包括获取与当前基准位置的相对位置关系满足预定要求的多个词、以及所述多个词中每个词的语义特征，所述多词特征单元包括所述多个词、所述多个词中每个词的语义特征、以及每个词的位置与所述当前基准位置的相对位置关系。

基于包括所述独词特征单元和/或所述多词特定单元的语言模型添加标点时，在本发明实施例提供的添加标点的系统中，识别模块202，可以用于分别以每个词所处的位置作为所述当前基准位置，根据独词特征模板确定与当前基准位置的相对位置关系满足所述独词特征模板要求的单个词，根据该单个词的语义特征识别独词特征单元，其中，所述独词特征模板包括获取与当前基准位置的相对位置关系满足预定要求的单个词、以及所述单个词的语义特征，所述独词特征单元包括所述单个词、所述单个词的语义特征以及所述单个词的位置与当前基准位置的相对位置关系；和/或，识别模块202，可以用于分别以每个词所处的位置作为所述当前基准位置，根据多词特征模板确定与当前基准位置的相对位置关系满足所述多词特征模板要求的多个词，根据该多个词中每个词的语义特征识别多词特征单元，其中，所述多词特征模板包括获取与当前基准位置的相对位置关系满足预定要求的多个词、以及所述多个词中每个词的语义特征，所述多词特征单元包括所述多个词、所述多个词中每个词的语义特征、以及每个词的位置与所述当前基准位置的相对位置关系。

作为示例性地，下面提供一个具体的实现流程，用于进一步详细而直观地介绍基于本发明实施例提供的语言模型，采用本发明实施例提供的标点添加方法和/或系统为待处理语音文件添加标点的流程，具体请参见图5。

如图5所示，该流程包括如下的子流程：分别为语言模型建立流程、综合权重确定流程、以及标点添加流程。

其中，语言模型建立流程是预先的处理流程，一旦语言模型建立以后，可以直接利用建立的语言模型添加标点。

具体地，在语言模型建立流程中，首先对语料库进行分词和分句处理，然后标记语料库中每个词的语义特征，依据预设的特征模板根据语料库的分词结果以及每个词的语义特征进行特征提取，从而提取出特征单元，并标记每个特征单元的每种标点状态的出现次数，为每个特征单元设置ID，通过优化迭代得到每个特征单元与自身各种标点状态的权重的对应关系，从而得到用于添加标点的语言模型，其中，在所述语言模型中存储有每个特征单元与自身各种标点状态的权重的对应关系。

在综合权重确定流程中，将待处理语音文件作为一个整体整段输入到静音检测模块中，静音检测模块根据静音检测结果从待处理语音文件中划分出待处理语段，将待处理语段逐个送入语音引擎中，所述语音识别引擎根据声学模型、词典以及用于识别语句的语义特征的语言模型来识别出每个待处理语段中所包含的词，以及每个词的语义特征，根据每个待处理语段中所包含的词，以及每个词的语义特征进行特征单元识别，从而识别出每个待处理语段中所包含的特征单元，将待处理语音文件包含的所有待处理语段的特征单元的并集确定为待处理语音文件中包含的所有特征单元，根据所述所有特征单元中每个特征单元的ID从在所述语言模型建立流程中建立的语言模型中获取每个特征单元的各种标点状态的权重，最后根据维特比算法计算出最优路径，从而得到待处理语音文件的各种标点状态的综合权重。

在标点添加流程中，根据待处理语音文件的各种标点状态的综合权重为待处理语音文件添加标点，例如，可以选出取值最大的综合权重对应的标点状态，根据该标点状态为待处理语音文件添加标点。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种添加标点的方法，其特征在于，该方法包括：

根据所述综合权重为所述待处理语音文件添加标点。

2.根据权利要求1所述的方法，其特征在于，所述静音检测包括：

根据当前的应用场景确定静音阈值，检测所述待处理语音文件中的静音时长，在所述静音时长大于所述静音阈值时，在所述静音时长对应的静音处从所述待处理语音文件中划分出待处理语段。

3.根据权利要求1或2所述的方法，其特征在于，根据每个待处理语段包含的每个词和每个词的语义特征，识别所述待处理语音文件中出现的所有特征单元包括：

识别每个待处理语段中出现的特征单元，将所有待处理语段中出现的特征单元的并集确定为所述所有特征单元。

4.根据权利要求1所述的方法，其特征在于，所述语言模型通过如下步骤建立：

对语料库中的语句进行分词处理，其中，语料库中的语句预先添加了标点；

根据分词处理后的语句中每个词的语义特征，依据预先设定的特征模板，搜索所述语料库中出现的特征单元，根据特征单元中的每个词后面的标点状态，记录所述语料库中每个特征单元的每种标点状态的出现次数；

根据每个特征单元的每种标点状态的出现次数，确定每个特征单元的每种标点状态的权重，建立包括每个特征单元与自身各种标点状态的权重的对应关系的语言模型。

5.根据权利要求1或4所述的方法，其特征在于，所述特征单元包括独词特征单元和/或多词特征单元，所述独词特征单元依据独词特征模板得到，所述多词特征单元依据多词特征模板得到；

其中，所述独词特征模板包括获取与当前基准位置的相对位置关系满足预定要求的单个词、以及所述单个词的语义特征，依据独词特征模板得到独词特征单元包括：

分别以每个词所处的位置作为所述当前基准位置，根据所述独词特征模板确定与当前基准位置的相对位置关系满足所述独词特征模板要求的单个词，根据该单个词的语义特征识别独词特征单元，所述独词特征单元包括所述单个词、所述单个词的语义特征以及所述单个词的位置与当前基准位置的相对位置关系；

所述多词特征模板包括获取与当前基准位置的相对位置关系满足预定要求的多个词、以及所述多个词中每个词的语义特征，依据多词特征模板得到多词特征单元包括：

分别以每个词所处的位置作为所述当前基准位置，根据所述多词特征模板确定与当前基准位置的相对位置关系满足所述多词特征模板要求的多个词，根据该多个词中每个词的语义特征识别多词特征单元，所述多词特征单元包括所述多个词、所述多个词中每个词的语义特征、以及每个词的位置与所述当前基准位置的相对位置关系。

6.根据权利要求1所述的方法，其特征在于，根据所述所有特征单元确定所述待处理语音文件的各种标点状态的综合权重包括：

从所述语言模型中获取所述所有特征单元中的每个特征单元与自身各种标点状态的权重的对应关系，根据获取的所述对应关系确定所述待处理文件中每个词的标点状态的权重，根据每个词的标点状态的权重确定所述待处理文件的各种标点状态的综合权重。

7.根据权利要求1所述的方法，其特征在于，所述语义特征包括词语的词性和/或句子成分。

8.一种添加标点的系统，其特征在于，该系统包括静音检测模块、识别模块和标点添加模块；

9.根据权利要求8所述的系统，其特征在于，

所述静音检测模块，用于根据当前的应用场景确定静音阈值，检测所述待处理语音文件中的静音时长，在所述静音时长大于所述静音阈值时，在所述静音时长对应的静音处从所述待处理语音文件中划分出待处理语段。

10.根据权利要求8所述的系统，其特征在于，

所述识别模块，用于根据每个所述待处理语段包含的每个词和每个词的语义特征，识别每个待处理语段中出现的特征单元，将所有待处理语段中出现的特征单元的并集确定为所述所有特征单元。

11.根据权利要求8所述的系统，其特征在于，所述语言模型为通过如下步骤建立的模型：

12.根据权利要求8或11所述的系统，其特征在于，所述特征单元包括独词特征单元和/或多词特征单元；

所述识别模块，用于分别以每个词所处的位置作为所述当前基准位置，根据独词特征模板确定与当前基准位置的相对位置关系满足所述独词特征模板要求的单个词，根据该单个词的语义特征识别独词特征单元，其中，所述独词特征模板包括获取与当前基准位置的相对位置关系满足预定要求的单个词、以及所述单个词的语义特征，所述独词特征单元包括所述单个词、所述单个词的语义特征以及所述单个词的位置与当前基准位置的相对位置关系；

和/或，所述识别模块，用于分别以每个词所处的位置作为所述当前基准位置，根据多词特征模板确定与当前基准位置的相对位置关系满足所述多词特征模板要求的多个词，根据该多个词中每个词的语义特征识别多词特征单元，其中，所述多词特征模板包括获取与当前基准位置的相对位置关系满足预定要求的多个词、以及所述多个词中每个词的语义特征，所述多词特征单元包括所述多个词、所述多个词中每个词的语义特征、以及每个词的位置与所述当前基准位置的相对位置关系。

13.根据权利要求8所述的系统，其特征在于，

所述标点添加模块，用于从所述语言模型中获取所述所有特征单元中的每个特征单元与自身各种标点状态的权重的对应关系，根据获取的所述对应关系确定所述待处理文件中每个词的标点状态的权重，根据每个词的标点状态的权重确定所述待处理文件的各种标点状态的综合权重。