CN108549628A

CN108549628A - 流式自然语言信息的断句装置及方法

Info

Publication number: CN108549628A
Application number: CN201810218878.0A
Authority: CN
Inventors: 王星光
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Beijing Yunzhisheng Information Technology Co Ltd
Priority date: 2018-03-16
Filing date: 2018-03-16
Publication date: 2018-09-18
Anticipated expiration: 2038-03-16
Also published as: CN108549628B

Abstract

本发明提供一种流式自然语言信息的断句装置及方法，其中，所述装置包括：语音识别模块，用于按照指定频率输出带有时序的语音识别结果；信息流聚合模块，用于形成语音识别结果序列；动态窗口设定模块，用于选择指定范围的文本；断句识别模块，用于根据分析得到的语义确定所述指定范围的文本中的分割点；句子注册模块，用于将分割得到的多个断句注册至时间轴上，并基于当前注册的断句，对之前注册过的断句进行修正；句子输出模块，用于输出未曾注册过的断句以及经过修正的断句。本发明提供的技术方案，能够提高断句的准确性，并且可以实现断句修正能力。

Description

流式自然语言信息的断句装置及方法

技术领域

本发明涉及语音识别技术领域，特别涉及一种流式自然语言信息的断句装置及方法。

背景技术

随着语音识别技术的不断发展，当前越来越多的软件支持语音识别功能，可以将语音识别为文字，并向用户展示识别出的文字。

现有的语音处理方案是先用语音活动检测模块对语音进行断句，再将断开的语音进行自动语音识别。

然而，现有语音处理方案存在断句不准确的问题，同时对时序上断错的文本缺乏可回溯的断句修正能力。

发明内容

本发明提供一种流式自然语言信息的断句装置及方法，能够提高断句的准确性，并且可以实现断句修正能力。

为实现上述目的，本申请提供一种流式自然语言信息的断句装置，所述装置包括：语音识别模块、信息流聚合模块、动态窗口设定模块、断句识别模块、句子注册模块以及句子输出模块，其中：所述语音识别模块，用于接收并识别语音实时流，并按照指定频率输出带有时序的语音识别结果；所述信息流聚合模块，用于对所述带有时序的语音识别结果进行优化处理，并整合经过优化处理后的带有时序的语音识别结果，以形成语音识别结果序列；所述动态窗口设定模块，用于从所述语音识别结果序列中选择指定范围的文本，所述指定范围的文本用于进行断句分析；所述断句识别模块，用于分析所述指定范围的文本的语义，并根据分析得到的语义确定所述指定范围的文本中的分割点，所述分割点用于将所述指定范围的文本划分为多个断句；所述句子注册模块，用于将分割得到的多个断句注册至时间轴上，并基于当前注册的断句，对之前注册过的断句进行修正；所述句子输出模块，用于输出未曾注册过的断句以及经过修正的断句。

进一步地，所述信息流聚合模块包括时序整合单元，所述时序整合单元用于根据时序从先到后的顺序，将经过优化处理后的带有时序的语音识别结果依次进行连接，得到语音识别结果序列。

进一步地，所述信息流聚合模块包括优化处理单元，所述优化处理单元用于在所述带有时序的语音识别结果中添加新的语音识别结果，或者从所述带有时序的语音识别结果中删除无效的语音识别结果，或者在所述带有时序的语音识别结果修正不符合语言排列规则的语音识别结果。

进一步地，所述断句识别模块包括分词单元和语言模型单元，其中：

所述分词单元，用于为所述指定范围的文本中的各个字符标注标签，并基于标注的标签，将所述指定范围的文本拆分为多个词汇；

所述语言模型单元，用于接收拆分得到的所述多个词汇，并按照预设语言模型计算由所述多个词汇中部分词汇构成具备完整语义的断句的概率，并将概率最大的断句作为划分得到的一个断句。

进一步地，所述句子注册模块包括注册单元和修正单元，其中：

所述注册单元，用于判断分割得到的当前断句在相同的时间轴上是否生成过；若未生成过，将所述当前断句在时间轴上注册，并将所述当前断句传送至所述句子输出模块；

所述修正单元，用于若分割得到的当前断句在相同的时间轴上生成过，根据所述当前断句的语义，判断是否需要对之前生成过的断句进行修正。

为实现上述目的，本申请提供一种流式自然语言信息的断句方法，所述方法包括：接收并识别语音实时流，并按照指定频率输出带有时序的语音识别结果；对所述带有时序的语音识别结果进行优化处理，并整合经过优化处理后的带有时序的语音识别结果，以形成语音识别结果序列；从所述语音识别结果序列中选择指定范围的文本，所述指定范围的文本用于进行断句分析；分析所述指定范围的文本的语义，并根据分析得到的语义确定所述指定范围的文本中的分割点，所述分割点用于将所述指定范围的文本划分为多个断句；将分割得到的多个断句注册至时间轴上，并基于当前注册的断句，对之前注册过的断句进行修正；输出未曾注册过的断句以及经过修正的断句。

进一步地，整合经过优化处理后的带有时序的语音识别结果包括：

根据时序从先到后的顺序，将经过优化处理后的带有时序的语音识别结果依次进行连接，得到语音识别结果序列。

进一步地，对所述带有时序的语音识别结果进行优化处理包括：

在所述带有时序的语音识别结果中添加新的语音识别结果，或者从所述带有时序的语音识别结果中删除无效的语音识别结果，或者在所述带有时序的语音识别结果修正不符合语言排列规则的语音识别结果。

进一步地，根据分析得到的语义确定所述指定范围的文本中的分割点包括：

为所述指定范围的文本中的各个字符标注标签，并基于标注的标签，将所述指定范围的文本拆分为多个词汇；

接收拆分得到的所述多个词汇，并按照预设语言模型计算由所述多个词汇中部分词汇构成具备完整语义的断句的概率，并将概率最大的断句作为划分得到的一个断句。

进一步地，所述方法还包括：

判断分割得到的当前断句在相同的时间轴上是否生成过；若未生成过，将所述当前断句在时间轴上注册，并输出所述当前断句；

若分割得到的当前断句在相同的时间轴上生成过，根据所述当前断句的语义，判断是否需要对之前生成过的断句进行修正。

由上可见，本申请提供的技术方案，包括语音识别模块、信息流聚合模块、动态窗口设定模块、断句识别模块、句子注册模块以及句子输出模块，其中：所述语音识别模块，用于接收并识别语音实时流，并按照指定频率输出带有时序的语音识别结果；所述信息流聚合模块，用于对所述带有时序的语音识别结果进行优化处理，并整合经过优化处理后的带有时序的语音识别结果，以形成语音识别结果序列；所述动态窗口设定模块，用于从所述语音识别结果序列中选择指定范围的文本，所述指定范围的文本用于进行断句分析；所述断句识别模块，用于分析所述指定范围的文本的语义，并根据分析得到的语义确定所述指定范围的文本中的分割点，所述分割点用于将所述指定范围的文本划分为多个断句；所述句子注册模块，用于将分割得到的多个断句注册至时间轴上，并基于当前注册的断句，对之前注册过的断句进行修正；所述句子输出模块，用于输出未曾注册过的断句以及经过修正的断句。由上可见，与传统的断句只利用声学特征进行语音断句相比，本申请结合文本语义信息对语音流进行断句，提高了语音断句的准确率，同时对时序上断错的文本有可回溯的修正能力，大大提高了人机交互友好性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明实施方式中流式自然语言信息的断句装置的结构示意图；

图2是本发明实施方式中流式自然语言信息的断句方法流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

请参阅图1，本申请提供一种流式自然语言信息的断句装置，所述装置包括：语音识别模块、信息流聚合模块、动态窗口设定模块、断句识别模块、句子注册模块以及句子输出模块，其中：

所述语音识别模块，用于接收并识别语音实时流，并按照指定频率输出带有时序的语音识别结果；

所述信息流聚合模块，用于对所述带有时序的语音识别结果进行优化处理，并整合经过优化处理后的带有时序的语音识别结果，以形成语音识别结果序列；

所述动态窗口设定模块，用于从所述语音识别结果序列中选择指定范围的文本，所述指定范围的文本用于进行断句分析；

所述断句识别模块，用于分析所述指定范围的文本的语义，并根据分析得到的语义确定所述指定范围的文本中的分割点，所述分割点用于将所述指定范围的文本划分为多个断句；

所述句子注册模块，用于将分割得到的多个断句注册至时间轴上，并基于当前注册的断句，对之前注册过的断句进行修正；

所述句子输出模块，用于输出未曾注册过的断句以及经过修正的断句。

在一个实施方式中，所述信息流聚合模块包括时序整合单元，所述时序整合单元用于根据时序从先到后的顺序，将经过优化处理后的带有时序的语音识别结果依次进行连接，得到语音识别结果序列。

在一个实施方式中，所述信息流聚合模块包括优化处理单元，所述优化处理单元用于在所述带有时序的语音识别结果中添加新的语音识别结果，或者从所述带有时序的语音识别结果中删除无效的语音识别结果，或者在所述带有时序的语音识别结果修正不符合语言排列规则的语音识别结果。

在一个实施方式中，所述断句识别模块包括分词单元和语言模型单元，其中：

例如，标签可以分为B，E，I，S，这四个标签分别表示：beginning(开头),inside(中间),ending(结尾),single(单独)，也就是一个词的开始，中间，结束以及单个字的词。例如“南京市长江大桥”的标注结果可能为：“南(B)京(I)市(E)长(B)江(E)大(B)桥(E)”。

所述预设语言模型例如可以是N-Gram语言模型，Class-based n-gram模型，topic-based n-gram模型，cache-based n-gram模型，skipping n-gram模型，指数语言模型(最大熵模型，条件随机域模型)，神经网络语言模型等。

在一个实施方式中，所述句子注册模块包括注册单元和修正单元，其中：

具体地，在实现本申请技术方案时，可以包括多个步骤：

第1步：语音识别模块识别语音实时流，并按照一定的频率输出带有时序的语音识别结果。

第2步：信息流聚合模块用于接受并整合时序语音识别结果，形成语音识别结果时间序列。功能包括附加新的语音识别结果、删除无效的语音识别结果、修正不顺滑的语音识别结果。

第3步：动态窗口设定模块从语音识别结果时序中选择一块合适的范围用于断句分析。

第4步：断句模块结合语义完整性判断动态窗口范围内应该断句的分割点。

第5步：句子注册模块用于将分割好的句子注册到时间轴上。据此可以判断生成的句子在相同的时间轴上是否曾经生成过，以及是否有必要对曾经生成过的句子进行修正。

第6步：句子输出模块将不曾注册过的新句子以及修正过的句子输出。

请参阅图2，本申请还提供一种流式自然语言信息的断句方法，所述方法包括：

S1：接收并识别语音实时流，并按照指定频率输出带有时序的语音识别结果；

S2：对所述带有时序的语音识别结果进行优化处理，并整合经过优化处理后的带有时序的语音识别结果，以形成语音识别结果序列；

S3：从所述语音识别结果序列中选择指定范围的文本，所述指定范围的文本用于进行断句分析；

S4：分析所述指定范围的文本的语义，并根据分析得到的语义确定所述指定范围的文本中的分割点，所述分割点用于将所述指定范围的文本划分为多个断句；

S5：将分割得到的多个断句注册至时间轴上，并基于当前注册的断句，对之前注册过的断句进行修正；

S6：输出未曾注册过的断句以及经过修正的断句。

在一个实施方式中，整合经过优化处理后的带有时序的语音识别结果包括：

在一个实施方式中，对所述带有时序的语音识别结果进行优化处理包括：

在一个实施方式中，根据分析得到的语义确定所述指定范围的文本中的分割点包括：

在一个实施方式中，所述方法还包括：

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种流式自然语言信息的断句装置，其特征在于，所述装置包括：语音识别模块、信息流聚合模块、动态窗口设定模块、断句识别模块、句子注册模块以及句子输出模块，其中：

2.根据权利要求1所述的装置，其特征在于，所述信息流聚合模块包括时序整合单元，所述时序整合单元用于根据时序从先到后的顺序，将经过优化处理后的带有时序的语音识别结果依次进行连接，得到语音识别结果序列。

3.根据权利要求1所述的装置，其特征在于，所述信息流聚合模块包括优化处理单元，所述优化处理单元用于在所述带有时序的语音识别结果中添加新的语音识别结果，或者从所述带有时序的语音识别结果中删除无效的语音识别结果，或者在所述带有时序的语音识别结果修正不符合语言排列规则的语音识别结果。

4.根据权利要求1所述的装置，其特征在于，所述断句识别模块包括分词单元和语言模型单元，其中：

5.根据权利要求1所述的装置，其特征在于，所述句子注册模块包括注册单元和修正单元，其中：

6.一种流式自然语言信息的断句方法，其特征在于，所述方法包括：

接收并识别语音实时流，并按照指定频率输出带有时序的语音识别结果；

对所述带有时序的语音识别结果进行优化处理，并整合经过优化处理后的带有时序的语音识别结果，以形成语音识别结果序列；

从所述语音识别结果序列中选择指定范围的文本，所述指定范围的文本用于进行断句分析；

分析所述指定范围的文本的语义，并根据分析得到的语义确定所述指定范围的文本中的分割点，所述分割点用于将所述指定范围的文本划分为多个断句；

将分割得到的多个断句注册至时间轴上，并基于当前注册的断句，对之前注册过的断句进行修正；

输出未曾注册过的断句以及经过修正的断句。

7.根据权利要求6所述的方法，其特征在于，整合经过优化处理后的带有时序的语音识别结果包括：

8.根据权利要求6所述的方法，其特征在于，对所述带有时序的语音识别结果进行优化处理包括：

9.根据权利要求6所述的方法，其特征在于，根据分析得到的语义确定所述指定范围的文本中的分割点包括：

10.根据权利要求6所述的方法，其特征在于，所述方法还包括：