CN113053390A

CN113053390A - 基于语音识别的文本处理方法、装置、电子设备及介质

Info

Publication number: CN113053390A
Application number: CN202110302727.5A
Authority: CN
Inventors: 王天哲
Original assignee: Beijing Roobo Technology Co ltd
Current assignee: Shenzhen Rubu Technology Co ltd
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2021-06-29
Anticipated expiration: 2041-03-22
Also published as: CN113053390B

Abstract

本发明实施例公开了一种基于语音识别的文本处理方法、装置、电子设备及存储介质。所述方法包括：将语音识别获取的初始文本序列切分为至少两个切分对象，并确定至少两个切分对象中相邻两个切分对象之间的静音时长，进而依据各个相邻两个切分对象之间的静音时长，在至少两个切分对象中添加匹配的标点符号，得到带标点符号的目标文本序列。采用本申请技术方案，在对语音进行识别后可利用识别的文本中相邻单词或单字之间的静音时长，通过进行静音长度动态跟踪在各个单词或单字之间添加合适的标点符合，简单地使用语音识别器的静音信息就能实现快速标点符号断句的效果，增加文本识别结果的可读性，解决相关语音识别技术中无法自动添加标点符号，从而降低用户文本可读性的问题。

Description

基于语音识别的文本处理方法、装置、电子设备及介质

技术领域

本发明实施例涉及自然语言处理技术领域，尤其涉及一种基于语音识别的文本处理方法、装置、电子设备及介质。

背景技术

语音识别技术已经能够很好地进行字识别，但是语音识别结果并不直接包含标点符号信息，比如长句子和小段落识别的语音识别结果都是没有任何标点符号断句的文本结果。

标点符号后处理技术使用了语言相关的标点符号添加模型，通过对大量带标点符号的文本进行标点符号上下文信息建模，从而在识别结果出来后进行标点符号添加。但是，需要引入语言相关模块和大量训练语料以及相关建模专业知识，对于标点符号的精度和种类要求并不高的应用而言开发和维护成本较高。

发明内容

本发明实施例中提供了一种基于语音识别的文本处理方法、装置、电子设备及存储介质，以实现简单迅速地解决标点符号的断句问题。

第一方面，本发明实施例中提供了一种基于语音识别的文本处理方法，所述方法包括：

将语音识别获取的初始文本序列切分为至少两个切分对象；其中所述切分对象包括单词或单字；

确定所述至少两个切分对象中相邻两个切分对象之间的静音时长；

依据各个相邻两个切分对象之间的静音时长，在至少两个切分对象中添加匹配的标点符号，得到带标点符号的目标文本序列。

第二方面，本发明实施例中还提供了一种基于语音识别的文本处理装置，所述装置包括：

文本切分模块，用于将语音识别获取的初始文本序列切分为至少两个切分对象；其中所述切分对象包括单词或单字；

静音识别模块，用于确定所述至少两个切分对象中相邻两个切分对象之间的静音时长；

标点添加模块，用于依据各个相邻两个切分对象之间的静音时长，在至少两个切分对象中添加匹配的标点符号，得到带标点符号的目标文本序列。

第三方面，本发明实施例中还提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例中提供的基于语音识别的文本处理方法。

第四方面，本发明实施例中还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例中提供的基于语音识别的文本处理方法。

本发明实施例中提供了一种基于语音识别的文本处理方法，在进行语音识别是，会将语音识别获取的初始文本序列切分为至少两个切分对象，并确定至少两个切分对象中相邻两个切分对象之间的静音时长，进而依据各个相邻两个切分对象之间的静音时长，在至少两个切分对象中添加匹配的标点符号，得到带标点符号的目标文本序列。采用本申请技术方案，在对语音进行识别后可利用识别的文本中相邻单词或单字之间的静音时长，通过进行静音长度动态跟踪在各个单词或单字之间添加合适的标点符合，简单地使用语音识别器的静音信息就能实现快速标点符号断句的效果，增加文本识别结果的可读性，解决相关语音识别技术中无法自动添加标点符号，从而降低用户文本可读性的问题。

上述发明内容仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例中提供的一种基于语音识别的文本处理方法的流程图；

图2是本发明实施例中提供的一种基于语音识别的文本处理装置的结构图；

图3是本发明实施例中提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

图1是本发明实施例中提供的一种基于语音识别的文本处理方法的流程图，本实施例的技术方案可适用于在语音识别时自动添加标点符号的情况，该方法可由基于语音识别的文本处理装置来执行，该装置可由软件和/或硬件实现，并可集成于具有网络通信功能的电子设备中。如图1所示，本发明实施例中的基于语音识别的文本处理方法，可包括以下步骤：

S110、将语音识别获取的初始文本序列切分为至少两个切分对象；其中切分对象包括单词或单字。

采用语音采集器(比如麦克风等)采集需要进行识别的语音，并通过基于词语言模型的解码网络对获取的语音进行文本识别得到初始文本序列。例如说话人对语音识别系统说：“我的宠物生病了，明天我要带他去医院看病，上午请个假”，语音识别系统的输出的文本序列是：“我的宠物生病了明天我要带他去医院看病上午请个假”，不难看出识别的文本结果中没有任何标点符号断句。

对语音识别获取的初始文本序列进行切词，将整个语音识别获取的初始文本序列切分成多个单词和/或单字；比如，语音识别获取的初始文本序列为:“我的宠物生病了明天我要带他去医院看病上午请个假”，将上述语音识别获取的初始文本序列切分成如下：“我”、“的”、“宠”、“物”、“生”、“病”、“了”、“明”、“天”、“我”、“要”、“带”、“他”、“去”、“医”、“院”、“看”、“病”、“上”、“午”、“请”、“个”以及“假”多个单字。

S120、确定至少两个切分对象中相邻两个切分对象之间的静音时长。

在本实施例的一种可选方案中，确定至少两个切分对象中相邻两个切分对象之间的静音时长，可包括以下步骤A1-A2：

步骤A1、将至少两个切分对象中各个切分对象，顺序重组为相邻两个切分对象间存在候选静音片段识别的目标文本对齐语法；目标文本对齐语法指示的切分对象中头部切分对象前面与尾部切分对象后面分别添加必选静音片段识别。

在对获得语音识别结果的初始文本序列进行切分后，可将切分得到的至少两个切分对象中各个切分对象按照文本序列顺序，重新组织为基于单字(对于其他语言可基于单词)每个字(对于其他语言为词，下同)后面添加候选静音片段识别的强制对齐语法。同时，生成的强制对齐语法中还在头部单词或单字之前以及尾部单词或单字之后添加必选静音片段识别，组成带有头尾必选静音和相邻两个切分对象之间存在候选静音的语法。

例如，语音识别获取的初始文本序列为:“我的宠物生病了明天我要带他去医院看病上午请个假”，经过切分重新组织后为如下语法内容：<utt>＝sil我[sil]的[sil]宠[sil]物[sil]生[sil]病[sil]了[sil]明[sil]天[sil]我[sil]要[sil]带[sil]它[sil]去[sil]医[sil]院[sil]看[sil]病[sil]上[sil]午[sil]请[sil][sil]假sil。上面是一个常用的语法示例，每个字后面的sil代表了静音在字典中的表示，方括号[]表示这个词是解码路径上可选的，即有可能有静音也可能没有静音，具体有没有，依靠声学模型在规定解码路径上再进行一次解码，由声学模型来判断是否存在静音。

之所以要进行基于语法的强制对齐，是因为听写识别文本是基于词语言模型的解码网络得到的，如果识别错误或者某个词中间说话人有犹豫和停顿，基于词的听写解码网络是不能准确反映出来的。语法强制对齐相当于在听写解码器得到的结果上进行一次静音片段的精细搜索。基于语法的强制对齐解码非常快，相比于听写所需要的时间，几乎可以忽略不计。

步骤A2、通过对目标文本对齐语法进行语法强制对齐，得到相邻两个切分对象之间的静音时长。

作为一种可选方案，通过对目标文本对齐语法进行语法强制对齐，得到相邻两个切分对象之间的静音时长，可包括以下操作：将目标文本对齐语法编译为基于语法的语法识别网络；解码器利用初始文本序列的原始语音，对基于语法的语法识别网络进行语法强制对齐解码处理得到目标文本对齐语法中所有候选静音片段的时间信息，并作为相邻两个切分对象之间的静音时长。

语音识别的文本结果中第一个字前面和最后一个字后面的静音sil是不可选的，即强制存在头尾静音。将上面得到的目标文本对齐语法编译为基于语法的识别网络，解码器会用缓存的初始文本序列的原始语音进行语法强制对齐解码，得到所有候选静音片段的时间信息，没有检测到静音的，时长为零。

因为大多数的识别应用系统中，系统开始拾音的时候人不会马上说话，说完话之后也不会立即结束拾音，所以头尾的静音是强制存在的。由于头尾静音的长度并不可控，可用sil[0]代表头部的静音，sil[N]代表尾部的静音，头部静音与尾部静音不参与平均静音长度计算和跟踪，计算除去头尾静音的平均静音时长，比如计算sil[1]～sil[N-1]的静音时长平均值为sil_avg。

S130、依据各个相邻两个切分对象之间的静音时长，在至少两个切分对象中添加匹配的标点符号，得到带标点符号的目标文本序列。

在本实施例的一种可选方案中，依据各个相邻两个切分对象之间的静音时长，在至少两个切分对象中添加匹配的标点符号，可包括以下步骤B1-B2：

步骤B1、依据各个相邻两个切分对象之间的静音时长确定一当前静音时长平均值。

步骤B2、依据相邻两个切分对象之间的静音时长和当前的静音时长阈值取值范围，确定在相邻两个切分对象之间添加匹配的标点符号；其中当前的静音时长阈值取值范围基于当前静音时长平均值与标点符号关联的放大系数确定。

当前静音时长平均值会随着切分对象的改变发生改变，头尾静音不参与平均静音时长的计算，从sil[1]开始重新对比与sil_avg大小关系，运用门限策略在至少两个切分对象中的合适相邻两个切分对象之间添加匹配的标点符号。

可选地，在获知当前的静音时长平均值的情况下，不同标点符号会对应不同的静音时长阈值取值范围，通过判断相邻两个切分对象之间的静音时长大小属于的阈值取值范围，来确定在相邻两个切分对象之间条件所属阈值范围对应的标点符合。其中，不同标点符合对应的阈值取值范围与随文本进行动态变化的静音时长平均值与标点符号关联的放大系数相关。

作为一种示例，处于不同相对门限和绝对门限结合的判断方法，主要区分“逗号”和“句号”；如果sil[n]>sil_avg*alpha或sil[n]>abs_TH1，则认为是一个“逗号”，alpha放大系数和abs_TH1均为经验值，可以根据测试数据的结果进行设定，例如abs_TH1通常可以为300ms以上的值。如果sil[n]>sil_avg*beta或sil[n]>abs_TH2，则认为是一个“句号”，beta放大系数和abs_TH2均为经验值，可以根据测试数据的结果进行设定，例如abs_TH2通常可以为500ms以上的值；其中1.0<alpha<beta,abs_TH2>abs_TH1。门限策略结合动态相对和绝对判决，可以灵活自适应语速及不同场景，门限策略模块可以随时更新替换，调整和修正。

根据本发明实施例中提供的基于语音识别的文本处理方法，在对语音进行识别后可利用识别的文本中相邻单词或单字之间的静音时长，通过进行静音长度动态跟踪在各个单词或单字之间添加合适的标点符合，可以简单地使用语音识别器的静音信息就能实现快速标点符号断句的效果，增加文本识别结果的可读性解决相关语音识别技术中无法自动添加标点符号，从而降低用户文本可读性的问题。同时，无须训练语言相关的模型进行标点符号预测，实现门槛低和能够快速部署，而且基于静音动态平均值跟踪的门限动态计算，能够自适应说话语速和风格达到灵活自适应语速及不同场景的效果，门限策略模块可以随时更新替换，调整和修正。

图2是本发明实施例中提供的一种基于语音识别的文本处理装置的结构图，本实施例的技术方案可适用于在语音识别时自动添加标点符号的情况，该方法可由基于语音识别的文本处理装置来执行，该装置可由软件和/或硬件实现，并可集成于具有网络通信功能的电子设备中。如图2所示，本发明实施例中的基于语音识别的文本处理装置，可包括以下内容：文本切分模块210、静音识别模块220和标点添加模块230。其中：

文本切分模块210，用于将语音识别获取的初始文本序列切分为至少两个切分对象；其中所述切分对象包括单词或单字；

静音识别模块220，用于确定所述至少两个切分对象中相邻两个切分对象之间的静音时长；

标点添加模块230，用于依据各个相邻两个切分对象之间的静音时长，在至少两个切分对象中添加匹配的标点符号，得到带标点符号的目标文本序列。

在上述实施例的基础上，可选地，静音识别模块220包括：

文本对齐语法生成单元，用于将所述至少两个切分对象中各个切分对象，顺序重组为相邻两个切分对象间存在候选静音片段识别的目标文本对齐语法；所述目标文本对齐语法指示的切分对象中头部切分对象前面与尾部切分对象后面分别添加必选静音片段识别；

静音时长识别单元，用于通过对目标文本对齐语法进行语法强制对齐，得到相邻两个切分对象之间的静音时长。

在上述实施例的基础上，可选地，静音时长识别单元包括：

将所述目标文本对齐语法编译为基于语法的语法识别网络；

解码器利用初始文本序列的原始语音，对基于语法的语法识别网络进行语法强制对齐解码得到所有候选静音片段的时间信息，并作为相邻两个切分对象之间的静音时长。

在上述实施例的基础上，可选地，标点添加模块230包括：

依据各个相邻两个切分对象之间的静音时长，确定一当前静音时长平均值；

依据相邻两个切分对象之间的静音时长和当前的静音时长阈值取值范围，确定在相邻两个切分对象之间添加匹配的标点符号；其中所述当前的静音时长阈值取值范围基于当前静音时长平均值与标点符号关联的放大系数确定。

本发明实施例中所提供的基于语音识别的文本处理装置可执行上述本发明任意实施例中所提供的基于语音识别的文本处理方法，具备执行该基于语音识别的文本处理方法相应的功能和有益效果，详细过程参见前述实施例中基于语音识别的文本处理方法的相关操作。

图3是本发明实施例中提供的一种电子设备的结构示意图。如图3所示结构，本发明实施例中提供的电子设备包括：一个或多个处理器310和存储装置320；该电子设备中的处理器310可以是一个或多个，图3中以一个处理器310为例；存储装置320用于存储一个或多个程序；所述一个或多个程序被所述一个或多个处理器310执行，使得所述一个或多个处理器310实现如本发明实施例中任一项所述的基于语音识别的文本处理方法。

该电子设备还可以包括：输入装置330和输出装置340。

该电子设备中的处理器310、存储装置320、输入装置330和输出装置340可以通过总线或其他方式连接，图3中以通过总线连接为例。

该电子设备中的存储装置320作为一种计算机可读存储介质，可用于存储一个或多个程序，所述程序可以是软件程序、计算机可执行程序以及模块，如本发明实施例中所提供的基于语音识别的文本处理方法对应的程序指令/模块。处理器310通过运行存储在存储装置320中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述方法实施例中基于语音识别的文本处理方法。

存储装置320可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储装置320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置320可进一步包括相对于处理器310远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置330可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏等显示设备。

并且，当上述电子设备所包括一个或者多个程序被所述一个或者多个处理器310执行时，程序进行如下操作：

当然，本领域技术人员可以理解，当上述电子设备所包括一个或者多个程序被所述一个或者多个处理器310执行时，程序还可以进行本发明任意实施例中所提供的基于语音识别的文本处理方法中的相关操作。

本发明实施例中提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时用于执行基于语音识别的文本处理方法，该方法包括：

可选的，该程序被处理器执行时还可以用于执行本发明任意实施例中所提供的基于语音识别的文本处理方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random AccessMemory，RAM)、只读存储器(Read Only Memory，ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)、闪存、光纤、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、无线电频率(RadioFrequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于语音识别的文本处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，确定所述至少两个切分对象中相邻两个切分对象之间的静音时长，包括：

将所述至少两个切分对象中各个切分对象，顺序重组为相邻两个切分对象间存在候选静音片段识别的目标文本对齐语法；所述目标文本对齐语法指示的切分对象中头部切分对象前面与尾部切分对象后面分别添加必选静音片段识别；

通过对目标文本对齐语法进行语法强制对齐，得到相邻两个切分对象之间的静音时长。

3.根据权利要求2所述的方法，其特征在于，通过对目标文本对齐语法进行语法强制对齐，得到相邻两个切分对象之间的静音时长，包括：

将所述目标文本对齐语法编译为基于语法的语法识别网络；

4.根据权利要求1所述的方法，其特征在于，依据各个相邻两个切分对象之间的静音时长，在至少两个切分对象中添加匹配的标点符号，包括：

5.一种基于语音识别的文本处理装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，静音识别模块包括：

7.根据权利要求6所述的装置，其特征在于，静音时长识别单元包括：

将所述目标文本对齐语法编译为基于语法的语法识别网络；

8.根据权利要求5所述的装置，其特征在于，标点添加模块包括：

9.一种电子设备，其特征在于，包括：

一个或多个处理装置；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理装置执行，使得所述一个或多个处理装置实现权利要求1-4中任一所述的基于语音识别的文本处理方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现权利要求1-4中任一所述的基于语音识别的文本处理方法。