CN111883137A

CN111883137A - 基于语音识别的文本处理方法及装置

Info

Publication number: CN111883137A
Application number: CN202010763554.2A
Authority: CN
Inventors: 聂镭; 齐凯杰; 聂颖
Original assignee: Longma Zhixin Zhuhai Hengqin Technology Co ltd
Current assignee: Longma Zhixin Zhuhai Hengqin Technology Co ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-11-03
Anticipated expiration: 2040-07-31
Also published as: CN111883137B

Abstract

本发明公开了一种基于语音识别的文本处理方法及装置。其中，该方法包括：获取待处理语音信息；对待处理语音信息进行语音识别，得到语音识别文本；基于待处理语音信息的特征信息，得到标点添加策略；基于标点添加策略为语音识别文本添加标点，得到带有标点的语音识别文本。本发明解决了相关技术中由于语音识别过程中无法自动添加标点符号，从而会降低用户的阅读体验的技术问题。

Description

基于语音识别的文本处理方法及装置

技术领域

本发明涉及自然语言处理技术领域，具体而言，涉及一种基于语音识别的文本处理方法及装置。

背景技术

随着科技的发展，语音识别在生活中运用越来越广泛，如智能客服、智能质检、语音助手等等。但是，通过语音识别得到的文本序列并没有标点符号。这是由于标点符号并没有发音信息，所以语音识别出的文字中没有标点符号。当语音识别出的文本序列过长时，会降低用户的阅读体验，甚至会影响用户的理解，因此对于语音识别得到的文本序列增加标点符号就显得至关重要。

对文本序列增加标点符号不仅可以帮助用户理解语义，而且可以提高用户的使用体验。但是，人工标注标点符号在工业实践中不太现实，因此有人提出采用语气停顿增加标点，该方案可以解决部分增加标点的问题，但是，对于一些语气停顿较少的对话中，添加标点的效果不太显著，对于语速过慢，停顿较多的文本会导致添加标点过多的问题，整体而言，添加标点效果较差。

针对上述相关技术中由于语音识别过程中无法自动添加标点符号，从而会降低用户的阅读体验的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种基于语音识别的文本处理方法及装置，以至少解决相关技术中由于语音识别过程中无法自动添加标点符号，从而会降低用户的阅读体验的技术问题。

根据本发明实施例的一个方面，提供了一种基于语音识别的文本处理方法，包括：获取待处理语音信息；对所述待处理语音信息进行语音识别，得到语音识别文本；基于所述待处理语音信息的特征信息，得到标点添加策略；基于所述标点添加策略为所述语音识别文本添加标点，得到带有标点的语音识别文本。

可选地，在对所述待处理语音信息进行语音识别，得到语音识别文本之前，该基于语音识别的文本处理方法还包括：采集历史时间段内的多个历史待处理语音信息以及与所述多个历史待处理语音信息对应的多个历史语音识别文本；获取所述多个历史待处理语音信息中每一个历史待处理语音信息的语音场景；根据所述每一个历史待处理语音信息的语音场景，对包括所述多个历史待处理语音信息以及所述多个历史语音识别文本多组数据进行分组，得到不同语音场景对应的多组数据；对所述不同语音场景对应的多组数据进行训练，得到所述不同语音场景对应的语音识别模型。

可选地，所述对所述待处理语音信息进行语音识别，得到语音识别文本，包括：获取所述待处理语音信息的语音场景；基于所述待处理语音信息的语音场景选择语音识别模型；将所述待处理语音信息转换为所述语音识别模型的输入；获取所述语音识别模型的输出；将所述语音识别模型的输出转换为所述语音识别文本。

可选地，所述基于所述待处理语音信息的特征信息，得到标点添加策略，包括：基于所述特征信息得到所述待处理语音信息的语音场景；基于所述语音场景得到所述标点添加策略。

可选地，所述基于所述语音场景得到所述标点添加策略，包括：采集不同语音场景对应的常规话术，其中，所述常规话术为其所在语音场景下使用次数最多的语言表述；对所述不同语音场景对应的常规话术添加标点，得到添加标点后的所述不同语音场景对应的常规话术；根据所述添加标点后的所述不同语音场景对应的常规话术，得到所述不同语音场景下的标点添加策略。

可选地，所述根据所述添加标点后的所述不同语音场景对应的常规话术，得到所述不同语音场景下的标点添加策略，包括：通过语言模型N-gram确定所述不同语音场景对应的常规话术对应的文本序列中每个标点符号前面的多个文字；确定所述每个标点符号与所述每个标点符号前面的多个文字的相关性；基于所述每个标点符号与所述每个标点符号前面的多个文字的相关性确定所述不同语音场景下的标点添加策略。

可选地，在所述确定所述每个标点符号与所述每个标点符号前面的多个文字的相关性之前，该基于语音识别的文本处理方法还包括：获取所述不同语音场景对应的常规话术中每个常规话术对应的文本序列；确定所述每个常规话术对应的文本序列中每个文本序列中的重复词组；将所述每个文本序列中的重复词组从所述每个文本序列中删除。

可选地，在所述基于所述标点添加策略为所述语音识别文本添加标点之前，该基于语音识别的文本处理方法还包括：判断是否需要为所述语音识别文本添加标点；其中，所述判断是否需要为所述语音识别文本添加标点，包括：利用所述标点添加策略得到所述语音识别文本对应的多个词组；通过循环遍历方式计算所述多个词组中每相邻词组之间的编辑距离；判断所述每相邻词组之间的编辑距离是否小于预设阈值，得到判断结果；将所述判断结果中编辑距离小于所述预设阈值的相邻词组确定为需要添加标点的部分；将所述判断结果中编辑距离不小于所述预设阈值的相邻词组确定为不需要添加标点的部分。

可选地，在所述基于所述标点添加策略为所述语音识别文本添加标点，得到带有标点的语音识别文本之后，该基于语音识别的文本处理方法还包括：对带有标点的所述语音识别文本进行调整，得到调整后的语音识别文本；其中，所述对带有标点的所述语音识别文本进行调整，包括：在带有标点的所述语音识别文本中存在重复添加的重复标点的情况下，采用正则匹配方式删除所述重复标点。

根据本发明实施例的另外一个方面，还提供了一种基于语音识别的文本处理装置，包括：第一获取单元，用于获取待处理语音信息；语音识别单元，用于对所述待处理语音信息进行语音识别，得到语音识别文本；第二获取单元，用于基于所述待处理语音信息的特征信息，得到标点添加策略；第三获取单元，用于基于所述标点添加策略为所述语音识别文本添加标点，得到带有标点的语音识别文本。

可选地，该基于语音识别的文本处理装置还包括：采集单元，用于在对所述待处理语音信息进行语音识别，得到语音识别文本之前，采集历史时间段内的多个历史待处理语音信息以及与所述多个历史待处理语音信息对应的多个历史语音识别文本；第四获取单元，用于获取所述多个历史待处理语音信息中每一个历史待处理语音信息的语音场景；分组单元，用于根据所述每一个历史待处理语音信息的语音场景，对包括所述多个历史待处理语音信息以及所述多个历史语音识别文本多组数据进行分组，得到不同语音场景对应的多组数据；训练单元，用于对所述不同语音场景对应的多组数据进行训练，得到所述不同语音场景对应的语音识别模型。

可选地，所述语音识别单元，包括：第一获取子单元，用于获取所述待处理语音信息的语音场景；选择子单元，用于基于所述待处理语音信息的语音场景选择语音识别模型；第一转换子单元，用于将所述待处理语音信息转换为所述语音识别模型的输入；第二获取子单元，用于获取所述语音识别模型的输出；第二转换子单元，用于将所述语音识别模型的输出转换为所述语音识别文本。

可选地，所述第二获取单元，包括：第三获取子单元，用于基于所述特征信息得到所述待处理语音信息的语音场景；第四获取子单元，用于基于所述语音场景得到所述标点添加策略。

可选地，所述第四获取子单元，包括：采集模块，用于采集不同语音场景对应的常规话术，其中，所述常规话术为其所在语音场景下使用次数最多的语言表述；添加模块，用于对所述不同语音场景对应的常规话术添加标点，得到添加标点后的所述不同语音场景对应的常规话术；第一获取模块，用于根据所述添加标点后的所述不同语音场景对应的常规话术，得到所述不同语音场景下的标点添加策略。

可选地，所述第一获取模块，包括：第一确定子模块，用于通过语言模型N-gram确定所述不同语音场景对应的常规话术对应的文本序列中每个标点符号前面的多个文字；第二确定子模块，用于确定所述每个标点符号与所述每个标点符号前面的多个文字的相关性；第三确定子模块，用于基于所述每个标点符号与所述每个标点符号前面的多个文字的相关性确定所述不同语音场景下的标点添加策略。

可选地，该基于语音识别的文本处理装置还包括：第一获取子模块，用于在所述确定所述每个标点符号与所述每个标点符号前面的多个文字的相关性之前，获取所述不同语音场景对应的常规话术中每个常规话术对应的文本序列；第四确定子模块，用于确定所述每个常规话术对应的文本序列中每个文本序列中的重复词组；删除子模块，用于将所述每个文本序列中的重复词组从所述每个文本序列中删除。

可选地，该基于语音识别的文本处理装置还包括：判断单元，用于在所述基于所述标点添加策略为所述语音识别文本添加标点之前，判断是否需要为所述语音识别文本添加标点；其中，所述判断单元，包括：第五获取子单元，用于利用所述标点添加策略得到所述语音识别文本对应的多个词组；计算子单元，用于通过循环遍历方式计算所述多个词组中每相邻词组之间的编辑距离；判断子单元，用于判断所述每相邻词组之间的编辑距离是否小于预设阈值，得到判断结果；第一确定子单元，用于将所述判断结果中编辑距离小于所述预设阈值的相邻词组确定为需要添加标点的部分；第二确定子单元，用于将所述判断结果中编辑距离不小于所述预设阈值的相邻词组确定为不需要添加标点的部分。

可选地，该基于语音识别的文本处理装置还包括：调整单元，用于在所述基于所述标点添加策略为所述语音识别文本添加标点，得到带有标点的语音识别文本之后，对带有标点的所述语音识别文本进行调整，得到调整后的语音识别文本；其中，所述调整单元，包括：删除子单元，用于在带有标点的所述语音识别文本中存在重复添加的重复标点的情况下，采用正则匹配方式删除所述重复标点。

根据本发明实施例的另外一个方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述计算机存储介质所在设备执行上述中任意一项所述的基于语音识别的文本处理方法。

根据本发明实施例的另外一个方面，还提供了一种处理器，所述处理器用于运行计算机程序，其中，所述计算机程序运行时执行上述中任意一项所述的基于语音识别的文本处理方法。

在本发明实施例中，采用获取待处理语音信息；对待处理语音信息进行语音识别，得到语音识别文本；基于待处理语音信息的特征信息，得到标点添加策略；基于标点添加策略为语音识别文本添加标点，得到带有标点的语音识别文本，通过本发明实施例提供的基于语音识别的文本处理方法，实现了在得到语音识别文本后，基于待处理语音信息的特征信息得到标点添加策略，以对语音识别文本添加标点的目的，达到了提高为语音识别文本添加标点的效率的技术效果，进而解决了相关技术中由于语音识别过程中无法自动添加标点符号，从而会降低用户的阅读体验的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例提供的基于语音识别的文本处理方法的一种流程示意图；

图2是根据本发明实施例提供的基于语音识别的文本处理方法的图1中步骤S104之前的另一种流程示意图；

图3是根据本发明实施例提供的基于语音识别的文本处理方法的图1中步骤S104的具体流程示意图；

图4是根据本发明实施例提供的基于语音识别的文本处理方法的图1中步骤S106的具体流程示意图；

图5是根据本发明实施例提供的基于语音识别的文本处理方法的图4中步骤S402的具体流程示意图；

图6是根据本发明实施例中的可选的基于语音识别的文本处理方法的流程图；

图7是根据本发明实施例的基于语音识别的文本处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于理解，下面对本发明实施例中的部分名词或术语进行详细说明。

自动语音识别技术(Automatic Speech Recognition，简称ASR)：是一种将人的语音转换为文本的技术。

针对上述问题，在本发明中提出了利用自然语言处理实现语音识别中自动添加标点的功能，根据带标点的语言文本得到标点前的n-gram词组，组成一个添加标点的规则序列，并利用自然语言工具箱计算编辑距离，将计算结果与预设阈值进行比较，进而判断是否需要添加标点，实现了自动添加标点的功能，改善了用户阅读体验效果。下面结合一种基于语音识别的文本处理方法进行详细阐述说明。

实施例1

根据本发明实施例，提供了一种基于语音识别的文本处理方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例提供的基于语音识别的文本处理方法的一种流程示意图，该方法可以应用于终端设备或者服务器，其中，终端设备可以是桌上型计算机、笔记本、掌上电脑等计算设备，服务器则可以是云端服务器等计算设备，如图1所示，该基于语音识别的文本处理方法包括如下步骤：

步骤S102，获取待处理语音信息。

可选的，这里的待处理语音信息可以为用户发出的一段语音。

在该实施例中，应用于终端设备时，可以采用麦克风获取用户发出的语音；应用于服务器时，可以从外部设备例如呼叫中心获取用户发出的语音。

在本发明实施例中，对语音的语言种类、语音长短不做具体限定，可以为任何类型的语音，并对语音的获取来源不做具体限定。

步骤S104，对待处理语音信息进行语音识别，得到语音识别文本。

在一种可选的实施例中，参见图2，为本发明实施例提供的基于语音识别的文本处理方法的图1中步骤S104之前的另一种流程示意图，在对待处理语音信息进行语音识别，得到语音识别文本之前，该基于语音识别的文本处理方法还可以包括：

步骤S201，采集历史时间段内的多个历史待处理语音信息以及与多个历史待处理语音信息对应的多个历史语音识别文本。

步骤S202，获取多个历史待处理语音信息中每一个历史待处理语音信息的语音场景。

步骤S203，根据每一个历史待处理语音信息的语音场景，对包括多个历史待处理语音信息以及多个历史语音识别文本多组数据进行分组，得到不同语音场景对应的多组数据。

步骤S204，对不同语音场景对应的多组数据进行训练，得到不同语音场景对应的语音识别模型。

可见，本发明实施例中在对待处理语音信息进行语音识别，得到语音识别文本之前，还可以采集历史时间段内的多个历史待处理语音信息以及与多个历史待处理语音信息对应的多个历史语音识别文本，然后获取经过上述步骤采集的多个历史待处理语音信息中每一个历史待处理语音信息的语音场景，并根据每一个历史待处理语音信息的语音场景，对包括多个历史待处理语音信息以及多个历史语音识别文本多组数据进行分组，得到不同语音场景对应的多组数据，经过对多组数据进行训练以得到不用语音场景对应的语音识别模型，从而能够针对不同的语音场景采用相应的语音识别模板，能够达到较好地提高语音识别的效果。

即，在本发明实施例中，针对不同的语音场景可以采用不同语音场景下的待处理语音信息以及该待处理语音信息对应的多个语音识别文本进行分组训练，得到不同语音场景对应的语音识别模型。

因此，在本发明实施例中，对于待处理语音信息在进行语音识别之前可以先获取相应的语音识别模型，然后采用选择的语音识别模型得到语音识别文本。

在一种可选的实施例中，参见图3，为本发明实施例提供的基于语音识别的文本处理方法的图1中步骤S104的具体流程示意图，对待处理语音信息进行语音识别，得到语音识别文本，包括：

步骤S301，获取待处理语音信息的语音场景。

步骤S302，基于待处理语音信息的语音场景选择语音识别模型。

步骤S303，将待处理语音信息转换为语音识别模型的输入。

步骤S304，获取语音识别模型的输出。

步骤S305，将语音识别模型的输出转换为语音识别文本。

本发明实施例，可以在得到待处理语音后，可以待对处理语音进行处理，以得到待处理语音的语音场景，将该待处理语音的语音场景作为条件，选择与其对应的语音识别模型，通过选择的语音识别模型得到语音识别文本，通过这种方式可以对待处理语音进行有针对性的处理，从而可以快速从待处理语音中得到语音识别文本，进而可以有效提高语音识别效率。

步骤S106，基于待处理语音信息的特征信息，得到标点添加策略。

其中，特征信息可以是指上述待处理语音信息的表述方式、使用场景(例如语音场景)、关键字或关键词等，可以用于表征该待处理语音信息的应用范围、表达语气等的信息；标点添加策略可以是指预先设置好的，用于为待处理语音信息识别得到的语音识别文本添加标点的策略。

在一种可选的实施例中，参见图4，为本发明实施例提供的基于语音识别的文本处理方法的图1中步骤S106的具体流程示意图，基于待处理语音信息的特征信息，得到标点添加策略，包括：

步骤S401，基于特征信息得到所述待处理语音信息的语音场景。

步骤S402，基于语音场景得到所述标点添加策略。

可以理解的是，在本发明实施例中，可以基于待处理语音信息的特征信息中的语音场景信息，得到用于对语音识别文本添加标点的标点添加策略。

在一种可选的实施例中，参见图5，为本发明实施例提供的基于语音识别的文本处理方法的图4中步骤S402的具体流程示意图，基于语音场景得到所述标点添加策略，包括：

步骤S501，采集不同语音场景对应的常规话术。

其中，常规话术为其所在语音场景下使用次数最多的语言表述，例如，针对不同的语音场景，可以预先总结得到该语音场景下的常用话术(即，上下文中的常规话术)，即，在每中对话场景下，经常会使用到的话术，例如，医生和病人交流的场景下，常用的话术可能是“您好，哪里不舒服？”、“我最近感觉胃有点不舒服”等常规性的话语；又例如，银行业务员与客户交流的场景，常用的话术可能是“您好，请问您需要办理什么业务？”、“我想办理一张联名卡”、“请您签字”等常规性的话语。

步骤S502，对不同语音场景对应的常规话术添加标点，得到添加标点后的不同语音场景对应的常规话术。

步骤S503，根据添加标点后的不同语音场景对应的常规话术，得到不同语音场景下的标点添加策略。

示例性的，根据添加标点后的不同语音场景对应的常规话术，得到不同语音场景下的标点添加策略具体过程可以是：

第一步，通过语言模型N-gram确定不同语音场景对应的常规话术对应的文本序列中每个标点符号前面的多个文字。

例如，可以通过文本中的标点符号得到该标点符号前面的n个文字，需要说明的是，在这里只考虑标点符号和该n个文字的相关性，默认与其他的因素无关；另外，需要说明的是，在本发明实施例中，n个文字的数量的选择根据不同的场景进行适当的调整。

比如，“我是中国人，我爱中华人民共和国，我是中国人，我爱我的国。”，若n等于3，那么本示例中出现的标点符号依次为“，”，“。”，前面的n-gram词组分别为：中国人，共和国，中国人，我的国。

第二步，去除重复的n-gram词组；具体地，当文本数量较多时，有可能会出现重复的词组，例如上述(1)中得到的n-gram词组中，“中国人”出现两次，可以剔除多余的重复数据，以增加运行效率。

第三步，确定每个标点符号与每个标点符号前面的多个文字的相关性。

示例性的，在确定每个标点符号与每个标点符号前面的多个文字的相关性之前，该基于语音识别的文本处理方法还可以包括：

(一)，获取不同语音场景对应的常规话术中每个常规话术对应的文本序列。

(二)，确定每个常规话术对应的文本序列中每个文本序列中的重复词组。

(三)，将每个文本序列中的重复词组从每个文本序列中删除。

可以理解的是，本发明实施例中，针对不同语音场景，可以分别获取其对应的常规话术对应的文本序列，然而搜索得到文本序列中的重复词组，接着将重复词组从每个文本序列中删除，从而可以剔除文本序列中的冗余词组，达到增加运行效率的效果。

第四步，基于每个标点符号与每个标点符号前面的多个文字的相关性确定不同语音场景下的标点添加策略。

本发明实施例，可以利用语言模型模型N-gram以及词组去重的方式得到去重后的词组，并获取到每个标点符号与每个标签符号前面的多个文字的相关性来确定不同语音场景下的标点添加处理，达到了提高为文本序列添加标签的准确性。

步骤S108，基于标点添加策略为语音识别文本添加标点，得到带有标点的语音识别文本。

在一种可选的实施例中，在基于标点添加策略为语音识别文本添加标点之前，该基于语音识别的文本处理方法还可以包括：

判断是否需要为语音识别文本添加标点；

其中，判断是否需要为语音识别文本添加标点，包括：

第一步，利用标点添加策略得到语音识别文本对应的多个词组；通过循环遍历方式计算多个词组中每相邻词组之间的编辑距离。

第二步，判断每相邻词组之间的编辑距离是否小于预设阈值，得到判断结果。

第三步，将判断结果中编辑距离小于预设阈值的相邻词组确定为需要添加标点的部分。

第四步，将判断结果中编辑距离不小于预设阈值的相邻词组确定为不需要添加标点的部分。

在该实施例中，在得到语音识别文本后，还可以先利用自然语言处理对语音识别结果判断，以确定其是否需要添加标点。

例如，可以利用语言模型n-gram得到语音识别文本中的多个词组，并对这多个词组利用循环遍历方式计算相邻两个词组之间的编辑距离，确定编辑距离小于预设阈值时，确定该相邻两词组之间不需要添加标点；反之，确定相邻两词组之间需要添加标点。

由于添加标点后的语音识别文本，可能会存在标点添加异常的现象，因此，在对语音识别文本添加标点之后，还需要对添加标点的语音识别文本进行矫正。因此，在本发明实施例中，在基于标点添加策略为语音识别文本添加标点，得到带有标点的语音识别文本之后，该基于语音识别的文本处理方法还可以包括：

对带有标点的语音识别文本进行调整，得到调整后的语音识别文本。

其中，对带有标点的语音识别文本进行调整，包括：

在带有标点的语音识别文本中存在重复添加的重复标点的情况下，采用正则匹配方式删除重复标点。

在该实施例中，通过标点添加策略进行标点添加后的语音识别文本，可能会存在标点重复添加、多余添加等异常问题。因此，针对标点添加异常问题需要进行调整。例如，对于标点重复添加问题可以采用正则匹配的方式进行剔除，去除多余添加的标点；对于多余添加的问题采用特殊处理的方式，对某些词中的标点进行强制剔除即可，在本发明实施例中不做具体阐述。

在一种可选的实施例中，在得到调整后的语音识别文本之后，可以输出调整后的语音识别文本，以供用户审阅。

由上可知，在本发明实施例中，可以获取待处理语音信息；对待处理语音信息进行语音识别，得到语音识别文本；基于待处理语音信息的特征信息，得到标点添加策略；基于标点添加策略为语音识别文本添加标点，得到带有标点的语音识别文本，实现了在得到语音识别文本后，基于待处理语音信息的特征信息得到标点添加策略，以对语音识别文本添加标点的目的，达到了提高为语音识别文本添加标点的效率的技术效果。

值得注意的是，由于在本发明实施例中，可以基于待处理语音信息的特征信息，例如，语音场景，得到标点添加策略，接着利用标点添加策略为语音识别文本添加标点，以得到带有标点的语音识别文，实现对语音识别文本自动添加标点的目的。

因此，通过本发明实施例提供的基于语音识别的文本处理方法，解决了相关技术中由于语音识别过程中无法自动添加标点符号，从而会降低用户的阅读体验的技术问题。

图6是根据本发明实施例中的可选的基于语音识别的文本处理方法的流程图，如图6所示，首先，获取待处理的语音音频(即，待处理语音信息)；对语音音频进行ASR识别，得到语音识别文本；通过语音音频的音频情景(即，语音场景)得到话术脚本；根据话术脚本得到标点添加策略；结合标点添加策略得到语音识别文本中每相邻两词组之间的编辑距离，并判断相邻两词组之间的编辑距离是否满足标点添加规则；若是，则在满足标点添加规则的相邻两词组之间添加标点；反之，不添加标点；对添加标点后的语音识别文本进行标点矫正；输出标点矫正后的语音识别文本。

通过本发明实施例提供的基于语音识别的文本处理方法，可以在获取到需要添加标点的语音识别文本后，根据语音场景获得带有标点的话术脚本，基于话术脚本得到添加标点的策略，并利用自然语言处理对语音识别文本进行判断，以得到语音识别文字中需要添加标点的部分，在对语音识别文本添加标点后，对添加标点的文本进行校正，例如，去除一处文本处多次添加标点，并输出标点校正后的文本序列，可以针对不同场景喜爱的语音识别文本自动添加标点，考虑了添加标点在真实场景应用中存在的问题，实现了语音识别的文本序列自动添加标点符号的功能，解决现有添加标点技术的不足，基于自然语言处理进行语音识别中自动添加标点的功能。

实施例2

根据本发明实施例的另外一个方面，还提供了一种基于语音识别的文本处理装置，图7是根据本发明实施例的基于语音识别的文本处理装置的示意图，如图7所示，该基于语音识别的文本处理装置包括：第一获取单元71，语音识别单元73，第二获取单元75以及第三获取单元77。下面对该基于语音识别的文本处理装置进行详细说明。

第一获取单元71，用于获取待处理语音信息。

语音识别单元73，用于对待处理语音信息进行语音识别，得到语音识别文本。

第二获取单元75，用于基于待处理语音信息的特征信息，得到标点添加策略。

第三获取单元77，用于基于标点添加策略为语音识别文本添加标点，得到带有标点的语音识别文本。

此处需要说明的是，上述第一获取单元71，语音识别单元73，第二获取单元75以及第三获取单元77对应于实施例1中的步骤S102至S108，上述单元与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述单元作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

由上可知，在本申请上述实施例中，可以利用第一获取单元获取待处理语音信息；然后利用语音识别单元对待处理语音信息进行语音识别，得到语音识别文本；并利用第二获取单元基于待处理语音信息的特征信息，得到标点添加策略；以及利用第三获取单元基于标点添加策略为语音识别文本添加标点，得到带有标点的语音识别文本。通过本发明实施例提供的基于语音识别的文本处理装置，实现了在得到语音识别文本后，基于待处理语音信息的特征信息得到标点添加策略，以对语音识别文本添加标点的目的，达到了提高为语音识别文本添加标点的效率的技术效果，进而解决了相关技术中由于语音识别过程中无法自动添加标点符号，从而会降低用户的阅读体验的技术问题。

在一种可选的实施例中，该基于语音识别的文本处理装置还包括：采集单元，用于在对待处理语音信息进行语音识别，得到语音识别文本之前，采集历史时间段内的多个历史待处理语音信息以及与多个历史待处理语音信息对应的多个历史语音识别文本；第四获取单元，用于获取多个历史待处理语音信息中每一个历史待处理语音信息的语音场景；分组单元，用于根据每一个历史待处理语音信息的语音场景，对包括多个历史待处理语音信息以及多个历史语音识别文本多组数据进行分组，得到不同语音场景对应的多组数据；训练单元，用于对不同语音场景对应的多组数据进行训练，得到不同语音场景对应的语音识别模型。

在一种可选的实施例中，语音识别单元，包括：第一获取子单元，用于获取待处理语音信息的语音场景；选择子单元，用于基于待处理语音信息的语音场景选择语音识别模型；第一转换子单元，用于将待处理语音信息转换为语音识别模型的输入；第二获取子单元，用于获取语音识别模型的输出；第二转换子单元，用于将语音识别模型的输出转换为语音识别文本。

在一种可选的实施例中，第二获取单元，包括：第三获取子单元，用于基于特征信息得到待处理语音信息的语音场景；第四获取子单元，用于基于语音场景得到标点添加策略。

在一种可选的实施例中，第四获取子单元，包括：采集模块，用于采集不同语音场景对应的常规话术，其中，常规话术为其所在语音场景下使用次数最多的语言表述；添加模块，用于对不同语音场景对应的常规话术添加标点，得到添加标点后的不同语音场景对应的常规话术；第一获取模块，用于根据添加标点后的不同语音场景对应的常规话术，得到不同语音场景下的标点添加策略。

在一种可选的实施例中，第一获取模块，包括：第一确定子模块，用于通过语言模型N-gram确定不同语音场景对应的常规话术对应的文本序列中每个标点符号前面的多个文字；第二确定子模块，用于确定每个标点符号与每个标点符号前面的多个文字的相关性；第三确定子模块，用于基于每个标点符号与每个标点符号前面的多个文字的相关性确定不同语音场景下的标点添加策略。

在一种可选的实施例中，该基于语音识别的文本处理装置还包括：第一获取子模块，用于在确定每个标点符号与每个标点符号前面的多个文字的相关性之前，获取不同语音场景对应的常规话术中每个常规话术对应的文本序列；第四确定子模块，用于确定每个常规话术对应的文本序列中每个文本序列中的重复词组；删除子模块，用于将每个文本序列中的重复词组从每个文本序列中删除。

在一种可选的实施例中，该基于语音识别的文本处理装置还包括：判断单元，用于在基于标点添加策略为语音识别文本添加标点之前，判断是否需要为语音识别文本添加标点；其中，判断单元，包括：第五获取子单元，用于利用标点添加策略得到语音识别文本对应的多个词组；计算子单元，用于通过循环遍历方式计算多个词组中每相邻词组之间的编辑距离；判断子单元，用于判断每相邻词组之间的编辑距离是否小于预设阈值，得到判断结果；第一确定子单元，用于将判断结果中编辑距离小于预设阈值的相邻词组确定为需要添加标点的部分；第二确定子单元，用于将判断结果中编辑距离不小于预设阈值的相邻词组确定为不需要添加标点的部分。

在一种可选的实施例中，该基于语音识别的文本处理装置还包括：调整单元，用于在基于标点添加策略为语音识别文本添加标点，得到带有标点的语音识别文本之后，对带有标点的语音识别文本进行调整，得到调整后的语音识别文本；其中，调整单元，包括：删除子单元，用于在带有标点的语音识别文本中存在重复添加的重复标点的情况下，采用正则匹配方式删除重复标点。

实施例3

根据本发明实施例的另外一个方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的计算机程序，其中，在计算机程序被处理器运行时控制计算机存储介质所在设备执行上述中任意一项的基于语音识别的文本处理方法。

实施例4

根据本发明实施例的另外一个方面，还提供了一种处理器，处理器用于运行计算机程序，其中，计算机程序运行时执行上述中任意一项的基于语音识别的文本处理方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述装置的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于语音识别的文本处理方法，其特征在于，包括：

获取待处理语音信息；

对所述待处理语音信息进行语音识别，得到语音识别文本；

基于所述待处理语音信息的特征信息，得到标点添加策略；

基于所述标点添加策略为所述语音识别文本添加标点，得到带有标点的语音识别文本。

2.根据权利要求1所述的方法，其特征在于，在对所述待处理语音信息进行语音识别，得到语音识别文本之前，所述方法还包括：

采集历史时间段内的多个历史待处理语音信息以及与所述多个历史待处理语音信息对应的多个历史语音识别文本；

获取所述多个历史待处理语音信息中每一个历史待处理语音信息的语音场景；

根据所述每一个历史待处理语音信息的语音场景，对包括所述多个历史待处理语音信息以及所述多个历史语音识别文本多组数据进行分组，得到不同语音场景对应的多组数据；

对所述不同语音场景对应的多组数据进行训练，得到所述不同语音场景对应的语音识别模型。

3.根据权利要求2所述的方法，其特征在于，所述对所述待处理语音信息进行语音识别，得到语音识别文本，包括：

获取所述待处理语音信息的语音场景；

基于所述待处理语音信息的语音场景选择语音识别模型；

将所述待处理语音信息转换为所述语音识别模型的输入；

获取所述语音识别模型的输出；

将所述语音识别模型的输出转换为所述语音识别文本。

4.根据权利要求1所述的方法，其特征在于，所述基于所述待处理语音信息的特征信息，得到标点添加策略，包括：

基于所述特征信息得到所述待处理语音信息的语音场景；

基于所述语音场景得到所述标点添加策略。

5.根据权利要求4所述的方法，其特征在于，所述基于所述语音场景得到所述标点添加策略，包括：

采集不同语音场景对应的常规话术，其中，所述常规话术为其所在语音场景下使用次数最多的语言表述；

对所述不同语音场景对应的常规话术添加标点，得到添加标点后的所述不同语音场景对应的常规话术；

根据所述添加标点后的所述不同语音场景对应的常规话术，得到所述不同语音场景下的标点添加策略。

6.根据权利要求5所述的方法，其特征在于，所述根据所述添加标点后的所述不同语音场景对应的常规话术，得到所述不同语音场景下的标点添加策略，包括：

通过语言模型N-gram确定所述不同语音场景对应的常规话术对应的文本序列中每个标点符号前面的多个文字；

确定所述每个标点符号与所述每个标点符号前面的多个文字的相关性；

基于所述每个标点符号与所述每个标点符号前面的多个文字的相关性确定所述不同语音场景下的标点添加策略。

7.根据权利要求6所述的方法，其特征在于，在所述确定所述每个标点符号与所述每个标点符号前面的多个文字的相关性之前，所述方法还包括：

获取所述不同语音场景对应的常规话术中每个常规话术对应的文本序列；

确定所述每个常规话术对应的文本序列中每个文本序列中的重复词组；

将所述每个文本序列中的重复词组从所述每个文本序列中删除。

8.一种基于语音识别的文本处理装置，其特征在于，包括：

第一获取单元，用于获取待处理语音信息；

语音识别单元，用于对所述待处理语音信息进行语音识别，得到语音识别文本；

第二获取单元，用于基于所述待处理语音信息的特征信息，得到标点添加策略；

第三获取单元，用于基于所述标点添加策略为所述语音识别文本添加标点，得到带有标点的语音识别文本。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述计算机存储介质所在设备执行权利要求1至7中任意一项所述的基于语音识别的文本处理方法。

10.一种处理器，其特征在于，所述处理器用于运行计算机程序，其中，所述计算机程序运行时执行权利要求1至7中任意一项所述的基于语音识别的文本处理方法。