CN110827825A

CN110827825A - 语音识别文本的标点预测方法、系统、终端及存储介质

Info

Publication number: CN110827825A
Application number: CN201911099002.XA
Authority: CN
Inventors: 陈昊亮; 许敏强; 杨世清
Original assignee: Guangzhou National Acoustic Intelligent Technology Co Ltd
Current assignee: Guangzhou National Acoustic Intelligent Technology Co Ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2020-02-21

Abstract

本发明公开了一种语音识别文本的标点预测方法、系统、终端及存储介质，方法包括：通过接收用户输入的语音数据；对语音数据进行语音识别，以获得相应的文本内容；根据预设语气识别模型对语音数据进行语气识别，以获得相应的语气类型；根据语气类型确定文本内容的句尾的标点符号。这样，根据语气类型确定文本内容的句尾的标点符号，从而使得标点生成结果更准确。

Description

语音识别文本的标点预测方法、系统、终端及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别文本的标点预测方法、系统、终端及存储介质。

背景技术

随着语音识别技术的发展，人们越来越重视语音识别结果的准确率。因此，为了提高语音识别结果的准确率，人们还会关注标点符号对语音识别结果的影响。因此，语音识别文本预测标点位置以及标点类型，已经成为语音识别系统的重要组成部分。

但是，现有技术中的标点预测方法在语音识别文本预测标点时，生成的文本内容的标点结果往往不准确。

发明内容

本发明的主要目的在于提供一种语音识别文本的标点预测方法、系统、终端及存储介质，旨在解决现有技术中的标点生成结果不准确的技术问题。

为实现上述目的，本发明提供一种语音识别文本的标点预测方法，所述语音识别文本的标点预测方法包括：

接收用户输入的语音数据；

对所述语音数据进行语音识别，以获得相应的文本内容；

根据预设语气识别模型对所述语音数据进行语气识别，以获得相应的语气类型；

根据所述语气类型确定所述文本内容的句尾的标点符号。

进一步地，，所述根据预设语气识别模型对所述语音数据进行语气识别，以获得相应的语气类型的步骤之前，包括：

获取多个训练语音数据；

提取多个所述训练语音数据中的句尾的语调特征，并确定所述句尾的语调特征对应的所述语气类型；

根据多个所述训练语音数据中的句尾的语调特征和对应的所述语气类型，以构建所述预设语气识别模型。

进一步地，所述根据预设语气识别模型对所述语音数据进行语气识别，以获得相应的语气类型的步骤，包括：

构建所述预设语气识别模型；

将所述语音数据作为输入集，并将所述输入集输入所述预设语气识别模型进行语气识别，以获得相应的所述语气类型。

进一步地，所述语气类型包括陈述语气、感叹语气和疑问语气，所述根据所述语气类型确定所述文本内容的句尾的标点符号的步骤，包括：

若所述语气类型是所述陈述语气时，则判定所述文本内容的句尾的标点符号是预设句号；

若所述语气类型是所述感叹语气时，则判定所述文本内容的句尾的标点符号是预设感叹号；

若所述语气类型是所述疑问语气时，则判定所述文本内容的句尾的标点符号是预设问号。

进一步地，所述根据所述语气类型确定所述文本内容的句尾的标点符号的步骤之后，包括：

根据所述文本内容的语义，对所述文本内容的句尾的标点符号进行修正。

进一步地，所述根据所述文本内容的语义，对所述文本内容的句尾的标点符号进行修正的步骤，包括：

提取所述文本内容的关键字，

根据所述关键字与所述文本内容之间的上下文关系，以获得参考标点符号；

若所述参考标点符号与所述文本内容的句尾的标点符号不匹配时，则判定所述文本内容的情感倾向；

若所述文本内容的情感倾向与所述参考标点符号相对应时，则基于所述参考标点符号对所述文本内容的句尾的标点符号进行修正。

本发明还提供一种语音识别文本的标点预测系统，包括：

接收模块，用于接收用户输入的语音数据；

语音识别模块，用于对所述语音数据进行语音识别，以获得相应的文本内容；

语气识别模块，用于根据预设语气识别模型对所述语音数据进行语气识别，以获得相应的语气类型；

确定模块，用于根据所述语气类型确定所述文本内容的句尾的标点符号。

进一步地，所述语音识别文本的标点预测系统还包括：

获取模块，用于获取多个训练语音数据；

提取模块，用于提取多个所述训练语音数据中的句尾的语调特征，并确定所述句尾的语调特征对应的所述语气类型；

构建模块，用于根据多个所述训练语音数据中的句尾的语调特征和对应的所述语气类型，以构建所述预设语气识别模型。

本发明还提供一种终端，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述语音识别文本的标点预测程序被所述处理器执行时实现如上述的语音识别文本的标点预测方法的步骤。

本发明还提供一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的语音识别文本的标点预测方法的步骤。

本发明实施例提出的语音识别文本的标点预测方法，通过接收用户输入的语音数据；对语音数据进行语音识别，以获得相应的文本内容；根据预设语气识别模型对语音数据进行语气识别，以获得相应的语气类型；根据语气类型确定文本内容的句尾的标点符号。这样，根据语气类型确定文本内容的句尾的标点符号，从而使得标点生成结果更准确。

附图说明

图1是本发明实施例方案涉及的硬件运行的终端的结构示意图；

图2是本发明一种语音识别文本的标点预测方法第一实施例的流程示意图；

图3是本发明一种语音识别文本的标点预测系统一实施例的框架结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端可以是PC，也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面3)播放器、便携计算机等具有显示功能的终端设备。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。该终端可以设置有多个麦克风等设备，一直处于语音信号采集状态，用于实时采集用户的语音信号。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，终端还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音识别文本的标点预测程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的语音识别文本的标点预测程序，并执行以下操作：

接收用户输入的语音数据；

对所述语音数据进行语音识别，以获得相应的文本内容；

根据所述语气类型确定所述文本内容的句尾的标点符号。

进一步地，处理器1001可以调用存储器1005中存储的语音识别文本的标点预测程序，还执行以下操作：

获取多个训练语音数据；

进一步地，构建所述预设语气识别模型；

进一步地，若所述语气类型是所述陈述语气时，则判定所述文本内容的句尾的标点符号是预设句号；

进一步地，提取所述文本内容的关键字，

提取所述文本内容的关键字，

参照图2，本发明基于上述终端硬件结构，提出本发明方法各个实施例。

本发明提供一种语音识别文本的标点预测方法，语音识别文本的标点预测方法应用于终端，在语音识别文本的标点预测方法第一实施例中，参照图2，该方法包括：

步骤S10，接收用户输入的语音数据；

终端接收用户输入的语音数据。在本实施例中，语音数据可以是通过终端的麦克风进行接收，且一直处于语音信号采集状态，用于实时采集用户的语音信号。该终端可以是安装了语音识别系统的电子设备，比如手机、平板电脑等电子设备。

步骤S20，对语音数据进行语音识别，以获得相应的文本内容；

终端对语音数据进行语音识别，以获得相应的文本内容。在本实施例中，在接收到用户输入的语音数据时，可通过语音识别技术对该语音数据进行语音识别，得到该语音数据对应的文本信息。

步骤S30，根据预设语气识别模型对语音数据进行语气识别，以获得相应的语气类型。

终端根据预设语气识别模型对语音数据进行语气识别，以获得相应的语气类型。其中，预设语气模型是预先通过大量语音数据进行训练，而获得的语气模型。在本实施例中，将用户输入的语音数据代入到预先构建的语气识别模型中进行预测，得到该语音数据对应的语气类型。

步骤S40，根据语气类型确定文本内容的句尾的标点符号。

终端根据语气类型确定文本内容的句尾的标点符号。其中，语气类型包括但不限于陈述语气、感叹语气和疑问语句。在本实施例中，可以根据语气类型来确定用户的用户意图，即用户想要表达的具体含义和情感，根据用户意图确定文本内容的句尾的标点符号，并将该文本内容和标点符号进行输出。例如，终端接收到用户语音输入：“我爱我的祖国啊”这句话，并根据用户的语气中带有热烈的情感可以确定出该语音数据的语气类型，根据该语气类型可以确定为感叹号，最后终端输出的语音结果为“我爱我的祖国啊！”

在本实施例中通过接收用户输入的语音数据；对语音数据进行语音识别，以获得相应的文本内容；根据预设语气识别模型对语音数据进行语气识别，以获得相应的语气类型；根据语气类型确定文本内容的句尾的标点符号。这样，根据语气类型确定文本内容的句尾的标点符号，从而使得标点生成结果更准确。

进一步地，在本发明语音识别文本的标点预测方法又一实施例中，在步骤S30之后，包括:

步骤S31，获取多个训练语音数据：

步骤S32，提取多个训练语音数据中的句尾的语调特征，并确定句尾的语调特征对应的语气类型；

步骤S33，根据多个训练语音数据中的句尾的语调特征和对应的语气类型，以构建预设语气识别模型。

终端获取多个训练语音数据，提取多个训练语音数据中的句尾的语调特征，并确定句尾的语调特征对应的语气类型。其中，训练语音数据是使用不同类别的语气朗读出来的样本文本的录音中所包含的语气会各不相同。表示语气的词通常是在句尾处表示种种语气。在本实施例中，可以提取训练语音数据中句尾停顿处表示语气的音频，并提取该音频的特征，例如，该特征可以包含语调(如升调、降调、升降调、平调)等，以确定对应的语气类型，并通过不同类别的语气朗读出来的样本文本的语音数据进行训练，以获得预设语气识别模型。

进一步地，上述第一实施例的步骤S30中，根据预设语气识别模型对所述语音数据进行语气识别，以获得相应的语气类型的步骤，包括：

步骤A，构建预设语气识别模型；

步骤B，将语音数据作为输入集，并将输入集输入预设语气识别模型，以获得相应的语气类型。

终端构建预设语气识别模型，将语音数据作为输入集，并将输入集输入预设语气识别模型，以获得相应的语气类型。在本实施例中，预先建立好语气模型，将终端接收到用户输入的语音数据作为输入集，输入至预设语气模型进行语气模型进行语气识别，以获得相应的语气类型。

进一步地，上述第一实施例的步骤S40中，根据所述语气类型确定所述文本内容的句尾的标点符号的步骤，包括：

步骤S41，若语气类型是陈述语气时，则判定文本内容的句尾的标点符号是预设句号；

步骤S42，若语气类型是感叹语气时，则判定文本内容的句尾的标点符号是预设感叹号；

步骤S43，若语气类型是疑问语气时，则判定文本内容的句尾的标点符号是预设问号。

若语气类型是陈述语气时，则判定文本内容的句尾的标点符号是预设句号；若语气类型是感叹语气时，则判定文本内容的句尾的标点符号是预设感叹号；若语气类型是疑问语气时，则判定文本内容的句尾的标点符号是预设问号。例如，当终端接收用户输入的语句是：“我爱我的祖国啊”这句话是感叹语句时，则判定文本内容的句尾的标点符号是预设感叹号，并输出该结果“我爱我的祖国啊！”。

进一步地，在本发明语音识别文本的标点预测方法又一实施例中，在步骤S40之后，包括：

步骤C，根据文本内容的语义，对文本内容的句尾的标点符号进行修正。

终端根据文本内容的语义，对文本内容的句尾的标点符号进行修正。在本实施例中，根据语气类型确定完文本内容的句尾的标点符号之后，可以再结合文本内容的语音语义，对文本内容的句尾的标点符号进行修正。其中，修正的类型可以修改。例如，用户输入的语音：“我想去吃饭了”，可能由于用户的语调比较激动，进而影响到判定语气的类型，可能输出的结果是“我想去吃饭了！”，但是结合文本内容的语义，这只是一句陈述句，因此，可以对该语音进行修正，得到修正后的结果为“我想去吃饭了。”

进一步地，上述第一实施例的步骤C中，根据文本内容的语义，对文本内容的句尾的标点符号进行修正的步骤，包括：

步骤C1，提取文本内容的关键字；

步骤C2，根据关键字与文本内容之间的上下文关系，以获得参考标点符号；

步骤C3，若参考标点符号与文本内容的句尾的标点符号不匹配时，则判定文本内容的情感倾向；

步骤C4，若文本内容的情感倾向与参考标点符号相对应时，则基于参考标点符号对文本内容的句尾的标点符号进行修正。

终端提取文本内容的关键字，根据关键字与文本内容之间的上下文关系，以获得参考标点符号；若参考标点符号与文本内容的句尾的标点符号不匹配时，则判定文本内容的情感倾向；若文本内容的情感倾向与参考标点符号相对应时，则基于参考标点符号对文本内容的句尾的标点符号进行修正。例如，终端接收到用户输入的语音：“我很喜欢张学友的歌曲”，通过语气识别模型得到语气类型，基于语气类型确定该句话的标点符号是“我很喜欢张学友的歌曲！”，终端提取该文本内容的关键词，“我”“喜欢”“张学友”“歌曲”，并根据文本内容之间的上下文关系，得到用户只是在陈述自己喜欢什么，获得参考标点符号是句号，则参考标点符号与该文本内容的句尾的标点符号不匹配时，则分析“我很喜欢张学友的歌曲”这句话的情感倾向，若这句话的情感倾向是比较弱的，这判定用户只是陈述他喜欢张学友的歌曲。则基于参考标点符号对该句话进行修正，即得到“我很喜欢张学友的歌曲。”这样，基于文本内容的语义和上下文关系，得到参考标点符号，则基于文本内容的情感倾向与所述参考标点符号相对应时，对标点生成结果进行修正，提高准确率。

在一个实施例中，如图3所示，图3是本发明一种语音识别文本的标点预测系统一实施例的框架结构示意图，包括：接收模块、语音识别模块、语气识别模块、确定模块、获取模块、提取模块以及构建模块，其中：

接收模块，用于接收用户输入的语音数据；

确定模块，用于根据所述语气类型确定所述文本内容的句尾的标点符。

进一步地，所述语音识别文本的标点预测系统还包括：

获取模块，用于获取多个训练语音数据；

关于语音识别文本的标点预测系统的具体限定可以参见上文中对于语音识别文本的标点预测方法的限定，在此不再赘述。上述语音识别文本的标点预测系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

此外，本发明实施例还提出一种存储介质(即计算机可读存储器)，所述存储介质上存储有语音识别文本的标点预测程序，所述语音识别文本的标点预测程序被处理器执行时实现如下操作：

接收用户输入的语音数据；

对所述语音数据进行语音识别，以获得相应的文本内容；

根据所述语气类型确定所述文本内容的句尾的标点符号。

进一步地，所述语音识别文本的标点预测程序被处理器执行时还实现如下操作：

获取多个训练语音数据；

进一步地，构建所述预设语气识别模型；

进一步地，提取所述文本内容的关键字，

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音识别文本的标点预测方法，其特征在于，所述语音识别文本的标点预测方法包括：

接收用户输入的语音数据；

对所述语音数据进行语音识别，以获得相应的文本内容；

根据所述语气类型确定所述文本内容的句尾的标点符号。

2.如权利要求1所述的语音识别文本的标点预测方法，其特征在于，所述根据预设语气识别模型对所述语音数据进行语气识别，以获得相应的语气类型的步骤之前，包括：

获取多个训练语音数据；

3.如权利要求1或2所述的语音识别文本的标点预测方法，其特征在于，所述根据预设语气识别模型对所述语音数据进行语气识别，以获得相应的语气类型的步骤，包括：

构建所述预设语气识别模型；

4.如权利要求1所述的语音识别文本的标点预测方法，其特征在于，所述语气类型包括陈述语气、感叹语气和疑问语气，所述根据所述语气类型确定所述文本内容的句尾的标点符号的步骤，包括：

5.如权利要求1所述的语音识别文本的标点预测方法，其特征在于，所述根据所述语气类型确定所述文本内容的句尾的标点符号的步骤之后，包括：

6.如权利要求5所述的语音识别文本的标点预测方法，其特征在于，所述根据所述文本内容的语义，对所述文本内容的句尾的标点符号进行修正的步骤，包括：

提取所述文本内容的关键字，

7.一种语音识别文本的标点预测系统，其特征在于，所述语音识别文本的标点预测系统包括：

接收模块，用于接收用户输入的语音数据；

8.如权利要求7所述的语音识别文本的标点预测系统，其特征在于，所述语音识别文本的标点预测系统还包括：

获取模块，用于获取多个训练语音数据；

9.一种终端，其特征在于，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述语音识别文本的标点预测程序被所述处理器执行时实现如权利要求1至6中任一项所述的语音识别文本的标点预测方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的语音识别文本的标点预测方法的步骤。