CN114171000A

CN114171000A - 一种基于声学模型和语言模型的音频识别方法

Info

Publication number: CN114171000A
Application number: CN202111446042.4A
Authority: CN
Inventors: 吴广财; 赖蔚蔚; 郑颖龙; 叶杭; 周昉昉; 陈颖璇; 郑杰生; 李雪武; 林嘉鑫; 黄宏恩
Original assignee: Guangdong Electric Power Information Technology Co Ltd
Current assignee: Guangdong Electric Power Information Technology Co Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-03-11

Abstract

本申请提供了一种基于声学模型和语言模型的音频识别方法。本方法包括：获取音频片段；基于声学模型对音频片段进行处理，得到音频片段对应的音素序列，音素序列包括用于表征标点符号的标点音素；基于语言模型对音素序列进行处理，得到音素序列对应的文本信息，文本信息包括标点符号。本方法无需引入其他的标点模块和搜索模块对纯文本信息进行处理，通过声学模型和语言模型可以直接得到音频片段对应的带有标点符号的文本信息，使得音频识别更加方便和高效。

Description

一种基于声学模型和语言模型的音频识别方法

技术领域

本申请涉及音频信号处理领域，更具体地，涉及一种基于声学模型和语言模型的音频识别方法。

背景技术

在现有的音频识别技术中，通过音频识别模型只能将音频片段转换成纯文本信息，即不包括标点符号的文本信息。

进一步地，若需要在纯文本信息中添加标点符号，需要进一步引入标点模块以及标点路径的搜索模块对纯文本信息进行处理。因此，在现有技术中，无法通过单一的音频识别模型直接得到带有标点符号的文本信息。

发明内容

本申请实施例提供一种基于声学模型和语言模型的音频识别方法。

第一方面，本申请一些实施例提供一种基于声学模型和语言模型的音频识别方法，该方法包括：获取音频片段。基于声学模型对音频片段进行处理，得到音频片段对应的音素序列。其中，音素序列包括用于表征标点符号的标点音素，声学模型是通过第一训练音频片段对初始声学模型训练得到的，第一训练音频片段标注有第一训练音素序列，第一训练音素序列包括第一训练标点音素。基于语言模型对音素序列进行处理，得到音素序列对应的文本信息。其中，文本信息包括标点符号，语言模型是通过第二训练音素序列对初始语言模型训练得到的，第二训练音素序列标注有第一训练文本信息，第二训练音素序列包括第二训练标点音素，第一训练文本信息包括训练标点符号。

本申请提供了一种基于声学模型和语言模型的音频识别方法，该方法通过声学模型对音频片段进行处理，得到带有标点音素的音素序列，其中，标点音素为表征标点符号的音素。进一步通过语言模型对带有标点音素的音素序列进行处理，得到带有标点符号的文本信息。本方法无需引入其他的标点模块和搜索模块对纯文本信息进行处理，通过声学模型和语言模型可以直接得到音频片段对应的带有标点符号的文本信息，使得音频识别更加方便和高效。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的一种基于声学模型和语言模型的音频识别方法的应用环境示意图。

图2示出了本申请第一实施例提供的一种基于声学模型和语言模型的音频识别方法的流程示意图。

图3示出了本申请第二实施例提供的一种基于声学模型和语言模型的音频识别方法的流程示意图。

图4示出了本申请第三实施例提供的一种基于声学模型和语言模型的音频识别方法的流程示意图。

图5示出了本申请第四实施例提供的一种基于声学模型和语言模型的音频识别方法的流程示意图。

图6示出了本申请实施例提供的一种声学模型的训练方法的流程示意图。

图7示出了本申请实施例提供的一种语言模型的训练方法的流程示意图。

图8示出了本申请实施例提供的一种基于声学模型和语言模型的音频识别装置的模块框图。

图9示出了本申请实施例提供的智能设备的模块框图。

图10示出了本申请实施例提供的计算机可读存储介质的模块框图。

具体实施方式

下面详细描述本申请的实施方式，实施方式的实施例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性地，仅用于解释本申请，而不能理解为对本申请的限制。

为了使本技术领域的人员更好地理解本申请的方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于详细说明本申请方案，下面先结合附图对本申请实施例中的应用环境进行介绍。请参阅图1，图1为本申请实施例提供一种电子设备100，该电子设备100可以执行本申请实施例提供的基于声学模型和语言模型的音频识别方法。

电子设备100可以是智能手机、平板电脑、个人电脑等等。在本申请实施例中，电子设备100具有音频识别功能。可选地，电子设备100预存有声学模型和语言模型，通过声学模型对音频片段进行处理，得到音素序列，通过语言模型对音素序列进行处理，得到对应的带有标点符号的文本信息。

上述声学模型和语言模型可以由电子设备100训练得到。在一些实施例中，电子设备100基于第一训练音频片段对初始声学模型训练，得到上述声学模型，基于第二训练音素序列对初始语言模型训练，得到上述语言模型。在另一些实施例中，声学模型和语言模型是在服务器110中训练得到的，服务器110将完成训练的声学模型和语言模型发送至电子设备100。

在一些实施例中，电子设备100还具有音频采集功能，通过上述音频采集功能来采集待识别为文本信息的音频片段。可选地，电子设备100通过自身的麦克风组件，或者，与其建立有通信连接的麦克风组件来实现上述音频采集功能。

在一些实施例中，电子设备100安装有指定应用程序，通过上述指定应用程序来实现上述音频识别功能。指定应用程序是指存在音频识别场景的应用程序，例如，社交类应用程序、录音类应用程序、会议类应用程序。本申请实施例中，各个步骤的执行主体可以是电子设备，也可以是上述指定应用程序，在本申请实施例中，仅以各个步骤的执行主体为电子设备为例进行说明。

请参阅图2，图2示意性地示出了本申请第一实施例提供的一种基于声学模型和语言模型的音频识别方法。在本方法中，通过声学模型和语言模型可以直接得到音频片段对应的带有标点符号的文本信息。具体地，本方法包括步骤S210至步骤S230。

步骤S210：获取音频片段。

音频片段指的是带有语音、音乐或音效的有规律的声波的频率、幅度变化信息载体。音频片段可以是自于会议场景中的报告音频、电话场景中的通话音频以及日常沟通场景中的说话音频等等。

在一些实施例中，电子设备通过麦克风实时采集音频片段。比如，音频片段为会议场景中的报告音频，当麦克风进入录音状态后，对会议场景中的报告音频进行拾音，以实现对音频片段的获取。

在另一些实施例中，电子设备从本地存储位置处读取音频片段。示例性地，在电子设备(例如，智能手机)中安装有社交类应用程序，该应用程序接收其他联系人发送的音频片段，并将音频片段存储在该应用程序设定的指定存储路径。电子设备从上述指定存储路径读取音频片段。

电子设备在接收到音频识别指令后获取音频片段。在一些实施例中，在线上会议场景下，电子设备显示会议界面，会议界面包括语音识别控件，若接收到针对语音识别控件的触发信号，则电子设备获取到音频识别指令，并获取正在播放的音频片段作为待识别成文字信息的音频片段。在另一些实施例中，在社交会话场景下，电子设备显示会话界面，会话界面包括其它联系人发送的语音信息，用户长按该语音信息后，会话界面上叠加显示菜单栏，菜单栏包括语音转文字控件，若接收到针对语音转文字控件的触发信号，则电子设备获取到音频识别指令，并获取上述语音信息作为待识别成文字信息的音频片段。

步骤S220：基于声学模型对音频片段进行处理，得到音频片段对应的音素序列，音素序列包括用于表征标点符号的标点音素。

声学模型是指提取音频片段的语音特征并将语音特征转换成音素序列的模型。在本申请提出的方法中，声学模型是通过第一训练音频片段对初始声学模型训练得到的，第一训练音频片段标注有第一训练音素序列，第一训练音素序列包括第一训练标点音素。通过第一训练音频片段对初始声学模型进行训练的过程在下文实施例中进行介绍。

音素序列为至少一个音素构成的序列，音素为根据语音的自然属性划分出来的最小语音单位。以汉语音素为例，“普通话”三个字对应的音素为“p,u,t,o,ng,h,u,a”。在本申请中，声学模型可以将音频片段中“普通话”三个字对应的音频片段转换成音素序列“p,u,t,o,ng,h,u,a”。

在本实施例中，电子设备将音频片段作为声学模型的输入，声学模型的输出为音素序列，其中，音素序列包括用于表征标点符号的标点音素。作为一种实施方式，标点音素可以用安静音来表示，安静音可以是“sil”。作为另一种实施方式，标点音素还可以用不明音来表示，不明音可以是“unk”。示例性地，以音频片段为“中国()好”为例，其中，“()”为停顿片段，声学模型将“中国()好”对应的音频片段作为模型输入，对应的模型输出为“zh,o,ng,g,u,o,sil,h,a,o”，或者为“zh,o,ng,g,u,o,unk,h,a,o”。通过上述处理方式，可以使得后续语音模型对音素序列进行处理时，能基于标点音素确定对应的标点符号，最终输出带标点符号的文本信息。

音频片段中通常存在无法提取语音特征的音频子片段，比如音频片段中的噪声片段、停顿片段等等。在一些实施例中，针对音频片段中无法提取语音特征的音频子片段，若该音频子片段的平均响度值大于预设响度值，则将其确定为噪声片段，采用不明音来表示。当音频子片段中的噪声分量较大时，声学模型无法从该音频子片段中提取语音特征，在这种情况下声学模型会输出一个不明音来表示该噪声片段。在另一些实施例中，若该音频子片段的平均响度值小于或等于预设响度值，则将其确定为停顿片段，采用安静音来表示。通常情况下，说话人存在如下语言习惯：在语义完整的两句话之间停顿。也即语义完整且相邻的两句话之间存在一定的停顿时间，上述停顿时间对应的音频片段即为停顿片段。声学模型在对音频片段进行处理时，在确定当前音频片段中存在停顿片段的情况下，由于无法从停顿片段中获取对应的语音特征，在这种情况下声学模型会输出一个安静音来表示该停顿片段。

需要说明的是，在本申请提出的基于声学模型和语言模型的音频识别方法中，可以包括多个不同的声学模型，多个不同的声学模型用于处理不同语种(例如，汉语、英语、法语等等)的音频片段。在电子设备确定当前音频片段对应语种的情况下，进一步确定该语种对应的声学模型。

步骤S230：基于语言模型对音素序列进行处理，得到音素序列对应的文本信息，文本信息包括标点符号。

语言模型是指将音素序列转换成文本信息的模型。在本申请提出的方法中，语言模型是通过第二训练音素序列对初始语言模型训练得到的，第二训练音素序列标注有第一训练文本信息，第二训练音素序列包括第二训练标点音素，第一训练文本信息包括训练标点符号。通过第二训练音素序列对初始语言模型进行训练的过程在下文实施例中进行介绍。

在本实施例中，语言模型的模型输入为包括标点音素的音素序列，语言模型的模型输出为带有标点符号的文本信息。示例性地，以包括标点音素的音素序列为“zh,o,ng,g,u,o,sil,h,a,o”为例，语言模型将“zh,o,ng,g,u,o,sil,h,a,o”作为模型输入，对应的模型输出为“中国，好”。

请参阅图3，图3示意性地示出了本申请第二实施例提供的一种基于声学模型和语言模型的音频识别方法。在本方法中，音频片段包括至少一个停顿片段，基于停顿片段的位置信息可以确定标点音素在音素序列中的位置；进一步基于至少一个候选文本的候选概率确定音素序列对应的文本信息。具体地，本方法包括步骤S310至步骤S360。

步骤S310：获取音频片段。

步骤S310的具体实施方式可以参考步骤S210中的详细阐述，在此不再一一赘述。

步骤S320：基于声学模型对音频片段进行处理，确定至少一个停顿片段。

在本实施例中，音频片段包括至少一个停顿片段，停顿片段表征响度值小于预设响度值且时长大于或等于预设时长的片段。响度预设值可以为声学模型中的默认值，也可以由科研人员基于实际的模型训练数据进行动态调整。示例性地，响度预设值可以是小于10dB的任意数值。预设时长可以为声学模型中的默认值，也可以由科研人员基于实际的模型训练数据进行动态调整。示例性地，预设时长可以是大于0.1s的任意数值。

具体地，步骤S320可以包括步骤S321至步骤S325。

步骤S321：基于声学模型，获取音频片段在不同时刻对应的响度值。

作为一种实施方式，声学模型中设置有预处理模块，通过预处理模块获取该音频片段在不同时刻的响度值。

步骤S323：将响度值小于预设响度值对应的音频子片段确定为候选停顿片段。

预处理模块将平均响度值小于响度预设值对应的音频片段确定为候选停顿片段。以响度预设值为1dB为例，预处理模块将音频片段中平均响度值小于1dB的音频片段确定为候选停顿片段。

步骤S325：若候选停顿片段的时长大于或等于预设时长，则将候选停顿片段确定为停顿片段。

预处理模块计算候选停顿片段的时长，基于候选停顿片段的时长确定该候选停顿片段是否为停顿片段。在候选停顿片段的时长大于或等于预设时长的情况下，则将候选停顿片段确定为停顿片段；在候选停顿片段的音频时长小于时长的情况下，则确定该候选停顿片段不是停顿片段。以预设时长为1s为例，若候选停顿片段的时长大于或等于1s，则将该候选停顿片段确定为停顿片段。

步骤S330：基于至少一个停顿片段，确定至少一个停顿片段的位置信息。

位置信息表征停顿片段在音频片段中的位置。作为一种实施方式，可以基于至少一个停顿片段对应的起始时刻、终止时刻以及停顿片段时长中的至少两项确定该停顿片段的位置信息。

步骤S340：基于位置信息，得到音频片段对应的音素序列，音素序列包括至少一个用于表征标点符号的标点音素。

标点音素包括安静音，和/或，不明音。其中，安静音和不明音的具体介绍可以参考步骤S220中的具体介绍。

电子设备基于停顿片段在音频片段中的位置信息，确定标点音素在音素序列中的位置。以音频片段为“中国()好”为例，停顿片段“()”在音频片段“中国”和音频片段“好”之间，该停顿片段“()”对应的标点音素为安静音“sil”或不明音“unk”。电子设备先获取停顿片段以外的音频片段“中国”和音频片段“好”对应的音素序列分别为“zh,o,ng,g,u,o”和“h,a,o”。由于停顿片段“()”在音频片段“中国”和音频片段“好”之间，可以确定安静音“sil”或不明音“unk”在音素序列“zh,o,ng,g,u,o”和音素序列“h,a,o”之间。因此，音频片段“中国()好”对应的音素序列为“zh,o,ng,g,u,o,sil,h,a,o”，或者为“zh,o,ng,g,u,o,unk,h,a,o”。

在本申请实施例中，通过停顿片段在音频片段中的位置信息来确定标点音素在音素序列中的位置，有助于后续音素序列中标点音素的快速定位。

步骤S350：基于语言模型对音素序列进行处理，得到至少一个候选文本的候选概率。

候选文本包括至少一个候选文字和至少一个候选标点符号。候选概率表征候选文本为音素序列对应的文本信息的概率。

语言模型先通过词典模块确定至少一个候选文本。具体地，语言模型通过查找词典模块中音素与候选文字的映射关系，来确定音素序列中的非标点音素分别对应的候选文字。词典模块可以设置在语言模型内部，也可以独立在语言模型之外。词典模块表征音素和候选文字之间的映射关系，该映射关系可以是一对一的映射关系，也可以是一对多的映射关系。示例性地，基于词典模块确定音素序列“zh,o,ng,g,u,o”对应的候选文字可以是“中国”，也可以是“种过”。以及基于词典模块确定音素序列“h,a,o”对应的候选文字可以是“好”，也可以是“豪”。具体地，词典模块可以是thchs30、CC-CEDICT等中文词典以及CMU-dict等英文词典。

在本申请实施例中，语言模型还可以通过词典模块来确定至少一个候选标点符号。在一些实施例中，词典模块包括标点符号词典子模块，标点符号子词典模块表征标点音素和标点符号之间的映射关系。示例性地，标点音素和标点符号之间的映射关系如表-1所示。

表-1

具体地，语言模型通过查找标点符号词典子模块中标点音素与标点符号的映射关系，来确定音素序列中的标点音素分别对应的候选标点符号，示例性地，基于标点符号子词典模块确定“sil”对应的候选标点符号可以是“，”，也可以是“。”。

在一些实施例中，电子设备通过至少一个候选文字的文字候选概率和至少一个候选标点符号的标点符号候选概率来计算候选文本的候选概率。

可选地，步骤S350包括步骤S3501至步骤S3503。

步骤S3501：基于语言模型对音素序列进行处理，得到至少一个候选文本对应的至少一个文字候选概率。

语言模型在确定至少一个候选文字以及至少一个候选标点符号后，分别确定候选文字对应的文字候选概率以及候选标点符号对应的标点符号候选概率。在本实施例中，文字候选概率和标点符号候选概率是语言模型基于该音频片段的上下文特征确定的。音频片段的上下文特征包括但不限于词汇的词性(例如，名词、动词、形容词等等)、词汇的词频以及语句的完整性。其中，词频表征词汇出现的次数。

步骤S3502：基于语言模型对音素序列进行处理，得到至少一个候选文本对应的至少一个标点符号候选概率。

语言模型在确定至少一个候选标点符号后，确定候选标点符号对应的标点符号候选概率。确定标点符号候选概率的具体实施方式参考步骤S3501中的介绍，在此不再一一赘述。

步骤S3503：将至少一个文字候选概率和至少一个标点符号候选概率的乘积确定为至少一个候选文本的候选概率。

电子设备将至少一个文字候选概率和至少一个标点符号候选概率的乘积确定为至少一个候选文本的候选概率。

示例性地，“中国”对应的文字候选概率为90％，“种过”对应的文字候选概率为10％。“好”对应的文字候选概率为90％，“豪”对应的文字候选概率为10％。“，”对应的标点符号候选概率为“85％”，“。”对应的标点符号候选概率为“15％”。

以候选文本为“中国，好”为例，“中国，好”对应的候选概率为90％*85％*90％＝68.85％。同样地，候选文本为“种过。好”对应的候选概率为1.35％以及“中国，豪”对应的候选概率为7.65％。

在一些实施例中，电子设备在标点符号候选概率大于或等于存在概率阈值的情况下，则确定候选文本中存在对应标点符号，在标点符号候选概率小于存在概率阈值的情况下，确定候选文本中不存在对应标点符号。存在概率阈值可以为语言模型中的默认值，也可以由科研人员基于实际的模型训练数据进行动态调整。示例性地，存在概率阈值可以是大于50％且小于100％的任意数值。

步骤S360：将最大候选概率对应的候选文本确定为音素序列对应的文本信息。

在本实施例中，将多个候选概率中的最大候选概率对应的候选文本确定为音素序列的文本信息。作为一种实施方式，最大候选概率可以通过排序算法确定。具体地，通过排序算法将多个候选文本对应的多个候选概率进行排序，从而确定多个候选概率中的最大候选概率。排序算法包括但不限于冒泡排序法、选择排序法、插入排序法、希尔排序法以及归并排序法等等。示例性地，基于排序算法可以确定上述候选概率中最大候选概率为68.85％，在确定最大候选概率的情况下，将该最大候选概率对应的候选文本“中国，好”确定为音素序列对应的文本信息。

本申请提供了一种基于声学模型和语言模型的音频识别方法，该方法通过声学模型确定音频片段中停顿片段的位置信息，在确定位置信息的情况下进一步确定包括标点音素的音素序列；进一步通过语言模型得到至少一个候选文本的候选概率，并将最大候选概率对应的候选文本确定为音素序列对应的文本信息。本方法无需引入其他的标点模块和搜索模块对纯文本信息进行处理，通过声学模型和语言模型可以直接得到音频片段对应的带有标点符号的文本信息，使得音频识别更加方便和高效。

请参阅图4，图4示意性地示出了本申请第三实施例提供的一种基于声学模型和语言模型的音频识别方法。在本方法中，通过语音模型得到候选文本对应的文字候选概率时，会进一步判断该候选文本中的目标词语是否存在于热词库中，若存在于热词库中，则更新对应的文字候选概率，以使得包含热词的候选文本的候选概率提升，可以提高音频识别的准确率。具体地，本方法包括步骤S410至步骤S480。

步骤S410：获取音频片段。

步骤S420：基于声学模型对音频片段进行处理，得到音频片段对应的音素序列，音素序列包括用于表征标点符号的标点音素。

步骤S430：基于语言模型对音素序列进行处理，得到至少一个候选文本对应的至少一个文字候选概率。

其中，步骤S410至步骤S430的具体实施方式可以参考步骤S210至步骤S220以及步骤S3501中的具体介绍，在此不再一一赘述。

步骤S440：检测候选文本中的目标词语是否存在于热词库中。

热词库为至少一个热词组成的词库。热词表征专业领域的技术词汇，例如，马尔可夫模型、希尔伯特变换等等。由于热词在日常生活场景中使用频率较低，因此语言模型在得到包含热词的至少一个候选文字时，该热词对应的文字候选概率就低于其他候选文字对应的文字候选概率。

热词库可以为语言模型中的默认词库，也可以由科研人员基于实际语言模型的测试结果进行动态调整。示例性地，科研人员在对语言模型进行测试时，在热词的识别错误次数大于第一预设次数的情况下，将对应热词补充到热词库中。具体地，科研人员在对语言模型进行测试时，语言模型将“马尔可夫模型”错误识别成“马儿客服模型”，且识别错误次数大于第一预设次数，在这种情况下，将“马尔可夫模型”补充到热词库中。第一预设次数可以为语言模型中的默认值，也可以由科研人员基于实际语言模型的测试结果进行动态调整。

目标词语为候选文本中的任一词语。电子设备将候选文本中的各个词语逐一与热词库中的各个热词进行比对，以确定目标词语是否存在于热词库中。可选地，电子设备通过文本比对算法判断候选文本中的目标词语是否存在于热词库中。具体地，文本比对算法可以是编辑距离算法、基于最长公共子串的算法等等。

步骤S450：若候选文本中的目标词语存在于热词库中，则对目标词语对应的文字候选概率进行更新。

更新后的目标词语对应的文字候选概率大于更新前的目标词语对应的文字候选概率。作为一种方式，可以通过概率映射操作来实现对目标词语对应的文字候选概率进行更新。在一些实施例中，概率映射操作为线性映射操作；在另一些实施例中，概率映射操作为非线性映射操作。本申请实施例给出了一种概率映射操作为线性映射操作的实施方式。具体地，步骤S450可以包括步骤S4501。

步骤S4501：若候选文本中的目标词语存在于热词库中，则将目标词语对应的文字候选概率和第一映射因子之间的乘积，确定为更新后的目标词语对应的文字候选概率。

第一映射因子可以为语言模型中的默认值，也可以由科研人员基于实际语言模型的测试结果进行动态调整。具体地，第一映射因子大于一。以第一映射因子为5为例，若目标词语对应的文字候选概率为15％，则更新后的目标词语对应的文字候选概率为75％。

步骤S460：基于语言模型对音素序列进行处理，得到至少一个候选文本对应的至少一个标点符号候选概率。

步骤S470：将至少一个文字候选概率和至少一个标点符号候选概率的乘积确定为至少一个候选文本的候选概率。至少一个文字候选概率包括更新后的目标词语对应的文字候选概率。

步骤S480：将最大候选概率对应的候选文本确定为音素序列对应的文本信息。

其中，步骤S460至步骤S480的具体实施方式可以参考步骤S3502至步骤S360中的具体介绍，在此不再一一赘述。

本申请提供了一种基于声学模型和语言模型的音频识别方法，在本方法中，通过语音模型得到候选文本对应的文字候选概率时，会进一步判断该候选文本中的目标词语是否存在于热词库中，若存在于热词库中，则更新对应的文字候选概率。基于更新后的文字候选概率可以进一步确定音素序列对应的新的文本信息，本方法通过热词库对语言模型输出的文本信息进行优化，使得对优化后的文本信息具有更高的音频识别准确率。

请参阅图5，图5示意性地示出了本申请第四实施例提供的一种基于声学模型和语言模型的音频识别方法。在本方法中，通过语音模型得到候选文本对应的文字候选概率时，会进一步基于映射表将候选文本中的第一词语替换为第二词语，进一步更新候选文本对应的文字候选概率。具体地，本方法包括步骤S510至步骤S580。

步骤S510：获取音频片段。

步骤S520：基于声学模型对音频片段进行处理，得到音频片段对应的音素序列，音素序列包括用于表征标点符号的标点音素。

步骤S530：基于语言模型对音素序列进行处理，得到至少一个候选文本对应的至少一个文字候选概率。

其中，步骤S510至步骤S530的具体实施方式可以参考步骤S210至步骤S220以及步骤S3501中的具体介绍，在此不再一一赘述。

步骤S540：基于预设映射表将候选文本中的第一词语替换为第二词语。

预设映射表包括至少一个错误识别结果，和错误识别结果对应的正确识别结果；第一词语为预设映射表中的错误识别结果，第二词语为预设映射表中的正确识别结果。

预设映射表表征错误识别结果和正确识别结果之间的映射关系，在一些实施例中，由于语言模型存在一定的误差，对于某些词汇无法正确识别。因此，在语言模型的测试过程中，科研人员会基于模型的测试结果建立相应的预设映射表。示例性地，科研人员在对语言模型进行测试时，在错误识别结果的出现次数大于第二预设次数的情况下，确定对应的正确识别结果。基于该错误识别结果与对应的正确识别结果建立映射关系，并将该映射关系存入预设映射表。具体地，科研人员在对语言模型进行测试时，语言模型将“马尔可夫模型”错误识别成“马儿客服模型”，则“马儿客服模型”即为错误识别结果。在识别错误次数大于第二预设次数的情况下，确定对应的正确识别结果“马尔可夫模型”。将“马儿客服模型”和“马尔可夫模型”之间建立映射关系，并将该映射关系存入预设映射表。第二预设次数可以为语言模型中的默认值，也可以由科研人员基于实际语言模型的测试结果进行动态调整。

作为一种实施方式，可以通过文本比对算法判断候选文本中是否存在第一词语，并在候选文本中存在第一词语的情况下，将第一词语替换为第二词语。

步骤S550：对第一词语对应的文字候选概率进行更新。

更新后的第一词语对应的文字候选概率大于更新前的第一词语对应的文字候选概率，更新后的文字候选概率被用于确定候选文本的候选概率。

作为一种方式，可以通过概率映射操作来实现对文字候选概率的更新。在一些实施例中，概率映射操作为线性映射操作。具体地，将更新前的文字候选概率和第二映射因子之间的乘积，确定为更新后的文字候选概率。第二映射因子可以为语言模型中的默认值，也可以由科研人员基于实际语言模型的测试结果进行动态调整。具体地，第二映射因子大于一。以第二映射因子为5为例，若更新前的文字候选概率为15％，则更新后的文字候选概率为75％。

步骤S560：基于语言模型对音素序列进行处理，得到至少一个候选文本对应的至少一个标点符号候选概率。

步骤S570：将至少一个文字候选概率和至少一个标点符号候选概率的乘积确定为至少一个候选文本的候选概率。

至少一个文字候选概率包括更新后的第一词语对应的文字候选概率。

步骤S580：将最大候选概率对应的候选文本确定为音素序列对应的文本信息。

其中，步骤S560至步骤S580的具体实施方式可以参考步骤S3502至步骤S360中的具体介绍，在此不再一一赘述。

本申请提供了一种基于声学模型和语言模型的音频识别方法，在本方法中，通过语音模型得到候选文本对应的文字候选概率时，会进一步基于映射表将候选文本中的第一词语替换为第二词语，进一步更新候选文本对应的文字候选概率。基于更新后的文字候选概率可以进一步确定音素序列对应的新的文本信息，本方法通过映射表对语言模型输出的文本信息进行优化，使得对优化后的文本信息具有更高的音频识别准确率。

请参阅图6，图6示意性地示出了本申请实施例提供的一种声学模型的训练方法。该方法包括步骤S610至步骤S640。

步骤S610：通过初始声学模型得到第一训练音频片段对应的预测音素序列。

初始声学模型训练为未完成参数训练的声学模型，作为一种实施方式，初始声学模型可以是隐马尔科夫模型(Hidden Markov Model,HMM)、连锁状态模型(Chain States)等模型，在本申请中不做具体限定。第一训练音频片段为初始声学模型的训练数据，在第一训练音频片段标注有第一训练音素序列，第一训练音素序列包括第一训练标点音素。示例性地，以第一训练音频片段为“模型()作为”为例，其中，“()”为停顿片段，则该第一训练音频片段对应的第一训练音素序列为“m,o,x,i,ng,sil,z,u,o,w,e,i”。通过初始声学模型，可以将第一训练音频片段转换成预测音素序列。

步骤S620：获取预测音素序列和第一训练音素序列之间的第一误差信息。

处理器将预测音素序列和第一训练音素序列进行比对，得到二者之间的第一误差信息。作为一种实施方式，可以将预测音素序列转换成第一特征矩阵，将第一训练音素序列转换成第二特征矩阵，通过计算第一特征矩阵和第二特征矩阵之间的差值得到第一误差信息。可选地，第一误差信息也可以通过最大似然估计(maximum likelihood estimation)、交叉熵损失函数(cross entropy loss function)以及最大互信息估计(maximum mutualinformation estimation)等方式确定。

步骤S630：若第一误差信息不符合第一预设条件，则基于第一误差信息、第一优化函数对初始声学模型进行参数优化，并从通过初始声学模型得到第一训练音频片段对应的预测音素序列的步骤重新开始执行。

第一预设条件用于表征是否完成参数优化训练的条件，若第一误差信息不符合第一预设条件，则说明通过初始声学模型得到的预测音素序列和第一训练音素序列之间的误差较大，需要对初始声学模型中的参数进行优化调整。在一些实施例中，第一预设条件是指预测音素序列和第一训练音素序列之间的第一误差信息小于第一预设值。上述第一预设值根据声学模型的精度要求实际确定。若声学模型的精度要求较高，则第一预设值较小，若声学模型的精度要求较低，则第一预设值较大。

第一优化函数表征对初始声学模型的模型参数进行优化调整的函数，第一优化函数包括但不限于批量梯度下降函数、随机梯度下降函数、自适应优化函数。第一优化函数以第一误差信息为输入，对初始声学模型中的参数进行优化调整，以使得通过优化调整后的初始声学模型输出的预测音素序列可以更加接近于第一训练音素序列。

进一步地，将优化调整后的初始声学模型替代步骤S610中的初始声学模型，并从步骤S610重新开始执行。

步骤S640：若第一误差信息符合第一预设条件，则获取完成训练的初始声学模型。

若第一误差信息符合第一预设条件，则说明通过初始声学模型得到的预测音素序列和第一训练音素序列的第一误差信息较小，此时初始声学模型完成模型优化训练。

本申请实施例提供的一种声学模型训练的方法，基于该方法可以对声学模型进行优化训练，使得训练后的声学模型对音素序列的获取有更高的准确率。

请参阅图7，图7示意性地示出了本申请实施例提供的一种语言模型的训练方法。该方法包括步骤S710至步骤S740。

步骤S710：通过初始语言模型得到第二训练音素序列对应的第一预测文本信息。

初始语言模型训练为未完成参数训练的语言模型，作为一种实施方式，初始语言模型可以是概率语法规则模型、汉语语言模型(N-gram)、神经网络模型(Neural Network)等模型。其中，神经网络模型可以是循环神经网络(Recurrent Neural Network,RNN)、卷积神经网络(Convolution Neural Network,CNN)、长短期记忆(LSTM)以及注意力转换器(Attention Transformer)等模型，在本申请中不做具体限定。第二训练音素序列为初始语言模型的训练数据，在第二训练音素序列包括第二训练标点音素，第一训练文本信息包括训练标点符号。示例性地，以第二训练音素序列为“zh,o,ng,g,u,o,sil,h,a,o”为例，则该第二训练音素序列对应的第一训练文本信息为“中国，好”。通过初始语言模型，可以将第二训练音素序列转换成第一预测文本信息。

步骤S720：获取第一预测文本信息和第一训练文本信息之间的第二误差信息。

处理器将第一预测文本信息和第一训练文本信息进行比对，得到二者之间的第二误差信息。作为一种实施方式，可以将第一预测文本信息转换成第三特征矩阵，将第一训练文本信息转换成第四特征矩阵，通过计算第三特征矩阵和第四特征矩阵之间的差值得到第二误差信息。可选地，第二误差信息也可以通过最大似然估计(maximum likelihoodestimation)、交叉熵损失函数(cross entropy loss function)以及最大互信息估计(maximum mutual information estimation)等方式确定。

步骤S730：若第二误差信息不符合第二预设条件，则基于第二误差信息、第二优化函数对初始语言模型进行参数优化，并从通过初始语言模型得到第二训练音素序列对应的第一预测文本信息的步骤重新开始执行。

第二预设条件用于表征是否完成参数优化训练的条件，若第二误差信息不符合第二预设条件，则说明通过初始语言模型得到的第一预测文本信息和第一训练文本信息之间的误差较大，需要对初始语言模型中的参数进行优化调整。在一些实施例中，第二预设条件是指第一预测文本信息和第一训练文本信息之间的第二误差信息小于第二预设值。上述第二预设值根据语言模型的精度要求实际确定。若语言模型的精度要求较高，则第二预设值较小，若语言模型的精度要求较低，则第二预设值较大。

第二优化函数表征对初始语言模型的模型参数进行优化调整的函数，第二优化函数包括但不限于批量梯度下降函数、随机梯度下降函数、自适应优化函数。第二优化函数以第二误差信息为输入，对初始语言模型中的参数进行优化调整，以使得通过优化调整后的初始语言模型输出的第一预测文本信息可以更加接近于第一训练文本信息。

进一步地，将优化调整后的初始语言模型替代步骤S710中的初始语言模型，并从步骤S710重新开始执行。

步骤S740：若第二误差信息符合第二预设条件，则获取完成训练的初始语言模型。

若第二误差信息符合第二预设条件，则说明通过初始语言模型得到的第一预测文本信息和第一训练文本信息的第二误差信息较小，此时初始语言模型完成模型优化训练。

在一些实施例中，在语言模型完成优化训练之后，还包括模型微调优化的步骤。在模型微调优化步骤中，采用第二训练文本信息进行微调优化。第二训练文本信息表征为新场景下的训练文本信息，新场景为与第一训练文本信息对应的场景所不同的场景。示例性地，在语言模型优化训练中采用的第一训练文本信息来自于日常生活的场景，而在语言模型微调优化中，采用的第二训练文本信息来自于学术会议的场景。通过新领域下的第二训练文本信息对语言模型进行微调优化，使得该语言模型可以更好地适应新领域下的音频片段。

作为一种实施方式，可以通过迁移学习的方式来实现对语言模型的微调优化。具体地，若语言模型是基于神经网络模型训练得到的，则在迁移学习时，降低模型的训练速率(learning rate)。示例性地，可以将训练速率降低为原训练速率的50％，原训练速率为语言模型在模型训练时的速率，以原训练速率为0.001为例，则在迁移学习时对应的训练速率调整至0.0005。若语言模型是基于汉语语言模型(N-gram)训练得到的，则在迁移学习时，通过插值方式将新领域下的第二训练文本信息补充至原语言模型中，且第二训练文本信息对应的权重的取值范围为0.1-0.4。

在本实施例中，给出了一种通过迁移学习对语言模型的微调优化的方法，使得语言模型对不同领域下的音频片段有更佳的适应能力，同时在迁移学习中，只需要第二训练文本信息，而不需要第二训练文本信息对应的音频片段，降低了训练数据的获取难度。

本申请实施例提供的一种语言模型训练的方法，基于该方法可以对语言模型进行优化训练，使得训练后的语言模型对文本信息的识别有更高的准确率。

请参阅图8，其示出了本申请实施例提供的一种基于声学模型和语言模型的音频识别装置800的结构框图。该装置800包括：音频片段获取模块810、声学模型处理模块820和语言模型处理模块830。其中，音频片段获取模块810用于获取音频片段。声学模型处理模块820用于基于声学模型对音频片段进行处理，得到音频片段对应的音素序列，音素序列包括用于表征标点符号的标点音素，声学模型是通过第一训练音频片段对初始声学模型训练得到的，第一训练音频片段标注有第一训练音素序列，第一训练音素序列包括第一训练标点音素。语言模型处理模块830用于基于语言模型对音素序列进行处理，得到音素序列对应的文本信息，文本信息包括标点符号，语言模型是通过第二训练音素序列对预设语言模型训练得到的，第二训练音素序列标注有第一训练文本信息，第二训练音素序列包括第二训练标点音素，第一训练文本信息包括训练标点符号。

在一些实施例中，语言模型处理模块830还用于基于语言模型对音素序列进行处理，得到至少一个候选文本的候选概率，候选概率表征候选文本为音素序列对应的文本信息的概率。将最大候选概率对应的候选文本确定为音素序列对应的文本信息。

在一些实施例中，候选文本包括至少一个候选文字和至少一个候选标点符号，候选文字对应有文字候选概率，候选标点符号对应有标点符号候选概率。语言模型处理模块830还用于基于语言模型对音素序列进行处理，得到至少一个候选文本对应的至少一个文字候选概率；基于语言模型对音素序列进行处理，得到至少一个候选文本对应的至少一个标点符号候选概率；将至少一个文字候选概率和至少一个标点符号候选概率的乘积确定为至少一个候选文本的候选概率。

在一些实施例中，语言模型处理模块830还用于检测候选文本中的目标词语是否存在于热词库中；若候选文本中的目标词语存在于热词库中，则对目标词语对应的文字候选概率进行更新，更新后的目标词语对应的文字候选概率大于更新前的目标词语对应的文字候选概率。

在一些实施例中，语言模型处理模块830还用于将目标词语对应的文字候选概率和第一映射因子之间的乘积，确定为更新后的目标词语对应的文字候选概率，第一映射因子大于一。

在一些实施例中，语言模型处理模块830还用于基于预设映射表将候选文本中的第一词语替换为第二词语，预设映射表包括至少一个错误识别结果，和错误识别结果对应的正确识别结果；第一词语为预设映射表中的错误识别结果，第二词语为预设映射表中的正确识别结果。对第一词语对应的文字候选概率进行更新，更新后的第一词语对应的文字候选概率大于更新前的第一词语对应的文字候选概率。

在一些实施例中，音频片段包括至少一个停顿片段，停顿片段表征响度值小于预设响度值且时长大于或等于预设时长的片段。声学模型处理模块820还用于基于声学模型对音频片段进行处理，确定至少一个停顿片段。基于至少一个停顿片段，确定至少一个停顿片段的位置信息，位置信息表征停顿片段在音频片段中的位置。基于位置信息，得到音频片段对应的音素序列，音素序列包括至少一个用于表征标点符号的标点音素，标点音素包括安静音，和/或，不明音。

在一些实施例中，声学模型处理模块820还用于基于声学模型，获取音频片段在不同时刻对应的响度值。将响度值小于预设响度值对应的音频子片段确定为候选停顿片段。若候选停顿片段的音频时长大于或等于预设时长，则将候选停顿片段确定为停顿片段。

在一些实施例中，装置800还包括：声学模型训练模块(图中未示出)。其中，声学模型训练模块(图中未示出)用于通过初始声学模型得到第一训练音频片段对应的预测音素序列。获取预测音素序列和第一训练音素序列之间的第一误差信息。若第一误差信息不符合第一预设条件，则基于第一误差信息、第一优化函数对初始声学模型进行参数优化，并从通过初始声学模型得到第一训练音频片段对应的预测音素序列的步骤重新开始执行。若第一误差信息符合第一预设条件，则获取完成训练的初始声学模型。

在一些实施例中，装置800还包括：语言模型训练模块(图中未示出)。其中，语言模型训练模块(图中未示出)用于通过初始语言模型得到第二训练音素序列对应的第一预测文本信息。获取第一预测文本信息和第一训练文本信息之间的第二误差信息。若第二误差信息不符合第二预设条件，则基于第二误差信息、第二优化函数对初始语言模型进行参数优化，并从通过初始语言模型得到第二训练音素序列对应的第一预测文本信息的步骤重新开始执行。若第二误差信息符合第二预设条件，则获取完成训练的预设语言模型。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

本申请提供了一种基于声学模型和语言模型的音频识别装置，该装置通过声学模型确定音频片段中停顿片段的位置信息，在确定位置信息的情况下进一步确定包括标点音素的音素序列；进一步通过语言模型得到至少一个候选文本的候选概率，并将最大候选概率对应的候选文本确定为音素序列对应的文本信息。本装置无需引入其他的标点模块和搜索模块对纯文本信息进行处理，通过声学模型和语言模型可以直接得到音频片段对应的带有标点符号的文本信息，使得音频识别更加方便和高效。

请参阅图9，本申请实施例还提供一种电子设备900，该电子设备900包括：一个或多个处理器910、存储器920以及一个或多个应用程序。其中，一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于执行上述的用于基于声学模型和语言模型的音频识别方法。

处理器910可以包括一个或者多个处理核。处理器910利用各种接口和线路连接整个电池管理系统内的各种部分，通过运行或执行存储在存储器920内的指令、程序、代码集或指令集，以及调用存储在存储器920内的数据，执行电池管理系统的各种功能和处理数据。可选地，处理器910可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器910可集成中央处理器910(Central Processing Unit，CPU)、图像处理器910(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器910中，单独通过一块通信芯片进行实现。

存储器920可以包括随机存储器920(Random Access Memory，RAM)，也可以包括只读存储器920(Read-Only Memory)。存储器920可用于存储指令、程序、代码、代码集或指令集。存储器920可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各种方法实施例的指令等。存储数据区还可以存储电子设备图在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

在一些实施例中，电子设备900还包括麦克风930。麦克风930是一种拾取声音的传感器，主要用来收集音频片段，并将音频片段转化为电信号传输至处理器910进行音频识别。麦克风930可以是和电子设备900建立有线/无线连接的话筒，和电子设备900建立有线/无线连接的耳机上的麦克风组件等等，也可以是设置于电子设备900内部的麦克风组件，本申请实施例对麦克风930的具体类型不作限定。

在一些实施例中，电子设备900还包括显示装置940。显示装置940用于显示对上述音频片段识别后的带有标点符号的文本信息。显示装置940可以是LED显示屏、液晶(LiquidCrystal Display,LCD)显示屏、阴极射线管(Cathode Ray Tube,CRT)显示器等等，本申请实施例对显示装置940的具体类型不作限定。

请参阅图10，其示出了本申请实施例还提供一种计算机可读存储介质1000，该计算机可读存储介质1000中存储有计算机程序指令1010，计算机程序指令1010可被处理器调用以执行上述实施例中所描述的方法。

计算机可读存储介质可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质包括非易失性计算机可读存储介质(non-transitory computer-readable storage medium)。计算机可读存储介质1000具有执行上述方法中的任何方法步骤的计算机程序指令1010的存储空间。这些计算机程序指令1010可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。计算机程序指令1010可以以适当形式进行压缩。

以上，仅是本申请的较佳实施例而已，并非对本申请作任何形式上的限制，虽然本申请已以较佳实施例揭示如上，然而并非用以限定本申请，任何本领域技术人员，在不脱离本申请技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本申请技术方案内容，依据本申请的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本申请技术方案的范围内。

Claims

1.一种基于声学模型和语言模型的音频识别方法，其特征在于，所述方法包括：

获取音频片段；

基于声学模型对所述音频片段进行处理，得到所述音频片段对应的音素序列，所述音素序列包括用于表征标点符号的标点音素，所述声学模型是通过第一训练音频片段对初始声学模型训练得到的，所述第一训练音频片段标注有第一训练音素序列，所述第一训练音素序列包括第一训练标点音素；

基于语言模型对所述音素序列进行处理，得到所述音素序列对应的文本信息，所述文本信息包括标点符号，所述语言模型是通过第二训练音素序列对初始语言模型训练得到的，所述第二训练音素序列标注有第一训练文本信息，所述第二训练音素序列包括第二训练标点音素，所述第一训练文本信息包括训练标点符号。

2.根据权利要求1所述的方法，其特征在于，所述基于语言模型对所述音素序列进行处理，得到所述音素序列对应的文本信息，包括：

基于所述语言模型对所述音素序列进行处理，得到至少一个候选文本的候选概率，所述候选概率表征所述候选文本为所述音素序列对应的文本信息的概率；

将最大候选概率对应的候选文本确定为所述音素序列对应的文本信息。

3.根据权利要求2所述的方法，其特征在于，所述候选文本包括至少一个候选文字和至少一个候选标点符号，所述候选文字对应有文字候选概率，所述候选标点符号对应有标点符号候选概率；所述基于所述语言模型对所述音素序列进行处理，得到至少一个候选文本的候选概率，包括：

基于所述语言模型对所述音素序列进行处理，得到至少一个候选文本对应的至少一个所述文字候选概率；

基于所述语言模型对所述音素序列进行处理，得到至少一个候选文本对应的至少一个所述标点符号候选概率；

将至少一个所述文字候选概率和至少一个所述标点符号候选概率的乘积确定为至少一个候选文本的候选概率。

4.根据权利要求3所述的方法，其特征在于，所述基于所述语言模型对所述音素序列进行处理，得到至少一个候选文本对应的至少一个所述文字候选概率之后，还包括：

检测所述候选文本中的目标词语是否存在于热词库中；

若所述候选文本中的目标词语存在于所述热词库中，则对所述目标词语对应的文字候选概率进行更新，更新后的所述目标词语对应的文字候选概率大于更新前的所述目标词语对应的文字候选概率。

5.根据权利要求4所述的方法，其特征在于，所述若所述候选文本中的目标词语存在于所述热词库中，则对所述目标词语对应的文字候选概率进行更新，包括：

将所述目标词语对应的文字候选概率和第一映射因子之间的乘积，确定为所述更新后的所述目标词语对应的文字候选概率，所述第一映射因子大于一。

6.根据权利要求3所述的方法，其特征在于，所述基于所述语言模型对所述音素序列进行处理，得到至少一个候选文本对应的至少一个所述文字候选概率之后，还包括：

基于预设映射表将所述候选文本中的第一词语替换为第二词语，所述预设映射表包括至少一个错误识别结果，和所述错误识别结果对应的正确识别结果；所述第一词语为所述预设映射表中的所述错误识别结果，所述第二词语为所述预设映射表中的所述正确识别结果；

对第一词语对应的文字候选概率进行更新，更新后的所述第一词语对应的文字候选概率大于更新前的所述第一词语对应的文字候选概率。

7.根据权利要求1所述的方法，其特征在于，所述音频片段包括至少一个停顿片段，所述停顿片段表征响度值小于预设响度值且时长大于或等于预设时长的片段，所述基于声学模型对所述音频片段进行处理，得到所述音频片段对应的音素序列，包括：

基于声学模型对所述音频片段进行处理，确定至少一个所述停顿片段；

基于至少一个所述停顿片段，确定至少一个所述停顿片段的位置信息，所述位置信息表征所述停顿片段在所述音频片段中的位置；

基于所述位置信息，得到所述音频片段对应的音素序列，所述音素序列包括至少一个用于表征标点符号的标点音素，所述标点音素包括安静音，和/或，不明音。

8.根据权利要求7所述的方法，所述基于声学模型对所述音频片段进行处理，确定至少一个所述停顿片段，包括：

基于所述声学模型，获取所述音频片段在不同时刻对应的响度值；

将所述音频片段中响度值小于所述预设响度值的音频子片段确定为候选停顿片段；

若所述候选停顿片段的时长大于或等于所述预设时长，则将所述候选停顿片段确定为所述停顿片段。

9.根据权利要求1至8任一项所述的方法，其特征在于，所述声学模型的训练过程如下：

通过初始声学模型得到所述第一训练音频片段对应的预测音素序列；

获取所述预测音素序列和所述第一训练音素序列之间的第一误差信息；

若第一误差信息不符合第一预设条件，则基于所述第一误差信息、第一优化函数对所述初始声学模型进行参数优化，并从所述通过初始声学模型得到所述第一训练音频片段对应的预测音素序列的步骤重新开始执行；

若所述第一误差信息符合所述第一预设条件，则获取完成训练的所述初始声学模型。

10.根据权利要求1至8任一项所述的方法，其特征在于，所述语言模型的训练过程如下：

通过初始语言模型得到所述第二训练音素序列对应的第一预测文本信息；

获取所述第一预测文本信息和所述第一训练文本信息之间的第二误差信息；

若第二误差信息不符合第二预设条件，则基于所述第二误差信息、第二优化函数对所述初始语言模型进行参数优化，并从所述通过初始语言模型得到所述第二训练音素序列对应的第一预测文本信息的步骤重新开始执行；

若所述第二误差信息符合所述第二预设条件，则获取完成训练的所述预设语言模型。