CN115312062A

CN115312062A - 基于端云一体识别语音信号的方法、系统和计算机设备

Info

Publication number: CN115312062A
Application number: CN202210730170.XA
Authority: CN
Inventors: 王洲; 曹作安; 王强强; 付涛; 商迎新
Original assignee: Beijing Yunsizhixue Technology Co ltd
Current assignee: Beijing Yunsizhixue Technology Co ltd
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-11-08

Abstract

本发明提供一种基于端云一体识别语音信号的方法，应用于云端，该方法包括：接收终端发送的识别语音信号的请求，该请求中包含待识别语音信号和所述终端的标识，根据终端的标识，确定终端的处理语音信号的等级，当终端的处理语音信号的等级大于等于预设阈值时，向终端返回本地处理待识别语音信号的指令，当终端的处理语音信号的等级小于预设阈值时，该云端对待识别语音信号进行识别，得到待语音信号中各音素的评测分数，并实时向终端展示待语音信号中各音素的评测分数，以此方式可以根据终端的处理能力，确定识别待识别语音信号的设备，这样可以减少云端识别语音信号的压力，有效地避免因识别任务较多导致无法实时返回识别结果的技术缺陷。

Description

基于端云一体识别语音信号的方法、系统和计算机设备

技术领域

本发明属于语音信号发音评测领域，更具体地涉及一种基于端云一体识别语音信号的方法、系统、装置、及计算机设备。

背景技术

随着互联网的快速发展，用户可以在终端上进行口语练习。例如，学生可以在终端上的APP上阅读短语，该终端可以将语音信号上传到后台服务器，该后台服务器可以对该语音信号进行识别，并实时将识别结果返回终端。但是，当识别语音信号的任务数量较多时，很难实时将识别结果返回终端，即导致在终端上延时展示，使得用户感知到该延迟，降低用户体验。

因此，有必要提供一种基于端云一体识别语音信号的方法，以解决上述问题。

发明内容

(一)要解决的技术问题

本发明旨在解决相关技术中识别语音信号的识别任务数量较多时，无法保证实时将识别结果返回终端的问题。

(二)技术方案

为解决上述技术问题，本发明的一方面提出一种基于端云一体识别语音信号的方法，应用于云端，该方法包括：接收终端发送的识别语音信号的请求，所述请求中包含待识别语音信号和所述终端的标识；根据所述终端的标识，确定所述终端的处理语音信号的等级；当所述终端的处理语音信号的等级大于等于预设阈值时，向所述终端返回本地处理所述待识别语音信号的指令；当所述终端的处理语音信号的等级小于所述预设阈值时，所述云端对所述待识别语音信号进行识别，得到所述待语音信号中各音素的评测分数；实时向所述终端展示所述待语音信号中各音素的评测分数。

根据本发明的优选实施方式，所述云端对所述待识别语音信号进行识别，得到所述待语音信号中各音素的评测分数包括：按照预设分割窗长，将所述待识别语音信号划分为多个语音块；对多个所述语音块进行识别，得到各个所述语音块中多个音素的后验概率；根据待评测文本的解码图，分别对各个所述语音块中多个音素的后验概率进行对齐处理，得到各个所述语音块的目标路径上的各音素的后验概率；根据各个所述语音块的目标路径上的各音素的后验概率，对各个所述语音块中的各音素进行评测，得到各个所述语音块中各音素的评测分数。

根据本发明的优选实施方式，所述云端中包含conformer模型；对多个所述语音块进行识别，得到各个所述语音块中多个音素的后验概率包括：将各个所述语音块分别输入所述conformer模型，通过所述conformer模型分别从各个所述语音块中提取音素特征，并基于各个所述语音块中的音素特征，分别确定各个所述语音块中多个音素的后验概率。

根据本发明的优选实施方式，根据待评测文本的解码图，分别对各个所述语音块中多个音素的后验概率进行对齐处理，得到各个所述语音块的目标路径上的各音素的后验概率包括：根据各个所述语音块中多个音素的后验概率，分别构建各个所述语音块对应的后验概率转移图，所述后验概率转移图中包含至少一条路径，该路径中包含所述语音块中至少一个音素的后验概率；根据所述解码图中待评测字符的音素拼读顺序，分别从各个所述语音块对应的至少一条路径中确定该语音块的目标路径；确定各个所述语音块的目标路径上的各音素的后验概率。

根据本发明的优选实施方式，该方法还包括：根据各个所述语音块中各音素的评测分数，确定所述待识别语音信号的评测分数；实时向所述终端展示所述待识别语音信号的评测分数。

本发明第二方面提出了一种基于端云一体识别语音信号的方法，应用于终端，该方法包括：向云端发送识别语音信号的请求，所述请求中包含待识别语音信号和所述终端的标识；接收所述云端针对所述终端的标识确定的本地处理所述待识别语音信号的指令；根据所述本地处理所述待识别语音信号的指令，对所述待识别语音信号进行识别，得到所述待语音信号中各音素的评测分数；实时展示所述待语音信号中各音素的评测分数。

根据本发明的优选实施方式，对所述待识别语音信号进行识别，得到所述待语音信号中各音素的评测分数包括：按照预设分割窗长，将所述待识别语音信号划分为多个语音块；对多个所述语音块进行识别，得到各个所述语音块中多个音素的后验概率；根据待评测文本的解码图，分别对各个所述语音块中多个音素的后验概率进行对齐处理，得到各个所述语音块的目标路径上的各音素的后验概率；根据各个所述语音块的目标路径上的各音素的后验概率，对各个所述语音块中的各音素进行评测，得到各个所述语音块中各音素的评测分数。

根据本发明的优选实施方式，所述终端中包含压缩版的conformer模型；对多个所述语音块进行识别，得到各个所述语音块中多个音素的后验概率包括：将各个所述语音块分别输入所述conformer模型，通过所述conformer模型分别从各个所述语音块中提取音素特征，并基于各个所述语音块中的音素特征，分别确定各个所述语音块中多个音素的后验概率。

根据本发明的优选实施方式，该方法还包括：根据各个所述语音块中各音素的评测分数，确定所述待识别语音信号的评测分数；实时展示所述待识别语音信号的评测分数。

本发明第三方面提出一种基于端云一体识别语音信号的系统，该系统包括：终端和云端；所述终端发送识别语音信号的请求，所述请求中包含待识别语音信号和所述终端的标识；所述云端根据所述终端的标识，确定所述终端的处理语音信号的等级；当所述终端的处理语音信号的等级大于等于预设阈值时，向所述终端返回本地处理所述待识别语音信号的指令；所述终端接收所述本地处理所述待识别语音信号的指令，并根据所述本地处理所述待识别语音信号的指令，对所述待识别语音信号进行识别，得到所述待语音信号中各音素的评测分数，实时展示所述待语音信号中各音素的评测分数；当所述终端的处理语音信号的等级小于所述预设阈值时，所述云端对所述待识别语音信号进行识别，得到所述待语音信号中各音素的评测分数，并实时向所述终端展示所述待语音信号中各音素的评测分数。

本发明第四方面提出一种基于端云一体识别语音信号的装置，应用于云端，该装置包括：接收模块，用于接收终端发送的识别语音信号的请求，所述请求中包含待识别语音信号和所述终端的标识；等级确定模块，用于根据所述终端的标识，确定所述终端的处理语音信号的等级；返回模块，用于当所述终端的处理语音信号的等级大于等于预设阈值时，向所述终端返回本地处理所述待识别语音信号的指令；识别模块，用于当所述终端的处理语音信号的等级小于所述预设阈值时，所述云端对所述待识别语音信号进行识别，得到所述待语音信号中各音素的评测分数；音素评分分数展示模块，用于实时向所述终端展示所述待语音信号中各音素的评测分数。

本发明第五方面提出一种基于端云一体识别语音信号的装置，应用于终端，其特征在于，该装置包括：发送模块，用于向云端发送识别语音信号的请求，所述请求中包含待识别语音信号和所述终端的标识；接收模块，用于接收所述云端针对所述终端的标识确定的本地处理所述待识别语音信号的指令；识别模块，用于根据所述本地处理所述待识别语音信号的指令，对所述待识别语音信号进行识别，得到所述待语音信号中各音素的评测分数；音素评测分数展示模块，用于实时展示所述待语音信号中各音素的评测分数。

本发明第六方面提出一种计算机设备，包括处理器和存储器，所述存储器用于存储计算机可执行程序，当所述计算机程序被所述处理器执行时，所述处理器执行上述第一方面或第二方面提出的一种基于端云一体识别语音信号的方法。

本发明第七方面提出一种计算机程序产品，存储有计算机可执行程序，所述计算机可执行程序被执行时，实现上述第一方面或第二方面提出的一种基于端云一体识别语音信号的方法。

(三)有益效果

与现有技术相比，本发明接收终端发送的识别语音信号的请求，该请求中包含待识别语音信号和所述终端的标识，根据终端的标识，确定终端的处理语音信号的等级，当终端的处理语音信号的等级大于等于预设阈值时，向终端返回本地处理待识别语音信号的指令，当终端的处理语音信号的等级小于预设阈值时，该云端对待识别语音信号进行识别，得到待语音信号中各音素的评测分数，并实时向终端展示待语音信号中各音素的评测分数，以此方式可以根据终端的处理能力，确定识别待识别语音信号的设备，这样可以减少云端识别语音信号的压力，有效地避免因识别任务较多导致无法实时返回识别结果的技术缺陷。

附图说明

图1是本发明实施例的基于端云一体识别语音信号的系统的示意图；

图2是本发明实施例应用于云端的基于端云一体识别语音信号的方法的一示例的流程图；

图3是本发明实施例应用于云端的基于端云一体识别语音信号的方法的另一示例的流程图；

图4是本发明实施例应用于云端的基于端云一体识别语音信号的方法的另一示例的流程图；

图5是本发明实施例应用于云端的基于端云一体识别语音信号的方法的另一示例的流程图；

图6是本发明实施例应用于终端的基于端云一体识别语音信号的方法的一示例的流程图；

图7是本发明实施例的待评测文本的解码图的示意图；

图8是本发明实施例的语音块的各音素的后验概率转移图的示意图；

图9是本发明实施例应用于云端的基于端云一体识别语音信号的装置的一示例的方框图；

图10是本发明实施例应用于云端的基于端云一体识别语音信号的装置的另一示例的方框图；

图11是本发明实施例应用于终端的基于端云一体识别语音信号的装置的一示例的方框图；

图12是本发明实施例应用于终端的基于端云一体识别语音信号的装置的另一示例的方框图；

图13是本发明的一个实施例的计算机设备的结构示意图；

图14是本发明的一个实施例的计算机程序产品的示意图。

具体实施方式

在对于具体实施例的介绍过程中，对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是，并不排除本领域技术人员可以在特定情况下，以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。

附图中的流程图仅是一种示例性的流程演示，不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤，也不代表必须按照图中所显示的的顺序执行。例如，流程图中有的操作/步骤可以分解，有的操作/步骤可以合并或部分合并，等等，在不脱离本发明的发明主旨的情况下，流程图中显示的执行顺序可以根据实际情况改变。

附图中的框图一般表示的是功能实体，并不一定必然与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理单元装置和/或微控制器装置中实现这些功能实体。

各附图中相同的附图标记表示相同或类似的元件、组件或部分，因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解，虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分，但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说，这些定语仅是用来将一者与另一者区分。例如，第一器件亦可称为第二器件，但不偏离本发明实质的技术方案。此外，术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

图1是本发明实施例的基于端云一体识别语音信号的系统的示意图。

如图1所示，基于端云一体识别语音信号的系统100包括终端和云端，其中，终端可以是终端101、102、103中的一种或多种。云端可以是后台服务器105，或还可以是由后台服务器105组成的服务器集群。

在本实施例中，终端103(也可以是终端101或102)通过网络104可以发送识别语音信号的请求，所述请求中包含待识别语音信号和所述终端的标识。

在本实施例中，后台服务器105接收终端103的标识，并根据终端103的标识，确定终端103的处理语音信号的等级。

在本实施例中，当终端103的处理语音信号的等级大于等于预设阈值时，后台服务器105通过网络104可以向终端103返回本地处理所述待识别语音信号的指令。

在本实施例中，终端103接收上述本地处理所述待识别语音信号的指令，并根据本地处理所述待识别语音信号的指令，对待识别语音信号进行识别，得到待语音信号中各音素的评测分数，实时展示待语音信号中各音素的评测分数。

在本实施例中，当终端103的处理语音信号的等级小于预设阈值时，后台服务器105对待识别语音信号进行识别，得到待语音信号中各音素的评测分数，并实时向终端103展示待语音信号中各音素的评测分数。

通过上述方式，基于端云一体识别语音信号的系统100可以根据终端的处理能力，确定识别待识别语音信号的设备，这样可以减少云端识别语音信号的压力，有效地避免因识别任务较多导致无法实时返回识别结果的技术缺陷。

图2是本发明实施例应用于云端的基于端云一体识别语音信号的方法的一示例的流程图。

如图2所示，应用于云端的基于端云一体识别语音信号的方法包括步骤S210～步骤S250。

在步骤S210中，接收终端发送的识别语音信号的请求，所述请求中包含待识别语音信号和所述终端的标识。

在步骤S220中，根据所述终端的标识，确定所述终端的处理语音信号的等级。

在步骤S230中，当所述终端的处理语音信号的等级大于等于预设阈值时，向所述终端返回本地处理所述待识别语音信号的指令。

在步骤S240中，当所述终端的处理语音信号的等级小于所述预设阈值时，所述云端对所述待识别语音信号进行识别，得到所述待语音信号中各音素的评测分数。

在步骤S250中，实时向所述终端展示所述待语音信号中各音素的评测分数。

该方法可以接收终端发送的识别语音信号的请求，该请求中包含待识别语音信号和所述终端的标识，根据终端的标识，确定终端的处理语音信号的等级，当终端的处理语音信号的等级大于等于预设阈值时，向终端返回本地处理待识别语音信号的指令，当终端的处理语音信号的等级小于预设阈值时，该云端对待识别语音信号进行识别，得到待语音信号中各音素的评测分数，并实时向终端展示待语音信号中各音素的评测分数，以此方式可以根据终端的处理能力，确定识别待识别语音信号的设备，这样可以减少云端识别语音信号的压力，有效地避免因识别任务较多导致无法实时返回识别结果的技术缺陷。

在本发明的一些实施例中，上述终端可以是用户使用的智能设备。例如，手机，台式电脑，平台电脑等等，不限于此。

在本发明的一些实施例中，上述云端可以是与上述终端安装的应用程序相关联的后台服务器。

在本发明的一些实施例中，上述终端的标识可以包含以下一项或多项：终端的出厂序列号、终端的型号、终端的处理器标识。

在本发明的一些实施例中，根据终端的标识，确定所述终端的处理语音信号的等级。例如，根据终端的出厂序列号、终端的型号、终端的处理器标识中一项或多项可以确定该终端的处理语音信号的等级。在本实施例中，该终端的处理语音信号的等级可以确定该终端是否具有处理待识别语音信号的能力。

在本发明的一些实施例中，终端中处理器的配置越高，处理语音信号的等级就越高。根据终端中处理器处理待识别语音信号的能力设置预设阈值和处理语音信号的等级。

在本发明的一些实施例中，当终端的处理语音信号的等级大于等于预设阈值时，表示该终端具有处理待识别语音信号的能力，因此云端向终端返回本地处理待识别语音信号的指令，即该识别任务由终端执行。

在本发明的一些实施例中，当终端的处理语音信号的等级小于预设阈值时，表示该终端不具有处理待识别语音信号的能力，即该识别任务由云端执行。

通过上述方式，在识别任务数量较多时，可以根据终端的处理能力，对识别任务进行分流，这样有效地避免因识别任务数量较多导致的无法实时返回识别结果的技术缺陷。

图3是本发明实施例应用于云端的基于端云一体识别语音信号的方法的另一示例的流程图。

如图3所示，上述步骤S240具体可以包括步骤S310～步骤S340。

在步骤S310中，按照预设分割窗长，将所述待识别语音信号划分为多个语音块。

在步骤S320中，对多个所述语音块进行识别，得到各个所述语音块中多个音素的后验概率。

在步骤S330中，根据待评测文本的解码图，分别对各个所述语音块中多个音素的后验概率进行对齐处理，得到各个所述语音块的目标路径上的各音素的后验概率。

在步骤S340中，根据各个所述语音块的目标路径上的各音素的后验概率，对各个所述语音块中的各音素进行评测，得到各个所述语音块中各音素的评测分数。

该方法可以按照预设分割窗长，将待识别语音信号划分为多个语音块，对多个语音块进行识别，得到各个语音块中多个音素的后验概率，根据待评测文本的解码图，分别对各个语音块中多个音素的后验概率进行对齐处理，得到各个语音块的目标路径上的各音素的后验概率，根据各个语音块的目标路径上的各音素的后验概率，对各个语音块中的各音素进行评测，得到各个语音块中各音素的评测分数，以此方式可以快速准备的获取到各音素的评测分数。

在本发明的一些实施例中，上述待识别语音信号可以是用户在阅读终端APP上展示的短语时产生的语音信号。例如，用户使用终端上的APP进行口语练习。在终端的APP上展示了各种短语拱用户练习，在用户阅读这些短语时，终端可以实时将该短语的语音信号上传至后台服务器。

在本发明的一些实施例中，按照预设分割窗长，将所述待识别语音信号划分为多个语音块。例如，以预设分割窗长，将该待识别语音信号切分成多个语音块，该语音块中包含相邻帧的多个音素。具体地，以相邻三帧分割的原则，将该待识别语音信号切分成多个语音块。在本实施例中，预设分割窗长可以根据实际情况进行设置。

音素(phone)，是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素分为元音与辅音两大类。比如，汉语音节啊(ā)只有一个音素，爱(ài)有两个音素，代(dài)有三个音素等。

音素是构成音节的最小单位或最小的语音片段，是从音质的角度划分出来的最小的线性的语音单位。音素是具体存在的物理现象。国际音标(由国际语音学会制定，用来统一标示各国语音的字母。也称为“国际语音学字母”、“万国语音学字母”)的音标符号与全人类语言的音素一一对应。

在本发明的一些实施例中，上述云端中设置有conformer模型，用于识别待识别语音信号。例如，对多个所述语音块进行识别，得到各个所述语音块中多个音素的后验概率包括：将各个所述语音块分别输入conformer模型，通过所述conformer模型分别从各个所述语音块中提取音素特征，并基于各个所述语音块中的音素特征，分别确定各个所述语音块中多个音素的后验概率。

在本实施例总，该conformer模型为声学模型，conformer模型在提取语音信号的音素特征时，可以提取该语音信号中各语音帧的局部特征，这样便于建模。相比于相关技术中HMM-GMM模型的建模能力，conformer模型的建模能力强。

在本发明的一些实施例中，在conformer模型建模之前，需要先基于待评测文本构建解码图。该解码图可以用于约束语音信号中各音素的时序。例如，待评测文本为“耳朵”。基于该“耳朵”构建出的解码图如图7所示。其中，该解码图通过四个状态的转移来约束“耳朵”的阅读顺序。例如，0粗线圆圈表示开始状态，3双圆圈表示结束状态，1和2圆圈分别表示中间状态。状态0到1，1到2，2到3，表示er_3，d，uo_0三个音素的发音顺序，即每个音素至少发生一次。在本实施例中，状态1，2，3上面每个都有自旋，表示该音素可以重复发生。

下面以一个语音块为例，通过conformer模型识别该语音块，得到该语音块中各音素的后验概率，如下表所示：

音素	t＝0	t＝1	t＝2	t＝3	t＝4
						Silence	0.000642592	0.000140824	0.00159322	0.000408508	0.000139842
er_3	0.921272	0.951229	0.00433515	0.000102055	2.64567e-05
						d	9.54412e-05	3.59278e-05	0.99104	0.00361378	0.000125777
uo_0	4.05391e-08	9.72481e-08	1.68864e-05	0.657704	0.805735
						uo_3	2.57155e-06	1.67952e-06	2.26939e-06	0.00039882	0.000163778

在本实施例中，基于表中各音素的后验概率可以构建该语音块的后验概率转移图，如图8所示的A1。A1有六个状态，状态之间的弧表示各个音素及音素的后验概率，0粗线圆圈代表开始状态，5双圆圈代表结束状态。如果音素个数为C，帧数为T，则弧路径个数为C^T。

参考图8所示的A2，基于待评测文本的解码图，对上述语音块中各音素进行对齐处理。例如，根据该解码图的音素拼读顺序可以约束该语音块中各音素的时序，这样可以快速准备的从C^T中确定出该语音块的目标路径。如A2所示，该语音块的目标路径为0-1-2-5-8-9。该目标路径上的后验概率为：0到1之间的后验概率为er_3/0.921272，1到2之间的后验概率为er_3/0.951229，2到5之间的后验概率为d/0.99104，5到8之间的后验概率为uo_0/0.657704，8到9之间的后验概率为0.805735。

在本发明的一些实施例中，根据各个所述语音块的目标路径上的各音素的后验概率，对各个所述语音块中的各音素进行评测，得到各个所述语音块中各音素的评测分数包括：针对每个所述语音块，根据该语音块的目标路径上每个音素的一个后验概率或多个后验概率，确定每个音素的评测分数。参考图7的A2，该语音块的目标路径为0-1-2-5-8-9。该目标路径上的后验概率为：0到1之间的后验概率为er_3/0.921272，1到2之间的后验概率为er_3/0.951229，2到5之间的后验概率为d/0.99104，5到8之间的后验概率为uo_0/0.657704，8到9之间的后验概率为0.805735。其中，er_3和uo_0有两个后验概率，d有一个后验概率。

在本发明的一些实施例中，根据该语音块的目标路径上每个音素的一个后验概率或多个后验概率，确定每个音素的评测分数包括：如果该目标路径上一音素有一个后验概率，将该后验概率作为该音素的评测分数；如果该目标路径上一音素有多个后验概率，基于多个后验概率求平均数，将该平均数作为该音素的评测分数。

通过上述方法处理各个语音块，可以实时获取到该语音块中各音素的评测分数，这样可以向终端快速准备的展示待评测文本对应音素的评测分数，以使得用户可以在终端实时了解到自己读音是否准确，这样可以提高体验。

图4是本发明实施例应用于云端的基于端云一体识别语音信号的方法的另一示例的流程图。

如图4所示，上述步骤S330具体可以包括步骤S410～步骤S430。

在步骤S410中，根据各个所述语音块中多个音素的后验概率，分别构建各个所述语音块对应的后验概率转移图，所述后验概率转移图中包含至少一条路径，该路径中包含所述语音块中至少一个音素的后验概率。

在步骤S420中，根据所述解码图中待评测字符的音素拼读顺序，分别从各个所述语音块对应的至少一条路径中确定该语音块的目标路径。

在步骤S430中，确定各个所述语音块的目标路径上的各音素的后验概率。

该方法可以通过待评测文本的解码图来约束各个语音块中各音素的时序，这样可以根据解码图中待评测字符的音素拼读顺序，快速准备的从各个所述语音块对应的至少一条路径中确定该语音块的目标路径，该目标路径可以作为该语音块的最优路径，即与解码图中音素拼读顺序最匹配的路径。

参考图8中的A1，根据各个语音块中多个音素的后验概率，分别可以构建各个语音块对应的后验概率转移图，该后验概率转移图中包含至少一条路径，该路径中包含所述语音块中至少一个音素的后验概率。A1有六个状态，状态之间的弧表示各个音素及音素的后验概率，0粗线圆圈代表开始状态，5双圆圈代表结束状态。如果音素个数为C，帧数为T，则弧路径个数为C^T。

参考图8中的A2，根据解码图中待评测字符的音素拼读顺序，分别可以从各个语音块对应的至少一条路径中确定该语音块的目标路径。例如，该语音块的目标路径为0-1-2-5-8-9。

参考图8中的A2，确定各个语音块的目标路径上的各音素的后验概率。例如，该目标路径上的后验概率为：0到1之间的后验概率为er_3/0.921272，1到2之间的后验概率为er_3/0.951229，2到5之间的后验概率为d/0.99104，5到8之间的后验概率为uo_0/0.657704，8到9之间的后验概率为0.805735。其中，er_3和uo_0有两个后验概率，d有一个后验概率。

在本发明的一些实施例中，上述方法可以根据各个所述语音块中各音素的评测分数，确定各音素对应字符的颜色值，并实时向终端展示基于各音素对应字符的颜色值渲染后的颜色，这样用户可以根据颜色来确定自己拼读的准确度，以使得用户可以及时根据颜色来纠正自己的读音错误。

在本发明的一些实施例中，根据各个所述语音块中各音素的评测分数，确定各音素对应字符的颜色值。例如，当音素的评测分数大于等于预设阈值时，确定该音素对应字符的颜色值为黑色对应的颜色值，在本实例中黑色表示正确。当音素的评测分数小于该预设阈值时，确定该音素对应字符的颜色值为红色对应的颜色值，在本实例中红色表示错误。

在本发明的一些实施例中，根据音素对应字符的颜色值，可以渲染该待评测短语中对应字符的颜色，并向终端实时展示基于各音素对应字符的颜色值渲染后的颜色，以使得用户可以及时获悉自己拼读的情况。

图5是本发明实施例应用于云端的基于端云一体识别语音信号的方法的另一示例的流程图。

如图5所示，上述方法还可以包括步骤S510～步骤S520。

在步骤S510中，根据各个所述语音块中各音素的评测分数，确定所述待识别语音信号的评测分数。

在步骤S520中，实时向终端展示所述待识别语音信号的评测分数。

该方法可以根据各个所述语音块中各音素的评测分数，确定所述待识别语音信号的评测分数，并实时向终端展示所述待识别语音信号的评测分数，这样用户可以及时在终端上观看到该待评测文本的综合评测结果。

图6是本发明实施例应用于终端的基于端云一体识别语音信号的方法的另一示例的流程图。

如图6所示，应用于终端的基于端云一体识别语音信号的方法包括步骤S610～步骤S640。

在步骤S610中，向云端发送识别语音信号的请求，所述请求中包含待识别语音信号和所述终端的标识。

在步骤S620中，接收所述云端针对所述终端的标识确定的本地处理所述待识别语音信号的指令。

在步骤S630中，根据所述本地处理所述待识别语音信号的指令，对所述待识别语音信号进行识别，得到所述待语音信号中各音素的评测分数。

在步骤S640中，实时展示所述待语音信号中各音素的评测分数。

该方法可以根据云端返回的本地处理所述待识别语音信号的指令，对所述待识别语音信号进行识别，得到待语音信号中各音素的评测分数，实现了在终端本地处理待识别语音信号，减轻了云端处理待识别语音信号的压力。

在本发明的一些实施例中，当云端根据终端的标识确定该终端具有处理待识别语音信号的能力时，由云端向该终端发送本地处理待识别语音信号的指令，该指令表示本次识别任务由终端执行，即通过终端来识别该待识别语音信号。

在本发明的一些实施例中，终端对待识别语音信号的识别过程与云端相同。例如，对所述待识别语音信号进行识别，得到所述待语音信号中各音素的评测分数包括：按照预设分割窗长，将所述待识别语音信号划分为多个语音块；对多个所述语音块进行识别，得到各个所述语音块中多个音素的后验概率；根据待评测文本的解码图，分别对各个所述语音块中多个音素的后验概率进行对齐处理，得到各个所述语音块的目标路径上的各音素的后验概率；根据各个所述语音块的目标路径上的各音素的后验概率，对各个所述语音块中的各音素进行评测，得到各个所述语音块中各音素的评测分数。

在本发明的一些实施例中，终端中设置有压缩版的conformer模型，用于识别待识别语音信号。例如，将各个所述语音块分别输入所述conformer模型，通过所述conformer模型分别从各个所述语音块中提取音素特征，并基于各个所述语音块中的音素特征，分别确定各个所述语音块中多个音素的后验概率。

在本发明的一些实施例中，终端对待识别语音信号的解码过程与云端相同。例如，根据待评测文本的解码图，分别对各个所述语音块中多个音素的后验概率进行对齐处理，得到各个所述语音块的目标路径上的各音素的后验概率包括：根据各个所述语音块中多个音素的后验概率，分别构建各个所述语音块对应的后验概率转移图，所述后验概率转移图中包含至少一条路径，该路径中包含所述语音块中至少一个音素的后验概率；根据所述解码图中待评测字符的音素拼读顺序，分别从各个所述语音块对应的至少一条路径中确定该语音块的目标路径；确定各个所述语音块的目标路径上的各音素的后验概率。

在本发明的一些实施例中，应用于终端的基于端云一体识别语音信号的方法还可以包括根据各个所述语音块中各音素的评测分数，确定所述待识别语音信号的评测分数，实时展示所述待识别语音信号的评测分数，这样用户可以及时在终端上观看到该待评测文本的综合评测结果。

图9是本发明实施例应用于云端的基于端云一体识别语音信号的装置的一示例的示意图。

如图9所示，应用于云端的基于端云一体识别语音信号的装置200包括接收模块210、等级确定模块220、返回模块230、识别模块240和音素评分分数展示模块250。

具体地，接收模块210，用于接收终端发送的识别语音信号的请求，所述请求中包含待识别语音信号和所述终端的标识。

等级确定模块220，用于根据所述终端的标识，确定所述终端的处理语音信号的等级。

返回模块230，用于当所述终端的处理语音信号的等级大于等于预设阈值时，向所述终端返回本地处理所述待识别语音信号的指令。

识别模块240，用于当所述终端的处理语音信号的等级小于所述预设阈值时，所述云端对所述待识别语音信号进行识别，得到所述待语音信号中各音素的评测分数。

音素评分分数展示模块250，用于实时向所述终端展示所述待语音信号中各音素的评测分数。

该应用于云端的基于端云一体识别语音信号的装置200可以接收终端发送的识别语音信号的请求，该请求中包含待识别语音信号和所述终端的标识，根据终端的标识，确定终端的处理语音信号的等级，当终端的处理语音信号的等级大于等于预设阈值时，向终端返回本地处理待识别语音信号的指令，当终端的处理语音信号的等级小于预设阈值时，该云端对待识别语音信号进行识别，得到待语音信号中各音素的评测分数，并实时向终端展示待语音信号中各音素的评测分数，以此方式可以根据终端的处理能力，确定识别待识别语音信号的设备，这样可以减少云端识别语音信号的压力，有效地避免因识别任务较多导致无法实时返回识别结果的技术缺陷。

图10是本发明实施例应用于云端的基于端云一体识别语音信号的装置的另一示例的示意图。

如图10所示，应用于云端的基于端云一体识别语音信号的装置200包括语音信号评测分数确定模块260和语音信号评测分数展示模块270。

具体地，语音信号评测分数确定模块260，用于根据各个所述语音块中各音素的评测分数，确定所述待识别语音信号的评测分数。

语音信号评测分数展示模块270，用于实时向终端展示所述待识别语音信号的评测分数

该应用于云端的基于端云一体识别语音信号的装置200可以根据各个所述语音块中各音素的评测分数，确定所述待识别语音信号的评测分数，并实时向终端展示所述待识别语音信号的评测分数，这样用户可以及时在终端上观看到该待评测短语的综合评测结果。

图11是本发明实施例应用于终端的基于端云一体识别语音信号的装置的一示例的示意图。

如图11所示，应用于终端的基于端云一体识别语音信号的装置300包括发送模块310、接收模块320、识别模块330和音素评测分数展示模块340。

具体地，发送模块310，用于向云端发送识别语音信号的请求，所述请求中包含待识别语音信号和所述终端的标识。

接收模块320，用于接收所述云端针对所述终端的标识确定的本地处理所述待识别语音信号的指令。

识别模块330，用于根据所述本地处理所述待识别语音信号的指令，对所述待识别语音信号进行识别，得到所述待语音信号中各音素的评测分数。

音素评测分数展示模块340，用于实时展示所述待语音信号中各音素的评测分数。

该应用于终端的基于端云一体识别语音信号的装置300可以根据云端返回的本地处理所述待识别语音信号的指令，对所述待识别语音信号进行识别，得到待语音信号中各音素的评测分数，实现了在终端本地处理待识别语音信号，减轻了云端处理待识别语音信号的压力。

图12是本发明实施例应用于终端的基于端云一体识别语音信号的装置的另一示例的示意图。

如图12所示，应用于终端的基于端云一体识别语音信号的装置300包括语音信号评测分数确定模块350和语音信号评测分数展示模块360。

具体地，语音信号评测分数确定模块350，用于根据各个所述语音块中各音素的评测分数，确定所述待识别语音信号的评测分数。

语音信号评测分数展示模块360，用于实时向终端展示所述待识别语音信号的评测分数

该应用于云端的基于端云一体识别语音信号的装置300可以根据各个所述语音块中各音素的评测分数，确定所述待识别语音信号的评测分数，并实时向终端展示所述待识别语音信号的评测分数，这样用户可以及时在终端上观看到该待评测短语的综合评测结果。

下面描述本发明的计算机设备实施例，该计算机设备可以视为对于上述本发明的方法和装置实施例的具体实体实施方式。对于本发明计算机设备实施例中描述的细节，应视为对于上述方法或装置实施例的补充；对于在本发明计算机设备实施例中未披露的细节，可以参照上述方法或装置实施例来实现。

图13是本发明的一个实施例的计算机设备的结构示意图，该计算机设备包括处理器和存储器，所述存储器用于存储计算机可执行程序，当所述计算机程序被所述处理器执行时，所述处理器执行实施例中任一项所述的方法，包括但不限于图2的方法。

如图13所示，计算机设备以通用计算设备的形式表现。其中处理器可以是一个，也可以是多个并且协同工作。本发明也不排除进行分布式处理，即处理器可以分散在不同的实体设备中。本发明的计算机设备并不限于单一实体，也可以是多个实体设备的总和。

所述存储器存储有计算机可执行程序，通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行，以使得计算机设备能够执行本发明的方法，或者方法中的至少部分步骤。

所述存储器包括易失性存储器，例如随机存取存储单元(RAM)和/或高速缓存存储单元，还可以是非易失性存储器，如只读存储单元(ROM)。

可选地，该实施例中，计算机设备还包括有I/O接口，其用于计算机设备与外部的设备进行数据交换。I/O接口可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

应当理解，图13显示的计算机设备仅仅是本发明的一个示例，本发明的计算机设备中还可以包括上述示例中未示出的元件或组件。例如，有些计算机设备中还包括有显示屏等显示单元，有些计算机设备还包括人机交互元件，例如按扭、键盘等。只要该计算机设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤，均可认为是本发明所涵盖的计算机设备。

图14是本发明的一个实施例的计算机程序产品的示意图。如图14所示，计算机程序产品中存储有计算机可执行程序，所述计算机可执行程序被执行时，实现本发明上述方法。所述计算机程序产品可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。所述计算机程序产品可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。所述计算机程序产品上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

通过以上对实施方式的描述，本领域的技术人员易于理解，本发明可以由能够执行特定计算机程序的硬件来实现，例如本发明的系统，以及系统中包含的电子处理单元、服务器、客户端、手机、控制单元、处理器等。本发明也可以由执行本发明的方法的计算机软件来实现，例如由微处理器、电子控制单元，客户端、服务器端等执行的控制软件来实现。但需要说明的是，执行本发明的方法的计算机软件并不限于由一个或特定个的硬件实体中执行，其也可以是由不特定具体硬件的以分布式的方式来实现。对于计算机软件，软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM，U盘，移动硬盘等)中，也可以分布式存储于网络上，只要其能使得计算机设备执行根据本发明的方法。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，本发明不与任何特定计算机、虚拟装置或者计算机设备固有相关，各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于端云一体识别语音信号的方法，应用于云端，其特征在于，该方法包括：

接收终端发送的识别语音信号的请求，所述请求中包含待识别语音信号和所述终端的标识；

根据所述终端的标识，确定所述终端的处理语音信号的等级；

当所述终端的处理语音信号的等级大于等于预设阈值时，向所述终端返回本地处理所述待识别语音信号的指令；

当所述终端的处理语音信号的等级小于所述预设阈值时，所述云端对所述待识别语音信号进行识别，得到所述待语音信号中各音素的评测分数；

实时向所述终端展示所述待语音信号中各音素的评测分数。

2.根据权利要求1所述的基于端云一体识别语音信号的方法，其特征在于，所述云端对所述待识别语音信号进行识别，得到所述待语音信号中各音素的评测分数包括：

按照预设分割窗长，将所述待识别语音信号划分为多个语音块；

对多个所述语音块进行识别，得到各个所述语音块中多个音素的后验概率；

根据待评测文本的解码图，分别对各个所述语音块中多个音素的后验概率进行对齐处理，得到各个所述语音块的目标路径上的各音素的后验概率；

根据各个所述语音块的目标路径上的各音素的后验概率，对各个所述语音块中的各音素进行评测，得到各个所述语音块中各音素的评测分数。

3.根据权利要求2所述的基于端云一体识别语音信号的方法，其特征在于，所述云端中包含conformer模型；

对多个所述语音块进行识别，得到各个所述语音块中多个音素的后验概率包括：

将各个所述语音块分别输入所述conformer模型，通过所述conformer模型分别从各个所述语音块中提取音素特征，并基于各个所述语音块中的音素特征，分别确定各个所述语音块中多个音素的后验概率。

4.根据权利要求2所述的基于端云一体识别语音信号的方法，其特征在于，根据待评测文本的解码图，分别对各个所述语音块中多个音素的后验概率进行对齐处理，得到各个所述语音块的目标路径上的各音素的后验概率包括：

根据各个所述语音块中多个音素的后验概率，分别构建各个所述语音块对应的后验概率转移图，所述后验概率转移图中包含至少一条路径，该路径中包含所述语音块中至少一个音素的后验概率；

根据所述解码图中待评测字符的音素拼读顺序，分别从各个所述语音块对应的至少一条路径中确定该语音块的目标路径；

确定各个所述语音块的目标路径上的各音素的后验概率。

5.根据权利要求2所述的基于端云一体识别语音信号的方法，其特征在于，该方法还包括：

根据各个所述语音块中各音素的评测分数，确定所述待识别语音信号的评测分数；

实时向所述终端展示所述待识别语音信号的评测分数。

6.一种基于端云一体识别语音信号的方法，应用于终端，其特征在于，该方法包括：

向云端发送识别语音信号的请求，所述请求中包含待识别语音信号和所述终端的标识；

接收所述云端针对所述终端的标识确定的本地处理所述待识别语音信号的指令；

根据所述本地处理所述待识别语音信号的指令，对所述待识别语音信号进行识别，得到所述待语音信号中各音素的评测分数；

实时展示所述待语音信号中各音素的评测分数。

7.根据权利要求6所述的基于端云一体识别语音信号的方法，其特征在于，对所述待识别语音信号进行识别，得到所述待语音信号中各音素的评测分数包括：

8.根据权利要求7所述的基于端云一体识别语音信号的方法，其特征在于，所述终端中包含压缩版的conformer模型；

9.根据权利要求7所述的基于端云一体识别语音信号的方法，其特征在于，根据待评测文本的解码图，分别对各个所述语音块中多个音素的后验概率进行对齐处理，得到各个所述语音块的目标路径上的各音素的后验概率包括：

确定各个所述语音块的目标路径上的各音素的后验概率。

10.根据权利要求7所述的基于端云一体识别语音信号的方法，其特征在于，该方法还包括：

实时展示所述待识别语音信号的评测分数。

11.一种基于端云一体识别语音信号的系统，其特征在于，该系统包括：终端和云端；

所述终端发送识别语音信号的请求，所述请求中包含待识别语音信号和所述终端的标识；

所述云端根据所述终端的标识，确定所述终端的处理语音信号的等级；

所述终端接收所述本地处理所述待识别语音信号的指令，并根据所述本地处理所述待识别语音信号的指令，对所述待识别语音信号进行识别，得到所述待语音信号中各音素的评测分数，实时展示所述待语音信号中各音素的评测分数；

当所述终端的处理语音信号的等级小于所述预设阈值时，所述云端对所述待识别语音信号进行识别，得到所述待语音信号中各音素的评测分数，并实时向所述终端展示所述待语音信号中各音素的评测分数。

12.一种基于端云一体识别语音信号的装置，应用于云端，其特征在于，该装置包括：

接收模块，用于接收终端发送的识别语音信号的请求，所述请求中包含待识别语音信号和所述终端的标识；

等级确定模块，用于根据所述终端的标识，确定所述终端的处理语音信号的等级；

返回模块，用于当所述终端的处理语音信号的等级大于等于预设阈值时，向所述终端返回本地处理所述待识别语音信号的指令；

识别模块，用于当所述终端的处理语音信号的等级小于所述预设阈值时，所述云端对所述待识别语音信号进行识别，得到所述待语音信号中各音素的评测分数；

音素评分分数展示模块，用于实时向所述终端展示所述待语音信号中各音素的评测分数。

13.一种基于端云一体识别语音信号的装置，应用于终端，其特征在于，该装置包括：

发送模块，用于向云端发送识别语音信号的请求，所述请求中包含待识别语音信号和所述终端的标识；

接收模块，用于接收所述云端针对所述终端的标识确定的本地处理所述待识别语音信号的指令；

识别模块，用于根据所述本地处理所述待识别语音信号的指令，对所述待识别语音信号进行识别，得到所述待语音信号中各音素的评测分数；

音素评测分数展示模块，用于实时展示所述待语音信号中各音素的评测分数。

14.一种计算机设备，包括处理器和存储器，所述存储器用于存储计算机可执行程序，其特征在于，当所述计算机程序被所述处理器执行时，所述处理器执行如权利要求1-5任一项所述的方法或执行如权利要求6-10任一项所述的方法。

15.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令当被处理器执行时，实现权利要求1-5任一项所述的方法或实现如权利要求6-10任一项所述的方法。