CN110111778A

CN110111778A - 一种语音处理方法、装置、存储介质及电子设备

Info

Publication number: CN110111778A
Application number: CN201910362700.8A
Authority: CN
Inventors: 舒景辰; 梁光; 谭星; 张岱; 王正博
Original assignee: Beijing Dami Technology Co Ltd
Current assignee: Beijing Dami Technology Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-08-09
Anticipated expiration: 2039-04-30
Also published as: CN110111778B

Abstract

本申请实施例公开了一种语音处理方法、装置、存储介质及电子设备，其中，方法包括：采集所输入的测评语音集合，对所述测评语音集合中各语音词汇进行识别；当检测到在所述测评语音集合中存在无法识别的目标语音词汇时，采用音译方式获取所述目标语音词汇对应的文本词汇；输出所述文本词汇。因此，采用本申请实施例，通过对无法识别的目标语音词汇对应的文本词汇进行识别，可以提高对语音词汇识别的智能性。

Description

一种语音处理方法、装置、存储介质及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种语音处理方法、装置、存储介质及电子设备。

背景技术

作为人际交流的重要媒介，口语在实际生活中占有极其重要的地位。随着社会经济的不断发展和全球化趋势的加剧，人们对语言学习的效率以及语言评估的客观性、公正性和规模化测试提出了越来越高的要求。随着语音识别技术的不断成熟，涉及到信号处理、自然语音理解、人工智能、数据挖掘和机器学习等多个学科的智能语音评测技术也得到了越来越广泛的应用。例如，智能辅助教学系统项目在各中小学的推广，普通话口语考试系统在全国的普及等。目前市面上出现了很多辅助口语评测类的电子产品(如点读机、学习电脑)以及口语评测类应用。目前常见的口语学习场景都是指定朗读文本，然后根据学习者朗读的语音进行发音准确性和流畅度的评估。但是，指定朗读文本，就限定了学习者必须指定一个既定的题目或者内容来进行口语练习。因此，为了让学习者能够更加方便地进行口语学习，自由朗读题型便应运而生。自由朗读题型，即学习者随意选择朗读文本进行口语练习。

由于自由朗读题型没有标准答案，在对学习者自由朗读的语音进行评测时，需要先对该语音进行识别，而学习者自由朗读的文本中可能存在一些不常用词汇，现有的语音评测技术无法对这些不常用词汇进行识别，导致对语音词汇识别的智能性低。

发明内容

本申请实施例提供了一种语音处理方法、装置、存储介质及电子设备，通过对无法识别的目标语音词汇对应的文本词汇进行识别，可以提高对语音词汇识别的智能性。其技术方案如下；

第一方面，本申请实施例提供了一种语音处理方法，所述方法包括：

采集所输入的测评语音集合，对所述测评语音集合中各语音词汇进行识别；

当检测到在所述测评语音集合中存在无法识别的目标语音词汇时，采用音译方式获取所述目标语音词汇对应的文本词汇；

输出所述文本词汇。

第二方面，本申请实施例提供了一种语音处理装置，所述装置包括：

词汇识别模块，用于采集所输入的测评语音集合，对所述测评语音集合中各语音词汇进行识别；

词汇获取模块，用于当检测到在所述测评语音集合中存在无法识别的目标语音词汇时，采用音译方式获取所述目标语音词汇对应的文本词汇；

词汇输出模块，用于输出所述文本词汇。

第三方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种电子设备，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

在本申请一个或多个实施例中，对采集的测评语音集合中的各语音词汇进行识别，对于无法识别的目标语音词汇，采用音译方式获取其对应的文本词汇并进行输出，从而通过对无法识别的目标语音词汇对应的文本词汇进行识别，可以提高对语音词汇识别的智能性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语音处理系统的网络架构示意图；

图2是本申请实施例提供的一种语音处理方法的流程示意图；

图3是本申请实施例提供的一种文本词汇显示界面示意图；

图4是本申请实施例提供的一种文本词汇更正界面示意图；

图5是本申请实施例提供的一种文本词汇显示界面示意图；

图6是本申请实施例提供的一种语音处理方法的流程示意图；

图7是本申请实施例提供的一种文本词汇确认界面示意图；

图8是本申请实施例提供的一种文本词汇更正界面示意图；

图9是本申请实施例提供的一种文本词汇分类界面示意图；

图10是本申请实施例提供的一种文本词汇分类界面示意图；

图11是本申请实施例提供的一种语音处理方法的流程示意图；

图12是本申请实施例提供的一种语音处理方法的流程示意图；

图13是本申请实施例提供的一种语音处理装置的结构示意图；

图14是本申请实施例提供的一种语音处理装置的结构示意图；

图15是本申请实施例提供的一种词汇识别模块的结构示意图；

图16是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

下面结合具体的实施例对本申请进行说明。

请参见图1，为本申请实施例提供的一种语音处理系统的架构示意图。如图所示，所述语音处理系统可以包括用户100和语音处理装置200。所述语音处理装置200可以为电子设备，该电子设备包括但不限于：个人电脑、平板电脑、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中用户终端可以叫做不同的名称，例如：用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant，PDA)、5G网络或未来演进网络中的终端设备等。也可以为具备评分处理功能的服务器。

为了描述方便，本申请实施例中以语音处理装置200为用户终端为例进行说明。

如图1所示，用户100向用户终端200输入测评语音指令，用户终端200接收所述测评语音指令之后，用户终端200对用户100的测评语音指令作出响应，显示提示信息提示用户准备开始口语评测。

用户100可随意选择朗读内容开始输入测评语音。

此时，用户终端200可以通过内置的录音采集装置或外置的录音采集装置采集用户100输入的测评语音，音频采集装置可以是一个或多个话筒(也称为麦克风)。在话筒的数量为多个的情况下，多个话筒可以分布在不同的位置组成话筒阵列，用户终端通过话筒阵列获取每个话筒采集到的测评语音集合，将多个通道采集到的测评语音集合进行合并得到高保真的测评语音集合。

可选的，在音频采集装置外置的情况下，音频采集装置可以通过预设长度(如3.5mm)的耳机插口、USB接口或蓝牙将采集到的测评语音实时传输给用户终端200。用户终端200将测评语音保存至测评语音集合。用户终端200可以分多次采集用户100的测评语音集合，然后根据用户100选择指令从多个测评语音集合中选择一个最终的测评语音集合。

例如：用户小明想要测试自己的外语口语水平，此时用户小明打开手机终端的测评语音应用软件，在测评语音界面通过点击测评语音按钮发出语音测评请求，此时，手机终端响应于用户的测评语音请求，在显示屏上显示“开始语音评测”的提示消息，手机终端内置有2个麦克风，分别分布在手机终端的底部和顶部，手机终端通过2个麦克风采集用户小明的测评语音集合，对两个麦克风采集通道上采集的测试语音集合进行滤波和降噪等过程之后得到高保真的测试音频集合，并保存下来。

用户终端200对所述测评语音集合中各语音词汇进行识别，当检测到在所述测评语音集合中存在无法识别的目标语音词汇时，采用音译方式获取所述目标语音词汇对应的文本词汇，并输出所述文本词汇。

具体的，用户终端200提取所述测评语音集合中各语音词汇对应的特征参数(如各语音词汇对应的样本语音曲线)，将所述各语音词汇的特征参数与系统数据库中标准语音词汇的特征参数(如标准语音词汇对应的标准语音曲线)进行比对，然后获取各语音词汇对应的相似度集合，依据所述相似度集合判断当前语音词汇是否可以被识别，若检测无法识别，将该语音词汇确定为目标语音词汇，采用音译方式将所述目标语音词汇转换为对应文本词汇，在显示屏上显示无法识别语音词汇的提示信息，并输出对应的文本词汇。

用户终端200在获取到当前测评语音集合之后，继续获取当前测评语音的下一个测评语音，并将下一个测评语音确定为当前测评语音集合，再执行对所述测评语音集合中各语音词汇进行识别的步骤。

当检测到对所述测评语音集合识别完毕时，基于所述各语音词汇对应的相似度集合对所述测评语音集合进行评分处理，生成所述测评语音集合对应的评分。

在一个或多个实施例中，用户终端采集所输入的测评语音集合、并对所述测评语音集合中各语音词汇进行识别，若检测到所述测评语音集合中存在无法识别的目标语音词汇，则采用音译方式获取所述目标语音词汇对应的文本词汇，并输出该文本词汇，通过对无法识别的目标语音词汇对应的文本词汇进行识别及输出，可以提高对语音词汇识别的智能性；此外，可以将所述目标语音词汇及其所对应的文本词汇存入系统数据库，以保证该目标语音词汇再次出现在用户的测评语音集合中时，系统可对其进行识别，从而提高对用户测评语音集合的识别精度，进而更准确地实现对用户语音的评测，以对用户的实际口语能力提供更精确的评测、对用户提高口语能力提供更有效的帮助。

下面将结合附图2，对本申请实施例提供的语音处理方法进行详细介绍。本申请实施例以语音处理方法应用于用户终端中来举例说明。如图所示，该语音处理方法可以包括以下步骤：

S101，采集所输入的测评语音集合。

其中，所述测评语音集合可以是用户在一定时间内所朗读的语音音频的集合，其可以通过调用用户终端上的麦克风进行采集。例如：启动麦克风后，对用户朗读的语音音频进行录音，经过一段时间的录制所采集到的语音信号即为测评语音集合。

具体的，所述测评语音集合可以包括多个词汇或短语，例如：“side、beach、central、crop、go away”；可以是一段句子，例如：“Hello，my name is Lucy”；也可以是一个段落，例如“Quite a number of things have been done to help solve trafficproblems in Singapore.For example，motorists must buy a special pass if theywant to drive into the downtown business district”等。

值得一提的是，在本申请实施例中，对所述测评语音集合的语言种类不做限制。

S102，对所述测评语音集合中各语音词汇进行识别。

在本步骤中，识别操作的具体实现可以包括：对所述测评语音集合进行预处理、提取所述测评语音集合中各语音词汇的特征参数，然后采用声学模型将所述各语音词汇的特征参数与系统数据库中标准语音词汇的特征参数进行比对。其中，所述特征参数可以是频谱、发音曲线等，相应地，所述系统数据库可以是系统频谱库、系统语音曲线库等。

在一种可行的实施方式中，采用语音识别技术对测评语音集合中各语音词汇进行识别，语音识别技术是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术，主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别方法主要是模式匹配法，在训练阶段，录取词汇表中每一个词汇(即上述标准语音词汇)的语音，并将其特征矢量(即上述特征参数)作为模板(即上述标准语音词汇的特征参数)存入系统数据库；在识别阶段，将输入的语音的特征矢量(即上述特征参数)依次与系统数据库中的每个模板(即上述标准语音词汇的特征参数)进行相似度比较，将相似度最高者作为识别输出结果。

S103，当检测到在所述测评语音集合中存在无法识别的目标语音词汇时，采用音译方式获取所述目标语音词汇对应的文本词汇。

需要说明的是，所谓“无法识别”，具体意义可以是所述测评语音集合中某语音词汇的特征参数与系统数据库中任一标准语音词汇的特征参数均不能完全重合，或者所述测评语音集合中某语音词汇的特征参数与系统数据库中各标准语音词汇的特征参数比对的结果(如相似度等)均小于预设阈值等等，则将该语音词汇记为目标语音词汇，采用音译方式获取其对应的文本词汇。

具体的，采用音译方式获取目标语音词汇对应的文本词汇，即根据目标语音词汇的发音将其转换为文本形式。所述音译方式指把一种语言的词汇用另一种语言中与其发音相同或近似的语音表示出来，例如，用发音近似的汉字将英语表示出来：柠檬(lemon)、沙发(sofa)、酷(cool)、迪斯科(disco)、欧佩克(OPEC)、托福(TOEFL)、雅皮士(Yuppies)、特氟隆(teflon)、比基尼(bikini)、尤里卡(EURECA)、披头士(Beatles)、腊克(locquer)、妈咪(mummy)、朋克(punk)、黑客(hacker)、克隆(clone)等。

举例来说，采集的所述测评语音集合具体内容为“Hello，my name is Lucy”，系统对测评语音集合中的各语音词汇进行识别，由于系统数据库中的标准语音词汇不包括“Lucy”，所以语音词汇“Lucy”无法被识别，则语音词汇“Lucy”即为目标语音词汇，采用音译方式获取“Lucy”对应的文本词汇“露西”。

在一种可行的实施方式中，所述音译方式可以通过将语音分解重组来实现，例如用发音近似的汉字将英语表示出来时，先对所述目标语音词汇的语音波形进行分帧，换言之，就是将声音切分成小段，每小段称为一帧，分帧操作一般不是简单的切开，可以使用移动窗函数来实现，这里不详述；将帧识别成状态，其中，状态可以理解成比音素更细致的语音单位，通常把一个音素划分成3个状态；把状态组合成音素；把音素组合成文本词汇；例如，若干帧语音对应一个状态，每三个状态组合成一个音素，若干个音素组合成一个文本词汇。

S104，输出所述文本词汇。

具体的，将获取到的所述目标语音词汇对应的文本词汇输出，可以是输出至用户终端的显示屏幕、或者输出至系统数据库等，输出的所述文本词汇可以用于展示给用户，以判断所述文本词汇是否与用户表达的语音词汇相符；或者用于存入系统数据库，以便再次检测到所述目标语音词汇时能够将其识别。

可选地，在输出所述文本词汇后，若接收到更正指令，可以获取所述更正指令携带的正确文本词汇。所述更正指令及所述正确文本词汇可以由用户在用户终端的相关界面上输入，以使系统在输出的文本词汇与用户表达的语音词汇不相符的情况下，对文本数据进行更正。

在一种可行的实现过程中，用户终端显示界面的显示可以参照如图3至图5所示的方法，其中包括如图3所示的文本词汇显示界面，在该界面上包括“无法识别目标语音词汇”的文本提示信息和文本词汇确认界面，所述文本词汇确认界面包括“请确认以下文本词汇是否正确：”的提示信息、文本词汇的内容、“√”按钮和“×”按钮，所述“√”按钮用于触发确认所述文本词汇正确的操作，所述“×”按钮用于供用户确认所显示的文本词汇与用户表达的语音词汇不相符，进而触发下一步文本词汇更正的步骤。

进一步的，所述用户终端在文本词汇显示界面检测到“×”按钮上的单击触摸动作时，显示如图4所示的文本词汇更正界面，所述文本词汇更正界面包括“请输入正确文本词汇”的提示信息、输入框和确认按钮，所述输入框用于供用户通过用户终端输入正确文本词汇，所述确认按钮为图形界面上的一个控件，用于触发确认接收用户所输入的正确文本词汇的操作。

可以理解的是，所述测评语音集合中可能存在多个无法识别的目标语音词汇，每当检测到无法识别的目标语音词汇时，即可获取其对应的文本词汇；相应地，输出的文本词汇可以为多个，输出时可以将各目标语音词汇对应的文本词汇一起输出，也可以按照检测到各目标语音词汇的时间顺序依次输出。

在一种可行的实现过程中，用户终端显示的文本词汇显示界面如图5所示，包括“请确认以下文本词汇是否正确：”的提示信息、多个文本词汇显示框和确认按钮，所述多个文本词汇显示框用于同时显示多个文本词汇，所述确认按钮为图形界面上的一个控件，用于触发确认全部文本词汇均正确的操作。

在一个或多个实施例中，系统对采集的测评语音集合中的各语音词汇进行识别，对于无法识别的目标语音词汇，采用音译方式获取其对应的文本词汇，从而可以输出无法识别的所述目标语音词汇对应的文本词汇，通过对无法识别的目标语音词汇对应的文本词汇进行识别，可以提高对语音词汇识别的智能性；此外，还使系统对用户测评语音集合的识别更加精准，进而更准确地实现对用户语音的评测，以对用户的实际口语能力提供更精确的评测、对用户提高口语能力提供更有效的帮助。

可以理解的是，对用户语音的评测主要包括对语音质量进行的评估。一般说来，语音质量至少包括三个方面内容：清晰度、可懂度和自然度。清晰度是指语音中语音单元为意义不连贯的(如音素、声母、韵母等)单元的清晰程度；可懂度是指语音中有意义的语音单元(如单词、单句等)内容的可识别程度；自然度则与语音的保真性密切相关。在一个或多个实施例中，所述语音处理方法还能针对语音质量中的可懂度，通过提高识别精度来提高评测的精准度。

请参见图6，为本申请实施例提供了一种语音处理方法的流程示意图。本申请实施例以语音处理方法应用于用户终端中来举例说明。该语音处理方法可以包括以下步骤：

S201，采集所输入的测评语音集合。

具体可参见S101，此处不再赘述。

S202，对所述测评语音集合中各语音词汇进行识别。

具体可参见S102，此处不再赘述。

S203，当检测到在所述测评语音集合中存在无法识别的目标语音词汇时，采用音译方式获取所述目标语音词汇对应的文本词汇。

具体可参见S103，此处不再赘述。

S204，输出所述文本词汇。

具体可参见S104，此处不再赘述。

S205，响应于针对所述文本词汇输入的分类指令，获取所述分类指令携带的分类类型。

其中，所述分类指令可以是用户通过用户终端的相关界面上输入的，分类类型可以包括发音不标准词汇和生僻词汇，此外，还可以对生僻词汇进行进一步分类，例如人名、地名、节目名、菜名等等。

具体的，所述文本词汇可以输出至用户终端的显示屏，以将该文本词汇呈现给用户，用户可以基于该文本词汇在相关界面上进行操作，例如判断选择输出的文本词汇是否错误、输入正确文本词汇，是否为生僻词汇、或者是否为发音不标准词汇；可选地，若为生僻词汇，可进一步对生僻词汇进行分类选择。系统可以获取根据用户的操作所生成的文本词汇的分类指令，并获取所述分类指令携带的分类类型。

举例来说，采集所输入的测评语音集合中包括以下词汇“小朋友、大酱汤、宫崎骏、普通话”：系统对所述测评语音集合中各语音词汇进行识别，可识别语音词汇“小朋友”；检测到无法识别的目标语音词汇“大酱汤”，输出采用音译方式获得的文本词汇“大酱汤”，获取针对其输入的分类指令携带的分类类型为生僻词汇中的“菜名”；检测到无法识别的目标语音词汇“宫崎骏”，输出采用音译方式获得的文本词汇“攻其郡”，通过音译方式获得的文本词汇与用户表达的语音词汇不符，用户可以先对文本词汇进行更正(输入正确的文本词汇“宫崎骏”)后，再输入分类指令(选择生僻词汇中的“人名”一类)，以使系统获取到更正过的正确文本词汇“宫崎骏”，并获取所述分类指令对应的分类类型为生僻词汇中的“人名”；检测到发音不准确导致无法识别的目标语音词汇“普通话”，输出采用音译方式获得的文本词汇“普通发”，通过音译方式获得的文本词汇与用户表达的语音词汇不符，用户可以先对文本词汇进行更正(输入正确的文本词汇“普通话”)后，再输入分类指令(选择“发音不标准词汇”类型)，以使系统获取到更正过的正确文本词汇“普通话”，并获取所述分类指令对应的分类类型为“发音不标准词汇”。

在一种可行的实现过程中，用户终端显示的文本词汇显示界面如图5所示，包括“请确认以下文本词汇是否正确：”的提示信息、多个文本词汇显示框和确认按钮，所述用户终端在当前界面检测到某个文本词汇显示框上的单击触摸动作时，触发下一步文本词汇确认的步骤。例如，所述用户终端在检测到第二个文本词汇显示框上的单击触摸动作时，如图7所示，触发用户终端在显示界面上显示第二个文本词汇“攻其郡”对应的文本词汇确认信息。

进一步的，如图7所示文本词汇对应的文本词汇确认界面包括对应文本词汇的内容、“√”按钮和“×”按钮，当用户终端在当前界面检测到所述“√”按钮上的单击触摸动作时，触发下一步文本词汇分类的操作；当用户终端在当前界面检测到所述“×”按钮上的单击触摸动作时，触发用户终端在显示界面上显示如图8所示的文本词汇更正界面，在该界面上用户可以在输入框中输入正确文本词汇后单击触摸确认按钮，触发下一步文本词汇分类的操作。

进一步的，文本词汇分类界面如图9所示，包括“请对一下文本词汇进行分类：”分类提示信息、对应文本词汇的内容、多个分类类型按钮，所述分类类型按钮用于供用户选择当前显示的文本词汇的分类类型，例如生僻词汇、发音不标准词汇等。

进一步的，所述中用户终端在文本词汇分类界面上检测到生僻词汇对应的分类类型按钮上的单击触摸动作时，显示如图10所示的文本词汇分类界面，该界面包括输入框、确认按钮、以及多个分类类型按钮；所述多个分类类型按钮供用户对当前显示的文本词汇进行进一步分类；所述输入框用于输入分类类型，若用户认为当前显示的文本词汇不属于多个分类类型按钮上的任一分类，可在所述输入框中输入新的分类类型，输入框中可显示默认文本“请添加分类”，所述用户终端在检测到输入框被使用时可自动删除该默认文本；所述确认按钮为图形界面上的一个控件，用于触发确认接收用户所选择或所输入的分类类型的操作。

S206，基于所述分类类型对所述文本词汇进行标记。

可以理解的是，基于分类类型可以将所述文本词汇标记为发音不标准词汇、生僻词汇人名类、生僻词汇地名类、生僻词汇节目名类、生僻词汇菜名类等。

在一个或多个实施例中，系统对采集的测评语音集合中的各语音词汇进行识别，输出无法识别的目标语音词汇对应的文本词汇，通过对无法识别的目标语音词汇对应的文本词汇进行识别及输出，可以提高对语音词汇识别的智能性；响应于针对所述文本词汇的分类指令，获取所述分类指令携带的分类类型，基于分类类型对所述文本词汇进行标记，可以使输出的文本词汇更准确，从而提高对用户测评语音集合的识别精度，进而更准确地实现对用户语音的评测，以对用户的实际口语能力提供更精确的评测、对用户提高口语能力提供更有效的帮助。

请参见图11，为本申请实施例提供了一种语音处理方法的流程示意图。本申请实施例以语音处理方法应用于用户终端中来举例说明。该语音处理方法可以包括以下步骤：

S301，采集所输入的测评语音集合。

具体可参见S101，此处不再赘述。

S302，获取所述测评语音集合中各语音词汇对应的样本语音曲线。

具体的，可先对所述测评语音集合进行预处理，预处理方式包括音频信号去噪、分贝值设置等，以去除音频中的杂音干扰和弱化背景音，从而使得音频中的发音更为清晰，得到更适于语音识别的音频；然后检测所述测评语音集合中语音停顿处或静音处、对预处理后的测评语音集合进行音频分割，可以预先设置语音停顿时间间隔阈值，计算所述测评语音集合中停顿或静音持续的时间间隔，当该时间间隔大于预先设定的语音停顿时间间隔阈值时，进行音频分割，以将所述测评语音集合分割为语音词汇音频段；识别各音频段的语音曲线，即可得到各语音词汇对应的样本语音曲线。

需要说明的是，语音曲线可以是语音信号的波形。所述样本语音曲线，即评测语音集合中各语音词汇对应的语音信号的波形。

S303，将所述各语音词汇对应的样本语音曲线分别与标准语音曲线集合中各标准语音曲线进行匹配，获取所述各语音词汇对应的相似度集合。

值得一提的是，所述标准语音曲线集合可以是预先构建的系统语音曲线库中。在本步骤中，将识别得到的样本语音曲线输入到所述标准语音曲线集合中，与标准语音曲线集合中的各标准语音曲线进行匹配，一个样本语音曲线与一个标准语音曲线匹配的结果为一个相似度，将样本语音曲线分别于标准语音曲线集合中的各标准语音曲线匹配的结果为多个相似度，统计每个样本语音曲线与各标准语音曲线匹配的结果，即综合该样本语音曲线对应的多个相似度，可得到一个相似度集合。可以理解的是，每个语音词汇分别对应一个相似度集合。

S304，基于所述相似度集合对所述各语音词汇进行识别。

具体的，可以预先设置相似度阈值，若语音词汇对应的相似度集合中存在一个相似度大于所述相似度阈值，则判断该语音词汇可识别；否则判断该语音词汇不可识别。

举例来说，测评语音集合中包括语音词汇1和语音词汇2；获取语音词汇1的样本语音曲线a、语音词汇2的样本语音曲线b；将样本语音曲线a与标准语音曲线集合中的各标准语音曲线进行匹配、得到相似度集合A，将样本语音曲线b与标准语音曲线集合中的各标准语音曲线进行匹配、得到相似度集合B；相似度集合A中任一相似度均不大于预先设置的相似度阈值(例如95％)，则判断语音词汇1无法识别，将其记为目标语音词汇；相似度集合B中存在某一相似度(例如98％)大于预先设置的相似度阈值(例如95％)，则判断语音词汇2可识别，语音词汇2可视为：与样本语音曲线a的相似度为98％的标准语音曲线对应的语音词汇。

在一个或多个实施例中，某个语音词汇对应的相似度集合中可能存在多个大于所述相似度阈值的相似度，此时仍判断该语音词汇可识别，可以选择所述相似度集合中数值最大的相似度所对应的标准语音曲线，并将该语音词汇视为所选的标准语音曲线对应的语音词汇。

S305，当检测到在所述测评语音集合中存在无法识别的目标语音词汇时，采用音译方式获取所述目标语音词汇对应的文本词汇。

具体可参见S103，此处不再赘述。

S306，输出所述文本词汇。

具体可参见S104，此处不再赘述。

S307，响应于针对所述文本词汇输入的分类指令，获取所述分类指令携带的分类类型。

具体可参见S205，此处不再赘述。

S308，基于所述分类类型对所述文本词汇进行标记。

具体可参见S206，此处不再赘述。

S309，获取所述目标语音词汇对应的目标样本语音曲线。

具体的，所述目标样本语音曲线可以是步骤S302中识别的。举例来说，测评语音集合中包括无法识别的语音词汇1、可识别的语音词汇2、以及不可识别的语音词汇3，分别对应样本语音曲线a、样本语音曲线b、样本语音曲线c，则目标语音词汇包括语音词汇1和语音词汇3，目标样本语音曲线包括样本语音曲线a和样本语音曲线c。

S310，将所述目标样本语音曲线保存至系统语音曲线库中所述分类类型对应的曲线栏。

举例来说，目标语音词汇包括语音词汇1和语音词汇3，其中语音词汇1的分类类型为生僻词汇人名类、语音词汇3的分类类型为生僻词汇地名类，则将语音词汇1保存至系统语音曲线库中生僻词汇人名类曲线栏，将语音词汇3保存至系统语音曲线库中生僻词汇地名类曲线栏，以使后续再检测到下次检测到语音词汇1或语音词汇3时，系统可对其进行识别。可以理解的是，将目标样本语音曲线保存至系统语音曲线库以后，系统再次识别到该语音词汇的方法与对测评语音集合中各语音词汇的识别大致相同，具体可参见步骤S301至S304，此处不再赘述。

在一个或多个实施例中，电子设备对采集的测评语音集合中的各语音词汇进行识别，输出无法识别的目标语音词汇对应的文本词汇，通过对无法识别的目标语音词汇对应的文本词汇进行识别及输出，可以提高对语音词汇识别的智能性；响应于针对所述文本词汇的分类指令，获取所述分类指令携带的分类类型，将目标语音词汇所对应的目标样本语音曲线保存至系统语音曲线库中所述分类类型对应的曲线栏，可以完善系统语音曲线库，以使后续再检测到下次检测到该目标语音词汇时，系统可对其进行识别，从而提高对用户测评语音集合的识别精度，进而更准确地实现对用户语音的评测，以对用户的实际口语能力提供更精确的评测、对用户提高口语能力提供更有效的帮助。

请参见图12，为本申请实施例提供了一种语音处理方法的流程示意图。本申请实施例以语音处理方法应用于用户终端中来举例说明。该语音处理方法可以包括以下步骤：

S401，采集所输入的测评语音集合。

具体可参见S101，此处不再赘述。

S402，获取所述测评语音集合中各语音词汇对应的样本语音曲线。

具体可参见S302，此处不再赘述。

S403，将所述各语音词汇对应的样本语音曲线分别与标准语音曲线集合中各标准语音曲线进行匹配，获取所述各语音词汇对应的相似度集合。

具体可参见S303，此处不再赘述。

S404，获取所述相似度集合中的相似度最大值。

举例来说，标准语音曲线集合包括标准语音曲线l、标准语音曲线m、标准语音曲线n(此处仅为方便举例，需注意：实际应用中标准语音曲线集合包括的标准语音曲线的数量远不止三个)，将语音词汇1的样本语音曲线a与标准语音曲线集合中的各标准语音曲线分别进行匹配，匹配得到的相似度分别为20％、40％、80％，相似度集合A即为[20％，40％，80％]，获取相似度集合A中的相似度最大值为80％。

S405，获取所述相似度最大值指示的目标标准语音曲线，将所述目标标准语音曲线对应的目标标准语音确定为所述各语音词汇对应的标准语音。

举例来说，相似度最大值80％是将语音词汇1的样本语音曲线a与标准语音曲线集合中的标准语音曲线n进行匹配所得到的相似度，则目标标准语音曲线即为标准语音曲线n，可将其对应的目标标准语音确定为语音词汇1的标准语音。

S406，当检测到在所述测评语音集合中存在无法识别的目标语音词汇时，采用音译方式获取所述目标语音词汇对应的文本词汇。

具体可参见S103，此处不再赘述。

S407，输出所述文本词汇。

具体可参见S104，此处不再赘述。

S408，当检测到对所述测评语音集合识别完毕时，基于所述各语音词汇对应的相似度集合对所述测评语音集合进行评分处理，生成所述测评语音集合对应的评分。

在本步骤中，可以基于各语音词汇对应的相似度集合中的相似度最大值进行评分处理。举例来说，测评语音集合中包括语音词汇1和语音词汇2；获取语音词汇1的样本语音曲线a、语音词汇2的样本语音曲线b；将样本语音曲线a与标准语音曲线集合中的各标准语音曲线进行匹配、得到相似度集合A，将样本语音曲线b与标准语音曲线集合中的各标准语音曲线进行匹配、得到相似度集合B；相似度集合A中相似度最大值为80％、相似度集合A中相似度最大值为95％，则基于各语音词汇(语音词汇1和语音词汇2)对应的相似度最大值集合[80％，95％]，生成对所述测评语音集合的评分。需要注意的是，若存在无法识别的目标语音词汇(例如相似度集合中的任一相似度均不大于预先设置的相似度阈值)时，还需确认所述测评语音集合中各目标语音词汇是否为发音不标准导致无法被识别的语音词汇，并以此为依据综合评分。例如，统计所述测评语音集合中所有被标为“发音不标准词汇”的目标语音词汇的个数，在原有评分基础上进行扣分等等。

可选地，在输出所述文本词汇后，还可以根据是否接收到错误代码判断所述文本词汇是否与用户表达的语音词汇相符，并对目标语音词汇进行保存。具体的，可将所述目标语音词汇存入系统数据库，以便再次检测到所述目标语音词汇时，系统能够对其识别、并结合识别的结果对测评语音集合进行综合评分。可以理解的是，对所述目标语音词汇进行保存时，保存具体数据可以是所述目标语音词汇的特征参数，如频谱、发音曲线等；相应地，存入的所述系统数据库可以是系统频谱库、系统语音曲线库等。例如，在一个或多个实施例中，可将目标语音词汇对应的目标样本语音曲线保存至系统语音曲线库中，以便再次检测到该语音词汇时，系统能够结合该语音词汇对应的相似度集合对测评语音集合进行评分。可以理解的是，将所述目标语音词汇存入系统数据库以后，系统再次识别到该语音词汇并综合其识别结果进行评分的方法，与对测评语音集合中各语音词汇的识别及综合评分的方法大致相同，具体可参见步骤S401至S405、以及步骤S408，此处不再赘述。

在一个或多个实施例中，在接收到采集的测评语音集合后，将评测语音集合中各语音词汇对应的样本语音曲线分别与标准语音曲线集合中各标准语音曲线进行匹配，基于匹配得到的相似度集合对各语音词汇进行识别，并在识别完毕后基于所述各语音词汇对应的相似度集合对所述测评语音集合进行评分处理，生成所述测评语音集合对应的评分，可以避免因测评语音集合中存在系统无法识别的生僻词汇而导致对所述测评语音集合的评分低、避免不判断系统无法识别目标语音词汇的原因是否为发音不标准导致的而影响评分的准确性，从而提高对用户测评语音集合的识别精度，进而更准确地实现对用户语音的评测，以对用户的实际口语能力提供更精确的评测、对用户提高口语能力提供更有效的帮助。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参见图13，其示出了本申请一个示例性实施例提供的语音处理装置的结构示意图。该服务验证装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置1包括词汇识别模块11、词汇获取模块12、词汇输出模块13。

词汇识别模块11，用于采集所输入的测评语音集合，对所述测评语音集合中各语音词汇进行识别；

词汇获取模块12，用于当检测到在所述测评语音集合中存在无法识别的目标语音词汇时，采用音译方式获取所述目标语音词汇对应的文本词汇；

词汇输出模块13，用于输出所述文本词汇。

可选的，如图14所示，所述装置1还包括：

类型获取模块14，用于响应于针对所述文本词汇输入的分类指令，获取所述分类指令携带的分类类型；

词汇标记模块15，用于基于所述分类类型对所述文本词汇进行标记。

可选的，如图14所示，所述装置1还包括：

曲线获取模块16，用于获取所述目标语音词汇对应的目标样本语音曲线；

曲线保存模块17，用于将所述目标样本语音曲线保存至系统语音曲线库中所述分类类型对应的曲线栏。

可选的，如图15所示，所述词汇识别模块11，包括：

曲线获取单元111，用于获取所述测评语音集合中各语音词汇对应的样本语音曲线；

相似度获取单元112，用于将所述各语音词汇对应的样本语音曲线分别与标准语音曲线集合中各标准语音曲线进行匹配，获取所述各语音词汇对应的相似度集合；

词汇识别单元113，用于基于所述相似度集合对所述各语音词汇进行识别。

可选的，所述词汇识别单元113，具体用于：

获取所述相似度集合中的相似度最大值；

获取所述相似度最大值指示的目标标准语音曲线，将所述目标标准语音曲线对应的目标标准语音确定为所述各语音词汇对应的标准语音。

可选的，如图14所示，所述装置1还包括：

评分生成模块18，用于当检测到对所述测评语音集合识别完毕时，基于所述各语音词汇对应的相似度集合对所述测评语音集合进行评分处理，生成所述测评语音集合对应的评分。

需要说明的是，上述实施例提供的语音处理装置在执行语音处理方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音处理装置与语音处理方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在一个或多个实施例中，在接收到采集的测评语音集合后，将评测语音集合中各语音词汇对应的样本语音曲线分别与标准语音曲线集合中各标准语音曲线进行匹配，基于匹配得到的相似度集合对各语音词汇进行识别，输出无法识别的目标语音词汇对应的文本词汇，响应于针对所述文本词汇的分类指令，获取所述分类指令携带的分类类型，将目标语音词汇所对应的目标样本语音曲线保存至系统语音曲线库中所述分类类型对应的曲线栏，可以完善系统语音曲线库，以使后续再检测到下次检测到该目标语音词汇时，系统可对其进行识别；基于所述各语音词汇对应的相似度集合对所述测评语音集合进行评分处理，生成所述测评语音集合对应的评分，可以避免因测评语音集合中存在系统无法识别的生僻词汇而导致对所述测评语音集合的评分低、避免不判断系统无法识别目标语音词汇的原因是否为发音不标准导致的而影响评分的准确性，从而提高对用户测评语音集合的识别精度，进而更准确地实现对用户语音的评测，以对用户的实际口语能力提供更精确的评测、对用户提高口语能力提供更有效的帮助。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图1-图12所示实施例的方法步骤，具体执行过程可以参见图1-图12所示实施例的具体说明，在此不进行赘述。

本申请还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的语音处理方法。

请参见图16，为本申请实施例提供了一种电子设备的结构示意图。如图16所示，所述电子设备1000可以包括：至少一个处理器1001，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。

其中，通信总线1002用于实现这些组件之间的连接通信。

其中，用户接口1003可以包括显示屏(Display)、摄像头(Camera)，可选用户接口1003还可以包括标准的有线接口、无线接口。

其中，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集，以及调用存储在存储器1005内的数据，执行电子设备1000的各种功能和处理数据。可选的，处理器1001可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1001中，单独通过一块芯片进行实现。

其中，存储器1005可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图12所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音处理应用程序。

在图12所示的电子设备1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的语音处理应用程序，并具体执行以下操作：

输出所述文本词汇。

在一个实施例中，所述处理器1001还执行以下操作：

响应于针对所述文本词汇输入的分类指令，获取所述分类指令携带的分类类型；

基于所述分类类型对所述文本词汇进行标记。

在一个实施例中，所述处理器1001还执行以下操作：

获取所述目标语音词汇对应的目标样本语音曲线；

将所述目标样本语音曲线保存至系统语音曲线库中所述分类类型对应的曲线栏。

在一个实施例中，所述处理器1001在执行对所述测评语音集合中各语音词汇进行识别时，具体执行以下操作：

获取所述测评语音集合中各语音词汇对应的样本语音曲线；

将所述各语音词汇对应的样本语音曲线分别与标准语音曲线集合中各标准语音曲线进行匹配，获取所述各语音词汇对应的相似度集合；

基于所述相似度集合对所述各语音词汇进行识别。

在一个实施例中，所述处理器1001在执行对所述测评语音集合中各语音词汇进行识别时，所述基于所述相似度集合对所述各语音词汇进行识别，具体执行以下操作：

获取所述相似度集合中的相似度最大值；

在一个实施例中，所述处理器1001还执行以下操作：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

输出所述文本词汇。

2.根据权利要求1所述的方法，其特征在于，所述输出所述文本词汇之后，还包括：

基于所述分类类型对所述文本词汇进行标记。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取所述目标语音词汇对应的目标样本语音曲线；

4.根据权利要求1所述的方法，其特征在于，所述对所述测评语音集合中各语音词汇进行识别，包括：

获取所述测评语音集合中各语音词汇对应的样本语音曲线；

基于所述相似度集合对所述各语音词汇进行识别。

5.根据权利要求4所述的方法，其特征在于，所述基于所述相似度集合对所述各语音词汇进行识别，包括：

获取所述相似度集合中的相似度最大值；

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

7.一种语音处理装置，其特征在于，所述装置包括：

词汇输出模块，用于输出所述文本词汇。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

类型获取模块，用于响应于针对所述文本词汇输入的分类指令，获取所述分类指令携带的分类类型；

词汇标记模块，用于基于所述分类类型对所述文本词汇进行标记。

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～6任意一项的方法步骤。

10.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～6任意一项的方法步骤。