CN110288977A

CN110288977A - 一种数据处理方法、装置及电子设备

Info

Publication number: CN110288977A
Application number: CN201910581139.2A
Authority: CN
Inventors: 贾宸
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2019-06-29
Filing date: 2019-06-29
Publication date: 2019-09-27
Anticipated expiration: 2039-06-29
Also published as: CN110288977B

Abstract

本申请公开了一种数据处理方法、装置及电子设备，方法包括：获得多个对象的语音数据；基于所述语音数据，获得多个所述对象的发音特征；基于多个所述对象的发音特征，对具有至少近似相同的发音特征的对象进行相同处理。可见，本申请中可以对于至少近似相同的发音特征的对象的语音数据进行批量的相同处理，由此不再针对对象进行单独的处理，从而减少处理耗时，依次来提高语音处理效率。

Description

一种数据处理方法、装置及电子设备

技术领域

本申请涉及语音识别技术领域，尤其涉及一种数据处理方法、装置及电子设备。

背景技术

随着技术的发展，语音识别与处理的应用越来越广泛。而语音的发音对象各不相同，在对语音进行处理时，需要针对单个对象进行语音处理，导致处理效率较低。

以语言教育为例，随着教育规模的扩大，学员人数越来越多，由于学员之间互相独立，而每个学员都有自己的发音特点，导致对于几十名甚至上百名学生的班级来说，老师为了针对不同的学员进行针对性的发音纠正，使得发音纠正的工作效率明显较低。

因此，亟需一种能够提高语音处理效率的技术方案。

发明内容

有鉴于此，本申请提供一种数据处理方法、装置及电子设备，用以提高语音处理效率。

本申请提供了一种数据处理方法，包括：

获得多个对象的语音数据；

基于所述语音数据，获得多个所述对象的发音特征；

基于多个所述对象的发音特征，对具有至少近似相同的发音特征的对象进行相同处理。

上述方法，优选的，基于所述语音数据，获得所述对象的发音特征，包括：

基于所述语音数据，获得所述对象在所述语音数据中对应的音素序列，所述音素序列中包括至少一个音素；

利用预设的标准音素序列，对所述对象的音素序列进行特征生成，得到所述对象在所述音素上的发音特征。

上述方法，优选的，利用预设的标准音素序列，对所述对象的音素序列进行特征生成，得到所述对象在所述音素上的发音特征，包括：

利用最小编辑距离比对算法，将所述对象的音素序列与预设的标准音素序列进行音素比对，以得到所述对象在所述音素上的发音特征；

其中，所述发音特征包括：音素的前后多余音素特征、音素的前后缺失特征、音素的替换音素特征及音素的正确音素特征中的一种或任意多种的组合。

上述方法，优选的，基于多个所述对象的发音特征，对具有至少近似相同的发音特征的对象进行相同处理，包括：

利用聚类算法，对多个所述对象的发音特征进行聚类处理，得到聚类结果；

基于所述聚类结果，对具有至少近似相同的发音特征的对象进行相同处理。

上述方法，优选的，对具有至少近似相同的发音特征的对象进行相同处理，包括：

将具有至少近似相同的发音特征的对象的信息进行输出，以使得同一用户获得所述具有至少近似相同的发音特征的对象的信息。

上述方法，优选的，还包括：

基于所述具有至少近似相同的发音特征的对象的目标发音特征，生成至少一个参考发音字符，所述参考发音字符中的音素与所述目标发音特征对应的音素至少近似相同；

将所述参考发音字符进行输出，以使得所述具有至少近似相同的发音特征的对象对应的用户获得所述参考发音字符。

本申请还提供了一种数据处理装置，包括：

数据获得单元，用于获得多个对象的语音数据；

特征获得单元，用于基于所述语音数据，获得多个所述对象的发音特征；

特征处理单元，用于基于多个所述对象的发音特征，对具有至少近似相同的发音特征的对象进行相同处理。

本申请还提供了一种电子设备，包括：

声音采集装置，用于获得多个对象的语音数据；

处理器，用于基于所述语音数据，获得多个所述对象的发音特征，基于多个所述对象的发音特征，对具有至少近似相同的发音特征的对象进行相同处理。

上述电子设备，优选的，还包括：

输出装置；

其中，所述处理器通过所述输出装置将具有至少近似相同的发音特征的对象的信息进行输出，以使得同一用户获得所述具有至少近似相同的发音特征的对象的信息。

从上述技术方案可以看出，本申请公开的一种数据处理方法、装置及电子设备，在获得多个对象的语音数据之后，通过获得这些对象各自的发音特征，以达到将具有相同发音特征或近似发音特征的对象的语音数据进行相同的处理，如修改或发送等相同的处理。可见，本申请中可以对于至少近似相同的发音特征的对象的语音数据进行批量的相同处理，由此不再针对对象进行单独的处理，从而减少处理耗时，依次来提高语音处理效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一提供的一种数据处理方法的流程图；

图2为本申请实施例一提供的一种数据处理方法的另一流程图；

图3为本申请实施例二提供的一种数据处理装置的结构示意图；

图4为本申请实施例三提供的一种电子设备的结构示意图；

图5为本申请实施例三的另一结构示意图；

图6及图7分别为本申请实施例的应用示例图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，为本申请实施例一提供的一种数据处理方法的实现流程图，该方法适用于能够进行语音处理的设备中，如手机、pad或计算机等终端，用以针对多个对象的语音数据进行批量处理，以达到提高语音处理效率的目的。

具体的，本实施例中的方法可以包括以下步骤：

步骤101：获得多个对象的语音数据。

其中，本实施例中的对象可以理解为发音物体，如学生本人或者学生通过远程教学设备等。

具体的，本实施例中可以利用语音采集装置如麦克风等来采集多个对象的语音数据。

而对象的语音数据可以理解为发音物体输出的声音数据，如学生本人进行语言学习时的声音数据，或者，如学生通过远程教学设备输出的发声练习的语音数据，等等。

步骤102：基于语音数据，获得多个对象的发音特征。

其中，对象的发音特征表征对象在进行语音输出时的特点，如“L”和“n”发音不清的特点、或者“蓝的”和“男的”发音不清的特点、或者特定的字符声调发音错误特点，等等。

具体的，本实施例中可以通过对语音数据进行语音识别，以得到每个对象的发音特征。

步骤103：基于多个对象的发音特征，对具有至少近似相同的发音特征的对象进行相同处理。

具体的，本实施例中可以对多个对象的发音特征进行比对，进而找到具有完全相同的发音特征的对象，或者，可以找到具有相似的发音特征的对象，进而将这些具有相同或者相似的发音特征的对象进行相同的处理。

需要说明的是，这里至少近似相同的发音特征是指错误率高于一定阈值的发音特征，相应的，具有至少近似相同的发音特征的对象是指：其发音特征所表征的发音错误率高于一定阈值的对象。

由上述方案可知，本申请实施例一提供的一种数据处理方法，在获得多个对象的语音数据之后，通过获得这些对象各自的发音特征，以达到将具有相同发音特征或近似发音特征的对象的语音数据进行相同的处理，如修改或发送等相同的处理。可见，本实施例中可以对于至少近似相同的发音特征的对象的语音数据进行批量的相同处理，由此不再针对对象进行单独的处理，从而减少处理耗时，依次来提高语音处理效率。

在一种实现方式中，本实施例在步骤102中基于语音数据，获得对象的发音特征时，可以通过以下方式实现：

首先，基于语音数据，获得对象在语音数据中对应的音素序列，而音素序列中包含至少一个音素。其中，音素是指根据语音的自然属性划分出来的最小语音单位，本实施例中具体可以对语音数据中音节里的发音动作来分析获得，一个发音动作构成一个音素，由此得到至少一个音素，来组成音素序列。其中，音素序列中音素之间具有特定的次序，音素的次序与音素在语音数据中的发音时间对应。

其次，利用预设的标准音素序列，对对象的音素序列进行特征生成，得到对象在音素上的发音特征。其中，标准音素序列是指按照正确的发音标注来确定的标准音素组成的序列，例如，按照语音数据对应的标准语音所生成的标准音素序列，其表征每个音素的标准发音。本实施例中可以针对每个对象的音素序列，均利用标准音素序列进行特征生成，进而得到每个对象在音素方面的发音特征。

具体的，本实施例中在利用预设的标准音素序列，对所述对象的音素序列进行特征生成时，可以通过以下方式生成每个对象的发音特征：

利用最小编辑距离比对算法，将对象的音素序列与预设的标准音素序列进行音素比对，以得到对象在所述音素上的发音特征。

其中，发音特征包括：音素的前后多余音素特征、音素的前后缺失特征、音素的替换音素特征及音素的正确音素特征中的一种或任意多种的组合。其中，音素的前后多余音素特征是指：对象在该音素的前和/或后的位置上存在多余音素插入的特点；音素的前后缺失特征是指：对象在该音素的前和/或后的位置上存在音素被遗漏或缺失的特点；音素的替换音素特征是指：对象在该音素上存在音素替换导致错误的特点；音素的正确音素特征是指：对象在该音素上发音正确概率的特征。而本实施例的发音特征中可以包含以上特征中的任意一种或任意多种的组合，实际中，发音特征是四元组的形式，即四元组中包含四种特征：音素的前后多余音素特征、音素的前后缺失特征、音素的替换音素特征及音素的正确音素特征。

例如，本实施例中将每个对象的音素序列与标准语音数据对应的标准音素序列进行比对，得到每个对象如每个学生在不同上下文的不同音素上发音的插入、删除、替换错误及发音正确的分布概率特点，每个音素对应一个这样的四元组，以表现对象在该音素上的发音特点。

在一种实现方式中，本实施例中在步骤103中基于多个对象的发音特征，对具有至少近似相同的发音特征的对象进行相同处理时，可以通过以下方式实现：

首先，利用聚类算法，对多个对象的发音特征进行聚类处理，得到聚类结果。例如，利用聚类算法中的K均值聚类算法等，对多个对象的发音特征进行聚类处理，而得到的聚类结果中能够表征：属于同一个聚类的对象，以及不属于同一个聚类的对象，而属于同一聚类的对象可以理解为：具有相同的发音特征或者具有相近的发音特征的对象。

其次，基于聚类结果，对具有至少近似相同的发音特征的对象进行相同处理。具体的，基于聚类结果，将属于同一个聚类的对象即具有相同的发音特征或者具有相近的发音特征的对象进行相同的处理，此时，在同一聚类中的对象是指其发音特征所表征的发音错误率高于一定阈值的对象。

在一种实现方式中，本实施例中步骤103中对具有至少近似相同的发音特征的对象进行相同处理，可以为：

将具有至少近似相同的发音特征的对象的信息进行输出，以使得同一用户具有至少近似相同的发音特征的对象的信息，如对象标识、对象的发音特征和对象语音数据的一种或多种。

也就是说，将具有至少近似相同的发音特征的对象输出给同一个用户，对于具有不相同也不相近的发音特征的对象是输出给不同的用户的，由此，对于同一个用户来说，所获得的是具有至少近似相同的发音特征的对象的信息，如标识、语音数据和发音特征中的一种或多种，而该用户就可以针对这些对象根据其语音数据或者发音特征对这些对象的发音进行后续处理，如纠正发音或者确认发音正确等。

进一步的，本实施例中还可以在步骤103之后，还可以包括以下步骤，如图2中所示：

步骤104：基于具有至少近似相同的发音特征的对象的目标发音特征，生成至少一个参考发音字符，其中，参考发音字符中的音素与目标发音特征对应的音素至少近似相同。

具体的，本实施例中针对具有至少近似相同的发音特征的对象，可以根据这些对象的发音特征中的音素序列中的音素，来生成参考发音字符，这些参考发音字符的音素与目标发音特征中对应的音素相同或者相近。例如，A对象和B对象的发音特征相同，针对其发音特征中的音素C，生成一个参考发音字符，该参考发音字符中具有音素C1与音素C相近。

步骤105：将参考发音字符进行输出，以使得具有至少近似相同的发音特征的对象对应的用户获得参考发音字符。

也就是说，针对具有至少近似相同的发音特征的对象，可以在将其信息输出给同一用户之后，也将基于这些对象的发音特征所生成的参考发音字符输出给对应的用户，由此，用户能够获得这些对象的标识、语音数据和发音特征中的一种或多种之后，也能够获得相应的参考发音字符，进而基于参考发音字符对这些对象进行后续处理。

例如，为各个学生设置的麦克风采集到学生进行发音练习的语音数据之后，基于语音数据，获得这些学生的发音特征，进而基于这些学生的发音特征，对学生进行分组，对于同一组的学生，其发音特征至少近似相同，如对如“L”和“n”发音不清和“蓝的”和“男的”发音不清的学生分到同一组，等等，由此，将同一组的学生推荐输出给同一个老师(用户)，从而老师可以针对这一组的学生的语音数据或发音特征进行处理，如发音修正等，进一步的，本实施例中可以基于同一组的学生的发音特征来生成参考发音字符，如“蓝天”、“男篮”等字符，再将参考发音字符输出给对应的老师，老师就可以按照这些参考发音字符对这些具有至少近似相同的学生进行发音训练。

参考图3，为本申请实施例二提供的一种数据处理装置的结构示意图，该装置适用于能够进行语音处理的设备中，如手机、pad或计算机等终端，用以针对多个对象的语音数据进行批量处理，以达到提高语音处理效率的目的。

具体的，本实施例中的装置可以包括以下功能单元：

数据获得单元301，用于获得多个对象的语音数据。

特征获得单元302，用于基于所述语音数据，获得多个所述对象的发音特征。

特征处理单元303，用于基于多个所述对象的发音特征，对具有至少近似相同的发音特征的对象进行相同处理。

由上述方案可知，本申请实施例二提供的一种数据处理装置，在获得多个对象的语音数据之后，通过获得这些对象各自的发音特征，以达到将具有相同发音特征或近似发音特征的对象的语音数据进行相同的处理，如修改或发送等相同的处理。可见，本实施例中可以对于至少近似相同的发音特征的对象的语音数据进行批量的相同处理，由此不再针对对象进行单独的处理，从而减少处理耗时，依次来提高语音处理效率。

需要说明的是，以上数据处理装置中的各功能单元的具体实现可以参考前文中相应的内容，此处不再详述。

参考图4，为本申请实施例三提供的一种电子设备的结构示意图，该电子设备可以为能够进行语音处理的设备中，如手机、pad或计算机等终端，用以针对多个对象的语音数据进行批量处理，以达到提高语音处理效率的目的。

具体的，本实施例中的电子设备可以包括以下结构部件：

声音采集装置401，用于获得多个对象的语音数据。

其中，声音采集装置401可以为设置在空间内某个物体上的麦克风，以采集到多个对象的语音数据。具体的，可以分别为每个对象配置一个声音采集装置401，每个声音采集装置401采集相应对象的语音数据；或者可以只配置一个声音采集装置401，以采集所有对象的语音数据。

处理器402，用于基于所述语音数据，获得多个所述对象的发音特征，基于多个所述对象的发音特征，对具有至少近似相同的发音特征的对象进行相同处理。

具体的，本实施例中处理器402可以为中央处理器CPU(CentralProcessingUnit)，处理器402可以对多个对象的发音特征进行比对，进而找到具有完全相同的发音特征的对象，或者，可以找到具有相似的发音特征的对象，进而将这些具有相同或者相似的发音特征的对象进行相同的处理。

由上述方案可知，本申请实施例三提供的一种电子设备，在获得多个对象的语音数据之后，通过获得这些对象各自的发音特征，以达到将具有相同发音特征或近似发音特征的对象的语音数据进行相同的处理，如修改或发送等相同的处理。可见，本实施例中可以对于至少近似相同的发音特征的对象的语音数据进行批量的相同处理，由此不再针对对象进行单独的处理，从而减少处理耗时，依次来提高语音处理效率。

另外，在本实施例的电子设备中还可以包括以下结构，如图5中所示：

输出装置403，用于将数据进行输出，如包含有wifi接口或蓝牙接口的显示器或显示屏等。

其中，处理器402通过输出装置403将具有至少近似相同的发音特征的对象的信息进行输出，以使得同一用户获得具有至少近似相同的发音特征的对象的信息，具体的，同一用户通过输出装置403来获得所述对象的信息，如标识、发音特征和语音数据中的一种或多种。需要说明的是，本实施例中处理器402在将具有至少近似相同的发音特征的对象输出给同一用户时，具体可以将这些对象的标识，如学生姓名等，传输给同一用户，以使得用户通过输出装置403获得：哪些对象针对哪些发音特征或语音数据需要进行后续处理，如发音纠正等。

需要说明的是，以上电子设备中的各结构的具体实现可以参考前文中相应描述，此处不再详述。

以下以学生练习发音并由教师进行发音纠正的实例，对本实施例中的技术方案进行举例说明：

在基于教室的教学模式中，本实施例中的电子设备或终端可以设置在教室中，如图6中讲桌上的计算机所示，或者在非教室的教学模式中，可以设置在老师所在的服务器端或者设置在云端。

本实施例中可以首先根据学生上传的发音练习的语音数据进行语音识别，得到学生发声的音素序列。其次，将音素序列与标准发音所对应的音素序列进行比对，获得各学生在不同上下文下不同音素发音的插入、删除、替换错误及发音正确的分布特征。每个音素对应一个发音表现的四元组，假设考察音素个数为N，那么本实施例中可以生成一个4N维的特征向量，来表征学生在这N个音素上的发音特点。之后，本实施例中根据每个学生的发音特征和聚类算法，将学生聚类不同的簇，属于同一簇的学生即表征具有相同或相似的发音特征。最后，将发音特征相似的学生推送给同一个老师，同时系统根据相似音素生成相似单词或字，推荐给老师，老师根据推荐文本设计下次的发音练习，针对性的训练学生发音。并且在授课过程中可以针对性的传授发音技巧。

具体的，本实施例中的教学可以由以下流程，如图7中所示：

1、给学生提供初始练习文本做发音练习，从而通过麦克风等采集学生的发音，通过语音识别系统将波形wav文件转化为音素序列。需要强调的是，本实施例中不将音频文件识别成单词或字，因为不是表征发音特征的最小单元，而对于不同单词或字中可能含有相似的音素，例如world和word对应的音素序列分别为W_B ER1_I L_I D_E和W_B ER1_I D_E可以发现两个单词虽然不同，但实际发音比较相似，因此，本实施例中对音素进行识别，得到音素序列。

2、根据每个学生的所有发音音素序列和标准音素序列利用最小编辑距离比对，统计每个音素对应的插入、删除、替换错误和正确概率，以此生成四元组的发音特征，基于此，利用聚类算法对发音特征进行聚类。

3、在聚成N个簇后，根据生成的簇中发音错误最高的音素种类在发音字典中遍历发音相似的单词或字，生成报告推送给老师，报告中可以包含有与这些音素发音相似的单词或字符，还可以包含有发音错误率最高的音素对应的语音数据，还可以包括有对应的学生姓名。

4、老师在网络课堂上根据有针对性的对一个或几个发音特点进行纠正，学生如果未通过测试，继续由当前班级老师协助纠正发音，通过测试，系统自动生成和新的音素相关的发音文本，学生进行发音练习重复上述步骤1-3。

可见，本实施例中的技术方案通过对学生按照发音特点进行统一规划，由同一个老师针对具有同一发音特点的学生们进行教学，减轻了传统教育中老师针对班级中不同发音特点学生同时设计大量纠正发音方案的工作量，从而提高了教学效率。而且，本实施例中是通过语音识别的相关技术，可以智能的联想并推测出学生的潜在发音错误，从而进一步提高教学准确率，提高教学效果。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据处理方法，包括：

获得多个对象的语音数据；

基于所述语音数据，获得多个所述对象的发音特征；

2.根据权利要求1所述的方法，基于所述语音数据，获得所述对象的发音特征，包括：

3.根据权利要求2所述的方法，利用预设的标准音素序列，对所述对象的音素序列进行特征生成，得到所述对象在所述音素上的发音特征，包括：

4.根据权利要求1或2所述的方法，基于多个所述对象的发音特征，对具有至少近似相同的发音特征的对象进行相同处理，包括：

5.根据权利要求1或2所述的方法，对具有至少近似相同的发音特征的对象进行相同处理，包括：

6.根据权利要求5所述的方法，还包括：

7.一种数据处理装置，包括：

数据获得单元，用于获得多个对象的语音数据；

8.一种电子设备，包括：

声音采集装置，用于获得多个对象的语音数据；

9.根据权利要求8所述的电子设备，还包括：

输出装置；