CN107016996A

CN107016996A - 一种音频数据的处理方法及装置

Info

Publication number: CN107016996A
Application number: CN201710418162.0A
Authority: CN
Inventors: 郑战海
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2017-06-06
Filing date: 2017-06-06
Publication date: 2017-08-04
Anticipated expiration: 2037-06-06
Also published as: CN107016996B

Abstract

本发明公开了一种音频数据的处理方法及装置。该方法包括：获取用户的运动状态信息；根据所述运动状态信息及预设的音频处理库，确定当前的目标音频处理模型；基于所述目标音频处理模型处理用户输入的音频数据，并对处理后的音频数据进行音频识别。利用该方法，能够在用户处于运动状态时处理用户的音频数据，实现对用户运动带来的音频差异的有效处理，从而准确有效的实现音频数据的识别，达到提升智能终端音频识别准确率的目的。

Description

一种音频数据的处理方法及装置

技术领域

本发明涉及信号处理技术领域，尤其涉及一种音频数据的处理方法及装置。

背景技术

近年来，智能终端已逐渐融入到人们的日常生活中，常见的如智能手机、平板电脑以及智能可穿戴设备等。当前的智能终端通常具备语音识别功能，而通过语音识别的信息输入也已成为用户常用的输入方法，尤其是智能可穿戴设备，由于其具有的屏幕较小，更加突出语音识别输入的优势。

然而，在运动类场景中，用户因为运动量过大或运动时间过长出现喘气比较急促的情况，此时用户向智能终端输入语音时往往不如正常状态下那么标准，与语音识别中设定的标准语音存在差异，由此，智能终端对用户运动状态下输入的音频信息进行识别时所具有的识别准确率往往较低，从而影响了用户与智能终端的信息交互。

发明内容

有鉴于此，本发明实施例提供一种音频数据的处理方法及装置，以解决运动状态下无法准确识别音频数据的问题。

第一方面，本发明实施例提供了一种音频数据的处理方法，包括：

获取用户的运动状态信息；

根据所述运动状态信息及预设的音频处理库，确定当前的目标音频处理模型；

基于所述目标音频处理模型处理用户输入的音频数据，并对处理后的音频数据进行音频识别。

第二方面，本发明实施例还提供了一种音频数据的处理装置，包括：

信息获取模块，用于获取用户的运动状态信息；

处理模型确定模块，用于根据所述运动状态信息及预设的音频处理库，确定当前的目标音频处理模型；

处理识别模块，用于基于所述目标音频处理模型处理用户输入的音频数据，并对处理后的音频数据进行音频识别。

上述音频数据的处理方法及装置，首先可以获取用户的运动状态信息；然后根据运动状态信息以及预设的音频处理库，确定当前的目标音频处理模型；最终可通过目标处理模型处理用户输入的音频数据，以及对处理后的音频数据进行音频识别。本发明实施例通过采用上述技术方案，能够在用户处于运动状态时处理用户的音频数据，实现对用户运动带来的音频差异的有效处理，从而准确有效的实现音频数据的识别，达到提升智能终端音频识别准确率的目的。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例一提供的一种音频数据的处理方法的流程示意图；

图2为本发明实施例二提供的一种音频数据的处理方法的流程示意图；

图3为本发明实施例三提供的一种音频数据的处理装置的结构框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

实施例一

图1为本发明实施例一提供一种音频数据的处理方法的流程示意图。该方法适用于对用户在运动状态下输入的语音数据进行识别处理的情况，其中，该方法可以由音频数据的处理装置执行，且该装置可由软件和/或硬件实现，一般可集成在智能终端中。可以理解的是，本实施例的智能终端具体可指智能手机、平板电脑、智能手环以及智能手表等电子设备。

需要说明的是，本发明实施例可优选适用于用户运动状态下与智能终端进行语音交互的应用场景，但并不限定于该应用场景。智能终端根据本发明实施例提供的音频数据的处理方法，可以对用户运动状态输入的语音数据进行处理，以优化智能终端的语音识别性能。

如图1所示，本发明实施例一提供的一种音频数据的处理方法，包括如下操作：

S101、获取用户的运动状态信息。

在本实施例中，可通过智能终端上的设定监测器件确定用户是否处于运动状态，并获得用户处于运动状态下的运动状态信息。示例性地，所述设定监测器件可以是设置在可穿戴手表或手环以及智能手机等智能终端中的运动传感器或重力感应器等，其中，上述设定监测器件通常与智能终端中的处理器或控制器相连。所述运动状态信息具体可用于表示用户的运动状况，如用户的运动类型、运动强度、运动时长、运动轨迹以及身体负载情况等。

具体地，本实施例可以根据设定监测器件监测用户的运动幅度或运动节奏等，由此可确定用户在设定时间段内的运动规律，从而可根据所确定的运动规律获得用户的运动模式或运动类型等信息，以作为用户的运动状态信息。可以理解的是，本实施例中运动状态信息的获取可以是实时的，也可以是周期性的(如间隔2～3秒进行一次信息获取)。

S102、根据所述运动状态信息及预设的音频处理库，确定当前的目标音频处理模型。

在本实施例中，所述音频处理库具体可理解为记录了运动状态信息与所对应音频处理模型的映射关系表，其中，所述音频处理库中的映射关系可根据音频处理结果的历史值或经验值设定。

在本实施例中，根据所获取的运动状态信息，可以在所述音频处理库中获得与之对应的目标音频处理模型，理由在于，本实施例中运动状态信息不同时，用户输入音频数据的状态就不同，此时需要根据不同的音频处理模型处理用户不同运动状态下输入的音频数据。

需要说明的是，本实施例可通过样本的训练学习获得正常状态下处于音频数据所需的标准音频处理模型，如果对标准处理模型中的参数进行不同程度的调节，则可以获取具有不同处理性能的音频处理模型，以作为不同的目标音频处理模型处理不同运动状态信息下输入的音频数据。

S103、基于所述目标音频处理模型处理用户输入的音频数据，并对处理后的音频数据进行音频识别。

在本实施例中，所述音频数据具体可以是用户直接输入的语音数据，也可以是提前录入的语音数据等。需要理解的是，如果是当前输入的语音数据，则采用当前所获取运动状态信息对应的目标音频处理模型；如果是预先录入的语音数据，则应该根据语音数据录入时用户的运动状态信息确定目标音频数据模型，此时，可认为预先录入语音数据时，同样保存了用户当时的运动状态信息。

本步骤在根据运动状态信息确定对应的目标音频处理模型后，可以将所获取的音频数据作为目标音频处理模型的输入信息，最终可输出处理后的音频数据。之后，本步骤还可以对处理后的音频数据输入相应的音频识别模型，最终实现音频数据的优化识别，从而提高音频数据识别的准确率。

在本实施例中，对音频数据的处理可以是对音频数据中噪音的过滤或对音频数据中存在间断的音频数据进行音频补偿等处理操作，可以理解的是，本实施例对音频数据进行什么样的处理操作，具体根据所选取的目标音频处理模型进行。

本发明实施例一提供的一种音频数据的处理方法，首先可以获取用户的运动状态信息；然后根据运动状态信息以及预设的音频处理库，确定当前的目标音频处理模型；最终可通过目标处理模型处理用户输入的音频数据，以及对处理后的音频数据进行音频识别。利用该方法，能够在用户处于运动状态时处理用户的音频数据，实现对用户运动带来的音频差异的有效处理，从而准确有效的实现音频数据的识别，达到提升智能终端音频识别准确率的目的。

实施例二

图2为本发明实施例二提供的一种音频数据的处理方法的流程示意图。本发明实施例二以上述实施例为基础进行优化，在本实施例中，将获取用户的运动状态信息，进一步具体化为：基于智能终端的运动传感器监测用户的运动幅度、运动节奏以及运动时长，确定用户的运动类型信息；根据所述运动时长以及检测的用户心率值，确定用户的身体机能信息；将所述运动类型信息和身体机能信息确定为用户的运动状态信息。

进一步地，本实施例设定所述运动状态信息优化包括了：运动类型信息和身体机能信息；相应的，本实施例将根据所述运动状态信息及预设的音频处理库，确定当前的目标音频处理模型，进一步优化为：如果所述身体机能信息处于设定正常范围，则在所述音频处理库中查找对应于所述运动类型信息的第一调整参数；否则，在所述音频处理库中查找对应于所述身体机能信息的第二调整参数；基于所述第一调整参数或第二调整参数调整标准音频处理模型，形成当前的目标音频处理模型。

在上述优化的基础上，本实施将基于所述目标音频处理模型处理用户输入的音频数据，进一步优化为：基于所述目标音频处理模型，对所述音频数据中的噪声数据进行过滤，或者，对所述音频数据中的丢失数据进行补偿。

此外，本实施例还进一步优化包括了：根据识别出的音频信息，生成相应的操作指令。

如图2所示，本发明实施例二提供的一种音频数据的处理方法，具体包括如下操作：

需要说明的是，本实施例优选的设定所述运动状态信息包括用户的运动类型信息和身体机能信息。其中，所述运动类型信息具体可用于表示用户的实际运动状况；所述身体机能信息具体可用于表示用户运动过程中的身体负载情况。

S201、基于智能终端的运动传感器监测用户的运动幅度、运动节奏以及运动时长，确定用户的运动类型信息。

具体地，本步骤可以通过设置于智能终端中的运动传感器(如加速度传感器、陀螺仪等)监测用户是否处于运动状态，并可确定用户运动过程中的运动轨迹、运动幅度以及运动节奏等，以在设定时间内分析确定用户的运动规律进而确定用户的运动类型，如，当确定用户的运动幅度均匀波动且不超过设定范围，同时用户的运动轨迹在不断增加，则可确定用户的运动类型为跑步；又如，当确定用户的运动节奏在设定时间内上下交替，同时几乎没有形成运动轨迹，则可确定用户的运动类型为跳绳，上述确定的运动类型均可作为用户的运动类型信息。

可以理解的是，当用户处于运动状态尤其进行幅度较大或节奏较快的运动且进行语音输入时，很容易出现声音忽高忽低的情况，进而影响了智能终端对所输入语音数据的正确识别。

本实施例还可根据智能终端的计时工具确定用户的运动时长，所述运动时长不仅可用于分析确定用户的运动类型信息，后续还可用于确定用户的运动强度，由此判定用户是否处于疲劳运动状态，以确定用户的身体机能信息。

S202、根据所述运动时长以及检测的用户心率值，确定用户的身体机能信息。

具体地，当所述运动时长超过一定值且无论用户的心率值是否超过标准心率值时，均可认为用户处于疲劳运动状态，可以表明用户当前的身体机能已超负载，此时用户很容易出现喘气以及说话断断续续的情况，该种情况同样影响智能终端对用户语音数据的识别。

同时，当运动时长较低时，如果用户的运动强度较大，可能会出现心率值超过标准值的情况，此时也可认为用户的身体机能超过正常负载，也有可能会出现喘气或说话断断续续的情况。本实施例可以通过上述操作确定用户的身体机能是否处于正常范围，并由此作为用户的身体机能信息。

S203、将所述运动类型信息和身体机能信息确定为用户的运动状态信息。

可以理解的是，上述确定的运动类型信息以及身体机能信息可看作用户的运动状态信息。

S204、确定所述身体机能信息是否处于正常范围，若是，则执行S205；若否，则执行S206。

在本实施例中，首先考虑运动状态信息中的身体机能信息是否处于正常范围，即，优选的根据身体机能信息的判定结果确定处理音频数据所需的目标音频处理模型，之后再考虑根据用户的运动类型信息进行目标音频处理模型的确定。

具体地，对身体机能信息的判定可描述为：在用户的运动时长以及心率值均处于相应的标准值时确定用户的身体机能信息为身体机能正常，即，认为所述身体机能信息处于正常范围，此时，可执行本实施例的S205；同样，本实施例可以在用户的运动时长或者心率值中的一个不符合相应的标准值时，确定用户的身体机能信息为身体机能超负载，即，认为所述身体机能信息超过正常范围，此时，需要执行本实施例的S206。

S205、在所述音频处理库中查找对应于所述运动类型信息的第一调整参数，之后执行S207。

在本实施例中，执行本步骤的条件为：运动状态信息中的身体机能信息处于正常范围内，此时主要基于运动状态信息中的运动类型信息进行目标音频处理模型的确定。需要说明的是，本实施例优选的在所述音频处理库中分别记录了各运动类型信息和各身体机能信息对应的调整参数，该调整参数具体可用于确定所需的目标音频处理模型。

因此，本步骤不能根据运动类型信息直接在音频处理库中找到相应的目标音频处理模型，而是首先在音频处理库中找到与当前的运动类型信息相匹配的第一调整参数。示例性地，确定用户的运动类型信息为跑步时，在音频处理库中查找跑步对应的调整参数并记为第一调整参数。

S206、在所述音频处理库中查找对应于所述身体机能信息的第二调整参数，之后执行S207。

同样，本实施例中执行本步骤的条件为：运动状态信息中的身体机能信息超过正常范围，此时需要根据运动状态信息中的身体机能信息进行目标音频处理模型的确定。可以理解的是，本步骤不能根据身体机能信息直接在音频处理库中找到相应的目标音频处理模型，而是在所述音频处理库中找到与当前的身体机能信息相匹配的第二调整参数。

在本实施例中，所述身体机能信息优选的以所述运动时长结合心率值的形式表示。具体地，在所述音频处理库中确定所述第二调整参数的过程可描述为：确定所述运动时长与标准运动时长的时长差，同时确定所述心率差与所述标准心率值的心率差；确定所述时长差以及所述心率差所属的取值区间；将对应于所述取值区间的调整参数确定为所述身体机能信息的第二调整参数。

可以理解的是，在所述音频处理库中，根据时长差以及心率差可能存在的取值，设定有多个取值区间，且不同取值区间对应设定有相应的调整参数，上述所设定的调整参数均有可能作为所述身体机能信息的第二调整参数。

S207、基于所述第一调整参数或第二调整参数调整标准音频处理模型，形成当前的目标音频处理模型。

在本实施例中，所述标准音频处理模型具体可理解为根据样本集训练学习构建的用于处理音频数据的音频处理模型，一般地，所述标准音频处理模型具体可用于处理用户非运动状态下输入的音频数据。

具体地，基于上述S205确定了第一调整参数或根据S206确定了第二调整参数后，本步骤可以根据所确定的调整参数调整所述标准音频处理模型，最终获得与所述第一调整参数或第二调整参数对应的目标音频处理模型。

S208、基于所述目标音频处理模型，对所述音频数据中的噪声数据进行过滤，或者，对所述音频数据中的丢失数据进行补偿。

本实施例中，在根据确定的调整参数调整形成目标音频处理模型后，可对输入目标音频处理模型的音频数据进行噪声数据的过滤操作，或者，对所输入的音频数据进行丢失数据的补偿操作。可以理解的是，本步骤可以根据具体形成的目标音频处理模型确定待执行的处理操作，即，本步骤对音频数据进行的处理操作在基于S207确定目标音频处理模型时已相应确定。

示例性地，本实施例上述步骤确定用户的身体机能信息不符合正常范围时，可认为身体机能信息对用户语音输入的影响较大，该种情况下用户通常存在频繁喘气的可能，进而可认为用户所输入的语音数据中混杂着较多的喘气声，上述喘气声相当于语音数据中的噪声数据，此时，可以根据S206中确定的第二调整参数调整形成相应的目标音频处理模型，且本步骤可根据该目标音频处理模型对输入的语音数据进行噪声数据的过滤操作。需要说明的是，本实施例中的第二调整参数与音频数据处理时噪声数据的过滤程度存在关联，该种关联可以是正比例关联。

同样，本实施例上述步骤确定用户的身体机能信息处于正常范围时，可认为运动类型信息对用户语音输入的影响较大，该种情况下用户通常根据运动幅度或节奏存在声音忽高忽低的可能，进而可认为用户所输入的语音数据中存在部分语音数据的缺失，上述确定的语音数据相当于语音数据中的丢失数据，此时，可以根据S205中确定的第一调整参数形成相应的目标音频处理模型，且本步骤可根据该目标音频处理模型对输入的语音数据进行丢失数据的补偿操作。同样可以理解的是，本实施例中的第一调整参数与音频数据处理时丢失数据的补偿程度存在关联，该种关联同样可以是正比例关联。

S209、对处理后的音频数据进行音频识别，并根据识别出的音频信息，生成相应的操作指令。

基于上述步骤完成音频数据处理后，可以通过音频数据识别模型对处理后的音频数据进行识别，同时可以根据识别出的音频信息，结合预设的指令对照表，生成相应的操作指令。本实施例可以根据所述操作指令实现用户与智能终端的信息交互。

本发明实施例二提供的一种音频数据的处理方法，具体化了运动状态信息的获取操作，同时具体化了目标音频处理模型的确定操作以及对音频数据的处理操作，此外还具体增加了指令的生成操作。利用该方法，能够根据运动传感器确定用户的运动类型以及结合心率确定用户运动时的身体机能信息，从而确定音频数据处理所需的处理模型并实现音频数据的处理，以实现对用户运动状态下所输入音频数据的优化，进而提升智能终端对用户运动状态下所输入音频数据进行识别时的准确率。

实施例三

图3为本发明实施例三提供的一种音频数据的处理装置的结构框图，该装置适用于对用户在运动状态下输入的语音数据进行识别处理的情况，且该装置可由软件和/或硬件实现，并一般可集成在智能终端。如图3所示，该装置包括：信息获取模块31、处理模型确定模块32以及处理识别模块33。

其中，信息获取模块31，用于获取用户的运动状态信息。

处理模型确定模块32，用于根据所述运动状态信息及预设的音频处理库，确定当前的目标音频处理模型。

处理识别模块33，用于基于所述目标音频处理模型处理用户输入的音频数据，并对处理后的音频数据进行音频识别。

在本实施例中，该装置首先通过信息获取模块31获取用户的运动状态信息；然后通过处理模型确定模块32根据运动状态信息及预设的音频处理库，确定当前的目标音频处理模型；最终通过处理识别模块33基于目标音频处理模型处理用户输入的音频数据，并对处理后的音频数据进行音频识别。

本发明实施例三提供的音频数据的处理装置可执行本发明任意实施例提供的音频数据的处理方法，具备执行音频数据的处理方法相应的功能模块和有益效果。利用该装置，能够在用户处于运动状态时处理用户的音频数据，实现对用户运动带来的音频差异的有效处理，从而准确有效的实现音频数据的识别，达到提升智能终端音频识别准确率的目的。

进一步地，信息获取模块31，具体可用于：基于智能终端的运动传感器监测用户的运动幅度、运动节奏以及运动时长，确定用户的运动类型信息；根据所述运动时长以及检测的用户心率值，确定用户的身体机能信息；将所述运动类型信息和身体机能信息确定为用户的运动状态信息。

此外，所述运动状态信息包括运动类型信息和身体机能信息；相应的，处理模型确定模块32，具体用于：当所述身体机能信息处于设定正常范围时，在所述音频处理库中查找对应于所述运动类型信息的第一调整参数；否则，在所述音频处理库中查找对应于所述身体机能信息的第二调整参数；基于所述第一调整参数或第二调整参数调整标准音频处理模型，形成当前的目标音频处理模型。

在上述优化的基础上，识别处理模块33，具体用于：基于所述目标音频处理模型，对所述音频数据中的噪声数据进行过滤，或者，对所述音频数据中的丢失数据进行补偿；对处理后的音频数据进行音频识别。

进一步地，该装置还包括：指令生成模块34，用于根据识别出的音频信息，生成相应的操作指令。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种音频数据的处理方法，其特征在于，包括：

获取用户的运动状态信息；

2.根据权利要求1所述的方法，其特征在于，获取用户的运动状态信息，包括：

基于智能终端的运动传感器监测用户的运动幅度、运动节奏以及运动时长，确定用户的运动类型信息；

根据所述运动时长以及检测的用户心率值，确定用户的身体机能信息；

将所述运动类型信息和身体机能信息确定为用户的运动状态信息。

3.根据权利要求1所述的方法，其特征在于，所述运动状态信息包括运动类型信息和身体机能信息；

相应的，所述根据所述运动状态信息及预设的音频处理库，确定当前的目标音频处理模型，包括：

如果所述身体机能信息处于设定正常范围，则在所述音频处理库中查找对应于所述运动类型信息的第一调整参数；否则，在所述音频处理库中查找对应于所述身体机能信息的第二调整参数；

基于所述第一调整参数或第二调整参数调整标准音频处理模型，形成当前的目标音频处理模型。

4.根据权利要求1-3任一所述的方法，其特征在于，所述基于所述目标音频处理模型处理用户输入的音频数据，包括：

基于所述目标音频处理模型，对所述音频数据中的噪声数据进行过滤，或者，对所述音频数据中的丢失数据进行补偿。

5.根据权利要求1所述的方法，其特征在于，还包括：

根据识别出的音频信息，生成相应的操作指令。

6.一种音频数据的处理装置，其特征在于，包括：

信息获取模块，用于获取用户的运动状态信息；

7.根据权利要求6所述的装置，其特征在于，信息获取模块，具体用于：

8.根据权利要求6所述的装置，其特征在于，所述运动状态信息包括运动类型信息和身体机能信息；

相应的，所述处理模型确定模块，具体用于：

当所述身体机能信息处于设定正常范围时，在所述音频处理库中查找对应于所述运动类型信息的第一调整参数；否则，在所述音频处理库中查找对应于所述身体机能信息的第二调整参数；

9.根据权利要求6-8任一所述的装置，其特征在于，所述处理识别模块，具体用于：

基于所述目标音频处理模型，对所述音频数据中的噪声数据进行过滤，或者，对所述音频数据中的丢失数据进行补偿；

对处理后的音频数据进行音频识别。

10.根据权利要求6所述的装置，其特征在于，还包括：

指令生成模块，用于根据识别出的音频信息，生成相应的操作指令。