CN113314123A

CN113314123A - 语音处理方法、电子设备及存储装置

Info

Publication number: CN113314123A
Application number: CN202110390273.1A
Authority: CN
Inventors: 吴重亮; 万根顺; 高建清; 刘聪; 王智国; 胡国平
Original assignee: iFlytek Co Ltd
Current assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2021-08-27
Anticipated expiration: 2041-04-12
Also published as: CN113314123B

Abstract

本申请公开了一种语音处理方法、电子设备及存储装置。该方法包括：采集第一语音数据；对第一语音数据进行分类，得到第一语音数据中至少部分帧语音数据所属的类别；基于至少部分帧语音数据所属的类别，得到第一语音数据的类别；基于第一语音数据，执行与类别对应的操作。上述方案，录音设备能够基于语音数据进行更智能、灵活的操作。

Description

语音处理方法、电子设备及存储装置

技术领域

本申请涉及语音处理领域，特别是涉及一种语音处理方法、电子设备及存储装置。

背景技术

随着语音处理技术逐步发展，语音处理越来越多的应用于各种环境。例如在多种场合中对现场进行录音，录音是指将声音信号记录在媒介上的过程，如录制某场演讲的内容、某场会议的内容、培训讲师的培训内容等。目前，市面上的主流录音设备，如录音笔等，处理语音数据的方式比较单一，都是根据用户预先指定的方式执行相应处理，例如根据用户预先设定的转写模式而固定对采集到的语音数据进行转写。

发明内容

本申请主要解决的技术问题是提供一种语音处理方法、电子设备和存储装置，能够根据采集的语音数据的类别与用户进行交互，基于语音数据进行更智能、灵活的操作。

为了解决上述问题，本申请第一方面提供了一种语音处理方法，该语音处理方法包括：采集第一语音数据；对第一语音数据进行分类，得到第一语音数据中至少部分帧语音数据所属的类别；基于至少部分帧语音数据所属的类别，得到第一语音数据的类别；基于第一语音数据，执行与类别对应的操作。

为了解决上述问题，本申请第二方面提供了一种电子设备，该电子设备包括相互耦接的存储器和处理器，存储器中存储有程序数据，处理器用于执行程序数据以实现上述语音处理方法中的任一步骤。

为了解决上述问题，本申请第三方面提供了一种存储装置，该存储装置存储有能够被处理器运行的程序数据，程序数据用于实现上述语音处理方法中的任一步骤。

上述方案，本申请中通过采集第一语音数据，对第一语音数据进行分类，得到第一语音数据中至少部分帧语音数据所属的类别，基于至少部分帧语音数据所属的类别，得到第一语音数据的类别；基于第一语音数据，执行与类别对应的操作，使得可以根据第一语音数据中的至少部分帧语音数据所属的类别执行与类别对应的操作，故能够基于语音数据进行更加智能、灵活的操作。

附图说明

为了更清楚地说明本申请中的技术方案，下面将对实施例描述中所需要的附图作简单的介绍，显而易见地，下面描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请语音处理方法第一实施例的流程示意图；

图2是本申请图1中步骤S13一实施例的流程示意图；

图3是本申请图1中步骤S14一实施例的流程示意图；

图4是本申请语音处理方法第二实施例的流程示意图；

图5是本申请电子设备一实施例的结构示意图；

图6是本申请存储装置一实施例的流程示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

经过本申请的发明人长期研究发现，录音设备可具备语音转写功能，对语音转写结果进行存储，以方便后期查阅及处理等。在一些应用场景中，用户还可以与录音设备进行语音交互，如语音助手等，其语音交互过程通常是在录音设备在非录音状态或非转写状态下进行的。若录音设备在录音状态或转写状态时进行语音交互，会中断录音设备当前的录音状态或转写状态，而且录音设备的正常录音的转写与唤醒词的识别是分开进行的，录音设备需要切换至唤醒模式，通过唤醒词对录音设备进行唤醒。

另外，若录音设备对现场进行录音时，是将现场整个过程的所有声音都录制下来，包括了不必要的声音，后续需要通过回放录音的方式找到需要录制的特定人的说话内容，过程繁杂，且录音文件太大也会占用不必要的存储空间。

为了解决上述技术问题，本申请提供以下实施例，下面对各实施例进行具体说明。

请参阅图1，图1是本申请语音处理方法第一实施例的流程示意图。该方法可以包括以下步骤：

S11：采集第一语音数据。

第一语音数据可以是对当前环境所采集的一切声音数据，如在演讲会上对演讲者的演讲采集的声音、在教室时对老师的上课采集的声音等。例如第一语音数据可以包括当前环境说话人的人声、设备播放的声音或当前环境中发出的其他声音等。当然，第一语音数据也可以是针对当前环境中预设对象所采集的声音，例如针对某一特定人物、某些特定人物等采集的第一语音数据。本申请对第一语音数据不做限制。

在一些实施例中，第一语音数据可以是通过录音设备采集得到的。录音设备可以具有录音功能的电子设备，如录音笔、手机、电脑等，本申请对此不做限制。录音设备接收用户的操作指令，启动录音功能，例如通过用户控制录音设备的控制按钮或触发启动录音的操作指令，来控制录音设备开始拾音，以对当前环境录取语音数据。

将录取的语音数据经过语音端点检测(Voice Activity Detection，VAD)技术提取语音段，其中，端点检测是指在语音信号中将语音和非语音信号时段区分开来，准确地确定出语音信号的起始点。使得将语音数据的音频信号进行分帧处理，以将语音数据分成多帧语音数据。从每一帧语音数据中提取音频特征，以得到第一语音数据。其中，第一语音数据可以是梅尔滤波器组特征、音高(pitch)特征、音色(timbre)特征、响度(loudness)特征等，本申请对此不做限制。

在一些实施例中，录音设备可以在进行语音转写的过程中，采集第一语音数据，使得录音设备在进行语音转写的同时，采集第一语音数据，可以不中断语音转写过程。

在一些实施例中，在步骤S11之后，可以利用声学模型对第一语音数据进行处理，得到声学处理结果。具体地，将第一语音数据输入声学模型，利用声学模型对第一语音数据进行处理，以计算得到声学处理结果，其中，声学处理结果可以为声学特征，例如声学处理结果可以包括声学后验特征或声学模型隐层特征等。

S12：对第一语音数据进行分类，得到第一语音数据中至少部分帧语音数据所属的类别。

在对第一语音数据进行分类时，可以利用预先训练好的分类模型对第一语音数据进行分类，以得到第一语音数据中至少部分帧语音数据所属的类别。其中，分类模型可以是神经网络模型，至少部分帧语音数据包括第一语音数据的所有帧语音数据，或者第一语音数据的前预设数量帧语音数据，或者第一语音数据的预设帧语音数据。例如至少部分帧语音数据可以是所有帧的语音数据，可以是前3帧的语音数据，也可以某1帧或某2帧的语音数据等，可以根据具体应用场景具体确定至少部分帧语音数据，本申请对此不做限制。

第一语音数据中至少部分帧语音数据所属的类别可以包括：转写类、交互类、场景设置类、文件处理类、翻译类中的至少一种。转写类表示用于对语音数据进行转写操作；交互类表示用于与录音设备进行交互操作；交互类可以包括用户与录音设备的进行的交互操作。场景设置类表示用于设置当前环境采集语音数据的采集场景；文件处理类表示用于对文件数据进行文件处理操作；翻译类表示用于进行翻译操作，例如对文件或语言数据等进行翻译等。本申请对此不做限制。

其中，每一种类别还可以包括多级类别，如场景设置类可以包括标准场景类、采访场景类、会议场景类、演讲场景类、备忘场景类、音乐场景类等中的至少一种；文件处理类包括搜索类、编辑类、查看类等中的至少一种；翻译类包括翻译成多种不同语种的类别。本申请可以根据具体应用场景设置语音类别，本申请对此不做限制。

在一些应用场景中，场景设置类、文件处理类或翻译类可以与交互类、转写类等组合一起使用，对第一语音数据进行分类时，可以得到第一语音数据中至少部分帧语音数据所属的多个类别。

在一些实施例中，在步骤S12中，可以对第一语音数据的声学处理结果进行分类，以得到第一语音数据中至少部分帧语音数据所属的类别。

S13：基于至少部分帧语音数据所属的类别，得到第一语音数据的类别。

其中，至少部分帧语音数据包括第一语音数据的所有帧语音数据，或者第一语音数据的前预设数量帧语音数据。得到第一语音数据中至少部分帧语音数据所属的类别后，可以基于所有帧语音数据的类别，确定得到第一语音数据的类别，例如第一语音数据的类别可以为所有帧语音数据所属的类别，若所有帧语音数据所属的类别有多种时，第一语音数据的类别可以属于类别数量最多的类别。或者可以将前预设数量帧语音数据的类别，确定为第一语音数据的类别。

S14：基于第一语音数据，执行与类别对应的操作。

基于第一语音数据，可以执行与第一语音数据所属类别对应的操作。具体地，可以通过对第一语音数据的转写结果进行语义解析得到语义解析结果，以基于第一语音数据的语义执行相应操作，其相应的操作可以是语义解析结果相应的操作。例如第一语音数据可以包括连续的唤醒词及语交互内容，如第一语音数据为“小A设置采访场景录音”，则可以基于第一语音数据的语义解析结果执行相应的设置采访录音场景。

另外，当录音设备处于非录音状态下，不需要先单独接收唤醒词对录音设备进行唤醒，在唤醒状态下再进行交互；而是在录音设备处于非录音状态下时采集的第一语音数据，如第一语音数据中包括唤醒词及交互内容，根据第一语音数据的语义解析结果执行相应的操作，可以对录音设备进行语音交互，并且对录音设备没有明显的唤醒操作。

在一些实施例中，在步骤S14中，基于语音模型对第一语音数据的声学处理结果的识别结果，执行与类别对应的操作，其中，语音模型对声学处理结果的识别步骤和对声学处理结果进行分类的步骤同步或不同步执行。使得第一语音数据的语音转写过程(语音识别过程)和分类过程可以同时执行，也即是语音识别过程和分类过程可以同时执行，或者可以执行得到第一语音数据所属的类别之后再执行语音识别过程。

本实施例中，本申请中通过采集第一语音数据，对第一语音数据进行分类，得到第一语音数据中至少部分帧语音数据所属的类别，基于至少部分帧语音数据所属的类别，得到第一语音数据的类别；基于第一语音数据，执行与类别对应的操作，使得可以根据第一语音数据中的至少部分帧语音数据所属的类别执行与类别对应的操作，故能够基于语音数据进行更加智能、灵活的操作。

另外，本申请还可以通过在录音设备在进行语音转写的过程中，采集第一语音数据，对第一语音数据进行分类，以得到第一语音数据所属的类别，在类别为转写类的情况下，对第一语音数据进行转写；在类别为交互类的情况下，基于第一语音数据的语义执行相应操作，使得录音设备在进行语音转写的过程中，能够与用户进行语音交互，不中断语音转写过程。

在一些实施例中，上述实施例步骤S12中，第一语音数据的类别是利用预先训练好的分类模型对第一语音数据进行分类得到的。因此，可以利用预先训练好的分类模型对第一语音数据进行分类，得到第一语音数据中至少部分帧语音数据所属的类别。

具体地，在对分类模型进行训练时，获取各种类别的样本语音数据，收集或录制各种类别的样本语音数据作为分类模型的训练集，该样本训练集中包括所有类别中所有可能的语音交互说法的语音数据。例如获取场景设置类的样本语音数据，可以获取样本语音数据“小A设置采访场景录音”、“小A将录音场景切换至会议场景”、“小A演讲开始”、“小A音乐场景”等。获取文件处理类的样本语音数据：“打开昨天的录音”、“查看一下张某某的录音”等。

在样本语音数据中，转写类的样本语音数据与交互类的样本语音数据之间的比例为第一预设比例，利用样本语音数据对分类模型进行训练。其中，分类模型可以根据样本语音数据的语义解析结果来进行分类，以得到分类模型输出的样本语音数据的每一帧语音数据所对应的类别。

其中，分类模型可以是神经网络模型，例如分类模型可以包括DNN(Deep NeuralNetworks，深度神经网络)、CNN(Convolutional Neural Networks，卷积神经网络)、LSTM(Long Short-Term Memory，长短期记忆网络)、CLDNN模型，Transformer模型等结构。其中，CLDNN模型为多模型神经网络。本申请对分类模型不做限制。

可选地，可利用声学模型对样本语音数据进行处理，以计算得到声学处理结果，将声学处理结果输入分类模型进行训练，以得到样本语音数据每一帧语音数据的所属类别。每一帧语音数据的帧长为声学输出的对应的帧长，例如声学模型的输入帧长为10ms，模型的帧率为1，则分类模型输出的帧长为10ms；如果模型帧率为4，分类模型输出帧长为40ms。本申请对此不做限制。

可选地，利用预先训练好的分类模型对录音设备采集的第一语音数据进行分类时，依序逐次的判断第一语音数据中每一帧语音数据所属的类别，以得到第一语音数据中至少部分帧语音数据所属的类别。

其中，至少部分帧语音数据包括第一语音数据的所有帧语音数据，以得到第一语音数据中每一帧语音数据所属的类别。另外，至少部分帧语音数据也可以包括第一语音数据的前预设数量帧语音数据，以得到第一语音数据中前预设数量帧语音数据所属的类别。

在一些实施例中，请参阅图2，上述步骤S13还可以包括以下步骤：

S131：基于至少部分帧语音数据，统计至少部分帧语音数据中属于每种类别的帧数。

得到至少部分帧语音数据所属的类别后，在至少部分帧语音数据中，可以统计第一语音数据中至少部分帧语音数据属于每种类别的帧数，也即是对第一语音数据中每一帧语音数据的类别逐帧进行统计，例如所有帧语音数据有3帧，第1帧语音数据属于“转写类”，第2帧语音数据属于“转写类”，第3帧语音数据属于“交互类”，则统计第一语音数据中属于“转写类”的帧数为2，第一语音数据中属于“交互类”的帧数为1。

S132：将帧数在至少部分帧语音数据中占第二预设比例的类别，作为第一语音数据的类别。

若统计到前预设数量帧语音的所属类别中有类别的帧数达到第二预设比例时，可将该类别作为第一语音数据的所属类别。其中，预设数量是经过实验进行选择的，预设数量为与分类模型相匹配的一个常量。例如第一语音数据为“小A将录音场景切换至会议场景”，当录音设备采集到前预设数量帧语音为“小A将录音场景”或“小A”时，分类模型输出采集到的前预设数量帧语音数据中占第二预设比例的类别为交互类，则可将第一语音数据的所属类别确定为交互类，以根据第一语音数据的语义执行相应操作。通过此方式，可以增加对第一语音数据进行分类速度，从而加快录音设备的语音处理速度。

在一些实施例中，请参阅图3，上述步骤S14还可以包括以下至少一个步骤：

S141：在类别为转写类的情况下，对第一语音数据进行转写。

在类别为转写类的情况下，表明此时录音设备属于正常进行录音，对第一语音数据进行转写，可以记录第一语音数据的语音识别结果。

可选地，对第一语音数据进行转写，可以包括：利用语音模型对声学处理结果进行处理，得到第一语音数据的转写结果。具体地，将声学处理结果输入语音模型进行解码，进行语音识别处理，以转写为识别文本，得到第一语音数据的转写结果。

S142：在类别为交互类的情况下，基于第一语音数据的语义执行相应操作。

在类别为交互类的情况下，对第一语音数据进行转写，以得到第一语音数据的转写结果。通过对第一语音数据的转写结果进行语义解析得到语义解析结果，以基于第一语音数据的语义执行相应操作，其相应的操作可以是语义解析结果相应的操作。例如第一语音数据可以包括连续的唤醒词及语交互内容，如第一语音数据为“小A设置采访场景录音”，则可以基于第一语音数据的语义解析结果执行相应的设置采访录音场景。

S143：在类别为场景设置类的情况下，基于第一语音数据确定目标录音场景，并利用目标录音场景对应的识别资源对后续采集到的语音数据进行转写。

在类别为场景设置类的情况下，基于第一语音数据确定目标录音场景，并利用目标录音场景对应的识别资源对后续采集到的语音数据进行转写。具体地，在类别为场景设置类的情况下，例如第一语音数据为“小A将录音场景切换至会议场景”，对第一语音数据进行转写，并对转写结果进行语义解析，从而可以确定其语义为确定需要将当前的录音场景切换为会议场景类，则可以基于第一语音数据的语义确定目标录音场景为会议场景类，并利用目标录音场景，也即是会议场景类对应的识别资源对后续采集到的语音数据进行转写。

S144：在类别为文件处理类的情况下，基于第一语音数据执行相应文件处理。

在类别为文件处理类的情况下，可以基于第一语音数据执行相应文件处理。具体地，可以对第一语音数据进行转写，并对转写结果进行语义解析，以基于第一语音数据的语义执行相应文件处理。例如第一语音数据为“打开昨天的录音”，则可以基于第一语音数据的语义打开昨天的录音数据。

可选地，在类别为文件处理类的情况下，可以通过多轮的交互，对文件进行处理。例如后续采集到的第一语音数据为“查看一下张某某的录音”，而录音设备采集的“张某某”的录音在“昨天的录音”的目录中时，则可以继续基于第一语音数据的语音查看“张某某”的录音数据。

S145：在类别为翻译类的情况下，基于第一语音数据的语义执行翻译。

在类别为翻译类的情况下，对第一语音数据进行转写，并对转写结果进行语义解析，以基于第一语音数据的语义执行翻译。例如第一语音数据为“翻译成英语”，则可以对需要翻译的录音文件执行翻译成英语的操作。

可选地，上述步骤S141至步骤S145中，基于第一语音数据执行对应的操作，是按照图形界面交互界面的执行操作进行的，其交互界面为虚拟界面，当前交互界面只能执行当前交互界面中的操作。若当前界面中第一语音数据的语义执行的相应操作超出执行范围时，则可以提示执行操作失败，并可以提示当前交互界面的可执行第一语音数据的类别或对应的可执行操作等。例如，在类别为文件处理类的情况下，在执行“查看类的”打开录音文件的操作之后，才能执行“编辑类”的对录音文件进行编辑操作。例如在类别为文件处理类的情况下，在执行“查看类的”打开录音文件的操作之后，可以再执行“翻译类”对应的操作，如根据“翻译成某种语言”的语义执行翻译操作。

另外，本申请对上述步骤S141至步骤S145的执行顺序及步骤的组合不做限制，上述步骤S141至步骤S145可以结合上述实施例进行使用，通过步骤S141至步骤S145的组合完成录音设备与用户在多种应用场景的语音交互。本申请上述步骤S141至步骤S145中具体的类别可以根据录音设备的应用场景进行设置，本申请对此不做限制。

本实施例中，针对多种语音数据类别的应用场景，分别进行语义转写或执行相应的操作，对各应用场景具有针对性，使得可对多种应用场景进行语音交互，丰富录音设备的功能，使得录音设备具有多样化的功能，可以满足多种语音交互需求。

请参阅图4，图4是本申请语音处理方法第二实施例的流程示意图。该方法可以包括以下步骤：

S21：采集第一语音数据。

该步骤的具体实施例过程可以参考上述实施例中步骤S11的实施过程，在此不再赘述。

S22：在之前采集到的第二语音数据所属的类别为交互类的情况下，基于第二语音数据，执行进入预设录音模式的操作。

在本实施例之前，录音设备在进行语音转写的过程中，采集到第二语音数据，对第二语音数据进行分类，得到第二语音数据所属的类别为交互类的情况下，基于第二语音数据的语义，执行进入预设录音模式的操作。其中，预设录音模式包括只针对目标对象进行录音的录音模式，目标对象可以是一个，也可以是多个。例如第二语音数据为“小A只记录王某某的讲话”，基于第二语音数据的语义，执行进入预设录音模式只对“王某某”的语音进行录音的操作。

S23：从预存对象特征库中提取目标对象的语音特征，或者从历史语音数据中提取目标对象的语音特征。

预存对象特征库为提前注册的多个对象的语音特征库，每个对象与其语音特征是一一对应的，可以通过语音数据的语音特征确定语音数据所属的对象。其中，多个对象包括目标对象，以使得可以从预存对象特征库中提取目标对象的语音特征。

另外，也可以是在录音设备在历史录音转写过程中，对多个录音对象的历史语音数据进行分离，并对每个分离的历史语音数据设置对应的录音对象标签，以使得每个分离的历史语音数据的语音特征可以作为各自录音对象的语音特征。可以将录音对象及对应的语音特征加入预存对象特征库中，或者将录音对象标签对应的语音特征作为历史语音数据中提取的语音特征，使得可以从历史语音数据中提取目标对象的语音特征。

S24：对第一语音数据进行分类，得到第一语音数据中至少部分帧语音数据所属的类别。

该步骤的具体实施例过程可以参考上述实施例中步骤S12的实施过程，在此不再赘述。

S25：基于至少部分帧语音数据所属的类别，得到第一语音数据的类别。

该步骤的具体实施例过程可以参考上述实施例中步骤S13的实施过程，在此不再赘述。

S26：判断第一语音数据是否属于目标对象。

若当前处于预设录音模式且第一语音数据的类别为转写类，则判断第一语音数据是否属于对目标对象的语音数据。

具体地，提取第一语音数据中的语音特征，其中，语音特征可以是第一语音数据中的声纹特征，例如语音特征包括i-vector(identity-vector，身份认证向量)特征或d-evector特征等。此时，第一语音数据中可能包括一个对象的语音特征，也可能包括多个对象的语音特征。

判断第一语音数据中的特征是否与目标对象的语音特征匹配，其中，第一语音数据包括多帧的语音数据。若第一语音数据中的语音特征与目标对象的语音特征匹配度达到预设匹配度，则确定为第一语音数据中的特征与目标对象的语音特征匹配，确定第一语音数据属于目标对象。否则，则确定为第一语音数据中的特征与目标对象的语音特征不匹配，确定第一语音数据不属于目标对象。

可选地，当目标对象为多个时，可将第一语音数据中的语音特征逐次与多个目标对象的语音特征进行匹配，以判断第一语音数据中的语音特征是否与目标对象的语音特征匹配。

步骤S26中，若判断为第一语音数据属于目标对象，则执行步骤S27；若判断为第一语音数据不属于目标对象，则继续执行步骤S21或执行结束语音处理步骤，不对不属于目标对象的第一语音数据执行以下步骤。

S27：基于第一语音数据，执行与类别对应的操作。

可选地，在第一语音数据的类别为转写类的情况下，对第一语音数据进行转写。在第一语音数据的类别为交互类的情况下，基于第一语音数据的语义执行相应操作。在类别为场景设置类的情况下，基于第一语音数据确定目标录音场景，并利用目标录音场景对应的识别资源对后续采集到的语音数据进行转写。在类别为文件处理类的情况下，基于第一语音数据执行相应文件处理。在类别为翻译类的情况下，基于第一语音数据执行翻译。

可选地，可以执行第一语音数据进行转写或者基于第一语音数据的语义执行相应操作。

该步骤的具体实施方式可参考上述实施例中步骤S14的实施过程，在此不再赘述。

本实施例中，在录音设备对采集语音数据时，通过判断第一语音数据是否属于目标对象，只对目标对象的第一语音数据进行转写或只基于第一语音数据的语义执行相应操作，针对目标对象进行录音，使得录音更有针对性，有效地避免其他用户说话对录音内容的干扰，后续也可以快速的找到需要录制的特定人的说话内容，简化语音处理过程，减少保存及录制不必要的声音，节省录音文件大小，从而减少录音文件占用不必要的存储空间。

对于上述实施例，本申请提供一种电子设备，请参阅图5，图5是本申请电子设备一实施例的结构示意图。该电子设备100包括存储器101和处理器102，其中，存储器101和处理器102相互耦接，存储器101中存储有程序数据，处理器102用于执行程序数据以实现上述辅助阅读方法任一实施例的步骤。

在本实施例中，处理器102还可以称为CPU(Central Processing Unit，中央处理单元)。处理器102可能是一种集成电路芯片，具有信号的处理能力。处理器102还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器102也可以是任何常规的处理器等。

该实施例的具体实施方式可参考上述实施例的实施过程，在此不再赘述。

对于上述实施例的方法，其可以采用计算机程序的形式实现，因而本申请提出一种存储装置，请参阅图6，图6是本申请存储装置一实施例的结构示意图。该存储装置200中存储有能够被处理器运行的程序数据201，程序数据可被处理器执行以实现上述辅助阅读方法任一实施例的步骤。

本实施例存储装置200可以是U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等可以存储程序数据的介质，或者也可以为存储有该程序数据的服务器，该服务器可将存储的程序数据发送给其他设备运行，或者也可以自运行该存储的程序数据。

在本申请所提供的几个实施例中，应该理解的，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储装置中，该存储装置是一种计算机可读取存储介质。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音处理方法，其特征在于，包括：

采集第一语音数据；

对所述第一语音数据进行分类，得到所述第一语音数据中至少部分帧语音数据所属的类别；

基于所述至少部分帧语音数据所属的类别，得到所述第一语音数据的类别；

基于所述第一语音数据，执行与所述类别对应的操作。

2.根据权利要求1所述的方法，其特征在于，所述第一语音数据的类别是利用预先训练好的分类模型对所述第一语音数据进行分类得到的；所述方法还包括对所述分类模型进行训练：

获取各种所述类别的样本语音数据，并利用所述样本语音数据对所述分类模型进行训练，其中，转写类的样本语音数据与交互类的样本语音数据之间的比例为第一预设比例。

3.根据权利要求1所述的方法，其特征在于，所述至少部分帧语音数据包括所述第一语音数据的所有帧语音数据，或者所述第一语音数据的前预设数量帧语音数据。

4.根据权利要求1所述的方法，其特征在于，所述基于所述至少部分帧语音数据所属的类别，得到所述第一语音数据的类别，包括：

基于所述至少部分帧语音数据，统计所述至少部分帧语音数据中属于每种所述类别的帧数；

将所述帧数在所述至少部分帧语音数据中占第二预设比例的所述类别，作为所述第一语音数据的类别。

5.根据权利要求1所述的方法，其特征在于，所述基于所述第一语音数据，执行与所述类别对应的操作，包括以下至少一个步骤：

在所述类别为转写类的情况下，对所述第一语音数据进行转写；

在所述类别为交互类的情况下，基于所述第一语音数据执行相应操作；

在所述类别为场景设置类的情况下，基于所述第一语音数据确定目标录音场景，并利用所述目标录音场景对应的识别资源对后续采集到的语音数据进行转写；

在所述类别为文件处理类的情况下，基于所述第一语音数据执行相应文件处理；

在所述类别为翻译类的情况下，基于所述第一语音数据执行翻译。

6.根据权利要求1所述的方法，其特征在于，在所述基于所述第一语音数据，执行与所述类别对应的操作之前，所述方法还包括：

若当前处于预设录音模式且所述类别为转写类，则判断所述第一语音数据是否属于目标对象；

若属于，则执行所述基于所述第一语音数据，执行与所述类别对应的操作。

7.根据权利要求6所述的方法，其特征在于，在所述对所述第一语音数据进行分类，得到所述第一语音数据中至少部分帧语音数据所属的类别之前，所述方法还包括：

在之前采集到的第二语音数据所属的类别为交互类的情况下，基于所述第二语音数据，执行进入所述预设录音模式的操作；

从预存对象特征库中提取目标对象的语音特征，或者从历史语音数据中提取目标对象的语音特征；

所述判断所述第一语音数据是否属于目标对象，包括：

判断所述第一语音数据中的特征是否与所述目标对象的语音特征匹配，若匹配，则确定所述第一语音数据属于所述目标对象。

8.根据权利要求1所述的方法，其特征在于，在所述对所述第一语音数据进行分类，得到所述第一语音数据中至少部分帧语音数据所属的类别之前，所述方法还包括：

利用声学模型对所述第一语音数据进行处理，得到声学处理结果；

所述对所述第一语音数据进行分类，得到所述第一语音数据中至少部分帧语音数据所属的类别，包括：

对所述声学处理结果进行分类，得到所述第一语音数据中至少部分帧语音数据所属的类别；

所述基于所述第一语音数据，执行与所述类别对应的操作，包括：

基于语音模型对所述声学处理结果的识别结果，执行与所述类别对应的操作，其中，所述语音模型对所述声学处理结果的识别步骤和所述对所述声学处理结果进行分类的步骤同步或不同步执行。

9.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序数据，所述处理器用于执行所述程序数据以实现权利要求1至8任一项所述方法的步骤。

10.一种存储装置，其特征在于，存储有能够被处理器运行的程序数据，所述程序数据用于实现权利要求1至8任一项所述方法的步骤。