CN109524027B

CN109524027B - 语音处理方法、装置、计算机设备及存储介质

Info

Publication number: CN109524027B
Application number: CN201811512431.0A
Authority: CN
Inventors: 戴广宇; 刘嘉; 吴东勤
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2024-05-28
Anticipated expiration: 2038-12-11
Also published as: CN109524027A

Abstract

本发明实施例公开了一种语音处理方法、装置、计算机设备及存储介质，包括下述步骤：通过快捷界面获取语音信息；查找语音信息中音量低于预设音量阈值的声音空白区，其中，声音空白区的时长大于预设的第一时间阈值；对语音信息进行去空白处理以剪切掉语音信息中的声音空白区，以生成目标语音信息。本发明实施例通过对用户在快捷界面中输入的语音信息进行自然语言处理，包括查找出该语音信息中的音量低于预设音量阈值且时长大于第一时间阈值的声音空白区，并对该语音信息进行去空白处理以生成目标语音信息，使得目标语音信息的声音连贯不间断，减少播放目标语音信息的时间并提高获取目标语音信息中消息内容的效率。

Description

语音处理方法、装置、计算机设备及存储介质

技术领域

本发明实施例涉及语音处理技术领域，尤其是一种语音处理方法、装置、计算机设备及存储介质。

背景技术

快捷界面是智能电子设备用于显示应用程序的消息提醒和通知的浮动窗口，当智能电子设备处于待机屏幕关闭且智能电子设备内的应用程序接收到新的消息或者通知时，智能电子设备通过在屏幕中创建一个浮动窗口以显示该消息或者通知，用户不需要进入相应的应用程序中即可获取该消息或者通知的内容并进行回复，使用方便快捷。

在快捷界面中回复消息时，可以通过输入文字或者语音信息进行回复，对于语音信息来说，需要用户操作快捷界面中的语音输入按键并进行讲话以输入语音信息，在用户的讲话过程中，会出现因用户没有组织好语音而导致语音信息中出现声音空白区的情况，使得用户在播放该语音信息时会出现一段没有声音的空白期，用户等待不耐烦甚至出现用户误认为语音信息已经播放完毕的情况，进而使得用户漏掉语音信息中的重要的消息内容的情形。

发明内容

本发明实施例提供一种通过对语音信息中的声音空白区进行编辑以增加语音信息可读性的语音处理方法、装置、计算机设备及存储介质。

为解决上述技术问题，本发明创造的实施例采用的一个技术方案是：提供一种语音处理方法，包括下述步骤：

通过快捷界面获取语音信息；

查找所述语音信息中音量低于预设音量阈值的声音空白区，其中，所述声音空白区的时长大于预设的第一时间阈值；

对所述语音信息进行去空白处理以剪切掉所述语音信息中的所述声音空白区，以生成目标语音信息。

可选地，所述对所述语音信息进行去空白处理以剪切掉所述语音信息中的所述声音空白区，以生成目标语音信息的步骤之前，还包括如下述步骤：

监听在所述快捷界面中对语音输入操作按钮的拖动操作；

当检测到所述语音输入操作按钮被拖动至所述快捷界面中的预设第一区域时，对所述语音信息执行所述去空白处理。

可选地，还包括如下述步骤：

监听在所述快捷界面中对语音输入操作按钮的拖动操作；

当检测到所述语音输入操作按钮被拖动至所述快捷界面中的预设第二区域时，在所述快捷界面中创建浮动窗口；所述浮动窗口用于在播放所述目标语音信息时展示预设的动画效果。

可选地，所述当检测到所述语音输入操作按钮被拖动至所述快捷界面中的预设第二区域时，在所述快捷界面中创建浮动窗口；所述浮动窗口用于在播放所述目标语音信息时展示预设的动画效果的步骤，包括如下述步骤：

判断预设的本地数据库中是否存在所述用户自定义的目标动画样式；

当存在所述用户自定义的目标动画样式时，在预设的自定义动画效果数据库中查找与所述目标动画样式相对应的目标动画并在所述浮动窗口中进行展示。

可选地，所述对所述语音信息进行去空白处理以剪切掉所述语音信息中的所述声音空白区，以生成目标语音信息的步骤之后，还包括如下述步骤：

识别所述目标语音信息所表征的情绪信息；

根据所述情绪信息在预设的表情数据库中查找与所述情绪信息相对应的目标图片；

将所述目标图片添加至所述快捷界面的消息输入框中，以使所述目标图片随所述目标语音信息进行发送。

将所述目标语音信息转换为目标文本并输入至所述快捷界面的消息输入框中；

识别所述目标文本中文字所表征的情绪信息；

根据所述情绪信息对所述目标文本的文字形态进行调整，以使所述目标文本通过文字形态表征所述情绪信息。

可选地，所述识别所述目标文本中文字所表征的情绪信息的步骤，包括如下述步骤：

将所述目标文本输入至预设的文本分类模型中，其中，所述文本分类模型为训练至收敛的用于文本分类的卷积神经网络模型；

获取所述文本分类模型输出的所述目标文本的情绪分类的置信度；

当所述置信度大于预设的第一阈值时，确认所述置信度所表征的情绪分类结果为所述情绪信息。

为解决上述技术问题，本发明实施例还提供一种语音处理装置，包括：

第一获取模块，用于通过快捷界面获取语音信息；

第一处理模块，用于查找所述语音信息中音量低于预设音量阈值的声音空白区，其中，所述声音空白区的时长大于预设的第一时间阈值；

第一执行模块，用于对所述语音信息进行去空白处理以剪切掉所述语音信息中的所述声音空白区，以生成目标语音信息。

可选地，还包括：

第一监听模块，用于监听在所述快捷界面中对语音输入操作按钮的拖动操作；

第二执行模块，用于当检测到所述语音输入操作按钮被拖动至所述快捷界面中的预设第一区域时，对所述语音信息执行所述去空白处理。

可选地，还包括：

第二监听模块，用于监听在所述快捷界面中对语音输入操作按钮的拖动操作；

第三执行模块，用于当检测到所述语音输入操作按钮被拖动至所述快捷界面中的预设第二区域时，在所述快捷界面中创建浮动窗口；所述浮动窗口用于在播放所述目标语音信息时展示预设的动画效果。

可选地，还包括：

判断子模块，用于判断预设的本地数据库中是否存在所述用户自定义的目标动画样式；

第一执行子模块，用于当存在所述用户自定义的目标动画样式时，在预设的自定义动画效果数据库中查找与所述目标动画样式相对应的目标动画并在所述浮动窗口中进行展示。

可选地，还包括：

第一情绪识别模块，用于识别所述目标语音信息所表征的情绪信息；

第二处理模块，用于根据所述情绪信息在预设的表情数据库中查找与所述情绪信息相对应的目标图片；

第四执行模块，用于将所述目标图片添加至所述快捷界面的消息输入框中，以使所述目标图片随所述目标语音信息进行发送。

可选地，还包括：

第三处理模块，用于将所述目标语音信息转换为目标文本并输入至所述快捷界面的消息输入框中；

第二情绪识别模块，用于识别所述目标文本中文字所表征的情绪信息；

第五执行模块，用于根据所述情绪信息对所述目标文本的文字形态进行调整，以使所述目标文本通过文字形态表征所述情绪信息。

可选地，还包括：

处理子模块，用于将所述目标文本输入至预设的文本分类模型中，其中，所述文本分类模型为训练至收敛的用于文本分类的卷积神经网络模型；

第一获取子模块，用于获取所述文本分类模型输出的所述目标文本的情绪分类的置信度；

第二执行子模块，用于当所述置信度大于预设的第一阈值时，确认所述置信度所表征的情绪分类结果为所述情绪信息。

为解决上述技术问题，本发明实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述语音处理方法的步骤。

为解决上述技术问题，本发明实施例还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述语音处理方法的步骤。

本发明实施例的有益效果为：通过在快捷界面中获取语音信息，然后查找出该语音信息中的音量低于预设音量阈值且时长大于第一时间阈值的声音空白区，在查找出语音信息中的声音空白区后，对该语音信息进行去空白处理，从而去除该语音信息中的声音空白区以生成目标语音信息，使得目标语音信息的声音连贯不间断，进而使得用户在播放该目标语音信息时不会出现没有声音的情况，减少用户等待声音空白区播放的时间，避免播放该语音信息中的声音空白区时用户误认为语音信息已经播放完毕的情况，能有效减少播放目标语音信息的时间并提高获取目标语音信息中消息内容的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例语音处理方法的基本流程示意图；

图2为本发明实施例根据用户操作对语音信息执行去空白处理的流程示意图；

图3为本发明实施例对语音信息添加动画效果的流程示意图；

图4为本发明实施例用户自定义动画样式的流程示意图；

图5为本发明实施例自动添加表情图片的流程示意图；

图6为本发明实施例自动添加文字和表情图片的流程示意图；

图7为本发明实施例情绪信息的识别方法的流程示意图；

图8为本发明实施例语音处理装置基本结构示意图；

图9为本发明实施例计算机设备基本结构框图；

图10为本发明实施例一个实施例的快捷界面结构示意图；

图11为本发明实施例一个实施例语音信息包括声音空白区的示意图；

图12为本发明实施例一个实施例语音信息去除声音空白区后的示意图；

图13为本发明实施例一个实施例拖拽语音输入控制按钮的示意图；

图14为本发明实施例一个实施例展示动画效果的示意图；

图15为本发明实施例一个实施例根据情绪信息添加图片的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

具体请参阅图1，图1为本实施例语音处理方法的基本流程示意图。

如图1所示，一种语音处理方法，包括下述步骤：

S1100、通过快捷界面获取语音信息；

快捷界面是用于显示应用程序的消息或者通知的浮动窗口，例如：微信、QQ或者其它具有通讯和联网功能的应用程序均具有创建显示消息或者通知的浮动窗口的功能，以应用程序为微信为例，用户终端在屏幕关闭的待机状态下，当微信应用程序接收到新消息时，用户终端会在屏幕中弹出快捷界面显示新消息提醒，用户终端包括但不限于智能手机、平板电脑、智能手环以及其它具有联网通讯功能的电子设备，用户通过对该快捷界面的操作，例如：点击或者双击等等，即可读取该新消息中的内容，不需要用户操作用户终端进入微信中读取该新消息，使用方便快捷。而用户在快捷界面中读取新消息后，还可以在快捷界面中输入回复消息，回复消息包括文字消息、语音消息、图片或者视频等。在实施时，系统可以监听用户操作从而获取用户在快捷界面输入的语音信息，请参阅图10，以用户终端为手机为例，手机弹出快捷界面中的新消息提醒，且该快捷界面中还包括消息输入框、发送按键以及语音输入操作按钮，当系统监听到用户对快捷界面中的语音输入操作按钮进行操作(用户长按该语音输入操作按钮并进行讲话)时，系统判断用户输入的是语音信息并将该语音信息放入缓存中。

S1200、查找所述语音信息中音量低于预设音量阈值的声音空白区，其中，所述声音空白区的时长大于预设的第一时间阈值；

系统获取用户输入的语音信息后，对该语音信息进行预处理从而查找出音量低于预设音量阈值且时长大于第一时间阈值的声音空白区，音量阈值和第一时间阈值是系统预先设置的一个比较数值，例如：音量阈值为2分贝、5分贝或者7分贝，第一时间阈值为2秒、3秒或者3.5秒，在实施时，该音量阈值和第一时间阈值还可以由用户进行设定，从而更符合用户的生活习惯。

在实施时，系统在语音信息中设置N(例如：100、200或者500)个采样点，相邻两个采样点之间为一个采用时间段，在每个采样时间段内，记录该采样时间段内的语音信息的音量，具体地，可以通过音量检测软件(例如：SoundVolumeView或者pocketrta)来测量采样时间段内的音量大小，当测得的音量小于预设的音量阈值时，系统判断该采样时间段的声音为零，当连续的M个采样时间段(M为大于0的整数且M个采样时间段的总时长大于第一时间阈值)的声音均为零，则系统判断该M个采样时间段组成声音空白区。

当然，也可以通过预设的程序代码来测量音频的音量大小，例如利用UnityMicrophone在录音时检测声音大小，系统使用Unity中的Microphone类进行用户自由时长音频录制，系统自动将音量小于预设的音量阈值且时长大于第一时间阈值的声音片段标识出来作为声音空白区。需要指出的是，上述音量阈值以及第一时间阈值不局限于上述的数值，根据应用场景的不同，音量阈值和第一时间阈值还可以设置成其它数值。

S1300、对所述语音信息进行去空白处理以剪切掉所述语音信息中的声音空白区，以生成目标语音信息。

系统检测出语音信息中有声音空白区时，系统对该语音信息进行去空白处理，从而将语音信息中的声音空白区剪切掉，在实施时，可以通过音频编辑软件(例如：AdobeAudition、cooledit pro或者goldwave)来剪辑语音信息，系统根据上述获取的声音空白区的起始点和终止点，自动通过音频编辑软件将语音信息中的声音空白区剪切掉，举例说明：如图11所示，用户在快捷界面中输入一段长度为1分12秒的语音信息，系统对该语音信息进行检测，测得该语音信息在第52秒至第57秒之间为声音空白区，系统将该语音输入至音频编辑软件中，并将该声音空白区的起始点(第52秒)和终止点(第57秒)作为参数输入至该音频编辑软件中，使得该音频编辑软件将该语音信息中的声音空白区剪切掉生成目标语音信息，请参阅图12，目标语音信息在第52秒之后立刻过渡到第57秒，从而使得生成的目标语音信息中的声音连贯不间断。

本实施例通过在快捷界面中获取语音信息，然后查找出该语音信息中的音量低于预设音量阈值且时长大于第一时间阈值的声音空白区，在查找出语音信息中的声音空白区后，对该语音信息进行去空白处理，从而去除该语音信息中的声音空白区以生成目标语音信息，使得目标语音信息的声音连贯不间断，进而使得用户在播放该目标语音信息时不会出现没有声音的情况，减少用户等待声音空白区播放的时间，避免播放该语音信息中的声音空白区时用户误认为语音信息已经播放完毕的情况，能有效减少播放目标语音信息的时间并提高获取目标语音信息中消息内容的效率。

在一个可选实施例中，请参阅图2，图2是本发明一个实施例中根据用户操作对语音信息执行去空白处理的流程示意图。

如图2所示，步骤S1300之前，还包括如下述步骤：

S1210、监听在所述快捷界面中对语音输入操作按钮的拖动操作；

用户在快捷界面中输入语音信息后，想要对语音信息进行编辑时，可以通过拖动语音输入操作按钮来实现，系统可以实时监听用户对语音输入操作按钮的拖动操作，在实施时，以Android系统为例，可以通过OnDragListener接口来监听Android用户界面交互的拖放事件，或者用OnDragEvent(DragEvent)回调方法来接收拖拽事件从而监听用户的拖动语音输入操作按钮的操作。

S1220、当检测到所述语音输入操作按钮被拖动至所述快捷界面中的预设第一区域时，对所述语音信息执行所述去空白处理。

当系统监听到快捷界面中的语音输入操作按钮被拖动至快捷界面中的预设第一区域时，系统执行步骤S1100至步骤S1300，实现语音信息的去空白处理功能；在实施时，第一区域是快捷界面中的一块区域，在正常情况下，第一区域设置有去空白编辑按钮且该去空白编辑按钮处于不显示状态，当用户对语音输入操作按钮进行拖拽操作时，如图13所示，系统将该去空白处理编辑按钮显示出来，从而方便用户快速准确将语音输入操作按钮拖拽至该去空白处理编辑按钮的位置处。

在另一个可选实施例中，用户还可以在输入语音信息时，故意在两句话之间增加了声音空白区，并对语音信息进行添加艺术效果编辑处理，以增加语音信息的娱乐性，请参阅图3，图3是本发明一个实施例中对语音信息添加动画效果的具体流程示意图。

如图3所示，还包括如下述步骤：

S1010、监听在所述快捷界面中对语音输入操作按钮的拖动操作；

S1020、当检测到所述语音输入操作按钮被拖动至所述快捷界面中的预设第二区域时，在所述快捷界面中创建浮动窗口；以使所述浮动窗口用于在播放所述目标语音信息时展示预设的动画效果。

第二区域设置于快捷界面中，在正常情况下，第二区域与上述第一区域为相互独立的两块区域，第二区域设置有添加动画编辑按钮且该添加动画编辑按钮处于不显示状态，当用户对语音输入操作按钮进行拖拽操作时，系统将该添加动画处理编辑按钮显示出来，从而方便用户快速准确将语音输入操作按钮拖拽至该添加动画处理编辑按钮的位置处。当系统检测到所述语音输入操作按钮被拖动至所述快捷界面中的预设第二区域时，系统执行步骤S1100至步骤S1300的同时，同时在快捷界面中创建浮动窗口，并在播放所述目标语音信息时在该浮动窗口中展示动画效果，其中，该动画效果是系统预先设置的，例如：声音波动线条动画或者动物仿人说话动画等等，增加了快捷界面的趣味性。

在一个实施例中，当系统检测到用户拖动所述语音输入操作按钮至所述快捷界面中的预设第二区域时，系统还可以不对语音信息进行去空白处理操作，而是保留语音信息中的声音空白区，系统通过音频编辑软件测得声音空白区的起始点和终止点，并在播放该语音信息时，在播放至声音空白区的起始点至终止点之间的时间段内在快捷界面的浮动窗口中展示预设的动画效果；以本发明与应用于手机为例，张三使用手机在QQ应用程序的快捷界面中输入语音信息，且张三输入了语音信息后拖动快捷界面中的语音输入操作按钮进行移动，并移动至快捷界面中的添加动画处理编辑按钮，此时，系统监听到语音输入操作按钮被拖动至添加动画处理编辑按钮的操作，将该语音信息进行播放，并在播放至声音空白区时在快捷界面中创建浮动窗口以展示动画效果，例如：缓冲动画，请参阅图14，从而提醒张三该语音信息还没有播放完毕；另一方面，以张三将该语音信息发送至李四的手机上为例，李四的手机在接收到该语音信息后，系统监听李四的操作播放该语音信息，并在播放至声音空白区时在快捷界面中创建浮动窗口以展示动画效果，从而避免出现李四漏掉语音信息中声音空白区之后的消息内容的情况，提高用户体验。

在一个可选实施例中，用户还可以根据自己的偏好设置快捷界面的浮动窗口中的动画效果，请参阅图4，图4是本发明一个实施例用户自定义动画样式的基本流程示意图。

如图4所示，步骤S1020包括如下述步骤：

S1021、判断预设的本地数据库中是否存在所述用户自定义的目标动画样式；

系统在展示动画效果之前，还可以检测用户是否存在自定义动画样式，在实施时，系统提供一个自定义设置界面供用户操作，用户通过该自定义设置界面设置或者选择目标动画样式，例如：系统在自定义设置界面中向用户展示3种动画样式，包括第一动画样式、第二动画样式和第三动画样式，系统监听用户在自定义设置界面中的操作，例如点击第一动画样式，系统根据用户的操作将第一动画样式作为目标动画样式并将目标动画样式为第一动画样式的信息写入至本地数据库中。

S1022、当存在所述用户自定义的目标动画样式时，在预设的自定义动画效果数据库中查找与所述目标动画样式相对应的目标动画并在所述浮动窗口中进行展示。

系统检测到本地数据库中存在用户自定义的目标动画样式时，系统在自定义动画效果数据库中选取目标动画进行展示，其中，自定义动画效果数据库是系统预先设置的用于存储和管理用户的自定义动画的仓库。以用户自定义的目标动画样式为“沉思”为例，该目标动画样式对应自定义动画效果数据库中编号为001的动画，该动画的意思表达为：正在思考中；当系统检测到用户在快捷界面中输入的语音信息中间有3秒的声音空白区，系统通过音频编辑软件测得该声音空白区的起始点和终止点，当系统播放该语音信息且播放到该声音空白区的起始点时，系统在自定义动画效果数据库中调取编号为001的动画并在快捷界面的浮动窗口中展示给用户观看，并在播放至声音空白区的终止点时结束该动画，能准确表达用户在声音空白区时处于语音组织、努力思考的状态，提高快捷界面的趣味性。

在一个可选实施例中，还可以在发送该语音信息的同时附带一张与该语音信息的情绪表达相对应的图片，从而精悍有趣的表达用户的内心想法，请参阅图5，图5是本发明一个实施例自动添加表情图片的基本流程示意图。

如图5所示，步骤S1300之后，还包括如下述步骤：

S1400、识别所述目标语音信息所表征的情绪信息；

在得到目标语音信息后，系统对该目标语音信息进行情绪识别，从而得到目标语音信息所表征的情绪信息，在实施时，识别目标语音信息所表征的情绪信息，能够采用的一种技术方案为：采用卷积神经网络模型，例如：BP(back propagation)神经网络，将目标语音信息所表征的情绪信息识别出来。

S1500、根据所述情绪信息在预设的表情数据库中查找与所述情绪信息相对应的目标图片；

在得到目标语音信息所表征的情绪信息后，即可根据该情绪信息在表情数据库中选取与情绪信息匹配的目标图片，其中，表情数据库是系统中预先设置的用于存储和管理表情图片的仓库，在实施时，该表情数据库中的表情图片可以通过网络爬虫或者现有的网络表情数据包中获取得到。表情数据库中的表情图片设置有识别码，系统在获取目标语音信息后对该目标语音进行识别情绪信息处理，从而得到与该目标语音信息对应的情绪信息编号，以表情数据库中包括微笑表情图片和大笑表情图片为例，其中微笑表情图片的识别码为007而大笑表情图片的识别码为008，系统检测到目标语音信息所表征的情绪是“开怀大笑”，而“开怀大笑”的编号为008与大笑表情图片的识别码对应，系统即可在表情数据库中选取大笑表情图片作为目标图片。

S1600、将所述目标图片添加至所述快捷界面的消息输入框中，以使所述目标图片随所述目标语音信息进行发送。

系统在表情数据库中选取目标图片后，将该目标图片添加到快捷界面的消息输入框中，使得用户发送目标语音信息时，一起发送该目标图片，增加用户回复信息的趣味性。

在实施时，系统还可以不对用户输入的语音信息进行去空白处理，并在语音信息的声音空白区时间段内添加与语音信息所表征的情绪信息匹配的动画或者表情，举例说明：系统获取到用户输入的语音信息是“祝你生日快乐---我的宝贝”，其中，“---”表示时长为3秒的声音空白区，系统自动识别该语音信息所表征的情绪信息，当然还可以通过识别语音信息中的关键字，并根据该关键字在预设的表情数据库中选取相对应的表情图片或者动画，以“祝你生日快乐”为例，系统检测到“生日快乐”为关键字，则系统自动选取庆祝生日的动画(例如：一张生日蛋糕的GIF动画)并在用户终端播放该语音信息的声音空白区时间段内进行展示，不需要用户自己寻找并添加该动画，减少用户的操作步骤，使用方便。

在一个可选实施例中，请参阅图6，图6是本发明一个实施例自动添加文字和表情图片的基本流程示意图。

如图6所示，步骤S1300之后，还包括如下述步骤：

S1700、将所述目标语音信息转换为目标文本并输入至所述快捷界面的消息输入框中；

系统在获取目标语音信息后，可以通过预设的语音转文字应用程序(例如：百度语音助手或者Speechnotes等)将该目标语音信息转换为目标文本并输入至快捷界面的消息输入框中。

S1800、识别所述目标文本中文字所表征的情绪信息；

在实施时，请参阅图7，图7是本发明一个实施例情绪信息的识别方法的基本流程示意图。如图7所示，步骤S1800包括如下述步骤：

S1810、将所述目标文本输入至预设的文本分类模型中，其中，所述文本分类模型为训练至收敛的用于文本分类的卷积神经网络模型；

文本分类模型是系统预先设置的用于进行文本分类的工具，在实施时，可以使用LSTM网络(长短期记忆人工神经网络模型，Long Short-Term Memory)作为神经网络模型。LSTM网络通过“门”(gate)来控制丢弃或者增加信息，从而实现遗忘或记忆的功能。“门”是一种使信息选择性通过的结构，由一个sigmoid(S型生长曲线)函数和一个点乘操作组成。sigmoid函数的输出值在[0，1]区间，0代表完全丢弃，1代表完全通过。训练至收敛的神经网络模型具备了能识别目标文本所表征的情绪信息的分类器，其中，文本分类模型包括上述的神经网络模型，该神经网络模型包括了N+1个情绪分类器，N为正整数。

具体地，通过将目标文本输入到预设的文本分类模型中，得到目标文本在情绪分类器中的分类结果，其中，分类结果包括目标文本对应的情绪分类和情绪分类的置信度(Confidence)。

S1820、获取所述文本分类模型输出的所述目标文本的情绪分类的置信度；

系统获得目标文本在情绪分类器中的分类结果，其中，情绪分类的置信度是指目标文本经过文本分类模型进行筛选分类后，目标文本被归类到一种以上的情绪分类以及得到目标文本占该情绪分类的百分值。由于最终得到目标文本对应的情绪信息为一种，故需要将同一目标文本的各个情绪分类的置信度进行比较，例如，例如，目标文本包含的信息为“她笑到流泪”，被分类到开心的置信度为0.90，被分类到忧伤的置信度为0.65。

S1830、当所述置信度大于预设的第一阈值时，确认所述置信度所表征的情绪分类结果为所述情绪信息。

预设的第一阈值一般设置为0.9到1之间的数值。通过筛选出置信度大于第一阈值的情绪信息作为最终的情绪分类结果，即确认置信度所表征的情绪信息。例如，当预设第一阈值为0.9时，并且目标文本携带的信息为“她笑到流泪”，被分类到开心的置信度为0.95，由于0.95>0.9，所以目标文本的情绪信息为开心。

通过将目标文本输入到预设的文本分类模型中，并获取文本分类模型输出的目标文本的情绪分类的置信度，当置信度大于预设第一阈值时，确认置信度所表征的情绪分类结果为情绪信息，从而提高了识别目标文本的情绪分类准确度。

S1900、根据所述情绪信息对所述目标文本的文字形态进行调整，以使所述目标文本通过文字形态表征所述情绪信息。

系统识别目标文字所表征的情绪信息后，即可根据该情绪信息对目标文本的文字形态进行调整，从而使得目标文本通过文字形态表征该情绪信息，具体地，不同的情绪对应设置有不同的文字形态调整方案，例如：情绪信息为生气或者愤怒时对应文字形态调整方案为添加火焰特效，情绪信息为冷漠或者情绪低落时对应的文字形态调整方案为添加飘雪特效，在实施时，以目标文本为“我很生气”为例，该目标文本中文字所表征的情绪信息为“愤怒”，系统将目标文本的文字形态调整为与愤怒相对应，例如将目标文本的文字形态调整为扭曲且添加了火苗燃烧的效果。

在另一个可选实施例中，系统还可以在预设的风格图片数据库中获取与所述情绪信息具有对应关系的风格图片，预设的风格图片数据库包括了各个情绪分类对应的风格图片，例如，情绪信息为开心时，获取到的风格图像为粉色桃花的风格图像；然后将所述目标文本像素化生成内容图片，像素化是指通过使用ImageDraw库将目标文本自动拷贝在背景颜色为白色的图片上，使目标文本由文本转化成内容图片，需要说明的是，风格图片和内容图片的大小都转化成大小一致的尺寸值；之后再将所述内容图片与所述风格图片输入到预设的图像融合模型中，其中，所述图像融合模型为训练至收敛的神经网络模型，图像融合模型可以采用VGG16的神经网络模型，其中，VGG16的神经网络模型包含13个卷积层和3个全连层，具体地，在图像融合模型中，高层特征图一般是关于输入图像的物体和布局等信息，低层特征图一般表达输入图像的像素信息。

具体地，将风格图片、内容图片以及随机初始化生成的白噪声图片在图像融合模型的每个卷积层中分别提取到风格图片的低层特征图、内容图片的高层特征图以及噪声图片的特征图，其中，特征图包括高层特征图和低层特征图。

需要说明的是，白噪声图片通过随机选取内容图片或者风格图片进行复制得到，使得白噪声图片在图像融合模型中训练时，白噪声图片与内容图片以及风格图片具有相似性。

系统获取所述图像融合模型后根据所述内容图片与所述风格图片生成的融合图片，其中，所述融合图片包括所述目标文本的文字图像，且所述文字图像的文字形态表征所述情绪信息，系统将白噪声图片的特征图分别与风格图片的低层特征图和内容图片的高层特征图的特征图进行一系列的损失函数计算之后，将白噪声图片处理成具有风格图片特征和内容图片特征的融合图片，其中，文字图像为内容图片的特征，文字形态为风格图片的特征。

通过将获取的风格图片，内容图片输入到预设的图像融合模型中，得到具有表征情绪信息的文字图像、文字形态的融合图片，实现了目标文本的风格化处理，使得目标文本在消息输入框的展示上更加丰富生动。

在实施时，请参阅图15，系统将目标语音信息转换为目标文本后，系统还可以根据该目标文本中文字所表征的情绪信息在表情数据库中选取与该情绪信息相对应的目标图片，并将该目标图片连同目标文本输入至快捷界面的消息输入框中一起发送，例如：在快捷界面中接收到新消息为“今晚去打篮球不？”，用户输入语音为“今天晚上要加班，我就不去了。”，系统将该语音转换为目标文本，并识别该目标文本中文字表征的情绪信息为“很忙很累”，然后在表情数据库中查找对应该情绪信息的目标图片并与目标文本一起发送以回复新消息，能准确表达用户的情绪，提高快捷界面消息的可读性。

为解决上述技术问题，本发明实施例还提供一种语音处理装置。

具体请参阅图8，图8为本实施例语音处理装置基本结构示意图。

如图8所示，一种语音处理装置，包括：第一获取模块2100、第一处理模块2200和第一执行模块2300，其中，第一获取模块2100用于通过快捷界面获取语音信息；第一处理模块2200用于查找所述语音信息中音量低于预设音量阈值的声音空白区，其中，所述声音空白区的时长大于预设的第一时间阈值；第一执行模块2300用于对所述语音信息进行去空白处理以剪切掉所述语音信息中的所述声音空白区，以生成目标语音信息。

在一些实施方式中，语音处理装置还包括：第一监听模块和第二执行模块，其中，第一监听模块用于监听在所述快捷界面中对语音输入操作按钮的拖动操作；第二执行模块用于当检测到所述语音输入操作按钮被拖动至所述快捷界面中的预设第一区域时，对所述语音信息执行所述去空白处理。

在一些实施方式中，语音处理装置还包括：第二监听模块和第三执行模块，其中，第二监听模块用于监听在所述快捷界面中对语音输入操作按钮的拖动操作；第三执行模块用于当检测到所述语音输入操作按钮被拖动至所述快捷界面中的预设第二区域时，在所述快捷界面中创建浮动窗口；所述浮动窗口用于在播放所述目标语音信息时展示预设的动画效果。

在一些实施方式中，语音处理装置还包括：判断子模块和第一执行子模块，其中，判断子模块用于判断预设的本地数据库中是否存在所述用户自定义的目标动画样式；第一执行子模块用于当存在所述用户自定义的目标动画样式时，在预设的自定义动画效果数据库中查找与所述目标动画样式相对应的目标动画并在所述浮动窗口中进行展示。

在一些实施方式中，语音处理装置还包括：第一情绪识别模块、第二处理模块和第四执行模块，其中，第一情绪识别模块用于识别所述目标语音信息所表征的情绪信息；第二处理模块用于根据所述情绪信息在预设的表情数据库中查找与所述情绪信息相对应的目标图片；第四执行模块用于将所述目标图片添加至所述快捷界面的消息输入框中，以使所述目标图片随所述目标语音信息进行发送。

在一些实施方式中，语音处理装置还包括：第三处理模块、第二情绪识别模块和第五执行模块，其中，第三处理模块用于将所述目标语音信息转换为目标文本并输入至所述快捷界面的消息输入框中；第二情绪识别模块用于识别所述目标文本中文字所表征的情绪信息；第五执行模块用于根据所述情绪信息对所述目标文本的文字形态进行调整，以使所述目标文本通过文字形态表征所述情绪信息。

在一些实施方式中，语音处理装置还包括：处理子模块、第一获取子模块和第二执行子模块，其中，处理子模块用于将所述目标文本输入至预设的文本分类模型中，其中，所述文本分类模型为训练至收敛的用于文本分类的卷积神经网络模型；第一获取子模块用于获取所述文本分类模型输出的所述目标文本的情绪分类的置信度；第二执行子模块用于当所述置信度大于预设的第一阈值时，确认所述置信度所表征的情绪分类结果为所述情绪信息。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

为解决上述技术问题，本发明实施例还提供计算机设备。具体请参阅图9，图9为本实施例计算机设备基本结构框图。

如图9所示，计算机设备的内部结构示意图。如图9所示，该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种语音处理方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种语音处理方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图8中第一获取模块2100、第一处理模块2200和第一执行模块2300，存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有语音处理装置中执行所有子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

计算机通过在快捷界面中获取语音信息，然后查找出该语音信息中的音量低于预设音量阈值且时长大于第一时间阈值的声音空白区，在查找出语音信息中的声音空白区后，对该语音信息进行去空白处理，从而去除该语音信息中的声音空白区以生成目标语音信息，使得目标语音信息的声音连贯不间断，进而使得用户在播放该目标语音信息时不会出现没有声音的情况，减少用户等待声音空白区播放的时间，避免播放该语音信息中的声音空白区时用户误认为语音信息已经播放完毕的情况，能有效减少播放目标语音信息的时间并提高获取目标语音信息中消息内容的效率。

本发明还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例所述语音处理方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音处理方法，其特征在于，包括下述步骤：

通过快捷界面获取语音信息；

监听在所述快捷界面中对语音输入操作按钮的拖动操作；

当检测到所述语音输入操作按钮被拖动至所述快捷界面中的预设第一区域时，对所述语音信息进行去空白处理以剪切掉所述语音信息中的所述声音空白区，以生成目标语音信息；

当检测到所述语音输入操作按钮被拖动至所述快捷界面中的预设第二区域时，在所述快捷界面中创建浮动窗口，保留所述语音信息中的声音空白区，确定所述语音信息为目标语音信息，测得所述声音空白区的起始点和终止点；所述浮动窗口用于在播放所述目标语音信息时展示预设的动画效果，其中，所述目标语音信息播放时，所述动画效果显示在所述声音空白区的起始点和终止点之间的时间段。

2.根据权利要求1所述的语音处理方法，其特征在于，所述当检测到所述语音输入操作按钮被拖动至所述快捷界面中的预设第二区域时，在所述快捷界面中创建浮动窗口的步骤，包括如下述步骤：

判断预设的本地数据库中是否存在用户自定义的目标动画样式；

3.根据权利要求1所述的语音处理方法，其特征在于，所述对所述语音信息进行去空白处理以剪切掉所述语音信息中的所述声音空白区，以生成目标语音信息的步骤之后，还包括如下述步骤：

识别所述目标语音信息所表征的情绪信息；

4.根据权利要求1所述的语音处理方法，其特征在于，所述对所述语音信息进行去空白处理以剪切掉所述语音信息中的所述声音空白区，以生成目标语音信息的步骤之后，还包括如下述步骤：

识别所述目标文本中文字所表征的情绪信息；

5.根据权利要求4所述的语音处理方法，其特征在于，所述识别所述目标文本中文字所表征的情绪信息的步骤，包括如下述步骤：

6.一种语音处理装置，其特征在于，包括：

第一获取模块，用于通过快捷界面获取语音信息；

第一执行模块，用于监听在所述快捷界面中对语音输入操作按钮的拖动操作；当检测到所述语音输入操作按钮被拖动至所述快捷界面中的预设第一区域时，对所述语音信息进行去空白处理以剪切掉所述语音信息中的所述声音空白区，以生成目标语音信息；

当检测到所述语音输入操作按钮被拖动至所述快捷界面中的预设第二区域时，在所述快捷界面中创建浮动窗口，保留所述语音信息中的声音空白区，确定所述语音信息为目标语音信息，测得所述声音空白区的起始点和终止点；所述浮动窗口用于在播放所述目标语音信息时展示预设的动画效果，其中，所述语音信息播放时，所述动画效果显示在所述声音空白区的起始点和终止点之间的时间段。

7.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至5中任一项权利要求所述语音处理方法的步骤。

8.一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至5中任一项权利要求所述语音处理方法的步骤。