CN109801648B

CN109801648B - 消息弹窗语音编辑方法、装置、计算机设备及存储介质

Info

Publication number: CN109801648B
Application number: CN201811512414.7A
Authority: CN
Inventors: 黄燕霞; 杨晟; 胡燕
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2022-09-20
Anticipated expiration: 2038-12-11
Also published as: CN109801648A

Abstract

本发明公开一种消息弹窗语音编辑方法、装置、计算机设备及存储介质，包括：获取通过消息弹窗上的语音采集通道采集的语音信息；识别所述语音信息是否符合预设规则；当符合预设规则，弹出与所述预设规则相映射的编辑框，编辑框用于对所述语音信息进行手动编辑。本申请通过多种方式进行语音识别，对语音进行编辑，编辑的方式有很多种，通过语意识别，自动弹出可能用到的编辑框，方便用户进行修改编辑，操作过程自动化程度高，且编辑的方式有很多种，不仅可以删除语音中断的位置，对重复的语句进行删除，对不文明用语进行修改以及屏蔽，还可以通过识别音色和音量进行自动加工处理，使语音聊天更人性化，智能化，趣味性也更强，提高用户体验。

Description

消息弹窗语音编辑方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机应用技术领域，具体而言，本发明涉及一种消息弹窗语音编辑方法、装置、计算机设备及存储介质。

背景技术

随着科技的发展，智能手机和平板电脑等移动终端得到了广泛的应用，人们通过移动终端上的应用软件执行各种操作，比如打电话、语音文字交流，搜索新闻和资料，观看视频等。

尤其是在语音文字交流上，人们使用更为频繁。人们可以在当前聊天界面上通过按压某个语音图标进行语音录制，并发送，但是这种录制是一次性的，录制完成后直接发送或者删除重新录，不能对录制完成的语音进行编辑。用户将聊天界面在后台运行，在前端执行其他操作时，当有新的消息发送过来时，会以消息弹窗的形式进行提醒，但是对于发送的语音消息，只能通过简单地接听，不能直接在消息弹窗上录制并编辑，使用起来不方便。

发明内容

本发明的目的旨在至少能解决上述的技术缺陷之一，公开一种通过检测语音信息中的问题，根据所存在的问题，弹出编辑框供用户编辑和修改的消息弹窗语音编辑方法、装置、计算机设备及存储介质。

为了达到上述目的，本发明公开一种消息弹窗语音编辑方法，包括：

在消息弹窗模式下获取语音信息；

识别所述语音信息是否符合预设规则；

当符合预设规则，弹出与所述预设规则相映射的编辑框，所述编辑框用于对所述语音信息进行手动编。

可选的，所述识别所述语音信息中是否符合预设规则的方法包括：

将所述语音信息输入语音神经网络模型中；

通过所述语音神经网络模型识别所述语音信息中的语意、语速、音色、和/或音量；

根据所识别的所述语意、语速、音色和/或音量判断所述语音信息是否符合所述预设规则。

可选的，所述预设规则包括：语音信息在第一预设时间段内存在语句中断；或者，在语音信息中的预设语气词所延续的时间超过第二预设时间；或者，在语音信息中出现多个重复词语或者语句；或者，在语音信息中存在预设的不文明用语；或者，在语音信息中音量值在预设音量值范围值之外；或者，在语音信息中音色值在预设范围值之外。

可选的，所述编辑框包括文字编辑框，所述文字编辑框上呈现出由所述语音信息转换成的文字信息，所述文字编辑框的编辑功能包括复制、删除或添加文字中的一种或多种。

可选的，所述编辑框包括音频编辑框，所述音频编辑框上显示根据所述语音信息识别的声波图，所述音频编辑框的编辑功能包括复制、删除、添加音频、音量调节、音色变化中的一种或多种。

可选的，在通过所述编辑框完成手动编辑之后，还包括：

获取编辑后的所述语音信息的发送指令；

检测待发送的编辑后的所述语音信息是否符合所述预设规则；

若符合所述预设规则，根据预设的修改规则自动对所述语音信息进行修改后发送。

可选的，所述编辑界面中的编辑图标有多个，多个所述编辑图标之间相对移动，所述多个所述编辑图标之间相对移动的方法还包括：

检测所述编辑界面上的是否有接收到指示滑动的触发信息的待移动图标；

当接收到有所述触发信息时，所述待移动图标的移动方向上的另一个编辑图标朝所述待移动图标方向相向移动，以调整该编辑图标与待移动图标之间的相对位置。

另一方面本申请还公开一种消息弹窗语音编辑装置，包括：

获取模块：被配置为执行在消息弹窗模式下获取语音信息；

处理模块：被配置为执行识别所述语音信息是否符合预设规则；执行模块：被配置为执行当符合所述预设规则，弹出与所述预设规则相映射的编辑框，所述编辑框用于对所述语音信息进行手动编辑。

进一步的，还包括：

输入模块：被配置为将所述语音信息输入语音神经网络模型中；

识别模块：被配置为执行通过所述语音神经网络模型识别所述语音信息中的语意、语速、音色、和/或音量；

判断模块：被配置为执行根据所识别的所述语意、语速、音色和/或音量判断所述语音信息是否符合所述预设规则。

进一步的，所述预设规则包括：语音信息在第一预设时间段内存在语句中断；

或者，在语音信息中的预设语气词所延续的时间超过第二预设时间；

或者，在语音信息中出现多个重复词语或者语句；

或者，在语音信息中存在预设的不文明用语；

或者，在语音信息中音量值在预设音量值范围值之外；

或者，在语音信息中音色值在预设范围值之外。

进一步的，所述编辑框包括文字编辑框，所述文字编辑框上呈现出由所述语音信息转换成的文字信息，所述文字编辑框的编辑功能包括复制、删除或添加文字中的一种或多种。

进一步的，所述编辑框包括音频编辑框，所述音频编辑框上显示根据所述语音信息识别的声波图，所述音频编辑框的编辑功能包括复制、删除、添加音频、音量调节、音色变化中的一种或多种。

进一步，还包括：

发送模块：被配置为用于获取编辑后的所述语音信息的发送指令；

检测模块：被配置为检测待发送的编辑后的所述语音信息是否符合所述预设规则；

修改模块：被配置为执行若符合所述预设规则，根据预设的修改规则自动对所述语音信息进行修改后发送。

进一步，所述编辑界面中的编辑图标有多个，多个所述编辑图标之间相对移动，还包括：

滑动检测模块：被配置为执行检测所述编辑界面上是否有接收到指示滑动的触发信息的待移动图标；

滑动模块：被配置为执行当接收到有所述触发信息时，所述待移动图标的移动方向上的另一个编辑图标朝所述待移动图标方向相向移动，以调整该编辑图标与待移动图标之间的相对位置。

本发明的有益效果是：本申请公开一种消息弹窗语音编辑方法，在完成语音信息录制后，不直接对语音信息进行发送，而是会自动监测录制的语音，识别语音信息是否流畅、是否有敏感词汇，是否有重复的语句等符合预设规则的情况，当识别的语音信息符合上述预设规则时，会根据识别的语音信息出现的问题自动弹出对应的编辑界面，以便于用户对该语音信息进行编辑，使语音聊天更人性化，智能化，趣味性也更强，提高用户体验。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明消息弹窗语音编辑方法流程图；

图2为本发明实施例消息弹窗显示界面；

图3为本发明消息弹窗录音状态显示界面；

图4为本发明识别语音信息中的预设规则的方法流程图；

图5为本发明识别出符合第一规则显示界面；

图6为本发明识别出符合第一规则编辑界面；

图7为本发明继续录音界面；

图8为本发明符合第五规则的编辑界面；

图9为本发明相对滑动操作流程图；

图10为本发明相对滑动的编辑界面；

图11为本发明自动修改发送流程图；

图12为本消息弹窗语音编辑装置框图；

图13为本发明计算机设备基本结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Personal Communi cations Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

具体的，请参阅图1，本发明公开一种消息弹窗语音编辑方法，包括：

S1000、在消息弹窗模式下获取语音信息；

消息弹窗通常应用在移动终端上的应用程序上，应用程序在后台运行时，有新的通知或者推送的消息时，以悬浮窗口的方式在移动终端的显示界面最前端进行显示，以提醒用户有新的消息，进行查看。

语音采集通道是指通过某个触发按键，激活移动终端上的录音设备以进行录音，在本申请中，在消息弹窗上设置触发按键，当用户激活该触发按键时，录音设备开启，采集周围的声音信息。

请参阅图2-图3，图2表示在某一个聊天界面中，以消息弹窗显示的界面，在该消息弹窗中，包括新接收的具体信息的内容，以及文字和语音输入框。语音输入框为图1中“话筒”的触发按键，由于目前的移动终端大多是触摸屏，当用手指按压该“话筒”触发按键时，移动终端的录音设备被激活，消息弹窗上显示“录音中”的相关提示，用户在移动终端的预设距离内说话，即可被该录音设备采集。

需要说明的的，对触发按键的触发方式，可以有多种。在一实施例中，可以是一直按压该触发按键，当松开该触发按键时，表示停止触发，录音设备采集完毕。

在另一实施例中，触发方式可以是，第一次按压该触发按键，表示开始录音，第二次按压该触发按键，表示停止录音。而在另一实施例中，触发方式还可以是按压一次该触发按键，在预设时间段内若没有接收到第二次按压的触发信息，则自动停止录音，在录音的过程中显示录音剩余时间，以提示用户录音时长。

S2000、识别所述语音信息是否符合预设规则；

在步骤S1000中采集了语音信息后，对所述语音信息进行识别，以判断该语音信息中是否符合预设规则。

本申请中，预设规则设置有多种，在语音识别中可以同时识别出该语音信息是否符合其中的一种或多种规则。具体的，在本申请中，第一种预设规则为：语音信息在第一预设时间段内存在语句中断；例如第一预设时间段可以是2秒或2秒以上，在语音信息中，在2秒及以上的时间范围内语句存在中断，则表示该语句符合第一种预设规则。

S3000、当符合所述预设规则，弹出与所述预设规则相映射的编辑框，所述编辑框用于对所述语音信息进行手动编辑。

编辑框为可以对语音进行编辑的弹出框，由于预设规则设置有多种，不同的预设规则，出现的问题可能不一样，比如上述第一种预设规则为出现语句中断，因此可以进行的编辑为：将中断的位置删除，对应的相映射的编辑框为具有能够显示语句的中断位置，且对该语句的某一段进行删除的弹出框。用户通过该弹出框对语音信息中中断的位置进行删除。

进一步的，针对第一种预设规则的编辑框，不局限于只显示语音信息的中断位置，还可以进一步设置为可以指定语音信息的任意位置进行删除，将其中一个或多个位置进行删除后，自动合并成一句完整的语音信息以便于发送。

上述步骤S2000和步骤S3000中只公开了其中一种预设规则，本申请中预设规则和所映射的编辑框还包括：

第二预设规则为：在语音信息中的预设语气词所延续的时间超过第二预设时间；

语气词在中文中有多种，比如“吗”、“呀”、“啊”、“嗯”、“额”……等，对于有些语气词一般使用在语句的结尾，不太导致停顿，但是有一些语气词通常使用在思考的情景下出现短暂的停顿，比如“嗯”、“额”，很多人会在说话的时候，句子与句子之间会不自觉得添加“嗯”作为停顿，这样影响了语句的流畅性，因此，可指定某些语气词作为预设语气词，系统自动检测语音信息中是否带有该预设语气词，若存在该预设语气词，则弹出可修改该预设语气词的编辑框供用户编辑。该编辑框可以与上述第一预设规则所映射的编辑框一样，显示指定的需要修改的位置，供用户进行选择，是否删除。

第三预设规则为：在语音信息中出现多个重复词语或者语句；

用户在录音过程中可能因为思考的原因，会出现重复的词，比如“那个，那个，那个我的意思是”等情况，其中在语句中出现了多个“那个”的情况，影响整个语句的简洁性。进一步的，由于个人逻辑的关系，可能对于某一句话重复出现，导致语言啰嗦，比如当出现“这不是一个好办法，因为这样做会让很多人造成很大的损失，不是个好办法，我们应该以大家的利益为重”这样的语句是，“不是个好办法”在一段话中出现了两侧，明显第二个“不是好办法”可以删除，也不影响整个意思的表达，因此可以将第二个“不是好办法”删除，变成“这不是一个好办法，因为这样做会让很多人造成很大的损失，我们应该以大家的利益为重”，这样使语句更简洁；

当出现第三预设规则的语句，则自动弹出与第三预设规则相映射的编辑框，显示出重复出现的语句，供用户进行删除。

上述第一预设规则、第二预设规则和第三预设规则的编辑框所映射的编辑框可以是同一个编辑框，均可以是根据所识别的语音信息，显示并指示出需要修改的位置，供用户进行修改。

进一步的，第四预设规则为：在语音信息中存在预设的不文明用语；

人们在心情激动或者由于个人说话方式的原因，在交谈中可能会出现一些不文明用语，不文明用语会导致影响交谈者的心情，破坏社会风气，国家并不提倡，因此，可在识别语音语意的同时，识别出不文明用语，并弹出对应的修改编辑框，显示并指示需要修改的位置，供用户删除该不文明用语。

上述显示并指示需要修改的位置的方法可以有多种，在一实施例中，可将语音信息识别出来并转换成文字，显示在文字编辑框中，用户通过查看文字，对文字进行编辑，以进行修改。对于第一预设规则，可用“空格”表示中间停顿的位置，用户删除空格即可对应将终端的语音位置删除，对于第二预设规则中的预设语气词、第三预设规则中的重复词语与语句以及第四预设规则中的不文明用语，也可通过转换成文字的形式呈现在编辑框中，供用户进行选择和删除。

在另一实施例中，识别的语音信息科采用音频波形的方式显示在音频编辑框中，用户可以通过波形选择指定的位置进行收听，找到语句中断的位置和重复语音的位置。进一步的，可自动将出现中断或者重复的地方突出标示出来，供用户收听和进行编辑。

针对上述两种显示和修改的方式，不局限于对指定位置的语句进行删除，还可以是对顺序进行调整，通过对所选择的文字或者音频波形进行前后移动，以调整语言的顺序，对文字和音频波形进行了调整，对应的语音也进行调整。

进一步的，还包括对指定的文字和音频进行复制，以及在指定位置进行添加。对于文字编辑框，通过在指定的位置输入文字，当将文字信息转换成语音信息时，自动对输入的文字进行播放。需要说明的是，输入的文字进行播放的语音可以是从语音数据库中选取的对应的语音进行播放，也可是通过对输入的语音信息的音色进行分析后，模拟用户的声音进行播放。对于音频编辑框，可以通过选择指定位置的音频进行复制，以及旋转指定位置，插入新录制的音频。

上述实施例中的将语音信息转换成文字或者转换成音频波形的方式可以各自以编辑框的方式显示，也可以共同集成在一个编辑框中，用户可在一个编辑框中，同时通过观察波形和转换成的文字信息对语音信息进行修改。

进一步的，预设规则还包括第五预设规则：语音信息中音量值在预设音量值范围值之外。

录制语音音量值的大小跟说话人的距离有一定的关系，当距离过远，采集的音频的声音音量过小，导致音频发送后接收人听到的声音也过小，或者因为录音设备本身的原因，导致输入的音频的声音音量过小，因此需要对输入的音量值设置一个范围值，监测录制的语音音量值的大小，当硬梁子在范围值之外时，弹出对应的编辑框，便于用户对音量进行调节。

进一步的，预设规则还包括第六预设规则：在语音信息中音色值在预设范围值之外

不同的物体和人发出来的声音的音色会不一样，同一个人在正常说话下，和在情绪激动时说话声音的音色也会不一样，因此可以通过对音色进行量化，并设定一个预设范围来判断声音是否正常，利用这种方式可检测到用户的录音中是否带着哭腔，或者是否因为太激动，有颤抖的情况。

当监测到语音信息中有第六预设规则的情况时，弹出对应的编辑框，以便于用户对音色进行调节。

请参阅图4，本申请所述识别所述语音信息中是否符合预设规则的方法包括：

S2100、将语音信息输入语音神经网络模型中；

上述预设规则不局限于包括上述六种，还可以包括多种，当需要同时监控语音信息中是否符合多种预设规则时可采用神经网络模型的方式。神经网络模型是通过前期不断地训练，以对相关数据进行识别，训练样本越多，越全面，输入的结果越准确。通过前期大量的数据，训练其能识别指定的数据。

S2200、通过所述语音神经网络模型识别所述语音信息中的语意、语速、音色、和/或音量；

本申请中，将语音信息输入训练好的语音神经网络模型中，指定输出的数据类型包括语意、语速、音色、音量中的一种或多种。识别的过程包括：

语音信息输入时要先经过预处理，包括预加重、分帧加窗等，预加重的目的是为了加强语音的高频部分，以便在特征提取阶段进行频频分析。分帧加窗的目的是为了使帧与帧之间平滑过渡，保持连续性以及保持语音信号的短时平稳性。进行特征提取，语音特征参数的时间序列构成语音的模式，将其与获得的参考模式逐一比较，获得最佳匹配的参考式得到识别结果。

语音识别使用神经网络构建，可使用的两种类型的神经网络，分别是多层感知器(MLP)和循环神经网路(RNN)，通过任意一种神经网络模型，可对语音语意进行识别。

其中语音识别中需要对语言进行语法、语义分析以达到识别的目的。因此需要进行语言建模，语言建模能够有效的结合汉语语法和语义的知识，描述词之间的内在关系，从而提高识别率，减少搜索范围。语言模型分为三个层次：字典知识，语法知识，句法知识。对训练文本数据库进行语法、语义分析，经过基于统计模型训练得到语言模型。可采用以下两种语言建模方法：(1)基于规则模型；(2)基于统计模型。

S2300、根据所识别的所述语意、语速、音色和/或音量判断所述语音信息是否符合所述预设规则。

通过步骤S2300识别了所述语意、语速、音色和/或音量后，即可判断得出所述语音信息是否符合预设规则。比如通过识别语意，可判断是否符合第二预设规则、第三预设规则和第四预设规则，通过识别语速，判断是否符合第一预设规则，通过识别音量判断是否符合第五预设规则，通过识别音色判断是否符合第六预设规则。

当通过上述方式识别了对应的预设规则后，弹出与所述预设规则相映射的编辑框，以便于用户进行编辑。根据上述公开的几种预设规则和对应的编辑方法，本申请以如下实施例进行具体说明。

在上述图2和图3所示方式录制语音信息之后，第一种情况下，当判断出录制的语音中出现了语句中断，比如因提早按压结束按键，或者在规定录音时长结束时未说完语句的时候，导致所录的语音信息不是一句话时，则自动保存当前录音，同时进行提示继续录音，显示界面如图5，当检测到语音录制有问题，则出现提示“当前录音出现中断，是否继续录音”，当用户选择否，则直接发送该录音，当用户选择是，则进入下一个录音界面，如图6，弹出继续录音的选择界面，其中中间的三角形图标表示播放试听刚刚的录音，“S”表示继续刚刚没说完的话继续进行录音，“P”表示另起一个音频进行录音，当录制完成后还可将两个音频组合起来。“铅笔和本子”表示进入编辑界面，对刚刚的录音直接进行编辑，另外一个“垃圾桶”的图标表示删除当前的录音。

进一步的，对于编辑的方式，可以是将录音转换成文字进行显示，也可以是音频的格式。比如以文字形式，识别用户录音内容为“不去了，天气太”，则在编辑页面显示这几个字，由于用户上一段录音没有说完，则可以通过手动输入一个“热”字，让文本完整“不去了，天气太热”，当用户发送的时候，则可以通过与存储的发音将这个字补充如原始音频中。另一种方式为同时识别用户的音色，模拟用户声音读出该字。

在另一实施例中，还可通过音频的方式，比如将用户刚刚录制的音频以声波波纹形式显示出来，通过选择继续录音的位置，以进行录音，比如图7，上述的用户录音内容为“不去了，天气太”，最后一个字没有录制完成，则可选择上次录音的最后位置，继续补充录音。当然，用户还可通过放大录音波纹，选择需要录音的位置，将录音进行插入，即录音的位置可以是录音波纹中任意位置。当录制完成后将录音合成进行发送。进一步的，用户还可以通过这种方式选择需要编辑的位置，删除某个位置的语音。

通过以上公开的技术方案，可实现上述规则中的第一至四的语音出现停顿、出现重复词语和重复句子以及修改不文明用语的情况。本申请中实际显示的界面以及图标和功能还可以是其他样式的。

而对于第五种和第六种预设规则的音量小以及音色修改的方法为，当识别出语音出现以上问题时，则弹出针对该语音进行音量调节，以及音色变化的图标，比如图8中的上下箭头，表示音量调高或者调低，图8中的

图标表示进入声音润色的界面，声音润色可以是变音，或者将根据识别的声音特定，以进行修正。进一步的，还可以通过

图标，进入下一个编辑界面，获取未在当前界面显示的编辑图标，比如上述的连续录音的图标等，以便于当自动匹配编辑框不准确的时候进行人工选择。

进一步的，在上述进行编辑过程中，由于弹出的编辑界面会有多个图标，用户可以查询所需要的编辑框进行编辑，还可以通过滑动对应的编辑框，调整当前页面显示的编辑框的具体的位置。

进一步的，请参阅图9，所述编辑界面中的编辑图标有多个，多个所述编辑图标之间相对移动，所述多个所述编辑图标之间相对移动的方法还包括：

S2400、检测所述编辑界面上是否有接收到指示滑动的触发信息的待移动图标；

S2500、当接收到有所述触发信息时，所述待移动图标的移动方向上的另一个编辑图标朝所述待移动图标方向相向移动，以调整该编辑图标与待移动图标之间的相对位置。

在检测到有语音信息需要编辑时，弹出的编辑界面可能同时包含多个编辑图标，用户还可对上面的图标进行编辑，编辑的方式包括删除该编辑界面的编辑图标，或者移动各个编辑图标之间的位置关系。

移动各个编辑图标之间的相对位置是指指定某个编辑图标在编辑图标中的位置，比如当编辑图标A在最左边位置时，通过移动该编辑图标A将图标移动至编辑界面的最右边，或者将编辑界面中的编辑图标A和编辑图标B的位置调换。具体的执行方法上述S2400以及步骤S2500所描述的，当检测到有针对某个编辑图标滑动的触发信息后，通过检测该待移动图标的将要移动的方向，控制这个方向上最接近的那个编辑图标与该待移动图标相向运动，以使二者交换位置。进一步的，当待移动图标的移动方向上没有其他的编辑图标时，则该待移动图标直接移动到目标位置后静止。

进一步的，当带移动图标移动方向上的编辑图标为“删除”编辑图标时，若将待移动图标移向该编辑图标位置，则表示将该待移动图标进行删除。

请参阅图10，上述方案还可用于自行调整当前编辑页面的编辑图标的位置以及编辑图标的数量，比如可将某些编辑图标拖至表征“删除”的编辑框中进行删除图标操作，或者删除录音，比如在本申请中，图标

被激活后，播放录音，当将该图标移动至表征“删除”的图标中时，则表示删除该段录音。具体操作可以为：按住中间的播放键滑动至需要编辑的位置，以进行编辑，比如用户需要删除时，可按住中间的

图标，滑动至垃圾桶代表的删除位置，当监测到用户是朝向垃圾桶位置移动时，其他的图标变暗，垃圾桶位置的图标主动滑向手指移动方向，以方便用户操作，比如图10只有

按键和

突出显示，其他的图标都是灰色不可用的，且

图标自动移向图标

位置，以方便当前播放的录音进行删除操作。

上述操作是在检测到语音信息中有符合预设规则的语句后，通过弹出编辑框，以进行编辑，在另一实施例，可以选择自动编辑的模式，即在用户没有进行修改或者选择自动修改模式的情况下，根据所检测的预设规则的类型，匹配对应的编辑框，并自动进行编辑。

在另一实施例中，在进行手动编辑之后，用户点击发送该编辑后的语音信息后，还可进一步对该编辑后的语音信息进行再次检测，判断是否符合预设规则，若用户不继续进行编辑，执意点击发送，还可根据预设的修改规则，对语音信息进行自动编辑后再发送。具体请参阅图11，在通过所述编辑框完成手动编辑之后，还包括：

S4000、获取编辑后的所述语音信息的发送指令；

S5000、检测待发送的编辑后的所述语音信息是否符合所述预设规则；

S6000、若符合所述预设规则，根据修改规则自动对所述语音信息进行修改后发送。

在本实施例中，这里的预设修改规则为根据上述语音信息的预设规则，设定的修改的规则，比如删除重复的语句、删除停顿的地方，用象声词代替不文明用语等。当检测到执行发送的语音信息中还是含有不文明用词时，可弹出编辑框让用户继续进行修改，若用户未修改而继续进行语音发送，则将不文明用词自动进行屏蔽，比如不文明用词可用“滴滴”之类的象声词代替，以规范文明语音交流。上述自动编辑的方式不局限于对不文明用于的修改，还适合任意一种预设规则，只需要预设修改规则即可，此处不再赘述。

本申请在完成语音信息录制后，不直接对语音信息进行发送，而是会自动监测录制的语音，识别语音信息是否流畅、是否有敏感词汇，是否有重复的语句等，当识别的语音信息不符合上述预设条件时，会根据识别的语音信息出现的问题自动弹出对应的编辑界面，以便于用户对该语音信息进行编辑。

语音信息监测的方式有多种，可检测出的问题也有多种。同时，检测语音的方法包括将语音转换成文字，以便于用户根据生成的文字进行删除修改和添加；另一种是通过音频声波波纹，选取需要修改的声波位置进行删除、修改或者增加；另一种是通过神经网络模型，识别语音所要表达的意思，对中间中断、敏感用词、或者重复的语句进行识别，对音色和音量进行识别，从而弹出对应映射的编辑框以便于用户进行修改，或者根据识别的情况自行进行修改，使语音聊天更人性化，智能化，趣味性也更强，提高用户体验。

本申请还公开一种消息弹窗语音编辑装置，请参阅图12包括：

获取模块1000：被配置为执行在消息弹窗模式下获取语音信息；

处理模块2000：被配置为执行识别所述语音信息是否符合预设规则；

执行模块3000：被配置为执行当符合所述预设规则，弹出与所述预设规则相映射的编辑框，所述编辑框用于对所述语音信息进行手动编辑。

进一步的，还包括：

输入模块：被配置为将语音信息输入语音神经网络模型中；

进一步的，所述预设规则包括：语音信息存在第一预设时间段内存在语句中断；

或者，在语音信息中出现多个重复词语或者语句；

或者，在语音信息中存在预设的不文明用语；

或者，在语音信息中音量值在预设音量值范围值之外；

或者，在语音信息中音色值在预设范围值之外。

进一步的，所述编辑框包括：

文字编辑框，所述文字编辑框上呈现出由所述语音信息转换成的文字信息，所述文字编辑框的编辑功能包括复制、删除或添加文字中的一种或多种。

进一步的，所述编辑框包括：

音频编辑框，所述音频编辑框上显示根据所述语音信息识别的声波图，所述音频编辑框的编辑功能包括复制、删除、添加音频、音量调节、音色变化中的一种或多种。

进一步，还包括：

上述公开的一种消息弹窗语音编辑装置是消息弹窗语音编辑方法一一对应的执行装置，其工作原理与上述的消息弹窗语音编辑方法一样，此处不再赘述。

本发明实施例提供计算机设备基本结构框图请参阅图13。

该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种消息弹窗语音编辑方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种消息弹窗语音编辑方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

计算机设备通过接收关联的客户端发送的提示行为的状态信息，即关联终端是否开启提示以及用户是否关闭该提示任务。通过验证上述任务条件是否达成，进而向关联终端发送对应的预设指令，以使关联终端能够根据该预设指令执行相应的操作，从而实现了对关联终端的有效监管。同时，在提示信息状态与预设的状态指令不相同时，服务器端控制关联终端持续进行响铃，以防止关联终端的提示任务在执行一段时间后自动终止的问题。

本发明还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例所述的消息弹窗语音编辑方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种消息弹窗语音编辑方法，其特征在于，包括：

在消息弹窗模式下获取语音信息；

识别所述语音信息是否符合预设规则，所述预设规则有多种；

当符合所述预设规则，弹出与所述预设规则相映射的编辑框，所述编辑框用于对所述语音信息进行手动编辑；

其中，所述识别所述语音信息中是否符合预设规则的方法包括：

将所述语音信息输入语音神经网络模型中；

通过所述语音神经网络模型识别所述语音信息中的语意、语速和/或音色；

根据所识别的所述语意、语速和/或音色判断所述语音信息是否符合所述一种或多种预设规则；

通过所述语音神经网络模型识别所述语音信息中的音量，根据所述识别的所述音量判断所述语音信息是否符合所述一种或多种预设规则。

2.根据权利要求1所述的消息弹窗语音编辑方法，其特征在于，所述预设规则包括：语音信息在第一预设时间段内存在语句中断；或者，在语音信息中的预设语气词所延续的时间超过第二预设时间；或者，在语音信息中出现多个重复词语或者语句；或者，在语音信息中存在预设的不文明用语；或者，在语音信息中音量值在预设音量值范围值之外；或者，在语音信息中音色值在预设范围值之外。

3.根据权利要求1所述的消息弹窗语音编辑方法，其特征在于，所述编辑框包括文字编辑框，所述文字编辑框上呈现出由所述语音信息转换成的文字信息，所述文字编辑框的编辑功能包括复制、删除或添加文字中的一种或多种。

4.根据权利要求1所述的消息弹窗语音编辑方法，其特征在于，所述编辑框包括音频编辑框，所述音频编辑框上显示根据所述语音信息识别的声波图，所述音频编辑框的编辑功能包括复制、删除、添加音频、音量调节、音色变化中的一种或多种。

5.根据权利要求1-4任意一项所述的消息弹窗语音编辑方法，其特征在于，在通过所述编辑框完成手动编辑之后，还包括：

获取编辑后的所述语音信息的发送指令；

6.根据权利要求5所述的消息弹窗语音编辑方法，其特征在于，所述编辑框中的编辑图标有多个，多个所述编辑图标之间相对移动，所述多个所述编辑图标之间相对移动的方法还包括：

检测所述编辑框上是否有接收到指示滑动的触发信息的待移动图标，所述待移动图标为待移动的编辑图标；

当接收到有所述触发信息时，所述待移动图标的移动方向上的另一个编辑图标朝所述待移动图标方向相向移动，以调整该另一个编辑图标与待移动图标之间的相对位置。

7.一种消息弹窗语音编辑装置，其特征在于，包括：

获取模块：被配置为执行在消息弹窗模式下获取语音信息；

处理模块：被配置为执行识别所述语音信息是否符合预设规则，所述预设规则有多种；

执行模块：被配置为执行当符合所述预设规则，弹出与所述预设规则相映射的编辑框，所述编辑框用于对所述语音信息进行手动编辑；

进一步的，还包括：

识别模块：被配置为执行通过所述语音神经网络模型识别所述语音信息中的语意、语速和/或音色；

判断模块：被配置为执行根据所识别的所述语意、语速和/或音色判断所述语音信息是否符合所述一种或多种预设规则；通过所述语音神经网络模型识别所述语音信息中的音量，根据所述识别的所述音量判断所述语音信息是否符合所述一种或多种预设规则。

8.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至6中任一项权利要求所述的消息弹窗语音编辑方法的步骤。

9.一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至6中任一项权利要求所述的消息弹窗语音编辑方法的步骤。