CN114267352B

CN114267352B - 一种语音信息处理方法及电子设备、计算机存储介质

Info

Publication number: CN114267352B
Application number: CN202111600180.3A
Authority: CN
Inventors: 周珊珊
Original assignee: Beijing Information Science and Technology University
Current assignee: Hunan Ruiyi Information Technology Co.,Ltd.
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2023-04-14
Anticipated expiration: 2041-12-24
Also published as: CN114267352A

Abstract

本发明涉及一种语音信息处理方法及电子设备、计算机存储介质，方法包括：在接收到用户触发语音输入按钮时，获取用户实时的语音信息；确认该用户的语音信息是否需要转换为文字，在转换为文字的指定区域显示文字转换是否修正的第一按钮，以及是否取消语音保留文字的第二按钮，对语音播放进行修正式处理的第三按钮；接收用户触发第二按钮，按照文字转换规则将语音信息对应的文字显示，同时删除语音信息；接收到用户触发第三按钮，按照预设的语音选择信息将语音信息进行修正处理，并播放修正后语音信息的第一预设时长。本发明的方法可以实现语音转文字，无需向客户发送语音信息或者保护语音信息的个人隐私，保证了实时聊天程序中信息交互的安全性。

Description

一种语音信息处理方法及电子设备、计算机存储介质

技术领域

本发明涉及语音处理技术，尤其是一种语音信息处理方法及电子设备、计算机存储介质。

背景技术

当前，自然语言处理技术的发展是越来越多元化，其包括机器翻译、语音识别、文本分类等多方面。而当前聊天模式也在多元化发展，各种聊天程序或聊天小软件中使用语音信息也是越来越多。

目前语音通信已经改变了人们的交流方式，在任意的聊天程序中均可实现双方用户通过语音留言，或语音消息的方式实现交互。然后，由于语音消息的内容在一些场合不能使用，或者不能迁移汇总之类的，造成不方便。

另外，如果将一用户的语音信息随意播放或者转发则会泄露用户的个人隐私，为此，如何对对用户语音信息进行处理保证用户的个人隐私成为业内研究的热点。

也就是说，聊天程序中这些语音信息的发送和接收均包含个人隐私信息较多，为此，如何对聊天程序中的个人隐私信息进行进一步的处理，并能够实现任意两个人交流的语音信息的保存且向第三方展示是需要研究的

鉴于此，需要一种聊天程序中的可将语音信息转文字的新工具，同时实现保存文字，删除语音信息，或者对语音信息进行处理，以保证用户的个人隐私信息的技术方案。

发明内容

(一)要解决的技术问题

针对现有技术的缺陷，本发明提供一种语音信息处理方法及电子设备、计算机存储介质，其可以提高用户的交互性、粘性，且保证用户的个人隐私，同时适用各种信息的迁移。

(二)技术方案

为了达到上述目的，本发明采用的主要技术方案包括下述三个方面的内容。

第一方面，本发明实施例提供一种语音信息处理方法，包括：

S1、在接收到用户触发语音输入按钮时，开始录音，获取用户实时的语音信息；

S2、若接收到用户的文字转换指令，则将该用户的语音信息是否需要转换为文字，以及在转换为文字的指定区域显示文字转换是否修正的第一按钮，以及是否取消语音保留文字的第二按钮，对语音播放进行修正式处理的第三按钮；

S3、接收用户触发第二按钮的指令时，按照文字转换规则将语音信息对应的文字显示，同时删除语音信息；

接收到用户触发第三按钮的指令时，按照预设的语音选择信息将语音信息进行修正处理，并播放修正后语音信息的第一预设时长。

可选地，所述S3包括：

接收用户触发第二按钮的指令时，按照文字转换规则将语音信息对应的文字显示后，

判断预设时间段内是否收到用户调整显示的文字信息的操作，若接收到调整操作信息，则根据所述调整操作信息对显示的文字信息进行调整；若接收到用户触发的用于表示调整完成的确认信息，则删除所述语音信息。

可选地，所述S3中的接收到用户触发第三按钮的指令时，按照预设的语音选择信息将语音信息进行修正处理，并播放修正后语音信息的第一预设时长，包括：

提取语音信息中表示该语音信息的个性化特点的声音波形点信息；

提取预设的语音选择信息中表示个性化特点的音调和音色信息；

对声音波形点信息进行修正处理，以及采用音调和音色信息对所述修正处理的语音信息进行再次调整，获得待播放的修正后的语音信息；

和/或，

采用音调和音色信息对所述语音信息进行调整，获得待播放的修正后的语音信息；

所述第一预设时长小于等于所述待播放的修正后的语音信息的时长。

可选地，预先建立有多个预设的语音选择信息的音调和音色信息的数据包；

数据包中的每一音调和音色信息匹配至少一个适用场景；

根据预先指定的场景的音调和音色信息对所述语音信息进行调整，获得待播放的修正后的语音信息。

可选地，在S1中，在输入语音的第一客户端的聊天界面中，获取用户实时的语音信息，并执行步骤S2或步骤S3；

或者，

在S1中，第一客户端接收用户的录音信息，并通过后台服务器发送第二客户端，基于第二客户端实时接收的语音信息，执行步骤S2或步骤S3。

可选地，若在第一客户端的聊天界面中获取用户实时的语音信息；

在第一客户端获取预设时间段内用户的输入习惯信息，所述输入习惯信息包括下述的一项或多项：纯文字输入习惯，纯图片输入习惯、文字+图片输入习惯、动画信息；

在S2中，若接收用户的第一按钮或第二按钮，则转换的待显示的文字按照用户的输入习惯信息进行优化，获得最终在第一客户端显示的优化后的文字；

所述优化包括：将部分特色文字采用图像代替，或者对部分文字进行艺术字处理。

可选地，所述S2之前，还包括：

基于当前用户的历史数据，建立当前用户的常用语句库或者信息库和数据处理模型，所述数据处理模型为用于语音信息修正处理的模型；

相应地，在S3中，基于常用语句库或信息库，按照文字转换规则将语音信息对应的文字显示；

或者，基于数据处理模型，按照预设的语音选择信息将语音信息进行修正处理。

第二方面，本发明实施例还提供一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序，并执行上述第一方面任一所述的语音信息处理方法的步骤。

第三方面，本发明实施例还提供一种计算机存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一所述的语音信息处理方法的步骤。

(三)有益效果

本发明的有益效果是：本发明的方法可以提高用户的交互性、粘性，且保证用户的个人隐私，同时适用各种信息的迁移。

本发明实施例的方法属于自然语言领域对语音识别和处理的技术，用于对现有能够发送和接收语音信息的各程序中实现的对语音信息的个性化处理，以保护用户的个人隐私。

与现有方法相比，本发明的优势如下：

第一、本申请的方法是属于应用型方法，其主要是嵌入在任何一个聊天程序中实现，便于用户选择和操作。

第二、本申请中通过设置第一按钮、第二按钮和第三按钮等方式，使得用户在录音之后，随时随地进行操作，其方便用户在提取或者转发的时候保护其隐私信息，保证了信息的安全性，同时便利用户操作。

第三、本申请的方法通过对语音信息的修正，可提高用户对某一程序的粘性，提高交互安全性，便于信息保留和迁移。

附图说明

图1为本发明一实施例提供的一种语音信息处理方法的流程示意图；

图2至图4分别为本发明多个实例的展示图；

图5为本发明一实施例提供的电子设备的示意图。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

如图1所示，图1示出了本发明一实施例提供的语音信息处理方法的示意图，本实施例方法的执行主体可为电子设备，具体可为任一电子设备中的聊天程序，如微信小程序，QQ小程序或者企业聊天程序等，本实施例不对其限定，根据实际需要可嵌入下述方法进行使用。本实施例的方法可包括下述的步骤：

举例来说，可在输入语音的第一客户端的聊天界面中，获取用户实时的语音信息，如图2所示的聊天界面，其属于甲用户发送的语音信息，在甲客户端的界面进行下述步骤的编辑或优化。

或者，在另一实现场景中，甲发送语音信息到乙客户端中，乙可以根据需要进行下述步骤的编辑或优化，如图3所示。即第一客户端接收用户的录音信息，并通过后台服务器发送第二客户端，基于第二客户端实时接收的语音信息。

S3、接收用户触发第二按钮的指令时，按照文字转换规则将语音信息对应的文字显示，同时删除语音信息。

举例来说，可接收用户触发第二按钮的指令时，按照文字转换规则将语音信息对应的文字显示后，

S4、接收到用户触发第三按钮的指令时，按照预设的语音选择信息将语音信息进行修正处理(如变换处理，对应变声、变速、变声调等方式)，并播放修正后语音信息的第一预设时长。

在具体应用中，提取语音信息中表示该语音信息的个性化特点的声音波形点信息；

对声音波形点信息进行修正处理，以及采用音调和音色信息对所述修正处理的语音信息进行再次调整，获得待播放的修正后的语音信息。

或者，在另一可能的实现方式中，可提取预设的语音选择信息中表示个性化特点的音调和音色信息；

所述第一预设时长小于等于所述待播放的修正后的语音信息的时长，例如3-10秒，通常可设置5s主要是便于当前用户听修正后的语音信息。

也就是说，电子设备的客户端中可预先存储有多个预设的语音选择信息的音调和音色信息的数据包；如从云端服务器或后台服务器中下载的数据包括。数据包中的每一音调和音色信息匹配至少一个适用场景。

相应地，上述采用音调和音色信息对所述语音信息进行调整，获得待播放的修正后的语音信息；

在其他实施例中，还可以调整播放语音信息的语速，例如1.5倍速进行播放或者0.5倍速进行播放等，本实施例不对其限定。

另外，针对语音信息中存在较多噪声时，可以先去除噪声再进行语音信息的个性化修正处理，例如，采用现有的滤波电路实现噪声的滤除，再选择调整语音信息中的音色、音调或倍速等修正处理。

特别地，要在语音信号在修正处理之前，对于语音信号均需要分帧、加窗等预处理操作，预处理操作主要是消除声音失真和噪声等影响，进而对后续语音信息的转换、变速或者音调、音色等变换提供更好的基础，保证信号更均匀、平滑，提高语音处理质量。

举例来说，预处理过程中的分帧，说明如下：

语音信号具有时变特性，本实施例采用短时分析技术，如在一个段时间内(10～30ms的短时间内)基本保持不变即相对稳定，可将其看做准稳态过程，即语音信号具有短时平稳性。任何语音信号的分析和处理必须建立在“短时”的基础上，即进行“短时分析”，将语音信号分段来分析其特征参数，其中每一段称为一“帧”，帧长一般取为10～30ms，本实施例可选择15ms。这样，对于整体的语音信号来讲，分析出的是由每一帧特征参数组成的特征参数时间序列。

加窗的过程，可认为是对有效语音波形加以强调，对噪声波形进行减弱，可采用矩形窗、汉明窗等方式实现。

在加窗处理之后的修正处理，可基于加窗的方式对每一个窗口的语音信号进行分析和处理，由此提高处理速度。

本实施例的方法可以提高用户的交互性、粘性，且保证用户的个人隐私，同时适用各种信息的迁移。

在实际应用中，本发明实施例还还特别设置有调整第一按钮、第二按钮和第三按钮显示时间的长度。例如在聊天的设置中添加用于配置各个按钮显示时间的配置选项，例如，第一按钮、第二按钮和/或第三按钮均可在发送信息的当天显示，超过24小时不显示。或者，在发送信息的一个小时内显示，超过一个小时不显示等设置方式，以有效实现用户的个性化或合理化使用。

在具体实现过程中，还可在第一客户端获取预设时间段内用户的输入习惯信息，所述输入习惯信息包括下述的一项或多项：纯文字输入习惯，纯图片输入习惯、文字+图片输入习惯、动画信息；

在前述的步骤S2中，若接收用户的第一按钮或第二按钮，则转换的待显示的文字按照用户的输入习惯信息进行优化，获得最终在第一客户端显示的优化后的文字；

所述优化包括：将部分特色文字采用图像代替，或者对部分文字进行艺术字处理，如图4所示。

在另一可能的实现过程中，所述步骤S2之前，还包括：

相应地，在步骤S3中，基于常用语句库或信息库，按照文字转换规则将语音信息对应的文字显示；

本实施例的数据处理模型可以是HMM及隐含马尔可夫模型，便于调整音调、音色或者语速等信息。

根据本发明实施例的另一方面，本实施例还提供一种电子设备，包括：存储器和处理器；所述处理器用于执行所述存储器中存储的计算机程序，以实现执行上述实施例一和实施例二任意所述的语音信息处理方法的步骤。

具体地，如图5所示，本实施例的电子设备可包括：至少一个处理器51、至少一个存储器52、至少一个网络接口54和/或其他的用户接口53。电子设备中的各个组件通过总线系统55耦合在一起。可理解，总线系统55用于实现这些组件之间的连接通信。总线系统55除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图5中将各种总线都标为总线系统55。

本实施例的电子设备可以执行图1至图4任意所示的方法，其中，用户接口53可以包括显示器、键盘或者点击设备(例如，鼠标或者触感板等)。

可以理解，本实施例中的存储器52可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。本文描述的存储器52包括任意其它适合类型的存储器。

在一些实施方式中，存储器52存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统521和应用程序522。

其中，操作系统521，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序522，包含各种应用程序，例如媒体播放器(MediaPlayer)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序522中。

在本发明实施例中，处理器51通过调用存储器52存储的程序或指令，具体的，可以是应用程序522中存储的程序或指令，处理器51用于执行第一方面所提供的方法步骤。

上述本发明实施例揭示的方法可以应用于处理器51中，或者由处理器51实现。处理器51可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器51中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器51可以是通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecific IntegratedCircuit，ASIC)、现成可编程门阵列(FieldProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器52，处理器51读取存储器52中的信息，结合其硬件完成上述方法的步骤。

另一方面，本发明实施例还提供一种计算机可读存储介质，其用于存储有计算机程序，所述计算机程序被处理器执行时实现上述任意实施例的语音信息处理方法的步骤。

应当注意的是，在权利要求中，不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的权利要求中，这些装置中的若干个可以是通过同一个硬件来具体体现。词语第一、第二、第三等的使用，仅是为了表述方便，而不表示任何顺序。可将这些词语理解为部件名称的一部分。

此外，需要说明的是，在本说明书的描述中，术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述，是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上显示和描述了本发明的基本原理；主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种语音信息处理方法，其特征在于，包括：

接收到用户触发第三按钮的指令时，按照预设的语音选择信息将语音信息进行修正处理，并播放修正后语音信息的第一预设时长；

所述接收到用户触发第三按钮的指令时，按照预设的语音选择信息将语音信息进行修正处理，并播放修正后语音信息的第一预设时长，包括：

和/或，

所述第一预设时长小于等于所述待播放的修正后的语音信息的时长；

预先建立有多个预设的语音选择信息的音调和音色信息的数据包；

数据包中的每一音调和音色信息匹配至少一个适用场景；

2.根据权利要求1所述的方法，其特征在于，所述S3包括：

3.根据权利要求1所述的方法，其特征在于，

在S1中，在输入语音的第一客户端的聊天界面中，获取用户实时的语音信息，并执行步骤S2或步骤S3；

或者，

4.根据权利要求3所述的方法，其特征在于，若在第一客户端的聊天界面中获取用户实时的语音信息；

5.根据权利要求1所述的方法，其特征在于，所述S2之前，还包括：

6.一种电子设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序，并执行上述权利要求1至5任一所述的语音信息处理方法的步骤。

7.一种计算机存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一所述的语音信息处理方法的步骤。