CN109471537A

CN109471537A - 语音输入方法、装置、计算机设备和存储介质

Info

Publication number: CN109471537A
Application number: CN201710805979.3A
Authority: CN
Inventors: 徐飞; 邹田醒言
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2019-03-15

Abstract

本申请涉及一种语音输入方法、装置、计算机设备和计算机可读存储介质，所述方法包括：展示与待输入界面不同的语音输入面板；检测到作用于所述语音输入面板的录音启动操作时，录制语音数据；获取对所述语音数据进行语音识别得到的文本；将所述文本展示在所述语音输入面板中；检测到作用于所述语音输入面板的输入确认操作时，将所述语音输入面板中展示的所述文本迁移至所述待输入界面中。本申请提供的方案提高了语音输入的效率。

Description

语音输入方法、装置、计算机设备和存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种语音输入方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，越来越多的用户在进行交互时选择在计算机设备上通过语音来表达意愿，特别是通过语音识别技术将输入的语音转换成文字来表达意愿。

传统的语音输入方式，通常是需要先选择文本输入框，再将光标移动到文本输入框中，通过计算机设备调用虚拟键盘，通过触发虚拟键盘中的语音输入操作开启本地的录音设备来录制语音数据。再将与录制的语音数据相匹配的文本显示在输入框中。然而，传统的语音输入方式操作复杂，使得语音输入效率较低。

发明内容

基于此，有必要针对语音输入效率低的问题，提供一种语音输入方法、装置、计算机设备和存储介质。

一种语音输入方法，所述方法包括：

展示与待输入界面不同的语音输入面板；

检测到作用于所述语音输入面板的录音启动操作时，录制语音数据；

获取对所述语音数据进行语音识别得到的文本；

将所述文本展示在所述语音输入面板中；

检测到作用于所述语音输入面板的输入确认操作时，将所述语音输入面板中展示的所述文本迁移至所述待输入界面中。

在一个实施例中，所述方法还包括：

检测到作用于所述语音输入面板的录音启动操作时，确定所述待输入界面中未被所述语音输入面板覆盖的区域；

按照所述区域的尺寸生成遮罩层；

将所述遮罩层覆盖所述区域。

在一个实施例中，所述语音输入面板包括录音启动控件；所述检测到作用于所述语音输入面板的录音启动操作时，录制语音数据包括：

检测到对所述语音输入面板中录音启动控件的按压操作时，录制语音数据；

所述方法还包括：

检测到所述按压操作结束时，结束录制；

检测到所述按压操作结束时，将所述录音启动控件置为等待识别结束状态；

当获取到语音识别结束后的完整文本时，将所述录音启动控件从所述等待识别结束状态切换为默认状态；

所述将所述录音启动控件置为等待识别结束状态包括：

获取从按压操作结束至获取到语音识别结束后的完整文本的预估时长；

对应于所述录音启动控件，显示按照所述预估时长进行倒计时的进度条；

当所述进度条倒计时结束、且未获取到语音识别结束后的完整文本时，重置所述进度条，并通过所述进度条重新按照所述预估时长进行倒计时。

在一个实施例中，所述获取对所述语音数据进行语音识别得到的文本，包括：

在录制语音数据过程中，将所述语音数据按时序划分语音片段；

获取对划分出的语音片段进行语音识别得到的文本；

所述将所述文本展示在所述语音输入面板中，包括：

将当前识别到的文本即时展示在所述语音输入面板中；

所述方法还包括：

当获取到语音识别结束后的完整文本前，在所述语音输入面板中所展示文本的末尾添加动态变化的预设文本；

当获取到语音识别结束后的完整文本时，取消在所述语音输入面板中所展示文本的末尾所添加的动态变化的预设文本。

一种语音输入装置，所述装置包括：

展示模块，用于展示与待输入界面不同的语音输入面板；

语音录制模块，用于检测到作用于所述语音输入面板的录音启动操作时，录制语音数据；

获取模块，用于获取对所述语音数据进行语音识别得到的文本；

所述展示模块还用于将所述文本展示在所述语音输入面板中；

迁移模块，用于检测到作用于所述语音输入面板的输入确认操作时，将所述语音输入面板中展示的所述文本迁移至所述待输入界面中。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述语音输入方法的步骤。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述语音输入方法的步骤。

上述语音输入方法、装置、计算机设备和存储介质，在向待输入界面中输入文本时，展示与待输入界面不用的语音输入面板，在该语音输入面板中实现录音启动操作的检测、识别出的文本的展示以及输入确认操作的检测，可以高效地在语音输入面板中实现语音输入的启动、识别以及确认。检测到输入确认操作后，直接将语音输入面板中展示的文本迁移至待输入界面中，使得整个语音输入过程变得简单高效，提高了语音输入的效率。

附图说明

图1为一个实施例中语音输入方法的应用环境图；

图2为一个实施例中语音输入方法的流程示意图；

图3为一个实施例中将遮罩层覆盖待输入界面中未被语音输入面板覆盖的区域的步骤的流程示意图；

图4为一个实施例中终端调起语音输入面板时的界面示意图；

图5为一个实施例中遮罩层覆盖待输入界面中未被语音输入面板覆盖的区域的界面示意图；

图6为一个实施例中切换录音启动控件的状态的步骤的流程示意图；

图7为一个实施例中录音启动控件处于默认状态的界面示意图；

图8为一个实施例中录音启动控件处于录音准备状态的界面示意图；

图9为一个实施例中录音启动控件处于语音识别中状态的界面示意图；

图10为一个实施例中录音启动控件处于等待识别结束状态的界面示意图；

图11为一个实施例中将录音启动控件置为语音识别中状态的步骤；

图12为一个实施例中音强指示区间的界面示意图；

图13为一个实施例中终端获取到本次语音输入的完整文本前动态展示预设文本的界面示意图；

图14为一个实施例中对语音输入面板中展示的文本进行编辑的步骤的流程示意图；

图15为一个实施例中终端接收作用于文本的编辑触发操作的界面示意图；

图16为一个实施例中对语音输入面板中展示的文本进行编辑的界面示意图；

图17为一个实施例中在文本处于可编辑状态时进行语音输入的步骤的流程示意图；

图18为一个实施例中语音输入方法的流程示意图；

图19为一个实施例中语音输入装置的结构框图；

图20为另一个实施例中语音输入装置的结构框图；

图21为再一个实施例中语音输入装置的结构框图；

图22为还一个实施例中语音输入装置的结构框图；

图23为再一个实施例中语音输入装置的结构框图；

图24为还一个实施例中语音输入装置的结构框图；

图25为又一个实施例中语音输入装置的结构框图；

图26为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本发明的技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为一个实施例中语音输入方法的应用环境图。参照图1，该应用环境包括终端110和服务器120构成的语音输入系统，终端110和服务器120通过网络连接。其中，终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑和笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，终端110可实施一种语音输入方法，展示与待输入界面不同的语音输入面板；检测到作用于语音输入面板的录音启动操作时，录制语音数据；通过服务器120对录制的语音数据进行语音识别得到相应的文本；将文本展示在语音输入面板中；检测到作用于语音输入面板的输入确认操作时，将语音输入面板中展示的文本迁移至待输入界面中。可以理解的是，终端110也可以在本地对录制的语音数据进行语音识别。

本领域技术人员可以理解，图1中示出的应用环境，仅仅是与本申请方案相关的部分场景，并不构成对本申请方案应用环境的限定。

如图2所示，在一个实施例中，提供了一种语音输入方法。本实施例主要以该方法应用于上述图1中的终端110来举例说明。参照图2，该语音输入方法具体包括如下步骤：

S202，展示与待输入界面不同的语音输入面板。

其中，待输入界面是需要进行文本输入的界面。待输入界面包括用于容纳输入的文本的文本区域。待输入界面的文本区域可以是待输入界面的一部分，也可以是整个待输入界面。待输入界面可以是应用的界面、操作系统的界面或者网页。应用可以是社交应用、浏览器、游戏应用或者系统工具应用等。社交应用是进行多用户间的社交互动的应用，包括即时通信应用、SNS(Social Network Service，社交网站)应用或者直播应用等。

语音输入面板是进行语音输入相关交互的界面，语音输入面板用于触发录音启动、展示语音识别得到的文本、触发输入确认操作以及将展示的文本迁移到待输入界面中。语音输入面板可以是具有文本区域的任意形状的界面。

具体地，语音输入面板可与待输入界面并列展示，或者，语音输入面板可局部或完全覆盖待输入界面进行展示。并列展示可以是沿水平方向并列展示或者沿竖直方向并列展示等。

S204，检测到作用于语音输入面板的录音启动操作时，录制语音数据。

其中，录音启动操作是开始进行语音数据的录制的触发操作。录音启动操作可以是预先设定的任意形式的触发操作，比如是触控操作、光标点击操作、物理按键按压操作或者在展示语音输入面板时的晃动操作等。录音启动操作作用于语音输入面板，具体可以作用于语音输入面板的任意区域、预设区域或者语音输入面板中的预设控件上。

具体地，终端在检测到作用于语音输入面板的录音启动操作时，调用本地的声音采集装置，在声音采集装置做好录音准备后，进入语音录制状态。终端在进入语音录制状态后可在用户进行语音输入时采集声音，录制语音数据。

S206，获取对语音数据进行语音识别得到的文本。

其中，语音识别是从语言数据中识别出文本的处理过程。终端可在本地直接对语音数据进行语音识别，得到与语音数据相对应的文本。终端也可以将语音数据发送至服务器，由服务器对该语音数据进行语音识别，并接收服务器反馈的对该语音数据进行语音识别得到的文本。

在一个实施例中，终端可在检测到声音时开始录制语音数据，直到满足录制结束条件时结束录制，得到语音数据。其中，录制结束条件可以是从开始录制起达到预设时长，也可以是检测到处于无声状态达到预定时长，也可以是检测到录制结束操作。

在一个实施例中，终端可直接获取对语音数据进行语音识别得到的完整文本。在一个实施例中，终端可依次对语音数据分段，得到语音片段，从而获取依次对当前已从语音数据中划分出的语音片段进行语音识别得到的文本。

在一个实施例中，终端可按时序每隔预设时间间隔对语音数据进行分段，得到相应的语音片段。预设时间间隔比如200毫秒。具体地，终端可在检测到声音时开始计时，当计时时长达到预设时长时，获取当前输入的语音数据为一个语音片段，并重新开始计时，直到将录制的语音数据分段完毕。

在一个实施例中，终端还可按照最小语义构成单元来划分语音数据得到语音片段，进而获取依次对当前已从语音数据中划分出的语音片段进行语音识别得到的文本。

在一个实施例中，终端可将获取的语音片段发送至服务器，服务器可根据终端发送的语音片段进行语音识别，并依次将语音识别得到的文本反馈给终端，终端依次接收服务器返回的文本。

在一个实施例中，服务器可在每次接收到语音片段后，基于对属于相同语音数据的历史的语音片段进行语音识别得到的文本，对当前的语音片段进行语音识别，得到与当前的语音片段匹配的文本。

在一个实施例中，服务器也可在每次接收到语音片段后，将当前的语音片段与属于相同语音数据的历史的语音片段拼接以进行语音识别，得到与当前的语音片段匹配的文本。

S208，将文本展示在语音输入面板中。

具体地，终端在获取到对语音数据进行语音识别得到的文本后，可将该文本展示在语音输入面板的文本区域内。

在一个实施例中，终端可按照对语音数据的识别进度展示相应的文本。具体地，在对语音数据分段进行识别的情况下，可每次获取到对当前已从语音数据中划分出的语音片段进行语音识别得到的文本后，用该文本替换到语音输入面板中已展示的文本，从而在对语音数据的语音识别结束后，可在语音输入面板中展示从语音数据中识别得到的完整文本。

在一个实施例中，终端在获取到对当前已从语音数据中划分出的语音片段进行语音识别得到的文本后，将文本暂存。当暂存的文本构成完整语义的语句时，将该语句展示在语音输入面板中。在对语音数据的语音识别结束后，可在语音输入面板中展示从语音数据中识别得到的完整文本。完整语义的语句可通过预训练的语言模型进行判别。

S210，检测到作用于语音输入面板的输入确认操作时，将语音输入面板中展示的文本迁移至待输入界面中。

其中，输入确认操作是预先设置的触发操作，用于对拟输入到待输入界面中的文本进行确认。输入确认操作作用于语音输入面板，具体可以作用于语音输入面板的任意区域、预设区域或者语音输入面板中的预设控件上。

对文本的迁移，是将文本从一个位置转移到另一个位置。本实施例中，终端可将语音输入面板中展示的文本整体转移到待输入界面中，使得语音输入面板中展示的文本清除，并使得该文本展示在待输入界面中。

具体地，终端可在语音输入面板展示文本后，检测作用于语音输入面板的针对文本的操作。当终端检测到的操作与预先设置的输入确认操作一致时，判定用户此时意图将当前展示的文本输入到待输入界面，于是终端可将语音输入面板中展示的文本发送至待输入界面中，并清空语音输入面板中的文本。

在一个实施例中，终端可在检测到作用于语音输入面板的清空操作时，将语音输入面板中展示的文本清空。具体地，终端可在语音输入面板展示文本后，检测作用于语音输入面板的针对文本的操作。当终端检测到的操作与预先设置的清空操作一致时，判定用户意图删除当前语音输入面板上展示的文本，此时可清空语音输入面板中展示的文本。

上述语音输入方法，在向待输入界面中输入文本时，展示与待输入界面不用的语音输入面板，在该语音输入面板中实现录音启动操作的检测、识别出的文本的展示以及输入确认操作的检测，可以高效地在语音输入面板中实现语音输入的启动、识别以及确认。检测到输入确认操作后，直接将语音输入面板中展示的文本迁移至待输入界面中，使得整个语音输入过程变得简单高效，提高了语音输入的效率。

在一个实施例中，步骤S202具体包括：展示待输入界面；检测到作用于待输入界面的语音输入触发操作时，调起语音输入面板；将语音输入面板局部覆盖待输入界面进行展示。

具体地，待输入界面可提供语音输入面板的开启入口，在检测到对该开启入口的语音输入触发操作时，调起语音输入面板。调起的语音输入面板可与待输入界面并列展示，也可以局部或者全部覆盖待输入界面展示。其中，语音输入触发操作可以是触控操作、光标点击操作或者物理按键按压操作等。

在一个实施例中，终端可在展示待输入界面时，将语音输入面板置为收起状态；在检测到针对该待输入界面的预定义的触发操作时，将语音输入面板置为展开状态。

其中，语音输入面板具有收起状态和展开状态。处于收起状态的语音输入面板不可见，或者仅展示代表该语音输入面板的图形。处于展开状态的语音输入面板的文本区域可见。处于展开状态的语音输入面板在不同使用场景下可展示为不同的尺寸。

上述实施例中，在展示待输入界面后，可以调起语音输入面板，从而将语音输入面板局部覆盖待输入界面进行展示，进而后续可方便地通过语音输入面板实现在待输入界面中进行文本输入。既可以查看待输入界面，又可以在语音输入面板上实现语音输入以及识别的文本的展示，提高了语音输入的便捷性和效率。

在一个实施例中，该语音输入方法还包括将遮罩层覆盖待输入界面中未被语音输入面板覆盖的区域的步骤，如图3所示，该步骤具体包括：

S302，检测到作用于语音输入面板的录音启动操作时，确定待输入界面中未被语音输入面板覆盖的区域。

其中，语音输入面板局部覆盖待输入界面进行展示，于是待输入界面中就存在被语音输入面板覆盖的部分和未被语音输入面板覆盖的区域。终端具体可获取待输入界面的尺寸以及语音输入面板的尺寸，并按照语音输入面板在待输入界面中的位置，确定待输入界面中未被语音输入面板覆盖的区域。当待输入界面全屏展示时，待输入界面的尺寸为显示屏的尺寸。

S304，按照区域的尺寸生成遮罩层。

其中，遮罩层是用来遮罩待输入界面中未被语音输入面板覆盖的区域的图层，使得该区域的可见性降低。可见性降低比如亮度降低、颜色变暗以及完全遮挡中的至少一种。遮罩层可以是不透明的图层，也可以是半透明的图层。不透明一般是透明度为零，半透明一般是透明度大于0％且小于100％，比如50％。遮罩层的亮度可以比语音输入面板的亮度低。遮罩层的颜色可以比语音输入面板的颜色暗。遮罩层的尺寸可以与未被语音输入面板覆盖的区域的尺寸相同。

S306，将遮罩层覆盖区域。

具体地，终端在生成与待输入界面中未被语音输入面板覆盖的区域的尺寸的遮罩层后，将该遮罩层覆盖在该区域上，使得该区域被遮挡、亮度降低或者颜色变暗。

上述实施例中，终端将遮罩层覆盖待输入界面中未被语音输入面板覆盖的区域，可有效地使用户的注意力聚焦到当前显示的语音输入面板上，不易被待输入界面中未被覆盖的区域分散注意力。进一步提高了语音输入的效率。尤其在终端是移动终端时，用户在移动过程中就可以方便地实现语音输入，提高了文字录入效率和便捷性。

图4示出了一个实施例中终端调起语音输入面板时的界面示意图。参照图4，终端展示待输入界面410，调起语音输入面板420局部覆盖待输入界面410，语音输入面板420中展示有录音启动控件421。参照图5，用户长按图4中的录音启动控件421时，终端显示的界面将变化为如图5所示，生成遮罩层430，并将该遮罩层覆盖待输入界面410中未被语音输入面板420所覆盖的区域。

在一个实施例中，语音输入面板包括录音启动控件，步骤S204具体包括：检测到对语音输入面板中录音启动控件的按压操作时，录制语音数据。语音输入方法还包括结束录制的步骤，该结束录制的步骤包括：检测到按压操作结束时，结束录制。

其中，录音启动控件是启动语音数据的录制动作的控件。按压操作还可以是其它触发操作，比如对录音启动控件的点击或滑动等操作。

在一个实施例中，终端预定义的对录音控件的触发操作为按压操作。当终端检测到对录音启动控件的按压操作时，可调用本地的声音采集装置，录制用户输入的语音数据。当终端检测到按压操作结束时，停止调用本地的声音采集装置，即停止了语音数据的录制。

上述实施例中，终端通过检测录音启动控件是否存在按压操作以判断是否调用声音采集装置进行语音的录制。终端将对录音启动控件的按压操作设置为语音录制的启动触发操作，使得语音输入的操作变得简洁，提高了语音输入的效率。

在一个实施例中，该语音输入方法还包括切换录音启动控件的状态的步骤，切换录音启动控件的状态的步骤具体包括：

S602，检测到按压操作结束时，将录音启动控件置为等待识别结束状态。

其中，等待识别结束状态，是语音录制结束后、且获得对语音数据进行语音识别得到完整文本前，等待获取到该完整文本的状态。具体地，终端在检测到按压操作结束时，停止调用本地的声音采集装置，并将录音启动控件置为等待识别结束状态。录音启动控件在等待识别结束状态时，可禁止触发调用本地的声音采集装置。等待识别结束状态可以文字或者图片或者动画的形式表示。

S604，当获取到语音识别结束后的完整文本时，将录音启动控件从等待识别结束状态切换为默认状态。

其中，完整文本是一次语音输入结束后最终获得的文本。默认状态是录音启动控件的初始状态。录音启动控件在初始状态时并未调用本地的声音采集装置，但可响应触发操作，并且在检测到触发操作时调用本地的声音采集装置。

具体地，终端在语音录制结束后，等待对该语音进行语音识别所得的完整文本。当终端获取到语音识别结束后的完整文本时，表示等待语音识别的过程已结束。终端可将该录音启动控件从等待识别结束状态切换为默认状态，重新开启可响应触发操作的功能。

上述实施例中，在一次语音输入结束后，终端可根据当前的语音输入状态将录音启动控件置为相对应的状态，可更清晰地显示当前语音输入的进度。

在一个实施例中，该录音启动控件的状态切换的步骤还包括：在当前操作系统存在录音开启时延、且检测到按压操作时，将录音启动控件从默认状态切换至录音准备状态；当录音准备状态的时长达到录音开启时延时，将录音启动控件置为语音识别中状态；在当前操作系统不存在录音开启时延、且检测到按压操作时，直接将录音启动控件置为语音识别中状态。

其中，录音开启时延是从开始调用声音采集装置到开始录音的等待时长。在一个实施例中，终端检测到按压操作时，调用声音采集装置。当终端的操作系统调用声音采集装置的时长超过预设时长阈值时，终端将录音启动控件从默认状态切换至录音准备状态。当录音启动控件处于录音准备状态时，终端的操作系统调用声音采集装置。当录音准备状态的时长达到录音开启时延时，终端将录音启动控件置为语音识别中状态。此时终端本地的声音采集装置已被调用成功，开始录音。

在一个实施例中，终端检测到按压操作时，调用声音采集装置，当终端的操作系统调用声音采集装置的时长小于预设时长阈值时，直接将录音启动控件置为语音识别中状态。此时终端本地的声音采集装置已被调用成功，开始录音。其中，当调用声音采集装置的时长小于预设时长阈值时，表示当前操作系统不存在录音开启时延。

上述实施例中，在语音输入过程中，终端可根据当前的语音输入状态将录音启动控件置为相对应的状态，可更清晰地显示当前语音输入的进度。

图7为一个实施例中录音启动控件处于默认状态的界面示意图。参照图7，终端显示待输入界面410和语音输入面板420，语音输入面板420上展示有录音启动控件421和语音输入面板隐藏控件422。其中，录音启动控件421上方显示“按住说话”，以提示用户按压该录音启动控件421即可开启语音数据的录制。语音输入面板隐藏控件422可用于隐藏语音输入面板420，当用户轻触语音输入面板隐藏控件422时，终端可收起语音输入面板420。

参照图8，图8为录音启动控件处于录音准备状态的界面示意图。终端展示语音输入面板420，语音输入面板420上展示录音启动控件421，及当用户对录音启动控件421进行按压操作时显示在录音启动控件421周围的底纹423。当用户按压图7中的录音启动控件421时，终端将调用本地的声音采集装置，语音输入面板上显示“准备中”字样，录音启动控件周围显示底纹。

参照图9，图9为录音启动控件处于语音识别中状态的界面示意图。终端展示待输入界面410和语音输入面板420，语音输入面板420上展示有录音启动控件421，及显示在录音启动控件421周围的底纹423。当终端的录音准备状态的时长达到录音开启时延时，此时终端本地的声音采集装置已被调用成功，开启录音功能。终端将用遮罩层430覆盖待输入界面410未被语音输入面板420覆盖的区域，录音启动控件421周围的底纹423面积增大。并且，语音输入面板420上显示“请说话”的提示语，当终端获取到与语音数据相对应的文本时，该文本将覆盖提示语“请说话”显示在语音输入面板上。

参照图10，图10为录音启动控件处于等待识别结束状态的界面示意图。当用户结束按压操作时，终端结束录制。此时，撤销遮罩层，录音启动控件421周围的底纹消失，录音启动控件处于等待识别结束状态。

在一个实施例中，将录音启动控件置为语音识别中状态的步骤具体包括：

S1102，对应于录音启动控件，显示音强指示区间。

其中，音强是声音信号中主音调的强弱程度。音强指示区间是表示音强大小的区间。具体地，终端在录音启动控件的对应区域显示音强指示区间，例如，在录音启动控件的周围区域显示音强指示区间。音强指示区间可以动画的形式表示。

S1104，获取当前录制的语音数据的音强。

具体地，终端在录制语音数据时，根据录制的语音数据可分析出该语音数据的音强，并获取当前录制的语音数据的音强。

S1106，将音强映射到音强指示区间中进行显示。

其中，映射是将音强映射到可在音强指示区间中显示的值的过程。音强指示区间具有预设最大值和预设最小值，将音强保留大小关系映射到该预设最大值和预设最小值之间，进而以图形或者文字形式展示在音强指示区间中。音强指示区间可以是半径为预设最大值的圆形和半径为预设最小值的圆形构成的同心圆。音强指示区间还可以是线状或者长条状等。

上述实施例中，终端通过对应于录音启动控件，显示音强指示区间，将音强映射到音强指示区间中进行显示，从而以可视形式展示音强大小，便于用户根据音强指示区间的显示情况调整语音输入的音量，进一步提高了语音输入的效率。

图12示出了一个实施例中音强指示区间的界面示意图。参考图12，该音强指示区间的示意图包括录音启动控件421和圆形的底纹423。当终端接收的语音数据音强越大时，底纹423的半径越大，当终端接收的语音数据音强越小时，底纹423的半径越小。

在一个实施例中，步骤S602具体包括：检测到按压操作结束时，获取从按压操作结束至获取到语音识别结束后的完整文本的预估时长；对应于录音启动控件，显示按照预估时长进行倒计时的进度条。

具体地，终端在检测到对录音启动控件的按压操作结束时，终端可直接获取由终端反馈的从按压操作结束至获取到语音识别结束后的完整文本的预估时长。终端也可在将语音数据上传至服务器进行语音识别时获取由服务器反馈的从按压操作结束至获取到语音识别结束后的完整文本的预估时长。进一步地，终端在获取到预估时长后，可在录音启动控件上显示按照预估时长进行倒计时的进度条。预估时长可根据网络延时和识别进度中的至少一种进行计算。

在一个实施例中，终端可通过在录音启动控件上显示预定长度的进度条表示预估时长。当预估时长进行倒计时时，相应地，进度条的长度相应变短。当预估时长的倒计时计为零时，相应的进度条的长度也为零。其中，预估时长与语音数据的数据内容和质量，服务器对语音数据进行语音识别的时间，当前进行数据传输的网络状况等因素有关。

上述实施例中，当按压操作结束时，终端通过在语音输入面板上显示获取完整文本的预估时长的倒计时进度条，直观清晰的显示了录音启动控件处于等待识别结束状态中等待获取文本的倒计时时长。

在一个实施例中，步骤S602还包括：当进度条倒计时结束、且未获取到语音识别结束后的完整文本时，重置进度条，并通过进度条重新按照预估时长进行倒计时。

具体地，当进度条倒计时结束，但终端未获取到语音识别结束后的完整文本时，终端再次获取得到完整文本的二次预估时长，并根据二次预估时长重置进度条，使得进度条根据二次预估时长进行倒计时显示。

上述实施例中，当前网络状态不良可能会导致终端未能在预估时长内获得与语音数据相对应的完整文本，终端通过重置进度条并重新对预估时长进行倒计时，可使得用户清楚地知晓当前终端获取到完整文本所需的时长，避免了由预估时长的不准确所带来的倒计时不准确的情况。

在一个实施例中，步骤S206具体包括：在录制语音数据过程中，将语音数据按时序划分语音片段；获取对划分出的语音片段进行语音识别得到的文本。步骤S208具体包括：将当前识别到的文本即时展示在语音输入面板中。

其中，时序是时间的先后顺序，在本实施例中，将语音数据按时序划分语音片段是指将语音数据按语音数据录制的时间顺序划分成语音片段。具体地，终端在录制语音数据过程中，可按预设时长分段划分语音数据得到语音片段。

进一步地，在一个实施例中，终端可依次将按时序划分的语音片段发送至服务器，服务器依次对语音片段进行语音识别得到对应的文本并反馈给终端。终端依次接收服务器反馈的与语音片段相对应的文本，并将接收到的文本即时展示在语音输入面板中。

上述实施例中，终端通过将录制的语音数据按时序划分语音片段，并将与语音片段相对应的文本即时展示在语音输入面板中，这样在语音输入过程中及时地展示语音数据转化为文本的过程，可及时地反映识别进度，进一步提高了语音输入的效率。

在一个实施例中，将当前识别到的文本即时展示在语音输入面板中的步骤具体包括：将当前识别到的文本中未经过上下文纠错的文本，以第一状态即时展示在语音输入面板中；当以第一状态展示的文本经过上下文纠错后，将纠错后的第二状态的文本替换纠错前的第一状态的文本，展示在语音输入面板中。

其中，第一状态是文本显示的一种状态；第二状态是文本显示的另一种状态，第一状态与第二状态在视觉上有不同。

在一个实施例中，第一状态和第二状态可通过文本颜色、文本字体、文本字号、下划线或者文本底纹等表示。比如，例如第一状态的文本显示为灰色，第二状态的文本显示为黑色；再比如，第一状态的文本显示为第一预设字号，而第二状态的文本显示为第二预设字号，且第一预设字号与第二预设字号不同。

在一个实施例中，终端获取由服务器反馈的对划分出的语音片段进行语音识别得到的文本，将该文本中未经过上下文纠错的文本以第一状态即时展示在语音输入面板中。

进一步地，当服务器在获取多个语音片段时，可结合多个语音片段对获取的语音片段进行语音识别，得到符合上下文情景的文本，并根据上下文纠正在前语音识别所得的文本，直到得到纠错后的文本。服务器在对文本进行纠错的过程中，依次将纠错后的文本反馈给终端。终端在接收到服务器反馈的纠错后的文本后，将语音输入面板中展示的纠错前的第一状态的文本清除，并在清除的文本的相应位置处展示纠错后的第二状态的文本。

上述实施例中，终端通过将未经过上下文纠错的文本和经过上下文纠错后的文本分别以不同的状态展示在语音输入面板中，既能快速的展示语音识别后的文本，又能让用户明显区分出快速展示的文本中哪些是经过纠错后的文本，哪些是待纠错的文本。避免了在语音输入中的文本展示过程中用户获取到错误的文本。

在一个实施例中，将当前识别到的文本即时展示在语音输入面板中的步骤之后，该语音输入方法还包括预设文本展示的步骤，预设文本展示的步骤具体包括：当获取到语音识别结束后的完整文本前，在语音输入面板中所展示文本的末尾添加动态变化的预设文本；当获取到语音识别结束后的完整文本时，取消在语音输入面板中所展示文本的末尾所添加的动态变化的预设文本。

具体地，终端可以在语音录制过程中，即时展示获取到的与语音片段相对应的文本，在获取到本次语音输入的完整文本前，每次展示的文本的末尾都显示预设文本，该预设文本可以在终端获取再次文本的时间段内动态变化。当终端获取到本次语音输入的完整文本时，终端取消预设文本的展示。

举例说明，如图13所示，图13为终端获取到本次语音输入的完整文本前动态展示预设文本的界面示意图。如图13所示，该预设文本有三个状态，分别是“…”、“..”和“.”，预设文本的这三个状态依次轮换展示在文本的末尾，直至终端获取到本次语音输入到完整文本时，终端将取消预设文本的展示。

上述实施例中，终端在获取到语音识别结束后的完整文本前，在语音输入面板中所展示文本的末尾添加动态变化的预设文本，通过展示动态变化的预设文本以提醒用户本次语音输入的识别过程正在进行。

在一个实施例中，该语音输入方法还包括对语音输入面板中展示的文本进行编辑的步骤，对语音输入面板中展示的文本的编辑的步骤具体包括：

S1402，检测到作用于语音输入面板中所展示文本的编辑触发操作时，将语音输入面板的面积增大。

其中，编辑触发操作是能触发文本进入编辑状态的操作。具体地可以是触控操作或者光标点击操作等。具体地，终端在检测到作用于语音输入面板中所展示文本的编辑触发操作时，可将语音输入面板的面积增大。

在一个实施例中，终端可将语音输入面板的面积增大至全屏模式，即终端当前显示语音输入面板，而不再显示待输入界面。在另一个实施例中，终端将语音输入面板的面积增大，使得语音输入面板可显示虚拟键盘，并且终端当前显示界面上仍旧显示待输入界面和语音输入面板。

S1404，将语音输入面板中展示的文本置为可编辑状态。

其中，可编辑状态是文本处于可编辑的状态。当文本处于可编辑状态时可对文本进行插入文本、删除文本或选中文本等操作，其中，进行选中文本后可对该文本进行复制或删除等操作。

具体地，终端在检测到作用于语音输入面板中所展示文本的编辑触发操作时，根据该触发操作，将语音输入面板中展示的文本置为可编辑状态。文本处于可编辑状态时，在编辑处显示光标，通过光标的移动可对文本进行相应的编辑操作。

S1406，调起对语音输入面板中所展示文本进行编辑的虚拟键盘。

具体地，终端在检测到作用于语音输入面板中所展示文本的编辑触发操作时，可调起对该文本进行编辑的虚拟键盘。该虚拟键盘可以是第三方提供的虚拟键盘，也可以是终端操作系统自带的虚拟键盘。通过该虚拟键盘，用户可对文本进行相应的编辑操作。

上述实施例中，在终端检测到作用于语音输入面板中所展示文本的编辑触发操作时，增大语音输入面板的面积。在增大后的语音输入面板中通过虚拟键盘可对文本进行编辑操作，不同于在输入框中对文本进行编辑操作，增大后的语音输入面板中的文本显示更全面，使得对文本的编辑操作更高效。

图15示出了一个实施例中终端接收作用于文本的编辑触发操作的界面示意图。参考图15，终端展示待输入界面410和语音输入面板420，并在语音输入面板420上展示录音启动控件421，语音输入面板420中展示文本424。当用户轻触文本424时，终端将语音输入面板420的面积增大，终端显示界面将变化至如图16所示的界面。

图16为对语音输入面板中展示的文本进行编辑的界面示意图。参考图16，终端展示语音输入面板420，并在语音输入面板420上展示文本424、虚拟键盘425，该虚拟键盘425上显示有调用表情图像的调用入口426，调用录音启动控件的调用入口427。

在一个实施例中，该语音输入方法还包括在文本处于可编辑状态时进行语音输入的步骤，在文本处于可编辑状态时进行语音输入的步骤具体包括：

S1702，检测针对语音输入面板中所展示文本的编辑操作。

具体地，终端可检测对文本的编辑触发操作，该触发操作使文本处于可编辑状态。语音输入面板中所展示文本处于可编辑状态时，在文本的编辑处显示光标，通过该光标可对文本进行编辑操作。

S1704，根据编辑操作确定语音输入面板中所展示文本中的编辑位置。

具体地，当终端检测到编辑触发操作时在该编辑触发操作作用的具体位置上显示光标，终端通过光标处于文本中的具体位置来判断对文本进行编辑的具体位置。

S1706，通过虚拟键盘触发语音录制，得到当前的语音数据。

在一个实施例中，当语音输入面板中展示的文本处于可编辑状态时，语音输入面板上显示可对文本进行编辑的虚拟键盘，该虚拟键盘上显示有调用录音启动控件的调用入口。终端通过获取针对该调用入口的调用指令，根据调用指令调起录音启动控件。当终端调起录音启动控件时，终端将隐藏虚拟键盘。进一步地，终端检测到对该语音输入面板中录音启动控件的按压操作时，录制语音数据。

在一个实施例中，终端可直接检测针对于虚拟键盘的预先设置的用于调用本地的声音采集装置的触发操作。通过该触发操作调用本地的声音采集装置，录制语音数据。

S1708，在语音输入面板中所展示文本中的编辑位置处，插入对当前的语音数据进行语音识别得到的文本。

在一个实施例中，终端录制语音数据后，将语音数据发送至服务器并接收服务器反馈的对语音数据进行语音识别得到的文本。终端将获取到的文本插入到语音输入面板中光标所在的位置。

上述实施例中，用户需对文本进行编辑时，可通过虚拟键盘触发语音录制，通过语音输入的方式在文本的编辑位置插入与语音数据相对应的文本。使得处于可编辑状态的文本也可通过语音输入的方式进行编辑，使得文本的编辑更高效。

在一个实施例中，终端可通过虚拟键盘触发表情图像输入。具体地，当语音输入面板中展示的文本处于可编辑状态时，语音输入面板上显示可对文本进行编辑的虚拟键盘，该虚拟键盘上显示有调用表情图像的调用入口。终端通过获取针对该调用入口的调用指令，根据调用指令调用表情图像集。当终端调用表情图像集时，终端将隐藏虚拟键盘。进一步地，终端检测到对该表情图像集中的表情图像的触发操作时，将该表情图像输入到文本的编辑位置。

在上述实施例中，终端通过虚拟键盘调用表情图像集，将表情图像集中的表情图像插入到文本的编辑位置，可直接通过语音输入面板输入表情图像，而无需切换到待输入面板进行表情图像的输入，使得表情图像的输入高效快捷。

在一个实施例中，待输入界面是社交应用的社交消息交互窗口，语音输入面板集成于社交应用中。

其中，社交应用是可运行在终端的操作系统上的用于社交的应用程序。社交消息交互窗口是终端在运行社交应用时显示社交消息的窗口。具体地，用户在使用终端上运行的社交应用进行社交消息交互时，可通过触发预先设置的操作展示语音输入面板，其中，该语音输入面板集成于该社交应用中。

上述实施例中，在社交应用中，可以通过语音输入快速进行文字输入，便于进行高效地社交交互，提高了社交交互效率。

如图18所示，在一个实施例中，提供了一种语音输入方法，该方法具体包括如下步骤：

S1802，展示待输入界面。

S1804，检测到作用于待输入界面的语音输入触发操作时，调起语音输入面板，将语音输入面板局部覆盖待输入界面进行展示。

S1806，检测到作用于语音输入面板的录音启动操作时，确定待输入界面中未被语音输入面板覆盖的区域，按照区域的尺寸生成遮罩层以覆盖该区域。

S1808，检测到对语音输入面板中录音启动控件的按压操作时，录制语音数据。

S1810，在当前操作系统存在录音开启时延、且检测到按压操作时，将录音启动控件从默认状态切换至录音准备状态。

S1812，当录音准备状态的时长达到录音开启时延时，对应于录音启动控件，显示音强指示区间。

S1814，获取当前录制的语音数据的音强，将音强映射到音强指示区间中进行显示。

S1816，在录制语音数据过程中，将语音数据按时序划分语音片段。

S1818，获取对划分出的语音片段进行语音识别得到的文本。

S1820，将当前识别到的文本中未经过上下文纠错的文本，以第一状态即时展示在语音输入面板中。

S1822，当以第一状态展示的文本经过上下文纠错后，将纠错后的第二状态的文本替换纠错前的第一状态的文本，展示在语音输入面板中。

S1824，当获取到语音识别结束后的完整文本前，在语音输入面板中所展示文本的末尾添加动态变化的预设文本。

S1826，当获取到语音识别结束后的完整文本时，取消在语音输入面板中所展示文本的末尾所添加的动态变化的预设文本。

S1828，检测到按压操作结束时，结束录制，获取从按压操作结束至获取到语音识别结束后的完整文本的预估时长。

S1830，对应于录音启动控件，显示按照预估时长进行倒计时的进度条。

S1832，当进度条倒计时结束、且未获取到语音识别结束后的完整文本时，重置进度条，并通过进度条重新按照预估时长进行倒计时。

S1834，当获取到语音识别结束后的完整文本时，将录音启动控件从等待识别结束状态切换为默认状态。

S1836，检测到作用于语音输入面板中所展示文本的编辑触发操作时，将语音输入面板的面积增大。

S1838，将语音输入面板中展示的文本置为可编辑状态。

S1840，调起对语音输入面板中所展示文本进行编辑的虚拟键盘。

S1842，检测针对语音输入面板中所展示文本的编辑操作。

S1844，根据编辑操作确定语音输入面板中所展示文本中的编辑位置。

S1846，通过虚拟键盘触发语音录制，得到当前的语音数据。

S1848，在语音输入面板中所展示文本中的编辑位置处，插入对当前的语音数据进行语音识别得到的文本。

S1850，检测到作用于语音输入面板的输入确认操作时，将语音输入面板中展示的文本迁移至待输入界面中。

图18为一个实施例中语音输入方法的流程示意图。应该理解的是，虽然图18的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图18中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交底地执行。

如图19所示，在一个实施例中，提供了一种语音输入装置1900，包括展示模块1901、语音录制模块1902、获取模块1903和迁移模块1904。

展示模块1901，用于展示与待输入界面不同的语音输入面板。

语音录制模块1902，用于检测到作用于语音输入面板的录音启动操作时，录制语音数据。

获取模块1903，用于获取对语音数据进行语音识别得到的文本。

展示模块1901还用于将文本展示在语音输入面板中。

迁移模块1904，用于检测到作用于语音输入面板的输入确认操作时，将语音输入面板中展示的文本迁移至待输入界面中。

上述语音输入装置1900，在向待输入界面中输入文本时，展示与待输入界面不用的语音输入面板，在该语音输入面板中实现录音启动操作的检测、识别出的文本的展示以及输入确认操作的检测，可以高效地在语音输入面板中实现语音输入的启动、识别以及确认。检测到输入确认操作后，直接将语音输入面板中展示的文本迁移至待输入界面中，使得整个语音输入过程变得简单高效，提高了语音输入的效率。

在一个实施例中，展示模块1901还用于展示待输入界面；检测到作用于待输入界面的语音输入触发操作时，调起语音输入面板；将语音输入面板局部覆盖待输入界面进行展示。

图20为另一个实施例中语音输入装置1900的结构框图，参照图20，该语音输入装置1900还包括：确定模块1905、生成模块1906和覆盖模块1907。

确定模块1905，用于检测到作用于语音输入面板的录音启动操作时，确定待输入界面中未被语音输入面板覆盖的区域。

生成模块1906，用于按照区域的尺寸生成遮罩层。

覆盖模块1907，用于将遮罩层覆盖区域。

在一个实施例中，语音录制模块1902还用于检测到对语音输入面板中录音启动控件的按压操作时，录制语音数据；检测到按压操作结束时，结束录制。

图21为再一个实施例中语音输入装置1900的结构框图，参照图21，该语音输入装置1900还包括：设置模块1908。

设置模块1908，用于检测到按压操作结束时，将录音启动控件置为等待识别结束状态；当获取到语音识别结束后的完整文本时，将录音启动控件从等待识别结束状态切换为默认状态。

在一个实施例中，设置模块1908还用于在当前操作系统存在录音开启时延、且检测到按压操作时，将录音启动控件从默认状态切换至录音准备状态；当录音准备状态的时长达到录音开启时延时，将录音启动控件置为语音识别中状态；在当前操作系统不存在录音开启时延、且检测到按压操作时，直接将录音启动控件置为语音识别中状态。

图22为还一个实施例中语音输入装置1900的结构框图，参照图22，该语音输入装置1900还包括：显示模块1909。

显示模块1909，用于对应于录音启动控件，显示音强指示区间。

获取模块1903还用于获取当前录制的语音数据的音强。

显示模块1909还用于将音强映射到音强指示区间中进行显示。

在一个实施例中，获取模块1903还用于获取从按压操作结束至获取到语音识别结束后的完整文本的预估时长；显示模块1909还用于对应于录音启动控件，显示按照预估时长进行倒计时的进度条。

在一个实施例中，获取模块1903还用于当进度条倒计时结束、且未获取到语音识别结束后的完整文本时，重置进度条，并通过进度条重新按照预估时长进行倒计时。

图23为再一个实施例中语音输入装置1900的结构框图，参照图23，该语音输入装置1900还包括：划分模块1910。

划分模块1910，用于在录制语音数据过程中，将语音数据按时序划分语音片段。

获取模块1903还用于获取对划分出的语音片段进行语音识别得到的文本。

展示模块1901还用于将当前识别到的文本即时展示在语音输入面板中。

在一个实施例中，展示模块1901还用于将当前识别到的文本中未经过上下文纠错的文本，以第一状态即时展示在语音输入面板中；当以第一状态展示的文本经过上下文纠错后，将纠错后的第二状态的文本替换纠错前的第一状态的文本，展示在语音输入面板中。

在一个实施例中，展示模块1901还用于当获取到语音识别结束后的完整文本前，在语音输入面板中所展示文本的末尾添加动态变化的预设文本；当获取到语音识别结束后的完整文本时，取消在语音输入面板中所展示文本的末尾所添加的动态变化的预设文本。

图24为还一个实施例中语音输入装置1900的结构框图，参照图24，该语音输入装置1900还包括：增大模块1911和调用模块1912。

增大模块1911，用于检测到作用于语音输入面板中所展示文本的编辑触发操作时，将语音输入面板的面积增大。

设置模块1908还用于将语音输入面板中展示的文本置为可编辑状态。

调用模块1912，用于调起对语音输入面板中所展示文本进行编辑的虚拟键盘。

图25为又一个实施例中语音输入装置1900的结构框图，参照图25，该语音输入装置1900还包括：检测模块1913和插入模块1914。

检测模块1913，用于检测针对语音输入面板中所展示文本的编辑操作。

确定模块1905还用于根据编辑操作确定语音输入面板中所展示文本中的编辑位置。

语音录制模块1902还用于通过虚拟键盘触发语音录制，得到当前的语音数据。

插入模块1914，用于在语音输入面板中所展示文本中的编辑位置处，插入对当前的语音数据进行语音识别得到的文本。

在一个实施例中，待输入界面是社交应用的社交消息交互窗口；语音输入面板集成于社交应用中。

图26示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110。如图26所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏、输入装置和声音采集装置。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器执行语音输入方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行语音输入方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。本领域技术人员可以理解，图26中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的语音输入装置可以实现为一种计算机程序的形式，计算机程序可在如图26所示的计算机设备上运行。计算机设备的存储器中可存储组成该语音输入装置的各个程序模块，比如，图19所示的展示模块1901、语音录制模块1902、获取模块1903和迁移模块1904。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的语音输入方法中的步骤。

例如，图19所示的计算机设备可以通过如图19所示的语音输入装置中的展示模块1901执行步骤S202。计算机设备可通过语音录制模块1902执行步骤S204。计算机设备可通过获取模块1903执行步骤S206。计算机设备可通过展示模块1901执行步骤S208。计算机设备可通过迁移模块1904执行步骤S210。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中储存有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：展示与待输入界面不同的语音输入面板；检测到作用于语音输入面板的录音启动操作时，录制语音数据；获取对语音数据进行语音识别得到的文本；将文本展示在语音输入面板中；检测到作用于语音输入面板的输入确认操作时，将语音输入面板中展示的文本迁移至待输入界面中。

在一个实施例中，计算机程序使得处理器在执行展示与待输入界面不同的语音输入面板的步骤时具体执行以下步骤：展示待输入界面；检测到作用于待输入界面的语音输入触发操作时，调起语音输入面板；将语音输入面板局部覆盖待输入界面进行展示。

在一个实施例中，计算机程序使得处理器还执行以下步骤：检测到作用于语音输入面板的录音启动操作时，确定待输入界面中未被语音输入面板覆盖的区域；按照区域的尺寸生成遮罩层；将遮罩层覆盖区域。

在一个实施例中，计算机程序使得处理器在执行检测到作用于语音输入面板的录音启动操作时，录制语音数据的步骤时具体执行以下步骤：检测到对语音输入面板中录音启动控件的按压操作时，录制语音数据；计算机程序使得处理器还执行以下步骤：检测到按压操作结束时，结束录制。

在一个实施例中，计算机程序使得处理器还执行以下步骤：检测到按压操作结束时，将录音启动控件置为等待识别结束状态；当获取到语音识别结束后的完整文本时，将录音启动控件从等待识别结束状态切换为默认状态。

在一个实施例中，计算机程序使得处理器还执行以下步骤：在当前操作系统存在录音开启时延、且检测到按压操作时，将录音启动控件从默认状态切换至录音准备状态；当录音准备状态的时长达到录音开启时延时，将录音启动控件置为语音识别中状态；在当前操作系统不存在录音开启时延、且检测到按压操作时，直接将录音启动控件置为语音识别中状态。

在一个实施例中，计算机程序使得处理器在执行将录音启动控件置为语音识别中状态的步骤时具体执行以下步骤：对应于录音启动控件，显示音强指示区间；获取当前录制的语音数据的音强；将音强映射到音强指示区间中进行显示。

在一个实施例中，计算机程序使得处理器在执行将录音启动控件置为等待识别结束状态的步骤时具体执行以下步骤：获取从按压操作结束至获取到语音识别结束后的完整文本的预估时长；对应于录音启动控件，显示按照预估时长进行倒计时的进度条。

在一个实施例中，计算机程序使得处理器还执行以下步骤：当进度条倒计时结束、且未获取到语音识别结束后的完整文本时，重置进度条，并通过进度条重新按照预估时长进行倒计时。

在一个实施例中，计算机程序使得处理器在执行获取对语音数据进行语音识别得到的文本的步骤时具体执行以下步骤：在录制语音数据过程中，将语音数据按时序划分语音片段；获取对划分出的语音片段进行语音识别得到的文本；计算机程序使得处理器在执行将文本展示在语音输入面板中的步骤时具体执行以下步骤：将当前识别到的文本即时展示在语音输入面板中。

在一个实施例中，计算机程序使得处理器在执行将当前识别到的文本即时展示在语音输入面板中的步骤时具体执行以下步骤：将当前识别到的文本中未经过上下文纠错的文本，以第一状态即时展示在语音输入面板中；当以第一状态展示的文本经过上下文纠错后，将纠错后的第二状态的文本替换纠错前的第一状态的文本，展示在语音输入面板中。

在一个实施例中，计算机程序使得处理器还执行以下步骤：当获取到语音识别结束后的完整文本前，在语音输入面板中所展示文本的末尾添加动态变化的预设文本；当获取到语音识别结束后的完整文本时，取消在语音输入面板中所展示文本的末尾所添加的动态变化的预设文本。

在一个实施例中，计算机程序使得处理器还执行以下步骤：检测到作用于语音输入面板中所展示文本的编辑触发操作时，将语音输入面板的面积增大；将语音输入面板中展示的文本置为可编辑状态；调起对语音输入面板中所展示文本进行编辑的虚拟键盘。

在一个实施例中，计算机程序使得处理器还执行以下步骤：检测针对语音输入面板中所展示文本的编辑操作；根据编辑操作确定语音输入面板中所展示文本中的编辑位置；通过虚拟键盘触发语音录制，得到当前的语音数据；在语音输入面板中所展示文本中的编辑位置处，插入对当前的语音数据进行语音识别得到的文本。

上述计算机设备，在向待输入界面中输入文本时，展示与待输入界面不用的语音输入面板，在该语音输入面板中实现录音启动操作的检测、识别出的文本的展示以及输入确认操作的检测，可以高效地在语音输入面板中实现语音输入的启动、识别以及确认。检测到输入确认操作后，直接将语音输入面板中展示的文本迁移至待输入界面中，使得整个语音输入过程变得简单高效，提高了语音输入的效率。

一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现以下步骤：展示与待输入界面不同的语音输入面板；检测到作用于语音输入面板的录音启动操作时，录制语音数据；获取对语音数据进行语音识别得到的文本；将文本展示在语音输入面板中；检测到作用于语音输入面板的输入确认操作时，将语音输入面板中展示的文本迁移至待输入界面中。

上述计算机可读存储介质，在向待输入界面中输入文本时，展示与待输入界面不用的语音输入面板，在该语音输入面板中实现录音启动操作的检测、识别出的文本的展示以及输入确认操作的检测，可以高效地在语音输入面板中实现语音输入的启动、识别以及确认。检测到输入确认操作后，直接将语音输入面板中展示的文本迁移至待输入界面中，使得整个语音输入过程变得简单高效，提高了语音输入的效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音输入方法，所述方法包括：

展示与待输入界面不同的语音输入面板；

获取对所述语音数据进行语音识别得到的文本；

将所述文本展示在所述语音输入面板中；

2.根据权利要求1所述的方法，其特征在于，所述展示与待输入界面不同的语音输入面板包括：

展示待输入界面；

检测到作用于所述待输入界面的语音输入触发操作时，调起语音输入面板；

将所述语音输入面板局部覆盖所述待输入界面进行展示。

3.根据权利要求1所述的方法，其特征在于，所述语音输入面板包括录音启动控件；所述检测到作用于所述语音输入面板的录音启动操作时，录制语音数据包括：

所述方法还包括：

检测到所述按压操作结束时，结束录制。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

当获取到语音识别结束后的完整文本时，将所述录音启动控件从所述等待识别结束状态切换为默认状态。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

在当前操作系统存在录音开启时延、且检测到所述按压操作时，将所述录音启动控件从默认状态切换至录音准备状态；

当所述录音准备状态的时长达到所述录音开启时延时，将所述录音启动控件置为语音识别中状态；

在当前操作系统不存在录音开启时延、且检测到所述按压操作时，直接将所述录音启动控件置为语音识别中状态。

6.根据权利要求5所述的方法，其特征在于，所述将所述录音启动控件置为语音识别中状态包括：

对应于所述录音启动控件，显示音强指示区间；

获取当前录制的语音数据的音强；

将所述音强映射到所述音强指示区间中进行显示。

7.根据权利要求4所述的方法，其特征在于，所述将所述录音启动控件置为等待识别结束状态包括：

对应于所述录音启动控件，显示按照所述预估时长进行倒计时的进度条。

8.根据权利要求1所述的方法，其特征在于，所述获取对所述语音数据进行语音识别得到的文本，包括：

获取对划分出的语音片段进行语音识别得到的文本；

所述将所述文本展示在所述语音输入面板中，包括：

将当前识别到的文本即时展示在所述语音输入面板中。

9.根据权利要求8所述的方法，其特征在于，所述将当前识别到的文本即时展示在所述语音输入面板中包括：

将当前识别到的文本中未经过上下文纠错的文本，以第一状态即时展示在所述语音输入面板中；

当以第一状态展示的文本经过上下文纠错后，将纠错后的第二状态的文本替换纠错前的第一状态的文本，展示在所述语音输入面板中。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

检测到作用于所述语音输入面板中所展示文本的编辑触发操作时，将所述语音输入面板的面积增大；

将所述语音输入面板中展示的文本置为可编辑状态；

调起对所述语音输入面板中所展示文本进行编辑的虚拟键盘。

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

检测针对所述语音输入面板中所展示文本的编辑操作；

根据所述编辑操作确定所述语音输入面板中所展示文本中的编辑位置；

通过所述虚拟键盘触发语音录制，得到当前的语音数据；

在所述语音输入面板中所展示文本中的编辑位置处，插入对所述当前的语音数据进行语音识别得到的文本。

12.根据权利要求1至11中任一项所述方法的步骤，其特征在于，所述待输入界面是社交应用的社交消息交互窗口；所述语音输入面板集成于所述社交应用中。

13.一种语音输入装置，其特征在于，所述装置包括：

展示模块，用于展示与待输入界面不同的语音输入面板；

14.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。

15.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。