CN109739462A

CN109739462A - 一种内容输入的方法及装置

Info

Publication number: CN109739462A
Application number: CN201810214705.1A
Authority: CN
Inventors: 罗永浩; 汪杨袤; 罗海涛
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2018-03-15
Filing date: 2018-03-15
Publication date: 2019-05-10
Anticipated expiration: 2038-03-15
Also published as: CN109739462B; WO2019174612A1; SG11202008876PA; US20200411004A1

Abstract

本申请实施例公开了一种内容输入的方法及装置，该方法包括：当存在输入框的显示事件时，可以响应该显示事件，并显示输入框以及与该输入框对应的语音输入控件，使得用户可以直接对第一语音输入控件执行语音输入操作；然后，响应该语音输入操作，接收用户输入的语音数据，并将用户输入的语音数据转换为可在第一输入框中展现的显示内容，并在第一输入框中进行显示。可见，用户可直接对已显示的语音输入控件执行语音输入操作，从而减少了用户进行语音输入操作前所需执行的操作步骤，提高了用户的输入效率，同时，也避免了由于输入法键盘上不存在语音输入控件而导致用户无法实现语音输入的问题。

Description

一种内容输入的方法及装置

技术领域

本申请涉及语音输入技术领域，具体涉及一种内容输入的方法及装置。

背景技术

随着语音识别技术的发展，语音识别的正确率在不断的提高，越来越多的用户愿意选择以语音输入的方式，在输入框中输入用户想要输入的内容。现有技术中，用户在进行语音输入操作前，通常需要先点击输入框，以使得输入光标移动到该输入框中，然后，用户在激活的输入法键盘中查找到预先设置在该键盘上的语音输入控件，并通过执行对该语音输入控件的语音输入操作(如长按该语音输入控件等)，来输入语音数据。

可见，在用户进行语音输入操作之前，用户所需进行的操作步骤较多，用户的输入效率较低。并且，由于各种输入法的差异，语音输入控件设置在各种输入法键盘上的位置也会不同，用户需要花费较多精力在输入法键盘上查找语音输入控件的位置，甚至在部分输入法中，输入法的键盘上并没有预先设置有语音输入控件，从而造成用户无法进行语音输入。因此，现有的语音输入方式并不友好。

发明内容

有鉴于此，本申请实施例提供一种内容输入的方法及装置，以提高用户的输入效率。

为解决上述问题，本申请实施例提供的技术方案如下：

第一方面，本申请实施例提供了一种内容输入的方法，包括：

响应于输入框的显示事件，显示所述输入框与语音输入控件，所述输入框与所述语音输入控件具有预先设置的对应关系；

响应于对第一语音输入控件的语音输入操作，接收语音数据，所述第一语音输入控件为用户选择的语音输入控件；

将所述语音数据转换为可在第一输入框展现的显示内容，所述第一输入框对应于所述第一语音输入控件；

将所述显示内容在所述第一输入框显示。

在一些可能的实施方式中，所述显示所述输入框与语音输入控件，包括：

显示所述输入框；

检测所述输入框是否已经显示；

如果是，则显示语音输入控件。

显示所述输入框；

响应于用户针对于快捷键的触发操作，显示语音输入控件，所述快捷键与所述语音输入控件相关联。

在一些可能的实施方式中，所述显示所述输入框与语音输入控件，具体为：

在同一时刻显示所述输入框与语音输入控件。

在一些可能的实施方式中，所述第一语音输入控件显示于所述第一输入框内，并且，所述第一语音输入控件在所述第一输入框内的显示位置，随着所述第一输入框内的显示内容的增加或减少而移动。

在一些可能的实施方式中，所述语音输入控件的呈现形式包括语音气泡、喇叭、麦克风。

在一些可能的实施方式中，所述将所述语音数据转换为可在第一输入框展现的显示内容，包括：

转换所述语音数据，得到转换结果；

通过对所述转换结果进行语义分析，调整所述转换结果，并将调整后的转换结果作为可在第一输入框展现的显示内容。

在一些可能的实施方式中，将调整后的转换结果作为可在第一输入框展现的显示内容，包括：

显示所述调整后的转换结果；

响应于用户针对于所述调整后的转换结果的选择操作，从多个调整后的转换结果中确定出用户选择的转换结果，并将所述用户选择的转换结果，作为可在第一输入框展现的显示内容；

其中，所述多个调整后的转换结果具有相似的发音，和/或，所述多个调整后的转换结果通过智能搜索而得到的搜索结果。

在一些可能的实施方式中，将所述显示内容在所述第一输入框显示，包括：

检测用户输入语音数据时，所述第一输入框中是否存在其它显示内容；

如果是，则将所述其它显示内容替换成所述显示内容。

第二方面，本申请还提供了一种内容输入的装置，包括：

第一显示模块，用于响应于输入框的显示事件，显示所述输入框与语音输入控件，所述输入框与所述语音输入控件具有预先设置的对应关系；

接收模块，用于响应于对第一语音输入控件的语音输入操作，接收语音数据，所述第一语音输入控件为用户选择的语音输入控件；

转换模块，用于将所述语音数据转换为可在第一输入框展现的显示内容，所述第一输入框对应于所述第一语音输入控件；

第二显示模块，用于将所述显示内容在所述第一输入框显示。

在一些可能的实施方式中，第一显示模块可以包括：

第一显示单元，用于显示所述输入框；

检测单元，用于检测所述输入框是否已经显示；

第二显示单元，用于如果检测到所述输入框已经显示，则显示语音输入控件。

在一些可能的实施方式中，第一显示模块也可以包括：

第三显示单元，用于显示所述输入框；

第四显示单元，用于响应于用户针对于快捷键的触发操作，显示语音输入控件，所述快捷键与所述语音输入控件相关联。

在一些可能的实施方式中，第一显示模块，具体可以用于在同一时刻显示所述输入框与语音输入控件。

在一些可能的实施方式中，转换模块可以包括：

转换单元，用于转换所述语音数据，得到转换结果；

调整单元，用于通过对所述转换结果进行语义分析，调整所述转换结果，并将调整后的转换结果作为可在第一输入框展现的显示内容。

在一些可能的实施方式中，该调整单元可以包括：

显示子单元，用于显示所述调整后的转换结果；

确定子单元，用于响应于用户针对于所述调整后的转换结果的选择操作，从多个调整后的转换结果中确定出用户选择的转换结果，并将所述用户选择的转换结果，作为可在第一输入框展现的显示内容；

在一些可能的实施方式中，第一语音输入控件显示于所述第一输入框内，并且，所述第一语音输入控件在所述第一输入框内的显示位置，并不是固定不变的，而是可以随着所述第一输入框内的显示内容的增加或减少而移动。

在一些可能的实施方式中，所述语音输入控件的呈现形式包括语音气泡、喇叭、麦克风等多种形式。

在一些可能的实施方式中，第二显示模块，可以包括：

内容检测单元，用于检测用户输入语音数据时，所述第一输入框中是否存在其它显示内容；

替换单元，用于如果所述第一输入框中存在其它显示内容，则将所述其它显示内容替换成所述显示内容。

由此可见，本申请实施例具有如下有益效果：

本申请实施例中，当存在输入框的显示事件时，可以响应该显示事件，并显示输入框以及与该输入框对应的语音输入控件，其中，语音输入控件与输入框预先设置了对应关系，这样，语音输入控件与输入框可以同时显示给用户，使得用户可以直接对第一语音输入控件执行语音输入操作；然后，响应该语音输入操作，接收用户输入的语音数据，并将用户输入的语音数据转换为可在第一输入框中展现的显示内容，该第一输入框对应于第一语音输入控件，然后可以将该显示内容在第一输入框中进行显示。可见，在向用户显示输入框时，也会显示与该输入框对应的语音输入控件，使得用户可直接对已显示的语音输入控件执行语音输入操作，以实现语音输入，从而减少了用户进行语音输入操作前所需执行的操作步骤，提高了用户的输入效率，同时，用户不需要借助输入法键盘上的语音输入控件来输入语音，从而也避免了由于输入法键盘上不存在语音输入控件而导致用户无法实现语音输入的问题。

附图说明

图1为本申请实施例提供的一种示例性应用场景示意图；

图2为本申请实施例提供的另一种示例性应用场景示意图；

图3为本申请实施例提供的一种内容输入的方法的流程示意图；

图4为本申请实施例提供的用户没有输入语音数据时语音记录弹窗的表现形式；

图5为本申请实施例提供的用户输入语音数据时语音记录弹窗的表现形式；

图6为本申请实施例提供的内容输入方法所应用的一种示例性软件架构示意图；

图7为本申请实施例提供的一种内容输入的装置的架构示意图。

具体实施方式

当用户想要通过语音输入的方式，在输入框中输入内容时，用户通常可以长按各种输入法键盘上的语音输入控件，来实现语音输入功能。为此，用户在进行语音输入操作之前，通常会点击输入框，使得输入光标移动到输入框中，同时输入法键盘也会被激活并显示出来，然后，用户从显示的输入法键盘上的众多输入控件中，查找出预先设置的用于触发语音识别的语音输入控件，并通过长按该语音输入控件等语音输入操作方式，启动语音识别，从而实现语音输入。

在上述用户进行语音输入操作之前，用户需要依次执行点击输入框、查找语音输入控件等步骤，然后用户才长按语音输入控件以开始输入语音输入，用户的操作步骤较多，降低了用户的输入效率。除此之外，现有的各种输入法键盘通常会存在一定差异，导致语音输入控件在各种输入法键盘上的位置也不相同，从而使得用户每次都需要从输入法键盘上的多个控件中，查找出语音输入控件，这不仅需要用户花费较长的时间，也需要用户花费较多的精力，用户的使用体验不高。甚至在部分输入法键盘上，并没有预先设置有语音输入控件，导致用户在使用该输入法键盘时，无法进行语音输入。可见，对于用户而言，现有的语音输入方式并不友好，用户的输入效率较低。

为了解决上述技术问题，本申请提供了一种语音输入的方法，提供用户进行语音输入的效率。以图1所示的应用场景为例，具体的，终端102的显示界面在检测到输入框的显示事件时，不仅会显示该输入框，也会显示与该输入框对应的语音输入控件；如果用户101想要在终端102上通过语音输入的方式在某一输入框中输入内容，由于终端102的显示界面上显示有与该输入框对应的语音输入控件，用户101可以直接在终端102上长按该语音输入控件，以启动语音输入；终端102响应用户101针对于该语音输入控件的长按操作，接收用户101输入的语音数据，并将该语音数据转换为可以在该输入框中展现的显示内容，然后，终端102将该显示内容显示在该输入框中，从而实现用户通过语音输入的方式在输入框中输入内容。由于在显示输入框时，也显示了与该输入框对应的语音输入控件，用户101可以直接对该语音输入控件执行长按操作，即可开始进行语音输入。相对于现有技术而言，本申请的技术方案中，不需要用户101在进行语音输入操作之前，执行点击输入框，以及从输入法键盘上的多个控件中查找出语音输入控件的操作，这样不仅可以减少用户101的操作步骤，而且也可以减少用户101所需花费的时间，从而提高了用户101语音输入的效率。同时，用户不需要借助输入法键盘上的语音输入控件来实现语音输入，也就避免了由于部分输入法键盘上不存在语音输入控件，而导致用户101无法进行语音输入的问题。

需要说明的是，上述示例性应用场景仅作为本申请提供的语音输入方法的一种示例性说明，并不用于限定本申请实施例。比如，本申请还可以应用于图2所示的应用场景中，在该场景中，是由服务器203对用户输入的语音数据进行转换。具体的，在用户201长按语音输入控件后，终端202可以响应该长按操作，并接收用户201输入的语音数据；然后终端202可以向服务器203发送语音数据的转换请求，以向服务器203请求转换用户输入的语音数据，在服务器203响应该转换请求后，终端202将该语音数据发送至服务器203，由服务器203对该语音数据进行转换，得到能够在输入框中展现的显示内容，并由服务器203该显示内容发送给终端202；终端202在接收到服务器203发送的显示内容后，将该显示内容显示在其对应的输入框中。可以理解，在某些场景下，对于数据量较大的语音数据，如果在终端202上对该语音数据进行转换，可能导致终端202的响应时间较长，影响用户体验；但是在服务器203上对语音数据进行转换，然后再将转换结果发送给终端202进行显示，由于服务器203的计算速度相对较快，可以较大程度上减少终端202对于语音输入的响应时间，从而进一步提高用户体验。

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

请一并参阅图3，图3示出了本申请实施例提供的一种内容输入的方法的流程示意图，该方法具体可以包括：

S301：响应于输入框的显示事件，显示该输入框与语音输入控件，该输入框与语音输入控件具有预先设置的对应关系。

输入框的显示事件，具体是指输入框需要在显示界面上进行显示的事件。通常情况下，如果存在输入框需要在显示界面上进行显示时，该输入框的显示事件就会生成。比如，在一些示例性场景下，当用户打开“百度”网页时，该“百度”网页上存在一个包含“百度一下”的输入框需要进行显示，此时，会生成该输入框的显示事件，由终端对该事件进行响应，使得该“百度”网页上能够显示出该输入框。

当检测到存在输入框的显示事件时，可以响应该事件，并显示该输入框以及与该输入框具有对应关系的语音输入控件。本实施例中，提供了以下显示输入框以及语音输入控件的非限定性示例。

在一种非限定性示例中，当检测到输入框的显示事件时，在显示界面上显示该输入框，当终端检测到输入框已经在显示界面上显示时，则也在该显示界面上显示与输入框对应的语音输入控件。在该示例中，可以以插件的形式实现输入框与显示界面的同时显示，便于产品的应用和推广。可以理解，实际应用中，虽然输入框的显示时间与语音输入控件的显示时间并不一致，存在一定大小的时间差，但是通常情况下，该时间差较小，人眼很难分辨出语音输入控件是在输入框之后显示，因此，对于用户而言，输入框与语音输入控件是同时显示的。

在另一种非限定性示例中，当检测到输入框的显示事件时，在显示界面上显示该输入框，并隐藏与该输入框对应的语音输入控件的显示，当检测到用户针对于显示该语音输入控件的快捷键的触发操作时，将该语音输入控件由隐藏状态切换成显示状态，在显示界面上显示该语音输入控件。在该示例中，用户可以通过对快捷键执行相应的操作，控制语音输入控件的隐藏与显示，从而可以提高用户的使用体验。

在又一种非限定示例中，可以预先将输入框的显示事件与其对应的语音输入按钮进行绑定，使得当检测到当前存在输入框的显示事件时，也会触发语音输入按钮在当前显示界面的显示，则，在响应输入框的显示事件时，输入框以及与该输入框对应的语音输入控件，可以在同一时刻显示于显示界面上。

其中，输入框与语音输入控件的对应关系，可以是由技术人员预先进行设定。在一些示例中，输入框与语音输入控件之间可以是一一对应。

S302：响应于针对于第一语音输入控件的语音输入操作，该第一语音输入控件为用户选择的语音输入控件，并接收语音数据。

作为一种示例性的具体实施方式，当用户需要通过语音输入的方式在输入框中输入内容时，用户可以对与输入框相关联的第一语音输入控件执行语音输入操作，该第一语音输入控件也即是用户所选择的语音输入控件，而用户所执行的语音输入操作可以是用户点击(如长按、单击、双击等)语音输入控件的操作，然后由终端响应用户的语音输入操作，并通过调用终端上配置的语音接收器(如麦克风等)，来接收用户输入的语音数据。

需要说明的是，由于输入框以及其对应的语音输入控件在用户进行语音输入操作之前已经显示给用户，因此，当用户想要在终端上通过语音输入的方式在输入框中输入内容时，用户可以直接对该语音输入控件执行触发操作，就能实现语音数据的输入，而不需要如现有技术那样通过调用各种输入法来实现语音输入，不仅用户所需执行的操作步骤减少，而且也节省了用户所需花费的时间。

在一些可能的实施方式中，为了便于用户能够快速的定位出语音输入控件的位置，可以调整语音输入控件与输入框之间的位置，比如可以将第一语音输入控件显示与输入框的内部，并且，该语音输入控件在输入框内的显示位置，可以随着输入框内显示内容的增加或者减少而移动；和/或，可以调整语音输入控件的呈现形式，比如可以调整语音输入控件的呈现形式为语音气泡、喇叭、麦克风等，使得用户根据语音输入控件的呈现形式的特异性，快速的定位出语音输入控件的位置。这样，可以更加方便用户的使用，从而提高用户体验。

值的注意的是，用户输入语音数据的实施方式存在多种，在此不做限定。比如，在一些示例性实施方式中，用户可以播放预先录制好的语音数据，从而进行语音数据的输入；也可以由用户说话发声，用户所发出的声音即为用户输入的语音数据等。

进一步的，为了提高用户体验，当用户在针对于语音输入控件执行触发操作后，可以通过弹窗来提示用户输入语音数据。具体的，本实施例中在响应于用户针对于语音输入控件的触发操作后，可以向用户显示语音记录弹窗，该语音记录弹窗用于提示用户可以进行语音输入，以及向用户反馈语音记录情况。需要说明的是，在弹出语音记录窗口后，为了向用户体现输入语音数据与没有输入语音数据的区别，可以改变用户输入语音数据时语音记录弹窗的表现形式，使得其与用户没有输入语音数据时语音记录弹窗的表现形式存在差异。在一种示例中，语音记录弹窗可以如图4以及图5所示，其中，图4示出了本实施例中用户没有输入语音数据时语音记录弹窗的表现形式，图5示出了本实施例中用户输入语音数据时语音记录弹窗的表现形式。

S303：将用户输入的语音数据转换为可在第一输入框中展现的显示内容，该第一输入框对应于第一语音输入控件。

作为一种示例，在获取到用户输入的语音数据后，可以利用ASR(AutomaticSpeech Recognition，自动语音识别)技术，通过配置在终端上或者配置在服务器上的语音识别引擎，对用户输入的语音数据进行识别，将语音数据转换为可以在第一输入框中展现的显示内容。

其中，可在第一输入框中展现的显示内容，是计算机可读的内容，可以包括各种语言形式的文本和/或图像。其中，转换结果所包括的文本，可以是几个字或词的组合，也可以是字符，如各种字母、数字、符号以及表示“开心”表情的字符“^.^”等；转换结果所包括的图像，可以是各种图片或聊天表情等。

需要说明的是，在一些场景下，不同输入框的所能展现的显示内容可能会存在差异。比如，在填写个人信息的页面上，可能存在输入电话号码的输入框、输入家庭住址的输入框，通常情况下，输入电话号码的输入框中所允许显示的内容只能是0至9之间的整数值，而不可以是中文字符等，而输入家庭住址的输入框，则既可以包含中文字符，也可以包含汉字。因此，在将语音数据转换为显示内容时，该显示内容通常为允许在该输入框(也即第一输入框)中显示的内容，而并非为任意形式的内容。

实际应用中，利用语音识别引擎即可将语音数据转换为计算机可读的输入，得到可在输入框中进行显示的内容，但是在一些情况下，即使语音识别引擎的识别率较高，但是所得到的转换结果中仍然可能存在部分内容并不符合用户的预期。比如，用户期望的输入内容为“程序源代码”，但是与“程序源代码”具有相同发音的词汇还有“程序猿代码”、“程序员代码”等，导致利用语音识别引擎进行转换所得到的结果可能是“程序猿代码”或“程序员代码”等，这就与用户所期望显示内容并不相符。

因此，在利用语音识别引擎识别得到用户输入语音数据后，可以对得到的转换结果进行语义分析。具体的，在一种识别语音数据的示例性实施方式中，可以利用语音识别引擎识别用户输入的语音数据，并对该语音数据进行转换，得到转换结果，然后对该转换结果进行语义分析，得到语义分析结果，利用该语义分析结果对转换结果中的部分内容进行调整，使得调整后的转换结果中内容的普适性更高和/或逻辑性更强，更贴合用户的期望，则该调整后的转换结果可以作为最终在第一输入框中进行呈现的显示内容。

比如，用户输入的语音数据所表征的内容为“程序源代码”，而利用语音识别引擎所得到的转换结果为“程序猿代码”，对该转换结果进行语义分析时，发现与该转换结果具有相同发音的文本“程序源代码”，在实际应用中的普适性更高，则将转换结果调整为“程序源代码”，并将调整后的转换结果作为在第一输入框中展现的显示内容。又比如，用户输入的语音数据所表征的内容为“香蕉是水果么”，利用语音识别引擎进行识别并转换后，可能得到的转换结果为“橡胶是水果么”，通过对该转换结果进行语义分析可知，“橡胶”和“水果”并不搭配，则对该转换结果进行语义分析后，根据后文“水果”，将“橡胶”调整为“香蕉”，得到的转换结果即为“香蕉是水果么”，可见，该转换结果具有更强的逻辑性，通常也会更加符合用户的期望。

此外，在某些场景下，为了进一步贴合用户期望输入的内容，可以将进行语音分析后所得到的多个调整后的转换结果，显示给用户，由用户对多个调整后的转换结果进行选择，基于用户的选择操作，从多个调整后的转换结果中确定出用户所选择的转换结果，并将该转换结果，作为可在第一输入框中进行展现的显示内容。由用户从中确定出显示内容，这样所得到的显示内容进一步贴合了用户所期望输入的内容。

需要说明的是，通过语义分析，可以得到多个具有相同或者相近发音的转换结果，也可以在进行语义分析时，通过智能搜索得到多个具有相关性的转换结果。例如，用户输入的语音数据所表征的内容为“侦察”，与其具有相同或相近发音的词汇还有“侦查”、“真差”等，这些词都可以作为调整后的转换结果；又如，用户输入的语音数据所表征的内容为“锤子”，则对“锤子”进行智能搜索可以得到“锤子科技有限公司”、“北京锤子数码”等搜索结果，这些搜索结果与“锤子”均可以作为调整后的转换结果。因此，对语音识别引擎所得到的转换结果进行语义分析所得到的调整后的转换结果，可以具有相似的发音，和/或，可以是通过智能搜索而得到的搜索结果。

S304：将显示内容在第一输入框中进行显示。

在得到可在第一输入框中进行展现的显示内容后，可以将该显示内容显示在第一输入框中。但是实际应用中，用户可能多次通过语音输入的方式，在第一输入框中多次输入不同内容，使得当前第一输入框中已经显示有上一次进行语音输入时所输入的内容，此时，可以利用此次语音输入所得到的显示内容，替换当前输入框中已经存在的显示内容。

比如，用户可能多次在百度网页上进行信息检索，并且，用户在上一次检索信息时，在第一输入框中已经输入了“什么水果好吃”的文本内容，而在当前检索信息的过程中，用户想要在第一输入框中输入的显示内容为“水果拼盘怎么做”。此时，如果当前第一输入框中同时显示有“什么水果好吃”的文本内容以及“水果拼盘怎么做”的文本内容，则可能会对用户检索“水果拼盘怎么做”所得到的检索结果产生影响。因此，在此次向第一输入框中输入“水果拼盘怎么做”的文本内容时，可以将“什么水果好吃”，替换成“水果拼盘怎么做”。其中，第一输入框为用户想要在其中输入内容的输入框，并且显示于当前显示界面上。

因此，在一种示例性的具体实施方式中，在得到可在第一输入框中展现的显示内容后，可以判断当前第一输入框中是否已经显示有其它内容，如果是，则删除第一输入框中已有的内容，并在该第一输入框中显示此次语音输入所得到的显示内容，如果不是，则直接将显示内容在第一输入框中进行显示即可。这样，只在第一输入框中显示此次用户输入的内容，可以避免用户之前输入的内容对此次用户输入的内容产生影响。

本实施例中，在用户进行语音输入操作之前，语音输入控件以及与其相关联的输入框同时显示，如果用户执行了针对于第一语音输入控件的触发操作，则可以响应该触发操作，并接收用户输入的语音数据，其中，第一语音输入控件为用户所选择的语音输入控件；然后，对用户输入的语音数据进行转换，得到可在第一输入框中展现的显示内容，并将该显示内容在与第一语音输入控件相关联的第一输入框中进行显示。由于在显示输入框时，也显示了与该输入框对应的语音输入控件，则用户可以直接对该语音输入控件执行语音输入操作，即可开始进行语音输入。相对于现有技术而言，本申请的技术方案中，不需要用户在进行语音输入操作之前，执行点击输入框，以及从输入法键盘上的多个控件中查找出语音输入控件的操作，这样不仅可以减少用户的操作步骤，而且也可以减少用户所需花费的时间，从而提高了用户语音输入的效率。同时，用户不需要借助输入法键盘上的语音输入控件来实现语音输入，也就避免了由于部分输入法键盘上不存在语音输入控件，而导致用户无法进行语音输入的问题。

为了更加详细的介绍本申请的技术方案，下面结合具体软件架构对本申请实施例进行描述。请一并参阅图6，图6示出了本申请实施例中语音输入方法所应用的一种示例性软件架构示意图，在一些场景下，该软件架构可应用于终端上。

该软件架构，可以包括终端上的操作系统(如Android操作系统等)、语音服务系统以及语音识别引擎。其中，操作系统可以与语音服务系统进行通信，语音服务系统可以与语音识别引擎进行通信，并且，语音服务系统可以运行在独立的进程中，当终端上的操作系统为Android操作系统时，Android操作系统时可以与语音服务系统之间通过Android IPC(Inter-Process Communication，进程间通信)接口，或者通过Socket进行数据通信与连接。

该操作系统可以包括语音输入控件控制模块，语音弹窗管理模块以及输入框连接通道管理模块。当用户在终端上打开客户端时，语音服务系统开始启动，并且如果客户端的显示界面上显示有输入框，则语音输入控件控制模块可以控制与输入框对应的语音输入控件也显示在显示界面上，其中，语音输入控件与输入框之间预先已经建立了对应关系。通常情况下，语音输入控件与输入框之间为一一对应。

然后，输入框连接通道管理模块可以建立显示界面上所显示的输入框与语音服务系统的连接关系，具体是该输入框与语音服务系统中客户端连接通道管理模块的数据通信连接通道，以便于输入框连接通道管理模块通过该链接通道，接收客户端连接通道管理模块回传的转换结果。

如果用户在终端上执行了针对于第一语音输入控件的语音输入操作，该第一语音输入控件为用户在当前显示界面上所选择的语音输入控件，语音输入控件控制模块可以响应用户的语音输入操作，确认语音服务系统是否已启动以及启动是否异常，如果语音服务系统没有启动或者启动异常，则重新开启语音服务系统，并触发输入框连接通道管理模块重新建立输入框与语音服务系统中的客户端连接通道管理模块的数据通信连接通道。并且，语音弹窗管理模块可以弹出语音记录弹窗，该语音记录窗口用于提示用户进行语音输入，以及向用户反馈语音输入情况。实际应用中，当用户在语音录入窗口输入语音数据时，为了向用户体现输入语音数据与没有输入语音数据的区别，可以改变用户输入语音数据时语音记录弹窗的表现形式，使得其与用户没有输入语音数据时语音记录弹窗的表现形式存在差异。在一种示例中，当用户没有输入语音数据时，语音记录弹窗的表现形式可以如图4所示，当用户输入语音数据时，语音记录弹窗的表现形式可以如图5所示。

语音识别引擎在接收到用户输入的语音数据后，可以对该语音数据进行识别，并将该语音数据进行转换得到转换结果，该转换结果为计算机可读的输入。例如，用户输入的语音数据所表征的内容为“哈哈”，则语音识别引擎所转换得到的转换结果可以是中文“哈哈”，也可以是表示表情的字符“^_^”、“O(∩_∩)O哈哈～”等，在一些场景中，还可以是表示“哈哈”表情的图像等，在此不做限定。

然后，语音识别引擎将转换得到的转换结果发送给语义分析模块，由语义分析模块对其进行语义分析，得到语义分析结果，并利用该语义分析结果对转换结果中的部分内容进行适应性的调整，使得调整后的转换结果中内容的普适性更高和/或逻辑性更强，更贴合用户的期望，然后将该调整后的转换结果作为可在第一输入框中展现的显示内容。

在得到该显示内容后，语义分析模块可以将转换结果发送给客户端连接通道管理模块，并由客户端连接通道管理模块，确定该显示内容对应于终端上哪一个客户端，也即为确定显示内容需要在哪个客户端上的输入框中进行显示，然后通过之前建立的输入框与客户端连接通道管理模块的数据通信连接通道，将显示内容发送至输入框连接通道管理模块，并由输入框连接通道管理模块将显示内容传递给对应的第一输入框，以便于将该显示内容在该第一输入框中进行显示，从而实现语音输入。其中，第一输入框对应于第一语音输入控件，也即为用户当前需要在其中输入内容的输入框。

进一步的，当用户停止使用该客户端(如，关闭客户端)，或者将客户端的当前显示界面切换成其它显示界面时，用户暂时不会继续在该第一输入框中输入内容，则输入框连接通道管理模块可以关闭该第一输入框与客户端连接通道管理模块之间的数据通信连接通道，这样可以在一定程度上节省系统资源。

本实施例中，由于在用户进行语音输入操作之前，语音输入控件与输入框已经同时显示，则用户可以直接对与第一输入框相关联的语音输入控件执行语音输入操作，即可实现通过语音输入的方式在第一输入框中输入内容。相对于现有的用户进行语音输入操作过程，本申请的技术方案，可以减少用户所需进行的操作步骤，并且用户不需要输入法键盘上的多个按钮中逐个查找语音输入控件，也减少了用户查找语音输入控件的时间，从而提高了用户语音输入的效率，同时也避免了由于部分输入法键盘上不存在语音输入控件，而导致用户无法进行语音输入的问题。

需要说明的是，上述软件架构仅作为示例性说明，并不用于限定本申请实施例的应用场景，事实上，本申请实施例还可以应用在其它场景中。比如，在一些场景中，是由服务器实现将语音数据的转换。具体的，当用户执行针对于第一语音输入控件的语音输入操作后，终端响应用户的语音输入操作并接收用户输入的语音数据，然后将该语音数据发送给服务器，由配置在服务器上的语音识别引擎对该语音数据进行识别得到转换结果，并由配置在服务器上的语义分析模块对转换结果进行语义分析，得到转换结果，然后服务器将转换结果发送给终端，由终端确定转换结果对应于客户端上的哪一个输入框，并在所确定的输入框中显示该转换结果。由于服务器的计算速度相对较快，可以较大程度上减少终端对于语音输入的响应时间，因此，在该场景下为用户提供语音输入的服务，可以进一步提高用户的使用体验。

此外，本申请实施例还提供了一种内容输入的装置。请一并参阅图7，图7示出了本申请实施例中一种内容输入的装置的架构示意图，该装置可以包括：

第一显示模块701，用于响应于输入框的显示事件，显示所述输入框与语音输入控件，所述输入框与所述语音输入控件具有预先设置的对应关系；

接收模块702，用于响应于对第一语音输入控件的语音输入操作，接收语音数据，所述第一语音输入控件为用户选择的语音输入控件；

转换模块703，用于将所述语音数据转换为可在第一输入框展现的显示内容，所述第一输入框对应于所述第一语音输入控件；

第二显示模块704，用于将所述显示内容在所述第一输入框显示。

在一些可能的实施方式中，第一显示模块701可以包括：

第一显示单元，用于显示所述输入框；

检测单元，用于检测所述输入框是否已经显示；

在一些可能的实施方式中，第一显示模块701也可以包括：

第三显示单元，用于显示所述输入框；

在一些可能的实施方式中，第一显示模块701，具体可以用于在同一时刻显示所述输入框与语音输入控件。

在一些可能的实施方式中，转换模块703可以包括：

转换单元，用于转换所述语音数据，得到转换结果；

在一些可能的实施方式中，该调整单元可以包括：

显示子单元，用于显示所述调整后的转换结果；

在一些可能的实施方式中，第二显示模块704，可以包括：

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种内容输入的方法，其特征在于，包括：

将所述显示内容在所述第一输入框显示。

2.根据权利要求1所述的方法，其特征在于，所述显示所述输入框与语音输入控件，包括：

显示所述输入框；

检测所述输入框是否已经显示；

如果是，则显示语音输入控件。

3.根据权利要求1所述的方法，其特征在于，所述显示所述输入框与语音输入控件，包括：

显示所述输入框；

4.根据权利要求1所述的方法，其特征在于，所述显示所述输入框与语音输入控件，具体为：

在同一时刻显示所述输入框与语音输入控件。

5.根据权利要求1所述的方法，其特征在于，所述第一语音输入控件显示于所述第一输入框内，并且，所述第一语音输入控件在所述第一输入框内的显示位置，随着所述第一输入框内的显示内容的增加或减少而移动。

6.根据权利要求1所述的方法，其特征在于，所述语音输入控件的呈现形式包括语音气泡、喇叭、麦克风。

7.根据权利要求1所述的方法，其特征在于，所述将所述语音数据转换为可在第一输入框展现的显示内容，包括：

转换所述语音数据，得到转换结果；

8.根据权利要求7所述的方法，其特征在于，将调整后的转换结果作为可在第一输入框展现的显示内容，包括：

显示所述调整后的转换结果；

9.根据权利要求1所述的方法，其特征在于，将所述显示内容在所述第一输入框显示，包括：

如果是，则将所述其它显示内容替换成所述显示内容。

10.一种在输入框中输入内容的装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述第一显示模块包括：

第一显示单元，用于显示所述输入框；

检测单元，用于检测所述输入框是否已经显示；

12.根据权利要求10所述的装置，其特征在于，所述第一显示模块包括：

第三显示单元，用于显示所述输入框；

13.根据权利要求10所述的装置，其特征在于，所述第一显示模块，具体用于在同一时刻显示所述输入框与语音输入控件。

14.根据权利要求10所述的装置，其特征在于，所述转换模块包括：

转换单元，用于转换所述语音数据，得到转换结果；

15.根据权利要求14所述的装置，其特征在于，所述调整单元包括：

显示子单元，用于显示所述调整后的转换结果；