CN111899732A - 语音输入方法、装置及电子设备 - Google Patents

语音输入方法、装置及电子设备 Download PDF

Info

Publication number
CN111899732A
CN111899732A CN202010555439.6A CN202010555439A CN111899732A CN 111899732 A CN111899732 A CN 111899732A CN 202010555439 A CN202010555439 A CN 202010555439A CN 111899732 A CN111899732 A CN 111899732A
Authority
CN
China
Prior art keywords
voice
application program
input
text
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010555439.6A
Other languages
English (en)
Inventor
王中一
常敏强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010555439.6A priority Critical patent/CN111899732A/zh
Publication of CN111899732A publication Critical patent/CN111899732A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请公开了一种语音输入方法、装置及电子设备,涉及人工智能、深度学习、自然语言处理及语音交互技术领域。具体实现方案为:响应于获取的外设操控组件发送的语音识别接口调用请求,启动语音识别流程;对获取的语音数据进行意图识别,确定语音数据对应的操作意图;响应于获取的语音数据结束指令,向当前关联的目标应用程序发送与操作意图对应的控制指令。由此,通过这种语音输入方法,在语音输入过程中可以正常处理用户的其他输入操作,实现了同步进行语音输入与传统输入操作,提升了操作效率,改善了用户体验。

Description

语音输入方法、装置及电子设备
技术领域
本申请涉及计算机技术领域,尤其涉及人工智能、深度学习、自然语言处理及语音交互技术领域,提出一种语音输入方法、装置及电子设备。
背景技术
随着语音识别技术的发展,通过语音的形式进行文本信息的输入已经越来越普及。语音输入技术提升了文本输入的便捷性,解决了手动操作输入效率较低的问题。
相关技术中,经常在在鼠标、键盘、游戏柄等外设操控设备中集成语音输入按键,通过这些外设操控设备实现在其正在操控的设备中的语音输入。但是,在语音输入按键被按下进行语音输入时,外设操控设备无法同时进行其他操作,影响了用户体验。
发明内容
本申请提供了一种用于语音输入方法、装置、电子设备以及存储介质。
根据本申请的一方面,提供了一种语音输入方法,包括:响应于获取的外设操控组件发送的语音识别接口调用请求,启动语音识别流程;对获取的语音数据进行意图识别,确定所述语音数据对应的操作意图;响应于获取的语音数据结束指令,向当前关联的目标应用程序发送与所述操作意图对应的控制指令。
根据本申请的另一方面,提供了一种语音输入方法,包括:响应于获取的语音输入指令,启动拾音组件;向输入法应用程序发送语音识别接口调用请求,以使所述输入法应用程序启动语音识别流程;将由所述拾音组件获取的语音数据发送给所述输入法应用程序;响应于获取的语音输入结束指令,向所述输入法应用程序发送语音数据结束指令。
根据本申请的再一方面,提供了一种语音输入方法,响应于获取的外设操控组件发送的文本输入框激活请求,将当前显示界面中的定位光标置于所述文本输入框内;获取当前关联的输入法应用程序发送的文本数据;在所述文本输入框内,显示所述文本数据。
根据本申请的又一方面,提供了一种语音输入装置,包括:第一启动模块,用于响应于获取的外设操控组件发送的语音识别接口调用请求,启动语音识别流程;第一确定模块,用于对获取的语音数据进行意图识别,确定所述语音数据对应的操作意图;第一发送模块,用于响应于获取的语音数据结束指令,向所述语音输入装置当前关联的目标应用程序发送与所述操作意图对应的控制指令。
根据本申请的又一方面,提供了一种语音输入装置,包括:第二启动模块,用于响应于获取的语音输入指令,启动拾音组件;第二发送模块,用于向输入法应用程序发送语音识别接口调用请求,以使所述输入法应用程序启动语音识别流程;第三发送模块,用于将由所述拾音组件获取的语音数据发送给所述输入法应用程序;第四发送模块,用于响应于获取的语音输入结束指令,向所述输入法应用程序发送语音数据结束指令。
根据本申请的另一方面,提供了一种语音输入装置,包括:第一响应模块,用于响应于获取的外设操控组件发送的文本输入框激活请求,将当前显示界面中的定位光标置于所述文本输入框内;获取模块,用于获取当前关联的输入法应用程序发送的文本数据;显示模块,用于在所述文本输入框内,显示所述文本数据。
根据本申请的再一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如前所述的语音输入方法。
根据本申请的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如前所述的语音输入方法。
根据本申请的技术方案,解决了具有语音输入功能的外设操控设备,在语音输入按键被按下进行语音输入时,外操控设备无法同时进行其他操作,影响了用户体验的问题。通过输入法应用程序在获取到外设操控组件发送的语音识别接口调用请求时,启动语音识别流程,并根据获取的外设操控组件发送的语音数据进行意图识别,以确定语音数据对应的操作意图,进而在获取到语音数据结束指令时,向当前关联的目标应用程序发送与操作意图对应控制指令。由此,输入法应用程序在语音数据获取和识别过程中,无需对目标应用程序进行控制,进而在语音数据识别结束后直接将语音数据识别结果发送至目标应用程序,进行相应处理,从而在语音输入过程中可以正常处理用户的其他输入操作,实现了同步进行语音输入与传统输入操作,提升了操作效率,改善了用户体验。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请实施例所提供的一种语音输入方法的流程示意图;
图2为本申请实施例所提供的另一种语音输入方法的流程示意图;
图3为本申请实施例所提供的再一种语音输入方法的流程示意图;
图4为本申请实施例所提供的又一种语音输入方法的流程示意图;
图5为本申请实施例所提供的又一种语音输入方法的流程示意图;
图6为在当前显示界面中全屏显示游戏操作界面的示意图;
图7为游戏应用程序将定位光标置于聊天界面的文本输入框内的示意图;
图8为游戏应用程序在文本输入框中显示文本数据的示意图;
图9为游戏应用程序对文本数据执行文本发送操作之后的界面示意图;
图10为本申请实施例所提供的一种语音输入方法的信令交互图;
图11为本申请实施例提供的一种语音输入装置的结构示意图;
图12为本申请实施例提供的另一种语音输入装置的结构示意图;
图13为本申请实施例提供的再一种语音输入装置的结构示意图;
图14为用来实现本申请实施例的语音输入方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请实施例针对相关技术中,具有语音输入功能的外设操控设备,在语音输入按键被按下进行语音输入时,外操控设备无法同时进行其他操作,影响了用户体验的问题,提出一种语音输入方法。
下面参考附图对本申请提供的语音输入方法、装置、电子设备及存储介质进行详细描述。
图1为本申请实施例所提供的一种语音输入方法的流程示意图,应用于输入法应用程序。
如图1所示,该语音输入方法,包括以下步骤:
步骤101,响应于获取的外设操控组件发送的语音识别接口调用请求,启动语音识别流程。
需要说明的是,对于具有语音输入功能的外设操控组件,可以在外设操控组件中设置语音输入按键,以在语音输入按键被按下时,获取语音数据,实现语音输入。但是,在外设操控组件中的语音输入按键被按下以进行语音输入时,需要用户提前将光标定位至需要进行输入的位置,从而导致在进行语音输入时,外设操控组件无法同时进行其他操作。比如,外设操控组件键盘时,键盘中的语音输入按键被按下时,输入法无法同时响应对键盘中其他按键的操作,从而使得语音输入和传统输入操作无法同步进行,降低了外设操控组件的操作效率,影响用户体验。因此,在本申请实施例中,输入法应用程序在进行语音数据获取和识别过程中,无需用户定位光标,从而不影响用户对外设操控组件的其他操作。
其中,外设操控组件,可以包括鼠标、键盘、触摸屏、游戏柄等操控组件,但不仅限于此。实际使用时,可以根据实际需要和具体的应用场景,将任意具有语音输入功能的输入设备,确定为外设操控组件,本申请实施例对此不做限定。
其中,语音识别接口调用请求,可以是外设操控组件在检测到语音输入按键被触发时生成,并发送至输入法应用程序的。
在本申请实施例中,可以在外设操控组件中设置语音输入按键,语音输入按键可以包括三种状态:自然态、按下态和弹起态。外设操控组件可以在检测到语音输入按键处于按下态时,即语音输入按键被按下的瞬间,生成语音识别接口调用请求并发送至输入法应用程序,输入法应用程序可以在获取到语音识别接口调用请求时,启动语音识别流程,以准备进行语音数据接收和语音数据识别过程。
举例来说,若当前的应用场景为游戏场景,外设操控组件为键盘,键盘中设置有语音输入按键,则用户在游戏过程中,需要向队友或对手发送语音或文本信息时,可以按下语音输入按键,键盘则可以在检测到语音输入按键处于按下态时,生成语音识别接口调用指令并发送至输入法应用程序,输入法应用程序启动语音识别流程,而在语音输入按键处于按下态时,由于键盘和输入法并没有定位光标,则用户还可以同时操控键盘进行游戏操作。
步骤102,对获取的语音数据进行意图识别,确定语音数据对应的操作意图。
在本申请实施例中,输入法应用程序在获取到外设操控组件发送的语音数据之后,可以首先将语音数据转换为对应的文本数据,进而采用自然语言处理算法对语音数据对应的文本数据进行意图识别,以确定语音数据对应的操作意图。
作为一种可能的实现方式,对语音数据进行意图识别所使用的自然语言处理算法,可以是预先训练的基于深度学习的意图识别模型。具体的,可以获取大量外设操控组件获取的语音数据对应的文本数据,作为样本文本数据,并利用样本文本数据对应的实际意图对相应的样本文本数据进行标注,之后利用初始意图识别模型对各样本文本数据进行意图识别,以确定各样本文本数据对应的预测意图,进而根据各样本文本数据对应的实际意图与预测意图的差异,确定初始意图识别模型的损失值,进而根据损失值对初始意图识别模型进行更新,并利用更新后的意图识别模型重复上述训练过程,直至更新后的意图识别模型的损失值处于预设范围,则可以完成对意图识别模型的训练过程。
举例来说,若当前的应用场景为游戏场景,输入法应用程序获取到的语音数据为“队友A,你还在线吗,把语音发送给他”,则输入法应用程序对该语音数据进行意图识别,可以确定该语音数据对应的操作意图为“向队友A发送语音信息”。
步骤103,响应于获取的语音数据结束指令,向当前关联的目标应用程序发送与操作意图对应的控制指令。
其中,当前关联的目标应用程序,可以是进行语音输入时,用户正在使用的应用程序,比如,在进行语音输入时,用户正在玩游戏,则当前关联的目标应用程序可以为该游戏应用;又如,在进行语音输入时,用户正在编辑文档,则当前关联的目标应用程序可以为该文档编辑应用。
在本申请实施例中,外设操控组件可以在检测到语音输入按键处于弹起态时,即语音输入按键被松开的瞬间,生成语音数据结束指令并发送至输入法应用程序,从而输入法应用程序可以在获取到语音数据结束指令时,确定语音输入已完成,从而可以将对语音数据的意图识别结果发送至当前关联的目标应用程序,以使目标应用程序执行与操作意图对应的控制指令。因此,输入法应用程序在语音数据输入和识别过程中均未对目标应用程序进行控制,从而在语音数据输入和识别过程中,目标应用程序可以正常执行用户通过外设操控组件发送的其他指令。
举例来说,若当前的应用场景为游戏场景,外设操控组件为键盘,键盘中设置有语音输入按键,则用户在游戏过程中,需要向队友或对手发送语音或文本信息时,可以按下语音输入按键,并在语音发送完毕时,松开语音输入按键,键盘则可以在检测到语音输入按键处于弹起态时,生成语音数据结束指令并发送至输入法应用程序,从而输入法应用程序对获取的语音数据进行意图识别,确定操作意图为“向队友A发送语音信息”,则可以将获取的语音数据发送至目标应用程序,以使目标应用程序将语音数据发送至队友A的账号。
根据本申请实施例的技术方案,通过输入法应用程序在获取到外设操控组件发送的语音识别接口调用请求时,启动语音识别流程,并根据获取的外设操控组件发送的语音数据进行意图识别,以确定语音数据对应的操作意图,进而在获取到语音数据结束指令时,向当前关联的目标应用程序发送与操作意图对应控制指令。由此,输入法应用程序在语音数据获取和识别过程中,无需对目标应用程序进行控制,进而在语音数据识别结束后直接将语音数据识别结果发送至目标应用程序,进行相应处理,从而在语音输入过程中可以正常处理用户的其他输入操作,实现了同步进行语音输入与传统输入操作,提升了操作效率,改善了用户体验。
在本申请一种可能的实现形式中,输入法应用程序还可以将语音数据转换为文本数据,通过目标应用程序进行发布,以实现文本内容的语音输入。
下面结合图2,对本申请实施例提供的语音输入方法进行进一步说明。
图2为本申请实施例所提供的另一种语音输入方法的流程示意图,应用于输入法应用程序。
如图2所示,该语音输入方法,包括以下步骤:
步骤201,响应于获取的外设操控组件发送的语音识别接口调用请求,启动语音识别流程。
步骤202,对获取的语音数据进行意图识别,确定语音数据对应的操作意图。
上述步骤201-202的具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。
步骤203,响应于获取的语音数据结束指令,将获取的语音数据转化为文本数据。
在本申请实施例中,若输入法应用程序确定语音数据对应的操作意图为文本发布,则在获取到语音数据结束指令时,可以将获取的语音数据转化为文本数据,以用于文本发布。
步骤204,向目标应用程序发送文本输入框激活请求,以使目标应用程序将当前显示界面中的定位光标置于文本输入框内。
在本申请实施例中,输入法应用程序在确定语音数据对应的操作意图为文本发布时,则可以控制目标应用程序定位光标,以确定文本发布的位置。从而,输入法应用程序可以向目标应用程序发送文本输入框激活请求,以使目标应用程序将当前显示界面中的定位光标置于文本输入框内。
需要是说明的是,输入法应用程序在获取到语音数据结束指令时,才控制目标应用程序定位光标,从而在语音输入和识别过程中,不会影响用户通过外设操控组件对目标应用程序的使用和操控。
举例来说,若当前的应用场景为游戏场景,外设操控组件为键盘,目标应用程序为用户正在使用的游戏应用程序,输入法应用程序获取到的语音数据为“队友A,你还在线吗”,输入法应用程序确定的语音数据对应的操作意图为文本发布,则可以在获取到语音数据结束指令时,将语音数据转换为对应的文本数据“队友A,你还在线吗”,并向用户正在使用的游戏应用程序发送文本输入框激活请求,以使该游戏应用程序将定位光标置于聊天界面的文本输入框内。
步骤205,将文本数据同步给目标应用程序,以使目标应用程序将文本数据显示在文本输入框。
在本申请实施例中,输入法应用程序向目标应用程序发送文本输入框激活请求之后,可以将语音数据对应的文本数据发送给目标应用程序,以使目标应用程序将文本数据显示在文本输入框内。
举例来说,若当前的应用场景为游戏场景,目标应用程序为用户正在使用的游戏应用程序,输入法应用程序将语音数据转换为对应的文本数据“队友A,你还在线吗”,从而输入法应用程序可以将文本数据“队友A,你还在线吗”发送给该游戏应用程序,以使该游戏应用程序在聊天界面的文本输入框中显示“队友A,你还在线吗”,之后根据用户操作将该文本数据发送至队友A的账号。
根据本申请实施例的技术方案,通过输入法应用程序在获取到外设操控组件发送的语音识别接口调用请求时,启动语音识别流程,并根据获取的外设操控组件发送的语音数据进行意图识别,以确定语音数据对应的操作意图,进而在获取到语音数据结束指令且确定操作意图为文本发布时,向当前关联的目标应用程序发送文本输入框激活请求,并将语音数据对应的文本数据发送至目标应用程序,以使目标应用程序将所述文本数据显示在文本输入框。由此,输入法应用程序在语音数据获取和识别过程中,无需对目标应用程序进行控制,进而在语音数据识别结束后控制目标应用程序定位光标,以使目标应用程序进行文本发布,从而在语音输入过程中可以正常处理用户的其他输入操作,实现了同步进行语音输入与传统输入操作,提升了操作效率,改善了用户体验。
在本申请一种可能的实现形式中,输入法应用程序还可以对获取的语音数据进行降噪处理,以进一步提升对语音数据的识别准确度。
下面结合图3,对本申请实施例提供的语音输入方法进行进一步说明。
图3为本申请实施例所提供的再一种语音输入方法的流程示意图,应用于输入法应用程序。
如图3所示,该语音输入方法,包括以下步骤:
步骤301,响应于获取的外设操控组件发送的语音识别接口调用请求,启动语音识别流程。
上述步骤301的具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。
步骤302,确定外设操控组件的类型。
在本申请实施例中,由于外设操控组件可以同时进行语音输入和传统输入操作,而传统输入操作时会产生噪声,从而使得采集的语音数据中包含大量噪声,容易影响后续对语音数据进行识别的准确度。因此,在本申请实施例中,输入法应用程序还可以在语音识别流程中对获取的语音数据进行降噪处理,以提升对语音数据进行识别的准确度。
作为一种可能的实现方式,由于各种外设操控组件产生的噪声类型、幅值、频率等都各不相同,如键盘产生噪声通常较多、幅值较大,而鼠标产生的噪音通常幅值较低。因此,在本申请实施例中,对于不同类型的外设操控组件采集的语音数据,可以采用不同的降噪模式对语音数据进行降噪。从而可以首先确定发送语音识别接口调用请求的外设操控组件的类型,以根据外设操控组件的类型确定对语音数据的降噪模式。
可选地,在本申请实施例一种可能的实现形式中,外设操控组件的类型可以包含在语音识别接口调用请求中,从而输入法应用程序可以对语音识别接口调用请求进行解析处理,以确定外设操控组件的类型。
可选地,在本申请实施例另一种可能的实现形式中,输入法应用程序还可以在获取到语音识别接口调用请求之后,向外设操控组件发送类型获取指令,以使外设操控组件向输入法应用程序反馈自身的外设操控组件的类型。
步骤303,根据外设操控组件的类型,确定目标语音降噪模式。
在本申请实施例中,可以预先设置外设操控组件的类型与语音降噪模式的映射关系,从而输入法应用程序可以根据外设操控组件的类型与语音降噪模式的映射关系,获取与外设操控组件的类型对应的语音降噪模式,并将该语音降噪模式确定为目标语音降噪模式。
作为一种可能的实现方式,对于每个类型的外设操控组件,可以获取大量由该类型的外设操控组件采集的语音数据,作为样本语音数据,并利用每个样本语音数据对应的实际文本数据对每个样本语音数据进行标注。之后,利用初始语音降噪模型对每个样本语音数据进行降噪处理,并将降噪后的样本语音数据转换为文本数据,以确定每个样本语音数据对应的预测文本数据,进而根据每个样语音数据对应的预测文本数据与实际文本数据的差异,确定初始语音降噪模型的损失值,进而根据损失值对初始语音降噪模型的参数进行更新,并利用更新后的语音降噪模型重复上述训练过程,直至更新后的语音降噪模型的损失值处于预设范围,则完成对语音降噪模型的训练过程,并将最终生成的语音降噪模型作为该类型的外设操控组件对应的语音降噪模式。
需要说明的是,外设操控组件对应的语音降噪模式的确定方式,可以包括但不限于以上列举的情形。实际使用时,可以根据实际需要及具体的应用场景,确定各类型的外设操控组件对应的语音降噪模式,本申请实施例对此不做限定。比如,还可以根据各类型的外设操控组件产生的噪声特点(如幅值、频率等),选择合适的滤波器,分别对各类型的外设操控组件采集的语音数据进行降噪处理。
步骤304,根据目标语音降噪模式,对语音数据进行降噪处理。
在本申请实施例中,确定出外设操控组件对应的目标语音降噪模式之后,输入法应用程序即可以利用目标语音降噪模式对获取的语音数据进行降噪处理,以生成质量较高的语音数据。
步骤305,对降噪后的语音数据进行意图识别,确定语音数据对应的操作意图。
步骤306,响应于获取的语音数据结束指令,向当前关联的目标应用程序发送与操作意图对应的控制指令。
上述步骤305-306的具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。
根据本申请实施例的技术方案,通过输入法应用程序在获取到外设操控组件发送的语音识别接口调用请求时,启动语音识别流程,并利用与外设操控组件对应的目标语音降噪模式,对获取的语音数据进行降噪处理,进而对降噪后的语音数据进行意图识别,以确定语音数据对应的操作意图。由此,通过对获取的语音数据进行降噪处理,降低了语音数据中包括的外设操控组件中的其他操作所产生的噪声水平,提升了语音数据的质量,从而不仅在语音输入过程中可以正常处理用户的其他输入操作,实现了同步进行语音输入与传统输入操作,提升了操作效率,而且可以进一步提升语音数据的识别准确度,进一步改善了用户体验。
图4为本申请实施例所提供的又一种语音输入方法的流程示意图,应用于外设操控组件。
如图4所示,该语音输入方法,包括以下步骤:
步骤401,响应于获取的语音输入指令,启动拾音组件。
需要说明的是,本实施例的语音输入方法的执行主体为外设操控组件。其中,外设操控组件,可以包括鼠标、键盘、触摸屏、游戏柄等操控组件,但不仅限于此。实际使用时,可以根据实际需要和具体的应用场景,将任意具有语音输入功能的输入设备,确定为外设操控组件,本申请实施例对此不做限定。
其中,语音输入指令,可以是外设操控组件检测到语音输入按键处于按下态。
其中,拾音组件,可以设置在外设操控组件中,也可以通过通信接口与外设操控组件连接。拾音组件,可以是任意类型的可以采集声音数据的组件,本申请实施例对此不做限定。
在本申请实施例中,可以在外设操控组件中设置语音输入按键,语音输入按键可以包括三种状态:自然态、按下态和弹起态。外设操控组件可以在检测到语音输入按键处于按下态时,即语音输入按键被按下的瞬间,确定获取到语音输入指令,从而可以启动拾音组件,以通过拾音组件采集语音数据。
举例来说,若当前的应用场景为游戏场景,外设操控组件为键盘,键盘中设置有语音输入按键,则用户在游戏过程中,需要向队友或对手发送语音或文本信息时,可以按下语音输入按键,键盘则可以在检测到语音输入按键处于按下态时,确定获取到语音输入指令,从而可以启动拾音组件,以通过拾音组件采集用户的语音数据。而在语音按键处于按下态时,由于键盘和输入法并没有定位光标,则用户还可以同时操控键盘进行游戏操作。
步骤402,向输入法应用程序发送语音识别接口调用请求,以使输入法应用程序启动语音识别流程。
其中,语音识别接口调用请求,可以是外设操控组件在检测到语音输入按键被触发时生成,并发送至输入法应用程序的。
在本申请实施例中,外设操控组件可以在获取到语音输入指令并启动拾音组件后,生成语音识别接口调用请求并发送至输入法应用程序,以使输入法应用程序可以在获取到语音识别接口调用请求时,启动语音识别流程,以准备进行语音数据接收和语音数据识别过程。
步骤403,将由拾音组件获取的语音数据发送给输入法应用程序。
在本申请实施例中,外设操控组件向输入法应用程序发送语音识别接口调用请求后,可以将拾音组件采集的语音数据发送至输入法应用程序,以使输入法应用程序对语音数据进行识别处理。
步骤404,响应于获取的语音输入结束指令,向输入法应用程序发送语音数据结束指令。
在本申请实施例中,外设操控组件可以在检测到语音输入按键处于弹起态时,即语音输入按键被松开的瞬间,确定获取到语音输入结束指令,并将语音数据结束指令并发送至输入法应用程序,以使输入法应用程序可以在获取到语音数据结束指令时,确定语音输入已完成。因此,在语音输入和识别过程中,外设操控组件与输入法应用程序均未对目标应用程序进行控制,从而在语音数据输入和识别过程中,目标应用程序可以正常执行用户通过外设操控组件发送的其他指令。
举例来说,若当前的应用场景为游戏场景,外设操控组件为键盘,键盘中设置有语音输入按键,则用户在游戏过程中,需要向队友或对手发送语音或文本信息时,可以按下语音输入按键,并在语音发送完毕时,松开语音输入按键,键盘则可以在检测到语音输入按键处于弹起态时,确定获取到语音数据结束指令,并发送至输入法应用程序。
进一步的,语音输入结束时,还可以由外设操控组件控制目标应用程序进行光标的定位。即在本申请实施例一种可能的实现形式中,上述步骤404之后,还可以包括:
向输入法应用程序当前关联的目标应用程序发送文本输入框激活请求,以使目标应用程序将当前显示界面中的定位光标置于文本输入框内。
在本申请实施例中,外设操控组件可以在检测到语音输入按键处于弹起态时,即在语音输入按键被松开的瞬间,确定获取到语音输入结束指令,并向目标应用程序发送文本输入框激活请求,以使目标应用程序将当前显示界面中的定位光标置于文本输入框中,从而实现了在语音输入结束时,由外设操控组件控制目标应用程序将定位光标进行定位,并通知输入法应用程序语音输入结束。
举例来说,若当前的应用场景为游戏场景,外设操控组件为键盘,目标应用程序为用户正在使用的游戏应用程序,则键盘可以在检测到语音输入按键处于弹起态时,确定获取到语音输入结束指令,之后键盘向该游戏应用程序发送文本输入框激活请求,以使该游戏应用程序将当前显示界面中的定位光标置于文本输入框中,并通知输入法应用程序语音输入结束。
根据本申请实施例的技术方案,通过外设操控组件在获取到语音输入指令时,启动拾音组件获取语音数据,并向输入法应用程序发送语音识别接口调用请求,以使输入法应用程序启动语音识别流程,并将获取的语音数据发送给输入法应用程序,进而在获取到语音输入结束指令时,向输入法应用程序发送语音数据结束指令。由此,外设操控组件与输入法应用程序在语音数据获取和识别过程中,无需对目标应用程序进行控制,从而在语音输入过程中可以正常处理用户的其他输入操作,实现了同步进行语音输入与传统输入操作,提升了操作效率,改善了用户体验。
图5为本申请实施例所提供的又一种语音输入方法的流程示意图,应用于目标应用程序。
如图5所示,该语音输入方法,包括以下步骤:
步骤501,响应于获取的外设操控组件发送的文本输入框激活请求,将当前显示界面中的定位光标置于文本输入框内。
在本申请实施例中,可以由外设操控组件控制目标应用程序定位光标,从而目标应用程序在获取到外设操控组件发送的文本输入框激活请求时,可以确定当前显示界面中文本输入框的位置,并将定位光标置于文本输入框内,以准备对文本数据进行显示。
举例来说,若当前的应用场景为游戏场景,外设操控组件为键盘,键盘中设置有语音输入按键,目标应用程序为用户正在使用的游戏应用程序,如图6所示,为用户对游戏操作过程中,当前显示界面全屏显示游戏操作界面的示意图,其中,600为当前显示界面,610为游戏操作界面。用户在游戏过程中,需要向队友或对手发送语音或文本信息时,可以按下语音输入按键,并在语音发送完毕时,松开语音输入按键,则键盘可以在检测到语音输入按键处于弹起态时,确定获取到语音输入结束指令,之后键盘向该游戏应用程序发送文本输入框激活请求。从而,该游戏应用程序在获取到键盘发送的文本输入框激活请求时,可以在当前显示界面中同时显示游戏操作界面610和聊天界面620,并将定位光标621置于聊天界面620的文本输入框622内,如图7所示。从而,在语音输入结束后才控制该游戏应用程序将定位光标621置于聊天界面620的文本输入框622内,在语音输入过程中,用户可以正常对游戏操作界面进行控制和操作。。
步骤502,获取当前关联的输入法应用程序发送的文本数据。
在本申请实施例中,目标应用程序将定位光标置于当前显示界面的文本输入框中之后,可以实时获取输入法应用程序返回的语音数据对应的文本数据,并显示在文本输入框中;或者,目标应用程序在将光标置于当前显示界面的文本输入框中之后,还可以向当前关联的输入法应用程序发送文本输入指令,以从输入法应用程序获取语音数据对应的文本数据。
作为一种可能的实现方式,目标应用程序还可以在获取到文本数据之后,对文本数据进行语义分析,以确定对文本数据的操作方式。即在本申请实施例一种可能的实现形式中,上述步骤502之后,还可以包括:
对文本数据进行语义识别,确定文本数据对应的操作指令;
根据操作指令做出相应的操作。
在本申请实施例中,目标应用程序可以在获取到输入法应用程序发送的文本数据之后,确定对文本数据的操作方式,以响应用户的语音输入操作。比如,目标应用程序为视频应用程序,获取的文本数据为“搜索影片A”,则目标应用程序在对文本数据进行语义识别之后,可以确定文本数据对应的操作指令为搜索操作,从而可以根据文本数据执行搜索操作,以对影片A进行搜索;又如,目标应用程序为游戏应用程序,获取的文本数据为“队友A,你还在线吗”,目标应用程序对文本数据进行语义识别之后,可以确定文本数据对应的操作指令为发送文本数据,从而可以根据文本数据执行文本发送操作,以将文本数据发送至队友A的账号。
需要说明的是,实际使用时,可以采用预先训练的深度学习模型对文本数据进行语义分析,以通过人工智能的方式实现目标应用程序与用户的语音交互功能。
步骤503,在文本输入框内,显示文本数据。
在本申请实施例中,目标应用程序在获取到文本数据之后,可以根据当前显示界面中定位光标的位置,在文本输入框中显示获取到的文本数据,以实现语音输入。
需要说明的是,在需要对文本数据进行语义识别时,可以在文本输入框中显示文本数据之后,再对文本数据进行语义识别;也可以再对文本数据进行语义识别之后,执行操作指令时再显示文本数据;或者,两者也可以同步进行,本申请实施例对此不做限定。
举例来说,目标应用程序为视频应用程序,获取的文本数据为“搜索影片A”,定位光标位于搜索输入框内,则目标应用程序可以在获取到文本数据之后,在搜索输入框内显示“搜索影片A”,之后对文本数据进行语义识别,确定文本数据对应的操作指令为搜索操作,进而可以根据文本数据执行搜索操作,以对影片A进行搜索。
又如,如图8所示,目标应用程序为游戏应用程序,获取的文本数据为“队友A,你还在线吗”,从而可以将文本数据“队友A,你还在线吗”显示在文本输入框622中,目标应用程序对文本数据进行语义识别之后,确定文本数据对应的操作指令为发送文本数据,则可以根据文本数据执行文本发送操作,以将文本数据发送至队友A的账号,并将文本数据“队友A,你还在线吗”从文本输入框622中清除,以及在聊天界面620中显示文本数据“队友A,你还在线吗”与发送者信息(用户名、账号ID等)、发送时间等信息,如图9所示。需要说明的是,在将文本数据发送完成之后,还可以根据用户操作关闭聊天界面620,以使当前显示界面全屏显示游戏操作界面610,即还原至图6所示的显示界面。
根据本申请实施例的技术方案,通过在语音输入结束后,控制目标应用程序将当前显示界面中的定位光标置于文本输入框内,并向当前关联的输入法应用程序发送文本输入指令,进而将获取的输入法应用程序返回的文本数据,在输入文本框中显示。由此,外设操控组件与输入法应用程序在语音数据获取和识别过程中,无需对目标应用程序进行控制,从而在语音输入过程中可以正常处理用户的其他输入操作,实现了同步进行语音输入与传统输入操作,提升了操作效率,改善了用户体验。
图10为本申请实施例所提供的一种语音输入方法的信令交互图。
如图10所示,该语音输入方法,包括以下步骤:
步骤1001,外设操控组件响应于获取的语音输入指令,启动拾音组件。
步骤1002,外设操控组件向输入法应用程序发送语音识别接口调用请求。步骤1003,输入法应用程序启动语音识别流程。
步骤1004,外设操控组件将由拾音组件获取的语音数据发送给输入法应用程序。
步骤1005,输入法应用程序对获取的语音数据进行意图识别,确定语音数据对应的操作意图。
步骤1006,外设操控组件响应于获取的语音输入结束指令,向输入法应用程序发送语音数据结束指令。
步骤1007,外设操控组件响应于获取的语音输入结束指令,向输入法应用程序当前关联的目标应用程序发送文本输入框激活请求。
步骤1008,目标应用程序将当前显示界面中的定位光标置于文本输入框内。
步骤1009,输入法应用程序向目标应用程序发送与操作意图对应的控制指令。
步骤1010,目标应用程序在文本输入框内,显示文本数据。
上述过程,通过外设操控组件在获取到语音输入指令时,启动拾音组件获取语音数据,并向输入法应用程序发送语音识别接口调用请求,之后输入法启动语音识别流程,并将获取的外设操控组件发送的语音数据进行意图识别,以确定语音数据对应的操作意图,之后外设操控组件在获取到语音输入结束指令时,控制目标应用程序定位光标,以对输入法应用程序发送的文本数据进行显示。由此,输入法应用程序在语音数据获取和识别过程中,无需对目标应用程序进行控制,进而在语音数据识别结束后直接将语音数据识别结果发送至目标应用程序,进行相应处理,从而在语音输入过程中可以正常处理用户的其他输入操作,实现了同步进行语音输入与传统输入操作,提升了操作效率,改善了用户体验。
为了实现上述实施例,本申请还提出一种语音输入装置。
图11为本申请实施例提供的一种语音输入装置的结构示意图,应用于输入法应用程序。
如图11所示,该语音输入装置1100,包括:
第一启动模块1101,用于响应于获取的外设操控组件发送的语音识别接口调用请求,启动语音识别流程;
第一确定模块1102,用于对获取的语音数据进行意图识别,确定语音数据对应的操作意图;
第一发送模块1103,用于响应于获取的语音数据结束指令,向语音输入装置当前关联的目标应用程序发送与操作意图对应的控制指令。
在实际使用时,本申请实施例提供的语音输入装置,可以被配置在任意电子设备中,以执行前述语音输入方法。
根据本申请实施例的技术方案,通过输入法应用程序在获取到外设操控组件发送的语音识别接口调用请求时,启动语音识别流程,并根据获取的外设操控组件发送的语音数据进行意图识别,以确定语音数据对应的操作意图,进而在获取到语音数据结束指令时,向当前关联的目标应用程序发送与操作意图对应控制指令。由此,输入法应用程序在语音数据获取和识别过程中,无需对目标应用程序进行控制,进而在语音数据识别结束后直接将语音数据识别结果发送至目标应用程序,进行相应处理,从而在语音输入过程中可以正常处理用户的其他输入操作,实现了同步进行语音输入与传统输入操作,提升了操作效率,改善了用户体验。
在本申请一种可能的实现形式中,上述操作意图为文本发布;相应的,上述第一发送模块1103,包括:
转化单元,用于将获取的语音数据转化为文本数据;
同步单元,用于将文本数据同步给目标应用程序,以使目标应用程序将文本数据显示在文本输入框。
进一步的,在本申请另一种可能的实现形式中,上述第一发送模块1103,还包括:
发送单元,用于向目标应用程序发送文本输入框激活请求,以使目标应用程序将当前显示界面中的定位光标置于文本输入框内。
进一步的,在本申请再一种可能的实现形式中,上述语音输入装置1100,还包括:
第二确定模块,用于确定外设操控组件的类型;
第三确定模块,用于根据外设操控组件的类型,确定目标语音降噪模式;
第一降噪模块,用于根据目标语音降噪模式,对语音数据进行降噪处理。
需要说明的是,前述对图1、图2、图3、图4、图5所示的语音输入方法实施例的解释说明也适用于该实施例的语音输入装置1100,此处不再赘述。
根据本申请实施例的技术方案,通过输入法应用程序在获取到外设操控组件发送的语音识别接口调用请求时,启动语音识别流程,并根据获取的外设操控组件发送的语音数据进行意图识别,以确定语音数据对应的操作意图,进而在获取到语音数据结束指令且确定操作意图为文本发布时,向当前关联的目标应用程序发送文本输入框激活请求,并将语音数据对应的文本数据发送至目标应用程序,以使目标应用程序将所述文本数据显示在文本输入框。由此,输入法应用程序在语音数据获取和识别过程中,无需对目标应用程序进行控制,进而在语音数据识别结束后控制目标应用程序定位光标,以使目标应用程序进行文本发布,从而在语音输入过程中可以正常处理用户的其他输入操作,实现了同步进行语音输入与传统输入操作,提升了操作效率,改善了用户体验。
为了实现上述实施例,本申请还提出一种语音输入装置。
图12为本申请实施例提供的另一种语音输入装置的结构示意图,应用于外设操控组件。
如图12所示,该语音输入装置1200,包括:
第二启动模块1201,用于响应于获取的语音输入指令,启动拾音组件;
第二发送模块1202,用于向输入法应用程序发送语音识别接口调用请求,以使输入法应用程序启动语音识别流程;
第三发送模块1203,用于将由拾音组件获取的语音数据发送给输入法应用程序;
第四发送模块1204,用于响应于获取的语音输入结束指令,向输入法应用程序发送语音数据结束指令。
在实际使用时,本申请实施例提供的语音输入装置,可以被配置在任意电子设备中,以执行前述语音输入方法。
在本申请一种可能的实现形式中,上述语音输入装置1200,还包括:
第五发送模块,用于向输入法应用程序当前关联的目标应用程序发送文本输入框激活请求,以使目标应用程序将当前显示界面中的定位光标置于文本输入框内。
需要说明的是,前述对图1、图2、图3、图4、图5所示的语音输入方法实施例的解释说明也适用于该实施例的语音输入装置1200,此处不再赘述。
根据本申请实施例的技术方案,通过外设操控组件在获取到语音输入指令时,启动拾音组件获取语音数据,并向输入法应用程序发送语音识别接口调用请求,以使输入法应用程序启动语音识别流程,并将获取的语音数据发送给输入法应用程序,进而在获取到语音输入结束指令时,向输入法应用程序发送语音数据结束指令。由此,外设操控组件与输入法应用程序在语音数据获取和识别过程中,无需对目标应用程序进行控制,从而在语音输入过程中可以正常处理用户的其他输入操作,实现了同步进行语音输入与传统输入操作,提升了操作效率,改善了用户体验。
为了实现上述实施例,本申请还提出一种语音输入装置。
图13为本申请实施例提供的再一种语音输入装置的结构示意图,应用于目标应用程序。
如图13所示,该语音输入装置1300,包括:
第一响应模块1301,用于响应于获取的外设操控组件发送的文本输入框激活请求,将当前显示界面中的定位光标置于文本输入框内;
获取模块1302,用于获取当前关联的输入法应用程序发送的文本数据;
显示模块1303,用于在文本输入框内,显示文本数据。
在实际使用时,本申请实施例提供的语音输入装置,可以被配置在任意电子设备中,以执行前述语音输入方法。
在本申请一种可能的实现形式中,上述语音输入装置1300,还包括:
语义识别模块,用于对文本数据进行语义识别,确定文本数据对应的操作指令;
第二响应模块,用于根据操作指令做出相应的操作。
需要说明的是,前述对图1、图2、图3、图4、图5所示的语音输入方法实施例的解释说明也适用于该实施例的语音输入装置1300,此处不再赘述。
根据本申请实施例的技术方案,通过在语音输入结束后,控制目标应用程序将当前显示界面中的定位光标置于文本输入框内,并向当前关联的输入法应用程序发送文本输入指令,进而将获取的输入法应用程序返回的文本数据,在输入文本框中显示。由此,外设操控组件与输入法应用程序在语音数据获取和识别过程中,无需对目标应用程序进行控制,从而在语音输入过程中可以正常处理用户的其他输入操作,实现了同步进行语音输入与传统输入操作,提升了操作效率,改善了用户体验。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图14所示,是根据本申请实施例的语音输入方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图14所示,该电子设备包括:一个或多个处理器1401、存储器1402,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个电子设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图14中以一个处理器1401为例。
存储器1402即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的语音输入方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的语音输入方法。
存储器1402作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的语音输入方法对应的程序指令/模块(例如,附图11所示的第一启动模块1101、第一确定模块1102及第一发送模块1103;附图12所示的第二启动模块1201、第二发送模块1202、第三发送模块1203及第四发送模块1204;附图13所示的第一响应模块1301、获取模块1302及显示模块1303)。处理器1401通过运行存储在存储器1402中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的语音输入方法。
存储器1402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音输入方法的电子设备的使用所创建的数据等。此外,存储器1402可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1402可选包括相对于处理器1401远程设置的存储器,这些远程存储器可以通过网络连接至语音输入方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
语音输入方法的电子设备还可以包括:输入装置1403和输出装置1404。处理器1401、存储器1402、输入装置1403和输出装置1404可以通过总线或者其他方式连接,图14中以通过总线连接为例。
输入装置1403可接收输入的数字或字符信息,以及产生与语音输入方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1404可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过输入法应用程序在获取到外设操控组件发送的语音识别接口调用请求时,启动语音识别流程,并根据获取的外设操控组件发送的语音数据进行意图识别,以确定语音数据对应的操作意图,进而在获取到语音数据结束指令且确定操作意图为文本发布时,向当前关联的目标应用程序发送文本输入框激活请求,并将语音数据对应的文本数据发送至目标应用程序,以使目标应用程序将所述文本数据显示在文本输入框。由此,输入法应用程序在语音数据获取和识别过程中,无需对目标应用程序进行控制,进而在语音数据识别结束后控制目标应用程序定位光标,以使目标应用程序进行文本发布,从而在语音输入过程中可以正常处理用户的其他输入操作,实现了同步进行语音输入与传统输入操作,提升了操作效率,改善了用户体验。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (18)

1.一种语音输入方法,包括:
响应于获取的外设操控组件发送的语音识别接口调用请求,启动语音识别流程;
对获取的语音数据进行意图识别,确定所述语音数据对应的操作意图;
响应于获取的语音数据结束指令,向当前关联的目标应用程序发送与所述操作意图对应的控制指令。
2.如权利要求1所述的方法,其中,如果所述操作意图为文本发布,则所述响应于获取的语音数据结束指令,向当前关联的目标应用程序发送与所述操作意图对应的控制指令,包括:
将获取的语音数据转化为文本数据;
将所述文本数据同步给所述目标应用程序,以使所述目标应用程序将所述文本数据显示在文本输入框。
3.如权利要求2所述的方法,其中,在所述将所述文本数据同步给所述目标应用程序之前,还包括:
向所述目标应用程序发送文本输入框激活请求,以使所述目标应用程序将当前显示界面中的定位光标置于所述文本输入框内。
4.如权利要求1所述的方法,其中,在所述对获取的语音数据进行意图识别,确定所述语音数据对应的操作意图之前,还包括:
确定所述外设操控组件的类型;
根据所述外设操控组件的类型,确定目标语音降噪模式;
根据所述目标语音降噪模式,对所述语音数据进行降噪处理。
5.一种语音输入方法,包括:
响应于获取的语音输入指令,启动拾音组件;
向输入法应用程序发送语音识别接口调用请求,以使所述输入法应用程序启动语音识别流程;
将由所述拾音组件获取的语音数据发送给所述输入法应用程序;
响应于获取的语音输入结束指令,向所述输入法应用程序发送语音数据结束指令。
6.如权利要求5所述的方法,其中,在响应于获取的语音输入结束指令,向所述输入法应用程序发送语音数据结束指令之后,还包括:
向所述输入法应用程序当前关联的目标应用程序发送文本输入框激活请求,以使所述目标应用程序将当前显示界面中的定位光标置于所述文本输入框内。
7.一种语音输入方法,包括:
响应于获取的外设操控组件发送的文本输入框激活请求,将当前显示界面中的定位光标置于所述文本输入框内;
获取当前关联的输入法应用程序发送的文本数据;
在所述文本输入框内,显示所述文本数据。
8.如权利要求7所述的方法,其中,在所述获取当前关联的输入法应用程序发送的文本数据之后,还包括:
对所述文本数据进行语义识别,确定所述文本数据对应的操作指令;
根据所述操作指令做出相应的操作。
9.一种语音输入装置,包括:
第一启动模块,用于响应于获取的外设操控组件发送的语音识别接口调用请求,启动语音识别流程;
第一确定模块,用于对获取的语音数据进行意图识别,确定所述语音数据对应的操作意图;
第一发送模块,用于响应于获取的语音数据结束指令,向所述语音输入装置当前关联的目标应用程序发送与所述操作意图对应的控制指令。
10.如权利要求9所述的装置,其中,如果所述操作意图为文本发布,则所述第一发送模块,包括:
转化单元,用于将获取的语音数据转化为文本数据;
同步单元,用于将所述文本数据同步给所述目标应用程序,以使所述目标应用程序将所述文本数据显示在文本输入框。
11.如权利要求10所述的装置,其中,所述第一发送模块,还包括:
发送单元,用于向所述目标应用程序发送文本输入框激活请求,以使所述目标应用程序将当前显示界面中的定位光标置于所述文本输入框内。
12.如权利要求9所述的装置,其中,还包括:
第二确定模块,用于确定所述外设操控组件的类型;
第三确定模块,用于根据所述外设操控组件的类型,确定目标语音降噪模式;
第一降噪模块,用于根据所述目标语音降噪模式,对所述语音数据进行降噪处理。
13.一种语音输入装置,包括:
第二启动模块,用于响应于获取的语音输入指令,启动拾音组件;
第二发送模块,用于向输入法应用程序发送语音识别接口调用请求,以使所述输入法应用程序启动语音识别流程;
第三发送模块,用于将由所述拾音组件获取的语音数据发送给所述输入法应用程序;
第四发送模块,用于响应于获取的语音输入结束指令,向所述输入法应用程序发送语音数据结束指令。
14.如权利要求13所述的装置,其中,还包括:
第五发送模块,用于向所述输入法应用程序当前关联的目标应用程序发送文本输入框激活请求,以使所述目标应用程序将当前显示界面中的定位光标置于所述文本输入框内。
15.一种语音输入装置,包括:
第一响应模块,用于响应于获取的外设操控组件发送的文本输入框激活请求,将当前显示界面中的定位光标置于所述文本输入框内;
获取模块,用于获取当前关联的输入法应用程序发送的文本数据;
显示模块,用于在所述文本输入框内,显示所述文本数据。
16.如权利要求15所述的装置,其中,还包括:
语义识别模块,用于对所述文本数据进行语义识别,确定所述文本数据对应的操作指令;
第二响应模块,用于根据所述操作指令做出相应的操作。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。
CN202010555439.6A 2020-06-17 2020-06-17 语音输入方法、装置及电子设备 Pending CN111899732A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010555439.6A CN111899732A (zh) 2020-06-17 2020-06-17 语音输入方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010555439.6A CN111899732A (zh) 2020-06-17 2020-06-17 语音输入方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN111899732A true CN111899732A (zh) 2020-11-06

Family

ID=73207696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010555439.6A Pending CN111899732A (zh) 2020-06-17 2020-06-17 语音输入方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111899732A (zh)

Citations (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5632002A (en) * 1992-12-28 1997-05-20 Kabushiki Kaisha Toshiba Speech recognition interface system suitable for window systems and speech mail systems
US5893063A (en) * 1997-03-10 1999-04-06 International Business Machines Corporation Data processing system and method for dynamically accessing an application using a voice command
US6424357B1 (en) * 1999-03-05 2002-07-23 Touch Controls, Inc. Voice input system and method of using same
CN103631389A (zh) * 2013-11-29 2014-03-12 乐视致新电子科技(天津)有限公司 一种语音输入方法及装置
CN104615052A (zh) * 2015-01-15 2015-05-13 深圳乐投卡尔科技有限公司 Android车载导航全局声控装置及方法
CN104731549A (zh) * 2015-04-09 2015-06-24 徐敏 一种基于鼠标的语音识别人机交互装置及其方法
CN105551487A (zh) * 2015-12-07 2016-05-04 北京云知声信息技术有限公司 一种语音控制方法及装置
CN105760084A (zh) * 2016-01-25 2016-07-13 百度在线网络技术(北京)有限公司 语音输入的控制方法和装置
CN106201015A (zh) * 2016-07-08 2016-12-07 百度在线网络技术(北京)有限公司 基于输入法应用软件的语音输入方法及装置
CN106356057A (zh) * 2016-08-24 2017-01-25 安徽咪鼠科技有限公司 一种基于计算机应用场景语义理解的语音识别系统
CN106383603A (zh) * 2016-09-23 2017-02-08 安徽声讯信息技术有限公司 一种基于语音鼠标的语音控制系统
CN106471570A (zh) * 2014-05-30 2017-03-01 苹果公司 多命令单一话语输入方法
CN106653011A (zh) * 2016-09-12 2017-05-10 努比亚技术有限公司 一种语音控制方法、装置及终端
CN106873937A (zh) * 2017-02-16 2017-06-20 北京百度网讯科技有限公司 语音输入方法和装置
CN106896933A (zh) * 2017-01-19 2017-06-27 黄玉玲 将语音输入转换成文本输入的方法、装置和语音输入设备
WO2017124910A1 (zh) * 2016-01-22 2017-07-27 努比亚技术有限公司 光标定位方法、装置及移动终端
CN107172670A (zh) * 2017-06-29 2017-09-15 北京奇艺世纪科技有限公司 一种数据传输的方法、装置和设备
CN107481721A (zh) * 2017-08-16 2017-12-15 北京百度网讯科技有限公司 用于可穿戴电子设备的语音交互方法和可穿戴电子设备
CN107943834A (zh) * 2017-10-25 2018-04-20 百度在线网络技术(北京)有限公司 人机对话的实现方法、装置、设备及存储介质
CN108364644A (zh) * 2018-01-17 2018-08-03 深圳市金立通信设备有限公司 一种语音交互方法、终端及计算机可读介质
CN108491179A (zh) * 2018-03-13 2018-09-04 黄玉玲 一种文字输入的方法及系统
CN109200578A (zh) * 2017-06-30 2019-01-15 电子技术公司 用于视频游戏的交互式语音控制的伴随应用
CN109346074A (zh) * 2018-10-15 2019-02-15 百度在线网络技术(北京)有限公司 一种语音处理方法及系统
CN109471537A (zh) * 2017-09-08 2019-03-15 腾讯科技(深圳)有限公司 语音输入方法、装置、计算机设备和存储介质
CN109739425A (zh) * 2018-04-19 2019-05-10 北京字节跳动网络技术有限公司 一种虚拟键盘、语音输入方法、装置及电子设备
CN109885666A (zh) * 2019-01-18 2019-06-14 科大国创软件股份有限公司 一种基于html5的智能语音客服机器人的方法及系统
CN110047484A (zh) * 2019-04-28 2019-07-23 合肥马道信息科技有限公司 一种语音识别交互方法、系统、设备和存储介质
CN110457105A (zh) * 2019-08-07 2019-11-15 腾讯科技(深圳)有限公司 界面操作方法、装置、设备及存储介质
US20200020334A1 (en) * 2017-03-28 2020-01-16 Samsung Electronics Co., Ltd. Electronic device for processing user speech and operating method therefor
CN110767219A (zh) * 2019-09-17 2020-02-07 中国第一汽车股份有限公司 语义更新方法、装置、服务器和存储介质
CN111045639A (zh) * 2019-12-11 2020-04-21 深圳追一科技有限公司 语音输入方法、装置、电子设备及存储介质
CN111081247A (zh) * 2019-12-24 2020-04-28 腾讯科技(深圳)有限公司 语音识别的方法以及终端、服务器和计算机可读存储介质
CN111145751A (zh) * 2019-12-31 2020-05-12 百度在线网络技术(北京)有限公司 音频信号处理方法、装置以及电子设备
CN111261162A (zh) * 2020-03-09 2020-06-09 北京达佳互联信息技术有限公司 语音识别方法、语音识别装置及存储介质

Patent Citations (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5632002A (en) * 1992-12-28 1997-05-20 Kabushiki Kaisha Toshiba Speech recognition interface system suitable for window systems and speech mail systems
US5893063A (en) * 1997-03-10 1999-04-06 International Business Machines Corporation Data processing system and method for dynamically accessing an application using a voice command
US6424357B1 (en) * 1999-03-05 2002-07-23 Touch Controls, Inc. Voice input system and method of using same
CN103631389A (zh) * 2013-11-29 2014-03-12 乐视致新电子科技(天津)有限公司 一种语音输入方法及装置
CN106471570A (zh) * 2014-05-30 2017-03-01 苹果公司 多命令单一话语输入方法
CN104615052A (zh) * 2015-01-15 2015-05-13 深圳乐投卡尔科技有限公司 Android车载导航全局声控装置及方法
CN104731549A (zh) * 2015-04-09 2015-06-24 徐敏 一种基于鼠标的语音识别人机交互装置及其方法
CN105551487A (zh) * 2015-12-07 2016-05-04 北京云知声信息技术有限公司 一种语音控制方法及装置
WO2017124910A1 (zh) * 2016-01-22 2017-07-27 努比亚技术有限公司 光标定位方法、装置及移动终端
CN105760084A (zh) * 2016-01-25 2016-07-13 百度在线网络技术(北京)有限公司 语音输入的控制方法和装置
CN106201015A (zh) * 2016-07-08 2016-12-07 百度在线网络技术(北京)有限公司 基于输入法应用软件的语音输入方法及装置
CN106356057A (zh) * 2016-08-24 2017-01-25 安徽咪鼠科技有限公司 一种基于计算机应用场景语义理解的语音识别系统
CN106653011A (zh) * 2016-09-12 2017-05-10 努比亚技术有限公司 一种语音控制方法、装置及终端
CN106383603A (zh) * 2016-09-23 2017-02-08 安徽声讯信息技术有限公司 一种基于语音鼠标的语音控制系统
CN106896933A (zh) * 2017-01-19 2017-06-27 黄玉玲 将语音输入转换成文本输入的方法、装置和语音输入设备
CN106873937A (zh) * 2017-02-16 2017-06-20 北京百度网讯科技有限公司 语音输入方法和装置
US20200020334A1 (en) * 2017-03-28 2020-01-16 Samsung Electronics Co., Ltd. Electronic device for processing user speech and operating method therefor
CN107172670A (zh) * 2017-06-29 2017-09-15 北京奇艺世纪科技有限公司 一种数据传输的方法、装置和设备
CN109200578A (zh) * 2017-06-30 2019-01-15 电子技术公司 用于视频游戏的交互式语音控制的伴随应用
CN107481721A (zh) * 2017-08-16 2017-12-15 北京百度网讯科技有限公司 用于可穿戴电子设备的语音交互方法和可穿戴电子设备
CN109471537A (zh) * 2017-09-08 2019-03-15 腾讯科技(深圳)有限公司 语音输入方法、装置、计算机设备和存储介质
CN107943834A (zh) * 2017-10-25 2018-04-20 百度在线网络技术(北京)有限公司 人机对话的实现方法、装置、设备及存储介质
CN108364644A (zh) * 2018-01-17 2018-08-03 深圳市金立通信设备有限公司 一种语音交互方法、终端及计算机可读介质
CN108491179A (zh) * 2018-03-13 2018-09-04 黄玉玲 一种文字输入的方法及系统
CN109739425A (zh) * 2018-04-19 2019-05-10 北京字节跳动网络技术有限公司 一种虚拟键盘、语音输入方法、装置及电子设备
CN109346074A (zh) * 2018-10-15 2019-02-15 百度在线网络技术(北京)有限公司 一种语音处理方法及系统
CN109885666A (zh) * 2019-01-18 2019-06-14 科大国创软件股份有限公司 一种基于html5的智能语音客服机器人的方法及系统
CN110047484A (zh) * 2019-04-28 2019-07-23 合肥马道信息科技有限公司 一种语音识别交互方法、系统、设备和存储介质
CN110457105A (zh) * 2019-08-07 2019-11-15 腾讯科技(深圳)有限公司 界面操作方法、装置、设备及存储介质
CN110767219A (zh) * 2019-09-17 2020-02-07 中国第一汽车股份有限公司 语义更新方法、装置、服务器和存储介质
CN111045639A (zh) * 2019-12-11 2020-04-21 深圳追一科技有限公司 语音输入方法、装置、电子设备及存储介质
CN111081247A (zh) * 2019-12-24 2020-04-28 腾讯科技(深圳)有限公司 语音识别的方法以及终端、服务器和计算机可读存储介质
CN111145751A (zh) * 2019-12-31 2020-05-12 百度在线网络技术(北京)有限公司 音频信号处理方法、装置以及电子设备
CN111261162A (zh) * 2020-03-09 2020-06-09 北京达佳互联信息技术有限公司 语音识别方法、语音识别装置及存储介质

Similar Documents

Publication Publication Date Title
CN106558310B (zh) 虚拟现实语音控制方法及装置
CN112259072A (zh) 语音转换方法、装置和电子设备
CN110806865B (zh) 动画生成方法、装置、设备及计算机可读存储介质
CN111968631B (zh) 智能设备的交互方法、装置、设备及存储介质
CN110675873B (zh) 智能设备的数据处理方法、装置、设备及存储介质
CN110557699B (zh) 一种智能音箱交互方法、装置、设备及存储介质
CN111709362B (zh) 用于确定重点学习内容的方法、装置、设备及存储介质
CN111931520B (zh) 自然语言处理模型的训练方法和装置
CN111443801B (zh) 人机交互方法、装置、设备及存储介质
CN111309283A (zh) 用户界面的语音控制方法、装置、电子设备及存储介质
CN112825013A (zh) 终端设备的控制方法和装置
CN111259125A (zh) 语音播报的方法和装置、智能音箱、电子设备、存储介质
CN111177339A (zh) 对话生成方法、装置、电子设备及存储介质
CN111755002A (zh) 语音识别装置、电子设备和语音识别方法
US20210098012A1 (en) Voice Skill Recommendation Method, Apparatus, Device and Storage Medium
CN112382294B (zh) 语音识别方法、装置、电子设备和存储介质
CN112382292A (zh) 基于语音的控制方法和装置
CN113077779A (zh) 一种降噪方法、装置、电子设备以及存储介质
CN110706701B (zh) 语音技能推荐方法、装置、设备及存储介质
CN112652304A (zh) 智能设备的语音交互方法、装置和电子设备
CN117033587A (zh) 人机交互方法、装置、电子设备及介质
CN112650844A (zh) 对话状态的追踪方法、装置、电子设备和存储介质
CN111899732A (zh) 语音输入方法、装置及电子设备
CN111243585A (zh) 多人场景下的控制方法、装置、设备及存储介质
CN111768768B (zh) 语音处理方法、装置、外设操控设备及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination