CN110047484A

CN110047484A - 一种语音识别交互方法、系统、设备和存储介质

Info

Publication number: CN110047484A
Application number: CN201910351504.0A
Authority: CN
Inventors: 马冰; 马升; 朱国正
Original assignee: Hefei Madao Information Technology Co Ltd
Current assignee: Hefei Madao Information Technology Co Ltd
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2019-07-23

Abstract

本发明涉及计算机设备技术领域，特别是涉及一种语音识别交互方法、系统、设备和存储介质。方法包括：接收输入设备发送的用户操作事件信号和用户语音信息，并根据用户操作事件信号以及客户端的输入状态得到语音处理模式信息；将语音处理模式信息和用户语音信息实时发送至云端和/或服务器，通过云端和/或服务器进行处理以获取与用户语音信息对应的识别信息；根据识别信息执行文本输入操作和/或语音控制操作。本发明实施例中的语音识别交互方法、系统、设备和存储介质，通过简单的语音键操作，实现了用户和客户端之间的语音识别通信，使得可以通过语音进行输入和控制客户端，操作简单方便，拓展了语音识别的功能应用。

Description

一种语音识别交互方法、系统、设备和存储介质

技术领域

本发明涉及计算机设备技术领域，特别是涉及一种语音识别交互方法、系统、设备和存储介质。

背景技术

语音识别技术是将人类语音中的词汇内容转换为计算机可读的输入。若能将语音识别技术与计算机相结合实现语音对计算机进行控制，必将大大提升人们对计算机操控的便捷和高效程度。

目前市场上出现了许多支持语音识别功能的鼠标，为了满足对电脑的多种操作，其语音相关的功能键数量较多且操控均较为复杂，两个甚至数个功能键使得人们很难上手和熟练操作，结果导致语音识别技术给鼠标带来的技术提升效果大打折扣。

可见，现有技术中语音识别技术与计算机之间的交互由于鼠标功能单一，需要设置多个控制键进行语音识别操作过程，智能化程度低，无法有效快速的进行交互。

发明内容

基于此，提供一种语音识别交互方法、系统、设备和存储介质，解决现有技术语音识别交互过程操作繁杂、智能化低的问题。

在其中一个实施例中，本发明提供了一种语音识别交互方法，应用于客户端，所述客户端可与具有语音采集模块的输入设备通信，所述方法包括以下步骤：

接收所述输入设备发送的用户操作事件信号和用户语音信息，并根据所述用户操作事件信号以及所述客户端的输入状态得到语音处理模式信息；

将所述语音处理模式信息和所述用户语音信息实时发送至云端和/或服务器，通过所述云端和/或服务器进行处理以获取与所述用户语音信息对应的识别信息；

根据所述识别信息执行文本输入操作和/或语音控制操作。

在其中一个实施例中，本发明提供了一种语音识别交互方法，应用于具有语音采集模块的输入设备，所述方法包括以下步骤：

根据用户操作事件生成用户操作事件信号，并将所述用户操作事件信号实时发送至客户端；

接收客户端返回的控制信号，若所述控制信号允许进行用户语音采集，则开始采集用户语音信息；

将所述用户语音信息实时发送至客户端。

本发明实施例还提供了一种输入设备，包括壳体，所述壳体设有一个语音操作按键和语音采集装置，以及控制模块，所述控制模块包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求6所述语音识别交互方法的步骤。

本发明实施例中还提供一种语音识别交互系统，包括：

如上所述的输入设备，用于获取用户操作事件信号和用户语音信息并发送至客户端；

客户端，用于执行所述的语音识别方法的步骤，以确定语音处理模式，并将所述语音处理模式的模式类型信息和所述用户语音信息实时发送至云端和/或服务器进行语音识别；

语音识别端，为具有语音识别和翻译功能的云端或服务器，用于根据所述模式类型信息对所述用户语音信息内容进行识别，并将识别得到的识别信息返回所述客户端，以使所述客户端根据所述识别信息执行文本输入操作和/或语音控制操作。

本发明实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述语音识别交互方法的步骤。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述语音识别交互方法的步骤。

本发明实施例中的语音识别交互方法、系统、设备和存储介质，通过简单的语音键操作，实现了用户和客户端之间的语音识别通信，使得可以通过语音进行输入和控制客户端，操作简单方便，提高了人们操作电脑的效率，拓展了语音识别的功能应用。

附图说明

图1为一个实施例中提供的语音识别交互方法的应用环境示意图；

图2为一个实施例中提供的语音识别交互方法的流程图；

图3为一个实施例中提供的确定语音处理模式的流程图；

图4为另一个实施例中提供的语音识别交互方法的流程图；

图5为一个实施例中提供的鼠标的结构框图；

图6为一个实施例中提供的语音识别交互系统的结构框图；

图7为一个实施例中提供的计算机设备的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但除非特别说明，这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一xx单元称为第二xx单元，且类似地，可将第二xx单元称为第一xx单元。

图1为一个实施例中提供的语音识别交互方法的应用环境示意图，如图1所示，在该应用环境中，包括客户端110、语音采集端120和语音识别端130。

客户端110可以是独立的物理服务器或终端，也可以是多个物理服务器构成的服务器集群，可以是提供云服务器、云数据库、云存储和CDN(Content Delivery Network，内容分发网络)等基础云计算服务的云服务器，具体可以是笔记本电脑、手机、计算机等，本发明不进行严格限制。

语音采集端120包含有本发明实施例中的输入设备，可以是设置在鼠标或者键盘上的输入设备，或者独立的其他输入设备，其有一个语音操作按键和语音采集装置，并能够进行语音采集工作。

语音识别端130可以是某些具备语音识别文字转换功能的服务云端，比如腾讯语音云、讯飞语音云等云端语音识别服务器，本申请不进一步限制。

在本发明实施例中，通过一个语音操作键简单的操作，语音采集端120与客户端110进行通信，通过语音识别端130对用户语音进行识别和翻译，可以实现用户与客户端的语音交互，从而实现对客户端的语音输入和语音控制。

实施例一

如图2所示，在一个实施例中，提供了一种语音识别交互方法，本实施例主要以该方法应用于上述图1中的客户端110来举例说明，具体可以包括以下步骤：

步骤S201，接收输入设备发送的用户操作事件信号和用户语音信息，并根据用户操作事件信号以及客户端的输入状态得到语音处理模式信息；

步骤S202，将语音处理模式信息和用户语音信息实时发送至云端和/或服务器，通过云端和/或服务器进行处理以获取与用户语音信息对应的识别信息；

步骤S203，根据识别信息执行文本输入操作和/或语音控制操作。

在本发明实施例中，识别信息为语音的文本信息和/或语音控制指令信息，根据识别信息执行文本输入操作和/或语音控制操作，具体包括：

若语音处理模式为文本输入模式，则将语音的文本信息输入当前编辑光标所在处；

若语音处理模式为语音指令模式，则对语音控制指令信息进行识别，根据语音控制指令信息对客户端的系统进行控制。

在本发明实施例中，语音控制指令可以是简单的控制动作，比如“关闭计算机”、“打开音乐播放器”、“打开电影播放器”等等，本发明不进行一一列举，具体的，语音控制指令还可以由用户根据自己的习惯在客户端进行设置，从而使得电脑的语音控制更加简单方便。

如图3所示，为实施例中提供的确定语音处理模式的流程图，在本发明实施例中，步骤S201即接收输入设备发送的用户操作事件信号和用户语音信息，并根据用户操作事件信号以及客户端的输入状态得到语音处理模式信息，具体为：

步骤S301，接收输入设备发送的用户操作事件信号，根据用户操作事件信号判断用户操作事件类型；

步骤S302，根据用户操作事件类型以及客户端的输入状态，获得语音处理模式信息，语音处理模式信息包括语音处理模式为文本输入模式或语音指令模式；

步骤S303，根据语音处理模式信息发送控制信号至输入设备，以使输入设备开始或停止用户语音采集。

在本发明实施例中，若客户端没有处于与用户操作事件类型对应的输入状态，则提醒用户进行对应的操作，以使客户端处于与用户操作事件类型对应的状态。

在本发明实施例中，接收输入设备发送的用户操作事件信号，根据用户操作事件信号判断用户操作事件类型，根据用户操作事件类型以及客户端的输入状态，获得语音处理模式信息，具体包括：

接收到用户操作事件信号时开始计时，

若用户操作事件信号持续时间未超过预设时间且仅发生一次，则用户操作事件类型为单击操作按键，与用户操作事件类型对应的语音处理模式为输入文本模式；

若用户操作事件信号持续时间超过预设时间且仅发生一次，则用户操作事件类型为长按操作按键，与用户操作事件类型对应的语音处理模式为语音命令模式。

具体的，比如将预设时间设置为200毫秒，当被按下的操作按键在200毫秒内弹起，且客户端计时未到达200毫秒时，客户端检测光标是否处于文本输入区域；当光标处于非文本输入区域，客户端停止计时并弹出界面提示用户进行操作，将光标放入文本输入区域；当光标处于文本输入区域，即处于可文本输入状态，确认客户端进入文本输入模式，同时向输入设备发送指令以开始采集用户语音，同时客户端实时将从输入设备接收到的用户语音信息进行解码并实时上传到语音识别端，语音识别端实时将语音转换成语音的文本信息并发送回客户端，客户端实时将语音的文本信息输入到光标所在位置；当操作按键超过200毫秒仍未弹起，客户端进入语音命令模式，同时向输入设备发送指令以使输入设备开始采集用户语音，同时客户端实时将从输入设备接收到的用户语音信息进行解码并实时上传到语音识别端，语音识别端实时将语音控制指令信息进行识别并发送回客户端，客户端一旦识别到语音控制指令信息中的命令便对电脑操作系统进行相应命令的控制。

在本发明实施例中，当客户端接收语音的过程中语音停顿超过预设时间或者客户端接收语音时长超出预设时间，客户端退出语音处理模式，并向输入设备发送指令以停止语音采集。比如客户端接收语音的过程中语音停顿超过3秒或者电脑客户端接收语音时长达到60秒，电脑客户端退出语音输入模式并向输入设备发送指令以停止语音采集。

在本发明的其他实施例中，预设时间或者各种用户操作事件类型对应的语音处理模式以及客户端状态可以自由选择进行分配，本发明仅给出示例，并不进行严格的限制。

在本发明实施例中，文本输入模式包括直接文本输入模式和翻译文本输入模式，若用户操作事件信号持续时间未超过预设时间且仅发生一次，则用户操作事件类型为单击操作按键，与用户操作事件类型对应的语音处理模式为输入文本模式，具体包括：

若客户端当前处于直接文本输入状态，则将语音处理模式确定为直接输入文本模式，以便将用户语音信息转换为与语音对应语言的文本信息；

若客户端当前处于翻译文本输入状态，则将语音处理模式确定为翻译输入文本模式，以便将用户语音信息转换为目标语言的文本信息。

在本发明实施例中，语音处理模式信息可以包括对语音的识别要求和翻译要求，比如对语音的文本信息，应该翻译成何种语言，将该语言类型信息包括在翻译要求中，以便实现目标语言的翻译。

具体的，直接文本输入状态和翻译文本输入状态可以由用户对客户端进行操作时设置，可以自由选择输入的文本语言，依据可以是判断目标文本与语音语言是否一致，一致则为简单的语音识别，直接输入；若不一致，则需要将语音识别后转换成目标语言文本。

本发明实施例中的语音识别交互方法，通过结合用户操作事件和客户端状态判断，实现了用户和客户端之间的语音识别通信，不仅能够将语音转写成文本，还能将语音转换并翻译成指定语言，同时实时输入到电脑，还能通过语音对电脑进行操控，操作简单方便，提高了人们操作电脑的效率，拓展了语音识别的功能应用。

实施例二

如图4所示，在一个实施例中，提出了一种语音识别交互方法，本实施例主要以该方法应用于上述图1中的语音采集端120来举例说明，具体可以包括以下步骤：

步骤S401，根据用户操作事件生成用户操作事件信号，并将用户操作事件信号实时发送至客户端；

步骤S402，接收客户端返回的控制信号，若控制信号允许进行用户语音采集，则开始采集用户语音信息；

步骤S403，将用户语音信息实时发送至客户端。

在本发明实施例中，根据用户操作事件生成用户操作事件信号可以是用户对输入设备上操作按键的操作，具体可以是单击、双击、多击和长按等用户操作事件，对应的操作信号可以用信号持续时间进行判断和区分。

本发明实施例中的语音识别交互方法，通过简单的语音键操作，实现了用户和客户端之间的语音识别通信，操作简单方便，提高了人们操作电脑的效率，拓展了语音识别的功能应用。

实施例三

在一个实施例中，提供了一种输入设备，包括壳体，壳体设有一个语音操作按键和语音采集装置，以及控制模块，控制模块包括存储器和处理器，存储器中存储有计算机程序，计算机程序被处理器执行时，使得处理器执行实施例二所述语音识别交互方法的步骤。

在本发明实施例中，语音采集装置可以是麦克风、录音装置等具有语音采集功能的设备，输入设备和客户端的通信可以使有线通信和无线通信，若为无线通信可以是在输入设备和客户端各设置2.4GHz无线通信芯片进行通信连接。

在本发明实施例中，输入设备可以是鼠标或者键盘，如图5所示，本发明实施例以鼠标为例进行说明，该鼠标除了常规的壳体501、左键502、右键503和滚轮504，还包括语音操作键505和麦克风506，以及控制模块507，控制模块包括存储器和处理器，存储器中存储有计算机程序，计算机程序被处理器执行时，使得处理器执行实施例二所述语音识别交互方法的步骤。

本发明实施例中的输入设备，通过简单的语音键操作，实现了用户和客户端之间的语音识别通信，操作简单方便，提高了人们操作电脑的效率，拓展了语音识别的功能应用。

实施例四

如图6所示，在一个实施例中，提供了一种语音识别交互系统，包括：

输入设备601，如实施例三所述的鼠标，用于获取用户操作事件信号和用户语音信息并发送至客户端；

客户端602，用于执行实施例一的语音识别方法的步骤，以确定语音处理模式，并将语音处理模式的模式类型信息和用户语音信息实时发送至云端和/或服务器进行语音识别；

语音识别端603，为具有语音识别和翻译功能的云端或服务器，用于根据语音处理模式信息对用户语音信息内容进行识别，并将识别得到的识别信息返回客户端，以使客户端根据语音处理模式对所述识别信息进行控制。

本发明实施例中的语音识别交互系统，通过简单的语音键操作，实现了用户和客户端之间的语音识别通信，使得可以通过语音进行输入和控制客户端，操作简单方便，提高了人们操作电脑的效率，拓展了语音识别的功能应用。

实施例五

如图7所示，为本发明实施例提供的一种计算机设备的结构框图，本发明实施例提供的一种计算机设备，包括存储器701、处理器702、通信模块703和用户接口704。

存储器701中存储有操作系统705，用于处理各种基本系统服务和用于执行硬件相关任务的程序；还存储有应用软件706，用于实现本发明实施例中的形体训练方法的各个步骤。

在本发明实施例中，存储器701可以是高速随机存取存储器，诸如DRAM、SRAM、DDR、RAM、或者其他随机存取固态存储设备，或者非易失性存储器，诸如一个或多个硬盘存储设备、光盘存储设备、内存设备等。

在本发明实施例中，处理器702可通过通信模块703接收和发送数据以实现网络通信或者本地通信。

用户接口704可以包括一个或多个输入设备707，比如键盘、鼠标、触屏显示器，用户接口704还可以包括一个或者多个输出设备708，比如显示器、扩音器等。

另外，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述语音识别方法的步骤。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种语音识别交互方法，应用于客户端，所述客户端可与具有语音采集模块的输入设备通信，其特征在于，所述方法包括以下步骤：

根据所述识别信息执行文本输入操作和/或语音控制操作。

2.如权利要求1所述的交互方法，其特征在于，所述接收所述输入设备发送的用户操作事件信号和用户语音信息，并根据所述用户操作事件信号以及所述客户端输入状态确定得到语音处理模式信息，具体包括：

接收所述输入设备发送的用户操作事件信号，根据所述用户操作事件信号判断用户操作事件类型；

根据所述用户操作事件类型以及所述客户端的输入状态，获得语音处理模式信息，所述语音处理模式信息包括所述语音处理模式为文本输入模式或语音指令模式；

根据所述语音处理模式信息发送控制信号至所述输入设备，以使所述输入设备开始或停止用户语音采集。

3.如权利要求2所述的交互方法，其特征在于，所述用户操作事件类型包括用户对所述输入设备上操作按键进行单击或长按；

所述接收所述输入设备发送的用户操作事件信号，根据所述用户操作事件类型以及所述客户端的输入状态，获得语音处理模式信息，具体包括：

接收到所述用户操作事件信号时开始计时；

若所述用户操作事件信号持续时间未超过预设时间且仅发生一次，则所述用户操作事件类型为单击操作按键，与所述用户操作事件类型对应的语音处理模式为输入文本模式；

若所述用户操作事件信号持续时间超过预设时间且仅发生一次，则所述用户操作事件类型为长按操作按键，与所述用户操作事件类型对应的语音处理模式为语音命令模式。

4.如权利要求3所述的交互方法，其特征在于，所述文本输入模式包括直接文本输入模式和翻译文本输入模式；

所述若所述用户操作事件信号持续时间未超过预设时间且仅发生一次，则所述用户操作事件类型为单击操作按键，与所述用户操作事件对应的语音处理模式为输入文本模式，具体包括：

若所述客户端当前处于直接文本输入状态，则将所述语音处理模式确定为所述直接输入文本模式，以便将所述用户语音信息转换为与语音对应语言的文本信息；

若所述客户端当前处于翻译文本输入状态，则将所述语音处理模式确定为所述翻译输入文本模式，以便将所述用户语音信息转换为目标语言的文本信息。

5.如权利要求1所述的交互方法，其特征在于，所述识别信息为语音的文本信息和/或语音控制指令信息，所述根据所述识别信息执行文本输入操作和/或语音控制操作，具体包括：

若所述语音处理模式为文本输入模式，则将所述语音的文本信息输入当前编辑光标所在处；

若所述语音处理模式为语音指令模式，则对所述语音控制指令信息进行识别，根据所述语音控制指令信息对客户端的系统进行控制。

6.一种语音识别交互方法，应用于具有语音采集模块的输入设备，其特征在于，所述方法包括以下步骤：

将所述用户语音信息实时发送至客户端。

7.一种输入设备，包括壳体，其特征在于，所述壳体设有一个语音操作按键和语音采集装置，以及控制模块，所述控制模块包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求6所述语音识别交互方法的步骤。

8.如权利要求7所述的输入设备，其特征在于，所述输入设备可以是鼠标或者键盘。

9.一种语音识别交互系统，其特征在于，包括：

如权利要求7～8任一项所述输入设备，用于获取用户操作事件信号和用户语音信息并发送至客户端；

客户端，用于执行权利要求1～5任一项所述的语音识别方法的步骤，以确定语音处理模式，并将所述语音处理模式的模式类型信息和所述用户语音信息实时发送至云端和/或服务器进行语音识别；

10.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1至6中任一项权利要求所述语音识别交互方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1-6任一项权利要求所述语音识别交互方法的步骤。