CN108847231B - 远场语音识别方法、装置及系统 - Google Patents

远场语音识别方法、装置及系统 Download PDF

Info

Publication number
CN108847231B
CN108847231B CN201810541703.3A CN201810541703A CN108847231B CN 108847231 B CN108847231 B CN 108847231B CN 201810541703 A CN201810541703 A CN 201810541703A CN 108847231 B CN108847231 B CN 108847231B
Authority
CN
China
Prior art keywords
voice information
voice
information
acquisition
far
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810541703.3A
Other languages
English (en)
Other versions
CN108847231A (zh
Inventor
孟德成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mobvoi Information Technology Co Ltd
Original Assignee
Mobvoi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mobvoi Information Technology Co Ltd filed Critical Mobvoi Information Technology Co Ltd
Priority to CN201810541703.3A priority Critical patent/CN108847231B/zh
Publication of CN108847231A publication Critical patent/CN108847231A/zh
Application granted granted Critical
Publication of CN108847231B publication Critical patent/CN108847231B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例公开了一种远场语音识别方法、装置及系统,涉及语音识别技术领域,主要目的在于实现一种能够较好覆盖住宅或建筑物的语音识别方法,提高远场语音识别结果的准确性而发明。本发明实施例的方法包括:采集预设区域内的语音信息,所述语音信息是由所述预设区域内的用户发出的;识别所述语音信息是否为预设语音信息;若是,则通过无线传输将所述语音信息发送至处理端。本发明实施例用于远场语音识别。

Description

远场语音识别方法、装置及系统
技术领域
本发明实施例涉及语音识别技术领域,尤其涉及一种远场语音识别方法、装置及系统。
背景技术
随着技术的不断发展,语音控制技术也不断进步。较以往的控制而言,由于语音控制能够免去操作者的手动控制,较为便捷,这样就使语音控制技术的使用愈发广泛。其中,由于语音控制的前提是需要语音识别技术作为基础的,由此,语音识别技术的发展,也逐步受领域内人士所重视。基于语音发出位置与语音接收设备之间的距离的不同,通常语音识别技术分为远场语音识别和近场语音识别两种,由于远场语音识别能够实现较远距离的语音指令的识别,这就使得远场语音识别技术更为技术专家的重视。
目前,当用户进行远场语音控制时,由于语音识别设备能够识别语音指令的距离有限,当用户位于语音识别设备的识别最大距离的位置或超出该距离时,会导致语音识别出现误差、或者出现识别异常的问题。另外,当用户位于住宅、建筑中时,由于建筑中存在门窗等障碍物,会影响语音识别的准确性,因此,如何能够实现一种能够较好覆盖如住宅或建筑的语音识别方法,成为领域内亟待解决的问题。
发明内容
鉴于上述问题,本发明实施例提供一种远场语音识别方法、装置及系统,主要目的在于实现一种能够较好覆盖住宅或建筑物的语音识别方法,提高远场语音识别结果的准确性。
为解决上述技术问题,第一方面,本发明实施例提供了一种远场语音识别方法,应用于采集端,该方法包括:
采集预设区域内的语音信息,所述语音信息是由所述预设区域内的用户发出的;
识别所述语音信息是否为预设语音信息;
若是,则通过无线传输将所述语音信息发送至处理端。
可选的,所述采集预设区域内的语音信息包括:
当接收到语音信息时,确定是否需要识别所述语音信息。
可选的,所述当接收到语音信息时,确定是否需要识别所述语音信息包括:
将所述语音信息的音量信息发送至处理端,并根据所述处理端反馈信息,确定是否需要识别所述语音信息;
可选的,所述当接收到语音信息时,确定是否需要识别所述语音信息包括:
接收其它采集端反馈的所述语音信息的音量信息,并确定是否需要识别所述语音信息。
第二方面,本发明实施例提供了一种远场语音识别方法,应用于处理端,该方法包括:
通过无线传输接收所述预设区域内的采集端发送的所述语音信息;
将所述语音信息进行解析,得到对应所述语音信息的语音指令;
将所述语音指令传输至智能设备。
可选的,在通过无线传输接收所述预设区域内的采集端发送的所述语音信息之前,所述方法还包括:
接收所述采集端发送的所述语音信息的音量信息;
根据所述语音信息的音量信息,确定用于采集所述语音信息的采集端,并将反馈信息发送至所述用于采集所述语音信息的采集端。
可选的,所述将所述语音指令传输至智能设备,包括:
根据所述语音指令,确定对应所述语音指令的智能设备;
通过无线传输,将所述语音指令发送至对应的智能设备。
第三方面,本发明实施例还提供了一种远场语音识别装置,应用于采集端,该装置包括:
采集单元,用于采集预设区域内的语音信息,所述语音信息是由所述预设区域内的用户发出的;
识别单元,用于识别所述语音信息是否为预设语音信息;
传输单元,用于若所述语音信息为预设语音信息,则通过无线传输将所述语音信息发送至处理端。
可选的,所述采集单元包括:
确定模块,用于当接收到语音信息时,确定是否需要识别所述语音信息。
可选的,所述确定模块包括:
第一确定子模块,用于将所述语音信息的音量信息发送至处理端,并根据所述处理端反馈信息,确定是否需要识别所述语音信息;
第二确定子模块,用于接收其它采集端反馈的所述语音信息的音量信息,并确定是否需要识别所述语音信息。
第四方面,本发明实施例还提供了一种远场语音识别装置,应用于处理端,该装置包括:
第一接收单元,用于通过无线传输接收所述预设区域内的采集端发送的所述语音信息;
解析单元,用于将所述语音信息进行解析,得到对应所述语音信息的语音指令;
传输单元,用于将所述语音指令传输至智能设备。
可选的,所述装置还包括:
第二接收单元,用于接收所述采集端发送的所述语音信息的音量信息;
确定单元,用于根据所述语音信息的音量信息,确定用于采集所述语音信息的采集端,并将反馈信息发送至所述用于采集所述语音信息的采集端。
可选的,所述传输单元,包括:
确定模块,用于根据所述语音指令,确定对应所述语音指令的智能设备;
发送模块,用于通过无线传输,将所述语音指令发送至对应的智能设备。
为了实现上述目的,根据本发明实施例的第五方面,还提供了一种远场语音识别系统,包括:一个处理端,以及至少一个采集端;
所述采集端设置在预设区域内,用于采集预设区域内的语音信息,所述语音信息是由所述预设区域内的用户发出的,并识别所述语音信息是否为预设语音信息,若确定所述语音信息为预设语音信息,则通过无线传输将所述语音信息发送至处理端;
所述处理端用于通过无线传输接收所述预设区域内的采集端发送的所述语音信息,并将所述语音信息进行解析,得到对应所述语音信息的语音指令,再将所述语音指令传输至智能设备。
为了实现上述目的,根据本发明实施例的第六方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述分别应用于采集端及处理端的所述的远场语音识别方法。
为了实现上述目的,根据本发明实施例的第七方面,提供了一种电子设备,所述电子设备包括一个或多个处理器及存储器,其中存储器用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个实现如上述分别应用于采集端及处理端的所述的远场语音识别方法。
借由上述技术方案,本发明实施例提供的远场语音识别方法、装置及系统,对于现有技术中,当用户利用现有技术在进行远场语音识别过程中,易受距离及障碍物的影响,导致识别结果的准确性较差的问题,本发明实施例通过由采集端采集预设区域内的语音信息,并识别所述语音信息是否为预设语音信息,若确定所述语音信息为预设语音信息,则通过无线传输将所述语音信息发送至处理端,然后由处理端通过无线传输接收所述预设区域内的采集端发送的所述语音信息,并将所述语音信息进行解析,得到对应所述语音信息的语音指令,再将所述语音指令传输至智能设备,进而实现了一种基于采集端和处理端双端交互式的语音识别方法,从而能够利用部署在预设区域内的采集端来采集预设区域内的用户的语音信息,并利用无线传输将语音信息发送至处理端,避免了现有的远场语音识别过程中因距离或障碍物导致的识别结果准确性较低的问题,能够覆盖住宅或建筑物中的远场语音识别环境,提高了远场语音识别结果的准确性。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种应用于采集端的远场语音识别方法流程图;
图2示出了本发明实施例提供的一种应用于处理端的远场语音识别方法流程图;
图3示出了本发明实施例提供的另一种远场语音识别方法流程图;
图4示出了本发明实施例提供的一种应用于采集端的远场语音识别装置的组成框图;
图5示出了本发明实施例提供的一种应用于处理端的远场语音识别装置的组成框图;
图6示出了本发明实施例提供的另一种应用于采集端的远场语音识别装置的组成框图;
图7示出了本发明实施例提供的另一种应用于处理端的远场语音识别装置的组成框图;
图8示出了本发明实施例提供的一种远场语音识别系统的组成框图;
图9示出了本发明实施例提供的一种用于远场语音识别的电子设备的组成框图。
具体实施方式
下面将参照附图更详细地描述本发明实施例的示例性实施例。虽然附图中显示了本发明实施例的示例性实施例,然而应当理解,可以以各种形式实现本发明实施例而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明实施例,并且能够将本发明实施例的范围完整的传达给本领域的技术人员。
为了实现一种能够覆盖住宅或建筑物中的远场语音识别方法,提高识别结果的准确性,本发明实施例提供了一种远场语音识别方法,应用于采集端,如图1所示,该方法包括:
101、采集预设区域内的语音信息。
其中,在本发明实施例中,所述语音信息是由所述预设区域内的用户发出的。
通常情况下,当进行远场语音识别时,都有集成采集模块和处理模块的智能音箱或手表进行的。由于此类远场语音识别装备存在识别距离的因素,当用户位于较远的距离时,存在识别效果较差的问题。在本发明实施例中,当用户在预设的区域中发出了语音信息时,可以由部署在用户附近的采集端来采集用户当前发出的语音信息,具体的,采集方式可以包括现有技术中的任意种采集方式来进行,在此并不做具体限定。
但需要说明的是,由于本发明实施例中采集到的是用户的预设区域内发出的,因此在采集的过程中需要确保该语音信息是目标用户所发出的,当然,也可以设定成多个目标用户的目标集合,当目标集合中的任一用户发出语音信息时,都能进行语音信息的采集。具体的,可以根据实际需要选取,但是要确保所采集的语音信息时用户所发出的,以避免噪音等其他语音对远场语音识别的影响。
102、识别所述语音信息是否为预设语音信息。
当步骤101采集到预设区域内用户所发出的语音信息后,由于语音信息的目的在于对相关设备进行控制或唤醒,因此,在本步骤中需要确定用户所发出的语音信息是否为预设的语音信息,其中在本发明实施例中,所述预设的语音信息可以是用户根据需要设定的,也可以是设备厂商在设备中专门默认设置的,在此对于该预设语音信息的种类及数量并不做具体的限定,而是可以根据实际情况来进行选取。
103、若识别出所述语音信息为预设语音信息,则通过无线传输将所述语音信息发送至处理端。
当前述步骤102中采集端识别该用户的语音信息为预设的语音信息,则说明该语音信息是符合条件的语音信息,是需要由处理端进行相应处理,并非无意义的语音信息。因此,在本步骤中需要由采集端将该语音信息进行发送。具体的,可以通过无线传输方式将所述语音信息传输至处理端,在此对于无线传输的方式可以包括但不限于无线局域网、蓝牙等任一种方式,具体的传输方式的选取可以根据实际需要来确定。但需要说明的是,所选取的传输方式需要确保处理端能够识别。
本发明实施例提供的远场语音识别方法,对于现有技术中,当用户利用现有技术在进行远场语音识别过程中,易受距离及障碍物的影响,导致识别结果的准确性较差的问题,本发明实施例采集预设区域内的语音信息,并识别所述语音信息是否为预设语音信息,若确定所述语音信息为预设语音信息,则通过无线传输将所述语音信息发送至处理端,然后由处理端通过无线传输接收所述预设区域内的采集端发送的所述语音信息,并将所述语音信息进行解析,得到对应所述语音信息的语音指令,再将所述语音指令传输至智能设备,进而实现了一种基于采集端和处理端双端交互式的语音识别方法,从而能够利用部署在预设区域内的采集端来采集预设区域内的用户的语音信息,并利用无线传输将语音信息发送至处理端,避免了现有的远场语音识别过程中因距离或障碍物导致的识别结果准确性较低的问题,能够覆盖住宅或建筑物中的远场语音识别环境,提高了远场语音识别结果的准确性。
另一方面,本发明实施例还提供了一种远场语音识别方法,应用于处理端,如图2所示,该方法包括:
201、通过无线传输接收所述预设区域内的采集端发送的所述语音信息。
由于本发明实施例所述的远场语音识别方法是基于采集端和处理端两端进行的,因此,当采集端采集到用户在预设区域中发出的语音信息时,则需要由处理端来接收由采集端所发出的该语音信息。具体的,在本步骤中,可以根据采集端与处理端之间搭建的无线传输连接,以无线传输的方式来接收所述语音信息。其中,所述无线传输可以选取无线局域网或者蓝牙等任一种无线连接方式来进行,在此并不做具体的限定,但是需要说明的是该无线输出的方式要与采集端所选取的无线传输方式相同,以避免造成数据丢失的问题。
202、将所述语音信息进行解析,得到对应所述语音信息的语音指令。
由于远场语音识别的最终目的是要实现预设区域内的语音控制功能,因此,需要根据用户所发出的语音信息来确定该语音信息所对应的语音命令。由此,在本步骤中,处理端可以根据所述语音信息进行解析,解析出对应该语音信息的语音指令。
具体的,对于所述语音信息对应的语音指令,可以根据提前预置的语音指令命令集来进行解析,或者根据系统默认设置的“语音信息-语音指令”映射表来进行。具体的,对于解析方式和解析过程所依照解析规则可以根据实际需要来选取,上述所述的解析方式仅为示例性的,在此并不做具体的设定,可以根据用户实际需要或系统的实际配置来选取对应的解析方式和解析规则。
203、将所述语音指令传输至智能设备。
由于语音指令具有对应的控制功能,因此,当前述步骤202从语音信息中解析出对应的语音指令后,可以根据语音指令的指令功能来确定所需进行控制的智能设备,并将所述语音指令传输至智能设备,以便实现相应设备的功能控制。
本发明实施例提供的远场语音识别方法,对于现有技术中,当用户利用现有技术在进行远场语音识别过程中,易受距离及障碍物的影响,导致识别结果的准确性较差的问题,本发明实施例采集预设区域内的语音信息,并识别所述语音信息是否为预设语音信息,若确定所述语音信息为预设语音信息,则通过无线传输将所述语音信息发送至处理端,然后由处理端通过无线传输接收所述预设区域内的采集端发送的所述语音信息,并将所述语音信息进行解析,得到对应所述语音信息的语音指令,再将所述语音指令传输至智能设备,进而实现了一种基于采集端和处理端双端交互式的语音识别方法,从而能够利用部署在预设区域内的采集端来采集预设区域内的用户的语音信息,并利用无线传输将语音信息发送至处理端,避免了现有的远场语音识别过程中因距离或障碍物导致的识别结果准确性较低的问题,能够覆盖住宅或建筑物中的远场语音识别环境,提高了远场语音识别结果的准确性。
进一步的,作为对图1和图2所示实施例的细化及扩展,本发明实施例还提供了另一种远场语音识别方法,分别应用于采集端和处理端,如图3所示,其具体步骤包括:
301、预设区域内的采集端采集所述预设区域内的语音信息。
在本发明实施例中,所述预设区域、采集端以及语音信息的描述皆与前述实施例步骤101中的描述一致,在此不再赘述。
由于语音信息在空气中传播的过程中,存在衰减的情况,而衰减程度与距离成正比,因此,在进行本发明实施例所述的远场语音识别的过程中,可以基于多个采集端的位置来确定能够采集到最准确语音信息的采集端。因此,在对所述预设区域内的语音信息进行采集时,本步骤具体可以根据所述语音信息的发出位置,确定用于采集所述语音信息的采集端。一般来说,所确定的用于采集所述语音信息的采集端一般为距离用户发出所述语音信息的位置最近的采集端,当然,当存在噪音或者其他因素影响时,还可以根据预设的分配规则来选取用于采集所述预设区域内的语音信息。在此,对于所述语音信息的采集端的选择规律,可以基于位置确定对应的采集端,在此并不做具体的限定。
通常情况下,由于用户发出语音信息时的位置时可能与多个采集端中的某一个采集端的位置最近,这样,在进行远场语音解析的过程中,该采集端所采集的语音信息最为准确,因此,在采集的过程中需要根据采集端的位置确定距离用户发出语音信息位置最近的那个采集端。由于语音传播过程中存在衰减的情况,基于该情况,当采集端采集到了语音信息后,由于可能存在多个采集端都采集到了语音信息,而为了使得后续语音识别的准确性,在本步骤中,可以通过采集端向处理端反馈语音信息的音量信息来进行,基于处理端所反馈的反馈信息,从而可以确定是否由当前的采集端进行后续对该语音信息是否为预设语音信息的识别操作,由此,具体的本步骤可以为:将所述语音信息的音量信息发送至处理端,并根据所述处理端反馈信息,确定是否需要识别所述语音信息。
当然,还可以基于采集端之间的协调方式来进行,具体的则可以为:将所述语音信息的音量信息发送至处理端,并根据所述处理端反馈信息,确定是否需要识别所述语音信息。通过接收到的其他采集端反馈的音量信息与当前采集端的音量信息进行比对。当确定当前采集端所采集的语音信息的音量较大时,则可以有当前的采集端进行后续的语音信息是否为预设语音信息的识别操作。
由此,基于上述所述的方法,可以根据多个采集端所采集的语音信息的音量来确定距离用户发出语音信息的最近的采集端,即本发明实施例所述的用于采集语音信息的采集端。由此,在确定用于采集所述语音信息的采集端过程中可以确保后续语音信息的识别效果的准确性。
由此,通过当接收到语音信息时,确定是否需要识别所述语音信息来实现用于采集语音信息的采集端的确定,能够避免当预设区域内存在多个采集端时,多个采集端采集语音信息造成系统资源浪费及通道带宽占用的问题,进而使远场语音识别过程避免了不必要的资源浪费。另外,当接收到所述语音信息时,通过将所述语音信息的音量信息发送至处理端,并由处理端处理后的反馈信息确定用于采集所述语音信息的采集端,能够确保所选取的采集端的准确性,进而为远场语音识别的后续步骤提供了数据保障。
302、采集端识别所述语音信息是否为预设语音信息。
在通常情况下,可能存在多个语音信息,例如预设区域内的用户在住宅内可能进行交谈,打电话,远程视频等行为。为避免将无意义的语音信息进行采集和发送,减少系统内的资源占用,在本步骤中,需要由采集端识别当前所采集的是否为预设的语音信息,其中,本发明实施例中的预设语音信息可以是用户设定或设备厂商所设定的带有具体语音指令含义或能够触发某种指令的语音信息。在此,对于所述预设语音信息的种类和数量并不做限定,可根据实际情况确定。
303、若采集端识别所述语音信息为预设语音信息,则通过无线传输将所述语音信息发送至处理端。
当前述步骤302中采集端识别所述语音信息为预设语音信息时,则说明该语音信息是具有指令含义的语音信息,需要发送至处理端进行后续处理。因此,可以选取无线传输方式将该语音信息发送至处理端,以便处理端进行后续步骤的处理。其中,本发明实施例中的无线传输方式可以包括无线局域网、蓝牙等任一中传输方式,在此对于所选取的无线传输方式并不做具体的限定,可以根据实际情况确定。
由此,在确定采集端采集的所述语音信息为预设的语音信息时,并通过无线传输发送所述语音信息至处理端,能够实现远端采集用户发出的语音信息的功能,避免了现有技术由于采集端和处理端集成在一个设备中所导致采集用户语音信息的距离较近,当用户位置较远或存在障碍物时语音识别效果较差的问题,提高了远场语音识别结果的准确性。
304、处理端接收所述采集端发送的所述语音信息的音量信息。
在本发明实施例中,当前述步骤301采集端发送了所述语音信息的音量信息时,需要处理端进行接收,其中发送过程可以基于无线传输进行,对于所选取的无线传输方式,可以根据实际需要选取,在此不做限定。
305、处理端根据所述语音信息的音量信息,确定用于采集所述语音信息的采集端,并将反馈信息发送至所述用于采集所述语音信息的采集端。
由于不同的采集端的位置是不同的,因此,当用户发出所述语音信息时,距离不同的采集端的距离也可能并不相同,因此,基于语音在空气中衰减的原理,可以根据不同采集端发送的语音信息的音量信息来确定不同采集端的位置,进而可以确定用来采集用户语音信息的采集端。一般来说,可以根据音量信息的数值大小确定,数值较大,则说明该音量信息对应的采集端与所述语音信息的发出位置较近,进而可以确定由该采集端进行采集能够采集到较为准确的语音信息。
另外,当存在音量信息的数值相同的采集端时,则可以根据系统中默认设置,或利用权重分来确定所需的采集端。当确定用于采集所述语音信息的采集端时,可以通过无线传输进行反馈信息的反馈,然后基于该反馈信息使对应的采集端进行采集操作。
由此,根据本步骤所述的方法,通过处理端接收所述采集端发送的所述语音信息的音量信息,根据所述语音信息的音量信息,确定用于采集所述语音信息的采集端,并将反馈信息发送至所述用于采集所述语音信息的采集端,能够准确的实现对用于采集语音信息的采集端的确定,进而可以整体上提高远场语音识别结果的准确性。
306、处理端通过无线传输接收所述预设区域内的采集端发送的所述语音信息。
在本步骤中,所选取的无线传输方式需与前述步骤中选取的无线传输方式一致,以避免出现数据传输过程中的丢失问题。例如,当前述步骤303采集端进行语音信息传输过程中选取的为无线局域网时,则本步骤汇总所选取用于接收所述语音信息的无线传输方式也需为无线局域网。
307、处理端将所述语音信息进行解析,得到对应所述语音信息的语音指令。
在接收到语音信息后,由于语音信息时具有指令含义的信息,因此,需要将该语音信息进行解析,以便得到具体的控制指令,即本发明实施例所述的语音指令。其中,本步骤中所选择的解析方式即解析过程与前述实施例中步骤202中的描述一致,在此不再一一赘述。
308、处理端将所述语音指令传输至智能设备。
由于语音指令具有对应的控制功能,因此,在从语音信息中解析出对应的语音指令后,可以根据语音指令的指令功能来确定所需进行控制的智能设备,并将所述语音指令传输至智能设备,以实现控制效果。其中,在将所述语音指令传输至智能设备的过程中可以包括一下步骤:
首先,根据所述语音指令,确定对应所述语音指令的智能设备。由于不同的智能设备存在不同的设备功能,因此,在确定了语音指令后,可以基于该指令,确定能够实现该指令功能的智能设备。例如,当用户所发出的语音信息对应的语音指令时开启空调,则可以基于该指令,确定所需控制的智能设备实际为智能空调终端。
然后,通过无线传输,将所述语音指令发送至对应的智能设备。具体的,当确定了所需控制的智能设备后,可以基于无线传输将该无线传输连接中对应的智能设备发送具体的控制指令,以便智能设备根据该控制指令进行相应的响应。
由此,通过语音指令,确定对应所述语音指令的智能设备,并利用无线传输将所述语音指令传输至智能设备,能够准确的实现语音控制智能设备的功能,进而确保了使基于远场语音识别的控制结果的准确性。
进一步的,作为对上述图1所示方法的实现,本发明实施例还提供了一种远场语音识别装置,应用于采集端,用于对上述图1所示的方法进行实现。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图4所示,该装置包括:采集单元41、识别单元42、以及传输单元43,其中
采集单元41,可以用于采集预设区域内的语音信息,所述语音信息是由所述预设区域内的用户发出的;
识别单元42,可以用于识别所述采集单元41采集的语音信息是否为预设语音信息;
传输单元43,可以用于若所述识别单元42识别语音信息为预设语音信息,则通过无线传输将所述语音信息发送至处理端。
进一步的,作为对上述图2所示方法的实现,本发明实施例还提供了一种远场语音识别装置,应用于处理端,用于对上述图2所示的方法进行实现。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图5所示,该装置包括:第一接收单元51、解析单元52、以及传输单元53,其中
第一接收单元51,可以用于通过无线传输接收所述预设区域内的采集端发送的所述语音信息;
解析单元52,可以用于将所述第一接收单元51接收的语音信息进行解析,得到对应所述语音信息的语音指令;
传输单元53,可以用于将所述解析单元52得到的语音指令传输至智能设备。
进一步的,作为对上述图3所示方法的实现,本发明实施例还提供了另一种远场语音识别装置,应用于采集端,用于对上述图3所示的方法进行实现。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图6所示,该装置包括:采集单元61、识别单元62、以及传输单元63,其中
采集单元61,可以用于采集预设区域内的语音信息,所述语音信息是由所述预设区域内的用户发出的;
识别单元62,可以用于识别所述采集单元61采集的语音信息是否为预设语音信息;
传输单元63,可以用于若所述识别单元62识别语音信息为预设语音信息,则通过无线传输将所述语音信息发送至处理端。
进一步的,所述采集单元61包括:
确定模块611,可以用于当接收到语音信息时,确定是否需要识别所述语音信息。
进一步的,所述确定模块611包括:
第一确定子模块6111,可以用于将所述语音信息的音量信息发送至处理端,并根据所述处理端反馈信息,确定是否需要识别所述语音信息;
第二确定子模块6112,可以用于接收其它采集端反馈的所述语音信息的音量信息,并确定是否需要识别所述语音信息。
进一步的,作为对上述图3所示方法的实现,本发明实施例还提供了一种远场语音识别装置,应用于处理端,用于对上述图3所示的方法进行实现。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图7所示,该装置包括:第一接收单元71、解析单元72、以及传输单元73,其中
第一接收单元71,可以用于通过无线传输接收所述预设区域内的采集端发送的所述语音信息;
解析单元72,可以用于将所述第一接收单元71接收的语音信息进行解析,得到对应所述语音信息的语音指令;
传输单元73,可以用于根据所述解析单元72解析出的语音指令,对智能设备进行控制。
进一步的,所述装置还包括:
第二接收单元74,可以用于接收所述采集端发送的所述语音信息的音量信息;
确定单元75,可以用于根据所述第二接收单元74接收的语音信息的音量信息,确定用于采集所述语音信息的采集端,并将反馈信息发送至所述用于采集所述语音信息的采集端。
进一步的,所述传输单元73,包括:
确定模块731,可以用于根据所述语音指令,确定对应所述语音指令的智能设备;
发送模块732,可以用于通过无线传输,将所述语音指令发送至所述确定模块731确定的对应的智能设备。
进一步的,作为对上述图3所示方法的实现,本发明实施例还提供了一种远场语音识别系统,用于对上述图3所示的方法进行实现。该系统的实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的系统能够对应实现前述方法实施例中的全部内容。如图8所示,该系统包括:一个处理端81,以及至少一个采集端82,其中
所述采集端82设置在预设区域内,用于采集预设区域内的语音信息,所述语音信息是由所述预设区域内的用户发出的,并识别所述语音信息是否为预设语音信息,若确定所述语音信息为预设语音信息,则通过无线传输将所述语音信息发送至处理端81;
所述处理端81用于通过无线传输接收所述预设区域内的采集端81发送的所述语音信息,并将所述语音信息进行解析,得到对应所述语音信息的语音指令,再将所述语音指令传输至智能设备。
借由上述技术方案,本发明实施例提供一种远场语音识别方法、装置及系统。对于现有技术中,当用户利用现有技术在进行远场语音识别过程中,易受距离及障碍物的影响,导致识别结果的准确性较差的问题,本发明实施例采集预设区域内的语音信息,并识别所述语音信息是否为预设语音信息,若确定所述语音信息为预设语音信息,则通过无线传输将所述语音信息发送至处理端,然后由处理端通过无线传输接收所述预设区域内的采集端发送的所述语音信息,并将所述语音信息进行解析,得到对应所述语音信息的语音指令,再将所述语音指令传输至智能设备,进而实现了一种基于采集端和处理端双端交互式的语音识别方法,从而能够利用部署在预设区域内的采集端来采集预设区域内的用户的语音信息,并利用无线传输将语音信息发送至处理端,避免了现有的远场语音识别过程中因距离或障碍物导致的识别结果准确性较低的问题,能够覆盖住宅或建筑物中的远场语音识别环境,提高了远场语音识别结果的准确性。
此外,当接收到语音信息时,根据所述处理端反馈信息确定是否需要识别所述语音信息,或者其它采集端反馈的所述语音信息的音量信息确定是否需要识别所述语音信息,可以实现当存在多个采集端时确定用于采集语音信息的采集端,避免当预设区域内存在多个采集端时,多个采集端采集语音信息造成系统资源浪费及通道带宽占用的问题,进而使远场语音识别过程避免了不必要的资源浪费。另外,当接收到所述语音信息时,通过将所述语音信息的音量信息发送至处理端,并由处理端处理后的反馈信息确定用于采集所述语音信息的采集端,能够确保所选取的采集端的准确性,进而为远场语音识别的后续步骤提供了数据保障。另外,在确定采集端采集的所述语音信息为预设的语音信息时,并通过无线传输发送所述语音信息至处理端,能够实现远端采集用户发出的语音信息的功能,避免了现有技术由于采集端和处理端集成在一个设备中所导致采集用户语音信息的距离较近,当用户位置较远或存在障碍物时语音识别效果较差的问题,提高了远场语音识别结果的准确性。并且,通过处理端接收所述采集端发送的所述语音信息的音量信息,根据所述语音信息的音量信息,确定用于采集所述语音信息的采集端,并将反馈信息发送至所述用于采集所述语音信息的采集端,能够准确的实现对用于采集语音信息的采集端的确定,进而可以整体上提高远场语音识别结果的准确性。进一步的,通过语音指令,确定对应所述语音指令的智能设备,并利用无线传输将该设备进行相应的控制,能够准确的实现语音控制智能设备的功能,进而确保了使基于远场语音识别的控制结果的准确性。
进一步的,本发明实施例还提供了一种电子设备的结构框图,用于执行上述任一实施例所述的远场语音识别方法,如图9所示,其中,所述电子设备包括处理器及存储器,上述采集单元、识别单元、以及传输单元等作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。具体的,本发明实施例所述的电子设备中包括:
处理器(processor)901、存储器(memory)902、通信接口(CommunicationsInterface)903和总线904;
其中,
所述处理器901、存储器902、通信接口903通过所述总线904完成相互间的通信;
所述通信接口903用于该测试设备与显示装置的通信设备之间的信息传输;
所述处理器901用于调用所述存储器902中的程序指令,以执行上述各方法实施例所提供的方法。其中,处理器901中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现一种能够较好覆盖住宅或建筑物的语音识别方法,提高远场语音识别结果的准确性。
所述存储器902,可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器902中包括至少一个存储芯片。
进一步的,本发明实施例提还供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述远场语音识别方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (7)

1.一种远场语音识别方法,应用于采集端,所述采集端为多个,其特征在于,包括:
采集预设区域内的语音信息,所述语音信息是由所述预设区域内的用户发出的,进一步包括:接收其它采集端反馈的所述语音信息的音量信息,以进行比对音量大小,并确定是否需要识别所述语音信息;
识别所述语音信息是否为预设语音信息;
若是,则通过无线传输将所述语音信息发送至处理端。
2.根据权利要求1所述的方法,其特征在于,所述采集预设区域内的语音信息包括:
当接收到语音信息时,确定是否需要识别所述语音信息。
3.一种远场语音识别方法,应用于处理端,其特征在于,包括:
通过无线传输接收预设区域内指定采集端发送的语音信息,所述指定采集端是在预设区域内多个采集端中的一个被选择的采集端,所述被选择的采集端是通过接收其它采集端反馈的所述语音信息的音量信息并进行比对音量大小而自动被确定去需要识别所述语音信息;
将所述语音信息进行解析,得到对应所述语音信息的语音指令;
将所述语音指令传输至智能设备。
4.一种远场语音识别装置,应用于采集端,其特征在于,包括:
采集单元,用于采集预设区域内的语音信息,所述语音信息是由所述预设区域内的用户发出的;
所述采集单元包括:确定模块,用于当接收到语音信息时,确定是否需要识别所述语音信息;
所述确定模块包括:第二确定子模块;
所述第二确定子模块,用于接收其它采集端反馈的所述语音信息的音量信息,以进行比对音量大小,并确定是否需要识别所述语音信息;
识别单元,用于识别所述语音信息是否为预设语音信息;
传输单元,用于若所述语音信息为预设语音信息,则通过无线传输将所述语音信息发送至处理端。
5.一种远场语音识别装置,应用于处理端,其特征在于,包括:
第一接收单元,用于通过无线传输接收预设区域内的指定采集端发送的语音信息,所述指定采集端是在预设区域内的一个被选择的采集端,所述被选择的采集端是通过接收其它采集端反馈的所述语音信息的音量信息并进行比对音量大小而自动被确定去需要识别所述语音信息;
解析单元,用于将所述语音信息进行解析,得到对应所述语音信息的语音指令;
传输单元,用于将所述语音指令传输至智能设备。
6.一种远场语音识别系统,其特征在于,包括:一个处理端,以及至少一个采集端;
所述处理端,包括一个或多个处理器,以及存储一个或多个程序的存储器,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求3所述的远场语音识别方法;
所述采集端,包括一个或多个处理器,以及存储一个或多个程序的存储器,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1或2所述的远场语音识别方法。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1-2的任意一项或权利要求3所述的远场语音识别方法。
CN201810541703.3A 2018-05-30 2018-05-30 远场语音识别方法、装置及系统 Active CN108847231B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810541703.3A CN108847231B (zh) 2018-05-30 2018-05-30 远场语音识别方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810541703.3A CN108847231B (zh) 2018-05-30 2018-05-30 远场语音识别方法、装置及系统

Publications (2)

Publication Number Publication Date
CN108847231A CN108847231A (zh) 2018-11-20
CN108847231B true CN108847231B (zh) 2021-02-02

Family

ID=64211027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810541703.3A Active CN108847231B (zh) 2018-05-30 2018-05-30 远场语音识别方法、装置及系统

Country Status (1)

Country Link
CN (1) CN108847231B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111326151A (zh) * 2018-12-14 2020-06-23 上海诺基亚贝尔股份有限公司 用于语音交互的设备、方法及计算机可读介质
CN111128132A (zh) * 2019-12-19 2020-05-08 秒针信息技术有限公司 语音分离方法和装置及系统、存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101179693A (zh) * 2007-09-26 2008-05-14 深圳市丽视视讯科技有限公司 一种会议电视系统的混音处理方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1039888A (ja) * 1996-07-19 1998-02-13 Nec Robotics Eng Ltd 音声認識装置
CN102427418A (zh) * 2011-12-09 2012-04-25 福州海景科技开发有限公司 基于语音识别的智能家居的系统
CN103258417A (zh) * 2012-02-16 2013-08-21 上海博泰悦臻电子设备制造有限公司 通用的声控遥控装置、系统及方法
CN104658536A (zh) * 2015-03-09 2015-05-27 深圳酷派技术有限公司 录音方式切换方法、录音方式切换系统和终端
CN106814639A (zh) * 2015-11-27 2017-06-09 富泰华工业(深圳)有限公司 语音控制系统及方法
CN105810194B (zh) * 2016-05-11 2019-07-05 北京奇虎科技有限公司 待机状态下语音控制信息获取方法和智能终端
CN105897531A (zh) * 2016-06-21 2016-08-24 美的智慧家居科技有限公司 移动终端、家电的语音控制系统及其语音控制方法
CN106128459B (zh) * 2016-06-30 2019-11-26 广东美的制冷设备有限公司 语音控制装置及基于多麦克风的语音控制方法
CN106328137A (zh) * 2016-08-19 2017-01-11 镇江惠通电子有限公司 语音控制方法、装置及系统
CN106710595A (zh) * 2016-11-30 2017-05-24 彭州市运达知识产权服务有限公司 一种智能家电语音控制系统及方法
CN107591151B (zh) * 2017-08-22 2021-03-16 百度在线网络技术(北京)有限公司 远场语音唤醒方法、装置和终端设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101179693A (zh) * 2007-09-26 2008-05-14 深圳市丽视视讯科技有限公司 一种会议电视系统的混音处理方法

Also Published As

Publication number Publication date
CN108847231A (zh) 2018-11-20

Similar Documents

Publication Publication Date Title
EP3340243B1 (en) Method for performing voice control on device with microphone array, and device thereof
CN108962283B (zh) 一种发问结束静音时间的确定方法、装置及电子设备
CN109087632B (zh) 语音处理方法、装置、计算机设备及存储介质
CN108847231B (zh) 远场语音识别方法、装置及系统
CN109407541A (zh) 智能家居设备的控制方法及装置
CN111312253A (zh) 语音控制方法、云端服务器及终端设备
US20230169970A1 (en) Remote controller control method and system, storage medium, and electronic device
CN111312234A (zh) 语音控制方法、云端处理器及终端设备
CN103944983A (zh) 语音控制指令纠错方法和系统
WO2024051823A1 (zh) 管理接待信息的方法以及后端设备
CN116708065B (zh) 智能家居环境下低功耗蓝牙语音控制方法及系统
CN114203176A (zh) 智能设备的控制方法、装置、存储介质及电子装置
CN114171019A (zh) 一种控制方法及装置、存储介质
CN108735214A (zh) 设备的语音控制方法及装置
CN106297783A (zh) 一种语音交互识别智能终端
KR102052510B1 (ko) 음성브리지장치 및 음성인식처리장치, 그리고 그 동작 방법
CN106403176B (zh) 一种调整温度的方法及装置
CN112068510B (zh) 智能设备的控制方法、装置、电子设备及计算机存储介质
CN111583925B (zh) 设备控制方法、智能设备及存储介质
CN106210002B (zh) 控制方法、装置及电子设备
CN113270094A (zh) 一种电器设备控制方法和装置
CN114550719A (zh) 语音控制指令的识别方法和装置、存储介质
CN112867141B (zh) 一种定位控制方法、蓝牙服务节点及电子设备
CN112398889A (zh) 云服务的操作方法和装置以及电子设备
CN113870879A (zh) 智能家电麦克风的共享方法、智能家电和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant