CN110767225A - 一种语音交互方法、装置及系统 - Google Patents

一种语音交互方法、装置及系统 Download PDF

Info

Publication number
CN110767225A
CN110767225A CN201911018880.4A CN201911018880A CN110767225A CN 110767225 A CN110767225 A CN 110767225A CN 201911018880 A CN201911018880 A CN 201911018880A CN 110767225 A CN110767225 A CN 110767225A
Authority
CN
China
Prior art keywords
user
voice
target area
voice information
microphones
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911018880.4A
Other languages
English (en)
Other versions
CN110767225B (zh
Inventor
姜志彬
冯大航
陈孝良
常乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sound Intelligence Technology Co Ltd
Original Assignee
Beijing Sound Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sound Intelligence Technology Co Ltd filed Critical Beijing Sound Intelligence Technology Co Ltd
Priority to CN201911018880.4A priority Critical patent/CN110767225B/zh
Publication of CN110767225A publication Critical patent/CN110767225A/zh
Application granted granted Critical
Publication of CN110767225B publication Critical patent/CN110767225B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/22Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供一种语音交互方法、装置及系统,其中方法包括:接收布置于不同区域的多个麦克风采集的用户语音信息;根据所述多个麦克风采集的用户语音信息,识别用户所处的目标区域;控制所述目标区域内的智能设备与用户进行语音交互。本发明实施例中,用户能够在任意区域内与该区域内的任意智能设备进行语音交互,而无需受限于某个智能设备对应的麦克风位置,使得语音交互方式更为灵活。

Description

一种语音交互方法、装置及系统
技术领域
本发明涉及通信技术领域,尤其涉及一种语音交互方法、装置及系统。
背景技术
随着科技的发展,语音交互技术已经广泛应用于各个领域,其中,语音指令控制技术是一种用户可通过语音指令来控制智能设备的技术,给用户带来更具人性化的体验。
现有技术中,通常是在智能设备上嵌入麦克风,通过该设备上的麦克风来采集用户语音,然后进行语音识别,对该设备进行语音控制,即现有语音控制方案中是一个麦克风对应一个智能设备。
可见,现有语音交互控制方案存在交互方式单一,不够灵活的问题。
发明内容
本发明实施例提供一种语音交互方法、装置及系统,以解决现有语音交互控制方案存在交互方式单一,不够灵活的问题。
为解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种语音交互方法,包括:
接收布置于不同区域的多个麦克风采集的用户语音信息;
根据所述多个麦克风采集的用户语音信息,识别用户所处的目标区域;
控制所述目标区域内的智能设备与用户进行语音交互。
可选的,所述根据所述多个麦克风采集的用户语音信息,识别用户所处的目标区域,包括:
根据每个麦克风接收到用户语音的时间和信号强度,进行声源定位,以确定用户所处的目标区域;或者
根据不同区域的麦克风采集的用户语音信息中的混响参数,以及混响参数与区域的对应关系,确定用户所处的目标区域。
可选的,所述控制所述目标区域内的智能设备与用户进行语音交互,包括:
唤醒所述目标区域内的智能设备,并对所述用户语音信息进行识别;
按照识别的语音指令,对目标智能设备进行控制,其中,所述目标智能设备为所述目标区域内的智能设备。
可选的,所述控制所述目标区域内的智能设备与用户进行语音交互,包括:
对所述用户语音信息进行识别,以确定所述目标区域内的目标智能设备;
唤醒所述目标智能设备,并按照识别的语音指令,对所述目标智能设备进行控制。
可选的,所述根据所述多个麦克风采集的用户语音信息,识别用户所处的目标区域之后,所述方法还包括:
通过所述目标区域内的麦克风采集噪声;
在检测到所述噪声的分贝值超过预设分贝值的情况下,调整所述目标区域内的智能设备所使用的语音识别模型的参数,使得所述语音识别模型的匹配精度由第一匹配精度切换到第二匹配精度,其中,所述第二匹配精度大于所述第一匹配精度。
可选的,所述方法还包括:
在所述目标区域内的智能设备超过预设时长未与用户进行交互的情况下,降低所述预设分贝值。
第二方面,本发明实施例提供一种语音交互装置,包括:
接收模块,用于接收布置于不同区域的多个麦克风采集的用户语音信息;
识别模块,用于根据所述多个麦克风采集的用户语音信息,识别用户所处的目标区域;
语音交互模块,用于控制所述目标区域内的智能设备与用户进行语音交互。
可选的,所述识别模块用于根据每个麦克风接收到用户语音的时间和信号强度,进行声源定位,以确定用户所处的目标区域;或者
所述识别模块用于根据不同区域的麦克风采集的用户语音信息中的混响参数,以及混响参数与区域的对应关系,确定用户所处的目标区域。
可选的,所述语音交互模块包括:
唤醒单元,用于唤醒所述目标区域内的智能设备,并对所述用户语音信息进行识别;
控制单元,用于按照识别的语音指令,对目标智能设备进行控制,其中,所述目标智能设备为所述目标区域内的智能设备。
可选的,所述语音交互模块包括:
识别单元,用于对所述用户语音信息进行识别,以确定所述目标区域内的目标智能设备;
唤醒与控制单元,用于唤醒所述目标智能设备,并按照识别的语音指令,对所述目标智能设备进行控制。
可选的,所述语音交互装置还包括:
采集模块,用于通过所述目标区域内的麦克风采集噪声;
调整模块,用于在检测到所述噪声的分贝值超过预设分贝值的情况下,调整所述目标区域内的智能设备所使用的语音识别模型的参数,使得所述语音识别模型的匹配精度由第一匹配精度切换到第二匹配精度,其中,所述第二匹配精度大于所述第一匹配精度。
可选的,所述语音交互装置还包括:
调节模块,用于在所述目标区域内的智能设备超过预设时长未与用户进行交互的情况下,降低所述预设分贝值。
第三方面,本发明实施例提供一种语音交互系统,包括:
设置在不同区域的多个麦克风,用于采集用户语音信息;
服务器,用于接收所述多个麦克风采集的用户语音信息,并根据所述多个麦克风采集的用户语音信息,识别用户所处的目标区域;控制所述目标区域内的智能设备与用户进行语音交互。
第四方面,本发明实施例提供一种语音交互装置,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述语音交互方法中的步骤。
第五方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述语音交互方法中的步骤。
本发明实施例中,通过接收布置于不同区域的多个麦克风采集的用户语音信息,并根据所述多个麦克风采集的用户语音信息,识别用户所处的目标区域,进而控制所述目标区域内的智能设备与用户进行语音交互。这样,用户能够在任意区域内与该区域内的任意智能设备进行语音交互,而无需受限于某个智能设备对应的麦克风位置,使得语音交互方式更为灵活。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语音交互方法的流程图;
图2是本发明实施例提供的一种语音交互装置的结构示意图;
图3a是本发明实施例提供的一种语音交互装置的语音交互模块的结构示意图;
图3b是本发明实施例提供的另一种语音交互装置的语音交互模块的结构示意图;
图4是本发明实施例提供的另一种语音交互装置的结构示意图;
图5是本发明实施例提供的另一种语音交互装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明实施例提供的一种语音交互方法的流程图,如图1所示,所述方法包括以下步骤:
步骤101、接收布置于不同区域的多个麦克风采集的用户语音信息。
本发明实施例中,可以在不同区域布置多个麦克风,以便于采集用户在任一区域发出的语音信息,所述不同区域可以是某一个范围内的不同空间,例如,可以是一个家庭中的不同房间,如客厅、卧室、厨房、卫生间等,也可以是在公司的不同办公区,如办公室、会议室、茶餐厅等,即可以在每个房间或区域均布置麦克风,且可以按照不同房间或区域的面积,选择布置一个或多个麦克风。
其中,需说明的是,所述多个麦克风可以是由移动式麦克风和固定式麦克风组成,即可以在某些区域布置移动式麦克风,在另一些区域布置固定式麦克风,这样,可便于用户后续根据设备摆放位置变化或需求变化等,改变某些麦克风的位置。
所述多个麦克风也可以是采用分布式麦克风,并可结合其他播放设备,如智能音箱、智能电视机等,通过中央控制器进行控制,组成智能语音交互系统,这样,可通过所述分布式麦克风采集用户语音,并传送至中央控制器进行语音识别,识别后通过智能音箱或电视机等播放设备与用户进行语音互动。
所述多个麦克风均可以与一共同的服务器建立通信连接,当用户在某区域中发出语音信息时,所述多个麦克风均可以采集用户语音信息,并发送至所述服务器,所述服务器在收集所有麦克风上传的用户语音信息后,可以对依据各麦克风采集的用户语音信息,对用户声源进行定位,且可以识别用户语音信息中包含的语音指令。
步骤102、根据所述多个麦克风采集的用户语音信息,识别用户所处的目标区域。
在接收到所述多个麦克风采集的用户语音信息后,便可以依据每个麦克风采集的用户语音信息,对用户声源进行定位,即确定用户处于所述不同区域中的哪个区域,具体地,不同区域的麦克风采集同一位置的语音信息,由于与声源的距离不同,采集得到的语音信息的信号强度、接收时间、噪声干扰等必然会存在差异,故可基于此来确定用户声源位置,进而识别出用户所处的目标区域。例如,当布置于客厅的麦克风采集得到的用户语音信息的信号强度强于处于卧室的麦克风采集到的语音信号强度时,可大致锁定用户处于客厅区域。
也就是说,可以根据所述多个麦克风中每个麦克风接收到用户语音的时间和信号强度,进行声源定位,以确定用户所处的目标区域。其中,当声源距某个区域的麦克风越近,该声源传输到该麦克风的时间也越短,且信号衰减也越少,故该方式中,可通过对比每个麦克风接收到用户语音的时间和信号强度,来确定其中接收到用户语音的时间最短、信号强度最强的麦克风,并将该麦克风所在的区域确定为用户所处的目标区域。
还或者,可基于用户在不同区域发出的语音信息将由于空间分布差异而产生不同的混响,来确定用户所处的目标区域,例如,客厅由于空间很大,产生的混响也会很大,卧室由于空间较小,产生的混响也会偏小,当通过客厅的麦克风采集到的用户语音信息中的混响较大时,可以大致确定用户处于客厅区域。
也就是说,可以根据不同区域的麦克风采集的用户语音信息中的混响参数,以及混响参数与区域的对应关系,确定用户所处的目标区域。具体地,可以预先测试每个区域的麦克风在采集用户在该区域中发出的语音信息时所产生的混响大小,并记录好每个区域的混响大小,这样,依据该测试数据可建立起区域与混响参数的对应关系,例如,混响最大对应的区域为客厅,混响次之对应的区域为卧式,混响最小对应的区域为卫生间,从而在识别用户发声位置时,可依据各麦克风所采集的用户语音信息中的混响大小,来确定用户所处的目标区域。
步骤103、控制所述目标区域内的智能设备与用户进行语音交互。
在识别用户所处的目标区域后,可控制所述目标区域内的智能设备与用户进行语音交互,具体地,对于不同布置方式的语音交互系统,可以有多种不同的控制方式。
第一种可为布置于不同区域的麦克风和所述不同区域内的智能设备均与一中央处理器连接,通过该中央处理器可对所述多个麦克风采集的用户语音信息进行分析处理,以及对不同区域内的智能设备进行控制,如控制某个区域内的智能设备处于唤醒状态或休眠状态,控制某个智能设备执行用户的语音指令等。这样,对于这种连接方式的语音交互系统,可以通过该中央处理器唤醒用户所处目标区域内的所有智能设备,以满足用户需与所述目标区域内的智能设备进行语音交互的需求,即在未接收到所述用户语音信息之前,各区域内的智能设备处于休眠状态,例如,当识别用户处于客厅中时,可唤醒客厅内的智能家电,如空调、电视、净化器、智能音箱、摄像头等,用户可与这些设备中的任一个或多个进行用户交互,如进行语音对话或发出语音控制指令等,实现通过语音即可获得目标信息或控制智能设备执行目标任务等。也可以进一步根据用户语音指令所针对的智能设备,仅唤醒用户所处目标区域内的目标智能设备,如根据用户语音指令唤醒客厅内的电视机。其中,该中央处理器可以是设置在服务器中,也可以单独部署。
第二种可为不同区域内的智能设备分别与一处理器连接,如客厅区域的智能设备与一处理器连接,卧式内的智能设备与另一处理器连接,而所有处理器和不同区域的麦克风均与一中央控制器连接,这样,在识别用户所处目标区域后,可以通过中央控制器唤醒该目标区域对应的处理器,通过该处理器对用户语音信息进行识别,该处理器可以根据识别的用户语音指令进一步唤醒该目标区域内的目标智能设备,从而可以避免误唤醒该目标区域内的无关智能设备。例如,当识别用户处于客厅中时,可以唤醒与客厅的智能设备连接的处理器,并通过该处理器对用户语音信息进行识别,然后根据识别的语音指令唤醒客厅中对应的智能设备。
或者,不同区域内的智能设备和麦克风分别与一处理器连接,在接收到用户语音信息后,各区域内的处理器可以依据各麦克风接收的用户语音信息对用户所处区域进行定位,这样,在识别用户所处目标区域后,可以通过目标区域对应的处理器对用户语音信息进行识别,进而根据识别的用户语音指令进一步唤醒目标区域内的目标智能设备。
第三种可为每个智能设备中均设置有独立的处理器,在确定用户所处目标区域后,所述目标区域内的智能设备可分别通过自身的处理器识别用户语音信息,得到对应的语音控制指令,并可根据该控制指令的具体内容决定是否需执行。
可选的,步骤103包括:
唤醒所述目标区域内的智能设备,并对所述用户语音信息进行识别;
按照识别的语音指令,对目标智能设备进行控制,其中,所述目标智能设备为所述目标区域内的智能设备。
该实施方式中,所述多个麦克风和所述不同区域内的智能设备均可以与一中央处理器连接,通过该中央处理器可分别对每个不同区域内的智能设备进行控制,或者,也可以是不同区域内的智能设备分别与一处理器连接,从而可通过用户所处区域内的处理器来控制对应区域内的智能设备。
该实施方式中,在识别用户所处的目标区域后,可通过中央处理器或所述目标区域对应的处理器唤醒所述目标区域内的智能设备,使所述目标区域内的智能设备进入工作状态,即在未接收到所述用户语音信息之前,所述目标区域内的智能设备可处于休眠状态,即低功耗运转状态,在所述目标区域内的智能设备被唤醒后,可对用户语音信息进行识别,具体可以是对所述用户语音信息进行解析,将所述用户语音信息转换成文字,并提取其中的关键信息,得到所述语音信息中包含的语音指令,例如,若所述用户语音信息为“今天天气有点热,将空调温度调节为26度”,则可以识别其中的语音指令为“调节空调温度至26度”。
然后,可按照识别的语音指令,对目标智能设备进行控制,其中,所述目标智能设备为处于所述目标区域内的智能设备,且是所述语音指令中所指示控制的智能设备,即可以通过对所述用户语音信息的识别中得到用户期望控制的智能设备,例如,识别的语音指令为“调节空调温度至26度”,则可以确定目标智能设备为空调,从而可以按照该语音指令,将客厅的空调的温度调节为26度。
当然,在唤醒所述目标区域内的智能设备后,用户还可以继续发出其他语音指令,以控制所述目标区域内的其他智能设备,例如,发出“播放音乐晴天”的语音指令,以控制客厅内的智能音箱播放音乐“晴天”,用户也可以发出与某个智能设备进行交互的语音信息,例如,发出“嗨,小V,今天天气如何”的语音指令,智能音箱在识别后,可搜索今天的天气,并回复“今天天气晴朗,温度为28度”的语音播报消息。
这样,用户可在某区域内发出语音消息,来唤醒该区域内的智能设备,并能够通过语音指令控制该区域内的任意智能设备,语音交互方式灵活。
此外,本发明实施例中,若检测到用户长时间没有发出语音指令,则可以控制所述目标区域内的智能设备再次进入休眠状态,以节省功耗。
可选的,步骤103包括:
对所述用户语音信息进行识别,以确定所述目标区域内的目标智能设备;
唤醒所述目标智能设备,并按照识别的语音指令,对所述目标智能设备进行控制。
该实施方式中,不同区域内的智能设备可分别与一处理器连接,从而可通过用户所处区域内的处理器来识别用户语音,并控制该区域内的目标智能设备,或者每个智能设备中均设置有独立的处理器,处于所述目标区域内的智能设备的处理器均可以对用户语音信息进行识别,进而确定所述用户语音信息所针对的目标智能设备。
故在识别用户所处目标区域后,可以通过与所述目标区域内的智能设备连接的处理器对用户语音信息进行识别,或者分别通过所述目标区域内的每个智能设备的处理器对用户语音信息进行识别,以确定用户语音信息所针对的目标智能设备,其中,所述目标智能设备为处于所述目标区域内的智能设备,然后,可以仅唤醒所述目标智能设备,以通过所述目标智能设备执行所识别的语音指令。
这样,通过仅唤醒用户语音信息中所针对的目标智能设备,可避免误唤醒所述目标区域内的无关智能设备,达到节省功耗的目的。
可选的,步骤102之后,所述方法还包括:
通过所述目标区域内的麦克风采集噪声;
在检测到所述噪声的分贝值超过预设分贝值的情况下,调整所述目标区域内的智能设备所使用的语音识别模型的参数,使得所述语音识别模型的匹配精度由第一匹配精度切换到第二匹配精度,其中,所述第二匹配精度大于所述第一匹配精度。
该实施方式中,在识别用户所处目标区域后,还可以通过所述目标区域内的麦克风采集噪声,并检测所采集的噪声大小,以获得当前用户所处区域内的语音环境信息,若检测到所述噪声的分贝值超过预设分贝值,则可确定当前所述目标区域内受噪声干扰较大,其中,所述预设分贝值可根据语音识别中的实际情况设定。
在所述目标区域内受噪声干扰较大的情况下,为避免误识别用户语音信息,可调整所述目标区域内的智能设备所使用的语音识别模型的匹配参数,以提高所述语音识别模型的匹配精度,如将所述语音识别模型的匹配精度由第一匹配精度切换到第二匹配精度,例如,在第一匹配精度下,只要用户语音信息与所述语音识别模型中的预设语音信息的匹配程度达到第一预设值,便会执行该语音信息中的语音指令,而在第二匹配精度下,需要用户语音信息与所述语音识别模型中的预设语音信息的匹配程度达到第二预设值,才会执行该语音信息中的语音指令,所述第一预设值低于所述第二预设值。
或者,为避免误唤醒所述目标区域内的智能设备,也可以是在检测到所述噪声的分贝值超过预设分贝值的情况下,调整所述目标区域内的智能设备所使用的语音识别模型的唤醒参数,以使所述语音识别模型进入较难唤醒状态,即用户输入的语音信息中的唤醒语音需与预设唤醒语音的匹配程度更高才能唤醒所述目标区域内的智能设备。
需说明的是,在提高所述语音识别模型的匹配精度或唤醒难度后,若用户输入的语音信息与所述语音识别模型中的预设语音信息匹配成功,或成功唤醒所述目标区域内的智能设备,则可以稍降低所述语音识别模型的匹配精度以提高语音交互效果,或稍降低所述语音识别模型的唤醒难度,以提高唤醒率。
可选的,所述方法还包括:
在所述目标区域内的智能设备超过预设时长未与用户进行交互的情况下,降低所述预设分贝值。
该实施方式中,在所述目标区域内的智能设备超过预设时长未与用户进行交互的情况下,即若超过预设时长未检测到用户语音信息,则可以降低所述预设分贝值,使得所述目标区域内的智能设备所使用的语音识别模型在检测到更小噪声的情况下,便会提高所述语音识别模型的匹配精度,以避免误将非用户语音信息如噪声识别为用户语音,或提高所述语音识别模型的唤醒难度,以降低误唤醒率,其中,所述预设时长可以根据用户需求设定。
本实施例中的语音交互方法,通过接收布置于不同区域的多个麦克风采集的用户语音信息,并根据所述多个麦克风采集的用户语音信息,识别用户所处的目标区域,进而唤醒所述目标区域内的智能设备,并通过所述目标区域内的智能设备与用户进行语音交互。这样,用户能够在任意区域内与该区域内的任意智能设备进行语音交互,而无需受限于某个智能设备对应的麦克风位置,使得语音交互方式更为灵活。
参见图2,图2是本发明实施例提供的一种语音交互装置的结构示意图,如图2所示,语音交互装置200包括:
接收模块201,用于接收布置于不同区域的多个麦克风采集的用户语音信息;
识别模块202,用于根据所述多个麦克风采集的用户语音信息,识别用户所处的目标区域;
语音交互模块203,用于控制所述目标区域内的智能设备与用户进行语音交互。
可选的,识别模块202用于根据每个麦克风接收到用户语音的时间和信号强度,进行声源定位,以确定用户所处的目标区域;或者
识别模块202用于根据不同区域的麦克风采集的用户语音信息中的混响参数,以及混响参数与区域的对应关系,确定用户所处的目标区域。
可选的,如图3a所示,语音交互模块203包括:
唤醒单元2031,用于唤醒所述目标区域内的智能设备,并对所述用户语音信息进行识别;
控制单元2032,用于按照识别的语音指令,对目标智能设备进行控制,其中,所述目标智能设备为所述目标区域内的智能设备。
可选的,如图3b所示,语音交互模块203包括:
识别单元2033,用于对所述用户语音信息进行识别,以确定所述目标区域内的目标智能设备;
唤醒与控制单元2034,用于唤醒所述目标智能设备,并按照识别的语音指令,对所述目标智能设备进行控制。
可选的,如图4所示,语音交互装置200还包括:
采集模块204,用于通过所述目标区域内的麦克风采集噪声;
调整模块205,用于在检测到所述噪声的分贝值超过预设分贝值的情况下,调整所述目标区域内的智能设备所使用的语音识别模型的参数,使得所述语音识别模型的匹配精度由第一匹配精度切换到第二匹配精度,其中,所述第二匹配精度大于所述第一匹配精度。
可选的,如图5所示,语音交互装置200还包括:
调节模块206,用于在所述目标区域内的智能设备超过预设时长未与用户进行交互的情况下,降低所述预设分贝值。
语音交互装置200能够实现图1的方法实施例中的各个过程,为避免重复,这里不再赘述。本发明实施例的语音交互装置200可以通过接收布置于不同区域的多个麦克风采集的用户语音信息,并根据所述多个麦克风采集的用户语音信息,识别用户所处的目标区域,进而控制所述目标区域内的智能设备与用户进行语音交互。这样,用户能够在任意区域内与该区域内的任意智能设备进行语音交互,而无需受限于某个智能设备对应的麦克风位置,使得语音交互方式更为灵活。
本发明实施例还提供一种语音交互系统,包括:
设置在不同区域的多个麦克风,用于采集用户语音信息;
服务器,用于接收所述多个麦克风采集的用户语音信息,并根据所述多个麦克风采集的用户语音信息,识别用户所处的目标区域;控制所述目标区域内的智能设备与用户进行语音交互。
本发明实施例中的多个麦克风能够采集用户在任一区域中发出的语音信息,并发送至服务器,本发明实施例中的服务器能够实现图1的方法实施例中的各个过程,具体实施方式可参见前述方法实施例中的相关介绍,为避免重复,这里不再赘述。
本发明实施例中的语音交互系统,通过设置在不同区域的多个麦克风采集用户语音信息,并通过服务器接收布置于不同区域的多个麦克风采集的用户语音信息,并根据所述多个麦克风采集的用户语音信息,识别用户所处的目标区域,进而控制所述目标区域内的智能设备与用户进行语音交互。这样,用户能够在任意区域内与该区域内的任意智能设备进行语音交互,而无需受限于某个智能设备对应的麦克风位置,使得语音交互方式更为灵活。
本发明实施例还提供一种语音交互装置,包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述语音交互方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述语音交互方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (10)

1.一种语音交互方法,其特征在于,包括:
接收布置于不同区域的多个麦克风采集的用户语音信息;
根据所述多个麦克风采集的用户语音信息,识别用户所处的目标区域;
控制所述目标区域内的智能设备与用户进行语音交互。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个麦克风采集的用户语音信息,识别用户所处的目标区域,包括:
根据每个麦克风接收到用户语音的时间和信号强度,进行声源定位,以确定用户所处的目标区域;或者
根据不同区域的麦克风采集的用户语音信息中的混响参数,以及混响参数与区域的对应关系,确定用户所处的目标区域。
3.根据权利要求1或2所述的方法,其特征在于,所述控制所述目标区域内的智能设备与用户进行语音交互,包括:
唤醒所述目标区域内的智能设备,并对所述用户语音信息进行识别;
按照识别的语音指令,对目标智能设备进行控制,其中,所述目标智能设备为所述目标区域内的智能设备。
4.根据权利要求1或2所述的方法,其特征在于,所述控制所述目标区域内的智能设备与用户进行语音交互,包括:
对所述用户语音信息进行识别,以确定所述目标区域内的目标智能设备;
唤醒所述目标智能设备,并按照识别的语音指令,对所述目标智能设备进行控制。
5.根据权利要求1或2所述的方法,其特征在于,所述根据所述多个麦克风采集的用户语音信息,识别用户所处的目标区域之后,所述方法还包括:
通过所述目标区域内的麦克风采集噪声;
在检测到所述噪声的分贝值超过预设分贝值的情况下,调整所述目标区域内的智能设备所使用的语音识别模型的参数,使得所述语音识别模型的匹配精度由第一匹配精度切换到第二匹配精度,其中,所述第二匹配精度大于所述第一匹配精度。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在所述目标区域内的智能设备超过预设时长未与用户进行交互的情况下,降低所述预设分贝值。
7.一种语音交互装置,其特征在于,包括:
接收模块,用于接收布置于不同区域的多个麦克风采集的用户语音信息;
识别模块,用于根据所述多个麦克风采集的用户语音信息,识别用户所处的目标区域;
语音交互模块,用于控制所述目标区域内的智能设备与用户进行语音交互。
8.一种语音交互系统,其特征在于,包括:
设置在不同区域的多个麦克风,用于采集用户语音信息;
服务器,用于接收所述多个麦克风采集的用户语音信息,并根据所述多个麦克风采集的用户语音信息,识别用户所处的目标区域;控制所述目标区域内的智能设备与用户进行语音交互。
9.一种语音交互装置,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的语音交互方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的语音交互方法中的步骤。
CN201911018880.4A 2019-10-24 2019-10-24 一种语音交互方法、装置及系统 Active CN110767225B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911018880.4A CN110767225B (zh) 2019-10-24 2019-10-24 一种语音交互方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911018880.4A CN110767225B (zh) 2019-10-24 2019-10-24 一种语音交互方法、装置及系统

Publications (2)

Publication Number Publication Date
CN110767225A true CN110767225A (zh) 2020-02-07
CN110767225B CN110767225B (zh) 2022-05-24

Family

ID=69333409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911018880.4A Active CN110767225B (zh) 2019-10-24 2019-10-24 一种语音交互方法、装置及系统

Country Status (1)

Country Link
CN (1) CN110767225B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583928A (zh) * 2020-05-09 2020-08-25 宁波奥克斯电气股份有限公司 设备控制方法及相关装置
CN113488055A (zh) * 2020-04-28 2021-10-08 海信集团有限公司 一种智能交互方法、服务器及智能交互设备
CN113593576A (zh) * 2021-08-30 2021-11-02 北京声智科技有限公司 一种语音交互设备、系统、方法、云端服务器和存储介质
CN113611305A (zh) * 2021-09-06 2021-11-05 云知声(上海)智能科技有限公司 自主学习家居场景下的语音控制方法、系统、设备及介质
CN114582335A (zh) * 2020-11-30 2022-06-03 博泰车联网科技(上海)股份有限公司 车辆信息交互方法及相关装置
CN114974239A (zh) * 2022-05-14 2022-08-30 云知声智能科技股份有限公司 一种语音交互方法、装置、电子设备和存储介质
CN118413509A (zh) * 2024-07-01 2024-07-30 南京维赛客网络科技有限公司 虚拟会场中跨语音区无缝对话的方法、系统及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1619642A (zh) * 2004-11-24 2005-05-25 王逸驰 合成器中的多维矢量合成技术
CN105580076A (zh) * 2013-03-12 2016-05-11 谷歌技术控股有限责任公司 用于听觉上表征电子设备所处的环境的方法和装置
CN106548772A (zh) * 2017-01-16 2017-03-29 上海智臻智能网络科技股份有限公司 语音识别测试系统及方法
CN108831468A (zh) * 2018-07-20 2018-11-16 英业达科技有限公司 智能语音控制管理系统及其方法
CN109308908A (zh) * 2017-07-27 2019-02-05 深圳市冠旭电子股份有限公司 一种语音交互方法及装置
CN110070868A (zh) * 2019-04-28 2019-07-30 广州小鹏汽车科技有限公司 车载系统的语音交互方法、装置、汽车和机器可读介质
CN110199254A (zh) * 2017-01-30 2019-09-03 昕诺飞控股有限公司 用于控制多个光源的控制器

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1619642A (zh) * 2004-11-24 2005-05-25 王逸驰 合成器中的多维矢量合成技术
CN105580076A (zh) * 2013-03-12 2016-05-11 谷歌技术控股有限责任公司 用于听觉上表征电子设备所处的环境的方法和装置
CN106548772A (zh) * 2017-01-16 2017-03-29 上海智臻智能网络科技股份有限公司 语音识别测试系统及方法
CN110199254A (zh) * 2017-01-30 2019-09-03 昕诺飞控股有限公司 用于控制多个光源的控制器
CN109308908A (zh) * 2017-07-27 2019-02-05 深圳市冠旭电子股份有限公司 一种语音交互方法及装置
CN108831468A (zh) * 2018-07-20 2018-11-16 英业达科技有限公司 智能语音控制管理系统及其方法
CN110070868A (zh) * 2019-04-28 2019-07-30 广州小鹏汽车科技有限公司 车载系统的语音交互方法、装置、汽车和机器可读介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113488055A (zh) * 2020-04-28 2021-10-08 海信集团有限公司 一种智能交互方法、服务器及智能交互设备
CN113488055B (zh) * 2020-04-28 2024-03-08 海信集团有限公司 一种智能交互方法、服务器及智能交互设备
CN111583928A (zh) * 2020-05-09 2020-08-25 宁波奥克斯电气股份有限公司 设备控制方法及相关装置
CN114582335A (zh) * 2020-11-30 2022-06-03 博泰车联网科技(上海)股份有限公司 车辆信息交互方法及相关装置
CN113593576A (zh) * 2021-08-30 2021-11-02 北京声智科技有限公司 一种语音交互设备、系统、方法、云端服务器和存储介质
CN113611305A (zh) * 2021-09-06 2021-11-05 云知声(上海)智能科技有限公司 自主学习家居场景下的语音控制方法、系统、设备及介质
CN114974239A (zh) * 2022-05-14 2022-08-30 云知声智能科技股份有限公司 一种语音交互方法、装置、电子设备和存储介质
CN118413509A (zh) * 2024-07-01 2024-07-30 南京维赛客网络科技有限公司 虚拟会场中跨语音区无缝对话的方法、系统及存储介质
CN118413509B (zh) * 2024-07-01 2024-09-17 南京维赛客网络科技有限公司 虚拟会场中跨语音区无缝对话的方法、系统及存储介质

Also Published As

Publication number Publication date
CN110767225B (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
CN110767225B (zh) 一种语音交互方法、装置及系统
CN106910500B (zh) 对带麦克风阵列的设备进行语音控制的方法及设备
CN111223497B (zh) 一种终端的就近唤醒方法、装置、计算设备及存储介质
CN110085233B (zh) 语音控制方法及其装置、电子设备和计算机可读存储介质
CN106898348B (zh) 一种出声设备的去混响控制方法和装置
EP3517849B1 (en) Household appliance control method, device and system, and intelligent air conditioner
CN108231079B (zh) 用于控制电子设备的方法、装置、设备以及计算机可读存储介质
CN107450390B (zh) 一种智能家电控制装置、控制方法及控制系统
CN109450747B (zh) 一种唤醒智能家居设备的方法、装置及计算机存储介质
CN110827818A (zh) 一种智能语音设备的控制方法、装置、设备及存储介质
CN104538030A (zh) 一种可以通过语音控制家电的控制系统与方法
CN109308908A (zh) 一种语音交互方法及装置
CN110808886A (zh) 一种语音设备的控制方法、装置、存储介质及语音设备
CN112311635B (zh) 语音打断唤醒方法、装置及计算机可读存储介质
CN111477230A (zh) 一种智能音箱系统、智能音箱系统的控制方法及存储介质
CN113096658A (zh) 一种终端设备及其唤醒方法、装置和计算机可读存储介质
CN108932947B (zh) 语音控制方法及家电设备
CN110716444A (zh) 一种基于智能家居的声音控制方法、装置和存储介质
CN112086097A (zh) 语音终端的指令响应方法、电子设备及计算机存储介质
CN113593544A (zh) 设备的控制方法和装置、存储介质及电子装置
CN112838967B (zh) 主控设备、智能家居及其控制装置、控制系统及控制方法
CN113593548A (zh) 智能设备的唤醒方法和装置、存储介质及电子装置
CN113138559A (zh) 设备交互方法、装置、电子设备及存储介质
CN112634922A (zh) 语音信号处理方法、设备及计算机可读存储介质
CN116386623A (zh) 一种智能设备的语音交互方法、存储介质及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant