CN113506568B - 中控及智能设备控制方法 - Google Patents

中控及智能设备控制方法 Download PDF

Info

Publication number
CN113506568B
CN113506568B CN202010352339.3A CN202010352339A CN113506568B CN 113506568 B CN113506568 B CN 113506568B CN 202010352339 A CN202010352339 A CN 202010352339A CN 113506568 B CN113506568 B CN 113506568B
Authority
CN
China
Prior art keywords
user
intelligent device
target object
audio stream
intelligent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010352339.3A
Other languages
English (en)
Other versions
CN113506568A (zh
Inventor
刘帅帅
高雪松
王月岭
王彦芳
唐至威
陈维强
孟卫明
蒋鹏民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Co Ltd
Original Assignee
Hisense Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Co Ltd filed Critical Hisense Co Ltd
Priority to CN202010352339.3A priority Critical patent/CN113506568B/zh
Publication of CN113506568A publication Critical patent/CN113506568A/zh
Application granted granted Critical
Publication of CN113506568B publication Critical patent/CN113506568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2816Controlling appliance services of a home automation network by calling their functionalities
    • H04L12/282Controlling appliance services of a home automation network by calling their functionalities based on user interaction within the home
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本申请公开了一种中控及智能设备控制方法。实施应用中,可通过中控对多个智能设备进行协调,以使多个智能设备能够自动的为用户提供服务来提高智能设备的资源利用率。如本申请中,中控控制第一智能设备为目标对象播放音频流,并监测目标对象的当前位置信息;若目标对象的当前位置信息处于第一智能设备负责的播放范围之外时,查找播放范围包含目标对象的当前位置信息的第二智能设备;若音频流未播放完毕,则控制第二智能设备继续播放音频流。由此,实现用户在移动后由第二智能设备接力为用户播报音频。

Description

中控及智能设备控制方法
技术领域
本申请涉及音频信息处理技术领域,特别涉及一种中控及智能设备控制方法。
背景技术
当前智能设备已经成为智慧家庭的人机交互入口,一户家庭拥有多个智能设备的场景也是未来智慧家庭发展的必然趋势。
智能设备能够和用户进行语音交互,来播放用户点播的音乐、电子书等。如何能够进一步提高智能设备的利用率更好的实现人机交互,成为业界一直关心的问题。
发明内容
本申请的目的是提供一种中控及智能设备控制方法,以提升提高智能设备的处理资源的利用率。
根据示例性的实施方式中的一个方面,提供一种中控,包括:处理器和存储器;
所述处理器,与所述存储器连接,被配置为:
控制第一智能设备为目标对象播放音频流,并监测所述目标对象的当前位置信息;
若所述目标对象的当前位置信息处于所述第一智能设备负责的播放范围之外时,查找播放范围包含所述目标对象的当前位置信息的第二智能设备;
若所述音频流未播放完毕,则控制所述第二智能设备继续播放所述音频流。
基于上述中控,本申请实施例还提供一种智能设备控制方法,所述方法包括:
控制第一智能设备为目标对象播放音频流,并监测所述目标对象的当前位置信息;
若所述目标对象的当前位置信息处于所述第一智能设备负责的播放范围之外时,查找播放范围包含所述目标对象的当前位置信息的第二智能设备;
若所述音频流未播放完毕,则控制所述第二智能设备继续播放所述音频流。
其中,在一个实施例中,在所述控制第一智能设备为目标对象播放音频流之前,所述方法还包括:
获取第三智能设备发送的语音信息;
对所述第三智能设备发送的语音信息进行语义解析,识别用户意图;
若所述用户意图为向所述目标对象传递信息,则获取所述目标对象的位置;
查找播放范围包含所述目标对象的位置的智能设备作为所述第一智能设备。
其中,在一个实施例中,所述方法还包括:
根据所述用户意图合成所述音频流,其中,所述音频流用于向所述目标对象传递所述用户意图表达的用户需求。
其中,在一个实施例中,采用房间标签表示所述目标对象的当前位置信息;所述监测所述目标对象的当前位置信息,包括:
获取射频读卡器上报的所述目标对象进入的房间标签;
将所述目标对象进入的房间标签与预先记录的所述第一智能设备所在的房间标签进行比对;
其中,若比对结果为所述目标对象进入的房间标签与所述第一智能设备所在的房间标签不一致时表示所述目标对象的当前位置信息处于所述第一智能设备负责的播放范围之外。
本申请实施例中,在中控的控制下,可以根据用户的移动轨迹为用户选择合适的智能设备播放音频,一方面能够智能化的为用户提供更好的服务。另一方便,避免用户在跨房间移动后,由于需要重新唤醒智能设备而重复执行唤醒操作,以此能够节约中控和智能设备的处理资源,提高资源利用率。当智能设备能够帮助一个用户向另一个用户传递用户需求时,随着用户的移动,需要传递的需求仍能够有效的进行传递,从而还能够进一步拓展智能设备能够提供的服务功能,提高智能设备资源的利用率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,显而易见地,下面所介绍的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本申请一个实施例的应用场景示意图;
图2a为根据本申请一个实施例的中控的结构示意图;
图2b为根本申请一个实施例的智能设备的结构示意图;
图3为根据本申请一个实施例的智能设备控制方法的流程示意图;
图4为根据本申请一个实施例的智能设备控制方法的另一流程示意图;
图5为根据本申请一个实施例的智能设备控制方法中的唤醒智能设备的示意图;
图6为根据本申请一个实施例的智能设备控制方法中的进行室内定位的示意图;
图7-图9为根据本申请一个实施例的智能设备控制方法的流程示意图;
图10为根据本申请一个实施例的智能设备控制方法中的用户移动前后进行播报的示意图;
图11为根据本申请一个实施例的智能设备控制方法的流程示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。其中,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
并且,在本申请实施例的描述中,除非另有说明,″/″表示或的意思,例如,A/B可以表示A或B;文本中的″和/或″仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,另外,在本申请实施例的描述中,″多个″是指两个或多于两个。
以下,术语″第一″、″第二″、″第三″、″第四″仅用于描述目的,而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有″第一″、″第二″、″第三″、″第四″的特征可以明示或者隐合地包括一个或者更多个该特征,在本申请实施例的描述中,除非另有说明,″多个″的含义是两个或两个以上。
如图1所示示出了本申请实施例提供的中控的应用场景示意图。在该应用场景中,包括多个智能设备10、中控20、云端服务器30以及室内定位模块40。其中,各个智能设备10通过无线传输的方式连接到中控。中控与云服务器可以通过公网进行交互。云端服务器可以为中控提供音频资源。
在一个实施例中,可以每个房间配置一个智能设备10。智能设备10除了具有语音采集器之外,还可集成声源定位、唤醒得分和声强检测等功能。其中,声强可通过声强传感器检测得到,声源位置可通过智能设备10的处理器对采集的音频以及获取的声强等信息进行分析得到。这些功能能够提供额外的语音描述信息,以便于中控20进行决策。例如,用户语音唤醒智能设备10时,采集到用户语音的智能设备10可通过网络将语音信息、以及唤醒得分、语音信号的声强和声源位置三种信息中的至少一种信息发送到中控20。中控依据唤醒得分、唤醒音频声强以及用声源位置三种信息中的至少一种信息可以决策出一个被唤醒的智能设备来响应用户。例如,被唤醒的智能设备可以播放″请问有什么需求″,或者直接播放用户要求播放的音频资源来响应用户。而未被唤醒的智能设备仍处于待唤醒状态或休眠状态。当用户对被唤醒的智能设备继续执行语音控制,被唤醒的智能设备会将会继续采集用户的语音信息并发送给中控,由中控对语音信息进行语音转文本,语义理解来响应用户的需求。例如,中控除了能够根据语义理解去云端服务器调取云端资源供智能设备播放之外,本申请实施例中为了能够提高智能设备的资源利用率,还添加了多智能设备协同交互功能。例如,可通过定位模块获知每个用户的位置,在此基础上,如下两种场景可完成多智能设备的协同交互。
场景一:当用户在收听智能设备播放的音乐或电子书时,如果用户跨房间活动,可以根据用户的移动轨迹,由用户依序经过的各个房间的智能设备接续为用户播放音乐或电子书。例如,用户所在的第一个房间开始播放音乐,用户由第一个房间进入第二个房间后,第二个房间继续为用户播放音乐,第一个房间的智能设备可进入待唤醒状态。
场景二、用户可以通过智能设备向其他房间的用户传递自身的需求。例如,用户A在厨房做饭,用户B此时如果有需求,可以对用户B所在的房间的智能设备发出″请用户A帮忙倒杯水″的语音控制指令,此时智能设备将用户B的语音信息传递给中控,中控可以解析出需要将用户B的需求传递给用户A,并根据定位模块上报的用户A的位置信息,确定用户A在厨房,并唤醒厨房的智能设备播报用户B的需求,一遍用户A得知用户B的需求后为用户B送杯水。
由此,本申请实施例中,可以通过中控协调多个智能设备协同工作。使得智能设备的适用场景不局限于傻瓜式的播报音频资源。
图2a示出了中控20的一种结构示意图。
应该理解的是,图2a所示中控20仅是一个范例,并且中控20可以具有比图2a中所示的更多的或者更少的部件,可以组合两个或多个的部件,或者可以具有不同的部件配置。图2a中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
如图2a所示,本申请实施例中控20的硬件配置框图,中控可以为一台主机。如图所示,可包括:处理器201、存储器202、收发机203以及总线接口204。
收发机203用于收发信号,例如可通过无线网络接收智能设备上报的信息,并通过公网和云端服务器交互。收发机203还可用于与室内定位模块40通过射频进行交互以获取各用户的位置信息。
处理器201负责管理总线架构和通常的处理,存储器202可以存储处理器201在执行操作时所使用的数据。收发机203用于在处理器201的控制下接收和发送数据。
总线架构可以包括任意数量的互联的总线和桥,具体由处理器201代表的一个或多个处理器和存储器202代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起。总线接口提供接口。处理器201负责管理总线架构和通常的处理,存储器202可以存储处理器201在执行操作时所使用的数据。
本申请实施例揭示的流程,可以应用于处理器201中,或者由处理器201实现。在实现过程中,智能设备控制流程的各步骤可以通过处理器201中的硬件的集成逻辑电路或者软件形式的指令完成。处理器201可以是通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器202,处理器201读取存储器202中的信息,结合其硬件完成智能设备控制流程的步骤。
在另一个实施例中,当多个智能设备组网时,中控20也可以是多个智能设备组网后选举出的一个主控智能设备。
如图2b所示,为智能设备10的一个配置框图。例如可以包括:存储器120、传感器130、通信单元150、处理器160、以及电源180等部件。
通信单元150可用于在收发信息中复杂信号的接收和发送,可以接收智能设备上报的数据后交给处理器160处理;可以将音频资源获取指令发送给云端服务器,并从云端服务器接收音频资源。其中,通信单元150可进一步划分为内部通信单元和外部通信单元(图中未示出)。内部通信单元可实现智能设备之间的通信,例如内部通信单元可实现为蓝牙模块、Wi-Fi模块等,用于与其它设备(如其他智能设备或者家用医疗器械、智能家居产品)进行信息交互,以接收或向其它设备输出信息。
外部通信单元,用于实现主控智能设备10与云端服务器的交互,还可以进一步接收射频信号,例如室内定位模块40上报的用户位置信息。
存储器120可用于存储软件程序及数据。处理器160通过运行存储在存储器120的软件程序或数据,从而执行中控20的各种功能以及数据处理。存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器120存储有使得智能设备10能运行的操作系统和/或应用程序。本申请中存储器120可以存储操作系统及各种应用程序,还可以存储执行本申请实施例主控智能设备的智能设备控制方法的代码。
智能设备10还可以包括至少一种传感器130,比如加速度传感器151、距离传感器152、指纹传感器153、温度传感器154。中控20还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。当然还可以包括摄像头140。
智能设备的扬声器161、麦克风162可提供用户与智能设备101之间的音频接口。处理器160可将接收到的音频数据转换后的电信号,传输到扬声器161,由扬声器161转换为声音信号输出。智能设备还可配置音量按钮,用于调节声音信号的音量。另一方面,麦克风162将收集的声音信号转换为电信号,由处理器160接收后转换为音频数据,再将音频数据输出至通信单元150以发送给其他智能设备或云端服务器,或者将音频数据输出至存储器120以便进一步处理。本申请中麦克风162可以采集用户的语音。
处理器160是智能设备10的控制中心,利用各种接口和线路连接整个智能设备的各个部分,通过运行或执行存储在存储器120内的软件程序,以及调用存储在存储器120内的数据,执行智能设备20的各种功能和处理数据。例如:
1)、当用户从智能设备移动到其他智能设备的播放范围这一场景中,处理器可被配置为执行:
控制扬声器161播放音频流;
在播放所述音频流的过程中,若接收到中控下发的音频流转移指令,则停止播放所述音频流以使所述中控控制其他智能设备继续播放所述音频流;
其中,所述音频流转移指令是所述中控确定目标对象由所述智能设备的播放范围移动到所述其他智能设备的播放范围后发送的。
2)、当用户从其他智能设备移动到当前智能设备的场景中,当前智能设备的处理器被配置为执行:
接收中控发送的音频流,所述音频流为其他智能设备未播放完毕的音频流;且所述音频流是所述中控确定目标对象由所述其他智能设备的播放范围移动到所述智能设备的播放范围后发送的二
控制所述扬声器161播放所述音频流。
在一些实施例中,处理器160可包括一个或多个处理单元;处理器160还可以集成应用处理器和基带处理器,其中,应用处理器主要执行程序功能等,基带处理器主要处理无线通信。可以理解的是,上述基带处理器也可以不集成到处理器160中。
智能设备10还包括给各个部件供电的电源180(比如电池)。电源可以通过电源管理系统与处理器160逻辑相连,从而通过电源管理系统实现管理充电、放电以及功耗等功能。智能设备10还可配置有电源按钮,用于中控的开机和关机等功能。
应当理解的是,本申请实施例所限定的技术方案仅是对智能设备控制的示例性说明而非任何限定。下面,通过一些实施例对本申请所示的技术方案进行详细说明。需要说明的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
本申请实施例提供的智能设备控制方法可以由图1所示的中控、云端服务器和智能设备协同实现。整体的流程可简述为图3所示,以前述的场景一为例:
假定唤醒词为″小某″当用户发出唤醒语音后,在步骤301中,可以由至少一个智能设备采集到用户语音,并在分析出用户语音信息中包含唤醒词后,将用户的语音信息以及语音信息的描述信息发送给中控。其中,语音信息的描述信息如前文所述的声强、声源位置、唤醒得分等中的至少一种,还可以包括对唤醒得分、声强等进行分析后得出的用户朝向信息。
在步骤302中,中控根据语音信息以及语音信息的描述信息,决策出一个智能设备作为被唤醒智能设备,并控制被唤醒智能设备与用户交互。例如,中控依据算法决策出被唤醒智能设备,并生成唤醒指令回传到被唤醒智能设备,被唤醒智能设备唤醒后播报提示音响应用户。
例如,在步骤303中,被唤醒智能设备进一步采集用户的语音信息并发送给中控进行解析。
在步骤304中,中控对语音信息进行解析,得到用户意图。
在步骤305中,若需要从云端服务器调取音频资源时,中控与云端服务器交互,获取用户意图指示的音频资源。并在步骤306中,中控将音频资源发送给被唤醒智能设备播放。同时,中控检测用户的移动轨迹。然后在步骤307中,中控检测到用户移动到另一个房间后,如果音频资源没有播放完毕,则中控控制用户当前所处房间的智能设备继续播放音频资源,并控制之前被唤醒的智能设备(智能设备1)进入待唤醒状态。
由此,无论用户走到哪里,可以由不同的智能设备接续为用户播放音频资源。不需要用户唤醒其他的智能设备,其他的智能设备能够根据中控的控制适时的唤醒并协同为用户播放音频资源。
以上仅是本申请实施例中的一个应用场景,无论第一场景还是前述的第二场景,在播放音频的过程中随着用户的移动而更换智能设备接续播放音频的方法对两个场景均适用。由此,对两个场景而言,中控的处理方式可概括为如图4所示,中控的处理器可被配置为执行:
步骤401:控制第一智能设备为目标对象播放音频流,并监测所述目标对象的当前位置信息;
其中,第一智能设备可以是图3中所示的被唤醒的智能设备,还可以是中控获取到音频流之后用户当前所处位置的智能设备。
其中,目标对象针对的用户可以为场景一中的点播音乐的用户,也可以为场景二中需要接收消息的用户。各用户可以配有供定位模块进行定位的电子设备作为目标对象,例如该电子设备可以为智能手表、射频标签等。
步骤402:若所述目标对象的当前位置信息处于所述第一智能设备负责的播放范围之外时,查找播放范围包含所述目标对象的当前位置信息的第二智能设备;
步骤402:若所述音频流未播放完毕,则控制所述第二智能设备继续播放所述音频流。
由此,本申请实施例中,在中控的控制下,可以根据用户的移动轨迹为用户选择合适的智能设备播放音频,一方面能够智能化的为用户提供更好的服务。另一方便,避免用户在跨房间移动后,由于需要重新唤醒智能设备而重复执行唤醒操作,以此能够节约中控和智能设备的处理资源,提高资源利用率。当智能设备能够帮助一个用户向另一个用户传递用户需求时,随着用户的移动,需要传递的需求仍能够有效的进行传递,从而还能够进一步拓展智能设备能够提供的服务功能,提高智能设备资源的利用率。
无论何种应用场景,本申请实施例中智能设备控制方法的过程的实现,可包括智能设备唤醒、室内定位、智能设备拾音和播音几部分内容。下面对这几部分内容的实现做进一步说明。
一、智能设备唤醒
智能设备端可集成唤醒得分、声源定位和语音信号的声强检测等功能。当用户说出智能设备唤醒词后,在智能设备的拾音距离之内的各个智能设备都会检测到唤醒词,此时检测到唤醒词的智能设备将得到的唤醒得分、声源位置和声强、用户朝向信息等数据发送到中控端,中控通过算法对智能设备的唤醒得分、声源位置、声强和用户朝向信息等进行综合分析,决策出被唤醒智能设备,并将唤醒指令回传到被唤醒智能设备,被唤醒智能设备被唤醒后播放提示音响应用户,其他智能设备处于待唤醒状态。
由此,前述第一智能设备可以为被唤醒智能设备,则中控处理器确定第一智能设备方式可以为:
步骤A1:在控制所述第一智能设备为所述目标对象播放所述音频流之前,接收至少一个待唤醒智能设备发送的语音信息和所述语音信息的描述信息。
步骤A2:根据所述语音信息和所述描述信息决策出一个待唤醒智能设备作为所述第一智能设备。
如图5所示,共有三个智能设备,分别为智能设备1、智能设备2和智能设备3。用户未在智能设备3的拾音范围内,但在智能设备1和智能设备2的拾音范围内。进一步的,用户面朝智能设备2,且距离智能设备2更近。当用户说出唤醒词后,智能设备1和智能设备2都会检测到用户的唤醒词。此时,智能设备1和智能设备2将各自得到的唤醒得分、声强、声源位置和用户朝向信息通过局域网WiFi发送到中控端。中控依据算法决策出唤醒智能设备,并生成唤醒指令回传到被唤醒的智能设备,智能设备唤醒后播报提示音响应用户。以便于用户进行后续操作。
二、室内定位
如图1所示的室内定位模块主要提供室内人员位置。在一个实施例中,本申请中可采用射频识别(RFID)的室内定位技术。实施时,用户身上或衣物服饰上可佩戴带有射频标签。各房间入口附近可安装有射频读卡器,其中射频读卡器通过无线方式将数据发送到中控。射频标签可嵌入在用户拖鞋中。射频标签对应标识用户身份的用户信息。当用户进入某个房间,则该房间的射频读卡器读取用户的射频标签,射频读卡器将该射频标签发送到中控。中控在数据库中记录该用户位置,从而实现室内人员位置。如果用户位置未改变,则默认该用户一直在最新一条记录所记载的房间内。
如图6所示,图中实心圆圈表示射频读卡器安装在房间的入口处,当用户佩戴的射频标签靠近房间3的射频读卡器时,房间3的射频读卡器会读到用户的射频标签,并将读取到射频标签信息发送到中控,中控根据射频标签信息可识别用户身份以及所在的房间标识,并将用户身份与所在房间标识对应记录到数据库中,从而实现对家庭成员位置的跟踪与记录。例如,不同视频读卡器标识不同的房间,中控可以根据上位射频标签的射频读卡器来确定用户的位置。
三、智能设备拾音与播音
用户唤醒智能设备后,可以与被唤醒智能设备进行语音交互。如图7所示,为了便于区分各个智能设备执行的操作,在图7所示的流程图中将被唤醒智能设备称之为第三智能设备,在一种可能的情况下,第三智能设备可以和第一智能设备为同一智能设备。
在步骤701中,第三智能设备拾取用户的语音信息并发送到中控。
在步骤702中,中控接收语音信息后对语音信息进行语音识别、语义分析和声纹识别。其中,通过语音识别可以将语音信息转成文本,通过对该文本的语义分析识别用户意图。通过识别的用户意图可以确定本次交互过程播音阶段的音频数据源是来自本地还是来自于云端服务器。例如,语义分析时,中控首先对用户的语义进行粗分类,确定用户的意图是否需要调取云端服务器数据。如果需要调取云端服务器数据,则将用户意图划分为云端交互类,如果用户意图不需要调取云端服务器的数据,则将用户意图划分为本地音频传递类。云端交互类指需要云端服务器提供数据源,例如:听音乐、听书、信息问答等,这类数据需要云端服务器提供。本地音频传递类指该交互过程不涉及到与云端服务器交互,播音的音频数据通过中控进行合成。划分到两大类之后,将对语义继续进行细分类,确定用户意图最终的音频数据源,例如音乐播放、信息问答是不同的数据源、合成用户需求(例如,前文所述的请倒杯水)也是一种数据源。
在步骤703中,如果音频数据源来自本地,根据本地数据源控制第一智能设备播放,之后执行步骤705。
在步骤704中,若音频数据源来自于云端服务器,则从云端服务器获取音频数据源并控制第一智能设备进行播放。
其中,当用户意图为向目标对象传递信息(如用户A请用户B帮忙倒杯水),则获取所述目标对象(用户B)的位置,然后查找播放范围包含所述目标对象的位置的智能设备作为所述第一智能设备,之后执行步骤705。
当用户意图为点播音乐、电子书等这类音频数据源时,则目标对象为发出语音信息的用户,则第一智能设备为第三智能设备,或发出语音信息的用户当前所处位置的智能设备。也即,通过声纹识别可以确定该用户身份,利用用户身份和室内定位模块得到的人员位置可以确定本次交互的播音智能设备。
步骤705,中控检测到目标对象位置改变,则查找播放范围包含所述目标对象的当前位置信息的第二智能设备,并控制第二智能设备继续播放所述音频流。
因为,无论步骤703还是步骤704中,播音智能设备将随着用户位置的改变而改变。例如,本申请中智能设备的播音分为两种。一种是前述场景一中的针对唤醒人播音(唤醒人是指唤醒智能设备的用户)。针对唤醒人播音,即根据唤醒人的位置改变播音智能设备。第二种是前述场景二中的针对除唤醒人以外其他家庭成员播音,即根据其他成员位置的改变控制播音智能设备。
针对第一种情况,如图8所示:
在步骤801中,智能设备拾音,并发送给中控处理。
在步骤802中,中控对音频进行语音识别和语义分析后得到用户意图,并对语音进行声纹识别确定唤醒人身份。
在步骤803中,中控从云端服务器或本地获取数据源,并转成音频流的形式发送给唤醒人所在房间的智能设备。
在步骤804中,中控根据唤醒人身份查找数据库中的唤醒人当前位置,并实时判断唤醒人位置是否改变。
步骤在步骤805中,唤醒人所在房间的智能设备播放音频流。
也即,实时监测唤醒人的位置信息,中控根据唤醒人位置信息的改变而改变播放音频流的智能设备。
例如,用户从房间2移动到房间3,此时中控会检测到唤醒人从房间2移动到房间3,然后中控切换播音智能设备,以唤醒人当前所在房间的智能设备(即房间3的智能设备)继续播放音频流。例如:用户想要听音乐,当智能设备1在播放音乐的过程中,用户走到另一个房间,则此时,用户当前位置所在智能设备2继续播放音乐。
第二种播音是唤醒人想要将自己的需求传递给其他用户。针对第二种情况,如图9所示:
在步骤901中,智能设备拾音,并发送给中控处理。
在步骤902中,中控对音频进行语音识别和语义分析后得到用户意图,并对语音进行声纹识别确定唤醒人用户身份,通过语义分析结果确定被呼叫用户的用户身份。
在步骤903中,中控根据唤醒人的用户需求合成音频流,并发送给被呼叫用户所在房间的智能设备播放。
在步骤904中,中控根据被呼叫用户身份查找数据库中的被呼叫用户的当前位置,并实时判断被呼叫用户的位置是否改变。
在步骤905中,被呼叫用户所在房间的智能设备播放音频流。
中控实时监测被呼叫用户的位置信息,中控根据被呼叫用户的位置信息的改变而改变播放音频流的智能设备。
总而言之,中控会将唤醒人的需求合成音频流,然后以音频流的形式发送到目标用户所在房间的智能设备进行播报。在播报过程中,目标用户改变房间,则中控将未发送完的音频流继续发送到目标用户的房间中的智能设备进行播报,以此实现业务逻辑不间断。
例如:如图10所示,家庭成员1在房间1对智能设备1说家庭成员2来一下我房间,则此时中控会根据记录的家庭成员2的位置信息确定家庭成员2当前所在房间为房间2。则中控,控制房间2中的智能设备2播放合成的音频流″成员1希望您去一下他的房间″。当音频未播放结束,家庭成员2已经由房间2移动到房间3,则中控控制房间3的智能设备3继续播放音频流。当然,若音频流播放结束未收到家庭成员2的响应,则中控可以控制房间3的智能设备3继续循环播放音频流,甚至可以根据家庭成员2的位置的变更,更换智能设备播放音频流,直至收到家庭成员2的响应为止停止播放。甚至,进一步的,中控可以将家庭成员2对智能设备发出的响应信息传递给家庭成员1所在的房间的智能设备1进行播放,以此使家庭成员1得知交互结果。
此外,当出现异常时,例如如果语义无法解析用户意图或其他异常情况,则可默认以被唤醒智能设备播音提示异常。异常情况可包括中控端语音识别错误、语义分析错误、未识别出唤醒人身份或未识别出被呼叫用户身份等,中控依据不同的异常情况合成对应的提示音频并发送到被唤醒的智能设备进行播音提示。实现方式可如图11所示:
在步骤1101中,智能设备拾音并发送到中控。
在步骤1102中,中控对拾取的音频进行处理,如果处理过程发送异常,则生成异常情况对应的提示音音频,并将提示音音频发送到被唤醒智能设备。
在步骤1103中,被唤醒智能设备播报提示音音频,以便于用户了解到交互失败。
本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本申请总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims (8)

1.一种中控,其特征在于,包括:处理器和存储器;
所述存储器用于存储可被所述处理器执行的计算机程序;
所述处理器,与所述存储器连接,被配置为:
控制第一智能设备为目标对象播放音频流,并监测所述目标对象的当前位置信息;所述处理器还被配置为:在控制所述第一智能设备为所述目标对象播放所述音频流之前,获取第三智能设备发送的语音信息;对所述第三智能设备发送的语音信息进行语义解析,识别用户意图;若所述用户意图为向所述目标对象传递信息,则获取所述目标对象的位置;查找播放范围包含所述目标对象的位置的智能设备作为所述第一智能设备;其中,对所述第三智能设备发送的语音信息进行语义解析,识别用户意图,包括:对所述第三智能设备发送的语音信息的语义进行粗分类,确定用户意图是否需要调取云端服务器数据;若所述用户意图需要调取云端服务器数据,则将所述用户意图划分为云端交互类;若所述用户意图不需要调取云端服务器的数据,则将所述用户意图划分为本地音频传递类;对所述第三智能设备发送的语音信息的语义进行细分类,确定所述用户意图的音频流的数据源;所述云端交互类表示所述用户意图需要云端服务器提供数据源;所述本地音频传递类表示所述用户意图的交互过程不与所述云端服务器交互,播音的音频流数据通过所述中控进行合成;
若所述目标对象的当前位置信息处于所述第一智能设备负责的播放范围之外时,查找播放范围包含所述目标对象的当前位置信息的第二智能设备;
若所述音频流未播放完毕,则控制所述第二智能设备继续播放所述音频流。
2.根据权利要求1所述的中控,其特征在于,所述处理器还被配置为:
在控制所述第一智能设备为所述目标对象播放所述音频流之前,接收至少一个待唤醒智能设备发送的语音信息和所述语音信息的描述信息,所述描述信息包括以下中的至少一种:语音信号的声强、声源位置、用户朝向信息、唤醒得分;
根据所述语音信息和所述描述信息决策出一个待唤醒智能设备作为所述第一智能设备,或者,将播放范围包括所述目标对象的当前位置的智能设备作为第一音箱;
所述处理器还被配置为:
对所述语音信息进行声纹识别,得到用户标识,并将所述用户标识确定为所述目标对象。
3.根据权利要求1所述的中控,其特征在于,所述处理器还被配置为:
根据所述用户意图合成所述音频流,其中,所述音频流用于向所述目标对象传递所述用户意图表达的用户需求。
4.根据权利要求1所述的中控,其特征在于,采用房间标签表示所述目标对象的当前位置信息;所述处理器被配置为:
获取射频读卡器上报的所述目标对象进入的房间标签;
将所述目标对象进入的房间标签与预先记录的所述第一智能设备所在的房间标签进行比对;
若比对结果为所述目标对象进入的房间标签与所述第一智能设备所在的房间标签不一致时表示所述目标对象的当前位置信息处于所述第一智能设备负责的播放范围之外。
5.一种智能设备控制方法,其特征在于,所述方法包括:
控制第一智能设备为目标对象播放音频流,并监测所述目标对象的当前位置信息;其中,所述方法还包括:在控制所述第一智能设备为目标对象播放音频流之前,获取第三智能设备发送的语音信息;对所述第三智能设备发送的语音信息进行语义解析,识别用户意图;若所述用户意图为向所述目标对象传递信息,则获取所述目标对象的位置;查找播放范围包含所述目标对象的位置的智能设备作为所述第一智能设备;其中,对所述第三智能设备发送的语音信息进行语义解析,识别用户意图,包括:对所述第三智能设备发送的语音信息的语义进行粗分类,确定用户意图是否需要调取云端服务器数据;若所述用户意图需要调取云端服务器数据,则将所述用户意图划分为云端交互类;若所述用户意图不需要调取云端服务器的数据,则将所述用户意图划分为本地音频传递类;对所述第三智能设备发送的语音信息的语义进行细分类,确定所述用户意图的音频流的数据源;所述云端交互类表示所述用户意图需要云端服务器提供数据源;所述本地音频传递类表示所述用户意图的交互过程不与所述云端服务器交互,播音的音频流数据通过中控进行合成;
若所述目标对象的当前位置信息处于所述第一智能设备负责的播放范围之外时,查找播放范围包含所述目标对象的当前位置信息的第二智能设备;
若所述音频流未播放完毕,则控制所述第二智能设备继续播放所述音频流。
6.根据权利要求5所述的方法,其特征在于,在所述控制第一智能设备为目标对象播放音频流之前,所述方法还包括:
接收至少一个待唤醒智能设备发送的语音信息和所述语音信息的描述信息,所述描述信息包括以下中的至少一种:语音信号的声强、声源位置、用户朝向信息、唤醒得分;
根据所述语音信息和所述描述信息决策出一个待唤醒智能设备作为所述第一智能设备,或者,将播放范围包括所述目标对象的当前位置的智能设备作为所述第一智能设备;
所述方法还包括:
对所述语音信息进行声纹识别,得到用户标识,并将所述用户标识确定为所述目标对象。
7.一种智能设备,其特征在于,包括:处理器,以及分别与所述处理器连接的麦克风、扬声器和存储器,其中:
所述麦克风用于采集语音信息;
所述存储器用于存储可被所述处理器执行的计算机程序;
所述处理器被配置为:
控制所述扬声器播放音频流;其中,方法还包括:在控制所述扬声器播放音频流之前,将第三智能设备采集的语音信息发送给中控,以使所述中控获取所述第三智能设备采集的语音信息;对所述第三智能设备采集的语音信息进行语义解析,识别用户意图;若所述用户意图为向目标对象传递信息,则获取所述目标对象的位置;查找播放范围包含所述目标对象的位置的智能设备作为所述控制所述扬声器播放音频流的智能设备;其中,对所述第三智能设备采集的语音信息进行语义解析,识别用户意图,包括:对所述第三智能设备采集的语音信息的语义进行粗分类,确定所述用户意图是否需要调取云端服务器数据;若所述用户意图需要调取云端服务器数据,则将所述用户意图划分为云端交互类;若所述用户意图不需要调取云端服务器的数据,则将所述用户意图划分为本地音频传递类;对所述第三智能设备采集的语音信息的语义进行细分类,确定所述用户意图的音频流的数据源;所述云端交互类表示所述用户意图需要云端服务器提供数据源;所述本地音频传递类表示所述用户意图的交互过程不与所述云端服务器交互,播音的音频流数据通过所述中控进行合成;
在播放所述音频流的过程中,若接收到中控下发的音频流转移指令,则停止播放所述音频流以使所述中控控制其他智能设备继续播放所述音频流;
其中,所述音频流转移指令是所述中控确定目标对象由所述智能设备的播放范围移动到所述其他智能设备的播放范围后发送的。
8.一种智能设备,其特征在于,包括:处理器,以及分别与所述处理器连接的麦克风、扬声器和存储器,其中:
所述麦克风用于采集语音信息;
所述存储器用于存储可被所述处理器执行的计算机程序;
所述处理器被配置为:
接收中控发送的音频流,所述音频流为其他智能设备未播放完毕的音频流;且所述音频流是所述中控确定目标对象由所述其他智能设备的播放范围移动到所述智能设备的播放范围后发送的;其中,方法还包括:接收中控发送的音频流之前,将第三智能设备采集的语音信息发送给所述中控,以使所述中控获取所述第三智能设备采集的语音信息;对所述第三智能设备采集的语音信息进行语义解析,识别用户意图;若所述用户意图为向所述目标对象传递信息,则获取所述目标对象的位置;查找播放范围包含所述目标对象的位置的智能设备作为所述其他智能设备;其中,对所述第三智能设备采集的语音信息进行语义解析,识别用户意图,包括:对所述第三智能设备采集的语音信息的语义进行粗分类,确定所述用户意图是否需要调取云端服务器数据;若所述用户意图需要调取云端服务器数据,则将所述用户意图划分为云端交互类;若所述用户意图不需要调取云端服务器的数据,则将所述用户意图划分为本地音频传递类;对所述第三智能设备采集的语音信息的语义进行细分类,确定所述用户意图的音频流的数据源;所述云端交互类表示所述用户意图需要云端服务器提供数据源;所述本地音频传递类表示所述用户意图的交互过程不与所述云端服务器交互,播音的音频流数据通过所述中控进行合成;
控制所述扬声器播放所述音频流。
CN202010352339.3A 2020-04-28 2020-04-28 中控及智能设备控制方法 Active CN113506568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010352339.3A CN113506568B (zh) 2020-04-28 2020-04-28 中控及智能设备控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010352339.3A CN113506568B (zh) 2020-04-28 2020-04-28 中控及智能设备控制方法

Publications (2)

Publication Number Publication Date
CN113506568A CN113506568A (zh) 2021-10-15
CN113506568B true CN113506568B (zh) 2024-04-16

Family

ID=78008240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010352339.3A Active CN113506568B (zh) 2020-04-28 2020-04-28 中控及智能设备控制方法

Country Status (1)

Country Link
CN (1) CN113506568B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113891124A (zh) * 2021-11-04 2022-01-04 北京欧珀通信有限公司 音视频播放方法、装置、电子设备、服务器及存储介质
WO2023240636A1 (zh) * 2022-06-17 2023-12-21 北京小米移动软件有限公司 一种音箱播放控制方法、音箱播放控制装置及存储介质
CN115474096A (zh) * 2022-09-09 2022-12-13 广州励丰文化科技股份有限公司 多媒体播放方法、电子设备终端及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106992009A (zh) * 2017-05-03 2017-07-28 深圳车盒子科技有限公司 车载语音交互方法、系统及计算机可读存储介质
CN107205217A (zh) * 2017-06-19 2017-09-26 广州安望信息科技有限公司 基于智能音箱场景组网的无间断内容推送方法及系统
CN108228134A (zh) * 2018-01-30 2018-06-29 上海乐愚智能科技有限公司 一种任务语音的处理方法、装置、智能音箱和存储介质
CN108495248A (zh) * 2018-01-25 2018-09-04 广州蓝豹智能科技有限公司 定位方法、装置、音频播放设备及存储介质
CN109547301A (zh) * 2018-11-14 2019-03-29 三星电子(中国)研发中心 一种用于电子设备的自动控制方法、装置及设备
CN110415694A (zh) * 2019-07-15 2019-11-05 深圳市易汇软件有限公司 一种多台智能音箱协同工作的方法
CN110767220A (zh) * 2019-10-16 2020-02-07 腾讯科技(深圳)有限公司 一种智能语音助手的交互方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9171066B2 (en) * 2012-11-12 2015-10-27 Nuance Communications, Inc. Distributed natural language understanding and processing using local data sources
US11663182B2 (en) * 2017-11-21 2023-05-30 Maria Emma Artificial intelligence platform with improved conversational ability and personality development

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106992009A (zh) * 2017-05-03 2017-07-28 深圳车盒子科技有限公司 车载语音交互方法、系统及计算机可读存储介质
CN107205217A (zh) * 2017-06-19 2017-09-26 广州安望信息科技有限公司 基于智能音箱场景组网的无间断内容推送方法及系统
CN108495248A (zh) * 2018-01-25 2018-09-04 广州蓝豹智能科技有限公司 定位方法、装置、音频播放设备及存储介质
CN108228134A (zh) * 2018-01-30 2018-06-29 上海乐愚智能科技有限公司 一种任务语音的处理方法、装置、智能音箱和存储介质
CN109547301A (zh) * 2018-11-14 2019-03-29 三星电子(中国)研发中心 一种用于电子设备的自动控制方法、装置及设备
CN110415694A (zh) * 2019-07-15 2019-11-05 深圳市易汇软件有限公司 一种多台智能音箱协同工作的方法
CN110767220A (zh) * 2019-10-16 2020-02-07 腾讯科技(深圳)有限公司 一种智能语音助手的交互方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
移动校园智能平台系统的设计与实现;刘鑫;吴明美;;福建电脑;20160825(第08期);全文 *

Also Published As

Publication number Publication date
CN113506568A (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
CN113506568B (zh) 中控及智能设备控制方法
US11223497B2 (en) Method and apparatus for providing notification by interworking plurality of electronic devices
CN108831448A (zh) 语音控制智能设备的方法、装置及存储介质
CN108520746A (zh) 语音控制智能设备的方法、装置及存储介质
TW201719333A (zh) 語音控制系統及方法
CN112397062A (zh) 语音交互方法、装置、终端及存储介质
CN108574515B (zh) 一种基于智能音箱设备的数据分享方法、装置和系统
US20200193982A1 (en) Terminal device and method for controlling thereof
CN109166575A (zh) 智能设备的交互方法、装置、智能设备和存储介质
CN112702633A (zh) 多媒体智能播放方法、装置、播放设备以及存储介质
US20170287477A1 (en) Internet of things system with voice-controlled functions and method for processing information of the same
CN110767225B (zh) 一种语音交互方法、装置及系统
JP2017192091A (ja) 音声制御機能付きiotシステム及びその情報処理方法
CN107483724A (zh) 移动终端及其情景模式的触发方法,计算机可读存储介质
WO2022022743A1 (zh) 一种公用设备上识别用户的方法及电子设备
CN113470635B (zh) 一种智能音箱控制方法、设备、中控设备以及存储介质
CN112820273B (zh) 唤醒判别方法和装置、存储介质及电子设备
CN111596557B (zh) 设备控制方法、装置、电子设备及计算机可读存储介质
CN106294747A (zh) 音频同步方法和装置
CN112216279A (zh) 语音传输方法、智能终端及计算机可读存储介质
CN113488036A (zh) 一种多轮语音交互方法、终端及服务器
CN112420043A (zh) 基于语音的智能唤醒方法、装置、电子设备及存储介质
CN117608506A (zh) 信息显示方法、装置、电子设备及存储介质
CN115035894B (zh) 一种设备响应方法和装置
CN114373459A (zh) 智能家居唤醒方法及智能家居平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant