具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
在本发明的以下各个实施例中,为了区别语音对话机器人在不同时刻所发送或者接收到的各条语音信息,以“第一语音信息”、“第二语音信息”、“第三语音信”息以及“第四语音信息”来命名各条语音信息,值得注意的是,各条语音信息之间的关联关系由其功能用途和内在逻辑来确定,“第一”、“第二”、“第三”以及“第四”并非用于限定语音信息的执行顺序,因而其序号不应对本发明实施例的实施过程构成任何限定。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1示出了本发明实施例提供的语音对话机器人的控制方法的实现流程,该方法流程包括步骤S101至S104。各步骤的具体实现原理如下:
S101:广播机器人搜索信号,并在接收到基于所述机器人搜索信号的响应信息时,从所述响应信息中,提取出语音对话机器人的识别码。
本发明实施例中,各步骤的执行主体为语音对话机器人,将该语音对话机器人称为本端语音对话机器人,以区别于远程的各个语音对话机器人。
在本端语音对话机器人的运行过程中,持续发出机器人搜索信号。当位于信号传播范围内的各个语音对话机器人检测到该机器人搜索信号时,将发出基于该机器人搜索信号的响应信息。由于信号传播范围内的各个语音对话机器人与本端语音对话机器人处于不同的位置点,因而将信号传播范围内的各个语音对话机器人称为远程的语音对话机器人。
远程的语音对话机器人所发出的响应信息中,包含有该语音对话机器人的识别码。识别码用于唯一标识一个语音对话机器人。识别码例如可以是PIN(PersonalIdentification Number)码。
优选地,响应信息中,还包含有语音对话机器人的的设备名称。设备名称为语音对话机器人的名称,其在出厂时由厂家预先设置,也可由用户自定义设置。
将包含于同一响应信息中的识别码以及设备名称存储于数据表的一条记录中,以确定各个识别码及其设备名称的对应关系。同时,将本端语音对话机器人的识别码以及设备名称也存储于数据表的一记录中,并将该记录标记为本地记录。
S102:基于所述识别码,与所述语音对话机器人建立连接。
本端语音对话机器人基于接收到的各个识别码,与远程的各个语音对话机器人进行自动配对,并向远程的各个语音对话机器人发出链路建立请求。链路建立成功后,本端语音对话机器人以及远程的语音对话机器人之间,即可进行双向的数据通讯或语音通讯。
S103:获取用户发出的第一语音信息,并确定所述第一语音信息的控制模式。
当用户需要对语音对话机器人进行控制时,将会对用户当前所在位置的本端语音对话机器人发出语音信息。本端语音对话机器人所接收到的用户发出的语音信息例如可以是,“播放歌曲清单中的第三首歌”。
本发明实施例中,不同的语音信息对应不同的控制模式。控制模式表示本端语音对话机器人对语音信息的同步方式。控制模式包括单机模式、组播模式以及广播模式。
单机模式表示,本端语音对话机器人无需对语音信息进行同步,即,与该语音信息匹配的控制指令仅需由本端语音对话机器人执行。
组播模式表示,本端语音对话机器人需将该语音信息同步至远程的一个或多个语音对话机器人。
广播模式表示,本端语音对话机器人需将该语音信息同步至当前时刻已连接的各个远程的语音对话机器人。
语音信息的控制模式可由用户预设于本端语音对话机器人的参数信息中。例如,在参数信息中,将本端语音对话机器人的语音信息的控制模式统一设置为广播模式。
作为本发明的一个实施例,如图2所示,上述S103具体包括:
S1031:对用户发出的第一语音信息进行解析,以获取所述第一语音信息中的关键词。
本发明实施例中,在接收到用户发出的语音信息时,通过预设的语音识别算法对该语音信息进行解析。
具体地,语音识别过程包括:以预设的帧长以及帧移来对语音信息进行分帧处理,得到M(M为大于零的整数)帧波形;分别提取每一帧波形的声学特征,如MFCC(梅尔频率倒谱系数Mel-Frequency Cepstral Coefficients),以获得每一帧波形对应的N维向量。由于一个词语的发音由音素这一语音单位构成,比音素更细的语音单位为状态,一个音素包含3个状态,因此,本发明实施例中,将每一帧波形所对应的N维向量输入预先获得的声学模型,如隐马尔可夫模型,以输出该帧波形对应各个状态的概率;将概率最大的状态确定为该帧波形对应的状态。通过确定各帧波形所对应的状态,将连续出现的每三个状态组合成一个音素,再把若干个音素进行组合后,输出语音信息所对应的词语,由此实现语音信息到文本的转换。
在将语音信息转换为相应的文本,并对该文本进行分词后,可得到的每一分词均为语音信息的关键词。
S1032:若所述关键词与所述数据表中存储的各个所述设备名称均不相同,则确定所述第一语音信息的控制模式为广播模式。
在S101所生成的数据表中,存储有远程的各个语音对话机器人的设备名称。将当前时刻获得的每一关键词分别与数据表中的各个设备名称进行对比,以分别判断各个关键词是否与数据表中的任一设备名称相同。
对于语音信息中的各个关键词,若其与数据表中的任一设备名称均不相同,则确定用户发出的语音信息的控制模式为广播模式。
本发明实施例中,通过实时解析语音信息中的关键词,并在关键词与数据表中的设备名称均不相同的情况下,确定语音信息的控制模式为广播模式,实现了对语音信息的控制模式的个性化设置,避免了用户只能在本端语音对话机器人的参数信息中,统一设置所有语音信息的控制模式,因而提高了控制模式的设置灵活性,由此也使得用户可以基于控制模式的判断规则,发出不同控制模式的语音信息,提高了对于语音对话机器人的控制灵活性。
S104:若所述控制模式为广播模式,则将所述第一语音信息同步至与所述识别码关联的所述语音对话机器人,以使所述语音对话机器人执行与所述第一语音信息匹配的控制指令。
当语音信息的控制模式为广播模式时,在数据表中,读取已存储的各个识别码,将该语音信息分别同步发送至远程的与各个识别码相关的语音对话机器人,以使接收到该语音信息的各个语音对话机器人可以执行与该语音信息匹配的控制指令。
优选地,对于接收到该语音信息的各个语音对话机器人,同样可基于上述步骤S101至S104,将该语音信息同步至远程的其他语音对话机器人,由此扩大语音信息的传播范围,实现了对分布范围更远的语音对话机器人的同步控制。
本发明实施例中,通过广播机器人搜索信号,能够检测出信号搜索范围内所存在的各个语音对话机器人,从而可以自动获取出与本端语音对话机器人处于不同位置的各个语音对话机器人的识别码,并实现与远程的语音对话机器人的通讯连接;通过令语音信息对应单机模式、组播模式或广播模式,并根据用户的实际所需,准确确定出语音信息的控制模式,保证了在接收到用户发出的语音信息的控制模式为广播模式时,能够将语音信息同步至已连接的各个语音对话机器人,由此使得用户能够基于其发出的一条语音信息,同时对位置相隔较远的多个语音对话机器人进行语音控制。用户无需再走到各个语音对话机器人所在的位置后才能执行语音控制,因此,本方面实施例提高了语音对话机器人的控制效率。
在上述各个实施例的基础之上,作为本发明的另一实施例,对控制模式为组播模式时的语音信息的同步方式作进一步的限定。如图3所示,在上述S104之后,还包括:
S105:若所述控制模式为组播模式,则在存储有识别码以及设备名称对应关系的数据表中,查找与所述第一语音信息所携带的设备名称相对应的所述识别码,所述识别码以及设备名称的对应关系从所述响应信息中获取。
对于语音信息中的任一关键词,若其与本端语音对话机器人的设备名称相同,则确定语音信息的控制模式为单机模式;若其与数据表中除本端设备名称之外的任一设备名称相同,则确定语音信息的控制模式为组播模式,并确定用户发出的语音信息携带有该设备名称。
当语音信息的控制模式为组播模式时,在数据表中,读取与语音信息所携带的设备名称相对应的识别码。
S106:将所述第一语音信息同步至与查找出的所述识别码相关联的所述语音对话机器人,以使所述语音对话机器人执行与所述第一语音信息匹配的控制指令。
基于当前时刻所读取到的各个识别码,在当前时刻所连接的各个远程的语音对话机器人中,筛选出与上述各个识别码关联的各个语音对话机器人。仅将用户发出的语音信息同步至筛选出的各个语音对话机器人。
本发明实施例适用于用户需要控制区域内指定的多个语音对话机器人的场景之下。例如,若当前区域内分布有5个语音对话机器人,其中各个语音对话机器人设置的设备名称分别为Alice、Bob、Colly、Doggy以及Ella,且用户当前位于Alice所处的位置,则用户需要控制Alice、Colly以及Ella同时播放王力宏的歌曲时,可对Alice发出语音信息“Alice,你和Bob、Ella一起播放王力宏的歌”。此时,接收到语音信息的Alice将会把该语音信息同步至Bob以及Ella,从而保证Alice、Colly以及Ella均能获取该语音信息,并一起执行与该语音信息匹配的控制指令。
本发明实施例中,在组播模式下,通过识别语音信息所携带的设备名称,获取与设备名称对应的识别码,并将用户发出的语音信息同步至与识别码关联的各个语音对话机器人,使得用户能够准确地发出携带有不同设备名称的语音信息,实现对指定的语音对话机器人的远程同步控制,避免了在通知远程的语音对话机器人时,仅能将语音信息广播至已连接的所有语音对话机器人,因此,实现了对语音对话机器人的有效控制,避免了无效信息的传输。
作为本发明的又一实施例,如图4所示,所述语音对话机器人的控制方法还包括:
S107:若接收到所述语音对话机器人所同步的第二语音信息,则确定所述第二语音信息的功能类型。
语音信息的功能类型,是指语音对话机器人在执行与语音信息匹配的控制指令后所实现的功能。语音信息的功能类型包括但不限于定时提醒、音乐播放、以及问题回答等。
若用户发出一语音信息,且该语音信息用于控制语音对话机器人在预设时间到达时发出提醒,则该语音信息的功能类型即为定时提醒。
在接收到远程任一语音对话机器人同步至本端语音对话机器人的语音信息时,对该语音信息进行解析,以确定该语音信息的功能类型。
示例性地,若识别到语音信息中包含时间信息以及“提醒”二字,则确定语音信息的功能类型为定时提醒。
S108:若所述功能类型为定时提醒,则在所述第二语音信息对应的提醒时刻到达时,检测当前时刻与用户的位置距离。
语音信息中所包含的时间信息即为语音信息对应的提醒时刻。若当前本端语音对话机器人的系统时间为该提醒时刻,则本端语音对话机器人检测其与用户的实时位置距离。
在一示例中,位置距离的检测方式可以是:基于用户所携带的定位器,获取定位器所实时上报的位置信息,以确定用户的地理位置;计算该地理位置与本端语音对话机器人所处位置的距离;将计算出的距离确定为当前时刻本端语音对话机器人与用户的位置距离。
S109:若所述位置距离小于预设阈值,则发出提示信息。
若位置距离小于预设阈值,则本端语音对话机器人发出提示信息,以使用户接收该提示信息。提示信息包括但不限于音频提示以及闪烁提示等。
作为本发明的在另一实施示例,本端语音对话机器人启动内置的摄像头,可扫描摄像区域内所存在的人脸。此时,将摄像头的最大摄像范围确定为上述预设阈值。若在最大摄像范围内检测到人脸存在,则确定用户与本端语音对话机器人位置距离小于预设阈值,并发出提示信息。
优选地,在上述示例中,若在最大摄像范围内检测到人脸存在,则将该人脸的脸部特征与预设的用户的脸部特征进行对比,以确定当前位于摄像范围内的人体是否为语音对话机器人的主人。若是,则确定用户与本端语音对话机器人位置距离小于预设阈值,并发出提示信息;若否,则确定用户与本端语音对话机器人位置距离大于预设阈值,不发出提示信息。
本发明实施例中,在接受到定时提醒类型的语音信息后,通过在提醒时刻实时判定用户与本端语音对话机器人的位置距离是否小于预设阈值,能够确定用户是否位于本端语音对话机器人的附近区域。若用户并非位于本端语音对话机器人的附近区域,则用户也难以接收到本端语音对话机器人发出的提示信息。因此,仅在用户与本端语音对话机器人的位置距离小于预设阈值时才发出提示信息,达到了更为有效的提示效果,同时也避免了接收到语音信息的多个语音对话机器人都同时发出提示,降低了语音对话机器人的能耗。另外,通过对检测到的人脸脸部特征进行识别,使得语音对话机器人的能够准确地对语音对话机器人的主人发出提示,提高了提示的准确性。
作为本发明的一个实施例,如图5所示,上述S106具体包括:
S1061:获取本端设备名称。
在组播模式之下,在本端语音对话机器人将用户发出的语音信息同步至指定的一个或多个远程的语音对话机器人之前,先获取本端语音对话机器人所预先存储的设备名称,即本端设备名称。
S1062:在所述第一语音信息中,删除包含所述本端设备名称的语音片段。
对用户发出的语音信息进行识别,确定出其中包含本端设备名称的语音片段。将该语音片段进行截取后删除,使得用户发出的语音信息中,不再携带有本端设备名称。
S1063:将删除所述语音片段后的所述第一语音信息同步至与查找出的所述识别码相关联的所述语音对话机器人,以使所述语音对话机器人执行与删除所述语音片段后的所述第一语音信息相匹配的控制指令。
根据上述S105所查找出的各个识别码,确定所需同步的远程的各个语音对话机器人。将不再携带有本端设备名称的语音信息发送至所需同步的各个语音对话机器人。
例如,若用户对Alice发出语音信息“Alice、Bob和Ella一起播放王力宏的歌”,则由于Alice的本端设备名称为“Alice”,故在该语音信息中,删除包含“Alice”的语音片段,得到“Bob和Ella一起播放王力宏的歌”;Alice将“Bob和Ella一起播放王力宏的歌”这一语音信息同步至Bob和Ella。
由于远程的各个语音对话机器人在接收其所同步的语音信息时,会执行上述S101至S106,即,根据该语音信息所携带的各个设备名称,将该语音信息再次同步至于各个设备名称对应的语音对话机器人。因此,本发明实施例中,通过将语音信息中包含本端设备名称的语音片段进行删除,使得远程的各个语音对话机器人在接收其所同步的语音信息时,不会再解析出所述本端设备名称,因而不会再将该语音信息重复同步至语音信息的来源端,提高了信息的同步效率。
在上述各个实施例的基础之上,作为本发明的一个实施例,若接收到远程的语音对话机器人所同步过来的语音信息,则启动计时功能。在预设时长之内,若再次接收到远程的语音对话机器人所同步过来的语音信息,则计算这些语音信息的相似度。若相似度大于预设阈值,则确定这些语音信息为用户实际发出的同一语音信息,此时,筛选其中信号强度最强的一条语音信息,以执行与语音信息相匹配的控制指令。
本发明实施例中,由于用户发出的语音信息可能同时被附近的多个语音对话机器人检测得到,故在广播模式或者组播模式之下,所述多个语音对话机器人均会该语音信息同步至远程的各个语音对话机器人。因此,对于远程的任一语音对话机器人而言,可能会接收到信号强度不同但内容相同的多条语音信息。这种情况下,通过判断预设时长内所先后接收到的各条语音信息的相似度,并在相似度大于阈值时,筛选出信号强度最强的语音信息,能够避免语音对话机器人重复执行多次相同的控制指令,由于筛选出的语音信息的信号强度最强,故在识别与语音信息匹配的控制指令时,能够提高识别的准确性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的语音对话机器人的控制方法,图6示出了本发明实施例提供的语音对话机器人的控制装置的结构框图,为了便于说明,仅示出了与本发明实施例相关的部分。
参照图6,该装置包括:
广播单元601,用于广播机器人搜索信号,并在接收到基于所述机器人搜索信号的响应信息时,从所述响应信息中,提取出语音对话机器人的识别码。
连接单元602,用于基于所述识别码,与所述语音对话机器人建立连接。
获取单元603,用于获取用户发出的第一语音信息,并确定所述第一语音信息的控制模式。
第一同步单元604,用于若所述控制模式为广播模式,则将所述第一语音信息同步至与所述识别码关联的所述语音对话机器人,以使所述语音对话机器人执行与所述第一语音信息匹配的控制指令。
可选地,所述广播单元601包括:
广播子单元,用于从所述响应信息中,提取出语音对话机器人的识别码以及设备名称,并将所述识别码以及所述设备名称存储至预先建立的数据表。
所述获取单元603包括:
解析子单元,用于对用户发出的第一语音信息进行解析,以获取所述第一语音信息中的关键词。
确定子单元,用于若所述关键词与所述数据表中存储的各个所述设备名称均不相同,则确定所述第一语音信息的控制模式为广播模式。
可选地,如图7所示,所述语音对话机器人的控制装置还包括:
查找单元605,用于若所述控制模式为组播模式,则在存储有识别码以及设备名称对应关系的数据表中,查找与所述第一语音信息所携带的设备名称相对应的所述识别码,所述识别码以及设备名称的对应关系从所述响应信息中获取。
第二同步单元606,用于将所述第一语音信息同步至与查找出的所述识别码相关联的所述语音对话机器人,以使所述语音对话机器人执行与所述第一语音信息匹配的控制指令。
可选地,如图8所示,所述语音对话机器人的控制装置还包括:
确定单元607,用于若接收到所述语音对话机器人所同步的第二语音信息,则确定所述第二语音信息的功能类型。
检测单元608,用于若所述功能类型为定时提醒,则在所述第二语音信息对应的提醒时刻到达时,检测当前时刻与用户的位置距离。
提示单元609,用于若所述位置距离小于预设阈值,则发出提示信息。
可选地,所述第二同步单元606包括:
获取子单元,用于获取本端设备名称。
删除子单元,用于在所述第一语音信息中,删除包含所述本端设备名称的语音片段。
同步子单元,用于将删除所述语音片段后的所述第一语音信息同步至与查找出的所述识别码相关联的所述语音对话机器人,以使所述语音对话机器人执行与删除所述语音片段后的所述第一语音信息相匹配的控制指令;
可选地,如图9所示,所述语音对话机器人的控制装置还包括:
计时单元610,用于若接收到所述语音对话机器人所同步的第三语音信息,则控制内置的计时器启动计时。
计算单元611,用于在计时值达到第一预设阈值之前,若接收到所述语音对话机器人所同步的第四语音信息,则计算这所述第三语音信息以及所述第四语音信息的相似度。
执行单元612,用于若所述相似度大于第二预设阈值,则在所述第三语音信息以及所述第四语音信息中,确定出信号强度较强的一条语音信息,以执行与该语音信息匹配的控制指令。
本发明实施例中,通过广播机器人搜索信号,能够检测出信号搜索范围内所存在的各个语音对话机器人,从而可以自动获取出与本端语音对话机器人处于不同位置的各个语音对话机器人的识别码,并实现与远程的语音对话机器人的通讯连接;通过确定语音信息的控制模式,保证了在接收到用户发出的语音信息的控制模式为广播模式时,能够将语音信息同步至已连接的各个语音对话机器人,使得用户能够基于其发出的一条语音信息,同时对位置相隔较远的多个语音对话机器人进行语音控制。用户无需再走到各个语音对话机器人所在的位置后才能执行语音控制,因此,本方面实施例提高了语音对话机器人的控制效率。
图10是本发明一实施例提供的终端设备的示意图。如图10所示,该实施例的终端设备10包括处理器1000以及存储器1001,所述存储器1001中存储有可在所述处理器1000上运行的计算机程序1002,例如语音对话机器人的控制程序。所述处理器1000执行所述计算机程序1002时实现上述各个语音对话机器人的控制方法实施例中的步骤,例如图1所示的步骤101至104。或者,所述处理器1000执行所述计算机程序1002时实现上述各装置实施例中各模块/单元的功能,例如图6所示单元601至604的功能。
示例性的,所述计算机程序1002可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器1001中,并由所述处理器1000执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序1002在所述终端设备10中的执行过程。
所述终端设备10可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器1000、存储器1001。本领域技术人员可以理解,图10仅仅是终端设备10的示例,并不构成对终端设备10的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器1000可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器1001可以是所述终端设备10的内部存储单元,例如终端设备10的硬盘或内存。所述存储器1001也可以是所述终端设备10的外部存储设备,例如所述终端设备10上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器1001还可以既包括所述终端设备10的内部存储单元也包括外部存储设备。所述存储器1001用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器1001还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。