CN115941369A - 智能家居联动的问答数据采集方法、设备、介质和系统 - Google Patents

智能家居联动的问答数据采集方法、设备、介质和系统 Download PDF

Info

Publication number
CN115941369A
CN115941369A CN202110902991.2A CN202110902991A CN115941369A CN 115941369 A CN115941369 A CN 115941369A CN 202110902991 A CN202110902991 A CN 202110902991A CN 115941369 A CN115941369 A CN 115941369A
Authority
CN
China
Prior art keywords
question
corpus
equipment
user
cloud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110902991.2A
Other languages
English (en)
Inventor
浦贵阳
田婉
王亚莱
林峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202110902991.2A priority Critical patent/CN115941369A/zh
Publication of CN115941369A publication Critical patent/CN115941369A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种智能家居联动的问答数据采集方法、设备、介质和系统,该方法包括:获取智能家居设备的状态参数;将智能家居设备的状态参数发送至云端设备,并接收云端设备发送的第一类问题,第一类问题与目标场景具有关联关系,目标场景是云端设备根据智能家居设备的状态参数确定的;将第一类问题向用户进行推送并采集用户的答复语句,建立第一语料库;将第一语料库发送至云端设备,以使得云端设备根据第一语料库训练更新问答模型。这样,由于第一语料库与场景关联,使得更新后的问答模型不仅具备基础问答能力,而且还能够结合场景实现更准确的交互式问答,增加了用户粘度,从而达到智能场景精确问答的目的。

Description

智能家居联动的问答数据采集方法、设备、介质和系统
技术领域
本申请涉及智能家居技术领域,尤其涉及一种智能家居联动的问答数据采集方法、设备、介质和系统。
背景技术
智能对话系统是人工智能主体以自然的、对话的语言与人类进行有意义的对话或回答的程序或代理。智能对话系统采用机器学习、深度学习、强化学习、迁移学习等智能算法,使机器理解人类语言并与人类进行有效沟通,理解人类语言中的意图并执行任务或作出回答。
在相关技术中,目前的智能对话系统常用模型有两类,流水线模型和端到端模型。其中,流水线模型依次执行不同模块来达到对话目的,模块间耦合度高且互相依赖,导致模型灵活性差,功能单一难以适应新领域;而端到端模型将所有模块进行封装并以监督学习方式进行训练,这时候需要大量训练数据,而且缺乏对训练数据的处理,导致在整体训练时可能无法针对特定场景作出问答,具有一定的局限性,使得用户粘度低。
发明内容
本申请提供了一种智能家居联动的问答数据采集方法、设备、介质和系统,不仅具备基础问答能力,而且还能够结合场景实现更准确的交互式问答,增加了用户粘度,从而达到智能场景精确问答的目的。
本申请的技术方案是这样实现的:
第一方面,本申请实施例提供了一种智能家居联动的问答数据采集方法,应用于终端设备,该方法包括:
获取智能家居设备的状态参数;
将所述智能家居设备的状态参数发送至云端设备,并接收所述云端设备发送的第一类问题,其中,所述第一类问题与目标场景具有关联关系,且所述目标场景是由所述云端设备根据所述智能家居设备的状态参数确定的;
将所述第一类问题向用户进行推送并采集所述用户的答复语句,建立第一语料库;
将所述第一语料库发送至所述云端设备,以使得所述云端设备根据所述第一语料库训练更新问答模型。
第二方面,本申请实施例还提供了另一种智能家居联动的问答数据采集方法,应用于云端设备,该方法包括:
接收终端设备发送的智能家居设备的状态参数;
根据所述智能家居设备的状态参数确定目标场景,并根据所述目标场景,从第一预设问题集中确定第一类问题;
将所述第一类问题发送给所述终端设备;
接收所述终端设备返回的第一语料库,并根据所述第一语料库训练更新问答模型。
第三方面,本申请实施例还提供了一种终端设备,该终端设备包括获取单元,第一发送单元,第一接收单元,语料建立单元,其中,
所述获取单元,配置为获取智能家居设备的状态参数;
所述第一发送单元,配置为将所述智能家居设备的状态参数发送至云端设备;
所述第一接收单元,配置为接收所述云端设备发送的第一类问题,其中,所述第一类问题与目标场景具有关联关系,且所述目标场景是由所述云端设备根据所述智能家居设备的状态参数确定的;
所述语料建立单元,配置为将所述第一类问题向用户进行推送并采集所述用户的答复语句,建立第一语料库;
所述第一发送单元,还配置为将所述第一语料库发送至所述云端设备,以使得所述云端设备根据所述第一语料库训练更新问答模型。
第四方面,本申请实施例还提供了一种云端设备,该云端设备包括第二接收单元,确定单元,第二发送单元和训练单元,其中,
所述第二接收单元,配置为接收终端设备发送的智能家居设备的状态参数;
所述确定单元,配置为根据所述智能家居设备的状态参数确定目标场景,以及根据所述目标场景,从第一预设问题集中确定第一类问题;
所述第二发送单元,配置为将所述第一类问题发送给所述终端设备;
所述第二接收单元,还配置为接收所述终端设备返回的第一语料库;
所述训练单元,配置为根据所述第一语料库训练更新问答模型。
第五方面,本申请实施例还提供了另一种终端设备,该终端设备包括第一存储器和第一处理器,其中,
第一存储器,用于存储能够在所述第一处理器上运行的计算机程序;
第一处理器,用于在运行所述计算机程序时,执行如第一方面所述的智能家居联动的问答数据采集方法。
第六方面,本申请实施例还提供了另一种云端设备,该云端设备包括第二存储器和第二处理器,其中,
第二存储器,用于存储能够在所述第二处理器上运行的计算机程序;
第二处理器,用于在运行所述计算机程序时,执行如第二方面所述的智能家居联动的问答数据采集方法。
第七方面,本申请实施例提供了一种计算机存储介质,该计算机存储介质存储有计算机程序,所述计算机程序被第一处理器执行时实现如第一方面所述的智能家居联动的问答数据采集方法,或者被第二处理器执行时实现如第二方面所述的智能家居联动的问答数据采集方法。
第八方面,本申请实施例提供了一种问答数据采集系统,该问答数据采集系统包括如第三方面或第五方面所述的终端设备、第四方面或第六方面所述的云端设备以及智能家居设备。
本申请实施例所提供的一种智能家居联动的问答数据采集方法、设备、介质和系统,通过获取智能家居设备的状态参数;将智能家居设备的状态参数发送至云端设备,并接收云端设备发送的第一类问题,其中,第一类问题与目标场景具有关联关系,且目标场景是由云端设备根据智能家居设备的状态参数确定的;将第一类问题向用户进行推送并采集用户的答复语句,建立第一语料库;将第一语料库发送至云端设备,以使得云端设备根据第一语料库训练更新问答模型。这样,通过与目标场景具有关联关系的第一类问题以及对应的用户的答复语句建立第一语料库,云端设备可以根据第一语料库更新问答模型,以使得在训练数据不足的情况下,还能够根据从日常对话的过程中获取的语料库作为更新问答模型的训练数据,从而根据更新后的问答模型不仅具备基础问答能力,而且还能够结合场景实现更准确的交互式问答,增加了用户粘度,达到智能场景精确问答的目的。
附图说明
图1为本申请实施例提供的一种基于流水线模型的架构示意图;
图2为本申请实施例提供的一种基于端到端模型的架构示意图;
图3为本申请实施例提供的一种智能家居联动的问答数据采集方法的流程示意图;
图4为本申请实施例提供的另一种智能家居联动的问答数据采集方法的流程示意图;
图5为本申请实施例提供的一种问答数据采集系统的组成结构示意图;
图6为本申请实施例提供的又一种智能家居联动的问答数据采集方法的流程示意图;
图7为本申请实施例提供的再一种智能家居联动的问答数据采集方法的流程示意图;
图8为本申请实施例提供的一种终端设备的组成结构示意图;
图9为本申请实施例提供的另一种终端设备的组成结构示意图;
图10为本申请实施例提供的一种云端设备的组成结构示意图;
图11为本申请实施例提供的另一种云端设备的组成结构示意图;
图12为本申请实施例提供的另一种问答数据采集系统的组成结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅用于解释相关申请,而非对该申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关申请相关的部分。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
需要指出,本申请实施例所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
智能对话系统是人工智能主体以自然的、对话的语言与人类进行有意义的对话或回答的程序或代理。智能对话系统采用机器学习、深度学习、强化学习、迁移学习等智能算法,使机器理解人类语言并与人类进行有效沟通,理解人类语言中的意图并执行任务或作出回答。
目前,智能对话系统可分为两类:任务导向型和非任务导向型。其中,任务导向型是面向任务的系统,旨在引导用户完成具体任务;非任务导向型系统主要与人类进行交互并提供回复和娱乐功能。任务导向型的智能对话系统通常采用以下两种方法:流水线方法和端到端方法,其核心思想是识别和分析输入文本与语料库中数据的语义相似度,通过整体相似性匹配进行交互。
参见图1,其示出了本申请实施例提供的一种基于流水线模型的架构示意图。如图1所示,这里提供了一种流水线方法的基础架构,该基础架构可以包括:人机交互单元,自然理解单元,对话状态跟踪单元,对话策略学习单元以及自然语言生成单元。在进行对话时,通过人机交互单元获取人类传达的消息,然后自然语言理解单元将其解析映射为预定义的语义槽,并进行对话意图检测。对话状态跟踪单元管理每个回合对话输入及历史对话,输出当前对话状态,确保对话系统健壮性。对话策略学习单元根据状态跟踪器的状态生成下一步动作,自然语言生成单元将选择的动作进行映射并生成回复。传统流水线方法的主要缺陷是单元(模块)间耦合度高,每个单元的输入依赖于另一个单元的输出,当调整一个单元或使用新数据进一步更新时,所有单元都需要进行调整以达到全局最优,同时语义槽和特征的改变需要大量人工操作。
随着深度学习技术的进步,对话系统也有了极大发展,采用大量数据来学习特征表示和回复生成策略使对话系统中手工操作的部分得到简化。其中最常用的结构是端到端生成模型,即采用一个模块,并使其与结构化的外部数据进行交互。参见图2,其示出了本申请实施例提供的一种基于端到端模型的架构示意图。如图2所示,这里提供了一种端到端方法的基础架构,具体是一种基于网络的端到端可训练任务导向型对话系统,该基础架构可以包括:意图网络,信念跟踪,数据库操作器,策略网络以及生成网络。这整个系统学习一个从对话历史到系统回复的映射,利用编码-解码器模型训练整个系统。其缺点在于不仅需要大量训练数据,且由于训练数据中忽略句法信息和语法关系的探索,系统健壮性和鲁棒性欠缺。
在相关技术中,流水线模型依次执行不同模块来达到对话目的,模块间耦合度高互相依赖,当调整一个模块到一个新环境或者用新数据进一步更新,所有其他模块都要进行相应调整以保证全局最优;不同场景发生转换时构造对应语义槽需要大量人工操作,且模型灵活性不强,功能单一难以适应新领域。端到端模型将所有模块进行封装,通过交互模块与外部结构化数据通信,完成对话任务;但是,以监督学习方式进行训练时需要大量注释数据,在实际对话工程中,特别是新领域预热阶段获取特定的对话数据是相当困难和耗费人力的;在训练数据处理中缺乏对句法信息的探索,在整体训练时可能无法针对特定场景找到好的解决策略。
基于此,本申请实施例提供了一种数据采集方法,应用于终端设备。该方法的基本思想是:获取智能家居设备的状态参数;将智能家居设备的状态参数发送至云端设备,并接收云端设备发送的第一类问题,其中,第一类问题与目标场景具有关联关系,且目标场景是由云端设备根据智能家居设备的状态参数确定的;将第一类问题向用户进行推送并采集用户的答复语句,建立第一语料库;将第一语料库发送至云端设备,以使得云端设备根据第一语料库训练更新问答模型。
本申请实施例还提供了一种数据采集方法,应用于云端设备。该方法的基本思想是:接收终端设备发送的智能家居设备的状态参数;根据智能家居设备的状态参数确定目标场景,并根据目标场景,从第一预设问题集中确定第一类问题;将第一类问题发送给终端设备;接收终端设备返回的第一语料库,并根据第一语料库训练更新问答模型。
这样,终端设备通过与目标场景具有关联关系的第一类问题以及对应的用户的答复语句建立第一语料库,云端设备可以根据第一语料库更新问答模型,该问答模型能够根据用户的答复语句提供回复语句或者关于智能家居设备的控制指令,以使得在训练数据不足的情况下,还能够根据从日常对话的过程中获取的语料库作为更新问答模型的训练数据,从而根据更新后的问答模型不仅具备基础问答能力,而且还能够结合场景实现更准确的交互式问答,增加了用户粘度,达到智能场景精确问答的目的。
下面将结合附图对本申请各实施例进行详细说明。
本申请的一实施例中,参见图3,其示出了本申请实施例提供的一种智能家居联动的问答数据采集方法的流程示意图。如图3所示,该方法可以包括:
S101、获取智能家居设备的状态参数。
S102、将智能家居设备的状态参数发送至云端设备,并接收云端设备发送的第一类问题。
需要说明的是,在本申请实施例中,第一类问题与目标场景具有关联关系,且目标场景是由云端设备根据智能家居设备的状态参数确定的。也就是说,本申请实施例在进行问答数据采集时,是与智能家居设备的状态相关联的,即是一种智能家居联动的问答数据采集方法。
还需要说明的是,本申请实施例提供的问答数据采集方法的执行主体是终端设备。另外,本申请实施例提供的问答数据采集方法应用于问答数据采集系统。在问答数据采集系统中,除包括终端设备之外,还可以包括云端设备和若干个智能家居设备。其中,该终端设备不仅能够通过与用户之间的交互进行数据采集以建立语料库,还能够通过与用户、云端设备以及智能家居设备之间的交互,实现对智能家居设备的控制以及与用户进行日常对话等。
还需要说明的是,终端设备可以包括嵌入设置在家庭不同区域的一个或者多个智能终端设备,且这一个或多个智能终端设备均与云端设备通信连接,以向云端设备发送数据,或者执行云端设备下发的指令等,终端设备还与家庭中的各智能家居设备通信连接,以实现对智能家居设备的状态控制。另外,终端设备还可以具有语音播报功能,且包括有显示屏幕,如智慧屏等。
还需要说明的是,终端设备可以实时(也可以周期性或者在特定时间,甚至也可以是满足一定的预设条件时)获取各智能家居设备的状态参数并发送给云端设备。示例性地,智能家居设备的状态参数可以包括:门锁的开关状态,空调设置的温度,温度传感器测定的室内温度,湿度传感器测定的室内湿度,冰箱内部的温度,窗帘以及灯的开关状态等。这样,云端设备在接收到智能家居设备的状态参数之后,就可以根据智能家居设备的状态参数确定当前场景是否符合某一目标场景,然后将与目标场景具有关联关系的第一类问题发送给终端设备。
示例性地,目标场景可以包括“回家”场景,“睡觉”场景,“学习”场景等等。例如,当根据智能家居设备的状态参数确定入户门锁开启,则可以确定目标场景为“回家”场景,此时,云端设备就将与“回家”场景有关的第一类问题发送给终端设备,这时候,第一类问题可以包括“需要打开空调吗”“需要打开窗帘吗”等等。
还需要说明的是,在本申请实施例中,与目标场景关联的第一类问题通常携带有目标场景的场景标签,这样,云端设备可以快速确定需要进行发送的第一类问题。
另外,终端设备还可以实时获取用户的语音指令,并将用户的语音指令转换为文字信息后发送给云端设备,云端设备也可以对文字信息进行解析,判断该文字信息是否与目标场景具有关联关系。例如,当用户的语音指令为“我回家了”时,云端设备也可以确定当前场景为“回家”场景,并将“回家”场景下的第一类问题发送给终端设备。也就是说,本申请实施例不仅可以获取智能家居设备的状态参数发送给云端设备,使得云端设备据此进行目标场景确定并发送问题,还可以根据用户的语音指令进行目标场景确定并发送问题。
S103、将第一类问题向用户进行推送并采集用户的答复语句,建立第一语料库。
需要说明的是,终端设备在接收云端设备发送的第一类问题之后,就将第一类问题向用户进行推送并采集用户的答复语句。在本申请实施例中,将第一类问题向用户进行推送的方式可以包括:采用语音播报的方式向用户推送第一类问题,或者,采用屏幕展示方式向用户推送第一类问题。
还需要说明的是,由于第一类问题是与目标场景关联的问题,即与当前场景具有密切的关系,那么在向用户推送第一类问题时,需要具有较强的实时性。因此,本申请实施例优选采用语音播报的方式向用户推送第一类问题,以便用户能够实时听取到终端设备播报的第一类问题并作出相应的答复,从而终端设备能够快速采集到用户的答复语句。
在一些实施例中,所述采集用户的答复语句,可以包括:从两个预设选项中,确定用户的答复语句;其中,两个预设选项包括“好”和“不用”。
需要说明的是,在向用户推送第一类问题时,本申请实施例推送的问题通常为肯定否定类型的问题。这时候,用户只需要回答“好”或者“不用”(也可以是“好的”或者“不需要”等表示肯定或者否定的答复语句)即可。
在一些实施例中,在采集用户的答复语句之后,该方法还可以包括:
将答复语句转换为文本信息;
将文本信息发送至云端设备,并接收云端设备返回的回复语句或者控制指令;
将回复语句推送给用户;或者将控制指令发送给智能家居设备,控制指令用于指示智能家居设备对自身的状态进行控制操作。
需要说明的是,在采集用户的答复语句之后,终端设备会将答复语句转换为文本信息,例如转换为汉字等,并将推送的问题和用户的答复语句保存在终端设备的本地存储器中,然后在一定的时间周期内发送给云端设备。云端设备根据接收到的文本信息生成相应的回复语句或者控制指令后发送给终端设备。
在本申请实施例中,回复语句可以包括智能家居设备的硬件状态的信息,例如:当前温度是26度,或者现在时间是晚上9点等,这类回复语句可以直接进行播报或者以文字形式在终端设备的屏幕显示;控制指令通常用于改变智能家居设备的状态参数,这时候需要终端设备将控制指令发送给智能家居设备,以使得智能家居设备对自身的状态进行控制操作,例如打开窗帘,或者将空调温度调节到23度等。
这样,本申请实施例可以根据第一类问题以及用户所回复的答复语句,建立第一语料库。具体来说,在一些实施例中,所述建立第一语料库,可以包括:
根据第一类问题以及对应的答复语句,组成第一对话应答序列;
对第一对话应答序列进行目标场景的场景标签标记,得到第一语料库。
需要说明的是,在建立第一语料库时,首先根据第一类问题以及其所对应的答复语句,组成第一对话应答序列,然后对第一对话应答序列标记目标场景的场景标签,从而得到第一语料库,并将第一语料库保存在终端设备的本地存储器中。也就是说,第一语料库由若干个标记有目标场景的场景标签的第一对话应答序列组成。
还需要说明的是,第一语料库不仅可以包括第一类问题和对应的答复语句,还可以包括,在将答复语句发送给云端设备之后,云端设备返回的回复语句或者控制指令;以及,用户之后可能的与终端设备的进一步对话内容。
S104、将第一语料库发送至云端设备,以使得云端设备根据第一语料库训练更新问答模型。
需要说明的是,本申请实施例在终端设备与用户进行日常对话的过程中进行语料数据的采集得到第一语料库。也就是说,在对话过程中,第一语料库会被不断扩充,本申请实施例可以在每间隔预设时间周期,将第一语料库发送给云端设备,或者在第一语料库中的第一对话应答序列的总量达到预设阈值时,将第一语料库发送给云端设备,或者也可以实时将第一语料库发送各位云端设备。使得云端设备在接收第一语料库之后,根据第一语料库对问答模型进行训练更新。该问答模型可以用于根据用户的答复语句向终端设备提供回复语句或者提供关于智能家居设备的控制指令。另外,该问答模型还可以对智能家居设备的状态参数进行分析,确定目标场景以及对应的第一类问题,以及自动分析用户的习惯特征生成更多目标场景以及对应的第一类问题。
由于通过与用户的日常对话生成第一语料库,并根据第一语料库更新问答模型,使得模型能够准确分析出当前用户的行为习惯,从而能够在不同的目标场景下,为用户进行更准确的问题推送以及答复,具有更强的精确性。
在一些实施例中,该方法还可以包括:
接收云端设备发送的第二类问题;其中,第二类问题与目标场景无关联关系且是由云端设备随机发送的;
将第二类问题向用户进行推送并采集用户的答复语句,建立第二语料库;
将第二语料库发送至云端设备。
需要说明的是,在本申请实施例中,终端设备除了在目标场景下,接收与目标场景具有关联关系的第一类问题之外,终端设备还会接收与目标场景无关联关系的第二类问题,而且第二类问题是云端设备随机进行发送的。也就是说,第二类问题与目标场景没有关联,这类问题不携带目标场景的场景标签,可以利用用户碎片时间随机进行推送。
还需要说明的是,对于第二类问题,采集用户的答复语句的方式以及在采集用户的答复语句之后所执行的操作均与前述针对第一类问题的描述一致。不同之处在于,在将第二类问题向用户进行推送时,是在碎片化时间段进行的随机问题推送,与当前场景并没有密切的关系,那么在向用户推送第二类问题时,具有更强的随机性,因此,本申请实施例优选采用文字显示的方式向用户推送第二类问题,从而在碎片化时间段获取第二类问题以及对应的答复语句。
这样,本申请实施例可以根据第二类问题以及用户所回复的答复语句,建立第二语料库。具体来说,在一些实施例中,所述建立第二语料库,可以包括:
根据第二类问题以及对应的答复语句,组成第二对话应答序列;
根据第二对话应答序列,得到第二语料库。
需要说明的是,在建立第二语料库时,首先根据第二类问题以及其所对应的答复语句,组成第二对话应答序列,从而得到第二语料库,并将第二语料库保存在终端设备的本地存储器中。也就是说,第二语料库由若干个第二对话应答序列组成,与第一语料库不同,第二语料库中的第二对话应答序列并没有标记目标场景的场景标签,即第二语料库是更为泛化的基础语料库。
还需要说明的是,第二语料库不仅可以包括第二类问题和对应的答复语句,还可以包括,在将答复语句发送给云端设备之后,云端设备返回的回复语句或者控制指令;以及,用户之后可能的与终端设备的进一步对话内容。
需要说明的是,本申请实施例在终端设备与用户进行日常对话的过程中进行语料数据的采集还得到第二语料库。也就是说,在对话过程中,第二语料库会被不断扩充,本申请实施例可以在每间隔预设时间周期,将第二语料库发送给云端设备,或者在第二语料库中的第二对话应答序列的总量达到预设阈值时,将第二语料库发送给云端设备,或者也可以实时将第二语料库发送各位云端设备。使得云端设备在接收第二语料库之后,根据第二语料库对问答模型进行训练更新。
另外,由于本申请实施例可以获取第一语料库和第二语料库,因此可以同时或者不同时地将第一语料库和/或第二语料库发送给云端设备,用于训练更新问答模型。
由于通过与用户的日常对话生成第二语料库,并根据第二语料库更新问答模型,使得问答模型的泛化能力更强,具有更强的普适性。
在一些实施例中,该方法还可以包括:
接收用户的语音数据,并将语音数据转换为文本信息;
将智能家居设备的状态参数和文本信息发送至云端设备,并接收云端设备返回的回复语句或者控制指令;
将回复语句推送给所述用户;或者将控制指令发送给智能家居设备,控制指令用于指示智能家居设备对自身的状态进行控制操作。
需要说明的是,在本申请实施例中,终端设备不仅可以主动向用户推送问题,而且在没有主动向用户推送问题的情况下,终端设备还会接收用户的语音数据,并将语音数据转换为文本信息,将智能家居设备的状态参数和文本信息发送给云端设备,云端设备根据文本信息并结合智能家居设备的状态参数生成对应的回复语句或者控制指令,并发送给终端设备。从而能够结合场景信息对用户的语音数据进行合适的答复或者对智能家居设备的状态进行控制。
另外,用户主动发起的语音数据以及对应的回复语句或者控制指令也可以作为采集到的语料数据向云端设备进行发送,用于训练更新问答模型。
在一些实施例中,所述将控制指令发送给智能家居设备,可以包括:
将控制指令直接发送给智能家居设备;或者,
基于控制指令,在接收到所述用户的确认指示操作后,将控制指令发送给智能家居设备。
需要说明的是,在将控制指令发送给智能家居设备时,可以直接进行发送;或者,首先接收用户的确认指示操作后,再进行发送。即在将控制指令发送给智能家居设备之前,还可以首先向用户进行确认,从而避免误操作。
除此之外,在一些实施例中,在获取智能家居设备的状态参数之前,该方法还可以包括:
对智能家居设备的状态参数进行采集,并采用预设方式推送所述智能家居设备的状态参数;其中,预设方式包括语音播放方式和/或屏幕显示方式。
需要说明的是,本申请实施例还可以实时/周期性采集智能家居设备的状态参数,并将智能家居设备的状态参数进行语音播报或者屏幕显示。例如,间隔一定周期进行语音播报当前室内的温度、湿度等信息,或者将当前室内的温度、湿度等信息在终端设备的屏幕上进行显示,从而对于某些状态信息,用户无需询问就可以直接获取到,以便用户还能够主动发起语音数据进行一系列硬件控制操作,例如热水器加热,打开或关闭空调或新风系统,开关灯及窗帘等。
本实施例提供了一种数据采集方法,应用于终端设备,通过获取智能家居设备的状态参数;将智能家居设备的状态参数发送至云端设备,并接收云端设备发送的第一类问题,其中,第一类问题与目标场景具有关联关系,且目标场景是由云端设备根据智能家居设备的状态参数确定的;将第一类问题向用户进行推送并采集用户的答复语句,建立第一语料库;将第一语料库发送至云端设备,以使得云端设备根据第一语料库训练更新问答模型。这样,通过与目标场景具有关联关系的第一类问题以及对应的用户的答复语句建立第一语料库,云端设备可以根据第一语料库更新问答模型,以使得在训练数据不足的情况下,还能够根据从日常对话的过程中获取的语料库作为更新问答模型的训练数据,从而根据更新后的问答模型不仅具备基础问答能力,而且还能够结合场景实现更准确的交互式问答,增加了用户粘度,达到智能场景精确问答的目的。另外,本申请实施例还获取与场景无关的第二语料库,用于更新问答模型,使得模型能够更泛化且具有普适性;本申请实施例还采集智能家居设备的状态信息,不仅能将智能家居设备的状态信息进行推送,同时还能够根据用户的语音指令对智能硬件设备进行一系列控制操作。
本申请的另一实施例中,参见图4,其示出了本申请实施例提供的另一种智能家居联动的问答数据采集方法的流程示意图。如图4所示,该方法可以包括:
S201、接收终端设备发送的智能家居设备的状态参数。
S202、根据智能家居设备的状态参数确定目标场景,并根据目标场景,从第一预设问题集中确定第一类问题。
S203、将第一类问题发送给终端设备。
S204、接收终端设备返回的第一语料库,并根据第一语料库训练更新问答模型。
需要说明的是,本申请实施例提供的数据采集方法的执行主体是云端设备,例如云服务器、云平台等等。另外,本申请实施例提供的问答数据采集方法应用于问答数据采集系统。在问答数据采集系统中,除包括云端设备之外,还可以包括至少一个终端设备和若干个智能家居设备。其中,云端设备可以与至少一个终端设备连接,接收终端设备发送的各种数据,并向终端设备发送各种数据,如回复语句或者控制指令等,使得终端设备实现与用户的对话交互以及对智能家居设备的控制。
还需要说明的是,云端设备在接收终端设备发送的智能家居设备的状态参数之后,根据智能家居设备的状态参数确定目标场景,例如根据入户门锁的开启确定当前场景为“回家”场景;然后根据目标场景从第一问题集中确定出第一类问题,将第一类问题发送给终端设备,然后接收终端设备返回的第一语料库,并根据第一语料库训练更新问答模型。其中,第一语料库可以包括若干个由第一类问题和对应的用户的答复语句组成的第一对话应答序列,且第一对话应答序列具有目标场景的场景标签。
在一些实施例中,该方法还可以包括:
在预设碎片时间段,从第二预设问题集中随机选择第二类问题;
将第二类问题发送给终端设备;
接收终端设备返回的第二语料库,并根据第二语料库训练更新问答模型。
需要说明的是,在本申请实施例中,云端设备不仅会根据终端设备发送的智能家居设备的状态参数向终端设备发送第一类问题,而且还会在预设碎片时间段,从第二预设问题集中随机选择第二类问题发送给终端设备,并接收终端设备返回的第二语料库,用于训练更新问答模型。
也就是说,用于训练更新问答模型的语料库不仅可以包括与场景有关的第一语料库,还包括与场景无关的泛化的第二语料库。
在一些实施例中,第一预设问题集与第二预设问题集不同,该方法还可以包括:
确定至少一个待实时推送问题,并对至少一个待实时推送问题分别进行场景标签和硬件触发条件的标记,构造第一预设问题集;或者,
根据智能家居设备的状态参数设置碎片化的交互方式,生成至少一个待随机推送问题,根据至少一个待随机推送问题构造第二预设问题集。
需要说明的是,在本申请实施例中,第一预设问题集和第二预设问题集是不同的。构造第一预设问题集的方式可以为:确定至少一个待实时推送问题,并对其分别进行场景标签和硬件触发条件的标记,构成第一预设问题集。也就是说,第一预设问题集包括至少一个待实时推送问题,且每个待实时推送问题标记有场景标签和硬件触发条件。
构造第二预设问题集的方式可以为:根据智能家居设备的状态参数设置碎片化的交互方式,生成至少一个待随机推送问题,构成第二预设问题集。也就是说,第二预设问题集包括至少一个待随机推送问题。
另外,对于第一预设问题集,其中除了包括有至少一个待实时推送问题之外,还可以包括有相应的预设的答复语句。对于第二预设问题集,其中除了包括有至少一个待随机推送问题之外,还可以包括有相应的预设的答复语句。
在一些实施例中,所述从第一预设问题集中确定第一类问题,可以包括:
从第一预设问题集中查询标记有指示目标场景的场景标签且智能家居设备的状态参数满足目标场景的硬件触发条件对应的目标问题;
将查询到的目标问题确定为第一类问题。
需要说明的是,第一类问题是从第一预设问题集中确定的,将第一预设问题集中标记有指示目标场景的场景标签且智能家居设备的状态参数满足目标场景的硬件触发条件对应的目标问题确定为第一类问题。
在一些实施例中,所述从第二预设问题集中确定第二类问题,可以包括:
在预设碎片时间段,从第二预设问题集中随机选择一个问题;
将随机选择到的问题确定为第二类问题。
需要说明的是,第二类问题是从第二预设问题集中确定的,在预设的碎片时间段,从第二预设问题集中随机选择问题并确定为第二类问题。
在一些实施例中,该方法还可以包括:
获取训练样本集合,其中,训练样本集合包括至少一个对话应答序列样本,对话序列样本包括来自于第一预设问题集和/或第二预设问题集中的问题以及问题的答案;
对训练样本集合中的至少一个对话应答序列样本进行文本特征提取,生成至少一个对话应答序列样本对应的词向量特征矩阵;
若对话应答序列样本与智能家居设备的状态参数具有关联关系,则对对话应答序列对应的词向量特征矩阵标记硬件标签;
利用至少一个对话应答序列样本以及各自对应的词向量特征矩阵对预设模型进行训练,将训练后的模型确定为问答模型。
需要说明的是,本申请实施例在对问答模型进行更新之前,还会先基于训练样本集合确定初始的问答模型。具体来说,可以将第一预设问题集和/或第二预设问题集中的问题以及答案组成至少一个对话应答序列样本。可以理解,来自第一预设问题集的对话应答序列样本具有目标场景的场景标签,来自第二预设问题集的对话应答序列样本则不具有目标场景的场景标签。
对训练样本集合中的对话应答序列样本进行文本特征提取,生成与对话应答序列样本对应的词向量特征矩阵。例如:利用文本特征提取函数分别对问题和答案进行特征抽取,将每个出现的词汇单独视为一列特征,构成词汇表;并分别根据问题和答案的语句中每个字或者词的出现频率构成词频(Term Frequency,TF)特征矩阵,将词汇表与TF特征矩阵相乘,得到词向量特征矩阵。本领域技术人员可以以任何可行的本领域所公知的方式对对话应答序列进行特征提取,本申请实施例对此不作具体限定。
将与智能家居设备的状态参数具有关联关系的词向量特征矩阵标记相关的硬件标签,然后利用至少一个对话应答序列样本以及各自对应的词向量特征矩阵对预设模型进行训练,将训练后的模型确定为问答模型,也就是初始的问答模型。另外,在本申请实施例中,预设模型优选为循环神经网络(Recurrent Neural Network,RNN)模型。本领域技术人员可以以任何可行的本领域所公知的方式训练问答模型,本申请实施例对此不作具体限定。
在一些实施例中,该方法还可以包括:
对第一语料库和/或第二语料库中的至少一个对话应答序列进行文本特征提取,生成至少一个对话应答序列对应的词向量特征矩阵;
若对话应答序列与智能家居设备的状态参数具有关联关系,则对对话应答序列对应的词向量特征矩阵标记硬件标签;
利用至少一个对话应答序列以及各自对应的词向量特征矩阵对预设模型进行训练更新,得到问答模型。
需要说明的是,云端设备在接收到终端设备发送的第一语料库和/或第二语料库之后,就根据第一语料库和/或第二语料库更新问题模型。具体地,可以对第一语料库和/或第二语料库中的至少一个对话应答序列进行文本特征提取,生成至少一个对话应答序列对应的词向量特征矩阵;对与智能家居设备的状态参数具有关联关系的词向量特征矩阵标记硬件标签;最后利用至少一个对话应答序列以及各自对应的词向量特征矩阵对预设模型进行训练更新,得到问答模型,即基于第一语料库和/或第二语料库进行更新后的问答模型。
也就是说,本申请实施例对问答模型的更新是利用来自第一语料库和/或第二语料库中的至少一个对话应答序列以及各自对应的词向量特征矩阵对问答模型进行模型更新,并将更新后的问答模型确定为问答模型。
在一些实施例中,该方法还可以包括:
接收终端设备发送的文本信息;
利用问答模型对文本信息进行处理,生成回复语句或者控制指令;
将回复语句或者控制指令发送给终端设备。
需要说明的是,云端设备在接收终端设备发送的文本信息之后,就可以利用问答模型对文本信息进行处理,从而生成相应的回复语句或者控制指令,并发送给终端设备。
还需要说明的是,对于终端设备发送的文本信息,可能存在两种情况。其中,第一种情况可以包括:在云端设备向终端设备发送第一类问题或者第二类问题之后,终端设备根据用户的答复语句转换得到的文本信息;第二种情况可以包括:终端设备将用户直接发起的语音数据转换得到的文本信息,即在此之前,终端设备并未主动向用户推送问题。
对于第一种情况,需要结合所发送的问题以及用户的答复语句生成相应的回复指令或者控制指令。例如:推送给用户的问题为“需要打开窗帘吗”,用户的答复语句为“好”,此时,就可以生成打开窗帘的控制指令。又例如:推送给用户的问题为“你想知道现在室内的温度吗”,用户的答复语句为“好”,此时,就可以生成与当前室内的温度相关的回复语句,如“现在室内的温度为26度”。
对于第二种情况,还会结合智能家居设备的状态参数生成相应的回复指令或者控制指令。例如,用户在客厅中发出语音数据“把空调设置成24度”,那么当前的场景可能是与客厅关联的某种场景,就可以生成把客厅的空调设置为24度的控制指令,而不会去设置卧室或者其它房间的空调温度。另外,用户所处的位置可以通过红外传感器或者与用户进行交互的具体的数据采集装置的位置等方式来进行确定。
在一些实施例中,所述利用问答模型对文本信息进行处理,生成回复语句或者控制指令,可以包括:
通过问答模型对文本信息进行语义意图分析,得到分析结果;
若分析结果为询问式意图,则确定文本信息对应的候选回复语句,并从候选回复语句中确定回复语句;
若分析结果为命令式意图,则确定文本信息对应的硬件标签,并根据硬件标签生成控制指令。
需要说明的是,本申请实施例在处理文本信息生成回复语句或者控制指令时,还可以通过问答模型对文本信息进行语义意图分析,以确定分析结果为询问时意图还是命令式意图。
询问式意图表示用户的意图在于询问智能家居设备的状态信息或其它问题,例如现在的温度是多少,正在播放的是什么音乐等;对于询问式意图,首先确定与文本信息对应的候选回复语句,然后从候选回复语句中确定出回复语句。
示例性地,如果文字信息为“现在空调的温度是多少度”,可见,该文字信息表示对当前空调温度的询问,为询问式意图,此时的回复应该为“现在空调的温度为XX度”,云端设备将用于答复当前空调温度的回复语句发送给终端设备,终端设备将回复语句进行推送,例如语音播报或者在屏幕上显示:现在空调的温度为26度。
如果文字信息为“中国的首都是哪里”,可见,该文字信息是询问式意图,,但是与智能家居设备的状态参数无关,此时的回复应该为“中国的首都为北京”,云端设备将用于答复该问题的答复语句发送给终端设备,终端设备将回复语句进行推送,例如语音播报或者在屏幕上显示:中国的首都为北京。
命令式意图表示用户的意图在于直接执行某一动作,对于命令式意图,首先确定文本信息对应的硬件标签,然后根据硬件标签生成对应的控制指令。
示例性地,如果文字信息为“关闭空调”,可见,该文字信息为命令式意图,此时云端设备将用于关闭空调的控制指令发送给终端设备,终端设备将控制指令给空调,以关闭空调。同时,还可以进行语音播报:已经关闭空调。
在一些实施例中,在得到问答模型之后,该方法还可以包括:
通过对话模型生成第一类补充问题和第二类补充问题;其中,第一类补充问题携带有场景标签;
根据第一类补充问题更新第一预设问题集;以及
根据第二类补充问题更新第二预设问题集。
需要说明的是,本申请实施例在对问答模型进行更新之后,问答模型还会根据自身的更新,生成新的问题集合,即第一类补充问题和第二类补充问题,且第一类补充问题是携带有场景标签,用于更新扩充第一预设问题集;第二类补充问题不携带场景标签,为泛化的问题类型,用于补充第二预设问题集。
本实施例提供了一种数据采集方法,应用于云端设备,通过接收终端设备发送的智能家居设备的状态参数;根据智能家居设备的状态参数确定目标场景,并根据目标场景,从第一预设问题集中确定第一类问题;将第一类问题发送给终端设备;接收终端设备返回的第一语料库,并根据第一语料库训练更新问答模型。这样,云端设备根据第一语料库更新问答模型,问答模型能够根据用户的答复语句提供回复语句或者关于智能家居设备的控制指令,由于第一语料库与目标场景关联,据此更新的问答模型能够实现智能场景精确问答的目的,增加用户粘度,并且提高了云端设备所属系统的健壮性和鲁棒性,并增加用户粘度。另外,云端设备还根据与场景无关的第二语料库更新问答模型,使得模型能够更泛化且具有普适性。另外,由于在训练和更新问答模型时,还增加了硬件标签,将对话与智能家居场景进行关联,生成的回复可以分类为两种回复语句和控制指令,从而达到日常对话或者控制智能家居设备的状态的不同目的,优化用户体验。
本申请的又一实施例中,本申请实施例提供的智能家居联动的问答数据采集方法还可以基于图5所示的问答数据采集系统(也可以称作“对话系统”)来实现。参见图5,其示出了本申请实施例提供的一种问答数据采集系统50的组成结构示意图,如图5所示,该问答数据采集系统50可以包括,终端设备(也称作“智能终端”)80、云端设备(也可以称作“云平台”、“数据中心”等)100以及若干个智能家居设备。其中,终端设备80具体可以包括数据采集与交互模块、智能家居模块以及场景应答模块,云端设备100具体可以包括语言理解模块(也称作语言处理模块)和自学习模块,下面将结合数据采集系统50中的各组成部分以及具体功能实现对本申请实施例提供的数据采集方法进行详细阐述。
数据采集与交互模块,用于接收云端设备100发送的问题并进行推送,推送的问题包括场景内智能家居设备状态问答检测题,用户只需做出“好/不用”选择,终端设备80会将推送的问题以及用户的选择进行保存,并执行回复和/或对智能家居设备进行相应的控制操作。例如:当推送的问题为“你想知道现在室内的温度吗”,当用户回复“好”时,就可以通过语音方式执行回复,如语音播报“现在室内的温度是26摄氏度”;或者通过屏幕显示方式执行回复,如在终端设备80的智慧屏上显示“现在室内的温度是26℃”。同样的,推送问题的方式也可以为语音或者文字等方式。通过这样的方式,将推动的问题以及用户的答复保存在自身的本地存储器中,即可获得家庭场景下的基础对话语料库,将这些基础对话语料库发送给云端设备100,作为自学习的数据基础。
另外,家庭场景下的对话与区域有强对应关系,推送问题的方式可以分为实时推送和随机推送两种;对于实时推送方式,可以通过智能家居设备的动作等进行触发,例如:用户回家时打开入户门或者用户发出语音消息“我回家了”,则立即触发“回家”场景下的实时问题播报,可以采用语音播报的交互形式,对用户是否开灯,是否打开空调等进行询问,用户通过回答“好/不用”做出反馈;或者用户在进入书房时或者用户发出语音消息“我学习了”,则立即触发学习场景下的实时问题播报,可以采用语音播报的交互形式,对用户是否改变灯光模式等进行询问,用户通过回答“好/不用”做出反馈;建立特定场景下的基础对话语料库(即前述实施例中的第一语料库)并进行保存。
还需要说明的是,终端设备80的数量可以为多个,分别设置在客厅、卧室、书房以及厨房等位置;或者,终端设备80的数量也可以为一个。本申请实施例还可以通过红外感应装置等确定用户所处的具体区域。
对于随机推送方式,可以通过随机推送问题到终端设备的智慧屏,利用用户碎片时间进行数据采集,构建更为泛化的家庭场景基础语料库(即前述实施例中的第二语料库)并进行保存。
数据采集与交互模块将保存的第一语料库和第二语料库发送给云端设备100。
数据采集与交互模块,还用于进行语音和文字的互转,通过该模块可将用户输入的语音信息转为文字信息如汉字,并进行存储与传输。
智能家居模块,用于实时采集智能家居场景的状态参数,例如,热水器水温,空气质量与湿度,冰箱内部温度,窗帘及灯开关状态等。
场景应答模块,通过智能家居模块实时采集的智能家居设备的状态,不仅能通过语音进行状态播报,同时能根据输入语音进行一系列硬件控制操作,例如热水器加热,打开或关闭空调或新风系统,开关灯及窗帘等。
云端设备100中的自学习模块一方面自动分析第二语料库,对问答模型模型(更新前的问答模型可以称作基础网络模型)进行微调更新,对问答模型进行针对性优化;另一方面,数据采集与交互模块在将第一语料库进行保存时,还会根据不同智能家居设备归属场景对第一语料库中的第一对话应答序列标记场景标签,自学习模块再对标记有场景标签的第一对话应答序列进行问答分析,并细化问答模型,从而能够达到智能场景精确问答的目的。云端设备100中的语言理解模块还基于前述获取的问答模型,对用户输入的话语(即数据采集与交互模块发送过来的文字信息)进行特征提取与分类,并进行槽填充,同时利用句法分析进行意图检测与外部知识库相关条目进行相似度匹配。
也就是说,本申请实施例在获取第一语料库和/或第二语料库时,充分结合特定场景与智能家居状态,将这样的第一语料库和/第二语料库发送给云端设备100,云端设备100据此对问答模型进行训练更新后,在后续为用户进行问题推送以及问题答复时,能够更符合用户在特定场景下的习惯与需求。
基于上述的数据采集系统50以及各组成部分以及模块的具体功能实现,下面进一步对本申请实施例提供的数据采集方法进行说明,本申请实施例可以通过人工构造问题集的方式,按照问题推送机制分为实时推送方式和随机推送方式,构造不同的问题集(即前述实施例中的第一预设问题集和第二预设问题集)。在实时推送方式下构造的问题集需要添加场景标签和硬件触发条件,根据智能家居模块实时上报的智能家居设备的状态参数,从第一预设问题集中确定第一类问题并进行相应的第一类问题推送。通过保存的智能家居设备状态信息设置碎片化交互方式随机推送问题集,在碎片时间段自动从第二预设问题集中确定第二类问题并推送第二类问题到终端设备的智慧屏。问题包括但不限于“你想知道现在室内的温度吗”、“需要调高音箱音量吗”等一系列问题。
用户可以通过终端设备80的智慧屏对问题及对应答案进行选择,回答“好/不用”即可,终端设备80将用户每次选择的问答对(问答对即一对问题和回答,也就是对话应答序列)及当前的智能家居设备的状态保存至自身的存储器,与目标场景有关的对话应答序列首先标记场景标签。这样,使用这些对话应答序列对问答模型进行更新,问答模型通过单词及短语的分析提取即可获取在目标场景下用户感兴趣和常用的问题,以及该问题的解决方案。例如,对于回家场景,当询问用户“是否需要打开空调”时,用户总是回复“不用”,那么说明用户在回家场景下通常不需要打开空调,则可以在之后的回家场景中,不向用户推送“是否需要打开空调”的问题;如果询问用户“是否需要打开空调”时,用户总是回复“好”,而且每次都将空调温度设置为26℃,则可以在之后的回家场景中,在向用户推送“是否需要打开空调”的问题并确认用户回复“好”之后,直接将空调温度调节至26℃,或者在触发回家场景后,不需要向用户推送问题,直接打开空调并设置温度为26℃。
终端设备80将自身存储器中存储的第一语料库和/或第二语料库发送至云端设备100,云端设备100的处理器可以将问题和答案(或操作)按槽-值对模式进行运算和存储,并进行训练,训练过程参照图6,其示出了本申请实施例提供的又一种智能家居联动的问答数据采集方法的流程示意图。如图6所示,该方法可以包括:
S601、接收终端设备发送的对话应答序列。
需要说明的是,终端设备80分别通过实时推送方式和随机推送方式得到携带有场景标签的第一对话应答序列和不携带场景标签的第二对话应答序列。携带场景标签的对话应答序列组成第一语料库,不携带场景标签的对话应答序列组成第二语料库。终端设备80每间隔预设时间,例如一周或者一月等时间,将自身存储的第一语料库和/或第二语料库发送给云端设备100,以使得云端设备100对问答模型进行更新。
S602、对对话应答序列进行文本特征提取并获取词向量特征矩阵。
云端设备100可以包括语言理解模块,在接收第一对话应答序列和/或第二对话应答序列后,语言理解模块对对话应答序列进行问题抽取形成问题集合后,首先利用文本特征提取函数进行特征抽取,不需要考虑文本的出现顺序,将每个出现的词汇单独视为一列特征,构成词汇表,通过每个问题语句中每个字或单词出现频率构成TF特征矩阵,TF特征矩阵的每行代表一个训练文本,将词汇表和TF特征矩阵相乘获取问题的词向量特征矩阵(也称作初级词向量特征)。同理,采用相同的方法对答复语句也进行相应特征提取,得到答复语句的词向量特征矩阵。
在TF特征矩阵中,每个字/词的词频根据下式进行确定:
Figure BDA0003200653750000251
S603、判断对话应答序列是否与智能家居设备的状态参数相关。
需要说明的是,在智能家居场景下,对话应答行为可能与环境中智能家居设备的状态参数相关。因此,在对对话应答序列进行文本特征提取之后,判断对话应答序列是否与智能家居设备的状态参数相关。
如果判断结果为是,则执行步骤S604;否则,执行步骤S605。
S604、对与智能家居的状态参数相关的词汇标记相关的硬件标签。
需要说明的是,在获取词向量和词频特征矩阵(即词向量特征矩阵)后,对与智能家居的状态参数相关的词汇标记与硬件相关的标签,例如在词向量特征矩阵中添加一行或一列,用于标记硬件标签。这样,词向量特征矩阵就携带有硬件标签。
S605、神经网络模型训练。
需要说明的是,在进行模型训练时,将对话应答序列和词向量特征矩阵均输入问答模型(优选为循环神经网络)进行训练,对于第一对话应答序列,其还携带有场景标签。神经网络为编码-解码结构,编码结构包含意图分析编码器和语义编码器两部分,意图分析编码器通过长句语义分析获取当前对话的意图,语义编码器通过随机滑动窗口和全连接层,估计候选答复语句的词向量和/或与硬件有关的标签,解码器通过全连接层生成对应回复语句或与硬件相关的标签。
这样,由于训练的对话应答序列携带有不同的场景标签或者不携带场景标签,训练的初级词特征向量标记有硬件标签或者未标记硬件标签,从而对话模型能够根据输入的对话应答序列准确或者当前的场景更准确地捕获用户意图并预测对话应答序列是否与硬件状态相关,一方面能够对用户的输入语音数据进行准确的答复和执行相应的操作;另一方面,在不同的场景下可以触发更符合用户在当前场景的偏好的推送问题,并智能化控制智能家居设备的状态。
另外,在本申请实施例中,数据采集与交互模块可以采用语音软件开发工具包(Software Development Kit,SDK)实现将语音信息转为文字信息,并发送给云端设备100,例如将普通话转为文字信息。
云端设备100的语言理解模块将数据采集与用户交互模块发送的文字信息进行单词和短语分割,将字符串转为词频特征矩阵进行保存,对于输入计算机的中文长句先转化为计算机可识别的特征向量后方可进行后续运算,首先利用文本特征提取函数进行特征抽取,生成TF特征矩阵,通过每个字或单词出现频率构成TF特征矩阵,并通过Word2Vec方法将TF特征矩阵转化为特征向量,作为问答模型的输入,问答模型经过训练,对输入的特征向量进行语义和意图分析,例如:确认该语句是命令式意图还是询问式意图,并获得候选回复词向量和/或硬件标签,还可以通过支持向量机(Support Vector Machine,SVM分类器)作为决策层,对最终生成的回复进行分类。
具体地,参见图7,其示出了本申请实施例提供的再一种智能家居联动的问答数据采集方法的流程示意图。如图7所示,该方法可以包括:
S701、数据采集与交互模块将文字信息发送给云端设备。
S702、语言理解模块对文字信息进行语言理解和特征变换。
S703、问答模型对特征向量进行语义和意图分析。
S704、SVM分类器进行分类。
S705、生成日常对话,输出回答语句。
S706、生成控制指令,执行相关操作。
需要说明的是,数据采集与交互模块在获取到用户的语音信息之后,将语音信息转换为文字信息发送给云端设备100,云端设备100的语言理解模块可以通过问答模型对文字信息进行语言理解和特征变换得到特征向量后,将特征向量输入问答模型,根据问答模型对特征向量进行语义和意图分析,确认该特征向量代表的语音信息是命令式意图还是询问式意图,并获得候选回复词向量和/或硬件标签,通过SVM分类器对最终的回复进行分类。
具体来说,如果是询问型式意图,就通过云端设备100的处理以及智能家居模块实时采集的智能家居的状态参数进行相应回复,如生成日常对话的回答语句后发送给终端设备,终端设备通过场景应答模块将回答语句输出,例如通过语音方式或者在终端设备的智慧屏上显示等方式输出,以应答用户;如果是命令式意图,就生成控制智能家居设备的控制指令后发送给终端设备,场景应答模块通过智能家居模块将控制指令发送给智能家居设备,以使得智能家居设备执行有关的命令动作,改变自身的状态参数。
简言之,本申请实施例提供的智能家居联动的问答数据采集方法可以应用于问答数据采集系统,问答数据采集系统可以包括数据采集与交互模块,通过向终端设备推送场景内智能家居状态问答检测题,用户只需做出“好/不用”选择,终端设备的存储器对用户选择的问答测试题进行保存,并执行回复或控制操作,即可获得家庭场景下的基础对话语料库,作为自学习的数据基础。家庭场景下的数据采集系统与终端设备区域有强对应关系,数据采集与交互模块向终端设备推送问题的模式分为实时推送和随机推送两种,通过设定与硬件动作相关的实时推送机制,其包括但不限于用户回家时打开入户门,立即触发实时问题播报,采用语音播报交互形式,对用户是否开灯,是否打空调等进行询问,用户通过回答“好/不用”控制系统做出反馈,建立特定场景下基础对话语料库(第一语料库);设置随机推送问题到智慧屏的方式,利用用户碎片时间进行数据采集,构建更为泛化的家庭场景基础语料库(第二语料库)。
数据采集与交互模块根据不同硬件归属场景对第一语料库中的问题进行标记,然后将第一语料库和第二语料库发送给云端设备,云端设备的自学习模块一方面自动分析第二语料库,对问答模型进行微调更新,对问答模型进行针对性优化,另一方面对第一语料库中的第一对话应答序列进行问答分析,并细化问答模型,达到智能场景精确问答目的。
数据采集与用户交互模块还可以实现语音、文字互转,通过该模块可将用户语音输入转为文字并进行存储与传输。
基于场景的场景应答模块,通过智能家居模块实时采集智能家居场景中智能家居设备的状态参数,例如,热水器水温,空气质量与湿度,冰箱内部温度,窗帘及灯开关状态等,不仅能通过语音进行状态播报,同时能根据输入语音进行一系列控制操作,例如热水器加热,打开或关闭空调或新风系统,开关灯及窗帘等。
云端设备还可以包括语言理解模块,该模块通过问答模型,对用户输入的话语进行特征提取与分类,并进行槽填充,同时利用句法分析进行意图检测与外部知识库相关条目进行相似度匹配。
本申请实施例首先进行问题构造与推送,人工构造问题集,按照推送方式分为两类,实时推送和随机推送问题集的构造方式不同,实时推送的问题需要添加场景标签和硬件触发条件,通过智能家居模块实时上报的智能家居的状态数据,进行相应的问题推送。通过存储器保存的智能硬件平台智能硬件设备状态信息设置碎片化交互方式随机推送问题集,后端在碎片时间段自动推送问题到智慧屏终端。问题包括但不限于,“你想知道现在室内的温度吗?”、“需要调高音箱音量吗?”等一系列问题。数据采集和交互模块,可以采用自主研发的语音SDK在终端设备将普通话转为文字信息作为云端设备的语言处理模块的输入。
然后进行用户反馈及本地存储,用户通过智慧屏终端可以对问题及对应答案进行选择,回答“好/不用”即可,终端设备的存储器将用户每次选择的问答对及当前的智能家居设备的状态参数进行保存,与场景有关的问答对首先标记场景标签,后续通过单词及短语的分析提取可获取该场景中用户感兴趣和常用的问题,以及该问题的解决方案。
然后通过云端设备训练对话模型,终端设备将本地存储器中的数据上报云端设备,云端设备的处理器将问题和答案(或操作)按槽-值对模式进行运算和存储。训练过程如下:
步骤1:将对话应答序列输入云端设备的文本特征提取模块。问题抽取形成问题集合,首先利用文本特征提取函数进行特征抽取,不考虑文本出现顺序,将每个出现的词汇单独视为一列特征,构成词汇表,对每个问题语句每个字或单词出现频率构成TF特征矩阵,每行代表一个训练文本,获取初级词向量特征。同理回答语句也进行相应初级特征提取。
步骤2:在智能家居场景下,对话应答行为可能与环境中智能家居设备的状态参数相关,在获取词向量和词频矩阵后,标记与硬件相关的硬件标签。
步骤3:将对话应答序列与初级词向量特征输入循环神经网络模型进行训练。神经网络为编码-解码结构,编码结构包含两部分,意图分析编码器通过长句语义分析获取当前对话的意图,语义编码器通过随机滑动窗口和全连接层,估计候选答复语句的词向量或与硬件有关的标签,解码器通过全连接层生成对应回复语句或与硬件相关的标签。
云端设备的语言理解模块可以将数据采集与交互模块输入的语句进行单词和短语分割,将字符串转为词频矩阵进行保存,将输入计算机的中文长句转化为计算机可识别的特征向量可进行后续运算,首先利用文本特征提取函数进行特征抽取,生成TF矩阵,通过每个字或单词出现频率构成特征矩阵,通过Word2Vec方法将词频矩阵转化为特征向量,作为循环神经网络的输入,循环神经网络采用云端设备预训练模型进行语义和意图分析,例如该语句是命令或询问等意图,获得候选回复词向量或硬件相关的标签,SVM分类器作为决策层,对系统最终动作进行分类。
场景应答模块对于询问式意图通过云端设备处理及智能家居模块采集的智能家居的状态信息进行相应回复,命令式意图需要通过智能家居模块进行控制指令的下发,执行相关操作。
通过上述实施例对前述实施例的具体实现进行了详细阐述,从中可以看出,本申请实施例提出的一种智能家居联动的问答数据采集方法及系统,不仅具备基本问答能力,且通过智能家居模块对智能家居设备的状态和执行操作进行控制。其中,数据采集与交互模块按照推送方式问题集的构造方式不同,实时推送的问题需要添加场景标签和硬件触发条件,进行相应的问题推送。通过存储器保存的智能家居设备状态信息设置碎片化交互方式随机推送问题集。通过向终端设备推送场景内智能家居状态问答检测题,用户只需做出“好/不用”选择,终端设备的存储器对当前场景下用户选择的问答测试题进行保存,并执行回复或控制操作,即可获得该场景下的基础汉字语料库,作为自学习的数据基础。云端设备不仅可以学习基于语言的问答模型,同时通过增加硬件相关标签,将对话与智能家居场景进行关联,回复内容可被支持向量机分类为两种类型,达到不同目的,从而优化用户体验,增加用户粘度。基于场景的场景应答模块,通过智能家居模块实时采集智能家居场景中智能家居设备的状态参数,例如,热水器水温,空气质量与湿度,冰箱内部温度,窗帘及灯开关状态等,不仅能通过语音进行状态播报,同时能根据输入语音进行一系列控制操作,例如热水器加热,打开或关闭空调或新风系统,开关灯及窗帘等。本申请实施例提供的控制方法可以在具有智慧屏的终端设备上运行,该终端设备库归属于一个数据采集系统,整个数据采集系统包括至少一个终端设备,云端设备和多个智能家居设备。
与相关技术相比,本申请实施例提供的数据采集方法至少具有以下优点:不仅具备基础问答能力,且通过智能家居模块对智能家居设备的状态和执行操作进行控制;本申请实施例提出的数据采集模式,在数据不足的情况下,通过半自动方式进行数据采集,通过向终端设备推送场景内智能家居状态问答检测题,用户只需做出“好/不用”选择,终端设备的存储器对当前场景下用户选择的问答测试题进行保存,并执行回复或控制操作,即可获得该场景下的基础汉字语料库,作为自学习的数据基础。本申请实施例提出基于场景的场景应答模块,询问式意图通过匹配数据中心槽-值对及智能家居设备的状态参数进行相应回复,命令式意图则通过智能家居平台进行指令下发,使智能家居设备执行相关操作。
本申请的再一实施例中,参见图8,其示出了本申请实施例提供的一种终端设备80的组成结构示意图。如图8所示,该终端设备80可以包括获取单元801,第一发送单元802,第一接收单元803,语料建立单元804,其中,
获取单元801,配置为获取智能家居设备的状态参数;
第一发送单元802,配置为将所述智能家居设备的状态参数发送至云端设备;
第一接收单元803,配置为接收所述云端设备发送的第一类问题,其中,所述第一类问题与目标场景具有关联关系,且所述目标场景是由所述云端设备根据所述智能家居设备的状态参数确定的;
语料建立单元804,配置为将所述第一类问题向用户进行推送并采集所述用户的答复语句,建立第一语料库;
第一发送单元802,还配置为将所述第一语料库发送至所述云端设备,以使得所述云端设备根据所述第一语料库训练更新问答模型。
在一些实施例中,第一接收单元803,还配置为接收所述云端设备发送的第二类问题;其中,所述第二类问题与所述目标场景无关联关系且是由所述云端设备随机发送的;
语料建立单元804,还配置为将所述第二类问题向所述用户进行推送并采集所述用户的答复语句,建立第二语料库;
第一发送单元802,还配置为将所述第二语料库发送至所述云端设备。
在一些实施例中,语料建立单元804,具体配置为根据所述第一类问题以及对应的答复语句,组成第一对话应答序列;以及对所述第一对话应答序列进行所述目标场景的场景标签标记,得到所述第一语料库。
在一些实施例中,语料建立单元804,具体配置为根据所述第二类问题以及对应的答复语句,组成第二对话应答序列;以及根据所述第二对话应答序列,得到所述第二语料库。
在一些实施例中,语料建立单元804,具体配置为从两个预设选项中,确定所述用户的答复语句;其中,所述两个预设选项包括“好”和“不用”。
在一些实施例中,语料建立单元804,还配置为将所述答复语句转换为文本信息;
第一发送单元802,还配置为将所述文本信息发送至所述云端设备;
第一接收单元803,还配置为接收所述云端设备返回的回复语句或者控制指令;
语料建立单元804,还配置为将所述回复语句推送给所述用户;或者将所述控制指令发送给所述智能家居设备,其中,所述控制指令用于指示所述智能家居设备对自身的状态进行控制操作。
在一些实施例中,第一接收单元803,还配置为接收所述用户的语音数据;
语料建立单元804,还配置为将所述语音数据转换为文本信息;
第一发送单元802,还配置为将所述智能家居设备的状态参数和所述文本信息发送至所述云端设备,并接收所述云端设备返回的回复语句或者控制指令;
语料建立单元804,还配置为将所述回复语句推送给所述用户;或者将所述控制指令发送给所述智能家居设备,其中,所述控制指令用于指示所述智能家居设备对自身的状态进行控制操作。
在一些实施例中,所述获取单元801,还配置为对所述智能家居设备的状态参数进行采集;
语料建立单元804,还配置为采用预设方式推送所述智能家居设备的状态参数;其中,所述预设方式包括语音播放方式和/或屏幕显示方式。
可以理解地,在本实施例中,“单元”可以是部分电路、部分处理器、部分程序或软件等等,当然也可以是模块,还可以是非模块化的。而且在本实施例中的各组成部分可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
因此,本实施例提供了一种计算机存储介质,该计算机存储介质存储有计算机程序,所述计算机程序被第一处理器执行时实现前述实施例中应用于终端设备的任一项所述的智能家居联动的问答数据采集方法。
基于上述的一种终端设备80的组成以及计算机存储介质,参见图9,其示出了本申请实施例提供的一种终端设备80的具体硬件结构示意图。如图9所示,可以包括:第一通信接口901、第一存储器902和第一处理器903;各个组件通过第一总线系统904耦合在一起。可理解,第一总线系统904用于实现这些组件之间的连接通信。第一总线系统904除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图9中将各种总线都标为第一总线系统904。其中,第一通信接口901,用于在与其他外部网元之间进行收发信息过程中,信号的接收和发送;
第一存储器902,用于存储能够在第一处理器903上运行的计算机程序;
第一处理器903,用于在运行所述计算机程序时,执行:
获取智能家居设备的状态参数;
将所述智能家居设备的状态参数发送至云端设备,并接收所述云端设备发送的第一类问题,其中,所述第一类问题与目标场景具有关联关系,且所述目标场景是由所述云端设备根据所述智能家居设备的状态参数确定的;
将所述第一类问题向用户进行推送并采集所述用户的答复语句,建立第一语料库;
将所述第一语料库发送至所述云端设备,以使得所述云端设备根据所述第一语料库训练更新问答模型。
可以理解,本申请实施例中的第一存储器902可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步链动态随机存取存储器(Synchronous link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本文描述的系统和方法的第一存储器902旨在包括但不限于这些和任意其它适合类型的存储器。
而第一处理器903可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过第一处理器903中的硬件的集成逻辑电路或者软件形式的指令完成。上述的第一处理器903可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于第一存储器902,第一处理器903读取第一存储器902中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
可选地,作为另一个实施例,第一处理器903还配置为在运行所述计算机程序时,执行前述实施例中应用于终端设备的任一项所述的数据采集方法。
对于终端设备80而言,由于通过与目标场景具有关联关系的第一类问题以及对应的用户的答复语句建立第一语料库,云端设备可以根据第一语料库更新问答模型,以使得在训练数据不足的情况下,还能够根据从日常对话的过程中获取的语料库作为更新问答模型的训练数据,从而根据更新后的问答模型不仅具备基础问答能力,而且还能够结合场景实现更准确的交互式问答,增加了用户粘度,达到智能场景精确问答的目的。
本申请的再一实施例中,参见图10,其示出了本申请实施例提供的一种云端设备100的组成结构示意图。如图10所示,该云端设备100可以包括第二接收单元1001,确定单元1002,第二发送单元1003和训练单元1004,其中,
第二接收单元1001,配置为接收终端设备发送的智能家居设备的状态参数;
确定单元1002,配置为根据所述智能家居设备的状态参数确定目标场景,以及根据所述目标场景,从第一预设问题集中确定第一类问题;
第二发送单元1003,配置为将所述第一类问题发送给所述终端设备;
第二接收单元1001,还配置为接收所述终端设备返回的第一语料库;
训练单元1004,配置为根据所述第一语料库训练更新问答模型。
在一些实施例中,确定单元1002,还配置为在预设碎片时间段,从第二预设问题集中随机选择第二类问题;
第二发送单元1003,还配置为将所述第二类问题发送给所述终端设备;
第二接收单元1001,还配置为接收所述终端设备返回的第二语料库;
训练单元1004,还配置为根据所述第二语料库训练更新所述问答模型。
在一些实施例中,所述第一预设问题集与所述第二预设问题集不同,确定单元1002,还配置为确定至少一个待实时推送问题,并对所述至少一个待实时推送问题分别进行场景标签和硬件触发条件的标记,构造所述第一预设问题集;或者,根据所述智能家居设备的状态参数设置碎片化的交互方式,生成至少一个待随机推送问题,根据所述至少一个待随机推送问题构造所述第二预设问题集。
在一些实施例中,训练单元1004,还配置为对所述第一语料库和/或所述第二语料库中的至少一个对话应答序列进行文本特征提取,生成所述至少一个对话应答序列对应的词向量特征矩阵;以及若所述对话应答序列与所述智能家居设备的状态参数具有关联关系,则对所述对话应答序列对应的词向量特征矩阵标记硬件标签;以及利用所述至少一个对话应答序列以及各自对应的词向量特征矩阵对预设模型进行训练更新,得到所述问答模型。
在一些实施例中,第二接收单元1001,还配置为接收所述终端设备发送的文本信息;
训练单元1004,还配置为利用所述问答模型对所述文本信息进行处理,生成回复语句或者控制指令;
第二发送单元1003,还配置为将所述回复语句或者所述控制指令发送给所述终端设备。
在一些实施例中,训练单元1004,具体配置为通过所述问答模型对所述文本信息进行语义意图分析,得到分析结果;以及若所述分析结果为询问式意图,则确定所述文本信息对应的候选回复语句,并从所述候选回复语句中确定所述回复语句;以及若所述分析结果为命令式意图,则确定所述文本信息对应的硬件标签,并根据所述硬件标签生成所述控制指令。
可以理解地,在本实施例中,“单元”可以是部分电路、部分处理器、部分程序或软件等等,当然也可以是模块,还可以是非模块化的。而且在本实施例中的各组成部分可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中。因此,本实施例还提供了一种计算机存储介质,应用于云端设备100,该计算机存储介质存储有计算机程序,所述计算机程序被第一处理器执行时实现前述实施例中任一项所述的智能家居联动的问答数据采集方法。
基于上述的一种云端设备100的组成以及计算机存储介质,参见图11,其示出了本申请实施例提供的一种云端设备100的具体硬件结构示意图。如图11所示,可以包括:第二通信接口1101、第二存储器1102和第二处理器1103;各个组件通过第二总线系统1104耦合在一起。可理解,第二总线系统1104用于实现这些组件之间的连接通信。第二总线系统1104除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图11中将各种总线都标为第二总线系统1104。其中,第二通信接口1101,用于在与其他外部网元之间进行收发信息过程中,信号的接收和发送;
第二存储器1102,用于存储能够在第二处理器1103上运行的计算机程序;
第二处理器1103,用于在运行所述计算机程序时,执行:
接收终端设备发送的智能家居设备的状态参数;
根据所述智能家居设备的状态参数确定目标场景,并根据所述目标场景,从第一预设问题集中确定第一类问题;
将所述第一类问题发送给所述终端设备;
接收所述终端设备返回的第一语料库,并根据所述第一语料库训练更新问答模型。
需要说明的是,对于第二通信接口1101、第二存储器1102、第二处理器1103和第二总线系统1104,其具体的功能实现与前述第一通信接口901、第一存储器902、第一处理器903和第一总线系统904的描述一致,本申请实施例对此不再赘述。
可选地,作为另一个实施例,第二处理器1103还配置为在运行所述计算机程序时,执行前述实施例中应用于云端设备的任一项所述的数据采集方法。对于云端设备100而言,由于第一语料库与目标场景关联,据此更新的问答模型不仅具备基础问答能力,而且还能够结合场景实现更准确的交互式问答,增加了用户粘度,达到智能场景精确问答的目的。
基于上述的终端设备80和云端设备100,参见图12,其示出了本申请实施例提供的另一种问答数据采集系统50的组成结构示意图。如图12所示,该问答数据采集系统50至少包括前述实施例中任一项所述的终端设备80、云端设备100以及智能家居设备。
在一些实施例中,终端设备80和智能家居设备的数量均为至少一个。
对于问答数据采集系统50而言,由于终端设备80通过与目标场景具有关联关系的第一类问题以及对应的用户的答复语句建立第一语料库,云端设备100可以根据第一语料库更新问答模型,以使得在训练数据不足的情况下,还能够根据从日常对话的过程中获取的语料库作为更新问答模型的训练数据,从而根据更新后的问答模型不仅具备基础问答能力,而且还能够结合场景实现更准确的交互式问答,增加了用户粘度,达到智能场景精确问答的目的,还提高数据采集系统50的健壮性和鲁棒性。
以上所述,仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。
需要说明的是,在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (20)

1.一种智能家居联动的问答数据采集方法,其特征在于,应用于终端设备,所述方法包括:
获取智能家居设备的状态参数;
将所述智能家居设备的状态参数发送至云端设备,并接收所述云端设备发送的第一类问题,其中,所述第一类问题与目标场景具有关联关系,且所述目标场景是由所述云端设备根据所述智能家居设备的状态参数确定的;
将所述第一类问题向用户进行推送并采集所述用户的答复语句,建立第一语料库;
将所述第一语料库发送至所述云端设备,以使得所述云端设备根据所述第一语料库训练更新问答模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收所述云端设备发送的第二类问题;其中,所述第二类问题与所述目标场景无关联关系且是由所述云端设备随机发送的;
将所述第二类问题向所述用户进行推送并采集所述用户的答复语句,建立第二语料库;
将所述第二语料库发送至所述云端设备。
3.根据权利要求1所述的方法,其特征在于,所述建立第一语料库,包括:
根据所述第一类问题以及对应的答复语句,组成第一对话应答序列;
对所述第一对话应答序列进行所述目标场景的场景标签标记,得到所述第一语料库。
4.根据权利要求2所述的方法,其特征在于,所述建立第二语料库,包括:
根据所述第二类问题以及对应的答复语句,组成第二对话应答序列;
根据所述第二对话应答序列,得到所述第二语料库。
5.根据权利要求1或2所述的方法,其特征在于,所述采集所述用户的答复语句,包括:
从两个预设选项中,确定所述用户的答复语句;其中,所述两个预设选项包括“好”和“不用”。
6.根据权利要求1或2所述的方法,其特征在于,在所述采集所述用户的答复语句之后,所述方法还包括:
将所述答复语句转换为文本信息;
将所述文本信息发送至所述云端设备,并接收所述云端设备返回的回复语句或者控制指令;
将所述回复语句推送给所述用户;或者将所述控制指令发送给所述智能家居设备,其中,所述控制指令用于指示所述智能家居设备对自身的状态进行控制操作。
7.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
接收所述用户的语音数据,并将所述语音数据转换为文本信息;
将所述智能家居设备的状态参数和所述文本信息发送至所述云端设备,并接收所述云端设备返回的回复语句或者控制指令;
将所述回复语句推送给所述用户;或者将所述控制指令发送给所述智能家居设备,其中,所述控制指令用于指示所述智能家居设备对自身的状态进行控制操作。
8.根据权利要求1所述的方法,其特征在于,在所述获取智能家居设备的状态参数之前,所述方法还包括:
对所述智能家居设备的状态参数进行采集,并采用预设方式推送所述智能家居设备的状态参数;
其中,所述预设方式包括语音播放方式和/或屏幕显示方式。
9.一种智能家居联动的问答数据采集方法,其特征在于,应用于云端设备,所述方法包括:
接收终端设备发送的智能家居设备的状态参数;
根据所述智能家居设备的状态参数确定目标场景,并根据所述目标场景,从第一预设问题集中确定第一类问题;
将所述第一类问题发送给所述终端设备;
接收所述终端设备返回的第一语料库,并根据所述第一语料库训练更新问答模型。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
在预设碎片时间段,从第二预设问题集中随机选择第二类问题;
将所述第二类问题发送给所述终端设备;
接收所述终端设备返回的第二语料库,并根据所述第二语料库训练更新所述问答模型。
11.根据权利要求10所述的方法,其特征在于,所述第一预设问题集与所述第二预设问题集不同,所述方法还包括:
确定至少一个待实时推送问题,并对所述至少一个待实时推送问题分别进行场景标签和硬件触发条件的标记,构造所述第一预设问题集;或者,
根据所述智能家居设备的状态参数设置碎片化的交互方式,生成至少一个待随机推送问题,根据所述至少一个待随机推送问题构造所述第二预设问题集。
12.根据权利要求10所述的方法,其特征在于,所述方法还包括:
对所述第一语料库和/或所述第二语料库中的至少一个对话应答序列进行文本特征提取,生成所述至少一个对话应答序列对应的词向量特征矩阵;
若所述对话应答序列与所述智能家居设备的状态参数具有关联关系,则对所述对话应答序列对应的词向量特征矩阵标记硬件标签;
利用所述至少一个对话应答序列以及各自对应的词向量特征矩阵对预设模型进行训练更新,得到所述问答模型。
13.根据权利要求9所述的方法,其特征在于,所述方法还包括:
接收所述终端设备发送的文本信息;
利用所述问答模型对所述文本信息进行处理,生成回复语句或者控制指令;
将所述回复语句或者所述控制指令发送给所述终端设备。
14.根据权利要求13所述的方法,其特征在于,所述利用所述问答模型对所述文本信息进行处理,生成回复语句或者控制指令,包括:
通过所述问答模型对所述文本信息进行语义意图分析,得到分析结果;
若所述分析结果为询问式意图,则确定所述文本信息对应的候选回复语句,并从所述候选回复语句中确定所述回复语句;
若所述分析结果为命令式意图,则确定所述文本信息对应的硬件标签,并根据所述硬件标签生成所述控制指令。
15.一种终端设备,其特征在于,所述终端设备包括获取单元,第一发送单元,第一接收单元,语料建立单元,其中,
所述获取单元,配置为获取智能家居设备的状态参数;
所述第一发送单元,配置为将所述智能家居设备的状态参数发送至云端设备;
所述第一接收单元,配置为接收所述云端设备发送的第一类问题,其中,所述第一类问题与目标场景具有关联关系,且所述目标场景是由所述云端设备根据所述智能家居设备的状态参数确定的;
所述语料建立单元,配置为将所述第一类问题向用户进行推送并采集所述用户的答复语句,建立第一语料库;
所述第一发送单元,还配置为将所述第一语料库发送至所述云端设备,以使得所述云端设备根据所述第一语料库训练更新问答模型。
16.一种云端设备,其特征在于,所述云端设备包括第二接收单元,确定单元,第二发送单元和训练单元,其中,
所述第二接收单元,配置为接收终端设备发送的智能家居设备的状态参数;
所述确定单元,配置为根据所述智能家居设备的状态参数确定目标场景,以及根据所述目标场景,从第一预设问题集中确定第一类问题;
所述第二发送单元,配置为将所述第一类问题发送给所述终端设备;
所述第二接收单元,还配置为接收所述终端设备返回的第一语料库;
所述训练单元,配置为根据所述第一语料库训练更新问答模型。
17.一种终端设备,其特征在于,所述终端设备包括第一存储器和第一处理器,其中,
所述第一存储器,用于存储能够在所述第一处理器上运行的计算机程序;
所述第一处理器,用于在运行所述计算机程序时,执行如权利要求1至8任一项所述的智能家居联动的问答数据采集方法。
18.一种云端设备,其特征在于,所述云端设备包括第二存储器和第二处理器,其中,
所述第二存储器,用于存储能够在所述第二处理器上运行的计算机程序;
所述第二处理器,用于在运行所述计算机程序时,执行如权利要求9至14任一项所述的智能家居联动的问答数据采集方法。
19.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序被第一处理器执行时实现如权利要求1至8任一项所述的智能家居联动的问答数据采集方法,或者被第二处理器执行时实现如权利要求9至14任一项所述的智能家居联动的问答数据采集方法。
20.一种问答数据采集系统,其特征在于,所述问答数据采集系统包括如权利要求15或17所述的终端设备、权利要求16或18所述的云端设备以及智能家居设备。
CN202110902991.2A 2021-08-06 2021-08-06 智能家居联动的问答数据采集方法、设备、介质和系统 Pending CN115941369A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110902991.2A CN115941369A (zh) 2021-08-06 2021-08-06 智能家居联动的问答数据采集方法、设备、介质和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110902991.2A CN115941369A (zh) 2021-08-06 2021-08-06 智能家居联动的问答数据采集方法、设备、介质和系统

Publications (1)

Publication Number Publication Date
CN115941369A true CN115941369A (zh) 2023-04-07

Family

ID=86552703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110902991.2A Pending CN115941369A (zh) 2021-08-06 2021-08-06 智能家居联动的问答数据采集方法、设备、介质和系统

Country Status (1)

Country Link
CN (1) CN115941369A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116346598A (zh) * 2023-05-31 2023-06-27 四川中普盈通科技有限公司 一种数据传输控制的现场配置方法及网路接入系统
CN117076649A (zh) * 2023-10-13 2023-11-17 卓世科技(海南)有限公司 一种基于大模型思维链的应急信息查询方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116346598A (zh) * 2023-05-31 2023-06-27 四川中普盈通科技有限公司 一种数据传输控制的现场配置方法及网路接入系统
CN116346598B (zh) * 2023-05-31 2023-09-01 四川中普盈通科技有限公司 一种数据传输控制的现场配置方法及网路接入系统
CN117076649A (zh) * 2023-10-13 2023-11-17 卓世科技(海南)有限公司 一种基于大模型思维链的应急信息查询方法及装置
CN117076649B (zh) * 2023-10-13 2024-01-26 卓世科技(海南)有限公司 一种基于大模型思维链的应急信息查询方法及装置

Similar Documents

Publication Publication Date Title
CN107943998B (zh) 一种基于知识图谱的人机对话控制系统及方法
CN109410927B (zh) 离线命令词与云端解析结合的语音识别方法、装置和系统
WO2021082786A1 (zh) 语义理解模型的训练方法、装置、电子设备及存储介质
CN107437415B (zh) 一种智能语音交互方法及系统
CN109885810A (zh) 基于语义解析的人机问答方法、装置、设备和存储介质
CN112051743A (zh) 设备控制方法、冲突处理方法、相应的装置及电子设备
CN111081220B (zh) 车载语音交互方法、全双工对话系统、服务器和存储介质
CN108711420A (zh) 多语言混杂模型建立、数据获取方法及装置、电子设备
CN108304372A (zh) 实体提取方法和装置、计算机设备和存储介质
CN115941369A (zh) 智能家居联动的问答数据采集方法、设备、介质和系统
CN110807333B (zh) 一种语义理解模型的语义处理方法、装置及存储介质
CN104199810A (zh) 一种基于自然语言交互的智能服务方法及系统
CN112541060B (zh) 一种基于对抗训练的端到端任务型对话学习框架和方法
US11200885B1 (en) Goal-oriented dialog system
US11132994B1 (en) Multi-domain dialog state tracking
CN110210036A (zh) 一种意图识别方法及装置
CN114596844A (zh) 声学模型的训练方法、语音识别方法及相关设备
CN107832439A (zh) 多轮状态追踪的方法、系统及终端设备
WO2023168838A1 (zh) 语句文本的识别方法和装置、存储介质及电子装置
CN111178081B (zh) 语义识别的方法、服务器、电子设备及计算机存储介质
CN116959433B (zh) 文本处理方法、装置、电子设备和存储介质
CN110532393B (zh) 文本处理方法、装置及其智能电子设备
CN111192577B (zh) 交流装置及交流装置的控制程序
CN116431806A (zh) 自然语言理解方法及冰箱
CN114860938A (zh) 一种语句意图识别方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination