CN114842842A

CN114842842A - 智能设备的语音交互方法和装置、存储介质

Info

Publication number: CN114842842A
Application number: CN202210303279.5A
Authority: CN
Inventors: 王凯
Original assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2022-08-02

Abstract

本发明公开了一种智能设备的语音交互方法和装置、存储介质。涉及智能家居技术领域，该智能设备的语音交互方法包括：在获取到目标语音的情况下，对目标语音进行语义识别，得到目标语义，其中，目标语音为目标对象在目标环境中发出的交互语音；获取与目标语音关联的校正信息，其中，校正信息包括目标对象在目标环境中产生的对象信息和/或目标环境的环境信息；利用校正信息对目标语义进行校正，得到目标交互语义；确定与目标交互语义匹配的目标交互数据，并利用目标交互数据答复目标语音。本发明解决了无法正确理解交互语音导致的交互满足度低的技术问题。

Description

智能设备的语音交互方法和装置、存储介质

技术领域

本发明涉及智能家居领域，具体而言，涉及一种智能设备的语音交互方法和装置、存储介质。

背景技术

当前智能家居在家庭中的使用越来越普及，很多智能设备具备语音交互功能。

而用户在与智能设备进行语音交互时，存在语言较为复杂的情况，如果只根据语音指令进行语义解析，会无法正确解析出交互语音的准确语义，从而无法确定出正确的回复语音，交互满足度较低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种智能设备的语音交互方法和装置、存储介质，以至少解决无法正确理解交互语音导致的交互满足度低的技术问题。

根据本发明实施例的一个方面，提供了一种智能设备的语音交互方法，包括：在获取到目标语音的情况下，对上述目标语音进行语义识别，得到目标语义，其中，上述目标语音为目标对象在目标环境中发出的交互语音；获取与上述目标语音关联的校正信息，其中，上述校正信息包括上述目标对象在上述目标环境中产生的对象信息和/或上述目标环境的环境信息；利用上述校正信息对上述目标语义进行校正，得到目标交互语义；确定与上述目标交互语义匹配的目标交互数据，并利用上述目标交互数据答复上述目标语音。

根据本发明实施例的另一方面，还提供了一种智能设备的语音交互装置，包括：识别单元，用于在获取到目标语音的情况下，对上述目标语音进行语义识别，得到目标语义，其中，上述目标语音为目标对象在目标环境中发出的交互语音；获取单元，用于获取与上述目标语音关联的校正信息，其中，上述校正信息包括上述目标对象在上述目标环境中产生的对象信息和/或上述目标环境的环境信息；校正单元，用于利用上述校正信息对上述目标语义进行校正，得到目标交互语义；交互单元，用于确定与上述目标交互语义匹配的目标交互数据，并利用上述目标交互数据答复上述目标语音。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述智能设备的语音交互方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的智能设备的语音交互方法。

在本发明实施例中，采用在获取到目标对象在目标环境中发出的目标语音的情况下，对目标语音进行语义识别，得到目标语义，获取与目标语音关联的校正信息，其中，校正信息包括目标对象在目标环境中产生的对象信息和/或目标环境的环境信息，利用校正信息对目标语义进行校正，得到目标交互语义，确定与目标交互语义匹配的目标交互数据，并利用目标交互数据答复目标语音的方式，通过对目标对象发出的目标语音进行语义识别后，基于目标语音关联的校正信息对目标语义进行校正得到的目标交互语义，基于目标交互语义确定出用于答复目标语音的目标交互数据，达到了对交互语音的语义进行校正，得到更加准确的目标交互语义，从而基于目标交互语义确定出的目标交互数据答复目标语音的目的，从而实现了基于交互语音关联的环境信息和对象信息进行语义校正得到更加准确的交互语义的技术效果，进而解决了无法正确理解交互语音导致的交互满足度低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的智能设备的语音交互方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的智能设备的语音交互方法的流程示意图；

图3是根据本发明实施例的一种可选的智能设备的语音交互方法的流程示意图；

图4是根据本发明实施例的一种可选的智能设备的语音交互方法的流程示意图；

图5是根据本发明实施例的一种可选的智能设备的语音交互装置的结构示意图；

图6是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种智能设备的语音交互方法，该智能设备的语音交互方法广泛应用于智慧家庭(Smart Home)、智能家居、智能家用设备生态、智慧住宅(Intelligence House)生态等全屋智能数字化控制应用场景。可选地，在本实施例中，上述智能设备的语音交互方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示，服务器104通过网络与终端设备102进行连接，可用于为终端或终端上安装的客户端提供服务(如应用服务等)，可在服务器上或独立于服务器设置数据库，用于为服务器104提供数据存储服务，可在服务器上或独立于服务器配置云计算和/或边缘计算服务，用于为服务器104提供数据运算服务。

终端设备102为具备交互语音获取和答复的智能终端，通过网络将交互语音发送给服务器104，以通过服务器104确定出用于答复交互语音的交互数据，并通过终端设备102以将交互数据与用户进行交互。服务器104基于交互语音确定出交互数据不限于通过依次执行S102至S108实现。S102，得到目标语义。在获取到目标语音的情况下，对目标语音进行语义识别，得到目标语义，目标语音为目标对象在目标环境中发出的交互语音。S104，获取校正信息。获取与目标语音关联的校正信息，校正信息包括目标对象在目标环境中产生的对象信息和/或目标环境的环境信息。S106，得到目标交互语义。利用校正信息对目标语义进行校正，得到目标交互语义。S108，利用目标交互数据答复目标语音。确定与目标交互语义匹配的目标交互数据，并利用目标交互数据答复目标语音。

上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述网络可以包括但不限于以下至少之一：有线网络，无线网络。上述有线网络可以包括但不限于以下至少之一：广域网，城域网，局域网，上述无线网络可以包括但不限于以下至少之一：WIFI(Wireless Fidelity，无线保真)，蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等上述仅是一种示例，本实施例中对此不作任何限定。

作为一种可选的实施方式，如图2所示，上述智能设备的语音交互方法包括：

S202，在获取到目标语音的情况下，对目标语音进行语义识别，得到目标语义，其中，目标语音为目标对象在目标环境中发出的交互语音；

S204，获取与目标语音关联的校正信息，其中，校正信息包括目标对象在目标环境中产生的对象信息和/或目标环境的环境信息；

S206，利用校正信息对目标语义进行校正，得到目标交互语义；

S208，确定与目标交互语义匹配的目标交互数据，并利用目标交互数据答复目标语音。

目标语音为处于目标环境中的终端采集到的目标对象发出的交互语音，交互语音指示的是目标对象与终端通过语音进行交互以获取到交互数据。校正信息是与目标语音关联、用于校正目标语义的信息。在目标语音由目标对象在目标环境中发出的情况下，校正信息为目标对象的对象信息、或目标环境的环境信息、或两者的结合。

目标对象的对象信息不限于包括目标对象的表情信息、体态信息、语调信息、语音信息等与目标对象发出目标语音相关的信息。目标对象的表情信息、体态信息不限于通过包括目标对象的图像获取，目标对象的语调信息、语音信息不限于通过包括目标语音的音频获取。包括目标对象的图像以及包括目标语音的音频不限于为目标对象在目标环境中的视频得到，也可以是基于图像和音频获取。目标环境的环境信息不限于通过包括目标环境的环境图像或环境音频、环境视频获取，不限于包括环境类型，环境位置等信息。

对目标语音进行语义识别用于确定目标语音的目标语义，基于目标语义确定目标语音所包括的交互意图，利用校正信息对目标语义进行校正不限于对目标语义指示的交互意图进行进一步确定，从而得到更加准确的目标交互语义。

基于目标交互语义确定出的目标交互数据，为用于答复目标语音的数据，不限于为语音数据和非语音数据。目标交互数据答复目标语音的形式不显示根据目标交互数据的交互类型确定。

作为一种可选的实施方式，利用目标交互数据答复目标语音包括：在目标交互数据的交互类型为语音交互的情况下，将目标交互数据转换为目标答复语音；播放目标答复语音。

在目标交互数据指示利用语音答复目标语音时，不限于将目标交互数据转换为目标语音。例如利用TTS技术，将目标交互数据转换为目标答复语音，通过播放目标答复语音的形式，答复目标语音。

作为一种可选的实施方式，如利用目标交互数据答复目标语音包括：在目标交互数据的交互类型为非语音交互的情况下，确定目标交互数据对应的目标显示内容；显示目标显示内容。

在目标交互数据指示利用非语音答复目标语音时，不限于确定目标交互数据指示的、用于可视化显示的目标显示内容，从而通过显示目标显示内容答复目标语音。显示内容的具体形式在此不做限定，例如文本、图像、视频、音频、网页、地图等任意形式或组合形式。

在本申请实施例中，采用在获取到目标对象在目标环境中发出的目标语音的情况下，对目标语音进行语义识别，得到目标语义，获取与目标语音关联的校正信息，其中，校正信息包括目标对象在目标环境中产生的对象信息和/或目标环境的环境信息，利用校正信息对目标语义进行校正，得到目标交互语义，确定与目标交互语义匹配的目标交互数据，并利用目标交互数据答复目标语音的方式，通过对目标对象发出的目标语音进行语义识别后，基于目标语音关联的校正信息对目标语义进行校正得到的目标交互语义，基于目标交互语义确定出用于答复目标语音的目标交互数据，达到了对交互语音的语义进行校正，得到更加准确的目标交互语义，从而基于目标交互语义确定出的目标交互数据答复目标语音的目的，从而实现了基于交互语音关联的环境信息和对象信息进行语义校正得到更加准确的交互语义的技术效果，进而解决了无法正确理解交互语音导致的交互满足度低的技术问题。

作为一种可选的实施方式，获取与目标语音关联的校正信息包括以下至少之一：

获取目标环境图像指示的环境校正信息，其中，目标环境图像为位于目标环境中的终端设备采集到的环境图像，环境校正信息为根据目标环境图像确定出的目标环境的环境类型；

获取目标对象图像指示的目标对象的表情校正信息，其中，目标对象为发出目标语音的对象，表情校正信息为根据目标对象图像确定出的目标对象的表情信息；

获取目标图像指示的目标对象的体态校正信息，其中，体态校正信息为根据目标对象图像确定出的目标对象的体态信息；

获取目标语音指示的语调校正信息，其中，语调校正信息用于为根据指示目标对象发出目标语音确定出的的发声语调信息；

获取目标语音指示的语音校正信息，其中，语音校正信息为目标语音中携带的对象声音信息。

目标环境图像不限于为任意位于目标环境中、具备图像采集功能的终端设备采集到的图像，包括采集目标语音的终端设备采集到的图像。位于目标环境中的终端设备采集到的、包括目标环境信息的均可作为目标环境图像，目标环境图像用于确定目标环境的环境类型，例如确定出目标环境为室内环境还是室外环境，确定出目标环境为家庭环境还是商场环境，确定出目标环境为白天环境还是夜晚环境等。基于目标环境图像确定出目标环境的环境类型，不限于基于目标环境图像从候选环境类型中确定出当前目标环境所对应的环境类型，基于环境校正信息进一步对目标语义进行校正，得到目标交互语义。

目标对象图像不限于为任意位于目标环境中、具备图像采集功能的终端设备采集到的包括目标对象的图像，包括采集目标语音的终端设备采集到的包括目标对象的图像，用于指示目标对象在发出目标语音时的行为状态，不限于包括表情信息和体态信息，从而基于目标对象图像确定目标对象的表情校正信息和/或体态校正信息。表情校正信息用于指示目标对象发出目标语音时的面部表情，体态校正信息用于指示目标对象发出目标语音时的体态信息，不限于包括手势、姿势等。

语调校正信息不限于为目标对象发出目标语音的发声语调，语音校正不限于为目标语音中除目标语义以外的对象声音信息，例如咳嗽声、喘息声等。校正信息不限于包括任意数量的以上信息中以及任意数量的以上校正信息的组合。

作为一种可选的实施方式，如图3所示，上述在获取与目标语音关联的校正信息之后，还包括：

S302，确定校正信息的信息置信度；

S304，在信息置信度大于置信度阈值的情况下，利用校正信息对目标语义进行校正。

在获取到校正信息的情况下，确定校正信息的信息置信度。在校正信息数量大于1的情况下，依次确定每个校正信息的信息置信度。在校正信息的信息置信度大于置信度阈值时，利用校正信息对目标语义进行语义校正。在校正信息的信息置信度小于等于信息置信度时，不限于确定校正信息与目标语义是否匹配。在校正信息所指示校正语义与目标语义一致时，则利用校正信息进行目标语义的校正。

作为一种可选的实施方式，如图4所示，上述在确定校正信息的信息置信度包括：

S402，在校正信息的信息置信度小于置信度阈值且目标语义互斥的情况下，确定与校正信息匹配的目标答复数据，其中，目标答复数据用于请求确定校正信息是否正确；

S404，利用目标答复数据答复目标语音。

在校正信息的信息置信度小于置信度阈值且目标语义互斥时，获取用于确定校正信息是否正确的目标答复数据，从而通过目标答复数据答复目标语音，以通过目标答复数据进一步进行交互，以确定目标语音的交互意图。

作为一种可选的实施方式，上述利用校正信息对目标语义进行校正，得到目标交互语义包括：在目标语义指示查询目标路线且校正信息包括环境校正信息的情况下，利用环境校正信息指示的目标环境类型对目标语义进行校正，得到包括目标环境类型的目标交互语义，其中，目标交互语义用于指示查询与目标环境类型匹配的目标路线。

目标路线的起点不限于为采集目标语音的终端所在的位置，终点不限于为目标位置。环境校正信息不限于为终端采集的环境图像所指示的环境类型，以目标语义指示查询目标路线，环境类型分为室内和室外为例。在环境校正信息指示环境类型为室内时，确定目标交互语义为查询从室内起点至终点的室内交通路线图，从而将包括室内交通路线图的地图通过终端显示。如果没有环境校正信息，那么仅根据目标语义并不知晓需要获取室内交通路线图，很有可能直接调取从该起点到终点的室外交通路线图，那么依旧不知晓如何基于当前室内位置行进至交通路线图所指示的室外起点，还有可能在可以从室内直接达到终点的情况下，指示一条室外交通路线图，出现交互理解偏差。

同样，在环境校正信息指示环境类型为室外时，确定目标交互语义为查询从室外起点至终点的室外交通路线图，从而将包括室外交通路线图的地图通过终端显示。而目标路线的终点不限于通过目标语音确定，以目标语音为“XXX地铁站怎么走”为例，通过目标语音可以确定出终点为XXX地铁站。上述目标语义为查询路线仅为示例，还可以是查询任意其他信息，例如知识、图像、文本等。

作为一种可选的实施方式，上述利用校正信息对目标语义进行校正，得到目标交互语义包括：在目标语义指示获取目标信息的情况下，利用校正信息中包含的信息标识对目标语义进行校正，得到包括信息标识的目标交互语义，其中，目标交互语义用于指示获取与信息标识对应的目标信息。

以目标语音为“我该吃什么药”为例，通过语义识别可以确定出交互意图为获取用药，在不获取校正信息的情况下，并不知晓要获取治疗哪种病痛的药品。以校正信息包括语音校正信息和表情校正信息为例，通过语音中识别出的咳嗽声以及对象图像识别出的面部表情，确定出校正信息包含的信息标识为咳嗽，从而利用“咳嗽”对目标语义进行校正，确定目标交互语义为“获取咳嗽用药”，并将咳嗽的建议用药信息通过终端显示出来。

以目标语音为“这是什么”为例，通过语义识别可以确定出交互意图为确定物品，在不获取校正信息的情况下，并不知晓交互语音指示的什么物品。以校正信息包括体态校正信息为例，通过对象图像识别出的目标对象的手势等体态信息，确定目标对象所指的具体物品，例如是智能开关。从而确定目标交互语义为询问智能开关是什么，从而将“智能开关”通过终端显示或者通过终端语音播报出来。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述智能设备的语音交互方法的智能设备的语音交互装置。如图5所示，该装置包括：

识别单元502，用于在获取到目标语音的情况下，对目标语音进行语义识别，得到目标语义，其中，目标语音为目标对象在目标环境中发出的交互语音；

获取单元504，用于获取与目标语音关联的校正信息，其中，校正信息包括目标对象在目标环境中产生的对象信息和/或目标环境的环境信息；

校正单元506，用于利用校正信息对目标语义进行校正，得到目标交互语义；

交互单元508，用于确定与目标交互语义匹配的目标交互数据，并利用目标交互数据答复目标语音。

可选地，上述交互单元508包括语音模块，用于在目标交互数据的交互类型为语音交互的情况下，将目标交互数据转换为目标答复语音；播放目标答复语音。

可选地，上述交互单元508包括显示模块，用于在目标交互数据的交互类型为非语音交互的情况下，确定目标交互数据对应的目标显示内容；显示目标显示内容。

可选地，获取与目标语音关联的校正信息包括以下至少之一：获取目标环境图像指示的环境校正信息，其中，目标环境图像为位于目标环境中的终端设备采集到的环境图像，环境校正信息为根据目标环境图像确定出的目标环境的环境类型；获取目标对象图像指示的目标对象的表情校正信息，其中，目标对象为发出目标语音的对象，表情校正信息为根据目标对象图像确定出的目标对象的表情信息；获取目标图像指示的目标对象的体态校正信息，其中，体态校正信息为根据目标对象图像确定出的目标对象的体态信息；获取目标语音指示的语调校正信息，其中，语调校正信息用于为根据指示目标对象发出目标语音确定出的的发声语调信息；获取目标语音指示的语音校正信息，其中，语音校正信息为目标语音中携带的对象声音信息。

可选地，上述智能设备的语音交互装置还包括置信单元，用于在获取与目标语音关联的校正信息之后，确定校正信息的信息置信度；在信息置信度大于置信度阈值的情况下，利用校正信息对目标语义进行校正。

可选地，上述置信单元还包括在校正信息的信息置信度小于置信度阈值且目标语义互斥的情况下，确定与校正信息匹配的目标答复数据，其中，目标答复数据用于请求确定校正信息是否正确；利用目标答复数据答复目标语音。

可选地，上述校正单元506还用于在目标语义指示查询目标路线且校正信息包括环境校正信息的情况下，利用环境校正信息指示的目标环境类型对目标语义进行校正，得到包括目标环境类型的目标交互语义，其中，目标交互语义用于指示查询与目标环境类型匹配的目标路线。

可选地，上述校正单元506还用于在目标语义指示获取目标信息的情况下，利用校正信息中包含的信息标识对目标语义进行校正，得到包括信息标识的目标交互语义，其中，目标交互语义用于指示获取与信息标识对应的目标信息。

根据本发明实施例的又一个方面，还提供了一种用于实施上述智能设备的语音交互方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为服务器为例来说明。如图6所示，该电子设备包括存储器602和处理器604，该存储器602中存储有计算机程序，该处理器604被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，在获取到目标语音的情况下，对目标语音进行语义识别，得到目标语义，其中，目标语音为目标对象在目标环境中发出的交互语音；

S2，获取与目标语音关联的校正信息，其中，校正信息包括目标对象在目标环境中产生的对象信息和/或目标环境的环境信息；

S3，利用校正信息对目标语义进行校正，得到目标交互语义；

S4，确定与目标交互语义匹配的目标交互数据，并利用目标交互数据答复目标语音。

可选地，本领域普通技术人员可以理解，图6所示的结构仅为示意，电子设备也可以是任意终端设备。图6其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图6中所示更多或者更少的组件(如网络接口等)，或者具有与图6所示不同的配置。

其中，存储器602可用于存储软件程序以及模块，如本发明实施例中的智能设备的语音交互方法和装置对应的程序指令/模块，处理器604通过运行存储在存储器602内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的智能设备的语音交互方法。存储器602可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器602可进一步包括相对于处理器604远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器602具体可以但不限于用于存储目标语音、目标语义、校正信息、目标交互语义、目标交互数据等信息。作为一种示例，如图6所示，上述存储器602中可以但不限于包括上述智能设备的语音交互装置中的识别单元502、获取单元504、校正单元506和交互单元508。此外，还可以包括但不限于上述智能设备的语音交互装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置606用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置606包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置606为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器608，用于显示上述目标交互数据；和连接总线610，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述智能设备的语音交互方面的各种可选实现方式中提供的方法。其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种智能设备的语音交互方法，其特征在于，包括：

在获取到目标语音的情况下，对所述目标语音进行语义识别，得到目标语义，其中，所述目标语音为目标对象在目标环境中发出的交互语音；

获取与所述目标语音关联的校正信息，其中，所述校正信息包括所述目标对象在所述目标环境中产生的对象信息和/或所述目标环境的环境信息；

利用所述校正信息对所述目标语义进行校正，得到目标交互语义；

确定与所述目标交互语义匹配的目标交互数据，并利用所述目标交互数据答复所述目标语音。

2.根据权利要求1所述的方法，其特征在于，所述利用所述目标交互数据答复所述目标语音包括：

在所述目标交互数据的交互类型为语音交互的情况下，将所述目标交互数据转换为目标答复语音；

播放所述目标答复语音。

3.根据权利要求1所述的方法，其特征在于，所述利用所述目标交互数据答复所述目标语音包括：

在所述目标交互数据的交互类型为非语音交互的情况下，确定所述目标交互数据对应的目标显示内容；

显示所述目标显示内容。

4.根据权利要求1所述的方法，其特征在于，所述获取与所述目标语音关联的校正信息包括以下至少之一：

获取目标环境图像指示的环境校正信息，其中，所述目标环境图像为位于所述目标环境中的终端设备采集到的环境图像，所述环境校正信息为根据所述目标环境图像确定出的所述目标环境的环境类型；

获取目标对象图像指示的目标对象的表情校正信息，其中，所述目标对象为发出所述目标语音的对象，所述表情校正信息为根据所述目标对象图像确定出的所述目标对象的表情信息；

获取所述目标对象图像指示的所述目标对象的体态校正信息，其中，所述体态校正信息为根据所述目标对象图像确定出的所述目标对象的体态信息；

获取所述目标语音指示的语调校正信息，其中，所述语调校正信息为根据所述目标语音确定出的语调信息；

获取所述目标语音指示的语音校正信息，其中，所述语音校正信息为所述目标语音中携带的对象声音信息。

5.根据权利要求1所述的方法，其特征在于，在获取与所述目标语音关联的校正信息之后，还包括：

确定所述校正信息的信息置信度；

在所述信息置信度大于置信度阈值的情况下，利用所述校正信息对所述目标语义进行校正。

6.根据权利要求5所述的方法，其特征在于，在确定所述校正信息的信息置信度包括：

在所述校正信息的所述信息置信度小于所述置信度阈值且所述目标语义互斥的情况下，确定与所述校正信息匹配的目标答复数据，其中，所述目标答复数据用于请求确定所述校正信息是否正确；

利用所述目标答复数据答复所述目标语音。

7.根据权利要求4所述的方法，其特征在于，所述利用所述校正信息对所述目标语义进行校正，得到目标交互语义包括：

在所述目标语义指示查询目标路线且所述校正信息包括所述环境校正信息的情况下，利用所述环境校正信息指示的目标环境类型对所述目标语义进行校正，得到包括所述目标环境类型的所述目标交互语义，其中，所述目标交互语义用于指示查询与所述目标环境类型匹配的目标路线。

8.根据权利要求4所述的方法，其特征在于，所述利用所述校正信息对所述目标语义进行校正，得到目标交互语义包括：

在所述目标语义指示获取目标信息的情况下，利用所述校正信息中包含的信息标识对所述目标语义进行校正，得到包括所述信息标识的所述目标交互语义，其中，所述目标交互语义用于指示获取与所述信息标识对应的目标信息。

9.一种智能设备的语音交互装置，其特征在于，包括：

识别单元，用于在获取到目标语音的情况下，对所述目标语音进行语义识别，得到目标语义，其中，所述目标语音为目标对象在目标环境中发出的交互语音；

获取单元，用于获取与所述目标语音关联的校正信息，其中，所述校正信息包括所述目标对象在所述目标环境中产生的对象信息和/或所述目标环境的环境信息；

校正单元，用于利用所述校正信息对所述目标语义进行校正，得到目标交互语义；

交互单元，用于确定与所述目标交互语义匹配的目标交互数据，并利用所述目标交互数据答复所述目标语音。

10.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至8任一项中所述的方法。