CN108564943A

CN108564943A - 语音交互方法及系统

Info

Publication number: CN108564943A
Application number: CN201810391325.5A
Authority: CN
Inventors: 李彦孚
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2018-04-27
Filing date: 2018-04-27
Publication date: 2018-09-21
Anticipated expiration: 2038-04-27
Also published as: CN108564943B

Abstract

本发明涉及一种语音交互方法及系统，所述语音交互方法，包括：获取多媒体信息，并根据多媒体信息确定进行语音交互的当前用户；根据多媒体信息确定当前用户所属群体的群体标识；根据群体标识确定对应的语音交互策略；根据语音交互策略执行语音交互功能。根据本发明的实施例，可以根据用户所属的群体确定语音交互策略，使语音交互方式具备针对性，进而可以提升用户使用体验。

Description

语音交互方法及系统

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音交互方法及系统。

背景技术

相关技术中，语音交互设备可以感知来自用户的语音信息并与用户进行语音交互。例如，当用户向语音交互设备提出一个问题时，语音交互设备可以播放解答内容的语音。

然而，对于不同的用户，语音交互设备的语音交互方式是固定不变的，不能因人而异。

发明内容

本发明提供一种语音交互方法及系统，以解决相关技术中的不足。

根据本发明实施例的第一方面，提供一种语音交互方法，所述方法，包括：

获取多媒体信息，并根据所述多媒体信息确定进行语音交互的当前用户；

根据所述多媒体信息确定当前用户所属群体的群体标识；

根据所述群体标识确定对应的语音交互策略；

根据所述语音交互策略执行语音交互功能。

在一些实施例中，所述多媒体信息可包括第一语音信息与图像；

所述根据所述多媒体信息确定进行语音交互的当前用户，包括：

对所述第一语音信息进行声源定位，得到所述当前用户的方位；

根据所述图像确定处于所述方位的备选用户；

从所述备选用户中确定所述当前用户。

在一些实施例中，所述从所述备选用户中确定所述当前用户，可包括：

将所述图像中唇部特征符合预设的发言条件的备选用户确定为处于发言状态的用户；

将所述处于发言状态的用户确定为所述当前用户。

在一些实施例中，所述多媒体信息可包括第一语音信息与图像；所述群体标识包括第一群体标识；

所述根据所述多媒体信息确定当前用户所属群体的群体标识，包括：

对所述第一语音信息进行语音识别，得到第一参考群体标识；

对所述图像进行图像识别，得到第二参考群体标识；

当所述第一参考群体标识与所述第二参考群体标识均为所述第一群体标识时，确定所述当前用户所属群体的群体标识为所述第一群体标识。

在一些实施例中，所述群体标识还可包括第二群体标识；

当所述第一参考群体标识与所述第二参考群体标识中任意一个为所述第二群体标识时，确定所述当前用户所属群体的群体标识为所述第二群体标识。

在一些实施例中，所述根据所述语音交互策略执行语音交互功能，可包括：

获取来自所述当前用户的第二语音信息；

对所述第二语音信息进行语音识别获得对应的语义；

根据所述语义从所述语音交互策略对应的词条数据库中获取对应的播放内容；

根据所述播放内容以及所述语音交互策略对应的音色参数、音调参数生成对应的第三语音信息；

播放所述第三语音信息。

根据本发明实施例的第二方面，提供一种语音交互系统，包括：

第一获取模块，用于获取多媒体信息；

第一确定模块，用于根据所述多媒体信息确定进行语音交互的当前用户；

第二确定模块，用于根据所述多媒体信息确定当前用户所属群体的群体标识；

第三确定模块，用于根据所述群体标识确定对应的语音交互策略；

执行模块，用于根据所述语音交互策略执行语音交互功能。

在一些实施例中，所述多媒体信息可包括第一语音信息与图像；所述第一确定模块，可包括：

定位子模块，用于对所述第一语音信息进行声源定位，得到所述当前用户的方位；

第一确定子模块，用于根据所述图像确定处于所述方位的备选用户；

第二确定子模块，用于从所述备选用户中确定所述当前用户。

在一些实施例中，所述第二确定子模块，包括：

选择子模块，用于将所述图像中唇部特征符合预设的发言条件的备选用户确定为处于发言状态的用户；

第三确定子模块，用于将所述处于发言状态的用户确定为所述当前用户。

在一些实施例中，所述多媒体信息可包括第一语音信息与图像；所述群体标识包括第一群体标识；所述第二确定模块，可包括：

第一识别子模块，用于对所述第一语音信息进行语音识别，得到第一参考群体标识；

第二识别子模块，用于对所述图像进行图像识别，得到第二参考群体标识；

第四确定子模块，用于在所述第一参考群体标识与所述第二参考群体标识均为所述第一群体标识时，确定所述当前用户所属群体的群体标识为所述第一群体标识。

在一些实施例中，所述群体标识还可包括第二群体标识；所述第二确定模块，还可包括：

第五确定子模块，用于在所述第一参考群体标识与所述第二参考群体标识中任意一个为所述第二群体标识时，确定所述当前用户所属群体的群体标识为所述第二群体标识。

在一些实施例中，所述执行模块，可包括：

第一获取子模块，用于获取来自所述当前用户的第二语音信息；

第三识别子模块，用于对所述第二语音信息进行语音识别获得对应的语义；

第二获取子模块，用于根据所述语义从所述语音交互策略对应的词条数据库中获取对应的播放内容；

生成子模块，用于根据所述播放内容以及所述语音交互策略对应的音色参数、音调参数生成对应的第三语音信息；

播放子模块，用于播放所述第三语音信息。

在一些实施例中，所述语音交互系统可包括语音交互设备与服务器；

所述语音交互设备包括所述第一获取模块；所述第一确定模块、所述第二确定模块、所述第三确定模块中任意一个位于所述语音交互设备、所述服务器中至少一个上；

所述执行模块中所述第一获取子模块、所述播放子模块位于所述语音交互设备上，所述第三识别子模块、所述第二获取子模块、所述生成子模块位于所述服务器上，所述服务器还存储有所述词条数据库。

根据本发明实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述第一方面所述的方法。

根据本发明实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法。

根据上述实施例可知，通过获取多媒体信息确定进行语音交互的当前用户以及当前用户所属群体的群体标识，然后根据当前用户所属群体的群体标识确定对应的语音交互策略并根据语音交互策略执行语音交互功能，这样可以根据用户所属的群体确定语音交互策略，使语音交互方式具备针对性，可以提升用户使用体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的语音交互方法的流程图。

图2A～2B是根据另一示例性实施例示出的语音交互方法的流程图。

图3是根据另一示例性实施例示出的语音交互方法的流程图。

图4是根据另一示例性实施例示出的语音交互方法的流程图。

图5是根据一示例性实施例示出的语音交互方法的应用场景图。

图6是根据一示例性实施例示出的语音交互设备的结构示意图。

图7是根据一示例性实施例示出的语音交互设备的结构框图。

图8是根据一示例性实施例示出的语音交互系统的结构框图。

图9A是根据另一示例性实施例示出的语音交互系统的结构框图。

图9B是根据另一示例性实施例示出的语音交互系统的结构框图。

图10是根据另一示例性实施例示出的语音交互系统的结构框图。

图11是根据另一示例性实施例示出的语音交互系统的结构框图。

图12是根据另一示例性实施例示出的语音交互系统的结构框图。

图13是根据一示例性实施例示出的语音交互设备的结构框图。

图14是根据一示例性实施例示出的服务器的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的语音交互方法的流程图，可应用于语音交互系统，该语音交互系统可由语音交互设备(例如智能机器人、智能画框、智能音箱等)与服务器构成。如图1所示，该语音交互方法可包括以下步骤101～104：

在步骤101中，获取多媒体信息，并根据所述多媒体信息确定进行语音交互的当前用户。

在一些实施例中，可以由语音交互设备采集上述的多媒体信息。其中，多媒体信息可包括第一语音信息与图像。第一语音信息可以是携带唤醒词的语音信息，也可以是其他符合预设条件的语音信息。在一些示例性实施例中，语音交互设备可以包括拾音设备(例如麦克风或麦克风阵列)与摄像装置(例如摄像头)。当语音交互设备处于待机状态时，拾音设备可以处于工作状态，检测语音信息。当拾音设备检测到第一语音信息后，语音交互设备可以唤醒摄像装置采集图像。

在一些实施例中，可由语音交互设备根据所述多媒体信息确定进行语音交互的当前用户。在另一些实施例中，语音交互设备也可以将采集的多媒体信息上传至服务器，由服务器根据多媒体信息确定进行语音交互的当前用户。

在一些实施例中，如图2A所示，根据多媒体信息确定进行语音交互的当前用户可包括如下步骤201～203：

在步骤201中，对所述第一语音信息进行声源定位，得到所述当前用户的方位。

在步骤202中，根据所述图像确定处于所述方位的备选用户。

在步骤203中，从所述备选用户中确定所述当前用户。

在一些实施例中，如图2B所示，从所述备选用户中确定所述当前用户可包括如下步骤2031～2032：

在步骤2031中，将所述图像中唇部特征符合预设的发言条件的备选用户确定为处于发言状态的用户。

在步骤2032中，将所述处于发言状态的用户确定为所述当前用户。

在本发明实施例中，可以对第一语音信息进行声源定位，得到上述的当前用户的方位。在得到当前用户的方位后，可以确定图像中处于所述方位的用户为备选用户。当确定备选用户后，可以从图像中提取所述备选用户各自的唇部特征，并将备选用户各自的唇部特征分别与预设的发言条件进行匹配。然后，根据匹配结果将唇部特征符合预设的发言条件的备选用户确定为处于发言状态的用户。最后，将处于发言状态的用户确定为当前用户。

在步骤102中，根据所述多媒体信息确定当前用户所属群体的群体标识。

在一些实施例中，所述群体标识可包括第一群体标识与第二群体标识。在一些示例性实施例中，第一群体标识可以是成人标识，第二群体标识可以是儿童标识。当然，在实际应用中，用户所属群体的划分方法不限于本发明实施方式提供的方法。

在一些实施例中，可以由语音交互设备根据多媒体信息确定当前用户所属群体的群体标识。在另一些实施例中，也可以由服务器根据多媒体信息确定当前用户所属群体的群体标识。

在一些实施例中，如图3所示，根据所述多媒体信息确定当前用户所属群体的群体标识可包括如下步骤301～304：

在步骤301中，对所述第一语音信息进行语音识别，得到第一参考群体标识。

在步骤302中，对所述图像进行图像识别，得到第二参考群体标识。

在步骤303中，当所述第一参考群体标识与所述第二参考群体标识均为所述第一群体标识时，确定所述当前用户所属群体的群体标识为所述第一群体标识。

在步骤304中，当所述第一参考群体标识与所述第二参考群体标识中任意一个为所述第二群体标识时，确定所述当前用户所属群体的群体标识为所述第二群体标识。

在一些实施例中，在对所述第一语音信息进行语音识别时，可以先提取第一语音信息的音调参数与音色参数，并根据第一语音信息的音调参数与音色参数查询预存的第一对应关系得到一个对应的群体标识作为第一参考群体标识，其中，第一对应关系存储音调参数、音色参数与群体标识的对应关系。其中，第一对应关系可以存储于电子表格或者数据库中。

在一些实施例中，在对所述图像进行图像识别时，可以提取图像中当前用户的面部特征，并将提取的面部特征与预存的两个面部特征分别进行匹配。当提取的面部特征与一个预存的面部特征匹配时，可以得到对应的群体标识作为第二参考群体标识。其中，预存的两个面部特征中一个面部特征为第一群体标识对应的面部特征，另一个为第二群体标识对应的面部特征。在一些示例实施例中，第二群体标识对应的面部特征可以为儿童的面部特征，例如，儿童的面部特征包括儿童的头部轮廓特征(圆润)，儿童的脑颅部分的骨骼特征(较大)以及儿童面颅特征(较小)。

在一些实施例中，当所述第一参考群体标识与所述第二参考群体标识均为所述第一群体标识时，确定所述当前用户所属群体的群体标识为所述第一群体标识，否则，当所述第一参考群体标识与所述第二参考群体标识中任意一个为所述第二群体标识时，可以确定所述当前用户所属群体的群体标识为所述第二群体标识。

在一些示例性实施例中，第一群体标识为成人标识，第二群体标识为成儿童标识。当对第一语音信息进行语音识别得到的是成人标识且对图像进行图像识别得到的也是成人标识时，才确定当前用户所属群体的群体标识为成人标识，否则，确定当前用户所属群体的群体标识为儿童标识。

在步骤103中，根据所述群体标识确定对应的语音交互策略。

在一些实施例中，可以由语音交互设备根据所述群体标识确定对应的语音交互策略。在另一些实施例中，也可以由服务器根据所述群体标识确定对应的语音交互策略。

在一些示例性实施例中，由服务器根据群体标识确定对应的语音交互策略。在本示例性实施例中，服务器中预先存储有与群体标识对应的语音交互策略。例如，群体标识包括成人标识与儿童标识，服务器可存储第一语音交互策略与第二语音交互策略，第一语音交互策略与成人标识对应，第二语音交互策略与儿童标识对应。服务器可以根据当前用户所属群体的群体标识确定对应的语音交互策略。例如，当前用户所属群体的群体标识为儿童标识时，服务器确定使用第二语音交互策略。

在步骤104中，根据所述语音交互策略执行语音交互功能。

在一些实施例中，可以由语音交互设备在服务器的配合下根据确定的语音交互策略执行语音交互功能。在另一些实施例中，也可以由语音交互设备根据语音交互策略执行语音交互功能。

在一些实施例中，如图4所示，根据所述语音交互策略执行语音交互功能可包括如下步骤401～405：

在步骤401中，获取来自所述当前用户的第二语音信息。

在步骤402中，对所述第二语音信息进行语音识别获得对应的语义。

在步骤403中，根据所述语义从所述语音交互策略对应的词条数据库中获取对应的播放内容。

在步骤404中，根据所述播放内容以及所述语音交互策略对应的音色参数、音调参数生成对应的第三语音信息。

在步骤405中，播放所述第三语音信息。

在一些实施例中，可以由语音交互设备获取来自当前用户的第二语音信息。其中，第二语音信息可以携带当前用户的提问或控制指令等信息。

在一些示例性实施例中，语音交互设备可以将获取的来自当前用户的第二语音信息发送给服务器，由服务器对第二语音信息进行语音识别获得对应的语义。当服务器得到第二语音信息的语义后，可以根据语义从确定的语音交互策略对应的词条数据库中获取对应的播放内容，并根据播放内容以及确定的语音交互策略对应的音色参数、音调参数生成对应的第三语音信息。最后，由语音交互设备播放第三语音信息。

继续上述的示例性实施例中，群体标识包括成人标识与儿童标识。服务器中存储有与成人标识对应的成人词条数据库以及与儿童标识对应的儿童词条数据库。其中，儿童词条数据库中不包括暴力、消极等敏感词汇，敏感词汇例如可以是自杀、自暴自弃等词汇，成人词条数据库中的词条可以更加客观、丰富。例如，在当前用户所属群体的群体标识为儿童标识时，即当前用户为儿童，服务器确定使用第二语音交互策略以及儿童词条数据库。当语音交互设备获取来自当前用户的第二语音信息后，服务器对第二语音信息进行语音识别获得对应的语义，根据语义从第二语音交互策略对应的儿童词条数据库中获取对应的播放内容，并根据播放内容以及第二语音交互策略对应的儿童音色参数、儿童音调参数生成对应的第三语音信息。最后，由语音交互设备播放第三语音信息。这样，可以使与儿童的语音交内容更加积极，对儿童起到积极的引导作用。

再如，在当前用户所属群体的群体标识为成人标识时，即当前用户为成人，服务器确定使用第一语音交互策略以及成人词条数据库。当语音交互设备获取来自当前用户的第二语音信息后，服务器对第二语音信息进行语音识别获得对应的语义，根据语义从第二语音交互策略对应的成人词条数据库中获取对应的播放内容，并根据播放内容以及第一语音交互策略对应的成人音色参数、成人音调参数生成对应的第三语音信息。最后，由语音交互设备播放第三语音信息。这样，可以使与成年人的语音交互内容更加客观、丰富。

在本实施例中，通过获取多媒体信息确定进行语音交互的当前用户以及当前用户所属群体的群体标识，然后根据当前用户所属群体的群体标识确定对应的语音交互策略并根据语音交互策略执行语音交互功能，这样可以根据用户所属的群体确定语音交互策略，使语音交互方式具备针对性，可以提升用户使用体验。

在一些示例性场景中，上述的语音交互方法可以应用于如图5所示的语音交互系统。该语音交互系统包括语音交互设备51可以与服务器52通信连接，例如，可以通过无线方式通信连接。其中，语音交互设备51可以是智能画框，用于显示画作，并可以在服务器52的配合下与用户进行语音交互。如图6所示，该语音交互设备51上设有摄像装置511以及麦克风阵列512，麦克风阵列512可以包括至少一个麦克风，例如，可以包括4个麦克风。当语音交互设备51处于待机状态时，麦克风阵列512可以处于工作状态，为节约能耗，摄像装置511可以处于休眠状态。语音交互设备51可以由携带唤醒词(例如，“你好”)的第一语音信息唤醒。例如，当语音交互设备51确定麦克风阵列512采集的第一语音信息携带唤醒词后，可以唤醒摄像装置511采集图像。语音交互设备51可以将第一语音信息以及采集的图像作为采集的多媒体信息发送给服务器52，以供服务器52确定进行语音交互的当前用户。当服务器52确定进行语音交互的当前用户后，可以根据多媒体信息确定当前用户所属群体的群体标识以及根据所述群体标识确定对应的语音交互策略。最后，语音交互设备51在服务器52的配合下根据语音交互策略执行语音交互功能。

如图7所示，在一些示例性实施例中，语音交互设备51还可以包括：电源513、SOC主板(系统芯片)514、MIC阵列板(麦克风阵列板)515、LED灯条516、TCON(屏驱动板)517、红外模块518、扬声器519、无线模块520以及显示装置521。

MIC阵列板515用于接收、处理麦克风阵列512采集的来自当前用户的语音信号。在一些示例性实施例中，当语音交互设备51处于待机状态时，如果MIC阵列板515确定采集的语音信号中携带唤醒词可以唤醒SOC主板514，从而唤醒摄像装置511、扬声器519等模块。MIC阵列板515可以将采集的语音信号进行模数转换得到数字语音信息以便后续处理。

摄像装置511可以采集当前可视范围内的图像并将采集的图像发送给SOC主板514。其中图像可以是数字图像。SOC主板514可以将接收的语音信息与图像进行协议转换，以便通过无线模块520发送给服务器。无线模块520还可以接收服务器基于上述语音交互方法反馈的语音信息。SOC主板514可以对来自服务器的语音信息进行处理后控制扬声器519播放来自服务器的语音信息。

在一些应用场景中，服务器可以是一个，也可以是多个。每个服务器具备不同的功能。例如，在一个示例性场景中，可以包括两个服务器，一个服务器可以是提供语音识别功能的语音识别服务器，另一个服务器可以是基于语义与当前用户所属群体的群体标识确定播放内容的语音交互服务器(可以是云服务器)。该SOC主板514可以作为中转，将麦克风阵列采集的来自当前用户的语音信息发送给语音识别服务器进行语音识别得到语义，并将语音识别服务器识别的语义转发给语音交互服务器。

另外，TCON(屏驱动板)517用于提供显示装置521的驱动信号。LED灯条516可以提供背光。红外模块可以测距，例如可以辅助SOC主板514实现声源定位等。电源513为LED灯条516、SOC主板514、MIC阵列板515等供电。

如图8所示，本发明实施例还提供一种语音交互系统，所述系统包括：

第一获取模块81，用于获取多媒体信息；

第一确定模块82，用于根据所述多媒体信息确定进行语音交互的当前用户；

第二确定模块83，用于根据所述多媒体信息确定当前用户所属群体的群体标识；

第三确定模块84，用于根据所述群体标识确定对应的语音交互策略；

执行模块85，用于根据所述语音交互策略执行语音交互功能。

在本实施例中，语音交互系统可以通过获取多媒体信息确定进行语音交互的当前用户以及当前用户所属群体的群体标识，然后根据当前用户所属群体的群体标识确定对应的语音交互策略并根据语音交互策略执行语音交互功能，这样可以根据用户所属的群体确定语音交互策略，使语音交互方式具备针对性，可以提升用户使用体验。

如图9A所示，在一些实施例中，所述多媒体信息包括第一语音信息与图像；所述第一确定模块82，包括：

定位子模块821，用于对所述第一语音信息进行声源定位，得到所述当前用户的方位；

第一确定子模块822，用于根据所述图像确定处于所述方位的备选用户；

第二确定子模块823，用于从所述备选用户中确定所述当前用户。

如图9B所示，在一些实施例中，所述第二确定子模块823，可包括：

选择子模块8231，用于将所述图像中唇部特征符合预设的发言条件的备选用户确定为处于发言状态的用户；

第三确定子模块8232，用于将所述处于发言状态的用户确定为所述当前用户。

如图10所示，在一些实施例中，所述多媒体信息包括第一语音信息与图像；所述群体标识包括第一群体标识与第二群体标识；所述第二确定模块83，包括：

第一识别子模块831，用于对所述第一语音信息进行语音识别，得到第一参考群体标识；

第二识别子模块832，用于对所述图像进行图像识别，得到第二参考群体标识；

第四确定子模块833，用于在所述第一参考群体标识与所述第二参考群体标识均为所述第一群体标识时，确定所述当前用户所属群体的群体标识为所述第一群体标识。

第五确定子模块834，用于在所述第一参考群体标识与所述第二参考群体标识中任意一个为所述第二群体标识时，确定所述当前用户所属群体的群体标识为所述第二群体标识。

如图11所示，在一些实施例中，所述执行模块85，包括：

第一获取子模块851，用于获取来自所述当前用户的第二语音信息；

第三识别子模块852，用于对所述第二语音信息进行语音识别获得对应的语义；

第二获取子模块853，用于根据所述语义从所述语音交互策略对应的词条数据库中获取对应的播放内容；

生成子模块854，用于根据所述播放内容以及所述语音交互策略对应的音色参数、音调参数生成对应的第三语音信息；

播放子模块855，用于播放所述第三语音信息。

如图12所示，在一些实施例中，所述语音交互系统包括语音交互设备51与服务器52；

所述语音交互设备51包括所述第一获取模块81；所述第一确定模块82、所述第二确定模块83、所述第三确定模块84中任意一个位于所述语音交互设备51、所述服务器52中至少一个上；

所述执行模块85中所述第一获取子模块851、所述播放子模块855位于所述语音交互设备51上，所述第三识别子模块852、所述第二获取子模块853、所述生成子模块854位于所述服务器52上，所述服务器52还存储有所述词条数据库。

本发明实施例还提供一种语音交互系统。该语音交互系统包括如图13所示的电子设备1300以及如图14所示的服务器1400。例如，设备1300可以是智能画框、智能机器人、计算机、平板设备等。

请参照图13，设备1300可以包括以下一个或多个组件：处理组件1302，存储器1304，电源组件1306，多媒体组件1308，音频组件1310，输入/输出(I/O)的接口1312，传感器组件1314，以及通信组件1316。

处理组件1302通常控制设备1300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件1302可以包括一个或多个处理器1320来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1302可以包括一个或多个模块，便于处理组件1302和其他组件之间的交互。例如，处理部件1302可以包括多媒体模块，以方便多媒体组件1308和处理组件1302之间的交互。

存储器1304被配置为存储各种类型的数据以支持在设备1300的操作。这些数据的示例包括用于在设备1300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件1306为设备1300的各种组件提供电力。电力组件1306可以包括电源管理系统，一个或多个电源，及其他与为设备1300生成、管理和分配电力相关联的组件。

多媒体组件1308包括在所述设备1300和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1308包括一个前置摄像头。当设备1300处于操作模式，如拍摄模式或视频模式时，前置摄像头可以接收外部的多媒体数据。前置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1310被配置为输出和/或输入音频信号。例如，音频组件1310包括一个麦克风(MIC)，当设备1300处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1304或经由通信组件1316发送。在一些实施例中，音频组件1310还包括一个扬声器，用于输出音频信号。

I/O接口1312为处理组件1302和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1314包括一个或多个传感器，用于为设备1300提供各个方面的状态评估。例如，传感器组件1314可以检测到设备1300的打开/关闭状态，组件的相对定位，例如所述组件为设备1300的显示器和小键盘，传感器组件1314还可以检测设备1300或设备1300一个组件的位置改变，用户与设备1300接触的存在或不存在，设备1300方位或加速/减速和设备1300的温度变化。传感器组件1314可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1314还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。

通信组件1316被配置为便于设备1300和其他设备之间有线或无线方式的通信。设备1300可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一些示例性实施例中，通信部件1316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一些示例性实施例中，所述通信部件1316还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，设备1300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1304，上述指令可由设备1300的处理器1320执行以完成上述部分或全部方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

参照图14，服务器1400包括处理组件1422，其进一步包括一个或多个处理器，以及由存储器1432所代表的存储器资源，用于存储可由处理部件1422的执行的指令，例如应用程序。存储器1432中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1422被配置为执行指令，以执行上述部分或全部方法。

服务器1400还可以包括一个电源组件1426被配置为执行服务器1400的电源管理，一个有线或无线网络接口1450被配置为将服务器1400连接到网络，和一个输入输出(I/O)接口1458。服务器1400可以操作基于存储在存储器1432的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1432，上述指令可由服务器1400的处理组件1422执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在本发明中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上，除非另有明确的限定。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种语音交互方法，其特征在于，所述方法，包括：

根据所述多媒体信息确定当前用户所属群体的群体标识；

根据所述群体标识确定对应的语音交互策略；

根据所述语音交互策略执行语音交互功能。

2.根据权利要求1所述的语音交互方法，其特征在于，所述多媒体信息包括第一语音信息与图像；

根据所述图像确定处于所述方位的备选用户；

从所述备选用户中确定所述当前用户。

3.根据权利要求2所述的语音交互方法，其特征在于，所述从所述备选用户中确定所述当前用户，包括：

将所述处于发言状态的用户确定为所述当前用户。

4.根据权利要求1所述的语音交互方法，其特征在于，所述多媒体信息包括第一语音信息与图像；所述群体标识包括第一群体标识；

对所述图像进行图像识别，得到第二参考群体标识；

5.根据权利要求4所述的语音交互方法，其特征在于，所述群体标识还包括第二群体标识；

6.根据权利要求1所述的语音交互方法，其特征在于，所述根据所述语音交互策略执行语音交互功能，包括：

获取来自所述当前用户的第二语音信息；

对所述第二语音信息进行语音识别获得对应的语义；

播放所述第三语音信息。

7.一种语音交互系统，其特征在于，包括：

第一获取模块，用于获取多媒体信息；

执行模块，用于根据所述语音交互策略执行语音交互功能。

8.根据权利要求7所述的语音交互系统，其特征在于，所述多媒体信息包括第一语音信息与图像；所述第一确定模块，包括：

9.根据权利要求8所述的语音交互系统，其特征在于，所述第二确定子模块，包括：

10.根据权利要求7所述的语音交互系统，其特征在于，所述多媒体信息包括第一语音信息与图像；所述群体标识包括第一群体标识；所述第二确定模块，包括：

11.根据权利要求10所述的语音交互系统，其特征在于，所述群体标识还包括第二群体标识；所述第二确定模块，还包括：

12.根据权利要求7所述的语音交互系统，其特征在于，所述执行模块，包括：

播放子模块，用于播放所述第三语音信息。

13.根据权利要求12所述的语音交互系统，其特征在于，所述语音交互系统包括语音交互设备与服务器；

14.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1至6任一项所述的方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。