CN102640084B

CN102640084B - 用于多用户和系统的通信接口设备和方法

Info

Publication number: CN102640084B
Application number: CN201080053726.1A
Authority: CN
Inventors: 金南勋; 曹贞美; 朴致衍; 金正寿
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2009-11-27
Filing date: 2010-11-09
Publication date: 2016-03-02
Anticipated expiration: 2030-11-09
Also published as: EP2504745A2; KR101644015B1; WO2011065686A2; US9799332B2; KR20110059248A; US20120278066A1; EP2504745B1; CN102640084A; WO2011065686A3; EP2504745A4

Abstract

提供了一种用于系统和多个用户的通信接口设备。所述用于系统和多个用户的通信接口设备包括：第一处理单元，被构造为从至少一个用户接收语音信息和脸部信息，并基于与各接收的语音信息和脸部信息相应的用户模型来确定接收的语音信息是否是至少一个注册用户的语音信息；第二处理单元，被构造为接收脸部信息，并基于接收的脸部信息来确定所述至少一个用户的注意力是否在所述系统上；以及第三处理单元，被构造为接收语音信息，分析接收的语音信息，并基于以情境为基础表示会话流的对话模型来确定接收的语音信息是否对所述系统具有实际意义。

Description

用于多用户和系统的通信接口设备和方法

本申请是要求基于2009年11月27日提交的第10-2009-0115914号韩国专利申请的优先权的于2010年11月9日提交的第PCT/KR2010/007859号国际申请的国家阶段，所述韩国专利申请的全部内容通过引用完整地包含于此。

技术领域

本发明涉及一种系统与用户之间的语音接口。

背景技术

随着装置性能在家庭环境中得到提高并且提供与所述性能相关的多种服务变得普遍，除了现有的按钮输入方法之外，已经引入了各种各样的用户接口。

最近典型的用户接口是利用语音识别的用户接口。为了实现这种基于语音识别的用户接口，从输入信号检测用户的语音部分的语音活动检测（VAD）能力的改进应该占有优先地位。

具体地讲，对于家庭环境中的语音接口，多个用户和系统之间的交互被期望，并且从输入信号检测的用户的讲话是用于向系统指示特定任务的语音还是与另一用户通信的讲话应该是必要的。因此，VAD能力的改进被强调。然而，现有的VAD假定仅来自单个讲话者的输入，并且通常具有在输入信号中从噪声识别讲话的目的。因此，对于多个用户和系统之间的语音接口，现有的VAD技术具有局限性。

发明内容

本发明提供一种用于系统和多个用户的通信接口设备，包括：第一处理单元，被构造为从至少一个用户接收语音信息和脸部信息，并基于与各接收的语音信息和脸部信息相应的用户模型来确定接收的语音信息是否是注册用户的语音信息；第二处理单元，被构造为接收脸部信息，并基于接收的脸部信息来确定用户的注意力是否在所述系统上；以及第三处理单元，被构造为接收语音信息，分析接收的语音信息，并基于以情境为基础表示会话流的对话模型来确定接收的语音信息是否对所述系统具有实际意义。

在一个总的方面，提供了一种用于系统和多个用户的通信接口设备，包括：第一处理单元，被构造为从至少一个用户接收语音信息和脸部信息，并基于与各接收的语音信息和脸部信息相应的用户模型来确定接收的语音信息是否是注册用户的语音信息；第二处理单元，被构造为接收脸部信息，并基于接收的脸部信息来确定用户的注意力是否在所述系统上；以及第三处理单元，被构造为接收语音信息，分析接收的语音信息，并基于以情境为基础表示会话流的对话模型来确定接收的语音信息是否对所述系统具有实际意义。

第一处理单元还可被构造为通过将接收的语音信息与用户模型比较来计算用户是注册用户的第一概率，通过将接收的脸部信息与用户模型比较来计算用户是注册用户的第二概率，并基于计算的第一概率和第二概率来确定接收的语音信息是否是注册用户的语音信息。

第二处理单元还可被构造为从脸部信息中提取用户的眼睛和用户的脸部的方向的信息，并基于提取的眼睛或脸部的方向的信息来确定注意力是否在所述系统上。

第三处理单元还可被构造为当接收的语音信息的含义对应于通信树时确定接收的语音信息对所述系统具有实际意义。

在另一总体方面，提供了一种用于系统和多个用户的通信接口方法，包括：从至少一个用户接收多条语音信息和脸部信息，并基于与各接收的语音信息和脸部信息相应的用户模型来确定接收的语音信息是否是注册用户的语音信息；基于接收的脸部信息来确定用户的注意力是否在所述系统上；以及分析接收的语音信息的含义，并基于以情境为基础表示会话流的对话模型来确定接收的语音信息是否对所述系统具有实际意义。

在另一总体方面，提供一种确定语音信息是否对系统有意义的方法，包括：对语音信息执行语义分析；基于脸部信息确定至少一个用户的注意力是否在所述系统上；确定语义分析是否对应于会话模式；以及当语义分析对应于会话模式时，产生与语音信息相应的控制命令并将所述控制命令发送到所述系统。

本发明的另外的特点将在以下描述中被阐明，并且部分从以下描述中将是清楚的，或者可通过实施本发明而被了解。

附图说明

被包括以提供对本发明的进一步理解并且与本说明书结合并构成本说明书一部分的附图示出了本发明的实施例，并且与以下描述一起用来解释本发明的原理。

图1是示出通信接口设备的示例的示图。

图2是详细示出通信接口设备的示例的示图。

图3是示出图2的第一处理单元的操作过程的示例的流程图。

图4是示出图2的第二处理单元的操作过程的示例的流程图。

图5是示出图2的第三处理单元的操作过程的示例的流程图。

图6是示出对话模型的示例的示图。

图7是示出通信接口方法的示例的流程图。

图8是示出如何使用通信接口设备的示例的示图。

具体实施方式

提供以下描述以帮助读者全面理解这里描述的方法、设备和/或系统。因此，这里描述的方法、设备和/或系统的各种改变、修改和等同物可被推荐给本领域普通技术人员。描述的一系列处理步骤和/或操作是示例；然而，除了必须以特定顺序发生的步骤和/或操作以外，所述步骤和/或操作的顺序不限于这里阐述的顺序，而是可按照本领域已知的方式被改变。此外，为了更加清楚和简要，可省略对公知功能和结构的描述。

图1示出通信接口设备的示例的示图。参照图1，通信接口设备101可提供系统102与多个用户103、104和105之间的用户接口。例如，通信接口设备101可从用户103、104和105接收系统控制指令，分析接收的控制指令，并将分析的控制指令发送到系统102。通信接口设备101可以以有线或无线方式连接到系统102，并可被设置在系统102的内部。

系统102可以是根据来自用户103、104和105的指令执行特定任务的装置。例如，系统102可以是与多个用户103、104和105交互的电子产品、控制台游戏装置或智能机器人。

通信接口设备101可从多个用户103、104和105的语音之中检测预先注册的用户的语音。例如，如果假设仅有用户A103和用户B104被注册，则当所有多个用户103、104和105讲话时，通信接口设备101可仅检测预先注册的用户A103和用户B104的语音。

此外，通信接口设备101可将检测的语音中有意义的语音发送到系统102。例如，如果用户A103的语音用于向系统102指示特定任务，并且用户B104的语音仅用于问候用户C105，则通信接口设备101可分析检测的语音的含义，并根据分析结果将用户A103的语音发送到系统102。

因此，当多个用户103、104和105与系统102交互时，可允许系统102仅对注册用户的有意义的指令做出反应。

图2详细示出通信接口设备的示例的示图。参照图2，通信接口设备200可包括语音信息检测单元201、脸部信息检测单元202、第一处理单元203、第二处理单元204、第三处理单元205、用户模型数据库（DB）206以及对话模型DB207。

语音信息检测单元201接收音频信号并从接收的音频信号中检测语音信息。音频信号可包括语音信号和非语音信号。通过用户的讲话产生语音信号，通过用户的手势或用户周围的声响产生非语音信号。例如，语音信息检测单元201可从接收的音频信号中提取特征信息，诸如平滑功率谱、梅尔倒频谱系数（MFCC）、感知线性预测系数（PLP）等。

脸部信息检测单元202接收视频信号并从接收的视频信号中检测脸部信息。脸部信息可以是视频图像中与人脸相应的图像的特定区域。例如，脸部信息检测单元202可使用脸部检测方案（诸如Ada-boost）从接收的视频信号中提取与用户的脸部区域相应的脸部信息。

第一处理单元203接收由语音信息检测单元201检测的语音信息以及由脸部信息检测单元202检测的脸部信息。此外，第一处理单元203确定接收的语音信息是否是注册用户的语音信息。

可基于存储在用户模型DB206中用户模型来执行接收的语音信息的确定。用户模型可以被定义为注册用户的语音信息和脸部信息。例如，用户模型DB206可以以逐个用户为基础来存储语音信息和脸部信息。第一处理单元203可将接收的语音信息/脸部信息与存储在用户模型DB206中的用户模型比较，并确定接收的语音信息是否是注册用户的语音信息。例如，第一处理单元203可计算接收的语音信息与用户模型相同的概率以及接收的脸部信息与用户模型相同的概率，然后使用计算的概率值来确定接收的语音信息是否是注册用户的语音信息。

当确定接收的语音信息是注册用户的语音信息时，第二处理单元204从脸部信息检测单元接收脸部信息，并基于接收的脸部信息来确定用户的注意力是否在系统上。这里，用户对系统的注意力是指用户具有向系统指示指令或特定任务的意图的事件。例如，当比较用户在注视系统的同时讲话的事件与用户没有注视系统而讲话的事件时，可确定当用户在注视系统的同时讲话时注意力在系统上。

可基于包括在接收的脸部信息中的用户的眼睛和脸部的方向来执行注意力的发生的确定。例如，第二处理单元204可从接收的脸部信息中提取用户的眼睛和脸部的方向的信息，并基于提取的眼睛和脸部的方向的信息来确定用户是否面对系统。

如果注意力在系统上，则第三处理单元205从语音信息检测单元201接收语音信息，分析接收的语音信息的含义，并确定分析的含义是否对系统具有实际意义。这里，对系统具有实际意义的状态是指用户的讲话没有脱离一般或固定的会话模式（或话语语境）。例如，如果用户说“开始清洁”并且因此清洁机器人开始清洁，则在清洁机器人正在清洁的同时，用户的话语“停止清洁”和“更多地清洁客厅”对应于所述会话模式，而话语“今天天气很好”和“做点好吃的”则偏离了所述会话模式。

可基于存储在对话模型DB207中的对话模型来执行接收的语音信息是否对系统具有实际意义的确定。这里，对话模型可被定义为上述的会话模式。例如，对话模型可以是由节点和分枝构成的通信树的形式，其中，节点对应于话语的含义，分枝对应于会话的顺序。第三处理单元205在含义水平上分析接收的语音信息，并将分析的信息转换为文本。然后，第三处理单元205可将转换的文本与通信树进行比较，如果转换的文本对应于特定节点，则第三处理单元205确定接收的语音信息对系统具有实际意义。

图3示出图2的第一处理单元的操作过程的示例的流程图。参照图3，以下将描述确定接收的语音信息是否是注册用户的语音信息的方法。

在图3中，第一处理单元203将接收的语音信息与用户模型比较以计算第一概率（301）。例如，第一概率P₁可以是对应于语音部分的语音特征信息与离线配置的注册用户的语音特征模型相同的概率的最大值，并且可由如下等式1来表示：

P_{1} = P (S | {\hat{θ}}_{p})

其中，

{\hat{θ}}_{p} = \arg \max P (S | θp), {θ 1, θ 2, . . ., θp} . . . (1)

这里，θ表示注册用户的语音特征模型，p表示注册用户的数量，S表示接收的语音信息。

然后，通过将接收的脸部信息与用户模型比较来计算第二概率P₂（302）。例如，第二概率P₂可以是对应于脸部区域的图像特征信息与离线配置的注册用户的脸部特征模型相同的概率的最大值，并且可由如下等式2来表示：

P_{2} = P (V | \hat{Ψ} p)

其中，

\hat{Ψ} p = \arg \max P (S | Ψp), (Ψ 1, Ψ 2, . . ., Ψp) . . . (2)

这里，ψ表示注册用户的脸部特征模型，p表示注册用户的数量，V表示接收的脸部信息。

然后使用权重来组合第一概率P₁和第二概率P₂（303）。

P = f (P_{1}, P_{2})

= \{\begin{matrix} \frac{1}{N} (α P_{1} + (1 - α) P_{2}) & Pspeech = Pface \\ 0 & Pspeech &NotEqual; Pface \end{matrix} . . . (3)

在等式3中，α表示可根据照明度和信噪比而变化的权重。此外，当基于语音特征模型选择的注册用户被表示为P_speech，并且基于脸部特征模型选择的注册用户被表示为P_face时，如果P_speech和P_face彼此相同，则分配归一化概率值，否则可分配0。

然后，将组合值P与阈值比较（304），如果组合值P大于阈值，则确定接收的语音信息是注册用户的语音信息（305），否者过程终止。

图4示出图2的第二处理单元204的操作过程的示例的流程图。参照图4，以下将描述确定用户的注意力是否在系统上的方法。

在图4中，第二处理单元204从脸部信息中提取眼睛的方向的信息（401）。此外，第二处理单元204从脸部信息中提取脸部的方向的信息（402）。其后，第二处理单元204通过施加权重来组合提取的眼睛的方向的信息和脸部的方向的信息（403）。然后，组合值与阈值比较（404），如果组合值大于阈值，则确定用户的注意力在系统上（405），否则过程终止。以上过程由如下等式4来表示。

f(P(O_eye|Ψ_p)，P(O_face|Ψ_p))＝βP(O_eye|Ψ_p)+(1-β)P(O_face|Ψ_p)

f(P(O_eye|Ψ_p)，P(O_face|Ψ_p))≥τ_oriemation

其中，0≤β≤1，0≤τ_oriemation≤1…（4）

这里，P(O_eye|ψ_p)表示眼睛的方向的信息的归一化的概率值，P(O_face|ψ_p)表示脸部的方向的信息的归一化的概率值，β表示权重。

图5示出图2的第三处理单元205的操作过程的示例的流程图。参照图3，以下将描述确定语音信息是否对系统有意义的方法。

在图5中，第三处理单元205分析接收的语音信息的含义（501）。例如，第三处理单元205可识别接收的语音信息，并将接收的语音信息转换为文本。另外，第三处理单元205确定分析的含义是否对应于会话模式（502）。例如，第三处理单元205可确定通过使用如图6所示的对话模型分析的含义是否对系统有意义。如果确定结果显示含义对应于会话模型，则语音信息被发送到系统，或者与语音信息相应的控制指令被产生并被发送到系统（503），否则过程终止。

图6示出对话模型的示例的示图。在图6中，树的节点对应于会话的含义，树的分枝对应于会话的顺序。例如，根据会话模式（或语境），指示“你能给我一些喝的吗？”的节点A1可具有两个子节点B1“是”和B2“否”。如果节点A1分叉到节点B1，则下一可用的节点可以是根据饮品的种类的指示“水，请”的节点C1、指示“牛奶，请”的节点C2、指示“果汁，请”的节点C3等。

以上对话模型可以以情境为基础而存储在对话模型DB207中。第三处理单元205接收并分析语音信息，如果分析结果指示语音信息具有“水，请”的含义，则在节点B1处，语音信息被确定为对应于会话模式并且因此对系统有意义。然而，如果当前对话状态是节点B2，则指示“水，请”的含义的语音信息被确定为对系统无意义。

图7示出通信接口方法的示例的流程图。在图7中，从一个或多个用户接收多条语音信息和脸部信息，并基于分别与接收的语音信息和脸部信息相应的用户模型来确定接收的语音信息是否是注册用户的语音信息（701）。例如，第一处理单元203（见图2）可使用图3中示出的方法和等式1至等式3来选择性地检测用户的用户信息。

如果接收的语音信息是注册用户的语音信息，则基于接收的脸部信息确定用户的注意力是否在系统上（702）。例如，第二处理单元204（见图2）可基于图4中示出的方法和等式4来确定注意力的发生。

如果用户正关注系统，则分析接收的语音信息的含义，并基于以情境为基础表示会话流的对话模型来确定分析的接收的语音信息的含义是否对系统有意义（703）。例如，第三处理单元205可使用图5和图6中示出的方法来执行语义分析以及与会话模式的对应性的确定。

图8示出如何使用通信接口设备的示例的示图。为了便于解释，图8中示出的示例假定存在四个用户A、B、C和D，其中，用户A、B和C被注册，用户A面对通信接口设备801说出“订购红色T恤”，用户B面对通信接口设备801说出“房间很脏，清洁房间”，用户C注视着用户B说出“让我们休息一下”。

通信接口设备801忽略没被注册的用户D的话语。此外，因为用户C没有关注系统802，所以通信接口设备801也忽略用户C的话语。通信接口设备801分析用户A和用B的语音信息的含义。如果根据会话流需要对象的订购，则仅有用户A的订购指令被发送到系统802，并且用户B的话语由于对系统802无意义而被忽略。

因此，应注意的是：仅当“注册用户”“在关注系统的同时”发出“有意义或重要的话语”时，通信接口设备801才将用户的控制指令发送到系统802。因此，当多个用户和系统彼此交互时，可实现更准确和可靠的接口连接。

当前实施例可实现为计算机可读记录介质中的计算机可读代码。构成计算机程序的代码和代码段可由本领域的计算机编程技术人员容易地推断出。计算机可读记录介质包括存储计算机可读数据的所有类型的记录介质。计算机可读记录介质的示例包括ROM、RAM、CD-ROM、磁带、软盘和光学数据存储器。此外，记录介质可以以诸如互联网传输的载波的形式被实现。此外，计算机可读记录介质可以分布到网络上的计算机系统，其中，计算机可读代码可以以分布方式被存储和执行。

以上描述了多个示例。然而，将理解的是，可进行各种修改。例如，如果以不同的顺序执行描述的技术，和/或如果描述的系统、架构、装置或电路中的组件以不同的方式组合和/或被其他组件或者其等同物替换或补充，则可实现适当的结果。因此，其他实施方式落入权利要求的范围内。

Claims

1.一种用于系统和多个用户的通信接口设备，包括：

第一处理单元，被构造为从至少一个用户接收语音信息和脸部信息，并基于与各接收的语音信息和脸部信息相应的用户模型来确定接收的语音信息是否是注册用户的语音信息；

第二处理单元，被构造为接收脸部信息，并在第一处理单元确定接收的语音信息是注册用户的语音信息时，基于接收的脸部信息确定所述至少一个用户的注意力是否在所述系统上；以及

第三处理单元，被构造为接收语音信息，在第二处理单元确定所述至少一个用户的注意力在所述系统上时，分析接收的语音信息的含义，并基于以情境为基础表示会话流的对话模型确定分析出的接收的语音信息的含义是否对所述系统具有实际意义，

其中，当第三处理单元确定分析出的接收的语音信息的含义对所述系统具有实际意义时，所述通信接口设备将接收的语音信息发送到所述系统，从而所述系统根据该语音信息执行特定任务，

其中，对系统具有实际意义的状态是指用户的讲话没有脱离一般或固定的会话模式。

2.如权利要求1所述的通信接口设备，其中，用户模型由注册用户的多条语音信息和脸部信息来定义。

3.如权利要求1所述的通信接口设备，其中，第一处理单元还被构造为通过将接收的语音信息与用户模型比较来计算所述至少一个用户是注册用户的第一概率，通过将接收的脸部信息与用户模型比较来计算所述至少一个用户是注册用户的第二概率，并基于计算的第一概率和第二概率来确定接收的语音信息是否是注册用户的语音信息。

4.如权利要求1所述的通信接口设备，其中，第二处理单元还被构造为从脸部信息中提取所述至少一个用户的眼睛的方向的信息和所述至少一个用户的脸部的方向的信息，并基于提取的眼睛的方向的信息和提取的脸部的方向的信息来确定所述至少一个用户的注意力是否在所述系统上。

5.如权利要求1所述的通信接口设备，其中，对话模型是由节点和分枝构成的通信树的形式，其中，节点对应于话语的含义，分枝对应于会话的顺序。

6.如权利要求5所述的通信接口设备，其中，第三处理单元还被构造为当接收的语音信息的含义对应于所述通信树时确定接收的语音信息对所述系统具有实际意义。

7.一种用于系统和多个用户的通信接口方法，包括：

从至少一个用户接收多条语音信息和脸部信息，并基于与各接收的语音信息和脸部信息相应的用户模型来确定接收的语音信息是否是注册用户的语音信息；

当确定接收的语音信息是注册用户的语音信息时，基于接收的脸部信息确定所述至少一个用户的注意力是否在所述系统上；以及

当确定所述至少一个用户的注意力在所述系统上时，分析接收的语音信息的含义，并基于以情境为基础表示会话流的对话模型确定分析出的接收的语音信息的含义是否对所述系统具有实际意义，

其中，当确定分析出的接收的语音信息的含义对所述系统具有实际意义时，接收的语音信息被发送到所述系统，从而所述系统根据该语音信息执行特定任务，

8.如权利要求7所述的通信接口方法，其中，确定接收的语音信息是否是注册用户的语音信息的步骤包括：通过将接收的语音信息与用户模型比较来计算所述至少一个用户是注册用户的第一概率，通过将接收的脸部信息与用户模型比较来计算所述至少一个用户是注册用户的第二概率，并基于计算的第一概率和第二概率来确定接收的语音信息是否是注册用户的语音信息。

9.如权利要求7所述的通信接口方法，其中，确定用户的注意力是否在所述系统上的步骤包括：从脸部信息中提取所述至少一个用户的眼睛的方向的信息和所述至少一个用户的脸部的方向的信息，并基于提取的眼睛的方向的信息和提取的脸部的方向的信息来确定所述至少一个用户的注意力是否在所述系统上。

10.如权利要求7所述的通信接口方法，其中，对话模型是由节点和分枝构成的通信树的形式，其中，节点对应于话语的含义，分枝对应于会话的顺序，并且确定接收的语音信息是否具有实际意义的步骤包括：将接收的语音信息的含义应用于所述通信树，并且当接收的语音信息的含义对应于所述通信树的节点时确定接收的语音信息对所述系统具有实际意义。

11.一种确定语音信息是否对系统有意义的方法，包括：

基于从至少一个用户接收到的语音信息和脸部信息以及由注册用户的语音信息和脸部信息定义的用户模型，确定接收的语音信息是否是注册用户的语音信息；

当确定接收的语音信息是注册用户的语音信息时，基于脸部信息确定所述至少一个用户的注意力是否在所述系统上；

当确定所述至少一个用户的注意力在所述系统上时，对语音信息执行语义分析，确定语义分析是否对应于会话模式；以及

当语义分析对应于会话模式时，产生与语音信息相应的控制命令并将所述控制命令发送到所述系统，从而所述系统根据该控制命令执行特定任务，

其中，对系统有意义的状态是指用户的讲话没有脱离一般或固定的会话模式。

12.如权利要求11所述的方法，其中，对语音信息执行语义分析的步骤包括：分析语音信息的含义。

13.如权利要求12所述的方法，其中，分析语音信息的含义的步骤包括识别语音信息，并将语音信息转换为文本。

14.如权利要求11所述的方法，其中，确定语义分析是否对应于会话模式的步骤包括：确定通过使用对话模型分析的含义是否对所述系统有意义。