CN102640084B - 用于多用户和系统的通信接口设备和方法 - Google Patents

用于多用户和系统的通信接口设备和方法 Download PDF

Info

Publication number
CN102640084B
CN102640084B CN201080053726.1A CN201080053726A CN102640084B CN 102640084 B CN102640084 B CN 102640084B CN 201080053726 A CN201080053726 A CN 201080053726A CN 102640084 B CN102640084 B CN 102640084B
Authority
CN
China
Prior art keywords
user
voice messaging
information
reception
implication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201080053726.1A
Other languages
English (en)
Other versions
CN102640084A (zh
Inventor
金南勋
曹贞美
朴致衍
金正寿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN102640084A publication Critical patent/CN102640084A/zh
Application granted granted Critical
Publication of CN102640084B publication Critical patent/CN102640084B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Abstract

提供了一种用于系统和多个用户的通信接口设备。所述用于系统和多个用户的通信接口设备包括:第一处理单元,被构造为从至少一个用户接收语音信息和脸部信息,并基于与各接收的语音信息和脸部信息相应的用户模型来确定接收的语音信息是否是至少一个注册用户的语音信息;第二处理单元,被构造为接收脸部信息,并基于接收的脸部信息来确定所述至少一个用户的注意力是否在所述系统上;以及第三处理单元,被构造为接收语音信息,分析接收的语音信息,并基于以情境为基础表示会话流的对话模型来确定接收的语音信息是否对所述系统具有实际意义。

Description

用于多用户和系统的通信接口设备和方法
本申请是要求基于2009年11月27日提交的第10-2009-0115914号韩国专利申请的优先权的于2010年11月9日提交的第PCT/KR2010/007859号国际申请的国家阶段,所述韩国专利申请的全部内容通过引用完整地包含于此。
技术领域
本发明涉及一种系统与用户之间的语音接口。
背景技术
随着装置性能在家庭环境中得到提高并且提供与所述性能相关的多种服务变得普遍,除了现有的按钮输入方法之外,已经引入了各种各样的用户接口。
最近典型的用户接口是利用语音识别的用户接口。为了实现这种基于语音识别的用户接口,从输入信号检测用户的语音部分的语音活动检测(VAD)能力的改进应该占有优先地位。
具体地讲,对于家庭环境中的语音接口,多个用户和系统之间的交互被期望,并且从输入信号检测的用户的讲话是用于向系统指示特定任务的语音还是与另一用户通信的讲话应该是必要的。因此,VAD能力的改进被强调。然而,现有的VAD假定仅来自单个讲话者的输入,并且通常具有在输入信号中从噪声识别讲话的目的。因此,对于多个用户和系统之间的语音接口,现有的VAD技术具有局限性。
发明内容
本发明提供一种用于系统和多个用户的通信接口设备,包括:第一处理单元,被构造为从至少一个用户接收语音信息和脸部信息,并基于与各接收的语音信息和脸部信息相应的用户模型来确定接收的语音信息是否是注册用户的语音信息;第二处理单元,被构造为接收脸部信息,并基于接收的脸部信息来确定用户的注意力是否在所述系统上;以及第三处理单元,被构造为接收语音信息,分析接收的语音信息,并基于以情境为基础表示会话流的对话模型来确定接收的语音信息是否对所述系统具有实际意义。
在一个总的方面,提供了一种用于系统和多个用户的通信接口设备,包括:第一处理单元,被构造为从至少一个用户接收语音信息和脸部信息,并基于与各接收的语音信息和脸部信息相应的用户模型来确定接收的语音信息是否是注册用户的语音信息;第二处理单元,被构造为接收脸部信息,并基于接收的脸部信息来确定用户的注意力是否在所述系统上;以及第三处理单元,被构造为接收语音信息,分析接收的语音信息,并基于以情境为基础表示会话流的对话模型来确定接收的语音信息是否对所述系统具有实际意义。
第一处理单元还可被构造为通过将接收的语音信息与用户模型比较来计算用户是注册用户的第一概率,通过将接收的脸部信息与用户模型比较来计算用户是注册用户的第二概率,并基于计算的第一概率和第二概率来确定接收的语音信息是否是注册用户的语音信息。
第二处理单元还可被构造为从脸部信息中提取用户的眼睛和用户的脸部的方向的信息,并基于提取的眼睛或脸部的方向的信息来确定注意力是否在所述系统上。
第三处理单元还可被构造为当接收的语音信息的含义对应于通信树时确定接收的语音信息对所述系统具有实际意义。
在另一总体方面,提供了一种用于系统和多个用户的通信接口方法,包括:从至少一个用户接收多条语音信息和脸部信息,并基于与各接收的语音信息和脸部信息相应的用户模型来确定接收的语音信息是否是注册用户的语音信息;基于接收的脸部信息来确定用户的注意力是否在所述系统上;以及分析接收的语音信息的含义,并基于以情境为基础表示会话流的对话模型来确定接收的语音信息是否对所述系统具有实际意义。
在另一总体方面,提供一种确定语音信息是否对系统有意义的方法,包括:对语音信息执行语义分析;基于脸部信息确定至少一个用户的注意力是否在所述系统上;确定语义分析是否对应于会话模式;以及当语义分析对应于会话模式时,产生与语音信息相应的控制命令并将所述控制命令发送到所述系统。
本发明的另外的特点将在以下描述中被阐明,并且部分从以下描述中将是清楚的,或者可通过实施本发明而被了解。
附图说明
被包括以提供对本发明的进一步理解并且与本说明书结合并构成本说明书一部分的附图示出了本发明的实施例,并且与以下描述一起用来解释本发明的原理。
图1是示出通信接口设备的示例的示图。
图2是详细示出通信接口设备的示例的示图。
图3是示出图2的第一处理单元的操作过程的示例的流程图。
图4是示出图2的第二处理单元的操作过程的示例的流程图。
图5是示出图2的第三处理单元的操作过程的示例的流程图。
图6是示出对话模型的示例的示图。
图7是示出通信接口方法的示例的流程图。
图8是示出如何使用通信接口设备的示例的示图。
具体实施方式
提供以下描述以帮助读者全面理解这里描述的方法、设备和/或系统。因此,这里描述的方法、设备和/或系统的各种改变、修改和等同物可被推荐给本领域普通技术人员。描述的一系列处理步骤和/或操作是示例;然而,除了必须以特定顺序发生的步骤和/或操作以外,所述步骤和/或操作的顺序不限于这里阐述的顺序,而是可按照本领域已知的方式被改变。此外,为了更加清楚和简要,可省略对公知功能和结构的描述。
图1示出通信接口设备的示例的示图。参照图1,通信接口设备101可提供系统102与多个用户103、104和105之间的用户接口。例如,通信接口设备101可从用户103、104和105接收系统控制指令,分析接收的控制指令,并将分析的控制指令发送到系统102。通信接口设备101可以以有线或无线方式连接到系统102,并可被设置在系统102的内部。
系统102可以是根据来自用户103、104和105的指令执行特定任务的装置。例如,系统102可以是与多个用户103、104和105交互的电子产品、控制台游戏装置或智能机器人。
通信接口设备101可从多个用户103、104和105的语音之中检测预先注册的用户的语音。例如,如果假设仅有用户A103和用户B104被注册,则当所有多个用户103、104和105讲话时,通信接口设备101可仅检测预先注册的用户A103和用户B104的语音。
此外,通信接口设备101可将检测的语音中有意义的语音发送到系统102。例如,如果用户A103的语音用于向系统102指示特定任务,并且用户B104的语音仅用于问候用户C105,则通信接口设备101可分析检测的语音的含义,并根据分析结果将用户A103的语音发送到系统102。
因此,当多个用户103、104和105与系统102交互时,可允许系统102仅对注册用户的有意义的指令做出反应。
图2详细示出通信接口设备的示例的示图。参照图2,通信接口设备200可包括语音信息检测单元201、脸部信息检测单元202、第一处理单元203、第二处理单元204、第三处理单元205、用户模型数据库(DB)206以及对话模型DB207。
语音信息检测单元201接收音频信号并从接收的音频信号中检测语音信息。音频信号可包括语音信号和非语音信号。通过用户的讲话产生语音信号,通过用户的手势或用户周围的声响产生非语音信号。例如,语音信息检测单元201可从接收的音频信号中提取特征信息,诸如平滑功率谱、梅尔倒频谱系数(MFCC)、感知线性预测系数(PLP)等。
脸部信息检测单元202接收视频信号并从接收的视频信号中检测脸部信息。脸部信息可以是视频图像中与人脸相应的图像的特定区域。例如,脸部信息检测单元202可使用脸部检测方案(诸如Ada-boost)从接收的视频信号中提取与用户的脸部区域相应的脸部信息。
第一处理单元203接收由语音信息检测单元201检测的语音信息以及由脸部信息检测单元202检测的脸部信息。此外,第一处理单元203确定接收的语音信息是否是注册用户的语音信息。
可基于存储在用户模型DB206中用户模型来执行接收的语音信息的确定。用户模型可以被定义为注册用户的语音信息和脸部信息。例如,用户模型DB206可以以逐个用户为基础来存储语音信息和脸部信息。第一处理单元203可将接收的语音信息/脸部信息与存储在用户模型DB206中的用户模型比较,并确定接收的语音信息是否是注册用户的语音信息。例如,第一处理单元203可计算接收的语音信息与用户模型相同的概率以及接收的脸部信息与用户模型相同的概率,然后使用计算的概率值来确定接收的语音信息是否是注册用户的语音信息。
当确定接收的语音信息是注册用户的语音信息时,第二处理单元204从脸部信息检测单元接收脸部信息,并基于接收的脸部信息来确定用户的注意力是否在系统上。这里,用户对系统的注意力是指用户具有向系统指示指令或特定任务的意图的事件。例如,当比较用户在注视系统的同时讲话的事件与用户没有注视系统而讲话的事件时,可确定当用户在注视系统的同时讲话时注意力在系统上。
可基于包括在接收的脸部信息中的用户的眼睛和脸部的方向来执行注意力的发生的确定。例如,第二处理单元204可从接收的脸部信息中提取用户的眼睛和脸部的方向的信息,并基于提取的眼睛和脸部的方向的信息来确定用户是否面对系统。
如果注意力在系统上,则第三处理单元205从语音信息检测单元201接收语音信息,分析接收的语音信息的含义,并确定分析的含义是否对系统具有实际意义。这里,对系统具有实际意义的状态是指用户的讲话没有脱离一般或固定的会话模式(或话语语境)。例如,如果用户说“开始清洁”并且因此清洁机器人开始清洁,则在清洁机器人正在清洁的同时,用户的话语“停止清洁”和“更多地清洁客厅”对应于所述会话模式,而话语“今天天气很好”和“做点好吃的”则偏离了所述会话模式。
可基于存储在对话模型DB207中的对话模型来执行接收的语音信息是否对系统具有实际意义的确定。这里,对话模型可被定义为上述的会话模式。例如,对话模型可以是由节点和分枝构成的通信树的形式,其中,节点对应于话语的含义,分枝对应于会话的顺序。第三处理单元205在含义水平上分析接收的语音信息,并将分析的信息转换为文本。然后,第三处理单元205可将转换的文本与通信树进行比较,如果转换的文本对应于特定节点,则第三处理单元205确定接收的语音信息对系统具有实际意义。
图3示出图2的第一处理单元的操作过程的示例的流程图。参照图3,以下将描述确定接收的语音信息是否是注册用户的语音信息的方法。
在图3中,第一处理单元203将接收的语音信息与用户模型比较以计算第一概率(301)。例如,第一概率P1可以是对应于语音部分的语音特征信息与离线配置的注册用户的语音特征模型相同的概率的最大值,并且可由如下等式1来表示:
P 1 = P ( S | θ ^ p )
其中, θ ^ p = arg max P ( S | θp ) , { θ 1 , θ 2 , . . . , θp } . . . ( 1 )
这里,θ表示注册用户的语音特征模型,p表示注册用户的数量,S表示接收的语音信息。
然后,通过将接收的脸部信息与用户模型比较来计算第二概率P2(302)。例如,第二概率P2可以是对应于脸部区域的图像特征信息与离线配置的注册用户的脸部特征模型相同的概率的最大值,并且可由如下等式2来表示:
P 2 = P ( V | Ψ ^ p )
其中, Ψ ^ p = arg max P ( S | Ψp ) , ( Ψ 1 , Ψ 2 , . . . , Ψp ) . . . ( 2 )
这里,ψ表示注册用户的脸部特征模型,p表示注册用户的数量,V表示接收的脸部信息。
然后使用权重来组合第一概率P1和第二概率P2(303)。
P = f ( P 1 , P 2 )
= 1 N ( α P 1 + ( 1 - α ) P 2 ) Pspeech = Pface 0 Pspeech ≠ Pface . . . ( 3 )
在等式3中,α表示可根据照明度和信噪比而变化的权重。此外,当基于语音特征模型选择的注册用户被表示为Pspeech,并且基于脸部特征模型选择的注册用户被表示为Pface时,如果Pspeech和Pface彼此相同,则分配归一化概率值,否则可分配0。
然后,将组合值P与阈值比较(304),如果组合值P大于阈值,则确定接收的语音信息是注册用户的语音信息(305),否者过程终止。
图4示出图2的第二处理单元204的操作过程的示例的流程图。参照图4,以下将描述确定用户的注意力是否在系统上的方法。
在图4中,第二处理单元204从脸部信息中提取眼睛的方向的信息(401)。此外,第二处理单元204从脸部信息中提取脸部的方向的信息(402)。其后,第二处理单元204通过施加权重来组合提取的眼睛的方向的信息和脸部的方向的信息(403)。然后,组合值与阈值比较(404),如果组合值大于阈值,则确定用户的注意力在系统上(405),否则过程终止。以上过程由如下等式4来表示。
f(P(Oeyep),P(Ofacep))=βP(Oeyep)+(1-β)P(Ofacep)
f(P(Oeyep),P(Ofacep))≥τoriemation
其中,0≤β≤1,0≤τoriemation≤1…(4)
这里,P(Oeyep)表示眼睛的方向的信息的归一化的概率值,P(Ofacep)表示脸部的方向的信息的归一化的概率值,β表示权重。
图5示出图2的第三处理单元205的操作过程的示例的流程图。参照图3,以下将描述确定语音信息是否对系统有意义的方法。
在图5中,第三处理单元205分析接收的语音信息的含义(501)。例如,第三处理单元205可识别接收的语音信息,并将接收的语音信息转换为文本。另外,第三处理单元205确定分析的含义是否对应于会话模式(502)。例如,第三处理单元205可确定通过使用如图6所示的对话模型分析的含义是否对系统有意义。如果确定结果显示含义对应于会话模型,则语音信息被发送到系统,或者与语音信息相应的控制指令被产生并被发送到系统(503),否则过程终止。
图6示出对话模型的示例的示图。在图6中,树的节点对应于会话的含义,树的分枝对应于会话的顺序。例如,根据会话模式(或语境),指示“你能给我一些喝的吗?”的节点A1可具有两个子节点B1“是”和B2“否”。如果节点A1分叉到节点B1,则下一可用的节点可以是根据饮品的种类的指示“水,请”的节点C1、指示“牛奶,请”的节点C2、指示“果汁,请”的节点C3等。
以上对话模型可以以情境为基础而存储在对话模型DB207中。第三处理单元205接收并分析语音信息,如果分析结果指示语音信息具有“水,请”的含义,则在节点B1处,语音信息被确定为对应于会话模式并且因此对系统有意义。然而,如果当前对话状态是节点B2,则指示“水,请”的含义的语音信息被确定为对系统无意义。
图7示出通信接口方法的示例的流程图。在图7中,从一个或多个用户接收多条语音信息和脸部信息,并基于分别与接收的语音信息和脸部信息相应的用户模型来确定接收的语音信息是否是注册用户的语音信息(701)。例如,第一处理单元203(见图2)可使用图3中示出的方法和等式1至等式3来选择性地检测用户的用户信息。
如果接收的语音信息是注册用户的语音信息,则基于接收的脸部信息确定用户的注意力是否在系统上(702)。例如,第二处理单元204(见图2)可基于图4中示出的方法和等式4来确定注意力的发生。
如果用户正关注系统,则分析接收的语音信息的含义,并基于以情境为基础表示会话流的对话模型来确定分析的接收的语音信息的含义是否对系统有意义(703)。例如,第三处理单元205可使用图5和图6中示出的方法来执行语义分析以及与会话模式的对应性的确定。
图8示出如何使用通信接口设备的示例的示图。为了便于解释,图8中示出的示例假定存在四个用户A、B、C和D,其中,用户A、B和C被注册,用户A面对通信接口设备801说出“订购红色T恤”,用户B面对通信接口设备801说出“房间很脏,清洁房间”,用户C注视着用户B说出“让我们休息一下”。
通信接口设备801忽略没被注册的用户D的话语。此外,因为用户C没有关注系统802,所以通信接口设备801也忽略用户C的话语。通信接口设备801分析用户A和用B的语音信息的含义。如果根据会话流需要对象的订购,则仅有用户A的订购指令被发送到系统802,并且用户B的话语由于对系统802无意义而被忽略。
因此,应注意的是:仅当“注册用户”“在关注系统的同时”发出“有意义或重要的话语”时,通信接口设备801才将用户的控制指令发送到系统802。因此,当多个用户和系统彼此交互时,可实现更准确和可靠的接口连接。
当前实施例可实现为计算机可读记录介质中的计算机可读代码。构成计算机程序的代码和代码段可由本领域的计算机编程技术人员容易地推断出。计算机可读记录介质包括存储计算机可读数据的所有类型的记录介质。计算机可读记录介质的示例包括ROM、RAM、CD-ROM、磁带、软盘和光学数据存储器。此外,记录介质可以以诸如互联网传输的载波的形式被实现。此外,计算机可读记录介质可以分布到网络上的计算机系统,其中,计算机可读代码可以以分布方式被存储和执行。
以上描述了多个示例。然而,将理解的是,可进行各种修改。例如,如果以不同的顺序执行描述的技术,和/或如果描述的系统、架构、装置或电路中的组件以不同的方式组合和/或被其他组件或者其等同物替换或补充,则可实现适当的结果。因此,其他实施方式落入权利要求的范围内。

Claims (14)

1.一种用于系统和多个用户的通信接口设备,包括:
第一处理单元,被构造为从至少一个用户接收语音信息和脸部信息,并基于与各接收的语音信息和脸部信息相应的用户模型来确定接收的语音信息是否是注册用户的语音信息;
第二处理单元,被构造为接收脸部信息,并在第一处理单元确定接收的语音信息是注册用户的语音信息时,基于接收的脸部信息确定所述至少一个用户的注意力是否在所述系统上;以及
第三处理单元,被构造为接收语音信息,在第二处理单元确定所述至少一个用户的注意力在所述系统上时,分析接收的语音信息的含义,并基于以情境为基础表示会话流的对话模型确定分析出的接收的语音信息的含义是否对所述系统具有实际意义,
其中,当第三处理单元确定分析出的接收的语音信息的含义对所述系统具有实际意义时,所述通信接口设备将接收的语音信息发送到所述系统,从而所述系统根据该语音信息执行特定任务,
其中,对系统具有实际意义的状态是指用户的讲话没有脱离一般或固定的会话模式。
2.如权利要求1所述的通信接口设备,其中,用户模型由注册用户的多条语音信息和脸部信息来定义。
3.如权利要求1所述的通信接口设备,其中,第一处理单元还被构造为通过将接收的语音信息与用户模型比较来计算所述至少一个用户是注册用户的第一概率,通过将接收的脸部信息与用户模型比较来计算所述至少一个用户是注册用户的第二概率,并基于计算的第一概率和第二概率来确定接收的语音信息是否是注册用户的语音信息。
4.如权利要求1所述的通信接口设备,其中,第二处理单元还被构造为从脸部信息中提取所述至少一个用户的眼睛的方向的信息和所述至少一个用户的脸部的方向的信息,并基于提取的眼睛的方向的信息和提取的脸部的方向的信息来确定所述至少一个用户的注意力是否在所述系统上。
5.如权利要求1所述的通信接口设备,其中,对话模型是由节点和分枝构成的通信树的形式,其中,节点对应于话语的含义,分枝对应于会话的顺序。
6.如权利要求5所述的通信接口设备,其中,第三处理单元还被构造为当接收的语音信息的含义对应于所述通信树时确定接收的语音信息对所述系统具有实际意义。
7.一种用于系统和多个用户的通信接口方法,包括:
从至少一个用户接收多条语音信息和脸部信息,并基于与各接收的语音信息和脸部信息相应的用户模型来确定接收的语音信息是否是注册用户的语音信息;
当确定接收的语音信息是注册用户的语音信息时,基于接收的脸部信息确定所述至少一个用户的注意力是否在所述系统上;以及
当确定所述至少一个用户的注意力在所述系统上时,分析接收的语音信息的含义,并基于以情境为基础表示会话流的对话模型确定分析出的接收的语音信息的含义是否对所述系统具有实际意义,
其中,当确定分析出的接收的语音信息的含义对所述系统具有实际意义时,接收的语音信息被发送到所述系统,从而所述系统根据该语音信息执行特定任务,
其中,对系统具有实际意义的状态是指用户的讲话没有脱离一般或固定的会话模式。
8.如权利要求7所述的通信接口方法,其中,确定接收的语音信息是否是注册用户的语音信息的步骤包括:通过将接收的语音信息与用户模型比较来计算所述至少一个用户是注册用户的第一概率,通过将接收的脸部信息与用户模型比较来计算所述至少一个用户是注册用户的第二概率,并基于计算的第一概率和第二概率来确定接收的语音信息是否是注册用户的语音信息。
9.如权利要求7所述的通信接口方法,其中,确定用户的注意力是否在所述系统上的步骤包括:从脸部信息中提取所述至少一个用户的眼睛的方向的信息和所述至少一个用户的脸部的方向的信息,并基于提取的眼睛的方向的信息和提取的脸部的方向的信息来确定所述至少一个用户的注意力是否在所述系统上。
10.如权利要求7所述的通信接口方法,其中,对话模型是由节点和分枝构成的通信树的形式,其中,节点对应于话语的含义,分枝对应于会话的顺序,并且确定接收的语音信息是否具有实际意义的步骤包括:将接收的语音信息的含义应用于所述通信树,并且当接收的语音信息的含义对应于所述通信树的节点时确定接收的语音信息对所述系统具有实际意义。
11.一种确定语音信息是否对系统有意义的方法,包括:
基于从至少一个用户接收到的语音信息和脸部信息以及由注册用户的语音信息和脸部信息定义的用户模型,确定接收的语音信息是否是注册用户的语音信息;
当确定接收的语音信息是注册用户的语音信息时,基于脸部信息确定所述至少一个用户的注意力是否在所述系统上;
当确定所述至少一个用户的注意力在所述系统上时,对语音信息执行语义分析,确定语义分析是否对应于会话模式;以及
当语义分析对应于会话模式时,产生与语音信息相应的控制命令并将所述控制命令发送到所述系统,从而所述系统根据该控制命令执行特定任务,
其中,对系统有意义的状态是指用户的讲话没有脱离一般或固定的会话模式。
12.如权利要求11所述的方法,其中,对语音信息执行语义分析的步骤包括:分析语音信息的含义。
13.如权利要求12所述的方法,其中,分析语音信息的含义的步骤包括识别语音信息,并将语音信息转换为文本。
14.如权利要求11所述的方法,其中,确定语义分析是否对应于会话模式的步骤包括:确定通过使用对话模型分析的含义是否对所述系统有意义。
CN201080053726.1A 2009-11-27 2010-11-09 用于多用户和系统的通信接口设备和方法 Expired - Fee Related CN102640084B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020090115914A KR101644015B1 (ko) 2009-11-27 2009-11-27 시스템과 다수 사용자 간의 대화 인터페이스 장치
KR10-2009-0115914 2009-11-27
PCT/KR2010/007859 WO2011065686A2 (en) 2009-11-27 2010-11-09 Communication interface apparatus and method for multi-user and system

Publications (2)

Publication Number Publication Date
CN102640084A CN102640084A (zh) 2012-08-15
CN102640084B true CN102640084B (zh) 2016-03-02

Family

ID=44067048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080053726.1A Expired - Fee Related CN102640084B (zh) 2009-11-27 2010-11-09 用于多用户和系统的通信接口设备和方法

Country Status (5)

Country Link
US (1) US9799332B2 (zh)
EP (1) EP2504745B1 (zh)
KR (1) KR101644015B1 (zh)
CN (1) CN102640084B (zh)
WO (1) WO2011065686A2 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120046788A1 (en) * 2009-01-24 2012-02-23 Tek Electrical (Suzhou) Co., Ltd. Speech system used for robot and robot with speech system
US8594845B1 (en) * 2011-05-06 2013-11-26 Google Inc. Methods and systems for robotic proactive informational retrieval from ambient context
JP6402748B2 (ja) * 2016-07-19 2018-10-10 トヨタ自動車株式会社 音声対話装置および発話制御方法
CN106373568A (zh) * 2016-08-30 2017-02-01 深圳市元征科技股份有限公司 智能车载单元控制方法和装置
CN107463601B (zh) * 2017-06-13 2021-02-12 北京百度网讯科技有限公司 基于人工智能的对话理解系统构建方法、装置、设备及计算机可读存储介质
CN107479695B (zh) * 2017-07-19 2020-09-25 苏州三星电子电脑有限公司 显示装置及其控制方法
CN111755004A (zh) * 2020-06-29 2020-10-09 苏州思必驰信息科技有限公司 语音活性检测方法和装置
JP7219788B2 (ja) * 2021-04-09 2023-02-08 本田技研工業株式会社 情報処理装置、情報処理方法、学習方法、およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1524210A (zh) * 2001-07-03 2004-08-25 �ʼҷ����ֵ������޹�˾ 交互显示器和用于显示信息的方法
CN101187990A (zh) * 2007-12-14 2008-05-28 华南理工大学 一种会话机器人系统
CN101510425A (zh) * 2008-02-15 2009-08-19 株式会社东芝 声音识别装置以及用于执行声音识别的方法

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1257073B (it) * 1992-08-11 1996-01-05 Ist Trentino Di Cultura Sistema di riconoscimento, particolarmente per il riconoscimento di persone.
US6471420B1 (en) * 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
JPH0981309A (ja) * 1995-09-13 1997-03-28 Toshiba Corp 入力装置
JPH09218770A (ja) * 1996-02-14 1997-08-19 Toshiba Corp 対話処理装置および対話処理方法
US6731307B1 (en) * 2000-10-30 2004-05-04 Koninklije Philips Electronics N.V. User interface/entertainment device that simulates personal interaction and responds to user's mental state and/or personality
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US6804396B2 (en) * 2001-03-28 2004-10-12 Honda Giken Kogyo Kabushiki Kaisha Gesture recognition system
DE10163814A1 (de) * 2001-12-22 2003-07-03 Philips Intellectual Property Verfahren und Einrichtung zur Nutzeridentifizierung
US7640164B2 (en) * 2002-07-04 2009-12-29 Denso Corporation System for performing interactive dialog
KR100580619B1 (ko) * 2002-12-11 2006-05-16 삼성전자주식회사 사용자와 에이전트 간의 대화 관리방법 및 장치
US7379560B2 (en) * 2003-03-05 2008-05-27 Intel Corporation Method and apparatus for monitoring human attention in dynamic power management
GB2403002A (en) * 2003-04-29 2004-12-22 Hewlett Packard Development Co Shared attention image capture system
US7343289B2 (en) * 2003-06-25 2008-03-11 Microsoft Corp. System and method for audio/video speaker detection
US7697026B2 (en) 2004-03-16 2010-04-13 3Vr Security, Inc. Pipeline architecture for analyzing multiple video streams
US7301526B2 (en) * 2004-03-23 2007-11-27 Fujitsu Limited Dynamic adaptation of gestures for motion controlled handheld devices
GB2412431B (en) * 2004-03-25 2007-11-07 Hewlett Packard Development Co Self-calibration for an eye tracker
JP4507679B2 (ja) * 2004-04-21 2010-07-21 富士ゼロックス株式会社 画像認識装置、画像抽出装置、画像抽出方法及びプログラム
US20070074114A1 (en) * 2005-09-29 2007-03-29 Conopco, Inc., D/B/A Unilever Automated dialogue interface
US8935006B2 (en) * 2005-09-30 2015-01-13 Irobot Corporation Companion robot for personal interaction
US7860718B2 (en) * 2005-12-08 2010-12-28 Electronics And Telecommunications Research Institute Apparatus and method for speech segment detection and system for speech recognition
US7889244B2 (en) * 2005-12-27 2011-02-15 Panasonic Corporation Image processing apparatus
JP4876687B2 (ja) * 2006-04-19 2012-02-15 株式会社日立製作所 注目度計測装置及び注目度計測システム
US20080147488A1 (en) * 2006-10-20 2008-06-19 Tunick James A System and method for monitoring viewer attention with respect to a display and determining associated charges
KR20080075932A (ko) * 2007-01-11 2008-08-20 (주)에이치씨아이랩 음성 및 영상 인식을 이용하여 주인을 알아보고 주인과대화형 인터페이스 및 상호 연동이 가능한 디지털 수족관장치 그 제어방법
US8626731B2 (en) * 2007-02-01 2014-01-07 The Invention Science Fund I, Llc Component information and auxiliary information related to information management
JP4730404B2 (ja) * 2008-07-08 2011-07-20 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US8788977B2 (en) * 2008-11-20 2014-07-22 Amazon Technologies, Inc. Movement recognition as input mechanism
US9442621B2 (en) * 2009-05-05 2016-09-13 Suboti, Llc System, method and computer readable medium for determining user attention area from user interface events
CN101943982B (zh) * 2009-07-10 2012-12-12 北京大学 基于被跟踪的眼睛运动的图像操作
US20110035221A1 (en) * 2009-08-07 2011-02-10 Tong Zhang Monitoring An Audience Participation Distribution
US20110096941A1 (en) * 2009-10-28 2011-04-28 Alcatel-Lucent Usa, Incorporated Self-steering directional loudspeakers and a method of operation thereof

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1524210A (zh) * 2001-07-03 2004-08-25 �ʼҷ����ֵ������޹�˾ 交互显示器和用于显示信息的方法
CN101187990A (zh) * 2007-12-14 2008-05-28 华南理工大学 一种会话机器人系统
CN101510425A (zh) * 2008-02-15 2009-08-19 株式会社东芝 声音识别装置以及用于执行声音识别的方法

Also Published As

Publication number Publication date
EP2504745A2 (en) 2012-10-03
KR101644015B1 (ko) 2016-08-01
WO2011065686A2 (en) 2011-06-03
US9799332B2 (en) 2017-10-24
KR20110059248A (ko) 2011-06-02
US20120278066A1 (en) 2012-11-01
EP2504745B1 (en) 2016-08-17
CN102640084A (zh) 2012-08-15
WO2011065686A3 (en) 2011-11-10
EP2504745A4 (en) 2014-12-10

Similar Documents

Publication Publication Date Title
CN102640084B (zh) 用于多用户和系统的通信接口设备和方法
US9293133B2 (en) Improving voice communication over a network
EP2770445A2 (en) Method and system for supporting a translation-based communication service and terminal supporting the service
CN110557451A (zh) 对话交互处理方法、装置、电子设备和存储介质
CN105100360A (zh) 用于语音通话的通话辅助方法和装置
CN110299152A (zh) 人机对话的输出控制方法、装置、电子设备及存储介质
CN108874904A (zh) 语音消息搜索方法、装置、计算机设备及存储介质
WO2016194740A1 (ja) 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法
CN109688276B (zh) 一种基于人工智能技术的来电过滤系统及其方法
CN108062212A (zh) 一种基于场景的语音操作方法及装置
CN110047481A (zh) 用于语音识别的方法和装置
JP2014191029A (ja) 音声認識システムおよび音声認識システムの制御方法
CN109274922A (zh) 一种基于语音识别的视频会议控制系统
CN113362828A (zh) 用于识别语音的方法和装置
CN110570847A (zh) 一种多人场景的人机交互系统及方法
CN111933149A (zh) 语音交互方法、穿戴式设备、终端及语音交互系统
KR20140067687A (ko) 대화형 음성인식이 가능한 차량 시스템
US20190385633A1 (en) Signal processing apparatus and method, and program
CN109300478A (zh) 一种听力障碍者的辅助对话装置
CN110262278B (zh) 智能家电设备的控制方法及装置、智能电器设备
WO2017179262A1 (ja) 情報処理装置、情報処理方法、およびプログラム
CN112700767A (zh) 人机对话打断方法及装置
CN115148205A (zh) 一种语音交互方法、系统、电子设备及存储介质
MX2011002548A (es) Sistema de dialogo de voz con proceso para evitar rechazo.
CN108735234A (zh) 一种采用语音信息监测健康状况的装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160302

Termination date: 20201109

CF01 Termination of patent right due to non-payment of annual fee