CN1615671A

CN1615671A - 借助至少两个电声转换器向数据终端设备用户输出可听信息的虚拟助理和提供虚拟助理可听信息的方法

Info

Publication number: CN1615671A
Application number: CN03802220.6A
Authority: CN
Inventors: 罗兰·奥鲍尔; 克里斯托弗·普尔施曼; 弗兰克·洛伦茨; 斯蒂法诺·A·克林克; 迈克尔·许尔斯肯珀; 克里斯托弗·尤谢尔
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2002-01-14
Filing date: 2003-01-13
Publication date: 2005-05-11
Also published as: WO2003058419A3; AU2003208256A1; EP1472906A2; US20050129250A1; WO2003058419A2; AU2003208256A8

Abstract

本发明涉及一种虚拟助理，其借助至少两个电声转换器向数据终端设备的用户输出可听见的信息，以及一种用于向数据终端设备的用户提供虚拟助理的可听见信息的方法。为了在借助电声转换器输出的信息和其它由至少另一个声源输出的信息之间实现更好的立体声分离，可以由数据终端设备的用户在空间中定位虚拟助理。由此用户接收和处理来自虚拟助理和其它声源的信息。但至少，使简化了用户对来自虚拟助理和其它声源的信息的同时接收和处理。

Description

借助至少两个电声转换器向数据终端设备用户输出可听信息的虚拟助理和提供虚拟助理可听信息的方法

技术领域

本发明涉及一种借助至少两个电声转换器向数据终端设备的用户输出可听见信息的虚拟助理，以及一种为数据终端设备的用户提供虚拟助理的可听见信息的方法。

背景技术

对于PC应用程序的使用，一般公知用户可以访问虚拟助理、即基于计算机的帮助(程序)，该虚拟助理在为了完成任务而实施必需的步骤时、或者当用户希望进一步了解PC应用程序的功能时支持用户。另一方面，在输入错误时提醒用户注意这些错误输入，并由虚拟助理向用户讲解输入建议。为用户光学地、即借助显示单元显示通过虚拟助理提供的信息。

虚拟助理的这些对用户有益的功能原理上也可以用于移动数据终端设备，例如移动电话或以个人数字助理PDA为人所熟悉的设备。但是在此对用户来说存在缺点，即由虚拟助理提供的丰富信息必须显示在移动数据终端设备的小显示单元上。

此外，如果用户必须同时将注意力集中在周围其它光学显示的信息或谈话对象的声音信息上，则虚拟助理提供的光学的丰富信息对于数据终端设备的用户来说是难以处理的。在此提供了，借助声学显示方式实现由数据终端设备的虚拟助理为数据终端设备的用户提供信息。通过这种方式，数据终端设备的用户可以更好地同时处理声学提供的信息和其它光学提供的信息。

另一方面，公知有这样的数据终端设备或方法，其中为数据终端设备的用户或该方法声学显示附加信息。例如助理在售票窗口通过售票窗口的相应服务程序，借助声学信息来引导售票窗口的用户。

由于售票窗口经常处于较吵闹的环境中，因此对售票窗口的用户来说，难以听清由售票窗口助理输出的声音信息。还难以跟踪由两个不同的信号源同时作用在一个用户身上的声音信息。

一段时间以来对所谓的立体声技术进行了研究。该立体声技术的介绍例如在J.Blauert(1996)标题为：“An introduction to binaural technology”，Binaural and Spatial Hearing in Real and Virtual Enviroments，R.Gilkey &T.Anderson编辑，593-609页，Lawrence Erlbaum，USA-Hill-dale NJ中进行了描述。

在对声频信息采用信号技术处理的条件下，听众借助立体声技术可以将产生声波的源对应到周围空间的任意位置。其中，在该空间中固定设置听众或输出声音信息的电声转换器。然后，听众例如可以通过对音频信息的相应信号技术处理形成这样一种主观印象，即产生声波的源在其周围或者面向他或者远离他。也就是说，借助音频信息的信号技术处理可以将产生声波的源定位在空间的任意位置。

发明内容

因此，本发明要解决的技术问题在于，为数据终端设备的用户开发一种技术手段，其中对于用户的感觉来说，可以将由数据终端设备的虚拟助理输出的声音信息更好地与其它同样对数据终端设备的用户有影响的声源分离开来。

该技术问题是从权利要求1的上位概念中定义的虚拟助理出发，通过在权利要求1的特征部分给出的特征，以及从权利要求9的上位概念中定义的方法出发，通过在权利要求9的特征部分给出的特征解决的。本发明的优选实施方式在从属权利要求中给出。

根据本发明，借助至少两个电声转换器向数据终端设备的用户输出可听见信息的虚拟助理，可以由用户在空间中定位，从而在借助电声转换器输出的信息和其它由至少另一个声源输出的信息之间实现更好的立体声分离。

本发明的一个优点是，借助对数据终端设备的虚拟助理的音频信息进行信号技术处理或其本地化，该数据终端设备的用户可利用声源的空间定位。对数据终端设备的用户来说，可以与环境噪声更好分离地收听到虚拟助理的音频信息。

此外，可以在用户与空间中的另一位谈话对象谈话的同时，有目的地将虚拟助理的音频信息从一个方向输送给数据终端设备的用户。在此，也可以将来自虚拟助理的影响用户的音频信息和来自谈话对象的影响用户的音频信息进行较好的空间声音分离。由此，用户既可以接收和处理来自虚拟助理也可以接收和处理来自谈话对象的信息。但至少，使用户容易对来自虚拟助理和谈话对象的信息同时接收和处理。

如果除了来自虚拟助理的音频信息和来自存在于用户周围的其它声源的环境噪声之外，还同时显示光学信息影响数据终端设备的用户，则具有另一优点。在这种情况下，数据终端设备的用户也可以更好地接收和处理来自不同声源的信息。

具体实施方式

本发明的其它优点由下面的描述给出，其借助两个实施例解释了本发明。

在第一实施例中，一位行人位于大街上。这位行人提着很重的购物袋。他想用他的构造为移动电话的数据终端设备进行一次电话交谈。该移动电话开机，但是放在他的一个购物袋中，因此不太容易找到。但是这位行人戴着具有受话器的轻便耳机。在该具有受话器的耳机中，集成了两个用于输出音频信息的电声转换器。具有受话器的耳机与移动电话一样配备了无线模块(例如蓝牙功能模块)，用于在具有受话器的耳机和移动电话之间进行短作用距离的数据交换。

行人，即该具有受话器的耳机或移动电话的用户，激活该具有受话器的耳机，并由此实现了具有受话器的耳机和移动电话之间的数据交换。该用户对具有受话器的耳机说“拨号”，对此移动电话的虚拟助理通知他“请说出姓名”。用户说出受话者的姓名。由于用户在具有高噪声电平的环境中移动，因此移动电话不能以足够的精度识别该受话者的姓名。移动电话处理用户输入的姓名，并将该姓名与移动电话的内置电话簿中存储的姓名进行比较。移动电话将输入的姓名识别为“Schmitzer”或“Schnitzler”。对用户来说，在移动电话的显示单元上输出这两个姓名、并接着要求该用户在这两个姓名之间做出选择是毫无用处的。这是因为，如已提到的，用户的移动电话埋藏在他的一个购物袋中而难以拿到。另一方面，移动电话由用户通过具有受话器的耳机识别该移动电话的运行，从而移动电话指示其虚拟助理，借助具有受话器的耳机，通过虚拟助理向用户输出所有听起来相似的姓名。例如，用户通过具有受话器的耳机听到其虚拟助理下面的这番话：“没有唯一识别的名字”，“请从下面的选项中选择”，“Schmitzer”或在短暂停顿之后接着说“Schnitzler”。

尽管环境噪声很大，用户还是识别出由虚拟助理提供的两个选项，因为在移动电话的虚拟助理输出音频信息时，借助电声转换器使立体声技术得到了应用。立体声技术实现了对移动电话中的音频信息进行针对性的信号技术处理。在通过虚拟助理借助具有受话器的耳机再现该音频信息时，移动电话的用户可以判断由虚拟助理输出的音频信息的清楚位置。在移动电话中，根据由用户进行的预调，对音频信息进行这样的信号技术处理，即移动电话的用户将由虚拟助理提供的音频信息定位为来自头部附近的信息。该音频信息从后面越过用户的肩膀而在其耳畔“低语”。

移动电话的用户例如可以借助公知的机电输入装置任意改变虚拟助理的位置，从该位置收听到由虚拟助理输出的音频信息。

机电输入装置例如是底座中的圆球。由传感器探测用户引起的球体转动。另一方面，虚拟助理的定位按照本身公知的方式，借助语音命令或借助在移动电话接触灵敏的显示单元上的输入来进行。

此外，当移动电话具有通过例如旋转速率传感器或磁场传感器来检测移动电话用户的头部运动的头部位置传感器时，如果在对音频信息进行信号技术处理时考虑该头部运动，则也可以保持所选择的虚拟助理的位置。

通过虚拟助理的预调定位或由用户任意改变其位置的可能性，用户既可以按照简单方式借助用于建立呼叫连接的语音命令操作移动电话，也可以留意到环境噪声，例如大声喊叫或喇叭声等等。

为了根据该呼叫连接的建立选择由虚拟助理提供的姓名“Schmitzer”或“Schnitzler”，用户通过向具有受话器的耳机说出“不是”来回答姓名“Schmitzer”，而通过说出“是”来回答姓名“Schnitzler”。移动电话识别姓名“Schnitzler”，并建立呼叫。

在第二实施例中描述了远程电信会议的情况。有多人参加该远程电信会议，这些人大部分能说或理解不同的语言。这些人分别坐在分布在整个远程电信会议室内的各个桌子旁，每个人都有自己的显示屏。一位参与者发言，则构造为远程电信会议系统的数据终端设备将该参与者投影到挂在远程电信会议室墙上的银幕上，从而使得其他参与者也可以看见该参与者的表情和姿势。

另一方面，该参与者的讲话通过与远程电信会议系统连接的、并构造为电声转换器的扬声器传出。

同时，将发言的参与者的讲话实时翻译为其他参与者的语言，并且参与者可以通过具有受话器的耳机收听到该音频信息形式的翻译，其中在耳机中集成了两个用于输出音频信息的电声转换器。为了向参与者提供同时专注于以发言的参与者的语言作出的讲话以及以同声翻译后的语言作出的讲话的可能性，由远程电信会议系统通过虚拟助理为其他参与者输出可听见的同声翻译。远程电信会议的每个参与者可以通过在远程电信会议系统中输入相应的键组合来在空间中任意定位虚拟助理。

在此，也由各参与者借助对音频信息的信号技术处理实现在远程电信会议系统中对虚拟助理的定位以及对由虚拟助理输出的音频信息的空间声音的感觉。参与者这样定位虚拟助理，使得参与者通过虚拟助理收听到音频信息的输出，就象从后面越过肩膀发送的和来自头部附近的一样。通过虚拟助理的定位，很好地实现了将通过扬声器发出的讲话和该讲话的同声翻译之间的立体声分离，从而参与者可以很好地理解通过扬声器发出的讲话和同声翻译，并专注于发言的参与者的表情和姿势。也就是说，参与者可以注意力集中地同时听取多条信息。

如果一参与者已经知道他自己的代表团的讲话，则该参与者可以将远程电信会议系统用于通过虚拟助理获得其它信息，例如关于会议日程安排的信息、关于其他参与者的背景信息或关于参与者下榻酒店的信息。

所述例子并非穷举。将通过虚拟助理向数据终端设备的用户输出的音频信息与其它对用户来说重要的、可同时听见或可看见的信息进行空间声音分离的概念，可以延伸到其他例子中，尤其是在用户采用移动通信发送设备时。在此，例如可提到导游，其中该导游向观光者解释博物馆中以该国语言确定的展品，观光者通过其UMTS移动电话听见由虚拟助理以很好的空间声音分离出的该导游解释的同声翻译，必要时还能同时留意在其UMTS移动电话的显示单元上的展品的其它光学显示的信息。

Claims

1.一种虚拟助理，借助至少两个电声转换器向数据终端设备的用户输出可听见的信息，其特征在于，该虚拟助理可以由数据终端设备的用户在空间中定位，从而可实现在借助电声转换器输出的信息和其它由至少另一个声源输出的信息之间的更好的空间声音分离。

2.根据权利要求1所述的虚拟助理，其特征在于，所述虚拟助理在空间中的定位可以通过在数据终端设备中对音频信息进行有针对性的信号技术处理来实现。

3.根据权利要求1或2所述的虚拟助理，其特征在于，可以这样定位所述虚拟助理，即为数据终端设备的用户将所述虚拟助理定位在头部附近和该用户的一个肩膀后面。

4.根据上述权利要求中任一项所述的虚拟助理，其特征在于，所述虚拟助理在空间中的定位可以预调。

5.根据上述权利要求中任一项所述的虚拟助理，其特征在于，所述虚拟助理的定位可以借助一个机电输入装置来调整。

6.根据权利要求1至4中任一项所述的虚拟助理，其特征在于，所述虚拟助理的定位可以借助语音命令来调整。

7.根据权利要求1至4中任一项所述的虚拟助理，其特征在于，所述虚拟助理的定位可以借助在接触灵敏的显示单元上的输入来调整。

8.根据上述权利要求中任一项所述的虚拟助理，其特征在于，所述虚拟助理可以用在移动数据终端设备中。

9.一种用于向数据终端设备的用户提供虚拟助理的可听见信息的方法，其中，该虚拟助理的可听见信息通过至少两个电声转换器输出，其特征在于，为了改善在由虚拟助理通过电声转换器输出的信息和其它由至少另一个声源输出的信息之间的空间声音分离，在空间中定位所述数据终端设备的虚拟助理。

10.根据权利要求9所述的方法，其特征在于，所述数据终端设备另外配备有接收数据终端设备用户的头部运动的头部位置传感器，其中，在对音频信息进行信号技术处理时这样考虑该头部运动，即所选择的虚拟助理在空间中的位置在头部运动时也保持不变。