CN110060688A

CN110060688A - 未知的说话者识别系统

Info

Publication number: CN110060688A
Application number: CN201910040343.3A
Authority: CN
Inventors: L.W.帕特里奇; J.D.彭伯西
Original assignee: GE Aviation Systems Ltd
Current assignee: GE Aviation Systems Ltd; GE Aviation Systems LLC
Priority date: 2013-04-22
Filing date: 2014-04-22
Publication date: 2019-07-26
Also published as: FR3004880A1; GB2513559A; US20140314216A1; BR102014009020A2; JP6200369B2; US9083808B2; CA2848692C; FR3004880B1; GB2513559B; CN104112449A; DE102014105570A1; JP2014217055A; GB2513559B8; GB2513559A8; CA2848692A1; GB201307244D0

Abstract

本发明包括用于在说话者（30）与至少一个收听者（30）之间的语言通信中使用的设备，其中该说话者和该至少一个收听者形成多个参与者中的全部或部分，其中该说话者和该至少一个收听者在空间上彼此分开，该设备能操作成向收听者提供与说话者的身份关联的感知输出。该设备包括识别装置（40），该识别装置包括振动传感器（46），用于检测与说话者的讲话关联的振动。该识别装置（40）配置成存储代表说话者和识别装置中的任一个或两个的识别数据，由此识别装置能与说话者的身份关联。该识别装置（40）能操作使得响应于振动传感器检测与所述说话者的讲话（S）关联的振动（V），传送器传送识别信号（50），其包括存储的识别数据或从存储的识别数据生成。

Description

未知的说话者识别系统

技术领域

本发明涉及用于在多个参与者的说话者与收听者之间的语言通信中使用的设备、部件的套件和有关的方法，其中该收听者不能容易地看到谁正讲话，该设备能操作成向收听者提供指示说话者的身份的感知输出。

背景技术

存在需要多个参与者的说话者与收听者之间的语言通信的许多环境，其中该说话者和该收听者的分开使得一个或多个收听者可能难以确定谁在说话。

困难可能在说话者和一个或多个收听者定位在直接视线外时出现。一个这样的示例是定位在不同地理位置处的多个参与者之间的电信网络上举行的音频会议电话的使用。这作为实施商业通信的部件而是众所周知的。然而，当会话中的参与者的数量超过两个时，参与者可能难以解答他们中是谁在任何给定时间讲话。该问题是参与者未处于彼此的直接视线内并且因此必须仅依靠音频信号来识别在会话的另一端是谁在讲话的后果。问题在通过常规的普通老式电话服务（POTS）网络实施会议会话时加剧，因为在POTS网络上能使用的语音频带局限于近似300Hz至3400Hz，即代表人类听力范围的频带（大约20Hz至20000Hz）的小部分。因此，除收听参与者必须仅依靠它们的听觉来识别谁在讲话外，那些相同的参与者必须使识别基于被压缩的音频信号。说话者识别可以进一步被说话参与者的讲话中的任何失真（其可由通过POTS网络的传送引入）所阻碍。

一个或多个收听者识别谁在讲话的相同困难也可以在具有定位在单个房间（例如拥挤的演讲剧场）中的多个参与者的会议或演讲中出现。在单个房间中有大量的参与者的情况下，收听的那些人可能难以确定这些参与者之中是谁在讲话，即使说话者与收听的那些人在直接视线内也如此。

能够基于从他们的语音签名认出给定人的语音而识别谁在讲话的语音识别系统的使用是已知的。然而，这样的系统将需要训练来建立足以识别给定人的语音简档，以及包含给定会话上的所有人的语音简档的数据库。这样的系统因此在时间和基础设施两方面将是昂贵的。

因此，存在对于在收听者与说话者之间的语言通信场景（其中该收听者不能容易地看到谁在讲话）中识别谁在讲话的改进的部件的需要。

发明内容

因此，本发明的第一方面提供用于在说话者与至少一个收听者之间的语言通信中使用的设备，该说话者和该至少一个收听者形成多个参与者中的全部或部分，其中说话者和至少一个收听者在空间上彼此分开，该设备能操作成向收听者提供与说话者的身份关联的感知输出；该设备包括：

识别装置，其中该识别装置可被说话者穿戴或携带，识别装置包括振动传感器，用于检测与说话者的讲话关联的振动，

其中识别装置配置成存储代表说话者和识别装置中的任一个或两个的识别数据，由此识别装置能与说话者的身份关联，

其中识别装置能操作使得响应于振动传感器检测与说话者的讲话关联的振动，传送器传送识别信号，其包括存储的识别数据或从存储的识别数据生成；

设备进一步包括用于由收听者使用的显示装置，该显示装置能操作成接收这样的识别信号并且从接收的识别信号生成感知输出，其指示说话者和识别装置中的任一个或两个的身份。

为了本发明的目的，就“多个”参与者而言意指两个或以上的参与者。此外，“说话者”和“收听者”还可在该文本中分别称为“说话参与者”和“收听参与者”，其中术语能互换地使用。

本发明在说话者与收听者之间的任何语言通信场景中（其中收听者不能容易地看到谁在说话）获得应用，由此妨碍收听者确认说话者的身份的能力。应用可包括但不限于：

●在具有多个参与者的会议或演讲中使用来帮助在任何给定时间确认在说话的人的身份。在单个房间（例如拥挤的演讲剧场）中有大量参与者的情况下，收听的那些人（即“收听者”）可能难以确定这些参与者之中是谁在讲话，即使说话者与收听的那些人在直接视线内也如此。本发明的设备提供容易使收听者能够在拥挤的空间确定谁在说话的身份的部件。

●在其中说话者和收听者不在彼此的直接视线内的电信或无线电应用中的使用。本发明的设备将在定位在不同地理位置（其对应于网络的不同节点）处的多个参与者之间的电信或无线电网络上所承担的音频通信会议中特别有用。本发明的设备可与之一起使用的电信网络的非限制性示例包括普通老式电话服务（POTS）、蜂窝电话网络和/或因特网语音协议（VOIP）。本发明对于在飞机上的飞行员与空中交通控制器和/或其他飞机之间的无线电通信中的使用也将是有益的。备选地，本发明在用作对于基于地面的运输的无线电通信系统的部分－例如用于出租车公司或卡车运输公司使用时将是有益的。

在考虑本发明在任何这样的具有多个参与者的“语言通信”场景中的使用时，值得注意的是每个参与者可在不同的时间说话或收听。因此，“说话者”和“收听者”的角色不一定是固定的。这在考虑本发明在多个不同参与者之间的电信或无线电网络上的音频通信会议期间的使用时可以更清楚地理解－给定参与者在会议中的一个情形中可以是“说话者”并且在会议中的另一个情形处是“收听者”。因此，在描述本发明的识别装置和显示装置的使用时，如本文使用的术语“说话者”和“收听者”可以适用于一个人和相同的人（根据该人在语言通信期间的给定时间点处是碰巧在说话或收听）。

使识别装置配置成存储代表说话者和识别装置中的任一个或两个的身份的识别数据可以采用各种不同的方式来实现。非限制性示例可包括采用雇员ID标签的形式提供的识别装置，其中该标签包含用代表给定雇员的身份的识别数据而编码的芯片。识别数据可采取雇员的名字和雇员编号的形式。备选地，识别数据可包括与给定识别装置关联的颜色和形状中的一个或两个。取网络的不同节点处的多个参与者之间的电信或无线电网络上实施的音频通信会议的非限制性示例，会议的参与者中的每个可提供有他们自己的识别装置，其配置有代表与该识别装置唯一联系起来的可见标记的识别数据。该唯一联系可采取每个识别装置具有采用颜色、形状或其组合的形式的唯一可见标记的形式，其中在每个识别装置上提供不同的颜色和/或形状，并且其中识别装置包括用代表颜色和/或形状的识别数据编码的芯片或其他存储部件。这样的颜色和/或形状的使用提供其中存储的识别数据将代表识别装置自身的身份并且将提供避免存储在识别装置上的数据包含参与者中的任一个的任何个人信息（例如，名字、生日和/或地址）的需要的益处的示例。

感知输出优选地包括视觉输出、触觉输出和可听输出中的一个或多个。可听输出可采用提供说话者的名字的听觉画外音的形式，尽管承认这可潜在地阻碍一个或多个收听者听到说话者正在说什么的能力。由于那些原因，视觉输出是优选的。视觉输出采取对于收听者足以确认说话者和说话者的识别装置中的任一个或两个的身份（基于在识别信号中包含的信息）的任何视觉表示的形式。例如，视觉输出可简单地是说话者的名字的文本表示，或代表说话者和识别装置中的任一个或两个的任何字母数字标识符。备选地，视觉输出可采取颜色和/或形状的形式。例如，在每个识别装置提供有它自己的唯一可见标记（采用颜色、形状或其组合的形式）并且识别数据代表颜色和/或形状（如在前面的段落中概述的）的情况下，在显示装置上提供的感知输出可以是颜色和/或形状的视觉表示。备选地，触觉输出可采取Braille（适合于盲人参与者）或振动（例如对应于从不同识别装置传送的不同识别信号的不同振动信号的输出）的形式。

识别装置包括对于说话者能操作成用识别数据来预先配置识别装置的输入部件，这是优选的。用于预先配置识别装置的这样的输入部件的提供将允许说话者用代表他们自己的身份的识别数据来预先配置给定的识别装置。在使用中，这样的预先配置将在“语言通信”开始之前出现，这是优选的。进一步解释起来，当考虑在飞机中的飞行员与空中交通控制器之间的空中地面通信中使用时，飞行员将优选地在起飞之前预先配置他们的识别装置；当考虑多个参与者之间的电信或无线电网络上的音频通信会议的示例时，每个参与者将优选地在开始会议之前配置他们的识别装置。便利地，输入部件包括小键盘和音频记录装置中的一个或两个。说话者将因此能够通过键盘输入和/或音频输入的方式用例如他们的名字（或任何其他个人标识符）等识别数据来预先配置识别装置。

识别装置配置成与另一个人的身份能重新关联，这是特别优选的。本发明的该特征将确保识别装置不限于与给定的人永久关联，由此确保识别装置可以在将来时间被另一个人使用。当考虑本发明的设备在具有大量雇员的组织内使用时，“能重新关联性”的特征避免必须向每个雇员提供他们自己的识别装置，其中所有雇员将同时参与相同的“语言通信”，这是不可能的。此外，能重新关联性的特征还提供在一段时间内与任何数量的人一起重新使用给定的识别装置的能力。

设想在“语言通信”场景期间的使用中，参与者中的全部将提供有他们自己的可穿戴或可携带识别装置。这由此将确保每个参与者拥有适合于在他们说话时生成与他们唯一关联的识别信号的部件。必需的显示装置的数量将取决于特定语言通信场景。考虑本发明在单个房间中具有多个参与者的会议或演讲期间的使用，存在可以被参与者中的全部所观看的仅单个共同显示装置，这可是足够的。然而，考虑到本发明在定位在不同地理位置（其对应于网络的多个不同节点）处的多个参与者之间的电信（或无线电）网络上承担的音频通信会议期间的使用，设想至少一个显示装置将在网络的每个节点处提供。这由此将基于通过网络从在说话的参与者的识别装置接收的识别信号而对在网络的每个节点处存在并且收听的那些一个或多个参与者提供被给予在不同节点处谁在说话的实时感知指示的能力。

优选地，配置识别装置使得传送器在来自说话者的持续讲话的最小持续时间后仅传送识别信号。本发明的该特征具有避免显示装置基于说话者咳嗽或打喷嚏而触发由此有助于避免在设备使用期间参与者说话的错误指示的有益效果。便利地，最小持续时间在0.5与2秒之间。具有太大的最小持续时间将在a）说话者的讲话首先被一个或多个收听者听见与b）显示装置（对于一个或多个收听者）接收识别信号来生成在说话的人的身份的感知输出之间有不可接受的时滞的风险。

优选地，识别装置能定位在说话者的颈部或胸部附近。本发明的该特征帮助更好地确保振动传感器能够从说话者的声带的使用检测振动。识别装置可便利地附连到项链用于戴在说话者的颈部周围。便利地，识别装置可被手持、能贴附于说话者所穿的一件衣服，或直接能贴附于说话者的身体（例如，通过使用带子或胶带）－这些全部落在是“可穿戴或可携带”的识别装置的范围内。

具有识别装置使得它在使用中被参与者使用中穿戴或携带提供了识别传感器到该参与者的接近性。这提供能够更易于校准振动传感器使得它仅检测来自正穿戴或携带识别装置的参与者的讲话的优势。该优势在其他人出现在与特定参与者相同的房间中的情况下尤其相关，因为它避免识别装置被来自除正穿戴或携带特定识别装置的参与者以外的人的讲话所触发。

识别装置的传送器可配置成将识别信号作为具有在20Hz与20000Hz之间的频率的音频信号来传送。这样的频率范围对应于人类听力可听到的频率的通常接受范围。便利地，传送器配置成将识别信号作为具有在300Hz与3400Hz之间的较窄频带内的频率的音频信号来传送。该较窄频带特别适合于识别信号采用普通老式电话服务（POTS）的形式在电信网络上的直接传送，对于其可传送音频频率范围仅代表与人类听力的范围（20Hz至20000Hz）普遍关联的频率范围的一部分。

备选地，传送器可配置成在20000Hz以上的频率无线传送识别信号，设备进一步包括通信地能耦合于识别装置与电信或无线电网络之间的第一编码器，该第一编码器能操作成接收传送的识别信号并且将其转换成以下中的一个：

a）具有在20Hz至20000Hz范围内（或备选地，在300Hz至3400Hz范围内）的频率的音频信号；或

b）加密数字信号，其中对于b）显示装置包括用于对加密数字信号解码的解码器或通信地与之能耦合。

识别信号在20000Hz以上的频率从识别装置的传送具有确保它不被说话者听见并且因此不干扰他们的注意力和影响他们讲话的有益效果。随后由第一编码器转换成在20Hz至20000Hz范围内的音频频率在设备的识别装置与能够传送对应于人类听力的全范围的音频信号的电信或无线电网络一起使用时是有益的；而转换成具有在300Hz至3400Hz范围内的频率的音频信号在设备与采用POTS形式的电信网络一起使用时是特别有益的。

除使用如上文概述的第一编码器外，识别装置还可能操作成对识别信号编码以作为无线蓝牙信号由传送器传送，其中识别装置和第一编码器彼此是能蓝牙配对的。蓝牙协议的使用提供在识别装置与第一编码器之间无线连接和交换信息的安全方式。

便利地，第一编码器集成在能连接到电信或无线电网络的节点的终端内，该终端能操作成用于到和/或来自网络的音频通信。在一个示例中，终端可以是通过POTS而能连接的电话，该电话具有用于检测接近于其而定位的一个或多个参与者的讲话的麦克风和用于将通过POTS接收的音频信号输送到收听的任何人的扬声器。

优选地，设备进一步包括集成在显示装置内或通信地能连接到显示装置的滤波器，其中该滤波器能操作成接收组合信号（其包括识别信号和说话者的讲话的音频信号两者），并且进一步能操作成对该组合信号滤波以在滤波信号向收听者的音频输出之前从组合信号提取识别信号。这样的滤波器的使用有助于确保一个或多个收听者听见在网络的另一个节点处说话的参与者所讲的词而没有来自识别信号的干扰或失真。

优选地，显示装置集成在能连接到电信或无线电网络的节点的终端内，该终端能操作成用于到和/或来自网络的音频通信。本发明的该特征提供这样的优势：提供可以用于提供到/来自电信或无线电网络的音频输入和音频输出同时还起到提供在网络的另一个节点处谁在说话的视觉指示的作用的单个集成终端。备选地或另外，识别装置集成在能连接到电信或无线电网络的节点的终端内，该终端能操作成用于到和/或来自网络的音频通信；例如，终端可以是蜂窝电话，其可充当识别装置和显示装置两者。

在本发明的另一个方面中，提供有终端，其能操作成用于到和/或来自电信或无线电网络的音频通信，其中该终端包括本发明的识别装置和显示装置中的一个或两个。在本发明的一个形式中，终端可以是蜂窝电话。

在本发明的另一个方面中，提供有部件的套件，其包括本发明的识别装置和显示装置。这样的套件因为它将向人提供以下两者而有价值：

a）生成与他们的身份关联的识别信号所必需的部件（即“识别装置”）－适合于在语言通信期间在那个人是说话者时被他使用；以及

b）在那个人在语言通信期间是收听者时提供指示在说话的人的身份的视觉输出所必需的部件（即“显示装置”）。

在本发明的另一个方面中，提供有在说话者与至少一个收听者之间的语言通信中识别谁在说话的方法，该说话者和该至少一个收听者形成多个参与者中的全部或部分，其中该说话者和该至少一个收听者在空间上彼此分开，该方法向至少一个收听者提供与说话者的身份关联的感知输出，该方法包括：

提供识别装置，其中该识别装置可被说话者穿戴或携带，识别装置包括振动传感器，用于检测与说话者的讲话关联的振动，

其中识别装置存储代表说话者和识别装置中的任一个或两个的身份的识别数据，由此识别装置与说话者的身份关联；

用振动传感器检测与说话者的讲话关联的振动，在说话者正穿戴或携带识别装置时执行检测；

响应于振动的检测，从识别装置传送识别信号，其包括存储的识别数据或从存储的识别数据生成；以及

提供显示装置用于由至少一个收听者使用，其中该显示装置接收这样的识别信号并且从接收的识别信号生成指示说话者和识别装置中的任一个或两个的身份的感知输出。

本发明的方法还可包含对应于由上文概述的设备的各种可能特征所提供的功能性的步骤。

提供一种用于在说话者与至少一个收听者之间的语言通信中使用的设备，其中所述说话者和所述至少一个收听者形成多个参与者中的全部或部分，其中所述说话者和所述至少一个收听者在空间上彼此分开，所述设备能操作成向所述收听者提供与所述说话者的身份关联的感知输出；所述设备包括：

识别装置，其中所述识别装置可被说话者穿戴或携带，所述识别装置包括振动传感器，用于检测与所述说话者的讲话关联的振动，

其中所述识别装置配置成存储代表所述说话者和所述识别装置中的任一个或两个的的身份的识别数据，由此所述识别装置能与所述说话者的身份关联，

其中所述识别装置能操作使得响应于所述振动传感器检测与所述说话者的讲话关联的振动，传送器传送识别信号，其包括存储的识别数据或从所述存储的识别数据生成；

所述设备进一步包括用于由收听者使用的显示装置，所述显示装置能操作成接收这样的识别信号并且从接收的识别信号生成感知输出，其指示所述说话者和所述识别装置中的任一个或两个的身份。

优选的，所述识别装置包括输入部件，其对于所述说话者能操作成用代表所述说话者的身份的识别数据来预先配置所述识别装置。

优选的，所述输入部件包括小键盘和音频记录装置中的一个或两个。

优选的，所述识别装置配置成与另一个人的身份能重新关联。

优选的，所述感知输出包括视觉输出、触觉输出和可听输出中的一个或多个。

优选的，所述识别装置提供有可见标记，其中所述存储的识别数据代表所述可见标记。

优选的，所述可见标记包括颜色和形状中的一个或两个。

优选的，所述显示装置能操作成生成所述感知输出，其包括所述可见标记的视觉表示。

优选的，配置所述识别装置使得所述传送器在来自所述说话者的连续讲话的最小持续时间后仅传送所述识别信号。

优选的，所述最小持续时间是在0.5与2秒之间。

优选的，所述识别装置能定位在所述说话者的颈部或胸部附近。

优选的，所述识别装置的传送器配置成将所述识别信号作为具有在20Hz与20000Hz之间的频率的音频信号来传送。

优选的，所述传送器配置成将所述识别信号作为具有在300Hz与3400Hz之间的频率的音频信号来传送以采用普通老式电话服务POTS形式通过电信网络传送。

优选的，所述传送器配置成在20000Hz以上的频率无线传送识别信号，所述设备进一步包括通信地能耦合于所述识别装置与电信或无线电网络之间的第一编码器，所述第一编码器能操作成接收传送的识别信号并且将其转换成以下中的一个：

a）具有在20Hz至20000Hz范围内的频率的音频信号；或

b）加密数字信号，其中对于b）所述显示装置包括用于对所述数字信号解码的解码器或通信地与之能耦合。

优选的，所述第一编码器能操作成接收传送的识别信号并且将其转换成具有在300Hz至3400Hz范围内的频率的音频信号。

优选的，所述识别装置能操作成对所述识别信号编码以作为蓝牙信号由所述传送器无线传送，其中所述识别装置和所述第一编码器彼此是能蓝牙配对的。

优选的，所述第一编码器集成在能连接到电信或无线电网络的节点的终端内，所述终端能操作用于到和/或来自所述网络的音频通信。

优选的，所述设备进一步包括集成在所述显示装置内或通信地能连接到所述显示装置的滤波器，其中所述滤波器能操作成接收组合信号并且进一步能操作成对所述组合信号滤波以在滤波信号向所述收听者的音频输出之前从所述组合信号提取所述识别信号，所述组合信号包括所述识别信号和所述说话者的讲话的音频信号两者。

优选的，所述显示装置在能连接到电信或无线电网络的节点的终端内，所述终端能操作用于到和/或来自所述网络的音频通信。

优选的，所述识别装置集成在能连接到电信或无线电网络的节点的终端内，所述终端能操作用于到和/或来自所述网络的音频通信。

优选的，所述终端是蜂窝电话。

提供一种能连接到电信或无线电网络的节点的终端，所述终端能操作用于到和/或来自所述网络的音频通信，其中所述终端包括如权利要求1至18中任一项所述的识别装置和显示装置中的一个或两个。

优选的，所述终端是蜂窝电话。

提供一种部件的套件，所述套件包括如权利要求1至18中任一项所述的识别装置和显示装置。

提供一种在说话者与至少一个收听者之间的语言通信中识别谁在说话的方法，其中所述说话者和所述至少一个收听者形成多个参与者中的全部或部分，其中所述说话者和所述至少一个收听者在空间上彼此分开，所述方法向所述至少一个收听者提供与所述说话者的身份关联的感知输出，所述方法包括：

提供识别装置，其中所述识别装置可被说话者穿戴或携带，所述识别装置包括振动传感器，用于检测与所述说话者的讲话关联的振动，

其中所述识别装置存储代表所述说话者和所述识别装置中的任一个或两个的身份的识别数据，由此所述识别装置与所述说话者的身份关联；

用所述振动传感器检测与所述说话者的讲话关联的振动，在所述说话者正穿戴或携带识别装置时执行检测；

响应于所述振动的检测，从所述识别装置传送识别信号，其包括存储的识别数据或从所述存储的识别数据生成；以及

提供显示装置用于由所述至少一个收听者使用，其中所述显示装置接收这样的识别信号并且从接收的识别信号生成指示所述说话者和所述识别装置中的任一个或两个的身份的感知输出。

优选的，所述识别装置提供有对于所述说话者的输入部件，用于用所述识别数据来预先配置所述识别装置，所述方法进一步包括所述说话者用所述识别数据中的一些或全部来预先配置所述识别装置的步骤，其中预先配置的识别数据代表所述说话者的身份。

优选的，所述识别装置提供有用于所述识别装置的预先配置的小键盘和音频记录装置中的一个或两个。

优选的，所述可见标记包括颜色和形状中的一个或两个。

优选的，所述识别信号的传送仅在来自所述说话者的连续讲话的最小持续时间后出现。

优选的，所述最小持续时间是在0.5与2秒之间。

优选的，所述识别装置由所述说话者的穿戴或携带包括使所述识别装置定位在所述说话者的颈部或胸部附近。

优选的，所述识别信号的传送包括将所述识别信号作为具有在20Hz与20000Hz之间的频率的音频信号来传送。

优选的，所述音频信号具有在300Hz与3400Hz之间的频率。

优选的，所述识别信号的传送包括在20000Hz以上的频率无线传送所述识别信号，所述方法进一步包括提供通信地能耦合于所述识别装置与电信或无线电网络之间的第一编码器，所述第一编码器接收传送的识别信号并且将其转换成以下中的一个：

a）具有在20Hz至20000Hz范围内的频率的音频信号；或

b）加密数字信号，其中对于b）所述显示装置包括用于对所述数字信号解码的解码器或与之通信地耦合。

优选的，所述第一编码器接收传送的识别信号并且将其转换成具有在300Hz至3400Hz范围内的频率的音频信号。

优选的，所述方法进一步包括对所述识别信号编码使得它作为蓝牙信号从所述识别装置无线传送。

优选的，所述方法进一步包括提供集成在所述显示装置内或通信地连接到所述显示装置的滤波器，其中所述滤波器接收组合信号，其包括所述识别信号和所述说话者的讲话的音频信号两者，所述滤波器对所述组合信号滤波以在滤波信号向所述收听者的音频输出之前从所述组合信号提取所述识别信号。

提供一种大致上如在本文参考描述和图限定的设备。

提供一种大致上如在本文参考描述和图限定的终端。

提供一种大致上如在本文参考描述和图限定的套件。

提供一种大致上如在本文参考描述和图限定的方法。

附图说明

本发明的实施例参考下列附图描述：

图1示出具有多个不同节点的电信网络的表示。

图2示出在与在图1中示出的电信网络一起使用时的本发明的第一实施例。

图3示出在与在图1中示出的电信网络一起使用时的本发明的第二实施例。

图4示出在与在图1中示出的电信网络一起使用时的本发明的第三实施例。

图5示出其中三个不同的识别装置的壳体每个提供有它们自己的唯一可见标记的本发明的实施例。

请注意图未按比例绘制，并且规定为本发明的各种可能实施例的非限制性示例。

具体实施方式

图1示出用于在音频通信会议期间使用的电信网络10的简化表示，该网络具有多个不同的节点11。这些节点11中的每个对应于不同的地理位置。在图1中示出的实施例中，终端20在每个相应的节点11处连接到电信网络10，其中该终端提供到和来自电信网络10的音频通信。本发明的示例在图2、3和4中描述，这时电信网络是普通老式电话服务（POTS），其中POTS系统仍然广泛用于音频会议。然而，如可以通过描述的较早部分所理解的，本发明能适用于与其他形式的电信网络（例如，蜂窝电话网络和/或因特网语音协议（VOIP））一起使用。

在未在图中示出的备选实施例中，网络10将是无线电通信网络。一个这样的无线电通信网络10是形成飞机与地面站之间的无线电系统的部分的无线电网络，其中该飞机和地面站对应于网络的不同节点11。

在多个参与者30之间的音频通信会议期间，这些参与者中的一个或多个定位在每个节点位置11处（如在图1中图示的）。

图2、3和4示出从在音频通信会议期间的一个时间点处在说话的参与者（即，充当“说话者”）和在另一个时间点在收听的参与者（即，充当“收听者”）的角度来看的本发明的示范性表示。设备具有识别装置40和显示装置70。

在未试图限制如在权利要求中概述的本发明的范围的情况下，识别装置40和显示装置70的形式和功能在下文概述。

图2的实施例示出在项链41上提供的识别装置40。在使用中，该项链41将戴在参与者30中的给定一个的颈部周围，使得识别装置靠近颈部并且由此靠近该参与者的声带而定位。音频通信会议的每个参与者30提供有要被他们穿戴或携带的他们自己的识别装置40。识别装置40包括壳体，其包含振动传感器42、输入部件43、存储器44、处理器45和传送器46。

图2还示出采用连接到电信网络10的会议使能的电话形式的终端20，该网络具有普通老式电话服务（POTS）的形式。该终端20具有麦克风21和扬声器22，用于实现到和来自网络10的音频通信。

在音频通信会议开始之前，每个参与者30将使用输入部件43来将识别数据输入他们自己的相应识别装置40的存储器44内。该识别数据将代表该参与者的身份。未示出输入部件43的形式，但如在描述的较早部分中概述的那样，它可包括小键盘和/或音频记录器。识别数据可采取参与者的名字或与参与者的身份唯一关联的另一个标识符（例如，雇员员工编号）的形式。预先配置的行为确保识别装置40与给定参与者30的身份成对（即，关联）直到预先配置有另一个人的识别数据。

在参与者30开始说话时（在该点处他们为了本发明的目的而变成“说话者”），振动传感器42检测与说话者30的讲话S关联的振动‘V’（参见图2）。识别装置40到说话者30的声带的接近性帮助振动传感器42检测来自说话者的讲话S的开始，然而，在未在图中示出的备选实施例中，识别装置40被参与者30手持，或附连到参与者所穿的一件衣服。

响应于振动传感器42检测说话者30的讲话S，处理器45和存储器44与传送器46协作来促使传送器无线传送识别信号50。该识别信号50从在上文概述的预先配置步骤期间输入的识别数据生成或包括它。在图2中示出的实施例中，处理器45执行存储在存储器44中的计算机代码，该计算机代码作用于识别数据以从其生成识别信号50。计算机例如确保传送器46在振动传感器42已检测来自说话者的连续讲话S的最小持续时间后仅传送识别信号50。对于图2的实施例，识别信号50是采用具有在300Hz至3400Hz范围中的频率的“线性调频脉冲”形式的音频信号，其中该线性调频脉冲代表识别数据的压缩形式。

“线性调频脉冲”50（即“识别信号”）被终端20的麦克风21检测，其中麦克风21还检测说话者30的讲话S。终端20然后跨网络10将组合信号550发送到定位在网络的其他节点11处的其他参与者30的对应终端20，该组合信号550包含i）线性调频脉冲50和ii）代表说话者30的讲话S的音频信号500两者。接收组合信号550的这些其他参与者30中的每个为了本发明的目的而变成“收听者”。

为了方便起见，图2还用于从这样的“收听者”的角度描述本发明。

图2示出集成到终端20内的显示装置70，其中该显示装置包括显示屏71。滤波器80也集成到终端20内。在接收组合信号550的终端上，信号首先经过滤波器80，其对组合信号550滤波来从组合信号550提取识别信号50。在滤波后，提取的识别信号50然后输送到显示装置70。如在图2中示出的，显示装置70包括存储器72和处理器73，其中该处理器73执行存储在存储器72中的计算机代码。该计算机代码作用于提取的识别信号50来生成采用说话者身份的视觉表示的形式的感知输出，该视觉表示输出到显示屏71。在图2中示出的实施例中，视觉表示是说话者的名字。讲话信号500然后能够输送到终端20的扬声器22来使收听者能够听见说话者在说什么。

本发明的备选形式在图3中示出，其中与图2的实施例共同的那些特征具有相同的标号。在图3的实施例中，显示装置700作为在结构上与终端20截然不同并且在网络10与终端20之间串联连接的独立模块而提供。示出集成到显示装置700内的滤波器800。滤波器800采用与图2的实施例中的滤波器80相似的方式起作用，由此使仅包含说话者的讲话的干净音频信号能够输送到终端20以经由扬声器22输出到收听者。此外，从组合信号550提取的识别信号50将在显示装置70内处理来生成在显示屏710上的说话者身份的视觉表示。显示装置700的该备选形式将具有优于图2的实施例的不一定需要修改终端20由此允许常规会议使能的电话用作终端的优势。

对于图3的实施例，每个参与者将提供有部件的套件，该套件包含识别装置40和显示装置700，其中识别装置和显示装置能与终端20一起使用但在结构上与终端20截然不同。

本发明的另外的备选形式在图4中示出。该实施例是图3的实施例的变化形式。与图2和3的实施例相比之下，图4的实施例包括编码器60，其中该编码器60在空间上与识别装置60和终端20截然不同并且分开，并且通过有线连接而连接到终端20。在未在图中示出的备选实施例中，编码器60集成在终端20本身内。图4的实施例还与图2和3不同之处在于由传送器46无线传送的识别信号50是20000Hz以上的非可听信号。非可听识别信号50被编码器60接收，其中编码器60起到将识别信号50转换成具有在范围300Hz至3400Hz内的频率的音频信号的作用，其中转换的识别信号50然后经由有线连接输送到终端20。终端20然后跨网络10发送转换的识别信号50连同说话者30的讲话500的音频信号。图4的实施例优于图2和3的优势在于识别信号50作为非可听信号（即，具有20000Hz以上的频率）从识别装置40到编码器60的无线传送避免识别信号干扰说话者30的注意力和讲话。在图中未示出的实施例中，识别信号50可作为蓝牙信号无线传送，其中识别装置40和编码器60是能蓝牙配对的。

图5示出三个不同识别装置40a、40b、40c的壳体的外部视图的视图。识别装置40a、40b、40c中的每个在壳体的外表面上提供有它自己的唯一可见标记90a、90b、90c。在图5中示出的实施例示出这些可见标记90a、90b、90c，其采用具有特定纹理的形状或颜色的形式。识别装置40a、40b、40c中的每个使它的存储器44用代表它相应的可见标记90a、90b、90c的识别数据来编码。在使用中，从每个识别装置40a、40b、40c传送的识别信号50将对应于每个装置的标记90a、90b、90c。尽管在图中的任一个未明确示出，显示装置70、700将显示对应于识别装置（其属于说话的任一个参与者30）的视觉标记的视觉表示。

该描述使用示例来公开本发明并且还使本领域内技术人员能够制作和使用本发明。为了避免有疑虑，如在权利要求中限定的本发明可在它的范围内包括本领域内技术人员所想起的其他示例，其可与在该文献的图中指示的那些示例不同。

Claims

1.一种用于在说话者与至少一个收听者之间的语言通信中使用的设备，其中所述说话者和所述至少一个收听者形成多个参与者中的全部或部分，其中所述说话者和所述至少一个收听者在空间上彼此分开，所述设备能操作成向所述收听者提供与所述说话者的身份关联的感知输出；所述设备包括：

识别装置，其中所述识别装置可被说话者穿戴或携带，所述识别装置包括振动传感器，用于检测与所述说话者的讲话关联的振动，所述振动传感器从所述说话者的声带的使用检测振动，

其中所述识别装置配置成存储代表所述说话者和所述识别装置中的任一个或两个的身份的识别数据，由此所述识别装置能与所述说话者的身份关联，

2.如权利要求1所述的设备，其中所述识别装置包括输入部件，其对于所述说话者能操作成用代表所述说话者的身份的识别数据来预先配置所述识别装置。

3.如权利要求1所述的设备，其中所述输入部件包括小键盘和音频记录装置中的一个或两个。

4.如权利要求1或3所述的设备，其中所述识别装置配置成与另一个人的身份能重新关联。

5.如权利要求1或3所述的设备，其中所述感知输出包括视觉输出、触觉输出和可听输出中的一个或多个。

6.如权利要求1或3所述的设备，其中所述识别装置提供有可见标记，其中所述存储的识别数据代表所述可见标记。

7.如权利要求6所述的设备，其中所述可见标记包括颜色和形状中的一个或两个。

8.如权利要求6所述的设备，其中所述显示装置能操作成生成所述感知输出，其包括所述可见标记的视觉表示。

9.如权利要求1或3所述的设备，其中配置所述识别装置使得所述传送器在来自所述说话者的连续讲话的最小持续时间后仅传送所述识别信号。

10.如权利要求9所述的设备，其中所述最小持续时间是在0.5与2秒之间。

11.如权利要求1或3所述的设备，其中所述识别装置能定位在所述说话者的颈部或胸部附近。

12.如权利要求1或3所述的设备，其中所述识别装置的传送器配置成将所述识别信号作为具有在20Hz与20,000Hz之间的频率的音频信号来传送。

13.如权利要求12所述的设备，其中所述传送器配置成将所述识别信号作为具有在300Hz与3,400Hz之间的频率的音频信号来传送以通过采用普通老式电话服务(POTS)形式的电信网络传送。

14.如权利要求1或3所述的设备，其中所述传送器配置成在20,000Hz以上的频率无线传送识别信号，所述设备进一步包括通信地能耦合于所述识别装置与电信或无线电网络之间的第一编码器，所述第一编码器能操作成接收传送的识别信号并且将其转换成以下中的一个：

a)具有在20Hz至20,000Hz范围内的频率的音频信号；或

b)加密数字信号，其中对于b)所述显示装置包括用于对所述数字信号解码的解码器或通信地与之能耦合。

15.如权利要求14所述的设备，其中所述第一编码器能操作成接收传送的识别信号并且将其转换成具有在300Hz至3,400Hz范围内的频率的音频信号。

16.如权利要求14所述的设备，其中所述识别装置能操作成对所述识别信号编码以作为无线蓝牙信号由所述传送器传送，其中所述识别装置和所述第一编码器彼此是能蓝牙配对的。

17.如权利要求14所述的设备，其中所述第一编码器集成在能连接到电信或无线电网络的节点的终端内，所述终端能操作成用于到和/或来自所述网络的音频通信。

18.如权利要求1或3所述的设备，所述设备就能一步包括集成在所述显示装置内或通信地能连接到所述显示装置的滤波器，其中所述滤波器能操作成接收组合信号并且进一步能操作成对所述组合信号滤波以在所述滤波信号向所述收听者的音频输出之前从所述组合信号提取所述识别信号，所述组合信号包括所述识别信号和所述说话者的讲话的音频信号两者。

19.如权利要求1或3所述的设备，其中所述显示装置在能连接到电信或无线电网络的节点的终端内，所述终端能操作成用于到和/或来自所述网络的音频通信。

20.如权利要求1或3所述的设备，其中所述识别装置集成在能连接到电信或无线电网络的节点的终端内，所述终端能操作成用于到和/或来自所述网络的音频通信。

21.如权利要求19所述的设备，其中所述终端是蜂窝电话。

22.一种能连接到电信或无线电网络的节点的终端，所述终端能操作成用于到和/或来自所述网络的音频通信，其中所述终端包括如权利要求1至18中任一项所述的识别装置和显示装置中的一个或两个。

23.如权利要求22所述的终端，其中所述终端是蜂窝电话。

24.成套部件，所述套件包括如权利要求1至18中任一项所述的识别装置和显示装置。

25.一种在说话者与至少一个收听者之间的语言通信中识别谁在讲话的方法，其中所述说话者和所述至少一个收听者形成多个参与者中的全部或部分，其中所述说话者和所述至少一个收听者在空间上彼此分开，所述方法使所述至少一个收听者提供有与所述说话者的身份关联的感知输出，所述方法包括：

提供识别装置，其中所述识别装置可被说话者穿戴或携带，所述识别装置包括振动传感器，用于检测与所述说话者的讲话关联的振动，所述振动传感器从所述说话者的声带的使用检测振动，

其中所述识别装置存储代表演所述讲者和所述识别装置中的任一个或两个的身份的识别数据，由此所述识别装置与所述说话者的身份关联；

用所述振动传感器检测与所述说话者的讲话关联的振动，在所述说话者正穿戴或携带识别装置时进行检测；

提供显示装置以供所述至少一个收听者使用，其中所述显示装置接收这样的识别信号并且从接收的识别信号生成指示所述说话者和所述识别装置中的任一个或两个的身份的感知输出。

26.如权利要求25所述的方法，其中所述识别装置提供有对于所述说话者的输入部件，用于用所述识别数据来预先配置所述识别装置，所述方法进一步包括所述说话者用所述识别数据中的一些或全部来预先配置所述识别装置的步骤，其中预先配置的识别数据代表所述说话者的身份。

27.如权利要求26所述的方法，其中所述识别装置提供有用于所述识别装置的预先配置的小键盘和音频记录装置中的一个或两个。

28.如权利要求26至27中任一项所述的方法，其中所述识别装置配置成与另一个人的身份能重新关联。

29.如权利要求26至27中任一项所述的方法，其中所述感知输出包括视觉输出、触觉输出和可听输出中的一个或多个。

30.如权利要求26至27中任一项所述的方法，其中所述识别装置提供有可见标记，其中所述存储的识别数据代表所述可见标记。

31.如权利要求30所述的方法，其中所述可见标记包括颜色和形状中的一个或两个。

32.如权利要求30所述的方法，其中所述显示装置能操作成生成所述感知输出，其包括所述可见标记的视觉表示。

33.如权利要求26至27中任一项所述的方法，其中所述识别信号的传送仅在来自所述说话者的连续讲话的最小持续时间后出现。

34.如权利要求33所述的方法，其中所述最小持续时间是在0.5与2秒之间。

35.如权利要求26至27中任一项所述的方法，其中所述识别装置被所述说话者的穿戴或携带包括使所述识别装置定位在所述说话者的颈部或胸部附近。

36.如权利要求26至27中任一项所述的方法，其中所述识别信号的传送包括将所述识别信号作为具有在20Hz与20,000Hz之间的频率的音频信号来传送。

37.如权利要求36所述的方法，其中所述音频信号具有在300Hz与3,400Hz之间的频率。

38.如权利要求26至27中任一项所述的方法，其中所述识别信号的传送包括在20,000Hz以上的频率无线传送所述识别信号，所述设备进一步包括提供通信地能耦合于所述识别装置与电信或无线电网络之间的第一编码器，所述第一编码器能操作成接收传送的识别信号并且将其转换成以下中的一个：

a)具有在20Hz至20,000Hz范围内的频率的音频信号；或

b)加密数字信号，其中对于b)所述显示装置包括用于对所述数字信号解码的解码器或与之通信地耦合。

39.如权利要求38所述的方法，其中所述第一编码器能操作成接收传送的识别信号并且将其转换成具有在300Hz至3,400Hz范围内的频率的音频信号。

40.如权利要求38所述的方法，其进一步包括对所述识别信号编码使得它作为蓝牙信号从所述识别装置无线传送。

41.如权利要求26至27中任一项所述的方法，其进一步提供集成在所述显示装置内或通信地能连接到所述显示装置的滤波器，其中所述滤波器能操作成接收组合信号，其包括所述识别信号和所述说话者的讲话的音频信号两者，所述滤波器对所述组合信号滤波以在所述滤波信号向所述收听者的音频输出之前从所述组合信号提取所述识别信号。