CN112470463A

CN112470463A - 基于用户语音的数据文件通信

Info

Publication number: CN112470463A
Application number: CN201880096183.8A
Authority: CN
Inventors: Y-F·夏; C-C·林; H·L·陈
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2018-11-01
Filing date: 2018-11-01
Publication date: 2021-03-09
Also published as: WO2020091794A1; US20210295825A1; EP3874488A1; EP3874488A4

Abstract

根据示例，一种装置可以包括通信接口和控制器。控制器可以确定数据文件是否包括用户的捕获的语音，并且可以基于数据文件包括用户的捕获的语音的确定，通过通信接口传送该数据文件。

Description

基于用户语音的数据文件通信

背景技术

诸如电话会议和视频会议应用之类的电信应用可以有利于多个远程定位的用户之间的通信，以通过因特网协议网络、通过基于陆地的电话网络和/或通过蜂窝网络彼此通信。特别地，电信应用可以使每个用户的音频被本地捕获并且被传送到其他用户，使得用户可以经由这些网络听到其他用户的语音。一些电信应用还可以使用户的静止和/或视频图像能够被本地捕获并且被传送给其他用户，使用户可以经由这些网络看到其他用户。

附图说明

本公开的特征通过示例的方式示出，并且不限于以下（一个或多个）附图，其中，相同的附图标记表示相同的元素，其中：

图1示出可以基于数据文件是否包括用户的捕获的语音来控制数据文件的通信的示例性装置的框图；

图2示出可以包括图1中描绘的示例性装置的特征的示例性系统的框图；

图3示出可以基于捕获的音频是否包括用户的语音来控制捕获的音频的传送的示例性装置的框图；

图4示出用于控制包括捕获的音频的数据文件的输出的示例性方法；以及

图5示出示例性非暂时性计算机可读介质的框图，该非暂时性计算机可读介质上可以存储有机器可读指令，该机器可读指令当由处理器执行时，可以使处理器基于数据文件是否包括用户的语音来控制与捕获的声音相对应的数据文件的传送。

具体实施方式

为了简化和说明的目的，通过主要参考本公开的示例来描述本公开的原理。在以下描述中，阐述了许多具体细节以便提供对示例的理解。然而，对于本领域的普通技术人员来说，明显的是，可以在不局限于这些具体细节的情况下实践这些示例。在一些情况下，没有详细描述公知的方法和/或结构，以避免不必要地模糊对示例的描述。此外，可以以各种组合一起使用这些示例。

贯穿本公开，术语“一”和“一个”旨在表示特定元素中的一个或特定元素中的多个。如本文所用，术语“包括”是指包括但不限于，术语“包含”是指包括但不限于。术语“基于”可以意味着部分基于。

麦克风通常可以捕获麦克风附近的任何音频，并且所有捕获的音频都可以在电话会议和视频会议会话期间被传送到网络。即，可以捕获和传送所有音频，包括背景噪声、来自除了作为会话参与者的那些人之外的人的语音等。结果，在远离捕获音频的位置处的会话的其他参与者可能会接收到并不打算传送给参与者的音频。

本文公开了用于基于用户的语音通过通信接口控制在网络上的捕获的音频的输出的装置、系统和方法。也就是说，本文所公开的装置和系统可以确定捕获的音频是否包括用户的语音，并且可以基于该确定来控制捕获的音频的输出。例如，可以基于捕获的音频包括用户的语音的确定来传送与捕获的音频相对应的数据文件。然而，对应于捕获的音频的数据文件可被丢弃，例如，可基于捕获的音频没有包括用户的语音的确定而不被传送。

根据示例，可以以多种方式中的任何方式来做出关于捕获的音频是否包括用户的语音的确定。例如，可以基于关于与音频的捕获同时捕获的图像是否包括用户的图像的确定来做出确定。另外或作为替选，可基于关于用户在捕获音频时是否正看向摄像机和/或屏幕的确定而做出确定。另外或作为替选，也可以基于在捕获音频的时间帧期间捕获的多个图像中的用户的嘴是否被确定为已经移动来做出确定。另外或作为替选，可以基于捕获的音频是否包括辨识的用户的语音来做出确定。

通过实现本文公开的装置、系统和方法，可以选择性地控制在电话会议和/或视频会议会话期间的音频输出，使得可以不输出没有包括用户的语音的音频。也就是说，例如，仅包括用户的语音的音频可以被输出到电话会议和/或视频会议会话。结果，可能并不打算让参与者听到的音频可能就不会被发送到电话会议和/或视频会议会话。

首先参考图1和2。图1示出了可以基于数据文件是否包括了用户的捕获的语音来控制数据文件的传送的示例性装置100的框图。图2示出了可以包括图1中描绘的示例性装置100的特征的示例性系统200的框图。应当理解，图1和图2中描绘的示例性装置100和/或示例性系统200都可以包括附加组件，并且可以在不脱离本文公开的示例性装置100和/或示例性系统200范围的情况下去除和/或修改本文描述的组件中的一些组件。

装置100可以是计算设备或其他电子设备，其可以便于用户与其他远程定位的用户通信。也就是说，装置100可以捕获音频，并且可以选择性地通过通信接口102传送捕获的音频的音频信号，例如包括音频信号的数据文件。如这里所讨论的，装置100，并且更具体地，装置100的控制器110可以确定音频信号是否包括用户意图例如经由执行视频会议应用而被传送到另一用户的音频，并且可以基于用户意图将音频传送到另一用户的确定来传送该音频信号。然而，基于用户可能不意图传送音频的确定，控制器110可以不传送音频信号。控制器110可以确定用户关于是否要以如本文所讨论的各种方式传送音频的意图。

通信接口102可以包括软件和/或硬件组件，通过所述组件，装置100可以传送和/或接收数据文件。例如，通信接口102可以包括装置100的网络接口。数据文件可以包括音频和/或视频信号，例如，与音频和/或视频信号相对应的数据的分组。控制器110可以是集成电路，诸如专用集成电路(ASIC)。在这些示例中，控制器110可执行的指令可以被编程到集成电路中。在其它示例中，控制器110可与存储在存储器(例如，图5中所示的非暂时性计算机可读介质)中的固件(即，机器可读指令)一起操作。在这些示例中，控制器110可以是微处理器、CPU等，并且指令可以是控制器110可以执行的固件和/或软件，如本文详细讨论的。

如图2所示，系统200可以包括图1所示的装置100的通信接口102和控制器110。系统200还可以包括数据存储202、麦克风204、摄像机206、输出设备(或多个输出设备)208。电信号可以经由链路210在系统200的组件102、110、202-208中的一些或全部之间传送，该链路可以是通信总线、导线等。

控制器110可以执行或以其他方式实现电信应用，以促进用户220也可以是其参与者的电话会议或视频会议。在这方面，麦克风204可以在会议期间捕获音频(或者等同地，声音)222以用于跨通信接口102可以连接到的网络230的通信。麦克风204可以捕获用户220的语音和/或其他音频，包括其他人的语音、背景噪声等。网络230可以是IP网络、电话网络和/或蜂窝网络。此外，捕获的音频222可以通过网络230被传送到远程系统240，使得捕获的音频222可以在远程系统240处输出。捕获的音频222可以被转换和/或存储在数据文件中，并且通信接口102可以通过网络230传送该数据文件。

在操作中，麦克风204可以捕获音频222，并且可以将捕获的音频222传送到数据存储202和/或控制器110。另外，麦克风204或另一组件可以转换捕获的音频222，或者可以将捕获的音频222存储在数据文件中。例如，捕获的音频222可以被存储或封装在IP分组中。控制器110可以确定(指令112)捕获的音频222是否包括用户220的语音。也就是说，控制器110可以确定包括捕获的音频220的数据文件是否包括用户220的捕获的语音。控制器110可以以如本文所讨论的多种方式中的任何一种来做出该确定。

基于数据文件包括用户220的捕获的语音的确定，控制器110通过通信接口102传送(指令114)数据文件。另外，通信接口102可以通过网络230将数据文件(例如，包括捕获的音频222)输出到远程系统240。然而，基于捕获的音频222不包括用户220的语音的确定，控制器110可以丢弃数据文件，例如，可以不将捕获的音频222传送到通信接口102。结果，当数据文件不包括用户220的捕获的语音时，捕获的音频222可以不被输出到网络230，这可以是用户220不意图将捕获的音频222传送到电话会议或视频会议的另一参与者的指示。

如图2所示，当摄像机206活动时，诸如当控制器110正在执行视频会议应用时，摄像机206可以捕获摄像机206的视场内的图像224或多个图像224，例如视频。在一些示例中，控制器110可以控制摄像机206，使得在视频会议应用的执行期间，捕获的图像224被连续地记录在数据存储202中。在其他示例中，控制器110可以使图像224与捕获的音频222同时被记录。在这些示例中的任一个中，在音频222被捕获的时间段期间被捕获的图像224可以与捕获的音频222链接。这样，可以利用诸如共同的时间戳等来辨识与在其期间捕获音频222的时间帧对应的图像224。

系统200中所示的（一个或多个）输出设备208可以包括例如扬声器、显示器等。（一个或多个）输出设备208可以输出例如从远程系统240接收的音频。（一个或多个）输出设备208还可以输出从远程系统240接收的图像和/或视频。

现在参考图1-3。图3示出了可以基于捕获的音频222是否包括用户220的语音来控制捕获的音频222的通信的示例性装置300的框图。应当理解，图3中描绘的示例性装置300可以包括附加组件，并且可以在不脱离本文公开的示例性装置300的范围的情况下去除和/或修改本文描述的组件中的一些组件。

装置300可以类似于图1中所描绘的装置100，并且因此可以包括本文关于图1所讨论的通信接口102。装置300还可以包括控制器310，其可以类似于控制器110。指令312-320可以是指令112的示例，并且指令322可以是指令114的示例。特别地，控制器310可以实现和/或执行指令312-320中的任何一个，以确定捕获的音频222是否包括用户220的语音，如上面关于指令112所讨论的。

在一些示例中，控制器310可以确定(指令312)与包括在数据文件中的捕获的音频222同时捕获的图像224是否包括用户220的图像。特别地，例如，控制器310可以确定与捕获的音频222同时捕获的图像224是否包括用户220的面部的图像。控制器310可以基于捕获的图像224包括用户220的图像(例如，用户220的面部)的确定来确定(指令320)包括捕获的音频222的数据文件包括用户220的捕获的语音。然而，控制器310也可以基于捕获的图像224不包括用户220的图像(例如，用户220的面部)的确定来确定(指令320)包括捕获的音频222的数据文件不包括用户220的捕获的语音。

在一些示例中，控制器310可以确定(指令312)与包括在数据文件中的捕获的音频222同时捕获的图像包括用户220的图像。另外，控制器310可以确定(指令314)用户220是否在捕获的图像224中面向特定的方向。也就是说，例如，控制器310可以确定用户220是否在捕获的图像224中面向摄像机206和/或显示器(输出设备208)。基于用户220正面向特定的方向的确定，控制器310可以确定(指令320)数据文件包括用户220的捕获的语音。也就是说，控制器310可以基于捕获的音频222可能包括用户220的语音来确定数据文件包括用户220的捕获的语音。然而，基于用户220没有面向特定的方向的确定，控制器110可以确定(指令320)数据文件不包括用户220的捕获的语音。也就是说，当用户220在捕获音频222时没有面向摄像机206或显示器208时，捕获的音频222可能不来自用户220。

在一些示例中，控制器310可以确定(指令312)与包括在数据文件中的捕获的音频222同时捕获的多个图像包括用户220的图像。控制器310还可以在多个捕获的图像224中辨识出用户的嘴，并且可以确定(指令316)用户220的嘴在多个图像224中是否移动。也就是说，控制器310可以从捕获的图像224中确定用户220的嘴在捕获音频222期间是否移动。基于用户220的嘴在多个图像224中移动的确定，控制器310可以确定(指令320)数据文件包括用户220的捕获的语音。然而，基于用户220的嘴在多个图像224中没有移动的确定，控制器310可以确定(指令320)数据文件不包括用户220的捕获的语音。控制器310可以利用面部识别技术来辨识用户220的嘴，并确定用户的嘴220在图像224中是否移动。

在一些示例中，控制器310可以确定(指令318)数据文件中的捕获的语音。控制器310可以确定(指令320)捕获的语音是否与可以用户220的识别出的语音相匹配。也就是说，例如，控制器310可能已经执行了语音识别应用以辨识用户220的语音（例如用户220的语音的特征），并且可能已经将识别出的语音存储在数据存储202中。另外，控制器310可以执行语音识别应用以确定数据文件中的捕获的语音的特征，并且可以将捕获的语音的所确定的特征与用户220的语音的所确定的特征进行比较，以确定捕获的语音是否与用户220的识别出的语音相匹配。控制器310还可以基于捕获的语音与用户220的识别出的语音相匹配来确定(指令322)数据文件包括了用户220的捕获的语音。然而，控制器310可以基于捕获的语音与用户的识别出的语音不匹配来确定(指令322)数据文件不包括用户的捕获的语音。

在一些示例中，控制器310可以输出(指令324)数据文件的选择性传送的指示。例如，控制器310可以基于数据文件不包括用户220的捕获的语音的确定来输出数据文件未被传送的指示，例如显示通知、输出可听警报等。

关于图4描绘的方法400，更详细地讨论了可以实现装置100、300的各种方式。特别地，图4描绘了用于控制包括捕获的音频222的数据文件的输出的示例性方法400。对于本领域普通技术人员来说，明显的是，方法400可以概表示括地图示，并且可以在不脱离方法400的范围的情况下添加其它操作或者可以去除、修改或重新布置现有操作。

为了说明的目的，参考图1-3中所示的装置100、300来描述方法400。应当理解，可以在不脱离方法400的范围的情况下实现具有其它配置的装置来执行方法400。

在框402处，控制器110、310可以访问捕获的声音222。控制器110、310可以从麦克风204和/或从数据存储202访问捕获的声音222。在框404处，控制器110、310可以分析捕获的声音222或包括捕获的声音222的数据文件，以确定捕获的声音222是否包括用户220的语音。特别地，例如，控制器110、310可以确定捕获的声音222是否包括特定用户220的语音，或者捕获的声音222是否不包括特定用户220的语音。也就是说，控制器110、310可以确定捕获的声音222是否包括特定用户220的语音、任何用户的语音、背景噪声等。上面还描述了控制器110、310可以确定捕获的声音222是否包括了用户220的语音的各种方式。

在框406处，基于确定捕获的声音222包括用户220的语音的确定，控制器110、310可以通过通信接口102传送与捕获的声音222相对应的数据文件。然而，基于捕获的声音222不包括用户220的语音的确定，在框408处，控制器110、310可以例如通过不在通信接口102上传送数据文件来丢弃数据文件。

方法400中阐述的一些或所有操作都可以作为实用程序、程序或子程序包含在任何期望的计算机可访问介质中。此外，方法400中阐述的一些或所有操作可以由计算机程序来实现，其可以以活动的和不活动的各种形式存在。例如，它们可以作为机器可读指令存在，包括源代码、目标代码、可执行代码或其他格式。上述中的任何一个可以被实现在非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括计算机系统RAM、ROM、EPROM、EEPROM以及磁性或光学盘或带。因此，应当理解，能够执行上述功能的任何电子设备可以执行上面列举的那些功能。

现在转到图5，示出了可以在其上存储机器可读指令的示例性非暂时性计算机可读介质500的框图，所述机器可读指令在由可以是控制器110、310的处理器执行时可以使处理器基于数据文件是否包括用户的语音来控制与捕获的声音相对应的数据文件的传送。应当理解，图5中描绘的非暂时性计算机可读介质500可以包括附加指令，并且可以在不脱离本文公开的非暂时性计算机可读介质500的范围的情况下去除和/或修改本文描述的一些指令。

非暂时性计算机可读介质500可以具有存储在其上的处理器可以执行的机器可读指令502和508。非暂时性计算机可读介质500可以是包含或存储可执行指令的电子、磁、光或其他物理存储设备。暂时性计算机可读介质500可以是例如随机存取存储器(RAM)、电可擦除可编程只读存储器(EEPROM)、存储设备、光盘等。术语“非暂时性”不涵盖暂时性传播信号。

处理器可以获取、解码和执行指令502以辨识经由麦克风204捕获的声音222。处理器可以获取、解码和执行指令504以生成包括捕获的声音的数据文件。处理器可以获取、解码和执行指令506以分析数据文件，以确定用户的语音是否包括在捕获的声音222中。处理器可以以上述任何方式进行该确定。处理器可以获取、解码和执行指令508，以基于捕获的声音222包括用户220的语音的确定来通过网络通信接口102传送与捕获的声音222相对应的数据文件。处理器可以获取、解码和执行指令510，以基于捕获的声音222不包括用户220的语音的确定，丢弃数据文件，例如，可以不通过网络通信接口102传送数据文件。

尽管贯穿本公开的整体具体地描述，但是本公开的代表性示例在广泛的应用范围内是具有效用的，并且以上讨论不打算并且也不应被解释为限制性的，而是被提供作为本公开的各方面的说明性讨论。

在此已经描述和示出的是本公开的示例及其一些变型。在此使用的术语、描述和附图仅通过说明的方式来阐述，而不是意味着限制。在本公开的精神和范围内，许多变化是可能的，本公开的精神和范围旨在由所附权利要求——及其等同物——来限定，其中，所有术语都意味着其最广泛的合理意义，除非另有说明。

Claims

1.一种装置，包括：

通信接口；以及

控制器，用于：

确定数据文件是否包括用户的捕获的语音；以及

基于数据文件包括用户的捕获的语音的确定，通过通信接口传送数据文件。

2.根据权利要求1所述的装置，其中，所述控制器还用于：

确定与包括在数据文件中的捕获的音频同时捕获的图像是否包括用户的图像；以及

基于捕获的图像包括用户的图像的确定而确定数据文件包括用户的捕获的语音。

3.根据权利要求1所述的装置，其中，所述控制器还用于：

确定与包括在数据文件中的捕获的音频同时捕获的图像包括用户的图像；

确定用户在捕获的图像中是否正面向特定的方向；

基于用户正面向特定的方向的确定，确定数据文件包括用户的捕获的语音；以及

基于用户没有面向特定的方向的确定，确定数据文件不包括用户的捕获的语音。

4.根据权利要求1所述的装置，其中，所述控制器还用于：

确定与包括在数据文件中的捕获的音频同时捕获的多个图像包括用户的图像；

在多个捕获的图像中辨识用户的嘴；

确定用户的嘴在多个图像中是否移动；

基于用户的嘴在多个图像中移动的确定，确定数据文件包括用户的捕获的语音；以及

基于用户的嘴在多个图像中没有移动的确定，确定数据文件不包括用户的捕获的语音。

5.根据权利要求1所述的装置，其中，所述控制器还用于：

确定数据文件中的捕获的语音；

确定捕获的语音是否与可以用户的识别出的语音相匹配；

基于捕获的语音与用户的识别出的语音相匹配来确定数据文件包括用户的捕获的语音；以及

基于捕获的语音与用户的识别出的语音不匹配，确定数据文件不包括用户的捕获的语音。

6.根据权利要求1所述的装置，其中，所述控制器还用于：

基于数据文件不包括用户的捕获的语音的确定，丢弃数据文件；以及

输出数据文件未被传送的指示。

7.一种系统，包括：

麦克风；以及

控制器，用于：

确定由所述麦克风捕获的声音是否包括用户的语音；

基于捕获的声音包括用户的语音的确定，将包括捕获的声音的数据文件输出到通信接口；以及

基于捕获的声音不包括用户的语音的确定，丢弃数据文件。

8.根据权利要求7所述的系统，还包括：

摄像机，用于捕获图像；以及

其中，所述控制器进一步用于：

确定摄像机是否在麦克风捕获声音时捕获用户的图像；

基于用户的图像是在麦克风捕获声音时捕获的确定，确定捕获的声音包括用户的语音；以及

基于用户的图像不是在麦克风捕获声音时捕获的确定，确定捕获的声音不包括用户的语音。

9.根据权利要求7所述的系统，还包括：

摄像机；以及

其中，所述控制器进一步用于：

确定摄像机在麦克风捕获声音时捕获用户的图像；

确定用户在捕获的图像中是否正面向摄像机；

基于用户在捕获的图像中正面向摄像机的确定，确定捕获的声音包括用户的语音；以及

基于用户在捕获的图像中没有面向摄像机的确定，确定捕获的声音不包括用户的语音。

10.根据权利要求7所述的系统，还包括：

摄像机；

其中，所述控制器进一步用于：

确定摄像机在麦克风捕获声音的时间段期间捕获用户的多个图像；

在多个捕获的图像中辨识用户的嘴；

从多个捕获的图像中确定用户的嘴在麦克风捕获声音的时间段期间是否移动；

基于用户的嘴在麦克风捕获声音的时间段期间移动的确定，确定捕获的声音包括用户的语音；以及

基于用户的嘴在麦克风捕获声音的时间段期间没有移动的确定，确定捕获的声音不包括用户的语音。

11.根据权利要求7所述的系统，其中，所述控制器进一步用于：

确定捕获的声音中的语音；

确定所确定的语音是否与用户的识别出的语音匹配；

基于所确定的语音与用户的识别出的语音匹配来确定捕获的声音包括用户的语音；以及

基于所确定的语音与用户的识别出的语音不匹配，确定捕获的声音不包括用户的语音。

12.一种非暂时性计算机可读介质，在所述非暂时性计算机可读介质上存储有机器可读指令，所述机器可读指令在由处理器执行时使所述处理器：

辨识经由麦克风捕获的声音；

生成包括捕获的声音的数据文件；

分析数据文件以确定用户的语音是否包括在捕获的声音中；

基于捕获的声音包括用户的语音的确定，通过网络通信接口传送对应于捕获的声音的数据文件；以及

基于捕获的声音不包括用户的语音的确定，丢弃数据文件。

13.根据权利要求12所述的非暂时性计算机可读介质，其中，所述指令进一步使所述处理器：

确定与捕获的声音同时捕获的图像是否包括用户的图像；

基于捕获的图像包括用户的图像的确定而确定捕获的声音包括用户的语音；以及

基于捕获的图像不包括用户的图像的确定而确定捕获的声音不包括用户的语音。

14.根据权利要求12所述的非暂时性计算机可读介质，其中，所述指令进一步使所述处理器：

访问在捕获声音的时间段期间捕获的用户的多个图像；

在多个捕获的图像中辨识用户的嘴；

从多个捕获的图像中确定用户的嘴在捕获声音的时间段期间是否移动；

基于用户的嘴在捕获声音的时间段期间移动的确定，确定捕获的声音包括用户的语音；以及

基于用户的嘴在捕获声音的时间段期间没有移动的确定，确定捕获的声音不包括用户的语音。

15.根据权利要求12所述的非暂时性计算机可读介质，其中，所述指令进一步使所述处理器：

确定捕获的声音中的语音；

确定所确定的语音是否与用户的识别出的语音匹配；

基于所确定的语音与用户的识别出的语音匹配而确定捕获的声音包括用户的语音；以及