CN114627857A - 标识语音命令边界 - Google Patents

标识语音命令边界 Download PDF

Info

Publication number
CN114627857A
CN114627857A CN202111430888.9A CN202111430888A CN114627857A CN 114627857 A CN114627857 A CN 114627857A CN 202111430888 A CN202111430888 A CN 202111430888A CN 114627857 A CN114627857 A CN 114627857A
Authority
CN
China
Prior art keywords
communication
intended recipient
sound
boundary
recipient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111430888.9A
Other languages
English (en)
Inventor
C.德克罗普
J.R.佛克斯
T.阿格拉沃尔
S.K.拉克什
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN114627857A publication Critical patent/CN114627857A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/163Wearable computers, e.g. on a belt
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0346Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/131Protocols for games, networked simulations or virtual reality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/021Services related to particular areas, e.g. point of interest [POI] services, venue services or geofences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/021Services related to particular areas, e.g. point of interest [POI] services, venue services or geofences
    • H04W4/022Services related to particular areas, e.g. point of interest [POI] services, venue services or geofences with dynamic range variability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/06Selective distribution of broadcast services, e.g. multimedia broadcast multicast service [MBMS]; Services to user groups; One-way selective calling services
    • H04W4/10Push-to-Talk [PTT] or Push-On-Call services
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/0138Head-up displays characterised by optical features comprising image capture systems, e.g. camera
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/014Head-up displays characterised by optical features comprising information/image processing systems
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0179Display position adjusting means not related to the information to be displayed
    • G02B2027/0187Display position adjusting means not related to the information to be displayed slaved to motion of at least a part of the body of the user, e.g. head, eye
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/024Multi-user, collaborative environment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/023Services making use of location information using mutual or relative location information between multiple location based services [LBS] targets or of distance thresholds

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Hardware Design (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • Optics & Photonics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种用于增强通信的方法、一种用于增强通信的计算机程序产品和一种增强现实系统。一种用于增强通信的方法可包括计算在其内通信能够被听到的声音边界,在增强现实设备上生成该声音边界的视觉化,以及在增强现实设备上呈现该视觉化。声音边界可以表示通信可以被理解的预测最大距离。

Description

标识语音命令边界
技术领域
本公开涉及增强现实系统;并且更具体地,涉及通过增强现实系统来标识语音命令边界。
背景技术
1948年EDVAC系统的开发经常被引用为计算机时代的开始。从那时起,计算机系统已经发展成为极其复杂的设备。当今的计算机系统通常包括复杂的硬件和软件组件、应用程序、操作系统、处理器、总线、存储器、输入/输出设备等的组合。随着半导体处理和计算机体系结构的进步推动性能越来越高,甚至更先进的计算机软件已经发展为利用这些能力的更高性能,导致今天的计算机系统比仅仅几年前强大得多。
这些新能力的一个应用是增强现实(“AR”)。AR通常是指利用计算机生成的材料(例如,覆盖视觉呈现的文本或图形)来添加或增强现实世界环境的技术。AR呈现可以是直接的,诸如用户通过透明屏幕观看,计算机生成的材料叠加在屏幕上。AR呈现也可以是间接的,诸如具有叠加在游戏动作上的计算机生成的图形突出显示关键动作、时间和分数信息等的体育事件的呈现。
AR呈现不必由用户在捕获视觉图像的同时观看,AR呈现也不必实时观看。例如,AR呈现可以是示出单个时刻的快照的形式,但是该快照可以由用户查看相对长的时间段。
发明内容
根据本公开的实施例,一种用于增强通信的方法。一个实施例可以包括计算在其内通信能够被听到的声音边界,在增强现实设备上生成声音边界的视觉化,以及在增强现实设备上呈现视觉化。在一些实施例中,声音边界可以表示可以通信能够被理解的预测最大距离。
根据本公开的实施例,一种用于增强通信的计算机程序产品,所述计算机程序产品包括具有体现于其中的程序指令的计算机可读存储介质。程序指令可以由处理器执行以使处理器:计算表示通信可以被理解的预测最大距离的第一声音边界,计算表示通信可以被听到的预测最大距离的第二声音边界,以及从位置的多个人当中预测预期接受方。该预测可以包括确定通信的方向,以及分析通信的内容。程序指令还可以使处理器基于第一声音边界和预期接受方的位置来确定预期接受方不能理解该通信,并且作为响应,从用户的视角在场所的视图上叠加指示预期接受方不能理解通信的图形指示,并且向预期接受方自动地电子传输通信。程序指令还可以使处理器基于第二声音边界和非预期接受方的位置来确定非预期接受方可能能够听到通信,并且作为响应,从用户的视角在现场的视图上叠加指示非预期接受方能够听到通信的图形指示。计算第一声音边界和第二声音边界可以包括测量通信的音量水平、测量场所中的环境噪声水平、以及基于场所处的一个或多个环境因素计算声音衰减率。
根据本公开的实施例,一种增强现实系统。一个实施例可以包括可佩戴框架、耦合到可佩戴框架的处理器、以及耦合到可佩戴框架的显示器。处理器可以计算在其内通信能够被听到的声音边界。显示器可以将声音边界的视觉化覆盖到用户的视场上。声音边界可以表示通信能够被理解的预测最大距离,并且处理器可以基于声音边界和预期接受方的位置来确定预期接受方不能理解通信。
上述发明内容并非旨在描述本公开的每个所示实施例或每种实施方式。
附图说明
本申请中包括的附图并入说明书中并形成说明书的一部分。它们示出了本公开的实施例,并且与说明书一起用于解释本公开的原理。附图仅说明某些实施例,而不限制本公开。
图1示出了与一些实施例一致的数据处理系统(DPS)的实施例。
图2描绘了与一些实施例一致的云计算环境。
图3描绘了与一些实施例一致的抽象模型层。
图4是与一些实施例一致的具有增强现实玻璃显示器的头戴式显示系统(“AR系统”)的透视图。
图5A和图5B是与本公开的一些实施例一致的操作中的AR系统的图。
图6是与本公开的一些实施例一致的操作中的AR系统的图。
图7A-图7C是与本公开的一些实施例一致的过程流程图。
虽然本发明可以有各种修改和替换形式,但是其细节已经在附图中通过示例的方式示出并且可以被详细描述。然而,应当理解,其目的不是将本发明限制于所描述的特定实施例。相反,本发明覆盖落入本发明的精神和范围内的所有修改、等效和替换。
具体实施方式
本公开的方面涉及增强现实系统;更具体的方面涉及通过增强现实系统来标识语音命令边界。虽然本公开不一定限于此类应用,但是通过使用此上下文的各种示例的讨论可以理解本公开的各个方面。
本公开的一些实施例可以包括头戴式AR系统,其允许用户视觉化他们的实际物理环境。数字增强可以直接投影到用户的视网膜上,使得计算机生成的材料可以与那些实际物理环境一起呈现并呈现在那些实际物理环境之上。另外或替代地,在一些实施例中,数字增强可以呈现在屏幕上,诸如附着在用户前面的平视显示器、虚拟现实头戴式装置、用户的移动设备等。
在本公开的一些应用中,主用户(primary user)可能位于拥挤和/或嘈杂的环境中。适当地调制通信和/或口头命令的响度对于确保预期接受方(例如,人、设备)能够清楚地听到口头话语可能是重要的。同时,主用户的语音可能打扰共享相同空间的其他人和/或被非预期与之通信的人偷听。例如,某人可能在图书馆中与附近的人对话,但是在相同空间中的其他人可能容易听到并且被交谈分散注意力。作为另一个示例,主用户可能处于嘈杂的环境中,诸如在火车上或在制造工作场所中,在那里以正常音量说话可能不足以让其他人听到并理解主用户。
更一般地,当在共享空间中与其他人谈话时,通常难以适当地校准一个人的语音的响度,足以使得仅预期接受方能够听到和/或理解该人说出的话语,特别是在该人在物理上或社会上难以以更大声的语音说话的情况下。因此,本公开的一些实施例包括可以帮助AR设备的主用户理解(一个或多个)预期接受方是否可以听到他们的语音的方法和系统。本公开的一些实施例还可以帮助AR设备的主用户(一个或多个)理解共享相同空间的其他人是否将被他们的对话打扰。
一些实施例可以计算声音衰减率,并且然后使用声音衰减率来预测谁可以听到主用户的语音和/或谁将被主用户的语音打扰。在一些实施例中,所计算的衰减率可以是位置特定的。在这些实施例中,系统可以检测和/或从外部传感器接收一个或多个环境参数,诸如湿度、温度、风的流动方向等。在一些实施例中,预测还可以基于周围区域的环境噪声水平。这些实施例中的AR系统可以测量环境噪声,和/或从外部传感器接收环境噪声。该衰减率可以用于计算可以听到和理解主用户的最大距离。
在一些实施例中,AR系统向主用户呈现谁能和不能听到他们的语音的指示符。在一些实施例中,指示符可以包括叠加在附近的人的头部上的绿色或红色图标,以指示该人是否应当能够听见和/或理解主用户。在一些实施例中,指示符可以包括叠加在地面上的发光圆圈或叠加在空间中的发光圆柱,其指示主用户的语音多远可能被听到和/或理解。一些实施例可以使用集成到AR系统中的麦克风来检测主用户的语音的响度(例如,以分贝为单位)。
一些实施例可以预测谁是来自主用户的特定话语的(一个或多个)预期接受方,以及谁可以听得到它并且被打扰。一些实施例可以使用主用户的焦点的方向作为输入。可以使用集成到AR系统中的相机系统来确定方向。一些实施例还可以分析话语的内容(例如,姓名、命令等),该分析可以利用历史知识语料库,该历史知识语料库可以使用主用户过去的话语、社交媒体联系人、面部识别等的所分析的内容来针对主用户进行定制。
一些实施例可以使用环境参数、环境噪声简档和两个用户之间的当前距离来计算针对特定场所定制的预期接受方的听力简档。在一些实施例中,该简档还可以包括针对预期接受方可以使用的任何装备的修改物,诸如助听器或听力保护装置。
如果预期接受方不太可能听到话语,则一些实施例可以自动使用AR系统的电子消息传送能力来向(一个或多个)预测的接受方发送和/或重新发送主用户的(一个或多个)话语。这可以包括在主用户和(一个或多个)预期接受方之间动态地发起电话呼叫、短波无线电广播等。另外或可替换地,一些实施例可以将主用户的(一个或多个)话语转录为文本格式,然后将该文本发送到预期接受方(例如,作为SMS消息或电子邮件)。如果主用户试图与一群人说话,其中至少一些人在可听距离之外,那么一些实施例可以发起群组电话呼叫或消息到所述群组的在听觉范围之外的子集。
一些实施例可以连续地跟踪主用户与预期接受方之间的距离,并且连续地监视本地环境噪声和环境参数,以检测从可听距离到不可听距离的改变。作为响应,一些实施例可以将通信模式从无辅助通信模式动态地改变为辅助通信模式(例如,电话、SMS等)以及返回到无辅助通信模式。
数据处理系统
图1示出了与一些实施例一致的数据处理系统(DPS)100a、100b(在此一般称为DPS100)的一个实施例。图1仅示出了DPS 100的代表性主要组件,并且那些单独的组件可以具有比图1中所表示的更大的复杂度,在一些实施例中,DPS 100可以实现为个人计算机;服务器计算机;便携式计算机,诸如膝上型或笔记本计算机、PDA(个人数字助理)、平板计算机或智能电话;嵌入到诸如汽车、飞机、电话会议系统、电器的较大设备中的处理器;智能设备;或任何其它适当类型的电子设备。此外,可以存在不同于图1所示的组件或除了这些组件之外的组件,并且这些组件的数量、类型和配置可以改变。
图1中的数据处理系统100可以包括多个中央处理单元110a-110d(统称为处理器110或CPU 110),其可以通过系统总线122连接到主存储器单元112、大容量存储接口114、终端/显示器接口116、网络接口118和输入/输出(“I/O”)接口120。在该实施例中,大容量存储接口114可以将系统总线122连接到一个或多个大容量存储设备,诸如直接存取存储设备140或可读/可写光盘驱动器142。网络接口118可以允许DPS 100a通过网络106与其它DPS100b通信。主存储器112还可以包含操作系统124、多个应用程序126以及程序数据128。
图1中的DPS 100实施例可以是通用计算设备。在这些实施例中,处理器110可以是能够执行存储在主存储器112中的程序指令的任何设备,并且其自身可以由一个或多个微处理器和/或集成电路构成。在一些实施例中,DPS 100可以包含多个处理器和/或处理核,这对于较大的、能力更强的计算机系统是典型的;然而,在其它实施例中,计算系统100可以仅包括单个处理器系统和/或被设计为仿真多处理器系统的单个处理器。此外,可以使用多个异构数据处理系统100来实现(一个或多个)处理器110,其中主处理器110与辅助处理器一起存在于单个芯片上。作为另一个说明性示例,(一个或多个)处理器110可以是包含相同类型的多个处理器110的对称多处理器系统
当DPS 100启动时,相关联的(一个或多个)处理器110可以初始地执行构成操作系统124的程序指令。操作系统124又可管理DPS 100的物理和逻辑资源。这些资源可以包括主存储器112、大容量存储接口114、终端/显示器接口116、网络接口118和系统总线122。如同(一个或多个)处理器110一样,一些DPS 100实施例可以利用多个系统接口114、116、118、120和总线122,这些接口又可以各自包括它们自己的单独的完全编程的微处理器。
用于操作系统124和/或应用程序126的指令(一般地,“程序代码”、“计算机可用程序代码”或“计算机可读程序代码”)可以最初位于大容量存储设备中,大容量存储设备通过系统总线122与(一个或多个)处理器110通信。不同实施例中的程序代码可以体现在不同的物理或有形的计算机可读介质上,诸如存储器112或大容量存储设备上。在图1的说明性示例中,指令可以以永久性存储的功能形式存储在直接存取存储设备140上。然后,这些指令可以被加载到主存储器112中,以便由(一个或多个)处理器110执行。然而,在一些实施例中,程序代码也可以以功能形式位于可选择性移除的计算机可读介质142上。它可以被加载到或传送到DPS 100以便由(一个或多个)处理器110执行。
继续参考图1,系统总线122可以是便于在(一个或多个)处理器110;主存储器112;以及接口114、116、118、120之间进行通信的任何设备。此外,尽管在该实施例中系统总线122是相对简单的、单个总线结构,其提供系统总线122之间的直接通信路径,但是其他总线结构与本公开一致,包括但不限于分层的点对点链路、星形或网状配置、多个分层总线、并行和冗余路径等。
主存储器112和大容量存储设备140可以协作地工作以存储操作系统124、应用程序126和程序数据128。在一些实施例中,主存储器112可以是能够存储数据和程序指令的随机存取半导体存储装置(“RAM”)。尽管图1概念性地将主存储器112描述为单个单片实体,但是在一些实施例中主存储器112可以是更复杂的布置,诸如高速缓存和其它存储器设备的层级。例如,主存储器112可存在于多级高速缓存中,并且这些高速缓存可进一步按功能划分,使得一个高速缓存保存指令,而另一个高速缓存保存由(一个或多个)处理器110使用的非指令数据。主存储器112可以进一步分布并与不同的处理器110或处理器110的集合相关联,如在各种所谓的非均匀存储器存取(NUMA)计算机体系结构中的任何一种中已知的。此外,一些实施例可以利用虚拟寻址机制,该机制允许DPS 100表现为好像其访问了大的单个存储实体而不是访问了多个较小的存储实体(诸如主存储器112和大容量存储设备140)。
尽管操作系统124、应用程序126和程序数据128在图1中被示为包含在DPS 100a的主存储器112内,但是在一些实施例中,它们中的一些或全部可以物理地位于不同的计算机系统(例如DPS 100b)上,并且可以例如经由网络106远程访问。此外,操作系统124、应用程序126和程序数据128不必同时完全包含在同一物理DPS 100a中,甚至可以驻留在其它DPS100b的物理或虚拟存储器中。
在一些实施例中,系统接口单元114、116、118、120可以支持与各种存储装置和I/O设备的通信。大容量存储接口单元114可支持一个或多个大容量存储设备140的附接,大容量存储设备140可包括旋转磁盘驱动存储设备、固态存储设备(SSD),SSD使用集成电路组件作为存储器以持久地存储数据,通常使用闪存或两者的组合。另外,大容量存储设备140还可包括其它设备和组合件,包含经配置以对于主机表现为单个大存储装置的磁盘驱动器阵列(通常称为RAID阵列)和/或档案存储介质,诸如硬盘驱动器、磁带(例如,迷你DV)、可写压缩光盘(例如,CD-R和CD-RW)、数字通用光盘(例如,DVD、DVD-R、DVD+R、DVD+RW、DVD-RAM)、全息存储系统、蓝色激光光盘、IBM Millipede设备等。
终端/显示器接口116可以用于将一个或多个显示单元180直接连接到数据处理系统100。这些显示单元180可以是非智能(即哑)终端,诸如LED监视器,或者它们本身可以是允许IT管理员和用户与DPS 100通信的完全可编程的工作站。然而,注意,尽管可以提供显示接口116以支持与一个或多个显示器180的通信,但是计算机系统100不一定需要显示器180,因为与用户和其他过程的所有所需交互都可以经由网络106发生。
网络106可以是任何合适的网络或网络的组合,并且可以支持任何合适的协议,该协议适于向/从多个DPS 100传送数据和/或代码。因此,网络接口118可以是促进这种通信的任何设备,而不管网络连接是使用当前模拟和/或数字技术还是经由未来的某种联网机制来进行的。合适的网络106包括但不限于使用“Infiniband”或IEEE(电气和电子工程师协会)802.3x“以太网”规范中的一个或多个实现的网络;蜂窝传输网络;无线网络实现IEEE802.11x、IEEE 802.16、通用分组无线服务(“GPRS”)、FRS(家庭无线服务)或蓝牙规范之一;超宽带(“UWB”)技术,诸如FCC 02-48中描述的技术;或诸如此类。本领域技术人员将理解,许多不同的网络和传输协议可用于实现网络106。传输控制协议/网际协议(“TCP/IP”)套件包含合适的网络和传输协议。
云计算
图2示出了适用于边缘使能的可扩展和动态转移学习机制的云环境的一个实施例。应当理解,尽管本公开包括关于云计算的详细描述,但是本文所陈述的教导的实现不限于云计算环境。相反,本发明的实施例能够结合现在已知或以后开发的任何其它类型的计算环境来实现。
云计算是一种服务递送模型,用于实现对可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便的按需网络访问,所述可配置计算资源可以以最小的管理努力或与服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
特性如下:
按需自助:云消费者可以单方面地自动地根据需要提供计算能力,诸如服务器时间和网络存储,而不需要与服务的提供者进行人工交互。
广域网接入:能力在网络上可用,并且通过促进由异构的薄或厚客户端平台(例如,移动电话、膝上型计算机和PDA)使用的标准机制来访问。
资源池化:供应商的计算资源被集中以使用多租户模型来服务多个消费者,其中不同的物理和虚拟资源根据需求被动态地分配和重新分配。存在位置无关的意义,因为消费者通常不控制或不知道所提供的资源的确切位置,但是能够在较高抽象级别(例如国家、州或数据中心)指定位置。
快速弹性:在一些情况下,可以快速且弹性地提供快速向外扩展的能力和快速向内扩展的能力。对于消费者,可用于提供的能力通常看起来不受限制,并且可以在任何时间以任何数量购买。
测量服务:云系统通过利用在适合于服务类型(例如,存储、处理、带宽和活动用户账户)的某一抽象级别的计量能力来自动地控制和优化资源使用。可以监视、控制和报告资源使用,从而为所利用服务的提供者和消费者两者提供透明性。
服务模型如下:
软件即服务(SaaS):提供给消费者的能力是使用在云基础设施上运行的提供者的应用。应用程序可通过诸如web浏览器(例如,基于web的电子邮件)等瘦客户机界面从各种客户机设备访问。消费者不管理或控制包括网络、服务器、操作系统、存储、或甚至个别应用能力的底层云基础结构,可能的例外是有限的用户专用应用配置设置。
平台即服务(PaaS):提供给消费者的能力是将消费者创建或获取的应用部署到云基础设施上,该消费者创建或获取的应用是使用由提供商支持的编程语言和工具创建的。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施,但具有对部署的应用和可能的应用托管环境配置的控制。
基础设施即服务(IaaS):提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其它基本计算资源,所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施,但具有对操作系统、存储、部署的应用的控制,以及可能对选择的联网组件(例如,主机防火墙)的有限控制。
部署模型如下:
私有云:云基础设施仅为组织操作。它可以由组织或第三方管理,并且可以存在于建筑物内或建筑物外。
社区云:云基础设施由若干组织共享,并且支持具有共享关注(例如,任务、安全要求、策略和合规性考虑)的特定社区。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
公有云:云基础设施可用于一般公众或大型工业群体,并且由销售云服务的组织拥有。
混合云:云基础设施是两个或更多云(私有、共同体或公有)的组合,所述云保持唯一实体,但是通过使数据和应用能够移植的标准化或私有技术(例如,用于云之间的负载平衡的云突发)绑定在一起。
云计算环境是面向服务的,其焦点在于无状态、低耦合、模块性和语义互操作性。在云计算的核心是包括互连节点的网络的基础设施。
现在参考图2,描绘了说明性云计算环境50。如图所示,云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10,所述本地计算设备例如个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N。节点10可以彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络中,诸如如上文描述的私有云、社区云、公有云或混合云或其组合。这允许云计算环境50提供基础设施、平台和/或软件作为服务,云消费者不需要为其维护本地计算设备上的资源。应当理解,图2中所示的计算设备54A-N的类型仅旨在说明,并且计算节点10和云计算环境50可以通过任何类型的网络和/或网络可寻址连接(例如,使用web浏览器)与任何类型的计算机化设备通信。
现在参考图3,示出了由云计算环境50(图2)提供的一组功能抽象层。应当预先理解,图3中所示的组件、层和功能仅旨在说明,并且本发明的实施例不限于此。如所描绘的,提供了以下层和相应的功能:
硬件和软件层60包括硬件和软件组件。硬件组件的示例包括:主机61;基于RISC(精简指令集计算机)架构的服务器62;服务器63;刀片服务器64;存储装置65;以及网络和网络组件66.在一些实施例中,软件组件包括网络应用服务器软件67和数据库软件68。
虚拟化层70提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器71;虚拟存储器72;虚拟网络73,包括虚拟专用网络;虚拟应用和操作系统74;以及虚拟客户机75。
在一个示例中,管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其它资源的动态采购。计量和定价82提供了在云计算环境中利用资源时的成本跟踪,以及用于消耗这些资源的开帐单或发票。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及为数据和其他资源提供保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务级别管理84提供云计算资源分配和管理,使得满足所需的服务级别。服务水平协议(SLA)规划和履行85提供对云计算资源的预安排和采购,其中根据SLA预期未来需求。
工作负载层90提供了可以利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括:绘图和导航91;软件开发和生命周期管理92;虚拟教室教育传送93;数据分析处理94;交易处理95;以及接受方预测模块96。
AR系统
图4是与一些实施例一致的具有增强现实玻璃显示器的头戴式显示系统(“AR系统400”)的立体图。如图所示,AR系统400可以包括处理器416、定位设备404、相机406、显示器408以及嵌入到可佩戴框架402中的一组透镜410,主用户可以像普通眼镜一样佩戴该可佩戴框架。AR系统400还可以包括表示处理器416执行一些或全部计算的DPS 100a。
处理器403和定位设备404可以协作以确定主用户的物理位置和视场(基于方向取向)。例如,定位设备404可以包括地理定位器(例如,利用来自全球定位系统(GPS)卫星的信号来确定用户/佩戴者的当前位置的GPS设备)以及确定用户/佩戴者在佩戴AR系统400时正在看的方向(“视场”)的定向设备(例如,加速度计、3轴重力检测器等)。
相机406可以捕获主用户在当前场所的视场的图像或视频。也就是说,相机406可以捕获主用户在佩戴AR系统400时正在看的任何事物的电子图像。该图像或视频可以与增强一起显示在显示器408上。
处理器403可以生成增强以将信息覆盖到主用户的视场上。在一个实施例中,该信息可以覆盖在显示器408上,使得通过透镜410看到的人的任何事物都用覆盖的信息来增强。
显示器408可以是佩戴者直接观看的小型显示设备(例如,诸如微型LED显示器的视频屏幕),或者它可以是将图像显示到透镜410上的投影设备。在一个实施例中,显示器408可以向AR系统400的用户/佩戴者呈现来自相机406的图像/视频。在其他实施例中,显示器408可以是半透明的,使得主用户可以通过显示器408看到作为增强的背景的位置。
如将参考图5A-图5B、图6和图7A-图7C更详细地讨论的,处理器403生成与佩戴者正在观察的特定场所(即,在他/她的视场内)有关的视觉信息。然后,该视觉信息由显示器408传送,该显示器将视觉信息覆盖在显示器408上。
操作环境
图5A和图5B是示出了与本公开的一些实施例一致的、并且参考在社交规范要求相对安静的场所550(诸如在图书馆中)处在AR系统400的主用户510与预期接受方530之间发生的对话的说明性示例描述的、处于操作中的AR系统400的环境500A、500B的图。还描绘了共享相同场所550的一个或多个其他人520,如果主用户510对预期接受方530说话太大声,则他们可能被打扰。
在图5A中,AR系统400可以首先检测到主用户510正在说话。作为响应,AR系统400可以提示用户标识(一个或多个)预期接受方530和/或可以预测主用户510正与之说话的一个或多个预期接受方530。这可以基于主用户面对的方向和/或话语的内容。
AR系统400可以计算两个距离:(i)较短距离,其表示主用户510能够被清楚理解的最大距离;以及(ii)较长距离,其表示可以听到主用户510的最大距离。作为这些计算的一部分,AR系统可以输入主用户510的语音的测量音量;在场所550中的环境噪声的测量音量;主用户510、预期接受方530和场所550处的其他每个人520之间的估计距离;以及一个或多个环境因素,以使用适当的物理模型来计算为场所550定制的声音衰减率。另外,一些实施例可以允许主用户510手动增加相应的距离以用于附加隐私保护,或者手动减小相应的距离以确保将听到主用户510(例如,用于安全相关的话语)。
AR系统400可以使用所计算的较短距离来利用第一图形图标525(例如,预期接受方头部上方的绿光相对于红光)增强用户的视场,该第一图形图标指示该特定预期接受方是否应当能够听到并理解主用户510的话语。另外,AR系统400可以使用所计算的较长距离来利用第二图形指示符535(例如,发光圆圈)来增强用户的视场,该第二图形指示符指示主用户510的语音多远可能被听到。AR系统400可以使用第三图形指示符545(例如,发光感叹号)来指示其他人520之一可能被打扰。
在图5A中,如果AR系统400确定预期接受方530之一在所计算的较短距离之外,则AR系统400可以发起其电子消息传送功能,以将主用户的语音中继到预期接受方530。这样,预期接受方可以听到主用户所说的内容,而该主用户不必将其说话音量增加到会干扰场所550中的其他人520的水平。
在图5B中,AR系统400可以确定预期接受方530随后已经移动得更靠近主用户510。作为响应,AR系统可以终止电子消息传送功能,并且允许主用户无辅助地与预期接受方说话。
图6是与本公开的一些实施例的、并且参考在诸如建筑工地的环境噪声水平高的场所650处、在主用户510和预期接受方530之间进行的对话的说明性示例描述的、操作中的AR系统400的另一示图600。在该说明性示例中,主用户510可能需要传送重要信息、安全命令等。在该说明性示例中,AR系统400可以计算图形指示符并将其呈现给主用户510,该图形指示符描绘谁将能够可听地听到话语。该图形指示符可以是与参照图5A-图5B描述的不同的样式或颜色。
如果AR系统400确定预期接受方530在所计算的较短距离之外,则该系统可以自动使用电子消息传送来传达话语。类似于图5A-图5B中的实施例,当各个方510、530在场所650周围移动时,图6中的AR系统400可以动态地从未辅助模式切换到辅助模式,以及返回到未辅助模式。
过程流程图
图7A-图7C是与本公开的一些实施例一致的过程流程图700的每个部分。在操作705,AR系统400可以提示主用户510选择加入以允许接受方预测以及允许收集历史语料库。历史语料库进而可包含帮助标识预期接受方530是谁以及与那些预期接受方530的常见交互是什么的信息。在一些实施例中,边界计算和显示可以在集成到AR系统400中的软件中实现,而可选的接受方预测和历史语料库特征可以在云计算环境50中操作的DPS 100上实现。
响应于主用户510的选择加入,AR系统400可以在操作710初始化历史语料库并开始收集数据。这可以包括主用户的对话的历史、当那些对话发生时附近的人的身份、社交媒体联系人、面部识别信息等。另外,如果主用户510附近的人520、530在他们的身上具有支持“物联网”的设备(例如,智能设备),则这些设备可在操作715处被标识并被用于更好地标识预期接受方530。
接下来,在操作720,AR系统400可以初始化AR系统400中的硬件。这可以包括确定该硬件是否包括麦克风、摄像机和/或远程消息传送(例如,电话)能力。
主用户510然后可以开始说话。作为响应,AR系统400可以在操作722使用麦克风测量话语的音量。AR系统400然后可以计算(在操作725)指示话语多远将保持可理解的第一较短距离(“最大可理解距离”),并且计算(在操作727)指示话语多远将保持可听的第二较长距离(“最大可听距离”)。在一些实施例中,这两个计算可以包括标识一个或多个环境参数,诸如温度、湿度、风向等,然后使用适当的物理模型来计算话语相对于距离将劣化有多快。在一些实施例中,这两个计算可以包括测量在场所550、650处的环境噪声,估计环境噪声将干扰对话语的内容的理解到什么程度(例如,相似的频率、相似的方向),以及计算说出的内容相对于该环境噪声多远将是听得到的/可理解。
在操作730-738处,AR系统400可以使用两个计算的距离向主用户510显示谁能够和不能够听见和/或理解话语的视觉指示。这可以包括在操作730使用所计算的较长距离来创建第一视觉指示(例如,半透明边界圆柱、添加到地板表面上的圆盘、半球等)以示出所说出的内容多远将保持可听到。一些实施例可以使用所计算的较短距离来创建视觉指示,该视觉指示可以在视觉上指示所说出的内容多远可能保持可理解。在一些实施例中,该第二视觉指示可以是渐变的(例如,在颜色和/或在强度上)以视觉地指示随着音量耗散而随着距离减小的可理解性水平。
在操作732,AR系统400可以提示用户标识接受方和/或指示在接受方530的位置处的话语应该有多响亮。该信息可以用于进一步利用关于所标识的接受方500是否可能已经理解了所说出的内容的预测来增强在预期接受方530上方具有视觉指示(例如,叠加在他们的头部上方的红十字或蓝色格纹)的主用户510的显示。
附加地或替换地,一些实施例可以在操作734处预测预期接受方530。当主用户510在说话时,这些实施例可以分析话语的内容(例如,所使用的名称,以及从语料库导出的其他因素),并且标识主用户的焦点的方向以预测话语的(一个或多个)预期接受方。
AR系统400然后可以在操作736处将在所计算的较长距离内的任何其他人标记为非预期接受方,并且可以用适当的增强(例如,叠加在他们的头部上方的红色感叹号)在视觉上指示那些非预期接受方。另外,一些实施例可以验证哪些其他人正在执行活动并且将显示谁可能被打扰。例如,附近的某人正在进行需要密切关注的活动,并且如果有人叫喊则可能被打扰,一些实施例可以用适当的增强来视觉地指示该情况。
在操作738,AR系统400可以形成和/或接收预期接受方530和/或场所550、650中的其他人520的听力简档,然后使用这些简档来调整所计算的距离。例如,区域550、650中的其他人520之一具有其自己的AR系统400或另一IoT使能设备,则这些设备之一上的传感器可被用于构建接受方的听力简档,例如其他人520和/或预期接受方530。可替换地,如果AR系统400检测到某人正在佩戴助听器或听力保护装置,则AR系统可以相应地增加或减小距离。
在操作740,如果AR系统400确定预期接受方530的当前位置(预测和/或指示)超出了所计算的较短距离,则AR系统400可以确定预期接受方530是否具有其自己的AR系统400或另一兼容的消息传送系统(例如,智能手表)。响应于该确定,在操作742,AR系统400可以自动发起与该设备的电子通信。在一些实施例中,这可以包括自动发起与预期接受方530的电话呼叫,因此主用户510不需要明确的动作。此外,如果AR系统确定电话呼叫在任一端都将太响,或者如果AR系统400确定场所550、650中的环境噪声水平将太高,则AR系统400可以自动向预期接受方的设备发送文本消息。
在操作750,AR系统400可以连续地跟踪场所550、650中的每个人510、520、530的移动,并且相应地确定每个何时进入或离开可听距离之一。基于该确定,在操作752处,一些实施例可以自动地从无辅助通信模式改变到辅助通信模式(例如,电话、SMS),或者从辅助通信模式改变到无辅助通信模式。
在操作760,如果AR系统400确定正在执行主用户510或预期接受方530不能被打扰的某些动作,则这些话语的通信可以被排队等待稍后的时间。这可以包括由AR系统400观察用户动作,并将这些动作传递通过卷积神经网络分类系统等来标识这些动作是什么。另外,被认为是“请勿打扰”并且在可听边界之一内的动作可以通过视觉警告向主用户510指示。
在操作770,一些实施例可以利用各种话语的(一个或多个)接受方是谁以及这些话语的上下文分析的日志来更新历史语料库。
计算机程序产品
本发明可以是任何可能的技术细节集成水平的系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质),所述计算机可读程序指令用于使处理器执行本发明的各方面。
计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置,以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤线缆的光脉冲)、或通过导线传输的电信号。
本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备,或者经由网络,例如因特网、局域网、广域网和/或无线网络,下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据,或者以一种或多种编程语言(包括面向对象的编程语言,例如Smalltalk、C++等)和过程编程语言(例如“C”编程语言或类似的编程语言)的任意组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户的计算机上执行,部分在用户的计算机上执行,作为独立的软件包执行,部分在用户的计算机上并且部分在远程计算机上执行,或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络连接到用户的计算机,包括局域网(LAN)或广域网(WAN),或者可以连接到外部计算机(例如,使用因特网服务提供商通过因特网)。在一些实施例中,为了执行本发明的各方面,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。
在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解,流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。
这些计算机可读程序指令可以被提供给计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中,其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作,使得其中存储有指令的计算机可读存储介质包括制品,该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。
计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。
附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上,流程图或框图中的每个框可以表示指令的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中,框中所注明的功能可不按图中所注明的次序发生。例如,连续示出的两个框实际上可以作为一个步骤来实现,同时、基本同时、以部分或全部时间重叠的方式执行,或者这些框有时可以以相反的顺序执行,这取决于所涉及的功能。还将注意,框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。
总体
在本说明书中使用的任何特定程序术语仅仅是为了方便,因此本发明不应限于仅在由这样的术语标识和/或暗示的任何特定应用中使用。因此,例如,被执行以实现本发明的实施例的例程,无论是作为操作系统的一部分还是特定应用、组件、程序、模块、对象或指令序列来实现,都可以被称为“程序”、“应用”、“服务器”或其他有意义的术语。实际上,在不脱离本发明的范围的情况下,可以使用其它替代硬件和/或软件环境。
因此,希望在此描述的实施例在所有方面都被认为是说明性的而非限制性的,并且参考所附权利要求来确定本发明的范围。

Claims (20)

1.一种用于增强通信的方法,包括:
计算在其内通信能够被听到的声音边界;
在增强现实设备上生成所述声音边界的视觉化;以及
在增强现实设备上呈现所述视觉化。
2.根据权利要求1所述的方法,其中,所述声音边界表示所述通信能够被理解的预测最大距离;并且所述方法还包括基于所述声音边界和预期接受方的位置来确定预期接受方不能理解所述通信。
3.根据权利要求2所述的方法,还包括向所述预期接受方自动地电子传输所述通信。
4.根据权利要求3所述的方法,其中,自动地电子传输所述通信包括通过蜂窝电话网络中继所述通信。
5.根据权利要求3所述的方法,其中,自动地电子传输所述通信包括生成所述通信的转录本并电子传输所述转录本。
6.根据权利要求2所述的方法,还包括从场所中的多个人中预测所述预期接受方。
7.根据权利要求6所述的方法,其中,预测所述预期接受方包括确定用户的注意力的方向。
8.根据权利要求7所述的方法,其中,预测所述预期接受方还包括分析所述通信的内容。
9.根据权利要求1所述的方法,其中,所述声音边界表示所述通信能够被听到的预测最大距离;并且所述方法还包括基于所述声音边界和非预期接受方的位置来确定非预期接受方可能能够听到所述通信。
10.根据权利要求9所述的方法,还包括在所述增强现实设备上生成所述非预期接受方能够听到所述通信的视觉化。
11.根据权利要求1所述的方法,其中,计算所述声音边界包括测量用户的音量水平。
12.根据权利要求11所述的方法,其中,计算所述声音边界还包括测量场所中的环境噪声的水平。
13.根据权利要求12所述的方法,其中,计算所述声音边界包括基于一或多个环境因素计算声音强度耗散率。
14.根据权利要求1所述的方法,其中,生成所述声音边界的所述视觉化包括从用户的视角在位置的视图上叠加图形指示。
15.一种用于增强通信的计算机程序产品,所述计算机程序产品包括程序指令,所述程序指令可由处理器执行以使所述处理器:
计算第一声音边界,所述第一声音边界表示通信能够被理解的预测最大距离;
计算第二声音边界,所述第二声音边界表示所述通信能够被听到的预测最大距离;
从位置中的多个人当中预测预期接受方,其中,所述预测包括:
确定所述通信的方向;以及
分析所述通信的内容;
基于所述第一声音边界和所述预期接受方的位置来确定所述预期接受方不能理解所述通信,并且作为响应:
从用户的视角在场所的视图上叠加指示所述预期接受方不能理解所述通信的图形指示;以及
向所述预期接受方自动地电子传输所述通信;以及
基于第二声音边界和非预期接受方的位置来确定非预期接受方可能能够听到所述通信,并且作为响应,从用户的视角在所述场所的视图上叠加指示所述非预期接受方能够听到所述通信的图形指示;
其中,计算所述第一声音边界和所述第二声音边界包括:
测量通信的音量水平;
测量所述场所中的环境噪声的水平;以及
基于所述场所处的一个或多个环境因素来计算声音衰减率。
16.一种增强现实系统,包括:
可佩戴框架;
处理器,其耦合到所述可佩戴框架,其中所述处理器计算在其内通信能够被听到的声音边界;以及
耦合到所述可佩戴框架的显示器,其中所述显示器将所述声音边界的视觉化叠加到用户的视场上。
17.根据权利要求16所述的系统,还包括定位设备,用于确定所述用户的物理位置和所述视场。
18.根据权利要求16所述的系统,其中:
所述声音边界表示所述通信能够被理解的预测最大距离;以及
所述处理器基于所述声音边界和所述预期接受方的位置来确定预期接受方不能理解通信。
19.根据权利要求18所述的系统,还包括无线通信接口,所述无线通信接口响应于确定所述预期接受方不能理解所述通信,向所述预期接受方自动地电子传输所述通信。
20.根据权利要求18所述的系统,其中:
所述声音边界表示所述通信能够被听到的预测最大距离;
所述处理器基于所述声音边界和非预期接受方的位置来确定所述非预期接受方可能能够听到所述通信;以及
所述显示器还覆盖所述非预期接受方能够听到所述通信的视觉化。
CN202111430888.9A 2020-12-11 2021-11-29 标识语音命令边界 Pending CN114627857A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/118,701 2020-12-11
US17/118,701 US20220191305A1 (en) 2020-12-11 2020-12-11 Identifying a voice command boundary

Publications (1)

Publication Number Publication Date
CN114627857A true CN114627857A (zh) 2022-06-14

Family

ID=79601657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111430888.9A Pending CN114627857A (zh) 2020-12-11 2021-11-29 标识语音命令边界

Country Status (5)

Country Link
US (1) US20220191305A1 (zh)
JP (1) JP2022093303A (zh)
CN (1) CN114627857A (zh)
DE (1) DE102021129310A1 (zh)
GB (1) GB2606044B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11804113B1 (en) * 2020-08-30 2023-10-31 Apple Inc. Visual indication of audibility
CN115294985B (zh) * 2022-10-08 2022-12-09 北京信工博特智能科技有限公司 一种基于对比学习的多分类语音命令识别方法及识别系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7430179B2 (en) * 2003-06-28 2008-09-30 Geopacket Corporation Quality determination for packetized information
US9966075B2 (en) * 2012-09-18 2018-05-08 Qualcomm Incorporated Leveraging head mounted displays to enable person-to-person interactions
US9412375B2 (en) * 2012-11-14 2016-08-09 Qualcomm Incorporated Methods and apparatuses for representing a sound field in a physical space
EP3192058A4 (en) * 2014-09-08 2018-05-02 Simx LLC Augmented reality simulator for professional and educational training
US10789041B2 (en) * 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
JP2017069687A (ja) * 2015-09-29 2017-04-06 ソニー株式会社 情報処理装置及び情報処理方法並びにプログラム
EP3340648B1 (en) * 2016-12-23 2019-11-27 Nxp B.V. Processing audio signals
KR20230105001A (ko) * 2017-03-30 2023-07-11 매직 립, 인코포레이티드 비차단 이중 드라이버 이어폰들
KR102375800B1 (ko) * 2017-04-28 2022-03-17 삼성전자주식회사 음성 인식 서비스를 제공하는 전자 장치 및 그 방법
US10812422B2 (en) * 2017-08-31 2020-10-20 Rpx Corporation Directional augmented reality system
US10091554B1 (en) * 2017-12-06 2018-10-02 Echostar Technologies L.L.C. Apparatus, systems and methods for generating an emotional-based content recommendation list
US20200272699A1 (en) * 2019-02-21 2020-08-27 Qualcomm Incorporated Augmented reality language translation
US11593994B2 (en) * 2020-11-05 2023-02-28 Kyndryl, Inc. Creating working boundaries in a multi-user environment

Also Published As

Publication number Publication date
GB2606044B (en) 2023-08-02
GB202117003D0 (en) 2022-01-12
DE102021129310A1 (de) 2022-06-15
US20220191305A1 (en) 2022-06-16
JP2022093303A (ja) 2022-06-23
GB2606044A (en) 2022-10-26

Similar Documents

Publication Publication Date Title
US10593118B2 (en) Learning opportunity based display generation and presentation
US10726688B2 (en) Facilitating a search of individuals in a building during an emergency event
US11158312B2 (en) Presenting contextually appropriate responses to user queries by a digital assistant device
US11640821B2 (en) Conflict resolution enhancement system
US11361676B2 (en) Augmented reality techniques for simultaneously learning multiple languages
US10970898B2 (en) Virtual-reality based interactive audience simulation
US11158210B2 (en) Cognitive real-time feedback speaking coach on a mobile device
US10949554B2 (en) Content security for midair projection display
CN114627857A (zh) 标识语音命令边界
US10375619B2 (en) Methods and systems for managing mobile devices with reference points
US10674563B2 (en) Cognitive message dynamic response optimization
US10783798B2 (en) Coaching system for guiding interactions
US10922532B2 (en) Interactive seating system and method for interacting with a crowd
US20230079041A1 (en) Combining a virtual reality interface with a smart contact lens user interface
US10929596B2 (en) Pattern based electronic dictionary modification and presentation
US9936062B2 (en) Intelligent mode selection by correlating dynamic state of a device with users situational context
US20180239422A1 (en) Tracking eye movements with a smart device
US11776255B2 (en) Dynamic input system for smart glasses based on user availability states
US11928804B2 (en) Dynamic device configuration
US11830376B2 (en) Providing weather information using sound localization
US11711860B2 (en) Device pairing by cognitive computing
US11490035B1 (en) Dynamic activation of under-display camera
US11461405B2 (en) Technology based commonality detection system
US11017157B2 (en) Group pattern based electronic dictionary modification and presentation
US20230179952A1 (en) Initiating communication on mobile device responsive to event

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination