CN115280273A - 环境协作智能系统和方法 - Google Patents

环境协作智能系统和方法 Download PDF

Info

Publication number
CN115280273A
CN115280273A CN202180020556.5A CN202180020556A CN115280273A CN 115280273 A CN115280273 A CN 115280273A CN 202180020556 A CN202180020556 A CN 202180020556A CN 115280273 A CN115280273 A CN 115280273A
Authority
CN
China
Prior art keywords
aci
audio
dimensional space
meeting
calibration platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180020556.5A
Other languages
English (en)
Inventor
D·夏尔马
P·A·纳伊勒
J·P·品托
D·P·A·巴雷达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Nuance Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuance Communications Inc filed Critical Nuance Communications Inc
Publication of CN115280273A publication Critical patent/CN115280273A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/02Synthesis of acoustic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • H04R29/005Microphone arrays
    • H04R29/006Microphone matching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/40Visual indication of stereophonic sound image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/25Array processing for suppression of unwanted side-lobes in directivity characteristics, e.g. a blocking matrix
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Otolaryngology (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Telephone Function (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • User Interface Of Digital Computer (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)
  • Stereophonic System (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Processing (AREA)

Abstract

一种方法、计算机程序产品和计算系统,用于经由ACI校准平台的视频记录子系统生成三维空间的至少一部分的三维模型,该三维空间包含ACI系统;以及经由ACI校准平台的音频生成子系统生成一个或多个音频校准信号以用于由被包括在ACI系统内的音频记录系统接收。

Description

环境协作智能系统和方法
相关申请
本申请要求于2020年10月22日提交的美国非临时申请号17/077,863的权益,该申请要求于2020年3月11日提交的美国临时申请号62/988,337的权益,其全部内容通过引用并入本文。
技术领域
本公开涉及智能系统和方法,更具体地,涉及环境协作智能系统和方法。
背景技术
如本领域已知的,协作智能是详细描述事件/个体的历史的报告和文档的创建。如所期望的,传统文档包括各种类型的数据,其示例可以包括但不限于纸质文档和抄本,以及各种图像和图表。
随着世界从纸质内容转向数字内容,传统文档也朝着这个方向发展,报告和文档逐渐从地理上分散在多个地点/机构的纸质文件转变为整合且易于访问的数字内容。
发明内容
在一种实现中,一种计算机实现的方法在计算设备上被执行并且包括:经由ACI校准平台的视频记录子系统生成三维空间的至少一部分的三维模型,该三维空间包含ACI系统;以及经由ACI校准平台的音频生成子系统生成一个或多个音频校准信号以用于由被包括在ACI系统内的音频记录系统接收。
以下特征中的一个或多个特征可以被包括。ACI校准平台可以经由ACI校准平台的移动底座组件被自主定位在三维空间内。三维空间的至少一部分可以经由ACI校准平台的清洁组件被自主清洁。ACI校准平台可以被配置为在三维空间内被手动定位。ACI校准平台的视频记录系统可以被配置为与对象数据源接口连接,对象数据源定义可以位于所述三维空间内的多个对象。三维模型可以被配置为定义以下至少一项:三维空间内的一个或多个子空间;三维空间内的一个或多个对象;三维空间内的一个或多个特征;三维空间内的一个或多个交互区;以及三维空间内的一个或多个噪声源。一个或多个音频校准信号可以包括以下一项或多项:噪声信号;正弦信号;以及多频信号。
在另一种实现中,一种计算机程序产品驻留在计算机可读介质上并具有存储在其上的多个指令。该指令在由处理器执行时使处理器执行操作,操作包括:经由ACI校准平台的视频记录子系统生成三维空间的至少一部分的三维模型,该三维空间包含ACI系统;以及经由ACI校准平台的音频生成子系统生成一个或多个音频校准信号以用于由被包括在ACI系统内的音频记录系统接收。
以下特征中的一个或多个特征可以被包括。ACI校准平台可以经由ACI校准平台的移动底座组件被自主定位在三维空间内。三维空间的至少一部分可以经由ACI校准平台的清洁组件被自主清洁。ACI校准平台可以被配置为在三维空间内被手动定位。ACI校准平台的视频记录系统可以被配置为与对象数据源接口连接,对象数据源定义可以位于所述三维空间内的多个对象。三维模型可以被配置为定义以下至少一项:三维空间内的一个或多个子空间;三维空间内的一个或多个对象;三维空间内的一个或多个特征;三维空间内的一个或多个交互区;以及三维空间内的一个或多个噪声源。一个或多个音频校准信号可以包括以下一项或多项:噪声信号;正弦信号;以及多频信号。
在另一种实现中,一种计算系统包括处理器和存储器,其被配置为执行操作,操作包括:经由ACI校准平台的视频记录子系统生成三维空间的至少一部分的三维模型,该三维空间包含ACI系统;以及经由ACI校准平台的音频生成子系统生成一个或多个音频校准信号以用于由被包括在ACI系统内的音频记录系统接收。
以下特征中的一个或多个特征可以被包括。ACI校准平台可以经由ACI校准平台的移动底座组件被自主定位在三维空间内。三维空间的至少一部分可以经由ACI校准平台的清洁组件被自主清洁。ACI校准平台可以被配置在三维空间内被手动定位。ACI校准平台的视频记录系统可以被配置为与对象数据源接口连接,对象数据源定义可以位于所述三维空间内的多个对象。三维模型可以被配置为定义以下至少一项:三维空间内的一个或多个子空间;三维空间内的一个或多个对象;三维空间内的一个或多个特征;三维空间内的一个或多个交互区域;以及三维空间内的一个或多个噪声源。一个或多个音频校准信号可以包括以下一项或多项:噪声信号;正弦信号;以及多频信号。
在附图和以下描述中阐述了一种或多种实现的细节。其他特征和优点将从描述、附图和权利要求中变得明显。
附图说明
图1是环境协作智能计算系统和耦合到分布式计算网络的环境协作智能过程的示意图;
图2是包含图1的环境协作智能计算系统的模块化ACI系统的示意图;
图3是包括在图2的模块化ACI系统内的混合媒体ACI设备的示意图;
图4是图1的环境协作智能过程的一种实现的流程图;
图5是图1的环境协作智能过程的另一种实现的流程图;
图6是图1的环境协作智能过程的另一种实现的流程图;
图7是图1的环境协作智能过程的另一种实现的流程图;
图8是ACI校准平台的示意图;
图9是由图8的ACI校准平台执行的过程的一种实现的流程图;以及
图10是图1的环境协作智能过程的另一种实现的流程图。
各图中相同的附图标记表示相同的元件。
具体实施方式
系统概览
参考图1,示出了环境协作智能过程10。如下面将更详细讨论的,环境协作智能过程10可以被配置为使会面信息的收集和处理自动化以生成/存储/分发报告。
环境协作智能过程10可以被实现为服务器侧过程、客户端侧过程或混合服务器侧/客户端侧过程。例如,环境协作智能过程10可以经由环境协作智能过程10s被实现为纯服务器侧过程。备选地,环境协作智能过程10可以经由以下一项或多项被实现为纯客户端侧过程:环境协作智能过程10c1、环境协作智能过程10c2、环境协作智能过程10c3和环境协作智能过程10c4。还备选地,环境协作智能过程10可以经由环境协作智能过程10s结合以下一项或多项被实现为混合服务器侧/客户端侧过程:环境协作智能过程10c1、环境协作智能过程10c2、环境协作智能过程10c3和环境协作智能过程10c4。
相应地,本公开中所用的环境协作智能过程10可以包括以下各项的任何组合:环境协作智能过程10s、环境协作智能过程10c1、环境协作智能过程10c2、环境协作智能过程10c3和环境协作智能过程10c4。
环境协作智能过程10s可以是服务器应用并且可以驻留在环境协作智能(ACI)计算系统12上并且可以由环境协作智能(ACI)计算系统12执行,环境协作智能(ACI)计算系统12可以被连接到网络14(例如,互联网或局域网)。ACI计算系统12可以包括各种组件,其示例可以包括但不限于:个体计算机、服务器计算机、一系列服务器计算机、小型计算机、大型计算机、一个或多个网络附加存储(NAS)系统、一个或多个存储区域网络(SAN)系统、一个或多个平台即服务(PaaS)系统、一个或多个基础设施即服务(IaaS)系统、一个或多个软件即服务(SaaS)系统、基于云的计算系统和基于云的存储平台。
如本领域所知,SAN可以包括以下一项或多项:个体计算机、服务器计算机、一系列服务器计算机、小型计算机、大型计算机、RAID设备和NAS系统。ACI计算系统12的各种组件可以执行一个或多个操作系统,其示例可以包括但不限于:例如Microsoft WindowsServertm;Redhat Linuxtm、Unix或自定义操作系统。
可以被存储在耦合至ACI计算系统12的存储设备16上的环境协作智能过程10s的指令集和子例程可以由包括在ACI计算系统12内的一个或多个处理器(未示出)和一个或多个存储器架构(未示出)执行。存储设备16的示例可以包括但不限于:硬盘驱动器;RAID设备;随机存取存储器(RAM);只读存储器(ROM);以及各种形式的闪存存储设备。
网络14可以连接到一个或多个辅助网络(例如,网络18),其示例可以包括但不限于:例如局域网;广域网;或内联网。
各种IO请求(例如IO请求20)可以从环境协作智能过程10s、环境协作智能过程10c1、环境协作智能过程10c2、环境协作智能过程10c3和/或环境协作智能过程10c4被发送到ACI计算系统12。IO请求20的示例可以包括但不限于数据写入请求(即,将内容写入ACI计算系统12的请求)和数据读取请求(即,从ACI计算系统12读取内容的请求)。
可以(分别)被存储在(分别)耦合到ACI客户端电子设备28、30、32、34的存储设备20、22、24、26上的环境协作智能过程10c1、环境协作智能过程10c2、环境协作智能过程10c3和/或环境协作智能过程10c4的指令集和子例程可以由(分别)包含ACI客户端电子设备28、30、32、34中的一个或多个处理器(未示出)和一个或多个存储器架构(未示出)执行。存储设备20、22、24、26可以包括但不限于:硬盘驱动器;光驱;RAID设备;随机存取存储器(RAM);只读存储器(ROM)和各种形式的闪存存储设备。ACI客户端电子设备28、30、32、34的示例可以包括但不限于:个人计算设备28(例如,智能电话、个人数字助理、膝上型计算机、笔记本计算机和台式计算机)、音频输入设备30(例如,手持式麦克风、领夹式麦克风、嵌入式麦克风(诸如嵌入在眼镜、智能电话、平板计算机和/或手表中的那些)和音频记录设备)、显示设备32(例如,平板计算机、计算机监视器和智能电视)、机器视觉输入设备34(例如,RGB成像系统、红外成像系统、紫外成像系统、激光成像系统、SONAR成像系统、RADAR成像系统和热成像系统)、混合设备(例如,包括一个或多个上述参考设备的功能性的单个设备;未示出)、音频呈现设备(例如,扬声器系统、耳机系统或耳塞系统;未示出)、各种医疗设备(例如,医疗成像设备、心脏监视机、体重秤、体温计和血压机;未示出)以及专用网络设备(未示出)。
用户36、38、40、42可以直接通过网络14或通过辅助网络18访问ACI计算系统12。另外,ACI计算系统12可以通过辅助网络18连接到网络14,如链路44所示。
各种ACI客户端电子设备(例如,ACI客户端电子设备28、30、32、34)可以直接或间接耦合到网络14(或网络18)。例如,个人计算设备28被示为经由硬连线网络连接直接耦合到网络14。此外,机器视觉输入设备34被示为经由硬连线网络连接直接耦合到网络18。音频输入设备30被示为经由在音频输入设备30和无线接入点(即,WAP)48之间建立的无线通信信道46无线耦合到网络14,无线接入点48被示为直接耦合到网络14。WAP 48例如可以是能够在音频输入设备30和WAP 48之间建立无线通信信道46的IEEE 802.11a、802.11b、802.llg、802.11h、Wi-Fi和/或蓝牙设备。显示器设备32被示为经由在显示器设备32和WAP52之间建立的无线通信信道50无线耦合到网络14,WAP52被示为直接耦合到网络14。
各种ACI客户端电子设备(例如,ACI客户端电子设备28、30、32、34)可以各自执行操作系统,其示例可以包括但不限于Microsoft Windowstm、Apple Macintoshtm、RedhatLinuxtm,或自定义操作系统,其中各种ACI客户端电子设备(例如,ACI客户端电子设备28、30、32、34)和ACI计算系统12的组合可以形成模块化ACI系统54。
环境协作智能系统
虽然环境协作智能过程10将在下文描述为用于自动化临床会面(encounter)信息的收集和处理以生成/存储/分发医疗记录,但是这仅用于说明目的并且其不旨在限制本公开,因为其他配置是可能的并且被认为在本公开的范围内。
还参考图2,示出了模块化ACI系统54的简化示例性实施例,其被配置为自动化协作智能。模块化ACI系统54可以包括:机器视觉系统100,被配置为获得与患者会面有关的机器视觉会面信息102;音频记录系统104,被配置为获得关于患者会面的音频会面信息106;以及计算系统(例如,ACI计算系统12),被配置为(分别)从机器视觉系统100和音频记录系统104接收机器视觉会面信息102和音频会面信息106。模块化ACI系统54还可以包括:显示呈现系统108,被配置为呈现视觉信息110;以及音频呈现系统112,被配置为呈现音频信息114,其中ACI计算系统12可以被配置为(分别)向显示呈现系统108和音频呈现系统112提供视觉信息110和音频信息114。
机器视觉系统100的示例可以包括但不限于:一个或多个ACI客户端电子设备(例如,ACI客户端电子设备34,其示例可以包括但不限于RGB成像系统、红外成像系统、紫外成像系统、激光成像系统、SONAR成像系统、RADAR成像系统和热成像系统)。音频记录系统104的示例可以包括但不限于:一个或多个ACI客户端电子设备(例如,ACI客户端电子设备30,其示例可以包括但不限于手持式麦克风(例如,体戴式麦克风的一个示例)、领夹式麦克风(例如,体戴式麦克风的另一个示例)、嵌入式麦克风,诸如嵌入在眼镜、智能手机、平板计算机和/或手表中的麦克风(例如,体戴式麦克风的另一个示例),以及音频记录设备)。显示呈现系统108的示例可以包括但不限于:一个或多个ACI客户端电子设备(例如,ACI客户端电子设备32,其示例可以包括但不限于平板计算机、计算机监视器和智能电视)。音频呈现系统112的示例可以包括但不限于:一个或多个ACI客户端电子设备(例如,音频呈现设备116,其示例可以包括但不限于扬声器系统、耳机系统和耳塞系统)。
ACI计算系统12可以被配置为访问一个或多个数据源118(例如,多个个体数据源120、122、124、126、128),其示例可以包括但不限于以下一项或多项:用户简档数据源、声纹(voice print)数据源、话音特性数据源(例如,用于适应环境语音识别模型)、面纹(faceprint)数据源、人形形状数据源、话语标识符数据源、可穿戴令牌标识符数据源、交互标识符数据源、医疗条件症状数据源、处方兼容性数据源、医疗保险覆盖数据源、身体事件数据源和家庭医疗保健数据源。尽管在该特定示例中,示出了数据源118的五个不同示例,但这仅用于说明目的并且不旨在限制本公开,因为其他配置是可能的并且被认为在本公开的范围内。
如下文将更详细讨论的,模块化ACI系统54可以被配置为监视临床环境中的受监视空间(例如,受监视空间130),其中该临床环境的示例可以包括但不限于:医生办公室、医疗机构、医疗实践、医学实验室、紧急护理机构、医疗诊所、急诊室、手术室、医院、长期护理机构、康复机构、疗养院和临终关怀机构。相应地,上述患者会面的示例可以包括但不限于患者访问上述临床环境中的一个或多个(例如,医生办公室、医疗机构、医疗实践、医学实验室、紧急护理机构、医疗诊所、急诊室、手术室、医院、长期护理机构、康复机构、疗养院和临终关怀机构)。
当上述临床环境更大或需要更高水平的分辨率时,机器视觉系统100可以包括多个分立的机器视觉系统。如上所述,机器视觉系统100的示例可以包括但不限于:一个或多个ACI客户端电子设备(例如,ACI客户端电子设备34,其示例可以包括但不限于RGB成像系统、红外成像系统、紫外成像系统、激光成像系统、SONAR成像系统、RADAR成像系统和热成像系统)。相应地,机器视觉系统100可以包括RGB成像系统、红外成像系统、紫外成像系统、激光成像系统、SONAR成像系统、RADAR成像系统和热成像系统中的每个中的一个或多个。
当上述临床环境较大或需要更高水平的分辨率时,音频记录系统104可以包括多个分立的音频记录系统。如上所述,音频记录系统104的示例可以包括但不限于:一个或多个ACI客户端电子设备(例如,ACI客户端电子设备30,其示例可以包括但不限于手持式麦克风、领夹式麦克风、嵌入式麦克风(例如嵌入在眼镜、智能手机、平板计算机和/或手表中的麦克风)和音频记录设备)。相应地,机器视觉系统100可以包括手持式麦克风、领夹式麦克风、嵌入式麦克风(例如嵌入在眼镜、智能手机、平板计算机和/或手表中的麦克风)和音频记录设备中的每个中的一个或多个。
当上述临床环境较大或需要更高级别的分辨率时,显示呈现系统108可以包括多个分立的显示呈现系统。如上所述,显示呈现系统108的示例可以包括但不限于:一个或多个ACI客户端电子设备(例如,ACI客户端电子设备32,其示例可以包括但不限于平板计算机、计算机监视器和智能电视)。相应地,显示呈现系统108可以包括平板计算机、计算机监视器和智能电视中的每个中的一个或多个。
当上述临床环境较大或需要更高级别的分辨率时,音频呈现系统112可以包括多个分立的音频呈现系统。如上所述,音频呈现系统112的示例可以包括但不限于:一个或多个ACI客户端电子设备(例如,音频呈现设备116,其示例可以包括但不限于扬声器系统、耳机系统或耳塞系统)。相应地,音频呈现系统112可以包括扬声器系统、耳机系统或耳塞系统中的每个中的一个或多个。
ACI计算系统12可以包括多个分立的计算系统。如上所述,ACI计算系统12可以包括各种组件,其示例可以包括但不限于:个人计算机、服务器计算机、一系列服务器计算机、小型计算机、大型计算机、一个或多个网络附加存储(NAS)系统、一个或多个存储区域网络(SAN)系统、一个或多个平台即服务(PaaS)系统、一个或多个基础设施即服务(IaaS)系统、一个或多个软件即服务(SaaS)系统、基于云的计算系统和基于云的存储平台。相应地,相应地,ACI计算系统12可以包括个体计算机、服务器计算机、一系列服务器计算机、小型计算机、大型计算机、一个或多个网络附加存储(NAS)系统、一个或多个存储区域网络(SAN)系统、一个或多个平台即服务(PaaS)系统、一个或多个基础设施即服务(IaaS)系统、一个或多个软件即服务(SaaS)系统、基于云的计算系统和基于云的存储平台中的每个中的一个或多个。
麦克风阵列
还参考图3,音频记录系统104可以包括具有多个分立的麦克风组件的麦克风阵列200。例如,音频记录系统104可以包括可以形成麦克风阵列200的多个分立的音频获取设备(例如,音频获取设备202、204、206、208、210、212、214、216、218)。如下文将更详细讨论的,模块化ACI系统54可以被配置为经由包括在音频记录系统104内的分立的音频获取设备(例如,音频获取设备202、204、206、208、210、212、214、216、218)形成一个或多个音频记录束(例如,音频记录束220、222、224)。
例如,模块化ACI系统54还可以被配置为引导一个或多个音频记录束(例如,音频记录束220、222、224)朝向上述患者会面的一个或多个会面参与者(例如,会面参与者226、228、230)。会面参与者(例如,会面参与者226、228、230)的示例可以包括但不限于:医疗专业人员(例如,医生、护士、医师助理、实验室技术人员、物理治疗师、书记员(例如转录员)和/或患者会面中涉及的工作人员)、患者(例如,为患者会面而访问上述临床环境的人)和第三方(例如,患者的朋友、患者的亲属和/或患者会面中涉及的患者的熟人)。
相应地,模块化ACI系统54和/或音频记录系统104可以被配置为利用音频获取设备(例如,音频获取设备202、204、206、208、210、212、214、216、218)中的一个或多个音频获取设备来形成音频记录束。例如,模块化ACI系统54和/或音频记录系统104可以被配置为利用各种音频获取设备来形成音频记录束220,从而能够捕获会面参与者226产生的音频(例如,语音)(因为音频记录束220指向(即,被引向)会面参与者226)。附加地,模块化ACI系统54和/或音频记录系统104可以被配置为利用各种音频获取设备来形成音频记录束222,从而能够捕获由会面参与者228产生的音频(例如,语音)(因为音频记录束222指向(即,被引向)会面参与者228)。附加地,模块化ACI系统54和/或音频记录系统104可以被配置为利用各种音频获取设备来形成音频记录束224,从而能够捕获由会面参与者230产生的音频(例如,语音)(因为音频记录束224指向(即,被引向)会面参与者230)。
此外,模块化ACI系统54和/或音频记录系统104可以被配置为利用零控(null-steering)预编码来消除扬声器和/或噪声之间的干扰。如本领域已知的,零控预编码是一种空间信号处理方法,通过该方法多天线发射机可以使无线通信中的多用户干扰信号为零,其中,零控预编码可以减轻背景噪声和未知用户干扰的影响。特别地,零控预编码可以是一种窄带信号波束成形的方法,其可以补偿在天线阵列的不同元件处从特定源接收信号的延迟。通常并且为了提高天线阵列的性能,可以对传入信号进行求和和平均,其中可以对某些信号进行加权并且可以对信号延迟进行补偿。
机器视觉系统100和音频记录系统104可以是独立的设备(如图2所示)。附加地/备选地,机器视觉系统100和音频记录系统104可以组合成一个封装以形成混合媒体ACI设备232。例如,混合媒体ACI设备232可以被配置为安装到上述临床环境(例如,医生办公室、医疗机构、医疗实践、医学实验室、紧急护理机构、医疗诊所、急诊室、手术室、医院、长期护理机构、康复机构、疗养院和临终关怀设施)内的结构(例如,墙壁、天花板、梁、柱),从而允许对其容易的安装。此外,当上述临床环境更大或需要更高水平的分辨率时,模块化ACI系统54可以被配置为包括多个混合媒体ACI设备(例如,混合媒体ACI设备232)。
模块化ACI系统54还可以被配置为:至少部分地基于机器视觉会面信息102,引导一个或多个音频记录束(例如,音频记录束220、222、224)朝向患者会面的一个或多个会面参与者(例如,会面参与者226、228、230)。如上所述,混合媒体ACI设备232(和包括在其中的机器视觉系统100/音频记录系统104)可以被配置为监视患者会面的一个或多个会面参与者(例如,会面参与者226、228、230)。
具体地并且如下文将更详细讨论的,机器视觉系统100(作为独立系统或作为混合媒体ACI设备232的组件)可以被配置为检测上述临床环境(例如,医生办公室、医疗机构、医疗实践、医学实验室、紧急护理机构、医疗诊所、急诊室、手术室、医院、长期护理机构、康复机构、疗养院和临终关怀机构)内的人形形状。并且当机器视觉系统100检测到这些人形形状时,模块化ACI系统54和/或音频记录系统104可以被配置为利用分立的音频获取设备(例如,音频获取设备202、204、206、208、210、212、214、216、218)中的一个或多个音频获取设备来形成被引向检测到的人形形状中的每个人形形状(例如,会面参与者226、228、230)的音频记录束(例如,音频记录束220、222、224)。
如上所述,ACI计算系统12可以被配置为(分别)从机器视觉系统100和音频记录系统104接收机器视觉会面信息102和音频会面信息106;并且可以被配置为(分别)向显示呈现系统108和音频呈现系统112提供视觉信息110和音频信息114。取决于模块化ACI系统54(和/或混合媒体ACI设备232)被配置的方式,ACI计算系统12可以被包括在混合媒体ACI设备232内或者在混合媒体ACI设备232外部。
环境协作智能过程
如上所述,ACI计算系统12可以执行环境协作智能过程10的全部或一部分,其中环境协作智能过程10的指令集和子例程(其可以被存储在例如存储设备16、20、22、24、26中的一个或多个存储设备上)可以由ACI计算系统12和/或ACI客户端电子设备28、30、32、34中的一个或多个ACI客户端电子设备执行。
如上所述,环境协作智能过程10可以被配置为自动化临床会面信息的收集和处理以生成/存储/分发医疗记录。根据图4并且也参考图4,环境协作智能过程10可以被配置为获得300患者会面(例如,访问医生办公室)的会面信息(例如,机器视觉会面信息102和/或音频会面信息106)。环境协作智能过程10还可以被配置为处理302会面信息(例如,机器视觉会面信息102和/或音频会面信息106)以生成会面抄本(例如,会面抄本234),其中环境协作智能过程10然后可以处理304会面记录(例如,会面抄本234)的至少一部分以填充与患者会面(例如,访问医生办公室)相关联的医疗记录(例如,医疗记录236)的至少一部分。会面抄本234和/或医疗记录236可以由患者会面(例如,访问医生办公室)中涉及的医疗专业人员审查,以确定其准确性和/或对其进行纠正。
例如,参与(或分配给)患者会面(例如,访问医生办公室)的书记员可以审查会面抄本234和/或医疗记录236,以确认其准确无误和/或对其进行纠正。在对会面抄本234和/或医疗记录236进行纠正的事件中,环境协作智能过程10可以将这些纠正用于训练/调谐目的(例如,调整与患者会面的参与者相关联的各种简档)以增强环境协作智能过程10的未来准确性/效率/性能。
备选地/附加地,参与患者会面(例如,访问医生办公室)的医生可以审查会面抄本234和/或医疗记录236,以确认其准确无误和/或对其进行纠正。在对会面抄本234和/或医疗记录236进行纠正的事件中,环境协作智能过程10可以将这些纠正用于训练/调谐目的(例如,调整与患者会面的参与者相关联的各种简档)以增强环境协作智能过程10的未来准确性/效率/性能。
例如,假设患者(例如,会面参与者228)访问临床环境(例如,医生办公室),因为他们感觉不舒服。他们有头痛、发烧、发冷、咳嗽和一些呼吸困难。在该特定示例中,临床环境(例如,医生办公室)内的受监视空间(例如,受监视空间130)可以配备有机器视觉系统100和音频记录系统104,机器视觉系统100被配置为获得关于患者会面(例如,会面参与者228访问医生办公室)的机器视觉会面信息102,音频记录系统104被配置为经由一个或多个音频传感器(例如,音频获取设备202、204、206、208、210、212、214、216、218)获得关于患者会面(例如,会面参与者228访问医生办公室)的音频会面信息106。
如上所述,如果临床环境(例如,医生办公室)内的受监视空间(例如,受监视空间130)更大或需要更高水平的分辨率,则机器视觉系统100可以包括多个分立的机器视觉系统,其中机器视觉系统100的示例可以包括但不限于:RGB成像系统、红外成像系统、紫外成像系统、激光成像系统、SONAR成像系统、RADAR成像系统和热成像系统。相应地在某些实例/实施例中,机器视觉系统100可以包括被定位在整个受监视空间130中的RGB成像系统、红外成像系统、紫外成像系统、激光成像系统、SONAR成像系统、RADAR成像系统和热成像系统中的每个中的一项或多项,其中这些系统中的每个系统可以被配置为向ACI计算系统12和/或模块化ACI系统54提供数据(例如,机器视觉会面信息102)。
还如上所述,如果临床环境(例如,医生办公室)内的受监视空间(例如,受监视空间130)更大或需要更高水平的分辨率,则音频记录系统104可以包括多个分立的音频记录系统,其中音频记录系统104的示例可以包括但不限于:手持式麦克风、领夹式麦克风、嵌入式麦克风(例如嵌入在眼镜、智能电话、平板计算机和/或手表中的那些)和音频记录设备。相应地在某些实例/实施例中,音频记录系统104可以包括被定位在整个受监视空间中的手持式麦克风、领夹式麦克风、嵌入式麦克风(例如嵌入在眼镜、智能电话、平板计算机和/或手表中的那些)和音频记录设备中的每个中的一项或多项,其中这些麦克风/设备中的每个麦克风/设备可以被配置为向ACI计算系统12和/或模块化ACI系统54提供数据(例如,音频会面信息106)。
由于机器视觉系统100和音频记录系统104可以被定位在整个受监视空间130中,因此在临床环境(例如,医生办公室)的受监视空间(例如,受监视空间130)内的患者会面(例如,会面参与者228访问医生办公室)期间发生的医疗专业人员(例如,会面参与者226)、患者(例如,会面参与者228)和第三方(例如,会面参与者230)之间的所有交互可以被监视/记录/处理。相应地,受监视空间130内的患者“登记”区域可以被监视以获得在患者会面(例如,会面参与者228访问医生办公室)的该预访问部分期间的会面信息(例如,机器视觉会面信息102和/或音频会面信息106)。此外,受监视空间130内的各个房间可以被监视以获得在患者会面的这些不同部分(例如,在与医生见面时,在获得生命体征和统计数据时,以及在进行成像时)期间的会面信息(例如,机器视觉会面信息102和/或音频会面信息106)。此外,受监视空间130内的患者“签出”区域可以被监视以在患者会面(例如,会面参与者228访问医生办公室)的该访问后部分期间获得会面信息(例如,机器视觉会面信息102和/或音频会面信息106)。附加地并且经由机器视觉会面信息102,视觉语音识别(经由视觉唇读功能性)可以被环境协作智能过程10利用以进一步实行音频会面信息106的收集。
相应地并且当获得300会面信息(例如,机器视觉会面信息102和/或音频会面信息106)时,环境协作智能过程10可以:从医疗专业人员(例如,会面参与者226)获得306会面信息(例如,机器视觉会面信息102和/或音频会面信息106);从患者(例如,会面参与者228)获得308会面信息(例如,机器视觉会面信息102和/或音频会面信息106);和/或从第三方(例如,会面参与者230)获得310会面信息(例如,机器视觉会面信息102和/或音频会面信息106)。此外并且当获得300会面信息(例如,机器视觉会面信息102和/或音频会面信息106)时,环境协作智能过程10可以从先前(相关或不相关)患者会面中获得300会面信息(例如,机器视觉会面信息102和/或音频会面信息106)。例如,如果当前患者会面实际上是患者进行的关于例如呼吸急促的第三次访问,则来自前两次访问(即,前两次患者会面)的会面信息可以是高度相关的并且可以通过环境协作智能过程10获得300。
当环境协作智能过程10获得300会面信息时,环境协作智能过程10可以利用312虚拟助理(例如,虚拟助理238)提示患者(例如,会面参与者228)在患者会面(例如,会面参与者228访问医生办公室)的预访问部分(例如,患者接收部分)期间提供会面信息(例如,机器视觉会面信息102和/或音频会面信息106)的至少一部分。
此外并且当环境协作智能过程10获得300会面信息时,环境协作智能过程10可以利用314虚拟助理(例如,虚拟助理238)提示患者(例如,会面参与者228)在患者会面(例如,会面参与者228访问医生办公室)的访问后部分(例如,患者随访部分)期间提供会面信息(例如,机器视觉会面信息102和/或音频会面信息106)的至少一部分。
自动化抄本生成
环境协作智能过程10可以被配置为处理会面信息(例如,机器视觉会面信息102和/或音频会面信息106)以生成可以被自动格式化和加标点的会面抄本234。
根据图5并且也参考图5,环境协作智能过程10可以被配置为获得300患者会面(例如,访问医生办公室)的会面信息(例如,机器视觉会面信息102和/或音频会面信息106)。
环境协作智能过程10可以处理350会面信息(例如,机器视觉会面信息102和/或音频会面信息106)以:将会面信息(例如,机器视觉会面信息102和/或音频会面信息106)的第一部分与第一会面参与者相关联,并且将会面信息(例如,机器视觉会面信息102和/或音频会面信息106)的至少第二部分与至少第二会面参与者相关联。
如上所述,模块化ACI系统54可以被配置为经由包括在音频记录系统104内的分立的音频获取设备(例如,分立的音频获取设备202、204、206、208、210、212、214、216、218)形成一个或多个音频记录束(例如,音频记录束220、222、224),其中模块化ACI系统54还可以被配置为引导一个或多个音频记录束(例如,音频记录束220、222、224)朝向上述患者会面的一个或多个会面参与者(例如,会面参与者226、228、230)。
相应地并且继续上述示例,模块化ACI系统54可以引导音频记录束220朝向会面参与者226,可以引导音频记录束222朝向会面参与者228,并且可以引导音频记录束224朝向会面参与者230。相应地并且由于音频记录束220、222、224的方向性,音频会面信息106可以包括三个分量,即音频会面信息106A(经由音频记录束220获得)、音频会面信息106B(经由音频记录束222获得)和音频会面信息106C(经由音频记录束220获得)。
此外并且如上所述,ACI计算系统12可以被配置为访问一个或多个数据源118(例如,多个个体数据源120、122、124、126、128),其示例可以包括但不限于以下一项或多项:用户简档数据源、声纹数据源、话音特性数据源(例如,用于调整自动化的语音识别模型)、面纹数据源、人形形状数据源、话语标识符数据源、可穿戴令牌标识符数据源、交互标识符数据源、医疗状况症状数据源、处方兼容性数据源、医疗保险覆盖数据源、物理事件数据源和家庭医疗保健数据源。
相应地,环境协作智能过程10可以处理350会面信息(例如,机器视觉会面信息102和/或音频会面信息106)以:将会面信息(例如,音频会面信息106)的第一部分(例如,会面信息106A)与第一会面参与者(例如,会面参与者226)相关联,并且将会面信息(例如,音频会面信息106)的至少第二部分(例如,会面信息106B、106C)与至少第二会面参与者(例如,分别为会面参与者228、230)相关联。
此外并且当处理350会面信息(例如,音频会面信息106A、106B、106C)时,环境协作智能过程10可以将音频会面信息106A、106B、106C中的每个音频会面信息与上述声纹数据源中定义的声纹相比较,从而会面参与者226、228、230的身份可以(分别)被确定。相应地,如果声纹数据源包括对应于以下一项或多项的声纹:会面参与者226的话音(如在音频会面信息106A中听到的)、会面参与者228的语音(如在音频会面信息106B中听到的)或会面参与者230的话音(如在音频会面信息106C中听到的),则会面参与者226、228、230中的一个或多个的身份可以被定义。并且在音频会面信息106A、音频会面信息106B或音频会面信息106C中的一个或多个中听到的话音是不可标识的事件中,一个或多个特定会面参与者可以被定义为“未知参与者”。
一旦会面参与者226、228、230的话音被处理350,环境协作智能过程10就可以至少部分地基于会面信息的第一部分(例如,音频会面信息106A)和会面信息的至少第二部分(例如,音频会面信息106B、106C)来生成302会面抄本(例如,会面抄本234)。
自动化的角色分配
环境协作智能过程10可以被配置为在患者会面(例如,访问医生办公室)中自动定义会面参与者(例如,会面参与者226、228、230)的角色。
相应地并且也参考图6,环境协作智能过程10可以被配置为获得300患者会面(例如,访问医生办公室)的会面信息(例如,机器视觉会面信息102和/或音频会面信息106)。
然后,环境协作智能过程10可以处理400会面信息(例如,机器视觉会面信息102和/或音频会面信息106),以将会面信息的第一部分与第一会面参与者(例如,会面参与者226)相关联,并且将第一角色分配402给第一会面参与者(例如,会面参与者226)。
当处理400会面信息(例如,机器视觉会面信息102和/或音频会面信息106)以将会面信息的第一部分与第一会面参与者(例如,会面参与者226)相关联时,环境协作智能过程10可以处理404会面信息(例如,机器视觉会面信息102和/或音频会面信息106)以将音频会面信息(例如,音频会面信息106A)的第一部分与第一会面参与者(例如,会面参与者226)相关联。
特别地并且当处理404会面信息(例如,机器视觉会面信息102和/或音频会面信息106)以将音频会面信息(例如,音频会面信息106A)的第一部分与第一会面参与者(例如,会面参与者226)相关联时,环境协作智能过程10可以比较406一个或多个声纹(定义在声纹数据源内)与在音频会面信息的第一部分(例如,音频会面信息106A)内定义的一个或多个话音;并且可以比较408一个或多个话语标识符(在话语数据源内定义)与在音频会面信息的第一部分(例如,音频会面信息106A)内定义的一个或多个话语;其中比较406、408可以允许环境协作智能过程10将第一角色分配402给第一会面参与者(例如,会面参与者226)。例如,如果会面参与者226的身份可以经由声纹定义,则在该定义的身份与角色相关联(例如,针对会面参与者226定义的身份是苏珊〃琼斯医生)的情况下,可以分配402会面参与者226的角色。此外,如果会面参与者226的话语是“我是苏珊〃琼斯医生”,则该话语可以允许分配402会面参与者226的角色。
当处理400会面信息(例如,机器视觉会面信息102和/或音频会面信息106)以将会面信息的第一部分与第一会面参与者(例如,会面参与者226)相关联时,环境协作智能过程10可以处理410会面信息(例如,机器视觉会面信息102和/或音频会面信息106)以将机器视觉会面信息的第一部分(例如,机器视觉会面信息102A)与第一会面参与者(例如,会面参与者226)相关联。
特别地并且当处理404会面信息(例如,机器视觉会面信息102和/或音频会面信息106)以将机器视觉会面信息(例如,机器视觉会面信息102A)的第一部分与第一会面参与者(例如,会面参与者226)相关联时,环境协作智能过程10可以比较412一个或多个面纹(在面纹数据源内定义)与在机器视觉会面信息的第一部分(例如,机器视觉会面信息102A)内定义的一个或多个面部;比较414一个或多个可穿戴令牌标识符(在可穿戴令牌标识符数据源内定义)与在机器视觉会面信息的第一部分(例如,机器视觉会面信息102A)内定义的一个或多个可穿戴令牌;并且比较416一个或多个交互标识符(在交互标识符数据源内定义)与在机器视觉会面信息的第一部分(例如,机器视觉会面信息102A)内定义的一个或多个人形交互;其中比较412、414、416可以允许环境协作智能过程10将第一角色分配402给第一会面参与者(例如,会面参与者226)。例如,如果会面参与者226的身份可以经由面纹来定义,则在该定义的身份与角色相关联(例如,针对会面参与者226定义的身份是苏珊〃琼斯医生)的情况下,可以分配402会面参与者226的角色。此外,如果会面参与者226佩戴的可穿戴令牌可以被标识为分配给苏珊〃琼斯医生的可穿戴令牌,则可以分配402会面参与者226的角色。附加地,如果会面参与者226进行的交互对应于由医生进行的交互类型,则该交互的存在可以允许分配402会面参与者226的角色。
这种可穿戴令牌的示例可以包括但不限于当医疗专业人员在受监视空间130内时(或在他们离开受监视空间130之后)可以由医疗专业人员佩戴的可穿戴设备。例如,这些可穿戴令牌可以由医疗专业人员佩戴,例如,当他们在受监视空间130内的受监视房间之间移动、往返于受监视空间130和/或在受监视空间130之外(例如在家中)时。
附加地,环境协作智能过程10可以处理418会面信息(例如,机器视觉会面信息102和/或音频会面信息106)以将会面信息的至少第二部分与至少第二会面参与者相关联;并且可以将至少第二角色分配420给至少第二会面参与者。
特别地,环境协作智能过程10可以处理418会面信息(例如,机器视觉会面信息102和/或音频会面信息106)以将会面信息的至少第二部分与至少第二会面参与者相关联。例如,环境协作智能过程10可以处理418会面信息(例如,机器视觉会面信息102和/或音频会面信息106)以将音频会面信息106B和机器视觉会面信息102B与会面参与者228相关联,并且可以将音频会面信息106C和机器视觉会面信息102C与会面参与者230相关联。
此外,环境协作智能过程10可以将至少第二角色分配420给至少第二会面参与者。例如,环境协作智能过程10可以将角色分配420给会面参与者228、230。
自动化的移动跟踪
环境协作智能过程10可以被配置为跟踪患者会面期间(例如,访问医生办公室)期间受监视空间(例如,受监视空间130)内人形形状的移动和/或交互,使得例如环境协作智能过程10知道会面参与者(例如,会面参与者226、228、230中的一个或多个会面参与者)何时进入、离开或穿过受监视空间130内的路径。
根据图7并且也参考图7,环境协作智能过程10可以处理450机器视觉会面信息(例如,机器视觉会面信息102)以标识一个或多个人形形状。如上所述,机器视觉系统100的示例(以及具体而言是ACI客户端电子设备34)的示例可以包括但不限于RGB成像系统、红外成像系统、紫外成像系统、激光成像系统、SONAR成像系统、RADAR成像系统、热成像系统中的一种或多种。
当ACI客户端电子设备34包括可见光成像系统(例如RGB成像系统)时,ACI客户端电子设备34可以被配置为通过记录受监视空间130内的各种对象的可见光谱中的运动视频来监视这些各种对象。当ACI客户端电子设备34包括不可见光成像系统(例如,激光成像系统、红外成像系统和/或紫外成像系统)时,ACI客户端电子设备34可以被配置为通过记录受监视空间130内的各种对象的不可见光谱中的运动视频来监视这些各种对象。当ACI客户端电子设备34包括X射线成像系统时,ACI客户端电子设备34可以被配置为通过记录受监视空间130内的各种对象的X射线光谱中的能量来监视这些各种对象。当ACI客户端电子设备34包括SONAR成像系统时,ACI客户端电子设备34可以被配置为通过发射可以从受监视空间130内的各种对象反射的声波来监视这些各种对象。当ACI客户端电子设备34包括RADAR成像系统时,ACI客户端电子设备34可以被配置为通过发射可以从受监视空间130内的各种对象反射的无线电波来监视这些各种对象。当ACI客户端电子设备34包括热成像系统时,ACI客户端电子设备34可以被配置为通过跟踪受监视空间130内的各种对象的热能来监视这些不同对象。
如上所述,ACI计算系统12可以被配置为访问一个或多个数据源118(例如,多个个体数据源120、122、124、126、128),其中,其示例可以包括但不限于以下一项或多项:用户简档数据源、声纹数据源、话音特性数据源(例如,用于调整自动化的语音识别模型)、面纹数据源、人形形状数据源、话语标识符数据源、可穿戴令牌标识符数据源、交互标识符数据源、医疗状况症状数据源、处方兼容性数据源、医疗保险覆盖数据源、物理事件数据源和家庭医疗保健数据源。
相应地并且当处理450机器视觉会面信息(例如,机器视觉会面信息102)以标识一个或多个人形形状时,环境协作智能过程10可以被配置为将一个或多个数据源118内定义的人形形状与机器视觉会面信息(例如,机器视觉会面信息102)内的潜在人形形状相比较。
当处理450机器视觉会面信息(例如,机器视觉会面信息102)以标识一个或多个人形形状时,环境协作智能过程10可以跟踪452一个或多个人形形状在受监视空间(例如,受监视空间130)内的移动。例如并且当跟踪452一个或多个人形形状在受监视空间130内的移动时,环境协作智能过程10可以在新的人形形状进入受监视空间(例如,受监视空间130)时,将新的人形形状添加454到该一个或多个人形形状,和/或可以在已有人形形状离开受监视空间(例如,受监视空间130)时,从该一个或多个人形形状中移除456已有人形形状。
例如,假设实验室技术人员(例如,会面参与者242)临时进入受监视空间130以与会面参与者230聊天。相应地,环境协作智能过程10可以在新的人形形状(即,会面参与者242)进入受监视空间130时,将会面参与者242添加454到被跟踪452的一个或多个人形形状。此外,假设实验室技术人员(例如,会面参与者242)在与会面参与者230聊天后离开受监视空间130。因此,环境协作智能过程10可以在人形形状(即,会面参与者242)离开受监视空间130时,从被跟踪452的一个或多个人形形状中移除456会面参与者242。
此外,当跟踪452一个或多个人形形状在受监视空间130内的移动时,环境协作智能过程10可以监视受监视空间130内的各种人形形状的轨迹。相应地,假设当离开受监视空间130时,会面参与者242走在会面参与者226的前面(或后面)。随着环境协作智能过程10正在监视(在此示例中)会面参与者242(例如,其从左向右移动)和会面参与者226(例如,其是静止的)的轨迹,当会面参与者242从会面参与者226前面(或后面)经过时,这两个人形形状的身份可能不会被环境协作智能过程10混淆。
环境协作智能过程10可以被配置为获得300患者会面(例如,访问医生办公室)的会面信息,其可以包括机器视觉会面信息102(以上述方式)和/或音频会面信息106。
环境协作智能过程10可以引导458一个或多个音频记录束(例如,音频记录束220、222、224)朝向一个或多个人形形状(例如,会面参与者226、228、230)以捕获音频会面信息(例如,音频会面信息106),其中音频会面信息106可以被包括在会面信息(例如,机器视觉会面信息102和/或音频会面信息106)内。
特别地并且如上所述,环境协作智能过程10(经由模块化ACI系统54和/或音频记录系统104)可以利用一个或多个分立的音频获取设备(例如,音频获取设备202、204、206、208、210、212、214、216、218)以形成音频记录束。例如,模块化ACI系统54和/或音频记录系统104可以被配置为利用各种音频获取设备来形成音频记录束220,从而使得能够捕获会面参与者226产生的音频(例如,语音)(因为音频记录束220指向(即,被引向)会面参与者226)。附加地,模块化ACI系统54和/或音频记录系统104可以被配置为利用各种音频获取设备形成音频记录束222,从而使得能够捕获会面参与者228产生的音频(例如,语音)(因为音频记录束222指向(即,被引向)会面参与者228)。附加地,模块化ACI系统54和/或音频记录系统104可以被配置为利用各种音频获取设备形成音频记录束224,从而使得能够捕获由会面参与者230产生的音频(例如,语音)(因为音频记录束224指向(即,被引向)会面参与者230)。
一旦获得,环境协作智能过程10就可以处理302会面信息(例如,机器视觉会面信息102和/或音频会面信息106)以生成会面抄本234,并且可以处理304会面抄本234的至少一部分以填充与患者会面(例如,访问医生办公室)相关联的医疗记录(例如,医疗记录236)的至少一部分。
全自动/半自动扫描:
如上所述并且如图2所示,模块化ACI系统54可以被配置为自动化协作智能,其中模块化ACI系统54可以包括:机器视觉系统100,被配置为获得关于患者会面的机器视觉会面信息102;音频记录系统104,被配置为获得关于患者会面的音频会面信息106;以及计算系统(例如,ACI计算系统12),被配置为(分别)从机器视觉系统100和音频记录系统104接收机器视觉会面信息102和音频会面信息106。
还如上所述,机器视觉系统100可以包括但不限于:一个或多个ACI客户端电子设备(例如,ACI客户端电子设备34,其示例可以包括但不限于RGB成像系统、红外成像系统、紫外成像系统、激光成像系统、SONAR成像系统、RADAR成像系统、热成像系统)。
还如上所述,音频记录系统104可以包括但不限于:一个或多个ACI客户端电子设备(例如,ACI客户端电子设备30,其示例可以包括但不限于手持式麦克风(例如,体戴式麦克风的一个示例)、领夹式麦克风(例如,体戴式麦克风的另一个示例)、嵌入式麦克风,诸如嵌入在眼镜、智能电话、平板计算机和/或手表中的麦克风(例如,体戴式麦克风的另一个示例),以及音频记录设备)。
此外并且如图3所示,机器视觉系统100和音频记录系统104可以组合成一个封装以形成混合媒体ACI设备232。例如,混合媒体ACI设备232可以被配置为安装到上述临床环境(例如,医生办公室、医疗机构、医疗实践、医学实验室、紧急护理机构、医疗诊所、急诊室、手术室、医院、长期护理机构、康复机构、疗养院和临终关怀设施)内的结构(例如,墙壁、天花板、梁、柱),从而允许对其容易的安装。
模块化ACI系统54还可以被配置为至少部分地基于机器视觉会面信息102,来引导一个或多个音频记录束(例如,音频记录束220、222、224)朝向患者会面的一个或多个会面参与者(例如,会面参与者226、228、230)。如上所述,混合媒体ACI设备232(和包括在其中的机器视觉系统100/音频记录系统104)可以被配置为监视患者会面的一个或多个会面参与者(例如,会面参与者226、228、230)。
特别地并且如上所述,机器视觉系统100(作为独立系统或作为混合媒体ACI设备232的组件)可以被配置为检测上述临床环境(例如,医生办公室、医疗机构、医疗实践、医学实验室、紧急护理机构、医疗诊所、急诊室、手术室、医院、长期护理机构、康复机构、疗养院和临终关怀设施)内的人形形状。并且当机器视觉系统100检测到这些人形形状时,模块化ACI系统54和/或音频记录系统104可以被配置为利用分立的音频获取设备(例如,音频获取设备202、204、206、208、210、212、214、216、218)中的一个或多个音频获取设备来形成音频记录束(例如,音频记录束220、222、224),音频记录束被引向每个检测到的人形形状(例如,会面参与者226、228、230)。
相应地,可预见的是,包括在模块化ACI系统54内的这些系统/设备中的一个或多个系统/设备(例如,机器视觉系统100、音频记录系统104、混合媒体ACI设备232、和/或音频获取设备202、204、206、208、210、212、214、216、218)可能需要校准(例如,最初校准和/或随后重新校准)。
还参考图8-图9,包括在模块化ACI系统54内的这些系统/设备中的一个或多个的系统/设备(例如,机器视觉系统100、音频记录系统104、混合媒体ACI设备232、和/或音频获取设备202、204、206、208、210、212、214、216、218)的这种校准可以经由ACI校准平台500来实行。
ACI校准平台500可以包括视频记录子系统502,其被配置为生成550包含ACI系统(例如,模块化ACI系统54)的三维空间(例如,受监视的空间130)的至少一部分的三维模型(例如,三维模型504)。ACI校准平台500(一般地)和视频记录子系统502(具体地)可以包括机器视觉技术(或与之接口连接),其示例可以包括但不限于:RGB成像系统、红外成像系统、紫外成像系统、激光成像系统、SONAR成像系统、RADAR成像系统和热成像系统。
如上所述,受监视空间130的示例可以包括但不限于临床环境(例如,医生办公室、医疗机构、医疗实践、医学实验室、紧急护理机构、医疗诊所、急诊室、手术室、医院、长期护理机构、康复机构、疗养院和临终关怀设施)。
由ACI校准平台500的视频记录子系统502生成的这个三维模型(例如,三维模型504)可以被配置为定义以下一项或多项:
·子空间:三维空间(例如,受监视空间130)内的一个或多个子空间可以在三维模型504内被定义,其中该子空间的示例可以包括但不限于访客等待空间506(其被示出为包括会面参与者230、242)。
·对象:三维空间(例如,受监视空间130)内的一个或多个对象可以在三维模型504内被定义,其中这些对象的示例可以包括但不限于:医师桌508和检查台510。
·特征:三维空间(例如,受监视空间130)内的一个或多个特征可以在三维模型504内被定义,其中该特征的示例可以包括但不限于:窗口512。
·交互区:三维空间(例如,受监视空间130)内的一个或多个交互区可以在三维模型504内被定义,其中该交互区的示例可以包括但不限于:检查区514(即,靠近检查台510的区域)。
·噪声源:三维空间(例如,受监视空间130)内的一个或多个噪声源可以在三维模型504内被定义,其中该噪声源的示例可以包括但不限于:HVAC供应通风口516。
ACI校准平台500可以被无线耦合到一个或多个外部系统(例如,模块化ACI系统54)和/或一个或多个外部资源(例如,数据源120、122、124、126、128中的一个或多个数据源),从而使得能够在ACI校准平台500和这些外部资源和/或数据源之间传输数据。
相应地并且通过这种无线连接性,三维模型504可以从ACI校准平台500被无线传输到模块化ACI系统54以进行处理,这将在下面更详细地讨论。备选地,三维模型504可以经由有线传输方法(例如,USB驱动器;未示出)从ACI校准平台500被传输到模块化ACI系统54以进行处理,这将在下面更详细地讨论。
视频记录系统502可以被配置为与对象数据源(例如,对象数据源518)接口连接,对象数据源可以定义可以位于三维空间(例如,受监视空间130)内的多个对象。例如,对象数据源518可以定义桌子“看起来”像什么,检查台“看起来”像什么,HVAC通风口“看起来”像什么,以及窗户“看起来”像什么。该功能性可以以与面部识别系统用来知道面部“看起来”像什么的方式类似的方式来实现。取决于配置ACI校准平台500的方式,对象数据源518可以是驻留在ACI校准平台500上的本地可访问数据源。备选地,对象数据源518可以是驻留在模块化ACI系统54上的远程可访问的数据源。
相应地并且通过对象数据源518的使用,ACI校准平台500可以产生其中被包括/定义的对象可以是已知类型(例如,医师桌508、检查台510、窗口512、HVAC供应通风口516)的三维模型(例如,三维模型504),这可以经由标记/元数据来完成。
ACI校准平台500可以包括音频生成子系统520,其被配置为生成552一个或多个音频校准信号(例如,音频校准信号522),以用于由包括在ACI系统(例如,模块化ACI系统54)内的音频记录系统(例如,音频记录系统104)接收。ACI校准平台500(一般地)和音频生成子系统520(具体地)可以包括(或与其接口连接)音频呈现技术,其示例可以包括但不限于扬声器组件。
一个或多个音频校准信号(例如,音频校准信号522)可以包括以下一项或多项:
·噪声信号:音频校准信号522的示例可以包括但不限于:白噪声信号。如本领域已知的,白噪声信号是在所有频率处具有相等强度的随机信号,从而赋予它恒定的功率谱密度。该术语在许多科学和技术学科中使用,具有此含义或类似含义,包括物理学、声学工程、电信和统计预测。白噪声是指针对信号和信号源的统计模型,而不是任何特定信号。
·正弦信号:音频校准信号522的示例可以包括但不限于:正弦信号。正弦信号是由描述具有固定频率的平滑周期性振荡的数学函数完全表征的信号。它以函数正弦命名。正弦曲线经常出现在纯数学和应用数学中,以及物理学、工程和信号处理中。
·多频信号:音频校准信号522的示例可以包括但不限于:扫描正弦信号。扫描正弦信号是由数学函数完全表征的信号,该数学函数描述了具有随时间变化的频率的平滑周期性振荡(通常在两个频率之间,例如声学应用中从20Hz到20kHz的对数扫描)。
·脉冲函数:音频校准信号522的示例可以包括但不限于:脉冲函数。脉冲函数是除原点外处处为零的函数,在原点处振幅无限高。
ACI校准平台500可以包括移动底座组件524,其被配置为将ACI校准平台500自主定位554在三维空间(例如,受监视空间130)内。相应地,ACI校准平台500可以被配置为在受监视空间130内以自动化和受控方式移动(例如,以类似于机器人自主真空吸尘器的方式)。例如,ACI校准平台500可以包括上述机器视觉技术以使得ACI校准平台500能够经由使用移动底座组件524导航通过受监视空间130。附加地,ACI校准平台500(一般地)和移动底座组件524(具体地)可以包括多个撞击传感器(例如,撞击传感器526、528)中的一个,其感测与受监视空间130内的各种对象(例如,墙壁、门、家具)的撞击,使得在感测到这种撞击时,ACI校准平台500行进的方向(例如,反向)可以被调整。
ACI校准平台500可以包括清洁组件530,其被配置为自主清洁556三维空间(例如,受监视空间130)的至少一部分。清洁组件530的示例可以包括:
·真空吸尘器组件:例如,清洁组件530可以被配置为对受监视空间130的地板进行真空吸尘。
·拖把组件:例如,清洁组件530可以被配置为对受监视空间130的地板进行拖地。
·消毒组件:例如,清洁组件530可以被配置为经由例如蒸汽产生或紫外线对受监视空间130的地板进行消毒。
虽然ACI校准平台500被描述为能够在受监视空间130内自主移动(经由移动底座组件524),这仅用于说明目的并且不旨在限制本公开,因为其他配置是可能的并且被认为在本公开的范围内。例如,ACI校准平台500可以被配置为在三维空间(例如,受监视空间130)内被手动定位。因此,ACI校准平台500可以被包括在手持式客户端电子设备(诸如智能电话或平板计算机)(或一部分)内。
如本领域已知的,此类客户端电子设备通常包括机器视觉技术(例如可见光相机)和音频呈现技术(诸如一个或多个扬声器组件),其能够生成550、552三维模型504和/或音频校准信号522。在这种实现中,ACI校准平台500可以由用户在受监视空间130内手动操纵(即,移动/定位),其中,用户可以在受监视空间130内移动ACI校准平台500以生成550三维模型504和/或从受监视空间130内的所有适当/所需位置生成552音频校准信号522。
ACI系统校准
如上所述,ACI校准平台500可以被无线耦合到一个或多个外部系统(例如,模块化ACI系统54)和/或一个或多个外部资源(例如,数据源120、122、124、126、128中的一个或多个数据源),从而使得能够在ACI校准平台500和这些外部资源和/或数据源之间传输数据。相应地并且通过这种无线连接性,三维模型504可以从ACI校准平台500被无线传输到模块化ACI系统54以进行处理。备选地,三维模型504可以经由非无线传输方法从ACI校准平台500被传输到模块化ACI系统54以进行处理,诸如经由便携式数据传输设备(例如,USB驱动器;未示出)。
相应地,环境协作智能过程10可以获得600针对包含ACI系统(例如,模块化ACI系统54)的三维空间(例如,受监视空间130)的校准信息(例如,校准信息532)。如上所述,该校准信息可以从ACI校准平台(例如,ACI校准平台500)获得。该校准信息(例如,校准信息532)可以包括三维模型504和一个或多个音频校准信号(例如,音频校准信号522)。
如上所述,ACI校准平台500可以生成针对包含ACI系统(例如,模块化ACI系统54)的受监视空间130的至少一部分的三维模型504,其中三维模型504可以被配置为定义以下一项或多项:
·子空间:三维空间(例如,受监视空间130)内的一个或多个子空间可以在三维模型504内被定义,其中该子空间的示例可以包括但不限于访客等待空间506(其被示出为包括会面参与者230、242)。
·对象:三维空间(例如,受监视空间130)内的一个或多个对象可以在三维模型504内被定义,其中这些对象的示例可以包括但不限于:医师桌508和检查台510。
·特征:三维空间(例如,受监视空间130)内的一个或多个特征可以在三维模型504内被定义,其中该特征的示例可以包括但不限于:窗口512。
·交互区:三维空间(例如,受监视空间130)内的一个或多个交互区可以在三维模型504内被定义,其中该交互区的示例可以包括但不限于:检查区514(即,靠近检查台510的区域)。
·噪声源:三维空间(例如,受监视空间130)内的一个或多个噪声源可以在三维模型504内被定义,其中该噪声源的示例可以包括但不限于:HVAC供应通风口516。
如上所述,这些一个或多个音频校准信号(例如,音频校准信号522)可以包括以下一项或多项:
·噪声信号:音频校准信号522的示例可以包括但不限于:白噪声信号。如本领域已知的,白噪声信号是在所有频率处具有相等强度的随机信号,从而赋予它恒定的功率谱密度。该术语在许多科学和技术学科中使用,具有此含义或类似含义,包括物理学、声学工程、电信和统计预测。白噪声是指针对信号和信号源的统计模型,而不是任何特定信号。
·正弦信号:音频校准信号522的示例可以包括但不限于:正弦信号。正弦信号是由描述具有固定频率的平滑周期性振荡的数学函数完全表征的信号。它以函数正弦命名。正弦曲线经常出现在纯数学和应用数学中,以及物理学、工程和信号处理中。
·多频信号:音频校准信号522的示例可以包括但不限于:扫描正弦信号。扫描正弦信号是由数学函数完全表征的信号,该数学函数描述了具有随时间变化的频率的平滑周期性振荡(通常在两个频率之间,例如声学应用中从20Hz到20kHz的对数扫描)。
·脉冲函数:音频校准信号522的示例可以包括但不限于:脉冲函数。脉冲函数是除原点外处处为零的函数,在原点处振幅无限高。
特别地,三维模型504可以以例如上述方式从ACI校准平台500被无线传输(或经由有线传输)到模块化ACI系统54。附加地,一个或多个音频校准信号(例如,音频校准信号522)可以从ACI校准平台500被声学传输到模块化ACI系统54。例如,音频校准信号522可以经由例如包括在ACI校准平台500内的扬声器组件而被呈现,其中,音频校准信号522可以通过受监视空间130的空气被声学地传输,并且由模块化ACI系统54经由例如音频获取设备202、204、206、208、210、212、214、216、218“听到”。
一旦获得600校准信息(例如校准信息532),环境协作智能过程10就可以处理602该校准信息(例如校准信息532)以(例如,最初或后续地)校准ACI系统(例如,模块化ACI系统54)。
特别地,一个或多个音频校准信号(例如,音频校准信号522)可以全部或部分地被利用来校准三维空间(例如,受监视空间130)内的一个或多个音频获取设备(例如,音频获取设备202、204、206、208、210、212、214、216、218)。
如本领域已知的,音频获取设备(例如,音频获取设备202、204、206、208、210、212、214、216、218)的性能可以随时间变化。自然地,这样的音频获取设备可能完全失效并且根本不再工作(这相对容易检测)。然而,这样的音频获取设备可能不会完全失效,并且可能只会遭受性能漂移,其中较旧音频获取设备检测例如较高频率信号的能力减弱(以类似于人类听力随着年龄增长而下降的方式)。相应地并且通过使用一个或多个音频校准信号(例如,音频校准信号522),音频获取设备(例如,音频获取设备202、204、206、208、210、212、214、216、218)的性能可以被确定/测量和补偿(如果需要)。
如上所述,模块化ACI系统54可以被配置为引导一个或多个音频记录束(例如,音频记录束220、222、224)朝向上述患者会面的一个或多个会面参与者(例如,会面参与者226、228、230),其中模块化ACI系统54可以被配置为利用一个或多个分立的音频获取设备(例如,音频获取设备202、204、206、208、210、212、214、216、218)来形成这些音频记录束(例如,音频记录束220、222、224)。
如上所述,音频校准信号522的示例可以是白噪声信号(例如,在所有频率处具有相等强度的随机信号)。相应地并且当ACI校准平台500在受监视空间130内移动(并连续重新定位)时,ACI校准平台500内的音频生成子系统520可以呈现音频校准信号522,该音频校准信号522(在该示例中)是具有从20Hz到20kHz的相等频谱强度的白噪声信号。进一步假设音频获取设备202、204、206、208、210、212、214、216、218被设计成对100Hz到5kHz范围内的信号具有平坦的频率响应(即,同样敏感)。相应地并且为了测试音频获取设备202、204、206、208、210、212、214、216、218的性能,ACI校准平台500可以移动(或被移动)到受监视空间130内的足够数目的位置以确保声学环境的空间覆盖(例如,通过测量受监视空间130内从典型交互区到各种ACI设备(例如,音频获取设备202、204、206、208、210、212、214、216、218)的若干声学路径)。
由于(在该示例中)音频校准信号522是具有从20Hz到20kHz的相等频谱强度的白噪声信号,因此音频获取设备202、204、206、208、210、212、214、216、218中的每个音频获取设备从100Hz到5kHz的频率响应应当是平坦的(即,具有相同的强度)。在音频获取设备202、204、206、208、210、212、214、216、218之一不产生任何信号的事件中,该特定音频获取设备可能已经发生故障并且可能需要更换。
并且在音频获取设备202、204、206、208、210、212、214、216、218之一执行异常的事件中,该特定音频获取设备可能需要被补偿。例如:
·如果音频获取设备202在lkz处过于敏感并且正在产生比预期为@1kHz的位置高6db的输出信号,则环境协作智能过程10可以将@1kHz处由音频获取设备202提供的输出信号衰减6db的因子。
·如果音频获取设备206在3kz处不敏感并且正在产生比预期为@3kHz的位置低8db的输出信号,则环境协作智能过程10可以被配置为将@3kHz处由音频获取设备206提供的输出信号放大8db的因子。
此外,三维模型(例如,三维模型504)可以全部或部分地被利用来在三维空间(例如,受监视空间130)内引导一个或多个音频记录束(例如,音频记录束220、222、224)。
如上所述并且通过使用对象数据源518,ACI校准平台500可以产生三维模型(例如,三维模型504),其中被包括/定义在其中的对象可以是已知类型的(例如,医生桌508、检查台510、窗口512、HVAC供应通风口516),这可以经由标记/元数据来完成。相应地,环境协作智能过程10可以确定声学传播信道信息,用于例如稳健的自动语音识别、信号增强、音频记录束形成、声学回声消除、零控和盲源分离。该声学路径信息可以与被定义在三维模型504内的空间信息相关联。
如本领域已知的,回声消除是一种用于通过在回声已经存在之后去除回声来改进信号质量的方法。这种方法可以被称为声学回声抑制(AES)和声学回声消除(AEC),并且在电信线路回声消除(LEC)的上下文中更为罕见。在一些情况下,这些术语更精确,因为回声的类型和原因多种多样,具有独特的特性,包括声学回声(来自扬声器的声音被麦克风反射、被耦合到麦克风并被麦克风记录下来,该声音随着时间的推移可能会发生很大变化)和线路回声(由例如发送和接收线路之间的耦合、阻抗不匹配、电反射等引起的电回声信号,其变化远小于声学回声)。相应地并且在该配置下,此类回声消除方法可以被利用来例如剔除第二扬声器的耦合信号,该耦合信号出现在靠近定位的第一扬声器处被引导的音频记录束中;同时还剔除了出现在靠近定位的第二扬声器处被引导的音频记录束中出现的第一扬声器的耦合信号。
如本领域已知的,零控预编码是一种空间信号处理方法,通过该方法,多天线发射机可以使无线通信中的多用户干扰信号为零,其中零控预编码可以减轻背景噪声和未知用户干扰的影响。特别地,零控预编码可以是一种窄带信号波束成形的方法,其可以补偿在天线阵列的不同元件处从特定源接收信号的延迟。通常并且为了提高天线阵列的性能,可以对传入信号进行求和和平均,其中可以对某些信号进行加权并且可以对信号延迟进行补偿。
如本领域已知的,盲源分离是在没有关于源信号或混合过程的信息(或非常少的信息)的帮助下,从混合信号的集合中分离出源信号的集合。由于盲源分离的主要困难是其不完全确定性,因此用于盲源分离的方法通常寻求以不太可能排除期望解的方式缩小可能解的集合。在以主成分分析和独立成分分析为例的一种方法中,人们寻找在概率或信息论意义上最小相关或最大独立的源信号。以非负矩阵分解为例第二种方法,是对源信号施加结构约束。
如上所述,三维模型504可以被配置为定义以下一项或多项:
·子空间:三维空间(例如,受监视空间130)内的一个或多个子空间可以在三维模型504内被定义,其中该子空间的示例可以包括但不限于访客等待空间506(其被示出为包括会面参与者230、242)。
·对象:三维空间(例如,受监视空间130)内的一个或多个对象可以在三维模型504内被定义,其中这些对象的示例可以包括但不限于:医师桌508和检查台510。
·特征:三维空间(例如,受监视空间130)内的一个或多个特征可以在三维模型504内被定义,其中该特征的示例可以包括但不限于:窗口512。
·交互区:三维空间(例如,受监视空间130)内的一个或多个交互区可以在三维模型504内被定义,其中该交互区的示例可以包括但不限于:检查区514(即,靠近检查台510的区域)。
·噪声源:三维空间(例如,受监视空间130)内的一个或多个噪声源可以在三维模型504内被定义,其中该噪声源的示例可以包括但不限于:HVAC供应通风口516。
在三维模型504中定义的特定子空间、对象、特征、交互区和噪声源中的每一个关于音频记录束(例如,音频记录束220、222、224)可以在三维空间(例如,受监视空间130)内被引导的方式,可以具有正面/负面影响。
例如并且关于访客等候空间506(其被示为包括会面参与者230、242),环境协作智能过程10可以不利于引导音频记录束(例如,音频记录束220、222、224)朝向访客等候空间506,因为这是等候区并且从该区域发生的对话中提取实质性信息的可能性较小。
相反地并且关于医师桌508和检查台510,环境协作智能过程10可以有利于引导音频记录束(例如,音频记录束220、222、224)朝向医师桌508和检查台510,因为更有可能可以从这些区域发生的对话中提取实质性信息。
关于窗口512,环境协作智能过程10可以不利于引导音频记录束(例如,音频记录束220、222、224)朝向窗口512,因为这是一个坚硬的表面,并且很可能高水平的反射/回声/噪声可能被包括在利用被引向窗口512的音频记录束捕获的信息中。
相反地并且关于检查区514(即,接近检查台510的区域),环境协作智能过程10可以有利于引导音频记录束(例如,音频记录束220、222、224)朝向检查区514,因为更有可能可以从这些区域发生的对话中提取实质性信息。
从上述校准步骤,在三维空间(例如,受监视空间130)内定位对象的模型可以被定义,其中该模型可以帮助环境协作智能过程10的自然语言理解功能性。例如,如果环境协作智能过程10标识来自与检查床相对应的位置的声音,则该信息对于环境协作智能过程10的自然语言理解功能性可能非常有用,特别是在模块化ACI系统54不包括机器视觉的情况下。
关于HVAC供应通风口516,环境协作智能过程10可以不利于引导音频记录束(例如,音频记录束220、222、224)朝向HVAC供应通风口516,因为这是一个嘈杂的对象,并且更有可能在利用被引向HVAC供应通风口516的音频记录束捕获的信息中可以包括高水平的噪声。
非医疗应用:
如上所述,虽然上文将环境协作智能过程10描述为用于自动化临床会面信息的收集和处理以生成/存储/分发医疗记录,但是这仅用于说明目的,并不旨在限制本公开,因为其他配置是可能的并且被认为在本公开的范围内。相应地,此类会面信息可以包括但不限于以下示例。
·财务信息:
例如,环境协作智能过程10一般地(和/或具体地ACD系统54)可以被配置为自动化在讨论财务信息的会面期间生成的财务数据的收集和处理。这种会面的一个示例可以包括但不限于个人和财务顾问之间的见面。例如,环境协作智能过程10可以被配置为:通过基本实时地基于财务顾问与客户进行的对话来推荐产品、回答问题和提供报价,以及完成各种表格、按揭申请、股票买卖订单、遗产规划文档等,来补充(supplyment)/补充(complement)财务顾问的知识。
益处:当被配置为处理财务信息时,环境协作智能过程10可实现的益处可能是相当可观的。例如,可以理解的是,财务顾问可能并不了解关于财务和投资工具的所有事情。相应地,环境协作智能过程10(当被配置为处理财务信息时)可以监视财务顾问和客户之间的对话。环境协作智能过程10然后可以利用自然语言处理和人工智能来标识对话内的议题(issue)/问题(question)并利用集体知识向财务顾问提供相关信息。
例如,假设客户拜访财务顾问,寻求有关免税/延税退休储蓄的财务建议。相应地并且通过使用上述各种系统(例如,音频输入设备30、显示设备32、机器视觉输入设备34和音频呈现设备116),环境协作智能过程10(当配置为处理财务信息时)可以监视财务顾问和客户之间的对话。假设这是该客户第一次与他的财务顾问见面,则在该最初见面期间获得的信息可以被解析并用于填充客户接收表格的各个字段。例如,客户可以表明自己的身份,他们的姓名可以被录入客户接收表格。附加地,环境协作智能过程10可以被配置为为客户定义声纹和/或面纹,使得例如在将来,当客户想要访问他们的数据时,可以利用这种声纹和/或面纹来认证客户的身份。附加地,当客户表明例如他们的年龄、他们的婚姻状况、他们的配偶的姓名、他们的配偶的年龄,以及他们是否有孩子和(如果有的话)他们的孩子的年龄,所有这些信息都可以用来填充这个客户接收表格。
继续上述示例,假设客户询问免税/延税退休储蓄计划。然后财务顾问可能会问他们去年的收入是多少。由于环境协作智能过程10可能正在经由音频输入设备30监视该对话,因此环境协作智能过程10可以“听到”客户对免税/延税退休储蓄计划感兴趣以及他们的收入水平。相应地并且通过使用上述自然语言处理和人工智能,环境协作智能过程10可以确定客户是否有资格参加401(k)退休计划、税前/税后传统IRA计划和/或税前/税后RothIRA计划。在做出这样的确定后,环境协作智能过程10可以向财务顾问提供补充信息,以便财务顾问可以向客户提供指导。
例如,环境协作智能过程10可以(在显示设备32上)呈现客户有资格参加的免税/延税退休储蓄计划的列表。附加地/备选地,该信息可以以声音的形式呈现(例如,隐蔽地传入财务顾问佩戴的耳塞中),以便财务顾问可以将此类信息提供给客户。
相应地并且通过使用此类系统,环境协作智能过程10(当配置为处理财务信息时)可以监视(在此示例中)财务顾问和客户之间的对话,以例如收集信息并填充客户接收表格,生成用于客户认证的声纹和/或面纹,听取客户提出的询问,并对这些询问做出回应,以便财务顾问可以为客户提供指导。
附加地,环境协作智能过程10可以被配置为监视财务顾问正在向客户提供的建议并确认其准确性,其中,如果财务顾问犯错(例如,告知客户他们有资格参加退休计划,而他们实际上不符合条件),则可以向财务顾问提供隐蔽更正/通知。
此外,环境协作智能过程10可以被配置为即使不寻求指导,也向财务顾问/客户提供此类指导。例如,如果该客户说他们有孩子,环境协作智能过程10就可以提示财务顾问询问他们为孩子制定了哪些大学储蓄计划(例如529s)。如果这些都没有到位,财务顾问就可以被提示解释此类计划的税收优惠。
此外,环境协作智能过程10可以被配置为向财务顾问隐蔽地提供可能有助于在财务顾问和客户之间建立关系的信息。例如,假设客户(在客户和财务顾问的第一次见面期间)解释说他妻子的名字是吉尔并且客户解释说他和他的妻子将在夏天访问意大利。假设客户在秋季返回与财务顾问见面。在第一次访问期间,环境协作智能过程10可以(如上所述)填充将客户配偶标识为吉尔的客户接收表格。此外,环境协作智能过程10可以记下客户和吉尔将在2020年夏天访问意大利。假设这次后续会议是在2020年夏天之后,环境协作智能过程10可以隐蔽地提示财务顾问询问客户他和吉尔是否喜欢意大利,从而使客户和财务顾问之间能够建立商誉。
环境协作智能过程10还可以被配置为基于客户的需要自动填充可能需要的表格。例如,如果客户需要填写有关IRA延期付款的某个税表,则环境协作智能过程10可以被配置为基于财务顾问和客户之间的对话获得必要的信息和/或主动从环境协作智能过程10可访问的数据源获得所需的信息,利用从数据源获得的数据填充执行例如IRA延期付款所需的适当表单,并呈现(例如打印)已填充的表单,以便客户可以实行该延期付款。
环境协作智能过程10还可以被配置为实行数字助理的功能性,其中环境协作智能过程10可以监视(在该示例中)财务顾问和客户之间的对话,以便可以标记所提及的项目以进行后续处理。例如,假设在财务顾问和客户之间的上述对话中,客户表示他们有兴趣为他们的孩子建立529大学储蓄账户,并且他们要求财务顾问向他们提供有关建立该大学储蓄账户的信息。相应地,环境协作智能过程可以录入(例如进入特定于客户的待办事项列表)“向史密斯家族发送529信息”。附加地,如果客户说他们希望在三周内安排后续见面以讨论关于529的问题,环境协作智能过程10可以在财务顾问的日历内安排见面以进行此类讨论。
·法律信息:
例如,环境协作智能过程10一般地(和/或具体地ACD系统54)可以被配置为自动化在讨论法律信息的会面期间生成的法律数据的收集和处理。这种会面的示例可以包括但不限于法律专业人士和他们所代表的人之间的见面。例如,环境协作智能过程10可以被配置为:通过基本实时地基于法律专业人士与客户进行的对话来推荐策略、回答问题和提供建议,以及完成听证/证词笔录、手令、法院命令/判决、上述和其他项目的各种申请等,来补充/补充法律专业人士的知识。
益处:当被配置为处理法律信息时,环境协作智能过程10可实现的益处可能是相当可观的。例如,可以理解的是,法律专业人士可能并不了解关于例如各种法律情况、事件和程序的所有事情。相应地,环境协作智能过程10(当被配置为处理法律信息时)可以监视法律专业人士和客户之间的对话。环境协作智能过程10然后可以利用自然语言处理和人工智能来标识对话内的议题/问题并利用集体知识向法律专业人士提供相关信息。
例如,假设在诉讼中的被告(由第一组律师代表)被诉讼中的原告(由第二组律师代表)提出问题时,正在发生证词。相应地,通过使用上述各种系统(例如,音频输入设备30、显示设备32、机器视觉输入设备34和音频呈现设备116),环境协作智能过程10(当被配置为处理法律信息时)可以监视被告/第一组律师与原告/第二组律师之间的对话。在这种情况下,环境协作智能过程10(当被配置为处理法律信息时)可以被配置为实行法庭转录员的功能性。
例如,证词的参与者可以被要求表明自己的身份(例如提供姓名和头衔)。环境协作智能过程10可以使用该信息来填充关于证词的出席日志,并且可以被配置为为证词的每个出席者定义声纹和/或面纹。
相应地,一旦证词真正开始,环境协作智能过程10就可以监视证词,并且可以(经由上述声纹/面纹)将其记录下来,基本上复制了法庭转录员的功能性。基本上,环境协作智能过程10可以生成读起来像电影剧本的证词过程日记,其中例如每个口头陈述都被转录,并且该口头陈述的说话者被标识(经由声纹/面纹)。
附加地并且通过使用上述自然语言处理和人工智能,可以高效地实行传统的法律任务。例如,假设(在证词期间)提出了反对意见,并且引用了一条判例法作为反对意见的基础。如果非反对律师认为该判例法不再有效(例如,由于它被上级法院推翻),则非反对律师可以询问环境协作智能过程10(当被配置为处理法律信息时)以确定所依赖的该条判例法的状态(即,该条判例法是否仍然有效或已被推翻)。环境协作智能过程然后可以向非反对律师提供答复(例如,该案仍然有效或该案于2016年被第一巡回上诉法院推翻,并于2017年得到美国最高法院的确认)。
·电信信息:
例如,环境协作智能过程10一般地(和/或具体地ACD系统54)可以被配置为自动化在呼叫者和销售/服务代表之间的会面期间生成的电信数据的收集和处理。这种会面的示例可以包括但不限于销售/服务代表与有线电视服务有问题的客户之间的电话和/或聊天会话。例如,环境协作智能过程10可以被配置为:通过基本实时地基于服务代表与客户进行的对话来推荐计划/产品、故障排除程序、回答问题和提供建议,来补充/补充服务代表的知识。
益处:当被配置为处理电信信息时,环境协作智能过程10可实现的益处可能是相当可观的。例如并且可理解的是,销售/服务代表可能并不了解关于例如各种服务计划、可用产品、故障排除程序和保修范围的所有事情。相应地,环境协作智能过程10(当被配置为处理电信信息时)可以监视服务代表和呼叫者之间的对话(例如,话音或文本)。环境协作智能过程10然后可以利用自然语言处理和人工智能来标识对话中的议题/问题,并利用集体知识向电信销售人员提供相关信息。
例如,假设有线电视服务的用户很难调谐到其有线电视频道列表中的付费频道之一。相应地,该用户可以给他们的有线电视服务打电话(或发送消息)并与客户服务代表聊天。环境协作智能过程10(当配置为处理电信信息时)可以例如利用呼叫者ID、IP地址和/或声纹来标识呼叫者并获得有关其帐户、位置、设备、服务计划等的信息。
对于此示例,假设呼叫者向服务代表解释他们无法将其有线电视盒调谐到所需频道。环境协作智能过程10可以例如首先确认他们当前的服务计划包括呼叫者试图访问的频道。在服务计划不包括这样的频道的情况下,环境协作智能过程10可以通知服务代表(例如,经由服务代表可访问的显示器上可见的基于文本的消息或者经由耳塞)该频道不包括在他们的服务计划中。环境协作智能过程10然后可以向服务代表提供关于哪些服务计划包括呼叫者询问的频道的信息,以查看例如他们是否想要将他们的计划升级/改变为包括所讨论频道的计划。
如果该频道确实包含在呼叫者的当前服务计划中,则环境协作智能过程10可以开始向服务代表提供有关可以用于标识问题的故障排除程序的提示。例如,环境协作智能过程10(经由例如显示器或耳塞)可以向服务代表提供呼叫者可以执行的一系列步骤,以便(希望)纠正这种情况。例如,服务代表可以指示呼叫者先从电源插座上拔下有线电视盒,让它静置30秒,然后再将其插入,以便它可以重新启动。如果该过程不能解决问题,则由环境协作智能过程10提供的列表可以指示服务代表向所讨论的有线电视盒发送重置信号。如果此过程不能解决问题,则环境协作智能过程10可以确定需要新的有线电视盒,并且可以协助服务代表安排服务呼叫,以便服务技术人员可以更换有故障的有线电视盒。
·零售信息:
例如,环境协作智能过程10一般地(和/或具体地ACD系统54)可以被配置为自动化在讨论零售信息的会面期间生成的零售数据的收集和处理。这种会面的示例可以包括但不限于百货公司的售货员与有兴趣购买特定产品的人之间的见面。例如,环境协作智能过程10可以被配置为:通过基本实时地基于销售员与客户进行的对话来推荐产品、回答问题和提供建议,以及启用签出、完成工作订单表格、财务/销售协议、产品订单表格、保修表格等,来补充/补充销售员的知识。
益处:当被配置为处理零售信息时,环境协作智能过程10可实现的益处可能是相当可观的。例如,可以理解的是,售货员可能并不了解关于例如所提供产品的种类和位置的所有事情。相应地,环境协作智能过程10(当被配置为处理零售信息时)可以监视售货员和客户之间的对话。环境协作智能过程10然后可以利用自然语言处理和人工智能来标识对话中的议题/问题,并利用集体知识向售货员提供相关信息。
例如,假设客户去当地的百货公司,他们正在寻找几件物品,包括电钻。所以这个客户走近一个售货员,问他们是否销售电钻,如果有,电钻在哪里。环境协作智能过程10(当被配置为处理零售信息时)可以监视此对话并通过使用上述自然语言处理和人工智能来标识需要解决的议题。例如,环境协作智能过程10可以标识客户声明中的“电钻”一词,并可以检查百货公司的库存记录以及确定该百货公司确实销售电钻。此外,环境协作智能过程10可以确定客户正在询问这些电钻的位置,并且在检查百货商店的产品库存图表后,可以确定电钻在硬件部分(通道23,托架16-20)。
附加地,环境协作智能过程10可以被配置为解决客户可能具有的附加问题,例如“哪些电钻的花费低于30美元?”、“哪种电钻的保修期最长?”、“您有哪些DeWalt电钻?”和“您有用于钻入水泥的钻头吗?”。当提供关于客户提出的这些问题的答案时,环境协作智能过程10可以公开地将信息提供到显示屏(例如手持式电子设备)上,以便客户可以查看该信息。备选地,环境协作智能过程10可以在耳塞中隐蔽地提供信息,以便售货员可以口头向客户提供信息。
此外,假设一个家庭去当地的无线运营商商店询问手机和手机计划。相应地,通过使用上述各种系统(例如,音频输入设备30、显示设备32、机器视觉输入设备34和音频呈现设备116),环境协作智能过程10(当被配置为处理零售信息时)可以监视家庭和售货员之间的对话,并通过使用上述自然语言处理和人工智能提供有关此类对话的指导和见解。例如,假设家庭询问售货员是否有最新款iPhone的任何销售/促销活动。如果是这样,环境协作智能过程10(当被配置为处理零售信息时)可以经由例如耳塞组件隐蔽地向售货员提供销售/促销列表,或者可以经由例如客户端电子设备(例如,智能电话、平板计算机、笔记本计算机或显示器)向售货员公开地提供销售/促销列表。
附加地,假设家庭询问在进行广泛的国际旅行时购买的最佳电话和/或最佳数据计划是什么。相应地,环境协作智能过程10(当被配置为处理零售信息时)可以例如在客户端电子设备(例如,智能电话、平板计算机、笔记本计算机或显示器)上呈现适用电话/数据计划的列表,以便销售员可以查看此类选项。此外,如果环境协作智能过程10确定家庭中的一个或多个成员对与世界各国的蜂窝网络不兼容的蜂窝电话感兴趣,则环境协作智能过程10可以提示售货员询问该家庭成员是否前往例如A、B或C国旅行。
附加地,由于环境协作智能过程10可能正在监视家庭和售货员之间的对话,环境协作智能过程10可以确定他们有兴趣购买的蜂窝电话的数量。环境协作智能过程10然后可以查看蜂窝电话制造商提供的各种促销计划,以及任何可用的数据计划选项,以便环境协作智能过程10可以提出对家庭最有利的电话和数据计划。
附加地,环境协作智能过程10可以监视家庭与售货员之间的对话,以标识和/或纠正售货员可能无意中犯下的任何错误或误陈述。例如,如果用户说他们经常去X国旅行,并且他们正在购买蜂窝电话Y(在X国无法使用),则环境协作智能过程10可以隐蔽地通知(例如经由耳塞)销售员移动电话Y将无法在X国正常运作。
一般情况:
如本领域技术人员将理解的,本公开可以体现为方法、系统或计算机程序产品。相应地,本公开可以采取完全硬件实施例、完全软件实施例(包括固件、常驻软件、微代码等)或结合软件和硬件方面的实施例的形式,这些实施例在本文中统称为“电路”、“模块”或“系统”。此外,本公开可以采用计算机可用存储介质上的计算机程序产品的形式,该介质具有包含在该介质中的计算机可用程序代码。
可以使用任何合适的计算机可用或计算机可读介质。计算机可用或计算机可读介质可以是例如但不限于电子、磁、光、电磁、红外或半导体系统、装置、设备或传播介质。计算机可读介质的更具体示例(非详尽列表)可以包括以下内容:具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光存储设备、传输介质(诸如支持互联网或内联网的传输介质)或磁存储设备。计算机可用或计算机可读介质也可以是打印了程序的纸或其他合适的介质,因为程序可以经由例如对纸或其他介质的光学扫描以电子方式捕获,然后编译、解译,或在必要时以合适的方式处理,然后存储在计算机存储器中。在该文档的上下文中,计算机可用或计算机可读介质可以是可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备使用或与其结合使用的任何介质。计算机可用介质可以包括在基带中或作为载波的一部分的传播数据信号,其中包含计算机可用程序代码。计算机可用程序代码可以使用任何适当的介质传输,包括但不限于互联网、有线、光缆、RF等。
用于执行本公开的操作的计算机程序代码可以用诸如Java、Smalltalk、C++等的面向对象的编程语言来编写。然而,用于执行本公开的操作的计算机程序代码也可以用传统的过程编程语言编写,诸如“C”编程语言或类似的编程语言。程序代码可以完全在用户计算机上、部分在用户计算机上、作为独立软件包、部分在用户计算机上和部分在远程计算机、或完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过局域网/广域网/互联网(例如网络14)连接到用户的计算机。
参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图来描述本公开。应当理解,流程图和/或框图的每个框,以及流程图和/或框图中的框的组合,可以通过计算机程序指令来实现。这些计算机程序指令可以被提供给通用计算机/专用计算机/其他可编程数据处理装置的处理器,使得经由计算机的处理器或其他可编程数据处理设备执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。
这些计算机程序指令也可以被存储在计算机可读存储器中,该存储器可以指引计算机或其他可编程数据处理装置以特定方式运行,使得存储在计算机可读存储器中的指令产生包括指令装置的制品,该指令装置实现流程图和/或框图的一个或多个框中指定的功能/动作。
计算机程序指令也可以加载到计算机或其他可编程数据处理设备上,以使一系列操作步骤在计算机或其他可编程设备上执行,从而产生计算机实现的过程,使得在计算机或其他可编程设备上执行的指令提供用于实现流程图和/或框图的一个或多个框中指定的功能/动作的步骤。
图中的流程图和框图可以说明根据本公开的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这方面,流程图或框图中的每个框可以表示一个模块、段或代码的一部分,其包括用于实现(多个)指定逻辑功能的一个或多个可执行指令。还应注意,在一些备选实现中,框中标注的功能可能不按图中标注的顺序出现。例如,实际上,连续显示的两个框可以基本上同时执行,或者有时可以以相反的顺序执行这些框,这取决于所涉及的功能。还应注意,框图和/或流程图说明的每个框,以及框图和/或流程图说明中的框的组合,可以由执行指定功能或动作的基于硬件的专用系统或专用硬件和计算机指令的组合实现。
本文使用的术语仅出于描述特定实施例的目的,并不旨在限制本公开。如本文所用,单数形式“一”、“一个”和“该”也旨在包括复数形式,除非上下文另有明确说明。将进一步理解,当在本说明书中使用时,术语“包括”和/或“包含”指定了所述特征、整数、步骤、操作、元件和/或组件的存在,但不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、组件和/或它们的组。
以下权利要求中的所有装置或步骤加上功能元件的相应结构、材料、动作和等效物旨在包括用于与如具体要求保护的其他要求保护的元件组合来执行功能的任何结构、材料或动作。本公开的描述已经出于说明和描述的目的而呈现,但不旨在穷举或限制于所公开形式的公开。在不脱离本公开的范围和精神的情况下,许多修改和变型对于本领域普通技术人员将是明显的。选择和描述实施例是为了最好地解释本公开的原理和实际应用,并且使本领域的其他普通技术人员能够理解具有适合于预期的特定用途的各种修改的各种实施例的公开。
已经描述了许多实现。已经如此详细地描述了本申请的公开并且通过参考其实施例,显然可以在不脱离所附权利要求中限定的本公开的范围的情况下进行修改和变型。

Claims (21)

1.一种在计算机设备上执行的计算机实现的方法,所述方法包括:
经由ACI校准平台的视频记录子系统生成三维空间的至少一部分的三维模型,所述三维空间包含ACI系统;以及
经由所述ACI校准平台的音频生成子系统生成一个或多个音频校准信号以用于由被包括在所述ACI系统内的音频记录系统接收。
2.根据权利要求1所述的计算机实现的方法,还包括:
经由所述ACI校准平台的移动底座组件在所述三维空间内自主定位所述ACI校准平台。
3.根据权利要求2所述的计算机实现的方法,还包括:
经由所述ACI校准平台的清洁组件自主清洁所述三维空间的至少一部分。
4.根据权利要求1所述的计算机实现的方法,其中所述ACI校准平台被配置为在所述三维空间内被手动定位。
5.根据权利要求1所述的计算机实现的方法,其中所述ACI校准平台的所述视频记录系统被配置为与对象数据源接口连接,所述对象数据源定义能够位于所述三维空间内的多个对象。
6.根据权利要求1所述的计算机实现的方法,其中所述三维模型被配置为定义以下至少一项:
所述三维空间内的一个或多个子空间;
所述三维空间内的一个或多个对象;
所述三维空间内的一个或多个特征;
所述三维空间内的一个或多个交互区;以及
所述三维空间内的一个或多个噪声源。
7.根据权利要求1所述的计算机实现的方法,其中所述一个或多个音频校准信号包括以下一项或多项:
噪声信号;
正弦信号;以及
多频信号。
8.一种计算机程序产品,所述计算机程序产品驻留在其上存储有多个指令的计算机可读介质上,所述多个指令在由处理器执行时使所述处理器执行操作,所述操作包括:
经由ACI校准平台的视频记录子系统生成三维空间的至少一部分的三维模型,所述三维空间包含ACI系统;以及
经由所述ACI校准平台的音频生成子系统生成一个或多个音频校准信号以用于由被包括在所述ACI系统内的音频记录系统接收。
9.根据权利要求8所述的计算机程序产品,还包括:
经由所述ACI校准平台的移动底座组件在所述三维空间内自主定位所述ACI校准平台。
10.根据权利要求9所述的计算机程序产品,还包括:
经由所述ACI校准平台的清洁组件自主清洁所述三维空间的至少一部分。
11.根据权利要求8所述的计算机程序产品,其中所述ACI校准平台被配置为在所述三维空间内被手动定位。
12.根据权利要求8所述的计算机程序产品,其中所述ACI校准平台的所述视频记录系统被配置为与对象数据源接口连接,所述对象数据源定义能够位于所述三维空间内的多个对象。
13.根据权利要求8所述的计算机程序产品,其中所述三维模型被配置为定义以下至少一项:
所述三维空间内的一个或多个子空间;
所述三维空间内的一个或多个对象;
所述三维空间内的一个或多个特征;
所述三维空间内的一个或多个交互区;以及
所述三维空间内的一个或多个噪声源。
14.根据权利要求8所述的计算机程序产品,其中所述一个或多个音频校准信号包括以下一项或多项:
噪声信号;
正弦信号;以及
多频信号。
15.一种ACI校准平台,包括:
视频记录子系统,被配置为生成三维空间的至少一部分的三维模型,所述三维空间包含ACI系统;以及
音频生成子系统,被配置为生成一个或多个音频校准信号以用于由被包括在所述ACI系统内的音频记录系统接收。
16.根据权利要求15所述的ACI校准平台,还包括:
移动底座组件,被配置为在所述三维空间内自主定位所述ACI校准平台。
17.根据权利要求16所述的ACI校准平台,还包括:
清洁组件,被配置为自主清洁所述三维空间的至少一部分。
18.根据权利要求15所述的ACI校准平台,其中所述ACI校准平台被配置为在所述三维空间内被手动定位。
19.根据权利要求15所述的ACI校准平台,其中所述视频记录系统被配置为与对象数据源接口连接,所述对象数据源定义能够位于所述三维空间内的多个对象。
20.根据权利要求15所述的ACI校准平台,其中所述三维模型被配置为定义以下至少一项:
所述三维空间内的一个或多个子空间;
所述三维空间内的一个或多个对象;
所述三维空间内的一个或多个特征;
所述三维空间内的一个或多个交互区;以及
所述三维空间内的一个或多个噪声源。
21.根据权利要求15所述的ACI校准平台,其中所述一个或多个音频校准信号包括以下一项或多项:
噪声信号;
正弦信号;以及
多频信号。
CN202180020556.5A 2020-03-11 2021-03-11 环境协作智能系统和方法 Pending CN115280273A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202062988337P 2020-03-11 2020-03-11
US62/988,337 2020-03-11
US17/077,863 2020-10-22
US17/077,863 US11398216B2 (en) 2020-03-11 2020-10-22 Ambient cooperative intelligence system and method
PCT/US2021/021965 WO2021183801A1 (en) 2020-03-11 2021-03-11 Ambient cooperative intelligence system and method

Publications (1)

Publication Number Publication Date
CN115280273A true CN115280273A (zh) 2022-11-01

Family

ID=77665175

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202180020629.0A Pending CN115280274A (zh) 2020-03-11 2021-03-11 环境协作智能系统和方法
CN202180020556.5A Pending CN115280273A (zh) 2020-03-11 2021-03-11 环境协作智能系统和方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202180020629.0A Pending CN115280274A (zh) 2020-03-11 2021-03-11 环境协作智能系统和方法

Country Status (4)

Country Link
US (10) US11398216B2 (zh)
EP (3) EP4118643A4 (zh)
CN (2) CN115280274A (zh)
WO (8) WO2021183668A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11398216B2 (en) 2020-03-11 2022-07-26 Nuance Communication, Inc. Ambient cooperative intelligence system and method
US11790880B2 (en) * 2021-10-27 2023-10-17 Zoom Video Communications, Inc. Joint audio de-noise and de-reverberation for videoconferencing
US12119008B2 (en) * 2022-03-18 2024-10-15 International Business Machines Corporation End-to-end integration of dialog history for spoken language understanding
WO2024006778A1 (en) * 2022-06-30 2024-01-04 Dolby Laboratories Licensing Corporation Audio de-reverberation
US20240144101A1 (en) * 2022-11-01 2024-05-02 Kabushiki Kaisha Yaskawa Denki Generation system, computer-readable storage medium, and method for generating waveform evaluation model
CN117727298B (zh) * 2024-02-09 2024-04-19 广州紫麦科技有限公司 基于深度学习的手提电脑语音识别方法及系统

Family Cites Families (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3983482A (en) 1951-11-14 1976-09-28 Bell Telephone Laboratories, Incorporated Delayed pulse transmission systems
US6836761B1 (en) 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
US6505153B1 (en) 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions
JP2001344905A (ja) 2000-05-26 2001-12-14 Fujitsu Ltd データ再生装置、その方法及び記録媒体
DE60111329T2 (de) 2000-11-14 2006-03-16 International Business Machines Corp. Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
US20020087306A1 (en) 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented noise normalization method and system
JP2009505268A (ja) 2005-08-15 2009-02-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ エンドユーザプログラミングのための拡張現実感眼鏡のためのシステム、装置及び方法
US7747274B2 (en) 2006-09-29 2010-06-29 University Of Pittsburgh - Of The Commonwealth System Of Higher Education Method and system for securely communicating information using multiple RF carriers
US8036899B2 (en) 2006-10-20 2011-10-11 Tal Sobol-Shikler Speech affect editing systems
KR100908121B1 (ko) * 2006-12-15 2009-07-16 삼성전자주식회사 음성 특징 벡터 변환 방법 및 장치
US8781762B2 (en) 2008-07-14 2014-07-15 Exxonmobil Upstream Research Company Systems and methods for determining geologic properties using acoustic analysis
EP2306449B1 (en) 2009-08-26 2012-12-19 Oticon A/S A method of correcting errors in binary masks representing speech
US8856636B1 (en) * 2009-09-22 2014-10-07 Adobe Systems Incorporated Methods and systems for trimming video footage
US8780978B2 (en) * 2009-11-04 2014-07-15 Qualcomm Incorporated Controlling video encoding using audio information
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US8761410B1 (en) * 2010-08-12 2014-06-24 Audience, Inc. Systems and methods for multi-channel dereverberation
US20160187654A1 (en) 2011-02-28 2016-06-30 Microsoft Technology Licensing, Llc See-through near-eye display glasses with a light transmissive wedge shaped illumination system
US8630860B1 (en) 2011-03-03 2014-01-14 Nuance Communications, Inc. Speaker and call characteristic sensitive open voice search
US8774361B2 (en) 2011-06-09 2014-07-08 Siemens Medical Solutions Usa, Inc. System for identifying radiation zones in X-ray imaging
DK2568695T3 (en) 2011-07-08 2016-11-21 Goertek Inc Method and device for suppressing residual echo
US20130211826A1 (en) 2011-08-22 2013-08-15 Claes-Fredrik Urban Mannby Audio Signals as Buffered Streams of Audio Signals and Metadata
US9240215B2 (en) 2011-09-20 2016-01-19 Apple Inc. Editing operations facilitated by metadata
US10453479B2 (en) 2011-09-23 2019-10-22 Lessac Technologies, Inc. Methods for aligning expressive speech utterances with text and systems therefor
US9389677B2 (en) * 2011-10-24 2016-07-12 Kenleigh C. Hobby Smart helmet
EP2858068A4 (en) 2012-05-31 2016-02-24 Toyota Motor Co Ltd SOUND SOUND DETECTION DEVICE, NOISE GENERATION EQUIPMENT, NOISE REDUCTION APPARATUS, APPARATUS FOR ESTIMATING SOUND SOURCE DEVICE, DEVICE FOR RECOGNIZING A DEACTIVATIVE VEHICLE, AND NOISE REDUCTION METHOD
US20160240210A1 (en) 2012-07-22 2016-08-18 Xia Lou Speech Enhancement to Improve Speech Intelligibility and Automatic Speech Recognition
US9202464B1 (en) 2012-10-18 2015-12-01 Google Inc. Curriculum learning for speech recognition
US9805725B2 (en) 2012-12-21 2017-10-31 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
US9559651B2 (en) 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
US9426300B2 (en) 2013-09-27 2016-08-23 Dolby Laboratories Licensing Corporation Matching reverberation in teleconferencing environments
US9413891B2 (en) 2014-01-08 2016-08-09 Callminer, Inc. Real-time conversational analytics facility
US9801024B2 (en) * 2014-07-17 2017-10-24 Kashif SALEEM Method and system for managing people by detection and tracking
CN105960672B (zh) 2014-09-09 2019-11-26 微软技术许可有限责任公司 用于稳健语音识别的变量组件深度神经网络
US11823658B2 (en) * 2015-02-20 2023-11-21 Sri International Trial-based calibration for audio-based identification, recognition, and detection system
US10296959B1 (en) 2015-03-30 2019-05-21 Audible, Inc. Automated recommendations of audio narrations
US9721559B2 (en) 2015-04-17 2017-08-01 International Business Machines Corporation Data augmentation method based on stochastic feature mapping for automatic speech recognition
EP3127058A1 (en) * 2015-04-20 2017-02-08 NSF International Computer-implemented methods for remotely interacting with performance of food quality and workplace safety tasks using a head mounted display
IL243513B2 (en) 2016-01-07 2023-11-01 Noveto Systems Ltd A system and method for voice communication
US9922664B2 (en) 2016-03-28 2018-03-20 Nuance Communications, Inc. Characterizing, selecting and adapting audio and acoustic training data for automatic speech recognition systems
US11003987B2 (en) 2016-05-10 2021-05-11 Google Llc Audio processing with neural networks
AU2017300259A1 (en) 2016-07-18 2019-02-14 Nant Holdings Ip, Llc Distributed machine learning systems, apparatus, and methods
CA3179080A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US10475471B2 (en) 2016-10-11 2019-11-12 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications using a neural network
US10277682B2 (en) 2016-11-22 2019-04-30 Tata Consultancy Services Limited Method and system for recommending features for developing an iot application
EP3566466A4 (en) 2017-01-05 2020-08-05 Noveto Systems Ltd. AUDIO COMMUNICATIONS SYSTEM AND METHOD
US9980076B1 (en) 2017-02-21 2018-05-22 At&T Intellectual Property I, L.P. Audio adjustment and profile system
US10170134B2 (en) 2017-02-21 2019-01-01 Intel IP Corporation Method and system of acoustic dereverberation factoring the actual non-ideal acoustic environment
US10580402B2 (en) * 2017-04-27 2020-03-03 Microchip Technology Incorporated Voice-based control in a media system or other voice-controllable sound generating system
US20180330713A1 (en) 2017-05-14 2018-11-15 International Business Machines Corporation Text-to-Speech Synthesis with Dynamically-Created Virtual Voices
US10614826B2 (en) 2017-05-24 2020-04-07 Modulate, Inc. System and method for voice-to-voice conversion
US10404974B2 (en) * 2017-07-21 2019-09-03 Misapplied Sciences, Inc. Personalized audio-visual systems
US10262672B2 (en) 2017-07-25 2019-04-16 Verizon Patent And Licensing Inc. Audio processing for speech
CN107680586B (zh) * 2017-08-01 2020-09-29 百度在线网络技术(北京)有限公司 远场语音声学模型训练方法及系统
US10971142B2 (en) 2017-10-27 2021-04-06 Baidu Usa Llc Systems and methods for robust speech recognition using generative adversarial networks
WO2019089432A1 (en) 2017-10-30 2019-05-09 The Research Foundation For The State University Of New York System and method associated with user authentication based on an acoustic-based echo-signature
US11456005B2 (en) 2017-11-22 2022-09-27 Google Llc Audio-visual speech separation
EP3732674A4 (en) 2017-12-29 2021-09-01 Fluent.ai Inc. LOW POWER KEYWORD RECOGNITION SYSTEM
CN111357048B (zh) 2017-12-31 2024-10-08 美的集团股份有限公司 用于控制家庭助手装置的方法和系统
US20210166715A1 (en) 2018-02-16 2021-06-03 Hewlett-Packard Development Company, L.P. Encoded features and rate-based augmentation based speech authentication
US10762914B2 (en) * 2018-03-01 2020-09-01 Google Llc Adaptive multichannel dereverberation for automatic speech recognition
US10726826B2 (en) * 2018-03-04 2020-07-28 International Business Machines Corporation Voice-transformation based data augmentation for prosodic classification
US11250382B2 (en) 2018-03-05 2022-02-15 Nuance Communications, Inc. Automated clinical documentation system and method
KR102021825B1 (ko) * 2018-03-13 2019-09-17 엘지전자 주식회사 청소기
US10699697B2 (en) 2018-03-29 2020-06-30 Tencent Technology (Shenzhen) Company Limited Knowledge transfer in permutation invariant training for single-channel multi-talker speech recognition
US11863948B1 (en) 2018-04-16 2024-01-02 Cirrus Logic International Semiconductor Ltd. Sound components relationship classification and responsive signal processing in an acoustic signal processing system
US10872602B2 (en) 2018-05-24 2020-12-22 Dolby Laboratories Licensing Corporation Training of acoustic models for far-field vocalization processing systems
US10769205B2 (en) 2018-08-09 2020-09-08 Bank Of America Corporation Resource management using natural language processing tags
US11069334B2 (en) 2018-08-13 2021-07-20 Carnegie Mellon University System and method for acoustic activity recognition
US10595149B1 (en) 2018-12-04 2020-03-17 Facebook Technologies, Llc Audio augmentation using environmental data
US10573296B1 (en) 2018-12-10 2020-02-25 Apprente Llc Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping
US11094322B2 (en) 2019-02-07 2021-08-17 International Business Machines Corporation Optimizing speech to text conversion and text summarization using a medical provider workflow model
US11023683B2 (en) 2019-03-06 2021-06-01 International Business Machines Corporation Out-of-domain sentence detection
CA3133466A1 (en) 2019-03-26 2020-10-01 The Regents Of The University Of California Distributed privacy-preserving computing on protected data
US20200335086A1 (en) 2019-04-19 2020-10-22 Behavioral Signal Technologies, Inc. Speech data augmentation
US11132993B1 (en) 2019-05-07 2021-09-28 Noble Systems Corporation Detecting non-verbal, audible communication conveying meaning
US11380312B1 (en) 2019-06-20 2022-07-05 Amazon Technologies, Inc. Residual echo suppression for keyword detection
US20210035563A1 (en) 2019-07-30 2021-02-04 Dolby Laboratories Licensing Corporation Per-epoch data augmentation for training acoustic models
CN114175152A (zh) 2019-08-01 2022-03-11 杜比实验室特许公司 用于增强劣化音频信号的系统和方法
US11227579B2 (en) 2019-08-08 2022-01-18 International Business Machines Corporation Data augmentation by frame insertion for speech data
WO2021071489A1 (en) 2019-10-10 2021-04-15 Google Llc Targeted voice separation by speaker for speech recognition
US11398216B2 (en) 2020-03-11 2022-07-26 Nuance Communication, Inc. Ambient cooperative intelligence system and method
KR20210119181A (ko) 2020-03-24 2021-10-05 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
US10841424B1 (en) 2020-05-14 2020-11-17 Bank Of America Corporation Call monitoring and feedback reporting using machine learning

Also Published As

Publication number Publication date
US11670282B2 (en) 2023-06-06
US20210287104A1 (en) 2021-09-16
CN115280274A (zh) 2022-11-01
US20220246131A1 (en) 2022-08-04
US11967305B2 (en) 2024-04-23
US20210287661A1 (en) 2021-09-16
WO2021183660A1 (en) 2021-09-16
EP4118643A4 (en) 2024-05-01
WO2021183668A1 (en) 2021-09-16
WO2021183652A1 (en) 2021-09-16
US11398216B2 (en) 2022-07-26
WO2021183804A1 (en) 2021-09-16
US20210287660A1 (en) 2021-09-16
US11361749B2 (en) 2022-06-14
WO2021183649A1 (en) 2021-09-16
US20220310055A1 (en) 2022-09-29
US20210287652A1 (en) 2021-09-16
EP4118527A1 (en) 2023-01-18
US12073818B2 (en) 2024-08-27
US20210287653A1 (en) 2021-09-16
US20210287654A1 (en) 2021-09-16
EP4118526A1 (en) 2023-01-18
US20210287659A1 (en) 2021-09-16
WO2021183801A1 (en) 2021-09-16
US11961504B2 (en) 2024-04-16
US20210287105A1 (en) 2021-09-16
EP4118643A1 (en) 2023-01-18
EP4118527A4 (en) 2024-05-08
EP4118526A4 (en) 2024-04-03
WO2021183655A1 (en) 2021-09-16
US12014722B2 (en) 2024-06-18
WO2021183657A1 (en) 2021-09-16

Similar Documents

Publication Publication Date Title
US11482311B2 (en) Automated clinical documentation system and method
US11967305B2 (en) Ambient cooperative intelligence system and method
US11222103B1 (en) Ambient cooperative intelligence system and method
US11777947B2 (en) Ambient cooperative intelligence system and method
US11817095B2 (en) Ambient cooperative intelligence system and method
WO2022093648A1 (en) Ambient cooperative intelligence system and method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20231108

Address after: Washington State

Applicant after: MICROSOFT TECHNOLOGY LICENSING, LLC

Address before: Massachusetts

Applicant before: Nuance Communications, Inc.

TA01 Transfer of patent application right