CN115552920A - 用于多麦克风信号处理的数据增强的系统和方法 - Google Patents

用于多麦克风信号处理的数据增强的系统和方法 Download PDF

Info

Publication number
CN115552920A
CN115552920A CN202180033647.2A CN202180033647A CN115552920A CN 115552920 A CN115552920 A CN 115552920A CN 202180033647 A CN202180033647 A CN 202180033647A CN 115552920 A CN115552920 A CN 115552920A
Authority
CN
China
Prior art keywords
microphone
noise
signals
self
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180033647.2A
Other languages
English (en)
Inventor
D·夏尔马
P·A·纳伊勒
龚嵘
S·克鲁奇宁
L·米兰诺维奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Nuance Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuance Communications Inc filed Critical Nuance Communications Inc
Publication of CN115552920A publication Critical patent/CN115552920A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/01Correction of time axis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • H04R29/005Microphone arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Library & Information Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种方法,计算机程序产品和计算系统,用于从多个麦克风中的每个麦克风接收语音信号从而定义多个信号。可以接收与麦克风自噪声相关联的一个或多个噪声信号。可以至少部分地基于与麦克风自噪声相关联的一个或多个噪声信号对多个信号执行一个或多个基于自噪声的增强,从而定义一个或多个基于自噪声的增强信号。

Description

用于多麦克风信号处理的数据增强的系统和方法
相关申请
本申请要求于2020年5月8日提交的以下美国临时申请第63/022,269号的权利,其全部内容通过引用并入本文。
背景技术
自动临床文档化(ACD)可用于例如将转录的对话(例如,医生、患者和/或其他参与者,例如患者的家庭成员、护士、医生助理等)语音转换为格式化(例如,医疗)报告。这样的报告可以被检查,例如以确保医生、抄写员等报告的准确性。
为了提高ACD的语音处理的准确性,数据增强可以允许通过增强现有数据以表示新的条件,来生成用于机器学习系统的新训练数据。例如,数据增强已被用于提高对真实世界部署中的语音的噪声和混响以及其他不可预测特征的鲁棒性(例如,与受控环境相比,当在真实世界环境中捕获语音信号时的问题和不可预测特性)。
音频记录系统的各种物理特性可能导致语音处理性能的降低。例如,微电子机械系统(MEMS)麦克风通常可以包括机械设备,其感测声学空气压力并且在大多数流行的消费设备(例如,移动电话、视频会议系统和多麦克风阵列系统)中形成用于声学信号采集的主传感器。
MEMS麦克风可能存在各种缺陷。例如,这些MEMS麦克风的已知缺陷通常包括麦克风灵敏度缺陷、麦克风自噪声、麦克风频率响应和谐波失真。
当设计多麦克风系统或阵列时,通常假设系统或阵列中的所有麦克风完全匹配良好。然而,这在现实世界系统中通常并不准确。因此,虽然传统方法试图估计这些缺陷并对其进行补偿(例如,通常仅考虑麦克风灵敏度),或者通过依赖昂贵的校准过程来建立缺陷并补偿这些缺陷(这在大规模上是不可行的),但底层增强算法依赖于完全匹配的麦克风。
发明内容
在一种实现方式中,由计算机执行的计算机实现的方法可以包括但不限于:接收来自多个麦克风中的每个麦克风的语音信号,从而定义多个信号。可以接收与麦克风自噪声相关联的一个或多个噪声信号。可以至少部分地基于与麦克风自噪声相关联的一个或多个噪声信号对多个信号执行一个或多个基于自噪声的增强,从而定义一个或多个基于自噪声的增强信号。
可以包括一个或多个以下特征。接收与麦克风自噪声相关联的一个或多个噪声信号可以包括:模拟代表麦克风自噪声的模型。接收与麦克风自噪声相关联的一个或多个噪声信号可以包括:测量来自至少一个麦克风的自噪声。至少部分地基于与麦克风自噪声相关联的一个或多个噪声信号对多个信号执行一个或多个基于自噪声的增强可以包括:将来自一个或多个噪声信号的噪声信号添加到来自每个麦克风的语音信号。将噪声信号添加到来自每个麦克风的语音信号可以包括:至少部分地基于针对一个或多个基于自噪声的增强信号的预定信噪比,将来自一个或多个噪声信号的噪声信号添加到来自每个麦克风的语音信号。将来自一个或多个噪声信号的噪声信号添加到来自每个麦克风的语音信号可以包括将来自一个或多个噪声信号的随机噪声信号添加到来自每个麦克风的语音信号。多个麦克风可以定义麦克风阵列。
在另一实现中,计算机程序产品驻留在计算机可读介质上,并具有存储在其上的多个指令。当由处理器执行时,指令使处理器执行操作包括但不限于:从多个麦克风中的每个麦克风接收语音信号,从而定义多个信号。可以接收与麦克风自噪声相关联的一个或多个噪声信号。可以至少部分地基于与麦克风自噪声相关联的一个或多个噪声信号对多个信号执行一个或多个基于自噪声的增强,从而定义一个或多个基于自噪声的增强信号。
可以包括一个或多个以下特征。接收与麦克风自噪声相关联的一个或多个噪声信号可以包括:模拟代表麦克风自噪声的模型。接收与麦克风自噪声相关联的一个或多个噪声信号可以包括:测量来自至少一个麦克风的自噪声。至少部分地基于与麦克风自噪声相关联的一个或多个噪声信号对多个信号执行一个或多个基于自噪声的增强可以包括:将来自一个或多个噪声信号的噪声信号添加到来自每个麦克风的语音信号。将噪声信号添加到来自每个麦克风的语音信号可以包括:至少部分地基于针对一个或多个基于自噪声的增强信号的预定信噪比,将来自一个或多个噪声信号的噪声信号添加到来自每个麦克风的语音信号。将来自一个或多个噪声信号的噪声信号添加到来自每个麦克风的语音信号可以包括:将来自一个或多个噪声信号的随机噪声信号添加到来自每个麦克风的语音信号。多个麦克风可以定义麦克风阵列。
在另一实现中,计算系统包括处理器,并且存储器被配置为执行包括但不限于:从多个麦克风中的每个麦克风接收语音信号,从而定义多个信号的操作。处理器还可以被配置为接收与麦克风自噪声相关联的一个或多个噪声信号。处理器还可以被配置为至少部分基于与麦克风自噪声相关联的一个或多个噪声信号对多个信号执行一个或多个基于自噪声的增强,从而定义一个或多个基于自噪声的增强信号。
可以包括一个或多个以下特征。接收与麦克风自噪声相关联的一个或多个噪声信号可以包括:模拟代表麦克风自噪声的模型。接收与麦克风自噪声相关联的一个或多个噪声信号可以包括:测量来自至少一个麦克风的自噪声。至少部分地基于与麦克风自噪声相关联的一个或多个噪声信号对多个信号执行一个或多个基于自噪声的增强可以包括:将来自一个或多个噪声信号的噪声信号添加到来自每个麦克风的语音信号。将噪声信号添加到来自每个麦克风的语音信号可以包括至少部分地基于一个或多个基于自噪声的增强信号的预定信噪比,将来自一个或多个噪声信号的噪声信号添加到来自每个麦克风的语音信号。将来自一个或多个噪声信号的噪声信号添加到来自每个麦克风的语音信号可包含将来自一个或多个噪声信号的随机噪声信号添加到来自每个麦克风的语音信号。多个麦克风可以定义麦克风阵列。
一个或多个实现的细节在附图和下面的描述中阐述。其他特征和优点将从说明书、附图和权利要求书中显而易见。
附图说明
图1是耦合到分布式计算网络的自动临床文档化计算机系统和数据增强过程的示意图;
图2是并入图1的自动临床文档化计算机系统的模块化ACD系统的示意图;
图3是被包括在图2的模块化ACD系统内的混合媒体ACD设备的示意图;
图4是图1的数据增强过程的一个实现的流程图;
图5至图6是根据图1的数据增强过程的各种实现的模块化ACD系统的示意图;
图7是图1的数据增强过程的一个实现的流程图;
图8是根据图1的数据增强过程的一个实现的模块化ACD系统的示意图;
图9是图1的数据增强过程的一个实现的流程图;
图10是根据图1的数据增强过程的一个实现的模块化ACD系统的示意图;
图11是根据图1的数据增强过程的一个实现的麦克风频率响应的示意图;
图12是图1的数据增强过程的一个实现的流程图;以及
图13是根据图1的数据增强过程的一个实现的模块化ACD系统的示意图。
各种附图中相同的附图标记表示相同的元件。
具体实施方式
系统概述:
参考图1,示出了数据增强过程10。如下面将更详细地讨论的,数据增强过程10可以被配置为使临床就诊信息的收集和处理自动化以生成/存储/分发医学记录。
数据增强过程10可以被实现为服务器侧过程、客户端侧过程或混合服务器侧/客户端侧过程。例如,数据增强过程10可以经由数据增强过程10s被实现为纯粹的服务器侧过程。备选地,数据增强过程10可以经由数据增强过程10c1、数据增强过程10c2、数据增强过程10c3和数据增强过程10c4中的一个或多个来实现为纯粹的客户端侧过程。备选地,数据增强过程10可以经由数据增强过程10s与数据增强过程10c1、数据增强过程10c2、数据增强过程10c3和数据增强过程10c4中的一个或多个相结合来实现为混合服务器侧/客户端侧过程。
因此,本公开中使用的数据增强过程10可以包括数据增强过程10s、数据增强过程10c1、数据增强过程10c2、数据增强过程10c3和数据增强过程10c4的任意组合。
数据增强过程10S可以是服务器应用,并且可以驻留在自动临床文档化(ACD)计算机系统12上并且可以由其执行,ACD计算机系统12可以被连接到网络14(例如,互联网或局域网)。ACD计算机系统12可以包括各种组件,其示例可以包括但不限于:个人计算机、服务器计算机、一系列服务器计算机、小型计算机、大型计算机、一个或多个网络附接存储(NAS)系统、一个或多个存储区域网络(SAN)系统、一个或多个平台即服务(PaaS)系统、一个或多个基础设施即服务(IaaS)系统、一个或多个软件即服务(SaaS)系统、基于云的计算系统、以及基于云的存储平台。
如本领域中已知的,SAN可以包括个人计算机、服务器计算机、一系列服务器计算机、小型计算机、大型计算机、RAID设备和NAS系统中的一个或多个。ACD计算机系统12的各种组件可以执行一个或多个操作系统,其示例可以包括但不限于:例如,MicrosoftWindows Servertm、Redhat Linuxtm、Unix或定制操作系统。
可以存储在耦合到ACD计算机系统12的存储设备16上的数据增强过程10s的指令集合和子例程可以由包括在ACD计算机系统12内的一个或多个处理器(未示出)和一个或多个存储器架构(未示出)来执行。存储设备16的示例可以包括但不限于:硬盘驱动器;RAID设备;随机存取存储器(RAM);只读存储器(ROM);以及所有形式的闪存存储设备。
网络14可以被连接到一个或多个辅助网络(例如,网络18),其示例可以包括但不限于:例如,局域网;广域网;或内联网。
各种IO请求(例如,IO请求20)可以从数据增强过程10s、数据增强过程10c1、数据增强过程10c2、数据增强过程10c3和/或数据增强过程10c4发送到ACD计算机系统12。IO请求20的示例可以包括但不限于数据写入请求(即,将内容写入ACD计算机系统12的请求)和数据读取请求(即,从ACD计算机系统12读取内容的请求)。
可以(分别)存储在(分别)耦合到ACD客户端电子设备28、30、32、34的存储设备20、22、24、26上的数据增强过程10c1、数据增强过程10c2、数据增强过程10c3和/或数据增强过程10c4的指令集合和子例程可以由(分别)并入ACD客户端电子设备28、30、32、34中的一个或多个处理器(未示出)和一个或多个存储器架构(未示出)来执行。存储设备20、22、24、26可以包括但不限于:硬盘驱动器;光盘驱动器;RAID设备;随机存取存储器(RAM);只读存储器(ROM),以及所有形式的闪存存储设备。ACD客户端电子设备28、30、32、34的示例可以包括但不限于,个人计算设备28(例如,智能电话、个人数字助理、膝上型计算机、笔记本计算机和台式计算机)、音频输入设备30(例如,手持麦克风、翻领麦克风、嵌入式麦克风(诸如嵌入眼镜、智能手机、平板计算机和/或手表中的麦克风)和音频记录设备)、显示设备32(例如,平板计算机、计算机监控器和智能电视),机器视觉输入设备34(例如,RGB成像系统、红外成像系统、紫外成像系统、激光成像系统、声纳成像系统、雷达成像系统和热成像系统)、混合设备(例如,包括一个或多个上述参考设备的功能的单个设备;未示出)、音频呈现设备(例如,扬声器系统、耳机系统或耳塞系统;未示出)、各种医学设备(例如,医学成像设备、心脏监控器、体重秤、体温计和血压机;未示出)以及专用网络设备(未示出)。
用户36、38、40、42可以通过网络14或通过辅助网络18直接访问ACD计算机系统12。此外,ACD计算机系统12可以通过辅助网络18连接到网络14,如链路线44所示。
各种ACD客户端电子设备(例如,ACD客户端电子设备28、30、32、34)可以直接或间接耦合到网络14(或网络18)。例如,个人计算设备28被示为经由硬连线网络连接直接耦合到网络14。此外,机器视觉输入设备34被示为经由硬连线网络连接直接耦合到网络18。音频输入设备30被示为经由在音频输入设备30和无线接入点(即,WAP)48之间建立的无线通信信道46无线耦合到网络14,WAP 48被示为直接耦合到网络14。WAP 48可以是例如能够在音频输入设备30和WAP 48之间建立无线通信信道46的IEEE 802.11a、802.11b、802.11g、802.11n、Wi-Fi和/或蓝牙设备。显示设备32被示为通过在显示设备32和WAP 52之间建立的无线通信信道50无线耦合到网络14,WAP 52被示为直接耦合到网络14。
各种ACD客户端电子设备(例如,ACD客户端电子设备28、30、32、34)可以各自执行操作系统,其示例可以包括但不限于Microsoft Windowstm、Apple Macintoshtm、RedhatLinuxtm或定制操作系统,其中各种ACD客户端电子设备(例如,ACD客户端电子设备28、30、32、34)和ACD计算机系统12的组合可以形成模块化ACD系统54。
还参考图2,示出了模块化ACD系统54的简化示例实施例,其被配置为使临床文档化自动化。模块化ACD系统54可以包括:机器视觉系统100,其被配置为获得关于患者就诊的机器视觉就诊信息102;音频记录系统104,其被配置为获得关于患者就诊的音频就诊信息106;以及计算机系统(例如,ACD计算机系统12),其被配置为(分别)从机器视觉系统100和音频记录系统104接收机器视觉就诊信息102和音频就诊信息106。模块化ACD系统54还可以包括:显示呈现(rendering)系统108,其被配置为呈现视觉信息110;以及音频呈现系统112,其被配置为呈现音频信息114,其中ACD计算机系统12可以被配置为(分别)向显示呈现系统108和音频呈现系统112提供视觉信息110和音频信息114。
机器视觉系统100的示例可以包括但不限于:一个或多个ACD客户端电子设备(例如,ACD客户端电子设备34,其示例可以包括但不限于,RGB成像系统、红外成像系统、紫外成像系统、激光成像系统、声纳成像系统、雷达成像系统和热成像系统)。音频记录系统104的示例可以包括但不限于:一个或多个ACD客户端电子设备(例如,ACD客户端电子设备30,其示例可以包括但不限于,手持麦克风、翻领麦克风、嵌入式麦克风(诸如嵌入眼镜、智能手机、平板计算机和/或手表内的麦克风)和音频记录设备)。显示呈现系统108的示例可以包括但不限于:一个或多个ACD客户端电子设备(例如,ACD客户端电子设备32,其示例可以包括但不限于,平板计算机、计算机监控器和智能电视)。音频呈现系统112的示例可以包括但不限于:一个或多个ACD客户端电子设备(例如,音频呈现设备116,其示例可以包括但不限于,扬声器系统、耳机系统和耳塞系统)。
如下面将更详细地讨论的,ACD计算机系统12可以被配置为访问一个或多个数据源118(例如,多个单独的数据源120、122、124、126、128),其示例可以包括但不限于,用户简档数据源、声纹数据源、声音特性数据源(例如,用于适配自动语音识别模型)、脸纹数据源、类人数据源、话语标识符数据源、可穿戴令牌标识符数据源、交互标识符数据源、医疗状况症状数据源、处方兼容性数据源、医疗保险覆盖范围数据源和家庭保健数据源中的一个或多个。虽然在该特定示例中示出了数据源118的五个不同示例,但这仅用于说明目的,并不旨在作为本公开的限制,因为其他配置是可能的并且被认为在本公开的范围内。
如下面将更详细地讨论的,模块化ACD系统54可以被配置为监控临床环境中的监控空间(例如,监控空间130),其中该临床环境的示例可以包括但不限于:医生办公室、医疗设施、医疗实践、医疗实验室、紧急护理设施、医疗诊所、急诊室、手术室、医院、长期护理设施、康复设施、护理室和临终关怀设施。因此,上述患者就诊的示例可以包括但不限于,患者访问一个或多个上述临床环境(例如,医生办公室、医疗设施、医疗实践、医疗实验室、紧急护理设施、医疗诊所、急诊室、手术室、医院、长期护理设施、康复设施、护理室和临终关怀设施)。
当上述临床环境更大或需要更高级别的分辨率时,机器视觉系统100可以包括多个分立机器视觉系统。如上所述,机器视觉系统100的示例可以包括但不限于:一个或多个ACD客户端电子设备(例如,ACD客户端电子设备34,其示例可以包括但不限于RGB成像系统、红外成像系统、紫外成像系统、激光成像系统、声纳成像系统、雷达成像系统和热成像系统)。因此,机器视觉系统100可以包括RGB成像系统、红外成像系统、紫外成像系统、激光成像系统、声纳成像系统、雷达成像系统和热成像系统中的每一个中的一个或多个。
当上述临床环境更大或需要更高级别的分辨率时,音频记录系统104可以包括多个分立的音频记录系统。如上所述,音频记录系统104的示例可以包括但不限于:一个或多个ACD客户端电子设备(例如,ACD客户端电子设备30,其示例可以包括但不限于手持麦克风、翻领麦克风、嵌入式麦克风(诸如嵌入眼镜、智能电话、平板计算机和/或手表内的麦克风)和音频记录设备)。因此,音频记录系统104可以包括手持麦克风、翻领麦克风、嵌入式麦克风(诸如嵌入眼镜、智能手机、平板计算机和/或手表内的麦克风)和音频记录设备中的每一个中一个或多个。
当上述临床环境更大或需要更高级别的分辨率时,显示呈现系统108可以包括多个分立的显示呈现系统。如上所述,显示呈现系统108的示例可以包括但不限于:一个或多个ACD客户端电子设备(例如,ACD客户端电子设备32,其示例可以包括但不限于,平板计算机、计算机监控器和智能电视)。因此,显示呈现系统108可以包括平板计算机、计算机监控器和智能电视中的每一个中的一个或多个。
当上述临床环境更大或需要更高级别的分辨率时,音频呈现系统112可以包括多个分立的音频呈现系统。如上所述,音频呈现系统112的示例可以包括但不限于:一个或多个ACD客户端电子设备(例如,音频呈现设备116,其示例可以包括但不限于,扬声器系统、耳机系统或耳塞系统)。因此,音频呈现系统112可以包括扬声器系统、耳机系统或耳塞系统中的每一个中的一个或多个。
ACD计算机系统12可以包括多个分立计算机系统。如上所述,ACD计算机系统12可以包括各种组件,其示例可以包括但不限于:个人计算机、服务器计算机、一系列服务器计算机、小型计算机、大型计算机、一个或多个网络附接存储(NAS)系统、一个或多个存储区域网络(SAN)系统、一个或多个平台即服务(PaaS)系统、一个或多个基础设施即服务(IaaS)系统、一个或多个软件即服务(SaaS)系统、基于云的计算系统、以及基于云的存储平台。因此,ACD计算机系统12可以包括个人计算机、服务器计算机、一系列服务器计算机、小型计算机、大型计算机、一个或多个网络附接存储(NAS)系统、一个或多个存储区域网络(SAN)系统、一个或多个平台即服务(PaaS)系统、一个或多个基础设施即服务(IaaS)系统、一个或多个软件即服务(SaaS)系统、基于云的计算系统和基于云的存储平台中的每一个中的一个或多个。
还参考图3,音频记录系统104可以包括具有多个分立麦克风配件的定向麦克风阵列200。例如,音频记录系统104可以包括多个分立音频采集设备(例如,音频采集设备202、204、206、208、210、212、214、216、218),其可以形成麦克风阵列200。如下面将更详细地讨论的,模块化ACD系统54可以被配置为经由包括在音频记录系统104内的分立音频采集设备(例如,音频采集设备202、204、206、208、210、212、214、216、218)形成一个或多个音频记录波束(beam)(例如,音频记录波束220、222、224)。
例如,模块化ACD系统54还可以被配置为将一个或多个音频记录波束(例如,音频记录波束220、222、224)引导(steer)到上述患者就诊的一个或多个就诊参与者(例如,就诊参与者226、228、230)。就诊参与者(例如,就诊参与者226、228、230)的示例可以包括但不限于:医疗专业人员(例如,医生、护士、医生助理、实验室技术人员、物理治疗师、抄写员(例如,转录员)和/或参与患者就诊的工作人员)、患者(例如,正在为患者就诊访问上述临床环境的人)和第三方(例如,参与患者就诊的患者的朋友、患者的亲属和/或患者的熟人)。
因此,模块化ACD系统54和/或音频记录系统104可以被配置为利用一个或多个分立音频采集设备(例如,音频采集设备202、204、206、208、210、212、214、216、218)来形成音频记录波束。例如,模块化ACD系统54和/或音频记录系统104可以被配置为利用音频采集设备210来形成音频记录波束220,从而使得能够捕获由就诊参与者226产生的音频(例如,语音)(因为音频采集设备210指向(即,定向)就诊参与者226)。此外,模块化ACD系统54和/或音频记录系统104可以被配置为利用音频采集设备204、206来形成音频记录波束222,从而使得能够捕获由就诊参与者228产生的音频(例如,语音)(因为音频采集设备204、206指向(即,定向)就诊参与者228)。此外,模块化ACD系统54和/或音频记录系统104可以被配置为利用音频采集设备212、214来形成音频记录波束224,从而使得能够捕获由就诊参与者230产生的音频(例如,语音)(因为音频采集设备212、214指向(即,定向)就诊参与者230)。此外,模块化ACD系统54和/或音频记录系统104可以被配置为利用零控预编码(null-steering precoding)来消除讲话者之间的干扰和/或噪声。
如本领域所公知的,零控预编码是一种空间信号处理方法,通过该方法,多天线发射机可以使无线通信中的多用户干扰信号归零,其中零控预编码可以减轻背景噪声和未知用户干扰的影响。
具体地,零控预编码可以是一种用于窄带信号的波束成形方法,其可以补偿在天线阵列的不同元件处从特定源接收信号的延迟。一般而言,为了提高天线阵列的性能,可以对传入信号进行求和以及求平均,其中可以对某些信号进行加权并且可以对信号延迟进行补偿。
机器视觉系统100和音频记录系统104可以是独立设备(如图2所示)。另外地/备选地,机器视觉系统100和音频记录系统104可以组合成一个封装(package)以形成混合媒体ACD设备232。例如,混合媒体ACD设备232可以被配置为安装到上述临床环境(例如,医生办公室、医疗设施、医疗实践、医疗实验室、紧急护理设施、医疗诊所、急诊室、手术室、医院、长期护理设施、康复设施、护理室和临终关怀设施)内的结构(例如,墙、天花板、梁、柱),从而允许容易地安装它们。此外,模块化ACD系统54可以被配置为在上述临床环境更大或需要更高级别的分辨率时,包括多个混合媒体ACD设备(例如,混合媒体ACD设备232)。
模块化ACD系统54还可以被配置为至少部分地基于机器视觉就诊信息102将一个或多个音频记录波束(例如,音频记录波束220、222、224)引导到患者就诊的一个或多个就诊参与者(例如,就诊参与者226、228、230)。如上所述,混合媒体ACD设备232(以及其中包括的机器视觉系统100/音频记录系统104)可以被配置为监控患者就诊的一个或多个就诊参与者(例如,就诊参与者226、228、230)。
具体地,机器视觉系统100(作为独立系统或作为混合媒体ACD设备232的组件)可以被配置为检测上述临床环境(例如,医生办公室、医疗设施、医疗实践、医疗实验室、紧急护理设施、医疗诊所、急诊室、手术室、医院、长期护理设施、康复设施、护理室和临终关怀设施)内的类人形状。并且当机器视觉系统100检测到这些类人形状时,模块化ACD系统54和/或音频记录系统104可以被配置为利用一个或多个分立音频采集设备(例如,音频采集设备202、204、206、208、210、212、214、216、218)来形成指向每个检测到的类人形状(例如,就诊参与者226、228、230)的音频记录波束(例如,音频记录波束220、222、224)。
如上所述,ACD计算机系统12可以被配置为(分别)从机器视觉系统100和音频记录系统104接收机器视觉就诊信息102和音频就诊信息106;并且可以被配置为(分别)向显示呈现系统108和音频呈现系统112提供视觉信息110和音频信息114。根据模块化ACD系统54(和/或混合媒体ACD设备232)的配置方式,ACD计算机系统12可以被包括在混合媒体ACD设备232内或混合媒体ACD设备232外部。
如上所述,ACD计算机系统12可以执行数据增强过程10的全部或一部分,其中数据增强过程10的指令集合和子例程(其可以存储在例如存储设备16、20、22、24、26中的一个或多个上)可以由ACD计算机系统12和/或一个或多个ACD客户端电子设备28、30、32、34来执行。
数据增强过程:
在与本公开一致的一些实现中,可以提供用于多通道语音处理系统(例如,神经增强(例如,波束成形)、多通道、端到端自动语音识别(MCE2E)系统等)的训练数据的数据增强的系统和方法,其具有一系列损坏配置文件,这允许底层语音处理算法“学习”以变得对麦克风系统的缺陷更加鲁棒。例如并且如上所述,数据增强允许通过增强现有数据以表示新的条件来为机器学习系统生成新的训练数据。例如,数据增强已被用于提高对真实世界部署中的语音的噪声和混响以及其他不可预测特性的鲁棒性(例如,与受控环境相比,当在真实世界环境中捕获语音信号时的问题和不可预测特性)。
在一些实现中,音频记录系统的各种物理特性可能导致语音处理性能的降低。例如,微电子机械系统(MEMS)麦克风通常可以包括机械设备,其感测声学空气压力并且在大多数流行的消费设备(例如,移动电话、视频会议系统和多麦克风阵列系统)中形成用于声学信号采集的主传感器。在一些实现中,麦克风通常可以包括分立音频采集设备(例如,音频采集设备202、204、206、208、210、212、214、216、218)、放大器和/或模数转换系统。
在一些实现中,MEMS麦克风可能受到各种缺陷的影响。例如,这些MEMS麦克风中的已知缺陷通常包括麦克风灵敏度缺陷、麦克风自噪声、麦克风频率响应和谐波失真。如下面将更详细地讨论的,麦克风灵敏度通常包括麦克风对给定声压级别的响应。这可以因设备而异(例如,在麦克风阵列中因麦克风而异)。麦克风自噪声通常包括麦克风在完全安静的环境中输出的噪声量。在一些实现中,该噪声的频谱形状可能使得它对某些频率的影响比对其他频率的影响更大,并且不同的麦克风可能具有不同的自噪声级别/特性。在一些实现中,麦克风可以在不同频率处具有非平坦幅度和/或非线性频率响应。在一些实现中,麦克风或麦克风阵列的外壳可以将频谱整形引入麦克风频率响应。谐波失真可以是对给定纯音输入信号的麦克风输出的失真量的测量。虽然已经提供了麦克风缺陷的几个示例,但是可以理解,在本公开的范围内,当使用多个麦克风(例如,如麦克风阵列104中)执行语音处理操作时,其他缺陷可能会引入问题。
在设计神经波束成形或MCE2E系统时,通常假设系统或阵列中的所有麦克风完全匹配良好。然而,至少出于上述原因,这在现实世界系统中通常并不准确。因此,虽然传统方法试图估计这些缺陷并对其进行补偿(例如,通常仅考虑麦克风灵敏度),或者通过依赖昂贵的校准过程来建立缺陷并补偿这些缺陷(这在大规模上是不可行的),但底层增强算法通常依赖于完全匹配的麦克风。
如下面将更详细地讨论的,本公开的实现可以通过用允许底层语音处理算法‘学习’以变得对麦克风系统缺陷更鲁棒的一系列损坏简档来增强用于波束成形和MCE2E系统的训练数据,来解决麦克风之间的缺陷。在一些实现中,(多个)底层语音处理系统可以学习以结合系统的优化标准来解决一系列麦克风系统或阵列缺陷;而不是依赖外部校准数据或辅助处理,其本身可能不是传统系统中理想的。本公开的实现还可以避免底层语音处理系统的任何额外处理开销,并且不需要昂贵且耗时的麦克风系统校准数据。本公开的实现可以通过在训练期间学习麦克风系统的缺陷来解决麦克风系统性能随时间推移而降低的问题。
如上所述并且至少参考图4至图6,数据增强过程10可以从多个麦克风中的每个麦克风接收400信号,从而定义多个信号。可以对多个信号执行402一个或多个基于麦克风间增益的增强,从而定义一个或多个麦克风间增益增强的信号。
还参考图5,并且在一些实现中,音频记录系统104可以包括具有多个分立麦克风配件的定向麦克风阵列200。例如,音频记录系统104可以包括多个分立音频采集设备(例如,音频采集设备202、204、206、208、210、212、214、216、218),其可以形成麦克风阵列200。在一些实现中,每个音频采集设备或麦克风可以包括麦克风组件、放大器和模数转换系统。如上所述,每个麦克风(例如,音频采集设备202、204、206、208、210、212、214、216、218)在每个麦克风的配置或操作中可能具有缺陷和/或不匹配。例如,麦克风阵列200中的每个麦克风可以包括影响每个麦克风处理语音信号的能力的各种物理特性。在一些实现中,麦克风配件、放大器、模数转换系统和/或麦克风外壳的组合可以改变与麦克风阵列200接收的信号相关联的麦克风间增益。
例如,假设麦克风202相对于其他麦克风引入例如两分贝增益,而麦克风212相对于其他麦克风引入例如一分贝增益。在该示例中,麦克风间增益不匹配可能导致语音处理系统(例如,语音处理系统300)进行错误或不准确的信号处理。因此,数据增强过程10可以对现有训练数据和/或从各种麦克风接收的信号执行402增强,以生成麦克风间增益增强的信号。这些麦克风间增益增强的信号可用于训练语音处理系统300以考虑麦克风阵列200中的麦克风之间的增益不匹配。
在一些实现中,数据增强过程10可以从多个麦克风中的每个麦克风接收400信号,从而定义多个信号。再次参考图5,并且在一些实现中,麦克风阵列200可以处理来自各种源的语音(例如,音频就诊信息106A-106C)。因此,麦克风202、204、206、208、210、212、214、216、218可以生成表示由麦克风阵列200处理的语音的信号(例如,多个信号500)。在一些实现中,数据增强过程10可以从麦克风202、204、206、208、210、212、214、216、218中的一些或每一个接收400信号。
在一些实现中,数据增强过程10可以对多个信号执行402一个或多个基于麦克风间增益的增强,从而定义一个或多个麦克风间增益增强的信号。基于麦克风间增益的增强信号通常可以包括信号或训练数据的增益的增强,该信号或训练数据表示与麦克风阵列中的麦克风之间的相对增益级别相关联的可变性或缺陷。如上所述,基于麦克风间增益的增强信号可以允许语音处理系统(例如,语音处理系统300)考虑麦克风增益级别之间的不匹配或变化,而不需要在具有麦克风阵列的传统语音处理系统中使用的昂贵且复杂的信号补偿技术。
在一些实现中,对多个信号执行402一个或多个基于麦克风间增益的增强可以包括将来自多个增益级别的增益级别应用404于来自每个麦克风的信号。再次参考图5,并且在一些实现中,数据增强过程10可以将多个增益级别(例如,多个增益级别502)应用404于多个信号(例如,多个信号500)。在一些实现中,从多个麦克风(例如,麦克风阵列200)接收400的多个信号500可以在执行402一个或多个基于麦克风间增益的增强之前的任何时间被接收。例如,多个信号500可以包括使用麦克风阵列200生成的训练数据。在一些实现中,多个信号可以包括在语音信号的实时处理期间接收400的信号。以此方式,多个信号可用于在相对于接收多个信号时的任何时间执行402基于麦克风间增益的增强。
在一些实现中,多个增益级别可以与特定麦克风或特定麦克风阵列相关联。例如,假设讲话者在会议室中讲话,会议室内部署了电话会议系统的麦克风阵列。在该示例中,麦克风阵列的麦克风的属性可以在由麦克风阵列处理的语音信号中引入基于麦克风间增益的变化。现在假设讲话者在分离的计算设备内向虚拟助手讲话。在该示例中,尽管环境特征保持不变(即,会议室),但虚拟助手的麦克风阵列可以具有可能与电话会议系统的麦克风阵列不同地影响信号处理的因素和特性。在一些实现中,麦克风阵列之间的区别可能对语音处理系统的性能具有各种影响。因此,数据增强过程10可以允许由一个麦克风阵列接收的语音信号用于训练具有其他麦克风阵列的语音处理系统和/或用于用新的适配数据适配语音处理系统或模型。
在一些实现中,数据增强过程10可以接收对目标麦克风阵列的选择。目标麦克风阵列可以包括一种类型的麦克风或麦克风阵列。在一些实现中,数据增强过程10可以通过提供与目标麦克风阵列相关联的特定的基于麦克风间增益的特性来接收对目标麦克风阵列的选择。在一些实现中,数据增强过程10可以利用图形用户界面来从目标麦克风阵列的库中接收对目标麦克风阵列的选择。在一个示例中,数据增强过程10可以接收对麦克风阵列的各种特性(例如,麦克风阵列的类型、麦克风阵列的麦克风的布置等)的选择(例如,经由图形用户界面),以定义目标麦克风阵列。如下面将更详细地讨论的,并且在一些实现中,数据增强过程10可以接收目标麦克风阵列的特性的范围或分布。虽然已经描述了图形用户界面的示例,但是可以理解,可以在本公开的范围内以各种方式选择目标麦克风阵列(例如,由用户手动选择、通过数据增强过程10自动选择、预定义的目标麦克风阵列等)。
在一些实现中,数据增强过程10可以至少部分地基于目标麦克风阵列对多个信号执行402一个或多个基于麦克风间增益的增强。如下面将更详细地讨论的,出于各种原因,可能希望增强与特定麦克风阵列相关联的多个信号。例如,并且在一些实现中,数据增强过程10可以对多个信号执行一个或多个基于麦克风间增益的增强,以利用多个信号训练具有目标麦克风阵列的语音处理系统。在该示例中,数据增强过程10可以利用由不同麦克风阵列接收的语音信号来训练语音处理系统,这可以允许语音处理系统使用增强的训练信号集合与各种麦克风阵列一起有效地利用。
在另一示例中,数据增强过程10可以对多个信号执行402一个或多个基于麦克风间增益的增强,以生成用于语音处理系统的附加训练数据,该语音处理系统在相同或相似类型的麦克风阵列之间具有不同级别的增益不匹配或变化。以此方式,数据增强过程10可以通过用表示麦克风阵列的麦克风中的缺陷的各种增益级别来增强训练数据集合,来训练语音处理系统对增益的变化更加鲁棒。虽然已经提供了两个用于利用麦克风间增益增强的信号的示例,但是可以理解,在本公开的范围内,数据增强过程10可以出于各种其他目的对多个信号执行基于麦克风间增益的增强。例如,并且在一些实现中,基于麦克风间增益的增强可以用于用新的适配数据(例如,基于麦克风间增益的增强)适配语音处理系统。
在一些实现中,可以使用一个或多个机器学习模型来模拟要应用于多个信号的多个增益级别。例如,可以使用一个或多个机器学习模型来模拟麦克风阵列的多个增益级别,该一个或多个机器学习模型被配置为“学习”麦克风阵列或单个麦克风的特性如何影响从麦克风阵列接收的信号的增益级别。如本领域中已知的,机器学习模型通常可以包括被训练为识别某些类型的模式的算法或算法组合。例如,根据可用信号的性质,机器学习方法通常可以分为三类:有监督学习、无监督学习和强化学习。如本领域中已知的,有监督学习可以包括向计算设备呈现示例输入及其期望的输出,其由“教师”给出,其中目标是学习将输入映射到输出的一般规则。在无监督学习的情况下,学习算法不会被赋予标签,让它自己找到输入中的结构。无监督学习本身可以是目标(发现数据中的隐藏模式),或者可以是达到目的的一种手段(特征学习)。如本领域中已知的,强化学习通常可以包括在动态环境中交互的计算设备,在该动态环境中,计算设备必须执行特定目标(例如驾驶车辆或与对手玩游戏)。当程序在自己的问题空间中导航时,程序会被提供类似于奖励的反馈,它试图最大化这些奖励。虽然已经提供了机器学习方法的三个示例,但是可以理解,在本公开的范围内,其他机器学习方法也是可能的。因此,数据增强过程10可以利用机器学习模型(例如,机器学习模型302)来模拟麦克风阵列或单个麦克风的特性如何影响从麦克风阵列接收的信号的增益级别。
在一些实现中,可以从一个或多个麦克风阵列测量要应用404于多个信号的多个增益级别。例如并且如上所述,数据增强过程10可以从麦克风阵列接收多个信号。在一些实现中,数据增强过程10可以确定麦克风阵列的每个麦克风的增益级别。例如,数据增强过程10可以定义麦克风阵列的增益级别范围(例如,通常针对每个麦克风和/或麦克风阵列)。如下面将更详细地讨论的,数据增强过程10可以定义麦克风阵列的增益级别的分布(例如,通常针对每个麦克风和/或麦克风阵列)。在一些实现中,增益级别的分布可以是频率的函数,使得通常针对特定麦克风和/或麦克风阵列,作为频率的函数观察到不同的增益级别。
在一些实现中,将来自多个增益级别的增益级别应用404于来自每个麦克风的信号可以包括:将来自预定义的增益级别范围的增益级别应用406于来自每个麦克风的信号。例如,预定义的增益级别范围可以包括最大增益级别和最小增益级别。在一个示例中,预定义的增益级别范围可以是默认的增益级别范围。在另一示例中,可以根据特定麦克风阵列的训练数据集来确定预定义的增益级别范围。在另一示例中,预定义的增益级别范围可以手动定义(例如,由用户通过用户界面)。虽然已经描述了可以如何定义增益级别范围的几个示例,但是可以理解,在本公开的范围内可以以各种方式定义预定义的增益级别范围。
继续上面的示例,假设麦克风202相对于其他麦克风引入例如两分贝增益,而麦克风212相对于麦克风阵列200的其他麦克风引入例如一分贝增益,尽管麦克风202、204、206、208、210、212、214、216、218是相同的。在该示例中,数据增强过程10可以将预定义的增益级别范围定义为例如零分贝到例如两分贝。数据增强过程10可以对来自每个麦克风202、204、206、208、210、212、214、216、218的每个信号应用406增益级别502,其范围从例如零分贝到例如两分贝。因此,数据增强过程10可以通过将预定义的增益级别范围中的多个增益级别应用406于每个麦克风的信号以生成麦克风间增益增强的信号504,来对每个信号执行402一个或多个基于麦克风间增益的增强。
在一些实现中,将来自多个增益级别的增益级别应用404于来自每个麦克风的信号可以包括:将来自预定义的增益级别范围的随机增益级别应用408于来自每个麦克风的信号。例如,数据增强过程10可以将从预定义的增益级别范围中随机选择的增益级别应用于每个麦克风的信号,以生成一个或多个麦克风间增益增强的信号(例如,麦克风间增益增强的信号504)。
在一些实现中,可以通过指定跨麦克风的最大和最小变化的参数来控制增益变化。例如,数据增强过程10可以接收对增益级别变化参数的选择(例如,从用户经由用户界面),以定义跨多个麦克风的增益级别的最大和/或最小变化。例如,增益级别变化参数可以包括增益级别的分布。在一些实现中,增益级别变化参数可以包括增益级别中的随机变化、根据高斯分布的增益级别变化、根据泊松分布的增益级别变化、和/或被配置为由机器学习模型学习的增益级别变化。因此,应当理解,增益级别变化参数可以包括任何类型的增益级别分布,从中可以将增益级别应用于一个或多个信号。在一些实现中,增益级别变化参数可以包括针对特定麦克风阵列或麦克风类型定义的默认增益级别变化参数。以此方式,数据增强过程10可以限制一个或多个麦克风间增益增强的信号的增益级别的变化。
在一些实现中,对一个或多个信号执行402一个或多个基于麦克风间增益的增强可以包括:将一个或多个信号转换410到频域。还参考图6并且在一些实现中,数据增强过程10可以将从多个麦克风(例如,多个麦克风202、204、206、208、210、212、214、216、218)接收的多个信号转换410为信号的频域表示(例如,多个基于频域的信号600)。在一些实现中,将一个或多个信号转换410到特征域可以包括从信号获得频率分量。在一些实现中,数据增强过程10可以通过对信号应用短时傅立叶变换(STFT)来从信号获得频率分量。虽然讨论了作为从信号获得频率分量的方式的STFT,但是可以理解,在本公开的范围内,可以使用其他变换来从信号中导出频率分量和/或将信号的时域表示转换为信号的频域表示。
在一些实现中,对一个或多个信号执行402一个或多个基于麦克风间增益的增强可以包括:将多个增益级别应用412于被转换到频域的一个或多个信号的多个频带。例如,麦克风阵列的增益级别可变性可能与频率相关。在一些实现中,数据增强过程10可以为多个频带定义多个增益级别。例如,数据增强过程10可以针对定义各种频带的增益级别的向量(例如,增益级别向量602)。在该示例中,增益级别向量602的每个条目可以对应于特定频率或频带。在一些实现中,数据增强过程10可以对每个频带应用412相同的增益级别,或者可以对从麦克风阵列接收的多个信号中的每个麦克风信号的每个频带应用412不同的增益级别。
在一些实现中,对一个或多个信号执行402一个或多个基于麦克风间增益的增强可以包括以下一项或多项:放大414一个或多个信号的至少一部分和衰减416一个或多个信号的至少一部分。例如,假设增益级别向量602为特定频带指定大于1的增益级别。在该示例中,数据增强过程10可以将来自每个麦克风的信号的频带放大414增益级别。在另一示例中,假设增益级别向量602为另一频带指定了小于1的增益级别。在该示例中,数据增强过程10可以将来自每个麦克风的信号的频带衰减416增益级别。因此,数据增强过程10可以通过放大414和/或衰减416麦克风阵列的每个麦克风的信号来对一个或多个信号执行402一个或多个基于麦克风间增益的增强。以此方式,数据增强过程10可以增强训练数据以解释或表示麦克风阵列的麦克风之间的麦克风间增益级别不匹配。
如上所述并且至少参考图7至图8,数据增强过程10可以从多个麦克风中的每个麦克风接收700语音信号,从而定义多个信号。可以接收702与麦克风自噪声相关联的一个或多个噪声信号。可以至少部分地基于与麦克风自噪声相关联的一个或多个噪声信号,对多个信号执行704一个或多个基于自噪声的增强,从而定义一个或多个基于自噪声的增强信号。
还参考图8,并且在一些实现中,音频记录系统104可以包括具有多个分立麦克风配件的定向麦克风阵列200。例如,音频记录系统104可以包括多个分立音频采集设备(例如,音频采集设备202、204、206、208、210、212、214、216、218),其可以形成麦克风阵列200。在一些实现中,每个音频采集设备或麦克风可以包括麦克风配件、放大器和/或模数转换系统。如上所述,每个麦克风(例如,音频采集设备202、204、206、208、210、212、214、216、218)在每个麦克风的配置或操作中可能具有缺陷和/或不匹配。例如,麦克风阵列200中的每个麦克风可以包括影响每个麦克风处理语音信号的能力的各种物理特性。在一些实现中,麦克风配件、放大器和/或模数转换系统的组合可能引入与麦克风阵列200接收的信号相关联的麦克风“自噪声”。如上所述,“自噪声”可以指麦克风在没有外部噪声的环境中定位时输出的噪声量。这种噪声的频谱形状可能对某些频率或频带的影响比其他频率或频带更大,并且不同的麦克风可能具有不同的自噪声级别或特性。
例如,假设麦克风204输出第一噪声信号,而麦克风214输出第二噪声信号。在该示例中,由每个麦克风输出的自噪声信号可能导致语音处理系统(例如,语音处理系统300)进行错误或不准确的信号处理。因此,数据增强过程10可以对现有训练数据和/或从各种麦克风接收700的信号执行704增强,以生成基于麦克风自噪声的增强信号。这些基于麦克风自噪声的增强信号可用于训练语音处理系统300以考虑由麦克风阵列200的特定麦克风输出的自噪声。
在一些实现中,数据增强过程10可以从多个麦克风中的每个麦克风接收700信号,从而定义多个信号。再次参考图8,并且在一些实现中,麦克风阵列200可以处理来自各种源的语音(例如,音频就诊信息106A-106C)。因此,麦克风202、204、206、208、210、212、214、216、218可以生成表示由麦克风阵列200处理的语音的信号(例如,多个信号500)。在一些实现中,数据增强过程10可以从麦克风202、204、206、208、210、212、214、216、218中的一些或每一个接收700信号。
在一些实现中,数据增强过程10可以接收702与麦克风自噪声相关联的一个或多个噪声信号。如上所述,并且在一些实现中,每个麦克风可以在没有任何外部噪声的情况下输出噪声信号。输出噪声信号或麦克风自噪声的特性可以基于麦克风配件、放大器和/或模数转换系统的机电属性。再次参考图8,数据增强过程10可以从各种源(例如,一个或多个机器学习模型、部署在无噪声环境中的麦克风的测量等)接收702与麦克风自噪声相关联的一个或多个噪声信号(例如,一个或多个噪声信号800)。
在一些实现中,接收702与麦克风自噪声相关联的一个或多个噪声信号可以包括:模拟706表示麦克风自噪声的模型。例如,可以使用一个或多个机器学习模型来模拟一个或多个噪声信号,该一个或多个机器学习模型被配置为“学习”麦克风阵列或单个麦克风的特性如何生成噪声。如上所述并且如本领域中已知的,机器学习模型通常可以包括被训练为识别某些类型的模式的算法或算法组合。在一些实现中,机器学习模型(例如,机器学习模型302)可以被配置为模拟麦克风的操作,以生成与麦克风自噪声相关联的一个或多个噪声信号(例如,一个或多个噪声信号800)。
在一些实现中,接收702与麦克风自噪声相关联的一个或多个噪声信号可以包括:测量708来自至少一个麦克风的自噪声。例如并且如上所述,数据增强过程10可以从麦克风阵列接收多个信号。在一些实现中,数据增强过程10可以确定麦克风阵列的每个麦克风的自噪声(例如,一个或多个噪声信号800)。例如,数据增强过程10可以定义麦克风阵列的自噪声信号的分布(例如,通常针对每个麦克风和/或麦克风阵列)。在一些实现中,自噪声信号的分布可以是频率的函数,使得通常针对特定麦克风和/或麦克风阵列,作为频率的函数观察到不同的噪声响应。
在一些实现中,数据增强过程10可以至少部分地基于与麦克风自噪声相关联的一个或多个噪声信号来对多个信号执行704一个或多个基于自噪声的增强,从而定义一个或多个基于自噪声的增强信号。基于自噪声的增强信号通常可以包括信号或训练数据的增强,以包括表示由麦克风生成的自噪声的噪声。如上所述,基于自噪声的增强信号可以允许语音处理系统(例如,语音处理系统300)考虑由麦克风输出的自噪声,而不需要在具有麦克风阵列的传统语音处理系统中使用的昂贵且复杂的信号补偿技术。
在一些实现中,一个或多个噪声信号可以与特定麦克风或麦克风阵列相关联。例如,假设讲话者在临床环境中讲话,该临床环境中部署有模块化ACD系统54的麦克风阵列。在该示例中,麦克风阵列的麦克风的属性可以输出由麦克风阵列处理的语音信号中的各种噪声信号或噪声信号分布。现在假设讲话者向位于临床环境中的分离计算设备内的虚拟助手讲话。在该示例中,尽管环境特征保持相同(即,临床环境),但虚拟助手的麦克风阵列可以具有可能与模块化ACD系统54的麦克风阵列不同地影响信号处理的因素和特性。在一些实现中,麦克风阵列之间的区别可能对语音处理系统的性能具有各种影响。因此,数据增强过程10可以允许由一个麦克风阵列接收的语音信号用于训练具有其他麦克风阵列的语音处理系统和/或用于用新的适配数据适配语音处理系统或模型。
在一些实现中,数据增强过程10可以接收对目标麦克风阵列的选择。目标麦克风阵列可以包括一种类型的麦克风或麦克风阵列。在一些实现中,数据增强过程10可以通过提供与目标麦克风阵列相关联的特定自噪声特性来接收对目标麦克风阵列的选择。在一些实现中,数据增强过程10可以利用图形用户界面来从目标麦克风阵列的库中接收对目标麦克风阵列的选择。在一个示例中,数据增强过程10可以接收对麦克风阵列的各种特性(例如,麦克风阵列的类型、麦克风阵列的麦克风的布置等)的选择(例如,经由图形用户界面),以定义目标麦克风阵列。如下面将更详细地讨论的,并且在一些实现中,数据增强过程10可以接收目标麦克风阵列的特性的范围或分布。虽然已经描述了图形用户界面的示例,但是可以理解,可以在本公开的范围内以各种方式选择目标麦克风阵列(例如,由用户手动选择、通过数据增强过程10自动选择、预定义的目标麦克风阵列等)。
在一些实现中,数据增强过程10可以至少部分地基于目标麦克风阵列对多个信号执行704一个或多个基于自噪声的增强。如下面将更详细地讨论的,出于各种原因,可能希望增加与特定麦克风阵列相关联的多个信号。例如,并且在一些实现中,数据增强过程10可以对多个信号执行一个或多个基于自噪声的增强,以利用多个信号训练具有目标麦克风阵列的语音处理系统。在该示例中,数据增强过程10可以利用由不同麦克风阵列接收的语音信号来训练语音处理系统,这可以允许语音处理系统使用增强的训练信号集合与各种麦克风阵列一起有效地利用。
在另一示例中,数据增强过程10可以对多个信号执行704一个或多个基于自噪声的增强,以生成用于语音处理系统的附加训练数据,其在相同或相似类型的麦克风或麦克风阵列中具有变化的自噪声。以此方式,数据增强过程10可以通过用表示麦克风阵列的麦克风中的缺陷的自噪声信号来增强训练数据集,来训练语音处理系统对麦克风自噪声更加鲁棒。虽然已经提供了用于利用基于自噪声的增强信号的两个示例,但是可以理解,在本公开的范围内,数据增强过程10可以针对各种其他目的对多个信号执行基于自噪声的增强。例如,并且在一些实现中,基于自噪声的增强可用于用新的适配数据(例如,基于自噪声的增强信号)来适配语音处理系统。
在一些实现中,至少部分地基于与麦克风自噪声相关联的一个或多个噪声信号对多个信号执行704一个或多个基于自噪声的增强可以包括:将来自一个或多个噪声信号的噪声信号添加710到来自每个麦克风的信号。例如,假设数据增强过程10接收702与麦克风204的自噪声相关联的第一噪声信号和与麦克风214的自噪声相关联的第二噪声信号。在该示例中,数据增强过程10可以将与麦克风204的自噪声相关联的第一噪声信号和与麦克风214的自噪声相关联的第二噪声信号添加到多个信号(例如,多个信号500)中的来自每个麦克风的信号。因此,数据增强过程10可以为来自每个麦克风的信号生成一个或多个基于自噪声的增强信号(例如,基于自噪声的增强信号802)。以此方式,数据增强过程10可以允许利用麦克风204的自噪声和麦克风214的自噪声来生成训练数据。虽然已经描述了麦克风阵列200中的两个麦克风的两个自噪声信号的示例,但是可以理解,在本公开的范围内,可以将任意数量的麦克风的任意数量的自噪声信号添加到来自每个麦克风的信号,以生成一个或多个基于自噪声的增强信号。
在一些实现中,将噪声信号添加710到来自每个麦克风的信号可以包括:至少部分地基于一个或多个基于自噪声的增强信号的预定义信噪比,将来自一个或多个噪声信号的噪声信号添加712到来自每个麦克风的信号。例如,数据增强过程10可以接收对一个或多个基于自噪声的增强信号的信噪比(SNR)的选择。在一些实现中,可以接收SNR比作为SNR参数的选择(例如,从用户经由用户界面)。在一些实现中,SNR参数可以包括为特定麦克风阵列或麦克风类型定义的默认SNR参数。
在一些实现中,将来自一个或多个噪声信号的噪声信号添加710到来自每个麦克风的信号可以包括:将来自一个或多个噪声信号的随机噪声信号添加714到来自每个麦克风的信号。例如并且如上所述,数据增强过程10可以接收与麦克风阵列的一个或多个麦克风的麦克风自噪声相关联的一个或多个噪声信号。继续上面的示例,假设数据增强过程10接收702与麦克风204的自噪声相关联的第一噪声信号和与麦克风214的自噪声相关联的第二噪声信号。在该示例中,数据增强过程10可以将随机噪声信号(例如,第一噪声信号和/或第二噪声信号)添加714到来自每个麦克风的信号(例如,来自每个麦克风202、204、206、208、210、212、214、216、218的信号)。以此方式,数据增强过程10可以为语音处理系统生成更多样的训练数据,其允许语音处理系统对麦克风阵列中的麦克风配件的麦克风自噪声更鲁棒。
如上所述并且至少参考图9至图11,数据增强过程10可以从多个麦克风中的每个麦克风接收900信号,从而定义多个信号。可以接收902与至少一个麦克风相关联的一个或多个麦克风频率响应。可以至少部分地基于一个或多个麦克风频率响应对多个信号执行904一个或多个基于麦克风频率响应的增强,从而定义一个或多个基于麦克风频率响应的增强信号。
还参考图10,并且在一些实现中,音频记录系统104可以包括具有多个分立麦克风配件的定向麦克风阵列200。例如,音频记录系统104可以包括多个分立音频采集设备(例如,音频采集设备202、204、206、208、210、212、214、216、218),其可以形成麦克风阵列200。在一些实现中,每个音频采集设备或麦克风可以包括麦克风配件、放大器和模数转换系统。如上所述,每个麦克风(例如,音频采集设备202、204、206、208、210、212、214、216、218)在每个麦克风的配置或操作中可能具有缺陷和/或不匹配。
例如,麦克风阵列200中的每个麦克风可以包括影响每个麦克风处理语音信号的能力的各种物理特性。在一些实现中,麦克风配件、放大器、模数转换系统和/或每个麦克风的外壳的组合可能引入麦克风频率响应。在一些实现中,麦克风频率响应可以指幅度方面的非平坦频率响应和相位方面的非线性频率响应,其指示不同频率处的麦克风灵敏度的改变。典型的MEMS麦克风展示了非平坦频率响应形状。例如,麦克风外壳还可以将频谱整形引入麦克风频率响应。还参考图11,并且在一些实现中,麦克风频率响应可以作为应用于麦克风的各种类型的覆盖物或垫片的函数而变化。因此,应当理解,麦克风的频率响应可以包括针对麦克风的不同物理特性的信号幅度和/或相位的变化。在一些实现中,改变麦克风阵列的一个或多个麦克风的麦克风频率响应可能导致语音处理系统对语音信号的错误处理。
例如,假设麦克风206以第一麦克风频率响应为特征,而麦克风216以第二频率响应为特征。在该示例中,由每个麦克风产生的麦克风频率响应可能导致语音处理系统(例如,语音处理系统300)进行错误或不准确的信号处理。因此,数据增强过程10可以对现有训练数据和/或从各种麦克风接收的信号900执行904增强,以生成基于麦克风频率响应的增强信号。这些基于麦克风频率响应的增强信号可用于训练语音处理系统300以考虑由麦克风阵列200中的特定麦克风生成的频率响应。
在一些实现中,数据增强过程10可以从多个麦克风中的每个麦克风接收信号900,从而定义多个信号。再次参考图10,并且在一些实现中,麦克风阵列200可以处理来自各种源的语音(例如,音频就诊信息106A-106C)。因此,麦克风202、204、206、208、210、212、214、216、218可以生成表示由麦克风阵列200处理的语音的信号(例如,多个信号500)。在一些实现中,数据增强过程10可以从麦克风202、204、206、208、210、212、214、216、218中的一些或每一个接收900信号。
在一些实现中,数据增强过程10可以接收902与至少一个麦克风相关联的一个或多个麦克风频率响应。如上所述,并且在一些实现中,每个麦克风可以基于麦克风的物理特性来生成频率响应。麦克风频率响应的形状(例如,在幅度和相位方面)可以基于麦克风配件、放大器、模数转换系统和/或麦克风外壳的机电属性。再次参考图10,数据增强过程10可以从各种源(例如,一个或多个机器学习模型、从对至少一个麦克风的频率响应的测量等)接收902与至少一个麦克风相关联的一个或多个麦克风频率响应(例如,一个或多个麦克风频率响应1000)。
在一些实现中,接收902与至少一个麦克风相关联的一个或多个频率响应可以包括:模拟906表示麦克风频率响应的一个或多个模型。例如,可以使用一个或多个机器学习模型来模拟一个或多个麦克风频率响应,该一个或多个机器学习模型被配置为“学习”各个麦克风的频率响应。如上所述并且如本领域中已知的,机器学习模型通常可以包括被训练为识别某些类型的模式的算法或算法组合。在一些实现中,机器学习模型(例如,机器学习模型302)可以被配置为模拟麦克风的操作以生成一个或多个频率响应(例如,一个或多个麦克风频率响应1000)。
在一些实现中,接收902与至少一个麦克风相关联的一个或多个频率响应可以包括:测量908来自至少一个麦克风的频率响应。例如并且如上所述,数据增强过程10可以从麦克风阵列接收多个信号。在一些实现中,数据增强过程10可以确定麦克风阵列的每个麦克风的频率响应。例如,数据增强过程10可以定义麦克风阵列的频率响应的分布(例如,通常针对每个麦克风和/或麦克风阵列)。
在一些实现中,数据增强过程10可以至少部分地基于一个或多个麦克风频率响应对多个信号执行一个或多个基于麦克风频率响应的增强,从而定义一个或多个基于麦克风频率响应的增强信号。基于麦克风频率响应的增强信号通常可以包括信号或训练数据的增强,以包括作为频率的函数的信号或训练数据的相位和/或幅度的增强。如上所述,基于麦克风频率响应的增强信号可以允许语音处理系统(例如,语音处理系统300)考虑作为麦克风的频率的函数的相位和/或幅度变化,而不需要在具有麦克风阵列的传统语音处理系统中使用的昂贵且复杂的信号补偿技术。
在一些实现中,一个或多个麦克风频率响应可以与特定麦克风或麦克风阵列相关联。例如,假设讲话者在临床环境中讲话,该临床环境中部署有模块化ACD系统54的麦克风阵列。在该示例中,麦克风阵列的麦克风的属性可以生成各种频率响应。现在假设讲话者向位于临床环境中的分离计算设备内的虚拟助手讲话。在该示例中,尽管环境特征保持相同(即,临床环境),但虚拟助手的麦克风阵列可以具有可能与模块化ACD系统54的麦克风阵列不同地影响信号处理的因素和特性。在一些实现中,麦克风阵列之间的区别可能对语音处理系统的性能具有各种影响。因此,数据增强过程10可以允许由一个麦克风阵列接收的语音信号用于训练具有其他麦克风阵列的语音处理系统和/或用于用新的适配数据适配语音处理系统或模型。
在一些实现中,数据增强过程10可以接收对目标麦克风或麦克风阵列的选择。目标麦克风或麦克风阵列可以包括一种类型的麦克风或麦克风阵列。在一些实现中,数据增强过程10可以通过提供与目标麦克风或麦克风阵列相关联的特定频率响应来接收对目标麦克风或麦克风阵列的选择。在一些实现中,数据增强过程10可以利用图形用户界面来从目标麦克风阵列的库中接收对目标麦克风阵列的选择。在一个示例中,数据增强过程10可以接收对麦克风阵列的各种特性(例如,麦克风阵列的类型、麦克风阵列的麦克风的布置等)的选择(例如,经由图形用户界面),以定义目标麦克风阵列。如下面将更详细地讨论的,并且在一些实现中,数据增强过程10可以接收目标麦克风阵列的特性的范围或分布。虽然已经描述了图形用户界面的示例,但是可以理解,可以在本公开的范围内以各种方式选择目标麦克风阵列(例如,由用户手动选择、通过数据增强过程10自动选择、预定义的目标麦克风阵列等)。
在一些实现中,数据增强过程10可以至少部分地基于目标麦克风或麦克风阵列对多个信号执行904一个或多个基于麦克风频率响应的增强。如下面将更详细地讨论的,出于各种原因,可能希望增强与特定麦克风阵列相关联的多个信号。例如,并且在一些实现中,数据增强过程10可以对多个信号执行一个或多个基于麦克风频率响应的增强,以利用多个信号训练具有目标麦克风阵列的语音处理系统。在该示例中,数据增强过程10可以利用由不同麦克风阵列接收的语音信号来训练语音处理系统,这可以允许语音处理系统使用增强的训练信号集合与各种麦克风阵列一起有效地利用。
在另一示例中,数据增强过程10可以对多个信号执行一个或多个基于麦克风频率响应的增强,以生成用于语音处理系统的附加训练数据,其在相同或相似类型的麦克风阵列之中具有变化的频率响应。以此方式,数据增强过程10可以通过用各种频率响应或频率响应分布来增强训练数据集,来训练语音处理系统对频率响应的变化更鲁棒。虽然已经提供了用于利用基于麦克风频率响应的增强信号的两个示例,但是可以理解,在本公开的范围内,数据增强过程10可以针对各种其他目的对多个信号执行基于麦克风频率响应的增强。例如,并且在一些实现中,基于频率响应的增强可用于用新的适配数据适配语音处理系统(例如,基于麦克风频率响应的增强)。
在一些实现中,至少部分地基于一个或多个麦克风频率响应对多个信号执行904一个或多个基于麦克风频率响应的增强可以包括:至少部分地基于一个或多个麦克风频率响应来增强910多个信号的一个或多个幅度分量和相位分量。如上所述,并且在一些实现中,每个信号可以包括幅度分量和相位分量。继续上面的示例,假设麦克风206输出第一麦克风频率响应,而麦克风216输出第二频率响应。在该示例中,数据增强过程10可以利用与麦克风206相关联的第一麦克风频率响应幅度分量和/或相位分量和/或与麦克风216相关联的第二麦克风频率响应的幅度分量和/或相位分量来增强来自每个麦克风(例如,麦克风202、204、206、208、210、212、214、216、218)的信号。
在一些实现中,至少部分地基于一个或多个麦克风频率响应对多个信号执行904一个或多个基于麦克风频率响应的增强可以包括:利用一个或多个麦克风频率响应对多个信号进行滤波912。例如,数据增强过程10可以利用一个或多个麦克风频率响应(例如,一个或多个麦克风频率响应1000)对来自多个信号(例如,多个信号500)中的每个麦克风信号进行滤波。如本领域中已知的,对信号进行滤波可以包括在时域中对信号进行卷积并且在频域中将信号相乘。例如,信号卷积是组合两个信号以形成第三信号的数学方法,而在时域中卷积信号相当于在频域中将信号的频谱相乘。在一些实现中,利用一个或多个麦克风频率响应(例如,一个或多个麦克风频率响应1000)对多个信号(例如,多个信号500)进行滤波912可以生成一个或多个基于麦克风频率响应的增强信号(例如,一个或多个基于麦克风频率响应的增强信号1002)。
继续上面的示例,数据增强过程10可以至少部分地基于一个或多个麦克风频率响应,通过利用与麦克风206相关联的麦克风频率响应对多个信号500进行滤波912,来对多个信号执行一个或多个基于麦克风频率响应的增强,以生成一个或多个基于麦克风频率响应的增强信号1002。在该示例中,利用与麦克风206相关联的麦克风频率响应对多个信号500进行滤波可以生成多个信号的幅度和/或相位增强或变化。以此方式,数据增强过程10可以生成增强信号(例如,一个或多个基于麦克风频率响应的增强信号1002),其允许语音处理系统在处理语音信号时考虑特定麦克风的频率响应。
在一些实现中,至少部分地基于一个或多个麦克风频率响应对多个信号执行904一个或多个基于麦克风频率响应的增强可以包括:利用从一个或多个麦克风频率响应中随机选择的麦克风频率响应对多个信号进行滤波914。例如,数据增强过程10可以至少部分地基于一个或多个麦克风频率响应,通过利用从一个或多个麦克风频率响应1000中随机选择的幅度分量和/或相位分量对多个信号500进行滤波914,来对多个信号执行904一个或多个基于麦克风频率响应的增强。在该示例中,数据增强过程10可以从与麦克风206相关联的麦克风频率响应和/或与麦克风216相关联的麦克风频率响应中随机选择幅度分量和/或相位分量,以利用来自多个信号500的麦克风信号进行滤波914。虽然已经提供了例如两个频率响应的示例,但是可以理解,在本公开的范围内,数据增强过程10可以至少部分地基于一个或多个麦克风频率响应,通过从任意数量的麦克风频率响应中随机选择的幅度分量和/或相位分量对多个信号500进行滤波914,来对多个信号执行904一个或多个基于麦克风频率响应的增强。
如上所述并且至少参考图12至图13,数据增强过程10可以从多个麦克风中的每个麦克风接收1200信号,从而定义多个信号。可以确定1202与至少一个麦克风相关联的谐波失真。可以至少部分地基于与至少一个麦克风相关联的谐波失真,对多个信号执行1204一个或多个基于谐波失真的增强,从而定义一个或多个基于谐波失真的增强信号。
还参考图13,并且在一些实现中,音频记录系统可以包括具有多个分立麦克风组件的定向麦克风阵列200。例如,音频记录系统104可以包括多个分立音频采集设备(例如,音频采集设备202、204、206、208、210、212、214、216、218),其可以形成麦克风阵列200。在一些实现中,每个音频采集设备或麦克风可以包括麦克风配件、放大器和模数转换系统。如上所述,每个麦克风(例如,音频采集设备202、204、206、208、210、212、214、216、218)在每个麦克风的配置或操作中可能具有缺陷和/或不匹配。
例如,麦克风阵列200中的每个麦克风可以包括影响每个麦克风处理语音信号的能力的各种物理特性。在一些实现中,麦克风配件、放大器和/或模数转换系统的组合可能引入谐波失真。在一些实现中,谐波失真可以指对给定纯音输入信号的麦克风输出上的失真量的测量。在一些实现中,改变与麦克风阵列的一个或多个麦克风相关联的总谐波失真值可能导致语音处理系统对语音信号的错误处理。
例如,假设麦克风208输出第一总谐波失真,而麦克风218输出第二总谐波失真。在该示例中,由每个麦克风产生的总谐波失真可能导致语音处理系统(例如,语音处理系统300)进行错误或不准确的信号处理。因此,数据增强过程10可以对现有训练数据和/或从各种麦克风接收1200的信号执行1204增强,以生成基于谐波失真的增强信号。这些基于谐波失真的增强信号可用于训练语音处理系统300以考虑由麦克风阵列200中的特定麦克风生成的谐波失真。
在一些实现中,数据增强过程10可以从多个麦克风中的每个麦克风接收1200信号,从而定义多个信号。再次参考图13,并且在一些实现中,麦克风阵列200可以处理来自各种源的语音(例如,音频就诊信息106A-106C)。因此,麦克风202、204、206、208、210、212、214、216、218可以生成表示由麦克风阵列200处理的语音的信号(例如,多个信号500)。在一些实现中,数据增强过程10可以从麦克风202、204、206、208、210、212、214、216、218中的一些或每一个接收1200信号。
在一些实现中,数据增强过程10可以确定1202与至少一个麦克风相关联的总谐波失真。例如,并且如上所述,总谐波失真可以指对给定纯音输入信号的麦克风输出上的失真量的测量。麦克风的输出可以包括基波信号和相加在一起的多个谐波。在一些实现中,数据增强过程10可以接收与至少一个麦克风相关联的总谐波失真(例如,总谐波失真1300)。在一些实现中,数据增强过程10可以通过测量1206来自至少一个麦克风的总谐波失真来确定1202与至少一个麦克风相关联的总谐波失真。
例如,数据增强过程10可以通过每个麦克风(例如,麦克风配件、放大器和/或模数转换系统的组合)输入频率为“ω”的正弦信号。在该示例中,可以以原始频率(即“ω”)的N*ω(谐波)的倍数来添加附加内容。数据增强过程10可以通过测量来自输出信号的输入信号中不存在的附加信号内容来确定每个麦克风的总谐波失真。在一些实现中,数据增强过程10可以确定每个麦克风的多个谐波阶数(例如,输入频率的倍数)。如下面将更详细地讨论的,总谐波失真的谐波阶数可以用作参数(例如,谐波失真参数)以执行一个或多个基于谐波失真的增强。
再次参考图13,并且在一些实现中,假设数据增强过程10向至少一个麦克风(例如,麦克风208、218)提供纯正弦输入。在该示例中,数据增强过程10可以测量1206来自麦克风208、218的输出的任何附加内容(即,不包括在输入信号中的内容)。因此,数据增强过程10可以至少部分地基于来自麦克风208、218的输出的附加内容来确定1202麦克风208输出第一总谐波失真,而麦克风218输出第二总谐波失真。虽然已经描述了确定例如与两个麦克风相关联的两个总谐波失真的示例,但是可以理解,在本公开的范围内可以确定1202任意数量的麦克风的任意数量的总谐波失真。
在一些实现中,确定1202与至少一个麦克风相关联的总谐波失真可以包括模拟表示总谐波失真的一个或多个模型。例如,可以使用一个或多个机器学习模型来模拟总谐波失真,该一个或多个机器学习模型被配置为“学习”各个麦克风的总谐波失真。如上所述并且如本领域中已知的,机器学习模型通常可以包括被训练为识别某些类型的模式的算法或算法组合。在一些实现中,机器学习模型(例如,机器学习模型302)可以被配置为模拟麦克风的操作,以生成与至少一个麦克风相关联的总谐波失真(例如,总谐波失真1300)。
在一些实现中,确定1202与至少一个麦克风相关联的总谐波失真可以包括:接收1208与至少一个麦克风相关联的谐波失真参数。再次参考图13,并且在一些实现中,谐波失真参数(例如,谐波失真参数1302)可以指示与至少一个麦克风相关联的谐波的阶数。例如,谐波失真参数1302可以是与麦克风的输出相关联的或在麦克风的输出处生成的多个谐波(例如,谐波失真参数“1”可以引用一阶谐波;谐波失真参数“2”可以引用一阶和二阶谐波;以及谐波失真参数“n”可以引用“n”阶谐波)。在一些实现中,数据增强过程10可以利用图形用户界面来接收对谐波失真参数1302的选择。在一些实现中,谐波失真参数1302可以是可以由用户定义或选择的值来更新或替换的缺省值。
在一些实现中,数据增强过程10可以响应于确定1202与至少一个麦克风相关联的总谐波失真,来接收1208与至少一个麦克风相关联的谐波失真参数。例如,并且如上所述,当测量或模拟总谐波失真时,数据增强过程10可以确定由至少一个麦克风输出的谐波的数量。继续上面的示例,假设数据增强过程10确定1202麦克风208输出具有例如五次谐波的总谐波失真。以此方式,数据增强过程10可以将谐波失真参数1302定义为例如5,以表示与麦克风208相关联的谐波的阶数。
在一些实现中,数据增强过程10可以至少部分地基于与至少一个麦克风相关联的总谐波失真来对多个信号执行一个或多个基于谐波失真的增强,从而定义一个或多个基于谐波失真的增强信号。基于谐波失真的增强信号(例如,基于谐波失真的增强信号1304)通常可以包括信号或训练数据的增强,以包括表示由麦克风输出的谐波分量相加的信号中的增强。如上所述,基于谐波失真的增强信号可以允许语音处理系统(例如,语音处理系统300)考虑在麦克风的输出信号中生成的谐波分量,而不需要在具有麦克风阵列的传统语音处理系统中使用的昂贵且复杂的信号补偿技术。
在一些实现中,一个或多个总谐波失真(例如,总谐波失真1300)可以与特定麦克风或麦克风阵列相关联。例如,假设讲话者在临床环境中讲话,该临床环境中部署有模块化ACD系统54的麦克风阵列。在该示例中,麦克风阵列的麦克风的属性可以输出各种总谐波失真。现在假设讲话者向位于临床环境中的分离计算设备内的虚拟助手讲话。在该示例中,尽管环境特征保持相同(即,临床环境),但虚拟助手的麦克风阵列可以具有可能与模块化ACD系统54的麦克风阵列不同地影响信号处理的因素和特性。在一些实现中,麦克风阵列之间的区别可能对语音处理系统的性能具有各种影响。因此,数据增强过程10可以允许由一个麦克风阵列接收的语音信号用于训练具有其他麦克风阵列的语音处理系统和/或用于用新的适配数据适配语音处理系统或模型。
在一些实现中,数据增强过程10可以接收对目标麦克风或麦克风阵列的选择。目标麦克风或麦克风阵列可以包括一种类型的麦克风或麦克风阵列。在一些实现中,数据增强过程10可以通过提供与目标麦克风或麦克风阵列相关联的特定总谐波失真来接收对目标麦克风或麦克风阵列的选择。在一些实现中,数据增强过程10可以利用图形用户界面来接收在目标麦克风阵列的库中对目标麦克风阵列的选择。在一个示例中,数据增强过程10可以接收对麦克风阵列的各种特性(例如,麦克风阵列的类型、麦克风阵列的麦克风的布置等)的选择(例如,经由图形用户界面),以定义目标麦克风阵列。在一些实现中,数据增强过程10可以接收目标麦克风阵列的特性的范围或分布。虽然已经描述了图形用户界面的示例,但是可以理解,在本公开的范围内可以以各种方式选择目标麦克风阵列(例如,由用户手动选择、通过数据增强过程10自动选择、预定义的目标麦克风阵列等)。
在一些实现中,数据增强过程10可以至少部分地基于与至少一个麦克风相关联的总谐波失真来对多个信号执行1204一个或多个基于谐波失真的增强。如下面将更详细地讨论的,出于各种原因,可能希望增强与特定麦克风阵列相关联的多个信号。例如,并且在一些实现中,数据增强过程10可以对多个信号执行一个或多个基于谐波失真的增强,以利用多个信号训练具有目标麦克风阵列的语音处理系统。在该示例中,数据增强过程10可以利用由不同麦克风阵列接收的语音信号来训练语音处理系统,这可以允许语音处理系统使用增强的训练信号集合与各种麦克风阵列一起有效地利用。
在另一示例中,数据增强过程10可以对多个信号执行1204一个或多个基于谐波失真的增强,以生成用于语音处理系统的附加训练数据,其在相同或相似类型的麦克风阵列之间具有变化的总谐波失真。以此方式,数据增强过程10可以通过用各种谐波失真或谐波失真分布来增强训练数据集,来训练语音处理系统对谐波失真的变化更加鲁棒。虽然已经提供了用于利用基于谐波失真的增强信号的两个示例,但是可以理解,在本公开的范围内,数据增强过程10可以出于各种其他目的对多个信号执行基于谐波失真的增强。例如,并且在一些实现中,基于谐波失真的增强可用于利用新的适配数据(例如,基于谐波失真的增强1304)适配语音处理系统。
在一些实现中,至少部分地基于谐波失真参数对多个信号执行1204一个或多个基于谐波失真的增强可以包括:至少部分地基于谐波失真参数和谐波失真系数表来生成1210基于谐波失真的增强信号。例如,数据增强过程10可以利用谐波失真参数1302和谐波失真系数表来生成一个或多个基于谐波失真的增强信号(例如,基于谐波失真的增强信号1306)。在一些实现中,数据增强过程10可以参考来自被测量设备的样本(例如,从多个麦克风测量的总谐波失真)的共同总谐波失真系数表(例如,谐波失真系数表1306)。在一些实现中,数据增强过程10可以至少部分地基于如下公式1中所示的谐波失真参数和谐波失真系数表来生成1210基于谐波失真的增强信号,其中“N”是最高谐波失真的阶数(例如,基于谐波失真参数),并且“p[N]”表示第N次谐波对总谐波失真的贡献:
(1)谐波失真信号=p[0]·xN-1+p[1]·xN-2+…+p[N-2]·x+p[N-1]
在一些实现中,数据增强过程10可以至少部分地基于从至少一个麦克风测量的总谐波失真来生成1212谐波失真系数表。在一个示例中,假设数据增强过程10测量1206与麦克风208相关联的总谐波失真。如上所述,假设数据增强过程10向麦克风208提供纯正弦输入。在该示例中,假设数据增强过程10针对来自麦克风208的输出的任何附加内容(即,不包括在输入信号中的内容)测量1206,并且确定麦克风208输出具有例如5个谐波分量(例如,麦克风208的输出信号中的1到5次谐波)的总谐波失真。数据增强过程10可以至少部分地基于麦克风208的输出信号来生成1212具有一个或多个谐波失真系数的谐波失真系数表1306。虽然上面的示例描述了从单个麦克风的总谐波失真生成具有谐波失真系数的谐波失真系数表,但是可以理解,在本公开的范围内,数据增强过程10可以为任意数量的麦克风生成1212具有任意数量的谐波失真系数的谐波失真系数表1306。
继续上面的示例,假设数据增强过程10确定1202麦克风208输出具有例如5次谐波的第一总谐波失真。在该示例中,数据增强过程10可以将麦克风208的谐波失真参数1302定义为“5”,指示5个谐波分量或阶数。在一些实现中,数据增强过程10可以查找或标识一个或多个谐波失真系数以利用麦克风208的谐波失真参数“5”应用于公式1。因此,数据增强过程10可以至少部分地基于谐波失真参数1302和谐波失真系数表1306,从多个信号(例如,多个信号500)生成一个或多个基于谐波失真的增强信号1304。以此方式,数据增强过程10可以增强多个信号500以对麦克风208的谐波失真更鲁棒。尽管以上示例包括至少部分地基于与一个麦克风相关联的谐波失真参数来生成一个或多个基于谐波失真的增强信号,但是可以理解,在本公开的范围内,针对任意数量的麦克风确定的任意数量的谐波失真参数和/或总谐波失真,可以生成任意数量的基于谐波失真的增强信号。一般信息:
如本领域技术人员将理解的,本公开可以被实施为一种方法、系统或计算机程序产品。因此,本公开可以采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等),或者是结合了软件和硬件方面的实施例的形式,本文通常可以将其统称为“电路”、“模块”或“系统”。此外,本公开可以采取计算机可用存储介质上的计算机程序产品的形式,在该介质中实施有计算机可用程序代码。
可以利用任何适合的计算机可用或计算机可读介质。计算机可用或计算机可读介质可以是例如但不限于电子、磁、光、电磁、红外或半导体系统、装置、设备或传播介质。计算机可读介质的更具体的示例(非穷举列表)可以包括以下内容:具有一条或多条导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式致密盘只读存储器(CD-ROM)、光存储设备、诸如支持互联网或内联网的那些传输介质的传输介质、或磁存储设备。计算机可用或计算机可读介质也可以是在其上打印程序的纸张或其他适合的介质,因为程序可以通过例如对纸张或其他介质的光学扫描来电子捕获,然后在必要时以适当的方式编译、解释或以其他方式处理,然后存储在计算机存储器中。在本文档的上下文中,计算机可用或计算机可读介质可以是可以包含、存储、通信、传播或传输由指令执行系统、装置或设备使用或与之结合的程序的任何介质。该计算机可用介质可以包括传播的数据信号,其具有在基带中或作为载波的一部分实施在其中的计算机可用程序代码。计算机可用程序代码可以使用任何适当的介质来传输,包括但不限于互联网、有线、光纤电缆、RF等。
用于执行本公开的操作的计算机程序代码可以用面向对象的编程语言编写,例如Java、Smalltalk、C++等。然而,用于执行本公开的操作的计算机程序代码也可以用传统过程编程语言来编写,诸如“C”编程语言或类似的编程语言。程序代码可以完全在用户的计算机上、部分在用户的计算机上、作为独立的软件包、部分在用户的计算机上且部分在远程计算机上或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过局域网/广域网/互联网(例如,网络14)连接到用户的计算机。
参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开。可以理解,流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供给通用计算机/专用计算机/其他可编程数据处理装置的处理器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现一个或多个流程图和/或框图框中指定的功能/动作的装置。
这些计算机程序指令也可以存储在计算机可读存储器中,其可以指示计算机或其他可编程数据处理装置以特定方式运行,使得存储在计算机可读存储器中的指令产生包括实现一个或多个流程图和/或框图框中指定的功能/动作的指令装置的制品。
计算机程序指令还可以被加载到计算机或其他可编程数据处理装置上,以使在计算机或其他可编程装置上执行一系列操作步骤以产生计算机实现的过程,使得在计算机或其他可编程装置上执行的指令提供用于实现一个或多个流程图和/或框图框中指定的功能/动作的步骤。
附图中的流程图和框图可以示出根据本公开的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。就此而言,流程图或框图中的每个框可以表示代码的模块、段或部分,其包括用于实现(多个)指定逻辑功能的一个或多个可执行指令。还应注意的是,在一些备选实现中,框中注明的功能可以以附图中注明的顺序发生。例如,事实上,连续显示的两个框可以基本上同时执行,或者这些框有时可以相反的顺序执行,根本不执行,或者根据所涉及的功能与任何其他流程图的任何组合来执行。还应注意的是,框图和/或流程图的每个框以及框图和/或流程图中的框的组合可以由执行指定功能或动作的基于专用硬件的系统、或专用硬件和计算机指令的组合来实现。
本文使用的术语仅用于描述特定实施例的目的,并不旨在限制本公开。如本文所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文另有明确指示。还应当理解,当在本说明书中使用时,术语“包括”和/或“包含”指定了所陈述的特征、整数、步骤、操作、元件和/或组件的存在,但不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
所附权利要求中的所有装置或步骤加上功能元件的对应结构、材料、动作和等同形式旨在根据具体要求保护的内容,包括用于结合其他要求保护的元件执行功能的任何结构、材料或动作。本公开的描述是为了说明和描述的目的而提出的,但并不旨在穷尽本公开或将本公开限于所公开的形式。在不背离本公开的范围和精神的情况下,许多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了最好地解释本公开的原理和实际应用,并且使本领域普通技术人员能够理解具有适合于预期的特定用途的各种修改的各种实施例的公开。
已经描述了多个实现。在如此详细地并且参考其实施例描述了本申请的公开之后,显然,在不背离所附权利要求中限定的本公开的范围的情况下,修改和变型是可能的。

Claims (20)

1.一种在计算设备上执行的计算机实现的方法,包括:
接收来自多个麦克风中的每个麦克风的语音信号,从而定义多个信号;
接收与麦克风自噪声相关联的一个或多个噪声信号;以及
至少部分地基于与麦克风自噪声相关联的所述一个或多个噪声信号对所述多个信号执行一个或多个基于自噪声的增强,从而定义一个或多个基于自噪声的增强信号。
2.根据权利要求1所述的计算机实现的方法,其中接收与麦克风自噪声相关联的所述一个或多个噪声信号包括:模拟表示麦克风自噪声的模型。
3.根据权利要求1所述的计算机实现的方法,接收与麦克风自噪声相关联的所述一个或多个噪声信号包括:测量来自至少一个麦克风的自噪声。
4.根据权利要求1所述的计算机实施的方法,其中至少部分地基于与麦克风自噪声相关联的所述一个或多个噪声信号对所述多个信号执行所述一个或多个基于自噪声的增强包括:将来自所述一个或多个噪声信号的噪声信号添加到来自每个麦克风的所述语音信号。
5.根据权利要求4所述的计算机实现的方法,其中将噪声信号添加到来自每个麦克风的所述语音信号包括:至少部分地基于针对所述一个或多个基于自噪声的增强信号的预定义信噪比,将来自所述一个或多个噪声信号的噪声信号添加到来自每个麦克风的所述语音信号。
6.根据权利要求4所述的计算机实现的方法,其中将来自所述一个或多个噪声信号的噪声信号添加到来自每个麦克风的所述语音信号包括:将来自所述一个或多个噪声信号的随机噪声信号添加到来自每个麦克风的所述语音信号。
7.根据权利要求1所述的计算机实现的方法,其中所述多个麦克风定义麦克风阵列。
8.一种计算机程序产品,所述计算机程序产品驻留在非瞬态计算机可读介质上,所述非瞬态计算机可读介质上存储有多个指令,所述指令在由处理器执行时,使所述处理器执行操作,所述操作包括:
接收来自多个麦克风中的每个麦克风的语音信号,从而定义多个信号;
接收与麦克风自噪声相关联的一个或多个噪声信号;以及
至少部分地基于与麦克风自噪声相关联的所述一个或多个噪声信号对所述多个信号执行一个或多个基于自噪声的增强,从而定义一个或多个基于自噪声的增强信号。
9.根据权利要求8所述的计算机程序产品,其中接收与麦克风自噪声相关联的所述一个或多个噪声信号包括:模拟表示麦克风自噪声的模型。
10.根据权利要求8所述的计算机程序产品,其中接收与麦克风自噪声相关联的所述一个或多个噪声信号包括:测量来自至少一个麦克风的自噪声。
11.根据权利要求8所述的计算机程序产品,其中至少部分地基于与麦克风自噪声相关联的所述一个或多个噪声信号对所述多个信号执行所述一个或多个基于自噪声的增强包括:将来自所述一个或多个噪声信号的噪声信号添加到来自每个麦克风的所述语音信号。
12.根据权利要求11所述的计算机程序产品,其中将噪声信号添加到来自每个麦克风的所述语音信号包括:至少部分地基于针对所述一个或多个基于自噪声的增强信号的预定义信噪比,将来自所述一个或多个噪声信号的噪声信号添加到来自每个麦克风的所述语音信号。
13.根据权利要求11所述的计算机程序产品,其中将来自所述一个或多个噪声信号的噪声信号添加到来自每个麦克风的所述语音信号包括:将来自所述一个或多个噪声信号的随机噪声信号添加到来自每个麦克风的所述语音信号。
14.根据权利要求8所述的计算机程序产品,其中所述多个麦克风定义麦克风阵列。
15.一种计算系统,包括:
存储器;以及
处理器,被配置为接收来自多个麦克风中的每个麦克风的语音信号,从而定义多个信号,其中所述处理器还被配置为接收与麦克风自噪声相关联的一个或多个噪声信号,并且其中所述处理器还被配置为至少部分地基于与麦克风自噪声相关联的所述一个或多个噪声信号对所述多个信号执行一个或多个基于自噪声的增强,从而定义一个或多个基于自噪声的增强信号。
16.根据权利要求15所述的计算系统,其中接收与麦克风自噪声相关联的所述一个或多个噪声信号包括:模拟表示麦克风自噪声的模型。
17.根据权利要求15所述的计算系统,其中接收与麦克风自噪声相关联的所述一个或多个噪声信号包括:测量来自至少一个麦克风的自噪声。
18.根据权利要求15所述的计算系统,其中至少部分地基于与麦克风自噪声相关联的所述一个或多个噪声信号对所述多个信号执行所述一个或多个基于自噪声的增强包括:将来自所述一个或多个噪声信号的噪声信号添加到来自每个麦克风的所述语音信号。
19.根据权利要求18所述的计算系统,其中将噪声信号添加到来自每个麦克风的所述语音信号包括:至少部分地基于针对所述一个或多个基于自噪声的增强信号的预定义信噪比,将来自所述一个或多个噪声信号的噪声信号添加到来自每个麦克风的所述语音信号。
20.根据权利要求18所述的计算系统,其中将来自所述一个或多个噪声信号的噪声信号添加到来自每个麦克风的所述语音信号包括:将来自所述一个或多个噪声信号的随机噪声信号添加到来自每个麦克风的所述语音信号。
CN202180033647.2A 2020-05-08 2021-05-07 用于多麦克风信号处理的数据增强的系统和方法 Pending CN115552920A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063022269P 2020-05-08 2020-05-08
US63/022,269 2020-05-08
PCT/US2021/031369 WO2021226507A1 (en) 2020-05-08 2021-05-07 System and method for data augmentation for multi-microphone signal processing

Publications (1)

Publication Number Publication Date
CN115552920A true CN115552920A (zh) 2022-12-30

Family

ID=78413045

Family Applications (6)

Application Number Title Priority Date Filing Date
CN202180033325.8A Pending CN115605952A (zh) 2020-05-08 2021-05-07 用于多麦克风信号处理的数据增强的系统和方法
CN202180033647.2A Pending CN115552920A (zh) 2020-05-08 2021-05-07 用于多麦克风信号处理的数据增强的系统和方法
CN202180033636.4A Pending CN115605953A (zh) 2020-05-08 2021-05-07 用于多麦克风信号处理的数据增强的系统和方法
CN202180033335.1A Pending CN115606198A (zh) 2020-05-08 2021-05-07 用于多麦克风信号处理的数据增强的系统和方法
CN202180033171.2A Pending CN115516555A (zh) 2020-05-08 2021-05-10 用于多麦克风自动临床文档化的系统和方法
CN202180033186.9A Pending CN115516553A (zh) 2020-05-08 2021-05-10 用于多麦克风自动临床文档化的系统和方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202180033325.8A Pending CN115605952A (zh) 2020-05-08 2021-05-07 用于多麦克风信号处理的数据增强的系统和方法

Family Applications After (4)

Application Number Title Priority Date Filing Date
CN202180033636.4A Pending CN115605953A (zh) 2020-05-08 2021-05-07 用于多麦克风信号处理的数据增强的系统和方法
CN202180033335.1A Pending CN115606198A (zh) 2020-05-08 2021-05-07 用于多麦克风信号处理的数据增强的系统和方法
CN202180033171.2A Pending CN115516555A (zh) 2020-05-08 2021-05-10 用于多麦克风自动临床文档化的系统和方法
CN202180033186.9A Pending CN115516553A (zh) 2020-05-08 2021-05-10 用于多麦克风自动临床文档化的系统和方法

Country Status (4)

Country Link
US (9) US11670298B2 (zh)
EP (6) EP4147230A4 (zh)
CN (6) CN115605952A (zh)
WO (9) WO2021226507A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4147230A4 (en) 2020-05-08 2024-04-10 Microsoft Technology Licensing Llc SYSTEM AND METHOD FOR DATA AUGMENTATION FOR MULTIMICROPHONE SIGNAL PROCESSING

Family Cites Families (192)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5930749A (en) 1996-02-02 1999-07-27 International Business Machines Corporation Monitoring, identification, and selection of audio signal poles with characteristic behaviors, for separation and synthesis of signal contributions
JP3522954B2 (ja) 1996-03-15 2004-04-26 株式会社東芝 マイクロホンアレイ入力型音声認識装置及び方法
US6130949A (en) 1996-09-18 2000-10-10 Nippon Telegraph And Telephone Corporation Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor
US6178248B1 (en) 1997-04-14 2001-01-23 Andrea Electronics Corporation Dual-processing interference cancelling system and method
US6084973A (en) 1997-12-22 2000-07-04 Audio Technica U.S., Inc. Digital and analog directional microphone
US20020095290A1 (en) 1999-02-05 2002-07-18 Jonathan Kahn Speech recognition program mapping tool to align an audio file to verbatim text
JP3863323B2 (ja) 1999-08-03 2006-12-27 富士通株式会社 マイクロホンアレイ装置
JP4815661B2 (ja) 2000-08-24 2011-11-16 ソニー株式会社 信号処理装置及び信号処理方法
US6748086B1 (en) 2000-10-19 2004-06-08 Lear Corporation Cabin communication system without acoustic echo cancellation
US7039198B2 (en) 2000-11-10 2006-05-02 Quindi Acoustic source localization system and method
US20030027600A1 (en) 2001-05-09 2003-02-06 Leonid Krasny Microphone antenna array using voice activity detection
US7349849B2 (en) 2001-08-08 2008-03-25 Apple, Inc. Spacing for microphone elements
GB0120450D0 (en) 2001-08-22 2001-10-17 Mitel Knowledge Corp Robust talker localization in reverberant environment
US8942387B2 (en) 2002-02-05 2015-01-27 Mh Acoustics Llc Noise-reducing directional microphone array
KR20040101373A (ko) 2002-03-27 2004-12-02 앨리프컴 통신 시스템에서 사용을 위한 마이크로폰과 음성 활동감지(vad) 구성
US20030236663A1 (en) 2002-06-19 2003-12-25 Koninklijke Philips Electronics N.V. Mega speaker identification (ID) system and corresponding methods therefor
US8947347B2 (en) 2003-08-27 2015-02-03 Sony Computer Entertainment Inc. Controlling actions in a video game unit
US7039199B2 (en) 2002-08-26 2006-05-02 Microsoft Corporation System and process for locating a speaker using 360 degree sound source localization
US7643641B2 (en) 2003-05-09 2010-01-05 Nuance Communications, Inc. System for communication enhancement in a noisy environment
US6999593B2 (en) 2003-05-28 2006-02-14 Microsoft Corporation System and process for robust sound source localization
DE60308342T2 (de) 2003-06-17 2007-09-06 Sony Ericsson Mobile Communications Ab Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
WO2006059806A1 (ja) 2004-12-03 2006-06-08 Honda Motor Co., Ltd. 音声認識装置
US7991167B2 (en) 2005-04-29 2011-08-02 Lifesize Communications, Inc. Forming beams with nulls directed at noise sources
DE602005008914D1 (de) 2005-05-09 2008-09-25 Mitel Networks Corp Verfahren und System zum Reduzieren der Trainingszeit eines akustischen Echokompensators in einem Vollduplexaudiokonferenzsystem durch akustische Strahlbildung
US7702116B2 (en) 2005-08-22 2010-04-20 Stone Christopher L Microphone bleed simulator
JP2007318438A (ja) 2006-05-25 2007-12-06 Yamaha Corp 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US7848529B2 (en) 2007-01-11 2010-12-07 Fortemedia, Inc. Broadside small array microphone beamforming unit
US20080177536A1 (en) 2007-01-24 2008-07-24 Microsoft Corporation A/v content editing
WO2008150916A1 (en) 2007-05-29 2008-12-11 Livescribe, Inc. Enhanced audio recording for smart pen computing systems
ATE504010T1 (de) 2007-06-01 2011-04-15 Univ Graz Tech Gemeinsame positions-tonhöhenschätzung akustischer quellen zu ihrer verfolgung und trennung
US8103027B2 (en) * 2007-06-06 2012-01-24 Analog Devices, Inc. Microphone with reduced parasitic capacitance
US20090055178A1 (en) 2007-08-23 2009-02-26 Coon Bradley S System and method of controlling personalized settings in a vehicle
US8954324B2 (en) 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
US8213598B2 (en) 2008-02-26 2012-07-03 Microsoft Corporation Harmonic distortion residual echo suppression
US8239203B2 (en) 2008-04-15 2012-08-07 Nuance Communications, Inc. Adaptive confidence thresholds for speech recognition
WO2010022453A1 (en) 2008-08-29 2010-03-04 Dev-Audio Pty Ltd A microphone array system and method for sound acquisition
JP5326934B2 (ja) 2009-01-23 2013-10-30 株式会社Jvcケンウッド 電子機器
US8442833B2 (en) 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
CN101510426B (zh) 2009-03-23 2013-03-27 北京中星微电子有限公司 一种噪声消除方法及系统
US9202456B2 (en) 2009-04-23 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
GB2473267A (en) 2009-09-07 2011-03-09 Nokia Corp Processing audio signals to reduce noise
KR101601197B1 (ko) * 2009-09-28 2016-03-09 삼성전자주식회사 마이크로폰 어레이의 이득 조정 장치 및 방법
US8538035B2 (en) * 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US20110288860A1 (en) 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
US9031256B2 (en) 2010-10-25 2015-05-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for orientation-sensitive recording control
US9330675B2 (en) 2010-11-12 2016-05-03 Broadcom Corporation Method and apparatus for wind noise detection and suppression using multiple microphones
BR112013013673B1 (pt) 2010-12-03 2021-03-30 Fraunhofer-Gesellschaft Zur Eorderung Der Angewandten Forschung E.V Aparelho e método para aquisição de som espacialmente seletivo por triangulação acústica
JP5857674B2 (ja) 2010-12-22 2016-02-10 株式会社リコー 画像処理装置、及び画像処理システム
US9270807B2 (en) 2011-02-23 2016-02-23 Digimarc Corporation Audio localization using audio signal encoding and recognition
JP5668553B2 (ja) 2011-03-18 2015-02-12 富士通株式会社 音声誤検出判別装置、音声誤検出判別方法、およびプログラム
WO2012172618A1 (ja) 2011-06-16 2012-12-20 パナソニック株式会社 アレイマイクロホン装置および利得制御方法
US9536523B2 (en) 2011-06-22 2017-01-03 Vocalzoom Systems Ltd. Method and system for identification of speech segments
US9236837B2 (en) 2011-08-25 2016-01-12 Infineon Technologies Ag System and method for low distortion capacitive signal source amplifier
GB2495278A (en) 2011-09-30 2013-04-10 Skype Processing received signals from a range of receiving angles to reduce interference
EP3471442A1 (en) 2011-12-21 2019-04-17 Nokia Technologies Oy An audio lens
US9241228B2 (en) 2011-12-29 2016-01-19 Stmicroelectronics Asia Pacific Pte. Ltd. Adaptive self-calibration of small microphone array by soundfield approximation and frequency domain magnitude equalization
US9197974B1 (en) 2012-01-06 2015-11-24 Audience, Inc. Directional audio capture adaptation based on alternative sensory input
US9037461B2 (en) 2012-01-19 2015-05-19 SpeakWrite, LLC Methods and systems for dictation and transcription
US20130282372A1 (en) 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US20130304476A1 (en) 2012-05-11 2013-11-14 Qualcomm Incorporated Audio User Interaction Recognition and Context Refinement
US20130332156A1 (en) 2012-06-11 2013-12-12 Apple Inc. Sensor Fusion to Improve Speech/Audio Processing in a Mobile Device
US8885815B1 (en) 2012-06-25 2014-11-11 Rawles Llc Null-forming techniques to improve acoustic echo cancellation
US9485556B1 (en) 2012-06-27 2016-11-01 Amazon Technologies, Inc. Speaker array for sound imaging
DE112012006876B4 (de) * 2012-09-04 2021-06-10 Cerence Operating Company Verfahren und Sprachsignal-Verarbeitungssystem zur formantabhängigen Sprachsignalverstärkung
US9232310B2 (en) * 2012-10-15 2016-01-05 Nokia Technologies Oy Methods, apparatuses and computer program products for facilitating directional audio capture with multiple microphones
WO2014064324A1 (en) 2012-10-26 2014-05-01 Nokia Corporation Multi-device speech recognition
US9471090B2 (en) 2012-11-21 2016-10-18 Starkey Laboratories, Inc. Method and apparatus for synchronizing hearing instruments via wireless communication
US10102850B1 (en) 2013-02-25 2018-10-16 Amazon Technologies, Inc. Direction based end-pointing for speech recognition
US8666090B1 (en) * 2013-02-26 2014-03-04 Full Code Audio LLC Microphone modeling system and method
US9338551B2 (en) 2013-03-15 2016-05-10 Broadcom Corporation Multi-microphone source tracking and noise suppression
US9363596B2 (en) 2013-03-15 2016-06-07 Apple Inc. System and method of mixing accelerometer and microphone signals to improve voice quality in a mobile device
EP2976897B8 (en) 2013-03-21 2020-07-01 Cerence Operating Company System and method for identifying suboptimal microphone performance
US20140321664A1 (en) 2013-04-25 2014-10-30 Fortemedia, Inc. Methods for dynamically programming a microphone
US9892729B2 (en) 2013-05-07 2018-02-13 Qualcomm Incorporated Method and apparatus for controlling voice activation
US9549079B2 (en) 2013-09-05 2017-01-17 Cisco Technology, Inc. Acoustic echo cancellation for microphone array with dynamically changing beam forming
CN104424953B (zh) 2013-09-11 2019-11-01 华为技术有限公司 语音信号处理方法与装置
US10536773B2 (en) 2013-10-30 2020-01-14 Cerence Operating Company Methods and apparatus for selective microphone signal combining
US9532138B1 (en) 2013-11-05 2016-12-27 Cirrus Logic, Inc. Systems and methods for suppressing audio noise in a communication system
US9472188B1 (en) 2013-11-15 2016-10-18 Noble Systems Corporation Predicting outcomes for events based on voice characteristics and content of a contact center communication
US9488716B2 (en) 2013-12-31 2016-11-08 Google Inc. Microphone autolocalization using moving acoustic source
JP2015155975A (ja) 2014-02-20 2015-08-27 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
US9922667B2 (en) 2014-04-17 2018-03-20 Microsoft Technology Licensing, Llc Conversation, presence and context detection for hologram suppression
US9516409B1 (en) 2014-05-19 2016-12-06 Apple Inc. Echo cancellation and control for microphone beam patterns
JP2015222847A (ja) 2014-05-22 2015-12-10 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
US9491545B2 (en) 2014-05-23 2016-11-08 Apple Inc. Methods and devices for reverberation suppression
US9900723B1 (en) 2014-05-28 2018-02-20 Apple Inc. Multi-channel loudspeaker matching using variable directivity
US9451361B2 (en) 2014-07-08 2016-09-20 Intel IP Corporation Apparatus, method and system of communicating acoustic information of a distributed microphone array between mobile devices
JP6460676B2 (ja) 2014-08-05 2019-01-30 キヤノン株式会社 信号処理装置および信号処理方法
US9800981B2 (en) 2014-09-05 2017-10-24 Bernafon Ag Hearing device comprising a directional system
US9305530B1 (en) 2014-09-30 2016-04-05 Amazon Technologies, Inc. Text synchronization with audio
US10009676B2 (en) 2014-11-03 2018-06-26 Storz Endoskop Produktions Gmbh Voice control system with multiple microphone arrays
JP7074285B2 (ja) 2014-11-10 2022-05-24 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
US9508357B1 (en) 2014-11-21 2016-11-29 Apple Inc. System and method of optimizing a beamformer for echo control
US9298884B1 (en) 2014-12-17 2016-03-29 Vitaax Llc Remote instruction and monitoring of health care
US9412354B1 (en) 2015-01-20 2016-08-09 Apple Inc. Method and apparatus to use beams at one end-point to support multi-channel linear echo control at another end-point
US9749747B1 (en) 2015-01-20 2017-08-29 Apple Inc. Efficient system and method for generating an audio beacon
US9697826B2 (en) 2015-03-27 2017-07-04 Google Inc. Processing multi-channel audio waveforms
US9691413B2 (en) * 2015-10-06 2017-06-27 Microsoft Technology Licensing, Llc Identifying sound from a source of interest based on multiple audio feeds
BR122019020650B1 (pt) 2015-10-08 2023-05-02 Dolby International Ab Método e aparelho para decodificar uma representação de som ambissônica de ordem superior (hoa) compactada de um som ou campo sonoro, e meio legível por computador
TWI720052B (zh) 2015-11-10 2021-03-01 美商Idac控股公司 無線傳輸/接收單元和無線通訊方法
WO2017084704A1 (en) 2015-11-18 2017-05-26 Huawei Technologies Co., Ltd. A sound signal processing apparatus and method for enhancing a sound signal
CA3003686C (en) 2015-12-08 2024-02-06 Sony Corporation Transmitting apparatus, transmitting method, receiving apparatus, and receiving method
US10381022B1 (en) 2015-12-23 2019-08-13 Google Llc Audio classifier
US9820036B1 (en) 2015-12-30 2017-11-14 Amazon Technologies, Inc. Speech processing of reflected sound
US10924872B2 (en) 2016-02-23 2021-02-16 Dolby Laboratories Licensing Corporation Auxiliary signal for detecting microphone impairment
US9992580B2 (en) 2016-03-04 2018-06-05 Avaya Inc. Signal to noise ratio using decentralized dynamic laser microphones
US9900685B2 (en) 2016-03-24 2018-02-20 Intel Corporation Creating an audio envelope based on angular information
US10037756B2 (en) 2016-03-29 2018-07-31 Sensory, Incorporated Analysis of long-term audio recordings
US9858340B1 (en) 2016-04-11 2018-01-02 Digital Reasoning Systems, Inc. Systems and methods for queryable graph representations of videos
WO2017220816A1 (en) 2016-06-24 2017-12-28 Harman Becker Automotive Systems Gmbh Method for simulating total harmonic distortion of a loudspeaker
US20180018970A1 (en) 2016-07-15 2018-01-18 Google Inc. Neural network for recognition of signals in multiple sensory domains
KR102533016B1 (ko) 2016-07-28 2023-05-17 에스케이하이닉스 주식회사 메모리 장치 및 이의 동작 방법
US9972339B1 (en) 2016-08-04 2018-05-15 Amazon Technologies, Inc. Neural network based beam selection
US10015588B1 (en) 2016-12-20 2018-07-03 Verizon Patent And Licensing Inc. Beamforming optimization for receiving audio signals
US10056091B2 (en) 2017-01-06 2018-08-21 Bose Corporation Microphone array beamforming
US9892744B1 (en) 2017-02-13 2018-02-13 International Business Machines Corporation Acoustics based anomaly detection in machine rooms
US10424315B1 (en) 2017-03-20 2019-09-24 Bose Corporation Audio signal processing for noise reduction
US10499139B2 (en) 2017-03-20 2019-12-03 Bose Corporation Audio signal processing for noise reduction
US10643609B1 (en) 2017-03-29 2020-05-05 Amazon Technologies, Inc. Selecting speech inputs
GB2561408A (en) 2017-04-10 2018-10-17 Cirrus Logic Int Semiconductor Ltd Flexible voice capture front-end for headsets
US10297267B2 (en) * 2017-05-15 2019-05-21 Cirrus Logic, Inc. Dual microphone voice processing for headsets with variable microphone array orientation
US10339950B2 (en) 2017-06-27 2019-07-02 Motorola Solutions, Inc. Beam selection for body worn devices
US9866308B1 (en) 2017-07-27 2018-01-09 Quantenna Communications, Inc. Composite WiFi and acoustic spatial diagnostics for smart home management
US20210243412A1 (en) 2017-08-10 2021-08-05 Nuance Communications, Inc. Automated Clinical Documentation System and Method
US20190066823A1 (en) * 2017-08-10 2019-02-28 Nuance Communications, Inc. Automated Clinical Documentation System and Method
US20210233652A1 (en) 2017-08-10 2021-07-29 Nuance Communications, Inc. Automated Clinical Documentation System and Method
US20210210200A1 (en) 2017-08-10 2021-07-08 Nuance Communications, Inc. Automated Clinical Documentation System and Method
US10887548B2 (en) 2017-08-17 2021-01-05 Google Llc Scaling image of speaker's face based on distance of face and size of display
KR102370642B1 (ko) 2017-09-11 2022-03-07 주식회사 디비하이텍 멤스 마이크로폰 및 이의 제조 방법
KR102424774B1 (ko) 2017-09-11 2022-07-25 주식회사 디비하이텍 멤스 마이크로폰 및 이의 제조 방법
US10090000B1 (en) 2017-11-01 2018-10-02 GM Global Technology Operations LLC Efficient echo cancellation using transfer function estimation
US11430421B2 (en) 2017-11-01 2022-08-30 Bose Corporation Adaptive null forming and echo cancellation for selective audio pick-up
US10339949B1 (en) 2017-12-19 2019-07-02 Apple Inc. Multi-channel speech enhancement
US10979805B2 (en) 2018-01-04 2021-04-13 Stmicroelectronics, Inc. Microphone array auto-directive adaptive wideband beamforming using orientation information from MEMS sensors
US11250382B2 (en) 2018-03-05 2022-02-15 Nuance Communications, Inc. Automated clinical documentation system and method
US10313786B1 (en) 2018-03-20 2019-06-04 Cisco Technology, Inc. Beamforming and gainsharing mixing of small circular array of bidirectional microphones
US10957337B2 (en) 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
US11276407B2 (en) 2018-04-17 2022-03-15 Gong.Io Ltd. Metadata-based diarization of teleconferences
US10867610B2 (en) 2018-05-04 2020-12-15 Microsoft Technology Licensing, Llc Computerized intelligent assistant for conferences
US10621991B2 (en) 2018-05-06 2020-04-14 Microsoft Technology Licensing, Llc Joint neural network for speaker recognition
EP3575811A1 (en) 2018-05-28 2019-12-04 Koninklijke Philips N.V. Optical detection of a communication request by a subject being imaged in the magnetic resonance imaging system
US10667071B2 (en) * 2018-05-31 2020-05-26 Harman International Industries, Incorporated Low complexity multi-channel smart loudspeaker with voice control
WO2019231632A1 (en) 2018-06-01 2019-12-05 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11062727B2 (en) 2018-06-13 2021-07-13 Ceva D.S.P Ltd. System and method for voice activity detection
US10540883B1 (en) 2018-06-19 2020-01-21 Life360, Inc. Methods and systems for audio-based danger detection and alert
CN110164446B (zh) 2018-06-28 2023-06-30 腾讯科技(深圳)有限公司 语音信号识别方法和装置、计算机设备和电子设备
NL2021308B1 (en) * 2018-07-16 2020-01-24 Hazelebach & Van Der Ven Holding B V Methods for a voice processing system
US11288038B2 (en) 2018-07-30 2022-03-29 John Holst, III System and method for voice recognition using a peripheral device
US10431238B1 (en) 2018-08-17 2019-10-01 Apple Inc. Memory and computation efficient cross-correlation and delay estimation
US10622004B1 (en) 2018-08-20 2020-04-14 Amazon Technologies, Inc. Acoustic echo cancellation using loudspeaker position
US10580429B1 (en) 2018-08-22 2020-03-03 Nuance Communications, Inc. System and method for acoustic speaker localization
US11189298B2 (en) 2018-09-03 2021-11-30 Snap Inc. Acoustic zooming
CN117319912A (zh) 2018-09-13 2023-12-29 科利耳有限公司 使用正常事物的听力性能和康复和/或复原增强
DE102018216230A1 (de) 2018-09-24 2020-03-26 Siemens Healthcare Gmbh Verfahren zu einem Erfassen eines Kommunikationssignals einer innerhalb eines Magnetresonanzuntersuchungsraums befindlichen Person und eine entsprechende Magnetresonanzvorrichtung
US10726830B1 (en) 2018-09-27 2020-07-28 Amazon Technologies, Inc. Deep multi-channel acoustic modeling
US11508378B2 (en) 2018-10-23 2022-11-22 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same
JP7407580B2 (ja) 2018-12-06 2024-01-04 シナプティクス インコーポレイテッド システム、及び、方法
EP3675517B1 (en) 2018-12-31 2021-10-20 GN Audio A/S Microphone apparatus and headset
CN109905808B (zh) 2019-03-13 2021-12-07 北京百度网讯科技有限公司 用于调节智能语音设备的方法和装置
US11158335B1 (en) 2019-03-28 2021-10-26 Amazon Technologies, Inc. Audio beam selection
US20200312315A1 (en) 2019-03-28 2020-10-01 Apple Inc. Acoustic environment aware stream selection for multi-stream speech recognition
EP3726529A1 (en) 2019-04-16 2020-10-21 Fraunhofer Gesellschaft zur Förderung der Angewand Method and apparatus for determining a deep filter
US11322148B2 (en) 2019-04-30 2022-05-03 Microsoft Technology Licensing, Llc Speaker attributed transcript generation
US11445294B2 (en) 2019-05-23 2022-09-13 Shure Acquisition Holdings, Inc. Steerable speaker array, system, and method for the same
US11605279B2 (en) 2019-06-12 2023-03-14 The Quantum Group, Inc. Remote distress monitor
US11227679B2 (en) 2019-06-14 2022-01-18 Nuance Communications, Inc. Ambient clinical intelligence system and method
US11043207B2 (en) 2019-06-14 2021-06-22 Nuance Communications, Inc. System and method for array data simulation and customized acoustic modeling for ambient ASR
US10777214B1 (en) 2019-06-28 2020-09-15 Amazon Technologies, Inc. Method for efficient autonomous loudspeaker room adaptation
US11531807B2 (en) 2019-06-28 2022-12-20 Nuance Communications, Inc. System and method for customized text macros
US10887685B1 (en) 2019-07-15 2021-01-05 Motorola Solutions, Inc. Adaptive white noise gain control and equalization for differential microphone array
US11335331B2 (en) 2019-07-26 2022-05-17 Knowles Electronics, Llc. Multibeam keyword detection system and method
US20210035563A1 (en) 2019-07-30 2021-02-04 Dolby Laboratories Licensing Corporation Per-epoch data augmentation for training acoustic models
CN114175152A (zh) 2019-08-01 2022-03-11 杜比实验室特许公司 用于增强劣化音频信号的系统和方法
US11227586B2 (en) * 2019-09-11 2022-01-18 Massachusetts Institute Of Technology Systems and methods for improving model-based speech enhancement with neural networks
US10887709B1 (en) 2019-09-25 2021-01-05 Amazon Technologies, Inc. Aligned beam merger
US11551670B1 (en) 2019-09-26 2023-01-10 Sonos, Inc. Systems and methods for generating labeled data to facilitate configuration of network microphone devices
US11670408B2 (en) 2019-09-30 2023-06-06 Nuance Communications, Inc. System and method for review of automated clinical documentation
US20210118435A1 (en) 2019-10-21 2021-04-22 Soundhound, Inc. Automatic Synchronization for an Offline Virtual Assistant
US11238853B2 (en) 2019-10-30 2022-02-01 Comcast Cable Communications, Llc Keyword-based audio source localization
US11478211B2 (en) 2019-12-03 2022-10-25 Shanghai United Imaging Healthcare Co., Ltd. System and method for noise reduction
US11508379B2 (en) 2019-12-04 2022-11-22 Cirrus Logic, Inc. Asynchronous ad-hoc distributed microphone array processing in smart home applications using voice biometrics
US11227587B2 (en) 2019-12-23 2022-01-18 Peiker Acustic Gmbh Method, apparatus, and computer-readable storage medium for adaptive null-voice cancellation
US11145319B2 (en) 2020-01-31 2021-10-12 Bose Corporation Personal audio device
CN115176485A (zh) 2020-02-03 2022-10-11 华为技术有限公司 具有听音功能的无线耳机
CN111341341B (zh) 2020-02-11 2021-08-17 腾讯科技(深圳)有限公司 音频分离网络的训练方法、音频分离方法、装置及介质
US11039013B1 (en) 2020-04-10 2021-06-15 Medallia, Inc. Real-time contact center speech analytics, with critical call alerts, deployed across multiple security zones
US11546690B2 (en) 2020-04-27 2023-01-03 Orcam Technologies Ltd. Processing audio and video
US11443760B2 (en) 2020-05-08 2022-09-13 DTEN, Inc. Active sound control
EP4147230A4 (en) 2020-05-08 2024-04-10 Microsoft Technology Licensing Llc SYSTEM AND METHOD FOR DATA AUGMENTATION FOR MULTIMICROPHONE SIGNAL PROCESSING
US11546691B2 (en) 2020-06-04 2023-01-03 Northwestern Polytechnical University Binaural beamforming microphone array
US11617044B2 (en) 2021-03-04 2023-03-28 Iyo Inc. Ear-mount able listening device with voice direction discovery for rotational correction of microphone array outputs

Also Published As

Publication number Publication date
WO2021226507A1 (en) 2021-11-11
CN115606198A (zh) 2023-01-13
EP4147227A1 (en) 2023-03-15
CN115516555A (zh) 2022-12-23
EP4147230A4 (en) 2024-04-10
US20210350809A1 (en) 2021-11-11
EP4147228A4 (en) 2024-03-13
EP4147230A1 (en) 2023-03-15
CN115516553A (zh) 2022-12-23
US11232794B2 (en) 2022-01-25
US11837228B2 (en) 2023-12-05
US20210350814A1 (en) 2021-11-11
EP4147228A1 (en) 2023-03-15
CN115605953A (zh) 2023-01-13
EP4147458A4 (en) 2024-04-03
EP4147458A1 (en) 2023-03-15
US20210350815A1 (en) 2021-11-11
US20210350813A1 (en) 2021-11-11
WO2021226574A1 (en) 2021-11-11
US20210352405A1 (en) 2021-11-11
US20210352406A1 (en) 2021-11-11
WO2021226568A1 (en) 2021-11-11
WO2021226511A1 (en) 2021-11-11
CN115605952A (zh) 2023-01-13
EP4147227A4 (en) 2024-05-01
US11335344B2 (en) 2022-05-17
WO2021226503A1 (en) 2021-11-11
US20210352404A1 (en) 2021-11-11
WO2021226515A1 (en) 2021-11-11
US11676598B2 (en) 2023-06-13
WO2021226571A1 (en) 2021-11-11
WO2021226573A1 (en) 2021-11-11
EP4147459A1 (en) 2023-03-15
US11631411B2 (en) 2023-04-18
US11670298B2 (en) 2023-06-06
US20210350804A1 (en) 2021-11-11
WO2021226570A1 (en) 2021-11-11
US11699440B2 (en) 2023-07-11
EP4147229A1 (en) 2023-03-15
US20210350808A1 (en) 2021-11-11

Similar Documents

Publication Publication Date Title
JP6889698B2 (ja) 音声を増幅する方法及び装置
US10368154B2 (en) Systems, devices and methods for executing a digital audiogram
US20190320268A1 (en) Systems, devices and methods for executing a digital audiogram
KR102191736B1 (ko) 인공신경망을 이용한 음성향상방법 및 장치
WO2019197002A1 (en) Generating sound zones using variable span filters
Shankar et al. Efficient two-microphone speech enhancement using basic recurrent neural network cell for hearing and hearing aids
Völk Inter-and intra-individual variability in the blocked auditory canal transfer functions of three circum-aural headphones
US11676598B2 (en) System and method for data augmentation for multi-microphone signal processing
CN117461042A (zh) 针对语音处理基于自注意力组合多通道信号的系统和方法
Alkaher et al. Temporal howling detector for speech reinforcement systems
US20230230580A1 (en) Data augmentation system and method for multi-microphone systems
US20230230581A1 (en) Data augmentation system and method for multi-microphone systems
US20230230599A1 (en) Data augmentation system and method for multi-microphone systems
US20230230582A1 (en) Data augmentation system and method for multi-microphone systems
US11705101B1 (en) Irrelevant voice cancellation
Mekarzia Measurement and adaptive identification of nonstationary acoustic impulse responses
CN116868267A (zh) 多通道语音压缩系统和方法
EP2579247A1 (en) Methods and systems for measuring and reporting an energy level of a sound component within a sound mix
WO2024033864A1 (en) System and method for monitoring audio signals
Bell Filtering to match hearing aid insertion gain to individual ear acoustics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20231108

Address after: Washington State

Applicant after: MICROSOFT TECHNOLOGY LICENSING, LLC

Address before: Massachusetts

Applicant before: Nuance Communications, Inc.