CN115516553A - 用于多麦克风自动临床文档化的系统和方法 - Google Patents

用于多麦克风自动临床文档化的系统和方法 Download PDF

Info

Publication number
CN115516553A
CN115516553A CN202180033186.9A CN202180033186A CN115516553A CN 115516553 A CN115516553 A CN 115516553A CN 202180033186 A CN202180033186 A CN 202180033186A CN 115516553 A CN115516553 A CN 115516553A
Authority
CN
China
Prior art keywords
audio stream
audio
clinical documentation
documentation process
automated clinical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180033186.9A
Other languages
English (en)
Inventor
D·夏尔马
P·A·纳伊勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Nuance Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuance Communications Inc filed Critical Nuance Communications Inc
Publication of CN115516553A publication Critical patent/CN115516553A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/01Correction of time axis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • H04R29/005Microphone arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms

Abstract

一种方法、计算机程序产品和计算系统,用于从第一麦克风系统接收音频就诊信息,从而定义第一音频流。可以从第二麦克风系统接收音频就诊信息,从而定义第二音频流。可以在第一音频流的一个或多个部分中检测语音活动,从而定义第一音频流的一个或多个语音部分。可以在第二音频流的一个或多个部分中检测语音活动,从而定义第二音频流的一个或多个语音部分。可以至少部分地基于第一音频流的一个或多个语音部分和第二音频流的一个或多个语音部分来对齐第一音频流和第二音频流。

Description

用于多麦克风自动临床文档化的系统和方法
相关申请
本申请要求于2020年5月8日提交的以下美国临时申请第63/022,269号的权益,其全部内容通过引用并入本文。
背景技术
自动临床文档化(ACD)可用于例如将转录的对话(例如,医生、患者和/或其他参与者,例如患者的家庭成员、护士、医生助理等)语音转换为格式化(例如,医疗)报告。这样的报告可以被检查,例如以确保医生、抄写员等报告的准确性。
捕获语音的过程可以包括远距离对话自动语音识别(DCASR)。DCASR包括被配置为记录和识别一个或多个讲话者(speaker)(例如,麦克风阵列和由讲话者携带的单个移动麦克风)的语音的多个麦克风系统。传统的DCASR方法受到各种挑战。例如,通过多个麦克风系统(例如,一个或多个麦克风阵列和一个或多个移动麦克风)获取信号可能是有问题的。例如,当使用单个麦克风进行波束成形(beamforming)时,存在不能应用于多个麦克风系统的单通道降噪和去混响方法。此外,传统的DCASR方法不能管理来自房间内各种设备的增强信号的组合。传统的DCASR方法在任何给定时间定位讲话者的位置,追踪他们的移动,然后标识他们的身份时可能会遇到问题。这可能会导致录制语音的文本转录不太准确。此外,将音频转换为文本的自动语音识别(ASR)系统可能无法处理来自多个源(例如,多个麦克风系统)的各种元数据和音频信号。
发明内容
在一个实现中,由计算机执行的计算机实现的方法可以包括但不限于从第一麦克风系统接收音频就诊信息,从而定义第一音频流。可以从第二麦克风系统接收音频就诊信息,从而定义第二音频流。可以在第一音频流的一个或多个部分中检测语音活动,从而定义第一音频流的一个或多个语音部分。可以在第二音频流的一个或多个部分中检测语音活动,从而定义第二音频流的一个或多个语音部分。可以至少部分地基于第一音频流的一个或多个语音部分和第二音频流的一个或多个语音部分来对齐第一音频流和第二音频流。
可以包括以下一个或多个特征。第一麦克风系统可以包括麦克风阵列。第二麦克风系统可以包括移动电子设备。响应于对齐第一音频流和第二音频流,可以利用一个或多个语音处理系统处理第一音频流和第二音频流。利用一个或多个语音处理系统处理第一音频流和第二音频流可以包括至少部分地基于第一音频流的信噪比和第二音频流的信噪比来加权第一音频流和第二音频流,从而定义第一音频流权重和第二音频流权重。利用一个或多个语音处理系统处理第一音频流和第二音频流可以包括:至少部分地基于第一音频流权重和第二音频流权重利用单个语音处理系统来处理第一音频流和第二音频流。利用一个或多个语音处理系统处理第一音频流和第二音频流可以包括:利用第一语音处理系统处理第一音频流,从而定义第一语音处理输出;利用第二语音处理系统处理第二音频流,从而定义第二语音处理输出;以及至少部分地基于第一音频流权重和第二音频流权重来组合第一语音处理输出和第二语音处理输出。
在另一实现中,一种计算机程序产品驻留在计算机可读介质上并且具有存储在其上的多个指令。指令当由处理器执行时,使处理器执行操作,这些操作包括但不限于从第一麦克风系统接收音频就诊信息,从而定义第一音频流。可以从第二麦克风系统接收音频就诊信息,从而定义第二音频流。可以在第一音频流的一个或多个部分中检测语音活动,从而定义第一音频流的一个或多个语音部分。可以在第二音频流的一个或多个部分中检测语音活动,从而定义第二音频流的一个或多个语音部分。可以至少部分地基于第一音频流的一个或多个语音部分和第二音频流的一个或多个语音部分来对齐第一音频流和第二音频流。
可以包括以下一个或多个特征。第一麦克风系统可以包括麦克风阵列。第二麦克风系统可以包括移动电子设备。响应于对齐第一音频流和第二音频流,可以利用一个或多个语音处理系统处理第一音频流和第二音频流。利用一个或多个语音处理系统处理第一音频流和第二音频流可以包括:至少部分地基于针对第一音频流的信噪比和针对第二音频流的信噪比来加权第一音频流和第二音频流,从而定义第一音频流权重和第二音频流权重。利用一个或多个语音处理系统处理第一音频流和第二音频流可以包括:至少部分地基于第一音频流权重和第二音频流权重利用单个语音处理系统来处理第一音频流和第二音频流。利用一个或多个语音处理系统处理第一音频流和第二音频流可以包括:利用第一语音处理系统处理第一音频流,从而定义第一语音处理输出;利用第二语音处理系统处理第二音频流,从而定义第二语音处理输出;以及至少部分地基于第一音频流权重和第二音频流权重来组合第一语音处理输出和第二语音处理输出。
在另一实现中,一种计算系统包括处理器以及存储器,其被配置为执行操作,这些操作包括但不限于从第一麦克风系统接收音频就诊信息,从而定义第一音频流。处理器还可以被配置为从第二麦克风系统接收音频就诊信息,从而定义第二音频流。处理器还可以被配置为检测第一音频流的一个或多个部分中的语音活动,从而定义第一音频流的一个或多个语音部分。处理器还可以被配置为检测第二音频流的一个或多个部分中的语音活动,从而定义第二音频流的一个或多个语音部分。处理器还可以被配置为至少部分地基于第一音频流的一个或多个语音部分和第二音频流的一个或多个语音部分来对齐第一音频流和第二音频流。
可以包括以下一个或多个特征。第一麦克风系统可以包括麦克风阵列。第二麦克风系统可以包括移动电子设备。响应于对齐第一音频流和第二音频流,可以利用一个或多个语音处理系统处理第一音频流和第二音频流。利用一个或多个语音处理系统处理第一音频流和第二音频流可以包括:至少部分地基于针对第一音频流的信噪比和针对第二音频流的信噪比来加权第一音频流和第二音频流,从而定义第一音频流权重和第二音频流权重。利用一个或多个语音处理系统处理第一音频流和第二音频流可以包括:至少部分地基于第一音频流权重和第二音频流权重利用单个语音处理系统来处理第一音频流和第二音频流。利用一个或多个语音处理系统处理第一音频流和第二音频流可以包括:利用第一语音处理系统处理第一音频流,从而定义第一语音处理输出;利用第二语音处理系统处理第二音频流,从而定义第二语音处理输出;以及至少部分地基于第一音频流权重和第二音频流权重来组合第一语音处理输出和第二语音处理输出。
一个或多个实现的细节在附图和下面的描述中阐述。其他特征和优点将从说明书、附图和权利要求书中显而易见。
附图说明
图1是被耦合到分布式计算网络的自动临床文档化计算机系统和自动临床文档化过程的示意图;
图2是并入图1的自动临床文档化计算机系统的模块化ACD系统的示意图;
图3是包括在图2的模块化ACD系统内的混合媒体ACD设备的示意图;
图4是被包括在图2的模块化ACD系统内的ACD计算机设备内的各种模块的示意图;
图5是图1的自动临床文档化过程的一种实现的流程图;
图6至图7是根据图1的自动临床文档化过程的各种实现的模块化ACD系统的示意图;
图8是图1的自动临床文档化过程的一个实现的流程图;
图9至图10是根据图1的自动临床文档化过程的各种实现的由麦克风阵列的各种麦克风接收的音频就诊信息的示意图;
图11是图1的自动临床文档化过程的一个实现的流程图;
图12是根据图1的自动临床文档化过程的各种实现的由麦克风阵列的各种麦克风接收的音频就诊信息的示意图;
图13是根据图1的自动临床文档化过程的一个实现生成的多个讲话者表示的示意图;
图14是根据图1的自动临床文档化过程的各种实现生成的讲话者元数据的示意图;
图15是图1的自动临床文档化过程的一个实现的流程图;
图16是根据图1的自动临床文档化过程的一个实现的模块化ACD系统的示意图;
图17是图1的自动临床文档化过程的一个实现的流程图;
图18至图19是根据图1的自动临床文档化过程的各种实现的由各种麦克风系统接收的音频就诊信息的对齐的示意图;以及
图20A至图20B是根据图1的自动临床文档化过程的各种实现,由使用各种语音处理系统配置的各种麦克风系统接收的音频就诊信息的处理的示意图。
各种附图中相同的附图标记表示相同的元件。
具体实施方式
系统概述:
参考图1,示出了自动临床文档化过程10。如下面将更详细地讨论的,自动临床文档化过程10可以被配置为使临床就诊信息的收集和处理自动化以生成/存储/分发医学记录。
自动临床文档化过程10可以被实现为服务器侧过程、客户端侧过程或混合服务器侧/客户端侧过程。例如,自动临床文档化过程10可以经由自动临床文档化过程10s被实现为纯粹的服务器侧过程。备选地,自动临床文档化过程10可以经由自动临床文档化过程10c1、自动临床文档化过程10c2、自动临床文档化过程10c3和自动临床文档化过程10c4中的一个或多个来实现为纯粹的客户端侧过程。备选地,自动临床文档化过程10可以经由自动临床文档化过程10s与自动临床文档化过程10c1、自动临床文档化过程10c2、自动临床文档化过程10c3和自动临床文档化过程10c4中的一个或多个相结合来实现为混合服务器侧/客户端侧过程。
因此,本公开中使用的自动临床文档化过程10可以包括自动临床文档化过程10s、自动临床文档化过程10c1、自动临床文档化过程10c2、自动临床文档化过程10c3和自动临床文档化过程10c4的任意组合。
自动临床文档化过程10S可以是服务器应用,并且可以驻留在自动临床文档化(ACD)计算机系统12上并且可以由其执行,ACD计算机系统12可以被连接到网络14(例如,互联网或局域网)。ACD计算机系统12可以包括各种组件,其示例可以包括但不限于:个人计算机、服务器计算机、一系列服务器计算机、小型计算机、大型计算机、一个或多个网络附接存储(NAS)系统、一个或多个存储区域网络(SAN)系统、一个或多个平台即服务(PaaS)系统、一个或多个基础设施即服务(IaaS)系统、一个或多个软件即服务(SaaS)系统、基于云的计算系统、以及基于云的存储平台。
如本领域中已知的,SAN可以包括个人计算机、服务器计算机、一系列服务器计算机、小型计算机、大型计算机、RAID设备和NAS系统中的一个或多个。ACD计算机系统12的各种组件可以执行一个或多个操作系统,其示例可以包括但不限于:例如,MicrosoftWindows Servertm、Redhat Linuxtm、Unix或定制操作系统。
可以存储在耦合到ACD计算机系统12的存储设备16上的自动临床文档化过程10s的指令集合和子例程可以由包括在ACD计算机系统12内的一个或多个处理器(未示出)和一个或多个存储器架构(未示出)来执行。存储设备16的示例可以包括但不限于:硬盘驱动器;RAID设备;随机存取存储器(RAM);只读存储器(ROM);以及所有形式的闪存存储设备。
网络14可以被连接到一个或多个辅助网络(例如,网络18),其示例可以包括但不限于:例如,局域网;广域网;或内联网。
各种IO请求(例如,IO请求20)可以从自动临床文档化过程10s、自动临床文档化过程10c1、自动临床文档化过程10c2、自动临床文档化过程10c3和/或自动临床文档化过程10c4发送到ACD计算机系统12。IO请求20的示例可以包括但不限于数据写入请求(即,将内容写入ACD计算机系统12的请求)和数据读取请求(即,从ACD计算机系统12读取内容的请求)。
可以(分别)存储在(分别)耦合到ACD客户端电子设备28、30、32、34的存储设备20、22、24、26上的自动临床文档化过程10c1、自动临床文档化过程10c2、自动临床文档化过程10c3和/或自动临床文档化过程10c4的指令集合和子例程可以由(分别)并入ACD客户端电子设备28、30、32、34中的一个或多个处理器(未示出)和一个或多个存储器架构(未示出)来执行。存储设备20、22、24、26可以包括但不限于:硬盘驱动器;光盘驱动器;RAID设备;随机存取存储器(RAM);只读存储器(ROM),以及所有形式的闪存存储设备。ACD客户端电子设备28、30、32、34的示例可以包括但不限于,个人计算设备28(例如,智能电话、个人数字助理、膝上型计算机、笔记本计算机和台式计算机)、音频输入设备30(例如,手持麦克风、翻领麦克风、嵌入式麦克风(诸如嵌入眼镜、智能手机、平板计算机和/或手表中的麦克风)和音频记录设备)、显示设备32(例如,平板计算机、计算机监控器和智能电视),机器视觉输入设备34(例如,RGB成像系统、红外成像系统、紫外成像系统、激光成像系统、声纳成像系统、雷达成像系统和热成像系统)、混合设备(例如,包括一个或多个上述参考设备的功能的单个设备;未示出)、音频呈现设备(例如,讲话者系统、耳机系统或耳塞系统;未示出)、各种医学设备(例如,医学成像设备、心脏监控器、体重秤、体温计和血压机;未示出)以及专用网络设备(未示出)。
用户36、38、40、42可以通过网络14或通过辅助网络18直接访问ACD计算机系统12。此外,ACD计算机系统12可以通过辅助网络18连接到网络14,如链路线44所示。
各种ACD客户端电子设备(例如,ACD客户端电子设备28、30、32、34)可以直接或间接耦合到网络14(或网络18)。例如,个人计算设备28被示为经由硬连线网络连接直接耦合到网络14。此外,机器视觉输入设备34被示为经由硬连线网络连接直接耦合到网络18。音频输入设备30被示为经由在音频输入设备30和无线接入点(即,WAP)48之间建立的无线通信信道46无线耦合到网络14,WAP 48被示为直接耦合到网络14。WAP 48可以是例如能够在音频输入设备30和WAP 48之间建立无线通信信道46的IEEE 802.11a、802.11b、802.11g、802.11n、Wi-Fi和/或蓝牙设备。显示设备32被示为通过在显示设备32和WAP 52之间建立的无线通信信道50无线耦合到网络14,WAP 52被示为直接耦合到网络14。
各种ACD客户端电子设备(例如,ACD客户端电子设备28、30、32、34)可以各自执行操作系统,其示例可以包括但不限于Microsoft Windowstm、Apple Macintoshtm、RedhatLinuxtm或定制操作系统,其中各种ACD客户端电子设备(例如,ACD客户端电子设备28、30、32、34)和ACD计算机系统12的组合可以形成模块化ACD系统54。
还参考图2,示出了模块化ACD系统54的简化示例实施例,其被配置为使临床文档化自动化。模块化ACD系统54可以包括:机器视觉系统100,其被配置为获得关于患者就诊的机器视觉就诊信息102;音频记录系统104,其被配置为获得关于患者就诊的音频就诊信息106;以及计算机系统(例如,ACD计算机系统12),其被配置为(分别)从机器视觉系统100和音频记录系统104接收机器视觉就诊信息102和音频就诊信息106。模块化ACD系统54还可以包括:显示呈现(rendering)系统108,其被配置为呈现视觉信息110;以及音频呈现系统112,其被配置为呈现音频信息114,其中ACD计算机系统12可以被配置为(分别)向显示呈现系统108和音频呈现系统112提供视觉信息110和音频信息114。
机器视觉系统100的示例可以包括但不限于:一个或多个ACD客户端电子设备(例如,ACD客户端电子设备34,其示例可以包括但不限于,RGB成像系统、红外成像系统、紫外成像系统、激光成像系统、声纳成像系统、雷达成像系统和热成像系统)。音频记录系统104的示例可以包括但不限于:一个或多个ACD客户端电子设备(例如,ACD客户端电子设备30,其示例可以包括但不限于,手持麦克风、翻领麦克风、嵌入式麦克风(诸如嵌入眼镜、智能手机、平板计算机和/或手表内的麦克风)和音频记录设备)。显示呈现系统108的示例可以包括但不限于:一个或多个ACD客户端电子设备(例如,ACD客户端电子设备32,其示例可以包括但不限于,平板计算机、计算机监控器和智能电视)。音频呈现系统112的示例可以包括但不限于:一个或多个ACD客户端电子设备(例如,音频呈现设备116,其示例可以包括但不限于,讲话者系统、耳机系统和耳塞系统)。
如下面将更详细地讨论的,ACD计算机系统12可以被配置为访问一个或多个数据源118(例如,多个单独的数据源120、122、124、126、128),其示例可以包括但不限于,用户简档数据源、声纹数据源、声音特性数据源(例如,用于适配自动化语音识别模型)、脸纹数据源、类人数据源、话语标识符数据源、可穿戴令牌标识符数据源、交互标识符数据源、医疗状况症状数据源、处方兼容性数据源、医疗保险覆盖范围数据源和家庭保健数据源中的一个或多个。虽然在该特定示例中示出了数据源118的五个不同示例,但这仅用于说明目的,并不旨在作为本公开的限制,因为其他配置是可能的并且被认为在本公开的范围内。
如下面将更详细地讨论的,模块化ACD系统54可以被配置为监控临床环境中的监控空间(例如,监控空间130),其中该临床环境的示例可以包括但不限于:医生办公室、医疗设施、医疗实践、医疗实验室、紧急护理设施、医疗诊所、急诊室、手术室、医院、长期护理设施、康复设施、护理室和临终关怀设施。因此,上述患者就诊的示例可以包括但不限于,患者访问一个或多个上述临床环境(例如,医生办公室、医疗设施、医疗实践、医疗实验室、紧急护理设施、医疗诊所、急诊室、手术室、医院、长期护理设施、康复设施、护理室和临终关怀设施)。
当上述临床环境更大或需要更高级别的分辨率时,机器视觉系统100可以包括多个分立机器视觉系统。如上所述,机器视觉系统100的示例可以包括但不限于:一个或多个ACD客户端电子设备(例如,ACD客户端电子设备34,其示例可以包括但不限于RGB成像系统、红外成像系统、紫外成像系统、激光成像系统、声纳成像系统、雷达成像系统和热成像系统)。因此,机器视觉系统100可以包括RGB成像系统、红外成像系统、紫外成像系统、激光成像系统、声纳成像系统、雷达成像系统和热成像系统中的每一个中的一个或多个。
当上述临床环境更大或需要更高级别的分辨率时,音频记录系统104可以包括多个分立的音频记录系统。如上所述,音频记录系统104的示例可以包括但不限于:一个或多个ACD客户端电子设备(例如,ACD客户端电子设备30,其示例可以包括但不限于手持麦克风、翻领麦克风、嵌入式麦克风(诸如嵌入眼镜、智能电话、平板计算机和/或手表内的麦克风)和音频记录设备)。因此,音频记录系统104可以包括手持麦克风、翻领麦克风、嵌入式麦克风(诸如嵌入眼镜、智能手机、平板计算机和/或手表内的麦克风)和音频记录设备中的每一个中一个或多个。
当上述临床环境更大或需要更高级别的分辨率时,显示呈现系统108可以包括多个分立的显示呈现系统。如上所述,显示呈现系统108的示例可以包括但不限于:一个或多个ACD客户端电子设备(例如,ACD客户端电子设备32,其示例可以包括但不限于,平板计算机、计算机监控器和智能电视)。因此,显示呈现系统108可以包括平板计算机、计算机监控器和智能电视中的每一个中的一个或多个。
当上述临床环境更大或需要更高级别的分辨率时,音频呈现系统112可以包括多个分立的音频呈现系统。如上所述,音频呈现系统112的示例可以包括但不限于:一个或多个ACD客户端电子设备(例如,音频呈现设备116,其示例可以包括但不限于,讲话者系统、耳机系统或耳塞系统)。因此,音频呈现系统112可以包括讲话者系统、耳机系统或耳塞系统中的每一个中的一个或多个。
ACD计算机系统12可以包括多个分立计算机系统。如上所述,ACD计算机系统12可以包括各种组件,其示例可以包括但不限于:个人计算机、服务器计算机、一系列服务器计算机、小型计算机、大型计算机、一个或多个网络附接存储(NAS)系统、一个或多个存储区域网络(SAN)系统、一个或多个平台即服务(PaaS)系统、一个或多个基础设施即服务(IaaS)系统、一个或多个软件即服务(SaaS)系统、基于云的计算系统、以及基于云的存储平台。因此,ACD计算机系统12可以包括个人计算机、服务器计算机、一系列服务器计算机、小型计算机、大型计算机、一个或多个网络附接存储(NAS)系统、一个或多个存储区域网络(SAN)系统、一个或多个平台即服务(PaaS)系统、一个或多个基础设施即服务(IaaS)系统、一个或多个软件即服务(SaaS)系统、基于云的计算系统和基于云的存储平台中的每一个中的一个或多个。
还参考图3,音频记录系统104可以包括具有多个分立麦克风配件的定向麦克风阵列200。例如,音频记录系统104可以包括多个分立音频采集设备(例如,音频采集设备202、204、206、208、210、212、214、216、218),其可以形成麦克风阵列200。如下面将更详细地讨论的,模块化ACD系统54可以被配置为经由包括在音频记录系统104内的分立音频采集设备(例如,音频采集设备202、204、206、208、210、212、214、216、218)形成一个或多个音频记录波束(beam)(例如,音频记录波束220、222、224)。
例如,模块化ACD系统54还可以被配置为将一个或多个音频记录波束(例如,音频记录波束220、222、224)引导(steer)到上述患者就诊的一个或多个就诊参与者(例如,就诊参与者226、228、230)。就诊参与者(例如,就诊参与者226、228、230)的示例可以包括但不限于:医疗专业人员(例如,医生、护士、医生助理、实验室技术人员、物理治疗师、抄写员(例如,转录员)和/或参与患者就诊的工作人员)、患者(例如,正在为患者就诊访问上述临床环境的人)和第三方(例如,参与患者就诊的患者的朋友、患者的亲属和/或患者的熟人)。
因此,模块化ACD系统54和/或音频记录系统104可以被配置为利用一个或多个分立音频采集设备(例如,音频采集设备202、204、206、208、210、212、214、216、218)来形成音频记录波束。例如,模块化ACD系统54和/或音频记录系统104可以被配置为利用音频采集设备210来形成音频记录波束220,从而使得能够捕获由就诊参与者226产生的音频(例如,语音)(因为音频采集设备210指向(即,定向)就诊参与者226)。此外,模块化ACD系统54和/或音频记录系统104可以被配置为利用音频采集设备204、206来形成音频记录波束222,从而使得能够捕获由就诊参与者228产生的音频(例如,语音)(因为音频采集设备204、206指向(即,定向)就诊参与者228)。此外,模块化ACD系统54和/或音频记录系统104可以被配置为利用音频采集设备212、214来形成音频记录波束224,从而使得能够捕获由就诊参与者230产生的音频(例如,语音)(因为音频采集设备212、214指向(即,定向)就诊参与者230)。此外,模块化ACD系统54和/或音频记录系统104可以被配置为利用零控预编码(null-steering precoding)来消除讲话者之间的干扰和/或噪声。
如本领域中已知的,零控预编码是一种空间信号处理方法,通过该方法,多天线发射机可以使无线通信中的多用户干扰信号归零,其中零控预编码可以减轻背景噪声和未知用户干扰的影响。
具体地,零控预编码可以是一种用于窄带信号的波束成形方法,其可以补偿在天线阵列的不同元件处从特定源接收信号的延迟。一般而言,为了提高天线阵列的性能,可以对传入信号进行求和以及求平均,其中可以对某些信号进行加权并且可以对信号延迟进行补偿。
机器视觉系统100和音频记录系统104可以是独立设备(如图2所示)。另外地/备选地,机器视觉系统100和音频记录系统104可以组合成一个封装(package)以形成混合媒体ACD设备232。例如,混合媒体ACD设备232可以被配置为安装到上述临床环境(例如,医生办公室、医疗设施、医疗实践、医疗实验室、紧急护理设施、医疗诊所、急诊室、手术室、医院、长期护理设施、康复设施、护理室和临终关怀设施)内的结构(例如,墙、天花板、梁、柱),从而允许容易地安装它们。此外,模块化ACD系统54可以被配置为在上述临床环境更大或需要更高级别的分辨率时,包括多个混合媒体ACD设备(例如,混合媒体ACD设备232)。
模块化ACD系统54还可以被配置为至少部分地基于机器视觉就诊信息102将一个或多个音频记录波束(例如,音频记录波束220、222、224)引导到患者就诊的一个或多个就诊参与者(例如,就诊参与者226、228、230)。如上所述,混合媒体ACD设备232(以及其中包括的机器视觉系统100/音频记录系统104)可以被配置为监控患者就诊的一个或多个就诊参与者(例如,就诊参与者226、228、230)。
具体地,机器视觉系统100(作为独立系统或作为混合媒体ACD设备232的组件)可以被配置为检测上述临床环境(例如,医生办公室、医疗设施、医疗实践、医疗实验室、紧急护理设施、医疗诊所、急诊室、手术室、医院、长期护理设施、康复设施、护理室和临终关怀设施)内的类人形状(humanoid shape)。并且当机器视觉系统100检测到这些类人形状时,模块化ACD系统54和/或音频记录系统104可以被配置为利用一个或多个分立音频采集设备(例如,音频采集设备202、204、206、208、210、212、214、216、218)来形成指向每个检测到的类人形状(例如,就诊参与者226、228、230)的音频记录波束(例如,音频记录波束220、222、224)。
如上所述,ACD计算机系统12可以被配置为(分别)从机器视觉系统100和音频记录系统104接收机器视觉就诊信息102和音频就诊信息106;并且可以被配置为(分别)向显示呈现系统108和音频呈现系统112提供视觉信息110和音频信息114。根据模块化ACD系统54(和/或混合媒体ACD设备232)的配置方式,ACD计算机系统12可以被包括在混合媒体ACD设备232内或混合媒体ACD设备232外部。
如上所述,ACD计算机系统12可以执行自动临床文档化过程10的全部或一部分,其中自动临床文档化过程10的指令集合和子例程(其可以存储在例如存储设备16、20、22、24、26中的一个或多个上)可以由ACD计算机系统12和/或一个或多个ACD客户端电子设备28、30、32、34来执行。
自动临床文档化过程:
在与本公开一致的一些实现中,可以提供用于使用空间和频谱信息的讲话者分割与聚类(diarization)和远距离语音识别的系统和方法。例如,远距离对话自动语音识别(DCASR)可以包括被配置为记录和识别一个或多个讲话者的语音的多个麦克风系统(例如,麦克风阵列和由讲话者携带的单个移动麦克风)。当利用来自多个麦克风的信号时,传统的DCASR方法受到各种挑战。例如,传统的波束成形技术通过空间滤波组合多个麦克风信号,但这些大多限于单个麦克风阵列设备(即,它们通常不提供用于组合不是阵列一部分的各种麦克风的机制,也不提供作为独立设备部署在房间中的不同麦克风阵列)。传统技术还允许单通道降噪和去混响技术。然而,这些技术没有考虑可能可用的空间信息。此外,传统的DCASR方法无法管理来自房间中各种设备的增强信号的组合。在一些实现中,当在任何给定时间定位讲话者的位置、追踪他们的移动、然后识别他们的身份时,传统的DCASR方法可能会遇到问题。这可能会导致不太准确的日记化(diarized)文本转录(即,带有讲话者标签的文本转录,以定义谁在对话中何时说了什么)。此外,将音频转换为文本的ASR系统可能无法处理来自多个源(例如,多个麦克风系统)的各种元数据和音频信号。
因此,本公开的实现可以通过如下方式解决传统的DCASR方法经历的这些挑战:至少部分地基于与声学环境相关联的信息来预定义波束成形配置;为特定位置(例如,其中波束和零陷被选择以指向房间中的某些位置,其中一些位置可能被特定讲话者占据的概率很高)选择特定波束图案(beam pattern)和/或零陷图案(null pattern);使用空间和频谱信息进行语音活动检测和定位;利用空间和频谱信息进行讲话者标识;以及至少部分地基于语音活动检测来对齐来自多个麦克风系统的音频流。例如,在本公开的范围内,自动临床文档化过程10可以包括被配置为执行各种DCASR功能的各种硬件和/或软件模块。
还参考图4,并且在一些实现中,机器视觉系统100和音频记录系统104可以组合成一个封装以形成混合媒体ACD设备232。在该示例中,ACD计算机系统12可以被配置为(分别)从机器视觉系统100和音频记录系统104接收机器视觉就诊信息102和音频就诊信息106。具体地,ACD计算机系统12可以在语音活动检测(VAD)模块(例如,VAD模块400)、声学波束成形模块(例如,声学波束成形模块402)和/或讲话者标识和追踪模块(例如,讲话者标识和追踪模块404)处接收音频就诊信息。在一些实现中,ACD计算机系统12还可以在讲话者标识和追踪模块404处接收机器视觉就诊信息102。在一些实现中,VAD模块400可以与声音定位模块406通信以输出用于讲话者标识和追踪模块404的元数据。在一些实现中,声学波束成形模块402可以被配置为向波束和零陷(null)选择模块(例如,波束和零陷选择模块408)提供多个波束和/或多个零陷。讲话者标识和追踪模块404可以被配置为向波束和零陷选择模块408提供讲话者标识和追踪信息。
在一些实现中,波束和零陷选择模块408可以被配置为将来自音频记录系统104的经对齐的音频流提供给设备选择和加权模块(例如,设备选择和加权模块410)。此外,波束和零陷选择模块408可以被配置为向对齐模块(例如,对齐模块412)提供经对齐的音频流。对齐模块412可以被配置为从与第二麦克风系统相关联的VAD模块(例如,与移动电子设备416相关联的VAD模块414)接收音频就诊信息。在一些实现中,对齐模块412可以被配置为将来自移动电子设备416的经对齐的音频流提供给设备选择和加权模块410。在一些实现中,设备选择和加权模块410可以将来自音频记录系统104的经对齐的音频流、来自移动电子设备416的经对齐的音频流以及来自其他模块的元数据提供给一个或多个语音处理系统(例如,语音处理系统418)。在一些实现中,语音处理系统418可以是自动语音识别(ASR)系统。
如下面将更详细地讨论的,ACD计算机系统12/自动临床文档化过程10的各种模块的组合可以被配置为通过提供来自多个麦克风系统的经对齐的音频就诊信息来改进DCASR。以此方式,自动临床文档化过程10可以使用由ACD计算机系统12/自动临床文档化过程10的各种模块确定的空间和频谱信息来改进远距离语音识别。
至少参考图5至图7,自动临床文档化过程10可以接收500与声学环境相关联的信息。可以预定义502多个滤波器,以至少部分地基于与声学环境相关联的信息来产生多个波束。可以预定义504多个滤波器,以至少部分地基于与声学环境相关联的信息来产生多个零陷。可以使用由多个预定义滤波器产生的多个波束和多个零陷,经由一个或多个麦克风阵列来获得506音频就诊信息。
如下面将更详细地讨论的,自动临床文档化过程10可以预先定义或预计算多个滤波器,以产生用于瞄准特定讲话者和/或噪声源的波束和零陷,以改进DCASR。如本领域中已知的,波束成形器可以使用与输入信号集合相关联的滤波器集合来生成由具有由滤波器确定的特性的波束和零陷形成的空间滤波的灵敏度图案。如下面将更详细地讨论的,自动临床文档化过程10可以接收500与声学环境相关联的信息,并且可以预定义滤波器以产生波束和/或零陷以瞄准或隔离特定讲话者和/或噪声源。以此方式,自动临床文档化过程10可以利用声学环境信息来预定义可以针对各种情况选择的波束和零陷(即,当患者与医疗专业人员交谈时选择某些波束和零陷,以及当医疗专业人员与患者交谈时选择其他波束和零陷)。
在一些实现中,自动临床文档化过程10可以接收500与声学环境相关联的信息。声学环境可以表示可以部署多个麦克风系统的房间或其他空间的布局和声学属性。例如,与声学环境相关联的信息可以描述房间的类型/尺寸、参与者可能在其中或在其中操作的房间中的活动区、房间的声学属性(例如,预期的噪声类型、混响范围等)、(多个)麦克风系统在声学环境中的位置等。在一些实现中,自动临床文档化过程10可以提供用户界面以接收与声学环境相关联的信息。因此,用户和/或自动临床文档化过程10可以(例如,经由用户界面)提供与声学环境相关联的信息。然而,应当理解,与声学环境相关联的信息可以以各种方式(例如,用于默认声学环境的默认信息、由自动临床文档化过程10自动定义等)来接收。
在一些实现中,与声学环境相关联的信息可以指示声学环境内的一个或多个目标讲话者位置。还参考图6,并且在一些实现中,假设声学环境600包括上述患者就诊的一个或多个就诊参与者(例如,就诊参与者226、228、230)。如上所述,就诊参与者(例如,就诊参与者226、228、230)的示例可以包括但不限于:医疗专业人员(例如,医生、护士、医生助理、实验室技术人员、物理治疗师、抄写员(例如,转录员)和/或参与患者就诊的工作人员)、患者(例如,为患者就诊而访问上述临床环境的人)、以及第三方(例如,参与患者就诊的患者的朋友,患者的亲属和/或患者的熟人)。
在一些实现中,自动临床文档化过程10可以接收500与声学环境600相关联的信息,该信息指示就诊参与者226、228、230的位置。在一些实现中,与声学环境600相关联的信息可以指示当讲话时一个或多个目标讲话者可能在声学环境内的位置。例如,假设自动临床文档化过程10确定检查台位于与克风阵列200的底座大约例如45°的位置。在该示例中,自动临床文档化过程10可以确定患者最有可能在坐在与麦克风阵列200的底座大约45°处的检查台上或检查台附近时讲话。进一步假设自动临床文档化过程10确定医生的办公桌位于与麦克风阵列200的底座大约例如90°的位置。在该示例中,自动临床文档化过程10可以确定医生最有可能在坐在与麦克风阵列200的底座大约90°处的办公桌上或办公桌附近时讲话。另外,假设自动临床文档化过程10确定等待区域位于与麦克风阵列200的底座大约例如120°的位置。在该示例中,自动临床文档化过程10可以确定其他患者或其他第三方最有可能从与麦克风阵列200的底座大约120°处讲话。虽然已经提供了声学环境内的目标讲话者的相对位置的三个示例,但是应当理解,在本公开的范围内,与声学环境相关联的信息可以包括任意数量的目标讲话者位置或用于任意数量的目标讲话者的基于概率的目标讲话者位置。
在一些实现中,自动临床文档化过程10可以预定义502多个滤波器,以至少部分地基于与声学环境相关联的信息来产生多个波束。波束通常可以包括麦克风阵列的麦克风之间的相长干涉图案,该图案是通过经由多个滤波器修改麦克风阵列的每个麦克风处的信号的相位和/或幅度而产生的。相长干涉图案可以改进麦克风阵列的信号处理性能。预定义502多个滤波器以产生多个波束通常可以包括:在经由一个或多个麦克风阵列获得506音频就诊信息之前的任何时间点定义多个波束。多个滤波器可以包括多个有限脉冲响应(FIR)滤波器,其被配置为调整在麦克风阵列的每个麦克风处的信号的相位和/或幅度。因此,自动临床文档化过程10可以预定义多个滤波器(例如,多个FIR滤波器)以产生多个波束,这些波束被配置为至少部分地基于与声学环境相关联的信息来在特定方向上“查看”或定向(orient)。在一些实现中,自动临床文档化过程10可以通过调整麦克风阵列的每个麦克风处的信号的相位和/或幅度来预定义502多个滤波器以产生多个波束。
例如,自动临床文档化过程10可以接收500与声学环境相关联的信息,并且可以确定声学环境的声学属性如何影响被部署在声学环境内的波束。例如,假设与声学环境相关联的信息指示在声学环境的不同部分的特定频率和变化幅度处可能存在特定的混响级别。在该示例中,自动临床文档化过程10可以预定义502多个滤波器以产生多个波束以考虑声学环境的布局、声学属性等。如下面将更详细地讨论的,通过预定义502多个滤波器以产生多个波束,自动临床文档化过程10可以允许针对各种情况选择特定波束。
在一些实现中,至少部分地基于与声学环境相关联的信息来预定义502多个滤波器以产生多个波束可以包括:预定义508多个滤波器以产生被配置为从声学环境内的一个或多个目标讲话者位置接收音频就诊信息的一个或多个波束。例如,再次参考图6,自动临床文档化过程10可以预定义508多个滤波器以产生一个或多个波束,其被配置为从声学环境内的一个或多个目标讲话者位置接收音频就诊信息。继续上面的示例,假设自动临床文档化过程10根据与声学环境600相关联的信息确定患者最有可能在坐在与麦克风阵列200的底座大约45°处的检查台上或检查台附近时讲话;医生最有可能在坐在与麦克风阵列200的底座大约90°的办公桌上或办公桌附近时讲话;以及其他患者或其他第三方最有可能从与麦克风阵列200的底座大约120°处讲话。在该示例中,自动临床文档化过程10可以预定义508多个滤波器,以产生用于从患者(例如,就诊参与者228)接收音频就诊信息的波束220;用于从医生(例如,就诊参与者226)接收音频就诊信息的波束222;以及用于从另一患者/第三方(例如,就诊参与者230)接收音频就诊信息的波束224。如下面将更详细地讨论的,当特定参与者正在讲话时,自动临床文档化过程10可以选择特定的波束来接收音频就诊信息。
在一些实现中,至少部分地基于与声学环境相关联的信息来预定义502多个滤波器以产生多个波束可以包括:至少部分地基于与声学环境相关联的信息来预定义510多个滤波器以产生多个频率无关的波束。在一些实现中,对波束的音频就诊信息的空间灵敏度可以是频率相关的。例如,对于接收高频信号,灵敏度波束可能较窄,而对于低频信号,灵敏度波束可能较宽。因此,自动临床文档化过程10可以至少部分地基于与声学环境相关联的信息来预定义510多个滤波器以产生多个频率无关的波束。例如并且如上所述,自动临床文档化过程10可以至少部分地基于与声学环境相关联的信息来确定讲话者在讲话时可以位于声学环境内的特定位置。此外,自动临床文档化过程10可以接收声学环境的声学属性。例如,自动临床文档化过程10可以确定声学环境内的一个或多个噪声源的(多个)位置和频率特性。以此方式,自动临床文档化过程10可以预定义510多个滤波器,以产生多个频率无关的波束,这考虑了声学环境的声学属性,同时为频率变化提供足够的麦克风灵敏度。
例如,自动临床文档化过程10可以通过修改每个麦克风的信号的相位和/或幅度来预定义502多个滤波器以产生波束220、222、224,使得波束足够灵敏以接收声学环境内的目标讲话者的音频就诊信息,而不管频率如何。以此方式,自动临床文档化过程10可以至少部分地基于与声学环境(例如,声学环境600)相关联的信息来预定义510多个滤波器以产生多个频率无关的波束(例如,频率无关的波束220、222、224)。
在一些实现中,自动临床文档化过程10可以至少部分地基于与声学环境相关联的信息来预定义504多个滤波器以产生多个零陷。零陷通常可以包括通过修改麦克风阵列的每个麦克风处的信号的相位和/或幅度而产生的麦克风阵列的麦克风之间的相消干涉图案。相消干涉图案可能限制麦克风阵列对信号的接收。预定义504多个滤波器以产生多个零陷通常可以包括:在经由一个或多个麦克风阵列获得506音频就诊信息之前的任何时间点定义多个零陷。如上所述,多个滤波器可以包括多个有限脉冲响应(FIR)滤波器,其被配置为调整麦克风阵列的每个麦克风处的信号的相位和/或幅度。因此,自动临床文档化过程10可以预定义多个滤波器(例如,多个FIR滤波器)以产生多个零陷,多个零陷被配置为至少部分地基于与声学环境相关联的信息来在特定方向上“查看”或定向。与波束相反,零陷可能限制或衰减目标方向上的接收。在一些实现中,自动临床文档化过程10可以通过调整麦克风阵列的每个麦克风处的信号的相位和/或幅度来预定义504多个滤波器以产生多个零陷。
例如,自动临床文档化过程10可以接收500与声学环境相关联的信息,并且可以确定声学环境的声学属性如何影响部署在声学环境内的波束。例如并且如上所述,假设与声学环境相关联的信息指示特定噪声信号(例如,空调系统的声音)可以在声学环境的不同部分以特定频率和以变化幅度存在。在该示例中,自动临床文档化过程10可以预定义504多个滤波器以产生多个零陷以限制噪声信号的接收。如下面将更详细地讨论的,通过预定义504多个滤波器以产生多个零陷,自动临床文档化过程10可以允许针对各种情况选择特定的零陷。
在一些实现中,自动临床文档化过程10可以预定义504多个滤波器以产生一个或多个零陷,一个或多个零陷被配置为至少部分地基于与声学环境相关联的信息来限制从一个或多个噪声源接收噪声信号。例如,再次参考图6,假设自动临床文档化过程10根据与声学环境600相关联的信息确定噪声源(例如,风扇244)位于与麦克风阵列200的底座大约例如70°的位置,并且第二噪声源(例如,通往繁忙走廊246的门口)位于与麦克风阵列200的底座大约例如150°的位置。在该示例中,自动临床文档化过程10可以预定义512多个滤波器以产生零陷248以限制从第一噪声源(例如,风扇244)接收噪声信号,并且产生零陷250以限制从第二噪声源(例如,通往繁忙走廊246的门口)接收噪声信号。虽然已经描述了预定义504多个滤波器以产生用于两个噪声源的两个零陷的示例,但是可以理解,在本公开的范围内,自动临床文档化过程10可以预定义504多个滤波器以产生用于任意数量的噪声源的任意数量的零陷。在一些实现中,自动临床文档化过程10可以选择特定的零陷来针对各种情况限制接收噪声信号。
在一些实现中,至少部分地基于与声学环境相关联的信息来预定义504多个滤波器以产生多个零陷可以包括:预定义512多个滤波器以产生一个或多个零陷以限制从声学环境内的一个或多个目标讲话者位置接收音频就诊信息。例如,再次参考图6,自动临床文档化过程10可以预定义512多个滤波器以产生一个或多个零陷,以限制从声学环境内的一个或多个目标讲话者位置接收音频就诊信息。继续上面的示例,假设自动临床文档化过程10根据与声学环境600相关联的信息确定患者最有可能在坐在与麦克风阵列200的底座大约45°处的检查台上或检查台附近时讲话;医生最有可能在坐在与麦克风阵列200的底座大约90°的办公桌上或办公桌附近时讲话;以及其他患者或其他第三方最有可能从与麦克风阵列200的底座大约120°处讲话。
在该示例中并且还参考图7,自动临床文档化过程10可以预定义504多个滤波器以产生零陷252以限制从患者(例如就诊参与者228)接收音频就诊信息;零陷254以限制从医生(例如就诊参与者226)接收音频就诊信息;以及零陷256以限制从另一患者/第三方(例如就诊参与者230)接收音频就诊信息。如下面将更详细地讨论的,自动临床文档化过程10可以选择特定零陷来限制来自其他讲话者的音频就诊信息,以聚焦于来自特定目标讲话者的音频就诊信息。
然而,在另一示例中,假设患者(例如,就诊参与者228)和医生(例如,就诊参与者226)彼此交谈了很短的持续时间(即,“总体语言”)。自动临床文档化过程10可以形成两个输出信号,其中第一信号是朝向医生(例如,就诊参与者226)定向的波束图案和朝向患者(例如,就诊参与者228)定向的零陷的总和;以及第二信号是朝向患者(例如,就诊参与者228)定向的波束图案和朝向医生(例如,就诊参与者226)定向的零陷的总和。以此方式,由为每个信号定义的波束和零陷形成的两个信号的组合可能有更好的机会准确转录医生和患者所说的话。
在一些实现中,自动临床文档化过程10可以使用由多个预定义滤波器产生的多个波束和多个零陷,经由一个或多个麦克风阵列获得506音频就诊信息。如上所述,在音频信号的示例中,一个或多个麦克风阵列可以利用波束和零陷来接收来自特定讲话者的音频就诊信息,并且限制从其他讲话者或其他声源接收音频就诊信息。例如,自动临床文档化过程10可以通过将麦克风阵列(例如,麦克风阵列200)中的多个分立麦克风元件(例如,音频采集设备202、204、206、208、210、212、214、216、218)与多个预定义滤波器,以使得特定角度的信号经历相长干涉而其他信号经历相消干涉的方式进行组合,来获得音频就诊信息106。
在一些实现中,使用由多个预定义滤波器产生的多个波束和多个零陷经由一个或多个麦克风阵列获得506音频就诊信息可以包括:自适应地引导514多个波束和多个零陷。例如,自动临床文档化过程10可以允许将多个波束和/或多个零陷引导到声学环境内的目标讲话者。返回到上面的示例,假设患者(例如,就诊参与者228)在声学环境600内移动时正在讲话。进一步假设患者(例如,就诊参与者228)从相对于麦克风阵列200的底座大约例如45°移动到相对于麦克风阵列200的底座大约例如35°。在该示例中,当患者在声学环境600内移动时,自动临床文档化过程10可以自适应地引导514波束(例如,波束220)以跟随患者(例如,就诊参与者228)。此外,假设当患者(例如,就诊参与者228)正在讲话时,医生(例如,就诊参与者226)开始在声学环境600内移动。在该示例中,自动临床文档化过程10可以自适应地引导514零陷(例如,零陷254)以跟随医生(例如,就诊参与者226),以在患者(例如,就诊参与者228)讲话时限制来自医生(例如,就诊参与者226)的任何噪声信号或音频就诊信息。虽然已经提供了自适应地引导一个波束和一个零陷的示例,但是可以理解,在本公开中,可以针对各种目的自适应地引导任意数量的波束和/或零陷。
在一些实现中,从特定讲话者获得506音频就诊信息并且限制从其他讲话者接收音频就诊信息可以包括以下一个或多个:从多个波束中选择516一个或多个波束;以及从多个零陷中选择518一个或多个零陷。例如并且如上所述,自动临床文档化过程10可以至少部分地基于与声学环境相关联的信息来预定义多个滤波器以产生多个波束和/或多个零陷。再次参考图4,这些动作通常可以由声学波束成形模块402执行或与其相关联。以此方式,自动临床文档化过程10可以将预定义滤波器提供给波束和零陷选择模块508。如下面将更详细地讨论的,波束和零陷选择模块508可以被配置为使用多个预定义滤波器针对各种情况从多个波束中选择516一个或多个波束和/或从多个零陷中选择518一个或多个零陷。
例如并且如上所述,假设患者(例如,就诊参与者228)开始讲话。自动临床文档化过程10可以检测患者的音频就诊信息,并且可以选择516一个或多个波束(例如,波束220)以从患者(例如,就诊参与者228)接收音频就诊信息。此外,自动临床文档化过程10可以检测来自另一参与者(例如,参与者230)的语音。在一个示例中,自动临床文档化过程10可以选择516一个或多个波束(例如,波束224)来从患者230接收音频就诊信息,或者可以选择518一个或多个零陷(例如,零陷256)来限制从参与者230接收音频就诊信息。以此方式,当检测到来自特定讲话者的音频就诊信息时,自动临床文档化过程10可以从预定义的多个滤波器产生的波束和零陷中选择要利用的波束和零陷。
至少参考图8至图10,自动临床文档化过程10可以从麦克风阵列接收800音频就诊信息。可以至少部分地基于从麦克风阵列接收的音频就诊信息之间的相关性来标识802音频就诊信息的一个或多个部分内的语音活动。可以至少部分地基于由麦克风阵列的每个麦克风接收的信号之间的相关性来确定804音频就诊信息的一个或多个部分的位置信息。音频就诊信息的一个或多个部分可以用语音活动和位置信息来标记806。
在一些实现中,自动临床文档化过程10可以从麦克风阵列接收800音频就诊信息。再次参考图4,并且在一些实现中,麦克风阵列(例如,麦克风阵列200)可以包括多个麦克风(例如,音频采集设备202、204、206、208、210、212、214、216、218),其被配置为接收音频就诊信息(例如,音频就诊信息106)。如上所述,音频就诊信息106可以包括由多个音频采集设备记录的语音信号或其他信号。在一些实现中,自动临床文档化过程10可以在ACD计算机系统12的语音活动检测(VAD)模块(例如,VAD模块400)和/或声音定位模块(例如,声音定位模块406)处接收音频就诊信息106。
还参考图9,假设自动临床文档化过程10在麦克风阵列200的多个麦克风(例如,音频采集设备202、204、206、208)处接收音频就诊信息106。虽然只示出了四个音频采集设备,但是应当理解,这是为了便于解释,并且麦克风阵列的任意数量的音频采集设备可以记录本公开范围内的音频就诊信息。在该示例中,假设每个麦克风接收音频信号(例如,音频就诊信息106)。基于每个麦克风的定向、每个麦克风的属性、音频信号的属性等,每个麦克风可以接收信号的不同版本。例如,与麦克风204、206和/或208接收的音频就诊信息相比,麦克风202接收的音频就诊信息可以具有不同的信号分量(即,幅度和相位)。如下面将更详细地讨论的,自动临床文档化过程10可以利用音频就诊信息之间的相关性来检测语音并且确定与音频就诊信息相关联的位置信息。
在一些实现中,自动临床文档化过程10可以至少部分地基于麦克风阵列接收的音频就诊信息之间的相关性来标识802音频就诊信息的一个或多个部分内的语音活动。再次参考图9的示例,并且在一些实现中,音频就诊信息106可以包括音频信息的多个部分或帧(例如,部分900、902、904、906、908、910、912、914、916、918、920、922、924、926)。虽然已经描述了具有音频就诊信息106的例如14个部分的示例,但是可以理解,这仅用于示例目的,并且在本公开的范围内,音频就诊信息106可以包括或被定义为任意数量的部分。在一个示例中,每个部分或帧可以表示预定义时间量(例如,20毫秒)上的音频就诊信息106。
在一些实现中,自动临床文档化过程10可以确定麦克风阵列200接收的音频就诊信息之间的相关性。例如,自动临床文档化过程10可以比较音频就诊信息106的一个或多个部分(例如,部分900、902、904、906、908、910、912、914、916、918、920、922、924、926),以确定在跨麦克风阵列的多个麦克风的每个部分中存在的音频就诊信息之间的相关性程度。在一些实现中,自动临床文档化过程10可以执行本领域公知的各种互相关过程,以确定跨麦克风阵列200的多个麦克风的音频就诊信息106的一个或多个部分(例如,部分900、902、904、906、908、910、912、914、916、918、920、922、924、926)之间的相似性程度。
例如,假设自动临床文档化过程10仅接收环境噪声(即,没有语音且没有方向性噪声源)。自动临床文档化过程10可以确定在每个麦克风通道中观察到的频谱是不同的(即,在每个麦克风处不相关)。然而,假设自动临床文档化过程10在音频就诊信息内接收到语音或其他“方向性”信号。在该示例中,自动临床文档化过程10可以确定音频就诊信息的一个或多个部分(例如,音频就诊信息中具有语音分量的部分)在麦克风阵列的每个麦克风处高度相关。
在一些实现中,自动临床文档化过程10可以至少部分地基于确定从麦克风阵列接收的音频就诊信息之间的相关性的阈值量或程度来标识802音频就诊信息的一个或多个部分内的语音活动。例如并且如上所述,可以定义各种阈值(例如,用户定义、默认阈值、经由自动临床文档化过程10自动定义等),以确定音频就诊信息的各部分何时充分相关。因此,响应于确定跨多个麦克风的音频就诊信息的各部分之间的至少阈值相关性程度,自动临床文档化过程10可以确定或标识音频就诊信息的一个或多个部分内的语音活动。与确定音频就诊信息的各部分之间的阈值相关性程度相结合,自动临床文档化过程10可以使用本领域中已知的用于语音活动检测(VAD)的其他方法来标识语音活动,诸如滤波、降噪、应用分类规则等。以此方式,可以结合确定音频就诊信息的一个或多个部分之间的阈值相关性来使用传统的VAD技术来标识802音频就诊信息的一个或多个部分内的语音活动。
再次参考图9的示例,假设自动临床文档化过程10确定跨麦克风202、204、206、208的音频就诊信息106的部分900、902、904、906、908、910、912之间的相关性的至少阈值量或程度,以及在音频就诊信息106的部分914、916、918、920、922、924、926之间缺乏相关性。在该示例中,自动临床文档化过程10可以至少部分地基于音频就诊信息106的部分900、902、904、906、908、910、912之间的相关性的阈值来标识802音频就诊信息106的部分900、902、904、906、908、908、910、912内的语音活动。在一些实现中,标识802音频就诊信息的一个或多个部分内的语音活动可以包括生成指示音频就诊信息106的包括语音活动的部分的时间戳(例如,每个部分的开始和结束时间)。在一些实现中,自动临床文档化过程10可以为具有检测到的语音活动的每个部分生成开始和结束时间的向量。在一些实现中,并且如下面将更详细地讨论的,自动临床文档化过程10可以将语音活动标记为时域标签(即,信号的样本集合包括语音或者是语音)或频域标签集合(即,给出特定时间帧中的特定频段包括语音或者是语音的可能性的向量)。
在一些实现中,自动临床文档化过程10可以至少部分地基于由麦克风阵列的每个麦克风接收的信号之间的相关性来确定804音频就诊信息的一个或多个部分的位置信息。位置信息通常可以包括声学环境内的音频就诊信息来源的相对位置或定位。例如,自动临床文档化过程10可以确定804与麦克风阵列200接收的信号的来源相关联的位置信息。再次参考图6,并且在一些实现中,自动临床文档化过程10可以从各种源(例如,就诊参与者226、228、230;噪声源244、250;等等)接收音频就诊信息。在一些实现中,自动临床文档化过程10可以利用与麦克风阵列相关联的信息(例如,麦克风阵列的麦克风之间的间距;麦克风阵列内的麦克风的定位;等等),以确定804与麦克风阵列接收的音频就诊信息相关联的位置信息。
如上所述,并且在一些实现中,自动临床文档化过程10可以确定从麦克风阵列200接收的音频就诊信息之间的相关性。例如,自动临床文档化过程10可以比较从麦克风阵列200的各个麦克风接收的音频就诊信息106的一个或多个部分(例如,部分900、902、904、906、908、910、912、914、916、918、920、922、924、926),以确定跨麦克风阵列的多个麦克风存在于每个部分中的音频就诊信息之间的相关性程度。
在一些实现中,确定804音频就诊信息的一个或多个部分的位置信息可以包括:确定808用于音频就诊信息的一个或多个部分的麦克风阵列的每对麦克风之间的到达时间差。如本领域中已知的,一对麦克风之间的到达时间差(TDOA)可以包括至少部分地基于信号在各个接收器处的不同到达时间来定位信号来源。在一些实现中,自动临床文档化过程10可以至少部分地基于由麦克风阵列接收的音频就诊信息之间的相关性来确定808音频就诊信息的一个或多个部分的每对麦克风之间的到达时间差(TDOA)。
例如,并且在一些实现中,高度相关的信号(例如,具有至少阈值相关性程度的信号)可以允许准确确定麦克风之间的时间差。如上所述,假设自动临床文档化过程10仅接收环境噪声(即,没有语音且没有方向性噪声源)。自动临床文档化过程10可以确定在每个麦克风通道中观察到的频谱将是不同的(即,在每个麦克风处不相关)。因此,基于麦克风阵列的麦克风通道之间缺乏相关性,麦克风对之间的时间差可能难以确定和/或可能不准确。然而,假设自动临床文档化过程10在音频就诊信息内接收到语音或其他“指示”信号。在该示例中,自动临床文档化过程10可以确定音频就诊信息的一个或多个部分(例如,音频就诊信息中具有语音分量的部分)在麦克风阵列的每个麦克风处高度相关。因此,自动临床文档化过程10可以使用跨麦克风阵列的麦克风通道的高度相关的音频就诊信息来更准确地确定麦克风对之间的到达时间差。
在一些实现中,标识802语音活动和确定804位置信息可以针对音频就诊信息的一个或多个部分联合执行。例如并且如上所述,音频就诊信息的各部分之间的相关性可以标识由麦克风阵列接收的音频就诊信息的一个或多个部分内的语音活动的存在。此外,并且如上所述,音频就诊信息的各部分之间的相关性可以允许更准确地确定麦克风阵列的麦克风对之间的位置信息(例如,到达时间差)。因此,自动临床文档化过程10可以确定跨麦克风阵列的麦克风或麦克风通道的音频就诊信息之间的相关性,并且可以利用所确定的相关性(例如,通过将该相关性与用于语音活动检测的阈值和用于到达时间差确定的阈值进行比较)来联合地标识802一个或多个音频部分内的语音活动,并且确定804麦克风对之间的到达时间差。
在一些实现中,可以使用机器学习模型来执行联合标识802语音活动并且确定804音频就诊信息的一个或多个部分的位置信息。在一些实现中,自动临床文档化过程10可以训练机器学习模型以“学习”如何联合标识语音活动并且确定音频就诊信息的一个或多个部分的位置信息。如本领域中已的,机器学习模型通常可以包括被训练为标识某些类型的模式的算法或算法组合。例如,根据可用信号的性质,机器学习方法通常可以分为三类:有监督学习、无监督学习和强化学习。如本领域中已知的,有监督学习可以包括向计算设备呈现示例输入及其期望的输出,其由“教师”给出,其中目标是学习将输入映射到输出的一般规则。在无监督学习的情况下,学习算法不会被赋予标签,让它自己找到输入中的结构。无监督学习本身可以是目标(发现数据中的隐藏模式),或者可以是达到目的的一种手段(特征学习)。如本领域中已知的,强化学习通常可以包括在动态环境中交互的计算设备,在该动态环境中,计算设备必须执行特定目标(例如驾驶车辆或与对手玩游戏)。当程序在自己的问题空间中导航时,程序会被提供类似于奖励的反馈,它试图最大化这些奖励。虽然已经提供了机器学习方法的三个示例,但是可以理解,在本公开的范围内,其他机器学习方法也是可能的。
因此,自动临床文档化过程10可以利用机器学习模型(例如,机器学习模型420)来标识音频就诊信息的一个或多个部分内的语音活动和位置信息。例如,自动临床文档化过程10可以提供时域波形数据或频域特征作为机器学习模型420的输入。在一些实现中,相位谱特征可以提供用于标识音频就诊信息的一个或多个部分的语音活动和位置信息的空间信息。
例如,自动临床文档化过程10可以向机器学习模型420提供与预先标记有语音活动信息和/或位置信息的音频就诊信息的各个部分相关联的训练数据。自动临床文档化过程10可以训练机器学习模型420以至少部分地基于音频就诊信息的各部分之间的相关性程度和训练数据,标识802语音活动,并且确定804音频就诊信息的一个或多个部分的位置信息。以此方式,机器学习模型420可以被配置为学习音频就诊信息的各部分之间的相关性如何映射到音频就诊信息的各部分内的语音活动和准确的位置信息。因此,并且如图4所示,自动临床文档化过程10可以实现具有机器学习模型420的VAD模块400和声音定位模块406。
在一些实现中,自动临床文档化过程10可以接收810与声学环境相关联的信息。如上所述,声学环境可以表示可以部署多个麦克风系统的房间或其他空间的布局和声学属性。例如,与声学环境相关联的信息可以描述房间的类型/尺寸、参与者操作的房间中的活动区、房间的声学属性(例如,预期的噪声类型、混响范围等)、(多个)麦克风系统在声学环境内的位置等。在一些实现中,自动临床文档化过程10可以提供用户界面来接收与声学环境相关联的信息。因此,用户和/或自动临床文档化过程10可以经由用户界面提供与声学环境相关联的信息。然而,应当理解,与声学环境相关联的信息可以以各种方式来接收(例如,用于默认声学环境的默认信息、由自动临床文档化过程10自动定义等)。
在一些实现中,与声学环境相关联的信息可以指示声学环境内的一个或多个目标讲话者位置。再次参考图6,并且在一些实现中,假设声学环境600包括上述患者就诊的一个或多个就诊参与者(例如,就诊参与者226、228、230)。如上所述,就诊参与者(例如,就诊参与者226、228、230)的示例可以包括但不限于:医疗专业人员(例如,医生、护士、医生助理、实验室技术人员、物理治疗师、抄写员(例如,转录员)和/或参与患者就诊的工作人员)、患者(例如,为患者就诊而访问上述临床环境的人)、以及第三方(例如,参与患者就诊的患者的朋友,患者的亲属和/或患者的熟人)。
在一些实现中,自动临床文档化过程10可以接收810与声学环境600相关联的信息,该信息可以指示在声学环境600内可以定位就诊参与者226、228、230的位置。在一些实现中,与声学环境600相关联的信息可以指示当讲话时一个或多个目标讲话者可能在声学环境内的位置。例如,假设自动临床文档化过程10确定检查台位于与麦克风阵列200的底座例如约45°的位置。在该示例中,自动临床文档化过程10可以确定患者最有可能在坐在与麦克风阵列200的底座约45°处的检查台上或检查台附近时讲话。进一步假设自动临床文档化过程10确定医生的办公桌位于与麦克风阵列200的底座例如约90°的位置。在该示例中,自动临床文档化过程10可以确定医生最有可能在坐在与麦克风阵列200的底座约90°处的办公桌上或办公桌附近时讲话。另外,假设自动临床文档化过程10确定等待区域位于与麦克风阵列200的底座例如约120°的位置。在该示例中,自动临床文档化过程10可以确定其他患者或其他第三方最有可能从在麦克风阵列200的底座约120°处讲话。虽然已经提供了声学环境内的目标讲话者的相对位置的三个示例,但是应当理解,在本公开的范围内,与声学环境相关联的信息可以包括任意数量的目标讲话者位置或用于任意数量的目标讲话者的基于概率的目标讲话者位置。
在一些实现中,标识802音频就诊信息的一个或多个部分内的语音活动可以至少部分地基于音频就诊信息的一个或多个部分的位置信息和与声学环境相关联的信息。例如,自动临床文档化过程10可以利用与声学环境相关联的信息来更准确地标识音频就诊信息的一个或多个部分内的语音活动。在一个示例中,假设自动临床文档化过程10接收与声学环境相关联的信息,该信息指示讲话者可能在声学环境中的位置。在该示例中,自动临床文档化过程10可以基于音频就诊信息的一个或多个部分的位置信息来确定音频就诊信息的一个或多个部分是否在由声学环境信息定义的潜在讲话者位置内。响应于确定音频就诊信息的一个或多个部分源自声学环境内的潜在讲话者位置,自动临床文档化过程10可以确定音频就诊信息的一个或多个部分包括语音活动的较高概率。因此,自动临床文档化过程10可以利用位置信息和声学环境信息来标识802音频就诊信息的一个或多个部分内的语音活动。
在一些实现中,自动临床文档化过程10可以用语音活动和位置信息来标记806音频就诊信息的一个或多个部分。用语音活动和位置信息来标记音频就诊信息的一个或多个部分通常可以包括利用与音频就诊信息的每个相应部分相关联的语音活动和位置信息来生成音频就诊信息的一个或多个部分的元数据。还参考图10,并且在一些实现中,自动临床文档化过程10可以通过为音频就诊信息106的每个部分生成声学元数据(例如,声学元数据1000、1002、1004、1006、1008、1010、1012)来用与每个相应部分相关联的语音活动和位置信息来标记806部分900、902、904、906、906、908、910、912。在一些实现中,与音频就诊信息相关联的声学元数据可以包括与音频就诊信息相关联的语音活动和位置信息。在一些实现中,自动临床文档化过程10可以生成标识包括语音活动的音频就诊信息106的部分(例如,部分900、902、904、906、908、910、912)的声学元数据1000、1002、1004、1006、1008、1010、1012。在一个示例中,自动临床文档化过程10可以生成具有时间戳的声学元数据,其指示包括语音活动的音频就诊信息106的部分(例如,每个部分的开始和结束时间)。在一些实现中,自动临床文档化过程10可以将语音活动标记806为时域标签(即,信号的样本集合包括语音或者是语音)或者频域标签集合(即,给出特定时间帧中的特定频段包括语音或者是语音的可能性的向量)。
再次参考图4,并且如将在下面更详细地讨论的,自动临床文档化过程10可以将声学元数据(例如,声学元数据1014)提供给讲话者标识和追踪模块404,以从音频就诊信息标识讲话者和/或至少部分地基于声学元数据1014追踪讲话者在声学环境内的位置。
至少参考图11至图14,自动临床文档化过程10可以接收1100与声学环境相关联的信息。可以接收1102与第一麦克风系统接收的音频就诊信息相关联的声学元数据。可以至少部分地基于与音频就诊信息相关联的声学元数据和与声学环境相关联的信息来定义1104一个或多个讲话者表示。音频就诊信息的一个或多个部分可以用一个或多个讲话者表示和声学环境内的讲话者位置来标记1106。
在一些实现中,自动临床文档化过程10可以接收1100与声学环境相关联的信息。如上所述,声学环境可以表示可以部署多个麦克风系统的房间或其他空间的布局和声学属性。例如,与声学环境相关联的信息可以描述房间的类型/尺寸、参与者操作的房间中的活动区、房间的声学属性(例如,预期的噪声类型、混响范围等)、(多个)麦克风系统在声学环境内的位置等。在一些实现中,自动临床文档化过程10可以提供用户界面来接收与声学环境相关联的信息。因此,用户和/或自动临床文档化过程10可以经由用户界面提供与声学环境相关联的信息。然而,应当理解,与声学环境相关联的信息可以以各种方式来接收(例如,用于默认声学环境的默认信息、由自动临床文档化过程10自动定义等)。
在一些实现中,与声学环境相关联的信息可以指示声学环境内的一个或多个目标讲话者位置。再次参考图6,并且在一些实现中,假设声学环境600包括上述患者就诊的一个或多个就诊参与者(例如,就诊参与者226、228、230)。如上所述,就诊参与者(例如,就诊参与者226、228、230)的示例可以包括但不限于:医疗专业人员(例如,医生、护士、医生助理、实验室技术人员、物理治疗师、抄写员(例如,转录员)和/或参与患者就诊的工作人员)、患者(例如,为患者就诊而访问上述临床环境的人)、以及第三方(例如,参与患者就诊的患者的朋友,患者的亲属和/或患者的熟人)。
在一些实现中,自动临床文档化过程10可以接收1100与声学环境600相关联的信息,该信息可以指示在声学环境600内可以定位就诊参与者226、228、230的位置。在一些实现中,与声学环境600相关联的信息可以指示当讲话时一个或多个目标讲话者可能在声学环境内的位置。例如,假设自动临床文档化过程10确定检查台位于与麦克风阵列200的底座大约例如45°的位置。在该示例中,自动临床文档化过程10可以确定患者最有可能在坐在与麦克风阵列200的底座大约45°处的检查台上或检查台附近时讲话。进一步假设自动临床文档化过程10确定医生的办公桌位于与麦克风阵列200的底座大约例如90°的位置。在该示例中,自动临床文档化过程10可以确定医生最有可能在坐在与麦克风阵列200的底座大约90°处的办公桌上或办公桌附近时讲话。
此外,假设自动临床文档化过程10确定等待区域位于与麦克风阵列200的底座大约例如120°的位置。在该示例中,自动临床文档化过程10可以确定其他患者或其他第三方最有可能从与麦克风阵列200的底座大约120°处讲话。虽然已经提供了声学环境内的目标讲话者的相对位置的三个示例,但是应当理解,在本公开的范围内,与声学环境相关联的信息可以包括任意数量的目标讲话者位置或用于任意数量的目标讲话者的基于概率的目标讲话者位置。
在一些实现中,自动临床文档化过程10可以接收1102与第一麦克风系统接收的音频就诊信息相关联的声学元数据。再次参考图4,并且在一些实现中,VAD模块400和声音定位模块406可以生成与音频就诊信息相关联的声学元数据。例如,并且在一些实现中,与音频就诊信息相关联的声学元数据可以包括与音频就诊信息相关联的语音活动信息和信号位置信息。如上所述,并且在一些实现中,自动临床文档化过程10可以标识具有语音分量的音频就诊信息(例如,音频就诊信息106)的部分。自动临床文档化过程10可以将音频就诊信息106的部分关联或标记为具有语音活动。在一些实现中,自动临床文档化过程10可以生成标识包括语音活动的音频就诊信息106的部分的声学元数据。
在一个示例中,自动临床文档化过程10可以生成时间戳,其指示包括语音活动的音频就诊信息106的部分(例如,每个部分的开始和结束时间)。还参考图12,自动临床文档化过程10可以接收音频就诊信息106的一个或多个部分(例如,部分1202、1204、1206、1208、1210、1212、1214、1216、1218、1220、1222、1224、1226、1228)的声学元数据1200。如上所述,自动临床文档化过程10可以生成具有与音频就诊信息106的每个部分相关联的语音活动和信号位置信息的声学元数据(例如,在图12中分别表示为音频就诊信息106的部分1202、1204、1206、1208、1210、1212、1214、1216、1218、1220、1222、1224、1226、1228的声学元数据1230、1232、1234、1236、1238、1240、1242、1244、1246、1248、1250、1252、1254、1256)。
此外,自动临床文档化过程10可以确定音频就诊信息106的位置信息。例如,自动临床文档化过程10可以从麦克风阵列确定空间信息(例如,麦克风之间的到达时间差(TDOA))。如本领域中已知的,一旦在两个参考点接收到信号,到达时间差就可以用来计算目标和两个参考点之间的距离差。在该示例中,自动临床文档化过程10可以确定麦克风阵列的麦克风之间的到达时间差(TDOA)。在一些实现中,自动临床文档化过程10可以为特定麦克风阵列生成具有TDOA的声学元数据。
在一些实现中,自动临床文档化过程10可以至少部分地基于与音频就诊信息相关联的声学元数据和与声学环境相关联的信息来定义一个或多个讲话者表示。讲话者表示通常可以包括与声学环境内的唯一讲话者相关联的数据集群。例如,自动临床文档化过程10可以将空间信息和频谱信息集群到分离的讲话者表示中,以考虑引用声学环境中的唯一讲话者的空间和频谱数据的组合。
再次参考图6,并且在一些实现中,假设自动临床文档化过程10接收1100与声学环境600相关联的信息,该信息可以指示在声学环境600内可以定位就诊参与者226、228、230的位置。进一步假设自动临床文档化过程10接收1102与麦克风阵列200接收的音频就诊信息106相关联的声学元数据(例如,声学元数据1200)。在该示例中,假设声学元数据1200包括空间信息(例如,音频就诊信息106的位置信息)和频谱信息(例如,语音活动信息)。在一些实现中,频谱信息可以包括与特定讲话者(例如,就诊参与者226、228、230)相关联的声学特征(例如,MEL频率倒谱系数(MFCC))。
还参考图13,并且在一些实现中,自动临床文档化过程10可以至少部分地基于与音频就诊信息相关联的声学元数据和与声学环境相关联的信息来为就诊参与者定义1104讲话者表示。例如,自动临床文档化过程10可以使用讲话者移动的动态模型和与声学环境相关联的信息来将空间信息(例如,TDOA)和频谱信息(例如,诸如MFCC的声学特征)集群成分离的讲话者表示(例如,就诊参与者226的讲话者表示1300;就诊参与者228的讲话者表示1302;以及就诊参与者230的讲话者表示1304)。虽然上面的示例包括定义了例如三个讲话者表示,但是可以理解,在本公开的范围内,可以由自动临床文档化过程10定义任意数量的讲话者表示。
在一些实现中,自动临床文档化过程10可以接收1108与声学环境内的一个或多个就诊参与者相关联的视觉元数据。例如,自动临床文档化过程10可以被配置为在患者就诊(例如,访问医生办公室)期间追踪监控空间(例如,声学环境600)内的类人形状的移动和/或交互。因此,再次参考图2,自动临床文档化过程10可以处理机器视觉就诊信息(例如,机器视觉就诊信息102)以标识一个或多个类人形状。如上所述,机器视觉系统100的示例(特别是ACD客户端电子设备34)通常可以包括但不限于RGB成像系统、红外成像系统、紫外成像系统、激光成像系统、声纳成像系统、雷达成像系统和热成像系统中的一个或多个。
当ACD客户端电子设备34包括可见光成像系统(例如,RGB成像系统)时,ACD客户端电子设备34可以被配置为通过在这些各种对象的可见光谱中记录运动视频来监控声学环境600内的各种对象。当ACD客户端电子设备34包括不可见光成像系统(例如,激光成像系统、红外成像系统和/或紫外成像系统)时,ACD客户端电子设备34可以被配置为通过在这些各种对象的不可见光谱中记录运动视频来监控声学环境600内的各种对象。当ACD客户端电子设备34包括X射线成像系统时,ACD客户端电子设备34可以被配置为通过在这些各种对象的X射线频谱中记录能量来监控声学环境600内的各种对象。当ACD客户端电子设备34包括声纳成像系统时,ACD客户端电子设备34可以被配置为通过发射可以从这些各种对象反射的声波来监控声学环境600内的各种对象。当ACD客户端电子设备34包括雷达成像系统时,ACD客户端电子设备34可以被配置为通过发射可以从这些各种对象反射的无线电波来监控声学环境600内的各种对象。当ACD客户端电子设备34包括热成像系统时,ACD客户端电子设备34可以被配置为通过追踪这些各种对象的热能来监控声学环境600内的各种对象。
如上所述,ACD计算机系统12可以被配置为访问一个或多个数据源118(例如,多个单独的数据源120、122、124、126、128),其中其示例可以包括但不限于以下一个或多个:用户简档数据源、声纹数据源、声音特性数据源(例如,用于适配自动语音识别模型)、脸纹数据源、类人形状数据源、话语标识符数据源、可穿戴令牌标识符数据源、交互标识符数据源、医疗状况症状数据源、处方兼容性数据源、医疗保险覆盖范围数据源和家庭保健数据源。
因此,并且当处理机器视觉就诊信息(例如,机器视觉就诊信息102)以标识一个或多个类人形状时,自动临床文档化过程10可以被配置为将一个或多个数据源118内定义的类人形状与机器视觉就诊信息(例如,机器视觉就诊信息102)内的潜在类人形状进行比较。
当处理机器视觉就诊信息(例如,机器视觉就诊信息102)以标识一个或多个类人形状时,自动临床文档化过程10可以追踪一个或多个类人形状在监控空间(例如,声学环境600)内的移动。例如,并且当追踪一个或多个类人形状在声学环境600内的移动时,当新的类人形状进入监控空间(例如,声学环境600)时,自动临床文档化过程10可以将新的类人形状添加到一个或多个类人形状,和/或当现有类人形状离开监控空间(例如,声学环境600)时,可以从一个或多个类人形状中移除现有类人形状。
此外,并且当追踪声学环境600内的一个或多个类人形状的移动时,自动临床文档化过程10可以监控声学环境600内的各种类人形状的轨迹。因此,假设当离开声学环境600时,就诊参与者242走在就诊参与者226的前面(或后面)。由于自动临床文档化过程10正在监控(在该示例中)就诊参与者242(例如,从左向右移动)和就诊参与者226(例如,静止的)的轨迹,当就诊参与者242在就诊参与者226前面(或后面)经过时,这两个类人形状的身份可能不会被自动临床文档化过程10混淆。
自动临床文档化过程10可以被配置为获得患者就诊的就诊信息(例如,访问医生办公室),其可以包括机器视觉就诊信息102(以上述方式)和/或音频就诊信息106。在一些实现中,自动临床文档化过程10可以生成与机器视觉就诊信息102相关联的视觉元数据。例如并且如上所述,自动临床文档化过程10可以生成视觉元数据1306,其指示声学环境600内的讲话者的方向或位置、声学环境600内的讲话者的数量和/或声学环境600内的讲话者的身份。如图13的示例中所示,视觉元数据1306可以针对音频就诊信息106的每个部分(例如,音频就诊信息106的部分1202、1204、1206、1208、1210、1212、1214、1216、1218、1220、1222、1224、1226、1228)定义并且被表示为用于每个部分的分离的视觉元数据(例如,视觉元数据1308、1310、1312、1314、1316、1318、1320、1322、1324、1326、1328、1330、1332、1334)。
在一些实现中,定义1104一个或多个讲话者表示可以包括至少部分地基于与声学环境内的一个或多个就诊参与者相关联的视觉元数据来定义1110一个或多个讲话者表示。例如并且如上所述,机器视觉系统100可以通过追踪声学环境内的类人形状来检测和追踪特定讲话者表示的位置估计。自动临床文档化过程10可以将来自视觉元数据的位置估计与声学定位信息“融合”,以将视觉元数据和声学元数据的空间频谱特征集群为多个讲话者表示。
再次参考图6的示例,自动临床文档化过程10可以接收1108与就诊参与者226、228、230相关联的视觉元数据1306。在该示例中,视觉元数据1306可以指示每个讲话者在声学环境600内的相对位置;讲话者的数量;和/或声学环境600内的讲话者的身份。例如并且如上所述,机器视觉系统100可以被配置为标识一个或多个类人形状并且追踪一个或多个类人形状在声学环境内的移动。自动临床文档化过程10可以接收与就诊参与者226、228、230的身份和/或位置相关联的视觉元数据1306。假设视觉元数据1306包括每个参与者的身份(例如,至少部分地基于将在一个或多个数据源118内定义的类人形状与机器视觉就诊信息(例如,机器视觉就诊信息102)内的潜在类人形状进行比较)。
进一步假设自动临床文档化过程10接收1102与音频就诊信息106相关联的声学元数据1200。自动临床文档化过程10可以至少部分地基于与声学环境600内的就诊参与者226、228、230相关联的视觉元数据1306和与音频就诊信息106相关联的声学元数据1200来定义1110一个或多个讲话者表示(例如,分别用于就诊参与者226、228、230的讲话者表示1300、1302、1304)。在该示例中,自动临床文档化过程10可以将来自视觉元数据1306的位置估计与声学元数据1200的位置信息相结合,以将视觉元数据1306和声学元数据1200的空间频谱特征分别集群为就诊参与者226、228、230的讲话者表示1300、1302、1304。
在一些实现中,自动临床文档化过程10可以接收1112与由第二麦克风系统接收的音频就诊信息相关联的加权元数据。如下面将更详细地讨论的,ACD计算机系统12的设备选择和加权模块410可以被配置为至少部分地基于每个音频流的信噪比来加权多个音频流(例如,来自不同麦克风系统),从而定义每个音频流的权重。在一些实现中,可以为每个音频流定义权重,使得估计的语音处理系统性能最大化。例如,自动临床文档化过程10可以至少部分地基于每个音频流的每个部分或帧的信噪比(SNR)来训练设备选择和加权模块。然而,应当理解,可以利用与每个音频流相关联的其他度量或属性来选择和加权每个音频流。例如,自动临床文档化过程10可以至少部分地基于每个音频流的每个部分或帧的混响级别(例如,C50比率)来训练设备选择和加权模块。虽然已经提供了可用于选择和加权每个音频流的特定度量的两个示例,但是可以理解,在本公开的范围内,可以使用任何度量或属性来选择和/或加权各种音频流。在一些实现中,设备选择和加权模块410可以提供音频就诊信息的先前处理或加权部分,以定义来自多个麦克风系统的每个音频流的加权。以此方式,当追踪和/或识别讲话者时,自动临床文档化过程10可以利用来自多个麦克风系统的音频就诊信息。
在一些实现中,定义1104一个或多个讲话者表示可以包括至少部分地基于与由第二麦克风系统接收的音频就诊信息相关联的加权元数据来定义1114一个或多个讲话者表示。例如,自动临床文档化过程10可以利用与由第二麦克风系统(例如,第二麦克风系统416)接收的音频就诊信息相关联的加权元数据(例如,加权元数据1336)来帮助标识在声学环境(例如,声学环境600)内的给定时间哪个讲话者正在讲话。
例如,假设就诊参与者226在附近(例如,在口袋中)具有第二麦克风系统(例如,移动电子设备416)。在一些实现中,第二麦克风系统(例如,移动电子设备416)可以从就诊参与者226、228、230接收音频就诊信息106。如下面将更详细地讨论的,自动临床文档化过程10可以对由第一麦克风系统(例如,麦克风阵列200)接收的音频就诊信息的部分应用权重,并对由第二麦克风系统(例如,移动电子设备416)接收的音频就诊信息的部分应用权重。在一些实现中,自动临床文档化过程10可以生成与由第二麦克风系统(例如,移动电子设备416)接收的音频就诊信息相关联的加权元数据(例如,加权元数据1336)。例如,加权元数据1336可以基于由移动电子设备416接收的音频就诊信息来指示就诊参与者226正在讲话。因此,自动临床文档化过程10可以至少部分地基于与由第二麦克风系统接收的音频就诊信息相关联的加权元数据1336来定义1114就诊参与者226的讲话者表示。
在一些实现中,定义1104一个或多个讲话者表示可以包括定义1116以下一项或多项:至少一个已知讲话者表示和至少一个未知讲话者表示。例如并且如上所述,ACD计算机系统12可以被配置为访问一个或多个数据源118(例如,多个单独的数据源120、122、124、126、128),其示例可以包括但不限于以一项或多项:用户简档数据源、声纹数据源、语音特性数据源(例如,用于适配自动语音识别模型)、脸纹数据源、类人形状数据源、话语标识符数据源、可穿戴令牌标识符数据源、交互标识符数据源、医疗状况症状数据源、处方兼容性数据源、医疗保险覆盖范围数据源中、以及家庭保健数据源。
在一些实现中,过程10可以将包括在用户简档内(定义在用户简档数据源内)的数据与音频就诊信息和/或机器视觉就诊信息的至少一部分进行比较。例如,包括在用户简档内的数据可以包括语音相关数据(例如,在用户简档内本地定义或在声纹数据源内远程定义的声纹)、语言使用模式、用户口音标识符、用户定义的宏和用户定义的快捷方式。具体地,并且当试图将音频就诊信息的至少一部分与至少一个已知就诊参与者相关联时,自动临床文档化过程10可以将一个或多个声纹(在声纹数据源中定义)与在音频就诊信息中定义的一个或多个语音进行比较。
如上所述,并且对于该示例,假设:就诊参与者226是具有声纹/简档的医疗专业人员;就诊参与者228是具有声纹/简档的患者;以及就诊参与者230是第三方(就诊参与者228的熟人),因此没有声纹/简档。因此,并且对于该示例:假设当将音频就诊信息106A与声纹数据源内包括的各种声纹/简档进行比较时,自动临床文档化过程10将是成功的并且标识就诊参与者226;假设当将音频就诊信息106B与声纹数据源内包括的各种声纹/简档进行比较时,自动临床文档化过程10将是成功的并且标识就诊参与者228;并且假设当将音频就诊信息106C与声纹数据源内包括的各种声纹/简档进行比较时,自动临床文档化过程10将是不成功的并且不标识就诊参与者230。
因此,并且当处理就诊信息(例如,机器视觉就诊信息102和/或音频就诊信息106时)时,自动临床文档化过程10可以将音频就诊信息106A与医生苏珊〃琼斯的声纹/简档相关联,并且可以将就诊参与者226标识为“医生苏珊〃琼斯”。自动临床文档化过程10还可以将音频就诊信息106B与患者保罗〃史密斯的声纹/简档相关联,并且可以将就诊参与者228标识为“患者保罗〃史密斯”。此外,自动临床文档化过程10可能不能将音频就诊信息106C与任何声纹/简档相关联,并且可能将就诊参与者230标识为“未知参与者”。
如上所述,自动临床文档化过程10可以至少部分地基于与音频就诊信息106相关联的声学元数据1200和与机器视觉就诊信息102相关联的视觉元数据1306,来定义1116“医生苏珊〃琼斯”的已知讲话者表示(例如,用于就诊参与者226的讲话者表示1300)和“患者保罗〃史密斯”的已知讲话者表示(例如,就诊参与者228的讲话者表示1302)。类似地,自动临床文档化过程10可以为参与者230定义未知讲话者表示(例如,就诊参与者230的讲话者表示1304)。
在一些实现中,自动临床文档化过程10可以用一个或多个讲话者表示和声学环境内的讲话者位置来标记1106音频就诊信息的一个或多个部分。例如,用一个或多个讲话者表示和声学环境内的讲话者位置来标记1106音频就诊信息的一个或多个部分通常可以包括:将声学环境内的讲话者表示和讲话者位置信息与音频就诊信息的特定部分(例如,段或帧)相关联。例如,自动临床文档化过程10可以为音频就诊信息的每个部分生成标签,该标签具有说话者表示和与每个部分相关联的声学环境内的说话者位置。
还参考图14,并且在一些实现中,自动临床文档化过程10可以用一个或多个讲话者表示和声学环境内的讲话者位置来标记音频就诊信息的一个或多个部分(例如,音频就诊信息106的部分1202、1204、1206、1208、1210、1212、1214、1216、1218、1220、1222、1224、1226、1228)。例如,对于音频就诊信息106的每个部分,自动临床文档化过程10可以利用与音频就诊信息106的该部分相关联的讲话者表示和讲话者位置信息来生成“标签”或讲话者元数据1400(分别表示为针对部分1202、1204、1206、1208、1210、1212、1214、1214、1216、1218、1220、1222、1214、1216、1218、1220、1222、1224、1226、1228定义的讲话者元数据1402、1404、1406、1408、1410、1412、1414、1416、1418、1420、1422、1424、1426、1428)
继续上面的示例,假设部分1202、1204、1206、1208、1210包括来自就诊参与者226的语音;部分1212、1214、1216、1218、1220包括来自就诊参与者228的语音;以及部分1222、1224、1226、1228包括来自就诊参与者230的语音。在该示例中,自动临床文档化过程10可以在音频就诊信息的关联部分期间用讲话者表示1300和与讲话者226相关联的声学环境内的讲话者位置来标记部分1202、1204、1206、1208、1210;可以用讲话者表示1302和在音频就诊信息的关联部分期间与就诊参与者228相关联的声学环境内的讲话者位置来标记部分1212、1214、1216、1218、1220;并且可以用讲话者表示1304和在音频就诊信息的关联部分期间与就诊参与者230相关联的声学环境内的讲话者位置来标记部分1222、1224、1226、1228。如下面将更详细地讨论的,讲话者元数据1400可以被提供给ACD计算系统12的波束和零陷选择模块(例如,波束和零陷选择模块406),并且可以允许至少部分地基于讲话者元数据1400内定义的讲话者表示和讲话者位置来选择和/或组合特定波束和/或零陷。
至少参考图15至图16,自动临床文档化过程10可以接收1500与麦克风阵列相关联的多个预定义波束。可以接收1502与麦克风阵列相关联的多个预定义零陷。可以选择1504来自多个预定义波束的一个或多个预定义波束或者来自多个预定义零陷的一个或多个预定义零陷。麦克风阵列可以使用一个或多个所选波束和一个或多个所选零陷中的至少一个,经由麦克风阵列获得1506音频就诊信息。
在一些实现中,自动临床文档化过程10可以接收1500与麦克风阵列相关联的多个预定义波束。如上所述,自动临床文档化过程10可以预定义与麦克风阵列相关联的多个预定义波束。例如,自动临床文档化过程10可以至少部分地基于与声学环境相关联的信息来预定义多个波束。如上所述,波束通常可以包括通过修改麦克风阵列的每个麦克风处的信号的相位和/或幅度而产生的麦克风阵列的麦克风之间的相长干涉图案。相长干涉图案可以改进麦克风阵列的信号处理性能。在一些实现中,自动临床文档化过程10可以通过调整麦克风阵列的每个麦克风处的信号的相位和/或幅度来预定义多个波束。在一些实现中,自动临床文档化过程10可以将预定义的波束提供给波束和零陷选择模块408。在一个示例中,自动临床文档化过程10可以接收1500多个预定义波束,作为麦克风阵列的每个麦克风通道的每个信号的相位和/或幅度的矢量,以实现期望的灵敏度图案。在另一示例中,并且如上所述,自动临床文档化过程10可以接收1500多个预定义波束,作为产生多个预定义波束的多个预定义滤波器。
在一些实现中,多个预定义波束可以包括被配置为从声学环境内的一个或多个目标讲话者位置接收音频就诊信息的一个或多个预定义波束。例如并且如上所述,自动临床文档化过程10可以接收与声学环境相关联的信息。在一些实现中,声学环境信息可以指示讲话者可能从声学环境内讲话的一个或多个目标讲话者位置。因此,自动临床文档化过程10可以接收1500预定义波束,预定义波束被配置为从声学环境内的一个或多个目标讲话者位置接收音频就诊信息。
例如,并且再次参考图6,自动临床文档化过程10可以接收1500多个预定义波束,多个预定义波束被配置为从声学环境内的一个或多个目标讲话者位置接收音频就诊信息。假设自动临床文档化过程10根据与声学环境600相关联的信息确定,患者最有可能在坐在与麦克风阵列200的底座大约45°处的检查台上或检查台附近时讲话;医生最有可能在坐在与麦克风阵列200的底座大约90°处的办公桌上或办公桌附近时讲话;以及其他患者或其他第三方最有可能从与麦克风阵列200的底座大约120°处讲话。在该示例中,自动临床文档化过程10可以接收1500预定义波束220,其被配置为从患者(例如,就诊参与者228)接收音频就诊信息;波束222,其被配置为从医生(例如,就诊参与者226)接收音频就诊信息;以及波束224,其被配置为从另一患者/第三方(例如,就诊参与者230)接收音频就诊信息。
在一些实现中,自动临床文档化过程10可以接收1502与麦克风阵列相关联的多个预定义零陷。如上所述,零陷通常可以包括通过修改麦克风阵列的每个麦克风处的信号的相位和/或幅度而产生的麦克风阵列的麦克风之间的相消干涉图案。相消干涉图案可能限制麦克风阵列对信号的接收。在一些实现中,自动临床文档化过程10可以通过经由多个滤波器(例如,多个FIR滤波器)调整麦克风阵列的每个麦克风处的信号的相位和/或幅度来预定义多个零陷。在一个示例中,自动临床文档化过程10可以接收1502多个预定义零陷,作为麦克风阵列的每个麦克风通道的每个信号的相位和/或幅度的矢量,以实现期望的灵敏度图案。在另一示例中,并且如上所述,自动临床文档化过程10可以接收1502多个预定义零陷作为产生多个预定义零陷的多个预定义滤波器。
在一些实现中,多个预定义零陷可以包括被配置为限制从声学环境内的一个或多个目标讲话者位置接收音频就诊信息的一个或多个预定义零陷。例如并且如上所述,自动临床文档化过程10可以接收与声学环境相关联的信息。在一些实现中,声学环境信息可以指示讲话者可能从声学环境内讲话的一个或多个目标讲话者位置。因此,自动临床文档化过程10可以接收1502预定义波束,其被配置为限制从声学环境内的一个或多个目标讲话者位置接收音频就诊信息。
例如,并且再次参考图6,自动临床文档化过程10可以接收1502多个预定义零陷,该多个预定义零陷被配置为从声学环境内的一个或多个目标讲话者位置接收音频就诊信息。假设自动临床文档化过程10根据与声学环境600相关联的信息确定,患者最有可能在坐在与麦克风阵列200的底座大约45°处的检查台上或检查台附近时讲话;医生最有可能在坐在与麦克风阵列200的底座大约90°处的办公桌上或办公桌附近时讲话;以及其他患者或其他第三方最有可能从与麦克风阵列200的底座大约120°处讲话。在该示例中并且还参考图7,自动临床文档化过程10可以预定义零陷252以限制从患者(例如,就诊参与者228)接收音频就诊信息;零陷254以限制从医生(例如就诊参与者226)接收音频就诊信息;以及零陷256以限制从另一患者/第三方(例如就诊参与者230)接收音频就诊信息。
在一些实现中,自动临床文档化过程10可以选择以下中的至少一项:来自多个预定义波束的一个或多个预定义波束,从而定义一个或多个所选波束;以及来自多个预定义零陷的一个或多个预定义零陷,从而定义一个或多个所选零陷。选择预定义波束和/或预定义零陷可以包括选择预定义波束和/或预定义零陷的图案或组合以实现特定的麦克风阵列灵敏度。例如,并且如将在下面更详细地描述的,假设自动临床文档化过程10确定医生(例如,就诊参与者226)正在讲话。在该示例中,自动临床文档化过程10可以选择1504一个或多个波束和/或零陷以实现波束成形图案,其使麦克风阵列200能够从医生(例如,就诊参与者226)接收音频就诊信息。在一些实现中,一个或多个所选波束可以使得能够从医生(例如,就诊参与者226)接收音频就诊信息,并且一个或多个所选零陷可以限制从其他讲话者或噪声源接收音频就诊信息。
在一些实现中,自动临床文档化过程10可以接收1508与音频就诊信息的一个或多个部分相关联的讲话者元数据。例如并且如上所述,对于音频就诊信息106的每个部分,自动临床文档化过程10可以利用与音频就诊信息的该部分相关联的讲话者表示和讲话者位置信息来生成“标签”或讲话者元数据。如上所述,讲话者表示可以包括与声学环境内的唯一讲话者相关联的数据集群,并且讲话者位置信息可以包括指示讲话者在声学环境中的位置的信息。在一些实现中,自动临床文档化过程10可以利用讲话者表示和讲话者位置信息来选择特定的波束和/或零陷以经由麦克风阵列进行波束成形。
在一些实现中,选择1504一个或多个波束和一个或多个零陷中的至少一个可以包括至少部分地基于与音频就诊信息的一个或多个部分相关联的讲话者元数据来选择1510一个或多个波束和一个或多个零陷中的至少一个。例如,自动临床文档化过程10可以根据讲话者元数据确定讲话者在声学环境中的位置和讲话者身份。在一个实例中,假设讲话者元数据1400指示医生(例如,就诊参与者226)正在讲话(例如,至少部分地基于讲话者元数据,包括与医生(例如,就诊参与者226)相关联的讲话者身份和指示正在从医生办公桌附近接收音频就诊信息的讲话者位置信息)。在该示例中,自动临床文档化过程10可以至少部分地基于指示医生(例如,就诊参与者226)正在讲话的讲话者元数据来选择一个或多个波束和/或一个或多个零陷。
在一些实现中,至少部分地基于与音频就诊信息的一个或多个部分相关联的讲话者元数据来选择1510一个或多个波束和一个或多个零陷可以包括:至少部分地基于与音频就诊信息的一个或多个部分相关联的讲话者元数据来选择1512被配置为从声学环境内的一个或多个目标讲话者位置接收音频就诊信息的一个或多个预定义波束。继续上面的示例,其中讲话者元数据1400指示医生(例如,就诊参与者226)正在讲话,自动临床文档化过程10可以确定哪个(哪些)波束为包括在讲话者元数据1400中的讲话者位置提供麦克风灵敏度。例如,假设自动临床文档化过程10确定波束222(如图6所示)在讲话者元数据1400中包括的讲话者位置处或其附近提供麦克风灵敏度。在该示例中,自动临床文档化过程10可以选择1512波束222用于从医生(例如,就诊参与者226)接收音频就诊信息。虽然已经提供了选择单个波束的示例,但是可以理解,在本公开的范围内可以选择任意数量的波束。
在一些实现中,至少部分地基于与音频就诊信息的一个或多个部分相关联的讲话者元数据来选择1504一个或多个波束和一个或多个零陷中的至少一个可以包括:至少部分地基于与音频就诊信息的一个或多个部分相关联的讲话者元数据来选择1514被配置为限制从声学环境内的一个或多个目标讲话者位置接收音频就诊信息的一个或多个预定义零陷。继续上面的示例,其中讲话者元数据1400指示医生(例如,就诊参与者226)正在讲话,自动临床文档化过程10可以确定哪个(哪些)零陷限制包括在讲话者元数据1400中的其他讲话者位置和/或噪声源的麦克风灵敏度。例如,假设自动临床文档化过程10确定零陷252(如图7所示)限制与就诊参与者228相关联的讲话者位置处或其附近的麦克风灵敏度,并且零陷256(如图7所示)限制与就诊参与者230、242相关联的讲话者位置处或其附近的麦克风灵敏度。
此外,假设自动临床文档化过程10确定零陷248限制在第一噪声源(例如,风扇244)处或其附近的麦克风灵敏度,并且零陷250限制在第二噪声源(例如,门口246)处或其附近的麦克风灵敏度。在该示例中,自动临床文档化过程10可以选择1514零陷248、250、252、254以限制从其他就诊参与者和噪声源接收音频就诊信息。虽然已经提供了选择四个零陷的示例,但是可以理解,在本公开的范围内可以选择任意数量的零陷。
在一些实现中,自动临床文档化过程10可以至少部分地基于与声学环境相关联的信息来选择一个或多个波束和一个或多个零陷中的至少一个。如上所述,并且在一些实现中,自动临床文档化过程10可以接收与声学环境相关联的信息。在一些实现中,自动临床文档化过程10可以至少部分地基于声学环境的声学属性来选择当利用麦克风阵列获得1506音频就诊信息时要使用的特定波束和/或零陷。例如,假设声学环境信息指示声学环境600包括特定混响级别。在该示例中,自动临床文档化过程10可以选择特定波束和/或零陷以考虑和/或最小化与声学环境600的混响级别相关联的信号降级。因此,自动临床文档化过程10可以至少部分地基于声学环境的各种声学属性来动态地选择波束和/或零陷。
在一些实现中,自动临床文档化过程10可以使用一个或多个所选波束和一个或多个所选零陷中的至少一个,经由麦克风阵列获得1506音频就诊信息。在一些实现中,自动临床文档化过程10可以利用预定义的多个波束和多个零陷来从特定讲话者获得1506音频就诊信息,并且限制从其他讲话者接收音频就诊信息。继续上面的示例并且如图16所示,自动临床文档化过程10可以通过麦克风阵列200。利用一个或多个所选波束(例如,波束222)和一个或多个零陷(例如,零陷248、250、252、254),获得1506来自医生(例如,就诊参与者226)的音频就诊信息106A。
在一些实现中,并且再次参考图4,自动临床文档化过程10可以向设备选择和加权模块(例如,设备选择和加权模块410)提供利用所选波束和/或所选零陷获得1506的音频就诊信息。如下面将更详细地讨论的,自动临床文档化过程10可以将从麦克风阵列(例如,第一麦克风系统)接收的音频就诊信息提供给设备选择和加权模块410,以确定利用语音处理系统(例如,语音处理系统418)来处理哪个音频流(即,音频就诊信息流)。如下面将更详细地讨论的,设备选择和加权模块可以从多个音频流(例如,来自第一麦克风系统的音频流和来自第二麦克风系统的音频流)中进行选择。以此方式,自动临床文档化过程10可以从多个音频流中选择音频流(或从音频流的部分中)以提供给语音处理系统。
至少参考图17至图20B,自动临床文档化过程10可以从第一麦克风系统接收1700音频就诊信息,从而定义第一音频流。可以从第二麦克风系统接收1702音频就诊信息,从而定义第二音频流。可以检测1704第一音频流的一个或多个部分中的语音活动,从而定义第一音频流的一个或多个语音部分。可以检测1706第二音频流的一个或多个部分中的语音活动,从而定义第二音频流的一个或多个语音部分。可以至少部分地基于第一音频流的一个或多个语音部分和第二音频流的一个或多个语音部分来对齐1708第一音频流和第二音频流。
在一些实现中,自动临床文档化过程10可以从第一麦克风系统接收1700音频就诊信息,从而定义第一音频流。如上所述,并且在一些实现中,第一麦克风系统可以是麦克风阵列。例如,并且如图4所示,自动临床文档化过程10可以从第一麦克风系统(例如,具有音频采集设备202、204、206、208、210、212、214、216、218的麦克风阵列200)接收音频就诊信息(例如,音频就诊信息106)。再次参考图6,可以利用由麦克风阵列200生成的一个或多个波束和/或一个或多个零陷来接收1700音频就诊信息106。如图4所示,波束和零陷选择模块408与设备选择和加权模块410之间以及波束和零陷选择模块408和对齐模块412之间的实线可以表示从麦克风阵列200接收的第一音频流。还参考图18并且在一些实现中,自动临床文档化过程10可以从第一麦克风系统(例如,麦克风阵列200)接收具有一个或多个部分(例如,部分1800、1802、1804、1806、1808、1810、1812、1814、1816、1818、1820、1822、1824、1826)的音频就诊信息,从而定义第一音频流。
在一些实现中,自动临床文档化过程10可以从第二麦克风系统接收1702音频就诊信息,从而定义第二音频流。在一些实现中,第二麦克风系统可以是移动电子设备。例如,并且如图4所示,自动临床文档化过程10可以从第二麦克风系统(例如,移动电子设备416)接收音频就诊信息。如图4所示,在移动电子设备516和VAD模块414之间、在VAD模块414和对齐模块412之间、以及在对齐模块412和设备选择和加权模块410之间的带有虚线和点的线可以表示从麦克风阵列200接收的第一音频流。再次参考图18并且在一些实现中,自动临床文档化过程10可以从第二麦克风系统(例如,移动电子设备416)接收具有一个或多个部分(例如,部分1828、1830、1832、1834、1836、1838、1840、1842、1844、1846、1848、1850、1852、1854)的音频就诊信息,从而定义第二音频流。
在一些实现中,自动临床文档化过程10可以检测1704第一音频流的一个或多个部分中的语音活动,从而定义第一音频流的一个或多个语音部分。如上所述,并且在一些实现中,自动临床文档化过程10可以至少部分地基于从麦克风阵列接收的音频就诊信息之间的相关性来标识音频就诊信息的一个或多个部分内的语音活动。还参考图9的示例,并且在一些实现中,音频就诊信息106可以包括音频信息的多个部分或帧。在一些实现中,自动临床文档化过程10可以确定从麦克风阵列200接收的音频就诊信息之间的相关性。例如,自动临床文档化过程10可以比较音频就诊信息106的一个或多个部分,以确定跨麦克风阵列的多个麦克风的每个部分中存在的音频就诊信息之间的相关性程度。在一些实现中并且在本领域中已知的,自动临床文档化过程10可以执行各种互相关过程,以确定跨麦克风阵列200的多个麦克风的音频就诊信息106的一个或多个部分之间的相似性程度。
例如,假设自动临床文档化过程10仅接收环境噪声(即,没有语音且没有方向性噪声源)。自动临床文档化过程10可以确定在每个麦克风通道中观察到的频谱将是不同的(即,在每个麦克风处不相关)。然而,假设自动临床文档化过程10在音频就诊信息内接收到语音或其他“方向性(directional)”信号。在该示例中,自动临床文档化过程10可以确定音频就诊信息的一个或多个部分(例如,音频就诊信息中具有语音分量的部分)在麦克风阵列中的每个麦克风处高度相关。
在一些实现中,自动临床文档化过程10可以至少部分地基于确定从麦克风阵列接收的音频就诊信息之间的相关性的阈值量或程度来标识音频就诊信息的一个或多个部分内的语音活动。例如并且如上所述,可以定义各种阈值(例如,用户定义、默认阈值、经由自动临床文档化过程10自动定义等)。以确定音频就诊信息的各部分何时充分相关。因此,响应于确定跨多个麦克风的音频就诊信息的部分之间的至少阈值相关性程度,自动临床文档化过程10可以确定或标识音频就诊信息的一个或多个部分内的语音活动。与确定音频就诊信息的各部分之间的阈值相关性相结合,自动临床文档化过程10可以使用本领域中已知的用于语音活动检测(VAD)的其他方法来标识语音活动,诸如滤波、降噪、应用分类规则等。以此方式,可以结合确定音频就诊信息的一个或多个部分之间的阈值相关性来使用传统的VAD技术来标识音频就诊信息的一个或多个部分内的语音活动。再次参考图18,自动临床文档化过程10可以检测部分1800、1802、1804、1806、1808、1810、1812中的语音活动。
在一些实现中,自动临床文档化过程10可以检测1706第二音频流的一个或多个部分中的语音活动,从而定义第二音频流的一个或多个语音部分。例如,并且在一些实现中,自动临床文档化过程10可以执行各种已知的语音活动检测(VAD)过程,以确定由移动电子设备416接收的音频就诊信息的哪些部分包括语音活动。以此方式,自动临床文档化过程10可以检测1706第二音频流的一个或多个部分中的语音活动。再次参考图18,自动临床文档化过程10可以使用各种已知的VAD处理来检测部分1830、1832、1834、1836、1838、1840、1842中的语音活动。
在一些实现中,自动临床文档化过程10可以至少部分地基于第一音频流的一个或多个语音部分和第二音频流的一个或多个语音部分来对齐1708第一音频流和第二音频流。在一些实现中,自动临床文档化过程10可以利用基于回声消除的自适应滤波方法,其中根据滤波器整体延迟来估计第一音频流和第二音频流之间的延迟,并且使用滤波器的稀疏性来确保两个音频流可以对齐。还参考图19并且在一些实现中,自动临床文档化过程10可以至少部分地基于第一音频流的一个或多个语音部分(例如,第一音频流1900的语音部分1800、1802、1804、1806、1808、1810、1812)和第二音频流的一个或多个语音部分(例如,第二音频流1902的语音部分1830、1832、1834、1836、1838、1840、1842)来对齐第一音频流1900和第二音频流1902。在图19的示例中,虽然每个音频流在给定时间点可能具有不同的振幅值,但是第一和第二音频流可以在时间上对齐。
在一些实现中,并且响应于对齐第一音频流和第二音频流,自动临床文档化过程10可以利用一个或多个语音处理系统处理1710第一音频流和第二音频流。还参考图20A至图20B,自动临床文档化过程10可以将来自设备选择和加权模块(例如,设备选择和加权模块410)的第一音频流和第二音频流提供给一个或多个语音处理系统(例如,语音处理系统418、2000、2002)。语音处理系统的示例通常可以包括自动语音识别(ASR)系统、语音生物测定系统、情绪检测系统、医疗症状检测系统、听力增强系统等。如下文将更详细地讨论的,因为音频流的不同部分可以由一个或多个语音处理系统基于至少部分地基于每个音频流的信号质量来更准确地处理,因此,自动临床文档化过程10可以利用一个或多个语音处理系统选择性地处理1701来自每个音频流的特定部分。
在一些实现中,利用一个或多个语音处理系统处理1710第一音频流和第二音频流可以包括:至少部分地基于第一音频流的信噪比和第二音频流的信噪比来加权1712第一音频流和第二音频流,从而定义第一音频流权重和第二音频流权重。在一些实现中,设备选择和加权模块410可以是机器学习系统或模型(例如,基于神经网络的模型),其被配置为被训练为对每个音频流进行加权,使得估计的语音处理系统性能最大化。例如,自动临床文档化过程10可以至少部分地基于每个音频流的每个部分或帧的信噪比(SNR)来训练设备选择和加权模型。在一些实现中,并且如将在下面更详细地讨论的,设备选择和加权模块的机器学习模型可以以端到端的方式被联合训练,以加权和选择音频流的特定部分以用于一个或多个语音处理系统的处理。
再次参考图6的示例,假设医生(例如,医生226)在他们与患者(例如,患者228)交谈时在他们附近具有移动电子设备416。在该示例中,第一麦克风系统(例如,麦克风阵列200)和第二麦克风系统(例如,移动电子设备416)可以在医生(例如,就诊参与者226)正在讲话时接收音频就诊信息。如上所述,自动临床文档化过程10可以检测每个音频流内的语音活动,并且可以至少部分地基于每个音频流中的语音活动来对齐音频流。自动临床文档化过程10可以至少部分地基于每个音频流的SNR比来加权1712每个音频流的每个部分或帧。在该示例中,假设医生(例如,就诊参与者226)在医生办公桌附近时正在讲话。假设医生(例如,就诊参与者226)快速移动到检查台以帮助患者(例如,患者228)。在此期间,医生(例如,就诊参与者226)可能正在讲话。因此,尽管医生(例如,就诊参与者226)可能移动到波束222之外并朝向零陷248移动,但是麦克风阵列200可能接收比移动电子设备416更低质量的音频就诊信息(即,由麦克风阵列200接收的音频就诊信息可能具有较低的SNR比)。因此,当医生在移动时,自动临床文档化过程10可以用比从移动电子设备416接收的音频就诊信息更低的权重来加权1712从麦克风阵列200接收的音频就诊信息的部分。另外地/备选地,当医生正在移动时,自动临床文档化过程10可以用比从麦克风阵列200接收的音频就诊信息更高的权重来加权1712从移动电子设备416接收的音频就诊信息的部分。以此方式,自动临床文档化过程10可以利用每个音频流的各部分的加权来利用一个或多个语音处理系统对每个音频流进行处理。
在一些实现中,利用一个或多个语音处理系统处理1710第一音频流和第二音频流可以包括:利用单个语音处理系统至少部分地基于第一音频流权重和第二音频流权重来处理1714第一音频流和第二音频流。再次参考图20A并且在一些实现中,自动临床文档化过程10可以利用单个语音处理系统(例如,语音处理系统418),至少部分地基于第一音频流权重和第二音频流权重(例如,其中两个音频流权重被表示为设备选择加权模块410和语音处理系统418之间的虚线),来处理第一音频流(例如,表示为设备选择加权模块410和语音处理系统418之间的实线)和第二音频流(例如,表示为设备选择加权模块410和语音处理系统418之间的线点虚线)。在一些实现中,自动临床文档化过程10可以经由语音处理系统418,至少部分地基于第一音频流权重和第二音频流权重来选择要处理的任一音频流的特定部分。
在一些实现中,利用一个或多个语音处理系统处理1710第一音频流和第二音频流可以包括:利用第一语音处理系统处理1716第一音频流,从而定义第一语音处理输出;利用第二语音处理系统处理1718第二音频流,从而定义第二语音处理输出;以及至少部分地基于第一音频流权重和第二音频流权重来组合1720第一语音处理输出与第二语音处理输出。再次参考图20B,并且在一些实现中,自动临床文档化过程过程10可以利用第一语音处理系统处理1716第一音频流(例如,表示为设备选择加权模块410和语音处理系统418之间的实线),以生成第一语音处理输出(例如,表示为语音处理系统418和语音处理系统2002之间的实线)。自动临床文档化过程10可以利用第二语音处理系统(例如,语音处理系统2000)处理1718第二音频流(例如,表示为设备选择加权模块410和语音处理系统2000之间的线点虚线),以生成第二语音处理输出(例如,表示为语音处理系统2000和语音处理系统2002之间的实线)。在一些实现中,自动临床文档化过程10可以经由第三语音处理系统(例如,语音处理系统2002),至少部分地基于第一音频流权重和第二音频流权重(例如,其中两个音频流权重被表示为设备选择加权模块410和语音处理系统2002之间的虚线),组合1720第一语音处理输出和第二语音处理输出。在一些实现中,自动临床文档化过程10可以经由语音处理系统2002,至少部分地基于第一音频流权重和第二音频流权重来选择要处理或输出的音频流的特定部分。虽然已经提供了例如两个音频流的示例,但是可以理解,在本公开的范围内可以使用任意数量的音频流。
在一些实现中,自动临床文档化过程10可以利用一个或多个语音处理系统的输出来生成就诊转录(例如,就诊转录234),其中可以处理就诊转录(例如,就诊转录234)的至少一部分以填充与患者就诊(例如,访问医生办公室)相关联的医疗记录(例如,医疗记录236)的至少一部分。例如,当生成就诊转录时,自动临床文档化过程10可以利用讲话者表示来标识音频就诊信息中的讲话者。例如,自动临床文档化过程10可以至少部分地基于为每个就诊参与者定义的讲话者表示来生成标识特定讲话者所作的口头评论和话语的日记化(diarized)就诊转录(例如,就诊转录234)。在上面的示例中,自动临床文档化过程10可以利用“医生苏珊〃琼斯”(例如,就诊参与者226)、“患者保罗〃史密斯”(例如,就诊参与者228)和“未知参与者”(例如,就诊参与者230)做出的口头评论和话语,来生成日记化就诊转录234。
一般信息:
如本领域技术人员将理解的,本公开可以被实施为一种方法、系统或计算机程序产品。因此,本公开可以采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等),或者是结合了软件和硬件方面的实施例的形式,本文通常可以将其统称为“电路”、“模块”或“系统”。此外,本公开可以采取计算机可用存储介质上的计算机程序产品的形式,在该介质中实施有计算机可用程序代码。
可以利用任何适合的计算机可用或计算机可读介质。计算机可用或计算机可读介质可以是例如但不限于电子、磁、光、电磁、红外或半导体系统、装置、设备或传播介质。计算机可读介质的更具体的示例(非穷举列表)可以包括以下内容:具有一条或多条导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式致密盘只读存储器(CD-ROM)、光存储设备、诸如支持互联网或内联网的那些传输介质的传输介质、或磁存储设备。计算机可用或计算机可读介质也可以是在其上打印程序的纸张或其他适合的介质,因为程序可以通过例如对纸张或其他介质的光学扫描来电子捕获,然后在必要时以适当的方式编译、解释或以其他方式处理,然后存储在计算机存储器中。在本文档的上下文中,计算机可用或计算机可读介质可以是可以包含、存储、通信、传播或传输由指令执行系统、装置或设备使用或与之结合的程序的任何介质。该计算机可用介质可以包括传播的数据信号,其具有在基带中或作为载波的一部分实施在其中的计算机可用程序代码。计算机可用程序代码可以使用任何适当的介质来传输,包括但不限于互联网、有线、光纤电缆、RF等。
用于执行本公开的操作的计算机程序代码可以用面向对象的编程语言编写,例如Java、Smalltalk、C++等。然而,用于执行本公开的操作的计算机程序代码也可以用传统过程编程语言来编写,诸如“C”编程语言或类似的编程语言。程序代码可以完全在用户的计算机上、部分在用户的计算机上、作为独立的软件包、部分在用户的计算机上且部分在远程计算机上或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过局域网/广域网/互联网(例如,网络14)连接到用户的计算机。
参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开。可以理解,流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供给通用计算机/专用计算机/其他可编程数据处理装置的处理器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现一个或多个流程图和/或框图框中指定的功能/动作的装置。
这些计算机程序指令也可以存储在计算机可读存储器中,其可以指示计算机或其他可编程数据处理装置以特定方式运行,使得存储在计算机可读存储器中的指令产生包括实现一个或多个流程图和/或框图框中指定的功能/动作的指令装置的制品。
计算机程序指令还可以被加载到计算机或其他可编程数据处理装置上,以使在计算机或其他可编程装置上执行一系列操作步骤以产生计算机实现的过程,使得在计算机或其他可编程装置上执行的指令提供用于实现一个或多个流程图和/或框图框中指定的功能/动作的步骤。
附图中的流程图和框图可以示出根据本公开的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。就此而言,流程图或框图中的每个框可以表示代码的模块、段或部分,其包括用于实现(多个)指定逻辑功能的一个或多个可执行指令。还应注意的是,在一些备选实现中,框中注明的功能可以以附图中注明的顺序发生。例如,事实上,连续显示的两个框可以基本上同时执行,或者这些框有时可以相反的顺序执行,根本不执行,或者根据所涉及的功能与任何其他流程图的任何组合来执行。还应注意的是,框图和/或流程图的每个框以及框图和/或流程图中的框的组合可以由执行指定功能或动作的基于专用硬件的系统、或专用硬件和计算机指令的组合来实现。
本文使用的术语仅用于描述特定实施例的目的,并不旨在限制本公开。如本文所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文另有明确指示。还应当理解,当在本说明书中使用时,术语“包括”和/或“包含”指定了所陈述的特征、整数、步骤、操作、元件和/或组件的存在,但不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
所附权利要求中的所有装置或步骤加上功能元件的对应结构、材料、动作和等同形式旨在根据具体要求保护的内容,包括用于结合其他要求保护的元件执行功能的任何结构、材料或动作。本公开的描述是为了说明和描述的目的而提出的,但并不旨在穷尽本公开或将本公开限于所公开的形式。在不背离本公开的范围和精神的情况下,许多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了最好地解释本公开的原理和实际应用,并且使本领域普通技术人员能够理解具有适合于预期的特定用途的各种修改的各种实施例的公开。
已经描述了许多实现。在如此详细地并且参考其实施例描述了本申请的公开之后,显然,在不背离所附权利要求中限定的本公开的范围的情况下,修改和变化是可能的。

Claims (20)

1.一种在计算设备上执行的计算机实现的方法,包括:
从第一麦克风系统接收音频就诊信息,从而定义第一音频流;
从第二麦克风系统接收音频就诊信息,从而定义第二音频流;
检测所述第一音频流的一个或多个部分中的语音活动,从而定义所述第一音频流的一个或多个语音部分;
检测所述第二音频流的一个或多个部分中的语音活动,从而定义所述第二音频流的一个或多个语音部分;以及
至少部分地基于所述第一音频流的所述一个或多个语音部分和所述第二音频流的所述一个或多个语音部分来对齐所述第一音频流和所述第二音频流。
2.根据权利要求1所述的计算机实现的方法,其中所述第一麦克风系统包括麦克风阵列。
3.根据权利要求1所述的计算机实现的方法,其中所述第二麦克风系统包括移动电子设备。
4.根据权利要求1所述的计算机实现的方法,还包括:
响应于对齐所述第一音频流和所述第二音频流,利用一个或多个语音处理系统处理所述第一音频流和所述第二音频流。
5.根据权利要求4所述的计算机实现的方法,其中利用一个或多个语音处理系统处理所述第一音频流和所述第二音频流包括:至少部分地基于针对所述第一音频流的信噪比和针对所述第二音频流的信噪比来加权所述第一音频流和所述第二音频流,从而定义第一音频流权重和第二音频流权重。
6.根据权利要求5所述的计算机实现的方法,其中利用一个或多个语音处理系统处理所述第一音频流和所述第二音频流包括:至少部分地基于所述第一音频流权重和所述第二音频流权重利用单个语音处理系统来处理所述第一音频流和所述第二音频流。
7.根据权利要求5所述的计算机实现的方法,其中利用一个或多个语音处理系统处理所述第一音频流和所述第二音频流包括:
利用第一语音处理系统处理所述第一音频流,从而定义第一语音处理输出;
利用第二语音处理系统处理所述第二音频流,从而定义第二语音处理输出;以及
至少部分地基于所述第一音频流权重和所述第二音频流权重来组合所述第一语音处理输出和所述第二语音处理输出。
8.一种计算机程序产品,所述计算机程序产品驻留在非瞬态计算机可读介质上,所述非瞬态计算机可读介质上存储有多个指令,所述指令在由处理器执行时,使所述处理器执行操作,所述操作包括:
从第一麦克风系统接收音频就诊信息,从而定义第一音频流;
从第二麦克风系统接收音频就诊信息,从而定义第二音频流;
检测所述第一音频流的一个或多个部分中的语音活动,从而定义所述第一音频流的一个或多个语音部分;
检测所述第二音频流的一个或多个部分中的语音活动,从而定义所述第二音频流的一个或多个语音部分;以及
至少部分地基于所述第一音频流的所述一个或多个语音部分和所述第二音频流的所述一个或多个语音部分来对齐所述第一音频流和所述第二音频流。
9.根据权利要求8所述的计算机程序产品,其中所述第一麦克风系统包括麦克风阵列。
10.根据权利要求8所述的计算机程序产品,其中所述第二麦克风系统包括移动电子设备。
11.根据权利要求8所述的计算机程序产品,其中所述操作还包括:
响应于对齐所述第一音频流和所述第二音频流,利用一个或多个语音处理系统处理所述第一音频流和所述第二音频流。
12.根据权利要求11所述的计算机程序产品,其中利用一个或多个语音处理系统处理所述第一音频流和所述第二音频流包括:至少部分地基于针对所述第一音频流的信噪比和针对所述第二音频流的信噪比来加权所述第一音频流和所述第二音频流,从而定义第一音频流权重和第二音频流权重。
13.根据权利要求12所述的计算机程序产品,其中利用一个或多个语音处理系统处理所述第一音频流和所述第二音频流包括:至少部分地基于所述第一音频流权重和所述第二音频流权重利用单个语音处理系统来处理所述第一音频流和所述第二音频流。
14.根据权利要求12所述的计算机程序产品,其中利用一个或多个语音处理系统处理所述第一音频流和所述第二音频流包括:
利用第一语音处理系统处理所述第一音频流,从而定义第一语音处理输出;
利用第二语音处理系统处理所述第二音频流,从而定义第二语音处理输出;以及
至少部分地基于所述第一音频流权重和所述第二音频流权重来组合所述第一语音处理输出和所述第二语音处理输出。
15.一种计算系统,包括:
存储器;以及
处理器,所述处理器被配置为从第一麦克风系统接收音频就诊信息,从而定义第一音频流,其中所述处理器还被配置为从第二麦克风系统接收音频就诊信息,从而定义第二音频流,其中所述处理器还被配置为检测所述第一音频流的一个或多个部分中的语音活动,从而定义所述第一音频流的一个或多个语音部分,其中所述处理器还被配置为检测所述第二音频流的一个或多个部分中的语音活动,从而定义所述第二音频流的一个或多个语音部分,并且其中处理器还被配置为至少部分地基于所述第一音频流的所述一个或多个语音部分和所述第二音频流的所述一个或多个语音部分来对齐所述第一音频流和所述第二音频流。
16.根据权利要求15所述的计算系统,其中所述第一麦克风系统包括麦克风阵列。
17.根据权利要求15所述的计算系统,其中所述第二麦克风系统包括移动电子设备。
18.根据权利要求15所述的计算系统,其中所述处理器还配置为:
响应于对齐所述第一音频流和所述第二音频流,利用一个或多个语音处理系统处理所述第一音频流和所述第二音频流。
19.根据权利要求18所述的计算系统,其中利用一个或多个语音处理系统处理所述第一音频流和所述第二音频流包括:至少部分地基于针对所述第一音频流的信噪比和针对所述第二音频流的信噪比来加权所述第一音频流和所述第二音频流,从而定义第一音频流权重和第二音频流权重。
20.根据权利要求19所述的计算系统,其中利用一个或多个语音处理系统处理所述第一音频流和所述第二音频流包括:至少部分地基于所述第一音频流权重和所述第二音频流权重利用单个语音处理系统来处理所述第一音频流和所述第二音频流。
CN202180033186.9A 2020-05-08 2021-05-10 用于多麦克风自动临床文档化的系统和方法 Pending CN115516553A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063022269P 2020-05-08 2020-05-08
US63/022,269 2020-05-08
PCT/US2021/031516 WO2021226574A1 (en) 2020-05-08 2021-05-10 System and method for multi-microphone automated clinical documentation

Publications (1)

Publication Number Publication Date
CN115516553A true CN115516553A (zh) 2022-12-23

Family

ID=78413045

Family Applications (6)

Application Number Title Priority Date Filing Date
CN202180033335.1A Pending CN115606198A (zh) 2020-05-08 2021-05-07 用于多麦克风信号处理的数据增强的系统和方法
CN202180033325.8A Pending CN115605952A (zh) 2020-05-08 2021-05-07 用于多麦克风信号处理的数据增强的系统和方法
CN202180033636.4A Pending CN115605953A (zh) 2020-05-08 2021-05-07 用于多麦克风信号处理的数据增强的系统和方法
CN202180033647.2A Pending CN115552920A (zh) 2020-05-08 2021-05-07 用于多麦克风信号处理的数据增强的系统和方法
CN202180033171.2A Pending CN115516555A (zh) 2020-05-08 2021-05-10 用于多麦克风自动临床文档化的系统和方法
CN202180033186.9A Pending CN115516553A (zh) 2020-05-08 2021-05-10 用于多麦克风自动临床文档化的系统和方法

Family Applications Before (5)

Application Number Title Priority Date Filing Date
CN202180033335.1A Pending CN115606198A (zh) 2020-05-08 2021-05-07 用于多麦克风信号处理的数据增强的系统和方法
CN202180033325.8A Pending CN115605952A (zh) 2020-05-08 2021-05-07 用于多麦克风信号处理的数据增强的系统和方法
CN202180033636.4A Pending CN115605953A (zh) 2020-05-08 2021-05-07 用于多麦克风信号处理的数据增强的系统和方法
CN202180033647.2A Pending CN115552920A (zh) 2020-05-08 2021-05-07 用于多麦克风信号处理的数据增强的系统和方法
CN202180033171.2A Pending CN115516555A (zh) 2020-05-08 2021-05-10 用于多麦克风自动临床文档化的系统和方法

Country Status (4)

Country Link
US (9) US11676598B2 (zh)
EP (6) EP4147458A4 (zh)
CN (6) CN115606198A (zh)
WO (9) WO2021226515A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4147458A4 (en) 2020-05-08 2024-04-03 Microsoft Technology Licensing Llc SYSTEM AND METHOD FOR DATA AMPLIFICATION FOR MULTI-MICROPHONE SIGNAL PROCESSING

Family Cites Families (192)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5930749A (en) 1996-02-02 1999-07-27 International Business Machines Corporation Monitoring, identification, and selection of audio signal poles with characteristic behaviors, for separation and synthesis of signal contributions
JP3522954B2 (ja) 1996-03-15 2004-04-26 株式会社東芝 マイクロホンアレイ入力型音声認識装置及び方法
US6130949A (en) 1996-09-18 2000-10-10 Nippon Telegraph And Telephone Corporation Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor
US6178248B1 (en) 1997-04-14 2001-01-23 Andrea Electronics Corporation Dual-processing interference cancelling system and method
US6084973A (en) 1997-12-22 2000-07-04 Audio Technica U.S., Inc. Digital and analog directional microphone
US20020095290A1 (en) 1999-02-05 2002-07-18 Jonathan Kahn Speech recognition program mapping tool to align an audio file to verbatim text
JP3863323B2 (ja) 1999-08-03 2006-12-27 富士通株式会社 マイクロホンアレイ装置
JP4815661B2 (ja) 2000-08-24 2011-11-16 ソニー株式会社 信号処理装置及び信号処理方法
US6748086B1 (en) 2000-10-19 2004-06-08 Lear Corporation Cabin communication system without acoustic echo cancellation
US7039198B2 (en) 2000-11-10 2006-05-02 Quindi Acoustic source localization system and method
US20030027600A1 (en) 2001-05-09 2003-02-06 Leonid Krasny Microphone antenna array using voice activity detection
US7349849B2 (en) 2001-08-08 2008-03-25 Apple, Inc. Spacing for microphone elements
GB0120450D0 (en) 2001-08-22 2001-10-17 Mitel Knowledge Corp Robust talker localization in reverberant environment
US8942387B2 (en) * 2002-02-05 2015-01-27 Mh Acoustics Llc Noise-reducing directional microphone array
KR101434071B1 (ko) 2002-03-27 2014-08-26 앨리프컴 통신 시스템에서 사용을 위한 마이크로폰과 음성 활동 감지(vad) 구성
US20030236663A1 (en) 2002-06-19 2003-12-25 Koninklijke Philips Electronics N.V. Mega speaker identification (ID) system and corresponding methods therefor
US8947347B2 (en) 2003-08-27 2015-02-03 Sony Computer Entertainment Inc. Controlling actions in a video game unit
US7039199B2 (en) 2002-08-26 2006-05-02 Microsoft Corporation System and process for locating a speaker using 360 degree sound source localization
US7643641B2 (en) * 2003-05-09 2010-01-05 Nuance Communications, Inc. System for communication enhancement in a noisy environment
US6999593B2 (en) 2003-05-28 2006-02-14 Microsoft Corporation System and process for robust sound source localization
ATE339757T1 (de) 2003-06-17 2006-10-15 Sony Ericsson Mobile Comm Ab Verfahren und vorrichtung zur sprachaktivitätsdetektion
JP4157581B2 (ja) 2004-12-03 2008-10-01 本田技研工業株式会社 音声認識装置
US7991167B2 (en) 2005-04-29 2011-08-02 Lifesize Communications, Inc. Forming beams with nulls directed at noise sources
DE602005008914D1 (de) 2005-05-09 2008-09-25 Mitel Networks Corp Verfahren und System zum Reduzieren der Trainingszeit eines akustischen Echokompensators in einem Vollduplexaudiokonferenzsystem durch akustische Strahlbildung
US7702116B2 (en) 2005-08-22 2010-04-20 Stone Christopher L Microphone bleed simulator
JP2007318438A (ja) 2006-05-25 2007-12-06 Yamaha Corp 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US7848529B2 (en) 2007-01-11 2010-12-07 Fortemedia, Inc. Broadside small array microphone beamforming unit
US20080177536A1 (en) 2007-01-24 2008-07-24 Microsoft Corporation A/v content editing
US8284951B2 (en) 2007-05-29 2012-10-09 Livescribe, Inc. Enhanced audio recording for smart pen computing systems
US8107321B2 (en) 2007-06-01 2012-01-31 Technische Universitat Graz And Forschungsholding Tu Graz Gmbh Joint position-pitch estimation of acoustic sources for their tracking and separation
US8103027B2 (en) 2007-06-06 2012-01-24 Analog Devices, Inc. Microphone with reduced parasitic capacitance
US20090055178A1 (en) 2007-08-23 2009-02-26 Coon Bradley S System and method of controlling personalized settings in a vehicle
US8954324B2 (en) 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
US8213598B2 (en) * 2008-02-26 2012-07-03 Microsoft Corporation Harmonic distortion residual echo suppression
US8239203B2 (en) 2008-04-15 2012-08-07 Nuance Communications, Inc. Adaptive confidence thresholds for speech recognition
EP2321978A4 (en) 2008-08-29 2013-01-23 Dev Audio Pty Ltd MICROPHONE NETWORK SYSTEM AND METHOD FOR ACQUIRING SOUNDS
JP5326934B2 (ja) 2009-01-23 2013-10-30 株式会社Jvcケンウッド 電子機器
US8442833B2 (en) 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
CN101510426B (zh) 2009-03-23 2013-03-27 北京中星微电子有限公司 一种噪声消除方法及系统
US9202456B2 (en) 2009-04-23 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
GB2473267A (en) 2009-09-07 2011-03-09 Nokia Corp Processing audio signals to reduce noise
KR101601197B1 (ko) 2009-09-28 2016-03-09 삼성전자주식회사 마이크로폰 어레이의 이득 조정 장치 및 방법
US8538035B2 (en) * 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US20110288860A1 (en) 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
US9031256B2 (en) 2010-10-25 2015-05-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for orientation-sensitive recording control
US8924204B2 (en) 2010-11-12 2014-12-30 Broadcom Corporation Method and apparatus for wind noise detection and suppression using multiple microphones
KR101555416B1 (ko) 2010-12-03 2015-09-23 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 음향 삼각 측량에 의한 공간 선택적 사운드 취득 장치 및 방법
JP5857674B2 (ja) 2010-12-22 2016-02-10 株式会社リコー 画像処理装置、及び画像処理システム
US9270807B2 (en) 2011-02-23 2016-02-23 Digimarc Corporation Audio localization using audio signal encoding and recognition
JP5668553B2 (ja) 2011-03-18 2015-02-12 富士通株式会社 音声誤検出判別装置、音声誤検出判別方法、およびプログラム
JP5895203B2 (ja) 2011-06-16 2016-03-30 パナソニックIpマネジメント株式会社 アレイマイクロホン装置および利得制御方法
US9536523B2 (en) 2011-06-22 2017-01-03 Vocalzoom Systems Ltd. Method and system for identification of speech segments
US9236837B2 (en) 2011-08-25 2016-01-12 Infineon Technologies Ag System and method for low distortion capacitive signal source amplifier
GB2495278A (en) * 2011-09-30 2013-04-10 Skype Processing received signals from a range of receiving angles to reduce interference
WO2013093187A2 (en) 2011-12-21 2013-06-27 Nokia Corporation An audio lens
US9241228B2 (en) 2011-12-29 2016-01-19 Stmicroelectronics Asia Pacific Pte. Ltd. Adaptive self-calibration of small microphone array by soundfield approximation and frequency domain magnitude equalization
US9197974B1 (en) 2012-01-06 2015-11-24 Audience, Inc. Directional audio capture adaptation based on alternative sensory input
US9037461B2 (en) 2012-01-19 2015-05-19 SpeakWrite, LLC Methods and systems for dictation and transcription
US20130282372A1 (en) 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US9736604B2 (en) 2012-05-11 2017-08-15 Qualcomm Incorporated Audio user interaction recognition and context refinement
US20130332156A1 (en) 2012-06-11 2013-12-12 Apple Inc. Sensor Fusion to Improve Speech/Audio Processing in a Mobile Device
US8885815B1 (en) 2012-06-25 2014-11-11 Rawles Llc Null-forming techniques to improve acoustic echo cancellation
US9485556B1 (en) 2012-06-27 2016-11-01 Amazon Technologies, Inc. Speaker array for sound imaging
WO2014039028A1 (en) * 2012-09-04 2014-03-13 Nuance Communications, Inc. Formant dependent speech signal enhancement
US9232310B2 (en) 2012-10-15 2016-01-05 Nokia Technologies Oy Methods, apparatuses and computer program products for facilitating directional audio capture with multiple microphones
WO2014064324A1 (en) 2012-10-26 2014-05-01 Nokia Corporation Multi-device speech recognition
US9471090B2 (en) 2012-11-21 2016-10-18 Starkey Laboratories, Inc. Method and apparatus for synchronizing hearing instruments via wireless communication
US10102850B1 (en) 2013-02-25 2018-10-16 Amazon Technologies, Inc. Direction based end-pointing for speech recognition
US8666090B1 (en) 2013-02-26 2014-03-04 Full Code Audio LLC Microphone modeling system and method
US9338551B2 (en) 2013-03-15 2016-05-10 Broadcom Corporation Multi-microphone source tracking and noise suppression
US9363596B2 (en) 2013-03-15 2016-06-07 Apple Inc. System and method of mixing accelerometer and microphone signals to improve voice quality in a mobile device
EP2976897B8 (en) 2013-03-21 2020-07-01 Cerence Operating Company System and method for identifying suboptimal microphone performance
US20140321664A1 (en) * 2013-04-25 2014-10-30 Fortemedia, Inc. Methods for dynamically programming a microphone
US9892729B2 (en) 2013-05-07 2018-02-13 Qualcomm Incorporated Method and apparatus for controlling voice activation
US9549079B2 (en) 2013-09-05 2017-01-17 Cisco Technology, Inc. Acoustic echo cancellation for microphone array with dynamically changing beam forming
CN104424953B (zh) 2013-09-11 2019-11-01 华为技术有限公司 语音信号处理方法与装置
US10536773B2 (en) 2013-10-30 2020-01-14 Cerence Operating Company Methods and apparatus for selective microphone signal combining
US9532138B1 (en) 2013-11-05 2016-12-27 Cirrus Logic, Inc. Systems and methods for suppressing audio noise in a communication system
US9472188B1 (en) 2013-11-15 2016-10-18 Noble Systems Corporation Predicting outcomes for events based on voice characteristics and content of a contact center communication
US9488716B2 (en) 2013-12-31 2016-11-08 Google Inc. Microphone autolocalization using moving acoustic source
JP2015155975A (ja) 2014-02-20 2015-08-27 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
US9922667B2 (en) 2014-04-17 2018-03-20 Microsoft Technology Licensing, Llc Conversation, presence and context detection for hologram suppression
US9516409B1 (en) 2014-05-19 2016-12-06 Apple Inc. Echo cancellation and control for microphone beam patterns
JP2015222847A (ja) 2014-05-22 2015-12-10 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
US9491545B2 (en) 2014-05-23 2016-11-08 Apple Inc. Methods and devices for reverberation suppression
US9900723B1 (en) 2014-05-28 2018-02-20 Apple Inc. Multi-channel loudspeaker matching using variable directivity
US9451361B2 (en) 2014-07-08 2016-09-20 Intel IP Corporation Apparatus, method and system of communicating acoustic information of a distributed microphone array between mobile devices
JP6460676B2 (ja) 2014-08-05 2019-01-30 キヤノン株式会社 信号処理装置および信号処理方法
US9800981B2 (en) 2014-09-05 2017-10-24 Bernafon Ag Hearing device comprising a directional system
US9305530B1 (en) 2014-09-30 2016-04-05 Amazon Technologies, Inc. Text synchronization with audio
US10009676B2 (en) 2014-11-03 2018-06-26 Storz Endoskop Produktions Gmbh Voice control system with multiple microphone arrays
WO2016076237A1 (ja) 2014-11-10 2016-05-19 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
US9508357B1 (en) 2014-11-21 2016-11-29 Apple Inc. System and method of optimizing a beamformer for echo control
US9298884B1 (en) 2014-12-17 2016-03-29 Vitaax Llc Remote instruction and monitoring of health care
US9412354B1 (en) 2015-01-20 2016-08-09 Apple Inc. Method and apparatus to use beams at one end-point to support multi-channel linear echo control at another end-point
US9749747B1 (en) 2015-01-20 2017-08-29 Apple Inc. Efficient system and method for generating an audio beacon
US9697826B2 (en) 2015-03-27 2017-07-04 Google Inc. Processing multi-channel audio waveforms
US9691413B2 (en) * 2015-10-06 2017-06-27 Microsoft Technology Licensing, Llc Identifying sound from a source of interest based on multiple audio feeds
EP4068283A1 (en) 2015-10-08 2022-10-05 Dolby International AB Layered coding for compressed sound or sound field representations
TWI720052B (zh) 2015-11-10 2021-03-01 美商Idac控股公司 無線傳輸/接收單元和無線通訊方法
WO2017084704A1 (en) * 2015-11-18 2017-05-26 Huawei Technologies Co., Ltd. A sound signal processing apparatus and method for enhancing a sound signal
US10614823B2 (en) 2015-12-08 2020-04-07 Sony Corporation Transmitting apparatus, transmitting method, receiving apparatus, and receiving method
US10381022B1 (en) 2015-12-23 2019-08-13 Google Llc Audio classifier
US9820036B1 (en) 2015-12-30 2017-11-14 Amazon Technologies, Inc. Speech processing of reflected sound
US10924872B2 (en) 2016-02-23 2021-02-16 Dolby Laboratories Licensing Corporation Auxiliary signal for detecting microphone impairment
US9992580B2 (en) 2016-03-04 2018-06-05 Avaya Inc. Signal to noise ratio using decentralized dynamic laser microphones
US9900685B2 (en) 2016-03-24 2018-02-20 Intel Corporation Creating an audio envelope based on angular information
US10037756B2 (en) 2016-03-29 2018-07-31 Sensory, Incorporated Analysis of long-term audio recordings
US9858340B1 (en) 2016-04-11 2018-01-02 Digital Reasoning Systems, Inc. Systems and methods for queryable graph representations of videos
WO2017220816A1 (en) 2016-06-24 2017-12-28 Harman Becker Automotive Systems Gmbh Method for simulating total harmonic distortion of a loudspeaker
US20180018970A1 (en) 2016-07-15 2018-01-18 Google Inc. Neural network for recognition of signals in multiple sensory domains
KR102533016B1 (ko) 2016-07-28 2023-05-17 에스케이하이닉스 주식회사 메모리 장치 및 이의 동작 방법
US9972339B1 (en) 2016-08-04 2018-05-15 Amazon Technologies, Inc. Neural network based beam selection
US10015588B1 (en) 2016-12-20 2018-07-03 Verizon Patent And Licensing Inc. Beamforming optimization for receiving audio signals
US10056091B2 (en) * 2017-01-06 2018-08-21 Bose Corporation Microphone array beamforming
US9892744B1 (en) 2017-02-13 2018-02-13 International Business Machines Corporation Acoustics based anomaly detection in machine rooms
US10499139B2 (en) 2017-03-20 2019-12-03 Bose Corporation Audio signal processing for noise reduction
US10424315B1 (en) 2017-03-20 2019-09-24 Bose Corporation Audio signal processing for noise reduction
US10643609B1 (en) 2017-03-29 2020-05-05 Amazon Technologies, Inc. Selecting speech inputs
GB2561408A (en) 2017-04-10 2018-10-17 Cirrus Logic Int Semiconductor Ltd Flexible voice capture front-end for headsets
US10297267B2 (en) * 2017-05-15 2019-05-21 Cirrus Logic, Inc. Dual microphone voice processing for headsets with variable microphone array orientation
US10339950B2 (en) 2017-06-27 2019-07-02 Motorola Solutions, Inc. Beam selection for body worn devices
US9866308B1 (en) 2017-07-27 2018-01-09 Quantenna Communications, Inc. Composite WiFi and acoustic spatial diagnostics for smart home management
US20210233652A1 (en) 2017-08-10 2021-07-29 Nuance Communications, Inc. Automated Clinical Documentation System and Method
US20210243412A1 (en) 2017-08-10 2021-08-05 Nuance Communications, Inc. Automated Clinical Documentation System and Method
US20210210200A1 (en) 2017-08-10 2021-07-08 Nuance Communications, Inc. Automated Clinical Documentation System and Method
US20190051395A1 (en) 2017-08-10 2019-02-14 Nuance Communications, Inc. Automated clinical documentation system and method
US10887548B2 (en) 2017-08-17 2021-01-05 Google Llc Scaling image of speaker's face based on distance of face and size of display
KR102424774B1 (ko) 2017-09-11 2022-07-25 주식회사 디비하이텍 멤스 마이크로폰 및 이의 제조 방법
KR102370642B1 (ko) 2017-09-11 2022-03-07 주식회사 디비하이텍 멤스 마이크로폰 및 이의 제조 방법
US10090000B1 (en) 2017-11-01 2018-10-02 GM Global Technology Operations LLC Efficient echo cancellation using transfer function estimation
US11430421B2 (en) 2017-11-01 2022-08-30 Bose Corporation Adaptive null forming and echo cancellation for selective audio pick-up
US10339949B1 (en) 2017-12-19 2019-07-02 Apple Inc. Multi-channel speech enhancement
US10979805B2 (en) 2018-01-04 2021-04-13 Stmicroelectronics, Inc. Microphone array auto-directive adaptive wideband beamforming using orientation information from MEMS sensors
US11250383B2 (en) * 2018-03-05 2022-02-15 Nuance Communications, Inc. Automated clinical documentation system and method
US10313786B1 (en) 2018-03-20 2019-06-04 Cisco Technology, Inc. Beamforming and gainsharing mixing of small circular array of bidirectional microphones
US10957337B2 (en) 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
US11276407B2 (en) 2018-04-17 2022-03-15 Gong.Io Ltd. Metadata-based diarization of teleconferences
US10867610B2 (en) 2018-05-04 2020-12-15 Microsoft Technology Licensing, Llc Computerized intelligent assistant for conferences
US10621991B2 (en) 2018-05-06 2020-04-14 Microsoft Technology Licensing, Llc Joint neural network for speaker recognition
EP3575811A1 (en) 2018-05-28 2019-12-04 Koninklijke Philips N.V. Optical detection of a communication request by a subject being imaged in the magnetic resonance imaging system
US10667071B2 (en) 2018-05-31 2020-05-26 Harman International Industries, Incorporated Low complexity multi-channel smart loudspeaker with voice control
CN112335261B (zh) 2018-06-01 2023-07-18 舒尔获得控股公司 图案形成麦克风阵列
US11062727B2 (en) 2018-06-13 2021-07-13 Ceva D.S.P Ltd. System and method for voice activity detection
US10540883B1 (en) 2018-06-19 2020-01-21 Life360, Inc. Methods and systems for audio-based danger detection and alert
CN110164446B (zh) 2018-06-28 2023-06-30 腾讯科技(深圳)有限公司 语音信号识别方法和装置、计算机设备和电子设备
NL2021308B1 (en) * 2018-07-16 2020-01-24 Hazelebach & Van Der Ven Holding B V Methods for a voice processing system
US11288038B2 (en) 2018-07-30 2022-03-29 John Holst, III System and method for voice recognition using a peripheral device
US10431238B1 (en) 2018-08-17 2019-10-01 Apple Inc. Memory and computation efficient cross-correlation and delay estimation
US10622004B1 (en) 2018-08-20 2020-04-14 Amazon Technologies, Inc. Acoustic echo cancellation using loudspeaker position
US10580429B1 (en) 2018-08-22 2020-03-03 Nuance Communications, Inc. System and method for acoustic speaker localization
CN114727193A (zh) 2018-09-03 2022-07-08 斯纳普公司 声学变焦
CN112470496B (zh) 2018-09-13 2023-09-29 科利耳有限公司 使用正常事物的听力性能和康复和/或复原增强
DE102018216230A1 (de) 2018-09-24 2020-03-26 Siemens Healthcare Gmbh Verfahren zu einem Erfassen eines Kommunikationssignals einer innerhalb eines Magnetresonanzuntersuchungsraums befindlichen Person und eine entsprechende Magnetresonanzvorrichtung
US10726830B1 (en) 2018-09-27 2020-07-28 Amazon Technologies, Inc. Deep multi-channel acoustic modeling
US11508378B2 (en) 2018-10-23 2022-11-22 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same
JP7407580B2 (ja) 2018-12-06 2024-01-04 シナプティクス インコーポレイテッド システム、及び、方法
EP3675517B1 (en) 2018-12-31 2021-10-20 GN Audio A/S Microphone apparatus and headset
CN109905808B (zh) * 2019-03-13 2021-12-07 北京百度网讯科技有限公司 用于调节智能语音设备的方法和装置
US20200312315A1 (en) 2019-03-28 2020-10-01 Apple Inc. Acoustic environment aware stream selection for multi-stream speech recognition
US11158335B1 (en) 2019-03-28 2021-10-26 Amazon Technologies, Inc. Audio beam selection
EP3726529A1 (en) * 2019-04-16 2020-10-21 Fraunhofer Gesellschaft zur Förderung der Angewand Method and apparatus for determining a deep filter
US11322148B2 (en) 2019-04-30 2022-05-03 Microsoft Technology Licensing, Llc Speaker attributed transcript generation
CN114051738A (zh) 2019-05-23 2022-02-15 舒尔获得控股公司 可操纵扬声器阵列、系统及其方法
US11605279B2 (en) 2019-06-12 2023-03-14 The Quantum Group, Inc. Remote distress monitor
US11043207B2 (en) 2019-06-14 2021-06-22 Nuance Communications, Inc. System and method for array data simulation and customized acoustic modeling for ambient ASR
US11227679B2 (en) 2019-06-14 2022-01-18 Nuance Communications, Inc. Ambient clinical intelligence system and method
US10777214B1 (en) 2019-06-28 2020-09-15 Amazon Technologies, Inc. Method for efficient autonomous loudspeaker room adaptation
US11531807B2 (en) 2019-06-28 2022-12-20 Nuance Communications, Inc. System and method for customized text macros
US10887685B1 (en) 2019-07-15 2021-01-05 Motorola Solutions, Inc. Adaptive white noise gain control and equalization for differential microphone array
US11335331B2 (en) 2019-07-26 2022-05-17 Knowles Electronics, Llc. Multibeam keyword detection system and method
US20210035563A1 (en) * 2019-07-30 2021-02-04 Dolby Laboratories Licensing Corporation Per-epoch data augmentation for training acoustic models
CN114175152A (zh) * 2019-08-01 2022-03-11 杜比实验室特许公司 用于增强劣化音频信号的系统和方法
US11227586B2 (en) * 2019-09-11 2022-01-18 Massachusetts Institute Of Technology Systems and methods for improving model-based speech enhancement with neural networks
US10887709B1 (en) 2019-09-25 2021-01-05 Amazon Technologies, Inc. Aligned beam merger
US11551670B1 (en) * 2019-09-26 2023-01-10 Sonos, Inc. Systems and methods for generating labeled data to facilitate configuration of network microphone devices
US11670408B2 (en) 2019-09-30 2023-06-06 Nuance Communications, Inc. System and method for review of automated clinical documentation
US20210118435A1 (en) 2019-10-21 2021-04-22 Soundhound, Inc. Automatic Synchronization for an Offline Virtual Assistant
US11238853B2 (en) 2019-10-30 2022-02-01 Comcast Cable Communications, Llc Keyword-based audio source localization
US11478211B2 (en) 2019-12-03 2022-10-25 Shanghai United Imaging Healthcare Co., Ltd. System and method for noise reduction
US11508379B2 (en) 2019-12-04 2022-11-22 Cirrus Logic, Inc. Asynchronous ad-hoc distributed microphone array processing in smart home applications using voice biometrics
US11227587B2 (en) 2019-12-23 2022-01-18 Peiker Acustic Gmbh Method, apparatus, and computer-readable storage medium for adaptive null-voice cancellation
US11145319B2 (en) 2020-01-31 2021-10-12 Bose Corporation Personal audio device
JP2023511836A (ja) * 2020-02-03 2023-03-23 ホアウェイ・テクノロジーズ・カンパニー・リミテッド ヒアラブル機能を有するワイヤレス型ヘッドセット
CN111341341B (zh) * 2020-02-11 2021-08-17 腾讯科技(深圳)有限公司 音频分离网络的训练方法、音频分离方法、装置及介质
US11039013B1 (en) 2020-04-10 2021-06-15 Medallia, Inc. Real-time contact center speech analytics, with critical call alerts, deployed across multiple security zones
US11546690B2 (en) 2020-04-27 2023-01-03 Orcam Technologies Ltd. Processing audio and video
US11443760B2 (en) * 2020-05-08 2022-09-13 DTEN, Inc. Active sound control
EP4147458A4 (en) 2020-05-08 2024-04-03 Microsoft Technology Licensing Llc SYSTEM AND METHOD FOR DATA AMPLIFICATION FOR MULTI-MICROPHONE SIGNAL PROCESSING
WO2021243634A1 (en) * 2020-06-04 2021-12-09 Northwestern Polytechnical University Binaural beamforming microphone array
US11617044B2 (en) * 2021-03-04 2023-03-28 Iyo Inc. Ear-mount able listening device with voice direction discovery for rotational correction of microphone array outputs

Also Published As

Publication number Publication date
EP4147458A4 (en) 2024-04-03
EP4147228A4 (en) 2024-03-13
EP4147230A4 (en) 2024-04-10
WO2021226574A1 (en) 2021-11-11
EP4147230A1 (en) 2023-03-15
EP4147227A4 (en) 2024-05-01
CN115605953A (zh) 2023-01-13
EP4147459A1 (en) 2023-03-15
US11670298B2 (en) 2023-06-06
WO2021226570A1 (en) 2021-11-11
US20210352405A1 (en) 2021-11-11
US11335344B2 (en) 2022-05-17
US11676598B2 (en) 2023-06-13
WO2021226571A1 (en) 2021-11-11
CN115516555A (zh) 2022-12-23
WO2021226503A1 (en) 2021-11-11
EP4147227A1 (en) 2023-03-15
US11232794B2 (en) 2022-01-25
US11699440B2 (en) 2023-07-11
US20210350813A1 (en) 2021-11-11
WO2021226568A1 (en) 2021-11-11
WO2021226507A1 (en) 2021-11-11
US20210352404A1 (en) 2021-11-11
WO2021226511A1 (en) 2021-11-11
CN115552920A (zh) 2022-12-30
US11837228B2 (en) 2023-12-05
EP4147229A1 (en) 2023-03-15
US20210350809A1 (en) 2021-11-11
EP4147228A1 (en) 2023-03-15
EP4147458A1 (en) 2023-03-15
US11631411B2 (en) 2023-04-18
CN115605952A (zh) 2023-01-13
US20210350814A1 (en) 2021-11-11
WO2021226515A1 (en) 2021-11-11
US20210352406A1 (en) 2021-11-11
US20210350815A1 (en) 2021-11-11
US20210350808A1 (en) 2021-11-11
US20210350804A1 (en) 2021-11-11
CN115606198A (zh) 2023-01-13
WO2021226573A1 (en) 2021-11-11

Similar Documents

Publication Publication Date Title
US11250383B2 (en) Automated clinical documentation system and method
US11482311B2 (en) Automated clinical documentation system and method
US20230092558A1 (en) Automated clinical documentation system and method
US11335344B2 (en) System and method for multi-microphone automated clinical documentation
US20230230581A1 (en) Data augmentation system and method for multi-microphone systems
US20230230580A1 (en) Data augmentation system and method for multi-microphone systems
US20230230599A1 (en) Data augmentation system and method for multi-microphone systems
US20230230582A1 (en) Data augmentation system and method for multi-microphone systems
CN116868267A (zh) 多通道语音压缩系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20231108

Address after: Washington State

Applicant after: MICROSOFT TECHNOLOGY LICENSING, LLC

Address before: Massachusetts

Applicant before: Nuance Communications, Inc.