CN117461042A - 针对语音处理基于自注意力组合多通道信号的系统和方法 - Google Patents
针对语音处理基于自注意力组合多通道信号的系统和方法 Download PDFInfo
- Publication number
- CN117461042A CN117461042A CN202280041088.4A CN202280041088A CN117461042A CN 117461042 A CN117461042 A CN 117461042A CN 202280041088 A CN202280041088 A CN 202280041088A CN 117461042 A CN117461042 A CN 117461042A
- Authority
- CN
- China
- Prior art keywords
- channels
- channel
- weighted
- representation
- weights
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 93
- 238000012545 processing Methods 0.000 title claims description 67
- 238000004590 computer program Methods 0.000 claims abstract description 18
- 238000010801 machine learning Methods 0.000 claims description 35
- 230000008569 process Effects 0.000 description 74
- 238000003860 storage Methods 0.000 description 22
- 238000003384 imaging method Methods 0.000 description 20
- 238000009877 rendering Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000013461 design Methods 0.000 description 7
- 230000015556 catabolic process Effects 0.000 description 6
- 238000006731 degradation reaction Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000003331 infrared imaging Methods 0.000 description 4
- 230000007774 longterm Effects 0.000 description 4
- 230000000474 nursing effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000001931 thermography Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 230000001066 destructive effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 235000003642 hunger Nutrition 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000037351 starvation Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2203/00—Details of circuits for transducers, loudspeakers or microphones covered by H04R3/00 but not provided for in any of its subgroups
- H04R2203/12—Beamforming aspects for stereophonic sound reproduction with loudspeaker arrays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Otolaryngology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Circuit For Audible Band Transducer (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
Abstract
一种用于接收来自多个麦克风的多个信号的方法、计算机程序产品和计算系统,由此定义多个通道。多个通道的加权多通道表示可以被生成。针对多个通道中的每个通道的多个权重可以至少部分地基于多个通道的加权多通道表示而被生成。多个通道的单通道表示可以至少部分地基于多个通道的加权多通道表示和针对多个通道中的每个通道生成的多个权重而被生成。
Description
相关申请的交叉引用
本申请要求2021年6月11日提交的序列号为63/209,746的美国临时申请和2021年12月1日提交的序列号为17/539,451的美国非临时申请的权益。每个申请的内容通过引用并入本文。
背景技术
自动临床文档(Automated Clinical Documentation,ACD)可以被使用,例如,以将转录的会话(例如,医生、患者,和/或诸如患者的家庭成员、护士、医生助理等的其他参与者)语音变成格式化的(例如,医学的)报告。这样的报告可以被审阅,例如,以确保由医生、抄写员等做出的报告的准确性。
然而,当说话者远离麦克风时,语音处理系统(例如,自动语音识别(AutomaticSpeech Recognition,ASR)系统、生物特征话音系统等)由于远场语音信号的输入遭受识别准确性退化。该退化可能是由于由室内混响和背景噪声导致的远场语音的信号破坏效应。与单个麦克风相比,包括多个麦克风的麦克风阵列设备能够被利用以捕获多通道音频信号作为针对语音处理后端系统(例如,ASR后端系统)的输入,以缓解这样的退化问题。然而,因为语音处理后端通常被设计为接收单通道音频输入,所以接收多通道音频并且发射单通道音频的语音处理前端组件可以被利用以弥合多通道音频输入与语音处理后端之间的缺口。
语音处理前端和后端系统都需要一定量的数据以用于神经网络模型训练。在训练期间,模型参数可以被更新,并且然后该模型能够被利用于识别未见过的数据。由于语音处理后端系统的巨大参数规模,它比语音处理前端系统更加“数据饥饿”。在大多数应用场景中,更大量的单通道麦克风音频数据的能够比多通道麦克风阵列数据更容易地获取。因此,接收单通道音频输入的鲁棒语音处理后端系统可能通常比接收多通道音频输入的鲁棒语音处理系统更容易获取。
发明内容
在一个实现中,一种由计算机执行的计算机实现的方法可以包括但不限于接收来自多个麦克风的多个信号,由此定义多个通道。多个通道的加权多通道表示可以被生成。针对多个通道中的每个通道的多个权重可以至少部分地基于多个通道的加权多通道表示被生成。多个通道的单通道表示可以至少部分地基于多个通道的加权多通道表示和针对多个通道中的每个通道生成的多个权重而被生成。
可以包括以下特征中的一个或多个特征。生成多个通道的加权多通道表示可以包括:经由第一自注意力机器学习模型来生成多个通道的加权多通道表示。经由第一自注意力机器学习模型来生成多个通道的加权多通道表示可以包括定义多个注意力权重。生成多个通道的加权多通道表示可以包括:将多个通道的加权多通道表示的每个通道定义为多个通道的线性组合。生成多个通道的加权多通道表示可以包括:经由一个或多个固定波束形成器来生成多个通道的加权多通道表示。至少部分地基于多个通道的加权多通道表示针对多个通道中的每个通道生成多个权重可以包括:经由第二自注意力机器学习模型至少部分地基于多个通道的加权多通道表示来针对多个通道中的每个通道生成多个权重。
在另一实现中,一种计算机程序产品驻留在计算机可读介质上,并且具有在其上存储的多个指令。该指令在由处理器执行时使处理器执行操作,该操作包括但不限于从多个麦克风接收多个信号,由此定义多个通道。多个通道的加权多通道表示可以被生成。针对多个通道中的每个通道的多个权重可以至少部分地基于多个通道的加权多通道表示而被生成。多个通道的单通道表示可以至少部分地基于多个通道的加权多通道表示和针对多个通道中的每个通道生成的多个权重而被生成。
可以包括以下特征中的一个或多个特征。生成多个通道的加权多通道表示可以包括:经由第一自注意力机器学习模型来生成多个通道的加权多通道表示。经由第一自注意力机器学习模型来生成多个通道的加权多通道表示可以包括定义多个注意力权重。生成多个通道的加权多通道表示可以包括:将多个通道的加权多通道表示的每个通道定义为针对多个通道的线性组合。生成多个通道的加权多通道表示可以包括:经由一个或多个固定波束形成器生成多个通道的加权多通道表示。至少部分地基于多个通道的加权多通道表示来针对多个通道中的每个通道生成多个权重可以包括:经由第二自注意力机器学习模型至少部分地基于多个通道的加权多通道表示来针对多个通道中的每个通道生成多个权重。多个通道的单通道表示可以被提供给后端语音处理系统。
在另一实现中,计算系统包括处理器和被配置为执行操作的存储器,这些操作包括但不限于接收来自多个麦克风的多个信号,由此定义多个通道。该处理器还可以被配置为:生成多个通道的加权多通道表示。该处理器还被配置为:至少部分地基于多个通道的加权多通道表示来针对多个通道中的每个通道生成多个权重。该处理器还被配置为:至少部分地基于多个通道的加权多通道表示和针对多个通道中的每个通道生成的多个权重来生成多个通道的单通道表示。
可以包括以下特征的一个或多个特征。生成多个通道的加权多通道表示可以包括:经由第一自注意力机器学习模型来生成多个通道的加权多通道表示。经由第一自注意力机器学习模型来生成多个通道的加权多通道表示可以包括定义多个注意力权重。生成多个通道的加权多通道表示可以包括:将多个通道的加权多通道表示的每个通道定义为针对多个通道的线性组合。生成多个通道的加权多通道表示可以包括:经由一个或多个固定波束形成器来生成多个通道的加权多通道表示。至少部分地基于多个通道的加权多通道表示来针对多个通道中的每个通道生成多个权重可以包括:经由第二自注意力机器学习模型至少部分地基于多个通道的加权多通道表示来针对多个通道中的每个通道生成多个权重。多个通道的单通道表示可以被提供给后端语音处理系统。
一个或多个实现的细节在附图和以下描述中删除。从说明、图和权利要求中可以明显看出其他特征和优点。
附图说明
图1是自动化临床文档编制计算机系统和耦合到分布式计算网络的多通道组合过程的图解视图;
图2是并入了图1的自动化临床文档编制计算机系统的模块化ACD系统的图解视图;
图3是包括在图2的模块化ACD系统内的混合媒体ACD设备的图解视图;
图4是图1的多通道组合过程的一个实现的流程图;以及
图5-6是根据图1的多通道组合过程的各种实现的各种前端语音处理系统的图解视图。
相似的附图标记在各附图中指示相似的元素。
具体实施方式
系统概述:
参考图1,示出了多通道组合过程10。多通道组合过程10可以实现为服务器侧过程、客户端侧过程,或服务器侧/客户端侧混合过程。例如,多通道组合过程10可以经由多通道组合过程10s被实现为纯服务器侧过程。备选地,多通道组合过程10可以经由多通道组合过程10cl、多通道组合过程10c2、多通道组合过程10c3和多通道组合过程10c4中的一个或多个多通道组合过程被实现为纯客户端侧过程。仍然备选地,多通道组合过程10可以经由与多通道组合过程10cl、多通道组合过程10c2、多通道组合过程10c3和多通道组合过程10c4中的一个或多个多通道组合过程组合的多通道组合过程10s被实现为混合服务器侧/客户端侧过程。
因此,在本公开中使用的多通道组合过程10可以包括多通道组合过程10s、多通道组合过程10cl、多通道组合过程10c2、多通道组合过程10c3和多通道组合过程10c4。
多通道组合过程10s可以是服务器应用,并且可以驻留在自动化临床文档编制(Automated Clinical Documentation,ACD)计算机系统12上,并且可以由该系统12执行,该系统12可以连接到网络14(例如,互联网或局域网)。ACD计算机系统12可以包括各种组件,其示例可以包括但不限于:个人计算机、服务器计算机、一系列服务器计算机、小型计算机、大型计算机、一个或多个网络附加存储(Network Attached Storage,NAS)系统、一个或多个存储区域网络(Storage Area Network,SAN)系统、一个或多个平台即服务(Platformas a Service,PaaS)系统、一个或多个基础设施即服务(Infrastructure as a Service,IaaS)系统、一个或多个软件即服务(Software as a Service,SaaS)系统、一个或多个基于云的计算系统、以及基于云的存储平台。
如本领域内已知的,SAN可以包括以下一项或多项:个人计算机、服务器计算机、一系列服务器计算机、小型计算机、大型计算机、RAID设备和NAS系统。ACD计算机系统12的各种组件可以执行一个或多个操作系统,其示例可以包括但不限于:例如,MicrosoftWindows Servertm、Redhat Linuxtm、Unix或自定义操作系统。
可以被存储在与ACD计算机系统12耦合的存储设备16上的多通道组合过程10s的指令集和子例程可以由被包括在ACD计算机系统12内的一个或多个处理器(未示出)和一个或多个存储架构(未示出)执行。存储设备16的示例可以包括但不限于:硬盘驱动器;RAID设备;随机访问存储器(Random Access Memory,RAM);只读存储器(Read-Only Memory,ROM);以及所有形式的闪存存储设备。
网络14可以连接到一个或多个次级网络(例如,网络18),其示例可以包括但不限于:例如,局域网;广域网;或者内联网。
各种IO请求(例如,IO请求20)可以从多通道组合过程10s、多通道组合过程10cl、多通道组合过程10c2、多通道组合过程10c3和/或多通道组合过程10c4发送到ACD计算机系统12。IO请求20的示例可以包括但不限于数据写入请求(即,向ACD计算机系统12写入内容的请求)和数据读取请求(即从ACD计算机系统12读取内容的请求)。
可以(分别)被存储在(分别)耦合到ACD客户端电子设备28、30、32、34的存储设备20、22、24、26上的多通道组合过程10cl、多通道组合过程10c2、多通道组合过程10c3和/或多通道组合过程10c4的指令集和子例程可以(分别)由(分别)并入ACD客户端电子设备28、30、32、34的一个或多个处理器(未示出)和一个或多个存储架构(未示出)执行。存储设备20、22、24、26可以包括但不限于:硬盘驱动器;光学驱动器;RAID设备;随机访问存储器(RAM);只读存储器(ROM),以及所有形式的闪存存储设备。ACD客户端电子设备28、30、32、34的示例可以包括但不限于个人计算设备28(例如,智能手机、个人数字助理、膝上型计算机、笔记本计算机和台式计算机)、音频输入设备30(例如,手持麦克风、翻领麦克风、嵌入式麦克风(例如嵌入在眼镜、智能手机、平板计算机和/或手表之的那些)和音频记录设备)、显示设备32(例如,平板计算机、计算机监控器和智能电视)、机器视觉输入设备34(例如,RGB成像系统、红外成像系统、紫外成像系统、激光成像系统、声呐成像系统、雷达成像系统和热成像系统)、混合设备(例如,包括以上引用的设备中的一个或多个设备的功能的单个设备;未示出)、音频渲染设备(例如,扬声器系统、耳机系统、或耳塞系统;未示出)、各种医疗设备(如医疗成像设备、心脏监控机器、体重秤、体温温度计,和血压仪;未示出),以及专用网络设备(未示出)。
用户36、38、40、42可以直接通过网络14或通过次级网络18访问ACD计算机系统12。此外,ACD计算机系统12可以通过次级网络18连接到网络14,如用链路线路44所示。
各种ACD客户端电子设备(例如,ACD客户端电子设备28、30、32、34)可以直接或间接地耦合到网络14(或网络18)。例如,个人计算设备28被示出为经由硬连线网络连接直接地耦合到网络14。此外,机器视觉输入设备34被示出为经由硬线网络连接直接地耦合到网络18。音频输入设备30被示出为经由在音频输入设备30与无线接入点(即WAP)48之间建立的无线通信通道46无线地耦合到网络14,这示出直接地耦合到网络14。例如,WAP 48可以是IEEE 802.11a、802.11b、802.11g、802.11h、Wi-Fi和/或蓝牙设备,这些设备能够在音频输入设备30与WAP 48之间建立无线通信通道46。显示设备32被示出为经由在显示设备32与WAP 52之间建立的无线通信通道50无线地耦合到网络14,WAP 52被示出为直接地耦合到网络。
各种ACD客户端电子设备(例如,ACD客户端电子设备28、30、32、34)可以各自执行操作系统,其示例可以包括但不限于Microsoft Windowstm、Apple Macintoshtm、RedhatLinuxtm,或自定义操作系统,其中各种ACD客户端电子设备(例如,ACD客户端电子设备28、30、32、34)和ACD计算机系统12的组合可以形成模块化的ACD系统54。
也参考图2,示出了模块化ACD系统54的简化示例实施例,该系统被配置为自动化临床文档编制。模块化ACD系统54可以包括:机器视觉系统100,被配置为获取关于患者遭遇(encounter)的机器视觉遭遇信息102;音频记录系统104,被配置为获取关于患者遭遇的音频遭遇信息106;以及计算机系统(例如,ACD计算机系统12),被配置为(分别)从机器视觉系统100和音频记录系统104接收机器视觉遭遇信息102和音频遭遇信息106。模块化ACD系统54还可以包括:被配置为渲染视觉信息110的显示渲染系统108;以及被配置为渲染音频信息114的音频渲染系统112,其中ACD计算机系统12可以被配置为提供视觉信息110和音频信息114,以(分别)显示渲染系统108和音频渲染系统112。
机器视觉系统100的示例可以包括但不限于:一个或多个ACD客户端电子设备(例如,ACD客户端电子设备34,其示例可以包括但不限于RGB成像系统、红外成像系统、紫外成像系统、激光成像系统、声呐成像系统、雷达成像系统,和热成像系统)。音频记录系统104的示例可以包括但不限于:一个或多个ACD客户端电子设备(例如,ACD客户端电子设备30,其示例可以包括但不限于手持麦克风、翻领麦克风、嵌入式麦克风(例如嵌入在眼镜、智能手机、平板计算机和/或手表之内的那些)和音频记录设备)。显示渲染系统108的示例可以包括但不限于:一个或多个ACD客户端电子设备(例如,ACD客户端电子设备32,其示例可以包括但不限于平板计算机、计算机监控器、以及智能电视)。音频渲染系统112的示例可以包括但不限于:一个或多个ACD客户端电子设备(例如,音频渲染设备116,其示例可以包括但不限于扬声器系统、耳机系统和耳塞系统)。
如以下将更详细地讨论的,ACD计算机系统12可以被配置为访问一个或多个数据源118(例如,多个个体数据源120、122、124、126、128),其示例可以包括但不限于以下一项或多项:用户简档数据源、声纹数据源、声音特性数据源(例如,用于适应自动化的语音识别模型)、人脸打印数据源、类人形状数据源、话语标识符数据源、可穿戴令牌标识符数据源、交互标识符数据源、医疗条件症状数据源、处方兼容性数据源、医疗保险覆盖数据源和家庭医疗保健数据源。尽管在这个特定的示例中,示出了五个不同的数据源118的示例,但这只是出于说明性的目的,并且不旨在于成为本公开的限制,因为其他配置是可能的并且被考虑为在本公开的范围之内。
如以下将更详细地讨论的,模块化ACD系统54可以被配置为监控在临床环境中的受监控空间(例如,受监控空间130),其中这个临床环境的示例可以包括但不限于:医生办公室、医疗设施、医疗实践、医疗实验室、急救设施、医疗诊所、急诊室、手术室、医院、长期护理设施、康复设施、养老院和临终关怀设施。因此,以上引用的患者遭遇的示例可以包括但不限于患者访问上述临床环境(例如,医生办公室、医疗设施、医疗实践、医疗实验室、急救设施、医疗诊所、急诊室、手术室、医院、长期护理设施、康复设施、养老院和临终关怀设施)中的一个或多个临床环境。
当上述临床环境更大或需要更高级别的分辨率时,机器视觉系统100可以包括多个分立的机器视觉系统。如上所述,机器视觉系统100的示例可以包括但不限于:一个或多个ACD客户端电子设备(例如,ACD客户端电子设备34,其示例可以包括但不限于RGB成像系统、红外成像系统、紫外成像系统、激光成像系统、声呐成像系统、雷达成像系统和热成像系统)。因此,机器视觉系统100可以包括以下每项的一个或多个:RGB成像系统、红外成像系统、紫外成像系统、激光成像系统、声呐成像系统、雷达成像系统和热成像系统中。
当上述临床环境更大或需要更高级别的分辨率时,音频记录系统104可包括多个分立的音频记录系统。如上所述,音频记录系统104的示例可以包括但不限于:一个或多个ACD客户端电子设备(例如,ACD客户端电子设备30,其示例可以包括但不限于手持麦克风、翻领麦克风、嵌入式麦克风(例如嵌入在眼镜、智能手机、平板计算机和/或手表之内的那些)和音频记录设备)。因此,音频记录系统104可以包括以下每项的一个或多个:手持麦克风、翻领麦克风、嵌入式麦克风(例如,嵌入在眼镜、智能手机、平板计算机和/或手表之内的那些)和音频记录设备。
当上述临床环境更大或需要更高级别的分辨率时,显示渲染系统108可以包括多个分立的显示渲染系统。如上所述,显示渲染系统108的示例可以包括但不限于:一个或多个ACD客户端电子设备(例如,ACD客户端电子设备32,其示例可以包括但不限于平板计算机、计算机显示器和智能电视)。因此,显示渲染系统108可以包括以下每项的一个或多个:平板计算机、计算机显示器和智能电视。
当上述临床环境较大或需要更高级别的分辨率时,音频渲染系统112可以包括多个分立的音频渲染系统。如上所述,音频渲染系统112的示例可以包括但不限于:一个或多个ACD客户端电子设备(例如,音频渲染设备116,其示例可以包括但不限于扬声器系统、耳机系统或耳塞系统)。因此,音频渲染系统112可以包括以下每项的一个或多个:扬声器系统、耳机系统或耳塞系统。
ACD计算机系统12可以包括多个分立的计算机系统。如上所述,ACD计算机系统12可以包括各种组件,其示例可以包括但不限于:个人计算机、服务器计算机、一系列服务器计算机、小型计算机、大型计算机、一个或多个网络附加存储(Network Attached Storage,NAS)系统、一个或多个存储区域网络(Storage Area Network,SAN)系统、一个或多个平台即服务(Platform as a Service,PaaS)系统、一个或多个基础设施即服务(Infrastructure as a Service,IaaS)系统、一个或多个软件即服务(Software as aService,SaaS)系统、基于云的计算系统、以及基于云的存储平台。因此,ACD计算机系统120可以包括以下每项的一个或多个:个人计算机、服务器计算机、一系列服务器计算机、小型计算机、大型计算机、一个或多个网络附加存储(Network Attached Storage,NAS)系统、一个或多个存储区域网络(Storage Area Network,SAN)系统、一个或多个平台即服务(Platform as a Service,PaaS)系统、一个或多个基础设施即服务(Infrastructure as aService,IaaS)系统、一个或多个软件即服务(Software as a Service,SaaS)系统、基于云的计算系统、以及基于云的存储平台。
也参考图3,音频记录系统104可以包括具有多个分立的麦克风组件的定向麦克风阵列200。例如,音频记录系统104可以包括可以形成麦克风阵列200的多个分立的音频采集设备(例如,音频采集设备202、204、206、208、210、212、214、216、218)。如下文将更详细地讨论的,模块化ACD系统54可以经由被包括在音频记录系统104内的分立音频采集设备(例如音频采集设备202、204、206、208、210、212、214、216、218)被配置为形成一个或多个音频记录波束(例如,音频记录波束220、222、224)。
例如,模块化ACD系统54还可以被配置为将一个或多个音频记录波束(例如,音频记录波束220、222、224)转向朝向上述患者遭遇的一个或多个遭遇参与者(例如,遭遇参与者226、228、230)。遭遇参与者的示例(例如,遭遇参与者226、228、230)可以包括但不限于:医疗专业人员(例如,医生、护士、医生助理、实验室技术人员、物理治疗师、抄写员(例如,转录员)和/或与患者遭遇有关的工作人员)、患者(例如,拜访针对患者遭遇的上述临床环境的人)和第三方(例如,患者遭遇中涉及的患者的朋友、患者的亲属和/或患者的熟人)。
因此,模块化ACD系统54和/或音频记录系统104可以被配置为利用分立的音频采集设备(例如,音频采集设备202、204、206、208、210、212、214、216、218)中的一个或多个音频采集设备来形成音频记录波束。例如,模块化ACD系统54和/或音频记录系统104可以被配置为利用音频采集设备210来形成音频记录波束220,由此使得能够捕获由遭遇参与者226产生的音频(例如,语音)(因为音频采集设备210指向(即定向朝向)遭遇参与者226)。因此,模块化ACD系统54和/或音频记录系统104可以被配置为利用音频采集设备204、206来形成音频记录波束222,由此使得能够捕获由遭遇参与者228产生的音频(例如,语音)(因为音频采集设备204、206指向(即定向朝向)遭遇参与者228)。附加地,模块化ACD系统54和/或音频记录系统104可以被配置为利用音频采集设备212、214来形成音频记录波束224,由此使得能够捕获由遭遇参与者230产生的音频(例如,语音)(因为音频采集设备212、214指向(即定向朝向)遭遇参与者230)。此外,模块化ACD系统54和/或音频记录系统104可以被配置为利用零转向(null-steering)预编码以消除扬声器和/或噪声之间的干扰。
如在本领域中已知的,零转向预编码是空间信号处理方法,通过这种方法,多个天线发射器可以在无线通信中抵消多用户干扰信号,其中零转向预编码可以缓解背景噪声和未知用户干扰的影响。
特别地,零转向预编码可以是针对窄带信号的波束形成方法,该窄带信号可以补偿在天线阵列的不同元件处来自特定源的接收信号的延迟。通常,并且为了提高天线阵列的性能,在输入信号中可以求和和平均,其中某些信号可以加权,并且可以针对信号延迟进行补偿。
机器视觉系统100和音频记录系统104可以是独立的设备(如在图2中所示)。附加地/备选地,机器视觉系统100和音频记录系统104可以组合成一个包,以形成混合媒体ACD设备232。例如,混合媒体ACD设备232可以被配置为被安装到在上临床环境(例如,医生的办公室、医疗设备、医疗实践、医疗实验室、急救设施、医疗诊所、急诊室、手术室、医院,长期护理设施,康复设施、养老院和临终关怀设施)内的结构(例如墙、天花板、梁、柱),由此允许相同设施的容易安装。此外,当上述临床环境更大或需要更高级别的分辨率时,模块化ACD系统54可以被配置为包括多个混合媒体ACD设备(例如,混合媒体ACD设备232)。
模块化ACD系统54还可以被配置为将一个或多个音频记录波束(例如,音频记录波束220、222、224)转向朝向患者遭遇的一个或多个遭遇参与者(例如,遭遇参与者226、228、230),该患者遭遇至少部分地基于机器视觉遭遇信息102。如上所述,混合媒体ACD设备232(以及其中包括的机器视觉系统100/音频记录系统104)可以被配置为监控患者遭遇的一个或多个遭遇参与者(例如,遭遇参与者226、228、230)。
具体地,机器视觉系统100(要么作为独立系统要么作为混合媒体ACD设备232的组件)可以被配置为在上述临床环境(例如,医生的办公室、医疗设备、医疗实践、医疗实验室、急救设施、医疗诊所、急诊室、手术室、医院,长期护理设施,康复设施、养老院和临终关怀设施)内检测类人形状。并且当这些类人形状由机器视觉系统100检测到时,模块化ACD系统54和/或音频记录系统104可以被配置为利用音频采集设备(例如,音频采集设备202、204、206、208、210、212、214、216、218)中的一个或多个音频采集设备来形成音频记录波束(例如,音频记录波束220、222、224),该波束定向朝向被检测到的类人形状(例如,遭遇参与者226、228、230)中的每个类人形状。
如上所述,ACD计算机系统12可以被配置为(分别)从机器视觉系统100和音频记录系统104接收机器视觉遭遇信息102和音频遭遇信息106;并且可以被配置为提供视觉信息110和音频信息114以(分别)显示渲染系统108和音频渲染系统112。取决于模块化ACD系统54(和/或混合媒体ACD设备232)被配置的方式,ACD计算机系统12可以被包括在混合媒体ACD设备232内或在混合媒体ACD设备232外部。
如上所述,ACD计算机系统12可以执行多通道组合过程10的全部或一部分,其中多通道组合过程10的指令集和子例程(其可以被存储例如,存储设备16、20、22、24、26中的一个或多个存储设备上)可以由ACD计算机系统12和/或ACD客户端电子设备28、30、32、34中的一个或多个ACD客户端电子设备执行。
多通道组合过程:
如上所述,并且也至少参考了图4-6,多通道组合过程10可以接收400来自多个麦克风的多个信号,由此定义多个通道。多个通道的加权多通道表示可以被生成402。针对多个通道中的每个通道的多个权重可以至少部分地基于多个通道的加权多通道表示被生成404。多个通道的单通道表示可以至少部分地基于多个通道的加权多通道表示和针对多个通道中的每个通道所生成的多个权重而被生成406。
在与本公开一致的一些实现中,用于基于自注意力的神经网络语音处理前端的系统和方法可以被提供,该神经网络语音处理前端被设计为通过利用由麦克风阵列捕获的多通道音频来提高远场语音识别准确性。例如,当说话者远离麦克风时,语音处理系统(例如,自动化语音识别(Automatic Speech Recognition,ASR)系统、生物识别语音系统等)遭受来自远场语音信号的输入的识别准确性退化。这种退化可能是由于由室内混响和背景噪声导致的远场语音的信号破坏影响。
与单个麦克风相比,包括多个麦克风的麦克风阵列设备能够被利用以捕获多通道音频信号,作为对语音处理后端系统(例如,ASR后端系统)的输入,以缓解这种退化问题。然而,因为常规的后端语音处理系统通常被设计为接收单通道音频输入,所以接收多通道音频并且发射单通道音频的前端语音处理系统可以被利用于弥合在多通道音频输入和后端语音处理系统之间的缺口。
前端和后端语音处理系统都需要一定量的数据以用于神经网络模型训练。在训练期间,模型参数可以被更新,并且然后该模型可以被利用于识别未见过的数据。由于后端语音处理系统的巨大参数规模,它比前端语音处理系统更加“数据饥渴”。在大多数应用场景中,跟更大量的单通道麦克风音频数据能够比多通道麦克风阵列数据更容易获取。因此,接收单通道音频输入的鲁棒后端语音处理系统可能比接收多通道音频输入的鲁棒语音处理系统更容易获取。为了解决这种多通道数据稀缺问题,本文描述的前端语音处理系统可以以与任何常见的后端语音处理系统设计兼容的方式被设计。因此,它可以利用显著更少量的多通道数据的与预训练后端语音处理系统联合地被微调。
如以下将更详细地讨论的,本公开的实现为多通道前端语音处理系统提供神经网络架构设计,该系统不需要对已有的常规单通道输入后端语音处理系统有任何修改。因此,利用少量的多通道训练数据,训练良好的后端语音处理系统可以被增强以接收远场多通道输入。本公开的实现提供与语音处理的常规方法相比示出改进的识别准确性(或减少的词错误率)的前端设计。
在一些实现中,多通道组合过程10可以接收来自多个麦克风的多个信号400,由此定义多个通道。还参照图5,多通道组合过程10可以从多个麦克风(包括多个麦克风202、204、206、208、210、212、214、216、218的音频记录系统104)接收以定义多个通道。在一些实现中,多通道组合过程10可以执行多个通道的短时傅里叶变换(Short Time FourierTransform,STFT)(例如,在图5中表示为框500),以定义多个通道的幅度表示。然而,应理解,在本公开的范围内,多通道组合过程10可以在STFT之外和/或代替STFT执行任何初步信号处理。备选地,并且如以下将更详细地讨论的,多通道组合过程10可以不执行多个通道的任何初步信号处理。
在一些实现中,多通道组合过程10可以生成402多个通道的加权多通道表示。如以下将更详细地讨论的,多通道组合过程10可以改变多个通道的幅度和/或相位分量的分布,以基于多个通道的各个部分针对信号处理目的的重要性或意义来生成402加权多通道表示。例如,加权多通道表示可以至少部分地基于对于信号处理系统的多个通道的特定部分(例如,频率幅度和/或相位分量)的重要性来将多个通道的这些部分加权。
在一些实现中,生成402多个通道的加权多通道表示可以包括经由第一自注意力机器学习模型来生成408多个通道的加权多通道表示。如在本领域中已知的,自注意力是关于单个序列或信号的不同位置的注意力机制,以便计算相同序列或信号的表示。注意力机制定义了相对于(多个)序列或(多个)信号的其他部分的一个或多个序列或信号的“重要”部分。在多个通道的多通道表示的上下文中,自注意力可以根据针对语音处理更加重要的通道或通道的部分以及针对语音处理较不重要的通道或通道的部分来定义多个通道。例如,加权多通道表示可以指示跨多个通道的信号的哪些部分针对语音处理是重要的,以及信号的哪些部分不需要关注。以这种方式,由麦克风阵列的多个麦克风接收的各种语音信号处理可以在前端处被处理成强调针对语音处理最重要的信号的部分的单通道表示
也参考图5,多通道组合过程10可以从多个麦克风(例如包括多个麦克风202、204、206、208、210、212、214、216、218的音频记录系统104)接收多个信号,以定义多个通道。如上所述,多通道组合过程10可以执行对多个通道的初步信号处理,以生成多个通道的多通道STFT表示(例如,表示为图5的框500)。多通道组合过程10可以使用第一自注意力机器学习模型(例如,自注意力机器学习模型502)来生成402多个通道的加权多通道表示。
在一些实现中,经由第一自注意力机器学习模型生成408多个通道的加权多通道表示可以包括定义410多个注意力权重410。例如,自注意力机器学习模型502可以接收400多通道STFT幅度作为输入,并且生成402加权多通道表示作为输出(例如,加权多通道表示504)。生成402加权多通道表示可以包括通过在“查询”与“键”之间的张量相乘的柔性最大值(softmax)(例如,由图5的框508表示)以及通过执行多个注意力权重(例如,多个注意力权重506)和多通道STFT(例如,多通道STFT 500)的积的柔性最大值(例如,由图5的框513表示)来定义410多个注意力权重(例如,多个注意力权重506)。如在本领域已知的,在自注意力的上下文内,查询通常可以包括或表示要搜索的信息,并且键通常包括或表示与查询的相关性。查询和键可以分别通过对STFT输入执行线性变换来计算。如在图5中显示的,两个“密集”层(例如,密集层510,512)可以是用于执行线性变换以计算查询(例如,密集层510)并且以计算键(例如,经由密集层512)的神经网络组件。
在一些实现中,生成408多个通道的加权多通道表示可以包括将多个通道的加权多通道的每个通道表示定义412为多个通道的线性组合。利用多个注意力权重(例如多个注意力权重506),多通道组合过程10可以经由第一自注意力机器学习模型通过将多个注意力的权重乘以多个通道来生成多个通道的加权多通道表示。以这种方式,在加权多通道表示(例如,加权多通道表示504)中的每个通道是输入通道(例如,多个通道)的加权和。因此,加权多通道表示(例如,加权多通道表示504)可以是多个通道的线性组合。
在一些实现中,生成402多个通道的加权多通道表示可以包括经由固定波束形成器生成414多个通道的加权多通道表示。也参考图6,多通道组合过程10可以使用一个或多个固定波束形成器(例如,固定波束形成器600)生成414多个通道的加权多通道表示(例如,加权多通道表示504)。如在本领域中已知的,固定波束形成器600可以包括滤波求和波束形成器,该滤波求和波束形成器基于噪声的性质和房间特性的一些假设而被设计。固定波束形成器600的总体设计可以基于众所周知的最小方差无畸变响应(Minimum VarianceDistortionless Response,MVDR)波束形成器或频率无关的增益设计。
当一个或多个固定波束形成器(例如,固定波束形成器600)基于MVDR设计时,转向矢量(即,必须被应用于在源方向上产生相长干扰的相位移位集)和噪声协方差矩阵(例如,其逆用于构造提高信噪比(Signal-to-Ratio Ratio,SNR)的滤波器)可以被利用。针对转向矢量有各种选择:理想相位移位;移位正弦房间脉冲响应(Room Impulse Response,RIR);和/或实际RIR(例如,测量的或模拟的)。噪声协方差也有各种选择:同一性(即,等价于噪声不相关的假设);球面各向同性扩散噪声(典型的环境室内场景);以及实际噪声(例如,测量的或模拟的)。虽然已经针对转向向量和噪声协方差都提供了示例,但是应理解,这些仅出于示例目的,并且任何类型的转向向量和/或噪声协方差都可以在本公开的范围内被利用。
在一些实现中,一个或多个固定波束形成器(例如,固定波束形成器600)可以被配置为将波束和/或零点(null)引导朝向某些位置/方向。当在相对于麦克风阵列的某些位置存在已知的扬声器或噪声源时,这可能是有益的。当抑制来自某个位置的声音时(即接收来自一个扬声器的语音,同时衰减来自在受监控空间内的不同位置中的另一扬声器的语音),它也可能是有用的。
一个或多个固定波束形成器(例如,固定波束形成器600)可以通过改变幅度和相位分量来将多个通道组合成多个波束和/或零点(例如,多个波束和/或零点602)。如在本领域中已知的,波束通常可以包括麦克风阵列的麦克风之间的相长干扰模式,该相长干扰模式通过经由多个滤波器在麦克风阵列的每个麦克风处修改信号的相位和/或振幅来生成。相长干扰的模式可以提高麦克风阵列的信号处理性能。类似地,零点通常可以包括麦克风阵列的麦克风之间的相消干扰模式,该相消干扰模式在通过在麦克风阵列的每个麦克风处修改信号的相位和/或幅度来生成。相消干扰模式可以限制麦克风阵列对信号的接收。
一个或多个固定波束形成器(例如,固定波束形成器600)可以包括多个滤波器,这些滤波器被配置为针对特定的基于信号的标准来更改多个通道的幅度和/或相位。一个或多个固定波束形成器(例如,固定波束形成器600)的多个滤波器可以被配置为生成特定的波束和/或零点模式(例如,多个波束和零点602)。一个或多个固定波束形成器(例如,固定波束形成器600)的波束设计可能是数据无关的,这当可用的现场数据更少时可能是期望的,但如果有大量代表性的现场数据,则可能是较不理想的。如在图5-6中所示,加权多通道表示(例如,加权多通道表示504)可以使用自注意力机器学习模型(例如,自注意力机器学习模型502)和/或一个或多个固定波束形成器(例如,固定波束形成器600)而被生成402。如在图6中所示,针对一个或多个固定波束形成器(例如,固定波束形成器600)的加权多通道表示可以被表示为在多个波束方向上的经滤波的表示(例如,在多个波束方向中的经滤波的表示504)。
经由一个或多个固定波束形成器来生成多个通道的加权多通道表示可以包括定义与一个或多个声源对应的多个注意力权重(416)。例如,并且如上所述,一个或多个固定波束形成器(例如,固定波束形成器600)的多个滤波器可以被配置为生成特定的波束和/或零点模式(例如,多个波束和零点602)。因此,多个滤波器可以定义与一个或多个声源的方向对应的多个注意力权重。例如,并且如在图3中所示,多个滤波器可以定义多个注意力权重,这些权重对应于一个或多个声源的方向(例如,遭遇参与者226、遭遇参与者228,和/或遭遇参与者230和234)。虽然例如有三个参与者已经被描述为声源的示例,但是应理解任何数目的声源。
多通道组合过程10可以利用418与一个或多个声源对应的多个注意力权重以用于各种语音处理目的(例如,自动化语音识别、说话者定位、说话者区分等)。例如,如上所述,一个或多个固定波束形成器(例如,固定波束形成器600)的多个滤波器可以定义多个注意力权重,这些权重对应于一个或多个声源(例如,遭遇参与者226、遭遇参与者228,和/或遭遇参与者230和234)的方向。多通道组合过程10可以利用418与一个或多个声源对应的多个注意力权重以用于针对一个或多个说话者的说话者区分和/或说话者定位(例如,遭遇参与者226、遭遇参与者228,和/或遭遇参与者230和234)。虽然已经提供了利用418一个或多个声源对应的多个注意力权重以用于说话者区分和说话者定位的示例,但是应理解,这些仅出于示例目的,并且在本公开的范围内多通道组合过程10可以利用418多个注意力权重以用于各种语音处理应用。
在一些实现中,多通道组合过程10可以至少部分地基于多个通道的加权多通道表示来针对多个通道中的每个通道生成404多个权重。再次参考图5-6,多通道组合过程10可以利用多个通道的加权多通道表示(例如,加权多通道表示504)来针对多个通道中的每个通道生成404多个权重。例如,多通道组合过程10可以接收多个通道的加权多通道表示(例如,加权多通道表示504)作为输入,以生成多个通道组合权重(404)作为输出(例如,多个权重514)。多个权重(例如,多个权重514)可以是频率维度收缩(contracted)输入的加权和。例如,多通道组合过程10可以收缩加权多通道表示(例如,加权多通道表示504)的频率分量。如以下更详细地讨论的,多个权重(例如,多个权重514)可以被用于对加权多通道表示(例如,加权多通道表示504)的特定通道加权,以生成单通道表示。
在一些实现中,至少部分基于多个通道的加权多通道表示针对多个通道中的每个通道生成404多个权重可以包括:经由第二自注意力机器学习模型(例如,第二自注意力机器学习模型516)至少部分地基于多个通道的加权多通道表示来针对多个通道中的每个通道生成420多个权重。如上所述,自注意力机器学习模型通常可以被配置为表示输入的哪些部分针对特定的应用更加重要和较不重要。例如,利用加权多通道表示(例如,加权多通道表示504),多个通道可以被表示为多个通道的线性组合。然而,与针对常规后端语音处理需要的单通道表示相对,加权多通道表示可以包括多个通道。因此,第二自注意力机器学习模型(例如,第二自注意力机器学习模型516)可以定义多个权重(例如,多个权重514)以应用于加权多通道表示(例如,加权多通道表示504),以生成包括针对语音处理最重要的特征的多个通道的单通道表示。
如上关于第一自注意力机器学习模型(例如,第一自注意力机器学习模型502)所述,针对多个通道中的每个通道生成多个权重可以包括定义多个注意力权重。例如,多个注意力权重(例如,注意力权重518)可以以与上述关于第一自注意力机器学习模型的多个注意力权重的方式类似的方式定义。查询和键可以通过对加权多通道表示的STFT输入(例如,由框604表示的处理的结果)执行线性变换分别被计算。如在图5-6中所示,两个“密集”层(例如,密集层520、522)可以是用于执行线性转换以计算查询(例如,经由密集层520)和以计算键(例如,经由密集层522)的神经网络组件。多通道组合过程10可以采用在“查询”和“键”之间的张量相乘的柔性最大值(例如,其中采用柔性最大值由图5-6的框524表示)。如上所述,第二自注意力机器学习模型516可以接收多个通道的加权多通道表示(例如,加权多通道表示504)作为输入。第二自注意力机器学习模型516可以处理加权多通道表示504,以定义加权多通道表示504的频率维度收缩表示(例如,经由密集层526)。
利用多个注意力权重(例如,注意力权重518)和加权多通道表示504的频率维度收缩表示(例如,经由密集层526生成的),多通道组合过程10可以通过执行多个注意力权重(例如,多个注意力权重518)和加权多通道表示504(例如,经由密集层526生成的)的积的柔性最大值来生成多个权重(例如,多个权重514)作为加权多通道表示504的频率维度收缩表示的加权和。该柔性最大值由图5的框527表示。以这种方式,多个权重(例如,多个权重514)可以指示在该多个通道的单通道表示中要强调和/或不强调多个通道的加权多通道表示的哪些部分。
在一些实现中,多通道组合过程10可以至少部分地基于多个通道的加权多通道表示和针对多个通道中的每个通道所生成的多个权重来生成406多个通道的单通道表示。例如,多通道组合过程10可以执行在图5-6中表示为框528的加权多通道表示(例如,加权多通道表示504)和多个权重(例如,多个权重514)的逐元素相乘。然后,多通道组合过程10可以对逐元素相乘的结果执行求和操作,以生成406加权多通道表示的单通道表示(例如,单通道表示532)(例如,其中通道维度求和在图5-6中表示为框530)。
在一些实现中,多通道组合过程10可以向后端语音处理系统提供422多个通道的单通道表示。如上所述,后端语音处理系统(例如,后端语音处理系统534)通常被设计为接收单通道音频输入。因此,通过如上所述生成406多个通道的单通道表示(例如,单通道表示532),前端语音处理系统可以接收多通道音频并且发射单通道音频,该单通道音频可以被利用于弥合多通道音频输入与后端语音处理系统(例如,后端语音处理系统534)之间的缺口。通过提供多个通道的单通道表示(例如,单通道表示532)(422),被配置为处理单通道输入的常规后端语音处理系统可以被利用,而无需任何更改或修改。
在一些实现中,前端语音处理系统和后端语音处理系统的组合可以定义端到端的语音处理系统。多通道组合过程10可以通过使用多通道音频信号和目标词元对前端和后端语音处理系统的联合训练来更新可学习的权重。这些权重在语音处理期间可能是固定的(例如,端到端ASR系统的识别推理)。
一般性地:
如本领域技术人员所理解的,本公开可以被体现为方法、系统或计算机程序产品。因此,本公开可以采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微码等)或组合软件和硬件方面的实施例的形式,这些方面通常都可以在本文中被称为“电路”、“模块”或“系统”。此外,本公开可以采取在具有体现在该介质中的计算机可用程序代码的计算机可用存储介质上的计算机程序产品的形式。
任何合适的计算机可用或计算机可读介质可以被利用。计算机可用或计算机可读的介质可以是,例如,但不限于,电子、磁、光、电磁、红外或半导体系统、装置、设备或传播介质。计算机可读介质的更具体的示例(不详尽的列表)可以包括以下:具有一条或多条电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM或闪存存储器)、光纤、便携式光盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储设备、传输介质(例如支持互联网或内联网的那些)或磁存储设备。计算机可用或计算机可读介质也可以是纸张或其上印刷了程序的另一合适的介质,因为程序能够经由例如对纸张或其他介质的光学扫描被电子地捕获,然后在有必要时被编译、被解译或以合适的方式被处理,并且然后存储在计算机存储器中。在本文档的上下文中,计算机可用或计算机可读介质可以是能够包含、存储、通信、传播或传输用于由指令执行系统、装置或设备使用或者与指令执行系统、装置或设备结合的程序的任何介质。计算机可用介质可以包括在基带中或作为载波的一部分传播的数据信号,该数据信号有随其体现的计算机可用程序代码。计算机可用程序代码可以使用任何适当的介质传输,包括但不限于互联网、电缆、光纤电缆、RF等。
用于执行本公开的操作的计算机程序代码可以用面向对象的程序设计语言编写,例如Java、Smalltalk、C++等。然而,用于执行本公开的操作的计算机程序代码也可以用常规的过程性程序设计语言编写,例如“C”程序设计语言或类似的程序设计语言。程序代码可以完全在用户计算机上执行、部分地在用户计算机上执行、作为独立软件包执行、部分地在用户计算机上执行以及部分地在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种场景下,远程计算机可以通过局域网/广域网/互联网(例如,网络14)连接到用户的计算机。
根据本公开的实施例,参考方法、装置(系统)和计算机程序产品的流程图和/或框图来描述本公开。要理解的是,流程图和/或框图的每个框以及流程图和/或框图中框的组合可以由计算机程序指令实现。这些计算机程序指令可以被提供给通用计算机/专用计算机/其他可编程数据处理装置,使得经由计算机或其他可编程数据处理装置的处理器执行的该指令创建用于实现在流程图和/或框图的一个或多个框中指定的功能/动作的部件。
这些计算机程序指令也可以被存储在计算机可读存储器中,该存储器可以引导计算机或其他可编程数据处理装置以用特定方式工作,使得存储在计算机可读存储器中的指令产生一种产品,该产品包括实现在流程图和/或框图的一个或多个框中实形的功能/动作的指令部件。
计算机程序指令也可以加载到计算机或其他可编程数据处理装置备上,以使一系列操作步骤在计算机或其他可编程装置上被执行,以产生计算机实现的过程,使得在计算机或其他可编程装置上执行的指令提供步骤用于实现在流程图和/或框图的一个或多个框中指定的功能/动作。
附图中的流程图和框图可以示出根据本公开的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这方面,流程图或框图中的每个框可以表示模块、段、或代码的一部分,其包括用于实现指定逻辑功能的一个或多个可执行指令。还应该注意的是,在某些备选实现中,在框中标注的功能可能发生与在图中标注的顺序不一致。例如,连续示出的两个框实际上可能基本上是并发执行的,或者这些框有时可能以相反的顺序执行、完全不执行,或者与任何其他流程图组合执行,这取决于涉及的功能。还要注意的是,框图和/或流程图的每个框、以及在框图和/或流程图中框的组合可以由执行指定功能或动作的专用基于硬件的系统实现,或由专用硬件和计算机指令的组合实现。
本文使用的术语仅用于描述特定实施例,并且不旨在于限制公开。如本文所使用的,单数形式“一(a)”、“一(an)”和“该(the)”也旨在于包括复数形式,除非上下文另有明确说明。应进一步理解,术语“包括(comprise)”和/或“包括(comprising)”在本说明书中使用时,指定了所述特征、整数、步骤、操作、元素和/或组件的存在,但不排除一个或多个其他特征、整数、步骤、操作、元素、组件和/或其组的存在或添加。
在所附权利要求中的对应结构、材料、动作和所有部件或步骤加功能元素的等价物旨在于包括与其他特定权利要求的元素组合以用于执行功能的任何结构、材料或动作。本公开的描述出于说明和描述的目的被呈现,但不旨在于是详尽的或将本公开限制于所公开的形式。在不背离本公开的范围和精神的情况下,许多修改和变化对于在本领域中的技术人员将是明显的。选择和描述实施例是为了最好地解释本公开和实践应用的原理,以及使本领域其他普通技术人员能够理解具有适合于预期的特定用途的各种修改的各种实施例的公开。
已经描述了多种实现。已经详细地并通过参考其实施例描述了本申请的公开,将明显的是,在不脱离所附权利要求中限定的公开的范围的情况下,修改和变化是可能的。
Claims (22)
1.一种在计算设备上执行的计算机实现的方法,包括:
接收来自多个麦克风的多个信号,由此定义多个通道;
生成所述多个通道的加权多通道表示;
至少部分地基于所述多个通道的所述加权多通道表示来针对所述多个通道中的每个通道生成多个权重;以及
至少部分地基于所述多个通道的所述加权多通道表示和针对所述多个通道中的每个通道所生成的所述多个权重来生成所述多个通道的单通道表示。
2.根据权利要求1所述的计算机实现的方法,其中生成所述多个通道的所述加权多通道表示包括:经由第一自注意力机器学习模型来生成所述多个通道的所述加权多通道表示。
3.根据权利要求2所述的计算机实现的方法,其中生成所述多个通道的所述加权多通道表示包括:定义多个注意力权重。
4.根据权利要求2所述的计算机实现的方法,其中生成所述多个通道的所述加权多通道表示包括:将所述多个通道的所述加权多通道表示的每个通道定义为所述多个通道的线性组合。
5.根据权利要求1所述的计算机实现的方法,其中生成所述多个通道的所述加权多通道表示包括:经由一个或多个固定波束形成器来生成所述多个通道的所述加权多通道表示。
6.根据权利要求5所述的计算机实现的方法,其中经由所述一个或多个固定波束形成器来生成所述多个通道的所述加权多通道表示包括:定义与一个或多个声源对应的多个注意力权重。
7.根据权利要求6所述的计算机实现的方法,还包括:
针对语音处理利用与所述一个或多个声源对应的所述多个注意力权重。
8.根据权利要求1所述的计算机实现的方法,其中至少部分地基于所述多个通道的所述加权多通道表示来针对所述多个通道中的每个通道生成所述多个权重包括:经由第二自注意力机器学习模型至少部分地基于所述多个通道的所述加权多通道表示来针对所述多个通道中的每个通道生成所述多个权重。
9.一种驻留在非暂态计算机可读介质上的计算机程序产品,所述计算机可读介质具有在其上存储的多个指令,所述指令在由处理器执行时使所述处理器执行操作,所述操作包括:
接收来自多个麦克风的多个信号,由此定义多个通道;
生成所述多个通道的加权多通道表示;
至少部分地基于所述多个通道的所述加权多通道表示来针对所述多个通道中的每个通道生成多个权重;以及
至少部分地基于所述多个通道的所述加权多通道表示和针对所述多个通道中的每个通道所生成的所述多个权重来生成所述多个通道的单通道表示。
10.根据权利要求9所述的计算机程序产品,其中生成所述多个通道的所述加权多通道表示包括:经由第一自注意力机器学习模型来生成所述多个通道的所述加权多通道表示。
11.根据权利要求10所述的计算机程序产品,其中经由所述第一自注意力机器学习模型来生成所述多个通道的所述加权多通道表示包括:定义多个注意力权重。
12.根据权利要求10所述的计算机程序产品,其中生成所述多个通道的所述加权多通道表示包括:将所述多个通道的所述加权多通道表示的每个通道定义为所述多个通道的线性组合。
13.根据权利要求9所述的计算机程序产品,其中生成所述多个通道的所述加权多通道表示包括:经由一个或多个固定波束形成器来生成所述多个通道的所述加权多通道表示。
14.根据权利要求13所述的计算机实现的方法,其中经由所述一个或多个固定波束形成器来生成所述多个通道的所述加权多通道表示包括:定义与一个或多个声源对应的多个注意力权重。
15.根据权利要求14所述的计算机实现的方法,其中所述操作还包括:
针对语音处理利用与所述一个或多个声源对应的所述多个注意力权重。
16.根据权利要求9所述的计算机程序产品,其中至少部分地基于所述多个通道的所述加权多通道表示来针对所述多个通道中的每个通道生成所述多个权重包括:经由第二自注意力机器学习模型至少部分地基于所述多个通道的所述加权多通道表示来针对所述多个通道中的每个通道生成所述多个权重。
17.一种计算系统,包括:
存储器;以及
处理器,所述处理器被配置为接收来自多个麦克风的多个信号,由此定义多个通道,其中所述处理器还被配置为生成所述多个通道的加权多通道表示,其中所述处理器还被配置为至少部分地基于所述多个通道的所述加权多通道表示来针对所述多个通道中的每个通道生成多个权重,并且其中所述处理器还被配置为至少部分地基于所述多个通道的所述加权多通道表示和针对所述多个通道中的每个通道所生成的所述多个权重来生成所述多个通道的单通道表示。
18.根据权利要求17所述的计算系统,其中生成所述多个通道的所述加权多通道表示包括:经由第一自注意力机器学习模型来生成所述多个通道的所述加权多通道表示。
19.根据权利要求18所述的计算系统,其中经由所述第一自注意力机器学习模型来生成所述多个通道的所述加权多通道表示包括:定义多个注意力权重。
20.根据权利要求18所述的计算系统,其中生成所述多个通道的所述加权多通道表示包括:将所述多个通道的所述加权多通道表示的每个通道定义为所述多个通道的线性组合。
21.根据权利要求17所述的计算系统,其中生成所述多个通道的所述加权多通道表示包括:经由一个或多个固定波束形成器来生成所述多个通道的所述加权多通道表示。
22.根据权利要求17所述的计算系统,其中至少部分地基于所述多个通道的所述加权多通道表示来针对所述多个通道中的每个通道生成所述多个权重包括:经由第二自注意力机器学习模型至少部分地基于所述多个通道的所述加权多通道表示来针对所述多个通道中的每个通道生成所述多个权重。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163209746P | 2021-06-11 | 2021-06-11 | |
US63/209,746 | 2021-06-11 | ||
US17/539,451 US20220399026A1 (en) | 2021-06-11 | 2021-12-01 | System and Method for Self-attention-based Combining of Multichannel Signals for Speech Processing |
US17/539,451 | 2021-12-01 | ||
PCT/US2022/032168 WO2022260951A1 (en) | 2021-06-11 | 2022-06-03 | System and method for self-attention-based combining of multichannel signals for speech processing |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117461042A true CN117461042A (zh) | 2024-01-26 |
Family
ID=84390034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280041088.4A Pending CN117461042A (zh) | 2021-06-11 | 2022-06-03 | 针对语音处理基于自注意力组合多通道信号的系统和方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220399026A1 (zh) |
EP (1) | EP4352668A1 (zh) |
CN (1) | CN117461042A (zh) |
WO (1) | WO2022260951A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117935838A (zh) * | 2024-03-25 | 2024-04-26 | 深圳市声扬科技有限公司 | 音频获取方法、装置、电子设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE527654T1 (de) * | 2004-03-01 | 2011-10-15 | Dolby Lab Licensing Corp | Mehrkanal-audiodecodierung |
EP2323130A1 (en) * | 2009-11-12 | 2011-05-18 | Koninklijke Philips Electronics N.V. | Parametric encoding and decoding |
KR102208477B1 (ko) * | 2014-06-30 | 2021-01-27 | 삼성전자주식회사 | 마이크 운용 방법 및 이를 지원하는 전자 장치 |
US10224058B2 (en) * | 2016-09-07 | 2019-03-05 | Google Llc | Enhanced multi-channel acoustic models |
US10573301B2 (en) * | 2018-05-18 | 2020-02-25 | Intel Corporation | Neural network based time-frequency mask estimation and beamforming for speech pre-processing |
-
2021
- 2021-12-01 US US17/539,451 patent/US20220399026A1/en active Pending
-
2022
- 2022-06-03 EP EP22820809.6A patent/EP4352668A1/en active Pending
- 2022-06-03 WO PCT/US2022/032168 patent/WO2022260951A1/en active Application Filing
- 2022-06-03 CN CN202280041088.4A patent/CN117461042A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117935838A (zh) * | 2024-03-25 | 2024-04-26 | 深圳市声扬科技有限公司 | 音频获取方法、装置、电子设备及存储介质 |
CN117935838B (zh) * | 2024-03-25 | 2024-06-11 | 深圳市声扬科技有限公司 | 音频获取方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP4352668A1 (en) | 2024-04-17 |
US20220399026A1 (en) | 2022-12-15 |
WO2022260951A1 (en) | 2022-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11581077B2 (en) | Automated clinical documentation system and method | |
US11250382B2 (en) | Automated clinical documentation system and method | |
CN118541752A (zh) | 用于多麦克风系统的数据扩充系统和方法 | |
US11699440B2 (en) | System and method for data augmentation for multi-microphone signal processing | |
CN117461042A (zh) | 针对语音处理基于自注意力组合多通道信号的系统和方法 | |
CN118633122A (zh) | 用于多麦克风系统的数据增强系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |