CN112384975B - 使用辅助信号的音频装置的传输控制 - Google Patents
使用辅助信号的音频装置的传输控制 Download PDFInfo
- Publication number
- CN112384975B CN112384975B CN201980046124.4A CN201980046124A CN112384975B CN 112384975 B CN112384975 B CN 112384975B CN 201980046124 A CN201980046124 A CN 201980046124A CN 112384975 B CN112384975 B CN 112384975B
- Authority
- CN
- China
- Prior art keywords
- level
- nuisance
- microphone
- input
- audio device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 claims abstract description 57
- 230000006735 deficit Effects 0.000 claims abstract description 13
- 230000000694 effects Effects 0.000 claims description 152
- 238000001514 detection method Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 9
- 230000004931 aggregating effect Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 230000000116 mitigating effect Effects 0.000 abstract 1
- 230000002776 aggregation Effects 0.000 description 17
- 238000004220 aggregation Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000001133 acceleration Effects 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000004907 flux Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000003111 delayed effect Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 2
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000009987 spinning Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/08—Mouthpieces; Microphones; Attachments therefor
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及一种用于音频装置的传输控制的设备及方法。所述音频装置使用除了麦克风之外的源确定妨害,且使用此计算增益以及作出传输决策。使用所述增益产生比使用所述传输决策本身更细微的妨害减轻。
Description
相关申请案的交叉参考
本申请案主张2018年7月12日申请的第62/697,010号美国临时申请案及2018年7月12日申请的第18183034.0号欧洲专利申请案的优先权,所述申请案中的每一者以其全文引用的方式并入本文中。
背景技术
本发明涉及音频处理,且特定来说,涉及电信系统的传输控制。
除非本文中另外指示,否则本节中描述的方法不是本申请案中的权利要求的现有技术,且不因包含在本节中而被承认是现有技术。
语音活动检测(VAD)是用于确定在含有语音与噪声的混合的信号中存在语音的二元或概率指示符的技术。通常,语音活动检测的性能是基于分类或检测的精确度。研究工作受到将语音活动检测算法用于改进语音辨识的性能或用于控制在受益于不连续传输的方法的系统中传输信号的决策的激励。语音活动检测还用于控制信号处理功能,例如噪声估计、回声自适应及特定算法调谐,例如噪声抑制系统中的增益系数的滤波。
语音活动检测的输出可直接用于后续控制或元数据,及/或可用于控制对实时音频信号起作用的音频处理算法的性质。
语音活动检测的一种所关注的特定应用是在传输控制领域中。针对其中端点可在语音不活动周期期间停止传输或发送经减小数据速率信号的通信系统,语音活动检测器的设计及性能对系统的感知质量至关重要。此检测器最终必须作出二元决策,且遭遇根本问题,即,在可在短时间帧内观察到的许多特征中,为实现低延时,存在基本上重叠的语音及噪音的特性。因此,此检测器必须不断地在错误警报的普遍性与由于错误的决策而丢失期望的语音的可能性之间进行权衡。低延时、灵敏度及特异性的相反要求没有完全最佳的解决方案,或至少创建了其中系统的效率或最佳性取决于应用程序及预期输入信号的操作图景。
第2015/0032446号美国申请案公开案论述了一种组合短期语音活动检测与音频特征的较长期聚合以便作出传输控制决策的系统。
第2010/0145689号美国申请公开案论述了使用键击事件检测以及键击的听觉检测以便抑制语音片段期间的键击噪声。
发明内容
许多现存系统的一个问题是其主要考虑使用麦克风收集的声学信息。需要一种使用除了麦克风之外的组件检测妨害的系统。
许多现存系统的另一问题是其个别地考虑每一妨害事件以便减小听觉信号内的每一相应妨害事件的影响。需要一种聚合妨害事件以便作出更细微的妨害决策的系统。
考虑到上述问题及缺少解决方案,本文中描述的实施例涉及随着时间的推移聚合妨害事件及控制除了传输决策本身之外的传输的增益。
根据实施例,一种方法执行用于音频装置的传输控制。所述方法包含使用麦克风接收音频输入。所述方法进一步包含使用除了所述麦克风之外的源接收辅助输入。所述方法进一步包含对所述音频输入执行语音活动检测以产生语音活动置信级。所述方法进一步包含随着时间的推移聚合所述辅助输入以产生妨害级。所述方法进一步包含组合所述语音活动置信级与所述妨害级以产生传输决策级及增益级。
当所述传输决策级指示传输时,所述方法进一步包含:将所述增益级应用于所述音频输入以产生经修改音频输入;及传输所述经修改音频输入。
所述辅助输入可为多个辅助输入,且除了所述麦克风之外的所述源可为除了所述麦克风之外的多个源。
除了所述麦克风之外的所述源可为振动传感器、系统事件日志、加速度计、组件活动日志及二次输入日志中的一者。所述系统事件日志可记录键盘按下事件及鼠标点击事件。所述音频装置可包含风扇,且所述组件活动日志可记录所述风扇的风扇速度。所述二次输入日志可记录与连接到所述音频装置的经连接装置有关的信息。
组合所述语音活动置信级与所述妨害级可包含组合所述语音活动置信级、所述妨害级与远端活动级以产生所述传输决策级及所述增益级。
所述增益级可为所述语音活动置信级与所述妨害级的线性组合。
所述妨害级可为多个妨害级。所述增益级可为所述语音活动置信级与所述多个妨害级的线性组合。
根据另一实施例,一种非暂时性计算机可读媒体存储计算机程序,所述计算机程序在由处理器执行时控制设备执行包含上文论述的所述方法中的一者或多者的处理。
根据另一实施例,一种设备执行用于音频装置的传输控制。所述设备包含麦克风、除了所述麦克风之外的源、处理器及存储器。所述处理器经配置以控制所述音频装置使用所述麦克风接收音频输入。所述处理器进一步经配置以控制所述音频装置使用除了所述麦克风之外的所述源接收辅助输入。所述处理器进一步经配置以控制所述音频装置对所述音频输入执行语音活动检测以产生语音活动置信级。所述处理器进一步经配置以控制所述音频装置随着时间的推移聚合所述辅助输入以产生妨害级。所述处理器进一步经配置以控制所述音频装置组合所述语音活动置信级与所述妨害级以产生传输决策级及增益级。
所述设备可进一步包含传输器。当所述传输决策级指示传输时,所述处理器进一步经配置以控制所述音频装置将所述增益级应用于所述音频输入以产生经修改音频输入,及控制所述传输器传输所述经修改音频输入。
所述设备可进一步包含键盘,且除了所述麦克风之外的所述源可为记录键盘按下事件的系统事件日志。
所述设备可进一步包含风扇,且除了所述麦克风之外的所述源可为记录所述风扇的风扇速度的组件活动日志。
所述设备可包含类似于上文关于所述方法论述的细节的细节。
以下详细描述及附图提供各个实施方案的性质及优点的进一步理解。
附图说明
图1是传输控制系统100的框图。
图2是用于音频装置的传输控制的方法200的流程图。
图3是音频装置300的框图。
图4是语音活动检测器400的框图。
具体实施方式
本文中描述用于双耳音频处理的技术。在以下描述中,出于解释的目的,陈述众多实例及特定细节以便提供本发明的详尽理解。然而,对所属领域的技术人员将显而易见的是,由权利要求书所界定的本发明可包含这些实例中的特征的一些或全部(单独或与下文描述的其它特征组合),且可进一步包含本文中描述的特征及概念的修改及等效物。
在以下描述中,详述各种方法、过程及程序。尽管特定步骤可以特定次序进行描述,但此次序主要是为了方便及清楚起见。特定步骤可重复一次以上,可在其它步骤之前或之后发生(即使那些步骤以另一次序另外描述),且可与其它步骤并行发生。仅当第一步骤必须在第二步骤开始之前完成时才要求第二步骤遵循第一步骤。当根据上下文不清楚时,将明确指出此情况。
在此文档中,使用了术语“及”、“或”及“及/或”。应将此类术语理解为具有包含性含义。举例来说,“A及B”可表示至少以下:“A及B两者”、“至少A及B两者”。作为另一实例,“A或B”可表示至少以下:“至少A”、“至少B”、“A及B两者”、“至少A及B两者”。作为另一实例,“A及/或B”可表示至少以下:“A及B”、“A或B”。当打算使用异或时,此将被特别指出(例如,“要么A要么B”、“最多A及B中的一者”)。
此档案使用术语“妨害”。一般来说,术语妨害用于指代不同于系统的期望输入的输入。系统的期望输入将取决于实施例而改变,其也将影响什么被分类为妨害。举例来说,针对通信端点,期望输入通常是语音;妨害是可被错误分类为语音或负面影响语音的其它声音。根据妨害将如何不利地影响期望应用来评判妨害。在电话会议环境中,妨害通常在某人不说话时注入;如果他们至少正尝试说话或作为会议的重要部分,那么即使是妨害声音也是可接受的,且并不是太令人讨厌。电话会议端点处的主要妨害是当某人不说话时漏入的声音。许多系统不会向发出妨害的人给出反馈—实际上,他们是唯一不能听到妨害的人且因此具有讽刺意味的是他们没有意识到自己是妨害。在许多情况中,非所要声音来自沉默的用户—因此来自这种妨害观点。
图1是传输控制系统100的框图。传输控制系统100包含语音活动检测器102、聚合器104及组合器106。传输控制系统100可经实施为音频装置的组件,所述音频装置例如膝上型计算机、通信端点(例如扬声电话)等。音频装置可包含(为了简洁起见)未展示的其它组件。
语音活动检测器102接收音频输入110、对音频输入110执行语音活动检测及产生音频输入110的语音活动置信级112。音频输入110可由音频装置的另一组件(例如麦克风(未展示))捕获。语音活动检测器102将语音活动置信级112提供到组合器106。语音活动置信级112的范围可在0与1之间,其中0指示检测到的语音活动的低(或无)可能性,且1指示检测到的语音活动的高可能性。
聚合器104接收辅助输入114、随着时间的推移聚合辅助输入114及基于已经聚合的辅助输入114产生妨害级116。聚合器104将妨害级116提供到组合器106。
一般来说,辅助输入114对应于来自除了麦克风之外的音频装置的组件的输入。这些其它组件包含传感器以及来自音频装置(除了麦克风之外)的组件的事件日志。因而,辅助输入的数目将取决于音频装置的细节而改变。举例来说,针对包含键盘及风扇的膝上型计算机实施例,辅助输入可包含来自键盘的事件日志(指示电键声)及来自风扇的装置活动日志(例如,含有风扇速度数据)。辅助输入的另外细节在后续段落中提供。
辅助输入114可为多个辅助输入,且聚合器104可聚合多个辅助输入中的每一者。聚合器104可为多个聚合器,其各自聚合多个辅助输入中的相应者。妨害级116可为多个妨害级,其各自对应于多个辅助输入中的相应者。(为了避免使图混乱,仅展示辅助输入114、聚合器104及妨害级116一次,但其可被视为多个元件。)聚合器104可将多个妨害级提供到组合器106作为个别妨害级,或可将其组合成组合妨害级。
组合器106组合语音活动置信级112与妨害级116以产生传输决策级120及增益级122。(传输决策级120及增益级122被提供到音频装置的其它组件以控制其进一步操作。)传输决策级120可为二进制值,其中“0”指示音频输入110将不会被传输,且“1”指示音频输入110将被传输。一般来说,当语音活动置信级112是高且妨害级116是低时,传输决策级120指示音频输入110将被传输。当语音活动置信级112是低且妨害级116是高时,传输决策级120指示音频输入110将不会被传输。
增益级122对应于将应用于音频输入110的增益。一般来说,增益可为正(增大或增强)或负(减小或衰减)。在此,增益级122通常是衰减。与仅使用传输决策级120相比,增益级122实现对音频输入110的传输的更细微的控制。举例来说,当语音活动置信级112既不高也不低时,高妨害级116可导致增益级122是高,且低妨害级116可导致增益级122是低。通过基于输入音频110的语音活动及聚合辅助输入114两者进行操作及通过产生传输决策级120及增益级122两者,组合器106执行比许多现存系统更细微的妨害决策。
这种细微的决策包含数个因素。一个因素是传输控制系统100使用比用于个别妨害事件的检测的时间段更长的时间段。此通过还考虑另一活动的性质、其背景及依据正在进行的会议或跨其它会议参与者的交互性的意义来改进个别妨害事件的分类。并非突然地对个别妨害声音事件采取行动以移除每一者,通过使用此方法,传输控制系统100更加确定地行动,以基于参与者合作交流的程度或为明显的音频妨害的程度(这对于在讲话未进行的情况下出现噪音的情形来说是典型的)删除参与者或使其回到会议。
(应注意,即使当辅助输入114对应于也可由麦克风检测到的事件(例如,声音也很大的键盘按下事件),聚合也意味着个别按键按下事件不会从音频输入110直接移除,许多现存系统中的情况就是如此。)
组合器106还可基于远端活动级130产生传输决策级120及增益级122。远端活动级130可为二进制值,其中“1”指示远端活动,且“0”指示无远端活动;或远端活动级130的范围可在0与1之间。远端活动级130可基于来源于远端的活动、信号或特征。举例来说,考虑在传入信号或远端活动上存在重要信号。在此类情况中,特定来说,如果不存在对自然会话或语音交互期望的模式或相关联关系,那么本地端点处的活动更有可能表示妨害。举例来说,语音起始应在来自远端的活动结束之后或活动接近结束时发生。在其中远端活动级130指示显著且连续语音活动的情况下发生的短突发可指示妨害条件。
组合器106如何组合语音活动置信级112、妨害级116与远端活动级130的特定细节可取决于包含传输控制系统100的音频装置的特定实施例而改变;这些特定细节在后续段落中阐述。简而言之,组合器106确定传输的整体决策(传输决策级120),且另外在每一块处输出将应用到传出音频的增益(增益级122)。存在所述增益以实现两个功能中的一或多者。第一功能是实现自然语音分句,其中信号在经识别语音片段之前及之后返回到静音。此涉及渐显程度(通常大约20到100ms)及渐消程度(通常大约100到2000ms)。在一个实施例中,10ms的渐显(或单阻塞)及300ms的渐消可为有效的。第二功能是减小在妨害条件中发生的经传输帧的影响,其中由于最近积累的统计而有可能的是,语音帧起始检测与未出声的非稳定噪声事件或其它干扰相关联。
图2是用于音频装置的传输控制的方法200的流程图。方法200可由传输控制系统100(参见图1)执行,或由包含传输控制系统100的音频装置执行。方法200可由执行对应于方法步骤中的一或多者的一或多个计算机程序的处理器实施以控制传输控制系统100的操作。
在202,使用麦克风接收音频输入。作为实例,扬声电话包含麦克风且使用所述麦克风接收对应于附近声音的音频输入。
在204,使用除了麦克风之外的源接收辅助输入。如上文论述,辅助输入可为来自除了麦克风的多个源的多个辅助输入。作为实例,膝上型计算机可包含键盘,且源是记录按键按下的事件日志;辅助输入114是按键按下。作为另一实例,膝上型计算机还可包含风扇,且第二源是记录风扇的操作参数的装置活动日志;第二辅助输入114是风扇速度。
在206,对音频输入执行语音活动检测以产生语音活动置信级。举例来说,语音活动检测器102(参见图1)可对音频输入110执行语音活动检测以产生语音活动置信级112。
在208,随着时间的推移聚合辅助输入以产生妨害级。举例来说,聚合器104(参见图1)可随着时间的推移聚合辅助输入114以产生妨害级116。如上文提及,辅助输入可为多个辅助输入,且妨害级116可为多个妨害级。
在210,组合语音活动置信级与妨害级以产生传输决策级及增益级。举例来说,组合器106(参见图1)可组合语音活动置信级112与妨害级116以产生传输决策级120及增益级122。
作为另一选项,远端活动级可与语音活动置信级及妨害级组合以产生传输决策级及增益级。举例来说,组合器106(参见图1)可接收远端活动级130,且可在其组合过程中包含远端活动级130以产生传输决策级120及增益级122。
当传输决策级不指示传输(例如,其是0)时,方法返回到202。当传输决策级指示传输(例如,其是1)时,方法继续到212及214。作为实例,音频装置可从传输控制系统100接收传输决策级120(参见图1)。
在212,将增益级应用于音频输入以产生经修改音频输入。作为实例,音频装置(包含图1的传输控制系统100)可将增益级122应用于音频输入110以产生经修改音频输入。
在214,传输经修改音频输入。作为实例,音频装置(包含图1的传输控制系统100)可传输经修改音频输入。
通过聚合辅助输入(或多个辅助输入)以随着时间的推移测量妨害,及通过产生增益且将增益(基于随着时间的推移的妨害)应用于音频输入,实施例实施更细微的传输控制过程。
图3是音频装置300的框图。音频装置300可实施传输控制系统100(参见图1),或可执行方法200(参见图2)的步骤中的一或多者。音频装置300的实例包含通信端点(例如扬声电话)、膝上型计算机、移动电话、具有扬声器及麦克风的耳机、具有扬声器及麦克风的听筒等。音频装置300包含通过总线314连接的处理器302、存储器304、输入/输出接口306、扩音器308、麦克风310及辅助组件312。音频装置300可包含(为了简洁起见)未展示的其它组件。
处理器302通常控制音频装置300的操作。处理器302可实施传输控制系统100(参见图1)的功能性。举例来说,处理器可执行语音活动检测器102(参见图1)的语音活动检测功能、聚合器104的聚合功能及组合器106的组合功能。处理器302可控制音频装置300执行方法200(参见图2)的一或多个步骤,例如通过执行一或多个计算机程序。
存储器304通常存储由音频装置300产生及使用的数据。此数据可包含由处理器302执行的计算机程序、对应于音频装置300的输入及输出信号的数据(例如音频输入110)、在音频装置300的操作期间产生的数据(例如辅助输入114)、由音频装置300产生的中间数据(例如语音活动置信级112、妨害级116、传输决策级120及增益级122)等。
输入/输出接口306通常将音频装置300介接到其它装置及在音频装置300与其它装置之间交换信号。举例来说,输入/输出接口306接收远端活动级130,且传输经修改音频输入320。举例来说,当音频装置300是通信端点(例如扬声电话)时,远端活动级130从一或多个远程通信端点接收;且经修改音频输入320对应于通过增益122修改以由一或多个远程通信端点输出的音频输入110。输入/输出接口306还可与其它装置交换其它信号;举例来说,其它装置可传输其已捕获到的音频信号,以供音频装置300从扩音器308输出。输入/输出接口306可包含有线或无线传输器。
扩音器308通常输出音频装置300的音频输出322。举例来说,当音频装置300是通信端点时,音频输出322包含经由输入/输出接口306从远程通信端点接收的音频信号。作为另一实例,当音频装置300是耳机时,音频输出322包含对应于经修改音频输入320的侧音(由于侧音帮助用户察觉到连接是活动的)。
麦克风310通常捕获音频装置300附近的音频,包含音频输入110。
辅助组件312通常产生辅助输入114。如上文论述,辅助组件312可为传感器或音频装置300的另一组件。辅助输入114可为辅助输入114的操作的结果(例如,针对组件),或可为辅助组件的输出本身(例如,针对传感器)。举例来说,当辅助组件312是键盘时,辅助输入114对应于按键按下数据(其可由存储器304存储于日志中)。作为另一实例,当辅助组件312是振动传感器时,辅助输入114对应于音频装置300的振动的传感器数据(其可由存储器304存储于日志中)。
尽管在图3中仅展示了音频装置300的每一组件中的一者,但此描述主要是为了便于说明。音频装置300的组件的数目可根据需要根据实施例的形状因子进行调整。举例来说,辅助组件312可为多个辅助组件,例如键盘、风扇及加速度计。
音频装置的组件的布置可根据需要根据实施例的形状因子进行调整。举例来说,音频装置300可包含两个装置,例如移动电话及耳机。
图4是语音活动检测器400的框图。所述语音活动检测器可在实施例中用作语音活动检测器102(参见图1)。在其它实施例中,语音活动检测器102的细节可不同于图4中展示的细节;关注的焦点是语音活动检测器102产生语音活动置信级112,此可以不同于图4中展示的方式的方式完成。然而,图4中展示的细节提供语音活动置信级112的稳健结果。一般来说,语音活动检测器400使用特征的聚合及跨较大间隔(数个块或帧或在线平均)的根据这些特征的额外统计创建,及应用使用这些特征的规则来指示语音的存在(带有一些延时)。语音活动检测器400包含变换及带块401、调和性块402、光谱通量块403、噪声模型块404、能量特征块405、其它特征块406、聚合块408及语音检测块409。
变换及带块401使用基于频率的变换及一组在感知上间隔的带来表示音频输入110的信号频谱功率。语音的变换子带的初始块大小或取样是例如在8到160ms的范围内,其中20ms的值在一个特定实施例中有用。
调和性块402从音频输入110提取调和性特征,且将所提取的调和性特征提供到聚合块408。光谱通量块403从音频输入110提取光谱通量特征,及将所提取的光谱通量特征提供到聚合块408。
噪声模型块404聚合音频输入110的较长期特征,然而,此并不直接使用。而是,将带中的瞬时光谱与噪声模型进行比较以创建提供到聚合块408的能量测度。
能量特征块405从音频输入110提取能量特征,及将所提取的能量特征提供到聚合块408。
其它特征块406提取除了由其它块处理的特征之外的一些特征。这些其它特征可基于特定实施例或其它设计准则进行选择。其它特征的实例包含音频输入110的归一化光谱及音频输入110的绝对能量。
聚合块408收集、过滤或聚合来自与单个块相关联的短特征的数据以创建接着被再次用作到额外经训练或经调谐规则的特征的一组特征及统计。在实例中,聚合块408堆叠数据及均值及方差。替代地,聚合块408可使用在线统计(例如均值与方差的无限脉冲响应IIR)。
语音检测块409创建关于跨较大的音频输入区域存在语音的延迟决策以产生语音活动置信级112。帧的实例大小或统计的时间常数是大约240ms,其中100到2000ms的范围内的值是可适用的。此输出用于基于初始起始之后语音的存在或缺失来控制音频帧的延续或完成。语音检测块409比起始规则更特定且敏感,这是因为其在聚合特征及统计中被提供了延时及额外信息。
语音活动检测器400的细节可另外如第2015/0032446的美国申请公开案中描述。
辅助组件及辅助输入
如上文论述(关于图1的辅助输入114、图2的步骤204、图3的辅助组件312等),可存在可产生数种类型的辅助输入的数种类型的辅助组件。这些辅助输入不同于音频输入110(例如,不同之处在于其不能被麦克风直接捕获),但仍可促成或指示妨害。辅助输入可经存储于一或多个事件日志中。辅助输入可包含振动数据、系统事件数据、加速度数据、组件活动数据及次级装置数据。
振动数据对应于由振动传感器产生的数据。举例来说,当辅助组件312(参见图3)是振动传感器时,振动数据对应于音频装置300的振动。一般来说,振动对应于不同于由语音引起的振动的机械振动,且因此不同于由麦克风捕获到的信号。举例来说,如果音频装置300在桌子上且有人敲击桌面,那么此机械振动被振动传感器感测到。振动传感器可为压电传感器。
系统事件数据对应于与音频装置300的组件的操作有关的事件。举例来说,针对包含键盘的膝上型计算机,系统事件数据对应于键盘按下事件,例如,如由键盘驱动器系统或系统基本输入/输出操作系统(BIOS)捕获。类似地,针对鼠标,系统事件数据对应于鼠标点击事件。应注意,尽管系统事件的结果还可由麦克风检测(例如,当键入声音很大时),但正被聚合的系统事件数据并非来源于麦克风。
加速数据对应于由加速度计产生的数据。作为实例,如果音频装置300处于剧烈运动中,那么此可更加指示妨害状态(例如风噪声等)而非语音传输状态。类似地,如果音频装置300掉落在地板上,那么加速数据将更加指示妨害状态而非语音传输状态。
组件活动数据对应于可产生妨害的音频装置300的组件的活动数据。一个实例是风扇,对于所述风扇,组件活动数据指示例如风扇速度的活动。另一实例是硬盘驱动器,针对所述硬盘驱动器,组件活动数据指示例如驱动器是否正在自旋、是否正在执行数据存取等的活动。类似于系统事件数据,组件活动数据可由组件驱动器或系统BIOS捕获。
次级装置数据对应于与音频装置300分离但与音频装置300有关的组件的活动。举例来说,膝上型计算机(音频装置300)可经连接到投影仪以用于投影膝上型计算机的屏幕;投影仪在其操作期间通常运行风扇,所以次级装置数据可指示投影仪被连接或投影仪的风扇是活动的。作为另一实例,通信端点(音频装置300)可经连接到键盘;次级装置数据可指示键盘被连接或键盘按下事件正在发生(类似于系统事件数据)。
聚合及组合
如上文论述(例如,关于图1的聚合器104、图2的步骤208等),随着时间的推移聚合辅助输入114以产生妨害级116。组合器106(参见图1)可与聚合器104一起工作以执行聚合。聚合的参数通常包含递增量、递减量及延迟时间。妨害级116的聚合还可基于额外参数,例如突发谈话是否已经结束。这些参数的值通常根据辅助输入及音频装置中的特定者进行配置,且可根据需要进行调整。
举例来说,妨害级116的范围可在最小值与最大值之间。妨害级116以最小值开始。辅助输入114中存在的每一事件按递增量来增加妨害级116(但不高于最大值)。在延迟时间的每一间隔之后,妨害级116按递减量减小(但不低于最小值)。
当辅助输入114对应于键盘按下时的特定实例如下。妨害级116的范围可在0与1之间,可针对每一键盘按下事件(如由辅助输入114提供)按0.2进行递增,且可以10秒的时间常数延迟。另外,在具有高语音活动级(例如,由语音活动置信级112大于60%指示)的突发谈话结束时,延迟时间(延迟常数)缩短到1秒。
当辅助输入114对应于振动时的另一特定实例如下。妨害级116的范围可在0与1之间,可在每一次振动测量(如由辅助输入114提供)超过经定义阈值时按0.1进行递增,且可以10秒的时间常数延迟。
当辅助输入114对应于加速时的另一特定实例如下。妨害级116的范围可在0与1之间,可在每一次加速测量(如由辅助输入114提供)超过经定义阈值时按0.1进行递增,且可以10秒的时间常数延迟。
当辅助输入114对应于风扇速度时的另一特定实例如下。妨害级116的范围可在0与1之间;低于第一阈值的风扇速度值(如由辅助输入114提供)对应于0,高于第二阈值的风扇速度值对应于1,且在第一阈值与第二阈值之间的风扇速度值线性映射于0与1之间。
如上文提及,辅助输入114(参见图1)可为数个辅助输入中的一者。举例来说,辅助组件312(参见图3)可为各自产生对应辅助输入114的数个辅助组件中的一者。聚合器104可关于多个辅助输入实施数个选项中的一或多者。一个选项是聚合器104可将多个辅助输入聚合成其提供到组合器106的对应多个妨害级。另一选项是聚合器104可将多个妨害级中的一或多者组合成其提供到组合器106的组合妨害级。举例来说,如果聚合器104接收第一辅助输入及第二辅助输入及产生第一妨害级及第二妨害及,那么聚合器可线性地组合第一妨害级与第二妨害级以产生组合妨害级。另一选项是聚合器104提供多个妨害级的最大妨害级作为妨害级116。
如上文论述,组合器106(参见图1)组合语音活动置信级112与妨害级116以产生传输决策级120及增益级122。举例来说,当语音活动置信级112是高(例如,高于80%)且妨害级116是低(例如,低于20%[当范围是0到1时,是0.2])时,传输决策级120指示音频输入110将被传输。当语音活动置信级112是低(例如,低于20%)且妨害级116是高(例如,高于80%)时,传输决策级120指示音频输入110将不会被传输。当语音活动置信级112既不高也不低时,组合器106组合语音活动置信级112与妨害级116以产生增益级122。一般来说,给定语音活动置信级112,增益级122根据妨害级116随着时间的推移的聚合进行计算。
一个选项是使组合器106执行语音活动置信级112与妨害级116的线性组合。举例来说,当语音活动置信级112是50%且妨害级是20%时,增益级122可为40%。(40%的增益意味着经修改音频输入320的级是音频输入110的级的40%)。作为另一实例,当语音活动置信级112是50%且妨害级是80%时,增益级122可为10%。在这些实例中,增益级被计算为语音活动置信级乘以100%的剩余者减去妨害级。
当妨害级116是多个妨害级(例如,由来自多个辅助源的事件的聚合产生)时,组合器106首先可将多个妨害级组合成组合妨害级(使用线性组合、最大值等)及接着执行组合妨害级与语音活动置信级112的线性组合。
如上文论述,组合器106在产生语音活动置信级112及妨害级116时还可考虑远端活动级130。根据实施例,远端活动级130可为二进制值。当远端活动级130是高时,组合器106可将减小(例如,20%)应用到语音活动置信级112及妨害级116。当远端活动级130是低时,组合器106可正常组合语音活动置信级112与妨害级116。
根据另一实施例,远端活动级130的范围可在0与1之间。当远端活动级130是低(例如,低于0.2)时,组合器106可关于“0”二进制值如上文描述那样操作。当远端活动级130是高(例如,高于0.8)时,组合器106可关于“1”二进制值如上文描述那样操作。当远端活动级130既不低也不高时(例如,在0.2与0.8之间),组合器106可将线性减小(例如,当远端活动级130处于0.8时,达到20%的最大值)应用到语音活动置信级112及妨害级116。
实例实施例
一个实例实施例是用于电话会议环境中的膝上型计算机。膝上型计算机具有风扇及键盘作为其辅助组件312(参见图3)。聚合器104(参见图1)将来自风扇的辅助输入114聚合成在范围[0,1]内的第一妨害级,将来自键盘的辅助输入114聚合成在范围[0,1]内的第二妨害级及将两者的线性组合作为妨害级116提供到组合器106。
另一实例实施例是电话会议端点,例如扬声电话。扬声电话具有加速度计及振动传感器作为其辅助组件312(参见图3)。聚合器104(参见图1)将来自加速度计的辅助输入114聚合成在范围[0,1]内的第一妨害级,将来自振动传感器的辅助输入114聚合成在范围[0,1]内的第二妨害级及将两者的最大值作为妨害级116提供到组合器106。
实施方案细节
实施例可经实施于硬件、存储在计算机可读媒体上的可执行模块、或两者的组合(例如,可编程逻辑阵列)中。除非另外指定,否则由实施例执行的步骤无需固有地与任何特定计算机或另一设备有关,尽管在特定实施例中,由实施例执行的步骤可能固有地与任何特定计算机或另一设备有关。特定来说,各种通用机器可结合根据本文中的教示写入的程序使用,或构造更专门的设备(例如集成电路)来执行所需方法步骤可能是更方便的。因此,实施例可经实施于在各自包括至少一个处理器、至少一个数据存储系统(包含易失性及非易失性存储器及/或存储元件)、至少一个输入装置或端口及至少一个输出装置或端口的一或多个可编程计算机系统上执行的一或多个计算机程序中。程序代码经应用到输入数据以执行本文中描述的功能及产生输出信息。输出信息以已知方式应用到一或多个输出装置。
每一此计算机程序优选地存储在或下载到可由通用或专用可编程计算机读取的存储媒体或装置(例如固态存储器或媒体、或磁性或光学媒体)上以在存储媒体或装置被计算机系统读取以执行本文中描述的程序时配置及操作计算机。本发明的系统还可被认为是经实施为计算机可读存储媒体、配置有计算机程序,其中如此配置的存储媒体致使计算机系统以特定且优选的方式操作以执行本文中描述的功能。(软件本身及无形或暂时性信号在其为不能取得专利的标的物的意义上被排除在外。)
上文描述说明本发明的各个实施例以及本发明的方面可如何实施的实例。不应将上文实例及实施例认为是唯一实施例,且其经呈现以说明由所附权利要求书所界定的本发明的灵活性及优点。基于上文揭示内容及所附权利要求书,对于所属领域的技术人员来说,在不脱离由权利要求书所界定的本发明的精神及范围的情况下其它布置、实施例、实施方案及等效物将是显而易见的且可被采用。
从以下列举的实例实施例(EEE)可了解本发明的各个方面。
1.一种用于音频装置的传输控制的方法,所述方法包括:
使用麦克风接收音频输入;
使用除了所述麦克风之外的源接收辅助输入;
对所述音频输入执行语音活动检测以产生语音活动置信级;
随着时间的推移聚合所述辅助输入以产生妨害级;及
组合所述语音活动置信级与所述妨害级以产生传输决策级及增益级。
2.根据EEE 1所述的方法,其进一步包括,当所述传输决策级指示传输时:
将所述增益级应用于所述音频输入以产生经修改音频输入;及
传输所述经修改音频输入。
3.根据EEE 1到2中任一EEE所述的方法,其中所述辅助输入是多个辅助输入,且其中除了所述麦克风之外的所述源是除了所述麦克风之外的多个源。
4.根据EEE 1到3中任一EEE所述的方法,其中除了所述麦克风之外的所述源是振动传感器、系统事件日志、加速度计、组件活动日志及二次输入日志中的一者。
5.根据EEE 4所述的方法,其中所述系统事件日志记录键盘按下事件及鼠标点击事件。
6.根据EEE 4所述的方法,其中所述音频装置包含风扇,且其中所述组件活动日志记录所述风扇的风扇速度。
7.根据EEE 4所述的方法,其中所述二次输入日志记录与连接到所述音频装置的经连接装置有关的信息。
8.根据EEE 1到7中任一EEE所述的方法,其中组合所述语音活动置信级与所述妨害级包含:
组合所述语音活动置信级、所述妨害级与远端活动级以产生所述传输决策级及所述增益级。
9.根据EEE 1到8中任一EEE所述的方法,其中所述增益级是所述语音活动置信级与所述妨害级的线性组合。
10.根据EEE 1到9中任一EEE所述的方法,其中所述妨害级是多个妨害级。
11.根据EEE 10所述的方法,其中所述增益级是所述语音活动置信级与所述多个妨害级的线性组合。
12.一种非暂时性计算机可读媒体,其存储当由处理器执行时控制设备执行包含根据EEE 1到11中任一EEE所述的方法的处理的计算机程序。
13.一种用于音频装置的传输控制的设备,所述设备包括:
麦克风;
除了所述麦克风之外的源;
处理器;及
存储器,
其中所述处理器经配置以控制所述音频装置使用所述麦克风接收音频输入,
其中所述处理器经配置以控制所述音频装置使用除了所述麦克风之外的所述源接收辅助输入,
其中所述处理器经配置以控制所述音频装置对所述音频输入执行语音活动检测以产生语音活动置信级,
其中所述处理器经配置以控制所述音频装置随着时间的推移聚合所述辅助输入以产生妨害级,且
其中所述处理器经配置以控制所述音频装置组合所述语音活动置信级与所述妨害级以产生传输决策级及增益级。
14.根据EEE 13所述的设备,其进一步包括传输器,其中当所述传输决策级指示传输时:
所述处理器经配置以控制所述音频装置将所述增益级应用于所述音频输入以产生经修改音频输入;且
所述处理器经配置以控制所述传输器传输所述经修改音频输入。
15.根据EEE 13到14中任一EEE所述的设备,其进一步包括:
除了所述麦克风之外的多个源,其中除了所述麦克风之外的所述多个源包含除了所述麦克风之外的所述源,且
其中所述辅助输入是多个辅助输入。
16.根据EEE 13到15中任一EEE所述的设备,其中除了所述麦克风之外的所述源是振动传感器、系统事件日志、加速度计、组件活动日志及二次输入日志中的一者。
17.根据EEE 13到16中任一EEE所述的设备,其进一步包括:
键盘,其中除了所述麦克风之外的所述源是记录键盘按下事件的系统事件日志。
18.根据EEE 13到17中任一EEE所述的设备,其进一步包括:
风扇,其中除了所述麦克风之外的所述源是记录所述风扇的风扇速度的组件活动日志。
19.根据EEE 13到18中任一EEE所述的设备,其中所述处理器进一步经配置以控制所述音频装置组合所述语音活动置信级、所述妨害级与远端活动级以产生所述传输决策级及所述增益级。
20.根据EEE 13到19中任一EEE所述的设备,其中所述增益级是所述语音活动置信级与所述妨害级的线性组合。
Claims (20)
1.一种用于音频装置的传输控制的方法,所述方法包括:
使用麦克风接收音频输入;
使用除了所述麦克风之外的源接收辅助输入,其中除了所述麦克风之外的所述源是系统事件日志、组件活动日志及二次输入日志中的一或多者;
对所述音频输入执行语音活动检测以产生语音活动置信级;
检测所述辅助输入中存在的个别妨害事件;
随着时间的推移聚合所述妨害事件以产生妨害级;及
组合所述语音活动置信级与所述妨害级以产生传输决策级及增益级。
2.根据权利要求1所述的方法,其进一步包括,当所述传输决策级指示传输时:
将所述增益级应用于所述音频输入以产生经修改音频输入;及
传输所述经修改音频输入。
3.根据权利要求1到2中任一权利要求所述的方法,其中所述辅助输入是多个辅助输入,且其中除了所述麦克风之外的所述源是除了所述麦克风之外的多个源。
4.根据权利要求1到2中任一权利要求所述的方法,其中除了所述麦克风之外的所述源是振动传感器及加速度计中的一者。
5.根据权利要求1所述的方法,其中所述系统事件日志记录键盘按下事件及鼠标点击事件。
6.根据权利要求1所述的方法,其中所述音频装置包含风扇,且其中所述组件活动日志记录所述风扇的风扇速度。
7.根据权利要求1所述的方法,其中所述二次输入日志记录与连接到所述音频装置的经连接装置有关的信息。
8.根据权利要求1到2中任一权利要求所述的方法,其中组合所述语音活动置信级与所述妨害级包含:
组合所述语音活动置信级、所述妨害级与远端活动级以产生所述传输决策级及所述增益级。
9.根据权利要求1到2中任一权利要求所述的方法,其中所述增益级是所述语音活动置信级与所述妨害级的线性组合。
10.根据权利要求1到2中任一权利要求所述的方法,其中所述妨害级是多个妨害级。
11.根据权利要求10所述的方法,其中所述增益级是所述语音活动置信级与所述多个妨害级的线性组合。
12.一种非暂时性计算机可读媒体,其存储当由处理器执行时控制设备执行包含根据权利要求1到11中任一权利要求所述的方法的处理的计算机程序。
13.一种用于音频装置的传输控制的设备,所述设备包括:
麦克风;
除了所述麦克风之外的源,其中除了所述麦克风之外的所述源是系统事件日志、组件活动日志及二次输入日志中的一或多者;
处理器;及
存储器,
其中所述处理器经配置以控制所述音频装置使用所述麦克风接收音频输入,
其中所述处理器经配置以控制所述音频装置使用除了所述麦克风之外的所述源接收辅助输入,
其中所述处理器经配置以控制所述音频装置对所述音频输入执行语音活动检测以产生语音活动置信级,
其中所述处理器经配置以控制所述音频装置检测所述辅助输入中存在的个别妨害事件,
其中所述处理器经配置以控制所述音频装置随着时间的推移聚合所述妨害事件以产生妨害级,且
其中所述处理器经配置以控制所述音频装置组合所述语音活动置信级与所述妨害级以产生传输决策级及增益级。
14.根据权利要求13所述的设备,其进一步包括传输器,其中当所述传输决策级指示传输时:
所述处理器经配置以控制所述音频装置将所述增益级应用于所述音频输入以产生经修改音频输入;且
所述处理器经配置以控制所述传输器传输所述经修改音频输入。
15.根据权利要求13到14中任一权利要求所述的设备,其进一步包括:
除了所述麦克风之外的多个源,其中除了所述麦克风之外的所述多个源包含除了所述麦克风之外的所述源,且
其中所述辅助输入是多个辅助输入。
16.根据权利要求13到14中任一权利要求所述的设备,其中除了所述麦克风之外的所述源是振动传感器及加速度计中的一者。
17.根据权利要求13到14中任一权利要求所述的设备,其进一步包括:
键盘,其中除了所述麦克风之外的所述源是记录键盘按下事件的系统事件日志。
18.根据权利要求13到14中任一权利要求所述的设备,其进一步包括:
风扇,其中除了所述麦克风之外的所述源是记录所述风扇的风扇速度的组件活动日志。
19.根据权利要求13到14中任一权利要求所述的设备,其中所述处理器进一步经配置以控制所述音频装置组合所述语音活动置信级、所述妨害级与远端活动级以产生所述传输决策级及所述增益级。
20.根据权利要求13到14中任一权利要求所述的设备,其中所述增益级是所述语音活动置信级与所述妨害级的线性组合。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862697010P | 2018-07-12 | 2018-07-12 | |
EP18183034 | 2018-07-12 | ||
EP18183034.0 | 2018-07-12 | ||
US62/697,010 | 2018-07-12 | ||
PCT/US2019/041219 WO2020014371A1 (en) | 2018-07-12 | 2019-07-10 | Transmission control for audio device using auxiliary signals |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112384975A CN112384975A (zh) | 2021-02-19 |
CN112384975B true CN112384975B (zh) | 2024-08-02 |
Family
ID=67390127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980046124.4A Active CN112384975B (zh) | 2018-07-12 | 2019-07-10 | 使用辅助信号的音频装置的传输控制 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11500610B2 (zh) |
EP (1) | EP3821429B1 (zh) |
JP (1) | JP6942282B2 (zh) |
KR (1) | KR102466293B1 (zh) |
CN (1) | CN112384975B (zh) |
WO (1) | WO2020014371A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11557307B2 (en) * | 2019-10-20 | 2023-01-17 | Listen AS | User voice control system |
EP4322556A4 (en) | 2021-05-31 | 2024-10-09 | Samsung Electronics Co Ltd | ELECTRONIC DEVICE COMPRISING AN INTEGRATED INERTIAL SENSOR AND METHOD OF OPERATING THE SAME |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102770909A (zh) * | 2010-02-24 | 2012-11-07 | 高通股份有限公司 | 基于多个话音活动检测器的话音活动检测 |
CN103325386A (zh) * | 2012-03-23 | 2013-09-25 | 杜比实验室特许公司 | 用于信号传输控制的方法和系统 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7447630B2 (en) | 2003-11-26 | 2008-11-04 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
US7464029B2 (en) | 2005-07-22 | 2008-12-09 | Qualcomm Incorporated | Robust separation of speech signals in a noisy environment |
US8041026B1 (en) * | 2006-02-07 | 2011-10-18 | Avaya Inc. | Event driven noise cancellation |
US8954324B2 (en) * | 2007-09-28 | 2015-02-10 | Qualcomm Incorporated | Multiple microphone voice activity detector |
US8630685B2 (en) * | 2008-07-16 | 2014-01-14 | Qualcomm Incorporated | Method and apparatus for providing sidetone feedback notification to a user of a communication device with multiple microphones |
WO2010054373A2 (en) * | 2008-11-10 | 2010-05-14 | Google Inc. | Multisensory speech detection |
US8213635B2 (en) | 2008-12-05 | 2012-07-03 | Microsoft Corporation | Keystroke sound suppression |
EP2567377A4 (en) * | 2010-05-03 | 2016-10-12 | Aliphcom | WIND REMOVAL / REPLACEMENT COMPONENT FOR USE WITH ELECTRONIC SYSTEMS |
CA2804638A1 (en) * | 2010-07-15 | 2012-01-19 | Aliph, Inc. | Wireless conference call telephone |
EP2437517B1 (en) * | 2010-09-30 | 2014-04-02 | Nxp B.V. | Sound scene manipulation |
CN102300140B (zh) | 2011-08-10 | 2013-12-18 | 歌尔声学股份有限公司 | 一种通信耳机的语音增强方法及降噪通信耳机 |
GB201120392D0 (en) * | 2011-11-25 | 2012-01-11 | Skype Ltd | Processing signals |
US9521263B2 (en) | 2012-09-17 | 2016-12-13 | Dolby Laboratories Licensing Corporation | Long term monitoring of transmission and voice activity patterns for regulating gain control |
US9363596B2 (en) | 2013-03-15 | 2016-06-07 | Apple Inc. | System and method of mixing accelerometer and microphone signals to improve voice quality in a mobile device |
US8880119B1 (en) * | 2013-05-16 | 2014-11-04 | Michael P. Naghdi | Tracking system |
US9332368B1 (en) | 2013-07-08 | 2016-05-03 | Google Inc. | Accelerometer or transducer on a device |
EP3042376A1 (en) | 2013-09-04 | 2016-07-13 | Qualcomm Incorporated | Apparatus and method for acquiring configuration data |
WO2015130508A2 (en) | 2014-02-28 | 2015-09-03 | Dolby Laboratories Licensing Corporation | Perceptually continuous mixing in a teleconference |
KR101551666B1 (ko) | 2015-03-30 | 2015-09-09 | 주식회사 더열림 | 노이즈의 프로파일화 및 그 적용이 가능한 보청기, 이를 이용한 노이즈 적용 보청기시스템 |
KR101704926B1 (ko) | 2015-10-23 | 2017-02-23 | 한양대학교 산학협력단 | 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법 |
US10924872B2 (en) | 2016-02-23 | 2021-02-16 | Dolby Laboratories Licensing Corporation | Auxiliary signal for detecting microphone impairment |
EP3373603B1 (en) * | 2017-03-09 | 2020-07-08 | Oticon A/s | A hearing device comprising a wireless receiver of sound |
EP3675517B1 (en) * | 2018-12-31 | 2021-10-20 | GN Audio A/S | Microphone apparatus and headset |
-
2019
- 2019-07-10 WO PCT/US2019/041219 patent/WO2020014371A1/en active Search and Examination
- 2019-07-10 KR KR1020217004294A patent/KR102466293B1/ko active IP Right Grant
- 2019-07-10 JP JP2021500205A patent/JP6942282B2/ja active Active
- 2019-07-10 EP EP19742509.3A patent/EP3821429B1/en active Active
- 2019-07-10 US US17/259,543 patent/US11500610B2/en active Active
- 2019-07-10 CN CN201980046124.4A patent/CN112384975B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102770909A (zh) * | 2010-02-24 | 2012-11-07 | 高通股份有限公司 | 基于多个话音活动检测器的话音活动检测 |
CN103325386A (zh) * | 2012-03-23 | 2013-09-25 | 杜比实验室特许公司 | 用于信号传输控制的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2020014371A1 (en) | 2020-01-16 |
US11500610B2 (en) | 2022-11-15 |
KR20210029816A (ko) | 2021-03-16 |
JP2021524697A (ja) | 2021-09-13 |
JP6942282B2 (ja) | 2021-09-29 |
US20210232360A1 (en) | 2021-07-29 |
KR102466293B1 (ko) | 2022-11-14 |
EP3821429A1 (en) | 2021-05-19 |
EP3821429B1 (en) | 2022-09-14 |
CN112384975A (zh) | 2021-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10553235B2 (en) | Transparent near-end user control over far-end speech enhancement processing | |
US8630685B2 (en) | Method and apparatus for providing sidetone feedback notification to a user of a communication device with multiple microphones | |
EP1949552B1 (en) | Configuration of echo cancellation | |
US20190066710A1 (en) | Transparent near-end user control over far-end speech enhancement processing | |
CN111149370B (zh) | 会议系统中的啸叫检测 | |
US9100756B2 (en) | Microphone occlusion detector | |
US20050018862A1 (en) | Digital signal processing system and method for a telephony interface apparatus | |
EP1667416A2 (en) | Reverberation estimation and suppression system | |
CN102804260A (zh) | 声音信号处理装置以及声音信号处理方法 | |
EP2896126B1 (en) | Long term monitoring of transmission and voice activity patterns for regulating gain control | |
JP2008507926A (ja) | 雑音環境内で音声信号を分離するためのヘッドセット | |
CN101207663A (zh) | 网络通信装置及消除网络通信装置的噪音的方法 | |
EP2449754A1 (en) | Apparatus, method and computer program for controlling an acoustic signal | |
WO2000072565A1 (en) | Enhancement of near-end voice signals in an echo suppression system | |
CN112384975B (zh) | 使用辅助信号的音频装置的传输控制 | |
EP2700161A2 (en) | Processing audio signals | |
CN109040473B (zh) | 终端音量调节方法、系统和手机 | |
US11694708B2 (en) | Audio device and method of audio processing with improved talker discrimination | |
EP3830823A1 (en) | Forced gap insertion for pervasive listening | |
US11804221B2 (en) | Audio device and method of audio processing with improved talker discrimination | |
JPH0337699A (ja) | 騒音抑圧回路 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |