CN116453497A - 智能网络通讯的杂讯消减方法 - Google Patents
智能网络通讯的杂讯消减方法 Download PDFInfo
- Publication number
- CN116453497A CN116453497A CN202210689755.1A CN202210689755A CN116453497A CN 116453497 A CN116453497 A CN 116453497A CN 202210689755 A CN202210689755 A CN 202210689755A CN 116453497 A CN116453497 A CN 116453497A
- Authority
- CN
- China
- Prior art keywords
- voice
- communication device
- local
- unit
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004891 communication Methods 0.000 title claims abstract description 114
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000009467 reduction Effects 0.000 title claims abstract description 24
- 238000001914 filtration Methods 0.000 claims abstract description 31
- 230000005540 biological transmission Effects 0.000 claims description 40
- 230000007613 environmental effect Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 10
- 230000005236 sound signal Effects 0.000 description 17
- 238000001228 spectrum Methods 0.000 description 16
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000005484 gravity Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000008030 elimination Effects 0.000 description 4
- 238000003379 elimination reaction Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 239000000306 component Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 239000008358 core component Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/178—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/178—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
- G10K11/1781—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/178—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
- G10K11/1781—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
- G10K11/17821—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/002—Applications of echo suppressors or cancellers in telephonic connections
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
- H04M3/569—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants using the instant speaker's algorithm
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提出一种智能网络通讯的杂讯消减方法,包括底下步骤:首先,通过一发话端的通讯装置的收音单元接收一本地的声音讯息;之后,通过一语音辨识单元以辨识发话者的声音特性;随之,从一语音资料库之中确定,是否有语音辨识单元所辨识的对应的或近似的发话者的声音特性;以及,通过一语音过滤单元滤除发话者的声音特性讯号之外的讯号,以取得原来的发话者发出的声音。
Description
技术领域
本发明关于噪音消减,特别指一种智能网络通讯的杂讯消减方法。
背景技术
传统的环境噪音消除技术多用于电话通信或者是耳机,这些技术的主要目的是防止环境背景噪音对通信质量或耳机音质的影响。目前基于语音互动的智能设备使用的常见环境噪音消除技术多来自传统电话通信的已有技术,这些技术有频谱相减法、维纳滤波法、自适应噪音抵消法。
频谱相减法是一种用语音段幅值均值减去无语音段间隙取得噪音均值,然后利用噪音均值做噪音消除的方法;此方法对非稳态噪音有较差的效果,容易造成噪音消除后的语音失真,从而导致语音识别率下降。
维纳滤波法则是利用维纳滤波器的传递函数,将噪音幅值均值与语音段幅值进行卷积,得到噪音消除后讯号的幅值资讯。维纳滤波法不会造成较严重的语音失真,并且能有效的抑制环境中的变化范围不大或较稳定的噪音;但是此方法是通过计算无声期间的统计平均来估计噪音功率谱来估计噪音均值,这种估计是以噪音功率谱在发声前和发声后变化不大作为前提下的,故在变化较大的非稳态噪音情况下,该方法无法获得较好的降噪效果。
另一种在智能设备上多采用的环境噪音消除方法是定向麦克风加自适应噪音抵消的方法,此方法使用一个全向麦克风用于收集环境噪音,一个定向麦克风收集用户语音,然后针对两种讯号做自适应降噪抵消来获得纯净的语音讯号。
此外,目前远距离视频会议越来越普遍。于进行单方或多方会议时,常见的问题是各地音源的音量大小不一,造成主会议场地输出的音效品质不佳,往往均只能由其他地点自行调整音量,以配合主会议场地的音量,这样不仅延迟设定时间,更导致会议无法顺利进行。再者,大部分的视频会议之中,收话方常常会因为回音(echo back),这除了会干扰到发话方之外,也会影响到接收音讯的收话方。这回音是最常有的噪音,尤其是小房间里,反射音最大。为了达到良好的抑制回音及杂讯,本发明于是生焉。
发明内容
鉴于上述的问题,开发智能网络通讯的杂讯消减方法成为上述领域的重要工作。例如,建立会议参与者的声音特性、模型或特征的资料库,以利于提升收音的品质与效果,而达到本发明的目的。
本发明目的之一在于提供一种具有防止回音功能的视频会议系统,用于提升视频会议的音讯品质与效果。
根据本发明的一观点,由于在会议参与者的双方的收发话装置中,在话音停顿时,会发出反相噪音;因此,基于破坏性干涉的原理,以声音间隔方法来滤除背景噪音,清理噪音会有很大的效果。应当理解,反相噪音可以全部抵消噪音源的噪音,也可以部分抵消噪音源的噪音。
为此,本发明提出一种智能网络通讯的杂讯消减方法,包括底下步骤:首先,通过一发话端的通讯装置的收音单元接收第一本地的声音讯息,其中该第一本地的声音讯息包含发话者的声音;接下来,通过一语音辨识单元辨识该第一本地的声音讯息以撷取该发话者的声音特性;然后,储存该发话者的声音特性于一语音资料库;随之,接收第二本地的声音讯息,其中该第二本地的声音讯息包含该发话者的声音;接着,一处理单元从一语音资料库之中比对该第二本地的声音讯息与该发话者的声音特性;以及,通过一语音过滤单元滤除该第二本地的声音讯息中该发话者的声音特性讯号之外的讯号,以取得原来的该发话者发出的声音。
根据本发明的一观点,其中该声音特性至少包含语音频率、音色和口音。上述智能网络杂讯消减方法还包含通过一无线传输单元及/或一网络传输单元,以无线或有线方式传输该发话者发出的声音讯号至接收端的一第二通讯装置,而在接收端的第二通讯装置之中播放该发话者发出的声音讯号。
根据本发明的另一观点,提出一种智能网络通讯的杂讯消减方法,包括底下步骤:首先,通过一发话端的第一通讯装置的收音单元接收第一本地的声音讯息,其中该本地的声音讯息包含发话者的声音:然后,通过一无线传输单元及/或一网络传输单元,以无线或有线方式传输该第一本地声音讯息至接收端的第二通讯装置;随后,通过该接收端的第二通讯装置的一语音辨识单元辨识该第一本地的声音讯息以撷取该发话者的声音特性;之后,第二通讯装置储存该发话者的声音特性于一语音资料库;接着,第二通讯装置接收第二本地的声音讯息,其中该第二本地的声音讯息包含该发话者的声音;然后,第二通讯装置的一处理单元从一语音资料库之中比对该第二本地的声音讯息与该发话者的声音特性;以及,通过第二通讯装置的一语音过滤单元滤除该第二本地的声音讯息中该发话者的声音特性讯号之外的讯号,以取得原来的该发话者发出的声音。
根据本发明的又一观点,提出一种智能网络通讯的杂讯消减方法,包括底下步骤:首先,通过一发话端的一通讯装置的收音单元接收一本地的环境噪音:接下来,通过一语音辨识单元以辨识该环境噪音的波形图讯号,并记录于一语音资料库之中;然后,通过一控制单元以确定该环境噪音的能量大小,以取得一个声音间隔;随后,通过该发话端的通讯装置的收音单元于该声音间隔后接收一本地的声音讯息;以及,通过一语音过滤单元滤除该环境噪音的波形图讯号,以取得原来的该发话者发出的声音。
根据本发明的一观点,上述方法还包含通过一无线传输单元及/或一网络传输单元,以无线或有线方式传输该发话者发出的声音讯号至接收端的一第二通讯装置,而在接收端的第二通讯装置之中播放该发话者发出的声音讯号。
根据本发明的另一观点,由计算机程序/算法以从一语音资料库之中确定,是否有该语音辨识单元所辨识的对应的或近似的该发话者的声音特性。
附图说明
本发明的实施例借由后附图标中的实例加以说明,而非用以限制本发明。后附图式中相同的组件符号指相同的组件。
图1显示根据本发明的一实施例的通讯装置的功能方块示意图。
图2显示根据本发明的一实施例所提出的通讯系统的示意图。
图3显示根据本发明的一实施例所提出的语音辨识单元的音讯处理架构的示意图。
图4显示根据本发明的一实施例所提出的智能网络通讯的杂讯消减方法流程示意图。
图5显示根据本发明的另一实施例所提出的智能网络通讯的杂讯消减方法流程示意图。
图6显示根据本发明的又一实施例所提出的智能网络通讯的杂讯消减方法流程示意图。
附图标记说明:
通讯装置100、100a、100b、100c
控制单元102
语音辨识单元104
特征撷取单元104a
资料预处理单元104b
分类演算单元104c
语音资料库106
语音过滤单元108
收音单元110
无线传输单元112
存储单元114
扬声器116
APP 118
网络传输单元120
模拟数字转换器122
步骤302、304、306、308、310、312、314、316、402、404、406、408、 410、412、414、416、502、504、506、508、510、512、514、516
具体实施方式
以下借由特定的具体实施例说明本发明的实施方式,本领域技术人员可借由本说明书所揭示的内容轻易地了解本发明的功效性与其优点。且本发明亦可借由其他具体实施例加以运用及实施,本说明书所阐述的各项细节亦可基于不同需求而应用,且在不悖离本发明的精神下进行各种不同的修饰或变更。本发明将以较佳实施例及观点加以叙述,此类叙述细解释本发明的结构,仅用以说明而非用以限制本发明的权利要求。因此,除说明书中的较佳实施例之外,本发明亦可广泛实行于其他实施例中。
如图1所示,其为本发明的一实施例的通讯装置的功能方块示意图。在本实施例之中,通讯装置100可用以收话或发话。举例而言,通讯装置100可以为服务器、电脑、笔记型电脑、平板电脑、智能型手机等可携式装置。通讯装置100包括控制单元102、语音辨识单元104、语音资料库106、语音过滤单元108、收音单元110、无线传输单元112、存储单元114、扬声器116、APP 118、网络传输单元120和模拟数字转换器122。控制单元102耦接语音辨识单元104、语音资料库106、语音过滤单元108、无线传输单元112、存储单元114、扬声器116、APP118、网络传输单元120和模拟数字转换器122,用以处理、控制该些元件。控制单元102为一处理单元,包含处理器。扬声器116例如为麦克风。语音辨识单元104耦接语音过滤单元108和收音单元110。语音过滤单元 108耦接扬声器116,语音过滤单元108功能为将预设的(例如,参与通话者) 声音特性之外的所有的声音滤除,亦即,混合的声音经过语音辨识单元104 的辨识之后,只让符合预设的声音特性的声音储存保留。
语音辨识单元104用于辨识声音讯息以撷取声音、音讯的特征。如图2 所示,其为语音辨识单元104的音讯处理架构的示意图。语音辨识单元104 包含一特征撷取单元104a、一资料预处理单元104b以及一分类演算单元104c。特征撷取单元104a用以接收音讯讯号,其使用数个音讯描述子对音讯讯号撷取数个特征值。特征撷取单元104a可在频率域、时域及统计值上撷取音讯讯号的特征值;其中,在处理频率域的特征时,所用的算法包括:线性预期编码 (Linear Predictive Coding:LPC)、梅尔倒频谱系数(Mel-scale FrequencyCepstral Coefficients:MFCC)、响度(loudness)、音高(pitch)、自相关(autocorrelation)、音讯频谱重心(Audio Spectrum Centroid)、音讯频谱由重心决定的程度(Audio Spectrum Spread)、音讯频谱平坦程度(Audio Spectrum Flatness)、音讯频谱波封(Audio Spectrum Envelope)、谐音频谱重心(Harmonic Spectral Centroid)、谐音频谱偏差(Harmonic Spectral Deviation)、谐音频谱重心决定的程度(HarmonicSpectral Spread)及谐音频谱变异(Harmonic Spectral Variation)。此外,在处理时域的特征时,所用的算法包括:对数出击时间(log attack time)、节拍重心(TemporalCentroid)及过零率(Zero Crossing Rate)。再者,在处理统计上的特征时,所用的算法包括偏态(skewness)及峰度(kurtosis)。资料预处理单元104b对特征值做正规化计算,以作为语音辨识单元104的分类资讯。分类演算单元104c是依分类资讯将音讯讯号分类成数种不同种类的音讯,依类神经网络(Artificial Neural Networks)、模糊类神经网络(FuzzyNeural Networks)、最近邻居法则(Nearest Neighbor Rule)及隐藏式马可夫模型(HiddenMarkov Models)以分类接收的音讯讯号。
请参阅图3,显示根据本发明的一实施例所提出的通讯系统的示意图。在此通讯系统之中,包含数个通讯装置100、100a、100b、…、100c,可以进行单方会议或多方会议,该些通讯装置100a、100b、…、100c例如包含第一图的通讯装置100的构成要件;每一个通讯装置彼此之间可以通过无线传输单元 112及/或网络传输单元120以互相通话。以通讯装置100为例,当进行通讯会议时,收音单元110接收了本地的声音讯息,其中声音讯息包含发话者发出的声音、环境噪音、回音(echo)..等。语音资料库106之中储存参与会议的发话者的声音特性,其中声音特性包含语音频率、音色、口音…等发话者的声音模型或特征,用于后续的语音辨识单元104的辨识的参考。
根据上述,本发明的语音辨识单元104用于音讯分类上,可作为声音特性包含语音频率、音色、口音…等发话者的声音模型或特征的辨识。首先,输入说话者声音讯号,利用特征撷取方法撷取出音讯特征,对音讯特征参数正规化作为音讯分类处理的输入,利用这些已知的输入训练辨识系统,训练完成后可以取得发话者发出的声音特征。
如图3所示,数个通讯装置100、100a、100b、…、100c之间可以进行通讯会议。在一实施例之中,发话端的通讯装置100的收音单元110接收第一本地的声音讯息。其中声音讯息包含发话者发出的声音、环境噪音、回音(echo).. 等。收音单元110耦接语音资料库106,因此通过语音辨识单元104得以撷取收音单元110所接收的发话者的声音特性。
通过控制单元102的处理,以将发话者的声音特性储存于一语音资料库 106之中。语音资料库106即储存有预设的发话者的声音特性。当会议开始时,发话端的通讯装置100接收第二本地的声音讯息,其中该第二本地的声音讯息包含该发话者的声音。通过控制单元102的处理,从语音资料库106之中比对该第二本地的声音讯息与该发话者的声音特性。为了将原来发话者的声音干净的传输,需要消减环境噪音、回音,语音过滤单元108滤除该第二本地的声音讯息中该发话者的声音特性讯号之外的所有的讯号,以取得原来的发话者发出的声音。举一实施例而言,语音过滤单元108为卡尔曼滤波器(Kalman Filter),利用来自说话者声音模型以及来自环境杂讯模型的成分,从本地音讯讯号过滤出杂讯(环境噪音、回音),以利于提供已过滤讯号给收话端通讯装置100、100a、 100b、…、100c。经由发话端的语音辨识单元104的撷取、语音过滤单元108 的过滤杂讯,原来发话者说话的声音讯号随即通过无线传输单元112及/或网络传输单元120以无线或有线方式传输至接收端的通讯装置。因此,在接收端通讯装置之中,通过模拟数字转换器122的转换,可以使得原来的发话者发出的声音经由扬声器116播放出来。举一实施例而言,语音资料库106的说话者声音模型可以通过无线传输单元112及/或网络传输单元120,从远端服务器或远端装置而接收。举一实施例而言,语音资料库106亦可以储存于存储单元 114之中。
如图3所示,于数个通讯装置100、100a、100b、…、100c之间进行通讯会议。在另一实施例之中,在发话端通讯装置100的收音单元110接收第一本地的声音讯息之后,不辨识收音单元110所接收的本地声音讯息,而直接将该第一本地声音讯息通过无线传输单元112及/或网络传输单元120以无线或有线以传输至接收端通讯装置。然后,于接收端通讯装置100a、100b、…、100c 来处理发话端通讯装置100的收音单元110所接收的第一本地声音讯息。于接收端通讯装置之中,收音单元110耦接语音资料库106,而通过语音辨识单元 104得以撷取发话者的声音特性。通过控制单元102的处理,以将发话者的声音特性储存于一语音资料库106之中。语音资料库106即储存有预设的发话者的声音特性。当会议开始时,接收端通讯装置接收发话端通讯装置100传来的第二本地的声音讯息,其中该第二本地的声音讯息包含该发话者的声音。通过接收端的通讯装置的一控制单元102的处理,从语音资料库106之中比对该第二本地的声音讯息与该发话者的声音特性。为了将原来发话者的声音干净的传输,需要消减环境噪音、回音,语音过滤单元108滤除该第二本地的声音讯息中该发话者的声音特性讯号之外的所有的讯号,以取得原来的发话者发出的声音。举一实施例而言,语音过滤单元108为卡尔曼滤波器,利用来自说话者声音模型以及来自环境杂讯模型的成分,从本地音讯讯号过滤出杂讯(环境噪音、回音)。因此,通过模拟数字转换器122的转换,使得原来的发话者发出的声音经由第二通讯装置的扬声器116输出。在本实施例之中,接收端通讯装置 100a、100b、…、100c的语音资料库106的发话者的声音特性(说话者声音模型)可以通过无线传输单元112及/或网络传输单元120,从发话端通讯装置100 而接收。举一实施例而言,接收端通讯装置的语音资料库106亦可以储存于存储单元114之中。
通过无线传输单元112及/或网络传输单元120可以接收语音资料库106 的发话者的声音特性(说话者声音模型)。在一实施例之中,该发话者的声音特性(说话者声音模型)设置于应用程序(Application,APP)118之中,通过无线或有线网络从外部传输至无线传输单元112及/或网络传输单元120。语音资料库 106整合于该APP 118之中。举例而言,无线网络包含蓝牙、WLAN、Wifi等各种无线规格的无线网络。在一实施例之中,通过通讯装置100上的语音辨识 APP以控制消除噪音功能的打开或关闭,以达到最佳的消除噪音效果。
如图4所示,其为本发明的一实施例的智能网络通讯的杂讯消减方法的流程示意图。在一实施例的智能网络杂讯消减方法中,在一通讯系统之中,包含数个通讯装置100、100a、100b、…、100c,进行单方或多方视频会议。智能网络通讯的杂讯消减方法包含底下步骤。首先,于步骤302之中,发话端的通讯装置100的收音单元110接收第一本地的声音讯息。其中声音讯息包含发话者发出的声音、环境噪音、回音(echo)..等,收音单元110即接收这些音讯讯号。随之,于步骤304之中,通过语音辨识单元104以撷取该发话者的声音特性(模型或特征)。然后,于步骤306之中,储存发话者的声音特性于一语音资料库 106。之后,于步骤308之中,接收第二本地的声音讯息,其中该第二本地的声音讯息包含该发话者的声音。接下来,于步骤310之中,控制单元102从语音资料库106之中比对该第二本地的声音讯息与该发话者的声音特性。随后,则于步骤312之中,通过语音过滤单元108滤除该第二本地的声音讯息中该发话者的声音特性讯号之外的所有的讯号,以取得原来的发话者发出的声音。之后,于步骤314之中,通过无线传输单元112及/或网络传输单元120以无线或有线方式传输发话者发出的声音讯号至接收端的通讯装置。最后,于步骤 316之中,在接收端通讯装置之中播放发话者发出的声音讯号;通过模拟数字转换器122的转换,使得原来的发话者发出的声音经由扬声器116播放。举一实施例而言,模拟数字转换器122可以为内建或外接于控制单元102。
如图5所示,其为本发明的另一实施例的智能网络通讯的杂讯消减方法的流程示意图。在本实施例之中,在发话端通讯装置100的收音单元110接收本地的声音讯息之后,不辨识收音单元110所接收的本地声音讯息,而由接收端通讯装置来辨识。在一实施例的智能网络杂讯消减方法中,在一通讯系统之中,包含数个通讯装置100、100a、100b、…、100c,进行单方或多方视频会议。智能网络杂讯消减方法包含底下的步骤。首先,于步骤402之中,发话端的通讯装置100的收音单元110接收第一本地的声音讯息。其中第一本地的声音讯息包含发话者发出的声音、环境噪音、回音(echo)..等,收音单元110即接收这些音讯讯号。随之,于步骤404之中,通过无线传输单元112及/或网络传输单元120以无线或有线以传输第一本地的声音讯息至接收端的第二通讯装置 (100a、100b或100c等)。然后,于步骤406之中,通过接收端的通讯装置的一语音辨识单元104以撷取该发话者的声音特性(模型或特征)。之后,于步骤 408之中,第二通讯装置储存该发话者的声音特性于一语音资料库。随后,于步骤410之中,第二通讯装置接收发话端通讯装置100传来的第二本地的声音讯息,其中该第二本地的声音讯息包含该发话者的声音。接下来,于步骤412 之中,接收端的第二通讯装置的一控制单元102从语音资料库106之中比对该第二本地的声音讯息与该发话者的声音特性。然后,于步骤414之中,通过接收端的第二通讯装置的一语音过滤单元108滤除该第二本地的声音讯息中该发话者的声音特性讯号之外的所有的讯号,以取得原来的发话者发出的声音。最后,于步骤416之中,在接收端的第二通讯装置之中播放发话者发出的声音讯号;通过模拟数字转换器122的转换,使得原来的发话者发出的声音经由扬声器116播放出来。举一实施例而言,模拟数字转换器122可以为内建或外接于控制单元102。
如图6所示,其为本发明的另一实施例的智能网络通讯的杂讯消减方法的流程示意图。类似地,在一实施例的智能网络杂讯消减方法中,在一通讯系统之中,包含数个通讯装置100、100a、100b、…、100c,进行单方或多方视频会议。另外,在本实施例之中,以声音间隔方法来滤除背景噪音。智能网络杂讯消减方法包含底下的步骤。首先,于步骤502之中,发话端的通讯装置100 的收音单元110接收了本地的环境噪音。随之,于步骤504之中,通过语音辨识单元104以辨识收音单元110所接收的环境噪音的波形图讯息,并记录于语音资料库106之中。然后,于步骤506之中,控制单元102确定环境噪音的能量大小,以取得一个声音间隔;举例而言,根据声音平均分贝值确定环境噪音的能量大小,当声音能量小于一预设声音平均分贝阈值时,即取得一个声音间隔。之后,于步骤508之中,发话端的通讯装置100的收音单元110于声音间隔后接收了本地的声音讯息。其中声音讯息包含发话者发出的声音、环境噪音,收音单元110即接收这些音讯讯号。接下来,于步骤510之中,控制单元102 将并记录于语音资料库106之中的环境噪音的波形图讯息传至语音过滤单元 108。随后,于步骤512之中,语音过滤单元108滤除了环境噪音的波形图讯息,以取得原来的发话者发出的声音。之后,于步骤514之中,通过无线传输单元112及/或网络传输单元120以无线或有线方式传输发话者发出的声音讯号至接收端的通讯装置。最后,于步骤516之中,在接收端通讯装置之中播放发话者发出的声音讯号;通过模拟数字转换器122的转换,使得原来的发话者发出的声音经由扬声器116播放出来。举一实施例而言,模拟数字转换器122 可以为内建或外接于控制单元102。
通讯装置100、100a、100b、…、100c被构造为可以与外部装置进行通讯,外部装置可以是外部计算装置、计算系统、行动装置(智能型手机、平板电脑、智能手表…等)、或其他电子装置类型。
外部装置包括计算核心、使用者接口、网际网络接口、无线通信收发器和储存装置。使用者接口包括一个或多个输入装置(例如,键盘、触控荧幕、语音输入装置..等)、一或多个音频输出装置(例如。扬声器..等)及/或一或多个可视觉输出装置(例如,视频图形显示器、触控荧幕..等)。网际网络接口包括一或多个联网装置(例如,无线局域网(WLAN)装置、有线LAN装置、无线广域网(WWAN)装置..等)。储存装置包括快闪存储装置、一或多个硬盘驱动器、一或多个固态储存装置及/或云端储存器。
计算核心包括处理器和其他计算核心组件。其他计算核心组件包括视频图形处理单元、储存器控制器、主存储器(例如,RAM)、一或多个输入/输出(I/O) 装置接口模块、输入/输出(I/O)接口、输入/输出(I/O)控制器、周边装置接口、一或多个USB接口模块、一或多个网络接口模块、一或多个存储接口模块及/ 或一或多个周边装置接口模块。
外部装置处理无线传输单元112及/或网络传输单元120所传来的资料,以产生各种结果。
以上叙述为本发明的较佳实施例。此领域的技艺者应得以领会其用以说明本发明而非用以限定本发明所主张的专利权利范围。其专利保护范围当视后附的权利要求及其等同领域而定。凡熟悉此领域的技艺者,在不脱离本专利精神或范围内,所作的更动或润饰,均属于本发明所揭示精神下所完成的等效改变或设计,且应包含在下述的权利要求内。
Claims (10)
1.一种智能网络通讯的杂讯消减方法,其特征在于,包括:
通过一发话端的通讯装置的收音单元接收第一本地的声音讯息,其中该第一本地的声音讯息包含发话者的声音;
通过一语音辨识单元辨识该第一本地的声音讯息以撷取该发话者的声音特性;
储存该发话者的声音特性于一语音资料库;
接收第二本地的声音讯息,其中该第二本地的声音讯息包含该发话者的声音;
一处理单元从该语音资料库之中比对该第二本地的声音讯息与该发话者的声音特性;以及
通过一语音过滤单元滤除该第二本地的声音讯息中该发话者的声音特性讯号之外的讯号,以取得原来的该发话者发出的声音。
2.如权利要求1所述的智能网络通讯的杂讯消减方法,其特征在于,该发话者的声音特性至少包含语音频率、音色和口音。
3.如权利要求1所述的智能网络通讯的杂讯消减方法,其特征在于,还包含通过一无线传输单元及/或一网络传输单元,以无线或有线方式传输该发话者发出的声音讯号至接收端的一第二通讯装置,而在该接收端的该第二通讯装置之中播放该发话者发出的声音讯号。
4.一种智能网络通讯的杂讯消减方法,其特征在于,包括:
通过一发话端的第一通讯装置的收音单元接收第一本地的声音讯息,其中该第一本地的声音讯息包含发话者的声音;
通过一无线传输单元及/或一网络传输单元,以无线或有线方式传输该第一本地声音讯息至接收端的第二通讯装置;
通过该接收端的该第二通讯装置的一语音辨识单元辨识该第一本地的声音讯息以撷取该发话者的声音特性;
该第二通讯装置储存该发话者的声音特性于一语音资料库;
该第二通讯装置接收第二本地的声音讯息,其中该第二本地的声音讯息包含该发话者的声音;
该第二通讯装置的一处理单元从该语音资料库之中比对该第二本地的声音讯息与该发话者的声音特性;以及
通过该第二通讯装置的一语音过滤单元滤除该第二本地的声音讯息中该发话者的声音特性讯号之外的讯号,以取得原来的该发话者发出的声音。
5.如权利要求4所述的智能网络通讯的杂讯消减方法,其特征在于,该发话者的声音特性至少包含语音频率、音色和口音。
6.如权利要求4所述的智能网络通讯的杂讯消减方法,其特征在于,还包含在该接收端的该第二通讯装置之中播放该发话者发出的声音讯号。
7.一种智能网络通讯的杂讯消减方法,其特征在于,包括:
通过一发话端的一通讯装置的收音单元接收一本地的环境噪音;
通过一语音辨识单元以辨识该环境噪音的波形图讯息,并记录于一语音资料库之中;
通过一控制单元以确定该环境噪音的能量大小,以取得一个声音间隔;
通过该发话端的该通讯装置的该收音单元于该声音间隔后接收一本地的声音讯息;以及
通过一语音过滤单元滤除该环境噪音的波形图讯息,以取得原来的该发话者发出的声音。
8.如权利要求7所述的智能网络通讯的杂讯消减方法,其特征在于,还包含根据声音平均分贝值确定该环境噪音的能量大小,当声音能量小于一预设声音平均分贝阈值时,即取得该声音间隔。
9.如权利要求7所述的智能网络通讯的杂讯消减方法,其特征在于,还包含通过一无线传输单元及/或一网络传输单元以无线或有线方式传输该发话者发出的声音讯号至接收端的一第二通讯装置。
10.如权利要求9所述的智能网络通讯的杂讯消减方法,其特征在于,还包含在该接收端的该第二通讯装置之中播放该发话者发出的声音讯号。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111100798 | 2022-01-07 | ||
TW111100798A TWI801085B (zh) | 2022-01-07 | 2022-01-07 | 智能網路通訊之雜訊消減方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116453497A true CN116453497A (zh) | 2023-07-18 |
Family
ID=82899353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210689755.1A Pending CN116453497A (zh) | 2022-01-07 | 2022-06-17 | 智能网络通讯的杂讯消减方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230223033A1 (zh) |
EP (1) | EP4300492A1 (zh) |
CN (1) | CN116453497A (zh) |
TW (1) | TWI801085B (zh) |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7949522B2 (en) * | 2003-02-21 | 2011-05-24 | Qnx Software Systems Co. | System for suppressing rain noise |
US20120249797A1 (en) * | 2010-02-28 | 2012-10-04 | Osterhout Group, Inc. | Head-worn adaptive display |
EP2786376A1 (en) * | 2012-11-20 | 2014-10-08 | Unify GmbH & Co. KG | Method, device, and system for audio data processing |
US9373320B1 (en) * | 2013-08-21 | 2016-06-21 | Google Inc. | Systems and methods facilitating selective removal of content from a mixed audio recording |
US9646626B2 (en) * | 2013-11-22 | 2017-05-09 | At&T Intellectual Property I, L.P. | System and method for network bandwidth management for adjusting audio quality |
EP3010017A1 (en) * | 2014-10-14 | 2016-04-20 | Thomson Licensing | Method and apparatus for separating speech data from background data in audio communication |
US9998434B2 (en) * | 2015-01-26 | 2018-06-12 | Listat Ltd. | Secure dynamic communication network and protocol |
US9704488B2 (en) * | 2015-03-20 | 2017-07-11 | Microsoft Technology Licensing, Llc | Communicating metadata that identifies a current speaker |
CA3010141A1 (en) * | 2016-02-10 | 2017-08-17 | Mefon Ventures Inc. | Authenticating or registering users of wearable devices using biometrics |
US10991379B2 (en) * | 2018-06-22 | 2021-04-27 | Babblelabs Llc | Data driven audio enhancement |
CA3193267A1 (en) * | 2020-09-14 | 2022-03-17 | Pindrop Security, Inc. | Speaker specific speech enhancement |
US20220199102A1 (en) * | 2020-12-18 | 2022-06-23 | International Business Machines Corporation | Speaker-specific voice amplification |
-
2022
- 2022-01-07 TW TW111100798A patent/TWI801085B/zh active
- 2022-06-17 CN CN202210689755.1A patent/CN116453497A/zh active Pending
- 2022-08-10 EP EP22189661.6A patent/EP4300492A1/en active Pending
- 2022-10-15 US US17/966,829 patent/US20230223033A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230223033A1 (en) | 2023-07-13 |
EP4300492A1 (en) | 2024-01-03 |
TW202329087A (zh) | 2023-07-16 |
TWI801085B (zh) | 2023-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021139327A1 (zh) | 一种音频信号处理方法、模型训练方法以及相关装置 | |
WO2023040523A1 (zh) | 音频信号的处理方法、装置、电子设备及存储介质 | |
CN107799126A (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
CN112071328B (zh) | 音频降噪 | |
CN112004177B (zh) | 一种啸叫检测方法、麦克风音量调节方法及存储介质 | |
CN108140399A (zh) | 用于超宽带音乐的自适应噪声抑制 | |
CN111883156A (zh) | 音频处理方法、装置、电子设备及存储介质 | |
JP2020115206A (ja) | システム及び方法 | |
CN107566658A (zh) | 通话方法、装置、存储介质及移动终端 | |
CN101207663A (zh) | 网络通信装置及消除网络通信装置的噪音的方法 | |
CN111883182B (zh) | 人声检测方法、装置、设备及存储介质 | |
CN109361995B (zh) | 一种电器设备的音量调节方法、装置、电器设备和介质 | |
CN113241085B (zh) | 回声消除方法、装置、设备及可读存储介质 | |
CN114338623B (zh) | 音频的处理方法、装置、设备及介质 | |
CN110956976B (zh) | 一种回声消除方法、装置、设备及可读存储介质 | |
CN113271430B (zh) | 网络视频会议中防干扰方法、系统、设备及存储介质 | |
CN115482830B (zh) | 语音增强方法及相关设备 | |
CN104580764B (zh) | 电话会议系统中的超声配对信号控制 | |
CN111199751B (zh) | 一种麦克风的屏蔽方法、装置和电子设备 | |
CN117480554A (zh) | 语音增强方法及相关设备 | |
JP6268916B2 (ja) | 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム | |
CN113176870B (zh) | 音量调整方法、装置、电子设备及存储介质 | |
CN116741193B (zh) | 语音增强网络的训练方法、装置、存储介质及计算机设备 | |
CN116453497A (zh) | 智能网络通讯的杂讯消减方法 | |
CN111698232B (zh) | 数据处理方法、装置、计算机设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |