CN114694689A - 声音信号处理评估方法和装置 - Google Patents
声音信号处理评估方法和装置 Download PDFInfo
- Publication number
- CN114694689A CN114694689A CN202110123933.XA CN202110123933A CN114694689A CN 114694689 A CN114694689 A CN 114694689A CN 202110123933 A CN202110123933 A CN 202110123933A CN 114694689 A CN114694689 A CN 114694689A
- Authority
- CN
- China
- Prior art keywords
- sound signal
- signal
- sound
- processed
- signal processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 151
- 238000012545 processing Methods 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000011156 evaluation Methods 0.000 claims abstract description 61
- 238000000605 extraction Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 10
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000036461 convulsion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephone Function (AREA)
Abstract
本发明提供一种声音信号处理评估方法和装置。对合成声音信号进行声音信号处理以产生经处理声音信号。这合成声音信号是对主要信号加入次要信号所产生,主要信号只有语音信号,且声音信号处理相关于对合成声音信号除去次要信号。分别对经处理声音信号和主要信号取得声音特性。这声音特性包括文字内容,且文字内容是对经处理声音信号和主要信号进行语音转文字处理所产生。依据经处理声音信号和主要信号的声音特性之间的比较结果评估这声音信号处理。这比较结果包括经处理声音信号的文字内容对应于主要信号的正确性。藉此,可提供客观的评估结果。
Description
技术领域
本发明涉及一种信号分析技术,尤其涉及一种声音信号处理评估方法和装置。
背景技术
市面上已有许多提供噪声或噪音消除技术的扬声器、耳机或其他多媒体播放器。不同厂商所推出的噪声或噪音消除技术可能涉及到不同算法或机制,还可能达到不同效果。然而,现今没有可客观评量不同消除技术的方案。
发明内容
本发明实施例是针对一种声音信号处理评估方法和装置,可针对语音相关信号的声音信号处理提供客观的评量。
根据本发明的实施例,声音信号处理评估方法包括(但不仅限于)下列步骤:对合成声音信号进行声音信号处理以产生经处理声音信号。这合成声音信号是对主要信号加入次要信号所产生,主要信号只有语音信号,且声音信号处理相关于对合成声音信号除去次要信号。分别对经处理声音信号和主要信号取得声音特性。这声音特性包括文字内容,且文字内容是对经处理声音信号和主要信号进行语音转文字处理所产生。依据经处理声音信号和主要信号的声音特性之间的比较结果评估这声音信号处理。这比较结果包括经处理声音信号的文字内容对应于主要信号的正确性。
根据本发明的实施例,声音信号处理评估装置包括(但不仅限于)存储器和处理器。存储器用以存储数个软件模块。处理器耦接存储器,并用以加载且执行那些软件模块。那些软件模块包括声音信号处理模块、特性提取模块和评估模块。声音信号处理模块对合成声音信号进行声音信号处理以产生经处理声音信号。这合成声音信号是对主要信号加入次要信号所产生,主要信号只有语音信号,且声音信号处理相关于对合成声音信号除去次要信号。特性提取模块分别对经处理声音信号和主要信号取得声音特性。这声音特性包括文字内容,且文字内容是对经处理声音信号和主要信号进行语音转文字处理所产生。评估模块依据经处理声音信号和主要信号的声音特性之间的比较结果评估这声音信号处理。这比较结果包括经处理声音信号的文字内容对应于主要信号的正确性。
基于上述,依据本发明实施例的声音信号处理评估方法和装置,可确定语音相关的原信号和经声音信号处理的经处理声音信号两者在声音特性上的差异,并据以作为评估参考依据。其中,可确定两信号经语音转文字后的文字差异。藉此,可适用于评估针对语音信号相关的声音信号处理。
附图说明
包含附图以便进一步理解本发明,且附图并入本说明书中并构成本说明书的一部分。附图说明本发明的实施例,并与描述一起用于解释本发明的原理。
图1是依据本发明一实施例的声音信号处理评估装置的方块图;
图2是依据本发明一实施例的声音信号处理评估方法的流程图;
图3是依据本发明一实施例的比较与评估的流程图。
附图标号说明
100:声音信号处理评估装置;
110:存储器;
111:合成模块;
113:声音信号处理模块;
115:特性提取模块;
117:评估模块;
150:处理器;
SM:主要信号;
SS:次要信号;
SC:合成声音信号;
SP:经处理声音信号;
FP、FM:声音特性;
F1 P、F1 M:特征矢量;
F2 P、F2 M:文字内容;
d1:距离;
d2:文字正确率;
I:完整度;
S210~S250、S231~S232、S251~S253:步骤。
具体实施方式
现将详细地参考本发明的示范性实施例,示范性实施例的实例说明于附图中。只要有可能,相同组件符号在附图和描述中用来表示相同或相似部分。
图1是依据本发明一实施例的声音信号处理评估装置100的方块图。请参照图1,声音信号处理评估装置100包括(但不只限于)存储器110和处理器150。声音信号处理评估装置100可以是台式计算机、膝上计算机、AIO计算机、智能手机、平板计算机、或服务器等装置。
存储器110可以是任何型态的固定或可移动随机存取内存(Radom AccessMemory,RAM)、只读存储器(Read Only Memory,ROM)、闪存(flash memory)、传统硬盘(HardDisk Drive,HDD)、固态硬盘(Solid-State Drive,SSD)或类似组件。在一实施例中,存储器110用以记录程序代码、软件模块(例如,合成模块111、声音信号处理模块113、特性提取模块115和评估模块117)、组态配置、数据或文件(例如,声音信号、声音特性和评估结果),并待后续实施例详述。
处理器150耦接存储器110,处理器150并可以是中央处理单元(CentralProcessing Unit,CPU)、图形处理单元(Graphic Processing unit,GPU),或是其他可程序化的一般用途或特殊用途的微处理器(Microprocessor)、数字信号处理器(DigitalSignal Processor,DSP)、可程序化控制器、现场可程序化逻辑门阵列(FieldProgrammable Gate Array,FPGA)、特殊应用集成电路(Application-SpecificIntegrated Circuit,ASIC)、神经网络加速器或其他类似组件或上述组件的组合。在一实施例中,处理器150用以执行声音信号处理评估装置100的所有或部分作业,且可加载并执行存储器110所记录的各软件模块、文件和数据。
下文中,将搭配声音信号处理评估装置100中的各项组件、模块和信号说明本发明实施例所述的方法。本方法的各个流程可依照实施情形而调整,且并不只限于此。
图2是依据本发明一实施例的声音信号处理评估方法的流程图。请参照图2,声音信号处理模块113对合成声音信号SC进行声音信号处理以产生经处理声音信号SP(步骤S210)。具体而言,合成声音信号SC是合成模块111对主要信号SM加入次要信号SS所产生的。即,合成主要信号SM和次要信号SS可产生合成声音信号SC。假设主要信号SM只有语音信号。即,单纯人声。而次要信号SS可以是生物(例如,狗、猫、或婴儿)所发出声音、非生物(例如,空调器、吹发器或冰箱)运作声、合成声、环境声(例如,风声、树枝拍打声等)、对象互动作用的声音(例如,手指敲击键盘的声音、碗摔落地面等)或其组合。只要是主要信号SM以外的其他声音都可视为次要信号SS。
在一实施例中,合成模块111例如可对两信号SM,SS在频谱上迭加或采用其他合成技术。在另一实施例中,声音信号处理评估装置100可通过内建、外置或外部扬声器同时播放主要信号SM和次要信号SS,并进一步录制,以取得合成声音信号SC。
另一方面,在一实施例中,声音信号处理模型113对合成声音信号SC所进行的声音信号处理是相关于对合成声音信号SC除去次要信号SS。例如,声音信号处理的目的其中一个在于还原主要信号SM、或噪声消除。噪声/降噪抑制(或声源分离)技术例如是产生与噪声音波相位相反的信号、或利用独立成分分析(Independent Components Analysis,ICA)等方式自合成声音信号SC中消除噪声(即,次要信号SS),本发明实施例不加以限制。
值得注意的是,基于不同技术的声音信号处理对相同输入信号所输出的信号在频率、波形或振幅上可能有差异。若欲评估多种声音信号处理技术,声音信号处理模块113可整合这些声音信号处理技术,并分别采用不同声音信号处理技术来处理合成声音信号SC。此外,若欲了解特定声音信号处理对不同次要信号SS的除去能力,也可分别加入不同次要信号SS。
在一实施例中,声音信号处理评估装置100可通过内建、外置或外部扬声器分别播放主要信号SM和经处理声音信号SP,并进一步分别录制这两信号SM,SP,以作为后续分析使用。
特性提取模块115可分别对经处理声音信号SP和主要信号SM取得声音特性FP,FM(步骤S230)。具体而言,评估的确定依据是希望声音信号处理后可同时保存主要语音的声纹特性且提高语意识别度。在一实施例中,声音特性FP,FM包括声纹特征。特性提取模块115例如是采用有线性预估系数(Linear Predictive Coefficient,LPC)、倒谱系数、梅尔倒频谱系数(Mel-frequency Cepstrum Coefficient,MFCC)或其他特征参数提取方法来取得声纹特征。声纹特征可用于区别不同人物所发出的声音。由此可知,评估的确定依据其中一个在于,希望听者聆听经处理声音信号SP后仍可识别出主要信号SM对应的相同人物。
图3是依据本发明一实施例的比较与评估的流程图。请参照图3,在一实施例中,特性提取模块115可进一步将经处理声音信号SP和主要信号SM的声纹特征转换成两特征矢量F1 P,F1 M(步骤S231)。例如,特性提取模块115对部分音段的声纹特征组合,并取其平均矢量作为特征矢量。
在一实施例中,声音特性FP,FM包括文字内容。特性提取模块115可对经处理声音信号SP和主要信号SM进行语音转文字处理,以产生文字内容F2 P,F2 M(步骤S232)。语音转文字处理例如是基于特征提取、声学模型、发音词典、语言模型、译码器或其组合来输出具有最大或相较大概率的词串。文字内容即是声音信号中的说话内容(以文字形式表示)。文字内容可用于了解语意。由此可知,评估的确定依据其中一个在于,希望听者聆听经处理声音信号SP后仍可识别出主要信号SM对应的正确内容。
在一实施例中,声音特性FP,FM包括声纹特征和文字内容两者。
评估模块117可依据经处理声音信号SP和主要信号SM的声音特性之间的比较结果评估声音信号处理模块113所执行的声音信号处理(步骤S250)。在一实施例中,针对声纹特征,比较结果包括声纹相似性,且评估模块117可比较经处理声音信号SP和主要信号SM的声纹特征之间的声纹相似性。即,经处理声音信号SP的声纹特征是否相同或相似于主要信号SM的声纹特征。
依据不同特征提取技术,声纹比对的方法可能不同。请参照图3,在一实施例中,声纹相似性相关于经处理声音信号SP和主要信号SM的特征矢量F1 P,F1 M之间的距离d1(步骤S251)。例如,距离d1是欧氏距离(Euclidean Distance)算法所决定的最短距离,但也可能是两特征矢量F1 P,F1 M上其他点之间的距离。若距离d1值越小/近,则代表经处理声音信号SP和主要信号SM的声纹特征越接近。即,评估模块117将距离d1越近者视为声纹相似性越高者,并对应于较好的评估结果。若距离d1值越大/远,则代表两信号SP,SM的声纹特征差异越大。即,评估模块117将距离d1越远者视为声纹相似性越低者,并对应于较差的评估结果。
在一实施例中,针对文字内容,比较结果包括经处理声音信号SP的文字内容对应于主要信号SM的正确性。例如,两信号SP,SM对应文字内容中字符的正确性。
请参照图3,在一实施例中,评估模块117可比较经处理声音信号SP和主要信号SM的文字内容F2 P,F2 M中的字符差异。字符差异相关于两信号SP,SM的文字内容F2 P,F2 M中的对应字符是否相同。文字内容F2 P,F2 M的正确性相关于文字正确率。评估模块117可依据字符差异决定经处理声音信号SP相对于主要信号SM的文字正确率d2(或称识别率)(步骤S252)。例如,文字正确率是经比对相同文字的数量所占文字内容F2 M的所有字符数的比例。评估模块117可将文字正确率d2越高者视为文字内容的正确性越高者并对应于较好的评估结果,且将文字正确率d2越低者视为文字内容的正确性越低者并对应于较差的评估结果。
在一实施例中,比较结果包括文字内容的正确性和声纹相似性两者。评估模块117可确定声纹相似性越高且文字内容的正确性越高者对应于较好的评估结果(即,声音信号处理的结果较好),且评估模块117可确定声纹相似性越低或文字内容的正确性越低者对应于较差的评估结果(即,声音信号处理的结果较差)。
例如,评估模块117可计算完整度I(步骤S253):
其中,α为可变的调整参数(即,常数),完整度I相关于评估结果。假设文字正确率d2介于0~1之间,则完整度I会介于0~1之间。而完整度I相关于评估结果,其数值越大表示评估结果较好(例如,两信号SP,SM的特性越接近),且其数值越小代表评估结果较差(例如,两信号SP,SM的特性越不接近)。
藉此,若欲应用在评估通话中降低噪声的语音相关声音信号处理,则可确定这语音相关声音信号处理是否能同时保存主要语音的声纹特性且提高语意识别度。
须说明的是,评估结果的量化方式不限于完整度I的函数(1),且应用者可依据实际需求而自行调整。
综上所述,在本发明实施例的声音信号处理评估方法和装置中,分析主要信号与经处理声音信号的声音特性,并依据针对文字正确性/识别度和声纹相似性决定声音信号处理的优劣。藉此,可提供客观的评估标准。
最后应说明的是:以上各实施例只用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种声音信号处理评估方法,其特征在于,包括:
对合成声音信号进行声音信号处理以产生经处理声音信号,其中所述合成声音信号是对主要信号加入次要信号所产生,所述主要信号只有语音信号,且所述声音信号处理相关于对所述合成声音信号除去所述次要信号;
分别对所述经处理声音信号和所述主要信号取得声音特性,其中所述声音特性包括文字内容,且所述文字内容是对所述经处理声音信号和所述主要信号进行语音转文字处理所产生;以及
依据所述经处理声音信号和所述主要信号的所述声音特性之间的比较结果评估所述声音信号处理,其中所述比较结果包括所述经处理声音信号的所述文字内容对应于所述主要信号的正确性。
2.根据权利要求1所述的声音信号处理评估方法,其中评估所述声音信号处理的步骤包括:
比较所述经处理声音信号和所述主要信号的所述文字内容中的字符差异,其中所述字符差异相关于所述文字内容中的对应字符是否相同;以及
依据所述字符差异决定所述经处理声音信号相对于所述主要信号的文字正确率,其中所述文字内容的正确性相关于所述文字正确率。
3.根据权利要求1所述的声音信号处理评估方法,其中所述声音特性还包括声纹特征,且评估所述声音信号处理的步骤包括:
比较所述经处理声音信号和所述主要信号的所述声纹特征之间的声纹相似性,其中所述比较结果还包括所述声纹相似性。
4.根据权利要求3所述的声音信号处理评估方法,其中评估所述声音信号处理的步骤包括:
确定所述声纹相似性越高且所述文字内容的正确性越高者对应于较好的评估结果;以及
确定所述声纹相似性越低或所述文字内容的正确性越低者对应于较差的评估结果。
5.根据权利要求4所述的声音信号处理评估方法,其中所述声纹相似性相关于所述经处理声音信号和所述主要信号的特征矢量之间的距离,所述特征矢量是由所述声纹特征转换,且评估所述声音信号处理的步骤包括:
将所述距离越近者视为所述声纹相似性越高者;以及
将所述距离越远者视为所述声纹相似性越低者。
6.一种声音信号处理评估装置,包括:
存储器,存储多个软件模块;以及
处理器,耦接所述存储器,加载且执行所述软件模块,其特征在于,所述软件模块包括:
声音信号处理模块,对合成声音信号进行声音信号处理以产生经处理声音信号,其中所述合成声音信号是对主要信号加入次要信号所产生,所述主要信号只有语音信号,且所述声音信号处理相关于对所述合成声音信号除去所述次要信号;
特征提取模块,分别对所述经处理声音信号和所述主要信号取得声音特性,其中所述声音特性包括文字内容,且所述文字内容是对所述经处理声音信号和所述主要信号进行语音转文字处理所产生;以及
评估模块,依据所述经处理声音信号和所述主要信号的所述声音特性之间的比较结果评估所述声音信号处理,其中所述比较结果包括所述经处理声音信号的所述文字内容对应于所述主要信号的正确性。
7.根据权利要求6所述的声音信号处理评估装置,其中所述评估模块比较所述经处理声音信号和所述主要信号的所述文字内容中的字符差异,且所述评估模块依据所述字符差异决定所述经处理声音信号相对于所述主要信号的文字正确率,其中所述字符差异相关于所述文字内容中的对应字符是否相同,且所述文字内容的正确性相关于所述文字正确率。
8.根据权利要求6所述的声音信号处理评估装置,其中所述声音特性还包括声纹特征,且所述评估模块比较所述经处理声音信号和所述主要信号的所述声纹特征之间的声纹相似性,其中所述比较结果还包括所述声纹相似性。
9.根据权利要求8所述的声音信号处理评估装置,其中所述评估模块确定所述声纹相似性越高且所述文字内容的正确性越高者对应于较好的评估结果,且所述评估模块确定所述声纹相似性越低或所述文字内容的正确性越低者对应于较差的评估结果。
10.根据权利要求9所述的声音信号处理评估装置,其中所述声纹相似性相关于所述经处理声音信号和所述主要信号的特征矢量之间的距离,所述特征矢量是由所述声纹特征转换,所述评估模块将所述距离越近者视为所述声纹相似性越高者,且所述评估模块将所述距离越远者视为所述声纹相似性越低者。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109146186A TWI763207B (zh) | 2020-12-25 | 2020-12-25 | 聲音訊號處理評估方法及裝置 |
TW109146186 | 2020-12-25 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114694689A true CN114694689A (zh) | 2022-07-01 |
Family
ID=82117553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110123933.XA Pending CN114694689A (zh) | 2020-12-25 | 2021-01-29 | 声音信号处理评估方法和装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11636844B2 (zh) |
CN (1) | CN114694689A (zh) |
TW (1) | TWI763207B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115240689A (zh) * | 2022-09-15 | 2022-10-25 | 深圳市水世界信息有限公司 | 目标声音确定方法、装置、计算机设备和介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8086425B2 (en) * | 2004-06-14 | 2011-12-27 | Papadimitriou Wanda G | Autonomous fitness for service assessment |
US9026236B2 (en) * | 2009-10-21 | 2015-05-05 | Panasonic Intellectual Property Corporation Of America | Audio signal processing apparatus, audio coding apparatus, and audio decoding apparatus |
JP5609737B2 (ja) * | 2010-04-13 | 2014-10-22 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
CN104732977B (zh) * | 2015-03-09 | 2018-05-11 | 广东外语外贸大学 | 一种在线口语发音质量评价方法和系统 |
CN106933561A (zh) * | 2015-12-31 | 2017-07-07 | 北京搜狗科技发展有限公司 | 语音输入方法和终端设备 |
CN106201424B (zh) * | 2016-07-08 | 2019-10-01 | 北京甘为乐博科技有限公司 | 一种信息交互方法、装置及电子设备 |
CN111201565A (zh) * | 2017-05-24 | 2020-05-26 | 调节股份有限公司 | 用于声对声转换的系统和方法 |
WO2019161198A1 (en) * | 2018-02-15 | 2019-08-22 | DMAI, Inc. | System and method for speech understanding via integrated audio and visual based speech recognition |
CN108806715B (zh) | 2018-04-12 | 2021-02-23 | 会听声学科技(北京)有限公司 | 降噪性能评价方法及系统 |
US10832671B2 (en) * | 2018-06-25 | 2020-11-10 | Intel Corporation | Method and system of audio false keyphrase rejection using speaker recognition |
KR102280692B1 (ko) * | 2019-08-12 | 2021-07-22 | 엘지전자 주식회사 | 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스 |
US11588800B2 (en) * | 2019-11-15 | 2023-02-21 | Salesforce, Inc. | Customizable voice-based user authentication in a multi-tenant system |
CN111031463B (zh) | 2019-11-20 | 2021-08-17 | 福建升腾资讯有限公司 | 麦克风阵列性能评测方法、装置、设备和介质 |
-
2020
- 2020-12-25 TW TW109146186A patent/TWI763207B/zh active
-
2021
- 2021-01-29 CN CN202110123933.XA patent/CN114694689A/zh active Pending
- 2021-02-03 US US17/165,940 patent/US11636844B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115240689A (zh) * | 2022-09-15 | 2022-10-25 | 深圳市水世界信息有限公司 | 目标声音确定方法、装置、计算机设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
US20220208171A1 (en) | 2022-06-30 |
TWI763207B (zh) | 2022-05-01 |
TW202226220A (zh) | 2022-07-01 |
US11636844B2 (en) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180349495A1 (en) | Audio data processing method and apparatus, and computer storage medium | |
US10008218B2 (en) | Blind bandwidth extension using K-means and a support vector machine | |
JP7342915B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
US11495235B2 (en) | System for creating speaker model based on vocal sounds for a speaker recognition system, computer program product, and controller, using two neural networks | |
JP4797342B2 (ja) | オーディオデータを自動的に認識する方法及び装置 | |
Leu et al. | An MFCC-based speaker identification system | |
US20110066426A1 (en) | Real-time speaker-adaptive speech recognition apparatus and method | |
WO2023001128A1 (zh) | 音频数据的处理方法、装置及设备 | |
Nanavare et al. | Recognition of human emotions from speech processing | |
Besbes et al. | Multi-class SVM for stressed speech recognition | |
JP6996627B2 (ja) | 情報処理装置、制御方法、及びプログラム | |
Shahnawazuddin et al. | Enhancing the recognition of children's speech on acoustically mismatched ASR system | |
CN111737515B (zh) | 音频指纹提取方法、装置、计算机设备和可读存储介质 | |
US11636844B2 (en) | Method and apparatus for audio signal processing evaluation | |
KR20220134347A (ko) | 다화자 훈련 데이터셋에 기초한 음성합성 방법 및 장치 | |
JP5083951B2 (ja) | 音声処理装置およびプログラム | |
Sharma | Speaker recognition using machine learning techniques | |
CN109741761B (zh) | 声音处理方法和装置 | |
JP2021033260A (ja) | 学習方法、話者識別方法、及び、プログラム | |
JP2007133413A (ja) | 話者テンプレート圧縮方法および装置、複数の話者テンプレートをマージする方法および装置、ならびに話者認証 | |
Yanagisawa et al. | Noise robustness in HMM-TTS speaker adaptation | |
JP2011033879A (ja) | サンプルを用いずあらゆる言語を識別可能な識別方法 | |
JP2009237336A (ja) | 音声認識装置及び音声認識プログラム | |
Wu et al. | Blind bandwidth extension using k-means and support vector regression | |
JP2023540376A (ja) | 音声認識方法及び装置、記録媒体及び電子機器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |