CN109658921A - 一种语音信号处理方法、设备及计算机可读存储介质 - Google Patents

一种语音信号处理方法、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN109658921A
CN109658921A CN201910014077.7A CN201910014077A CN109658921A CN 109658921 A CN109658921 A CN 109658921A CN 201910014077 A CN201910014077 A CN 201910014077A CN 109658921 A CN109658921 A CN 109658921A
Authority
CN
China
Prior art keywords
voice
speech
signal sequence
sample
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910014077.7A
Other languages
English (en)
Other versions
CN109658921B (zh
Inventor
王健宗
程宁
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910014077.7A priority Critical patent/CN109658921B/zh
Publication of CN109658921A publication Critical patent/CN109658921A/zh
Priority to PCT/CN2019/116962 priority patent/WO2020140607A1/zh
Application granted granted Critical
Publication of CN109658921B publication Critical patent/CN109658921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种语音信号处理方法、设备及计算机可读存储介质,其中方法包括:获取面试过程中面试者发出的语音信号;根据第一预设时长对语音信号进行加窗分帧处理,将语音信号拆分为多段第二预设时长的语音帧,第二预设时长小于或等于第一预设时长;对每一段第二预设时长的语音帧进行去噪处理,并将去噪处理后的所有第二预设时长的语音帧转换为语音信号序列;将语音信号序列输入语音识别模型进行分类处理,确定出与语音信号序列对应的目标语音类别;根据预设的语音类别与分数的对应关系,确定与目标语音类别对应的目标分数,并确定与所述目标分数对应的目标语音等级。通过这种方式,可提高语音识别的效率和准确性,从而提高面试效率。

Description

一种语音信号处理方法、设备及计算机可读存储介质
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音信号处理方法、设备及计算机可读存储介质。
背景技术
招聘是每个企业必不可少的一个环节,招聘效率不管是对企业的下一步发展战略还是企业成本都是至关重要的。客服作为企业基础岗位之一,在客服招聘过程中,面试官主要通过与面试者的面对面的交流来判断其语音是否满足客服要求。然而由于应聘量较大,需要处理的简历多,带来了较大的工作量。因此如何更有效地提高客服招聘效率成为研究的重点。
发明内容
本发明实施例提供一种信号处理方法、设备及计算机可读存储介质,可提高语音识别效率,从而提高面试效率。
第一方面,本发明实施例提供了一种信号处理方法,该方法包括:
获取面试过程中面试者发出的语音信号;
根据第一预设时长对所述语音信号进行加窗分帧处理,将所述语音信号拆分为多段第二预设时长的语音帧,所述第二预设时长小于或等于所述第一预设时长;
对每一段所述第二预设时长的语音帧进行去噪处理,并将去噪处理后的所有所述第二预设时长的语音帧转换为语音信号序列;
将所述语音信号序列输入语音识别模型进行分类处理,确定出与所述语音信号序列对应的目标语音类别;
根据预设的语音类别与分数的对应关系,确定与所述目标语音类别对应的目标分数,并根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级,以便根据所述目标语音等级确定所述面试者是否面试成功。
进一步地,所述将所述语音信号序列输入语音识别模型进行分类处理之前,还包括:
获取样本数据集,所述样本数据集中包括样本语音信号序列和样本语音信号的类别;
根据预设的识别算法生成初始识别模型;
基于所述样本语音信号序列和所述样本语音信号的类别对所述初始识别模型进行训练,得到所述语音识别模型。
进一步地,所述获取样本数据集之前,还包括:
获取样本语音信号,其中,所述样本语音信号携带了分数信息;
根据预设的分数信息与语音类别的对应关系,确定与所述样本语音信号所携带的分数信息对应的语音类别。
进一步地,所述获取样本数据集,包括:
根据第三预设时长对所述样本语音信号进行加窗分帧处理,将所述样本语音信号拆分为多段第四预设时长的样本语音帧,所述第四预设时长小于或等于所述第三预设时长;
对每一段所述第四预设时长的样本语音帧进行去噪处理,并将去噪处理后的所有所述第二预设时长的样本语音帧转换为样本语音信号序列;
确定所述样本语音信号序列和所述样本语音信号对应的语音类别为所述样本数据集。
进一步地,所述将所述语音信号序列输入语音识别模型进行分类处理,确定出与所述语音信号序列对应的目标语音类别,包括:
计算所述语音信号序列与所述语音识别模型中各样本语音信号序列的相似度;
获取所述相似度大于预设阈值的至少一个样本语音信号序列;
从所述至少一个样本语音信号序列中,确定出所述相似度最大的样本语音信号序列所对应的目标语音类别。
进一步地,所述将所述语音信号序列输入语音识别模型进行分类处理,确定出与所述语音信号序列对应的目标语音类别,包括:
根据预设的归一化指数函数,计算所述语音信号序列属于各语音类别的概率,并确定所述语音信号序列属于各语音类别的最大概率值;
将所述最大概率值所对应的语音类别确定为与所述语音信号序列对应的目标语音类别。
进一步地,所述根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级,以便根据所述目标语音等级确定所述面试者是否面试成功,包括:
根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级;
判断所述目标语音等级是否大于预设等级阈值;
如果判断结果出所述目标语音等级大于预设等级阈值,则将所述目标语音等级与面试者的用户标识的对应关系存储至数据库;
当面试结束时,按照目标语音等级从高到底的顺序从所述数据库筛选出预设数量的目标用户标识,并确定所述目标用户标识对应的面试者面试成功。
第二方面,本发明实施例提供了一种信号处理设备,该信号处理设备包括用于执行上述第一方面的信号处理方法的单元。
第三方面,本发明实施例提供了另一种信号处理设备,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储支持信号处理设备执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
本发明实施例中,信号处理设备可以根据第一预设时长对在面试过程中获取到的面试者发出的语音信号进行加窗分帧处理,并将所述语音信号拆分为多段第二预设时长的语音帧。所述信号处理设备可以对每一段第二预设时长的语音帧进行去噪处理,并将去噪处理后的所有第二预设时长的语音帧转换为语音信号序列,以及将所述语音信号序列输入语音识别模型进行分类处理,确定出与所述语音信号序列对应的目标语音类别,从而根据预设的语音类别与分数的对应关系,确定出与所述目标语音类别对应的目标分数,并根据所述目标分数确定出目标语音等级,以便根据目标语音等级判断所述面试者是否面试成功。通过这种方式,可提高语音识别的效率和准确性,从而提高面试效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语音信号处理方法的示意流程图;
图2是本发明实施例提供的另一种语音信号处理方法的示意流程图;
图3是本发明实施例提供的一种语音信号处理设备的示意框图;
图4是本发明实施例提供的另一种语音信号处理设备的示意框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的语音信号处理方法可以由一种语音信号处理设备执行,其中,在某些实施例中,所述语音信号处理设备可以设置在手机、电脑、平板、智能手表等智能终端上。所述语音信号处理设备可以获取面试过程中面试者发出的语音信号,并根据第一预设时长对所述语音信号进行加窗分帧处理,以及将所述语音信号拆分为多段第二预设时长的语音帧,所述第二预设时长小于或等于所述第一预设时长。所述语音信号处理设备可以对每一段所述第二预设时长的语音帧进行去噪处理,并将去噪处理后的所有所述第二预设时长的语音帧转换为语音信号序列,以及将所述语音信号序列输入语音识别模型进行分类处理,确定出与所述语音信号序列对应的目标语音类别。所述语音信号处理设备在确定出与所述语音信号序列对应的目标语音类别之后,可以根据预设的语音类别与分数的对应关系,确定与所述目标语音类别对应的目标分数,并根据所述目标分数确定所述面试者是否面试成功。下面结合附图对本发明实施例的语音信号处理方法进行示意性说明。
请参见图1,图1是本发明实施例提供的一种语音信号处理方法的示意流程图,如图1所示,该方法可以由语音信号处理设备执行,所述语音信号处理设备的具体解释如前所述,此处不再赘述。具体地,本发明实施例的所述方法包括如下步骤。
S101:获取面试过程中面试者发出的语音信号。
本发明实施例中,语音信号处理设备可以获取面试过程中面试者发出的语音信号。
在一个实施例中,所述语音信号处理设备在获取每个面试者的语音信号时,可以可以预先在安静的环境下,通过传感器获取语音信号,并对每个语音信号配置一个用户标识,所述用户标识用于区分不同的面试者的语音信号。所述语音信号处理设备可以将收集到的各语音信号与用户标识的对应关系存储至数据库,其中,所述传感器可以是一种可穿戴设备,也可以是其他智能终端。在某些实施例中,本发明实施例可以通过一种可穿戴设备来全程获取面试过程中多个面试者发出的语音信号,并且可以将所述语音信号实时传输到云端服务器进行处理。
具体可举例说明,假设预设数量为50,则语音信号处理设备收集50人在无外界语音干扰的环境下的语音信息。首先通过传感器来采集语音信号,记录了50位人员的语音,每位面试者的语音记录30分钟。对于所有的记录,压电传感器的采样率为44.1kHz,然后再采样到16kHz。其中,需要说明的是,不同的采样率,选取的数据是不一样的。
S102:根据第一预设时长对所述语音信号进行加窗分帧处理,将所述语音信号拆分为多段第二预设时长的语音帧。
本发明实施例中,语音信号处理设备可以根据第一预设时长对所述语音信号进行加窗分帧处理,将所述语音信号拆分为多段第二预设时长的语音帧;在某些实施例中,所述第二预设时长小于或等于所述第一预设时长。在某些实施例中,语音信号在宏观上是不平稳的,在微观上是平稳的,具有短时平稳性(如10---30ms内可以认为语音信号近似不变),因此就可以将语音信号分为一些短段来进行处理,且每一个短段称为一帧,从而实现对语音信号的分帧处理。在某些是实施例中,加窗是指与一个窗函数相乘,加窗之后是为了进行傅里叶展开,使全局更加连续,避免出现吉布斯效应,加窗之后原本没有周期性的语音信号呈现出周期函数的部分特征。
例如,假设第一预设时长为30ms,如果第二预设时长为10ms,则所述语音信号处理设备可以对所述语音信号进行加窗分帧处理,将所述语音信号拆分为3段第二预设时长为10ms的语音帧。
S103:对每一段所述第二预设时长的语音帧进行去噪处理,并将去噪处理后的所有所述第二预设时长的语音帧转换为语音信号序列。
本发明实施例中,语音信号处理设备可以对每一段所述第二预设时长的语音帧进行去噪处理,并将去噪处理后的所有所述第二预设时长的语音帧转换为语音信号序列。在一些实施例中,所述语音信号处理设备在对每一段第二预设时长的语音帧进行去噪处理时,可以根据预设的去噪算法对每一段第二预设时长的语音帧进行去噪处理。在某些实施例中,所述去噪算法可以是自适应滤波器、谱减法、维纳滤波法等任意一种;在其他实施例中,所述去噪算法还可以采用其他算法,本发明实施例不做具体限定。
在一个实施例中,所述语音信号处理设备在将去噪处理后的所有所述第二预设时长的语音帧转换为语音信号序列时,可以采用离散余弦变换的方式,将所述去噪处理后的所有所述第二预设时长的语音帧转换为语音信号序列。在某些实施例中,所述离散余弦变换是是与傅里叶变换相关的一种变换,它类似于离散傅里叶变换,但是只使用实数。离散余弦变换相当于一个长度大概是它两倍的离散傅里叶变换,这个离散傅里叶变换是对一个实偶函数进行的(因为一个实偶函数的傅里叶变换仍然是一个实偶函数)。在其他实施例中,所述语音信号处理设备还可以采用其他方式对每一段所述第二预设时长的语音帧进行转换。
S104:将所述语音信号序列输入语音识别模型进行分类处理,确定出与所述语音信号序列对应的目标语音类别。
本发明实施例中,语音信号处理设备可以将所述语音信号序列输入语音识别模型进行分类处理,确定出与所述语音信号序列对应的目标语音类别。在某些实施例中,所述语音类别可以包括n个类别,所述n为大于0的正整数,所述语言的分类可以根据声音的甜美、柔和、浑厚、沙哑、高亢、磁性、浮躁等进行分类,本发明实施例不做具体限定。
在一个实施例中,所述语音信号处理设备在将所述语音信号序列输入语音识别模型进行分类处理之前,还可以获取样本数据集,并根据预设的识别算法生成初始识别模型以及基于所述样本语音信号序列和所述样本语音信号的类别对所述初始识别模型进行训练,得到所述语音识别模型。在某些实施例中,所述样本数据集中包括样本语音信号序列和样本语音信号的类别。
在一些实施例中,所述语音识别模型是通过用一个6层的编码-解码结构实现的循环神经网络(Recurrent Neural Network,RNN),这个结构可以使RNN处理和分类任意长度的语音信号序列。在某些实施例中,所述6层编码-解码结构包括:编码器、固定的编码层、解码器和分类层,其中,所述编码器由3层组成,包括:128神经元和64神经元的2个双向循环层、32个循环神经元的单向层。
具体介绍如下:
1)编码器:由3层组成的,包括分别为128神经元和64神经元的2个双向循环层,有32个循环神经元的单向层。我们的编码器被设置为可以处理最大长度为我们设定的值的任意序列。所述编码器是利用神经网络进行编码建模的过程,会有几层结构,将原来的语音数据进行了映射做了压缩。
2)固定的编码层:编码器输出的最后一层是一个固定参数的有32神经元的激活层,被用来初始化解码器。
3)解码器:由一个单独的循环层构成,它具有64个长短时记忆(LSTM)单元,且结合了注意力机制。注意力机制使该网络主要关注输入特性的显著部分,并最终提高分类性能。目前,我们的解码器设置为对每个输入序列输出一个单一的标签,即1-5档次中的一种。其中,所述解码器:是把之前压缩的数据,进行转换解码,最后输出分类的工作。
4)分类:最后的分类层使用softmax函数输出一个分类标签。Softmax函数可以将输入映射称为(0,1)的值,将这个值理解为概率。分类就是把人的语音分成多个档次的过程。
Softmax函数会对每个分类输出一个概率出来。例如,(类1,0.2)(类2,0.1),(类3,0.01),(类4,0.01),(类5,0.68)。我们通过比较概率,选出类5作为最后的类,这个就是softmax函数的分类作用。
在一个实施例中,所述语音信号处理设备在获取样本数据集之前,还可以获取样本语音信号,并根据预设的分数信息与语音类别的对应关系,确定与所述样本语音信号所携带的分数信息对应的语音类别。在某些实施例中,所述样本语音信号携带了分数信息。例如,假设所述预设的语音类别可以包括5个类别,且分别为第一类别,第二类别,第三类别,第四类别,第五类别;其中,所述预设的分数信息与语音类别的对应关系为:第一类别对应第一分数范围,所述第二类别对应第二分数范围,所述第三类别对应第三分数范围,所述第四类别对应第四分数范围,所述第五类别对应第五分数范围。在某些实施例中,从所述第一类别至第五类别的语音类别可以依次为:很难听,难听,一般,好听,很好听。
在一个实施例中,所述语音信号处理设备在获取样本数据集时,所述语音信号处理设备可以根据第三预设时长对所述样本语音信号进行加窗分帧处理,将所述样本语音信号拆分为多段第四预设时长的样本语音帧,并对每一段所述第四预设时长的样本语音帧进行去噪处理,以及将去噪处理后的所有所述第二预设时长的样本语音帧转换为样本语音信号序列,从而确定所述样本语音信号序列和所述样本语音信号对应的语音类别为所述样本数据集。在某些实施例中,所述第四预设时长小于或等于所述第三预设时长。
在一个实施例中,所述语音信号处理设备可以根据所述语音信号序列与所述语音识别模型中各样本语音信号序列的相似度,来确定与所述语音信号序列对应的目标语音类别。在某些实施例中,所述语音信号处理设备还可以根据所述语音信号序列属于各语音类别的概率,来确定与所述语音信号序列对应的目标语音类别。
S105:根据预设的语音类别与分数的对应关系,确定与所述目标语音类别对应的目标分数,并根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级。
本发明实施例中,根据预设的语音类别与分数的对应关系,确定与所述目标语音类别对应的目标分数,并根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级,以便根据所述目标语音等级确定所述面试者是否面试成功。
在一个实施例中,所述语音信号处理设备在根据所述目标分数确定所述面试者是否面试成功时,可以根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级;判断所述目标语音等级是否大于预设等级阈值;如果判断结果出所述目标语音等级大于预设等级阈值,则将所述目标语音等级与面试者的用户标识的对应关系存储至数据库;当面试结束时,按照目标语音等级从高到底的顺序从所述数据库筛选出预设数量的目标用户标识,并确定所述目标用户标识对应的面试者面试成功。
在一个实施例中,如果所述语音信号处理设备在预设时间间隔内未接收到面试这发出的语音信号,则触发所述语音信号处理设备确定面试结束,以对所述数据库中的分数进行筛选。在某些实施例中,所述语音信号处理设备还可以通过获取到的面试结束指令,来确定面试结束。在某些实施例中,所述面试结束指令可以是用户通过语音信号处理设备上的面试结束操作触发的,所述面试结束操作可以通过对结束按钮、结束开关等操作实现;当然在其他实施例中,本发明实施例还可以采用其他方式来触发面试结束操作,本发明实施例不做具体限定。
本发明实施例中,语音信号处理设备可以根据第一预设时长对在面试过程中获取到的面试者发出的语音信号进行加窗分帧处理,并将所述语音信号拆分为多段第二预设时长的语音帧。所述语音信号处理设备可以对每一段第二预设时长的语音帧进行去噪处理,并将去噪处理后的所有第二预设时长的语音帧转换为语音信号序列,以及将所述语音信号序列输入语音识别模型进行分类处理,确定出与所述语音信号序列对应的目标语音类别,从而根据预设的语音类别与分数的对应关系,确定出与所述目标语音类别对应的目标分数,并根据所述目标分数确定所述面试者是否面试成功。通过这种方式,可提高语音识别的效率和准确性,从而提高面试效率。
请参见图2,图2是本发明实施例提供的另一种语音信号处理方法的示意流程图,如图2所示,该方法可以由语音信号处理设备执行,该语音信号处理设备的具体解释如前所述,此处不再赘述。本发明实施例与上述图1所述实施例的区别在于,本发明实施例是对根据语音信号序列确定出与所述语音信号序列对应的目标语音类别的实施过程进行示意性说明。具体地,本发明实施例的所述方法包括如下步骤。
S201:获取面试过程中面试者发出的语音信号。
本发明实施例中,语音信号处理设备可以获取面试过程中面试者发出的语音信号。
S202:根据第一预设时长对所述语音信号进行加窗分帧处理,将所述语音信号拆分为多段第二预设时长的语音帧。
本发明实施例中,语音信号处理设备可以根据第一预设时长对所述语音信号进行加窗分帧处理,将所述语音信号拆分为多段第二预设时长的语音帧。具体实施例及举例如前所述,此处不再赘述。
S203:对每一段所述第二预设时长的语音帧进行去噪处理,并将去噪处理后的所有所述第二预设时长的语音帧转换为语音信号序列。
本发明实施例中,语音信号处理设备可以对每一段所述第二预设时长的语音帧进行去噪处理,并将去噪处理后的所有所述第二预设时长的语音帧转换为语音信号序列。具体实施例如前所述,此处不在赘述。
S204:计算所述语音信号序列与语音识别模型中各样本语音信号序列的相似度。
本发明实施例中,语音信号处理设备可以计算所述语音信号序列与语音识别模型中各样本语音信号序列的相似度。在某些实施例中,所述语音信号处理设备可以通过余弦相似度算法,来计算所述语音信号序列与语音识别模型中各样本语音信号序列的相似度。在其他实施例中,所述语音信号处理设备也可以通过其他计算相似度的算法,来计算所述语音信号序列与语音识别模型中各样本语音信号序列的相似度,本发明实施例不做具体限定。
S205:获取所述相似度大于预设阈值的至少一个样本语音信号序列。
本发明实施例中,语音信号处理设备可以获取所述相似度大于预设阈值的至少一个样本语音信号序列。
在一个实施例中,所述语音信号处理设备在计算出所述语音信号序列与语音识别模型中各样本语音信号序列的相似度之后,可以检测各相似度是否大于预设阈值,并从所述语音识别模型的各样本语音信号序列中获取所述相似度大于预设阈值的至少一个样本语音信号序列。
S206:从所述至少一个样本语音信号序列中,确定出所述相似度最大的样本语音信号序列所对应的目标语音类别。
本发明实施例中,语音信号处理设备可以从所述至少一个样本语音信号序列中,确定出所述相似度最大的样本语音信号序列所对应的目标语音类别。
例如,假设所述语音信号处理设备获取到所述相似度大于预设阈值的n个样本语音信号序列,则所述语音信号处理设备可以从所述n个样本语音信号序列中,确定出所述相似度最大的样本语音信号序列所对应的目标语音类别。
在一个实施例中,所述语音信号处理设备在确定与所述语音信号序列对应的目标语音类别时,还可以根据预设的归一化指数函数(即softmax函数),计算所述语音信号序列属于各语音类别的概率,并确定所述语音信号序列属于各语音类别的最大概率值,从而将所述最大概率值所对应的语音类别确定为与所述语音信号序列对应的目标语音类别。
在一些实施例中,所述softmax函数的形式通常按下面的式子给出:
其中,所述softmax函数是将一个含任意实数的K维向量zk“压缩”到另一个K维实向量σ(z)j中,使得σ(z)j的范围在(0,1)之间,并且所有元素的和为1。其中,该j=1,…,K,k=1,…,K。Softmax函数实际上是有限项离散概率分布的梯度对数归一化。因此,Softmax函数在包括多项逻辑回归,多项线性判别分析,朴素贝叶斯分类器和人工神经网络等的多种基于概率的多分类问题方法中都有着广泛应用。
S207:根据预设的语音类别与分数的对应关系,确定与所述目标语音类别对应的目标分数,并根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级。
本发明实施例中,语音信号处理设备可以根据预设的语音类别与分数的对应关系,确定与所述目标语音类别对应的目标分数,并根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级,以便根据所述目标语音等级确定所述面试者是否面试成功。具体实施例如前所述,此处不再赘述。
本发明实施例中,语音信号处理设备可以获取面试过程中面试者发出的语音信号,并根据第一预设时长对所述语音信号进行加窗分帧处理,以及将所述语音信号拆分为多段第二预设时长的语音帧。所述语音信号处理设备可以对每一段所述第二预设时长的语音帧进行去噪处理,并将去噪处理后的所有所述第二预设时长的语音帧转换为语音信号序列,以及计算所述语音信号序列与语音识别模型中各样本语音信号序列的相似度。所述语音信号处理设备可以获取所述相似度大于预设阈值的至少一个样本语音信号序列,并从所述至少一个样本语音信号序列中,确定出所述相似度最大的样本语音信号序列所对应的目标语音类别。所述语音信号处理设备可以根据预设的语音类别与分数的对应关系,确定与所述目标语音类别对应的目标分数,并根据所述目标分数确定所述面试者是否面试成功。通过这种方式,可提高语音识别的效率和准确性,从而提高面试效率。
本发明实施例还提供了一种语音信号处理设备,该语音信号处理设备用于执行前述任一项所述的方法的单元。具体地,参见图3,图3是本发明实施例提供的一种语音信号处理设备的示意框图。本实施例的语音信号处理设备包括:获取单元301、拆分单元302、去噪单元303、分类单元304以及确定单元305。
获取单元301,用于获取面试过程中面试者发出的语音信号;
拆分单元302,用于根据第一预设时长对所述语音信号进行加窗分帧处理,将所述语音信号拆分为多段第二预设时长的语音帧,所述第二预设时长小于或等于所述第一预设时长;
去噪单元303,用于对每一段所述第二预设时长的语音帧进行去噪处理,并将去噪处理后的所有所述第二预设时长的语音帧转换为语音信号序列;
分类单元304,用于将所述语音信号序列输入语音识别模型进行分类处理,确定出与所述语音信号序列对应的目标语音类别;
确定单元305,用于根据预设的语音类别与分数的对应关系,确定与所述目标语音类别对应的目标分数,并根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级,以便根据所述目标语音等级确定所述面试者是否面试成功。
进一步地,所述分类单元304将所述语音信号序列输入语音识别模型进行分类处理之前,还用于:
获取样本数据集,所述样本数据集中包括样本语音信号序列和样本语音信号的类别;
根据预设的识别算法生成初始识别模型;
基于所述样本语音信号序列和所述样本语音信号的类别对所述初始识别模型进行训练,得到所述语音识别模型。
进一步地,所述分类单元304获取样本数据集之前,还用于:
获取样本语音信号,其中,所述样本语音信号携带了分数信息;
根据预设的分数信息与语音类别的对应关系,确定与所述样本语音信号所携带的分数信息对应的语音类别。
进一步地,所述分类单元304获取样本数据集时,具体用于:
根据第三预设时长对所述样本语音信号进行加窗分帧处理,将所述样本语音信号拆分为多段第四预设时长的样本语音帧,所述第四预设时长小于或等于所述第三预设时长;
对每一段所述第四预设时长的样本语音帧进行去噪处理,并将去噪处理后的所有所述第二预设时长的样本语音帧转换为样本语音信号序列;
确定所述样本语音信号序列和所述样本语音信号对应的语音类别为所述样本数据集。
进一步地,所述分类单元304将所述语音信号序列输入语音识别模型进行分类处理,确定出与所述语音信号序列对应的目标语音类别时,具体用于:
计算所述语音信号序列与所述语音识别模型中各样本语音信号序列的相似度;
获取所述相似度大于预设阈值的至少一个样本语音信号序列;
从所述至少一个样本语音信号序列中,确定出所述相似度最大的样本语音信号序列所对应的目标语音类别。
进一步地,所述分类单元304将所述语音信号序列输入语音识别模型进行分类处理,确定出与所述语音信号序列对应的目标语音类别时,具体用于:
根据预设的归一化指数函数,计算所述语音信号序列属于各语音类别的概率,并确定所述语音信号序列属于各语音类别的最大概率值;
将所述最大概率值所对应的语音类别确定为与所述语音信号序列对应的目标语音类别。
进一步地,所述确定单元305根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级,以便根据所述目标语音等级确定所述面试者是否面试成功时,具体用于:
根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级;
判断所述目标语音等级是否大于预设等级阈值;
如果判断结果出所述目标语音等级大于预设等级阈值,则将所述目标语音等级与面试者的用户标识的对应关系存储至数据库;
当面试结束时,按照目标语音等级从高到底的顺序从所述数据库筛选出预设数量的目标用户标识,并确定所述目标用户标识对应的面试者面试成功。
本发明实施例中,语音信号处理设备可以根据第一预设时长对在面试过程中获取到的面试者发出的语音信号进行加窗分帧处理,并将所述语音信号拆分为多段第二预设时长的语音帧。所述语音信号处理设备可以对每一段第二预设时长的语音帧进行去噪处理,并将去噪处理后的所有第二预设时长的语音帧转换为语音信号序列,以及将所述语音信号序列输入语音识别模型进行分类处理,确定出与所述语音信号序列对应的目标语音类别,从而根据预设的语音类别与分数的对应关系,确定与所述目标语音类别对应的目标分数,并根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级,以便根据所述目标语音等级确定所述面试者是否面试成功。通过这种方式,可提高语音识别的效率和准确性,从而提高面试效率。
参见图4,图4是本发明实施例提供的另一种语音信号处理设备示意框图。如图所示的本实施例中的语音信号处理设备可以包括:一个或多个处理器401;一个或多个输入设备402,一个或多个输出设备403和存储器404。上述处理器401、输入设备402、输出设备403和存储器404通过总线405连接。存储器404用于存储计算机程序,所述计算机程序包括程序指令,处理器401用于执行存储器404存储的程序指令。其中,处理器401被配置用于调用所述程序指令执行:
获取面试过程中面试者发出的语音信号;
根据第一预设时长对所述语音信号进行加窗分帧处理,将所述语音信号拆分为多段第二预设时长的语音帧,所述第二预设时长小于或等于所述第一预设时长;
对每一段所述第二预设时长的语音帧进行去噪处理,并将去噪处理后的所有所述第二预设时长的语音帧转换为语音信号序列;
将所述语音信号序列输入语音识别模型进行分类处理,确定出与所述语音信号序列对应的目标语音类别;
根据预设的语音类别与分数的对应关系,确定与所述目标语音类别对应的目标分数,并根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级,以便根据所述目标语音等级确定所述面试者是否面试成功。
进一步地,所述处理器401将所述语音信号序列输入语音识别模型进行分类处理之前,还用于:
获取样本数据集,所述样本数据集中包括样本语音信号序列和样本语音信号的类别;
根据预设的识别算法生成初始识别模型;
基于所述样本语音信号序列和所述样本语音信号的类别对所述初始识别模型进行训练,得到所述语音识别模型。
进一步地,所述处理器401获取样本数据集之前,还用于:
获取样本语音信号,其中,所述样本语音信号携带了分数信息;
根据预设的分数信息与语音类别的对应关系,确定与所述样本语音信号所携带的分数信息对应的语音类别。
进一步地,所述处理器401获取样本数据集时,具体用于:
根据第三预设时长对所述样本语音信号进行加窗分帧处理,将所述样本语音信号拆分为多段第四预设时长的样本语音帧,所述第四预设时长小于或等于所述第三预设时长;
对每一段所述第四预设时长的样本语音帧进行去噪处理,并将去噪处理后的所有所述第二预设时长的样本语音帧转换为样本语音信号序列;
确定所述样本语音信号序列和所述样本语音信号对应的语音类别为所述样本数据集。
进一步地,所述处理器401将所述语音信号序列输入语音识别模型进行分类处理,确定出与所述语音信号序列对应的目标语音类别时,具体用于:
计算所述语音信号序列与所述语音识别模型中各样本语音信号序列的相似度;
获取所述相似度大于预设阈值的至少一个样本语音信号序列;
从所述至少一个样本语音信号序列中,确定出所述相似度最大的样本语音信号序列所对应的目标语音类别。
进一步地,所述处理器401将所述语音信号序列输入语音识别模型进行分类处理,确定出与所述语音信号序列对应的目标语音类别时,具体用于:
根据预设的归一化指数函数,计算所述语音信号序列属于各语音类别的概率,并确定所述语音信号序列属于各语音类别的最大概率值;
将所述最大概率值所对应的语音类别确定为与所述语音信号序列对应的目标语音类别。
进一步地,所述处理器401根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级,以便根据所述目标语音等级确定所述面试者是否面试成功时,具体用于:
根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级;
判断所述目标语音等级是否大于预设等级阈值;
如果判断结果出所述目标语音等级大于预设等级阈值,则将所述目标语音等级与面试者的用户标识的对应关系存储至数据库;
当面试结束时,按照目标语音等级从高到底的顺序从所述数据库筛选出预设数量的目标用户标识,并确定所述目标用户标识对应的面试者面试成功。
本发明实施例中,语音信号处理设备可以根据第一预设时长对在面试过程中获取到的面试者发出的语音信号进行加窗分帧处理,并将所述语音信号拆分为多段第二预设时长的语音帧。所述语音信号处理设备可以对每一段第二预设时长的语音帧进行去噪处理,并将去噪处理后的所有第二预设时长的语音帧转换为语音信号序列,以及将所述语音信号序列输入语音识别模型进行分类处理,确定出与所述语音信号序列对应的目标语音类别,从而根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级,以便根据所述目标语音等级确定所述面试者是否面试成功。通过这种方式,可提高语音识别的效率和准确性,从而提高面试效率。
应当理解,在本发明实施例中,所称处理器401可以是中央处理单元(CenSralProcessing UniS,CPU),该处理器还可以是其他通用处理器、数字语音信号处理器(DigiSal Signal Processor,DSP)、专用集成电路(ApplicaSion Specific InSegraSedCircuiS,ASIC)、现成可编程门阵列(Field-Programmable GaSe Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备402可以包括触控板、麦克风等,输出设备403可以包括显示器(LCD等)、扬声器等。
该存储器404可以包括只读存储器和随机存取存储器,并向处理器401提供指令和数据。存储器404的一部分还可以包括非易失性随机存取存储器。例如,存储器404还可以存储设备类型的信息。
具体实现中,本发明实施例中所描述的处理器401、输入设备402、输出设备403可执行本发明实施例提供的图1或图2所述的语音信号处理方法实施例中所描述的实现方式,也可执行本发明实施例图3或图4所描述的语音信号处理设备的实现方式,在此不再赘述。
本发明实施例中还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现图1或图2所对应实施例中描述的语音信号处理方法,也可实现本发明图3或图4所对应实施例的语音信号处理设备,在此不再赘述。
所述计算机可读存储介质可以是前述任一实施例所述的语音信号处理设备的内部存储单元,例如语音信号处理设备的硬盘或内存。所述计算机可读存储介质也可以是所述语音信号处理设备的外部存储设备,例如所述语音信号处理设备上配备的插接式硬盘,智能存储卡(SmarS Media Card,SMC),安全数字(Secure DigiSal,SD)卡,闪存卡(FlashCard)等。进一步地,所述计算机可读存储介质还可以既包括所述语音信号处理设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述语音信号处理设备所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的部分实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种语音信号处理方法,其特征在于,包括:
获取面试过程中面试者发出的语音信号;
根据第一预设时长对所述语音信号进行加窗分帧处理,将所述语音信号拆分为多段第二预设时长的语音帧,所述第二预设时长小于或等于所述第一预设时长;
对每一段所述第二预设时长的语音帧进行去噪处理,并将去噪处理后的所有所述第二预设时长的语音帧转换为语音信号序列;
将所述语音信号序列输入语音识别模型进行分类处理,确定出与所述语音信号序列对应的目标语音类别;
根据预设的语音类别与分数的对应关系,确定与所述目标语音类别对应的目标分数,并根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级,以便根据所述目标语音等级确定所述面试者是否面试成功。
2.根据权利要求1所述的方法,其特征在于,所述将所述语音信号序列输入语音识别模型进行分类处理之前,还包括:
获取样本数据集,所述样本数据集中包括样本语音信号序列和样本语音信号的类别;
根据预设的识别算法生成初始识别模型;
基于所述样本语音信号序列和所述样本语音信号的类别对所述初始识别模型进行训练,得到所述语音识别模型。
3.根据权利要求2所述的方法,其特征在于,所述获取样本数据集之前,还包括:
获取样本语音信号,其中,所述样本语音信号携带了分数信息;
根据预设的分数信息与语音类别的对应关系,确定与所述样本语音信号所携带的分数信息对应的语音类别。
4.根据权利要求3所述的方法,其特征在于,所述获取样本数据集,包括:
根据第三预设时长对所述样本语音信号进行加窗分帧处理,将所述样本语音信号拆分为多段第四预设时长的样本语音帧,所述第四预设时长小于或等于所述第三预设时长;
对每一段所述第四预设时长的样本语音帧进行去噪处理,并将去噪处理后的所有所述第二预设时长的样本语音帧转换为样本语音信号序列;
确定所述样本语音信号序列和所述样本语音信号对应的语音类别为所述样本数据集。
5.根据权利要求4所述的方法,其特征在于,所述将所述语音信号序列输入语音识别模型进行分类处理,确定出与所述语音信号序列对应的目标语音类别,包括:
计算所述语音信号序列与所述语音识别模型中各样本语音信号序列的相似度;
获取所述相似度大于预设阈值的至少一个样本语音信号序列;
从所述至少一个样本语音信号序列中,确定出所述相似度最大的样本语音信号序列所对应的目标语音类别。
6.根据权利要求4所述的方法,其特征在于,所述将所述语音信号序列输入语音识别模型进行分类处理,确定出与所述语音信号序列对应的目标语音类别,包括:
根据预设的归一化指数函数,计算所述语音信号序列属于各语音类别的概率,并确定所述语音信号序列属于各语音类别的最大概率值;
将所述最大概率值所对应的语音类别确定为与所述语音信号序列对应的目标语音类别。
7.根据权利要求1所述的方法,其特征在于,所述根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级,以便根据所述目标语音等级确定所述面试者是否面试成功,包括:
根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级;
判断所述目标语音等级是否大于预设等级阈值;
如果判断结果出所述目标语音等级大于预设等级阈值,则将所述目标语音等级与面试者的用户标识的对应关系存储至数据库;
当面试结束时,按照目标语音等级从高到底的顺序从所述数据库筛选出预设数量的目标用户标识,并确定所述目标用户标识对应的面试者面试成功。
8.一种信号处理设备,其特征在于,包括用于执行如权利要求1-7任一项权利要求所述的方法的单元。
9.一种语音信号处理设备,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
CN201910014077.7A 2019-01-04 2019-01-04 一种语音信号处理方法、设备及计算机可读存储介质 Active CN109658921B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910014077.7A CN109658921B (zh) 2019-01-04 2019-01-04 一种语音信号处理方法、设备及计算机可读存储介质
PCT/CN2019/116962 WO2020140607A1 (zh) 2019-01-04 2019-11-11 一种语音信号处理方法、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910014077.7A CN109658921B (zh) 2019-01-04 2019-01-04 一种语音信号处理方法、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109658921A true CN109658921A (zh) 2019-04-19
CN109658921B CN109658921B (zh) 2024-05-28

Family

ID=66119555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910014077.7A Active CN109658921B (zh) 2019-01-04 2019-01-04 一种语音信号处理方法、设备及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN109658921B (zh)
WO (1) WO2020140607A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110265025A (zh) * 2019-06-13 2019-09-20 赵斌 一种运用语音和视频设备的面试内容记录系统
CN110503952A (zh) * 2019-07-29 2019-11-26 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN111292766A (zh) * 2020-02-07 2020-06-16 北京字节跳动网络技术有限公司 用于生成语音样本的方法、装置、电子设备和介质
WO2020140607A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 一种语音信号处理方法、设备及计算机可读存储介质
CN111696580A (zh) * 2020-04-22 2020-09-22 广州多益网络股份有限公司 一种语音检测方法、装置、电子设备及存储介质
CN112233664A (zh) * 2020-10-15 2021-01-15 北京百度网讯科技有限公司 网络的训练方法、装置、设备以及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113889075A (zh) * 2021-11-02 2022-01-04 合肥智能语音创新发展有限公司 语音识别方法及相关装置、电子设备、存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065626A (zh) * 2012-12-20 2013-04-24 中国科学院声学研究所 英语口语考试系统中的朗读题自动评分方法和设备
CN104732977A (zh) * 2015-03-09 2015-06-24 广东外语外贸大学 一种在线口语发音质量评价方法和系统
CN107680597A (zh) * 2017-10-23 2018-02-09 平安科技(深圳)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
CN108877835A (zh) * 2018-05-31 2018-11-23 深圳市路通网络技术有限公司 评价语音信号的方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739867B (zh) * 2008-11-19 2012-03-28 中国科学院自动化研究所 运用计算机对口语翻译质量进行评分的方法
CN104573126A (zh) * 2015-02-10 2015-04-29 同方知网(北京)技术有限公司 一种基于专利全文的专利附图标注的附图展示方式
CN106407976B (zh) * 2016-08-30 2019-11-05 百度在线网络技术(北京)有限公司 图像字符识别模型生成和竖列字符图像识别方法和装置
CN106777083A (zh) * 2016-12-13 2017-05-31 四川研宝科技有限公司 一种标记图片中物体的方法及装置
CN109829457B (zh) * 2019-01-04 2024-07-19 平安科技(深圳)有限公司 一种图像数据处理方法、设备及计算机可读存储介质
CN109658921B (zh) * 2019-01-04 2024-05-28 平安科技(深圳)有限公司 一种语音信号处理方法、设备及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065626A (zh) * 2012-12-20 2013-04-24 中国科学院声学研究所 英语口语考试系统中的朗读题自动评分方法和设备
CN104732977A (zh) * 2015-03-09 2015-06-24 广东外语外贸大学 一种在线口语发音质量评价方法和系统
CN107680597A (zh) * 2017-10-23 2018-02-09 平安科技(深圳)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
CN108877835A (zh) * 2018-05-31 2018-11-23 深圳市路通网络技术有限公司 评价语音信号的方法及系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020140607A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 一种语音信号处理方法、设备及计算机可读存储介质
CN110265025A (zh) * 2019-06-13 2019-09-20 赵斌 一种运用语音和视频设备的面试内容记录系统
CN110503952A (zh) * 2019-07-29 2019-11-26 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN110503952B (zh) * 2019-07-29 2022-02-22 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN111292766A (zh) * 2020-02-07 2020-06-16 北京字节跳动网络技术有限公司 用于生成语音样本的方法、装置、电子设备和介质
CN111292766B (zh) * 2020-02-07 2023-08-08 抖音视界有限公司 用于生成语音样本的方法、装置、电子设备和介质
CN111696580A (zh) * 2020-04-22 2020-09-22 广州多益网络股份有限公司 一种语音检测方法、装置、电子设备及存储介质
CN112233664A (zh) * 2020-10-15 2021-01-15 北京百度网讯科技有限公司 网络的训练方法、装置、设备以及存储介质
CN112233664B (zh) * 2020-10-15 2021-11-09 北京百度网讯科技有限公司 语义预测网络的训练方法、装置、设备以及存储介质
US11823660B2 (en) 2020-10-15 2023-11-21 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus and device for training network and storage medium

Also Published As

Publication number Publication date
WO2020140607A1 (zh) 2020-07-09
CN109658921B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
CN109658921A (zh) 一种语音信号处理方法、设备及计算机可读存储介质
JP6671020B2 (ja) 対話行為推定方法、対話行為推定装置及びプログラム
Ali et al. Voice recognition system using machine learning techniques
Wang et al. Self-attention mechanism based system for dcase2018 challenge task1 and task4
Mnasri et al. Anomalous sound event detection: A survey of machine learning based methods and applications
Babaee et al. An overview of audio event detection methods from feature extraction to classification
CN112949708A (zh) 情绪识别方法、装置、计算机设备和存储介质
WO2019136909A1 (zh) 基于深度学习的语音活体检测方法、服务器及存储介质
CN111429914B (zh) 麦克风控制方法、电子装置及计算机可读存储介质
CN108335693A (zh) 一种语种识别方法以及语种识别设备
CN111782863B (zh) 音频分段方法、装置、存储介质及电子设备
CN109493873A (zh) 牲畜声纹识别方法、装置、终端设备及计算机存储介质
CN116153330B (zh) 一种智能电话语音机器人控制方法
Noroozi et al. Speech-based emotion recognition and next reaction prediction
CN113724734A (zh) 声音事件的检测方法、装置、存储介质及电子装置
CN112466284B (zh) 一种口罩语音鉴别方法
CN113113048B (zh) 语音情绪识别方法、装置、计算机设备及介质
CN113159840B (zh) 一种对象类型预测方法、装置和存储介质
JP6910002B2 (ja) 対話行為推定方法、対話行為推定装置及びプログラム
Zhu et al. Emotion recognition from speech to improve human-robot interaction
CN116052644A (zh) 基于平凡发音的说话人识别方法及相关设备
CN109272283A (zh) 一种备忘录生成方法、装置及终端设备
CN114974302A (zh) 环境声音事件检测方法、装置和介质
CN114882909A (zh) 一种环境声音分类分析方法、装置和介质
CN114664325A (zh) 一种异常声音识别方法、系统、终端设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant