CN115831147B - 基于音频补偿的朗读检测方法、系统、装置及介质 - Google Patents
基于音频补偿的朗读检测方法、系统、装置及介质 Download PDFInfo
- Publication number
- CN115831147B CN115831147B CN202211284952.1A CN202211284952A CN115831147B CN 115831147 B CN115831147 B CN 115831147B CN 202211284952 A CN202211284952 A CN 202211284952A CN 115831147 B CN115831147 B CN 115831147B
- Authority
- CN
- China
- Prior art keywords
- audio
- neural network
- compensation
- training
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 claims abstract description 106
- 238000012549 training Methods 0.000 claims abstract description 87
- 238000006243 chemical reaction Methods 0.000 claims abstract description 15
- 210000002569 neuron Anatomy 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 21
- 238000005070 sampling Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 7
- 238000000034 method Methods 0.000 abstract description 25
- 238000012545 processing Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 14
- 230000009466 transformation Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 210000002364 input neuron Anatomy 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
Landscapes
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供的基于音频补偿的朗读检测方法、系统、装置及存储介质,方法包括以下步骤:获取音频录制生成的朗读音频;将朗读音频进行模数转换得数字信号,提取得到数字信号的第一幅度特征;确定数字信号中的第一字块对应的第一时刻信息,将第一时刻信息以及第一幅度特征输入至训练完成后的神经网络,通过神经网络输出得到非线性补偿电压;根据非线性补偿电压确定补偿差值,根据补偿差值对朗读音频进行补偿,并输出补偿后的朗读音频,方案能够引导和改善朗读用户的表达;对于朗读素材中的单字、词组、段落的发音、语调提供更准确的训练方向;启发朗读用户的自我表达认识,可广泛应用于音频特征处理技术领域。
Description
技术领域
本发明涉及音频特征处理技术领域,尤其是基于音频补偿的朗读检测方法、系统、装置及存储介质。
背景技术
在相关技术方案中的朗读教学过程中,由于拾音设备限制和朗读用户的不同,朗读用户对现有朗读出的作品会有不同的反馈,当朗读用户更换其他朗读终端朗读也一样;其中,拾音设备包括但不限于手机、平板、耳麦等其他可拾音设备。朗读作品的人声部分均会因为拾音设备的不同,从而导致对朗读用户起到的引导作用或者引导结果的不同;导致存在差异的原因主要有以下:1、拾音设备固定,对采集的声音不进行补偿处理;当朗读的声音不同时,无法判断是否拾音设备损坏或者异常拾音;2、朗读用户不同,不同年龄段在同一拾音设备上朗读的效果有很大差别。当朗读声音存在变化时,无法判断朗读用户是否正确表达或者对特定拾音设备产生依赖,继而寻找外因质疑用户自己的表达成果,进而不利于语言表达的练习或引导。
发明内容
有鉴于此,为至少部分解决上述技术问题或者缺陷之一,本发明实施例的目的在于提供基于音频补偿的朗读检测方法,以弥补因参数不齐的拾音设备所带来的录制差距,利用神经网络模型得出差异值,更精确的引导用户语言的正确表达;此外,实施例还提供了能够实现这一方法的系统、装置以及存储介质。
一方面,本申请技术方案提供了基于音频补偿的朗读检测方法,包括以下步骤:
获取音频录制生成的朗读音频;
将所述朗读音频进行模数转换得数字信号,提取得到所述数字信号的第一幅度特征;
确定所述数字信号中的第一字块对应的第一时刻信息,将所述第一时刻信息以及所述第一幅度特征输入至训练完成后的神经网络,通过所述神经网络输出得到非线性补偿电压;
根据所述非线性补偿电压确定补偿差值,根据所述补偿差值对所述朗读音频进行补偿,并输出补偿后的所述朗读音频。
在本申请方案的一种可行的实施例中,所述将所述朗读音频进行模数转换得数字信号,提取得到所述数字信号的第一幅度特征,包括:
根据采样频率、信号频率以及采样点数,对所述数字信号进行快速傅立叶变换,得到若干采样点;
根据所述采样点对应的频率,确定所述第一幅度特征。
在本申请方案的一种可行的实施例中,所述神经网络的训练过程,包括:
获取用户账户中的第一历史数据以及数据库中的第二历史数据,根据所述第一历史数据以及所述第二历史数据构建训练数据集;
将所述训练数据集输入至所述神经网络,输出得到第一网络输出;
将所述第一网络输出与所述训练数据集中的目标网络输出进行对比,得到第一误差值;
确定所述第一误差值不小于预设精度值,对所述神经网络的参数进行调整,得到训练完成后的所述神经网络。
在本申请方案的一种可行的实施例中,所述训练数据集包括第一样本集和第二样本集,所述获取用户账户中的第一历史数据以及数据库中的第二历史数据,根据所述第一历史数据以及所述第二历史数据构建训练数据集,包括:
获取待补偿的训练音频,确定所述训练音频中的第二字块,根据所述第二字块的第一时域信息以及第一电压值构建得到所述第一样本集;
根据所述第二字块在所述第二历史数据中匹配得到第三字块,根据所述第三字块的第二电压值在所述第一历史数据中进行匹配,根据匹配结果确定第二幅度特征,根据所述第三字块的第二时域信息、所述第二电压值以及所述第二幅度特征构建得到所述第二样本集。
在本申请方案的一种可行的实施例中,确定所述训练数据集为所述第二样本,所述将所述训练数据集输入至所述神经网络,输出得到第一网络输出,包括:
将所述第二时域信息以及所述第二幅度特征输入至所述神经网络的隐层神经元,根据所述隐层神经元的激活函数以及所述隐层神经元的权值计算得到所述第一网络输出。
在本申请方案的一种可行的实施例中,所述确定所述第一误差值不小于预设精度值,对所述神经网络的参数进行调整,得到训练完成后的所述神经网络,包括:
根据所述第一误差值生成误差信号,将所述误差信号输入至所述神经网络进行反向传播;
通过所述反向传播对所述隐层神经元的权值进行修正;
确定修正后所述神经网络的第二误差值小于所述预设精度值。
在本申请方案的一种可行的实施例中,所述确定所述数字信号中的第一字块对应的第一时刻信息,将所述第一时刻信息以及所述第一幅度特征输入至训练完成后的神经网络,通过所述神经网络输出得到非线性补偿电压,包括:
根据所述第一时刻信息以及所述第一幅度特征输入,生成补偿电压差值;
根据所述补偿电压差值确定所述朗读音频的非线性补偿电压。
另一方面,本申请技术方案还提供了基于音频补偿的朗读检测系统,该系统包括:
音频获取单元,用于获取音频录制生成的朗读音频;
信号转换单元,用于将所述朗读音频进行模数转换得数字信号,提取得到所述数字信号的第一幅度特征;
模型预测单元,用于确定所述数字信号中的第一字块对应的第一时刻信息,将所述第一时刻信息以及所述第一幅度特征输入至训练完成后的神经网络,通过所述神经网络输出得到非线性补偿电压;
音频补偿单元,用于根据所述非线性补偿电压确定补偿差值,根据所述补偿差值对所述朗读音频进行补偿,并输出补偿后的所述朗读音频。
另一方面,本申请技术方案还提供了至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器运行如前述任一项所述的基于音频补偿的朗读检测方法。
另一方面,本申请技术方案还提供一种存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如第一方面中任一项所述的基于音频补偿的朗读检测方法。
本发明的优点和有益效果将在下面的描述中部分给出,其他部分可以通过本发明的具体实施方式了解得到:
本申请技术方案利用神经网络产生音频所需的电压,通过对人工神经网络的训练以及对比,从而产生对用户本身朗读声音表达呈非线性函数的补偿电压,继而推算出补偿值的大小,辅助朗读评测,进一步反馈朗读分数和数据,从而引导和改善朗读用户的表达;方法对于朗读素材中的单字、词组、段落的发音、语调能够提供更准确的训练方向;启发朗读用户的自我表达的认识,能够更为精确地辅助语言教学,因材施教。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请技术方案中所提供的基于音频补偿的朗读检测方法的步骤流程图;
图2为本申请技术方案中对朗读音频进行非线性补偿的示意图
图3为本申请技术方案中神经网络的训练过程步骤流程图;
图4为本申请技术方案中的字块示意图;
图5为本申请技术方案中神经网络的结构示意图;
图6为本申请技术方案中所提供的另一种基于音频补偿的朗读检测方法的步骤流程图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
基于前述技术背景中指出相关技术方案中可能存在的技术问题或者技术缺陷,本申请技术首先提出了一种基于人工神经网络算法的朗读补偿来进行朗读评测的技术构思;在处理器程序控制下,产生非线性补偿电压,利用人工神经网络算法产生音频所需的电压,通过对人工神经网络的训练以及对比,使得该网络能够逼近非线性函数,从而产生对用户本身朗读声音表达呈非线性函数的补偿电压,继而推算出补偿值的大小,辅助朗读系统评测,反馈朗读分数和数据,从而表引导和改善朗读用户的表达。
基于前述的技术构思,如图1所示,在第一方面,本申请技术方案提出了基于音频补偿的朗读检测方法,方法包括步骤S100-S500:
S100、获取音频录制生成的朗读音频;
具体在实施例中,每个朗读终端内都包含一个或多个拾音设备用于朗读拾音;在实施过程中,朗读者(用户)无需任何操作,直接朗读,无需任何用户与拾音设备的适配处理。通过拾音设备采集得到该用户的朗读音频。
S200、将所述朗读音频进行模数转换得数字信号,提取得到所述数字信号的第一幅度特征;
具体在实施例中,经拾音设备采样后得到朗读音频(数据),经过运放放大电压信号,并进一步经ADC模块采样后,得到的数字信号再由微处理器进行快速傅里叶变换(fastFourier transform,FFT)变换,得到幅度特性,记作第一幅度特征。
实施例中FFT变换的计算公式为:
S300、确定所述数字信号中的第一字块对应的第一时刻信息,将所述第一时刻信息以及所述第一幅度特征输入至训练完成后的神经网络,通过所述神经网络输出得到非线性补偿电压;
具体在实施例中,将步骤S200中提取得到的幅度特性,通过朗读主机(或朗读终端)与微处理器之间的通信输入到人工神经网络,从而产生补偿电压V,神经网络可以根据训练过程最终确定的网络权值对输入数字信号的幅度特征结合必要的时域特征信息,产生非线性补偿电压V,该电压经过微处理器传输并存储至该用户的账户数据,通过比较本地库中数据中变化而产生的差异计算出差值,并进一步基于这一差值确定对朗读音频中的每个字、段落、文章等朗读发音的非线性补偿电压。
S400、根据所述非线性补偿电压确定补偿差值,根据所述补偿差值对所述朗读音频进行补偿,并输出补偿后的所述朗读音频;
具体在实施例中,如图2所示,实施例中通过步骤S300中得到非线性补偿电压,对每个字、段落、文章的发音的进行一个反向的线性补偿;高精度地反馈在表达上的高中低频的差异,并且,实施例中可以对进行补偿后的朗读音频进行相应的分析或评测,并将分析评测结果进行可视化展示。
在一些可行的实施例中,方法中将所述朗读音频进行模数转换得数字信号,提取得到所述数字信号的第一幅度特征这一步骤S200,可以包括步骤S210-S220:
S210、根据采样频率、信号频率以及采样点数,对所述数字信号进行快速傅立叶变换,得到若干采样点;
S220、根据所述采样点对应的频率,确定所述第一幅度特征;
具体在实施例中,在进行FFT变换的过程中,实施例设定采样频率为Fs,信号频率F,采样点数为N。FFT变换结果是一个为N点的复数。每一个点就对应着一个频率点。这个点的模值,就是该频率值下的幅度特性。
在一些可行的实施例中,方法需要对神经网络进行预先训练,其中神经网络的训练过程可以包括步骤S001-S004:
S001、获取用户账户中的第一历史数据以及数据库中的第二历史数据,根据所述第一历史数据以及所述第二历史数据构建训练数据集;
具体在实施例中,单个用户的账号信息下对应存储的朗读数据信息,标记为账户数据,即第一历史数据;所存储在本地数据库中的朗读范文的相关数据,标记为库中数据,即第二历史数据。
S002、将所述训练数据集输入至所述神经网络,输出得到第一网络输出;
如图3所示,具体在实施例的神经网络的训练阶段,首先整合账户数据、库中数据的数据,形成该神经网络的训练数据集;在一些可行的实施例中,在训练阶段,还可以实时获取录制用户朗读音频,即在读数据添加至训练数据集中。需要说明的是,实施例中读数据是已经采集做好FFT变换,账户数据是指经人工算法存储在云端的朗读数据,库中数据是指朗读系统下发到本发明提及的装置中经过FFT变换后的幅度特性。进一步地,实施例调度人工神经网络训练算法,根据输入的训练数据(集)得到对应的网络输出,即为神经网络的预测值。
S003、将所述第一网络输出与所述训练数据集中的目标网络输出进行对比,得到第一误差值;
S004、确定所述第一误差值不小于预设精度值,对所述神经网络的参数进行调整,得到训练完成后的所述神经网络;
具体在实施例中,如图3所示,根据步骤S002得到的网络输出,对网络输出和训练数据集中各条数据记录对应的目标输出进行对比;判断两者的误差是否小于预设精度,当两者的误差不满足预设的精度要求时,人工神经网络调整网络权值,直到误差小于预设的精度,保存人工神经网络的参数,包括人工神经网络模型、输入神经元个数与网络权值;训练结束,并得到训练完成后的神经网络模型。
在一些可行的实施例中,在神经网络的训练过程中,针对输入神经网络的训练数据的数据内容的不同,可以将神经网络的训练模式分为A模式和B模式,在两种不同模式训练过程中,对应输入的训练数据集则分别记为第一样本集和第二样本集。针对两种样本集的构建过程,在实施例方法获取用户账户中的第一历史数据以及数据库中的第二历史数据,根据所述第一历史数据以及所述第二历史数据构建训练数据集这一步骤S001中,可以包括步骤S0011和S0012:
S0011、获取待补偿的训练音频,确定所述训练音频中的第二字块,根据所述第二字块的第一时域信息以及第一电压值构建得到所述第一样本集;
具体在实施例中,待补偿的训练音频可以是指前述实施例中所提及的,实施例实时获取的朗读音频,即在读数据。更为具体地,在实施例的A模式下,在读数据中包含有多个不同的字块Wi,其中,i为字块标号;实施例记录在不同的字块Wi下的电压(即第一电压值)、幅度特征以及该字块在朗读音频的时间轨中的时刻信息(即第一时域信息),根据包含有电压、幅度特征以及时刻信息作为训练数据的内容,将训练数据整合得到训练样本Y1=(V,T);其中,T作为人工神经网络的输入,V作为训练数据所对应的目标输出。
S0012、根据所述第二字块在所述第二历史数据中匹配得到第三字块,根据所述第三字块的第二电压值在所述第一历史数据中进行匹配,根据匹配结果确定第二幅度特征,根据所述第三字块的第二时域信息、所述第二电压值以及所述第二幅度特征构建得到所述第二样本集;
具体在实施例中,如图4所示,在实施例的B模式下,首先保持在读数据中的字块Wi不变,并根据字块的幅度特征在库中数据中所存储的历史字块进行匹配,输出在库中数据以及在读数据中幅度特征相同的字块,即为第三字块。然后保持第三字块的控制电压不变,在不同的账户数据中进行第二轮次的匹配,得到控制电压相同的多个字块内容,并提取得到多个字块所对应的幅度特征,即为第二幅度特征。根据过程中的初始确定字块时的时刻信息(即第二时域信息)、控制电压以及对应匹配到的幅度特征;构建得到训练样本Y2=(V,T,f),其中,f和T作为人工神经网络的输入,V作为训练数据所对应的目标输出。
更进一步地,实施例中的神经网络在读取输入变量A模式下,读取输入在读数据的变量X=T,此变量由在读数据提供;B模式下,读取输入变量X=(T,f),其中变量T由库中数据提供,变量f可以是由朗读主机(或朗读终端)将其本地数据进行输入,并通过朗读主机(或朗读终端)与微处理器之间的通信输入到人工神经网络;产生补偿电压V人工神经网络根据网络权值对输入进行出响应,产生非线性补偿电压V,该电压经过微处理器传输到账户数据,通过比较库中数据中变化而产生的差异计算出差值。
在一些可行的实施例中,实施例可以通过BP神经网络以设定精度逼近样本值,从而产生非线性补偿值,再计算出与库中数据的补偿差值。例如,如图5所示,实施例中所采用的三层BP神经网络模型的人工神经网络拓扑结构包括由两个神经元组成的输入层Ii(i=1,2)、由4个神经元组成的隐层Hi(j=1,2,3,4)以及由1个神经元组成的输出层Hk(k=1),i、j、k分别是输入层、隐层、输出层神经元标号;隐层神经元数目的选择可以由实际要解决的问题决定。
因此,实施例中在B模式下,将所述训练数据集输入至所述神经网络,输出得到第一网络输出这一步骤S002,可以进一步具体为:将所述第二时域信息以及所述第二幅度特征输入至所述神经网络的隐层神经元,根据所述隐层神经元的激活函数以及所述隐层神经元的权值计算得到所述第一网络输出。
示例性地,实施例中神经网络(模型)中,任何一个隐层神经元接收输入层所有神经元传递的信号,并对其进行非线性处理后传输到输出层神经元,同层神经元之间没有信号传递。非线性变换由每个神经元的激活函数决定,此处激活函数选择sigmoid函数;输入层到隐层的信息传递由权值Wij决定,隐层到输出层之间的信息传递由权值决定。
例如,对于某一个样本S,BP神经网络的输出可以表示为:
其中,隐层和输出层神经元的激活函数选择sigmoid函数为:
在一些可行的实施例中,方法中确定所述第一误差值不小于预设精度值,对所述神经网络的参数进行调整,得到训练完成后的所述神经网络这一步骤S004,可以包括步骤S0041-S0043:
S0041、根据所述第一误差值生成误差信号,将所述误差信号输入至所述神经网络进行反向传播;
S0042、通过所述反向传播对所述隐层神经元的权值进行修正;
S0043、确定修正后所述神经网络的第二误差值小于所述预设精度值;
具体在实施例的误差反向传播过程中,首先将BP神经网络的网络输出与目标输出做比较,当相差较大时,则将二者的误差信号作为输入信号从网络的输出端逐层向前传播。反向传播使得BP神经网络的网络权值Wij朝着误差函数减小的方向不断修正,直到误差减小到预设的精度。之后记录补偿S-F(开始到结束)这段差值占比。设样本S对应的目标输出为Ts,则所有样本的误差为:
其中,n是样本数量。当该误差比预设精度大时,调整神经网络的网络权值Wij,直至误差小于预设精度,则BP神经网络的训练阶段完成,此时人工神经网络能够以要求的精度逼近二元函数V=g(T,f)。
在一些可行的实施例中,方法中所述确定所述数字信号中的第一字块对应的第一时刻信息,将所述第一时刻信息以及所述第一幅度特征输入至训练完成后的神经网络,通过所述神经网络输出得到非线性补偿电压这一步骤S300,可以包括步骤S310-S320:
S310、根据所述第一时刻信息以及所述第一幅度特征输入,生成补偿电压差值;
S320、根据所述补偿电压差值确定所述朗读音频的非线性补偿电压;
具体在实施例中,人工神经网络根据训练过程中保存的网络权值对输入数据响应,产生非线性补偿电压差值V=g(T,f),该电压输出到微处理器采集,通过微处理器的神经算法比较计算出精确的补偿差值,即每个字、段落、文章等需补偿的占比。由于该补偿电压是关于时间和频率的二元非线性函数,即不同的中心频率下补偿电压有不同幅度特性,避免了现有的EQ补偿方案的频率改变后文字发音的频率—时间特性引起的线性补偿精度不高和生硬的缺点。
下面结合说明书附图6,对申请技术方案中实施例的具体实施过程进行完整的描述如下:
1、第一阶段:人工神经网络的训练(收集样本):
①输入Con1信号值为00,Con2信号值为00;
②首先保持间断的不同时刻T不变,对FFT变换的字、段落和文章进行分割处理,再由微处理器控制频率补偿器模块输出;
③用频率计记录不同的Vi下采集转换的频率f;然后保持频率补偿器模块V不变,在同时间点Tj下用频率计记录频率补偿器模块的输出频率f,得到训练样本Y2=(V,T,f),其中,f和T作为人工神经网络的输入,V作为人工神经网络的目标输出。
2、第二阶段:人工神经网络的训练(学习):
①先输入Con1信号值为00,Con2信号值为01;
②再对人工神经网络和训练样本进行初始化,初始化人工神经网络模型为BP神经网络和初始权值,初始化人工神经网络的输入神经元个数为2个,并初始化训练样本为Y2=(V,T,f),指定f和T是人工神经网络的输入,V是人工神经网络的目标输出;
③训练:调度BP神经网络训练算法,训练结束后,保存神经网络参数,包括神经网络输入神经元个数与网络权值。打包成账户数据返回至朗读系统中,再上传至云保存。
3、第三阶段:人工神经网络的训练(工作):
①先输入Con1信号值为01,Con2信号值为10;
②再读取输入变量:读取输入变量X=(T,f),其中变量T由微处理器提供,变量f由朗读主机(或朗读终端)输入,并通过朗读主机(或朗读终端)与微处理器之间的通信输入到人工神经网络,产生补偿电压差值V;
③人工神经网络根据第二阶段保存的网络权值对输入X=(T,f)做出响应,产生非线性补偿电压差值V=g(T,f),该电压经过频率补偿模块输出到微处理器采集,通过微处理器的神经算法比较计算出精确的补偿差值(每个字、段落、文章等需补偿的占比);
④由于该补偿电压是关于时间和频率的二元非线性函数,即不同的中心频率下补偿电压有不同幅度特性,避免了现有的EQ补偿方案的频率改变后文字发音的频率—时间特性引起的线性补偿精度不高和生硬的缺点。
另一方面,本发明实施例还提供了基于音频补偿的朗读检测系统,系统包括:
音频获取单元,用于获取音频录制生成的朗读音频;
信号转换单元,用于将所述朗读音频进行模数转换得数字信号,提取得到所述数字信号的第一幅度特征;
模型预测单元,用于确定所述数字信号中的第一字块对应的第一时刻信息,将所述第一时刻信息以及所述第一幅度特征输入至训练完成后的神经网络,通过所述神经网络输出得到非线性补偿电压;
音频补偿单元,用于根据所述非线性补偿电压确定补偿差值,根据所述补偿差值对所述朗读音频进行补偿,并输出补偿后的所述朗读音频。
另一方面,本申请的技术方案还提供一种基于音频补偿的朗读检测装置;其包括:微处理器、运放、存储器、频率补偿模块、频率计,其作用是在微处理器程序控制下,产生非线性补偿电压V的差值;微处理器采用人工神经网络算法产生非线性补偿电压差值;拾音设备的输出与运放模块的输入相连,提供朗读用户的模拟信号电压;运放模块的输出与微处理器模块的输入相连,用于采集模拟信号电压用于内部的FFT变换和人工神经网络的训练;人工神经网络采用三层BP神经网络模型,包括输入层、隐层和输出层,每一层由不同数目的神经元组成;其中,输入层用于输入变量,隐层用于对前一层传递的信号作非线性变换,输出层用于对隐层传递的信号作非线性变换并输出最终的信号;同层神经元之间没有信号传递,不同层神经元之间的信息传递的强弱由权值决定,非线性变换由神经元的激活函数决定。
本发明实施例还提供了一种存储介质,其存储有对应的执行程序,程序被处理器执行,实现第一方面中的基于音频补偿的朗读检测方法。
从上述具体的实施过程,可以总结出,本发明所提供的技术方案相较于现有技术存在以下优点或优势:
本申请技术方案将实际输出与预期误差较大进行非线性补偿,得出朗读用户对每个字、段落、文章的发音的进行一个反向的线性补偿值,高精度的反馈在表达上的高中低频的差异。传输到朗读系统进行进一步分析和展示。首先能辅助朗读用户正确掌握语言表达上的方法。对单字、词组、段落的发音、语调有正确的训练方向。启发朗读用户的自我表达的认识,能欧陆辅助语言教学,实现因材施教。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (9)
1.基于音频补偿的朗读检测方法,其特征在于,包括以下步骤:
获取音频录制生成的朗读音频;
将所述朗读音频进行模数转换得数字信号,将数字信号进行快速傅里叶变换,提取得到所述数字信号的第一幅度特征,第一幅度特征为频域幅度特征;获取用户账户中的第一历史数据以及数据库中的第二历史数据,根据所述第一历史数据以及所述第二历史数据构建训练数据集;
将所述训练数据集输入至神经网络,输出得到第一网络输出;
将所述第一网络输出与所述训练数据集中的目标网络输出进行对比,得到第一误差值;
确定所述第一误差值不小于预设精度值,对所述神经网络的参数进行调整,得到训练完成后的所述神经网络;
确定所述数字信号中的第一字块对应的第一时域信息,将所述第一时域信息以及所述第一幅度特征输入至训练完成后的所述神经网络,通过所述神经网络输出得到非线性补偿电压;
根据所述非线性补偿电压确定补偿差值,根据所述补偿差值对所述朗读音频进行补偿,并输出补偿后的所述朗读音频。
2.根据权利要求1所述的基于音频补偿的朗读检测方法,其特征在于,所述将所述朗读音频进行模数转换得数字信号,将数字信号进行快速傅里叶变换,提取得到所述数字信号的第一幅度特征,包括:
根据采样频率、信号频率以及采样点数,对所述数字信号进行快速傅立叶变换,得到若干采样点;
根据所述采样点对应的频率,确定所述第一幅度特征。
3.根据权利要求1所述的基于音频补偿的朗读检测方法,其特征在于,所述训练数据集包括第一样本集和第二样本集,所述获取用户账户中的第一历史数据以及数据库中的第二历史数据,根据所述第一历史数据以及所述第二历史数据构建训练数据集,包括:
获取待补偿的训练音频,确定所述训练音频中的第二字块,根据所述第二字块的第一时域信息以及第一电压值构建得到所述第一样本集;
根据所述第二字块在所述第二历史数据中匹配得到第三字块,根据所述第三字块的第二电压值在所述第一历史数据中进行匹配,根据匹配结果确定第二幅度特征,根据所述第三字块的第二时域信息、所述第二电压值以及所述第二幅度特征构建得到所述第二样本集。
4.根据权利要求3所述的基于音频补偿的朗读检测方法,其特征在于,确定所述训练数据集为所述第二样本,所述将所述训练数据集输入至所述神经网络,输出得到第一网络输出,包括:
将所述第二时域信息以及所述第二幅度特征输入至所述神经网络的隐层神经元,根据所述隐层神经元的激活函数以及所述隐层神经元的权值计算得到所述第一网络输出。
5.根据权利要求4所述的基于音频补偿的朗读检测方法,其特征在于,所述确定所述第一误差值不小于预设精度值,对所述神经网络的参数进行调整,得到训练完成后的所述神经网络,包括:
根据所述第一误差值生成误差信号,将所述误差信号输入至所述神经网络进行反向传播;
通过所述反向传播对所述隐层神经元的权值进行修正;
确定修正后所述神经网络的第二误差值小于所述预设精度值。
6.根据权利要求1所述的基于音频补偿的朗读检测方法,其特征在于,所述确定所述数字信号中的第一字块对应的第一时域信息,将所述第一时域信息以及所述第一幅度特征输入至训练完成后的所述神经网络,通过所述神经网络输出得到非线性补偿电压,包括:
根据所述第一时域信息以及所述第一幅度特征输入,生成补偿电压差值;
根据所述补偿电压差值确定所述朗读音频的非线性补偿电压。
7.一种基于音频补偿的朗读检测系统,其特征在于,包括:
音频获取单元,用于获取音频录制生成的朗读音频;
信号转换单元,用于将所述朗读音频进行模数转换得数字信号,将数字信号进行快速傅里叶变换,提取得到所述数字信号的第一幅度特征,第一幅度特征为频域幅度特征;
模型预测单元,用于获取用户账户中的第一历史数据以及数据库中的第二历史数据,根据所述第一历史数据以及所述第二历史数据构建训练数据集;
将所述训练数据集输入至神经网络,输出得到第一网络输出;
将所述第一网络输出与所述训练数据集中的目标网络输出进行对比,得到第一误差值;
确定所述第一误差值不小于预设精度值,对所述神经网络的参数进行调整,得到训练完成后的所述神经网络;
确定所述数字信号中的第一字块对应的第一时域信息,将所述第一时域信息以及所述第一幅度特征输入至训练完成后的所述神经网络,通过所述神经网络输出得到非线性补偿电压;
音频补偿单元,用于根据所述非线性补偿电压确定补偿差值,根据所述补偿差值对所述朗读音频进行补偿,并输出补偿后的所述朗读音频。
8.一种基于音频补偿的朗读检测装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器运行如权利要求1-6任一项所述的基于音频补偿的朗读检测方法。
9.一种存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于运行如权利要求1-6中任一项所述的基于音频补偿的朗读检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211284952.1A CN115831147B (zh) | 2022-10-20 | 2022-10-20 | 基于音频补偿的朗读检测方法、系统、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211284952.1A CN115831147B (zh) | 2022-10-20 | 2022-10-20 | 基于音频补偿的朗读检测方法、系统、装置及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115831147A CN115831147A (zh) | 2023-03-21 |
CN115831147B true CN115831147B (zh) | 2024-02-02 |
Family
ID=85525073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211284952.1A Active CN115831147B (zh) | 2022-10-20 | 2022-10-20 | 基于音频补偿的朗读检测方法、系统、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115831147B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101212205A (zh) * | 2006-12-29 | 2008-07-02 | 上海乐金广电电子有限公司 | 音频输出放大器的电压变动补偿装置 |
CN106253893A (zh) * | 2016-07-19 | 2016-12-21 | 电子科技大学 | 一种高精度微机补偿晶体振荡器 |
CN109872730A (zh) * | 2019-03-14 | 2019-06-11 | 广州飞傲电子科技有限公司 | 音频数据的失真补偿方法、模型建立方法和音频输出设备 |
CN111031445A (zh) * | 2019-11-29 | 2020-04-17 | 深圳普罗声声学科技有限公司 | 音量补偿方法、装置、计算机设备和存储介质 |
CN112735454A (zh) * | 2020-12-30 | 2021-04-30 | 北京大米科技有限公司 | 音频处理方法、装置、电子设备和可读存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI234763B (en) * | 2004-05-04 | 2005-06-21 | Intervideo Digital Technology | Processing method for compensating audio signals |
EP4134946A1 (en) * | 2019-11-29 | 2023-02-15 | Neural DSP Technologies Oy | Neural modeler of audio systems |
US11622194B2 (en) * | 2020-12-29 | 2023-04-04 | Nuvoton Technology Corporation | Deep learning speaker compensation |
-
2022
- 2022-10-20 CN CN202211284952.1A patent/CN115831147B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101212205A (zh) * | 2006-12-29 | 2008-07-02 | 上海乐金广电电子有限公司 | 音频输出放大器的电压变动补偿装置 |
CN106253893A (zh) * | 2016-07-19 | 2016-12-21 | 电子科技大学 | 一种高精度微机补偿晶体振荡器 |
CN109872730A (zh) * | 2019-03-14 | 2019-06-11 | 广州飞傲电子科技有限公司 | 音频数据的失真补偿方法、模型建立方法和音频输出设备 |
CN111031445A (zh) * | 2019-11-29 | 2020-04-17 | 深圳普罗声声学科技有限公司 | 音量补偿方法、装置、计算机设备和存储介质 |
CN112735454A (zh) * | 2020-12-30 | 2021-04-30 | 北京大米科技有限公司 | 音频处理方法、装置、电子设备和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115831147A (zh) | 2023-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6902010B2 (ja) | 音声評価方法、装置、機器及び読み取り可能な記憶媒体 | |
US10839288B2 (en) | Training device, speech detection device, training method, and computer program product | |
CN107871496B (zh) | 语音识别方法和装置 | |
JP6654611B2 (ja) | 成長型対話装置 | |
CN109817201B (zh) | 一种语言学习方法、装置、电子设备及可读存储介质 | |
CN111433847B (zh) | 语音转换的方法及训练方法、智能装置和存储介质 | |
CN113807249B (zh) | 基于多模态特征融合的情感识别方法、系统、装置及介质 | |
US11749263B1 (en) | Machine-trained network detecting context-sensitive wake expressions for a digital assistant | |
US10741184B2 (en) | Arithmetic operation apparatus, arithmetic operation method, and computer program product | |
CN113129900A (zh) | 一种声纹提取模型构建方法、声纹识别方法及其相关设备 | |
CN112908308B (zh) | 一种音频处理方法、装置、设备及介质 | |
CN113782030B (zh) | 基于多模态语音识别结果纠错方法及相关设备 | |
CN115831147B (zh) | 基于音频补偿的朗读检测方法、系统、装置及介质 | |
CN117711444A (zh) | 一种基于口才表达的互动方法、装置、设备及存储介质 | |
CN109697975B (zh) | 一种语音评价方法及装置 | |
US20210327415A1 (en) | Dialogue system and method of controlling the same | |
CN109119073A (zh) | 基于多源识别的语音识别方法、系统、音箱及存储介质 | |
Liu et al. | Statistical parametric speech synthesis using generalized distillation framework | |
CN112863486B (zh) | 一种基于音素的口语评测方法、装置及电子设备 | |
Kaur et al. | Speech recognition system; challenges and techniques | |
CN112786068B (zh) | 一种音频音源分离方法、装置及存储介质 | |
WO2020100606A1 (ja) | 非言語発話検出装置、非言語発話検出方法、およびプログラム | |
CN109859741A (zh) | 语音测评方法、装置、电子设备及存储介质 | |
US20240046920A1 (en) | Data processing method, device wake-up method, electronic device and storage medium | |
JP3652753B2 (ja) | 発声変形音声認識装置及び音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |