CN113257232B - 语谱图的生成方法、装置、电子设备及存储介质 - Google Patents

语谱图的生成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113257232B
CN113257232B CN202110768395.XA CN202110768395A CN113257232B CN 113257232 B CN113257232 B CN 113257232B CN 202110768395 A CN202110768395 A CN 202110768395A CN 113257232 B CN113257232 B CN 113257232B
Authority
CN
China
Prior art keywords
intensity
frequency point
target
time
voice frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110768395.XA
Other languages
English (en)
Other versions
CN113257232A (zh
Inventor
李亚桐
谢单辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Voiceai Technologies Co ltd
Original Assignee
Voiceai Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Voiceai Technologies Co ltd filed Critical Voiceai Technologies Co ltd
Priority to CN202110768395.XA priority Critical patent/CN113257232B/zh
Publication of CN113257232A publication Critical patent/CN113257232A/zh
Application granted granted Critical
Publication of CN113257232B publication Critical patent/CN113257232B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及音频处理技术领域,具体公开了一种语谱图的生成方法、装置、电子设备及存储介质,该方法包括:获取目标语音帧序列的每个语音帧中各时频点的强度;根据目标语音信号对应的匹配参数确定匹配参数对应的目标彩色色卡;匹配参数包括统计特征参数和聚类结果参数中的至少一项;根据目标彩色色卡所限定强度与色彩信息之间的对应关系和每个语音帧中各时频点的强度,确定每个语音帧中各时频点对应的色彩信息;按照每个语音帧中各时频点对应的色彩信息,生成目标语音信号的语谱图。本方案保证了所生成语谱图在强度上的分辨率和保证了语谱图的质量。

Description

语谱图的生成方法、装置、电子设备及存储介质
技术领域
本申请涉及音频处理技术领域,更具体地,涉及一种语谱图的生成方法、装置、电子设备及存储介质。
背景技术
语谱图是一种重要的语音分析方法,其是将时域的语音信号转换成可以反映语音信号随时间、频率变换的动态关系的图。语谱图在语音分析上有重要的应用,例如对发音态、音高等进行量化分析、观察算法的抑噪能力、观察语音失真情况等。
相关技术中,所生成的语谱图为灰度图,该种灰度语谱图的分辨率低,视觉效果较差,而且灰度语谱图对语音的强度的分辨能力低,无法呈现语音的纹理细节。
发明内容
鉴于上述问题,本申请实施例提出了一种语谱图的生成方法、装置、电子设备及存储介质,以改善上述问题。
根据本申请实施例的一个方面,提供了一种语谱图的生成方法,该方法包括:获取目标语音帧序列的每个语音帧中各时频点的强度,所述目标语音帧序列是对目标语音信号进行分帧得到的;根据所述目标语音信号对应的匹配参数确定所述匹配参数对应的目标彩色色卡;所述匹配参数包括统计特征参数和聚类结果参数中的至少一项,所述统计特征参数是对所述每个语音帧中各时频点的强度进行统计分析确定的,所述聚类结果参数是对所述每个语音帧中各时频点的强度进行聚类分析确定的;根据所述目标彩色色卡所限定强度与色彩信息之间的对应关系和所述每个语音帧中各时频点的强度,确定所述每个语音帧中各时频点对应的色彩信息;按照所述每个语音帧中各时频点对应的色彩信息,生成所述目标语音信号的语谱图。
根据本申请实施例的一个方面,提供了一种语谱图的生成装置,包括:获取模块,用于获取目标语音帧序列的每个语音帧中各时频点的强度,所述目标语音帧序列是对目标语音信号进行分帧得到的;目标彩色色卡确定模块,用于根据所述目标语音信号对应的匹配参数确定所述匹配参数对应的目标彩色色卡;所述匹配参数包括统计特征参数和聚类结果参数中的至少一项,所述统计特征参数是对所述每个语音帧中各时频点的强度进行统计分析确定的,所述聚类结果参数是对所述每个语音帧中各时频点的强度进行聚类分析确定的;色彩信息确定模块,用于根据所述目标彩色色卡所限定强度与色彩信息之间的对应关系和所述每个语音帧中各时频点的强度,确定所述每个语音帧中各时频点对应的色彩信息;语谱图生成模块,用于按照所述每个语音帧中各时频点对应的色彩信息,生成所述目标语音信号的语谱图。
根据本申请实施例的一个方面,提供了一种电子设备,包括:处理器;存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如上所述语谱图的生成方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被处理器执行时,实现如上所述语谱图的生成方法。
在本申请的方案中,基于各时频点的强度计算得到目标语音信号的匹配参数,然后确定目标语音信号的匹配参数对应的目标彩色色卡,再根据目标彩色色卡所设定嵌强度与色彩信息的对应关系,确定目标语音信号中各时频点对应对的颜色信息,进而生成该目标语音信号的语谱图。由于不同彩色色卡之间所限定强度之间的色彩信息的不同,因此,针对同一语音信号,选用不同彩色色卡所最终呈现的效果是存在差异的。在本申请的方案中,通过可以反映目标语音信号的整体特征的匹配参数来确定与目标语音信号相适配的目标彩色色卡,实现了自动进行目标语音信号与彩色色卡的自适应,从而,按照本方案所生成的语谱图可以清楚直观地表达目标语音信号的纹理细节,便于用户基于信号的语谱图进行快速分析。进一步的,由于本方案中根据目标语音信号的匹配参数进行了与彩色色卡的自适应,从而,本方案可以适用于不同质量的语音信号,而且,保证所生成语谱图的质量。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请的一个实施例示出的语谱图的生成方法的流程图。
图2是根据本申请一具体实施例示出的语谱图的生成方法的流程图。
图3是根据本申请一实施例示出的步骤130的流程图。
图4是根据本申请一实施例示出的步骤310的流程图。
图5是根据本申请另一实施例示出的步骤310的流程图。
图6是根据本申请另一实施例示出的语310的流程图。
图7是根据本申请一个实施例示出的语谱图的生成装置的框图。
图8示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
需要说明的是:在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
图1示出了根据本申请的一个实施例示出的语谱图的生成方法的流程图,该方法可以由具备处理能力的计算机设备执行,例如服务器、台式电脑、笔记本电脑等,在此不进行具体限定。参照图1所示,该方法至少包括步骤110至140,详细介绍如下:
步骤110,获取目标语音帧序列的每个语音帧中各时频点的强度,目标语音帧序列是对目标语音信号进行分帧得到的。
目标语音信号并不特指某一语音信号,而是泛指待生成语谱图的语音信号。目标语音信号可以是通过音频采集装置,或者集成音频采集装置的设备进行音频采集获得的信号。音频采集装置可以是麦克风等。集成音频采集装置的设备例如智能手机、笔记本电脑等。
通过对目标语音信号进行分帧,得到按照时间先后顺序排布的多个语音帧,即为目标语音帧序列。其中,进行分帧的帧长可以根据实际需要进行设定,例如,帧长为50毫秒。
在本申请的一些实施例中,步骤110,包括:对目标语音帧序列中的每个语音帧向频域进行变换,得到每个语音帧中各时频点的幅度值;对每个语音帧中各时频点的幅度值进行取模操作;将每个语音帧中各时频点取模操作后的幅度值进行对数运算,得到每个语音帧中各时频点的强度。
在本申请的一些实施例中,由于分帧之后,每一语音帧中可能出现不连续的状况,因此,可以在将语音帧向频域进行变换之前,通过加窗来减少语音帧中不连续的情况,加窗即将语音帧的时域信号与窗函数相乘,然后基于所得到的结果向频域进行变换。加窗所使用的窗函数可以是汉明窗、汉宁和凯撒窗等,具体可根据实际需要选用。
在本申请的一些实施例中,可以通过傅里叶变换、离散余弦变换、小波变换等将时域的语音帧向频域进行变换。在每一语音帧中可能包括多种频率的信号,通过将时域的语音帧向频域进行转换,可以确定语音帧中所包括各种频率信号的强度。其中,语音帧中一种频率的信号称为一时频点。换言之,时频点是与语音帧和频率相关的。在对时域的目标语音信号进行分帧,得到目标语音帧序列的基础上,可以将语音帧对应的帧序号来标识一语音帧。总结来说,一时频点可以通过帧序号和频率的形成的二维数组来标识。
如上通过向频域变换、取模、对数运算得到各时频点的强度的过程可以通过如下的公式(1)描述:
Figure 785061DEST_PATH_IMAGE002
;(公式1)
上式中
Figure 30098DEST_PATH_IMAGE004
表示第t帧语音帧,
Figure 875081DEST_PATH_IMAGE006
表示向频域进行变换,
Figure 332608DEST_PATH_IMAGE008
表示取模操作,
Figure 474876DEST_PATH_IMAGE010
表示对数运算,
Figure 359655DEST_PATH_IMAGE012
表示第t帧语音帧中频率为f的时频点的强度。
Figure DEST_PATH_IMAGE014
可以用于描述所对应时频点的幅度,则
Figure DEST_PATH_IMAGE016
表示向对应的语音帧向频域进行变换所得到对应频率信号的幅度值;在另一些实施例中,
Figure DEST_PATH_IMAGE018
可以用于描述所对应时频点的功率,则
Figure DEST_PATH_IMAGE020
表示向对应的语音帧向频域进行变换所得到对应频率信号的功率值。
步骤120,根据目标语音信号对应的匹配参数确定匹配参数对应的目标彩色色卡;匹配参数包括统计特征参数和聚类结果参数中的至少一项,统计特征参数是对每个语音帧中各时频点的强度进行统计分析确定的,聚类结果参数是对每个语音帧中各时频点的强度进行聚类分析确定的。
在本申请的一些实施例中,统计特征参数包括强度均值、强度方差、强度标准差、偏度和峭度中的至少一项。
强度均值是将目标语音信号中的全部时频点的强度值求平均值得到的;强度方差是将目标语音信号中的全部时频点的强度值求方差得到的;强度标准差是将目标语音信号中的全部时频点的强度值求标准差得到的。
偏度用于衡量目标语音信号中全部时频点的强度的概率分布的不对称性。偏度的值可以为正,可以为负或者甚至是无法定义。若,偏度为负(负偏态)就意味着在概率密度函数左侧的尾部比右侧的长,绝大多数的值(包括中位数在内)位于平均值的右侧。偏度为正(正偏态)就意味着在概率密度函数右侧的尾部比左侧的长,绝大多数的值(但不一定包括中位数)位于平均值的左侧。偏度为零就表示数值相对均匀地分布在平均值的两侧,但不一定意味着其为对称分布。
具体的,偏度可以按照如下公式计算得到:
Figure DEST_PATH_IMAGE022
;(公式2)
其中,
Figure DEST_PATH_IMAGE024
为偏度,
Figure DEST_PATH_IMAGE026
表示时频点的强度,
Figure DEST_PATH_IMAGE028
表示强度均值,
Figure DEST_PATH_IMAGE030
表示强度标准差,E表示均值操作,
Figure DEST_PATH_IMAGE032
表示三阶中心矩,
Figure 834544DEST_PATH_IMAGE034
表示t阶累积量。由上述公式(2)可以看出,偏度等于三阶中心矩和标准差的三次方的比值。
峭度是反映随机变量分布特性的数值统计量,是归一化4阶中心矩,即峭度等于四阶中心矩与标准差的四次方的比值。当峭度K=3定义为分布曲线具有正常峰度(即零峭度);当K>3时,分布曲线具有正峭度。当标准差σ小于正常状态下的标准差,即观测值的分散程度较小时,K增大,此时正态分布曲线峰顶的高度高于正常正态分布曲线,故称为正峭度。当K<3时,分布曲线具有负峭度,当标准差σ大于正常状态下的标准差,即观测值的分散程度较大时,K减小,此时正态分布曲线峰顶的高度低于正常正态分布曲线,故称为负峭度。
在本申请的一些实施例中,若匹配参数包括聚类结果参数,步骤120之前,该方法还包括:对每个语音帧中各时频点的强度进行聚类处理,得到聚类结果,聚类结果指示了每个语音帧中各时频点的强度所属的聚类类别;根据每个语音帧中各时频点的强度所属的聚类类别,确定聚类结果参数。
聚类分析可以采用k-均值聚类(k-means)算法、层次聚类算法、根据密度聚类的算法等,在此不进行具体限定。通过对目标语音信号的全部语音帧中时频点的强度进行聚类分析,可以确定各个时频点的强度所属的聚类类别。
在本申请的一些实施例中,聚类结果参数包括各聚类类别对应的聚类中心、各聚类类别对应的聚类重心、聚类类别的数量、聚类中心距离均值中的至少一项。
聚类中心是指聚类类别的中心点,聚类重心是指聚类类别的重心点,聚类中心距离均值是指聚类中心距离的平均值,聚类中心距离是指两聚类类别的中心点之间的距离。
在本申请的方案中,匹配参数可以是一个也可以是多个,其可以是上述所列举统计特征参数、聚类结果参数中的一个或者多个参数。
目标彩色色卡并不特指某一彩色色卡,而是泛指与目标语音信号的匹配参数相对应的彩色色卡。彩色色卡中限定了所包括的彩色颜色和各颜色的灰度值。值得一提的是,不同的彩色色卡所限定的颜色、所限定颜色的数量存在差异。进一步的,不同的彩色色卡中相邻颜色的变化也可能存在差异,例如某些彩色色卡中颜色是连续变化的,例如由黄色连续渐变到绿色;而在一些彩色色卡中,相邻颜色之间是存在跳变的,例如直接由红色跳变到绿色。而在语谱图图中,是需要通过颜色的变化来体现时频点的强度的变化情况,因此,不同的彩色色阶卡由于所限定的颜色、所限定颜色的数量、颜色之间的变化趋势不同,同一语音信号采用不同的彩色色阶卡所生成的语谱图的视觉效果对应不同。
因此,在本申请的方案中,先基于目标语音信号的匹配参数来确定适配于目标语音信号的目标彩色色阶卡,以保证后续为目标语音信号所生成语谱图的视觉效果和对目标语音信号的表达效果。
可以理解的是,在本申请的方案中,在步骤120之前,预先构建了匹配参数与彩色色卡之间的对应关系并存储,因此,在步骤120中,可以基于所存储匹配参数与彩色色卡之间的对应关系确定目标语音信号对应的匹配参数相对应的目标彩色色卡。
在本申请的一些实施例中,为了保证按照本申请的方法所生成语谱图的显示效果,可以预先进行试验,设定各种彩色色卡与匹配参数之间的对应关系,从而保证与匹配参数相对应的彩色色卡所呈现的显示效果可以清楚、直观表达语音的纹理细节。
在本申请的另一些实施例中,可以预先设定匹配参数与彩色色卡之间的匹配策略,例如该匹配策略可以限定匹配参数与彩色色卡中设定参数之间的映射关系,从而基于该映射关系来确定匹配参数所对应的目标彩色色卡。
举例来说,若匹配参数为聚类类别的数量,可以预先设定聚类类别的数量为1时,使用连续变化的彩色色卡(如Turbo、Inferno);当聚类类别的数量为2时,采用具有跳变的彩色色阶卡(如Jet等),因为在该种情况下,目标语音信号中大部分不是分布在最小值附近时,极有可能是存在噪声,通过此采用具有跳变的彩色色阶卡,可以将语音和噪声的色彩对比进一步拉大,提高语音的图谱呈现效果。
又例如,若匹配参数为强度均值,可以先计算强度均值与该目标语音信号中强度最大范围值(该强度最大范围值等于强度最大值与强度最小值的差)的比值(为便于区分,称为第一比值)。之后,根据各个色卡所限定颜色的灰度值,计算各彩色色卡中的灰度值均值和各彩色色卡中的灰度最大范围值(该灰度最大范围值等于灰度值最大值与灰度值最小值的差),再针对每一彩色色卡,计算灰度值均值与灰度最大范围值的比值(称为第二比值)。在此基础上,基于目标语音帧序列的第一比值,和各彩色色卡的第二比值,从中筛选出第二比值与第一比值之间的差距最小的彩色色卡作为目标彩色色卡。由于第二比值反映了所对应彩色色卡中颜色的灰度值的变化情况,第一比值反映了目标语音信号中时频点的强度的变化情况,所确定目标彩色色卡是第二比值与第一比值之间的差距最小的彩色色卡,因此,表明目标彩色色卡中颜色的灰度值的变化情况与目标语音信号中时频点的强度变化情况相同或者相近。
又例如,若匹配参数为强度均值和强度方差(当然,在其他实施例中也可以是强度标准差),可以先基于目标语音信号对应的强度均值计算目标语音信号对应的第一比值(具体计算过程参见上文描述)和计算目标语音信号对应的强度方差。并计算各彩色色卡的第二比值(计算过程参见上文描述,在此不再赘述)和各彩色色卡中颜色灰度值方差。在此基础上,可以先基于目标语音信号的第一比值,筛选第二比值与第一比值的差距最小的设定数量(例如三个)个彩色色卡作为候选彩色色卡;然后再根据目标语音信号的强度方差,进行二次匹配,将颜色灰度值方差与目标语音信号的强度方差之间的差距最小的候选彩色色卡确定为目标彩色色卡。当然,在其他实施例中,还可以先基于强度方差和各彩色色阶卡的颜色灰度值方差进行彩色色阶卡的初次筛选,然后再基于第一比值和候选彩色色阶卡的第二比值进行彩色色阶卡二次筛选。
又例如,若匹配参数为聚类类别的数量和聚类中心距离均值。可以基于各彩色色卡中跳变点的数量和两跳变点所在的颜色灰度值,计算两跳变点的跳变距离,即跳变距离等于两跳变点所在的颜色灰度值之间差值的绝对值,然后计算基于彩色色卡中全部跳变点中任意两跳变点的跳变距离计算平均跳变距离。在此基础上,可以先根据目标语音信号所对应聚类类别的数量(假设为k)和彩色色卡中跳变点的数量(假设为n)进行彩色色卡初次筛选,确定候选彩色色卡。对于彩色色卡而言,若彩色色卡中跳变点的数量为n,则该彩色色卡中连续变化颜色的类别数量为n+1。具体的,根据目标语音信号所对应聚类类别的数量k,可以将跳变点的数量n=k-1的彩色色卡确定为候选彩色色卡。再基于目标语音信号所对应聚类中心距离均值和彩色色卡所对应平均跳变距离进行彩色色卡的二次筛选,确定目标彩色色卡。具体的,将平均跳变距离与目标语音信号所对应聚类中心距离均值之间的差距最小的候选彩色色卡确定为目标彩色色卡。在本申请的一些实施例中,由于目标语音信号中时频点的强度范围与彩色色卡中颜色灰度值的灰度值范围可能不同,因此,为了避免因强度范围与灰度值范围差距太大影响目标彩色色卡的确定,可以先按照设定参数范围(例如0~1,当然并不限于此),将时频点的强度和彩色色卡中各颜色的灰度值均变换到该设定参数范围中,然后按照变换后的强度(灰度值)对应参数(例如聚类中心距离均值、平均跳变距离)计算。
又例如,若匹配参数为聚类类别的数量和强度均值,可以先根据目标语音信号所对应聚类类别的数量(假设为k)和彩色色卡中跳变点的数量(假设为n)进行彩色色卡初次筛选,确定候选彩色色卡。对于彩色色卡而言,若彩色色卡中跳变点的数量为n,则该彩色色卡中连续变化颜色的类别数量为n+1。具体的,根据目标语音信号所对应聚类类别的数量k,可以将跳变点的数量n=k-1的彩色色卡确定为候选彩色色卡。然后基于目标语音信号中的强度均值所计算得到的第一比值(具体计算过程参见上文描述)进行彩色色卡的二次筛选。具体的,将第二比值与目标语音信号所对应第一比值的差距最小的候选彩色色卡确定为目标彩色色卡。
又例如,若匹配参数为强度均值、偏度、聚类类别的数量和聚类中心距离均值,先基于目标语音信号对应的强度均值计算第一比值,以及基于各彩色色卡所对应灰度值均值计算第二比值;并基于各彩色色卡中颜色的灰度值分布计算各彩色色卡对应的偏度(为便于区分,将目标语音信号中时频点的强度的偏度称为第一偏度,将彩色色卡所对应的偏度称为第二偏度)。然后,根据目标语音信号所对应偏度和聚类类别的数量进行彩色色卡的初次筛选。具体的,跳变点的数量n=k-1(其中,k为目标语音信号所对应聚类类别的数量)、且第二偏度与目标语音信号的第一偏度之间的偏差在第一偏差范围内的彩色色卡作为候选彩色色卡。最后,基于第一比值和聚类中心距离均值进行彩色色卡的二次筛选。具体的,将第二比值与第一比值之间的偏差在第二偏差范围内,或者将平均跳变距离与聚类中心距离均值之间的偏差在第三偏差范围内的候选彩色色卡确定为目标彩色色卡。
在其他实施例中,若匹配参数为多个,还可以设定每种匹配参数与彩色色卡中对应参数的匹配要求,进而针对每一彩色色卡,确定所对应参数与目标语音中对应匹配参数是否满足对应的匹配要求,再针对每一彩色色卡,统计与目标语音信号中对应匹配参数满足匹配要求的参数的总数量,将总数量最大的彩色色卡确定为目标彩色色卡。
举例来说,若匹配参数为偏度、聚类类别的数量和聚类中心距离均值,则先设定彩色色卡中第二偏度与目标语音信号中第一偏度之间相匹配的第一匹配条件(第一匹配条件例如第一偏度与第二偏度之间的偏差在第一偏差范围内)、设定聚类类别的数量与彩色色卡中跳变点数量相匹配的第二匹配条件(第二匹配条件例如聚类类别的数量等于跳变点数量+1)、聚类中心距离均值与彩色色卡中平均跳变距离相匹配的第三匹配条件(第三匹配条件例如聚类中心距离均值与平均跳变距离之间的偏差在第二偏差范围内)。假设彩色色卡包括彩色色卡A、彩色色卡B和彩色色卡C。对于目标语音信号,若统计确定彩色色卡A中与目标语音信号中对应匹配参数满足所对应的匹配条件的参数包括第二偏度,对应的,满足所对应匹配条件的参数的总数量为1;若统计确定彩色色卡B中与目标语音信号中对应匹配参数满足所对应的匹配条件的参数包括第二偏度、平均跳变距离,对应的,满足所对应匹配条件的参数的总数量为2;若统计确定彩色色卡C中与目标语音信号中对应匹配参数满足所对应的匹配条件的参数包括第二偏度、跳变点数量、平均跳变距离,对应的,满足所对应匹配条件的参数的总数量为3。由于彩色色卡C满足所对应匹配条件的参数的总数量最大,因此,将彩色色卡C确定为目标彩色色卡。
又例如,若匹配参数为强度均值、强度方差和聚类类别的数量,则基于针对强度均值设定的第四匹配条件(第四匹配条件例如基于目标语音信号的强度均值所计算的第一比值与基于彩色色卡中的灰度值均值所计算得到的第二比值之间的偏差在第三偏差范围内)、针对强度方差设定的第五匹配条件(第五匹配条件例如目标语音信号的强度方差与颜色灰度值方差在第四偏差范围内)和针对聚类类别的数量设定的第二匹配条件(第二匹配条件例如聚类类别的数量等于跳变点数量+1),统计确定彩色色卡A、彩色色卡B和彩色色卡C与目标语音信号所满足匹配条件的参数的总数量。对于目标语音信号,若统计确定彩色色卡A与目标语音信号满足第四匹配条件,对应的,满足所对应匹配条件的参数(强度均值)的总数量为1;若统计确定彩色色卡B中与目标语音信号中各匹配参数满足第四匹配条件、第二匹配条件和第五匹配条件,对应的,满足所对应匹配条件的参数(强度均值、聚类类别的数量、强度方差)的总数量为3;若统计确定彩色色卡C中与目标语音信号中对应各匹配参数满足第二匹配条件和第五匹配条件,对应的,满足所对应匹配条件的参数(聚类类别的数量、强度方差)的总数量为2。由于目标语音信号中各匹配参数与彩色色卡B满足所对应匹配条件的匹配参数的总数量最大,因此,将彩色色卡B确定为目标彩色色卡。
值得一提的是,以上仅仅是进行目标彩色色卡确定的示例性举例,不能认为是对本申请使用范围的限制,在其他实施例中,还可以是基于其他匹配参数或者匹配参数组合确定目标彩色色卡。
在本申请的方案中,可以保证步骤130所确定目标语音信号对应的目标彩色色卡便于清楚直观地表达目标语音信号的细节,清楚呈现目标语音信号的纹理细节,进而便于用户直接准确定位共振峰的中心频率。
在本申请的一些实施例中,彩色色卡可以包括Turbo、Inferno、Heat、Turbo、Jet、Inferno、Civids、Plamsa等,当然,在其他实施例中,还可以包括其他的彩色色卡,在此不进行具体限定。
步骤130,根据目标彩色色卡所限定强度与色彩信息之间的对应关系和每个语音帧中各时频点的强度,确定每个语音帧中各时频点对应的色彩信息。
色彩信息用于指示颜色,相同颜色在不同颜色空间的描述方式存在差异,例如,一颜色可以通过RGB色彩空间下的RGB值描述,也可以通过YUV色彩空间下的YUV值描述,还可以通过HSV颜色空间下的HSV值描述。因此,色彩信息可以是颜色的RGB值(R表示红色、G表示绿色,B表示蓝色)、HUV值(其中,Y表示明亮度(Luminance),即灰度值,U和V表示色度(Chrominance),用于指定像素的颜色),或者HSV值(H表示色相Hue,S表示饱和度Saturation,V表示明度Value)。
步骤140,按照每个语音帧中各时频点对应的色彩信息,生成目标语音信号的语谱图。
由于色彩信息指示了对应的颜色,因此,在步骤130的基础上,通过时频点对应的色彩信息所指示的颜色来表示该时频点的强度,以此来生成目标语音信号的语谱图。
在具体实施例中,该语谱图是可以是2D语谱图或者3D语谱图。若为2D语谱图,该语谱图中,横轴可以表示时频点所在语音帧的帧序号,纵轴表示时频点的频率,在该时频点所限定的位置(或者位置区域)通过该时频点所对应的色彩信息所指示颜色进行填充,重复该过程,通过时频点所对应色彩信息所指示的颜色来填充时频点所对应位置,即得到该目标语音信号的2D语谱图。
若为3D语谱图,该语谱图中,X轴可以表示时频点所在语音帧的帧序号,Y轴表示时频点的频率,Z轴表示时频点的强度,当然,具体的,通过时频点的强度所对应的色彩信息来填充该时频点的强度在三维坐标系中的位置。重复该过程,即可得到该目标语音信号的3D语谱图。
在本申请的方案中,基于各时频点的强度计算得到目标语音信号的匹配参数,然后确定目标语音信号的匹配参数对应的目标彩色色卡,再根据目标彩色色卡所设定嵌强度与色彩信息的对应关系,确定目标语音信号中各时频点对应对的颜色信息,进而生成该目标语音信号的语谱图。由于不同彩色色卡之间所限定强度之间的色彩信息的不同,因此,针对同一语音信号,选用不同彩色色卡所最终呈现的效果是存在差异的。在本申请的方案中,通过可以反映目标语音信号的整体特征的匹配参数来确定与目标语音信号相适配的目标彩色色卡,实现了自动进行目标语音信号与彩色色卡的自适应,从而,按照本方案所生成的语谱图可以清楚直观地表达目标语音信号的纹理细节,便于用户基于信号的语谱图进行快速分析。
进一步的,由于本方案中根据目标语音信号的匹配参数进行了与彩色色卡的自适应,从而,本方案可以适用于不同质量的语音信号,而且,保证所生成语谱图的质量。
图2是根据本申请一具体实施例示出的语谱图的生成方法的流程图,如图2所示,该方法具体包括步骤210-250。详细说明如下:
步骤210,分帧。将目标语音信号进行分帧,得到该目标语音信号的语音帧序列。
步骤220,变换。所进行的变换至少包括将时域的语音帧向频域进行变换。在具体实施例中,该变换还可以包括上文中的取模操作、对数运算等,进一步的,在其他实施例中,该变换还可以包括所计算得到各时频点的强度进行预处理,例如截幅处理,归一化处理等,在此不进行具体限定。
步骤230,确定目标彩色色卡。在该步骤中,通过目标语音信号中各时频点的强度进行统计分析,和/或,进行聚类分析,确定目标语音信号的匹配参数,并根据目标语音信号的匹配参数和所设定彩色色卡与匹配参数之间的对应关系,确定该目标语音信号的目标彩色色卡。
步骤240,颜色映射。目标彩色色卡中限定了强度与色彩信息之间的映射关系,在此基础上,可以将目标语音信号中各时频点的强度与目标彩色色卡所限定的颜色进行颜色映射,确定各时频点的强度所对应的颜色。
步骤250,显示语谱图。在确定了各时频点的强度所对应的颜色后,可以对应生成该目标语音信号的2D或3D彩色语谱图。
在现有技术中,一般是生成灰度的语谱图,请继续参阅图2,在步骤220之后,通过步骤260-270的过程生成语音信号的灰度语谱图,即:步骤260,灰度映射,即将时频点的强度进行灰度映射;步骤270,生成灰度语谱图。所生成的灰度语谱图中,对于时频点的强度的分辨率不高,从而不便于进行分析。而且,相较于灰度语谱图而言,彩色语谱图的视觉效果更好,不容易引起视觉疲劳。
在本申请的一些实施例中,步骤130之前,该方法还包括:在用户界面中显示目标彩色色卡对应的选择选项;检测针对选择选项的触发操作,确定触发选择的目标彩色色卡。
在本实施例中,步骤130包括:根据触发选择的目标彩色色卡所限定定强度与色彩信息之间的对应关系,确定每个语音帧中各时频点的强度所对应的色彩信息。
在本实施例的方案中,通过所显示的选择选项来便于用户进行彩色色卡的确认。在本申请的一些实施例中,基于目标语音信号的匹配参数所确定的目标彩色色卡可以是一个也可以是多个,在该目标彩色色卡为多个的情况下,用户可以根据实际语谱分析需要,基于所显示的选择选项来选择一目标彩色色卡(即触发选择的目标彩色色卡),从而可以根据用户的分析需要进行目标彩色色卡的选择。在本申请的一些实施例中,在用户选择一目标彩色色卡并对应生成语谱图后,用户还可以通过该选择选项进行目标彩色色卡切换,从而,可以生成的目标语音信号在另一种目标彩色色卡下的语谱图,便于用户从多个维度对目标语音信号的语谱图进行分析。
在本申请的一些实施例中,如图3所示,步骤130包括:
步骤310,将每个语音帧中各时频点的强度转换到指定范围内,得到每个语音帧中各时频点所对应转换后的强度。
步骤320,根据目标彩色色卡所限定强度与色彩信息之间的对应关系,确定每个语音帧中各时频点所对应转换后的强度对应的色彩信息。
在本申请的一些实施例中,该指定范围可以是根据需要进行设定,该指定范围可以是0~1,若色彩信息为颜色的RGB值,则可以将该0~1的指定范围划分成255个值,其中,每个值与一RGB值相映射。当然,该指定范围不限于上述所列举的0~1。
下述表1示出在一具体实施中在指定范围为0~1,将该0~1的指定范围划分成255个值,各强度与RGB值的映射关系,值得一提的是,RGB值中包括对应于红色的分量、对应于绿色的分量、和对应于蓝色的分量。
表1
Figure 95761DEST_PATH_IMAGE036
通过将各时频点的强度转换到指定范围内,从而在进行颜色映射时,仅需要将该指定范围内的强度进行颜色映射,缩小了颜色映射的强度的数量。
在本申请的一些实施例中,如图4所示,步骤310,包括:
步骤410,根据设定参数范围中强度最大值和强度最小值,对每个语音帧中各时频点的强度进行截幅处理。
在本申请的一些实施例中,该设定参数范围可以是根据目标语音信号中各时频点的强度来针对性进行设定的。
在本申请的一些实施例中,可以按照百分位的方式确定对应于该目标语音信号的设定范围,例如,针对目标语音信号的全部时频点的强度,取90%的百分位对应的强度为强度最大值,取10%的百分位对应的强度为强度最小值。
在本申请的一些实施例中,还可以基于针对目标语音信号的全部时频点的强度生成强度直方图,在此基础上,取平均值作为中心,根据直方图计算包含90%数值的置信区间,将该置信区间所限定强度的范围为设定参数范围,对应确定强度最大值和强度最小值。
在本申请的另一些实施例中,还可以采用分布函数(如一个或多个高斯分布建模, 使用E-M算法方法来估计高斯参数)拟合时频点的强度分布。当存在多个高斯分布时,极有 可能是数据存在几个大类的簇,取最大的均值+3
Figure DEST_PATH_IMAGE038
为设定范围的强度最大值,取最小均值为 设定参数范围的强度最小值。当只有一个高斯时,取均值的±3
Figure 892203DEST_PATH_IMAGE038
作为设定参数范围的强度 最大值和强度最小值。
在具体实施例中,可以根据实际需要来确定设定范围。在本申请的一些实施例中,还可以提供进行设定范围设定方式选择的选项,便于用户根据目标语音信号时频点的强度来选择设定范围的设定方式,使得所选择的设定方式与该目标语音信号相适应。例如,若一语音信号中时频点的强度比较集中,则可以采用按照百分位的方式确定设定范围,若一语音信号中时频点的强度比较分散,可以按照分布函数的方式确定设定范围。
在本申请的一些实施例中,当目标语音信号的数据量不足,例如语音信号的时长小于第一设定阈值,或者语音信号中的有效语音信号的时长小于第二设定阈值(其中,第二设定阈值小于第一设定阈值),可以采用经验范围设置,例如当增强模式为第一增强模式时,将该设定范围确定为[-30,30],当增强模式不是第一增强模式时,该设定范围为[-80,-10]。
通过进行截幅处理,将大于该强度最大值的截止为该强度最大值,将小于该强度最小值的截止为该强度最小值。
在本申请的一些实施例中,指定范围所限定的范围包括设定范围所限定的范围,换言之,该设定参数范围中的强度最大值不低于指定范围中的最大值,该设定参数范围中的强度最小值不大于指定范围中的最小值。
步骤420,将每个语音帧中各时频点所对应截幅处理后的强度进行归一化处理,得到每个语音帧中各时频点所对应转换后的强度。
通过进行归一化处理,将各时频点的强度转换到0~1这一指定范围,从而,压缩了进行颜色映射的强度的范围。也就是说,在本实施例中,指定范围为0~1。
在本申请的一些实施例中,可以采用线性归一化的方式进行归一化处理,指定范围中的最大值为1,指定范围中的最小值对应0.0,归一化处理前的强度与归一化处理后的强度成线性关系。
在本申请的另一些实施例中,可以采用折线归一化的方式进行归一化。将该指定范围划分至少两个子范围,在每个子范围中采用线性归一化。
在本申请的另一些实施例中,可以采用高斯归一化方式进行归一化。其中,高斯归一化方式的公式如下所示:
Figure DEST_PATH_IMAGE040
;(公式3)
其中,X1为归一化前时频点的强度,E为强度均值;
Figure DEST_PATH_IMAGE042
为强度标准差,Z为归一化后的强度值。
在本申请的一些实施例中,如果按照高斯归一化后强度的范围较小,还可以将高斯归一化后的强度均加上0.5,从而将强度转换到0~1这一指定范围。
在本申请的另一些实施例中,如图5所示,步骤310,包括:
步骤510,将每个语音帧中各时频点的强度分别与强度参考值相减;强度参考值是根据全部语音帧中各时频点的强度确定的。
在一些应用场景中,可能语音信号存在固有的频谱倾斜(低频能量大,高频能量低),整体动态范围非常大,如果直接将整个动态范围进行颜色映射,会导致生成语谱图中,强度大的区域和强度微弱的区域均呈现不佳(色阶一致,视觉上拉不开差距),所以往往需要截取其中一部分,但这种方法又会导致无法兼顾,要么微弱部分可以观察到,此时强度大的区域糊成一块,要么强度大的区域不糊,但微弱部分和背景色融为一致,导致语谱图中无法准确呈现微弱部分的信号。
在该种情况下,将各时频点的强度与参考强度值相减,可以减少频谱倾斜,不同时频点的强度之间的差异缩小,整体动态范围缩小,但又不会破坏语音所固有的特征,最终可以增强图谱质量。对信噪比低的信号,这种方法也有一定的作用,可以保证整个图谱的视觉效果。
在本申请的一些实施例中,该强度参考值可以是目标语音信号中全部时频点的强度平均值,则上述步骤510,可以通过如下公式(4)描述:
Figure DEST_PATH_IMAGE044
;(4)
其中,T为目标语音信号中时频点的数量。
Figure DEST_PATH_IMAGE046
为强度参考值。
步骤520,根据设定参数参数范围中强度最大值和强度最小值,对每个语音帧中各时频点相减后的强度进行截幅处理。
步骤530,将每个语音帧中各时频点截幅处理后的强度进行归一化处理,得到每个语音帧中各时频点所对应转换后的强度。
具体步骤520和530的具体描述参见图4对应实施例的描述,在此不再赘述。
在本实施例的方案中,先将各时频点的强度与参考强度值相减,可以在目标语音信号中存在固有的频谱倾斜的情况下,可以减少频谱倾斜,不同时频点的强度之间的差异缩小,但又不会破坏语音所固有的特征,在这个基础上,再进行截幅处理和归一化处理,相当于将时频点的强度进行了增强,可以提高语谱图的质量。
在本申请的另一些实施例中,如图6所示,步骤310,包括:
步骤610,获取模式选择信息,模式选择信息指示了触发选择的增强模式。步骤620,根据模式选择信息判断所触发选择的增强模式是否为第一增强模式;步骤630,判断目标语音信号的时长是否满足设定条件。
若模式选择信息指示所选择的增强模式为第一增强模式,且目标语音信号的时长满足设定条件,则执行步骤510-530;若不是第一增强模式和/或目标语音信号的时长不满足设定条件,则执行步骤410-420。
在该实施例中,提供了进行增强模式选择的选项。若为第一增强模式且目标语音信号的时长满足设定条件,则按照步骤510-530的过程将时频点的强度转换到指定范围;反之,则按照步骤410-420将时频点的强度转换到指定范围。
在本申请的一些实施例中,还可以显示时频点的强度的直方图,从而,用户可以根据该直方图判断目标语音信号中是否存在固有频谱倾斜、信噪比较低、或者高频成分薄弱,若用户根据该直方图判断存在固有频谱倾斜、或信噪比较低、或者高频成分薄弱,则可以触发选择第一增强模式,反之,在判断不存在固有频率倾斜的情况下,可以选择其他的增强模式。
在本申请的一些实施例中,该设定条件可以是通过第三时长阈值来限定,若目标语音信号的时长不低于第三时长阈值,则确定该目标语音信号的时长的满足设定条件,反之,则不满足。在本申请的一些实施例中,该设定条件还可以通过第四时长阈值来限定,若目标语音信号中有效语音信号的时长不低于第四时长阈值,则确定满足设定条件,反之则不满足;其中,第三时长阈值不低于第四时长阈值。
在本申请的方案中,通过提供进行模式选择的选项,从而,用户可以选择对应的模式选择选项来确定是否将时频点的强度与强度参考值相减,即确定是否将强度的动态范围进行缩小。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的方法。对于本申请装置实施例中未披露的细节,请参照本申请上述方法实施例。
图7是根据一实施例示出的语谱图的生成装置的框图,如图7所示,该语谱图的生成装置包括:
获取模块710,用于获取目标语音帧序列的每个语音帧中各时频点的强度,目标语音帧序列是对目标语音信号进行分帧得到的。
目标彩色色卡确定模块720,用于根据目标语音信号对应的匹配参数确定匹配参数对应的目标彩色色卡;匹配参数包括统计特征参数和聚类结果参数中的至少一项,统计特征参数是对每个语音帧中各时频点的强度进行统计分析确定的,聚类结果参数是对每个语音帧中各时频点的强度进行聚类分析确定的。
色彩信息确定模块730,用于根据目标彩色色卡所限定强度与色彩信息之间的对应关系和每个语音帧中各时频点的强度,确定每个语音帧中各时频点对应的色彩信息。
语谱图生成模块740,用于按照每个语音帧中各时频点对应的色彩信息,生成目标语音信号的语谱图。
在本申请的一些实施例中,语谱图的生成装置还包括:选择选项显示模块,用于在用户界面中显示目标彩色色卡对应的选择选项;检测模块,用于检测针对选择选项的触发操作,确定触发选择的目标彩色色卡;在该实施例中,色彩信息确定模块730,进一步被配置为:根据触发选择的目标彩色色卡所限定定强度与色彩信息之间的对应关系,确定每个语音帧中各时频点的强度所对应的色彩信息。
在本申请的一些实施例中,色彩信息确定模块730,包括:转换单元,用于将每个语音帧中各时频点的强度转换到指定范围内,得到每个语音帧中各时频点所对应转换后的强度;确定模块,用于根据目标彩色色卡所限定强度与色彩信息之间的对应关系,确定每个语音帧中各时频点所对应转换后的强度对应的色彩信息。
在本申请的一些实施例中,转换单元,包括:第一截幅处理单元,用于根据设定参数范围中强度最大值和强度最小值,对每个语音帧中各时频点的强度进行截幅处理;第一归一化处理单元,用于将每个语音帧中各时频点所对应截幅处理后的强度进行归一化处理,得到每个语音帧中各时频点所对应转换后的强度。
在本申请的一些实施例中,转换单元,包括:相减单元,用于将每个语音帧中各时频点的强度分别与强度参考值相减;强度参考值是根据每个语音帧中各时频点的强度确定的;第二截幅处理单元,用于根据设定参数范围中强度最大值和强度最小值,对每个语音帧中各时频点相减后的强度进行截幅处理;第二归一化处理单元,用于将每个语音帧中各时频点截幅处理后的强度进行归一化处理,得到每个语音帧中各时频点所对应转换后的强度。
在本申请的一些实施例中,相减单元,包括:模式选择信息获取单元,用于获取模式选择信息,模式选择信息指示了触发选择的增强模式;若模式选择信息指示所选择的增强模式为第一增强模式,且目标语音信号的时长满足设定条件,则执行将每个语音帧中各时频点的强度分别与强度参考值相减的步骤。
在本申请的一些实施例中,语谱图的生成装置还包括:聚类处理模块,用于对每个语音帧中各时频点的强度进行聚类处理,得到聚类结果,聚类结果指示了每个语音帧中各时频点的强度所属的聚类类别;聚类结果参数确定模块,用于根据每个语音帧中各时频点的强度所属的聚类类别,确定聚类结果参数。
在本申请的一些实施例中,获取模块710,包括:变换单元,用于对目标语音帧序列中的每个语音帧向频域进行变换,得到每个语音帧中各时频点的幅度值;取模操作单元,用于对每个语音帧中各时频点的幅度值进行取模操作;对数运算单元,用于将每个语音帧中各时频点取模操作后的幅度值进行对数运算,得到每个语音帧中各时频点的强度。
在本申请的一些实施例中,聚类结果参数包括各聚类类别对应的聚类中心、各聚类类别对应的聚类重心、聚类类别的数量、聚类中心距离均值中的至少一项。
在本申请的一些实施例中,统计特征参数包括强度均值、强度方差、强度标准差、偏度和峭度中的至少一项。
图8示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图8示出的电子设备的计算机系统800仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统800包括中央处理单元(Central Processing Unit,CPU)801,其可以根据存储在只读存储器(Read-Only Memory,ROM)802中的程序或者从存储部分808加载到随机访问存储器(Random Access Memory,RAM)803中的程序而执行各种适当的动作和处理,例如执行上述实施例中的方法。在RAM 803中,还存储有系统操作所需的各种程序和数据。CPU801、ROM802以及RAM 803通过总线804彼此相连。输入/输出(Input/Output,I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN(Local Area Network,局域网)卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载计算机可读指令,当该计算机可读存储指令被处理器执行时,实现上述任一实施例中的方法。
根据本申请的一个方面,还提供了一种电子设备,其包括:处理器;存储器,存储器上存储有计算机可读指令,计算机可读指令被处理器执行时,实现上述任一实施例中的方法。
根据本申请实施例的一个方面,提供了计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一实施例中的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (13)

1.一种语谱图的生成方法,其特征在于,包括:
获取目标语音帧序列的每个语音帧中各时频点的强度,所述目标语音帧序列是对目标语音信号进行分帧得到的;
根据所述目标语音信号对应的匹配参数确定所述匹配参数对应的目标彩色色卡;所述匹配参数包括聚类结果参数,或者所述匹配参数包括聚类结果参数和统计特征参数,所述统计特征参数是对所述每个语音帧中各时频点的强度进行统计分析确定的,所述聚类结果参数是对所述每个语音帧中各时频点的强度进行聚类分析确定的;
根据所述目标彩色色卡所限定强度与色彩信息之间的对应关系和所述每个语音帧中各时频点的强度,确定所述每个语音帧中各时频点对应的色彩信息;
按照所述每个语音帧中各时频点对应的色彩信息,生成所述目标语音信号的语谱图。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标彩色色卡所限定强度与色彩信息之间的对应关系和所述每个语音帧中各时频点的强度,确定所述每个语音帧中各时频点对应的色彩信息之前,所述方法还包括:
在用户界面中显示所述目标彩色色卡对应的选择选项;
检测针对所述选择选项的触发操作,确定触发选择的目标彩色色卡;
所述根据所述目标彩色色卡所限定强度与色彩信息之间的对应关系和所述每个语音帧中各时频点的强度,确定所述每个语音帧中各时频点对应的色彩信息,包括:
根据所述触发选择的目标彩色色卡所限定的强度与色彩信息之间的对应关系,确定所述每个语音帧中各时频点的强度所对应的色彩信息。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标彩色色卡所限定强度与色彩信息之间的对应关系和所述每个语音帧中各时频点的强度,确定所述每个语音帧中各时频点对应的色彩信息,包括:
将所述每个语音帧中各时频点的强度转换到指定范围内,得到所述每个语音帧中各时频点所对应转换后的强度;
根据所述目标彩色色卡所限定强度与色彩信息之间的对应关系,确定所述每个语音帧中各时频点所对应转换后的强度对应的色彩信息。
4.根据权利要求3所述的方法,其特征在于,所述将所述每个语音帧中各时频点的强度转换到指定范围内,得到所述每个语音帧中各时频点所对应转换后的强度,包括:
根据设定参数范围中的强度最大值和强度最小值,对所述每个语音帧中各时频点的强度进行截幅处理;
将所述每个语音帧中各时频点所对应截幅处理后的强度进行归一化处理,得到所述每个语音帧中各时频点所对应转换后的强度。
5.根据权利要求3所述的方法,其特征在于,所述将所述每个语音帧中各时频点的强度转换到指定范围内,得到所述每个语音帧中各时频点所对应转换后的强度,包括:
将所述每个语音帧中各时频点的强度分别与强度参考值相减;所述强度参考值是根据所述每个语音帧中各时频点的强度确定的;
根据设定参数范围中的强度最大值和强度最小值,对所述每个语音帧中各时频点相减后的强度进行截幅处理;
将所述每个语音帧中各时频点截幅处理后的强度进行归一化处理,得到所述每个语音帧中各时频点所对应转换后的强度。
6.根据权利要求5所述的方法,其特征在于,所述将所述每个语音帧中各时频点的强度分别与强度参考值相减,包括:
获取模式选择信息,所述模式选择信息指示了触发选择的增强模式;
若所述模式选择信息指示所选择的增强模式为第一增强模式,且所述目标语音信号的时长满足设定条件,则执行所述将所述每个语音帧中各时频点的强度分别与强度参考值相减的步骤。
7.根据权利要求1所述的方法,其特征在于,所述根据所述目标语音信号对应的匹配参数确定所述匹配参数对应的目标彩色色卡之前,所述方法还包括:
对所述每个语音帧中各时频点的强度进行聚类处理,得到聚类结果,所述聚类结果指示了所述每个语音帧中各时频点的强度所属的聚类类别;
根据所述每个语音帧中各时频点的强度所属的聚类类别,确定所述聚类结果参数。
8.根据权利要求1所述的方法,其特征在于,所述获取目标语音帧序列的每个语音帧中各时频点的强度,包括:
对所述目标语音帧序列中的每个语音帧向频域进行变换,得到所述每个语音帧中各时频点的幅度值;
对所述每个语音帧中各时频点的幅度值进行取模操作;
将所述每个语音帧中各时频点取模操作后的幅度值进行对数运算,得到所述每个语音帧中各时频点的强度。
9.根据权利要求1-8中任一项所述的方法,其特征在于,所述聚类结果参数包括各聚类类别对应的聚类中心、各聚类类别对应的聚类重心、聚类类别的数量、聚类中心距离均值中的至少一项。
10.根据权利要求1-8中任一项所述的方法,其特征在于,所述统计特征参数包括强度均值、强度方差、强度标准差、偏度和峭度中的至少一项。
11.一种语谱图的生成装置,其特征在于,包括:
获取模块,用于获取目标语音帧序列的每个语音帧中各时频点的强度,所述目标语音帧序列是对目标语音信号进行分帧得到的;
目标彩色色卡确定模块,用于根据所述目标语音信号对应的匹配参数确定所述匹配参数对应的目标彩色色卡;所述匹配参数包括聚类结果参数,或者所述匹配参数包括聚类结果参数和统计特征参数,所述统计特征参数是对所述每个语音帧中各时频点的强度进行统计分析确定的,所述聚类结果参数是对所述每个语音帧中各时频点的强度进行聚类分析确定的;
色彩信息确定模块,用于根据所述目标彩色色卡所限定强度与色彩信息之间的对应关系和所述每个语音帧中各时频点的强度,确定所述每个语音帧中各时频点对应的色彩信息;
语谱图生成模块,用于按照所述每个语音帧中各时频点对应的色彩信息,生成所述目标语音信号的语谱图。
12.一种电子设备,其特征在于,包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如权利要求1-10中任一项所述的方法。
13.一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被处理器执行时,实现如权利要求1-10中任一项所述的方法。
CN202110768395.XA 2021-07-07 2021-07-07 语谱图的生成方法、装置、电子设备及存储介质 Active CN113257232B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110768395.XA CN113257232B (zh) 2021-07-07 2021-07-07 语谱图的生成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110768395.XA CN113257232B (zh) 2021-07-07 2021-07-07 语谱图的生成方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113257232A CN113257232A (zh) 2021-08-13
CN113257232B true CN113257232B (zh) 2021-10-08

Family

ID=77190931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110768395.XA Active CN113257232B (zh) 2021-07-07 2021-07-07 语谱图的生成方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113257232B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06230796A (ja) * 1992-12-08 1994-08-19 N T T Data Tsushin Kk スペクトログラム出力システム
US8890869B2 (en) * 2008-08-12 2014-11-18 Adobe Systems Incorporated Colorization of audio segments
CN102044254B (zh) * 2009-10-10 2012-11-07 北京理工大学 一种用于语音可视化的语谱图彩色增强方法
CN102708860B (zh) * 2012-06-27 2014-04-23 昆明信诺莱伯科技有限公司 一种基于声信号识别鸟类种类的判断标准建立方法
CN106772261B (zh) * 2016-12-07 2019-11-12 中国船舶重工集团公司第七二四研究所 雷达侦测信号多维特征聚类可视化显示方法
CN109116108B (zh) * 2018-07-09 2020-09-22 深圳市鼎阳科技股份有限公司 一种频谱密度图的显示装置和方法

Also Published As

Publication number Publication date
CN113257232A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
Celik Spatial entropy-based global and local image contrast enhancement
Parihar et al. Contrast enhancement using entropy‐based dynamic sub‐histogram equalisation
Celik et al. Automatic image equalization and contrast enhancement using Gaussian mixture modeling
US9345430B2 (en) Imaging apparatus and imaging method thereof, image processing apparatus and image processing method thereof, and program
WO2017121018A1 (zh) 二维码图像处理的方法和装置、终端、存储介质
Fardo et al. A formal evaluation of PSNR as quality measurement parameter for image segmentation algorithms
KR20070050249A (ko) 콘트라스트 향상 방법 및 장치
Jung et al. Optimized perceptual tone mapping for contrast enhancement of images
Nnolim An adaptive RGB colour enhancement formulation for logarithmic image processing-based algorithms
Guo et al. Objective measurement for image defogging algorithms
Abdoli et al. Gaussian mixture model‐based contrast enhancement
JP2013020617A (ja) グレースケール文字画像正規化装置及び方法
Kaur et al. Performance evaluation of fuzzy and histogram based color image enhancement
Kansal et al. New adaptive histogram equalisation heuristic approach for contrast enhancement
Pugazhenthi et al. Image contrast enhancement by automatic multi-histogram equalization for satellite images
JP2018185265A (ja) 情報処理装置、制御方法、及びプログラム
CN113257232B (zh) 语谱图的生成方法、装置、电子设备及存储介质
An et al. Perceptual brightness-based inverse tone mapping for high dynamic range imaging
Li et al. A novel detail weighted histogram equalization method for brightness preserving image enhancement based on partial statistic and global mapping model
Asghar et al. Automatic enhancement of digital images using cubic Bézier curve and Fourier transformation
CN112967191A (zh) 图像处理方法、装置、电子设备和存储介质
Parihar Histogram modification and DCT based contrast enhancement
Ehsani et al. Iterative histogram matching algorithm for chromosome image enhancement based on statistical moments
CN112084884A (zh) 一种扫描电镜图像孔隙识别方法、终端设备及存储介质
Jadiya et al. Independent histogram equalization using optimal threshold for contrast enhancement and brightness preservation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant