CN113392259B - 声音刺激样本选择方法、控制设备及存储介质 - Google Patents
声音刺激样本选择方法、控制设备及存储介质 Download PDFInfo
- Publication number
- CN113392259B CN113392259B CN202110528102.0A CN202110528102A CN113392259B CN 113392259 B CN113392259 B CN 113392259B CN 202110528102 A CN202110528102 A CN 202110528102A CN 113392259 B CN113392259 B CN 113392259B
- Authority
- CN
- China
- Prior art keywords
- sample
- sound stimulation
- loudness
- samples
- initially selected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Multimedia (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
本发明公开了一种声音刺激样本选择方法、控制设备及存储介质,声音刺激样本选择方法包括:获取若干声音刺激样本,并根据声音刺激样本的时长和预设时长范围确定初选声音刺激样本;获取若干初选声音刺激样本的起始点,并将初选声音刺激样本根据起始点对齐;计算对齐后的初选声音刺激样本的原始响度,根据预设响度范围和原始响度调整初选声音刺激样本的响度;将调节响度后的初选声音刺激样本进行趋势分类以确定样本类别;计算调节后若干初选声音刺激样本的特征相似度以得到样本相似度;根据用户预设要求选取所述样本类别、所述样本相似度对应的所述初选声音刺激样本。本发明无需人工操作,提高声音刺激样本选择的准确性和效率。
Description
技术领域
本发明涉及计算机信息处理的技术领域,尤其是涉及一种声音刺激样本选择方法、控制设备及存储介质。
背景技术
人类情感的获取最重要的途径包括听觉和视觉,对声音的情感反应和评价是人类认知的基本组成。在生活中,人们听到噪音会烦躁,听到丛林鸟的叫声令人愉悦,听到雷声会惊吓,在嘈杂的环境中工作一天使人疲倦。因此,声音作为刺激样本被广泛应用于认知能力评估和测试相关应用产品中。
针对声音刺激样本的选择传统的方式是由技术人员进行选择,但是通过人工的方式进行声音刺激样本选择需要大量的志愿者进行标注,需要耗费大量的人力。而且在进行样本选择取决于操作者的经验,所以不可避免引入人工选择标准不同所带来的误差,导致声音刺激样本选择的结果不稳定。因此,通过人工的方式选择样本不仅耗费人力,还导致声音刺激样本选择的不准确。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种声音刺激样本选择方法,能够自动选择声音刺激样本,节省人力且提高样本选择的效率。
本发明还提出一种电子控制设备。
本发明还提出一种计算机可读存储介质。
第一方面,本发明的一个实施例提供了声音刺激样本选择方法,获取若干声音刺激样本,并根据所述声音刺激样本的时长和预设时长范围确定初选声音刺激样本;
获取若干所述初选声音刺激样本的起始点,并将所述初选声音刺激样本根据所述起始点对齐;
计算对齐后的所述初选声音刺激样本的原始响度,根据预设响度范围和所述原始响度调整所述初选声音刺激样本的响度;
将调节响度后的所述初选声音刺激样本进行趋势分类以确定样本类别;
计算调节后若干所述初选声音刺激样本的特征相似度以得到样本相似度;
根据用户预设要求选取所述样本类别、所述样本相似度对应的所述初选声音刺激样本。
本发明实施例的声音刺激样本选择方法至少具有如下有益效果:通过对声音刺激样本进行过滤以得到初选声音刺激样本,然后对初选声音刺激样本进行起始点对齐,并自动调节响度,且根据初选声音刺激样本的时序变化趋势进行样本分类,再根据用户预设要求选择对应初选声音刺激样本,无需人工操作,提高声音刺激样本选择的准确性和效率。
根据本发明的另一些实施例的声音刺激样本选择方法,所述获取若干声音刺激样本,并根据所述声音刺激样本的时长和预设时长范围确定初选声音刺激样本,包括:
获取情感刺激材料库或自定义刺激材料库内的若干所述声音刺激样本;
将所述声音刺激样本的时长不满足预设时常范围的所述声音刺激样本过滤掉以得到所述初选声音刺激样本。
根据本发明的另一些实施例的声音刺激样本选择方法,所述获取若干所述初选声音刺激样本的起始点,并将所述初选声音刺激样本根据所述起始点对齐,包括:
将所述初选声音刺激样本进行加窗分帧以得到多个样本帧;
获取所述初选声音刺激样本的第一个和最后一个所述样本帧的短时能量和短时过零率,并分别获取所述短时能量和所述短时过零率中最小的值以得到短时能量特征基准值和短时过零率特征基准值;
将所有的所述初选声音刺激样本的所述短时能量特征基准值和所述短时过零率特征基准值取平均值以得到短时能量特征起始阈值和短时过零率特征起始阈值;
按照时间顺序获取所述初选声音刺激样本中所述样本帧的所述短时能量大于所述短时能量特征起始阈值,或所述短时过零率大于所述短时过零率特征起始阈值的时间点,以最早的所述时间点作为所述起始点;
将多个所述初选声音刺激样本的所述起始点前的留白进行裁剪以将所述初选声音刺激样本以所述起始点对齐。
根据本发明的另一些实施例的声音刺激样本选择方法,所述计算对齐后的所述初选声音刺激样本的原始响度,根据预设响度范围和所述原始响度调整所述初选声音刺激样本的响度,
计算对齐后的所述初选声音刺激样本的所述原始响度;
获取若干所述原始响度中最大值的所述原始响度以得到最大响度值;
根据所述最大响度值、预设第一百分比和预设第二百分比确定响度范围;
若所述初选声音刺激样本的所述原始响度大于所述响度范围的上限值,则将所述原始响度以预设第一倍数减小以使所述原始响度位于所述响度范围内;
若所述初选声音刺激样本的所述原始响度小于所述响度范围的下限值,将所述原始响度以预设第二倍数增加以使所述原始响度位于所述响度范围内。
根据本发明的另一些实施例的声音刺激样本选择方法,所述将调节响度后的所述初选声音刺激样本进行分类以确定样本类别,包括:
计算调节响度后的所述初选声音刺激样本的所述样本帧的音高特征值;
根据所述样本帧的所述音高特征值的变化趋势得到样本趋势;
获取所述样本趋势的编辑距离,并根据所述编辑距离和所述样本趋势对所述初选声音刺激样本进行分类以得到样本类别。
根据本发明的另一些实施例的声音刺激样本选择方法,所述计算调节后若干所述初选声音刺激样本的特征相似度以得到样本相似度,包括:
将调节后的所述初选声音刺激样本的每一维特征构造成特征相似度矩阵;
计算每一个所述初选声音刺激样本的所述特征相似度矩阵与其他所述初选声音刺激样本的所述特征相似度矩阵的特征相似度以得到若干特征相似度;
将若干所述特征相似度求和以得到所述初选声音刺激样本的样本相似度。
根据本发明的另一些实施例的声音刺激样本选择方法,所述用户预设要求包括:预设样本类别和预设样本数量,所述根据用户预设要求选取所述样本类别、所述样本相似度对应的所述初选声音刺激样本包括,
根据所述预设样本类别从所述初选声音刺激样本中所述样本类别相匹配的所述初选声音刺激样本;
按照所述样本相似度由高到低获取预设样本数量的所述初选声音刺激样本。
根据本发明的另一些实施例的声音刺激样本选择方法,所述预设时长范围包括0.5~2.0秒。
第二方面,本发明的一个实施例提供了电子控制设备,包括:
至少一个处理器,以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面的声音刺激样本选择方法。
第三方面,本发明的一个实施例提供了计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如第一方面所述的声音刺激样本选择方法。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书以及附图中所特别指出的结构来实现和获得。
附图说明
图1是本发明实施例中声音刺激样本选择的一具体实施例流程示意图;
图2是本发明实施例中声音刺激样本选择的另一具体实施例流程示意图;
图3是本发明实施例中声音刺激样本选择的另一具体实施例流程示意图;
图4是本发明实施例中声音刺激样本选择的另一具体实施例流程示意图;
图5是本发明实施例中声音刺激样本选择的另一具体实施例流程示意图;
图6是本发明实施例中声音刺激样本选择的另一具体实施例样本趋势示意图;
图7是本发明实施例中声音刺激样本选择的另一具体实施例流程示意图;
图8是本发明实施例中声音刺激样本选择的另一具体实施例流程示意图;
图9是本发明实施例中电子控制设备的一具体实施例模块框图。
具体实施方式
以下将结合实施例对本发明的构思及产生的技术效果进行清楚、完整地描述,以充分地理解本发明的目的、特征和效果。显然,所描述的实施例只是本发明的一部分实施例,而不是全部实施例,基于本发明的实施例,本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例,均属于本发明保护的范围。
在本发明实施例的描述中,如果涉及到“若干”,其含义是一个以上,如果涉及到“多个”,其含义是两个以上,如果涉及到“大于”、“小于”、“超过”,均应理解为不包括本数,如果涉及到“以上”、“以下”、“以内”,均应理解为包括本数。如果涉及到“第一”、“第二”,应当理解为用于区分技术特征,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
利用声音作为情绪诱发媒介的研究起步较晚,看似简单的声响也具有一些影响因素。很多认知神经学者研究发现,人脑对声音的对象属性,如人声、机械声等,加工方式不同。目前已有对人声和非人声的编码过程、影响脑区、信息处理的神经通路进行系统研究,因此为了避免声学属性对情感诱发的影响,我们在选择声音刺激样本的时候需要综合考虑多种因素,因此如何自动选择情绪声音刺激样本是一个重要的研究课题。
目前,情绪认知评价中声音刺激样本的选择一般是由技术人员通过人工的方式选择,这种选择方法需要大量的志愿者对声音刺激样本进行标注,但是采用人工标注需要耗费大量的人力。同时标注声音刺激样本取决于操作者的经验,不可避免引入人工选择标准不同所带来的误差导致声音刺激样本选择不稳定。为了避免人工选择误差太大,一般在选择声音刺激样本时,往往从多个情绪公开库中进行大量选择。其次,根据情绪标签、声音属性等进行分类,然后再人工对声音长度进行截取,截取到适合的声音长度,最后再通过志愿者对声音属性进行打分。因此,通过人工的方式进行选择、分类、打分的过程繁琐,且工作效率低,而且还需要注意选择单一对象的声响,还要考虑声音属性的数量平衡,如果声音刺激样本选择错误很容易导致测试或评价结果上的偏差。
基于此,本申请公开了一种声音刺激样本选择方法、设备及存储介质,使得声音刺激样本选择自动化,节省人力,提高声音刺激样本选择的效率。
第一方面,参照图1,本发明实施例公开了一种声音刺激样本选择方法,包括:
S100、获取若干声音刺激样本,并根据声音刺激样本的时长和预设时长范围确定初选声音刺激样本;
S200、获取若干初选声音刺激样本的起始点,并将初选声音刺激样本根据起始点对齐;
S300、计算对齐后的初选声音刺激样本的原始响度,根据预设响度范围和原始响度调整初选声音刺激样本的响度;
S400、将调节响度后的初选声音刺激样本进行趋势分类以确定样本类别;
S500、计算调节后若干初选声音刺激样本的特征相似度以得到样本相似度;
S600、根据用户预设要求选取样本类别、样本相似度对应的初选声音刺激样本。
由于直接获取的声音刺激样本存在时长过长或者过短的问题,但是需要进行情绪识别的声音刺激样本有一定的时长要求,因此在进行声音刺激样本对齐、调节、分类和评分之前需要将一些时长过长或者过短的声音刺激样本过滤掉。因此需要将声音刺激样本的时长根据预设时长范围进行过滤以得到初选声音刺激样本,以得到满足情绪识别的声音刺激样本。过滤得到初选声音刺激样本后,初选声音刺激样本的起始时间的差异很大,则对于情绪评估影响很大,因此获取初选声音刺激样本的起始点,然后将所有的初选声音刺激样本以起始点对齐,以便于后续情绪识别和评估。将初选声音刺激样本对齐后需要响度进行统一处理,因此获取初选声音刺激样本的原始响度,并判断原始响度与预设响度范围之间的关系,根据原始响度和预设响度范围的关系调整初选声音刺激样本的原始响度,使得初选声音刺激样本的响度位于预设响度范围内,以实现所有初选声音刺激样本的响度统一。将响度统一后需要将初选声音刺激样本进行分类,因此将调节好的初选声音刺激样本进行趋势分类以确定样本类别,以确定每种初选刺激样本的属性。得到样本类别后需要清楚每个初选声音刺激样本的分数,且分数为样本相似度,主要通过计算每个初选声音刺激样本的特征相似度以确定样本相似度。因此将所有的样本进行对齐、统一响度、调节、分类和确定样本相似度后,当接收到用户预设要求,可以根据用户预设要求选择对应样本类别和样本相似度对应的初选声音刺激样本。通过自动化进行样本对齐、统一响度、调节、分类和计算样本相似度,再自动根据用户预设要求选择对应的初选声音刺激样本,使得声音刺激样本选择操作简易,且节省人力,提高声音刺激样本选择的效率,进而提高基于声音刺激样本的情绪识别的准确性。
参照图2,在一些实施例中,由于情感诱发的声音刺激样本一般通过两种方式获得,第一种时通过公开的情感刺激材料库获取,通过情感刺激材料库获取的方式简单以得,但是难以实现个性研究目的。第二种主要根据实验目的通过用户录制,但是这种方式实现需要仪器设备,并不利于声音刺激样本的公开和比较。因此本实施例中声音刺激样本可以根据不同的要求选择对应的方式去获取声音刺激样本。其中已公开的情感刺激材料库通过网络获取,而第二种方式主要通过用户自行录制后存储到自定义刺激材料库,以得到满足用户需求的声音刺激样本。因此,步骤S100包括:
S110、获取情感刺激材料库或自定义刺激材料库内的若干声音刺激样本;
S120、将声音刺激样本的时长不满足预设时常范围的声音刺激样本过滤掉以得到初选声音刺激样本。
根据用户需求从情感刺激材料库或自定义刺激材料库获取若干声音刺激样本。其中若用户需要将声音刺激样本进行公开和比较,则从情感刺激材料库内获取若干声音刺激样本。若用户需要匹配实验目的,则通过自定义刺激材料库获取若干声音刺激样本,使得声音刺激样本的选择简易。选择若干声音刺激样本后需要根据预设时长范围进行筛选,因此需要将若干声音刺激样本中不满足预设时长范围的声音刺激样本过滤掉,以得到初选声音刺激样本。
具体地,在本实例中,预设时长范围为0.5~2秒。由于通过研究声音影响情绪所需要的声音刺激样本的时长不宜太长,也不宜太短,选择时长为0.5~2秒能够准确地分析声音对情绪的影响。
参照图3,在一些实施例中,步骤S200包括:
S210、将初选声音刺激样本进行加窗分帧以得到多个样本帧;
S220、获取初选声音刺激样本的第一个和最后一个样本帧的短时能量和短时过零率,并获取短时能量和短时过零率中最小的值以得到短时能量特征基准值和短时过零率特征基准值;
S230、将所有的初选声音刺激样本的短时能量特征基准值和短时过零率特征基准值取平均值以得到短时能量特征起始阈值和短时过零率特征起始阈值;
S240、按照时间顺序获取初选声音刺激样本中样本帧的短时能量大于短时能量特征起始阈值,或短时过零率大于短时过零率特征起始阈值的时间点,以最早的时间点作为起始点;
S250、将多个初选声音刺激样本的起始点前的留白进行裁剪以将初选声音刺激样本以起始点对齐。
由于初选声音刺激样本裁剪方式不同,导致声音样本的起始时间差异很大,对情绪测试与评估影响很大,因此需要对声音样本起始的留白进行裁剪以使每个初选声音刺激样本的起始点对齐。首先需要将初选声音刺激样本进行加窗分帧以得到多个样本帧,然后计算每个样本帧的短时能量和短时过零率,再获取第一个样本帧和最后一个样本帧中的短时能量和短时过零率种最小的值作为短时能量特征基准值和短时过零率特征基准值。确定了每个初选声音刺激样本的短时能量特征基准值和短时过零率特征基准值后,计算所有初选声音刺激样本的短时能量特征基准值和短时过零率特征基准值的平均值以得到短时能量特征起始阈值和短时过零率特征起始阈值,确定了起始特征阈值后,将初选声音刺激样本的每个样本帧的短时能量按时间顺序与短时能量特征起始阈值比较,或者短时过零率按时间顺序与短时过零率特征起始阈值比较。获取短时能量大于短时能量特征起始阈值,或短时过零率大于短时过零率特征起始阈值的时间点,并以最早的时间点作为该初选声音刺激样本的起始点,然后将初选声音刺激样本的初始点前的留白进行裁剪以将所有声音刺激样本以起始点对齐,便于情绪测试和评估。
例如:对每个初选声音刺激样本进行加窗分帧以得到样本帧,然后计算每个样本帧的短时能量和短时过零率,且短时过零率的计算公式如下:
式中,其中x(n)是离散采样信号,N是一帧内包含的采样点个数,n为样本帧的顺序数,sgn()是符号函数,且sgn[x(n)]的计算公式如下:
式中,设加窗分帧处理后得到第n帧语音信号为xn(m),则xn(m)满足下式计算方法如下:
xn(m)=w(m)x(n+m),0≤m≤N-1 (3)
其中,n=0,1T,2T,…,并且N为帧长,T为帧移。设第n帧语音信号xn(m)的短时能量谱计算公式如下:
通过公式(1)至(5)能够计算出每个初选声音刺激样本的各个样本帧的短时能量和短时过零率。
计算得到每个样本帧的短时能量和短时过零率后选择第一个样本帧和最后一个样本帧的短时能量和短时过零率的最小值作为短时能量特征基准值和短时过零率特征基准值。然后获取所有的初选声音刺激样本的多个短时能量特征基准值和多个短时过零率特征基准值,选择短时能量特征基准值平均值的作为短时能量特征起始阈值,且选择多个短时过零率特征基准值中平均值的作为短时过零率特征起始阈值。因此,整个的计算公式参照如下:
Then=averge(Ben),Ben=min(EN1,ENN) (6)
确定特征起始阈值后,将每个初选声音刺激样本的样本帧的短时能量与短时能量特征起始阈值比较,或者短时过零率与短时过零率特征起始阈值比较;获取短时能量大于短时能量特征起始阈值,或短时过零率大于短时过零率特征起始阈值的多个时间点,并取最早的时间点作为起始点,然后将每个初选声音刺激样本中起始点前面的留白裁剪掉,以将所有的初选声音刺激样本的起始点对齐,便于后续的情绪识别和分析。
参照图4,在一些实施例中,步骤S300包括:
S310、计算对齐后的初选声音刺激样本的原始响度;
S320、获取若干原始响度中最大值的原始响度以得到最大响度值;
S330、根据最大响度值、预设第一百分比和预设第二百分比确定响度范围;
S340、若初选声音刺激样本的原始响度大于响度范围的上限值,则将原始响度以预设第一倍数减小以使原始响度位于响度范围内;
S350、若初选声音刺激样本的原始响度小于响度范围的下限值,将原始响度以预设第二倍数增加以使原始响度位于响度范围内。
响度对于声音诱发情感脑活动影响很大,尤其是前后两个刺激样本响度不同会造成很大的差异。因此,在将初选声音刺激样本对齐起始点后需要对响度进行统一处理。首先需要确定所有初选声音刺激样本的响度范围,因此需要获取所有初选声音刺激样本的原始响度以得若干原始响度,再从若干原始响度中获取最大值以得到最大响度,并根据预设第一百分比、预设第二百分比和最大响度确定响度范围。确定响度范围后,将每个初选声音刺激样本的原始响度与响度范围比较,若初选声音刺激样本的原始响度大于响度范围的上限值,则将初选声音刺激样本的原始响度以预设第一倍数减小以使该原始响度位于响度范围内,若初选声音刺激样本的原始响度小于响度范围的下限值,则将初选声音刺激样本的原始响度以预设第二倍数增加以使该原始响度位于响度范围内。因此通过确定响度范围,然后根据每个初选声音刺激样本的原始响度与响度范围进行比较以调节响度,直到每个初选声音刺激样本的响度都位于响度范围内,实现响度的统一,便于后续的情感分析。
具体地,根据Moore-Glasberg方法对每一个初选声音刺激样本进行响度估计,得到原始响度。获取所有初选声音刺激样本的原始响度以得到多个原始响度,然后获取多个原始响度中的最大值作为最大响度。其中,预设第一百分比为65%,预设第二百分比为75%,将第一百分比和最大响度相乘以确定响度范围的下限值,将第二百分比和最大响度相乘以确定响度范围的上限值。且响度范围的上下限值的计算如下:
Armax=max(Mo(n))×75%,Armin=max(Mo(n))×65% (8)
确定了响度范围的上下限值后,判断每个初选声音刺激样本的原始响度与响度范围比较,若初选声音刺激样本的原始响度位于响度范围则无需进行调节。其中,预设第一倍数为0.8,预设第二倍数为1.2,且调节初选声音刺激样本的响度是逐步调节的。若初选声音刺激样本的原始响度大于响度范围的上限值,则初选声音刺激样本的原始响度以0.8为初始步长逐步减小;若初选声音刺激样本的原始响度小于响度范围的下限值,则将初选声音刺激样本的原始响度以1.2为初始补偿逐步增加,直到初选声音刺激样本的原始响度位于响度范围内,以完成初选声音刺激样本的响度调节,使得所有的初选声音刺激样本的响度一致,便于后续的情绪识别和分析。
参照图5,在一些实施例中,步骤S400包括:
S410、计算调节响度后的初选声音刺激样本的样本帧的音高特征值;
S420、根据样本帧的音高特征值的变化趋势得到样本趋势;
S430、获取样本趋势的编辑距离,并根据编辑距离和样本趋势对初选声音刺激样本进行分类以得到样本类别。
声音的时序变化趋势对于脑活动的影响很大,因此我们提取音高特征值会随时间的变化以得到样本趋势,并对样本趋势进行定义和编码,最后聚类出样本类别,以进行样本平衡。
具体地,计算每个初选刺激声音样本的样本帧的音高特征值,其中音高特征值通过短时自相关算法计算得到,且计算方法如下:
然后再进行归一化处理,因为rn(0)最大,所以音高特征值的计算如下:
rn(k)=rn(k)/rn(0) (10)
然后计算相邻样本帧的音高特征值的变化趋势,以第一个样本帧为起始,然后通过计算两个相邻样本帧的音高特征值的变化趋势,且变化趋势主要有增加、减小、不变。定义出典型的5种基础模式:增加用+表示、减少用-表示,不变用o表示。例如先增加后减少用(+,-)表示,先减后加用(-,+)表示,如图6所示,复杂变化趋势都是由这五种变化趋势构成的。因此,根据样本帧的音高特征值的变化趋势以+,-,o进行编码。例如:有的音高特征值的变化趋势是“+++”即一直增加increase;有的音高特征值的变化趋势是一直降低decrease;有的是几乎不变flat;有的是先增加再降低或先降低再增加“+-+”等。通过对音高特征值以样本趋势进行编码后,需要获取编辑距离,且编辑距离为轮廓趋势编码间距离,编辑距离指的是在两个单词<a,b>之间,由其中一个单词a转换为另一个单词b所需要的最少单字符编辑操作刺激,利用编辑距离计算各个音高特征值的距离,且计算方法如下:
其中,leva,b(i,j)指的是a中前i个字符和b中前j个字符之间的距离,这里的i,j可以看作是a,b的长度,因此最后的编辑距离便是i=|a|,j=|b|时的距离:leva,b(|a|,|b|)。
然后根据编辑距离和样本趋势进行初选声音刺激样本的分类,最后找到6个聚类中心,合并其中2类趋势相似的,得到初选声音刺激样本较多的4个样本类别。即increase组(增长组):+,++,+++,++o,+o,+o+,o+,decrease组(下降组):-,--,o-,--o,-o,-oo;flat组(平衡组):+oo,o,oo,oo+,ooo;以及vary组(变化组):++-,+-,+--,-+,-++。通过将初选声音刺激样本进行分类以得到4个样本类别,以便于根据用户不同的样本类别需求选择对应的初选声音刺激样本。
参照图7,在一些实施例中,步骤S500包括:
S510、将调节后的初选声音刺激样本的每一维特征构造成特征相似度矩阵;
S520、计算每一个初选声音刺激样本的特征相似度矩阵与其他初选声音刺激样本的特征相似度矩阵的特征相似度以得到若干特征相似度;
S530、将若干特征相似度求和以得到初选声音刺激样本的样本相似度。
首先需要对初选声音刺激样本的每一维特征构造一个特征相似度矩阵,然后在计算每一个初选声音刺激样本的特征相似度矩阵和其他初选声音刺激样本的相似度矩阵的特征相似度以得到若干特征相似度,最后以若干特征相似度相加作为初选声音刺激样本的打分,最终打分为所有特征打分之和,以便于后续根据打分之和进行排序,则根据用户预设要求进行选择,使得初选声音刺激样本自动化选择,节省人力,提高声音刺激样本选择的效率。
具体地,首先对初选声音刺激样本每一维特征构造一个N×N特征相似度矩阵FDM,初选声音刺激样本为A1,A2,...,AN,且顺序确定,其特征为F1,F2,...,FK,则方法如下:
FDMpq=dist(Fp,Fq),1≤p,q≤K (1)
其中,Fik表示第i个初选声音刺激样本的第k维特征的特征向量,dist(X,Y)表示X和Y的余弦相似度。相比欧氏距离,余弦相似度更能刻画两个特征向量在方向上的差异。最后根据相似度矩阵计算得分矩阵,首先根据特征F1,F2,...,FK的相似度矩阵FDMk,计算每一个初选声音刺激样本与其他初选声音刺激样本的相似度的和以得到样本相似度,样本相似度作为该样本第i个特征的打分,最终样本相似度为所有特征打分之和,因此确定样本相似度也即确定了每个初选声音刺激样本的分值,则每个初选声音刺激样本按照分值排序相当于按照样本相似度排序,使得初选声音刺激样本的样本相似度计算简易。
参照图8,在一些实施例中,用户预设要求包括:预设样本类别和预设样本数量,步骤S600包括,
S610、根据预设样本类别从初选声音刺激样本中样本类别相匹配的初选声音刺激样本;
S620、按照样本相似度由低到高获取预设样本数量的初选声音刺激样本。
当接收用户预设要求时,通过分析用户预设要求种的预设样本类别和预设样本数量,然后按照样本类别选择匹配的样本类别的初选声音刺激样本,再根据预设样本数量选择样本相似度由低到高顺序的初选声音刺激样本,以选择到预设样本数量的初选声音刺激样本。通过自动化对声音刺激样本进行初选、起始点对齐、响度调节,在对初选声音刺激样本进行样本分类和样本相似度计算,然后根据用户预设要求即可选中对应初选声音刺激样本,使得声音刺激样本选择自动化,节省人力,提高样本选择的效率。
下面参考图1至图8以一个具体的实施例详细描述根据本发明实施例的声音刺激样本选择方法。值得理解的是,下述描述仅是示例性说明,而不是对发明的具体限制。
根据用户需求从情感刺激材料库或自定义刺激材料库获取若干声音刺激样本,将声音刺激样本中时长低于0.5秒且超过2秒的声音刺激样本过滤掉,以得到满足0.5~2秒的初选声音刺激样本。对每个初选声音刺激样本进行加窗分帧以得到样本帧,然后计算每个样本帧的短时能量和短时过零率。计算得到每个样本帧的短时能量和短时过零率后选择第一个样本帧和最后一个样本帧的短时能量和短时过零率的最小值作为短时能量特征基准值和短时过零率特征基准值。选择短时能量特征基准值平均值的作为短时能量特征起始阈值,且选择多个短时过零率特征基准值中平均值的作为短时过零率特征起始阈值。获取短时能量大于短时能量特征起始阈值或短时过零率大于短时过零率特征起始阈值的多个时间点,并去最早的时间点作为起始点,然后将每个初选声音刺激样本中起始点前面的留白裁剪掉,以将所有的初选声音刺激样本的起始点对齐。根据Moore-Glasberg方法对每一个初选声音刺激样本进行响度估计,得到原始响度。获取多个原始响度中的最大值作为最大响度,将最大响度和65%相乘以确定响度范围的下限值,将最大响度与75%相乘以确定响度范围的上限值。确定了响度范围的上下限值后,判断每个初选声音刺激样本的原始响度与响度范围比较,若初选声音刺激样本的原始响度大于响度范围的上限值,则初选声音刺激样本的原始响度以0.8为初始步长逐步减小;若初选声音刺激样本的原始响度小于响度范围的下限值,则将初选声音刺激样本的原始响度以1.2为初始补偿逐步增加,直到初选声音刺激样本的原始响度位于响度范围内。计算每个初选刺激声音样本的样本帧的音高特征值,计算相邻样本帧的音高特征值的变化趋势,以第一个样本帧为起始,然后通过计算两个相邻样本帧的音高特征值的变化趋势,根据样本帧的音高特征值的变化趋势以+,-,o进行编码。根据编辑距离和样本趋势进行初选声音刺激样本的分类,最后找到6个聚类中心,合并其中2类趋势相似的,得到初选声音刺激样本较多的4个样本类别。对初选声音刺激样本每一维特征构造一个N×N特征相似度矩阵FDM,计算每一个初选声音刺激样本与其他初选声音刺激样本的相似度加和以得到样本相似度。当接收用户预设要求时,通过分析用户预设要求种的预设样本类别和预设样本数量,然后按照样本类别选择匹配的样本类别的初选声音刺激样本,再根据预设样本数量选择样本相似度由低到高顺序的初选声音刺激样本,使得声音刺激样本选择自动化,节省人力,提高样本选择的效率。
第二方面,参照图9,一种电子控制设备,包括:至少一个处理器100,以及,与至少一个处理器100通信连接的存储器200;其中,存储器200存储有可被至少一个处理器100执行的指令,指令被至少一个处理器100执行,以使至少一个处理器100能够执行如第一方面的声音刺激样本选择方法。
电子设备可以为移动终端设备,也可以为非移动终端设备。移动终端设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载终端设备、可穿戴设备、超级移动个人计算机、上网本、个人数字助理、CPE、UFI(无线热点设备)等;非移动终端设备可以为个人计算机、电视机、柜员机或者自助机等;本发明实施方案不作具体限定。
处理器100可以包括一个或多个处理单元,例如:处理器100可以包括应用处理器100(application processor,AP),调制解调处理器100,图形处理器100(graphicsprocessing unit,GPU),图像信号处理器100(image signal processor,ISP),控制器,视频编解码器,数字信号处理器100(digital signal processor,DSP),基带处理器100,和/或神经网络处理器100(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器100中。
存储器200可以为外部存储器200,也可以为内部存储器200,外部存储器200为外部存储卡,例如Micro SD卡。外部存储卡通过外部存储器200接口与处理器100通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。内部存储器200可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。
第三方面,一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行如第一方面的声音刺激样本选择方法。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。此外,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
Claims (9)
1.一种声音刺激样本选择方法,其特征在于,包括:
获取若干声音刺激样本,并根据所述声音刺激样本的时长和预设时长范围确定初选声音刺激样本;
获取若干所述初选声音刺激样本的起始点,并将所述初选声音刺激样本根据所述起始点对齐,具体包括:
将所述初选声音刺激样本进行加窗分帧以得到多个样本帧;
获取所述初选声音刺激样本的第一个和最后一个所述样本帧的短时能量和短时过零率,并分别获取所述短时能量和所述短时过零率中最小的值以得到短时能量特征基准值和短时过零率特征基准值;
将所有的所述初选声音刺激样本的所述短时能量特征基准值和所述短时过零率特征基准值取平均值以得到短时能量特征起始阈值和短时过零率特征起始阈值;
按照时间顺序获取所述初选声音刺激样本中所述样本帧的所述短时能量大于所述短时能量特征起始阈值,或所述短时过零率大于所述短时过零率特征起始阈值的时间点,以最早的所述时间点作为所述起始点;
将多个所述初选声音刺激样本的所述起始点前的留白进行裁剪以将所述初选声音刺激样本以所述起始点对齐;
计算对齐后的所述初选声音刺激样本的原始响度,根据预设响度范围和所述原始响度调整所述初选声音刺激样本的响度;
将调节响度后的所述初选声音刺激样本进行趋势分类以确定样本类别;
计算调节后若干所述初选声音刺激样本的特征相似度以得到样本相似度;
根据用户预设要求选取所述样本类别、所述样本相似度对应的所述初选声音刺激样本。
2.根据权利要求1所述的声音刺激样本选择方法,其特征在于,所述获取若干声音刺激样本,并根据所述声音刺激样本的时长和预设时长范围确定初选声音刺激样本,包括:
获取情感刺激材料库或自定义刺激材料库内的若干所述声音刺激样本;
将所述声音刺激样本的时长不满足预设时常范围的所述声音刺激样本过滤掉以得到所述初选声音刺激样本。
3.根据权利要求1至2任一项所述的声音刺激样本选择方法,其特征在于,所述计算对齐后的所述初选声音刺激样本的原始响度,根据预设响度范围和所述原始响度调整所述初选声音刺激样本的响度,
计算对齐后的所述初选声音刺激样本的所述原始响度;
获取若干所述原始响度中最大值的所述原始响度以得到最大响度值;
根据所述最大响度值、预设第一百分比和预设第二百分比确定响度范围;
若所述初选声音刺激样本的所述原始响度大于所述响度范围的上限值,则将所述原始响度以预设第一倍数减小以使所述原始响度位于所述响度范围内;
若所述初选声音刺激样本的所述原始响度小于所述响度范围的下限值,将所述原始响度以预设第二倍数增加以使所述原始响度位于所述响度范围内。
4.根据权利要求2所述的声音刺激样本选择方法,其特征在于,所述将调节响度后的所述初选声音刺激样本进行分类以确定样本类别,包括:
计算调节响度后的所述初选声音刺激样本的所述样本帧的音高特征值;
根据所述样本帧的所述音高特征值的变化趋势得到样本趋势;
获取所述样本趋势的编辑距离,并根据所述编辑距离和所述样本趋势对所述初选声音刺激样本进行分类以得到样本类别。
5.根据权利要求4所述的声音刺激样本选择方法,其特征在于,所述计算调节后若干所述初选声音刺激样本的特征相似度以得到样本相似度,包括:
将调节后的所述初选声音刺激样本的每一维特征构造成特征相似度矩阵;
计算每一个所述初选声音刺激样本的所述特征相似度矩阵与其他所述初选声音刺激样本的所述特征相似度矩阵的特征相似度以得到若干特征相似度;
将若干所述特征相似度求和以得到所述初选声音刺激样本的样本相似度。
6.根据权利要求5所述的声音刺激样本选择方法,其特征在于,所述用户预设要求包括:预设样本类别和预设样本数量,所述根据用户预设要求选取所述样本类别、所述样本相似度对应的所述初选声音刺激样本包括,
根据所述预设样本类别从所述初选声音刺激样本中所述样本类别相匹配的所述初选声音刺激样本;
按照所述样本相似度由低到高获取预设样本数量的所述初选声音刺激样本。
7.根据权利要求2所述的声音刺激样本选择方法,其特征在于,所述预设时长范围包括0.5~2.0秒。
8.一种电子控制设备,其特征在于,包括:
至少一个处理器,以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7任一项所述的声音刺激样本选择方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的声音刺激样本选择方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110528102.0A CN113392259B (zh) | 2021-05-14 | 2021-05-14 | 声音刺激样本选择方法、控制设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110528102.0A CN113392259B (zh) | 2021-05-14 | 2021-05-14 | 声音刺激样本选择方法、控制设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113392259A CN113392259A (zh) | 2021-09-14 |
CN113392259B true CN113392259B (zh) | 2022-11-29 |
Family
ID=77617095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110528102.0A Active CN113392259B (zh) | 2021-05-14 | 2021-05-14 | 声音刺激样本选择方法、控制设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113392259B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751955A (zh) * | 2019-09-23 | 2020-02-04 | 山东大学 | 基于时频矩阵动态选择的声音事件分类方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9844326B2 (en) * | 2008-08-29 | 2017-12-19 | University Of Florida Research Foundation, Inc. | System and methods for creating reduced test sets used in assessing subject response to stimuli |
CN101483416B (zh) * | 2009-01-20 | 2011-09-14 | 杭州火莲科技有限公司 | 一种语音的响度均衡处理方法 |
CN106057208B (zh) * | 2016-06-14 | 2019-11-15 | 科大讯飞股份有限公司 | 一种音频修正方法及装置 |
CN110782908B (zh) * | 2019-11-05 | 2020-06-16 | 广州欢聊网络科技有限公司 | 一种音频信号处理的方法及装置 |
CN111613250B (zh) * | 2020-07-06 | 2023-07-18 | 泰康保险集团股份有限公司 | 长语音端点检测方法与装置、存储介质、电子设备 |
CN112235468A (zh) * | 2020-10-16 | 2021-01-15 | 绍兴市寅川软件开发有限公司 | 用于语音客服评价的音频处理方法及系统 |
-
2021
- 2021-05-14 CN CN202110528102.0A patent/CN113392259B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751955A (zh) * | 2019-09-23 | 2020-02-04 | 山东大学 | 基于时频矩阵动态选择的声音事件分类方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113392259A (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108900725B (zh) | 一种声纹识别方法、装置、终端设备及存储介质 | |
CN111081279A (zh) | 语音情绪波动分析方法及装置 | |
WO2022121155A1 (zh) | 基于元学习的自适应语音识别方法、装置、设备及介质 | |
CN109637547B (zh) | 音频数据标注方法、装置、电子设备及存储介质 | |
CN107767869A (zh) | 用于提供语音服务的方法和装置 | |
CN110675862A (zh) | 语料获取方法、电子装置及存储介质 | |
CN108305643A (zh) | 情感信息的确定方法和装置 | |
CN109767787A (zh) | 情绪识别方法、设备及可读存储介质 | |
CN111785275A (zh) | 语音识别方法及装置 | |
CN111583906A (zh) | 一种语音会话的角色识别方法、装置及终端 | |
CN109961776A (zh) | 语音信息处理装置 | |
CN109961803A (zh) | 语音情绪识别系统 | |
CN107492153A (zh) | 考勤系统、方法、考勤服务器及考勤终端 | |
CN110717410A (zh) | 语音情感和面部表情双模态识别系统 | |
CN110400567A (zh) | 注册声纹动态更新方法及计算机存储介质 | |
CN110728983B (zh) | 一种信息显示方法、装置、设备及可读存储介质 | |
CN113539243A (zh) | 语音分类模型的训练方法、语音分类方法及相关装置 | |
CN113392259B (zh) | 声音刺激样本选择方法、控制设备及存储介质 | |
WO2019107170A1 (ja) | 緊急度推定装置、緊急度推定方法、プログラム | |
US9484045B2 (en) | System and method for automatic prediction of speech suitability for statistical modeling | |
CN112052686B (zh) | 一种用户交互式教育的语音学习资源推送方法 | |
CN105721651A (zh) | 一种语音拨号方法和设备 | |
Yap et al. | Cognitive load classification using formant features | |
CN111326161B (zh) | 一种声纹确定方法及装置 | |
CN109887487B (zh) | 一种数据筛选方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |