CN107195312B - 情绪宣泄模式的确定方法、装置、终端设备和存储介质 - Google Patents

情绪宣泄模式的确定方法、装置、终端设备和存储介质 Download PDF

Info

Publication number
CN107195312B
CN107195312B CN201710311544.3A CN201710311544A CN107195312B CN 107195312 B CN107195312 B CN 107195312B CN 201710311544 A CN201710311544 A CN 201710311544A CN 107195312 B CN107195312 B CN 107195312B
Authority
CN
China
Prior art keywords
voice signal
determining
clustering
value
signal segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710311544.3A
Other languages
English (en)
Other versions
CN107195312A (zh
Inventor
陈伟芳
陈又圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Information Technology
Original Assignee
Shenzhen Institute of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Information Technology filed Critical Shenzhen Institute of Information Technology
Priority to CN201710311544.3A priority Critical patent/CN107195312B/zh
Publication of CN107195312A publication Critical patent/CN107195312A/zh
Application granted granted Critical
Publication of CN107195312B publication Critical patent/CN107195312B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明涉及心理治疗领域,尤其涉及情绪宣泄模式的确定方法、装置、终端设备和存储介质。所述情绪宣泄模式的确定方法包括:获取目标用户输入的语音信号;将所述语音信号划分为两个以上的语音信号段;分别提取各个所述语音信号段的预设类型的特征参数;归一化各个所述语音信号段的特征参数;将各个所述语音信号段的归一化后的特征参数分别构建成各个所述语音信号段对应的特征向量;采用聚类算法对各个所述语音信号段对应的特征向量进行聚类运算,确定各个所述特征向量聚类后所对应的簇;根据各个所述特征向量聚类后所对应的簇确定所述目标用户对应的情绪宣泄模式。采用本发明提供的情绪宣泄模式的确定方法能有效提高心理问题诊断的准确性和效率。

Description

情绪宣泄模式的确定方法、装置、终端设备和存储介质
技术领域
本发明涉及心理治疗领域,尤其涉及一种情绪宣泄模式的确定方法、装置、终端设备和存储介质。
背景技术
随着社会的发展,人们在学习、工作中面临的压力越来越大,心理问题成为突出的社会现象。保守估计,中国大概有1.9亿人需要接受专业的心理咨询或心理治疗。
心理问题往往由负面情绪引发,因此提供合理的情绪宣泄渠道对心理问题的预防和排解都起到很好的作用。目前,心理问题的患者主要通过咨询心理医生了解自身存在的问题,然后在心理医生的指引下进行各种情绪宣泄活动,以达到治疗的目的。然而,个别经验欠缺的心理医生可能会误判患者存在的心理问题,导致采取了不恰当的情绪宣泄手段进行心理治疗。而且,采用人工诊断的方式效率较低,无法满足数量庞大的患者需求。
发明内容
有鉴于此,本发明实施例提供了一种情绪宣泄模式的确定方法、装置、终端设备和存储介质,以提高心理问题诊断的准确性和效率。
本发明实施例的第一方面提供了一种情绪宣泄模式的确定方法,包括:
获取目标用户输入的语音信号;
将所述语音信号划分为两个以上的语音信号段;
分别提取各个所述语音信号段的预设类型的特征参数;
归一化各个所述语音信号段的特征参数;
将各个所述语音信号段的归一化后的特征参数分别构建成各个所述语音信号段对应的特征向量,每个所述语音信号段对应一个特征向量;
采用聚类算法对各个所述语音信号段对应的特征向量进行聚类运算,确定各个所述特征向量聚类后所对应的簇,所述簇与预设的情绪宣泄模式一一对应;
根据各个所述特征向量聚类后所对应的簇确定所述目标用户对应的情绪宣泄模式。
本发明实施例的第二方面提供了一种情绪宣泄模式的确定装置,包括:
语音获取模块,用于获取目标用户输入的语音信号;
信号划分模块,用于将所述语音信号划分为两个以上的语音信号段;
特征参数提取模块,用于分别提取各个所述语音信号段的预设类型的特征参数;
归一化模块,用于归一化各个所述语音信号段的特征参数;
特征向量构建模块,用于将各个所述语音信号段的归一化后的特征参数分别构建成各个所述语音信号段对应的特征向量,每个所述语音信号段对应一个特征向量;
聚类模块,用于采用聚类算法对各个所述语音信号段对应的特征向量进行聚类运算,确定各个所述特征向量聚类后所对应的簇,所述簇与预设的情绪宣泄模式一一对应;
模式确定模块,用于根据各个所述特征向量聚类后所对应的簇确定所述目标用户对应的情绪宣泄模式。
本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明实施例的第一方面提供的情绪宣泄模式的确定方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如本发明实施例的第一方面提供的情绪宣泄模式的确定方法的步骤。
在本发明实施例中:获取目标用户输入的语音信号;将所述语音信号划分为两个以上的语音信号段;分别提取各个所述语音信号段的预设类型的特征参数;归一化各个所述语音信号段的特征参数;将各个所述语音信号段的归一化后的特征参数分别构建成各个所述语音信号段对应的特征向量,每个所述语音信号段对应一个特征向量;采用聚类算法对各个所述语音信号段对应的特征向量进行聚类运算,确定各个所述特征向量聚类后所对应的簇,所述簇与预设的情绪宣泄模式一一对应;根据各个所述特征向量聚类后所对应的簇确定所述目标用户对应的情绪宣泄模式。上述过程针对用户发出的语音信号做特征参数提取,然后将提取出来的特征参数构建成特征向量进行聚类运算,从而得到各个特征向量对应的簇,最后通过这些簇对应的情绪宣泄模式即可确定适合该用户的情绪宣泄模式。与传统的人工诊断相比,本发明利用计算机采集用户的语音信号并进行分析,最终得到适合该用户的情绪宣泄模式,为心理问题诊断提供参考,能有效提高心理问题诊断的准确性和效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种情绪宣泄模式的确定方法的第一个实施例的流程图;
图2是本发明实施例提供的一种情绪宣泄模式的确定方法的第二个实施例的流程图;
图3是本发明实施例提供的一种情绪宣泄模式的确定方法的第三个实施例的流程图;
图4是本发明实施例提供的一种情绪宣泄模式的确定装置的一个实施例的结构图;
图5是本发明实施例提供的一种终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
本发明实施例提供了一种情绪宣泄模式的确定方法、装置、终端设备和存储介质,能提高心理问题诊断的准确性和效率。
请参阅图1,本发明实施例中一种情绪宣泄模式的确定方法的第一个实施例包括:
101、获取目标用户输入的语音信号;
所述目标用户为需要进行心理咨询的用户,所述语音信号可以是所述目标用户说的一个词、一句话或者一段话,可以利用各种语音采集设备获取所述目标用户输入的语音信号。
102、将所述语音信号划分为两个以上的语音信号段;
在获取到语音信号之后,将所述语音信号划分为两个以上的语音信号段。所述信号划分的方法可以是按照相同的时间长度等间隔地划分所述语音信号,可以是根据所述语音信号中的停顿(比如一段话中两句话之间的停顿或者一个词中两个字之间的停顿)对所述语音信号进行划分,也可以是其它任意的信号划分方式。
103、分别提取各个所述语音信号段的预设类型的特征参数;
所述特征参数包括一个以上与语音信号密切相关的特征参数,比如可以是语音幅度、静音比、过零率和基频拟合斜率等语音特征参数,也可以是关键字频率、信息增益参数和互信息参数等文本特征参数。分别提取各个所述语音信号段的特征参数,即所述语音信号中每个语音信号段的特征参数。
104、归一化各个所述语音信号段的特征参数;
在提取到这些特征参数之后,对这些参数进行归一化。归一化是一种无量纲处理手段,使物理系统数值的绝对值变成某种相对值关系,将某个特征参数的实际数值除以该特征参数的最大值即可实现归一化。
105、将各个所述语音信号段的归一化后的特征参数分别构建成各个所述语音信号段对应的特征向量,每个所述语音信号段对应一个特征向量;
将各个所述语音信号段的归一化后的特征参数分别构建成各个所述语音信号段对应的特征向量,每个语音信号段构建自身的一个特征向量,所述特征向量的各个元素是所述归一化的各个特征参数。
106、采用聚类算法对各个所述语音信号段对应的特征向量进行聚类运算,确定各个所述特征向量聚类后所对应的簇,所述簇与预设的情绪宣泄模式一一对应;
将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类,由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。可以采用各种聚类算法(比如K-MEANS算法、K-MEDOIDS算法或DBSCAN算法等)对各个所述语音信号段对应的特征向量进行聚类运算,从而确定各个所述特征向量聚类后所对应的簇。所述簇与预设的情绪宣泄模式一一对应,该预设的情绪宣泄模式包括各种对应于不同负面情绪的宣泄方式,比如对应于害怕或者孤独的鼓励模式,对应于悲伤的共情模式,或者对应于愤怒的发泄模式等。
107、根据各个所述特征向量聚类后所对应的簇确定所述目标用户对应的情绪宣泄模式。
在确定各个所述特征向量聚类后所对应的簇之后,可以统计每个簇对应的特征向量的个数,将对应的特征向量的个数最多的那个簇所对应的情绪宣泄模式作为所述目标用户对应的情绪宣泄模式。假设聚类运算的三个簇分别为A、B和C,其中A对应于鼓励模式,B对应于共情模式,C对应于发泄模式;目标用户输入的语音信号划分成了100个语音信号段,聚类后所述100个语音信号段中90个语音信号段的特征向量对应于模式C,6个语音信号段的特征向量对应于模式A,4个语音信号段的特征向量对应于模式B,则可将簇C对应的情绪宣泄模式即发泄模式作为所述目标用户对应的情绪宣泄模式。
在本发明实施例中:获取目标用户输入的语音信号;将所述语音信号划分为两个以上的语音信号段;分别提取各个所述语音信号段的预设类型的特征参数;归一化各个所述语音信号段的特征参数;将各个所述语音信号段的归一化后的特征参数分别构建成各个所述语音信号段对应的特征向量,每个所述语音信号段对应一个特征向量;采用聚类算法对各个所述语音信号段对应的特征向量进行聚类运算,确定各个所述特征向量聚类后所对应的簇,所述簇与预设的情绪宣泄模式一一对应;根据各个所述特征向量聚类后所对应的簇确定所述目标用户对应的情绪宣泄模式。上述过程针对用户发出的语音信号做特征参数提取,然后将提取出来的特征参数构建成特征向量进行聚类运算,从而得到各个特征向量对应的簇,最后通过这些簇对应的情绪宣泄模式即可确定适合该用户的情绪宣泄模式。与传统的人工诊断相比,本发明利用计算机采集用户的语音信号并进行分析,最终得到适合该用户的情绪宣泄模式,为心理问题诊断提供参考,能有效提高心理问题诊断的准确性和效率。
请参阅图2,本发明实施例中一种情绪宣泄模式的确定方法的第二个实施例包括:
201、获取目标用户输入的语音信号;
步骤201与步骤101相同,具体可参照步骤101的相关说明。
202、将所述语音信号划分为两个以上的语音信号段;
步骤202与步骤102相同,具体可参照步骤102的相关说明。
203、分别提取各个所述语音信号段的预设类型的特征参数,所述特征参数包括平均幅度、静音比和基频拟合斜率;
其中,所述基频拟合斜率为:首先将所述语音信号段分成多个信号帧,然后将计算得到的这些信号帧的基频值组成基频序列,最后将该基频序列进行直线拟合得到的拟合直线的斜率。在步骤203中,除了平均幅度、静音比和基频拟合斜率这三个特征参数外,还可以同时提取任意数量的其它特征参数。
204、归一化各个所述语音信号段的特征参数;
步骤204与步骤104相同,具体可参照步骤105的相关说明。
205、将各个所述语音信号段的归一化后的特征参数分别构建成各个所述语音信号段对应的特征向量,每个所述语音信号段对应一个特征向量;
步骤205与步骤105相同,具体可参照步骤105的相关说明。
206、采用聚类算法对各个所述语音信号段对应的特征向量进行聚类运算,确定各个所述特征向量聚类后所对应的簇,所述簇与预设的情绪宣泄模式一一对应;
一般来说,聚类算法中采用的初始聚类中心都是随机选取的。然而,随机选取的初始聚类中心无法保证聚类运算的效果。因此,有必要制定相应的规则以确定比较合适的初始聚类中心。
进一步的,为了保证聚类运算的效果,步骤206中进行聚类运算所采取的初始聚类中心可以通过以下步骤确定:
(1)分别将各个所述语音信号段的归一化后的平均幅度、静音比和基频拟合斜率按照预设的加权系数进行累加,得到各个所述语音信号段的基准系数值;
(2)将各个所述语音信号段的基准系数值所落入的阈值区间分别确定为各个所述语音信号段对应的阈值区间,所述阈值区间包括两个以上预设的连续数值区间;
(3)分别计算各个所述阈值区间中每个阈值区间对应的所有语音信号段的特征向量之间的质心坐标值;
(4)将计算得到的各个所述质心坐标值分别确定为各个所述初始聚类中心。
对于上述步骤(1),选取平均幅度、静音比和基频拟合斜率这三个特征参数的原因在于这些参数与人在各种负面情绪下说话时的语音特性息息相关。比如,人在害怕或灰心时说话的语音幅度(平均幅度)较小,语音信息(静音比参数)较多;人在悲伤时说话的语音幅度相对较高,同时由于哭泣、沉默、哽咽等情形,语音信息相对较少;人在愤怒和生气时说话的语音幅度相对较高,同时由于吼叫、吐槽、讥讽、辱骂等情形,语音信息相对较少,同时说话的音调中四声成分(基频拟合斜率)相对较多。
假设归一化的平均幅度为Anor、归一化的静音比为ηnor、归一化的基频拟合斜率为k1nor和k2nor,归一化后的各个特征参数的范围都是[0,1],归一化的静音比ηnor的加权系数为β1,归一化的基频拟合斜率k1nor和k2nor的加权系数都是-β2,归一化的平均幅度Anor的加权系数是(1-β1-2β2),则进行加权累加后可以得到各个所述语音信号段的基准系数值为(1-β1-2β2)Anor1ηnor2(k1nor+k2nor),由于进行了归一化,所述基准系数值的取值范围是[0,1]。
对于上述步骤(2),将各个所述语音信号段的基准系数值所落入的阈值区间分别确定为各个所述语音信号段对应的阈值区间,所述阈值区间包括两个以上预设的连续数值区间。比如,可以预先划分三个阈值区间[0,α1)、[α12)和[α2,1],其中0<α1<α2小于1,且α1和α2都是实数。α1和α2的具体取值可以通过实验调整和完善,在本发明的一个实施例中α1和α2的具体取值分别为0.5和0.75,即得到[0,0.5)、[0.5,0.75)、[0.75,1]三个阈值区间。每个阈值区间可以对应于聚类运算中的每个簇,而各个簇是与预设的情绪宣泄模式一一对应的,因此每个阈值区间都与指定的情绪宣泄模式对应。判断步骤(1)中得到的某个语音信号段的基准系数值落入哪个阈值区间,进而将该阈值区间作为该语音信号段对应的阈值区间。
对于上述步骤(3),分别计算各个所述阈值区间中每个阈值区间对应的所有语音信号段的特征向量之间的质心坐标值。每个阈值区间可能对应有多个所述的语音信号段,将这些语音信号段的特征向量用坐标值表示,利用几何方法计算这些坐标值之间的质心坐标值。此时的特征向量不仅包括平均幅度、静音比和基频拟合斜率这三个特征参数,也包括各种其它类型的特征参数,所述特征向量的坐标值的维数与该特征向量的特征参数数量相同。
对于上述步骤(4),将计算得到的各个所述质心坐标值分别确定为各个所述初始聚类中心。假设划分了3个阈值区间,则可以计算得到3个质心坐标值,每个质心坐标值都是一个初始聚类中心。
进一步的,所述采用聚类算法对各个所述语音信号段对应的特征向量进行聚类运算可以包括:
(1)利用改进的曼哈坦距离公式计算各个所述特征向量中每个特征向量和各个所述初始聚类中心中每个初始聚类中心两两之间的距离,所述改进的曼哈坦距离公式为传统曼哈坦距离公式的平方;
(2)将与所述每个特征向量的距离最小的初始聚类中心确定为所述每个特征向量对应的初始聚类中心;
(3)分别计算各个所述初始聚类中心中每个初始聚类中心对应的所有特征向量之间的质心坐标值;
(4)将各个所述初始聚类中心中每个初始聚类中心对应的所有特征向量之间的质心坐标值确定为所述聚类运算的新聚类中心;
(5)重复利用所述改进的曼哈坦距离公式分别计算各个所述特征向量和所述各个新聚类中心之间的距离,迭代直至所述聚类过程收敛;
(6)当所述聚类过程收敛时,确定各个所述特征向量聚类后所对应的簇。
上述步骤(1)至(6)与传统K-MEANS聚类算法基本过程的区别在于采用的距离计算方式。考虑到汉字词语的多义性,匹配一个关键字的含义不如匹配两个近义词的组合含义,因此,在聚类算法使用里采用的是改进后的曼哈坦距离,曼哈坦距离原始的表达式为:d(i,j)=|xi1-yj1|+xi2-yj2|+……+|xin-yjn|,而改进后的距离表达式为:d(i,j)=(|xi1-yj1|+|xi2-yj2|+……+|xin-yjn|)2。也就是在曼哈坦距离的基础上加平方,有助于增大某一个参数的距离,也就是让两个或者多个小差值的参数比一个大差值其他极小差值的参数的聚类距离更小,更适合于本发明的应用。
207、根据各个所述特征向量聚类后所对应的簇确定所述目标用户对应的情绪宣泄模式。
步骤207与步骤107相同,具体可参照步骤107的相关说明。
在本发明实施例中:获取目标用户输入的语音信号;将所述语音信号划分为两个以上的语音信号段;分别提取各个所述语音信号段的预设类型的特征参数,所述特征参数包括平均幅度、静音比和基频拟合斜率;归一化各个所述语音信号段的特征参数;将各个所述语音信号段的归一化后的特征参数分别构建成各个所述语音信号段对应的特征向量,每个所述语音信号段对应一个特征向量;采用聚类算法对各个所述语音信号段对应的特征向量进行聚类运算,确定各个所述特征向量聚类后所对应的簇,所述簇与预设的情绪宣泄模式一一对应;根据各个所述特征向量聚类后所对应的簇确定所述目标用户对应的情绪宣泄模式。上述过程针对用户发出的语音信号做特征参数提取,然后将提取出来的特征参数构建成特征向量进行聚类运算,从而得到各个特征向量对应的簇,最后通过这些簇对应的情绪宣泄模式即可确定适合该用户的情绪宣泄模式。另外,通过一定的规则确定聚类运算时采取的初始聚类中心,能进一步提高聚类运算的效果。
请参阅图3,本发明实施例中一种情绪宣泄模式的确定方法的第三个实施例包括:
301、获取目标用户输入的语音信号;
步骤301与步骤101相同,具体可参照步骤101的相关说明。
302、将所述语音信号划分为两个以上的语音信号段;
步骤302与步骤102相同,具体可参照步骤102的相关说明。
303、分别提取各个所述语音信号段的预设类型的特征参数,所述特征参数包括基频拟合斜率和互信息值;
在步骤303中,提取的特征参数包括基频拟合斜率和互信息值,其中提取各个所述语音信号段的基频拟合斜率的步骤包括:
(1)按照各个所述语音信号段的短时能量值是否大于预设的能量阈值将各个所述语音信号段分别划分为一个以上的信号帧,所述信号帧为各个所述语音信号段中短时能量值大于所述能量阈值的信号段;
(2)利用短时幅度差方法分别计算各个所述信号帧的第一基频值;
(3)利用倒谱方法分别计算各个所述信号帧的第二基频值;
(4)将各个所述信号帧的第一基频值和第二基频值分别按照预设的加权系数累加,得到各个所述信号帧的目标基频值;
(5)将各个所述语音信号段对应的所有信号帧的目标基频值按照第一顺序排列组成各个所述语音信号段的目标基频序列,所述第一顺序为所述所有信号帧中的各个信号帧在各个所述语音信号段中的排列顺序;
(6)将各个所述语音信号段的目标基频序列分别划分为前基频序列和后基频序列;
(7)利用最小均方误差准则分别对各个所述语音信号段的前基频序列和后基频序列作直线拟合,得到各个所述语音信号段的第一拟合直线和第二拟合直线;
(8)分别计算各个所述语音信号段的第一拟合直线和第二拟合直线的斜率作为各个所述语音信号段的基频拟合斜率。
对于上述步骤(1),首先计算各个所述语音信号段的短时能量值,然后设定一个能量阈值将各个所述语音信号段分别划分为一个以上的信号帧,所述信号帧为各个所述语音信号段中短时能量值大于所述能量阈值的信号段。所述能量阈值能够适当调整,比如可以调整为该语音信号段信号能量最大值的5%。另外,各个所述语音信号段中短时能量值小于或等于所述能量阈值的信号段可以称为停顿帧。通过这样的划分,将所述语音信号段划分成了多个信号帧和停顿帧,每个信号帧可视作对应于所述语音信号中的某个字,每个停顿帧可视作对应于所述语音信号中的某个停顿。
对于上述步骤(2)至(4),利用短时幅度差和倒谱两种方法分别计算各个所述信号帧的基频值,然后对两种方法计算得到的基频值进行加权累加,得到各个所述信号帧的目标基频值。比如利用短时幅度差和倒谱两种方法分别计算得到的某个信号帧的基频是f0_1和f0_2,则该信号帧的目标基频值为q*f0_1+(1-q)*f0_2,其中q是可调整的加权系数,范围为0~1。
对于上述步骤(5),将各个所述语音信号段对应的所有信号帧的目标基频值按照第一顺序排列组成各个所述语音信号段的目标基频序列,所述第一顺序为所述所有信号帧中的各个信号帧在各个所述语音信号段中的排列顺序。
对于上述步骤(6),将各个所述语音信号段的目标基频序列分别划分为前基频序列和后基频序列,可以根据目标基频序列中含有的目标基频值的数量平均划分,也可以按照一定的比例进行划分。
对于上述步骤(7),利用最小均方误差准则分别对各个所述语音信号段的前基频序列和后基频序列作直线拟合,得到各个所述语音信号段的第一拟合直线和第二拟合直线。其中,第一拟合直线为前基频序列进行直线拟合得到的直线,第二拟合直线为后基频序列进行直线拟合得到的直线。
对于上述步骤(8),分别计算各个所述语音信号段的第一拟合直线和第二拟合直线的斜率作为各个所述语音信号段的基频拟合斜率。
进一步的,在确定各个所述语音信号段的基频拟合斜率之后,可以根据基频拟合斜率的取值判定各个所述语音信号段的音调。假设某个语音信号段的第一拟合直线和第二拟合直线的斜率分别为k1和k2,则可以采用以下标准判定该语音信号段的音调:
k1和k2都接近0,即|k1|<0.12且|k2|<0.12时,识别为一声(平声);
k1>0.12且k2>0.12时,识别为二声(上声);
k1<-0.12且k2>0.12时,识别为三声(去声);
k1<-0.12且k2<-0.12时,识别为四声(入声)。
需要说明的是,上述具体的判定阈值(0.12)是可以根据实际需求灵活调整的。
在步骤303中,提取各个所述语音信号段的互信息值的步骤包括:
(1)分别对各个所述语音信号段进行语音识别,得到各个所述语音信号段对应的文字信息;
(2)将各个所述语音信号段对应的文字信息与预设的关键字分类表进行匹配,确定所述文字信息中包含的目标关键字和所述目标关键字对应的互信息值,所述关键字分类表记录有归类于各种情绪宣泄模式的关键字,以及所述归类于各种情绪宣泄模式的关键字对应的互信息值;
(3)将各个所述语音信号段中所述目标关键字对应的互信息值确定为各个所述语音信号段的互信息值。
对于上述步骤(1),对各个所述语音信号段进行语音识别,得到各个所述语音信号段对应的文字信息,所述文字信息可以是一个字。
对于上述步骤(2),所述目标关键字指所述关键字分类表中记录的指定关键字,所述关键字分类表记录有归类于各种情绪宣泄模式的关键字,以及所述归类于各种情绪宣泄模式的关键字对应的互信息值。如表1所示,示出了一种关键字分类表,表中包括鼓励模式、共情模式和发泄模式三种情绪宣泄模式的关键字,以及这些关键字与对应模式之间的互信息值,表中的x1~x4,y1~y4和z1~z4都是预先计算好的互信息数值。
表1
Figure BDA0001287228230000131
Figure BDA0001287228230000141
对于上述步骤(3),通过查表确定所述语音信号段的文字信息中包含的目标关键字和所述目标关键字对应的互信息值,进而将该互信息值确定为各个所述语音信号段的互信息值。
进一步的,所述关键字分类表可以根据以下步骤预先建立:
(1)确定收录关键字,将所有收录关键字按照各种情绪宣泄模式进行分类,记录所述各个收录关键字的类别;
(2)获取样本语音信号,对所述样本语音信号进行语音识别,得到对应的样本文字信息,所述样本语音信号是用于确定所述关键字分类表中各个收录关键字对应的互信息值而输入的测试信号;
(3)统计所述样本文字信息中属于第一类别的第一关键字的个数p、属于第一类别的除所述第一关键字外的其它关键字的个数q、不属于第一类别的第一关键字的个数s和所述样本文字信息的总字数t,所述第一类别为所述各个收录关键字的类别中的任意一种类别,所述第一关键字为所述收录关键字中的任意一个关键字;
(4)将所述第一关键字与第一类别之间的互信息值确定为
Figure BDA0001287228230000142
(5)以与确定所述第一关键字与第一类别之间的互信息值相同的方式确定所述关键字分类表中每个收录关键字与对应的关键字类别之间的互信息值,记录在所述关键字分类表中。
在上述步骤(1)至(5)中,所述收录关键字优先选取各种情绪宣泄模式下用户比较可能说出的关键字,比如对于发泄模式来说,优先收录用户在生气时可能说出的关键字,如“干”、“草”和“死”等。所述样本语音信号可采用处于多种不同负面情绪下的用户所输入的语音信号,对所述样本语音信号进行语音识别后得到的样本文字信息包括多个收录关键字,确定每个收录关键字与对应的关键字类别之间的互信息值,记录在所述关键字分类表中。
304、归一化各个所述语音信号段的特征参数;
步骤304与步骤104相同,具体可参照步骤104的相关说明。
305、将各个所述语音信号段的归一化后的特征参数分别构建成各个所述语音信号段对应的特征向量,每个所述语音信号段对应一个特征向量;
步骤305与步骤105相同,具体可参照步骤105的相关说明。
306、采用聚类算法对各个所述语音信号段对应的特征向量进行聚类运算,确定各个所述特征向量聚类后所对应的簇,所述簇与预设的情绪宣泄模式一一对应;
步骤306与步骤106相同,具体可参照步骤106的相关说明。
307、根据各个所述特征向量聚类后所对应的簇确定所述目标用户对应的情绪宣泄模式。
步骤307与步骤107相同,具体可参照步骤107的相关说明。
在本发明实施例中:获取目标用户输入的语音信号;将所述语音信号划分为两个以上的语音信号段;分别提取各个所述语音信号段的预设类型的特征参数,所述特征参数包括基频拟合斜率和互信息值;归一化各个所述语音信号段的特征参数;将各个所述语音信号段的归一化后的特征参数分别构建成各个所述语音信号段对应的特征向量,每个所述语音信号段对应一个特征向量;采用聚类算法对各个所述语音信号段对应的特征向量进行聚类运算,确定各个所述特征向量聚类后所对应的簇,所述簇与预设的情绪宣泄模式一一对应;根据各个所述特征向量聚类后所对应的簇确定所述目标用户对应的情绪宣泄模式。上述过程针对用户发出的语音信号做特征参数提取,然后将提取出来的特征参数构建成特征向量进行聚类运算,从而得到各个特征向量对应的簇,最后通过这些簇对应的情绪宣泄模式即可确定适合该用户的情绪宣泄模式。与传统的人工诊断相比,本发明利用计算机采集用户的语音信号并进行分析,大大提高了心理问题诊断的准确性和效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
上面主要描述了一种情绪宣泄模式的确定方法,下面将对一种情绪宣泄模式的确定装置进行详细描述。
请参阅图4,本发明实施例中一种情绪宣泄模式的确定装置的一个实施例包括:
语音获取模块401,用于获取目标用户输入的语音信号;
信号划分模块402,用于将所述语音信号划分为两个以上的语音信号段;
特征参数提取模块403,用于分别提取各个所述语音信号段的预设类型的特征参数;
归一化模块404,用于归一化各个所述语音信号段的特征参数;
特征向量构建模块405,用于将各个所述语音信号段的归一化后的特征参数分别构建成各个所述语音信号段对应的特征向量,每个所述语音信号段对应一个特征向量;
聚类模块406,用于采用聚类算法对各个所述语音信号段对应的特征向量进行聚类运算,确定各个所述特征向量聚类后所对应的簇,所述簇与预设的情绪宣泄模式一一对应;
模式确定模块407,用于根据各个所述特征向量聚类后所对应的簇确定所述目标用户对应的情绪宣泄模式。
进一步的,所述特征参数提取模块用于分别提取各个所述语音信号段的平均幅度、静音比和基频拟合斜率,所述聚类模块可以包括:
参数累加单元,用于分别将各个所述语音信号段的归一化后的平均幅度、静音比和基频拟合斜率按照预设的加权系数进行累加,得到各个所述语音信号段的基准系数值;
区间确定单元,用于将各个所述语音信号段的基准系数值所落入的阈值区间分别确定为各个所述语音信号段对应的阈值区间,所述阈值区间包括两个以上预设的连续数值区间;
质心计算单元,用于分别计算各个所述阈值区间中每个阈值区间对应的所有语音信号段的特征向量之间的质心坐标值;
初始聚类中心确定单元,用于将计算得到的各个所述质心坐标值分别确定为各个所述初始聚类中心。
本发明实施例还提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如图1至图3中任意一种情绪宣泄模式的确定方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如图1至图3中任意一种情绪宣泄模式的确定方法。
图5是本发明一实施例提供的终端设备的示意图。如图5所示,该实施例的终端设备5包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52。所述处理器50执行所述计算机程序52时实现上述各个情绪宣泄模式的确定方法实施例中的步骤,例如图1所示的步骤101至107。或者,所述处理器50执行所述计算机程序52时实现上述各装置实施例中各模块/单元的功能,例如图4所示模块401至407的功能。
所述计算机程序52可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述处理器50执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序52在所述终端设备5中的执行过程。
所述终端设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是终端设备5的示例,并不构成对终端设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备5还可以包括输入输出设备、网络接入设备、总线等。
所称处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述终端设备5的内部存储单元,例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备,例如所述终端设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (8)

1.一种情绪宣泄模式的确定方法,其特征在于,包括:
获取目标用户输入的语音信号;
将所述语音信号划分为两个以上的语音信号段;
分别提取各个所述语音信号段的预设类型的特征参数;
归一化各个所述语音信号段的特征参数;
将各个所述语音信号段的归一化后的特征参数分别构建成各个所述语音信号段对应的特征向量,每个所述语音信号段对应一个特征向量;
采用聚类算法对各个所述语音信号段对应的特征向量进行聚类运算,确定各个所述特征向量聚类后所对应的簇,所述簇与预设的情绪宣泄模式一一对应;
根据各个所述特征向量聚类后所对应的簇确定所述目标用户对应的情绪宣泄模式;
其中,所述分别提取各个所述语音信号段的预设类型的特征参数包括分别提取各个所述语音信号段的平均幅度、静音比和基频拟合斜率,所述采用聚类算法对各个所述语音信号段对应的特征向量进行聚类运算所采取的初始聚类中心通过以下步骤确定:
分别将各个所述语音信号段的归一化后的平均幅度、静音比和基频拟合斜率按照预设的加权系数进行累加,得到各个所述语音信号段的基准系数值;
将各个所述语音信号段的基准系数值所落入的阈值区间分别确定为各个所述语音信号段对应的阈值区间,所述阈值区间包括两个以上预设的连续数值区间;
分别计算各个所述阈值区间中每个阈值区间对应的所有语音信号段的特征向量之间的质心坐标值;
将计算得到的各个所述质心坐标值分别确定为各个所述初始聚类中心。
2.如权利要求1所述的情绪宣泄模式的确定方法,其特征在于,所述采用聚类算法对各个所述语音信号段对应的特征向量进行聚类运算包括:
利用改进的曼哈坦距离公式计算各个所述特征向量中每个特征向量和各个所述初始聚类中心中每个初始聚类中心两两之间的距离,所述改进的曼哈坦距离公式为传统曼哈坦距离公式的平方;
将与所述每个特征向量的距离最小的初始聚类中心确定为所述每个特征向量对应的初始聚类中心;
分别计算各个所述初始聚类中心中每个初始聚类中心对应的所有特征向量之间的质心坐标值;
将各个所述初始聚类中心中每个初始聚类中心对应的所有特征向量之间的质心坐标值确定为所述聚类运算的新聚类中心;
重复利用所述改进的曼哈坦距离公式分别计算各个所述特征向量和各个所述新聚类中心之间的距离,迭代直至所述聚类过程收敛;
当所述聚类过程收敛时,确定各个所述特征向量聚类后所对应的簇。
3.如权利要求1所述的情绪宣泄模式的确定方法,其特征在于,所述分别提取各个所述语音信号段的预设类型的特征参数包括分别提取各个所述语音信号段的基频拟合斜率,所述分别提取各个所述语音信号段的基频拟合斜率包括:
按照各个所述语音信号段的短时能量值是否大于预设的能量阈值将各个所述语音信号段分别划分为一个以上的信号帧,所述信号帧为各个所述语音信号段中短时能量值大于所述能量阈值的信号段;
利用短时幅度差方法分别计算各个所述信号帧的第一基频值;
利用倒谱方法分别计算各个所述信号帧的第二基频值;
将各个所述信号帧的第一基频值和第二基频值分别按照预设的加权系数累加,得到各个所述信号帧的目标基频值;
将各个所述语音信号段对应的所有信号帧的目标基频值按照第一顺序排列组成各个所述语音信号段的目标基频序列,所述第一顺序为所述所有信号帧中的各个信号帧在各个所述语音信号段中的排列顺序;
将各个所述语音信号段的目标基频序列分别划分为前基频序列和后基频序列;
利用最小均方误差准则分别对各个所述语音信号段的前基频序列和后基频序列作直线拟合,得到各个所述语音信号段的第一拟合直线和第二拟合直线;
分别计算各个所述语音信号段的第一拟合直线和第二拟合直线的斜率作为各个所述语音信号段的基频拟合斜率。
4.如权利要求1至3中任一项所述的情绪宣泄模式的确定方法,其特征在于,所述分别提取各个所述语音信号段的预设类型的特征参数包括分别提取各个所述语音信号段的互信息值,所述分别提取各个所述语音信号段的互信息值包括:
分别对各个所述语音信号段进行语音识别,得到各个所述语音信号段对应的文字信息;
将各个所述语音信号段对应的文字信息与预设的关键字分类表进行匹配,确定所述文字信息中包含的目标关键字和所述目标关键字对应的互信息值,所述关键字分类表记录有归类于各种情绪宣泄模式的关键字,以及所述归类于各种情绪宣泄模式的关键字对应的互信息值;
将各个所述语音信号段中所述目标关键字对应的互信息值确定为各个所述语音信号段的互信息值。
5.如权利要求4所述的情绪宣泄模式的确定方法,其特征在于,所述关键字分类表根据以下步骤建立:
确定收录关键字,将所有收录关键字按照各种情绪宣泄模式进行分类,记录各个所述收录关键字的类别;
获取样本语音信号,对所述样本语音信号进行语音识别,得到对应的样本文字信息,所述样本语音信号是用于确定所述关键字分类表中各个收录关键字对应的互信息值而输入的测试信号;
统计所述样本文字信息中属于第一类别的第一关键字的个数p、属于第一类别的除所述第一关键字外的其它关键字的个数q、不属于第一类别的第一关键字的个数s和所述样本文字信息的总字数t,所述第一类别为所述各个收录关键字的类别中的任意一种类别,所述第一关键字为所述收录关键字中的任意一个关键字;
将所述第一关键字与第一类别之间的互信息值确定为
Figure FDA0002331819460000041
以与确定所述第一关键字与第一类别之间的互信息值相同的方式确定所述关键字分类表中每个收录关键字与对应的关键字类别之间的互信息值,记录在所述关键字分类表中。
6.一种情绪宣泄模式的确定装置,其特征在于,包括:
语音获取模块,用于获取目标用户输入的语音信号;
信号划分模块,用于将所述语音信号划分为两个以上的语音信号段;
特征参数提取模块,用于分别提取各个所述语音信号段的预设类型的特征参数;
归一化模块,用于归一化各个所述语音信号段的特征参数;
特征向量构建模块,用于将各个所述语音信号段的归一化后的特征参数分别构建成各个所述语音信号段对应的特征向量,每个所述语音信号段对应一个特征向量;
聚类模块,用于采用聚类算法对各个所述语音信号段对应的特征向量进行聚类运算,确定各个所述特征向量聚类后所对应的簇,所述簇与预设的情绪宣泄模式一一对应;
模式确定模块,用于根据各个所述特征向量聚类后所对应的簇确定所述目标用户对应的情绪宣泄模式;
其中,所述特征参数提取模块用于分别提取各个所述语音信号段的平均幅度、静音比和基频拟合斜率,所述聚类模块包括:
参数累加单元,用于分别将各个所述语音信号段的归一化后的平均幅度、静音比和基频拟合斜率按照预设的加权系数进行累加,得到各个所述语音信号段的基准系数值;
区间确定单元,用于将各个所述语音信号段的基准系数值所落入的阈值区间分别确定为各个所述语音信号段对应的阈值区间,所述阈值区间包括两个以上预设的连续数值区间;
质心计算单元,用于分别计算各个所述阈值区间中每个阈值区间对应的所有语音信号段的特征向量之间的质心坐标值;
初始聚类中心确定单元,用于将计算得到的各个所述质心坐标值分别确定为各个所述初始聚类中心。
7.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的情绪宣泄模式的确定方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的情绪宣泄模式的确定方法的步骤。
CN201710311544.3A 2017-05-05 2017-05-05 情绪宣泄模式的确定方法、装置、终端设备和存储介质 Active CN107195312B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710311544.3A CN107195312B (zh) 2017-05-05 2017-05-05 情绪宣泄模式的确定方法、装置、终端设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710311544.3A CN107195312B (zh) 2017-05-05 2017-05-05 情绪宣泄模式的确定方法、装置、终端设备和存储介质

Publications (2)

Publication Number Publication Date
CN107195312A CN107195312A (zh) 2017-09-22
CN107195312B true CN107195312B (zh) 2020-03-27

Family

ID=59874002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710311544.3A Active CN107195312B (zh) 2017-05-05 2017-05-05 情绪宣泄模式的确定方法、装置、终端设备和存储介质

Country Status (1)

Country Link
CN (1) CN107195312B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109065071B (zh) * 2018-08-31 2021-05-14 电子科技大学 一种基于迭代k-means算法的歌曲聚类方法
CN109352666A (zh) * 2018-10-26 2019-02-19 广州华见智能科技有限公司 一种基于机器语音对话的情感发泄方法及系统
CN110047469B (zh) * 2019-04-09 2023-12-22 平安科技(深圳)有限公司 语音数据情感标注方法、装置、计算机设备及存储介质
CN113744738B (zh) * 2021-09-10 2024-03-19 安徽淘云科技股份有限公司 一种人机交互方法及其相关设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101685634A (zh) * 2008-09-27 2010-03-31 上海盛淘智能科技有限公司 一种儿童语音情感识别方法
CN102355527A (zh) * 2011-07-22 2012-02-15 深圳市无线开锋科技有限公司 一种手机感应心情装置及方法
CN102881284A (zh) * 2012-09-03 2013-01-16 江苏大学 非特定人语音情感识别方法及系统
CN105702251A (zh) * 2016-04-20 2016-06-22 中国科学院自动化研究所 基于Top-k加强音频词袋模型的语音情感识别方法
JP6003352B2 (ja) * 2012-07-30 2016-10-05 ブラザー工業株式会社 データ生成装置、及びデータ生成方法
CN106503805A (zh) * 2016-11-14 2017-03-15 合肥工业大学 一种基于机器学习的双模态人人对话情感分析系统及其方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101685634A (zh) * 2008-09-27 2010-03-31 上海盛淘智能科技有限公司 一种儿童语音情感识别方法
CN102355527A (zh) * 2011-07-22 2012-02-15 深圳市无线开锋科技有限公司 一种手机感应心情装置及方法
JP6003352B2 (ja) * 2012-07-30 2016-10-05 ブラザー工業株式会社 データ生成装置、及びデータ生成方法
CN102881284A (zh) * 2012-09-03 2013-01-16 江苏大学 非特定人语音情感识别方法及系统
CN105702251A (zh) * 2016-04-20 2016-06-22 中国科学院自动化研究所 基于Top-k加强音频词袋模型的语音情感识别方法
CN106503805A (zh) * 2016-11-14 2017-03-15 合肥工业大学 一种基于机器学习的双模态人人对话情感分析系统及其方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于核函数的语音情感识别技术的研究;陈文汐;《中国优秀硕士学位论文全文数据库-信息科技辑》;20160815;第I136-137页 *

Also Published As

Publication number Publication date
CN107195312A (zh) 2017-09-22

Similar Documents

Publication Publication Date Title
CN108737667B (zh) 语音质检方法、装置、计算机设备及存储介质
CN110164452B (zh) 一种声纹识别的方法、模型训练的方法以及服务器
CN107195312B (zh) 情绪宣泄模式的确定方法、装置、终端设备和存储介质
CN107665705B (zh) 语音关键词识别方法、装置、设备及计算机可读存储介质
CN110457432B (zh) 面试评分方法、装置、设备及存储介质
CN104143326B (zh) 一种语音命令识别方法和装置
WO2020181824A1 (zh) 声纹识别方法、装置、设备以及计算机可读存储介质
CN108536595B (zh) 测试用例智能化匹配方法、装置、计算机设备及存储介质
WO2017218465A1 (en) Neural network-based voiceprint information extraction method and apparatus
CN110634472B (zh) 一种语音识别方法、服务器及计算机可读存储介质
CN105096955B (zh) 一种基于模型生长聚类的说话人快速识别方法及系统
WO2019134247A1 (zh) 基于声纹识别模型的声纹注册方法、终端装置及存储介质
CN102024455A (zh) 说话人识别系统及其方法
WO2021159902A1 (zh) 年龄识别方法、装置、设备及计算机可读存储介质
Ramos-Lara et al. Real-time speaker verification system implemented on reconfigurable hardware
WO2022127042A1 (zh) 基于语音识别的考试作弊识别方法、装置及计算机设备
WO2022141868A1 (zh) 一种提取语音特征的方法、装置、终端及存储介质
CN106407960A (zh) 基于多特征音乐体载的分类方法及系统
CN104427109A (zh) 使用语音创建联系人项的方法及电子设备
Bhattarai et al. Experiments on the MFCC application in speaker recognition using Matlab
CN112382302A (zh) 婴儿哭声识别方法及终端设备
CN106710588B (zh) 语音数据句类识别方法和装置及系统
CN115394318A (zh) 一种音频检测方法和装置
US11475876B2 (en) Semantic recognition method and semantic recognition device
CN112489628B (zh) 语音数据选择方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant