CN110047517A - 语音情感识别方法、问答方法及计算机设备 - Google Patents
语音情感识别方法、问答方法及计算机设备 Download PDFInfo
- Publication number
- CN110047517A CN110047517A CN201910333653.4A CN201910333653A CN110047517A CN 110047517 A CN110047517 A CN 110047517A CN 201910333653 A CN201910333653 A CN 201910333653A CN 110047517 A CN110047517 A CN 110047517A
- Authority
- CN
- China
- Prior art keywords
- feature
- voice signal
- classifier
- emotional category
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 96
- 230000002996 emotional effect Effects 0.000 claims abstract description 139
- 230000008451 emotion Effects 0.000 claims description 61
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 229910052739 hydrogen Inorganic materials 0.000 claims description 6
- 238000003066 decision tree Methods 0.000 claims description 5
- 238000012706 support-vector machine Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 abstract 1
- 239000012141 concentrate Substances 0.000 description 8
- 238000000605 extraction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 230000036651 mood Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 206010024642 Listless Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000002834 transmittance Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种语音情感识别方法、一种问答方法、一种计算机设备及一种计算机可读存储介质。所述语音情感识别方法可以包括,对语音信号进行预处理;基于预设的特征集合从预处理后的语音信号中提取该特征集合中的特征的值;以及由分类器基于所提取的特征的值识别所述语音信号的情感类别。所述分类器包括多个子分类器,其中由分类器基于所述特征的值识别所述语音信号的情感类别包括由所述多个子分类器基于所述特征的值识别所述语音信号的情感类别。
Description
技术领域
本公开涉及智能问答领域,尤其涉及一种语音情感识别方法、一种问答方法、一种计算机设备及一种计算机可读存储介质。
背景技术
目前,在大多数智能问答系统中,仅仅根据用户发出的语音命令给出相应的回复。在少数智能问答系统中,除了语音命令之外,还基于语音情感给出相应的回复。
现有的语音情感识别方法大都是基于深度学习或者机器学习。基于深度学习的方法对硬件资源有较高的要求,很难达到实时性。基于机器学习的方法可以达到一定程度的实时性,但是需要通过先验知识提取最有用的特征并选择最合适的分类器。
发明内容
根据本公开的一个方面,提供了一种语音情感识别方法。该语音情感识别方法可以包括:对语音信号进行预处理;基于预设的特征集合从预处理后的语音信号中提取该特征集合中的特征的值;以及由分类器基于所提取的特征的值识别所述语音信号的情感类别。所述分类器包括多个子分类器,其中由分类器基于所述特征的值识别所述语音信号的情感类别包括由所述多个子分类器基于所述特征的值识别所述语音信号的情感类别。
在一个实施例中,所述预设的特征集合中的特征可以是基于快速过滤的特征选择算法和方差从多个特征中选出的。
在一个实施例中,基于快速过滤的特征选择算法和方差从多个特征中选出所述预设的特征集合中的特征的过程可以包括:获取多个语音信号样本;对所述多个语音信号样本进行预处理;提取所述多个语音信号样本中的每个语音信号样本的多个特征;计算所述多个特征中的每个特征与多个情感类别的情感相关性;从所述多个特征中选择情感相关性大于预设的情感相关性阈值的特征以获得第一候选特征子集;将所述第一候选特征子集中具有最大情感相关性的特征作为显著特征;计算所述第一候选特征子集中的其余特征中的每个特征与所述显著特征的特征相关性;从所述第一候选特征子集中删除特征相关性大于情感相关性的特征以获得第二候选特征子集;计算所述第二候选特征子集中的每个特征的方差;以及从所述第二候选特征子集中删除特征的方差小于方差阈值的特征以获得所述预设的特征集合中的特征。
在一个实施例中,基于快速过滤的特征选择算法和方差从多个特征中选出所述预设的特征集合中的特征的过程可以包括:获取多个语音信号样本;对所述多个语音信号样本进行预处理;提取所述多个语音信号样本中的每个语音信号样本的多个特征;计算所述多个特征中的每个特征的方差;从所述多个特征中删除特征的方差小于方差阈值的特征以获得第三候选特征子集;计算所述第三候选特征子集中的每个特征与多个情感类别的情感相关性;从所述第三候选特征子集中选择情感相关性大于预设的情感相关性阈值的特征以获得第四候选特征子集;将所述第四候选特征子集中具有最大情感相关性的特征作为显著特征;计算所述第四候选特征子集中的其余特征中的每个特征与所述显著特征的特征相关性;以及从所述第四候选特征子集中删除特征相关性大于情感相关性的特征以获得所述预设的特征集合中的特征。
在一个实施例中,情感相关性通过如下公式计算:
,
其中,X表示特征向量,Y表示情感类别向量,H(X)表示X的熵;H(Y)表示Y的熵,H(X|Y)表示X|Y的熵。
在一个实施例中,特征相关性通过如下公式计算:
,
其中X表示一个特征向量,Y表示另一个特征向量,H(X)表示X的熵,H(Y)表示Y的熵,H(X|Y)表示X|Y的熵。
在一个实施例中,由所述多个子分类器基于所述特征的值识别所述语音信号的情感类别可以包括根据所述多个子分类器的投票和所述多个子分类器的权重来识别所述语音信号的情感类别。
在一个实施例中,根据所述多个子分类器的投票和所述多个子分类器的权重来识别所述语音信号的情感类别可以包括:如果根据所述多个子分类器的投票识别出唯一情感类别,则将该唯一的情感类别作为所述语音信号的情感类别;以及如果根据所述多个子分类器的投票识别出至少两个情感类别,则进一步根据所述多个子分类器的权重来确定所述语音信号的情感类别。
在一个实施例中,根据所述多个子分类器的投票识别情感类别可以包括,如果所述多个子分类器中的至少两个子分类器识别出的情感类别相同,则将情感类别识别为所述语音信号的情感类别。
在一个实施例中,子分类器可以包括支持向量机分类器、决策树分类器或神经网络分类器。
根据本公开的另一个方面,提供了一种问答方法。该问答方法可以包括:接收语音信号;识别语音信号的语义和情感类别;以及基于语音信号的语义和情感类别输出答复。识别语音信号的情感类别可以包括根据如前所述的语音情感识别方法识别语音信号的情感类别。
根据本公开的又一个方面,提供了一种计算机设备。该计算机设备可以包括:存储器,其存储了计算机程序;以及处理器,其被配置为,在执行所述计算机程序时,执行如前所述的语音情感识别方法或如前所述的问答方法。
根据本公开的再一个方面,提供了一种计算机可读存储介质。该计算机可读存储介质存储了计算机程序,所述计算机程序在被处理器执行时使得所述处理器执行如前所述的语音情感识别方法或如前所述的问答方法。
附图说明
图1示出了根据本公开实施例的一种问答方法的示意性流程图;
图2示出了根据本公开实施例的一种语音情感识别方法的示意性流程图;
图3示出了根据本公开实施例的一种特征提取方法的示意性流程图;
图4示出了根据本公开实施例的另一种特征提取方法的示意性流程图;
图5示出了根据本公开实施例的一种问答系统的示意性结构图;以及
图6示出了根据本公开实施例的一种语音情感识别设备的示意性结构图。
具体实施方式
根据本公开,提供了一种语音情感识别方法、一种问答方法、一种语音情感识别设备、一种问答系统、一种计算机设备及一种计算机可读存储介质。它们通过多个分类器的投票结果来确定语音信号的最终的情感类别。与仅仅使用单个分类器来确定语音信号的情感类别相比,它们能够提高语音信号的情感类别识别的准确率和实时性。此外,它们还根据特征选择算法而不是先验知识选取特征,从而也可以提高语音信号的情感类别识别的准确率和实时性。
图1示出了根据本公开实施例的一种问答方法100的示意性流程图。该问答方法100可以包括步骤101,接收语音信号。该语音信号可以来自用户或者任何可以发出语音信号的其他主体。语音信号可以包括例如用户提出的各种问题信息。
该问答方法100可以进一步包括步骤102,识别语音信号的语义和情感类别。步骤102可以包括两个子步骤,即识别语音信号的语义和识别语音信号的情感类别。这两个子步骤可以同时执行,也可以顺序执行。可以先执行语音信号的语义的识别后执行语音信号的情感类别的识别,也可以先执行语音信号的情感类别的识别后执行语音信号的语义的识别。
识别语音信号的语义可以包括,解析语音信号中包括的具体问题信息,以便针对该具体问题信息从预设的数据库中输出对应的答复。识别语音信号的语义可以以各种本领域已知的方法来实现,为了不混淆本申请的主题,在此不再赘述。
识别语音信号的情感类别可以通过稍后将参照根据本公开实施例的图2、图3和图4描述的语音情感类别方法来实现。根据本公开,情感类别可以包括例如高兴、急迫、不耐烦、悲伤等等。本领域技术人员可以根据实际需求对情感类别的种类和数目进行设置。
该问答方法100可以进一步包括步骤103,基于语音信号的语义和情感类别输出答复。
根据本公开,在存储器中可以包括预设的数据库。预设的数据库可以包括多个条目。每个条目可以包括语义、情感类别和回复三个属性。如此,步骤103可以包括从该预设的数据库中检索出与识别出的语义和情感类别二者相匹配的答复,进而将其输出给用户。
在一个实施例中,该问答方法可以不直接基于语音信号的语义和情感类别输出答复,而是可以先基于语音信号的情感类别判断用户的情绪是否是消极的(例如,失落、低落、不高兴、无精打采等)。在判断出用户的情绪是消极的情况下,该问答方法可以进一步输出诸如笑话之类的积极信息(其例如可以与语音信号的语义完全无关)来调整用户的情绪,并且然后再基于语音信号的语义来输出答复。
根据本公开,问答方法100可以被反复执行多次,以便实现多轮问答。在每一轮问答中,识别出的语音信号的语义和情感类别可以被存储或记录,以便用于指导后续的答复。在一个实施例中,可以基于先前(例如上一轮或前几轮)的情感类别(例如,情感类别的变化或者各种情感类别的数目)来确定当前轮的情感类别以便指导当前轮的问题的答复。
根据本公开的问答方法,不仅仅基于语音信号的语义,还基于语音信号的情感类别来输出答复,因而可以使得用户获得更好的体验。此外,根据本公开的问答方法,还基于先前的情感类别来输出当前的答复,因而可以使得当前的答复让用户更满意,进而使得用户获得更好的体验。
图2示出了根据本公开实施例的一种语音情感识别方法200的示意性流程图。如图2中所示,该语音情感识别方法200可以包括步骤201,对语音信号进行预处理。如前所述,语音信号可以是从用户处接收到的。预处理可以包括滤波、分帧等操作,其是本领域已知的,因此在此不再赘述。
如图2中所示,该语音情感识别方法200可以进一步包括步骤202,基于预设的特征集合从预处理后的语音信号中提取该特征集合中的特征的值。根据本公开,所述预设的特征集合中的特征是在语音情感类别识别的训练过程中基于快速过滤的特征选择算法和方差从多个特征中选出的。本文稍后将结合图3和图4对所述预设的特征集合中的特征的选择过程进行详细说明。
如图2中所示,该语音情感识别方法200可以进一步包括步骤203,由分类器基于所提取的特征的值识别所述语音信号的情感类别。
根据本公开,所述分类器可以包括多个子分类器。由分类器基于所述特征的值识别所述语音信号的情感类别可以包括由所述多个子分类器基于所述特征的值识别所述语音信号的情感类别。
根据本公开,子分类器可以包括各种各样的分类器,例如支持向量机分类器、决策树分类器、神经网络分类器等等。每个子分类器都可以包括一个预先训练好的语音情感类别识别模型。每个语音情感类别识别模型都是相应的子分类器预先基于如前所述的同一预设的特征集合和同一情感类别集合(其包括诸如高兴、急迫、不耐烦、悲伤等情感类别)在在语音情感类别识别的训练过程中在大量的语音信号样本的基础上训练好的。在一个实施例中,神经网络分类器可以包括反向传播神经网络,该神经网络的输入层可以是所述预设的特征集合的特征,而输出层可以是如前所述的情感类别集合中的情感类别。在一个实施例中,为了避免决策树过于复杂并且防止出现过拟合,根据本公开的决策树分类器可以使用预剪枝操作。在一个实施例中,为了缓解过拟合问题,根据本公开的支持向量机分类器可以使用软间隔支持向量机,从而在两个不容易划分的情感类别之间尽可能的找到一个干净的超平面。这些子分类器本身是本领域已知的分类器,因此在此不再对其如何训练语音情感类别识别模型的详细原理进行赘述。
在实际的应用中,当向一个子分类器输入预设的特征集合中的特征的值时,该子分类器可以基于预先训练好的语音情感类别识别模型输出一个情感类别。如此,当将所述预设的特征集合中的特征的值分别输入各个子分类器时,每个子分类器都将输出一个情感类别。
在一个实施例中,由所述多个子分类器基于所述特征的值识别所述语音信号的情感类别可以包括根据所述多个子分类器的投票和所述多个子分类器的权重来识别所述语音信号的情感类别。根据所述多个子分类器的投票和所述多个子分类器的权重来识别所述语音信号的情感类别可以包括:如果根据所述多个子分类器的投票识别出唯一情感类别,则将该唯一的情感类别作为所述语音信号的情感类别;以及如果根据所述多个子分类器的投票识别出至少两个情感类别,则进一步根据所述多个子分类器的权重来确定所述语音信号的情感类别。根据所述多个子分类器的投票识别情感类别可以包括,如果所述多个子分类器中的至少两个子分类器识别出的情感类别相同,则将情感类别识别为所述语音信号的情感类别。在实际应用中,假设使用5个子分类器来识别一个语音信号的情感类别。在一种情况下,假设其中三个子分类器都输出同一情感类别(例如,高兴),而其中一个子分类器输出另一种不同的情感类别(例如,不耐烦),其中一个子分类器输出又一种不同的情感类别(例如,悲伤),那么根据这5个子分类器的投票,将识别出唯一的情感类别,即高兴。在这种情况下,将高兴这个情感类别作为由多个子分类器识别出的最终情感类别。在另一种情况下,假设其中两个子分类器输出同一情感类别(例如,高兴),而其中另两个子分类器输出另一种不同的情感类别(例如,不耐烦),最后一个子分类器输出又一种不同的情感类别(例如,悲伤),那么根据这5个子分类器的投票,将识别出两个情感类别,即高兴和不耐烦。在这种情况下,识别出的情感类别不唯一,因此需要对识别出的情感类别进行进一步识别。根据本公开实施例,可以预先为每个子分类器分配相应的权重。继续前述示例,假设输出高兴的两个子分类器的权重分别为1和2,输出不耐烦的两个子分类器的权重分别为3和4,那么由于3+4=7大于1+2=3,不耐烦这个情感类别将作为由多个子分类器识别出的最终情感类别。当然,根本公开的实施例不限于仅仅基于子分类器的权重来进一步识别情感类别。
如前所述,根据本公开的语音情感类别识别方法通过多个分类器的投票结果来确定语音信号的最终的情感类别。与仅仅使用单个分类器来确定语音信号的情感类别相比,根据本公开的语音情感类别识别方法能够提高语音信号的情感类别识别的准确率和实时性。
根据本公开,在语音信号的情感类别识别过程中,需要对语音信号的特征进行提取。所提取的特征的数目和种类对于情感类别的识别的准确性和计算复杂度都有着显著影响。根据本公开,将在语音情感类别识别的训练过程中,对于需要提取的语音信号的特征的数目和种类进行确定,以便形成在实际的语音信号的情感类别识别中需要使用的预设的特征集合。下面将结合图3和图4对所述预设的特征集合中的特征的选择过程进行详细说明。
图3示出了根据本公开实施例的一种特征提取方法300的示意性流程图。
如图3中所示,特征提取方法300可以包括步骤301,获取多个语音信号样本;302,对所述多个语音信号样本进行预处理;303,提取所述多个语音信号样本中的每个语音信号样本的多个特征。所述多个语音信号样本可以来自现有的语音情感数据库,例如柏林语音情感数据库,或者可以是随着时间的推移不断积累的各种语音信号样本。所述预处理操作可以是本领域中已知的各种预处理器操作,在此不再赘述。所述多个特征可以是例如openSMILE(open Speech and Music Interpretation by Large Space Extraction)之类的用于信号处理和机器学习的现有特征提取器针对每个语音信号样本提取的初始特征。这些特征可以例如包括帧能量、帧强度、临界频带谱、倒谱系数、听觉谱、线性预测系数、基础频率、过零率等。在一个示例中,假设语音信号样本的数目为N个,提取的初始特征的数目为D个,那么针对N个语音信号样本分别提取D个初始特征的值将得到一个原始数据集的矩阵,其中,zij表示特征的值,, 。矩阵的每行表示一个语音信号样本的D个特征的值,矩阵的每列表示一个特征对应的N个样本。如此,矩阵Z可以包括N个D维样本向量(s1, s2, …, sN)T,D个N维特征向量(f1, f2, …, fD),其中,s1=[z11, z12, …, z1D], s2=[z21, z22, …, z2D], sN=[zN1, zN2, …, zND], f1=[z11, z21,…, zN1]T, f2=[z12, z22, …, zN2]T, fD=[z1D, z2D, …, zND]T。此外,每个语音信号样本还对应一个已知的情感类别。所有这些情感类别都属于预设的情感类别集合。如此,N个样本的情感类别向量C=[c1, c2, …, ck, …, cN]T,其中ck表示语音信号样本的情感类别的值,。
如图3中所示,特征提取方法300可以进一步包括步骤304,计算所述多个特征中的每个特征与多个情感类别的情感相关性。根据本公开,情感相关性可以通过如下通用公式计算:
,
其中,X表示特征向量,Y表示情感类别向量,H(X)表示X的熵,H(Y)表示Y的熵,H(X|Y)表示X|Y的熵。具体而言,
,
,
其中,与分别为X和Y的可能取值,和分别为和的概率。
继续上述示例,按照上述通用计算公式,步骤304实质上包括,对于每个特征向量fj,,计算情感相关性SU(fj, C),也就是,
,
其中,, ,
。
在步骤304完成后,将得到D个情感相关性。
如图3中所示,特征提取方法300可以进一步包括步骤305,从所述多个特征中选择情感相关性大于预设的情感相关性阈值的特征以获得第一候选特征子集。
根据本公开,预设的情感相关性阈值可以根据需求或经验进行设置。在这个步骤中,将计算得到的每个情感相关性与预设的情感相关性阈值相比较。如果计算得到的情感相关性大于预设的情感相关性阈值,则将该计算得到的情感相关性所对应的特征从D个特征中选出以便放入第一候选特征子集中。如果计算得到的情感相关性小于或等于预设的情感相关性阈值,则将该计算得到的情感相关性所对应的特征从D个特征中删除。
如图3中所示,特征提取方法300可以进一步包括步骤306,将所述第一候选特征子集中具有最大情感相关性的特征作为显著特征。
在该步骤中,可以将所述第一候选特征子集中的特征所对应的情感相关性进行排序,从而将与最大情感相关性相对应的特征作为显著特征。
如图3中所示,特征提取方法300可以进一步包括步骤307,计算所述第一候选特征子集中的其余特征中的每个特征与所述显著特征的特征相关性。
根据本公开,特征相关性也可以通过如下通用公式计算:
,
其中,X表示特征向量,Y表示特征向量,H(X)表示X的熵,H(Y)表示Y的熵,H(X|Y)表示X|Y的熵。具体地,
,
,
其中,与分别为X和Y的可能取值,和分别为和的概率。
具体而言,继续前面的示例,假设fa对应于第一候选特征子集中的显著特征的特征向量,fb对应于第一候选特征子集中除fa之外的其余特征之一的特征向量,则fa与fb之间的特征相关性可以为:
,
其中,, ,
。
如图3中所示,特征提取方法300可以进一步包括步骤308,从所述第一候选特征子集中删除特征相关性大于情感相关性的特征以获得第二候选特征子集。
具体而言,继续前面的示例,由前述内容可知,fb对应的特征与情感类别的情感类别相关性:
,
其中,, ,
。
在步骤308中,对于第一候选特征子集中除fa之外的每个其余特征fb,将该特征的特征相关性与该特征的情感相关性相比较,如果特征相关性大于情感相关性(即,),则从所述第一候选特征子集中删除该特征。
在对于第一候选特征子集中除fa之外的所有其余特征执行完上述操作之后,可以得到第二候选特征子集。
如图3中所示,在此之后,特征提取方法300可以进一步包括步骤309,计算所述第二候选特征子集中的每个特征的方差。
根据本公开,计算特征的方差,也就是对于特征所对应的N维特征向量计算方差。例如,假设第二候选特征子集中的一个特征所对应的特征向量是ft,则计算该特征的方差就是计算ft的方差。
如图3中所示,在此之后,特征提取方法300可以进一步包括310,从所述第二候选特征子集中删除特征的方差小于方差阈值的特征以获得预设的特征集合中的特征。
根据本公开,方差阈值可以根据实际需求或经验进行设置。在该步骤中,对于所述第二候选特征子集中的每个特征而言,将该特征的方差与方差阈值相比较。如果该特征的方差小于方差阈值,则将该特征从所述第二候选特征子集中删除。
在对于所述第二候选特征子集中的每个特征执行完上述删除操作后,所述第二候选特征子集中余下的特征就是最终选择出的特征。这些最终选择出的特征构成了本文的前述部分所述的预设的特征集合中的特征。该预设的特征集合将用于实际的语音信号情感类别识别中以及分类器的语音情感类别识别模型的训练中。
图3中所示的特征提取方法先利用快速过滤的特征选择算法(Fast Correlation-Based Filter Solution)对特征进行过滤,然后再利用方差对特征进行进一步过滤。在快速过滤的特征选择算法中,先剔除与情感类别相关性较小的特征从而保留与情感类别相关性较大的特征,然后再利用与情感类别相关性最大的特征进一步筛选特征,可以极大地减小计算的时间复杂度。此外,图3中的特征提取方法利用特征方差可以进一步去除本身变化不明显的特征。
与图3中所示的方法不同,图4中所示的特征提取方法则是先利用方差对特征进行过滤,然后再利用快速过滤的特征选择算法(Fast Correlation-Based Filter Solution)对特征进行进一步过滤。下面将对图4的特征提取方法进行详细说明。
图4示出了根据本公开实施例的另一种特征提取方法400的示意性流程图。
如图4中所示,特征提取方法400可以包括如下步骤:
401,获取多个语音信号样本;
402,对所述多个语音信号样本进行预处理;
403,提取所述多个语音信号样本中的每个语音信号样本的多个特征;
404,计算所述多个特征中的每个特征的方差;
405,从所述多个特征中删除特征的方差小于方差阈值的特征以获得第三候选特征子集;
406,计算所述第三候选特征子集中的每个特征与多个情感类别的情感相关性;
407,从所述第三候选特征子集中选择情感相关性大于预设的情感相关性阈值的特征以获得第四候选特征子集;
408,将所述第四候选特征子集中具有最大情感相关性的特征作为显著特征;
409,计算所述第四候选特征子集中的其余特征中的每个特征与所述显著特征的特征相关性;以及
410,从所述第四候选特征子集中删除特征相关性大于情感相关性的特征以获得所述预设的特征集合中的特征。
由于图3的特征提取方法300与图4的特征提取方法400的区别仅在于快速过滤的特征选择算法与方差算法的顺序不同,本领域技术人员完全可以基于特征提取方法300实现特征提取方法400,因此在此不再对特征提取方法400的具体实现进行赘述。
图5示出了根据本公开实施例的一种问答系统500的示意性结构图。
如图5中所示,该问答系统500可以包括接收器501,其被配置为接收语音信号。在一个实施例中,接收器501可以被配置为持续地接收多个语音信号。
如图5中所示,该问答系统500还可以包括识别系统502,其被配置为识别语音信号的语义和情感类别。具体而言,识别系统502可以包括语音语义识别设备5021和语音情感识别设备5022。语音语义识别设备5021可以被配置为识别语音信号的语义。语音语义识别设备5021可以以本领域已知的各种方法识别语音信号的语义。语音情感识别设备5022可以被配置为识别语音信号的情感类别。根据本公开,语音情感识别设备5022可以以如前所述的语音情感识别方法来识别语音信号的情感类别。稍后将参照图6对语音情感识别设备的结构进行详细说明。
如图5中所示,该问答系统500还可以包括输出器503,其被配置为基于语音信号的语义和情感类别输出答复。
在一个实施例中,该问答系统500可以包括存储器,其被配置来存储各种信息,比如,语音信号、如前所述的预设的特征集合、语音语义识别设备5021识别出的语义、语音情感识别设备5022识别出的情感类别、各种分类器、包括语义、情感类别和答复的预设的数据库等等。
图6示出了根据本公开实施例的一种语音情感识别设备600的示意性结构图。
如图6中所示,该语音情感识别设备600可以包括:预处理器601,被配置为对语音信号进行预处理;特征提取器602,被配置为基于预设的特征集合从预处理后的语音信号中提取该特征集合中的特征的值;以及识别器603, 被配置为由分类器基于所提取的特征的值识别所述语音信号的情感类别。
根据本公开实施例,所述分类器可以包括多个子分类器。在这种情况下,所述识别器603可以被配置为,由所述多个子分类器基于所述特征的值识别所述语音信号的情感类别。
根据本公开实施例,所述预设的特征集合中的特征是基于快速过滤的特征选择算法和方差从多个特征中选出的。
在一个实施例中,基于快速过滤的特征选择算法和方差从多个特征中选出所述预设的特征集合中的特征的过程可以图3中所示的特征提取方法和图4中所示的特征提取方法。
根据本公开实施例,还提供了一种计算机设备。该计算机设备可以包括:存储器,其存储了计算机程序;以及处理器,其被配置为,在执行所述计算机程序时,执行如图2中所示的语音情感识别方法或如图1中所示的问答方法。
根据本公开实施例,还提供了一种计算机可读存储介质。该计算机可读存储介质存储了计算机程序,所述计算机程序在被处理器执行时使得所述处理器执行如图2中所示的语音情感识别方法或如图1中所示的问答方法。
以上所述的具体实施例,对本公开实施例的目的、技术方案和有益效果进行了进一步详细说明。应理解的是,以上所述仅为本公开实施例的具体实施例而已,并不用于限制本公开。在不背离本公开的精神和原则的情况下,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (12)
1.一种语音情感识别方法,包括:
对语音信号进行预处理;
基于预设的特征集合从预处理后的语音信号中提取该特征集合中的特征的值;以及
由分类器基于所提取的特征的值识别所述语音信号的情感类别,
其中,
所述分类器包括多个子分类器,其中由分类器基于所述特征的值识别所述语音信号的情感类别包括由所述多个子分类器基于所述特征的值识别所述语音信号的情感类别。
2.根据权利要求1所述的方法,其中,所述预设的特征集合中的特征是基于快速过滤的特征选择算法和方差从多个特征中选出的。
3.根据权利要求2所述的方法,其中,基于快速过滤的特征选择算法和方差从多个特征中选出所述预设的特征集合中的特征的过程包括:
获取多个语音信号样本;
对所述多个语音信号样本进行预处理;
提取所述多个语音信号样本中的每个语音信号样本的多个特征;
计算所述多个特征中的每个特征与多个情感类别的情感相关性;
从所述多个特征中选择情感相关性大于预设的情感相关性阈值的特征以获得第一候选特征子集;
将所述第一候选特征子集中具有最大情感相关性的特征作为显著特征;
计算所述第一候选特征子集中的其余特征中的每个特征与所述显著特征的特征相关性;
从所述第一候选特征子集中删除特征相关性大于情感相关性的特征以获得第二候选特征子集;
计算所述第二候选特征子集中的每个特征的方差;以及
从所述第二候选特征子集中删除特征的方差小于方差阈值的特征以获得所述预设的特征集合中的特征。
4.根据权利要求2所述的方法,其中,基于快速过滤的特征选择算法和方差从多个特征中选出所述预设的特征集合中的特征的过程包括:
获取多个语音信号样本;
对所述多个语音信号样本进行预处理;
提取所述多个语音信号样本中的每个语音信号样本的多个特征;
计算所述多个特征中的每个特征的方差;
从所述多个特征中删除特征的方差小于方差阈值的特征以获得第三候选特征子集;
计算所述第三候选特征子集中的每个特征与多个情感类别的情感相关性;
从所述第三候选特征子集中选择情感相关性大于预设的情感相关性阈值的特征以获得第四候选特征子集;
将所述第四候选特征子集中具有最大情感相关性的特征作为显著特征;
计算所述第四候选特征子集中的其余特征中的每个特征与所述显著特征的特征相关性;以及
从所述第四候选特征子集中删除特征相关性大于情感相关性的特征以获得所述预设的特征集合中的特征。
5.根据权利要求3或4所述的方法,其中,情感相关性通过如下公式计算:
,X表示特征向量,Y表示情感类别向量,H(X)表示X的熵,H(Y)表示Y的熵,H(X|Y)表示X|Y的熵;以及
其中,特征相关性通过如下公式计算:
,X表示一个特征向量,Y表示另一个特征向量,H(X)表示X的熵,H(Y)表示Y的熵,H(X|Y)表示X|Y的熵。
6.根据权利要求1所述的方法,其中,由所述多个子分类器基于所述特征的值识别所述语音信号的情感类别包括根据所述多个子分类器的投票和所述多个子分类器的权重来识别所述语音信号的情感类别。
7.根据权利要求6所述的方法,其中,根据所述多个子分类器的投票和所述多个子分类器的权重来识别所述语音信号的情感类别包括:
如果根据所述多个子分类器的投票识别出唯一情感类别,则将该唯一的情感类别作为所述语音信号的情感类别;以及
如果根据所述多个子分类器的投票识别出至少两个情感类别,则进一步根据所述多个子分类器的权重来确定所述语音信号的情感类别。
8.根据权利要求7所述的方法,其中,根据所述多个子分类器的投票识别情感类别包括,
如果所述多个子分类器中的至少两个子分类器识别出的情感类别相同,则将情感类别识别为所述语音信号的情感类别。
9.根据权利要求1所述的方法,其中,子分类器包括支持向量机分类器、决策树分类器或神经网络分类器。
10.一种问答方法,包括:
接收语音信号;
识别语音信号的语义和情感类别;以及
基于语音信号的语义和情感类别输出答复,
其中,识别语音信号的情感类别包括根据权利要求1至9中任一项所述的方法识别语音信号的情感类别。
11.一种计算机设备,包括:
存储器,其存储了计算机程序;以及
处理器,其被配置为,在执行所述计算机程序时,执行根据权利要求1-9中任一项所述的方法或根据权利要求10所述的方法。
12.一种计算机可读存储介质,其存储了计算机程序,所述计算机程序在被处理器执行时使得所述处理器执行根据权利要求1-9中任一项所述的方法或根据权利要求10所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910333653.4A CN110047517A (zh) | 2019-04-24 | 2019-04-24 | 语音情感识别方法、问答方法及计算机设备 |
PCT/CN2020/083751 WO2020216064A1 (zh) | 2019-04-24 | 2020-04-08 | 语音情感识别方法、语义识别方法、问答方法、计算机设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910333653.4A CN110047517A (zh) | 2019-04-24 | 2019-04-24 | 语音情感识别方法、问答方法及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110047517A true CN110047517A (zh) | 2019-07-23 |
Family
ID=67279086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910333653.4A Pending CN110047517A (zh) | 2019-04-24 | 2019-04-24 | 语音情感识别方法、问答方法及计算机设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110047517A (zh) |
WO (1) | WO2020216064A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110619041A (zh) * | 2019-09-16 | 2019-12-27 | 出门问问信息科技有限公司 | 一种智能对话方法、装置以及计算机可读存储介质 |
WO2020216064A1 (zh) * | 2019-04-24 | 2020-10-29 | 京东方科技集团股份有限公司 | 语音情感识别方法、语义识别方法、问答方法、计算机设备及计算机可读存储介质 |
CN113223498A (zh) * | 2021-05-20 | 2021-08-06 | 四川大学华西医院 | 基于喉部语音信息的吞咽障碍识别方法、设备及装置 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112735418B (zh) * | 2021-01-19 | 2023-11-14 | 腾讯科技(深圳)有限公司 | 一种语音交互的处理方法、装置、终端及存储介质 |
CN112784583A (zh) * | 2021-01-26 | 2021-05-11 | 浙江香侬慧语科技有限责任公司 | 一种多角度情感分析方法、系统、存储介质及设备 |
CN113239799A (zh) * | 2021-05-12 | 2021-08-10 | 北京沃东天骏信息技术有限公司 | 训练方法、识别方法、装置、电子设备和可读存储介质 |
CN113674736A (zh) * | 2021-06-30 | 2021-11-19 | 国网江苏省电力有限公司电力科学研究院 | 一种基于分类器集成的教师课堂指令识别方法及系统 |
CN113539243A (zh) * | 2021-07-06 | 2021-10-22 | 上海商汤智能科技有限公司 | 语音分类模型的训练方法、语音分类方法及相关装置 |
CN113689886B (zh) * | 2021-07-13 | 2023-05-30 | 北京工业大学 | 语音数据情感检测方法、装置、电子设备和存储介质 |
CN115083439A (zh) * | 2022-06-10 | 2022-09-20 | 北京中电慧声科技有限公司 | 车辆鸣笛声识别方法、系统、终端及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030110038A1 (en) * | 2001-10-16 | 2003-06-12 | Rajeev Sharma | Multi-modal gender classification using support vector machines (SVMs) |
CN103810994A (zh) * | 2013-09-05 | 2014-05-21 | 江苏大学 | 基于情感上下文的语音情感推理方法及系统 |
CN104008754A (zh) * | 2014-05-21 | 2014-08-27 | 华南理工大学 | 一种基于半监督特征选择的语音情感识别方法 |
CN105869657A (zh) * | 2016-06-03 | 2016-08-17 | 竹间智能科技(上海)有限公司 | 语音情感辨识系统及方法 |
CN106254186A (zh) * | 2016-08-05 | 2016-12-21 | 易晓阳 | 一种语音交互识别控制系统 |
CN106683672A (zh) * | 2016-12-21 | 2017-05-17 | 竹间智能科技(上海)有限公司 | 一种基于情感和语义的智能对话方法及系统 |
CN107609588A (zh) * | 2017-09-12 | 2018-01-19 | 大连大学 | 一种基于语音信号的帕金森患者updrs得分预测方法 |
CN107945790A (zh) * | 2018-01-03 | 2018-04-20 | 京东方科技集团股份有限公司 | 一种情感识别方法和情感识别系统 |
CN108319987A (zh) * | 2018-02-20 | 2018-07-24 | 东北电力大学 | 一种基于支持向量机的过滤-封装式组合流量特征选择方法 |
CN108922512A (zh) * | 2018-07-04 | 2018-11-30 | 广东猪兼强互联网科技有限公司 | 一种个性化机器人电话客服系统 |
CN109274819A (zh) * | 2018-09-13 | 2019-01-25 | 广东小天才科技有限公司 | 通话时用户情绪调整方法、装置、移动终端及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8190436B2 (en) * | 2001-12-07 | 2012-05-29 | At&T Intellectual Property Ii, L.P. | System and method of spoken language understanding in human computer dialogs |
CN105260416A (zh) * | 2015-09-25 | 2016-01-20 | 百度在线网络技术(北京)有限公司 | 一种基于语音识别的搜索方法及装置 |
WO2018060993A1 (en) * | 2016-09-27 | 2018-04-05 | Faception Ltd. | Method and system for personality-weighted emotion analysis |
CN108564942B (zh) * | 2018-04-04 | 2021-01-26 | 南京师范大学 | 一种基于敏感度可调的语音情感识别方法及系统 |
CN109616108B (zh) * | 2018-11-29 | 2022-05-31 | 出门问问创新科技有限公司 | 多轮对话交互处理方法、装置、电子设备及存储介质 |
CN110047517A (zh) * | 2019-04-24 | 2019-07-23 | 京东方科技集团股份有限公司 | 语音情感识别方法、问答方法及计算机设备 |
-
2019
- 2019-04-24 CN CN201910333653.4A patent/CN110047517A/zh active Pending
-
2020
- 2020-04-08 WO PCT/CN2020/083751 patent/WO2020216064A1/zh active Application Filing
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030110038A1 (en) * | 2001-10-16 | 2003-06-12 | Rajeev Sharma | Multi-modal gender classification using support vector machines (SVMs) |
CN103810994A (zh) * | 2013-09-05 | 2014-05-21 | 江苏大学 | 基于情感上下文的语音情感推理方法及系统 |
CN104008754A (zh) * | 2014-05-21 | 2014-08-27 | 华南理工大学 | 一种基于半监督特征选择的语音情感识别方法 |
CN105869657A (zh) * | 2016-06-03 | 2016-08-17 | 竹间智能科技(上海)有限公司 | 语音情感辨识系统及方法 |
CN106254186A (zh) * | 2016-08-05 | 2016-12-21 | 易晓阳 | 一种语音交互识别控制系统 |
CN106683672A (zh) * | 2016-12-21 | 2017-05-17 | 竹间智能科技(上海)有限公司 | 一种基于情感和语义的智能对话方法及系统 |
CN107609588A (zh) * | 2017-09-12 | 2018-01-19 | 大连大学 | 一种基于语音信号的帕金森患者updrs得分预测方法 |
CN107945790A (zh) * | 2018-01-03 | 2018-04-20 | 京东方科技集团股份有限公司 | 一种情感识别方法和情感识别系统 |
CN108319987A (zh) * | 2018-02-20 | 2018-07-24 | 东北电力大学 | 一种基于支持向量机的过滤-封装式组合流量特征选择方法 |
CN108922512A (zh) * | 2018-07-04 | 2018-11-30 | 广东猪兼强互联网科技有限公司 | 一种个性化机器人电话客服系统 |
CN109274819A (zh) * | 2018-09-13 | 2019-01-25 | 广东小天才科技有限公司 | 通话时用户情绪调整方法、装置、移动终端及存储介质 |
Non-Patent Citations (2)
Title |
---|
LEI YU: ""feature selection for high-dimensional data: a fast correlation-based filter solution"", 《MACHINE LEARNING,PROCEEDINGS OF THE TWENTIETH INTERNATIONAL CONFERENCE》 * |
PAVOL PARTILA: ""multi-classifier speech emotion recognition system"", 《26TH TELECOMMUNICATIONS FORUM TELFOR 2018》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020216064A1 (zh) * | 2019-04-24 | 2020-10-29 | 京东方科技集团股份有限公司 | 语音情感识别方法、语义识别方法、问答方法、计算机设备及计算机可读存储介质 |
CN110619041A (zh) * | 2019-09-16 | 2019-12-27 | 出门问问信息科技有限公司 | 一种智能对话方法、装置以及计算机可读存储介质 |
CN113223498A (zh) * | 2021-05-20 | 2021-08-06 | 四川大学华西医院 | 基于喉部语音信息的吞咽障碍识别方法、设备及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2020216064A1 (zh) | 2020-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110047517A (zh) | 语音情感识别方法、问答方法及计算机设备 | |
CN107464568B (zh) | 基于三维卷积神经网络文本无关的说话人识别方法及系统 | |
CN107609572B (zh) | 基于神经网络和迁移学习的多模态情感识别方法、系统 | |
CN106504768B (zh) | 基于人工智能的电话拨测音频分类方法及装置 | |
CN109326299B (zh) | 基于全卷积神经网络的语音增强方法、装置及存储介质 | |
CN102779510B (zh) | 基于特征空间自适应投影的语音情感识别方法 | |
CN111177310B (zh) | 电力服务机器人智能场景会话方法及装置 | |
CN111445898B (zh) | 语种识别方法、装置、电子设备和存储介质 | |
CN107729468A (zh) | 基于深度学习的答案抽取方法及系统 | |
CN108846047A (zh) | 一种基于卷积特征的图片检索方法及系统 | |
CN106250553A (zh) | 一种服务推荐方法及终端 | |
CN111524527A (zh) | 话者分离方法、装置、电子设备和存储介质 | |
CN107038154A (zh) | 一种文本情感识别方法和装置 | |
CN110910283A (zh) | 生成法律文书的方法、装置、设备和存储介质 | |
CN106909573A (zh) | 一种评价问答对质量的方法和装置 | |
CN111488813B (zh) | 视频的情感标注方法、装置、电子设备及存储介质 | |
CN111091809B (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
CN110992988A (zh) | 一种基于领域对抗的语音情感识别方法及装置 | |
CN111128240B (zh) | 一种基于对抗语义擦除的语音情感识别方法 | |
Dang et al. | Acoustic scene classification using convolutional neural networks and multi-scale multi-feature extraction | |
CN110246509B (zh) | 一种用于语音测谎的栈式去噪自编码器及深度神经网络结构 | |
CN109933741B (zh) | 用户网络行为特征提取方法、装置及存储介质 | |
CN106971730A (zh) | 一种基于信道补偿的声纹识别方法 | |
CN106373576A (zh) | 一种基于vq和svm算法的说话人确认方法及其系统 | |
CN111710349B (zh) | 一种语音情感识别方法、系统、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |