CN112927681B - 因人而异地识别语音的人工智能心理机器人和方法 - Google Patents
因人而异地识别语音的人工智能心理机器人和方法 Download PDFInfo
- Publication number
- CN112927681B CN112927681B CN202110182899.3A CN202110182899A CN112927681B CN 112927681 B CN112927681 B CN 112927681B CN 202110182899 A CN202110182899 A CN 202110182899A CN 112927681 B CN112927681 B CN 112927681B
- Authority
- CN
- China
- Prior art keywords
- emotion
- person
- voice
- recognized
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 21
- 230000008451 emotion Effects 0.000 claims abstract description 187
- 230000008909 emotion recognition Effects 0.000 claims abstract description 88
- 238000012549 training Methods 0.000 claims description 25
- 238000012360 testing method Methods 0.000 claims description 22
- 230000008859 change Effects 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000013136 deep learning model Methods 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 description 27
- 230000002159 abnormal effect Effects 0.000 description 24
- 230000000694 effects Effects 0.000 description 13
- 230000035945 sensitivity Effects 0.000 description 12
- 230000000994 depressogenic effect Effects 0.000 description 7
- 238000003745 diagnosis Methods 0.000 description 7
- 102100025477 GTP-binding protein Rit1 Human genes 0.000 description 6
- 102100027778 GTP-binding protein Rit2 Human genes 0.000 description 6
- 101001111722 Homo sapiens E3 ubiquitin-protein ligase RBX1 Proteins 0.000 description 6
- 101000574654 Homo sapiens GTP-binding protein Rit1 Proteins 0.000 description 6
- 101001111714 Homo sapiens RING-box protein 2 Proteins 0.000 description 6
- 238000012937 correction Methods 0.000 description 6
- 238000006467 substitution reaction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000009223 counseling Methods 0.000 description 2
- 230000006996 mental state Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
因人而异地识别语音的人工智能心理机器人和方法,包括:平时时间范围获取步骤;平时语音获取步骤;平时情绪识别步骤;待识别语音获取步骤;待识别情绪识别步骤;待识别情绪矫正步骤。上述方法、系统和机器人,充分利用不同人的平时语音与正常情绪之间的关系,来得到不同人正常情绪所对应的平时语音,从而可以得知不同人的语音所代表的真实的情绪。
Description
技术领域
本发明涉及人工智能技术领域,特别是涉及一种因人而异地识别语音的人工智能心理机器人和方法。
背景技术
现有技术下,“语音识别不仅可以识别说话的内容,还能通过语气、语速等等判断出说话人的情绪”。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:现有技术下,机器人没有区分不同的人的特点,都千偏一律地根据语音进行情绪判断,也就是把所有的人都当成同样的人了,这样必然忽视了不同人之间的差异性,从而导致对情绪判断的结果不准确、偏离实际。
因此,现有技术还有待于改进和发展。
发明内容
基于此,有必要针对现有技术的缺陷或不足,提供因人而异地识别语音的人工智能心理机器人和方法,在不同人的不同语音常态的基础上通过语音识别情绪,以解决现有技术中在通过语音识别情绪时没有考虑到语音常态的问题。例如,有的运动员天生语音都是很抑郁的样子,也就是说他平时在没有比赛、不是赛前的时候语音一直都是这个样子,在赛前他的语音也是这个样子。在赛前对这个运动员进行语音识别情绪的测试,如果用现有技术,就会误判他赛前心理状态为抑郁,而如果采用本申请的技术,则会正确地判断他赛前心理状态为正常。又例如,有的运动员天生语音都是很快乐的样子,也就是说他平时在没有比赛、不是赛前的时候语音一直都是这个样子,在赛前他的语音变成了不快乐也不抑郁。在赛前对这个运动员进行语音识别情绪的测试,如果用现有技术,就会误判他赛前心理状态为正常,而如果采用本申请的技术,则会正确地判断他赛前心理状态为抑郁。再例如一个非常内向的人,平时的语音看起来都是抑郁,其实他平时并不压抑,如果用现有技术会就识别出他平时也抑郁,而通过本申请的技术会就识别出他的心理状态是正常的。又例如一个非常外向的人,平时的语音看起来非常开心,那他抑郁的时候虽然没有那么开心但看起来和正常人一样,其实他此时已经有抑郁状况了,但通过现有技术会识别出他心理状态正常,而通过本申请的技术会就识别出他的抑郁。也就是说,我们采用被测试者的平时的语音作为参照,就能更准确地判断他的语音的变化,进而通过他语音的变化来识别其情绪的变化,而且假设被测试者平时的情绪为正常情绪,那么就可以推理得出被测试者在被测试时的情绪。
第一方面,本发明实施例提供一种人工智能方法,所述方法包括:
平时时间范围获取步骤:获取平时所对应的时间范围;
平时语音获取步骤:在所述时间范围内获取被识别人的平时语音;
平时情绪识别步骤:通过被识别人的平时语音识别得到被识别人的平时情绪;
待识别语音获取步骤:获取被识别人的待识别语音;
待识别情绪识别步骤:通过被识别人的待识别语音识别得到被识别人的待识别情绪;
待识别情绪矫正步骤:被识别人的待识别情绪与被识别人的平时情绪进行比较,计算被识别人的待识别情绪相对于平时情绪的变化,将平时情绪设置为正常情绪,从而得到矫正后的待识别情绪。
优选地,
所述平时情绪识别步骤具体包括:将被识别人的平时语音的每一个音频输入预设音频情绪识别模型,得到所述每一个音频对应的情绪,将每一个音频对应的情绪进行加权平均,得到被识别人的平时语音对应的情绪;
所述待识别情绪识别步骤具体包括:将被识别人的待识别语音的每一个音频输入预设音频情绪识别模型,得到所述每一个音频对应的情绪,将每一个音频对应的情绪进行加权平均,得到被识别人的待识别语音对应的情绪。
优选地,所述待识别情绪矫正步骤具体包括:被识别人的待识别情绪记为Y,被识别人的平时情绪记为X,正常情绪记为P,被识别人的矫正后的待识别情绪记为Q,f为情绪变化计算函数,输入2个情绪到f中,f输出2个情绪之间的变化度,则f(X,Y)=f(P,Q),因为X,Y,P均已知,所以可以求解出Q。
优选地,所述预设音频情绪识别模型的构建步骤包括:
数据采集步骤,采集多个人的多个语音,将全部或部分语音通过人工打上情绪的标签;
模型初始化步骤:初始化音频情绪识别模型为深度学习模型或卷积神经网络模型或其它机器学习模型;
无监督训练步骤:如果所述音频情绪识别模型支持无监督学习,则将每一语音作为输入,对所述音频情绪识别模型进行无监督训练;
有监督训练步骤:将每一已经打了情绪标签的语音作为输入数据,将所述语音的情绪标签作为预期输出数据,对音频情绪识别模型进行有监督训练;
测试步骤:对训练后的所述音频情绪识别模型进行测试,如果测试通过,则将所述音频情绪识别模型作为所述预设的音频情绪识别模型,如果测试没有通过,则采集更多的语音并打标签后对所述音频情绪识别模型重新进行训练。
优选地,所述平时语音获取步骤还包括:
同类语音代替步骤:若在所述时间范围内被识别人的平时语音获取失败,则获取与被识别人属于同一小类的人的平时语音作为被识别人的平时语音,若与被识别人属于同一小类的人的平时语音获取失败,则获取与被识别人属于同一大类的人的平时语音作为被识别人的平时语音,若与被识别人属于同一大类的人的平时语音获取失败,则获取与被识别人属于同一更大类的人的平时语音作为被识别人的平时语音,如此类推进行预设次尝试或一直尝试直至获取成功;
亲属语音代替步骤:若在所述时间范围内被识别人的平时语音获取失败,且与被识别人属于同一类的人的平时语音也获取失败,则获取与被识别人有亲缘关系的人的平时语音作为被识别人的平时语音。
优选地,所述方法还包括:
语音内容限定步骤:所述获取的被识别人的待识别语音和所述获取的被识别人的平时语音和音频情绪识别模型训练时所输入的语音对应的文本内容相同或相近。
优选地,所述方法还包括:
表情语音综合识别步骤:在所述时间范围内获取被识别人的平时语音;获取被识别人的待识别语音;通过被识别人的平时表情基于表情情绪识别模型识别得到被识别人的平时情绪;通过被识别人的待识别表情基于表情情绪识别模型识别得到被识别人的待识别情绪;将通过被识别人的平时表情识别得到的被识别人的平时情绪与通过被识别人的平时语音识别得到的被识别人的平时情绪根据第一预设权重、第二预设权重进行加权平均得到被识别人的平时综合情绪;将通过被识别人的待识别表情识别得到的被识别人的待识别情绪与通过被识别人的待识别语音识别得到的被识别人的待识别情绪根据第一预设权重、第二预设权重进行加权平均得到被识别人的待识别综合情绪;
测试数据获取步骤:获取测试过程中表情情绪识别模型识别出心理状态不正常且实际上也不正常的人数TP1,识别出心理状态正常但实际上不正常的人数FN1,获取测试过程中表情情绪识别模型识别出心理状态正常且实际上也正常的人数TN1,识别出心理状态不正常但实际上正常的人数FP1;
ROC_AUC计算步骤:计算得到灵敏度TPR11=TP1/(TP1+FN1),计算得到漏诊率FNR12=1-P11;计算得到特异度TNR11=TN1/(TN1+FP1),计算得到误诊率FPR12=1-Q11;获取测试过程中音频情绪识别模型识别出心理状态不正常且实际上也不正常的人数TP2,识别出心理状态正常但实际上不正常的人数FN2,计算得到灵敏度TPR21=TP2/(TP2+FN2),计算得到漏诊率FNR22=1-P21;获取测试过程中表情情绪识别模型识别出心理状态正常且实际上也正常的人数TN2,识别出心理状态不正常但实际上正常的人数FP2,计算得到特异度TNR21=TN2/(TN2+FP2),计算得到误诊率FPR22=1-Q21;根据灵敏度TPR11、特异度TNR11计算得到接收者操作特征曲线ROC1,根据接收者操作特征曲线ROC1计算得到ROC1曲线下与坐标轴围成的面积ROC_AUC1;根据灵敏度TPR21、特异度TNR21计算得到接收者操作特征曲线ROC2,根据接收者操作特征曲线ROC2计算得到ROC2曲线下与坐标轴围成的面积ROC_AUC2;
分类准确率计算步骤:计算得到分类准确率Accuracy1=(TP1+TN1)/(TP1+FP1+FN1+TN1) ,Accuracy2=(TP2+TN2)/(TP2+FP2+FN2+TN2);
F1-score计算步骤:计算得到分类精确率Precision1=(TP1)/(TP1+FP1) ,Precision2=(TP2)/(TP2+FP2) ;计算得到分类召回率Recall1=(TP1)/(TP1+FN1) ,Recall2=(TP2)/(TP2+FN2) ;F1-score1=2/(1/ Precision1+1/ Recall1), F1-score2=2/(1/ Precision2+1/ Recall2) ;
PR_AUC计算步骤:根据分类精确率Precision1、分类召回率Recall1计算得到PR曲线,根据PR曲线计算得到PR曲线下与坐标轴围成的面积PR_AUC1;根据分类精确率Precision2、分类召回率Recall2计算得到PR曲线,根据PR曲线计算得到PR曲线下与坐标轴围成的面积PR_AUC2;
预设权重设置步骤:根据ROC_AUC1、Accuracy1、F1-score1、PR_AUC1加权平均得到权重1,根据ROC_AUC2、Accuracy2、F1-score2、PR_AUC2加权平均得到权重2,将权重1/(权重1+权重2)作为所述第一预设权重,将权重2/(权重1+权重2)作为所述第二预设权重;
待识别情绪综合矫正步骤:被识别人的待识别综合情绪与被识别人的平时综合情绪进行比较,计算被识别人的待识别综合情绪相对于平时综合情绪的变化,将平时综合情绪设置为正常情绪,从而得到矫正后的待识别综合情绪。
优选地,所述方法还包括:
语音内容双重用途步骤:所述文本内容为能够进行心理辅导的文本。
第二方面,本发明实施例提供一种人工智能系统,所述系统包括:
平时时间范围获取模块:获取平时所对应的时间范围;
平时语音获取模块:在所述时间范围内获取被识别人的平时语音;
平时情绪识别模块:通过被识别人的平时语音识别得到被识别人的平时情绪;
待识别语音获取模块:获取被识别人的待识别语音;
待识别情绪识别模块:通过被识别人的待识别语音识别得到被识别人的待识别情绪;
待识别情绪矫正模块:被识别人的待识别情绪与被识别人的平时情绪进行比较,计算被识别人的待识别情绪相对于平时情绪的变化,将平时情绪设置为正常情绪,从而得到矫正后的待识别情绪。
优选地,
所述平时情绪识别模块具体包括:将被识别人的平时语音的每一个音频输入预设音频情绪识别模型,得到所述每一个音频对应的情绪,将每一个音频对应的情绪进行加权平均,得到被识别人的平时语音对应的情绪;
所述待识别情绪识别模块具体包括:将被识别人的待识别语音的每一个音频输入预设音频情绪识别模型,得到所述每一个音频对应的情绪,将每一个音频对应的情绪进行加权平均,得到被识别人的待识别语音对应的情绪。
优选地,所述待识别情绪矫正模块具体包括:被识别人的待识别情绪记为Y,被识别人的平时情绪记为X,正常情绪记为P,被识别人的矫正后的待识别情绪记为Q,f为情绪变化计算函数,输入2个情绪到f中,f输出2个情绪之间的变化度,则f(X,Y)=f(P,Q),因为X,Y,P均已知,所以可以求解出Q。
优选地,所述预设音频情绪识别模型的构建模块包括:
数据采集模块,采集多个人的多个语音,将全部或部分语音通过人工打上情绪的标签;
模型初始化模块:初始化音频情绪识别模型为深度学习模型或卷积神经网络模型或其它机器学习模型;
无监督训练模块:如果所述音频情绪识别模型支持无监督学习,则将每一语音作为输入,对所述音频情绪识别模型进行无监督训练;
有监督训练模块:将每一已经打了情绪标签的语音作为输入数据,将所述语音的情绪标签作为预期输出数据,对音频情绪识别模型进行有监督训练;
测试模块:对训练后的所述音频情绪识别模型进行测试,如果测试通过,则将所述音频情绪识别模型作为所述预设的音频情绪识别模型,如果测试没有通过,则采集更多的语音并打标签后对所述音频情绪识别模型重新进行训练。
优选地,所述平时语音获取模块还包括:
同类语音代替模块:若在所述时间范围内被识别人的平时语音获取失败,则获取与被识别人属于同一小类的人的平时语音作为被识别人的平时语音,若与被识别人属于同一小类的人的平时语音获取失败,则获取与被识别人属于同一大类的人的平时语音作为被识别人的平时语音,若与被识别人属于同一大类的人的平时语音获取失败,则获取与被识别人属于同一更大类的人的平时语音作为被识别人的平时语音,如此类推进行预设次尝试或一直尝试直至获取成功;
亲属语音代替模块:若在所述时间范围内被识别人的平时语音获取失败,且与被识别人属于同一类的人的平时语音也获取失败,则获取与被识别人有亲缘关系的人的平时语音作为被识别人的平时语音。
优选地,所述系统还包括:
语音内容限定模块:所述获取的被识别人的待识别语音和所述获取的被识别人的平时语音和音频情绪识别模型训练时所输入的语音对应的文本内容相同或相近。
优选地,所述系统还包括:
表情语音综合识别模块:在所述时间范围内获取被识别人的平时语音;获取被识别人的待识别语音;通过被识别人的平时表情基于表情情绪识别模型识别得到被识别人的平时情绪;通过被识别人的待识别表情基于表情情绪识别模型识别得到被识别人的待识别情绪;将通过被识别人的平时表情识别得到的被识别人的平时情绪与通过被识别人的平时语音识别得到的被识别人的平时情绪根据第一预设权重、第二预设权重进行加权平均得到被识别人的平时综合情绪;将通过被识别人的待识别表情识别得到的被识别人的待识别情绪与通过被识别人的待识别语音识别得到的被识别人的待识别情绪根据第一预设权重、第二预设权重进行加权平均得到被识别人的待识别综合情绪;
测试数据获取模块:获取测试过程中表情情绪识别模型识别出心理状态不正常且实际上也不正常的人数TP1,识别出心理状态正常但实际上不正常的人数FN1,获取测试过程中表情情绪识别模型识别出心理状态正常且实际上也正常的人数TN1,识别出心理状态不正常但实际上正常的人数FP1;
ROC_AUC计算模块:计算得到灵敏度TPR11=TP1/(TP1+FN1),计算得到漏诊率FNR12=1-P11;计算得到特异度TNR11=TN1/(TN1+FP1),计算得到误诊率FPR12=1-Q11;获取测试过程中音频情绪识别模型识别出心理状态不正常且实际上也不正常的人数TP2,识别出心理状态正常但实际上不正常的人数FN2,计算得到灵敏度TPR21=TP2/(TP2+FN2),计算得到漏诊率FNR22=1-P21;获取测试过程中表情情绪识别模型识别出心理状态正常且实际上也正常的人数TN2,识别出心理状态不正常但实际上正常的人数FP2,计算得到特异度TNR21=TN2/(TN2+FP2),计算得到误诊率FPR22=1-Q21;根据灵敏度TPR11、特异度TNR11计算得到接收者操作特征曲线ROC1,根据接收者操作特征曲线ROC1计算得到ROC1曲线下与坐标轴围成的面积ROC_AUC1;根据灵敏度TPR21、特异度TNR21计算得到接收者操作特征曲线ROC2,根据接收者操作特征曲线ROC2计算得到ROC2曲线下与坐标轴围成的面积ROC_AUC2;
分类准确率计算模块:计算得到分类准确率Accuracy1=(TP1+TN1)/(TP1+FP1+FN1+TN1) ,Accuracy2=(TP2+TN2)/(TP2+FP2+FN2+TN2);
F1-score计算模块:计算得到分类精确率Precision1=(TP1)/(TP1+FP1) ,Precision2=(TP2)/(TP2+FP2) ;计算得到分类召回率Recall1=(TP1)/(TP1+FN1) ,Recall2=(TP2)/(TP2+FN2) ;F1-score1=2/(1/ Precision1+1/ Recall1), F1-score2=2/(1/ Precision2+1/ Recall2) ;
PR_AUC计算模块:根据分类精确率Precision1、分类召回率Recall1计算得到PR曲线,根据PR曲线计算得到PR曲线下与坐标轴围成的面积PR_AUC1;根据分类精确率Precision2、分类召回率Recall2计算得到PR曲线,根据PR曲线计算得到PR曲线下与坐标轴围成的面积PR_AUC2;
预设权重设置模块:根据ROC_AUC1、Accuracy1、F1-score1、PR_AUC1加权平均得到权重1,根据ROC_AUC2、Accuracy2、F1-score2、PR_AUC2加权平均得到权重2,将权重1/(权重1+权重2)作为所述第一预设权重,将权重2/(权重1+权重2)作为所述第二预设权重;
待识别情绪综合矫正模块:被识别人的待识别综合情绪与被识别人的平时综合情绪进行比较,计算被识别人的待识别综合情绪相对于平时综合情绪的变化,将平时综合情绪设置为正常情绪,从而得到矫正后的待识别综合情绪。
优选地,所述系统还包括:
语音内容双重用途模块:所述文本内容为能够进行心理辅导的文本。
第三方面,本发明实施例提供一种人工智能装置,所述装置包括第二方面实施例任意一项所述系统的模块。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现第一方面实施例任意一项所述方法的步骤。
第五方面,本发明实施例提供一种机器人,包括存储器、处理器及存储在存储器上并可在处理器上运行的人工智能机器人程序,所述处理器执行所述程序时实现第一方面实施例任意一项所述方法的步骤。
本实施例提供的因人而异地识别语音的人工智能心理机器人和方法,包括:平时时间范围获取步骤;平时语音获取步骤;平时情绪识别步骤;待识别语音获取步骤;待识别情绪识别步骤;待识别情绪矫正步骤。上述方法、系统和机器人,充分利用不同人的平时语音与正常情绪之间的关系,来得到不同人正常情绪所对应的平时语音,从而可以得知不同人的语音所代表的真实的情绪。现有技术无法考虑到不同人在正常情绪下的平时语音的不同,如果通过现有技术进行改进,也只能对每一个人分别训练一个音频情绪识别模型,那么千人千面就要训练一千个音频情绪识别模型,这样对每个人需要采集的数据量太大,每个人不可能有那么多的数据供训练,所以根本无法得到每一个人的音频情绪识别模型,而且即使能训练成功,也由于模型太多,导致工作量和计算量都太大而无法实施。本申请则和现有技术一样,只需要训练一个音频情绪识别模型,但能够根据平时语音的情绪状态来修正待识别的语音的情绪状态,从而使得语音的情绪状态的识别更为准确。
附图说明
图1为本发明的一个实施例提供的人工智能方法的流程图;
图2为本发明的一个实施例提供的人工智能方法包括的流程图;
图3为本发明的一个实施例提供的人工智能方法包括的流程图;
图4为本发明的一个实施例提供的人工智能方法包括的流程图。
实施方式
下面结合本发明实施方式,对本发明实施例中的技术方案进行详细地描述。
本发明的基本实施例
本发明的一个实施例提供一种人工智能方法,如图1所示,所述方法包括:平时时间范围获取步骤;平时语音获取步骤;平时情绪识别步骤;待识别语音获取步骤;待识别情绪识别步骤;待识别情绪矫正步骤。技术效果:所述方法通过以平时语音的情绪为基线和参照来识别待识别的语音,这样就可以使得不同人的同一种语音不会被千遍一律地识别成同一种情绪,而是根据各人的特质进行针对性的识别,这样可以提高情绪识别的准确率,减少误判,从而及早地发现心理问题,既避免了把没有心理问题的人误判有心理问题,也避免了把有心理问题的人误判为没有心理问题,对于心理诊断有着极其重要的作用和意义。
在一个优选的实施例中,如图2所示,所述预设音频情绪识别模型的构建步骤包括:数据采集步骤;模型初始化步骤;无监督训练步骤;有监督训练步骤;测试步骤。技术效果:所述方法无需为每个人都建立一个音频情绪识别模型,为每个人都建立一个音频情绪识别模型的成本太高,而且需要为每个人的模型采集大量的这个人的数据,而这往往是不可能的,因为单个人很难采集到那么多的数据,特别对于运动员这种特殊人群而言采集数据需要经过审批就更为困难,而本申请只需要建立一个通用的音频情绪识别模型,通过情绪的矫正却能够对每个人进行特定的情绪识别和矫正,从而得到更精准的情绪识别效果。
在一个优选的实施例中,如图3所示,所述平时语音获取步骤还包括:同类语音代替步骤;亲属语音代替步骤。技术效果:所述方法通过同类语音代替和亲属语音代替来避免了平时语音采集不到的情况,从而使得本申请的适用范围更广,而且因为同类语音和亲属语音与被识别人的语音之间存在着相似性,所以本申请的技术方案具有很好的效果。
在一个优选的实施例中,所述方法还包括:语音内容限定步骤。技术效果:所述方法通过限定语音的内容,可以排除语音内容不同导致的情感的误判,因为人们在说不同内容话语的时候语气显然不同,所以如果不限定语音的内容,那么必然是在不同的内容上进行情感判断,显然会造成条件的不同,得到的结果显然是不公正和不准确的,本申请通过限定语音的内容来解决了这个技术问题,克服了现有技术的技术缺陷,具有重要意义。
在一个优选的实施例中,如图4所示所述方法还包括:表情语音综合识别步骤;测试数据获取步骤;ROC_AUC计算步骤;分类准确率计算步骤;F1-score计算步骤;PR_AUC计算步骤;预设权重设置步骤;待识别情绪综合矫正步骤。技术效果:所述方法通过综合表情和语音来综合地进行情感识别,可以进一步提高情感识别的效果,而且根据表情情感识别模型和语音情感识别模型的不同效果来考虑其在综合情感识别中所占的权重,这样就能更进一步地提高情感识别的效果。
在一个优选的实施例中,所述方法还包括:语音内容双重用途步骤。技术效果:所述方法通过将限定的内容作为心理辅导的语聊,这样可以一举两得,既提高了语音识别情感的效果,又能在识别的同时对用户进行心理辅导,其设计是非常巧妙的。
本发明的优选实施例
平时时间范围获取步骤:获取平时所对应的时间范围。例如,如果被识别人是运动员,则平时的时间范围为不是赛前、赛中、赛后的期间。如果被识别人是学生,则平时的时间范围为不是考前、考中、考后的期间。如果被识别人是病人,则平时的时间范围为不是手术前、手术中、手术后的期间。如果被识别人是孕妇,则平时的时间范围为不是产前、产中、产后的期间。如果被识别人是战士,则平时的时间范围为不是战前、战中、战后的期间。
平时语音获取步骤:在所述时间范围内获取被识别人的平时语音。具体地,获取被识别人的平时语音的一个或多个音频。平时语音获取步骤还包括:同类语音代替步骤,如果在所述时间范围内被识别人的平时语音获取失败,则获取与被识别人属于同一小类的人的平时语音作为被识别人的平时语音,若与被识别人属于同一小类的人的平时语音获取失败,则获取与被识别人属于同一大类的人的平时语音作为被识别人的平时语音,若与被识别人属于同一大类的人的平时语音获取失败,则获取与被识别人属于同一更大类的人的平时语音作为被识别人的平时语音,如此类推进行预设次尝试或一直尝试直至获取成功。例如,如果被识别人是滑雪运动员,则与被识别人属于同一小类的人为其他滑雪运动员,与被识别人属于同一大类的人为其他运动员,与被识别人属于同一更大类的人为其他体育爱好者,与被识别人属于同一更更大类的人为其他人;亲属语音代替步骤:如果在所述时间范围内被识别人的平时语音获取失败,且与被识别人属于同一类的人的平时语音也获取失败,则获取与被识别人有亲缘关系的人的平时语音作为被识别人的平时语音,所述有亲缘关系的人优先选取兄弟姐妹,其次选取父母,再其次选取子女,再其次选取血缘关系从近到远的亲戚。
平时情绪识别步骤:通过被识别人的平时语音识别得到被识别人的平时情绪。具体地,将被识别人的平时语音的每一个音频输入音频情绪识别模型,得到所述每一个音频对应的情绪,将每一个音频对应的情绪进行加权平均,得到被识别人的平时语音对应的情绪。该步骤还包括:1)音频情绪识别模型训练步骤:数据采集步骤,采集多个人的多个语音(采集量越大越好),将全部或部分语音通过人工打上情绪的标签;模型初始化步骤:初始化音频情绪识别模型为深度学习模型或卷积神经网络模型或其它机器学习模型;无监督训练步骤:如果所述音频情绪识别模型支持无监督学习,则将每一语音作为输入,对所述音频情绪识别模型进行无监督训练;有监督训练步骤:将每一已经打了情绪标签的语音作为输入数据,将所述语音的情绪标签作为预期输出数据,对音频情绪识别模型进行有监督训练;测试步骤:对训练后的所述音频情绪识别模型进行测试,如果测试通过,则将所述音频情绪识别模型作为所述预设的音频情绪识别模型,如果测试没有通过,则采集更多的语音并打标签后对所述音频情绪识别模型重新进行训练。所述采集的多个人的多个语音是任意人的语音,不是针对特定人群做出的语音采集,所述通过人工打上情绪的标签对人工对普通人群通过通常的判断得到情绪状态,不是针对特定人群做出的情绪判断得到情绪状态。
待识别语音获取步骤:获取被识别人的待识别语音。具体地,获取被识别人的待识别语音的一个或多个音频。
待识别情绪识别步骤:通过被识别人的待识别语音识别得到被识别人的待识别情绪。具体地,将被识别人的待识别语音的每一个音频输入音频情绪识别模型,得到所述每一个音频对应的情绪,将每一个音频对应的情绪进行加权平均,得到被识别人的待识别语音对应的情绪。
待识别情绪矫正步骤:被识别人的待识别情绪与被识别人的平时情绪进行比较,计算被识别人的待识别情绪相对于平时情绪的变化,将平时情绪设置为正常情绪,从而得到矫正后的待识别情绪。具体地,被识别人的待识别情绪记为Y,被识别人的平时情绪记为X,正常情绪记为P,被识别人的矫正后的待识别情绪记为Q,f为情绪变化计算函数,输入2个情绪到f中,f输出2个情绪之间的变化度,则f(X,Y)=f(P,Q),因为X,Y,P均已知,所以可以求解出Q。
语音内容限定步骤:所述获取的被识别人的待识别语音和所述获取的被识别人的平时语音和音频情绪识别模型训练时所输入的语音对应的文本内容相同。例如,对应的文本内容为“今天的天气挺好”。
语音内容双重用途步骤:所述文本内容为能够进行心理辅导的文本。例如,“失败乃成功之母,重在参与,胜败乃兵家常事”。
表情语音综合识别步骤:在所述时间范围内获取被识别人的平时语音;获取被识别人的待识别语音;通过被识别人的平时表情基于表情情绪识别模型识别得到被识别人的平时情绪(具体过程与平时音频的平时情绪识别同理,不再赘述);通过被识别人的待识别表情基于表情情绪识别模型识别得到被识别人的待识别情绪(具体过程与待识别音频的待识别情绪识别同理,不再赘述);将通过被识别人的平时表情识别得到的被识别人的平时情绪(对应第一预设权重)与通过被识别人的平时语音识别得到的被识别人的平时情绪(对应第二预设权重)根据第一预设权重、第二预设权重进行加权平均得到被识别人的平时综合情绪;将通过被识别人的待识别表情识别得到的被识别人的待识别情绪(对应第一预设权重)与通过被识别人的待识别语音识别得到的被识别人的待识别情绪(对应第二预设权重)根据第一预设权重、第二预设权重进行加权平均得到被识别人的待识别综合情绪;
测试数据获取步骤:获取测试过程中表情情绪识别模型识别出心理状态不正常且实际上也不正常的人数TP1,识别出心理状态正常但实际上不正常的人数FN1,获取测试过程中表情情绪识别模型识别出心理状态正常且实际上也正常的人数TN1,识别出心理状态不正常但实际上正常的人数FP1。
ROC_AUC计算步骤:计算得到灵敏度(正例查全率)TPR11=TP1/(TP1+FN1),计算得到漏诊率(假阴性率)FNR12=1-P11;计算得到特异度(反例的查全率)TNR11=TN1/(TN1+FP1),计算得到误诊率(假阳性率)FPR12=1-Q11;获取测试过程中音频情绪识别模型识别出心理状态不正常且实际上也不正常的人数TP2,识别出心理状态正常但实际上不正常的人数FN2,计算得到灵敏度TPR21=TP2/(TP2+FN2),计算得到漏诊率FNR22=1-P21;获取测试过程中表情情绪识别模型识别出心理状态正常且实际上也正常的人数TN2,识别出心理状态不正常但实际上正常的人数FP2,计算得到特异度TNR21=TN2/(TN2+FP2),计算得到误诊率FPR22=1-Q21;根据灵敏度TPR11、特异度TNR11计算得到接收者操作特征曲线ROC1,根据接收者操作特征曲线ROC1计算得到ROC1曲线下与坐标轴围成的面积ROC_AUC1;根据灵敏度TPR21、特异度TNR21计算得到接收者操作特征曲线ROC2,根据接收者操作特征曲线ROC2计算得到ROC2曲线下与坐标轴围成的面积ROC_AUC2。
分类准确率计算步骤:计算得到分类准确率Accuracy1=(TP1+TN1)/(TP1+FP1+FN1+TN1) ,Accuracy2=(TP2+TN2)/(TP2+FP2+FN2+TN2)。
F1-score计算步骤:计算得到分类精确率(正例在预测中的精度)Precision1=(TP1)/(TP1+FP1) ,Precision2=(TP2)/(TP2+FP2) ;计算得到分类召回率(正例的查全率)Recall1=(TP1)/(TP1+FN1) ,Recall2=(TP2)/(TP2+FN2) ;F1-score1=2/(1/ Precision1+1/ Recall1), F1-score2=2/(1/ Precision2+1/ Recall2) 。
PR_AUC计算步骤:根据分类精确率Precision1、分类召回率Recall1计算得到PR曲线,根据PR曲线计算得到PR曲线下与坐标轴围成的面积PR_AUC1;根据分类精确率Precision2、分类召回率Recall2计算得到PR曲线,根据PR曲线计算得到PR曲线下与坐标轴围成的面积PR_AUC2。
预设权重设置步骤:根据ROC_AUC1、Accuracy1、F1-score1、PR_AUC1加权平均得到权重1(具体地,可以选取ROC_AUC1、Accuracy1、F1-score1、PR_AUC1中的一个或几个进行加权平均,例如当反例数量远大于正例数量时则PR_AUC1需要比ROC_AUC1更优先地考虑),根据ROC_AUC2、Accuracy2、F1-score2、PR_AUC2加权平均得到权重2,将权重1/(权重1+权重2)作为所述第一预设权重,将权重2/(权重1+权重2)作为所述第二预设权重。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,则对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (5)
1.一种人工智能方法,其特征在于,所述方法包括:
平时时间范围获取步骤:获取平时所对应的时间范围;
平时语音获取步骤:在所述时间范围内获取被识别人的平时语音;
平时情绪识别步骤:通过被识别人的平时语音识别得到被识别人的平时情绪;
待识别语音获取步骤:获取被识别人的待识别语音;
待识别情绪识别步骤:通过被识别人的待识别语音识别得到被识别人的待识别情绪;
待识别情绪矫正步骤:被识别人的待识别情绪与被识别人的平时情绪进行比较,计算被识别人的待识别情绪相对于平时情绪的变化,将平时情绪设置为正常情绪,从而得到矫正后的待识别情绪;
语音内容限定步骤:所述获取的被识别人的待识别语音和所述获取的被识别人的平时语音和音频情绪识别模型训练时所输入的语音对应的文本内容相同或相近;
语音内容双重用途步骤:所述文本内容为能够进行心理辅导的文本。
2.根据权利要求1所述的人工智能方法,其特征在于,
所述平时情绪识别步骤具体包括:将被识别人的平时语音的每一个音频输入预设音频情绪识别模型,得到所述每一个音频对应的情绪,将每一个音频对应的情绪进行加权平均,得到被识别人的平时语音对应的情绪;
所述待识别情绪识别步骤具体包括:将被识别人的待识别语音的每一个音频输入预设音频情绪识别模型,得到所述每一个音频对应的情绪,将每一个音频对应的情绪进行加权平均,得到被识别人的待识别语音对应的情绪。
3.根据权利要求2所述的人工智能方法,其特征在于,所述预设音频情绪识别模型的构建步骤包括:
数据采集步骤:采集多个人的多个语音,将全部或部分语音通过人工打上情绪的标签;
模型初始化步骤:初始化音频情绪识别模型为深度学习模型或卷积神经网络模型或其它机器学习模型;
无监督训练步骤:如果所述音频情绪识别模型支持无监督学习,则将每一语音作为输入,对所述音频情绪识别模型进行无监督训练;
有监督训练步骤:将每一已经打了情绪标签的语音作为输入数据,将所述语音的情绪标签作为预期输出数据,对音频情绪识别模型进行有监督训练;
测试步骤:对训练后的所述音频情绪识别模型进行测试,如果测试通过,则将所述音频情绪识别模型作为所述预设的音频情绪识别模型,如果测试没有通过,则采集更多的语音并打标签后对所述音频情绪识别模型重新进行训练。
4.一种人工智能装置,其特征在于,所述装置用于实现权利要求1-3任意一项所述方法的步骤。
5.一种机器人,包括存储器、处理器及存储在存储器上并可在处理器上运行的人工智能机器人程序,其特征在于,所述处理器执行所述程序时实现权利要求1-3任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110182899.3A CN112927681B (zh) | 2021-02-10 | 2021-02-10 | 因人而异地识别语音的人工智能心理机器人和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110182899.3A CN112927681B (zh) | 2021-02-10 | 2021-02-10 | 因人而异地识别语音的人工智能心理机器人和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112927681A CN112927681A (zh) | 2021-06-08 |
CN112927681B true CN112927681B (zh) | 2023-07-21 |
Family
ID=76171436
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110182899.3A Active CN112927681B (zh) | 2021-02-10 | 2021-02-10 | 因人而异地识别语音的人工智能心理机器人和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112927681B (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9093081B2 (en) * | 2013-03-10 | 2015-07-28 | Nice-Systems Ltd | Method and apparatus for real time emotion detection in audio interactions |
KR101531664B1 (ko) * | 2013-09-27 | 2015-06-25 | 고려대학교 산학협력단 | 다감각정보를 이용한 정서 인지능력 검사 시스템 및 방법, 다감각정보를 이용한 정서 인지 훈련 시스템 및 방법 |
CN111976732A (zh) * | 2019-05-23 | 2020-11-24 | 上海博泰悦臻网络技术服务有限公司 | 基于车主情绪的车辆控制方法、系统及车载终端 |
CN112016367A (zh) * | 2019-05-31 | 2020-12-01 | 沈阳新松机器人自动化股份有限公司 | 一种情绪识别系统、方法及电子设备 |
CN111523389A (zh) * | 2020-03-25 | 2020-08-11 | 中国平安人寿保险股份有限公司 | 情绪智能识别方法、装置、电子设备及存储介质 |
CN112053205A (zh) * | 2020-08-21 | 2020-12-08 | 北京云迹科技有限公司 | 通过机器人情绪识别的产品推荐方法及装置 |
CN112083806B (zh) * | 2020-09-16 | 2021-10-26 | 华南理工大学 | 一种基于多模态识别的自学习情感交互方法 |
-
2021
- 2021-02-10 CN CN202110182899.3A patent/CN112927681B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112927681A (zh) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563487B (zh) | 基于姿态识别模型的舞蹈评分方法及相关设备 | |
CN110556129B (zh) | 双模态情感识别模型训练方法及双模态情感识别方法 | |
Li et al. | Recognition system for home-service-related sign language using entropy-based $ K $-means algorithm and ABC-based HMM | |
CN110782921B (zh) | 语音测评方法和装置、存储介质及电子装置 | |
Minnen et al. | Discovering characteristic actions from on-body sensor data | |
Kumar et al. | Sign language recognition | |
US7174205B2 (en) | Cardiac diagnostic system and method | |
JP4546767B2 (ja) | 感情推定装置及び感情推定プログラム | |
US20110202487A1 (en) | Statistical model learning device, statistical model learning method, and program | |
CN109461441B (zh) | 一种自适应、无监督式的课堂教学活动智能感知方法 | |
CN109448851A (zh) | 一种认知评估方法及装置 | |
JP6866715B2 (ja) | 情報処理装置、感情認識方法、及び、プログラム | |
CN111554276B (zh) | 语音识别方法、装置、设备及计算机可读存储介质 | |
CN112232276B (zh) | 一种基于语音识别和图像识别的情绪检测方法和装置 | |
CN101292281A (zh) | 发音诊断装置、发音诊断方法、存储媒介、以及发音诊断程序 | |
CN103578480B (zh) | 负面情绪检测中的基于上下文修正的语音情感识别方法 | |
JP2004094257A (ja) | 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置 | |
Orozco et al. | Haptic-based biometrics: a feasibility study | |
CN112927681B (zh) | 因人而异地识别语音的人工智能心理机器人和方法 | |
US10008206B2 (en) | Verifying a user | |
CN107871113B (zh) | 一种情感混合识别检测的方法和装置 | |
CN114819598A (zh) | 腰椎穿刺术考核评估方法、装置及存储介质 | |
CN112906555B (zh) | 因人而异地识别表情的人工智能心理机器人和方法 | |
Richter et al. | Motion evaluation by means of joint filtering for assisted physical therapy | |
El Hajji et al. | Transfer Learning based Audio Classification for a noisy and speechless recordings detection task, in a classroom context. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |