CN110896422A - 一种基于语音的智能响应方法及装置 - Google Patents
一种基于语音的智能响应方法及装置 Download PDFInfo
- Publication number
- CN110896422A CN110896422A CN201811043163.2A CN201811043163A CN110896422A CN 110896422 A CN110896422 A CN 110896422A CN 201811043163 A CN201811043163 A CN 201811043163A CN 110896422 A CN110896422 A CN 110896422A
- Authority
- CN
- China
- Prior art keywords
- voice emotion
- voice
- recognition result
- type
- emotion type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004044 response Effects 0.000 title claims abstract description 104
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000008451 emotion Effects 0.000 claims abstract description 261
- 238000012549 training Methods 0.000 claims description 31
- 238000010586 diagram Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000036651 mood Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008909 emotion recognition Effects 0.000 description 2
- 230000035876 healing Effects 0.000 description 2
- 208000020925 Bipolar disease Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72448—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
- H04M1/72454—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Environmental & Geological Engineering (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于语音的智能响应方法及装置,用于提升手机的智能化程度,改善用户情绪,从而极大改善用户对智能手机的体验。该方法包括:采集语音信息,对采集的语音信息进行语音情绪类型识别;根据识别出的语音情绪类型及预先设置的语音情绪类型与指令集响应类型的对应关系,确定与识别出的语音情绪类型对应的指令集响应类型;根据所述预先设置的指令集响应类型与指令类型的对应关系,执行所述确定的指令集响应类型对应的指令。
Description
技术领域
本发明涉及语音识别技术,尤其涉及一种基于语音的智能响应方法及装置。
背景技术
随着人工智能技术的兴起,手机已不再是传统的通信工具,它变得更加智能。智能语音技术得到越发普遍的应用,但是当前行业内还没有通过手机采集语音数据,根据对采集到的语音数据进行分析,识别出用户的情绪状态,进而向用户进行手机端的智能推荐,例如通过推荐与用户情绪相对应的音乐、改变手机屏幕背景图片以及改变手机显示亮度的方式来改善用户情绪,能够提高用户对手机的智能化使用需求。对比行业内的手机产品,都没有此类设计。
发明内容
本发明提供一种基于语音的智能响应方法及装置,用于提升手机的智能化程度,改善用户情绪。
第一方面,本发明实施例提供了一种基于语音的智能响应方法,包括:
采集语音信息,对采集的语音信息进行语音情绪类型识别;
根据识别出的语音情绪类型及预先设置的语音情绪类型与指令集响应类型的对应关系,确定与识别出的语音情绪类型对应的指令集响应类型;
根据所述预先设置的指令集响应类型与指令类型的对应关系,执行所述确定的指令集响应类型对应的指令。
第二方面,本发明实施例提供了一种基于语音的智能响应装置,包括:
采集识别单元,用于采集语音信息,并对采集的语音信息进行语音情绪类型识别;
响应单元,用于根据识别出的语音情绪类型及预先设置的语音情绪类型与指令集响应类型的对应关系,确定与识别出的语音情绪类型对应的指令集响应类型;
指令执行单元,用于根据所述预先设置的指令集响应类型与指令类型的对应关系,执行所述确定的指令集响应类型对应的指令。
利用本发明提供的一种基于语音的智能响应方法及装置,具有以下有益技术效果:
根据采集到的语音信息,对用户进行情绪识别,手机做出对应的反馈,例如,当识别出用户愤怒时,可以推荐一些有趣影片,平和用户情绪;
可以用于视频、音乐、图片、小说等网站内容提供商的推荐系统,定制与用户当下情绪最恰当的推荐,提高用户对手机的使用体验感;
可以改善社交网络的使用体验,如果手机用户可以分享情绪,就能够更好的选择与他人交流的方式和时机。
可以用于改善躁郁症患者的医疗设备中,可以随时识别出患者的情绪,提供恰当的推荐内容,改善患者情绪。
附图说明
图1为一种基于语音的智能响应方法流程图;
图2为指令集响应类型命令的执行图;
图3为一种基于语音的智能响应装置结构图。
具体实施方式
为了提升用户对手机的智能化体验程度,改善用户情绪,本发明公开了一种基于语音的智能响应方法及装置。
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种基于语音的智能响应方法,如图1所示,包括:
步骤101,采集语音信息,对采集的语音信息进行语音情绪类型识别;
步骤102,根据识别出的语音情绪类型及预先设置的语音情绪类型与指令集响应类型的对应关系,确定与识别出的语音情绪类型对应的指令集响应类型;
步骤103,根据预先设置的指令集响应类型与指令类型的对应关系,执行所述确定的指令集响应类型对应的指令。
在实施中,基于现有的语音识别技术,识别出采集的语音信息的特征信息,对所述特征信息进行语音情绪类型识别;
具体的,基于现有的人工智能技术,预先建立与语音情绪类型识别对应的训练模型,将采集到的不同训练数据对训练模型进行训练,确定训练模型能够识别到与不同训练数据对应的情绪类型时,训练完成,利用训练完成的训练模型对语音信息的特征信息进行识别,得到对应的语音情绪类型。上述训练数据可以是包括语音情绪类型及其对应的语音信息的特征信息的样本信息。
实施中,根据不同的语音情绪类型,预先设置对应的指令集响应类型,其中,指令集响应类型包括如下任一或任多个指令响应类型:指令集音乐响应,指令集壁纸响应,指令集亮度响应,一方面,不同的语音情绪类型,可以对应一种或多种指令集响应类型,例如,识别出的语音情绪类型是高兴、害怕,对应的指令集响应类型可以都是指令集音乐类型,也可以分别对应指令集音乐类型和壁纸类型;另一方面,一种语音情绪类型,可以对应不同的指令集响应类型,例如,识别出的语音情绪类型是高兴,则可以对应指令集音乐响应,指令集壁纸响应,指令集亮度响应中的一种或多种。
实施中,每个指令集响应类型对应的指令可以是一个指令,也可以是多个指令,例如,识别出的语音情绪类型是高兴,对应指令集音乐响应中对应的指令,可以是多种指令,如安静指令、唯美指令、感动指令等,执行安静指令则向用户推荐安静的歌曲,执行唯美指令则向用户推荐唯美的歌曲,执行感动指令则向用户推荐感动的歌曲,即上述执行多种指令时,可以同时向用户推荐安静、唯美、感动的歌曲。
上述实施例提供的方法,能够根据用户的不同情绪类型,对应不同的指令集响应类型,根据对应不同的指令集响应类型对应的不同指令,向用户推荐对应当下用户情绪的多种应用,提高用户的使用体验,改善用户的情绪。
作为一种可选的实施方式,对采集的语音信息进行语音情绪类型识别,包括:
对采集的语音信息进行文字识别得到语义识别结果,将上述语义识别结果与文字训练模型进行匹配,得到与上述语义识别结果对应的各个语音情绪类型匹配度值,根据与上述语义识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型;或者
对采集的语音信息进行声纹识别得到声纹识别结果,将上述声纹识别结果与对应的声纹训练模型匹配,得到与上述声纹识别结果对应的各个语音情绪类型匹配度值,根据与上述声纹识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型;或者
对采集的语音信息进行文字识别得到语义识别结果,将上述语义识别结果与文字训练模型进行匹配,得到与上述语义识别结果对应的各个语音情绪类型匹配度值,对采集的语音信息进行声纹识别得到声纹识别结果,将上述声纹识别结果与对应的声纹训练模型匹配,得到与上述声纹识别结果对应的各个语音情绪类型匹配度值,根据与上述语义识别结果对应的各个语音情绪类型匹配度值、及与上述声纹识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型。
上述文字训练模型,基于已有的文本数据库,可以将不同的文本数据通过文字训练模型解码成一个完整的句子,上述语义识别结果与文字训练模型进行匹配,得到一个完整的句子,分析用户所表达的意思,从而得出对应的各个语音情绪类型匹配度值。
上述声纹训练模型,可以将采集到的语音信息的声学特征分类对应到音素或字词这样的单元,根据得到的音素或字词单元,由上述文字训练模型进行解码,得到一个完整的句子,分析用户所表达的意思,从而得出对应的各个语音情绪类型匹配度值。
作为一种优选实施方式,根据与上述语义识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型,包括:
确定与上述语义识别结果对应的各个语音情绪类型匹配度值中,最大的匹配度值对应的语音情绪类型为识别出的语音情绪类型。
作为一种优选实施方式,根据与上述声纹识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型,包括:
确定与上述声纹识别结果对应的各个语音情绪类型匹配度中,最大的匹配度值对应的语音情绪类型为识别出的语音情绪类型。
作为一种优选实施方式,根据与上述语义识别结果对应的各个语音情绪类型匹配度值、及与上述声纹识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型,还包括:
将与上述语义识别结果对应的各个语音情绪类型匹配度值分别乘以第一权重,得到修正后的与上述语义识别结果对应的各个语音情绪类型匹配度值;
将与上述声纹识别结果对应的各个语音情绪类型匹配度值分别乘以第二权重,得到修正后的与上述声纹识别结果对应的各个语音情绪类型匹配度值;
将修正后的与上述语义识别结果对应的各个语音情绪类型匹配度值与修正后的与上述声纹识别结果对应的各个语音情绪类型匹配度值相加求和,得出最大的匹配度值的和对应的语音情绪类型为识别出的语音情绪类型;
其中,上述第一权重大于第二权重,且第一权重和第二权重之和为1。
作为一种优选实施方式,采集语音信息,对采集的语音信息进行语音情绪类型识别,还包括:
采集语音信息,将采集的语音信息发送到服务器,由上述服务器对采集的语音信息进行语音情绪类型识别;
接收上述服务器发送的识别出的语音情绪类别。
实施中,上述指令集响应类型可以是指令集音乐响应,指令集壁纸响应,指令集亮度响应,也可以是其它能在手机上运行的任何指令集响应类型,如视频响应,文字响应、图片响应、网页推送内容响应等。
作为一种优选实施方式,根据不同的语音情绪类型,对音乐数据库对应进行音乐分类,并建立播放每个语音情绪类型对应的分类的音乐的指令,与该语音情绪类型对应的指令集音乐响应的对应关系;
根据不同的语音情绪类型,对壁纸数据库对应进行壁纸分类,并建立显示每个语音情绪类型对应的分类的壁纸的指令,与该语音情绪类型对应的指令集壁纸响应的对应关系;
根据不同的语音情绪类型,对亮度范围进行分类,并建立显示每个语音情绪类型对应的各分类的亮度范围的指令,与该语音情绪类型对应的指令集亮度响应的对应关系。
上述不同的指令集响应类型对应不同的指令,如指令集音乐响应对应不同的音乐指令,能够通过识别用户不同的情绪类型,为用户推荐多种与用户当下情绪相对应的音乐,改善用户的情绪,提高用户对手机的体验感。
下面对上述实施例进行详细说明,如图2所示:
采集语音信息,对采集的语音信息进行语音情绪类型识别。
步骤201:采集语音信息,执行步骤202或者步骤203或者同时执行步骤202和步骤203;。
步骤202:对采集到的语音信息进行文字识别,将识别的结果内容与对应的文字训练模型匹配,得到与语义识别结果对应的各个语音情绪类型匹配度值,执行步骤204;
步骤203:对语音输入内容进行声纹识别,将识别的结果内容与对应的声纹训练模型匹配,得到与声纹识别结果对应的各个语音情绪类型匹配度值,执行步骤205;
步骤204:计算与上述语义识别结果对应的各个语音情绪类型匹配度值;
步骤205:计算与上述声纹识别结果对应的各个语音情绪类型匹配度值;
步骤206:将与上述语义识别结果对应的各个语音情绪类型匹配度值分别乘以第一权重,设第一权重值为90%,得到修正后的与上述语义识别结果对应的各个语音情绪类型匹配度值;
将与上述声纹识别结果对应的各个语音情绪类型匹配度值分别乘以第二权重,设第二权重值为10%,得到修正后的与上述声纹识别结果对应的各个语音情绪类型匹配度值;
将修正后的与上述语义识别结果对应的各个语音情绪类型匹配度值与修正后的与上述声纹识别结果对应的各个语音情绪类型匹配度值相加求和,比较匹配度值的求和值,得出最大的匹配度值的求和值对应的语音情绪类型为识别出的语音情绪类型;
步骤207:根据识别出的语音情绪类型及预先设置的语音情绪类型与指令集响应类型的对应关系,确定与识别出的语音情绪类型对应的指令集响应类型,指令集响应类型包括:指令集音乐响应、指令集壁纸响应和指令集亮度响应,同时执行步骤208、209和210;
步骤208:根据所述预先设置的指令集音乐类型与指令的对应关系,执行确定的指令集音乐响应对应的指令;
基于已建立的音乐类型分类数据库,将语音情绪类型识别结果与数据库中音乐类型匹配,输出匹配的音乐。
具体的,首先将情绪分为高兴、悲伤、害怕、愤怒四类;音乐按照情绪类型分为:抒情、安静、舒缓、清新、治愈、唯美、感动、快乐、温暖、轻快、慵懒、浪漫、寂寞、振奋、思念等类型,我们将情绪识别的结果与音乐类型建立如下对应关系:
高兴(情绪):安静、唯美、感动、慵懒、浪漫、思念(音乐类型);
悲伤(情绪):快乐、温暖、舒缓(音乐类型);
害怕(情绪):振奋、治愈(音乐类型);
愤怒(情绪):抒情、清新、轻快(音乐类型)。
即若识别到用户情绪类型为悲伤时,对应的指令集音乐响应发出指令,音乐应用自动向用户推荐一种指令类型,如快乐的音乐,或推荐几种指令类型,如快乐、温暖和舒缓的音乐;用户也可以通过智能语音应用发出:“播放一首歌”,音乐应用根据用户情绪类型智能选择一首对应的歌曲进行播放。
其中,上述的音乐数据库可根据新增歌曲类型进行增加,且支持在线更新。
步骤209:根据所述预先设置的指令集壁纸类型与指令的对应关系,执行确定的指令集壁纸响应对应的指令;
基于已建立的壁纸类型分类数据库,将语音情绪类型识别结果与数据库中壁纸类型匹配,输出匹配的壁纸。
具体的,可以将壁纸分类成:安静、快乐、振奋、清新等类型,在用户高兴时,向用户展示安静的图片;在用户悲伤时,向用户展示快乐的图片;在用户害怕时,展示振奋、勇敢的图片;在愤怒时,展示轻快的图片等。
高兴(情绪):安静、唯美、感动(壁纸类型);
悲伤(情绪):快乐、温暖、舒缓(壁纸类型);
害怕(情绪):振奋、治愈(壁纸类型);
愤怒(情绪):清新、轻快(壁纸类型)。
即若识别到用户情绪类型为高兴时,对应的指令集壁纸响应发出指令,手机将屏幕背景设置为安静的图片。
步骤210:根据所述预先设置的指令集亮度类型与指令的对应关系,执行确定的指令集亮度响应对应的指令;
基于已建立的亮度分类数据库,将语音情绪类型识别结果与数据库中亮度响应类型匹配,显示对应的亮度。
例如,语音情绪类型识别结果和手机屏幕亮度响应类型的对应关系如下:
高兴:亮度50%;
悲伤:亮度70%;
害怕:亮度100%;
愤怒:亮度30%。
实施例二
基于同一发明构思,本发明实施例中提供了一种基于语音的智能响应装置,该装置的具体实施可参见方法实施例部分的描述,重复之处不再赘述。
如图3所示,该装置主要包括:
采集识别单元301,用于采集语音信息,并对采集的语音信息进行语音情绪类型识别;
响应单元302,用于根据识别出的语音情绪类型及预先设置的语音情绪类型与指令集响应类型的对应关系,确定与识别出的语音情绪类型对应的指令集响应类型;
指令执行单元303,用于根据预先设置的指令集响应类型与指令类型的对应关系,执行所述确定的指令集响应类型对应的指令。
作为一种可选的实施方式,上述采集识别单元还用于:
对采集的语音信息进行文字识别得到语义识别结果,将上述语义识别结果与文字训练模型进行匹配,得到与上述语义识别结果对应的各个语音情绪类型匹配度值,根据与上述语义识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型;或者
对采集的语音信息进行声纹识别得到声纹识别结果,将上述声纹识别结果与对应的声纹训练模型匹配,得到与上述声纹识别结果对应的各个语音情绪类型匹配度值,根据与上述声纹识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型;或者
对采集的语音信息进行文字识别得到语义识别结果,将上述语义识别结果与文字训练模型进行匹配,得到与上述语义识别结果对应的各个语音情绪类型匹配度值,对采集的语音信息进行声纹识别得到声纹识别结果,将上述声纹识别结果与对应的声纹训练模型匹配,得到与上述声纹识别结果对应的各个语音情绪类型匹配度值,根据与上述语义识别结果对应的各个语音情绪类型匹配度值、及与上述声纹识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型。
作为一种优选实施方式,根据与上述语义识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型,包括:
确定与上述语义识别结果对应的各个语音情绪类型匹配度值中,最大的匹配度值对应的语音情绪类型为识别出的语音情绪类型。
作为一种优选实施方式,根据与上述声纹识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型,包括:
确定与上述声纹识别结果对应的各个语音情绪类型匹配度中,最大的匹配度值对应的语音情绪类型为识别出的语音情绪类型。
作为一种优选实施方式,根据与上述语义识别结果对应的各个语音情绪类型匹配度值、及与上述声纹识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型,还包括:
将与上述语义识别结果对应的各个语音情绪类型匹配度值分别乘以第一权重,得到修正后的与上述语义识别结果对应的各个语音情绪类型匹配度值;
将与上述声纹识别结果对应的各个语音情绪类型匹配度值分别乘以第二权重,得到修正后的与上述声纹识别结果对应的各个语音情绪类型匹配度值;
将修正后的与上述语义识别结果对应的各个语音情绪类型匹配度值与修正后的与上述声纹识别结果对应的各个语音情绪类型匹配度值相加求和,得出最大的匹配度值的和对应的语音情绪类型为识别出的语音情绪类型;
其中,上述第一权重大于第二权重,且第一权重和第二权重之和为1。
作为一种优选实施方式,采集识别单元,还用于:
采集语音信息,将采集的语音信息发送到服务器,由所述服务器对采集的语音信息进行语音情绪类型识别;接收所述服务器发送的识别出的语音情绪类别。
作为一种优选实施方式,上述响应单元用于将指令集响应类型分类为如下任一或任多个指令集响应类型:
指令集音乐响应;
指令集壁纸响应;
指令集亮度响应。
上述指令执行单元中,还用于:
根据不同的语音情绪类型,对壁纸数据库对应进行壁纸分类,并建立显示每个语音情绪类型对应的分类的壁纸的指令,与该语音情绪类型对应的指令集壁纸响应的对应关系;
根据不同的语音情绪类型,对亮度范围进行分类,并建立显示每个语音情绪类型对应的各分类的亮度范围的指令,与该语音情绪类型对应的指令集亮度响应的对应关系。
上述不同的指令集响应类型对应不同的指令,如指令集音乐响应对应不同的音乐指令,能够通过识别用户不同的情绪类型,为用户推荐多种与用户当下情绪相对应的音乐,改善用户的情绪,提高用户对手机的体验感。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于语音的智能响应方法,其特征在于,方法包括:
采集语音信息,对采集的语音信息进行语音情绪类型识别;
根据识别出的语音情绪类型及预先设置的语音情绪类型与指令集响应类型的对应关系,确定与识别出的语音情绪类型对应的指令集响应类型;
根据所述预先设置的指令集响应类型与指令的对应关系,执行所述确定的指令集响应类型对应的指令。
2.根据权利要求1所述的方法,其特征在于,对采集的语音信息进行语音情绪类型识别,包括:
对采集的语音信息进行文字识别得到语义识别结果,将所述语义识别结果与文字训练模型进行匹配,得到与所述语义识别结果对应的各个语音情绪类型匹配度值,根据与所述语义识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型;或者
对采集的语音信息进行声纹识别得到声纹识别结果,将所述声纹识别结果与对应的声纹训练模型匹配,得到与所述声纹识别结果对应的各个语音情绪类型匹配度值,根据与所述声纹识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型;或者
对采集的语音信息进行文字识别得到语义识别结果,将所述语义识别结果与文字训练模型进行匹配,得到与所述语义识别结果对应的各个语音情绪类型匹配度值,对采集的语音信息进行声纹识别得到声纹识别结果,将所述声纹识别结果与对应的声纹训练模型匹配,得到与所述声纹识别结果对应的各个语音情绪类型匹配度值,根据与所述语义识别结果对应的各个语音情绪类型匹配度值、及与所述声纹识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型。
3.根据权利要求2所述的方法,其特征在于,
根据与所述语义识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型,包括:
确定与所述语义识别结果对应的各个语音情绪类型匹配度值中,最大的匹配度值对应的语音情绪类型为识别出的语音情绪类型;
根据与所述声纹识别结果对应的各个语音情绪类型匹配度值,确定识别出的语音情绪类型,包括:
确定与所述声纹识别结果对应的各个语音情绪类型匹配度值中,最大的匹配度值对应的语音情绪类型为识别出的语音情绪类型;
根据与所述语义识别结果对应的各个语音情绪类型匹配度值、及与所述声纹识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型,包括:
将与所述语义识别结果对应的各个语音情绪类型匹配度值分别乘以第一权重,得到修正后的与所述语义识别结果对应的各个语音情绪类型匹配度值;
将与所述声纹识别结果对应的各个语音情绪类型匹配度值分别乘以第二权重,得到修正后的与所述声纹识别结果对应的各个语音情绪类型匹配度值;
将修正后的与所述语义识别结果对应的各个语音情绪类型匹配度值与修正后的与所述声纹识别结果对应的各个语音情绪类型匹配度值相加求和,确定最大的匹配度值的和对应的语音情绪类型为识别出的语音情绪类型;
其中,所述第一权重大于第二权重,且第一权重和第二权重之和为1。
4.根据权利要求1~3任一所述的方法,其特征在于,采集语音信息,对采集的语音信息进行语音情绪类型识别,包括:
采集语音信息,将采集的语音信息发送到服务器,由所述服务器对采集的语音信息进行语音情绪类型识别;
接收所述服务器发送的识别出的语音情绪类别。
5.根据权利要求1所述的方法,其特征在于,预先设置的指令集响应类型与指令的对应关系,包括:
根据不同的语音情绪类型,对音乐数据库对应进行音乐分类,并建立播放每个语音情绪类型对应的分类的音乐的指令,与该语音情绪类型对应的指令集音乐响应的对应关系;
根据不同的语音情绪类型,对壁纸数据库对应进行壁纸分类,并建立显示每个语音情绪类型对应的分类的壁纸的指令,与该语音情绪类型对应的指令集壁纸响应的对应关系;
根据不同的语音情绪类型,对亮度范围进行分类,并建立显示每个语音情绪类型对应的各分类的亮度范围的指令,与该语音情绪类型对应的指令集亮度响应的对应关系。
6.一种基于语音的智能响应装置,其特征在于,包括:
采集识别单元,用于采集语音信息,并对采集的语音信息进行语音情绪类型识别;
响应单元,用于根据识别出的语音情绪类型及预先设置的语音情绪类型与指令集响应类型的对应关系,确定与识别出的语音情绪类型对应的指令集响应类型;
指令执行单元,用于根据所述预先设置的指令集响应类型与指令类型的对应关系,执行所述确定的指令集响应类型对应的指令。
7.根据权利要求6所述的装置,其特征在于,所述采集识别单元具体用于:
对采集的语音信息进行文字识别得到语义识别结果,将所述语义识别结果与文字训练模型进行匹配,得到与所述语义识别结果对应的各个语音情绪类型匹配度值,根据与所述语义识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型;或者
对采集的语音信息进行声纹识别得到声纹识别结果,将所述声纹识别结果与对应的声纹训练模型匹配,得到与所述声纹识别结果对应的各个语音情绪类型匹配度值,根据与所述声纹识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型;或者
对采集的语音信息进行文字识别得到语义识别结果,将所述语义识别结果与文字训练模型进行匹配,得到与所述语义识别结果对应的各个语音情绪类型匹配度值,对采集的语音信息进行声纹识别得到声纹识别结果,将所述声纹识别结果与对应的声纹训练模型匹配,得到与所述声纹识别结果对应的各个语音情绪类型匹配度值,根据与所述语义识别结果对应的各个语音情绪类型匹配度值、及与所述声纹识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型。
8.根据权利要求7所述的装置,其特征在于,
所述采集识别单元根据与所述语义识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型,包括:
确定与所述语义识别结果对应的各个语音情绪类型匹配度值中,最大的匹配度值对应的语音情绪类型为识别出的语音情绪类型;
所述采集识别单元根据与所述声纹识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型,包括:
确定与所述声纹识别结果对应的各个语音情绪类型匹配度中,最大的匹配度值对应的语音情绪类型为识别出的语音情绪类型;
所述采集识别单元根据与所述语义识别结果对应的各个语音情绪类型匹配度值、及与所述声纹识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型,包括:
将与所述语义识别结果对应的各个语音情绪类型匹配度值分别乘以第一权重,得到修正后的与所述语义识别结果对应的各个语音情绪类型匹配度值;
将与所述声纹识别结果对应的各个语音情绪类型匹配度值分别乘以第二权重,得到修正后的与所述声纹识别结果对应的各个语音情绪类型匹配度值;
将修正后的与所述语义识别结果对应的各个语音情绪类型匹配度值与修正后的与所述声纹识别结果对应的各个语音情绪类型匹配度值相加求和,确定最大的匹配度值的和对应的语音情绪类型为识别出的语音情绪类型;
其中,所述第一权重大于第二权重,且第一权重和第二权重之和为1。
9.根据权利要求6~8任一所述的装置,其特征在于,所述采集识别单元采集语音信息,对采集的语音信息进行语音情绪类型识别,包括:
采集语音信息,将采集的语音信息发送到服务器,由所述服务器对采集的语音信息进行语音情绪类型识别;
接收所述服务器发送的识别出的语音情绪类别。
10.根据权利要求6所述的装置,其特征在于,还包括:
预先设置单元,用于预先设置的指令集响应类型与指令的对应关系,预先设置的指令集响应类型与指令的对应关系包括:
根据不同的语音情绪类型,对音乐数据库对应进行音乐分类,并建立播放每个语音情绪类型对应的分类的音乐的指令,与该语音情绪类型对应的指令集音乐响应的对应关系;
根据不同的语音情绪类型,对壁纸数据库对应进行壁纸分类,并建立显示每个语音情绪类型对应的分类的壁纸的指令,与该语音情绪类型对应的指令集壁纸响应的对应关系;
根据不同的语音情绪类型,对亮度范围进行分类,并建立显示每个语音情绪类型对应的各分类的亮度范围的指令,与该语音情绪类型对应的指令集亮度响应的对应关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811043163.2A CN110896422A (zh) | 2018-09-07 | 2018-09-07 | 一种基于语音的智能响应方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811043163.2A CN110896422A (zh) | 2018-09-07 | 2018-09-07 | 一种基于语音的智能响应方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110896422A true CN110896422A (zh) | 2020-03-20 |
Family
ID=69784936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811043163.2A Pending CN110896422A (zh) | 2018-09-07 | 2018-09-07 | 一种基于语音的智能响应方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110896422A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112863511A (zh) * | 2021-01-15 | 2021-05-28 | 北京小米松果电子有限公司 | 信号处理方法、装置以及存储介质 |
CN114566189A (zh) * | 2022-04-28 | 2022-05-31 | 之江实验室 | 基于三维深度特征融合的语音情感识别方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100096580A (ko) * | 2009-02-24 | 2010-09-02 | 한국과학기술연구원 | 최소 분류 오차 기법을 이용한 감정 인식 방법 |
CN105334743A (zh) * | 2015-11-18 | 2016-02-17 | 深圳创维-Rgb电子有限公司 | 一种基于情感识别的智能家居控制方法及其系统 |
CN105389309A (zh) * | 2014-09-03 | 2016-03-09 | 曲阜师范大学 | 情绪语义识别驱动的云融合音乐调控系统 |
CN105930035A (zh) * | 2016-05-05 | 2016-09-07 | 北京小米移动软件有限公司 | 显示界面背景的方法及装置 |
CN107562850A (zh) * | 2017-08-28 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 音乐推荐方法、装置、设备及存储介质 |
CN107979687A (zh) * | 2017-10-31 | 2018-05-01 | 维沃移动通信有限公司 | 一种壁纸切换方法、移动终端 |
CN108171171A (zh) * | 2017-12-29 | 2018-06-15 | 宁波大学 | 一种移动终端屏幕的自适应调节方法 |
CN108334202A (zh) * | 2018-02-27 | 2018-07-27 | 广东欧珀移动通信有限公司 | 壁纸更新方法及相关产品 |
CN108416002A (zh) * | 2018-02-27 | 2018-08-17 | 维沃移动通信有限公司 | 一种人机交互方法及移动终端 |
-
2018
- 2018-09-07 CN CN201811043163.2A patent/CN110896422A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100096580A (ko) * | 2009-02-24 | 2010-09-02 | 한국과학기술연구원 | 최소 분류 오차 기법을 이용한 감정 인식 방법 |
CN105389309A (zh) * | 2014-09-03 | 2016-03-09 | 曲阜师范大学 | 情绪语义识别驱动的云融合音乐调控系统 |
CN105334743A (zh) * | 2015-11-18 | 2016-02-17 | 深圳创维-Rgb电子有限公司 | 一种基于情感识别的智能家居控制方法及其系统 |
CN105930035A (zh) * | 2016-05-05 | 2016-09-07 | 北京小米移动软件有限公司 | 显示界面背景的方法及装置 |
CN107562850A (zh) * | 2017-08-28 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 音乐推荐方法、装置、设备及存储介质 |
CN107979687A (zh) * | 2017-10-31 | 2018-05-01 | 维沃移动通信有限公司 | 一种壁纸切换方法、移动终端 |
CN108171171A (zh) * | 2017-12-29 | 2018-06-15 | 宁波大学 | 一种移动终端屏幕的自适应调节方法 |
CN108334202A (zh) * | 2018-02-27 | 2018-07-27 | 广东欧珀移动通信有限公司 | 壁纸更新方法及相关产品 |
CN108416002A (zh) * | 2018-02-27 | 2018-08-17 | 维沃移动通信有限公司 | 一种人机交互方法及移动终端 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112863511A (zh) * | 2021-01-15 | 2021-05-28 | 北京小米松果电子有限公司 | 信号处理方法、装置以及存储介质 |
CN112863511B (zh) * | 2021-01-15 | 2024-06-04 | 北京小米松果电子有限公司 | 信号处理方法、装置以及存储介质 |
CN114566189A (zh) * | 2022-04-28 | 2022-05-31 | 之江实验室 | 基于三维深度特征融合的语音情感识别方法及系统 |
CN114566189B (zh) * | 2022-04-28 | 2022-10-04 | 之江实验室 | 基于三维深度特征融合的语音情感识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11475897B2 (en) | Method and apparatus for response using voice matching user category | |
US11417343B2 (en) | Automatic speaker identification in calls using multiple speaker-identification parameters | |
CN107818798B (zh) | 客服服务质量评价方法、装置、设备及存储介质 | |
US10637898B2 (en) | Automatic speaker identification in calls | |
CN111415677B (zh) | 用于生成视频的方法、装置、设备和介质 | |
US10013977B2 (en) | Smart home control method based on emotion recognition and the system thereof | |
US20200126566A1 (en) | Method and apparatus for voice interaction | |
Aloufi et al. | Emotionless: Privacy-preserving speech analysis for voice assistants | |
CN106055662A (zh) | 基于情感的智能对话方法及系统 | |
CN110019286B (zh) | 一种基于用户社交关系的表情推荐方法及装置 | |
CN113314119B (zh) | 语音识别智能家居控制方法及装置 | |
Ringeval et al. | Emotion recognition in the wild: Incorporating voice and lip activity in multimodal decision-level fusion | |
CN110505504B (zh) | 视频节目处理方法、装置、计算机设备及存储介质 | |
CN115225829A (zh) | 一种视频生成方法及装置、计算机可读存储介质 | |
CN112967725A (zh) | 语音对话数据处理方法、装置、计算机设备及存储介质 | |
CN110148393B (zh) | 音乐生成方法、装置和系统以及数据处理方法 | |
CN110896422A (zh) | 一种基于语音的智能响应方法及装置 | |
CN109829033A (zh) | 数据展示方法和终端设备 | |
CN108777804B (zh) | 媒体播放方法及装置 | |
Sabic et al. | Threshold of spearcon recognition for auditory menus | |
CN115512698B (zh) | 一种语音语义分析方法 | |
CN115242927A (zh) | 客服对象分配方法、装置、计算机设备及存储介质 | |
CN115063606A (zh) | 基于多模态数据的交互训练方法及装置 | |
Jothimani et al. | A new spatio-temporal neural architecture with Bi-LSTM for multimodal emotion recognition | |
Spyrou et al. | A non-linguistic approach for human emotion recognition from speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200320 |