CN109240488A - 一种ai场景定位引擎的实现方法 - Google Patents
一种ai场景定位引擎的实现方法 Download PDFInfo
- Publication number
- CN109240488A CN109240488A CN201810847818.5A CN201810847818A CN109240488A CN 109240488 A CN109240488 A CN 109240488A CN 201810847818 A CN201810847818 A CN 201810847818A CN 109240488 A CN109240488 A CN 109240488A
- Authority
- CN
- China
- Prior art keywords
- information
- user
- mood
- voice
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
- B25J11/0005—Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Abstract
本发明涉及服务领域,具体涉及一种AI场景定位引擎的实现方法,包括如下步骤:S1、基础信息存储:对表达不同情感的情绪化词汇进行分类存储,并将用户处于不同情绪下的语速、分贝、常用情绪词汇进行条件限定,然后将用户在不同状态下的动作信息进行分别存储,再存储用户处于不同情况和状态下的场景对话模型;S2、用户信息和位置信息获取:对用户的语音信息、面部表情信息和动作信息分别进行采集;S3、用户信息和位置信息处理分析:根据存储的基础信息和语音信息分析该语音信息所含情绪生成语音情绪信息。本方案对用户的情绪进行了判断分析,便于输入语音信息的解析准确性。
Description
技术领域
本发明涉及服务领域,具体涉及一种AI场景定位引擎的实现方法。
背景技术
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
对于人工智能的运用,公开号为CN107154261A的中国专利文件便公开了一种基于BP神经网络的人工智能优化方法,用户针对人工智能系统中的各操作,分别在人工智能系统中输入相应的命令,通过人工智能系统建立操作和命令集映射对,作为BP神经网络的原始训练集,对BP神经网络进行训练,所述命令为用户输入的原始命令信息,人工智能系统对其进行预处理及特征参数提取,将提取的特征参数值输入到BP神经网络的输入端;在操作和命令集映射对创建的过程中,将用户输入的命令作为原始训练集,人工智能在执行命令的过程中出错误的概率变小,执行速度快、准确度高,多种命令可以控制同一个操作,使人工智能的使用更加方便,提高了人工智能的效率值。
上述方法是通过用户在人工智能系统中输入的命令建议相应的命令集映射对作为BP神经网络的原始训练集,以此来实现人工智能,但是上述方法中没有针对用户的情绪和表情进行分析,也没有对输入命令中所含情感进行分析,而中国的语音同一个词或同一句话用不同的语气、语速、断句方式说出,表达的意思可能完全的不同,若没有对输入的命令进行情感分析,容易导致分析结果错误。
发明内容
本发明的解决的技术问题在于提供一种AI场景定位引擎的实现方法,以解决现有人工智能系统没有对用户输入信息所含情感进行分析导致分析结果容易出错的问题。
本发明提供的基础方案为:一种AI场景定位引擎的实现方法,包括如下步骤:
S1、基础信息存储:对表达不同情感的情绪化词汇进行分类存储,并将用户处于不同情绪下的语速、分贝、常用情绪词汇进行条件限定,然后将用户在不同状态下的动作信息进行分别存储,再存储用户处于不同情况和状态下的场景对话模型;
S2、用户信息和位置信息获取:对用户的语音信息、面部表情信息和动作信息分别进行采集;
S3、用户信息和位置信息处理分析:根据存储的基础信息和语音信息分析该语音信息所含情绪生成语音情绪信息;然后根据存储的基础信息判断用户的面部表情信息所代表的情绪生成面部表情情绪判断信息,再判断用户的动作信息所代表的状态信息;
S4、场景对话输出:根据语音情绪信息、面部表情情绪判断信息和状态信息判断属于用户的情绪,然后根据判断结果寻找对应的场景对话模型,并将场景对话模型中的对话信息进行语音输出。
本发明的优点在于:本方案通过对用户的语音信息、面部表情信息和动作信息判断用户的情绪,与现有只根据输入的命令内容为判断基准相比,能增加判断的准确性;对语音信息进行情绪判断时,不限制于只针对语音信息内容进行分析,还对用户的语速和分贝进行分析,进一步增加了判断的准确性;在对话信息输出时将对话信息进行语音输出,可以和用户实现聊天功能,增加用户的体验感。
进一步,在步骤S3中,生成语音情绪信息和面部表情情绪判断信息后,将语音情绪信息中所含情绪和面部表情情绪信息中所含情绪进行了比较判断,当两者所含情绪相同时,才进入步骤S4,当两者所含情绪不相同时,生成输出情绪信息进行语音输出给用户进行判断用户想表达的正确情绪。
通过对语音情绪信息和面部表情情绪信息中所含情绪进行分析比较,能够初步判断是否将用户的情绪判断错误,增加最终情绪判断结果的准确性。
进一步,在步骤S4后,当用户需要进行连续对话时,用户输入触发连续对话的关键词语音,然后进行对话内容相关的语音信息输入,之后进入步骤S2。
通过关键词语音的输入触发连续对话,便于用户在孤单或想聊天时进行连续对话。
进一步,在步骤S4中,对对话信息进行语音输出后,用户判断输出的对话信息是否合适,然后将判断结果进行输入,当判断结果为正确时,判断结果为肯定回答,判断结果为错误时,则判断结果为用户认为正确的解答信息,并根据解答信息将该对话信息对应的场景对话模型进行调整。
通过用户对输出的对话信息进行判断,使得存储的场景对话模型适合用户的习惯,便于分析用户输入语音信息中所含情绪,即便于对输入的语音信息进行正确解析。
进一步,在步骤S2中,在对动作信息进行采集后,对用户的定位信息进行获取,然后根据定位信息获取天气预报信息进行语音输出。
对天气预报信息进行获取,便于提起用户注意天气情况。
进一步,在步骤S1中,在场景对话模型构建时,是根据用户的情绪、状态信息、天气预报信息、季节和输入语音信息内容进行分类构建的。
根据用户的情绪、状态信息、天气预报信息、季节和输入语音信息内容对场景对话模型进行构建,便于增加输出对话信息的准确性。
附图说明
图1为本发明实施例一中一种AI场景定位引擎的实现方法的具体实施流程图;
图2为本发明实施例一中一种AI场景定位机器人的逻辑框图。
具体实施方式
下面通过具体实施方式进一步详细的说明:
实施例一
如图2所示,本实施例提供了一种AI场景定位机器人,包括用户终端和服务器。服务器和用户终端通过无线通信模块进行通信,无线通信模块可以选用现有USR-C322型号的WIFI通信模块或现有DX-BT18型号的蓝牙通信模块。
用户终端包括:
用户动作表情采集模块,用于对用户的面部表情信息和动作信息进行采集,然后将采集到的面部表情信息发送给用户表情判断模块,将用户的动作信息发送给状态分析模块。对面部表情信息和动作信息进行采集时可以选用现有Riwyth品牌的摄像头。
定位模块,用于对用户终端进行实时定位,并将定位信息发送给天气信息获取模块。
语音采集模块,用于对用户的语音信息进行采集,并将采集到语音信息发送给服务器。
语音输出模块,用于对服务器发送的对话信息和语音信息进行语音输出。
咨询模块,用于用户对机器人询问问题时从语音采集模块输入触发咨询模块工作的关键词语音后将进行输入的语音信息进行采集,然后将采集的语音信息发送给服务器。比如,触发咨询模块工作的关键词为机器人的名字,在用户叫到机器人名字时,咨询模块便会开始工作。
信息正误判断模块,用于用户对语音输出模块输出的对话信息或语音信息是否合适,然后将判断结果发送给数据更新模块。用户判断时主要判断机器人对自己输入的语音信息、动作信息、面部表情信息所代表的情绪和需要表达的意思是否解析正确,若用户判断为正确,则判断结果为合适,若用户判断为错误,则判断结果为用户认为正确的解答信息。判断结果输入时,也可以通过关键词语音的方式触发信息正误判断模块开始工作。
服务器包括:
数据库,数据库用于存储服务器中所有的数据信息,数据库包括地域名称存储模块、词汇分类存储模块、表情数据存储模块、情绪识别模型存储模块、表情所属情绪存储模块、用户状态存储模块和场景对话存储模块,地域名称存储模块内存储有中国所有省市内不同区域的地域名称,地域名称包括城市名称、区域划分名称和知名景点名称等。
词汇分类存储模块内对情绪化词语进行了分别存储,每一种情绪化词汇存储在不同的存储单元内,比如,将高兴、愤怒、委屈、吃惊、好奇、平静等不同情绪的词汇进行分类存储到不同的存储单元内,常用的表示高兴的词汇包括舒服、开心、愉悦、满足、快活、自在以及等词汇,且存储关于高兴词汇的存储单元内还存储有用户发出的笑声语音;常用的表示委屈的词汇包括冤枉、有苦难言、委曲求全、屈打成招、六月飞雪、苦不堪言等词汇;常用的表示愤怒的词汇包括讨厌、厌恶、憎恶、愤恨、气愤等词汇;常用的表示吃惊的词汇包括呀、啊等语气词,还包括:还可以这样、这样真的可以等短句;常用的表示好奇的词汇包括什么、不知道、想知道、告诉我等常用词汇。
情绪识别模型存储模块内存储有用户在处于不同情绪下语速、分贝、常用情绪词汇(常用情绪词汇存储在存储单元内)的限定条件,比如,将用户语速高于平时的说话语速的30%,说话分贝高于平时说话分贝的20%时判断为可能处于气愤情绪,若其中还含有关于气愤的常用词汇,则判定为用户属于气愤情绪中;再比如,用户没有说话,便表示用户情绪可能处于平稳状态,若用户说话语速、分贝都正常,且没有情绪词汇,也表示用户可能处于平稳状态。
用户状态存储模块内存储有用户在不同状态下的动作信息,并将用户在不同状态下的动作信息分别存储在不同的存储子模块内,比如,将用户的动作状态分为工作、吃饭、睡觉、娱乐、通话等不同的状态,然后将判定为用户正在吃饭的动作信息、工作的动作信息、睡觉的动作信息、娱乐的动作信息等分别存储到对应的存储子模块内。每个存储子模块内还存储有筛选动作信息的参考模型,比如睡觉的动作信息参考模型是用户持续10分钟动,眼睛闭着、在床上、沙发上或趴在桌上。
表情所属情绪存储模块内存储有用户的情绪和表情的对应信息,便于分析用户表情所代表的情绪。
场景对话存储模块内存储有用户处于不同情绪和状态下的场景对话模型,场景对话模型是通过用户的情绪、状态、天气、季节和咨询模块发送的语音信息等进行分类的,比如:
场景一:场景判断条件为:伤心+看电视,输出对话为:你为什么感到伤心,电视节目很感人吗?
场景二:场景判断条件为:稳定+睡觉,不输出对话。
场景三:场景判断条件为:稳定+出门+晴天+温度28℃以上,输出对话为:今天天气为晴天,温度为29℃-35℃,记得防晒。
场景四:场景判断条件为:稳定+出门+雨天+温度20℃以下,输出对话为:今天会下雨,温度在13-20℃,记得带雨伞和添加衣服。
场景五:场景判断条件为:愤怒+争吵+晴天+春天,输出对话为:别生气,外出看风景是转换心情的绝佳方法。
天气信息获取模块,用于从气象局官网上获取天气预报信息,天气预报信息获取时,可以是根据定位模块发送的定位信息在气象局官网上获取定位位置所处区域的天气预报信息,也可以在用户提出的地域名称和地域名称存储模块内存储地域名称相符时获取该地域名称对应区域的天气预报信息,即天气信息获取模块接收到语音采集模块发送的语音信息中含有地域名称时,天气信息获取模块根据语音信息中的地域名称在地域名称存储模块内寻找是否有相应的地域名称,若有相应的地域名称,则根据该地域名称在气象局官网上寻找对应的天气预报信息。比如,用户终端位于四川省成都市锦江区内,那么定位模块定位位置便是属于四川省成都市锦江区内,定位模块将定位信息发送给天气信息获取模块时,天气信息获取模块便会根据定位模块发送的定位信息在气象局官网上寻找四川省成都市锦江区的天气预报信息。当语音采集模块采集到居住在四川省成都市锦江区内的用户的语音信息为“我们今天去云南玩”,那么天气信息获取模块便可以根据语音信息中“云南”这个地域名称在气象局官网上寻找云南的天气预报信息。
用户语音情绪判断模块,用于接收语音采集模块和咨询模块发送的语音信息,然后根据语音信息中声音分贝大小、语速的快慢和说话内容判断用户语音中带有哪种情绪,然后将判断结果生成语音情绪信息发送给用情绪分析模块。在对语音信息中的声音分贝大小进行检测和判断原理类似于现有WS700A型号的声音分贝检测仪。对于音速快慢判断是通过识别语音信息中总字数和该语音信息持续时长进行判断的。在判断情绪信息时,根据检测语音信息中声音分贝大小、说话语速的快慢、说话内容进行综合判断,由于人在说话时常愤怒、高兴、委屈等不同情况下说话的语速、所选用的词汇、分贝大小等都有所区别,而有些词汇本身并不直接代表某种情绪,只是在被组成句子时由于语气词和说话声音快慢而给这个词汇附上了情绪,所以在对用户说话时的情绪进行判断时,通过语音信息中声音分贝大小、说话语速的快慢、说话内容进行综合判断能有效提高判断成功率。
用户表情判断模块,用于接收用户动作表情采集模块发送的关于用户的面部表情信息,然后根据用户的面部表情信息判断其代表着用户属于哪种情绪,然后根据判断结果生成面部表情情绪判断信息发送给情绪分析模块。通常,嘴角向上、眼睛眯着像月牙时表示在笑,即表示高兴,眉头皱在一起表示忧愁,眼睛瞪大表示愤怒或吃惊,眼睛瞪大且瞳孔缩小表示吃惊和恐惧。在根据用户的面部表情信息判断用户情绪和状态时,便可根据通常情况下不同情绪导致的面部特征变化来判断。
情绪分析模块,用于接收用户语音情绪判断模块发送的语音情绪信息和用户表情判断模块发送的面部表情情绪判断信息,然后将语音情绪信息和面部表情情绪信息中所代表的情绪类型进行对比判断两者所代表的情绪类型是否一致,若两者所代表的情绪类型一致,则将判断结果生成输出情绪信息发送给场景分配模块。若两者所代表的情绪类型不一致,则发出验证信息给语音输出模块。验证信息包括语音情绪信息和面部表情情绪信息中所代表的情绪类型进行对比判断两者所代表的情绪类型,比如,语音情绪信息代表的是伤心,面部表情情绪信息代表的是高兴,验证信息便是:您现在是高兴还是伤心呢?若语音信息代表的是愤怒,面部表情代表的是忧伤,验证信息便是:您现在是愤怒还是忧伤呢?当语音输出模块将这句验证信息进行语音输出后,用户通过咨询模块进行触发咨询模块工作的关键词和回答语音信息,咨询模块将用户回答的语音信息发送给用户语音情绪判断模块,同时,用户动作表情采集模块对用户回答语音信息输入时对用户的面部表情信息和动作信息进行采集,然后将采集到的面部表情信息发送给表情分析模块,将用户的动作信息发送给状态分析模块。
状态分析模块,用于接收用户表情动作采集模块发送的动作信息,然后根据用户的动作信息判断用户当前所属状态信息,用户所属状态表示对用户当前正在做的事情进行判断,然后将判断信息发送给场景分配模块。比如,用户正在工作、吃饭、睡觉、出门或看电视。
场景分配模块,用于接收状态分析模块发送的用户状态信息、情绪分析模块发送的输出情绪信息和天气信息获取模块发送的天气预报信息,然后根据用户状态信息、天气预报信息和输出情绪信息在场景对话存储模块内寻找对应的场景对话模型,并根据场景对话模型和用户展开对话,之后将对话信息发送给语音输出模块进行语音输出。若用户语音情绪判断模块发送给情绪分析模块的语音情绪信息是根据咨询模块发送的语音信息判断而得,那么场景分配模块在根据情绪分析模块发送的输出情绪信息进行场景对话模型选择时不仅要根据用户状态信息和输出情绪信息选择场景对话模型,还要根据咨询模块发送的语音信息内容(采用现有的语义网对语音信息进行解析生成语音信息内容)选择场景对话模型。
数据更新模块,用于对咨询模块发送的判断结果,若判断结果信息为语音输出模块输出的对话信息或语音信息错误,则将该判断结果对应的场景对话模型进行调整(一个场景对话模型对应一个对话信息或语音信息,一个对话信息或语音信息对应一个判断结果),对场景对话模型进行调整时,保存场景对话模型中的场景判断条件,将输出对话修改为判断结果中的解答信息,并将调整后的场景对话模型存储到场景对话存储模块内覆盖原有的场景对话模型。
如图1所示,针对AI场景定位机器人,本实施例还提供了一种AI场景定位引擎的实现方法,包括如下步骤:
S1、基础信息存储
S1-1、在服务器的词汇分类存储模块内对情绪化词语进行了分别存储,每一种情绪化词汇存储在不同的存储单元内,进入流程S1-2。
S1-2、在服务器的情绪识别模型存储模块内存储用户在处于不同情绪下语速、分贝、常用情绪词汇的限定条件,进入流程S1-3。
S1-3、在服务器的用户状态存储模块内存储用户在不同状态下的动作信息,并将用户在不同状态下的动作信息分别存储在不同的存储子模块内,进入流程S1-4。
S1-4、在服务器的场景对话存储模块内存储用户处于不同情绪和状态下的场景对话模型,场景对话模型是通过用户的情绪、状态、天气、季节和咨询模块发送的语音信息等进行分类,进入流程S2。
S2、用户信息和位置信息获取
S2-1、用户终端中的用户动作表情采集模块对用户的面部表情信息和动作信息进行采集,然后将采集到的面部表情信息发送给用户表情判断模块,进入流程S3-3;将用户的动作信息发送给状态分析模块,进入流程S3-4;
S2-2、用户终端中的语音采集模块对用户的语音信息进行采集,并将采集到语音信息发送给服务器,进入流程S3-2;
S2-3、用户终端中的定位模块对用户终端进行实时定位,并将定位信息发送给天气信息获取模块,进入流程S3-1;
S3、用户信息和位置信息处理分析
S3-1、服务器中的天气信息获取模块根据定位模块发送的定位信息在气象局官网上获取定位位置所处区域的天气预报信息,或在用户提出的地域名称和地域名称存储模块内存储地域名称相符时获取该地域名称对应区域的天气预报信息,即天气信息获取模块接收到语音采集模块发送的语音信息中含有地域名称时,天气信息获取模块根据语音信息中的地域名称在地域名称存储模块内寻找是否有相应的地域名称,若有相应的地域名称,则根据该地域名称在气象局官网上寻找对应的天气预报信息,进入流程S3-6。
S3-2、服务器中的用户语音情绪判断模块接收到语音采集模块和咨询模块发送的语音信息后,根据语音信息中声音分贝大小、语速的快慢和说话内容判断用户语音中带有哪种情绪,然后将判断结果生成语音情绪信息发送给用情绪分析模块,进入流程S3-5。
S3-3、服务器中的用户表情判断模块接收到用户动作表情采集模块发送的关于用户的面部表情信息后,根据用户的面部表情信息判断其代表着用户属于哪种情绪,然后根据判断结果生成面部表情情绪判断信息发送给情绪分析模块,进入流程S3-5。
S3-4、服务器中的状态分析模块接收到用户表情动作采集模块发送的动作信息,然后根据用户的动作信息判断用户当前所属状态信息,用户所属状态表示对用户当前正在做的事情进行判断,然后将判断信息发送给场景分配模块,进入流程S3-6。
S3-5、服务器中的情绪分析模块接收到用户语音情绪判断模块发送的语音情绪信息和用户表情判断模块发送的面部表情情绪判断信息后,然后将语音情绪信息和面部表情情绪信息中所代表的情绪类型进行对比判断两者所代表的情绪类型是否一致,若两者所代表的情绪类型一致,则将判断结果生成输出情绪信息发送给场景分配模块,进入流程S3-6,若两者所代表的情绪类型不一致,则将判断结果生成输出情绪信息发送给语音输出模块进行语音信息输出,进入流程S6-1。
S3-6、服务器中的场景分配模块接收到状态分析模块发送的用户状态信息、情绪分析模块发送的输出情绪信息和天气信息获取模块发送的天气预报信息,然后根据用户状态信息、输出情绪信息和天气预报信息在场景对话存储模块内寻找对应的场景对话模型,并根据场景对话模型和用户展开对话,之后将对话信息发送给语音输出模块进行语音输出,进入流程S4。
S4、场景对话输出
用户终端中的语音输出模块接收到场景分配模块发送的对话信息后对对话信息进行语音输出,进入流程S5和S6-1。
S5、连续对话组成
用户终端中的咨询模块在用户从语音采集模块输入触发咨询模块工作的关键词语音后对用户输入的语音信息进行采集,然后将采集的语音信息发送给服务器,进入流程S3-1和S3-2。
S6、对话输出正误判断
S6-1、用户通过用户终端中的信息正误判断模块对语音输出模块输出的对话信息或语音信息是合适,然后将判断结果发送给数据更新模块。用户判断时主要判断机器人对自己输入的语音信息、动作信息、面部表情信息所代表的情绪和需要表达的意思是否解析正确,若用户判断为正确,则判断结果为合适,若用户判断为错误,则判断结果为用户认为正确的解答信息。判断结果输入时,也可以通过关键词语音的方式触发信息正误判断模块开始工作,进入流程S6-2。
S6-2、服务器中的数据更新模块对咨询模块发送的判断结果,若判断结果信息为语音输出模块输出的对话信息或语音信息错误,则将该判断结果对应的场景对话模型进行调整(一个场景对话模型对应一个对话信息或语音信息,一个对话信息或语音信息对应一个判断结果),对场景对话模型进行调整时,保存场景对话模型中的场景判断条件,将输出对话修改为判断结果中的解答信息,并将调整后的场景对话模型存储到场景对话存储模块内覆盖原有的场景对话模型,进入流程S1-4。
实施例二
实施例二与实施例一的区别在于,实施例二中一种AI场景定位机器人的服务器还包括:
用户说话习惯信息存储模块,用于存储用户的说话习惯信息。
用户说话习惯分析模块,用于接收语音采集模块发送的语音信息,并根据语音信息分析用户的说话习惯信息,并对用户的说话习惯信息进行分析记录,然后将分析记录的用户说话习惯信息存储到用户说话习惯存储模块内。在对用户的说话习惯信息进行分析时,包括对用户通常说话音量大小、停顿习惯、说话语速快慢、常用交流词汇等的分析。比如,很多人在老了以后会出现喘息、中气不足等现象,用户说话常常是断断续续的,用户说一句完整的话可能中间会停顿很多次。
用户普遍交流习惯分析模块,用于对不同用户终端使用的用户交流习惯进行分析,即用户说话习惯分析模块分析的每一位用户的说话习惯信息均发送给用户普遍交流习惯分析模块,然后用户普遍交流习惯分析模块对所有接受到的用户普遍的说话习惯信息进行分析,得出用户普遍的说话习惯信息发送给语音解析模块。
语音解析模块,用于接收语音采集模块发送的语音信息,然后根据该语音信息对应的用户说话习惯信息以及所有用户普遍的说话习惯信息将用户的语音信息按照输入时间先后进行重新组合,然后将重新组合后的语音信息解析成文本信息(语音解析可采用科大讯飞股份有限公司现有的语音识解析技术进行语音识别)。由于用户说话断断续续的,采用现有的语音解析技术可能会出现用户一句话还没有说完就已经判断这句话已经结束并开始解析,导致解析成的文本信息与用户实际要表达的意思不相同,按照用户的说话习惯信息将语音信息进行重新组合后再对语音信息进行解析,能够使得解析的文本信息更加准确,便于知道用户输入的语音信息中想表达的意思。语音解析模块对用户说话的语音信息进行解析时,不仅根据该用户个人的说话习惯信息进行解析,还根据用户普遍的说话习惯信息进行解析,即对用户同年龄段的用户都进行了说话习惯分析,便于了解用户的普遍说话习惯,使得进行语音解析时解析的语音能更加准确。
场景分配模块,用于接收状态分析模块发送的用户状态信息、情绪分析模块发送的输出情绪信息、语音解析模块发送的解析后的文本信息以及天气信息获取模块发送的天气预报信息,然后根据用户状态信息、天气预报信息、解析后的文本信息以及输出情绪信息在场景对话存储模块内寻找对应的场景对话模型,并根据场景对话模型和用户展开对话,之后将对话信息发送给语音输出模块进行语音输出。若用户语音情绪判断模块发送给情绪分析模块的语音情绪信息是根据咨询模块发送的语音信息判断而得,那么场景分配模块在根据情绪分析模块发送的输出情绪信息进行场景对话模型选择时不仅要根据用户状态信息和输出情绪信息选择场景对话模型,还要根据咨询模块发送的语音信息解析后的文本信息内容选择场景对话模型。
实施例二中,一种AI场景定位引擎的实现方法还包括如下流程:
用户信息和位置信息处理分析时,用户说话习惯分析模块根据语音采集模块采集的语音信息分析用户的说话习惯信息,并对用户的说话习惯信息进行分析记录,然后将分析记录的用户说话习惯信息存储到用户说话习惯存储模块内。在对用户的说话习惯信息进行分析时,包括对用户通常说话音量大小、停顿习惯、说话语速快慢、常用交流词汇等的分析。
然后,用户普遍交流习惯分析模块根据不同用户终端使用的用户交流习惯进行分析,即用户说话习惯分析模块分析的每一位用户的说话习惯信息均发送给用户普遍交流习惯分析模块,然后用户普遍交流习惯分析模块对所有接受到的用户普遍的说话习惯进行分析,得出用户普遍的说话习惯信息发送给语音解析模块。
之后,语音解析模块根据语音采集模块发送的语音信息和该语音信息对应的用户说话习惯信息以及所有用户普遍的说话习惯信息将用户的语音信息进行重新组合,然后将重新组合后的语音信息解析成文本信息(语音解析可采用科大讯飞股份有限公司现有的语音识解析技术进行语音识别)。由于用户说话断断续续的,采用现有的语音解析技术可能会出现用户一句话还没有说完就已经判断这句话已经结束并开始解析,导致解析成的文本信息与用户实际要表达的意思不相同,按照用户的说话习惯信息将语音信息进行重新组合后再对语音信息进行解析,能够使得解析的文本信息更加准确,便于知道用户输入的语音信息中想表达的意思。语音解析模块对用户说话的语音信息进行解析时,不仅根据该用户个人的说话习惯信息进行解析,还根据用户普遍的说话习惯信息进行解析,即对用户同年龄段的用户都进行了说话习惯分析,便于了解用户的普遍说话习惯,使得进行语音解析时解析的语音能更加准确。
最后,场景分配模块根据状态分析模块发送的用户状态信息、情绪分析模块发送的输出情绪信息、语音解析模块发送的解析后的文本信息以及天气信息获取模块发送的天气预报信息在场景对话存储模块内寻找对应的场景对话模型,并根据场景对话模型和用户展开对话,之后将对话信息发送给语音输出模块进行语音输出。若用户语音情绪判断模块发送给情绪分析模块的语音情绪信息是根据咨询模块发送的语音信息判断而得,那么场景分配模块在根据情绪分析模块发送的输出情绪信息进行场景对话模型选择时不仅要根据用户状态信息和输出情绪信息选择场景对话模型,还要根据咨询模块发送的语音信息解析后的文本信息内容选择场景对话模型。
以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。
Claims (6)
1.一种AI场景定位引擎的实现方法,其特征在于,包括如下步骤:
S1、基础信息存储:对表达不同情感的情绪化词汇进行分类存储,并将用户处于不同情绪下的语速、分贝、常用情绪词汇进行条件限定,然后将用户在不同状态下的动作信息进行分别存储,再存储用户处于不同情况和状态下的场景对话模型;
S2、用户信息和位置信息获取:对用户的语音信息、面部表情信息和动作信息分别进行采集;
S3、用户信息和位置信息处理分析:根据存储的基础信息和语音信息分析该语音信息所含情绪生成语音情绪信息;然后根据存储的基础信息判断用户的面部表情信息所代表的情绪生成面部表情情绪判断信息,再判断用户的动作信息所代表的状态信息;
S4、场景对话输出:根据语音情绪信息、面部表情情绪判断信息和状态信息判断属于用户的情绪,然后根据判断结果寻找对应的场景对话模型,并将场景对话模型中的对话信息进行语音输出。
2.根据权利要求1所述的一种AI场景定位引擎的实现方法,其特征在于:在步骤S3中,生成语音情绪信息和面部表情情绪判断信息后,将语音情绪信息中所含情绪和面部表情情绪信息中所含情绪进行了比较判断,当两者所含情绪相同时,才进入步骤S4,当两者所含情绪不相同时,生成输出情绪信息进行语音输出给用户进行判断用户想表达的正确情绪。
3.根据权利要求1所述的一种AI场景定位引擎的实现方法,其特征在于:在步骤S4后,当用户需要进行连续对话时,用户输入触发连续对话的关键词语音,然后进行对话内容相关的语音信息输入,之后进入步骤S2。
4.根据权利要求1所述的一种AI场景定位引擎的实现方法,其特征在于:在步骤S4中,对对话信息进行语音输出后,用户判断输出的对话信息是否合适,然后将判断结果进行输入,当判断结果为正确时,判断结果为肯定回答,判断结果为错误时,则判断结果为用户认为正确的解答信息,并根据解答信息将该对话信息对应的场景对话模型进行调整。
5.根据权利要求1所述的一种AI场景定位引擎的实现方法,其特征在于:在步骤S2中,在对动作信息进行采集后,对用户的定位信息进行获取,然后根据定位信息获取天气预报信息进行语音输出。
6.根据权利要求1-5中任一项所述的一种AI场景定位引擎的实现方法,其特征在于:在步骤S1中,在场景对话模型构建时,是根据用户的情绪、状态信息、天气预报信息、季节和输入语音信息内容进行分类构建的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810847818.5A CN109240488A (zh) | 2018-07-27 | 2018-07-27 | 一种ai场景定位引擎的实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810847818.5A CN109240488A (zh) | 2018-07-27 | 2018-07-27 | 一种ai场景定位引擎的实现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109240488A true CN109240488A (zh) | 2019-01-18 |
Family
ID=65073191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810847818.5A Pending CN109240488A (zh) | 2018-07-27 | 2018-07-27 | 一种ai场景定位引擎的实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109240488A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110121026A (zh) * | 2019-04-24 | 2019-08-13 | 深圳传音控股股份有限公司 | 智能拍摄设备及其基于生物特征识别的场景生成方法 |
CN113177114A (zh) * | 2021-05-28 | 2021-07-27 | 重庆电子工程职业学院 | 一种基于深度学习的自然语言语义理解方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140050408A1 (en) * | 2012-08-14 | 2014-02-20 | Samsung Electronics Co., Ltd. | Method for on-the-fly learning of facial artifacts for facial emotion recognition |
CN104217718A (zh) * | 2014-09-03 | 2014-12-17 | 陈飞 | 依据环境参数及群体趋向数据的语音识别方法和系统 |
CN104965426A (zh) * | 2015-06-24 | 2015-10-07 | 百度在线网络技术(北京)有限公司 | 基于人工智能的智能机器人控制系统、方法和装置 |
CN105046238A (zh) * | 2015-08-17 | 2015-11-11 | 华侨大学 | 一种面部表情机器人多通道信息情感表达映射方法 |
CN105448292A (zh) * | 2014-08-19 | 2016-03-30 | 北京羽扇智信息科技有限公司 | 一种基于场景的实时语音识别系统和方法 |
CN105654950A (zh) * | 2016-01-28 | 2016-06-08 | 百度在线网络技术(北京)有限公司 | 自适应语音反馈方法和装置 |
CN106373569A (zh) * | 2016-09-06 | 2017-02-01 | 北京地平线机器人技术研发有限公司 | 语音交互装置和方法 |
CN106531162A (zh) * | 2016-10-28 | 2017-03-22 | 北京光年无限科技有限公司 | 一种用于智能机器人的人机交互方法及装置 |
CN106649843A (zh) * | 2016-12-30 | 2017-05-10 | 上海博泰悦臻电子设备制造有限公司 | 基于车载终端的媒体文件推荐方法、系统、及车载终端 |
CN106650633A (zh) * | 2016-11-29 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 一种驾驶员情绪识别方法和装置 |
CN106874265A (zh) * | 2015-12-10 | 2017-06-20 | 深圳新创客电子科技有限公司 | 一种与用户情绪匹配的内容输出方法、电子设备及服务器 |
CN107038241A (zh) * | 2017-04-21 | 2017-08-11 | 上海庆科信息技术有限公司 | 具有情景分析功能的智能对话装置及方法 |
CN108229640A (zh) * | 2016-12-22 | 2018-06-29 | 深圳光启合众科技有限公司 | 情绪表达的方法、装置和机器人 |
CN108297098A (zh) * | 2018-01-23 | 2018-07-20 | 上海大学 | 人工智能驱动的机器人控制系统及方法 |
-
2018
- 2018-07-27 CN CN201810847818.5A patent/CN109240488A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140050408A1 (en) * | 2012-08-14 | 2014-02-20 | Samsung Electronics Co., Ltd. | Method for on-the-fly learning of facial artifacts for facial emotion recognition |
CN105448292A (zh) * | 2014-08-19 | 2016-03-30 | 北京羽扇智信息科技有限公司 | 一种基于场景的实时语音识别系统和方法 |
CN104217718A (zh) * | 2014-09-03 | 2014-12-17 | 陈飞 | 依据环境参数及群体趋向数据的语音识别方法和系统 |
CN104965426A (zh) * | 2015-06-24 | 2015-10-07 | 百度在线网络技术(北京)有限公司 | 基于人工智能的智能机器人控制系统、方法和装置 |
CN105046238A (zh) * | 2015-08-17 | 2015-11-11 | 华侨大学 | 一种面部表情机器人多通道信息情感表达映射方法 |
CN106874265A (zh) * | 2015-12-10 | 2017-06-20 | 深圳新创客电子科技有限公司 | 一种与用户情绪匹配的内容输出方法、电子设备及服务器 |
CN105654950A (zh) * | 2016-01-28 | 2016-06-08 | 百度在线网络技术(北京)有限公司 | 自适应语音反馈方法和装置 |
CN106373569A (zh) * | 2016-09-06 | 2017-02-01 | 北京地平线机器人技术研发有限公司 | 语音交互装置和方法 |
CN106531162A (zh) * | 2016-10-28 | 2017-03-22 | 北京光年无限科技有限公司 | 一种用于智能机器人的人机交互方法及装置 |
CN106650633A (zh) * | 2016-11-29 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 一种驾驶员情绪识别方法和装置 |
CN108229640A (zh) * | 2016-12-22 | 2018-06-29 | 深圳光启合众科技有限公司 | 情绪表达的方法、装置和机器人 |
CN106649843A (zh) * | 2016-12-30 | 2017-05-10 | 上海博泰悦臻电子设备制造有限公司 | 基于车载终端的媒体文件推荐方法、系统、及车载终端 |
CN107038241A (zh) * | 2017-04-21 | 2017-08-11 | 上海庆科信息技术有限公司 | 具有情景分析功能的智能对话装置及方法 |
CN108297098A (zh) * | 2018-01-23 | 2018-07-20 | 上海大学 | 人工智能驱动的机器人控制系统及方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110121026A (zh) * | 2019-04-24 | 2019-08-13 | 深圳传音控股股份有限公司 | 智能拍摄设备及其基于生物特征识别的场景生成方法 |
CN113177114A (zh) * | 2021-05-28 | 2021-07-27 | 重庆电子工程职业学院 | 一种基于深度学习的自然语言语义理解方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108922540A (zh) | 与老人用户进行连续ai对话的方法及系统 | |
US11645547B2 (en) | Human-machine interactive method and device based on artificial intelligence | |
CN106611597B (zh) | 基于人工智能的语音唤醒方法和装置 | |
WO2018036555A1 (zh) | 会话处理方法及装置 | |
CN107229684B (zh) | 语句分类方法、系统、电子设备、冰箱及存储介质 | |
CN106448670B (zh) | 基于深度学习和强化学习的自动回复对话系统 | |
CN110211563A (zh) | 面向情景及情感的中文语音合成方法、装置及存储介质 | |
CN106201424B (zh) | 一种信息交互方法、装置及电子设备 | |
CN109918650B (zh) | 自动生成采访稿的采访智能机器人装置及智能采访方法 | |
CN104778945B (zh) | 响应自然语言语音口头表达的系统和方法 | |
CN103458056B (zh) | 自动外呼系统基于自动分类技术的语音意图判定系统 | |
CN109151218A (zh) | 通话语音质检方法、装置、计算机设备及存储介质 | |
CN110287297A (zh) | 对话答复方法、装置、计算机设备及计算机可读存储介质 | |
CN109829039A (zh) | 智能聊天方法、装置、计算机设备及存储介质 | |
CN107704482A (zh) | 方法、装置以及程序 | |
CN106407178A (zh) | 一种会话摘要生成方法及装置 | |
CN107368572A (zh) | 多功能智能人机交互方法及系统 | |
CN110517664A (zh) | 多方言识别方法、装置、设备及可读存储介质 | |
CN110019688A (zh) | 对机器人进行训练的方法 | |
CN111145721A (zh) | 个性化提示语生成方法、装置和设备 | |
US20200152196A1 (en) | Information processing system, and information processing method | |
CN105940446A (zh) | 例如为仿人机器人的机器与人类对话者之间的对话方法,实施这种方法的电脑程序产品和仿人机器人 | |
CN107316635B (zh) | 语音识别方法及装置、存储介质、电子设备 | |
CN107329986A (zh) | 基于语言行为识别的人机对话方法及装置 | |
CN106205622A (zh) | 信息处理方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190118 |