CN114758385A - 一种基于情绪识别的语音提示方法及系统 - Google Patents

一种基于情绪识别的语音提示方法及系统 Download PDF

Info

Publication number
CN114758385A
CN114758385A CN202210325901.2A CN202210325901A CN114758385A CN 114758385 A CN114758385 A CN 114758385A CN 202210325901 A CN202210325901 A CN 202210325901A CN 114758385 A CN114758385 A CN 114758385A
Authority
CN
China
Prior art keywords
current
emotion
user
voice
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210325901.2A
Other languages
English (en)
Inventor
尚跃进
李来林
宋伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Luka Beijing Intelligent Technology Co ltd
Original Assignee
Beijing Wuling Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wuling Technology Co ltd filed Critical Beijing Wuling Technology Co ltd
Priority to CN202210325901.2A priority Critical patent/CN114758385A/zh
Publication of CN114758385A publication Critical patent/CN114758385A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请公开了一种基于情绪识别的语音提示方法及系统,属于情绪识别技术领域,语音提示方法包括,采集用户的当前面部图像,根据当前面部图像得到用户的当前面部情绪状态;采集用户的当前语音数据,根据当前语音数据、上一次用户的阅读情绪状态和语义信息,得到用户的当前语音情绪状态和当前语音含义;将当前面部情绪状态、当前语音情绪状态和当前语音含义输入到深度学习模型,得到用户的当前阅读情绪状态和当前语义信息;根据当前阅读情绪状态,生成相应的语音提示信息。本申请通过用户的面部图像和语音数据,综合计算出用户的当前阅读情绪状态,并根据用户的阅读情绪状态与用户互动,从而帮助用户更有效地投入阅读中。

Description

一种基于情绪识别的语音提示方法及系统
技术领域
本申请涉及情绪识别技术领域,尤其是涉及一种基于情绪识别的语音提示方法及系统。
背景技术
绘本通常指的是图画书,即画出来的书,指一类以绘画为主,并附有少量文章的书籍。绘本机器人是一种用于阅读绘本的人工智能产品,绘本机器人通过图像识别技术和语音识别技术,对检测到的绘本内容进行识别并进行阅读。
针对上述相关技术,发明人发现:用户在阅读过程中,常常会出现注意力无法集中的情况,但相关技术中的绘本机器人通常只是识别出绘本内容并进行阅读,并未考虑到用户的阅读状态,进而难以根据用户的阅读状态与用户进行互动,从而不便于帮助用户更有效地投入到阅读中。
发明内容
为了便于帮助用户更有效地投入阅读中,本申请提供一种基于情绪识别的语音提示方法及系统。
第一方面,本申请提供一种基于情绪识别的语音提示方法,采用如下的技术方案:
一种基于情绪识别的语音提示方法,所述语音提示方法包括:
采集用户的当前面部图像,根据所述当前面部图像得到用户的当前面部情绪状态;
采集用户的当前语音数据,根据所述当前语音数据、上一次用户的阅读情绪状态和语义信息,得到用户的当前语音情绪状态和当前语音含义;
将所述当前面部情绪状态、所述当前语音情绪状态和所述当前语音含义输入到深度学习模型,得到用户的当前阅读情绪状态和当前语义信息;以及,
根据所述当前阅读情绪状态,生成相应的语音提示信息。
通过采用上述技术方案,在用户阅读过程中,采集用户的当前面部图像,然后根据用户的当前面部图像得到用户的当前面部情绪状态;同时,采集用户的当前语音数据,然后根据用户的当前语音数据以及上一次用户的阅读情绪状态和语义信息,得到用户的当前语音情绪状态和当前语音含义;然后将用户的当前面部情绪状态、当前语音情绪状态和当前语音含义输入到深度学习模型,得到用户的当前阅读情绪状态和当前语义信息;然后根据用户的阅读情绪状态,生成相应的语音提示信息,从而提醒用户专心阅读,帮助用户更有效地投入到阅读当中。
可选的,所述根据所述当前面部图像得到用户的当前面部情绪状态,包括:
根据所述当前面部图像,得到用户的当前面部特征数据;以及,
基于预设表情数据库,根据所述当前面部特征数据得到对应的当前面部情绪状态;其中,所述预设表情数据库包括多组面部特征数据与面部情绪状态的对应关系。
通过采用上述技术方案,在摄像头拍摄到用户的当前面部图像后,识别用户的当前面部特征,得到用户的当前面部特征数据;然后基于预设表情数据库,匹配和识别用户的当前面部表情,得到与当前面部特征数据相对应的当前面部情绪状态,从而便于根据用户面部表情,判断用户的当前面部情绪状态。
可选的,所述根据所述当前语音数据、上一次用户的阅读情绪状态和语义信息,得到用户的当前语音情绪状态和当前语音含义包括:
对所述当前语音数据进行语音信号处理并提取语音特征,基于预设的声学模型、语言模型以及词典对所述语音特征进行处理,得到语音文本;
根据预设词库对所述语音文本进行解析并提取文本特征,基于预设的文本语义库和文本情绪库,得到文本情绪和初始语音含义;
根据预设权重规则,基于所述文本情绪、初始语音含义、上一次用户的阅读情绪状态和语义信息,计算得到用户的当前语音情绪状态和当前语音含义。
通过采用上述技术方案,在采集到用户的当前语音数据后,对当前语音数据进行语音信号处理及语音特征提取,得到语音特征,再基于预设的声学模型、语言模型以及词典对语音特征进行处理,得到当前语音数据对应的语音文本;再根据预设词库对语音文本进行解析并提取文本特征,然后基于预设的文本语义库和文本情绪库,将文本特征与文本情绪库中的数据进行比对,得到文本情绪,并将文本情绪与文本语义库中的数据进行比对,得到初始语音含义;然后根据预设权重规则,基于文本情绪、初始语音含义、上一次用户的阅读情绪状态和语义信息,计算得到用户的当前语音情绪状态和当前语音含义;通过结合用户的历史阅读情绪状态和语义信息,提高了数据结果的准确性和全面性。
可选的,所述语音提示方法还包括:预先训练所述深度学习模型;
所述训练所述深度学习模型,具体包括:
获取用户情绪集,按照预设比例将用户情绪集配置为训练情绪集和测试情绪集;其中,所述用户情绪集包括用户的历史语音情绪状态和历史面部情绪状态;
对所述用户情绪集进行特征提取,得到特征结果;
选择预设的深度学习模型,根据所述特征结果对所述预设的深度学习模型进行参数调整;
基于所述训练情绪集对所述预设的深度学习模型进行训练,得到训练后的深度学习模型;
根据所述测试情绪集对所述训练后的深度学习模型进行测试,得到深度学习模型。
通过采用上述技术方案,获取用户历史语音情绪和用户历史面部情绪,组成用户情绪集,并按照预设比例将用户情绪集配置为训练情绪集和测试情绪集;然后对用户情绪集进行特征提取,得到特征结果;提取后选择预设的深度学习模型,并依据提取的特征结果,基于训练情绪集对选择预设的深度学习模型进行训练,从而得到训练后的深度学习模型;然后根据测试情绪集对训练后的深度学习模型进行测试,从而生成深度学习模型;通过训练情绪集对深度学习模型进行训练以及测试情绪集对训练得到的深度学习模型进行测试,减小了模型的泛化误差,提高了生成的深度学习模型的适用性。
可选的,所述预设的深度学习模型包括深度神经网络模型、循环神经网络模型以及卷积神经网络模型中的一种或几种。
通过采用上述技术方案,在使用用户情绪集对选择的深度学习模型进行训练时,可以根据训练结果在预设的深度学习模型中重新选择预设的深度学习模型。
可选的,所述根据所述当前阅读情绪状态,生成相应的语音提示信息包括:
根据所述当前阅读情绪状态,将所述当前阅读情绪状态与预设情绪反馈库进行比对,得到所述语音提示信息;其中,所述预设情绪反馈库包括多组阅读情绪状态与语音反馈提示的对应关系。
通过采用上述技术方案,将用户的阅读情绪状态与预设情绪反馈库进行比对,得到对应的语音反馈提示,从而能够根据不同的阅读情绪状态给予用户不同的语音反馈提示,提高了语音反馈提示的多样性和适应性。
可选的,在所述得到用户的当前阅读情绪状态后还包括:
获取预设时间段内的阅读情绪状态,统计各个阅读情绪状态对应的累计次数和累计持续时长,并生成阅读状态信息;以及,
将所述阅读状态信息发送至移动终端。
通过采用上述技术方案,获得预设时间段内的用户所有的阅读情绪状态,然后统计各个阅读情绪状态对应的累积次数和累积持续时长,并根据各个阅读情绪状态以及各个阅读情绪状态对应的累积次数和累积持续时长生成阅读状态信息,然后将阅读状态信息发送至移动终端,从而便于监护人通过移动终端随时监督和了解正在阅读的用户的阅读状态。
第二方面,本申请还提供了一种基于情绪识别的语音提示系统,采用如下的技术方案:
一种基于情绪识别的语音提示系统,所述语音提示系统包括:
面部情绪状态生成模块,用于采集用户的当前面部图像,并根据所述当前面部图像得到用户的当前面部情绪状态;
语音情绪状态生成模块,用于采集用户的当前语音数据,并根据所述当前语音数据、上一次用户的阅读情绪状态和语义信息,得到用户的当前语音情绪状态和当前语音含义;
阅读情绪状态生成模块,用于将所述当前面部情绪状态、所述当前语音情绪状态和所述当前语音含义输入到深度学习模型,得到用户的当前阅读情绪状态和当前语义信息;以及,
语音提示信息生成模块,用于根据所述当前阅读情绪状态,生成相应的语音提示信息。
第三方面,本申请提供一种计算机设备,采用如下的技术方案:
一种计算机设备,包括:存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面中所述的方法。
第四方面,一种计算机可读存储介质,采用如下的技术方案:
一种计算机可读存储介质,存储有能够被处理器加载并执行如第一方面中所述方法的计算机程序。
综上所述,本申请至少包括以下有益技术效果:在用户阅读过程中,通过用户的当前面部图像得到用户的当前面部情绪状态,通过用户在阅读时的当前语音图像,并综合上一次用户的阅读情绪状态和语义信息,计算出用户的当前阅读情绪状态,然后根据当前阅读情绪状态对用户进行提醒,从而便于帮助用户更有效地投入阅读中;同时,通过四个参数,即用户的当前面部图像、当前语音状态以及上一次用户的阅读情绪状态和语义信息,得到用户的当前阅读情绪状态,相对于只通过用户的当前面部图像或当前语音数据得到用户的当前阅读情绪状态,提高了得到的当前阅读情绪状态的准确性,从而能够更有效地对用户进行提醒。
附图说明
图1是本申请其中一个实施例的语音提示方法的流程示意图。
图2是本申请又一个实施例的语音提示方法的流程示意图。
图3是本申请其中一个实施例的训练深度学习模型的流程示意图。
图4是本申请实施例的语音提示系统的结构框图。
图5是本申请其中一个实施例的计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图1-5及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请实施例公开了一种基于情绪识别的语音提示方法。
参照图1,一种基于情绪识别的语音提示方法,包括如下步骤:
步骤S101,采集用户的当前面部图像,根据当前面部图像得到用户的当前面部情绪状态。
具体地,用户的当前面部图像可以通过摄像头的方式进行采集;在摄像头拍摄到用户的当前面部图像后,根据用户的当前面部图像识别用户的当前面部特征,进而得到用户的当前面部特征数据,其中,用户的当前面部特征包括用户当前面部的肌肉动作特征;然后基于预设表情数据库,预设表情数据库包括多组面部特征数据与面部情绪状态的对应关系,将用户当前面部特征数据与面部特征数据库中的数据进行比对,得到与当前面部特征数据相对应的当前面部情绪状态,面部情绪状态的类别可以根据实际情绪设置,例如喜悦、不开心、平静、愤怒、心不在焉、疲惫等等。
步骤S102,采集用户的当前语音数据,根据当前语音数据、上一次用户的阅读情绪状态和语义信息,得到用户的当前语音情绪状态和当前语音含义。
其中,用户的当前语音数据可以通过麦克风的方式进行采集;语音情绪状态的类别可以根据实际需求设置,例如喜悦、不开心、平静、愤怒、心不在焉、疲惫等等;阅读情绪状态的类别也可以根据实际需求设置,例如喜悦、不开心、平静、愤怒、心不在焉、疲惫等等,语音情绪状态的类别与阅读情绪状态的类别应当一致。上一次用户的阅读情绪状态和语义信息,指用户说上一句话时得到的阅读情绪状态和语义信息。例如,在用户在使用名字为Luka的绘本机器人时,用户的上一句话为“Luka好可爱啊”,能够得到上一次用户的阅读情绪状态为“喜悦”,上一次用户的语义信息为“Luka太可爱了,很喜欢Luka”。
需要说明的是,若为首次采集用户的当前语音数据,根据用户的当前语音数据,即可得到用户的当前语音情绪状态和当前语音含义。
需要进一步说明的是,步骤S101与步骤S102没有固定的先后关系。
步骤S103,将当前面部情绪状态、当前语音情绪状态和当前语音含义输入到深度学习模型,得到用户的当前阅读情绪状态和当前语义信息。
具体地,在采集到用户的当前语音数据后,对当前语音数据进行语音信号处理及语音特征提取,得到语音特征,再基于预设的声学模型、语言模型以及词典对语音特征进行处理,得到当前语音数据对应的语音文本;再根据将语音文本与词库中的数据进行比对,得到语音文本对应的文本特征;然后基于预设的文本语义库和文本情绪库,得到文本情绪和初始语音含义;然后根据预设权重规则,基于文本情绪、初始语音含义、上一次用户的阅读情绪状态和语义信息,即文本情绪、初始语音含义、上一次用户的阅读情绪状态和语义信息的权重关系,计算得到用户的当前语音情绪状态和当前语音含义。
步骤S104,根据当前阅读情绪状态,生成相应的语音提示信息。
具体地,基于预设情绪反馈库,将用户的当前阅读情绪状态与预设情绪反馈库中的数据进行比对,得到与当前阅读情绪状态对应的语音反馈提示,从而能够根据不同的阅读情绪状态给予用户不同的语音反馈提示,提高了语音反馈提示的多样性和适应性。例如,当孩子的当前阅读情绪状态为“疲惫”时,可以语音提醒孩子,“小朋友,我们要专心阅读哦”或“小朋友一起来把书放到下一页”;当孩子的当前阅读情绪状态为“疲惫”时,可以语音提醒孩子,“小朋友,让我们休息一会吧”。
上述实施方式,在用户阅读过程中,通过用户的当前面部图像和当前语音数据分别得到用户的当前面部情绪状态和当前语音情绪状态,并综合上一次用户的阅读情绪状态和语义信息,得到当前阅读情绪状态,然后根据用户的当前阅读情绪状态对用户进行语音提醒,从而便于帮助用户更有效地投入阅读中;进一步地,通过四个参数,即用户的当前面部图像、当前语音状态以及上一次用户的阅读情绪状态和语义信息,得到用户的当前阅读情绪状态,相对于只通过用户的当前面部图像或当前语音数据得到用户的当前阅读情绪状态,提高了得到的当前阅读情绪状态的准确性,从而能够更有效地对用户进行提醒。
参照图2,作为步骤S102的一种实施方式,根据当前语音数据、上一次用户的阅读情绪状态和语义信息,得到用户的当前语音情绪状态和当前语音含义,包括如下步骤:
步骤S201,对当前语音数据进行语音信号处理并提取语音特征,基于预设的声学模型、语言模型以及词典对语音特征进行处理,得到语音文本。
步骤S202,根据预设词库对语音文本进行解析并提取文本特征,基于预设的文本语义库和文本情绪库,得到文本情绪和初始语音含义。
需要说明的是,若为首次采集用户的当前语音数据,通过步骤S201得到语音文本后,则根据预设词库对语音文本进行解析并提取文本特征,然后基于预设的文本语义库和文本情绪库,得到用户的当前语音情绪状态和当前语音含义。
步骤S203,根据预设权重规则,基于文本情绪、初始语音含义、上一次用户的阅读情绪状态和语义信息,计算得到用户的当前语音情绪状态和当前语音含义。
例如,在孩子在使用名字为Luka的绘本机器人时,孩子的上一句话为“Luka好可爱啊”,上一次孩子的阅读情绪状态和语义信息分别为“喜悦”和“Luka太可爱了,很喜欢Luka”;孩子的当前说的一句话为“我想读书”,计算得到的文本情绪为“平淡(33%)、喜悦(33%)、郁闷(33%)”,计算得到的初步语音含义为“让Luka给他读书”;根据预设的权重规则,并基于当前的文本情绪“平淡(33%)、喜悦(33%)、郁闷(33%)”、初步语音含义“让Luka给他读书”、上一次孩子的阅读情绪状态“喜悦”和语义信息“Luka太可爱了,很喜欢Luka”,从而综合计算出孩子的当前语音情绪和当前语义含义分别为“喜悦”和“想让Luka给他读书”。
上述实施方式,在得到文本特征后,基于预设的文本语义库和文本情绪库,将文本特征与文本情绪库中的数据进行比对,得到文本情绪,并将文本情绪与文本语义库中的数据进行比对,得到初始语音含义;然后根据预设权重规则,基于文本情绪、初始语音含义、上一次用户的阅读情绪状态和语义信息,即文本情绪、初始语音含义、上一次用户的阅读情绪状态和语义信息的权重关系,计算得到用户的当前语音情绪状态和当前语音含义;通过结合用户的历史阅读情绪状态和语义信息,提高了数据结果的准确性和全面性。
参照图3,一种基于情绪识别的语音提示方法还包括:预先训练深度学习模型,训练深度学习模型具体包括如下步骤:
步骤S301,获取用户情绪集,按照预设比例将用户情绪集配置为训练情绪集和测试情绪集;其中,用户情绪集包括用户的历史语音情绪状态和历史面部情绪状态。
其中,预设比例可以根据实际情况设置,例如,将预设比例设置为1:1。
步骤S302,对用户情绪集进行特征提取,得到特征结果。
步骤S303,选择预设的深度学习模型,根据特征结果对预设的深度学习模型进行参数调整。
其中,预设的深度学习模型包括深度神经网络模型、循环神经网络模型以及卷积神经网络模型中的一种或几种。在使用用户情绪集对选择的深度学习模型进行训练时,可以根据训练结果在预设的深度学习模型中重新选择预设的深度学习模型。
步骤S304,基于训练情绪集对预设的深度学习模型进行训练,得到训练后的深度学习模型。
具体的,基于训练情绪集对预设的深度学习模型进行训练,训练过程中可以调节预设的深度学习模型的参数或重新选择预设的深度学习模型,直到预设的深度学习模型输出正确的结果。
步骤S305,根据测试情绪集对训练后的深度学习模型进行测试,生成深度学习模型。
上述实施方式,获取用户历史语音情绪和用户历史面部情绪,组成用户情绪集,并按照预设比例将用户情绪集配置为训练情绪集和测试情绪集;然后对用户情绪集进行特征提取,得到特征结果;提取后选择预设的深度学习模型,并依据提取的特征结果,基于训练情绪集和测试情绪集对预设的深度学习模型分别进行训练和测试,生成深度学习模型;通过训练情绪集对深度学习模型进行训练以及测试情绪集对训练得到的深度学习模型进行测试,减小了模型的泛化误差,提高了生成的深度学习模型的适用性。
作为语音提示方法的进一步实施方式,在得到用户的当前阅读情绪状态后,还包括如下步骤:
获取预设时间段内的阅读情绪状态,统计各个阅读情绪状态对应的累计次数和累计持续时长,并生成阅读状态信息;将阅读状态信息发送至移动终端。
例如,在孩子阅读绘本的过程中,绘本机器人获取孩子在10分钟的阅读时间内的所有阅读情绪状态,孩子在10分钟阅读时间内的阅读情绪状态有“不开心”、“心不在焉”、“平静”,统计出孩子“不开心”、“心不在焉”、“平静”分别为5分钟、3分钟、2分钟,基于这三种阅读情绪状态及其累计次数和累计持续时长生成阅读状态信息,然后将阅读状态信息发送给移动终端,家长看到移动终端上的阅读状态信息则能够了解孩子阅读时的情况,从而促进家长对孩子阅读绘本进行引导。
上述实施方式,获得预设时间段内的用户所有的阅读情绪状态,然后统计各个阅读情绪状态对应的累积次数和累积持续时长,并根据各个阅读情绪状态以及各个阅读情绪状态对应的累积次数和累积持续时长生成阅读状态信息,然后将阅读状态信息发送至移动终端,便于监护人通过移动终端随时监督和了解正在阅读的用户的阅读状态,从而便于监护人对正在阅读的用户进行引导。
本申请实施例还公开了一种基于情绪识别的语音提示系统。
参照图4,一种基于情绪识别的语音提示系统包括:
面部情绪状态生成模块,用于采集用户的当前面部图像,并根据当前面部图像得到用户的当前面部情绪状态;
语音情绪状态生成模块,用于采集用户的当前语音数据,并根据当前语音数据、上一次用户的阅读情绪状态和语义信息,得到用户的当前语音情绪状态和当前语音含义;
阅读情绪状态生成模块,用于将当前面部情绪状态、当前语音情绪状态和当前语音含义输入到深度学习模型,得到用户的当前阅读情绪状态和当前语义信息;
语音提示信息生成模块,用于根据当前阅读情绪状态,生成相应的语音提示信息。
作为语音提示系统的进一步实施方式,面部情绪状态生成模块包括:
面部特征数据生成模块,用于根据当前面部图像,得到用户的当前面部特征数据;
面部情绪状态得出模块,用于基于预设表情数据库,根据当前面部特征数据得到对应的当前面部情绪状态;其中,预设表情数据库包括多组面部特征数据与面部情绪状态的对应关系。
作为语音提示系统的进一步实施方式,语音情绪状态生成模块包括:
语音文本生成模块,用于对当前语音数据进行语音信号处理并提取语音特征,基于预设的声学模型、语言模型以及词典对语音特征进行处理,得到语音文本;
文本情绪生成模块,用于根据预设词库对语音文本进行解析并提取文本特征,基于预设的文本语义库和文本情绪库,得到文本情绪和初始语音含义;
语音情绪状态计算模块,用于根据预设权重规则,基于文本情绪、初始语音含义、上一次用户的阅读情绪状态和语义信息,计算得到用户的当前语音情绪状态和当前语音含义。
作为语音提示系统的进一步实施方式,语音提示系统还包括:
阅读状态信息反馈模块,用于根据当前阅读情绪状态,将当前阅读情绪状态与预设情绪反馈库进行比对,得到语音提示信息;其中,预设情绪反馈库包括多组阅读情绪状态与语音反馈提示的对应关系。
本发明的基于情绪识别的语音提示系统能够实现上述基于情绪识别的语音提示方法的任一种方法,且基于情绪识别的语音提示系统的具体工作过程可参考上述方法实施例中的对应过程。
本申请实施例还公开了一种计算机设备。
参考图5,一种计算机设备,包括:存储器和处理器。存储器上存储有可在处理器上运行的计算机程序,处理器执行程序时实现上述的基于情绪识别的语音提示方法。
本申请实施例还公开了一种计算机可读存储介质。
一种计算机可读存储介质,存储有能够被处理器加载并执行上述的基于情绪识别的语音提示方法的计算机程序。
其中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用;计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,本说明书(包括摘要和附图)中公开的任一特征,除非特别叙述,均可被其它等效或者具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。

Claims (10)

1.一种基于情绪识别的语音提示方法,其特征在于,所述语音提示方法包括:
采集用户的当前面部图像,根据所述当前面部图像得到用户的当前面部情绪状态;
采集用户的当前语音数据,根据所述当前语音数据、上一次用户的阅读情绪状态和语义信息,得到用户的当前语音情绪状态和当前语音含义;
将所述当前面部情绪状态、所述当前语音情绪状态和所述当前语音含义输入到深度学习模型,得到用户的当前阅读情绪状态和当前语义信息;以及,
根据所述当前阅读情绪状态,生成相应的语音提示信息。
2.根据权利要求1所述的一种基于情绪识别的语音提示方法,其特征在于,所述根据所述当前面部图像得到用户的当前面部情绪状态,包括:
根据所述当前面部图像,得到用户的当前面部特征数据;以及,
基于预设表情数据库,根据所述当前面部特征数据得到对应的当前面部情绪状态;其中,所述预设表情数据库包括多组面部特征数据与面部情绪状态的对应关系。
3.根据权利要求1所述的一种基于情绪识别的语音提示方法,其特征在于,所述根据所述当前语音数据、上一次用户的阅读情绪状态和语义信息,得到用户的当前语音情绪状态和当前语音含义包括:
对所述当前语音数据进行语音信号处理并提取语音特征,基于预设的声学模型、语言模型以及词典对所述语音特征进行处理,得到语音文本;
根据预设词库对所述语音文本进行解析并提取文本特征,基于预设的文本语义库和文本情绪库,得到文本情绪和初始语音含义;
根据预设权重规则,基于所述文本情绪、初始语音含义、上一次用户的阅读情绪状态和语义信息,计算得到用户的当前语音情绪状态和当前语音含义。
4.根据权利要求1所述的一种基于情绪识别的语音提示方法,其特征在于,所述语音提示方法还包括:预先训练所述深度学习模型;
所述训练所述深度学习模型,具体包括:
获取用户情绪集,按照预设比例将用户情绪集配置为训练情绪集和测试情绪集;其中,所述用户情绪集包括用户的历史语音情绪状态和历史面部情绪状态;
对所述用户情绪集进行特征提取,得到特征结果;
选择预设的深度学习模型,根据所述特征结果对所述预设的深度学习模型进行参数调整;
基于所述训练情绪集对所述预设的深度学习模型进行训练,得到训练后的深度学习模型;
根据所述测试情绪集对所述训练后的深度学习模型进行测试,得到深度学习模型。
5.根据权利要求4所述的一种基于情绪识别的语音提示方法,其特征在于,所述预设的深度学习模型包括深度神经网络模型、循环神经网络模型以及卷积神经网络模型中的一种或几种。
6.根据权利要求1到5任一所述的一种基于情绪识别的语音提示方法,其特征在于,所述根据所述当前阅读情绪状态,生成相应的语音提示信息包括:
根据所述当前阅读情绪状态,将所述当前阅读情绪状态与预设情绪反馈库进行比对,得到所述语音提示信息;其中,所述预设情绪反馈库包括多组阅读情绪状态与语音反馈提示的对应关系。
7.根据权利要求6所述的一种基于情绪识别的语音提示方法,其特征在于,在所述得到用户的当前阅读情绪状态后还包括:
获取预设时间段内的阅读情绪状态,统计各个阅读情绪状态对应的累计次数和累计持续时长,并生成阅读状态信息;以及,
将所述阅读状态信息发送至移动终端。
8.一种基于情绪识别的语音提示系统,其特征在于,所述语音提示系统包括:
面部情绪状态生成模块,用于采集用户的当前面部图像,并根据所述当前面部图像得到用户的当前面部情绪状态;
语音情绪状态生成模块,用于采集用户的当前语音数据,并根据所述当前语音数据、上一次用户的阅读情绪状态和语义信息,得到用户的当前语音情绪状态和当前语音含义;
阅读情绪状态生成模块,用于将所述当前面部情绪状态、所述当前语音情绪状态和所述当前语音含义输入到深度学习模型,得到用户的当前阅读情绪状态和当前语义信息;以及,
语音提示信息生成模块,用于根据所述当前阅读情绪状态,生成相应的语音提示信息。
9.一种计算机设备,其特征在于,包括:存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于:存储有能够被处理器加载并执行如权利要求1至7中任一种方法的计算机程序。
CN202210325901.2A 2022-03-30 2022-03-30 一种基于情绪识别的语音提示方法及系统 Pending CN114758385A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210325901.2A CN114758385A (zh) 2022-03-30 2022-03-30 一种基于情绪识别的语音提示方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210325901.2A CN114758385A (zh) 2022-03-30 2022-03-30 一种基于情绪识别的语音提示方法及系统

Publications (1)

Publication Number Publication Date
CN114758385A true CN114758385A (zh) 2022-07-15

Family

ID=82329144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210325901.2A Pending CN114758385A (zh) 2022-03-30 2022-03-30 一种基于情绪识别的语音提示方法及系统

Country Status (1)

Country Link
CN (1) CN114758385A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115424605A (zh) * 2022-11-01 2022-12-02 北京红棉小冰科技有限公司 语音合成方法、装置、电子设备及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115424605A (zh) * 2022-11-01 2022-12-02 北京红棉小冰科技有限公司 语音合成方法、装置、电子设备及计算机可读存储介质
CN115424605B (zh) * 2022-11-01 2023-02-03 北京红棉小冰科技有限公司 语音合成方法、装置、电子设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
JP6465077B2 (ja) 音声対話装置および音声対話方法
US11715485B2 (en) Artificial intelligence apparatus for converting text and speech in consideration of style and method for the same
US10388279B2 (en) Voice interaction apparatus and voice interaction method
CN109871450B (zh) 基于绘本阅读的多模态交互方法及系统
US10573307B2 (en) Voice interaction apparatus and voice interaction method
CN110399837B (zh) 用户情绪识别方法、装置以及计算机可读存储介质
US11776544B2 (en) Artificial intelligence apparatus for recognizing speech of user and method for the same
CN110109541B (zh) 一种多模态交互的方法
US11492741B2 (en) Electronic device
JP2017156854A (ja) 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法
US11705105B2 (en) Speech synthesizer for evaluating quality of synthesized speech using artificial intelligence and method of operating the same
CN110610705A (zh) 一种基于人工智能的语音交互提示器
US10755704B2 (en) Information processing apparatus
CN115713875A (zh) 一种基于心理分析的虚拟现实仿真教学方法
CN111611382A (zh) 话术模型训练方法、对话信息生成方法及装置、系统
CN111986675A (zh) 语音对话方法、设备及计算机可读存储介质
CN114758385A (zh) 一种基于情绪识别的语音提示方法及系统
CN113486970B (zh) 阅读能力评测方法及装置
WO2019165732A1 (zh) 基于机器人情绪状态的回复信息生成方法、装置
CN101739852B (zh) 基于语音识别的实现自动口译训练的方法和装置
KR20210067283A (ko) 사용자 상태에 기반한 응답 음성을 생성하는 음성 에이전트 시스템 및 방법
CN116386604A (zh) 基于用户情绪状态的自适应外呼对话策略配置方法及装置
CN112002329B (zh) 身心健康监测方法、设备及计算机可读存储介质
CN112309183A (zh) 适用于外语教学的交互式听说练习系统
CN116935478B (zh) 一种智能手表的情感识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100000 Room D529, No. 501, Floor 5, Building 2, Fourth District, Wangjing Dongyuan, Chaoyang District, Beijing

Applicant after: Beijing Wuling Technology Co.,Ltd.

Address before: Room 06, 2163, 13 / F, building 523, Wangjing Dongyuan, Chaoyang District, Beijing 100102

Applicant before: Beijing Wuling Technology Co.,Ltd.

CB02 Change of applicant information
TA01 Transfer of patent application right

Effective date of registration: 20221223

Address after: 100000 Room 815, Floor 8, Building 6, Yard 33, Guangshun North Street, Chaoyang District, Beijing

Applicant after: Luka (Beijing) Intelligent Technology Co.,Ltd.

Address before: 100000 Room D529, No. 501, Floor 5, Building 2, Fourth District, Wangjing Dongyuan, Chaoyang District, Beijing

Applicant before: Beijing Wuling Technology Co.,Ltd.

TA01 Transfer of patent application right