CN114446325A - 基于情绪识别的信息推送方法、装置、计算机设备及介质 - Google Patents

基于情绪识别的信息推送方法、装置、计算机设备及介质 Download PDF

Info

Publication number
CN114446325A
CN114446325A CN202210236512.2A CN202210236512A CN114446325A CN 114446325 A CN114446325 A CN 114446325A CN 202210236512 A CN202210236512 A CN 202210236512A CN 114446325 A CN114446325 A CN 114446325A
Authority
CN
China
Prior art keywords
data
voiceprint
emotion
user
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210236512.2A
Other languages
English (en)
Inventor
何天林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Puhui Enterprise Management Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN202210236512.2A priority Critical patent/CN114446325A/zh
Publication of CN114446325A publication Critical patent/CN114446325A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请涉及语音识别领域,揭示了一种基于情绪识别的信息推送方法、装置、计算机设备及存储介质,其中方法包括:获取用户的声音数据;从所述声音数据提取声纹数据;将所述声纹数据与预采集的标准数据相匹配,根据所述标准数据确定所述声纹数据对应的声纹特征;根据所述声纹特征确定所述声音数据的情绪类型;根据所述情绪类型匹配业务引导话语,并向用户推送所述业务引导话语。本申请能够感知用户的情绪,并根据用户的情绪向用户推送信息,提高信息推送的准确性。

Description

基于情绪识别的信息推送方法、装置、计算机设备及介质
技术领域
本申请涉及语音识别领域,特别是涉及到一种基于情绪识别的信息推送方法、装置、计算机设备及存储介质。
背景技术
察言观色是全面分析人物的重要依据,在计算机语音识别领域,在当前的客户服务系统中,都是人和电脑或手机交互,或者和AI形象客服交互,都是采用的固定话术,无法针对不同用户在不同场景下采取不同的策略,导致目前不同用户在不同情绪下的信息推送的准确性低。
发明内容
本申请的主要目的为提供一种基于情绪识别的信息推送方法、装置、计算机设备及存储介质,旨在解决目前不同用户在不同情绪下的信息推送的准确性低的问题。
为了实现上述发明目的,本申请提出一种基于情绪识别的信息推送方法,包括:
获取用户的声音数据;
从所述声音数据提取声纹数据;
将所述声纹数据与预采集的标准数据相匹配,根据所述标准数据确定所述声纹数据对应的声纹特征;
根据所述声纹特征确定所述声音数据的情绪类型;
根据所述情绪类型匹配业务引导话语,并向用户推送所述业务引导话语。
进一步地,所述根据所述声纹特征确定所述声音数据的情绪类型,包括:
获取上一个时间周期的第一声纹特征;
获取当前时间周期的第二声纹特征;
对比所述第一声纹特征与所述第二声纹特征,得到声纹特征的变化结果;
根据所述变化结果确定所述声音数据的情绪类型。
进一步地,所述根据所述变化结果确定所述声音数据的情绪类型之后,还包括:
获取用户的人脸特征变化结果;
根据所述人脸变化结果修正所述声音数据的情绪类型。
进一步地,所述从所述声音数据提取声纹数据之前,还包括:
获取噪音数据的噪音特征;
根据所述噪音特征识别所述声音数据中的环境噪音数据;
将所述环境噪音数据从所述声音数据中剔除,得到剔除所述环境噪音数据的声音数据。
进一步地,所述预采集的标准数据通过如下方式得到,包括:
向用户发送分别表征不同情绪的引导语句;
接收用户模仿所述引导语句的语音数据;
对所述语音数据进行解析,确定所述用户在不同情绪下的语音特征;
根据所述语音特征生成标准数据,作为预采集的标准数据。
进一步地,所述根据所述标准数据确定所述声纹数据对应的声纹特征,包括:
获取所述标准数据中若干个待选特征数据;
计算所述声纹数据与所述待选特征数据的相似度;
若所述相似度满足预设要求,确定声纹数据中包含所述待选特征数据对应的语义特征;
根据声纹数据中包含的所有语义特征进行融合,得到声纹数据对应的声纹特征。
进一步地,所述向用户推送所述业务引导话语,包括:
根据所述情绪类型匹配语音语调类型;
将所述业务引导话语以所述语音语调类型输出,以向用户推送所述业务引导话语。
本申请还提供一种基于情绪识别的信息推送装置,包括:
声音获取模块,用于获取用户的声音数据;
数据提取模块,用于从所述声音数据提取声纹数据;
特征匹配模块,用于将所述声纹数据与预采集的标准数据相匹配,根据所述标准数据确定所述声纹数据对应的声纹特征;
情绪类型模块,用于根据所述声纹特征确定所述声音数据的情绪类型;
话语推送模块,用于根据所述情绪类型匹配业务引导话语,并向用户推送所述业务引导话语。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述基于情绪识别的信息推送方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述基于情绪识别的信息推送方法的步骤。
本申请例提供了一种实时识别用户的情绪类型后,基于不同的情绪类型向用户推送不同类型的信息的方法,可以应用于智能语音助手的语音对话场景或者智能语音助手的视频通话场景,在语音助手配置所述基于情绪识别的信息推送方法,并基于情绪识别向用户推送信息,首先获取用户的声音数据,声音数据中包含多个不同角度表征声音特征的数据,将其定义为声纹数据,然后从所述声音数据提取声纹数据,所述声纹数据包括说话语速数据、语调高低数据、声音辨识度数据等,再将所述声纹数据与预采集的标准数据相匹配,根据所述标准数据确定所述声纹数据对应的声纹特征,根据所述声纹特征确定所述声音数据的情绪类型,通过多个不同角度的声纹数据,确定多个不同角度的声纹特征,再根据所述多个不同角度的声纹特征进行综合判定,确定所述声纹特征对应的情绪分类,从而得到所述声音数据的情绪类型,即得到用户说话时的情绪类型,在用户处于不同的情绪类型下,根据用户的情绪类型为用户匹配不同的答复话语,即业务引导话语,并向用户推送所述业务引导话语,从而通过声纹情绪识别实时掌控用户的情绪状态,为用户推送不同类型的业务引导话语,提高对不同场景下不同用户的信息推送准确性。
附图说明
图1为本申请基于情绪识别的信息推送方法的一实施例流程示意图;
图2为本申请确定所述声音数据的情绪类型的一实施例流程示意图;
图3为本申请基于情绪识别的信息推送装置的一实施例结构示意图;
图4为本申请计算机设备的一实施例结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种基于情绪识别的信息推送方法,包括步骤S10-S50,对于所述基于情绪识别的信息推送方法的各个步骤的详细阐述如下。
S10、获取用户的声音数据。
本实施例应用于智能语音助手的语音对话场景或者智能语音助手的视频通话场景,智能语音助手能够根据用户说话的内容从海量的问题数据库中搜索问题相应的答案,再将问题相关的答案推送给用户,包括通过语音的方式将问题相关的答案推送给用户。在一种实施方式中,通过在语音助手配置所述基于情绪识别的信息推送方法,所述语音助手可以配置在云端服务器中,利用云端服务器的计算资源对用户说话时进行情绪识别,并基于情绪识别向用户推送信息,所述语音助手为虚拟形象,所述语音助手可以应用在指定的应用程序中,通过应用程序调用语音助手后便可进行咨询。具体的,首先获取用户的声音数据,当用户通过语音助手进行咨询的过程中,通过麦克风采集用户的声音数据,从而获取用户的声音数据。
S20、从所述声音数据提取声纹数据。
本实施例中,在获取用户的声音数据之后,需要对所述声音数据分析确定用户当前的情绪,所述声音数据中包含多个不同角度表征声音特征的数据,将其定义为声纹数据,然后从所述声音数据提取声纹数据,所述声纹数据包括说话语速数据、语调高低数据、声音辨识度数据等,通过从所述声音数据提取表征声音特征的话语速数据、语调高低数据、声音辨识度数据,从而得到声音数据中的声纹数据,从声音数据中提取有效的识别信息,从而提高基于声音数据对情绪识别的准确率。
S30、将所述声纹数据与预采集的标准数据相匹配,根据所述标准数据确定所述声纹数据对应的声纹特征。
本实施例中,在获取用户的声音数据并从所述声音数据提取声纹数据之后,即从声音数据中提取有效的信息,然后将所述声纹数据与预采集的标准数据相匹配,所述预采集的标准数据中具有用户不同情绪下的声纹特征下的声纹数据,从而根据所述标准数据确定所述声纹数据对应的声纹特征,即通过标准数据与声音数据提取到的声纹数据进行对比,从而确定提取到的声纹数据对应的声纹特征,例如声纹数据为说话语速数据,说话语速数据为8字/秒,标准数据中的标准说话语速数据为5字/秒,将所述声纹数据与标准数据对比后,根据所述标准数据确定所述声纹数据对应的声纹特征为“语速较标准语速快50%”。
S40、根据所述声纹特征确定所述声音数据的情绪类型。
本实施例中,在将所述声纹数据与预采集的标准数据相匹配,根据所述标准数据确定所述声纹数据对应的声纹特征之后,根据所述声纹特征确定所述声音数据的情绪类型,即不同的声纹特征匹配不同的情绪分类,通过多个不同角度的声纹数据,确定多个不同角度的声纹特征,再根据所述多个不同角度的声纹特征进行综合判定,确定所述声纹特征对应的情绪分类,从而得到所述声音数据的情绪类型,即得到用户说话时的情绪类型,所述情绪类型包括情绪相对激动类型、情绪就飘忽不定类型,情绪异常响亮类型,高兴类型,不满类型,犹豫类型、愤怒类型、认真类型、严谨类型等。
S50、根据所述情绪类型匹配业务引导话语,并向用户推送所述业务引导话语。
本实施例中,在将所述声纹数据与预采集的标准数据相匹配,根据所述标准数据确定所述声纹数据对应的声纹特征,并根据所述声纹特征确定所述声音数据的情绪类型之后,根据所述情绪类型匹配业务引导话语,在用户处于不同的情绪类型下,根据用户的情绪类型为用户匹配不同的答复话语,即业务引导话语,并向用户推送所述业务引导话语。在一种实施方式中,在用户的情绪类型为A类如激动、不满的情况下,匹配的业务引导话语为安抚类引导话语,在用户的情绪类型为B类如认真、严谨的情况下,匹配的业务引导话语为洽谈类引导话语等,从而通过声纹情绪识别实时掌控用户的情绪状态,为用户推送不同类型的业务引导话语,提高对不同场景下不同用户的信息推送准确性。
本实施例提供了一种实时识别用户的情绪类型后,基于不同的情绪类型向用户推送不同类型的信息的方法,可以应用于智能语音助手的语音对话场景或者智能语音助手的视频通话场景,在语音助手配置所述基于情绪识别的信息推送方法,并基于情绪识别向用户推送信息,首先获取用户的声音数据,声音数据中包含多个不同角度表征声音特征的数据,将其定义为声纹数据,然后从所述声音数据提取声纹数据,所述声纹数据包括说话语速数据、语调高低数据、声音辨识度数据等,再将所述声纹数据与预采集的标准数据相匹配,根据所述标准数据确定所述声纹数据对应的声纹特征,根据所述声纹特征确定所述声音数据的情绪类型,通过多个不同角度的声纹数据,确定多个不同角度的声纹特征,再根据所述多个不同角度的声纹特征进行综合判定,确定所述声纹特征对应的情绪分类,从而得到所述声音数据的情绪类型,即得到用户说话时的情绪类型,在用户处于不同的情绪类型下,根据用户的情绪类型为用户匹配不同的答复话语,即业务引导话语,并向用户推送所述业务引导话语,从而通过声纹情绪识别实时掌控用户的情绪状态,为用户推送不同类型的业务引导话语,提高对不同场景下不同用户的信息推送准确性。
在一个实施例中,如图2所示,所述根据所述声纹特征确定所述声音数据的情绪类型,包括:
S41:获取上一个时间周期的第一声纹特征;
S42:获取当前时间周期的第二声纹特征;
S43:对比所述第一声纹特征与所述第二声纹特征,得到声纹特征的变化结果;
S44:根据所述变化结果确定所述声音数据的情绪类型。
本实施例中,在根据所述声纹特征确定所述声音数据的情绪类型的过程中,不仅根据当前的声纹特征确定声音数据的情绪类型,还根据声纹特征的变化确定声音数据的情绪类型,从而更加准确地确定声音数据的情绪类型,具体的,获取上一个时间周期的第一声纹特征,再获取当前时间周期的第二声纹特征,然后对比所述第一声纹特征与所述第二声纹特征,得到声纹特征的变化结果,再根据所述变化结果确定所述声音数据的情绪类型,通过连续采集的声纹特征,确定声纹特征的变化,从而根据变化的声纹特征确定声音数据的情绪类型,可以提高情绪类型识别的准确性。在一种实际应用场景中,前一个时间周期(如前10秒)的声纹特征是声音断断续续且声音识别度较低,当前时间周期声纹特征是声音非常尖锐,确定所述声音数据的情绪类型为愤怒类型;如果当前时间周期声纹特征是声音是连续的且声音识别度更高,确定所述声音数据的情绪类型为认真和严谨类型。
在一个实施例中,所述根据所述变化结果确定所述声音数据的情绪类型之后,还包括:
获取用户的人脸特征变化结果;
根据所述人脸变化结果修正所述声音数据的情绪类型。
本实施例中,在根据所述变化结果确定所述声音数据的情绪类型之后,为了更加准确地确定声音数据的情绪类型,通过声纹特征的变化过程中的人脸特征变化对所述情绪类型进行修正与确认,具体的,获取用户的人脸特征变化结果,所述人脸特征变化结果为所述上一个时间周期与所述当前时间周期的人脸特征的变化结果,然后根据所述人脸变化结果修正所述声音数据的情绪类型,当所述人脸变化结果与所述声纹特征的变化结果具有一致性时,更加准确地确认所述声音数据的情绪类型,从而提高情绪类型识别的准确性。
在一个实施例中,所述从所述声音数据提取声纹数据之前,还包括:
获取噪音数据的噪音特征;
根据所述噪音特征识别所述声音数据中的环境噪音数据;
将所述环境噪音数据从所述声音数据中剔除,得到剔除所述环境噪音数据的声音数据。
本实施例中,在从所述声音数据提取声纹数据之前,需要减少所述声音数据中的无效数据,具体的,获取噪音数据的噪音特征,然后根据所述噪音特征识别所述声音数据中的环境噪音数据,从而得到声音数据中的无效数据,再将所述环境噪音数据从所述声音数据中剔除,得到剔除所述环境噪音数据的声音数据,从而减少声音数据的数据量,减少计算量,提高计算效率。
在一个实施例中,所述预采集的标准数据通过如下方式得到,包括:
向用户发送分别表征不同情绪的引导语句;
接收用户模仿所述引导语句的语音数据;
对所述语音数据进行解析,确定所述用户在不同情绪下的语音特征;
根据所述语音特征生成标准数据,作为预采集的标准数据。
本实施例中,所述预采集的标准数据通过如下方式得到,首先向用户发送分别表征不同情绪的引导语句,比如表征高兴的、严肃的、愤怒等不同情绪的引导语句,然后接收用户模仿所述引导语句的语音数据,再对所述语音数据进行解析,确定所述用户在不同情绪下的语音特征,即确定用户在不同情绪下的话语速数据、语调高低数据、声音辨识度数据等语音特征,然后根据所述语音特征生成标准数据,作为预采集的标准数据,通过每一个用户的预采集的标准数据,提高声纹特征识别的准确性。
在一个实施例中,所述根据所述标准数据确定所述声纹数据对应的声纹特征,包括:
获取所述标准数据中若干个角度的特征数据;
计算所述声纹数据与所述特征数据的差异度;
根据所述差异度确定声纹特征。
本实施例中,在根据所述标准数据确定所述声纹数据对应的声纹特征的过程中,首先获取所述标准数据中若干个角度的特征数据,然后计算所述声纹数据与所述特征数据的差异度,再根据所述差异度确定声纹特征,通过不同角度的特征数据综合计算,从而准确地确定声纹数据对应的声纹特征。
在一个实施例中,所述向用户推送所述业务引导话语,包括:
根据所述情绪类型匹配语音语调类型;
将所述业务引导话语以所述语音语调类型输出,以向用户推送所述业务引导话语。
本实施例中,在向用户推送所述业务引导话语的过程中,为了使得推送的业务引导话语能够更加准确地输出,首先根据所述情绪类型匹配语音语调类型,然后将所述业务引导话语以所述语音语调类型输出,以向用户推送所述业务引导话语,从而以不同的语音语调输出不同的业务引导话语,提高不同用户在不同情绪类型下的业务引导话语输出的准确性。
参照图3,本申请还提供一种基于情绪识别的信息推送装置,包括:
声音获取模块10,用于获取用户的声音数据;
数据提取模块20,用于从所述声音数据提取声纹数据;
特征匹配模块30,用于将所述声纹数据与预采集的标准数据相匹配,根据所述标准数据确定所述声纹数据对应的声纹特征;
情绪类型模块40,用于根据所述声纹特征确定所述声音数据的情绪类型;
话语推送模块50,用于根据所述情绪类型匹配业务引导话语,并向用户推送所述业务引导话语。
如上所述,可以理解地,本申请中提出的所述基于情绪识别的信息推送装置的各组成部分可以实现如上所述基于情绪识别的信息推送方法任一项的功能。
在一个实施例中,所述根据所述声纹特征确定所述声音数据的情绪类型,包括:
获取上一个时间周期的第一声纹特征;
获取当前时间周期的第二声纹特征;
对比所述第一声纹特征与所述第二声纹特征,得到声纹特征的变化结果;
根据所述变化结果确定所述声音数据的情绪类型。
在一个实施例中,所述根据所述变化结果确定所述声音数据的情绪类型之后,还包括:
获取用户的人脸特征变化结果;
根据所述人脸变化结果修正所述声音数据的情绪类型。
在一个实施例中,所述从所述声音数据提取声纹数据之前,还包括:
获取噪音数据的噪音特征;
根据所述噪音特征识别所述声音数据中的环境噪音数据;
将所述环境噪音数据从所述声音数据中剔除,得到剔除所述环境噪音数据的声音数据。
在一个实施例中,所述预采集的标准数据通过如下方式得到,包括:
向用户发送分别表征不同情绪的引导语句;
接收用户模仿所述引导语句的语音数据;
对所述语音数据进行解析,确定所述用户在不同情绪下的语音特征;
根据所述语音特征生成标准数据,作为预采集的标准数据。
在一个实施例中,所述根据所述标准数据确定所述声纹数据对应的声纹特征,包括:
获取所述标准数据中若干个角度的特征数据;
计算所述声纹数据与所述特征数据的差异度;
根据所述差异度确定声纹特征。
在一个实施例中,所述向用户推送所述业务引导话语,包括:
根据所述情绪类型匹配语音语调类型;
将所述业务引导话语以所述语音语调类型输出,以向用户推送所述业务引导话语。
参照图4,本申请实施例中还提供一种计算机设备,该计算机设备可以是移动终端,其内部结构可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和显示装置及输入装置。其中,该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的输入装置用于接收用户的输入。该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质。该存储介质存储有操作系统、计算机程序和数据库。该计算机设备的数据库用于存放数据。该计算机程序被处理器执行时以实现一种基于情绪识别的信息推送方法。
上述处理器执行上述的基于情绪识别的信息推送方法,包括:获取用户的声音数据;从所述声音数据提取声纹数据;将所述声纹数据与预采集的标准数据相匹配,根据所述标准数据确定所述声纹数据对应的声纹特征;根据所述声纹特征确定所述声音数据的情绪类型;根据所述情绪类型匹配业务引导话语,并向用户推送所述业务引导话语。
所述计算机设备提供了一种实时识别用户的情绪类型后,基于不同的情绪类型向用户推送不同类型的信息的方法,可以应用于智能语音助手的语音对话场景或者智能语音助手的视频通话场景,在语音助手配置所述基于情绪识别的信息推送方法,并基于情绪识别向用户推送信息,首先获取用户的声音数据,声音数据中包含多个不同角度表征声音特征的数据,将其定义为声纹数据,然后从所述声音数据提取声纹数据,所述声纹数据包括说话语速数据、语调高低数据、声音辨识度数据等,再将所述声纹数据与预采集的标准数据相匹配,根据所述标准数据确定所述声纹数据对应的声纹特征,根据所述声纹特征确定所述声音数据的情绪类型,通过多个不同角度的声纹数据,确定多个不同角度的声纹特征,再根据所述多个不同角度的声纹特征进行综合判定,确定所述声纹特征对应的情绪分类,从而得到所述声音数据的情绪类型,即得到用户说话时的情绪类型,在用户处于不同的情绪类型下,根据用户的情绪类型为用户匹配不同的答复话语,即业务引导话语,并向用户推送所述业务引导话语,从而通过声纹情绪识别实时掌控用户的情绪状态,为用户推送不同类型的业务引导话语,提高对不同场景下不同用户的信息推送准确性。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被所述处理器执行时实现一种基于情绪识别的信息推送方法,包括步骤:获取用户的声音数据;从所述声音数据提取声纹数据;将所述声纹数据与预采集的标准数据相匹配,根据所述标准数据确定所述声纹数据对应的声纹特征;根据所述声纹特征确定所述声音数据的情绪类型;根据所述情绪类型匹配业务引导话语,并向用户推送所述业务引导话语。
所述计算机可读存储介质提供了一种实时识别用户的情绪类型后,基于不同的情绪类型向用户推送不同类型的信息的方法,可以应用于智能语音助手的语音对话场景或者智能语音助手的视频通话场景,在语音助手配置所述基于情绪识别的信息推送方法,并基于情绪识别向用户推送信息,首先获取用户的声音数据,声音数据中包含多个不同角度表征声音特征的数据,将其定义为声纹数据,然后从所述声音数据提取声纹数据,所述声纹数据包括说话语速数据、语调高低数据、声音辨识度数据等,再将所述声纹数据与预采集的标准数据相匹配,根据所述标准数据确定所述声纹数据对应的声纹特征,根据所述声纹特征确定所述声音数据的情绪类型,通过多个不同角度的声纹数据,确定多个不同角度的声纹特征,再根据所述多个不同角度的声纹特征进行综合判定,确定所述声纹特征对应的情绪分类,从而得到所述声音数据的情绪类型,即得到用户说话时的情绪类型,在用户处于不同的情绪类型下,根据用户的情绪类型为用户匹配不同的答复话语,即业务引导话语,并向用户推送所述业务引导话语,从而通过声纹情绪识别实时掌控用户的情绪状态,为用户推送不同类型的业务引导话语,提高对不同场景下不同用户的信息推送准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。
非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围。
凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种基于情绪识别的信息推送方法,其特征在于,包括:
获取用户的声音数据;
从所述声音数据提取声纹数据;
将所述声纹数据与预采集的标准数据相匹配,根据所述标准数据确定所述声纹数据对应的声纹特征;
根据所述声纹特征确定所述声音数据的情绪类型;
根据所述情绪类型匹配业务引导话语,并向用户推送所述业务引导话语。
2.根据权利要求1所述的基于情绪识别的信息推送方法,其特征在于,所述根据所述声纹特征确定所述声音数据的情绪类型,包括:
获取上一个时间周期的第一声纹特征;
获取当前时间周期的第二声纹特征;
对比所述第一声纹特征与所述第二声纹特征,得到声纹特征的变化结果;
根据所述变化结果确定所述声音数据的情绪类型。
3.根据权利要求2所述的基于情绪识别的信息推送方法,其特征在于,所述根据所述变化结果确定所述声音数据的情绪类型之后,还包括:
获取用户的人脸特征变化结果;
根据所述人脸变化结果修正所述声音数据的情绪类型。
4.根据权利要求1所述的基于情绪识别的信息推送方法,其特征在于,所述从所述声音数据提取声纹数据之前,还包括:
获取噪音数据的噪音特征;
根据所述噪音特征识别所述声音数据中的环境噪音数据;
将所述环境噪音数据从所述声音数据中剔除,得到剔除所述环境噪音数据的声音数据。
5.根据权利要求1所述的基于情绪识别的信息推送方法,其特征在于,所述预采集的标准数据通过如下方式得到,包括:
向用户发送分别表征不同情绪的引导语句;
接收用户模仿所述引导语句的语音数据;
对所述语音数据进行解析,确定所述用户在不同情绪下的语音特征;
根据所述语音特征生成标准数据,作为预采集的标准数据。
6.根据权利要求5所述的基于情绪识别的信息推送方法,其特征在于,所述根据所述标准数据确定所述声纹数据对应的声纹特征,包括:
获取所述标准数据中若干个角度的特征数据;
计算所述声纹数据与所述特征数据的差异度;
根据所述差异度确定声纹特征。
7.根据权利要求1所述的基于情绪识别的信息推送方法,其特征在于,所述向用户推送所述业务引导话语,包括:
根据所述情绪类型匹配语音语调类型;
将所述业务引导话语以所述语音语调类型输出,以向用户推送所述业务引导话语。
8.一种基于情绪识别的信息推送装置,其特征在于,包括:
声音获取模块,用于获取用户的声音数据;
数据提取模块,用于从所述声音数据提取声纹数据;
特征匹配模块,用于将所述声纹数据与预采集的标准数据相匹配,根据所述标准数据确定所述声纹数据对应的声纹特征;
情绪类型模块,用于根据所述声纹特征确定所述声音数据的情绪类型;
话语推送模块,用于根据所述情绪类型匹配业务引导话语,并向用户推送所述业务引导话语。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述基于情绪识别的信息推送方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述基于情绪识别的信息推送方法的步骤。
CN202210236512.2A 2022-03-11 2022-03-11 基于情绪识别的信息推送方法、装置、计算机设备及介质 Pending CN114446325A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210236512.2A CN114446325A (zh) 2022-03-11 2022-03-11 基于情绪识别的信息推送方法、装置、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210236512.2A CN114446325A (zh) 2022-03-11 2022-03-11 基于情绪识别的信息推送方法、装置、计算机设备及介质

Publications (1)

Publication Number Publication Date
CN114446325A true CN114446325A (zh) 2022-05-06

Family

ID=81360040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210236512.2A Pending CN114446325A (zh) 2022-03-11 2022-03-11 基于情绪识别的信息推送方法、装置、计算机设备及介质

Country Status (1)

Country Link
CN (1) CN114446325A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116139404A (zh) * 2023-04-23 2023-05-23 苏州维伟思医疗科技有限公司 一种基于情绪识别的wcd控制方法及相关装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116139404A (zh) * 2023-04-23 2023-05-23 苏州维伟思医疗科技有限公司 一种基于情绪识别的wcd控制方法及相关装置

Similar Documents

Publication Publication Date Title
US10438586B2 (en) Voice dialog device and voice dialog method
CN111105782B (zh) 会话交互处理方法、装置、计算机设备和存储介质
CN111028827A (zh) 基于情绪识别的交互处理方法、装置、设备和存储介质
CN109451188B (zh) 差异性自助应答的方法、装置、计算机设备和存储介质
CN110472224B (zh) 服务质量的检测方法、装置、计算机设备和存储介质
CN111858892B (zh) 基于知识图谱的语音交互方法、装置、设备及介质
CN112037799B (zh) 语音中断处理方法、装置、计算机设备和存储介质
CN107133709B (zh) 一种客户服务的质量检验方法、装置及系统
CN111883140A (zh) 基于知识图谱和声纹识别的认证方法、装置、设备及介质
CN111223476B (zh) 语音特征向量的提取方法、装置、计算机设备和存储介质
CN112541738B (zh) 基于智能对话技术的审批方法、装置、设备及介质
CN109785834B (zh) 一种基于验证码的语音数据样本采集系统及其方法
CN110689881A (zh) 语音识别方法、装置、计算机设备和存储介质
CN111597818A (zh) 呼叫质检方法、装置、计算机设备和计算机可读存储介质
CN113901189A (zh) 一种数字人交互方法、装置、电子设备及存储介质
CN114446325A (zh) 基于情绪识别的信息推送方法、装置、计算机设备及介质
CN112102807A (zh) 语音合成方法、装置、计算机设备和存储介质
CN112579751A (zh) 用户信息填入方法、装置以及计算机设备
CN110931002A (zh) 人机交互方法、装置、计算机设备和存储介质
CN113194210B (zh) 一种语音通话接入方法及装置
CN111970311B (zh) 会话切分方法、电子设备及计算机可读介质
CN113593580A (zh) 一种声纹识别方法及装置
CN114398487A (zh) 线上会话的参考信息输出方法、装置、设备及存储介质
CN110853674A (zh) 文本核对方法、设备以及计算机可读存储介质
CN114596842A (zh) 一种语音交互的方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination