CN117992597A - 信息反馈方法、装置、计算机设备及计算机存储介质 - Google Patents

信息反馈方法、装置、计算机设备及计算机存储介质 Download PDF

Info

Publication number
CN117992597A
CN117992597A CN202410403691.3A CN202410403691A CN117992597A CN 117992597 A CN117992597 A CN 117992597A CN 202410403691 A CN202410403691 A CN 202410403691A CN 117992597 A CN117992597 A CN 117992597A
Authority
CN
China
Prior art keywords
audio data
text
volume
emotion
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410403691.3A
Other languages
English (en)
Other versions
CN117992597B (zh
Inventor
朱宇光
张宝锋
魏玉良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Weihao Intelligent Technology Co ltd
Original Assignee
Jiangsu Weihao Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Weihao Intelligent Technology Co ltd filed Critical Jiangsu Weihao Intelligent Technology Co ltd
Priority to CN202410403691.3A priority Critical patent/CN117992597B/zh
Publication of CN117992597A publication Critical patent/CN117992597A/zh
Application granted granted Critical
Publication of CN117992597B publication Critical patent/CN117992597B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • G06Q30/015Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Accounting & Taxation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开一种信息反馈方法、装置、计算机设备及计算机存储介质,包括:获取大数据平台中的音频数据;基于语音识别模型对所述音频数据进行处理,将所述音频数据转化为文本数据,所述文本数据包含若干文本;获取音频数据的时间信息,根据时间信息为文本标记时间戳;基于文本对应的时间戳建立音量及语速的时间序列,并基于时间序列识别音量特征与语速特征;基于自然语言处理模型对所述文本进行识别,并基于所述音量特征与所述语速特征对识别后的文本进行特征判定,确定音频数据的情绪特征;根据所述文本与所述情绪特征确定问答策略信息。通过识别和理解用户的对话内容和情绪特征后确定准确的问答策略信息,提高信息反馈的准确性。

Description

信息反馈方法、装置、计算机设备及计算机存储介质
技术领域
本发明涉及智能化客服系统领域,特别涉及一种信息反馈方法、装置、计算机设备及计算机存储介质。
背景技术
近年来,随着大数据技术生产力的迭代,智能客服系统越来越受到各行服务业的青睐,通过客服系统可以大大地释放人力资源,快速地对用户进行响应,并且通过智能问答以及人工结合的方式,为用户提供高效、准确的回答。但是,目前的客服系统大多是通过文字上的问答,对于电话/语音的问答,仅仅提供简单的选项供用户进行选择,无法给用户准确、实时地反馈,仍然需要大量的人工进行问答,在人工问答以及机器问答的过程中,如何有效管理和分析海量的语音数据,准确洞察客户的咨询目的,解决客户真实问题,成为了客户服务中一个亟需解决的问题,即目前的智能语音客服系统的存在问答准确率较低,时效性不高的问题。
发明内容
本发明的目的在于提供一种信息反馈方法、装置及计算机设备、计算机存储介质,以至少解决智能语音客服系统的存在问答准确率较低,时效性不高的问题。
为解决上述技术问题,本发明提供一种信息反馈方法,包括:
获取大数据平台中的音频数据,其中,所述音频数据包含采集的客服系统的语音数据;所述音频数据基于分布式原理存储在所述大数据平台;
基于语音识别模型对所述音频数据进行处理,将所述音频数据转化为文本数据,所述文本数据包含若干文本,所述文本包含字、词与句子;
获取所述音频数据的时间信息,根据所述时间信息为所述文本数据的文本标记时间戳;
基于所述文本对应的时间戳建立所述音频数据的音量及语速的时间序列,并基于所述时间序列识别所述音频数据的音量特征与语速特征;
基于自然语言处理模型对所述文本进行识别,并基于所述音量特征与所述语速特征对识别后的文本进行特征判定,确定所述音频数据的情绪特征;
根据所述文本与所述情绪特征确定问答策略信息,以将所述问答策略信息反馈至客服系统。
可选的,所述获取大数据平台中的音频数据,包括:
向大数据平台发送数据获取指令以获取加密的数据信息,其中,大数据平台响应于所述获取指令,从分布式的存储设备中获取已加密的数据信息;
根据预设的加密算法对所述数据信息进行计算,获取数据信息中的音频数据。
可选的,所述基于所述文本对应的时间戳建立所述音频数据的音量及语速的时间序列,并基于所述时间序列识别所述音频数据的音量特征与语速特征,包括:
基于所述文本对应的时间戳对所述音频数据进行分段,获得分段后的若干个子音频数据;
基于所述子音频数据包含的文本对应的时间戳建立所述子音频数据的音量及语速的时间序列;
基于所述时间序列识别所述子音频数据的音量特征与语速特征,以及所述子音频数据之间的音量特征与语速特征。
可选的,所述基于所述文本对应的时间戳建立所述音频数据的音量及语速的时间序列,并基于所述时间序列识别所述音频数据的音量特征与语速特征,包括:
获取音频数据的分贝信息,根据所述文本对应的时间戳确定每个文本的分贝数;
根据每个文本的分贝数以及所述时间戳的顺序建立音频数据的音量时间序列;
基于所述音量时间序列计算音量的移动平均值和移动标准差;
根据所述移动平均值和移动标准差识别音量的规律以及异常;
根据所述音量的规律以及异常确定音量特征。
可选地,所述基于所述文本对应的时间戳建立所述音频数据的音量及语速的时间序列,并基于所述时间序列识别所述音频数据的音量特征与语速特征,包括:
根据所述文本对应的时间戳确定单位时间内文本的数量;
根据单位时间内文本的数量及所述时间戳的顺序建立音频数据的语速时间序列;
基于所述语速时间序列计算语速的移动平均值和移动标准差;
根据所述移动平均值和移动标准差识别语速的规律以及异常;
根据所述音量的规律以及异常确定语速特征。
可选的,所述基于自然语言处理模型对所述文本进行识别,并基于所述音量特征与所述语速特征对识别后的文本进行特征判定,确定所述音频数据的情绪特征,包括:
基于自然语言处理模型对所述文本进行识别,得到文本内容;
基于预设的情绪识别模型对所述文本内容进行编码处理,得到文本内容编码特征;
基于所述情绪识别模型对所述文本内容编码特征进行情绪识别,得到所述文本内容编码特征的初始情绪类别;
基于预设的情绪词表对所述文本内容进行情绪特征词识别,得到识别结果;
根据所述识别结果和所述初始情绪类别,确定所述文本内容信息对应的目标情绪类别;
基于所述音量特征、所述语速特征与目标情绪类别,确定所述音频数据的情绪特征。
可选的,所述根据所述文本与所述情绪特征确定问答策略信息,以将所述问答策略信息反馈至客服系统,包括:
根据所述识别后的文本确定客服语音场景;
根据所述客服语音场景与所述情绪特征确定问答策略信息,包含根据所述客服语音场景与所述情绪特征在预设的策略信息库中匹配问答策略信息;或根据所述文本、所述客服语音场景与情绪特征基于设置的大语言模型生成问答策略信息,其中,所述大语言模型被配置为与若干种场景相关联;其中,所述问答策略信息包括引导话术以及标准话术。
为解决上述技术问题,本发明实施例还提供一种信息反馈装置,包括:
数据获取模块,用于获取大数据平台中的音频数据,其中,所述音频数据包含采集的客服系统的语音数据;所述音频数据基于分布式原理存储在所述大数据平台;
数据预处理模块,用于基于语音识别模型对所述音频数据进行处理,将所述音频数据转化为文本数据,所述文本数据包含若干文本,所述文本包含字、词与句子;
时间戳标记模块,用于获取所述音频数据的时间信息,根据所述时间信息为所述文本数据的文本标记时间戳;
特征识别模块,用于基于所述文本对应的时间戳建立所述音频数据的音量及语速的时间序列,并基于所述时间序列识别所述音频数据的音量特征与语速特征;
情绪识别模块,用于基于自然语言处理模型对所述文本进行识别,并基于所述音量特征与所述语速特征对识别后的文本进行特征判定,确定所述音频数据的情绪特征;
决策反馈模块,用于根据所述文本与所述情绪特征确定问答策略信息,以将所述问答策略信息反馈至客服系统。
可选地,所述数据获取模块还用于:
向大数据平台发送数据获取指令以获取加密的数据信息,其中,大数据平台响应于所述获取指令,从分布式的存储设备中获取已加密的数据信息;
根据预设的加密算法对所述数据信息进行计算,获取数据信息中的音频数据。
可选地,所述特征识别模块还用于:
基于所述文本对应的时间戳对所述音频数据进行分段,获得分段后的若干个子音频数据;
基于所述子音频数据包含的文本对应的时间戳建立所述子音频数据的音量及语速的时间序列;
基于所述时间序列识别所述子音频数据的音量特征与语速特征,以及所述子音频数据之间的音量特征与语速特征。
可选地,所述特征识别模块还用于:
获取音频数据的分贝信息,根据所述文本对应的时间戳确定每个文本的分贝数;
根据每个文本的分贝数以及所述时间戳的顺序建立音频数据的音量时间序列;
基于所述音量时间序列计算音量的移动平均值和移动标准差;
根据所述移动平均值和移动标准差识别音量的规律以及异常;
根据所述音量的规律以及异常确定音量特征。
可选地,所述特征识别模块还用于:
根据所述文本对应的时间戳确定单位时间内文本的数量;
根据单位时间内文本的数量及所述时间戳的顺序建立音频数据的语速时间序列;
基于所述语速时间序列计算语速的移动平均值和移动标准差;
根据所述移动平均值和移动标准差识别语速的规律以及异常;
根据所述音量的规律以及异常确定语速特征。
可选地,所述情绪识别模块还用于:
基于自然语言处理模型对所述文本进行识别,得到文本内容;
基于预设的情绪识别模型对所述文本内容进行编码处理,得到文本内容编码特征;
基于所述情绪识别模型对所述文本内容编码特征进行情绪识别,得到所述文本内容编码特征的初始情绪类别;
基于预设的情绪词表对所述文本内容进行情绪特征词识别,得到识别结果;
根据所述识别结果和所述初始情绪类别,确定所述文本内容信息对应的目标情绪类别;
基于所述音量特征、所述语速特征与目标情绪类别,确定所述音频数据的情绪特征。
可选地,所述决策反馈模块还用于:
根据所述识别后的文本确定客服语音场景;
根据所述客服语音场景与所述情绪特征确定问答策略信息,包含根据所述客服语音场景与所述情绪特征在预设的策略信息库中匹配问答策略信息;或根据所述文本、所述客服语音场景与情绪特征基于设置的大语言模型生成问答策略信息,其中,所述大语言模型被配置为与若干种场景相关联;其中,所述问答策略信息包括引导话术以及标准话术。
为解决上述技术问题本发明实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述信息反馈方法的步骤。
为解决上述技术问题本发明实施例还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述信息反馈方法的步骤。
本发明创造实施例的有益效果是:通过获取大数据平台中的音频数据,其中,所述音频数据包含采集的客服系统的语音数据;所述音频数据基于分布式原理存储在所述大数据平台;基于语音识别模型对所述音频数据进行处理,将所述音频数据转化为文本数据,所述文本数据包含若干文本,所述文本包含字、词与句子;获取所述音频数据的时间信息,根据所述时间信息为所述文本数据的文本标记时间戳;基于所述文本对应的时间戳建立所述音频数据的音量及语速的时间序列,并基于所述时间序列识别所述音频数据的音量特征与语速特征;基于自然语言处理模型对所述文本进行识别,并基于所述音量特征与所述语速特征对识别后的文本进行特征判定,确定所述音频数据的情绪特征;根据所述文本与所述情绪特征确定问答策略信息,以将所述问答策略信息反馈至客服系统,基于自动语音识别、自然语言处理、大数据分析以及声音的音量及语速分析等多个模态实时对客户的问答通话语音进行全量分析,快速发现通话中客户的问题,并根据分析音频数据的特征进行场景识别和客户情绪感知,洞察通话内容与客户情绪,基于用户情绪与会话场景推荐不同的引导话术,为用户提供准确以及差异化的语音客服服务,从而提高问答准确率及时效性,提高服务质量和客户满意度。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请一个具体实施例的信息反馈方法的基本流程示意图;
图2为本申请一个具体实施例的信息反馈装置的基本结构示意图;
图3为本申请一个具体实施例的计算机设备的基本结构框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
本申请的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
本申请中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
本申请所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本申请的技术方案所调用即可。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
请参阅图1,图1为本实施例信息反馈方法的基本流程示意图。如图1所示,包括:
S1100、获取大数据平台中的音频数据,其中,所述音频数据包含采集的客服系统的语音数据;所述音频数据基于分布式原理存储在所述大数据平台;
本实施例应用于智能信息问答交互场景,包括基于人工智能的智慧客服服务系统,基于智能语音助手的问答机器人,人工客服服务系统等,利用人工智能(AI)的多模态识别技术作为基础,对信息问答交互进行赋能,在信息问答交互中能够提供实时、准确的信息问答、决策支持和个性化服务。本实施例中,基于一可移植的多模态情绪识别的信息问答系统,为信息问答场景提供问答服务,该信息问答系统的系统架构由多个独立的模块组成,即支持模块化设计,以便各个模块可以灵活地结合或单独运行,并且,各个模块之间以预定义的接口交互信息,让数据流在系统中高效传递,完成高效的交互,该信息问答系统可以接入客服系统,从而为客服系统提供准确的信息问答、决策支持和个性化服务。首先获取大数据平台中的音频数据,用户通过客服系统与人工智能客服或者人工客服进行通话,在通话过程中,客服系统会实时记录通话的音频数据,由于客服通话的服务需求,音频数据会实时地记录并保存到大数据平台,优选地,音频数据会通过加密后保存到大数据平台,然后再从大数据平台获取相应的音频数据,进而对音频数据进行分析,其中,所述音频数据包含采集的客服系统的语音数据,该语音数据包含了用户接通客服系统后的完整通话语音。
需要指出的是,本实施例所述音频数据基于分布式原理存储在所述大数据平台,由于客服系统的音频数据的数据量庞大,将音频数据通过分布式原理存储在大数据平台,可以通过不同分布式节点分散存储客服系统的音频数据,当需要获取音频数据时,可以从相应的节点处获取音频数据,提高数据读取的效率。
需要指出的是,本实施例所述信息问答系统可以对用户与客服的实时通话进行分析,即当用户通过客服系统与客服实时通话时,无论使用的是人工智能机器人问答还是人工问答,都可以实时地为通话提供支持;另外,所述信息问答系统也可以对用户的非实时通话进行分析,例如用户的留言通话,当用户通过客服系统留言后,留言的音频数据会记录到大数据平台中,再从大数据平台中获取该音频数据,然后为该留言通话提供支持。
需要指出的是,本实施例的信息问答系统、客服系统、大数据平台可以理解为同一个系统中的不同模块,不同模块之间通过预定义的接口交互信息,使得数据流能够在不同模块之间快速流转,从而提高分析音频数据的时效性,提高客服问答信息反馈的效率。
S1200、基于语音识别模型对所述音频数据进行处理,将所述音频数据转化为文本数据,所述文本数据包含若干文本,所述文本包含字、词与句子;
在获取大数据平台中的音频数据之后,基于语音识别模型对所述音频数据进行处理,将所述音频数据转化为文本数据,其中,本实施例的信息问答系统,可以是在特定领域下适用的系统,例如银行领域、医院领域、法律咨询领域、民生领域、交通领域等,在获取大数据平台中的音频数据之后,需要对自然语言数据进行解析,本实施例使用预设的语音识别模型对所述音频数据进行处理,将所述音频数据转化为文本数据,具体的,在语音识别模型中,通过配置隐马尔可夫算法子模型(HMM)以及高斯混合算法子模型(GMM),并且将配置的子模型融合特定领域、特定人群、特定方言的数据对音频数据进行识别,将音频数据中的语音转化为文本,从而增强识别语音转化为文本的准确性。进一步的,本实施例在将音频数据转化为文本的过程中,还对所述文本进行分词预处理,当对文本进行分词预处理之后,检测文本中的空值,对分词后的文本的空值进行去空值化处理,再者,如果分词后的文本存在歧义或者错误,对所述存在歧义或者错误的文本进行标注以及预纠错处理,所述预纠错处理即使用预设正常组合的文本替换所述存在歧义或者错误的文本,完成对所述音频数据进行处理,将所述音频数据转化为文本数据。
需要指出的是,由于对所述音频数据进行文本转化以及分词、预纠错处理,转化的文本数据包含若干文本,该文本包括字、词与句子,其中,句子是由不同的字或词组合而成的,即将音频数据对应的文本划分为字、词以及句子多个维度,以通过多个维度对音频数据对应的文本进行分析,以提高对音频数据分析的准确性。
需要指出的是,在将音频数据进行处理转化为文本数据的过程中,如果存在用户发出的拟声声音,同样将拟声声音转化为相应的文本,并标注在文本数据中,例如音频数据中存在用户抽泣的声音,在该用户的正常说话的音频数据对应的文本之间,添加描述抽泣声音的文本,以准确地还原用户说话的状态。
需要指出的是,在将音频数据进行处理转化为文本数据的过程中,如果存在静音片段,则将静音片段以相应的文本进行记录。
S1300、获取所述音频数据的时间信息,根据所述时间信息为所述文本数据的文本标记时间戳;
在基于语音识别模型对所述音频数据进行处理,将所述音频数据转化为文本数据,所述文本数据包含若干文本,所述文本包含字、词与句子之后,需要对转化后的文本进行时间的标注,具体的,获取所述音频数据的时间信息,即对音频数据进行解码获得时间信息以及对应音频数据中的词语或音节,然后为所述转化得到的文本匹配对应的时间,根据所述时间信息为所述文本数据的文本标记时间戳,例如文本数据中包括“A1,A2,A3,A4,A5”等文本,通过获取的时间信息标记每一个文本的起始时间Tstart跟结束时间Tend,起始时间Tstart跟结束时间Tend即作为每一个文本的时间戳,根据时间信息依次匹配,从而为文本数据中的文本标记时间戳。
需要指出的是,在对文本中的字、词标记了起始时间Tstart跟结束时间Tend的时间戳之后,由多个字、词组成的句子即也获得相应的时间戳,不再需要单独对句子进行时间戳标记,从而减少资源的浪费。
需要指出的是,在为所述文本数据的文本标记时间戳时,经过采样分析,优选使用的时间精度为0.1s,其他时间精度也可以适用,本实施例通过选取合适的时间精度,可以在保证识别准确率的同时节省资源。
S1400、基于所述文本对应的时间戳建立所述音频数据的音量及语速的时间序列,并基于所述时间序列识别所述音频数据的音量特征与语速特征;
在获取所述音频数据的时间信息,根据所述时间信息为所述文本数据的文本标记时间戳后,需要根据标记有时间戳的文本对音频数据的特征进行分析,通过分析,当用户的情绪状态发生变化时,除了身体上的肢体、神态变化,其说话的音量以及语速也会相应地发生变化,因此,在对话场景中,分析音频数据中的音量以及语速的特征,则可以分析用户的情绪变化特征,本实施例中,首先基于所述文本对应的时间戳建立所述音频数据的音量及语速的时间序列,将所述音频数据中不同文本的音量随着时间的推移而变化建立相应的音量时间序列,该音量时间序列可以是二维的,即横轴是时间,纵轴是文本的音量;将所述音频数据中不同文本的变化幅度定义为语速,然后建立不同文本的变化幅度随着时间的推移的语速时间序列,同样的,语速时间序列可以是二维的,即横轴是时间,纵轴是语速。在建立所述音频数据的音量时间序列及语速时间序列之后,基于所述时间序列识别所述音频数据的音量特征与语速特征,即根据所述音量时间序列识别音量变化的规律,将音量变化的规律定义为音量特征,以及根据所述语速时间序列识别语速变化的规律,将语速变化的规律定义为音量特征。
需要指出的是,在基于所述时间序列识别所述音频数据的音量特征与语速特征的过程中,可以通过多个维度进行识别,包括通过字、词的维度识别音量特征与语速特征,以及通过句子的维度识别音量特征与语速特征,通过多维度的音量特征与语速特征的识别,从整句话到单个音节都能进行分析,准确地估计用户的音量及语速,提高特征识别的准确性。
S1500、基于自然语言处理模型对所述文本进行识别,并基于所述音量特征与所述语速特征对识别后的文本进行特征判定,确定所述音频数据的情绪特征;
在基于所述文本对应的时间戳建立所述音频数据的音量及语速的时间序列,并基于所述时间序列识别所述音频数据的音量特征与语速特征后,基于自然语言处理模型对所述文本进行识别,将文本数据送入到自然语言处理模型进行语言、语义的识别,分析每一段对话的表面含义,然后基于所述音量特征与所述语速特征对识别后的文本进行特征判定,在分析了每一段对话的表面含义之后,结合所述音量特征以及语速特征,确定每一段对话的情绪表现,从而确定所述音频数据包含的情绪特征,情绪特征可以表征用户的情绪状态。
需要指出的是,相同的情绪特征还包括不同等级的量化值,例如情绪特征是激动,其中,激动的情绪特征包含1-5若干个等级,通过分析音频数据的音量特征以及语速特定,确定所述情绪特征对应的级别。
S1600、根据所述文本与所述情绪特征确定问答策略信息,以将所述问答策略信息反馈至客服系统。
在基于自然语言处理模型对所述文本进行识别,并基于所述音量特征与所述语速特征对识别后的文本进行特征判定,确定所述音频数据的情绪特征后,根据所述文本与所述情绪特征确定问答策略信息,即首先根据文本中的上下文信息来确定信息的连贯性,然后基于上下文信息确定初步的问答策略信息,再根据所述情绪特征对初步的问答策略信息进行润色,从所述上下文信息中提取与当前的文本关联的关联变量,所述关联变量可以是上下文信息与当前文本中均存在的关键词,还可以是上下文信息与当前文本中具有相同/相近/相反意义的词,使得决策信息更加符合用户当前的真实意图以及情绪状态,然后根据所述情绪特征、关联变量对初步的问答策略信息进行润色,得到问答策略信息,以将所述问答策略信息反馈至客服系统,客服系统可以根据所述问答策略信息进行反馈,也可以以所述问答策略信息作为参考后进行反馈。
需要指出的是,在信息问答交互的过程中,根据不同用户的个性化特征,将所述问答策略信息与用户的个性化特征进行配置,然后输出给用户。例如,当用户与人工智能客服进行通话时,将所述问答策略信息反馈至客服系统,客服系统根据所述问答策略信息输出相应的语音,其中,该语音具有与所述问答策略信息相匹配的语速以及语调,以及与用户匹配的个性化特征。
上述实施方式中,通过获取大数据平台中的音频数据,其中,所述音频数据包含采集的客服系统的语音数据;所述音频数据基于分布式原理存储在所述大数据平台;基于语音识别模型对所述音频数据进行处理,将所述音频数据转化为文本数据,所述文本数据包含若干文本,所述文本包含字、词与句子;获取所述音频数据的时间信息,根据所述时间信息为所述文本数据的文本标记时间戳;基于所述文本对应的时间戳建立所述音频数据的音量及语速的时间序列,并基于所述时间序列识别所述音频数据的音量特征与语速特征;基于自然语言处理模型对所述文本进行识别,并基于所述音量特征与所述语速特征对识别后的文本进行特征判定,确定所述音频数据的情绪特征;根据所述文本与所述情绪特征确定问答策略信息,以将所述问答策略信息反馈至客服系统,基于自动语音识别、自然语言处理、大数据分析以及声音的音量及语速分析等多个模态实时对客户的问答通话语音进行全量分析,快速发现通话中客户的问题,并根据分析音频数据的特征进行场景识别和客户情绪感知,洞察通话内容与客户情绪,基于用户情绪与会话场景推荐不同的引导话术,为用户提供准确以及差异化的语音客服服务,从而提高问答准确率及时效性,提高服务质量和客户满意度。
人类的语言所表达的意思,是最能够表达出人们真实的情感的,因此,语言转化的文本是人们表达情感时的主要特征载体。文本特征最能够表达出人们的情感,而音量特征和语速特征,是人们在进行情感表达时的附加特征载体。通过对人们语言表达过程中情绪表达时主次特征的深入研究,在提取了音量特征、语速特征和文本后。通过对文本进行识别,得到文本需要表达的主体意识后,基于音量特征和语速特征对文本进行特征判定的方案,相当于在识别用户的主体意识后,再通过附加特征对主体意识进行校正和确认,最终得到最为真实的情绪特征。这一方案与人们进行语言情绪表达时的主、次特征关系相契合,能够提升情感识别的准确率。
在一些实施方式中,为了更好的分配音量特征、语速特征对情绪特征的影响权重,需要通过文本对音频数据的应用场景进行识别,再根据应用场景对应的音量特征、语速特征的权重因子,对S1500中音量特征、语速特征的权重进行赋值,使识别得到的情绪特征更加精准。例如,当识别到音频数据的应用场景为“高谈阔论”时,则音量特征的权重因子较小,该场景下语速特征的权重因子则较大。当识别到音频数据的应用场景为“快速倾诉”时,则音量特征的权重因子较大,该场景下语速特征的权重因子则较小。
在一些实施方式中,S1100获取大数据平台中的音频数据,包括:
S1111、向大数据平台发送数据获取指令以获取加密的数据信息,其中,大数据平台响应于所述获取指令,从分布式的存储设备中获取已加密的数据信息;
本实施例中,在获取大数据平台中的音频数据的过程中,由于客服系统的音频数据会先存储到大数据平台,以对通话的音频数据进行保存,而在对音频数据进行分析时,需要首先向大数据平台发送数据获取指令,以获取保存到大数据平台中的音频数据,其中,音频数据保存到大数据平台的时候,需要对音频数据进行加密,防止音频数据被盗用或者泄露,所以,向大数据平台发送数据获取指令,获取的是加密后的音频数据,由于加密后的音频数据不仅包含原始音频信息,还包括其他加密信息,将加密后的音频数据定义为数据信息。
需要指出的是,当客服系统的通话正在进行时,通话的音频数据可以以缓存的形式保存到大数据平台中,以便快速地从大数据平台的缓存中获取所述音频数据。
需要指出的是,由于音频数据存储在大数据平台中的不同节点,当向大数据平台发送数据获取指令时,可以是直接从大数据平台获取相应的数据信息,也可以是通过数据交换中间服务向大数据平台获取相应的数据信息,通过向数据交换中间服务发送数据获取指令,由数据交换中间服务在大数据平台中搜集相应的数据信息后将数据进行返回,可以更好地分配数据的搜索资源。
需要指出的是,数据交换中间服务还可以对搜集到的数据信息进行中间计算后再返回,例如对数据信息进行清洗等中间计算,可以有效地减少数据传输占用的资源。
S1112、根据预设的加密算法对所述数据信息进行计算,获取数据信息中的音频数据。
在向大数据平台发送数据获取指令以获取加密的数据信息,其中,大数据平台响应于所述获取指令,从分布式的存储设备中获取已加密的数据信息之后,还包括根据预设的加密算法对所述数据信息进行计算,对所述数据信息进行解码,获取数据信息中包含的音频数据,其中,如果是处于通话过程中的音频数据,则根据预设的加密算法持续地对获取到的数据信息进行计算,从而持续地获取到通话过程中的音频数据,保证对通话过程中的音频数据的全局识别,从而提高音频数据的识别准确度。
本实施方式通过对音频数据进行加密后存储到大数据平台,防止音频数据被盗用或者泄露,保证数据的安全性,再向大数据平台发送数据获取指令以获取加密的数据信息,根据预设的加密算法对所述数据信息进行计算,获取数据信息中的音频数据,保证数据安全的基础上,对通话过程中的音频数据的全局识别,从而提高音频数据的识别准确度。
在一些实施方式中,S1400基于所述文本对应的时间戳建立所述音频数据的音量及语速的时间序列,并基于所述时间序列识别所述音频数据的音量特征与语速特征,包括:
S1411、基于所述文本对应的时间戳对所述音频数据进行分段,获得分段后的若干个子音频数据;
在基于所述文本对应的时间戳建立所述音频数据的音量及语速的时间序列的过程中,存在通话时间较长、音频数据较大的情况,为了更快速、准确地对音频数据进行分析,通过配置不同的采样分析频率将音频数据进行分段,例如采样分析频率可以配置为1秒,5秒,10秒,不同的采样分析频率可以将音频数据分为不同长度的片段,具体的,基于所述文本对应的时间戳对所述音频数据进行分段,获得分段后的若干个子音频数据,在本实施例中,基于文本的时间戳按照预设的采样分析频率将所述音频数据进行分段,例如以1秒进行分段,当文本的时间戳在同1秒内时,将该些文本确定为同一个分段的子音频数据,从而得到多个子音频数据。
需要指出的是,在对所述音频数据进行分段,获得分段后的若干个子音频数据的过程中,还可以先识别每一段子音频数据中的静音或者噪音,然后将静音或者噪音的部分作特殊处理,例如将静音或者噪音的部分不进行计算。
S1412、基于所述子音频数据包含的文本对应的时间戳建立所述子音频数据的音量及语速的时间序列;
在基于所述文本对应的时间戳对所述音频数据进行分段,获得分段后的若干个子音频数据之后,即可以根据所述时间戳确定哪一些文本是落入在同一个子音频数据中的,即确定子音频数据包含的文本,然后基于所述子音频数据包含的文本对应的时间戳建立所述子音频数据的音量及语速的时间序列,建立子音频数据所对应的音量及语速的时间序列可以采用S1400中的实施方式,基于所述文本对应的时间戳建立所述子音频数据的音量及语速的时间序列,将所述子音频数据中不同文本的音量随着时间的推移而变化建立相应的音量时间序列,同样建立不同文本的变化幅度随着时间的推移的语速时间序列,为每一段子音频数据建立对应的音量时间序列及语速时间序列。
S1412、基于所述时间序列识别所述子音频数据的音量特征与语速特征,以及所述子音频数据之间的音量特征与语速特征。
在基于所述子音频数据包含的文本对应的时间戳建立所述子音频数据的音量及语速的时间序列之后,基于所述时间序列识别所述子音频数据的音量特征与语速特征,即根据所述音量时间序列识别音量变化的规律,将音量变化的规律定义为音量特征,以及根据所述语速时间序列识别语速变化的规律,将语速变化的规律定义为音量特征,进一步的,本实施例还识别两个子音频数据之间音量变化的特征,以及语速变化的特征,从而获得所述子音频数据之间的音量特征与语速特征,可以更准确地描述音频数据的音量特征以及语速特征,从而提高音频数据分析的准确性。
本实施方式基于文本对应的时间戳对所述音频数据进行分段,获得若干个子音频数据,基于所述子音频数据包含的文本对应的时间戳建立所述子音频数据的音量及语速的时间序列,基于所述时间序列识别所述子音频数据的音量特征与语速特征,以及所述子音频数据之间的音量特征与语速特征,通过将音频数据分成多段子音频数据进行后分析音量特征以及语速特征,可以更好地了解音量以及语速在整个音频中的变化,可以准确地量化音频数据中的特征,提高对用户意图识别、情绪识别的准确性。
在一些实施方式中,S1400基于所述文本对应的时间戳建立所述音频数据的音量及语速的时间序列,并基于所述时间序列识别所述音频数据的音量特征与语速特征,包括:
S1421、获取音频数据的分贝信息,根据所述文本对应的时间戳确定每个文本的分贝数;
在基于所述文本对应的时间戳建立所述音频数据的音量及语速的时间序列,并基于所述时间序列识别所述音频数据的音量特征与语速特征的过程中,本实施例首先建立音量的时间序列,具体的,获取音频数据的分贝信息,即将音频数据进行分贝计算,然后根据文本对应的时间戳确定对应文本的分贝数,其中,计算音频数据的分贝数的过程,根据客服系统录制的音频数据的音量,对其进行解码计算,得到音量的分贝数。在确定每个文本的分贝数之后,将每个文本的分贝数与对应的时间戳进行关联,得到文本、时间以及音量分贝的关联关系。
可以指出的是,在根据所述文本对应的时间戳确定每个文本的分贝数中,将获取文本中与预设的特定文本进行匹配并对齐,确定特定文本在音频数据中的位置,然后获取该位置处的分贝数,将每个文本的分贝数与对应的时间戳进行关联,得到文本、时间以及音量分贝的关联关系。
S1422、根据每个文本的分贝数以及所述时间戳的顺序建立音频数据的音量时间序列;
在获取音频数据的分贝信息,根据所述文本对应的时间戳确定每个文本的分贝数之后,由于已经得到了文本、时间以及音量分贝的关联关系,根据每个文本的分贝数以及所述时间戳的顺序建立音频数据的音量时间序列, 从而建立每一个文本的音量分贝数与时间的关系,其中,文本的音量分贝数与时间可以用二维数据表中的曲线进行表示,即,将每一个文本对应的分贝数按照时间顺序进行连接,得到文本的音量分贝数与时间的曲线关系,即音量时间序列。
S1423、基于所述音量时间序列计算音量的移动平均值和移动标准差;
在根据每个文本的分贝数以及所述时间戳的顺序建立音频数据的音量时间序列之后,基于所述音量时间序列计算音量的移动平均值和移动标准差,计算音量的移动平均值和移动标准差中,首先确定一个滑动窗口,该滑动窗口是一个固定的时间段,例如1秒,然后将滑动窗口套用到音量时间序列上,使得滑动窗口包含了该固定时间段内的数据(如1秒内的数据),然后计算第一个窗口内的分贝平均值,然后将窗口沿着音量时间序列的时间轴进行移动,计算第二个窗口内的分贝平均值,依次处理,得到音量时间序列的各个窗口的分贝平均值,该其定义为音量的移动平均值;在得到移动平均值之后,计算每一个窗口之间的差值的标准差,得到音量的移动标准差。
S1422、根据所述移动平均值和移动标准差识别音量的规律以及异常;
在基于所述音量时间序列计算音量的移动平均值和移动标准差之后,根据所述音量的所述移动平均值和移动标准差识别音量的规律以及异常,在一种实施方式中,使用自相关函数在所述移动平均值和移动标准差的相关曲线中识别曲线的周期性变化,将曲线中的周期性变化确定为音量的规律,在确定音量的周期性变化时,识别移动平均值和移动标准差的相关曲线中突然变化的节点,将移动平均值与标准值进行比较,确定音量突然变大或变小的节点,如果存在音量突然变大或变小的节点,则确定该节点为异常节点,同样的,根据移动平均值和移动标准差,确定突变的节点,再与音量突变的节点结合进行,确定音频数据中的异常。
S1422、根据所述音量的规律以及异常确定音量特征。
在根据所述移动平均值和移动标准差识别音量的规律以及异常之后,根据所述音量的规律以及异常确定音量特征,音量的规律可以识别用户的说话规律,音量的异常可以识别用户的情绪变化,在一种实施方式中,根据所述音量的规律以及异常与预设的音量标准值进行对比,确定音量的特征,在另一种实施方式中,根据所述音量的规律以及异常与用户历史的音量标准值进行对比,确定音量的特征,或者,与用户的用户画像相近的其他用户的音量标准值进行对比,确定音量的特征,音量特征可以推断出用户的情绪特征,例如如果用户的音量突然变大,可能说明他们处于激动的状态;反之,如果用户的音量变低,可能说明他们处于犹豫或者困惑的状态,从而为准确识别用户的意图及情绪提高更好的服务。
可以指出的是,在对用户的音量时间序列进行分析,确定音量特征时,可以采用上述实施例的方式,将音频数据分段为若干个子音频数据,然后识别每一个子音频数据对应的音量时间序列,再识别每一个子音频数据的音量特征,从整句话到单个音节都能进行分析,实时地分析用户的音量规律及音量变化,提高音频数据分析的时效性。
可以指出的是,在分析音量特征时,可以采用自动化的工具和流程,对分析音量特征的模型性能进行定期的测试和评估,根据结果调整模型的参数,优化其性能。此外,还可以利用新收集到的音频数据,对模型进行持续的训练和更新,以适应语言和对话的动态变化,通过迭代的优化策略,确保音频数据的准确度能够不断提升,更好地服务于智慧客服系统。
本实施方式通过获取音频数据的分贝信息,根据所述文本对应的时间戳确定每个文本的分贝数,建立音频数据的音量时间序列,基于所述音量时间序列计算音量的移动平均值和移动标准差,根据所述移动平均值和移动标准差识别音量的规律以及异常,根据所述音量的规律以及异常确定音量特征,从而提高识别用户的意图及情绪的准确性。
众所周知,人们在进行情绪表达,出现情绪波动时,会在说话音量上出现异常的音量,而该异常的音量是有别于常规情绪下的音量规律的,因此,对音量中的常规规律和异常进行识别,再通过常规规律和异常数据对音量特征进行确定。能够明显的提高对音量特征确定的准确率。
在一些实施方式中,能够通过音量的规律以及异常计算得到用户的音量异常率,音量异常率对应设置有权重因子,该权重因子能够对S1500步骤中的音量特征进行权重赋值,权重赋值的设置使识别得到的情绪特征更加精准。
在一些实施方式中,S1400基于所述文本对应的时间戳建立所述音频数据的音量及语速的时间序列,并基于所述时间序列识别所述音频数据的音量特征与语速特征,包括:
S1431、根据所述文本对应的时间戳确定单位时间内文本的数量;
在基于所述文本对应的时间戳建立所述音频数据的音量及语速的时间序列,并基于所述时间序列识别所述音频数据的音量特征与语速特征的过程中,还需要建立语速时间序列以及识别语速特征,语速定义为一段时间内说出的词或音节的数量,其计算公式为:语速(wpm)=总时间(分钟)/总词数(或音节数),其中wpm 代表每分钟词数 (words perminute):总词数在给定的时间段内说出的总词数或音节数,总时间是音频的持续时间,例如以分钟为单位,其中,词数也即是文本的数量,例如,如果一个人在1分钟内说了150个词(文本),那么他的语速是150 wpm。具体的,本实施例根据所述文本对应的时间戳确定单位时间内文本的数量,通过所述文本对应的时间戳,确定每一个文本的持续时间,根据单位时间内文本的数量及所述时间戳的顺序建立音频数据的语速时间序列,单位时间可以是1秒,即用户说话时每1秒包含的文本的数量,即为该1秒内的语速。
S1432、根据单位时间内文本的数量及所述时间戳的顺序建立音频数据的语速时间序列;
在根据所述文本对应的时间戳确定单位时间内文本的数量之后,根据单位时间内文本的数量及所述时间戳的顺序建立音频数据的语速时间序列,即将音频数据以单位时间进行划分,然后将每单位时间的语速与时间进行关联,建立音频数据的语速时间序列。
S1433、基于所述语速时间序列计算语速的移动平均值和移动标准差;
在根据单位时间内文本的数量及所述时间戳的顺序建立音频数据的语速时间序列之后,基于所述语速时间序列计算语速的移动平均值和移动标准差,与计算音量的移动平均值与移动标准差采用相同的原理,确定一个滑动窗口,该滑动窗口是一个固定的时间段,然后将滑动窗口套用到语速时间序列上,使得滑动窗口包含了该固定时间段内的数据,然后计算第一个窗口内的语速平均值,然后将窗口沿着语速时间序列的时间轴进行移动,计算第二个窗口内的语速平均值,依次处理,得到语速时间序列的各个窗口的语速平均值,该其定义为语速的移动平均值;在得到语速的移动平均值之后,计算每一个窗口之间的差值的标准差,得到语速的移动标准差。
S1434、根据所述移动平均值和移动标准差识别语速的规律以及异常;
在基于所述语速时间序列计算语速的移动平均值和移动标准差之后,根据语速的所述移动平均值和移动标准差识别语速的规律以及异常,其中,语速的所述移动平均值和移动标准差可以以曲线的形式进行表示,然后使用自相关函数在所述语速的移动平均值和移动标准差的曲线的周期性变化,将曲线的周期性变化确定为语速的规律,在确定语速的周期性变化时,识别语速的移动平均值和移动标准差的相关曲线中突然变化的节点,将该节点确定为语速的异常节点。例如如果用户的语速突然加快,可能说明他们处于激动或者紧张的状态;反之,如果用户的语速降低,可能说明他们处于犹豫或者困惑的状态,语速时间序列,语速的动平均值和移动标准差的相关曲线均会发生明显的变化,发生明显变化的节点即为异常节点。
S1435、根据所述音量的规律以及异常确定语速特征。
在根据所述移动平均值和移动标准差识别语速的规律以及异常之后,根据所述音量的规律以及异常确定语速特征,其中,在对用户的语速时间序列进行分析,识别语速特征时,可以将音频数据分段为若干个子音频数据,然后识别每一个子音频数据对应的语速时间序列,再识别每一个子音频数据的语速特征,从整句话到单个音节多个维度、多个模态进行分析,实时地分析用户的语速规律及异常,提高对用户的语速特征、情绪特征识别的准确性。
本实施方式通过根据所述文本对应的时间戳确定单位时间内文本的数量,并建立音频数据的语速时间序列,然后计算语速的移动平均值和移动标准差,根据所述移动平均值和移动标准差识别语速的规律以及异常,根据所述音量的规律以及异常确定语速特征,通过结合音量、语速等多个维度、多个模态进行分析,实时地分析用户的语速规律及异常,提高对用户的语速特征、情绪特征识别的准确性。
众所周知,人们在进行情绪表达,出现情绪波动时,会在说话语速上出现异常的语速,而该异常的语速是有别于常规情绪下的语速规律的,因此,对语速中的常规规律和异常进行识别,再通过常规规律和异常数据对语速特征进行确定。能够明显的提高对语速特征确定的准确率。
在一些实施方式中,能够通过语速的规律以及异常计算得到用户的语速异常率,语速异常率对应设置有权重因子,该权重因子能够对S1500步骤中的语速特征进行权重赋值,通过权重赋值使识别得到的情绪特征更加精准。
在一些实施方式中,为了使音量异常率和语速异常率对文本的综合权重值为1,设定激活函数,将音量异常率和语速异常率以及音频数据的应用场景输入到激活函数,由激活函数对音量异常率和语速异常率对应的权重因子进行映射,映射结果为音量异常率和语速异常率对应的权重因子的加权计算结果为1。激活函数的设置,能够合理的对音量异常率和语速异常率对应的权重因子进行分配,并且在分配时还能够均衡应用场景对二者的影响,使识别得到的情绪特征更加准确。
在一些实施方式中,S1500基于自然语言处理模型对所述文本进行识别,并基于所述音量特征与所述语速特征对识别后的文本进行特征判定,确定所述音频数据的情绪特征,包括:
S1511、基于自然语言处理模型对所述文本进行识别,得到文本内容;
在基于自然语言处理模型对所述文本进行识别,并基于所述音量特征与所述语速特征对识别后的文本进行特征判定,确定所述音频数据的情绪特征的过程中,首先基于自然语言处理模型对所述文本进行识别,得到文本内容,即确定文本对应的含义,包含字、词、句子的含义,理解了文本的含义,才能更好地理解用户的意图,同时还可以结合用户的意图对情绪特征进行准确的判定。
S1512、基于预设的情绪识别模型对所述文本内容进行编码处理,得到文本内容编码特征;
S1513、基于所述情绪识别模型对所述文本内容编码特征进行情绪识别,得到所述文本内容编码特征的初始情绪类别;
在基于自然语言处理模型对所述文本进行识别,得到文本内容之后,针对不同的文本内容,基于预设的情绪识别模型对所述文本内容进行编码处理,得到文本内容编码特征,当人的情绪发生变化时,一些特定的词会在说话的时候频繁出现,因此基于预设的情绪识别模型对所述文本内容进行编码处理,得到文本内容所对应的编码特征,该编码特征可以对情绪进行分类,是偏向激动类型的情绪分类,还是偏向困惑类型的情绪分类,还是偏向生气类型的情绪分类,还是偏向正常语气的情绪分类,即在基于预设的情绪识别模型对所述文本内容进行编码处理,得到文本内容编码特征之后,基于所述情绪识别模型对所述文本内容编码特征进行情绪识别,得到所述文本内容编码特征的初始情绪类别,从而确定当前用户的基本情绪类别。
S1514、基于预设的情绪词表对所述文本内容进行情绪特征词识别,得到识别结果;
在基于所述情绪识别模型对所述文本内容编码特征进行情绪识别,得到所述文本内容编码特征的初始情绪类别后,基于预设的情绪词表对所述文本内容进行情绪特征词识别,得到识别结果,具体的,根据预设的情绪词表对文本内容进行匹配,识别文本内容中是否包含与预设的情绪词表相关联的文本,包括相同的词语或者意思相近的词语,其中,所述预设的情绪词表是与所述初始情绪类别相关联的,例如初始情绪类别为激动,则与激动的情绪词表进行匹配、识别。
S1515、根据所述识别结果和所述初始情绪类别,确定所述文本内容信息对应的目标情绪类别;
在基于预设的情绪词表对所述文本内容进行情绪特征词识别,得到识别结果之后,根据所述识别结果和所述初始情绪类别,确定所述文本内容信息对应的目标情绪类别,在一种实施方式中,相同的情绪类别还包括不同等级的量化值,例如情绪类别是激动,其中,激动的情绪类别包含1-5若干个等级,根据上述初始情绪类别以及是否包含相应等级的情绪特征词确定最终的情绪类别,即确定所述文本内容信息对应的目标情绪类别。
S1516、基于所述音量特征、所述语速特征与目标情绪类别,确定所述音频数据的情绪特征。
在根据所述识别结果和所述初始情绪类别,确定所述文本内容信息对应的目标情绪类别之后,基于所述音量特征、所述语速特征与目标情绪类别,确定所述音频数据的情绪特征,通过音量、语速以及情绪类别等多个维度、多个模态的结合,对音频数据中用户的声音表现进行全面的分析以及特征提取和识别,从而基于用户的音频数据确定音频的情绪特征,即用户说话时候的情绪状态特征。
本实施方式通过基于自然语言处理模型对所述文本进行识别,得到文本内容,基于预设的情绪识别模型对所述文本内容进行编码处理,得到文本内容编码特征,再根据文本内容编码特征确定初始情绪类别,然后结合预设的情绪词表确定目标情绪类别,最后结合音量、语速以及情绪类别等多个维度、多个模态,对音频数据中用户的声音特征进行全面的分析,从而提高识别用户的意图及情绪的准确性。
在一些实施方式中,所述S1600根据所述文本与所述情绪特征确定问答策略信息,以将所述问答策略信息反馈至客服系统,包括:
S1611、根据所述识别后的文本确定客服语音场景;
S1612、根据所述客服语音场景与所述情绪特征确定问答策略信息,包含根据所述客服语音场景与所述情绪特征在预设的策略信息库中匹配问答策略信息;或根据所述文本、所述客服语音场景与情绪特征基于设置的大语言模型生成问答策略信息,其中,所述大语言模型被配置为与若干种场景相关联;其中,所述问答策略信息包括引导话术以及标准话术。
所述文本与所述情绪特征确定问答策略信息,以将所述问答策略信息反馈至客服系统的过程中,根据所述识别后的文本确定客服语音场景,即确定当前客服与用户的对话处于哪一个业务场景,不同的业务场景可以配置不同的问答策略信息,再根据所述客服语音场景与所述情绪特征确定问答策略信息,其中,根据所述客服语音场景与所述情绪特征确定问答策略信息的一种实施方式是根据所述客服语音场景与所述情绪特征在预设的策略信息库中匹配问答策略信息,在预设的策略信息库中匹配相应的问答策略信息,可以快速地进行问答策略信息的匹配,当问答策略信息反馈至客服系统时,客服人员可以快速地了解问答策略信息的相关内容,然后基于所述问答策略信息向用户反馈;根据所述客服语音场景与所述情绪特征确定问答策略信息的一种实施方式是根据所述文本、所述客服语音场景与情绪特征基于设置的大语言模型生成问答策略信息,其中,所述大语言模型被配置为与若干种场景相关联,在大语言模型中,将所述文本以及确定的客服语音场景以及用户的情绪特征作为大语言模型的输入,并且匹配预设的问句,使得大语言模型能够根据输入生成相应的问答信息;其中,所述问答策略信息包括引导话术以及标准话术,然后将所述问答信息反馈至客服系统,可以个性化地为不同用户定制不同的问答策略信息,提高问答策略的应用。
本实施方式通过根据所述识别后的文本确定客服语音场景,根据所述客服语音场景与所述情绪特征确定问答策略信息,基于语音场景以及情绪特征的结合,洞察通话内容与客户情绪,为用户提供准确以及差异化的语音客服服务,从而提高问答准确率及时效性。
具体请参阅图2,图2为本实施例信息反馈装置基本结构示意图。
如图2所示,一种信息反馈装置,包括:数据获取模块1100,用于获取大数据平台中的音频数据,其中,所述音频数据包含采集的客服系统的语音数据;所述音频数据基于分布式原理存储在所述大数据平台;数据预处理模块1200,用于基于语音识别模型对所述音频数据进行处理,将所述音频数据转化为文本数据,所述文本数据包含若干文本,所述文本包含字、词与句子;时间戳标记模块1300,用于获取所述音频数据的时间信息,根据所述时间信息为所述文本数据的文本标记时间戳;特征识别模块1400,用于基于所述文本对应的时间戳建立所述音频数据的音量及语速的时间序列,并基于所述时间序列识别所述音频数据的音量特征与语速特征;情绪识别模块1500,用于基于自然语言处理模型对所述文本进行识别,并基于所述音量特征与所述语速特征对识别后的文本进行特征判定,确定所述音频数据的情绪特征;决策反馈模块1600,用于根据所述文本与所述情绪特征确定问答策略信息,以将所述问答策略信息反馈至客服系统。
上述的信息反馈装置通过获取大数据平台中的音频数据,其中,所述音频数据包含采集的客服系统的语音数据;所述音频数据基于分布式原理存储在所述大数据平台;基于语音识别模型对所述音频数据进行处理,将所述音频数据转化为文本数据,所述文本数据包含若干文本,所述文本包含字、词与句子;获取所述音频数据的时间信息,根据所述时间信息为所述文本数据的文本标记时间戳;基于所述文本对应的时间戳建立所述音频数据的音量及语速的时间序列,并基于所述时间序列识别所述音频数据的音量特征与语速特征;基于自然语言处理模型对所述文本进行识别,并基于所述音量特征与所述语速特征对识别后的文本进行特征判定,确定所述音频数据的情绪特征;根据所述文本与所述情绪特征确定问答策略信息,以将所述问答策略信息反馈至客服系统,基于自动语音识别、自然语言处理、大数据分析以及声音的音量及语速分析等多个模态实时对客户的问答通话语音进行全量分析,快速发现通话中客户的问题,并根据分析音频数据的特征进行场景识别和客户情绪感知,洞察通话内容与客户情绪,基于用户情绪与会话场景推荐不同的引导话术,为用户提供准确以及差异化的语音客服服务,从而提高问答准确率及时效性,提高服务质量和客户满意度。
可选地,所述数据获取模块1100还用于:
向大数据平台发送数据获取指令以获取加密的数据信息,其中,大数据平台响应于所述获取指令,从分布式的存储设备中获取已加密的数据信息;
根据预设的加密算法对所述数据信息进行计算,获取数据信息中的音频数据。
可选地,所述特征识别模块1400还用于:
基于所述文本对应的时间戳对所述音频数据进行分段,获得分段后的若干个子音频数据;
基于所述子音频数据包含的文本对应的时间戳建立所述子音频数据的音量及语速的时间序列;
基于所述时间序列识别所述子音频数据的音量特征与语速特征,以及所述子音频数据之间的音量特征与语速特征。
可选地,所述特征识别模块1400还用于:
获取音频数据的分贝信息,根据所述文本对应的时间戳确定每个文本的分贝数;
根据每个文本的分贝数以及所述时间戳的顺序建立音频数据的音量时间序列;
基于所述音量时间序列计算音量的移动平均值和移动标准差;
根据所述移动平均值和移动标准差识别音量的规律以及异常;
根据所述音量的规律以及异常确定音量特征。
可选地,所述特征识别模块1400还用于;
根据所述文本对应的时间戳确定单位时间内文本的数量;
根据单位时间内文本的数量及所述时间戳的顺序建立音频数据的语速时间序列;
基于所述语速时间序列计算语速的移动平均值和移动标准差;
根据所述移动平均值和移动标准差识别语速的规律以及异常;
根据所述音量的规律以及异常确定语速特征。
可选地,所述情绪识别模块1500还用于;
基于自然语言处理模型对所述文本进行识别,得到文本内容;
基于预设的情绪识别模型对所述文本内容进行编码处理,得到文本内容编码特征;
基于所述情绪识别模型对所述文本内容编码特征进行情绪识别,得到所述文本内容编码特征的初始情绪类别;
基于预设的情绪词表对所述文本内容进行情绪特征词识别,得到识别结果;
根据所述识别结果和所述初始情绪类别,确定所述文本内容信息对应的目标情绪类别;
基于所述音量特征、所述语速特征与目标情绪类别,确定所述音频数据的情绪特征。
可选地,所述决策反馈模块1600还用于:
根据所述识别后的文本确定客服语音场景;
根据所述客服语音场景与所述情绪特征确定问答策略信息,包含根据所述客服语音场景与所述情绪特征在预设的策略信息库中匹配问答策略信息;或根据所述文本、所述客服语音场景与情绪特征基于设置的大语言模型生成问答策略信息,其中,所述大语言模型被配置为与若干种场景相关联;其中,所述问答策略信息包括引导话术以及标准话术。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图3,图3为本实施例计算机设备基本结构框图。
如图3所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种交易凭证上链法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种信息反馈方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图2中数据获取模块1100、数据预处理模块1200、时间戳标记模块1300、特征识别模块1400、情绪识别模块1500和决策反馈模块1600的具体功能,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有信息反馈装置中执行所有子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
计算机设备通过获取大数据平台中的音频数据,其中,所述音频数据包含采集的客服系统的语音数据;所述音频数据基于分布式原理存储在所述大数据平台;基于语音识别模型对所述音频数据进行处理,将所述音频数据转化为文本数据,所述文本数据包含若干文本,所述文本包含字、词与句子;获取所述音频数据的时间信息,根据所述时间信息为所述文本数据的文本标记时间戳;基于所述文本对应的时间戳建立所述音频数据的音量及语速的时间序列,并基于所述时间序列识别所述音频数据的音量特征与语速特征;基于自然语言处理模型对所述文本进行识别,并基于所述音量特征与所述语速特征对识别后的文本进行特征判定,确定所述音频数据的情绪特征;根据所述文本与所述情绪特征确定问答策略信息,以将所述问答策略信息反馈至客服系统,基于自动语音识别、自然语言处理、大数据分析以及声音的音量及语速分析等多个模态实时对客户的问答通话语音进行全量分析,快速发现通话中客户的问题,并根据分析音频数据的特征进行场景识别和客户情绪感知,洞察通话内容与客户情绪,基于用户情绪与会话场景推荐不同的引导话术,为用户提供准确以及差异化的语音客服服务,从而提高问答准确率及时效性,提高服务质量和客户满意度。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例信息反馈方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (9)

1.一种信息反馈方法,其特征在于,包括:
获取大数据平台中的音频数据,其中,所述音频数据包含采集的客服系统的语音数据;所述音频数据基于分布式原理存储在所述大数据平台;
基于语音识别模型对所述音频数据进行处理,将所述音频数据转化为文本数据,所述文本数据包含若干文本,所述文本包含字、词与句子;
获取所述音频数据的时间信息,根据所述时间信息为所述文本数据的文本标记时间戳;
基于所述文本对应的时间戳建立所述音频数据的音量及语速的时间序列,并基于所述时间序列识别所述音频数据的音量特征与语速特征;
基于自然语言处理模型对所述文本进行识别,并基于所述音量特征与所述语速特征对识别后的文本进行特征判定,确定所述音频数据的情绪特征;
根据所述文本与所述情绪特征确定问答策略信息,以将所述问答策略信息反馈至客服系统;
所述基于所述文本对应的时间戳建立所述音频数据的音量及语速的时间序列,并基于所述时间序列识别所述音频数据的音量特征与语速特征,包括:
根据所述文本对应的时间戳确定单位时间内文本的数量;
根据单位时间内文本的数量及所述时间戳的顺序建立音频数据的语速时间序列;
基于所述语速时间序列计算语速的移动平均值和移动标准差;
根据所述移动平均值和移动标准差识别语速的规律以及异常;
根据所述音量的规律以及异常确定语速特征。
2.根据权利要求1所述的信息反馈方法,其特征在于,所述获取大数据平台中的音频数据,包括:
向大数据平台发送数据获取指令以获取加密的数据信息,其中,大数据平台响应于所述获取指令,从分布式的存储设备中获取已加密的数据信息;
根据预设的加密算法对所述数据信息进行计算,获取数据信息中的音频数据。
3.根据权利要求1所述的信息反馈方法,其特征在于,所述基于所述文本对应的时间戳建立所述音频数据的音量及语速的时间序列,并基于所述时间序列识别所述音频数据的音量特征与语速特征,包括:
基于所述文本对应的时间戳对所述音频数据进行分段,获得分段后的若干个子音频数据;
基于所述子音频数据包含的文本对应的时间戳建立所述子音频数据的音量及语速的时间序列;
基于所述时间序列识别所述子音频数据的音量特征与语速特征,以及所述子音频数据之间的音量特征与语速特征。
4.根据权利要求1所述的信息反馈方法,其特征在于,所述基于所述文本对应的时间戳建立所述音频数据的音量及语速的时间序列,并基于所述时间序列识别所述音频数据的音量特征与语速特征,包括:
获取音频数据的分贝信息,根据所述文本对应的时间戳确定每个文本的分贝数;
根据每个文本的分贝数以及所述时间戳的顺序建立音频数据的音量时间序列;
基于所述音量时间序列计算音量的移动平均值和移动标准差;
根据所述移动平均值和移动标准差识别音量的规律以及异常;
根据所述音量的规律以及异常确定音量特征。
5.根据权利要求1所述的信息反馈方法,其特征在于,所述基于自然语言处理模型对所述文本进行识别,并基于所述音量特征与所述语速特征对识别后的文本进行特征判定,确定所述音频数据的情绪特征,包括:
基于自然语言处理模型对所述文本进行识别,得到文本内容;
基于预设的情绪识别模型对所述文本内容进行编码处理,得到文本内容编码特征;
基于所述情绪识别模型对所述文本内容编码特征进行情绪识别,得到所述文本内容编码特征的初始情绪类别;
基于预设的情绪词表对所述文本内容进行情绪特征词识别,得到识别结果;
根据所述识别结果和所述初始情绪类别,确定所述文本内容信息对应的目标情绪类别;
基于所述音量特征、所述语速特征与目标情绪类别,确定所述音频数据的情绪特征。
6.根据权利要求1所述的信息反馈方法,其特征在于,所述根据所述文本与所述情绪特征确定问答策略信息,以将所述问答策略信息反馈至客服系统,包括:
根据所述识别后的文本确定客服语音场景;
根据所述客服语音场景与所述情绪特征确定问答策略信息,包含根据所述客服语音场景与所述情绪特征在预设的策略信息库中匹配问答策略信息;或根据所述文本、所述客服语音场景与情绪特征基于设置的大语言模型生成问答策略信息,其中,所述大语言模型被配置为与若干种场景相关联;其中,所述问答策略信息包括引导话术以及标准话术。
7.一种信息反馈装置,其特征在于,包括:
数据获取模块,用于获取大数据平台中的音频数据,其中,所述音频数据包含采集的客服系统的语音数据;所述音频数据基于分布式原理存储在所述大数据平台;
数据预处理模块,用于基于语音识别模型对所述音频数据进行处理,将所述音频数据转化为文本数据,所述文本数据包含若干文本,所述文本包含字、词与句子;
时间戳标记模块,用于获取所述音频数据的时间信息,根据所述时间信息为所述文本数据的文本标记时间戳;
特征识别模块,用于基于所述文本对应的时间戳建立所述音频数据的音量及语速的时间序列,并基于所述时间序列识别所述音频数据的音量特征与语速特征;
情绪识别模块,用于基于自然语言处理模型对所述文本进行识别,并基于所述音量特征与所述语速特征对识别后的文本进行特征判定,确定所述音频数据的情绪特征;
决策反馈模块,用于根据所述文本与所述情绪特征确定问答策略信息,以将所述问答策略信息反馈至客服系统;
所述特征识别模块还用于:
根据所述文本对应的时间戳确定单位时间内文本的数量;
根据单位时间内文本的数量及所述时间戳的顺序建立音频数据的语速时间序列;
基于所述语速时间序列计算语速的移动平均值和移动标准差;
根据所述移动平均值和移动标准差识别语速的规律以及异常;
根据所述音量的规律以及异常确定语速特征。
8.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项权利要求所述信息反馈方法的步骤。
9.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至6中任一项权利要求所述信息反馈方法的步骤。
CN202410403691.3A 2024-04-03 2024-04-03 信息反馈方法、装置、计算机设备及计算机存储介质 Active CN117992597B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410403691.3A CN117992597B (zh) 2024-04-03 2024-04-03 信息反馈方法、装置、计算机设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410403691.3A CN117992597B (zh) 2024-04-03 2024-04-03 信息反馈方法、装置、计算机设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN117992597A true CN117992597A (zh) 2024-05-07
CN117992597B CN117992597B (zh) 2024-06-07

Family

ID=90897792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410403691.3A Active CN117992597B (zh) 2024-04-03 2024-04-03 信息反馈方法、装置、计算机设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN117992597B (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108227932A (zh) * 2018-01-26 2018-06-29 上海智臻智能网络科技股份有限公司 交互意图确定方法及装置、计算机设备及存储介质
CN108334583A (zh) * 2018-01-26 2018-07-27 上海智臻智能网络科技股份有限公司 情感交互方法及装置、计算机可读存储介质、计算机设备
CN109767765A (zh) * 2019-01-17 2019-05-17 平安科技(深圳)有限公司 话术匹配方法及装置、存储介质、计算机设备
CN110427472A (zh) * 2019-08-02 2019-11-08 深圳追一科技有限公司 智能客服匹配的方法、装置、终端设备及存储介质
CN110992987A (zh) * 2019-10-23 2020-04-10 大连东软信息学院 语音信号中针对通用特定语音的并联特征提取系统及方法
CN112201228A (zh) * 2020-09-28 2021-01-08 苏州贝果智能科技有限公司 一种基于人工智能的多模态语义识别服务接入方法
CN112397083A (zh) * 2020-11-13 2021-02-23 Oppo广东移动通信有限公司 语音处理方法及相关装置
CN113593521A (zh) * 2021-07-29 2021-11-02 北京三快在线科技有限公司 语音合成方法、装置、设备及可读存储介质
CN113627196A (zh) * 2021-07-21 2021-11-09 前海企保科技(深圳)有限公司 一种基于语境和Transformer的多语言对话机器人系统及其对话方法
CN114203177A (zh) * 2021-12-06 2022-03-18 深圳市证通电子股份有限公司 一种基于深度学习与情绪识别的智能语音问答方法和系统
CN114298019A (zh) * 2021-12-29 2022-04-08 中国建设银行股份有限公司 情绪识别方法、装置、设备、存储介质、程序产品
US20220208180A1 (en) * 2020-12-30 2022-06-30 audEERING GmhB Speech analyser and related method
CN115599894A (zh) * 2022-09-22 2023-01-13 号百信息服务有限公司(Cn) 情绪识别的方法、装置、电子设备及存储介质
CN116665669A (zh) * 2023-07-19 2023-08-29 上海海启科技有限公司 一种基于人工智能的语音交互方法及系统
CN116978409A (zh) * 2023-09-22 2023-10-31 苏州复变医疗科技有限公司 基于语音信号的抑郁状态评估方法、装置、终端及介质
CN117037789A (zh) * 2023-10-09 2023-11-10 深圳市加推科技有限公司 一种客服语音识别方法、装置、计算机设备及存储介质
CN117544635A (zh) * 2022-08-01 2024-02-09 腾讯科技(深圳)有限公司 一种资源管理方法、装置、设备及存储介质

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108227932A (zh) * 2018-01-26 2018-06-29 上海智臻智能网络科技股份有限公司 交互意图确定方法及装置、计算机设备及存储介质
CN108334583A (zh) * 2018-01-26 2018-07-27 上海智臻智能网络科技股份有限公司 情感交互方法及装置、计算机可读存储介质、计算机设备
CN109767765A (zh) * 2019-01-17 2019-05-17 平安科技(深圳)有限公司 话术匹配方法及装置、存储介质、计算机设备
CN110427472A (zh) * 2019-08-02 2019-11-08 深圳追一科技有限公司 智能客服匹配的方法、装置、终端设备及存储介质
CN110992987A (zh) * 2019-10-23 2020-04-10 大连东软信息学院 语音信号中针对通用特定语音的并联特征提取系统及方法
CN112201228A (zh) * 2020-09-28 2021-01-08 苏州贝果智能科技有限公司 一种基于人工智能的多模态语义识别服务接入方法
CN112397083A (zh) * 2020-11-13 2021-02-23 Oppo广东移动通信有限公司 语音处理方法及相关装置
US20220208180A1 (en) * 2020-12-30 2022-06-30 audEERING GmhB Speech analyser and related method
CN113627196A (zh) * 2021-07-21 2021-11-09 前海企保科技(深圳)有限公司 一种基于语境和Transformer的多语言对话机器人系统及其对话方法
CN113593521A (zh) * 2021-07-29 2021-11-02 北京三快在线科技有限公司 语音合成方法、装置、设备及可读存储介质
CN114203177A (zh) * 2021-12-06 2022-03-18 深圳市证通电子股份有限公司 一种基于深度学习与情绪识别的智能语音问答方法和系统
CN114298019A (zh) * 2021-12-29 2022-04-08 中国建设银行股份有限公司 情绪识别方法、装置、设备、存储介质、程序产品
CN117544635A (zh) * 2022-08-01 2024-02-09 腾讯科技(深圳)有限公司 一种资源管理方法、装置、设备及存储介质
CN115599894A (zh) * 2022-09-22 2023-01-13 号百信息服务有限公司(Cn) 情绪识别的方法、装置、电子设备及存储介质
CN116665669A (zh) * 2023-07-19 2023-08-29 上海海启科技有限公司 一种基于人工智能的语音交互方法及系统
CN116978409A (zh) * 2023-09-22 2023-10-31 苏州复变医疗科技有限公司 基于语音信号的抑郁状态评估方法、装置、终端及介质
CN117037789A (zh) * 2023-10-09 2023-11-10 深圳市加推科技有限公司 一种客服语音识别方法、装置、计算机设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SOUHA AYADI 等: "Deep neural network architectures for audio emotion recognition performed on song and speech modalities", 《INTERNATIONAL JOURNAL OF SPEECH TECHNOLOGY》, vol. 26, 28 November 2023 (2023-11-28), pages 1165 - 1181 *
宋明虎 等: "融合语音情感词局部特征的语音情感识别方法", 《计算机工程与科学》, vol. 39, no. 01, 15 January 2017 (2017-01-15), pages 194 - 198 *
王亮 等: "情感分析的跨模态Transformer组合模型", 《计算机工程与应用》, 17 May 2023 (2023-05-17), pages 1 - 14 *

Also Published As

Publication number Publication date
CN117992597B (zh) 2024-06-07

Similar Documents

Publication Publication Date Title
EP3893477B1 (en) Human-in-the-loop voice communication system and method
US10706873B2 (en) Real-time speaker state analytics platform
US11315569B1 (en) Transcription and analysis of meeting recordings
US11450311B2 (en) System and methods for accent and dialect modification
US6996525B2 (en) Selecting one of multiple speech recognizers in a system based on performance predections resulting from experience
EP2122610B1 (en) Customizable method and system for emotional recognition
CN110853649A (zh) 基于智能语音技术的标签提取方法、系统、设备及介质
CN113239147B (zh) 基于图神经网络的智能会话方法、系统及介质
CN110298252A (zh) 会议纪要生成方法、装置、计算机设备及存储介质
US10839788B2 (en) Systems and methods for selecting accent and dialect based on context
CN103886863A (zh) 音频处理设备及音频处理方法
CN111489765A (zh) 一种基于智能语音技术的话务服务质检方法
CN111739519A (zh) 基于语音识别的对话管理处理方法、装置、设备及介质
CN114220461A (zh) 客服话术的引导方法、装置、设备及存储介质
CN112102807A (zh) 语音合成方法、装置、计算机设备和存储介质
CN116431806A (zh) 自然语言理解方法及冰箱
WO2022260794A1 (en) Reducing biases of generative language models
CN114328867A (zh) 一种人机对话中智能打断的方法及装置
CN112087726B (zh) 彩铃识别的方法及系统、电子设备及存储介质
CN117992597B (zh) 信息反馈方法、装置、计算机设备及计算机存储介质
CN116052646B (zh) 语音识别方法、装置、存储介质和计算机设备
CN111414748A (zh) 话务数据处理方法及装置
CN113506565B (zh) 语音识别的方法、装置、计算机可读存储介质与处理器
CN115831125A (zh) 语音识别方法、装置、设备、存储介质及产品
CN114743540A (zh) 语音识别方法、系统、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant