CN117041618A - 一种用于电商的智能语音客服方法和系统 - Google Patents

一种用于电商的智能语音客服方法和系统 Download PDF

Info

Publication number
CN117041618A
CN117041618A CN202311304934.XA CN202311304934A CN117041618A CN 117041618 A CN117041618 A CN 117041618A CN 202311304934 A CN202311304934 A CN 202311304934A CN 117041618 A CN117041618 A CN 117041618A
Authority
CN
China
Prior art keywords
voice
live
consultation
link
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311304934.XA
Other languages
English (en)
Other versions
CN117041618B (zh
Inventor
王雪辉
姚健康
高占海
汪广瑞
张静轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhuangku Creative Technology Co ltd
Original Assignee
Beijing Zhuangku Creative Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhuangku Creative Technology Co ltd filed Critical Beijing Zhuangku Creative Technology Co ltd
Priority to CN202311304934.XA priority Critical patent/CN117041618B/zh
Publication of CN117041618A publication Critical patent/CN117041618A/zh
Application granted granted Critical
Publication of CN117041618B publication Critical patent/CN117041618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • H04N21/2335Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/47815Electronic shopping
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及语音客服技术领域,具体公开了一种用于电商的智能语音客服方法和系统。本发明通过获取直播音频数据,进行谱减去噪处理,得到直播语音数据;构建并更新直播问答分类数据库;进行电商咨询语音的环节记录,前置性筛选并标记有效咨询语音,识别获取当前环节文本,并更新环节咨询文本;获取多个环节咨询特征;匹配答复语音数据,进行智能客服的自动语音答复。能够对直播音频数据进行谱减去噪处理、转化、补充、识别与问答分类处理,构建直播问答分类数据库,进而在电商咨询过程中,将直播语音应用于电商咨询的客服答复中,无需语音合成技术,不需要高成本的语音模拟训练,且能够保证语音客服的声音自然,并能够应变具体的语境变化。

Description

一种用于电商的智能语音客服方法和系统
技术领域
本发明属于语音客服技术领域,尤其涉及一种用于电商的智能语音客服方法和系统。
背景技术
在消费升级和信息化时代的背景下,传统的人工客服已经不能够满足当前的电商语音客服需求,因此,智能语音客服应运而生,通过适配电商的客服服务平台,提高电商客服的效率。
现有技术中,用于电商的智能语音客服,主要是通过语音合成技术,将答复内容的文字转化为语音,进行自动的语音答复,具有以下缺陷:语音模拟训练成本高,声音过于机械化,难以模拟真实的发言,且不能够应变具体的语境变化。
发明内容
本发明实施例的目的在于提供一种用于电商的智能语音客服方法和系统,旨在解决背景技术中提出的问题。
为实现上述目的,本发明实施例提供如下技术方案:
一种用于电商的智能语音客服方法,所述方法具体包括以下步骤:
获取直播音频数据,对所述直播音频数据进行谱减去噪处理,得到直播语音数据;
对所述直播语音数据进行转化、补充、识别与问答分类处理,构建并更新直播问答分类数据库;
进行电商咨询语音的环节记录,前置性筛选并标记有效咨询语音,识别获取当前环节文本,并更新环节咨询文本;
对所述当前环节文本和所述环节咨询文本进行比重咨询特征识别,获取多个环节咨询特征;
基于多个所述环节咨询特征,从所述直播问答分类数据库中匹配答复语音数据,进行智能客服的自动语音答复。
作为本发明实施例技术方案进一步的限定,所述获取直播音频数据,对所述直播音频数据进行谱减去噪处理,得到直播语音数据具体包括以下步骤:
进行电商直播的更新监测,获取直播视频数据;
从所述直播视频数据中,提取直播音频数据;
对所述直播音频数据进行谱减去噪处理,得到直播语音数据。
作为本发明实施例技术方案进一步的限定,所述对所述直播音频数据进行谱减去噪处理,得到直播语音数据的具体处理过程为:
构建直播音频数据的短时谱加性信号模型:,其中,为直播音频信号,为直播语音信号,为直播噪音信号;
对所述短时谱加性信号模型进行信号分帧加窗处理,得到:,再进行傅里叶变换,得到:
进行功率谱逆傅里叶变换处理,得到:
计算直播语音数据:
作为本发明实施例技术方案进一步的限定,所述对所述直播语音数据进行转化、补充、识别与问答分类处理,构建并更新直播问答分类数据库具体包括以下步骤:
对所述直播语音数据进行文本转化,得到直播语音文本;
获取所述直播语音数据对应的电商目标信息,在所述直播语音文本中进行信息补充,得到目标语音文本;
对所述目标语音文本进行问答识别与分类划分,得到多个直播问询信息和对应的直播答复信息;
根据多个所述直播问询信息和对应的直播答复信息,构建并更新直播问答分类数据库。
作为本发明实施例技术方案进一步的限定,所述对所述目标语音文本进行问答识别与分类划分,得到多个直播问询信息和对应的直播答复信息具体包括以下步骤:
按照预设的问答声纹数据,对所述直播语音数据进行声纹的动态识别,得到声纹动态数据;
根据所述声纹动态数据,确定多个问答动态变化时间;
按照多个问答动态变化时间,对所述目标语音文本进行问答分类划分,得到多个直播问询信息和对应的直播答复信息。
作为本发明实施例技术方案进一步的限定,所述进行电商咨询语音的环节记录,前置性筛选并标记有效咨询语音,识别获取当前环节文本,并更新环节咨询文本具体包括以下步骤:
进行电商咨询的环节记录,获取多个环节咨询语音;
从多个所述环节咨询语音中,筛选并标记当前环节语音;
对所述当前环节语音进行识别,获取当前环节文本;
对所述当前环节文本进行分析,获取环节分析结果;
按照所述环节分析结果,前置性筛选并标记有效咨询语音,更新环节咨询文本。
作为本发明实施例技术方案进一步的限定,所述对所述当前环节文本和所述环节咨询文本进行比重咨询特征识别,获取多个环节咨询特征具体包括以下步骤:
记录所述环节咨询文本的环节数量;
按照所述环节数量,进行特征的比重分配,确定当前特征比例和前置特征比例;
按照所述当前特征比例,对所述当前环节文本进行特征识别,获取多个当前咨询特征;
按照所述前置特征比例,对所述环节咨询文本进行特征识别,获取多个前置咨询特征;
综合多个所述当前咨询特征和多个所述前置咨询特征,得到多个环节咨询特征。
作为本发明实施例技术方案进一步的限定,所述基于多个所述环节咨询特征,从所述直播问答分类数据库中匹配答复语音数据,进行智能客服的自动语音答复具体包括以下步骤:
基于多个所述环节咨询特征,从所述直播问答分类数据库中匹配环节问询信息;
根据所述环节问询信息,匹配环节答复信息;
根据所述环节答复信息,获取对应的答复语音数据;
按照所述答复语音数据,进行智能客服的自动语音答复。
一种用于电商的智能语音客服系统,所述系统具体包括音频谱减去噪处理模块、直播问答分类数据库构建模块、咨询语音处理模块、比重咨询特征识别模块和语音匹配自动答复模块,其中:
音频谱减去噪处理模块,用于获取直播音频数据,对所述直播音频数据进行谱减去噪处理,得到直播语音数据;
直播问答分类数据库构建模块,用于对所述直播语音数据进行转化、补充、识别与问答分类处理,构建并更新直播问答分类数据库;
咨询语音处理模块,用于进行电商咨询语音的环节记录,前置性筛选并标记有效咨询语音,识别获取当前环节文本,并更新环节咨询文本;
比重咨询特征识别模块,用于对所述当前环节文本和所述环节咨询文本进行比重咨询特征识别,获取多个环节咨询特征;
语音匹配自动答复模块,用于基于多个所述环节咨询特征,从所述直播问答分类数据库中匹配答复语音数据,进行智能客服的自动语音答复。
作为本发明实施例技术方案进一步的限定,所述直播问答分类数据库构建模块具体包括:
文本转化单元,用于对所述直播语音数据进行文本转化,得到直播语音文本;
信息补充单元,用于获取所述直播语音数据对应的电商目标信息,在所述直播语音文本中进行信息补充,得到目标语音文本;
问答识别单元,用于对所述目标语音文本进行问答识别与分类划分,得到多个直播问询信息和对应的直播答复信息;
数据库构建单元,用于根据多个所述直播问询信息和对应的直播答复信息,构建并更新直播问答分类数据库。
与现有技术相比,本发明的有益效果是:
(1)本发明能够对直播音频数据进行谱减去噪处理、转化、补充、识别与问答分类处理,构建直播问答分类数据库,进而在电商咨询过程中,将直播语音应用于电商咨询的客服答复中,无需语音合成技术,不需要高成本的语音模拟训练,且能够保证语音客服的声音自然,并能够应变具体的语境变化;
(2)本发明能够进行电商咨询的环节记录,获取多个环节咨询语音,筛选当前环节语音,进行识别与分析,获取环节分析结果,进而按照环节分析结果,前置性筛选并标记有效咨询语音,更新环节咨询文本,从而剔除咨询过程中的无效咨询语音,提高咨询识别的效率;
(3)本发明能够记录环节咨询文本的环节数量,进行特征的比重分配,确定当前特征比例和前置特征比例,进行比重咨询特征识别,获取多个环节咨询特征,从而使得当前的咨询识别与前面环节的咨询信息有不同比重的关系,便于对咨询语音的整体理解,提高智能语音客服的答复效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。
图1示出了本发明实施例提供的方法的流程图。
图2示出了本发明实施例提供的方法中直播音频数据处理的流程图。
图3示出了本发明实施例提供的方法中构建直播问答分类数据库的流程图。
图4示出了本发明实施例提供的方法中问答识别与分类划分的流程图。
图5示出了本发明实施例提供的方法中有效咨询语音筛选的流程图。
图6示出了本发明实施例提供的方法中比重咨询特征识别的流程图。
图7示出了本发明实施例提供的方法中智能客服自动语音答复的流程图。
图8示出了本发明实施例提供的系统的应用架构图。
图9示出了本发明实施例提供的系统中直播问答分类数据库构建模块的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解的是,现有技术中,用于电商的智能语音客服,主要是通过语音合成技术,将答复内容的文字转化为语音,进行自动的语音答复,具有以下缺陷:语音模拟训练成本高,声音过于机械化,难以模拟真实的发言,且不能够应变具体的语境变化。
为解决上述问题,本发明实施例通过获取直播音频数据,对直播音频数据进行谱减去噪处理,得到直播语音数据;对直播语音数据进行转化、补充、识别与问答分类处理,构建并更新直播问答分类数据库;进行电商咨询语音的环节记录,前置性筛选并标记有效咨询语音,识别获取当前环节文本,并更新环节咨询文本;对当前环节文本和环节咨询文本进行比重咨询特征识别,获取多个环节咨询特征;基于多个环节咨询特征,从直播问答分类数据库中匹配答复语音数据,进行智能客服的自动语音答复。能够对直播音频数据进行谱减去噪处理、转化、补充、识别与问答分类处理,构建直播问答分类数据库,进而在电商咨询过程中,将直播语音应用于电商咨询的客服答复中,无需语音合成技术,不需要高成本的语音模拟训练,且能够保证语音客服的声音自然,并能够应变具体的语境变化。
图1示出了本发明实施例提供的方法的流程图。
具体的,在本发明提供的一个优选实施方式中,一种用于电商的智能语音客服方法,所述方法具体包括以下步骤:
步骤S101,获取直播音频数据,对所述直播音频数据进行谱减去噪处理,得到直播语音数据。
在本发明实施例中,进行电商直播的更新监测,在具有电商直播时,进行电商直播的录制,获取直播视频数据,再从直播视频数据中,提取直播音频数据,按照谱减法,对直播音频数据进行去噪增强处理,去除直播音频数据中的背景噪音,得到只包含主播语音的直播语音数据,具体的,去噪增强处理的过程为:
构建直播音频数据的短时谱加性信号模型:,其中,为直播音频信号,为直播语音信号,为直播噪音信号;
对每一帧的音频信号进行窗函数处理,利用短时窗对信号进行截取,实现信号分 帧加窗处理,得到:,再进行傅里叶变换,得到:
进行功率谱逆傅里叶变换处理,将离散的频域信号进行转化整合,生成连续的语 音信号,得到:
去除增益,计算直播语音数据:
可以理解的是,背景噪音,包括环境噪音和背景音乐。
具体的,图2示出了本发明实施例提供的方法中直播音频数据处理的流程图。
其中,在本发明提供的优选实施方式中,所述获取直播音频数据,对所述直播音频数据进行谱减去噪处理,得到直播语音数据具体包括以下步骤:
步骤S1011,进行电商直播的更新监测,获取直播视频数据。
步骤S1012,从所述直播视频数据中,提取直播音频数据。
步骤S1013,对所述直播音频数据进行谱减去噪处理,得到直播语音数据。
具体的,在本发明提供的优选实施方式中,所述对所述直播音频数据进行谱减去噪处理,得到直播语音数据的具体处理过程为:
构建直播音频数据的短时谱加性信号模型:,其中,为直播音频信号,为直播语音信号,为直播噪音信号;
对所述短时谱加性信号模型进行信号分帧加窗处理,得到:,再进行傅里叶变换,得到:
进行功率谱逆傅里叶变换处理,得到:
计算直播语音数据:
进一步的,所述用于电商的智能语音客服方法还包括以下步骤:
步骤S102,对所述直播语音数据进行转化、补充、识别与问答分类处理,构建并更新直播问答分类数据库。
在本发明实施例中,对直播语音数据进行文本转化,得到直播语音文本,通过获取直播语音数据对应的电商目标信息,从电商目标信息中提取电商目标主题,并在直播语音文本中,将电商目标主题进行补充,得到目标语音文本,按照预设的问答声纹数据,对直播语音数据进行声纹动态识别,得到声纹动态数据,进而根据声纹动态数据,确定多个问答动态变化时间,按照多个问答动态变化时间,对目标语音文本的问答内容进行分类划分,得到多个直播问询信息和对应的直播答复信息,进而将多个直播问询信息和对应的直播答复信息进行整理,构建直播问答分类数据库,并在直播问询信息和对应的直播答复信息更新时,对直播问答分类数据库进行相应的更新。
可以理解的是,电商目标信息,是直播时相关的电商商品信息,其中,电商目标主题,是电商商品信息中的商品名称。
可以理解的是,将电商目标主题进行补充,主要是识别直播语音文本中主题缺失的位置,并将相应的位置,进行电商目标主题的补充,保证语音文本中的内容准确。
可以理解的是,在电商直播时,可以设置两个主播参与直播,一个主播观看直播弹幕,并提取弹幕中的问题进行提问,另外一个主播按照提问的问题,进行对应的答复,由于两个主播具有不同的声纹,因此,可以通过对直播语音数据进行声纹动态识别,记录两个主播对应的语音时间,从而得到多个问答动态变化时间。
具体的,图3示出了本发明实施例提供的方法中构建直播问答分类数据库的流程图。
其中,在本发明提供的优选实施方式中,所述对所述直播语音数据进行转化、补充、识别与问答分类处理,构建并更新直播问答分类数据库具体包括以下步骤:
步骤S1021,对所述直播语音数据进行文本转化,得到直播语音文本。
步骤S1022,获取所述直播语音数据对应的电商目标信息,在所述直播语音文本中进行信息补充,得到目标语音文本。
步骤S1023,对所述目标语音文本进行问答识别与分类划分,得到多个直播问询信息和对应的直播答复信息。
具体的,图4示出了本发明实施例提供的方法中问答识别与分类划分的流程图。
其中,在本发明提供的优选实施方式中,所述对所述目标语音文本进行问答识别与分类划分,得到多个直播问询信息和对应的直播答复信息具体包括以下步骤:
步骤S10231,按照预设的问答声纹数据,对所述直播语音数据进行声纹的动态识别,得到声纹动态数据。
步骤S10232,根据所述声纹动态数据,确定多个问答动态变化时间。
步骤S10233,按照多个问答动态变化时间,对所述目标语音文本进行问答分类划分,得到多个直播问询信息和对应的直播答复信息。
进一步的,所述对所述直播语音数据进行转化、补充、识别与问答分类处理,构建并更新直播问答分类数据库还包括以下步骤:
步骤S1024,根据多个所述直播问询信息和对应的直播答复信息,构建并更新直播问答分类数据库。
进一步的,所述用于电商的智能语音客服方法还包括以下步骤:
步骤S103,进行电商咨询语音的环节记录,前置性筛选并标记有效咨询语音,识别获取当前环节文本,并更新环节咨询文本。
在本发明实施例中,在客户进行电商咨询的过程中,按照咨询环节,进行电商咨询的语音记录,获取多个环节咨询语音,再从多个环节咨询语音中,筛选最新的环节咨询语音,将其标记为当前环节语音,通过对当前环节语音进行文本转化,得到当前环节文本,再按照预设的否定关键词库,对当前环节文本进行否定识别,判断当前环节文本中是否具有否定关键词库中的否定关键词,在当前环节文本中具有否定关键词库中的否定关键词时,判定上一个环节的环节咨询语音为无效咨询语音,并将无效咨询语音剔除;在当前环节文本中不具有否定关键词库中的否定关键词时,判定上一个环节的环节咨询语音为有效咨询语音,则保留有效咨询语音,在电商咨询的过程中,按照咨询环节,对环节咨询语音进行逐步的前置性筛选,只保留有效咨询语音,生成只与有效咨询语音有关的环节咨询文本,并在有效咨询语音更新时,对环节咨询文本进行相应的更新。
可以理解的是,咨询环节,包括一个问答过程,客户进行一次语音提问,再进行一次对应的智能客服自动语音答复之后,为完成一个咨询环节。
可以理解的是,否定关键词库中,含有预设的多个否定关键词,例如:错了、不对、不是的等。
具体的,图5示出了本发明实施例提供的方法中有效咨询语音筛选的流程图。
其中,在本发明提供的优选实施方式中,所述进行电商咨询语音的环节记录,前置性筛选并标记有效咨询语音,识别获取当前环节文本,并更新环节咨询文本具体包括以下步骤:
步骤S1031,进行电商咨询的环节记录,获取多个环节咨询语音。
步骤S1032,从多个所述环节咨询语音中,筛选并标记当前环节语音。
步骤S1033,对所述当前环节语音进行识别,获取当前环节文本。
步骤S1034,对所述当前环节文本进行分析,获取环节分析结果。
步骤S1035,按照所述环节分析结果,前置性筛选并标记有效咨询语音,更新环节咨询文本。
进一步的,所述用于电商的智能语音客服方法还包括以下步骤:
步骤S104,对所述当前环节文本和所述环节咨询文本进行比重咨询特征识别,获取多个环节咨询特征。
在本发明实施例中,对环节咨询文本中咨询环节的数量进行统计记录,得到环节数量,再按照环节数量,进行特征的比重分配,确定当前特征比例和前置特征比例,再根据预设的标准特征数量,计算当前特征比例对应的当前特征数量,且计算前置特征比例对应的前置特征数量,通过对当前环节文本进行特征识别,获取当前特征数量的当前咨询特征,同时,通过对环节咨询文本进行特征识别,获取前置特征数量的前置咨询特征,将当前特征数量的当前咨询特征与前置特征数量的前置咨询特征进行特征综合,得到标准特征数量的环节咨询特征。
可以理解的是,前置特征数量的前置咨询特征,是环节咨询文本中特征出现频次处于前列的前置特征数量对应的特征,例如:前置特征数量为5个,则5个前置咨询特征是环节咨询文本中特征出现频次处于前5个的特征。
可以理解的是,比重分配与环节数量有关,环节数量越高时,当前特征比例越低,且当前特征比例最低不能低于50%;环节数量越低时,当前特征比例越高,且当前特征比例最高不能高于90%,从而使得当前的咨询识别与前面环节的咨询信息有动态的比重关系,便于对咨询语音的整体理解,提高智能语音客服的答复效率。
具体的,图6示出了本发明实施例提供的方法中比重咨询特征识别的流程图。
其中,在本发明提供的优选实施方式中,所述对所述当前环节文本和所述环节咨询文本进行比重咨询特征识别,获取多个环节咨询特征具体包括以下步骤:
步骤S1041,记录所述环节咨询文本的环节数量。
步骤S1042,按照所述环节数量,进行特征的比重分配,确定当前特征比例和前置特征比例。
步骤S1043,按照所述当前特征比例,对所述当前环节文本进行特征识别,获取多个当前咨询特征。
步骤S1044,按照所述前置特征比例,对所述环节咨询文本进行特征识别,获取多个前置咨询特征。
步骤S1045,综合多个所述当前咨询特征和多个所述前置咨询特征,得到多个环节咨询特征。
进一步的,所述用于电商的智能语音客服方法还包括以下步骤:
步骤S105,基于多个所述环节咨询特征,从所述直播问答分类数据库中匹配答复语音数据,进行智能客服的自动语音答复。
在本发明实施例中,基于标准特征数量的环节咨询特征,在直播问答分类数据库中进行信息匹配,从多个直播问询信息中,匹配并标记环节问询信息,再根据环节问询信息,从多个直播答复信息中,匹配并标记环节答复信息,进而根据环节答复信息,获取对应的答复语音数据,按照答复语音数据,进行智能客服的自动语音答复,使得自动语音答复声音自然,并且能够应变具体的语境变化。
具体的,图7示出了本发明实施例提供的方法中智能客服自动语音答复的流程图。
其中,在本发明提供的优选实施方式中,所述基于多个所述环节咨询特征,从所述直播问答分类数据库中匹配答复语音数据,进行智能客服的自动语音答复具体包括以下步骤:
步骤S1051,基于多个所述环节咨询特征,从所述直播问答分类数据库中匹配环节问询信息。
步骤S1052,根据所述环节问询信息,匹配环节答复信息。
步骤S1053,根据所述环节答复信息,获取对应的答复语音数据。
步骤S1054,按照所述答复语音数据,进行智能客服的自动语音答复。
进一步的,图8示出了本发明实施例提供的系统的应用架构图。
其中,在本发明提供的又一个优选实施方式中,一种用于电商的智能语音客服系统,包括:
音频谱减去噪处理模块101,用于获取直播音频数据,对所述直播音频数据进行谱减去噪处理,得到直播语音数据。
在本发明实施例中,音频谱减去噪处理模块101进行电商直播的更新监测,在具有电商直播时,进行电商直播的录制,获取直播视频数据,再从直播视频数据中,提取直播音频数据,按照谱减法,对直播音频数据进行去噪增强处理,去除直播音频数据中的背景噪音,得到只包含主播语音的直播语音数据,具体的,去噪增强处理的过程为:
构建直播音频数据的短时谱加性信号模型:,其中,为直播音频信号,为直播语音信号,为直播噪音信号;
对每一帧的音频信号进行窗函数处理,利用短时窗对信号进行截取,实现信号分 帧加窗处理,得到:,再进行傅里叶变换,得到:
进行功率谱逆傅里叶变换处理,将离散的频域信号进行转化整合,生成连续的语 音信号,得到:
去除增益,计算直播语音数据:
直播问答分类数据库构建模块102,用于对所述直播语音数据进行转化、补充、识别与问答分类处理,构建并更新直播问答分类数据库。
在本发明实施例中,直播问答分类数据库构建模块102对直播语音数据进行文本转化,得到直播语音文本,通过获取直播语音数据对应的电商目标信息,从电商目标信息中提取电商目标主题,并在直播语音文本中,将电商目标主题进行补充,得到目标语音文本,按照预设的问答声纹数据,对直播语音数据进行声纹动态识别,得到声纹动态数据,进而根据声纹动态数据,确定多个问答动态变化时间,按照多个问答动态变化时间,对目标语音文本的问答内容进行分类划分,得到多个直播问询信息和对应的直播答复信息,进而将多个直播问询信息和对应的直播答复信息进行整理,构建直播问答分类数据库,并在直播问询信息和对应的直播答复信息更新时,直播问答分类数据库构建模块102对直播问答分类数据库进行相应的更新。
具体的,图9示出了本发明实施例提供的系统中直播问答分类数据库构建模块102的结构框图。
其中,在本发明提供的优选实施方式中,所述直播问答分类数据库构建模块102具体包括:
文本转化单元1021,用于对所述直播语音数据进行文本转化,得到直播语音文本。
信息补充单元1022,用于获取所述直播语音数据对应的电商目标信息,在所述直播语音文本中进行信息补充,得到目标语音文本。
问答识别单元1023,用于对所述目标语音文本进行问答识别与分类划分,得到多个直播问询信息和对应的直播答复信息。
数据库构建单元1024,用于根据多个所述直播问询信息和对应的直播答复信息,构建并更新直播问答分类数据库。
进一步的,所述用于电商的智能语音客服系统还包括:
咨询语音处理模块103,用于进行电商咨询语音的环节记录,前置性筛选并标记有效咨询语音,识别获取当前环节文本,并更新环节咨询文本。
在本发明实施例中,在客户进行电商咨询的过程中,咨询语音处理模块103按照咨询环节,进行电商咨询的语音记录,获取多个环节咨询语音,再从多个环节咨询语音中,筛选最新的环节咨询语音,将其标记为当前环节语音,通过对当前环节语音进行文本转化,得到当前环节文本,再按照预设的否定关键词库,对当前环节文本进行否定识别,判断当前环节文本中是否具有否定关键词库中的否定关键词,在当前环节文本中具有否定关键词库中的否定关键词时,判定上一个环节的环节咨询语音为无效咨询语音,并将无效咨询语音剔除;在当前环节文本中不具有否定关键词库中的否定关键词时,判定上一个环节的环节咨询语音为有效咨询语音,则保留有效咨询语音,在电商咨询的过程中,按照咨询环节,对环节咨询语音进行逐步的前置性筛选,只保留有效咨询语音,生成只与有效咨询语音有关的环节咨询文本,并在有效咨询语音更新时,对环节咨询文本进行相应的更新。
比重咨询特征识别模块104,用于对所述当前环节文本和所述环节咨询文本进行比重咨询特征识别,获取多个环节咨询特征。
在本发明实施例中,比重咨询特征识别模块104对环节咨询文本中咨询环节的数量进行统计记录,得到环节数量,再按照环节数量,进行特征的比重分配,确定当前特征比例和前置特征比例,再根据预设的标准特征数量,计算当前特征比例对应的当前特征数量,且计算前置特征比例对应的前置特征数量,通过对当前环节文本进行特征识别,获取当前特征数量的当前咨询特征,同时,通过对环节咨询文本进行特征识别,获取前置特征数量的前置咨询特征,将当前特征数量的当前咨询特征与前置特征数量的前置咨询特征进行特征综合,得到标准特征数量的环节咨询特征。
语音匹配自动答复模块105,用于基于多个所述环节咨询特征,从所述直播问答分类数据库中匹配答复语音数据,进行智能客服的自动语音答复。
在本发明实施例中,语音匹配自动答复模块105基于标准特征数量的环节咨询特征,在直播问答分类数据库中进行信息匹配,从多个直播问询信息中,匹配并标记环节问询信息,再根据环节问询信息,从多个直播答复信息中,匹配并标记环节答复信息,进而根据环节答复信息,获取对应的答复语音数据,按照答复语音数据,进行智能客服的自动语音答复,使得自动语音答复声音自然,并且能够应变具体的语境变化。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

Claims (10)

1.一种用于电商的智能语音客服方法,其特征在于,所述方法具体包括以下步骤:
获取直播音频数据,对所述直播音频数据进行谱减去噪处理,得到直播语音数据;
对所述直播语音数据进行转化、补充、识别与问答分类处理,构建并更新直播问答分类数据库;
进行电商咨询语音的环节记录,前置性筛选并标记有效咨询语音,识别获取当前环节文本,并更新环节咨询文本;
对所述当前环节文本和所述环节咨询文本进行比重咨询特征识别,获取多个环节咨询特征;
基于多个所述环节咨询特征,从所述直播问答分类数据库中匹配答复语音数据,进行智能客服的自动语音答复。
2.根据权利要求1所述的用于电商的智能语音客服方法,其特征在于,所述获取直播音频数据,对所述直播音频数据进行谱减去噪处理,得到直播语音数据具体包括以下步骤:
进行电商直播的更新监测,获取直播视频数据;
从所述直播视频数据中,提取直播音频数据;
对所述直播音频数据进行谱减去噪处理,得到直播语音数据。
3.根据权利要求2所述的用于电商的智能语音客服方法,其特征在于,所述对所述直播音频数据进行谱减去噪处理,得到直播语音数据的具体处理过程为:
构建直播音频数据的短时谱加性信号模型:,其中,/>为直播音频信号,/>为直播语音信号,/>为直播噪音信号;
对所述短时谱加性信号模型进行信号分帧加窗处理,得到:,再进行傅里叶变换,得到:/>
进行功率谱逆傅里叶变换处理,得到:
计算直播语音数据:
4.根据权利要求1所述的用于电商的智能语音客服方法,其特征在于,所述对所述直播语音数据进行转化、补充、识别与问答分类处理,构建并更新直播问答分类数据库具体包括以下步骤:
对所述直播语音数据进行文本转化,得到直播语音文本;
获取所述直播语音数据对应的电商目标信息,在所述直播语音文本中进行信息补充,得到目标语音文本;
对所述目标语音文本进行问答识别与分类划分,得到多个直播问询信息和对应的直播答复信息;
根据多个所述直播问询信息和对应的直播答复信息,构建并更新直播问答分类数据库。
5.根据权利要求4所述的用于电商的智能语音客服方法,其特征在于,所述对所述目标语音文本进行问答识别与分类划分,得到多个直播问询信息和对应的直播答复信息具体包括以下步骤:
按照预设的问答声纹数据,对所述直播语音数据进行声纹的动态识别,得到声纹动态数据;
根据所述声纹动态数据,确定多个问答动态变化时间;
按照多个问答动态变化时间,对所述目标语音文本进行问答分类划分,得到多个直播问询信息和对应的直播答复信息。
6.根据权利要求1所述的用于电商的智能语音客服方法,其特征在于,所述进行电商咨询语音的环节记录,前置性筛选并标记有效咨询语音,识别获取当前环节文本,并更新环节咨询文本具体包括以下步骤:
进行电商咨询的环节记录,获取多个环节咨询语音;
从多个所述环节咨询语音中,筛选并标记当前环节语音;
对所述当前环节语音进行识别,获取当前环节文本;
对所述当前环节文本进行分析,获取环节分析结果;
按照所述环节分析结果,前置性筛选并标记有效咨询语音,更新环节咨询文本。
7.根据权利要求1所述的用于电商的智能语音客服方法,其特征在于,所述对所述当前环节文本和所述环节咨询文本进行比重咨询特征识别,获取多个环节咨询特征具体包括以下步骤:
记录所述环节咨询文本的环节数量;
按照所述环节数量,进行特征的比重分配,确定当前特征比例和前置特征比例;
按照所述当前特征比例,对所述当前环节文本进行特征识别,获取多个当前咨询特征;
按照所述前置特征比例,对所述环节咨询文本进行特征识别,获取多个前置咨询特征;
综合多个所述当前咨询特征和多个所述前置咨询特征,得到多个环节咨询特征。
8.根据权利要求1所述的用于电商的智能语音客服方法,其特征在于,所述基于多个所述环节咨询特征,从所述直播问答分类数据库中匹配答复语音数据,进行智能客服的自动语音答复具体包括以下步骤:
基于多个所述环节咨询特征,从所述直播问答分类数据库中匹配环节问询信息;
根据所述环节问询信息,匹配环节答复信息;
根据所述环节答复信息,获取对应的答复语音数据;
按照所述答复语音数据,进行智能客服的自动语音答复。
9.一种用于电商的智能语音客服系统,其特征在于,所述系统具体包括音频谱减去噪处理模块、直播问答分类数据库构建模块、咨询语音处理模块、比重咨询特征识别模块和语音匹配自动答复模块,其中:
音频谱减去噪处理模块,用于获取直播音频数据,对所述直播音频数据进行谱减去噪处理,得到直播语音数据;
直播问答分类数据库构建模块,用于对所述直播语音数据进行转化、补充、识别与问答分类处理,构建并更新直播问答分类数据库;
咨询语音处理模块,用于进行电商咨询语音的环节记录,前置性筛选并标记有效咨询语音,识别获取当前环节文本,并更新环节咨询文本;
比重咨询特征识别模块,用于对所述当前环节文本和所述环节咨询文本进行比重咨询特征识别,获取多个环节咨询特征;
语音匹配自动答复模块,用于基于多个所述环节咨询特征,从所述直播问答分类数据库中匹配答复语音数据,进行智能客服的自动语音答复。
10.根据权利要求9所述的用于电商的智能语音客服系统,其特征在于,所述直播问答分类数据库构建模块具体包括:
文本转化单元,用于对所述直播语音数据进行文本转化,得到直播语音文本;
信息补充单元,用于获取所述直播语音数据对应的电商目标信息,在所述直播语音文本中进行信息补充,得到目标语音文本;
问答识别单元,用于对所述目标语音文本进行问答识别与分类划分,得到多个直播问询信息和对应的直播答复信息;
数据库构建单元,用于根据多个所述直播问询信息和对应的直播答复信息,构建并更新直播问答分类数据库。
CN202311304934.XA 2023-10-10 2023-10-10 一种用于电商的智能语音客服方法和系统 Active CN117041618B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311304934.XA CN117041618B (zh) 2023-10-10 2023-10-10 一种用于电商的智能语音客服方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311304934.XA CN117041618B (zh) 2023-10-10 2023-10-10 一种用于电商的智能语音客服方法和系统

Publications (2)

Publication Number Publication Date
CN117041618A true CN117041618A (zh) 2023-11-10
CN117041618B CN117041618B (zh) 2024-02-06

Family

ID=88641693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311304934.XA Active CN117041618B (zh) 2023-10-10 2023-10-10 一种用于电商的智能语音客服方法和系统

Country Status (1)

Country Link
CN (1) CN117041618B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160101302A (ko) * 2015-02-16 2016-08-25 주식회사 케이티 고객센터 상담 자동 요약 및 분류 시스템 및 그 방법
CN106649561A (zh) * 2016-11-10 2017-05-10 复旦大学 面向税务咨询业务的智能问答系统
CN110069607A (zh) * 2017-12-14 2019-07-30 株式会社日立制作所 用于客户服务的方法、装置、电子设备、计算机可读存储介质
CN112183953A (zh) * 2020-09-08 2021-01-05 北京达佳互联信息技术有限公司 客服资源的分配方法、装置、电子设备和存储介质
CN114942973A (zh) * 2022-04-19 2022-08-26 尚特杰电力科技有限公司 一种用于电力智能客服系统的情绪识别方法和系统
CN116450796A (zh) * 2023-05-17 2023-07-18 中国兵器工业计算机应用技术研究所 一种智能问答模型构建方法及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160101302A (ko) * 2015-02-16 2016-08-25 주식회사 케이티 고객센터 상담 자동 요약 및 분류 시스템 및 그 방법
CN106649561A (zh) * 2016-11-10 2017-05-10 复旦大学 面向税务咨询业务的智能问答系统
CN110069607A (zh) * 2017-12-14 2019-07-30 株式会社日立制作所 用于客户服务的方法、装置、电子设备、计算机可读存储介质
CN112183953A (zh) * 2020-09-08 2021-01-05 北京达佳互联信息技术有限公司 客服资源的分配方法、装置、电子设备和存储介质
CN114942973A (zh) * 2022-04-19 2022-08-26 尚特杰电力科技有限公司 一种用于电力智能客服系统的情绪识别方法和系统
CN116450796A (zh) * 2023-05-17 2023-07-18 中国兵器工业计算机应用技术研究所 一种智能问答模型构建方法及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈茂强 等: "智能语音交互技术在呼叫中心中的应用研究", 《广东通信技术》 *

Also Published As

Publication number Publication date
CN117041618B (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
Priyadarshani et al. Automated birdsong recognition in complex acoustic environments: a review
CN111477250B (zh) 音频场景识别方法、音频场景识别模型的训练方法和装置
CN110782920B (zh) 音频识别方法、装置及数据处理设备
CN111339913A (zh) 一种视频中的人物情绪识别方法及装置
CN112700794B (zh) 一种音频场景分类方法、装置、电子设备和存储介质
CN107274912B (zh) 一种手机录音的设备来源辨识方法
Rowe et al. Acoustic auto-encoders for biodiversity assessment
CN110189767B (zh) 一种基于双声道音频的录制移动设备检测方法
Liu et al. Birdsong classification based on multi feature channel fusion
Sobieraj et al. Masked non-negative matrix factorization for bird detection using weakly labeled data
CN117041618B (zh) 一种用于电商的智能语音客服方法和系统
CN112766368A (zh) 一种数据分类方法、设备和可读存储介质
Hajihashemi et al. Novel time-frequency based scheme for detecting sound events from sound background in audio segments
Chuchra et al. A deep learning approach for splicing detection in digital audios
Ruiz-Muñoz et al. Enhancing the dissimilarity-based classification of birdsong recordings
Cui et al. Research on audio recognition based on the deep neural network in music teaching
Hu et al. A lightweight multi-sensory field-based dual-feature fusion residual network for bird song recognition
CN115331703A (zh) 一种歌曲人声检测方法及装置
CN115116469A (zh) 特征表示的提取方法、装置、设备、介质及程序产品
CN111061909B (zh) 一种伴奏分类方法和装置
CN114302301A (zh) 频响校正方法及相关产品
Li et al. BlackFeather: A framework for background noise forensics
Gul et al. Single channel speech enhancement by colored spectrograms
CN117351988B (zh) 一种基于数据分析的远程音频信息处理方法及系统
Valanchery Analysis of different classifier for the detection of double compressed AMR audio

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant