CN117041618B - 一种用于电商的智能语音客服方法和系统 - Google Patents
一种用于电商的智能语音客服方法和系统 Download PDFInfo
- Publication number
- CN117041618B CN117041618B CN202311304934.XA CN202311304934A CN117041618B CN 117041618 B CN117041618 B CN 117041618B CN 202311304934 A CN202311304934 A CN 202311304934A CN 117041618 B CN117041618 B CN 117041618B
- Authority
- CN
- China
- Prior art keywords
- consultation
- voice
- link
- live
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000012545 processing Methods 0.000 claims abstract description 61
- 238000001228 spectrum Methods 0.000 claims abstract description 35
- 238000012216 screening Methods 0.000 claims abstract description 20
- 238000006243 chemical reaction Methods 0.000 claims abstract description 18
- 230000008859 change Effects 0.000 claims abstract description 14
- 230000009469 supplementation Effects 0.000 claims abstract description 10
- 230000005484 gravity Effects 0.000 claims description 28
- 238000010276 construction Methods 0.000 claims description 16
- 230000001502 supplementing effect Effects 0.000 claims description 12
- 238000012544 monitoring process Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 13
- 230000015572 biosynthetic process Effects 0.000 abstract description 7
- 238000003786 synthesis reaction Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000004088 simulation Methods 0.000 abstract description 5
- 238000012549 training Methods 0.000 abstract description 5
- 239000000654 additive Substances 0.000 description 6
- 230000000996 additive effect Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000009432 framing Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000009223 counseling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
- H04N21/2335—Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/47815—Electronic shopping
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及语音客服技术领域,具体公开了一种用于电商的智能语音客服方法和系统。本发明通过获取直播音频数据,进行谱减去噪处理,得到直播语音数据;构建并更新直播问答分类数据库;进行电商咨询语音的环节记录,前置性筛选并标记有效咨询语音,识别获取当前环节文本,并更新环节咨询文本;获取多个环节咨询特征;匹配答复语音数据,进行智能客服的自动语音答复。能够对直播音频数据进行谱减去噪处理、转化、补充、识别与问答分类处理,构建直播问答分类数据库,进而在电商咨询过程中,将直播语音应用于电商咨询的客服答复中,无需语音合成技术,不需要高成本的语音模拟训练,且能够保证语音客服的声音自然,并能够应变具体的语境变化。
Description
技术领域
本发明属于语音客服技术领域,尤其涉及一种用于电商的智能语音客服方法和系统。
背景技术
在消费升级和信息化时代的背景下,传统的人工客服已经不能够满足当前的电商语音客服需求,因此,智能语音客服应运而生,通过适配电商的客服服务平台,提高电商客服的效率。
现有技术中,用于电商的智能语音客服,主要是通过语音合成技术,将答复内容的文字转化为语音,进行自动的语音答复,具有以下缺陷:语音模拟训练成本高,声音过于机械化,难以模拟真实的发言,且不能够应变具体的语境变化。
发明内容
本发明实施例的目的在于提供一种用于电商的智能语音客服方法和系统,旨在解决背景技术中提出的问题。
为实现上述目的,本发明实施例提供如下技术方案:
一种用于电商的智能语音客服方法,所述方法具体包括以下步骤:
获取直播音频数据,对所述直播音频数据进行谱减去噪处理,得到直播语音数据;
对所述直播语音数据进行转化、补充、识别与问答分类处理,构建并更新直播问答分类数据库;
进行电商咨询语音的环节记录,前置性筛选并标记有效咨询语音,识别获取当前环节文本,并更新环节咨询文本;
对所述当前环节文本和所述环节咨询文本进行比重咨询特征识别,获取多个环节咨询特征;
基于多个所述环节咨询特征,从所述直播问答分类数据库中匹配答复语音数据,进行智能客服的自动语音答复。
作为本发明实施例技术方案进一步的限定,所述获取直播音频数据,对所述直播音频数据进行谱减去噪处理,得到直播语音数据具体包括以下步骤:
进行电商直播的更新监测,获取直播视频数据;
从所述直播视频数据中,提取直播音频数据;
对所述直播音频数据进行谱减去噪处理,得到直播语音数据。
作为本发明实施例技术方案进一步的限定,所述对所述直播音频数据进行谱减去噪处理,得到直播语音数据的具体处理过程为:
构建直播音频数据的短时谱加性信号模型:,其中,为直播音频信号,为直播语音信号,为直播噪音信号;
对所述短时谱加性信号模型进行信号分帧加窗处理,得到:,再进行傅里叶变换,得到:;
进行功率谱逆傅里叶变换处理,得到:;
计算直播语音数据:。
作为本发明实施例技术方案进一步的限定,所述对所述直播语音数据进行转化、补充、识别与问答分类处理,构建并更新直播问答分类数据库具体包括以下步骤:
对所述直播语音数据进行文本转化,得到直播语音文本;
获取所述直播语音数据对应的电商目标信息,在所述直播语音文本中进行信息补充,得到目标语音文本;
对所述目标语音文本进行问答识别与分类划分,得到多个直播问询信息和对应的直播答复信息;
根据多个所述直播问询信息和对应的直播答复信息,构建并更新直播问答分类数据库。
作为本发明实施例技术方案进一步的限定,所述对所述目标语音文本进行问答识别与分类划分,得到多个直播问询信息和对应的直播答复信息具体包括以下步骤:
按照预设的问答声纹数据,对所述直播语音数据进行声纹的动态识别,得到声纹动态数据;
根据所述声纹动态数据,确定多个问答动态变化时间;
按照多个问答动态变化时间,对所述目标语音文本进行问答分类划分,得到多个直播问询信息和对应的直播答复信息。
作为本发明实施例技术方案进一步的限定,所述进行电商咨询语音的环节记录,前置性筛选并标记有效咨询语音,识别获取当前环节文本,并更新环节咨询文本具体包括以下步骤:
进行电商咨询的环节记录,获取多个环节咨询语音;
从多个所述环节咨询语音中,筛选并标记当前环节语音;
对所述当前环节语音进行识别,获取当前环节文本;
对所述当前环节文本进行分析,获取环节分析结果;
按照所述环节分析结果,前置性筛选并标记有效咨询语音,更新环节咨询文本。
作为本发明实施例技术方案进一步的限定,所述对所述当前环节文本和所述环节咨询文本进行比重咨询特征识别,获取多个环节咨询特征具体包括以下步骤:
记录所述环节咨询文本的环节数量;
按照所述环节数量,进行特征的比重分配,确定当前特征比例和前置特征比例;
按照所述当前特征比例,对所述当前环节文本进行特征识别,获取多个当前咨询特征;
按照所述前置特征比例,对所述环节咨询文本进行特征识别,获取多个前置咨询特征;
综合多个所述当前咨询特征和多个所述前置咨询特征,得到多个环节咨询特征。
作为本发明实施例技术方案进一步的限定,所述基于多个所述环节咨询特征,从所述直播问答分类数据库中匹配答复语音数据,进行智能客服的自动语音答复具体包括以下步骤:
基于多个所述环节咨询特征,从所述直播问答分类数据库中匹配环节问询信息;
根据所述环节问询信息,匹配环节答复信息;
根据所述环节答复信息,获取对应的答复语音数据;
按照所述答复语音数据,进行智能客服的自动语音答复。
一种用于电商的智能语音客服系统,所述系统具体包括音频谱减去噪处理模块、直播问答分类数据库构建模块、咨询语音处理模块、比重咨询特征识别模块和语音匹配自动答复模块,其中:
音频谱减去噪处理模块,用于获取直播音频数据,对所述直播音频数据进行谱减去噪处理,得到直播语音数据;
直播问答分类数据库构建模块,用于对所述直播语音数据进行转化、补充、识别与问答分类处理,构建并更新直播问答分类数据库;
咨询语音处理模块,用于进行电商咨询语音的环节记录,前置性筛选并标记有效咨询语音,识别获取当前环节文本,并更新环节咨询文本;
比重咨询特征识别模块,用于对所述当前环节文本和所述环节咨询文本进行比重咨询特征识别,获取多个环节咨询特征;
语音匹配自动答复模块,用于基于多个所述环节咨询特征,从所述直播问答分类数据库中匹配答复语音数据,进行智能客服的自动语音答复。
作为本发明实施例技术方案进一步的限定,所述直播问答分类数据库构建模块具体包括:
文本转化单元,用于对所述直播语音数据进行文本转化,得到直播语音文本;
信息补充单元,用于获取所述直播语音数据对应的电商目标信息,在所述直播语音文本中进行信息补充,得到目标语音文本;
问答识别单元,用于对所述目标语音文本进行问答识别与分类划分,得到多个直播问询信息和对应的直播答复信息;
数据库构建单元,用于根据多个所述直播问询信息和对应的直播答复信息,构建并更新直播问答分类数据库。
与现有技术相比,本发明的有益效果是:
(1)本发明能够对直播音频数据进行谱减去噪处理、转化、补充、识别与问答分类处理,构建直播问答分类数据库,进而在电商咨询过程中,将直播语音应用于电商咨询的客服答复中,无需语音合成技术,不需要高成本的语音模拟训练,且能够保证语音客服的声音自然,并能够应变具体的语境变化;
(2)本发明能够进行电商咨询的环节记录,获取多个环节咨询语音,筛选当前环节语音,进行识别与分析,获取环节分析结果,进而按照环节分析结果,前置性筛选并标记有效咨询语音,更新环节咨询文本,从而剔除咨询过程中的无效咨询语音,提高咨询识别的效率;
(3)本发明能够记录环节咨询文本的环节数量,进行特征的比重分配,确定当前特征比例和前置特征比例,进行比重咨询特征识别,获取多个环节咨询特征,从而使得当前的咨询识别与前面环节的咨询信息有不同比重的关系,便于对咨询语音的整体理解,提高智能语音客服的答复效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。
图1示出了本发明实施例提供的方法的流程图。
图2示出了本发明实施例提供的方法中直播音频数据处理的流程图。
图3示出了本发明实施例提供的方法中构建直播问答分类数据库的流程图。
图4示出了本发明实施例提供的方法中问答识别与分类划分的流程图。
图5示出了本发明实施例提供的方法中有效咨询语音筛选的流程图。
图6示出了本发明实施例提供的方法中比重咨询特征识别的流程图。
图7示出了本发明实施例提供的方法中智能客服自动语音答复的流程图。
图8示出了本发明实施例提供的系统的应用架构图。
图9示出了本发明实施例提供的系统中直播问答分类数据库构建模块的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解的是,现有技术中,用于电商的智能语音客服,主要是通过语音合成技术,将答复内容的文字转化为语音,进行自动的语音答复,具有以下缺陷:语音模拟训练成本高,声音过于机械化,难以模拟真实的发言,且不能够应变具体的语境变化。
为解决上述问题,本发明实施例通过获取直播音频数据,对直播音频数据进行谱减去噪处理,得到直播语音数据;对直播语音数据进行转化、补充、识别与问答分类处理,构建并更新直播问答分类数据库;进行电商咨询语音的环节记录,前置性筛选并标记有效咨询语音,识别获取当前环节文本,并更新环节咨询文本;对当前环节文本和环节咨询文本进行比重咨询特征识别,获取多个环节咨询特征;基于多个环节咨询特征,从直播问答分类数据库中匹配答复语音数据,进行智能客服的自动语音答复。能够对直播音频数据进行谱减去噪处理、转化、补充、识别与问答分类处理,构建直播问答分类数据库,进而在电商咨询过程中,将直播语音应用于电商咨询的客服答复中,无需语音合成技术,不需要高成本的语音模拟训练,且能够保证语音客服的声音自然,并能够应变具体的语境变化。
图1示出了本发明实施例提供的方法的流程图。
具体的,在本发明提供的一个优选实施方式中,一种用于电商的智能语音客服方法,所述方法具体包括以下步骤:
步骤S101,获取直播音频数据,对所述直播音频数据进行谱减去噪处理,得到直播语音数据。
在本发明实施例中,进行电商直播的更新监测,在具有电商直播时,进行电商直播的录制,获取直播视频数据,再从直播视频数据中,提取直播音频数据,按照谱减法,对直播音频数据进行去噪增强处理,去除直播音频数据中的背景噪音,得到只包含主播语音的直播语音数据,具体的,去噪增强处理的过程为:
构建直播音频数据的短时谱加性信号模型:,其中,为直播音频信号,为直播语音信号,为直播噪音信号;
对每一帧的音频信号进行窗函数处理,利用短时窗对信号进行截取,实现信号分
帧加窗处理,得到:,再进行傅里叶变换,得到:;
进行功率谱逆傅里叶变换处理,将离散的频域信号进行转化整合,生成连续的语
音信号,得到:;
去除增益,计算直播语音数据:。
可以理解的是,背景噪音,包括环境噪音和背景音乐。
具体的,图2示出了本发明实施例提供的方法中直播音频数据处理的流程图。
其中,在本发明提供的优选实施方式中,所述获取直播音频数据,对所述直播音频数据进行谱减去噪处理,得到直播语音数据具体包括以下步骤:
步骤S1011,进行电商直播的更新监测,获取直播视频数据。
步骤S1012,从所述直播视频数据中,提取直播音频数据。
步骤S1013,对所述直播音频数据进行谱减去噪处理,得到直播语音数据。
具体的,在本发明提供的优选实施方式中,所述对所述直播音频数据进行谱减去噪处理,得到直播语音数据的具体处理过程为:
构建直播音频数据的短时谱加性信号模型:,其中,为直播音频信号,为直播语音信号,为直播噪音信号;
对所述短时谱加性信号模型进行信号分帧加窗处理,得到:,再进行傅里叶变换,得到:;
进行功率谱逆傅里叶变换处理,得到:;
计算直播语音数据:。
进一步的,所述用于电商的智能语音客服方法还包括以下步骤:
步骤S102,对所述直播语音数据进行转化、补充、识别与问答分类处理,构建并更新直播问答分类数据库。
在本发明实施例中,对直播语音数据进行文本转化,得到直播语音文本,通过获取直播语音数据对应的电商目标信息,从电商目标信息中提取电商目标主题,并在直播语音文本中,将电商目标主题进行补充,得到目标语音文本,按照预设的问答声纹数据,对直播语音数据进行声纹动态识别,得到声纹动态数据,进而根据声纹动态数据,确定多个问答动态变化时间,按照多个问答动态变化时间,对目标语音文本的问答内容进行分类划分,得到多个直播问询信息和对应的直播答复信息,进而将多个直播问询信息和对应的直播答复信息进行整理,构建直播问答分类数据库,并在直播问询信息和对应的直播答复信息更新时,对直播问答分类数据库进行相应的更新。
可以理解的是,电商目标信息,是直播时相关的电商商品信息,其中,电商目标主题,是电商商品信息中的商品名称。
可以理解的是,将电商目标主题进行补充,主要是识别直播语音文本中主题缺失的位置,并将相应的位置,进行电商目标主题的补充,保证语音文本中的内容准确。
可以理解的是,在电商直播时,可以设置两个主播参与直播,一个主播观看直播弹幕,并提取弹幕中的问题进行提问,另外一个主播按照提问的问题,进行对应的答复,由于两个主播具有不同的声纹,因此,可以通过对直播语音数据进行声纹动态识别,记录两个主播对应的语音时间,从而得到多个问答动态变化时间。
具体的,图3示出了本发明实施例提供的方法中构建直播问答分类数据库的流程图。
其中,在本发明提供的优选实施方式中,所述对所述直播语音数据进行转化、补充、识别与问答分类处理,构建并更新直播问答分类数据库具体包括以下步骤:
步骤S1021,对所述直播语音数据进行文本转化,得到直播语音文本。
步骤S1022,获取所述直播语音数据对应的电商目标信息,在所述直播语音文本中进行信息补充,得到目标语音文本。
步骤S1023,对所述目标语音文本进行问答识别与分类划分,得到多个直播问询信息和对应的直播答复信息。
具体的,图4示出了本发明实施例提供的方法中问答识别与分类划分的流程图。
其中,在本发明提供的优选实施方式中,所述对所述目标语音文本进行问答识别与分类划分,得到多个直播问询信息和对应的直播答复信息具体包括以下步骤:
步骤S10231,按照预设的问答声纹数据,对所述直播语音数据进行声纹的动态识别,得到声纹动态数据。
步骤S10232,根据所述声纹动态数据,确定多个问答动态变化时间。
步骤S10233,按照多个问答动态变化时间,对所述目标语音文本进行问答分类划分,得到多个直播问询信息和对应的直播答复信息。
进一步的,所述对所述直播语音数据进行转化、补充、识别与问答分类处理,构建并更新直播问答分类数据库还包括以下步骤:
步骤S1024,根据多个所述直播问询信息和对应的直播答复信息,构建并更新直播问答分类数据库。
进一步的,所述用于电商的智能语音客服方法还包括以下步骤:
步骤S103,进行电商咨询语音的环节记录,前置性筛选并标记有效咨询语音,识别获取当前环节文本,并更新环节咨询文本。
在本发明实施例中,在客户进行电商咨询的过程中,按照咨询环节,进行电商咨询的语音记录,获取多个环节咨询语音,再从多个环节咨询语音中,筛选最新的环节咨询语音,将其标记为当前环节语音,通过对当前环节语音进行文本转化,得到当前环节文本,再按照预设的否定关键词库,对当前环节文本进行否定识别,判断当前环节文本中是否具有否定关键词库中的否定关键词,在当前环节文本中具有否定关键词库中的否定关键词时,判定上一个环节的环节咨询语音为无效咨询语音,并将无效咨询语音剔除;在当前环节文本中不具有否定关键词库中的否定关键词时,判定上一个环节的环节咨询语音为有效咨询语音,则保留有效咨询语音,在电商咨询的过程中,按照咨询环节,对环节咨询语音进行逐步的前置性筛选,只保留有效咨询语音,生成只与有效咨询语音有关的环节咨询文本,并在有效咨询语音更新时,对环节咨询文本进行相应的更新。
可以理解的是,咨询环节,包括一个问答过程,客户进行一次语音提问,再进行一次对应的智能客服自动语音答复之后,为完成一个咨询环节。
可以理解的是,否定关键词库中,含有预设的多个否定关键词,例如:错了、不对、不是的等。
具体的,图5示出了本发明实施例提供的方法中有效咨询语音筛选的流程图。
其中,在本发明提供的优选实施方式中,所述进行电商咨询语音的环节记录,前置性筛选并标记有效咨询语音,识别获取当前环节文本,并更新环节咨询文本具体包括以下步骤:
步骤S1031,进行电商咨询的环节记录,获取多个环节咨询语音。
步骤S1032,从多个所述环节咨询语音中,筛选并标记当前环节语音。
步骤S1033,对所述当前环节语音进行识别,获取当前环节文本。
步骤S1034,对所述当前环节文本进行分析,获取环节分析结果。
步骤S1035,按照所述环节分析结果,前置性筛选并标记有效咨询语音,更新环节咨询文本。
进一步的,所述用于电商的智能语音客服方法还包括以下步骤:
步骤S104,对所述当前环节文本和所述环节咨询文本进行比重咨询特征识别,获取多个环节咨询特征。
在本发明实施例中,对环节咨询文本中咨询环节的数量进行统计记录,得到环节数量,再按照环节数量,进行特征的比重分配,确定当前特征比例和前置特征比例,再根据预设的标准特征数量,计算当前特征比例对应的当前特征数量,且计算前置特征比例对应的前置特征数量,通过对当前环节文本进行特征识别,获取当前特征数量的当前咨询特征,同时,通过对环节咨询文本进行特征识别,获取前置特征数量的前置咨询特征,将当前特征数量的当前咨询特征与前置特征数量的前置咨询特征进行特征综合,得到标准特征数量的环节咨询特征。
可以理解的是,前置特征数量的前置咨询特征,是环节咨询文本中特征出现频次处于前列的前置特征数量对应的特征,例如:前置特征数量为5个,则5个前置咨询特征是环节咨询文本中特征出现频次处于前5个的特征。
可以理解的是,比重分配与环节数量有关,环节数量越高时,当前特征比例越低,且当前特征比例最低不能低于50%;环节数量越低时,当前特征比例越高,且当前特征比例最高不能高于90%,从而使得当前的咨询识别与前面环节的咨询信息有动态的比重关系,便于对咨询语音的整体理解,提高智能语音客服的答复效率。
具体的,图6示出了本发明实施例提供的方法中比重咨询特征识别的流程图。
其中,在本发明提供的优选实施方式中,所述对所述当前环节文本和所述环节咨询文本进行比重咨询特征识别,获取多个环节咨询特征具体包括以下步骤:
步骤S1041,记录所述环节咨询文本的环节数量。
步骤S1042,按照所述环节数量,进行特征的比重分配,确定当前特征比例和前置特征比例。
步骤S1043,按照所述当前特征比例,对所述当前环节文本进行特征识别,获取多个当前咨询特征。
步骤S1044,按照所述前置特征比例,对所述环节咨询文本进行特征识别,获取多个前置咨询特征。
步骤S1045,综合多个所述当前咨询特征和多个所述前置咨询特征,得到多个环节咨询特征。
进一步的,所述用于电商的智能语音客服方法还包括以下步骤:
步骤S105,基于多个所述环节咨询特征,从所述直播问答分类数据库中匹配答复语音数据,进行智能客服的自动语音答复。
在本发明实施例中,基于标准特征数量的环节咨询特征,在直播问答分类数据库中进行信息匹配,从多个直播问询信息中,匹配并标记环节问询信息,再根据环节问询信息,从多个直播答复信息中,匹配并标记环节答复信息,进而根据环节答复信息,获取对应的答复语音数据,按照答复语音数据,进行智能客服的自动语音答复,使得自动语音答复声音自然,并且能够应变具体的语境变化。
具体的,图7示出了本发明实施例提供的方法中智能客服自动语音答复的流程图。
其中,在本发明提供的优选实施方式中,所述基于多个所述环节咨询特征,从所述直播问答分类数据库中匹配答复语音数据,进行智能客服的自动语音答复具体包括以下步骤:
步骤S1051,基于多个所述环节咨询特征,从所述直播问答分类数据库中匹配环节问询信息。
步骤S1052,根据所述环节问询信息,匹配环节答复信息。
步骤S1053,根据所述环节答复信息,获取对应的答复语音数据。
步骤S1054,按照所述答复语音数据,进行智能客服的自动语音答复。
进一步的,图8示出了本发明实施例提供的系统的应用架构图。
其中,在本发明提供的又一个优选实施方式中,一种用于电商的智能语音客服系统,包括:
音频谱减去噪处理模块101,用于获取直播音频数据,对所述直播音频数据进行谱减去噪处理,得到直播语音数据。
在本发明实施例中,音频谱减去噪处理模块101进行电商直播的更新监测,在具有电商直播时,进行电商直播的录制,获取直播视频数据,再从直播视频数据中,提取直播音频数据,按照谱减法,对直播音频数据进行去噪增强处理,去除直播音频数据中的背景噪音,得到只包含主播语音的直播语音数据,具体的,去噪增强处理的过程为:
构建直播音频数据的短时谱加性信号模型:,其中,为直播音频信号,为直播语音信号,为直播噪音信号;
对每一帧的音频信号进行窗函数处理,利用短时窗对信号进行截取,实现信号分
帧加窗处理,得到:,再进行傅里叶变换,得到:;
进行功率谱逆傅里叶变换处理,将离散的频域信号进行转化整合,生成连续的语
音信号,得到:;
去除增益,计算直播语音数据:。
直播问答分类数据库构建模块102,用于对所述直播语音数据进行转化、补充、识别与问答分类处理,构建并更新直播问答分类数据库。
在本发明实施例中,直播问答分类数据库构建模块102对直播语音数据进行文本转化,得到直播语音文本,通过获取直播语音数据对应的电商目标信息,从电商目标信息中提取电商目标主题,并在直播语音文本中,将电商目标主题进行补充,得到目标语音文本,按照预设的问答声纹数据,对直播语音数据进行声纹动态识别,得到声纹动态数据,进而根据声纹动态数据,确定多个问答动态变化时间,按照多个问答动态变化时间,对目标语音文本的问答内容进行分类划分,得到多个直播问询信息和对应的直播答复信息,进而将多个直播问询信息和对应的直播答复信息进行整理,构建直播问答分类数据库,并在直播问询信息和对应的直播答复信息更新时,直播问答分类数据库构建模块102对直播问答分类数据库进行相应的更新。
具体的,图9示出了本发明实施例提供的系统中直播问答分类数据库构建模块102的结构框图。
其中,在本发明提供的优选实施方式中,所述直播问答分类数据库构建模块102具体包括:
文本转化单元1021,用于对所述直播语音数据进行文本转化,得到直播语音文本。
信息补充单元1022,用于获取所述直播语音数据对应的电商目标信息,在所述直播语音文本中进行信息补充,得到目标语音文本。
问答识别单元1023,用于对所述目标语音文本进行问答识别与分类划分,得到多个直播问询信息和对应的直播答复信息。
数据库构建单元1024,用于根据多个所述直播问询信息和对应的直播答复信息,构建并更新直播问答分类数据库。
进一步的,所述用于电商的智能语音客服系统还包括:
咨询语音处理模块103,用于进行电商咨询语音的环节记录,前置性筛选并标记有效咨询语音,识别获取当前环节文本,并更新环节咨询文本。
在本发明实施例中,在客户进行电商咨询的过程中,咨询语音处理模块103按照咨询环节,进行电商咨询的语音记录,获取多个环节咨询语音,再从多个环节咨询语音中,筛选最新的环节咨询语音,将其标记为当前环节语音,通过对当前环节语音进行文本转化,得到当前环节文本,再按照预设的否定关键词库,对当前环节文本进行否定识别,判断当前环节文本中是否具有否定关键词库中的否定关键词,在当前环节文本中具有否定关键词库中的否定关键词时,判定上一个环节的环节咨询语音为无效咨询语音,并将无效咨询语音剔除;在当前环节文本中不具有否定关键词库中的否定关键词时,判定上一个环节的环节咨询语音为有效咨询语音,则保留有效咨询语音,在电商咨询的过程中,按照咨询环节,对环节咨询语音进行逐步的前置性筛选,只保留有效咨询语音,生成只与有效咨询语音有关的环节咨询文本,并在有效咨询语音更新时,对环节咨询文本进行相应的更新。
比重咨询特征识别模块104,用于对所述当前环节文本和所述环节咨询文本进行比重咨询特征识别,获取多个环节咨询特征。
在本发明实施例中,比重咨询特征识别模块104对环节咨询文本中咨询环节的数量进行统计记录,得到环节数量,再按照环节数量,进行特征的比重分配,确定当前特征比例和前置特征比例,再根据预设的标准特征数量,计算当前特征比例对应的当前特征数量,且计算前置特征比例对应的前置特征数量,通过对当前环节文本进行特征识别,获取当前特征数量的当前咨询特征,同时,通过对环节咨询文本进行特征识别,获取前置特征数量的前置咨询特征,将当前特征数量的当前咨询特征与前置特征数量的前置咨询特征进行特征综合,得到标准特征数量的环节咨询特征。
语音匹配自动答复模块105,用于基于多个所述环节咨询特征,从所述直播问答分类数据库中匹配答复语音数据,进行智能客服的自动语音答复。
在本发明实施例中,语音匹配自动答复模块105基于标准特征数量的环节咨询特征,在直播问答分类数据库中进行信息匹配,从多个直播问询信息中,匹配并标记环节问询信息,再根据环节问询信息,从多个直播答复信息中,匹配并标记环节答复信息,进而根据环节答复信息,获取对应的答复语音数据,按照答复语音数据,进行智能客服的自动语音答复,使得自动语音答复声音自然,并且能够应变具体的语境变化。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
Claims (8)
1.一种用于电商的智能语音客服方法,其特征在于,所述方法具体包括以下步骤:
获取直播音频数据,对所述直播音频数据进行谱减去噪处理,得到直播语音数据;
对所述直播语音数据进行转化、补充、识别与问答分类处理,构建并更新直播问答分类数据库;
进行电商咨询语音的环节记录,前置性筛选并标记有效咨询语音,识别获取当前环节文本,并更新环节咨询文本;
对所述当前环节文本和所述环节咨询文本进行比重咨询特征识别,获取多个环节咨询特征;
基于多个所述环节咨询特征,从所述直播问答分类数据库中匹配答复语音数据,进行智能客服的自动语音答复;
所述对所述当前环节文本和所述环节咨询文本进行比重咨询特征识别,获取多个环节咨询特征具体包括以下步骤:
记录所述环节咨询文本的环节数量;
按照所述环节数量,进行特征的比重分配,确定当前特征比例和前置特征比例;
按照所述当前特征比例,对所述当前环节文本进行特征识别,获取多个当前咨询特征;
按照所述前置特征比例,对所述环节咨询文本进行特征识别,获取多个前置咨询特征;
综合多个所述当前咨询特征和多个所述前置咨询特征,得到多个环节咨询特征。
2.根据权利要求1所述的用于电商的智能语音客服方法,其特征在于,所述获取直播音频数据,对所述直播音频数据进行谱减去噪处理,得到直播语音数据具体包括以下步骤:
进行电商直播的更新监测,获取直播视频数据;
从所述直播视频数据中,提取直播音频数据;
对所述直播音频数据进行谱减去噪处理,得到直播语音数据。
3.根据权利要求1所述的用于电商的智能语音客服方法,其特征在于,所述对所述直播语音数据进行转化、补充、识别与问答分类处理,构建并更新直播问答分类数据库具体包括以下步骤:
对所述直播语音数据进行文本转化,得到直播语音文本;
获取所述直播语音数据对应的电商目标信息,在所述直播语音文本中进行信息补充,得到目标语音文本;
对所述目标语音文本进行问答识别与分类划分,得到多个直播问询信息和对应的直播答复信息;
根据多个所述直播问询信息和对应的直播答复信息,构建并更新直播问答分类数据库。
4.根据权利要求3所述的用于电商的智能语音客服方法,其特征在于,所述对所述目标语音文本进行问答识别与分类划分,得到多个直播问询信息和对应的直播答复信息具体包括以下步骤:
按照预设的问答声纹数据,对所述直播语音数据进行声纹的动态识别,得到声纹动态数据;
根据所述声纹动态数据,确定多个问答动态变化时间;
按照多个问答动态变化时间,对所述目标语音文本进行问答分类划分,得到多个直播问询信息和对应的直播答复信息。
5.根据权利要求1所述的用于电商的智能语音客服方法,其特征在于,所述进行电商咨询语音的环节记录,前置性筛选并标记有效咨询语音,识别获取当前环节文本,并更新环节咨询文本具体包括以下步骤:
进行电商咨询的环节记录,获取多个环节咨询语音;
从多个所述环节咨询语音中,筛选并标记当前环节语音;
对所述当前环节语音进行识别,获取当前环节文本;
对所述当前环节文本进行分析,获取环节分析结果;
按照所述环节分析结果,前置性筛选并标记有效咨询语音,更新环节咨询文本。
6.根据权利要求1所述的用于电商的智能语音客服方法,其特征在于,所述基于多个所述环节咨询特征,从所述直播问答分类数据库中匹配答复语音数据,进行智能客服的自动语音答复具体包括以下步骤:
基于多个所述环节咨询特征,从所述直播问答分类数据库中匹配环节问询信息;
根据所述环节问询信息,匹配环节答复信息;
根据所述环节答复信息,获取对应的答复语音数据;
按照所述答复语音数据,进行智能客服的自动语音答复。
7.一种用于电商的智能语音客服系统,其特征在于,所述系统具体包括音频谱减去噪处理模块、直播问答分类数据库构建模块、咨询语音处理模块、比重咨询特征识别模块和语音匹配自动答复模块,其中:
音频谱减去噪处理模块,用于获取直播音频数据,对所述直播音频数据进行谱减去噪处理,得到直播语音数据;
直播问答分类数据库构建模块,用于对所述直播语音数据进行转化、补充、识别与问答分类处理,构建并更新直播问答分类数据库;
咨询语音处理模块,用于进行电商咨询语音的环节记录,前置性筛选并标记有效咨询语音,识别获取当前环节文本,并更新环节咨询文本;
比重咨询特征识别模块,用于对所述当前环节文本和所述环节咨询文本进行比重咨询特征识别,获取多个环节咨询特征;
语音匹配自动答复模块,用于基于多个所述环节咨询特征,从所述直播问答分类数据库中匹配答复语音数据,进行智能客服的自动语音答复;
所述对所述当前环节文本和所述环节咨询文本进行比重咨询特征识别,获取多个环节咨询特征具体包括以下内容:
记录所述环节咨询文本的环节数量;
按照所述环节数量,进行特征的比重分配,确定当前特征比例和前置特征比例;
按照所述当前特征比例,对所述当前环节文本进行特征识别,获取多个当前咨询特征;
按照所述前置特征比例,对所述环节咨询文本进行特征识别,获取多个前置咨询特征;
综合多个所述当前咨询特征和多个所述前置咨询特征,得到多个环节咨询特征。
8.根据权利要求7所述的用于电商的智能语音客服系统,其特征在于,所述直播问答分类数据库构建模块具体包括:
文本转化单元,用于对所述直播语音数据进行文本转化,得到直播语音文本;
信息补充单元,用于获取所述直播语音数据对应的电商目标信息,在所述直播语音文本中进行信息补充,得到目标语音文本;
问答识别单元,用于对所述目标语音文本进行问答识别与分类划分,得到多个直播问询信息和对应的直播答复信息;
数据库构建单元,用于根据多个所述直播问询信息和对应的直播答复信息,构建并更新直播问答分类数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311304934.XA CN117041618B (zh) | 2023-10-10 | 2023-10-10 | 一种用于电商的智能语音客服方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311304934.XA CN117041618B (zh) | 2023-10-10 | 2023-10-10 | 一种用于电商的智能语音客服方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117041618A CN117041618A (zh) | 2023-11-10 |
CN117041618B true CN117041618B (zh) | 2024-02-06 |
Family
ID=88641693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311304934.XA Active CN117041618B (zh) | 2023-10-10 | 2023-10-10 | 一种用于电商的智能语音客服方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117041618B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160101302A (ko) * | 2015-02-16 | 2016-08-25 | 주식회사 케이티 | 고객센터 상담 자동 요약 및 분류 시스템 및 그 방법 |
CN106649561A (zh) * | 2016-11-10 | 2017-05-10 | 复旦大学 | 面向税务咨询业务的智能问答系统 |
CN110069607A (zh) * | 2017-12-14 | 2019-07-30 | 株式会社日立制作所 | 用于客户服务的方法、装置、电子设备、计算机可读存储介质 |
CN112183953A (zh) * | 2020-09-08 | 2021-01-05 | 北京达佳互联信息技术有限公司 | 客服资源的分配方法、装置、电子设备和存储介质 |
CN114942973A (zh) * | 2022-04-19 | 2022-08-26 | 尚特杰电力科技有限公司 | 一种用于电力智能客服系统的情绪识别方法和系统 |
CN116450796A (zh) * | 2023-05-17 | 2023-07-18 | 中国兵器工业计算机应用技术研究所 | 一种智能问答模型构建方法及设备 |
-
2023
- 2023-10-10 CN CN202311304934.XA patent/CN117041618B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160101302A (ko) * | 2015-02-16 | 2016-08-25 | 주식회사 케이티 | 고객센터 상담 자동 요약 및 분류 시스템 및 그 방법 |
CN106649561A (zh) * | 2016-11-10 | 2017-05-10 | 复旦大学 | 面向税务咨询业务的智能问答系统 |
CN110069607A (zh) * | 2017-12-14 | 2019-07-30 | 株式会社日立制作所 | 用于客户服务的方法、装置、电子设备、计算机可读存储介质 |
CN112183953A (zh) * | 2020-09-08 | 2021-01-05 | 北京达佳互联信息技术有限公司 | 客服资源的分配方法、装置、电子设备和存储介质 |
CN114942973A (zh) * | 2022-04-19 | 2022-08-26 | 尚特杰电力科技有限公司 | 一种用于电力智能客服系统的情绪识别方法和系统 |
CN116450796A (zh) * | 2023-05-17 | 2023-07-18 | 中国兵器工业计算机应用技术研究所 | 一种智能问答模型构建方法及设备 |
Non-Patent Citations (1)
Title |
---|
智能语音交互技术在呼叫中心中的应用研究;陈茂强 等;《广东通信技术》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117041618A (zh) | 2023-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111477250B (zh) | 音频场景识别方法、音频场景识别模型的训练方法和装置 | |
EP3701528B1 (en) | Segmentation-based feature extraction for acoustic scene classification | |
CN112199548A (zh) | 一种基于卷积循环神经网络的音乐音频分类方法 | |
CN110047514B (zh) | 一种伴奏纯净度评估方法以及相关设备 | |
CN111339913A (zh) | 一种视频中的人物情绪识别方法及装置 | |
WO2024001646A1 (zh) | 音频数据的处理方法、装置、电子设备、程序产品及存储介质 | |
CN112700794B (zh) | 一种音频场景分类方法、装置、电子设备和存储介质 | |
CN107154264A (zh) | 在线教学精彩片段提取的方法 | |
CN103761965A (zh) | 一种乐器信号的分类方法 | |
Rowe et al. | Acoustic auto-encoders for biodiversity assessment | |
CN107274912B (zh) | 一种手机录音的设备来源辨识方法 | |
Liu et al. | Birdsong classification based on multi feature channel fusion | |
Sobieraj et al. | Masked non-negative matrix factorization for bird detection using weakly labeled data | |
Cui et al. | Research on audio recognition based on the deep neural network in music teaching | |
Hu et al. | A lightweight multi-sensory field-based dual-feature fusion residual network for bird song recognition | |
CN117041618B (zh) | 一种用于电商的智能语音客服方法和系统 | |
CN111061909B (zh) | 一种伴奏分类方法和装置 | |
Ruiz-Muñoz et al. | Enhancing the dissimilarity-based classification of birdsong recordings | |
Chuchra et al. | A deep learning approach for splicing detection in digital audios | |
Hajihashemi et al. | Novel time-frequency based scheme for detecting sound events from sound background in audio segments | |
CN115331703A (zh) | 一种歌曲人声检测方法及装置 | |
CN115116469A (zh) | 特征表示的提取方法、装置、设备、介质及程序产品 | |
Sharma et al. | Speech Emotion Recognition System using SVD algorithm with HMM Model | |
Shirali-Shahreza et al. | Fast and scalable system for automatic artist identification | |
Li et al. | BlackFeather: A framework for background noise forensics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |