CN111539221A - 一种数据处理方法及系统 - Google Patents
一种数据处理方法及系统 Download PDFInfo
- Publication number
- CN111539221A CN111539221A CN202010404931.3A CN202010404931A CN111539221A CN 111539221 A CN111539221 A CN 111539221A CN 202010404931 A CN202010404931 A CN 202010404931A CN 111539221 A CN111539221 A CN 111539221A
- Authority
- CN
- China
- Prior art keywords
- voice
- client
- house
- information corresponding
- text information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000011156 evaluation Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims description 38
- 238000000926 separation method Methods 0.000 claims description 23
- 238000012216 screening Methods 0.000 claims description 10
- 238000013145 classification model Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000013434 data augmentation Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000012797 qualification Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000012946 outsourcing Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据处理方法及系统,方法包括:获取通话录音,其中,通话录音中包括客户语音和房产经纪人语音;对通话录音进行语音处理,得到与客户语音相对应的文本信息;基于用户意向分级模型对与客户语音相对应的文本信息进行评估,得到客户购房意向评估等级。本发明能够简单有效的评估出客户的购房意向,进而为房源的精准推荐提供数据基础。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及一种数据处理方法及系统。
背景技术
随着房地产行业的发展,每天都会有电话咨询、广告媒体、网络咨询、客户介绍等多种潜在客户来源。目前,房地产行业在对意向客户进行管理时,主要是通过对线索的跟踪,包括短信联系、来电时间和通话记录的整合,实现客户线索统一管理和分配。线索统一管理是将所有咨询或网页访问过楼盘的客户作为意向客户线索,然后再按某种规则将这些线索分配给房产经纪人,房产经纪人需要做进一步的回访来确定真正的意向客户。由此可以看出,目前在对意向客户进行管理时,将所有关注楼盘的客户统一作为意向客户线索,并没有对线索做一个细化意向评级,所有线索都需要房产经纪人人工去整合筛选,人力成本极高,如直接将所有楼盘咨询电话作为线索分配给房产经纪人,房产经纪人需要进一步通过电话回访筛选线索,对那些购房意向低的客户进行频繁电话回访,容易引起客户的反感,导致楼盘品牌度降低。
因此,如何简单有效的确定出客户的购房意向,是一项亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种数据处理方法,能够简单有效的评估出客户的购房意向,进而为房源的精准推荐提供数据基础。
本发明提供了一种数据处理方法,包括:
获取通话录音,其中,所述通话录音中包括客户语音和房产经纪人语音;
对所述通话录音进行语音处理,得到与所述客户语音相对应的文本信息;
基于用户意向分级模型对所述与所述客户语音相对应的文本信息进行评估,得到客户购房意向评估等级。
优选地,所述获取通话录音,包括:
获取通话时长大于预设时间的通话录音,其中,所述通话录音中包括客户语音和房产经纪人语音。
优选地,所述获取通话时长大于预设时间的通话录音,包括:
基于预设周期,获取通话时长大于预设时间的通话录音,其中,所述通话录音中包括客户语音和房产经纪人语音。
优选地,所述对所述通话录音进行语音处理,得到与所述客户语音相对应的文本信息,包括:
基于说话人归档模型对所述通话录音进行切割处理,得到客户语音和房产经纪人语音;
对所述客户语音和房产经纪人语音进行语音识别,得到与所述客户语音和房产经纪人语音对应的文本信息;
基于角色分离模型对所述与所述客户语音和房产经纪人语音对应的文本信息进行筛选,得到与所述客户语音相对应的文本信息。
优选地,所述方法还包括:
训练生成所述说话人归档模型;
训练生成所述角色分离模型;
训练生成所述用户意向分级模型。
一种数据处理系统,包括:
获取模块,用于获取通话录音,其中,所述通话录音中包括客户语音和房产经纪人语音;
处理模块,用于对所述通话录音进行语音处理,得到与所述客户语音相对应的文本信息;
评估模块,用于基于用户意向分级模型对所述与所述客户语音相对应的文本信息进行评估,得到客户购房意向评估等级。
优选地,所述获取模块具体用于:
获取通话时长大于预设时间的通话录音,其中,所述通话录音中包括客户语音和房产经纪人语音。
优选地,所述获取模块具体用于:
基于预设周期,获取通话时长大于预设时间的通话录音,其中,所述通话录音中包括客户语音和房产经纪人语音。
优选地,所述处理模块包括:
语音切割单元,用于基于说话人归档模型对所述通话录音进行切割处理,得到客户语音和房产经纪人语音;
语音识别单元,用于对所述客户语音和房产经纪人语音进行语音识别,得到与所述客户语音和房产经纪人语音对应的文本信息;
筛选单元,用于基于角色分离模型对所述与所述客户语音和房产经纪人语音对应的文本信息进行筛选,得到与所述客户语音相对应的文本信息。
优选地,所述系统还包括:
第一生成模块,用于训练生成所述说话人归档模型;
第二生成模块,用于训练生成所述角色分离模型;
第三生成模块,用于训练生成所述用户意向分级模型。
综上所述,本发明公开了一种数据处理方法,当需要对客户的购房意向进行评估时,首先获取通话录音,其中,通话录音中包括客户语音和房产经纪人语音,然后对通话录音进行语音处理,得到与客户语音相对应的文本信息,基于用户意向分级模型对与客户语音相对应的文本信息进行评估,得到客户购房意向评估等级。本发明通过数据处理,能够简单有效的评估出客户的购房意向,进而为房源的精准推荐提供数据基础。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明公开的一种数据处理方法实施例1的方法流程图;
图2为本发明公开的一种数据处理方法实施例2的方法流程图;
图3为本发明公开的一种数据处理方法实施例3的方法流程图;
图4为本发明公开的一种数据处理系统实施例1的结构示意图;
图5为本发明公开的一种数据处理系统实施例2的结构示意图;
图6为本发明公开的一种数据处理系统实施例3的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明公开的一种数据处理方法实施例1的方法流程图,所述方法可以包括以下步骤:
S101、获取通话录音,其中,通话录音中包括客户语音和房产经纪人语音;
当需要对客户的购房意向进行评估时,首先获取客户与房产经纪人在通话过程中的通话录音。其中,获取的通话录音可以是楼盘所有咨询电话的录音文件。其中,获取到的通话录音中包括客户语音和房产经纪人语音。
S102、对通话录音进行语音处理,得到与客户语音相对应的文本信息;
在获取到通话录音后,进一步对获取到的通话录音进行语音处理,得到通话录音中与客户语音相对应的文本信息。如,通话录音中包括客户A说的“我想咨询一下XX楼盘的户型和价格”,通过语音处理,得到与语音“我想咨询一下XX楼盘的户型和价格”对应的文本信息。
S103、基于用户意向分级模型对与客户语音相对应的文本信息进行评估,得到客户购房意向评估等级。
在得到通话录音中与客户语音相对应的文本信息后,进一步将得到的与客户语音相对应的文本信息输入构建的用户意向分级模型,通过用户意向分级模型对与客户语音相对应的文本信息进行评估,得到相应的客户购房意向评估等级。通过得到的客户购房意向评估等级,房产经纪人能够较为准确的判断出客户是否有购房需求,进而采取对应的销售策略。
综上所述,在上述实施例中,当需要对客户的购房意向进行评估时,首先获取通话录音,其中,通话录音中包括客户语音和房产经纪人语音,然后对通话录音进行语音处理,得到与客户语音相对应的文本信息,基于用户意向分级模型对与客户语音相对应的文本信息进行评估,得到客户购房意向评估等级。本发明通过数据处理,能够简单有效的评估出客户的购房意向,进而为房源的精准推荐提供数据基础。
如图2所示,为本发明公开的一种数据处理方法实施例2的方法流程图,所述方法可以包括以下步骤:
S201、获取通话时长大于预设时间的通话录音,其中,通话录音中包括客户语音和房产经纪人语音;
当需要对客户的购房意向进行评估时,首先获取客户与房产经纪人在通话过程中的通话录音。其中,获取的通话录音可以是楼盘所有咨询电话的录音文件。其中,获取到的通话录音中包括客户语音和房产经纪人语音。
进一步的,在获取通话录音时,可以获取通话时长大于预设时间的通话录音,以滤除一些无效的通话录音。其中,预设时间可以根据实际评估需求进行灵活设定,例如,预设时间可以设置为30秒,在获取通话录音时,只获取客户与房产经纪人通话时长大于30秒的录音。
S202、基于说话人归档模型对通话录音进行切割处理,得到客户语音和房产经纪人语音;
由于录音设备的硬件设置,通常楼盘咨询电话的录音文件均为单通道文件,因此在获取到通话录音后,利用训练好的说话人归档模型对通话录音进行切割处理,分别得到客户语音和房产经纪人语音。即,通过说话人归档模型将获取到的通话录音的客户语音和房产经纪人语音区分出来。
S203、对客户语音和房产经纪人语音进行语音识别,得到与客户语音和房产经纪人语音对应的文本信息;
在得到分离开的客户语音和房产经纪人语音后,对客户语音和房产经纪人语音分别进行语音识别,例如,调用腾讯的语音识别云服务接口进行语音识别,得到客户语音对应的文本信息,以及与房产经纪人语音对应的文本信息。
S204、基于角色分离模型对与客户语音和房产经纪人语音对应的文本信息进行筛选,得到与客户语音相对应的文本信息;
在得到客户语音对应的文本信息,以及与房产经纪人语音对应的文本信息后,利用训练好的角色分离模型给出客户语音对应的文本信息,以及与房产经纪人语音对应的文本信息的说话人标签。例如,根据实际应用场景,可以将说话人标签分为4个类别,分别为:客户、房产经纪人、客服(和楼盘有合作的一些外包房产中介)、其它(一些特殊情况,如同行咨询销售情况,应将该同行标为其它),通过角色分离模型后就可以筛选出与客户语音相对应的文本信息。
S205、基于用户意向分级模型对与客户语音相对应的文本信息进行评估,得到客户购房意向评估等级。
在得到通话录音中与客户语音相对应的文本信息后,进一步将得到的与客户语音相对应的文本信息输入构建的用户意向分级模型,通过用户意向分级模型对与客户语音相对应的文本信息进行评估,得到相应的客户购房意向评估等级。例如,客户购房意向可以分为6个等级(也可以根据业务场景需求做其他等级划分):
等级一:非购房相关,打错楼盘、招商咨询、物业咨询、售后咨询(如购房后的交房问题)等;
等级二:仅咨询楼价,了解行情;
等级三:关注楼盘,咨询房型余量、户型、面积、开盘、交房等楼盘基本信息以及周边配套(包括学校、交通等);
等级四:咨询贷款、首付、税率、申购、排卡等咨询付款类或者提供户口、年龄等个人购房资格类购、排卡等咨询付款或者提供个人信息;
等级五:留电话号码,愿意进一步沟通;
等级六:有看房意向或者预约看房时间。
通过得到的客户购房意向评估等级,房产经纪人能够较为准确的判断出客户是否有购房需求,进而采取对应的销售策略。
如图3所示,为本发明公开的一种数据处理方法实施例3的方法流程图,所述方法可以包括以下步骤:
S301、训练生成说话人归档模型;
当需要对客户的购房意向进行评估时,首先训练生成说话人归档模型。
具体的,在训练生成说话人归档模型时,可以包括以下步骤:
步骤一:训练数据准备;
采用虚拟号平台的双通道录音数据作为训练数据,通过Python的scipy.io.wavfile模块可以直接读取到两个通道的speaker的讲话内容,这样就能获得大量的单个speaker讲话录音的训练文件。
步骤二:训练数据预处理;
调用谷歌开源的webrtcvad工具做静默点(没有声音的录音部分,或者背景噪声部分)检测,切除背景噪声等无用信息,保留有声音的录音段。
步骤三:训练feature embedding模型,得到有区分度的声音特征向量
Feature embedding模型可以采用谷歌17年提出来的GE2E loss(GE2E:GENERALIZED END-TO-END LOSS FOR SPEAKER VERIFICATION.2017.)算法,该算法属于说话人识别领域,利用神经网络对录音进行说话人声音特征提取,模型的识别错误率越低,所生产的声音特征向量就越有区分度。
本发明中该网络模型的配置可以为3层LSTM、每层LSTM有350个hidden layer,最后输出的特征向量的大小为256。
模型的训练参数:迭代950个epochs,学习率为0.01,每个batch的训练数据为3个speaker,每个speaker随机选取12句录音,输入数据的每帧录音为240ms,滑动窗口的大小为120ms。
步骤四:利用无监督的谱聚类算法对步骤三得到的声音特征向量做二分类,得到讲话人的标签;
最后的说话人归档算法其实是一个二分类问题,该算法是对步骤三中得到的每帧录音对应的声音特征向量给出speaker0和speaker1标签。根据标签值就可以将整段录音按不同speaker分成两段独立的录音部分。
本发明可以采用谷歌18年提出来的谱聚类算法(SPEAKER DIARIZATION WITHLSTM.2018)做二分类,该算法的核心是图矩阵的refine操作,通过对refine操作的参数进行调优,就能得到二分类效果很好的模型。本发明中最后采用的模型参数配置可以为p_percentile=0.55,gaussian_blur_sigma=0.85。
S302、训练生成角色分离模型;
然后,训练生成角色分离模型。
具体的,在训练生成角色分离模型时,可以包括以下步骤:
步骤一:训练数据准备;
根据每个speaker的文本对话内容,人工标注speaker的角色,可能的角色分别为:客户、房产经纪人、客服(和楼盘有合作的一些外包房产中介)、其它(一些特殊情况,如同行咨询销售情况,应将该同行标为其它)。
步骤二:数据增广;
由于训练数据的标注成本极高,本发明对角色分离模型的训练数据可以采用EDA方法做数据增广处理,将每一条录音增广到10条数据,这样总的训练数据量为标注数据量的10倍,很大程度上扩大了数据的多样性。
步骤三:利用textcnn算法训练4分类模型;
角色分离模型是基于字向量做文本分类,所以没有分词错误的干扰,也不需要提前生成预训练词向量。相比于textrnn,使用textcnn算法做文本分类在保证分类准确率的同时,还能极大加快训练速度,降低模型迭代成本。
S303、训练生成用户意向分级模型;
然后,训练生成用户意向分级模型。
具体的,在训练生成用户意向分级模型时,可以包括以下步骤:
步骤一:训练数据准备;
对所有客户的文本对话内容人工标注意向等级,等级越高代表在本楼盘的购房意向越高,在本发明中客户购房意向可以分为6个等级(也可以根据业务场景需求做其它等级划分):
等级一:非购房相关,打错楼盘、招商咨询、物业咨询、售后咨询(如购房后的交房问题)等;
等级二:仅咨询楼价,了解行情;
等级三:关注楼盘,咨询房型余量、户型、面积、开盘、交房等楼盘基本信息以及周边配套(包括学校、交通等);
等级四:咨询贷款、首付、税率、申购、排卡等咨询付款类或者提供户口、年龄等个人购房资格类购、排卡等咨询付款或者提供个人信息;
等级五:留电话号码,愿意进一步沟通;
等级六:有看房意向或者预约看房时间。
步骤二:数据增广;
由于训练数据的标注成本极高,本发明同样对用户意向分级模型的训练数据采用EDA(easy data augmentation,简单数据扩充)方法做数据增广处理,将每一条录音增广到10条数据,这样总的训练数据量为标注数据量的10倍,很大程度上扩大了数据的多样性,实验证明这种数据增广方式可以将模型分类准确率提高3%。
步骤三:利用textcnn算法训练6分类模型
和角色分离模型类似,用户意向分级模型也是基于字向量做文本分类,可以使用textcnn算法做文本6分类。
S304、基于预设周期,获取通话时长大于预设时间的通话录音,其中,所述通话录音中包括客户语音和房产经纪人语音;
当需要对客户的购房意向进行评估时,首先获取客户与房产经纪人在通话过程中的通话录音。其中,获取的通话录音可以是楼盘所有咨询电话的录音文件。其中,获取到的通话录音中包括客户语音和房产经纪人语音。
进一步的,在获取通话录音时,可以根据预设周期获取通话时长大于预设时间的通话录音,以滤除一些无效的通话录音。其中,预设周期可以根据实际评估需求进行灵活设定,如每天对前一天的通话录音进行获取;同理,预设时间可以根据实际评估需求进行灵活设定,例如,预设时间可以设置为30秒,在获取通话录音时,只获取客户与房产经纪人通话时长大于30秒的录音。
S305、基于说话人归档模型对通话录音进行切割处理,得到客户语音和房产经纪人语音;
由于录音设备的硬件设置,通常楼盘咨询电话的录音文件均为单通道文件,因此在获取到通话录音后,利用训练好的说话人归档模型对通话录音进行切割处理,分别得到客户语音和房产经纪人语音。即,通过说话人归档模型将获取到的通话录音的客户语音和房产经纪人语音区分出来。
S306、对客户语音和房产经纪人语音进行语音识别,得到与客户语音和房产经纪人语音对应的文本信息;
在得到分离开的客户语音和房产经纪人语音后,对客户语音和房产经纪人语音分别进行语音识别,例如,调用腾讯的语音识别云服务接口进行语音识别,得到客户语音对应的文本信息,以及与房产经纪人语音对应的文本信息。
S307、基于角色分离模型对与客户语音和房产经纪人语音对应的文本信息进行筛选,得到与客户语音相对应的文本信息;
在得到客户语音对应的文本信息,以及与房产经纪人语音对应的文本信息后,利用训练好的角色分离模型给出客户语音对应的文本信息,以及与房产经纪人语音对应的文本信息的说话人标签。例如,根据实际应用场景,可以将说话人标签分为4个类别,分别为:客户、房产经纪人、客服(和楼盘有合作的一些外包房产中介)、其它(一些特殊情况,如同行咨询销售情况,应将该同行标为其它),通过角色分离模型后就可以筛选出与客户语音相对应的文本信息。
S308、基于用户意向分级模型对与客户语音相对应的文本信息进行评估,得到客户购房意向评估等级。
在得到通话录音中与客户语音相对应的文本信息后,进一步将得到的与客户语音相对应的文本信息输入构建的用户意向分级模型,通过用户意向分级模型对与客户语音相对应的文本信息进行评估,得到相应的客户购房意向评估等级。例如,客户购房意向可以分为6个等级(也可以根据业务场景需求做其他等级划分):
等级一:非购房相关,打错楼盘、招商咨询、物业咨询、售后咨询(如购房后的交房问题)等;
等级二:仅咨询楼价,了解行情;
等级三:关注楼盘,咨询房型余量、户型、面积、开盘、交房等楼盘基本信息以及周边配套(包括学校、交通等);
等级四:咨询贷款、首付、税率、申购、排卡等咨询付款类或者提供户口、年龄等个人购房资格类购、排卡等咨询付款或者提供个人信息;
等级五:留电话号码,愿意进一步沟通;
等级六:有看房意向或者预约看房时间。
通过得到的客户购房意向评估等级,房产经纪人能够较为准确的判断出客户是否有购房需求,进而采取对应的销售策略。
综上所述,本发明通过数据处理,可以快速高效的筛选出购房意向高的优质客户线索,在数据处理过程中,能够对客户和房产经纪人的对话内容进行分离处理,只分析客户的对话内容,有效排除了房产经纪人对话内容的干扰,并且基于大数据训练模型,使得给出的评估结果更客观,普适性更好。
如图4所示,为本发明公开的一种数据处理系统实施例1的结构示意图,所述系统可以包括:
获取模块401,用于获取通话录音,其中,通话录音中包括客户语音和房产经纪人语音;
处理模块402,用于对通话录音进行语音处理,得到与客户语音相对应的文本信息;
评估模块403,用于基于用户意向分级模型对与客户语音相对应的文本信息进行评估,得到客户购房意向评估等级。
本实施例公开的数据处理系统的工作原理与上述实施例1公开的数据处理方法的工作原理相同,在此不再赘述。
如图5所示,为本发明公开的一种数据处理系统实施例2的结构示意图,所述系统可以包括:
获取模块501,用于获取通话时长大于预设时间的通话录音,其中,通话录音中包括客户语音和房产经纪人语音;
语音切割单元502,用于基于说话人归档模型对通话录音进行切割处理,得到客户语音和房产经纪人语音;
语音识别单元503,用于对客户语音和房产经纪人语音进行语音识别,得到与客户语音和房产经纪人语音对应的文本信息;
筛选单元504,用于基于角色分离模型对与客户语音和房产经纪人语音对应的文本信息进行筛选,得到与客户语音相对应的文本信息;
评估模块505,用于基于用户意向分级模型对与客户语音相对应的文本信息进行评估,得到客户购房意向评估等级。
本实施例公开的数据处理系统的工作原理与上述实施例2公开的数据处理方法的工作原理相同,在此不再赘述。
如图6所示,为本发明公开的一种数据处理系统实施例3的结构示意图,所述系统可以包括:
第一生成模块601,用于训练生成说话人归档模型;
第二生成模块602,用于训练生成角色分离模型;
第三生成模块603,用于训练生成用户意向分级模型;
获取模块604,用于基于预设周期,获取通话时长大于预设时间的通话录音,其中,所述通话录音中包括客户语音和房产经纪人语音;
语音切割单元605,用于基于说话人归档模型对通话录音进行切割处理,得到客户语音和房产经纪人语音;
语音识别单元606,用于对客户语音和房产经纪人语音进行语音识别,得到与客户语音和房产经纪人语音对应的文本信息;
筛选单元607,用于基于角色分离模型对与客户语音和房产经纪人语音对应的文本信息进行筛选,得到与客户语音相对应的文本信息;
评估模块608,用于基于用户意向分级模型对与客户语音相对应的文本信息进行评估,得到客户购房意向评估等级。
本实施例公开的数据处理系统的工作原理与上述实施例3公开的数据处理方法的工作原理相同,在此不再赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
获取通话录音,其中,所述通话录音中包括客户语音和房产经纪人语音;
对所述通话录音进行语音处理,得到与所述客户语音相对应的文本信息;
基于用户意向分级模型对所述与所述客户语音相对应的文本信息进行评估,得到客户购房意向评估等级。
2.根据权利要求1所述的方法,其特征在于,所述获取通话录音,包括:
获取通话时长大于预设时间的通话录音,其中,所述通话录音中包括客户语音和房产经纪人语音。
3.根据权利要求2所述的方法,其特征在于,所述获取通话时长大于预设时间的通话录音,包括:
基于预设周期,获取通话时长大于预设时间的通话录音,其中,所述通话录音中包括客户语音和房产经纪人语音。
4.根据权利要求1-3中任意一项所述的方法,其特征在于,所述对所述通话录音进行语音处理,得到与所述客户语音相对应的文本信息,包括:
基于说话人归档模型对所述通话录音进行切割处理,得到客户语音和房产经纪人语音;
对所述客户语音和房产经纪人语音进行语音识别,得到与所述客户语音和房产经纪人语音对应的文本信息;
基于角色分离模型对所述与所述客户语音和房产经纪人语音对应的文本信息进行筛选,得到与所述客户语音相对应的文本信息。
5.根据权利4所述的方法,其特征在于,还包括:
训练生成所述说话人归档模型;
训练生成所述角色分离模型;
训练生成所述用户意向分级模型。
6.一种数据处理系统,其特征在于,包括:
获取模块,用于获取通话录音,其中,所述通话录音中包括客户语音和房产经纪人语音;
处理模块,用于对所述通话录音进行语音处理,得到与所述客户语音相对应的文本信息;
评估模块,用于基于用户意向分级模型对所述与所述客户语音相对应的文本信息进行评估,得到客户购房意向评估等级。
7.根据权利要求6所述的系统,其特征在于,所述获取模块具体用于:
获取通话时长大于预设时间的通话录音,其中,所述通话录音中包括客户语音和房产经纪人语音。
8.根据权利要求7所述的系统,其特征在于,所述获取模块具体用于:
基于预设周期,获取通话时长大于预设时间的通话录音,其中,所述通话录音中包括客户语音和房产经纪人语音。
9.根据权利要求6-8中任意一项所述的系统,其特征在于,所述处理模块包括:
语音切割单元,用于基于说话人归档模型对所述通话录音进行切割处理,得到客户语音和房产经纪人语音;
语音识别单元,用于对所述客户语音和房产经纪人语音进行语音识别,得到与所述客户语音和房产经纪人语音对应的文本信息;
筛选单元,用于基于角色分离模型对所述与所述客户语音和房产经纪人语音对应的文本信息进行筛选,得到与所述客户语音相对应的文本信息。
10.根据权利要求9所述的系统,其特征在于,还包括:
第一生成模块,用于训练生成所述说话人归档模型;
第二生成模块,用于训练生成所述角色分离模型;
第三生成模块,用于训练生成所述用户意向分级模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010404931.3A CN111539221B (zh) | 2020-05-13 | 2020-05-13 | 一种数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010404931.3A CN111539221B (zh) | 2020-05-13 | 2020-05-13 | 一种数据处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111539221A true CN111539221A (zh) | 2020-08-14 |
CN111539221B CN111539221B (zh) | 2023-09-12 |
Family
ID=71975916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010404931.3A Active CN111539221B (zh) | 2020-05-13 | 2020-05-13 | 一种数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111539221B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112235470A (zh) * | 2020-09-16 | 2021-01-15 | 重庆锐云科技有限公司 | 基于语音识别的来电客户跟进方法、装置及设备 |
CN112256871A (zh) * | 2020-10-16 | 2021-01-22 | 国网江苏省电力有限公司连云港供电分公司 | 一种物资履约系统及方法 |
CN112308387A (zh) * | 2020-10-20 | 2021-02-02 | 深圳思为科技有限公司 | 客户意向度评估方法与装置、云服务器 |
CN112488750A (zh) * | 2020-11-27 | 2021-03-12 | 上海容大数字技术有限公司 | 一种保险场景智能推荐续保系统 |
CN112507233A (zh) * | 2020-12-21 | 2021-03-16 | 北京明略软件系统有限公司 | 房源推荐方法、系统、信息获取设备和服务器 |
CN112950268A (zh) * | 2021-03-02 | 2021-06-11 | 深圳市前海房极客网络科技有限公司 | 一种实时计算客户购买房产意愿程度的算法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150350438A1 (en) * | 2013-01-03 | 2015-12-03 | Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayi Ve Ticaret Anonim Sirketi | Speech analytics system and methodology with accurate statistics |
US20170329820A1 (en) * | 2016-05-13 | 2017-11-16 | TCL Research America Inc. | Method and system for app page recommendation via inference of implicit intent in a user query |
CN107566670A (zh) * | 2017-09-05 | 2018-01-09 | 南京硅基智能科技有限公司 | 基于语音识别实现自主拨号,智能对话以及信息分析的方法 |
TWM573484U (zh) * | 2018-11-16 | 2019-01-21 | 顯榮國際股份有限公司 | Smart phone marketing system |
CN109688281A (zh) * | 2018-12-03 | 2019-04-26 | 复旦大学 | 一种智能语音交互方法及系统 |
CN109727092A (zh) * | 2018-12-15 | 2019-05-07 | 深圳壹账通智能科技有限公司 | 基于ai的产品推荐方法、装置、计算机设备及存储介质 |
CN110136727A (zh) * | 2019-04-16 | 2019-08-16 | 平安科技(深圳)有限公司 | 基于说话内容的说话者身份识别方法、装置及存储介质 |
CN110298682A (zh) * | 2019-05-22 | 2019-10-01 | 深圳壹账通智能科技有限公司 | 基于用户信息分析的智能决策方法、装置、设备及介质 |
CN110309216A (zh) * | 2019-05-10 | 2019-10-08 | 焦点科技股份有限公司 | 一种基于文本分类的客服语音质检方法 |
CN110956479A (zh) * | 2018-09-26 | 2020-04-03 | 北京高科数聚技术有限公司 | 基于销售线索交互记录的产品推荐方法 |
CN110990545A (zh) * | 2019-11-28 | 2020-04-10 | 重庆锐云科技有限公司 | 一种人工智能电话拓客营销管理系统、方法 |
CN111091832A (zh) * | 2019-11-28 | 2020-05-01 | 秒针信息技术有限公司 | 一种基于语音识别的意向评估方法和系统 |
CN111128223A (zh) * | 2019-12-30 | 2020-05-08 | 科大讯飞股份有限公司 | 一种基于文本信息的辅助说话人分离方法及相关装置 |
-
2020
- 2020-05-13 CN CN202010404931.3A patent/CN111539221B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150350438A1 (en) * | 2013-01-03 | 2015-12-03 | Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayi Ve Ticaret Anonim Sirketi | Speech analytics system and methodology with accurate statistics |
US20170329820A1 (en) * | 2016-05-13 | 2017-11-16 | TCL Research America Inc. | Method and system for app page recommendation via inference of implicit intent in a user query |
CN107566670A (zh) * | 2017-09-05 | 2018-01-09 | 南京硅基智能科技有限公司 | 基于语音识别实现自主拨号,智能对话以及信息分析的方法 |
CN110956479A (zh) * | 2018-09-26 | 2020-04-03 | 北京高科数聚技术有限公司 | 基于销售线索交互记录的产品推荐方法 |
TWM573484U (zh) * | 2018-11-16 | 2019-01-21 | 顯榮國際股份有限公司 | Smart phone marketing system |
CN109688281A (zh) * | 2018-12-03 | 2019-04-26 | 复旦大学 | 一种智能语音交互方法及系统 |
CN109727092A (zh) * | 2018-12-15 | 2019-05-07 | 深圳壹账通智能科技有限公司 | 基于ai的产品推荐方法、装置、计算机设备及存储介质 |
CN110136727A (zh) * | 2019-04-16 | 2019-08-16 | 平安科技(深圳)有限公司 | 基于说话内容的说话者身份识别方法、装置及存储介质 |
CN110309216A (zh) * | 2019-05-10 | 2019-10-08 | 焦点科技股份有限公司 | 一种基于文本分类的客服语音质检方法 |
CN110298682A (zh) * | 2019-05-22 | 2019-10-01 | 深圳壹账通智能科技有限公司 | 基于用户信息分析的智能决策方法、装置、设备及介质 |
CN110990545A (zh) * | 2019-11-28 | 2020-04-10 | 重庆锐云科技有限公司 | 一种人工智能电话拓客营销管理系统、方法 |
CN111091832A (zh) * | 2019-11-28 | 2020-05-01 | 秒针信息技术有限公司 | 一种基于语音识别的意向评估方法和系统 |
CN111128223A (zh) * | 2019-12-30 | 2020-05-08 | 科大讯飞股份有限公司 | 一种基于文本信息的辅助说话人分离方法及相关装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112235470A (zh) * | 2020-09-16 | 2021-01-15 | 重庆锐云科技有限公司 | 基于语音识别的来电客户跟进方法、装置及设备 |
CN112256871A (zh) * | 2020-10-16 | 2021-01-22 | 国网江苏省电力有限公司连云港供电分公司 | 一种物资履约系统及方法 |
CN112256871B (zh) * | 2020-10-16 | 2021-05-07 | 国网江苏省电力有限公司连云港供电分公司 | 一种物资履约系统及方法 |
CN112308387A (zh) * | 2020-10-20 | 2021-02-02 | 深圳思为科技有限公司 | 客户意向度评估方法与装置、云服务器 |
CN112308387B (zh) * | 2020-10-20 | 2024-05-14 | 深圳思为科技有限公司 | 客户意向度评估方法与装置、云服务器 |
CN112488750A (zh) * | 2020-11-27 | 2021-03-12 | 上海容大数字技术有限公司 | 一种保险场景智能推荐续保系统 |
CN112507233A (zh) * | 2020-12-21 | 2021-03-16 | 北京明略软件系统有限公司 | 房源推荐方法、系统、信息获取设备和服务器 |
CN112950268A (zh) * | 2021-03-02 | 2021-06-11 | 深圳市前海房极客网络科技有限公司 | 一种实时计算客户购买房产意愿程度的算法 |
Also Published As
Publication number | Publication date |
---|---|
CN111539221B (zh) | 2023-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111539221B (zh) | 一种数据处理方法及系统 | |
Mogaji et al. | Managers' understanding of artificial intelligence in relation to marketing financial services: insights from a cross-country study | |
US9910845B2 (en) | Call flow and discourse analysis | |
US20150142446A1 (en) | Credit Risk Decision Management System And Method Using Voice Analytics | |
EP4036823A1 (en) | Customization platform and method for service quality evaluation product | |
CN106133825A (zh) | 自动语音识别系统中的广义短语 | |
US20150100528A1 (en) | Predictive analytic systems and methods | |
Li et al. | Maec: A multimodal aligned earnings conference call dataset for financial risk prediction | |
US8762161B2 (en) | Method and apparatus for visualization of interaction categorization | |
CN111640436B (zh) | 向坐席提供通话对象的动态客户画像的方法 | |
KR102100214B1 (ko) | 음성 인식 기반의 세일즈 대화 분석 방법 및 장치 | |
CN112235470B (zh) | 基于语音识别的来电客户跟进方法、装置及设备 | |
CN110059178A (zh) | 问题派发方法及装置 | |
CN112446622A (zh) | 企业微信会话评价方法、系统、电子设备及存储介质 | |
Li et al. | Development of an intelligent NLP-based audit plan knowledge discovery system | |
CN114153955A (zh) | 一种融合闲聊和常识的多技能任务型对话系统构建方法 | |
CN110008318A (zh) | 问题派发方法及装置 | |
CN111309882B (zh) | 用于实现智能客服问答的方法和装置 | |
CN111916110A (zh) | 语音质检的方法及装置 | |
CN111310453A (zh) | 一种基于深度学习的用户主题向量化表示方法和系统 | |
US20230188643A1 (en) | Ai-based real-time natural language processing system and method thereof | |
CN110046233A (zh) | 问题派发方法及装置 | |
CN115564529A (zh) | 语音导航控制方法、装置、计算机终端及存储介质 | |
CN114662452A (zh) | 去隐私化的文本标签分析方法及装置 | |
Åberg et al. | Artificial Intelligence in Customer Service: A Study on Customers' Perceptions regarding IVR services in the banking industry |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231113 Address after: 100190 901-1, Floor 9, Building 3, No. 2 Academy South Road, Haidian District, Beijing Patentee after: Beijing Bodian Zhihe Technology Co.,Ltd. Address before: Room 1803, 16th Floor, No. 52 North Fourth Ring West Road, Haidian District, Beijing, 100080 Patentee before: BEIJING JIAODIAN XINGANXIAN INFORMATION TECHNOLOGY CO.,LTD. |