CN110287290A - 基于阅读理解的营销线索提取方法、装置及计算机可读存储介质 - Google Patents
基于阅读理解的营销线索提取方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110287290A CN110287290A CN201910559578.3A CN201910559578A CN110287290A CN 110287290 A CN110287290 A CN 110287290A CN 201910559578 A CN201910559578 A CN 201910559578A CN 110287290 A CN110287290 A CN 110287290A
- Authority
- CN
- China
- Prior art keywords
- reading
- dialogue
- marketing
- marketing clue
- extracting method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000000605 extraction Methods 0.000 claims abstract description 53
- 238000013480 data collection Methods 0.000 claims abstract description 9
- 239000000284 extract Substances 0.000 claims abstract description 8
- 239000000203 mixture Substances 0.000 claims abstract description 8
- 230000015654 memory Effects 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 14
- 230000007246 mechanism Effects 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 3
- 239000002245 particle Substances 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 description 12
- 230000036541 health Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 9
- 235000021167 banquet Nutrition 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000000306 recurrent effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 230000006403 short-term memory Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 206010011469 Crying Diseases 0.000 description 1
- 206010047700 Vomiting Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008673 vomiting Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于阅读理解的营销线索提取方法、装置及计算机可读存储介质,该方法包括:步骤A、获取与客户对话的文本信息;步骤B、将所述文本信息中的有效对话内容归纳问答对;步骤C、根据所述归纳的问答对构成标注数据集;步骤D、根据所述数据集构建阅读理解系统;及步骤E、从所述阅读理解系统中提取营销线索。本发明通过与客户对话中自动提取重要营销线索,完善陌生客户画像,挖掘潜在客户,节约人力成本。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于阅读理解的营销线索提取方法、装置及计算机可读存储介质。
背景技术
机器阅读理解(Machine Reading Comprehension,MRC)是自然语言处理领域的一个重要课题,其目的在于让计算机在海量文本中找到精确的答案,从而减轻人类获得信息的成本。机器阅读理解作为自然语言处理的一个子领域,在近年来受到了极高的关注的同时也取得了长足的发展。更丰富的数据以及更加多样、先进的模型的出现,使得机器能更好地处理自然语言文本输入,并在一定程度上能够就针对输入文本提出的相关问题作出回答。这对于构建更加高级的自然语言处理应用,如自动问答(QA)、对话系统(DialogueSystem),提供更加智能、高效、个性化的搜索引擎服务,乃至于构建真正的强人工智能,都具有重要的基础意义。
目前市场上的常见的保险销售接触渠道主要是保险代理人通过线下接触和坐席电话销售,其中坐席电话销售以其便捷性、低成本、高覆盖的特点,是目前比较主流的保险推销渠道。但是考虑到通过坐席电话销售,每天需要拨通上百通电话,高强度的工作量和情绪的波动往往会让保险代理人忽略一些来自客户的重要销售线索,从而错失潜在的销售机会。
发明内容
本发明的主要目的在于提供一种可以实现自动提取营销线索的基于阅读理解的营销线索提取方法、装置及计算机可读存储介质。
为实现上述目的,本发明提供一种基于阅读理解的营销线索提取方法,该方法包括:
步骤A:获取与客户对话的文本信息;
步骤B:将所述文本信息中的有效对话内容归纳问答对;
步骤C:根据所述归纳的问答对构成标注数据集;
步骤D:根据所述数据集构建阅读理解系统;
步骤E:从所述阅读理解系统中提取营销线索。
进一步地,所述步骤A包括:
获取与客户对话的语音信息;及
将所述语音信息转换为文本信息。
进一步地,所述步骤B包括:
提取所述文本信息中的有效对话内容;
将所提取的文本信息中的有效对话内容整理成段落篇章;及
从所述段落篇章归纳篇章中归纳问答对。
进一步地,通过过滤所述文本信息中的无效对话内容,以所述文本信息中的有效对话内容;其中,所述无效对话内容包括无效语气词、象声词及礼貌用语。
进一步地,在所述步骤C中,将对话段落标注为d,将问题标注为q,将答案标注为a,以构成包括对话段落、问题及答案的数据集<d,q,a>;所述步骤D包括:
步骤D1:将所述数据集进行向量化特征表示;
步骤D3:利用注意力机制(Attention Mechanism,AM)对所述数据集的对话段落d和问题q进行融合;及
步骤D4:基于数据集的训练样本<d,q,a>,训练指针网络(pointer network)。
进一步地,所述步骤D还包括:
步骤D2:通过编码器对所述对话段落和所述问题进行编码。
进一步地,所述步骤D还包括:
步骤D5:通过所述指针网络实现答案a在对话段落d中片段的提取。
进一步地,在所述步骤D1中,通过分词和向量化模型将所述数据集向量化,以将所述数据集进行向量化特征表示。
为实现上述目的,本发明还提供一种基于阅读理解的营销线索提取方装置,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的基于阅读理解的营销线索提取程序,所述基于阅读理解的营销线索提取程序被所述处理器执行时实现如上所述的基于阅读理解的营销线索提取方法。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于阅读理解的营销线索提取程序,所述基于阅读理解的营销线索提取程序可被一个或者多个处理器执行,以实现如上所述的基于阅读理解的营销线索提取方法的步骤。
本发明提出的基于阅读理解的营销线索提取方法是基于自然语言处理及基于深度学习、并应用在电话坐席推销场景中;其中深度学习模型主要可以采用循环神经网络(Recurrent Neural Network,RNN),而神经元采用了LSTM(Long Short-Term Memory,长短期记忆)网络,通过将坐席与客户对话进行录音,然后将已录音的语音信息转换为文本信息,再提取文本信息中的有效对话内容,然后将所提取的文本信息中的有效对话内容整理成段落篇章、再从段落篇章归纳篇章中归纳问答对,然后根据归纳的问答对自动提取重要销售线索,从而完善陌生客户画像,挖掘潜在客户,节约人力成本,并实现推动销售的业绩转化。
附图说明
图1为本发明一实施例提供的基于阅读理解的营销线索提取方法的流程示意图;
图2为图1中的步骤D的流程示意图;
图3为本发明一实施例提供的基于阅读理解的营销线索提取装置的内部结构示意图。
图4为本发明一实施例提供的基于阅读理解的营销线索提取装置中的基于阅读理解的营销线索提程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种基于阅读理解的营销线索提取方法。参照图1所示,为本发明一实施例提供的基于阅读理解的营销线索提取方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,所述基于阅读理解的营销线索提取方法包括:
步骤A:获取与客户对话的文本信息;
步骤B:将所述文本信息中的有效对话内容归纳问答对;
步骤C:根据所述归纳的问答对构成标注数据集;
步骤D:根据所述数据集构建阅读理解系统;
步骤E:从所述阅读理解系统中提取营销线索。
进一步地,所述步骤A包括:
获取与客户对话的语音信息;及
将所述语音信息转换为文本信息。具体地,在一实施例中,通过语音识别(Automatic Speech Recognition,ASR)技术将坐席与客户对话进行录音,以便获取与客户对话的语音信息,然后获取到的与客户对话的语音信息转换为文本信息。
可选地,所述语音信息包括至少一问答对,其中,每一问答对包括至少一个问题、和与所述至少一个问题对应的答案。
同样地,所述文本信息包括至少一问答对,其中,每一问答对包括至少一个问题、和与所述至少一个问题对应的答案。
更进一步地,所述步骤B包括:
提取所述文本信息中的有效对话内容;
将所提取的文本信息中的有效对话内容整理成段落篇章;及
从所述段落篇章归纳篇章中归纳问答对。
具体地,在一实施例中,通过过滤所述文本信息中的无效对话内容,以提取所述文本信息中的有效对话内容;其中,所述文本信息中的无效对话内容包括:无效语气词(例如:啊、啦、唉、呢、吧、了、哇、呀、吗、哦、噢、喔、呵、嘿)、象声词(例如:哈哈、嘿嘿、呵呵)及礼貌用语(例如:您好、谢谢、对不起、明白了)。
更进一步地,所述“从所述段落篇章归纳篇章中归纳问答对”步骤包括:归纳出最想了解的几种问题q1,q2,q3...qn,具体地,包括客户年龄,性别,孩子几个,孩子几岁,买过什么保险,对保险有什么看法等等。
进一步地,在所述步骤C中,将对话段落标注为d,将问题标注为q,将答案标注为a,以构成包括对话段落、问题及答案的数据集<d,q,a>。
进一步地,参照图2所示,所述步骤D包括:
步骤D1:将所述数据集进行向量化特征表示。具体地,在一实施例中,通过分词和向量化模型将所述数据集向量化,以将所述数据集进行向量化特征表示。例如,在一实施例中,将每个分词进行100维表示。其中,所述向量化模型可选用word2vec、GLoVe等。
更详细地,在一实施例中,根据答案a:“我已经买了一年期的健康险”,执行分词步骤:“我”、“已经”、“买”“一年期”“健康险”,从而得到分词的结果:“我”、“已经”、“买”“一年期”“健康险”,其中答案a中“了”和“的”作为无效词被删掉了;执行向量化模型步骤:利用word2vec(或者GLoVe)等开源的词向量工具,将“我”“已经”“买”“一年期”“健康险”转化成100维的向量,例如:其中的“我”转化成100维的向量为:[0 0 0 0 0 0 0 0 1 0 0 0 0 0 00 ...],其中的“健康险”转化成100维的向量为:[0 0 0 1 0 0 0 0 0 1 0 0 1 0 0 0...]。
步骤D2:通过编码器对所述对话段落和所述问题进行编码。在一实施例中,所述编码器可以是基于序列到序列的神经网络,例如可以是采用循环神经网络(RecurrentNeural Network,RNN)、卷积神经网络(Convolution Neutral Network,CNN)等神经网络模型构建。其中,所述编码器可以是单向的神经网络模型,也可以是双向的神经网络模型。在本实施例中,所述编码器可以是RNN。
步骤D3:利用注意力机制(Attention Mechanism,AM)对所述数据集的对话段落d和问题q进行融合。
具体地,通过注意力机制对所述对话段落d和问题q进行融合,以融合成统一的向量序列<d,q>,从而能有效避免因为内容过长导致模型性能变差。
通过保留LSTM(Long Short-Term Memory,长短期记忆)编码器对输入序列的中间输出结果,然后训练一个模型来对这些输入进行选择性的学习并且在模型输出时将输出序列与之进行关联。
步骤D4:基于数据集的训练样本<d,q,a>,训练指针网络(pointer network)。
步骤D5:通过所述指针网络实现答案a在对话段落d中片段的提取。具体地,通过所述指针网络获取与答案a关系最大的对话段落d中的开始位置与结束位置,从而获取与答案a关系最大的对话段落d中的位置。
其中,训练时的目标函数包括:
1.最大似然估计的计算公式:
2.最小风险训练的计算公式:
进一步地,所述基于阅读理解的营销线索提取方法还包括:
根据业务词典,从所归纳的问题对中提取核心语句;及
所述业务词典为通过机器学习得到的名词库。
其中,所述业务词典是由一些名词组成的名词库,在不同的业务领域,对应不同的业务词典。例如,在保险行业的业务词典为:意外伤害保险、保证保险、信用保险、健康保险、财产保险、团体保险、养老保险等。在手机通信行业的业务词典为:本地通话、漫游通话、增值业务、来电显示、信息点播等。在金融行业的业务词典为:个人业务、中小企业业务、公司业务、账户预开立、存款业务、融资业务、供应链金融业务、国际业务、资金业务、托管业务、政府与公共项目业务、现金管理、便利服务、支付结算、投资理财、转账汇款等。
本发明在在实际业务中进行展开应用时,通过语音识别技术将坐席与客户对话进行录音、将已录音的语音信息转换为文本信息、提取文本信息中的有效对话内容,然后将所提取的文本信息中的有效对话内容整理成段落篇章、再从段落篇章归纳篇章中归纳问答对,然后根据归纳的问答对构成标注数据集<d,q,a>,接着将数据集<d,q,a>进行向量化特征表示、通过编码器对所述对话段落和所述问题进行编码、利用注意力机制对所述数据集的对话段落d和问题q进行融合、通过保留LSTM编码器对输入序列的中间输出结果,然后训练一个模型来对这些输入进行选择性的学习并且在模型输出时将输出序列与之进行关联,基于数据集的训练样本<d,q,a>,训练指针网络、通过所述指针网络获取与答案a关系最大的对话段落d中的开始位置与结束位置,从而获取与答案a关系最大的对话段落d中的位置。
本发明提出的基于阅读理解的营销线索提取方法,是基于自然语言处理及基于深度学习、并应用在电话坐席推销场景中;其中深度学习模型主要可以采用循环神经网络(Recurrent Neural Network,RNN),而神经元采用了LSTM(Long Short-Term Memory,长短期记忆)网络,通过将坐席与客户对话进行录音,然后将已录音的语音信息转换为文本信息,再提取文本信息中的有效对话内容,然后将所提取的文本信息中的有效对话内容整理成段落篇章、再从段落篇章归纳篇章中归纳问答对,然后根据归纳的问答对自动提取重要销售线索,从而完善陌生客户画像,挖掘潜在客户,节约人力成本,并实现推动销售的业绩转化。
本发明还提供一种基于阅读理解的营销线索提取装置。参照图3所示,为本发明一实施例提供的基于阅读理解的营销线索提取装置的内部结构示意图。
在本实施例中,所述基于阅读理解的营销线索提取装置可以是PC(PersonalComputer,个人电脑),也可以是智能手机、平板电脑、便携计算机等终端设备。该代码库管理装置至少包括存储器11、处理器12、网络接口13以及通信总线14。
其中,所述存储器11至少包括一种类型的计算机可读存储介质,所述计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是所述基于阅读理解的营销线索提取装置的内部存储单元,例如该基于阅读理解的营销线索提取装置的硬盘。所述存储器11在另一些实施例中也可以是所述基于阅读理解的营销线索提取装置的外部存储设备,例如所述基于阅读理解的营销线索提取装置上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括所述基于阅读理解的营销线索提取装置的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于所述基于阅读理解的营销线索提取装置的应用软件及各类数据,例如基于阅读理解的营销线索提取程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行所述存储器11中存储的程序代码或处理数据,例如执行基于阅读理解的营销线索提取程序等。
所述网络接口13可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该基于阅读理解的营销线索提取装置与其他电子设备之间建立通信连接。
所述通信总线14用于实现这些组件之间的连接通信。
图3仅示出了具有组件11至14以及基于阅读理解的营销线索提取程序的基于阅读理解的营销线索提取装置,本领域技术人员可以理解的是,图3示出的结构并不构成对基于阅读理解的营销线索提取装置的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图3所示的基于阅读理解的营销线索提取装置实施例中,所述存储器11中存储有基于阅读理解的营销线索提取程序;所述处理器12执行所述存储器11中存储的基于阅读理解的营销线索提取程序时实现如下步骤:
步骤A:获取与客户对话的文本信息;
步骤B:将所述文本信息中的有效对话内容归纳问答对;
步骤C:根据所述归纳的问答对构成标注数据集;
步骤D:根据所述数据集构建阅读理解系统;
步骤E:从所述阅读理解系统中提取营销线索。
进一步地,在本发明基于阅读理解的营销线索提取装置的另一实施例中,所述基于阅读理解的营销线索提取程序还可被处理器12调用,以实现如前文所述的基于阅读理解的营销线索提取方法的所有步骤。
可选地,在其他实施例中,所述基于阅读理解的营销线索提取程序根据其不同的功能,可以划分为一个或多个功能模块。一个或者多个模块被存储于所述存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述基于阅读理解的营销线索提取程序在基于阅读理解的营销线索提取装置中的执行过程。
例如,参照图4所示,为本发明基于阅读理解的营销线索提取装置一实施例中的基于阅读理解的营销线索提取程序的程序模块示意图,该实施例中,基于阅读理解的营销线索提取程序可以被分割为获取模块31、处理模块32、标注模块33、构建模块34、及提取模块35,示例性地:
所述获取模块31用于获取与客户对话的文本信息。
所述处理模块32用于将所述文本信息中的有效对话内容归纳问答对。
所述标注模块33用于根据所述归纳的问答对构成标注数据集。
所述构建模块34用于根据所述数据集构建阅读理解系统。
所述提取模块35用于从所述阅读理解系统中提取营销线索。
进一步地,所述获取模块中包括语音识别单元,所述语音识别单元用于:
获取与客户对话的语音信息;及
将所述语音信息转换为文本信息。
具体地,在一实施例中,通过语音识别(Automatic Speech Recognition,ASR)技术将坐席与客户对话进行录音,以便获取与客户对话的语音信息,然后获取到的与客户对话的语音信息转换为文本信息。
更进一步地,所述处理模块32用于执行“从所述段落篇章归纳篇章中归纳问答对”的步骤包括:归纳出最想了解的几种问题q1,q2,q3...qn;具体地,所述问题包括客户年龄,性别,孩子几个,孩子几岁,买过什么保险,对保险有什么看法等等。
进一步地,所述标注模块33用于执行“根据所述归纳的问答对构成标注数据集”的步骤包括:将对话段落标注为d,将问题标注为q,将答案标注为a,以构成包括对话段落、问题及答案的数据集<d,q,a>。
进一步地,所述构建模块用于执行“根据所述数据集构建阅读理解系统”的步骤包括:
步骤D1:将所述数据集进行向量化特征表示。具体地,在一实施例中,通过分词和向量化模型将所述数据集向量化,以将所述数据集进行向量化特征表示。例如,在一实施例中,将每个分词进行100维表示。其中,所述向量化模型可选用word2vec、GLoVe等。
更详细地,在一实施例中,根据答案a:“我已经买了一年期的健康险”,执行分词步骤:“我”、“已经”、“买”“一年期”“健康险”,从而得到分词的结果:“我”、“已经”、“买”“一年期”“健康险”,其中答案a中“了”和“的”作为无效词被删掉了;执行向量化模型步骤:利用word2vec(或者GLoVe)等开源的词向量工具,将“我”“已经”“买”“一年期”“健康险”转化成100维的向量,例如:其中的“我”转化成100维的向量为:[0 0 0 0 0 0 0 0 1 0 0 0 0 0 00 ...],其中的“健康险”转化成100维的向量为:[0 0 0 1 0 0 0 0 0 1 0 0 1 0 0 0...]。
步骤D2:通过编码器对所述对话段落和所述问题进行编码。在一实施例中,所述编码器可以是基于序列到序列的神经网络,例如可以是采用循环神经网络(RecurrentNeural Network,RNN)、卷积神经网络(Convolution Neutral Network,CNN)等神经网络模型构建。其中,所述编码器可以是单向的神经网络模型,也可以是双向的神经网络模型。在本实施例中,所述编码器可以是RNN。
步骤D3:利用注意力机制(Attention Mechanism,AM)对所述数据集的对话段落d和问题q进行融合。
具体地,通过注意力机制对所述对话段落d和问题q进行融合,以融合成统一的向量序列<d,q>,从而能有效避免因为内容过长导致模型性能变差。
通过保留LSTM(Long Short-Term Memory,长短期记忆)编码器对输入序列的中间输出结果,然后训练一个模型来对这些输入进行选择性的学习并且在模型输出时将输出序列与之进行关联。
步骤D4:基于数据集的训练样本<d,q,a>,训练指针网络(pointer network)。
步骤D5:通过所述指针网络实现答案a在对话段落d中片段的提取。具体地,通过所述指针网络获取与答案a关系最大的对话段落d中的开始位置与结束位置,从而获取与答案a关系最大的对话段落d中的位置。
其中,训练时的目标函数包括:
1.最大似然估计的计算公式:
2.最小风险训练的计算公式:
进一步地,所述提取模块35还用于根据业务词典,从所归纳的问题对中提取核心语句;所述业务词典为通过机器学习得到的名词库。
上述获取模块31、处理模块32、标注模块33、构建模块34、及提取模块35等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
图4仅示出了具有模块31-35以及基于阅读理解的营销线索提取程序的基于阅读理解的营销线索提取装置,本领域技术人员可以理解的是,图4示出的结构并不构成对所述基于阅读理解的营销线索提取装置的限定,可以包括比图示更少或者更多的模块,或者组合某些模块,或者不同的模块布置。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有基于阅读理解的营销线索提取程序,所述基于阅读理解的营销线索提取程序可被一个或多个处理器执行,以实现如下操作:
步骤A:获取与客户对话的文本信息;
步骤B:将所述文本信息中的有效对话内容归纳问答对;
步骤C:根据所述归纳的问答对构成标注数据集;
步骤D:根据所述数据集构建阅读理解系统;
步骤E:从所述阅读理解系统中提取营销线索。
本发明计算机可读存储介质具体实施方式与上述基于阅读理解的营销线索提取装置和方法各实施例基本相同,在此不作累述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于阅读理解的营销线索提取方法,其特征在于,所述方法包括:
步骤A:获取与客户对话的文本信息;
步骤B:将所述文本信息中的有效对话内容归纳问答对;
步骤C:根据所述归纳的问答对构成标注数据集;
步骤D:根据所述数据集构建阅读理解系统;
步骤E:从所述阅读理解系统中提取营销线索。
2.如权利要求1所述的基于阅读理解的营销线索提取方法,其特征在于,所述步骤A包括:
获取与客户对话的语音信息;及
将所述语音信息转换为文本信息。
3.如权利要求2所述的基于阅读理解的营销线索提取方法,其特征在于,所述步骤B包括:
提取所述文本信息中的有效对话内容;
将所提取的文本信息中的有效对话内容整理成段落篇章;及
从所述段落篇章归纳篇章中归纳问答对。
4.如权利要求3所述的基于阅读理解的营销线索提取方法,其特征在于,通过过滤所述文本信息中的无效对话内容,以所述文本信息中的有效对话内容;其中,所述无效对话内容包括无效语气词、象声词及礼貌用语。
5.如权利要求1-3任一项所述的基于阅读理解的营销线索提取方法,其特征在于,在所述步骤C中,将对话段落标注为d,将问题标注为q,将答案标注为a,以构成包括对话段落、问题及答案的数据集<d,q,a>;所述步骤D包括:
步骤D1:将所述数据集进行向量化特征表示;
步骤D3:利用注意力机制(Attention Mechanism,AM)对所述数据集的对话段落d和问题q进行融合;及
步骤D4:基于数据集的训练样本<d,q,a>,训练指针网络(pointer network)。
6.如权利要求5所述的基于阅读理解的营销线索提取方法,其特征在于,所述步骤D还包括:
步骤D2:通过编码器对所述对话段落和所述问题进行编码。
7.如权利要求6所述的基于阅读理解的营销线索提取方法,其特征在于,所述步骤D还包括:
步骤D5:通过所述指针网络实现答案a在对话段落d中片段的提取。
8.如权利要求5所述的基于阅读理解的营销线索提取方法,其特征在于,在所述步骤D1中,通过分词和向量化模型将所述数据集向量化,以将所述数据集进行向量化特征表示。
9.一种基于阅读理解的营销线索提取装置,其特征在于,所述基于阅读理解的营销线索提取装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的基于阅读理解的营销线索提取程序,所述基于阅读理解的营销线索提取程序被所述处理器执行时实现如权利要求1-8任一项所述的基于阅读理解的营销线索提取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于阅读理解的营销线索提取程序,所述基于阅读理解的营销线索提取程序可被一个或者多个处理器执行,以实现如权利要求1至8任一项所述的基于阅读理解的营销线索提取方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910559578.3A CN110287290A (zh) | 2019-06-26 | 2019-06-26 | 基于阅读理解的营销线索提取方法、装置及计算机可读存储介质 |
PCT/CN2019/102840 WO2020258488A1 (zh) | 2019-06-26 | 2019-08-27 | 断点用户的召回方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910559578.3A CN110287290A (zh) | 2019-06-26 | 2019-06-26 | 基于阅读理解的营销线索提取方法、装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110287290A true CN110287290A (zh) | 2019-09-27 |
Family
ID=68005918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910559578.3A Pending CN110287290A (zh) | 2019-06-26 | 2019-06-26 | 基于阅读理解的营销线索提取方法、装置及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110287290A (zh) |
WO (1) | WO2020258488A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111400481A (zh) * | 2020-05-15 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 针对多轮对话生成回复语句的方法和装置 |
WO2021120779A1 (zh) * | 2020-08-06 | 2021-06-24 | 平安科技(深圳)有限公司 | 一种基于人机对话的用户画像构建方法、系统、终端及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106971321A (zh) * | 2017-04-06 | 2017-07-21 | 百度在线网络技术(北京)有限公司 | 营销信息推送方法、装置、设备以及存储介质 |
CN108717413A (zh) * | 2018-03-26 | 2018-10-30 | 浙江大学 | 一种基于假设性半监督学习的开放领域问答方法 |
CN108959246A (zh) * | 2018-06-12 | 2018-12-07 | 北京慧闻科技发展有限公司 | 基于改进的注意力机制的答案选择方法、装置和电子设备 |
CN109033068A (zh) * | 2018-06-14 | 2018-12-18 | 北京慧闻科技发展有限公司 | 基于注意力机制的用于阅读理解的方法、装置和电子设备 |
CN109086303A (zh) * | 2018-06-21 | 2018-12-25 | 深圳壹账通智能科技有限公司 | 基于机器阅读理解的智能对话方法、装置、终端 |
CN109635947A (zh) * | 2018-12-14 | 2019-04-16 | 安徽省泰岳祥升软件有限公司 | 基于答案采样的机器阅读理解模型训练方法及装置 |
CN109657226A (zh) * | 2018-09-20 | 2019-04-19 | 北京信息科技大学 | 多联结注意力的阅读理解模型、系统及方法 |
CN109685212A (zh) * | 2018-12-14 | 2019-04-26 | 安徽省泰岳祥升软件有限公司 | 一种机器阅读理解模型的分阶段训练方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106302325B (zh) * | 2015-05-20 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 提供指定通信服务的方法、装置和系统 |
CN105824645A (zh) * | 2016-03-30 | 2016-08-03 | 联想(北京)有限公司 | 一种信息处理方法及终端 |
CN107292142B (zh) * | 2017-05-23 | 2020-03-27 | 深圳怡化电脑股份有限公司 | 业务操作处理方法、业务操作处理装置及业务终端 |
CN110535910B (zh) * | 2019-07-30 | 2022-11-25 | 平安科技(深圳)有限公司 | 断点用户的召回方法、装置及存储介质 |
-
2019
- 2019-06-26 CN CN201910559578.3A patent/CN110287290A/zh active Pending
- 2019-08-27 WO PCT/CN2019/102840 patent/WO2020258488A1/zh active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106971321A (zh) * | 2017-04-06 | 2017-07-21 | 百度在线网络技术(北京)有限公司 | 营销信息推送方法、装置、设备以及存储介质 |
CN108717413A (zh) * | 2018-03-26 | 2018-10-30 | 浙江大学 | 一种基于假设性半监督学习的开放领域问答方法 |
CN108959246A (zh) * | 2018-06-12 | 2018-12-07 | 北京慧闻科技发展有限公司 | 基于改进的注意力机制的答案选择方法、装置和电子设备 |
CN109033068A (zh) * | 2018-06-14 | 2018-12-18 | 北京慧闻科技发展有限公司 | 基于注意力机制的用于阅读理解的方法、装置和电子设备 |
CN109086303A (zh) * | 2018-06-21 | 2018-12-25 | 深圳壹账通智能科技有限公司 | 基于机器阅读理解的智能对话方法、装置、终端 |
CN109657226A (zh) * | 2018-09-20 | 2019-04-19 | 北京信息科技大学 | 多联结注意力的阅读理解模型、系统及方法 |
CN109635947A (zh) * | 2018-12-14 | 2019-04-16 | 安徽省泰岳祥升软件有限公司 | 基于答案采样的机器阅读理解模型训练方法及装置 |
CN109685212A (zh) * | 2018-12-14 | 2019-04-26 | 安徽省泰岳祥升软件有限公司 | 一种机器阅读理解模型的分阶段训练方法及装置 |
Non-Patent Citations (5)
Title |
---|
刘家骅等: "基于多篇章多答案的阅读理解系统", 《中文信息学报》, pages 103 - 111 * |
张帅帅: "基于阅读理解的知识问答系统设计与实现", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑(月刊)》 * |
张帅帅: "基于阅读理解的知识问答系统设计与实现", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑(月刊)》, 15 August 2018 (2018-08-15), pages 138 - 170 * |
朱海潮等: "基于指针的深度学习机器阅读理解", 《智能计算机与应用》 * |
朱海潮等: "基于指针的深度学习机器阅读理解", 《智能计算机与应用》, vol. 7, no. 6, 31 December 2017 (2017-12-31), pages 157 - 161 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111400481A (zh) * | 2020-05-15 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 针对多轮对话生成回复语句的方法和装置 |
CN111400481B (zh) * | 2020-05-15 | 2023-04-28 | 支付宝(杭州)信息技术有限公司 | 针对多轮对话生成回复语句的方法和装置 |
WO2021120779A1 (zh) * | 2020-08-06 | 2021-06-24 | 平安科技(深圳)有限公司 | 一种基于人机对话的用户画像构建方法、系统、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2020258488A1 (zh) | 2020-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107481720B (zh) | 一种显式声纹识别方法及装置 | |
US11727302B2 (en) | Method and apparatus for building a conversation understanding system based on artificial intelligence, device and computer-readable storage medium | |
CN109271493A (zh) | 一种语言文本处理方法、装置和存储介质 | |
CN107807960A (zh) | 智能客服方法、电子装置及计算机可读存储介质 | |
CN107832382A (zh) | 基于文字生成视频的方法、装置、设备及存储介质 | |
CN109165291A (zh) | 一种文本匹配方法及电子设备 | |
CN113283238B (zh) | 文本数据处理的方法和装置、电子设备和存储介质 | |
CN110399473B (zh) | 为用户问题确定答案的方法和装置 | |
CN110222333A (zh) | 一种语音交互方法、装置以及相关设备 | |
WO2024099457A1 (zh) | 一种信息推荐方法、装置、存储介质及电子设备 | |
CN113342948A (zh) | 一种智能问答方法及装置 | |
CN109325173B (zh) | 基于ai开放平台的阅读内容个性化推荐方法及系统 | |
CN110287290A (zh) | 基于阅读理解的营销线索提取方法、装置及计算机可读存储介质 | |
CN111798118B (zh) | 企业经营风险监控方法及装置 | |
CN107862058A (zh) | 用于生成信息的方法和装置 | |
CN111192082B (zh) | 产品卖点的分析方法、终端设备及计算机可读存储介质 | |
CN109325178A (zh) | 用于处理信息的方法和装置 | |
CN116561284A (zh) | 智能应答方法、装置、电子设备及介质 | |
CN116644765A (zh) | 语音翻译方法、语音翻译装置、电子设备及存储介质 | |
CN107729983A (zh) | 一种利用机器视觉实现人机对弈的方法、装置及电子设备 | |
CN115994522A (zh) | 文本处理方法、文章生成方法以及文本处理模型训练方法 | |
CN115129865A (zh) | 一种工单分类方法、装置、电子设备和存储介质 | |
CN113926198A (zh) | 情绪数据的识别方法、装置、存储介质及电子设备 | |
CN113256395A (zh) | 基于推荐图网络的产品推荐方法、装置、设备及存储介质 | |
CN110363582A (zh) | 基于用户意愿的金融服务优惠信息推广方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190927 |