CN113342964A - 一种基于移动业务的推荐类型确定方法及系统 - Google Patents
一种基于移动业务的推荐类型确定方法及系统 Download PDFInfo
- Publication number
- CN113342964A CN113342964A CN202110617032.6A CN202110617032A CN113342964A CN 113342964 A CN113342964 A CN 113342964A CN 202110617032 A CN202110617032 A CN 202110617032A CN 113342964 A CN113342964 A CN 113342964A
- Authority
- CN
- China
- Prior art keywords
- product name
- mobile product
- mobile
- word
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0282—Rating or review of business operators or products
Abstract
本发明公开了一种基于移动业务的推荐类型确定方法及系统,涉及文本数据识别技术领域,主要包括基于移动产品名称词库识别每条对话内容中与客户需求有关的关键字;基于词向量映射算法对关键字进行处理,以得到每条对话内容对应的词向量输入序列;基于移动产品名称识别模型,确定每个词向量输入序列对应的移动产品名称序列;移动产品名称识别模型是基于历史数据集和LSTM语言模型确定的;根据所述移动产品名称数据集和所述移动产品名称序列,确定每条所述对话内容的推荐类型。本发明更加关注文本序列之间的相关性,故在效率与准确率上能够大幅度提升。
Description
技术领域
本发明涉及文本数据识别技术领域,特别是涉及一种基于移动业务的推荐类型确定方法及系统。
背景技术
根据移动营销开口监控业务的需求,需要分析移动5G套餐办理类来话文本数据,从而检测客户代表是否在营销过程中开口向客户推荐产品。进一步地,针对有开口营销的情况,需要判断其推荐类型属于主动营销还是被动营销,进而帮助移动公司管理人员掌握客户代表的业务营销状况,对业务营销、业务办理等服务进行优化。
现有的5G套餐办理类来话文本数据,存在着文本数据质量不高所带来的一系列问题,例如数据不完整、语句不通顺及关键字错误等问题,使得上述检测结果准确率低。
发明内容
本发明的目的是提供一种基于移动业务的推荐类型确定方法及系统,以达到检测结果准确率高的目的。
为实现上述目的,本发明提供了如下方案:
一种基于移动业务的推荐类型确定方法,包括:
获取移动业务办理类来话文本数据;所述移动业务办理类来话文本数据包括多条客户与客服之间的对话内容;每条所述对话内容包括以客户为主体的对话语句和以客服为主体的对话语句;
基于移动产品名称词库,确定每条所述对话内容对应的移动产品名称数据集;所述移动产品名称数据集的元素为移动产品名称;
依次判断每条所述对话内容中的移动产品名称对应的对话语句的主体是否全部为客户,得到第一判断结果;
若所述第一判断结果表示所述对话内容中的移动产品名称对应的对话语句的主体全部为客户,则确定所述对话内容中未进行移动业务营销;
若所述第一判断结果表示所述对话内容中的移动产品名称对应的对话语句的主体未全部为客户,则基于所述移动产品名称词库,识别每条所述对话内容中与客户需求有关的关键字;
基于词向量映射算法,对所述关键字进行处理,以得到每条所述对话内容对应的词向量输入序列;
基于移动产品名称识别模型,确定每个所述词向量输入序列对应的移动产品名称序列;所述移动产品名称识别模型是基于历史数据集和LSTM语言模型确定的;所述历史数据集中包括多组历史数据,每组历史数据均包括输入数据和标签;所述输入数据为与客户需求有关的关键字,所述标签为移动产品名称;所述移动产品名称序列的元素为移动产品名称;
根据所述移动产品名称数据集和所述移动产品名称序列,确定每条所述对话内容的推荐类型;所述推荐类型包括主动营销和被动营销。
可选的,所述根据所述移动产品名称数据集和所述移动产品名称序列,确定每条所述对话内容的推荐类型,具体包括:
判断所述移动产品名称数据集中的元素和所述移动产品名称序列中的元素是否相同,得到第二判断结果;
若所述第二判断结果表示所述移动产品名称数据集中的元素和所述移动产品名称序列中的元素相同,则确定所述对话内容的推荐类型为被动营销;
若所述第二判断结果表示所述移动产品名称数据集中的元素和所述移动产品名称序列中的元素不同,则确定所述对话内容的推荐类型为主动营销。
可选的,所述移动产品名称词库是基于BiLSTM+CRF模型构建的。
可选的,所述历史数据集的构建过程为:
获取移动业务办理类来话文本历史数据;所述移动业务办理类来话文本历史数据包括多条客户与客服之间的历史对话内容;
基于所述移动产品名称词库,筛选每条所述历史对话内容中与客户需求有关的关键字和客服推荐的移动产品名称;
将所述关键字和所述移动产品名称组合以形成训练数据;
基于所述训练数据构建单词到数字的映射字典;
根据所述映射字典,将所述训练数据中的每个所述关键字和每个所述移动产品名称用独热编码向量表示,得到历史数据集。
可选的,所述LSTM语言模型的构建过程为:
构建两个LSTM神经网络结构;
在两个所述LSTM神经网络结构的基础上添加嵌入层、两个LSTM网络层和全连接层,以得到LSTM语言模型。
可选的,所述基于所述训练数据构建单词到数字的映射字典,具体包括:
将所述训练数据进行去重复处理,得到不重复词表;所述不重复词表包括N个词;
对所述不重复词表中的每个词进行从0到N-1的连续整数值编号,得到映射字典。
一种基于移动业务的推荐类型确定系统,包括:
数据获取模块,用于获取移动业务办理类来话文本数据;所述移动业务办理类来话文本数据包括多条客户与客服之间的对话内容;每条所述对话内容包括以客户为主体的对话语句和以客服为主体的对话语句;
移动产品名称数据集确定模块,用于基于移动产品名称词库,确定每条所述对话内容对应的移动产品名称数据集;所述移动产品名称数据集的元素为移动产品名称;
第一判断结果确定模块,用于依次判断每条所述对话内容中的移动产品名称对应的对话语句的主体是否全部为客户,得到第一判断结果;
未进行移动业务营销确定模块,用于当所述第一判断结果表示所述对话内容中的移动产品名称对应的对话语句的主体全部为客户时,确定所述对话内容中未进行移动业务营销;
关键字识别模块,用于当所述第一判断结果表示所述对话内容中的移动产品名称对应的对话语句的主体未全部为客户时,基于所述移动产品名称词库,识别每条所述对话内容中与客户需求有关的关键字;
词向量输入序列确定模块,用于基于词向量映射算法,对所述关键字进行处理,以得到每条所述对话内容对应的词向量输入序列;
移动产品名称序列确定模块,用于基于移动产品名称识别模型,确定每个所述词向量输入序列对应的移动产品名称序列;所述移动产品名称识别模型是基于历史数据集和LSTM语言模型确定的;所述历史数据集中包括多组历史数据,每组历史数据均包括输入数据和标签;所述输入数据为与客户需求有关的关键字,所述标签为移动产品名称;所述移动产品名称序列的元素为移动产品名称;
推荐类型确定模块,用于根据所述移动产品名称数据集和所述移动产品名称序列,确定每条所述对话内容的推荐类型;所述推荐类型包括主动营销和被动营销。
可选的,所述推荐类型确定模块,具体包括:
第二判断结果确定单元,用于判断所述移动产品名称数据集中的元素和所述移动产品名称序列中的元素是否相同,得到第二判断结果;
被动营销确定单元,用于当所述第二判断结果表示所述移动产品名称数据集中的元素和所述移动产品名称序列中的元素相同时,确定所述对话内容的推荐类型为被动营销;
主动营销确定单元,用于当所述第二判断结果表示所述移动产品名称数据集中的元素和所述移动产品名称序列中的元素不同时,确定所述对话内容的推荐类型为主动营销。
可选的,所述移动产品名称词库是基于BiLSTM+CRF模型构建的。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种基于移动业务的推荐类型确定方法及系统。本发明基于移动产品名称词库识别每条对话内容中与客户需求有关的关键字;基于词向量映射算法对关键字进行处理,以得到每条对话内容对应的词向量输入序列;基于移动产品名称识别模型,确定每个词向量输入序列对应的移动产品名称序列;移动产品名称识别模型是基于历史数据集和LSTM语言模型确定的;根据所述移动产品名称数据集和所述移动产品名称序列,确定每条所述对话内容的推荐类型。相比较传统方法,本实施例更加关注文本序列之间的相关性,在效率与准确率上大幅度提升。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于移动业务的推荐类型确定方法的流程示意图;
图2为本发明基于移动业务的推荐类型确定系统的结构示意图;
图3为本发明基于移动业务的推荐类型确定方法的整体流程示意图。
图4为本发明LSTM语言模型的训练过程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明属于文本数据识别技术领域,尤其是在文本数据的时序预测技术领域下,本发明公开了一种基于移动业务的推荐类型确定方法及系统,涉及时序神经网络结构的构建与训练,以及支持文本数据分析的时序预测,以达到检测结果准确率高的目的。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要研究方向,它研究如何能让计算机去理解和使用人类的语言,从而实现人机之间的信息交互,继而从大量文本中提取出有效的信息。目前国内外对语言模型在自然语言处理中应用的研究越来越广泛,语言模型(Language Model,LM)一直是机器学习领域的一个重要研究方向。
语言模型是定义在单词序列上的概率模型,可以用来计算一个单词序列的概率。在自然语言处理中,单词序列可以是一个句子或一段文字。从语言模型的发展历史看,主要经历了两个发展阶段,N-gram语言模型和神经网络语言模型(Neural Network LanguageModels,NNLM);其中,神经网络语言模型包括前馈神经网络(Feedforward NeuralNetwork,FNN)语言模型和循环神经网络(Recurrent Neural Network,RNN)语言模型,而主流的循环神经网络语言模型是长短期记忆神经网络(Long Short Term Memory,LSTM)语言模型。
N-gram语言模型是一种基本的语言模型,该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到,常用的是二元的Bi-Gram和三元的Tri-Gram。
2003年Yoshua Bengio等提出了第一个神经网络语言模型,开启了语言模型的新时代。Yoshua Bengio等人的前馈神经网络语言模型是从两个方面对N-gram模型予以改进。一是用一个实数向量表示一个单词或单词的组合,以提高语言表示的效率、泛化性、强健性和可扩展性。二是在使用词向量的基础上,通过神经网络来表示语言模型,大幅减少模型的参数。
2010年Mikolov提出了循环神经网络语言模型,循环神经网络的结构能利用文字的这种上下文序列关系,从而有利于文字建模,相比前馈神经网络语言模型,该模型是更接近人脑对文字处理的模型。LSTM是一种特殊的循环神经网络,LSTM中引入了3个门,即输入门(input gate)、遗忘门(forget gate)和输出门(output gate),以及与隐藏状态形状相同的记忆细胞,从而记录额外的信息,LSTM是具有记忆长短期信息能力的神经网络。
上述模型虽然在一定程度上能够从大量文本中提取出有效的信息,但是还存在以下缺点:
N-gram语言模型,采用计数统计的方式,在离散空间下表示语言的分布。由于缺乏对词的相似性的有效表示,该模型存在严重的数据稀疏问题。虽然引入平滑技术,但数据稀疏问题仍不能得到有效的解决。
前馈神经网络语言模型在训练前指定的上下文大小是有限的,这与人类可以使用大量的上下文信息进行预测的事实是严重不符的。序列中的单词是时序相关的,而前馈神经网络语言模型没有使用时序信息进行建模。此外,全连接神经网络需要学习许多可训练的参数,即使这些参数的数量比较少,但是仍然具有很大的计算开销,十分低效。
尽管循环神经网络语言模型可以利用所有的上下文进行预测,但是训练模型学习长期依赖仍然是一大挑战。这是因为在循环神经网络的训练过程中,参数的梯度可能会发生梯度消失或者梯度爆炸,导致训练速度变慢或使得参数值无穷大。
本发明考虑到上述模型的优缺点,采用LSTM语言模型,克服RNN语言模型中存在的梯度消失以及梯度爆炸的缺点,以词或句子的向量化为前提,关注文本序列之间的相关性,满足大量特征工程的自然语言处理要求,相比于传统模型,本发明提供的LSTM语言模型具备更好的准确率。
下面通过具体实施例详细说明本发明提供的一种基于移动业务的推荐类型确定方法及系统
实施例一
请参见图1,本实施例提供了一种基于移动业务的推荐类型确定方法,包括:
步骤101:获取移动业务办理类来话文本数据;所述移动业务办理类来话文本数据包括多条客户与客服之间的对话内容;每条所述对话内容包括以客户为主体的对话语句和以客服为主体的对话语句。
步骤102:基于移动产品名称词库,确定每条所述对话内容对应的移动产品名称数据集;所述移动产品名称数据集的元素为移动产品名称。
步骤103:依次判断每条所述对话内容中的移动产品名称对应的对话语句的主体是否全部为客户,得到第一判断结果;若所述第一判断结果表示所述对话内容中的移动产品名称对应的对话语句的主体全部为客户,则执行步骤104;若所述第一判断结果表示所述对话内容中的移动产品名称对应的对话语句的主体未全部为客户,则执行步骤105。
步骤104:确定所述对话内容中未进行移动业务营销。
步骤105:基于所述移动产品名称词库,识别每条所述对话内容中与客户需求有关的关键字。
步骤106:基于词向量映射算法,对所述关键字进行处理,以得到每条所述对话内容对应的词向量输入序列。
步骤107:基于移动产品名称识别模型,确定每个所述词向量输入序列对应的移动产品名称序列;所述移动产品名称识别模型是基于历史数据集和LSTM语言模型确定的;所述历史数据集中包括多组历史数据,每组历史数据均包括输入数据和标签;所述输入数据为与客户需求有关的关键字,所述标签为移动产品名称;所述移动产品名称序列的元素为移动产品名称。
步骤108:根据所述移动产品名称数据集和所述移动产品名称序列,确定每条所述对话内容的推荐类型;所述推荐类型包括主动营销和被动营销。
进一步地,步骤108具体包括:
判断所述移动产品名称数据集中的元素和所述移动产品名称序列中的元素是否相同,得到第二判断结果。
若所述第二判断结果表示所述移动产品名称数据集中的元素和所述移动产品名称序列中的元素相同,则确定所述对话内容的推荐类型为被动营销。
若所述第二判断结果表示所述移动产品名称数据集中的元素和所述移动产品名称序列中的元素不同,则确定所述对话内容的推荐类型为主动营销。
进一步地,所述移动产品名称词库是基于BiLSTM+CRF模型构建的。
进一步地,所述历史数据集的构建过程为:
获取移动业务办理类来话文本历史数据;所述移动业务办理类来话文本历史数据包括多条客户与客服之间的历史对话内容。
基于所述移动产品名称词库,筛选每条所述历史对话内容中与客户需求有关的关键字和客服推荐的移动产品名称。
将所述关键字和所述移动产品名称组合以形成训练数据。
基于所述训练数据构建单词到数字的映射字典。
根据所述映射字典,将所述训练数据中的每个所述关键字和每个所述移动产品名称用独热编码向量表示,得到历史数据集。
其中,所述基于所述训练数据构建单词到数字的映射字典,具体包括:
将所述训练数据进行去重复处理,得到不重复词表;所述不重复词表包括N个词;对所述不重复词表中的每个词进行从0到N-1的连续整数值编号,得到映射字典。
进一步地,所述LSTM语言模型的构建过程为:
构建两个LSTM神经网络结构;在两个所述LSTM神经网络结构的基础上添加嵌入层、两个LSTM网络层和全连接层,以得到LSTM语言模型。
实施例二
请参见图2,本实施例提供的一种基于移动业务的推荐类型确定系统,包括:
数据获取模块201,用于获取移动业务办理类来话文本数据;所述移动业务办理类来话文本数据包括多条客户与客服之间的对话内容;每条所述对话内容包括以客户为主体的对话语句和以客服为主体的对话语句。
移动产品名称数据集确定模块202,用于基于移动产品名称词库,确定每条所述对话内容对应的移动产品名称数据集;所述移动产品名称数据集的元素为移动产品名称。
第一判断结果确定模块203,用于依次判断每条所述对话内容中的移动产品名称对应的对话语句的主体是否全部为客户,得到第一判断结果。
未进行移动业务营销确定模块204,用于当所述第一判断结果表示所述对话内容中的移动产品名称对应的对话语句的主体全部为客户时,确定所述对话内容中未进行移动业务营销。
关键字识别模块205,用于当所述第一判断结果表示所述对话内容中的移动产品名称对应的对话语句的主体未全部为客户时,基于所述移动产品名称词库,识别每条所述对话内容中与客户需求有关的关键字。
词向量输入序列确定模块206,用于基于词向量映射算法,对所述关键字进行处理,以得到每条所述对话内容对应的词向量输入序列。
移动产品名称序列确定模块207,用于基于移动产品名称识别模型,确定每个所述词向量输入序列对应的移动产品名称序列;所述移动产品名称识别模型是基于历史数据集和LSTM语言模型确定的;所述历史数据集中包括多组历史数据,每组历史数据均包括输入数据和标签;所述输入数据为与客户需求有关的关键字,所述标签为移动产品名称;所述移动产品名称序列的元素为移动产品名称。
推荐类型确定模块208,用于根据所述移动产品名称数据集和所述移动产品名称序列,确定每条所述对话内容的推荐类型;所述推荐类型包括主动营销和被动营销。
进一步地,所述推荐类型确定模块208,具体包括:
第二判断结果确定单元,用于判断所述移动产品名称数据集中的元素和所述移动产品名称序列中的元素是否相同,得到第二判断结果;
被动营销确定单元,用于当所述第二判断结果表示所述移动产品名称数据集中的元素和所述移动产品名称序列中的元素相同时,确定所述对话内容的推荐类型为被动营销。
主动营销确定单元,用于当所述第二判断结果表示所述移动产品名称数据集中的元素和所述移动产品名称序列中的元素不同时,确定所述对话内容的推荐类型为主动营销。
进一步地,所述移动产品名称词库是基于BiLSTM+CRF模型构建的。
实施例三
目前,基于移动5G业务办理类来话文本数据,对移动客服(以下简称客户)是否开口营销、是否主动营销的结果进行监控,发现目前办理投诉及需求处理有很多不足,需要提升客服处理需求及投诉的能力。但是由于每月移动业务办理类来话文本数据量巨大,如果对每一条对话内容均进行人工分析和处理,不仅成本高,而且耗时、效率低下。
本实施例基于移动5G业务办理类来话文本数据,采用BiLSTM+CRF所构建的移动产品名称词库,筛选客户需求的关键字和客服推荐的套餐名称(或者称为移动产品名称);然后采用词向量嵌入(Embedding)方法训练LSTM语言模型;接着基于训练后的LSTM语言模型的预测结果可以识别客服是否进行主动营销,最终可以得出客服开口营销的监控结果。对比人工处理数据,本实施例实现了在效率方面与精度方面上的大幅度提升,而且具有泛化性和可移植性,能够有效的监控移动客服开口营销的结果。
请参见图3,本实施例提供的一种基于移动业务的推荐类型确定方法,具体包括如下步骤。
1、训练数据A的构建。
基于BiLSTM+CRF模型所构建的移动产品名称词库筛选出移动5G业务办理类来话文本数据中每条对话内容中与客户需求有关的关键字X和客服推荐的套餐名称Y,分别在X和Y的后面添加特殊字符“/”,得到X'和Y',“/”表示序列的结束,将X'作为输入,Y'作为标签,X'和Y'组成训练数据A=(X',Y')。把训练数据A按照7:3的比例划分为训练集A'和测试集A”(A'∪A”=A)。
具体包括:
针对移动营销开口监控项目的需求,首先获取原始数据G(即为移动5G套餐办理类来话文本数据),原始数据G中包含客服和客户的对话内容。每条对话内容以“||”作为分隔符分割,用以区别客服和客户,如“0001-客服:…||0002-客户:…”。对于原始数据G中的对话内容,使用BiLSTM+CRF模型识别其中的移动产品名称,得到移动产品名称词库
对于原始数据G中的一条对话内容,基于步骤1.1所构建的移动产品名称词库筛选出n条客服推荐的套餐名称和与客户需求有关的关键字;其中,筛选的每一条推荐的套餐名称记为Yi,客户需求的关键字记为Xi,0≤i≤n-1,分别在Xi、Yi后面添加字符“/”得到Xi'、Yi'。
将A={(X0',Y0'),..,(Xn-1',Yn-1')}确定为LSTM语言模型的训练数据。其中,按照7:3的比例将训练数据A划分为训练集A'和测试集A”,训练集A'用来训练LSTM语言模型,测试集A”用来测试训练效果。
2、训练集A'映射为词向量训练集A’1。
训练数据A去重后生成单词到数字的映射字典Dr,接着基于映射字典Dr将训练集A'嵌入为one-hot形式的词向量以得到词向量训练集A’1。
同理基于映射字典Dr将测试集A”嵌入为one-hot形式的词向量以得到词向量测试集A”1。
具体包括:
2.1:由训练数据A构建单词到数字的映射字典Dr。
将步骤1.2得到的训练数据A去重复后得到不重复词表D=(d0,...,dN-1),其中,N为不重复词表D中词的个数,对不重复词表D中的每个词从0到N-1的连续整数值编号,得到映射字典Dr,映射字典Dr的键为词de∈D(0≤e≤N-1),de的值为该词所对应的整数值编号e。
2.2:基于映射字典Dr将训练集A'映射为词向量训练集A’1。
本步骤将训练集A'处理为词向量。
本步骤使用的词向量映射方法是独热编码(one-hot),其给每个词赋予独一无二的向量,每个向量空间只有一个维度是1,其他均为0。例如,词典为{“我”,“要”,“去”,“爬”,“山”},那么需要构造5个维度为词典大小的向量,其中“我”在词典的第一个位置,它的向量的第一个维度为1,其他维度赋值为零,因此“我”的one-hot向量表示为[1,0,0,0,0]。
基于步骤2.1得到的映射字典Dr,把训练集A'中Xi'、Yi'的每个词用N维one-hot向量表示,得到输入序列Xi”=(x1,...,xa),标签序列Yi”=(y1,...,ym),词向量训练集A1'={(X0”,Y0”),...,(Xn-1”,Yn-1”)},其中a、m分别表示Xi'、Yi'中词的个数。
同理,将测试集A”映射为词向量测试集A”1。
3、LSTM语言模型的构建和LSTM语言模型的训练。
具体包括:
3.1:词向量训练集A’1输入到LSTM语言模型得到概率分布pt'。
首先构建两个LSTM神经网络结构,第一个用来编码输入序列,第二个用来解码输出序列。之后在添加嵌入层、两个LSTM网络层和全连接层,得到LSTM语言模型;该LSTM语言模型的输入维度为不重复词表D的大小N,全连接层的激活函数使用softmax函数。
在训练中,需要每次随机从步骤2.2得到的词向量训练集A1'中读取小批量样本输入到LSTM语言模型中,输入数据包含词向量Xi”=(x1,...,xa)和标签序列Yi”=(y1,...,ym),每次训练取样的样本个数(batch_size)是δ,batch_size表示在每个批次输入LSTM语言模型的数据大小,时间步t的输入为词向量xt。
第一个LSTM神经网络结构:
首先遗忘门会决定丢弃的信息,遗忘门会读取时间步t-1的输出Ht-1和时间步t的输入xt,通过sigmoid函数来计算,计算如下:
Ft=σ(Wfxt+UfHt-1+bf) (1);
下一步会决定更新的信息,第一个是输入门层通过sigmoid函数来决定值的更新,第二个是通过tanh函数创建新的候选值Ct',计算如下:
之后更新Ct-1为Ct,计算如下:
Ct=Ft·Ct-1+It·Ct' (3);
输出层基于更新后的Ct,首先是通过sigmoid层来得到一个初始输出ot,然后使用tanh函数,再与sigmoid得到的输出ot相乘,从而得到时间步t模型的输出Ht,计算如下:
其中,Wf、WI、WC、Wo和Uf、UI、UC、Uo是权重参数,bf、bI、bC、bo是偏差参数。σ表示sigmoid激活函数,计算如下:
tanh函数定义如下:
结合图4,经过时间步a之后得到一个背景向量c,背景变量c是输入序列最终时间步的隐藏状态c=Ha,c中包含输入序列Xi”的信息。第二LSTM神经网络结构采用强制教学(teacher forcing),时间步t'(1≤t'≤m)的输入为标签序列Yi”的第t'-1个向量yt'-1和背景向量c,并将他们与上一时间步的隐藏状态St'-1变换为当前时间步的隐藏状态St',St'的计算如下:
St'=tanh(yt-1,c,St'-1) (7);
St'经过全连接层后映射为维度词表大小N的向量St’’=(s1,...,sN),之后St’’由softmax函数归一化计算得到不重复词表D中词在时间步t'的概率分布pt’,计算如下:
其中,pr表示在时间步t'输出是不重复词表D中第r个词的概率。
3.2:基于概率分布pt'的搜索得到pt’’。
对于时间步t',为了从N个词中搜索出条件概率最大的词,本步骤将步骤3.1的词表概率分布pt'利用贪婪搜索(greedy search)的思想,取pt'中最大的数值得到pt’’,公式如下:
pt’’=argmax(pt') (9);
pt’’在pt'中的索引为h(1≤h≤N),根据映射字典Dr得到编号为h-1所对应的词dh-1,将dh-1作为时间步t'的预测输出词。
3.3:基于pt’’计算损失函数L。
输出序列的损失函数定义如下:
这里p(yt')表示在输出时间步t'上,输出是标签序列Y'中第t'个词的概率,基于损失函数更新LSTM语言模型的参数,同时调整LSTM语言模型的超参数(batch_size、epoch、hidden_size、dropout),待LSTM语言模型损失函数收敛,用词向量测试集A”1测试LSTM语言模型的准确率,当准确率达到ω时,固定训练好的模型M,即移动产品名称识别模型。
4、移动产品名称的预测。
利用移动产品名称识别模型和未经处理的移动5G套餐办理类来话文本数据中的每条对话内容,预测每条对话内容对应的移动产品名称序列R。
具体包括:
步骤a:步骤4的输入是一个未经处理的移动5G套餐办理类来话文本数据,由多条客户和客服之间的对话内容组成;在基于步骤1.1所构建的移动产品名称词库筛选出每条对话内容对应的与客户需求有关的关键字Q,在关键字Q后面添加字符“/”,得到最终的每条对话内容对应的关键字数据集Q'=(Q1,Q2,...,Qk)。
步骤b:按照步骤2.2的方法将关键字数据集中的关键字映射为one-hot向量,记为序列(w1,w2,...,wk),k表示关键字的个数。
步骤c:将序列(w1,w2,...,wk)输入到步骤3得到的移动产品名称识别模型M中,经过第一个LSTM神经网络结构得到输入序列(w1,w2,...,wk)的背景向量q。
假设输出序列R的长度为T,对于输出序列R上的任一时间步j(1≤j≤T),时间步j输出的条件概率的计算公式如下:
P(Rj|R1,...,Rj-1,Q1,...,Qk)=f(q,R1,...,Rj-1) (11);
f(·)表示LSTM神经网络结构,使用softmax函数来计算时间步j输出Rj的概率分布P(Rj|R1,...,Rj-1,Q1,...,Qk)。
贪婪搜索得到概率分布的最大值,其计算公式如下:
v在概率分布中的编号为u,根据u得到在映射字典Dr中编号为u-1的词作为时间步j的输出Rj。直到输出字符“/”,整个输出序列结束,即可得到预测的输出序列R(R1,...,RT),即得到每条对话内容对应的移动产品名称序列R。
5、移动业务推销的主被动识别。
对于移动5G套餐办理类来话文本数据中的一条对话内容G',根据关键字“客服”、“客户”识别对话语句的主体是客户还是客服,若为客户则该条对话语句记为0,否则记为1,以此构建对话内容G'对应的对话向量Z。其中,对话内容G'包括多条对话语句。
根据移动产品名称词库识别对话内容G'中的移动产品名称数据集E,在对话向量Z中匹配移动产品名称数据集E中每个元素的位置,若对话向量Z中匹配到对话语句向量的元素均为0(产品名称均为客户提出),则判定为未营销,否则进行主被动营销的识别。
将移动产品名称数据集E和根据步骤4得到的移动产品名称序列R进行比较,若R和E相同,判定为被动营销,否则为主动营销,可以得到G'的营销结果。对移动5G套餐办理类来话文本数据的每一条对话内容按照G'的处理方法,即可得到总体营销结果。
从移动5G套餐办理类来话文本中分析出客服对于移动业务营销的情况,可以帮助移动公司管理人员掌握客服的营销情况,进而对业务营销、业务办理等服务进行优化。本发明基于文本数据的时序预测领域,使用BiLSTM+CRF所构建的移动产品名称词库,将稀疏和低质量的5G套餐办理类来话文本数据处理为完备的训练集和测试集,并用训练集和测试集构建LSTM语言模型来捕捉数据的序列信息。主要用训练集来训练LSTM语言模型,同时调整LSTM语言模型的参数,待LSTM语言模型损失函数收敛后固定LSTM语言模型,然后用测试集测试固定LSTM语言模型,进而根据测试结果调整后得到训练后的LSTM语言模型,之后基于训练后的LSTM语言模型预测移动业务产品名称。最后构建客户、客服对话向量,通过比较基于BiLSTM+CRF所构建的移动产品名称词库识别的产品名称和训练后的LSTM语言模型预测产品名称,得到营销结果,利用营销结果优化客服的服务质量。相比较传统方法,本实施例更加关注文本序列之间的相关性,在效率与准确率上大幅度提升。
实施例三
一种移动xx年xx月5G套餐办理类来话文本业务推销的主被动识别方法,具体包括。
1:训练数据A的构建。
按照步骤1.1和1.2,从移动xx年xx月5G套餐办理类来话文本获取原始文本G,基于BiLSTM+CRF所构建的移动产品名称词库从G中筛选出客服推荐的套餐名称和与客户需求有关的关键字,总共筛选100条,筛选的客户需求关键字和推荐套餐名分别为Xi(i=0,...,99)、Yi(i=0,...,99),分别在Xi、Yi后面添加字符“/”得到Xi'、Yi',把A={(X0',Y0'),...,(X99',Y99')}作为训练模型的训练数据,并将A按照7:3的比例划分为训练集A'={(X0',Y0'),...,(X69',Y69')}和测试集A”={(X70',Y70'),...,(X99',Y99')},部分训练数据A如表1所示。
表1客户需求关键字和客服推荐套餐名称表
2:训练集A'映射为词向量A1'。
按照步骤2.1,训练数据A去重复后得到不重复词表D=(d0,...,d107),D中词的个数为108,对词表中的每个词从0到107的连续整数值编号,得到字典Dr,字典的键为词,值为该词所对应的整数值编号。如表2所示Dr的部分词和所对应的编号。
表2词和编号的部分映射数据表
编号 | 0 | 1 | 2 | … | 105 | 106 | 107 |
词 | 十 | 八 | 一 | … | 都 | 酷 | 降 |
按照步骤2.2,将训练集A'中的每个词映射为one-hot向量,其中向量维度为108,得到输入序列Xi”=(x1,...,xa)和标签序列Yi”=(y1,...,ym),A1'={(X0”,Y0”),...,(X69”,Y69”)}。
3:使用数据A1'训练LSTM语言模型的参数得到固定模型M。
按照步骤3,将数据A1'输入到LSTM语言模型中,通过损失函数更新模型参数,同时在模型训练过程中调节超参数batch_size、epoch、hidden_size、dropout,经过测试集A”多次对比测试,batch_size=10、epoch=50、hidden_dim=200、dropout=0.1、embedding_dim=300时达到最优效果,此时准确率达到96%,按照以上参数值固定模型M。
4:基于模型M预测移动产品名称R。
按照步骤4从未经处理的移动套餐办理类来话文本中筛选出客户需求的关键字,并在关键字后添加字符“/”,得到预测输入,前1000条预测输入部分片段如表3。
表3前1000条对话内容中筛选出的客户需求关键字
将客户需求关键字映射为one-hot向量,将映射词向量输入到模型M中,根据公式(11)计算得到输出单词的条件概率分布,然后按照公式(12)得到最大概率的编号,从字典Dr中得到编号减一所对应的关键字,直到输出字符“/”预测结束。部分预测结果R如表4所示
表4预测结果表
客户需求关键字 | 预测结果 |
幺五八五g套餐/ | 一百五十八套餐 |
改套餐打电话打的多一点八十九五佰分钟/ | 一百二十八套餐 |
换个套餐|八十九幺二八打折/ | 一百二十八套餐 |
…… | …… |
流量多一点三十g一百一十五百分钟/ | 一百二十八套餐 |
改一下套餐流量多一点六十g/ | 一百九十八套餐 |
五g套餐八十九五佰分钟打折/ | 一百二十八套餐 |
表4中预测结果为步骤4的预测输出,以第一条客户需求“幺五八五g套餐/”输入为例,预测输出结果为“一百五十八套餐”。利用移动xx年xx月5G套餐办理类来话文本中第一条对话语句可以找到客服实际推荐的套餐是“一百五十八套餐”,说明上述方法的有效性和可用性。
5:基于R识别移动业务推销的主被动。
首先按照步骤5构建对话向量Z,之后按照步骤5识别对话数据中的产品名称E,根据E匹配的位置初步判断是否营销,若有营销情况则继续判断主被动营销,将E和步骤4得到的预测结果R对比,若E和R相同则为被动营销,否则为主动营销,将对来话文本数据的每一条对话按照此方法即可得到营销的总体结果。
与现有技术相比,本发明具有的优点及积极效果如下:
(1)本发明使用LSTM语言模型作为移动业务推销主被动识别的文本预测的基本框架,有效地描述了文本之间任意形式的相关性及其不确定性,可有效地描述单词之间通过上下文产生的间接相关性,可有效地以定性的方式更加客观、完备、深层次地对文本序列进行建模。
(2)本发明有效利用LSTM语言模型的概率预测机制进行文本间的序列预测,无需根据具体预测任务来重构模型或即席构建计算表达式,保证了文本预测的高效性。
(3)本发明使用移动5G套餐办理类来话文本,保证了训练数据的客观性和完备性,也保证了语义层面的有效性;对来话文本中的客户需求和推荐套餐名称进行预处理,从实际的角度,保证了训练数据的完备性,同时也提供了一种将高维数据映射到低维向量的统一的、便于计算的数据预处理机制。
(4)本发明对于任意给定的移动对话文本内容,可容易地利用LSTM语言模型训练文本间存在的间接关系,并且可将新文本数据中的需求关键字作为预测输入,利用训练好的模型预测新文本数据可能的输出。对于移动营销开口监控业务的需求,本发明可以高效的监控移动客服开口营销结果。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (9)
1.一种基于移动业务的推荐类型确定方法,其特征在于,包括:
获取移动业务办理类来话文本数据;所述移动业务办理类来话文本数据包括多条客户与客服之间的对话内容;每条所述对话内容包括以客户为主体的对话语句和以客服为主体的对话语句;
基于移动产品名称词库,确定每条所述对话内容对应的移动产品名称数据集;所述移动产品名称数据集的元素为移动产品名称;
依次判断每条所述对话内容中的移动产品名称对应的对话语句的主体是否全部为客户,得到第一判断结果;
若所述第一判断结果表示所述对话内容中的移动产品名称对应的对话语句的主体全部为客户,则确定所述对话内容中未进行移动业务营销;
若所述第一判断结果表示所述对话内容中的移动产品名称对应的对话语句的主体未全部为客户,则基于所述移动产品名称词库,识别每条所述对话内容中与客户需求有关的关键字;
基于词向量映射算法,对所述关键字进行处理,以得到每条所述对话内容对应的词向量输入序列;
基于移动产品名称识别模型,确定每个所述词向量输入序列对应的移动产品名称序列;所述移动产品名称识别模型是基于历史数据集和LSTM语言模型确定的;所述历史数据集中包括多组历史数据,每组历史数据均包括输入数据和标签;所述输入数据为与客户需求有关的关键字,所述标签为移动产品名称;所述移动产品名称序列的元素为移动产品名称;
根据所述移动产品名称数据集和所述移动产品名称序列,确定每条所述对话内容的推荐类型;所述推荐类型包括主动营销和被动营销。
2.根据权利要求1所述的一种基于移动业务的推荐类型确定方法,其特征在于,所述根据所述移动产品名称数据集和所述移动产品名称序列,确定每条所述对话内容的推荐类型,具体包括:
判断所述移动产品名称数据集中的元素和所述移动产品名称序列中的元素是否相同,得到第二判断结果;
若所述第二判断结果表示所述移动产品名称数据集中的元素和所述移动产品名称序列中的元素相同,则确定所述对话内容的推荐类型为被动营销;
若所述第二判断结果表示所述移动产品名称数据集中的元素和所述移动产品名称序列中的元素不同,则确定所述对话内容的推荐类型为主动营销。
3.根据权利要求1所述的一种基于移动业务的推荐类型确定方法,其特征在于,所述移动产品名称词库是基于BiLSTM+CRF模型构建的。
4.根据权利要求1所述的一种基于移动业务的推荐类型确定方法,其特征在于,所述历史数据集的构建过程为:
获取移动业务办理类来话文本历史数据;所述移动业务办理类来话文本历史数据包括多条客户与客服之间的历史对话内容;
基于所述移动产品名称词库,筛选每条所述历史对话内容中与客户需求有关的关键字和客服推荐的移动产品名称;
将所述关键字和所述移动产品名称组合以形成训练数据;
基于所述训练数据构建单词到数字的映射字典;
根据所述映射字典,将所述训练数据中的每个所述关键字和每个所述移动产品名称用独热编码向量表示,得到历史数据集。
5.根据权利要求1所述的一种基于移动业务的推荐类型确定方法,其特征在于,所述LSTM语言模型的构建过程为:
构建两个LSTM神经网络结构;
在两个所述LSTM神经网络结构的基础上添加嵌入层、两个LSTM网络层和全连接层,以得到LSTM语言模型。
6.根据权利要求4所述的一种基于移动业务的推荐类型确定方法,其特征在于,所述基于所述训练数据构建单词到数字的映射字典,具体包括:
将所述训练数据进行去重复处理,得到不重复词表;所述不重复词表包括N个词;
对所述不重复词表中的每个词进行从0到N-1的连续整数值编号,得到映射字典。
7.一种基于移动业务的推荐类型确定系统,其特征在于,包括:
数据获取模块,用于获取移动业务办理类来话文本数据;所述移动业务办理类来话文本数据包括多条客户与客服之间的对话内容;每条所述对话内容包括以客户为主体的对话语句和以客服为主体的对话语句;
移动产品名称数据集确定模块,用于基于移动产品名称词库,确定每条所述对话内容对应的移动产品名称数据集;所述移动产品名称数据集的元素为移动产品名称;
第一判断结果确定模块,用于依次判断每条所述对话内容中的移动产品名称对应的对话语句的主体是否全部为客户,得到第一判断结果;
未进行移动业务营销确定模块,用于当所述第一判断结果表示所述对话内容中的移动产品名称对应的对话语句的主体全部为客户时,确定所述对话内容中未进行移动业务营销;
关键字识别模块,用于当所述第一判断结果表示所述对话内容中的移动产品名称对应的对话语句的主体未全部为客户时,基于所述移动产品名称词库,识别每条所述对话内容中与客户需求有关的关键字;
词向量输入序列确定模块,用于基于词向量映射算法,对所述关键字进行处理,以得到每条所述对话内容对应的词向量输入序列;
移动产品名称序列确定模块,用于基于移动产品名称识别模型,确定每个所述词向量输入序列对应的移动产品名称序列;所述移动产品名称识别模型是基于历史数据集和LSTM语言模型确定的;所述历史数据集中包括多组历史数据,每组历史数据均包括输入数据和标签;所述输入数据为与客户需求有关的关键字,所述标签为移动产品名称;所述移动产品名称序列的元素为移动产品名称;
推荐类型确定模块,用于根据所述移动产品名称数据集和所述移动产品名称序列,确定每条所述对话内容的推荐类型;所述推荐类型包括主动营销和被动营销。
8.根据权利要求7所述的一种基于移动业务的推荐类型确定系统,其特征在于,所述推荐类型确定模块,具体包括:
第二判断结果确定单元,用于判断所述移动产品名称数据集中的元素和所述移动产品名称序列中的元素是否相同,得到第二判断结果;
被动营销确定单元,用于当所述第二判断结果表示所述移动产品名称数据集中的元素和所述移动产品名称序列中的元素相同时,确定所述对话内容的推荐类型为被动营销;
主动营销确定单元,用于当所述第二判断结果表示所述移动产品名称数据集中的元素和所述移动产品名称序列中的元素不同时,确定所述对话内容的推荐类型为主动营销。
9.根据权利要求7所述的一种基于移动业务的推荐类型确定系统,其特征在于,所述移动产品名称词库是基于BiLSTM+CRF模型构建的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110617032.6A CN113342964B (zh) | 2021-06-03 | 2021-06-03 | 一种基于移动业务的推荐类型确定方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110617032.6A CN113342964B (zh) | 2021-06-03 | 2021-06-03 | 一种基于移动业务的推荐类型确定方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113342964A true CN113342964A (zh) | 2021-09-03 |
CN113342964B CN113342964B (zh) | 2022-04-19 |
Family
ID=77472883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110617032.6A Active CN113342964B (zh) | 2021-06-03 | 2021-06-03 | 一种基于移动业务的推荐类型确定方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113342964B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113918702A (zh) * | 2021-10-25 | 2022-01-11 | 北京航空航天大学 | 一种基于语义匹配的在线法律自动问答方法及系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104065506A (zh) * | 2014-05-22 | 2014-09-24 | 云南大学 | 移动互联网应用模块的部署方法 |
CN109614614A (zh) * | 2018-12-03 | 2019-04-12 | 焦点科技股份有限公司 | 一种基于自注意力的bilstm-crf产品名称识别方法 |
CN109753653A (zh) * | 2018-12-25 | 2019-05-14 | 金蝶软件(中国)有限公司 | 实体名称识别方法、装置、计算机设备和存储介质 |
CN109960728A (zh) * | 2019-03-11 | 2019-07-02 | 北京市科学技术情报研究所(北京市科学技术信息中心) | 一种开放域会议信息命名实体识别方法及系统 |
CN109992773A (zh) * | 2019-03-20 | 2019-07-09 | 华南理工大学 | 基于多任务学习的词向量训练方法、系统、设备及介质 |
CN110069631A (zh) * | 2019-04-08 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置以及相关设备 |
CN110503502A (zh) * | 2018-05-17 | 2019-11-26 | 中国移动通信集团有限公司 | 一种业务推荐方法、设备、装置和计算机可读存储介质 |
CN110738545A (zh) * | 2019-08-30 | 2020-01-31 | 深圳壹账通智能科技有限公司 | 基于用户意向识别的产品推荐方法、装置、计算机设备和存储介质 |
CN110839184A (zh) * | 2019-10-15 | 2020-02-25 | 北京邮电大学 | 基于流量预测的移动前传光网络带宽调整方法及装置 |
US20200143247A1 (en) * | 2015-01-23 | 2020-05-07 | Conversica, Inc. | Systems and methods for improved automated conversations with intent and action response generation |
CN112270188A (zh) * | 2020-11-12 | 2021-01-26 | 佰聆数据股份有限公司 | 一种提问式的分析路径推荐方法、系统及存储介质 |
CN112396108A (zh) * | 2020-11-19 | 2021-02-23 | 腾讯科技(深圳)有限公司 | 业务数据评估方法、装置、设备及计算机可读存储介质 |
-
2021
- 2021-06-03 CN CN202110617032.6A patent/CN113342964B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104065506A (zh) * | 2014-05-22 | 2014-09-24 | 云南大学 | 移动互联网应用模块的部署方法 |
US20200143247A1 (en) * | 2015-01-23 | 2020-05-07 | Conversica, Inc. | Systems and methods for improved automated conversations with intent and action response generation |
CN110503502A (zh) * | 2018-05-17 | 2019-11-26 | 中国移动通信集团有限公司 | 一种业务推荐方法、设备、装置和计算机可读存储介质 |
CN109614614A (zh) * | 2018-12-03 | 2019-04-12 | 焦点科技股份有限公司 | 一种基于自注意力的bilstm-crf产品名称识别方法 |
CN109753653A (zh) * | 2018-12-25 | 2019-05-14 | 金蝶软件(中国)有限公司 | 实体名称识别方法、装置、计算机设备和存储介质 |
CN109960728A (zh) * | 2019-03-11 | 2019-07-02 | 北京市科学技术情报研究所(北京市科学技术信息中心) | 一种开放域会议信息命名实体识别方法及系统 |
CN109992773A (zh) * | 2019-03-20 | 2019-07-09 | 华南理工大学 | 基于多任务学习的词向量训练方法、系统、设备及介质 |
CN110069631A (zh) * | 2019-04-08 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置以及相关设备 |
CN110738545A (zh) * | 2019-08-30 | 2020-01-31 | 深圳壹账通智能科技有限公司 | 基于用户意向识别的产品推荐方法、装置、计算机设备和存储介质 |
CN110839184A (zh) * | 2019-10-15 | 2020-02-25 | 北京邮电大学 | 基于流量预测的移动前传光网络带宽调整方法及装置 |
CN112270188A (zh) * | 2020-11-12 | 2021-01-26 | 佰聆数据股份有限公司 | 一种提问式的分析路径推荐方法、系统及存储介质 |
CN112396108A (zh) * | 2020-11-19 | 2021-02-23 | 腾讯科技(深圳)有限公司 | 业务数据评估方法、装置、设备及计算机可读存储介质 |
Non-Patent Citations (3)
Title |
---|
彭小钰: "面向金融领域的命名实体识别算法的设计与实现", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
李德玉等: "基于cw2vec-BiLSTM-CRF的汽车名称和属性识别方法", 《山西大学学报(自然科学版)》 * |
杨丹浩 等: "一种基于注意力机制的中文短文本关键词提取模型", 《计算机科学》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113918702A (zh) * | 2021-10-25 | 2022-01-11 | 北京航空航天大学 | 一种基于语义匹配的在线法律自动问答方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113342964B (zh) | 2022-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108984526B (zh) | 一种基于深度学习的文档主题向量抽取方法 | |
CN110192203A (zh) | 用于多个自然语言处理(nlp)任务的联合多任务神经网络模型 | |
CN111325029B (zh) | 一种基于深度学习集成模型的文本相似度计算方法 | |
CN109726745B (zh) | 一种融入描述知识的基于目标的情感分类方法 | |
CN112667818B (zh) | 融合gcn与多粒度注意力的用户评论情感分析方法及系统 | |
CN112232087B (zh) | 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN110968660A (zh) | 基于联合训练模型的信息抽取方法和系统 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN113961666B (zh) | 关键词识别方法、装置、设备、介质及计算机程序产品 | |
CN113705238B (zh) | 基于bert和方面特征定位模型的方面级情感分析方法及系统 | |
Kshirsagar et al. | A review on application of deep learning in natural language processing | |
Suyanto | Synonyms-based augmentation to improve fake news detection using bidirectional LSTM | |
Sharma et al. | Deep learning for predicting neutralities in offensive language identification dataset | |
CN113988079A (zh) | 一种面向低数据的动态增强多跳文本阅读识别处理方法 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN114722835A (zh) | 基于lda和bert融合改进模型的文本情感识别方法 | |
CN114881173A (zh) | 基于自注意力机制的简历分类方法和装置 | |
CN114722198A (zh) | 产品分类编码确定方法、系统及相关装置 | |
CN113342964B (zh) | 一种基于移动业务的推荐类型确定方法及系统 | |
CN117271701A (zh) | 一种基于tggat和cnn的系统运行异常事件关系抽取方法及系统 | |
Sinapoy et al. | Comparison of lstm and indobert method in identifying hoax on twitter | |
CN114595324A (zh) | 电网业务数据分域的方法、装置、终端和非暂时性存储介质 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
Shah et al. | A study of various word embeddings in deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |