CN110737839A - 短文本的推荐方法、装置、介质及电子设备 - Google Patents
短文本的推荐方法、装置、介质及电子设备 Download PDFInfo
- Publication number
- CN110737839A CN110737839A CN201911006125.4A CN201911006125A CN110737839A CN 110737839 A CN110737839 A CN 110737839A CN 201911006125 A CN201911006125 A CN 201911006125A CN 110737839 A CN110737839 A CN 110737839A
- Authority
- CN
- China
- Prior art keywords
- short text
- short
- semantic vector
- text
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种短文本的推荐方法、装置、介质及电子设备,该方法包括:根据用户输入的第一短文本,采用ES方式获取多个第二短文本,获取第一短文本的语义向量以及每个第二短文本的语义向量,并计算每个第二短文本的语义向量与第一短文本的语义向量之间的相似度,其中,短本文的语义向量用于表示短文本语义的特征向量,最后根据每个第二短文本的语义向量与第一短文本的语义向量之间的相似度大小,对多个第二短文本进行排序,并推荐排序后的第二短文本。本方案通过从短文本的深层语义层面进行短文本召回和排序,能够更贴合用户的实际需求,有效提高推荐内容的点击率。
Description
技术领域
本发明涉及大数据分析技术领域,尤其涉及一种短文本的推荐方法、装置、介质及电子设备。
背景技术
随着大数据时代的来临,如何帮助用户从大量信息中迅速获得对自己有用的信息成为众多商家的重要任务,个性化推荐系统应运而生。个性化推荐系统以海量数据挖掘为基础,引导用户发现自己的信息需求,现已广泛应用于很多领域,尤其是短文本搜索推荐应用最为广泛。
目前,对于在线实时短文本文本推荐方面,现有技术主要有两类技术,一类是利用分布式全文搜索(ElasticSearch,ES)检索召回指定数量的短文本,作为为用户推荐的文本;另一类是利用ES检索召回指定数量的短文本,然后利用关键字权重对召回的短文进行排序,排序之后作为为用户推荐的文本。
然而,上述方案中,通过ES检索召回的短文本,直接显示或者按照关键字进行排序推荐,用户能较早查看的短文本可能不是最贴近用户实际需求的内容,导致点击率不高的问题。
发明内容
本发明实施例提供一种短文本的推荐方法、装置、介质及电子设备,以解决现有技术中召回的短文本直接显示或者按照关键字进行排序推荐,用户能较早查看的短文本可能不是最贴近用户实际需求的内容,导致点击率不高的问题。
第一方面,本发明实施例提供一种短文本的推荐方法,所述方法包括:
根据用户输入的第一短文本,采用ES方式获取多个第二短文本;
获取所述第一短文本的语义向量以及每个第二短文本的语义向量,并计算每个第二短文本的语义向量与所述第一短文本的语义向量之间的相似度;其中,短本文的语义向量用于表示所述短文本语义的特征向量;
根据每个第二短文本的语义向量与所述第一短文本的语义向量之间的相似度大小,对所述多个第二短文本进行排序,并推荐排序后的第二短文本。
在一种具体实施方式中,所述获取所述第一短文本的语义向量以及每个第二短文本的语义向量,包括:
根据BERT模型以及卷积神经网络CNN模型分别对所述第一短文本进行处理,并对得到的结果进行全连接处理,得到所述第一短文本的语义向量;
从预设的数据库中,根据短文本和语义向量之间的对应关系,获取每个第二短文本的语义向量;其中,所述数据库中存储有多个待搜索短文本的语义向量。
在另一种具体实施方式中,所述方法还包括:
根据BERT模型以及CNN模型分别对待搜索的每个短文本进行处理,并对得到的结果进行全连接处理,得到每个待搜索短文本的语义向量;
将每个待搜索短文本的语义向量存储在所述数据库中,并建立短文本和语义向量之间的对应关系。
在一种具体实施方式中,根据用户输入的第一短文本,采用分布式搜索ES方式获取多个第二短文本,包括:
对所述第一短文本进行分词处理,得到分词结果;
根据所述分词结果在ES搜索服务器中进行匹配检索,根据文本相似度由高到低的顺序,获取所述多个第二短文本。
在又一种具体实施方式中,所述根据每个第二短文本的语义向量与所述第一短文本的语义向量之间的相似度大小,对所述多个第二短文本进行排序,并推荐排序后的第二短文本,包括:
将每个第二短文本的语义向量与所述第一短文本的语义向量进行点乘计算,得到相似度;
根据每个第二短文本的语义向量与所述第二短文本的语义向量之间的相似度由大到小进行排序;
根据预设推荐文本数量,获取相似度从最大开始的所述推荐文本数量个第二短文本进行推荐。
第二方面,本发明实施例提供一种短文本的推荐装置,包括:
搜索模块,用于根据用户输入的第一短文本,采用分布式搜索ES方式获取多个第二短文本;
处理模块,用于获取所述第一短文本的语义向量以及每个第二短文本的语义向量,并计算每个第二短文本的语义向量与所述第一短文本的语义向量之间的相似度;其中,短本文的语义向量用于表示所述短文本语义的特征向量;
所述处理模块还用于根据每个第二短文本的语义向量与所述第一短文本的语义向量之间的相似度大小,对所述多个第二短文本进行排序,并推荐排序后的第二短文本。
可选的,所述处理模块具体用于:
根据BERT模型以及CNN模型分别对所述第一短文本进行处理,并对得到的结果进行全连接处理,得到所述第一短文本的语义向量;
从预设的数据库中,根据短文本和语义向量之间的对应关系,获取每个第二短文本的语义向量;其中,所述数据库中存储有多个待搜索短文本的语义向量。
可选的,所述处理模块还用于:
根据BERT模型以及CNN模型分别对待搜索的每个短文本进行处理,并对得到的结果进行全连接处理,得到每个待搜索短文本的语义向量;
所述装置还包括:存储模块,用于将每个待搜索短文本的语义向量存储在所述数据库中,并建立短文本和语义向量之间的对应关系。
可选的,所述处理模块还用于:
对所述第一短文本进行分词处理,得到分词结果;
根据所述分词结果在ES搜索服务器中进行匹配检索,根据文本相似度由高到低的顺序,获取所述多个第二短文本。
可选的,所述处理模块具体用于:
将每个第二短文本的语义向量与所述第一短文本的语义向量进行点乘计算,得到相似度;
根据每个第二短文本的语义向量与所述第二短文本的语义向量之间的相似度由大到小进行排序;
根据预设推荐文本数量,获取相似度从最大开始的所述推荐文本数量个第二短文本进行推荐。
第三方面,本发明实施例提供一种电子设备,包括:
处理器;以及,
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行第一方面任一项所述的短文本的推荐方法。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面任一项所述的短文本的推荐方法。
本发明实施例提供的短文本的推荐方法、装置、介质及电子设备,在用户输入查询短文本后,根据用户输入的第一短文本,采用ES方式获取多个第二短文本,获取第一短文本的语义向量以及每个第二短文本的语义向量,并计算每个第二短文本的语义向量与第一短文本的语义向量之间的相似度最后根据每个第二短文本的语义向量与第一短文本的语义向量之间的相似度大小,对多个第二短文本进行排序,并推荐排序后的第二短文本。本方案通过从短文本的深层语义层面进行短文本召回和排序,能够更贴合用户的实际需求,有效提高推荐内容的点击率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的短文本的推荐方法实施例一的流程示意图;
图2为本发明实施例提供的短文本的推荐方法实施例二的流程示意图;
图3为本发明提供的一种BERT+CNN+FC结构示意图;
图4为本申请实施例提供的短文本的推荐装置实施例一的结构示意图;
图5为本申请实施例提供的短文本的推荐装置实施例二的结构示意图;
图6为本申请实施例提供的电子设备实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在根据本实施例的启示下作出的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
针对现有技术提供的两种实时短文本推荐方案,只进行召回,不对召回结果进行排序,结果比较粗放,位置靠前的几个推荐结果往往不是用户最感兴趣的,利用关键字权重进行重排序,没有从句子级别语义挖掘用户输入短文本与待搜索短文本之间的相似度关系,往往只是在某一个维度会有比较不错的排序效果,其他维度的排序效果一般,通过这种方式为用户推荐的短文本可能并不能很好的贴近用户的实际需求,导致用户对推荐的结果点击率不高。
针对上述存在的问题,本申请提供的一种短文本的推荐方法,利用预训练模型BERT,针对短文本领域的文本推荐进行排序优化,使推荐的文本内容从深层句子语义的层面进行排序匹配,更加的贴合用户的实际需求,提升用户点击率。下面通过几个具体实施方式对该方案进行说明。
图1是本发明实施例提供的短文本的推荐方法实施例一的流程示意图。如图1所示,该方案应用在服务器、云服务器等服务设备中,也可以应用在手机、电脑、搜索终端等电子设备中,对此本方案不做限制,本实施例提供的城市画像的构建方法,包括:
步骤S101:根据用户输入的第一短文本,采用ES方式获取多个第二短文本。
在本步骤中,用户在需要查询或者搜索相关内容时,可通过搜索引擎或者应用程序(application,APP)输入词语或者语句等内容,也就是上述的第一短文本。该方案中,用户可以在作为执行主体的设备上直接输入该第一短文本,也可以是通过安装在终端上的APP接收到用户在APP上输入的第一短文本,对此本方案不做限制。
在获取到用户输入的第一短文本之后,通过ES搜索服务器,对存储的所有的待搜索的短文本数据进行搜索,得到上述的多个第二短文本。在该搜索过程中,可以对第一短文本首先进行分词处理,然后根据分词结果中的关键词从存储的待搜索短文本中获取与该分词结果相似度从高到底的部分数量的短文本,也就是上述的多个第二短文本。
步骤S102:获取第一短文本的语义向量以及每个第二短文本的语义向量,并计算每个第二短文本的语义向量与第一短文本的语义向量之间的相似度。
在本步骤中,对于短文本来说,语义向量用于表示该短文本语义的特征向量,也就是说,语义向量是对于短文本的深层语义理解的结果。
通过上述步骤,搜索得到了多个第二短文本之后,需要对用户输入的第一短文本和每个第二短文本之间的相似度再次进行分析。首先需要获取第一短文本以及每个第二短文本的语义向量。具体的至少包括两种实现方式:
第一种,可以在需要的时候再利用模型进行处理得到。
本方案中可结合预训练模型BERT以及卷积神经网络(Convolutional NeuralNetwork,CNN)对短文本进行处理,然后再进行全连接处理之后,可得到短文本的语义向量。该方式中,可以将第一短文本以及每个第二短文本输入上述获取语义向量的模型中进行分析处理,得到各自对应的语义向量。
第二种,预先将待搜索的短文本进行处理得到语义向量进行存储,需要时进行查询即可。
该方案需要预先对待搜索的所有短文本进行处理,得到所有短文本的语义向量进行存储,即通过上述的获取语义向量的方式,将待搜索的每个短文本输入第一种方式中的获取语义向量的模型中进行分析处理,得到各自对应的语义向量。并对这些语义向量进行存储,并建立短文本与语义向量之间的对应关系,以便应用过程中进行查询。
对于用户输入的第一短文本,因为不能预先确定用户输入的具体内容,因此可以在获取到该第一短文本之后,再将该第一短文本输入第一种方式中的获取语义向量的模型中进行分析处理,得到对应的语义向量。
步骤S103:根据每个第二短文本的语义向量与第一短文本的语义向量之间的相似度大小,对多个第二短文本进行排序,并推荐排序后的第二短文本。
在本步骤中,在根据上述的方案得到第一短文本的语义向量以及每个第二短文本的语义向量之后,为了能够对于搜索得到的每个第二短文本的实质与第一短文本的相似程度,可根据每个第二短文本的语义向量以及第一短文本的语义向量进行计算,具体的可以将两个语义向量进行点乘,得到的计算结果作为相似度,也就是两个短文本的语义的相似度。
按照上述方式可计算出每个第二短文本与第一短文本的语义的相似度之后,将所有的第二短文本按照与第一短文本的语义的相似度从高到底进行排序,排序后推荐给用户。具体的推荐方式包括直接进行显示,或者返回给终端侧的APP进行显示等方式,对此不做限制。
可选的,在一种具体实现方式中,还应用理解,在按照语义的相似度对第二短文本进行排序之后,可以将该些第二短文本全部按照该顺序推荐给用户,也可以根据实际的业务需求,推荐相似度从高到底的一个或者多个第二短文本,本方案对此不做限制。
本实施例提供的短文本的推荐方法,将短文本数据通过预设模型转换成语义向量,然后对于搜索到的短文本以及用户输入的短文本,通过语义向量之间的计算,得到短文本之间语义之间的相似度,然后根据语义的相似度进行排序,并向用户进行短文本推荐,该推荐方式能够更好的贴合用户的实际需求,提升了召回效率以及用户的点击效率。
在上述实施例的基础上,下面通过具体实施方案对本发明提供的短文本的推荐方法进行说明。
图2为本发明实施例提供的短文本的推荐方法实施例二的流程示意图。如图2所示,本发明提供的短文本的推荐方法具体包括两个阶段,一个是预准备阶段(如图2所示虚线左侧),另一个是实际用户交互阶段(如图2所示虚线右侧)。
在预准备阶段主要需要完成以下两个过程:
1),BERT+CNN+FC分类模型构建并训练。
在该过程中,首先,需要构建神经网络结构,也就是需要构建BERT+CNN+FC结构,图3为本发明提供的一种BERT+CNN+FC结构示意图。如图3所示,该方案中将利用多分类语料,进行有监督训练;全连接层输出向量即为当前输入的短文本的语义向量。
该过程的具体局实现中,预训练模型,也就是BERT模型,是一种开源的预训练模型;利用transformer的架构,在大规模的无标注语料上,进行无监督学习预训练。BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation[即:文本的语义表示],然后将文本的语义表示在特定NLP任务中作微调,最终应用于该NLP任务。
BERT模型也要经过预训练。它的权重预先通过两个无监督任务学习到。这两个任务是:遮蔽语言模型(masked language model,MLM)和下句一句预测(next sentenceprediction)。在该BERT模型的应用中,对于每个新任务,BERT模型不需要从头开始训练。相反,只要在预训练的权重上进行微调(fine-tuning)就行。
其中,还应用到卷积神经网络(Convolutional Neural Network,CNN),是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,它包括卷积层(convolutional layer)和池化层(pooling layer)。
最后,则是全连接处理,具体的,全连接层(fully connected layers,FC)在整个卷积神经网络中起到“分类器”的作用。如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话,全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。在实际使用中,全连接层可由卷积操作实现:对前层是全连接的全连接层可以转化为卷积核为1x1的卷积;而前层是卷积层的全连接层可以转化为卷积核为hxw的全局卷积,h和w分别为前层卷积结果的高和宽。也就是说全连接的核心操作就是矩阵向量乘积。
在完成上述过程之后,还需要进行微调训练,在通过上述方式搭建网络结构之后,将短文本分类语料输入神经网络模型,进行训练;待模型训练拟合完毕,即可停止训练;模型训练完毕,搭建服务接口,可以从外部输入短文本,获取语义向量,即完成整个前期的模型训练和服务搭建过程,后续再获取短文本的语义向量时候,可以直接将短文本输入上述模型中,输出得到语义向量。
2),存储所有的待搜索的短文本的语义向量。
该方案主要是为了将待搜索的短文本根据上述得到的结构进行预先处理,得到每个待搜索的短文本的语义向量存储起来,在后续应用的过程中不需要再一个个进行处理,可以直接查找出来,提高找回效率,提高用户体验。
即根据BERT模型以及卷积神经网络CNN模型分别对待搜索的每个短文本进行处理,并对得到的结果进行全连接处理,得到每个待搜索短文本的语义向量,然后将每个待搜索短文本的语义向量存储在所述数据库中,并建立短文本和语义向量之间的对应关系。
在本过程中,将需要进行存储作为搜索库的所有待搜索的短文本(也称为短文本数据),依次输入1)过程中训练得到的模型,进一步处理得到语义向量。具体的运算过程中,针对每个短文本来说,均是依次进行了BERT模型以及CNN模型的处理,然后对处理结果进行全连接处理,才能得到其语义向量。
在得到每个待搜索的短文本的语义向量之后,可将获取到的所有语义向量存储到数据库中,具体可以存储在Redis中,并和对应的短文本建立映射关系,以便后续能够进行对应的查询。其中,Redis是一个高性能的key-value数据库,基于内存进行存储,处理速度快,响应时间短。
该过程中,主要是为了实现步骤S102中,获取每个第二短文本的语义向量时能够提高处理效率。因此步骤S102的具体实现为从预设的数据库中,根据短文本和语义向量之间的对应关系,获取每个第二短文本的语义向量,其中,所述数据库中存储有多个待搜索短文本的语义向量。由于用户输入的第一短文本的内容无法预知,因此对于用户输入的第一短文本的语义向量,则需要等获取到第一短文本之后,根据BERT模型以及卷积神经网络CNN模型分别对所述第一短文本进行处理,并对得到的结果进行全连接处理,得到所述第一短文本的语义向量。
在实际用户交互阶段主要需要完成以下几个过程:
1),用户输入短文本,利用ES对待检索文本数据,进行检索召回。
该过程也就是图1所示实施例中的S101,根据用户输入的第一短文本,采用分布式搜索ES方式获取多个第二短文本,在具体实现中可以包括以下步骤:对所述第一短文本进行分词处理,得到分词结果;然后根据所述分词结果在ES搜索服务器中进行匹配检索,根据文本相似度由高到低的顺序,获取所述多个第二短文本。
具体的,用户输入短文本(即上述第一短文本),利用ES进行文本数据检索召回,首先搭建ES搜索服务器,存储所有待搜索的短文本数据,并建立索引。根据用户输入的短文本分词结果,通过ES搜索服务器进行匹配检索,根据文本相似度由高到低召回部分数量的短文本,该数量可以根据实际情况进行设置,对此本发明不做限制。
2),相似度计算并排序,返回短文本。
该过程也就是相当于前述实施例中的S102和S103的过程,在S102中,根据BERT模型以及卷积神经网络CNN模型分别对所述第一短文本进行处理,并对得到的结果进行全连接处理,得到所述第一短文本的语义向量;从预设的数据库中,根据短文本和语义向量之间的对应关系,获取每个第二短文本的语义向量;其中,所述数据库中存储有多个待搜索短文本的语义向量。
然后在S103中,将每个第二短文本的语义向量与所述第一短文本的语义向量进行点乘计算,得到相似度,根据每个第二短文本的语义向量与所述第二短文本的语义向量之间的相似度由大到小进行排序,根据预设推荐文本数量,获取相似度从最大开始的所述推荐文本数量个第二短文本进行推荐。
具体的,对于召回的第二短文本,根据映射关系,从Redis数据库中取出对应的语义向量,记为Em,然而将用户输入的短文本,输入前述得到的模型进行处理,获取语义向量,记为Ei。根据数据矩阵点乘方法,Ei逐个和Em中的向量进行点乘,计算结果即为对应的两条短文本的语义相似度。然后将上述获取的相似度根据数值大小进行排序,数值越大,表示相似度越高,最后根据实际的业务需求,返回指定数量的排序靠前的召回短文本。也就是按照该方式向用户进行推荐。
本方提供的短文本的推荐方法,利用预训练模型BERT,针对短文本领域的文本推荐进行排序优化,使推荐的文本内容从深层句子语义的层面进行排序匹配,更加的贴合用户的实际需求,提升用户点击率。利用ES搜索+Redis存储,大大提高了语义向量之间的计算速度,使响应时间从百毫秒级别下降到个位数毫秒级别。
图4为本申请实施例提供的短文本的推荐装置实施例一的结构示意图,如图4所示,该短文本的推荐装置10包括:
搜索模块11,用于根据用户输入的第一短文本,采用分布式搜索ES方式获取多个第二短文本;
处理模块12,用于获取所述第一短文本的语义向量以及每个第二短文本的语义向量,并计算每个第二短文本的语义向量与所述第一短文本的语义向量之间的相似度;其中,短本文的语义向量用于表示所述短文本语义的特征向量;
所述处理模块12还用于根据每个第二短文本的语义向量与所述第一短文本的语义向量之间的相似度大小,对所述多个第二短文本进行排序,并推荐排序后的第二短文本。
本实施例提供的短文本的推荐装置,用于执行前述任一方法实施例提供的技术方案,其实现原理和技术效果类似,利用目前业内最先进的预训练模型BERT,针对短文本领域的文本推荐进行排序优化,使推荐的文本内容从深层句子语义的层面进行排序匹配,更加的贴合用户的实际需求,提升用户点击率。
在该短文本的推荐装置10的一种具体实施方式中,所述处理模块具体用于:
根据BERT模型以及卷积神经网络CNN模型分别对所述第一短文本进行处理,并对得到的结果进行全连接处理,得到所述第一短文本的语义向量;
从预设的数据库中,根据短文本和语义向量之间的对应关系,获取每个第二短文本的语义向量;其中,所述数据库中存储有多个待搜索短文本的语义向量。
图5为本申请实施例提供的短文本的推荐装置实施例二的结构示意图,如图5所示,该短文本的推荐装置10还包括:存储模块13。
所述处理模块12还用于:根据BERT模型以及卷积神经网络CNN模型分别对待搜索的每个短文本进行处理,并对得到的结果进行全连接处理,得到每个待搜索短文本的语义向量;
存储模块13,用于将每个待搜索短文本的语义向量存储在所述数据库中,并建立短文本和语义向量之间的对应关系。
在上述任一实施例的基础上,所述处理模块12还用于:
对所述第一短文本进行分词处理,得到分词结果;
根据所述分词结果在ES搜索服务器中进行匹配检索,根据文本相似度由高到低的顺序,获取所述多个第二短文本。
可选的,所述处理模块12具体用于:
将每个第二短文本的语义向量与所述第一短文本的语义向量进行点乘计算,得到相似度;
根据每个第二短文本的语义向量与所述第二短文本的语义向量之间的相似度由大到小进行排序;
根据预设推荐文本数量,获取相似度从最大开始的所述推荐文本数量个第二短文本进行推荐。
上述实施例提供的短文本的推荐装置,用于执行前述任一方法实施例提供的技术方案,其实现原理和技术效果类似,在此不再赘述。
图6为本申请实施例提供的电子设备实施例的结构示意图,如图6所示,该电子设备100,包括:
处理器111;以及,
存储器112,用于存储所述处理器111的可执行指令;
其中,所述处理器111配置为经由执行所述可执行指令来执行前述任一方法实施例提供的短文本的推荐方法。
可选地,存储器112既可以是独立的,也可以跟处理器111集成在一起。
当所述存储器112是独立于处理器111之外的器件时,所述电子设备还可以包括:总线,用于连接所述处理器以及所述存储器。
本申请还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一方法实施例提供的短文本的推荐方法。
本实施例还提供一种程序产品,该程序产品包括计算机程序,该计算机程序存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该计算机程序,至少一个处理器执行该计算机程序使得电子设备实施上述的各种实施方式提供的短文本的推荐方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (12)
1.一种短文本的推荐方法,其特征在于,所述方法包括:
根据用户输入的第一短文本,采用分布式搜索ES方式获取多个第二短文本;
获取所述第一短文本的语义向量以及每个第二短文本的语义向量,并计算每个第二短文本的语义向量与所述第一短文本的语义向量之间的相似度;其中,短本文的语义向量用于表示所述短文本语义的特征向量;
根据每个第二短文本的语义向量与所述第一短文本的语义向量之间的相似度大小,对所述多个第二短文本进行排序,并推荐排序后的第二短文本。
2.根据权利要求1所述的方法,其特征在于,所述获取所述第一短文本的语义向量以及每个第二短文本的语义向量,包括:
根据BERT模型以及卷积神经网络CNN模型分别对所述第一短文本进行处理,并对得到的结果进行全连接处理,得到所述第一短文本的语义向量;
从预设的数据库中,根据短文本和语义向量之间的对应关系,获取每个第二短文本的语义向量;其中,所述数据库中存储有多个待搜索短文本的语义向量。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据BERT模型以及卷积神经网络CNN模型分别对待搜索的每个短文本进行处理,并对得到的结果进行全连接处理,得到每个待搜索短文本的语义向量;
将每个待搜索短文本的语义向量存储在所述数据库中,并建立短文本和语义向量之间的对应关系。
4.根据权利要求1至3任一项所述的方法,其特征在于,根据用户输入的第一短文本,采用分布式搜索ES方式获取多个第二短文本,包括:
对所述第一短文本进行分词处理,得到分词结果;
根据所述分词结果在ES搜索服务器中进行匹配检索,根据文本相似度由高到低的顺序,获取所述多个第二短文本。
5.根据权利要求1至3任一项所述的方法,其特征在于,所述根据每个第二短文本的语义向量与所述第一短文本的语义向量之间的相似度大小,对所述多个第二短文本进行排序,并推荐排序后的第二短文本,包括:
将每个第二短文本的语义向量与所述第一短文本的语义向量进行点乘计算,得到相似度;
根据每个第二短文本的语义向量与所述第二短文本的语义向量之间的相似度由大到小进行排序;
根据预设推荐文本数量,获取相似度从最大开始的所述推荐文本数量个第二短文本进行推荐。
6.一种短文本的推荐装置,其特征在于,包括:
搜索模块,用于根据用户输入的第一短文本,采用分布式搜索ES方式获取多个第二短文本;
处理模块,用于获取所述第一短文本的语义向量以及每个第二短文本的语义向量,并计算每个第二短文本的语义向量与所述第一短文本的语义向量之间的相似度;其中,短本文的语义向量用于表示所述短文本语义的特征向量;
所述处理模块还用于根据每个第二短文本的语义向量与所述第一短文本的语义向量之间的相似度大小,对所述多个第二短文本进行排序,并推荐排序后的第二短文本。
7.根据权利要求6所述的装置,其特征在于,所述处理模块具体用于:
根据BERT模型以及卷积神经网络CNN模型分别对所述第一短文本进行处理,并对得到的结果进行全连接处理,得到所述第一短文本的语义向量;
从预设的数据库中,根据短文本和语义向量之间的对应关系,获取每个第二短文本的语义向量;其中,所述数据库中存储有多个待搜索短文本的语义向量。
8.根据权利要求7所述的装置,其特征在于,所述处理模块还用于:
根据BERT模型以及卷积神经网络CNN模型分别对待搜索的每个短文本进行处理,并对得到的结果进行全连接处理,得到每个待搜索短文本的语义向量;
所述装置还包括:存储模块,用于将每个待搜索短文本的语义向量存储在所述数据库中,并建立短文本和语义向量之间的对应关系。
9.根据权利要求6至8任一项所述的装置,其特征在于,所述处理模块还用于:
对所述第一短文本进行分词处理,得到分词结果;
根据所述分词结果在ES搜索服务器中进行匹配检索,根据文本相似度由高到低的顺序,获取所述多个第二短文本。
10.根据权利要求6至8任一项所述的装置,其特征在于,所述处理模块具体用于:
将每个第二短文本的语义向量与所述第一短文本的语义向量进行点乘计算,得到相似度;
根据每个第二短文本的语义向量与所述第二短文本的语义向量之间的相似度由大到小进行排序;
根据预设推荐文本数量,获取相似度从最大开始的所述推荐文本数量个第二短文本进行推荐。
11.一种电子设备,其特征在于,包括:
处理器;以及,
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至5任一项所述的短文本的推荐方法。
12.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至5任一项所述的短文本的推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911006125.4A CN110737839A (zh) | 2019-10-22 | 2019-10-22 | 短文本的推荐方法、装置、介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911006125.4A CN110737839A (zh) | 2019-10-22 | 2019-10-22 | 短文本的推荐方法、装置、介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110737839A true CN110737839A (zh) | 2020-01-31 |
Family
ID=69270778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911006125.4A Pending CN110737839A (zh) | 2019-10-22 | 2019-10-22 | 短文本的推荐方法、装置、介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110737839A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339240A (zh) * | 2020-02-10 | 2020-06-26 | 北京达佳互联信息技术有限公司 | 对象的推荐方法、装置、计算设备和存储介质 |
CN111460303A (zh) * | 2020-03-31 | 2020-07-28 | 拉扎斯网络科技(上海)有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
CN111506836A (zh) * | 2020-04-16 | 2020-08-07 | 广东南方新媒体科技有限公司 | 一种内容相似度排序算法 |
CN112214593A (zh) * | 2020-11-05 | 2021-01-12 | 腾讯科技(深圳)有限公司 | 问答处理方法、装置、电子设备及存储介质 |
CN112231485A (zh) * | 2020-12-14 | 2021-01-15 | 平安科技(深圳)有限公司 | 文本推荐方法、装置、计算机设备及存储介质 |
CN112632383A (zh) * | 2020-12-26 | 2021-04-09 | 中国农业银行股份有限公司 | 一种信息推荐方法及装置 |
CN112632283A (zh) * | 2020-12-30 | 2021-04-09 | 北京有竹居网络技术有限公司 | 模型生成方法、文本分类方法、装置、设备及介质 |
CN113407738A (zh) * | 2021-07-12 | 2021-09-17 | 网易(杭州)网络有限公司 | 一种相似文本检索方法、装置、电子设备和存储介质 |
CN113590963A (zh) * | 2021-08-04 | 2021-11-02 | 浙江新蓝网络传媒有限公司 | 均衡的文本推荐方法 |
CN113589957A (zh) * | 2021-07-30 | 2021-11-02 | 广州赛宸信息技术有限公司 | 一种快速输入法律法规专业词语的方法及系统 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095737A (zh) * | 2016-06-07 | 2016-11-09 | 杭州凡闻科技有限公司 | 文档相似度计算方法及相似文档全网检索跟踪方法 |
CN106682073A (zh) * | 2016-11-14 | 2017-05-17 | 上海轻维软件有限公司 | 基于ElasticSearch的HBase模糊检索系统 |
CN107562831A (zh) * | 2017-08-23 | 2018-01-09 | 中国软件与技术服务股份有限公司 | 一种基于全文检索的精确查找方法 |
CN107943762A (zh) * | 2017-11-24 | 2018-04-20 | 四川长虹电器股份有限公司 | 一种基于es搜索的文本相似度排序方法 |
US20180157664A1 (en) * | 2016-12-07 | 2018-06-07 | Under Armour, Inc. | System and Method for Associating User-Entered Text to Database Entries |
CN108345585A (zh) * | 2018-01-11 | 2018-07-31 | 浙江大学 | 一种基于深度学习的自动问答方法 |
CN108446367A (zh) * | 2018-03-15 | 2018-08-24 | 湖南工业大学 | 一种基于知识图谱的包装行业数据搜索方法及设备 |
CN108536869A (zh) * | 2018-04-25 | 2018-09-14 | 努比亚技术有限公司 | 一种搜索分词的方法、装置及计算机可读存储介质 |
CN108920576A (zh) * | 2018-06-25 | 2018-11-30 | 中科点击(北京)科技有限公司 | 一种自适应文本检索方法 |
CN108984627A (zh) * | 2018-06-20 | 2018-12-11 | 顺丰科技有限公司 | 基于Elasticsearch的加密文档的搜索方法、系统、设备和存储介质 |
CN109614453A (zh) * | 2018-12-14 | 2019-04-12 | 杭州法询信息科技有限公司 | 一种法规信息的数据存储、查询方法及装置 |
CN110162593A (zh) * | 2018-11-29 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种搜索结果处理、相似度模型训练方法及装置 |
CN110309503A (zh) * | 2019-05-21 | 2019-10-08 | 昆明理工大学 | 一种基于深度学习bert--cnn的主观题评分模型及评分方法 |
-
2019
- 2019-10-22 CN CN201911006125.4A patent/CN110737839A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095737A (zh) * | 2016-06-07 | 2016-11-09 | 杭州凡闻科技有限公司 | 文档相似度计算方法及相似文档全网检索跟踪方法 |
CN106682073A (zh) * | 2016-11-14 | 2017-05-17 | 上海轻维软件有限公司 | 基于ElasticSearch的HBase模糊检索系统 |
US20180157664A1 (en) * | 2016-12-07 | 2018-06-07 | Under Armour, Inc. | System and Method for Associating User-Entered Text to Database Entries |
CN107562831A (zh) * | 2017-08-23 | 2018-01-09 | 中国软件与技术服务股份有限公司 | 一种基于全文检索的精确查找方法 |
CN107943762A (zh) * | 2017-11-24 | 2018-04-20 | 四川长虹电器股份有限公司 | 一种基于es搜索的文本相似度排序方法 |
CN108345585A (zh) * | 2018-01-11 | 2018-07-31 | 浙江大学 | 一种基于深度学习的自动问答方法 |
CN108446367A (zh) * | 2018-03-15 | 2018-08-24 | 湖南工业大学 | 一种基于知识图谱的包装行业数据搜索方法及设备 |
CN108536869A (zh) * | 2018-04-25 | 2018-09-14 | 努比亚技术有限公司 | 一种搜索分词的方法、装置及计算机可读存储介质 |
CN108984627A (zh) * | 2018-06-20 | 2018-12-11 | 顺丰科技有限公司 | 基于Elasticsearch的加密文档的搜索方法、系统、设备和存储介质 |
CN108920576A (zh) * | 2018-06-25 | 2018-11-30 | 中科点击(北京)科技有限公司 | 一种自适应文本检索方法 |
CN110162593A (zh) * | 2018-11-29 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种搜索结果处理、相似度模型训练方法及装置 |
CN109614453A (zh) * | 2018-12-14 | 2019-04-12 | 杭州法询信息科技有限公司 | 一种法规信息的数据存储、查询方法及装置 |
CN110309503A (zh) * | 2019-05-21 | 2019-10-08 | 昆明理工大学 | 一种基于深度学习bert--cnn的主观题评分模型及评分方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339240A (zh) * | 2020-02-10 | 2020-06-26 | 北京达佳互联信息技术有限公司 | 对象的推荐方法、装置、计算设备和存储介质 |
CN111339240B (zh) * | 2020-02-10 | 2024-04-26 | 北京达佳互联信息技术有限公司 | 对象的推荐方法、装置、计算设备和存储介质 |
CN111460303B (zh) * | 2020-03-31 | 2023-07-04 | 拉扎斯网络科技(上海)有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
CN111460303A (zh) * | 2020-03-31 | 2020-07-28 | 拉扎斯网络科技(上海)有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
CN111506836A (zh) * | 2020-04-16 | 2020-08-07 | 广东南方新媒体科技有限公司 | 一种内容相似度排序算法 |
CN112214593A (zh) * | 2020-11-05 | 2021-01-12 | 腾讯科技(深圳)有限公司 | 问答处理方法、装置、电子设备及存储介质 |
CN112231485A (zh) * | 2020-12-14 | 2021-01-15 | 平安科技(深圳)有限公司 | 文本推荐方法、装置、计算机设备及存储介质 |
CN112231485B (zh) * | 2020-12-14 | 2021-03-26 | 平安科技(深圳)有限公司 | 文本推荐方法、装置、计算机设备及存储介质 |
CN112632383A (zh) * | 2020-12-26 | 2021-04-09 | 中国农业银行股份有限公司 | 一种信息推荐方法及装置 |
CN112632283A (zh) * | 2020-12-30 | 2021-04-09 | 北京有竹居网络技术有限公司 | 模型生成方法、文本分类方法、装置、设备及介质 |
CN113407738A (zh) * | 2021-07-12 | 2021-09-17 | 网易(杭州)网络有限公司 | 一种相似文本检索方法、装置、电子设备和存储介质 |
CN113589957A (zh) * | 2021-07-30 | 2021-11-02 | 广州赛宸信息技术有限公司 | 一种快速输入法律法规专业词语的方法及系统 |
CN113590963A (zh) * | 2021-08-04 | 2021-11-02 | 浙江新蓝网络传媒有限公司 | 均衡的文本推荐方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110737839A (zh) | 短文本的推荐方法、装置、介质及电子设备 | |
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN112632385B (zh) | 课程推荐方法、装置、计算机设备及介质 | |
US20210004402A1 (en) | Method for making music recommendations and related computing device, and medium thereof | |
Shi et al. | Functional and contextual attention-based LSTM for service recommendation in mashup creation | |
CN110222160A (zh) | 智能语义文档推荐方法、装置及计算机可读存储介质 | |
CN108932342A (zh) | 一种语义匹配的方法、模型的学习方法及服务器 | |
KR20200007969A (ko) | 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체 | |
CN110795527B (zh) | 候选实体排序方法、训练方法及相关装置 | |
CN110737756B (zh) | 确定针对用户输入数据的应答的方法、装置、设备和介质 | |
CN111475725B (zh) | 用于搜索内容的方法、装置、设备和计算机可读存储介质 | |
CN108875065B (zh) | 一种基于内容的印尼新闻网页推荐方法 | |
CN111832290A (zh) | 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质 | |
CN112925904B (zh) | 一种基于Tucker分解的轻量级文本分类方法 | |
Banik et al. | Gru based named entity recognition system for bangla online newspapers | |
CN115879508A (zh) | 一种数据处理方法及相关装置 | |
CN114722198A (zh) | 产品分类编码确定方法、系统及相关装置 | |
CN115066690A (zh) | 搜索归一化-激活层架构 | |
CN117076946A (zh) | 一种短文本相似度确定方法、装置及终端 | |
CN116910357A (zh) | 一种数据处理方法及相关装置 | |
CN117251619A (zh) | 一种数据处理方法及相关装置 | |
CN111563361A (zh) | 文本标签的提取方法及装置、存储介质 | |
CN114742062B (zh) | 文本关键词提取处理方法及系统 | |
Liao et al. | A vlHMM approach to context-aware search | |
CN115129863A (zh) | 意图识别方法、装置、设备、存储介质和计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200131 |
|
RJ01 | Rejection of invention patent application after publication |