CN110020181B - 一种推荐信息的处理方法、装置及计算机可读存储介质 - Google Patents

一种推荐信息的处理方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN110020181B
CN110020181B CN201810000845.9A CN201810000845A CN110020181B CN 110020181 B CN110020181 B CN 110020181B CN 201810000845 A CN201810000845 A CN 201810000845A CN 110020181 B CN110020181 B CN 110020181B
Authority
CN
China
Prior art keywords
knowledge point
service
service knowledge
business
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810000845.9A
Other languages
English (en)
Other versions
CN110020181A (zh
Inventor
段福高
冯俊兰
胡珉
王燕蒙
黄毅
范正洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN201810000845.9A priority Critical patent/CN110020181B/zh
Publication of CN110020181A publication Critical patent/CN110020181A/zh
Application granted granted Critical
Publication of CN110020181B publication Critical patent/CN110020181B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种推荐信息的处理方法、装置及计算机可读存储介质。其中,所述方法包括:利用查询请求,确定第一业务知识点;确定所述第一业务知识点的向量;利用所述第一业务知识点的向量及数据库中其它各业务知识点的向量,确定所述第一业务知识点与其它各业务知识点的相似度;所述业务知识点的向量是基于业务知识点在问题序列中的位置确定的;所述问题序列是利用日志数据生成的;所述问题序列具有时序性;利用确定的各相似度,从所述数据库中选择相应的第二业务知识点,作为所述查询请求对应的推荐信息。

Description

一种推荐信息的处理方法、装置及计算机可读存储介质
技术领域
本发明涉及信息推荐技术领域,尤其涉及一种推荐信息的处理方法、装置及计算机可读存储介质。
背景技术
推荐引擎可以分为基于大众行为的推荐引擎和个性化推荐引擎。其中,大众行为的推荐引擎,对每个用户都给出同样的推荐,这些推荐可以是静态的由系统管理员人工设定的,或者基于系统所有用户的反馈统计计算出的当下比较流行的物品。而个性化推荐引擎,对不同的用户,根据他们的口味和喜好给出更加精确的推荐。
从根本上说,只有个性化推荐引擎的处理过程才是更加智能的信息发现过程。目前个性化推荐引擎的实现技术其基本思想是从内容上寻找相似的推荐,也就是说,从内容的角度去寻找相似性,这就需要构建用户信息模型和物品的特征模型,方案不容易实现,而且还可能会出现推荐出现很大偏差的问题。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种推荐信的处理方法、装置及计算机可读存储介质。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种推荐信息的处理方法,包括:
利用查询请求,确定第一业务知识点;
确定所述第一业务知识点的向量;
利用所述第一业务知识点的向量及数据库中其它各业务知识点的向量,确定所述第一业务知识点与其它各业务知识点的相似度;所述业务知识点的向量是基于业务知识点在问题序列中的位置确定的;所述问题序列是利用日志数据生成的;所述问题序列具有时序性;
利用确定的各相似度,从所述数据库中选择相应的第二业务知识点,作为所述查询请求对应的推荐信息。
上述方案中,所述利用所述第一业务知识点的向量及数据库中其它各业务知识点的向量,确定所述第一业务知识点与其它各业务知识点的相似度,包括:
利用所述第一业务知识点的向量及数据库中其它各业务知识点的向量,确定所述第一业务知识点与其它各业务知识点之间的距离;
所述利用确定的各相似度,从所述数据库中选择相应的第二业务知识点,作为所述查询请求对应推荐信息,包括:
利用确定的所述第一业务知识点与其它各业务知识点之间的距离,从所述数据库中选择相应的第二业务知识点,作为所述查询请求对应推荐信息。
上述方案中,所述确定所述第一业务知识点与其它各业务知识点之间的距离,包括:
确定所述第一业务知识点与其它各业务知识点之间的欧式距离、余弦距离或者曼哈顿距离。
上述方案中,所述利用确定的所述第一业务知识点与其它各业务知识点之间的距离,从所述数据库中选择相应的第二业务知识点,包括:
从所述数据库中选择距离小于或等于预设距离阈值的业务知识点作为所述第二业务知识点。
上述方案中,所述利用查询请求,确定第一业务知识点,包括:
基于内容相似度策略,从所述数据库中选择与所述查询请求对应的第一业务知识点。
上述方案中,所述方法还包括:
针对每个用户的连续的多个问题,从所述日志数据中获取相应的业务知识点;
并根据业务知识点的回答时序,将获取的业务知识点形成问题序列;
利用各用户对应的问题序列,基于向量机算法,确定各业务知识点的向量。
本发明实施例还提供了一种推荐信息的处理装置,包括:
向量确定单元,用于利用查询请求,确定第一业务知识点;并确定所述第一业务知识点的向量;
相似度单元,用于利用所述第一业务知识点的向量及数据库中其它各业务知识点的向量,确定所述第一业务知识点与其它各业务知识点的相似度;所述业务知识点的向量是基于业务知识点在问题序列中的位置确定的;所述问题序列是利用日志数据生成的;所述问题序列具有时序性;
推荐单元,利用确定的各相似度,从所述数据库中选择相应的第二业务知识点,作为所述查询请求对应的推荐信息。
本发明实施例又提供了一种推荐信息的处理装置,包括:包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行:
利用查询请求,确定第一业务知识点;
确定所述第一业务知识点的向量;
利用所述第一业务知识点的向量及数据库中其它各业务知识点的向量,确定所述第一业务知识点与其它各业务知识点的相似度;所述业务知识点的向量是基于业务知识点在问题序列中的位置确定的;所述问题序列是利用日志数据生成的;所述问题序列具有时序性;
利用确定的各相似度,从所述数据库中选择相应的第二业务知识点,作为所述查询请求对应的推荐信息。
上述方案中,所述处理器用于运行所述计算机程序时,执行:
利用所述第一业务知识点的向量及数据库中其它各业务知识点的向量,确定所述第一业务知识点与其它各业务知识点之间的距离;
利用确定的所述第一业务知识点与其它各业务知识点之间的距离,从所述数据库中选择相应的第二业务知识点,作为所述查询请求对应推荐信息。
上述方案中,所述处理器用于运行所述计算机程序时,执行:
确定所述第一业务知识点与其它各业务知识点之间的欧式距离、余弦距离或者曼哈顿距离。
上述方案中,所述处理器用于运行所述计算机程序时,执行:
从所述数据库中选择距离小于或等于预设距离阈值的业务知识点作为所述第二业务知识点。
上述方案中,所述处理器用于运行所述计算机程序时,执行:
基于内容相似度策略,从所述数据库中选择与所述查询请求对应的第一业务知识点。
上述方案中,所述处理器还用于运行所述计算机程序时,执行:
针对每个用户的连续的多个问题,从所述日志数据中获取相应的业务知识点;
并根据业务知识点的回答时序,将获取的业务知识点形成问题序列;
利用各用户对应的问题序列,基于向量机算法,确定各业务知识点的向量。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法的步骤。
本发明实施例提供的推荐信的处理方法、装置及计算机可读存储介质,利用查询请求,确定第一业务知识点;确定所述第一业务知识点的向量;利用所述第一业务知识点的向量及数据库中其它各业务知识点的向量,确定所述第一业务知识点与其它各业务知识点的相似度;所述业务知识点的向量是基于业务知识点在问题序列中的位置确定的;所述问题序列是利用日志数据生成的;所述问题序列具有时序性;利用确定的各相似度,从所述数据库中选择相应的第二业务知识点,作为所述查询请求对应的推荐信息,根据业务知识点在问题序列中出现的位置来确定的业务知识点的向量来确定进行向量空间上的相似推荐,而问题序列是根据历史日志数据得到的,只需要获得日志数据即可执行本发明的方案,不需要构建用户信息模型和物品的特征模型,方案容易实施。而且,由于是在向量空间上进行相似推荐,不考虑业务知识点的内容,所以大大提高了推荐的准确性。
附图说明
在附图(其不一定是按比例绘制的)中,相似的附图标记可在不同的视图中描述相似的部件。附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例。
图1为本发明实施例推荐信息的处理方法流程示意图;
图2为本发明应用实施例搜索查询优化方法流程示意图;
图3为本发明实施例推荐信息的处理装置结构示意图;
图4为本发明实施例推荐信息的处理装置硬件结构示意图。
具体实施方式
下面结合附图及实施例对本发明再作进一步详细的描述。
目前相关技术中个性化推荐引擎的实现技术主要是分为两种:
(1)根据推荐引擎的数据源。
这种方式是发现数据的相关性,而根据不同的数据源发现数据相关性的方法可以分为以下几种:
根据系统用户的基本信息发现用户的相关程度,这种被称为基于人口统计学的推荐;
根据推荐物品或内容的元数据,发现物品或者内容的相关性,这种被称为基于内容的推荐;
根据用户对物品或者信息的偏好,发现物品或者内容本身的相关性,或者是发现用户的相关性,这种被称为基于协同过滤的推荐。
其中,基于人口统计学的推荐存在的主要问题是:一,基于用户的基本信息对用户进行分类的方法过于粗糙,尤其是对品味要求较高的领域,比如图书,电影和音乐等领域,无法得到很好的推荐效果。二,这种方法可能涉及到一些与信息发现问题本身无关却比较敏感的信息,比如用户的年龄等,这些用户信息不容易获取。
而基于内容的推荐存在的主要问题是:一,需要对物品进行分析和建模,推荐的质量依赖于对物品模型的完整和全面程度。在现在的应用中可以观察到关键词和标签(Tag)被认为是描述物品元数据的一种简单有效的方法。二,物品相似度的分析仅仅依赖于物品本身的特征,这里没有考虑人对物品的态度。三,为需要基于用户以往的喜好历史做出推荐,所以对于新用户有“冷启动”的问题。这里,所述冷启动是指:增加了一个新的用户,该用户之前没有任何行为日志记录。
基于协同过滤的推荐机制存在的主要问题是:其核心是基于历史数据,所以对新物品和新用户都有“冷启动”的问题。推荐的效果依赖于用户历史偏好数据的多少和准确性。在大部分的实现中,用户历史偏好是用稀疏矩阵进行存储的,而稀疏矩阵上的计算有些明显的问题,包括可能少部分人的错误偏好会对推荐的准确度有很大的影响等等。对于一些特殊品味的用户不能给予很好的推荐。由于以历史数据为基础,抓取和建模用户的偏好后,很难修改或者根据用户的使用演变,从而导致这个方法不够灵活。
(2)根据推荐模型的建立方式。
可以想象在海量物品和用户的系统中,推荐引擎的计算量是相当大的,要实现实时地推荐务必需要建立一个推荐模型,关于推荐模型的建立方式可以分为以下几种:
基于物品和用户本身的推荐,这种推荐引擎将每个用户和每个物品都当作独立的实体,预测每个用户对于每个物品的喜好程度,这些信息往往是用一个二维矩阵描述的。由于用户感兴趣的物品远远小于总物品的数目,这样的模型导致大量的数据空置,即得到的二维矩阵往往是一个很大的稀疏矩阵。同时为了减小计算量,可以对物品和用户进行聚类,然后记录和计算一类用户对一类物品的喜好程度,但这样的模型又会在推荐的准确性上有损失。
基于关联规则的推荐,关联规则的挖掘已经是数据挖掘中的一个经典的问题,主要是挖掘一些数据的依赖关系,典型的场景就是“购物篮问题”,通过关联规则的挖掘,可以找到哪些物品经常被同时购买,或者用户购买了一些物品后通常会购买哪些其他的物品,当挖掘出这些关联规则之后,就可以基于这些规则给用户进行推荐。
基于模型的推荐,这是一个典型的机器学习的问题,可以将已有的用户喜好信息作为训练样本,训练出一个预测用户喜好的模型,这样以后用户在进入系统,可以基于此模型计算推荐。这种方法的问题在于如何将用户实时或者近期的喜好信息反馈给训练好的模型,从而提高推荐的准确度。
实际应用时,其实在各种推荐系统中,很少有只使用了一个推荐策略的推荐引擎,一般都是在不同的场景下使用不同的推荐策略从而达到最好的推荐效果。
综上所述,目前个性化推荐引擎的实现技术主要是从内容的角度去寻找相似性,这就需要构建用户信息模型和物品的特征模型,然而构建模型的所需的信息是很难获取的,举个例子来说,由于通常记录的用户信息只有电话号码、地域信息,对于年龄、职业、住址等敏感信息是不能获取的,所以可以用来构建用户画像的信息是很难获取的。再比如,推荐给用户的业务问题,很难构建元数据,特别是同类业务之间的区分很难。另一方面,业务问题的数量和用户的数量相比,用户数要远超于业务问题数,所以构建的用户与业务矩阵只能是稀疏矩阵,推荐偏差会很大。
基于此,在本发明的各种实施例中:利用查询请求,确定第一业务知识点;确定所述第一业务知识点的向量;利用所述第一业务知识点的向量及数据库中其它各业务知识点的向量,确定所述第一业务知识点与其它各业务知识点的相似度;所述业务知识点的向量是基于业务知识点在问题序列中的位置确定的;所述问题序列是利用日志数据生成的;所述问题序列具有时序性;利用确定的各相似度,从所述数据库中选择相应的第二业务知识点,作为所述查询请求对应的推荐信息。
本发明实施例提供的方案,根据业务知识点在问题序列中出现的位置来确定的业务知识点的向量来确定进行向量空间上的相似推荐,而问题序列是根据历史日志数据得到的,只需要获得日志数据即可执行本发明的方案,不需要构建用户信息模型和物品的特征模型,方案容易实施。而且,由于是在向量空间上进行相似推荐,不考虑业务知识点的内容,所以大大提高了推荐的准确性。
本发明实施例提供的推荐信息的处理方法,如图1所示,应用于服务器,所述方法包括:
步骤101:利用查询请求,确定第一业务知识点;
这里,实际应用时,用户可以通过很多种方式比如电话或短信等方式发起查询请求。一般,查询请求中会携带查询关键词。
因此,在一实施例中,可以基于内容相似度策略,从数据库中选择与所述查询请求对应的第一业务知识点。
这里,内容相似度策略可以有很多种:比如,先确定查询请求携带的查询关键词的同义词,然后基于同义词在数据库中选择对应的第一业务知识点。再比如,预先建立查找模型,基于查询请求携带的查询关键词,利用查找模型,确定所述第一业务知识点。其中,查找模型可以是基于用户喜好确定的模型,也可以是基于关键词的相关性建立的模型等等,本发明实施例对此不作限定。
需要说明的是:内容相似度策略可以有很多中,只要是基于内容相似度来实现的策略均可以,本发明实施例对此不作限定。
实际应用时,可以根据需要来确定什么样的内容可以称为一个业务知识点,比如:38元套餐的介绍可以为一个业务知识点等。
实际应用时,可采用目前服务器上采用的内容相似度策略来确定第一业务知识点。
步骤102:确定所述第一业务知识点的向量;
这里,实际应用时,数据库中存储有各业务知识点的向量,可以从数据库中查找的方式得到所述第一业务知识点的向量。
其中,所述业务知识点的向量是基于业务知识点在问题序列中的位置确定的;所述问题序列是利用日志数据生成的;所述问题序列具有时序性。
换句话说,可以利用服务器的日志数据生成具有时序性的问题序列。这里,通常,当用户发起查询请求时,服务器会对查询请求所作出的具体处理记录在日志数据中,以便后续使用。
基于此,在一实施例中,所述方法还可以包括:
针对每个用户的连续的多个问题,从所述日志数据中获取相应的业务知识点;
并根据业务知识点的回答时序,将获取的业务知识点形成问题序列;
利用各用户对应的问题序列,基于向量机算法(比如支持向量机(SVM,SupportVector Machine)),确定各业务知识点的向量。
举个例子来说,在日志数据中,比如用户U1连续问了q1,q2,q3,……,服务器会给出相应的业务知识点a1,a2,a3……,即用户的问题与业务知识点是一一对应的,这些都会通过日志的方式记录下来。将这些数据预处理一下,即将用户一次连续的多个问题对应的业务知识点作为一个问题序列,每个业务知识点作为独立的单元不能再被分解,整合成平行空间模型能处理的数据,如下:
U1:[a1,a2,a3,……]
U2:[a1,a3,a5,……]
U3:[a1,a3,a6,……]
其中,U1,U2,U3表示不同的用户,[]中的内容是客户问题对应的业务知识点序列,当最终去掉用户列,则得到如下的数据:
[a1,a2,a3,……]
[a1,a3,a5,……]
[a1,a3,a6,……]
……
这些数据作为样本数据,基于向量机算法,来得到模型,即各业务知识点的向量,也就是说,这些数据就可以作为向量机算法模型的输入,假设平行空间模型维度设定为3维(当然该维度是可以自定义的,为了方计算方便,且考虑到推荐精度,维度可以在100-150维),进行训练,完成后得到下面的输出:
a1(0.3,-0.5,0.1)
a2(0.1,0.4,0.2)
a3(-0.3,0.7,0.8)
……
这样,就得到了每个业务知识点的向量了。
步骤103:利用所述第一业务知识点的向量及数据库中其它各业务知识点的向量,确定所述第一业务知识点与其它各业务知识点的相似度;
步骤104:利用确定的各相似度,从所述数据库中选择相应的第二业务知识点,作为所述查询请求对应的推荐信息。
这里,在步骤103中,可以利用所述第一业务知识点的向量及数据库中其它各业务知识点的向量,确定所述第一业务知识点与其它各业务知识点之间的距离;在步骤104中,利用确定的所述第一业务知识点与其它各业务知识点之间的距离,从所述数据库中选择相应的第二业务知识点,作为所述查询请求对应推荐信息。
其中,所述距离的表现形式可以为欧式距离、余弦距离或者曼哈顿距离等。
距离越小,业务知识点的相似度越高。
基于此,在一实施例中,选择第二业务知识点时,可以从所述数据库中选择距离小于或等于预设距离阈值的业务知识点作为所述第二业务知识点。
实际应用时,所述预设距离阈值可以根据需要来设置,设置时,以能够准确表达用户的查询意图为准则。
本发明实施例提供的方案,利用查询请求,确定第一业务知识点;确定所述第一业务知识点的向量;利用所述第一业务知识点的向量及数据库中其它各业务知识点的向量,确定所述第一业务知识点与其它各业务知识点的相似度;所述业务知识点的向量是基于业务知识点在问题序列中的位置确定的;所述问题序列是利用日志数据生成的;所述问题序列具有时序性;利用确定的各相似度,从所述数据库中选择相应的第二业务知识点,作为所述查询请求对应的推荐信息,根据业务知识点在问题序列中出现的位置来确定的业务知识点的向量来确定进行向量空间上的相似推荐,而问题序列是根据历史日志数据得到的,只需要获得日志数据即可执行本发明的方案,不需要构建用户信息模型和物品的特征模型,方案容易实施。而且,由于是在向量空间上进行相似推荐,不考虑业务知识点的内容,所以大大提高了推荐的准确性。
从上面的描述可以看出,实际应用时,本发明实施例提供的搜索查询优化方法,可以如图2所示,当用户提出一个问题(步骤201)后,首先通过现有的智能客服系统(服务器)的同义词模块确定问题的同义词(步骤202);然后由搜索模块给出一个可以与同义词相匹配的业务知识点a(步骤203);该业务知识点a作为输入,通过平行空间模块进行向量空间上的推荐,得到空间位置相似的业务知识点b(步骤204),最终可以推荐的业务知识点就是由b。其中,日志预处理模块对原始日志数据进行处理,得到问题序列集,发送给平行空间模块(步骤200)。
在上述过程中,日志预处理模块,负责将用户的连续的多个问题对应的业务知识点处理成问题序列,作为平行空间模块的输入;
同义词模块,负责找出用户问题中的业务关键词的同义词,作为用户搜索查询的扩展输入;
平行空间模块,负责以问题序列作为输入,通过模型训练,将业务知识点以向量的形式表示;当收到同义词模块的输入后,通过欧式距离或余弦距离等计算向量之间的相似度,进而给出业务知识点之间的相似度,完成推荐。
综上所述,本发明实施例的方案,不是从内容上去寻找相似推荐,而是根据用户已问的历史日志中业务知识点之间的位置信息来进行推荐。具体来说,通过日志文件,构建用户问题对应的业务知识点序列(这个序列称为问题序列),如[a1,a2,a3……]。业务知识点作为最小单元,不可再分解。业务知识点序列[a1,a2,a3……]作为平行空间模型(向量机模型)的输入,进而得到每个业务知识点的向量,如a1(0.3,-0.5,0.1,……),a2(0.1,0.4,0.2,……),a3(-0.3,0.7,0.8,……),这个向量值代表的就是位置信息,根据欧式距离或余弦距离等计算向量间的相似度,进而给出业务知识点之间的相似推荐。
本发明实施例提供的方案,由于不是从内容上去寻找相似推荐(可以称为内容相似推荐),所以无需构建复杂的用户信息模型和物品的特征模型。在本发明实施例中,从用户维度来讲,是将用户的历史连续问题作为一组序列,至于是谁问的以及用户有哪些喜好无需考虑。从物品维度来讲,是将每个业务知识点看作是最小单元(比如,“38元套餐介绍”就是最小单元),不再以词为最小单元(比如,“38元”、“套餐”、“介绍”)。
下面举例说明本发明实施例的方案与内容相似推荐方案的不同。
对于内容相似推荐方案,比如“38元套餐介绍”的推荐内容很可能是“58元套餐介绍”、“开通38元套餐介绍”,不管是计算词频还是词向量计算,都是将一句话进行分词,以词为最小单元来计算句子间的相似度,最终推荐的内容基本上是属于同类别的。
而在本申请中,是根据已有的历史日志数据,根据业务知识点在问题序列中出现的位置信息,不再考虑业务知识点的内容本身具体含义,而是根据出现的位置信息进行平行空间推荐。比如{"用户1":{"流量共享介绍":1,"办理流量转赠业务":1,"开通10元校园WLAN套餐":1}},比如{"用户2":{"流量共享介绍":1,"开通家庭流量共享":1,"开通10元校园WLAN套餐":1}},那么当用户问到“办理流量转赠业务”时,就会推荐“开通家庭流量共享”,在两个问题序列中,二者出现的位置信息是类似的,就可以认为二者是可以互换的。
为实现本发明实施例提供的方案,本发明实施例还提供了一种推荐信息的处理装置,如图3所示,所述装置包括:
向量确定单元31,用于利用查询请求,确定第一业务知识点;并确定所述第一业务知识点的向量;
相似度单元32,用于利用所述第一业务知识点的向量及数据库中其它各业务知识点的向量,确定所述第一业务知识点与其它各业务知识点的相似度;所述业务知识点的向量是基于业务知识点在问题序列中的位置确定的;所述问题序列是利用日志数据生成的;所述问题序列具有时序性;
推荐单元33,利用确定的各相似度,从所述数据库中选择相应的第二业务知识点,作为所述查询请求对应的推荐信息。
这里,实际应用时,用户可以通过很多种方式比如电话或短信等方式发起查询请求。一般,查询请求中会携带查询关键词。
因此,在一实施例中,向量确定单元31可以基于内容相似度策略,从数据库中选择与所述查询请求对应的第一业务知识点。
可以利用服务器的日志数据生成具有时序性的问题序列。这里,通常,当用户发起查询请求时,服务器会对查询请求所作出的具体处理记录在日志数据中,以便后续使用。
基于此,在一实施例中,所述装置还可以包括:
日志预处理单元,用于针对每个用户的连续的多个问题,从所述日志数据中获取相应的业务知识点;并根据业务知识点的回答时序,将获取的业务知识点形成问题序列;
向量处理单元,用于利用各用户对应的问题序列,基于向量机算法,确定各业务知识点的向量。
在一实施例中,相似度单元32可以利用所述第一业务知识点的向量及数据库中其它各业务知识点的向量,确定所述第一业务知识点与其它各业务知识点之间的距离;所述推荐单元33利用确定的所述第一业务知识点与其它各业务知识点之间的距离,从所述数据库中选择相应的第二业务知识点,作为所述查询请求对应推荐信息。
距离越小,业务知识点的相似度越高。
基于此,在一实施例中,选择第二业务知识点时,所述推荐单元33可以从所述数据库中选择距离小于或等于预设距离阈值的业务知识点作为所述第二业务知识点。
实际应用时,向量确定单元31、相似度单元32、推荐单元33、日志预处理单元及向量处理单元可由推荐信息的处理装置中的处理器实现。
需要说明的是:上述实施例提供的推荐信息的处理装置在进推荐信息的处理时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的搜推荐信息的处理装置与推荐信息的处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
基于上述程序模块的硬件实现,为实现本发明实施例的方法,本发明实施例还提供了一种推荐信息的处理装置,如图4所述,该装置40包括:处理器41和用于存储能够在处理器上运行的计算机程序的存储器42,
其中,所述处理器41用于运行所述计算机程序时,执行:
利用查询请求,确定第一业务知识点;
确定所述第一业务知识点的向量;
利用所述第一业务知识点的向量及数据库中其它各业务知识点的向量,确定所述第一业务知识点与其它各业务知识点的相似度;所述业务知识点的向量是基于业务知识点在问题序列中的位置确定的;所述问题序列是利用日志数据生成的;所述问题序列具有时序性;
利用确定的各相似度,从所述数据库中选择相应的第二业务知识点,作为所述查询请求对应的推荐信息。
在一实施例中,所述处理器41用于运行所述计算机程序时,执行:
利用所述第一业务知识点的向量及数据库中其它各业务知识点的向量,确定所述第一业务知识点与其它各业务知识点之间的距离;
利用确定的所述第一业务知识点与其它各业务知识点之间的距离,从所述数据库中选择相应的第二业务知识点,作为所述查询请求对应推荐信息。
在一实施例中,所述处理器41用于运行所述计算机程序时,执行:
确定所述第一业务知识点与其它各业务知识点之间的欧式距离、余弦距离或者曼哈顿距离。
在一实施例中,所述处理器41用于运行所述计算机程序时,执行:
从所述数据库中选择距离小于或等于预设距离阈值的业务知识点作为所述第二业务知识点。
在一实施例中,所述处理器41用于运行所述计算机程序时,执行:
基于内容相似度策略,从所述数据库中选择与所述查询请求对应的第一业务知识点。
在一实施例中,所述处理器41还用于运行所述计算机程序时,执行:
针对每个用户的连续的多个问题,从所述日志数据中获取相应的业务知识点;
并根据业务知识点的回答时序,将获取的业务知识点形成问题序列;
利用各用户对应的问题序列,基于向量机算法,确定各业务知识点的向量。
当然,实际应用时,所述装置40中的各个组件通过总线系统43耦合在一起。可理解,总线系统43用于实现这些组件之间的连接通信。总线系统43除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图4中将各种总线都标为总线系统43。
其中,所述处理器41的个数为至少一个。
本发明实施例中的存储器42用于存储各种类型的数据以支持所述装置40的操作。这些数据的示例包括:用于在所述装置40上操作的任何计算机程序。
上述本发明实施例揭示的方法可以应用于所述处理器41中,或者由所述处理器41实现。所述处理器41可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过所述处理器41中的硬件的集成逻辑电路或者软件形式的指令完成。上述的所述处理器41可以是通用处理器、数字信号处理器(DSP,Digital SignalProcessor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。所述处理器41可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器42,所述处理器41读取存储器42中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,装置40可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或者其他电子元件实现,用于执行前述方法。
可以理解,本发明实施例的存储器42可以是易失性存储器或者非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(FlashMemory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random AccessMemory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random AccessMemory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
在示例性实施例中,本发明实施例还提供了一种计算机可读存储介质,例如包括存储计算机程序的存储器42,上述计算机程序可由所述装置40的处理器41执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、FlashMemory、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备,如移动电话、计算机、平板设备、个人数字助理等。
需要说明的是:本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (14)

1.一种推荐信息的处理方法,其特征在于,所述方法包括:
利用查询请求,确定第一业务知识点;
确定所述第一业务知识点的向量;
利用所述第一业务知识点的向量及数据库中其它各业务知识点的向量,确定所述第一业务知识点与其它各业务知识点的相似度;所述业务知识点的向量是基于业务知识点在问题序列中的位置确定的;所述问题序列是利用日志数据生成的;所述问题序列具有时序性;
利用确定的各相似度,从所述数据库中选择相应的第二业务知识点,作为所述查询请求对应的推荐信息;
其中,将用户一次连续的多个问题对应的业务知识点作为一个问题序列,将问题序列整合成平面空间模型能处理的数据,将这些数据作为样本数据,基于向量机算法,进行模型训练,确定各业务知识点的向量;每个业务知识点作为独立的单元不能再被分解。
2.根据权利要求1所述的方法,其特征在于,所述利用所述第一业务知识点的向量及数据库中其它各业务知识点的向量,确定所述第一业务知识点与其它各业务知识点的相似度,包括:
利用所述第一业务知识点的向量及数据库中其它各业务知识点的向量,确定所述第一业务知识点与其它各业务知识点之间的距离;
所述利用确定的各相似度,从所述数据库中选择相应的第二业务知识点,作为所述查询请求对应推荐信息,包括:
利用确定的所述第一业务知识点与其它各业务知识点之间的距离,从所述数据库中选择相应的第二业务知识点,作为所述查询请求对应推荐信息。
3.根据权利要求2所述的方法,其特征在于,所述确定所述第一业务知识点与其它各业务知识点之间的距离,包括:
确定所述第一业务知识点与其它各业务知识点之间的欧式距离、余弦距离或者曼哈顿距离。
4.根据权利要求2所述的方法,其特征在于,所述利用确定的所述第一业务知识点与其它各业务知识点之间的距离,从所述数据库中选择相应的第二业务知识点,包括:
从所述数据库中选择距离小于或等于预设距离阈值的业务知识点作为所述第二业务知识点。
5.根据权利要求1所述的方法,其特征在于,所述利用查询请求,确定第一业务知识点,包括:
基于内容相似度策略,从所述数据库中选择与所述查询请求对应的第一业务知识点。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对每个用户的连续的多个问题,从所述日志数据中获取相应的业务知识点;
并根据业务知识点的回答时序,将获取的业务知识点形成问题序列。
7.一种推荐信息的处理装置,其特征在于,所述装置包括:
向量确定单元,用于利用查询请求,确定第一业务知识点;并确定所述第一业务知识点的向量;
相似度单元,用于利用所述第一业务知识点的向量及数据库中其它各业务知识点的向量,确定所述第一业务知识点与其它各业务知识点的相似度;所述业务知识点的向量是基于业务知识点在问题序列中的位置确定的;所述问题序列是利用日志数据生成的;所述问题序列具有时序性;
推荐单元,利用确定的各相似度,从所述数据库中选择相应的第二业务知识点,作为所述查询请求对应的推荐信息;
日志预处理单元,用于针对每个用户的连续的多个问题,从所述日志数据中获取相应的业务知识点;并根据业务知识点的回答时序,将获取的业务知识点形成问题序列;每个业务知识点作为独立的单元不能再被分解;
向量处理单元,用于利用各用户对应 的问题序列,基于向量机算法,确定各业务知识点的向量。
8.一种推荐信息的处理装置,其特征在于,所述装置包括:包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行:
利用查询请求,确定第一业务知识点;
确定所述第一业务知识点的向量;
利用所述第一业务知识点的向量及数据库中其它各业务知识点的向量,确定所述第一业务知识点与其它各业务知识点的相似度;所述业务知识点的向量是基于业务知识点在问题序列中的位置确定的;所述问题序列是利用日志数据生成的;所述问题序列具有时序性;
利用确定的各相似度,从所述数据库中选择相应的第二业务知识点,作为所述查询请求对应的推荐信息;
其中,所述处理器还用于运行所述计算机程序时,执行:
将用户一次连续的多个问题对应的业务知识点作为一个问题序列,将问题序列整合成平面空间模型能处理的数据,将这些数据作为样本数据,基于向量机算法,进行模型训练,确定各业务知识点的向量;每个业务知识点作为独立的单元不能再被分解。
9.根据权利要求8所述的装置,其特征在于,所述处理器用于运行所述计算机程序时,执行:
利用所述第一业务知识点的向量及数据库中其它各业务知识点的向量,确定所述第一业务知识点与其它各业务知识点之间的距离;
利用确定的所述第一业务知识点与其它各业务知识点之间的距离,从所述数据库中选择相应的第二业务知识点,作为所述查询请求对应推荐信息。
10.根据权利要求9所述的装置,其特征在于,所述处理器用于运行所述计算机程序时,执行:
确定所述第一业务知识点与其它各业务知识点之间的欧式距离、余弦距离或者曼哈顿距离。
11.根据权利要求9所述的装置,其特征在于,所述处理器用于运行所述计算机程序时,执行:
从所述数据库中选择距离小于或等于预设距离阈值的业务知识点作为所述第二业务知识点。
12.根据权利要求8所述的装置,其特征在于,所述处理器用于运行所述计算机程序时,执行:
基于内容相似度策略,从所述数据库中选择与所述查询请求对应的第一业务知识点。
13.根据权利要求8所述的装置,其特征在于,所述处理器还用于运行所述计算机程序时,执行:
针对每个用户的连续的多个问题,从所述日志数据中获取相应的业务知识点;
并根据业务知识点的回答时序,将获取的业务知识点形成问题序列。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
CN201810000845.9A 2018-01-02 2018-01-02 一种推荐信息的处理方法、装置及计算机可读存储介质 Active CN110020181B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810000845.9A CN110020181B (zh) 2018-01-02 2018-01-02 一种推荐信息的处理方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810000845.9A CN110020181B (zh) 2018-01-02 2018-01-02 一种推荐信息的处理方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110020181A CN110020181A (zh) 2019-07-16
CN110020181B true CN110020181B (zh) 2021-05-25

Family

ID=67187271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810000845.9A Active CN110020181B (zh) 2018-01-02 2018-01-02 一种推荐信息的处理方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110020181B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990689B (zh) * 2019-11-11 2023-04-18 辽宁师范大学 基于粗糙集规则提取的协同过滤推荐算法
CN113609278B (zh) * 2021-08-26 2024-02-20 中国银行股份有限公司 数据处理方法、装置、设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864846A (en) * 1996-06-28 1999-01-26 Siemens Corporate Research, Inc. Method for facilitating world wide web searches utilizing a document distribution fusion strategy
CN102637179A (zh) * 2011-02-14 2012-08-15 阿里巴巴集团控股有限公司 词项加权函数确定及基于该函数进行搜索的方法及装置
CN103049433A (zh) * 2012-12-11 2013-04-17 微梦创科网络科技(中国)有限公司 自动问答方法、自动问答系统及构建问答实例库的方法
CN105630917A (zh) * 2015-12-22 2016-06-01 成都小多科技有限公司 智能应答方法及装置
CN106682022A (zh) * 2015-11-10 2017-05-17 中国电信股份有限公司 一种日志查询方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864846A (en) * 1996-06-28 1999-01-26 Siemens Corporate Research, Inc. Method for facilitating world wide web searches utilizing a document distribution fusion strategy
CN102637179A (zh) * 2011-02-14 2012-08-15 阿里巴巴集团控股有限公司 词项加权函数确定及基于该函数进行搜索的方法及装置
CN103049433A (zh) * 2012-12-11 2013-04-17 微梦创科网络科技(中国)有限公司 自动问答方法、自动问答系统及构建问答实例库的方法
CN106682022A (zh) * 2015-11-10 2017-05-17 中国电信股份有限公司 一种日志查询方法和装置
CN105630917A (zh) * 2015-12-22 2016-06-01 成都小多科技有限公司 智能应答方法及装置

Also Published As

Publication number Publication date
CN110020181A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
Tan et al. Using rich social media information for music recommendation via hypergraph model
JP5736469B2 (ja) ユーザ意図の有無に基づく検索キーワードの推薦
US20150242750A1 (en) Asymmetric Rankers for Vector-Based Recommendation
US11188830B2 (en) Method and system for user profiling for content recommendation
US9563705B2 (en) Re-ranking results in a search
US20130311487A1 (en) Semantic search using a single-source semantic model
US9727906B1 (en) Generating item clusters based on aggregated search history data
US9747349B2 (en) System and method for distributing queries to a group of databases and expediting data access
CN106557480B (zh) 查询改写的实现方法及装置
US9268767B2 (en) Semantic-based search system and search method thereof
WO2013138516A1 (en) Publishing product information
US20100191758A1 (en) System and method for improved search relevance using proximity boosting
WO2018014109A1 (en) System and method for analyzing and searching for features associated with objects
US20180300296A1 (en) Document similarity analysis
Hornick et al. Extending recommender systems for disjoint user/item sets: The conference recommendation problem
Zhang et al. FeatureMF: an item feature enriched matrix factorization model for item recommendation
EP2126724A1 (en) Using scenario-related information to customize user experiences
CN110020181B (zh) 一种推荐信息的处理方法、装置及计算机可读存储介质
CN112559682A (zh) 基于GitHub软件仓库数据集的开源项目个性化检索推荐方法
CN106202440B (zh) 数据处理方法、装置及设备
CN117708270A (zh) 企业数据查询方法、装置、设备及存储介质
CN117421355A (zh) 一种搜索召回方法、装置及设备
CN111859042A (zh) 一种检索方法、装置及电子设备
JP7213890B2 (ja) 高速化された大規模な類似度計算
CN116975359A (zh) 资源处理方法、资源推荐方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant