CN111723273A - 一种智慧云检索系统及方法 - Google Patents
一种智慧云检索系统及方法 Download PDFInfo
- Publication number
- CN111723273A CN111723273A CN201910201835.6A CN201910201835A CN111723273A CN 111723273 A CN111723273 A CN 111723273A CN 201910201835 A CN201910201835 A CN 201910201835A CN 111723273 A CN111723273 A CN 111723273A
- Authority
- CN
- China
- Prior art keywords
- user
- data
- module
- content
- subsystem
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000003860 storage Methods 0.000 claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims abstract description 14
- 230000006399 behavior Effects 0.000 claims description 22
- 238000012163 sequencing technique Methods 0.000 claims description 16
- 238000001914 filtration Methods 0.000 claims description 13
- 238000011156 evaluation Methods 0.000 claims description 11
- 238000004140 cleaning Methods 0.000 claims description 9
- 238000013480 data collection Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000005065 mining Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013075 data extraction Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 238000003825 pressing Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 10
- 230000009471 action Effects 0.000 abstract description 6
- 230000008569 process Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种智慧云检索系统及方法,该系统包括:在线推荐子系统、特征库子系统、辅助数据子系统和存储子系统;所述在线推荐子系统包括网关和在线推荐模块;所述特征库子系统包括内容分析模块、用户分析模块、日志ETL模块;所述存储子系统包括用户特征模块、内容特种模块和用户内容关联模块,本发明以中间件的形式解决了现有搜索引擎无法解决的难点以及痛点,在通过算法分析以及大量的离线计算后为文本内容进行关键词标引,当用户信息收集后通过用户画像获取用户的特殊标签及属性,再通过用户的点击、购买、搜索等行为与资源进行标签互补,从而达到在使用过程中不断的优化搜索准确率以及推荐准确率。
Description
技术领域
本发明涉及信息检索技术领域,具体为一种智慧云检索系统及方法。
背景技术
随着出版社业务的发展,越来越多的移动端应用产生,如公众号、小程序、app等。伴随这更多的用户信息以及用户行为的收集,大量的数据如何安全存储,数据信息如何分析成为了新的难题,利用好这些信息可能会给企业带来更大的效益。
现阶段出版社所用的搜索引擎为常规测分词检索,只能根据有限的专业名词进行拆分,当出现专业名词以及特殊词语时无法进行识别从而导致用户检索的准确度下降;同时对文本资源的关键词提取有很大难度,无法通过最为主要的用户行为分析进行关键词的优化以及搜索结果的优化;在数据推荐功能上,现有功能是根据用户的购买量或点击量进行相关资源的推荐,此方案无法根据个人用户的实际喜好进行推荐商品,无法让用户快速找到自己喜爱的内容,从而降低了用户体验以及用户粘性。
基于以上几点,在随着大量数据的积累下,普通的数据库检索以及SQL算法已经不能满足计算速度的要求,需要通过大数据技术解决速度问题,从而更高效的利用现有资源。
发明内容
本发明的目的在于提供一种智慧云检索系统及方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种智慧云检索系统,包括在线推荐子系统、特征库子系统、辅助数据子系统和存储子系统,所述在线推荐子系统包括网关和在线推荐模块,所述网关和在线推荐模块由A/BTest模块、召回模块和排序过滤模块组成,所述A/B Test模块包括评测报告指标和评测维度,所述召回模块包括场景策略设置和召回数据,所述排序过滤模块包括过滤数据和排序数据,所述特征库子系统包括内容分析模块、用户分析模块、日志ETL模块,所述辅助数据子系统包括辅助数据模块,所述存储子系统包括用户特征模块、内容特征模块和用户内容关联模块。
一种智慧云检索系统的方法,包括如下步骤:步骤一,建设在线推荐子系统;步骤二,建设特征库子系统;步骤三,建设辅助数据子系统;步骤四,建设存储子系统;
其中在上述的步骤一中,根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品,流量由A/B Test模块,召回模块以及排序和过滤模块组成,用户打开App或者刷新内容页面,或者根据一定的推荐触发规则,如:定时或者内容产生的时候,请求发送到前端接入模块,接入模块根据abtest配置,选择是否走新的策略,然后通过召回模块,将所有相关的推荐数据全部取出,然后通过过滤,排序,终确定给用户展示的推荐内容列表;
其中在上述的步骤二中,首先进行数据收集,然后对收集的数据经过初筛,将初筛的原始数据存储,该系统优先选择HDFS,当原始数据存放在hdfs之后,再经过一定的数据清洗,该系统通过MapReduce进行清洗,然后将清洗完成之后的数据存入到hive,由于标签的可扩展性,该系统采用二维化结构的标签体系,将标签平铺于系统中,通过机器学习,建立标签的基本联系网络,之后贴合于用户与内容,接着建立用户特征户,用相关的标签体系来刻画用户的相关直接或者间接属性特征,从而进一步使得人群划分以及精准个性化推荐成为可能,再进行对象语义特征建设,通过基于内容对象的文本描述,介绍,甚至是内容详情,进行语义信息的提取,通过内容的语义提取获取内容对象的二维化结构标签,在大的层面上刻画内容的类型,在细节层面获取内容的关键性描述,从而使得内容的结构化存储,检索以及关联,成为可能,同时,通过行为关联,可以通过内容对象的语义标签挖掘出用户的兴趣偏好,构建出用户画像的重要维度;
其中在上述的步骤三中,通过人为参与,对内容对象、内容特征库、用户画像数据、索引库和辅助数据进行编辑,从而实现用户偏好、打压控制和全文检索等功能;
其中在上述的步骤四中,通过在Hadoop生态系统之上建立,然后规划合适的分布式存储系统,该系统主要使用HDFS分布式文件体系和HBase分布式NoSQL KV存储系统。
根据上述技术方案,所述评测维度分为:用户维度、物品维度和时间维度;所述评测报告指标包括点击率、留存、DAU(日活)/MAU(月活)和成交率。
根据上述技术方案,所述场景策略设置分为主题推荐数据、关键词推荐数据和热点数据推荐数据;所述召回数据包括基于用户兴趣画像标签数据、基于用户id获取数据、基于用户行为偏好标签数据和强运营数据。
根据上述技术方案,所述过滤数据包括用户已经产生过行为物品或者内容、用户明确不感兴趣的内容、控制打压数据和候选物品以外的物品;所述排序数据为基于LR、FM、GBDT以及DNN等多种算法开展的点击率、转化率和停留时长多指标的排序。
根据上述技术方案,所述步骤二中,数据收集包括前端采集和后端采集,且前端采集主要有三种方式:1)web日志;2)JS SDK;3)包嗅探器;所述后端采集可分为以下几类:1)业务日志;2)错误日志;3)摘要日志;4)统计日志。
根据上述技术方案,所述步骤二中,数据清洗包括检测并消除数据异常、检测并消除近似重复记录、数据的集成和特定领域的数据清洗。
根据上述技术方案,所述步骤二中,用户特征分为以下三大维度:1)用户基础属性;2)用户行为属性;3)用户兴趣属性。
根据上述技术方案,所述用户基础属性包括用户姓名、用户ID、性别、出生日期、联系方式、教育/专业信息、工作单位和社交账号;所述用户行为属性包括浏览、检索、收藏关注度、购买、评论、答题详细记录、登录时间、登录系统、登录IP、用户浏览器信息和用户操作系统信息;所述用户兴趣属性包括用户在内容对象基本属性上在偏好、用户在内容对象行为属性上的偏好、用户在内容对象语义标签属性上的偏好和权重设计与优化概述。
根据上述技术方案,所述步骤二中,内容语义挖掘的目标有内容挖掘、文本数据提取、分词、关键词提取、类型标签构建、词向量和标签与关键词扩展。
与现有技术相比,本发明的有益效果是:该系统以中间件的形式解决了现有搜索引擎无法解决的难点以及痛点,在通过算法分析以及大量的离线计算后为文本内容进行关键词标引,当用户信息收集后通过用户画像获取用户的特殊标签及属性,再通过用户的点击、购买、搜索等行为与资源进行标签互补,从而达到在使用过程中不断的优化搜索准确率以及推荐准确率,具体效果如下:
1.计算速度及数据采集:在数据库的数据量上升到一定量级后,正常的连接查询或多表查询会直接影响查询速度,优化难度很大。另外常规的用户数据收集会通过埋点的形式保存到数据库中,此做法在高并发的情况下会降低响应速度,因为有大量的数据库连接会用于记录用户数据;本专利中针对大量的用户数据以日志的形式进行记录,不通过数据库进行存储,同时通过分析URI地址进行快速处理,减少页面埋点,提升并发响应速度;当大量的数据收集后,采用在线计算+离线计算方式分析用户信息、资源文本信息,减少服务器压力及数据库压力,有效提升计算速度;
2.搜索准确度:普通的检索通过SQL查询,以字段匹配的方式进行检索推荐,或通过全文检索进行分词检索,并通过词频(搜索词所出现的次数)干预结果排序。此方法无法与用户属性关联,会导致所有用户通过搜索词检索到的内容是相同的,并且在一些专业内容中无法仅根据词频判断内容的相关性;中软启信搜索引擎融入了大数据算法以及推荐系统,先在基础语料库上进行算法分析,给各类内容进行关键词标引,当用户检索时,先根据搜索的关键词与算法提取出的关键词进行匹配,再通过用户的行为属性与资源进行关联分析后进行整体排序,达到不同的用户检索同一关键词后所呈现的结果以及排序也不同;
3.相关内容推荐:在现有的业务系统中,相关资源推荐功能是用户最常看到的功能模块,但是目前推荐逻辑过于简单,基本上会根据资源的点击量、购买量、下载量进行推荐,会导致一些专业资源一直处于推荐排行中,单该资源并不是平台中所有用户所关注的资源,也会在恶意刷数据的情况下误导用户,不便于用户快速定位资源。
附图说明
图1是本发明的整体架构图;
图2是本发明的推荐系统架构图;
图3是本发明的召回流程图;
图4是本发明的数据收集架构图;
图5是本发明的数据清洗流程图;
图6是本发明的文本内容语义标签架构图;
图7是本发明的方法流程图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-6,本发明提供一种智慧云检索系统,包括在线推荐子系统、特征库子系统、辅助数据子系统和存储子系统,在线推荐子系统包括网关和在线推荐模块,网关和在线推荐模块由A/B Test模块、召回模块和排序过滤模块组成,A/B Test模块包括评测报告指标和评测维度,召回模块包括场景策略设置和召回数据,排序过滤模块包括过滤数据和排序数据,特征库子系统包括内容分析模块、用户分析模块、日志ETL模块,辅助数据子系统包括辅助数据模块,存储子系统包括用户特征模块、内容特征模块和用户内容关联模块。
请参阅图7,一种智慧云检索系统的方法,包括如下步骤:步骤一,建设在线推荐子系统;步骤二,建设特征库子系统;步骤三,建设辅助数据子系统;步骤四,建设存储子系统;
其中在上述的步骤一中,根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品,流量由A/B Test模块,召回模块以及排序和过滤模块组成,用户打开App或者刷新内容页面,或者根据一定的推荐触发规则,如:定时或者内容产生的时候,请求发送到前端接入模块,接入模块根据abtest配置,选择是否走新的策略,然后通过召回模块,将所有相关的推荐数据全部取出,然后通过过滤,排序,终确定给用户展示的推荐内容列表;
其中在上述的步骤二中,首先进行数据收集,然后对收集的数据经过初筛,将初筛的原始数据存储,该系统优先选择HDFS,当原始数据存放在hdfs之后,再经过一定的数据清洗,该系统通过MapReduce进行清洗,然后将清洗完成之后的数据存入到hive,由于标签的可扩展性,该系统采用二维化结构的标签体系,将标签平铺于系统中,通过机器学习,建立标签的基本联系网络,之后贴合于用户与内容,接着建立用户特征户,用相关的标签体系来刻画用户的相关直接或者间接属性特征,从而进一步使得人群划分以及精准个性化推荐成为可能,再进行对象语义特征建设,通过基于内容对象的文本描述,介绍,甚至是内容详情,进行语义信息的提取,通过内容的语义提取获取内容对象的二维化结构标签,在大的层面上刻画内容的类型,在细节层面获取内容的关键性描述,从而使得内容的结构化存储,检索以及关联,成为可能,同时,通过行为关联,可以通过内容对象的语义标签挖掘出用户的兴趣偏好,构建出用户画像的重要维度;
其中在上述的步骤三中,通过人为参与,对内容对象、内容特征库、用户画像数据、索引库和辅助数据进行编辑,从而实现用户偏好、打压控制和全文检索等功能;
其中在上述的步骤四中,通过在Hadoop生态系统之上建立,然后规划合适的分布式存储系统,该系统主要使用HDFS分布式文件体系和HBase分布式NoSQL KV存储系统。
根据上述技术方案,评测维度分为:用户维度、物品维度和时间维度;评测报告指标包括点击率、留存、DAU(日活)/MAU(月活)和成交率。
根据上述技术方案,场景策略设置分为主题推荐数据、关键词推荐数据和热点数据推荐数据;召回数据包括基于用户兴趣画像标签数据、基于用户id获取数据、基于用户行为偏好标签数据和强运营数据。
根据上述技术方案,过滤数据包括用户已经产生过行为物品或者内容、用户明确不感兴趣的内容、控制打压数据和候选物品以外的物品;排序数据为基于LR、FM、GBDT以及DNN等多种算法开展的点击率、转化率和停留时长多指标的排序。
根据上述技术方案,步骤二中,数据收集包括前端采集和后端采集,且前端采集主要有三种方式:1)web日志;2)JS SDK;3)包嗅探器;后端采集可分为以下几类:1)业务日志;2)错误日志;3)摘要日志;4)统计日志。
根据上述技术方案,步骤二中,数据清洗包括检测并消除数据异常、检测并消除近似重复记录、数据的集成和特定领域的数据清洗。
根据上述技术方案,步骤二中,用户特征分为以下三大维度:1)用户基础属性;2)用户行为属性;3)用户兴趣属性。
根据上述技术方案,用户基础属性包括用户姓名、用户ID、性别、出生日期、联系方式、教育/专业信息、工作单位和社交账号;用户行为属性包括浏览、检索、收藏关注度、购买、评论、答题详细记录、登录时间、登录系统、登录IP、用户浏览器信息和用户操作系统信息;用户兴趣属性包括用户在内容对象基本属性上在偏好、用户在内容对象行为属性上的偏好、用户在内容对象语义标签属性上的偏好和权重设计与优化概述。
根据上述技术方案,步骤二中,内容语义挖掘的目标有内容挖掘、文本数据提取、分词、关键词提取、类型标签构建、词向量和标签与关键词扩展。
基于上述,本发明的优点在于,本发明以中间件的形式解决了现有搜索引擎无法解决的难点以及痛点,在通过算法分析以及大量的离线计算后为文本内容进行关键词标引,当用户信息收集后通过用户画像获取用户的特殊标签及属性,再通过用户的点击、购买、搜索等行为与资源进行标签互补,从而达到在使用过程中不断的优化搜索准确率以及推荐准确率,具体效果如下:1.计算速度及数据采集:在数据库的数据量上升到一定量级后,正常的连接查询或多表查询会直接影响查询速度,优化难度很大。另外常规的用户数据收集会通过埋点的形式保存到数据库中,此做法在高并发的情况下会降低响应速度,因为有大量的数据库连接会用于记录用户数据;本专利中针对大量的用户数据以日志的形式进行记录,不通过数据库进行存储,同时通过分析URI地址进行快速处理,减少页面埋点,提升并发响应速度;当大量的数据收集后,采用在线计算+离线计算方式分析用户信息、资源文本信息,减少服务器压力及数据库压力,有效提升计算速度;2.搜索准确度:普通的检索通过SQL查询,以字段匹配的方式进行检索推荐,或通过全文检索进行分词检索,并通过词频(搜索词所出现的次数)干预结果排序。此方法无法与用户属性关联,会导致所有用户通过搜索词检索到的内容是相同的,并且在一些专业内容中无法仅根据词频判断内容的相关性;中软启信搜索引擎融入了大数据算法以及推荐系统,先在基础语料库上进行算法分析,给各类内容进行关键词标引,当用户检索时,先根据搜索的关键词与算法提取出的关键词进行匹配,再通过用户的行为属性与资源进行关联分析后进行整体排序,达到不同的用户检索同一关键词后所呈现的结果以及排序也不同;3.相关内容推荐:在现有的业务系统中,相关资源推荐功能是用户最常看到的功能模块,但是目前推荐逻辑过于简单,基本上会根据资源的点击量、购买量、下载量进行推荐,会导致一些专业资源一直处于推荐排行中,单该资源并不是平台中所有用户所关注的资源,也会在恶意刷数据的情况下误导用户,不便于用户快速定位资源。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种智慧云检索系统,包括在线推荐子系统、特征库子系统、辅助数据子系统和存储子系统,其特征在于:所述在线推荐子系统包括网关和在线推荐模块,所述网关和在线推荐模块由A/B Test模块、召回模块和排序过滤模块组成,所述A/B Test模块包括评测报告指标和评测维度,所述召回模块包括场景策略设置和召回数据,所述排序过滤模块包括过滤数据和排序数据,所述特征库子系统包括内容分析模块、用户分析模块、日志ETL模块,所述辅助数据子系统包括辅助数据模块,所述存储子系统包括用户特征模块、内容特征模块和用户内容关联模块。
2.一种智慧云检索系统的方法,包括如下步骤:步骤一,建设在线推荐子系统;步骤二,建设特征库子系统;步骤三,建设辅助数据子系统;步骤四,建设存储子系统;其特征在于:
其中在上述的步骤一中,根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品,流量由A/B Test模块,召回模块以及排序和过滤模块组成,用户打开App或者刷新内容页面,或者根据一定的推荐触发规则,如:定时或者内容产生的时候,请求发送到前端接入模块,接入模块根据abtest配置,选择是否走新的策略,然后通过召回模块,将所有相关的推荐数据全部取出,然后通过过滤,排序,终确定给用户展示的推荐内容列表;
其中在上述的步骤二中,首先进行数据收集,然后对收集的数据经过初筛,将初筛的原始数据存储,该系统优先选择HDFS,当原始数据存放在hdfs之后,再经过一定的数据清洗,该系统通过MapReduce进行清洗,然后将清洗完成之后的数据存入到hive,由于标签的可扩展性,该系统采用二维化结构的标签体系,将标签平铺于系统中,通过机器学习,建立标签的基本联系网络,之后贴合于用户与内容,接着建立用户特征户,用相关的标签体系来刻画用户的相关直接或者间接属性特征,从而进一步使得人群划分以及精准个性化推荐成为可能,再进行对象语义特征建设,通过基于内容对象的文本描述,介绍,甚至是内容详情,进行语义信息的提取,通过内容的语义提取获取内容对象的二维化结构标签,在大的层面上刻画内容的类型,在细节层面获取内容的关键性描述,从而使得内容的结构化存储,检索以及关联,成为可能,同时,通过行为关联,可以通过内容对象的语义标签挖掘出用户的兴趣偏好,构建出用户画像的重要维度;
其中在上述的步骤三中,通过人为参与,对内容对象、内容特征库、用户画像数据、索引库和辅助数据进行编辑,从而实现用户偏好、打压控制和全文检索等功能;
其中在上述的步骤四中,通过在Hadoop生态系统之上建立,然后规划合适的分布式存储系统,该系统主要使用HDFS分布式文件体系和HBase分布式NoSQL KV存储系统。
3.根据权利要求1的一种智慧云检索系统,其特征在于:所述评测维度分为:用户维度、物品维度和时间维度;所述评测报告指标包括点击率、留存、DAU(日活)/MAU(月活)和成交率。
4.根据权利要求1的一种智慧云检索系统,其特征在于:所述场景策略设置分为主题推荐数据、关键词推荐数据和热点数据推荐数据;所述召回数据包括基于用户兴趣画像标签数据、基于用户id获取数据、基于用户行为偏好标签数据和强运营数据。
5.根据权利要求1的一种智慧云检索系统,其特征在于:所述过滤数据包括用户已经产生过行为物品或者内容、用户明确不感兴趣的内容、控制打压数据和候选物品以外的物品;所述排序数据为基于LR、FM、GBDT以及DNN等多种算法开展的点击率、转化率和停留时长多指标的排序。
6.根据权利要求2的一种智慧云检索系统的方法,其特征在于:所述步骤二中,数据收集包括前端采集和后端采集,且前端采集主要有三种方式:1)web日志;2)JS SDK;3)包嗅探器;所述后端采集可分为以下几类:1)业务日志;2)错误日志;3)摘要日志;4)统计日志。
7.根据权利要求2的一种智慧云检索系统的方法,其特征在于:所述步骤二中,数据清洗包括检测并消除数据异常、检测并消除近似重复记录、数据的集成和特定领域的数据清洗。
8.根据权利要求2的一种智慧云检索系统的方法,其特征在于:所述步骤二中,用户特征分为以下三大维度:1)用户基础属性;2)用户行为属性;3)用户兴趣属性。
9.根据权利要求8的一种智慧云检索系统的方法,其特征在于:所述用户基础属性包括用户姓名、用户ID、性别、出生日期、联系方式、教育/专业信息、工作单位和社交账号;所述用户行为属性包括浏览、检索、收藏关注度、购买、评论、答题详细记录、登录时间、登录系统、登录IP、用户浏览器信息和用户操作系统信息;所述用户兴趣属性包括用户在内容对象基本属性上在偏好、用户在内容对象行为属性上的偏好、用户在内容对象语义标签属性上的偏好和权重设计与优化概述。
10.根据权利要求2的一种智慧云检索系统的方法,其特征在于:所述步骤二中,内容语义挖掘的目标有内容挖掘、文本数据提取、分词、关键词提取、类型标签构建、词向量和标签与关键词扩展。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910201835.6A CN111723273A (zh) | 2019-03-18 | 2019-03-18 | 一种智慧云检索系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910201835.6A CN111723273A (zh) | 2019-03-18 | 2019-03-18 | 一种智慧云检索系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111723273A true CN111723273A (zh) | 2020-09-29 |
Family
ID=72562096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910201835.6A Pending CN111723273A (zh) | 2019-03-18 | 2019-03-18 | 一种智慧云检索系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111723273A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112269913A (zh) * | 2020-10-28 | 2021-01-26 | 福建正孚软件有限公司 | 一种企业级全量数据智能搜索实现方法及系统 |
CN114564522A (zh) * | 2022-03-08 | 2022-05-31 | 哈尔滨腾达网络科技发展有限公司 | 基于区块链和大数据挖掘的智能推送处理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886487A (zh) * | 2014-03-28 | 2014-06-25 | 焦点科技股份有限公司 | 基于分布式的b2b平台的个性化推荐方法与系统 |
CN106327227A (zh) * | 2015-06-19 | 2017-01-11 | 北京航天在线网络科技有限公司 | 一种信息推荐系统及信息推荐方法 |
CN106651424A (zh) * | 2016-09-28 | 2017-05-10 | 国网山东省电力公司电力科学研究院 | 基于大数据技术的电力用户画像建立与分析方法 |
CN107526754A (zh) * | 2016-09-26 | 2017-12-29 | 广州速鸿信息科技有限公司 | 一种基于大数据的用户画像平台建立方法 |
-
2019
- 2019-03-18 CN CN201910201835.6A patent/CN111723273A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886487A (zh) * | 2014-03-28 | 2014-06-25 | 焦点科技股份有限公司 | 基于分布式的b2b平台的个性化推荐方法与系统 |
CN106327227A (zh) * | 2015-06-19 | 2017-01-11 | 北京航天在线网络科技有限公司 | 一种信息推荐系统及信息推荐方法 |
CN107526754A (zh) * | 2016-09-26 | 2017-12-29 | 广州速鸿信息科技有限公司 | 一种基于大数据的用户画像平台建立方法 |
CN106651424A (zh) * | 2016-09-28 | 2017-05-10 | 国网山东省电力公司电力科学研究院 | 基于大数据技术的电力用户画像建立与分析方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112269913A (zh) * | 2020-10-28 | 2021-01-26 | 福建正孚软件有限公司 | 一种企业级全量数据智能搜索实现方法及系统 |
CN114564522A (zh) * | 2022-03-08 | 2022-05-31 | 哈尔滨腾达网络科技发展有限公司 | 基于区块链和大数据挖掘的智能推送处理方法及系统 |
CN114564522B (zh) * | 2022-03-08 | 2022-11-15 | 山邮数字科技(山东)有限公司 | 基于区块链和大数据挖掘的智能推送处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019214245A1 (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
CN107844565B (zh) | 商品搜索方法和装置 | |
Deng et al. | Exploring user emotion in microblogs for music recommendation | |
CN104899273B (zh) | 一种基于话题和相对熵的网页个性化推荐方法 | |
CN108304444B (zh) | 信息查询方法及装置 | |
CN106383887B (zh) | 一种环保新闻数据采集和推荐展示的方法及系统 | |
CN111008321B (zh) | 基于逻辑回归推荐方法、装置、计算设备、可读存储介质 | |
CN111708740A (zh) | 基于云平台的海量搜索查询日志计算分析系统 | |
CN110162695A (zh) | 一种信息推送的方法及设备 | |
CN104462336A (zh) | 信息推送方法和装置 | |
CN105677780A (zh) | 可拓展的用户意图挖掘方法及其系统 | |
US9971828B2 (en) | Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries | |
CN111061954B (zh) | 搜索结果排序方法、装置及存储介质 | |
CN111191133B (zh) | 业务搜索处理方法、装置及设备 | |
CN103309869A (zh) | 数据对象的展示关键词推荐方法及系统 | |
Dias et al. | Automating the extraction of static content and dynamic behaviour from e-commerce websites | |
CN106649498A (zh) | 一种基于爬虫和文本聚类分析的网络舆情分析系统 | |
CN115408618B (zh) | 一种基于社交关系融合位置动态流行度和地理特征的兴趣点推荐方法 | |
CN103412903A (zh) | 基于兴趣对象预测的物联网实时搜索方法及系统 | |
Rao et al. | A machine learning approach to classify news articles based on location | |
CN111723273A (zh) | 一种智慧云检索系统及方法 | |
CN104484367A (zh) | 一种数据挖掘分析系统 | |
CN114297505A (zh) | 推荐系统及推荐方法、设备、计算机可读介质 | |
KR101621735B1 (ko) | 추천 검색어 제공 방법 및 시스템 | |
CN107291951B (zh) | 数据处理方法、装置、存储介质和处理器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200929 |