CN111723273A

CN111723273A - 一种智慧云检索系统及方法

Info

Publication number: CN111723273A
Application number: CN201910201835.6A
Authority: CN
Inventors: 云卫
Original assignee: Beijing Zhongdian Xiangyun Information Technology Co ltd
Current assignee: Beijing Zhongdian Xiangyun Information Technology Co ltd
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2020-09-29

Abstract

本发明公开了一种智慧云检索系统及方法，该系统包括：在线推荐子系统、特征库子系统、辅助数据子系统和存储子系统；所述在线推荐子系统包括网关和在线推荐模块；所述特征库子系统包括内容分析模块、用户分析模块、日志ETL模块；所述存储子系统包括用户特征模块、内容特种模块和用户内容关联模块，本发明以中间件的形式解决了现有搜索引擎无法解决的难点以及痛点，在通过算法分析以及大量的离线计算后为文本内容进行关键词标引，当用户信息收集后通过用户画像获取用户的特殊标签及属性，再通过用户的点击、购买、搜索等行为与资源进行标签互补，从而达到在使用过程中不断的优化搜索准确率以及推荐准确率。

Description

一种智慧云检索系统及方法

技术领域

本发明涉及信息检索技术领域，具体为一种智慧云检索系统及方法。

背景技术

随着出版社业务的发展，越来越多的移动端应用产生，如公众号、小程序、app等。伴随这更多的用户信息以及用户行为的收集，大量的数据如何安全存储，数据信息如何分析成为了新的难题，利用好这些信息可能会给企业带来更大的效益。

现阶段出版社所用的搜索引擎为常规测分词检索，只能根据有限的专业名词进行拆分，当出现专业名词以及特殊词语时无法进行识别从而导致用户检索的准确度下降；同时对文本资源的关键词提取有很大难度，无法通过最为主要的用户行为分析进行关键词的优化以及搜索结果的优化；在数据推荐功能上，现有功能是根据用户的购买量或点击量进行相关资源的推荐，此方案无法根据个人用户的实际喜好进行推荐商品，无法让用户快速找到自己喜爱的内容，从而降低了用户体验以及用户粘性。

基于以上几点，在随着大量数据的积累下，普通的数据库检索以及SQL算法已经不能满足计算速度的要求，需要通过大数据技术解决速度问题，从而更高效的利用现有资源。

发明内容

本发明的目的在于提供一种智慧云检索系统及方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种智慧云检索系统，包括在线推荐子系统、特征库子系统、辅助数据子系统和存储子系统，所述在线推荐子系统包括网关和在线推荐模块，所述网关和在线推荐模块由A/BTest模块、召回模块和排序过滤模块组成，所述A/B Test模块包括评测报告指标和评测维度，所述召回模块包括场景策略设置和召回数据，所述排序过滤模块包括过滤数据和排序数据，所述特征库子系统包括内容分析模块、用户分析模块、日志ETL模块，所述辅助数据子系统包括辅助数据模块，所述存储子系统包括用户特征模块、内容特征模块和用户内容关联模块。

一种智慧云检索系统的方法，包括如下步骤：步骤一，建设在线推荐子系统；步骤二，建设特征库子系统；步骤三，建设辅助数据子系统；步骤四，建设存储子系统；

其中在上述的步骤一中，根据用户的兴趣特点和购买行为，向用户推荐用户感兴趣的信息和商品，流量由A/B Test模块，召回模块以及排序和过滤模块组成，用户打开App或者刷新内容页面，或者根据一定的推荐触发规则，如：定时或者内容产生的时候，请求发送到前端接入模块，接入模块根据abtest配置，选择是否走新的策略，然后通过召回模块，将所有相关的推荐数据全部取出，然后通过过滤，排序，终确定给用户展示的推荐内容列表；

其中在上述的步骤二中，首先进行数据收集，然后对收集的数据经过初筛，将初筛的原始数据存储,该系统优先选择HDFS，当原始数据存放在hdfs之后，再经过一定的数据清洗，该系统通过MapReduce进行清洗，然后将清洗完成之后的数据存入到hive，由于标签的可扩展性，该系统采用二维化结构的标签体系，将标签平铺于系统中，通过机器学习，建立标签的基本联系网络，之后贴合于用户与内容，接着建立用户特征户，用相关的标签体系来刻画用户的相关直接或者间接属性特征，从而进一步使得人群划分以及精准个性化推荐成为可能，再进行对象语义特征建设，通过基于内容对象的文本描述，介绍，甚至是内容详情，进行语义信息的提取，通过内容的语义提取获取内容对象的二维化结构标签，在大的层面上刻画内容的类型，在细节层面获取内容的关键性描述，从而使得内容的结构化存储，检索以及关联，成为可能，同时，通过行为关联，可以通过内容对象的语义标签挖掘出用户的兴趣偏好，构建出用户画像的重要维度；

其中在上述的步骤三中，通过人为参与，对内容对象、内容特征库、用户画像数据、索引库和辅助数据进行编辑，从而实现用户偏好、打压控制和全文检索等功能；

其中在上述的步骤四中，通过在Hadoop生态系统之上建立，然后规划合适的分布式存储系统，该系统主要使用HDFS分布式文件体系和HBase分布式NoSQL KV存储系统。

根据上述技术方案，所述评测维度分为：用户维度、物品维度和时间维度；所述评测报告指标包括点击率、留存、DAU(日活)/MAU(月活)和成交率。

根据上述技术方案，所述场景策略设置分为主题推荐数据、关键词推荐数据和热点数据推荐数据；所述召回数据包括基于用户兴趣画像标签数据、基于用户id获取数据、基于用户行为偏好标签数据和强运营数据。

根据上述技术方案，所述过滤数据包括用户已经产生过行为物品或者内容、用户明确不感兴趣的内容、控制打压数据和候选物品以外的物品；所述排序数据为基于LR、FM、GBDT以及DNN等多种算法开展的点击率、转化率和停留时长多指标的排序。

根据上述技术方案，所述步骤二中，数据收集包括前端采集和后端采集，且前端采集主要有三种方式：1)web日志；2)JS SDK；3)包嗅探器；所述后端采集可分为以下几类：1)业务日志；2)错误日志；3)摘要日志；4)统计日志。

根据上述技术方案，所述步骤二中，数据清洗包括检测并消除数据异常、检测并消除近似重复记录、数据的集成和特定领域的数据清洗。

根据上述技术方案，所述步骤二中，用户特征分为以下三大维度：1)用户基础属性；2)用户行为属性；3)用户兴趣属性。

根据上述技术方案，所述用户基础属性包括用户姓名、用户ID、性别、出生日期、联系方式、教育/专业信息、工作单位和社交账号；所述用户行为属性包括浏览、检索、收藏关注度、购买、评论、答题详细记录、登录时间、登录系统、登录IP、用户浏览器信息和用户操作系统信息；所述用户兴趣属性包括用户在内容对象基本属性上在偏好、用户在内容对象行为属性上的偏好、用户在内容对象语义标签属性上的偏好和权重设计与优化概述。

根据上述技术方案，所述步骤二中，内容语义挖掘的目标有内容挖掘、文本数据提取、分词、关键词提取、类型标签构建、词向量和标签与关键词扩展。

与现有技术相比，本发明的有益效果是：该系统以中间件的形式解决了现有搜索引擎无法解决的难点以及痛点，在通过算法分析以及大量的离线计算后为文本内容进行关键词标引，当用户信息收集后通过用户画像获取用户的特殊标签及属性，再通过用户的点击、购买、搜索等行为与资源进行标签互补，从而达到在使用过程中不断的优化搜索准确率以及推荐准确率，具体效果如下：

1.计算速度及数据采集：在数据库的数据量上升到一定量级后，正常的连接查询或多表查询会直接影响查询速度，优化难度很大。另外常规的用户数据收集会通过埋点的形式保存到数据库中，此做法在高并发的情况下会降低响应速度，因为有大量的数据库连接会用于记录用户数据；本专利中针对大量的用户数据以日志的形式进行记录，不通过数据库进行存储，同时通过分析URI地址进行快速处理，减少页面埋点，提升并发响应速度；当大量的数据收集后，采用在线计算+离线计算方式分析用户信息、资源文本信息，减少服务器压力及数据库压力，有效提升计算速度；

2.搜索准确度：普通的检索通过SQL查询，以字段匹配的方式进行检索推荐，或通过全文检索进行分词检索，并通过词频(搜索词所出现的次数)干预结果排序。此方法无法与用户属性关联，会导致所有用户通过搜索词检索到的内容是相同的，并且在一些专业内容中无法仅根据词频判断内容的相关性；中软启信搜索引擎融入了大数据算法以及推荐系统，先在基础语料库上进行算法分析，给各类内容进行关键词标引，当用户检索时，先根据搜索的关键词与算法提取出的关键词进行匹配，再通过用户的行为属性与资源进行关联分析后进行整体排序，达到不同的用户检索同一关键词后所呈现的结果以及排序也不同；

3.相关内容推荐：在现有的业务系统中，相关资源推荐功能是用户最常看到的功能模块，但是目前推荐逻辑过于简单，基本上会根据资源的点击量、购买量、下载量进行推荐，会导致一些专业资源一直处于推荐排行中，单该资源并不是平台中所有用户所关注的资源，也会在恶意刷数据的情况下误导用户，不便于用户快速定位资源。

附图说明

图1是本发明的整体架构图；

图2是本发明的推荐系统架构图；

图3是本发明的召回流程图；

图4是本发明的数据收集架构图；

图5是本发明的数据清洗流程图；

图6是本发明的文本内容语义标签架构图；

图7是本发明的方法流程图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-6，本发明提供一种智慧云检索系统，包括在线推荐子系统、特征库子系统、辅助数据子系统和存储子系统，在线推荐子系统包括网关和在线推荐模块，网关和在线推荐模块由A/B Test模块、召回模块和排序过滤模块组成，A/B Test模块包括评测报告指标和评测维度，召回模块包括场景策略设置和召回数据，排序过滤模块包括过滤数据和排序数据，特征库子系统包括内容分析模块、用户分析模块、日志ETL模块，辅助数据子系统包括辅助数据模块，存储子系统包括用户特征模块、内容特征模块和用户内容关联模块。

请参阅图7，一种智慧云检索系统的方法，包括如下步骤：步骤一，建设在线推荐子系统；步骤二，建设特征库子系统；步骤三，建设辅助数据子系统；步骤四，建设存储子系统；

根据上述技术方案，评测维度分为：用户维度、物品维度和时间维度；评测报告指标包括点击率、留存、DAU(日活)/MAU(月活)和成交率。

根据上述技术方案，场景策略设置分为主题推荐数据、关键词推荐数据和热点数据推荐数据；召回数据包括基于用户兴趣画像标签数据、基于用户id获取数据、基于用户行为偏好标签数据和强运营数据。

根据上述技术方案，过滤数据包括用户已经产生过行为物品或者内容、用户明确不感兴趣的内容、控制打压数据和候选物品以外的物品；排序数据为基于LR、FM、GBDT以及DNN等多种算法开展的点击率、转化率和停留时长多指标的排序。

根据上述技术方案，步骤二中，数据收集包括前端采集和后端采集，且前端采集主要有三种方式：1)web日志；2)JS SDK；3)包嗅探器；后端采集可分为以下几类：1)业务日志；2)错误日志；3)摘要日志；4)统计日志。

根据上述技术方案，步骤二中，数据清洗包括检测并消除数据异常、检测并消除近似重复记录、数据的集成和特定领域的数据清洗。

根据上述技术方案，步骤二中，用户特征分为以下三大维度：1)用户基础属性；2)用户行为属性；3)用户兴趣属性。

根据上述技术方案，用户基础属性包括用户姓名、用户ID、性别、出生日期、联系方式、教育/专业信息、工作单位和社交账号；用户行为属性包括浏览、检索、收藏关注度、购买、评论、答题详细记录、登录时间、登录系统、登录IP、用户浏览器信息和用户操作系统信息；用户兴趣属性包括用户在内容对象基本属性上在偏好、用户在内容对象行为属性上的偏好、用户在内容对象语义标签属性上的偏好和权重设计与优化概述。

根据上述技术方案，步骤二中，内容语义挖掘的目标有内容挖掘、文本数据提取、分词、关键词提取、类型标签构建、词向量和标签与关键词扩展。

基于上述，本发明的优点在于，本发明以中间件的形式解决了现有搜索引擎无法解决的难点以及痛点，在通过算法分析以及大量的离线计算后为文本内容进行关键词标引，当用户信息收集后通过用户画像获取用户的特殊标签及属性，再通过用户的点击、购买、搜索等行为与资源进行标签互补，从而达到在使用过程中不断的优化搜索准确率以及推荐准确率，具体效果如下：1.计算速度及数据采集：在数据库的数据量上升到一定量级后，正常的连接查询或多表查询会直接影响查询速度，优化难度很大。另外常规的用户数据收集会通过埋点的形式保存到数据库中，此做法在高并发的情况下会降低响应速度，因为有大量的数据库连接会用于记录用户数据；本专利中针对大量的用户数据以日志的形式进行记录，不通过数据库进行存储，同时通过分析URI地址进行快速处理，减少页面埋点，提升并发响应速度；当大量的数据收集后，采用在线计算+离线计算方式分析用户信息、资源文本信息，减少服务器压力及数据库压力，有效提升计算速度；2.搜索准确度：普通的检索通过SQL查询，以字段匹配的方式进行检索推荐，或通过全文检索进行分词检索，并通过词频(搜索词所出现的次数)干预结果排序。此方法无法与用户属性关联，会导致所有用户通过搜索词检索到的内容是相同的，并且在一些专业内容中无法仅根据词频判断内容的相关性；中软启信搜索引擎融入了大数据算法以及推荐系统，先在基础语料库上进行算法分析，给各类内容进行关键词标引，当用户检索时，先根据搜索的关键词与算法提取出的关键词进行匹配，再通过用户的行为属性与资源进行关联分析后进行整体排序，达到不同的用户检索同一关键词后所呈现的结果以及排序也不同；3.相关内容推荐：在现有的业务系统中，相关资源推荐功能是用户最常看到的功能模块，但是目前推荐逻辑过于简单，基本上会根据资源的点击量、购买量、下载量进行推荐，会导致一些专业资源一直处于推荐排行中，单该资源并不是平台中所有用户所关注的资源，也会在恶意刷数据的情况下误导用户，不便于用户快速定位资源。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种智慧云检索系统，包括在线推荐子系统、特征库子系统、辅助数据子系统和存储子系统，其特征在于：所述在线推荐子系统包括网关和在线推荐模块，所述网关和在线推荐模块由A/B Test模块、召回模块和排序过滤模块组成，所述A/B Test模块包括评测报告指标和评测维度，所述召回模块包括场景策略设置和召回数据，所述排序过滤模块包括过滤数据和排序数据，所述特征库子系统包括内容分析模块、用户分析模块、日志ETL模块，所述辅助数据子系统包括辅助数据模块，所述存储子系统包括用户特征模块、内容特征模块和用户内容关联模块。

2.一种智慧云检索系统的方法，包括如下步骤：步骤一，建设在线推荐子系统；步骤二，建设特征库子系统；步骤三，建设辅助数据子系统；步骤四，建设存储子系统；其特征在于：

3.根据权利要求1的一种智慧云检索系统，其特征在于：所述评测维度分为：用户维度、物品维度和时间维度；所述评测报告指标包括点击率、留存、DAU(日活)/MAU(月活)和成交率。

4.根据权利要求1的一种智慧云检索系统，其特征在于：所述场景策略设置分为主题推荐数据、关键词推荐数据和热点数据推荐数据；所述召回数据包括基于用户兴趣画像标签数据、基于用户id获取数据、基于用户行为偏好标签数据和强运营数据。

5.根据权利要求1的一种智慧云检索系统，其特征在于：所述过滤数据包括用户已经产生过行为物品或者内容、用户明确不感兴趣的内容、控制打压数据和候选物品以外的物品；所述排序数据为基于LR、FM、GBDT以及DNN等多种算法开展的点击率、转化率和停留时长多指标的排序。

6.根据权利要求2的一种智慧云检索系统的方法，其特征在于：所述步骤二中，数据收集包括前端采集和后端采集，且前端采集主要有三种方式：1)web日志；2)JS SDK；3)包嗅探器；所述后端采集可分为以下几类：1)业务日志；2)错误日志；3)摘要日志；4)统计日志。

7.根据权利要求2的一种智慧云检索系统的方法，其特征在于：所述步骤二中，数据清洗包括检测并消除数据异常、检测并消除近似重复记录、数据的集成和特定领域的数据清洗。

8.根据权利要求2的一种智慧云检索系统的方法，其特征在于：所述步骤二中，用户特征分为以下三大维度：1)用户基础属性；2)用户行为属性；3)用户兴趣属性。

9.根据权利要求8的一种智慧云检索系统的方法，其特征在于：所述用户基础属性包括用户姓名、用户ID、性别、出生日期、联系方式、教育/专业信息、工作单位和社交账号；所述用户行为属性包括浏览、检索、收藏关注度、购买、评论、答题详细记录、登录时间、登录系统、登录IP、用户浏览器信息和用户操作系统信息；所述用户兴趣属性包括用户在内容对象基本属性上在偏好、用户在内容对象行为属性上的偏好、用户在内容对象语义标签属性上的偏好和权重设计与优化概述。

10.根据权利要求2的一种智慧云检索系统的方法，其特征在于：所述步骤二中，内容语义挖掘的目标有内容挖掘、文本数据提取、分词、关键词提取、类型标签构建、词向量和标签与关键词扩展。