CN111125297B

CN111125297B - 一种基于搜索引擎的海量离线文本实时推荐方法

Info

Publication number: CN111125297B
Application number: CN201911211029.3A
Authority: CN
Inventors: 王冬; 王妍妍; 袁林; 于志伟
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2022-11-25
Anticipated expiration: 2039-11-29
Also published as: CN111125297A

Abstract

本发明公开了一种基于搜索引擎的海量离线文本实时推荐方法，该方法通过从文本中抽取关键词构建文本特征，并通过最小搜索检索策略从开源搜索引擎实时获取数据并进行过滤和整编，以当前查看文本为中心推荐相关文本，从而解决离线场景下通用的文本相似度计算过慢、计算资源开销大的问题。本方法实现了通用的文本推荐方法，可以用于离线文本管理和检阅，引导用户发现信息和组织文本关联，具有较好的推荐准确度和极强的实时性。

Description

一种基于搜索引擎的海量离线文本实时推荐方法

技术领域

本发明涉及一种文本实时推荐方法，特别涉及一种适用于离线场景的基于搜索引擎的海量文本实时推荐方法。

背景技术

数据的膨胀导致用户面对海量的超载信息很难从中获得对自己真正有用的信息，解决信息超载问题一个非常有用的办法是推荐系统。它是根据用户的信息需求、兴趣等，将用户感兴趣的信息、产品等推荐给用户的个性化信息推荐系统。推荐系统应用广泛，其中最典型并具有良好发展和应用前景的领域是电子商务领域。当前主流推荐算法的基础是统计学习，结合机器学习对用户特征建模然后进行推荐，目前推荐系统在复杂度和精确度上均有所提升，但是在实际生产环境中，推荐的使用场景依然受限：如果数据过于稀疏，会导致结果有较大误差，也即“冷启动”问题；同时随着数据量增长，推荐的结果越趋向于稳定，趋向平庸。对于一些海量离线文本应用场景，例如文档检索系统，用户数量少，系统一般是以文本为中心进行推荐，文档内容的主体为事件，包含重要的人物、组织和地点等实体信息，推荐时应重点考虑，同时这类场景对实时性要求比较高，暂时对此类场景的推荐应用研究较少。

推荐系统的基本技术架构还在不断的发展优化之中，当前被广泛应的推荐方式有两大类：基于内容的推荐和协同过滤推荐。协同过滤推荐(Collaborative FilteringRecommendation)算法在推荐系统中出现的较早，发展到目前，理论和技术都已比较成熟。这类系统首先假设用户以前感兴趣的新闻类型在短时间内是相对固定的，并以此计算用户的最近邻居，最后根据邻居用户产生推荐。这类系统需要有庞大的用户访问量支撑，例如亚马逊，淘宝，今日头条。协同过滤推荐基于标签，基于用户，解决了编辑推荐无法做到个性化的问题，无法解决冷启动的问题，弱化了内容中的信息，容易造成信息茧房。其他还包括音乐、电影等方面的推荐应用，当数据源特性各异时，需要实践经验结合相关理论模型进行参数优化才能进行有效推荐。基于内容的推荐主要是利用内容计算相似度取最相近的样本推荐。常见的相似度计算方法主要有余弦相似性和皮尔森相关系数等。

发明内容

本发明所要解决的技术问题是提供一种基于搜索引擎的海量离线文本实时推荐方法，该方法将文本导入搜索引擎之前进行中文分词和关键词提取并创建索引，之后在浏览单篇文本时，系统在搜索引擎的基础上进行推荐，该方法步骤简单，利用现有的搜索引擎和自然语言处理工具进行相关文本推荐，能够准确高效的推荐相关文本。

本发明技术方案为：一种基于搜索引擎的海量离线文本实时推荐方法，具体包括如下步骤：

(1)针对所有离线文本，首先对文本内容进行解析，并在全文搜索引擎中针对解析的文本内容创建索引；

(2)针对当前浏览的文本内容，获取当前浏览文本的全文信息并利用自然语言处理工具进行分词；同时通过自然语言处理工具内置的条件随机给分词结果标注词性并提取出命名实体；

(3)根据步骤(2)的分词结果，计算命名实体的词频-逆文档频率(TF-IDF)，通过计算的TF-IDF值对命名实体排序并选取排名靠前的N个关键实体得到命名实体集合SET<ENTITY>，其中N大于等于1；

(4)根据步骤(2)的分词结果，利用改进的关键词提取算法计算关键词并获取每个关键词的得分，通过关键词的得分对关键词进行排序并选取排名靠前的M个关键词得到关键词集合SET<KEYWORD>，其中M大于等于1；

(5)根据步骤(3)和步骤(4)中提取的命名实体集合SET<ENTITY>和关键词集合SET<KEYWORD>，分别计算集合中每个词语在原文中左侧信息熵IEL和右侧信息熵IER，根据左右侧信息熵差异来将词语扩充为关键短语，所有关键短语组成关键短语集合SET<TERM>；

(6)将步骤(5)生成的关键短语集合SET<TERM>内的所有关键短语一起作为检索关键词进行最小搜索，得到一组检索命中文本结果集SET<DOC>；

(7)针对步骤(6)中获取的文本结果集SET<DOC>，对SET<DOC>中每一篇文本获取匹配度得分，按照预先设置的阈值选择得分靠前的结果文档作为最终的推荐文本集SET<RESULT>；

(8)对推荐文本集SET<RESULT>进行组织和显示。

其中，步骤(1)中，搜索引擎采用但不限于Solr；解析的文本内容包括文本的标题和正文。

其中，步骤(2)中，开源自然语言处理工具选用但不限于HanLP；命名实体类型包括人物、地点和组织。

其中，步骤(3)中，逆文档频率采用搜狗实验室公布的逆文档频率词典，如果提取的实体在逆文档频率词典内找不到，则使用整个逆文档频率词典权重的平均值作为其逆文档频率。

其中，步骤(4)中，提取关键词的算法为改进的TextRank算法，其改进方法为，在TextRank算法的状态初始化中，在给文本分词结果构建初始词语无向图时，给分词后的每个词语赋予一个初始权重，初始权重值采用该词语的逆文档频率。

其中，步骤(5)中，计算词语左、右侧信息熵的公式为：

在自然语言处理领域的上下文词项信息熵，w代表该词项，w_i代表词项w某侧出现的词语，P(w_i)代表词项w_i出现的频率；

其中，根据左右信息熵差异来将词语扩充为关键短语的方法为，如果一个词一侧信息熵为0，另一侧信息熵不为0，则将信息熵为0一侧的词语与该计算词语合并为关键短语。

其中，步骤(6)中，最小搜索采用搜索引擎Solr的eDisMax查询解析器，并通过设置eDisMax查询解析器的mm参数进行最小搜索。

其中，步骤(7)中，命中文档的得分通过搜索引擎提供并按照降序排列，得分是一个非归一化的得分，设置的过滤阈值为最高得分的50％到100％。

其中，所述eDisMax查询解析器的mm参数采用人工设置，该参数的严苛程度根据推荐相关性调整。

有益效果：本发明方法以用户当前文本为中心，提取、组合出关键特征构建检索策略，利用搜索引擎筛选推荐文本并根据得分二次过滤，以实时的方式向用户推荐文本，其中主要利用改进的TextRank算法提取当前文本关键词，利用开源自然语言处理工具抽取关键命名实体并通过词语左右信息熵生成关键短语，解决离线文本推荐“冷启动”问题和纯内容推荐方式提取的特征过于泛化的问题，借助文本类数据在搜索引擎中的倒排索引，解决通用的文本相似度计算过慢、计算资源开销大的问题；本发明可以用于离线文本管理和检阅，引导用户发现信息和组织文本关联，具有较好的推荐准确度和极强的实时性。

附图说明

图1为本发明的方法流程图；

图2为本发明进行最小搜索匹配推荐文本的示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步详细描述。

结合图1，本发明的基于搜索引擎的海量离线文本实时推荐方法，具体包括如下步骤：

步骤1：针对所有离线文本，首先对文本内容进行解析，并在全文搜索引擎中针对解析的文本内容创建索引；搜索引擎选用但不限于Solr；解析的文本内容包括文本的标题和正文；

步骤2：针对当前浏览的文本内容，获取当前浏览文本全文信息利用开源自然语言处理工具进行分词；同时通过自然语言处理工具内置的条件随机场给分词结果标注词性并提取出命名实体；开源自然语言处理工具选用但不限于HanLP；命名实体类型包括人物、地点和组织；

步骤3：根根据步骤2的分词结果，计算命名实体的词频-逆文档频率(TF-IDF)，通过计算的TF-IDF值选取排名靠前的N个关键实体得到命名实体集合SET<ENTITY>；逆文档频率采用搜狗实验室公布的逆文档频率，如果提取的实体在逆文档频率词典内找不到，则使用整个词典权重的平均值作为其逆文档频率；

步骤4：根据步骤2的分词结果，利用改进的关键词提取算法计算关键词并获取每个关键词的得分，通过关键词的得分选取排名靠前的M个关键词得到关键词集合SET<KEYWORD>；提取关键词的算法为改进的TextRank算法，其改进方法为，在TextRank算法的状态初始化中，在给文本分词结果构建初始词语无向图时，给分词后的每个词语赋予一个初始权重，初始权重值采用该词语的逆文档频率；

步骤5：根据步骤3和步骤4中提取的命名实体集合SET<ENTITY>和关键词集合SET<KEYWORD>，分别计算集合中每个词语在原文中左侧信息熵IEL和右侧信息熵IER，根据左右信息熵差异来将词语扩充为关键短语，所有关键短语组成关键短语集合SET<TERM>；计算词语左、右侧信息熵的公式可以简写为：

如果一个词项左右信息熵都很大，说明该词语在文档中有多次引用和多层含义，很可能是关键词，如果一个词左侧信息熵为0，右侧信息熵很大，则说明该词项与左侧词语在文档中一直共现，很可能是一个词组；通过计算每个关键词的左右侧信息熵，可以实现关键短语构建；本发明根据左右信息熵差异来将词语扩充为关键短语的方法为，如果一个词一侧信息熵为0，另一侧信息熵不为0，则将信息熵为0一侧的词语与该计算词语合并为关键短语；

步骤6：将步骤5生成的关键短语集合SET<TERM>内的所有关键短语一起作为检索关键词进行最小搜索，得到一组检索命中文本结果集SET<DOC>；最小搜索采用搜索引擎Solr的eDisMax查询解析器(扩展的析取最大解析器)，并通过设置eDisMax查询解析器的mm(最小匹配)参数进行最小搜索；eDisMax查询解析器的mm参数的工作示意图如图2所示，图2中每一个圆形表示词项i(i∈[1，N])命中的文档集合，深色阴影部分表示同时命中了全部词项，mm参数变大通常会提高查准率，mm参数变小通常会提高查全率，eDisMax查询解析器的mm参数采用人工设置，该参数的严苛程度可根据推荐相关性调整；

步骤7：针对步骤6中获取的文本结果集SET<DOC>，对SET<DOC>中每一篇文本获取匹配度得分，按照预先设置的阈值选择得分为靠前的结果文档作为最终的推荐文本集SET<RESULT>；命中文档的得分通过搜索引擎提供并按照降序排列，所述得分是一个非归一化的得分，本发明设置的过滤阈值为最高得分的50％到100％；

步骤8：根据业务需求对推荐文本数据进行组织和显示。

下面结合十万级离线新闻数据场景下新闻浏览与推荐的实施示例对本发明技术方案做进一步详细的描述，具体为：

采用人民日报，新华网，参考消息等离线新闻文本作为原始文档数据，共计47万多篇，主要字段包括来源，时间，标题，正文，以TXT文本数据进行本地存储，自然语言处理基础工具利用HanLP 1.7，主要利用中文分词和条件随机场(CRF)词性标注功能，搜索引擎采用Solr 6.1，采用三台CentOS 7.0搭建分布式搜索引擎集群。

首先在运用推荐方法之前，需要构建所有文本数据的全文索引，为了减少后续自然语言处理过程，本文在将文本导入Solr之前进行中文分词和关键词提取并将这些信息一并创建索引。本文通过利用自然语言处理工具HanLP，实现海量文本的批量解析和中文分词处理，之后将处理过的数据存储到Solr中，对应步骤1。构建的Solr索引文档字段如下表所示：

之后，在浏览某一篇文本时，获取到文本全部内容信息，利用自然语言处理工具的条件随机场分词后标准的词性进行标注，本文使用HanLP工具并人工扩充部分实体词典进行实体提取，主要提取人物，地点和组织类实体。提取之后计算各实体的词频-逆文档频率(TF-IDF)，通过计算选取权重较高的10个实体作为关键实体集合SET<ENTITY>，对应步骤2和步骤3。

其次，利用上文介绍改进的利用改进的关键词提取算法TextRank算法计算迭代计算各词语权重，根据权重排序后选取前15个关键词作为关键词集合SET<KEYWORD>，对应步骤4。

然后计算关键词和关键实体中每个词的左、右侧信息熵来判断文本中提取关键词和关键实体的前后词语是否是常态共现词，如果是共现词，则将该关键词或者实体扩充为关键词项，得到集合SET<TERM>，实现文本特征的进一步融合和强化。判断方法是如果词语某侧信息熵为0，另一侧信息熵很大，则熵为0的一侧可能有共现词，应该扩充词语。对应步骤5。

最后，根据关键短语集合SET<TERM>内的词项作为检索关键词，利用eDisMax查询解析器，设置最小搜索策略mm参数向Solr发起检索请求，本发明的mm参数设置为“2＜2 4＜50％”，得到一组命中推荐文本结果SET<DOC>，其检索时间约为20ms。根据命中匹配的得分进行统计排序，根据最高命中分的70％作为阈值过滤检索文本作为最终的推荐文本，得到集合SET<RESULT>，对应步骤6和步骤7。

获取推荐文本结果后根据业务需求对推荐文本数据进行组织和前台显示。

本发明方法基于当前文章，不会受到“推荐算法”的干预和关注主题漂移；仅计算当前文章的关键词、实体等要素，计算量小；文本类数据的主体主要是实体和事件，将关键短语和实体结合进行推荐可以有效去除无关主体和停用词干扰；基于搜索引擎，倒排索引检索速度快，能保证实时性；针对推荐算法针对文本类非结构化数据，在离线环境下有有着海量文本不易管理的问题，本发明基于搜索引擎构建全文索引提出了一种实时的文本推荐方法，能够从海量文本自动挑选出与目标文本综合相似性较高的推荐文本集，实验结果表明该方法能够有效地做到以文本和用户当前关注点为中心的推荐，具有较强的鲁棒性和推荐准确率，适合即时文本推荐。

Claims

1.一种基于搜索引擎的海量离线文本实时推荐方法，其特征在于，具体包括如下步骤：

(3)根据步骤(2)的分词结果，计算命名实体的词频-逆文档频率：TF-IDF，通过计算的TF-IDF值对命名实体排序并选取排名靠前的N个关键实体得到命名实体集合SET<ENTITY>，其中N大于等于1；

计算词语左、右侧信息熵的公式为：

其中，根据左右信息熵差异来将词语扩充为关键短语的方法为，如果一个词一侧信息熵为0，另一侧信息熵不为0，则将信息熵为0一侧的词语与该计算词语合并为关键短语；

(8)对推荐文本集SET<RESULT>进行组织和显示。

2.根据权利要求1所述的基于搜索引擎的海量离线文本实时推荐方法，其特征在于：步骤(1)中，搜索引擎采用Solr；解析的文本内容包括文本的标题和正文。

3.根据权利要求1所述的基于搜索引擎的海量离线文本实时推荐方法，其特征在于：步骤(2)中，开源自然语言处理工具选用HanLP；命名实体类型包括人物、地点和组织。

4.根据权利要求1所述的基于搜索引擎的海量离线文本实时推荐方法，其特征在于：步骤(3)中，逆文档频率采用搜狗实验室公布的逆文档频率词典，如果提取的实体在逆文档频率词典内找不到，则使用整个逆文档频率词典权重的平均值作为其逆文档频率。

5.根据权利要求1所述的基于搜索引擎的海量离线文本实时推荐方法，其特征在于：步骤(4)中，提取关键词的算法为改进的TextRank算法，其改进方法为，在TextRank算法的状态初始化中，在给文本分词结果构建初始词语无向图时，给分词后的每个词语赋予一个初始权重，初始权重值采用该词语的逆文档频率。

6.根据权利要求1所述的基于搜索引擎的海量离线文本实时推荐方法，其特征在于：步骤(6)中，最小搜索采用搜索引擎Solr的eDisMax查询解析器，并通过设置eDisMax查询解析器的mm参数进行最小搜索。

7.根据权利要求1所述的基于搜索引擎的海量离线文本实时推荐方法，其特征在于：步骤(7)中，命中文档的得分通过搜索引擎提供并按照降序排列，得分是一个非归一化的得分，设置的过滤阈值为最高得分的50％到100％。

8.根据权利要求6所述的基于搜索引擎的海量离线文本实时推荐方法，其特征在于：所述eDisMax查询解析器的mm参数采用人工设置，该参数的严苛程度根据推荐相关性调整。