CN105574085A

CN105574085A - 基于图数据结构的检索词优化方法

Info

Publication number: CN105574085A
Application number: CN201510910407.2A
Authority: CN
Inventors: 涂君兰; 杨伟锋
Original assignee: TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Current assignee: TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Priority date: 2015-12-10
Filing date: 2015-12-10
Publication date: 2016-05-11

Abstract

一种基于图数据结构的检索词优化方法，从图形的规则中抽取多个词集以及这些词集间的关系；整理词集和关系，为每个词集命名，将词集和关系简化成多行与或表达式；分析每行表达式，给每个词数集赋上一个权值；通过分词和倒文档率识别词性，从而准确的分析出词集与主题的关联度，从而能够从成千上万条规则中快速提取出最小且需求关联度最高的检索词集，其中在标引流程中获得较高的召回率，覆盖逻辑表达式最全且最小词数集的优化方法，使得最终产生的采集任务量减少，从而提高企业的生产效率。

Description

基于图数据结构的检索词优化方法

技术领域

本发明涉及互联网信息采集的技术领域，具体说是一种基于图数据结构的检索词优化方法。

背景技术

随着互联网技术的发展，各种各样的数据浩瀚如海，新闻类，微博类，论坛类，电商类等，有的客户关注某个事件的动态，有的客户关注某个品牌的口碑，有的客户关注的是某个企业的信誉，如何能精确快速的从互联网上获取客户真正关心的数据，需通过搜索引擎帮助筛选过滤数据，然而检索词选择洽当与否，直接影响检索效果。检索词中无用词过多，会导致检索效果降低，出现相关数据较少甚至零结果，而检索词限定过少，又会导致检索到的数据量过大，还需进一步进行数据筛选，扩大了检索的工作量。

现有技术中有一种基于规则引擎的标引服务，该服务能将现实生活中用自然语言表达的用户需求抽象出来，画成可视易懂的图形，这些图形按照规则引擎预定义的格式，将原始需求转换成成千上万条规则，通过这些规则来标引用户感兴趣的数据。

发明内容

本发明要解决的技术问题是提供一种基于图数据结构的检索词优化方法。

本发明为解决公知技术中存在的技术问题所采取的技术方案是:

本发明的基于图数据结构的检索词优化方法，包括以下步骤：

A、从图形的规则中抽取多个词集以及这些词集间的关系，这些原始检索词被抽象为N行与或表达式；

B、整理词集和词集间关系：为每个词集按行号及在行中所处位置命名，对于含有相同词的集合进行合并；

C、分析每行表达式，统计同名词集出现的次数，以及每个词数集的词数，寻找词数少且覆盖表达式行数多的词数集计算该词的行数覆盖率，以词数的倒数加权到覆盖率上，获取中间权值；

D、对词集进行滤噪处理，使用分词功能判断词的词性，去掉副词，感叹词，连词等无实际含义的词语；同时从近一个月词集样本中获取每个词的倒文档率，即该词的常见度，通过词性和倒文档率获取词与主题特征的相关度，从而为每个词设置一个权重；

E、综合词数集的中间权值和词数集下每个词的权重，计算出每个词数集的最终权值，选取最终权值最高且覆盖所有逻辑条件的词数集作为本次的检索词；最终权值=中间权值+词集中词的平均权重的开方值。

本发明具有的优点和积极效果是:

本发明的基于图数据结构的检索词优化方法，能够从成千上万条规则中快速提取出最小且需求关联度最高的检索词集，其中分词和倒文档率能够较好的识别词性，从而准确的分析出词集与主题的关联度，在标引流程中获得较高的召回率，覆盖逻辑表达式最全且最小词数集的优化方法，使得最终产生的采集任务量减少，从而提高企业的生产效率。

具体实施方式

以下通过具体实施例对本发明进行详细说明。

发明的基于图数据结构的检索词优化方法，包括以下步骤：

C、分析每行表达式，统计同名词集出现的次数，以及每个词数集的词数，寻找词数少且覆盖表达式行数多的词数集，根据这两个维度给每个词数集赋上一个权值；权值计算公式中，覆盖率占主要部分，覆盖率越高的词集说明与主题相关度越大；词数的多少则影响最终生成的采集量，为了以较低的采集量获取最全的数据，以词数的倒数加权到覆盖率上，获取中间权值；

D、对词集进行滤噪处理，使用分词功能判断词的词性，去掉副词，感叹词，连词等无实际含义的词语；同时从近一个月词集样本中获取每个词的倒文档率，即该词的常见度。通过词性和倒文档率获取词与主题特征的相关度，从而为每个词设置一个权重；

E、综合步骤C中词数集的权值和词数集下每个词的权重，计算出每个词数集的最终权值，选取最终权值最高且覆盖所有逻辑条件的词数集作为本次的检索词。根据大量样本的实验调研，词性和倒文档率对权重的影响应该限定在微调范围，故最终权值=中间权值+词集中词的平均权重的开方值。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例公开如上，然而，并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当然会利用揭示的技术内容作出些许更动或修饰，成为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种基于图数据结构的检索词优化方法，包括以下步骤：