CN105574085A - 基于图数据结构的检索词优化方法 - Google Patents
基于图数据结构的检索词优化方法 Download PDFInfo
- Publication number
- CN105574085A CN105574085A CN201510910407.2A CN201510910407A CN105574085A CN 105574085 A CN105574085 A CN 105574085A CN 201510910407 A CN201510910407 A CN 201510910407A CN 105574085 A CN105574085 A CN 105574085A
- Authority
- CN
- China
- Prior art keywords
- word
- manifold
- weights
- sets
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于图数据结构的检索词优化方法,从图形的规则中抽取多个词集以及这些词集间的关系;整理词集和关系,为每个词集命名,将词集和关系简化成多行与或表达式;分析每行表达式,给每个词数集赋上一个权值;通过分词和倒文档率识别词性,从而准确的分析出词集与主题的关联度,从而能够从成千上万条规则中快速提取出最小且需求关联度最高的检索词集,其中在标引流程中获得较高的召回率,覆盖逻辑表达式最全且最小词数集的优化方法,使得最终产生的采集任务量减少,从而提高企业的生产效率。
Description
技术领域
本发明涉及互联网信息采集的技术领域,具体说是一种基于图数据结构的检索词优化方法。
背景技术
随着互联网技术的发展,各种各样的数据浩瀚如海,新闻类,微博类,论坛类,电商类等,有的客户关注某个事件的动态,有的客户关注某个品牌的口碑,有的客户关注的是某个企业的信誉,如何能精确快速的从互联网上获取客户真正关心的数据,需通过搜索引擎帮助筛选过滤数据,然而检索词选择洽当与否,直接影响检索效果。检索词中无用词过多,会导致检索效果降低,出现相关数据较少甚至零结果,而检索词限定过少,又会导致检索到的数据量过大,还需进一步进行数据筛选,扩大了检索的工作量。
现有技术中有一种基于规则引擎的标引服务,该服务能将现实生活中用自然语言表达的用户需求抽象出来,画成可视易懂的图形,这些图形按照规则引擎预定义的格式,将原始需求转换成成千上万条规则,通过这些规则来标引用户感兴趣的数据。
发明内容
本发明要解决的技术问题是提供一种基于图数据结构的检索词优化方法。
本发明为解决公知技术中存在的技术问题所采取的技术方案是:
本发明的基于图数据结构的检索词优化方法,包括以下步骤:
A、从图形的规则中抽取多个词集以及这些词集间的关系,这些原始检索词被抽象为N行与或表达式;
B、整理词集和词集间关系:为每个词集按行号及在行中所处位置命名,对于含有相同词的集合进行合并;
C、分析每行表达式,统计同名词集出现的次数,以及每个词数集的词数,寻找词数少且覆盖表达式行数多的词数集计算该词的行数覆盖率,以词数的倒数加权到覆盖率上,获取中间权值;
D、对词集进行滤噪处理,使用分词功能判断词的词性,去掉副词,感叹词,连词等无实际含义的词语;同时从近一个月词集样本中获取每个词的倒文档率,即该词的常见度,通过词性和倒文档率获取词与主题特征的相关度,从而为每个词设置一个权重;
E、综合词数集的中间权值和词数集下每个词的权重,计算出每个词数集的最终权值,选取最终权值最高且覆盖所有逻辑条件的词数集作为本次的检索词;最终权值=中间权值+词集中词的平均权重的开方值。
本发明具有的优点和积极效果是:
本发明的基于图数据结构的检索词优化方法,能够从成千上万条规则中快速提取出最小且需求关联度最高的检索词集,其中分词和倒文档率能够较好的识别词性,从而准确的分析出词集与主题的关联度,在标引流程中获得较高的召回率,覆盖逻辑表达式最全且最小词数集的优化方法,使得最终产生的采集任务量减少,从而提高企业的生产效率。
具体实施方式
以下通过具体实施例对本发明进行详细说明。
发明的基于图数据结构的检索词优化方法,包括以下步骤:
A、从图形的规则中抽取多个词集以及这些词集间的关系,这些原始检索词被抽象为N行与或表达式;
B、整理词集和词集间关系:为每个词集按行号及在行中所处位置命名,对于含有相同词的集合进行合并;
C、分析每行表达式,统计同名词集出现的次数,以及每个词数集的词数,寻找词数少且覆盖表达式行数多的词数集,根据这两个维度给每个词数集赋上一个权值;权值计算公式中,覆盖率占主要部分,覆盖率越高的词集说明与主题相关度越大;词数的多少则影响最终生成的采集量,为了以较低的采集量获取最全的数据,以词数的倒数加权到覆盖率上,获取中间权值;
D、对词集进行滤噪处理,使用分词功能判断词的词性,去掉副词,感叹词,连词等无实际含义的词语;同时从近一个月词集样本中获取每个词的倒文档率,即该词的常见度。通过词性和倒文档率获取词与主题特征的相关度,从而为每个词设置一个权重;
E、综合步骤C中词数集的权值和词数集下每个词的权重,计算出每个词数集的最终权值,选取最终权值最高且覆盖所有逻辑条件的词数集作为本次的检索词。根据大量样本的实验调研,词性和倒文档率对权重的影响应该限定在微调范围,故最终权值=中间权值+词集中词的平均权重的开方值。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例公开如上,然而,并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当然会利用揭示的技术内容作出些许更动或修饰,成为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均属于本发明技术方案的范围内。
Claims (1)
1.一种基于图数据结构的检索词优化方法,包括以下步骤:
A、从图形的规则中抽取多个词集以及这些词集间的关系,这些原始检索词被抽象为N行与或表达式;
B、整理词集和词集间关系:为每个词集按行号及在行中所处位置命名,对于含有相同词的集合进行合并;
C、分析每行表达式,统计同名词集出现的次数,以及每个词数集的词数,寻找词数少且覆盖表达式行数多的词数集计算该词的行数覆盖率,以词数的倒数加权到覆盖率上,获取中间权值;
D、对词集进行滤噪处理,使用分词功能判断词的词性,去掉副词,感叹词,连词等无实际含义的词语;同时从近一个月词集样本中获取每个词的倒文档率,即该词的常见度,通过词性和倒文档率获取词与主题特征的相关度,从而为每个词设置一个权重;
E、综合词数集的中间权值和词数集下每个词的权重,计算出每个词数集的最终权值,选取最终权值最高且覆盖所有逻辑条件的词数集作为本次的检索词;最终权值=中间权值+词集中词的平均权重的开方值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510910407.2A CN105574085A (zh) | 2015-12-10 | 2015-12-10 | 基于图数据结构的检索词优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510910407.2A CN105574085A (zh) | 2015-12-10 | 2015-12-10 | 基于图数据结构的检索词优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105574085A true CN105574085A (zh) | 2016-05-11 |
Family
ID=55884216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510910407.2A Withdrawn CN105574085A (zh) | 2015-12-10 | 2015-12-10 | 基于图数据结构的检索词优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105574085A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929873A (zh) * | 2011-08-08 | 2013-02-13 | 腾讯科技(深圳)有限公司 | 一种基于情境搜索提取搜索价值词的方法及装置 |
CN103116653A (zh) * | 2013-03-05 | 2013-05-22 | 清华大学 | 基于属性匹配的服务资源搜索方法及系统 |
-
2015
- 2015-12-10 CN CN201510910407.2A patent/CN105574085A/zh not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929873A (zh) * | 2011-08-08 | 2013-02-13 | 腾讯科技(深圳)有限公司 | 一种基于情境搜索提取搜索价值词的方法及装置 |
CN103116653A (zh) * | 2013-03-05 | 2013-05-22 | 清华大学 | 基于属性匹配的服务资源搜索方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105808526B (zh) | 商品短文本核心词提取方法和装置 | |
CN102902775B (zh) | 互联网实时计算的方法和系统 | |
CN104966031A (zh) | 安卓应用程序中非权限相关隐私数据的识别方法 | |
CN105608200A (zh) | 一种网络舆论趋势预测分析方法 | |
CN110119948B (zh) | 基于时变权重动态组合的电力用户信用评价方法及系统 | |
CN102890698A (zh) | 微博话题标签自动化描述方法 | |
CN109299280A (zh) | 短文本聚类分析方法、装置和终端设备 | |
CN110347724A (zh) | 异常行为识别方法、装置、电子设备及介质 | |
US20210125272A1 (en) | Using Inferred Attributes as an Insight into Banking Customer Behavior | |
CN109947934A (zh) | 针对短文本的数据挖掘方法及系统 | |
US9792377B2 (en) | Sentiment trent visualization relating to an event occuring in a particular geographic region | |
CN110544035A (zh) | 一种内控检测方法、系统和计算机可读存储介质 | |
CN103902596B (zh) | 高频页面内容聚类方法和系统 | |
Kim et al. | Trend analysis by using text mining of journal articles regarding consumer policy | |
CN105117466A (zh) | 一种互联网信息筛选系统及方法 | |
CN106446149A (zh) | 一种通知信息的过滤方法及装置 | |
Kohl | After the second oil crisis: energy policies in Europe, America, and Japan | |
Nailah et al. | The Zakat & Technology | |
KR102000663B1 (ko) | 빅데이터 및 인공지능을 활용한 이벤트 예측 시스템 및 그 방법 | |
CN105574085A (zh) | 基于图数据结构的检索词优化方法 | |
Malawana et al. | The Public Sentiment analysis within Big data Distributed system for Stock market prediction–A case study on Colombo Stock Exchange | |
CN114139798A (zh) | 企业风险预测方法、装置及电子设备 | |
KR102041915B1 (ko) | 인공지능을 활용한 데이터베이스 모듈 및 이를 이용하는 경제데이터 제공 시스템 및 방법 | |
Shikur et al. | Review on Zakat Core Principles (ZCP) Literatures | |
CN113641867B (zh) | 基于微博舆情的城市间关系测度系统、方法、设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 300020 Tianjin Heping District, South Road, No. 11 International Building 23 purchase of Wheat Applicant after: Tianjin mass information technology Limited by Share Ltd Address before: 300020 Tianjin Heping District, South Road, No. 11 International Building 23 purchase of Wheat Applicant before: Tianjin Hylanda Information Technology Co.,Ltd. |
|
COR | Change of bibliographic data | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20160511 |
|
WW01 | Invention patent application withdrawn after publication |