CN105608201A - 一种支持多关键词表达式的文本匹配方法 - Google Patents

一种支持多关键词表达式的文本匹配方法 Download PDF

Info

Publication number
CN105608201A
CN105608201A CN201510995759.2A CN201510995759A CN105608201A CN 105608201 A CN105608201 A CN 105608201A CN 201510995759 A CN201510995759 A CN 201510995759A CN 105608201 A CN105608201 A CN 105608201A
Authority
CN
China
Prior art keywords
keyword
matching
stage
text
expression formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510995759.2A
Other languages
English (en)
Inventor
舒琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Yi Fang Softcom Ltd
Original Assignee
Hunan Yi Fang Softcom Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Yi Fang Softcom Ltd filed Critical Hunan Yi Fang Softcom Ltd
Priority to CN201510995759.2A priority Critical patent/CN105608201A/zh
Publication of CN105608201A publication Critical patent/CN105608201A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及网络检索技术领域,特别是一种支持多关键词表达式的文本匹配方法,包括以下步骤,步骤S101:语法转换阶段,将多关键词表达式转换为多组关键词;步骤S102:关键词匹配阶段,以语法转换阶段输出的多组关键词作为输入,采用关键词匹配算法完成,获得文本中出现过的关键词;步骤S103:匹配度确定阶段,以关键词匹配阶段输出的出现过关键词的文本作为输入,将关键词匹配阶段出现过的关键词与语法转换阶段获得的多组关键词进行匹配程度确定。采用上述方法后,本发明多关键词表达式的文本匹配方法,支持多关键词表达式进行文本匹配,能够在一个表达式中表达复杂的匹配逻辑,提供了更为强大的匹配能力。

Description

一种支持多关键词表达式的文本匹配方法
技术领域
本发明涉及网络检索技术领域,特别是一种支持多关键词表达式的文本匹配方法。
背景技术
针对文本数据,存在多个关键词需要匹配的情况下,已有较多经典算法,这些算法解决的问题都是如何在文本数据中精确匹配关键词,主要差别在算法的复杂度上,即给定n个关键词,针对一段文本数据,当计算结束时,会给出在文本中出现过的关键词。
在实际运用中,可以借助逻辑运算符将多个关键词连接在一起,形成一个关键词表达式,从而能够表述关键词间更复杂的逻辑关系,继而获得更强大的匹配能力,这是目前的算法所不支持的。
举个例子,给定3个关键词:中国、足球、2015,传统算法只会给出匹配到了哪些关键词;假如用户想关心的是中国足球在2015年的相关信息,那么可以将3个关键词表达为“中国&&足球&&2015”,意为该3个关键词必须在同一个文本数据中同时出现,才算命中。
中国发明专利申请CN101398820A公开了一种大规模关键词匹配方法,包括预处理阶段和模式匹配阶段,预处理阶段包括关键词特征串裁剪、基于关键词特征串集合的多个简单布隆过滤器的构造,基于关键词特征串集合的哈希表构造:模式匹配阶段包括:利用先前构造的简单布隆过滤器序列实现当前窗口中文本串不与任何关键词特征串匹配的快速判定;在判定失败情况下执行与候选关键词的精确匹配;文本扫描过程中,可以利用递归算法快速计算出当前文本相对于各简单布隆过滤器的当前散列值。虽然,此发明利用里递归散列算法高效的特点,可实现大规模关键词场景下的高速匹配,但是此发明无法对关键词表达式进行文本匹配。
发明内容
本发明需要解决的技术问题提供一种能够基于多关键词表达式进行文本匹配的方法。
为解决上述的技术问题,本发明的一种支持多关键词表达式的文本匹配方法,包括以下步骤,
步骤S101:语法转换阶段,将多关键词表达式转换为多组关键词;
步骤S102:关键词匹配阶段,以语法转换阶段输出的多组关键词作为输入,采用关键词匹配算法完成,获得文本中出现过的关键词;
步骤S103:匹配度确定阶段,以关键词匹配阶段输出的出现过关键词的文本作为输入,将关键词匹配阶段出现过的关键词与语法转换阶段获得的多组关键词进行匹配程度确定。
进一步的,所述步骤S101语法转换阶段具体包括以下步骤,
步骤S1011:运算符和操作数提取,提取多关键词表达式中的运算符和操作数;
步骤S1012:括号内表达式计算,优先计算括号内的表达式;
步骤S1013:括号间逻辑关系,计算各括号间的逻辑关系。
进一步的,所述步骤S101中任意一组中的关键词必须同时出现,组之间任意出现一组,表示文本匹配成功。
更进一步的,步骤S103中将关键词匹配阶段出现过的关键词与语法转换阶段获得的多组关键词进行匹配程度确定是指判断语法转换阶段获得的多组关键词中是否存在任意一组关键词是关键词匹配阶段出现的关键词的子集;如果存在,则确定该文本匹配成功,否则匹配失败。
采用上述方法后,本发明多关键词表达式的文本匹配方法,支持多关键词表达式进行文本匹配,能够在一个表达式中表达复杂的匹配逻辑,提供了更为强大的匹配能力。
附图说明
下面将结合附图和具体实施方式对本作进一步详细的说明。
图1为本发明一种支持多关键词表达式的文本匹配方法的流程图。
具体实施方式
如图1所示,本发明的一种支持多关键词表达式的文本匹配方法,包括以下步骤,
步骤S101:语法转换阶段,将多关键词表达式转换为多组关键词。
所述步骤S101语法转换阶段具体包括以下步骤,
步骤S1011:运算符和操作数提取,提取多关键词表达式中的运算符和操作数;
步骤S1012:括号内表达式计算,优先计算括号内的表达式;
步骤S1013:括号间逻辑关系,计算各括号间的逻辑关系。
语法转换阶段是将多关键词表达式转换为另一种表达形式,即转换为多组关键词,一组中的关键词必须是同时出现,组之间任意出现一组,就表示文本匹配成功。以“(西游记之大圣归来||捉妖记)&&影评”为例,转换后的表达形式为2组关键词:“西游记之大圣归来影评”、“捉妖记影评”,待匹配文本只要出现上述2组关键词中的任一组即匹配成功。
步骤S102:关键词匹配阶段,以语法转换阶段输出的多组关键词作为输入,采用关键词匹配算法完成,获得文本中出现过的关键词。基于经典的多关键词匹配算法完成,算法有多种,可根据实际需求进行选择,在此不再累述,该阶段完成后,获得文本中出现过的关键词。
步骤S103:匹配度确定阶段,以关键词匹配阶段输出的出现过关键词的文本作为输入,将关键词匹配阶段出现过的关键词与语法转换阶段获得的多组关键词进行匹配程度确定。步骤S103中将关键词匹配阶段出现过的关键词与语法转换阶段获得的多组关键词进行匹配程度确定是指判断语法转换阶段获得的多组关键词中是否存在任意一组关键词是关键词匹配阶段出现的关键词的子集;如果存在,则确定该文本匹配成功,否则匹配失败。
虽然以上描述了本发明的具体实施方式,但是本领域熟练技术人员应当理解,这些仅是举例说明,可以对本实施方式作出多种变更或修改,而不背离发明的原理和实质,本发明的保护范围仅由所附权利要求书限定。

Claims (4)

1.一种支持多关键词表达式的文本匹配方法,其特征在于,包括以下步骤,
步骤S101:语法转换阶段,将多关键词表达式转换为多组关键词;
步骤S102:关键词匹配阶段,以语法转换阶段输出的多组关键词作为输入,采用关键词匹配算法完成,获得文本中出现过的关键词;
步骤S103:匹配度确定阶段,以关键词匹配阶段输出的出现过关键词的文本作为输入,将关键词匹配阶段出现过的关键词与语法转换阶段获得的多组关键词进行匹配程度确定。
2.按照权利要求1所述的一种支持多关键词表达式的文本匹配方法,其特征在于,所述步骤S101语法转换阶段具体包括以下步骤,
步骤S1011:运算符和操作数提取,提取多关键词表达式中的运算符和操作数;
步骤S1012:括号内表达式计算,优先计算括号内的表达式;
步骤S1013:括号间逻辑关系,计算各括号间的逻辑关系。
3.按照权利要求1所述的一种支持多关键词表达式的文本匹配方法,其特征在于:所述步骤S101中任意一组中的关键词必须同时出现,组之间任意出现一组,表示文本匹配成功。
4.按照权利要求3所述的一种支持多关键词表达式的文本匹配方法,其特征在于:步骤S103中将关键词匹配阶段出现过的关键词与语法转换阶段获得的多组关键词进行匹配程度确定是指判断语法转换阶段获得的多组关键词中是否存在任意一组关键词是关键词匹配阶段出现的关键词的子集;如果存在,则确定该文本匹配成功,否则匹配失败。
CN201510995759.2A 2015-12-28 2015-12-28 一种支持多关键词表达式的文本匹配方法 Pending CN105608201A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510995759.2A CN105608201A (zh) 2015-12-28 2015-12-28 一种支持多关键词表达式的文本匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510995759.2A CN105608201A (zh) 2015-12-28 2015-12-28 一种支持多关键词表达式的文本匹配方法

Publications (1)

Publication Number Publication Date
CN105608201A true CN105608201A (zh) 2016-05-25

Family

ID=55988140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510995759.2A Pending CN105608201A (zh) 2015-12-28 2015-12-28 一种支持多关键词表达式的文本匹配方法

Country Status (1)

Country Link
CN (1) CN105608201A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959212A (zh) * 2017-05-19 2018-12-07 北京庖丁科技有限公司 根据文本语义补充内容的方法和装置
CN109542845A (zh) * 2018-11-14 2019-03-29 广州瞬速信息科技有限公司 一种基于关键词表达式的文本元数据提取方法
CN109614486A (zh) * 2018-11-28 2019-04-12 宇捷东方(北京)科技有限公司 一种基于自然语言处理技术的服务自动推送系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102053993A (zh) * 2009-11-10 2011-05-11 阿里巴巴集团控股有限公司 一种文本过滤方法及文本过滤系统
CN102163194A (zh) * 2010-02-21 2011-08-24 北京金山软件有限公司 一种关键字即时检索方法及系统
US8972450B2 (en) * 2013-04-17 2015-03-03 National Taiwan University Multi-stage parallel multi-character string matching device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102053993A (zh) * 2009-11-10 2011-05-11 阿里巴巴集团控股有限公司 一种文本过滤方法及文本过滤系统
CN102163194A (zh) * 2010-02-21 2011-08-24 北京金山软件有限公司 一种关键字即时检索方法及系统
US8972450B2 (en) * 2013-04-17 2015-03-03 National Taiwan University Multi-stage parallel multi-character string matching device

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959212A (zh) * 2017-05-19 2018-12-07 北京庖丁科技有限公司 根据文本语义补充内容的方法和装置
CN108959212B (zh) * 2017-05-19 2021-07-13 北京庖丁科技有限公司 根据文本语义补充内容的方法和装置
CN109542845A (zh) * 2018-11-14 2019-03-29 广州瞬速信息科技有限公司 一种基于关键词表达式的文本元数据提取方法
CN109542845B (zh) * 2018-11-14 2022-12-30 广州瞬速信息科技有限公司 一种基于关键词表达式的文本元数据提取方法
CN109614486A (zh) * 2018-11-28 2019-04-12 宇捷东方(北京)科技有限公司 一种基于自然语言处理技术的服务自动推送系统及方法

Similar Documents

Publication Publication Date Title
CN103425672B (zh) 一种数据库索引的建立方法及装置
CN103902698B (zh) 一种数据存储系统和存储方法
CN103092943B (zh) 一种广告调度的方法和广告调度服务器
TW201220233A (en) by which category information of long tail keywords is provided for users within a specified time period
KR101617696B1 (ko) 데이터 정규표현식의 마이닝 방법 및 장치
CN103778251B (zh) 面向大规模rdf图数据的sparql并行查询方法
CN105224554A (zh) 推荐搜索词进行搜索的方法、系统、服务器和智能终端
CN104778210B (zh) 一种微博转发树和转发森林构建方法
CN102163234A (zh) 一种基于纠错相关度对查询序列进行纠错的设备和方法
CN104765729A (zh) 一种跨平台微博社区账户匹配方法
CN103942272A (zh) 图片搜索方法和装置
CN103914487B (zh) 文档的采集、标识及关联的系统
CN106330520A (zh) 一种终端设备的特征信息的提取方法及装置
CN105608201A (zh) 一种支持多关键词表达式的文本匹配方法
CN103914488A (zh) 文档的采集、标识、关联、搜索及展现的系统
JP2022518645A (ja) 映像配信時効の決定方法及び装置
CN105183916A (zh) 一种管理非结构化数据的装置和方法
CN106227799A (zh) 一种基于分布式数据库的sql语句处理方法
CN103064842A (zh) 信息订阅处理装置和信息订阅处理方法
CN110413807A (zh) 一种基于内容语义元数据的图像查询方法与系统
JP6072922B2 (ja) 文字列検索装置、文字列検索方法および文字列検索プログラム
CN104657383B (zh) 一种基于关联特性的重复视频检测方法与系统
CN105320715A (zh) 基于本体的语义查询方法
CN105426490B (zh) 一种基于树形结构的索引方法
KR20180077830A (ko) 비공유 아키텍처 기반의 분산 스트림 처리 엔진에서 관계형 질의를 처리하는 방법, 이를 수행하기 위한 기록 매체 및 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160525