CN105608201A - 一种支持多关键词表达式的文本匹配方法 - Google Patents
一种支持多关键词表达式的文本匹配方法 Download PDFInfo
- Publication number
- CN105608201A CN105608201A CN201510995759.2A CN201510995759A CN105608201A CN 105608201 A CN105608201 A CN 105608201A CN 201510995759 A CN201510995759 A CN 201510995759A CN 105608201 A CN105608201 A CN 105608201A
- Authority
- CN
- China
- Prior art keywords
- keyword
- matching
- stage
- text
- expression formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及网络检索技术领域,特别是一种支持多关键词表达式的文本匹配方法,包括以下步骤,步骤S101:语法转换阶段,将多关键词表达式转换为多组关键词;步骤S102:关键词匹配阶段,以语法转换阶段输出的多组关键词作为输入,采用关键词匹配算法完成,获得文本中出现过的关键词;步骤S103:匹配度确定阶段,以关键词匹配阶段输出的出现过关键词的文本作为输入,将关键词匹配阶段出现过的关键词与语法转换阶段获得的多组关键词进行匹配程度确定。采用上述方法后,本发明多关键词表达式的文本匹配方法,支持多关键词表达式进行文本匹配,能够在一个表达式中表达复杂的匹配逻辑,提供了更为强大的匹配能力。
Description
技术领域
本发明涉及网络检索技术领域,特别是一种支持多关键词表达式的文本匹配方法。
背景技术
针对文本数据,存在多个关键词需要匹配的情况下,已有较多经典算法,这些算法解决的问题都是如何在文本数据中精确匹配关键词,主要差别在算法的复杂度上,即给定n个关键词,针对一段文本数据,当计算结束时,会给出在文本中出现过的关键词。
在实际运用中,可以借助逻辑运算符将多个关键词连接在一起,形成一个关键词表达式,从而能够表述关键词间更复杂的逻辑关系,继而获得更强大的匹配能力,这是目前的算法所不支持的。
举个例子,给定3个关键词:中国、足球、2015,传统算法只会给出匹配到了哪些关键词;假如用户想关心的是中国足球在2015年的相关信息,那么可以将3个关键词表达为“中国&&足球&&2015”,意为该3个关键词必须在同一个文本数据中同时出现,才算命中。
中国发明专利申请CN101398820A公开了一种大规模关键词匹配方法,包括预处理阶段和模式匹配阶段,预处理阶段包括关键词特征串裁剪、基于关键词特征串集合的多个简单布隆过滤器的构造,基于关键词特征串集合的哈希表构造:模式匹配阶段包括:利用先前构造的简单布隆过滤器序列实现当前窗口中文本串不与任何关键词特征串匹配的快速判定;在判定失败情况下执行与候选关键词的精确匹配;文本扫描过程中,可以利用递归算法快速计算出当前文本相对于各简单布隆过滤器的当前散列值。虽然,此发明利用里递归散列算法高效的特点,可实现大规模关键词场景下的高速匹配,但是此发明无法对关键词表达式进行文本匹配。
发明内容
本发明需要解决的技术问题提供一种能够基于多关键词表达式进行文本匹配的方法。
为解决上述的技术问题,本发明的一种支持多关键词表达式的文本匹配方法,包括以下步骤,
步骤S101:语法转换阶段,将多关键词表达式转换为多组关键词;
步骤S102:关键词匹配阶段,以语法转换阶段输出的多组关键词作为输入,采用关键词匹配算法完成,获得文本中出现过的关键词;
步骤S103:匹配度确定阶段,以关键词匹配阶段输出的出现过关键词的文本作为输入,将关键词匹配阶段出现过的关键词与语法转换阶段获得的多组关键词进行匹配程度确定。
进一步的,所述步骤S101语法转换阶段具体包括以下步骤,
步骤S1011:运算符和操作数提取,提取多关键词表达式中的运算符和操作数;
步骤S1012:括号内表达式计算,优先计算括号内的表达式;
步骤S1013:括号间逻辑关系,计算各括号间的逻辑关系。
进一步的,所述步骤S101中任意一组中的关键词必须同时出现,组之间任意出现一组,表示文本匹配成功。
更进一步的,步骤S103中将关键词匹配阶段出现过的关键词与语法转换阶段获得的多组关键词进行匹配程度确定是指判断语法转换阶段获得的多组关键词中是否存在任意一组关键词是关键词匹配阶段出现的关键词的子集;如果存在,则确定该文本匹配成功,否则匹配失败。
采用上述方法后,本发明多关键词表达式的文本匹配方法,支持多关键词表达式进行文本匹配,能够在一个表达式中表达复杂的匹配逻辑,提供了更为强大的匹配能力。
附图说明
下面将结合附图和具体实施方式对本作进一步详细的说明。
图1为本发明一种支持多关键词表达式的文本匹配方法的流程图。
具体实施方式
如图1所示,本发明的一种支持多关键词表达式的文本匹配方法,包括以下步骤,
步骤S101:语法转换阶段,将多关键词表达式转换为多组关键词。
所述步骤S101语法转换阶段具体包括以下步骤,
步骤S1011:运算符和操作数提取,提取多关键词表达式中的运算符和操作数;
步骤S1012:括号内表达式计算,优先计算括号内的表达式;
步骤S1013:括号间逻辑关系,计算各括号间的逻辑关系。
语法转换阶段是将多关键词表达式转换为另一种表达形式,即转换为多组关键词,一组中的关键词必须是同时出现,组之间任意出现一组,就表示文本匹配成功。以“(西游记之大圣归来||捉妖记)&&影评”为例,转换后的表达形式为2组关键词:“西游记之大圣归来影评”、“捉妖记影评”,待匹配文本只要出现上述2组关键词中的任一组即匹配成功。
步骤S102:关键词匹配阶段,以语法转换阶段输出的多组关键词作为输入,采用关键词匹配算法完成,获得文本中出现过的关键词。基于经典的多关键词匹配算法完成,算法有多种,可根据实际需求进行选择,在此不再累述,该阶段完成后,获得文本中出现过的关键词。
步骤S103:匹配度确定阶段,以关键词匹配阶段输出的出现过关键词的文本作为输入,将关键词匹配阶段出现过的关键词与语法转换阶段获得的多组关键词进行匹配程度确定。步骤S103中将关键词匹配阶段出现过的关键词与语法转换阶段获得的多组关键词进行匹配程度确定是指判断语法转换阶段获得的多组关键词中是否存在任意一组关键词是关键词匹配阶段出现的关键词的子集;如果存在,则确定该文本匹配成功,否则匹配失败。
虽然以上描述了本发明的具体实施方式,但是本领域熟练技术人员应当理解,这些仅是举例说明,可以对本实施方式作出多种变更或修改,而不背离发明的原理和实质,本发明的保护范围仅由所附权利要求书限定。
Claims (4)
1.一种支持多关键词表达式的文本匹配方法,其特征在于,包括以下步骤,
步骤S101:语法转换阶段,将多关键词表达式转换为多组关键词;
步骤S102:关键词匹配阶段,以语法转换阶段输出的多组关键词作为输入,采用关键词匹配算法完成,获得文本中出现过的关键词;
步骤S103:匹配度确定阶段,以关键词匹配阶段输出的出现过关键词的文本作为输入,将关键词匹配阶段出现过的关键词与语法转换阶段获得的多组关键词进行匹配程度确定。
2.按照权利要求1所述的一种支持多关键词表达式的文本匹配方法,其特征在于,所述步骤S101语法转换阶段具体包括以下步骤,
步骤S1011:运算符和操作数提取,提取多关键词表达式中的运算符和操作数;
步骤S1012:括号内表达式计算,优先计算括号内的表达式;
步骤S1013:括号间逻辑关系,计算各括号间的逻辑关系。
3.按照权利要求1所述的一种支持多关键词表达式的文本匹配方法,其特征在于:所述步骤S101中任意一组中的关键词必须同时出现,组之间任意出现一组,表示文本匹配成功。
4.按照权利要求3所述的一种支持多关键词表达式的文本匹配方法,其特征在于:步骤S103中将关键词匹配阶段出现过的关键词与语法转换阶段获得的多组关键词进行匹配程度确定是指判断语法转换阶段获得的多组关键词中是否存在任意一组关键词是关键词匹配阶段出现的关键词的子集;如果存在,则确定该文本匹配成功,否则匹配失败。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510995759.2A CN105608201A (zh) | 2015-12-28 | 2015-12-28 | 一种支持多关键词表达式的文本匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510995759.2A CN105608201A (zh) | 2015-12-28 | 2015-12-28 | 一种支持多关键词表达式的文本匹配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105608201A true CN105608201A (zh) | 2016-05-25 |
Family
ID=55988140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510995759.2A Pending CN105608201A (zh) | 2015-12-28 | 2015-12-28 | 一种支持多关键词表达式的文本匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105608201A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959212A (zh) * | 2017-05-19 | 2018-12-07 | 北京庖丁科技有限公司 | 根据文本语义补充内容的方法和装置 |
CN109542845A (zh) * | 2018-11-14 | 2019-03-29 | 广州瞬速信息科技有限公司 | 一种基于关键词表达式的文本元数据提取方法 |
CN109614486A (zh) * | 2018-11-28 | 2019-04-12 | 宇捷东方(北京)科技有限公司 | 一种基于自然语言处理技术的服务自动推送系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102053993A (zh) * | 2009-11-10 | 2011-05-11 | 阿里巴巴集团控股有限公司 | 一种文本过滤方法及文本过滤系统 |
CN102163194A (zh) * | 2010-02-21 | 2011-08-24 | 北京金山软件有限公司 | 一种关键字即时检索方法及系统 |
US8972450B2 (en) * | 2013-04-17 | 2015-03-03 | National Taiwan University | Multi-stage parallel multi-character string matching device |
-
2015
- 2015-12-28 CN CN201510995759.2A patent/CN105608201A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102053993A (zh) * | 2009-11-10 | 2011-05-11 | 阿里巴巴集团控股有限公司 | 一种文本过滤方法及文本过滤系统 |
CN102163194A (zh) * | 2010-02-21 | 2011-08-24 | 北京金山软件有限公司 | 一种关键字即时检索方法及系统 |
US8972450B2 (en) * | 2013-04-17 | 2015-03-03 | National Taiwan University | Multi-stage parallel multi-character string matching device |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959212A (zh) * | 2017-05-19 | 2018-12-07 | 北京庖丁科技有限公司 | 根据文本语义补充内容的方法和装置 |
CN108959212B (zh) * | 2017-05-19 | 2021-07-13 | 北京庖丁科技有限公司 | 根据文本语义补充内容的方法和装置 |
CN109542845A (zh) * | 2018-11-14 | 2019-03-29 | 广州瞬速信息科技有限公司 | 一种基于关键词表达式的文本元数据提取方法 |
CN109542845B (zh) * | 2018-11-14 | 2022-12-30 | 广州瞬速信息科技有限公司 | 一种基于关键词表达式的文本元数据提取方法 |
CN109614486A (zh) * | 2018-11-28 | 2019-04-12 | 宇捷东方(北京)科技有限公司 | 一种基于自然语言处理技术的服务自动推送系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10997220B2 (en) | Search box auto-complete | |
CN103902698B (zh) | 一种数据存储系统和存储方法 | |
CN103678491A (zh) | 一种基于Hadoop中小文件优化和倒排索引的方法 | |
KR101617696B1 (ko) | 데이터 정규표현식의 마이닝 방법 및 장치 | |
CN105224554A (zh) | 推荐搜索词进行搜索的方法、系统、服务器和智能终端 | |
CN103778251B (zh) | 面向大规模rdf图数据的sparql并行查询方法 | |
CN101154228A (zh) | 一种分段模式匹配方法及其装置 | |
CN103699689A (zh) | 事件知识库的构建方法及装置 | |
CN104778210B (zh) | 一种微博转发树和转发森林构建方法 | |
CN103942272A (zh) | 图片搜索方法和装置 | |
CN103092943A (zh) | 一种广告调度的方法和广告调度服务器 | |
CN109992766A (zh) | 提取目标词的方法和装置 | |
CN103914487B (zh) | 文档的采集、标识及关联的系统 | |
CN103914488A (zh) | 文档的采集、标识、关联、搜索及展现的系统 | |
CN105404677A (zh) | 一种基于树形结构的检索方法 | |
CN105608201A (zh) | 一种支持多关键词表达式的文本匹配方法 | |
JP2022518645A (ja) | 映像配信時効の決定方法及び装置 | |
CN106227799A (zh) | 一种基于分布式数据库的sql语句处理方法 | |
CN110990057A (zh) | 小程序子链信息的提取方法、装置、设备及介质 | |
KR101955376B1 (ko) | 비공유 아키텍처 기반의 분산 스트림 처리 엔진에서 관계형 질의를 처리하는 방법, 이를 수행하기 위한 기록 매체 및 장치 | |
WO2015025467A1 (ja) | 文字列検索装置、文字列検索方法および文字列検索プログラム | |
CN105354283A (zh) | 一种资源的搜索方法和装置 | |
CN103914486A (zh) | 文档的搜索及展现的系统 | |
CN110413807A (zh) | 一种基于内容语义元数据的图像查询方法与系统 | |
CN104657383B (zh) | 一种基于关联特性的重复视频检测方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160525 |