CN201867808U - 一种基于多词表的关键词快速匹配的系统 - Google Patents

一种基于多词表的关键词快速匹配的系统 Download PDF

Info

Publication number
CN201867808U
CN201867808U CN 201020523595 CN201020523595U CN201867808U CN 201867808 U CN201867808 U CN 201867808U CN 201020523595 CN201020523595 CN 201020523595 CN 201020523595 U CN201020523595 U CN 201020523595U CN 201867808 U CN201867808 U CN 201867808U
Authority
CN
China
Prior art keywords
keyword
text
vocabulary
services device
processing equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CN 201020523595
Other languages
English (en)
Inventor
熊家贵
洪林
伍星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING KAIXINREN INFORMATION TECHNOLOGY Co Ltd
Original Assignee
BEIJING KAIXINREN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING KAIXINREN INFORMATION TECHNOLOGY Co Ltd filed Critical BEIJING KAIXINREN INFORMATION TECHNOLOGY Co Ltd
Priority to CN 201020523595 priority Critical patent/CN201867808U/zh
Application granted granted Critical
Publication of CN201867808U publication Critical patent/CN201867808U/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本实用新型公开了一种基于多词表的关键词快速匹配的系统,包括:web服务器(1)、文本处理设备(3)、关键词服务器(2)和设于关键词服务器(2)上的词表存储设备(4);其中,web服务器(1)与文本处理设备(3)和关键词服务器(2)分别连接,文本处理设备(3)连接关键词服务器(2);本实用新型通过在服务器中设置词表存储设备,来存储按照关键词内容划分的多个词表,关键词匹配时,直接调用对应的词表,无需另行建立词表,节约了建表时间,从而提高了关键词匹配速度。另外,本实用新型由于设置了专门的关键词服务器,使关键词服务器应用范围变得广泛,既可以用于查找好友时对姓名的过滤,也可以用于对关键词的定位,可扩展性强。

Description

一种基于多词表的关键词快速匹配的系统
技术领域
本实用新型涉及一种基于多词表的关键词快速匹配的系统,属于文本数据检索领域。
背景技术
多关键词匹配时计算机科学领域中的基本问题之一,它需要解决的问题就是快速准确地判断某一文本或数据块中是否包含给定的关键词集合中的某个或者某些关键词。随着互联网技术的飞速发展和网络应用的普及,数据处理量日益增大。在网络应用环境中,存在大量的实时数据处理的需求。同时网络攻击行为和手段的日益复杂化,病毒的不断涌现,网络安全应用的关键词规模也随之不断扩大。网络内容及敏感信息过滤所用到的规则集一般是几万条,甚至更多。
现有的多关键词匹配技术,通常对任何关键词的查找都使用一个词库,对词库中所有的词都进行查找。由于网络关键词的规模扩大,使得查找范围变大,过滤不相关的关键词的工作量也增加,导致查找速度慢、效率低,并且查找的过程中还需要根据关键词的查找来另行建立关键词的集合词表,会占用一定的存储空间更需要花费时间,查询效率低。以上多关键词匹配技术的缺陷,会导致关键词匹配的速度下降,给用户带来不好的检索体验。
实用新型内容
本实用新型的目的在于,提供一种基于多词表的关键词快速匹配的系统,它能够把词库中的关键词按照内容的不同划分为多个词表,从而提高了关键词的匹配速度。
为解决上述技术问题,本实用新型采用如下的技术方案:一种基于多词表的关键词快速匹配的系统,它包括:
web服务器,用于将接收到的关键词查询请求发送给文本处理设备,查找词表存储设备中与之对应的词表发送给关键词服务器;
文本处理设备,用于将需要进行关键词查找的文本信息发送给关键词服务器;
关键词服务器,用于结合词表和文本信息进行检索匹配,将匹配结果返回给web服务器;
设于关键词服务器上的词表存储设备,用于存储多个词表,所述词表为按照不同内容划分的关键词的集合;
其中,web服务器与文本处理设备和关键词服务器分别连接,文本处理设备连接关键词服务器。
本实用新型设置词表存储设备,将词库中的关键词按照内容的不同划分为多小个词表,查找时根据关键词直接调用相应的小词表,而不是统一使用一个大词表对词库中所有的词进行查找,减少了词表容量,进行关键词匹配时无需另行建立词表,节约了建表时间,提高了匹配速度。
所述web服务器,根据关键词所涉及的类别,查找词表存储设备中与之对应的词表,将词表发送给关键词服务器。
所述的文本处理设备,根据客户端设备发出的请求,将需要进行关键词查找的文本信息发送给关键词服务器。
所述的关键词服务器,结合web服务器提供的词表和文本处理设备提供的文本进行检索匹配。
所述的文本信息是以电子形式存储的信息,并且文本长度比较大,从几个字节到几千字节,甚至更大。用户可能对文本的内容并不感兴趣,只是想找出关键词所处的位置,或者想快速定位到关键词的位置,查看关键词前后的内容,或者想知道被查找的文本中有没有他输入的关键词。
所述词表中的关键词的长度是不相等的。本实用新型所述的词表常驻在内存,不需要查找时再根据关键词另行建立。词表按照一定的内容进行划分,对于不同的搜索或检索,使用不同的词表。例如对于对话的内容和日志的标题就需要使用不同的词表进行过滤。
前述的一种基于多词表的关键词快速匹配的系统中,所述的关键词服务器设有两个数据接口,分别与文本处理设备和web服务器连接。其中一个接口用于接收词表,另一个用于接收文本内容。这种结构具有使用方便,简洁,通用性强等优点。
前述的一种基于多词表的关键词快速匹配的系统中,所述关键词服务器中设有结果处理设备,用于向web服务器返回匹配结果。当前文本中有词表中的关键词时,返回匹配成功信息,当前文本中没有词表中的关键词时,返回匹配失败信息。为了让用户使用方便,无论是匹配成功还是匹配失败,都给用户返回一个消息,以通知用户查到的结果。
与现有技术相比,本实用新型通过在服务器中设置词表存储设备,来存储按照词库中关键词内容的不同划分为多个小词表,减少了词表容量,需要进行关键词匹配时,直接从词表存储设备中调用对应的词表,无需另行建立词表,节约了建表时间,从而提高了关键词的匹配速度。另外,本实用新型由于设置了专门的关键词服务器,使关键词服务器的应用范围变得广泛,既可以用于查找好友时对姓名的过滤,也可以用于对关键词的定位,可扩展性强,关键词服务器具有两个数据接口,分别与web服务器连接,这种结构具有使用方便,简洁,通用性强等优点。
附图说明
图1是本实用新型的一种实施例的结构示意图;
图2是本实用新型的一种实施例的工作流程图。
附图中的标记:1- web服务器,2-关键词服务器,3-文本处理设备,4-词表存储设备,5-结果处理设备。
下面结合附图和具体实施方式对本实用新型作进一步的说明。
具体实施方式
本实用新型的实施例:一种基于多词表的关键词快速匹配的系统,结构如图1所示;包括:
web服务器1,用于接收客户端设备发出的关键词查询请求并将此信息发送给文本处理设备3,同时根据关键词所涉及的类别,查找词表存储设备4中与之对应的词表,将词表发送给关键词服务器2;
文本处理设备3,用于根据客户端设备发出的请求,将需要进行关键词查找的文本信息发送给关键词服务器2;
关键词服务器2,用于结合web服务器1提供的词表和文本处理设备3提供的文本进行检索匹配,得到匹配结果并将结果返回给web服务器1;
设于关键词服务器2上的词表存储设备4,用于存储多个词表,所述词表为按照不同内容划分的关键词的集合;
其中,web服务器1与文本处理设备3和关键词服务器2分别连接,文本处理设备3连接关键词服务器2。
所述web服务器,根据关键词所涉及的类别,查找词表存储设备中与之对应的词表,将词表发送给关键词服务器。
所述的文本处理设备,根据客户端设备发出的请求,将需要进行关键词查找的文本信息发送给关键词服务器。
所述的关键词服务器,结合web服务器提供的词表和文本处理设备提供的文本进行检索匹配。
所述的文本信息是以电子形式存储的信息,并且文本长度比较大,从几个字节到几千字节,甚至更大。用户可能对文本的内容并不感兴趣,只是想找出关键词所处的位置,或者想快速定位到关键词的位置,查看关键词前后的内容,或者想知道被查找的文本中有没有他输入的关键词。
所述词表中的关键词的长度是不相等的。本实用新型所述的词表常驻在内存,不需要查找时再根据关键词另行建立。词表按照一定的内容进行划分,对于不同的搜索或检索,使用不同的词表。例如对于对话的内容和日志的标题就需要使用不同的词表进行过滤。
所述的关键词服务器2具有两个数据接口,分别与文本处理设备3和web服务器1连接;其中一个接口用于接收词表,另一个用于接收文本内容。这种结构具有使用方便,简洁,通用性强等优点。
所述关键词服务器2中设有结果处理设备5,用于向web服务器1返回匹配结果,当前文本中有词表中的关键词时,返回匹配成功信息,当前文本中没有词表中的关键词时,返回匹配失败信息。为了让用户使用方便,无论是匹配成功还是匹配失败,都给用户返回一个消息,以通知用户查到的结果。
本实用新型的工作流程:(如图2所示)
S10:接收关键词查询请求;
S20:web服务器将需要进行关键词查找的文本信息发送给关键词服务器;
S30:web服务器调用关键词对应的词表并发送给关键词服务器;
S40:关键词服务器结合词表和文本进行检索匹配,将结果返回给web服务器;
S50:  web服务器接收并处理匹配结果。

Claims (3)

1.一种基于多词表的关键词快速匹配的系统,其特征在于,包括:
web服务器(1),用于将接收到的关键词查询请求发送给文本处理设备(3),查找词表存储设备(4)中与之对应的词表发送给关键词服务器(2);
文本处理设备(3),用于将需要进行关键词查找的文本信息发送给关键词服务器(2);
关键词服务器(2),用于结合词表和文本信息进行检索匹配,将匹配结果返回给web服务器(1);
设于关键词服务器(2)上的词表存储设备(4),用于存储多个词表;
其中,web服务器(1)与文本处理设备(3)和关键词服务器(2)分别连接,文本处理设备(3)连接关键词服务器(2)。
2.根据权利要求1所述的一种基于多词表的关键词快速匹配的系统,其特征在于,所述的关键词服务器(2)具有两个数据接口,分别与文本处理设备(3)和web服务器(1)连接。
3.根据权利要求1或2所述的一种基于多词表的关键词快速匹配的系统,其特征在于,所述关键词服务器(2)中设有结果处理设备(5),用于向web服务器(1)返回匹配结果。
CN 201020523595 2010-09-09 2010-09-09 一种基于多词表的关键词快速匹配的系统 Expired - Lifetime CN201867808U (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201020523595 CN201867808U (zh) 2010-09-09 2010-09-09 一种基于多词表的关键词快速匹配的系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201020523595 CN201867808U (zh) 2010-09-09 2010-09-09 一种基于多词表的关键词快速匹配的系统

Publications (1)

Publication Number Publication Date
CN201867808U true CN201867808U (zh) 2011-06-15

Family

ID=44138960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201020523595 Expired - Lifetime CN201867808U (zh) 2010-09-09 2010-09-09 一种基于多词表的关键词快速匹配的系统

Country Status (1)

Country Link
CN (1) CN201867808U (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402613A (zh) * 2011-12-20 2012-04-04 上海电机学院 网页文本信息过滤系统及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402613A (zh) * 2011-12-20 2012-04-04 上海电机学院 网页文本信息过滤系统及方法

Similar Documents

Publication Publication Date Title
US11899681B2 (en) Knowledge graph building method, electronic apparatus and non-transitory computer readable storage medium
CN102436513B (zh) 分布式检索方法和系统
CN101202966B (zh) 一种用户信息的收集方法、系统及设备
CN101158954B (zh) 一种在计算机存储中识别重复数据的方法
CN102164186A (zh) 一种实现云搜索服务的方法及系统
EP3311305A1 (en) Automated database schema annotation
CN103491089B (zh) 一种基于http的数据还原中的转码方法及系统
CN110162522A (zh) 一种分布式数据搜索系统及方法
WO2014127673A1 (en) Method and apparatus for acquiring hot topics
Elshater et al. godiscovery: Web service discovery made efficient
CN103902535A (zh) 获取联想词的方法、装置及系统
US20150120708A1 (en) Information aggregation, classification and display method and system
CN115455161A (zh) 对话处理方法、装置、电子设备及存储介质
CN111737443B (zh) 答案文本的处理方法和装置、关键文本的确定方法
US20220358178A1 (en) Data query method, electronic device, and storage medium
CN103532737A (zh) 一种处理多种类型告警的方法、装置及系统
CN201867808U (zh) 一种基于多词表的关键词快速匹配的系统
CN101923580A (zh) 一种基于多词表的关键词快速匹配的方法与系统
CN112597216A (zh) 一种适配多种时序数据库的微服务的方法和装置
CN103020300B (zh) 一种信息检索方法和设备
CN103646034A (zh) 一种基于内容可信的Web搜索引擎系统及搜索方法
CN102129454A (zh) 一种基于云存储的百科数据处理方法及系统
CN108776705B (zh) 一种文本全文精确查询的方法、装置、设备及可读介质
CN104111942A (zh) 维吾尔医药古籍资源网络检索平台
CN111159213A (zh) 一种数据查询方法、装置、系统和存储介质

Legal Events

Date Code Title Description
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20110615