CN106407229A - 一种网页关键词匹配的方法和系统 - Google Patents

一种网页关键词匹配的方法和系统 Download PDF

Info

Publication number
CN106407229A
CN106407229A CN201510468072.3A CN201510468072A CN106407229A CN 106407229 A CN106407229 A CN 106407229A CN 201510468072 A CN201510468072 A CN 201510468072A CN 106407229 A CN106407229 A CN 106407229A
Authority
CN
China
Prior art keywords
word
webpage
retrieval
target text
key word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510468072.3A
Other languages
English (en)
Inventor
石磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TVM Beijing Technology Co Ltd
Original Assignee
TVM Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TVM Beijing Technology Co Ltd filed Critical TVM Beijing Technology Co Ltd
Priority to CN201510468072.3A priority Critical patent/CN106407229A/zh
Publication of CN106407229A publication Critical patent/CN106407229A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网页关键词匹配的方法和系统,该方法包括:设置关键词;网页JavaScript脚本中添加对象retrieval();网页自动把所述关键词设置为所述retrieval()对象的属性的值;网页JavaScript脚本自动识别目标文本中的每个单词;网页JavaScript脚本将目标文本中的每个单词与retrieval()对象属性的值进行比对;目标文本中的单词与retrieval()对象属性的值相同,则识别该单词与关键词匹配;网页显示匹配结果。本发明技术方案利用JavaScript自带函数实现关键词比对,能够快速实现网页文本中单词和关键词的匹配,大量节约了计算资源、存储资源和计算时间,提高了网页文本信息利用的效率。

Description

一种网页关键词匹配的方法和系统
技术领域
本发明涉及互联网技术领域,特别涉及一种网页关键词匹配的方法和系统。
背景技术
随着网络的迅速发展,互联网成为大量信息的载体,文字、图片、数据库、音频、视频多媒体等不同类型数据大量出现于网络,再加以各式各样的网页设计,人类进入了信息爆炸的时代。互联网信息呈现了数据巨大、内容广泛、形式多样、增长迅速的特点。截至2014年12月,仅中国的网页数量达到1899亿个,年增长26.6%。随着个人博客、自媒体的发展,以及互联网媒体的快速发展,互联网页的数量将会以几何级速的增长。
互联网传播速度快,内容共享自由,所以互联网成为了一个集各种信息资源为一体的资源网,来自各方的人士随时都可以在网上发布信息。这就造成了互联网信息增长迅速、种类繁多、分布广泛的特点,也带来互联网信息资源在使用过程中的效率低下,主要表现为:
1、由于接入互联网的便捷性,网络信息资源几乎是无所不包,而且类型丰富多样,覆盖了不同学科、不同领域、不同地区、不同语言的信息,在形式上包括文本、图像、声音、软件、数据库等,是多媒体、多领域、多语种、多类型的信息资源混合体。用户在使用互联网资源的时候,具有较大的选择余地,能够在短时间内、低成本的获得大量的信息。在互联网搜索引擎上输入关键词,同一个主题的检索结果就可以达到以万为单位的数量。这些庞大的信息资源,能够满足使用条件的检索记录很少,需要从巨量信息中挑选符合要求的信息记录。但是,这也带来了信息过度提供的问题,使用效率低下。
2、互联网信息由于信息获得成本低,而且现代信息技术的发展使得信息很容易复制,造成了互联网信息传播迅速,在网络信息环境下,时间和空间范围得到了最大程度的延伸和扩展,也造成了重复性高的特点。用户使用互联网信息,往往面对的是大量的重复性信息,无法快速的获得所要求的内容。
3、信息质量参差不齐,有序与无序并存。由于互联网的开放性和自由性,网络信息的发布缺少质量控制和管理机制,网络上的很多资源并没有经过审核,使得网络信息繁杂、混乱,质量参差不齐,给用户选择带来困难。
为了加强互联网信息利用的效率,关键词检索、单词匹配技术对于筛选有用信息具有重要的作用。互联网环境下所用到的关键词匹配大多是多关键词匹配,也称为多模式匹配,是经典的算法问题。关键词匹配的技术根据处理对象的不同,分为数据流的线性处理和静态文档的索引处理。现有的关键词检索技术不管采取什么处理模式,都是通过循环和遍历来实现,目标文本中出现的每个单词和关键词进行比对的过程都要占用一个循环,完成整个文本中单词的匹配需要占用大量的计算资源、存储资源和计算时间。这对于互联网环境下的庞大信息资源的有效利用造成了瓶颈。
发明内容
本发明提供一种网页关键词匹配的方法和系统,利用JavaScript自带函数实现关键词比对,能够快速实现网页文本中单词和关键词的匹配,大量节约了计算资源、存储资源和计算时间,提高了网页文本信息利用的效率。
本发明的技术方案提供了一种网页关键词匹配的方法,包括以下步骤:
设置关键词;
网页JavaScript脚本中添加对象retrieval();
网页自动把所述关键词设置为所述retrieval()对象的属性的值;
网页JavaScript脚本自动识别目标文本中的每个单词;
网页JavaScript脚本将目标文本中的每个单词与retrieval()对象属性的值进行比对;
目标文本中的单词与retrieval()对象属性的值相同,则识别该单词与关键词匹配。
进一步的,关键词的数量为至少1个。
进一步的,关键词或Retrieval()对象属性的值是数字、英文字母、汉字或符号的任意组合。
进一步的,Retrieval()对象属性的数量默认为5个。
进一步的,所述目标文本为网页中的所有文本,JavaScript脚本将网页中的所有文本进行分析,自动分离出独立的单词。
进一步的,目标文本中与关键词匹配的单词在网页中显示用彩色阴影标识出。
进一步的,目标文本中无匹配单词,则弹窗显示无匹配结果。
本发明的技术方案还提供了一种网页关键词匹配的系统,其特征在于,包括:关键词输入单元,网页单词获取单元,匹配单元,显示单元,其中,
关键词输入单元用于获取关键词;
网页单词获取单元用于对目标文本进行分析,分离出文本中的每个单词;
匹配单元用于将所述文本中的单词与关键词进行匹配,如果匹配成功,则确定此单词与关键词相同,生成一个匹配结果;
显示单元用于在网页上将与关键词匹配的单词用彩色阴影标识显示出来。
进一步的,在网页JavaScript脚本中添加retrieval()对象,并把关键词赋值为retrieval()对象的属性的值。
进一步的,所述匹配单元是将目标文本中分离出的单词与retrieval()对象的属性值进行比对,如果相同则确认为匹配成功。
本发明技术方案采用JavaScript自带函数实现关键词比对,避免了经典的关键词匹配算法中所需要的大量的对比循环和遍历流程,充分利用了计算机编程语言自带函数的高效性,大大节约了对计算资源、存储资源的占用,节约了匹配处理流程的时间,为有效利用网页文本信息提供了有力的工具,提高了对网页文本信息资源利用的效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例一中网页关键词匹配的方法流程图;
图2为本发明实施例一中网页关键词匹配的系统结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1为本发明实施例一中网页关键词匹配的方法流程图。如图1所示,该该网页关键词匹配的方法的流程包括以下步骤:
步骤101:设置关键词。
所设置的关键词的数量为至少1个,不超过5个;
关键词是数字、英文字母、汉字或符号的任意组合,可以是纯数字、纯字母、纯汉字,或者数字、英文字母、汉字与符号的组合,单纯符号不能作为关键词。
步骤102:网页JavaScript脚本中添加对象retrieval()。
JavaScript脚本是以对象为基础的计算机语言,添加retrieval()函数,作为关键词匹配的检索入口。
步骤103:网页自动把所述关键词设置为所述retrieval()对象的属性的值。
Retrieval()对象属性的值与关键词的取值范围相同,可以是纯数字、纯字母、纯汉字,或者数字、英文字母、汉字与符号的组合,单纯符号不能作为属性值;
Retrieval()对象属性的数量默认为5个;
关键词输入完成后,点击确认,网页脚本自动赋值给retrieval()对象属性,使得retrieval()对象属性的值等于关键词。
步骤104:网页JavaScript脚本自动识别目标文本中的每个单词。
目标文本为网页中的所有文本,网页中所有的文字都会作为关键词匹配的分析对象;
JavaScript脚本将网页中的所有文本进行分析,自动分离出独立的单词,并剔除掉“的”、“地”、“得”等助词、“吧”、“吗”、“啊”等叹词。
步骤105:网页JavaScript脚本将目标文本中的每个单词与retrieval()对象属性的值进行比对。
目标文本中分离出单词后,匹配单元将每个单词与retrieval()对象属性的值进行比对。
步骤106:网页显示匹配结果。
根据步骤105的比对结果,目标文本中与关键词匹配的单词在网页中显示用彩色阴影标识出;
相同的单词用相同的颜色阴影,不同的单词之间用不同的颜色区分;
目标文本中无匹配单词,则弹窗显示无匹配结果。
为了实现上述网页关键词匹配的流程,本实施例还提供了一种网页关键词匹配的系统,图2为本发明实施例一中网页关键词匹配的系统结构图。
如图2所示,该系统包括:关键词输入单元201,网页单词获取单元202,匹配单元203,显示单元204,其中,
关键词输入单元用于输入关键词;
网页单词获取单元用于对目标文本进行分析,分离出文本中的每个单词;
匹配单元用于将所述文本中的单词与关键词进行匹配,如果匹配成功,则确定此单词与关键词相同,生成一个匹配结果;
显示单元用于在网页上将与关键词匹配的结果显示出来,与关键词相同的单词用彩色阴影标识显示出来,无匹配结果则显示无匹配结果。
进一步的,在网页JavaScript脚本中添加retrieval()对象,并把关键词赋值为retrieval()对象属性的值,作为文本单词比对的对象,对象属性的数量默认为5个。
进一步的,匹配单元是将目标文本中分离出的单词与retrieval()对象属性的值进行比对,如果相同则确认为匹配成功。
上述实施例中的技术方案由于采用JavaScript自带函数实现关键词比对,避免了经典的关键词匹配算法中所需要的大量的对比循环和遍历流程,充分利用了计算机编程语言自带函数的高效性,大大节约了对计算资源、存储资源的占用,节约了匹配处理流程的时间,为有效利用网页文本信息提供了有力的工具,提高了对网页文本信息资源利用的效率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种网页关键词匹配的方法,其特征在于,包括以下步骤:
设置关键词;
网页JavaScript脚本中添加对象retrieval();
网页自动把所述关键词设置为所述retrieval()对象的属性的值;
网页JavaScript脚本自动识别目标文本中的每个单词;
网页JavaScript脚本将目标文本中的每个单词与retrieval()对象属性的值进行比对;
目标文本中的单词与retrieval()对象属性的值相同,则识别该单词与关键词匹配;
网页显示匹配结果。
2.根据权利要求1所述的方法,其特征在于,关键词的数量为至少1个。
3.根据权利要求1所述的方法,其特征在于,关键词或Retrieval()对象属性的值是数字、英文字母、汉字或符号的任意组合。
4.根据权利要求1所述的方法,其特征在于,Retrieval()对象属性的数量默认为5个。
5.根据权利要求1所述的方法,其特征在于,所述目标文本为网页中的所有文本,JavaScript脚本将网页中的所有文本进行分析,自动分离出独立的单词。
6.根据权利要求1所述的方法,其特征在于,目标文本中与关键词匹配的单词在网页中显示用彩色阴影标识出。
7.根据权利要求1所述的方法,其特征在于,目标文本中无匹配单词,则弹窗显示无匹配结果。
8.一种网页关键词匹配的系统,其特征在于,包括:关键词输入单元,网页单词获取单元,匹配单元,显示单元,其中,
关键词输入单元用于获取关键词;
网页单词获取单元用于对目标文本进行分析,分离出文本中的每个单词;
匹配单元用于将所述文本中的单词与关键词进行匹配,如果匹配成功,则确定此单词与关键词相同,生成一个匹配结果;
显示单元用于在网页上将与关键词匹配的单词用彩色阴影标识显示出来。
9.根据权利要求8所述的系统,其特征在于,在网页JavaScript脚本中添加retrieval()对象,并把关键词赋值为retrieval()对象的属性的值。
10.根据权利要求8所述的系统,所述匹配单元是将目标文本中分离出的单词与retrieval()对象的属性值进行比对,如果相同则确认为匹配成功。
CN201510468072.3A 2015-08-03 2015-08-03 一种网页关键词匹配的方法和系统 Pending CN106407229A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510468072.3A CN106407229A (zh) 2015-08-03 2015-08-03 一种网页关键词匹配的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510468072.3A CN106407229A (zh) 2015-08-03 2015-08-03 一种网页关键词匹配的方法和系统

Publications (1)

Publication Number Publication Date
CN106407229A true CN106407229A (zh) 2017-02-15

Family

ID=58007484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510468072.3A Pending CN106407229A (zh) 2015-08-03 2015-08-03 一种网页关键词匹配的方法和系统

Country Status (1)

Country Link
CN (1) CN106407229A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915318A (zh) * 2012-03-08 2013-02-06 北京金山安全软件有限公司 一种浏览器中定位查找信息的方法和装置
US20140164367A1 (en) * 2012-12-11 2014-06-12 Electronics And Telecommunications Research Institute Method and system for semantic search keyword recommendation
CN104199969A (zh) * 2014-09-22 2014-12-10 北京国双科技有限公司 网页数据分析方法及装置
CN104715067A (zh) * 2015-03-31 2015-06-17 北京奇虎科技有限公司 在网页上标注关键词的方法、装置、系统和浏览器客户端
CN104715064A (zh) * 2015-03-31 2015-06-17 北京奇虎科技有限公司 一种实现在网页上标注关键词的方法和服务器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915318A (zh) * 2012-03-08 2013-02-06 北京金山安全软件有限公司 一种浏览器中定位查找信息的方法和装置
US20140164367A1 (en) * 2012-12-11 2014-06-12 Electronics And Telecommunications Research Institute Method and system for semantic search keyword recommendation
CN104199969A (zh) * 2014-09-22 2014-12-10 北京国双科技有限公司 网页数据分析方法及装置
CN104715067A (zh) * 2015-03-31 2015-06-17 北京奇虎科技有限公司 在网页上标注关键词的方法、装置、系统和浏览器客户端
CN104715064A (zh) * 2015-03-31 2015-06-17 北京奇虎科技有限公司 一种实现在网页上标注关键词的方法和服务器

Similar Documents

Publication Publication Date Title
US10268758B2 (en) Method and system of acquiring semantic information, keyword expansion and keyword search thereof
Feng et al. Multi-objective test report prioritization using image understanding
US8972440B2 (en) Method and process for semantic or faceted search over unstructured and annotated data
US10198506B2 (en) System and method of sentiment data generation
CN104735468B (zh) 一种基于语义分析将图像合成新视频的方法及系统
US9626622B2 (en) Training a question/answer system using answer keys based on forum content
Li et al. Duie: A large-scale chinese dataset for information extraction
CN107798123B (zh) 知识库及其建立、修改、智能问答方法、装置及设备
US10311113B2 (en) System and method of sentiment data use
US11514034B2 (en) Conversion of natural language query
CN107193843A (zh) 一种基于ac自动机和后缀表达式的字符串筛选方法及装置
US20210056261A1 (en) Hybrid artificial intelligence system for semi-automatic patent pinfringement analysis
CN104881428B (zh) 一种信息图网页的信息图提取、检索方法和装置
CN107368489A (zh) 一种资讯数据处理方法及装置
US20140289260A1 (en) Keyword Determination
Hellrich et al. Exploring diachronic lexical semantics with JeSemE
Hassani et al. LVTIA: A new method for keyphrase extraction from scientific video lectures
CN109992651A (zh) 一种问题目标特征自动识别和抽取方法
CN111602129A (zh) 针对注释和墨迹的智能搜索
CN105447073A (zh) 标签赋予装置及方法
CN117216214A (zh) 一种问答抽取的生成方法、装置、设备及介质
CN102789466B (zh) 一种提问标题质量判定方法、提问引导方法及其装置
CN113407678B (zh) 知识图谱构建方法、装置和设备
CN111401047A (zh) 法律文书的争议焦点生成方法、装置及计算机设备
Wang et al. A Generative Answer Aggregation Model for Sentence-Level Crowdsourcing Tasks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20220701