CN1909522A

CN1909522A - 获取网页关键字的方法及其应用系统

Info

Publication number: CN1909522A
Application number: CN 200610112462
Authority: CN
Inventors: 田野; 陈亮; 李晶
Original assignee: Beijing Kingsoft Software Co Ltd
Current assignee: Beijing Kingsoft Office Software Inc
Priority date: 2006-08-18
Filing date: 2006-08-18
Publication date: 2007-02-07
Anticipated expiration: 2026-08-18
Also published as: CN100444591C

Abstract

本发明公开了一种获取网页关键字的方法及其应用系统，所述方法通过对网页标题进行分词，获取网页标题词根，根据各网页标题词根在网页中出现的次数，选择出现次数多的至少一个网页标题词根作为所述网页的关键字。采用该方法可以实现快速、准确的获取网页关键字，并且该方法适用于各种类型的网站，比如，网页数量非常庞大的综合性网站或网页信息由用户发布的论坛等网站。将本发明提供的获取关键字的方法应用于网页爬抓系统，对爬抓到的网页进行分析，获取爬抓网页关键字，并将所述爬抓网页及其关键字存入数据库，根据用户需要为其提供更多可供查询的网页。

Description

获取网页关键字的方法及其应用系统

技术领域

本发明涉及网络技术领域，尤其涉及一种获取网页关键字的方法及其应用系统。

背景技术

随着网络的快速发展，通过网络获取信息已经成为人们获得信息的一个重要手段。为了便于用户从大量网页中快速筛选出所关心的网页，网页提供者需要对网页内容进行预处理，获取网页关键字，将每个网页关键字与网页内容一同保存在数据库中。当用户请求浏览某一网页时，服务器首先从数据库中获得该网页对应的关键字，并从数据库中搜索具有相同关键字的网页提供给浏览者。

目前获取网页关键字的方法是，通过人工阅读网页内容，获取网页关键字。采用该方法获取关键字不足之处在于当网页数量庞大时，需大量人工操作，增加工作量，效率低，所查找到的网页关键字准确度不高，且该方法只适用于网页信息由网站提供者发布，且网页数量有限的网站，例如，新闻网站等，不适用于论坛等由用户发布信息的网站，或网页数量庞大的网站，例如，论坛等。

发明内容

本发明要解决的技术问题是提供一种获取网页关键字的方法及其应用系统，以实现快速、准确的获取网页关键字。

为解决上述技术问题，本发明的目的是通过以下技术方案实现的。

一种获取网页关键字的方法，该方法包括：

获取网页标题，对网页标题进行分词，得到网页标题词根；在网页中搜索网页标题词根，统计网页标题词根在网页中出现的次数；选择在网页中出现次数多的至少一个网页标题词根作为所述网页关键字。

在上述方法中，所述对网页标题进行分词，得到网页标题词根具体为：

按照读写顺序，遍历每个网页标题字符，每个遍历过程中，首先将当前字符作为一个网页标题词根进行保存，在该网页标题词根基础上，再顺序追加字符或字符串，作为网页标题词根进行保存。

上述方法进一步包括：为每个网页标题词根设置一个计数器；

所述在网页中搜索网页标题词根，统计网页标题词根在网页中出现的次数具体为：

按照读写顺序，从网页源文件中读取网页数据中的有效文本数据，遍历有效文本数据包含的每个字符，每个遍历过程中，首先将当前字符作为一个网页内容词根与网页标题词根进行匹配，若匹配成功，将对应网页标题词根的计数器加1，在该网页内容词根基础上，再顺序追加字符或字符串，作为网页内容词根与网页标题词根进行匹配，若匹配成功，将对应网页标题词根计数器加1。

上述方法进一步包括：将所述网页关键字与所述网页保存在网页数据库。

上述方法进一步包括：统计所述网页关键字在多个网页中出现的次数，选择出现次数多的至少一个网页关键字作为最热关键字。

上述方法进一步包括：将所述网页关键字和/或最热关键字在网页上罗列，并为其设置链接。

一种应用获取网页关键字方法的系统，所述系统包括：网页关键字获取单元，网页保存单元，网页检索单元；

网页关键字获取单元，用于获取网页标题，对网页标题进行分词，得到网页标题词根；在网页中搜索网页标题词根，统计网页标题词根在网页中出现的次数；选择在网页中出现次数多的至少一个网页标题词根作为所述网页关键字；

网页保存单元，用于保存网页内容、网页地址、网页关键字获取单元得到的网页关键字；

网页检索单元，用于对网页保存单元进行检索，获取与当前浏览网页具有相同关键字的网页。

上述系统进一步包括：网页爬抓单元，用于获取网页；

网页关键字获取单元，用于对网页爬抓单元爬抓到的网页或用户当前浏览的网页的标题进行分词分析，获取网页标题词根，根据各网页标题词根在网页中出现的次数，选择出现次数多的至少一个网页标题词根作为所述爬抓网页或当前浏览网页的关键字。

以上技术方案可以看出，由于本发明通过对网页标题进行分词分析，获取标题词根，根据各标题词根在网页中出现的次数，选择出现次数多的至少一个标题词根作为所述网页的关键字，因此，采用该方法可以快速的获取网页关键字，进一步，采用本发明所提供的获取网页标题词根以及统计网页标题词根在网页中出现次数的方法，得到的网页关键字较之人工的方法更为准确。此外，该方法适用于各种类型的网站，比如，网页数量非常庞大的综合性网站或网页信息由用户发布的论坛等网站，并且对于采用爬抓技术获得的网页，可以迅速的获取爬抓网页关键字，将所述爬抓网页及其关键字存入数据库，网页提供者可以根据用户需要为其提供更多可供查询的网页。

附图说明

图1网页标题说明；

图2获取网页关键字方法流程；

图3统计网页标题词根在网页中出现次数方法的流程；

图4获取网页关键字方法应用于网页爬抓系统的框图；

图5图4所示系统工作流程。

具体实施方式

本发明的核心思想是：通过对网页标题进行分词分析，获取标题词根，根据各标题词根在网页中出现的次数，选择出现次数多的至少一个标题词根作为所述网页的关键字。

选取网页标题，对其进行分词分析，原因在于网页标题一般是对网页内容的概括，往往包含网页关键字。

参照图1，对网页标题进行说明，其中，标号101所示为网页标题栏，标号102所示为网页内容标题，标号103所示为网页标题对应网页源码；每个网页都有一个标题(title)属性，这个标题属性值，一般显示在浏览器的标题栏中，查看源码时，可以看到<title></title>这对标签，这对标签所括起来的值就是网页的标题属性值，网页提供者可以通过设置<title></title>所括起来的值，为网页设置一个标题。一般情况下，网页提供者会将网页内容标题设置为网页标题，例如，新闻标题，文章标题，帖子标题等。

以上为本发明方法的核心思想及提出该思想的依据，以下将详细介绍本发明所提供方法，参照图2，图2示出了本发明方法的实现流程，所述方法包括以下步骤：

步骤201：获取网页标题；各开发工具都提供了获取网页标题属性的接口函数，通过调用所述接口函数，即可获得一个网页的标题，例如，在VC开发环境下，可以通过如下代码获取网页标题：HRESULT IHTMLDocument2∷get_title(B STR*P)；其中，IHTMLDocument2指向当前网页数据；

步骤202：对网页标题进行分词，获取网页标题词根并临时保存在列表中；

步骤203：在网页中搜索网页标题词根，统计网页标题词根在网页中出现的次数；

步骤204：选择出现次数多的至少一个网页标题词根作为所述网页的关键字；

至此，实现了获得网页关键字业务，在实际应用中，该方法进一步包括：

将网页关键字与网页内容一同保存在网页数据库中；

将所述网页关键字罗列在网页上，并为每个关键字设置链接；

统计所述网页关键字在多个网页中出现的次数，选择出现次数多的至少一个网页关键字作为最热关键字罗列在网页上，并为其设置链接，提供给浏览者。

本发明提供了两种获取网页标题词根的方式，其中，本发明实施例一，采用标题词根获取方式(一)，所述标题词根获取方式(一)具体为：

按照读写顺序，遍历每个网页标题字符，每个遍历过程中，首先将当前字符作为一个网页标题词根进行保存，在该标题词根基础上，再追加下一个字符，作为一个标题词根进行保存，以此类推，直至遍历、追加完最后一个字符，将网页标题词根临时保存在列表中；

例如：中国政府推出知识产权新举措，可划分为以下词根：中，中国，中国政，中国政府，中国政府推、依次类推，遍历完“中”这个字符后，开始遍历“国”，可划分为以下词根：国，国政，国政府，国政府推。。。。依次类推，直至遍历完最后一个字符“措”；

其中，本发明实施例二，采用标题词根获取方式(二)，所述标题词根获取方式(二)具体为：

将网页标题提供给第三方分词软件，进行分词，获得网页标题词根；

该方式可以有效的减少词根，提高搜索效率，比如，使用分词软件对“中国政府推出知识产权新举措”标题进行分析，可获得中国政府、知识产权、举措等词根；

在本发明实施例中，可以为每个网页标题词根设置一个计数器，初始值为0，用于记录每个网页标题词根在网页中出现的次数；

在本发明其它实施例中，可以采用其它计数方式，记录网页标题词根在网页中出现的次数，并不影响本发明实现；

本发明实施例所提供，在网页中搜索网页标题词根，统计网页标题词根在网页中出现的次数的方法，参见图3，具体包括：

步骤301：按读写顺序从网页源文件中读取网页数据中的有效文本数据；

其中，网页源文件中包含有效文本数据、标签数据、描述性数据；不同的数据有不同的标签，本发明采用正则表达式或其他的字符串处理方法在读取过程中，去除网页源文件中的非文字内容，获得有效的文本数据；

其中，本领域技术人员知道所述正则表达式是一种常用的字符串处理方法；

其中，所述有效文本数据指显示在网页上的文字内容，可以是中文也可以是其它语言的文字；所述标签数据以及描述数据指网页源文件中用于显示网页内容的描述性语言的命令，以html语言为例，包括：显示文字命令<p></p>、显示图形命令<img>、显示表格命令<table></table>、显示链接命令<ahref＝ www.sina.com.cn>新浪</a>等；

其中，网页中显示文字时，网页源码中可以不使用任何标签语言，若需要对文字进行属性或位置上的设置，则可以使用标签语言，例如<font size＝10color＝red>你好</font>网页上显示的就是字号为10，红色的“你好”两个字；

步骤302：设置一个比对字符串变量Str；

步骤303：从有效文本数据中读取一个字符S_i，作为当前网页内容词根，设置Str＝S_i，将Str与列表中的每个标题词根进行匹配，若有匹配的标题词根，则将该标题词根的计数器加1，表示该标题词根在网页中出现了一次，匹配完成后，按读写顺页序在S_i后追加一个字符S_i+1，设置Str＝S_iS_i+1，再与列表中的每个标题词根进行匹配，若匹配成功，则将对应标题词根的计数器+1，依此类推，直至所述网页内容词根按读写顺序追加到由15个字符组成，即Str＝S_iS_i+1S_i+2……S_i+j，从S_i到S_i+j为15个字符，则结束本步骤，进入步骤304；

步骤304：读取下一个有效文本数据字符S_i+1，判断该字符是否为有效文本数据中的最后一个字符，如果否，则重复步骤303，如果是，则进入步骤305；

步骤305：将该字符与标题词根进行匹配，若匹配成功，则将对应标题词根的计数器加1，结束整个流程；

其中，步骤303中，若读取到标点符号，或间隔符号等非文字字符，也可结束该步骤，进入步骤304；

其中，步骤303中网页内容词根最多追加到包含15个字符的原因在于，标题词根的长度一般不会超过15个字符；

其中，一个仅包含一个字符的标题词根成为关键字的概率很低，因此，在选择关键字时可以不考虑仅包含一个字符的标题词根；

其中，可以根据网页提供者的需要，确定所述网页的关键字数目。

以上为本发明所提供方法的描述，本发明方法有多种应用，下面将分别介绍：

(一)应用一：

在由用户发布信息的网站，比如，论坛等，或网页数量庞大的网站，采用本发明提供的获取关键字的方法，获得每个网页关键字并与网页内容一同保存在数据库，当用户请求浏览某一网页时，服务器从数据库中获取该网页对应的关键字，根据用户需要从数据库中搜索具有相同关键字的网页提供给用户；

因为论坛的发贴内容由一般用户决定，若采用人工阅读网页内容的方法获得关键字，则无法实时将该网页关键字存入数据库，且如果用户修改网页内容导致网页关键字改变，采用人工方式无法及时修正已存入数据库的网页关键字，导致搜索到的网页不符合用户要求，采用本发明所提供方法，可以避免以上问题的发生；

(二)应用二：

应用2是对应用1进一步优化，使之更方便用户，采用本发明提供的方法获得当前网页的关键字后，网页提供者不仅将获得的每个网页关键字与网页内容一同保存在数据库，而且将这些关键字在网页上进行罗列，并为每个关键字设置链接，链接指向所有具有该关键字的一个或多个网页的地址，用户可以根据自己的需要对关心的关键字链接进行查看；

(三)应用三：

提供近期网络最热关键字，采用本发明提供方法获取网页关键字，统计所述网页关键字在多个网页中出现的次数，出现次数最多的关键字即是最热关键字；

其中，所述最热关键字是指近期在多个具有相同或相近似主题的网页中频繁出现的网页关键字；

(四)应用四：

由于本发明提供了自动获取网页关键字的方法，因此在获取相关的网页信息时，还可以根据需要提供除本网站之外的其他网站的相关网页，只需要将其他网站的相关网页进行爬抓，使用本发明提供方法获取爬抓到的网页关键字，将其保存在网页数据库中。

所述网页爬抓技术是一种获取网页的技术，包括以下步骤：

一、根据网页地址，获得该网页的内容；不同的编程语言提供了不同的接口函数用以获取网页内容，例如，PHP语言提供了GetContentString()函数，用以获取指定网址的网页内容；

二、获得一个网页后，再分析该网页内容，根据正则表达式，得到该网页中所包含的链接，再使用GetContentString()函数，获取每个链接对应的网页内容，依次类推，可以根据需要获取多级的网页，再将网页内容与其对应的地址保存在网页保存单元中。

采用爬抓技术得到的网页数量庞大，在这种情况下，如果仍旧采用人工获取网页关键字的方法则需要大量的人工操作，费时费力。

图4为在网页爬抓系统中应用本发明提供方法的系统构成图，该系统包括：

网页爬抓单元，用于获取网页；

网页检索单元，用于对网页保存单元进行检索，获取与当前浏览网页相同关键字的网页。

图5为图4所示系统工作流程，包括：

步骤501：用户向网站服务器请求浏览某个网页；

步骤502：网页关键字获取单元，对该网页进行分析，获取该网页的至少一个关键字；

步骤503：网页爬抓单元根据需要对网页进行爬抓，并保存在数据库中；

步骤504：网页关键字获取单元，分别对步骤503中爬抓到的网页进行处理，获取每个网页的关键字，并将关键字与其对应的网页一同保存到网页保存模块中；

步骤505：网页检索单元根据步骤502中获取的关键字，在网页保存单元中，检索出与该关键字相同的网页，提供给用户；

其中，步骤503和504可以预先进行。

以上对本发明所提供的一种获取网页关键字的方法及其应用系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1、一种获取网页关键字的方法，其特征在于，该方法包括：

获取网页标题，对网页标题进行分词，得到网页标题词根；

在网页中搜索网页标题词根，统计网页标题词根在网页中出现的次数；

选择在网页中出现次数多的至少一个网页标题词根作为所述网页关键字。

2、根据权利要求1所述方法，其特征在于，所述对网页标题进行分词，得到网页标题词根具体为：

按照读写顺序，遍历每个网页标题字符；

每个遍历过程中，首先将当前字符作为一个网页标题词根进行保存；

在该网页标题词根基础上，再顺序追加字符或字符串，作为网页标题词根进行保存。

3、根据权利要求1或2所述任一方法，其特征在于，该方法进一步包括为每个网页标题词根设置一个计数器；

按照读写顺序，从网页源文件中读取网页数据中的有效文本数据；

遍历有效文本数据包含的每个字符；

每个遍历过程中，首先将当前字符作为一个网页内容词根与网页标题词根进行匹配，若匹配成功，将对应网页标题词根的计数器加1；

在该网页内容词根基础上，再顺序追加字符或字符串，作为网页内容词根与网页标题词根进行匹配，若匹配成功，将对应网页标题词根计数器加1。

4、根据权利要求1所述的方法，其特征在于，该方法进一步包括：将所述网页关键字与所述网页保存在网页数据库。

5、根据权利要求1或4所述方法，其特征在于，该方法进一步包括：统计所述网页关键字在多个网页中出现的次数，选择出现次数多的至少一个网页关键字作为最热关键字。

6、根据权利要求5所述方法，其特征在于，该方法进一步包括：将所述网页关键字和/或最热关键字在网页上罗列，并为其设置链接。

7、一种应用获取网页关键字方法的系统，其特征在于，所述系统包括：网页关键字获取单元，网页保存单元，网页检索单元；

8、根据权利要求7所述系统，其特征在于，所述系统进一步包括：网页爬抓单元，用于获取网页；