CN100433018C

CN100433018C - 电子文档与某一领域相关程度的判别方法及其应用

Info

Publication number: CN100433018C
Application number: CNB2007100486109A
Authority: CN
Inventors: 白云; 刘圣; 何顺超
Original assignee: Individual
Current assignee: Individual
Priority date: 2007-03-13
Filing date: 2007-03-13
Publication date: 2008-11-12
Anticipated expiration: 2027-03-13
Also published as: CN101021866A

Abstract

本发明公开了一种电子文档与某一领域相关程度的判别方法，并将专业度应用于搜索工具和/或引擎，达到文档信息分类和/或过滤和/或封锁之功效，用于提高搜索结果的质量及搜索效率。该方法步骤为：将搜索工具和/或引擎系统分析提取到的关键词和关键字在专业特征码库/封锁特征码库进行查找，取出对应的预设的行业特征度，进行加权平均，可再乘以行业特征比，计算出专业度；将上述计算所得的专业度应用于搜索领域，以提高搜索的执行效率和/或搜索结果的质量和/或提供符合封锁策略的搜索结果和/或提供符合特定类别的搜索结果。

Description

电子文档与某一领域相关程度的判别方法及其应用

技术领域：

本发明涉及计算机电子文档的索引、搜索、分类领域，尤其是电子文档与某一领域相关程度的判别方法以及在行业搜索引擎领域的应用。

背景技术：

随着计算机及互联网信息技术的发展，因特网及其它数据网和系统中使用的文本和多媒体内容等电子文档迅速增加，目前因特网及其它数据网和系统中使用的文本和多媒体内容等电子文档的管理与查找主要依赖于基于文本和关键词的搜索工具或引擎去搜索需要的信息。一般现行的搜索工具或引擎并未将此类数据分类存贮，大大降低了搜索工具或引擎的执行效率及执行结果的质量。

目前有技术通过文件名、目录名、文件属性等信息对文档查找分类，但是这种面向文件名的查询方式不能提供面向特定主题的搜索，不能挖掘文件名无法表示文件内容的文件，而且对用户在了解查询目标方面要求过多，同时，对于搜索引擎抓取程序抓取到的网页等无文件名称、无文件属性的数据流无法应用此技术分类处理。

也有技术可对文档内容进行语法分析，抽取文档摘要，但此种方法的代价极其高昂，而且其繁琐的分析使得整个数据处理过程变得十分漫长，严重影响了自动程序执行效率。同时，此种技术也无法对文档或数据流的专业相关程度进行量化。

另外，对于Google类的信息类搜索引擎，建立索引时主要依据网页反向链接数评价网页级别(PR)，作为排序算法主要依据之一，但绝大多数专业信息页面，往往在网站较深层次，反向链接也较少，因此，专业内容往往网页级别不高，甚至可能因为级别太低而不被收录，此种算法势必会降低搜索结果的质量。

目前没有一项现有技术公开专业度的量化计算方法，也没有将专业度运用于行业搜索引擎的文档分类和/或文档类别识别和/或封锁引擎领域，这些传统的引擎不能将用户需要的类别信息和/或封锁策略允许的内容作为内容搜索的结果提供给最终用户，其检索结果准确度低且不能实现最优封锁策略。

发明内容：

本发明旨在针对因特网及其它数据网和系统中使用的文本和多媒体内容等电子文档现有管理与查找方式存在的上述缺陷，提供一种方便高效的方法判别电子文档与某一领域的相关程度。本发明引入“专业度”概念，及电子文档与某一领域相关程度，快捷准确地查找目标文档。

本发明的目的是通过以下技术方案实现：

电子文档与某一领域相关程度的判别方法，其特征在于步骤如下：

A、建立行业特征码库和/或封锁特征码库，行业特征码库和封锁特征码库贮存有行业特征码，每个行业特征码对应一个或多个行业特征度；

B、根据搜索工具和/或引擎系统将从文档内容中提取出的关键词与行业特征码库和/或封锁特征码库进行逐一对比，从行业特征码库和/或封锁特征码库中找出与关键词匹配的行业特征码，并取出对应的行业特征度；若未找到匹配的行业特征码，则该关键词行业特征度记为0或不作处理；

C、对所有提取到的关键词的行业特征度进行加权平均，再结合关键词专业特征比转换为该文档的行业相关度即专业度。

所述行业特征码库和封锁特征码库为数据库或其他形式文档，行业特征码和行业特征度为数据库的字段或其他形式文档中的字符串。

所述行业特征度为该行业特征码与各相关行业相关程度的设定值的集合。

与行业特征码库和/或封锁特征码库中的行业特征码匹配的关键词占整篇文档的百分比为专业特征比作为初估专业度。

采用专业度进行文档内容分析的方法，其特征在于步骤如下：采用搜索工具和/或引擎搜索出多篇相关文档；将各文档与行业特征码库进行比对，找出匹配关键词即行业特征码，取出对应的行业特征度，并对行业特征度进行加权转换为专业度；再根据专业度确定出与某一文档最为相关的行业或与某一行业最为相关的文档，然后作存储、删除等相应处理。

引入专业度的文档内容分析器，其特征在于包括：

抓取器或抽取器：从Internet Web及文档内容或磁盘存贮文档中抓取或抽取文档；

行业特征码库和/或封锁特征码库：行业特征码库和封锁特征码库贮存有行业特征码，每个行业特征码对应一个或多个行业特征度；

专业度分析器：提取出的关键词与行业特征码库和/或封锁特征码库进行逐一对比，从行业特征码库和/或封锁特征码库中找出与关键词匹配的行业特征码，并取出对应的行业特征度；若未找到匹配的行业特征码，则该关键词行业特征度记为0或不作处理，对所有提取到的关键词的行业特征度进行加权平均，再结合关键词专业特征比转换为该文档的行业相关度即专业度，再根据专业度确定出与某一文档最为相关的行业或与某一行业最为相关的文档，然后作存储、删除等相应处理；

文档存贮单元：按类别存贮专业度分析器分析获得的各类文档。

采用专业度进行文档内容索引的方法，其特征在于步骤如下：将专业度应用于搜索工具和/或引擎，搜索引擎在对抓取到的各网页缓存进行索引时，将抓取的各页面与行业特征码库进行比对，找出匹配关键词即行业特征码，取出对应的行业特征度，并对行业特征度进行加权转换为专业度，对专业度进行数据调整再结合常规网页级别确定出调整后的网页级别，最后获得各网页针对该行业的级别排序。

引入专业度的文档内容索引器，其特征在于包括：

抽取器：从数据库、磁盘存贮文档中抽取文档内容；

专业度分析器：提取出的关键词与行业特征码库和/或封锁特征码库进行逐一对比，从行业特征码库和/或封锁特征码库中找出与关键词匹配的行业特征码，并取出对应的行业特征度；若未找到匹配的行业特征码，则该关键词行业特征度记为0或不作处理，对所有提取到的关键词的行业特征度进行加权平均，再结合关键词专业特征比转换为该文档的行业相关度即专业度；

索引器：通过抽取器获得文档内容，借助专业度分析器获得的专业度数据，调整网页级别，对文档进行重新排序索引；

索引文档存贮单元：按重新排序后的网页级别存贮索引文档。

采用专业度进行文档内容检索的方法，其特征在于步骤如下：检索工具和/或引擎在进行网上检索时，将搜索到的各页面与行业特征码库进行比对，找出匹配关键词即行业特征码，取出对应的行业特征度，并对行业特征度进行加权转换为专业度，检索服务器过滤到与拟检索的行业相关度低的记录，再将过滤后的检索结果返回给检索用户。

引入专业度的文档检索器，其特征在于包括：

检索服务器：检索出关联文档送至专业度分析器；过滤专业度分析器分析出的专业度低的记录，将过滤后的检索结果返回给检索用户。

本发明的有益效果表现在：

一、本发明引入“专业度”概念，及电子文档与某一领域相关程度，快捷准确地查找目标文档。

二、本发明将专业度应用于各类搜索工具或引擎，以提高搜索的执行效率和/或搜索结果的质量。

三、本发明改进基于文本和关键词的搜索工具或引擎，提供符合封锁策略的搜索结果。

四、本发明改进基于文本和关键词的搜索工具或引擎，提供符合特定类别的搜索结果。

本发明上述特点和优点，可以在基于文本和关键词的搜索工具和/或引擎和连接最终用户及搜索引擎的高速缓存引擎的信息检索网络中实现，它通过本发明的专业度分析方法可分析出文档专业度，实施文档自动分类管理和/或有选择性地进行采集和/或实施控制策略，或封锁不期望的内容使结果符合不同的最终用户的过滤及封锁策略，从而达到优化结果的目的。

附图说明

结合附图的详细描述，可以进一步地理解本发明，其中：

图1是专业度在文档内容分析时的应用框图。

图2是专业度在文档内容索引时的应用框图。

图3是专业度在文档内容检索时的应用框图。

具体实施方式

文档专业度的判别方法为：根据搜索工具和/或引擎系统从文档内容中提取出的关键词和关键字，将提取到的关键词或关键字与行业特征码库和/或封锁特征码库进行逐一对比，如果在行业特征码库中未找到该关键词和关键字，则该关键词行业特征度记为0或不作处理，如果找到该关键词或关键字，则取出该关键词和关键字对应的行业特征度。对所有提取到的关键词和关键字的行业特征度进行加权平均，将该加权平均值与提取到的关键词和关键字所占文档的百分比(专业特征比)的乘积作为该文档的、行业相关度；为了简化操作，也可直接应用行业特征比代替专业度。专业度也可通过如下表达式表示：

F (A) = \frac{Σ_{i = 0}^{n} [N (i) \times P (iA)]}{Σ_{i = 0}^{n} N (i)} \times X

式中，F为专业度，P为行业特征度，N为特征码频数，X为专业特征比。

在搜索工具和/或引擎系统分析文档时，首先要提取出关键词和关键字。在我们的方法中，引入了专业度，将提取到的关键词和关键字经专业度分析器采用上述判别方法结合上述表达式确定出该文档与某行业的相关程度(F)，即专业度，专业度越高则文档与该行业或类别越相关，由此可判断出该文档所属行业或类别，即可对文档实行分类管理。同时，可对专业度低的文档进行删除或其他处理，也可对特殊行业或类别的文档实施过滤和/或封锁策略。如，行业搜索引擎对抓取到的非该行业网页内容实施过滤，对含有成人信息的页面实施封锁，对符合过滤或封锁策略的页面不进行存贮，大大节约了存贮空间。

在对文档进行索引时，将获得的文档专业度作为排序算法依据之一，用以调整网页级别。调整后的网页级别可通过如下表达式表示：

PR(β)＝PR(α)·(1-ε)+(F·ε·γ)

上式中，PR(β)为调整后的PR值，PR(α)为调整前的PR值，F为专业度，ε为大于0且小于1的调整因子，γ为PR最大允许值。

通过以上调整，可提升专业度高的页面的权重，使专业网页获得较高网页级别，同时可获得较高排名，大大优化了行业搜索引擎的检索结果。同时，也可对文档实施过滤和封锁策略。

对于未对索引分类的传统搜索引擎，在用户提交查询请求时，可供用户选择行业进行搜索，通过专业度分析器，动态过滤非专业数据，提供高度专业的高质量检索结果，同时，也可封锁含有封锁特征码的符合封锁策略的特定文档。

采用专业度进行文档内容分析的方法，步骤如下：采用搜索工具和/或引擎搜索出多篇相关文档；将各文档与行业特征码库进行比对，找出匹配关键词即行业特征码，取出对应的行业特征度，并对行业特征度进行加权转换为专业度；再根据专业度确定出与某一文档最为相关的行业或与某一行业最为相关的文档，然后作存储、删除等相应处理。

引入专业度的文档内容分析器，包括：

采用专业度进行文档内容索引的方法，步骤如下：将专业度应用于搜索工具和/或引擎，搜索引擎在对抓取到的各网页缓存进行索引时，将抓取的各页面与行业特征码库进行比对，找出匹配关键词即行业特征码，取出对应的行业特征度，并对行业特征度进行加权转换为专业度，对专业度进行数据调整再结合按常规方法计算所得的网页级别确定出调整后的网页级别，最后获得各网页针对该行业的级别排序。

引入专业度的文档内容索引器，包括：

抽取器：从数据库、磁盘存贮文档中抽取文档内容；

行业特征码库和/或封锁特征码库：行业特征码库和封锁特征码库贮存有行业特征码，每个行业特征码对应一个行业特征度；

采用专业度进行文档内容检索的方法，步骤如下：检索工具和/或引擎在进行网上检索时，将搜索到的各页面与行业特征码库进行比对，找出匹配关键词即行业特征码，取出对应的行业特征度，并对行业特征度进行加权转换为专业度，检索服务器过滤到与拟检索的行业相关度低的记录，再将过滤后的检索结果返回给检索用户。

引入专业度的文档检索器，包括：

行业特征码库和/或封锁特征码库：行业特征码库和封锁特征码库贮存有行业特征码，每个行业特征码对应一个行或多个业特征度；

本发明所述“行业”可理解为工商行业、技术领域、学术专业、国际分类等等。下面结合附图的详细描述，进一步地阐述本发明的实施例；

实施例1：

专业度的计算方法

例如，行业特征码库具有如下特征码：

行业特征码库有一行业特征码“XYZ”，该特征码对应的行业特征度为“A(0.09)，B(0.12)，C(0.18)，D(0.59)，E(0.88)，F(0.07)，......”

行业特征码库有一行业特征码“ACD”，该特征码对应的行业特征度为“A(0.08)，B(0.22)，C(0.38)，D(0.77)，E(0.28)，F(0.09)，......”

行业特征码库有一行业特征码“ECA”，该特征码对应的行业特征度为“A(0.09)，B(0.16)，C(0.31)，D(0.27)，E(0.16)，F(0.03)，......”

行业特征码库有一行业特征码“GIHF”，该特征码对应的行业特征度为“A(0.01)，B(0.11)，C(0.33)，D(0.57)，E(0.31)，F(0.05)，......”

特征码库中，“XYZ”、“ACD”、“ECA”为特征码，“A(0.09)”、“B(0.12)”、“C(0.18)”分别为行业或类别和行业特征度，该库可人工创建，根据检索使用反馈，可手动或程序自动对其行业特征度和特征码进行调整、增减，该库数据量越大，专业度计算越准确。

对内容为“XYZ ACD ECA GIHF XYZ ACD ECA XYZ ACDFDADFFD”的文档进行专业度分析如下：

分析处理文档内容为“XYZ ACD ECA GIHF XYZ ACD ECA XYZACD FDADFFD”，特征码频数(XYZ)＝3，特征码频数(ACD)＝3，特征码频数(ECA)＝2，特征码频数(GIHF)＝1。

该文档与A行业相关度为：

F (A) = \frac{Σ_{i = 0}^{n} [N (i) \times P (iA)]}{Σ_{i = 0}^{n} N (i)} \times X

= \frac{Σ_{i = 0}^{4} [N (i) \times P (iA)]}{Σ_{i = 0}^{4} N (i)} \times X

= \frac{3 \times 0.09 + 3 \times 0.08 + 2 \times 0.09 + 1 \times 0.01}{3 + 3 + 2 + 1} \times \frac{9}{10} \times 100 %

\approx 6.2 %

与D行业相关度为：

F (D) = \frac{Σ_{i = 0}^{n} [N (i) \times P (iD)]}{Σ_{i = 0}^{n} N (i)} \times X

= \frac{Σ_{i = 0}^{4} [N (i) \times P (iD)]}{Σ_{i = 0}^{4} N (i)} \times X

= \frac{3 \times 0.59 + 3 \times 0.77 + 2 \times 0.27 + 1 \times 0.57}{3 + 3 + 2 + 1} \times \frac{9}{10} \times 100 %

\approx 52.5 %

实施例2：

专业度在文档内容分析时的应用

例如，计算机行业搜索引擎在抓取到A、B、C三个网页时，提取出关键词并计算出行业相关度分别为：

A页面：计算机行业(82.5％)、医药行业(2.1％)、化工行业(3.2％)、农业(1.5％)......

B页面：计算机行业(1.2％)、医药行业(5.5％)、化工行业(22.1％)、农业(53.9％)......

C页面：计算机行业(3.7％)、医药行业(77.3％)、化工行业(13.2％)、农业(11.6％)......

由结果可知，页面A与计算机行业相关度最高，页面B与农业最相关，页面C与医药行业最相关，因此，可将页面A按计算机行业网页进行处理，存入计算机类数据库，页面B、C都与计算机行业不太相关，对于计算机行业搜索引擎，可不对B、C网页存贮，大大节约了磁盘空间。而且优化了搜索结果。

同时，由于未对非专业页面进行存贮，抓取程序在进行第二次抓取时，就不会提取非专业页面的链接，大大减少了无效链接数，缩减了网页抓取时间。

实施例3：

专业度在文档内容索引时的应用

例如，医药行业搜索引擎在对抓取到的A、B、C三个网页缓存进行索引时，提取出关键词并计算出行业相关度分别为：

按常规方法计算所得的A、B、C页面的级别值分别为1.232、0.573、1.107，如果不引入专业度，则排序方式为A→C→B。如果引入专业度，令调整因子ε为0.2，则网页级别可调整为：

PR(A)＝1.232×0.8+(0.021×0.2×10)＝1.0276

PR(B)＝0.573×0.8+(0.055×0.2×10)＝0.5684

PR(C)＝1.107×0.8+(0.773×0.2×10)＝2.4316

根据此调整后的PR值，网页排序方式为C→A→B，行业相关度高的C页面排名前移，可见此种排序方法显著优于未引用专业度的排序结果。

实施例4：

专业度在文档内容检索时的应用

例如，在某索引数据库中“计算机”的索引表具有如下记录：

ID

Title

PR

检索时计算所得的IT专业度

......

1	计算机新技术	1.533	85.5％	......
1	计算机新技术	1.533	85.5％	......	2	电子计算机的应用	1.123	86.3％	......
3	新药的研发展望	2.337	2.1％	......	2	电子计算机的应用	1.123	86.3％	......
3	新药的研发展望	2.337	2.1％	......	4	电脑的发展	1.116	32.8％	......

以上记录中，ID3这条记录由于反向链接数较多，网页级别较高，虽然与关键词“计算机”相关度不高，但在传统搜索结果中却会有较高的排名(排序方式为：ID1→ID2→ID3→ID4)。

如果引入本发明中的专业度，用户在提交检索请求时可选择IT行业，在检索时检索服务器可直接过滤掉与IT行业相关度低的记录ID3，此时返回给检索用户的结果为：ID1→ID2→ID4，可见引入专业度后返回给用户的检索结果显著优于未引用专业度的结果。

虽然以上结合附图详细描述了本发明的最佳实施方式，但是对于本领域内熟练的技术人员而言，可以做出各种修改和变更，而不背离本发明的范围和实质。因此，本发明的范围包括但不限于以上实例。

Claims

1、电子文档与某一领域相关程度的判别方法，其特征在于步骤如下：

2、根据权利要求1所述的电子文档与某一领域相关程度的判别方法，其特征在于：所述行业特征码库和封锁特征码库为数据库或其他形式文档，行业特征码和行业特征度为数据库的字段或其他形式文档中的字符串。

3、根据权利要求1或2所述的电子文档与某一领域相关程度的判别方法，其特征在于：所述行业特征度为该行业特征码与各相关行业相关程度的设定值的集合。

4、根据权利要求3所述的电子文档与某一领域相关程度的判别方法，其特征在于：与行业特征码库和/或封锁特征码库中的行业特征码匹配的关键词占整篇文档的百分比为专业特征比作为初估专业度。

5、采用专业度进行文档内容分析的方法，其特征在于步骤如下：采用搜索工具和/或引擎搜索出多篇相关文档；将各文档与行业特征码库进行比对，找出匹配关键词即行业特征码，取出对应的行业特征度，并对行业特征度进行加权转换为专业度；再根据专业度确定出与某一文档最为相关的行业或与某一行业最为相关的文档，然后作存储、删除等相应处理。

6、引入专业度的文档内容分析器，其特征在于包括：

7、采用专业度进行文档内容索引的方法，其特征在于步骤如下：将专业度应用于搜索工具和/或引擎，搜索引擎在对抓取到的各网页缓存进行索引时，将抓取的各页面与行业特征码库进行比对，找出匹配关键词即行业特征码，取出对应的行业特征度，并对行业特征度进行加权转换为专业度，对专业度进行数据调整再结合常规网页级别确定出调整后的网页级别，最后获得各网页针对该行业的级别排序。

8、引入专业度的文档内容索引器，其特征在于包括：

抽取器：从数据库、磁盘存贮文档中抽取文档；

9、采用专业度进行文档内容检索的方法，其特征在于步骤如下：检索工具和/或引擎在进行网上检索时，将搜索到的各页面与行业特征码库进行比对，找出匹配关键词即行业特征码，取出对应的行业特征度，并对行业特征度进行加权转换为专业度，检索服务器过滤到与拟检索的行业相关度低的记录，再将过滤后的检索结果返回给检索用户。

10、引入专业度的文档检索器，其特征在于包括：

检索服务器：检索出关联文档送至专业度分析器，过滤专业度分析器分析出的专业度低的记录。