CN103020213A

CN103020213A - 具有明显类别划分的非结构化电子文档的检索方法和系统

Info

Publication number: CN103020213A
Application number: CN2012105259085A
Authority: CN
Inventors: 倪时龙; 宋立华; 余深田; 郑映; 洪顺淋
Original assignee: State Grid Corp of China SGCC; Fujian Yirong Information Technology Co Ltd
Current assignee: State Grid Corp of China SGCC; Fujian Yirong Information Technology Co Ltd
Priority date: 2012-12-07
Filing date: 2012-12-07
Publication date: 2013-04-03
Anticipated expiration: 2032-12-07
Also published as: CN103020213B

Abstract

本发明提供一种有明显类别划分的非结构化电子文档的检索方法和系统，其方法包括文档分类和类型关键词识别阶段：文档分类是将特定集合的文档，按照各文档内容之间存在的关系进行分类；类型关键词识别是将所有类型的关键词识别出来；实时搜索阶段：根据用户输入的搜索词，查询符合搜索结果的文档，并按照文档相关性从高到低返回搜索结果，该阶段提供了一实时搜索相关性算法公式，公式中引入了搜索词与文档类别的关系，优化了TF-IDF算法，很大程度上解决了上述提到的两个TF-IDF用于大型企业电子文档搜索时存在的两个问题，使之适用于大型企业电子文档全文搜索。

Description

具有明显类别划分的非结构化电子文档的检索方法和系统

【技术领域】

本发明涉及一种具有明显类别划分的非结构化电子文档的检索方法和系统。

【背景技术】

数字资产是企业中最具价值的无形资产之一。数字资产通常可以分为结构化数据和非结构化数据，所谓结构化数据是指具有良好定义的结构，能够被方便解析，并可以在关系数据库中存储的数据；非结构化数据是相对于结构化数据而言不便于采用二维表结构表示的数据类型。大型企业的各业务应用系统中，非结构化文档格式多样化、文档内容多样化、相关流程多样化的非结构化数据文档全面覆盖了公司经营管理的方方面面，但其具有明显类别划分的特点。

通常，非结构化数据通常是由若干具有业务相关性的非结构化数据按照国家相关标准进行封装后而形成，是由企业在长时间、耗费了大量的人力、物力、财力的基础上形成的，含有大量可挖掘的、有助于提升企业经营效益的重要信息。

随着企业信息化程度的逐渐深化，非结构化数据文档的数量呈不断上升的趋势。根据相关统计数据，在现代大型企业中，非结构化数据占比达80%以上，而其中最有价值的、可被进行二次加工的非结构化数据是以电子文档。

作为电子文档使用的入口，电子文档检索系统在企业非结构化数据管理中扮演了重要的角色。通过检索，才能在海量的企业电子文档中定位到目标电子文档，从而使得非结构化数据能够真正被全面使用。然而，电子文档的搜索质量保证是工业界普遍面临的难题，一方面是因为电子文档的数目通常是巨大的，从几千万乃至上亿的文档中识别出用户想要找到的文档从概率上看就不是一件容易的事，另一方面还因为不同于网页之间存在的“超链接”关联，电子文档的分布是以个体形式、孤立存在的，所以难以通过类似Google的Page-Rank算法类似的“民主投票法”得到电子文档的“质量”，从而完善搜索相关性。

在工业界，目前有几下几种主流的电子文档检索方法：

1.基于关键词检索

关键词是指由文档作者提供的一种限定性描述文档所属领域的“关键词”，例如提交学术文献时（如学术论文），文献发表机构通常会让作者在提交文献时同时给出该文献的若干关键词，以用于后续检索需要。以本发明为例，关键词会包含：“电子文档”、“检索”、“大型企业”、“电子文档检索”等。

基于关键词的搜索，一般是指系统根据用户输入的文字，对所管理的电子文档的关键词进行一一匹配，如果关键词和输入文字匹配，那么该文档就会出现在搜索结果中。

公开日为2005.04.27，公开号为CN1609848的中国发明即采用关键词的搜索方法，其揭示了一种预先定义关键词的电子文档搜索方法，预先定义关键词的电子文档搜索方法，利用文档提供者预先定义电子文档A1的关键词B1，由软件程序D将此关键词及电子文档的保存地址b1作为链接存储到关键词及电子文档地址集合B.文档的搜索人利用集合B的用户界面－关键词列表C，通过选择关键词B1及自由输入关键词查询到电子文档的存储地址b1，实现快速搜索的目的。

该发明方法有较大缺陷，所以目前除了专业的学术文献信息检索系统外，已经较少使用。它的主要缺点之一是：关键词难以精确限定文档的涉及范围。例如本文的关键词——“检索”，几乎会出现在所有和检索方法、系统有关的所有文献中，这样就导致搜索范围太广，搜索匹配结果巨大。然而，如果关键词修改为较为精确的细节描述，虽然能够精确表达文档所涉及的一个具体范围，但确另用户的输入检索词很难和关键词匹配上，造成文档无法通过搜索定位到。另外，由于关键词的选取没有标准，不同作者对同一类文档给出的关键词也很不一样，这就更降低了关键词搜索方法的搜索准确率。

2.基于全文检索

基于全文的检索方法，是指系统根据用户输入的文字，对所管理的电子文档的全文所有词组进行一一匹配，如果电子文档中含有和输入文字相匹配的文字，那么该文档就会出现在搜索结果中。

这种方法的一个关键技术是文章的分词，即将全文中的所有文字，按照最合理的方法，拆分成“词”的组合。在中文领域，特别要解决中文中存在的“多义词组”问题，如“南京市长江大桥”可以被分解为“南京市+长江大桥”或“南京市长+江大桥”。

公开日为2009.04.15，公开号为CN101408876，申请号为200710140688.3的中国发明即采用基于全文的检索方法，其揭示了一种电子文档全文检索的方法及系统，所述方法，包括以下步骤：(1)根据用户配置的数据源、索引创建与更新的策略，对该数据源的文本信息进行抽取，并为其中每个词分别建立索引，构建与该数据源对应的全文检索索引库；(2)接收用户输入的查询内容，并根据其确定查询条件，在所述全文检索索引库中对该索引文档进行查找，得到匹配的文档信息；(3)对所述匹配的文档信息进行调整，提取该文档信息中与用户搜索相关的摘要信息，并将其返回给用户。其所述的系统和方法，便于用户快速检索不同类型的电子文档提供的信息，得到准确的或者是全面的搜索文档搜索结果，使得用户可迅速定位所需要的文档信息。

该发明即使非常好地解决了中文多义词组的分词问题，但还是具有较大的缺陷，特别是在大型企业中使用。这是因为大型企业中的历史电子文档的容量很可能在PB级别（1PB=1,000TB=1,000,000GB），相应的电子文档的个数也在千万以上，由于全文检索命中检索词的文档通常会非常多，用户很难在检索结果中找到自己需要的那个电子文档，导致搜索结果不可用。

要使得全文检索的结果有意义，需要对返回的结果进行文档相关性和重要性排序，使得和检索词最相关、最重要的文档出现在返回结果的最前面。这就是下一个方法要解决的问题。

3.基于带权重的全文检索

通过在全文检索过程中，加入不同词的权重（词的权重是指，一个词对于文档或者文档集合的重要程度），可以优化检索的返回结果。这类方法中，最基础的算法是TF-IDF算法。

TF-IDF（term frequency–inverse document frequency）算法由两个算法组成，分别是TF算法和IDF算法。TF算法是通过判断一个词在一个文档中出现的频率来度量该词对于该文档的重要程度——出现的频率越高，则该词对于该文档的重要性越大，权重也越大；IDF算法是通过判断一个词在多个文档中出现的频率来度量改词在文档集中的重要程度——出现在文档集的越多文档中，则该词对于该文档集的重要性越低。

TF-IDF的公式如下：

Σ_{1}^{N} (\frac{Tw}{Ta} \log (\frac{D}{Dw}))

上述公式中的符号N代表一共输入了N个检索词，Tw是一个检索词在该文档中出现的次数，Ta是该文档的总词数（Tw和Ta的计算，一般会扣除虚词、语气词等，以提高计算精度），Dw代表该检索词在搜索文档集合中的多少个文档中出现过，D是文档的个数。

利用该公式，可以计算出一个文档对于一组搜索词的重要程度（或称为：相关性）。

从算法原理可知，该算法是通过以下判断来确定文档对于一组搜索词的重要程度：如果一个词在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为该词具有很好的类别区分能力，也适用于充当该文档的“关键词”，权重也越高；反之也是一样的。并且搜索词匹配越多，那么文档的“重要性”越高。这和我们的直觉认知也是一致的。所以，基于该方法的搜索结果就不再是所有无序的、和任何搜索词有匹配的文档的集合，而是按照重要程度排列的文档集合。理想情况下，用户在搜索结果的前面几项就可以定位到和其需要一致的文档。

TF-IDF算法在互联网搜索引擎中得到了广泛地使用，算法的质量也很高。然而，当将该算法用以大型企业的电子文档的搜索中，发现存在一些问题，导致搜索结果不如预期，主要有以下两个方面：

1）计算归属于非同类的联合关键词时IDF失效问题

大型企业的电子文档集由不同信息系统贡献，不同类别的电子文档数目是非常不一样的，意味着统一搜索所面对的电子文档集合中不同类别的电子文档数目也是不一样。例如某大型央企的ERP系统一年能产生几十TB的电子文档数据，但资产管理系统只会产生几GB的数据。由于不同类别的文档数目存在数量级上的差距，会较为严重地影响TF-IDF中的IDF算法的权重计算结果。这是因为该算法是以总的文档作为搜索权重判断基数，当文档的类别数目分布不均衡时，类别较小的文档中的关键词的重要性会不合理地变低。

举例而言，假设文档集共有10000个文档，其中“财务”类文档共100个。执行搜索“资产负债+统计”。做一个合理假设，“财务”的100个文档中有50个文档出现“资产负债”这个词，而所有的10000个文档中也有50个文档出现“统计”词，但分布在各个类别文档中，那么“资产负债”和“统计”二者的IDF指是一样的，均为log(10000/50)，这个结论和我们的直观认识不符——“资产负债”的区分度应该比“统计”强得多，这个结果导致搜索结果完全依赖于TF，IDF失效，即搜索出的目标文档的排序完全取决于“词频”TF。

相对于大型企业，在互联网搜索中，该问题会小一些，因为互联网环境中的类别分布问题没有企业严重，且互联网搜索引擎通常结合其它算法（如Google的Page-Rank算法）来对重要性再进行判断，所以总体搜索结果受影响很小。

2）同类关键词IDF值的区分度被弱化的问题

TF-IDF中的IDF算法将整个电子文档集合作为整体来考虑（公式中的D变量），如上所述，大型企业中不同的电子文档由不同系统产生，类别差异明显。如果两个搜索词针对的是同一个文档数比较小的类，那么这两个搜索词的IDF的值的区分度将会被弱化，即，两个IDF值会过于接近从而没有区分度。

再次使用上述例子中的文档集，搜索“资产负债+财务状况”，这两个搜索词都是偏向财务类的关键词。合理假设“资产负债”关键词在50财务类文档中出现，“财务状况”关键词在10个财务类文档中出现，那么可以想见“财务状况”由于在更少的文档中出现（二者差4倍），IDF值应该同等程度地增大。然而，由于采用所有文档作为计算基数：

IDF（资产负债）=log(10000/50)=2.3

IDF（财务状况）=log(10000/10)=3.0

计算结果如上，二者仅差距1.3倍，IDF的区分度较差，失去应有作用。且，类别的差距越明显，这个问题越突出。和上述问题1）的原因类似，这个问题在互联网搜索引擎中影响相对小，但对于企业级电子文档的搜索还是比较大的。

综上所述，针对电子文档的搜索方法，存在上述三种方式，相对而言，“带权重的全文检索”虽然在大型企业环境电子文档搜索的环境中使用存在一些偏差，但总体上搜索结果的质量仍然是最好的。本发明提出的具有明显类别划分的电子文档搜索方法，也是基于TF-IDF算法的，较好地解决了上述两个问题而导致的TF-IDF算法对于大型企业中的电子文档搜索的不适用；同时，基于该方法，本发明提出了一个具体的大型企业电子文档统一搜索系统的实现方式。

【发明内容】

本发明要解决的技术问题之一，在于提供一种具有明显类别划分的非结构化电子文档的检索方法，优化了TF-IDF算法，很大程度上解决了上述提到的两个TF-IDF用于大型企业电子文档搜索时存在的两个问题，使之适用于大型企业电子文档全文搜索。

本发明解决上述技术问题所采用的技术方案是：具有明显类别划分的非结构化电子文档的检索方法，其特征在于：包括

文档分类和类型关键词识别阶段：文档分类是将特定集合的文档，按照各文档内容之间存在的关系进行分类；类型关键词识别是将所有类型的关键词识别出来；

实时搜索阶段：根据用户输入的搜索词，查询符合搜索结果的文档，并按照文档相关性从高到低返回搜索结果，该阶段所采用的实时搜索相关性算法公式如下：

Σ_{1}^{N} (\frac{Tw}{Ta} \log (\frac{D}{Dw}) {(\frac{D}{Cw * cn})}^{\frac{1}{2}})

公式中，N代表一共输入的检索词的个数；

Tw是一个检索词在该文档中出现的次数；

Ta是该文档的总词数；

D是文档的数目；

Dw代表该检索词在搜索文档集合中的多少个文档中出现过；

Cw指的是搜索词对应的类别的文档数目；

cn是类别的数目。

本发明要解决的技术问题之二，在于提供一种具有明显类别划分的非结构化电子文档的检索系统，优化了TF-IDF算法，很大程度上解决了上述提到的两个TF-IDF用于大型企业电子文档搜索时存在的两个问题，使之适用于大型企业电子文档全文搜索。

本发明解决上述技术问题所采用的技术方案是：具有明显类别划分的非结构化电子文档的检索系统，其特征在于：包括：

文档分类模块：将特定集合的文档，按照各文档内容之间存在的关系进行分类；

类型关键词识别模块：将所有类型的关键词识别出来；

文档全文索引模块：用于计算电子文档的全文索引；

索引库：用于存储文档全文索引的数据库；

文档内容读取模块：用于读取电子文档的内容，主要职责包括对不同格式文件内容的读取以及对不同来源的文件内容的读取；

实时搜索模块：根据用户输入的搜索词，查询符合搜索结果的文档，并按照文档相关性从高到低返回搜索结果，该阶段所采用的实时搜索相关性算法公式如下：

Σ_{1}^{N} (\frac{Tw}{Ta} \log (\frac{D}{Dw}) {(\frac{D}{Cw * cn})}^{\frac{1}{2}})

公式中，N代表一共输入的检索词的个数；

Tw是一个检索词在该文档中出现的次数；

Ta是该文档的总词数；

D是文档的数目；

Dw代表该检索词在搜索文档集合中的多少个文档中出现过；

Cw指的是搜索词对应的类别的文档数目；

cn是类别的数目。

本发明具有如下优点：

1.本发明提出的具有明显类别划分的非结构化电子文档的检索方法和系统，较好地解决了带权重的电子文档全文检索算法——TF-IDF算法对于大型企业中的电子文档搜索的不适用而产生的两个问题，在大型企业中可以方便地部署该技术方案，实现电子文档的全文高质量检索。

2.本发明的技术方案保留了TF-IDF算法的优点，在不涉及大型企业电子文档类型分布特点的场景下搜索结果与其是一致的。

3.本发明的技术方案考虑到大型企业都已经现存大量电子文档的特点，方案是切实可行、易于实施的。

【附图说明】

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明系统结构示意图。

【具体实施方式】

正如背景技术中所提到的，由于TF-IDF算法未考虑电子文档所属类型以及搜索词和类型之间的关系，导致产生两个问题，严重的时候，会导致TF-IDF算法中的IDF算法部分几乎完全失效，而只能靠关键词在文档中出现的频率（TF算法）来决定电子文档和关键词的相关性。

所以，本发明从类型相关性进行考虑，并对TF-IDF算法的改善，如图1所示，本发明系统由以下几个模块组成：

类型关键词识别模块：将所有类型的关键词识别出来；

Σ_{1}^{N} (\frac{Tw}{Ta} \log (\frac{D}{Dw}) {(\frac{D}{Cw * cn})}^{\frac{1}{2}})

公式中，N代表一共输入的检索词的个数；

Tw是一个检索词在该文档中出现的次数；

Ta是该文档的总词数；

D是文档的数目；

Dw代表该检索词在搜索文档集合中的多少个文档中出现过；

Cw指的是搜索词对应的类别的文档数目；

cn是类别的数目。

文档全文索引模块：用于计算电子文档的全文索引，有了索引后，对电子文件内容检索的速度将大幅度提高；

索引库：用于存储文档全文索引的数据库；

文档内容读取模块：用于读取电子文档的内容，主要职责包括对不同格式文件内容（例如word、pdf文档）的读取以及对不同来源的文件内容（文件可能来源于其它系统的web service接口，或来源于文档数据库等）的读取；

文档库：用于保存具有明显类别划分的非结构化电子文档，属于本发明系统的外部模块，但与本发明相关。

本发明方法对应于系统部署两个阶段：

1、文档分类和类型关键词识别阶段：文档分类是将特定集合的文档，按照各文档内容之间存在的关系进行分类；类型关键词识别是将所有类型的关键词识别出来；该阶段也叫系统训练阶段，在本阶段，通过让系统识别大型企业现有的所有电子文档、将其分类，并从分类中提取关键词，使得系统可以满足下一阶段要求的前置条件，在下一阶段可以正确执行搜索。由于上述功能不是正式运行时用户所需功能，所以称之为训练。

其中，所述文档分类采用“特征向量比较法”，其具体包括如下步骤：

步骤11、根据文档内容，计算文档的特征向量：准备一个字典库，通过分析文档中是否包含字典库的某个词，以及词出现的频率，得到文档的特征向量，特征向量的维数和字典库中词的个数一致；

步骤12、通过余弦定理，计算两两文档之间的余弦夹角，判断文档的类型相关性：采用数学中的余弦定理计算每两个文档对应的特征向量之间的夹角，夹角用弧度表示，数值越小，代表文档内容越接近，越有可能被归为同一类；

步骤13、通过“自底向上、不断合并”的方法，将余弦夹角小的文档归为同一类：本步骤是一个迭代的计算过程，在每一次迭代确定一个“阈值”数，将余弦夹角小于该“阈值”的两个文档归为同一类，而后进入下一次迭代；后面执行的迭代的“阈值”大于之前迭代的“阈值”，通过这个步骤，可以使得文档分别被归类，且类别越来越少，而每一个类的文档越来越大，当类别的数目到达一个预设值时，迭代终止。

所述类型关键词识别采用“特征向量比较法”，其是将字典库中的词和类别的平均特征向量进行余弦比较，如果和某个类别的夹角数值小于一个特定阈值，则就可以认为该关键词属于该类别，是该类别的关键词。

2、实时搜索阶段：根据用户输入的搜索词，查询符合搜索结果的文档，并按照文档相关性从高到低返回搜索结果，该阶段是系统正式运行阶，本阶段支撑用户的电子文档全文检索需要。该阶段所采用的实时搜索相关性算法公式如下：

Σ_{1}^{N} (\frac{Tw}{Ta} \log (\frac{D}{Dw}) {(\frac{D}{Cw * cn})}^{\frac{1}{2}})

公式中，N代表一共输入的检索词的个数；

Tw是一个检索词在该文档中出现的次数；

Ta是该文档的总词数；

D是文档的数目；

Dw代表该检索词在搜索文档集合中的多少个文档中出现过；

Cw指的是搜索词对应的类别的文档数目；

cn是类别的数目

实时搜索基于现有技术中的TF-IDF算法，但引入类别的概，其公式的主体部分和TF部分，和现有技术中的TF-IDF算法一致，但为IDF算法引入一个系数，该系数是一个指数为1/2的幂函数，Cw和cn都可以通过所述“文档分类和类型关键词识别阶段”中计算得到。

基于该公式计算的文档和搜索词相关性，可以达到如下效果：

1.当搜索词对应的类别较小时，IDF的权重非线性变高（因为指数是1/2，IDF增长的幅度小于线性增长）；

2.当搜索词对应的类别较大时，IDF的权重非线性变低；

3.同一个小类别的两个搜索词，IDF的权重均变高，计算得到的相关性结果差距变大，从而使得较小类别的搜索词的文档相关性不会被不合理弱化；

4.当搜索词不对应任何文档类别，或者对应的文档类别属于普通类别、中等规模是，新增的幂函数系统值为1，算法退化到原TF-IDF算法。

所以，基于本发明的技术方案，可以较好地解决背景技术中所提到的TF-IDF算法用于大型企业搜索词遇到的问题。具体而言：上述的效果1、2解决背景技术中的问题1，即“计算归属于非同类的联合关键词时IDF失效问题”，上述的效果3解决背景技术中的问题2，即“同类关键词IDF值的区分度被弱化的问题”，上述的效果4使得现有算法仍可充分利用TF-IDF算法的好处。

以下仍针对背景技术中给出的搜索“资产负债+财务状况”的例子，采用现有技术检索方法中的TF-IDF算法和本发明方法IDF值的算法计算结果如下表所示：

如上结论所述，本发明算法在上述典型场景中均优于现有技术中的TF-IDF算法，较好地解决了带权重的电子文档全文检索算法——TF-IDF算法对于大型企业中的电子文档搜索的不适用而产生的两个问题，在大型企业中可以方便地部署该技术方案，实现电子文档的全文高质量检索。本发明的技术方案保留了TF-IDF算法的优点，在不涉及大型企业电子文档类型分布特点的场景下搜索结果与其是一致的。本发明的技术方案考虑到大型企业都已经现存大量电子文档的特点，方案是切实可行、易于实施的。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.具有明显类别划分的非结构化电子文档的检索方法，其特征在于：包括

Σ_{1}^{N} (\frac{Tw}{Ta} \log (\frac{D}{Dw}) {(\frac{D}{Cw * cn})}^{\frac{1}{2}})

公式中，N代表一共输入的检索词的个数；

Tw是一个检索词在该文档中出现的次数；

Ta是该文档的总词数；

D是文档的数目；

Dw代表该检索词在搜索文档集合中的多少个文档中出现过；

Cw指的是搜索词对应的类别的文档数目；

cn是类别的数目。

2.根据权利要求1所述的具有明显类别划分的非结构化电子文档的检索方法，其特征在于：所述文档分类采用“特征向量比较法”，其具体包括如下步骤：

3.根据权利要求2所述的具有明显类别划分的非结构化电子文档的检索方法，其特征在于：所述类型关键词识别采用“特征向量比较法”，其是将字典库中的词和类别的平均特征向量进行余弦比较，如果和某个类别的夹角数值小于一个特定阈值，则就可以认为该关键词属于该类别，是该类别的关键词。

4.具有明显类别划分的非结构化电子文档的检索系统，其特征在于：包括：

类型关键词识别模块：将所有类型的关键词识别出来；

文档全文索引模块：用于计算电子文档的全文索引；

索引库：用于存储文档全文索引的数据库；

Σ_{1}^{N} (\frac{Tw}{Ta} \log (\frac{D}{Dw}) {(\frac{D}{Cw * cn})}^{\frac{1}{2}})

公式中，N代表一共输入的检索词的个数；

Tw是一个检索词在该文档中出现的次数；

Ta是该文档的总词数；

D是文档的数目；

Dw代表该检索词在搜索文档集合中的多少个文档中出现过；

Cw指的是搜索词对应的类别的文档数目；

cn是类别的数目。

5.根据权利要求4所述的具有明显类别划分的非结构化电子文档的检索系统，其特征在于：所述文档分类模块采用“特征向量比较法”进行文档分类，其具体包括如下步骤：

6.根据权利要求5所述的具有明显类别划分的非结构化电子文档的检索系统，其特征在于：所述类型关键词识别模块采用“特征向量比较法”进行识别，其是将字典库中的词和类别的平均特征向量进行余弦比较，如果和某个类别的夹角数值小于一个特定阈值，则就可以认为该关键词属于该类别，是该类别的关键词。