CN117235199A

CN117235199A - 一种基于文档树的信息智能匹配检索的方法

Info

Publication number: CN117235199A
Application number: CN202311060773.4A
Authority: CN
Inventors: 任华
Original assignee: China Youke Communication Technology Co ltd
Current assignee: China Youke Communication Technology Co ltd
Priority date: 2023-08-22
Filing date: 2023-08-22
Publication date: 2023-12-15

Abstract

本发明提出一种基于文档树的信息智能匹配检索的方法，实现将文档结构与特征信息结合，生成一种能够携带文档特征信息的文档树，进而实现逐级匹配，快速地收敛目标文档的数量，从而达到降低运算量，提高检索速度、提高匹配精度。应用本技术方案能够实现对海量文档数据的快速、高效、及时、准确地匹配搜索，提高人们的知识生产效率，本发明能够有效解决知识生产、信息检索等过程的成本和精度问题。本发明所设计的文档树能够智能、客观地抓取文档关键词信息并携带文档的主题、结构、内容信息，无需人工标注过程，无需人工提取，既能够有效地降低人力成本，又解决了人工标注的关键词不准确、不完整的问题，大幅提高了匹配检索的精度。

Description

一种基于文档树的信息智能匹配检索的方法

技术领域

本发明涉及文档搜索、数据匹配与自然语言处理领域，尤其是一种基于文档树的信息智能匹配检索的方法。

背景技术

目前的信息检索，特别在文档检索方向，很多是基于关键词匹配进行检索，但利用关键词匹配很难满足人们检索的要求。首先，为信息标注关键词需要耗费大量的人工成本；其次，人工标注过程并不能保证全面、准确地体现文档的内容信息，尤其对于跨学科的学术文档，数量有限的关键词很难表达该文档涉及的各学科的知识构成，从而出现关键词检索存在查不全、查不准、检索质量不高、匹配结果数量过大的精度问题。

另一方面，使用传统的字符串匹配算法和语义相似度算法，甚或使用最新的自然语言处理技术，虽然可以获得较高的匹配精度，但同时也面临着挑战。随着知识的大爆炸，尤其海量的非结构化、半结构化文档的数据量呈几何级数增长，使得这些信息检索手段在海量数据面前完成一次检索，一般都要耗费较长的时间，导致无法高效、快速地完成文档的匹配检索，严重影响劳动生产的效率与知识再创作再加工的速度。

所以，如何自动地、高效地、及时地在大数据量甚至海量的信息文档中匹配搜索预期的文档，发现主题、观点、内容等要素的具有较高相似度的信息文档，其重要性非常突出。

发明内容

本发明提出一种基于文档树的信息智能匹配检索的方法，能够实现对海量文档数据的快速、高效、及时、准确地匹配搜索，提高人们的知识生产效率。

本发明采用以下技术方案。

一种基于文档树的信息智能匹配检索的方法，所述方法将文档结构与特征信息结合，生成能够携带文档特征信息的文档树，通过逐级匹配来快速收敛目标文档的数量来降低运算量；包括以下步骤；

步骤S1：对现有的文档集进行数据信息提取与文档特征预处理，生成相应的文档树集并记录文档与文档树的索引对应关系，D₀表示所有文档数据的集合，为D₀中的文档i，即集合D₀的元素i；T₀表示所有文档数据对应的文档树集合，为T₀中的文档树i，即集合T₀的元素i；与为一一对应关系；

步骤S2：对输入文档进行数据信息提取与文档特征实时处理，生成相应的输入文档树；

步骤S3：加载中所有文档树的主题特征结点与输入文档树的主题特征结点，进行主题相关性计算，获得主题匹配值大于某一阈值的文档树子集T1∈T0，T₁表示T0中与输入文档树主题相匹配的文档树子集，为T₁中的文档树i，即集合T₁的元素i；

步骤S4：根据T1对应的文档标识，在文档集D0中获得与输入文档的主题匹配的文档子集D1∈D0，D₁表示D0中与输入文档主题相匹配的文档子集，为D₁中的文档i，即集合D₁的元素；

步骤S5：加载的所有文档树的结构特征结点与输入文档树的结构特征结点，进行结构相似性计算，获得结构匹配值大于某一阈值的文档树子集T2∈T1∈T0，T₂表示T₁中与输入文档树结构相匹配的文档树子集，为T₂中的文档树i，即集合T₂的元素i；

步骤S6：根据T2对应的文档标识，在文档子集D1中获得与输入文档的结构层次匹配的文档子集D2∈D1∈D0，D₂表示D1中与输入文档结构相匹配的文档子集，为D₂中的文档i，即集合D₂的元素i；

步骤S7：加载中所有文档树的内容特征结点与输入文档树的内容特征结点，进行内容相似性计算，获得内容匹配值大于某一阈值的文档树子集T3∈T2∈T1∈T0，T₃表示T₂中与输入文档树内容相匹配的文档树子集，为T₃中的文档树i，即集合T₃的元素i；

步骤S8：根据T3对应的文档标识，在文档子集D2中获得与输入文档的内容匹配的文档子集D3∈D2∈D1∈D0，D₃表示D2中与输入文档内容相匹配的文档子集，为D₃中的文档i，即集合D₃的元素i；

步骤S9：根据匹配搜索的场景意图，按匹配度从高到低选择文档子集D3、D2、D1作为匹配搜索的输出结果。

所述步骤S1、S2中的文档数据信息提取与文档特征处理包括以下步骤：

步骤S101：采用encoder-decoder的网络模型，或使用已经训练好的BERT模型或GPT模型，生成文档数据原始的树型层级结构，即原始文档树；

步骤S102：使用自然语言处理模块对原始文档树的各结点下的文档片段进行关键词提取、实体识别、关系抽取、事件抽取操作，生成向量或矩阵形式的特征对象；

步骤S103：在原始文档树中为不同位置的结点创建或更新对应的不同类型的特征对象、或特征对象的引用关系；

步骤S104：在原始文档树的基础上，通过转换结点、局部移动、剪枝算法、插入或合并方式，生成简化的、压缩的、范式的树型层级结构，即文档摘要树；

步骤S105：相应地，更新文档摘要树中各结点对应的特征对象、或特征对象的引用关系。

所述步骤S3包括以下步骤：

步骤S301：从中提取所有文档树的根结点，加载其指向的主题特征集合Vs；

步骤S302：提取、加载输入文档树的根结点及指向的主题特征vs；

步骤S303：加载以词向量相关性计算为基础的网络模型或计算模块，计算Vs中各元素与vs的相关性；

步骤S304：比较相关性的计算值与预设阈值ts，当发现Vs中的某一元素和vs相关度超过ts，则判定其对应的文档在学科方向、内容主题、整篇文档观点、整体情感倾向的某一方面或某几方面有符合预期的匹配，并记录该元素对应的文档树标识；

步骤S305：最终获得符合匹配要求的文档树子集

所述步骤S5包括以下步骤：

步骤S501：从中提取所有文档树的树结构但不包含叶子结点，加载其指向的结构特征集合Va；

步骤S502：提取、加载输入文档树的树结构但不包含叶子结点及指向的结构特征va；

步骤S503：加载以树相似度计算为基础的网络模型或计算模块，计算Va中各元素与va的树相似度；

步骤S504：比较树相似度的计算值与预设阈值ta，当发现Va中的某一元素和va树相似度超过ta，则判定在文档章节层级、观点思路的迁移、整体撰写风格的某一方面或某几方面有符合预期的匹配，并记录该元素对应的文档树标识；

步骤S505：最终获得符合匹配要求的文档树子集

所述步骤S7包括以下步骤：

步骤S701：从中提取所有文档树的叶子结点，加载其指向的内容特征集合Vc；

步骤S702：提取、加载输入文档树的叶子结点及指向的内容特征vc；

步骤S703：加载以字符串匹配和语义相似度计算基础的网络模型或计算模块，计算Vc中各元素与vc的内容相似性；

步骤S704：比较内容相似性的计算值与预设阈值tc，当发现Vc中的某一元素的部分叶子结点和vc的部分叶子结点的内容相似性超过tc，则判定有局部内容即有文档片段的文字表述相似度或文本重复率有符合预期的匹配，并记录该元素对应的文档树标识和结点位置；

步骤S705：计算Vc中的某一元素所有叶子结点与vc的平均相似度,当其超过某一预设的阈值tc’，则判定全文内容即所有文档片段有较高的相似度，并记录该元素对应的文档树标识；

步骤S706：最终获得符合匹配要求的文档树子集

所述方法在文档数据信息提取与文档特征处理过程中，把提取的特征对象分为主题特征、结构特征、内容特征三类；其中，主题特征的分量包含该文档的主题、学科分类、全篇关键词及词频、全篇情感倾向信息的数字化表达；结构特征的分量包括章节层级的上下文关系、章节层级的摘要、章节层级的关键词及词频信息的数字化表达；内容特征的分量包含相应层级下各个文档片段的摘要、文档片段的关键词及词频、文档片段的原始内容文本信息的数字化表达；

所述文档树的结点分为根结点、非叶子结点、叶子结点三类；其中，根结点用于表示文档的主题特征，根结点之外的其它非叶子结点用于表示文档的结构特征，叶子结点则用于表示文档的内容特征；

根据实际系统的存储与计算资源的特性，文档树的每个结点对应一个矩阵或一个向量或向量组，或其它能够表达文档特征的数据结构形式，矩阵包括树阵或树阵的变型；向量、向量组包括KD树或KD树的变型。

所述方法中，把文档库预处理生成的文档树信息以永久或半永久的形式存储，在匹配检索计算过程按需加载到内存或缓存，以提高匹配检索的速度；所述方法根据文档树结点最终选型的数据结构形式，把文档树的整体树结构存储在图数据库，把结点的主题特征、结构特征、内容特征对象存储在适合的向量数据库或矢量数据库，以提高数据的存取读写操作速度。

所述方法通过配置不同规则的匹配策略、不同精度的匹配阈值以满足不同的应用场景和匹配检索的意图，在匹配检索计算的过程中，根据不同的匹配策略动态地加载不同的网络模型或计算模块，根据匹配阈值输出不同区间大小的结果集。

所述文档树包括第一层次的原始文档树和第二层次的文档摘要树，生成原始文档树是生成文档摘要树的先决条件；

所述原始文档树是采用encoder-decoder的网络模型或使用已经训练好的BERT模型、GPT模型，生成文档数据原始的树型层级结构；树的深度或层次更大，路径更复杂，数据量庞大，不适合直接用来做匹配检索运算；

所述文档摘要树是在原始文档树的基础上，通过转换结点、局部移动、剪枝算法、插入或合并方式，生成简化的、压缩的、范式的树型层级结构；基于文档树的信息智能匹配检索的方法的相关性或相似性计算均在文档摘要树上进行，以达到运算量较小但几乎不丢失文档的任何关键信息的目的；

所述文档树的结点分为主题特征结点、结构特征结点、内容特征结点；

主题特征结点，即文档树的根结点，用于表示文档的主题特征，其指向的特征分量可以包含该文档的主题、学科分类、全篇关键词及词频、全篇情感倾向信息的数字化表达；

结构特征结点，即根结点之外的其它非叶子结点，用于表示文档的结构特征，其指向的特征分量可以包括章节层级的上下文关系、章节层级的摘要、章节层级的关键词及词频信息的数字化表达；

内容特征结点，即叶子结点，用于表示文档的内容特征，其指向的特征分量包括相应层级下各个文档片段的摘要、文档片段的关键词及词频、文档片段的原始内容文本信息的数字化表达。

所述的文档，是指存储在计算机系统或互联网站点上的以文字为主要内容形式的文件或数据，包括但不限于专业资料、学术文献、专利文献、会议论文、学位论文、法律文件、应用文书、期刊文章的doc/docx、pdf、wps、txt、xml、caj的各种格式的电子档文件；

所述基于文档树的信息智能匹配检索的方法，采用基于文档树的信息智能匹配检索系统，系统包括：

文档树生成模块，主要完成文档的数据信息提取与文档特征处理，生成文档树；

文档树存储模块，主要存储文档库预处理后的文档树数据，一般采用适合的图数据库、以及向量数据库或矢量数据库；

模型库/算法库，主要存储各种相关算法、网络模型、NLP模块，供文档生成模块和匹配检索运算模块调用；

匹配策略配置模块，主要用于不同场景下各种匹配策略、算法、精度的配置；

匹配检索运算模块，主要完成包括文档树主题相关性、文档树结构相似性、文档树内容相似性运算和服务能力；

结果输出模块，按场景意图，输出匹配结果。

本发明能实现将文档结构与特征信息结合，生成一种能够携带文档特征信息的文档树，进而实现逐级匹配，快速地收敛目标文档的数量，从而达到降低运算量，提高检索速度、提高匹配精度。应用本技术方案能够实现对海量文档数据的快速、高效、及时、准确地匹配搜索，提高人们的知识生产效率。

与现有技术相比，本发明具有以下有益效果：

(1)本发明能够有效解决知识生产、信息检索等过程的成本和精度问题。本发明所设计的文档树能够智能、客观地抓取文档关键词信息并携带文档的主题、结构、内容信息，无需人工标注过程，无需人工提取，既能够有效地降低人力成本，又解决了人工标注的关键词不准确、不完整的问题，大幅提高了匹配检索的精度。

(2)本发明能够有效解决知识生产、信息检索等过程的资源能耗和速度限制问题。本发明通过“主题匹配-结构匹配-内容匹配”三个递进的步骤实现逐级计算过滤，能够快速地收敛目标文档的数量，从而达到降低运算量，提高检索速度，提高人们的知识生产效率。同时，由于运算量的降低，能够节约计算、内存等各类硬件资源投入，降低计算模块的能耗。

本发明技术应用面广，有很大的应用推广价值。它既可以应用于传统的信息检索、互联网搜索领域，也可用于知识推荐、论文查重等多种场景。通过预设不同规则的匹配策略，在主题匹配、结构匹配、内容匹配三个环节中加载不同的算法，自适应不同精度的阈值，输出不同匹配要素的结果，从而满足人们信息检索、查重、推荐等多样化的需求。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明：

附图1是本发明优选实施例的文档树结构图；

附图2是本发明优选实施例的方法流程图；

附图3是本发明优选实施例的系统模块图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式；如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1至3，一种基于文档树的信息智能匹配检索的方法，所述方法将文档结构与特征信息结合，生成能够携带文档特征信息的文档树，通过逐级匹配来快速收敛目标文档的数量来降低运算量；包括以下步骤；

本例的示例如下：

本例中，结点特征分量可以包括普通特征值、特征向量、特征矩阵等形式，每个结点的所有特征分量在实际编程中可以封装为一个对应该结点的特征对象，特征对象说明如下：

在本实施例中，将步骤S102获取的特征对象添加或更新到相应文档树结点的数据内容中，也可以通过指针或地址引用关系建立结点与结点特征对象的关系，如：

所述步骤S3包括以下步骤：

步骤S305：最终获得符合匹配要求的文档树子集

所述步骤S5包括以下步骤：

步骤S505：最终获得符合匹配要求的文档树子集

所述步骤S7包括以下步骤：

步骤S706：最终获得符合匹配要求的文档树子集

结果输出模块，按场景意图，输出匹配结果。

本例方法流程图，如图2所示，本流程图主要描述通过主题、结构、内容的三个维度逐级匹配过滤，获得符合预期的文档库子集的过程。该方法流程图包括如下内容：

(1)预处理现有的文档库，生成文档树集；

(2)实时处理输入文档生成输入文档树；

(3)从文档树集取出并加载主题特征集合V_s；

(4)从输入文档树t取出并加载主题特征v_s；

(5)由V_s和v_s进行主题相关性计算，获得主题匹配值大于某一阈值的文档树子集

(6)根据T₁对应的文档标识，获得与输入文档的主题匹配的文档子集

(7)从文档树集取出并加载结构特征集合V_a；

(8)从输入文档树t取出并加载结构特征v_a；

(9)由V_a和v_a进行结构相似性计算，获得结构匹配值大于某一阈值的文档树子集

(10)根据T₂对应的文档标识，获得与输入文档的结构层次匹配的文档子集

(11)从文档树集取出并加载内容特征集合V_c；

(12)从输入文档树t取出并加载内容特征v_c；

(13)由V_c和v_c进行内容相似性计算，获得内容匹配值大于某一阈值的文档树子集根据T₃对应的文档标识，获得与输入文档的内容匹配的文档子集

Claims

1.一种基于文档树的信息智能匹配检索的方法，其特征在于：所述方法将文档结构与特征信息结合，生成能够携带文档特征信息的文档树，通过逐级匹配来快速收敛目标文档的数量来降低运算量；包括以下步骤；

2.根据权利要求1所述的一种基于文档树的信息智能匹配检索的方法，其特征在于：所述步骤S1、S2中的文档数据信息提取与文档特征处理包括以下步骤：

3.根据权利要求1所述的一种基于文档树的信息智能匹配检索的方法，其特征在于：所述步骤S3包括以下步骤：

步骤S305：最终获得符合匹配要求的文档树子集

4.根据权利要求1所述的一种基于文档树的信息智能匹配检索的方法，其特征在于：所述步骤S5包括以下步骤：

步骤S505：最终获得符合匹配要求的文档树子集

5.根据权利要求1所述的一种基于文档树的信息智能匹配检索的方法，其特征在于：所述步骤S7包括以下步骤：

步骤S706：最终获得符合匹配要求的文档树子集

6.根据权利要求2所述的一种基于文档树的信息智能匹配检索的方法，其特征在于：所述方法在文档数据信息提取与文档特征处理过程中，把提取的特征对象分为主题特征、结构特征、内容特征三类；其中，主题特征的分量包含该文档的主题、学科分类、全篇关键词及词频、全篇情感倾向信息的数字化表达；结构特征的分量包括章节层级的上下文关系、章节层级的摘要、章节层级的关键词及词频信息的数字化表达；内容特征的分量包含相应层级下各个文档片段的摘要、文档片段的关键词及词频、文档片段的原始内容文本信息的数字化表达；

7.根据权利要求1所述的一种基于文档树的信息智能匹配检索的方法，其特征在于：所述方法中，把文档库预处理生成的文档树信息以永久或半永久的形式存储，在匹配检索计算过程按需加载到内存或缓存，以提高匹配检索的速度；

所述方法根据文档树结点最终选型的数据结构形式，把文档树的整体树结构存储在图数据库，把结点的主题特征、结构特征、内容特征对象存储在适合的向量数据库或矢量数据库，以提高数据的存取读写操作速度。

8.根据权利要求1所述的一种基于文档树的信息智能匹配检索的方法，其特征在于：所述方法通过配置不同规则的匹配策略、不同精度的匹配阈值以满足不同的应用场景和匹配检索的意图，在匹配检索计算的过程中，根据不同的匹配策略动态地加载不同的网络模型或计算模块，根据匹配阈值输出不同区间大小的结果集。

9.根据权利要求1所述的一种基于文档树的信息智能匹配检索的方法，其特征在于：所述文档树包括第一层次的原始文档树和第二层次的文档摘要树，生成原始文档树是生成文档摘要树的先决条件；

10.根据权利要求1所述的一种基于文档树的信息智能匹配检索的方法，其特征在于：所述的文档，是指存储在计算机系统或互联网站点上的以文字为主要内容形式的文件或数据，包括但不限于专业资料、学术文献、专利文献、会议论文、学位论文、法律文件、应用文书、期刊文章的doc/docx、pdf、wps、txt、xml、caj的各种格式的电子档文件；

文档树生成模块，主要完成文档的数据信息提取与文档特征处理，生成文档树；文档树存储模块，主要存储文档库预处理后的文档树数据，一般采用适合的图数据库、以及向量数据库或矢量数据库；

匹配策略配置模块，主要用于不同场景下各种匹配策略、算法、精度的配置；匹配检索运算模块，主要完成包括文档树主题相关性、文档树结构相似性、文档树内容相似性运算和服务能力；

结果输出模块，按场景意图，输出匹配结果。