CN113742292A

CN113742292A - 基于ai技术的多线程数据检索及所检索数据的访问方法

Info

Publication number: CN113742292A
Application number: CN202111042810.XA
Authority: CN
Inventors: 耿德强; 武伟; 李杨; 刘洋
Original assignee: Hexaprism Hangzhou Technology Co ltd
Current assignee: Hexaprism Hangzhou Technology Co ltd
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-12-03
Anticipated expiration: 2041-09-07
Also published as: CN113742292B

Abstract

本发明公开了一种基于AI技术的多线程数据检索及所检索数据的访问方法。本发明的检索方法包括对于文件数据进行预处理，基于文件丰度以及文件关联强度形成表示文件关系的连通树；对所录入的检索信息进行特征提取，获取对应的检索关键词；为当前检索分配第一组线程，用于基于关键词进行目标文件检索；根据关键词检索确定检索基础文件；为当前检索分配第二组线程，第二组线程基于连通树进行相关文件的批量调入选定，采用多个线程分别对所调入文件与所输入的语义信息进行相关度计算。

Description

基于AI技术的多线程数据检索及所检索数据的访问方法

技术领域

本发明涉及大数据和信息技术领域，具体涉及基于AI技术的多线程数据检索及所检索数据的访问方法。

背景技术

当今世界，以信息技术为代表的新一轮科技革命方兴未艾，信息技术创新日新月异，以数字化、网络化、智能化为特征的信息化浪潮蓬勃兴起。信息化正在深刻改变人们的生产生活方式。

随着人工智能以及大数据领域的发展，体现海量数据的存储、索引以及访问是人们必须要解决的一个问题，并且，随着数据量的几何级数增长，人们获得精准数据的需求愈加强烈。

因此，海量数据场景下的高效查询与检索能力对于推动我国的大数据技术发展具有重要意义。

当前各种数据纷繁复杂，大数据技术的一个重要作用就是从这些纷繁复杂的数据中寻找的数据之间的关联，加以利用。本发明主要针对检索中越来越广泛使用的全文检索或者基于输入的大段文字信息的检索。虽然现有技术中存在着诸多的语义检索方法，但是，这些检索方法都是基于人工智能的分析模型，需要通过大量标注数据对模型进行训练，并且模型运行复杂，对于检索输入的信息量较大时，需求的运算量大，对系统的要求高，并且由于文献内容包罗万象，语言表达方式又差异巨大，导致模型越来越复杂，却也难以适应文献速度的快速增长。

发明内容

针对上述问题，本发明提出了一种全新的检索方法，其兼顾现有语义检索并且提出了一种新的数据关联结构方式——连通树，通过连通树的构建，在数据处理阶段即可将大量相关数据进行关联存储，当基于语义检索获得一个突破点之后，可以基于树状的关联结构迅速寻找到与之匹配良好的关联文献，进而大大压缩检索时间，提高检索匹配度。

具体而言，一方面，本发明提供一种基于AI技术的多线程数据检索方法，其特征在于，所述方法包括下述步骤：

对于文件数据进行预处理，基于文件丰度以及文件关联强度形成表示文件关系的连通树；对所录入的检索信息进行特征提取和/或语义分析；为当前检索分配第一组线程，用于基于通过特征提取获得的关键词和/或语义分析结果从连通树根文件中按照根等级的从高到低进行(利用所提取的关键词或者由关键词所映射的向量，采用TF-IDF或者BM25等常规检索方法)目标文件检索；对基于关键词和/或语义分析检索到的文件进行录入信息与文件之间的相关度计算，并返回所检索到的相关度高于目标阈值的检索基础文件；为当前检索分配第二组线程，第二组线程基于连通树确定所述检索基础文件所属的各个上级根文件以及并列根文件；对各个根文件与所输入的语义信息进行相关度计算，确定与所输入语义信息相关度最高的若干相关根文件；将上述根文件的所有下级根文件以及叶文件均调入快速缓存，采用多个线程分别对所调入文件与所输入的语义信息进行相关度计算，输出相关度排名靠前的若干文件。

需要说明的是，根等级的从高到低中的高和低是相对的，越基础的根文件等级越高，越靠近叶文件的根文件等级越低。例如，二级高于三级。

优选地，确定文件丰度的步骤包括：

1.1、基于现有各类文献进行关键词提取，获取每类文献所包含的关键词子库，汇总各类关键词子库中的关键词形成关键词库，建立关键词库中各个关键词与文献类别之间的映射关系；

1.2、对于文件库中每个文件提取其文件内容中的关键词，确定每个关键词的出现频次以及所属文献类别；

1.3、去除频次低于阈值的关键词，确定各个保留关键词的出现频次，对各个关键词的出现频次分级，形成关键词频次等级；

1.4、基于关键词类别权重以及关键词的频次等级，计算文件丰度：

其中，C_i表示文件中所包含的第i个关键词的类别权重，该权重根据关键词所属类别的数量增加而增加，该权重根据经验设置，初始时可以采用所属类别数量的2次或3次方根作为输入。H_i表示该关键词的频次等级。

优选地，基于文件丰度以及引用文件数和被引用次数确定文件的关联强度Co＝a₁R+a₂Cit+a₃ Rec其中，a₁、a₂、a₃分别为关联系数，Cit表示引用文件数，Rec表示被引用次数。

上述参数和权重可以基于所获得的关联强度与其他文件之间的相关度是否成正比关系来进行反馈调整，找到能够最好地反映文件关联强度与该文件与其他文件之间的相关度的参数。

优选地，所述连通树通过下述方式构建：

2.1、基于现有文件分类方式，对于每一类文件的子库，对各个文件按照文件关联强度进行排序，从中选取关联强度排序最高的若干文件作为根文件；

2.2、对于当前子库中的每个非根文件，将其分别与各个根文件进行相关度计算，然后将相应非根文件与各个根文件的相关度进行排序，将当前文件归属到对应根文件；

2.3、对于每个根文件，计算该根文件与每个非根文件的相关度并且计算非根文件的丰度，利用丰度对关联度进行加权(即相同关联度情况下，选取丰度更高的文件作为二级根)，对所得结果进行从高到低排序，选取出若干二级根文件；

2.4、对每个二级根文件，计算该二级根文件与每个所有保留的非根文件的相关度并且计算相应非根文件的丰度，利用丰度对相关度进行加权，对所得结果进行从高到低排序，选取出若干三级根文件，依此类推，计算更多级根文件，直到剩余非根文件与当前类别的总文件数目的比例低于预定值；

2.5、对剩余每个非根文件进行计算，起算其与各个根文件的相关度，将相关度大于第一阈值的非根文件作为叶文件分配给与其相关度最高的根文件，每个根文件分配的叶文件数目不超过其承载限，若分配给任意一个根文件的叶文件数目超过其承载限，则按相关度顺序将相关度最低的叶文件分配至相关度次之的根文件。

优选地，若非根文件与当前分类中的每个根文件的相关度均不大于相关度阈值，则对其进行分类划转，转入其他类别进行相关度计算。

优选地，当该分类中任意增加一个新文件时，计算该新文件与各个根文件的相关度，将其与相关度最高的文件进行关联作为其叶文件。

优选地，所述方法还包括对于每个文件，统计连通树中同一分支内，任意一个文件被检索到时，其他文件被检索到的次数，当同一分支内叶文件被检索到的次数高于对应根文件达到预定次数后，对相应分支下的各个文件进行丰度和相关度计算，重新确定当前分支的根文件脉络。

另一方面，本发明提供一种数据访问方法，其特征在于，所述方法包括：根据录入的检索基础文本，采用权利要求1所述的多线程数据检索方法对目标文件进行检索，并且，将所检索到的目标文件缓存到快速缓存中，根据用户输入从快速缓存中调取所选择的目标文件。

本发明的基于AI技术的多线程数据检索方法以及所检索数据的访问方法兼具当前普遍采用的基于关键词的语义检索以及本发明提出的新的批量检索方式的优点，不仅可以简化检索模型，提高检索效率，而且可以在检索过程中，准确反映出各个文件之间的关联情况。本发明通过在前期对数据的预加工可以大幅度缩减检索过程中获取相关文献的时间。

附图说明

图1所示为根据本发明的检索方法的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

下面，本实施例中，将以文献数据为例对本发明的关联数据的多线程检索和访问方法进行详细描述。

本发明的检索方法包括：

对于文件数据进行预处理，基于文件丰度以及文件关联强度形成表示文件关系的连通树；

对所录入的检索信息进行特征提取和/或语义分析；

为当前检索分配第一组线程，用于基于通过特征提取获得的关键词和/或语义分析结果进行目标文件检索，即这里采用常规的检索方式进行目标文件检索，比如采用TF-IDF或者BM25检索算法首先获得至少一篇相关文件；

对基于关键词和/或语义分析检索到的文件进行录入信息与文件之间的相关度计算，并返回所检索到的相关度(匹配度)高于目标阈值的检索基础文件；

为当前检索分配第二组线程，第二组线程确定所述检索基础文件所属的各个上级根文件以及并列根文件，调取相应文件到内部缓存；

对各个根文件与所输入的语义信息进行相关度计算，确定与所输入语义信息相关度最高的若干相关根文件；

将上述根文件的所有下级根文件以及叶文件均调入快速缓存，采用多个线程分别对所调入文件与所输入的语义信息进行相关度计算，输出相关度排名靠前的若干文件。

下面，对本实施例的方法进行展开说明。

在进行检索之前，为了更好地进行数据检索，首先，本发明对数据进行了特殊处理。

具体而言，对于任何数据而言其可能存在多个维度的信息，比如，对于文献数据而言，其所涉及到的不仅仅是文献的技术内容本身，还会存在很多外围相关数据，比如，文献作者、文献所属领域、与文献记载技术相关的研发机构、文献的发表日期、作者的国别、地址，文献引用关系等。

本申请的发明人在对数据检索过程进行深入研究发现，实际上，在数据或者文献的检索过程中，不同数据被检索到的次数实际上并不是孤立存在的，而是在某一个数据被检索到之后，往往与其相关联的数据会进一步被检索到，这就是文件的相关性。

现有技术中实际上已经存在这种基于文件的相关性进行相关文件的推送方面的类似技术。但是，现有的关联检索一般是基于一定的特征词关联规则进行的关联加权检索，或者是通过索引的方式将相同关键词或者相同项的文件关联起来，实际上还仅仅是一种索引关系，文件之间的关联关系还是节点式关系。

而本发明中，在进行数据检索时，采用基于“连通树”的数据加工方式，对目标数据库首先进行预处理，调整其关联关系。

首先，对于每一篇文献，计算文献关联强度，关联强度基于文件丰度、引用系数和被引系数来加权确定。文件丰度的确定过程为：

1.2、对于文件库中的每个文件提取其文件内容中的关键词，确定每个关键词的出现频次以及所属类别；

1.3、去除频次低于阈值的关键词，基于各个保留关键词的出现频次，对各个关键词分别进行频次分级，对于不同等级分别赋予不同的权重；

1.4、基于关键词类别权重以及关键词的出现频次，计算文件丰度：

其中，C_i表示文件中所包含的第i个关键词的类别权重，H_i表示该关键词的频次等级。

然后，基于文件丰度以及引用文件数和被引用次数确定文件的关联强度：Co＝a₁R+a₂Cit+a₃ Rec其中，a₁、a₂、a₃分别为关联系数，Cit表示引用文件数，Rec表示被引用次数，各系数可以基于文件类型而基于经验确定，后续可以通过检索测试进行调整优化。

基于当前文件库中文献的现有文件分类方式，对于每一类文件的子库(即，下述的连通树是对于每一个文件子库建立的，不同类别的文件可以构建多个连通树，甚至同一类别的文件如果数量足够多的也可以构建多个连通树，优选地，每个子库的文件数量大于1000篇，小于10万篇，若子库中的文件过大，可以进一步进行基于类别进行细化拆分)，对子库中各个文件按照文件丰度进行排序，从中选取丰度排序最高的若干文件作为根文件，对各个根文件的相似度进行判别，将相似度高于预定值的根文件进行合并，即，将其作为并列根文件，或者仅保留其中之一。

对于当前子库中的每个非根文件，将其分别与各个根文件进行相关度计算，然后将相应非根文件与各个根文件的相关度进行排序，将当前文件归属到对应根文件，进而将所有非根文件归属到不同的根文件归属下。

接下来，对于每个根文件，基于各个现有非根文件与根文件的相关度并且计算非根文件的丰度，利用丰度对相关度进行加权(丰度越高、权重越大)，按加权相关度从高到低顺序，选取出若干二级根文件(比如，10-50个)。

按照上述方式进行更多级根文件的确定，直到剩余非根文件与根文件的比例低于预定值，比如，剩余非根文件与根文件的数目低于5：1到20：1之间的某个比例作为阈值。

以三级根文件为例，确定该类文件的剩余非根文件总数目M_剩，以及一至三级根文件的总数目T₃，M_剩/T₃的值是否大于根文件的承载限，若不大于根文件的承载限，则对于每个非根文件，计算其与各个根文件的相关度，将其分配给与其相关度最高的根文件作为叶文件，若其所分配的根文件所分配的叶文件的数目超过承载限，则将已分配给该三级根文件的所有叶文件进行排序，剔除相关度最低的叶文件并对该叶文件分配给与其相关度排名次之的三级根文件，以此类推。按照上述方式，若M_剩/T₃的值大于根文件的承载限，则按照上述类似方式进行四级根文件的选择，并将叶文件分配给一至四级根文件，类似地，若文件数量依然过大，则进行按照上述第三级和第四级根文件的方式确定下一级根文件。

对于剩余非根文件，计算其与每个根文件的相关度，判断各个非根文件与任意一个根文件的相关度是否大于相关度阈值，若非根文件与任意一个根文件的相关度大于相关度阈值，将其保留，并且对每个根文件，将所有保留的非根文件与其的相关度进行排序，选取相关度最高的N个文件作为该根文件的叶文件，对每个根文件进行类似操作，确定其相应叶文件；若任意一个非根文件与每个根文件的相关度均不大于相关度阈值，则对其进行分类划转，转入其他类别进行相关度计算，若存在相关度大于预定阈值的情况，则将该非根文件转入对应根文件进行上述相关度计算和归属划分。对于与所有根文件的相关度均小于阈值的文件，进行人工复核，将其分入相应类别作为与某根文件相关的根文件或孤立文件。

重复上述操作，直到所有文件要么被定义为根文件，要么被定义为叶文件，要么被定义为孤立文件。

预处理时，由于时间充裕并且可以调动多台更大型的本地运算设备进行精细化处理，因此，预处理时的相关度计算等采用更高精度的数据处理方式，比如，采用多种现有相关度计算模型进行综合计算，对于所选取到的根文件进行筛选，配合人工标引反馈，不断调整参数，尽可能选取到最佳的根文件，以便后续检索时的快速响应。

采用这种方式，将建立基于文件内容的丰度和相关度的文件“连通树”，对于每一类文件形成至少一棵文件“连通树”。对于所获得的连通树，将每棵连通树对应文件存储在数据库中的相邻片区。

当进行文件数据检索时，首先，为该检索分配第一线程，第一线程基于用户输入的语义进行特征提取，并基于提取的关键词进行匹配遍历检索，遍历范围为根文件，当第一线程检索到与用户输入的所有关键词的加权匹配度达到一定阈值的第一目标文件时，第一线程将所检索到的结果返回给控制器，控制器分配第二线程。第二线程基于所检索到的第一目标文件确定其连通树归属，确定所述第一目标文件为根文件、叶文件或孤立文件，若为根文件，则调取与第一目标文件关联的各个上级根文件以及第一目标文件的并列根文件，若为叶文件，则调用该叶文件关联的各个上级根文件以及其所属根文件的并列根文件；然后，对各个根文件进行与所输入的语义信息进行相关度(或称匹配度)计算，确定与所输入语义信息相关度最高(比如前三篇或者更多)的若干根文件；将上述根文件的所有下级根文件以及叶文件均调入快速缓存，采用多个线程分别对所调入文件与所输入的语义信息进行相关度计算，并且，保留1-2个线程继续在文件库中基于关键词进行关键词检索，并且将基于关键词检索获得的与输入语义信息匹配度高于预定阈值的目标文件继续返回控制器，重复上述基于根文件的检索操作。若基于关键词检索获得的为孤立文件，则仅返回该文件，继续进行关键词检索，而不进行其他根文件操作，并且，还可以开辟一线程专用于孤立文件检索。当然需要说明的是，这里的第一(组)线程和第二(组)线程等并非固定的单个或多个线程，而是可以彼此转换，比如，如果有5个线程，在第一次检索时，可以5个线程都用于基础检索，而当检索到基础文件之后，再分出若干线程用于关联检索，最后当关联检索完成后，可以将所有线程用于对孤立文件进行检索。并且，优选地当基于根文件的关联检索完成后，可以将所有线程用于对孤立文件进行检索。

为了验证本发明方法与现有技术方法的优势，申请人以IPC分类号F16L中的18万多篇专利文献为例进行了检索测试。从中选取出100篇文献作为测试文献，剩余文献按照上述方法进行数据处理形成12个文件连通树，按照连通树进行文件存储，相同连通树中的文件相邻存储，比如，存储在相同扇区。

然后，将测试文件中的文本内容作为检索测试内容，复制其中核心段落作为检索输入，进行语义检索。将本发明方法与常规的基于关键词的检索方法(TF-IDF算法)以及常规的基于深度学习模型的检索方法相比较，最后的平均相关度采用多个相关度评估算法(比如，TF-IDF、simhash、minhash等)结合人工复核进行加权测评。测试结果如下：

表1检索方法对比

从上表的对比可以看出，本发明的方法与常规的检索方法相比，对于相关文献的检索更有优势，可以大幅度提升检索速度，本发明的检索方法对于输入文字量较大的大篇幅文字的语义检索效果尤佳。

实施例2

在另一种优选实现方式中，对于文件的其他信息，建立基于文件内容的文件连通树类似地的信息连通树。比如，对于文件的作者，提取所有文件的作者信息，统计与每一位作者相关的文件数目，即统计作者的产量丰度，将与其相关的文献数目超过预定阈值的作者作为信息连通树的根作者，对与根作者相关的文献中所包含的其他作者进行统计，将相关文献最多的若干作者作为二级根作者，统计每个二级根作者相关的文献中的其他作者，将与二级根作者相关的文献中的其他作者中，相关文献最多的若干作者作为三级根作者，依次类推，确定多级根作者。统计非根作者中与各个根作者相关的文献数目，将该非根作者归属到相关文献数目最多的根作者，作为叶作者，将无共同作者的作者归属到孤立作者，建立信息连通树与各个文件之间的映射关系。

类似地，还可以建立基于其他信息的信息连通树。

虽然上面结合本发明的优选实施例对本发明的原理进行了详细的描述，本领域技术人员应该理解，上述实施例仅仅是对本发明的示意性实现方式的解释，并非对本发明包含范围的限定。实施例中的细节并不构成对本发明范围的限制，在不背离本发明的精神和范围的情况下，任何基于本发明技术方案的等效变换、简单替换等显而易见的改变，均落在本发明保护范围之内。

Claims

1.一种基于AI技术的多线程数据检索方法，其特征在于，所述方法包括下述步骤：

对所录入的检索信息进行特征提取和/或语义分析；

为当前检索分配第一组线程，用于基于通过特征提取获得的关键词和/或语义分析结果从连通树根文件中按照根等级的从高到低进行目标文件检索；

对基于关键词和/或语义分析检索到的文件进行录入信息与文件之间的相关度计算，并返回所检索到的相关度高于目标阈值的检索基础文件；

为当前检索分配第二组线程，第二组线程基于连通树确定所述检索基础文件所属的各个上级根文件以及并列根文件；

2.根据权利要求1所述的基于AI技术的多线程数据检索方法，其特征在于，确定文件丰度的步骤包括：

1.2、对于文件库中的目标文件提取其文件内容中的关键词，确定每个关键词的出现频次以及所属类别；

1.3、基于各个关键词的出现频次，对关键词数量进行频次分级，形成不同的频次等级；

3.根据权利要求2所述的基于AI技术的多线程数据检索方法，其特征在于，基于文件丰度以及引用文件数和被引用次数确定文件的关联强度Co＝a₁R+a₂Cit+a₃Rec其中，a₁、a₂、a₃分别为关联系数，Cit表示引用文件数，Rec表示被引用次数。

4.根据权利要求2所述的基于AI技术的多线程数据检索方法，其特征在于，所述连通树通过下述方式构建：

2.3、对于每个根文件，计算该根文件与每个非根文件的相关度并且计算非根文件的丰度，利用丰度对关联度进行加权，对所得结果进行从高到低排序，选取出若干二级根文件；

5.根据权利要求4所述的基于AI技术的多线程数据检索方法，其特征在于，若非根文件与当前分类中的每个根文件的相关度均不大于相关度阈值，则对其进行分类划转，转入其他类别进行相关度计算。

6.根据权利要求4所述的基于AI技术的多线程数据检索方法，其特征在于，当该分类中任意增加一个新文件时，计算该新文件与各个根文件的相关度，将其与相关度最高的文件进行关联作为其叶文件。

7.根据权利要求6所述的基于AI技术的多线程数据检索方法，其特征在于，所述方法还包括对于每个文件，统计连通树中同一分支内，任意一个文件被检索到时，其他文件被检索到的次数，当同一分支内叶文件被检索到的次数高于对应根文件达到预定次数后，对相应分支下的各个文件进行丰度和相关度计算，重新确定当前分支的根文件脉络。

8.一种数据访问方法，其特征在于，所述方法包括：根据录入的检索基础文本，采用权利要求1所述的多线程数据检索方法对目标文件进行检索，并且，将所检索到的目标文件缓存到快速缓存中，根据用户输入从快速缓存中调取所选择的目标文件。