CN116910186A

CN116910186A - 一种文本索引模型构建方法、索引方法、系统和终端

Info

Publication number: CN116910186A
Application number: CN202311169134.1A
Authority: CN
Inventors: 韩进; 邵林波
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-09-12
Filing date: 2023-09-12
Publication date: 2023-10-20
Anticipated expiration: 2043-09-12
Also published as: CN116910186B

Abstract

本发明公开了一种文本索引模型构建方法、索引方法、系统和终端，属于文本索引领域，包括：获取维基百科的中文语料，对数据进行预处理；基于Skip‑gram模型对语料库中的词进行训练，得到对应词向量；遍历m段文本，将每段文本进行分词，并使用词向量构建每段文本的n维球空间，总共得到m个n维球空间，把这m个n维球空间作为文本索引；通过迭代算法不断调整每个球空间的中心位置，实现最小的可容纳文本中所有词向量的n维球空间；输入关键词进行检索，若检索成功则使用ACBM算法定位关键词在每段文本中的位置。本发明提出了一种新的文本索引方法，在大数据环境下，可以大幅度提高检索速度。

Description

一种文本索引模型构建方法、索引方法、系统和终端

技术领域

本发明涉及文本索引领域，具体涉及一种文本索引模型构建方法、索引方法、系统和终端。

背景技术

在最近十年里，随着互联网技术的飞速发展，人们获取信息的方式发生了重大改变，信息的传播与共享已经不再受时间和空间上的限制，人们查找资源变得异常方便。然而，互联网在带给人们巨大利好的同时，也带来了新的挑战。随着文本数据量的指数级增长，很容易导致信息过载，人们无法从偌大的信息资源中快速找到自己所需要的信息。因此如何从海量的数据中准确快速的找到我们所需要的信息便成为其中的关键问题，而文本检索技术正是解决这一问题的重要手段。

模式匹配算法作为文本检索和内容过滤的核心，是目前计算机领域的重点研究方向之一。模式匹配算法最早被应用于文献检索、拼写检查、语言翻译等方面。随着网络通信技术和其他自然科学的发展，模式匹配算法被广泛的应用于搜索引擎、入侵检测系统、计算机病毒检测、内容过滤防火墙、DNA序列匹配等。

虽然目前的文本检索技术已经取得了比较好的表现，但是大多都是基于倒排索引来进行检索，这种索引方法只适用于文本内容已经确定的情况下，无法应用于文本内容动态变化的场景需求，如数据库表的模糊查找、网络安全中的数据包过滤等。而对于模式匹配算法，其在数据量过大的情况下，需要消耗大量的计算资源和存储资源，性能十分低下。

发明内容

针对现有技术的不足，本发明提出了一种文本索引模型构建方法、索引方法、系统和终端，解决了现有技术中存在的倒排索引无法应用于文本内容动态变化的场景、模式匹配算法在大数据环境下检索效率低下的问题。

本发明的目的可以通过以下技术方案实现：

第一方面，本申请提出一种文本索引模型构建方法，包括以下步骤：

基于Skip-gram模型对预处理后的语料库中的词进行训练，得到词向量；

对语料库的每段文本进行分词，并获取分词的词向量；基于分词的词向量的坐标和维度确定向量空间中心的位置；

计算各个分词的词向量的坐标至向量空间中心的距离，得到分词的词向量至向量空间中心的最长距离和最短距离；以向量空间中心为球心，最短距离长为最短半径，最长距离长为最长半径，构建空心球形向量空间；

通过迭代算法调整球空间的中心位置，直到空心球形向量空间满足体积最小且容纳文本中所有词向量；

基于所有调整后的空心球形向量空间构建文本索引模型。

在一些实施例中，所述向量空间中心的位置，包括以下步骤：

从训练后的词向量中获取分词对应的词向量，并将分词的词向量存入一个数组arr；

遍历数组arr中词向量的坐标P_i，对于每个坐标的维度n，得到P_i对应的每个维度值的和；

将求和值除以n得到向量空间中心的位置L。

在一些实施例中，所述向量空间中心的最长距离和最短距离的获取包括以下步骤：

定义一个极大值fin ₁=MAX_VALUE，极小值fin ₂=-1；

遍历词向量的坐标P_i，计算得到当前点距中心的欧氏距离，两个词之间的欧式距离的满足：

其中，，/>是空间中两个点第i个维度的值；

比较fin ₁和当前词向量距向量中心的距离，将小的值保存为新的fin ₁，记录当前词向量在数组arr的下标次序记为M₁；

在遍历完所有词向量之后，得到距向量中心最短距离为fin ₁，最近点的下标次序为M₁；

比较fin ₂和当前词向量距向量中心的距离，将大的值保存为新的fin ₂，记录当前词向量在数组arr的下标次序记为M₂；

在遍历完所有词向量之后，得到距向量中心最长距离为fin ₂，最远点的下标次序为M₂。

在一些实施例中，所述通过迭代算法调整球空间的中心位置，直到空心球形向量空间满足体积最小且容纳文本中所有词向量，包括以下步骤：

定义一个极大值e= MAX_VALUE，step=1e-5，eplse=1e-8；遍历空间中的每一个词向量P_i，对于每一个维度n，将距中心最远点每一个维度值减去当前向量空间中心的每一个维度值，并除以这两个点之间的欧式距离得到Y_n；对于空间中的每一个维度n，将Y_n乘以step之后与原空间中心L_n相加，得到新中心rst；以新中心rst为基准，计算得到新的距中心的最长距离fin ₃，记录当前词向量在数组arr的下标次序记为M₃；将新的最长距离fin ₃和原有最长距离fin ₂相比，保存比较后的最长距离至fin ₂，记录当前词向量在数组arr的下标次序记为M₂，并保存新中心rst和原中心L的欧氏距离至e；重复过程直至e小于eplse，此时视为中心rst不再移动；

基于中心rst的确定最短距离fin ₁；以rst为球心，fin ₁为最短半径，fin ₂为最长半径，构建空心球形向量空间。

在一些实施例中，所述语料库的每段文本通过jieba分词进行分词。

在一些实施例中，所述语料库通过jieba分词并且去停用词。

第二方面，本申请提出一种文本索引模型的文本索引方法，包括以下步骤：

向如第一方面项所述的文本索引模型输入关键词；计算关键词的词向量与空心球形向量空间rst的欧式距离d；若d的长度在空心球形向量空间的fin ₁和fin ₂之间，则判断关键词在对应的空心球形向量空间内，并使用ACBM算法定位该关键词在该段文本的位置。

第三方面，本申请提出一种基于第一方面项所述的文本索引系统，包括：

预处理模块：对语料库通过jieba分词并且去停用词；

文本索引搭载模块：基于Skip-gram模型对预处理后的语料库中的词进行训练，得到词向量；将待检索文本进行分词，并获取分词的词向量；基于分词的词向量的坐标和维度确定向量空间中心的位置；计算各个分词的词向量的坐标至向量空间中心的距离，得到分词的词向量至向量空间中心的最长距离和最短距离；以向量空间中心为球心，最短距离长为最短半径，最长距离长为最长半径，构建空心球形向量空间；

调整模块：通过迭代算法调整球空间的中心位置，直到空心球形向量空间满足体积最小且容纳文本中所有词向量；

查询模块：计算关键词的词向量与空心球形向量空间rst的欧式距离d；若d的长度在空心球形向量空间的fin ₁和fin ₂之间，则判断关键词在对应的空心球形向量空间内；

定位模块：若判断关键词在空心球形向量空间中，使用ACBM算法进一步定位该词在文本中的位置。

第四方面，本申请提出一种终端设备，包括存储器、处理器及存储在存储器中并能够在处理器上运行的计算机程序，其特征在于，所述存储器中存储有能够在处理器上运行的计算机程序，所述处理器加载并执行计算机程序时，采用了如第一方面所述的一种文本索引模型构建方法。

第五方面，本申请提出一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其特征在于，所述计算机程序被处理器加载并执行时，采用了如第一方面所述的一种文本索引模型构建方法。

本发明的有益效果：

本发明提出的以球形向量空间作为文本索引，相较于倒排索引，具有占据空间小，数据结构简单的优点。在大数据环境下，可以大幅提高检索速度。

本发明提出的球中心迭代算法，可以辅助我们构建一个覆盖面积最小的球空间，进一步提高检索速度。

本发明提出的算法可以应用于多个领域，如搜索引擎、入侵检测系统、计算机病毒检测等。

附图说明

下面结合附图对本发明作进一步的说明。

图1为本申请的文本索引方法生成的带关键词的词向量示例图；

图2为本申请的文本索引方法生成的不带关键词的词向量示例图；

图3为本申请的文本索引方法球形向量空间构建流程图；

图4为本申请的文本索引方法关键词检索流程图；

图5为本申请的关键词数量为100时的查找时间与α的关系图；

图6为本申请的关键词数量为400时的查找时间与α的关系图；

图7为本申请的关键词数量为800时的查找时间与α的关系图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

一种文本索引模型构建方法，包括以下步骤：

所述向量空间中心的位置，包括以下步骤：

将求和值除以n得到向量空间中心的位置L。

所述向量空间中心的最长距离和最短距离的获取包括以下步骤：

定义一个极大值fin ₁=MAX_VALUE，极小值fin ₂=-1；

其中，，/>是空间中两个点第i个维度的值；

通过迭代算法调整球空间的中心位置，直到空心球形向量空间满足体积最小且容纳文本中所有词向量，具体包括以下步骤：

基于中心rst的确定最短距离fin ₁；以rst为球心，fin ₁为最短半径，fin ₂为最长半径，构建空心球形向量空间；

基于所有调整后的空心球形向量空间构建文本索引模型。

实施例1：以维基百科开源语料库的数据为例构建文本索引模型并检索关键词进行说明。

步骤1：获取对应领域的中文语料，对数据进行预处理；

具体为：

步骤1.1，从维基百科开源语料库中下载最新日期的词条正文压缩包，使用wikiextractor从压缩包中抽取正文文本。

步骤1.2，从xml文件转换成txt文件后，又出现许多繁体字，使用opencc进行繁简转化。

步骤1.3，对转化之后的文本进行jieba分词，并且去停用词。

步骤2：基于Skip-gram模型对语料库中的词进行训练，得到对应词向量；

具体为：

调用gensim库中的skip-gram模型对语料库进行训练，模型参数size表示转化成词向量的维度，训练完之后得到对应词的n维词向量。

步骤3：对语料库的每段文本进行分词，使用词向量构建该段文本的n维球空间，把该球空间作为文本索引；

具体为：

步骤3.1，从步骤1中获取的中文语料中随机抽取一段文本作为待检索文本，并将该文本进行jieba分词。

步骤3.2，从词向量库中获得这些词对应的词向量，并将这些词存入一个数组arr，遍历这些词向量的坐标P_i，对于每个坐标的维度n，得到P_i对应的每个维度值的和；将得到的值除以n得到向量空间中心的位置L。

步骤3.3，首先，定义一个极大值fin ₁=MAX_VALUE，极小值fin ₂=-1。遍历空间中词向量的坐标P_i，计算得到当前点距中心的欧氏距离，两个词之间的欧式距离的计算方法如下：

其中，，/>是空间中两个点第i个维度的值。

步骤3.4，比较fin ₁和当前词向量距向量中心的距离，将小的值保存为新的fin ₁，记录当前词向量在数组arr的下标次序记为M₁。在遍历完所有词向量之后，得到距向量中心最短距离为fin ₁，最近点的下标次序为M₁。比较fin ₂和当前词向量距向量中心的距离，将大的值保存为新的fin ₂，记录当前词向量在数组arr的下标次序记为M₂。在遍历完所有词向量之后，得到距向量中心最长距离为fin ₂，最远点的下标次序为M₂。

步骤3.5，以L为球心，fin ₁为最短半径，fin ₂为最长半径，构建空心球形向量空间。

步骤4：通过迭代算法不断调整球空间的中心位置，实现最小的可容纳文本中所有词向量的n维球空间；

具体为：

步骤4.1，定义一个极大值e= MAX_VALUE，step=1e-5，eplse=1e-8。遍历空间中的每一个词向量P_i，对于每一个维度n，将距中心最远点每一个维度值减去当前向量空间中心的每一个维度值，并除以这两个点之间的欧式距离得到Y_n。对于空间中的每一个维度n，将Y_n乘以step之后与原空间中心L_n相加，得到新中心rst。以新中心rst为基准，计算得到新的距中心的最长距离fin ₃，记录当前词向量在数组arr的下标次序记为M₃。将新的最长距离fin ₃和原有最长距离fin ₂相比，保存比较后的最长距离至fin ₂，记录当前词向量在数组arr的下标次序记为M₂，并保存新中心rst和原中心L的欧氏距离至e。

步骤4.2，重复4.1，直至e小于eplse，此时视为中心不再移动。

步骤4.3，以经过步骤4.2之后得到的中心rst为基准，重复步骤3.4，得到距rst的最短距离fin ₁。

步骤4.4，以rst为球心，fin ₁为最短半径，fin ₂为最长半径，构建空心球形向量空间。

步骤5：输入关键词进行检索。

具体为：

步骤5.1，输入一个关键词，从词向量库中获取该词对应的词向量。

步骤5.2，计算该词向量与rst的欧式距离d。

步骤5.3，若d的长度在fin ₁和fin ₂之间，则判断该词在该球形向量空间内，并使用ACBM算法定位该关键词在该文本中的位置。若d的长度小于fin ₁或者大于fin ₂，则说明该关键词并没有出现在该文本中，直接返回false。

实施例2：由于在真实场景下会存在关键词不在待匹配文本里的情况，为了比较本申请提出的方法与ACBM算法的查找时间，我们可以设置关键词存在于待检索文本中的比例。我们从《水浒传》中随机选取一段文本，大小为500K，将其作为待检索文本。然后选取100，400，800个长度小于5的关键词，并且设置关键词存在于待检索文本中的比例α，α从0%到100%，每次递增10%，例如α为0.1就代表有10%的关键词可以在待检索的文本中检索到，剩下的90%都不能被检索到。

从图5、5、6中不难发现，当关键词存在于待检索文本中的比例α越小时，本申请提出的方法的查找时间就比ACBM算法更短，当α为0时，本申请提出的方法的查找速度甚至是ACBM算法的几十倍。只有当关键词全部存在于待检索的文本中，ACBM的查找时间才会略少于本申请提出的方法，且这种差距可以忽略不计，并且在真实场景下我们需要查找的关键词不可能全部存在于待检索的文本中，这足以证明本申请提出的方法在真实场景下的表现情况是优于ACBM算法的。

本申请实施例公开一种文本索引系统，包括：

预处理模块：对语料库通过jieba分词并且去停用词；

查询模块：计算输入关键词的词向量与rst的欧式距离d；若d的长度在fin ₁和fin ₂之间，则判断关键词在调整后的空心球形向量空间内。

本申请实施例还公开一种终端设备，包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序，其中，处理器执行计算机程序时，采用了上述实施例中的任意一种文本索引模型构建方法或索引方法。

其中，终端设备可以采用台式电脑、笔记本电脑或者云端服务器等计算机设备，并且，终端设备包括但不限于处理器以及存储器，例如，终端设备还可以包括输入输出设备、网络接入设备以及总线等。

其中，处理器可以采用中央处理单元（CPU），当然，根据实际的使用情况，也可以采用其他通用处理器、数字信号处理器（DSP）、专用集成电路（ASIC）、现成可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，通用处理器可以采用微处理器或者任何常规的处理器等，本申请对此不做限制。

其中，存储器可以为终端设备的内部存储单元，例如，终端设备的硬盘或者内存，也可以为终端设备的外部存储设备，例如，终端设备上配备的插接式硬盘、智能存储卡（SMC）、安全数字卡（SD）或者闪存卡（FC）等，并且，存储器还可以为终端设备的内部存储单元与外部存储设备的组合，存储器用于存储计算机程序以及终端设备所需的其他程序和数据，存储器还可以用于暂时地存储已经输出或者将要输出的数据，本申请对此不做限制。

其中，通过本终端设备，将上述实施例中的任意一种文本索引模型构建方法或索引方法存储于终端设备的存储器中，并且，被加载并执行于终端设备的处理器上，方便使用。

本申请实施例还公开一种计算机可读存储介质，并且，计算机可读存储介质存储有计算机程序，其中，计算机程序被处理器执行时，采用了上述实施例中的任意一种文本索引模型构建方法或索引方法。

其中，计算机程序可以存储于计算机可读介质中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间件形式等，计算机可读介质包括能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM）、随机存取存储器（RAM）、电载波信号、电信信号以及软件分发介质等，需要说明的是，计算机可读介质包括但不限于上述元器件。

其中，通过本计算机可读存储介质，将上述实施例中的任意一种文本索引模型构建方法或索引方法存储于计算机可读存储介质中，并且，被加载并执行于处理器上，以方便上述方法的存储及应用。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种文本索引模型构建方法，其特征在于，包括以下步骤：

基于所有调整后的空心球形向量空间构建文本索引模型。

2.根据权利要求1所述的文本索引模型构建方法，其特征在于，所述向量空间中心的位置，包括以下步骤：

将求和值除以n得到向量空间中心的位置L。

3.根据权利要求1所述的文本索引模型构建方法，其特征在于，所述向量空间中心的最长距离和最短距离的获取包括以下步骤：

定义一个极大值fin ₁=MAX_VALUE，极小值fin ₂=-1；

其中，，/>是空间中两个点第i个维度的值；

4.根据权利要求1所述的文本索引模型构建方法，其特征在于，所述通过迭代算法调整球空间的中心位置，直到空心球形向量空间满足体积最小且容纳文本中所有词向量，包括以下步骤：

5.根据权利要求1所述的文本索引模型构建方法，其特征在于，所述语料库的每段文本通过jieba分词进行分词。

6.根据权利要求1所述的文本索引模型构建方法，其特征在于，所述语料库通过jieba分词并且去停用词。

7.一种文本索引方法，其特征在于，包括以下步骤：

向如权利要求1至6任意一项所述的文本索引模型输入关键词；计算关键词的词向量与空心球形向量空间rst的欧式距离d；若d的长度在空心球形向量空间的fin ₁和fin ₂之间，则判断关键词在对应的空心球形向量空间内，并使用ACBM算法定位该关键词在该段文本的位置。

8.一种应用如权利要求1至6任意一项所述的文本索引模型构建方法的文本索引系统，其特征在于，包括：

预处理模块：对语料库通过jieba分词并且去停用词；

9.一种终端设备，包括存储器、处理器及存储在存储器中并能够在处理器上运行的计算机程序，其特征在于，所述存储器中存储有能够在处理器上运行的计算机程序，所述处理器加载并执行计算机程序时，采用了如权利要求1至6任意一项所述的一种文本索引模型构建方法。

10.一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其特征在于，所述计算机程序被处理器加载并执行时，采用了如权利要求1至6任意一项所述的一种文本索引模型构建方法。