CN114036946B

CN114036946B - 一种文本特征提取及辅助检索的系统及方法

Info

Publication number: CN114036946B
Application number: CN202111419399.3A
Authority: CN
Inventors: 傅玉鑫; 孙永超; 蔺林; 郭亚琨; 张艳雪; 李照川
Original assignee: Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Current assignee: Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2023-07-07
Anticipated expiration: 2041-11-26
Also published as: CN116702772A; CN114036946A

Abstract

本发明提供一种文本特征提取及辅助检索的系统及方法，属于计算机软件开发领域，本发明1)数据准备单元，2)召回单元和3)排序单元；首先利用新词发现方法扩充词汇库，之后对关键词进行搜索近义词并利用近义关键词扩大文本检索范围，对于检索出的相关文本使用基于元学习优化的卷积神经网络进行相似度计算并排序。

Description

一种文本特征提取及辅助检索的系统及方法

技术领域

本发明涉及计算机软件开发技术领域，尤其涉及一种文本特征提取及辅助检索的系统及方法。

背景技术

新词发现技术，是nlp领域中用于发现新生词汇或专有词汇的方法，本文使用的是基于统计学方法的新词发现方法，使用互信息和左右熵作为新词发现的依据。

Word2Vec是语言模型中的一种，是用来生成词向量的工具，它是从大量文本预料中以无监督方式学习语义知识的模型，被广泛地应用于自然语言处理中。

元学习是深度学习中的一种思想，简单理解就是让机器学会学习，有举一反三的能力，具体方法就是通过一个预训练的步骤，使机器先学习某些先验知识，从而使其再接下来面对相似任务时可以利用这些先验知识时通过更小的代价达到不错的效果。

元学习的MAML算法，是元学习的一种实现算法，它可以对任何结构的模型利用元学习的思想进行优化，其主要思想是在许多不同的相似任务集合p(T)中，选取某些任务T，使用它们对模型进行预训练，在预训练过程中，对模型的初始参数θ进行优化。由此获得的初始参数θ′可以使模型在训练新任务时只需微调几次就可以快速收敛。

发明内容

为了解决以上技术问题，本发明提供了一种文本特征提取及辅助检索的系统。

本发明的技术方案是：

一种文本特征提取及辅助检索系统，其特征在于，

包括1)数据准备单元，2)召回单元和3)排序单元；

其中1)数据准备单元包括新词发现模块、分词模块、去除停用词模块；

1.1)新词发现模块，对已有文本语料库进行专有词汇的获取，并将其添加入词汇库；

1.2)分词模块，使用文本作为语料库，并根据分类赋予标签，之后对所有的文本进行分词；

1.3)去除停用词模块，去除文本中含义的词，即停用词；

2)召回单元，将经过数据处理后的词语集合作为训练集文本并训练词向量；

3)排序单元，包括文本特征单元、文本相似性单元和文本排序单元；

3.1)文本特征单元将有分类标签的文本分词后获得的词向量列表转换成二维矩阵，输入卷积神经网络，并选取其中一个以上的分类预训练网络初始参数；获得预训练好的卷积神经网络结构后，将所有有标注文本输入网络训练最终的分类模型；把最终的分类网络的全连接层删除，只保留卷积层和隐藏层，并固定其参数，就可以得到文本的特征提取网络；

3.2)文本相似性单元，将文本特征提取网络的参数固定，后面添加新的全连接层，使用中文文本相似度数据集训练网络，得到文本相似度网络；

3.3)文本排序单元，将待搜索文本与召回阶段搜索得到的文本输入文本相似度网络，获取文本间的相似度，并根据相似度从高到低排序。

进一步的，

分词时，使用分词模块设置的python的jieba库进行分词，同时使用增加专有名词后的词汇库作为分词的依据；在对文本进行分词处理后，对于每篇文本都会得到一个列表，列表中的每一个元素都对应文本中的一个词语。

使用模块中设置的word2vect词向量模型训练词向量；

word2vec模型训练结束后，会对每一个词语生成一个唯一的向量，使用模块中设置的余弦相似度模块找到与所需文本的关键词意思相近的词语，在搜索时将近义词也作为关键词进行搜索。

本发明还公开了一种文本特征提取及辅助检索的方法，

使用元学习的MAML算法优化卷积神经网络，对文本进行特征提取，为检索内容提供参考，根据训练好的模型自动提炼搜索文本相关关键词，并依据排序规则进行相似度排序，提供与该文本相关的公开信息。

进一步的，

首先利用新词发现方法扩充词汇库，之后对关键词进行搜索近义词并利用近义关键词扩大文本检索范围，对于检索出的相关文本使用基于元学习优化的卷积神经网络进行相似度计算并排序。

使用基于互信息和左右熵的新词发现方法对已有文本语料库进行专有词汇的获取，并将其添加入词汇库。

使用已有的文本作为语料库，并根据分类赋予标签，之后对所有的文本进行分词；分词时，推荐使用python的jieba库进行分词，同时使用增加专有名词后的词汇库作为分词的依据；在对文本进行分词处理后，对于每篇文本都会得到一个列表，列表中的每一个元素都对应摘要中的一个词语，这些列表的集合就是初步分词得到的结果。

将经过数据处理后的词语集合作为训练集文本，使用word2vect词向量模型训练词向量；

word2vec模型训练结束后，会对每一个词语生成一个唯一的向量；使用余弦相似度方法，找到与所需文本的关键词意思相近的词语，在文本搜索时将近义词也作为关键词进行搜索。

将有分类标签的文本分词后获得的词向量列表转换成二维矩阵，输入卷积神经网络，并选取分类使用MAML算法预训练网络初始参数；获得预训练好的卷积神经网络结构后，将所有有标注文本输入网络训练最终的分类模型；把最终的分类网络的全连接层删除，只保留卷积层和隐藏层，并固定其参数，就可以得到文本的特征提取网络。

将文本特征提取网络的参数固定，后面添加新的全连接层，使用中文文本相似度数据集训练网络，得到文本相似度网络；

将待搜索文本与召回阶段搜索得到的文本输入文本相似度网络，获取文本间的相似度，并根据相似度从高到低排序。

本发明的有益效果是

1、使用基于互信息和左右熵的新词发现方法，将专有词汇加入词库，提高了词语的识别率，可以增加文本间的区分度，获得更好的识别效果。

2、可以提高文本检索的速度，大大降低文本检索耗费的时间成本。

3、根据检索关键词搜索相关文本，对文本的相关性进行筛选和排序，大大缩小了文本阅读的数量，减少文本检索时大量阅读文本的困扰。

4、训练后的词向量库可生成持久化文件，随时迁移，不需要多次训练，使用十分方便。

5、使用召回——排序的思想，可以在保证召回率的前提下增加文本检索的精度，尽可能减少文本检索时发生检索不全的情况，同时提供了相似度排序，缩小检索范围。

6、使用元学习的MAML算法对卷积神经网络进行优化，可以减少训练时间，并且提高少量样本时的准确率。

7、使用卷积神经网络对文本文本的向量矩阵进行特征提取可以获取整个文本的全局特征，并进行相似度分析，准确性更高。

附图说明

图1是生成词向量工作流程示意图；

图2是检索关键词近义词流程示意图；

图3是构建专利文本提取网络流程示意图；

图4是构建专利文本相似性网络流程示意图；

图5是专利文本进行相似性评分流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本文总体使用召回——排序的思想，首先利用新词发现方法扩充词汇库，之后对关键词进行搜索近义词并利用近义关键词扩大专利检索范围，对于检索出的相关专利使用基于元学习优化的卷积神经网络进行相似度计算并排序。以下是具体步骤：

1、环境准备

1.1.硬件环境

高性能的AI服务器或其他pc设备。

1.2.软件环境

各发行版本的python或matlab的机器学习框架，如pytorch、tensorflow、

sklearn等。

2、数据准备

2.1.新词发现

由于专利文本中会出现大量日常生活中不常见的专业词汇，若我们使用生活词库作为基础进行分词，则会导致主要用于专利特征判断的专业词汇被舍弃，大大降低专利搜索的准确度，因此本文使用基于互信息和左右熵的新词发现方法对已有专利摘要文本语料库进行专有词汇的获取，并将其添加入词汇库，为接下来分词过程提供更丰富的词汇库，提高分词以及模型训练时的精度。

2.2.分词

使用已有的专利摘要文本作为语料库，并根据专利分类为摘要赋予标签，之后对所有的文本进行分词。分词时，推荐使用python的jieba库进行分词，同时使用增加专有名词后的词汇库作为分词的依据。在对文本进行分词处理后，我们对于每篇摘要都会得到一个列表，列表中的每一个元素都对应摘要中的一个词语，这些列表的集合就是我们初步分词得到的结果。

2.3.去除停用词

词向量模型在训练时会根据词语之间的相互关系来生成对应的词向量，因此，若文本中含有虚词之类没有含义的词，会导致模型的准确率下降。为了进一步提升模型的准确率，我们要去除这些没有含义的词，也就是停用词。

3、召回

将经过数据处理后的词语集合作为训练集文本使用word2vect词向量模型训练词向量。

word2vec模型训练结束后，会对每一个词语生成一个唯一的向量，此向量可以在一定程度上描述这个词语的特征，同时意思相近的词语的向量在向量空间的距离也会较为相近。使用余弦相似度方法，找到与所需专利的关键词意思相近的词语，在专利搜索时将近义词也作为关键词进行搜索，这样就可以扩大搜索的范围，提高召回率。

4、排序

4.1.文本特征

将有分类标签的专利摘要文本分词后获得的词向量列表转换成二维矩阵，输入卷积神经网络，并选取其中几个分类使用MAML算法预训练网络初始参数。获得预训练好的卷积神经网络结构后，将所有有标注文本输入网络训练最终的分类模型。把最终的分类网络的全连接层删除，只保留卷积层和隐藏层，并固定其参数，就可以得到专利文本的特征提取网络。

4.2.文本相似性

将文本特征提取网络的参数固定，后面添加新的全连接层，使用中文文本相似度数据集训练网络，得到文本相似度网络。

4.3.专利文本排序

将待搜索专利与召回阶段搜索得到的专利文本输入文本相似度网络，获取文本间的相似度，并根据相似度从高到低排序。

以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种文本特征提取及辅助检索系统，其特征在于，

包括1）数据准备单元，2）召回单元和3）排序单元；

其中1）数据准备单元包括新词发现模块、分词模块、去除停用词模块；

1.1）新词发现模块，对已有文本语料库进行专有词汇的获取，并将其添加入词汇库；

1.2）分词模块，使用文本作为语料库，并根据分类赋予标签，之后对所有的文本进行分词；

1.3）去除停用词模块，去除文本中含义的词，即停用词；

2）召回单元，将经过数据处理后的词语集合作为训练集文本并训练词向量；

3）排序单元，包括文本特征单元、文本相似性单元和文本排序单元；

3.1）文本特征单元将有分类标签的文本分词后获得的词向量列表转换成二维矩阵，输入卷积神经网络，并选取其中一个以上的分类预训练网络初始参数；获得预训练好的卷积神经网络结构后，将所有有标注文本输入网络训练最终的分类模型；把最终的分类网络的全连接层删除，只保留卷积层和隐藏层，并固定其参数，就可以得到文本的特征提取网络；

3.2）文本相似性单元，将文本特征提取网络的参数固定，后面添加新的全连接层，使用中文文本相似度数据集训练网络，得到文本相似度网络；

3.3）文本排序单元，将待搜索文本与召回阶段搜索得到的文本输入文本相似度网络，获取文本间的相似度，并根据相似度从高到低排序。

2.根据权利要求1所述的系统，其特征在于，

3.根据权利要求1所述的系统，其特征在于，

使用模块中设置的word2vect词向量模型训练词向量；