CN114036946B - 一种文本特征提取及辅助检索的系统及方法 - Google Patents

一种文本特征提取及辅助检索的系统及方法 Download PDF

Info

Publication number
CN114036946B
CN114036946B CN202111419399.3A CN202111419399A CN114036946B CN 114036946 B CN114036946 B CN 114036946B CN 202111419399 A CN202111419399 A CN 202111419399A CN 114036946 B CN114036946 B CN 114036946B
Authority
CN
China
Prior art keywords
text
word
network
unit
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111419399.3A
Other languages
English (en)
Other versions
CN114036946A (zh
Inventor
傅玉鑫
孙永超
蔺林
郭亚琨
张艳雪
李照川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Original Assignee
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chaozhou Zhuoshu Big Data Industry Development Co Ltd filed Critical Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority to CN202111419399.3A priority Critical patent/CN114036946B/zh
Priority to CN202310620287.7A priority patent/CN116702772A/zh
Publication of CN114036946A publication Critical patent/CN114036946A/zh
Application granted granted Critical
Publication of CN114036946B publication Critical patent/CN114036946B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种文本特征提取及辅助检索的系统及方法,属于计算机软件开发领域,本发明1)数据准备单元,2)召回单元和3)排序单元;首先利用新词发现方法扩充词汇库,之后对关键词进行搜索近义词并利用近义关键词扩大文本检索范围,对于检索出的相关文本使用基于元学习优化的卷积神经网络进行相似度计算并排序。

Description

一种文本特征提取及辅助检索的系统及方法
技术领域
本发明涉及计算机软件开发技术领域,尤其涉及一种文本特征提取及辅助检索的系统及方法。
背景技术
新词发现技术,是nlp领域中用于发现新生词汇或专有词汇的方法,本文使用的是基于统计学方法的新词发现方法,使用互信息和左右熵作为新词发现的依据。
Word2Vec是语言模型中的一种,是用来生成词向量的工具,它是从大量文本预料中以无监督方式学习语义知识的模型,被广泛地应用于自然语言处理中。
元学习是深度学习中的一种思想,简单理解就是让机器学会学习,有举一反三的能力,具体方法就是通过一个预训练的步骤,使机器先学习某些先验知识,从而使其再接下来面对相似任务时可以利用这些先验知识时通过更小的代价达到不错的效果。
元学习的MAML算法,是元学习的一种实现算法,它可以对任何结构的模型利用元学习的思想进行优化,其主要思想是在许多不同的相似任务集合p(T)中,选取某些任务T,使用它们对模型进行预训练,在预训练过程中,对模型的初始参数θ进行优化。由此获得的初始参数θ′可以使模型在训练新任务时只需微调几次就可以快速收敛。
发明内容
为了解决以上技术问题,本发明提供了一种文本特征提取及辅助检索的系统。
本发明的技术方案是:
一种文本特征提取及辅助检索系统,其特征在于,
包括1)数据准备单元,2)召回单元和3)排序单元;
其中1)数据准备单元包括新词发现模块、分词模块、去除停用词模块;
1.1)新词发现模块,对已有文本语料库进行专有词汇的获取,并将其添加入词汇库;
1.2)分词模块,使用文本作为语料库,并根据分类赋予标签,之后对所有的文本进行分词;
1.3)去除停用词模块,去除文本中含义的词,即停用词;
2)召回单元,将经过数据处理后的词语集合作为训练集文本并训练词向量;
3)排序单元,包括文本特征单元、文本相似性单元和文本排序单元;
3.1)文本特征单元将有分类标签的文本分词后获得的词向量列表转换成二维矩阵,输入卷积神经网络,并选取其中一个以上的分类预训练网络初始参数;获得预训练好的卷积神经网络结构后,将所有有标注文本输入网络训练最终的分类模型;把最终的分类网络的全连接层删除,只保留卷积层和隐藏层,并固定其参数,就可以得到文本的特征提取网络;
3.2)文本相似性单元,将文本特征提取网络的参数固定,后面添加新的全连接层,使用中文文本相似度数据集训练网络,得到文本相似度网络;
3.3)文本排序单元,将待搜索文本与召回阶段搜索得到的文本输入文本相似度网络,获取文本间的相似度,并根据相似度从高到低排序。
进一步的,
分词时,使用分词模块设置的python的jieba库进行分词,同时使用增加专有名词后的词汇库作为分词的依据;在对文本进行分词处理后,对于每篇文本都会得到一个列表,列表中的每一个元素都对应文本中的一个词语。
使用模块中设置的word2vect词向量模型训练词向量;
word2vec模型训练结束后,会对每一个词语生成一个唯一的向量,使用模块中设置的余弦相似度模块找到与所需文本的关键词意思相近的词语,在搜索时将近义词也作为关键词进行搜索。
本发明还公开了一种文本特征提取及辅助检索的方法,
使用元学习的MAML算法优化卷积神经网络,对文本进行特征提取,为检索内容提供参考,根据训练好的模型自动提炼搜索文本相关关键词,并依据排序规则进行相似度排序,提供与该文本相关的公开信息。
进一步的,
首先利用新词发现方法扩充词汇库,之后对关键词进行搜索近义词并利用近义关键词扩大文本检索范围,对于检索出的相关文本使用基于元学习优化的卷积神经网络进行相似度计算并排序。
使用基于互信息和左右熵的新词发现方法对已有文本语料库进行专有词汇的获取,并将其添加入词汇库。
使用已有的文本作为语料库,并根据分类赋予标签,之后对所有的文本进行分词;分词时,推荐使用python的jieba库进行分词,同时使用增加专有名词后的词汇库作为分词的依据;在对文本进行分词处理后,对于每篇文本都会得到一个列表,列表中的每一个元素都对应摘要中的一个词语,这些列表的集合就是初步分词得到的结果。
将经过数据处理后的词语集合作为训练集文本,使用word2vect词向量模型训练词向量;
word2vec模型训练结束后,会对每一个词语生成一个唯一的向量;使用余弦相似度方法,找到与所需文本的关键词意思相近的词语,在文本搜索时将近义词也作为关键词进行搜索。
将有分类标签的文本分词后获得的词向量列表转换成二维矩阵,输入卷积神经网络,并选取分类使用MAML算法预训练网络初始参数;获得预训练好的卷积神经网络结构后,将所有有标注文本输入网络训练最终的分类模型;把最终的分类网络的全连接层删除,只保留卷积层和隐藏层,并固定其参数,就可以得到文本的特征提取网络。
将文本特征提取网络的参数固定,后面添加新的全连接层,使用中文文本相似度数据集训练网络,得到文本相似度网络;
将待搜索文本与召回阶段搜索得到的文本输入文本相似度网络,获取文本间的相似度,并根据相似度从高到低排序。
本发明的有益效果是
1、使用基于互信息和左右熵的新词发现方法,将专有词汇加入词库,提高了词语的识别率,可以增加文本间的区分度,获得更好的识别效果。
2、可以提高文本检索的速度,大大降低文本检索耗费的时间成本。
3、根据检索关键词搜索相关文本,对文本的相关性进行筛选和排序,大大缩小了文本阅读的数量,减少文本检索时大量阅读文本的困扰。
4、训练后的词向量库可生成持久化文件,随时迁移,不需要多次训练,使用十分方便。
5、使用召回——排序的思想,可以在保证召回率的前提下增加文本检索的精度,尽可能减少文本检索时发生检索不全的情况,同时提供了相似度排序,缩小检索范围。
6、使用元学习的MAML算法对卷积神经网络进行优化,可以减少训练时间,并且提高少量样本时的准确率。
7、使用卷积神经网络对文本文本的向量矩阵进行特征提取可以获取整个文本的全局特征,并进行相似度分析,准确性更高。
附图说明
图1是生成词向量工作流程示意图;
图2是检索关键词近义词流程示意图;
图3是构建专利文本提取网络流程示意图;
图4是构建专利文本相似性网络流程示意图;
图5是专利文本进行相似性评分流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本文总体使用召回——排序的思想,首先利用新词发现方法扩充词汇库,之后对关键词进行搜索近义词并利用近义关键词扩大专利检索范围,对于检索出的相关专利使用基于元学习优化的卷积神经网络进行相似度计算并排序。以下是具体步骤:
1、环境准备
1.1.硬件环境
高性能的AI服务器或其他pc设备。
1.2.软件环境
各发行版本的python或matlab的机器学习框架,如pytorch、tensorflow、
sklearn等。
2、数据准备
2.1.新词发现
由于专利文本中会出现大量日常生活中不常见的专业词汇,若我们使用生活词库作为基础进行分词,则会导致主要用于专利特征判断的专业词汇被舍弃,大大降低专利搜索的准确度,因此本文使用基于互信息和左右熵的新词发现方法对已有专利摘要文本语料库进行专有词汇的获取,并将其添加入词汇库,为接下来分词过程提供更丰富的词汇库,提高分词以及模型训练时的精度。
2.2.分词
使用已有的专利摘要文本作为语料库,并根据专利分类为摘要赋予标签,之后对所有的文本进行分词。分词时,推荐使用python的jieba库进行分词,同时使用增加专有名词后的词汇库作为分词的依据。在对文本进行分词处理后,我们对于每篇摘要都会得到一个列表,列表中的每一个元素都对应摘要中的一个词语,这些列表的集合就是我们初步分词得到的结果。
2.3.去除停用词
词向量模型在训练时会根据词语之间的相互关系来生成对应的词向量,因此,若文本中含有虚词之类没有含义的词,会导致模型的准确率下降。为了进一步提升模型的准确率,我们要去除这些没有含义的词,也就是停用词。
3、召回
将经过数据处理后的词语集合作为训练集文本使用word2vect词向量模型训练词向量。
word2vec模型训练结束后,会对每一个词语生成一个唯一的向量,此向量可以在一定程度上描述这个词语的特征,同时意思相近的词语的向量在向量空间的距离也会较为相近。使用余弦相似度方法,找到与所需专利的关键词意思相近的词语,在专利搜索时将近义词也作为关键词进行搜索,这样就可以扩大搜索的范围,提高召回率。
4、排序
4.1.文本特征
将有分类标签的专利摘要文本分词后获得的词向量列表转换成二维矩阵,输入卷积神经网络,并选取其中几个分类使用MAML算法预训练网络初始参数。获得预训练好的卷积神经网络结构后,将所有有标注文本输入网络训练最终的分类模型。把最终的分类网络的全连接层删除,只保留卷积层和隐藏层,并固定其参数,就可以得到专利文本的特征提取网络。
4.2.文本相似性
将文本特征提取网络的参数固定,后面添加新的全连接层,使用中文文本相似度数据集训练网络,得到文本相似度网络。
4.3.专利文本排序
将待搜索专利与召回阶段搜索得到的专利文本输入文本相似度网络,获取文本间的相似度,并根据相似度从高到低排序。
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (3)

1.一种文本特征提取及辅助检索系统,其特征在于,
包括1)数据准备单元,2)召回单元和3)排序单元;
其中1)数据准备单元包括新词发现模块、分词模块、去除停用词模块;
1.1)新词发现模块,对已有文本语料库进行专有词汇的获取,并将其添加入词汇库;
1.2)分词模块,使用文本作为语料库,并根据分类赋予标签,之后对所有的文本进行分词;
1.3)去除停用词模块,去除文本中含义的词,即停用词;
2)召回单元,将经过数据处理后的词语集合作为训练集文本并训练词向量;
3)排序单元,包括文本特征单元、文本相似性单元和文本排序单元;
3.1)文本特征单元将有分类标签的文本分词后获得的词向量列表转换成二维矩阵,输入卷积神经网络,并选取其中一个以上的分类预训练网络初始参数;获得预训练好的卷积神经网络结构后,将所有有标注文本输入网络训练最终的分类模型;把最终的分类网络的全连接层删除,只保留卷积层和隐藏层,并固定其参数,就可以得到文本的特征提取网络;
3.2)文本相似性单元,将文本特征提取网络的参数固定,后面添加新的全连接层,使用中文文本相似度数据集训练网络,得到文本相似度网络;
3.3)文本排序单元,将待搜索文本与召回阶段搜索得到的文本输入文本相似度网络,获取文本间的相似度,并根据相似度从高到低排序。
2.根据权利要求1所述的系统,其特征在于,
分词时,使用分词模块设置的python的jieba库进行分词,同时使用增加专有名词后的词汇库作为分词的依据;在对文本进行分词处理后,对于每篇文本都会得到一个列表,列表中的每一个元素都对应文本中的一个词语。
3.根据权利要求1所述的系统,其特征在于,
使用模块中设置的word2vect词向量模型训练词向量;
word2vec模型训练结束后,会对每一个词语生成一个唯一的向量,使用模块中设置的余弦相似度模块找到与所需文本的关键词意思相近的词语,在搜索时将近义词也作为关键词进行搜索。
CN202111419399.3A 2021-11-26 2021-11-26 一种文本特征提取及辅助检索的系统及方法 Active CN114036946B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111419399.3A CN114036946B (zh) 2021-11-26 2021-11-26 一种文本特征提取及辅助检索的系统及方法
CN202310620287.7A CN116702772A (zh) 2021-11-26 2021-11-26 一种文本特征提取及辅助检索的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111419399.3A CN114036946B (zh) 2021-11-26 2021-11-26 一种文本特征提取及辅助检索的系统及方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202310620287.7A Division CN116702772A (zh) 2021-11-26 2021-11-26 一种文本特征提取及辅助检索的方法

Publications (2)

Publication Number Publication Date
CN114036946A CN114036946A (zh) 2022-02-11
CN114036946B true CN114036946B (zh) 2023-07-07

Family

ID=80145585

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202310620287.7A Pending CN116702772A (zh) 2021-11-26 2021-11-26 一种文本特征提取及辅助检索的方法
CN202111419399.3A Active CN114036946B (zh) 2021-11-26 2021-11-26 一种文本特征提取及辅助检索的系统及方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202310620287.7A Pending CN116702772A (zh) 2021-11-26 2021-11-26 一种文本特征提取及辅助检索的方法

Country Status (1)

Country Link
CN (2) CN116702772A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871444A (zh) * 2019-01-16 2019-06-11 北京邮电大学 一种文本分类方法及系统
KR20190080234A (ko) * 2017-12-28 2019-07-08 포항공과대학교 산학협력단 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
CN110019668A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
CN110119765A (zh) * 2019-04-18 2019-08-13 浙江工业大学 一种基于Seq2seq框架的关键词提取方法
CN110348014A (zh) * 2019-07-10 2019-10-18 电子科技大学 一种基于深度学习的语义相似度计算方法
CN111859955A (zh) * 2020-07-03 2020-10-30 中山大学 一种基于深度学习的舆情数据分析模型
CN111966825A (zh) * 2020-07-16 2020-11-20 电子科技大学 一种基于机器学习的电网设备缺陷文本分类方法
CN112000783A (zh) * 2020-08-03 2020-11-27 北京大学 基于文本相似性分析的专利推荐方法、装置、设备及存储介质
CN112256860A (zh) * 2020-11-25 2021-01-22 携程计算机技术(上海)有限公司 客服对话内容的语义检索方法、系统、设备及存储介质
CN112380844A (zh) * 2020-10-15 2021-02-19 北京信息科技大学 武器装备属性同义词扩展方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019668A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
KR20190080234A (ko) * 2017-12-28 2019-07-08 포항공과대학교 산학협력단 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
CN109871444A (zh) * 2019-01-16 2019-06-11 北京邮电大学 一种文本分类方法及系统
CN110119765A (zh) * 2019-04-18 2019-08-13 浙江工业大学 一种基于Seq2seq框架的关键词提取方法
CN110348014A (zh) * 2019-07-10 2019-10-18 电子科技大学 一种基于深度学习的语义相似度计算方法
CN111859955A (zh) * 2020-07-03 2020-10-30 中山大学 一种基于深度学习的舆情数据分析模型
CN111966825A (zh) * 2020-07-16 2020-11-20 电子科技大学 一种基于机器学习的电网设备缺陷文本分类方法
CN112000783A (zh) * 2020-08-03 2020-11-27 北京大学 基于文本相似性分析的专利推荐方法、装置、设备及存储介质
CN112380844A (zh) * 2020-10-15 2021-02-19 北京信息科技大学 武器装备属性同义词扩展方法
CN112256860A (zh) * 2020-11-25 2021-01-22 携程计算机技术(上海)有限公司 客服对话内容的语义检索方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN116702772A (zh) 2023-09-05
CN114036946A (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN108897857B (zh) 面向领域的中文文本主题句生成方法
CN107729468B (zh) 基于深度学习的答案抽取方法及系统
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN111291188B (zh) 一种智能信息抽取方法及系统
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
CN108038492A (zh) 一种基于深度学习的感性词向量及情感分类方法
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
CN108733647B (zh) 一种基于高斯分布的词向量生成方法
CN110377695B (zh) 一种舆情主题数据聚类方法、装置及存储介质
Banik et al. Gru based named entity recognition system for bangla online newspapers
CN112035626A (zh) 一种大规模意图的快速识别方法、装置和电子设备
CN111859953A (zh) 训练数据的挖掘方法、装置、电子设备及存储介质
CN111858842A (zh) 一种基于lda主题模型的司法案例筛选方法
CN111125315B (zh) 一种技术趋势预测方法和系统
CN110728135B (zh) 文本主题标引方法、装置、电子设备及计算机存储介质
CN112860898B (zh) 一种短文本框聚类方法、系统、设备及存储介质
CN113779987A (zh) 一种基于自注意力增强语义的事件共指消岐方法及系统
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN116524915A (zh) 一种基于语义交互的弱监督语音-视频定位方法和系统
CN114036946B (zh) 一种文本特征提取及辅助检索的系统及方法
CN113111136B (zh) 一种基于ucl知识空间的实体消歧方法及装置
CN114372145A (zh) 一种基于知识图谱平台的运维资源动态分配的调度方法
CN114003773A (zh) 一种基于自构建多场景的对话追踪方法
CN116450781A (zh) 问答的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant