CN111259145A

CN111259145A - 基于情报数据的文本检索分类方法、系统及存储介质

Info

Publication number: CN111259145A
Application number: CN202010048074.8A
Authority: CN
Inventors: 廖宏; 杨程; 覃琳; 梁晖; 陈国南; 黄云
Original assignee: Guangxi Computing Center Co Ltd
Current assignee: Guangxi Computing Center Co Ltd
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2020-06-09
Anticipated expiration: 2040-01-16
Also published as: CN111259145B

Abstract

本发明公开一种基于情报数据的文本检索分类方法、系统及存储介质，方法包括：对OCR识别出来的文档进行采集，得到非结构化文档，并将文档存入数据库；通过人工或机器自动生成关键词字典，并对关键词字典进行归类；使用已分类的关键词字典对文档进行处理，基于关键词生成倒排索引，其中，在生成倒排索引时，增加每个所述关键词所在的位置信息；根据关键词所在的分类对文档进行分类标注，并将得到的分类结果存入数据库；对分类结果通过机器学习和/或人工标注方式生成新的词汇，并对新的词汇重新进行分类，将新的词汇存入所述关键词字典。本发明在生产索引的时候，增加每个关键字所在的位置信息，因加入了位置相关度信息，使得分类更准确。

Description

基于情报数据的文本检索分类方法、系统及存储介质

技术领域

本发明涉及情报检索技术领域，尤其涉及一种基于情报数据的文本检索分类方法、系统及存储介质。

背景技术

目前文本分类的方法有很多，基于统计的分类方法是通过模型对文本数据进行分类，分类性能比较好的方法有KNN、SVM等，但是这类方法有局限性，比如语料不全、训练样本的数量不够或者质量不佳等都会影响文本的分类效果。此外，在资料搜索引擎中，目前lucene搜索引擎的核心文档打分算法没有考虑关键词在文档中的位置，当用户搜索多个关键词组合时，这个算法不会考虑关键词的顺序，比如“中国北京”两个关键词，它只要出现次数多打分就越高，但实际的文档出现了大量的“中国”关键词，而且“北京”只出现少量，而且都跟“中国”这个关键词离得很远,这样的文档打分高，反而连续出现“北京中国”，但频次不高的文档打分低，结果就不符合用户的期望，因此，现有的检索分类方法不准确。

发明内容

本发明的目的是提出了一种基于情报数据的文本检索分类方法、系统及存储介质，以解决原有打分算法位置不相关的问题，提高检索分类的准确性。

为实现上述目的，本发明提供的一种基于情报数据的文本检索分类方法，包括以下步骤：

对OCR识别出来的文档进行采集，得到非结构化文档，并将所述文档存入数据库；

通过人工或机器自动生成关键词字典，并对所述关键词字典进行归类；

使用已分类的关键词字典对所述文档进行处理，基于关键词生成倒排索引，其中，在生成倒排索引时，增加每个所述关键词所在的位置信息；

根据所述关键词所在的分类对所述文档进行分类标注，并将得到的分类结果存入数据库；

对所述分类结果通过机器学习和/或人工标注方式生成新的词汇，并对新的词汇重新进行分类，将所述新的词汇存入所述关键词字典。

其中，所述方法还包括：

在接收到用户基于待查询关键词的查询请求时，基于所述关键词字典计算所述待查询关键词的相关度，将所述待查询关键词的相关度乘以位置相关的权重，所述位置相关的权重基于所述待查询关键词所在的位置信息获得；

根据乘以位置相关的权重后的待查询关键词的相关度，并基于预设的打分公式对数据库中的文档进行全文检索排序，并将检索结果归类到所述待查询关键词所在的类别；

将检索结果呈现给用户。

其中，所述打分公式为：

score(q,d)＝distance(q,d)×queryNorm(q)×

∑_tinq(t∫(tind)×idf(t)²×t.getBost()×norm(t,d)；

其中，distance(q,d)为打分参数；

queryNorm(q)为计算每个查询条目的方差和；

t∫(tind)为Term t在文档d中出现的词频；

idf(t)为Term t在几篇文档中出现过；

t.getBost()为查询语句中每个词的权重；

norm(t,d)的含义为标准化因子。

其中，所述

其中，N(q，d)：待查询关键字组合在文档中出现的次数；

∑(q_first-q_last)：待查询关键词在文档中任意一组的位置间距求和。

其中，位置相关的关键词特征提取公式为：

其中：

D(q)：为某个关键字组合的特征向量；

P(q,d)：待查询关键字q组合在文档d中出现的次数；

∑(q_first-q_last)：待查询关键字在文档中任意一组的位置间距求和；

q_first:每组关键字中第一个词的位置；

q_last:每组关键字中最后一个词的位置；

P(q):带查询关键字在字典中的位置。

此外，本发明还提出一种基于情报数据的文本检索分类系统，包括：

采集模块，用于对OCR识别出来的文档进行采集，得到非结构化文档，并将所述文档存入数据库；

归类模块，用于通过人工或机器自动生成关键词字典，并对所述关键词字典进行归类；

处理模块，用于使用已分类的关键词字典对所述文档进行处理，基于关键词生成倒排索引，其中，在生成倒排索引时，增加每个所述关键词所在的位置信息；

分类模块，用于根据所述关键词所在的分类对所述文档进行分类标注，并将得到的分类结果存入数据库，以及对所述分类结果通过机器学习和/或人工标注方式生成新的词汇，并对新的词汇重新进行分类，将所述新的词汇存入所述关键词字典。

此外，本发明还提出一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被所述处理器运行时实现如上所述的方法的步骤。

本发明的有益效果为：通过对OCR识别出来的文档进行采集，得到非结构化文档，并将所述文档存入数据库；通过人工或机器自动生成关键词字典，并对所述关键词字典进行归类；使用已分类的关键词字典对所述文档进行处理，基于关键词生成倒排索引，其中，在生成倒排索引时，增加每个所述关键词所在的位置信息；根据所述关键词所在的分类对所述文档进行分类标注，并将得到的分类结果存入数据库；对所述分类结果通过机器学习和/或人工标注方式生成新的词汇，并对新的词汇重新进行分类，将所述新的词汇存入所述关键词字典。本发明针对原有打分算法位置不相关的问题，在生产索引的时候，增加每个关键字所在的位置信息，然后查询的时候计算相关度时，乘以位置相关的权重，位置越接近的两组关键词得分越高，这样查询出来的结果符合预期。因加入了位置相关度信息，使得分类更准确。

附图说明

图1是本发明基于情报数据的文本检索分类方法的流程示意图；

图2是本发明基于情报数据的文本检索分类方法的原理示意图；

图3是新的排序算法打分公式示意图；

图4是分类算法得到的值是关键字组合在字典中的位置矢量与关键字组合在文档中的位置矢量之和示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

具体地，如图1及图2所示，本发明提出一种基于情报数据的文本检索分类方法，其特征在于，包括以下步骤：

S1，对OCR识别出来的文档进行采集，得到非结构化文档，并将所述文档存入数据库；

S2，通过人工或机器自动生成关键词字典，并对所述关键词字典进行归类；

S3，使用已分类的关键词字典对所述文档进行处理，基于关键词生成倒排索引，其中，在生成倒排索引时，增加每个所述关键词所在的位置信息；

S4，根据所述关键词所在的分类对所述文档进行分类标注，并将得到的分类结果存入数据库；

S5，对所述分类结果通过机器学习和/或人工标注方式生成新的词汇，并对新的词汇重新进行分类，将所述新的词汇存入所述关键词字典。

进一步地，所述方法还包括：

将检索结果呈现给用户。

其中，所述打分公式为：

score(q,d)＝distance(q,d)×queryNorm(q)×

∑_tinq(t∫(tind)×idf(t)²×t.getBost()×norm(t,d)；

其中，distance(q,d)为打分参数；

queryNorm(q)为计算每个查询条目的方差和；

t∫(tind)为Term t在文档d中出现的词频；

idf(t)为Term t在几篇文档中出现过；

t.getBost()为查询语句中每个词的权重；

norm(t,d)的含义为标准化因子。

所述

其中，N(q，d)：待查询关键字组合在文档中出现的次数；

Σ(q_first-q_last)：待查询关键词在文档中任意一组的位置间距求和。

其中，位置相关的关键词特征提取公式为：

其中：

D(q)：为某个关键字组合的特征向量；

P(q,d)：待查询关键字q组合在文档d中出现的次数；

Σ(q_first-q_last)：待查询关键字在文档中任意一组的位置间距求和；

q_first:每组关键字中第一个词的位置；

q_last:每组关键字中最后一个词的位置；

P(q):带查询关键字在字典中的位置。

相比现有技术，本发明提出的基于情报数据的文本检索分类方法，根据关键字快速检索文档，并按相关度对文档排序；将已存在的文档进行归类，根据预设的关键词进行全文检索，并将检测结果归类到预设关键词所在的类别。

在日常工作中，可以通过电脑、手机登录网站进行科技情报的模糊检索。具体应用如下：

1、针对科研项目预研方面，用户可以通过应用平台填写科研项目基本信息，应用系统根据项目基本信息自动推荐类似项目申报书、商业计划书、行业研究分析、政府政策相关文件等情报材料供项目科研工作开展。

2.可应用于校园的知识管理系统，系统收集、处理、组织的知识，高效检索需求的文本。

3.可应用于企业信息管理，整合、获取、组织企业知识的系统与管理，以便为企业的决策提供支持。

4、还能够应用于科技情报搜索，搜索的条件是关键字搜索、情报文章时间搜索、发布站点搜索及图片搜索等。

5、还能够应用于科技情报大数据分析中心图的呈现。科技情报大数据分析系统中里面的内容包括总情报数量、情报类型统计分析、20大关键字倒序、情报发生地区统计等。

相比现有技术，为了解决原有打分算法位置不相关的问题，本发明在生产索引的时候，增加每个关键字所在的位置信息。然后查询的时候计算相关度时，乘以位置相关的权重。位置越接近的两组关键词得分越高，这样查询出来的结果符合人们的预期。

以下对本发明的打分算法进行详细阐述：

如图3所示，图3是新的排序算法打分公式示意图，其中：

横坐标Dn：关键字第一个词的位置减去最后一个词的位置；

纵坐标N：关键字组合在文档中的数量，比如“北京XXX中国XXXXX北京中国XX北京X中国”,“北京中国”这个关键字组合出现的次数为3三次。

原有的打分公式为：

改为：

score(q,d)＝distance(q,d)×queryNorm(q)×

Σ_tinq(t∫(tind)×idf(x)2×t.getBost()×norm(t,d)

其中：新的打分公式将coord(q,d)加入关键词间距参数后改为

N(q，d)：待查询关键字组合在文档中出现的次数(不考虑间距，只考虑出现的次序和待查询关键词次序相同就算为出现一次)。

∑(q_first-q_last)：待查询关键词在文档中任意一组的位置间距求和；

在传统SVM分类算法中，提取文本特征时，特征词的跟位置也是不相关的，识别出来的特征有时并不准确，比如文本中有“笔记本”，“电脑”这两个关键词，不考虑位置时，有可能会把这篇文文本化为“文具”类，而如果考虑位置时，那这篇文档应该是属于电气类。

所以本发明加入位置信息后，在查询的时候计算相关度时，乘以位置相关的权重。位置越接近的两组关键词得分越高，这样查询出来的结果符合人们的预期。

改进的关键词特征提取算法如图4所示，其中，图4所示分类算法得到的值是关键字组合在字典中的位置矢量与关键字组合在文档中的位置矢量之和。

改进的关键词特征提取算法如下：

其中：

D(q)：为摸个关键字组合的特征向量。

P(q,d)：待查询关键字q组合在文档d中出现的次数(不考虑间距，只考虑出现的次序和待查询关键词次序相同就算为出现一次)。

q_firdt:每组关键字中第一个词的位置；

q_last:每组关键字中最后一个词的位置；

P(q):带查询关键字在字典中的位置。

由于加入了位置相关的函数，查询多个关键词时，比如查询“中国，北京”，文本中有“中国北京”连在一起的关键词的文档打分更高，排序更靠前。算法比较结果如下表所示：

目前常用全文搜索引擎是Lucene,其用于文档排序的打分算法如下：

其中：

t：Term，这里的Term是指包含域信息的Term，也即title:hello和content:hello是不同的Term。

coord(q,d)：一次搜索可能包含多个搜索词，而一篇文档中也可能包含多个搜索词，此项表示，当一篇文档中包含的搜索词越多，则此文档则打分越高。

queryNorm(q)：计算每个查询条目的方差和，此值并不影响排序，而仅仅使得不同的query之间的分数可以比较。其公式如下：

tf(tind)：Term t在文档d中出现的词频。

idf(t)：Term t在几篇文档中出现过。

norm(t,d)：标准化因子，它包括三个参数：

Document boost：此值越大，说明此文档越重要。

Field boost：此域越大，说明此域越重要。

lengthNorm(field)＝(1.0/Math.sqrt(numTerms))：一个域中包含的Term总数越多，也即文档越长，此值越小，文档越短，此值越大。

各类Boost值

t.getBoost()：查询语句中每个词的权重，可以在查询中设定某个词更加重要，common^4hello

d.getBoost()：文档权重，在索引阶段写入nrm文件，表明某些文档比其他文档更重要。

f.getBoost()：域的权重，在索引阶段写入nrm文件，表明某些域比其他的域更重要。

位置相关的打分公式

这个公式的值是0到1之间，它的意义是多个关键字的距离越远，值越小，文档和多个关键字的相关度越低。)

q_first:每组关键字中第一个词的位置；

q_last:每组关键字中最后一个词的位置；

位置相关的关键词特征提取算法：

D(q)：为某个关键字组合的特征向量。

∑(q_first-q_last)：待查询关键字在文档中任意一组的位置间距求和；这里规定最小间距是1，防止除0。

q_first:每组关键字中第一个词的位置；

q_last:每组关键字中最后一个词的位置；

P(q):带查询关键字在字典d中的位置；公式如下：

∑q(d)：待查询关键字组合q在字典d中的位置求和；

q_a：待查询关键字第一个词在字典中的位置；

q_b：待查询关键字第一个词在字典中的位置。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于情报数据的文本检索分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于情报数据的文本检索分类方法，其特征在于，所述方法还包括：

将检索结果呈现给用户。

3.根据权利要求2所述的基于情报数据的文本检索分类方法，其特征在于，所述打分公式为：

score(q,d)＝distance(q,d)×queryNorm(q)×∑_tinq(t∫(tind)×idf(t)²×t.getBost()×norm(t,d)；

其中，distance(q,d)为打分参数；

queryNorm(q)为计算每个查询条目的方差和；

t∫(tind)为Term t在文档d中出现的词频；

idf(t)为Term t在几篇文档中出现过；

t.getBost()为查询语句中每个词的权重；

norm(t，d)的含义为标准化因子。

4.根据权利要求3所述的基于情报数据的文本检索分类方法，其特征在于，所述

其中，N(q，d)：待查询关键字组合在文档中出现的次数；

5.根据权利要求3所述的基于情报数据的文本检索分类方法，其特征在于，位置相关的关键词特征提取公式为：

其中：

D(q)：为某个关键字组合的特征向量；

P(q，d)：待查询关键字q组合在文档d中出现的次数；

q_first：每组关键字中第一个词的位置；

q_last：每组关键字中最后一个词的位置；

P(q)：带查询关键字在字典中的位置。

6.一种基于情报数据的文本检索分类系统，其特征在于，包括：

7.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序，所述计算机程序被所述处理器运行时实现如权利要求1-5中任一项所述的方法的步骤。