CN113688208A

CN113688208A - 基于大数据的文献资源精细化检索构建方法

Info

Publication number: CN113688208A
Application number: CN202111006100.1A
Authority: CN
Inventors: 程家忠; 张慧
Original assignee: Hanhe Culture And Education Shenzhen Co ltd
Current assignee: Hanhe Culture And Education Shenzhen Co ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-11-23

Abstract

本发明涉及文献查找的技术领域，公开了基于大数据的文献资源精细化检索构建方法，具体包括如下步骤：S1：用户通过输入设备进行上传所检索的文献资源关键词，所上传的关键词包括词语、数字、字母及标点符号，并且所上传的关键词中无需进行分隔，在上传后系统自动仅保留具有实际意义的名词及动词，然后在确定的名词及动词中获得能够正确表达文档内容的概念性词或词组。本发明通过多个检索集合进行筛选与缩减，最后通过应用接口输出至用户，并且输出量为1‑10条，从而便于用户快速筛选，同时检索精度高，便于用户能够快速进行文献资源的查找，检索智能化程度高，减小了人工检索的劳动量。

Description

基于大数据的文献资源精细化检索构建方法

技术领域

本发明专利涉及文献查找的技术领域，具体而言，涉及基于大数据的文献资源精细化检索构建方法。

背景技术

科技文献检索是用户获取文献的主要途径。各科技文献出版机构，如WebofKnowledge、Springer、Elsevier等都为用户提供了功能强大的文献检索工具。科研人员进入某一新的科研领域通常需要检索并阅读大量权威文献，从而掌握该领域的研究现状。

在对某一新领域知识缺乏的情况下，用户对某一新的科研领域进行文献检索时，面临两个方面的问题。一是用户难以判断检索到的成百上千篇文献与目标领域的相关程度，用户获取的检索结果严重信息过剩。检索结果需要进一步精炼。二是用户需要高效地对检索结果文献进行分析判读，在较短时间内厘清该领域的研究现状。

目前，国内外的科技文献出版商提供的文献分析工具仅对文献进行了简单的文献统计学分析，如文章被引、发文数量、发文年份统计等，未能解决用户对文章内容分析的需求。

发明内容

本发明的目的在于提供基于大数据的文献资源精细化检索构建方法，通过用户上传的关键词进行自动仅保留具有实际意义的名词及动词进行数据组织分类，数据组织分类的系统利用中央处理器接收到所提取的名词及动词通过无线发射单元发送至大数据服务器中，最后通过应用接口输出至用户，并且输出量为1-10条，从而便于用户快速筛选，同时检索精度高，便于用户能够快速进行文献资源的查找，检索智能化程度高，减小了人工检索的劳动量，旨在解决现有技术中国内外的科技文献出版商提供的文献分析工具仅对文献进行了简单的文献统计学分析，未能解决用户对文章内容分析的需求的问题。

本发明是这样实现的，基于大数据的文献资源精细化检索构建方法，具体包括如下步骤：

S1：用户通过输入设备进行上传所检索的文献资源关键词，所上传的关键词包括词语、数字、字母及标点符号，并且所上传的关键词中无需进行分隔，在上传后系统自动仅保留具有实际意义的名词及动词，然后在确定的名词及动词中获得能够正确表达文档内容的概念性词或词组；

S2：所获得的词或词组及进行数据分类组织，分类组织后进行分类库组织检索、归结，分别设置了多个减缩终端对分类组织后的词或词组进行独立检索输出，对所输出的检索结果进行判断查询，判断出词或词组属于哪一部分并将其分别储存于相应的集合中；

S3：在S2中利用词或词组的独立检索、归结，形成有多组关键词相对应的检索集合，并对每个检索集合进行查询请求处理的语句分析，从中提取出能正确表达查询语义的概念性集合，然后将其带到本体中查找相应的概念，得到检索集合的概括词，并标注在检索集合上；

S4：对标注概括词的检索集合进行筛选、缩减输出量，其筛选、缩减方式为，用户再次进行关键词上传，不断剔除违背或偏离主题的检索集合，最后筛选、缩减完成后在应用接口进行集合输出，供用户查验。

进一步地，在S1中，所输入的关键词包含了文献资源的关键内容词语、发布时间、所属领域及课题关键词，且在上传后系统自动仅保留具有实际意义的名词及动词，并且对所提取的名词及动词进行后续分类组织。

进一步地，在S2中，所述数据组织分类的系统包括中央处理器，所述中央处理器与数据分类终端双向连接，所述中央处理器接收到所提取的名词及动词通过无线发射单元发送至大数据服务器中，通过大数据服务器进比对分析后再通过无线接收单元进行接收，再发送至数据分类终端进行分类处理。

进一步地，所述数据分类终端利用大数据所获得信息进行名词及动词依次输送至多个检索终端，所述检索终端检索后输出检索集合。

进一步地，所述检索终端包括关键字与拼音检索，以实现相关词检索集合，谐音检索、通假字、联想词汇的检索，以实现相近词的检索集合。

进一步地，通用词汇与通用成语的检索，以实现惯用词汇的检索集合，名词及动词的使用领域、使用背景检索，以实现引用词汇的检索集合。

进一步地，所述中央处理的的输出端连接有输出端元，所述输出单元连接筛选、缩减输出量的模块，通过输出单元将数据分类终端所检索的检索集合进行输出，输出单元所输出后的为标注概括词的检索集合。

进一步地，用户通过输出单元对标注概括词的检索集合进行筛选、缩减输出量，用户先进行查看标注概括词的检索集合，再进行关键词筛选与缩减。

进一步地，所述应用接口输出的为所筛选、缩减输出量后的标注概括词的检索集合，输出后的检索集合为1-10条，用户在接口输出时可进行实时查阅。

与现有技术相比，本发明提供的基于大数据的文献资源精细化检索构建方法，具备以下有益效果：

1、通过用户上传的关键词进行自动仅保留具有实际意义的名词及动词进行数据组织分类，数据组织分类的系统利用中央处理器接收到所提取的名词及动词通过无线发射单元发送至大数据服务器中，通过大数据服务器进比对分析后再通过无线接收单元进行接收，再发送至数据分类终端进行分类处理，再利用大数据所获得信息进行名词及动词依次输送至多个检索终端，检索终端检索后输出检索集合，并且通过多个检索集合进行筛选与缩减，最后通过应用接口输出至用户，并且输出量为1-10条，从而便于用户快速筛选，同时检索精度高，便于用户能够快速进行文献资源的查找，检索智能化程度高，减小了人工检索的劳动量；

2、增加了检索语义扩展，检索终端包括关键字与拼音检索，以实现相关词检索集合，谐音检索、通假字、联想词汇的检索，以实现相近词的检索集合，通用词汇与通用成语的检索，以实现惯用词汇的检索集合，名词及动词的使用领域、使用背景检索，以实现引用词汇的检索集合，可以根据用户提交的检索词推理出与原查询相近或相关的词加入查询系统，以提高检索质量，并且提高了信息检索效率，解决了以往技术在信息检索中性能瓶颈。

附图说明

图1为本发明提出的基于大数据的文献资源精细化检索构建方法的流程框图；

图2为本发明提出的基于大数据的文献资源精细化检索构建方法中数据组织分类的系统连接图；

图3为本发明提出的基于大数据的文献资源精细化检索构建方法中筛选、缩减输出量的操作流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的实现进行详细的描述。

本实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

参照图1-3所示，为本发明提供的较佳实施例。

基于大数据的文献资源精细化检索构建方法，具体包括如下步骤：

S4：对标注概括词的检索集合进行筛选、缩减输出量，其筛选、缩减方式为，用户再次进行关键词上传，不断剔除违背或偏离主题的检索集合，最后筛选、缩减完成后在应用接口进行集合输出，供用户查验；

具体的，通过用户上传的关键词进行自动仅保留具有实际意义的名词及动词进行数据组织分类，从而便于用户快速筛选，同时检索精度高，便于用户能够快速进行文献资源的查找，检索智能化程度高，减小了人工检索的劳动量。

在本实施例的S1中，所输入的关键词包含了文献资源的关键内容词语、发布时间、所属领域及课题关键词，且在上传后系统自动仅保留具有实际意义的名词及动词，并且对所提取的名词及动词进行后续分类组织，以防止所检索的文献资源被误删除，保证文献资源的精准检索。

在本实施例的S2中，数据组织分类的系统包括中央处理器，中央处理器与数据分类终端双向连接，中央处理器接收到所提取的名词及动词通过无线发射单元发送至大数据服务器中，通过大数据服务器进比对分析后再通过无线接收单元进行接收，再发送至数据分类终端进行分类处理，数据分类终端利用大数据所获得信息进行名词及动词依次输送至多个检索终端，检索终端检索后输出检索集合，数据组织分类的系统利用中央处理器接收到所提取的名词及动词通过无线发射单元发送至大数据服务器中，通过大数据服务器进比对分析后再通过无线接收单元进行接收，再发送至数据分类终端进行分类处理，再利用大数据所获得信息进行名词及动词依次输送至多个检索终端，检索终端检索后输出检索集合。

在本实施例中，检索终端包括关键字与拼音检索，以实现相关词检索集合，谐音检索、通假字、联想词汇的检索，以实现相近词的检索集合，通用词汇与通用成语的检索，以实现惯用词汇的检索集合，名词及动词的使用领域、使用背景检索，以实现引用词汇的检索集合，增加了检索语义扩展，检索终端包括关键字与拼音检索，以实现相关词检索集合，谐音检索、通假字、联想词汇的检索，以实现相近词的检索集合，通用词汇与通用成语的检索，以实现惯用词汇的检索集合，名词及动词的使用领域、使用背景检索，以实现引用词汇的检索集合，可以根据用户提交的检索词推理出与原查询相近或相关的词加入查询系统，以提高检索质量，并且提高了信息检索效率，解决了以往技术在信息检索中性能瓶颈。

在本实施例中，中央处理的的输出端连接有输出端元，输出单元连接筛选、缩减输出量的模块，通过输出单元将数据分类终端所检索的检索集合进行输出，输出单元所输出后的为标注概括词的检索集合，用户通过输出单元对标注概括词的检索集合进行筛选、缩减输出量，用户先进行查看标注概括词的检索集合，再进行关键词筛选与缩减，应用接口输出的为所筛选、缩减输出量后的标注概括词的检索集合，输出后的检索集合为1-10条，用户在接口输出时可进行实时查阅，通过多个检索集合进行筛选与缩减，最后通过应用接口输出至用户，并且输出量为1-10条，从而便于用户快速筛选，同时检索精度高，便于用户能够快速进行文献资源的查找，检索智能化程度高，减小了人工检索的劳动量。

本技术方案通过用户上传的关键词进行自动仅保留具有实际意义的名词及动词进行数据组织分类，数据组织分类的系统利用中央处理器接收到所提取的名词及动词通过无线发射单元发送至大数据服务器中，通过大数据服务器进比对分析后再通过无线接收单元进行接收，再发送至数据分类终端进行分类处理，再利用大数据所获得信息进行名词及动词依次输送至多个检索终端，检索终端检索后输出检索集合，并且通过多个检索集合进行筛选与缩减，最后通过应用接口输出至用户；

具体的，通过多个检索集合进行筛选与缩减，最后应用接口输出的输出量为1-10条，从而便于用户快速筛选，同时检索精度高，便于用户能够快速进行文献资源的查找，检索智能化程度高，减小了人工检索的劳动量。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.基于大数据的文献资源精细化检索构建方法，其特征在于，具体包括如下步骤：

2.如权利要求1所述的基于大数据的文献资源精细化检索构建方法，其特征在于，在S1中，所输入的关键词包含了文献资源的关键内容词语、发布时间、所属领域及课题关键词，且在上传后系统自动仅保留具有实际意义的名词及动词，并且对所提取的名词及动词进行后续分类组织。

3.如权利要求2所述的基于大数据的文献资源精细化检索构建方法，其特征在于，在S2中，所述数据组织分类的系统包括中央处理器，所述中央处理器与数据分类终端双向连接，所述中央处理器接收到所提取的名词及动词通过无线发射单元发送至大数据服务器中，通过大数据服务器进比对分析后再通过无线接收单元进行接收，再发送至数据分类终端进行分类处理。

4.如权利要求3所述的基于大数据的文献资源精细化检索构建方法，其特征在于，所述数据分类终端利用大数据所获得信息进行名词及动词依次输送至多个检索终端，所述检索终端检索后输出检索集合。

5.如权利要求4所述的基于大数据的文献资源精细化检索构建方法，其特征在于，所述检索终端包括关键字与拼音检索，以实现相关词检索集合，谐音检索、通假字、联想词汇的检索，以实现相近词的检索集合。

6.如权利要求5所述的基于大数据的文献资源精细化检索构建方法，其特征在于，通用词汇与通用成语的检索，以实现惯用词汇的检索集合，名词及动词的使用领域、使用背景检索，以实现引用词汇的检索集合。

7.如权利要求6所述的基于大数据的文献资源精细化检索构建方法，其特征在于，所述中央处理的的输出端连接有输出端元，所述输出单元连接筛选、缩减输出量的模块，通过输出单元将数据分类终端所检索的检索集合进行输出，输出单元所输出后的为标注概括词的检索集合。

8.如权利要求7所述的基于大数据的文献资源精细化检索构建方法，其特征在于，用户通过输出单元对标注概括词的检索集合进行筛选、缩减输出量，用户先进行查看标注概括词的检索集合，再进行关键词筛选与缩减。

9.如权利要求8所述的基于大数据的文献资源精细化检索构建方法，其特征在于，所述应用接口输出的为所筛选、缩减输出量后的标注概括词的检索集合，输出后的检索集合为1-10条，用户在接口输出时可进行实时查阅。

10.如权利要求1-9任一项所述的基于大数据的文献资源精细化检索构建方法在网络文献资源快速精确检索上的应用。