CN113688208A - 基于大数据的文献资源精细化检索构建方法 - Google Patents

基于大数据的文献资源精细化检索构建方法 Download PDF

Info

Publication number
CN113688208A
CN113688208A CN202111006100.1A CN202111006100A CN113688208A CN 113688208 A CN113688208 A CN 113688208A CN 202111006100 A CN202111006100 A CN 202111006100A CN 113688208 A CN113688208 A CN 113688208A
Authority
CN
China
Prior art keywords
retrieval
search
output
words
verbs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111006100.1A
Other languages
English (en)
Inventor
程家忠
张慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hanhe Culture And Education Shenzhen Co ltd
Original Assignee
Hanhe Culture And Education Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hanhe Culture And Education Shenzhen Co ltd filed Critical Hanhe Culture And Education Shenzhen Co ltd
Priority to CN202111006100.1A priority Critical patent/CN113688208A/zh
Publication of CN113688208A publication Critical patent/CN113688208A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及文献查找的技术领域,公开了基于大数据的文献资源精细化检索构建方法,具体包括如下步骤:S1:用户通过输入设备进行上传所检索的文献资源关键词,所上传的关键词包括词语、数字、字母及标点符号,并且所上传的关键词中无需进行分隔,在上传后系统自动仅保留具有实际意义的名词及动词,然后在确定的名词及动词中获得能够正确表达文档内容的概念性词或词组。本发明通过多个检索集合进行筛选与缩减,最后通过应用接口输出至用户,并且输出量为1‑10条,从而便于用户快速筛选,同时检索精度高,便于用户能够快速进行文献资源的查找,检索智能化程度高,减小了人工检索的劳动量。

Description

基于大数据的文献资源精细化检索构建方法
技术领域
本发明专利涉及文献查找的技术领域,具体而言,涉及基于大数据的文献资源精细化检索构建方法。
背景技术
科技文献检索是用户获取文献的主要途径。各科技文献出版机构,如WebofKnowledge、Springer、Elsevier等都为用户提供了功能强大的文献检索工具。科研人员进入某一新的科研领域通常需要检索并阅读大量权威文献,从而掌握该领域的研究现状。
在对某一新领域知识缺乏的情况下,用户对某一新的科研领域进行文献检索时,面临两个方面的问题。一是用户难以判断检索到的成百上千篇文献与目标领域的相关程度,用户获取的检索结果严重信息过剩。检索结果需要进一步精炼。二是用户需要高效地对检索结果文献进行分析判读,在较短时间内厘清该领域的研究现状。
目前,国内外的科技文献出版商提供的文献分析工具仅对文献进行了简单的文献统计学分析,如文章被引、发文数量、发文年份统计等,未能解决用户对文章内容分析的需求。
发明内容
本发明的目的在于提供基于大数据的文献资源精细化检索构建方法,通过用户上传的关键词进行自动仅保留具有实际意义的名词及动词进行数据组织分类,数据组织分类的系统利用中央处理器接收到所提取的名词及动词通过无线发射单元发送至大数据服务器中,最后通过应用接口输出至用户,并且输出量为1-10条,从而便于用户快速筛选,同时检索精度高,便于用户能够快速进行文献资源的查找,检索智能化程度高,减小了人工检索的劳动量,旨在解决现有技术中国内外的科技文献出版商提供的文献分析工具仅对文献进行了简单的文献统计学分析,未能解决用户对文章内容分析的需求的问题。
本发明是这样实现的,基于大数据的文献资源精细化检索构建方法,具体包括如下步骤:
S1:用户通过输入设备进行上传所检索的文献资源关键词,所上传的关键词包括词语、数字、字母及标点符号,并且所上传的关键词中无需进行分隔,在上传后系统自动仅保留具有实际意义的名词及动词,然后在确定的名词及动词中获得能够正确表达文档内容的概念性词或词组;
S2:所获得的词或词组及进行数据分类组织,分类组织后进行分类库组织检索、归结,分别设置了多个减缩终端对分类组织后的词或词组进行独立检索输出,对所输出的检索结果进行判断查询,判断出词或词组属于哪一部分并将其分别储存于相应的集合中;
S3:在S2中利用词或词组的独立检索、归结,形成有多组关键词相对应的检索集合,并对每个检索集合进行查询请求处理的语句分析,从中提取出能正确表达查询语义的概念性集合,然后将其带到本体中查找相应的概念,得到检索集合的概括词,并标注在检索集合上;
S4:对标注概括词的检索集合进行筛选、缩减输出量,其筛选、缩减方式为,用户再次进行关键词上传,不断剔除违背或偏离主题的检索集合,最后筛选、缩减完成后在应用接口进行集合输出,供用户查验。
进一步地,在S1中,所输入的关键词包含了文献资源的关键内容词语、发布时间、所属领域及课题关键词,且在上传后系统自动仅保留具有实际意义的名词及动词,并且对所提取的名词及动词进行后续分类组织。
进一步地,在S2中,所述数据组织分类的系统包括中央处理器,所述中央处理器与数据分类终端双向连接,所述中央处理器接收到所提取的名词及动词通过无线发射单元发送至大数据服务器中,通过大数据服务器进比对分析后再通过无线接收单元进行接收,再发送至数据分类终端进行分类处理。
进一步地,所述数据分类终端利用大数据所获得信息进行名词及动词依次输送至多个检索终端,所述检索终端检索后输出检索集合。
进一步地,所述检索终端包括关键字与拼音检索,以实现相关词检索集合,谐音检索、通假字、联想词汇的检索,以实现相近词的检索集合。
进一步地,通用词汇与通用成语的检索,以实现惯用词汇的检索集合,名词及动词的使用领域、使用背景检索,以实现引用词汇的检索集合。
进一步地,所述中央处理的的输出端连接有输出端元,所述输出单元连接筛选、缩减输出量的模块,通过输出单元将数据分类终端所检索的检索集合进行输出,输出单元所输出后的为标注概括词的检索集合。
进一步地,用户通过输出单元对标注概括词的检索集合进行筛选、缩减输出量,用户先进行查看标注概括词的检索集合,再进行关键词筛选与缩减。
进一步地,所述应用接口输出的为所筛选、缩减输出量后的标注概括词的检索集合,输出后的检索集合为1-10条,用户在接口输出时可进行实时查阅。
与现有技术相比,本发明提供的基于大数据的文献资源精细化检索构建方法,具备以下有益效果:
1、通过用户上传的关键词进行自动仅保留具有实际意义的名词及动词进行数据组织分类,数据组织分类的系统利用中央处理器接收到所提取的名词及动词通过无线发射单元发送至大数据服务器中,通过大数据服务器进比对分析后再通过无线接收单元进行接收,再发送至数据分类终端进行分类处理,再利用大数据所获得信息进行名词及动词依次输送至多个检索终端,检索终端检索后输出检索集合,并且通过多个检索集合进行筛选与缩减,最后通过应用接口输出至用户,并且输出量为1-10条,从而便于用户快速筛选,同时检索精度高,便于用户能够快速进行文献资源的查找,检索智能化程度高,减小了人工检索的劳动量;
2、增加了检索语义扩展,检索终端包括关键字与拼音检索,以实现相关词检索集合,谐音检索、通假字、联想词汇的检索,以实现相近词的检索集合,通用词汇与通用成语的检索,以实现惯用词汇的检索集合,名词及动词的使用领域、使用背景检索,以实现引用词汇的检索集合,可以根据用户提交的检索词推理出与原查询相近或相关的词加入查询系统,以提高检索质量,并且提高了信息检索效率,解决了以往技术在信息检索中性能瓶颈。
附图说明
图1为本发明提出的基于大数据的文献资源精细化检索构建方法的流程框图;
图2为本发明提出的基于大数据的文献资源精细化检索构建方法中数据组织分类的系统连接图;
图3为本发明提出的基于大数据的文献资源精细化检索构建方法中筛选、缩减输出量的操作流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的实现进行详细的描述。
本实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
参照图1-3所示,为本发明提供的较佳实施例。
基于大数据的文献资源精细化检索构建方法,具体包括如下步骤:
S1:用户通过输入设备进行上传所检索的文献资源关键词,所上传的关键词包括词语、数字、字母及标点符号,并且所上传的关键词中无需进行分隔,在上传后系统自动仅保留具有实际意义的名词及动词,然后在确定的名词及动词中获得能够正确表达文档内容的概念性词或词组;
S2:所获得的词或词组及进行数据分类组织,分类组织后进行分类库组织检索、归结,分别设置了多个减缩终端对分类组织后的词或词组进行独立检索输出,对所输出的检索结果进行判断查询,判断出词或词组属于哪一部分并将其分别储存于相应的集合中;
S3:在S2中利用词或词组的独立检索、归结,形成有多组关键词相对应的检索集合,并对每个检索集合进行查询请求处理的语句分析,从中提取出能正确表达查询语义的概念性集合,然后将其带到本体中查找相应的概念,得到检索集合的概括词,并标注在检索集合上;
S4:对标注概括词的检索集合进行筛选、缩减输出量,其筛选、缩减方式为,用户再次进行关键词上传,不断剔除违背或偏离主题的检索集合,最后筛选、缩减完成后在应用接口进行集合输出,供用户查验;
具体的,通过用户上传的关键词进行自动仅保留具有实际意义的名词及动词进行数据组织分类,从而便于用户快速筛选,同时检索精度高,便于用户能够快速进行文献资源的查找,检索智能化程度高,减小了人工检索的劳动量。
在本实施例的S1中,所输入的关键词包含了文献资源的关键内容词语、发布时间、所属领域及课题关键词,且在上传后系统自动仅保留具有实际意义的名词及动词,并且对所提取的名词及动词进行后续分类组织,以防止所检索的文献资源被误删除,保证文献资源的精准检索。
在本实施例的S2中,数据组织分类的系统包括中央处理器,中央处理器与数据分类终端双向连接,中央处理器接收到所提取的名词及动词通过无线发射单元发送至大数据服务器中,通过大数据服务器进比对分析后再通过无线接收单元进行接收,再发送至数据分类终端进行分类处理,数据分类终端利用大数据所获得信息进行名词及动词依次输送至多个检索终端,检索终端检索后输出检索集合,数据组织分类的系统利用中央处理器接收到所提取的名词及动词通过无线发射单元发送至大数据服务器中,通过大数据服务器进比对分析后再通过无线接收单元进行接收,再发送至数据分类终端进行分类处理,再利用大数据所获得信息进行名词及动词依次输送至多个检索终端,检索终端检索后输出检索集合。
在本实施例中,检索终端包括关键字与拼音检索,以实现相关词检索集合,谐音检索、通假字、联想词汇的检索,以实现相近词的检索集合,通用词汇与通用成语的检索,以实现惯用词汇的检索集合,名词及动词的使用领域、使用背景检索,以实现引用词汇的检索集合,增加了检索语义扩展,检索终端包括关键字与拼音检索,以实现相关词检索集合,谐音检索、通假字、联想词汇的检索,以实现相近词的检索集合,通用词汇与通用成语的检索,以实现惯用词汇的检索集合,名词及动词的使用领域、使用背景检索,以实现引用词汇的检索集合,可以根据用户提交的检索词推理出与原查询相近或相关的词加入查询系统,以提高检索质量,并且提高了信息检索效率,解决了以往技术在信息检索中性能瓶颈。
在本实施例中,中央处理的的输出端连接有输出端元,输出单元连接筛选、缩减输出量的模块,通过输出单元将数据分类终端所检索的检索集合进行输出,输出单元所输出后的为标注概括词的检索集合,用户通过输出单元对标注概括词的检索集合进行筛选、缩减输出量,用户先进行查看标注概括词的检索集合,再进行关键词筛选与缩减,应用接口输出的为所筛选、缩减输出量后的标注概括词的检索集合,输出后的检索集合为1-10条,用户在接口输出时可进行实时查阅,通过多个检索集合进行筛选与缩减,最后通过应用接口输出至用户,并且输出量为1-10条,从而便于用户快速筛选,同时检索精度高,便于用户能够快速进行文献资源的查找,检索智能化程度高,减小了人工检索的劳动量。
本技术方案通过用户上传的关键词进行自动仅保留具有实际意义的名词及动词进行数据组织分类,数据组织分类的系统利用中央处理器接收到所提取的名词及动词通过无线发射单元发送至大数据服务器中,通过大数据服务器进比对分析后再通过无线接收单元进行接收,再发送至数据分类终端进行分类处理,再利用大数据所获得信息进行名词及动词依次输送至多个检索终端,检索终端检索后输出检索集合,并且通过多个检索集合进行筛选与缩减,最后通过应用接口输出至用户;
具体的,通过多个检索集合进行筛选与缩减,最后应用接口输出的输出量为1-10条,从而便于用户快速筛选,同时检索精度高,便于用户能够快速进行文献资源的查找,检索智能化程度高,减小了人工检索的劳动量。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于大数据的文献资源精细化检索构建方法,其特征在于,具体包括如下步骤:
S1:用户通过输入设备进行上传所检索的文献资源关键词,所上传的关键词包括词语、数字、字母及标点符号,并且所上传的关键词中无需进行分隔,在上传后系统自动仅保留具有实际意义的名词及动词,然后在确定的名词及动词中获得能够正确表达文档内容的概念性词或词组;
S2:所获得的词或词组及进行数据分类组织,分类组织后进行分类库组织检索、归结,分别设置了多个减缩终端对分类组织后的词或词组进行独立检索输出,对所输出的检索结果进行判断查询,判断出词或词组属于哪一部分并将其分别储存于相应的集合中;
S3:在S2中利用词或词组的独立检索、归结,形成有多组关键词相对应的检索集合,并对每个检索集合进行查询请求处理的语句分析,从中提取出能正确表达查询语义的概念性集合,然后将其带到本体中查找相应的概念,得到检索集合的概括词,并标注在检索集合上;
S4:对标注概括词的检索集合进行筛选、缩减输出量,其筛选、缩减方式为,用户再次进行关键词上传,不断剔除违背或偏离主题的检索集合,最后筛选、缩减完成后在应用接口进行集合输出,供用户查验。
2.如权利要求1所述的基于大数据的文献资源精细化检索构建方法,其特征在于,在S1中,所输入的关键词包含了文献资源的关键内容词语、发布时间、所属领域及课题关键词,且在上传后系统自动仅保留具有实际意义的名词及动词,并且对所提取的名词及动词进行后续分类组织。
3.如权利要求2所述的基于大数据的文献资源精细化检索构建方法,其特征在于,在S2中,所述数据组织分类的系统包括中央处理器,所述中央处理器与数据分类终端双向连接,所述中央处理器接收到所提取的名词及动词通过无线发射单元发送至大数据服务器中,通过大数据服务器进比对分析后再通过无线接收单元进行接收,再发送至数据分类终端进行分类处理。
4.如权利要求3所述的基于大数据的文献资源精细化检索构建方法,其特征在于,所述数据分类终端利用大数据所获得信息进行名词及动词依次输送至多个检索终端,所述检索终端检索后输出检索集合。
5.如权利要求4所述的基于大数据的文献资源精细化检索构建方法,其特征在于,所述检索终端包括关键字与拼音检索,以实现相关词检索集合,谐音检索、通假字、联想词汇的检索,以实现相近词的检索集合。
6.如权利要求5所述的基于大数据的文献资源精细化检索构建方法,其特征在于,通用词汇与通用成语的检索,以实现惯用词汇的检索集合,名词及动词的使用领域、使用背景检索,以实现引用词汇的检索集合。
7.如权利要求6所述的基于大数据的文献资源精细化检索构建方法,其特征在于,所述中央处理的的输出端连接有输出端元,所述输出单元连接筛选、缩减输出量的模块,通过输出单元将数据分类终端所检索的检索集合进行输出,输出单元所输出后的为标注概括词的检索集合。
8.如权利要求7所述的基于大数据的文献资源精细化检索构建方法,其特征在于,用户通过输出单元对标注概括词的检索集合进行筛选、缩减输出量,用户先进行查看标注概括词的检索集合,再进行关键词筛选与缩减。
9.如权利要求8所述的基于大数据的文献资源精细化检索构建方法,其特征在于,所述应用接口输出的为所筛选、缩减输出量后的标注概括词的检索集合,输出后的检索集合为1-10条,用户在接口输出时可进行实时查阅。
10.如权利要求1-9任一项所述的基于大数据的文献资源精细化检索构建方法在网络文献资源快速精确检索上的应用。
CN202111006100.1A 2021-08-30 2021-08-30 基于大数据的文献资源精细化检索构建方法 Pending CN113688208A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111006100.1A CN113688208A (zh) 2021-08-30 2021-08-30 基于大数据的文献资源精细化检索构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111006100.1A CN113688208A (zh) 2021-08-30 2021-08-30 基于大数据的文献资源精细化检索构建方法

Publications (1)

Publication Number Publication Date
CN113688208A true CN113688208A (zh) 2021-11-23

Family

ID=78584165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111006100.1A Pending CN113688208A (zh) 2021-08-30 2021-08-30 基于大数据的文献资源精细化检索构建方法

Country Status (1)

Country Link
CN (1) CN113688208A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156272A (zh) * 2016-06-21 2016-11-23 北京工业大学 一种基于多源语义分析的信息检索方法
CN109101591A (zh) * 2018-07-27 2018-12-28 贵州广思信息网络有限公司 基于知识库的拼音词义检索方法
CN111831885A (zh) * 2020-07-14 2020-10-27 深圳市众创达企业咨询策划有限公司 一种互联网信息检索系统与方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156272A (zh) * 2016-06-21 2016-11-23 北京工业大学 一种基于多源语义分析的信息检索方法
CN109101591A (zh) * 2018-07-27 2018-12-28 贵州广思信息网络有限公司 基于知识库的拼音词义检索方法
CN111831885A (zh) * 2020-07-14 2020-10-27 深圳市众创达企业咨询策划有限公司 一种互联网信息检索系统与方法

Similar Documents

Publication Publication Date Title
CN1685341B (zh) 跨语言搜索结果的闪烁注释标注加亮
CN1290036C (zh) 根据机器可读词典建立概念知识的计算机系统及方法
CN100409241C (zh) 一种基于搜索引擎的信息检索方法及检索系统
CN102521337B (zh) 一种基于海量知识网络的学术社区系统
CN100433007C (zh) 提供搜索结果的方法
CN100568230C (zh) 基于超文本的多语言网络信息搜索方法和系统
US20010047351A1 (en) Document information search apparatus and method and recording medium storing document information search program therein
CN113190687B (zh) 知识图谱的确定方法、装置、计算机设备及存储介质
CN101661490B (zh) 搜索引擎、其客户端及搜索网页的方法
CN111061828B (zh) 一种数字图书馆知识检索方法及装置
US20090276399A1 (en) Ranking documents through contextual shortcuts
CN101071425A (zh) 一种信息快捷搜索装置、客户端、系统及方法
US9547701B2 (en) Method of discovering and exploring feature knowledge
Hanyurwimfura et al. A centroid and relationship based clustering for organizing
CN108733848B (zh) 一种搜索知识的方法及系统
CN113688208A (zh) 基于大数据的文献资源精细化检索构建方法
KR100836878B1 (ko) 정보 검색 시스템에서의 주제 또는 분야 할당 장치 및 그방법
CN111930919B (zh) 一种面向企业在线教育app语音交互的实现方法
KR101134073B1 (ko) 검색어와 검색 결과의 단어 연관성을 이용하는 검색 방법 및 검색 시스템
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
EP4127957A1 (en) Methods and systems for searching and retrieving information
KR100434718B1 (ko) 문서 색인 시스템 및 그 방법
Lin et al. Smart Semantic Query of Design Information in a Case Library
KR100594180B1 (ko) 온라인을 이용한 통합 검색 방법
Li et al. Clustering web search results using conceptual grouping

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination