CN113722472B - 一种技术文献信息提取方法、系统及存储介质 - Google Patents
一种技术文献信息提取方法、系统及存储介质 Download PDFInfo
- Publication number
- CN113722472B CN113722472B CN202111086474.9A CN202111086474A CN113722472B CN 113722472 B CN113722472 B CN 113722472B CN 202111086474 A CN202111086474 A CN 202111086474A CN 113722472 B CN113722472 B CN 113722472B
- Authority
- CN
- China
- Prior art keywords
- research
- list
- institution
- information
- technical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种技术文献信息提取方法、系统及存储介质,根据技术人员想要研究的技术领域进行检索技术文献,对技术文献进行预处理,并且能够根据预处理后得到的汇总列表进行综合图表数据集的生成,还能够根据技术人员感兴趣的特定的学者或机构或关键词进行特定图表数据集的生成,并且将综合图表数据集和特定图表数据集以数据表格和可视化图谱形式展现,从而便于技术人员对当前领域的发展方向或对特定的研究学者、研究机构或关键词的发展方向进行分析;整个流程只需要技术人员输入要研究的方向或要研究的学者、机构或关键词,不需要使用多个工具,操作步骤简洁,能够很好的支撑研究人员进行学科领域发展分析。
Description
技术领域
本发明涉及文献信息提取技术领域,特别是涉及一种技术文献信息提取方法、系统及存储介质。
背景技术
目前,学科领域发展分析是技术工作者的研究的重点之一,可以使技术人员及行业决策者在较快的时间内掌握领域的进展、动态及趋势,从而起到决策支撑的作用,有利于相关研究人员及研究机构及时准确地把握发展的脉络和先机,辅助支撑决策者或者决策部门进行决策。
为满足各学科领域用户从海量文献信息获取满足自己需求和对这些信息进行批量式处理的双重需求,国内外学者和机构开发出不同的文献信息提取的软件,比如,BibExcel、CiteSpace、Gephi和Ucinet等。其中,BibExcel具有抽取文献中的知识单元间的关系矩阵的功能,但是操作步骤复杂;Citespace在做作者和机构合作网络时,图谱绘制结果通常不太理想;Ucinet是一款社会网络分析工具,适合分析较大的数据集,但是没有数据清洗功能,分析对象必须为关联数据,Gephi的分析对象也必须为关联数据;所以目前很多开发者先是采用python对原始数据进行数据处理生成关系矩阵,然后再输入Gephi进行可视化分析。国内常用的知网万方虽然能够直接对检索结果进行可视化计量分析,但是很难做到检索式的搜索结果完全准确和全面,搜索结果含有一定的噪声,并且也只能显示有限数量。
综上,可见在对某个学科领域进行发展分析时,关键在于待分析的文献的准和全,相关人员需要随着对学科领域不断了解深入,不断地根据文献信息提取结果以及相关专业知识积累,不断地调整检索式,清除噪声文献,尽可能地实现文献检索的准和全,在得到相对满意结果这一过程中,需要多次更新检索文献结果,多次对检索文献信息提取结果分析,文献信息提取工具使用步骤复杂,图谱绘制结果通常不太理想,仅采用关系网络等可视化计量进行分析,并不能完整反应历史发展脉络,需要同时使用多个文献信息提取工具,操作步骤复杂,会产生较大的工作量。
针对以上的问题,提出一种对于多次更新的技术文献检索结果可以进行自动处理,不需要使用多个工具,处理步骤简洁,对更好的支撑研究人员进行学科领域发展分析是非常有必要的。
发明内容
本发明的目的是提供一种技术文献信息提取方法、系统及存储介质,解决传统的文献信息提取方法中需要多个软件共同使用,步骤繁琐,操作复杂的问题。
为实现上述目的,本发明提供了如下方案:
一种技术文献信息提取方法,包括以下步骤:
根据用户输入的检索文本,在文献检索网站上检索得到与检索文本对应的若干条技术文献信息;
对所述若干条技术文献信息进行预处理,得到技术信息汇总列表;
根据所述技术信息汇总列表,生成综合图表数据集;
根据用户选择输入的内容,生成对应的特定图表数据集进行显示;
所述综合图表数据集和特定图表数据集包括以数据表格和可视化图谱形式展现的图表数据。
进一步的,对所述若干条技术文献信息进行预处理具体包括:
将若干条技术文献信息以列表文件形式导出,得到若干个文献列表;其中,在所述文献列表文件中,除表头以外每行内容对应一条技术文献信息;
遍历所述若干个文献列表,并将第i个文献列表中的技术文献信息导入第1个文献列表中,得到初始文献列表;其中,1<i<I,I为文献列表文件的数量;
删除所述初始文献列表中重复的技术文献信息,得到去重文献列表;
对所述去重文献列表的表头进行规范化处理,得到技术信息汇总列表。
进一步的,对所述去重文献列表的表头进行规范化处理具体包括:
识别出所述去重文献列表表头中表示研究学者的列、表示研究机构的列、表示研究关键词的列和表示发文年份的列;所述表示研究学者的列的列名中包括字符串“作者”或“学者”,所述表示研究机构的列的列名中包括字符串“机构”或“单位”,所述表示研究关键词的列的列名中包括字符串“关键词”或“关键字”,所述表示发文年份的列的列名中包括字符串“年”或“年份”;
如果列名不为中文的先将列名翻译成中文后再进行判断;
使用字符串“研究学者”替换去重文献列表表头中表示研究学者的列名,使用字符串“研究机构”替换去重文献列表表头中表示研究机构的列名,使用字符串“研究关键词”替换去重文献列表表头中表示研究关键词的列名,使用字符串“发文年份”替换去重文献列表表头中表示发文年份的列名。
可选的,根据所述技术信息汇总列表生成综合图表数据集具体包括:
在所述技术信息汇总列表中,分别识别并提取研究学者、研究机构和研究关键词,得到研究学者列表、研究机构列表和研究关键词列表;
根据所述技术信息汇总列表分别对所述研究学者列表、所述研究机构列表和所述研究关键词列表进行扩展,得到对应的研究学者信息列表、研究机构信息列表和研究关键词信息列表;
按照发文年份,对所述技术信息汇总列表中的技术文献信息进行排序,并按照发文年份生成历年发文数量的直方图、历年研究学者数量的直方图和历年研究机构数量的直方图;
分别遍历所述技术信息汇总列表中的研究学者单元格、研究机构单元格和研究关键词单元格,生成对应的研究学者关系图、研究机构关系图和研究关键词关系图。
可选的,根据用户选择输入的内容,生成对应的特定图表数据集具体包括:
所述特定图表数据集包括研究学者发文列表、研究学者历年发文情况直方图、研究机构发文列表、研究机构历年发文情况直方图、研究机构演化列表、研究关键词文献列表和研究关键词历年发文情况直方图;
判断用户选择输入的内容为研究学者名称时,遍历所述技术信息汇总列表,生成研究学者发文列表以及研究学者历年发文情况直方图;
判断用户选择输入的内容为研究机构名称时,遍历所述技术信息汇总列表,生成研究机构发文列表、研究机构历年发文情况直方图以及研究机构演化列表;
判断用户选择输入的内容为研究关键词时,遍历所述技术信息汇总列表,生成研究关键词文献列表以及研究关键词历年发文情况直方图。
进一步的,所述研究学者发文列表、研究机构发文列表和研究关键词文献列表的生成流程具体包括:
遍历技术信息汇总列表中的技术文献信息,将技术信息汇总列表中研究学者与用户选择输入的研究学者相同的若干条技术文献信息提取到新的空列表中,得到研究学者发文列表;
遍历技术信息汇总列表中的技术文献信息,将技术信息汇总列表中研究机构与用户选择输入的研究机构内容相同的若干条技术文献信息提取到新的空列表中,得到研究机构发文列表;
遍历技术信息汇总列表中的技术文献信息,将技术信息汇总列表中研究关键字单元格与用户选择输入的研究关键字内容相同的若干条技术文献信息提取到新的空列表中,得到研究关键词文献列表。
进一步的,所述研究学者历年发文情况直方图、研究机构历年发文情况直方图和研究关键词历年发文情况直方图的生成流程具体包括:
基于所述研究学者发文列表,按发文年份分别计算历年的技术文献信息的数量,生成研究学者历年发文情况直方图;
基于所述研究机构发文列表,按发文年份分别计算历年的技术文献信息的数量,生成研究机构历年发文情况直方图;
基于所述研究关键词文献列表,按发文年份分别计算历年的技术文献信息的数量,生成研究关键词历年发文情况直方图。
进一步的,所述研究机构演化列表的生成流程具体包括:
将用户选择输入的研究机构作为第一研究机构,遍历所述第一研究机构的研究机构发文列表,识别并取出属于所述第一研究机构的研究学者,得到第一研究学者集;
将除第一研究机构以外的任一研究机构作为第二研究机构,遍历所述第二研究机构的研究机构发文列表,识别并取出属于所述第二研究机构的研究学者,得到第二研究学者集;
对比第一研究学者集和第二研究学者集中的研究学者名称,若名称相同的人数达到阈值,则判定第二研究机构与第一研究机构为同一研究机构;
遍历其他研究机构,找出所有与第一研究机构为同一研究机构的研究机构名称,得到同一研究机构集;
将所述同一研究机构集中的所有研究机构以发文年份排序,得到研究机构演化列表。
对应于前述的文献信息提取方法,本发明还提供了一种技术文献信息提取系统,所述系统被处理器运行时执行如前所述的技术文献信息提取方法。
根据本发明的另一方面,还提供了一种非易失性的计算机可读存储介质,其上存储有计算机可读的指令,当利用计算机执行所述指令时可以执行如前所述的方法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供的一种技术文献信息提取方法、系统及存储介质,根据技术人员想要研究的技术领域进行检索技术文献,对技术文献进行预处理,并且能够根据预处理后得到的汇总列表进行综合图表数据集的生成,还能够根据技术人员感兴趣的特定的学者或机构或关键词进行特定图表数据集的生成,并且将综合图表数据集和特定图表数据集以数据表格和可视化图谱形式展现,从而便于技术人员对当前领域的发展方向或对特定的研究学者、研究机构或关键词的发展方向进行分析;整个流程只需要技术人员输入要研究的方向或要研究的学者、机构或关键词,不需要使用多个工具,操作步骤简洁。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的一种技术文献信息提取方法的流程图;
图2为本发明实施例1提供的方法中步骤S2的流程图;
图3为本发明实施例1提供的方法中步骤S24的流程图;
图4为本发明实施例1提供的方法中步骤S3的流程图;
图5为本发明实施例1提供的方法中步骤S4的流程图;
图6为本发明实施例1提供的方法中步骤S41的流程图;
图7为本发明实施例1提供的方法中步骤S42的流程图;
图8为本发明实施例1提供的方法中步骤S423的流程图;
图9为本发明实施例1提供的方法中步骤S43的流程图;
图10为本发明实施例2提供的一种技术文献信息提取系统的示意图;
图11为本发明实施例3中去除研究机构列表中的非研究机构元素的具体流程图。
符号解释:1-文献信息检索模块;2-文献信息处理模块;3-综合图表生成模块;4-特定图表生成模块;21-合并单元;22-去重单元;23-规范化单元;31-列表生成单元;32-信息列表生成单元;33-直方图生成单元;34-关系图生成单元;41-学者研究方向生成单元;42-机构研究方向生成单元;43-关键词研究方向生成单元。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种技术文献信息提取方法、系统及存储介质,解决传统的文献信息提取方法中需要多个软件共同使用,步骤繁琐,操作复杂的问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1:
如图1所示,本实施例提供了一种技术文献信息提取方法,包括以下步骤:
S1、根据用户输入的检索文本,在文献检索网站上检索得到与检索文本对应的若干条技术文献信息;
S2、对所述若干条技术文献信息进行预处理,得到技术信息汇总列表;
由于不同文献网站导出技术文献信息的规则不同,例如:知网一个文件最多包括500条技术文献信息,为了便于对当前技术领域中的所有技术文献信息进行提取,需要将所有技术文献信息汇总成一个列表文件,如图2所示,步骤S2对所述若干条技术文献信息进行预处理具体包括:
S21、将若干条技术文献信息以列表文件形式导出,得到若干个文献列表;其中,在所述文献列表文件中,除表头以外每行内容对应一条技术文献信息;
S22、遍历所述若干个文献列表,并将第i个文献列表中的技术文献信息导入第1个文献列表中,得到初始文献列表;其中,1<i<I,I为文献列表文件的数量;
S23、删除所述初始文献列表中重复的技术文献信息,得到去重文献列表;
S24、对所述去重文献列表的表头进行规范化处理,得到技术信息汇总列表;
由于不同文献网站导出技术文献信息的表头不一致,为了便于后期提取时的识别处理,如图3所示,步骤S24对所述去重文献列表的表头进行规范化处理具体包括:
S241、识别出去重文献列表表头中表示研究学者的列,使用字符串“研究学者”替换去重文献列表表头中表示研究学者的列名;其中,表示研究学者的列的列名中包括字符串“作者”或“学者”;
S242、识别出去重文献列表表头中表示研究机构的列,使用字符串“研究机构”替换去重文献列表表头中表示研究机构的列名;其中,所述表示研究机构的列的列名中包括字符串“机构”或“单位”;
S243、识别出去重文献列表表头中表示研究关键词的列,使用字符串“研究关键词”替换去重文献列表表头中表示研究关键词的列名;其中,所述表示研究关键词的列的列名中包括字符串“关键词”或“关键字”;
S244、识别出去重文献列表表头中表示发文年份的列,使用字符串“发文年份”替换去重文献列表表头中表示发文年份的列名;其中,所述表示发文年份的列的列名中包括字符串“年”或“年份”;
同时为了便于进行规范化,如果去重文献列表表头的列名不为中文,将列名翻译成中文;
S3、根据所述技术信息汇总列表,生成综合图表数据集;其中,综合图表数据集包括以数据表格和可视化图谱形式展现的图表数据;
为了便于技术人员对技术领域内的技术信息进行综合分析,如图4所示,步骤S3根据所述技术信息汇总列表生成综合图表数据集具体包括:
S31、在所述技术信息汇总列表中,分别识别并提取研究学者、研究机构和研究关键词,得到研究学者列表、研究机构列表和研究关键词列表;
S32、根据所述技术信息汇总列表分别对所述研究学者列表、所述研究机构列表和所述研究关键词列表进行扩展,得到对应的研究学者信息列表、研究机构信息列表和研究关键词信息列表;
S33、按照发文年份,对所述技术信息汇总列表中的技术文献信息进行排序,并按照发文年份生成历年发文数量的直方图、历年研究学者数量的直方图和历年研究机构数量的直方图;
S34、分别遍历所述技术信息汇总列表中的研究学者单元格、研究机构单元格和研究关键词单元格,生成对应的研究学者关系图、研究机构关系图和研究关键词关系图;
S4、根据用户选择输入的内容,生成对应的特定图表数据集进行显示;其中,特定图表数据集包括以数据表格形式展现的研究学者发文列表、研究机构演化列表、研究关键词文献列表和研究机构发文列表,以及以可视化图谱形式展现的研究机构历年发文情况直方图、研究学者历年发文情况直方图和研究关键词历年发文情况直方图;
为了便于技术人员可以对感兴趣的特定方向进行研究,如图5所示,步骤S4根据用户选择输入的内容,生成对应的特定图表数据集具体包括:
S41、判断用户选择输入的内容为研究学者名称时,遍历所述技术信息汇总列表,生成研究学者发文列表以及研究学者历年发文情况直方图;
要对特定的研究学者进行研究,便要了解该学者历年的发文情况,如图6所示,步骤S41遍历所述技术信息汇总列表,生成研究学者发文列表以及研究学者历年发文情况直方图具体包括:
S411、遍历技术信息汇总列表中的技术文献信息,将技术信息汇总列表中研究学者与用户选择输入的研究学者相同的若干条技术文献信息提取到新的空列表中,得到研究学者发文列表;
S412、基于研究学者发文列表,按发文年份分别计算历年的技术文献信息的数量,生成研究学者历年发文情况直方图;
S42、判断用户选择输入的内容为研究机构名称时,遍历所述技术信息汇总列表,生成研究机构发文列表、研究机构历年发文情况直方图以及研究机构演化列表;
要对特定的研究机构进行研究,便要了解该机构历年来的发文情况以及机构的变迁历史,如图7所示,步骤S42遍历所述技术信息汇总列表,生成研究机构发文列表、研究机构历年发文情况直方图以及研究机构演化列表具体包括:
S421、遍历技术信息汇总列表中的技术文献信息,将技术信息汇总列表中研究机构与用户选择输入的研究机构内容相同的若干条技术文献信息提取到新的空列表中,得到研究机构发文列表;
S422、基于研究机构发文列表,按发文年份分别计算历年的技术文献信息的数量,生成研究机构历年发文情况直方图;
S423、基于技术信息汇总列表以及研究机构发文列表,生成研究机构演化列表;
为了便于使技术人员对机构的变迁历史有直观了解,如图8所示,步骤S423基于技术信息汇总列表以及研究机构发文列表,生成研究机构演化列表具体包括:
S4231、将用户选择输入的研究机构作为第一研究机构,遍历所述第一研究机构的研究机构发文列表,识别并取出属于所述第一研究机构的研究学者,得到第一研究学者集;
S4232、将除第一研究机构以外的任一研究机构作为第二研究机构,遍历所述第二研究机构的研究机构发文列表,识别并取出属于所述第二研究机构的研究学者,得到第二研究学者集;
S4233、对比第一研究学者集和第二研究学者集中的研究学者名称,若名称相同的人数达到阈值,则判定第二研究机构与第一研究机构为同一研究机构;
S4234、遍历其他研究机构,找出所有与第一研究机构为同一研究机构的研究机构名称,得到同一研究机构集;
S4235、将所述同一研究机构集中的所有研究机构以发文年份排序,得到研究机构演化列表;
S43、判断用户选择输入的内容为研究关键词时,遍历所述技术信息汇总列表,生成研究关键词文献列表以及研究关键词历年发文情况直方图;
要对特定的研究关键词进行研究,便要了解有关该关键词的历年来发文情况,如图9所示,步骤S43遍历所述技术信息汇总列表,生成研究关键词文献列表以及研究关键词历年发文情况直方图具体包括:
S431、遍历技术信息汇总列表中的技术文献信息,将技术信息汇总列表中研究关键字单元格与用户选择输入的研究关键字内容相同的若干条技术文献信息提取到新的空列表中,得到研究关键词文献列表;
S432、基于研究关键词文献列表,按发文年份分别计算历年的技术文献信息的数量,生成研究关键词历年发文情况直方图。
本实施例中提出的技术文献信息提取方法,根据技术人员想要研究的技术领域进行检索技术文献,并对技术文献进行预处理,进而能够根据预处理后得到的汇总列表进行综合图表数据集的生成,还能够根据技术人员感兴趣的特定的学者或机构或关键词进行特定图表数据集的生成,其中的综合图表数据集和特定图表数据集是以数据表格和可视化图谱形式展现的,便于技术人员对当前领域或对特定的研究学者、研究机构或关键词的发展方向进行分析;整个流程只需要技术人员输入要研究的方向或要研究的学者、机构或关键词,不需要使用多个工具,操作步骤简洁。
实施例2:
此外,本发明实施例1的方法也可以借助于图10所示的技术文献信息提取系统的架构来实现。图10示出了该技术文献信息提取系统的架构。如图10所示,该技术文献信息提取系统可以包括文献信息检索模块1、文献信息处理模块2、综合图表生成模块3和特定图表生成模块4;一些模块还可以有用于实现其功能的子单元,例如在文献信息处理模块2中还包括合并单元21、去重单元22和规范化单元23,在综合图表生成模块3中还包括列表生成单元31、信息列表生成单元32、直方图生成单元33和关系图生成单元34,在特定图表生成模块4中还包括学者研究方向生成单元41、机构研究方向生成单元42和关键词研究方向生成单元43。当然,图10所示的架构只是示例性的,在实现不同的设备时,根据实际需要,可以省略图10示出的计算设备中的一个或至少两个组件。
根据本发明的另一方面,还提供了一种非易失性的计算机可读存储介质,其上存储有计算机可读的指令,当利用计算机执行所述指令时可以执行如前所述的方法。
技术中的程序部分可以被认为是以可执行的代码和/或相关数据的形式而存在的“产品”或“制品”,通过计算机可读的介质所参与或实现的。有形的、永久的储存介质可以包括任何计算机、处理器、或类似设备或相关的模块所用到的内存或存储器。例如,各种半导体存储器、磁带驱动器、磁盘驱动器或者类似任何能够为软件提供存储功能的设备。
所有软件或其中的一部分有时可能会通过网络进行通信,如互联网或其他通信网络。此类通信可以将软件从一个计算机设备或处理器加载到另一个。例如:从视频目标检测设备的一个服务器或主机计算机加载至一个计算机环境的硬件平台,或其他实现系统的计算机环境,或与提供目标检测所需要的信息相关的类似功能的系统。因此,另一种能够传递软件元素的介质也可以被用作局部设备之间的物理连接,例如光波、电波、电磁波等,通过电缆、光缆或者空气等实现传播。用来载波的物理介质如电缆、无线连接或光缆等类似设备,也可以被认为是承载软件的介质。在这里的用法除非限制了有形的“储存”介质,其他表示计算机或机器“可读介质”的术语都表示在处理器执行任何指令的过程中参与的介质。
下面通过一个具体的实施例来说明本发明提供的技术文献信息提取方法。
实施例3:
从知网下载若干个文献的题录信息文件保存在文献题录信息库中,然后由文献题录处理模块对文献题录信息库中的待分析题录信息文件进行处理,得到一个文献题录汇总xls文件,该文件包括待分析文献的题名、作者、单位、文献来源、关键词、摘要、发表时间等信息。
因为知网一个文件只能存储500条文献题录信息,并且随着相关人员不断更新的检索式,会使得信息题录出现重复的冗余信息,增加信息的处理时间,因此采用文献题录处理模块对待分析的文献题录信息文件进行合并去重的。
文献题录处理模块主要对知网下载的文献题录信息库中文件进行合并、去重处理,并将文献按照年份排序,最后生成一个待自动提取技术信息的文献题录汇总信息文件。
第一步合并:由于一次只能保存500条题录信息,因此知网直接下载的题录会有多个xls文件,需要对多个题录文件进行合并。合并的方式为,将第一个文件全部写入新xls文件,从第二个文件开始,从第二行开始写入该新xls文件,直到最后一个文件全部写入新的xls文件,合并文件完成。
第二步去重:下载的题录会存在重复的现象,并且比较经典的文献可能会存在被多个期刊转载的情况,而excel只能处理一行所有列都去重的情况,因此,去重的依据为文献标题一致则保留发表时间最早的文献题录。
第三步排序:将去重后的文献题录按照发表年份升序排序。
对文献题录处理模块生成的文献题录信息汇总列表进行研究学者列表的识别及抽取。
第一步:识别文献题录信息汇总列表中的包含研究学者姓名的单元格内容
第二步:从知网下载的题录信息,作者之间用“;,!”等符号分割,采用re.split()函数将研究学者进行分割,增加到研究学者列表。
第三步:去除重复的姓名。
第四步:去除分割造成的空字符。
最后生成相关研究学者列表。
对文献题录处理模块生成的文献题录信息汇总列表进行研究机构识别及抽取。
第一步:识别文献题录信息汇总列表中的包含研究机构名称的单元格内容;
第二步:从知网下载的题录信息,研究机构之间用“;,!”等符号分割,采用re.split()函数将研究机构进行分割,增加到研究机构列表;
第三步:去除研究机构列表的空字符;
第四步:对研究机构列表进行去重;
第五步:去除研究机构列表中的非研究机构元素;知网下载的研究机构题录信息包含如“计算机辅助工程”、“长沙410073”这类词语不属于研究机构命名实体,因此要进一步去除研究机构列表中的非研究机构元素,流程如图11所示。
将第五步得到的研究机构列表通过停用词表将停用词表中存在的元素去除,然后对列表中每一个元素进行分词,后缀词如果存在于后缀词表中,则将该元素判定为研究机构名。后缀词表中的词包含学院、大学、系、实验室、部队、中心、研究所、研究院、设计部、总体部、公司、局;停用词表和后缀词表都不断加入新词。
对文献题录处理模块生成的文献题录信息汇总列表进行关键词识别及抽取。
第一步:识别文献题录信息汇总列表中的包含关键词的单元格内容;
第二步:从知网下载的题录信息,关键词之间用“;,!”等符号分割,采用re.split()函数将关键词进行分割,增加到关键词列表;
第三步:去除重复的关键词;
第四步:去除分割造成的空字符;
最后生成关键词列表。
将文献题录处理模块得到的题录信息汇总列表逐行按照年份计数,即计算各年份出现的次数,生成历年发文数量的直方图;
读取各年份的研究学者单元格,通过研究学者识别模块得到各年份的研究学者列表,计算各列表元素个数即为各年份研究学者数量,生成历年研究学者数量的直方图;
读取各年份的研究机构单元格,通过研究机构识别模块得到各年份的研究机构列表,计算各列表元素个数即为各年份研究机构数量,生成历年研究机构数量的直方图。
生成研究学者信息列表,研究学者信息列表包含研究学者姓名、发文数量、发文起始年份、发文截止年份,研究学者关联机构。信息列表生成步骤如下:
第一步:遍历文献题录信息汇总列表,得到学科领域研究学者列表。
第二步:遍历研究学者列表,计算研究学者列表各元素在文献题录中的出现次数,为各研究学者的发文数量;
第三步:抽取研究学者列表各研究学者的发文年份,并生成发文年份列表,并将列表各元素统一为int类型,列表中数值最小的年份为发文起始年份,数值最大的为发文截止年份。
第四步:抽取研究学者列表各研究学者的研究机构单元格,生成研究学者关联机构存储到研究学者信息列表中;
第五步:将生成的研究学者信息列表存储为excel文件。
生成研究机构信息列表,研究机构信息列表包含研究机构名、发文数量、发文起始年份、发文截止年份,研究机构关联学者。研究机构信息列表生成步骤如下:
第一步:遍历文献题录信息汇总列表,得到学科领域研究机构列表。
第二步:遍历研究机构列表,计算研究机构列表各元素在文献题录中的出现次数,为各研究机构的发文数量;
第三步:抽取研究机构列表各研究机构的发文年份,并生成发文年份列表,并将列表各元素统一为int类型,列表中数值最小的年份为发文起始年份,数值最大的为发文截止年份。
第四步:从文献题录信息汇总列表中抽取各研究机构的研究学者单元格,将研究机构关联学者存储到研究机构信息列表中;
第五步:将生成的研究机构信息列表存储为excel文件。
生成关键词信息列表,关键词信息列表包含关键词、出现次数、出现年份。关键词信息列表生成步骤如下:
第一步:遍历文献题录信息汇总列表,得到研究关键词列表。
第二步:遍历研究关键词列表,计算研究关键词列表各元素在文献题录中的出现次数。
第三步:抽取各关键词的出现年份单元格,并生成发文年份列表,并将列表各元素统一为int类型。
第四步:将抽取的关键词信息存储为excel文件。
生成研究学者关系网络,生成步骤如下:
第一步:遍历文献题录信息汇总列表,读取研究学者单元格。
第二步:生成单个单元格的研究学者列表。
第三步:如果该单元格的研究学者数量大于1,创建一个迭代器,返回迭代器中所有长度为2的子序列,该子序列为该单元格中共同发文的研究学者关系对。
第四步:遍历所有研究学者单元格,生成研究学者关系对列表。
第五步:将研究学者关系对列表中的所有关系对按照姓名排序,再对列表进行去重处理,生成新的研究学者关系对列表。该列表为研究学者关系矩阵。
第六步:采用pyechats生成研究学者关系共现图。
第六一步:设置节点数据矩阵[{"id":研究学者,"name":研究学者姓名,"symbolSize":设置字号大小,"value":研究学者的发文数量."ItemStyleOpts":图元样式配置}],
第六二步:设置边数据矩阵[{"source":研究学者对的第1个元素,"source":研究学者对的第2个元素}],
第六三步:初始化关系图配置项,最后生成研究学者关系共现图。
生成研究机构关系网络,生成步骤如下:
第一步:遍历文献题录信息汇总列表,读取研究机构单元格。
第二步:生成单个单元格的研究机构列表。
第三步:如果该单元格的研究机构数量大于1,创建一个迭代器,返回迭代器中所有长度为2的子序列,即研究机构关系对。
第四步:遍历所有研究机构单元格,生成研究机构关系对列表。
第五步:将列表中的所有关系对按照机构名称排序,在对列表进行去重处理,生成新的研究机构关系矩阵。
第六步:采用pyechats生成研究关系共现图。
第六一步:设置节点数据矩阵[{"id":研究机构,"name":研究机构名,"symbolSize":设置字号大小,"value":研究机构的发文数量."ItemStyleOpts":图元样式配置}],
第六二步:设置边数据矩阵[{"source":研究机构关系对的第1个元素,"source":研究机构关系对的第2个元素}],
第六三步:初始化关系图配置项,最后生成研究机构关系共现图。
生成关键词关系网络,生成步骤如下:
第一步:遍历文献题录信息汇总列表,读取关键词单元格。
第二步:生成单个单元格的关键词列表。
第三步:创建一个迭代器,返回迭代器中所有长度为2的子序列,即关键词关系对。
第四步:遍历所有关键词单元格,生成关键词关系对列表。
第五步:将列表中的所有关系对按照关键词名称排序,在对列表进行去重处理,生成新的关键词关系矩阵。
第六步:采用pyechats生成研究关系共现图,
第六一步:设置节点数据矩阵[{"id":关键词,"name":关键词名称,"symbolSize":设置字号大小,"value":关键词的出现次数."ItemStyleOpts":图元样式配置}],
第六二步:设置边数据矩阵[{"source":关键词关系对的第1个元素,"source":关键词关系对的第2个元素}],
第六三步:初始化关系图配置项,最后生成关键词关系共现图。
用户可以通过输入研究学者姓名查询到该学者的所有发文题录以及历年发文情况直方图,具体如下:
遍历文献题录信息汇总列表,如果用户查询的研究学者在该行的研究学者单元格中,则将整行题录写入新的EXCEL文件中。最后生成的结果就是查询的研究学者的发文题录。
基于研究学者的发文题录,生成研究学者历年发文情况直方图。
用户通过输入研究机构名可查询到该机构的所有发文题录、研究机构的历年发文情况直方图以及机构发展历史,具体如下:
遍历文献题录信息汇总列表,如果用户查询的研究机构在该行的研究机构单元格中,则将整行题录写入新的EXCEL文件中。最后生成的结果就是查询的研究机构的发文题录。
基于研究机构的发文题录,生成研究机构历年发文情况直方图。
因为一个机构存在更名、缩写、重组等情况,为了方便用户进行研究机构演化分析,系统可以针对特定机构查找其发展历史中的其他机构名称查询,查找该机构的其他名称,实现步骤如下:
第一步:调用研究机构信息列表,找到查询研究机构所在行,抽取研究机构相关研究学者单元格作为list1,
第二步:遍历其他研究机构信息列表,抽取研究机构相关研究学者单元格中的研究学者list2,如果list1和list2存在相同的研究学者人数大于阈值,就认为list1和list2所对应的研究机构为同一机构。
第三步:抽取所有满足第二步条件的研究机构,并抽取其发文起止时间,按照起始发文时间排序呈现给用户。
用户可以通过输入关键词查询到包含该关键词相关文献题录以及历年出现次数情况直方图。具体如下:
遍历文献题录信息汇总列表,如果用户查询的关键词在该行的关键词单元格中,则将整行题录写入新的EXCEL文件中,最后生成的结果就是查询的关键词相关文献题录。
基于关键词相关文献题录,计算关键词历年出现次数情况以辅助用户了解关键词演化趋势。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;本领域的技术人员应该理解,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种技术文献信息提取方法,其特征在于,所述方法包括:
根据用户输入的检索文本,在文献检索网站上检索得到与检索文本对应的若干条技术文献信息;
对所述若干条技术文献信息进行预处理,得到技术信息汇总列表;
根据所述技术信息汇总列表,生成综合图表数据集;
根据用户选择输入的内容,生成对应的特定图表数据集进行显示;
所述综合图表数据集和特定图表数据集包括以数据表格和可视化图谱形式展现的图表数据;
所述对所述若干条技术文献信息进行预处理具体包括:
将若干条技术文献信息以列表文件形式导出,得到若干个文献列表;其中,在所述文献列表文件中,除表头以外每行内容对应一条技术文献信息;
遍历所述若干个文献列表,并将第i个文献列表中的技术文献信息导入第1个文献列表中,得到初始文献列表;其中,1<i<I,I为文献列表文件的数量;
删除所述初始文献列表中重复的技术文献信息,得到去重文献列表;
对所述去重文献列表的表头进行规范化处理,得到技术信息汇总列表;
根据用户选择输入的内容,生成对应的特定图表数据集,便于技术人员对感兴趣的特定方向进行研究,具体包括:
所述特定图表数据集包括研究学者发文列表、研究学者历年发文情况直方图、研究机构发文列表、研究机构历年发文情况直方图、研究机构演化列表、研究关键词文献列表和研究关键词历年发文情况直方图;
判断用户选择输入的内容为研究学者名称时,遍历所述技术信息汇总列表,生成研究学者发文列表以及研究学者历年发文情况直方图;
判断用户选择输入的内容为研究机构名称时,遍历所述技术信息汇总列表,生成研究机构发文列表、研究机构历年发文情况直方图以及研究机构演化列表;
判断用户选择输入的内容为研究关键词时,遍历所述技术信息汇总列表,生成研究关键词文献列表以及研究关键词历年发文情况直方图。
2.根据权利要求1所述的技术文献信息提取方法,其特征在于,所述对去重文献列表的表头进行规范化处理具体包括:
识别出所述去重文献列表表头中表示研究学者的列、表示研究机构的列、表示研究关键词的列和表示发文年份的列;所述表示研究学者的列的列名中包括字符串“作者”或“学者”,所述表示研究机构的列的列名中包括字符串“机构”或“单位”,所述表示研究关键词的列的列名中包括字符串“关键词”或“关键字”,所述表示发文年份的列的列名中包括字符串“年”或“年份”;
如果列名不为中文的先将列名翻译成中文后再进行判断;
使用字符串“研究学者”替换去重文献列表表头中表示研究学者的列名,使用字符串“研究机构”替换去重文献列表表头中表示研究机构的列名,使用字符串“研究关键词”替换去重文献列表表头中表示研究关键词的列名,使用字符串“发文年份”替换去重文献列表表头中表示发文年份的列名。
3.根据权利要求2所述的技术文献信息提取方法,其特征在于,所述根据所述技术信息汇总列表生成综合图表数据集具体包括:
在所述技术信息汇总列表中,分别识别并提取研究学者、研究机构和研究关键词,得到研究学者列表、研究机构列表和研究关键词列表;
根据所述技术信息汇总列表分别对所述研究学者列表、所述研究机构列表和所述研究关键词列表进行扩展,得到对应的研究学者信息列表、研究机构信息列表和研究关键词信息列表;
按照发文年份,对所述技术信息汇总列表中的技术文献信息进行排序,并按照发文年份生成历年发文数量的直方图、历年研究学者数量的直方图和历年研究机构数量的直方图;
分别遍历所述技术信息汇总列表中的研究学者单元格、研究机构单元格和研究关键词单元格,生成对应的研究学者关系图、研究机构关系图和研究关键词关系图。
4.根据权利要求1所述的技术文献信息提取方法,其特征在于,所述研究学者发文列表、研究机构发文列表和研究关键词文献列表的生成流程具体包括:
遍历技术信息汇总列表中的技术文献信息,将技术信息汇总列表中研究学者与用户选择输入的研究学者相同的若干条技术文献信息提取到新的空列表中,得到研究学者发文列表;
遍历技术信息汇总列表中的技术文献信息,将技术信息汇总列表中研究机构与用户选择输入的研究机构内容相同的若干条技术文献信息提取到新的空列表中,得到研究机构发文列表;
遍历技术信息汇总列表中的技术文献信息,将技术信息汇总列表中研究关键字单元格与用户选择输入的研究关键字内容相同的若干条技术文献信息提取到新的空列表中,得到研究关键词文献列表。
5.根据权利要求1所述的技术文献信息提取方法,其特征在于,所述研究学者历年发文情况直方图、研究机构历年发文情况直方图和研究关键词历年发文情况直方图的生成流程具体包括:
基于所述研究学者发文列表,按发文年份分别计算历年的技术文献信息的数量,生成研究学者历年发文情况直方图;
基于所述研究机构发文列表,按发文年份分别计算历年的技术文献信息的数量,生成研究机构历年发文情况直方图;
基于所述研究关键词文献列表,按发文年份分别计算历年的技术文献信息的数量,生成研究关键词历年发文情况直方图。
6.根据权利要求1所述的技术文献信息提取方法,其特征在于,所述研究机构演化列表的生成流程具体包括:
将用户选择输入的研究机构作为第一研究机构,遍历所述第一研究机构的研究机构发文列表,识别并取出属于所述第一研究机构的研究学者,得到第一研究学者集;
将除第一研究机构以外的任一研究机构作为第二研究机构,遍历所述第二研究机构的研究机构发文列表,识别并取出属于所述第二研究机构的研究学者,得到第二研究学者集;
对比第一研究学者集和第二研究学者集中的研究学者名称,若名称相同的人数达到阈值,则判定第二研究机构与第一研究机构为同一研究机构;
遍历其他研究机构,找出所有与第一研究机构为同一研究机构的研究机构名称,得到同一研究机构集;
将所述同一研究机构集中的所有研究机构以发文年份排序,得到研究机构演化列表。
7.一种技术文献信息提取系统,其特征在于,所述系统被处理器运行时执行如权利要求1-6任一项所述方法的步骤。
8.一种计算机可读存储介质,其特征在于,在存储介质中存储有计算机可读的指令,当利用计算机执行所述指令时,执行如权利要求1-6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111086474.9A CN113722472B (zh) | 2021-09-16 | 2021-09-16 | 一种技术文献信息提取方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111086474.9A CN113722472B (zh) | 2021-09-16 | 2021-09-16 | 一种技术文献信息提取方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113722472A CN113722472A (zh) | 2021-11-30 |
CN113722472B true CN113722472B (zh) | 2022-09-09 |
Family
ID=78684087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111086474.9A Active CN113722472B (zh) | 2021-09-16 | 2021-09-16 | 一种技术文献信息提取方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113722472B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114547275B (zh) * | 2022-01-10 | 2023-04-25 | 华南理工大学 | 基于学者研究兴趣知识图谱的学者推荐方法、系统及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521337A (zh) * | 2011-12-08 | 2012-06-27 | 华中科技大学 | 一种基于海量知识网络的学术社区系统 |
CN105550216A (zh) * | 2015-12-03 | 2016-05-04 | 百度在线网络技术(北京)有限公司 | 学术研究信息的搜索方法、挖掘方法及装置 |
CN106897392A (zh) * | 2017-02-04 | 2017-06-27 | 同济大学 | 一种基于知识发现的技术竞争及专利预警分析方法 |
CN110162622A (zh) * | 2019-04-02 | 2019-08-23 | 浙江工业大学 | 基于知识图谱的关于智能问答系统的可视化分析方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2372867A1 (en) * | 1999-05-07 | 2000-11-16 | Carlos Cardona | System and method for database retrieval, indexing and statistical analysis |
CN106776672A (zh) * | 2016-08-30 | 2017-05-31 | 程传旭 | 技术发展脉络图确定方法 |
CN112052411A (zh) * | 2020-08-12 | 2020-12-08 | 南京航空航天大学 | 一种基于爬虫的学术搜索结果可视化方案设计方法 |
-
2021
- 2021-09-16 CN CN202111086474.9A patent/CN113722472B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521337A (zh) * | 2011-12-08 | 2012-06-27 | 华中科技大学 | 一种基于海量知识网络的学术社区系统 |
CN105550216A (zh) * | 2015-12-03 | 2016-05-04 | 百度在线网络技术(北京)有限公司 | 学术研究信息的搜索方法、挖掘方法及装置 |
CN106897392A (zh) * | 2017-02-04 | 2017-06-27 | 同济大学 | 一种基于知识发现的技术竞争及专利预警分析方法 |
CN110162622A (zh) * | 2019-04-02 | 2019-08-23 | 浙江工业大学 | 基于知识图谱的关于智能问答系统的可视化分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113722472A (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210342404A1 (en) | System and method for indexing electronic discovery data | |
US20190236102A1 (en) | System and method for differential document analysis and storage | |
Neudecker et al. | A survey of OCR evaluation tools and metrics | |
US11734782B2 (en) | Automated document analysis for varying natural languages | |
WO2011137386A1 (en) | Systems and methods for semantic search, content correlation and visualization | |
Avasthi et al. | Techniques, applications, and issues in mining large-scale text databases | |
US11393237B1 (en) | Automatic human-emulative document analysis | |
US10528609B2 (en) | Aggregating procedures for automatic document analysis | |
Fu et al. | Automatic record linkage of individuals and households in historical census data | |
US11887011B2 (en) | Schema augmentation system for exploratory research | |
JP2016212533A (ja) | 文書解析装置、プログラム | |
Kim et al. | Automatic annotation of bibliographical references in digital humanities books, articles and blogs | |
CN113722472B (zh) | 一种技术文献信息提取方法、系统及存储介质 | |
Nanba et al. | Bilingual PRESRI-Integration of Multiple Research Paper Databases. | |
US11676231B1 (en) | Aggregating procedures for automatic document analysis | |
Mohemad et al. | Performance analysis in text clustering using k-means and k-medoids algorithms for Malay crime documents | |
CN113806311B (zh) | 基于深度学习的文件分类方法、装置、电子设备及介质 | |
CN113742450B (zh) | 用户数据等级落标的方法、装置、电子设备和存储介质 | |
CN115098619A (zh) | 资讯去重方法、装置、电子设备及计算机可读取存储介质 | |
Prathyusha et al. | Normalization Methods for Multiple Sources of Data | |
CN112733537A (zh) | 文本去重方法、装置、电子设备及计算机可读存储介质 | |
Wen et al. | Research on hybrid recommendation model based on PersonRank algorithm and TensorFlow platform | |
CN113505117A (zh) | 基于数据指标的数据质量评估方法、装置、设备及介质 | |
JP7488207B2 (ja) | 将来事象推定システム、および将来事象推定方法 | |
US11960824B2 (en) | Document creation system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220816 Address after: 100089 Beike building, 27 Xisanhuan North Road, Haidian District, Beijing Applicant after: Beijing Science and Tech. Research Inst. Address before: No. 140, Xiwai street, Xicheng District, Beijing 100044 Applicant before: BEIJING INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |