CN109871424A

CN109871424A - 一种中文学术研究热点区域信息自动提取和地图制作方法

Info

Publication number: CN109871424A
Application number: CN201910149592.6A
Authority: CN
Inventors: 胡云锋; 韩月琪
Original assignee: Institute of Geographic Sciences and Natural Resources of CAS
Current assignee: Institute of Geographic Sciences and Natural Resources of CAS
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2019-06-11
Anticipated expiration: 2039-02-28
Also published as: CN109871424B

Abstract

本发明公开了一种面向中文学术资源的研究热点区域信息自动提取和地图制作方法。本发明首先爬取海量指定主题的中文文献，经网页解析获得标题、摘要、关键词等信息；对上述文本信息进行中文分词、地名实体识别、地名标准化等操作，明确这些特定文献所指向的研究区域，并统计各研究区域的文献数量；同时根据文献空间定位结果，继续统计涉及该区域的全部文献的数量；最后基于综合指数模型计算研究热度值，并将结果以专题地图形式展示。本发明能够自动完成对海量中文文本的信息抽取、热度计算和地图制图，理解特定主题研究工作的空间分布特征。

Description

一种中文学术研究热点区域信息自动提取和地图制作方法

技术领域

本发明属于信息处理技术领域，具体为一种中文学术研究热点区域信息自动提取和地图制作方法。

背景技术

随着信息化及互联网水平的不断发展，越来越多的科研成果得以被整合及存储到结构化的知识数据库中。面对海量的研究成果发表物数据，传统通过人工阅读抽取信息定位研究热点的方式显然已经不可行，文本处理技术及自然语言理解技术的发展为快速而准确的从大规模文献数据中抽取可用信息提供了可能性。目前已存在的EnvMine系统提供了对海量文本的处理方法，并完成了对物理化学量的空间定位，但仍存在功能上的不足，主要表现在：

(1)EnvMine更适合英文文本的处理，首先，其中识别物理化学变量所使用的标准词汇列表依靠英文词汇和语境建立，导致使用该词汇列表无法对中文文章中的变量进行匹配；其次在确定地理位置的过程中，识别地名的方法也根据英文语法建立。在英文中地理位置是专有名词，以大写字母开头，这在中文文本中是不成立的。以上两处语言限制导致EnvMine无法对中文文本进行处理；

(2)EnvMine主要针对采样点进行识别，能够涵盖的主题十分有限，只适用于生态学领域的研究人员；

(3)EnvMine的结果展示了采样点的空间分布，但未能量化地表示其分布密度等特征。

因此，本发明旨在提供一种可自动生成特定主题研究热点空间分布的文本信息抽取方法。

发明内容

针对上述背景技术存在的问题，本发明旨在提供一种操作简便、可获得指定主题研究热点空间分布、为任意领域的使用者提供服务、且具有可视化功能的信息自动提取和地图制作方法。

为此，本发明采用以下技术方案：一种中文学术研究热点区域信息自动提取和地图制作方法，其中包括数据库模块、数据获取及预处理模块、文本空间定位模块、研究热度计算模块和成果展示模块。

作为对上述技术方案的补充和完善，本发明还包括以下技术特征。

所述的数据库模块基于SQLite构建，数据库中包括项目信息表、标准地名数据表、研究背景值表、文献信息表、研究热度表、已匹配地名表、未匹配地名表。

所述的项目信息表包含单次检索操作项目的名称、ID及开始时间等字段；所述的标准地名数据表依据中国县级行政区划图、1:25万基础地理数据库及中国历史时期县级行政区划数据库建立；所述的研究背景值表中采用某一地区地名在数据源平台中不分主题检索所得的总文献数量作为该地区的“研究背景值”；所述的文献信息表、研究热度表、已匹配地名表、未匹配地名表根据单次检索操作项目的数据存储需求建立，首先在项目信息表中插入本次检索操作项目的名称及日期，自动获得唯一ID，然后根据该ID值建立文献信息表、研究热度表、已匹配地名表、未匹配地名表等系列数据表。

所述的数据获取及预处理模块负责大规模文本数据的获取及预处理，并将获取的数据存储到数据库模块。其中包含的具体方法如下：

一、确定检索主题及方式，输入项目名称及存储位置、提供欲检索的关键词，并选择检索范围(全文/主题/篇名/关键词/摘要)及关键词组合方式(或者/并且/不含)；

二、数据获取，基于HTTP GET/POST方法，根据上述检索主题及方式对相关文献数据进行获取，具体过程为：

(1)以GET方式访问CAJD高级检索页，获得网页cookie并保存；

(2)以POST方式连续访问CNKI检索处理器页及检索结果列表页，访问参数均参照CAJD高级检索页检索条件组设置；

三、网页解析获取文本，首先对(2)中所述检索结果列表页返回的内容进行解析，获得检索列表，并对列表中包含的文献篇名、链接、作者、刊名、发表时间等信息进行解析；其次以GET方式访问解析得到的文献链接，对访问返回的页面进行分析，获取文献关键词及摘要；

四、数据存储，将上述步骤三中解析网页后获得的各项字段插入到所述的数据库模块建立的各数据表中。

所述的文本空间定位模块负责对文本中地名词汇进行识别、提取及标准化，其具体处理方法如下：

一、地名实体词识别。首先基于开源Java自然语言处理算法包HanLP中的分词模块与实体词识别模块，对爬取到的文本关键词及摘要数据进行中文分词及地名实体词识别；进而对识别出的地名进行预处理，预处理过程包括对同一篇文献中重复出现的地名进行去重，以及对被拆分成多个地名的组合地名进行合并；

二、地名标准化、行政区空间包容关系判断及地名频次汇总统计。将多层级、不规范的、存在多义性的地名词汇，统一到县级、规范的、唯一性的地名上，以便科学合理地为每一个县域单元赋予其在研究论文中出现的频次数。为此，本模块建立了“逐级覆盖、累加统计”的地名匹配流程，从而将不同级别地名(省域地名、地区地名、县域地名)、或者同一地名的不同表达形式(全称、简称、别称)进行准确识别、合理统计，并对识别统计结果进行归一化处理，具体步骤如下：

(1)获取某篇文献摘要地名预处理后的全部地名列表T_List，对T_List进行县级地名循环判断：判断某待标准化地名T_i中是否含有省级地名词汇，若包含，去掉该省级地名词汇，将剩余部分作为新的待标准地名，与该省级词汇下属的所有县级地名词汇进行KMP算法模糊匹配；若T_i中不包含省级地名词汇，则与标准地名数据库中全部县级地名词汇进行模糊匹配。匹配规则为当T_i字符串有60％以上的连续部分与标准地名字符串相同时，认为T_i与该标准地名一致。如果匹配成功，为被匹配到的该县级词T_County的词频加1，同时获取该县级词上属市级地名词汇T_Prefecture及省级地名词汇T_Province，并从T_List列表中删除当前T_i；对T_List中的剩余待匹配地名进行循环查找，如果包含T_Prefecture及T_Province，对被包含的地名词进行剔除；

(2)对剩余T_List进行市级地名循环判断：判断某待标准化地名T_i中是否含有省级地名词汇，若包含，去掉该省级地名词汇，将剩余部分作为新的待标准地名，与该省级词汇下属的所有市级地名词汇进行精确匹配；若T_i中不包含省级地名词汇，则与标准地名数据库中全部市级地名词汇进行精确匹配；如果匹配成功，为被匹配到的该市级地名词汇T_Prefecture的词频加1，同时获取该市级地名词汇的其他别称以及该市级地名词汇上述省级地名词汇T_Province，并从T_List列表中删除当前T_i；对T_List中的剩余待匹配地名进行循环查找，如果包含该市级地名词汇T_Prefecture的别名及省级地名词汇T_Province，对被包含的地名词汇进行剔除；

(3)对剩余T_List进行省级地名循环判断：判断某待标准化地名T_i是否是省级地名词汇，如果匹配成功，为被匹配到的该省级地名词汇T_Province的词频加1，同时获取该省级词汇的别称，并从T_List中删除当前T_i。对T_List列表中的剩余待匹配地名进行循环查找，如包含该省级地名词汇的别称，对被包含的地名词汇进行剔除；

(4)若经过上述三步匹配后，T_List中仍包含未匹配到的词汇，将该地名及当前文献ID保存到数据库模块中的未匹配地名表中。

所述的研究热度计算模块负责在地名标准化之后，对各地名的出现频次进行叠加，并根据研究热度综合指数模型对各县级单元的研究热度进行计算，具体方法如下：首先，对地名出现频次进行叠加，将全部的地名频次汇总到县级单元上，叠加过程为对省、市两级表进行遍历，对每一个省级或市级地名，将其频次叠加到其下属全部县级地名词汇的频次上；其次，对各县级单元的研究热度进行计算。为避免由于各地区“信息鸿沟”所导致的研究热度直接频次的数据偏差，以综合考虑地名绝对热度和地名相对热度2个因子的综合热度指数作为研究热度的指标，其具体计算公式如下：

上式中，Q是A主题热度综合指数。N_gd为该县域在A主题检索中出现的总次数，也即是该县域在研究中的绝对热度；N_all是不限定主题检索后，该县域名称在全部论文中出现的次数；即为该县域的相对热度；Q*是标准化A主题研究热度综合指数，Q*数值在0-1之间；max(Q)是Q的最大值，min(Q)是Q的最小值。

所述的成果展示模块负责完成研究热度空间制图，将研究热度计算模块的结果进行空间可视化；对于使用网络版的用户，将可视化结果以邮件形式发送，具体步骤如下：将研究热度计算模块中的研究热度计算结果写入已经预先存储的shp格式矢量空间数据；根据用户的需求，可将上述格式化电子文档作为邮件的附件通过POP3、SMTP等协议发送到用户指定的邮箱中。

上述所有模块中，只需对数据获取及预处理模块中的检索主题及方式进行填写，其余部分均可自动完成。

本发明可以达到以下有益效果：本发明能够自动完成对海量中文文本的信息抽取，只需要对检索主题进行简单设置就可以获取该主题当前的研究现状空间分布。本发明可适用于任意领域的研究人员；本发明所包含的文本空间定位模块可以准确的获得每个文本中地名词汇信息的空间位置；本发明所包含的研究热点计算模块定量的获得全国各地区的研究热度，并以专题图的方式展示。

附图说明

图1为一种检索主题及方式设定示例示意图。

图2为本发明的系统示意图。

图3为地名标准化流程图

具体实施方式

下面结合附图对本发明的具体实施方式进行详细描述。

实施例，结合图1，本发明以中国知网(http://www.cnki.net/)为数据源，对特定主题的相关文献进行数据爬取，经网页解析获得标题、摘要、关键词等可用文本信息，通过对上述文本进行中文分词、地名实体识别、地名标准化等操作后对该文献进行空间定位，而后对全部已定位文献进行空间统计，对全部地区进行研究热度计算，最终获取某主题研究热点的空间分布，并专题图形式表达。具体如下：

S1：数据库模块。本方法所使用的数据库基于SQLite构建，其中包含项目信息表、标准地名数据表、研究背景值表、文献信息表、研究热度表数据表、已匹配地名表、未匹配地名表等多个数据表。

S101：标准地名库建立。根据国家地图出版社提供的2012年版中国县级行政区划图建立了标准地名数据库。考虑到行政区划的历史演变，同时依据国家测绘局提供的1:25万基础地理数据库、科技部地球系统科学数据共享平台提供的中国历史时期县级行政区划数据库，对部分地名数据进行了修订和别名补充。

其中，全部的标准地名被划分为省、市、县三级，除标准名称外，还包含了各地名的简称、别称以及行政编码等。具体示例见表1至表3。

表1省级标准地名表(province)存储示例

表2市级标准地名表(city)存储示例

表3县级标准地名表(county)存储示例

S102：研究背景值获取。为了剔除由于各地区社会经济及网络基础设施等问题带来的数据偏差问题，采用某一地区地名在数据源平台(中国知网)中不分主题检索所得的总文献数量作为该地区的“研究背景值”。

S103：单次检索结果数据建表。根据单次检索操作项目的数据存储需求建立数据表，首先在项目信息表(project)数据表中插入本次检索项目的名称及日期，获得唯一项目ID值(projectID)。然后根据该项目ID值(projectID)建立文献信息表(fileinfo_projectID)、研究热度表(number_projectID)、已匹配地名表(matched_projectID)、未匹配地名表(unmatched_projectID)等系列数据表。

S2：数据获取及预处理模块。该模块主要负责大规模文本数据的获取及预处理，并将获取的数据存储到S103模块建立的数据库中。

S201：确定检索主题及方式。输入项目名称及存储位置、提供欲检索的关键词，并选择检索范围(全文/主题/篇名/关键词/摘要)及关键词组合方式(或者/并且/不含)。图1为一种检索主题及方式设定示例。

S202：数据获取。基于HTTP GET/POST方法，以中国知网学术期刊数据主页为种子节点，按照S201中设定的主题及方式对相关文献数据进行获取。具体过程为：

(1)以GET方式访问CAJD高级检索页(http://kns.cnki.net/kns/brief/result.aspx？dbprefix＝CJFQ)，获得网页cookie并保存；

(2)以POST方式连续访问CNKI检索处理器页(http://epub.cnki.net/KNS/request/SearchHandler.ashx？action＝&NaviCode＝*&)及检索结果列表页(http://epub.cnki.net/kns/brief/brief.aspx？)，访问参数均参照CAJD高级检索页检索条件组设置，表4为某一组检索条件的变量名称、含义及其取值说明，表中的除value以外的其他变量取值均以“关键词1”为例进行说明。

表4检索条件变量名称、含义及其取值说明(关键词取值以第一组为例)

S203：网页解析获取文本。首先对S202中检索结果列表页返回的内容进行解析，获得检索列表。对列表中包含的文献篇名、链接、作者、刊名、发表时间等信息进行解析。

其次通过GET方式访问解析到的文献链接，对返回页面进行分析，获取文献关键词、摘要等内容。

S204：数据存储。将S203中获得的各项字段插入到S103建立的各数据表中。表5为数据库中存储的文献信息表(fileinfo_projectID)各字段及其说明。

表5文献信息表(fileinfo_projectID)存储字段说明

S3：文本空间定位。该模块主要完成对文本中地名词汇的识别、提取及标准化。由于研究人员不同的写作习惯，文献中存在的地名可能是不规范的，因此如何将多层级、不规范的、存在多义性的地名词汇，统一到县级、规范的、唯一性的地名上，是该模块需要实现的关键问题。

S301：地名实体词识别。对爬取到的文本关键词及摘要数据进行中文分析及地名实体词识别，该过程主要基于开源Java自然语言处理算法包HanLP中的分词模块与实体词识别模块实现。

对识别出的地名进行预处理，该过程主要包括对同一篇文献中重复出现的地名进行去重，以及对被拆分成多个地名的组合地名进行合并。

S302：地名标准化。在该过程中，需要同时开展行政区空间包容关系判断和地名频次汇总统计，目的是将多层级、不规范的、存在多义性的地名词汇，统一到县级、规范的、唯一性的地名上，以便科学合理地为每一个县域单元赋予它在研究论文中出现的频次数。为此，本模块建立了“逐级覆盖、累加统计”的地名匹配流程，从而将不同级别地名(省域地名、地区地名、县域地名)、或者同一地名的不同表达形式(全称、简称、别称)进行准确识别、合理统计，并对识别统计结果进行归一化处理，具体的匹配流程如图3所示：

S4：研究热度计算。地名标准化之后，对各地名的出现频次进行叠加，并根据研究热点模型对各县级单元的研究热度进行计算。

S401：多指标研究热度计算。首先，对地名出现频次进行叠加，将全部的地名频次汇总到县级单元上。叠加过程为对省、市两级表进行遍历，对每一个省级或市级地名，将其频次叠加到其下属全部县级地名词汇的频次上。

其次，对各县级单元的研究热度进行计算。为避免由于各地区“信息鸿沟”所导致的研究热度直接频次的数据偏差，选用“相对热度”，即直接频次与S102中的研究背景值作为的比值作为研究热度的指标。这种方法消除了地名绝对热度衡量方法中由于“信息鸿沟”导致的认知偏差，具有重要优点，但同时也存在指示间接、区分度不够、灵敏性不足的问题。

因此，既要避免区域发展过程中客观存在的信息鸿沟所导致的问题，同时也要避免考虑比值化后导致区分度下降、灵敏性降低的问题，一个合理的模型应该同时兼顾地名绝对热度和地名相对热度。因此，本方法提出了综合考虑地名绝对热度和地名相对热度2个因子的研究热度计算模型，具体计算方式如下：

上式中，Q是A主题综合热度指数。N_gd为该县域在A主题检索中出现的总次数，也即是该县域研究的绝对热度；N_all是不限定主题检索后、该县域名称在全部论文中出现的次数，即为该县域的相对热度；Q*是标准化A主题研究热度综合指数，Q*数值在0-1之间；max(Q)是Q的最大值，min(Q)是Q的最小值。

S5：成果展示。该模块主要完成研究热度空间制图，将S401中的结果进行空间可视化，以专题图的形式呈现。对于使用网络版的用户，将制图结果以邮件形式发送

S501：研究热度结果制图。将S401中的研究热度计算结果写入已经预先存储的shp格式矢量空间数据。

S502：电子文档发送到指定系统。根据用户的需求，可将上述格式化电子文档作为邮件的附件通过POP3、SMTP等协议发送到用户指定的邮箱中。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种中文学术研究热点区域信息自动提取和地图制作方法，其特征在于：所述的中文学术研究热点区域信息自动提取和地图制作方法包括数据库模块、数据获取及预处理模块、空间定位模块、研究热度计算模块和成果展示模块。

2.根据权利要求1所述的一种中文学术研究热点区域信息自动提取和地图制作方法，其特征在于：所述的数据库模块基于SQLite构建，数据库中包括项目信息表、标准地名数据表、研究背景值表、文献信息表、研究热度表、已匹配地名表、未匹配地名表。

3.根据权利要求2所述的数据库模块，其特征在于：所述的项目信息表包含单次检索操作项目的名称、ID及开始时间等字段；所述的标准地名数据表依据中国县级行政区划图、1:25万基础地理数据库及中国历史时期县级行政区划数据库建立；所述的研究背景值表中采用某一地区地名在数据源平台中不分主题检索所得的总文献数量作为该地区的“研究背景值”；所述的文献信息表、研究热度表、已匹配地名表、未匹配地名表根据单次检索操作项目的数据存储需求建立，首先在项目信息表中插入本次检索操作项目的名称及日期，自动获得唯一ID，然后根据该ID值建立文献信息表、研究热度表、已匹配地名表、未匹配地名表等系列数据表。

4.根据权利要求1所述的一种中文学术研究热点区域信息自动提取和地图制作方法，其特征在于：所述的数据获取及预处理模块负责大规模文本数据的获取及预处理，并将获取的数据存储到数据库模块。

5.根据权利要求4所述的数据获取及预处理模块，其特征在于：

一、确定检索主题及方式，输入项目名称及存储位置、欲检索的关键词，并选择检索范围及关键词组合方式；

(1)以GET方式访问CAJD高级检索页，获得网页cookie并保存；

三、网页解析获取文本。首先对(2)中所述检索结果列表页返回的内容进行解析，获得检索列表，并对列表中包含的文献篇名、链接、作者、刊名、发表时间等信息进行解析；其次以GET方式访问解析得到的文献链接，对访问返回的页面进行分析，获取文献关键词及摘要；

6.根据权利要求1所述的一种中文学术研究热点区域信息自动提取和地图制作方法，其特征在于：所述的文本空间定位模块负责对文本中地名词汇进行识别、提取及标准化，其具体处理方法如下：

二、地名标准化、行政区空间包容关系判断及地名频次汇总统计。目的在于将多层级、不规范的、存在多义性的地名词汇，统一到县级、规范的、唯一性的地名上，具体步骤如下：

7.根据权利要求1所述的一种中文学术研究热点区域信息自动提取和地图制作方法，其特征在于：所述的研究热度计算模块负责在地名标准化之后，对各地名的出现频次进行叠加，并根据研究热度综合指数模型对各县级单元的研究热度进行计算。具体方法如下：首先，对地名出现频次进行叠加，将全部的地名频次汇总到县级单元上，叠加过程为对省、市两级表进行遍历，对每一个省级或市级地名，将其频次叠加到其下属全部县级地名词汇的频次上；其次，对各县级单元的研究热度进行计算，以综合考虑地名绝对热度和地名相对热度2个因子的综合热度指数作为研究热度的指标，其具体计算公式如下：

8.根据权利要求1所述的一种中文学术研究热点区域信息自动提取和地图制作方法，其特征在于：所述的成果展示模块负责完成研究热度空间制图，对研究热度计算模块的结果进行空间可视化；对于使用网络版的用户，将可视化结果以邮件形式发送，具体步骤如下：将研究热度计算模块中的研究热度计算结果写入已经预先存储的shp格式矢量空间数据；根据用户的需求，可将上述格式化电子文档作为邮件的附件通过POP3、SMTP协议发送到用户指定的邮箱中。

9.根据权利要求1所述的一种中文学术研究热点区域信息自动提取和地图制作方法，其特征在于：上述所有模块中，只需对数据获取及预处理模块中的检索主题及方式进行填写，其余部分均可自动完成。