CN105005556A

CN105005556A - 一种基于地质大数据的标引关键词提取方法和系统

Info

Publication number: CN105005556A
Application number: CN201510452437.3A
Authority: CN
Inventors: 梁元; 郭科; 唐菊兴
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Priority date: 2015-07-29
Filing date: 2015-07-29
Publication date: 2015-10-28

Abstract

一种基于地质大数据的标引关键词提取方法和系统，所述方法包括步骤：对文献进行导入，地质资料格式转换，句子划分，词性标注和位置标记；对切分后的文献，赋予权重系数；采用关键词挖掘算法，对关键词进行初步挖掘提取；对提取出关键词短语进行加权运算，得到各个短语的综合权值；根据综合权值大小进行初步刷选，降低待确定短语个数；将短语与词库进行匹配，找出词库中与之匹配或较为规范的术语；将术语与文献进行关联度计算，确定术语的关联度大小,根据关联度大小进行再次刷选;最后按照行业特点、高度相关性、特性等对术语进行排序，最终确定关键词的次序。该方法能考虑到文件的背景和关联性，尽量抛弃空泛的关键词，提供比较全面地反映文献核心内容的关键词，而且按照一定的逻辑顺序排序,从而为文件检索，提高检索效率提供了便利,是一种高效的地质大数据的标引关键词提取方法。

Description

一种基于地质大数据的标引关键词提取方法和系统

技术领域

本发明涉及地质大数据的标引技术领域，尤其涉及一种基于地质大数据的标引关键词提取方法和系统。

背景技术

我国地质数据主要包括地质资料、地学文献、地质数据库和源自网络的地质相关数据。全国范围内地质资料总量43万种，其中全国地质资料馆保藏12万8千种，覆盖32个省、市、自治区，海域，涉及我国周边地区(国家)、极地、远洋等，包含1952年全国地质资料馆成立以来的区域地质资料和矿产勘查资料。全国馆现有电子数据10万种，电子文件有大约400万件，总电子数据文件数约6259万个，保存的电子数据格式复杂，主要有：JPG、PDF、Word、Excel、WPS、EPS、TIF、MapGIS、AutoCAD、CGIS、CorelDraw、Photoshop、MapInfo、Surfer、ArcGIS等文件格式。地质图书馆目前拥有的数字资源类型包括图书、期刊、论文等数字化馆藏文献70多万册，数据总量达到105TB。

随着我国地质信息化的不断深入，地质数据的数据量飞速增长，采集到到的数据也是各种各样，例如地形地貌、地层岩性、地质构造、以及各种物探、化探、遥感资料等，将这些数据分类，又可以分为地理信息数据、区域地质数据、水文地质数据、工程地质数据、矿产资源数据、地质灾害数据、地球物理数据、地球化学数据、矿产勘查数据、矿产开发数据等，如果按数据类型来分，又分为矢量图形、属性数据表、栅格数据、影像数据、文本数据等。地质数据除了传统的地质报告、图件、表格外，也出现了大量图片和视频等格式的数据。数据类型包括关系型结构化数据库、非结构化索引文件、PDF文件、图片、视频等。地质数据库已经成为我国地质工作数据的主流，尤其是以潜力评价数据库为代表的大型数据涉及到了区域地质、地质矿产、物化遥等多学科多专业，基本覆盖所有开展地质工作的区域。由于地质原始数据数量巨大、种类繁多且结构复杂，其多源性、离散性和定性特征给地质资料整理带来很大的困难。

在建立地质大数据的同时，为了方便数据和文件的检索，需要对文件建立标引关键词，传统的标引方法，一般使用作者提供的关键词，或者采用词频算法，使用频率最高的词，作为标引关键词。然而这两种提供的关键词中，容易出现几个问题：第一、一些作者未意识到关键词标引的重要性，从文章随意选取几个词语作为关键词，造成关键词的漏标、滥标；第二、有的关键词随意排列，主次不分，毫无层次和逻辑性；第三、提供的关键词选取没有独立检索意义的泛指词作为关键词，缺乏对文章内容的专指性；这样提供的关键词，在检索系统中，导致在进行检索时，很难在数据库中找出所需的准确信息。

本发明提出一种基于地质大数据的标引关键词提取方法和系统，可以将文献切分、关键词挖掘提炼、关键词匹配关联排除、关键词排序优化一系列的工作自动完成，为纷繁杂乱的地质大数据的整理，提供一种快速、简便的解决方法。该方法能考虑到文件的背景和关联性，尽量抛弃空泛的关键词，提供比较全面地反映文献核心内容的关键词，而且按照一定的逻辑顺序排序,从而为文件检索，提高检索效率提供了便利,是一种高效的地质大数据的标引关键词提取方法。

发明内容

本发明解决的问题是文献搜索标引的关键词中出现文献关键词漏标、滥标，关键词随意排列毫无层次和逻辑性，或者选取的关键词缺乏对文章内容的专指性等一系列问题。

为解决上述问题，本发明技术方案提供本发明提出一种基于地质大数据的标引关键词提取方法和系统，可以将文献切分、关键词挖掘提炼、关键词匹配关联排除、关键词排序优化一系列的工作自动完成，为纷繁杂乱的地质大数据的整理，提供一种快速、简便的解决方法。

一、体系结构

本发明提出一种基于地质大数据的标引关键词提取方法和系统包括4个部分：文件预处理模块、关键词挖掘提炼模块、关键词匹配关联排除模块、关键词排序优化模块。如图1所示：

(1)文件预处理模块，用于将文献导入到系统中，并进行格式转换，对标题、摘要、正文进行句子划分，成为独立的语言单元，然后将切分后的语言单元进行词性标注和位置标记；

(2)关键词挖掘提炼模块，采用加权挖掘算法，对文献进行关键词挖掘，得到采用加权计算法对短语的频次、出现的位置、词长等因素，对短语进行加权运算，得到各个短语的权值，再依据权值大小，对短语进行提炼优化，排除权值较小的短语；

(3)关键词匹配关联排除模块，将短语与词库进行匹配，找出词库中与之匹配或较为规范的术语，再将术语与文献进行关联度计算和关联程度进行分析，确定术语与本文献关联大小；

(4)关键词排序优化模块，按照行业特点、高度相关性、特性等进行加权排序运算，最终确定关键词的次序。

二、方法流程

本发明提出一种一种基于地质大数据的标引关键词提取方法。可以将文献切分、关键词挖掘提炼、关键词匹配关联排除、关键词排序优化一系列的工作自动完成，为纷繁杂乱的地质大数据的整理，提供一种快速、简便的解决方法。该方法能考虑到文件的背景和关联性，尽量抛弃空泛的关键词，提供比较全面地反映文献核心内容的关键词，而且按照一定的逻辑顺序排序,从而为文件检索，提高检索效率提供了便利,是一种高效的地质大数据的标引关键词提取方法。

本发明提出一种基于地质大数据的标引关键词提取方法，所述方法包括步骤：

1)对文献进行导入，地质资料格式转换，句子划分，词性标注和位置标记；

2)对切分后的文献，赋予权重系数；采用关键词挖掘算法，对关键词进行初步挖掘提取；

3)对提取出关键词短语进行加权运算，得到各个短语的综合权值；

4)根据综合权值大小进行初步刷选，降低待确定短语个数；

5)将短语与词库进行匹配，找出词库中与之匹配或较为规范的术语；

6)将术语与文献进行关联度计算，确定术语的关联度大小,根据关联度大小进行再次刷选；

7)最后按照行业特点、高度相关性、特性等对术语进行排序，最终确定关键词的次序。

与现有技术相比，本发明的技术方案具有以下优点：

该方法能考虑到文件的背景和关联性，尽量抛弃空泛的关键词，提供比较全面地反映文献核心内容的关键词，而且按照一定的逻辑顺序排序,从而为文件检索，提高检索效率提供了便利,是一种高效的地质大数据的标引关键词提取方法。

附图说明

图1是本发明实施例提供一种基于地质大数据的标引关键词提取方法的流程示意图；

图2是本发明实施例提供一种基于地质大数据的标引关键词提取方法和系统结构示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明。

如背景技术所述，本发明解决的问题是文献搜索标引的关键词中出现文献关键词漏标、滥标，关键词随意排列毫无层次和逻辑性，或者选取的关键词缺乏对文章内容的专指性等一系列问题。针对上述问题，本发明技术方案提供本发明提出一种基于地质大数据的标引关键词提取方法，可以将文献切分、关键词挖掘提炼、关键词匹配关联排除、关键词排序优化一系列的工作自动完成，为纷繁杂乱的地质大数据的整理，提供一种快速、简便的解决方法。

实现基于地质大数据的标引关键词提取方法，请参考图1，图1是本发明实施例提供的基于地质大数据的标引关键词提取方法流程示意图。

如图1所示，首先执行步骤S101，对文献进行导入，地质资料格式转换，句子划分，词性标注和位置标记；

将文献导入，将地质资料进行格式转换，依据标点符号对标题、摘要、正文进行句子划分，根据标点符、换行符将句子切分为独立的词语，再将切分后的语言单元进行词性标注和位置标记，词性标注就是采用适当的方法，根据句子中的上下文信息给句中的每个词确定一个最为合适的词性标记。汉语词汇可分为实词和虚词两大类。实词包括:名词(含方位词)、动词、形容词(含颜色词)、数词、量词、代词六大类。虚词包括:副词、介词、连词、助词、象声词六大类。位置标志，确定记录位置信息的方式以及各个位置的词在反映主题时的相对重要性。

如图1所示，首先执行步骤S102，对切分后的文献，赋予权重系数；

对切分后的文献，赋予权重系数，根据文献不同的位置，赋予不同的权值λ_i；出现在标题中的词比出现在段首和段尾中的词更能反映文献的主题，而出现在段首中的词比出现在段尾中的词在反映文献主题方面更有价值。一般标题的权值最高，关键字第二，摘要排在第三，正文内容，根据文章先后，先后权值依次降低。

如图1所示，首先执行步骤S103，采用关键词挖掘算法，对关键词进行初步挖掘提取；

采用关键词挖掘算法，例如关联规则、基于共现概率的关联挖掘算法、词频-反文档频率和交互信息测量等方法，不限于上面算法，进行挖掘提取，从文献中提取短语若干个，个数需要合适，为后面提炼优化预留空间。

如图1所示，首先执行步骤S104，对提取出关键词短语进行加权运算，得到各个短语的综合权值；

综合考虑短语的频次、出现的位置、词长等因素，对提取出短语进行加权运算，得到各个短语的综合权值w_i。

采用的公式：

w_{i} = \frac{{tf}_{i} λ_{i} * L * l o g (N / n_{i})}{\sqrt{Σ_{i = 1}^{n} {({tf}_{i} * λ_{i} * L * 1 o g (N / n_{i}))}^{2}}}

其中，tf_i表示特征项t在文档中出现的频率；n_i表示包含特征项t的文档数；L为词长取值；N为文档集合中的文档数量，λ_i为权重系数。

如图1所示，首先执行步骤S105，根据综合权值大小进行初步刷选，降低待确定短语个数；

根据计算出综合权值w_i大小进行刷选，然后提取权值较大的若干个短语。

如图1所示，首先执行步骤S106，将短语与词库进行匹配，找出词库中与之匹配或较为规范的术语；

将短语与词库进行匹配，找出词库中与之匹配或较为规范的术语，匹配方法是按照一定策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。

其基本思想为：假定分词词典中的最长词有i个汉字字符，则用被处理文档的当前字串中的前i个字作为匹配字段，查找字典。若字典中存在这样的一个i字词，则匹配成功，匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词，则匹配失败，将匹配字段中的最后一个字去掉，对剩下的字串重新进行匹配处理，如此进行下去，直到匹配成功，即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配，然后取下一个i字字串进行匹配处理，直到文档被扫描完为止。

如图1所示，首先执行步骤S107，将术语与文献进行关联度计算，确定术语的关联度大小,根据关联度大小进行再次刷选；

再将术语与文献进行关联度计算和关联程度进行分析，确定术语与本文献关联大小；关联度计算采用改进的关联规则apriori算法对关键词与文献的关联程度进行计算分析，关联程度主要通过关联度指标来实现。将术语与文档含有的词语集合执行关联规则算法,得出关键词与文献的关联度。

如图1所示，首先执行步骤S108，最后按照行业特点、高度相关性、特性等对术语进行排序，最终确定关键词的次序。

按照行业特点、高度相关性、特性等进行加权排序运算，最终确定关键词的次序

如图2所示，图2为本发明一实施例中一种基于地质大数据的标引关键词提取方法的结构示意图，该实施例提到的一种基于地质大数据的标引关键词提取方法系统，该系统具体包括：

文件预处理模块201，用于将文献导入到系统中，并进行格式转换，对标题、摘要、正文进行句子划分，成为独立的语言单元，然后将切分后的语言单元进行词性标注和位置标记；

关键词挖掘提炼模块202，采用加权挖掘算法，对文献进行关键词挖掘，得到采用加权计算法对短语的频次、出现的位置、词长等因素，对短语进行加权运算，得到各个短语的权值，再依据权值大小，对短语进行提炼优化，排除权值较小的短语；

关键词匹配关联排除模块203，将短语与词库进行匹配，找出词库中与之匹配或较为规范的术语，再将术语与文献进行关联度计算和关联程度进行分析，确定术语与本文献关联大小；

关键词排序优化模块204，按照行业特点、高度相关性、特性等进行加权排序运算，最终确定关键词的次序。

本实施例中，用于将文献导入到文件预处理模块201中，系统对文献进行格式转换，对标题、摘要、正文进行句子划分，成为独立的语言单元，然后将切分后的语言单元进行词性标注和位置标记；然后，通过关键词挖掘提炼模块202，对文献进行关键词挖掘，得到采用加权计算法对短语的频次、出现的位置、词长等因素，对短语进行加权运算，得到各个短语的权值，再依据权值大小，对短语进行提炼优化，排除权值较小的短语；再次将短语输入关键词匹配关联排除模块203，该模块将短语与词库进行匹配，找出词库中与之匹配或较为规范的术语，再将术语与文献进行关联度计算和关联程度进行分析，确定术语与本文献关联大小，根据关联度大小进行再次刷选；关键词排序优化模块204，按照行业特点、高度相关性、特性等进行加权排序运算，最终确定关键词的次序。

本发明不局限于上述最佳实施方式，任何人在本发明的启示下作出的结构变化和方法改进，凡是与本发明具有相同或相近的技术方案，均落入本发明的保护范围之内。

Claims

1.一种基于地质大数据的标引关键词提取方法，其特征在于，包括：

对文献进行导入，地质资料格式转换，句子划分，词性标注和位置标记；

对切分后的文献，赋予权重系数；

采用关键词挖掘算法，对关键词进行初步挖掘提取；

对提取出关键词短语进行加权运算，得到各个短语的综合权值；

根据综合权值大小进行初步刷选，降低待确定短语个数；

将短语与词库进行匹配，找出词库中与之匹配或较为规范的术语；

将术语与文献进行关联度计算，确定术语的关联度大小,根据关联度大小进行再次刷选;

最后按照行业特点、高度相关性、特性等对术语进行排序，最终确定关键词的次序。

2.如权利要求1所述的基于地质大数据的标引关键词提取方法，其特征在于，所述地质资料格式转换，句子划分，词性标注和位置标记指将文献经过格式转换，依据标点符号对标题、摘要、正文进行句子划分，成为独立的语言单元。

3.如权利要求1所述的基于地质大数据的标引关键词提取方法，其特征在于，所述词性标注指采用适当的方法将独立的语言单元根据句子中的上下文信息给句中的每个词确定一个最为合适的词性标记，可以标为实词和虚词两大类（实词包括:名词(含方位词)、动词、形容词(含颜色词)、数词、量词、代词六大类，虚词包括:副词、介词、连词、助词、象声词六大类）。

4. 如权利要求1所述的基于地质大数据的标引关键词提取方法，其特征在于，所述位置标记指记录位置信息的方式以及各个位置的词在反映主题时的相对重要性。

5. 如权利要求1所述的基于地质大数据的标引关键词提取方法，其特征在于，所述对对切分后的文献，赋予权重系数，指对文献不同的位置，赋予不同的权值。

6.如权利要求1所述的基于地质大数据的标引关键词提取方法，其特征在于，所述采用关键词挖掘算法，对关键词进行初步挖掘提取，指通过利用关键词挖掘算法，对关键词进行初步挖掘提取(算法包括关联规则算法、基于共现概率的关联挖掘算法、词频-反文档频率和交互信息测量等方法，不限于上面算法)。

7. 如权利要求1所述的基于地质大数据的标引关键词提取方法，其特征在于，所述对术语与文献进行关联度计算，是指采用改进的关联规则,对关键词与文献的关联程度进行分析，确定术语与本文献关联大小。

8. 如权利要求1所述的基于地质大数据的标引关键词提取系统，其特征在于，包括：

文件预处理模块，用于将文献导入到系统中，并进行格式转换，对标题、摘要、正文进行句子划分，成为独立的语言单元，然后将切分后的语言单元进行词性标注和位置标记；

关键词挖掘提炼模块，采用加权挖掘算法，对文献进行关键词挖掘，得到采用加权计算法对短语的频次、出现的位置、词长等因素，对短语进行加权运算，得到各个短语的权值，再依据权值大小，对短语进行提炼优化，排除权值较小的短语；

关键词匹配关联排除模块，将短语与词库进行匹配，找出词库中与之匹配或较为规范的术语，再将术语与文献进行关联度计算和关联程度进行分析，确定术语与本文献关联大小，根据关联度大小进行再次刷选；

关键词排序优化模块，按照行业特点、高度相关性、特性等进行加权排序运算，最终确定关键词的次序。