CN111090997B - 一种基于分级词项的地质文档特征词项排序方法与装置 - Google Patents

一种基于分级词项的地质文档特征词项排序方法与装置 Download PDF

Info

Publication number
CN111090997B
CN111090997B CN201911322154.1A CN201911322154A CN111090997B CN 111090997 B CN111090997 B CN 111090997B CN 201911322154 A CN201911322154 A CN 201911322154A CN 111090997 B CN111090997 B CN 111090997B
Authority
CN
China
Prior art keywords
document set
document
preset
feature
range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911322154.1A
Other languages
English (en)
Other versions
CN111090997A (zh
Inventor
邓吉秋
路馥毓
刘文毅
李晨菡
何美香
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201911322154.1A priority Critical patent/CN111090997B/zh
Publication of CN111090997A publication Critical patent/CN111090997A/zh
Application granted granted Critical
Publication of CN111090997B publication Critical patent/CN111090997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种基于分级词项的地质文档特征词项排序方法,包括:获取范围类型参数信息;判断范围类型参数是否与预先设定的第一参数或第二参数或第三参数相同;若是,则获取范围参数信息;基于范围类型参数信息和范围参数信息,获取预先设定的与类型参数信息和范围参数信息相应的第一文档集或第二文档集或第三文档集;获取第一文档集或第二文档集或第三文档集中的特征词项的词频;基于第一文档集或第二文档集或第三文档集中特征词项的词频,和预先设定的与特征词项对应的词项级别、级别权重,获取第一文档集或第二文档集或第三文档集中特征词项的特征值;基于特征词项的特征值,获取特征值中前N个特征值所对应的特征词项。

Description

一种基于分级词项的地质文档特征词项排序方法与装置
技术领域
本发明涉及语言处理领域,尤其涉及一种基于分级词项的地质文档特征词项排序方法与装置。
背景技术
地质文档的主题(或特征)由文档中所有词项及其文法、上下文依存关系等确定,其中词项发挥着重要作用。
地质文档中的词项包括“某某断层”、“某某矿”、“某某岩”等地质命名实体,“正断层”、“流纹构造”等地质性质词项,“二零一九年十月十日”、“湖南省地质科学研究院”等普通命名实体,“地层”、“构造”、“岩体”等基本地质词项称,及控制”、“根据”、“区域”、“特征”等普通分词,不同词项对地质文档的表征作用不同。
目前大多数中文文本分类系统都采用词作为特征项,称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干个评分值最高的作为特征词。
最常用、效果比较好的文本表征方法是建立词项-文档矩阵。词项-文档矩阵中的每个元素值代表了相应行上的词项对应于相应列上的文档的权重,即这个词对于该文档来说的重要程度。一个词对于一个文档是否重要,体现在两个方面:一个词项在一个文档中出现次数越多,则相对于文档的重要性就越大;若词项在整个语料库中出现的次数越多,那么对于该文档而言这个词就越没有意义,即越不重要。
基于TextRank的关键词提取是另一类方法,可针对单文档实现关键词提取。TextRank关键词抽取的任务就是从一段给定的文本中自动抽取出若干有意义的词语或词组,TextRank算法是利用局部词汇之间的关系(共现窗口)对后续关键词进行排序,直接从文本本身抽取。
文档中的同一词项所包含的实际语义在不同主题或类型文档中体现不同,另外地质文档中各种地质命名实体比一般非地质实体的词项对特定文档来说更能表征文档的主题特征,在表征文档的主题时应考虑词项在语义上对文档重要性的差异。而一般的词项-文档矩阵中纯粹地采用词项的出现次数来表示词项对文档主题的表征,TextRank算法利用局部词汇之间的关系(共现窗口)对后续特征词进行排序,均无法体现不同词项对主题的重要性的差异。
发明内容
(一)要解决的技术问题
为了解决现有技术的没有考虑不同级别词项在主题词排序中权重的问题,本发明提供一种基于分级词项的地质文档特征词项排序方法与装置。
(二)技术方案
为了达到上述目的,本发明提供一种基于分级词项的地质文档特征词项排序方法,包括步骤:
A1、获取范围类型参数信息;
A2、判断所述范围类型参数是否与预先设定的第一参数或第二参数或第三参数相同;
若是,则获取范围参数信息;
所述范围参数信息包括:第一范围参数或第二范围参数;
A3、基于所述范围类型参数信息和所述范围参数信息,获取预先设定的与所述范围类型参数信息和范围参数信息相应的第一文档集或第二文档集或第三文档集;
所述第一文档集包括多篇第一规则文档;所述第一规则文档为可能被抽取的任一文档;
所述第二文档集包括多篇第二规则文档;所述第二规则文档为属于特定资料包的任一文档;
所述第三文档集包括多篇第三规则文档;所述第三规则文档为特定编号文档;
A4、基于与所述范围类型参数信息和范围参数信息相应的第一文档集或第二文档集或第三文档集和预先设定的与所述第一文档集或第二文档集或第三文档集相应的特征词项,获取所述第一文档集或第二文档集或第三文档集中的特征词项的词频;
A5、基于所述第一文档集或第二文档集或第三文档集中特征词项的词频,和预先设定的与所述特征词项对应的词项级别、级别权重,获取所述第一文档集或第二文档集或第三文档集中特征词项的特征值;
A6、基于所述特征词项的特征值,获取所述特征值中前N个特征值所对应的特征词项;
N为预先设定值。
优选的,所述第一文档集或第二文档集或第三文档集中特征词项的特征值为所述第一文档集或第二文档集或第三文档集中的特征词项的词频与所述特征词项相应的级别权重的乘积。
优选的,步骤A6包括:
A6-1、基于所述特征词项的特征值,对所述特征词项进行排序,得到所述特征词项的第一排列顺序;
所述第一排列顺序为特征词项的特征值由高到低的顺序;
A6-2、获取所述特征词项的第一排列顺序中对应的前N个特征词项;
优选的,所述步骤A3中具体包括:
若所述范围类型参数与预先设定的第一参数相同,且所述范围参数信息为第一范围参数时,则获取预先设定的第一文档集;
若所述范围类型参数与预先设定的第二参数相同,且所述范围参数信息为第二范围参数时,则获取预先设定的第二文档集;
若所述范围类型参数与预先设定的第三参数相同,且所述范围参数信息为第二范围参数时,则获取预先设定的第三文档集。
一种基于分级词项的地质文档特征词项排序装置,其特征在于,所述基于分级词项的地质文档特征词项排序装置存储第一指令;
所述第一指令使所述基于分级词项的地质文档特征词项排序装置执行上述任一项所述的基于分级词项的地质文档特征词项排序方法。
(三)有益效果
本发明的有益效果是:本发明顾及了不同级别词项对文档主题表征的差异性,使对可灵活指定的特定范围内地质文档词项特征值的计算更有效,由此能得到更准确、可靠的特定范围地质文档特征词项排序。
附图说明
图1为本发明中基于分级词项的地质文档特征词项排序方法流程图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
实施例一
参见附图1,本实施例的方法具体包括:
A1、获取范围类型参数信息。
A2、判断所述类型参数是否与预先设定的第一参数或第二参数或第三参数相同。
若是,则获取范围参数信息。
所述范围参数信息包括:第一范围参数或第二范围参数。
A3、基于所述范围类型参数信息和所述范围参数信息,获取预先设定的与所述范围类型参数信息和范围参数信息相应的第一文档集或第二文档集或第三文档集。
所述第一文档集包括多篇第一规则文档,本实施例中所述第一规则文档为可能被抽取的任一文档。
所述第二文档集包括多篇第二规则文档,本实施例中所述第二规则文档为属于特定资料包的任一文档。
所述第三文档集包括多篇第三规则文档,本实施例中所述第三规则文档为特定编号文档。
在本实施例中若所述类型参数与预先设定的第一参数相同,且所述范围参数信息为第一范围参数时,则获取预先设定的第一文档集。
若所述范围类型参数与预先设定的第二参数相同,且所述范围参数信息为第二范围参数时,则获取预先设定的第二文档集。
若所述范围类型参数与预先设定的第三参数相同,且所述范围参数信息为第二范围参数时,则获取预先设定的第三文档集。
A4、基于与所述范围类型参数信息和范围参数信息相应的第一文档集或第二文档集或第三文档集和预先设定的与所述第一文档集或第二文档集或第三文档集相应的特征词项,获取所述第一文档集或第二文档集或第三文档集中的特征词项的词频。
A5、基于所述第一文档集或第二文档集或第三文档集中特征词项的词频,和预先设定的与所述特征词项对应的词项级别、级别权重,获取所述第一文档集或第二文档集或第三文档集中特征词项的特征值。
本实施例中的第一文档集或第二文档集或第三文档集中特征词项的特征值为所述第一文档集或第二文档集或第三文档集中的特征词项的词频与所述特征词项相应的级别权重的乘积。
A6、基于所述特征词项的特征值,获取所述特征值中前N个特征值所对应的特征词项;N为预先设定值。
本实施例中顾及了不同级别词项对文档主题表征的差异性,使对可灵活指定的特定范围内地质文档词项特征值的计算更有效,由此能得到更准确、可靠的特定范围地质文档特征词项排序。
实施例二
(1)输入说明
输入包括词项分级表words_list、词项级别权重表levels_weights、文档词项表files_words,及特征值排序参数列表orders。
(1-1)词项分级表words_list:是包含从特定范围文档中提取出的所有词项基本信息的数据库表,具体字段定义见表1。
表1词项分级表定义
Figure BDA0002327420790000061
level取值说明:地质文档中最高级词项为表述特定地质对象的地质命名实体,如“岳麓山组”、“万古金矿”、“望湘花岗岩体”等;表述特定地质对象类型与性质的地质性质词项,如“正断层”、“流纹构造”等为次一级;表述人名、机构名、地名、时间等内容的通用命名实体,如“中南大学”、“2019年10月”等为更次一级;表述地质基本概念的基本地质词项,如“地层”、“构造”、“岩体”等为更次一级;其它不重要命名实体与分词为最低级;从高至低可定义5个级别:依次为5级、4级、3级、2级、1级。
(1-2)词项级别权重表levels_weights:是包含词项各级别与权重对应关系的数据库表,具体字段定义见表2。
表2词项级别权重表定义
字段名称 字段含义 字段类型 字段说明
level 词项级别 INTEGER 词项的数字等级,见表1
weight 级别权重 INTEGER 相应级别的权重值,
weight取值说明:level数字越大、级别越高,相应地weight权重也高;如:对应于1-1)所述5级、4级、3级、2级、1级,其权重可分别设置为625、125、25、5、1。
(1-3)文档词项表files_words:是包含从文档中提取出的词项在文档中每一具体位置信息的数据库表,具体字段定义见表3。
本实施例中的第一文档集为表3中的与词项编号对应的特定范围所有文档,第二文档集为表3中资料包编号对应的资料包,第三文档集为与表3中文档编号对应的特定文档。
表3文档词项表定义
Figure BDA0002327420790000071
(1-4)词项排序参数列表orders:包含用于地质文档词项特征值排序的目标条件,列表orders包含3元素,具体元素说明见表4。
本实施例中,预设的第一参数为表4中特征待抽取范围限定类型的值为0,预设的第二参数为表4中特征待抽取范围限定类型的值为1,预设的第三参数为表4中特征待抽取范围限定类型的值为2。
表4特征值排序参数列表元素说明
Figure BDA0002327420790000072
(2)输出说明
输出为排序词项表words_orders,是用于存储满足排序条件的词项信息的数据库表,具体字段定义见表5。
表5排序词项表定义
字段名称 字段含义 字段说明
word_id 词项编号 特定词项的编号
level 词项级别 特定词项的级别
value 词项特征值 特定范围中排序词项的特征值
(3)词项特征值计算与排序过程
读取词项排序参数列表orders,根据主题提取范围,从文档词项表files_words抽取特定范围词项信息,统计特定范围词项词频、结合词项分级表words_list中的词项分级、再关联词项权重,计算特定范围词项特征值,对词项进行排序,由此确定满足要求的排序词项表words_orders。
具体过程如下:
(3-1)进入系统初始化,定义数据库操作语句执行函数sql_execute,函数sql_execute的输入参数为文本sql,文本sql为满足SQL-92标准的数据库操作语句;函数调用数据库系统功能执行文本sql,文本sql的执行结果是数据库中表、或表中数据的改变,函数本身不直接输出结果;之后进入3-2)。
(3-2)将文本sql设为:DELETE FROM words_orders,通过调用函数sql_execute将排序词项表words_orders清空,进入3-3)。
(3-3)获取词项排序参数列表orders,将orders的3个元素依次赋值给:范围限定类型scope_type、范围编号scope_id、输出词项数words_num;如果范围限定类型scope_type大于等于0、且小于等于2则进入3-4),否则进入3-7)。
(3-4)则将文本sql赋值为:SELECT word_id,level,COUNT(*)*weight as word_value INTO words_orders FROM files_words,words_list,levels_weights WHEREfiles_words.word_id=words_list.id ANDwords_list.level=levels_weights.levelGROUP BY files_words.word_id ORDER BY word_value LIMIT,在文本sql最后一个字符之后插入一个空格,将words_num转换成字符串、再插入至文本sql最后一个字符之后,进入3-5)。
(3-5)如果scope_id大于0,初始化范围字符串scope_str为空字符串,当scope_id等于1时将范围字符串scope_str赋值为字符串files_words.doc_id=,当scope_id等于2时将将范围字符串scope_str赋值为字符串files_words.file_id=;在范围字符串scope_str最后一个字符之后插入一个空格,将范围编号scope_id转换成字符串、再插入到范围字符串scope_str最后一个字符之后;在范围字符串scope_str第一个字符之前插入一个空格,再将范围字符串scope_str插入到文本sql中WHERE之后,进入3-6)。
(3-6)将文本sql作为输入参数,调用函数sql_execute,实现将满足词项排序参数条件的词项及其特征值插入到排序词项表words_orders;之后,进入3-7)。
(3-7)输出排序词项表words_orders。
本实施例中顾及了不同级别词项对文档主题表征的差异性,使对可灵活指定的特定范围内地质文档词项特征值的计算更有效,由此能得到更准确、可靠的特定范围地质文档特征词项排序。
以上结合具体实施例描述了本发明的技术原理,这些描述只是为了解释本发明的原理,不能以任何方式解释为对本发明保护范围的限制。基于此处解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式,这些方式都将落入本发明的保护范围之内。

Claims (4)

1.一种基于分级词项的地质文档特征词项排序方法,其特征在于,包括步骤:
A1、获取范围类型参数信息;
A2、判断所述范围类型参数是否与预先设定的第一参数或第二参数或第三参数相同;
若是,则获取范围参数信息;
所述范围参数信息包括:第一范围参数或第二范围参数;
A3、基于所述范围类型参数信息和所述范围参数信息,获取预先设定的与所述范围类型参数信息和范围参数信息相应的第一文档集或第二文档集或第三文档集;
所述第一文档集包括多篇第一规则文档;
所述第二文档集包括多篇第二规则文档;
所述第三文档集包括一篇第三规则文档;
A4、基于与所述范围类型参数信息和范围参数信息相应的第一文档集或第二文档集或第三文档集和预先设定的与所述第一文档集或第二文档集或第三文档集相应的特征词项,获取所述第一文档集或第二文档集或第三文档集中的特征词项的词频;
A5、基于所述第一文档集或第二文档集或第三文档集中特征词项的词频,和预先设定的与所述特征词项对应的词项级别、级别权重,获取所述第一文档集或第二文档集或第三文档集中特征词项的特征值;
A6、基于所述特征词项的特征值,获取所述特征值中前N个特征值所对应的特征词项;
N为预先设定值;
所述步骤A3中具体包括:
若所述范围类型参数与预先设定的第一参数相同,且所述范围参数信息为第一范围参数时,则获取预先设定的第一文档集;
若所述范围类型参数与预先设定的第二参数相同,且所述范围参数信息为第二范围参数时,则获取预先设定的第二文档集;
若所述范围类型参数与预先设定的第三参数相同,且所述范围参数信息为第二范围参数时,则获取预先设定的第三文档集。
2.根据权利要求1所述的方法,其特征在于,所述第一文档集或第二文档集或第三文档集中特征词项的特征值为所述第一文档集或第二文档集或第三文档集中的特征词项的词频与所述特征词项相应的级别权重的乘积。
3.根据权利要求2所述的方法,其特征在于,步骤A6包括:
A6-1、基于所述特征词项的特征值,对所述特征词项进行排序,得到所述特征词项的第一排列顺序;
所述第一排列顺序为特征词项的特征值由高到低的顺序;
A6-2、获取所述特征词项的第一排列顺序中对应的前N个特征词项。
4.一种基于分级词项的地质文档特征词项排序装置,其特征在于,所述基于分级词项的地质文档特征词项排序装置存储第一指令;
所述第一指令使所述基于分级词项的地质文档特征词项排序装置执行如权利要求1至3任一项所述的基于分级词项的地质文档特征词项排序方法。
CN201911322154.1A 2019-12-20 2019-12-20 一种基于分级词项的地质文档特征词项排序方法与装置 Active CN111090997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911322154.1A CN111090997B (zh) 2019-12-20 2019-12-20 一种基于分级词项的地质文档特征词项排序方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911322154.1A CN111090997B (zh) 2019-12-20 2019-12-20 一种基于分级词项的地质文档特征词项排序方法与装置

Publications (2)

Publication Number Publication Date
CN111090997A CN111090997A (zh) 2020-05-01
CN111090997B true CN111090997B (zh) 2021-07-20

Family

ID=70396606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911322154.1A Active CN111090997B (zh) 2019-12-20 2019-12-20 一种基于分级词项的地质文档特征词项排序方法与装置

Country Status (1)

Country Link
CN (1) CN111090997B (zh)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101354712B (zh) * 2008-09-05 2011-02-09 北京大学 中文术语自动提取系统及方法
CN102054006B (zh) * 2009-11-10 2015-01-14 深圳市世纪光速信息技术有限公司 一种从海量数据中提取有效信息的方法及装置
CN104391835B (zh) * 2014-09-30 2017-09-29 中南大学 文本中特征词选择方法及装置
CN104750844B (zh) * 2015-04-09 2016-03-02 中南大学 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN105005556A (zh) * 2015-07-29 2015-10-28 成都理工大学 一种基于地质大数据的标引关键词提取方法和系统
CN106557460A (zh) * 2015-09-29 2017-04-05 株式会社东芝 从单文档中提取关键词的装置及方法
CN105528404A (zh) * 2015-12-03 2016-04-27 北京锐安科技有限公司 种子关键字字典建立方法和装置及关键词提取方法和装置
CN105975459B (zh) * 2016-05-24 2018-09-21 北京奇艺世纪科技有限公司 一种词项的权重标注方法和装置
CN108491429A (zh) * 2018-02-09 2018-09-04 湖北工业大学 一种基于类内类间文档频和词频统计的特征选择方法
CN109582769A (zh) * 2018-11-26 2019-04-05 广西财经学院 基于权值排序的关联模式挖掘和后件扩展的文本检索方法

Also Published As

Publication number Publication date
CN111090997A (zh) 2020-05-01

Similar Documents

Publication Publication Date Title
CN106599054B (zh) 一种题目分类及推送的方法及系统
CN106156272A (zh) 一种基于多源语义分析的信息检索方法
US20180300323A1 (en) Multi-Factor Document Analysis
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
US20050262039A1 (en) Method and system for analyzing unstructured text in data warehouse
US10528609B2 (en) Aggregating procedures for automatic document analysis
US20180253810A1 (en) Automated Document Analysis for Varying Natural Languages
WO2020063071A1 (zh) 基于卡方检验的句向量计算方法、文本分类方法及系统
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN108536664A (zh) 商品领域的知识融合方法
CN111651675B (zh) 一种基于ucl的用户兴趣主题挖掘方法及装置
CN106708926A (zh) 一种支持海量长文本数据分类的分析模型的实现方法
Bohne et al. Efficient keyword extraction for meaningful document perception
Faisal et al. Word sense disambiguation in Bahasa Indonesia using SVM
CN108628875B (zh) 一种文本标签的提取方法、装置及服务器
CN108614825B (zh) 一种网页特征提取方法和装置
US11676231B1 (en) Aggregating procedures for automatic document analysis
CN111090997B (zh) 一种基于分级词项的地质文档特征词项排序方法与装置
CN109871429B (zh) 融合Wikipedia分类及显式语义特征的短文本检索方法
JP5299963B2 (ja) 分析システム及び情報分析方法
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN111079425B (zh) 一种地质文档词项分级方法及装置
Sabty et al. Techniques for named entity recognition on arabic-english code-mixed data
CN111079426B (zh) 一种获取领域文档词项分级权重的方法及装置
CN109299260A (zh) 数据分类方法、装置以及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Deng Jiqiu

Inventor after: Lu Biyu

Inventor after: Liu Wenyi

Inventor after: Li Chenhan

Inventor after: He Meixiang

Inventor before: Deng Jiqiu

Inventor before: Lu Biyu

Inventor before: Li Chenhan

GR01 Patent grant
GR01 Patent grant