CN109033064A

CN109033064A - 一种基于文本摘要的小学语文作文语料标签自动提取方法与装置

Info

Publication number: CN109033064A
Application number: CN201810552976.8A
Authority: CN
Inventors: 朱晓亮; 刘三女牙; 孙建文; 石昀东; 殷姿
Original assignee: Huazhong Normal University
Current assignee: Huazhong Normal University
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2018-12-18
Anticipated expiration: 2038-05-31
Also published as: CN109033064B

Abstract

本发明属于信息技术领域，提供一种基于文本摘要的小学语文作文语料标签自动提取方法与装置，包括以下步骤：文本自动摘要；分词及词性标注；将分词及词性标注后的词汇列表，按照词频进行降序排序后，依据小学语文作文语料标签定义进行标签的自动化提取；输出标签结果。本发明标签自动提取方法与装置能够有效地去除文本冗余，并获取小学语文作文语料结构化数据所需的文本标签，有利于小学语文作文语料素材的合理组织。

Description

一种基于文本摘要的小学语文作文语料标签自动提取方法与装置

技术领域

本发明属于信息技术领域，具体涉及一种基于文本摘要的小学语文作文语料标签自动提取方法与装置。

技术背景

在当前小学语文作文教学信息化过程中，作文语料素材的重要性被反复强调。但是目前小学语文作文语料素材存在着严重的组织不合理问题，极易引起小学生的知识过载。素材无法被合理的组织，主要是由于小学语文作文语料属于非结构化数据，缺少被计算机高效处理的结构化数据特征。另一方面，数据的结构化过程由于文本冗余的存在准确度难以提升。

发明内容

本发明的目的就是为了克服现有技术中的不足，提出一种基于文本摘要的小学语文作文标签的自动提取方法与装置，能够有效地去除文本冗余，并获取小学语文作文语料结构化数据所需的文本标签。

本发明的目的是通过以下技术方案实现的。

一种基于文本摘要的小学语文作文语料标签自动提取方法，包括以下步骤：

(1)采用基于BM25相似度算法的TextRank算法对原始小学语文作文语料进行摘要处理，去除冗余；

(2)对摘要处理后的文本采用基于N-最短路径算法的分词方法进行分词及词性标注，分词的过程中，通过层叠隐马尔科夫模型对分词结果进行命名实体识别，其中词性nr代表人名实体，ns代表地名实体，nz代表专有名词；

(3)将分词及词性识别后的词汇列表，按照词频进行降序排序后，依据小学语文作文语料标签定义进行标签的自动化提取，

所述小学语文作文语料标签定义如下表所示：

词汇词性的选取范围如下表所示：

提取策略如下：

(3-1)获取核心实体；

提取词频最高的1-2个nr，ns作为核心实体；

(3-2)获取文章类型；

对全文的nr，ns进行词频和统计；通过对词频和的比较，词频总和更高的nr或ns所属类型即为文章类型；

(3-2)获取关键描述；获取策略如下：

(a)当前词语长度是否超过2，不满足则输出否；

(b)当前词语的词频是否大于等于2，不满足则输出否；

(c)当前词语词性是否为所要求的描述性词语词性，不满足则输出否；其中，所要求的描述性词语词性指形容词(词性为a)、习惯用语，俗语(词性为l)、成语(词性为i)；

(d)同时满足(a)、(b)、(c)条件的，判断词语属于关键描述；

(e)特殊情况下，出现次数超过3次且长度大于等于2的一般名词(词性为n)及专有名词(词性为nz)将被判断属于关键描述；

(f)当列表读取结束，总标签数仍不满足目标的情况下，对词汇列表中词频为1，但字数在4个以上的俗语及成语进行补充录入；

(4)最终的标签结果，由文章类型、核心实体、关键描述三项总计不超过6个词汇组成；对标签结果进行输出。

另外，本发明还提供了一种基于文本摘要的小学语文作文语料标签自动提取装置，该装置包括文本摘要模块、分词及词性标注模块、核心分析模块及输出模块。

所述文本摘要模块采用基于BM25相似度算法的TextRank算法对原始小学语文作文语料进行摘要处理；

所述分词及词性标注模块通过N-最短路径算法和层叠隐马尔科夫模型对文本摘要的结果进行分词及相应的词性标注，词性标注过程中包含了命名实体识别过程，同时对生成的词汇列表，通过自建停用词表进行去除停用词操作；

所述核心分析模块传入分词及词性标注模块生成的词汇列表，借助小学语文作文标签定义对词汇进行逐个分析判断，获取合适的标签；

所述输出模块将最终的标签结果进行输出。

在上述技术方案中，该装置还包括辅助分析模块，所述辅助分析模块通过对人物、景物描写相关核心实体构建专属词典，辅助核心分析模块进行标签的判断。

命名实体识别过程是针对人或地点的具体名字或名称，但小学语文作文中包含的实体对象往往并非直呼其名。如实体对象出现“交警”时，应当将文本划分为人物描写类型。这种没有出现具体名字或名称的情况，由辅助模块进行分析。

具体地，辅助分析模块中，人物描写相关核心实体自建词典如下：

分类	示例
		亲属	爸爸、妈妈、爷爷…
职业	交警、医生、老师…
		陌生人	叔叔、阿姨…
熟人	同桌、同学…

景物描写相关核心实体自建词典如下：

分类	示例
		自然风光	岛、湖…
行政划分	镇、乡…
		季节	春、夏、秋、冬…
人工景观	公园、遗址…

本发明基于文本摘要的小学语文作文语料标签自动化提取方法与装置，能够有效地去除文本冗余，并获取小学语文作文语料结构化数据所需的文本标签，有利于小学语文作文语料素材的合理组织。

附图说明

图1为本发明提取方法的流程图。

图2为本发明提取装置的组成示意图。

图3为标签定义模板。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

如图1所示，本发明实施例提供了一种基于文本摘要的小学语文作文语料标签自动提取方法，包括以下步骤：

101，采用基于BM25相似度算法的TextRank算法对原始小学语文作文语料进行自动摘要处理，去除冗余；

102，对摘要处理后的文本采用基于N-最短路径算法的分词方法进行分词及词性标注，分词的过程中，通过层叠隐马尔科夫模型对分词结果进行命名实体识别，其中词性nr代表人名实体，ns代表地名实体，nz代表专有名词；

103，获取标签定义中的核心实体；

将分词及词性识别后的词汇列表，按照词频进行降序排序后，提取词频最高的1-2个nr，ns作为标签定义中的核心实体；标签定义模板如图3所示。

104，获取标签定义中的文章类型；

105，获取关键描述的词汇；获取策略如下：

(a)当前词语长度是否超过2，不满足则输出否；

(b)当前词语的词频是否大于等于2，不满足则输出否；

(d)同时满足(a)、(b)、(c)条件的，判断词语属于关键描述；

(e)特殊情况下，出现次数超过3次且长度大于等于2的一般名词及专有名词将被判断属于关键描述；

106，生成标签，最终的标签结果由文章类型、核心实体、关键描述三项总计不超过6个词汇组成；对标签结果进行输出。

如图2所示，本实施例提供了一种基于文本摘要的小学语文作文语料标签自动提取装置，包括文本摘要模块、分词及词性标注模块、核心分析模块、辅助分析模块及输出模块。

201，文本摘要模块，采用基于BM25相似度算法的TextRank算法对原始小学语文作文语料进行摘要处理。

202，分词及词性标注模块，通过N-最短路径算法和层叠隐马尔科夫模型对文本摘要的结果进行分词及相应的词性标注，词性标注过程中包含了命名实体识别过程，生成词汇列表；在该模块中，通过自建停用词表对词汇列表进行去除停用词操作以提升效率。

203，核心分析模块，传入分词及词性标注模块生成的词汇列表，借助小学语文作文标签定义对词汇进行逐个分析判断，获取合适的标签。

204，辅助分析模块，通过对人物、景物描写相关核心实体构建专属词典，辅助核心分析模块进行标签的判断。

具体地，由于核心分析模块中，对于小学语文作文语料领域专有词语无法准确获取，因此在辅助分析模块中通过自建词典辅助分析，人物描写相关核心实体自建词典如下：

景物描写相关核心实体自建词典如下：

205，输出模块，将最终的标签结果进行输出。

本说明书中未作详细描述的内容，属于本专业技术人员公知的现有技术。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于文本摘要的小学语文作文语料标签自动提取方法，其特征在于该方法包括以下步骤：

(3)将分词及词性识别后的词汇列表，按照词频进行降序排序后，依据小学语文作文语料标签定义进行标签的自动化提取，所述小学语文作文语料标签包括文章类型、核心实体、关键描述，提取策略如下：(3-1)获取核心实体；

提取词频最高的1-2个nr，ns作为核心实体；

(3-2)获取文章类型；

(3-2)获取关键描述；获取策略如下：

(a)当前词语长度是否超过2，不满足则输出否；

(b)当前词语的词频是否大于等于2，不满足则输出否；

(c)当前词语词性是否为所要求的描述性词语词性，不满足则输出否；其中，所要求的描述性词语词性为形容词、习惯用语、俗语、成语；

(d)同时满足(a)、(b)、(c)条件的，判断词语属于关键描述；

2.一种基于文本摘要的小学语文作文语料标签自动提取装置，其特征在于：该装置包括文本摘要模块、分词及词性标注模块、核心分析模块及输出模块；

所述输出模块将最终的标签结果进行输出。

3.根据权利要求2所述的基于文本摘要的小学语文作文语料标签自动提取装置，其特征在于：该装置还包括辅助分析模块，所述辅助分析模块通过对人物、景物描写相关核心实体构建专属词典，辅助核心分析模块进行标签的判断。