CN108932296B

CN108932296B - 一种基于关联数据的小学语文作文素材结构化存储方法与装置

Info

Publication number: CN108932296B
Application number: CN201810553677.6A
Authority: CN
Inventors: 朱晓亮; 刘三女牙; 孙建文; 殷姿
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2021-06-11
Anticipated expiration: 2038-05-31
Also published as: CN108932296A

Abstract

本发明属于信息技术领域，提供一种基于关联数据的小学语文作文素材结构化存储方法与装置，包括以下步骤：获取文本的基础信息；获取文本的标签信息；获取文本的标识信息；生成结构化数据并存储。本发明结构化存储方法与装置可以对小学语文作文素材进行有效的组织管理，同时本发明可以将原始非结构化数据转换为结构化数据，使得原始小学语文素材语料在经过本发明处理后，更加适合计算机大批量处理的场景。

Description

一种基于关联数据的小学语文作文素材结构化存储方法与装置

技术领域

本发明属于信息技术领域，具体涉及一种基于关联数据的小学语文作文素材结构化存储方法与装置。

技术背景

当前小学语文作文素材数量繁多，但这些数字资源在组织存储上却缺乏章法。这一方面对推荐引擎的工作产生了阻碍，另一方面也对小学生产生了严重的知识过载，极易引发学习迷航。素材的组织混乱主要是由于小学语文作文原始语料具有典型的非结构化数据特征，难以被计算机有效利用。

关联数据是语义网的一种轻量级实现，通过元数据对需要存储的数据进行结构化描述并在数据之间建立关联。

发明内容

本发明的目的就是为了克服现有技术中的不足，提出一种基于关联数据的小学语文作文素材结构化存储方法与装置，能够有效地将非结构化数据转变为结构化数据，并为语文作文素材之间建立较好的关联性，充分满足计算机处理需求。

本发明的目的是通过以下技术方案实现的。

一种基于关联数据的小学语文作文素材结构化存储方法，包括以下步骤：

(1)获取文本的基础信息；其对应内容如下表所示：

名称	含义
		Author	文章的作者
Title	文章的标题
		Grade	文章所属的年级
Content	文章的内容
		Summarization	文章的摘要内容

(2)获取文本的标签信息；对小学语文作文原始语料进行文本标签获取，获取标签分为Type(文章类型)、Subject(核心实体)、Adjective(关键描述)三个部分，如下表所示：

名称	含义
		Type	文章所归属的类型
Subject	文章主要描写的对象
		Adjective	针对主要描写对象的描述性词汇

(3)获取文本的标识信息；对小学语文作文存储所必须的参数信息进行统一规定，如下表所示：

(4)根据获取的基础信息、标签信息、标识信息生成结构化数据。

在上述技术方案中，采用基于文本摘要的小学语文作文语料标签自动提取方法获取文本的标签信息，具体步骤如下：

S1，采用基于BM25相似度算法的TextRank算法对原始小学语文作文语料进行摘要处理，去除冗余；

S2，对摘要处理后的文本采用基于N-最短路径算法的分词方法进行分词及词性标注，分词的过程中，通过层叠隐马尔科夫模型对分词结果进行命名实体识别，其中词性nr代表人名实体，ns代表地名实体，nz代表专有名词；

S3，将分词及词性识别后的词汇列表，按照词频进行降序排序后，依据小学语文作文语料标签定义进行标签的自动化提取，其中，小学语文作文语料标签包括Type(文章类型)、Subject(核心实体)、Adjective(关键描述)，所述小学语文作文语料标签定义如下表所示：

词汇词性的选取范围如下表所示：

词性	含义
		nr	人名实体
ns	地名实体
		nz	专有名词
a	形容词
		l	习惯用语，俗语
i	成语

提取策略如下：

S3.1，获取核心实体；

提取词频最高的1-2个nr，ns作为核心实体；

S3.2，获取文章类型；

对全文的nr，ns进行词频和统计；通过对词频和的比较，词频总和更高的nr或ns所属类型即为文章类型；

S3.3，获取关键描述；获取策略如下：

(a)当前词语长度是否超过2，不满足则输出否；

(b)当前词语的词频是否大于等于2，不满足则输出否；

(c)当前词语词性是否为所要求的描述性词语词性，不满足则输出否；其中，所要求的描述性词语词性为形容词、习惯用语、俗语、成语；

(d)同时满足(a)、(b)、(c)条件的，判断词语属于关键描述；

(e)特殊情况下，出现次数超过3次且长度大于等于2的一般名词及专有名词将被判断属于关键描述；

(f)当列表读取结束，总标签数仍不满足目标的情况下，对词汇列表中词频为1，但字数在4个以上的俗语及成语进行补充录入；

S4，最终的标签结果，由文章类型、核心实体、关键描述三项总计不超过6个词汇组成；对标签结果进行输出。

另外，本发明还提供了一种基于关联数据的小学语文作文素材结构化存储装置，包括信息采集模块、RDF模型生成模块及数据存储模块。

所述信息采集模块，用于对小学语文作文原始语料进行信息采集，包括基础信息中的文章的作者、标题、所属的年级、文章的内容及文章的摘要内容，利用基于文本自动摘要的小学语文作文标签提取方法得到文本的标签信息，同时为当前数据项保存非内容项目，即URI及关联地址。

所述RDF模型生成模块，用于将采集到的信息转为RDF模型，在RDF模型中用各类XML标签标识属性，其中，<type>表示小学语文标签中的文章类型；<author>、<title>、<grade>分别表示作文的作者、标题以及所属年级；<subject>表示主要描写对象，<adjective>表示标签中的针对主要描写对象的描述性词汇，<subject>和<adjective>使用RDF有序容器标签<Seq>装载，因为核心实体及关键描述在获取时依据词频权重排序，且数量不唯一，因此采用有序容器进行装载；<content>表示小学语文作文语料的具体文本内容，<summarization>表示在小学语文作文文本自动摘要结果；<connection>表示当前数据与其它数据之间的关联，即存储其它数据的URI地址，使用RDF无序容器标签<Bag>标记，该属性的值为与当前资源相关性较高的资源对应的URI；<RDF>标签为根标签，<Description>标签中的about值即为使用HTTP URI形式的数据唯一标识。

所述数据存储模块，用于存储最终的RDF模型数据。

本发明基于关联数据的小学语文作文素材存储方法与装置，可以对小学语文作文素材进行有效的组织管理，同时本发明可以将原始非结构化数据转换为结构化数据，使得原始小学语文素材语料在经过本发明处理后，更加适合计算机大批量处理的场景。

附图说明

图1为本发明结构化存储方法的流程图。

图2为本发明结构化存储装置的组成示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

如图1所示，本发明实施例提供了一种基于关联数据的小学语文作文素材结构化存储方法，包括以下步骤：

101、获取文本的基础信息；

具体地，包括文章的作者、标题、所属的年级、文章的内容、文章的摘要内容。

102、获取文本的标签信息；

采用基于文本摘要的小学语文作文语料标签自动提取方法获取文本的标签信息，具体步骤如下：

S3，将分词及词性识别后的词汇列表，按照词频进行降序排序后，依据小学语文作文语料标签定义进行标签的自动化提取，其中，小学语文作文语料标签包括Type(文章类型)、Subject(核心实体)、Adjective(关键描述)，提取策略如下：

S3.1，获取核心实体；

提取词频最高的1-2个nr，ns作为核心实体；

S3.2，获取文章类型；

S3.3，获取关键描述；获取策略如下：

(a)当前词语长度是否超过2，不满足则输出否；

(b)当前词语的词频是否大于等于2，不满足则输出否；

(d)同时满足(a)、(b)、(c)条件的，判断词语属于关键描述；

103、获取文本的标识信息；

具体地，基于关联数据思想，通过URI为数据进行唯一标识，并通过关联数据地址建立数据之间的关联。

104、根据获取的基础信息、标签信息、标识信息生成结构化数据。

如图2所示，本实施例提供了一种基于关联数据的小学语文作文素材结构化存储装置，包括信息采集模块、RDF模型生成模块及数据存储模块。

201，信息采集模块，用于对小学语文作文原始语料进行信息采集，包括文本的基础信息、标签信息及标识信息。

202，RDF模型生成模块，用于将采集到的信息转为RDF模型，在RDF模型中用各类XML标签标识属性，

其中，<type>表示小学语文标签中的文章类型；<author>、<title>、<grade>分别表示作文的作者、标题以及所属年级；<subject>表示主要描写对象，<adjective>表示标签中的针对主要描写对象的描述性词汇，<subject>和<adjective>使用RDF有序容器标签<Seq>装载；<content>表示小学语文作文语料的具体文本内容，<summarization>表示在小学语文作文文本自动摘要结果；<connection>表示当前数据与其它数据之间的关联，即存储其它数据的URI地址，使用RDF无序容器标签<Bag>标记，该属性的值为与当前资源相关性较高的资源对应的URI；<RDF>标签为根标签，<Description>标签中的about值即为使用HTTP URI形式的数据唯一标识。

203，数据存储模块，用于存储最终的RDF模型数据。

本说明书中未作详细描述的内容，属于本专业技术人员公知的现有技术。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于关联数据的小学语文作文素材结构化存储方法，其特征在于该方法包括以下步骤：

(1)获取文本的基础信息；对文本基础信息进行提取，包括Author--文章的作者、Title--文章的标题、Grade--文章所属的年级、Content--文章的内容、Summarization--文章的摘要内容；

(2)获取文本的标签信息；对小学语文作文原始语料进行文本标签获取，包括Type--文章所归属的类型、Subject--文章主要描写的对象、Adjective--针对主要描写对象的描述性词汇；

S3，将分词及词性识别后的词汇列表，按照词频进行降序排序后，依据小学语文作文语料标签定义进行标签的自动化提取，其中，小学语文作文语料标签包括Type、Subject、Adjective，提取策略如下：

S3.1，获取Subject即核心实体；

提取词频最高的1-2个nr，ns作为核心实体；

S3.2，获取Type即文章类型；

S3.3，获取Adjective即关键描述；获取策略如下：

(a)当前词语长度是否超过2，不满足则输出否；

(b)当前词语的词频是否大于等于2，不满足则输出否；

(d)同时满足(a)、(b)、(c)条件的，判断词语属于关键描述；

S4，最终的标签结果，由文章类型、核心实体、关键描述三项总计不超过6个词汇组成；对标签结果进行输出；

(3)获取文本的标识信息；对小学语文作文存储所必须的参数信息进行统一规定，包括URI--唯一标识当前作文的一组URI地址、Connection--一组与当前作文具有关联性的其它文章URI地址；

2.一种基于关联数据的小学语文作文素材结构化存储装置，其特征在于：该装置包括信息采集模块、RDF模型生成模块及数据存储模块；

所述信息采集模块，用于对小学语文作文原始语料进行信息采集，包括基础信息中的文章的作者、标题、所属的年级、文章的内容及文章的摘要内容，利用基于文本摘要的小学语文作文语料标签自动提取方法获取文本的标签信息，同时为当前数据项保存非内容项目，即URI及关联地址；

其中，采用基于文本摘要的小学语文作文语料标签自动提取方法获取文本的标签信息，具体步骤如下：

S3.1，获取Subject即核心实体；

提取词频最高的1-2个nr，ns作为核心实体；

S3.2，获取Type即文章类型；

S3.3，获取Adjective即关键描述；获取策略如下：

(a)当前词语长度是否超过2，不满足则输出否；

(b)当前词语的词频是否大于等于2，不满足则输出否；

(d)同时满足(a)、(b)、(c)条件的，判断词语属于关键描述；

所述RDF模型生成模块，用于将采集到的信息转为RDF模型，在RDF模型中用各类XML标签标识属性，其中，<type>表示小学语文标签中的文章类型；<author>、<title>、<grade>分别表示作文的作者、标题以及所属年级；<subject>表示主要描写对象，<adjective>表示标签中的针对主要描写对象的描述性词汇，<subject>和<adjective>使用RDF有序容器标签<Seq>装载；<content>表示小学语文作文语料的具体文本内容，<summarization>表示在小学语文作文文本自动摘要结果；<connection>表示当前数据与其它数据之间的关联，即存储其它数据的URI地址，使用RDF无序容器标签<Bag>标记，该属性的值为与当前资源相关性较高的资源对应的URI；<RDF>标签为根标签，<Description>标签中的about值即为使用HTTP URI形式的数据唯一标识；

所述数据存储模块，用于存储最终的RDF模型数据。