CN108932296B - 一种基于关联数据的小学语文作文素材结构化存储方法与装置 - Google Patents

一种基于关联数据的小学语文作文素材结构化存储方法与装置 Download PDF

Info

Publication number
CN108932296B
CN108932296B CN201810553677.6A CN201810553677A CN108932296B CN 108932296 B CN108932296 B CN 108932296B CN 201810553677 A CN201810553677 A CN 201810553677A CN 108932296 B CN108932296 B CN 108932296B
Authority
CN
China
Prior art keywords
word
primary school
text
speech
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810553677.6A
Other languages
English (en)
Other versions
CN108932296A (zh
Inventor
朱晓亮
刘三女牙
孙建文
殷姿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN201810553677.6A priority Critical patent/CN108932296B/zh
Publication of CN108932296A publication Critical patent/CN108932296A/zh
Application granted granted Critical
Publication of CN108932296B publication Critical patent/CN108932296B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于信息技术领域,提供一种基于关联数据的小学语文作文素材结构化存储方法与装置,包括以下步骤:获取文本的基础信息;获取文本的标签信息;获取文本的标识信息;生成结构化数据并存储。本发明结构化存储方法与装置可以对小学语文作文素材进行有效的组织管理,同时本发明可以将原始非结构化数据转换为结构化数据,使得原始小学语文素材语料在经过本发明处理后,更加适合计算机大批量处理的场景。

Description

一种基于关联数据的小学语文作文素材结构化存储方法与 装置
技术领域
本发明属于信息技术领域,具体涉及一种基于关联数据的小学语文作文素材结构化存储方法与装置。
技术背景
当前小学语文作文素材数量繁多,但这些数字资源在组织存储上却缺乏章法。这一方面对推荐引擎的工作产生了阻碍,另一方面也对小学生产生了严重的知识过载,极易引发学习迷航。素材的组织混乱主要是由于小学语文作文原始语料具有典型的非结构化数据特征,难以被计算机有效利用。
关联数据是语义网的一种轻量级实现,通过元数据对需要存储的数据进行结构化描述并在数据之间建立关联。
发明内容
本发明的目的就是为了克服现有技术中的不足,提出一种基于关联数据的小学语文作文素材结构化存储方法与装置,能够有效地将非结构化数据转变为结构化数据,并为语文作文素材之间建立较好的关联性,充分满足计算机处理需求。
本发明的目的是通过以下技术方案实现的。
一种基于关联数据的小学语文作文素材结构化存储方法,包括以下步骤:
(1)获取文本的基础信息;其对应内容如下表所示:
名称 含义
Author 文章的作者
Title 文章的标题
Grade 文章所属的年级
Content 文章的内容
Summarization 文章的摘要内容
(2)获取文本的标签信息;对小学语文作文原始语料进行文本标签获取,获取标签分为Type(文章类型)、Subject(核心实体)、Adjective(关键描述)三个部分,如下表所示:
名称 含义
Type 文章所归属的类型
Subject 文章主要描写的对象
Adjective 针对主要描写对象的描述性词汇
(3)获取文本的标识信息;对小学语文作文存储所必须的参数信息进行统一规定,如下表所示:
Figure BDA0001681211970000021
(4)根据获取的基础信息、标签信息、标识信息生成结构化数据。
在上述技术方案中,采用基于文本摘要的小学语文作文语料标签自动提取方法获取文本的标签信息,具体步骤如下:
S1,采用基于BM25相似度算法的TextRank算法对原始小学语文作文语料进行摘要处理,去除冗余;
S2,对摘要处理后的文本采用基于N-最短路径算法的分词方法进行分词及词性标注,分词的过程中,通过层叠隐马尔科夫模型对分词结果进行命名实体识别,其中词性nr代表人名实体,ns代表地名实体,nz代表专有名词;
S3,将分词及词性识别后的词汇列表,按照词频进行降序排序后,依据小学语文作文语料标签定义进行标签的自动化提取,其中,小学语文作文语料标签包括Type(文章类型)、Subject(核心实体)、Adjective(关键描述),所述小学语文作文语料标签定义如下表所示:
Figure BDA0001681211970000031
Figure BDA0001681211970000041
词汇词性的选取范围如下表所示:
词性 含义
nr 人名实体
ns 地名实体
nz 专有名词
a 形容词
l 习惯用语,俗语
i 成语
提取策略如下:
S3.1,获取核心实体;
提取词频最高的1-2个nr,ns作为核心实体;
S3.2,获取文章类型;
对全文的nr,ns进行词频和统计;通过对词频和的比较,词频总和更高的nr或ns所属类型即为文章类型;
S3.3,获取关键描述;获取策略如下:
(a)当前词语长度是否超过2,不满足则输出否;
(b)当前词语的词频是否大于等于2,不满足则输出否;
(c)当前词语词性是否为所要求的描述性词语词性,不满足则输出否;其中,所要求的描述性词语词性为形容词、习惯用语、俗语、成语;
(d)同时满足(a)、(b)、(c)条件的,判断词语属于关键描述;
(e)特殊情况下,出现次数超过3次且长度大于等于2的一般名词及专有名词将被判断属于关键描述;
(f)当列表读取结束,总标签数仍不满足目标的情况下,对词汇列表中词频为1,但字数在4个以上的俗语及成语进行补充录入;
S4,最终的标签结果,由文章类型、核心实体、关键描述三项总计不超过6个词汇组成;对标签结果进行输出。
另外,本发明还提供了一种基于关联数据的小学语文作文素材结构化存储装置,包括信息采集模块、RDF模型生成模块及数据存储模块。
所述信息采集模块,用于对小学语文作文原始语料进行信息采集,包括基础信息中的文章的作者、标题、所属的年级、文章的内容及文章的摘要内容,利用基于文本自动摘要的小学语文作文标签提取方法得到文本的标签信息,同时为当前数据项保存非内容项目,即URI及关联地址。
所述RDF模型生成模块,用于将采集到的信息转为RDF模型,在RDF模型中用各类XML标签标识属性,其中,<type>表示小学语文标签中的文章类型;<author>、<title>、<grade>分别表示作文的作者、标题以及所属年级;<subject>表示主要描写对象,<adjective>表示标签中的针对主要描写对象的描述性词汇,<subject>和<adjective>使用RDF有序容器标签<Seq>装载,因为核心实体及关键描述在获取时依据词频权重排序,且数量不唯一,因此采用有序容器进行装载;<content>表示小学语文作文语料的具体文本内容,<summarization>表示在小学语文作文文本自动摘要结果;<connection>表示当前数据与其它数据之间的关联,即存储其它数据的URI地址,使用RDF无序容器标签<Bag>标记,该属性的值为与当前资源相关性较高的资源对应的URI;<RDF>标签为根标签,<Description>标签中的about值即为使用HTTP URI形式的数据唯一标识。
所述数据存储模块,用于存储最终的RDF模型数据。
本发明基于关联数据的小学语文作文素材存储方法与装置,可以对小学语文作文素材进行有效的组织管理,同时本发明可以将原始非结构化数据转换为结构化数据,使得原始小学语文素材语料在经过本发明处理后,更加适合计算机大批量处理的场景。
附图说明
图1为本发明结构化存储方法的流程图。
图2为本发明结构化存储装置的组成示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
如图1所示,本发明实施例提供了一种基于关联数据的小学语文作文素材结构化存储方法,包括以下步骤:
101、获取文本的基础信息;
具体地,包括文章的作者、标题、所属的年级、文章的内容、文章的摘要内容。
102、获取文本的标签信息;
采用基于文本摘要的小学语文作文语料标签自动提取方法获取文本的标签信息,具体步骤如下:
S1,采用基于BM25相似度算法的TextRank算法对原始小学语文作文语料进行摘要处理,去除冗余;
S2,对摘要处理后的文本采用基于N-最短路径算法的分词方法进行分词及词性标注,分词的过程中,通过层叠隐马尔科夫模型对分词结果进行命名实体识别,其中词性nr代表人名实体,ns代表地名实体,nz代表专有名词;
S3,将分词及词性识别后的词汇列表,按照词频进行降序排序后,依据小学语文作文语料标签定义进行标签的自动化提取,其中,小学语文作文语料标签包括Type(文章类型)、Subject(核心实体)、Adjective(关键描述),提取策略如下:
S3.1,获取核心实体;
提取词频最高的1-2个nr,ns作为核心实体;
S3.2,获取文章类型;
对全文的nr,ns进行词频和统计;通过对词频和的比较,词频总和更高的nr或ns所属类型即为文章类型;
S3.3,获取关键描述;获取策略如下:
(a)当前词语长度是否超过2,不满足则输出否;
(b)当前词语的词频是否大于等于2,不满足则输出否;
(c)当前词语词性是否为所要求的描述性词语词性,不满足则输出否;其中,所要求的描述性词语词性为形容词、习惯用语、俗语、成语;
(d)同时满足(a)、(b)、(c)条件的,判断词语属于关键描述;
(e)特殊情况下,出现次数超过3次且长度大于等于2的一般名词及专有名词将被判断属于关键描述;
(f)当列表读取结束,总标签数仍不满足目标的情况下,对词汇列表中词频为1,但字数在4个以上的俗语及成语进行补充录入;
S4,最终的标签结果,由文章类型、核心实体、关键描述三项总计不超过6个词汇组成;对标签结果进行输出。
103、获取文本的标识信息;
具体地,基于关联数据思想,通过URI为数据进行唯一标识,并通过关联数据地址建立数据之间的关联。
104、根据获取的基础信息、标签信息、标识信息生成结构化数据。
如图2所示,本实施例提供了一种基于关联数据的小学语文作文素材结构化存储装置,包括信息采集模块、RDF模型生成模块及数据存储模块。
201,信息采集模块,用于对小学语文作文原始语料进行信息采集,包括文本的基础信息、标签信息及标识信息。
202,RDF模型生成模块,用于将采集到的信息转为RDF模型,在RDF模型中用各类XML标签标识属性,
Figure BDA0001681211970000091
其中,<type>表示小学语文标签中的文章类型;<author>、<title>、<grade>分别表示作文的作者、标题以及所属年级;<subject>表示主要描写对象,<adjective>表示标签中的针对主要描写对象的描述性词汇,<subject>和<adjective>使用RDF有序容器标签<Seq>装载;<content>表示小学语文作文语料的具体文本内容,<summarization>表示在小学语文作文文本自动摘要结果;<connection>表示当前数据与其它数据之间的关联,即存储其它数据的URI地址,使用RDF无序容器标签<Bag>标记,该属性的值为与当前资源相关性较高的资源对应的URI;<RDF>标签为根标签,<Description>标签中的about值即为使用HTTP URI形式的数据唯一标识。
203,数据存储模块,用于存储最终的RDF模型数据。
本说明书中未作详细描述的内容,属于本专业技术人员公知的现有技术。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于关联数据的小学语文作文素材结构化存储方法,其特征在于该方法包括以下步骤:
(1)获取文本的基础信息;对文本基础信息进行提取,包括Author--文章的作者、Title--文章的标题、Grade--文章所属的年级、Content--文章的内容、Summarization--文章的摘要内容;
(2)获取文本的标签信息;对小学语文作文原始语料进行文本标签获取,包括Type--文章所归属的类型、Subject--文章主要描写的对象、Adjective--针对主要描写对象的描述性词汇;
采用基于文本摘要的小学语文作文语料标签自动提取方法获取文本的标签信息,具体步骤如下:
S1,采用基于BM25相似度算法的TextRank算法对原始小学语文作文语料进行摘要处理,去除冗余;
S2,对摘要处理后的文本采用基于N-最短路径算法的分词方法进行分词及词性标注,分词的过程中,通过层叠隐马尔科夫模型对分词结果进行命名实体识别,其中词性nr代表人名实体,ns代表地名实体,nz代表专有名词;
S3,将分词及词性识别后的词汇列表,按照词频进行降序排序后,依据小学语文作文语料标签定义进行标签的自动化提取,其中,小学语文作文语料标签包括Type、Subject、Adjective,提取策略如下:
S3.1,获取Subject即核心实体;
提取词频最高的1-2个nr,ns作为核心实体;
S3.2,获取Type即文章类型;
对全文的nr,ns进行词频和统计;通过对词频和的比较,词频总和更高的nr或ns所属类型即为文章类型;
S3.3,获取Adjective即关键描述;获取策略如下:
(a)当前词语长度是否超过2,不满足则输出否;
(b)当前词语的词频是否大于等于2,不满足则输出否;
(c)当前词语词性是否为所要求的描述性词语词性,不满足则输出否;其中,所要求的描述性词语词性为形容词、习惯用语、俗语、成语;
(d)同时满足(a)、(b)、(c)条件的,判断词语属于关键描述;
(e)特殊情况下,出现次数超过3次且长度大于等于2的一般名词及专有名词将被判断属于关键描述;
(f)当列表读取结束,总标签数仍不满足目标的情况下,对词汇列表中词频为1,但字数在4个以上的俗语及成语进行补充录入;
S4,最终的标签结果,由文章类型、核心实体、关键描述三项总计不超过6个词汇组成;对标签结果进行输出;
(3)获取文本的标识信息;对小学语文作文存储所必须的参数信息进行统一规定,包括URI--唯一标识当前作文的一组URI地址、Connection--一组与当前作文具有关联性的其它文章URI地址;
(4)根据获取的基础信息、标签信息、标识信息生成结构化数据。
2.一种基于关联数据的小学语文作文素材结构化存储装置,其特征在于:该装置包括信息采集模块、RDF模型生成模块及数据存储模块;
所述信息采集模块,用于对小学语文作文原始语料进行信息采集,包括基础信息中的文章的作者、标题、所属的年级、文章的内容及文章的摘要内容,利用基于文本摘要的小学语文作文语料标签自动提取方法获取文本的标签信息,同时为当前数据项保存非内容项目,即URI及关联地址;
其中,采用基于文本摘要的小学语文作文语料标签自动提取方法获取文本的标签信息,具体步骤如下:
S1,采用基于BM25相似度算法的TextRank算法对原始小学语文作文语料进行摘要处理,去除冗余;
S2,对摘要处理后的文本采用基于N-最短路径算法的分词方法进行分词及词性标注,分词的过程中,通过层叠隐马尔科夫模型对分词结果进行命名实体识别,其中词性nr代表人名实体,ns代表地名实体,nz代表专有名词;
S3,将分词及词性识别后的词汇列表,按照词频进行降序排序后,依据小学语文作文语料标签定义进行标签的自动化提取,其中,小学语文作文语料标签包括Type、Subject、Adjective,提取策略如下:
S3.1,获取Subject即核心实体;
提取词频最高的1-2个nr,ns作为核心实体;
S3.2,获取Type即文章类型;
对全文的nr,ns进行词频和统计;通过对词频和的比较,词频总和更高的nr或ns所属类型即为文章类型;
S3.3,获取Adjective即关键描述;获取策略如下:
(a)当前词语长度是否超过2,不满足则输出否;
(b)当前词语的词频是否大于等于2,不满足则输出否;
(c)当前词语词性是否为所要求的描述性词语词性,不满足则输出否;其中,所要求的描述性词语词性为形容词、习惯用语、俗语、成语;
(d)同时满足(a)、(b)、(c)条件的,判断词语属于关键描述;
(e)特殊情况下,出现次数超过3次且长度大于等于2的一般名词及专有名词将被判断属于关键描述;
(f)当列表读取结束,总标签数仍不满足目标的情况下,对词汇列表中词频为1,但字数在4个以上的俗语及成语进行补充录入;
S4,最终的标签结果,由文章类型、核心实体、关键描述三项总计不超过6个词汇组成;对标签结果进行输出;
所述RDF模型生成模块,用于将采集到的信息转为RDF模型,在RDF模型中用各类XML标签标识属性,其中,<type>表示小学语文标签中的文章类型;<author>、<title>、<grade>分别表示作文的作者、标题以及所属年级;<subject>表示主要描写对象,<adjective>表示标签中的针对主要描写对象的描述性词汇,<subject>和<adjective>使用RDF有序容器标签<Seq>装载;<content>表示小学语文作文语料的具体文本内容,<summarization>表示在小学语文作文文本自动摘要结果;<connection>表示当前数据与其它数据之间的关联,即存储其它数据的URI地址,使用RDF无序容器标签<Bag>标记,该属性的值为与当前资源相关性较高的资源对应的URI;<RDF>标签为根标签,<Description>标签中的about值即为使用HTTP URI形式的数据唯一标识;
所述数据存储模块,用于存储最终的RDF模型数据。
CN201810553677.6A 2018-05-31 2018-05-31 一种基于关联数据的小学语文作文素材结构化存储方法与装置 Active CN108932296B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810553677.6A CN108932296B (zh) 2018-05-31 2018-05-31 一种基于关联数据的小学语文作文素材结构化存储方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810553677.6A CN108932296B (zh) 2018-05-31 2018-05-31 一种基于关联数据的小学语文作文素材结构化存储方法与装置

Publications (2)

Publication Number Publication Date
CN108932296A CN108932296A (zh) 2018-12-04
CN108932296B true CN108932296B (zh) 2021-06-11

Family

ID=64449318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810553677.6A Active CN108932296B (zh) 2018-05-31 2018-05-31 一种基于关联数据的小学语文作文素材结构化存储方法与装置

Country Status (1)

Country Link
CN (1) CN108932296B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728861A (zh) * 2019-11-18 2020-01-24 曾秀英 一种小学语文素材收集系统及方法
CN112445784B (zh) * 2020-12-16 2023-02-21 上海芯翌智能科技有限公司 一种文本结构化的方法、设备及系统
CN112632386A (zh) * 2020-12-29 2021-04-09 广州视源电子科技股份有限公司 诗词推荐方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291952A (zh) * 2017-07-28 2017-10-24 广州多益网络股份有限公司 一种提取有意义串的方法及装置
CN107330009A (zh) * 2017-06-14 2017-11-07 腾讯科技(深圳)有限公司 主题词分类模型创建方法、创建装置及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170132282A1 (en) * 2015-11-10 2017-05-11 Michael Wayne Martin Virtual De-Normalization
US20170139899A1 (en) * 2015-11-18 2017-05-18 Le Holdings (Beijing) Co., Ltd. Keyword extraction method and electronic device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330009A (zh) * 2017-06-14 2017-11-07 腾讯科技(深圳)有限公司 主题词分类模型创建方法、创建装置及存储介质
CN107291952A (zh) * 2017-07-28 2017-10-24 广州多益网络股份有限公司 一种提取有意义串的方法及装置

Also Published As

Publication number Publication date
CN108932296A (zh) 2018-12-04

Similar Documents

Publication Publication Date Title
CN110298033B (zh) 关键词语料标注训练提取系统
Greevy et al. Classifying racist texts using a support vector machine
CN102479191B (zh) 提供多粒度分词结果的方法及其装置
Salamah et al. Microblogging opinion mining approach for kuwaiti dialect
CN102253930B (zh) 一种文本翻译的方法及装置
CN108932296B (zh) 一种基于关联数据的小学语文作文素材结构化存储方法与装置
CN102789464B (zh) 基于语意识别的自然语言处理方法、装置和系统
CN106997344A (zh) 关键词抽取系统
CN112364624B (zh) 基于深度学习语言模型融合语义特征的关键词提取方法
CN106776695B (zh) 实现文书档案价值自动鉴定的方法
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN107357777A (zh) 提取标签信息的方法和装置
CN109460477B (zh) 信息收集分类系统和方法及其检索和集成方法
JP2003150623A (ja) 言語横断型特許文献検索方法
Hofmann et al. The impact of document structure on keyphrase extraction
CN111309933B (zh) 文化资源数据自动标注系统
CN109033096A (zh) 专利文献的分类翻译方法及系统
US11874864B2 (en) Method and system for creating a domain-specific training corpus from generic domain corpora
Amrane et al. Semantic indexing of multimedia content using textual and visual information
CN112925873A (zh) 面向文本搜索需求的形式化表达方法、装置及存储介质
Wang et al. Summarizing the differences from microblogs
CN106844329A (zh) 一种基于邮件列表的开源软件问答信息抽取方法
Chavez et al. Proposal for Automatic Extraction of Taxonomic Relations in Domain Corpus.
CN112445895A (zh) 一种识别用户搜索场景的方法及系统
Gurmessa et al. Afaan Oromo Text Content-Based Fake News Detection using Multinomial Naive Bayes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant