CN109033064A - 一种基于文本摘要的小学语文作文语料标签自动提取方法与装置 - Google Patents
一种基于文本摘要的小学语文作文语料标签自动提取方法与装置 Download PDFInfo
- Publication number
- CN109033064A CN109033064A CN201810552976.8A CN201810552976A CN109033064A CN 109033064 A CN109033064 A CN 109033064A CN 201810552976 A CN201810552976 A CN 201810552976A CN 109033064 A CN109033064 A CN 109033064A
- Authority
- CN
- China
- Prior art keywords
- label
- primary language
- speech
- participle
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明属于信息技术领域,提供一种基于文本摘要的小学语文作文语料标签自动提取方法与装置,包括以下步骤:文本自动摘要;分词及词性标注;将分词及词性标注后的词汇列表,按照词频进行降序排序后,依据小学语文作文语料标签定义进行标签的自动化提取;输出标签结果。本发明标签自动提取方法与装置能够有效地去除文本冗余,并获取小学语文作文语料结构化数据所需的文本标签,有利于小学语文作文语料素材的合理组织。
Description
技术领域
本发明属于信息技术领域,具体涉及一种基于文本摘要的小学语文作文语料标签自动提取方法与装置。
技术背景
在当前小学语文作文教学信息化过程中,作文语料素材的重要性被反复强调。但是目前小学语文作文语料素材存在着严重的组织不合理问题,极易引起小学生的知识过载。素材无法被合理的组织,主要是由于小学语文作文语料属于非结构化数据,缺少被计算机高效处理的结构化数据特征。另一方面,数据的结构化过程由于文本冗余的存在准确度难以提升。
发明内容
本发明的目的就是为了克服现有技术中的不足,提出一种基于文本摘要的小学语文作文标签的自动提取方法与装置,能够有效地去除文本冗余,并获取小学语文作文语料结构化数据所需的文本标签。
本发明的目的是通过以下技术方案实现的。
一种基于文本摘要的小学语文作文语料标签自动提取方法,包括以下步骤:
(1)采用基于BM25相似度算法的TextRank算法对原始小学语文作文语料进行摘要处理,去除冗余;
(2)对摘要处理后的文本采用基于N-最短路径算法的分词方法进行分词及词性标注,分词的过程中,通过层叠隐马尔科夫模型对分词结果进行命名实体识别,其中词性nr代表人名实体,ns代表地名实体,nz代表专有名词;
(3)将分词及词性识别后的词汇列表,按照词频进行降序排序后,依据小学语文作文语料标签定义进行标签的自动化提取,
所述小学语文作文语料标签定义如下表所示:
词汇词性的选取范围如下表所示:
提取策略如下:
(3-1)获取核心实体;
提取词频最高的1-2个nr,ns作为核心实体;
(3-2)获取文章类型;
对全文的nr,ns进行词频和统计;通过对词频和的比较,词频总和更高的nr或ns所属类型即为文章类型;
(3-2)获取关键描述;获取策略如下:
(a)当前词语长度是否超过2,不满足则输出否;
(b)当前词语的词频是否大于等于2,不满足则输出否;
(c)当前词语词性是否为所要求的描述性词语词性,不满足则输出否;其中,所要求的描述性词语词性指形容词(词性为a)、习惯用语,俗语(词性为l)、成语(词性为i);
(d)同时满足(a)、(b)、(c)条件的,判断词语属于关键描述;
(e)特殊情况下,出现次数超过3次且长度大于等于2的一般名词(词性为n)及专有名词(词性为nz)将被判断属于关键描述;
(f)当列表读取结束,总标签数仍不满足目标的情况下,对词汇列表中词频为1,但字数在4个以上的俗语及成语进行补充录入;
(4)最终的标签结果,由文章类型、核心实体、关键描述三项总计不超过6个词汇组成;对标签结果进行输出。
另外,本发明还提供了一种基于文本摘要的小学语文作文语料标签自动提取装置,该装置包括文本摘要模块、分词及词性标注模块、核心分析模块及输出模块。
所述文本摘要模块采用基于BM25相似度算法的TextRank算法对原始小学语文作文语料进行摘要处理;
所述分词及词性标注模块通过N-最短路径算法和层叠隐马尔科夫模型对文本摘要的结果进行分词及相应的词性标注,词性标注过程中包含了命名实体识别过程,同时对生成的词汇列表,通过自建停用词表进行去除停用词操作;
所述核心分析模块传入分词及词性标注模块生成的词汇列表,借助小学语文作文标签定义对词汇进行逐个分析判断,获取合适的标签;
所述输出模块将最终的标签结果进行输出。
在上述技术方案中,该装置还包括辅助分析模块,所述辅助分析模块通过对人物、景物描写相关核心实体构建专属词典,辅助核心分析模块进行标签的判断。
命名实体识别过程是针对人或地点的具体名字或名称,但小学语文作文中包含的实体对象往往并非直呼其名。如实体对象出现“交警”时,应当将文本划分为人物描写类型。这种没有出现具体名字或名称的情况,由辅助模块进行分析。
具体地,辅助分析模块中,人物描写相关核心实体自建词典如下:
分类 | 示例 |
亲属 | 爸爸、妈妈、爷爷… |
职业 | 交警、医生、老师… |
陌生人 | 叔叔、阿姨… |
熟人 | 同桌、同学… |
景物描写相关核心实体自建词典如下:
分类 | 示例 |
自然风光 | 岛、湖… |
行政划分 | 镇、乡… |
季节 | 春、夏、秋、冬… |
人工景观 | 公园、遗址… |
本发明基于文本摘要的小学语文作文语料标签自动化提取方法与装置,能够有效地去除文本冗余,并获取小学语文作文语料结构化数据所需的文本标签,有利于小学语文作文语料素材的合理组织。
附图说明
图1为本发明提取方法的流程图。
图2为本发明提取装置的组成示意图。
图3为标签定义模板。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
如图1所示,本发明实施例提供了一种基于文本摘要的小学语文作文语料标签自动提取方法,包括以下步骤:
101,采用基于BM25相似度算法的TextRank算法对原始小学语文作文语料进行自动摘要处理,去除冗余;
102,对摘要处理后的文本采用基于N-最短路径算法的分词方法进行分词及词性标注,分词的过程中,通过层叠隐马尔科夫模型对分词结果进行命名实体识别,其中词性nr代表人名实体,ns代表地名实体,nz代表专有名词;
103,获取标签定义中的核心实体;
将分词及词性识别后的词汇列表,按照词频进行降序排序后,提取词频最高的1-2个nr,ns作为标签定义中的核心实体;标签定义模板如图3所示。
104,获取标签定义中的文章类型;
对全文的nr,ns进行词频和统计;通过对词频和的比较,词频总和更高的nr或ns所属类型即为文章类型;
105,获取关键描述的词汇;获取策略如下:
(a)当前词语长度是否超过2,不满足则输出否;
(b)当前词语的词频是否大于等于2,不满足则输出否;
(c)当前词语词性是否为所要求的描述性词语词性,不满足则输出否;其中,所要求的描述性词语词性指形容词(词性为a)、习惯用语,俗语(词性为l)、成语(词性为i);
(d)同时满足(a)、(b)、(c)条件的,判断词语属于关键描述;
(e)特殊情况下,出现次数超过3次且长度大于等于2的一般名词及专有名词将被判断属于关键描述;
(f)当列表读取结束,总标签数仍不满足目标的情况下,对词汇列表中词频为1,但字数在4个以上的俗语及成语进行补充录入;
106,生成标签,最终的标签结果由文章类型、核心实体、关键描述三项总计不超过6个词汇组成;对标签结果进行输出。
如图2所示,本实施例提供了一种基于文本摘要的小学语文作文语料标签自动提取装置,包括文本摘要模块、分词及词性标注模块、核心分析模块、辅助分析模块及输出模块。
201,文本摘要模块,采用基于BM25相似度算法的TextRank算法对原始小学语文作文语料进行摘要处理。
202,分词及词性标注模块,通过N-最短路径算法和层叠隐马尔科夫模型对文本摘要的结果进行分词及相应的词性标注,词性标注过程中包含了命名实体识别过程,生成词汇列表;在该模块中,通过自建停用词表对词汇列表进行去除停用词操作以提升效率。
203,核心分析模块,传入分词及词性标注模块生成的词汇列表,借助小学语文作文标签定义对词汇进行逐个分析判断,获取合适的标签。
204,辅助分析模块,通过对人物、景物描写相关核心实体构建专属词典,辅助核心分析模块进行标签的判断。
具体地,由于核心分析模块中,对于小学语文作文语料领域专有词语无法准确获取,因此在辅助分析模块中通过自建词典辅助分析,人物描写相关核心实体自建词典如下:
分类 | 示例 |
亲属 | 爸爸、妈妈、爷爷… |
职业 | 交警、医生、老师… |
陌生人 | 叔叔、阿姨… |
熟人 | 同桌、同学… |
景物描写相关核心实体自建词典如下:
分类 | 示例 |
自然风光 | 岛、湖… |
行政划分 | 镇、乡… |
季节 | 春、夏、秋、冬… |
人工景观 | 公园、遗址… |
205,输出模块,将最终的标签结果进行输出。
本说明书中未作详细描述的内容,属于本专业技术人员公知的现有技术。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于文本摘要的小学语文作文语料标签自动提取方法,其特征在于该方法包括以下步骤:
(1)采用基于BM25相似度算法的TextRank算法对原始小学语文作文语料进行摘要处理,去除冗余;
(2)对摘要处理后的文本采用基于N-最短路径算法的分词方法进行分词及词性标注,分词的过程中,通过层叠隐马尔科夫模型对分词结果进行命名实体识别,其中词性nr代表人名实体,ns代表地名实体,nz代表专有名词;
(3)将分词及词性识别后的词汇列表,按照词频进行降序排序后,依据小学语文作文语料标签定义进行标签的自动化提取,所述小学语文作文语料标签包括文章类型、核心实体、关键描述,提取策略如下:(3-1)获取核心实体;
提取词频最高的1-2个nr,ns作为核心实体;
(3-2)获取文章类型;
对全文的nr,ns进行词频和统计;通过对词频和的比较,词频总和更高的nr或ns所属类型即为文章类型;
(3-2)获取关键描述;获取策略如下:
(a)当前词语长度是否超过2,不满足则输出否;
(b)当前词语的词频是否大于等于2,不满足则输出否;
(c)当前词语词性是否为所要求的描述性词语词性,不满足则输出否;其中,所要求的描述性词语词性为形容词、习惯用语、俗语、成语;
(d)同时满足(a)、(b)、(c)条件的,判断词语属于关键描述;
(e)特殊情况下,出现次数超过3次且长度大于等于2的一般名词及专有名词将被判断属于关键描述;
(f)当列表读取结束,总标签数仍不满足目标的情况下,对词汇列表中词频为1,但字数在4个以上的俗语及成语进行补充录入;
(4)最终的标签结果,由文章类型、核心实体、关键描述三项总计不超过6个词汇组成;对标签结果进行输出。
2.一种基于文本摘要的小学语文作文语料标签自动提取装置,其特征在于:该装置包括文本摘要模块、分词及词性标注模块、核心分析模块及输出模块;
所述文本摘要模块采用基于BM25相似度算法的TextRank算法对原始小学语文作文语料进行摘要处理;
所述分词及词性标注模块通过N-最短路径算法和层叠隐马尔科夫模型对文本摘要的结果进行分词及相应的词性标注,词性标注过程中包含了命名实体识别过程,同时对生成的词汇列表,通过自建停用词表进行去除停用词操作;
所述核心分析模块传入分词及词性标注模块生成的词汇列表,借助小学语文作文标签定义对词汇进行逐个分析判断,获取合适的标签;
所述输出模块将最终的标签结果进行输出。
3.根据权利要求2所述的基于文本摘要的小学语文作文语料标签自动提取装置,其特征在于:该装置还包括辅助分析模块,所述辅助分析模块通过对人物、景物描写相关核心实体构建专属词典,辅助核心分析模块进行标签的判断。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810552976.8A CN109033064B (zh) | 2018-05-31 | 2018-05-31 | 一种基于文本摘要的小学语文作文语料标签自动提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810552976.8A CN109033064B (zh) | 2018-05-31 | 2018-05-31 | 一种基于文本摘要的小学语文作文语料标签自动提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109033064A true CN109033064A (zh) | 2018-12-18 |
CN109033064B CN109033064B (zh) | 2022-06-28 |
Family
ID=64612027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810552976.8A Active CN109033064B (zh) | 2018-05-31 | 2018-05-31 | 一种基于文本摘要的小学语文作文语料标签自动提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109033064B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110264792A (zh) * | 2019-06-17 | 2019-09-20 | 上海元趣信息技术有限公司 | 一种针对小学生作文智能辅导系统 |
CN110414006A (zh) * | 2019-07-31 | 2019-11-05 | 京东方科技集团股份有限公司 | 文本的主题标注方法、装置、电子设备及存储介质 |
CN112214992A (zh) * | 2020-10-14 | 2021-01-12 | 哈尔滨福涛科技有限责任公司 | 一种基于深度学习和规则结合的记叙文结构分析方法 |
CN113761919A (zh) * | 2020-06-04 | 2021-12-07 | 国家计算机网络与信息安全管理中心 | 一种口语化短文本的实体属性提取方法及电子装置 |
CN116611514A (zh) * | 2023-07-19 | 2023-08-18 | 中国科学技术大学 | 一种基于数据驱动的价值取向评估体系构建方法 |
US11829400B2 (en) | 2021-05-05 | 2023-11-28 | International Business Machines Corporation | Text standardization and redundancy removal |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572849A (zh) * | 2014-12-17 | 2015-04-29 | 西安美林数据技术股份有限公司 | 基于文本语义挖掘的标准化自动建档方法 |
US20170139899A1 (en) * | 2015-11-18 | 2017-05-18 | Le Holdings (Beijing) Co., Ltd. | Keyword extraction method and electronic device |
CN107291952A (zh) * | 2017-07-28 | 2017-10-24 | 广州多益网络股份有限公司 | 一种提取有意义串的方法及装置 |
CN107436922A (zh) * | 2017-07-05 | 2017-12-05 | 北京百度网讯科技有限公司 | 文本标签生成方法和装置 |
-
2018
- 2018-05-31 CN CN201810552976.8A patent/CN109033064B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572849A (zh) * | 2014-12-17 | 2015-04-29 | 西安美林数据技术股份有限公司 | 基于文本语义挖掘的标准化自动建档方法 |
US20170139899A1 (en) * | 2015-11-18 | 2017-05-18 | Le Holdings (Beijing) Co., Ltd. | Keyword extraction method and electronic device |
CN107436922A (zh) * | 2017-07-05 | 2017-12-05 | 北京百度网讯科技有限公司 | 文本标签生成方法和装置 |
CN107291952A (zh) * | 2017-07-28 | 2017-10-24 | 广州多益网络股份有限公司 | 一种提取有意义串的方法及装置 |
Non-Patent Citations (1)
Title |
---|
李楠等: "一种新的融合BM25与文本特征的新闻摘要算法", 《成都信息工程大学学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110264792A (zh) * | 2019-06-17 | 2019-09-20 | 上海元趣信息技术有限公司 | 一种针对小学生作文智能辅导系统 |
CN110264792B (zh) * | 2019-06-17 | 2021-11-09 | 上海元趣信息技术有限公司 | 一种针对小学生作文智能辅导系统 |
CN110414006A (zh) * | 2019-07-31 | 2019-11-05 | 京东方科技集团股份有限公司 | 文本的主题标注方法、装置、电子设备及存储介质 |
CN113761919A (zh) * | 2020-06-04 | 2021-12-07 | 国家计算机网络与信息安全管理中心 | 一种口语化短文本的实体属性提取方法及电子装置 |
CN112214992A (zh) * | 2020-10-14 | 2021-01-12 | 哈尔滨福涛科技有限责任公司 | 一种基于深度学习和规则结合的记叙文结构分析方法 |
US11829400B2 (en) | 2021-05-05 | 2023-11-28 | International Business Machines Corporation | Text standardization and redundancy removal |
CN116611514A (zh) * | 2023-07-19 | 2023-08-18 | 中国科学技术大学 | 一种基于数据驱动的价值取向评估体系构建方法 |
CN116611514B (zh) * | 2023-07-19 | 2023-10-10 | 中国科学技术大学 | 一种基于数据驱动的价值取向评估体系构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109033064B (zh) | 2022-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109033064A (zh) | 一种基于文本摘要的小学语文作文语料标签自动提取方法与装置 | |
CN109829159B (zh) | 一种古汉语文本的一体化自动词法分析方法及系统 | |
CN106055538B (zh) | 主题模型和语义分析相结合的文本标签自动抽取方法 | |
Mubarak et al. | Using Twitter to collect a multi-dialectal corpus of Arabic | |
Duwairi | Machine learning for Arabic text categorization | |
CN110263319A (zh) | 一种基于网页文本的学者观点抽取方法 | |
Falk et al. | Classifying French verbs using French and English lexical resources | |
CN112948543A (zh) | 基于加权TextRank的多语言多文档摘要抽取方法 | |
CN109960756A (zh) | 新闻事件信息归纳方法 | |
US20110213763A1 (en) | Web content mining of pair-based data | |
CN107943786A (zh) | 一种中文命名实体识别方法及系统 | |
Hong et al. | Understanding blooming human groups in social networks | |
CN106372056A (zh) | 一种基于自然语言的主题与关键词的提取方法和系统 | |
CN111444704A (zh) | 基于深度神经网络的网络安全关键词抽取方法 | |
Li et al. | Classifying what-type questions by head noun tagging | |
CN105354184B (zh) | 一种使用优化的向量空间模型实现文档自动分类的方法 | |
CN107894976A (zh) | 一种基于Bi‑LSTM的混合语料分词方法 | |
CN113761128A (zh) | 领域同义词典与模式匹配相结合的事件关键信息抽取方法 | |
CN108932296A (zh) | 一种基于关联数据的小学语文作文素材结构化存储方法与装置 | |
Saadane et al. | Automatic identification of maghreb dialects using a dictionary-based approach | |
Fadoua et al. | Natural language processing for Amazigh language: Challenges and future directions | |
CN103020046A (zh) | 基于人名起源分类的人名音译方法 | |
Davarpanah et al. | Farsi lexical analysis and stop word list | |
CN108763487A (zh) | 一种基于Mean Shift的融合词性和句子信息的词表示方法 | |
CN103902524A (zh) | 维吾尔语句子边界识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |