CN116108204B - 基于知识图谱融合多维嵌套泛化模式的作文评语生成方法 - Google Patents

基于知识图谱融合多维嵌套泛化模式的作文评语生成方法 Download PDF

Info

Publication number
CN116108204B
CN116108204B CN202310158304.XA CN202310158304A CN116108204B CN 116108204 B CN116108204 B CN 116108204B CN 202310158304 A CN202310158304 A CN 202310158304A CN 116108204 B CN116108204 B CN 116108204B
Authority
CN
China
Prior art keywords
comment
composition
analysis
generalization
points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310158304.XA
Other languages
English (en)
Other versions
CN116108204A (zh
Inventor
邹盼湘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Century Huake Technology Co ltd
Original Assignee
Guangzhou Century Huake Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Century Huake Technology Co ltd filed Critical Guangzhou Century Huake Technology Co ltd
Priority to CN202310158304.XA priority Critical patent/CN116108204B/zh
Publication of CN116108204A publication Critical patent/CN116108204A/zh
Application granted granted Critical
Publication of CN116108204B publication Critical patent/CN116108204B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于知识图谱融合多维嵌套泛化模式的作文评语生成方法,包括步骤:S1、构建关联作文类型、点评维度、维度分析点、分析点分级区间的点评知识图谱;S2、构建关联所有作文类型、每个类型下所有点评维度、每个点评维度下所有分析点、每个分析点下所有分级区间的支持嵌套的多维嵌套泛化模式库;S3、利用点评知识图谱、多维嵌套泛化模式库进行作文评语语句生成。本发明通过点评知识图谱引导机器在点评过程中针对不同类型作文的点评方向,并通过多维嵌套泛化模式利用少量的样本生成复杂多变的表述形式,从而将知识图谱和多维嵌套泛化模式进行有机结合,生成的评语语句通顺合理,评语生成模块易维护、易扩展、评语生成过程可解释。

Description

基于知识图谱融合多维嵌套泛化模式的作文评语生成方法
技术领域
本发明属于自然语言处理的技术领域,尤其涉及一种基于知识图谱融合多维嵌套泛化模式的作文评语生成方法。
背景技术
自然语言生成是自然语言处理的一个重要应用领域,实现高质量的自然语言生成也是迈向认知智能的重要标志。按照输入信息的类型划分,自然语言生成可以分为三类:文本到文本的生成、数据到文本生成和图像到文本生成。其中,文本到文本生成又可划分为机器翻译、摘要生成、文本简化、文本复述等;数据到文本生成的任务常应用于基于数值数据生成分析报告、诊断报告等;在图像到文本的生成的应用领域中,常见的是通过新闻图像生成标题、通过医学影像生成病理报告、儿童教育中看图讲故事等。
如今最常见的文本生成方法是模版生成和深度学习模型生成。模板生成方法是最早应用于自然语言生成的一种方法。该技术通过人工整理语句模版得到模块库,然后将词汇和短句在模板库中进行匹配,匹配后将词汇和短语填入固定模板,从而生成自然语言文本。深度学习模型生成的方法是通过训练语料训练得到自然语言生成模型(常见的有LSTM模型、序列到序列模型、BERT模型等),然后通过模型生成所需的文本内容。
模板生成方法的优点是思路较简单,但因技术存在的缺陷使得生成的自然语言文本质量不高、模版整理工作量大,且不易维护。该技术多应用于较简单的自然语言生成环境中。深度学习模型虽然模型种类繁多,也取得了一定的效果,但是生成的文本无法干预、生成过程无法解释、不易扩展和维护,并且需要耗费大量的标注成本和硬件资源。
因此,如何能够准确的生成指定领域的文本,并且能够根据分析结果动态调整文本的内容,生成的文本多样化、易维护、易扩展,仍是急需解决的问题。
发明内容
为了解决现有技术存在的不足,本发明提出了一种基于知识图谱融合多维嵌套泛化模式的作文点评评语生成方法,旨在对作文的各维度分析点的分析结果准确、高效的生成作文评语。
为了实现上述目的,本发明的一个实施方式的一种基于知识图谱融合多维嵌套泛化模式的作文评语生成方法,包括以下步骤:
S1、构建关联作文类型、点评维度、维度分析点及分析点分级区间的点评知识图谱;
S2、构建关联所有作文类型、每个类型下所有点评维度、每个点评维度下所有分析点及每个分析点下所有分级区间的支持嵌套的多维嵌套泛化模式库;
S3、利用点评知识图谱及多维嵌套泛化模式库进行作文评语语句生成。
进一步地,所述步骤S1、构建关联作文类型、点评维度、维度分析点及分析点分级区间的点评知识图谱,具体为:
S11、整理汉语作文的类型;
所述作文类型包括但不限于记叙文、议论文、说明文、应用文、读/观后感、散文、小说、诗歌、想象及童话;
S12、整理每种作文类型的点评维度;
所述点评维度包括:作文形式、作文内容、作文结构、作文中心、作文表达以及综合素养;
S13、整理每个点评维度的分析点;
所述作文形式的分析点包括作文标题分析、作文段落布局分析、作文语句分布、作文拼写错误检测、作文生僻字/敏感词/网络词的使用及标点符号使用;
所述作文内容的分析点包括作文的选材分析、作文的知识面及作文内容丰富度分析;
所述作文结构的分析点包括作文构思分析及作文层次分析;
所述作文中心的分析点包括作文立意分析及中心突出分析;
所述作文表达的分析点包括作文修辞手法分析、作文写作技法分析、作文可读性分析、作文的字词使用分析,所述作文写作技法又包括描写手法、表现手法及五感法;
所述综合素养包括思维素养、情感素养及发展素养;
S14、对每个点评维度的分析点根据分析结果进行分级得到分级区间;
所述分级区间根据不同分析点的分析结果分为三种分级区间类型,第一种分级区间类型包括优、良、合格、差四个分级区间;第二种分级区间类型包括优、良、差三个分级区间;第三种分级区间类型包括优、差两个分级区间;
S15、建立作文类型、点评维度、每个点评维度的分析点、分析点的分级之间的关联关系,得到点评知识图谱。
进一步地,所述步骤S2、构建关联所有作文类型、每个类型下所有点评维度、每个点评维度下所有分析点及每个分析点下所有分级区间的支持嵌套的多维嵌套泛化模式库,具体为:
S21、整理泛化模式的表述类型;
所述表述类型包括但不限于关联表述、陈述表述、举例表述、赞美表述、疑问表述及反问表述;
S22、整理所有作文类型每个点评维度、每个分析点分级区间下常见泛化模式集合,并标明表述类型标签;
S23、将泛化模式集合进行结构化入库,得到多维嵌套泛化模式库;
将表述类型、表述泛化模式存储到数据库中,建立多维嵌套泛化模式表,每个泛化模式带上表述类型标签、关联的点评维度分析点标签、分析点的区间标签。
进一步地,步骤S3、利用点评知识图谱及多维嵌套泛化模式库进行作文评语语句生成,具体为:
S31、对输入的作文获取作文每个点评维度中每个分析点的分析结果;
S32、根据作文的类型在点评知识图谱中获取点评的维度、每个点评维度的分析点;
S33、对每个点评维度的分析点与作文分析结果进行匹配,得到每个分析点的分级区间;
S34、对分析点的分级区间分布进行分析筛选出优势点、薄弱点以及对应的点评维度,并按照点评维度构造点评路径;
S35、对点评路径中的每个节点在多维嵌套泛化模式库中匹配查找对应的泛化模式;
S36、将泛化模式中的泛化成分通过作文的类型、点评维度、分析点、分级区间、分析结果具体化为完整语句;
S37、将点评路径中每个泛化模式生成的语句合并组合称点评段落;
S38、对段落中每个语句的上下文通过连接词进行润色。
进一步地,所述步骤S34中筛选优势点具体为:筛选作文优势点指分析点分级区间为优的分析点,若全部分析点没有达到优则降为取良的分析点,若全部分析点没有达到良,则作文没有优势点。
进一步地,所述步骤S34中筛选薄弱点具体为:筛选作文分析点分级区间为差的分析点。
进一步地,所述步骤S34中按照点评维度构造点评路径为;提取完优势点、薄弱点后则根据作文的点评维度按照作文形式、作文内容、作文结构、作文中心、作文表达及综合素养的先后顺序构建点评路径。
进一步地,所述步骤S36、将泛化模式中的泛化成分通过作文的类型、点评维度、分析点、分级区间及分析结果具体化为完整语句,具体为:
由泛化模式得到具体化的完整语句是对泛化模式中的泛化成分,即泛化符号替代的部分,利用具体的内容进行替换的过程,其中实体类型泛化成分用已知信息中满足泛化符号中指定的实体类型的词进行替换;短语类型泛化成分和语句类型泛化成分根据分析点的分级区间来提取合适的表述类型后再进行替换;若为优势点分析点,则提取赞美性的表述类型,若为劣势点,则提取陈述类或者建议类的表述类型。
进一步地,所述步骤S22、整理所有作文类型每个点评维度、每个分析点分级区间下常见泛化模式集合,并标明表述类型标签,具体为:
S221、整理每种表述类型下的常用表述形式;
S222、抽取常用表述形式中的主干,即基本语义成分;
S223、将基本语义中的名词性的词进行泛化;
所述泛化是指将语句中可以替换的成分用泛化符号指代;若该成分可以带修饰则泛化类型为短语形式,用第一前缀符号表示;若该成分可以是独立的语句,则泛化类型为语句形式,用第二前缀符号表示;若该成分只能为独立的实体词,则为词类型,用第三前缀符号表示;
S224、整理泛化模式集合;
所述泛化模式是指每个作文点评维度下的常用表达泛化后的模式结构;泛化模式中泛化成分由前缀符号、中心词、标志位三个部分组成,中间用符号+连接,包括实体类型泛化模式、短语类型泛化模式及语句类型泛化模式。
进一步地,所述第一前缀符号为@p;所述第二前缀符号为@s;所述第三前缀符号为@w。
本发明的有益效果为:
1、本发明提出的基于知识图谱融合多维嵌套泛化模式的作文点评评语生成的方法,仅需将点评知识转化为知识图谱形式,并且收集整理少量的常用表述模式即可完成整个点评评语的生成;
2、本发明中的知识图谱,即点评知识图谱可以引导机器在点评过程中针对不同类型作文的点评方向,解决目前机器生成的点评评语没有重点、上下文不协调、逻辑不清晰的问题;
3、本发明中的多维嵌套泛化模式可以通过少量的样本便可以生成复杂多变的表述形式,大大的减少的标注的工作量;
4、本发明将知识图谱和多维嵌套泛化模式进行有机的结合,生成的评语语句通顺合理、上下文连贯,评语生成模块易维护、易扩展、评语生成过程可解释。
附图说明
图1为本发明基于知识图谱融合多维嵌套泛化模式的作文点评评语生成方法的流程图;
图2为本发明一个实施例的点评知识图谱构建流程示意图;
图3为本发明一个实施例的多维嵌套泛化模式库构建流程示意图;
图4为本发明一个实施例的点评评语生成流程示意图;
图5为本发明一个实施例的点评知识图谱结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更为清楚,下面结合附图和实施例作进一步说明。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
如附图1所示,本发明提出一种基于知识图谱融合多维嵌套泛化模式的作文评语生成方法:
知识图谱是指:点评知识图谱,即描述作文的类型、作文点评的维度以及每个维度的分析点之间的关联关系的图结构;
多维嵌套泛化模式中:
“多维”的含义是指泛化模式是按照不同点评维度、不同表述类型进行整理的;
“嵌套”的含义是指泛化模式中的泛化成分可以是独立的词、短语或者也是一个泛化模式,嵌套的存在可以使得复杂的表达在模式泛化成分的约束条件下相互组合而生成,这样便可以解决模式标注工作量大的问题,只需整理每个维度、每种表述类型的常见表述形式即可。
“泛化模式”是指带有泛化成分的表述形式,泛化成分即用泛化符号表示的可替换的成分。
知识图谱的作用为引导评语的生成路径,多维嵌套泛化模式目的是采用较少的标注样本即可完成大量的语句形式生成。
点评评语生成过程:
1、首先通过点评知识图谱获取当前作文的点评维度以及每个维度的分析点;
2、再根据分析点的分析结果对分析点进行分级;
3、然后对每个维度的每个分析点分级结果得到点评路径;
4、再根据点评路径中的每个节点去泛化模式库中查找匹配合适的表述模,生成每个节点的表述语句;
5、再将每个节点的表述语句进行组合、润色得到最终的作文点评评语。
此外,本发明解决了目前机器生成的作文评语无明确的维度分析点,不能针对不同类型的文章设定不同的点评逻辑,大多都是空话、套话的问题,并且解决了基于模版的自然语言生成上下文不连贯、模版整理工作量太大、模版匹配程度低的问题,解决了基于深度学习模型的自然语言生成过程无法解释、扩展性差、可维护性差的问题。
本发明提出一种基于知识图谱融合多维嵌套泛化模式的作文评语生成方法,包括三个过程:
(1)点评知识图谱构建过程,包括:
整理汉语作文的类型;
整理每种作文类型的点评维度;
整理每种作文类型每个维度的分析点;
对每个维度的分析点进行分级;
建立作文类型、点评维度、每个维度的分析点、分析点的分级之间的关联关系,得到点评知识图谱。
(2)多维嵌套泛化模式库构建过程,包括:
整理泛化模式的表述类型(关联表述、陈述表述、举例表述、赞美表述、疑问表述、反问表述);
整理所有作文类型每个点评维度、每个分析点分级区间下常见泛化模式集合,并标明表述类型标签;
将泛化模式集合进行结构化入库,得到多维嵌套泛化模式库。
(3)点评评语生成过程,包括:
对输入的文章获取文章分析结果;
根据文章的类型在点评知识图谱中获取点评的维度、每个维度的分析点;
对每个维度的分析点与文章分析结果进行匹配,得到每个分析点的分级区间;
对分析点的分级区间分布进行分析筛选出优势点、薄弱点以及对应的维度,并按照维度构造点评路径;
对点评路径中的每个节点在多维嵌套泛化模式库中匹配查找对应的泛化模式;
将泛化模式中的泛化成分通过文章的类型、维度、分析点、分级区间、分析结果具体化完整语句;
将点评路径中每个泛化模式生成的语句合并组合成点评段落;
对段落中每个语句的上下文通过连接词进行润色。
在一个可能的设计中,所述汉语作文的类型包括:记叙文、议论文、说明文、应用文、读/观后感、散文、小说、诗歌、想象、童话。所述记叙文又包括:写人、叙事、写景、状物四种子类型。所述应用文又包括:书信、演讲稿、申请书三种子类型。
在一个可能的设计中,作文的点评维度包括:文章形式、文章内容、文章结构、文章中心、文章表达以及综合素养六个大维度。所述文章形式的分析点包括:文章标题分析、文章段落布局分析、文章语句分布、文章拼写错误检测、文章生僻字/敏感词/网络词的使用、标点符号使用;所述文章内容的分析点包括:文章的选材分析、文章的知识面、文章内容丰富度分析;所述文章结构的分析点包括:文章构思分析、文章层次分析;所述文章中心的分析点包括:文章立意分析、中心突出分析;所述文章表达的分析点包括:文章修辞手法分析、文章写作技法分析、文章可读性分析、文章的字词使用分析,所述文章写作技法又包括描写手法、表现手法和五感法;综合素养包括:思维素养、情感素养、发展素养。
在一个可能的设计中,评语表述类型包括:关联表述、陈述表述、举例表述、赞美表述、疑问表述、反问表述。所述关联表述是指带有关联词(如:因为……所以……)的表述;所述陈述表述是指一般陈述句形式的表述;所述举例表述是指语句中带有例如……、如……等举例说明的表述。所述赞美表述是指带有赞美含义(如:……真美、……真棒)的表述;所述疑问表述是指一般疑问句形式的表述;所述反问表述是指反问句形式的表述。
在一个可能的设计中,泛化模式是指每个作文点评维度下的常用表达泛化后的模式结构。所述泛化的意思是指将语句中可以替换的成分用泛化符号指代。所述泛化符号用:前缀+中心词+标志位表示,包括以下三种:
(1)实体类型泛化符号为“@w+原实体+实体类型”。其中“@w”为前缀,表示泛化符号为实体类型;“原实体”为原表达中可替换的实体词;“实体类型”指原表达中中可替换的实体的实体类型。如“叙事”的实体类型为“作文类型”,“松树”的实体类型为“植物”。
(2)短语类型泛化符号为“@p+中心词词性+中心词类型”。其中“@p”为前缀,表示泛化符号为短语类型;“中心词词性”是指原表达中可替换短语的核心词的词性;“中心词类型”是指原表达中可替换短语的核心词的实体类型。若“中心词词性”为动词,则“中心词类型”为原表达中的动词本身。如:原表达“这是一篇优秀的写景散文”中“优秀的写景散文”是可替换的短语,核心词为“散文”,则中心词词性为名词,中心词类型为作文类型,原表达泛化后的模式结构为“这是,一篇,@p+名词+作文类型”,其中“@p+名词+作文类型”可以指代“不错的叙事文章”“优美的议论文”“内容丰富的记叙文”等。
(3)语句类型泛化符号为“@s+语句类型+表述类型”。其中“@s”表示泛化符号为语句类型;“语句类型”指可替换的语句成分属于什么类型的语句,包括:修辞手法类型、描写手法类型、表达手法类型;“表述类型”指可替换的语句的表述形式,包括:关联表述、陈述表述、举例表述、赞美表述、疑问表述、反问表述,若为a l l表示适用所有表述类型。
如附图1所示,本发明的一种基于知识图谱融合多维嵌套泛化模式的作文评语生成方法,其包括步骤:
101、开始。
102、构建关联作文类型、点评维度、维度分析点、分析点分级区间的点评知识图谱;
在具体实施时,可以包括以下步骤:整理汉语作文的类型;整理每种作文类型的点评维度;整理每种作文类型每个维度的分析点;对每个维度的分析点进行分级;建立作文类型、点评维度、每个维度的分析点、分析点的分级之间的关联关系,得到点评知识图谱。
103、构建关联所有作文类型、每个类型下所有点评维度、每个维度下的分析点的分级区间、支持嵌套的泛化模式库;
在具体实施时,可以包括以下步骤:整理泛化模式的表述类型(关联表述、陈述表述、举例表述、赞美表述、疑问表述、反问表述);整理所有作文类型每个点评维度、每个分析点分级区间下常见泛化模式集合,并标明表述类型标签;将泛化模式集合进行结构化入库,得到多维嵌套泛化模式库。
104、利用点评知识图谱、多维嵌套泛化模式库进行点评语句生成。
在具体实施时,可以包括以下步骤:对输入的文章获取文章分析结果;文章分析结果指:文章每个维度中每个分析点的分析结果,如段落分布的分析结果包括:超长段、超短段、段落数、段落语句数、开头长度占比、结尾长度占比、主体长度占比,文章修辞手法包括:比喻、拟人、排比、对偶、反复、顶真等,知识面包括:好词、成语、古诗词、名言名句、著名人物等。根据文章的类型在点评知识图谱中获取点评的维度、每个维度的分析点;对每个维度的分析点与文章分析结果进行匹配,得到每个分析点的分级区间;对分析点的分级区间分布进行分析筛选出优势点、薄弱点以及对应的维度,并按照维度构造点评路径;对点评路径中的每个节点在多维嵌套泛化模式库中匹配查找对应的泛化模式;将泛化模式中的泛化成分通过文章的类型、维度、分析点、分级区间、分析结果具体化完整语句;将点评路径中每个泛化模式生成的语句合并组合成点评段落;对段落中每个语句的上下文通过连接词进行润色。
105、结束。
在图1对应的任一实施例的基础上,本发明另一实施例提供的基于知识图谱融合多维嵌套泛化模式的作文点评评语生成方法中,如附图2所示,点评知识图谱构建包括步骤:
201、开始。
202、整理汉语作文类型。
建立点评知识的第一层即为作文类型,汉语作文的类型包括:记叙文、议论文、说明文、应用文、读/观后感、散文、小说、诗歌、想象、童话。其中记叙文又包括:写人、叙事、写景、状物四种子类型。应用文又包括:书信、演讲稿、申请书三种子类型。
203、对每个类型梳理点评维度。
建立点评知识图谱的第二层即每个类型下的点评维度,这里统一为六个维度,分别是:文章形式、文章内容、文章结构、文章中心、文章表达以及综合素养六个大维度。
204、对每个维度梳理维度分析点。
建立点评知识图谱的第三层是每个点评维度下的维度分析点,即这个维度应该进行哪些分析,其中文章形式的分析点包括:文章标题分析、文章段落布局分析、文章语句分布、文章拼写错误检测、文章生僻字/敏感词/网络词的使用、标点符号使用;文章内容的分析点包括:文章的选材分析、文章的知识面、文章内容丰富度分析;文章结构的分析点包括:文章构思分析、文章层次分析;文章中心的分析点包括:文章立意分析、中心突出分析;文章表达的分析点包括:文章修辞手法分析、文章写作技法分析、文章可读性分析、文章的字词使用分析,文章写作技法又包括描写手法、表现手法和五感法;综合素养包括:思维素养、情感素养、发展素养。
205、梳理每个分析点的分级区间
梳理每个分析点的分级区间是指对分析点可能的分析结果划分区间,有三种区间类型,分别为:优、良、合格、差四个等级;优、良、差三个等级;优、差两个等级。比如知识面分为优、良、合格、差对应ABCD四个等级,文章段落布局分为优、良、差三个等级;
206、将作文类型、点评维度、维度分析点、分析点分级区间进行关联生成点评知识图谱。
本文提到的点评知识图谱是指用于指导对不同类型的文章如何进行点评的依据,由于文章的类型不一样所点评的重点也不一样,因此需要梳理每个类型的文章的点评维度,此外由于在每个维度下不同的学生掌握的程度不一样,也会表现出来优劣之分,因此需要进一步将维度拆分为多个分析点,然后对基于学生对每个分析点的掌握程度来综合判断文章的优劣,这样便将作文主观、抽象的点评过程化为具体的判断依据和判断逻辑,有利于机器能够自动点评分析。点评知识图谱即是将作文类型、点评维度、维度分析点这三者进行关联,从而达到能够对每种类型的文章采用不同的方式进行点评的目的。
207、结束。
点评知识图谱结构如附图5所示,以作文类型为议论文为例展示点评知识图谱形式,包括作文类型、点评维度和每个维度的分析点之间的关联关系。
在图1对应的任一实施例的基础上,本发明另一实施例提供的基于知识图谱融合多维嵌套泛化模式的作文点评评语生成方法中,如附图3所示,多维嵌套泛化模式库建立包括步骤:
301、开始。
302、整理点评表述类型。
点评表述类型包括:关联表述、陈述表述、举例表述、赞美表述、疑问表述、反问表述。其中关联表述是指带有关联词(如:因为……所以……)的表述;陈述表述是指一般陈述句形式的表述;举例表述是指语句中带有例如……、如……等举例说明的表述。赞美表述是指带有赞美含义(如:……真美、……真棒)的表述;疑问表述是指一般疑问句形式的表述;所述反问表述是指反问句形式的表述。
303、整理所有作文类型每个点评维度、每个分析点分级区间下常见泛化模式集合,并标明表述类型标签;
这个过程是一个人工整理的过程,泛化模式集合是关联具体的作文类型、点评维度、维度分析点的分级区间的。泛化模式中泛化成分由前缀符号、中心词、标志位三个部分组成,中间用符号“+”连接;由于对文章的点评可以有多种方式,如鼓励性点评、批评性点评、建议性点评、直白式点评等,则点评的表述类型会多样,需要整理每种表述类型下的常见表述形式,然后将抽取表述中的主干,也就是基本语义成分,将基本语义中的名词性的词进行泛化,若该成分可以带修饰则泛化类型为短语形式,用前缀符号@p表示,若该成分可以是独立的语句,则泛化类型为语句形式,用前缀符号@s表示,若该成分只能为独立的实体词,则为词类型,用前缀符号@w表示。这样泛化模式中的泛化成分就可以根据前缀符号来判断其可替代的具体成分。
下面用一个实例来展示泛化模式的形式:
设当前文章类型为:记叙文,细分类型为叙事。
设针对“叙事类”文章的“文章表达”维度下的“修辞使用分析”分析点,分级区间为“优”,有常用点评表达:“这篇叙事的文章巧妙的使用了比喻的修辞手法,如文章第二段第一句“它有一对红眼睛,就像两颗嵌在雪球上的红宝石”将眼睛比喻成红宝石,生动、形象的将眼睛的特性呈现在读者面前。”
泛化过程如下:
(1)抽取基本语义成分:开始部分“这篇叙事的文章巧妙的使用了比喻的修辞手法”的基本语义为:“文章,使用了,修辞手法”,
(2)中间部分:“如文章第二段第一句“它有一对红眼睛,就像两颗嵌在雪球上的红宝石”将眼睛比喻成红宝石”整体都可以作为基本语义,
(3)最后部分:“将眼睛的特性生动、形象地呈现在读者面前”基本语义为“将,特性,呈现,面前”。
(4)开始泛化,泛化后的成分之间用“,”分隔。上述实例开始部分泛化为“@p+名词+文章类型,@p+动词+使用,了,@p+名词+修辞类型”,中间部分泛化为“如@p+名词+位置,@s+比喻句+a l l,将@w+眼睛+本体,比喻成,@w+红宝石+喻体”,最后部分泛化为“将,@p+名词+特性,@p+动词+呈现,在,@p+方位词+读者方位”。其中前缀@p表示短语结构,@s表示语句,@w表示独立的实体词。
(5)得到泛化模式,如下:
i.@p+名词+文章类型,@p+动词+使用,了,@p+名词+修辞类型
i i.如@p+名词+位置,@s+比喻句+a l l,将@w+眼睛+本体,比喻成,@w+红宝石+喻体
i i i.将,@p+名词+特性,@p+动词+呈现,在,@p+方位词+读者方位
(6)利用泛化模式生成其他点评表述:
如:利用“@p+名词+文章类型,@p+动词+使用,了,@p+名词+修辞类型”模式,“@p+名词+文章类型”可以代表:“这篇写景的文章”,“这篇写人的文章”,“该说明文”等等,利用作文分析结果即可匹配合适的替换短语。@p+动词+使用可以代表:“巧妙地使用”、“灵活地使
用”、“恰到好处地使用”等替换短语。“@p+名词+修辞类型”可以代表:“拟人的修辞手法”、“对比的修辞手法”、“夸张的修辞手法”
等替换短语。这样便可以生成多种点评语句,如:“这篇写人的文章灵活的使用了夸张的修辞手法。”、“这篇写景的文章恰到好处的使用了拟人的修辞手法”等等语句。
304、将泛化模式集合结构化入库。
305、结束。
在图1对应的任一实施例的基础上,本发明另一实施例提供的基于知识图谱融合多维嵌套泛化模式的作文评语生成方法中,如图4所示,利用点评知识图谱、多维嵌套泛化模式库生成点评语句包括步骤:
401、开始。
402、对输入的文章获取文章分析结果。
文章分析结果即指机器/人工对作文各个维度的分析结果,包括通用分析结果和针对不同作文类型的专项分析结果。通用分析指每篇文章都会进行的分析,如:文章字数、文章段落数、文章长短句分布、文章开头/结尾技巧、文章语句通顺度、文章修辞使用、文章拼写错误分析、文章引用分析、文章用词分析。专项分析是指作文类型下的分析项,如议论文的专项分析包括:论点提取、论点的积极性分析、论据提取、论据的类型分析(道理论证、事实论证、材料论证、哲理论证)、论证方法分析(举例论证、对比论证、比喻论证、归纳论证、演绎论证、因果论证)、论据的知识面分析(国内材料、国外材料、古代材料、当代材料)。由于本文探究的是如何有效的生成点评评语,因此不对文章分析方法进行详细说明。
403、根据文章的类型在点评知识图谱中获取点评的维度、每个维度的分析点。
404、对每个维度的分析点与文章分析结果进行匹配,得到每个分析点的分级区间。
405、对分析点的分级区间分布进行分析筛选出优势点、薄弱点以及对应的维度,并按照维度构造点评路径。
文章优势点指分析点分级区间为“优”的分析点,若全部分析点没有达到“优”则降为取“良”的分析点,若全部分析点最高没有达到“良”,则文章没有优势点。文章薄弱点指分析点分级区间为“差”的分析点。筛选出分析点分级区间的优势点、薄弱点主要目的是为了点评更有针对性,点评文章的优势和劣势更能让学生明白所写的文章好在哪里,哪些地方需要提升。
提取完优势点、薄弱点后则根据文章的点评维度按照文章形式、文章内容、文章结构、文章中心、文章表达、综合素养的先后顺序构建点评路径。此点评路径构建的思想为:首先从基本面来对文章的优劣进行评价;再从内容、结构、中心三个方面分析作者的选材能力、思维能力、文章组织能力、知识面;再从文章表达判断作者的文笔能力、语言运用能力;最后通过综合素养来分析作者的思维方式、情感倾向、个人发展(如:应试写作、文学家、创作者等)。
406、对点评路径中的每个节点在多维嵌套泛化模式库中匹配查找对应的泛化模式。
匹配查找泛化模式过程即根据点评维度、维度分析点、分析点分级区间从多维嵌套模式库中查找泛化模式的过程,每个节点会对应多个模式。
407、将泛化模式中的泛化成分通过文章的类型、维度、分析点、分级区间、分析结果具体化完整语句。
由泛化模式得到具体化的完整语句实际上是对泛化模式中的泛化成分(即泛化符号替代的部分)利用具体的内容进行替换的过程。实体类型泛化成分用已知信息中满足泛化符号中指定的实体类型的词进行替换。短语类型泛化成分和语句类型泛化成分根据分析点的分级区间来提取合适的表述类型后再进行替换,若为优势点分析点,则提取赞美性的表述类型,若为劣势点,则提取陈述类或者建议类的表述类型。
408、将点评路径中每个泛化模式生成的语句合并组合成点评段落。
409、对段落中每个语句的上下文通过连接词进行润色。
410、结束
本发明提供的基于知识图谱融合多维嵌套泛化模式的作文评语生成方法,首先需要构建点评知识图谱,再整理多维嵌套泛化模式库,最后利用点评知识图谱和多维嵌套泛化模式库来生成点评评语。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-On l y Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (7)

1.一种基于知识图谱融合多维嵌套泛化模式的作文评语生成方法,其特征在于,其包括以下步骤:
S1、构建关联作文类型、点评维度、维度分析点及分析点分级区间的点评知识图谱;
S2、构建关联所有作文类型、每个类型下所有点评维度、每个点评维度下所有分析点及每个分析点下所有分级区间的支持嵌套的多维嵌套泛化模式库,具体为:
S21、整理泛化模式的表述类型;
所述表述类型包括但不限于关联表述、陈述表述、举例表述、赞美表述、疑问表述及反问表述;
S22、整理所有作文类型每个点评维度、每个分析点分级区间下常见泛化模式集合,并标明表述类型标签,具体为:
S221、整理每种表述类型下的常用表述形式;
S222、抽取常用表述形式中的主干,即基本语义成分;
S223、将基本语义中的名词性的词进行泛化;
所述泛化是指将语句中可以替换的成分用泛化符号指代;若该成分可以带修饰则泛化类型为短语形式,用第一前缀符号表示;若该成分可以是独立的语句,则泛化类型为语句形式,用第二前缀符号表示;若该成分只能为独立的实体词,则为词类型,用第三前缀符号表示;
S224、整理泛化模式集合;
所述泛化模式是指每个作文点评维度下的常用表达泛化后的模式结构,泛化模式中泛化成分由前缀符号、中心词、标志位三个部分组成,中间用符号+连接,包括实体类型泛化模式、短语类型泛化模式及语句类型泛化模式;
S23、将泛化模式集合进行结构化入库,得到多维嵌套泛化模式库;
将表述类型、表述泛化模式存储到数据库中,建立多维嵌套泛化模式表,每个泛化模式带上表述类型标签、关联的点评维度分析点标签、分析点的区间标签;
S3、利用点评知识图谱及多维嵌套泛化模式库进行作文评语语句生成,具体为:
S31、对输入的作文获取作文每个点评维度中每个分析点的分析结果;
S32、根据作文的类型在点评知识图谱中获取点评的维度、每个点评维度的分析点;
S33、对每个点评维度的分析点与作文分析结果进行匹配,得到每个分析点的分级区间;
S34、对分析点的分级区间分布进行分析筛选出优势点、薄弱点以及对应的点评维度,并按照点评维度构造点评路径;
S35、对点评路径中的每个节点在多维嵌套泛化模式库中匹配查找对应的泛化模式;
S36、将泛化模式中的泛化成分通过作文的类型、点评维度、分析点、分级区间、分析结果具体化为完整语句;
S37、将点评路径中每个泛化模式生成的语句合并组合成点评段落;
S38、对段落中每个语句的上下文通过连接词进行润色。
2.根据权利要求1所述的基于知识图谱融合多维嵌套泛化模式的作文评语生成方法,其特征在于,所述步骤S1、构建关联作文类型、点评维度、维度分析点及分析点分级区间的点评知识图谱,具体为:
S11、整理汉语作文的类型;
所述作文的类型包括但不限于记叙文、议论文、说明文、应用文、读/观后感、散文、小说、诗歌、想象及童话;
S12、整理每种作文类型的点评维度;
所述点评维度包括:作文形式、作文内容、作文结构、作文中心、作文表达以及综合素养;
S13、整理每个点评维度的分析点;
所述作文形式的分析点包括作文标题分析、作文段落布局分析、作文语句分布、作文拼写错误检测、作文生僻字/敏感词/网络词的使用及标点符号使用;
所述作文内容的分析点包括作文的选材分析、作文的知识面及作文内容丰富度分析;
所述作文结构的分析点包括作文构思分析及作文层次分析;
所述作文中心的分析点包括作文立意分析及中心突出分析;
所述作文表达的分析点包括作文修辞手法分析、作文写作技法分析、作文可读性分析、作文的字词使用分析,所述作文写作技法又包括描写手法、表现手法及五感法;
所述综合素养包括思维素养、情感素养及发展素养;
S14、对每个点评维度的分析点根据分析结果进行分级得到分级区间;
所述分级区间根据不同分析点的分析结果分为三种分级区间类型,第一种分级区间类型包括优、良、合格、差四个分级区间;第二种分级区间类型包括优、良、差三个分级区间;第三种分级区间类型包括优、差两个分级区间;
S15、建立作文类型、点评维度、每个点评维度的分析点、分析点的分级之间的关联关系,得到点评知识图谱。
3.根据权利要求1所述的基于知识图谱融合多维嵌套泛化模式的作文评语生成方法,其特征在于,所述步骤S34中筛选优势点具体为:筛选作文优势点指分析点分级区间为优的分析点,若全部分析点没有达到优则降为取良的分析点,若全部分析点没有达到良,则作文没有优势点。
4.根据权利要求1所述的基于知识图谱融合多维嵌套泛化模式的作文评语生成方法,其特征在于,所述步骤S34中筛选薄弱点具体为:筛选作文分析点分级区间为差的分析点。
5.根据权利要求1所述的基于知识图谱融合多维嵌套泛化模式的作文评语生成方法,其特征在于,所述步骤S34中按照点评维度构造点评路径为;提取完优势点、薄弱点后则根据作文的点评维度按照作文形式、作文内容、作文结构、作文中心、作文表达及综合素养的先后顺序构建点评路径。
6.根据权利要求1所述的基于知识图谱融合多维嵌套泛化模式的作文评语生成方法,其特征在于,所述步骤S36、将泛化模式中的泛化成分通过作文的类型、点评维度、分析点、分级区间及分析结果具体化为完整语句,具体为:
由泛化模式得到具体化的完整语句是对泛化模式中的泛化成分,即泛化符号替代的部分,利用具体的内容进行替换的过程,其中实体类型泛化成分用已知信息中满足泛化符号中指定的实体类型的词进行替换;短语类型泛化成分和语句类型泛化成分根据分析点的分级区间来提取合适的表述类型后再进行替换;若为优势点分析点,则提取赞美性的表述类型,若为劣势点,则提取陈述类或者建议类的表述类型。
7.根据权利要求1所述的基于知识图谱融合多维嵌套泛化模式的作文评语生成方法,其特征在于,所述第一前缀符号为@p;所述第二前缀符号为@s;所述第三前缀符号为@w。
CN202310158304.XA 2023-02-23 2023-02-23 基于知识图谱融合多维嵌套泛化模式的作文评语生成方法 Active CN116108204B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310158304.XA CN116108204B (zh) 2023-02-23 2023-02-23 基于知识图谱融合多维嵌套泛化模式的作文评语生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310158304.XA CN116108204B (zh) 2023-02-23 2023-02-23 基于知识图谱融合多维嵌套泛化模式的作文评语生成方法

Publications (2)

Publication Number Publication Date
CN116108204A CN116108204A (zh) 2023-05-12
CN116108204B true CN116108204B (zh) 2023-08-29

Family

ID=86261486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310158304.XA Active CN116108204B (zh) 2023-02-23 2023-02-23 基于知识图谱融合多维嵌套泛化模式的作文评语生成方法

Country Status (1)

Country Link
CN (1) CN116108204B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116821377A (zh) * 2023-08-31 2023-09-29 南京云创大数据科技股份有限公司 基于知识图谱和大模型的小学语文自动评测系统
CN117892720B (zh) * 2024-03-15 2024-06-11 北京和气聚力教育科技有限公司 一种中文作文ai句评流水线输出方法、装置及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1442804A (zh) * 2002-03-01 2003-09-17 何万贯 自动作文评语教育系统
CN107506360A (zh) * 2016-06-14 2017-12-22 科大讯飞股份有限公司 一种文章评分方法及系统
CN108153723A (zh) * 2017-12-27 2018-06-12 北京百度网讯科技有限公司 热点资讯评论文章生成方法、装置及终端设备
US10198491B1 (en) * 2015-07-06 2019-02-05 Google Llc Computerized systems and methods for extracting and storing information regarding entities
CN109670050A (zh) * 2018-12-12 2019-04-23 科大讯飞股份有限公司 一种实体关系预测方法及装置
CN110795538A (zh) * 2019-10-30 2020-02-14 腾讯科技(深圳)有限公司 一种基于人工智能的文本评分方法和相关设备
WO2020232943A1 (zh) * 2019-05-23 2020-11-26 广州市香港科大霍英东研究院 用于事件预测的知识图构建方法与事件预测方法
CN113435179A (zh) * 2021-06-24 2021-09-24 科大讯飞股份有限公司 一种作文评阅方法、装置、设备及存储介质
CN113743086A (zh) * 2021-08-31 2021-12-03 北京阅神智能科技有限公司 一种中文作文句评输出方法
CN114239500A (zh) * 2021-12-13 2022-03-25 黑盒科技(广州)有限公司 一种可控性生成式的作文润色方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10706736B2 (en) * 2015-11-14 2020-07-07 The King Abdulaziz City For Science And Technology Method and system for automatically scoring an essay using plurality of linguistic levels
CN111144577B (zh) * 2019-12-26 2022-04-22 北京百度网讯科技有限公司 异构图之中节点表示的生成方法、装置和电子设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1442804A (zh) * 2002-03-01 2003-09-17 何万贯 自动作文评语教育系统
US10198491B1 (en) * 2015-07-06 2019-02-05 Google Llc Computerized systems and methods for extracting and storing information regarding entities
CN107506360A (zh) * 2016-06-14 2017-12-22 科大讯飞股份有限公司 一种文章评分方法及系统
CN108153723A (zh) * 2017-12-27 2018-06-12 北京百度网讯科技有限公司 热点资讯评论文章生成方法、装置及终端设备
CN109670050A (zh) * 2018-12-12 2019-04-23 科大讯飞股份有限公司 一种实体关系预测方法及装置
WO2020232943A1 (zh) * 2019-05-23 2020-11-26 广州市香港科大霍英东研究院 用于事件预测的知识图构建方法与事件预测方法
CN110795538A (zh) * 2019-10-30 2020-02-14 腾讯科技(深圳)有限公司 一种基于人工智能的文本评分方法和相关设备
CN113435179A (zh) * 2021-06-24 2021-09-24 科大讯飞股份有限公司 一种作文评阅方法、装置、设备及存储介质
CN113743086A (zh) * 2021-08-31 2021-12-03 北京阅神智能科技有限公司 一种中文作文句评输出方法
CN114239500A (zh) * 2021-12-13 2022-03-25 黑盒科技(广州)有限公司 一种可控性生成式的作文润色方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋毅宁.基于自动作文评分系统的数字化写作平台的构建及应用效果探究.《英语广场》.2019,全文. *

Also Published As

Publication number Publication date
CN116108204A (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN116108204B (zh) 基于知识图谱融合多维嵌套泛化模式的作文评语生成方法
Bernardini Think-aloud protocols in translation research: Achievements, limits, future prospects
Doró The rhetoric structure of research article abstracts in English studies journals
Hana et al. Error-tagged learner corpus of Czech
Amirian et al. Genre analysis: An investigation of the discussion sections of applied linguistics research articles
Karpenko-Seccombe Academic writing with corpora: A resource book for data-driven learning
CN111311459A (zh) 一种面向国际汉语教学的交互式出题方法及系统
Akoto Metadiscourse within a discipline: a study of introduction and literature review chapters of sociology master’s theses
Mufidah et al. An Analysis of Grammatical Error on Student's Writing
Binder Alien reading: Text mining, language standardization, and the humanities
Soltani et al. Move recycling in soft science research articles: English native speakers vs. Iranian speakers
Raupova Principles of creating an electronic dictionary of grammatical terms
Mahadini et al. Using Conventional Rubric and Coh-Metrix to Assess EFL Students' Essays.
Rau Writing for engineering and science students: Staking your claim
Nielsen Lexicography and interdisciplinarity
Dong et al. How does a research topic evolve into a research field?—a bibliometric analysis of metadiscourse research
Grigaliūnienė et al. Corpus-based learner language research: contrasting speech and writing
Yazdani et al. Metadiscourse markers of online texts: English and persian online headlines use of metadiscourse markers
Garcés Manzanera An exploratory study of primary school children's writing processes in digital environments: The use of models as written corrective feedback
Stojanov The acceptance of spelling variants as symbols of Croatian spelling changes (1994–2013)
McLean Davies et al. Reading in the (post) digital age: Large digital databases and the future of literature in secondary classrooms.
Gráf Verb Errors in Advanced Spoken English
Sotelo Using a multimedia corpus of subtitles in translation training
PHAN Implementation of Automated Feedback System for Japanese Essays in Intermediate Education
Yıldız Sample scientific texts analysis through textlinguistic approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant