CN110826329A - 一种基于困惑度的自动作文评分方法 - Google Patents

一种基于困惑度的自动作文评分方法 Download PDF

Info

Publication number
CN110826329A
CN110826329A CN201911107155.4A CN201911107155A CN110826329A CN 110826329 A CN110826329 A CN 110826329A CN 201911107155 A CN201911107155 A CN 201911107155A CN 110826329 A CN110826329 A CN 110826329A
Authority
CN
China
Prior art keywords
composition
confusion
gram
calculating
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911107155.4A
Other languages
English (en)
Inventor
陆文斌
张应福
周正斌
花福军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Creative Information Technology Co Ltd
Original Assignee
Creative Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Creative Information Technology Co Ltd filed Critical Creative Information Technology Co Ltd
Priority to CN201911107155.4A priority Critical patent/CN110826329A/zh
Publication of CN110826329A publication Critical patent/CN110826329A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于困惑度的自动作文评分方法,包括如下步骤:特征提取,提取作文的浅层词语特征和浅层句法特征;困惑度计算,计算作文的语法困惑度和语义困惑度;特征融合模型训练预测,根据特征信息与困惑度进行模型的训练和预测。本发明将作文的语法困惑度和语义困惑度作为评分的重要指标,提出了基于语法的困惑度的概念处理自动作文评分,更好地考虑了作文语法的正确性和词语搭配的合理性;同时提出了基于语义的困惑度的概念处理自动作文评分,从多个角度评价了作文的主题相关性。

Description

一种基于困惑度的自动作文评分方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于困惑度的自动作文评分方法。
背景技术
作文是学生语文和英文考试的必备题型,通过作文可以综合考察学生运用语言的能力和水平,但传统的基于教师人工打分的方式存在一些问题,从阅卷者的角度上来说,作文的阅卷需要耗费大量的人力物力,还存在评阅标准不能完全统一的问题,从对学生写作帮助的角度上来说,人工评阅造成学生不能在短时间内得到有效的反馈,长时间的等待使得对写作的认知能力提升不大。
对于问题自动作文评分可以有效地解决以上的问题,让阅卷者得到解放,可以更多地投入时间到日常教学内容中,让学生平时训练的写作练习得到科学有效的反馈,加深对写作的理解,提高作文写作水平,让大型考试打分的时间大大缩短,也可以解决人工打分过于主观造成的误差问题,保证评分的效率和质量,让考试公平性得到提升。
对于自动作文评分,研究大概经过了以下阶段。
(1)PEG(Project Essay Grader)
PEG开创性地使用proxes、trins等概念来模仿人工评分。PEG的假设是:反应一篇作文好坏的依据是trins,但是这些trins是潜在的,无法直接通过测量得到,只有通过一些外在因素proxes来间接反应。比如通过文章长度代表作文的流畅度,利用介词代词的数量代表句子结构的复杂度等。
(2)IEA(Intelligent Essay Assessor)
IEA系统采用潜在语义分析技术LSA(Latent semantic analysis),潜在语义分析技术通过统计方法对包含大量文本的文本集合进行分析,利用矩阵分解可以得出词的潜在语义结构,使得词与词、词与文章的语义相似度能够通过向量相似度来度量。LSA能够将词和文本都映射到一个语义空间,使得词之间或者短语之间能够计算语义相似度,能够更好的找出词在文档中的真正含义。
(3)E-rater
E-rater从三个方面对作文进行分析:篇章、语法、主题。篇章模块使用连接词表示的概念框架去识别组织结构,比如通过in summary 可以推断出后面紧接着是得出的结论、通过perhaps推断出后面可能要开始描述自己的一些看法。语法模块使用文法剖析工具Microsoft Nature Language Processing(MsNLP)去建立句子的句法树。通过句法树可以分析句子的结构,比如识别出句子是否是复句、是否包含从句等,句子结构的多样性反映了一篇作文的质量,主题模块则是分析作文的主题,好的作文应该是与材料或者题目所规定的主题紧密相关的。
(4)神经网络方法
除了这些回归方法外,近几年来,有学者用神经网络的方法来对英语作文进行评分。如新加坡国立大学的Kaveh等人提出用一种长短期记忆网络模型(Long Short-Term Memory,简写为LSTM)来进行英语作文评分。通过构建四层神经网络(Lookup Table Layer、Convolution Layer、Recurrent Layer、Linear Layer with Sigmoid Activation)来进行训练和预测。其显著优点是整个过程无需开发者手动提取特征,整个过程也没有任何特征工程,其结果也取得了不错的效果。但不可否认的是,深度神经网络计算需要大量的计算资源,文中结构是Kaveh等人用8个Tesla K80GPU并行计算出来的。
发明内容
本发明的目的在于,针对上述问题,提出一种基于困惑度的自动作文评分方法,将作文的语法困惑度和语义困惑度作为评分的重要指标,考虑了作文语法的准确性和主题相关性,表现了作文的一部分深层次特征,提高了自动作文评分的准确性。
一种基于困惑度的自动作文评分方法,包括如下步骤:
特征提取:提取作文的浅层词语特征和浅层句法特征;
困惑度计算:计算作文的语法困惑度和语义困惑度;
特征融合模型训练预测:根据特征信息与困惑度进行模型的训练和预测。
进一步的,一种基于困惑度的自动作文评分方法,所述的特征提取中的词语特征提取包括如下子步骤:
S101.对作文进行分词处理;
S102.对分词后的词语进行词性标注;
S103.分别统计作文的词汇总数,去除停用词和重用词后的词表大小和占词汇总数的比例,平均词汇字数,字数大于3,6,9,12的词汇个数,名词、形容词、动词、介词所占总词汇比例。
进一步的,一种基于困惑度的自动作文评分方法,所述的特征提取中的句法特征提取包括如下子步骤:
S111.对作文进行分句处理;
S112.分别统计句子的平均句子长度和方差,包含词语数目大于4,8,10,15,20的句子数量,平均从句数量,平均从句长度,句子平均名词、形容词、动词、介词和标点符号的数量。
进一步的,一种基于困惑度的自动作文评分方法,所述的困惑度计算中的语法困惑度计算包括如下子步骤:
S201.使用爬虫工具爬取人民网不同主题下的大量文章;
S202.对文章做分句,分词等预处理工作;
S203.统计待评分作文不同窗口大小下的2-gram,3-gram,4-gram,5-gram的文本集合;
S204.统计人民网文章的2-gram,3-gram,4-gram,5-gram的文本集合;
S205.根据获得的待评分作文和人民网文章的文本集合进行语法困惑度的计算。
进一步的,一种基于困惑度的自动作文评分方法,所述的语法困惑度的计算包括:
步骤一:分别计算待评分作文文本集合中2-gram文本在人民网文本集合中2-gram文本的比例,3-gram文本在人民网文本集合中3-gram文本的比例,4-gram文本在人民网文本集合中4-gram文本的比例,5-gram文本在人民网文本集合中5-gram文本的比例;
步骤二:将待评分作文进行依存句法分析,统计作文中两个词之间的依存句法关系和此时两个词的词性标注结果,记为A;
步骤三:将人民网文章进行依存句法分析,统计文章中两个词之间的依存句法关系和此时两个词的词性标注结果,记为B;
步骤四:计算每篇待评分作文的统计集A中的关系在人民网文章集B中所占的比例。
进一步的,一种基于困惑度的自动作文评分方法,所述的困惑度计算中的语义困惑度计算包括如下子步骤:
S211.根据题目长度从题目中抽取出五到十个关键词;
S212.根据中文词库知网Hownet对步骤S211抽取出的关键词寻找近义词,扩充关键词集;
S213.根据获得的关键词集对待评分作文进行语义困惑度的计算。
进一步的,一种基于困惑度的自动作文评分方法,所述的语义困惑度的计算包括:
步骤一:对待评分作文,分词后计算在未扩充关键词集中的词语个数占整个文章词汇的比例和扩充后关键词集中的比例;
步骤二:训练得到一个Word2Vec模型;
步骤三:对待评分作文,分词后计算每个词和待评分作文中抽取出的关键词的Word2Vec向量余弦相似度最大值,统计所有最大值在0-0.3,0.3-0.5,0.5-0.7,0.7-0.9,0.9-1各个分段中的比例;
步骤四:训练得到一个Doc2Vec模型;
步骤五:将待评分作文分为四个段落,分别计算各个段落向量和作文题目Doc2Vec向量余弦相似度,再计算一次整个作文和作文题目Doc2Vec向量余弦相似度。
进一步的,一种基于困惑度的自动作文评分方法,所述的特征融合模型训练预测包括如下子步骤:
S301.输入训练集,对训练集进行特征提取和困惑度计算,得到词语特征、句子特征、基于语法困惑度特征和基于语义困惑度特征;
S302.使用xgboost算法将步骤S301中得到的特征和标签label输入,进行回归模型训练,并进行模型参数的调节;
S303.将测试集输入模型进行预测。
本发明的有益效果:本发明将作文的语法困惑度和语义困惑度作为评分的重要指标,提出了基于语法的困惑度的概念处理自动作文评分,更好地考虑了作文语法的正确性和词语搭配的合理性;同时提出了基于语义的困惑度的概念处理自动作文评分,从多个角度评价了作文的主题相关性。
附图说明
图1是本发明的方法流程示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
本实施例中,如图1所示,一种基于困惑度的自动作文评分方法,包括词语特征提取,句法特征提取,基于语法的困惑度计算,基于语义的困惑度计算,特征融合模型训练预测;
所述词语特征提取,用于提取作文的浅层词语特征;
所述句法特征提取,用于提取作文的浅层句法特征;
所述基于语法的困惑度计算,用于评价作文的语法正确性;
所述基于语义的困惑度计算,用于评价作文的主题相关性;
所述特征融合模型训练预测,用于组合前几步提取出的特征进行模型的训练和预测。
所述词语特征提取,包括以下步骤:
S1.对作文进行分词处理和词性标注;
S2.分别统计作文的词汇总数,去除停用词和重用词后的词表大小和占词汇总数的比例,平均词汇字数,字数大于3,6,9,12的词汇个数,名词、形容词、动词、介词所占总词汇比例;
所述句法特征提取,包括以下步骤:
S1.根据句号,感叹号,问号等代表一句话结束的标志切分句子;
S2.分别统计句子的平均句子长度和方差,包含词语数目大于4,8,10,15,20的句子数量,平均从句数量,平均从句长度,句子平均名词、形容词、动词、介词和标点符号的数量;
所述基于语法的困惑度计算,包括以下步骤:
S1.根据权威性及全面性考量,使用python爬虫工具爬取人民网不同主题下的大量文章;
S2.对文章做分句,分词等预处理工作;
S3.统计待评分作文不同窗口大小下的2-gram,3-gram,4-gram,5-gram的文本集合;
S4.统计人民网文章的2-gram,3-gram,4-gram,5-gram的文本集合;
S5.计算基于语法困惑度的第一部分,分别计算待评分作文文本集合中2-gram文本在人民网文本集合中2-gram文本的比例,3-gram文本在人民网文本集合中3-gram文本的比例,4-gram文本在人民网文本集合中4-gram文本的比例,5-gram文本在人民网文本集合中5-gram文本的比例;
S6.将待评分作文进行依存句法分析,统计作文中两个词之间的依存句法关系和此时两个词的词性标注结果,记为A;
S7.将人民网文章进行依存句法分析,统计文章中两个词之间的依存句法关系和此时两个词的词性标注结果,记为B;
S8.计算基于语法困惑度的第二部分,即计算每篇待评分作文的统计集A中的关系在人民网文章集B中所占的比例;
所述基于语义的困惑度计算,包括以下步骤:
S1.根据题目长度从题目中抽取出五到十个关键词;
S2.根据中文词库知网Hownet对步骤S1抽取出的关键词寻找近义词,扩充关键词集;
S3.计算基于语义困惑度的第一部分,对待评分作文,分词后计算在未扩充关键词集中的词语个数占整个文章词汇的比例和扩充后关键词集中的比例;
S4.训练得到一个Word2Vec模型;
S5.计算基于语义困惑度的第二部分,对待评分作文,分词后计算每个词和步骤S1抽取出的关键词的Word2Vec向量余弦相似度最大值,统计所有最大值在0-0.3,0.3-0.5,0.5-0.7,0.7-0.9,0.9-1各个分段中的比例;
S6.训练得到一个Doc2Vec模型;
S7.计算基于语义困惑度的第三部分,将待评分作文分为四个段落,分别计算各个段落向量和作文题目Doc2Vec向量余弦相似度,再计算一次整个作文和作文题目Doc2Vec向量余弦相似度;
所述特征融合模型训练预测,包括以下步骤:
S1.输入训练集,对训练集进行上述所有步骤的处理,得到词语特征、句子特征、基于语法困惑度特征和基于语义困惑度特征;
S2.使用xgboost算法将步骤S1特征和标签label输入,进行回归模型训练,并进行模型参数的调节;
S3.将测试集输入模型进行预测。
本实施例中,通过将作文的语法困惑度和语义困惑度作为评分的重要指标,提出了基于语法的困惑度的概念处理自动作文评分,更好地考虑了作文语法的正确性和词语搭配的合理性;同时提出了基于语义的困惑度的概念处理自动作文评分,从多个角度评价了作文的主题相关性。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (8)

1.一种基于困惑度的自动作文评分方法,其特征在于,包括如下步骤:
特征提取:提取作文的浅层词语特征和浅层句法特征;
困惑度计算:计算作文的语法困惑度和语义困惑度;
特征融合模型训练预测:根据特征信息与困惑度进行模型的训练和预测。
2.根据权利要求1所述的一种基于困惑度的自动作文评分方法,其特征在于,所述的特征提取中的词语特征提取包括如下子步骤:
S101.对作文进行分词处理;
S102.对分词后的词语进行词性标注;
S103.分别统计作文的词汇总数,去除停用词和重用词后的词表大小和占词汇总数的比例,平均词汇字数,字数大于3,6,9,12的词汇个数,名词、形容词、动词、介词所占总词汇比例。
3.根据权利要求1所述的一种基于困惑度的自动作文评分方法,其特征在于,所述的特征提取中的句法特征提取包括如下子步骤:
S111.对作文进行分句处理;
S112.分别统计句子的平均句子长度和方差,包含词语数目大于4,8,10,15,20的句子数量,平均从句数量,平均从句长度,句子平均名词、形容词、动词、介词和标点符号的数量。
4.根据权利要求1所述的一种基于困惑度的自动作文评分方法,其特征在于,所述的困惑度计算中的语法困惑度计算包括如下子步骤:
S201.使用爬虫工具爬取人民网不同主题下的大量文章;
S202.对文章做分句,分词等预处理工作;
S203.统计待评分作文不同窗口大小下的2-gram,3-gram,4-gram,5-gram的文本集合;
S204.统计人民网文章的2-gram,3-gram,4-gram,5-gram的文本集合;
S205.根据获得的待评分作文和人民网文章的文本集合进行语法困惑度的计算。
5.根据权利要求4所述的一种基于困惑度的自动作文评分方法,其特征在于,所述的语法困惑度的计算包括:
步骤一:分别计算待评分作文文本集合中2-gram文本在人民网文本集合中2-gram文本的比例,3-gram文本在人民网文本集合中3-gram文本的比例,4-gram文本在人民网文本集合中4-gram文本的比例,5-gram文本在人民网文本集合中5-gram文本的比例;
步骤二:将待评分作文进行依存句法分析,统计作文中两个词之间的依存句法关系和此时两个词的词性标注结果,记为A;
步骤三:将人民网文章进行依存句法分析,统计文章中两个词之间的依存句法关系和此时两个词的词性标注结果,记为B;
步骤四:计算每篇待评分作文的统计集A中的关系在人民网文章集B中所占的比例。
6.根据权利要求1所述的一种基于困惑度的自动作文评分方法,其特征在于,所述的困惑度计算中的语义困惑度计算包括如下子步骤:
S211.根据题目长度从题目中抽取出五到十个关键词;
S212.根据中文词库知网Hownet对步骤S211抽取出的关键词寻找近义词,扩充关键词集;
S213.根据获得的关键词集对待评分作文进行语义困惑度的计算。
7.根据权利要求6所述的一种基于困惑度的自动作文评分方法,其特征在于,所述的语义困惑度的计算包括:
步骤一:对待评分作文,分词后计算在未扩充关键词集中的词语个数占整个文章词汇的比例和扩充后关键词集中的比例;
步骤二:训练得到一个Word2Vec模型;
步骤三:对待评分作文,分词后计算每个词和待评分作文中抽取出的关键词的Word2Vec向量余弦相似度最大值,统计所有最大值在0-0.3,0.3-0.5,0.5-0.7,0.7-0.9,0.9-1各个分段中的比例;
步骤四:训练得到一个Doc2Vec模型;
步骤五:将待评分作文分为四个段落,分别计算各个段落向量和作文题目Doc2Vec向量余弦相似度,再计算一次整个作文和作文题目Doc2Vec向量余弦相似度。
8.根据权利要求1所述的一种基于困惑度的自动作文评分方法,其特征在于,所述的特征融合模型训练预测包括如下子步骤:
S301.输入训练集,对训练集进行特征提取和困惑度计算,得到词语特征、句子特征、基于语法困惑度特征和基于语义困惑度特征;
S302.使用xgboost算法将步骤S301中得到的特征和标签label输入,进行回归模型训练,并进行模型参数的调节;
S303.将测试集输入模型进行预测。
CN201911107155.4A 2019-11-13 2019-11-13 一种基于困惑度的自动作文评分方法 Pending CN110826329A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911107155.4A CN110826329A (zh) 2019-11-13 2019-11-13 一种基于困惑度的自动作文评分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911107155.4A CN110826329A (zh) 2019-11-13 2019-11-13 一种基于困惑度的自动作文评分方法

Publications (1)

Publication Number Publication Date
CN110826329A true CN110826329A (zh) 2020-02-21

Family

ID=69554963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911107155.4A Pending CN110826329A (zh) 2019-11-13 2019-11-13 一种基于困惑度的自动作文评分方法

Country Status (1)

Country Link
CN (1) CN110826329A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832278A (zh) * 2020-06-15 2020-10-27 北京百度网讯科技有限公司 文档流畅度的检测方法、装置、电子设备及介质
CN114997162A (zh) * 2022-05-26 2022-09-02 中国工商银行股份有限公司 一种训练数据提取方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102279844A (zh) * 2011-08-31 2011-12-14 中国科学院自动化研究所 汉语作文自动测试方法及系统
CN107506360A (zh) * 2016-06-14 2017-12-22 科大讯飞股份有限公司 一种文章评分方法及系统
CN110069768A (zh) * 2018-01-22 2019-07-30 北京博智天下信息技术有限公司 一种基于篇章结构的英语议论文自动评分方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102279844A (zh) * 2011-08-31 2011-12-14 中国科学院自动化研究所 汉语作文自动测试方法及系统
CN107506360A (zh) * 2016-06-14 2017-12-22 科大讯飞股份有限公司 一种文章评分方法及系统
CN110069768A (zh) * 2018-01-22 2019-07-30 北京博智天下信息技术有限公司 一种基于篇章结构的英语议论文自动评分方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈姗姗: "自动作文评分模型及方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832278A (zh) * 2020-06-15 2020-10-27 北京百度网讯科技有限公司 文档流畅度的检测方法、装置、电子设备及介质
CN111832278B (zh) * 2020-06-15 2024-02-09 北京百度网讯科技有限公司 文档流畅度的检测方法、装置、电子设备及介质
CN114997162A (zh) * 2022-05-26 2022-09-02 中国工商银行股份有限公司 一种训练数据提取方法和装置

Similar Documents

Publication Publication Date Title
CN111104789B (zh) 文本评分方法、装置和系统
Banko et al. Mitigating the paucity-of-data problem: Exploring the effect of training corpus size on classifier performance for natural language processing
Brill Automatic grammar induction and parsing free text: A transformation-based approach
Lagakis et al. Automated essay scoring: A review of the field
Valerio et al. Using automatically generated concept maps for document understanding: A human subjects experiment
Villalon et al. Concept extraction from student essays, towards concept map mining
Green A multilevel description of textbook linguistic complexity across disciplines: Leveraging NLP to support disciplinary literacy
CN110826329A (zh) 一种基于困惑度的自动作文评分方法
Chang et al. Automated Chinese essay scoring based on multilevel linguistic features
Solnyshkina et al. Studying text complexity in Russian academic corpus with multi-level annotation
CN113934814A (zh) 古诗文主观题自动评分方法
Imperial et al. Application of Lexical Features Towards Improvement of Filipino Readability Identification of Children's Literature
Dhanalakshmi et al. Grammar teaching tools for Tamil language
Žitko et al. Automatic question generation using semantic role labeling for morphologically rich languages
CN113569560A (zh) 一种汉语二语作文自动评分方法
Guo An automatic scoring method for Chinese-English spoken translation based on attention LSTM
Lee Natural Language Processing: A Textbook with Python Implementation
CN113886521A (zh) 一种基于相似词汇表的文本关系自动标注方法
Chen et al. A POST parser-based learner model for template-based ICALL for Japanese-English writing skills
Perera et al. A dynamic semantic space modelling approach for short essay grading
CN111898343B (zh) 一种基于短语结构树的相似题目识别方法和系统
CN117350276B (zh) 一种数据增强方法及系统
Maurer et al. „Argument Mining: A new method for automated text analysis and its application in communication science “
CN112181389B (zh) 生成教程片段的api标记的方法、系统及计算机设备
Huda et al. Arabic part of speech (pos) tagging analysis using bee colony optimization (BCO) algorithm on Quran corpus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200221