CN112765973A - 评分模型训练方法及装置、作文评分方法及装置 - Google Patents
评分模型训练方法及装置、作文评分方法及装置 Download PDFInfo
- Publication number
- CN112765973A CN112765973A CN202110060810.6A CN202110060810A CN112765973A CN 112765973 A CN112765973 A CN 112765973A CN 202110060810 A CN202110060810 A CN 202110060810A CN 112765973 A CN112765973 A CN 112765973A
- Authority
- CN
- China
- Prior art keywords
- scoring
- training
- text
- model
- feature set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种评分模型训练方法和作文评分方法,该评分模型训练方法包括:获取训练文本;根据所述训练文本构建衡量评分标准的特征集,所述特征集包括:字汇复杂度特征、词汇复杂度特征、句法复杂度特征以及深度学习特征;将所述特征集输入回归模型进行训练,得到目标评分模型。本发明将深层次语言复杂度特征集与当下人工智能领域前沿的深度学习特征融合的方式,作为机器学习模型的预测变量,使机器学习模型在进行等级自动判别系统学习时更容易从深层学习不同分数作文的特征,从而提高模型性能,得到较佳评分结果。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种评分模型训练方法及装置、作文评分方法及装置。
背景技术
现有的作文自动评分系统,其基本思路是,通过当时可用的自然语言处理技术,从作文提取多个文本特征,将这些特征的值作为预测变量,将作文得分作为结果变量,然后利用机器学习方法训练回归模型,最终根据回归模型对作文进行评分。然而由于现有技术所提取的文本特征多为表层特征,未将这些表层特征与当前自然语言处理提供的深度学习技术便利充分融合起来,导致评分结果表现不佳。
发明内容
本发明提供一种评分模型训练方法及装置、作文评分方法及装置,以解决作文自动评分系统评分结果表现不佳的问题。
根据本发明的第一方面,本发明提供一种评分模型训练方法,所述方法包括:获取训练文本;根据所述训练文本构建衡量评分标准的特征集,所述特征集包括:字汇复杂度特征、词汇复杂度特征、句法复杂度特征以及深度学习特征;将所述特征集输入回归模型进行训练,得到目标评分模型。
在一些实施例中,在获取训练文本的步骤中,包括:获取多个待评分文本;对所述待评分文本进行人工评分,得到所述训练文本。
在一些实施例中,在根据所述训练文本构建衡量评分标准的特征集的步骤中,包括:通过预设的词汇复杂度表对所述训练文本进行分析,得到所述词汇复杂度特征。
在一些实施例中,在根据所述训练文本构建衡量评分标准的特征集的步骤中,包括:通过预设的句法复杂度表对所述训练文本进行分析,得到所述句法复杂度特征。
在一些实施例中,在根据所述训练文本构建衡量评分标准的特征集的步骤中,包括:通过预设的BERT预训练模型对所述训练文本进行分析,得到所述深度学习特征。
根据本发明的第二方面,本发明提供一种作文评分方法,该方法包括:获取待检测文本;通过目标评分模型获取所述待检测文本的特征集,所述特征集包括:字汇复杂度特征、词汇复杂度特征、句法复杂度特征以及深度学习特征;根据所述特征集对应的评分标准,得到所述待检测文本的评分。
根据本发明的第三方面,本发明提供一种评分模型训练装置,包括:获取模块,用于获取获取训练文本;构建模块,用于根据所述训练文本构建衡量评分标准的特征集,所述特征集包括:字汇复杂度特征、词汇复杂度特征、句法复杂度特征以及深度学习特征;得到模块,用于将所述特征集输入回归模型进行训练,得到目标评分模型。
根据本发明的第四方面,本发明提供一种作文评分装置,包括:第一获取模块,用于获取待检测文本;第二获取模块,用于通过目标评分模型获取所述待检测文本的特征集,所述特征集包括:字汇复杂度特征、词汇复杂度特征、句法复杂度特征以及深度学习特征;评分得到模块,用于根据所述特征集对应的评分标准,得到所述待检测文本的评分。
根据本发明的第五方面,本发明提供一种电子设备,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如上述的评分模型训练方法或作文评分的步骤。
根据本发明的第六方面,本发明提供一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如上述的评分模型训练方法或作文评分方法。
相较现有技术,本发明的有益效果为:将深层次语言复杂度特征集与当下人工智能领域前沿的深度学习特征融合的方式,作为机器学习模型的预测变量,使机器学习模型在进行等级自动判别系统学习时更容易从深层学习不同分数作文的特征,从而提高模型性能,得到较佳评分结果。
附图说明
图1为本发明实施例提供的一种评分模型训练方法的步骤流程示意图。
图2为图1中步骤S11的具体步骤流程示意图。
图3为本发明实施例提供的一种BERT预训练模型的基本架构示意图。
图4为本发明实施例提供的一种作文评分方法的步骤流程示意图。
图5为本发明实施例提供的一种评分模型训练装置的结构示意图。
图6为本发明实施例提供的一种作文评分装置的结构示意图。
图7为本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供一种评分模型训练方法,该方法包括步骤S11至步骤S13。
步骤S11,获取训练文本。
如图2所示,步骤S11包括步骤S21至步骤S22。
步骤S21,获取多个待评分文本。
步骤S22,对所述待评分文本进行人工评分,得到所述训练文本。
步骤S12,根据所述训练文本构建衡量评分标准的特征集,所述特征集包括:字汇复杂度特征、词汇复杂度特征、句法复杂度特征以及深度学习特征。
示例性的,在根据所述训练文本构建衡量评分标准的特征集的步骤中,通过预设的字汇复杂度表对所述训练文本进行分析,得到所述字汇复杂度特征。
表1字汇复杂性表
示例性的,在根据所述训练文本构建衡量评分标准的特征集的步骤中,通过预设的词汇复杂度表对所述训练文本进行分析,得到所述词汇复杂度特征。
表2词汇复杂性表
示例性的,在根据所述训练文本构建衡量评分标准的特征集的步骤中,通过预设的句法复杂度表对所述训练文本进行分析,得到所述句法复杂度特征。
表3句法复杂性表
示例性的,在根据所述训练文本构建衡量评分标准的特征集的步骤中,通过预设的BERT预训练模型对所述训练文本进行分析,得到所述深度学习特征。
具体的,如图3所示,为BERT预训练模型的基本架构,其中E1至EN为嵌入层,TRM为Transformer层,T1至TN为预测层。本发明中,BERT的全称是“基于Transformer的双向编码器表征”,其中「双向」表示模型在处理某一个词时,它能同时利用该词上文与下文的信息,这种「双向」造成BERT与传统语言模型的不同,它不是在给定前一时刻对应词的条件下,预测当前时刻最有可能出现的词,BERT在训练过程中采用随机遮掩一部分词的方法,利用剩余所有没被遮掩的词进行预测。BERT就是一个神经网络模型,可以将一个语言符号序列(如汉语、英语等)通过该网络结构变成一个数值向量,而该数值向量蕴含了该符号序列的一些深度学习特征。
步骤S13,将所述特征集输入回归模型进行训练,得到目标评分模型。
如图4所示,本发明实施例提供一种作文评分方法,包括步骤S41至步骤S43。
步骤S41,获取待检测文本。
步骤S42,通过目标评分模型获取所述待检测文本的特征集,所述特征集包括:字汇复杂度特征、词汇复杂度特征、句法复杂度特征以及深度学习特征。
步骤S43,根据所述特征集对应的评分标准,得到所述待检测文本的评分。
如图5所示,本发明实施例提供一种评分模型训练装置,包括获取模块501、构建模块502以及得到模块503。
获取模块501用于获取获取训练文本。
构建模块502用于根据所述训练文本构建衡量评分标准的特征集,所述特征集包括:字汇复杂度特征、词汇复杂度特征、句法复杂度特征以及深度学习特征。
得到模块503用于将所述特征集输入回归模型进行训练,得到目标评分模型。
如图6所示,本发明实施例提供一种评分模型训练装置,包括第一获取模块601、第二获取模块602以及评分得到模块603。
第一获取模块601用于获取待检测文本。
第二获取模块602用于通过目标评分模型获取所述待检测文本的特征集,所述特征集包括:字汇复杂度特征、词汇复杂度特征、句法复杂度特征以及深度学习特征。
评分得到模块603用于根据所述特征集对应的评分标准,得到所述待检测文本的评分。
如图7所示,本发明实施例还提供一种电子设备700,该电子设备700可以是手机、平板以及电脑等设备。如图7所示,电子设备700包括处理器701、存储器702。其中,处理器701与存储器702电性连接。
处理器701是电子设备700的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或加载存储在存储器702内的应用程序,以及调用存储在存储器702内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。
在本实施例中,该电子设备700设有多个存储分区,该多个存储分区包括系统分区和目标分区,电子设备700中的处理器701会按照如下的步骤,将一个或一个以上的应用程序的进程对应的指令加载到存储器702中,并由处理器701来运行存储在存储器702中的应用程序,从而实现评分模型训练方法或作文评分方法。
本发明将深层次语言复杂度特征集与当下人工智能领域前沿的深度学习特征融合的方式,作为机器学习模型的预测变量,即将字汇复杂度特征、词汇复杂度特征、句法复杂度特征与BERT导出的深度学习特征进行融合,作为预测变量,使机器学习模型在进行等级自动判别系统学习时更容易从深层学习不同分数作文的特征,从而提高模型性能,得到较佳评分结果。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
以上对本发明实施例所提供的一种评分模型训练方法及装置、作文评分方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想;本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例的技术方案的范围。
Claims (11)
1.一种评分模型训练方法,其特征在于,包括:
获取训练文本;
根据所述训练文本构建衡量评分标准的特征集,所述特征集包括:字汇复杂度特征、词汇复杂度特征、句法复杂度特征以及深度学习特征;
将所述特征集输入回归模型进行训练,得到目标评分模型。
2.如权利要求1所述的评分模型训练方法,其特征在于,在获取训练文本的步骤中,包括:
获取多个待评分文本;
对所述待评分文本进行人工评分,得到所述训练文本。
3.如权利要求1所述的评分模型训练方法,其特征在于,在根据所述训练文本构建衡量评分标准的特征集的步骤中,包括:
通过预设的字汇复杂度表对所述训练文本进行分析,得到所述字汇复杂度特征。
4.如权利要求1所述的评分模型训练方法,其特征在于,在根据所述训练文本构建衡量评分标准的特征集的步骤中,包括:
通过预设的词汇复杂度表对所述训练文本进行分析,得到所述词汇复杂度特征。
5.如权利要求1所述的评分模型训练方法,其特征在于,在根据所述训练文本构建衡量评分标准的特征集的步骤中,包括:
通过预设的句法复杂度表对所述训练文本进行分析,得到所述句法复杂度特征。
6.如权利要求1所述的评分模型训练方法,其特征在于,在根据所述训练文本构建衡量评分标准的特征集的步骤中,包括:
通过预设的BERT预训练模型对所述训练文本进行分析,得到所述深度学习特征。
7.一种作文评分方法,其特征在于,包括:
获取待检测文本;
通过目标评分模型获取所述待检测文本的特征集,所述特征集包括:字汇复杂度特征、词汇复杂度特征、句法复杂度特征以及深度学习特征;
根据所述特征集对应的评分标准,得到所述待检测文本的评分。
8.一种评分模型训练装置,其特征在于,包括:
获取模块,用于获取获取训练文本;
构建模块,用于根据所述训练文本构建衡量评分标准的特征集,所述特征集包括:字汇复杂度特征、词汇复杂度特征、句法复杂度特征以及深度学习特征;
得到模块,用于将所述特征集输入回归模型进行训练,得到目标评分模型。
9.一种作文评分装置,其特征在于,包括:
第一获取模块,用于获取待检测文本;
第二获取模块,用于通过目标评分模型获取所述待检测文本的特征集,所述特征集包括:字汇复杂度特征、词汇复杂度特征、句法复杂度特征以及深度学习特征;
评分得到模块,用于根据所述特征集对应的评分标准,得到所述待检测文本的评分。
10.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至6任一项所述的评分模型训练方法的步骤,或者如权利要求7所述的作文评分方法的步骤。
11.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至6任一项所述的评分模型训练方法的步骤,或者如权利要求7所述的作文评分方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110060810.6A CN112765973A (zh) | 2021-01-18 | 2021-01-18 | 评分模型训练方法及装置、作文评分方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110060810.6A CN112765973A (zh) | 2021-01-18 | 2021-01-18 | 评分模型训练方法及装置、作文评分方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112765973A true CN112765973A (zh) | 2021-05-07 |
Family
ID=75702478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110060810.6A Pending CN112765973A (zh) | 2021-01-18 | 2021-01-18 | 评分模型训练方法及装置、作文评分方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112765973A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133211A (zh) * | 2017-04-26 | 2017-09-05 | 中国人民大学 | 一种基于注意力机制的作文评分方法 |
CN108537261A (zh) * | 2018-03-28 | 2018-09-14 | 校宝在线(杭州)科技股份有限公司 | 一种基于脑电波的作文评测方法 |
US20190272322A1 (en) * | 2018-03-01 | 2019-09-05 | Edgy Labs, LLC | Content editing using AI-based content modeling |
CN111104789A (zh) * | 2019-11-22 | 2020-05-05 | 华中师范大学 | 文本评分方法、装置和系统 |
CN111581392A (zh) * | 2020-04-28 | 2020-08-25 | 电子科技大学 | 一种基于语句通顺度的自动作文评分计算方法 |
-
2021
- 2021-01-18 CN CN202110060810.6A patent/CN112765973A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133211A (zh) * | 2017-04-26 | 2017-09-05 | 中国人民大学 | 一种基于注意力机制的作文评分方法 |
US20190272322A1 (en) * | 2018-03-01 | 2019-09-05 | Edgy Labs, LLC | Content editing using AI-based content modeling |
CN108537261A (zh) * | 2018-03-28 | 2018-09-14 | 校宝在线(杭州)科技股份有限公司 | 一种基于脑电波的作文评测方法 |
CN111104789A (zh) * | 2019-11-22 | 2020-05-05 | 华中师范大学 | 文本评分方法、装置和系统 |
CN111581392A (zh) * | 2020-04-28 | 2020-08-25 | 电子科技大学 | 一种基于语句通顺度的自动作文评分计算方法 |
Non-Patent Citations (1)
Title |
---|
董鑫: "基于词汇与语句等级的小学作文自动评价研究", 《中国优秀硕士学位论文全文数据库 (社会科学Ⅱ辑)》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
CN112270196B (zh) | 实体关系的识别方法、装置及电子设备 | |
CN111931517B (zh) | 文本翻译方法、装置、电子设备以及存储介质 | |
US20230080671A1 (en) | User intention recognition method and apparatus based on statement context relationship prediction | |
CN112507706B (zh) | 知识预训练模型的训练方法、装置和电子设备 | |
CN114757176B (zh) | 一种获取目标意图识别模型的方法以及意图识别方法 | |
EP4109324A2 (en) | Method and apparatus for identifying noise samples, electronic device, and storage medium | |
US20220358292A1 (en) | Method and apparatus for recognizing entity, electronic device and storage medium | |
CN112860871B (zh) | 自然语言理解模型训练方法、自然语言理解方法及装置 | |
CN112560510B (zh) | 翻译模型训练方法、装置、设备及存储介质 | |
CN113672708A (zh) | 语言模型训练方法、问答对生成方法、装置及设备 | |
CN116737908A (zh) | 知识问答方法、装置、设备和存储介质 | |
CN110399547B (zh) | 用于更新模型参数的方法、装置、设备和存储介质 | |
CN113053367A (zh) | 语音识别方法、语音识别的模型训练方法以及装置 | |
CN110717021A (zh) | 人工智能面试中获取输入文本和相关装置 | |
CN110929532B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN115062718A (zh) | 语言模型训练方法、装置、电子设备及存储介质 | |
CN113743101A (zh) | 文本纠错方法、装置、电子设备和计算机存储介质 | |
CN113609873A (zh) | 翻译模型训练方法、装置及介质 | |
CN112818096A (zh) | 对话生成方法及其装置 | |
CN109273004B (zh) | 基于大数据的预测性语音识别方法及装置 | |
CN115577106B (zh) | 基于人工智能的文本分类方法、装置、设备和介质 | |
CN114970666B (zh) | 一种口语处理方法、装置、电子设备及存储介质 | |
CN116306690A (zh) | 机器翻译质量评估方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210507 |
|
RJ01 | Rejection of invention patent application after publication |