CN112784568A - 一种文本评分方法、电子设备和计算机可读存储介质 - Google Patents
一种文本评分方法、电子设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN112784568A CN112784568A CN202110129208.3A CN202110129208A CN112784568A CN 112784568 A CN112784568 A CN 112784568A CN 202110129208 A CN202110129208 A CN 202110129208A CN 112784568 A CN112784568 A CN 112784568A
- Authority
- CN
- China
- Prior art keywords
- text
- processed
- paragraph
- relationship
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013077 scoring method Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 claims description 34
- 238000010586 diagram Methods 0.000 claims description 31
- 238000004891 communication Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 7
- 239000000203 mixture Substances 0.000 description 28
- 238000004458 analytical method Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 239000003086 colorant Substances 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种文本评分方法,所述方法包括:获取待处理文本信息;对所述待处理文本信息进行分析,确定所述待处理文本中的实体;确定所述待处理文本中的语句与所述实体的目标关联关系;基于所述目标关联关系和所述实体对所述语句进行分析,确定所述待处理文本的结构关系信息;基于所述待处理文本的结构关系信息,确定所述待处理文本的结构评分。本申请实施例还公开了一种电子设备和计算机可读存储介质。
Description
技术领域
本申请涉及计算机领域中的文本评分技术,尤其涉及一种文本评分方法、设备和计算机可读存储介质。
背景技术
随着光学字符识别(Optical Character Recognition,OCR)技术的成熟,越来越多的试卷以电子版的形式在网上进行批改。例如英语作文,由于其涉及大量的词汇写作,批改评价工作给老师带来了巨大的负担。因此,快速而准确地评价英语文本的自动评价方法显得尤为重要。目前,英语作文自动评价方法中,主要是针对整体文本进行评价,给出最终的评分。但是,这种对整体文本总体评分的方法,不能为改善文本质量提出针对性的指导建议。
发明内容
本申请实施例期望提供一种文本评分方法、电子设备和计算机可读存储介质,解决了对整体文本总体评分的方法,不能为改善文本质量提出针对性的指导建议的问题。
本申请的技术方案是这样实现的:
一种文本评分方法,所述方法包括:
获取待处理文本信息;
对所述待处理文本信息进行分析,确定所述待处理文本中的实体;
确定所述待处理文本中的语句与所述实体的目标关联关系;
基于所述目标关联关系和所述实体对所述语句进行分析,确定所述待处理文本的结构关系信息;
基于所述待处理文本的结构关系信息,确定所述待处理文本的结构评分。
上述方案中,所述确定所述待处理文本中的语句与所述实体之间的目标关联关系,包括:
对所述待处理文本进行断句处理,得到所述待处理文本中的语句;
对所述待处理文本中的所述语句进行标识,得到所述语句的标识信息;
基于所述标识信息将所述语句与所述实体进行关联,得到所述目标关联关系。
上述方案中,所述基于所述目标关联关系和所述实体对所述语句进行分析,确定所述待处理文本的结构关系信息,包括:
确定所述待处理文本中的段落信息;
基于所述目标关联关系和所述段落信息,将所述待处理文本的不同段落中的语句和实体进行分析,确定所述待处理文本的段落之间的结构关系;
基于所述目标关联关系和所述段落信息,对所述待处理文本的每一段落中的语句和实体进行分析,确定所述待处理文本的每一段落的语句之间的结构关系;
基于所述段落之间的结构关系和所述语句之间的结构关系,得到所述结构关系信息。
上述方案中,所述基于所述目标关联关系和所述段落信息,将所述待处理文本的不同段落中的语句和实体进行分析,确定所述待处理文本的段落之间的结构关系,包括:
基于所述段落信息,确定所述待处理文本的第i段落中的实体与所述待处理文本的第i+1段落的实体之间的第一关系;其中,所述i为正整数;
基于所述第一关系和所述目标关联关系,确定所述第i段落中的语句与所述第i+1段落中的语句之间的第二关系;
基于所述第二关系确定所述待处理文本的段落之间的结构关系。
上述方案中,所述基于所述目标关联关系和所述段落信息,对所述待处理文本的每一段落中的语句和实体进行分析,确定所述待处理文本的每一段落的语句之间的结构关系,包括:
基于所述段落信息,对所述待处理文本的每一段落中的实体进行分析得到第三关系;
基于所述目标关联关系和所述第三关系,确定所述待处理文本的每一段落中的语句之间的结构关系。
上述方案中,所述基于所述待处理文本的结构关系信息,确定所述待处理文本的结构评分,包括:
基于所述结构关系信息,确定所述待处理文本的段落结构评分和所述待处理文本的每一段落中的语句结构评分;
获取所述待处理文本的段落权重和语句权重;
基于所述段落结构评分、所述段落权重、所述语句结构评分以及所述语句权重,确定所述待处理文本的结构评分。
上述方案中,所述方法还包括:
基于所述待处理文本的结构关系和所述语句,生成所述待处理文本的结构关系图;其中,所述结构关系图中的同一段落的语句具有相同的图示标识;
采用图形化展示方式显示所述结构关系图。
一种文本评分设备,所述电子设备包括:处理器、存储器和通信总线;
所述通信总线用于实现处理器和存储器之间的通信连接;
所述处理器用于执行存储器中的信息文本评分程序,以实现以下步骤:
获取待处理文本信息;
对所述待处理文本信息进行分析,确定所述待处理文本中的实体;
确定所述待处理文本中的语句与所述实体的目标关联关系;
基于所述目标关联关系和所述实体对所述语句进行分析,确定所述待处理文本的结构关系信息;
基于所述待处理文本的结构关系信息,确定所述待处理文本的结构评分。
上述设备中,所述处理器还用于执行以下步骤:
基于所述待处理文本的结构关系和所述语句,生成所述待处理文本的结构关系图;其中,所述结构关系图中的同一段落的语句具有相同的图示标识;
采用图形化展示方式显示所述结构关系图。
一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述所述的文本评分方法的步骤。
本申请的实施例所提供的文本评分方法、电子设备和计算机可读存储介质,可以根据待处理文本中的实体,以及待处理文本中的语句与实体的目标关联关系得到待处理文本的结构关系信息,并根据结构关系信息得到待处理文本的结构评分,而不是只给出一个整体的评分,解决了对整体文本总体评分的方法,不能为改善文本质量提出针对性的指导建议的问题,实现了针对待处理文本可以给出针对性的指导建议和评分。
附图说明
图1为本申请的实施例提供的一种文本评分方法的流程示意图;
图2为本申请的实施例提供的另一种文本评分方法的流程示意图;
图3为本申请的实施例提供的又一种文本评分方法的流程示意图;
图4为本申请的实施例提供的一种结构关系结构图和结构关系信息示意图;
图5本申请的另一实施例提供的一种文本评分方法的流程示意图;
图6为本申请的实施例提供的一种文本评分设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本申请的实施例提供一种文本评分方法,该方法可以应用于电子设备中,参照图1所示,该方法包括以下步骤:
步骤101、获取待处理文本信息。
在本申请实施例中,待处理文本信息是需要进行语句分析的文本信息;处理文本信息可以是中文文本信息或者英文文本信息,且待处理文本信息可以是手动撰写的手写文本信息,也可以是非手写文本信息;其中,电子设备通过获取任一介质上有关用户通过手写完成的手写文本信息或用户直接通过电子设备的输入部件输入的非手写文本信息来获取待处理信息。需要说明的是待处理文本信息的格式可以不作限定。
步骤102、对待处理文本信息进行分析,确定待处理文本中的实体。
在本申请实施例中,电子设备可以对待处理文本信息进行拆分得到待处理文本中的词,之后拆分得到的词进行分析确定出待处理文本中的实体。其中,实体可以包括名词、人名或数词等。
在一种可行的实现方式中,可以是通过实体分析模型对待处理文本信息中的词进行分析,来得到待处理文本中的实体;其中,实体分析模型可以是采用先获取待训练文本信息,之后基于待训练文本信息进行模型训练得到的;其中,待训练文本信息可以是大量的文章;例如,1000篇英语作文。
或者,在另一种可行的实现方式中,还可以是对待处理文本进行段拆分得到待处理文本中包括的段落,之后,对每一段进行语句拆分得到每一段中包括的语句,之后对每一段中的每一语句进行词拆分得到语句中的词,最后对得到的所有词进行分析得到待处理文本中的实体。
步骤103、确定待处理文本中的语句与实体的目标关联关系。
在本申请实施例中,电子设备对待处理文本进行断句处理,得到待处理文本中的语句;将待处理文本中的所有语句与得到的待处理文本中的所有实体进行关联,确定待处理文本中的语句与实体之间的目标关联;在一种可行的实现方式中,对一篇待处理英语作文进行拆分得到100个语句,通过实体分析模型对100个语句进行分析得到60个实体,将得到的60个实体与待处理英语作文的100个语句进行关联分析,得到目标关联关系。
需要说明的是,根据得到的目标关联关系可以确定处待处理文本中的每一个实体分别与待处理文本中的那些语句对应。
步骤104、基于目标关联关系和实体对语句进行分析,确定待处理文本的结构关系信息。
在本申请实施例中,结构关系信息可以表征待处理文本的段落在结构上的关系和待处理文本的每一段中语句在结构上的关系;其中,结构关系信息可以包括每段中的语句之间的结构关系和段落之间的结构关系。
需要说明的是,电子设备可以基于目标关联关系和实体对待处理文本的所有语句进行分析,得到每段中的语句之间的结构关系(语句之间的结构关系)和每段之间的结构关系(段落之间的结构关系),然后,根据语句之间的结构关系和段落之间的结构关系确定待处理文本的结构关系信息。
步骤105、基于待处理文本的结构关系信息,确定待处理文本的结构评分。
在本申请实施例中,电子设备可以基于待处理文本的结构关系信息,得到待处理文本的段落结构评分和每一段落中的语句结构评分,然后根据段落结构评分和每一段落中的语句结构评分,确定待处理文本的结构评分;需要说明的是,结构评分可以表征待处理文本的质量,即该待处理文本写的好坏程度;在一种可行的实现方式中,结构评分高待处理文本质量高,结构评分低待处理文本质量低。
本申请的实施例所提供的文本评分方法,可以根据待处理文本中的实体,以及待处理文本中的语句与实体的目标关联关系得到待处理文本的结构关系信息,并根据结构关系信息得到待处理文本的结构评分,而不是只给出一个整体的评分,解决了对整体文本总体评分的方法,不能为改善文本质量提出针对性的指导建议的问题,实现了针对待处理文本可以给出针对性的指导建议和评分。
基于前述实施例,本申请的实施例提供一种文本评分方法,参照图2所示,该方法包括以下步骤:
步骤201、电子设备获取待处理文本信息。
步骤202、电子设备对待处理文本信息进行分析,确定待处理文本中的实体。
在本申请实施例中,电子设备可以采用神经网络算法对得到的大量待训练文本信息进行模型训练来得到实体分析模型。在一种可行的实现方式中,可以采用神经网络算法对大量的英语作文进行模型训练来得到实体分析模型
需要说明的是,实体可以用Ei来标识;其中,i的取值可以为1、2、3…n;i表示的是一种编号;E1可以表示第一段中第一个出现的实体,以此类推;如果是相同的实体,标识Ei是相同的。如果采用实体分析模型对将一篇英语作文进行分析后得到8个实体,那这8个实体依次可以标识为E1、E2…E8。
步骤203、电子设备对待处理文本进行断句处理,得到待处理文本中的语句。
在本申请实施例中,电子设备采用智能断句算法对待处理文本进行断句,得到待处理文本中包括的所有语句。在一种可行的实现方式中,若待处理文本是一篇英语作文,采用智能断句算法对英语作文进行断句后得到这篇英语作文共包括40个语句。
步骤204、电子设备对待处理文本中的语句进行标识,得到语句的标识信息。
在本申请实施例中,语句的标识信息用来唯一标识待处理文本中的语句;需要说明的是,电子设备对通过断句得到的每一语句进行编号;其中,语句的标识信息可以为Sij,Sij表示第i段中的第j个句子;并且,不同段落中的语句可以用不同的颜色来表示,也就是说,同一段落中的语句的颜色是相同的,不在同一段落中的语句的颜色是不同的。在一种可行的实现方式中,可以对英语作文中的30句话进行如下编号:S12表示第1段中的第2个句子;S21表示第2中的第1个句子;S32表示第3段中的第2个句子等。
步骤205、电子设备基于标识信息将语句与实体进行关联,得到目标关联关系。
在本申请实施例中,电子设备可以确定得到的实体与所有语句之间的关联关系;如果实体存在某个语句中,认为这个实体与这个语句具有关联关系;其中可以采用将实体的标识Ei与语句的标识信息Sij进行关联来得到目标关联关系;在一种可行的实现方式中,英语作文中的语句S11与得到的英语作文的实体E1具有关联关系,语句S21与实体E4具有关联关系;此时,认为第一段中的第一语句与实体E1有关系,可以设置目标关联关系为S11与E1对应,S21与E4对应。
步骤206、电子设备确定待处理文本中的段落信息。
在本申请实施例中,段落信息表征带处理文本中包括几个段落;电子设备采用智能断句算法对待处理文本进行断句后,因为不同段落中的语句用不同颜色来标识,那么根据语句的标识信息就可以确定出段落信息。在一种可行的实现方式中,对一篇英语作文采用智能断句算法进行断句后,第一段落的语句编号S11、S12、S13用第一种颜色来标识,第二段落的语句编号S21、S22、S23、S24用第二种颜色来标识,第三段落的语句编号S31、S32用第三种颜色来标识;并且,说明第一段落中有3个语句,第二段落中有4个语句,第三段落中有2个语句。
步骤207、电子设备基于目标关联关系和段落信息,将待处理文本的不同段落中的语句和实体进行分析,确定待处理文本的段落之间的结构关系。
在本申请实施例中,段落之间的结构关系表征不同段落在结构上的紧密程度;电子设备基于目标关联关系和段落信息确定出待处理文本的不同段落中的语句包括的实体之间的关系,之后根据实体之间的关系得到不同段落的语句之间的关联关系,进而根据不同段落的语句之间的关联关系确定待处理文本中的段落之间的结构关系。其中,若语句包括的实体中存在相同的实体,则认为这两个语句之间存在关联关系。
在一种可行的实现方式中,可以根据第一段的语句S11、S12、S13中包括的实体与第二段的语句S21、S22、S23、S24中包括的实体之间的关系,来确定第一段落和第二落之间的段落结构关系。
步骤208、电子设备基于目标关联关系和段落信息,对待处理文本的每一段落中的语句和实体进行分析,确定待处理文本的每一段落的语句之间的结构关系。
在本申请实施例中,每一段落的语句之间的结构关系表征每一段落的语句间的紧密程度。电子设备基于目标关联关系和段落信息,确定出待处理文本的每一段落中的语句包括的实体之间的关系,之后根据实体之间的关系得到每一段落的语句之间的关联关系;进而,根据每一段落的语句之间的结构关系;如果语句包括的实体中存在相同的实体,则认为这两个语句之间在结构上存在关联关系。需要说明的是,可以根据语句包括的实体中具有相同实体的数量,得到语句在结构上的紧密程度。
在一种可行的实现中,针对英语作文的第一段落,可以根据第一段的语句S11、S12、S13中包括的实体之间的关系,来确定第一段的语句之间的结构关系。如果语句S11和S12中具有相同实体的数量较多,可以认为语句S11和S12之间在结构上关系紧密,如果语句S12和S13中具有相同实体的数量较少,可以认为语句S12和S13之间在结构上不是很紧密。
步骤209、电子设备基于段落之间的结构关系和语句之间的结构关系,得到结构关系信息。
在一种可行的实现方式中,可以根据英语作文中第一段落中的语句S11和第一段落中语句S12之间的结构关系,以及第一段落中语句S11和第二段落中的语句S13之间的结构关系,以此类推根据英语作文中所有段落之间的结构关系和每一段落中所有语句之间结构关系来确定英语作文的整体结构关系信息。
步骤210、基于待处理文本的结构关系信息,确定待处理文本的结构评分。
需要说明的是,本申请实施例中与其他实施例的相同或相应步骤的解释,可以参照其他实施例中的描述,此处不再赘述。
本申请实施例提供的文本评分方法,可以根据每一段落中的不同语句之间的结构关系以及不同段落中之间的结构关系,得到待处理文本的整体结构关系,能够保证得到结构评分比较准确,实现针对待处理文本在的结构上的好坏给出针对性的指导建议。
基于前述实施例,本申请的实施例提供一种文本评分方法,参照图3所示,该方法包括以下步骤:
步骤301、电子设备获取待处理文本信息。
步骤302、电子设备对待处理文本信息进行分析,确定待处理文本中的实体。
步骤303、电子设备对待处理文本进行断句处理,得到待处理文本中的语句。
步骤304、电子设备对待处理文本中的语句进行标识,得到语句的标识信息。
步骤305、电子设备基于标识信息将语句与实体进行关联,得到目标关联关系。
步骤306、电子设备确定待处理文本中的段落信息。
步骤307、电子设备基于段落信息,确定待处理文本的第i段落中的实体与待处理文本的第i+1段落的实体之间的第一关系。
其中,i为正整数。
在本申请实施例中,第一关系表征两个不同段落的紧密程度;电子设备基于段落信息,获取待处理文中的第i段和第i+1段中是否具有相同的实体,来得到第一关系;如果第i段和第i+1段中的某两个实体相同的,则认为这两个实体之间的第一关系为关联;如果第i段和第i+1段中的某两个实体不相同,则认为这两个实体之间的第一关系为不关联。当然,也可以是通过分析第i段和第i+1段中实体是否匹配来确定第一关系;如果第i段和第i+1段中的某两个实体匹配,则认为这两个实体之间的第一关系为关联;如果第i段和第i+1段中的某两个实体不匹配,则认为这两个实体之间的第一关系为不关联。其中,i为段落的序号。
在一种可行的实现方式中,假设第一段落包括的实体的背景颜色可以为颜色为绿色、黄色和橙色,第二段落包括的实体的背景颜色可以为粉红色、灰色、橘色和蓝色;此时,可以设置第一段落中的实体的标识的背景颜色为绿色和第一段落中的实体的标识的背景颜色为粉红色;此时,可以直接比较实体的标识的背景颜色为绿色、黄色和橙色的实体Ei与实体的标识的背景颜色是粉红色、灰色、橘色和蓝色的实体Ei之间的关系,得到第一关系。
步骤308、电子设备基于第一关系和目标关联关系,确定第i段落中的语句与第i+1段落中的语句之间的第二关系。
在本申请实施例中,第二关系表征第i段落中语句与第i+1段落中语句之间的紧密程度;电子设备通过分析第一关系和目标关联关系,得到不同段落中的语句之间的第二关系;也就是说,可以根据实体与实体之间的第一关系和实体与语句之间的目标关联关系,得到不同段落的语句之间的第二关系。在一种可行的实现方式中,若i为1,可以分析实体的标识的背景颜色为绿色、黄色和橙色的实体Ei与实体的标识的背景颜色是粉红色、灰色、橘色和蓝色之间的第一关系,以及目标关系,得到第一段落中的语句与第二段落的语句之间的第二关系。
步骤309、电子设备基于第二关系确定待处理文本的段落之间的结构关系。
在本申请实施例中,电子设备可以基于不同段落中的语句之间的第二关系为关联的语句的数量,确定待处理文本的段落在结构上的紧密程度。如果两个段落之间的语句的第二关系为不关联,则认为这两个段落的结构关系为结构不关联;如果两个段落之间的语句中包括第二关系为关联的语句,则认为这两个段落的结构关系为结构关联。在一种可行的实现方式中,在一篇英语作文中,根据第一段落中S11、S12、S13与第二段落中语句S21、S22、S23、S24之间的第二关系,得到第一段落和第二段落之间的结构关系。
步骤310、电子设备基于段落信息,对待处理文本的每一段落中的实体进行分析得到第三关系。
在本申请实施例中,第三关系表征同一段落中不同语句之间的紧密程度;电子设备可以根据同一段落中是否具有相同的实体或匹配的实体,来得到第三关系。在一种可行的实现方式中,假设第一段落包括的实体的背景颜色可以为颜色为绿色、黄色和橙色,第二段落包括的实体的背景颜色可以为粉红色、灰色、橘色和蓝色,可以比较实体的标识的背景颜色为绿色、黄色和橙色的实体之间的关系得到第一段落对应的第三关系,当然,也可以比较实体的标识的背景颜色是粉红色、灰色、橘色和蓝色的实体之间的关系,得到第二段落对应的第三关系。
步骤311、电子设备基于目标关联关系和第三关系,确定待处理文本的每一段落中的语句之间的结构关系。
在本申请实施例中,电子设备可以根据每一段落中的实体与实体之间的第三关系和实体与语句之间的目标关联关系,得到每一段落的语句之间的结构关系。
步骤312、电子设备基于段落之间的结构关系和语句之间的结构关系,得到结构关系信息。
在本申请实施例中,电子设备基于不同段落之间的结构关系和同一段落中的语句之间的结构关系,确定整个待处理文本的结构关系。需要说明的是,本申请实施例中是根据段落之间的结构关系和每一段落的语句之间的结构关系得到整篇文章的结构关系信息,使得确定的结构关系信息更加准确,且对结构关系的分析更加详细;其中,结构关系信息可以包括待处理文本在结构上的关联关系和对待处理文本的结构的分析。
步骤313、电子设备基于结构关系信息,确定待处理文本的段落结构评分和待处理文本的每一段落中的语句结构评分。
在一种可行的实现方式中,根据一篇英语作文的的结构关系信息,可以得到英语作文每一段落的语句在结构上的紧密程度,以及不同段落之间在结构上的紧密程度,进而可以根据每一段落的语句在结构上的紧密程度得到每一段落中的语句结构评分,且根据不同段落之间在结构上的紧密程度得到段落结构评分。
步骤314、电子设备获取待处理文本的段落权重和语句权重。
在本申请实施例中,段落权重和语句权重代表的是概率;其中,段落权重标识段落结构评分占的比重,语句权重表示的是语句结构评分占的比重;两者的比重的和值为1;需要说明的是,可以根据实际的应用场景和需求来设置段落权重和语句权重。在一种可行的实现方式中,段落权重可以是0.6,语句权重可以是0.4。
步骤315、电子设备基于段落结构评分、段落权重、语句结构评分以及语句权重,确定待处理文本的结构评分。
在本申请实施例中,可以将语句结构评分乘以相应的语句权重得到第一乘积,将段落结构评分乘以相应的段落权重得到第二乘积,之后将第一乘积与第二乘积相加得到整个待处理文本的结构评分。在一种可行的实现方式中,一篇英语作文中,段落结构评分是95,段落权重为0.6,语句结构评分是94,语句权重送0.4,此时计算得到这篇英语作文的结构评分为94.6。
本申请实施例所提供的文本评分方法,可以准确的知道文本的总体结构评分,实现针对待处理文本的结构可以给出针对性的指导建议。
基于前述实施例,在本申请的其他实施例中,该文本评分方法还可以包括以下步骤:
步骤316、电子设备基于待处理文本的结构关系和语句,生成待处理文本的结构关系图。
其中,结构关系图中的同一段落的语句具有相同的图示标识。
在本申请实施例中,图示标识可以指的是语句的标识信息的背景颜色;在一种可行的实现方式中,同一段落中的语句的标识信息的背景颜色可以用同一种颜色;需要说明的是,可以根据待处理文本的结构关系,将具有关联关系的语句连线,得到待处理文本的结构关系图。如图4所示,可以看出语句S11、S12、S13属于同一段,语句S21、S22、S23、S24属于同一段,语句S31、S32、S33、S34属于同一段,语句S41、S42、S42属于同一段。其中,语句S24与待处理文本中的其他语句之间均不存在关系。
步骤317、电子设备采用图形化展示方式显示结构关系图。
在本申请实施例中,如图4所示,该图中可以包括作文的结构关系图、作文的结构评分和作文的结构评语,图4中的一个圆点可以表示一个结点,每个结点表示英语作文中的一个语句;其中,图4中所示出的每条边表示两个句子之间具有关联关系。当结构关系图的孤立结点越少时,作文中的无关句子越少,结构组织更好;当结构关系图中的边越多时,作文中的结构组织越紧凑;当结构关系图中不同段落结点之间的边越多时,作文的行文连贯性越强。通过采用图形化展示方式显示结构关系图,能够更直观地反应用户所写英语作文的篇章结构,帮助用户更快速地定位有问题的语句,给用户提供改善作文写作的针对性建议。
本申请实施例中的文本评分方法可以应用于如图5中所示的英语作文自动评分的流程图中,该流程图可以包括采集大量的英语写作数据用于训练实体分析分析模型;使用训练好的实体识别和指代分析模型对用户输入的英语作文文本数据进行实体识别和指代分析得到包括的实体;将所有句子进行编号,并与语句中的实体进行关联;根据识别出的实体将具有相同实体的句子进行关联,得到整个作文中各个句子的关系,以图5的形式展现出来。根据作文的结构关系信息,计算段落结构评分与每一段落中的语句结构评分,综合二者得到最终的作文结构评分。同时,如图4所示,还可以将得到的结构关系信息与结构关系图同时展示出来。
基于前述实施例,本申请的实施例提供一种文本评分设备6,该设备可以应用于图1、2、3对应的实施例提供的文本评分方法中,参照图6所示,该设备6可以包括:处理器61、存储器62和通信总线63,其中:
通信总线63用于实现处理器61和存储器62之间的通信连接;
处理器61用于执行存储器62中存储的货物信息确定程序,以实现以下步骤:
获取待处理文本信息;
待处理文本信息进行分析,确定待处理文本中的实体;
确定待处理文本中的语句与实体的目标关联关系;
基于目标关联关系和实体对语句进行分析,确定待处理文本的结构关系信息;
基于待处理文本的结构关系信息,确定待处理文本的结构评分。
在本申请的其他实施例中,处理器61用于执行存储器62中存储的确定待处理文本中的语句与实体之间的目标关联关系,以实现以下步骤:
对待处理文本进行断句处理,得到待处理文本中的语句;
对待处理文本中的语句进行标识,得到语句的标识信息;
基于标识信息将语句与实体进行关联,得到目标关联关系。
在本申请的其他实施例中,处理器61用于执行存储器62中存储的基于目标关联关系和实体对语句进行分析,确定待处理文本的结构关系信息,以实现以下步骤:
确定待处理文本中的段落信息;
基于目标关联关系和段落信息,将待处理文本的不同段落中的语句和实体进行分析,确定待处理文本的段落之间的结构关系;
基于目标关联关系和段落信息,对待处理文本的每一段落中的语句和实体进行分析,确定待处理文本的每一段落的语句之间的结构关系;
基于段落之间的结构关系和语句之间的结构关系,得到结构关系信息。
在本申请的其他实施例中,处理器61用于执行存储器62中存储基于目标关联关系和段落信息,将待处理文本的不同段落中的语句和实体进行分析,确定待处理文本的段落之间的结构关系,以实现以下步骤:
基于段落信息,确定待处理文本的第i段落中的实体与待处理文本的第i+1段落的实体之间的第一关系;其中,i为正整数;
基于第一关系和目标关联关系,确定第i段落中的语句与第i+1段落中的语句之间的第二关系;
基于第二关系确定待处理文本的段落之间的结构关系。
在本申请的其他实施例中,处理器61用于执行存储器62中存储基于目标关联关系和段落信息,对待处理文本的每一段落中的语句和实体进行分析,确定待处理文本的每一段落的语句之间的结构关系,以实现以下步骤:
基于段落信息,对待处理文本的每一段落中的实体进行分析得到第三关系;
基于目标关联关系和第三关系,确定待处理文本的每一段落中的语句之间的结构关系。
在本申请的其他实施例中,处理器61用于执行存储器62中存储基于待处理文本的结构关系信息,确定待处理文本的结构评分,以实现以下步骤:
基于结构关系信息,确定待处理文本的段落结构评分和待处理文本的每一段落中的语句结构评分;
获取待处理文本的段落权重和语句权重;
基于段落结构评分、段落权重、语句结构评分以及语句权重,确定待处理文本的结构评分。
在本申请的其他实施例中,处理器61用于执行存储器62中存储的文本评分确定程序,还可以实现以下步骤:
基于待处理文本的结构关系和语句,生成待处理文本的结构关系图;其中,结构关系图中的同一段落的语句具有相同的图示标识;
采用图形化展示方式显示结构关系图。
需要说明的是,本实施例中处理器所执行的步骤的具体实现过程,可以参照图1、2和3对应的实施例提供的文本评分方法中的实现过程,此处不再赘述。
本申请的实施例所提供的文本评分设备,可以根据待处理文本中的实体,以及待处理文本中的语句与实体的目标关联关系得到待处理文本的结构关系信息,并根据结构关系信息得到待处理文本的结构评分,而不是只给出一个整体的评分,解决了对整体文本总体评分的方法,不能为改善文本质量提出针对性的指导建议的问题,实现了针对待处理文本可以给出针对性的指导建议和评分。
基于前述实施例,本申请的实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有一个或者多个程序,该一个或者多个程序可被一个或者多个处理器执行,以实现图1、2、3对应的实施例提供的文本评分方法中的步骤。
需要说明的是,本实施例中处理器所执行的步骤的具体实现过程,可以参照图1、2、3对应的实施例提供的文本评分方法中的实现过程,此处不再赘述。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种文本评分方法,所述方法包括:
获取待处理文本信息;
对所述待处理文本信息进行分析,确定所述待处理文本中的实体;
确定所述待处理文本中的语句与所述实体的目标关联关系;
基于所述目标关联关系和所述实体对所述语句进行分析,确定所述待处理文本的结构关系信息;
基于所述待处理文本的结构关系信息,确定所述待处理文本的结构评分。
2.根据权利要求1所述的方法,其特征在于,所述确定所述待处理文本中的语句与所述实体之间的目标关联关系,包括:
对所述待处理文本进行断句处理,得到所述待处理文本中的语句;
对所述待处理文本中的所述语句进行标识,得到所述语句的标识信息;
基于所述标识信息将所述语句与所述实体进行关联,得到所述目标关联关系。
3.根据权利要求1所述的方法,其特征在于,所述基于所述目标关联关系和所述实体对所述语句进行分析,确定所述待处理文本的结构关系信息,包括:
确定所述待处理文本中的段落信息;
基于所述目标关联关系和所述段落信息,将所述待处理文本的不同段落中的语句和实体进行分析,确定所述待处理文本的段落之间的结构关系;
基于所述目标关联关系和所述段落信息,对所述待处理文本的每一段落中的语句和实体进行分析,确定所述待处理文本的每一段落的语句之间的结构关系;
基于所述段落之间的结构关系和所述语句之间的结构关系,得到所述结构关系信息。
4.根据权利要求3所述的方法,其特征在于,所述基于所述目标关联关系和所述段落信息,将所述待处理文本的不同段落中的语句和实体进行分析,确定所述待处理文本的段落之间的结构关系,包括:
基于所述段落信息,确定所述待处理文本的第i段落中的实体与所述待处理文本的第i+1段落的实体之间的第一关系;其中,所述i为正整数;
基于所述第一关系和所述目标关联关系,确定所述第i段落中的语句与所述第i+1段落中的语句之间的第二关系;
基于所述第二关系确定所述待处理文本的段落之间的结构关系。
5.根据权利要求3所述的方法,其特征在于,所述基于所述目标关联关系和所述段落信息,对所述待处理文本的每一段落中的语句和实体进行分析,确定所述待处理文本的每一段落的语句之间的结构关系,包括:
基于所述段落信息,对所述待处理文本的每一段落中的实体进行分析得到第三关系;
基于所述目标关联关系和所述第三关系,确定所述待处理文本的每一段落中的语句之间的结构关系。
6.根据权利要求1所述的方法,其特征在于,所述基于所述待处理文本的结构关系信息,确定所述待处理文本的结构评分,包括:
基于所述结构关系信息,确定所述待处理文本的段落结构评分和所述待处理文本的每一段落中的语句结构评分;
获取所述待处理文本的段落权重和语句权重;
基于所述段落结构评分、所述段落权重、所述语句结构评分以及所述语句权重,确定所述待处理文本的结构评分。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述待处理文本的结构关系和所述语句,生成所述待处理文本的结构关系图;其中,所述结构关系图中的同一段落的语句具有相同的图示标识;
采用图形化展示方式显示所述结构关系图。
8.一种电子设备,其特征在于,所述电子设备包括:处理器、存储器和通信总线;
所述通信总线用于实现处理器和存储器之间的通信连接;
所述处理器用于执行存储器中的信息文本评分程序,以实现以下步骤:
获取待处理文本信息;
对所述待处理文本信息进行分析,确定所述待处理文本中的实体;
确定所述待处理文本中的语句与所述实体的目标关联关系;
基于所述目标关联关系和所述实体对所述语句进行分析,确定所述待处理文本的结构关系信息;
基于所述待处理文本的结构关系信息,确定所述待处理文本的结构评分。
9.根据权利要求8所述的设备,其特征在于,所述处理器还用于执行以下步骤:
基于所述待处理文本的结构关系和所述语句,生成所述待处理文本的结构关系图;其中,所述结构关系图中的同一段落的语句具有相同的图示标识;
采用图形化展示方式显示所述结构关系图。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至7中任一项所述的文本评分方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110129208.3A CN112784568B (zh) | 2021-01-29 | 2021-01-29 | 一种文本评分方法、电子设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110129208.3A CN112784568B (zh) | 2021-01-29 | 2021-01-29 | 一种文本评分方法、电子设备和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112784568A true CN112784568A (zh) | 2021-05-11 |
CN112784568B CN112784568B (zh) | 2024-07-26 |
Family
ID=75759913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110129208.3A Active CN112784568B (zh) | 2021-01-29 | 2021-01-29 | 一种文本评分方法、电子设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112784568B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115062604A (zh) * | 2022-05-31 | 2022-09-16 | 联想(北京)有限公司 | 一种信息处理方法和计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046656A (zh) * | 2019-11-15 | 2020-04-21 | 北京三快在线科技有限公司 | 文本处理方法、装置、电子设备及可读存储介质 |
CN111738008A (zh) * | 2020-07-20 | 2020-10-02 | 平安国际智慧城市科技股份有限公司 | 基于多层模型的实体识别方法、装置、设备及存储介质 |
CN111914532A (zh) * | 2020-09-14 | 2020-11-10 | 北京阅神智能科技有限公司 | 一种中文作文评分方法 |
-
2021
- 2021-01-29 CN CN202110129208.3A patent/CN112784568B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046656A (zh) * | 2019-11-15 | 2020-04-21 | 北京三快在线科技有限公司 | 文本处理方法、装置、电子设备及可读存储介质 |
CN111738008A (zh) * | 2020-07-20 | 2020-10-02 | 平安国际智慧城市科技股份有限公司 | 基于多层模型的实体识别方法、装置、设备及存储介质 |
CN111914532A (zh) * | 2020-09-14 | 2020-11-10 | 北京阅神智能科技有限公司 | 一种中文作文评分方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115062604A (zh) * | 2022-05-31 | 2022-09-16 | 联想(北京)有限公司 | 一种信息处理方法和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112784568B (zh) | 2024-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109766540B (zh) | 通用文本信息提取方法、装置、计算机设备和存储介质 | |
CN111198948A (zh) | 文本分类校正方法、装置、设备及计算机可读存储介质 | |
CN112163424B (zh) | 数据的标注方法、装置、设备和介质 | |
CN112908436B (zh) | 临床试验数据结构化方法、临床试验推荐方法和装置 | |
CN107180084A (zh) | 词库更新方法及装置 | |
CN108090099B (zh) | 一种文本处理方法及装置 | |
CN113343972A (zh) | 一种阅卷方法、装置、电子设备及存储介质 | |
US12051256B2 (en) | Entry detection and recognition for custom forms | |
CN113626573B (zh) | 一种销售会话异议及应对提取方法及系统 | |
JP2006190229A (ja) | 意見抽出用学習装置及び意見抽出用分類装置 | |
CN107844531B (zh) | 答案输出方法、装置和计算机设备 | |
CN112700763A (zh) | 语音标注质量评价方法、装置、设备及存储介质 | |
CN107783958B (zh) | 一种目标语句识别方法及装置 | |
CN112699671B (zh) | 一种语言标注方法、装置、计算机设备和存储介质 | |
CN112784568A (zh) | 一种文本评分方法、电子设备和计算机可读存储介质 | |
CN111191029B (zh) | 基于监督学习和文本分类的ac构建方法 | |
CN115757714A (zh) | 强化关联度计算的小样本用户多意图识别方法 | |
CN112507082B (zh) | 一种智能识别不当文本交互的方法、装置和电子设备 | |
CN114186020A (zh) | 一种语义联想方法 | |
CN113627186A (zh) | 基于人工智能的实体关系检测方法及相关设备 | |
Lin et al. | Design and implementation of intelligent scoring system for handwritten short answer based on deep learning | |
CN109325126B (zh) | 语言文本的对象化处理方法、装置及计算机存储介质 | |
CN110008307B (zh) | 一种基于规则和统计学习的变形实体识别方法和装置 | |
CN116129906B (zh) | 语音识别文本修订方法、装置、计算机设备以及存储介质 | |
US20240371190A1 (en) | Entry detection and recognition for custom forms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |