CN112528628B - 一种文本处理的方法、装置及电子设备 - Google Patents
一种文本处理的方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112528628B CN112528628B CN202011504514.2A CN202011504514A CN112528628B CN 112528628 B CN112528628 B CN 112528628B CN 202011504514 A CN202011504514 A CN 202011504514A CN 112528628 B CN112528628 B CN 112528628B
- Authority
- CN
- China
- Prior art keywords
- text
- determining
- sentence
- evaluation
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000011156 evaluation Methods 0.000 claims abstract description 222
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 39
- 238000012937 correction Methods 0.000 claims description 106
- 238000012549 training Methods 0.000 claims description 85
- 238000001514 detection method Methods 0.000 claims description 71
- 239000013598 vector Substances 0.000 claims description 57
- 238000013210 evaluation model Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 abstract description 14
- 230000008569 process Effects 0.000 description 20
- 230000003749 cleanliness Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 230000008451 emotion Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 210000001747 pupil Anatomy 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供了一种文本处理的方法、装置及电子设备,其中,该方法包括:获取待处理的目标文本,并确定所述目标文本中的目标元素;根据所述目标元素确定所述目标文本的整体评价参数,并确定所述目标文本的句子评价参数;根据所述整体评价参数和所述句子评价参数确定所述目标文本的评价值。通过本发明实施例提供的文本处理的方法、装置及电子设备,基于目标文本的目标元素来确定目标文本的整体评价参数和句子评价参数,进而从整体维度和句子维度对目标文本进行综合评价,能够更加准确地进行评价。同时,该方法可以实现对目标文本自动评价,可以节省老师批阅学生作文的时间,也能够提高批阅效率。
Description
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种文本处理的方法、装置、电子设备及计算机可读存储介质。
背景技术
随着智能批改的不断发展,广大的老师和家长们对中文作文自动批改都有了其他的需求,事实上,从上个世纪60年代开始,人们就开始研究各种不同的自动批改系统。特别是对英文作文的自动批改技术,已经成功的运用到了如托福、GRE等考试中。而中文作文的自动批改技术,在近些年也有了长足的进步。但是目前市面的打分存在譬如打分不准确,反馈结果模糊、死板,同时对学生写作的优点和劣势不能给出合适的建议。
在实际教学任务中,老师需要对学生的作文进行打分,甚至批改。由于老师同时要面对很多学生的作文,所以很难做到对每一篇作文仔细批阅、面面俱到,同时也因为巨大的工作量导致老师的评分等评阅结果很难第一时间反馈到学生端,等学生收到反馈时,已经忘记当初的写作情况,因此造成老师评阅费时费力,学生写作能力提升有限的结果。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种文本处理的方法、装置、电子设备及计算机可读存储介质。
第一方面,本发明实施例提供了一种文本处理的方法,包括:
获取待处理的目标文本,并确定所述目标文本中的目标元素,所述目标元素包括段落元素、句子元素、词语元素、字元素中的一项或多项;
根据所述目标元素确定所述目标文本的整体评价参数,并确定所述目标文本的句子评价参数;
根据所述整体评价参数和所述句子评价参数确定所述目标文本的评价值。
第二方面,本发明实施例还提供了一种文本处理的装置,包括:
预处理模块,用于获取待处理的目标文本,并确定所述目标文本中的目标元素,所述目标元素包括段落元素、句子元素、词语元素、字元素中的一项或多项;
参数确定模块,用于根据所述目标元素确定所述目标文本的整体评价参数,并确定所述目标文本的句子评价参数;
评价模块,用于根据所述整体评价参数和所述句子评价参数确定所述目标文本的评价值。
第三方面,本发明实施例提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,所述计算机程序被所述处理器执行时实现上述任意一项所述的文本处理的方法中的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的文本处理的方法中的步骤。
本发明实施例提供的文本处理的方法、装置、电子设备及计算机可读存储介质,基于目标文本的目标元素来确定目标文本的整体评价参数和句子评价参数,进而从整体维度和句子维度对目标文本进行综合评价,能够更加准确地进行评价。同时,该方法可以实现对目标文本自动评价,可以节省老师批阅学生作文的时间,也能够提高批阅效率。
附图说明
为了更清楚地说明本发明实施例或背景技术中的技术方案,下面将对本发明实施例或背景技术中所需要使用的附图进行说明。
图1示出了本发明实施例所提供的一种文本处理的方法的流程图;
图2示出了本发明实施例所提供的一种文本处理的装置的结构示意图;
图3示出了本发明实施例所提供的一种用于执行文本处理的方法的电子设备的结构示意图。
具体实施方式
本发明实施例通过流程图和/或方框图描述所提供的方法、装置、电子设备。
应当理解,流程图和/或方框图的每个方框以及流程图和/或方框图中各方框的组合,都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而生产出一种机器,这些计算机可读程序指令通过计算机或其他可编程数据处理装置执行,产生了实现流程图和/或方框图中的方框规定的功能/操作的装置。
下面结合本发明实施例中的附图对本发明实施例进行描述。
图1示出了本发明实施例所提供的一种文本处理的方法的流程图。如图1所示,该方法包括:
步骤101:获取待处理的目标文本,并确定目标文本中的目标元素,目标元素包括段落元素、句子元素、词语元素、字元素中的一项或多项。
本发明实施例中,当需要对某个文本进行评价批改时,即可将该文本作为待处理的目标文本。其中,用户可以通过机打的方式输入目标文本,也可以提供手写或打印的文本图像(通过对文本拍照、扫描等可以获得该文本图像),之后基于OCR(Optical CharacterRecognition,光学字符识别)等识别算法即可提取出其中的目标文本;该目标文本具体可以是学生写的作文等。本发明实施例中,该目标文本可以包含一段或多段的段落,每个段落即为一个段落元素;类似地,每个段落中包含一个或多个句子,每个句子对应一个句子元素;每个句子中包含一个或多个词语,每个词语对应一个词语元素;每个词语中包含一个或多个字,每个字对应一个字元素。上述的段落元素、句子元素、词语元素、字元素均可统一称为目标元素。
步骤102:根据目标元素确定目标文本的整体评价参数,并确定目标文本的句子评价参数。
本发明实施例中,目标元素为组成目标文本的元素,基于该目标元素可以对目标文本进行评价,并确定相应的评价参数,本实施例从整体和句子至少两个维度对目标文本进行评价,即通过整体评价参数和句子评价参数来评价该目标文本。具体地,在确定目标文本的目标元素之后,即可基于该目标元素来计算相应的整体评价参数和句子评价参数;其中,整体评价参数用于对目标文本的整体进行评价,如评价该目标文本的整体结构、整体的扣题程度等;句子评价参数用于对目标文本中的句子元素进行评价,例如评价句子的合理性、是否存在语法错误等。
步骤103:根据整体评价参数和句子评价参数确定目标文本的评价值。
本发明实施例中,在确定目标文本的整体评价参数和句子评价参数之后,基于该整体评价参数和句子评价参数可以对目标文本进行整体评价以及更细化的评价,从而可以从多种不同的维度进行综合评价。该评价值具体可以为分数值,以方便用户直观地了解评价情况。
本发明实施例提供的一种文本处理的方法,基于目标文本的目标元素来确定目标文本的整体评价参数和句子评价参数,进而从整体维度和句子维度对目标文本进行综合评价,能够更加准确地进行评价。同时,该方法可以实现对目标文本自动评价,可以节省老师批阅学生作文的时间,也能够提高批阅效率。
在上述实施例的基础上,上述步骤102“确定目标文本的整体评价参数”具体可以包括步骤A1-A3,和/或包括步骤A4-A6。
步骤A1:根据预设的文本模型,确定目标文本的每个句子元素中多个词语元素或字元素的向量。
本发明实施例中,该文本模型用于确定词语或字的向量,例如确定词向量等。该文本模型具体可以采用现有的预训练模型,如BERT(Bidirectional EncoderRepresentations from Transformers,来自转换器的双向编码器)预训练的中文模型等,基于预训练模型来弥补训练数据的不足。目标文本的每个句子元素中包含多个词语或字,一般按照分词的方式将句子元素分为多个词语,从而确定每个句子元素中的词语元素。
步骤A2:根据多个词语元素或字元素的向量确定相应的句子元素的句子向量,并根据目标文本中所有句子元素的句子向量确定目标文本的文本向量。
步骤A3:确定同题目下多个其他文本的文本向量的平均值,将目标文本的文本向量与其他文本的文本向量的平均值之间的语义相似度作为第一相似度,并将第一相似度作为一项整体评价参数。
本发明实施例中,对于一个句子元素,可以把其所包含的所有词语元素的向量的平均值作为该句子元素的句子向量;同样地,把目标文本中所有句子元素的句子向量的平均值作为该目标文本的文本向量。此外,该目标文本可以为在某个题目下所要求用户提供的文本,例如命题作文等,此时在该同题目下存在多个其他文本;本实施例中,该“同题目”具有广义的含义,其可以指的是具有相同命题,也可以是具有某种相同条件,例如多个用户同一时间段内所递交的文本可以认为是同题目的。
对于其他文本,可以采用上述确定目标文本的文本向量的方式来确定该其他文本的文本向量,进而把多个其他文本的文本向量的平均值作为所参考的文本向量,并可以确定其与该目标文本的文本向量之间的语义相似度,例如将两个文本向量之间的余弦相似度作为语义相似度等,从而可以确定该目标文本的第一相似度。该第一相似度越高,说明该目标文本的扣题程度越好,跑题的可能性也越低。
此外,如上所述,上述步骤102“确定目标文本的整体评价参数”也可以包括:
步骤A4:确定目标文本中的第一关键词,并根据预设的词向量模型确定与第一关键词同义的第一同义词,根据第一关键词的词向量和第一同义词的词向量确定目标文本的第一平均词向量。
步骤A5:确定目标文本所对应的题目文本中的第二关键词,并根据预设的词向量模型确定与第二关键词同义的第二同义词,根据第二关键词的词向量和第二同义词的词向量确定题目文本的第二平均词向量。
步骤A6:将第一平均词向量与第二平均词向量之间的相似度作为第二相似度,并将第二相似度作为一项整体评价参数。
本发明实施例中,可以利用tf-idf等算法提取出目标文本中的关键词,即第一关键词;同时,基于预设的词向量模型(如word2vec等)确定该第一关键词的词向量,并可以确定哪些其他的词与该第一关键词的词向量相似(相似度大于某预设阈值,如大于80%等),从而可以把这些词作为第一关键词的同义词,即第一同义词。之后即可确定第一关键词和第一同义词的词向量的平均值,该平均值即为第一平均词向量。同理,目标文本具有相应的题目,即题目文本,基于与上述步骤A4相似的过程即可确定该题目文本的平均词向量,即第二平均词向量。其中,可以把题目文本中的名词、动词、形容词等作为题目的初始关键词,即第二关键词。
在确定两个平均词向量之后,即可确定二者之间的相似度,即第二相似度;该第二相似度越高,说明该目标文本与题目文本之间的关键词越接近,同样可以说明目标文本的扣题程度越好,跑题的可能性也越低。本实施例把上述的第一相似度和第二相似度作为整体评价参数,可以从整体上来评价目标文本的扣题程度,实现跑题检测。
在上述实施例的基础上,若用户提供的是文本图像,且文本图像中包含的是手写文本,此时在识别出该文本图像中目标文本的同时,还可以确定该文本的整洁度;本实施例中,确定该目标文本的整洁度的过程可以包括:
步骤B1:获取待处理的文本图像。
步骤B2:检测出文本图像中的文本框,并确定文本框的文本框置信度,文本框置信度用于表示正确检测出文本框的概率。
本发明实施例中,文本图像中的文本一般以多行或多列的形式表示出来,通过检测的方式即可检测出文本图像中的文本框;其中,由于文本一般是以行的形式表示,本实施例中的文本框一般为文本行框。具体地,可通过文本框检测模型进行检测,如通过CTPN(Connectionist Text Proposal Network,连接文本预选框网络)模型进行检测,CTPN模型可以准确定位图像中的文本行。本实施例中,通过对文本图像进行检测处理,可以检测出其中的所有文本框,不同的文本框具有不同的顶点坐标信息;其中,文本框一般为四边形的形状,其具有四个顶点,该顶点坐标信息即包括四个顶点的坐标。根据该顶点坐标信息可以确定相应文本框的长度、宽度,以及与其他文本框之间的距离等。
此外,在检测文本框的过程中,本发明实施例还提取出能够表征正确检测出该文本框的概率,并将该概率作为文本框的置信度,即文本框置信度。例如,通过CTPN等文本框检测模型进行检测时,其本质是检测出概率最高的文本框;例如,某一行文本可以对应文本框A,也可以对应文本框B,但根据模型检测的结果,该行文本对应是文本框A的概率为a%,对应是文本框B的概率为b%,且a>b,此时该模型即输出概率更高的文本框A,一般的文本框检测方法也只关注所检测出的文本框,即根据检测出的文本框A进行后续处理,而不会关注该文本框A的概率a%。而在本发明实施例中,在对手写的文本进行文本框检测时,若该文本写的越工整,则越能够更高概率地检测出文本框,此时的整洁度也越高;因此,本实施例在检测文本框的同时,还确定相应文本框的文本框置信度,该文本框置信度越高,说明越能高概率检测出文本框,文本图像中的文本的整洁度也越高。
步骤B3:识别出文本框中的字符,并确定字符的字符置信度,字符置信度用于表示正确识别出字符的概率,所有的字符用于生成目标文本。
本发明实施例中,还对该文本图像进行字符识别处理,以识别出该文本图像中包含的字符。具体地,本实施例对文本框对应的文本图像进行字符识别处理,来识别出每个文本框内的字符(比如汉字等);其中,可以预先设置一个字符识别模型,比如CRNN(Convolutional Recurrent Neural Network,卷积循环神经网络)模型等,根据该字符识别模型进行字符识别处理,即可识别出文本框中的所有字符。此外,本实施例中也提取出正确识别字符的概率,并将该概率作为相应字符的字符置信度。例如,文本框中存在字符“我”,字符识别模型确定该字符是“我”的概率为80%,是“找”的概率为20%,则字符识别模型确定该字符为“我”,且该字符的字符置信度为80%。
本实施例中,置信度(包括文本框置信度和字符置信度)一般只是用于模型选择出最适合的处理结果,本实施例提供的方法根据文本框置信度和字符置信度来表征文本的整洁度,可以更加充分、有效地利用检测模型和识别模型在处理过程中所确定的置信度,使得该方法更加贴合机器评价的场景,该方法更适合用于机器评价。
步骤B4:根据检测参数确定文本图像的检测评价值,根据识别参数确定文本图像的识别评价值,根据检测评价值和识别评价值确定文本图像的整洁度评价值,将整洁度评价值作为一项整体评价参数;其中,文本框置信度为一项检测参数,文本框置信度与检测评价值之间为正相关关系,字符置信度为一项识别参数,字符置信度与识别评价值之间为正相关关系。
本发明实施例中,将该评价整洁度的方法主要分为两个过程,即步骤B2所示的检测过程,以及步骤B3所示的识别过程。由于检测过程和识别过程采用不同的处理方式,例如检测过程是基于CTPN等文本框检测模型实现的,识别过程是基于CRNN等字符识别模型实现的,故本实施例中将检测过程所确定的参数称为检测参数,如文本框置信度,将识别过程所确定的参数称为识别参数,如字符置信度,之后分别根据检测参数和识别参数确定该文本图像的检测评价值、识别评价值,进而结合检测评价值和识别评价值来综合确定该文本图像整体上的整洁度评价值。其中,文本框置信度与检测评价值之间为正相关关系,即文本框置信度越大,说明越容易正确检测出该文本框,该检测评价值越大,相应的整洁度评价值也越高;同样地,字符置信度与识别评价值之间为正相关关系,即字符置信度越大,说明越能唯一确定该字符是哪个字符,该字符书写地越工整,故识别评价值也越大,相应的整洁度评价值也越高。
可选地,上述步骤B2“检测出文本图像中的文本框”包括:
步骤B21:对文本图像进行文本框检测处理,确定候选框以及相应的顶点坐标信息。
步骤B22:根据顶点坐标信息确定确定为背景框和间框的候选框,并剔除所有候选框中的背景框和间框,并将剩余的候选框作为文本框;背景框为与文本框之间距离大于预设阈值的候选框,间框为两个文本框之间的候选框。
本发明实施例中,可以采用现有的文本框检测模型(如CTPN模型等)对文本图像进行文本框检测处理,由于现有的CTPN模型等会检测出文本图像中所有的框(包含文本框),从而导致其中可能存在不是文本框的框,例如背景框等。本实施例中,将文本框检测处理后所确定的框均称为候选框,其中包括文本框,即文本框也是一种候选框,之后根据所有候选框的顶点坐标信息来确定哪些候选框是文本框。
具体地,文本图像中包含多个文本框,且多个文本框会距离较近形成文本主体,且文本主体占大部分;而背景框是与待处理的文本主体不相关的框,其一般距离文本框较远,故可以把与文本框之间距离大于预设阈值的候选框作为背景框。如图2所示,图中左侧部分存在几个零散的候选框,这些候选框距离文本框较远,此时即可将这些候选框作为背景框。
此外,手写的文本可能存在插入字的情况,由于在同一文本行内没有可以插入字的空间,此时一般会在该文本行的上方或下方填充该字,以表示此处插入了字。在文本框检测处理时,插入的字由于与其他文本行均不在同一行,其也会被识别出存在一个候选框,由于该候选框仍然位于文本主体内,其不是背景框,本实施例中将该背景框称为间框,一般情况下,间框位于两个文本框之间。在识别出哪些候选框为背景框、哪些候选框为间框之后,即可将剩余的其他候选框作为后续待处理的文本框。
步骤B23:根据文本框的顶点坐标信息确定文本框的宽度;根据文本框的宽度确定文本图像中所有文本框的波动程度,并将波动程度作为一项检测参数,且波动程度与检测评价值之间为负相关关系;波动程度std为:
其中,n为文本框的数量,xi表示第i个文本框的宽度,/>表示所有文本框的宽度的平均值,max(xi)表示所有文本框的宽度的最大值。
本发明实施例中,文本框一般为四边形形状的框,通过该文本框的四个顶点的坐标即可确定文本框的尺寸,如长度、宽度等,本实施例只关注文本框的宽度。其中,由于文本框一般为文本行框,此处该文本框的宽度实际为高度。具体地,可以通过两个顶点的坐标确定一个宽度(高度)h1,之后再通过另外两个顶点的坐标确定另一个宽度h2,将h1和h2的平均值作为该文本框的宽度。
本发明实施例中,文本框的波动程度用于表示文本框宽度的变化程度,若多个文本框的宽度基本上相同,则波动程度较小,也可以说明该文本图像中的文本比较工整;相反地,若文本框的宽度相差较大,则说明用户(如学生)在书写不同行的文本时,用户没有保证每行的标准一致,此时的整洁度相对较差。具体地,本实施例将该波动程度作为一项检测参数,即基于文本框置信度和波动程度来综合确定检测评价值。其中,由于波动程度越大,整洁度越差,故波动程度与检测评价值之间为负相关关系。
步骤B24:确定框占比,并将间框占比作为一项检测参数,框占比为文本框占比或间框占比;其中,文本框占比为文本框的数量与总框数量的比值,且文本框占比与检测评价值之间为正相关关系;间框占比为间框的数量与总框数量的比值,且间框占比与检测评价值之间为负相关关系;总框数量为间框的数量与文本框的数量之和。
本发明实施例中,背景框为干扰评价的框,需要完全剔除;而间框对应用户书写文本时所插入的字,间框的数量越多,说明该文本图像中的文本存在越多的插入情况,整洁度也越差;本实施例中具体通过间框占比来进行评价,即确定检测评价值。本实施例中,间框占比为间框的数量与总框数量(间框的数量与文本框的数量之和)的比值,间框占比越大,说明插入字的情况越严重,整洁度也越差,故间框占比作为一项检测参数时,其与检测评价值之间为负相关关系。
此外,由于文本框占比和间框占比的之和为1,故也可以通过文本框占比来间接表示间框的比例情况。具体地,该文本框占比越大,说明间框的占比越小,整洁度也越好,故该文本框占比与检测评价值之间为正相关关系。
本实施例中,间框占比和文本框占比均为框占比,由于文本框置信度、框占比以及上述确定的波动程度均可作为检测参数,故可以结合上述多种检测参数综合确定检测评价值,使得检测评价值更加准确。
此外,上述步骤B3“识别出文本框中的字符,并确定字符的字符置信度”包括:
步骤B31:获取第一训练样本和第二训练样本,第一训练样本包括常用字符以及相对应的字符标注,第二训练样本包括生僻字符以及涂改标签,生僻字符与涂改标签之间为多对一关系。
步骤B32:根据多个第一训练样本和多个第二训练样本对预设的字符识别模型进行训练,生成训练后的字符识别模型。
本发明实施例中,该字符识别模型的主要框架仍然可以采用现有的模型框架,如CRNN模型等,区别在于传统字符识别模型会确定所有字符对应的标注,而本实施例中会将部分生僻字符标注上涂改标签,而其余的常用字符仍然按照常规的标注方式进行标注。即,本实施例中的第一训练样本可以采用常规的训练样本,每个字符(常用字符)对应一个确定的字符标注;而第二训练样本中的字符(生僻字符)对应唯一的涂改标签,即多个生僻字符均对应同样的涂改标签,该涂改标签也可以当做是一个字符标注,只是多个生僻字符对应一个涂改标签。本发明实施例中,该生僻字符具体可以为生僻字,也可以是其他没有语义含义的符号,例如圆形、方块等。其中,可以按照人为经验将字符集中的字符划分为常用字符和生僻字符,也可以通过每个字符的使用频率对字符进行划分,本实施例对此不做限定。
在对字符识别模型进行训练时,按照常规训练方式进行训练即可。即把第一训练样本的常用字符作为输入、把相对应的字符标注作为输出,从而进行训练;同样地,把第二训练样本的生僻字符作为输入、把涂改标签作为输出,同样也可以进行训练。训练后得到的字符识别模型可以正常识别常用字符,而与涂改标签对应的字符即可认为是涂改字符。本实施例中通过生僻字符来指代涂改字符,可以方便字符识别模型学习到涂改字符的特征,进而实现对涂改字符的识别。
步骤B33:根据训练后的字符识别模型对文本框对应的文本图像进行识别处理,识别出文本框中的正常字符和涂改字符,并确定正常字符的第一字符置信度和涂改字符的第二字符置信度。
步骤B34:将第一字符置信度和第二字符置信度均作为一项识别参数,且第一字符置信度和第二字符置信度与识别评价值之间均为正相关关系。
本发明实施例中,根据字符识别模型(如CRNN模型等)对文本图像进行识别处理;其中,该字符识别模型除了用于识别正常字符之外,还用于识别涂改字符;本实施例中,涂改字符为用户执行涂改操作后所留下的字符,该涂改字符没有具体的实际含义,但其会影响文本的整洁度。本实施例中将字符分为正常字符(可以正常识别的字符)和涂改字符,以方便识别出文本图像中哪些内容是被涂改的。同时,字符识别模型识别出正常字符时也具有相应的字符置信度,即第一字符置信度,而识别出涂改字符的置信度为第二字符置信度。第一字符置信度和第二字符置信度均为字符置信度,二者与识别评价值之间均为正相关关系。其中,识别出涂改字符的置信度(即第二字符置信度)越高,说明该字符越容易被识别,本实施例中认为整洁度仍然较高;相反,若第二字符置信度较低,首先说明该字符不是正常字符,其次该字符也难以被识别,极大概率说明该字符书写不规范,整洁度较差。
步骤B35:确定字符占比,并将涂改字符占比作为一项识别参数,字符占比为正常字符占比或涂改字符占比;其中,正常字符占比为正常字符的数量与总字符数量的比值,且正常字符占比与识别评价值之间为正相关关系;涂改字符占比为涂改字符的数量与总字符数量的比值,且涂改字符占比与识别评价值之间为负相关关系;总字符数量为涂改字符的数量与正常字符的数量之和。
本发明实施例中,由于涂改字符越多,整洁度也越差,因此可以通过涂改字符的占比来确定文本图像的识别评价值,进而能够评价整洁度。其中,涂改字符占比为涂改字符的数量与总字符数量(涂改字符的数量与正常字符的数量之和)的比值,涂改字符占比越大,说明涂改的情况越严重,整洁度也越差,故涂改字符占比作为一项识别参数时,其与识别评价值之间为负相关关系。
此外,由于正常字符占比与涂改字符占比之和为1,与上述的文本框占比表示间框占比类似,本实施例中也可以通过正常字符占比来间接表示涂改字符占比,只是正常字符占比与识别评价值之间为正相关关系。
在上述实施例的基础上,检测参数具体可以包括:文本框置信度、波动程度和间框占比(或文本框占比)等多项,识别参数具体可以包括:第一字符置信度、第二字符置信度、涂改字符占比(或正常字符占比)等多项,本实施例中可以采用加权的方式分别计算检测评价值和识别评价值,之后再确定整体的整洁度评价值。其中,由于每种置信度(包括文本框置信度、第一字符置信度、第二字符置信度)的数量为多个,本实施例具体通过置信度的平均值来计算相应的评价值。例如,文本图像存在多个文本框时,每个文本框对应一个文本框置信度,此时可以根据所有文本框置信度的平均值来计算检测评价值。
此外,该整洁度评价值用于评价文本图像的整洁度,整洁度评价值越高,说明其整洁度越好。具体的,该整洁度评价值可以为为百分制,十分制等,也可以通过进一步分段量化进行评价。例如上述的置信度以及占比等均为0~1之间的数值,其最终确定的整洁度评价值也可以是0~1之间的数值,此时可以分段量化如下:大于0.8的为很整洁,0.5~0.8的为一般整洁,0.2~0.5的为不整洁,0.2以下的为很不整洁。
在上述实施例的基础上,本实施例中的句子评价参数包括客观参数和主观参数,即从客观和主观两方面对目标文本中的句子元素进行评价。本实施例中,上述步骤102“确定目标文本的句子评价参数”包括下述的步骤C1和/或步骤C2:
步骤C1:确定目标文本的客观参数,并将客观参数作为一项句子评价参数。
步骤C2:确定目标文本的主观参数,并将主观参数作为一项句子评价参数。
具体地,上述步骤C1“确定目标文本的客观参数”包括:
步骤C11:确定纠错模型,将目标文本的句子元素输入至纠错模型,确定纠错模型所输出的纠错结果,根据纠错结果确定目标文本的客观参数。
步骤C12:在纠错结果与相应的句子元素不同时,生成相应的修改意见。
本发明实施例中,预先训练得到纠错模型,该纠错模型用于发现句子元素中的错误,并输出正确的结果,即纠错结果;若该句子元素本身就是正确的,则输出的纠错结果与该句子元素本身相同。同时,根据纠错结果与句子元素之间的差异即可确定句子元素中哪些字或词语是错误的,根据错误字或词语的数量、所占比例等即可确定该目标文本的客观参数,并可以生成相应的修改意见。可选地,由于存在词语错误(例如存在错别字)、语法错误(例如缺少谓语等)或音近词错误(例如错误词与正确词的发音相同或相似,其中,错误词与正确词的发音相似度大于预设的相似度阈值即可认为二者相似)等多种错别类型,若句子元素存在错误,在输出纠错结果的同时,还可以输出相应的错误类型。
本实施例中,可以通过训练的方式得到所需的纠错模型。由于训练纠错模型的样本较少,本实施例通过无标数据构建训练样本,并通过微调(finetune)以保证最后训练得到的纠错模型的准确度。具体地,上述步骤C11“确定纠错模型”包括:
步骤D1:收集多个错误正确句子对和正确正确句子对,错误正确句子对包括错误句子和相应的正确句子,正确正确句子对包括正确句子以及相同的正确句子。
本发明实施例中,预先从现有的数据中采集所需的句子对,该句子对包括错误正确句子对和正确正确句子对两类;其中,错误正确句子对为“错误句子-正确句子”的句子对,其包含一个错误句子和相应的一个正确句子;同样地,正确正确句子对为“正确句子-正确句子”的句子对,其包括一个正确句子以及相同的正确句子。例如,当需要对中小学生的作文进行纠错时,可以收集中小学生在日常习作中的作文,进而可以收集其中的正确句子和错误句子,并对其中的错误句子进行改正,以生成与该错误句子相对应的正确句子。例如,收集到的句子有“今天天气很好”、“太阳情朗”,其中的“今天天气很好”是正确句子,可以形成“今天天气很好-今天天气很好”的正确正确句子对;而“太阳情朗”中的“情”字错误,应该是“晴”,故“太阳情朗”是个错误句子,并可以形成“太阳情朗-太阳晴朗”的错误正确句子对。此外,对错误句子纠错所生成的正确句子也可用于生成正确正确句子对。
步骤D2:对错误正确句子对中的错误句子和正确句子进行词性标注,根据词性标注结果和词语对比结果确定错误句子与正确句子之间的不同,确定错误正确句子对中的改错信息以及相应的错误类型,错误类型包括词语错误、语法错误或音近词错误。
步骤D3:对所有错误正确句子对的错误类型进行统计处理,确定错误类型比例。
本发明实施例中,如上所述,错误类型包括词语错误、语法错误或音近词错误等多种,如上述的“太阳情朗”即为音近词错误;其中,音近词错误也属于广义上的词语错误,本实施例中的词语错误指的是除音近词错误之外的其他词语错误。具体地,通过比较错误句子与正确句子的词性标注结果和词语对比结果的不同即可确定相应的错误类型。同时,也可以确定相应的改错信息,本实施例中,该改错信息用于表示纠错的具体内容。例如上述的“太阳情朗”,其改错信息具体可以为:将情朗纠正为晴朗,或者是:将太阳情朗纠正为太阳晴朗。本实施例中,一个错误句子中可能包含一个或多个错误,每个错误可能属于相同或不同的错误类型,本实施例对所有的错误句子的错误类型进行统计,可以确定每种错误类型之间的比例。例如词语错误的数量为100,语法错误的数量为150,音近词错误的数量为200,则错误类型比例—词语错误:语法错误:音近词错误为2:3:4。
步骤D4:确定包含多个无标数据的数据集,根据改错信息反向生成无标数据对应的错误数据,错误数据中只对应一种错误类型,且所有错误数据的错误类型比例与所有错误正确句子对的错误类型比例一致。
本发明实施例中,无标数据为没有进行标注或者不需要标注的数据,具体可以为网络文本、教材中的句子等,该无标数据本身为正确的句子。本实施例中,由于改错信息用于表示把错误内容纠正为正确内容,因此,根据该改错信息可以反向地把无标数据修改为错误数据,即把无标数据中的正确内容改为错误内容。例如改错信息中包含“情朗-晴朗”,无标数据为“今天天气晴朗”,此时即可将其改为错误数据“今天天气情朗”。为方便后续使用该错误数据,每个错误数据中只对应一种错误类型;由于一个无标数据可能适应于多种错误类型,即一个无标数据生成多个错误数据。同时,为避免某中错误类型的数量与实际情况差异较大,错误数据的错误类型比例与上述真实的错误正确句子对的错误类型比例一致。
步骤D5:将错误数据作为输入、将相应的无标数据作为输出,以及将相同的无标数据作为输入和输出,对原始编码器模型进行训练,生成初始纠错模型。
步骤D6:根据公开的改错训练集对初始纠错模型进行第一次微调训练,生成微调纠错模型。
步骤D7:根据错误正确句子对和正确正确句子对对微调纠错模型进行第二次微调训练,生成最终的纠错模型。
本发明实施例中,纠错模型为一种编码器模型,其可以采用基于转换器(transformer)的端对端引擎。具体地,采用构造的“错误数据-无标数据”组成的句子对原始编码器模型进行训练,可以初步形成纠错模型,即初始纠错模型。之后,基于现有公开或开源的训练集对该初始纠错模型进行第一次微调训练(finetune),生成微调纠错模型;再之后根据收集到的错误正确句子对和正确正确句子对,对微调纠错模型进行第二次微调训练,即把错误正确句子对的错误句子作为输入、正确句子作为输出,以及把正确句子分别作为输入和输出,从而实现训练,并最终生成所需的纠错模型。本发明实施例中,通过收集真实所需的错误正确句子对等来确定合适的纠错信息,进而可以把大量的无标数据反向转换为错误数据,从而生成大量的训练样本“错误数据-无标数据”,可以有效克服样本不足的问题;此外,先基于现有的训练集进行第一次微调,这样可以保证模型能覆盖更多的错误案例,保证了模型在不同数据环境的鲁棒性。之后再使用真实标注的错误正确句子对(例如基于学生作文生成的句子对)作为最终finetune的训练集,可以保证纠错模型对真实数据有更好的纠错能力,能够更好地适应所需的场景,例如可以更好地适应对中小学生作文纠错的场景。
此外,上述的步骤C2中“确定目标文本的主观参数”具体包括:
步骤C21:确定目标文本的词语元素的词性,并确定不同词性的词语元素的占比,根据占比确定目标文本的丰富度。
本发明实施例中,可以根据自然语言处理中的词性标注技术,分析目标文本的句子元素中的不同词性的占比,从而可以判断句子元素是否有比较丰富的词性;例如,形容词的占比较高,说明目标文本的丰富度也越高。可选地,丰富度也可只设置两个数值,即若目标文本的词性比较丰富,则丰富度设为1,否则丰富度为0。
步骤C22:根据预设的语言模型确定目标文本中句子元素的合理度,并根据所有句子元素的合理度确定目标文本的合理度。
本发明实施例中,预先设置语言模型,该语言模型具体可为预训练语言模型(如GPT、BERT、ALBERT和XLNet),基于该语言模型来检测句子元素的合理性。可选地,该合理度具体可以为语言模型输出的困惑度(perplexity,简称PPL);PPL是用在自然语言处理领域中衡量语言模型好坏的指标,其前提是输入的句子是合理的。对于同一语言模型,若输入的句子不合理,其输出的PPL也会较高;因此,将PPL作为合理度也可以对输入的句子元素进行合理性判断,PPL越低,说明相应的句子元素越合理。
步骤C23:根据预设的修辞检测模型确定目标文本中句子元素是否存在修辞。
步骤C24:根据目标文本的丰富度、目标文本的合理度以及目标文本中句子元素是否存在修辞,确定目标文本的主观参数。
本发明实施例中,可以根据现有的修辞检测模型来判断句子元素是否采用了修辞手法,以及也可以确定句子元素采用了哪种修辞手法(如排比、比喻、拟人)。本实施例结合以上三个特征可以对目标文本的主观要素进行打分,从而确定主观参数;其中,主观参数分值越高,说明目标文本的句子元素越流畅越生动形象。
在上述实施例的基础上,该整体评价参数还可以包括内容评价值、结构评价值、语言评价值等,从内容、结构、语言等维度进行整体评价。具体地,上述步骤102“确定目标文本的整体评价参数”具体可以包括:执行内容评价操作、结构评价操作、语言评价操作中的一项或多项,整体评价参数包括相应的内容评价值、结构评价值、语言评价值。
本发明实施例中,上述“内容评价操作”的过程包括:
步骤E1:确定第一训练文本以及第一训练文本被标注的内容评价值。
步骤E2:确定第一训练文本的内容参数,将内容参数作为输入、将内容评价值作为输出,对预设的第一模型进行训练,以生成内容评价模型;内容参数包括:单字词占比、多字词占比、成语占比、用词的最大词长、用词的最小词长、词长的方差、词长的标准差、不同词性的词语占比、各个词性的词语占比的平均值,中的一项或多项。
步骤E3:根据目标文本的目标元素确定目标文本的内容参数,并输入至内容评价模型,将内容评价模型的输出作为目标文本的内容评价值。
上述“结构评价操作”的过程包括:
步骤F1:确定第二训练文本以及第二训练文本被标注的结构评价值。
步骤F2:确定第二训练文本的结构参数,将结构参数作为输入、将结构评价值作为输出,对预设的第二模型进行训练,以生成结构评价模型;结构参数包括:总字数、去掉停用词之后的字数、总词语数、去重后的词语个数、去停用词且去重后的词语个数、去停用词之后文本长度的开四次方、去重后的词语个数占总词语数的比例、去停用词且去重后的词语个数占总词语数的比例、段落个数、文本的潜在语义分析、段落的潜在语义分析的平均值,中的一项或多项。
步骤F3:根据目标文本的目标元素确定目标文本的结构参数,并输入至结构评价模型,将结构评价模型的输出作为目标文本的结构评价值。
上述“语言评价操作”的过程包括:
步骤G1:确定第三训练文本以及第三训练文本被标注的语言评价值。
步骤G2:确定第三训练文本的语言参数,将语言参数作为输入、将语言评价值作为输出,对预设的第三模型进行训练,以生成语言评价模型;语言参数包括:总句子数、不同长度范围内的所有句子占总局字数的比例、平均句长、最大句长、最小句长、句长方差、句长标准差、句长中位数,中的一项或多项。
步骤G3:根据目标文本的目标元素确定目标文本的语言参数,并输入至语言评价模型,将语言评价模型的输出作为目标文本的语言评价值。
本发明实施例中,内容评价操作、结构评价操作、语言评价操作三者的基本逻辑类似,均是通过预先标注训练文本在某个维度下的值,之后以相应维度的参数对模型进行训练,即可得到所需的模型,该模型也可用于评价目标文本相应维度下的评价值。下面以内容评价操作为例进行说明。
本实施例中,首先获取第一训练文本(上述的第二训练文本、第三训练文本可以与第一训练文本相同,也可不同),之后通过人工标注等方式来确定第一训练文本的内容评价值;例如,由老师对第一训练文本的内容进行评价打分,从而可以确定相应的内容评价值。优选地,训练文本的内容评价值、结构评价值、语言评价值需要分别打分,即三者一般是不同的;当训练文本标注工作量较大时等特殊情况,也可采用统一的分值,即内容评价值、结构评价值、语言评价值三者相同。
在训练内容评价模型时,把第一训练文本的内容参数作为输入来训练第一模型(该第一模型与第二模型、第三模型可以不同,也可以相同,具体可根据实际情况选择)。其中,可以把从训练文本中提取内容参数的功能集成到第一模型的输入侧,即第一模型先提取出内容参数,之后再进行训练,从而生成所需的内容评价模型。当需要对目标文本进行评价时,即可把目标文本(或者目标文本的内容参数)输入至内容评价模型,从而得到目标文本的内容评价值。相应地,也可得到目标文本的结构评价值、语言评价值,从而可以从内容、结构、语言等三个维度对目标文本进行整体评价,进而最终确定目标文本的评价值。
上文详细描述了本发明实施例提供的文本处理的方法,该方法也可以通过相应的装置实现,下面详细描述本发明实施例提供的文本处理的装置。
图2示出了本发明实施例所提供的一种文本处理的装置的结构示意图。如图2所示,该文本处理的装置包括:
预处理模块21,用于获取待处理的目标文本,并确定所述目标文本中的目标元素,所述目标元素包括段落元素、句子元素、词语元素、字元素中的一项或多项;
参数确定模块22,用于根据所述目标元素确定所述目标文本的整体评价参数,并确定所述目标文本的句子评价参数;
评价模块23,用于根据所述整体评价参数和所述句子评价参数确定所述目标文本的评价值。
在上述实施例的基础上,所述参数确定模块22确定所述目标文本的整体评价参数,包括:上述的步骤A1-A3,和/或包括步骤A4-A6。
在上述实施例的基础上,该装置还包括:
图像获取模块,用于获取待处理的文本图像;
检测模块,用于检测出所述文本图像中的文本框,并确定所述文本框的文本框置信度,所述文本框置信度用于表示正确检测出所述文本框的概率;
识别模块,用于识别出所述文本框中的字符,并确定所述字符的字符置信度,所述字符置信度用于表示正确识别出所述字符的概率,所有的所述字符用于生成所述目标文本;
所述评价模块还用于:根据检测参数确定所述文本图像的检测评价值,根据识别参数确定所述文本图像的识别评价值,根据所述检测评价值和所述识别评价值确定所述文本图像的整洁度评价值,将所述整洁度评价值作为一项所述整体评价参数;其中,所述文本框置信度为一项检测参数,所述文本框置信度与所述检测评价值之间为正相关关系,所述字符置信度为一项识别参数,所述字符置信度与所述识别评价值之间为正相关关系。
在上述实施例的基础上,所述检测模块检测出所述文本图像中的文本框,具体包括上述步骤B21-B24。
所述识别模块识别出所述文本框中的字符,并确定所述字符的字符置信度,具体包括上述步骤B31-B35。
在上述实施例的基础上,所述参数确定模块22确定所述目标文本的句子评价参数,包括:上述的步骤C1和/或步骤C2。
在上述实施例的基础上,所述参数确定模块22确定纠错模型,包括:上述的步骤D1-D7。
在上述实施例的基础上,所述参数确定模块22确定所述目标文本的整体评价参数,包括:执行内容评价操作、结构评价操作、语言评价操作中的一项或多项,所述整体评价参数包括相应的内容评价值、结构评价值、语言评价值;
其中,所述内容评价操作包括:上述步骤E1-E3;所述结构评价操作包括:上述步骤F1-F3;所述语言评价操作包括:上述步骤G1-G3。
此外,本发明实施例还提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该收发器、该存储器和处理器分别通过总线相连,计算机程序被处理器执行时实现上述文本处理的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
具体的,参见图3所示,本发明实施例还提供了一种电子设备,该电子设备包括总线1110、处理器1120、收发器1130、总线接口1140、存储器1150和用户接口1160。
在本发明实施例中,该电子设备还包括:存储在存储器1150上并可在处理器1120上运行的计算机程序,计算机程序被处理器1120执行时实现上述文本处理的方法实施例的各个过程。
收发器1130,用于在处理器1120的控制下接收和发送数据。
本发明实施例中,总线架构(用总线1110来代表),总线1110可以包括任意数量互联的总线和桥,总线1110将包括由处理器1120代表的一个或多个处理器与存储器1150代表的存储器的各种电路连接在一起。
总线1110表示若干类型的总线结构中的任何一种总线结构中的一个或多个,包括存储器总线以及存储器控制器、外围总线、加速图形端口(Accelerate Graphical Port,AGP)、处理器或使用各种总线体系结构中的任意总线结构的局域总线。作为示例而非限制,这样的体系结构包括:工业标准体系结构(Industry Standard Architecture,ISA)总线、微通道体系结构(Micro Channel Architecture,MCA)总线、扩展ISA(Enhanced ISA,EISA)总线、视频电子标准协会(Video Electronics Standards Association,VESA)、外围部件互连(Peripheral Component Interconnect,PCI)总线。
处理器1120可以是一种集成电路芯片,具有信号处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中硬件的集成逻辑电路或软件形式的指令完成。上述的处理器包括:通用处理器、中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)、复杂可编程逻辑器件(Complex Programmable LogicDevice,CPLD)、可编程逻辑阵列(Programmable Logic Array,PLA)、微控制单元(Microcontroller Unit,MCU)或其他可编程逻辑器件、分立门、晶体管逻辑器件、分立硬件组件。可以实现或执行本发明实施例中公开的各方法、步骤及逻辑框图。例如,处理器可以是单核处理器或多核处理器,处理器可以集成于单颗芯片或位于多颗不同的芯片。
处理器1120可以是微处理器或任何常规的处理器。结合本发明实施例所公开的方法步骤可以直接由硬件译码处理器执行完成,或者由译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(Random Access Memory,RAM)、闪存(FlashMemory)、只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、寄存器等本领域公知的可读存储介质中。所述可读存储介质位于存储器中,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
总线1110还可以将,例如外围设备、稳压器或功率管理电路等各种其他电路连接在一起,总线接口1140在总线1110和收发器1130之间提供接口,这些都是本领域所公知的。因此,本发明实施例不再对其进行进一步描述。
收发器1130可以是一个元件,也可以是多个元件,例如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。例如:收发器1130从其他设备接收外部数据,收发器1130用于将处理器1120处理后的数据发送给其他设备。取决于计算机系统的性质,还可以提供用户接口1160,例如:触摸屏、物理键盘、显示器、鼠标、扬声器、麦克风、轨迹球、操纵杆、触控笔。
应理解,在本发明实施例中,存储器1150可进一步包括相对于处理器1120远程设置的存储器,这些远程设置的存储器可以通过网络连接至服务器。上述网络的一个或多个部分可以是自组织网络(ad hoc network)、内联网(intranet)、外联网(extranet)、虚拟专用网(VPN)、局域网(LAN)、无线局域网(WLAN)、广域网(WAN)、无线广域网(WWAN)、城域网(MAN)、互联网(Internet)、公共交换电话网(PSTN)、普通老式电话业务网(POTS)、蜂窝电话网、无线网络、无线保真(Wi-Fi)网络以及两个或更多个上述网络的组合。例如,蜂窝电话网和无线网络可以是全球移动通信(GSM)系统、码分多址(CDMA)系统、全球微波互联接入(WiMAX)系统、通用分组无线业务(GPRS)系统、宽带码分多址(WCDMA)系统、长期演进(LTE)系统、LTE频分双工(FDD)系统、LTE时分双工(TDD)系统、先进长期演进(LTE-A)系统、通用移动通信(UMTS)系统、增强移动宽带(Enhance Mobile Broadband,eMBB)系统、海量机器类通信(massive Machine Type of Communication,mMTC)系统、超可靠低时延通信(UltraReliable Low Latency Communications,uRLLC)系统等。
应理解,本发明实施例中的存储器1150可以是易失性存储器或非易失性存储器,或可包括易失性存储器和非易失性存储器两者。其中,非易失性存储器包括:只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存(Flash Memory)。
此外,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述文本处理的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
以上所述,仅为本发明实施例的具体实施方式,但本发明实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明实施例披露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明实施例的保护范围之内。因此,本发明实施例的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种文本处理的方法,其特征在于,包括:
获取待处理的目标文本,并确定所述目标文本中的目标元素,所述目标元素包括段落元素、句子元素、词语元素、字元素中的一项或多项;
根据所述目标元素确定所述目标文本的整体评价参数,并确定所述目标文本的句子评价参数;
根据所述整体评价参数和所述句子评价参数确定所述目标文本的评价值;
其中,所述确定所述目标文本的整体评价参数包括:
根据预设的文本模型,确定所述目标文本的每个句子元素中多个词语元素或字元素的向量;根据多个所述词语元素或字元素的向量确定相应的所述句子元素的句子向量,并根据所述目标文本中所有所述句子元素的句子向量确定所述目标文本的文本向量;确定同题目下多个其他文本的文本向量的平均值,将所述目标文本的文本向量与其他文本的文本向量的平均值之间的语义相似度作为第一相似度,并将所述第一相似度作为一项整体评价参数;
和/或,确定所述目标文本中的第一关键词,并根据预设的词向量模型确定与所述第一关键词同义的第一同义词,根据所述第一关键词的词向量和所述第一同义词的词向量确定所述目标文本的第一平均词向量;确定所述目标文本所对应的题目文本中的第二关键词,并根据预设的所述词向量模型确定与所述第二关键词同义的第二同义词,根据所述第二关键词的词向量和所述第二同义词的词向量确定所述题目文本的第二平均词向量;将所述第一平均词向量与所述第二平均词向量之间的相似度作为第二相似度,并将所述第二相似度作为一项整体评价参数;
其中,所述确定所述目标文本的句子评价参数,包括:
确定所述目标文本的客观参数,并将所述客观参数作为一项句子评价参数;和/或,确定所述目标文本的主观参数,并将所述主观参数作为一项句子评价参数;
其中,所述确定所述目标文本的客观参数,包括:
确定纠错模型,将所述目标文本的句子元素输入至所述纠错模型,确定所述纠错模型所输出的纠错结果,根据所述纠错结果确定所述目标文本的客观参数;
在所述纠错结果与相应的所述句子元素不同时,生成相应的修改意见;
所述确定所述目标文本的主观参数,包括:
确定所述目标文本的词语元素的词性,并确定不同词性的所述词语元素的占比,根据所述占比确定所述目标文本的丰富度;
根据预设的语言模型确定所述目标文本中句子元素的合理度,并根据所有所述句子元素的合理度确定所述目标文本的合理度;
根据预设的修辞检测模型确定所述目标文本中句子元素是否存在修辞;
根据所述目标文本的丰富度、所述目标文本的合理度以及所述目标文本中句子元素是否存在修辞,确定所述目标文本的主观参数。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取待处理的文本图像;
检测出所述文本图像中的文本框,并确定所述文本框的文本框置信度,所述文本框置信度用于表示正确检测出所述文本框的概率;
识别出所述文本框中的字符,并确定所述字符的字符置信度,所述字符置信度用于表示正确识别出所述字符的概率,所有的所述字符用于生成所述目标文本;
根据检测参数确定所述文本图像的检测评价值,根据识别参数确定所述文本图像的识别评价值,根据所述检测评价值和所述识别评价值确定所述文本图像的整洁度评价值,将所述整洁度评价值作为一项所述整体评价参数;其中,所述文本框置信度为一项检测参数,所述文本框置信度与所述检测评价值之间为正相关关系,所述字符置信度为一项识别参数,所述字符置信度与所述识别评价值之间为正相关关系。
3.根据权利要求2所述的方法,其特征在于,所述检测出所述文本图像中的文本框包括:
对所述文本图像进行文本框检测处理,确定候选框以及相应的顶点坐标信息;
根据所述顶点坐标信息确定确定为背景框和间框的候选框,并剔除所有所述候选框中的所述背景框和所述间框,并将剩余的所述候选框作为文本框;所述背景框为与所述文本框之间距离大于预设阈值的候选框,所述间框为两个文本框之间的候选框;
根据所述文本框的顶点坐标信息确定所述文本框的宽度;
根据所述文本框的宽度确定所述文本图像中所有所述文本框的波动程度,并将所述波动程度作为一项检测参数,且所述波动程度与所述检测评价值之间为负相关关系;所述波动程度std为:其中,n为文本框的数量,/>表示第i个文本框的宽度,表示所有文本框的宽度的平均值,/>表示所有文本框的宽度的最大值;
确定框占比,并将所述间框占比作为一项检测参数,所述框占比为文本框占比或间框占比;
其中,所述文本框占比为所述文本框的数量与总框数量的比值,且所述文本框占比与所述检测评价值之间为正相关关系;
所述间框占比为所述间框的数量与总框数量的比值,且所述间框占比与所述检测评价值之间为负相关关系;所述总框数量为所述间框的数量与所述文本框的数量之和;
所述识别出所述文本框中的字符,并确定所述字符的字符置信度,包括:
获取第一训练样本和第二训练样本,所述第一训练样本包括常用字符以及相对应的字符标注,所述第二训练样本包括生僻字符以及涂改标签,所述生僻字符与所述涂改标签之间为多对一关系;
根据多个所述第一训练样本和多个所述第二训练样本对预设的字符识别模型进行训练,生成训练后的字符识别模型;
根据训练后的字符识别模型对所述文本框对应的文本图像进行识别处理,识别出所述文本框中的正常字符和涂改字符,并确定所述正常字符的第一字符置信度和所述涂改字符的第二字符置信度;
将所述第一字符置信度和所述第二字符置信度均作为一项识别参数,且所述第一字符置信度和所述第二字符置信度与所述识别评价值之间均为正相关关系;
确定字符占比,并将所述涂改字符占比作为一项识别参数,所述字符占比为正常字符占比或涂改字符占比;
其中,所述正常字符占比为所述正常字符的数量与总字符数量的比值,且所述正常字符占比与所述识别评价值之间为正相关关系;
所述涂改字符占比为所述涂改字符的数量与总字符数量的比值,且所述涂改字符占比与所述识别评价值之间为负相关关系;所述总字符数量为所述涂改字符的数量与所述正常字符的数量之和。
4.根据权利要求3所述的方法,其特征在于,所述确定纠错模型包括:
收集多个错误正确句子对和正确正确句子对,所述错误正确句子对包括错误句子和相应的正确句子,所述正确正确句子对包括正确句子以及相同的正确句子;
对所述错误正确句子对中的错误句子和正确句子进行词性标注,根据词性标注结果和词语对比结果确定所述错误句子与所述正确句子之间的不同,确定所述错误正确句子对中的改错信息以及相应的错误类型,所述错误类型包括词语错误、语法错误或音近词错误;
对所有所述错误正确句子对的错误类型进行统计处理,确定错误类型比例;
确定包含多个无标数据的数据集,根据所述改错信息反向生成所述无标数据对应的错误数据,所述错误数据中只对应一种错误类型,且所有所述错误数据的错误类型比例与所有所述错误正确句子对的错误类型比例一致;
将所述错误数据作为输入、将相应的所述无标数据作为输出,以及将相同的所述无标数据作为输入和输出,对原始编码器模型进行训练,生成初始纠错模型;
根据公开的改错训练集对所述初始纠错模型进行第一次微调训练,生成微调纠错模型;
根据所述错误正确句子对和所述正确正确句子对对所述微调纠错模型进行第二次微调训练,生成最终的纠错模型。
5.根据权利要求1所述的方法,其特征在于,所述确定所述目标文本的整体评价参数,包括:
执行内容评价操作、结构评价操作、语言评价操作中的一项或多项,所述整体评价参数包括相应的内容评价值、结构评价值、语言评价值;
其中,所述内容评价操作包括:
确定第一训练文本以及所述第一训练文本被标注的内容评价值;
确定所述第一训练文本的内容参数,将所述内容参数作为输入、将所述内容评价值作为输出,对预设的第一模型进行训练,以生成内容评价模型;所述内容参数包括:单字词占比、多字词占比、成语占比、用词的最大词长、用词的最小词长、词长的方差、词长的标准差、不同词性的词语占比、各个词性的词语占比的平均值,中的一项或多项;
根据所述目标文本的目标元素确定所述目标文本的内容参数,并输入至所述内容评价模型,将所述内容评价模型的输出作为所述目标文本的内容评价值;
所述结构评价操作包括:
确定第二训练文本以及所述第二训练文本被标注的结构评价值;
确定所述第二训练文本的结构参数,将所述结构参数作为输入、将所述结构评价值作为输出,对预设的第二模型进行训练,以生成结构评价模型;所述结构参数包括:总字数、去掉停用词之后的字数、总词语数、去重后的词语个数、去停用词且去重后的词语个数、去停用词之后文本长度的开四次方、去重后的词语个数占总词语数的比例、去停用词且去重后的词语个数占总词语数的比例、段落个数、文本的潜在语义分析、段落的潜在语义分析的平均值,中的一项或多项;
根据所述目标文本的目标元素确定所述目标文本的结构参数,并输入至所述结构评价模型,将所述结构评价模型的输出作为所述目标文本的结构评价值;
所述语言评价操作包括:
确定第三训练文本以及所述第三训练文本被标注的语言评价值;
确定所述第三训练文本的语言参数,将所述语言参数作为输入、将所述语言评价值作为输出,对预设的第三模型进行训练,以生成语言评价模型;所述语言参数包括:总句子数、不同长度范围内的所有句子占总局字数的比例、平均句长、最大句长、最小句长、句长方差、句长标准差、句长中位数,中的一项或多项;
根据所述目标文本的目标元素确定所述目标文本的语言参数,并输入至所述语言评价模型,将所述语言评价模型的输出作为所述目标文本的语言评价值。
6.一种文本处理的装置,其特征在于,所述装置应用于上述权利要求1至5中任一项所述的文本处理的方法,包括:
预处理模块,用于获取待处理的目标文本,并确定所述目标文本中的目标元素,所述目标元素包括段落元素、句子元素、词语元素、字元素中的一项或多项;
参数确定模块,用于根据所述目标元素确定所述目标文本的整体评价参数,并确定所述目标文本的句子评价参数;
评价模块,用于根据所述整体评价参数和所述句子评价参数确定所述目标文本的评价值。
7.一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的文本处理的方法中的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的文本处理的方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011504514.2A CN112528628B (zh) | 2020-12-18 | 2020-12-18 | 一种文本处理的方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011504514.2A CN112528628B (zh) | 2020-12-18 | 2020-12-18 | 一种文本处理的方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112528628A CN112528628A (zh) | 2021-03-19 |
CN112528628B true CN112528628B (zh) | 2024-02-02 |
Family
ID=75001453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011504514.2A Active CN112528628B (zh) | 2020-12-18 | 2020-12-18 | 一种文本处理的方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112528628B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326764B (zh) * | 2021-05-27 | 2022-06-07 | 北京百度网讯科技有限公司 | 训练图像识别模型和图像识别的方法和装置 |
CN113435438B (zh) * | 2021-06-28 | 2023-05-05 | 中国兵器装备集团自动化研究所有限公司 | 一种图像和字幕融合的视频报幕板提取及视频切分方法 |
CN113850251A (zh) * | 2021-09-16 | 2021-12-28 | 多益网络有限公司 | 基于ocr技术的文本纠正方法、装置、设备以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010238043A (ja) * | 2009-03-31 | 2010-10-21 | Mitsubishi Electric Corp | テキスト解析学習装置 |
CN107291694A (zh) * | 2017-06-27 | 2017-10-24 | 北京粉笔未来科技有限公司 | 一种自动评阅作文的方法和装置、存储介质及终端 |
CN108717406A (zh) * | 2018-05-10 | 2018-10-30 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
CN111914532A (zh) * | 2020-09-14 | 2020-11-10 | 北京阅神智能科技有限公司 | 一种中文作文评分方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106104521B (zh) * | 2014-01-10 | 2019-10-25 | 克鲁伊普有限责任公司 | 用于自动检测文本中的情感的系统、设备和方法 |
-
2020
- 2020-12-18 CN CN202011504514.2A patent/CN112528628B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010238043A (ja) * | 2009-03-31 | 2010-10-21 | Mitsubishi Electric Corp | テキスト解析学習装置 |
CN107291694A (zh) * | 2017-06-27 | 2017-10-24 | 北京粉笔未来科技有限公司 | 一种自动评阅作文的方法和装置、存储介质及终端 |
CN108717406A (zh) * | 2018-05-10 | 2018-10-30 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
CN111914532A (zh) * | 2020-09-14 | 2020-11-10 | 北京阅神智能科技有限公司 | 一种中文作文评分方法 |
Non-Patent Citations (1)
Title |
---|
基于句群的自动文摘方法;王荣波;张璐瑶;李杰;黄孝喜;周昌乐;;计算机应用(S1);第58-71页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112528628A (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112528628B (zh) | 一种文本处理的方法、装置及电子设备 | |
CN112784696B (zh) | 基于图像识别的唇语识别方法、装置、设备及存储介质 | |
CN111221939B (zh) | 评分方法、装置和电子设备 | |
CN110363194A (zh) | 基于nlp的智能阅卷方法、装置、设备及存储介质 | |
CN110825867B (zh) | 相似文本推荐方法、装置、电子设备和存储介质 | |
CN108052504B (zh) | 数学主观题解答结果的结构分析方法及系统 | |
CN104463101A (zh) | 用于文字性试题的答案识别方法及系统 | |
CN110263854B (zh) | 直播标签确定方法、装置及存储介质 | |
CN107301164B (zh) | 数学公式的语义解析方法及装置 | |
CN110222168B (zh) | 一种数据处理的方法及相关装置 | |
CN114329034B (zh) | 基于细粒度语义特征差异的图像文本匹配判别方法及系统 | |
CN108280065B (zh) | 一种外文文本评价方法及装置 | |
CN113657115A (zh) | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 | |
CN104933158A (zh) | 数学问题求解模型的训练方法和装置、推理方法和装置 | |
CN106781781A (zh) | 一种语言类习题的解题方法及装置 | |
CN113505786A (zh) | 试题拍照评判方法、装置及电子设备 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN112084788B (zh) | 一种影像字幕隐式情感倾向自动标注方法及系统 | |
CN109346108A (zh) | 一种作业检查方法及系统 | |
CN113822052A (zh) | 一种文本错误检测方法、装置、电子设备及存储介质 | |
CN111985250A (zh) | 模型训练方法、装置、系统及计算机可读存储介质 | |
CN116704508A (zh) | 信息处理方法及装置 | |
CN117725922A (zh) | 图像生成方法、装置、计算机设备和存储介质 | |
CN116012866A (zh) | 重题检测方法、装置、电子设备及存储介质 | |
CN113836941B (zh) | 一种合同导航方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |