CN114881007A - 一种数字版电子书的校对方法及系统 - Google Patents
一种数字版电子书的校对方法及系统 Download PDFInfo
- Publication number
- CN114881007A CN114881007A CN202210811586.4A CN202210811586A CN114881007A CN 114881007 A CN114881007 A CN 114881007A CN 202210811586 A CN202210811586 A CN 202210811586A CN 114881007 A CN114881007 A CN 114881007A
- Authority
- CN
- China
- Prior art keywords
- proofreading
- central control
- control module
- file
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及电子书校对技术领域,尤其涉及一种数字版电子书的校对方法及系统,包括扫描模块、图像识别模块、中控模块、校对文件生成模块、校对模块以及比对模块。其中,所述中控模块分别与所述图像识别模块和所述比对模块相连,用以根据图像识别模块的区域划分结果计算校对复杂度、根据校对复杂度对数字版电子书的校对难度进行划分并根据校对难度对校对文件的内容容量进行调节,所述中控模块根据比对模块发送的统计数据对校对文件的内容容量进行修正,避免出现校对难度过大、校对文件内容容量过多而造成的校对准确率降低的问题,同时也避免了校对难度小、校对文件内容容量少而造成的校对资源浪费的问题。
Description
技术领域
本发明涉及电子书校对技术领域,尤其涉及一种数字版电子书的校对方法及系统。
背景技术
校对工作是一种特殊的编辑工作,其作用是将文字差错和其他差错消灭在出版之前,从而保证出版物的传播价值和积累价值。
电子书,代表人们所阅读的数字化出版物, 区别于以纸张为载体的传统出版物。随着时代的发展,数字版电子书越来越受到人们的青睐,一本电子书的好坏,校对起了很大的作用,然而现有的自动校对软件功能实在不能令人满意,而多采用人机结合的校对方式。
中国专利公开号:CN112364632A公开了一种图书校对方法和装置,其公开的技术方案中,获取并显示待校对图书,待校对图书是对参考图书排版后的图书,获取待校对图书的文字内容和文字内容在待校对图书中的位置,根据文字内容、文字内容在待校对图书中的位置和参考图书,在待校对图书中文字内容相对应的位置生成第一校对批注,接收用户的校对批注添加指令,根据校对批注添加指令,获取用户基于显示的待校对图书中当前页面的第一校对批注所输入的第二校对批注,并在当前页面中文字内容相对应的位置生成第二校对批注,根据第一校对批注、第二校对批注,获得待校对图书的校对结果。
然而,数字版电子书校对时涉及文字、图表、公式、注解、版面、标题等多方面的内容,覆盖的内容越多,校对难度越大,现有技术中没有有效的方法以提高校对难度较大的电子书的校对准确率。
发明内容
为此,本发明提供一种数字版电子书的校对方法及系统,用以克服现有技术中对于校对难度较大的电子书校对准确度率低的问题。
为实现上述目的,一方面,本发明提供一种数字版电子书的校对方法,包括:
步骤S1,用扫描模块对纸质书进行扫描以获取扫描图像;
步骤S2,图像识别模块对扫描图像进行识别并对扫描图像按照影响因素进行区域划分;
步骤S3,中控模块根据各影响因素对应的区域面积计算各影响因素所占的比例并根据比例计算各影响因素的权重值,同时,根据权重值确定对应的指导值;
步骤S4,所述中控模块计算复杂度调节系数并根据复杂度调节系数计算校对复杂度,中控模块根据校对复杂度对数字版电子书的校对难度进行划分;
步骤S5,所述中控模块根据校对难度对校对文件的内容容量进行调节,校对文件生成模块按调节后的内容容量将待校对的数字版电子书生成多个校对文件;
步骤S6,校对模块对生成的校对文件进行校对,并将校对完成的文件发送至比对模块以统计错误量,所述中控模块根据错误量计算错误率并根据错误率判定是否需要对校对文件的内容容量进行修正。
进一步地,在所述步骤S2中,所述影响因素包括文字因素、图表因素、公式因素、注解因素以及边缘因素;所述边缘因素指除文字因素、图表因素、公式因素和注解因素以外的因素;
所述中控模块在计算各影响因素所占的比例时,以各影响因素对应的区域面积比例作为各影响因素所占的比例。
进一步地,所述中控模块在完成各因素所占的比例Bi的计算时根据比例Bi计算各因素的权重值Ei,所述中控模块预设各影响因素对应的基础校对难度值为:文字因素对应的基础校对难度值为f1,图表因素对应的基础校对难度值为f2,公式因素对应的基础校对难度值为f3,注解因素对应的基础校对难度值为f4,边缘因素对应的基础校对难度值为f5,设定权重值的计算公式为:
Ei=(fi×Bi)/(f1+f2+f3+f4+f5)
其中fi为各影响因素对应的基础校对难度值,i=1,2,3,4,5。
进一步地,所述中控模块在完成各因素的权重值的计算时,根据权重值确定该影响因素对应的指导值,所述中控模块中设有第一权重预设值E01和第二权重预设值E02,其中,E01<E02,针对单个影响因素,中控模块将其对应的权重值Ei分别与E01和E02进行比对,
当Ei<E01时,所述中控模块将该影响因素的指导值设置为α1;
当E01≤Ei<E02时,所述中控模块将该影响因素的指导值数设置为α2;
当Ei≥E02时,所述中控模块将该影响因素的指导值设置为α3;
其中,α1、α2、α3为预设指导值,且α1>α2>α3。
进一步地,所述中控模块完成权重值和对应指导值的计算后,统计影响因素的数量并将影响因素的数量记为n,计算复杂度调节系数δ,
当n=1时,设定δ=fi×Ei×αk;
当1<n≤5时,设定δ={∑(fi×Ei×αk)}×(n-1)!/n;
其中,αk为影响因素对应的指导值,k=1,2,3。
进一步地,所述中控模块求的复杂度调节系数δ后,计算校对复杂度Z,Z=Z0×δ,其中,Z0为预设复杂度的基础值;
所述中控模块设有第一复杂度预设值Z1和第二复杂度预设值Z2,其中,Z1<Z2,
当Z<Z1时,所述中控模块判定该数字版电子书的校对难度为一般;
当Z1≤Z<Z2时,所述中控模块判定该数字版电子书的校对难度为中等;
当Z≥Z2时,所述中控模块判定该数字版电子书的校对难度为高等。
进一步地,在生成校对文件时,所述校对文件生成模块将待校对数字版电子书按内容容量进行校对文件的划分,所述中控模块在确定数字版电子书的校对难度时,根据校对难度对校对文件的内容容量进行调节,中控模块将调节后校对文件的内容容量记为U1,
所述中控模块中设有校对文件的标准内容容量U0,第一预设内容容量调节系数β1、第二预设内容容量调节系数β2以及第三预设内容容量调节系数β3,其中,0.7<β1<β2<β3<1,
当数字版电子书的校对难度为一般时,所述中控模块使用β1将校对文件内容容量调节至对应值,设定U1=U0×β1;
当数字版电子书的校对难度为中等时,所述中控模块使用β2将校对文件内容容量调节至对应值,设定U1=U0×β2;
当数字版电子书的校对难度为高等时,所述中控模块使用β3将校对文件内容容量调节至对应值,设定U1=U0×β3。
进一步地,所述校对文件生成模块根据调节后的内容容量生成多个校对文件,对于单个校对文件,所述校对模块在校对完成后将校对完成的文件发送至比对模块以统计错误量A,当校对模块完成预设比例的校对文件的校对后,所述中控模块计算错误量的平均值Ap,设定Ap=(A1+A2+...+Am)/m,其中m为预设比例的校对文件的数量,
所述中控模块在求的错误量的平均值Ap后,计算错误率Q并将Q与预设错误率Q0进行比对,设定Q=Ap/U1,
当Q>Q0时,所述中控模块判定错误率过高;
当Q≤Q0时,所述中控模块判定错误率符合标准。
进一步地,当所述中控模块判定错误率过高时,计算Q与Q0的差值ΔQ并根据ΔQ对校对文件内容容量U1进行修正,设定ΔQ=Q-Q0,所述中控模块中设有第一预设错误率差值ΔQ1、第二预设错误率差值ΔQ2、第一预设修正系数γ1、第二预设修正系数γ2以及第三预设修正系数γ3,其中,ΔQ1<ΔQ2,1.1<γ1<γ2<γ3<1.3,
若ΔQ≤ΔQ1,所述中控模块使用γ1将校对文件内容容量U1修正至对应值;
若ΔQ1<ΔQ≤ΔQ2,所述中控模块使用γ2将校对文件内容容量U1修正至对应值;
若ΔQ2<ΔQ,所述中控模块使用γ3将校对文件内容容量U1修正至对应值;
当所述中控模块通过第k预设修正系数γk将校对文件内容容量U1至对应值时,设定k=1,2,3,修正后的校对文件内容容量记为U1’,设定U1’=U1×(1-γk);
所述校对文件生成模块按照修正后的校对文件内容容量对数字版电子书中未校对的部分重新生成校对文件。
另一方面,本发明还提供一种应用于数字版电子书的校对系统,包括:
扫描模块,用以对纸质书进行扫描以获取纸质书的扫描图像;
图像识别模块,其与所述扫描模块相连,用以对所述纸质书的扫描图像进行识别并按照影响因素进行区域划分;
中控模块,其与所述图像识别模块相连,用以根据图像识别模块的区域划分结果计算校对复杂度、根据校对复杂度对数字版电子书的校对难度进行划分并根据校对难度对校对文件的内容容量进行调节,所述中控模块根据比对模块发送的统计数据对校对文件的内容容量进行修正;
校对文件生成模块,其与所述中控模块相连,用以对待校对数字版电子书按内容容量进行校对文件的生成并将校对文件发送至校对模块;
校对模块,其与所述校对文件生成模块相连,用以对校对文件进行校对,并将校对完成的文件发送至比对模块;
比对模块,其分别与所述校对模块与所述中控模块相连,用以将校对完成的文件与校对前的文件进行比对以统计错误量并将统计的数据发送至中控模块。
与现有技术相比,本发明的有益效果在于,数字版电子书的校对难度越大,工作人员耗费的时间精力越多,当工作人员出现疲劳时,校对的准确率就会降低,为保证校对的准确性,本发明在校对文件生成时根据校对难度确定校对文件内容容量,避免出现校对难度过大、校对文件内容容量过多而造成的校对准确率降低的问题,同时也避免了校对难度小、校对文件内容容量少而造成的校对资源浪费的问题。
进一步地,本发明在对各影响因素的权重值的计算时,计算因子包括各影响因素的基础难度值以及各影响因素所占的比例,能够客观的反映出各影响因素对校对复杂度的影响,提高计算精度,从而进一步保证了校对准确率。
进一步地,本发明在对校对复杂度的计算时,根据各影响因素权重值的范围确定对应的指导值,当单个影响因素的权重值过高或是过低时,通过设置指导值,避免在校对复杂度的计算时将该影响因素的影响范围放大或减弱,提高了计算精度,从而进一步保证了校对准确率。
进一步地,在生成校对文件时,所述校对文件生成模块将待校对数字版电子书按内容容量进行校对文件的划分,所述中控模块在确定数字版电子书的校对难度时,根据校对难度对校对文件的内容容量进行调节,校对文件生成模块以调节后的内容容量进行校对文件的划分,避免出现校对难度过大、校对文件内容容量过多而造成的校对准确率降低的问题,从而进一步保证了校对准确率。
尤其,本发明在判定校对文件的错误率过高时,对校对文件内容容量做进一步的修正,所述校对文件生成模块按照修正后的校对文件内容容量对数字版电子书中未校对的部分重新生成校对文件,从而进一步保证了校对准确率。
附图说明
图1为本发明实施例公开的数字版电子书的校对系统的结构框图;
图2为本发明实施例公开的数字版电子书的校对方法的流程图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
请参阅图1所示,其为本发明实施例公开的数字版电子书的校对系统的结构框图,包括:
扫描模块,用以对纸质书进行扫描以获取纸质书的扫描图像;
图像识别模块,其与所述扫描模块相连,用以对所述纸质书的扫描图像进行识别并按照影响因素进行区域划分;
中控模块,其与所述图像识别模块相连,用以根据图像识别模块的区域划分结果计算校对复杂度、根据校对复杂度对数字版电子书的校对难度进行划分并根据校对难度对校对文件的内容容量进行调节,所述中控模块根据比对模块发送的统计数据对校对文件的内容容量进行修正;
校对文件生成模块,其与所述中控模块相连,用以对待校对数字版电子书按内容容量进行校对文件的生成并将校对文件发送至校对模块;
校对模块,其与所述校对文件生成模块相连,用以对校对文件进行校对,并将校对完成的文件发送至比对模块;
比对模块,其分别与所述校对模块与所述中控模块相连,用以将校对完成的文件与校对前的文件进行比对以统计错误量并将统计的数据发送至中控模块。
本实施例所述中控模块在计算各影响因素所占的比例时,可以以预设的页数为单位,也可以以电子书的预设的比例为单位,或是以整个电子书为单位均可,根据需要设计,满足需求即可。
所述比对模块统计错误数量时,比对模块将校对完成的文件与校对前的文件进行比对,自动对不同处进行标注并统计,以比对模块统计的数据作为错误的数量。
本发明在进行数字版电子书的校对时,采用人机结合的方式进行校对。
请参阅图2所示,其为本发明实施例公开的数字版电子书的校对方法的流程图,包括:
步骤S1,用扫描模块对纸质书进行扫描以获取扫描图像;
步骤S2,图像识别模块对扫描图像进行识别并对扫描图像按照影响因素进行区域划分;
步骤S3,中控模块根据各影响因素对应的区域面积计算各影响因素所占的比例并根据比例计算各影响因素的权重值,同时,根据权重值确定对应的指导值;
步骤S4,所述中控模块计算复杂度调节系数并根据复杂度调节系数计算校对复杂度,中控模块根据校对复杂度对数字版电子书的校对难度进行划分;
步骤S5,所述中控模块根据校对难度对校对文件的内容容量进行调节,校对文件生成模块按调节后的内容容量将待校对的数字版电子书生成多个校对文件;
步骤S6,校对模块对生成的校对文件进行校对,并将校对完成的文件发送至比对模块以统计错误量,所述中控模块根据错误量计算错误率并根据错误率判定是否需要对校对文件的内容容量进行修正。
在所述步骤S3中,在对各影响因素的权重值的计算时,计算因子包括各影响因素的基础难度值以及各影响因素所占的比例,能够客观的反映出各影响因素对校对复杂度的影响,提高计算精度。
在所述步骤S4中,在对校对复杂度的计算时,根据各影响因素权重值的范围确定对应的指导值,当单个影响因素的权重值过高或是过低时,通过设置指导值,避免在校对复杂度的计算时将该影响因素的影响范围放大或减弱,进一步提高了计算精度。
在所述步骤S5中,在生成校对文件时,所述校对文件生成模块将待校对数字版电子书按内容容量进行校对文件的划分。
具体而言,在所述步骤S2中,所述影响因素包括文字因素、图表因素、公式因素、注解因素以及边缘因素;所述边缘因素指除文字因素、图表因素、公式因素和注解因素以外的因素;
所述中控模块在计算各影响因素所占的比例时,以各影响因素对应的区域面积比例作为各影响因素所占的比例。
具体而言,所述中控模块在完成各因素所占的比例Bi的计算时根据比例Bi计算各因素的权重值Ei,所述中控模块预设各影响因素对应的基础校对难度值为:文字因素对应的基础校对难度值为f1,图表因素对应的基础校对难度值为f2,公式因素对应的基础校对难度值为f3,注解因素对应的基础校对难度值为f4,边缘因素对应的基础校对难度值为f5,设定权重值的计算公式为:
Ei=(fi×Bi)/(f1+f2+f3+f4+f5)
其中fi为各影响因素对应的基础校对难度值,i=1,2,3,4,5。
具体而言,所述中控模块在完成各因素的权重值的计算时,根据权重值确定该影响因素对应的指导值,所述中控模块中设有第一权重预设值E01和第二权重预设值E02,其中,E01<E02,针对单个影响因素,中控模块将其对应的权重值Ei分别与E01和E02进行比对,
当Ei<E01时,所述中控模块将该影响因素的指导值设置为α1;
当E01≤Ei<E02时,所述中控模块将该影响因素的指导值数设置为α2;
当Ei≥E02时,所述中控模块将该影响因素的指导值设置为α3;
其中,α1、α2、α3为预设指导值,且α1>α2>α3。
具体而言,所述中控模块完成权重值和对应指导值的计算后,统计影响因素的数量并将影响因素的数量记为n,计算复杂度调节系数δ,
当n=1时,设定δ=fi×Ei×αk;
当1<n≤5时,设定δ={∑(fi×Ei×αk)}×(n-1)!/n;
其中,αk为影响因素对应的指导值,k=1,2,3。
具体而言,所述中控模块求的复杂度调节系数δ后,计算校对复杂度Z,Z=Z0×δ,其中,Z0为预设复杂度的基础值;
所述中控模块设有第一复杂度预设值Z1和第二复杂度预设值Z2,其中,Z1<Z2,
当Z<Z1时,所述中控模块判定该数字版电子书的校对难度为一般;
当Z1≤Z<Z2时,所述中控模块判定该数字版电子书的校对难度为中等;
当Z≥Z2时,所述中控模块判定该数字版电子书的校对难度为高等。
具体而言,在生成校对文件时,所述校对文件生成模块将待校对数字版电子书按内容容量进行校对文件的划分,所述中控模块在确定数字版电子书的校对难度时,根据校对难度对校对文件的内容容量进行调节,中控模块将调节后校对文件的内容容量记为U1,
所述中控模块中设有校对文件的标准内容容量U0,第一预设内容容量调节系数β1、第二预设内容容量调节系数β2以及第三预设内容容量调节系数β3,其中,0.7<β1<β2<β3<1,
当数字版电子书的校对难度为一般时,所述中控模块使用β1将校对文件内容容量调节至对应值,设定U1=U0×β1;
当数字版电子书的校对难度为中等时,所述中控模块使用β2将校对文件内容容量调节至对应值,设定U1=U0×β2;
当数字版电子书的校对难度为高等时,所述中控模块使用β3将校对文件内容容量调节至对应值,设定U1=U0×β3。
具体而言,所述校对文件生成模块根据调节后的内容容量生成多个校对文件,对于单个校对文件,所述校对模块在校对完成后将校对完成的文件发送至比对模块以统计错误量A,当校对模块完成预设比例的校对文件的校对后,所述中控模块计算错误量的平均值Ap,设定Ap=(A1+A2+...+Am)/m,其中m为预设比例的校对文件的数量,
所述中控模块在求的错误量的平均值Ap后,计算错误率Q并将Q与预设错误率Q0进行比对,设定Q=Ap/U1,
当Q>Q0时,所述中控模块判定错误率过高;
当Q≤Q0时,所述中控模块判定错误率符合标准。
具体而言,当所述中控模块判定错误率过高时,计算Q与Q0的差值ΔQ并根据ΔQ对校对文件内容容量U1进行修正,设定ΔQ=Q-Q0,所述中控模块中设有第一预设错误率差值ΔQ1、第二预设错误率差值ΔQ2、第一预设修正系数γ1、第二预设修正系数γ2以及第三预设修正系数γ3,其中,ΔQ1<ΔQ2,1.1<γ1<γ2<γ3<1.3,
若ΔQ≤ΔQ1,所述中控模块使用γ1将校对文件内容容量U1修正至对应值;
若ΔQ1<ΔQ≤ΔQ2,所述中控模块使用γ2将校对文件内容容量U1修正至对应值;
若ΔQ2<ΔQ,所述中控模块使用γ3将校对文件内容容量U1修正至对应值;
当所述中控模块通过第k预设修正系数γk将校对文件内容容量U1至对应值时,设定k=1,2,3,修正后的校对文件内容容量记为U1’,设定U1’=U1×(1-γk);
所述校对文件生成模块按照修正后的校对文件内容容量对数字版电子书中未校对的部分重新生成校对文件。
由于数字版电子书的校对难度越大,工作人员耗费的时间精力越多,当工作人员出现疲劳时,校对的准确率就会降低,为保证校对的准确性,本发明在校对文件生成时根据校对难度确定校对文件内容容量,避免出现校对难度过大、校对文件内容容量过多而造成的校对准确率降低的问题,同时也避免了校对难度小、校对文件内容容量少而造成的校对资源浪费的问题。
尤其,在生成校对文件时,所述校对文件生成模块将待校对数字版电子书按内容容量进行校对文件的划分,所述中控模块在确定数字版电子书的校对难度时,根据校对难度对校对文件的内容容量进行调节,校对文件生成模块以调节后的内容容量进行校对文件的划分,避免出现校对难度过大、校对文件内容容量过多而造成的校对准确率降低的问题,从而进一步保证了校对准确率。
尤其,本发明在判定校对文件的错误率过高时,对校对文件内容容量做进一步的修正,所述校对文件生成模块按照修正后的校对文件内容容量对数字版电子书中未校对的部分重新生成校对文件,从而进一步保证了校对准确率。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种数字版电子书的校对方法,其特征在于,包括:
步骤S1,用扫描模块对纸质书进行扫描以获取扫描图像;
步骤S2,图像识别模块对扫描图像进行识别并对扫描图像按照影响因素进行区域划分;
步骤S3,中控模块根据各影响因素对应的区域面积计算各影响因素所占的比例并根据比例计算各影响因素的权重值,同时,根据各影响因素的权重值确定对应的指导值;
步骤S4,所述中控模块计算复杂度调节系数并根据复杂度调节系数计算校对复杂度,中控模块根据校对复杂度对数字版电子书的校对难度进行划分;
步骤S5,所述中控模块根据校对难度对校对文件的内容容量进行调节,校对文件生成模块按调节后的内容容量将待校对的数字版电子书生成多个校对文件;
步骤S6,校对模块对生成的校对文件进行校对,并将校对完成的文件发送至比对模块以统计错误量,所述中控模块根据错误量计算错误率并根据错误率判定是否需要对校对文件的内容容量进行修正。
2.根据权利要求1所述的数字版电子书的校对方法,其特征在于,在所述步骤S2中,所述影响因素包括文字因素、图表因素、公式因素、注解因素以及边缘因素;所述边缘因素指除文字因素、图表因素、公式因素和注解因素以外的因素;
所述中控模块在计算各影响因素所占的比例时,以各影响因素对应的区域面积比例作为各影响因素所占的比例。
3.根据权利要求2所述的数字版电子书的校对方法,其特征在于,所述中控模块在完成各因素所占的比例Bi的计算时根据比例Bi计算各因素的权重值Ei,所述中控模块预设各影响因素对应的基础校对难度值为:文字因素对应的基础校对难度值为f1,图表因素对应的基础校对难度值为f2,公式因素对应的基础校对难度值为f3,注解因素对应的基础校对难度值为f4,边缘因素对应的基础校对难度值为f5,设定权重值的计算公式为:
Ei=(fi×Bi)/(f1+f2+f3+f4+f5)
其中fi为各影响因素对应的基础校对难度值,i=1,2,3,4,5。
4.根据权利要求3所述的数字版电子书的校对方法,其特征在于,所述中控模块在完成各因素的权重值的计算时,根据权重值确定该影响因素对应的指导值,所述中控模块中设有第一权重预设值E01和第二权重预设值E02,其中,E01<E02,针对单个影响因素,中控模块将其对应的权重值Ei分别与E01和E02进行比对,
当Ei<E01时,所述中控模块将该影响因素的指导值设置为α1;
当E01≤Ei<E02时,所述中控模块将该影响因素的指导值数设置为α2;
当Ei≥E02时,所述中控模块将该影响因素的指导值设置为α3;
其中,α1、α2、α3为预设指导值,且α1>α2>α3。
5.根据权利要求4所述的数字版电子书的校对方法,其特征在于,所述中控模块完成权重值和对应指导值的计算后,统计影响因素的数量并将影响因素的数量记为n,计算复杂度调节系数δ,
当n=1时,设定δ=fi×Ei×αk;
当1<n≤5时,设定δ={∑(fi×Ei×αk)}×(n-1)!/n;
其中,αk为影响因素对应的指导值,k=1,2,3。
6.根据权利要求5所述的数字版电子书的校对方法,其特征在于,所述中控模块求的复杂度调节系数δ后,计算校对复杂度Z,Z=Z0×δ,其中,Z0为预设复杂度的基础值;
所述中控模块设有第一复杂度预设值Z1和第二复杂度预设值Z2,其中,Z1<Z2,
当Z<Z1时,所述中控模块判定该数字版电子书的校对难度为一般;
当Z1≤Z<Z2时,所述中控模块判定该数字版电子书的校对难度为中等;
当Z≥Z2时,所述中控模块判定该数字版电子书的校对难度为高等。
7.根据权利要求6所述的数字版电子书的校对方法,其特征在于,在生成校对文件时,所述校对文件生成模块将待校对数字版电子书按内容容量进行校对文件的划分,所述中控模块在确定数字版电子书的校对难度时,根据校对难度对校对文件的内容容量进行调节,中控模块将调节后校对文件的内容容量记为U1,
所述中控模块中设有校对文件的标准内容容量U0,第一预设内容容量调节系数β1、第二预设内容容量调节系数β2以及第三预设内容容量调节系数β3,其中,0.7<β1<β2<β3<1,
当数字版电子书的校对难度为一般时,所述中控模块使用β1将校对文件内容容量调节至对应值,设定U1=U0×β1;
当数字版电子书的校对难度为中等时,所述中控模块使用β2将校对文件内容容量调节至对应值,设定U1=U0×β2;
当数字版电子书的校对难度为高等时,所述中控模块使用β3将校对文件内容容量调节至对应值,设定U1=U0×β3。
8.根据权利要求7所述的数字版电子书的校对方法,其特征在于,所述校对文件生成模块根据调节后的内容容量生成多个校对文件,对于单个校对文件,所述校对模块在校对完成后将校对完成的文件发送至比对模块以统计错误量A,当校对模块完成预设比例的校对文件的校对后,所述中控模块计算错误量的平均值Ap,设定Ap=(A1+A2+...+Am)/m,其中m为预设比例的校对文件的数量,
所述中控模块在求的错误量的平均值Ap后,计算错误率Q并将Q与预设错误率Q0进行比对,设定Q=Ap/U1,
当Q>Q0时,所述中控模块判定错误率过高;
当Q≤Q0时,所述中控模块判定错误率符合标准。
9.根据权利要求8所述的数字版电子书的校对方法,其特征在于,当所述中控模块判定错误率过高时,计算Q与Q0的差值ΔQ并根据ΔQ对校对文件内容容量U1进行修正,设定ΔQ=Q-Q0,所述中控模块中设有第一预设错误率差值ΔQ1、第二预设错误率差值ΔQ2、第一预设修正系数γ1、第二预设修正系数γ2以及第三预设修正系数γ3,其中,ΔQ1<ΔQ2,1.1<γ1<γ2<γ3<1.3,
若ΔQ≤ΔQ1,所述中控模块使用γ1将校对文件内容容量U1修正至对应值;
若ΔQ1<ΔQ≤ΔQ2,所述中控模块使用γ2将校对文件内容容量U1修正至对应值;
若ΔQ2<ΔQ,所述中控模块使用γ3将校对文件内容容量U1修正至对应值;
当所述中控模块通过第k预设修正系数γk将校对文件内容容量U1至对应值时,设定k=1,2,3,修正后的校对文件内容容量记为U1’,设定U1’=U1×(1-γk);
所述校对文件生成模块按照修正后的校对文件内容容量对数字版电子书中未校对的部分重新生成校对文件。
10.一种应用权利要求1-9任一项所述方法的校对系统,其特征在于,包括:
扫描模块,用以对纸质书进行扫描以获取纸质书的扫描图像;
图像识别模块,其与所述扫描模块相连,用以对所述纸质书的扫描图像进行识别并按照影响因素进行区域划分;
中控模块,其与所述图像识别模块相连,用以根据图像识别模块的区域划分结果计算校对复杂度、根据校对复杂度对数字版电子书的校对难度进行划分并根据校对难度对校对文件的内容容量进行调节,所述中控模块根据比对模块发送的统计数据对校对文件的内容容量进行修正;
校对文件生成模块,其与所述中控模块相连,用以对待校对数字版电子书按内容容量进行校对文件的生成并将校对文件发送至校对模块;
校对模块,其与所述校对文件生成模块相连,用以对校对文件进行校对,并将校对完成的文件发送至比对模块;
比对模块,其分别与所述校对模块与所述中控模块相连,用以将校对完成的文件与校对前的文件进行比对以统计错误量并将统计的数据发送至中控模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210811586.4A CN114881007A (zh) | 2022-07-12 | 2022-07-12 | 一种数字版电子书的校对方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210811586.4A CN114881007A (zh) | 2022-07-12 | 2022-07-12 | 一种数字版电子书的校对方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114881007A true CN114881007A (zh) | 2022-08-09 |
Family
ID=82683667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210811586.4A Pending CN114881007A (zh) | 2022-07-12 | 2022-07-12 | 一种数字版电子书的校对方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114881007A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115204182A (zh) * | 2022-09-09 | 2022-10-18 | 山东天成书业有限公司 | 一种待校对电子书数据的识别方法及系统 |
US20230205992A1 (en) * | 2020-06-16 | 2023-06-29 | Nippon Telegraph And Telephone Corporation | Proofreading support apparatus, proofreading support method and proofreading support program |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150095082A1 (en) * | 2013-10-01 | 2015-04-02 | Ed Guntin | System for managing tasks and methods thereof |
US20160162478A1 (en) * | 2014-11-25 | 2016-06-09 | Lionbridge Techologies, Inc. | Information technology platform for language translation and task management |
CN106779488A (zh) * | 2017-01-20 | 2017-05-31 | 深圳市天朗时代科技有限公司 | 数字版电子书的校对方法及系统 |
CN113128916A (zh) * | 2021-05-20 | 2021-07-16 | 武汉空心科技有限公司 | 一种基于大数据的工作平台任务工作量评估方法 |
CN114693028A (zh) * | 2020-12-29 | 2022-07-01 | 国信君和(北京)科技有限公司 | 一种基于案件事实要素分析工作量绩效的方法及装置 |
-
2022
- 2022-07-12 CN CN202210811586.4A patent/CN114881007A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150095082A1 (en) * | 2013-10-01 | 2015-04-02 | Ed Guntin | System for managing tasks and methods thereof |
US20160162478A1 (en) * | 2014-11-25 | 2016-06-09 | Lionbridge Techologies, Inc. | Information technology platform for language translation and task management |
CN106779488A (zh) * | 2017-01-20 | 2017-05-31 | 深圳市天朗时代科技有限公司 | 数字版电子书的校对方法及系统 |
CN114693028A (zh) * | 2020-12-29 | 2022-07-01 | 国信君和(北京)科技有限公司 | 一种基于案件事实要素分析工作量绩效的方法及装置 |
CN113128916A (zh) * | 2021-05-20 | 2021-07-16 | 武汉空心科技有限公司 | 一种基于大数据的工作平台任务工作量评估方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230205992A1 (en) * | 2020-06-16 | 2023-06-29 | Nippon Telegraph And Telephone Corporation | Proofreading support apparatus, proofreading support method and proofreading support program |
CN115204182A (zh) * | 2022-09-09 | 2022-10-18 | 山东天成书业有限公司 | 一种待校对电子书数据的识别方法及系统 |
CN115204182B (zh) * | 2022-09-09 | 2022-11-25 | 山东天成书业有限公司 | 一种待校对电子书数据的识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114881007A (zh) | 一种数字版电子书的校对方法及系统 | |
US7797624B2 (en) | Automated paragraph layout | |
US20090175532A1 (en) | Method and System for Creating Flexible Structure Descriptions | |
US20160124690A1 (en) | Image processing system, management system, image processing apparatus and method of proofreading document | |
CN115688733A (zh) | 标准文档编写的方法和系统 | |
CN115601473A (zh) | 一种基于智能识别的印刷物排版系统和方法 | |
CN111399857A (zh) | 一种fru数据烧录方法、系统、设备及计算机存储介质 | |
US11003953B2 (en) | Method for image format conversion and device employing the method | |
JPH06149806A (ja) | 文書整形出力装置及び文書整形方法 | |
CN113158988A (zh) | 财务报表处理方法、装置以及计算机可读存储介质 | |
CN109800539B (zh) | 一种仿真测试方法及系统 | |
CN113435449A (zh) | 基于深度学习的ocr图像文字识别与段落输出方法 | |
CN110991164B (zh) | 法律文书处理方法及装置 | |
CN114463774A (zh) | 一种工程图纸的图幅智能识别方法 | |
US7428492B2 (en) | Speech synthesis dictionary creation apparatus, method, and computer-readable medium storing program codes for controlling such apparatus and pitch-mark-data file creation apparatus, method, and computer-readable medium storing program codes for controlling such apparatus | |
US8531698B2 (en) | Information processing apparatus, information processing method and storage medium thereof for generating print data for form data | |
CN115294588B (zh) | 一种基于rpa流程机器人的数据处理方法及系统 | |
CN112949259B (zh) | 一种自适应的基于词汇文本难度的生词标注系统及方法 | |
KR20190011422A (ko) | 셀 자동 분할 장치 | |
CN111191578B (zh) | 一种自动评分方法、装置、设备及存储介质 | |
CN116362900B (zh) | 一种车险投保信息的处理方法及系统 | |
CN116416629B (zh) | 电子档案生成方法、装置、设备和介质 | |
CN114580359A (zh) | 基于rpa和ai的文书生成方法、装置及电子设备 | |
JPS61232484A (ja) | 出力方法 | |
Bia | DiCoMo: A cost estimation model for digitization projects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220809 |