CN112464739B - 一种文档文本易读性评测的方法及终端 - Google Patents

一种文档文本易读性评测的方法及终端 Download PDF

Info

Publication number
CN112464739B
CN112464739B CN202011220906.6A CN202011220906A CN112464739B CN 112464739 B CN112464739 B CN 112464739B CN 202011220906 A CN202011220906 A CN 202011220906A CN 112464739 B CN112464739 B CN 112464739B
Authority
CN
China
Prior art keywords
text
legibility
document
picture
lab
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011220906.6A
Other languages
English (en)
Other versions
CN112464739A (zh
Inventor
刘德建
李上杰
曾兴强
方振华
郭玉湖
陈宏�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Tianquan Educational Technology Ltd
Original Assignee
Fujian Tianquan Educational Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Tianquan Educational Technology Ltd filed Critical Fujian Tianquan Educational Technology Ltd
Priority to CN202011220906.6A priority Critical patent/CN112464739B/zh
Publication of CN112464739A publication Critical patent/CN112464739A/zh
Application granted granted Critical
Publication of CN112464739B publication Critical patent/CN112464739B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Abstract

本发明公开了一种文档文本易读性评测的方法及终端,使用普通文档渲染器对原始文档进行渲染,生成第一图片;使用预设的透明文字文档渲染器将原始文档上所有文本都以透明的方式渲染,保持文本的字体,字号和排版位置属性的同时并去除文本本身的像素,生成第二图片;比较第一图片和第二图片,计算差异像素的LAB平均距离;根据差异像素的LAB平均距离计算文本易读性指数;本发明通过普通文档渲染器和透明文字文档渲染器对原始文档进行渲染,并计算渲染后图片的差异像素的LAB平均距离,根据计算结果进一步计算文档易读性指数,以实现文档易读性的自动评测,不仅提高了文档易读性评测的高效性、精准性和评测速度,还降低了人工成本。

Description

一种文档文本易读性评测的方法及终端
技术领域
本发明涉及文档检测技术领域,特别涉及一种文档文本易读性评测的方法及终端。
背景技术
文档文本的易读性(Legibility)描述的是在文字排版设计过程中,观者对每一单个文字的辨识程度,常与文字的印刷、尺寸和外观相联系,文字的易读性高低决定了观者是否能够准确的辨识出文字内容。
现阶段,文档文本的易读性评测主要依靠人工肉眼的方式进行评测,明显存在以下缺点:
1、人工评测的成本高,且效率低;
2、容易因为肉眼疲劳造成误判,精准度低;
3、评测的速度慢,不适合对大量文档进行评测。
发明内容
本发明所要解决的技术问题是:提供一种文档文本易读性评测的方法及终端,在实现快速精准高效的易读性评测的同时,降低人工成本。
为了解决上述技术问题,本发明采用的技术方案为:
一种文档文本易读性评测的方法,包括:
S1、使用普通文档渲染器对原始文档进行渲染,生成第一图片,使用预设的透明文字文档渲染器将所述原始文档上所有文本都以透明的方式渲染,保持文本的字体,字号和排版位置属性的同时并去除文本本身的像素,生成第二图片;
S2、比较所述第一图片和第二图片,计算差异像素的LAB平均距离;
S3、根据所述差异像素的LAB平均距离计算文本易读性指数。
为了解决上述技术问题,本发明采用的另一种技术方案为:
一种文档文本易读性评测的终端,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
S1、使用普通文档渲染器对原始文档进行渲染,生成第一图片,使用预设的透明文字文档渲染器将所述原始文档上所有文本都以透明的方式渲染,保持文本的字体,字号和排版位置属性的同时并去除文本本身的像素,生成第二图片;
S2、比较所述第一图片和第二图片,计算差异像素的LAB平均距离;
S3、根据所述差异像素的LAB平均距离计算文本易读性指数。
本发明的有益效果在于:通过普通文档渲染器和透明文字文档渲染器分别对原始文档进行渲染,并将渲染后的图片进行对比,计算LAB平均距离,根据LAB平均距离计算文档易读性指数,实现了计算机对文档易读性的自动评测,不仅提高了文档易读性评测的高效性、精准性和速度,还降低了人工成本。
附图说明
图1为本发明实施例一种文档文本易读性评测的方法的流程图;
图2为本发明实施例一种文档文本易读性评测的方法的详细流程图;
图3为本发明实施例一种文档文本易读性评测的方法的步骤效果图;
图4为本发明实施例一种文档文本易读性评测的终端的结构图;
标号说明:
1、一种文档文本易读性评测的终端;2、处理器;3、存储器。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
请参照图1,一种文档文本易读性评测的方法,包括:
S1、使用普通文档渲染器对原始文档进行渲染,生成第一图片,使用预设的透明文字文档渲染器将所述原始文档上所有文本都以透明的方式渲染,保持文本的字体,字号和排版位置属性的同时并去除文本本身的像素,生成第二图片;
S2、比较所述第一图片和第二图片,计算差异像素的LAB平均距离;
S3、根据所述差异像素的LAB平均距离计算文本易读性指数。
从上述描述可知,本发明的有益效果在于:通过普通文档渲染器和透明文字文档渲染器分别对原始文档进行渲染,并将渲染后的图片进行对比,计算LAB平均距离,根据LAB平均距离计算文档易读性指数,实现了计算机对文档易读性的自动评测,不仅提高了文档易读性评测的高效性、精准性和速度,还降低了人工成本。
进一步的,所述步骤S2具体为:
将第一图片和第二图片切分成两两对应且大小为预设大小的单元格,抛弃差异像素数量少于预设阈值的单元格,对剩余的单元格两两对应地进行所述差异像素的LAB平均距离的计算。
由上述描述可知,在计算LAB平均距离时,本发明先对图片进行了预设大小的切分,并抛弃差异像素数量少于预设阈值的单元格,提高了差异像素的LAB平均距离计算的有效性。
进一步的,所述步骤S3具体为:
根据两两对应的单元格的所述差异像素的LAB平均距离,分别计算对应的单元格文本易读性指数,并根据所述单元格文本易读性指数得到文本易读性指数,所述单元格文本易读性指数=两个对应单元格图片有差别的像素的LAB距离总和/两个对应单元格图片有差别的像素数量总和。
由以上描述可知,本发明对拆分的各单元格分别计算了单元格文本易读性指数,并根据单元格文本易读性指数来得到整体的文本易读性指数,计算更加合理,结果更加准确。
进一步的,所述根据所述单元格文本易读性指数得到文本易读性指数具体为:
选取最低的单元格文本易读性指数作为文本易读性指数。
有上述描述可知,本发明选取了最低的单元格文本易读性指数作为文本易读性指数,对易读性指数的评定更加严格。
进一步的,所述差异像素的LAB平均距离的计算方式如下:
Figure BDA0002761963540000041
ΔR=C1,R-C2,R
ΔG=C1,G-C2,G
ΔB=C1,B-C2,B
Figure BDA0002761963540000042
由上述描述可知,
本发明即采用欧式加权距离计算来计算差异像素的LAB平均距离,具有较高的精确度。
如图4所示,本发明还提供一种文档文本易读性评测的终端,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
S1、使用普通文档渲染器对原始文档进行渲染,生成第一图片,使用预设的透明文字文档渲染器将所述原始文档上所有文本都以透明的方式渲染,保持文本的字体,字号和排版位置属性的同时并去除文本本身的像素,生成第二图片;
S2、比较所述第一图片和第二图片,计算差异像素的LAB平均距离;
S3、根据所述差异像素的LAB平均距离计算文本易读性指数。
从上述描述可知,本发明的有益效果在于:通过普通文档渲染器和透明文字文档渲染器分别对原始文档进行渲染,并将渲染后的图片进行对比,计算LAB平均距离,根据LAB平均距离计算文档易读性指数,实现了计算机对文档易读性的自动评测,不仅提高了文档易读性评测的高效性、精准性和速度,还降低了人工成本。
进一步的,所述步骤S2具体为:
将第一图片和第二图片切分成两两对应且大小为预设大小的单元格,抛弃差异像素数量少于预设阈值的单元格,对剩余的单元格两两对应地进行所述差异像素的LAB平均距离的计算。
由上述描述可知,在计算LAB平均距离时,本发明先对图片进行了预设大小的切分,并抛弃差异像素数量少于预设阈值的单元格,提高了差异像素的LAB平均距离计算的有效性。
进一步的,所述步骤S3具体为:
根据两两对应的单元格的所述差异像素的LAB平均距离,分别计算对应的单元格文本易读性指数,并根据所述单元格文本易读性指数得到文本易读性指数,所述单元格文本易读性指数=两个对应单元格图片有差别的像素的LAB距离总和/两个对应单元格图片有差别的像素数量总和。
由以上描述可知,本发明对拆分的各单元格分别计算了单元格文本易读性指数,并根据单元格文本易读性指数来得到整体的文本易读性指数,计算更加合理,结果更加准确。
进一步的,所述根据所述单元格文本易读性指数得到文本易读性指数具体为:
选取最低的单元格文本易读性指数作为文本易读性指数。
有上述描述可知,本发明选取了最低的单元格文本易读性指数作为文本易读性指数,对易读性指数的评定更加严格。
进一步的,所述差异像素的LAB平均距离的计算方式如下:
Figure BDA0002761963540000051
ΔR=C1,R-C2,R
ΔG=C1,G-C2,G
ΔB=C1,B-C2,B
Figure BDA0002761963540000052
由上述描述可知,本发明即采用欧式加权距离计算来计算差异像素的LAB平均距离,具有较高的精确度。
请参照图1至图3,本发明的实施例一为:
一种文档文本易读性评测的方法,包括:
S1、使用普通文档渲染器对原始文档进行渲染,生成第一图片,使用预设的透明文字文档渲染器将所述原始文档上所有文本都以透明的方式渲染,保持文本的字体,字号和排版位置属性的同时并去除文本本身的像素,生成第二图片;
在本实施例中,原始文档可以为PPT文档、EXCEL表格或WORD文档,普通文档渲染器是主流开源办公套件LibreOffice,透明文字文档渲染器是对该开源代码的修改定制;
S2、比较所述第一图片和第二图片,计算差异像素的LAB平均距离;
为了计算文档易读性,我们需要计算文本像素和所在附近背景像素的差距,也就是计算他们之间的像素颜色距离;基于背景像素连续性考虑,我们把文本笔划所占据的背景内侧像素认为就是文本附近背景的像素,从而无需计算文本外侧附近进的背景外侧的像素。
其中,文档背景像素的连续性为:在真实的文档背景中,出现断崖式的背景像素颜色变化比较少见,可以用附近的像素来替代而对像素距离计算结果不造成影响。用文本笔划所占据的像素作为文本临近的笔划外侧的背景像素的近似是一个比较可靠的实现逻辑简单且计算成本低的方法。
在本实施例中,所述步骤S2具体为:
将第一图片和第二图片切分成两两对应且大小为预设大小的单元格,抛弃差异像素数量少于预设阈值的单元格,对剩余的单元格两两对应地进行所述差异像素的LAB平均距离的计算;
其中,单元格的切分如图3所示。
S3、根据所述差异像素的LAB平均距离计算文本易读性指数;
在本实施例中,所述步骤S3具体为:
根据两两对应的单元格的所述差异像素的LAB平均距离,分别计算对应的单元格文本易读性指数,并根据所述单元格文本易读性指数得到文本易读性指数,所述单元格文本易读性指数=两个对应单元格图片有差别的像素的LAB距离总和/两个对应单元格图片有差别的像素数量总和;
在本实施例中,所述根据所述单元格文本易读性指数得到文本易读性指数具体为:
选取最低的单元格文本易读性指数作为文本易读性指数;
在本实施例中,所述差异像素的LAB平均距离的计算方式如下:
Figure BDA0002761963540000071
需要对差异像素的LAB平均距离进行计算,包括颜色距离的计算,颜色距离是指两个颜色的差距,差距越大,越不相同,计算两个颜色的距离有很多种,包括欧式距离,在RGB颜色空间,两个颜色的欧式距离是:
Figure BDA0002761963540000072
C1,C2表示两种颜色,R,G,B分别是红绿蓝颜色通道;
由于人眼视觉感知颜色不是线性的,RGB空间不能很好测量人眼对颜色的感知,因此,以上公式算出的距离不能反映两个颜色是否人眼感知到相近,进而有LAB距离的计算:LAB是基于对上述线性RGB颜色空间的改进:
Figure BDA0002761963540000073
其中L表示明度,a表示红绿色差,b表示蓝黄色差;
由于LAB颜色距离的计算需要作非RGB颜色空间颜色转换,在实践中,通常采用它的RGB空间近似计算,即加权的欧式距离计算:
Figure BDA0002761963540000074
其计算程序代码如下:
Figure BDA0002761963540000075
/>
Figure BDA0002761963540000081
请参照图4,本发明的实施例二为:
一种文档文本易读性评测的终端1,包括处理器2、存储器3及存储在存储器3上并可在处理器2上运行的计算机程序,所述处理器2执行所述计算机程序时实现如实施例一中的步骤。
综上所述,本发明提供的一种文档文本易读性评测的方法及终端,通过普通文档渲染器和透明文字文档渲染器分别对原始文档进行渲染,并将渲染后的图片进行对比,计算LAB平均距离,根据LAB平均距离计算文档易读性指数,实现了计算机对文档易读性的自动评测,不仅提高了文档易读性评测的高效性、精准性和速度,还降低了人工成本,此外在进行LAB平均距离计算前,对图片进行了切分,舍去了无效部分,提高了计算的准确性,本发明差异像素的LAB平均距离计算采用了RGB颜色空间的加权欧式距离计算方法,进一步的提高了计算准确性,选取最低的单元格文本易读性指数作为文本易读性指数,使易读性指数的评定更加严格。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种文档文本易读性评测的方法,其特征在于,包括:
S1、使用普通文档渲染器对原始文档进行渲染,生成第一图片,使用预设的透明文字文档渲染器将所述原始文档上所有文本都以透明的方式渲染,保持文本的字体,字号和排版位置属性的同时并去除文本本身的像素,生成第二图片;
S2、比较所述第一图片和第二图片,计算差异像素的LAB平均距离;
所述步骤S2具体为:
将第一图片和第二图片切分成两两对应且大小为预设大小的单元格,抛弃差异像素数量少于预设阈值的单元格,对剩余的单元格两两对应地进行所述差异像素的LAB平均距离的计算;
S3、根据所述差异像素的LAB平均距离计算文本易读性指数;
所述步骤S3具体为:
根据两两对应的单元格的所述差异像素的LAB平均距离,分别计算对应的单元格文本易读性指数,并根据所述单元格文本易读性指数得到文本易读性指数,所述单元格文本易读性指数=两个对应单元格图片有差别的像素的LAB距离总和/两个对应单元格图片有差别的像素数量总和。
2.根据权利要求1所述的一种文档文本易读性评测的方法,其特征在于,所述根据所述单元格文本易读性指数得到文本易读性指数具体为:
选取最低的单元格文本易读性指数作为文本易读性指数。
3.根据权利要求1或2所述的一种文档文本易读性评测的方法,其特征在于,所述差异像素的LAB平均距离的计算方式如下:
Figure QLYQS_1
4.一种文档文本易读性评测的终端,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
S1、使用普通文档渲染器对原始文档进行渲染,生成第一图片,使用预设的透明文字文档渲染器将所述原始文档上所有文本都以透明的方式渲染,保持文本的字体,字号和排版位置属性的同时并去除文本本身的像素,生成第二图片;
S2、比较所述第一图片和第二图片,计算差异像素的LAB平均距离;
所述步骤S2具体为:
将第一图片和第二图片切分成两两对应且大小为预设大小的单元格,抛弃差异像素数量少于预设阈值的单元格,对剩余的单元格两两对应地进行所述差异像素的LAB平均距离的计算;
S3、根据所述差异像素的LAB平均距离计算文本易读性指数;
所述步骤S3具体为:
根据两两对应的单元格的所述差异像素的LAB平均距离,分别计算对应的单元格文本易读性指数,并根据所述单元格文本易读性指数得到文本易读性指数,所述单元格文本易读性指数=两个对应单元格图片有差别的像素的LAB距离总和/两个对应单元格图片有差别的像素数量总和。
5.根据权利要求4所述的一种文档文本易读性评测的终端,其特征在于,所述根据所述单元格文本易读性指数得到文本易读性指数具体为:
选取最低的单元格文本易读性指数作为文本易读性指数。
6.根据权利要求4或5所述的一种文档文本易读性评测的终端,其特征在于,所述差异像素的LAB平均距离的计算方式如下:
Figure QLYQS_2
。/>
CN202011220906.6A 2020-11-05 2020-11-05 一种文档文本易读性评测的方法及终端 Active CN112464739B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011220906.6A CN112464739B (zh) 2020-11-05 2020-11-05 一种文档文本易读性评测的方法及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011220906.6A CN112464739B (zh) 2020-11-05 2020-11-05 一种文档文本易读性评测的方法及终端

Publications (2)

Publication Number Publication Date
CN112464739A CN112464739A (zh) 2021-03-09
CN112464739B true CN112464739B (zh) 2023-05-23

Family

ID=74826124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011220906.6A Active CN112464739B (zh) 2020-11-05 2020-11-05 一种文档文本易读性评测的方法及终端

Country Status (1)

Country Link
CN (1) CN112464739B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113630623A (zh) * 2021-07-26 2021-11-09 山东云缦智能科技有限公司 一种基于像素色差对比的穿越视频制作方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103765413A (zh) * 2011-06-30 2014-04-30 谷歌公司 渲染跟随线条的文本图像
CN107563220A (zh) * 2017-08-29 2018-01-09 湖南财政经济学院 一种基于计算机的大数据分析控制系统及控制方法
CN107610132A (zh) * 2017-08-28 2018-01-19 西北民族大学 一种古籍文档图像污渍去除方法
CN110634169A (zh) * 2019-01-08 2019-12-31 华为技术有限公司 图像处理的装置和方法
CN110796031A (zh) * 2019-10-11 2020-02-14 腾讯科技(深圳)有限公司 基于人工智能的表格识别方法、装置及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8855413B2 (en) * 2011-05-13 2014-10-07 Abbyy Development Llc Image reflow at word boundaries

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103765413A (zh) * 2011-06-30 2014-04-30 谷歌公司 渲染跟随线条的文本图像
CN107610132A (zh) * 2017-08-28 2018-01-19 西北民族大学 一种古籍文档图像污渍去除方法
CN107563220A (zh) * 2017-08-29 2018-01-09 湖南财政经济学院 一种基于计算机的大数据分析控制系统及控制方法
CN110634169A (zh) * 2019-01-08 2019-12-31 华为技术有限公司 图像处理的装置和方法
CN110796031A (zh) * 2019-10-11 2020-02-14 腾讯科技(深圳)有限公司 基于人工智能的表格识别方法、装置及电子设备

Also Published As

Publication number Publication date
CN112464739A (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
US8644602B2 (en) Colour correcting foreground colours for visual quality improvement
US7394468B2 (en) Converted digital colour image with improved colour distinction for colour-blinds
US9092892B2 (en) Image processing device determining binarizing threshold value
CN102857674B (zh) 利用对扩展rgb空间的色调映射处理高动态范围图像的方法
US20170289405A1 (en) Content aware improvement of captured document images
US7119924B2 (en) Detection and segmentation of sweeps in color graphics images
CN112069339A (zh) 背景图片处理及搜索结果展示方法、装置、设备和介质
CN110175969B (zh) 图像处理方法及图像处理装置
CN101184149B (zh) 颜色处理装置和方法
CN112464739B (zh) 一种文档文本易读性评测的方法及终端
CN113436284A (zh) 一种图像处理方法、装置、计算机设备和存储介质
CN111124404A (zh) 一种自定义颜色的显示方法及系统
CN112215781B (zh) 一种改进的局部二值化方法
EP2066110B1 (en) Mapping method along anchored mapping trajectories with improved uniformity
WO2016197705A1 (zh) 一种图像处理方法和装置
CN109102473B (zh) 一种改善彩色数字图像质量的方法
CN109191381B (zh) 一种标定焦点处理图像的方法及系统
CN115063800A (zh) 文本识别方法和电子设备
CN111338627B (zh) 前端网页主题颜色调节方法及装置
US8295539B2 (en) Method and system of immersive sensation enhancement for video sequence displaying
US20070177171A1 (en) Inking on photographs
CN111047653A (zh) 一种主色调确定方法、装置、设备及可读介质
CN107452039B (zh) 压缩rgb颜色空间的方法及装置
CN116466952B (zh) 控件视觉效果元素调节方法、装置、电子设备及存储介质
CN111491069B (zh) 一种文档图像的色彩模式自动设定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant