CN112464739A - 一种文档文本易读性评测的方法及终端 - Google Patents
一种文档文本易读性评测的方法及终端 Download PDFInfo
- Publication number
- CN112464739A CN112464739A CN202011220906.6A CN202011220906A CN112464739A CN 112464739 A CN112464739 A CN 112464739A CN 202011220906 A CN202011220906 A CN 202011220906A CN 112464739 A CN112464739 A CN 112464739A
- Authority
- CN
- China
- Prior art keywords
- legibility
- text
- document
- picture
- pixels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种文档文本易读性评测的方法及终端,使用普通文档渲染器对原始文档进行渲染,生成第一图片;使用预设的透明文字文档渲染器将原始文档上所有文本都以透明的方式渲染,保持文本的字体,字号和排版位置属性的同时并去除文本本身的像素,生成第二图片;比较第一图片和第二图片,计算差异像素的LAB平均距离;根据差异像素的LAB平均距离计算文本易读性指数;本发明通过普通文档渲染器和透明文字文档渲染器对原始文档进行渲染,并计算渲染后图片的差异像素的LAB平均距离,根据计算结果进一步计算文档易读性指数,以实现文档易读性的自动评测,不仅提高了文档易读性评测的高效性、精准性和评测速度,还降低了人工成本。
Description
技术领域
本发明涉及文档检测技术领域,特别涉及一种文档文本易读性评测的方法及终端。
背景技术
文档文本的易读性(Legibility)描述的是在文字排版设计过程中,观者对每一单个文字的辨识程度,常与文字的印刷、尺寸和外观相联系,文字的易读性高低决定了观者是否能够准确的辨识出文字内容。
现阶段,文档文本的易读性评测主要依靠人工肉眼的方式进行评测,明显存在以下缺点:
1、人工评测的成本高,且效率低;
2、容易因为肉眼疲劳造成误判,精准度低;
3、评测的速度慢,不适合对大量文档进行评测。
发明内容
本发明所要解决的技术问题是:提供一种文档文本易读性评测的方法及终端,在实现快速精准高效的易读性评测的同时,降低人工成本。
为了解决上述技术问题,本发明采用的技术方案为:
一种文档文本易读性评测的方法,包括:
S1、使用普通文档渲染器对原始文档进行渲染,生成第一图片,使用预设的透明文字文档渲染器将所述原始文档上所有文本都以透明的方式渲染,保持文本的字体,字号和排版位置属性的同时并去除文本本身的像素,生成第二图片;
S2、比较所述第一图片和第二图片,计算差异像素的LAB平均距离;
S3、根据所述差异像素的LAB平均距离计算文本易读性指数。
为了解决上述技术问题,本发明采用的另一种技术方案为:
一种文档文本易读性评测的终端,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
S1、使用普通文档渲染器对原始文档进行渲染,生成第一图片,使用预设的透明文字文档渲染器将所述原始文档上所有文本都以透明的方式渲染,保持文本的字体,字号和排版位置属性的同时并去除文本本身的像素,生成第二图片;
S2、比较所述第一图片和第二图片,计算差异像素的LAB平均距离;
S3、根据所述差异像素的LAB平均距离计算文本易读性指数。
本发明的有益效果在于:通过普通文档渲染器和透明文字文档渲染器分别对原始文档进行渲染,并将渲染后的图片进行对比,计算LAB平均距离,根据LAB平均距离计算文档易读性指数,实现了计算机对文档易读性的自动评测,不仅提高了文档易读性评测的高效性、精准性和速度,还降低了人工成本。
附图说明
图1为本发明实施例一种文档文本易读性评测的方法的流程图;
图2为本发明实施例一种文档文本易读性评测的方法的详细流程图;
图3为本发明实施例一种文档文本易读性评测的方法的步骤效果图;
图4为本发明实施例一种文档文本易读性评测的终端的结构图;
标号说明:
1、一种文档文本易读性评测的终端;2、处理器;3、存储器。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
请参照图1,一种文档文本易读性评测的方法,包括:
S1、使用普通文档渲染器对原始文档进行渲染,生成第一图片,使用预设的透明文字文档渲染器将所述原始文档上所有文本都以透明的方式渲染,保持文本的字体,字号和排版位置属性的同时并去除文本本身的像素,生成第二图片;
S2、比较所述第一图片和第二图片,计算差异像素的LAB平均距离;
S3、根据所述差异像素的LAB平均距离计算文本易读性指数。
从上述描述可知,本发明的有益效果在于:通过普通文档渲染器和透明文字文档渲染器分别对原始文档进行渲染,并将渲染后的图片进行对比,计算LAB平均距离,根据LAB平均距离计算文档易读性指数,实现了计算机对文档易读性的自动评测,不仅提高了文档易读性评测的高效性、精准性和速度,还降低了人工成本。
进一步的,所述步骤S2具体为:
将第一图片和第二图片切分成两两对应且大小为预设大小的单元格,抛弃差异像素数量少于预设阈值的单元格,对剩余的单元格两两对应地进行所述差异像素的LAB平均距离的计算。
由上述描述可知,在计算LAB平均距离时,本发明先对图片进行了预设大小的切分,并抛弃差异像素数量少于预设阈值的单元格,提高了差异像素的LAB平均距离计算的有效性。
进一步的,所述步骤S3具体为:
根据两两对应的单元格的所述差异像素的LAB平均距离,分别计算对应的单元格文本易读性指数,并根据所述单元格文本易读性指数得到文本易读性指数,所述单元格文本易读性指数=两个对应单元格图片有差别的像素的LAB距离总和/两个对应单元格图片有差别的像素数量总和。
由以上描述可知,本发明对拆分的各单元格分别计算了单元格文本易读性指数,并根据单元格文本易读性指数来得到整体的文本易读性指数,计算更加合理,结果更加准确。
进一步的,所述根据所述单元格文本易读性指数得到文本易读性指数具体为:
选取最低的单元格文本易读性指数作为文本易读性指数。
有上述描述可知,本发明选取了最低的单元格文本易读性指数作为文本易读性指数,对易读性指数的评定更加严格。
进一步的,所述差异像素的LAB平均距离的计算方式如下:
ΔR=C1,R-C2,R
ΔG=C1,G-C2,G
ΔB=C1,B-C2,B
由上述描述可知,
本发明即采用欧式加权距离计算来计算差异像素的LAB平均距离,具有较高的精确度。
如图4所示,本发明还提供一种文档文本易读性评测的终端,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
S1、使用普通文档渲染器对原始文档进行渲染,生成第一图片,使用预设的透明文字文档渲染器将所述原始文档上所有文本都以透明的方式渲染,保持文本的字体,字号和排版位置属性的同时并去除文本本身的像素,生成第二图片;
S2、比较所述第一图片和第二图片,计算差异像素的LAB平均距离;
S3、根据所述差异像素的LAB平均距离计算文本易读性指数。
从上述描述可知,本发明的有益效果在于:通过普通文档渲染器和透明文字文档渲染器分别对原始文档进行渲染,并将渲染后的图片进行对比,计算LAB平均距离,根据LAB平均距离计算文档易读性指数,实现了计算机对文档易读性的自动评测,不仅提高了文档易读性评测的高效性、精准性和速度,还降低了人工成本。
进一步的,所述步骤S2具体为:
将第一图片和第二图片切分成两两对应且大小为预设大小的单元格,抛弃差异像素数量少于预设阈值的单元格,对剩余的单元格两两对应地进行所述差异像素的LAB平均距离的计算。
由上述描述可知,在计算LAB平均距离时,本发明先对图片进行了预设大小的切分,并抛弃差异像素数量少于预设阈值的单元格,提高了差异像素的LAB平均距离计算的有效性。
进一步的,所述步骤S3具体为:
根据两两对应的单元格的所述差异像素的LAB平均距离,分别计算对应的单元格文本易读性指数,并根据所述单元格文本易读性指数得到文本易读性指数,所述单元格文本易读性指数=两个对应单元格图片有差别的像素的LAB距离总和/两个对应单元格图片有差别的像素数量总和。
由以上描述可知,本发明对拆分的各单元格分别计算了单元格文本易读性指数,并根据单元格文本易读性指数来得到整体的文本易读性指数,计算更加合理,结果更加准确。
进一步的,所述根据所述单元格文本易读性指数得到文本易读性指数具体为:
选取最低的单元格文本易读性指数作为文本易读性指数。
有上述描述可知,本发明选取了最低的单元格文本易读性指数作为文本易读性指数,对易读性指数的评定更加严格。
进一步的,所述差异像素的LAB平均距离的计算方式如下:
ΔR=C1,R-C2,R
ΔG=C1,G-C2,G
ΔB=C1,B-C2,B
由上述描述可知,本发明即采用欧式加权距离计算来计算差异像素的LAB平均距离,具有较高的精确度。
请参照图1至图3,本发明的实施例一为:
一种文档文本易读性评测的方法,包括:
S1、使用普通文档渲染器对原始文档进行渲染,生成第一图片,使用预设的透明文字文档渲染器将所述原始文档上所有文本都以透明的方式渲染,保持文本的字体,字号和排版位置属性的同时并去除文本本身的像素,生成第二图片;
在本实施例中,原始文档可以为PPT文档、EXCEL表格或WORD文档,普通文档渲染器是主流开源办公套件LibreOffice,透明文字文档渲染器是对该开源代码的修改定制;
S2、比较所述第一图片和第二图片,计算差异像素的LAB平均距离;
为了计算文档易读性,我们需要计算文本像素和所在附近背景像素的差距,也就是计算他们之间的像素颜色距离;基于背景像素连续性考虑,我们把文本笔划所占据的背景内侧像素认为就是文本附近背景的像素,从而无需计算文本外侧附近进的背景外侧的像素。
其中,文档背景像素的连续性为:在真实的文档背景中,出现断崖式的背景像素颜色变化比较少见,可以用附近的像素来替代而对像素距离计算结果不造成影响。用文本笔划所占据的像素作为文本临近的笔划外侧的背景像素的近似是一个比较可靠的实现逻辑简单且计算成本低的方法。
在本实施例中,所述步骤S2具体为:
将第一图片和第二图片切分成两两对应且大小为预设大小的单元格,抛弃差异像素数量少于预设阈值的单元格,对剩余的单元格两两对应地进行所述差异像素的LAB平均距离的计算;
其中,单元格的切分如图3所示。
S3、根据所述差异像素的LAB平均距离计算文本易读性指数;
在本实施例中,所述步骤S3具体为:
根据两两对应的单元格的所述差异像素的LAB平均距离,分别计算对应的单元格文本易读性指数,并根据所述单元格文本易读性指数得到文本易读性指数,所述单元格文本易读性指数=两个对应单元格图片有差别的像素的LAB距离总和/两个对应单元格图片有差别的像素数量总和;
在本实施例中,所述根据所述单元格文本易读性指数得到文本易读性指数具体为:
选取最低的单元格文本易读性指数作为文本易读性指数;
在本实施例中,所述差异像素的LAB平均距离的计算方式如下:
需要对差异像素的LAB平均距离进行计算,包括颜色距离的计算,颜色距离是指两个颜色的差距,差距越大,越不相同,计算两个颜色的距离有很多种,包括欧式距离,在RGB颜色空间,两个颜色的欧式距离是:
C1,C2表示两种颜色,R,G,B分别是红绿蓝颜色通道;
由于人眼视觉感知颜色不是线性的,RGB空间不能很好测量人眼对颜色的感知,因此,以上公式算出的距离不能反映两个颜色是否人眼感知到相近,进而有LAB距离的计算:LAB是基于对上述线性RGB颜色空间的改进:
其中L表示明度,a表示红绿色差,b表示蓝黄色差;
由于LAB颜色距离的计算需要作非RGB颜色空间颜色转换,在实践中,通常采用它的RGB空间近似计算,即加权的欧式距离计算:
其计算程序代码如下:
请参照图4,本发明的实施例二为:
一种文档文本易读性评测的终端1,包括处理器2、存储器3及存储在存储器3上并可在处理器2上运行的计算机程序,所述处理器2执行所述计算机程序时实现如实施例一中的步骤。
综上所述,本发明提供的一种文档文本易读性评测的方法及终端,通过普通文档渲染器和透明文字文档渲染器分别对原始文档进行渲染,并将渲染后的图片进行对比,计算LAB平均距离,根据LAB平均距离计算文档易读性指数,实现了计算机对文档易读性的自动评测,不仅提高了文档易读性评测的高效性、精准性和速度,还降低了人工成本,此外在进行LAB平均距离计算前,对图片进行了切分,舍去了无效部分,提高了计算的准确性,本发明差异像素的LAB平均距离计算采用了RGB颜色空间的加权欧式距离计算方法,进一步的提高了计算准确性,选取最低的单元格文本易读性指数作为文本易读性指数,使易读性指数的评定更加严格。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种文档文本易读性评测的方法,其特征在于,包括:
S1、使用普通文档渲染器对原始文档进行渲染,生成第一图片,使用预设的透明文字文档渲染器将所述原始文档上所有文本都以透明的方式渲染,保持文本的字体,字号和排版位置属性的同时并去除文本本身的像素,生成第二图片;
S2、比较所述第一图片和第二图片,计算差异像素的LAB平均距离;
S3、根据所述差异像素的LAB平均距离计算文本易读性指数。
2.根据权利要求1所述的一种文档文本易读性评测的方法,其特征在于,所述步骤S2具体为:
将第一图片和第二图片切分成两两对应且大小为预设大小的单元格,抛弃差异像素数量少于预设阈值的单元格,对剩余的单元格两两对应地进行所述差异像素的LAB平均距离的计算。
3.根据权利要求2所述的一种文档文本易读性评测的方法,其特征在于,所述步骤S3具体为:
根据两两对应的单元格的所述差异像素的LAB平均距离,分别计算对应的单元格文本易读性指数,并根据所述单元格文本易读性指数得到文本易读性指数,所述单元格文本易读性指数=两个对应单元格图片有差别的像素的LAB距离总和/两个对应单元格图片有差别的像素数量总和。
4.根据权利要求3所述的一种文档文本易读性评测的方法,其特征在于,所述根据所述单元格文本易读性指数得到文本易读性指数具体为:
选取最低的单元格文本易读性指数作为文本易读性指数。
6.一种文档文本易读性评测的终端,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
S1、使用普通文档渲染器对原始文档进行渲染,生成第一图片,使用预设的透明文字文档渲染器将所述原始文档上所有文本都以透明的方式渲染,保持文本的字体,字号和排版位置属性的同时并去除文本本身的像素,生成第二图片;
S2、比较所述第一图片和第二图片,计算差异像素的LAB平均距离;
S3、根据所述差异像素的LAB平均距离计算文本易读性指数。
7.根据权利要求6所述的一种文档文本易读性评测的终端,其特征在于,所述步骤S2具体为:
将第一图片和第二图片切分成两两对应且大小为预设大小的单元格,抛弃差异像素数量少于预设阈值的单元格,对剩余的单元格两两对应地进行所述差异像素的LAB平均距离的计算。
8.根据权利要求7所述的一种文档文本易读性评测的终端,其特征在于,所述步骤S3具体为:
根据两两对应的单元格的所述差异像素的LAB平均距离,分别计算对应的单元格文本易读性指数,并根据所述单元格文本易读性指数得到文本易读性指数,所述单元格文本易读性指数=两个对应单元格图片有差别的像素的LAB距离总和/两个对应单元格图片有差别的像素数量总和。
9.根据权利要求8所述的一种文档文本易读性评测的终端,其特征在于,所述根据所述单元格文本易读性指数得到文本易读性指数具体为:
选取最低的单元格文本易读性指数作为文本易读性指数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011220906.6A CN112464739B (zh) | 2020-11-05 | 2020-11-05 | 一种文档文本易读性评测的方法及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011220906.6A CN112464739B (zh) | 2020-11-05 | 2020-11-05 | 一种文档文本易读性评测的方法及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112464739A true CN112464739A (zh) | 2021-03-09 |
CN112464739B CN112464739B (zh) | 2023-05-23 |
Family
ID=74826124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011220906.6A Active CN112464739B (zh) | 2020-11-05 | 2020-11-05 | 一种文档文本易读性评测的方法及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112464739B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113630623A (zh) * | 2021-07-26 | 2021-11-09 | 山东云缦智能科技有限公司 | 一种基于像素色差对比的穿越视频制作方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120288190A1 (en) * | 2011-05-13 | 2012-11-15 | Tang ding-yuan | Image Reflow at Word Boundaries |
CN103765413A (zh) * | 2011-06-30 | 2014-04-30 | 谷歌公司 | 渲染跟随线条的文本图像 |
CN107563220A (zh) * | 2017-08-29 | 2018-01-09 | 湖南财政经济学院 | 一种基于计算机的大数据分析控制系统及控制方法 |
CN107610132A (zh) * | 2017-08-28 | 2018-01-19 | 西北民族大学 | 一种古籍文档图像污渍去除方法 |
CN110634169A (zh) * | 2019-01-08 | 2019-12-31 | 华为技术有限公司 | 图像处理的装置和方法 |
CN110796031A (zh) * | 2019-10-11 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 基于人工智能的表格识别方法、装置及电子设备 |
-
2020
- 2020-11-05 CN CN202011220906.6A patent/CN112464739B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120288190A1 (en) * | 2011-05-13 | 2012-11-15 | Tang ding-yuan | Image Reflow at Word Boundaries |
CN103765413A (zh) * | 2011-06-30 | 2014-04-30 | 谷歌公司 | 渲染跟随线条的文本图像 |
CN107610132A (zh) * | 2017-08-28 | 2018-01-19 | 西北民族大学 | 一种古籍文档图像污渍去除方法 |
CN107563220A (zh) * | 2017-08-29 | 2018-01-09 | 湖南财政经济学院 | 一种基于计算机的大数据分析控制系统及控制方法 |
CN110634169A (zh) * | 2019-01-08 | 2019-12-31 | 华为技术有限公司 | 图像处理的装置和方法 |
CN110796031A (zh) * | 2019-10-11 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 基于人工智能的表格识别方法、装置及电子设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113630623A (zh) * | 2021-07-26 | 2021-11-09 | 山东云缦智能科技有限公司 | 一种基于像素色差对比的穿越视频制作方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112464739B (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7290294B2 (ja) | カラーバーコードの色補正方法及びコンピュータ読取可能な記憶媒体 | |
CN108764352A (zh) | 重复页面内容检测方法和装置 | |
Huang et al. | Enhancing color representation for the color vision impaired | |
CN112069339A (zh) | 背景图片处理及搜索结果展示方法、装置、设备和介质 | |
US20060146054A1 (en) | Use of an input overscaled bitmap to generate emboldened overscaled bitmap | |
WO2023005743A1 (zh) | 图像处理方法及装置、计算机设备、存储介质和计算机程序产品 | |
CN110738092A (zh) | 一种发票文本检测方法 | |
CN114972847A (zh) | 图像处理方法及装置 | |
CN112464739A (zh) | 一种文档文本易读性评测的方法及终端 | |
CN111124404A (zh) | 一种自定义颜色的显示方法及系统 | |
CN110880164B (zh) | 一种图像处理方法、装置、设备及计算机存储介质 | |
WO2016197705A1 (zh) | 一种图像处理方法和装置 | |
CN108305284A (zh) | 一种文字笔画宽度的确定方法及装置 | |
US20140320527A1 (en) | Hardware glyph cache | |
CN115063800B (zh) | 文本识别方法和电子设备 | |
CN109102473B (zh) | 一种改善彩色数字图像质量的方法 | |
US7286269B2 (en) | Use of an input black and white bitmap to generate emboldened anti-aliasing bitmap | |
CN115423724A (zh) | 强化学习参数优化的水下图像增强方法、装置及介质 | |
CN113038184B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN112927321B (zh) | 基于神经网络的图像智能设计方法、装置、设备及存储介质 | |
JPS6292074A (ja) | カラ−画像変換装置 | |
CN111491069B (zh) | 一种文档图像的色彩模式自动设定方法 | |
CN112513940A (zh) | α值确定装置、α值确定方法、程序和图像数据的数据结构 | |
Xie et al. | Adaptive grayscale method based on weighted guided filtering | |
CN110097147A (zh) | 图元绘制属性的设置方法、系统、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |