CN115952278A - 一种基于关键词定位的版式文件高亮方法及高亮系统 - Google Patents

一种基于关键词定位的版式文件高亮方法及高亮系统 Download PDF

Info

Publication number
CN115952278A
CN115952278A CN202310243221.0A CN202310243221A CN115952278A CN 115952278 A CN115952278 A CN 115952278A CN 202310243221 A CN202310243221 A CN 202310243221A CN 115952278 A CN115952278 A CN 115952278A
Authority
CN
China
Prior art keywords
keyword
coordinate
keywords
text layer
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310243221.0A
Other languages
English (en)
Other versions
CN115952278B (zh
Inventor
王洪哲
王克照
关锋
丁兆俊
秦漫
叶海峰
曲金凤
许雯璇
陈星�
齐凯
范政阳
张帅
宋国喜
杨程杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yousheng Boda Software Co ltd
Original Assignee
Beijing Yousheng Boda Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yousheng Boda Software Co ltd filed Critical Beijing Yousheng Boda Software Co ltd
Priority to CN202310243221.0A priority Critical patent/CN115952278B/zh
Publication of CN115952278A publication Critical patent/CN115952278A/zh
Application granted granted Critical
Publication of CN115952278B publication Critical patent/CN115952278B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于关键词定位的版式文件高亮方法及高亮系统,包括S1、为版式文件添加第一坐标系,构建与版式文件布局相同的文本层,添加文本层id和第二坐标系;S2、在文本层中检索关键词,记录含有关键词的文本层id和关键词的第二坐标组,根据第二坐标组分别计算文字高度H与关键词宽度L,然后得到关键词区域;S3、根据第一坐标系与第二坐标系的坐标转换规则,将关键词区域中的第二坐标转换为第一坐标,得到版本文件中的高亮区域,对高亮区域进行高亮操作,得到对关键词高亮处理后的版式文件。本发明实现在版式文件中对关键词进行高亮,有效提高判断文本与多关键词的综合匹配程度,使系统快速定位对应的文本信息。

Description

一种基于关键词定位的版式文件高亮方法及高亮系统
技术领域
本发明实施例涉及计算机信息处理技术领域,具体涉及一种基于关键词定位的版式文件高亮方法及高亮系统。
背景技术
现有的全文检索技术是针对流式文件和版式文件而设计开发,其普遍提供用户下载和预览功能,其中流式文件的文字由于可以利用插件完成对于查询的多个关键词进行高亮或者下划线显示,但版式文件本身不提供编辑功能,而重叠版式文件虽然具有文字信息的复制功能,如双层版式文件具有两个图层,一个图层是原文件,下方图层是OCR后整理的文字段落,用户用鼠标点击原文件的位置,实际选中的为下方图层的文字,利用复制功能仅是复制的下方图层文字,其仅做到类似crtl+F的方式对单个词语进行检索和显示,这就导致在实际操作使用中,一方面由于版式文件的特殊结构,需要在上层图层内进行高亮处理,而现有版式文件的文字信息复制后会打乱文字格式,导致版式文件的高亮区域定位不准确;另一方面,用户往往会输入多个关键词精确检索,现有版式文件的复制、检索功能就无法满足多关键词的检索需求。
发明内容
为此,本发明实施例提供一种基于关键词定位的版式文件高亮方法及高亮系统,以解决现有技术中版式文件检索高亮不精确、效果差的问题。
为了实现上述目的,本发明实施例提供如下技术方案:
一种基于关键词定位的版式文件高亮方法,包括以下步骤:
S1、为版式文件添加第一坐标系,获取版式文件的文字信息,并构建包含与版式文件布局相同的文字信息的文本层,并添加唯一的文本层id,然后为文本层添加与第一坐标系相对应的第二坐标系。
S2、获取关键词,并在文本层的文本信息中检索关键词,记录含有关键词的文本层id和所述关键词所在矩形空间的四个边角的第二坐标,得到第二坐标组,并根据第二坐标组分别计算文字高度H与关键词宽度L,最终根据第二坐标组、文字高度H及关键词宽度L得到具有文本层id的关键词区域。
S3、根据第一坐标系与第二坐标系的坐标转换规则,将关键词区域中的第二坐标转换为第一坐标,得到版本文件中的高亮区域,对高亮区域进行高亮操作,得到对关键词高亮处理后的版式文件。
进一步的,将文本层的文本信息进行划分处理,为每一个划分的部分添加唯一的分部id,所述分部id与文本层id相关联。
进一步的,若文本层的文本信息中能够检索到对应的关键词,则记录含有关键词的文本层id;以及,根据所识别文本信息的文字尺寸,将文本信息中每个文字分隔为独立的矩形空间,记录所述关键词所在矩形空间的四个边角的第二坐标,得到第二坐标组。
进一步的,所述步骤S2中,根据第二坐标组中相同横坐标的上下两个纵坐标的绝对差,得到文字高度H;根据相同纵坐标的左右两个横坐标的绝对差,得到文字宽度D;再根据关键词中所含文字的数量N与文字宽度D的乘积,得到关键词宽度L。
进一步的,若步骤S1获取的文本层不具有检索关键词的功能,则将文本层转化为具有检索关键功能的文件格式。
进一步的,所述步骤S3中将关键词区域中的第二坐标转换为第一坐标包括:将关键词区域中的第二坐标组中的第二坐标全部转换为第一坐标组中的第一坐标;所述关键词区域的横向覆盖区间为(第二坐标组中最小横坐标,第二坐标组中最小横坐标+关键词宽度L),将第二坐标组中最小横坐标转换为第一坐标组中最小横坐标,得到(第一坐标组中最小横坐标,第一坐标组中最小横坐标+关键词宽度L);所述关键词区域的纵向覆盖区间为(第二坐标组中最小纵坐标,第二坐标组中最小纵坐标+文字高度H),将第二坐标组中最小纵坐标转换为第一坐标组中最小纵坐标,得到(第一坐标组中最小纵坐标,第一坐标组中最小纵坐标+文字高度H)。
进一步的,在获取全部关键词时,在同一个文本层id内检索全部关键词,如果文本层有划分处理,则在同一个分部id中检索全部关键词,分布计算出各个关键词的关键词区域,对比不同关键词的关键词区域,若存在不同关键词的关键词区域相互重叠、包裹的情形,则取不同关键词的关键词区域的并集,得到合并的关键词区域,再对合并的关键词区域进行步骤3处理,高亮颜色为排序在前的关键词的高亮颜色。
一种基于关键词定位的版式文件高亮系统,包括以下模块:
文本层构建模块,为版式文件添加第一坐标系,获取版式文件的文字信息,并构建包含与版式文件布局相同的文字信息的文本层,并添加唯一的文本层id,然后为文本层添加与第一坐标系相对应的第二坐标系。
关键词获取模块,用于获取关键词。
关键词检索模块,在文本层的文本信息中检索关键词,记录含有关键词的文本层id和关键词覆盖区域的第二坐标组。
关键词区域获取模块,根据第二坐标组分别计算文字高度H与关键词宽度L,根据第二坐标组、文字高度H及关键词宽度L得到具有文本层id的关键词区域。
高亮处理模块,根据第一坐标系与第二坐标系的坐标转换规则,将第二坐标组中的第二坐标全部转换为第一坐标组中的第一坐标,然后将关键词区域中第二坐标转换为第一坐标,得到版本文件中的高亮区域,对高亮区域进行高亮操作,得到对关键词高亮处理后的版式文件。
本发明实施例具有如下优点:
本发明实施例所述一种基于关键词定位的版式文件高亮方法及高亮系统通过构建与版式文件布局相同的文本层,并在文本层上进行关键词的检索、定位处理,获取关键词在文本层上的覆盖区域,再根据文本层与版式文件之间的坐标转换规则,得到关键词位于版式文件内的覆盖区域,从而得到版式文件内的高亮区域,实现版式文件对关键词的精准定位,从而实现版式文件对关键词的精确高亮。本发明构建了由全文检索、版式文件文字识别、重叠版式文件的技术结合到多重关键词高亮的技术体系,实现了为用户提供更加便捷的查询识别服务,其利用多种技术实现在版式文件中对所有关键词都进行高亮,并有效看到文章跟所有关键词的综合匹配程度,从而在面对页数较多的文章,可以快速判断文章的属性和是否为自己需要的文章。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
图1为本发明实施例1提供的一种基于关键词定位的版式文件高亮方法的方法流程图;
图2为本发明实施例1提供的一种基于关键词定位的版式文件高亮方法中构建文本层的细节流程图;
图3为本发明实施例1提供的一种基于关键词定位的版式文件高亮方法中获取关键词区域的细节流程图;
图4为本发明实施例2提供的一种基于关键词定位的版式文件高亮系统的系统结构图。
实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1所示,本发明实施例所述基于关键词定位的版式文件高亮方法,具体包括:
步骤S1、为版式文件添加第一坐标系,获取版式文件的文字信息,并构建包含与版式文件布局相同的文字信息的文本层,并添加唯一的文本层id,然后为文本层添加与第一坐标系相对应的第二坐标系。
本实施例的版式文件包括版式文档、表格文档、图片文档或扫描文档等,在生成文件的时候,这种文件的文字元素内容、位置、样式等信息就已经固定,无法进行直接的修改与编辑,只能添加注释、签名等信息。以版式文档为例,版式文档为PDF或OFD,软件为永中版式办公软件(永中OFD)、福昕软件、数科网维、点聚信息等。为版式文件添加第一坐标系,版式文件上相交的两个外框分别为第一坐标系的横轴与纵轴,原点为任意的外框边角处。
获取版式文件的文字信息,本实施例中使用OCR识别技术识别版式文件中的文字信息,本发明并未对识别技术进行限定,只要能够识别出版式文件中的文字信息的技术均落入本发明的保护范围之内。
构建保护文字信息的文本层,所述文本层与版式文件的文字信息布局相同,并为文本层添加唯一的文本层id。具体的,如图2所示,使用OCR识别版式文件中的文字信息,并按照版式文件中文字信息的布局形成文本层,如文本层与版式文件具有相同外框尺寸、文字尺寸、文字布局等,将识别出的文字信息按照从上到下、从左到右的顺序依次排列,形成与版式文件的文字信息布局相同的文本层。由于文本层的文本信息过多,导致检索后涉及的文本信息过多,无法做到精确检索,因此可将文本层的文本信息进行划分处理,可按照大标题、小标题划分,或者按照段落划分、页数划分等,本实施例中划分处理以段落划分,并为每一个划分的部分添加唯一的分部id,所述分部id与文本层id相关联。
为文本层添加与第一坐标系相对应的第二坐标系。所述文本层上相交的两个外框作为第二坐标系的横轴与纵轴,文本层与版式文件的坐标原点位置相同,如二者均为外框左下角。若要检索文本层中的文字信息,则根据识别的文字信息的格式属性,如文字的字体、字号大小,将每个文字信息分隔为独立的矩形空间。
步骤S2、获取关键词,并在文本层的文本信息中检索关键词,记录含有关键词的文本层id和所述关键词所在矩形空间的四个边角的第二坐标,得到第二坐标组,并根据第二坐标组分别计算文字高度H与关键词宽度L,最终根据第二坐标组、文字高度H及关键词宽度L得到具有文本层id的关键词区域。
获取关键词。用户输入关键词或者短句,若多个关键词,则使用空格分隔,然后全文检索系统利用分词器进行分词,即拆分成若干个关键词,由于Span标签的插入条件是需要设置一个关键词的数组,因此将若干关键词组成一个数组,得到关键词数组B:{E1=关键词1,E2=关键词2,E3=关键词3......},用于后续的高亮处理。
如图3所示,在文本层的文本信息中检索关键词,若文本信息中能够检索到对应的关键词,则记录含有关键词的文本层id,若文本信息经过划分处理,其具有分部id的,记录分部id。
根据所识别文本信息的文字尺寸,将文本信息中每个文字分隔为独立的矩形空间,记录所述关键词所在矩形空间的四个边角的第二坐标,得到第二坐标组,所述第二坐标组包括矩形空间的左上角坐标、左下角坐标、右上角坐标、右下角坐标。
根据关键词的第二坐标组中相同横坐标的上下两个纵坐标的绝对差,得到文字高度H;根据相同纵坐标的左右两个横坐标的绝对差,得到文字宽度D;再根据关键词中所含文字的数量N与文字宽度D的乘积,得到关键词宽度L,即L=N·D。
根据关键词的第二坐标组、文字高度H及关键词宽度L,计算得到关键词区域,其中关键词横向覆盖区间为(第二坐标组中最小横坐标,第二坐标组中最小横坐标+关键词宽度L),关键词的纵向覆盖区间为(第二坐标组中最小纵坐标,第二坐标组中最小纵坐标+文字高度H),得到关键词区域,并添加文本层id和/或分部id。
若步骤S1获取的文本层不具有检索关键词的功能,那么需要对文本层进行格式转换,则将文本层转化为具有检索关键功能的文件格式,如将文本层转换为html文件或xml文件,下面以文本层转换为html文件为例,具体说明步骤S2的实现方案:
在文本层的外层包裹html相关声明属性,如使用html格式的转义符,识别转义符“\n”“\r”“\f”分别代表“换行”“回车”“换页”,根据“\n”“\r”等转义符来判别包裹html文件的转换。同时将文本信息转换为div,具体操作为在文本信息的前方添加<div>,在后方添加</div>,然后为div添加唯一的文本层id。
若将文本信息划分为若干部分,如根据段落、句子、页数等划分形式,每一个划分部分均封装为一个div,为每一div均添加分部id。以段落划分为例,将文本信息以段落为标准划分,将每段均封装为一个div,然后为每个div均添加唯一的分部id并排序,将分部div和分部id装入一个数组中,得到div数组A:{......{分部id1,[段落div1]},{分部id2,[段落div2]},{分部id3,[段落div3]}......},没有分部id的,则将文本层id与div装入数组A中。
以段落划分为例,对div数组A中每个div的文字信息分别进行关键词E1检索,若div的文字信息中检索到了关键词E1,则记录所述div的分部di及关键词E1位于该div中矩形空间的第二坐标组,根据第二坐标组分别计算得到文字高度H与关键词宽度L,得到关键词E1的检索数组C1:{......{id1,[X1,X1+关键词宽度L],[Y1,Y1+文字高度H]},{id2,[X2,X2+关键词宽度L],[Y2,Y2+文字高度H]},{id3,[X3,X3+关键词宽度L],[Y3,Y3+文字高度H]}......}。例如关键词:“我们”,检测出在div1中出现,则记录div1的分部id1和“我们”的覆盖区域{[X1,X1+关键词宽度L],[Y1,Y1+文字高度H]},其中X1为关键词中第一个文字信息“我”的最小横坐标,Y1为关键词中第一个文字信息“我”的最小纵坐标,L为关键词“我们”的长度,G为关键词“我们”的高度。
若同一个div内出现多次相同的关键词E1,则得到关键词E1的检索数组C1:{{id1,([X1,X1+L],[Y1,Y1+G]),([X2,X2+L],[Y2,Y2+G]),([X3,X3+L],[Y3,Y3+G])},{id2,([X4,X4+L],[Y4,Y4+G]),([X5,X5+L],[Y5,Y5+G])}......}。对关键词E1检索完成后,开始进行对关键词E2的检索,直到全部关键词检索完成。
步骤S3、根据第一坐标系与第二坐标系的坐标转换规则,将第二坐标组中的第二坐标全部转换为第一坐标组中的第一坐标,然后将关键词区域中第二坐标转换为第一坐标,得到版本文件中的高亮区域,对高亮区域进行高亮操作,得到对关键词高亮处理后的版式文件。其中所述关键词区域的横向覆盖区间为(第二坐标组中最小横坐标,第二坐标组中最小横坐标+关键词宽度L),根据第一坐标系与第二坐标系的坐标转换规则,将第二坐标组中最小横坐标转换为第一横坐标,所述第一横坐标为第一坐标组中最小横坐标,(第一坐标组中最小横坐标,最小横坐标+关键词宽度L);所述关键词区域的纵向覆盖区间为(第二坐标组中最小纵坐标,第二坐标组中最小纵坐标+文字高度H),根据第一坐标系与第二坐标系的坐标转换规则,将第二坐标组中最小纵坐标转换为第一纵坐标,所述第一纵坐标为第一坐标组中最小纵坐标,得到(第一坐标组中最小纵坐标,第一坐标组中最小纵坐标+文字高度H),最终得到高亮区域。
以前述关键词E1为例,关键词E1的检索数组C1:{......{id1,[X1,X1+L],[Y1,Y1+H]},{id2,[X2,X2+L],[Y2,Y2+H]},{id3,[X3,X3+L],[Y3,Y3+H]}......},根据第一坐标与第二坐标的转换规则,将检索数组C1中X1、X2、X3......等最小横坐标转换为第一坐标系中对应的横坐标值X1’、X2’、X3’......,将检索数组C1中Y1,Y2,Y3......等最小纵坐标转换为第一坐标系中对应的纵坐标值Y1’、Y2’、Y3’......,得到转换后的检索数组C1’:{......{id1,[X1’,X1’+L],[Y1’,Y1’+H]},{id2,[X2’,X2’+L],[Y2’,Y2’+H]},{id3,[X3’,X3’+L],[Y3’,Y3’+H]}......},根据检索数组C1’对版式文件进行对应的高亮操作,例如在偏离位置左右插入span标签,同时利用css颜色使检索数组中的高亮区域进行对应颜色的高亮处理,得到对关键词E1高亮处理后的版式文件。然后按照数组B的顺序对其他关键词依次进行步骤3的高亮处理,对不同关键词的高亮渲染中所使用的颜色不同。
上述实施例引申的技术问题:由于在关键词的分词阶段,可能存在关键词重复、互相包裹的情形,例如“北京”、“北京深圳”、“深圳水务”“深圳水务排水”的情况,这会导致由于关键词的混乱而导致排序靠后的关键词无法被准确识别的情况。以文本层转换为html文件为例,任何html标签都必须有开始标签和结束标签,如果标签混乱会造成很多程序识别问题,最终导致无法准确高亮,在每一个关键词的高亮处理完成后,关键词数组B会变成关键词数组B1,此时的html文件由于高亮处理而添加若干个<span class=”yellow”></span>的指令信息,导致html文件中所有的文字信息的第二坐标发生变化,即未高亮处理的关键词在div中的第二坐标发生变化。而且还可能对一些连词进行穿插破坏,导致后续无法识别,例如文本信息是“深圳水务排水”,查询的关键词为“深圳水务”和“水务排水”,经高亮处理后得到的指令为:<span class=”yellow”>深圳<span class=”yellow”>水务</span>排水</span>,该指令中仅对深圳进行黄色高亮,而水雾与排水均未高亮。
本实施例对上述技术问题进行改进,在获取全部关键词时,在同一个文本层id内检索全部关键词,如果文本层有划分处理,则在同一个分部id中检索全部关键词,分布计算出各个关键词的关键词区域,对比不同关键词的关键词区域,若存在不同关键词的关键词区域相互重叠、包裹的情形,则取不同关键词的关键词区域的并集,得到合并的关键词区域,再对合并的关键词区域进行步骤3处理,高亮颜色为排序在前的关键词的高亮颜色,从而解决不同关键词重叠、包裹而导致高亮不准确的问题。例如,文本信息是“深圳水务排水”,查询的关键词为“深圳水务”和“水务排水”,经高亮处理后得到的指令为:<span class=”yellow”>深圳水务排水</span>。
实施例
如图4所示,一种基于关键词定位的版式文件高亮系统,包括以下模块:
文本层构建模块1,为版式文件添加第一坐标系,获取版式文件的文字信息,并构建包含与版式文件布局相同的文字信息的文本层,并添加唯一的文本层id,然后为文本层添加与第一坐标系相对应的第二坐标系。
关键词获取模块2,用于获取关键词。
关键词检索模块3,在文本层的文本信息中检索关键词,记录含有关键词的文本层id和关键词覆盖区域的第二坐标组。
关键词区域获取模块4,根据第二坐标组分别计算文字高度H与关键词宽度L,根据第二坐标组、文字高度H及关键词宽度L得到具有文本层id的关键词区域。
高亮处理模块5,根据第一坐标系与第二坐标系的坐标转换规则,将第二坐标组中的第二坐标全部转换为第一坐标组中的第一坐标,然后将关键词区域中第二坐标转换为第一坐标,得到版本文件中的高亮区域,对高亮区域进行高亮操作,得到对关键词高亮处理后的版式文件。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (8)

1.一种基于关键词定位的版式文件高亮方法,其特征在于,包括以下步骤:
S1、为版式文件添加第一坐标系,获取版式文件的文字信息,并构建包含与版式文件布局相同的文字信息的文本层,并添加唯一的文本层id,然后为文本层添加与第一坐标系相对应的第二坐标系;
S2、获取关键词,并在文本层的文本信息中检索关键词,记录含有关键词的文本层id和所述关键词所在矩形空间的四个边角的第二坐标,得到第二坐标组,并根据第二坐标组分别计算文字高度H与关键词宽度L,最终根据第二坐标组、文字高度H及关键词宽度L得到具有文本层id的关键词区域;
S3、根据第一坐标系与第二坐标系的坐标转换规则,将关键词区域中的第二坐标转换为第一坐标,得到版本文件中的高亮区域,对高亮区域进行高亮操作,得到对关键词高亮处理后的版式文件。
2.根据权利要求1所述的一种基于关键词定位的版式文件高亮方法,其特征在于:将文本层的文本信息进行划分处理,为每一个划分的部分添加唯一的分部id,所述分部id与文本层id相关联。
3.根据权利要求1所述的一种基于关键词定位的版式文件高亮方法,其特征在于:若文本层的文本信息中能够检索到对应的关键词,则记录含有关键词的文本层id;以及,根据所识别文本信息的文字尺寸,将文本信息中每个文字分隔为独立的矩形空间,记录所述关键词所在矩形空间的四个边角的第二坐标,得到第二坐标组。
4.根据权利要求1所述的一种基于关键词定位的版式文件高亮方法,其特征在于:所述步骤S2中,根据第二坐标组中相同横坐标的上下两个纵坐标的绝对差,得到文字高度H;根据相同纵坐标的左右两个横坐标的绝对差,得到文字宽度D;再根据关键词中所含文字的数量N与文字宽度D的乘积,得到关键词宽度L。
5.根据权利要求1所述的一种基于关键词定位的版式文件高亮方法,其特征在于:若步骤S1获取的文本层不具有检索关键词的功能,则将文本层转化为具有检索关键功能的文件格式。
6.根据权利要求1所述的一种基于关键词定位的版式文件高亮方法,其特征在于,所述步骤S3中将关键词区域中的第二坐标转换为第一坐标包括:
将关键词区域中的第二坐标组中的第二坐标全部转换为第一坐标组中的第一坐标;
所述关键词区域的横向覆盖区间为(第二坐标组中最小横坐标,第二坐标组中最小横坐标+关键词宽度L),将第二坐标组中最小横坐标转换为第一坐标组中最小横坐标,得到(第一坐标组中最小横坐标,第一坐标组中最小横坐标+关键词宽度L);
所述关键词区域的纵向覆盖区间为(第二坐标组中最小纵坐标,第二坐标组中最小纵坐标+文字高度H),将第二坐标组中最小纵坐标转换为第一坐标组中最小纵坐标,得到(第一坐标组中最小纵坐标,第一坐标组中最小纵坐标+文字高度H)。
7.根据权利要求1所述的一种基于关键词定位的版式文件高亮方法,其特征在于:在获取全部关键词时,在同一个文本层id内检索全部关键词,如果文本层有划分处理,则在同一个分部id中检索全部关键词,分布计算出各个关键词的关键词区域,对比不同关键词的关键词区域,若存在不同关键词的关键词区域相互重叠、包裹的情形,则取不同关键词的关键词区域的并集,得到合并的关键词区域,再对合并的关键词区域进行步骤3处理,高亮颜色为排序在前的关键词的高亮颜色。
8.一种基于关键词定位的版式文件高亮系统,其特征在于,包括以下模块:
文本层构建模块,为版式文件添加第一坐标系,获取版式文件的文字信息,并构建包含与版式文件布局相同的文字信息的文本层,并添加唯一的文本层id,然后为文本层添加与第一坐标系相对应的第二坐标系;
关键词获取模块,用于获取关键词;
关键词检索模块,在文本层的文本信息中检索关键词,记录含有关键词的文本层id和关键词覆盖区域的第二坐标组;
关键词区域获取模块,根据第二坐标组分别计算文字高度H与关键词宽度L,根据第二坐标组、文字高度H及关键词宽度L得到具有文本层id的关键词区域;
高亮处理模块,根据第一坐标系与第二坐标系的坐标转换规则,将第二坐标组中的第二坐标全部转换为第一坐标组中的第一坐标,然后将关键词区域中第二坐标转换为第一坐标,得到版本文件中的高亮区域,对高亮区域进行高亮操作,得到对关键词高亮处理后的版式文件。
CN202310243221.0A 2023-03-14 2023-03-14 一种基于关键词定位的版式文件高亮方法及高亮系统 Active CN115952278B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310243221.0A CN115952278B (zh) 2023-03-14 2023-03-14 一种基于关键词定位的版式文件高亮方法及高亮系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310243221.0A CN115952278B (zh) 2023-03-14 2023-03-14 一种基于关键词定位的版式文件高亮方法及高亮系统

Publications (2)

Publication Number Publication Date
CN115952278A true CN115952278A (zh) 2023-04-11
CN115952278B CN115952278B (zh) 2023-05-30

Family

ID=85886535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310243221.0A Active CN115952278B (zh) 2023-03-14 2023-03-14 一种基于关键词定位的版式文件高亮方法及高亮系统

Country Status (1)

Country Link
CN (1) CN115952278B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030050927A1 (en) * 2001-09-07 2003-03-13 Araha, Inc. System and method for location, understanding and assimilation of digital documents through abstract indicia
CN105404683A (zh) * 2015-11-30 2016-03-16 北大方正集团有限公司 一种版式文档处理方法及装置
CN107729445A (zh) * 2017-09-30 2018-02-23 长城计算机软件与系统有限公司 一种基于html5的大文本阅读定位及显示方法
CN111680180A (zh) * 2020-05-26 2020-09-18 广州多益网络股份有限公司 一种面向图表搜索的文本加框显示方法和装置
CN112199545A (zh) * 2020-11-23 2021-01-08 湖南蚁坊软件股份有限公司 基于图片文字定位的关键词显示方法、装置及存储介质
CN113806472A (zh) * 2020-06-17 2021-12-17 中国人寿资产管理有限公司 一种对文字图片和图像型扫描件实现全文检索的方法及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030050927A1 (en) * 2001-09-07 2003-03-13 Araha, Inc. System and method for location, understanding and assimilation of digital documents through abstract indicia
CN105404683A (zh) * 2015-11-30 2016-03-16 北大方正集团有限公司 一种版式文档处理方法及装置
CN107729445A (zh) * 2017-09-30 2018-02-23 长城计算机软件与系统有限公司 一种基于html5的大文本阅读定位及显示方法
CN111680180A (zh) * 2020-05-26 2020-09-18 广州多益网络股份有限公司 一种面向图表搜索的文本加框显示方法和装置
CN113806472A (zh) * 2020-06-17 2021-12-17 中国人寿资产管理有限公司 一种对文字图片和图像型扫描件实现全文检索的方法及设备
CN112199545A (zh) * 2020-11-23 2021-01-08 湖南蚁坊软件股份有限公司 基于图片文字定位的关键词显示方法、装置及存储介质

Also Published As

Publication number Publication date
CN115952278B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
US8532384B2 (en) Method of retrieving information from a digital image
CN109582909B (zh) 网页自动生成方法、装置、电子设备和存储介质
US7433893B2 (en) Method and system for compression indexing and efficient proximity search of text data
JP4907715B2 (ja) テキストドキュメント及びイメージドキュメントを同期化、ディスプレイ、及び操作するための方法及び装置
US8271512B2 (en) Presenting digitized content on a network using a cross-linked layer of electronic documents derived from a relational database
US8239750B2 (en) Extracting semantics from data
US20080033996A1 (en) Techniques for approximating the visual layout of a web page and determining the portion of the page containing the significant content
EP2291010A1 (en) Structure processing method and apparatus for layout file
US7149967B2 (en) Method and system for creating a table version of a document
US20140304579A1 (en) Understanding Interconnected Documents
EP2172853B1 (en) Database index and database for indexing text documents
JP2000148736A (ja) フォントの取得方法、登録方法、表示方法、印刷方法、異体字フォントを含む電子文書の取り扱い方法およびその記録媒体
WO2020056977A1 (zh) 知识点推送方法、装置及计算机可读存储介质
JP5380040B2 (ja) 文書処理装置
US20100010970A1 (en) Document searching device, document searching method, document searching program
CN110362596A (zh) 一种文本抽取信息结构化数据处理的控制方法及装置
CN102799632B (zh) 基于vba和四面体数据模型的文本信息获取与描述方法
EP3432161A1 (en) Information processing system and information processing method
CN101996190B (zh) 一种从网页中抽取信息的方法及装置
JP2005182460A (ja) 情報処理装置、注釈処理方法、情報処理プログラムおよび情報処理プログラムを格納した記録媒体
CN115952278B (zh) 一种基于关键词定位的版式文件高亮方法及高亮系统
CN107301180A (zh) 一种文档结构的分析方法和装置
JP2000339306A (ja) 文書作成装置
CN111125483B (zh) 网页数据抽取模板生成方法、装置、计算机装置及存储介质
CN108984498B (zh) 文档的排版处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant