CN108460003A - 文本数据的处理方法和装置 - Google Patents

文本数据的处理方法和装置 Download PDF

Info

Publication number
CN108460003A
CN108460003A CN201810106926.7A CN201810106926A CN108460003A CN 108460003 A CN108460003 A CN 108460003A CN 201810106926 A CN201810106926 A CN 201810106926A CN 108460003 A CN108460003 A CN 108460003A
Authority
CN
China
Prior art keywords
character
text
coordinate value
target text
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810106926.7A
Other languages
English (en)
Other versions
CN108460003B (zh
Inventor
王东杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Guangzhou Shirui Electronics Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Guangzhou Shirui Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd, Guangzhou Shirui Electronics Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN201810106926.7A priority Critical patent/CN108460003B/zh
Publication of CN108460003A publication Critical patent/CN108460003A/zh
Application granted granted Critical
Publication of CN108460003B publication Critical patent/CN108460003B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请公开了一种文本数据的处理方法和装置。该方法包括:获取可扩展标记语言文字数据,其中,可扩展标记语言文字数据至少包括以下信息:文字内容、文字样式、字段行高和文字行列符;按照预设行宽对可扩展标记语言文字数据进行排版,得到目标文本;采用预设算法计算目标文本中每个字符的坐标位置,得到目标数据,其中,目标数据至少包括以下信息:目标文本的文字内容和每个字符的坐标位置;基于目标数据进行canvas渲染。通过本申请,解决了相关技术中难以将XML文字数据转化为便于canvas渲染的数据的问题。

Description

文本数据的处理方法和装置
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种文本数据的处理方法和装置。
背景技术
Canvas技术是web版本应用时,需要采用canvas技术对可扩展标记语言(简称XML)文字数据进行渲染,文字渲染是canvas技术的薄弱环节,现有技术中采用canvas技术对文字渲染存在很多缺陷,XML数据中不会记录一个文字段中各个字符的字符长度和字符位置,拿到XML文字数据进行渲染排版时,XML中会有一个排版机制,按照文字的字体大小、文字的样式、文字的font-Family属性(font-Family属性的值是用于某个元素的字体族名称或类族名称的优先表)进行排版;但是在canvas技术中,需要拿到字符长度,字符位置时才能对单个字符进行正常的渲染,在传统的canvas文字渲染机制中,文字只能按照整段字符的样式进行修改,当单个字符样式与旁边字符不一致时,例如,在普通文字中有一个艺术字,便无法得到该艺术字的位置,进而无法进行正常渲染。
针对相关技术中难以将XML文字数据转化为便于canvas渲染的数据的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种文本数据的处理方法和装置,以解决相关技术中难以将可扩展标记语言文字数据转化为便于canvas渲染的数据的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种文本数据的处理方法。该方法包括:获取可扩展标记语言文字数据,其中,可扩展标记语言文字数据至少包括以下信息:文字内容、文字样式、字段行高和文字行列符;按照预设行宽对可扩展标记语言文字数据进行排版,得到目标文本;采用预设算法计算目标文本中每个字符的坐标位置,得到目标数据,其中,目标数据至少包括以下信息:目标文本的文字内容和每个字符的坐标位置;基于目标数据进行canvas渲染。
进一步地,采用预设算法计算目标文本中每个字符的坐标位置,得到目标数据包括:设定可视化窗口,其中,可视化窗口的宽度大于等于预设行宽;根据可视化窗口的宽度和目标文本中每个字符的字符宽度计算每个字符的x坐标值;根据可视化窗口的高度和目标文本的排布方式计算目标文本中每个字符的y坐标值,其中,目标文本的排布方式包括以下至少之一:文本首行居顶、文本居中和文本尾行居底。
进一步地,根据可视化窗口的宽度和目标文本中每个字符的字符宽度计算每个字符的x坐标值包括:计算可视化窗口的宽度与每行字符的总宽度的差值,根据差值确定首列字符的x坐标值;切分目标文本中的各个字符并获取各个字符的宽度,根据各个字符的宽度计算非首列字符的x坐标值,其中,非首列字符的x坐标值为本行前一个字符的x坐标值与本行前一个字符的宽度的和。
进一步地,在目标文本的排布方式为文本首行居顶的情况下,根据可视化窗口的高度和目标文本的排布方式计算目标文本中每个字符的y坐标值包括:将目标文本中每行字符中的最大的字符高度作为本行的行高;根据每行字符的行高计算目标文本中每个字符的y坐标值,其中,首行字符的y坐标值为预设值与首行的行高的差值,非首行字符的y坐标值为上一行字符的y坐标值减去本行的行高。
进一步地,在目标文本的排布方式为文本居中或文本尾行居底的情况下,根据可视化窗口的高度和目标文本的排布方式计算目标文本中每个字符的y坐标值包括:将目标文本中每行字符中的最大的字符高度作为本行的行高;将每行字符的行高的总和作为目标文本的总高度;根据可视化窗口的高度与目标文本的总高度的差值确定首行字符的y坐标值;根据每行字符的行高计算非首行字符的y坐标值,其中,非首行字符的y坐标值为上一行字符的y坐标值减去本行的行高。
为了实现上述目的,根据本申请的另一方面,提供了一种文本数据的处理装置。该装置包括:获取单元,用于获取可扩展标记语言文字数据,其中,可扩展标记语言文字数据至少包括以下信息:文字内容、文字样式、字段行高和文字行列符;排版单元,用于按照预设行宽对可扩展标记语言文字数据进行排版,得到目标文本;计算单元,用于采用预设算法计算目标文本中每个字符的坐标位置,得到目标数据,其中,目标数据至少包括以下信息:目标文本的文字内容和每个字符的坐标位置;渲染单元,用于基于目标数据进行canvas渲染。
进一步地,计算单元包括:预设模块,用于设定可视化窗口,其中,可视化窗口的宽度大于等于预设行宽;x坐标值计算模块,用于根据可视化窗口的宽度和目标文本中每个字符的字符宽度计算每个字符的x坐标值;y坐标值计算模块,用于根据可视化窗口的高度和目标文本的排布方式计算目标文本中每个字符的y坐标值,其中,目标文本的排布方式包括以下至少之一:文本首行居顶、文本居中和文本尾行居底。
进一步地,x坐标值计算模块包括:第一计算子模块,用于计算可视化窗口的宽度与每行字符的总宽度的差值,根据差值确定首列字符的x坐标值;第二计算子模块,用于切分目标文本中的各个字符并获取各个字符的宽度,根据各个字符的宽度计算非首列字符的x坐标值,其中,非首列字符的x坐标值为本行前一个字符的x坐标值与本行前一个字符的宽度的和。
为了实现上述目的,根据本申请的另一方面,提供了一种存储介质,存储介质包括存储的程序,程序执行权利要求上述任意一项的文本数据的处理方法。
为了实现上述目的,根据本申请的另一方面,提供了一种处理器,处理器用于运行程序,程序执行权利要求上述任意一项的文本数据的处理方法。
通过本申请,采用以下步骤:获取可扩展标记语言文字数据,其中,可扩展标记语言文字数据至少包括以下信息:文字内容、文字样式、字段行高和文字行列符;按照预设行宽对可扩展标记语言文字数据进行排版,得到目标文本;采用预设算法计算目标文本中每个字符的坐标位置,得到目标数据,其中,目标数据至少包括以下信息:目标文本的文字内容和每个字符的坐标位置;基于目标数据进行canvas渲染,解决了相关技术中难以将可扩展标记语言文字数据转化为便于canvas渲染的数据的问题。通过对XML文字数据进行排版,计算排版后的目标文本中每个字符的坐标位置,进而达到了将可扩展标记语言文字数据转化为便于canvas渲染的数据的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的文本数据的处理方法的流程图;以及
图2是根据本申请实施例提供的文本数据的处理装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
XML:可扩展标记语言,是一种用于标记电子文件使其具有结构性的标记语言,通过该种标记,它可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言,非常适合万维网传输。
下面结合优选的实施步骤对本发明进行说明,图1是根据本申请实施例提供的文本数据的处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,获取可扩展标记语言文字数据,其中,可扩展标记语言文字数据至少包括以下信息:文字内容、文字样式、字段行高和文字行列符。
例如,获取一段可扩展标记语言的文本,其中,可扩展标记语言的文本中包含了文本的内容,组成文本的字符的样式,文本每一行的行高,文本行列符,文本是否居中、居左、居右等信息。
步骤S102,按照预设行宽对可扩展标记语言文字数据进行排版,得到目标文本。
例如,通过canvas的API测量算法得到预设行宽,按照预设行宽对文本重新进行排版,得到目标文本。
步骤S103,采用预设算法计算目标文本中每个字符的坐标位置,得到目标数据,其中,目标数据至少包括以下信息:目标文本的文字内容和每个字符的坐标位置。
需要说明的是,在canvas中只有获得字符的位置才能对单个字符进行正常的渲染,采用预设算法计算目标文本中每个字符的坐标位置,得到目标数据,其中,目标数据包括目标文本的文字内容、每个字符的坐标位置和目标文本的排布方式等信息。
步骤S104,基于目标数据进行canvas渲染。
经过步骤S101、步骤S102和步骤S103,可扩展标记语言的文本已经修正为便于在canvas中进行渲染的目标数据,对目标数据进行canvas渲染,渲染之后能够在web端进行显示。
可选地,在本申请实施例提供的文本数据的处理方法中,采用预设算法计算目标文本中每个字符的坐标位置,得到目标数据包括:设定可视化窗口,其中,可视化窗口的宽度大于等于预设行宽;根据可视化窗口的宽度和目标文本中每个字符的字符宽度计算每个字符的x坐标值;根据可视化窗口的高度和目标文本的排布方式计算目标文本中每个字符的y坐标值,其中,目标文本的排布方式包括以下至少之一:文本首行居顶、文本居中和文本尾行居底。
例如,可视化窗口为文本框,设定文本框,文本框的宽度大于等于预设行宽,文本框的高度一般小于等于目标文本的总高度;获取目标文本中每个字符的字符宽度,根据文本框的宽度和目标文本中每个字符的字符宽度计算每个字符的x坐标值;根据文本框的高度和目标文本的排布方式计算目标文本中每个字符的y坐标值,其中,目标文本的排布方式包括以下至少之一:文本首行居顶、文本居中和文本尾行居底,文本首行居顶指的是目标文本的首行字符的顶部与文本框的上边框对齐,文本居中指的是目标文本的中部内容位于文本框的中部,文本尾行居底指的是目标文本的最后一行字符的底部与文本框的下边框对齐。
可选地,在本申请实施例提供的文本数据的处理方法中,根据可视化窗口的宽度和目标文本中每个字符的字符宽度计算每个字符的x坐标值包括:计算可视化窗口的宽度与每行字符的总宽度的差值,根据差值确定首列字符的x坐标值;切分目标文本中的各个字符并获取各个字符的宽度,根据各个字符的宽度计算非首列字符的x坐标值,其中,非首列字符的x坐标值为本行前一个字符的x坐标值与本行前一个字符的宽度的和。
例如,可视化窗口为文本框,文本框的宽度为36cm,预设行宽为30cm,文本框的宽度与每行字符的总宽度(即为预设行宽)的差值为6cm,对于左右居中的目标文本,将文本框的左边框作为x轴,将差值的二分之一记为首列字符的x坐标值,即首列字符的x坐标值为3cm;切分目标文本中的各个字符并获取各个字符的宽度,例如,目标文本第一行的第一个字符宽0.83cm,第二个字符宽0.8cm,第三个字符宽0.81cm,则第二个字符的x坐标值为第一个字符的宽度与第一个字符的x坐标值的和,即第二个字符的x坐标值为3.83cm,第三个字符的x坐标值为第二个字符的宽度与第二个字符的x坐标值的和,即第三个字符的x坐标值为4.63cm,第四个字符的x坐标值为第三个字符的宽度与第三个字符的x坐标值的和,即第四个字符的x坐标值为5.44cm,同理,得到每一行非首列字符的x坐标值,综上所述,非首列字符的x坐标值为本行前一个字符的宽度与本行前一个字符的x坐标值的和。
可选地,在本申请实施例提供的文本数据的处理方法中,在目标文本的排布方式为文本首行居顶的情况下,根据可视化窗口的高度和目标文本的排布方式计算目标文本中每个字符的y坐标值包括:将目标文本中每行字符中的最大的字符高度作为本行的行高;根据每行字符的行高计算目标文本中每个字符的y坐标值,其中,首行字符的y坐标值为预设值与首行的行高的差值,非首行字符的y坐标值为上一行字符的y坐标值减去本行的行高。
例如,可视化窗口为文本框,文本框的高度为40cm,在目标文本的排布方式为文本首行居顶的情况下,由于目标文本的首行字符的顶部与文本框的上边框对齐,将目标文本中每行字符中的最大的字符高度作为本行的行高,例如首行字符中最大的字符高度为1cm,则首行的行高为1cm,目标文本中第二行字符中最大的字符高度为0.9cm,则第二行的行高为0.9cm,目标文本中第三行字符中最大的字符高度为0.9cm,则第三行的行高为0.91cm,预设值为0,那么,首行字符的y坐标值为-1cm,目标文本中第二行字符的y坐标值为首行字符的y坐标值减去第二行的行高得到的数值,即第二行字符的y坐标值为-1.9cm,目标文本中第三行字符的y坐标值为第二行字符的y坐标值减去第三行字符的行高得到的数值,即第三行字符的y坐标值为-2.81cm,综上所述,非首行字符的y坐标值为上一行字符的y坐标值减去本行的行高。
可选地,在本申请实施例提供的文本数据的处理方法中,在目标文本的排布方式为文本居中或文本尾行居底的情况下,根据可视化窗口的高度和目标文本的排布方式计算目标文本中每个字符的y坐标值包括:将目标文本中每行字符中的最大的字符高度作为本行的行高;将每行字符的行高的总和作为目标文本的总高度;根据可视化窗口的高度与目标文本的总高度的差值确定首行字符的y坐标值;根据每行字符的行高计算非首行字符的y坐标值,其中,非首行字符的y坐标值为上一行字符的y坐标值减去本行的行高。
例如,可视化窗口为文本框,文本框的高度为40cm,将目标文本中每行字符中的最大的字符高度作为本行的行高,例如首行字符中最大的字符高度为1cm,则首行的行高为1cm,目标文本中第二行字符中最大的字符高度为0.9cm,则第二行的行高为0.9cm,目标文本中第三行字符中最大的字符高度为0.9cm,则第三行的行高为0.91cm,同理算的其他行的行高,将每行字符的行高的总和作为目标文本的总高度,例如,算得目标文本的总高度为60cm;
计算文本框的高度与目标文本的总高度的差值为20cm,在目标文本的排布方式为文本居中的情况下,本实施例获取差值的二分之一作即为10cm,将差值的二分之一减去首行的行高设定为首行字符的y坐标值,即首行字符的y坐标值为9cm,那么,目标文本中第二行字符的y坐标值为首行字符的y坐标值减去第二行的行高得到的数值,即第二行字符的y坐标值为8.1cm,目标文本中第三行字符的y坐标值为第二行字符的y坐标值减去第三行字符的行高得到的数值,即第三行字符的y坐标值为7.19cm,综上所述,非首行字符的y坐标值为上一行字符的y坐标值减去本行的行高。
计算文本框的高度与目标文本的总高度的差值为20cm,在目标文本的排布方式为文本尾行居底的情况下,本实施例中将差值减去首行的行高作为首行字符的y坐标值,即为19cm,那么,目标文本中第二行字符的y坐标值为首行字符的y坐标值减去第二行的行高得到的数值,即第二行字符的y坐标值为18.1cm,目标文本中第三行字符的y坐标值为第二行字符的y坐标值减去第三行字符的行高得到的数值,即第三行字符的y坐标值为17.19cm,综上所述,非首行字符的y坐标值为上一行字符的y坐标值减去本行的行高。
本申请实施例提供的文本数据的处理方法,通过获取可扩展标记语言文字数据,其中,可扩展标记语言文字数据至少包括以下信息:文字内容、文字样式、字段行高和文字行列符;按照预设行宽对可扩展标记语言文字数据进行排版,得到目标文本;采用预设算法计算目标文本中每个字符的坐标位置,得到目标数据,其中,目标数据至少包括以下信息:目标文本的文字内容和每个字符的坐标位置;基于目标数据进行canvas渲染,解决了相关技术中难以将可扩展标记语言文字数据转化为便于canvas渲染的数据的问题。通过对XML文字数据进行排版,计算排版后的目标文本中每个字符的坐标位置,进而达到了将可扩展标记语言文字数据转化为便于canvas渲染的数据的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种文本数据的处理装置,需要说明的是,本申请实施例的文本数据的处理装置可以用于执行本申请实施例所提供的用于文本数据的处理方法。以下对本申请实施例提供的文本数据的处理装置进行介绍。
图2是根据本申请实施例的文本数据的处理装置的示意图。如图2所示,该装置包括:获取单元10,排版单元20,计算单元30和渲染单元40;
具体地,获取单元10,用于获取可扩展标记语言文字数据,其中,可扩展标记语言文字数据至少包括以下信息:文字内容、文字样式、字段行高和文字行列符;
排版单元20,用于按照预设行宽对可扩展标记语言文字数据进行排版,得到目标文本;
计算单元30,用于采用预设算法计算目标文本中每个字符的坐标位置,得到目标数据,其中,目标数据至少包括以下信息:目标文本的文字内容和每个字符的坐标位置;
渲染单元40,用于基于目标数据进行canvas渲染。
本申请实施例提供的文本数据的处理装置,通过获取单元10,获取可扩展标记语言文字数据,其中,可扩展标记语言文字数据至少包括以下信息:文字内容、文字样式、字段行高和文字行列符;排版单元20,按照预设行宽对可扩展标记语言文字数据进行排版,得到目标文本;计算单元30,采用预设算法计算目标文本中每个字符的坐标位置,得到目标数据,其中,目标数据至少包括以下信息:目标文本的文字内容和每个字符的坐标位置;渲染单元40,基于目标数据进行canvas渲染,解决了相关技术中难以将可扩展标记语言文字数据转化为便于canvas渲染的数据的问题。通过对XML文字数据进行排版,计算排版后的目标文本中每个字符的坐标位置,进而达到了将可扩展标记语言文字数据转化为便于canvas渲染的数据的效果。
可选地,在本申请实施例提供的文本数据的处理装置中,计算单元30包括:预设模块,用于设定可视化窗口,其中,可视化窗口的宽度大于等于预设行宽;x坐标值计算模块,用于根据可视化窗口的宽度和目标文本中每个字符的字符宽度计算每个字符的x坐标值;y坐标值计算模块,用于根据可视化窗口的高度和目标文本的排布方式计算目标文本中每个字符的y坐标值,其中,目标文本的排布方式包括以下至少之一:文本首行居顶、文本居中和文本尾行居底。
可选地,在本申请实施例提供的文本数据的处理装置中,x坐标值计算模块包括:第一计算子模块,用于计算可视化窗口的宽度与每行字符的总宽度的差值,根据差值确定首列字符的x坐标值;第二计算子模块,用于切分目标文本中的各个字符并获取各个字符的宽度,根据各个字符的宽度计算非首列字符的x坐标值,其中,非首列字符的x坐标值为本行前一个字符的x坐标值与本行前一个字符的宽度的和。
可选地,在本申请实施例提供的文本数据的处理装置中,在目标文本的排布方式为文本首行居顶的情况下,y坐标值计算模块包括:行高计算子模块,用于将目标文本中每行字符中的最大的字符高度作为本行的行高;第三计算子模块,用于根据每行字符的行高计算目标文本中每个字符的y坐标值,其中,首行字符的y坐标值为预设值与首行的行高的差值,非首行字符的y坐标值为上一行字符的y坐标值减去本行的行高。
可选地,在本申请实施例提供的文本数据的处理装置中,在目标文本的排布方式为文本居中或文本尾行居底的情况下,y坐标值计算模块包括:行高计算子模块,将目标文本中每行字符中的最大的字符高度作为本行的行高;第四计算子模块,用于将每行字符的行高的总和作为目标文本的总高度;第五计算子模块,用于根据可视化窗口的高度与目标文本的总高度的差值确定首行字符的y坐标值;第六计算子模块,用于根据每行字符的行高计算非首行字符的y坐标值,其中,非首行字符的y坐标值为上一行字符的y坐标值减去本行的行高。
所述文本数据的处理装置包括处理器和存储器,上述获取单元10,排版单元20,计算单元30和渲染单元40等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来将可扩展标记语言文字数据转化为便于canvas渲染的数据。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述文本数据的处理方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述文本数据的处理方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取可扩展标记语言文字数据,其中,可扩展标记语言文字数据至少包括以下信息:文字内容、文字样式、字段行高和文字行列符;按照预设行宽对可扩展标记语言文字数据进行排版,得到目标文本;采用预设算法计算目标文本中每个字符的坐标位置,得到目标数据,其中,目标数据至少包括以下信息:目标文本的文字内容和每个字符的坐标位置;基于目标数据进行canvas渲染。
采用预设算法计算目标文本中每个字符的坐标位置,得到目标数据包括:设定可视化窗口,其中,可视化窗口的宽度大于等于预设行宽;根据可视化窗口的宽度和目标文本中每个字符的字符宽度计算每个字符的x坐标值;根据可视化窗口的高度和目标文本的排布方式计算目标文本中每个字符的y坐标值,其中,目标文本的排布方式包括以下至少之一:文本首行居顶、文本居中和文本尾行居底。
根据可视化窗口的宽度和目标文本中每个字符的字符宽度计算每个字符的x坐标值包括:计算可视化窗口的宽度与每行字符的总宽度的差值,根据差值确定首列字符的x坐标值;切分目标文本中的各个字符并获取各个字符的宽度,根据各个字符的宽度计算非首列字符的x坐标值,其中,非首列字符的x坐标值为本行前一个字符的x坐标值与本行前一个字符的宽度的和。
在目标文本的排布方式为文本首行居顶的情况下,根据可视化窗口的高度和目标文本的排布方式计算目标文本中每个字符的y坐标值包括:将目标文本中每行字符中的最大的字符高度作为本行的行高;根据每行字符的行高计算目标文本中每个字符的y坐标值,其中,首行字符的y坐标值为预设值与首行的行高的差值,非首行字符的y坐标值为上一行字符的y坐标值减去本行的行高。
在目标文本的排布方式为文本居中或文本尾行居底的情况下,根据可视化窗口的高度和目标文本的排布方式计算目标文本中每个字符的y坐标值包括:将目标文本中每行字符中的最大的字符高度作为本行的行高;将每行字符的行高的总和作为目标文本的总高度;根据可视化窗口的高度与目标文本的总高度的差值确定首行字符的y坐标值;根据每行字符的行高计算非首行字符的y坐标值,其中,非首行字符的y坐标值为上一行字符的y坐标值减去本行的行高。本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在文本数据的处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取可扩展标记语言文字数据,其中,可扩展标记语言文字数据至少包括以下信息:文字内容、文字样式、字段行高和文字行列符;按照预设行宽对可扩展标记语言文字数据进行排版,得到目标文本;采用预设算法计算目标文本中每个字符的坐标位置,得到目标数据,其中,目标数据至少包括以下信息:目标文本的文字内容和每个字符的坐标位置;基于目标数据进行canvas渲染。
采用预设算法计算目标文本中每个字符的坐标位置,得到目标数据包括:设定可视化窗口,其中,可视化窗口的宽度大于等于预设行宽;根据可视化窗口的宽度和目标文本中每个字符的字符宽度计算每个字符的x坐标值;根据可视化窗口的高度和目标文本的排布方式计算目标文本中每个字符的y坐标值,其中,目标文本的排布方式包括以下至少之一:文本首行居顶、文本居中和文本尾行居底。
根据可视化窗口的宽度和目标文本中每个字符的字符宽度计算每个字符的x坐标值包括:计算可视化窗口的宽度与每行字符的总宽度的差值,根据差值确定首列字符的x坐标值;切分目标文本中的各个字符并获取各个字符的宽度,根据各个字符的宽度计算非首列字符的x坐标值,其中,非首列字符的x坐标值为本行前一个字符的x坐标值与本行前一个字符的宽度的和。
在目标文本的排布方式为文本首行居顶的情况下,根据可视化窗口的高度和目标文本的排布方式计算目标文本中每个字符的y坐标值包括:将目标文本中每行字符中的最大的字符高度作为本行的行高;根据每行字符的行高计算目标文本中每个字符的y坐标值,其中,首行字符的y坐标值为预设值与首行的行高的差值,非首行字符的y坐标值为上一行字符的y坐标值减去本行的行高。
在目标文本的排布方式为文本居中或文本尾行居底的情况下,根据可视化窗口的高度和目标文本的排布方式计算目标文本中每个字符的y坐标值包括:将目标文本中每行字符中的最大的字符高度作为本行的行高;将每行字符的行高的总和作为目标文本的总高度;根据可视化窗口的高度与目标文本的总高度的差值确定首行字符的y坐标值;根据每行字符的行高计算非首行字符的y坐标值,其中,非首行字符的y坐标值为上一行字符的y坐标值减去本行的行高。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程文本数据的处理设备的处理器以产生一个机器,使得通过计算机或其他可编程文本数据的处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程文本数据的处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程文本数据的处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(获取可扩展标记语言文字数据,其中,可扩展标记语言文字数据至少包括以下信息:文字内容、文字样式、字段行高和文字行列符;按照预设行宽对可扩展标记语言文字数据进行排版,得到目标文本;采用预设算法计算目标文本中每个字符的坐标位置,得到目标数据,其中,目标数据至少包括以下信息:目标文本的文字内容和每个字符的坐标位置;基于目标数据进行CANVAS渲染获取可扩展标记语言文字数据,其中,可扩展标记语言文字数据至少包括以下信息:文字内容、文字样式、字段行高和文字行列符;按照预设行宽对可扩展标记语言文字数据进行排版,得到目标文本;采用预设算法计算目标文本中每个字符的坐标位置,得到目标数据,其中,目标数据至少包括以下信息:目标文本的文字内容和每个字符的坐标位置;基于目标数据进行CANVAS渲染PROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种文本数据的处理方法,其特征在于,包括:
获取可扩展标记语言文字数据,其中,所述可扩展标记语言文字数据至少包括以下信息:文字内容、文字样式、字段行高和文字行列符;
按照预设行宽对所述可扩展标记语言文字数据进行排版,得到目标文本;
采用预设算法计算所述目标文本中每个字符的坐标位置,得到目标数据,其中,所述目标数据至少包括以下信息:所述目标文本的文字内容和每个字符的坐标位置;
基于所述目标数据进行canvas渲染。
2.根据权利要求1所述的方法,其特征在于,所述采用预设算法计算所述目标文本中每个字符的坐标位置,得到目标数据包括:
设定可视化窗口,其中,所述可视化窗口的宽度大于等于所述预设行宽;
根据所述可视化窗口的宽度和所述目标文本中每个字符的字符宽度计算每个字符的x坐标值;
根据所述可视化窗口的高度和目标文本的排布方式计算所述目标文本中每个字符的y坐标值,其中,所述目标文本的排布方式包括以下至少之一:文本首行居顶、文本居中和文本尾行居底。
3.根据权利要求2所述的方法,其特征在于,根据所述可视化窗口的宽度和所述目标文本中每个字符的字符宽度计算每个字符的x坐标值包括:
计算所述可视化窗口的宽度与每行字符的总宽度的差值,根据所述差值确定首列字符的x坐标值;
切分所述目标文本中的各个字符并获取各个字符的宽度,根据所述各个字符的宽度计算非首列字符的x坐标值,其中,所述非首列字符的x坐标值为本行前一个字符的x坐标值与本行前一个字符的宽度的和。
4.根据权利要求2所述的方法,其特征在于,在所述目标文本的排布方式为文本首行居顶的情况下,根据所述可视化窗口的高度和目标文本的排布方式计算所述目标文本中每个字符的y坐标值包括:
将所述目标文本中每行字符中的最大的字符高度作为本行的行高;
根据每行字符的行高计算所述目标文本中每个字符的y坐标值,其中,首行字符的y坐标值为预设值与首行的行高的差值,非首行字符的y坐标值为上一行字符的y坐标值减去本行的行高。
5.根据权利要求2所述的方法,其特征在于,在所述目标文本的排布方式为文本居中或文本尾行居底的情况下,根据所述可视化窗口的高度和目标文本的排布方式计算所述目标文本中每个字符的y坐标值包括:
将所述目标文本中每行字符中的最大的字符高度作为本行的行高;
将每行字符的行高的总和作为所述目标文本的总高度;
根据所述可视化窗口的高度与所述目标文本的总高度的差值确定首行字符的y坐标值;
根据每行字符的行高计算非首行字符的y坐标值,其中,所述非首行字符的y坐标值为上一行字符的y坐标值减去本行的行高。
6.一种文本数据的处理装置,其特征在于,包括:
获取单元,用于获取可扩展标记语言文字数据,其中,所述可扩展标记语言文字数据至少包括以下信息:文字内容、文字样式、字段行高和文字行列符;
排版单元,用于按照预设行宽对所述可扩展标记语言文字数据进行排版,得到目标文本;
计算单元,用于采用预设算法计算所述目标文本中每个字符的坐标位置,得到目标数据,其中,所述目标数据至少包括以下信息:所述目标文本的文字内容和每个字符的坐标位置;
渲染单元,用于基于所述目标数据进行canvas渲染。
7.根据权利要求6所述的装置,其特征在于,所述计算单元包括:
预设模块,用于设定可视化窗口,其中,所述可视化窗口的宽度大于等于所述预设行宽;
x坐标值计算模块,用于根据所述可视化窗口的宽度和所述目标文本中每个字符的字符宽度计算每个字符的x坐标值;
y坐标值计算模块,用于根据所述可视化窗口的高度和目标文本的排布方式计算所述目标文本中每个字符的y坐标值,其中,所述目标文本的排布方式包括以下至少之一:文本首行居顶、文本居中和文本尾行居底。
8.根据权利要求7所述的装置,其特征在于,所述x坐标值计算模块包括:
第一计算子模块,用于计算所述可视化窗口的宽度与每行字符的总宽度的差值,根据所述差值确定首列字符的x坐标值;
第二计算子模块,用于切分所述目标文本中的各个字符并获取各个字符的宽度,根据所述各个字符的宽度计算非首列字符的x坐标值,其中,所述非首列字符的x坐标值为本行前一个字符的x坐标值与本行前一个字符的宽度的和。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至5中任意一项所述的文本数据的处理方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任意一项所述的文本数据的处理方法。
CN201810106926.7A 2018-02-02 2018-02-02 文本数据的处理方法和装置 Active CN108460003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810106926.7A CN108460003B (zh) 2018-02-02 2018-02-02 文本数据的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810106926.7A CN108460003B (zh) 2018-02-02 2018-02-02 文本数据的处理方法和装置

Publications (2)

Publication Number Publication Date
CN108460003A true CN108460003A (zh) 2018-08-28
CN108460003B CN108460003B (zh) 2021-12-03

Family

ID=63239222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810106926.7A Active CN108460003B (zh) 2018-02-02 2018-02-02 文本数据的处理方法和装置

Country Status (1)

Country Link
CN (1) CN108460003B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871524A (zh) * 2019-02-21 2019-06-11 腾讯科技(深圳)有限公司 一种图表生成方法及装置
CN111381765A (zh) * 2020-03-11 2020-07-07 汉海信息技术(上海)有限公司 文本框的显示方法、装置、计算机设备及存储介质
CN113705156A (zh) * 2021-08-30 2021-11-26 上海哔哩哔哩科技有限公司 字符处理方法及装置
CN117236280A (zh) * 2023-09-13 2023-12-15 北京饼干科技有限公司 竖排文字显示方法及装置

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012003630A1 (en) * 2010-07-07 2012-01-12 Hewlett-Packard Development Company, L.P. Obtaining rendering co-ordinates of visible text elements
CN103577466A (zh) * 2012-08-03 2014-02-12 腾讯科技(深圳)有限公司 一种在浏览器中显示网页内容的方法和装置
CN104239282A (zh) * 2014-09-09 2014-12-24 百度在线网络技术(北京)有限公司 电子书的处理方法和装置
CN104461483A (zh) * 2013-09-16 2015-03-25 北大方正集团有限公司 一种字体渲染的方法、装置、渲染平台客户端和服务器
CN105095860A (zh) * 2015-06-30 2015-11-25 小米科技有限责任公司 字符分割方法和装置
CN105242817A (zh) * 2014-07-07 2016-01-13 阿里巴巴集团控股有限公司 页面元素实时突出显示的方法及装置
US20160139767A1 (en) * 2014-11-19 2016-05-19 Alibaba Group Holding Limited Method and system for mouse pointer to automatically follow cursor
CN106874909A (zh) * 2017-01-18 2017-06-20 深圳怡化电脑股份有限公司 一种图像字符的识别方法及其装置
CN107066440A (zh) * 2016-12-19 2017-08-18 广州视源电子科技股份有限公司 竖排文本的输入控制方法及系统
CN107239266A (zh) * 2016-03-29 2017-10-10 罗森伯格技术(昆山)有限公司 一种在web前端无插件展示cad图纸的方法及装置
CN107291677A (zh) * 2017-07-14 2017-10-24 北京神州泰岳软件股份有限公司 一种pdf文档标题结构树生成方法、装置、终端及系统
CN107438194A (zh) * 2017-08-09 2017-12-05 青岛海信电器股份有限公司 一种智能电视ui对象绘制方法及智能电视
CN107450906A (zh) * 2017-06-12 2017-12-08 积成电子股份有限公司 一种用能信息采集系统配电接线图的绘制方法
US20170357620A1 (en) * 2016-06-12 2017-12-14 Apple Inc. Dynamic layout generation for an electronic document
US20170359434A1 (en) * 2016-06-14 2017-12-14 Microsoft Technology Licensing, Llc Web caching with image and local storage

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012003630A1 (en) * 2010-07-07 2012-01-12 Hewlett-Packard Development Company, L.P. Obtaining rendering co-ordinates of visible text elements
CN103577466A (zh) * 2012-08-03 2014-02-12 腾讯科技(深圳)有限公司 一种在浏览器中显示网页内容的方法和装置
CN104461483A (zh) * 2013-09-16 2015-03-25 北大方正集团有限公司 一种字体渲染的方法、装置、渲染平台客户端和服务器
CN105242817A (zh) * 2014-07-07 2016-01-13 阿里巴巴集团控股有限公司 页面元素实时突出显示的方法及装置
CN104239282A (zh) * 2014-09-09 2014-12-24 百度在线网络技术(北京)有限公司 电子书的处理方法和装置
US20160139767A1 (en) * 2014-11-19 2016-05-19 Alibaba Group Holding Limited Method and system for mouse pointer to automatically follow cursor
CN105095860A (zh) * 2015-06-30 2015-11-25 小米科技有限责任公司 字符分割方法和装置
CN107239266A (zh) * 2016-03-29 2017-10-10 罗森伯格技术(昆山)有限公司 一种在web前端无插件展示cad图纸的方法及装置
US20170357620A1 (en) * 2016-06-12 2017-12-14 Apple Inc. Dynamic layout generation for an electronic document
US20170359434A1 (en) * 2016-06-14 2017-12-14 Microsoft Technology Licensing, Llc Web caching with image and local storage
CN107066440A (zh) * 2016-12-19 2017-08-18 广州视源电子科技股份有限公司 竖排文本的输入控制方法及系统
CN106874909A (zh) * 2017-01-18 2017-06-20 深圳怡化电脑股份有限公司 一种图像字符的识别方法及其装置
CN107450906A (zh) * 2017-06-12 2017-12-08 积成电子股份有限公司 一种用能信息采集系统配电接线图的绘制方法
CN107291677A (zh) * 2017-07-14 2017-10-24 北京神州泰岳软件股份有限公司 一种pdf文档标题结构树生成方法、装置、终端及系统
CN107438194A (zh) * 2017-08-09 2017-12-05 青岛海信电器股份有限公司 一种智能电视ui对象绘制方法及智能电视

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871524A (zh) * 2019-02-21 2019-06-11 腾讯科技(深圳)有限公司 一种图表生成方法及装置
CN109871524B (zh) * 2019-02-21 2023-06-09 腾讯科技(深圳)有限公司 一种图表生成方法及装置
CN111381765A (zh) * 2020-03-11 2020-07-07 汉海信息技术(上海)有限公司 文本框的显示方法、装置、计算机设备及存储介质
CN111381765B (zh) * 2020-03-11 2023-06-27 汉海信息技术(上海)有限公司 文本框的显示方法、装置、计算机设备及存储介质
CN113705156A (zh) * 2021-08-30 2021-11-26 上海哔哩哔哩科技有限公司 字符处理方法及装置
CN117236280A (zh) * 2023-09-13 2023-12-15 北京饼干科技有限公司 竖排文字显示方法及装置
CN117236280B (zh) * 2023-09-13 2024-05-24 北京饼干科技有限公司 竖排文字显示方法及装置

Also Published As

Publication number Publication date
CN108460003B (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
CN108460003A (zh) 文本数据的处理方法和装置
EP3279866A1 (en) Method and apparatus for generating synthetic picture
CN107908336B (zh) 列表控件的刷新方法、装置、存储介质及终端
CN107153528A (zh) 混合模型列表项重用的方法及设备
CN106610785A (zh) 商品对象列表信息处理方法及装置
CN109426415B (zh) 一种生成级联选择器的方法及装置
CN107945248A (zh) 一种气泡图文字展示方法及装置
CN109597983A (zh) 一种拼写纠错方法及装置
CN104915186A (zh) 一种制作页面的方法和装置
CN104572932B (zh) 一种兴趣标签的确定方法及装置
US20240143898A1 (en) Content typesetting method and apparatus, computer device, and storage medium
CN107562516A (zh) 多线程处理方法和装置、存储介质及处理器
CN105989126A (zh) 一种网页显示方法及装置
US9671993B2 (en) Virtualizing applications for per-monitor displaying
CN104765775B (zh) 一种日志保存方法及装置
CN110020291B (zh) 网页布局的处理方法及装置
CN107450904A (zh) 标题栏的绘制方法和装置
CN108073595A (zh) 一种在olap数据库实现数据更新和快照的方法及装置
US11010113B2 (en) Method and apparatus for printing relational graph
CN106610824A (zh) 一种页面高度自适应的方法及装置
CN106802880A (zh) 一种电子文档内容显示、处理方法及装置
Herold et al. Stable word-clouds for visualising text-changes over time
CN107480218A (zh) 网页显示方法及装置、电子设备、存储介质
CN110990799A (zh) 一种反爬虫的数据处理方法、装置、系统及存储介质
JP5718839B2 (ja) グラフィック出力における重なりを回避するためにラベルを移動させる方法、システム及びコンピューター読取可能媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant