CN109783810B - 一种文本处理方法、装置及计算机可读存储介质 - Google Patents

一种文本处理方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN109783810B
CN109783810B CN201811598576.7A CN201811598576A CN109783810B CN 109783810 B CN109783810 B CN 109783810B CN 201811598576 A CN201811598576 A CN 201811598576A CN 109783810 B CN109783810 B CN 109783810B
Authority
CN
China
Prior art keywords
line
ending
text
processed
symbol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811598576.7A
Other languages
English (en)
Other versions
CN109783810A (zh
Inventor
欧阳佑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201811598576.7A priority Critical patent/CN109783810B/zh
Publication of CN109783810A publication Critical patent/CN109783810A/zh
Application granted granted Critical
Publication of CN109783810B publication Critical patent/CN109783810B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种文本处理方法、装置及存储介质,包括:服务器按行获取待处理文本的内容;当待处理文本中存在以非结束符号结尾的行,将以非结束符号结尾的行与该行的下一行合并在同一个段落中;其中,非结束符号是表示语句未结束的符号。从本发明实施例提供的技术方案可见,当服务器确定存在以非结束符号结尾的行时,将该行的下一行与该行合并为了一个段落,从而实现了文本中原本属于同一段落但却分散在不同行显示的内容的段落合并,保证了后续基于段落的文本处理任务的顺利进行。

Description

一种文本处理方法、装置及计算机可读存储介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种文本处理方法、装置及计算机可读存储介质。
背景技术
在实际应用中,往往存在从根据文本生成的图片中反向获取可编辑文本的需求,针对该需求,相关技术通常采用光学字符识别(Optical Character Recognition,OCR)的技术手段进行可编辑文本的获取。
然而,由于文本中属于同一段落的内容中可能存在多余的换行符号,而OCR在检测到换行符号时会自动将后续内容显示在另起的一行中,因此当使用OCR技术手段进行可编辑文本的获取时,会使得属于同一段落的内容在多个换行符号处均被割裂开,出现同一段落的内容分散在不同行显示的情况,从而无法开展基于段落的文本处理任务。
发明内容
为了解决上述技术问题,本发明实施例提供一种文本处理方法、装置及计算机可读存储介质,能够对文本中原本属于同一段落但却分散在不同行显示的内容进行段落合并,从而保证后续基于段落的文本处理任务顺利进行。
为了达到本发明实施例目的,本发明实施例提供了一种文本处理方法,包括:
服务器按行获取待处理文本的内容;
当所述待处理文本中存在以非结束符号结尾的行,将所述以非结束符号结尾的行与该行的下一行合并在同一个段落中;其中,所述非结束符号是表示语句未结束的符号。
当所述待处理文本中存在以结束符号结尾且只包含前引号不包含后引号的行;其中,所述结束符合是标识语句结束的符号,还包括:
将所述以结束符号结尾且只包含前引号不包含后引号的行与该行的下一行合并在同一个段落中。
所述非结束符号集合包括:逗号、顿号和前引号;
所述结束符号结合包括:句号加后引号、问号加后引号、句号、感叹号和问号。
当所述待处理文本中存在以文字结尾的行,还包括:
获取由所述以文字结尾的行的末尾文字和该行的下一行的开头文字组成的词组;
判断获得的词组是否存在于预先建立的词组集合中;
当获得的词组存在于所述词组集合中,将所述以文字结尾的行与该行的下一行合并在同一个段落中。
所述词组集合包括:从预先指定的词典中获得的词组以及所述待处理文本中出现次数大于预设次数的由至少两个连续汉字组成的词组。
当获得的词组不存在于所述词组集合中,还包括:
获取所述待处理文本中最长的行长度作为所述待处理文本的显示宽度;
获取所述以文字结尾的行的行长度与所述待处理文本的显示宽度之间的差值绝对值;
当获得的差值绝对值小于预设长度,将所述以文字结尾的行与该行的下一行合并在同一个段落中。
所述行长度表示为以预设字体类型和预设字体大小进行文字显示时所显示的字数。
本发明实施例提供了一种服务器,包括:
获取模块,用于按行获取待处理文本的内容;
处理模块,用于当所述待处理文本中存在以非结束符号结尾的行,将所述以非结束符号结尾的行与该行的下一行合并在同一个段落中;其中,所述非结束符号是表示语句未结束的符号。
本发明实施例提供了一种文本处理装置,包括:处理器和存储器,其中,存储器中存储有以下可被处理器执行的命令:
按行获取待处理文本的内容;
当所述待处理文本中存在以非结束符号结尾的行,将所述以非结束符号结尾的行与该行的下一行合并在同一个段落中;其中,所述非结束符号是表示语句未结束的符号。
本发明实施例提供了一种计算机可读存储介质,所述存储介质上存储有计算机可执行命令,所述计算机可执行命令用于执行以下步骤:
按行获取待处理文本的内容;
当所述待处理文本中存在以非结束符号结尾的行,将所述以非结束符号结尾的行与该行的下一行合并在同一个段落中;其中,所述非结束符号是表示语句未结束的符号。
与现有技术相比,本发明实施例至少包括:服务器按行获取待处理文本的内容;当待处理文本中存在以非结束符号结尾的行,将以非结束符号结尾的行与该行的下一行合并在同一个段落中;其中,非结束符号是表示语句未结束的符号。从本发明实施例提供的技术方案可见,由于以表示语句未结束的符号(即非结束符号)结尾的行与该行的下一行应该是同属一个段落,因此当服务器确定存在以非结束符号结尾的行时,会将该行与该行的下一行合并在同一段落中,从而对文本中原本属于同一段落但却分散在不同行显示的内容进行了段落合并,保证了后续基于段落的文本处理任务的顺利进行。
本发明实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例而了解。本发明实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明实施例技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明实施例的技术方案,并不构成对本发明实施例技术方案的限制。
图1为本发明实施例提供的一种文本处理方法的流程示意图;
图2为本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明实施例的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
本发明实施例提供一种文本处理方法,如图1所示,该方法包括:
步骤101、服务器按行获取待处理文本的内容。
步骤102、当待处理文本中存在以非结束符号结尾的行,将以非结束符号结尾的行与该行的下一行合并在同一个段落中。
其中,非结束符号是表示语句未结束的符号。
本发明实施例所提供的文本处理方法,服务器按行获取待处理文本的内容;当待处理文本中存在以非结束符号结尾的行,将以非结束符号结尾的行与该行的下一行合并在同一个段落中;其中,非结束符号是表示语句未结束的符号。从本发明实施例提供的技术方案可见,由于以表示语句未结束的符号(即非结束符号)结尾的行与该行的下一行应该是同属一个段落,因此当服务器确定存在以非结束符号结尾的行时,会将该行与该行的下一行合并在同一段落中,从而对文本中原本属于同一段落但却分散在不同行显示的内容进行了段落合并,保证了后续基于段落的文本处理任务的顺利进行。
可选地,当待处理文本中存在以结束符号结尾且只包含前引号不包含后引号的行;其中,结束符合是标识语句结束的符号,还包括:
步骤103、将以结束符号结尾且只包含前引号不包含后引号的行与该行的下一行合并在同一个段落中。
可选地,非结束符号集合包括:逗号、顿号和前引号。
结束符号结合包括:句号加后引号、问号加后引号、句号、感叹号和问号。
可选地,当待处理文本中存在以文字结尾的行,还包括:
步骤104、获取由以文字结尾的行的末尾文字和该行的下一行的开头文字组成的词组。
步骤105、判断获得的词组是否存在于预先建立的词组集合中。
步骤106、当获得的词组存在于词组集合中,将以文字结尾的行与该行的下一行合并在同一个段落中。
可选地,词组集合包括:从预先指定的词典中获得的词组以及待处理文本中出现次数大于预设次数的由至少两个连续汉字组成的词组。
需要说明的是,预设次数可以根据实际应用进行设置,通常情况下,预设次数设为1,则待处理文本中出现次数大于预设次数的由至少两个连续汉字组成的词组指的是:待处理文本中出现次数大于1次的至少两个连续汉字组成的词组,当获得的词组是待处理文本中出现次数大于1次的至少两个连续汉字组成的词组时,说明该词组是待处理文本中出现过的词组,因此以文字结尾的行与该行的下一行是被割裂开的,原本应当是属于同一段落的,因此将该行与该行的下一行进行合并。
可选地,当获得的词组不存在于词组集合中,还包括:
步骤107、获取待处理文本中最长的行长度作为待处理文本的显示宽度。
步骤108、获取以文字结尾的行的行长度与待处理文本的显示宽度之间的差值绝对值。
步骤109、当获得的差值绝对值小于预设长度,将以文字结尾的行与该行的下一行合并在同一个段落中。
可选地,行长度表示为以预设字体类型和预设字体大小进行文字显示时所显示的字数。
本发明实施例还提供一种文本处理方法,假设待处理文本行的内容如下表1所示,
Figure BDA0001921877510000051
Figure BDA0001921877510000061
表1
假设待处理文本的显示宽度为以字体类型为楷体、字号大小为四号进行文字显示时所显示的27个字,预设长度为以字体类型为楷体、字号大小为四号进行文字显示时所显示的3个字。由于第一行、第二行和第三行不属于非本段落结尾的情况,因此第一行、第二行和第三行均是一段落;第四行显示25个字,比显示宽度少两个字,因此第四行和第五行属于同一段落;第五行是以顿号结尾的,因此第五行和第六行属于同一段落;第六行、第七行、第八行显示27个字,与显示宽度相同,因此第六行、第七行和第八行属于同一段落;第九行是以句号结尾的且没有前引号,因此第九行和第十行不属于同一段落,第九行属于上一段落,第十行属于下一段落;第十行显示25个字,比显示宽度少两个字,因此第十行和第十一行属于同一段落;第十一行显示27个字,与显示宽度相同,因此第十一行与第十二行属于同一段落;第十二行以句号结尾,但只存在前引号,因此第十二行与第十三行属于同一段落,因此待处理文本划分为五个段落,所划分的五个段落可以如下表2所示,
Figure BDA0001921877510000062
Figure BDA0001921877510000071
表2
本发明实施例提供一种服务器,如图2所示,该服务器2包括:
获取模块21,用于按行获取待处理文本的内容。
处理模块22,用于当待处理文本中存在以非结束符号结尾的行,将以非结束符号结尾的行与该行的下一行合并在同一个段落中;其中,非结束符号是表示语句未结束的符号。
可选地,当待处理文本中存在以结束符号结尾且只包含前引号不包含后引号的行;其中,结束符合是标识语句结束的符号,处理模块22,还用于将以结束符号结尾且只包含前引号不包含后引号的行与该行的下一行合并在同一个段落中。
可选地,非结束符号集合包括:逗号、顿号和前引号。
结束符号结合包括:句号加后引号、问号加后引号、句号、感叹号和问号。
可选地,当待处理文本中存在以文字结尾的行,获取模块21还用于获取由以文字结尾的行的末尾文字和该行的下一行的开头文字组成的词组。
处理模块22还用于:
判断获得的词组是否存在于预先建立的词组集合中。
当获得的词组存在于词组集合中,将以文字结尾的行与该行的下一行合并在同一个段落中。
可选地,词组集合包括:从预先指定的词典中获得的词组以及待处理文本中出现次数大于预设次数的由至少两个连续汉字组成的词组。
可选地,当获得的词组不存在于词组集合中,获取模块21还用于:
获取待处理文本中最长的行长度作为待处理文本的显示宽度。
获取以文字结尾的行的行长度与待处理文本的显示宽度之间的差值绝对值。
处理模块22,还用于当获得的差值绝对值小于预设长度,将以文字结尾的行与该行的下一行合并在同一个段落中。
可选地,行长度表示为以预设字体类型和预设字体大小进行文字显示时所显示的字数。
本发明实施例所提供的服务器,按行获取待处理文本的内容;当待处理文本中存在以非结束符号结尾的行,将以非结束符号结尾的行与该行的下一行合并在同一个段落中;其中,非结束符号是表示语句未结束的符号。从本发明实施例提供的技术方案可见,由于以表示语句未结束的符号(即非结束符号)结尾的行与该行的下一行应该是同属一个段落,因此当服务器确定存在以非结束符号结尾的行时,会将该行与该行的下一行合并在同一段落中,从而对文本中原本属于同一段落但却分散在不同行显示的内容进行了段落合并,保证了后续基于段落的文本处理任务的顺利进行。
在实际应用中,所述获取模块21和处理模块22位于服务器中的中央处理器(Central Processing Unit,CPU)、微处理器(Micro Processor Unit,MPU)、数字信号处理器(Digital Signal Processor,DSP)或现场可编程门阵列(Field Programmable GateArray,FPGA)等实现。
本发明实施例还提供一种文本处理装置,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的命令:
按行获取待处理文本的内容。
当待处理文本中存在以非结束符号结尾的行,将以非结束符号结尾的行与该行的下一行合并在同一个段落中;其中,非结束符号是表示语句未结束的符号。
可选地,当待处理文本中存在以结束符号结尾且只包含前引号不包含后引号的行;其中,结束符合是标识语句结束的符号,存储器中还存储有以下可被处理器执行的命令:
将以结束符号结尾且只包含前引号不包含后引号的行与该行的下一行合并在同一个段落中。
可选地,非结束符号集合包括:逗号、顿号和前引号。
结束符号结合包括:句号加后引号、问号加后引号、句号、感叹号和问号。
可选地,当待处理文本中存在以文字结尾的行,储器中还存储有以下可被处理器执行的命令:
获取由以文字结尾的行的末尾文字和该行的下一行的开头文字组成的词组。
判断获得的词组是否存在于预先建立的词组集合中。
当获得的词组存在于词组集合中,将以文字结尾的行与该行的下一行合并在同一个段落中。
可选地,词组集合包括:从预先指定的词典中获得的词组以及待处理文本中出现次数大于预设次数的由至少两个连续汉字组成的词组。
可选地,当获得的词组不存在于词组集合中,储器中还存储有以下可被处理器执行的命令:
获取待处理文本中最长的行长度作为待处理文本的显示宽度。
获取以文字结尾的行的行长度与待处理文本的显示宽度之间的差值绝对值。
当获得的差值绝对值小于预设长度,将以文字结尾的行与该行的下一行合并在同一个段落中。
可选地,行长度表示为以预设字体类型和预设字体大小进行文字显示时所显示的字数。
本发明实施例还提供一种计算机可读存储介质,存储介质上存储有计算机可执行命令,计算机可执行命令用于执行以下步骤:
按行获取待处理文本的内容。
当待处理文本中存在以非结束符号结尾的行,将以非结束符号结尾的行与该行的下一行合并在同一个段落中;其中,非结束符号是表示语句未结束的符号。
可选地,当待处理文本中存在以结束符号结尾且只包含前引号不包含后引号的行;其中,结束符合是标识语句结束的符号,计算机可执行命令还用于执行以下步骤:
将以结束符号结尾且只包含前引号不包含后引号的行与该行的下一行合并在同一个段落中。
可选地,非结束符号集合包括:逗号、顿号和前引号。
结束符号结合包括:句号加后引号、问号加后引号、句号、感叹号和问号。
可选地,当待处理文本中存在以文字结尾的行,计算机可执行命令还用于执行以下步骤:
获取由以文字结尾的行的末尾文字和该行的下一行的开头文字组成的词组。
判断获得的词组是否存在于预先建立的词组集合中。
当获得的词组存在于词组集合中,将以文字结尾的行与该行的下一行合并在同一个段落中。
可选地,词组集合包括:从预先指定的词典中获得的词组以及待处理文本中出现次数大于预设次数的由至少两个连续汉字组成的词组。
可选地,当获得的词组不存在于词组集合中,计算机可执行命令还用于执行以下步骤:
获取待处理文本中最长的行长度作为待处理文本的显示宽度。
获取以文字结尾的行的行长度与待处理文本的显示宽度之间的差值绝对值。
当获得的差值绝对值小于预设长度,将以文字结尾的行与该行的下一行合并在同一个段落中。
可选地,行长度表示为以预设字体类型和预设字体大小进行文字显示时所显示的字数。
虽然本发明实施例所揭露的实施方式如上,但所述的内容仅为便于理解本发明实施例而采用的实施方式,并非用以限定本发明实施例。任何本发明实施例所属领域内的技术人员,在不脱离本发明实施例所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明实施例的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (7)

1.一种文本处理方法,其特征在于,包括:
服务器按行获取待处理文本的内容;
当所述待处理文本中存在以非结束符号结尾的行,将所述以非结束符号结尾的行与该行的下一行合并在同一个段落中;其中,所述非结束符号是表示语句未结束的符号;
当所述待处理文本中存在以文字结尾的行,还包括:
获取由所述以文字结尾的行的末尾文字和该行的下一行的开头文字组成的词组;
判断获得的词组是否存在于预先建立的词组集合中;
当获得的词组存在于所述词组集合中,将所述以文字结尾的行与该行的下一行合并在同一个段落中;
当获得的词组不存在于所述词组集合中,还包括:
获取所述待处理文本中最长的行长度作为所述待处理文本的显示宽度;其中,所述行长度表示为以预设字体类型和预设字体大小进行文字显示时所显示的字数;
获取所述以文字结尾的行的行长度与所述待处理文本的显示宽度之间的差值绝对值;
当获得的差值绝对值小于预设长度,将所述以文字结尾的行与该行的下一行合并在同一个段落中。
2.根据权利要求1所述的文本处理方法,其特征在于,当所述待处理文本中存在以结束符号结尾且只包含前引号不包含后引号的行;其中,所述结束符号是标识语句结束的符号,还包括:
将所述以结束符号结尾且只包含前引号不包含后引号的行与该行的下一行合并在同一个段落中。
3.根据权利要求2所述的文本处理方法,其特征在于,所述非结束符号集合包括:逗号、顿号和前引号;
所述结束符号结合包括:句号加后引号、问号加后引号、句号、感叹号和问号。
4.根据权利要求1所述的文本处理方法,其特征在于,所述词组集合包括:从预先指定的词典中获得的词组以及所述待处理文本中出现次数大于预设次数的由至少两个连续汉字组成的词组。
5.一种服务器,其特征在于,包括:
获取模块,用于按行获取待处理文本的内容;
处理模块,用于当所述待处理文本中存在以非结束符号结尾的行,将所述以非结束符号结尾的行与该行的下一行合并在同一个段落中;其中,所述非结束符号是表示语句未结束的符号;
当待处理文本中存在以文字结尾的行,所述获取模块还用于获取由以文字结尾的行的末尾文字和该行的下一行的开头文字组成的词组;
所述处理模块还用于:
判断获得的词组是否存在于预先建立的词组集合中;
当获得的词组存在于词组集合中,将以文字结尾的行与该行的下一行合并在同一个段落中;
当获得的词组不存在于词组集合中,所述获取模块还用于:
获取待处理文本中最长的行长度作为待处理文本的显示宽度;其中,所述行长度表示为以预设字体类型和预设字体大小进行文字显示时所显示的字数;
获取以文字结尾的行的行长度与待处理文档的显示宽度之间的差值绝对值;
所述处理模块,还用于当获得的差值绝对值小于预设长度,将以文字结尾的行与该行的下一行合并在同一个段落中。
6.一种文本处理装置,其特征在于,包括:处理器和存储器,其中,存储器中存储有以下可被处理器执行的命令:
按行获取待处理文本的内容;
当所述待处理文本中存在以非结束符号结尾的行,将所述以非结束符号结尾的行与该行的下一行合并在同一个段落中;其中,所述非结束符号是表示语句未结束的符号;
当待处理文本中存在以文字结尾的行,储器中还存储有以下可被处理器执行的命令:
获取由以文字结尾的行的末尾文字和该行的下一行的开头文字组成的词组;
判断获得的词组是否存在于预先建立的词组集合中;
当获得的词组存在于词组集合中,将以文字结尾的行与该行的下一行合并在同一个段落中;
当获得的词组不存在于词组集合中,储器中还存储有以下可被处理器执行的命令:
获取待处理文本中最长的行长度作为待处理文本的显示宽度;其中,所述行长度表示为以预设字体类型和预设字体大小进行文字显示时所显示的字数;
获取以文字结尾的行的行长度与待处理文档的显示宽度之间的差值绝对值;
当获得的差值绝对值小于预设长度,将以文字结尾的行与该行的下一行合并在同一个段落中。
7.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机可执行命令,所述计算机可执行命令用于执行以下步骤:
按行获取待处理文本的内容;
当所述待处理文本中存在以非结束符号结尾的行,将所述以非结束符号结尾的行与该行的下一行合并在同一个段落中;其中,所述非结束符号是表示语句未结束的符号;
当待处理文本中存在以文字结尾的行,所述计算机可执行命令还用于执行以下步骤:
获取由以文字结尾的行的末尾文字和该行的下一行的开头文字组成的词组;
判断获得的词组是否存在于预先建立的词组集合中;
当获得的词组存在于词组集合中,将以文字结尾的行与该行的下一行合并在同一个段落中;
当获得的词组不存在于词组集合中,所述计算机可执行命令还用于执行以下步骤:
获取待处理文本中最长的行长度作为待处理文本的显示宽度;其中,所述行长度表示为以预设字体类型和预设字体大小进行文字显示时所显示的字数;
获取以文字结尾的行的行长度与待处理文档的显示宽度之间的差值绝对值;
当获得的差值绝对值小于预设长度,将以文字结尾的行与该行的下一行合并在同一个段落中。
CN201811598576.7A 2018-12-26 2018-12-26 一种文本处理方法、装置及计算机可读存储介质 Active CN109783810B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811598576.7A CN109783810B (zh) 2018-12-26 2018-12-26 一种文本处理方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811598576.7A CN109783810B (zh) 2018-12-26 2018-12-26 一种文本处理方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109783810A CN109783810A (zh) 2019-05-21
CN109783810B true CN109783810B (zh) 2022-11-11

Family

ID=66498370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811598576.7A Active CN109783810B (zh) 2018-12-26 2018-12-26 一种文本处理方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109783810B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377885B (zh) * 2019-06-14 2023-09-26 北京百度网讯科技有限公司 转换pdf文件的方法、装置、设备和计算机存储介质
CN110348012B (zh) * 2019-07-01 2022-12-09 北京明略软件系统有限公司 确定目标字符的方法、装置、存储介质及电子装置
CN113868282A (zh) * 2021-08-06 2021-12-31 安徽希施玛数据科技有限公司 数据处理方法及装置、终端及计算机可读存储介质
CN114495147B (zh) * 2022-01-25 2023-05-05 北京百度网讯科技有限公司 识别方法、装置、设备以及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479215A (zh) * 2010-11-30 2012-05-30 汉王科技股份有限公司 文件自动导出的方法及电子阅读装置
CN102508850A (zh) * 2011-09-29 2012-06-20 用友软件股份有限公司 表单数据处理装置和表单数据处理方法
WO2014176903A1 (zh) * 2013-05-02 2014-11-06 腾讯科技(深圳)有限公司 文本处理方法及移动终端
CN106873925A (zh) * 2015-12-10 2017-06-20 北京国双科技有限公司 标签文本的显示方法及装置
CN108109636A (zh) * 2017-12-28 2018-06-01 百度在线网络技术(北京)有限公司 基于文本的语音播放方法、装置、计算机设备和存储介质
CN108460121A (zh) * 2018-01-22 2018-08-28 重庆邮电大学 智慧城市中时空数据小文件合并方法
CN109062889A (zh) * 2018-06-27 2018-12-21 北京明略软件系统有限公司 一种文本标注方法和装置、计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479215A (zh) * 2010-11-30 2012-05-30 汉王科技股份有限公司 文件自动导出的方法及电子阅读装置
CN102508850A (zh) * 2011-09-29 2012-06-20 用友软件股份有限公司 表单数据处理装置和表单数据处理方法
WO2014176903A1 (zh) * 2013-05-02 2014-11-06 腾讯科技(深圳)有限公司 文本处理方法及移动终端
CN106873925A (zh) * 2015-12-10 2017-06-20 北京国双科技有限公司 标签文本的显示方法及装置
CN108109636A (zh) * 2017-12-28 2018-06-01 百度在线网络技术(北京)有限公司 基于文本的语音播放方法、装置、计算机设备和存储介质
CN108460121A (zh) * 2018-01-22 2018-08-28 重庆邮电大学 智慧城市中时空数据小文件合并方法
CN109062889A (zh) * 2018-06-27 2018-12-21 北京明略软件系统有限公司 一种文本标注方法和装置、计算机可读存储介质

Also Published As

Publication number Publication date
CN109783810A (zh) 2019-05-21

Similar Documents

Publication Publication Date Title
CN109783810B (zh) 一种文本处理方法、装置及计算机可读存储介质
KR102012819B1 (ko) 텍스트 이미지 처리 방법 및 장치
US20220108556A1 (en) Method of comparing documents, electronic device and readable storage medium
CN112882678B (zh) 图文处理方法和展示方法、装置、设备和存储介质
CN103093228A (zh) 一种在自然场景图像中基于连通域的中文检测方法
EP3885962A1 (en) Method and system for extraction of key-terms and synonyms for the key-terms
US10417516B2 (en) System and method for preprocessing images to improve OCR efficacy
US20200364452A1 (en) A heuristic method for analyzing content of an electronic document
CN113642584B (zh) 文字识别方法、装置、设备、存储介质和智能词典笔
US10169650B1 (en) Identification of emphasized text in electronic documents
US20160110900A1 (en) System And Method For Dynamically Combining Images To Display Textual Content In The Form Of An Image
CN101246550A (zh) 图像文字识别方法及装置
Luu et al. A pointwise approach for Vietnamese diacritics restoration
CN109871544B (zh) 基于中文病历的实体识别方法、装置、设备及存储介质
CN104516868A (zh) 一种版面空格的流式还原方法与系统
CN106776527B (zh) 电子书数据的显示方法、装置及终端设备
CN111597302A (zh) 文本事件的获取方法、装置、电子设备及存储介质
CN104156345B (zh) 识别便携文件格式文件中图注的方法和装置
US9342488B2 (en) Terminal, apparatus and method for optimizing the description of text contents in a fixed layout document
US20150331837A1 (en) Text processing method and mobile terminal
CN112765506B (zh) 一种页面文本内容显示方法、装置、设备及存储介质
CN110399877B (zh) 连接字符的光学字符识别
CN109740141A (zh) 一种基于canvas对文本进行排版美化的方法
CN113343636B (zh) 一种设置标注线宽度的方法、装置、电子设备及存储介质
CN113360636B (zh) 一种内容显示方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant