CN106980607B - 段落识别方法、装置和终端设备 - Google Patents

段落识别方法、装置和终端设备 Download PDF

Info

Publication number
CN106980607B
CN106980607B CN201710207492.5A CN201710207492A CN106980607B CN 106980607 B CN106980607 B CN 106980607B CN 201710207492 A CN201710207492 A CN 201710207492A CN 106980607 B CN106980607 B CN 106980607B
Authority
CN
China
Prior art keywords
paragraph
recognition rule
rule
document content
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710207492.5A
Other languages
English (en)
Other versions
CN106980607A (zh
Inventor
孙上斌
成湘均
刘伟平
于刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhangyue Technology Co Ltd
Original Assignee
Zhangyue Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhangyue Technology Co Ltd filed Critical Zhangyue Technology Co Ltd
Priority to CN201710207492.5A priority Critical patent/CN106980607B/zh
Publication of CN106980607A publication Critical patent/CN106980607A/zh
Application granted granted Critical
Publication of CN106980607B publication Critical patent/CN106980607B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification

Abstract

本发明实施例提供了一种段落识别方法、装置和终端设备。其中,段落识别方法包括:通过多种段落识别规则对同一文档内容进行段落识别,其中,所述文档内容包括多个段落;获取各所述段落识别规则对应的识别结果;根据所述识别结果,确定所述文档内容的段落信息。通过本发明实施例,可以准确地确定文档内容的段落信息,提高后续流式排版效率和准确度。

Description

段落识别方法、装置和终端设备
技术领域
本发明实施例涉及文字排版技术领域,特别涉及一种段落识别方法、装置和终端设备。
背景技术
电子书是利用计算机技术将文字、图片、声音、影像等信息内容数字化的出版物。随着互联网技术应用的越来越广泛,传统的纸质阅读方式已逐渐被电子书取代,人们越来越趋向于利用互联网和计算机技术,通过用于阅读电子书的阅读应用下载电子书进行阅读。
目前的电子书多采用流式排版方式,这就需要将版式排版的相关文字页面转换成流式排版页面。如何在这一过程中,对版式排版的文字页面中的段落进行准确识别,成为本领域技术人员亟待解决的问题。
发明内容
本发明的实施例提供一种段落识别方法、装置和终端设备,以解决将版式排版转换为流式排版过程中,无法对版式排版的文字页面中的段落进行准确识别的问题。
根据本发明实施例的一个方面,提供了一种段落识别方法,包括:通过多种段落识别规则对同一文档内容进行段落识别,其中,所述文档内容包括多个段落;获取各所述段落识别规则对应的识别结果;根据所述识别结果,确定所述文档内容的段落信息。
根据本发明实施例的另一方面,还提供一种段落识别装置,包括:识别模块,用于通过多种段落识别规则对同一文档内容进行段落识别,其中,所述文档内容包括多个段落;获取模块,用于获取各所述段落识别规则对应的识别结果;确定模块,用于根据所述识别结果,确定所述文档内容的段落信息。
根据本发明实施例的又一方面,还提供了一种终端设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如上所述的段落识别方法对应的操作。
根据本发明实施例的再一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有:用于通过多种段落识别规则对同一文档内容进行段落识别的可执行指令,其中,所述文档内容包括多个段落;用于获取各所述段落识别规则对应的识别结果的可执行指令;用于根据所述识别结果,确定所述文档内容的段落信息的可执行指令。
根据本发明实施例提供的段落识别方案,通过多种不同的段落识别规则对同一文档内容进行段落识别,进而根据识别结果确定文档内容的段落信息。一方面,通过段落识别规则可以对诸如版式排版等没有段落信息的文字页面中的段落进行识别,获取相应的段落信息,为后续的流式排版提供依据;另一方面,每种段落识别规则对应于一个识别结果,在多种段落识别规则中,有的识别规则准确率较高,有的识别规则准确率较低,可以从中选择准确率较高的识别结果,以准确地确定文档内容的段落信息,提高后续流式排版效率和准确度。
附图说明
图1是根据本发明实施例一的一种段落识别方法的步骤流程图;
图2是根据本发明实施例二的一种段落识别方法的步骤流程图;
图3是图2所示实施例中的一种普通段落的示意图;
图4是图2所示实施例中的一种悬挂段落的示意图;
图5是图2所示实施例中的一种诗歌段落的示意图;
图6是根据本发明实施例三的一种段落识别装置的结构框图;
图7是根据本发明实施例四的一种段落识别装置的结构框图;
图8是根据本发明实施例五的一种终端设备的结构示意图。
具体实施方式
下面结合附图(若干附图中相同的标号表示相同的元素)和实施例,对本发明实施例的具体实施方式作进一步详细说明。以下实施例用于说明本发明,但不用来限制本发明的范围。
本领域技术人员可以理解,本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
实施例一
参照图1,示出了根据本发明实施例一的一种段落识别方法的步骤流程图。
本实施例的段落识别方法包括以下步骤:
步骤S102:通过多种段落识别规则对同一文档内容进行段落识别。
其中,所述文档内容包括多个段落。本发明实施例中,如无特殊说明,文档内容意指诸如版式排版等没有段落信息的文字页面中的内容。版式排版的版面固定,阅读过程中始终以原始编辑版式显示,缩放后不会自动根据页宽进行重新排版。如,利用扫描得到的初始图片稿件制成的PDF文件、固定版式制作的PDF图文与纯文本文件等。
本发明实施例中,多种、多个等意指两个及两个以上。
段落识别规则可以由本领域技术人员根据实际需要选择设置,包括但不限于:普通段落识别规则、悬挂段落识别规则、诗歌段落识别规则中的一个或多个。
对于同一文档内容,如同一本电子书,不同的段落识别规则的识别结果大部分情况下是不同的,需要从中确定识别准确率较高的规则。
步骤S104:获取各段落识别规则对应的识别结果。
其中,识别结果可以为识别的正确率,也可以为识别的错误率;可以为识别出的正确段落的数量,也可以为识别出的错误段落的数量。
步骤S106:根据识别结果,确定文档内容的段落信息。
当识别结果为识别的正确率,或者为识别出的正确段落的数量时,可以从中确定最高的正确率,或者最多的正确段落的数量,将其对应的段落识别规则识别出的段落信息,确定为文档内容的段落信息;当识别结果为识别的错误率,或者为识别出的错误段落的数量时,可以从中确定最低的错误率,或者最少的错误段落的数量,将其对应的段落识别规则识别出的段落信息,确定为文档内容的段落信息。
根据本实施例的段落识别方法,通过多种不同的段落识别规则对同一文档内容进行段落识别,进而根据识别结果确定文档内容的段落信息。一方面,通过段落识别规则可以对诸如版式排版等没有段落信息的文字页面中的段落进行识别,获取相应的段落信息,为后续的流式排版提供依据;另一方面,每种段落识别规则对应于一个识别结果,在多种段落识别规则中,有的识别规则准确率较高,有的识别规则准确率较低,可以从中选择准确率较高的识别结果,以准确地确定文档内容的段落信息,提高后续流式排版效率和准确度。
本实施例的段落识别方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:移动终端、电子书阅读器或台式机等。
实施例二
参照图2,示出了根据本发明实施例二的一种段落识别方法的步骤流程图。
本实施例的段落识别方法包括以下步骤:
步骤S202:获取多种段落识别规则。
其中,多种段落识别规则可以包括普通段落识别规则、悬挂段落识别规则和诗歌段落识别规则中的一个或多个。本实施例中,设定使用的多种段落识别规则包括上述三种。
其中,普通段落识别规则用于按照普通段落的设置识别段落,该设置包括但不限于:段落首行缩进行第一字符量,如两个字符;段落末行最后一个字符与文档边界存在至少一个空格。一种普通段落的示意图如图3所示,图3中的文档内容包括三个部分,第一部分包括第一至第三行;第二部分包括第四至第七行;第三部分包括第八至第九行。可见,第二部分和第三部分都符合普通段落的设置;而第一部分有可能与前一面的最后一部分形成一个普通段落,也可能是不符合普通段落的设置。
悬挂段落识别规则用于按照悬挂段落的设置识别段落,在这种段落格式中,段落的首行文本不加改变,而除首行以外的文本缩进一定的距离。该设置包括但不限于:每个段落中,除首行外,其它每一行都缩进第二字符量(该第二字符量可以与第一字符量相同也可以不同)。更进一步地,还可以包括:多个相邻的段落之间,每个段落的缩进量都相同。一种悬挂段落的示意图如图4所示,图4中的文档内容包括三个部分,第一部分包括第一至第二行;第二部分包括第三至第七行;第三部分包括第八至第九行。可见,第二部分符合悬挂段落的设置,包括两个悬挂段落;而第一部分和第三部分则不符合悬挂段落的设置。
诗歌段落识别规则用于按照诗歌段落的设置识别段落,该设置包括但不限于:每一行为一段落。进一步地,还可以包括:每个段落均缩进第三字符量(该第三字符量通常大于第一和第二字符量)。更进一步地,多个段落之间具有一定的设置规则,如,相邻段落之间字数相等,或者,隔段相等,等等。一种诗歌段落的示意图如图5所示,图5中的文档内容包括三个部分,第一部分包括第一至第四行;第二部分包括第五至第六行;第三部分包括第七至第十行。可见,第一部分和第三部分符合诗歌段落的设置;而第二部分则不符合诗歌段落的设置。
步骤S204:通过多种段落识别规则对同一文档内容进行段落识别。
其中,所述文档内容包括多个段落。
例如,分别使用普通段落识别规则、悬挂段落识别规则和诗歌段落识别规则对图3所示的文档内容进行识别;或者,分别使用普通段落识别规则、悬挂段落识别规则和诗歌段落识别规则对图4所示的文档内容进行识别;或者,分别使用普通段落识别规则、悬挂段落识别规则和诗歌段落识别规则对图5所示的文档内容进行识别。但此仅为举例说明,通常可以以整体电子书为单位进行段落识别。
步骤S206:获取各段落识别规则对应的识别结果。
也即,分别获取普通段落识别规则、悬挂段落识别规则和诗歌段落识别规则对同一文档内容的段落识别结果。
本实施例中,以识别结果为识别出的错误段落的数量为例。也即,本步骤中,获取各段落识别规则识别出的错误段落的数量。
以下,分别对三种段落识别规则的识别过程和识别结果进行说明。
(1)普通段落识别规则
当段落识别规则为普通段落识别规则时,则获取其所识别出的错误段落的数量的实现包括:通过普通段落识别规则,对多个段落中的每个段落的首行是否缩进第一字符量进行判断;获取首行没有缩进第一字符量的第一数量,将第一数量作为普通段落识别规则识别出的错误段落的数量。其中,第一字符量可以由本领域技术人员根据实际需要适当设置,通常可以为两个字符。
例如,使用普通段落识别规则对图3所示文档内容进行段落识别,将因第一部分内容没有首行缩进第一字符量,而获得识别出的错误段落的数量为1的结果;而如果使用普通段落识别规则对图4所示文档内容进行段落识别,将因第二部分的第三行和第六行均没有首行缩进第一字符量,而获得识别出的错误段落的数量为2的结果;而如果使用普通段落规则对图5所示文档内容进行段落识别,将因第一部分和第三部分的八行均没有首行缩进第一字符量,而获得识别出的错误段落的数量为8的结果。
需要说明的是,在使用普通段落规则识别段落时,还可以根据段落结尾情况进行辅助判断,如,在对多个段落中的每个段落的首行是否缩进第一字符量进行判断之后,还判断每个段落的结尾是否与文档边界之间存在至少一个空格,以进一步提高段落识别的准确率。在此情况下,可以获取首行没有缩进第一字符量的第一数量,以及,结尾与文档边界之间不存在空格的第二数量,将第一数量和第二数量之和,作为普通段落识别规则识别出的错误段落的数量。
但在某些段落中,段落结果的末字符与文档边界之间恰好没有空格。对于此种情况,如前所述,将记为一个错误段落。为改善这种情况,进一步地,若当前段落的结尾与文档边界之间不存在空格,则判断当前段落的下一段落的首行是否缩进第一字符量;若是,则修正第二数量。也即,取消之前记为错误段落的标记,从第二数量中减去该种错误段落的数量,以实现错误段落的准确识别和数量计算。
(2)悬挂段落识别规则
当段落识别规则为悬挂段落识别规则时,则获取其识别出的错误段落的数量的实现包括:通过悬挂段落识别规则,判断多个段落中,是否存在在同一个段落中,除首行外,有未缩进第二字符量的行;获取同一段落中存在未缩进第二字符量的行的第三数量,将第三数量作为悬挂段落识别规则识别出的错误段落的数量。其中,第二字符量可以由本领域技术人员根据实际需要适当设置,通常可以大于第一字符量。
例如,使用悬挂段落识别规则对图3所示文档内容进行段落识别,将因全部内容均不符合规则,而获得识别出的错误段落的数量为3的结果;而如果使用悬挂段落识别规则对图4所示文档内容进行段落识别,将因第一部分和第三部分不符合规则,而获得识别出的错误段落的数量为2的结果;而如果使用悬挂段落识别规则对图5所示文档内容进行段落识别,将因全部内容均不符合规则,而获得识别出的错误段落的数量为9的结果。
(3)诗歌段落识别规则
当段落识别规则为诗歌段落识别规则时,则获取其识别出的错误段落的数量的实现包括:通过诗歌段落识别规则,判断多个段落中,是否每个段落均为单行段落;获取不为单行段落的第四数量,将第四数量作为诗歌段落识别规则识别出的错误段落的数量。其中,第三字符量可以由本领域技术人员根据实际需要适当设置,通常可以大于第一和第二字符量。
例如,使用诗歌段落识别规则对图3所示文档内容进行段落识别,将因全部内容均不符合规则,而获得识别出的错误段落的数量为9的结果;而如果使用诗歌段落识别规则对图4所示文档内容进行段落识别,将因全部内容均不符合规则,而获得识别出的错误段落的数量为9的结果;而如果使用诗歌段落识别规则对图5所示文档内容进行段落识别,将因第二部分不符合规则,而获得识别出的错误段落的数量为2的结果。
此外,还可以根据是否缩进第三字符量进行辅助判断,以进一步提高判断的准确率,即,在判断多个段落中,是否每个段落均为单行段落之后,还可以判断每个段落是否缩进第三字符量。在此情况下,可以获取不为单行段落的第四数量,以及,没有缩进第三字符量的第五数量,将第四数量和第五数量之和,作为诗歌段落识别规则识别出的错误段落的数量。
由上可见,针对不同的段落格式,越是与该段落格式贴合的段落识别规则,对其进行段落识别的准确率越高。因此,通过不同的段落识别规则,可以从中确定出与文档内容中的段落格式最为贴合的规则,以实现段落的准确识别,避免单种段落识别规则无法对文档内容进行准确和有效的段落识别的情况。
步骤S208:确定所述识别结果中,段落识别错误数量最少的识别结果。
错误数量越少,说明识别的准确度越高。
步骤S210:使用错误数量最少的识别结果,确定文档内容的段落信息。
需要说明的是,在某些情况下,可能存在相同的识别结果,若错误数量最少的识别结果有相同的多个(至少两个),则需要进一步进行判断。一种可行的方案中,可以先判断是否存在段落识别错误数量最少的至少两个相同的识别结果;若存在,则根据预设的段落识别规则之间的优先级,按照优先级最高的段落识别规则对应的识别结果,确定文档内容的段落信息。
一种可行方案中,优先级从高到低的顺序可以依次为:普通段落识别规则→悬挂段落识别规则→诗歌段落识别规则。
步骤S212:根据确定的文档内容的段落信息,将版式文档内容转换成流式文档内容。
流式排版指对文档包含的文字、数字、表格和图形图像进行特定的版排方式处理,保存后的内容是原始的编辑元素,用户通过电子书阅读应用能查看到编辑后的排版风格,并且可以在不同的缩放比率间自适应版面大小显示。在小屏幕的电子书阅读器上进行放大后,能够对初始版面自动重排,根据屏幕宽度调整段落的换行以适应单页的视野范围。目前的电子书阅读应用所支持的电子书排版多采用流式排版。
因此,本可选步骤中,可以根据确定的文档内容的段落信息,将版式文档内容转换成流式文档内容,以适应电子书阅读应用的排版要求。
根据本实施例的段落识别方法,通过多种不同的段落识别规则对同一文档内容进行段落识别,进而根据识别结果确定文档内容的段落信息。一方面,通过段落识别规则可以对诸如版式排版等没有段落信息的文字页面中的段落进行识别,获取相应的段落信息,为后续的流式排版提供依据;另一方面,每种段落识别规则对应于一个识别结果,在多种段落识别规则中,有的识别规则准确率较高,有的识别规则准确率较低,可以从中选择准确率较高的识别结果,以准确地确定文档内容的段落信息,提高后续流式排版效率和准确度。
本实施例的段落识别方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:移动终端、电子书阅读器或台式机等。
实施例三
参照图6,示出了根据本发明实施例三的一种段落识别装置的结构框图。
本实施例的段落识别装置包括:识别模块302,用于通过多种段落识别规则对同一文档内容进行段落识别,其中,所述文档内容包括多个段落;获取模块304,用于获取各段落识别规则对应的识别结果;确定模块306,用于根据所述识别结果,确定所述文档内容的段落信息。
本实施例的段落识别装置用于实现前述多个方法实施例中相应的段落识别方法,并具有相应的方法实施例的有益效果,在此不再赘述。
实施例四
参照图7,示出了根据本发明实施例四的一种段落识别装置的结构框图。
本实施例的段落识别装置包括:识别模块402,用于通过多种段落识别规则对同一文档内容进行段落识别,其中,所述文档内容包括多个段落;获取模块404,用于获取各段落识别规则对应的识别结果;确定模块406,用于根据所述识别结果,确定所述文档内容的段落信息。
可选地,获取模块404用于获取各段落识别规则识别出的错误段落的数量;确定模块406用于确定识别出的错误段落数量最少的段落识别规则;将确定的段落识别规则所识别的段落信息,确定为所述文档内容的段落信息。
可选地,多种段落识别规则包括普通段落识别规则、悬挂段落识别规则和诗歌段落识别规则中的一个或多个。
可选地,当段落识别规则包括普通段落识别规则时,获取模块404包括:第一识别判断模块4041,用于通过普通段落识别规则,对多个段落中的每个段落的首行是否缩进第一字符量进行判断;第一结果获取模块4042,用于获取首行没有缩进第一字符量的第一数量,将第一数量作为普通段落识别规则识别出的错误段落的数量。
可选地,第一识别判断模块4041还用于在对多个段落中的每个段落的首行是否缩进第一字符量进行判断之后,判断每个段落的结尾是否与文档边界之间存在至少一个空格;第一结果获取模块4042用于获取首行没有缩进第一字符量的第一数量,以及,结尾与文档边界之间不存在空格的第二数量,将第一数量和第二数量之和,作为普通段落识别规则识别出的错误段落的数量。
可选地,第一结果获取模块4042还用于若当前段落的结尾与文档边界之间不存在空格,则判断当前段落的下一段落的首行是否缩进第一字符量;若是,则修正第二数量。
可选地,当段落识别规则包括所述悬挂段落识别规则时,获取模块404包括:第二识别判断模块4043,用于通过悬挂段落识别规则,判断多个段落中,是否存在在同一个段落中,除首行外,有未缩进第二字符量的行;第二结果获取模块4044,用于获取同一段落中存在未缩进第二字符量的行的第三数量,将第三数量作为悬挂段落识别规则识别出的错误段落的数量。
可选地,当段落识别规则包括所述诗歌段落识别规则时,获取模块404包括:第三识别判断模块4045,用于通过诗歌段落识别规则,判断多个段落中,是否每个段落均为单行段落;第三结果获取模块4046,用于获取不为单行段落的第四数量,将第四数量作为诗歌段落识别规则识别出的错误段落的数量。
可选地,第三识别判断模块4045还用于在判断多个段落中,是否每个段落均为单行段落之后,判断每个段落是否缩进第三字符量;第三结果获取模块4046用于获取不为单行段落的第四数量,以及,没有缩进第三字符量的第五数量,将第四数量和第五数量之和,作为诗歌段落识别规则识别出的错误段落的数量。
可选地,确定模块406用于确定识别结果中,段落识别错误数量最少的识别结果;使用错误数量最少的识别结果,确定所述文档内容的段落信息。
可选地,确定模块406还用于在确定识别结果中,段落识别错误数量最少的识别结果之后,判断是否存在段落识别错误数量最少的至少两个相同的识别结果;若存在,则根据预设的段落识别规则之间的优先级,按照优先级最高的段落识别规则对应的识别结果,确定所述文档内容的段落信息。
可选地,所述文档内容为版式文档内容。
可选地,本实施例的段落识别装置还包括:转换模块408,用于根据确定的文档内容的段落信息,将版式文档内容转换成流式文档内容。
本实施例的段落识别装置用于实现前述多个方法实施例中相应的段落识别方法,并具有相应的方法实施例的有益效果,在此不再赘述。
实施例五
参照图8,示出了根据本发明实施例五的一种终端设备的结构示意图。本发明的具体实施例不对该终端设备的具体实现做限定。
如图8所示,该终端设备可以包括处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)505、以及通信总线508。
其中:
处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504用于与其它设备比如应用服务器、段落服务器或其它服务器以及其他终端设备等的网元通信。
处理器502,用于执行程序510,具体可以执行上述段落识别方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。终端设备包括的一个或多个处理器502,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放电子书数据以及程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行以下操作:通过多种段落识别规则对同一文档内容进行段落识别,其中,所述文档内容包括多个段落;获取各段落识别规则对应的识别结果;根据所述识别结果,确定所述文档内容的段落信息。
在一种可选的实施方式中,程序510还用于使得处理器502在获取各所述段落识别规则对应的识别结果时,获取各段落识别规则识别出的错误段落的数量;在根据识别结果,确定文档内容的段落信息时,确定识别出的错误段落数量最少的段落识别规则;将确定的段落识别规则所识别的段落信息,确定为文档内容的段落信息。
在一种可选的实施方式中,多种段落识别规则包括普通段落识别规则、悬挂段落识别规则和诗歌段落识别规则中的一个或多个。
在一种可选的实施方式中,当段落识别规则包括普通段落识别规则时,程序510还用于使得处理器502在获取各所述段落识别规则识别出的错误段落的数量时,通过普通段落识别规则,对多个段落中的每个段落的首行是否缩进第一字符量进行判断;获取首行没有缩进第一字符量的第一数量,将第一数量作为普通段落识别规则识别出的错误段落的数量。
在一种可选的实施方式中,程序510还用于使得处理器502在对多个段落中的每个段落的首行是否缩进第一字符量进行判断之后,判断每个段落的结尾是否与文档边界之间存在至少一个空格;在获取首行没有缩进第一字符量的第一数量,将第一数量作为所述普通段落识别规则识别出的错误段落的数量时,获取首行没有缩进第一字符量的第一数量,以及,结尾与文档边界之间不存在空格的第二数量,将第一数量和第二数量之和,作为普通段落识别规则识别出的错误段落的数量。
在一种可选的实施方式中,程序510还用于使得处理器502在若当前段落的结尾与文档边界之间不存在空格,则判断当前段落的下一段落的首行是否缩进第一字符量;若是,则修正所述第二数量。
在一种可选的实施方式中,当段落识别规则包括悬挂段落识别规则时,程序510还用于使得处理器502在获取各段落识别规则识别出的错误段落的数量时,通过悬挂段落识别规则,判断多个段落中,是否存在在同一个段落中,除首行外,有未缩进第二字符量的行;获取同一段落中存在未缩进第二字符量的行的第三数量,将第三数量作为悬挂段落识别规则识别出的错误段落的数量。
在一种可选的实施方式中,当段落识别规则包括诗歌段落识别规则时,程序510还用于使得处理器502在获取各所述段落识别规则识别出的错误段落的数量时,通过诗歌段落识别规则,判断多个段落中,是否每个段落均为单行段落;获取不为单行段落的第四数量,将第四数量作为诗歌段落识别规则识别出的错误段落的数量。
在一种可选的实施方式中,程序510还用于使得处理器502在判断多个段落中,是否每个段落均为单行段落之后,判断每个段落是否缩进第三字符量;在获取不为单行段落的第四数量,将第四数量作为诗歌段落识别规则识别出的错误段落的数量时,获取不为单行段落的第四数量,以及,没有缩进第三字符量的第五数量,将第四数量和第五数量之和,作为诗歌段落识别规则识别出的错误段落的数量。
在一种可选的实施方式中,程序510还用于使得处理器502在根据识别结果,确定文档内容的段落信息时,确定识别结果中,段落识别错误数量最少的识别结果;使用错误数量最少的识别结果,确定文档内容的段落信息。
在一种可选的实施方式中,程序510还用于使得处理器502在确定所述识别结果中,段落识别错误数量最少的识别结果之后,判断是否存在段落识别错误数量最少的至少两个相同的识别结果;若存在,则根据预设的段落识别规则之间的优先级,按照优先级最高的段落识别规则对应的识别结果,确定文档内容的段落信息。
在一种可选的实施方式中,文档内容为版式文档内容。
在一种可选的实施方式中,程序510还用于使得处理器502根据确定的文档内容的段落信息,将版式文档内容转换成流式文档内容。
根据本实施例的段落识别方法,通过多种不同的段落识别规则对同一文档内容进行段落识别,进而根据识别结果确定文档内容的段落信息。一方面,通过段落识别规则可以对诸如版式排版等没有段落信息的文字页面中的段落进行识别,获取相应的段落信息,为后续的流式排版提供依据;另一方面,每种段落识别规则对应于一个识别结果,在多种段落识别规则中,有的识别规则准确率较高,有的识别规则准确率较低,可以从中选择准确率较高的识别结果,以准确地确定文档内容的段落信息,提高后续流式排版效率和准确度。
需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。

Claims (23)

1.一种段落识别方法,包括:
通过多种段落识别规则对同一文档内容进行段落识别,其中,所述文档内容包括多个段落;
获取各所述段落识别规则识别出的错误段落的数量;
确定识别出的错误段落数量最少的段落识别规则,将确定的所述段落识别规则所识别的段落信息,确定为所述文档内容的段落信息。
2.根据权利要求1所述的方法,其中,所述多种段落识别规则包括普通段落识别规则、悬挂段落识别规则和诗歌段落识别规则中的一个或多个。
3.根据权利要求2所述的方法,其中,当所述段落识别规则包括所述普通段落识别规则时,所述获取各所述段落识别规则识别出的错误段落的数量,包括:
通过所述普通段落识别规则,对所述多个段落中的每个段落的首行是否缩进第一字符量进行判断;
获取首行没有缩进第一字符量的第一数量,将所述第一数量作为所述普通段落识别规则识别出的错误段落的数量。
4.根据权利要求3所述的方法,其中,
在对所述多个段落中的每个段落的首行是否缩进第一字符量进行判断之后,所述方法还包括:判断每个段落的结尾是否与文档边界之间存在至少一个空格;
所述获取首行没有缩进第一字符量的第一数量,将所述第一数量作为所述普通段落识别规则识别出的错误段落的数量,包括:
获取首行没有缩进第一字符量的第一数量,以及,结尾与文档边界之间不存在空格的第二数量,将第一数量和第二数量之和,作为所述普通段落识别规则识别出的错误段落的数量。
5.根据权利要求4所述的方法,其中,所述方法还包括:
若当前段落的结尾与文档边界之间不存在空格,则判断当前段落的下一段落的首行是否缩进第一字符量;
若是,则修正所述第二数量。
6.根据权利要求2所述的方法,其中,当所述段落识别规则包括所述悬挂段落识别规则时,所述获取各所述段落识别规则识别出的错误段落的数量,包括:
通过所述悬挂段落识别规则,判断所述多个段落中,是否存在在同一个段落中,除首行外,有未缩进第二字符量的行;
获取同一段落中存在未缩进第二字符量的行的第三数量,将所述第三数量作为所述悬挂段落识别规则识别出的错误段落的数量。
7.根据权利要求2所述的方法,其中,当所述段落识别规则包括所述诗歌段落识别规则时,所述获取各所述段落识别规则识别出的错误段落的数量,包括:
通过所述诗歌段落识别规则,判断所述多个段落中,是否每个段落均为单行段落;
获取不为单行段落的第四数量,将所述第四数量作为所述诗歌段落识别规则识别出的错误段落的数量。
8.根据权利要求7所述的方法,其中,
在判断所述多个段落中,是否每个段落均为单行段落之后,所述方法还包括:判断每个段落是否缩进第三字符量;
所述获取不为单行段落的第四数量,将所述第四数量作为所述诗歌段落识别规则识别出的错误段落的数量,包括:获取不为单行段落的第四数量,以及,没有缩进第三字符量的第五数量,将所述第四数量和第五数量之和,作为所述诗歌段落识别规则识别出的错误段落的数量。
9.根据权利要求1所述的方法,其中,若所述确定识别出的错误段落数量最少的段落识别规则为多个,则所述将确定的所述段落识别规则所识别的段落信息,确定为所述文档内容的段落信息进一步包括:
根据预设的段落识别规则之间的优先级,将优先级最高的段落识别规则所识别的段落信息,确定为所述文档内容的段落信息。
10.根据权利要求1-9任一项所述的方法,其中,所述文档内容为版式文档内容。
11.根据权利要求10所述的方法,其中,所述方法还包括:
根据确定的所述文档内容的段落信息,将所述版式文档内容转换成流式文档内容。
12.一种段落识别装置,包括:
识别模块,用于通过多种段落识别规则对同一文档内容进行段落识别,其中,所述文档内容包括多个段落;
获取模块,用于获取各所述段落识别规则识别出的错误段落的数量;
确定模块,用于确定识别出的错误段落数量最少的段落识别规则,将确定的所述段落识别规则所识别的段落信息,确定为所述文档内容的段落信息。
13.根据权利要求12所述的装置,其中,所述多种段落识别规则包括普通段落识别规则、悬挂段落识别规则和诗歌段落识别规则中的一个或多个。
14.根据权利要求13所述的装置,其中,当所述段落识别规则包括所述普通段落识别规则时,所述获取模块包括:
第一识别判断模块,用于通过所述普通段落识别规则,对所述多个段落中的每个段落的首行是否缩进第一字符量进行判断;
第一结果获取模块,用于获取首行没有缩进第一字符量的第一数量,将所述第一数量作为所述普通段落识别规则识别出的错误段落的数量。
15.根据权利要求14所述的装置,其中,
所述第一识别判断模块,还用于在对所述多个段落中的每个段落的首行是否缩进第一字符量进行判断之后,判断每个段落的结尾是否与文档边界之间存在至少一个空格;
所述第一结果获取模块,用于获取首行没有缩进第一字符量的第一数量,以及,结尾与文档边界之间不存在空格的第二数量,将第一数量和第二数量之和,作为所述普通段落识别规则识别出的错误段落的数量。
16.根据权利要求15所述的装置,其中,所述第一结果获取模块,还用于若当前段落的结尾与文档边界之间不存在空格,则判断当前段落的下一段落的首行是否缩进第一字符量;若是,则修正所述第二数量。
17.根据权利要求13所述的装置,其中,当所述段落识别规则包括所述悬挂段落识别规则时,所述获取模块包括:
第二识别判断模块,用于通过所述悬挂段落识别规则,判断所述多个段落中,是否存在在同一个段落中,除首行外,有未缩进第二字符量的行;
第二结果获取模块,用于获取同一段落中存在未缩进第二字符量的行的第三数量,将所述第三数量作为所述悬挂段落识别规则识别出的错误段落的数量。
18.根据权利要求13所述的装置,其中,当所述段落识别规则包括所述诗歌段落识别规则时,所述获取模块包括:
第三识别判断模块,用于通过所述诗歌段落识别规则,判断所述多个段落中,是否每个段落均为单行段落;
第三结果获取模块,用于获取不为单行段落的第四数量,将所述第四数量作为所述诗歌段落识别规则识别出的错误段落的数量。
19.根据权利要求18所述的装置,其中,
所述第三识别判断模块,还用于在判断所述多个段落中,是否每个段落均为单行段落之后,判断每个段落是否缩进第三字符量;
所述第三结果获取模块,用于获取不为单行段落的第四数量,以及,没有缩进第三字符量的第五数量,将所述第四数量和第五数量之和,作为所述诗歌段落识别规则识别出的错误段落的数量。
20.根据权利要求12所述的装置,其中,所述确定模块,还用于确定识别出的错误段落数量最少的段落识别规则,若所述确定识别出的错误段落数量最少的段落识别规则为多个,则根据预设的段落识别规则之间的优先级,将优先级最高的段落识别规则所识别的段落信息,确定为所述文档内容的段落信息。
21.根据权利要求12-20任一项所述的装置,其中,所述文档内容为版式文档内容。
22.根据权利要求21所述的装置,其中,所述装置还包括:
转换模块,用于根据确定的所述文档内容的段落信息,将所述版式文档内容转换成流式文档内容。
23.一种终端设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-11中任一项所述的段落识别方法对应的操作。
CN201710207492.5A 2017-03-31 2017-03-31 段落识别方法、装置和终端设备 Active CN106980607B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710207492.5A CN106980607B (zh) 2017-03-31 2017-03-31 段落识别方法、装置和终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710207492.5A CN106980607B (zh) 2017-03-31 2017-03-31 段落识别方法、装置和终端设备

Publications (2)

Publication Number Publication Date
CN106980607A CN106980607A (zh) 2017-07-25
CN106980607B true CN106980607B (zh) 2018-06-22

Family

ID=59339364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710207492.5A Active CN106980607B (zh) 2017-03-31 2017-03-31 段落识别方法、装置和终端设备

Country Status (1)

Country Link
CN (1) CN106980607B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948518B (zh) * 2019-03-18 2023-06-09 武汉汉王大数据技术有限公司 一种基于神经网络的pdf文档内容文本段落聚合的方法
CN110377885B (zh) * 2019-06-14 2023-09-26 北京百度网讯科技有限公司 转换pdf文件的方法、装置、设备和计算机存储介质
CN113743056A (zh) * 2021-09-09 2021-12-03 掌阅科技股份有限公司 基于段落缩进量的文档转换方法、计算设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169493A (zh) * 2011-04-02 2011-08-31 北京奥米时代生物技术有限公司 一种从文献中自动识别实验方案的方法
CN102782702A (zh) * 2010-03-10 2012-11-14 微软公司 在光学字符识别(ocr)过程中的段落识别
CN106326854A (zh) * 2016-08-19 2017-01-11 掌阅科技股份有限公司 一种版式文档段落识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102782702A (zh) * 2010-03-10 2012-11-14 微软公司 在光学字符识别(ocr)过程中的段落识别
CN102169493A (zh) * 2011-04-02 2011-08-31 北京奥米时代生物技术有限公司 一种从文献中自动识别实验方案的方法
CN106326854A (zh) * 2016-08-19 2017-01-11 掌阅科技股份有限公司 一种版式文档段落识别方法

Also Published As

Publication number Publication date
CN106980607A (zh) 2017-07-25

Similar Documents

Publication Publication Date Title
JP6991163B2 (ja) 情報をプッシュする方法及びデバイス
CN106980607B (zh) 段落识别方法、装置和终端设备
CN108984500B (zh) 金额信息的提取方法、终端设备及介质
CN109558479A (zh) 一种规则匹配方法、装置、设备及存储介质
CN106708912B (zh) 垃圾文件识别及管理方法、识别装置、管理装置和终端
CN107844468A (zh) 表格信息跨页识别方法、电子设备及计算机可读存储介质
CN106599324B (zh) 一种cad数据抓取方法
CN109344255B (zh) 标签的填充方法及终端设备
CN109522350A (zh) 一种台账控件解析的方法
CN108153731B (zh) 生僻字处理方法、计算设备及计算机存储介质
JP2015005100A (ja) 情報処理装置、テンプレート生成方法、およびプログラム
CN108921193A (zh) 图片录入方法、服务器及计算机存储介质
CN106358220A (zh) 异常联系人信息的检测方法、装置及系统
CN107949852A (zh) 字符识别装置、字符识别方法及程序
CN108228643A (zh) 一种检索方法及系统
CN106598934B (zh) 电子书数据的显示方法、装置及终端设备
CN109992749A (zh) 一种文字显示方法、装置、电子设备及可读存储介质
JP7272037B2 (ja) 情報処理装置及びプログラム
CN110086922B (zh) 一种通讯录排序方法、设备及存储介质
CN113723065A (zh) 手写批注的展示方法、阅读设备以及计算机存储介质
CN112686000A (zh) 电子书文档的格式转换方法、电子设备及存储介质
CN108133012B (zh) 一种标签设置方法及装置
CN104184780B (zh) 一种业务的推送方法和系统
CN110245337A (zh) 一种生成裁判文书中经审理查明段的方法及装置
JP5834846B2 (ja) 表計算データ処理装置及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Sun Shangbin

Inventor after: Cheng Xiangjun

Inventor after: Liu Weiping

Inventor after: Yu Gang

Inventor before: Sun Shangbin

Inventor before: Yu Gang

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant