CN105630748A - 信息处理设备和信息处理方法 - Google Patents

信息处理设备和信息处理方法 Download PDF

Info

Publication number
CN105630748A
CN105630748A CN201410602515.9A CN201410602515A CN105630748A CN 105630748 A CN105630748 A CN 105630748A CN 201410602515 A CN201410602515 A CN 201410602515A CN 105630748 A CN105630748 A CN 105630748A
Authority
CN
China
Prior art keywords
paragraph
level
barycenter
text
catalogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410602515.9A
Other languages
English (en)
Inventor
杨华
张军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201410602515.9A priority Critical patent/CN105630748A/zh
Publication of CN105630748A publication Critical patent/CN105630748A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供一种信息处理设备、信息处理方法以及电子装置。该信息处理设备包括:预处理单元,用于对按照层级结构布局的待处理文本信息进行预处理以生成可编辑文本;以及目录识别单元,用于根据所述可编辑文本的正文中各个段落的段落特征,对所述可编辑文本的目录中的各个层级进行识别,以生成具有层级结构的目录。根据本公开的信息处理设备、信息处理方法以及电子装置能够针对按照层级结构布局的待处理信息自动生成目录,并且能够基于自动生成的目录实现对正文中段落的层级划分,从而获得具有层级结构的文本格式的待处理信息。

Description

信息处理设备和信息处理方法
技术领域
本发明涉及信息处理领域,尤其涉及一种用于对层级结构布局的文档信息进行处理的信息处理设备、信息处理方法以及电子装置。
背景技术
随着个人计算机和互联网的广泛应用,诸如电子书、电子文章等的电子文档由于其便于保存、检索和携带而越来越受到人们的欢迎。由此,在当前的信息处理领域中,人们越来越关注如何高效率地将纸质文档转换为适合在计算机等电子设备上使用和进一步处理的文本文档。目前,用于转换文本显示的电子文档的设备通常需要手动生成目录,使得从纸质文档到电子文档的转换非常耗时,因此亟需一种能够提高电子文档转换效率的信息处理设备。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于现有技术的上述缺陷,本发明的目的之一是提供一种信息处理设备、信息处理方法以及电子装置,以至少克服现有的问题。
根据本公开的一个方面,提供一种信息处理设备,包括:预处理单元,用于对按照层级结构布局的待处理文本信息进行预处理以生成可编辑文本;以及目录识别单元,用于根据所述可编辑文本的正文中各个段落的段落特征,对所述可编辑文本的目录中的各个层级进行识别,以生成具有层级结构的目录。
根据本公开的另一方面,提供一种信息处理方法,包括:对按照层级结构布局的待处理文本信息进行预处理以生成可编辑文本;以及根据所述可编辑文本的正文中各个段落的段落特征,对所述可编辑文本的目录中的各个层级进行识别,以生成具有层级结构的目录。
根据本公开的另一个方面,还提供了一种电子设备,该电子设备包括如上所述的信息处理设备。
依据本公开的其它方面,还提供了一种使得计算机用作如上所述的信息处理设备的程序。
依据本公开的又一方面,还提供了相应的计算机可读存储介质,该计算机可读存储介质上存储有能够由计算设备执行的计算机程序,该计算机程序在执行时能够使计算设备执行上述信息处理方法。
上述根据本公开实施例的信息处理设备和方法以及电子装置,至少能够获得以下益处之一:能够自动生成目录;提高了文本识别的准确率。
通过以下结合附图对本公开的最佳实施例的详细说明,本公开的这些以及其他优点将更加明显。
附图说明
本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:
图1是示意性地示出根据本公开实施例的信息处理设备的一种示例结构的框图。
图2是示意性地示出图1中的目录识别单元的一种示例结构的框图。
图3是示意性地示出图2中的目录层级识别子单元的一种示例结构的框图。
图4是示意性地示出图3中的遍历模块的示例性操作的示意图。
图5是示意性地示出遍历模块的确定目录层级的具体操作的示意图。
图6是示意性示出待处理信息的目录的一部分的示意图。
图7是示出根据本公开实施例的信息处理设备的另一种示例结构的框图。
图8是示意性地示出图7中的阈值确定单元的一种示例结构的框图。
图9是示意性地示出图8中的聚类子单元的一种示例结构的框图。
图10是示出经聚类子单元聚类后的各组稳定质心之差的分布情况。
图11是示意性地示出图1中的预处理单元的一种示例结构的框图。
图12是示出了根据本公开的校正单元执行校正处理的用户界面的示意图。
图13是示意性示出根据本公开实施例的信息处理方法的流程图。
图14是示出了可用来实现根据本公开实施例的信息处理设备和信息处理方法的一种可能的硬件配置的结构简图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
根据本公开的信息处理设备例如可以对包括文本信息的文档进行处理,以获得文档中的正文信息和目录信息,包括例如目录的层级结构和正文当层级结构。
目前的电子文档在从纸质文档生成的过程中,通常需要手动处理以获得目录的层级结构以及正文的层级结构。
根据本公开,提出一种基于电子文档的正文中包括的段落的段落特征、对电子文档的目录结构进行识别的信息处理设备、信息处理方法和电子装置。
图1是示意性地示出根据本公开实施例的信息处理设备的一种示例结构的框图。
如图1所示,根据本公开的信息处理设备1包括:预处理单元10,用于对按照层级结构布局的待处理信息进行预处理以生成可编辑文本;以及目录识别单元20,用于根据所述可编辑文本的正文中各个段落的段落特征,对所述可编辑文本的目录中的各个层级进行识别,以生成具有层级结构的目录。
根据本公开,按照层级结构布局的待处理信息例如可以是具有章、节、段等层级结构的文档,例如书籍、杂志、论文等文档。根据本公开的实施例,信息处理设备对具有层级结构的文档进行的预处理例如可以包括:将具有层级结构的纸质文档扫描为文本格式的图像(即将纸质文档转换为电子文档),上传扫描的图像,以及通过例如OCR处理(光学字符识别)等字符识别技术对扫描后的图像中的文本类信息进行识别,以获得该文档的可编辑文本。
此外,根据本公开的预处理单元例如还可以通过OCR处理获取进行页面解析,以获得待处理信息中包括的各个页面的页码,并且通过所获取的页码对各个页面进行排序。
通常,具有层级结构的文档信息至少包括目录部分和正文部分。在根据本公开的信息处理设备中,目录识别单元20可以根据可编辑文本中的正文,对可编辑版本中的目录的层级进行识别,以获得具有层级结构的目录。
图2是示意性地示出图1中的目录识别单元的一种示例结构的框图。
如图2所示,目录识别单元20包括:目录页识别子单元201,用于根据可编辑文本的各个页面中是否包含满足第一预定规则的段落来识别第一目录页,并且根据所述第一目录页中段落的段落特征识别其他目录页,以获取所述可编辑文本中的目录和正文;特征量化子单元202,用于提取正文中各个段落的段落特征,并且对所述段落特征进行量化;以及目录层级识别子单元203,用于基于所述段落特征,通过对所述目录中包括的目录行进行遍历,来确定所述目录中包含的目录的层级。
由于目录页中的第一页(以下统称为第一目录页)通常包括特殊字符(诸如“目录”),并且特殊字符所在的位置、字符大小也都具有特定规则,因此可以首先识别第一目录页。然后,基于所有目录页中包含的目录行通常具有相似的段落特征的情况,通过目录页的第一页所包含的目录行的段落特征,对其他目录页进行识别。
根据本公开,在通过预处理单元获得了待处理信息的可编辑文本之后,目录页识别子单元201可以首先识别可编辑文本中的第一目录页。例如,由于整个文档的各个部分的设置顺序通常是:封皮、扉页、目录、正文、扉页、封底。而可编辑文本通常不包括封皮和封底,扉页通常只有有限的几页,因此第一目录页通常出现在整个文档的前几页中。因此,为了提高识别速度,目录页识别子单元201可以仅针对待处理信息中的例如前10页进行识别,以获取包含满足第一预定规则的段落的页面作为可编辑文本中的第一目录页。
第一预定规则例如可以是该段落包含特殊字符“目录”,特殊字符位于该行的中间位置或者该特殊字符采用的字体是所在页面的最大字体等等。
当页面中包含满足例如上述第一预定规则的段落时,目录页识别子单元201可以判断该页面为第一目录页。在识别出第一目录页之后,可以根据第一目录页中各个目录行的段落特征识别出与其具有相似段落特征的、其他的目录行,从而识别出其它的目录页。
在获取了目录页之后,目录页识别子单元201可以基于目录页确定正文,例如可以将可编辑文本中在目录页之后、最后1页之前的页面识别为正文(这是因为,通常对于电子书而言、正文后包含的扉页是1页,用于记录出版信息)。本领域技术人员可以理解,目录页识别子单元201识别正文时设定的位于文档尾部的扉页的数量可以根据实际需要调整。例如也可以将可编辑文本中在目录页之后、最后3页之前的页面识别为正文。
特征量化子单元202可以提取通过目录页识别子单元201获取的正文中各个段落的段落特征,对段落特征进行量化以获得与该段落对应的特征向量。段落特征的特征向量F可以以例如如下形式表示:
F={页位置,字体大小、文本缩进、字数、特殊字符的数量}。
其中,页位置表示该段落位于所在页的位置,例如该段落是否位于其所在页的第一行,如果位于第一行则可记为1,否则可以记为0;字体大小例如可以由通过OCR识别处理获得字符的高度来表示;文本缩进情况可以通过OCR处理定位的每一段第一个字符的位置来确定;字数表示该段落包含的字符的数量;特殊字符可以是“章”、“节”、“课”等字符,可以通过OCR处理确定该段落中是否包含这样的特殊字符以及所包含的特殊字符的数量。
根据本公开的优选实施例,提取的段落特征中还可以包括页码特征,即该段落在所在的页的页码,用于用户在阅读目录时的超链接定位。
在特征量化子单元202提取了正文中的各个段落的段落特征并进行量化之后,可以获得正文中每个段落的特征向量。目录层级识别子单元203基于正文中段落的特征向量,对目录页中的每个目录行进行遍历,以确定目录中包含的目录层级。本领域技术人员可以理解,通过目录层级即可以获得正文中包含的层级,通常正文中包含的层级目录中包含的各层级加上段落这一层级,即正文层级数=目录层级数+1。
当获得了目录层级数从而获得了正文层级数之后,可以基于正文层级数,根据正文中段落的段落特征,对正文中的段落聚类,从而获得分层次的可编辑文本。
图3是示意性地示出图2中的目录层级识别子单元的一种示例结构的框图。
如图3所示,目录层级识别子单元203包括:提取模块2031,用于将所述第一目录页中满足所述第一预定规则的段落下方的第一个目录行作为第1层级标题,并根据所述第1层级标题的段落特征,提取各个目录页中包括的、其他的第1层级标题;以及遍历模块2032,用于根据所有目录页中相邻两个第1层级标题之间含有的段落数,选取具有最大段落数的第1层级标题以及其他任一个第1层级标题作为目标第1层级标题,对每个目标第1层级标题下的各个目录行进行遍历,以确定所述目标第1层级标题下包括的层级数,从而确定所述目录的层级。
通常,紧接满足第一预定规则的段落下方的第一行是目录中具有最高层级的目录行标题,可以称为第1层级标题。根据本公开的目录层级识别子单元203的提取模块2031可以将目录页中满足第一预定规则的段落(例如特殊字符“目录”)下方的第一行作为标准第1层级标题,并提取第1层级标题的段落特征,以根据第1层级标题的段落特征提取所有目录页中包含的第1层级标题。本领域技术人员可以理解,目录页中的所有第1层级标题具有相似的段落特征,因此提取模块2031可以基于标准第1层级标题的段落特征,提取与该标准第1层级标题具有相似或相同段落特征的其他第1层级标题。
由于相同层级的目录行通常具有相同的段落特征(诸如,具有相同的字体大小和文本缩进),因此,根据本公开,在提取目录页中各个目录行的段落特征时,提取模块2031可以仅提取字体大小、文本缩进等特征作为该目录行的段落特征,以减小提取段落特征的计算量。
遍历模块2032在获得了目录页中的所有第1层级标题之后,可以通过遍历每个第1层级标题下的所有目录行(即该第1层级标题与紧随其后的另一第1层级标题之间的目录行),确定每个第1层级标题下包含的层级数,从而据此确定整个目录的层级数。
根据本公开的优选实施例,遍历模块2032从所有第1层级标题中选择具有最多目录行的第1层级标题以及任意其他第1层级标题作为目标第1层级标题进行遍历,而省略对除上述两个目标第1层级标题之外的其他第1层级标题的遍历,以减少遍历模块的计算量。
通常,具有最多目录行的第1层级标题包含的目录的层级数量可能最多,因此遍历具有最多目录行的第1层级标题下的目录航可以确保获取最多的目录层级数。此外,根据本公开,还通过遍历随机选择的其他任一第1层级标题下的目录行,以确保获得的目录的层级数更准确。
遍历模块2032通过对每个目标第1层级标题下的各个目录行进行遍历并且确定每个目录行与当前已经确定的各个目标层级标题是否相似,来确定该目录行对应的层级数,从而确定该目标第1层级标题下包括的层级数,并最终通过针对每个目标第1层级标题确定的层级数来最终确定整个目录的层级。
下面参照图4详细描述遍历模块2032针对每个目标第1层级标题下的各个目录行进行的遍历操作。本领域技术人员可以理解,目录中包含的每个目录行在正文中均有相对应的正文段落。
在开始进行遍历操作之前,遍历模块2032首先可以判断目标第1层级标题下包含的目录行是否为0,当其包含的目录行为0时,可以认为该目标第1层级标题下包括的层级数为1,即仅包括该目标第1层级标题(这有可能会出现在目标第1层级标题是随机选择的第1层级标题的情况下);当目标第1层级标题下包含的目录行不为0时,遍历模块2032可以遍历每个目录行,以对标准第1层级标题下的每个目录行(为便于描述,将其称为比较目录行)进行层级确定操作。
如图4所示,在S1,将该比较目录行对应的层级数(即通过该比较目录行获取的该目标第1层级标题下包含的层级数)的初始值K设置为2,将紧接着位于该目标第1层级标题下方的目录行作为标准第2层级标题。接着进行操作S2。
在S2,确定K+1个标准初始质心并利用标准初始质心对正文中的段落进行迭代聚类以获得标准稳定质心。更具体地,使得K+1个标准初始质心包括:所述目标第1层级标题对应的正文段落、所述标准第2层级标题对应的正文段落以及所述正文中除上述段落之外的其他任一段落。例如,当K=2时,3个标准初始质心分别为:所述目标第1层级标题对应的正文段落、所述标准第2层级标题对应的正文段落以及所述正文中除上述段落之外的其他任一段落。
在S3,确定K+1个比较初始质心并利用比较初始质心对正文中的段落进行迭代聚类以获得K+1个比较稳定质心。更具体地,仅将在S2中确定的标准初始质心中标准第K层级标题对应的正文段落替换为所述比较目录行对应的正文段落。例如,当K为2时,3个比较初始质心分别为:所述目标第1层级标题对应的正文段落、所述比较目录行对应的正文段落以及与标准初始质心中相同的、其他任一段落。然后进行S4。
在S4中,将标准稳定质心与比较稳定质心进行比较,以确定该比较目录行对应的层级数。
根据本公开,利用标准初始质心和比较初始质心分别对正文中的各个段落聚类以获得标准稳定质心和比较稳定质心可以包括,针对K+1个标准初始质心和K+1个比较初始质心分别执行以下操作:基于该初始质心,根据正文中各个段落的段落特征,将正文中的各个段落聚类到K+1个簇中;计算每个簇中包括的各个段落的段落特征平均值,并将该段落特征平均值对应的段落作为新质心;以及基于K+1个新质心,将正文中的各个段落进行聚类,并重复执行确定新质心和聚类的操作,直到新质心不再变化,以将该新质心作为稳定质心。
下面结合图5详细描述遍历模块2032基于标准稳定质心与比较稳定质心的比较结果确定比较目录行对应的层级数K的具体操作。
在S41中,首先确定标准稳定质心与比较稳定质心之差是否大于预定阈值,如果不大于,则执行S42,否则执行S43。
当标准稳定质心与比较稳定质心之差不大于预定阈值时,表明该比较目录行与标准第K层级标题位于同一层级。因此,在S42中,可以将该比较目录行对应的层级数确定为当前的K值。
当标准稳定质心与比较稳定质心之差大于预定阈值时,表明该比较目录行与标准第K层级标题位于不同的层级。因此,在S43中,可以将当前的K值加1,并执行S44。
在S44中,判断执行K+1操作之后的新K值是否等于N+1(其中N为当前针对已经执行了遍历操作的比较目录行确定的层级数中的最大值),如果K等于N+1,说明该比较目录行与当前已经确定了层级的目录行中的各个目录行均不属于同一层级,即该比较目录行是首次出现的第N+1层级的目录行,则可以执行S45,否则,执行S46。
在S45中,可以将比较目录行的层级确定为该新K值(其等于N+1),并且由于该比较目录行是首次出现的第K层级目录行,因此可以将其作为标准第K层级标题,并将其对应的正文中的段落作为用于K=N+1时的标准初始质心。
在S46中,当判断执行K+1操作之后的新K值不等于N+1(即小于N+1),则迭代执行步骤S2、S3、S4(其中S4包括S41至S46)直至确定该比较目录行对应的层级数为止。
下面以图6中示出的部分目录为例,对图4-5示出的、遍历模块2032针对每个比较目录行的层级确定操作进行举例描述,以更清楚地说明遍历模块的遍历操作。
如图6所示,在通过提取模块2031获得了“第1章对象入门”作为第1层级标题、并且由于该第1层级标题具有最多的段数而由遍历模块2031选取作为目标第1层级标题之一的情况下,遍历模块2032首先在S1选取位于“第1章对象入门”紧下方的目录行“1.1抽象的进步”作为标准第2层级标题,并将该比较目录行对应的层级数K的初始值设置为2。
接着,遍历模块2031针对标准第2层级标题紧下方的目录行(即“1.2对象的接口”)进行层级确定操作。
具体地,在S2,确定K+1个标准初始质心,即“第1章对象入门”对应的正文段落、“1.1抽象的进步”对应的正文段落以及在正文中随机选取的任一其他正文段落作为K=2时的3个标准初始质心,利用这3个标准初始质心对正文中的段落进行聚类,从而获得3个标准稳定质心。
在S3,确定K+1个比较初始质心,根据本公开,仅将所述K+1个标准初始质心中、标准第K层级标题对应的正文段落替换为所述比较目录行对应的正文段落,从而构成比较初始质心。因此,“第1章对象入门”对应的正文段落、“1.2对象的接口”对应的正文段落以及上述在正文中随机选取的任一其他正文段落作为K=2时的3个比较初始质心,利用这3个比较初始质心对正文中的段落进行聚类,从而获得3个比较稳定质心。
在S4,将比较稳定质心和标准稳定质心之差与预定阈值进行比较,以确定该比较目录行对应的层级数。
具体地,在S41,将比较稳定质心和标准稳定质心之差与预定阈值进行比较,由于目录行“1.2对象的接口”与目录行“1.1抽象的进步”位于同一层级,因此,以它们作为初始质心获得的稳定质心(分别为比较稳定质心和标准稳定质心)之间的差值是较小的(即小于预定阈值),从而在S42可以将与该比较目录行“1.2对象的接口”对应的层级数确定为K=2,并且结束针对该比较目录行“1.2对象的接口”的层级确定操作。
接着,分别对比较目录行“1.3实现方案的隐藏”、“1.4方案的重复使用”、“1.5继承:重新使用结构”进行层级确定,从而与上述类似可以得到它们对应的层级数均为2。
然后,遍历到比较目录行“1.5.1改善基础类”。
具体地,在S1开始,设置位于目标第1层级标题紧下方的目录行“1.1抽象的进步”作为标准第2层级标题,并将该比较目录行对应的层级数K的初始值设置为2。
接着,在S2,确定标准初始质心并利用标准初始质心进行层级确定操作。本领域技术人员可以理解,由于K=2的情况下选取的标准初始质心都是相同的,因此可以利用之前在针对其他比较目录行进行层级确定操作的S2中获得的标准稳定质心,而省略针对该比较目录行进行的K=2情况下的S2操作。
在S3,确定K+1个比较初始质心,即“第1章对象入门”对应的正文段落、“1.5.1改善基础类”对应的正文段落以及上述在正文中随机选取的任一其他正文段落作为K=2是的3个比较初始质心,利用这3个比较初始质心对正文中的段落进行聚类,从而获得3个比较稳定质心。
在S4、更具体地在S41中,将S2中获得的标准稳定质心和S3中获得的比较稳定质心之差与预定阈值进行比较。
由于比较目录行“1.5.1改善基础类”与目录行“1.1抽象的进步”位于不同层级,因此,以它们作为初始质心获得的稳定质心(分别为比较稳定质心和标准稳定质心)之间的差值是较大的(即大于预定阈值),因此层级确定操作可以进行到S43,即将该比较目录行对应的层级数K执行加1操作(从而K=3),并执行S44。
在S44中,由于遍历位于“1.5.1改善基础类”之前的目录行获得的各个目录行的对应层级数最大值为2(实际上,通过遍历之前的目录行获得的这些目录行的层级数均为2),即N=2,因此当前的K值等于N+1,从而该比较目录行是首次出现的第3层级的目录行,则可以执行S45。
在S45中,将比较目录行“1.5.1改善基础类”对应的层级确定为3,将该比较目录行确定为标准第3层级标题,并将该比较目录行对应的正文段落确定为用于在K=3的情况下执行S2操作时的标准初始质心。
然后,遍历到比较目录行“1.5.2等价与类似关系”。
类似于遍历比较目录行“1.5.1改善基础类”,在S1,设置位于目标第1层级标题紧下方的目录行“1.1抽象的进步”作为标准第2层级标题,并将该比较目录行对应的层级数K的初始值设置为2。
由于之前已经确定了在K=2时的标准稳定质心,因此可以省略S2,而直接进行S3。在S3,确定比较初始质心为:目标第1层级标题(即“第1章对象入门”)对应的正文段落、比较目录行“1.5.2等价与类似关系”对应的正文段落、以及与在进行K=2情况相下的操作S2时使用的、随机选择的正文中的段落,并利用该比较初始质心对正文中的段落进行聚类,以获得比较稳定质心。
在S4,将该比较稳定质心和K=2时的标准稳定质心之差与预定阈值进行比较,以确定该比较目录行对应的层级数。
具体地,在S41,由于该比较目录行与该标准第2层级标题不处于同一层级,因此比较稳定质心与标准稳定质心之差大于预定阈值,从而执行S43的K加1操作,得到新的K值K=3。
在S44,判断新的K值是否等于N+1(其中N值在确定比较目录行“1.5.1改善基础类”的层级被更新为3),由于新K值小于当前的N+1,因此执行S46,即迭代执行步骤S2、S3和S4。
接着,在S2,确定K=3时的K+1个标准初始质心,包括:目标第1层级标题(即“第1章对象入门”)对应的正文段落、标准第2层级标题(即“1.1抽象的进步”)对应的正文段落、标准第3层级标题(即“1.5.1改善基础类”)对应的正文段落以及在正文中随机选取的任一其他正文段落作为K=3时的4个标准初始质心,并利用该标准初始对正文中的段落执行聚类,以获得4个标准稳定质心。
接着,在S3,确定4个比较初始质心,包括目标第1层级标题(即“第1章对象入门”)对应的正文段落、标准第2层级标题(即“1.1抽象的进步”)对应的正文段落、比较目录行(即“1.5.2等价与类似关系”)对应的正文段落以及在正文中随机选取的任一其他正文段落(其与K=3的情况下确定标准初始质心时随机选择的正文段落相同)。并利用该比较初始质心对对正文中的段落执行聚类,以获得4个比较稳定质心。
在S4、更具体地在S41中,将在S3获得的比较稳定质心和在S2获得的标准稳定质心之差与预定阈值进行比较。
由于比较目录行“1.5.2等价与类似关系”与目录行“1.5.1改善基础类”位于同一层级,因此,以它们作为初始质心获得的稳定质心之间的差值小于预定阈值,因此操作可以进行到S42,即将该比较目录行对应的层级数确定为K=3,并且针对比较目录行“1.5.2等价与类似关系”的层级确定操作结束。
然后,遍历操作进行到比较目录行“1.6.1多形对象的互换使用”,具体操作类似于针对比较目录行“1.3实现方案的隐藏”、“1.4方案的重复使用”、“1.5继承:重新使用结构”进行的操作,从而与上述类似可以得到该比较目录行对应的层级数为2。
在针对目标第1层级标题“第一章对象入门”遍历了每个目录行之后,可以得到每个目录行对应的层级数,从而将其中具有最高层级数的目录行的层级数作为该目标第1层级标题下包含的层级数,在图6所示的示例中为3。
根据本公开,上述用于确定各个比较目录行与标准第K层级标题是否位于同一层级的预定阈值例如可以是经验值。根据本公开,还可以以正文中的段落作为训练样本进行聚类以获得预定阈值。
图7是示出根据本公开实施例的信息处理设备的另一种示例结构的框图。
如图7所示,除了与图1的信息处理设备1类似地包括预处理单元10和目录识别单元20之外,信息处理设备2还包括:用于确定所述预定阈值的阈值确定单元30。
图8是示意性地示出图7中的阈值确定单元30的一种示例结构的框图。
如图8所示,阈值确定单元30包括:训练样本获取子单元301,用于获取至少一个具有层级结构的文档的正文作为训练样本,其中所述训练样本的各个段落被分类为m个层级,并提取所述段落的段落特征,其中m为大于等于2的整数;聚类子单元302,用于从所述训练样本的各个段落中选取n个初始质心组,其中每个初始质心组包括m个初始质心,并针对每个初始质心组,根据所述训练样本中各个段落的段落特征与m个初始质心的段落特征,对所述各个段落进行聚类,以获得一组稳定质心,其中n是大于等于2的整数;以及阈值确定子单元303,用于根据n组稳定质心之间的关系确定所述预定阈值。
根据本公开,训练样本获取子单元301可以获取至少一个已知目录结构的文档的正文作为训练样本,并对训练样本中的各个段落提取段落特征。根据本公开,为了通过训练样本获得用于不同层级之间段落的段落特征差值的阈值,训练样本中至少包含2个层级的段落。训练样本获取子单元301提取训练样本中各个段落的段落特征的操作可以是参考图2描述的特征量化子单元201的操作,在此省略其描述。此外,与特征量化子单元201类似地,训练样本获取子单元301也可以对所提取的各个段落的段落特征进行量化,以便于聚类子单元302基于段落特征对训练样本中的段落进行聚类。
聚类子单元302可以从训练样本中选取不同的段落作为初始质心,对训练样本中包含的段落进行聚类并获得相应的稳定质心,根据针对不同的初始质心获得的不同的稳定质心之间的差,确定所述预定阈值。
图9是示意性地示出图8中的聚类子单元302的一种示例结构的框图。
如图9所示,聚类子单元包括:第一选择模块3021,用于从分类到每个层级的段落中选择一个段落作为第一初始质心,从而形成由m个第一初始质心构成的第一初始质心组作为所述初始质心组之一;以及第二选择模块3022,用于针对至少一个层级中的每个层级,将该层级作为目标层级,并且仅将所述m个第一初始质心中、该目标层级对应的正文段落替换为所述训练样本中除了与该目标层级对应的第一初始质心之外的段落作为比较初始质心,从而形成由该比较初始质心以及与除了该目标层级之外的其他层级对应的m-1个第一初始质心构成的比较初始质心组作为所述初始质心组之一。
根据本公开,第一选择模块3021可以在训练样本中所包括的每个层级中任意选择一个属于该层级的段落,例如当训练样本中包括“章”、“节”和“段”三个层级时,第一选择模块3021可以从训练样本中“章”这一层级的段落中任意选择一个作为第一初始质心,从“节”这一层级的段落中任意选择一个作为第一初始质心,以及从“段”这一层级的段落中任意选择一个作为第一初始质心,从而由这三个段落构成的第一初始质心组。
针对每个层级,第二选择模块3032通过改变第一初始质心组中与该层级对应的第一初始质心(例如通过以与该第一初始质心对应的层级不同的层级中的段落替代该第一初始质心,或者以与该第一初始质心对应的层级相同的层级中的段落)而固定其他m-1个第一初始质心,获得其他的初始质心组。
聚类子单元302通过利用不同的初始质心组对训练样本中的段落进行聚类,从而获得与n个初始质心组对应的n个稳定质心组。根据本公开,阈值确定子单元303可以根据n个稳定质心组,更具体地根据第一选择模块3021获得的初始质心组对应的稳定质心组与根据第二选择模块获得的各个初始质心组所对应的稳定质心组之间的差异,确定所述预定阈值。
根据本公开,聚类子单元302利用第一选择模块3021选择的第一初始质心组和第二选择模块选择的比较质心组、对训练样本中的段落进行聚类以获得稳定质心的操作例如可以包括,针对每个包括m个初始质心的初始质心组:
根据训练样本中各个段落的段落特征,将训练样本中的各个段落聚类到m个簇中;计算每个簇中包括的各个段落的段落特征平均值,并将该段落特征平均值对应的段落作为新质心;以及基于m个新质心,将训练样本中的各个段落进行聚类,并重复执行确定新质心和聚类的操作,直到新质心不再变化,以将该新质心作为稳定质心。
阈值确定子单元303被配置为将针对所述第一初始质心组获得的稳定质心组与针对每个比较初始质心组获得的稳定质心组中对应于所述目标层级的稳定质心进行比较,以确定所述预定阈值。
图10示出了聚类子单元聚类后的各组稳定质心之差的分布情况。如图10所示,在通过改变对应于目标层级的第一初始质心而固定其他第一初始质心获得的比较初始质心的情况下,当比较初始质心也位于目标层级时获得的稳定质心与通过第一初始质心组获得稳定质心相比之差△C通常都小于α,而当比较初始质心不在目标层级时获得的稳定质心与通过第一初始质心组获得稳定质心相比之差△C通常都大于α,因此可以将α确定为该预定阈值。
以上详细描述了基于已知目录层级结构的文档信息获取用于确定目录行所在层级的预定阈值的阈值确定单元30。
根据本公开,遍历模块2032可以基于阈值确定单元确定的预定阈值确定目录行所在的层级,以实现对目录行的遍历。
根据本公开的信息处理设备还可以根据目录识别单元识别的层级数,通过聚类将所述可编辑文本的正文中包括的各个段落划分到相应层中,从而实现对整个待处理文本的层级划分,从而最终形成文本形式的电子书。
此外,根据本公开的信息处理设备还可以基于目录页中每个目录行对应的页码信息,与相应的正文页面进行超链接,从而可以通过例如点击目录页跳转到其对应的正文页面。
图11是示意性地示出图1中的预处理单元10的一种示例结构的框图。
如图11所示,预处理单元10还包括:校正单元101,用于根据所述待处理信息对所述可编辑文本进行校正。
图12示出了根据本公开的校正单元101执行校正处理的用户界面U100。如图12所示,在通过预处理单元10的预处理之后可以获得如用户界面U100右侧的可编辑文本信息,从而用户可以根据用户界面U100左侧的、关于该待处理信息的图像信息,通过校正单元101对位于用户界面U100右侧的文本信息进行校正,以提高识别的可编辑文本的正确率。
根据本公开的一个实施例,还提供了一种信息处理方法。下面结合图13来描述信息处理方法的一种示例性处理。
如图13所示,根据本公开的实施例的信息处理方法的处理流程900开始于S1310,然后执行S1320的处理。
在步骤S1320中,对按照层级结构布局的待处理文本信息进行预处理以生成可编辑文本。例如,可以通过执行例如参照图1-12描述的预处理单元10的处理来实现步骤S1320,在此省略其描述。然后执行S1330。
在步骤S1330中,根据所述可编辑文本的正文中各个段落的段落特征,对所述可编辑文本的目录中的各个层级进行识别,以生成具有层级结构的目录。例如,可以通过执行例如参照图1-12描述的目录识别单元20的处理来实现步骤S1330,在此省略其描述。然后执行S1340。
处理流程1300结束于S1340。
根据本公开的实施例,步骤S1320还包括:根据所述待处理信息对所述可编辑文本进行校正。例如,可以通过执行例如参照图11描述的校正单元101的处理来实现对可编辑文本的校正,在此省略其描述。
根据本公开的实施例,步骤S1330还包括:根据所述可编辑文本的各个页面中是否包含满足第一预定规则的段落来识别第一目录页,并且根据所述第一目录页中段落的段落特征识别其他目录页,以获取所述可编辑文本中的目录和正文;提取所述正文中各个段落的段落特征,并且对所述段落特征进行量化;以及基于量化的段落特征,通过对所述目录的目录页中包括的目录行进行遍历,来确定所述目录中包含的目录的层级。例如,可以通过执行例如参照图2描述的目录页识别子单元201和特征量化子单元202的处理来分别实现对可编辑文本的目录页的识别以及对可编辑文本的正文中段落的段落特征的提取和量化,可以通过执行图2-6描述的目录层级识别子单元203的处理来实现对目录中包含的层级的确定,在此省略对其的详细描述。
根据本公开的实施例,对目录中包含的层级的确定的步骤例如可以包括:将所述第一目录页中满足所述第一预定规则的段落下方的第一个目录行作为第1层级标题,并根据所述第1层级标题的段落特征,提取各个目录页中包括的、其他的第1层级标题;以及根据所有目录页中相邻两个第1层级标题之间含有的段数,选取具有最多段数的第1层级标题以及其他任一个第1层级标题作为目标第1层级标题,对每个所述目标第1层级标题下的各个目录行进行遍历,以确定所述目标第1层级标题下包括的层级数,从而确定所述目录的层级。
根据本公开,对每个目标第一层级标题下的各个目录行的遍历操作包括针对每个目标第1层级标题,当所述目标第1层级标题下所具有的段数不为0时,将所述目标第1层级标题紧下方的目录行确定为标准第2层级标题,通过将所述目标第1层级标题下的、除标准第2层级标题之外的各个目录行作为比较目录行、并针对所述每个比较目录行进行如下操作来获得该比较目录行对应的层级数,其中,将该比较目录行对应的层级数K的初始值设置为2:
操作(i),利用包括所述目标第1层级标题对应的正文段落、所述标准第2层级标题对应的正文段落以及所述正文中除上述段落之外的其他任一段落在内的K+1个标准初始质心进行聚类,从而获得K+1个标准稳定质心;
操作(ii),仅将所述K+1个标准初始质心中、标准第K层级标题对应的正文段落替换为所述比较目录行对应的正文段落,从而构成比较初始质心,并利用所述比较初始质心进行聚类,以获得K+1个比较稳定质心;以及
操作(iii),将所述标准稳定质心与所述比较稳定质心之间的差值与预定阈值进行比较,以确定该比较目录行对应的层级数。
根据本公开,在操作(iii)中,如果所述差值不大于所述预定阈值,则将与该比较目录行对应的层级数确定为K;如果所述差值大于所述预定阈值,则将K加1,并判断执行K加1操作之后的K是否等于N+1,其中,N为在针对已经遍历过的目录行获得的层级数中的最大值;如果K等于N+1,则将该比较目录行的层级确定为N+1,并将该比较目录行作为标准第K层级标题,将该目录行对应的正文段落作为K+1个标准初始质心之一,用于执行针对K等于N+1时进行的所述操作(i);否则,迭代执行操作(i)至操作(iii),直到确定该比较目录行对应的层级数,其中,所述遍历模块被配置为基于与每个比较目录行对应的层级数,确定所述目标第1层级标题下包括的层级数。
根据本公开的信息处理方法还可以包括确定所述预定阈值的阈值确定步骤,具体地,包括:获取至少一个具有层级结构的文本信息的正文作为训练样本,其中所述训练样本的各个段落被分类为m个层级,并提取所述段落的段落特征,其中m为大于等于2的整数;从所述训练样本的各个段落中选取n个初始质心组,其中每个初始质心组包括m个初始质心,并针对每个初始质心组,利用该初始质心组对所述训练样本中的各个段落进行聚类,以获得一组稳定质心,其中n是大于等于2的整数;以及根据n组稳定质心之间的关系确定所述预定阈值。例如,可以通过执行例如参照图7-10描述的训练样本获取子单元301、聚类子单元302和阈值确定子单元303的处理来分别实现对上述训练样本获取、聚类以及阈值确定步骤,在此省略对其的详细描述。
更具体地,根据本公开的聚类步骤还可以包括从分类到每个层级的段落中选择一个段落作为第一初始质心,从而形成由m个第一初始质心构成的第一初始质心组作为所述初始质心组之一;以及针对至少一个层级中的每个层级,将该层级作为目标层级,并且仅将所述m个第一初始质心中、该目标层级对应的正文段落替换为所述训练样本中除了与该目标层级对应的第一初始质心之外的任一段落,从而形成比较初始质心组作为所述初始质心组之一。
根据本公开的信息处理方法还包括:将针对所述第一初始质心组获得的稳定质心组与针对每个比较初始质心组获得的稳定质心组中对应于所述目标层级的稳定质心进行比较,以确定所述预定阈值。
与现有技术中相比,根据本公开的信息处理设备和信息处理方法具有至少以下一个优点:通过使用待处理信息的正文中段落的段落特征,能够确定待处理信息的目录的层级,从而自动建立目录,并且能够基于自动生成的目录实现对正文中段落的层级划分,从而获得具有层级结构的文本格式的待处理信息;通过校正单元能够实现对预处理单元生成的可编辑文本的校正,从而提高预处理单元识别的可编辑文本的正确率。
此外,本公开的实施例还提供了一种电子装置,该电子装置被配置包括如上所述的信息处理设备1。该电子装置例如可以是以下设备中的任意一种:手机;计算机;平板电脑;以及个人数字助理等。相应地,该电子装置能够拥有如上所述的信息处理设备的有益效果和优点。
上述根据本公开的实施例的信息处理设备(例如图1-12中所示的信息处理设备)中的各个组成单元、子单元等可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的机器安装构成该软件或固件的程序,该机器在安装有各种程序时,能够执行上述各组成单元、子单元的各种功能。
图14是示出了可用来实现根据本公开的实施例的信息处理设备和信息处理方法的一种可能的处理设备的硬件配置的结构简图。
在图14中,中央处理单元(CPU)1401根据只读存储器(ROM)1402中存储的程序或从存储部分1408加载到随机存取存储器(RAM)1403的程序执行各种处理。在RAM1403中,还根据需要存储当CPU1401执行各种处理等等时所需的数据。CPU1401、ROM1402和RAM1403经由总线1404彼此连接。输入/输出接口1405也连接到总线1404。
下述部件也连接到输入/输出接口1405:输入部分1406(包括键盘、鼠标等等)、输出部分1407(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1408(包括硬盘等)、通信部分1409(包括网络接口卡例如LAN卡、调制解调器等)。通信部分1409经由网络例如因特网执行通信处理。根据需要,驱动器1410也可连接到输入/输出接口1405。可拆卸介质1411例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器1410上,使得从中读出的计算机程序可根据需要被安装到存储部分1408中。
在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从存储介质例如可拆卸介质1411安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图14所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1411。可拆卸介质1411的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM1402、存储部分1408中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
此外,本公开还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时,可执行上述根据本公开的实施例的图像处理方法。相应地,用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本公开的公开中。
在上面对本公开具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
此外,本公开的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本公开的技术范围构成限制。
此外,显然,根据本公开的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本公开的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。
此时,只要该系统或者设备具有执行程序的功能,则本公开的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
另外,客户图像处理终端通过连接到因特网上的相应网站,并且将依据本公开的计算机程序代码下载和安装到图像处理终端中然后执行该程序,也可以实现本公开的各实施例。
综上,在根据本公开的实施例中,本公开提供了如下方案,但不限于此:
方案1、一种信息处理设备,包括:
预处理单元,用于对按照层级结构布局的待处理文本信息进行预处理以生成可编辑文本;以及
目录识别单元,用于根据所述可编辑文本的正文中各个段落的段落特征,对所述可编辑文本的目录中的各个层级进行识别,以生成具有层级结构的目录。
方案2、如方案1所述的信息处理设备,其中,所述目录识别单元包括:
目录页识别子单元,用于根据所述可编辑文本的各个页面中是否包含满足第一预定规则的段落来识别第一目录页,并且根据所述第一目录页中段落的段落特征识别其他目录页,以获取所述可编辑文本中的目录和正文;
特征量化子单元,用于提取所述正文中各个段落的段落特征,并且对所述段落特征进行量化;以及
目录层级识别子单元,用于基于量化的段落特征,通过对所述目录的目录页中包括的目录行进行遍历,来确定所述目录中包含的目录的层级。
方案3、如方案2所述的信息处理设备,其中,所述目录层级识别子单元包括:
提取模块,用于将所述第一目录页中满足所述第一预定规则的段落下方的第一个目录行作为第1层级标题,并根据所述第1层级标题的段落特征,提取各个目录页中包括的、其他的第1层级标题;以及
遍历模块,用于根据所有目录页中相邻两个第1层级标题之间含有的段数,选取具有最多段数的第1层级标题以及其他任一个第1层级标题作为目标第1层级标题,对每个所述目标第1层级标题下的各个目录行进行遍历,以确定所述目标第1层级标题下包括的层级数,从而确定所述目录的层级。
方案4、如方案3所述的信息处理设备,其中,所述遍历模块被配置为针对每个目标第1层级标题,当所述目标第1层级标题下所具有的段数不为0时,将所述目标第1层级标题紧下方的目录行确定为标准第2层级标题,通过将所述目标第1层级标题下的、除标准第2层级标题之外的各个目录行作为比较目录行、并针对所述每个比较目录行进行如下操作来获得该比较目录行对应的层级数,其中,将该比较目录行对应的层级数K的初始值设置为2:
操作(i),利用包括所述目标第1层级标题对应的正文段落、所述标准第2层级标题对应的正文段落以及所述正文中除上述段落之外的其他任一段落在内的K+1个标准初始质心进行聚类,从而获得K+1个标准稳定质心;
操作(ii),仅将所述K+1个标准初始质心中、标准第K层级标题对应的正文段落替换为所述比较目录行对应的正文段落,从而构成比较初始质心,并利用所述比较初始质心进行聚类,以获得K+1个比较稳定质心;以及
操作(iii),将所述标准稳定质心与所述比较稳定质心之间的差值与预定阈值进行比较,以确定该比较目录行对应的层级数。
方案5、如方案4所述的信息处理设备,其中,在操作(iii)中,
如果所述差值不大于所述预定阈值,则将与该比较目录行对应的层级数确定为K;
如果所述差值大于所述预定阈值,则将K加1,并判断执行K加1操作之后的K是否等于N+1,其中,N为在针对已经遍历过的目录行获得的层级数中的最大值:
如果K等于N+1,则将该比较目录行的层级确定为N+1,并将该比较目录行作为标准第K层级标题,将该目录行对应的正文段落作为K+1个标准初始质心之一,用于执行针对K等于N+1时进行的所述操作(i);
否则,迭代执行操作(i)至操作(iii),直到确定该比较目录行对应的层级数,
其中,所述遍历模块被配置为基于与每个比较目录行对应的层级数,确定所述目标第1层级标题下包括的层级数。
方案6、如方案5所述的信息处理设备,其中,所述信息处理设备还包括用于确定所述预定阈值的阈值确定单元,所述阈值确定单元包括:
训练样本获取子单元,用于获取至少一个具有层级结构的文本信息的正文作为训练样本,其中所述训练样本的各个段落被分类为m个层级,并提取所述段落的段落特征,其中m为大于等于2的整数;
聚类子单元,用于从所述训练样本的各个段落中选取n个初始质心组,其中每个初始质心组包括m个初始质心,并针对每个初始质心组,利用该初始质心组对所述训练样本中的各个段落进行聚类,以获得一组稳定质心,其中n是大于等于2的整数;以及
阈值确定子单元,用于根据n组稳定质心之间的关系确定所述预定阈值。
方案7、如方案6所述的信息处理设备,其中所述聚类子单元包括:
第一选择模块,用于从分类到每个层级的段落中选择一个段落作为第一初始质心,从而形成由m个第一初始质心构成的第一初始质心组作为所述初始质心组之一;以及
第二选择模块,用于针对至少一个层级中的每个层级,将该层级作为目标层级,并且从所述训练样本中除了与该目标层级对应的第一初始质心之外的其他该目标层级的段落中,任意选取一个段落作为比较初始质心,从而形成由该比较初始质心以及与除了该目标层级之外的其他层级对应的m-1个第一初始质心构成的比较初始质心组作为所述初始质心组之一。
方案8、如方案7所述的信息处理设备,其中
所述阈值确定子单元被配置为将针对所述第一初始质心组获得的稳定质心组与针对每个比较初始质心组获得的稳定质心组中对应于所述目标层级的稳定质心进行比较,以确定所述预定阈值。
方案9、如方案1-8中任一项所述的信息处理设备,还包括:校正单元,用于根据所述待处理信息对所述可编辑文本进行校正。
方案10、一种信息处理方法,包括:
对按照层级结构布局的待处理文本信息进行预处理以生成可编辑文本;以及
根据所述可编辑文本的正文中各个段落的段落特征,对所述可编辑文本的目录中的各个层级进行识别,以生成具有层级结构的目录。
方案11、如方案10所述的信息处理方法,其中,对所述可编辑文本的目录中的各个层级进行识别包括:
根据所述可编辑文本的各个页面中是否包含满足第一预定规则的段落来识别第一目录页,并且根据所述第一目录页中段落的段落特征识别其他目录页,以获取所述可编辑文本中的目录和正文;
提取所述正文中各个段落的段落特征,并且对所述段落特征进行量化;以及
基于量化的段落特征,通过对所述目录的目录页中包括的目录行进行遍历,来确定所述目录中包含的目录的层级。
方案12、如方案11所述的信息处理方法,其中,确定所述目录中包含的目录的层级包括:
将所述第一目录页中满足所述第一预定规则的段落下方的第一个目录行作为第1层级标题,并根据所述第1层级标题的段落特征,提取各个目录页中包括的、其他的第1层级标题;以及
根据所有目录页中相邻两个第1层级标题之间含有的段数,选取具有最多段数的第1层级标题以及其他任一个第1层级标题作为目标第1层级标题,对每个所述目标第1层级标题下的各个目录行进行遍历,以确定所述目标第1层级标题下包括的层级数,从而确定所述目录的层级。
方案13、如方案12所述的信息处理方法,其中,对各个目录行进行遍历包括:针对每个目标第1层级标题,当所述目标第1层级标题下所具有的段数不为0时,将所述目标第1层级标题紧下方的目录行确定为标准第2层级标题,通过将所述目标第1层级标题下的、除标准第2层级标题之外的各个目录行作为比较目录行、并针对所述每个比较目录行进行如下操作来获得该比较目录行对应的层级数,其中,将该比较目录行对应的层级数K的初始值设置为2:
操作(i),利用包括所述目标第1层级标题对应的正文段落、所述标准第2层级标题对应的正文段落以及所述正文中除上述段落之外的其他任一段落在内的K+1个标准初始质心进行聚类,从而获得K+1个标准稳定质心;
操作(ii),仅将所述K+1个标准初始质心中、标准第K层级标题对应的正文段落替换为所述比较目录行对应的正文段落,从而构成比较初始质心,并利用所述比较初始质心进行聚类,以获得K+1个比较稳定质心;以及
操作(iii),将所述标准稳定质心与所述比较稳定质心之间的差值与预定阈值进行比较,以确定该比较目录行对应的层级数。
方案14、如方案13所述的信息处理方法,其中,在操作(iii)中,
如果所述差值不大于所述预定阈值,则将与该比较目录行对应的层级数确定为K;
如果所述差值大于所述预定阈值,则将K加1,并判断执行K加1操作之后的K是否等于N+1,其中,N为在针对已经遍历过的目录行获得的层级数中的最大值:
如果K等于N+1,则将该比较目录行的层级确定为N+1,并将该比较目录行作为标准第K层级标题,将该目录行对应的正文段落作为K+1个标准初始质心之一,用于执行针对K等于N+1时进行的所述操作(i);
否则,迭代执行操作(i)至操作(iii),直到确定该比较目录行对应的层级数,
其中,基于与每个比较目录行对应的层级数,确定所述目标第1层级标题下包括的层级数。
方案15、如方案14所述的信息处理方法,其中,所述信息处理方法还包括确定所述预定阈值,包括:
获取至少一个具有层级结构的文本信息的正文作为训练样本,其中所述训练样本的各个段落被分类为m个层级,并提取所述段落的段落特征,其中m为大于等于2的整数;
从所述训练样本的各个段落中选取n个初始质心组,其中每个初始质心组包括m个初始质心,并针对每个初始质心组,利用该初始质心组对所述训练样本中的各个段落进行聚类,以获得一组稳定质心,其中n是大于等于2的整数;以及
根据n组稳定质心之间的关系确定所述预定阈值。
方案16、如方案15所述的信息处理方法,其中利用该初始质心组对所述训练样本中的各个段落进行聚类包括:
从分类到每个层级的段落中选择一个段落作为第一初始质心,从而形成由m个第一初始质心构成的第一初始质心组作为所述初始质心组之一;以及
针对至少一个层级中的每个层级,将该层级作为目标层级,并且从所述训练样本中除了与该目标层级对应的第一初始质心之外的其他该目标层级的段落中,任意选取一个段落作为比较初始质心,从而形成由该比较初始质心以及与除了该目标层级之外的其他层级对应的m-1个第一初始质心构成的比较初始质心组作为所述初始质心组之一。
方案17、如方案16所述的信息处理方法,其中根据n组稳定质心之间的关系确定所述预定阈值包括:将针对所述第一初始质心组获得的稳定质心组与针对每个比较初始质心组获得的稳定质心组中对应于所述目标层级的稳定质心进行比较,以确定所述预定阈值。
方案18、一种电子设备,包括根据方案1-9中任一项所述的信息理设备,其中电子设备是手机、计算机、平板电脑、或个人数字助理。
方案19、一种使得计算机用作如方案1-9中任一项所述的信息处理设备的程序。
方案20、一种计算机可读存储介质,其上存储有能够由计算设备执行的计算机程序,该程序使得计算机用作如方案1-9中任一项所述的信息处理设备。
最后,还需要说明的是,在本公开中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
尽管上面已经通过本公开的具体实施例的描述对本公开进行了披露,但是,应该理解,本领域技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开所要求保护的范围内。

Claims (10)

1.一种信息处理设备,包括:
预处理单元,用于对按照层级结构布局的待处理文本信息进行预处理以生成可编辑文本;以及
目录识别单元,用于根据所述可编辑文本的正文中各个段落的段落特征,对所述可编辑文本的目录中的各个层级进行识别,以生成具有层级结构的目录。
2.如权利要求1所述的信息处理设备,其中,所述目录识别单元包括:
目录页识别子单元,用于根据所述可编辑文本的各个页面中是否包含满足第一预定规则的段落来识别第一目录页,并且根据所述第一目录页中段落的段落特征识别其他目录页,以获取所述可编辑文本中的目录和正文;
特征量化子单元,用于提取所述正文中各个段落的段落特征,并且对所述段落特征进行量化;以及
目录层级识别子单元,用于基于量化的段落特征,通过对所述目录的目录页中包括的目录行进行遍历,来确定所述目录中包含的目录的层级。
3.如权利要求2所述的信息处理设备,其中,所述目录层级识别子单元包括:
提取模块,用于将所述第一目录页中满足所述第一预定规则的段落下方的第一个目录行作为第1层级标题,并根据所述第1层级标题的段落特征,提取各个目录页中包括的、其他的第1层级标题;以及
遍历模块,用于根据所有目录页中相邻两个第1层级标题之间含有的段数,选取具有最多段数的第1层级标题以及选取其他任一个第1层级标题作为目标第1层级标题,对每个所述目标第1层级标题下的各个目录行进行遍历,以确定所述目标第1层级标题下包括的层级数,从而确定所述目录的层级。
4.如权利要求3所述的信息处理设备,其中,所述遍历模块被配置为针对每个目标第1层级标题,当所述目标第1层级标题下所具有的段数不为0时,将所述目标第1层级标题紧下方的目录行确定为标准第2层级标题,通过将所述目标第1层级标题下的、除标准第2层级标题之外的各个目录行作为比较目录行、并针对所述每个比较目录行进行如下操作来获得该比较目录行对应的层级数,其中,将该比较目录行对应的层级数K的初始值设置为2:
操作(i),利用包括所述目标第1层级标题对应的正文段落、所述标准第2层级标题对应的正文段落以及所述正文中除上述段落之外的其他任一段落在内的K+1个标准初始质心进行聚类,从而获得K+1个标准稳定质心;
操作(ii),仅将所述K+1个标准初始质心中、标准第K层级标题对应的正文段落替换为所述比较目录行对应的正文段落,从而构成比较初始质心,并利用所述比较初始质心进行聚类,以获得K+1个比较稳定质心;以及
操作(iii),将所述标准稳定质心与所述比较稳定质心之间的差值与预定阈值进行比较,以确定该比较目录行对应的层级数。
5.如权利要求4所述的信息处理设备,其中,在操作(iii)中,
如果所述差值不大于所述预定阈值,则将与该比较目录行对应的层级数确定为K;
如果所述差值大于所述预定阈值,则将K加1,并判断执行K加1操作之后的K是否等于N+1,其中,N为在针对已经遍历过的目录行获得的层级数中的最大值;
如果K等于N+1,则将该比较目录行的层级确定为N+1,并将该比较目录行作为标准第K层级标题,将该目录行对应的正文段落作为K+1个标准初始质心之一,用于执行针对K等于N+1时进行的所述操作(i);
否则,迭代执行操作(i)至操作(iii),直到确定该比较目录行对应的层级数,
其中,所述遍历模块被配置为基于与每个比较目录行对应的层级数,确定所述目标第1层级标题下包括的层级数。
6.如权利要求5所述的信息处理设备,其中,所述信息处理设备还包括用于确定所述预定阈值的阈值确定单元,所述阈值确定单元包括:
训练样本获取子单元,用于获取至少一个具有层级结构的文本信息的正文作为训练样本,其中所述训练样本的各个段落被分类为m个层级,并提取所述段落的段落特征,其中m为大于等于2的整数;
聚类子单元,用于从所述训练样本的各个段落中选取n个初始质心组,其中每个初始质心组包括m个初始质心,并针对每个初始质心组,利用该初始质心组对所述训练样本中的各个段落进行聚类,以获得一组稳定质心,其中n是大于等于2的整数;以及
阈值确定子单元,用于根据n组稳定质心之间的关系确定所述预定阈值。
7.如权利要求6所述的信息处理设备,其中所述聚类子单元包括:
第一选择模块,用于从分类到每个层级的段落中选择一个段落作为第一初始质心,从而形成由m个第一初始质心构成的第一初始质心组作为所述初始质心组之一;以及
第二选择模块,用于针对至少一个层级中的每个层级,将该层级作为目标层级,并且仅将所述第一初始质心组中、该目标层级对应的正文段落替换为所述训练样本中除了与该目标层级对应的第一初始质心之外的任一段落,从而形成比较初始质心组作为所述初始质心组之一。
8.如权利要求7所述的信息处理设备,其中
所述阈值确定子单元被配置为将针对所述第一初始质心组获得的稳定质心组与针对每个比较初始质心组获得的稳定质心组中对应于所述目标层级的稳定质心进行比较,以确定所述预定阈值。
9.如权利要求1-8中任一项所述的信息处理设备,还包括:校正单元,用于根据所述待处理信息对所述可编辑文本进行校正。
10.一种信息处理方法,包括:
对按照层级结构布局的待处理文本信息进行预处理以生成可编辑文本;以及
根据所述可编辑文本的正文中各个段落的段落特征,对所述可编辑文本的目录中的各个层级进行识别,以生成具有层级结构的目录。
CN201410602515.9A 2014-10-31 2014-10-31 信息处理设备和信息处理方法 Pending CN105630748A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410602515.9A CN105630748A (zh) 2014-10-31 2014-10-31 信息处理设备和信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410602515.9A CN105630748A (zh) 2014-10-31 2014-10-31 信息处理设备和信息处理方法

Publications (1)

Publication Number Publication Date
CN105630748A true CN105630748A (zh) 2016-06-01

Family

ID=56045710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410602515.9A Pending CN105630748A (zh) 2014-10-31 2014-10-31 信息处理设备和信息处理方法

Country Status (1)

Country Link
CN (1) CN105630748A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202572A (zh) * 2016-08-18 2016-12-07 广州视睿电子科技有限公司 电子书目录显示方法及装置
CN109670162A (zh) * 2017-10-13 2019-04-23 北大方正集团有限公司 标题的确定方法、装置及终端设备
CN110704573A (zh) * 2019-09-04 2020-01-17 平安科技(深圳)有限公司 目录存储方法、装置、计算机设备及存储介质
CN112016277A (zh) * 2019-05-28 2020-12-01 珠海金山办公软件有限公司 一种格式调整的方法、装置、计算机存储介质及终端
CN112069126A (zh) * 2019-06-11 2020-12-11 珠海金山办公软件有限公司 一种目录生成方法及装置
CN113779235A (zh) * 2021-09-13 2021-12-10 北京市律典通科技有限公司 一种Word文档大纲识别处理方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211344A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 文本信息遍历的快速四维可视化方法
US20080288535A1 (en) * 2005-05-24 2008-11-20 International Business Machines Corporation Method, Apparatus and System for Linking Documents
CN101458680A (zh) * 2008-09-03 2009-06-17 北京大学 一种自动识别数字文档目录的方法及装置
CN102486769A (zh) * 2010-12-02 2012-06-06 北大方正集团有限公司 文档目录处理方法和装置
CN102541929A (zh) * 2010-12-22 2012-07-04 北大方正集团有限公司 提取版式文档目录的方法及装置
EP2739018A1 (en) * 2011-07-26 2014-06-04 ZTE Corporation Keyboard terminal and location method for electronic document thereof

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080288535A1 (en) * 2005-05-24 2008-11-20 International Business Machines Corporation Method, Apparatus and System for Linking Documents
CN101211344A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 文本信息遍历的快速四维可视化方法
CN101458680A (zh) * 2008-09-03 2009-06-17 北京大学 一种自动识别数字文档目录的方法及装置
CN102486769A (zh) * 2010-12-02 2012-06-06 北大方正集团有限公司 文档目录处理方法和装置
CN102541929A (zh) * 2010-12-22 2012-07-04 北大方正集团有限公司 提取版式文档目录的方法及装置
EP2739018A1 (en) * 2011-07-26 2014-06-04 ZTE Corporation Keyboard terminal and location method for electronic document thereof

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
FEDOR VLADIMIROVICH BORISUYK 等: "Adaptation of Hierarchical clustering by areas for automatic construction of electronic catalogue", 《PROCEEDINGS OF THE SPRING/SUMMER YOUNG RESEARCHERS’ COLLOQUIUM ON SOFTWARE ENGINEERING》 *
SHERIF YACOUB 等: "Identification of Document Structure and Table of Content in Magazine", 《EIGHTH INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION (ICDAR"05)》 *
孙萍 等: "基于OCR的电子图书目录自动生成算法的实现", 《现代情报》 *
梁莹 等: "海蓝目录自动识别系统的设计", 《广西科学院学报》 *
陈国光 等: "一个基于规则的图书逻辑结构提取算法", 《计算机工程与应用》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202572A (zh) * 2016-08-18 2016-12-07 广州视睿电子科技有限公司 电子书目录显示方法及装置
CN109670162A (zh) * 2017-10-13 2019-04-23 北大方正集团有限公司 标题的确定方法、装置及终端设备
CN112016277A (zh) * 2019-05-28 2020-12-01 珠海金山办公软件有限公司 一种格式调整的方法、装置、计算机存储介质及终端
CN112069126A (zh) * 2019-06-11 2020-12-11 珠海金山办公软件有限公司 一种目录生成方法及装置
CN110704573A (zh) * 2019-09-04 2020-01-17 平安科技(深圳)有限公司 目录存储方法、装置、计算机设备及存储介质
CN110704573B (zh) * 2019-09-04 2023-12-22 平安科技(深圳)有限公司 目录存储方法、装置、计算机设备及存储介质
CN113779235A (zh) * 2021-09-13 2021-12-10 北京市律典通科技有限公司 一种Word文档大纲识别处理方法及装置
CN113779235B (zh) * 2021-09-13 2024-02-02 北京市律典通科技有限公司 一种Word文档大纲识别处理方法及装置

Similar Documents

Publication Publication Date Title
CN105630748A (zh) 信息处理设备和信息处理方法
US10885323B2 (en) Digital image-based document digitization using a graph model
CN108228825B (zh) 一种基于分词的用户地址数据清洗方法
TWI472933B (zh) 用於文件中之列表重建的方法及電腦程式產品
CN103049458B (zh) 一种修正用户词库的方法和系统
CN102722483A (zh) 用于确定输入法的候选项排序的方法、装置和设备
CN102193993B (zh) 用于确定字符串信息间相似度信息的方法、装置和设备
CN101866418B (zh) 确定文档阅读顺序的方法和设备
CN102971729A (zh) 将可操作属性归于描述个人身份的数据
JP2011150466A (ja) 文字列認識装置、文字列認識プログラムおよび文字列認識方法
CN110413998B (zh) 一种面向电力行业的自适应中文分词方法及其系统、介质
CN112115111A (zh) 一种基于ocr的文档版本管理方法和系统
CN111753535A (zh) 一种专利申请文本的生成方法和装置
CN103577414B (zh) 数据处理方法和设备
US9524354B2 (en) Device, method, and program for processing data with tree structure
CN111104159A (zh) 一种基于程序分析和神经网络的注释定位方法
KR102015454B1 (ko) 문서 자동 편집 방법
JPWO2009087999A1 (ja) 目次構造特定装置
CN105427272A (zh) 图像处理设备、图像处理方法以及电子装置
CN112836497A (zh) 地址纠正方法、装置、电子设备及存储介质
JP4239850B2 (ja) 映像キーワード抽出方法及び装置及びプログラム
US20200311059A1 (en) Multi-layer word search option
CN114116616B (zh) 用于挖掘pdf文件的方法、设备和介质
JP2020160494A (ja) 情報処理装置、文書管理システム及びプログラム
CN110941730B (zh) 基于人脸特征数据偏移的检索方法与装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160601

WD01 Invention patent application deemed withdrawn after publication