CN103164388A

CN103164388A - 一种版式文件中结构化信息获取的方法及装置

Info

Publication number: CN103164388A
Application number: CN201110409463XA
Authority: CN
Inventors: 董宁; 黄文娟; 张保亮
Original assignee: Peking University Founder Group Co Ltd; Beijing Founder Apabi Technology Co Ltd
Current assignee: New Founder Holdings Development Co ltd
Priority date: 2011-12-09
Filing date: 2011-12-09
Publication date: 2013-06-19
Anticipated expiration: 2031-12-09
Also published as: CN103164388B; KR20140053888A; JP2014527660A; EP2790111A1; US20140289274A1; WO2013083067A1; US9773009B2; EP2790111A4; JP5930496B2

Abstract

本发明公开了一种版式文件中结构化信息获取的方法及装置，用以提高版式文件的信息化管理中对版式文件的结构化速度，该方法包括：确定当前目录项对应的起始页码信息，将所述起始页码信息对应页的第一文章内容，按照内容属性信息分割成至少一个块结构字符，在每个块结构字符中查找与所述当前目录项的名称字符匹配的第一块结构字符，并获取所述第一块结构字符在所述第一文章内容中第一位置信息，根据所述第一位置信息获取所述当前目录项的起始位置信息，以及上一目录项的结束位置信息。

Description

一种版式文件中结构化信息获取的方法及装置

技术领域

本发明涉及信息处理技术领域，特别涉及一种版式文件中结构化信息获取的方法及装置。

背景技术

在对图书版式文件的信息化管理中，需对每个图书版式文件进行结构化，获取每个版式文件的结构化信息以形成对应的目录数据。而现有的已形成的图书版式文件的目录数据中，一般只包括每个目录项的名称字符以及每个目录项的起始位置，而并不包括每个目录项的结束位置，以及每个目录项的名称在文章中的具体区域。

可见，现有的图书版式文件的结构化信息并不完整，不能根据现有的目录数据确定每个目录项对应的具体起始及结束位置，从而，不能单独提供图书版式文件的具体目录项的版式和流式阅读，即不能满足多样化阅读的需求。

因此，在对每个图书版式文件进行结构化的过程中，需获取每个版式文件比较完整的结构化信息。一般通过人工对图书版式文件进行结构化，即人工对图书版式文件中每个目录项的文章内容进行阅读分析查看，然后根据查看的文章内容，从中获取所需的结构化数据。在对大量的图书版式文件的信息化管理时，由于人工原因的限制，例如：理解能力或体力，势必会出现一些错误，并且，人工的速度也比较慢。从而，影响了结构化信息获取的正确率以及速度。

发明内容

本发明实施例提供一种版式文件中结构化信息获取的方法及装置，用以提高版式文件的信息化管理中对版式文件的结构化速度。

本发明实施例提供一种版式文件中结构化信息获取的方法，包括：

确定当前目录项对应的起始页码信息；

将所述起始页码信息对应页的第一文章内容，按照内容属性信息分割成至少一个块结构字符；

在每个块结构字符中查找与所述当前目录项的名称字符匹配的第一块结构字符，并获取所述第一块结构字符在所述第一文章内容中第一位置信息；

根据所述第一位置信息获取所述当前目录项的起始位置信息，以及上一目录项的结束位置信息。

本发明实施例提供版式文件中结构化信息获取的装置，包括：

确定单元，用于确定当前目录项对应的起始页码信息；

分割单元，用于将所述起始页码信息对应页的第一文章内容，按照内容属性信息分割成至少一个块结构字符；

匹配单元，用于在每个块结构字符中查找与所述当前目录项的名称字符匹配的第一块结构字符，并获取所述第一块结构字符在所述第一文章内容中第一位置信息；

获取单元，用于根据所述第一位置信息获取所述当前目录项的起始位置信息，以及上一目录项的结束位置信息。

本发明实施例中，将起始页码信息对应页的第一文章内容分割成至少一个块结构字符，并从中查找与当前目录项的名称字符匹配的第一块结构字符，并获取第一块结构字符在所述第一文章内容中第一位置信息，然后，根据第一位置信息确定当前目录项的起始位置信息，以及上一目录项的结束位置信息，这样，只需对特定页的文章内容进行分析和匹配，就可获取到版式文件的结构化信息，从而，加快了对版式文件的结构化速度。

附图说明

图1为本发明实施例中版式文件中结构化信息获取的流程图；

图2为本发明实施例中匹配查找的流程图；

图3为本发明实施例中版式文件的目录数据信息的示意图；

图4为本发明实施例中版式文件的目录数据信息更新后的示意图；

图5为本发明实施例中结构化的版式文件数据信息的示意图；

图6为本发明实施例中版式文件中结构化信息获取的装置的结构图。

具体实施方式

本发明实施例中，对特定页的文章内容进行分析和匹配，就可获取到版式文件的结构化信息，从而，加快了对版式文件的结构化速度。

参见图1，本发明实施例中版式文件中结构化信息获取的过程包括：

步骤101：确定当前目录项对应的起始页码信息。

在对版式文件的信息化管理中，已经加载了版式文件的目录数据信息。其中，目录数据信息包括：目录项的层次关系，目录项的名称字符，目录项对应起始页码。该目录数据信息可已XML文件格式进行描述，或者其他的自定义的TXT文件格式，或EXCEL文件格式进行描述。

这样，将需单独提供版式和流式阅读的具体目录项确定为当前目录项，或者，将目录数据信息中任意一个目录项确定为当前目录项，并从中查找到该当前目录项对应的起始页码。

本发明实施例中，为提高结构化信息获取的正确率，可在确定当前目录项对应的起始页码之前，分析加载的版式文件的目录数据信息的有效性，如：目录的层次关系，以及个目录项的起始页码的有效性等等。

步骤102：将起始页码信息对应页的第一文章内容，按照内容属性信息分割成至少一个块结构字符。

版式文件一般有共同特征，例如文章中的目录文字和文章中的正文文字的字体大小、字体格式差别都比较大，以及目录和正文的第一行距和正文间的第二行距差距也都比较大，因此，本发明实施了中，可根据目录文字和正文文字的字体大小及格式的不同，以及目录和正文间的第一行距与正文间的第二行距的不同，将第一文章内容分割成一个、两个，或多个块结构字符。

因此，内容属性信息包括字符信息以及行距信息。并且，本发明实施例中，块结构字符包括：段结构字符或行结构字符。则可依据目录文字和正文文字的字体大小及格式的不同，以及目录和正文间的第一行距与正文间的第二行距的不同，采用自动成段或自动成行的方式将第一文章内容分割成对应的段结构字符或行结构字符。

步骤103：在每个块结构字符中查找与当前目录项的名称字符匹配的第一块结构字符。

本发明实施例中，可采用设定的匹配模块，在每个块结构字符中查找与当前目录项的名称字符匹配的第一块结构字。匹配模块可以多种多样，从而匹配查找的过程也可以多种多样。

步骤104：获取第一块结构字符在第一文章内容中第一位置信息。

已查找到与当前目录项的名称字符匹配的第一块结构字符，从而可获取第一块结构字符在第一文章内容中第一位置信息。第一位置信息包括：所在页的页码信息，坐标信息，横向的起始线坐标信息，和横向的终止线坐标信息中的一种或多种。

步骤105：根据第一位置信息获取当前目录项的起始位置信息，以及上一目录项的结束位置信息。

一般可将第一位置信息确定当前目录项的起始位置信息，将第一块结构字符的上一个块结构字符的位置信息确定上一目录项的结束位置信息。

但是，当第一位置信息是第一文章内容的结束块结构字符的位置信息时，将起始页码信息对应的后一页的第二文章内容按照字符的属性信息分割成至少一个块结构字符，并根据第一位置信息，以及第二文章内容中起始块结构字符的位置信息，确定当前目录项的起始位置信息，即结合两者的位置信息，确定当前目录项的起始位置信息。

当第一位置信息是第一文章内容的起始块结构字符的位置信息时，将起始页码信息对应的前一页的第三文章内容按照字符的属性信息分割成至少一个块结构字符，并根据第一位置信息，以及第三文章内容的结束块结构字符的位置信息，确定上一目录项的结束位置信息。同样，结合两者的置信息，确定当前目录项的起始位置信息。

至此，当前目录项对应的结构化信息已获取了。此时可更新版式文件的目录数据信息，即本发明实施例还包括：

步骤106：根据当前目录项的起始位置信息，以及上一目录项的结束位置信息更新版式文件的目录数据信息。

这里，可将确定的当前目录项的起始位置信息，以及上一目录项的结束位置信息加入到目录数据信息对应的XML文件中。

本发明实施例中还可待所有目录项对应的结构化信息都获取后，再一次更新版式文件的目录数据信息。

由此可见，只需对以起始页码信息对应页的第一文章内容，或者对起始页码信息对应页的第一文章内容以及起始页码信息对应的后一页的第二文章内容，或者，对起始页码信息对应页的第一文章内容以及起始页码信息对应的前一页的第三文章内容进行分析和匹配，就能获取到目录项对应的结构化信息，即对特定页的文章内容进行分析和匹配，就可获取到版式文件的结构化信息，从而，加快了对版式文件的结构化速度。

上述实施例步骤103中，由于匹配模块可以多种多样，从而在每个块结构字符中查找与当前目录项的名称字符匹配的第一块结构字的匹配查找的过程也可以多种多样。例如：直接在每个块结构字符中查找是否有与当前目录项的名称字符中每个字符都匹配的块结构字符，如果版式文件的质量比较高，依靠此方法即可完成匹配查找的过程。本发明实施例为增加匹配的成功率，还可增加别的匹配模板，具体查找过程参见图2，包括：

步骤201：在每个块结构字符中查找是否有与当前目录项的名称字符中每个字符都匹配的块结构字符，如有，执行步骤204。否则，执行步骤202。

步骤202：利用正则表达式，在每个块结构字符中查找是否有与当前目录项的名称字符匹配的块结构字符，如有，执行步骤204。否则，执行步骤203。

这里，由于步骤201未能满足匹配的要求，可将每个块结构字符以及当前目录项的名称字符中一些影响匹配的字符剔除，例如：空格，修饰符号以及其他可能影响匹配的字符。

然后，将处理后的字符按照设定的正则表达式的方式去匹配，正则表达式是用某种模式去匹配一类字符串的一个公式。利用该公式进行匹配，获得与当前目录项的名称字符匹配的块结构字符。

步骤203：根据逐字符匹配计算每个块结构字符与当前目录项的名称字符之间的匹配度。

例如：一个块结构字符与前目录项的名称字符之中有一半的字符相同，则匹配度为50％。或者，采用其他的比例。

步骤204：匹配度是否大于或等于阈值，若是，执行步骤205，否则，匹配流程失败。其中，可根据各种批次版式文件的排版的实际情况来调整阈值来实现比较高的匹配度。

步骤205：将匹配度对应的块结构字符确定为第一块结构字符。

步骤206：将查找到块结构字符确定为第一块结构字符。

通过以上步骤基本上都能查找到与当前目录项的名称字符匹配的块结构字符。本发明实施例中，在步骤201之前，还需将每个块结构字符以及当前目录项的名称字符统一为全角字符或半角字符，这样，便于后续的匹配查找。

下面结合说明书附图对本发明实施例作进一步详细描述。

本实施例中，版式文件的目录数据信息如图3所示，以当前目录项的名称字符为“第二章无套利原理“为了进行描述，该版式文件的结构化信息获取过程包括：

确定当前目录项对应的起始页码信息为“16“。然后，将第16页中的第一文章内容，按照内容属性信息分割成至少一个块结构字符，并在每个块结构字符中查找与当前目录项的名称字符匹配的第一块结构字符，获取第一块结构字符在第一文章内容中第一位置信息。这里，第一位置信息包括：″ebookPageNum＝″16″left＝″1740″top＝″396″right＝″3016″buttom＝″587″startVerticalPos＝″396″endVerticalPos＝″4082″。

由于第一位置信息是第一文章内容的起始块结构字符的位置信息，因此，还需将第15页中的第三文章内容按照字符的属性信息分割成至少一个块结构字符，并获取第三文章内容的结束块结构字符的位置信息，由于结束块结构字符与当前目录项的名称字符不匹配，因此，该第三文章内容的结束块结构字符的位置信息即为上一目录项的结束位置信息，例如：该信息中包括：ebookEndLPageNum＝15，endvertiempos＝2341等；而第一位置信息即为当前录项的起始位置信息，例如该信息中包括：ebookPageNum＝″16″left＝″1740″top＝″396″right＝″3016″buttom＝″587″startVerticalPos＝″396″endVerticalPos＝″4082″。

对起始页码信息对应的后一页的第二文章内容的分析与匹配过程于此类似，就不再累述了。

根据上述过程，对每个目录项获取结构化信息，最后根据获取的结构化信息对最初的根据版式文件的目录数据信息进行更新，更新后的结构化的目录数据信息如图4所示。

本发明实施例中还可将目录项对应的文章内容信息添加到更新后构化的目录数据信息中对应的目录项下，形成结构化的版式文件数据信息，如图5所示。这样，系统会自动扫描待结构化下的所有版式文件数据信息分别进行章节化的处理并输出，从而可单独提供图书版式文件的具体目录项的版式和流式阅读。

根据上述版式文件中结构化信息获取的方法，可构建一种版式文件中结构化信息获取的装置，参见图6，包括：确定单元100、分割单元200、匹配单元300以及获取单元400，其中，

确定单元100，用于确定当前目录项对应的起始页码信息。

分割单元200，用于将所述起始页码信息对应页的第一文章内容，按照内容属性信息分割成至少一个块结构字符。

匹配单元300，用于在每个块结构字符中查找与当前目录项的名称字符匹配的第一块结构字符，并获取第一块结构字符在第一文章内容中第一位置信息。

获取单元400，用于根据第一位置信息获取当前目录项的起始位置信息，以及上一目录项的结束位置信息。

其中，分割单元200，具体用于根据目录文字和正文文字的字体大小及格式的不同，以及目录和正文间的第一行距与正文间的第二行距的不同，将第一文章内容分割成至少一个块结构字符，其中，块结构字符包括：段结构字符或行结构字符。

匹配单元300，具体用于在每个块结构字符中查找是否有与当前目录项的名称字符中每个字符都匹配的块结构字符，如有，则将查找到的块结构字符确定为第一块结构字符；否则，利用正则表达式，在每个块结构字符中查找是否有与当前目录项的名称字符匹配的块结构字符，如有，则将查找到的块结构字符确定为第一块结构字符；否则，根据逐字符匹配计算每个块结构字符与当前目录项的名称字符之间的匹配度，当匹配度达到设定阈值时，将匹配度对应的块结构字符确定为第一块结构字符。

匹配单元300，还用于将每个块结构字符以及当前目录项的名称字符统一为全角字符或半角字符。

获取单元400，一般可将第一位置信息确定当前目录项的起始位置信息，将第一块结构字符的上一个块结构字符的位置信息确定上一目录项的结束位置信息。

该获取单元400，还具体用于当第一位置信息是第一文章内容的结束块结构字符的位置信息时，将起始页码信息对应的后一页的第二文章内容按照字符的属性信息分割成至少一个块结构字符，并根据第一位置信息，以及第二文章内容中起始块结构字符的位置信息，确定当前目录项的起始位置信息；当第一位置信息是第一文章内容的起始块结构字符的位置信息时，将起始页码信息对应的前一页的第三文章内容按照字符的属性信息分割成至少一个块结构字符，并根据第一位置信息，以及第三文章内容的结束块结构字符的位置信息，确定上一目录项的结束位置信息，

本发明实施例中，只需对特定页的文章内容进行分析和匹配，就可获取到版式文件的结构化信息，从而，加快了对版式文件的结构化速度。

并且在每个块结构字符中查找与当前目录项的名称字符匹配的第一块结构字符使，匹配方式多种多样，一种匹配方式匹配方式未能命中的话还有备选的多种匹配方式，提高匹配查找的成功率。

另外，当在大批量版式文件数据的结构化制作过程中，根据设定的匹配模板进行分析匹配，从而，批量获取分析不需要人工干预，节省了大量的人力。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种版式文件中结构化信息获取的方法，其特征在于，包括：

确定当前目录项对应的起始页码信息；

2.如权利要求1所述的方法，其特征在于，所述按照内容属性信息分割成至少一个块结构字符包括：

根据目录文字和正文文字的字体大小及格式的不同，以及目录和正文间的第一行距与正文间的第二行距的不同，将所述第一文章内容分割成至少一个块结构字符，其中，所述块结构字符包括：段结构字符或行结构字符。

3.如权利要求1所述的方法，其特征在于，所述在每个块结构字符中查找与所述当前目录项的名称字符匹配的第一块结构字符包括：

在每个块结构字符中查找是否有与所述当前目录项的名称字符中每个字符都匹配的块结构字符，如有，则将查找到的块结构字符确定为第一块结构字符；否则，

利用正则表达式，在每个块结构字符中查找是否有与所述当前目录项的名称字符匹配的块结构字符，如有，则将查找到的块结构字符确定为第一块结构字符；否则，

根据逐字符匹配计算每个块结构字符与所述当前目录项的名称字符之间的匹配度，当所述匹配度达到设定阈值时，将所述匹配度对应的块结构字符确定为第一块结构字符。

4.如权利要求3所述的方法，其特征在于，所述在每个块结构字符中查找是否有与所述当前目录项的名称字符中每个字符都匹配的块结构字符之前还包括：

将每个块结构字符以及所述当前目录项的名称字符统一为全角字符或半角字符。

5.如权利要求1所述的方法，其特征在于，所述根据所述第一位置信息获取所述当前目录项的起始位置信息，以及上一目录项的结束位置信息包括：

当所述第一位置信息是所述第一文章内容的结束块结构字符的位置信息时，将所述起始页码信息对应的后一页的第二文章内容按照字符的属性信息分割成至少一个块结构字符，并根据所述第一位置信息，以及所述第二文章内容中起始块结构字符的位置信息，确定所述当前目录项的起始位置信息；

当所述第一位置信息是所述第一文章内容的起始块结构字符的位置信息时，将所述起始页码信息对应的前一页的第三文章内容按照字符的属性信息分割成至少一个块结构字符，并根据所述第一位置信息，以及所述第三文章内容的结束块结构字符的位置信息，确定所述上一目录项的结束位置信息。

6.一种版式文件中结构化信息获取的装置，其特征在于，包括：

确定单元，确定当前目录项对应的起始页码信息；

获取单元，用于根据所述第一位置信息获取所述当前目录项的起始位置信息。

7.如权利要求6所述的装置，其特征在于，

所述分割单元，具体用于根据目录文字和正文文字的字体大小及格式的不同，以及目录和正文间的第一行距与正文间的第二行距的不同，将所述第一文章内容分割成至少一个块结构字符，其中，所述块结构字符包括：段结构字符或行结构字符。

8.如权利要求6所述的装置，其特征在于，

所述匹配单元，具体用于在每个块结构字符中查找是否有与所述当前目录项的名称字符中每个字符都匹配的块结构字符，如有，则将查找到的块结构字符确定为第一块结构字符；否则，利用正则表达式，在每个块结构字符中查找是否有与所述当前目录项的名称字符匹配的块结构字符，如有，则将查找到的块结构字符确定为第一块结构字符；否则，根据逐字符匹配计算每个块结构字符与所述当前目录项的名称字符之间的匹配度，当所述匹配度达到设定阈值时，将所述匹配度对应的块结构字符确定为第一块结构字符。

9.如权利要求8所述的装置，其特征在于，

所述匹配单元，还用于将每个块结构字符以及当前目录项的名称字符统一为全角字符或半角字符。

10.如权利要求9所述的装置，其特征在于，

所述获取单元，具体用于当所述第一位置信息是所述第一文章内容的结束块结构字符的位置信息时，将所述起始页码信息对应的后一页的第二文章内容按照字符的属性信息分割成至少一个块结构字符，并根据所述第一位置信息，以及所述第二文章内容中起始块结构字符的位置信息，确定所述当前目录项的起始位置信息；当所述第一位置信息是所述第一文章内容的起始块结构字符的位置信息时，将所述起始页码信息对应的前一页的第三文章内容按照字符的属性信息分割成至少一个块结构字符，并根据所述第一位置信息，以及所述第三文章内容的结束块结构字符的位置信息，确定所述上一目录项的结束位置信息。