CN103164388A - 一种版式文件中结构化信息获取的方法及装置 - Google Patents

一种版式文件中结构化信息获取的方法及装置 Download PDF

Info

Publication number
CN103164388A
CN103164388A CN201110409463XA CN201110409463A CN103164388A CN 103164388 A CN103164388 A CN 103164388A CN 201110409463X A CN201110409463X A CN 201110409463XA CN 201110409463 A CN201110409463 A CN 201110409463A CN 103164388 A CN103164388 A CN 103164388A
Authority
CN
China
Prior art keywords
character
block structure
information
structure character
article content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201110409463XA
Other languages
English (en)
Other versions
CN103164388B (zh
Inventor
董宁
黄文娟
张保亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201110409463.XA priority Critical patent/CN103164388B/zh
Priority to US14/119,109 priority patent/US9773009B2/en
Priority to KR20137030609A priority patent/KR20140053888A/ko
Priority to PCT/CN2012/086137 priority patent/WO2013083067A1/zh
Priority to EP12855138.9A priority patent/EP2790111A4/en
Priority to JP2014520525A priority patent/JP5930496B2/ja
Publication of CN103164388A publication Critical patent/CN103164388A/zh
Application granted granted Critical
Publication of CN103164388B publication Critical patent/CN103164388B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • G06F16/152File search processing using file content signatures, e.g. hash values
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Fuzzy Systems (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Automation & Control Theory (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种版式文件中结构化信息获取的方法及装置,用以提高版式文件的信息化管理中对版式文件的结构化速度,该方法包括:确定当前目录项对应的起始页码信息,将所述起始页码信息对应页的第一文章内容,按照内容属性信息分割成至少一个块结构字符,在每个块结构字符中查找与所述当前目录项的名称字符匹配的第一块结构字符,并获取所述第一块结构字符在所述第一文章内容中第一位置信息,根据所述第一位置信息获取所述当前目录项的起始位置信息,以及上一目录项的结束位置信息。

Description

一种版式文件中结构化信息获取的方法及装置
技术领域
本发明涉及信息处理技术领域,特别涉及一种版式文件中结构化信息获取的方法及装置。
背景技术
在对图书版式文件的信息化管理中,需对每个图书版式文件进行结构化,获取每个版式文件的结构化信息以形成对应的目录数据。而现有的已形成的图书版式文件的目录数据中,一般只包括每个目录项的名称字符以及每个目录项的起始位置,而并不包括每个目录项的结束位置,以及每个目录项的名称在文章中的具体区域。
可见,现有的图书版式文件的结构化信息并不完整,不能根据现有的目录数据确定每个目录项对应的具体起始及结束位置,从而,不能单独提供图书版式文件的具体目录项的版式和流式阅读,即不能满足多样化阅读的需求。
因此,在对每个图书版式文件进行结构化的过程中,需获取每个版式文件比较完整的结构化信息。一般通过人工对图书版式文件进行结构化,即人工对图书版式文件中每个目录项的文章内容进行阅读分析查看,然后根据查看的文章内容,从中获取所需的结构化数据。在对大量的图书版式文件的信息化管理时,由于人工原因的限制,例如:理解能力或体力,势必会出现一些错误,并且,人工的速度也比较慢。从而,影响了结构化信息获取的正确率以及速度。
发明内容
本发明实施例提供一种版式文件中结构化信息获取的方法及装置,用以提高版式文件的信息化管理中对版式文件的结构化速度。
本发明实施例提供一种版式文件中结构化信息获取的方法,包括:
确定当前目录项对应的起始页码信息;
将所述起始页码信息对应页的第一文章内容,按照内容属性信息分割成至少一个块结构字符;
在每个块结构字符中查找与所述当前目录项的名称字符匹配的第一块结构字符,并获取所述第一块结构字符在所述第一文章内容中第一位置信息;
根据所述第一位置信息获取所述当前目录项的起始位置信息,以及上一目录项的结束位置信息。
本发明实施例提供版式文件中结构化信息获取的装置,包括:
确定单元,用于确定当前目录项对应的起始页码信息;
分割单元,用于将所述起始页码信息对应页的第一文章内容,按照内容属性信息分割成至少一个块结构字符;
匹配单元,用于在每个块结构字符中查找与所述当前目录项的名称字符匹配的第一块结构字符,并获取所述第一块结构字符在所述第一文章内容中第一位置信息;
获取单元,用于根据所述第一位置信息获取所述当前目录项的起始位置信息,以及上一目录项的结束位置信息。
本发明实施例中,将起始页码信息对应页的第一文章内容分割成至少一个块结构字符,并从中查找与当前目录项的名称字符匹配的第一块结构字符,并获取第一块结构字符在所述第一文章内容中第一位置信息,然后,根据第一位置信息确定当前目录项的起始位置信息,以及上一目录项的结束位置信息,这样,只需对特定页的文章内容进行分析和匹配,就可获取到版式文件的结构化信息,从而,加快了对版式文件的结构化速度。
附图说明
图1为本发明实施例中版式文件中结构化信息获取的流程图;
图2为本发明实施例中匹配查找的流程图;
图3为本发明实施例中版式文件的目录数据信息的示意图;
图4为本发明实施例中版式文件的目录数据信息更新后的示意图;
图5为本发明实施例中结构化的版式文件数据信息的示意图;
图6为本发明实施例中版式文件中结构化信息获取的装置的结构图。
具体实施方式
本发明实施例中,对特定页的文章内容进行分析和匹配,就可获取到版式文件的结构化信息,从而,加快了对版式文件的结构化速度。
参见图1,本发明实施例中版式文件中结构化信息获取的过程包括:
步骤101:确定当前目录项对应的起始页码信息。
在对版式文件的信息化管理中,已经加载了版式文件的目录数据信息。其中,目录数据信息包括:目录项的层次关系,目录项的名称字符,目录项对应起始页码。该目录数据信息可已XML文件格式进行描述,或者其他的自定义的TXT文件格式,或EXCEL文件格式进行描述。
这样,将需单独提供版式和流式阅读的具体目录项确定为当前目录项,或者,将目录数据信息中任意一个目录项确定为当前目录项,并从中查找到该当前目录项对应的起始页码。
本发明实施例中,为提高结构化信息获取的正确率,可在确定当前目录项对应的起始页码之前,分析加载的版式文件的目录数据信息的有效性,如:目录的层次关系,以及个目录项的起始页码的有效性等等。
步骤102:将起始页码信息对应页的第一文章内容,按照内容属性信息分割成至少一个块结构字符。
版式文件一般有共同特征,例如文章中的目录文字和文章中的正文文字的字体大小、字体格式差别都比较大,以及目录和正文的第一行距和正文间的第二行距差距也都比较大,因此,本发明实施了中,可根据目录文字和正文文字的字体大小及格式的不同,以及目录和正文间的第一行距与正文间的第二行距的不同,将第一文章内容分割成一个、两个,或多个块结构字符。
因此,内容属性信息包括字符信息以及行距信息。并且,本发明实施例中,块结构字符包括:段结构字符或行结构字符。则可依据目录文字和正文文字的字体大小及格式的不同,以及目录和正文间的第一行距与正文间的第二行距的不同,采用自动成段或自动成行的方式将第一文章内容分割成对应的段结构字符或行结构字符。
步骤103:在每个块结构字符中查找与当前目录项的名称字符匹配的第一块结构字符。
本发明实施例中,可采用设定的匹配模块,在每个块结构字符中查找与当前目录项的名称字符匹配的第一块结构字。匹配模块可以多种多样,从而匹配查找的过程也可以多种多样。
步骤104:获取第一块结构字符在第一文章内容中第一位置信息。
已查找到与当前目录项的名称字符匹配的第一块结构字符,从而可获取第一块结构字符在第一文章内容中第一位置信息。第一位置信息包括:所在页的页码信息,坐标信息,横向的起始线坐标信息,和横向的终止线坐标信息中的一种或多种。
步骤105:根据第一位置信息获取当前目录项的起始位置信息,以及上一目录项的结束位置信息。
一般可将第一位置信息确定当前目录项的起始位置信息,将第一块结构字符的上一个块结构字符的位置信息确定上一目录项的结束位置信息。
但是,当第一位置信息是第一文章内容的结束块结构字符的位置信息时,将起始页码信息对应的后一页的第二文章内容按照字符的属性信息分割成至少一个块结构字符,并根据第一位置信息,以及第二文章内容中起始块结构字符的位置信息,确定当前目录项的起始位置信息,即结合两者的位置信息,确定当前目录项的起始位置信息。
当第一位置信息是第一文章内容的起始块结构字符的位置信息时,将起始页码信息对应的前一页的第三文章内容按照字符的属性信息分割成至少一个块结构字符,并根据第一位置信息,以及第三文章内容的结束块结构字符的位置信息,确定上一目录项的结束位置信息。同样,结合两者的置信息,确定当前目录项的起始位置信息。
至此,当前目录项对应的结构化信息已获取了。此时可更新版式文件的目录数据信息,即本发明实施例还包括:
步骤106:根据当前目录项的起始位置信息,以及上一目录项的结束位置信息更新版式文件的目录数据信息。
这里,可将确定的当前目录项的起始位置信息,以及上一目录项的结束位置信息加入到目录数据信息对应的XML文件中。
本发明实施例中还可待所有目录项对应的结构化信息都获取后,再一次更新版式文件的目录数据信息。
由此可见,只需对以起始页码信息对应页的第一文章内容,或者对起始页码信息对应页的第一文章内容以及起始页码信息对应的后一页的第二文章内容,或者,对起始页码信息对应页的第一文章内容以及起始页码信息对应的前一页的第三文章内容进行分析和匹配,就能获取到目录项对应的结构化信息,即对特定页的文章内容进行分析和匹配,就可获取到版式文件的结构化信息,从而,加快了对版式文件的结构化速度。
上述实施例步骤103中,由于匹配模块可以多种多样,从而在每个块结构字符中查找与当前目录项的名称字符匹配的第一块结构字的匹配查找的过程也可以多种多样。例如:直接在每个块结构字符中查找是否有与当前目录项的名称字符中每个字符都匹配的块结构字符,如果版式文件的质量比较高,依靠此方法即可完成匹配查找的过程。本发明实施例为增加匹配的成功率,还可增加别的匹配模板,具体查找过程参见图2,包括:
步骤201:在每个块结构字符中查找是否有与当前目录项的名称字符中每个字符都匹配的块结构字符,如有,执行步骤204。否则,执行步骤202。
步骤202:利用正则表达式,在每个块结构字符中查找是否有与当前目录项的名称字符匹配的块结构字符,如有,执行步骤204。否则,执行步骤203。
这里,由于步骤201未能满足匹配的要求,可将每个块结构字符以及当前目录项的名称字符中一些影响匹配的字符剔除,例如:空格,修饰符号以及其他可能影响匹配的字符。
然后,将处理后的字符按照设定的正则表达式的方式去匹配,正则表达式是用某种模式去匹配一类字符串的一个公式。利用该公式进行匹配,获得与当前目录项的名称字符匹配的块结构字符。
步骤203:根据逐字符匹配计算每个块结构字符与当前目录项的名称字符之间的匹配度。
例如:一个块结构字符与前目录项的名称字符之中有一半的字符相同,则匹配度为50%。或者,采用其他的比例。
步骤204:匹配度是否大于或等于阈值,若是,执行步骤205,否则,匹配流程失败。其中,可根据各种批次版式文件的排版的实际情况来调整阈值来实现比较高的匹配度。
步骤205:将匹配度对应的块结构字符确定为第一块结构字符。
步骤206:将查找到块结构字符确定为第一块结构字符。
通过以上步骤基本上都能查找到与当前目录项的名称字符匹配的块结构字符。本发明实施例中,在步骤201之前,还需将每个块结构字符以及当前目录项的名称字符统一为全角字符或半角字符,这样,便于后续的匹配查找。
下面结合说明书附图对本发明实施例作进一步详细描述。
本实施例中,版式文件的目录数据信息如图3所示,以当前目录项的名称字符为“第二章无套利原理“为了进行描述,该版式文件的结构化信息获取过程包括:
确定当前目录项对应的起始页码信息为“16“。然后,将第16页中的第一文章内容,按照内容属性信息分割成至少一个块结构字符,并在每个块结构字符中查找与当前目录项的名称字符匹配的第一块结构字符,获取第一块结构字符在第一文章内容中第一位置信息。这里,第一位置信息包括:″ebookPageNum=″16″left=″1740″top=″396″right=″3016″buttom=″587″startVerticalPos=″396″endVerticalPos=″4082″。
由于第一位置信息是第一文章内容的起始块结构字符的位置信息,因此,还需将第15页中的第三文章内容按照字符的属性信息分割成至少一个块结构字符,并获取第三文章内容的结束块结构字符的位置信息,由于结束块结构字符与当前目录项的名称字符不匹配,因此,该第三文章内容的结束块结构字符的位置信息即为上一目录项的结束位置信息,例如:该信息中包括:ebookEndLPageNum=15,endvertiempos=2341等;而第一位置信息即为当前录项的起始位置信息,例如该信息中包括:ebookPageNum=″16″left=″1740″top=″396″right=″3016″buttom=″587″startVerticalPos=″396″endVerticalPos=″4082″。
对起始页码信息对应的后一页的第二文章内容的分析与匹配过程于此类似,就不再累述了。
根据上述过程,对每个目录项获取结构化信息,最后根据获取的结构化信息对最初的根据版式文件的目录数据信息进行更新,更新后的结构化的目录数据信息如图4所示。
本发明实施例中还可将目录项对应的文章内容信息添加到更新后构化的目录数据信息中对应的目录项下,形成结构化的版式文件数据信息,如图5所示。这样,系统会自动扫描待结构化下的所有版式文件数据信息分别进行章节化的处理并输出,从而可单独提供图书版式文件的具体目录项的版式和流式阅读。
根据上述版式文件中结构化信息获取的方法,可构建一种版式文件中结构化信息获取的装置,参见图6,包括:确定单元100、分割单元200、匹配单元300以及获取单元400,其中,
确定单元100,用于确定当前目录项对应的起始页码信息。
分割单元200,用于将所述起始页码信息对应页的第一文章内容,按照内容属性信息分割成至少一个块结构字符。
匹配单元300,用于在每个块结构字符中查找与当前目录项的名称字符匹配的第一块结构字符,并获取第一块结构字符在第一文章内容中第一位置信息。
获取单元400,用于根据第一位置信息获取当前目录项的起始位置信息,以及上一目录项的结束位置信息。
其中,分割单元200,具体用于根据目录文字和正文文字的字体大小及格式的不同,以及目录和正文间的第一行距与正文间的第二行距的不同,将第一文章内容分割成至少一个块结构字符,其中,块结构字符包括:段结构字符或行结构字符。
匹配单元300,具体用于在每个块结构字符中查找是否有与当前目录项的名称字符中每个字符都匹配的块结构字符,如有,则将查找到的块结构字符确定为第一块结构字符;否则,利用正则表达式,在每个块结构字符中查找是否有与当前目录项的名称字符匹配的块结构字符,如有,则将查找到的块结构字符确定为第一块结构字符;否则,根据逐字符匹配计算每个块结构字符与当前目录项的名称字符之间的匹配度,当匹配度达到设定阈值时,将匹配度对应的块结构字符确定为第一块结构字符。
匹配单元300,还用于将每个块结构字符以及当前目录项的名称字符统一为全角字符或半角字符。
获取单元400,一般可将第一位置信息确定当前目录项的起始位置信息,将第一块结构字符的上一个块结构字符的位置信息确定上一目录项的结束位置信息。
该获取单元400,还具体用于当第一位置信息是第一文章内容的结束块结构字符的位置信息时,将起始页码信息对应的后一页的第二文章内容按照字符的属性信息分割成至少一个块结构字符,并根据第一位置信息,以及第二文章内容中起始块结构字符的位置信息,确定当前目录项的起始位置信息;当第一位置信息是第一文章内容的起始块结构字符的位置信息时,将起始页码信息对应的前一页的第三文章内容按照字符的属性信息分割成至少一个块结构字符,并根据第一位置信息,以及第三文章内容的结束块结构字符的位置信息,确定上一目录项的结束位置信息,
本发明实施例中,只需对特定页的文章内容进行分析和匹配,就可获取到版式文件的结构化信息,从而,加快了对版式文件的结构化速度。
并且在每个块结构字符中查找与当前目录项的名称字符匹配的第一块结构字符使,匹配方式多种多样,一种匹配方式匹配方式未能命中的话还有备选的多种匹配方式,提高匹配查找的成功率。
另外,当在大批量版式文件数据的结构化制作过程中,根据设定的匹配模板进行分析匹配,从而,批量获取分析不需要人工干预,节省了大量的人力。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种版式文件中结构化信息获取的方法,其特征在于,包括:
确定当前目录项对应的起始页码信息;
将所述起始页码信息对应页的第一文章内容,按照内容属性信息分割成至少一个块结构字符;
在每个块结构字符中查找与所述当前目录项的名称字符匹配的第一块结构字符,并获取所述第一块结构字符在所述第一文章内容中第一位置信息;
根据所述第一位置信息获取所述当前目录项的起始位置信息,以及上一目录项的结束位置信息。
2.如权利要求1所述的方法,其特征在于,所述按照内容属性信息分割成至少一个块结构字符包括:
根据目录文字和正文文字的字体大小及格式的不同,以及目录和正文间的第一行距与正文间的第二行距的不同,将所述第一文章内容分割成至少一个块结构字符,其中,所述块结构字符包括:段结构字符或行结构字符。
3.如权利要求1所述的方法,其特征在于,所述在每个块结构字符中查找与所述当前目录项的名称字符匹配的第一块结构字符包括:
在每个块结构字符中查找是否有与所述当前目录项的名称字符中每个字符都匹配的块结构字符,如有,则将查找到的块结构字符确定为第一块结构字符;否则,
利用正则表达式,在每个块结构字符中查找是否有与所述当前目录项的名称字符匹配的块结构字符,如有,则将查找到的块结构字符确定为第一块结构字符;否则,
根据逐字符匹配计算每个块结构字符与所述当前目录项的名称字符之间的匹配度,当所述匹配度达到设定阈值时,将所述匹配度对应的块结构字符确定为第一块结构字符。
4.如权利要求3所述的方法,其特征在于,所述在每个块结构字符中查找是否有与所述当前目录项的名称字符中每个字符都匹配的块结构字符之前还包括:
将每个块结构字符以及所述当前目录项的名称字符统一为全角字符或半角字符。
5.如权利要求1所述的方法,其特征在于,所述根据所述第一位置信息获取所述当前目录项的起始位置信息,以及上一目录项的结束位置信息包括:
当所述第一位置信息是所述第一文章内容的结束块结构字符的位置信息时,将所述起始页码信息对应的后一页的第二文章内容按照字符的属性信息分割成至少一个块结构字符,并根据所述第一位置信息,以及所述第二文章内容中起始块结构字符的位置信息,确定所述当前目录项的起始位置信息;
当所述第一位置信息是所述第一文章内容的起始块结构字符的位置信息时,将所述起始页码信息对应的前一页的第三文章内容按照字符的属性信息分割成至少一个块结构字符,并根据所述第一位置信息,以及所述第三文章内容的结束块结构字符的位置信息,确定所述上一目录项的结束位置信息。
6.一种版式文件中结构化信息获取的装置,其特征在于,包括:
确定单元,确定当前目录项对应的起始页码信息;
分割单元,用于将所述起始页码信息对应页的第一文章内容,按照内容属性信息分割成至少一个块结构字符;
匹配单元,用于在每个块结构字符中查找与所述当前目录项的名称字符匹配的第一块结构字符,并获取所述第一块结构字符在所述第一文章内容中第一位置信息;
获取单元,用于根据所述第一位置信息获取所述当前目录项的起始位置信息。
7.如权利要求6所述的装置,其特征在于,
所述分割单元,具体用于根据目录文字和正文文字的字体大小及格式的不同,以及目录和正文间的第一行距与正文间的第二行距的不同,将所述第一文章内容分割成至少一个块结构字符,其中,所述块结构字符包括:段结构字符或行结构字符。
8.如权利要求6所述的装置,其特征在于,
所述匹配单元,具体用于在每个块结构字符中查找是否有与所述当前目录项的名称字符中每个字符都匹配的块结构字符,如有,则将查找到的块结构字符确定为第一块结构字符;否则,利用正则表达式,在每个块结构字符中查找是否有与所述当前目录项的名称字符匹配的块结构字符,如有,则将查找到的块结构字符确定为第一块结构字符;否则,根据逐字符匹配计算每个块结构字符与所述当前目录项的名称字符之间的匹配度,当所述匹配度达到设定阈值时,将所述匹配度对应的块结构字符确定为第一块结构字符。
9.如权利要求8所述的装置,其特征在于,
所述匹配单元,还用于将每个块结构字符以及当前目录项的名称字符统一为全角字符或半角字符。
10.如权利要求9所述的装置,其特征在于,
所述获取单元,具体用于当所述第一位置信息是所述第一文章内容的结束块结构字符的位置信息时,将所述起始页码信息对应的后一页的第二文章内容按照字符的属性信息分割成至少一个块结构字符,并根据所述第一位置信息,以及所述第二文章内容中起始块结构字符的位置信息,确定所述当前目录项的起始位置信息;当所述第一位置信息是所述第一文章内容的起始块结构字符的位置信息时,将所述起始页码信息对应的前一页的第三文章内容按照字符的属性信息分割成至少一个块结构字符,并根据所述第一位置信息,以及所述第三文章内容的结束块结构字符的位置信息,确定所述上一目录项的结束位置信息。
CN201110409463.XA 2011-12-09 2011-12-09 一种版式文件中结构化信息获取的方法及装置 Active CN103164388B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201110409463.XA CN103164388B (zh) 2011-12-09 2011-12-09 一种版式文件中结构化信息获取的方法及装置
US14/119,109 US9773009B2 (en) 2011-12-09 2012-12-07 Methods and apparatus for obtaining structured information in fixed layout documents
KR20137030609A KR20140053888A (ko) 2011-12-09 2012-12-07 판식 파일중 구조화 정보 획득방법 및 장치
PCT/CN2012/086137 WO2013083067A1 (zh) 2011-12-09 2012-12-07 一种版式文件中结构化信息获取的方法及装置
EP12855138.9A EP2790111A4 (en) 2011-12-09 2012-12-07 METHOD AND DEVICE FOR ACQUIRING STRUCTURED INFORMATION IN A LAYOUT FILE
JP2014520525A JP5930496B2 (ja) 2011-12-09 2012-12-07 レイアウトファイルにおける構造化情報の取得方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110409463.XA CN103164388B (zh) 2011-12-09 2011-12-09 一种版式文件中结构化信息获取的方法及装置

Publications (2)

Publication Number Publication Date
CN103164388A true CN103164388A (zh) 2013-06-19
CN103164388B CN103164388B (zh) 2016-07-06

Family

ID=48573563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110409463.XA Active CN103164388B (zh) 2011-12-09 2011-12-09 一种版式文件中结构化信息获取的方法及装置

Country Status (6)

Country Link
US (1) US9773009B2 (zh)
EP (1) EP2790111A4 (zh)
JP (1) JP5930496B2 (zh)
KR (1) KR20140053888A (zh)
CN (1) CN103164388B (zh)
WO (1) WO2013083067A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104536948A (zh) * 2014-12-10 2015-04-22 百度在线网络技术(北京)有限公司 版式文档的处理方法及装置
CN109684980A (zh) * 2018-09-19 2019-04-26 腾讯科技(深圳)有限公司 自动阅卷方法及装置
CN110287465A (zh) * 2019-06-22 2019-09-27 广州视源电子科技股份有限公司 文本处理方法、装置、设备及存储介质
CN110705503A (zh) * 2019-10-14 2020-01-17 北京信息科技大学 生成目录结构化信息的方法和装置
CN111046064A (zh) * 2019-12-23 2020-04-21 掌阅科技股份有限公司 图书版权信息的获取方法、电子设备及计算机存储介质
CN111414741A (zh) * 2018-12-19 2020-07-14 北大方正集团有限公司 出版物的版式模板制作方法、装置、设备及介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346322B (zh) * 2013-08-08 2018-07-10 北大方正集团有限公司 文档格式处理装置和文档格式处理方法
CN107330077B (zh) * 2017-07-01 2020-07-14 广东电网有限责任公司信息中心 一种数字档案馆档案的检索方法
CN111176640B (zh) * 2018-11-13 2022-05-13 武汉斗鱼网络科技有限公司 Android工程中布局层级展现方法、存储介质、设备及系统
CN110196670A (zh) * 2019-05-31 2019-09-03 数坤(北京)网络科技有限公司 一种文本生成方法、设备及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101354727A (zh) * 2008-09-24 2009-01-28 北京大学 一种建立数字文档目录与正文之间链接的方法及装置
CN101739391A (zh) * 2009-12-16 2010-06-16 彭扬 生成二进制文件格式电子书的方法及其生成的电子书

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW490643B (en) * 1996-05-21 2002-06-11 Hitachi Ltd Estimated recognition device for input character string
JPH11232439A (ja) * 1998-02-16 1999-08-27 Toshinari Hayashi 文書画像構造解析方法
JP2001052116A (ja) * 1999-08-06 2001-02-23 Toshiba Corp パターン列マッチング装置とパターン列マッチング方法と文字列マッチング装置と文字列マッチング方法
JP2001265762A (ja) * 2000-03-21 2001-09-28 Matsushita Electric Ind Co Ltd 文書構造抽出装置及び文書構造情報抽出方法
EP1770547B1 (en) * 2001-06-14 2012-09-12 Sharp Kabushiki Kaisha Data processing method, data processing program, and data processing apparatus
JP2003288334A (ja) * 2002-03-28 2003-10-10 Toshiba Corp 文書処理装置及び文書処理方法
US7142728B2 (en) * 2002-05-17 2006-11-28 Science Applications International Corporation Method and system for extracting information from a document
US7240047B2 (en) * 2002-12-23 2007-07-03 Hewlett-Packard Development Company, L.P. Apparatus and method for market-based document layout selection
US7383500B2 (en) * 2004-04-30 2008-06-03 Microsoft Corporation Methods and systems for building packages that contain pre-paginated documents
JP2006163651A (ja) * 2004-12-03 2006-06-22 Sony Computer Entertainment Inc 表示装置、表示装置の制御方法、プログラム及びフォントデータ
US7721198B2 (en) * 2006-01-31 2010-05-18 Microsoft Corporation Story tracking for fixed layout markup documents
US7676741B2 (en) * 2006-01-31 2010-03-09 Microsoft Corporation Structural context for fixed layout markup documents
US7917493B2 (en) * 2007-04-19 2011-03-29 Retrevo Inc. Indexing and searching product identifiers
CN101571859B (zh) 2008-04-28 2013-01-02 国际商业机器公司 用于对文档进行标注的方法和设备
CN101458680B (zh) 2008-09-03 2010-12-01 北京大学 一种自动识别数字文档目录的方法及装置
JP2010157107A (ja) * 2008-12-26 2010-07-15 Hitachi Software Eng Co Ltd 業務文書処理装置
US8254681B1 (en) * 2009-02-05 2012-08-28 Google Inc. Display of document image optimized for reading
WO2011036830A1 (ja) * 2009-09-24 2011-03-31 日本電気株式会社 単語認識装置、方法及びプログラムが格納された非一時的なコンピュータ可読媒体並びに発送物区分装置
WO2012057891A1 (en) * 2010-10-26 2012-05-03 Hewlett-Packard Development Company, L.P. Transformation of a document into interactive media content
US8645819B2 (en) * 2011-06-17 2014-02-04 Xerox Corporation Detection and extraction of elements constituting images in unstructured document files

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101354727A (zh) * 2008-09-24 2009-01-28 北京大学 一种建立数字文档目录与正文之间链接的方法及装置
CN101739391A (zh) * 2009-12-16 2010-06-16 彭扬 生成二进制文件格式电子书的方法及其生成的电子书

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104536948A (zh) * 2014-12-10 2015-04-22 百度在线网络技术(北京)有限公司 版式文档的处理方法及装置
CN109684980A (zh) * 2018-09-19 2019-04-26 腾讯科技(深圳)有限公司 自动阅卷方法及装置
CN109684980B (zh) * 2018-09-19 2022-12-13 腾讯科技(深圳)有限公司 自动阅卷方法及装置
CN111414741A (zh) * 2018-12-19 2020-07-14 北大方正集团有限公司 出版物的版式模板制作方法、装置、设备及介质
CN111414741B (zh) * 2018-12-19 2022-06-14 北大方正集团有限公司 出版物的版式模板制作方法、装置、设备及介质
CN110287465A (zh) * 2019-06-22 2019-09-27 广州视源电子科技股份有限公司 文本处理方法、装置、设备及存储介质
CN110705503A (zh) * 2019-10-14 2020-01-17 北京信息科技大学 生成目录结构化信息的方法和装置
CN110705503B (zh) * 2019-10-14 2022-02-25 北京信息科技大学 生成目录结构化信息的方法和装置
CN111046064A (zh) * 2019-12-23 2020-04-21 掌阅科技股份有限公司 图书版权信息的获取方法、电子设备及计算机存储介质
CN111046064B (zh) * 2019-12-23 2023-05-19 掌阅科技股份有限公司 图书版权信息的获取方法、电子设备及计算机存储介质

Also Published As

Publication number Publication date
CN103164388B (zh) 2016-07-06
KR20140053888A (ko) 2014-05-08
JP2014527660A (ja) 2014-10-16
EP2790111A1 (en) 2014-10-15
US20140289274A1 (en) 2014-09-25
WO2013083067A1 (zh) 2013-06-13
US9773009B2 (en) 2017-09-26
EP2790111A4 (en) 2015-12-09
JP5930496B2 (ja) 2016-06-08

Similar Documents

Publication Publication Date Title
CN103164388A (zh) 一种版式文件中结构化信息获取的方法及装置
CN107729480B (zh) 一种限定区域的文本信息抽取方法及装置
CN104598577B (zh) 一种网页正文的提取方法
CN103123618B (zh) 文本相似度获取方法和装置
CN101706807B (zh) 一种中文网页新词自动获取方法
KR102157202B1 (ko) 정보 마이닝 방법, 시스템, 전자장치 및 판독 가능한 저장매체
CN102831131B (zh) 构建标注网页语料库的方法及装置
CN102207946B (zh) 一种知识网络的半自动生成方法
CN103699585A (zh) 文件的元数据存储以及文件恢复的方法、装置和系统
CN103324609A (zh) 文本校对装置和文本校对方法
CN102945244A (zh) 基于句号特征字串的中文网页重复文档检测和过滤方法
CN102955773B (zh) 用于在中文文档中识别化学名称的方法及系统
CN102651002A (zh) 一种网页信息抽取方法及其系统
CN105589894B (zh) 文档索引建立方法和装置、文档检索方法和装置
CN103324622A (zh) 一种自动生成首页摘要的方法及装置
CN102200968A (zh) 一种excel表格数据排重的方法和装置
CN110909168A (zh) 知识图谱的更新方法和装置、存储介质及电子装置
CN105488471A (zh) 一种字形识别方法及装置
CN102663108A (zh) 基于复杂网络模型并行化标签传播算法的药物社团发现方法
CN103927176A (zh) 一种基于层次主题模型的程序特征树的生成方法
CN100562872C (zh) 针对结构化网页的自动模板信息定位方法
CN113836272A (zh) 关键信息的展示方法、系统、计算机设备及可读存储介质
CN102662953B (zh) 与输入法集成的语义标注系统和方法
CN103810213A (zh) 一种搜索方法和系统
CN105608137A (zh) 一种提取身份标识的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: FOUNDER INFORMATION INDUSTRY HOLDING CO., LTD. BEI

Free format text: FORMER OWNER: BEIJING FOUNDER APABI TECHNOLOGY CO., LTD.

Effective date: 20130902

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20130902

Address after: 100871 Beijing, Haidian District into the house road, founder of the building on the 9 floor, No. 298

Applicant after: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Applicant after: FOUNDER INFORMATION INDUSTRY HOLDINGS Co.,Ltd.

Applicant after: FOUNDER APABI TECHNOLOGY Ltd.

Address before: 100871 Beijing, Haidian District into the house road, founder of the building on the 9 floor, No. 298

Applicant before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Applicant before: FOUNDER APABI TECHNOLOGY Ltd.

C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee after: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee after: PKU FOUNDER INFORMATION INDUSTRY GROUP CO.,LTD.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: FOUNDER INFORMATION INDUSTRY HOLDINGS Co.,Ltd.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

TR01 Transfer of patent right

Effective date of registration: 20220921

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: PKU FOUNDER INFORMATION INDUSTRY GROUP CO.,LTD.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

TR01 Transfer of patent right