CN1912874A - 一种提取见报资料数据信息的方法 - Google Patents

一种提取见报资料数据信息的方法 Download PDF

Info

Publication number
CN1912874A
CN1912874A CN 200610112710 CN200610112710A CN1912874A CN 1912874 A CN1912874 A CN 1912874A CN 200610112710 CN200610112710 CN 200610112710 CN 200610112710 A CN200610112710 A CN 200610112710A CN 1912874 A CN1912874 A CN 1912874A
Authority
CN
China
Prior art keywords
contribution
text
information
picture
incidence relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200610112710
Other languages
English (en)
Inventor
赵东岩
刘万福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Beijing Founder Electronics Co Ltd filed Critical Peking University
Priority to CN 200610112710 priority Critical patent/CN1912874A/zh
Publication of CN1912874A publication Critical patent/CN1912874A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种提取见报资料数据信息的方法,其核心是:根据报纸版面的排版文件的版面信息结构提取版面信息和所有稿件区域信息;根据所述排版文件的稿件信息结构提取所述所有稿件区域中的稿件;根据所述稿件区域的位置关系提取稿件之间存在的关联关系,并根据所述关联关系将存在关联关系的稿件进行合并;根据稿件的重要性以及所述稿件区域信息将稿件进行排序,并根据排序后的稿件对所述版面信息内容和稿件信息进行修改和标引,得到见报资料的数据信息。通过本发明,能够保证提取出的见报资料的数据信息的完整性和准确性,并能够提高见报资料的反解速度。

Description

一种提取见报资料数据信息的方法
技术领域
本发明涉及计算机信息处理领域,尤其涉及见报资料的提取技术。
背景技术
见报资料是报社的核心数字资产,其包括的数据信息有:稿件的内容信息,如报纸版面上文章(正文、段落和标题等)、表格中的文字和图片内容;稿件的版式信息,包括稿件的位置信息(如坐标信息)、标题及正文的字体、字号等格式信息;文章与图片、图片与文字说明的关联信息;报纸版面信息,包括报纸版次、版面名称、日期等。这些数据信息的提取是在完成报纸版面制作过程之后进行的。通常将从制作完成的报纸版面信息中提取见报资料中的数据信息的方法,称为见报资料的反解方法。
随着互联网的普及和信息技术的快速发展,见报资料中的数据信息对报社来讲越来越重要。这些数据信息不仅要作为历史资料被完整地保存下来以备将来查询,而且还需要通过多种数字媒体技术实时地进行跨媒体发布,如通过新闻网站、数字报刊和光盘出版等,因此各个商家不断研究新的见报资料的反解方法,以便高效高质量地提取所述见报资料中的数据信息。
与本发明有关的现有技术提供了一种见报资料的反解方法,其核心是:从排版系统输出的版面描述文件中提取见报资料的数据信息。
由于版面描述文件,如PS(Adobe公司定义的PostScript language)、S2(方正定义的版面结果描述语言)文件主要是用来描述版式印刷的输出信息的,所以,对印刷没有意义、但对于见报资料非常有意义的数据信息,如文章段落、顺序、位置和标题等信息已经被改变或丢失,而且文章与图片、图片与文字说明的关联信息等也被丢掉,因此基于所述版面描述文件提取见报资料中的数据信息时,普遍存在文章内容不全,段落、标题或图文的次序错误,以及不同文章错分、误合等问题,因此,在反解过程完成后,还需要大量人工对稿件信息进行细致、繁琐的手工标引、修改和校对,这样不但耗费了大量的人力物力,而且难以保证见报资料中的数据信息的质量(即完整性、准确性)。
发明内容
本发明的目的是提供一种见报资料的反解方法,通过本发明,不仅能够节约人力对数据信息进行的手工标引、修改和校对等工作,而且能够保证见报资料中的数据信息的质量。
本发明是通过如下的技术方案实现的:
本发明提供一种提取见报资料数据信息的方法,其包括:
A、根据报纸版面的排版文件的版面信息结构提取版面信息和所有稿件区域信息;
B、根据所述排版文件的稿件信息结构提取所述所有稿件区域中的稿件;
C、根据稿件的重要性以及所述稿件区域信息将提取出的稿件进行排序,并根据排序后的稿件对所述版面信息和稿件信息进行修改和标引,得到见报资料的数据信息。
其中,所述稿件区域信息包括:稿件区位置信息和标题区位置信息。
其中,所述步骤B具体包括:
B1、根据所述排版文件的稿件信息结构提取所述所有稿件区域中的稿件的稿件内容;
B2、根据所述排版文件的稿件信息结构提取所述所有稿件区域中的稿件的特定属性信息,并根据所述稿件区域信息中的标题区位置信息将所述特定属性信息添加到所述稿件内容中,得到对应的文本稿件和/或图片稿件。
其中,所述步骤B1具体包括:
当提取的稿件内容为文章稿件内容时,如果发现所述文章中有竖排的符号或文字,则采用竖排文件提取规则提取正文;如果遇到段首空格,则插入段落标记,并过滤空格;如果遇到特殊符号,则将其过滤掉,最后形成文本稿件;和/或,
当提取的稿件内容为图片稿件内容时,则提取图片本身的信息,并提取所述图片所在的文件名,以及所述文件名对应的文件所在的路径,最后形成图片稿件;和/或,
当提取的稿件内容为表格稿件内容时,则按照从左至右、从上到下的单元格次序提取正文,并对提取出的正文添加间隔符,最后合成一篇文本稿件。
其中,步骤B2中,所述根据所述排版文件的稿件信息结构提取所述所有稿件区域中的稿件的特定属性信息的过程,具体包括:
当所述稿件中包括文章稿件内容时,如果所述文章稿件内容中存在标题区内容信息,则从稿件信息结构中的标题区内容信息中提取出所述文章的标题;如果不存在标题区内容信息,则将稿件区内容信息中的字体字号最大的一段标识为标题;若正文字数小于系统设定的字数,则将该正文标识为标题;和/或,
当所述稿件中包括图片稿件内容时,从稿件信息结构中的标题区信息中提取出所述图片的标题;和/或,
当所述稿件中包括表格稿件内容时,从稿件信息结构中的标题区信息中提取出所述表格的标题,并通过注释符提取出表格说明或注释,并形成表格的简图。
其中,在所述步骤B与步骤C之间还包括:
根据所述稿件区域信息中的稿件区位置信息确定得到的稿件中是否有存在关联关系的稿件,当确认有时,则根据所述关联关系将存在关联关系的稿件进行合并。
其中,所述关联关系包括:
图文稿件关联关系,和/或,图片说明关联关系。
其中,当仅仅一个文本稿件和一个图片稿件间存在关联关系,并且所述关联关系为图文稿件关联关系时,所述根据所述关联关系将存在关联关系的稿件进行合并的过程,具体包括:
将文本稿件的正文为新文本稿件的正文信息,文本稿件的标题作为新文本稿件的标题,图片稿件作为所述新文本稿件的附图信息。
其中,当仅仅一个文本稿件和一个图片稿件存在关联关系,并且所述关联关系为图片说明关联关系时,所述根据所述关联关系将存在关联关系的稿件进行合并的过程,具体包括:
将图片稿件中的图片作为合并后的新图片稿件的内容信息,图片稿件的标题作为新图片稿件的标题;文本稿件作为所述新图片稿件的图片说明信息。
其中,当多个文本稿件和/或多个图片稿件间存在关联关系,并且所述关联关系为图文稿件关联关系时,所述根据所述关联关系将存在关联关系的稿件进行合并的过程,具体包括:
将多个文本稿件的正文组合后,作为合并后新文本稿件的正文信息;以及,
所有图片稿件均作为所述新文本稿件的附图;以及,
所述新文本稿件的标题取自最大字号的文本稿件的标题,并将需要合并的其它文本稿件的标题保留在正文信息中;当附图有标题时,则将所述附图的标题保留在该附图的说明文字中。
其中,当多个图片稿件和/或多个文本稿件间存在关联关系,并且所述关联关系为图片说明关联关系时,所述根据所述关联关系将存在关联关系的稿件进行合并的过程,具体包括:
首先按照图片大小的顺序将多个图片稿件中的图片进行排序,并根据所述排序结果确定主图和附图;如果图片大小相同,则按照从左到右、从上到下的顺序将相同大小的图片进行排序,并根据排序结果确定主图和附图,并将所述所有主图和附图作为合并后新图片稿件的图片信息;以及,
将多个文本稿件合并成一篇文字说明,并将其作为所述新图片稿件的图片说明信息;
合并后的新稿件的标题取自最大字号的图片稿件的标题,并将需要合并的其它图片稿件的标题保留在图片说明信息中。
其中,步骤C中,所述根据稿件的重要性以及所述稿件区域信息将提取出的稿件进行排序的过程,具体包括:
按照各个稿件的位置信息对应的垂直坐标值确定稿件的排列序号,若垂直坐标值相同,则依照稿件水平坐标值确定稿件的排列序号。
其中,步骤C中,所述根据稿件的重要性以及所述稿件区域信息将提取出的稿件进行排序的过程,还包括:
如果所述排版文件的版面信息的版次为第一版,则将报头之下,且垂直坐标和水平坐标值最小的稿件排列在头条。
其中,所述的方法还包括:将得到的见报资料的数据信息导出。
由上述本发明提供的技术方案可以看出,本发明直接基于排版文件进行见报资料中的数据信息的反解,因此能够保证提取出的见报资料的数据信息的完整性和准确性,解决了现有技术中由于版面描述文件方法中稿件信息缺失而导致提取出的见报资料的数据信息不完整和不准确的技术问题。另外,本发明通过排版文件的版面信息和稿件区域信息,能够自动确定提取出稿件间关联关系,还可以自动对文章进行排序,简化了人工操作,提高了见报资料的反解速度。
附图说明
图1为本发明提供的第一实施例的流程图。
具体实施方式
常用的排版文件,包括飞腾排版文件、InDesign(产品名称)排版文件、QuarkXPress(产品名称)排版文件中的排版数据结构中包括版面信息结构和稿件信息结构。
所述版面信息结构包括版面信息和稿件区域信息。其中所述版面信息包括:报纸名称、版面与栏目名称、版次(如A01、第一版)、组版员等信息;所述稿件区域信息包括稿件区位置信息和标题区位置信息等。
所述稿件信息结构中包括位于稿件区域的图片、文章和表格等稿件内容信息,其中所述内容信息包括标题区内容信息和稿件区内容信息。其中所述标题区内容信息包括标题文字和格式信息等;所述稿件区内容信息包括文章和/或表格的正文文字、段落信息以及格式信息,以及表格正文的注释符、注释信息,图片本身的内容信息、图片所在的文件名以及所述文件名对应的文件所在的路径等。其中所述格式信息包括字体和字号等信息。
通过所述版面信息结构中的稿件区域信息和所述稿件信息结构中的稿件内容信息,可以确定稿件之间是否存在关联关系信息。
考虑到上述排版文件中的排版数据结构中包含的数据信息的完整性,如果基于所述排版文件进行见报资料的反解,能够提取出相对完整的见报资料的数据信息,为此,本发明提供的具体实施例是基于所述排版文件对见报资料进行反解的方法,该实施例的具体实施过程如图1所示,包括如下步骤:
步骤S101,通过排版系统打开需要反解的报纸版面的排版文件。
步骤S102,根据所述排版文件的版面信息结构提取版面信息和所有稿件区域信息。
所述版面信息包括报纸名称、版面与栏目名称、版次、组版员等信息。
所述稿件区域信息包括稿件区位置信息和标题区位置信息等信息。
步骤S103,根据所述排版文件的稿件信息结构中包括的稿件区内容信息提取步骤S102中所述所有稿件区域中的稿件的稿件内容。
当提取的稿件内容为文章稿件内容时,如果发现所述文章中有竖排的符号或文字,则采用竖排文件提取规则提取正文(即按照从上至下、从左至右的顺序提取正文)。如果遇到段首空格,则插入段落标记,并过滤空格。如果遇到特殊符号,如排版控制符,则将其过滤掉,最后形成文本稿件。
当提取的稿件内容为图片稿件内容时,则除了提取图片本身的信息外,还要在所述图片稿件的稿件信息结构中提取所述图片所在的文件名以及所述文件名对应的文件所在的路径,最后形成图片稿件。
当提取的稿件内容为表格稿件内容时,则按照从左至右、从上到下的单元格次序提取正文,并对提取出的正文添加间隔符,如在行与行之间添加换行符,在同行单元格之间添加制表键(TAB)字符,最后合成一篇文本稿件。若正文中存在注释符(正文文字的上标标记),则提取相应的注释信息作为稿件正文的注释信息。
步骤S104,根据所述排版文件的稿件信息结构中包括的标题区内容信息提取步骤S102中所述的稿件区域中的稿件的特定属性信息,如标题属性信息等。
对于每篇文章,如果存在标题区内容信息,则从标题区内容信息中提取出文章的标题、引题和副题;如果不存在标题区内容信息,则将稿件区内容信息中的字体字号最大的一段标识为标题;若正文字数小于系统设定的字数,则将该正文标识为标题。
对于每幅图片,从标题区信息中提取出所述图片的标题;
对于每个表格,从标题区信息中提取出所述表格的标题,并形成表格的简图。若表格标题区中存在注释符(标题文字的上标标记),则提取相应的注释信息作为稿件的说明信息。
步骤S105,根据排版文件中的稿件区域信息中的标题区位置信息,将经过步骤S104得到的特定属性信息添加到经过步骤S103得到的图片稿件和文本稿件中。
步骤S106,根据步骤S102中提取出的稿件区域信息中的稿件区位置信息,确定得到的各个稿件间是否存在关联关系,并当确定存在关联关系时确定出关联关系的类型。
如果文本稿件区域包含图片稿件,则确定存在关联关系,并且关联关系的类型为图文稿件关联;如果图片稿件区域包含文本稿件,则确定存在关联关系,并且关联关系的类型为图片说明关联。
步骤S107,根据确定出的所述关联关系合并存在关联关系的稿件。
如果仅仅一个文本稿件和一个图片稿件存在关联关系,则合并稿件的具体实施过程如下:
如果稿件关系为图文稿件关联,则将图片稿件作为附图合并到文本稿件之中,文本稿件的正文为新稿件的正文信息,文本稿件的标题作为新稿件的标题。
如果稿件关系为图文说明关联,则将文本稿件作为图片说明合并到图片稿件之中,图片作为新稿件的稿件内容信息,图片稿件的标题作为新稿件的标题。
如果多个文本稿件和多个图片稿件存在关联关系,则还需要将所述多个稿件合并成一个稿件。具体合并的过程如下:
对于稿件关系为图文稿件关联的多个稿件(即一个文本稿件区域包括多个文本或/和图片稿件区),在合并稿件时,将多个文本稿件合并成新稿件的正文信息;所有图片稿件均作为新稿件的附图;合并后的新稿件的标题、引题、副题取自最大字号的稿件的标题、引题、副题,其它稿件的标题、引题、副题保留在正文信息中;若附图有标题,则保留在该附图的说明文字中。
对于稿件关系为图文说明关联的多个稿件(即一个图片稿件区域包括多个文本或/和图片稿件区),在合并稿件时,若有多幅图片,则首先按照图片大小的顺序确定主图和附图,如果图片大小相同,则按照从左到右、从上到下的顺序确定主图和附图,并将图片稿件作为新稿件的正文信息;若有文本稿件,则合并成一个文字说明(例如:复杂图表),并将其作为新稿件的图片说明信息。合并后的新稿件的标题取自最大字号的图片稿件的标题,其它稿件的标题保留在图片说明信息中。
步骤S108,根据稿件的重要程度和稿件区位置信息对合并处理后的稿件,以及没有关联关系的稿件进行排序。
首先,按照各个稿件的位置信息对应的垂直坐标值确定稿件的排列序号;如果各个稿件的位置信息对应的垂直坐标值相同,则按照各个稿件的位置信息对应的水平坐标值确定稿件的排列序号。
所述稿件的位置信息对应的垂直坐标值越小,则排列的序号越小。如果各个稿件的位置信息对应的垂直坐标值相同,则按照各个稿件的位置信息对应的水平坐标值确定稿件的排列序号,所述稿件的位置信息对应的水平坐标值越小,则排列的序号越小。
然后,判断所述排版文件的版面信息是否为第一版信息,若为第一版,则将报头之下,且垂直坐标和水平坐标值最小的稿件排列在头条,即标识其排列序号为1。
步骤S109,在排版系统界面上显示版面信息、稿件信息及其相关数据信息。
步骤S110,修改和标引版面信息与稿件信息,完善见报资料的数据信息。如稿件甩版信息、作者姓名等数据信息。
步骤S111,从排版系统中导出反解制作完毕的见报资料中的数据信息,并导出报纸版面的简图和PDF(可移植文档格式)文件,并记录当前稿件在版面上的位置信息和区域信息,最后输出所有见报资料的数据信息(含文字、图片、版面文件及关联关系等)。
输出所有见报资料的数据信息时,可以通过XML(可扩展标记语言)格式打包后输出,或通过其它语言格式转换后输出。
经过上述步骤后,能够得到完整的见报资料的数据信息,以便通过网站发布、光盘出版和数字报刊等方式提供见报资料信息服务。
通过上述本发明提供的具体实施方案可以看出,本发明直接基于排版文件进行见报资料中的数据信息的反解,因此能够保证提取出的见报资料的数据信息的完整性和准确性,解决了现有技术中由于版面描述文件方法中稿件信息缺失而导致提取出的见报资料的数据信息不完整和不准确的技术问题。另外,本发明通过排版文件的版面信息和稿件区域信息,能够自动确定提取出稿件间关联关系,还可以自动对文章进行排序,简化了人工操作,提高了见报资料的反解速度。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (14)

1、一种提取见报资料数据信息的方法,其特征在于,包括:
A、根据报纸版面的排版文件的版面信息结构提取版面信息和所有稿件区域信息;
B、根据所述排版文件的稿件信息结构提取所述所有稿件区域中的稿件;
C、根据稿件的重要性以及所述稿件区域信息将提取出的稿件进行排序,并根据排序后的稿件对所述版面信息和稿件信息进行修改和标引,得到见报资料的数据信息。
2、如权利要求1所述的方法,其特征在于,所述稿件区域信息包括:
稿件区位置信息和标题区位置信息。
3、如权利要求2所述的方法,其特征在于,所述步骤B具体包括:
B1、根据所述排版文件的稿件信息结构提取所述所有稿件区域中的稿件的稿件内容;
B2、根据所述排版文件的稿件信息结构提取所述所有稿件区域中的稿件的特定属性信息,并根据所述稿件区域信息中的标题区位置信息将所述特定属性信息添加到所述稿件内容中,得到对应的文本稿件和/或图片稿件。
4、如权利要求3所述的方法,其特征在于,所述步骤B1具体包括:
当提取的稿件内容为文章稿件内容时,如果发现所述文章中有竖排的符号或文字,则采用竖排文件提取规则提取正文;如果遇到段首空格,则插入段落标记,并过滤空格;如果遇到特殊符号,则将其过滤掉,最后形成文本稿件;和/或,
当提取的稿件内容为图片稿件内容时,则提取图片本身的信息,并提取所述图片所在的文件名,以及所述文件名对应的文件所在的路径,最后形成图片稿件;和/或,
当提取的稿件内容为表格稿件内容时,则按照从左至右、从上到下的单元格次序提取正文,并对提取出的正文添加间隔符,最后合成一篇文本稿件。
5、如权利要求3所述的方法,其特征在于,步骤B2中,所述根据所述排版文件的稿件信息结构提取所述所有稿件区域中的稿件的特定属性信息的过程,具体包括:
当所述稿件中包括文章稿件内容时,如果所述文章稿件内容中存在标题区内容信息,则从稿件信息结构中的标题区内容信息中提取出所述文章的标题;如果不存在标题区内容信息,则将稿件区内容信息中的字体字号最大的一段标识为标题;若正文字数小于系统设定的字数,则将该正文标识为标题;和/或,
当所述稿件中包括图片稿件内容时,从稿件信息结构中的标题区信息中提取出所述图片的标题;和/或,
当所述稿件中包括表格稿件内容时,从稿件信息结构中的标题区信息中提取出所述表格的标题,并通过注释符提取出表格说明或注释,并形成表格的简图。
6、如权利要求1所述的方法,其特征在于,在所述步骤B与步骤C之间还包括:
根据所述稿件区域信息中的稿件区位置信息确定得到的稿件中是否有存在关联关系的稿件,当确认有时,则根据所述关联关系将存在关联关系的稿件进行合并。
7、如权利要求6所述的方法,其特征在于,所述关联关系包括:
图文稿件关联关系,和/或,图片说明关联关系。
8、如权利要求7所述的方法,其特征在于,当仅仅一个文本稿件和一个图片稿件间存在关联关系,并且所述关联关系为图文稿件关联关系时,所述根据所述关联关系将存在关联关系的稿件进行合并的过程,具体包括:
将文本稿件的正文为新文本稿件的正文信息,文本稿件的标题作为新文本稿件的标题,图片稿件作为所述新文本稿件的附图信息。
9、如权利要求7所述的方法,其特征在于,当仅仅一个文本稿件和一个图片稿件存在关联关系,并且所述关联关系为图片说明关联关系时,所述根据所述关联关系将存在关联关系的稿件进行合并的过程,具体包括:
将图片稿件中的图片作为合并后的新图片稿件的内容信息,图片稿件的标题作为新图片稿件的标题;文本稿件作为所述新图片稿件的图片说明信息。
10、如权利要求7所述的方法,其特征在于,当多个文本稿件和/或多个图片稿件间存在关联关系,并且所述关联关系为图文稿件关联关系时,所述根据所述关联关系将存在关联关系的稿件进行合并的过程,具体包括:
将多个文本稿件的正文组合后,作为合并后新文本稿件的正文信息;以及,
所有图片稿件均作为所述新文本稿件的附图;以及,
所述新文本稿件的标题取自最大字号的文本稿件的标题,并将需要合并的其它文本稿件的标题保留在正文信息中;当附图有标题时,则将所述附图的标题保留在该附图的说明文字中。
11、如权利要求7所述的方法,其特征在于,当多个图片稿件和/或多个文本稿件间存在关联关系,并且所述关联关系为图片说明关联关系时,所述根据所述关联关系将存在关联关系的稿件进行合并的过程,具体包括:
首先按照图片大小的顺序将多个图片稿件中的图片进行排序,并根据所述排序结果确定主图和附图;如果图片大小相同,则按照从左到右、从上到下的顺序将相同大小的图片进行排序,并根据排序结果确定主图和附图,并将所述所有主图和附图作为合并后新图片稿件的图片信息;以及,
将多个文本稿件合并成一篇文字说明,并将其作为所述新图片稿件的图片说明信息;
合并后的新稿件的标题取自最大字号的图片稿件的标题,并将需要合并的其它图片稿件的标题保留在图片说明信息中。
12、如权利要求1所述的方法,其特征在于,步骤C中,所述根据稿件的重要性以及所述稿件区域信息将提取出的稿件进行排序的过程,具体包括:
按照各个稿件的位置信息对应的垂直坐标值确定稿件的排列序号,若垂直坐标值相同,则依照稿件水平坐标值确定稿件的排列序号。
13、如权利要求12所述的方法,其特征在于,步骤C中,所述根据稿件的重要性以及所述稿件区域信息将提取出的稿件进行排序的过程,还包括:
如果所述排版文件的版面信息的版次为第一版,则将报头之下,且垂直坐标和水平坐标值最小的稿件排列在头条。
14、如权利要求1所述的方法,其特征在于,还包括:
将得到的见报资料的数据信息导出。
CN 200610112710 2006-08-30 2006-08-30 一种提取见报资料数据信息的方法 Pending CN1912874A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200610112710 CN1912874A (zh) 2006-08-30 2006-08-30 一种提取见报资料数据信息的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200610112710 CN1912874A (zh) 2006-08-30 2006-08-30 一种提取见报资料数据信息的方法

Publications (1)

Publication Number Publication Date
CN1912874A true CN1912874A (zh) 2007-02-14

Family

ID=37721813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200610112710 Pending CN1912874A (zh) 2006-08-30 2006-08-30 一种提取见报资料数据信息的方法

Country Status (1)

Country Link
CN (1) CN1912874A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101105799B (zh) * 2007-08-02 2010-04-07 华中科技大学 评价文件重要性程度的方法
CN102103612A (zh) * 2009-12-22 2011-06-22 北大方正集团有限公司 一种信息提取方法及装置
CN102385584A (zh) * 2010-08-31 2012-03-21 北大方正集团有限公司 剪报方法、装置及系统
CN102541816A (zh) * 2010-12-10 2012-07-04 北大方正集团有限公司 一种信息处理方法以及信息处理装置
CN102567291A (zh) * 2010-12-31 2012-07-11 北大方正集团有限公司 一种删除版式文档中的花边字符的方法及装置
CN101727438B (zh) * 2008-10-30 2012-07-18 北大方正集团有限公司 一种数字报刊版面信息的自动提取方法
CN102043762B (zh) * 2009-10-15 2013-01-16 北大方正集团有限公司 一种版面比对的方法及装置
CN101714149B (zh) * 2008-10-08 2013-03-06 北大方正集团有限公司 一种反解版式文件后得到的图片和图说的自动关联方法
WO2014086266A1 (zh) * 2012-12-05 2014-06-12 上海合合信息科技发展有限公司 一种方便电子化的专业笔记本及其电子缩略图显示方法
CN103870543A (zh) * 2014-02-25 2014-06-18 百度在线网络技术(北京)有限公司 一种用于文档文件重构的方法及装置
CN105512095A (zh) * 2014-09-25 2016-04-20 北大方正集团有限公司 Epub电子书的生成方法
CN105653549A (zh) * 2014-11-12 2016-06-08 北大方正集团有限公司 一种提取文档信息的方法及装置
CN107153665A (zh) * 2016-03-04 2017-09-12 北大方正集团有限公司 一种数字报纸展示方法及系统
CN110728240A (zh) * 2019-10-14 2020-01-24 北京华宇信息技术有限公司 一种对电子卷宗的标题自动识别的方法及装置
CN111612414A (zh) * 2020-04-24 2020-09-01 上海第一财经传媒有限公司 一种移动媒体应用管理系统

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101105799B (zh) * 2007-08-02 2010-04-07 华中科技大学 评价文件重要性程度的方法
CN101714149B (zh) * 2008-10-08 2013-03-06 北大方正集团有限公司 一种反解版式文件后得到的图片和图说的自动关联方法
CN101727438B (zh) * 2008-10-30 2012-07-18 北大方正集团有限公司 一种数字报刊版面信息的自动提取方法
CN102043762B (zh) * 2009-10-15 2013-01-16 北大方正集团有限公司 一种版面比对的方法及装置
CN102103612A (zh) * 2009-12-22 2011-06-22 北大方正集团有限公司 一种信息提取方法及装置
CN102385584A (zh) * 2010-08-31 2012-03-21 北大方正集团有限公司 剪报方法、装置及系统
CN102541816B (zh) * 2010-12-10 2015-03-04 北大方正集团有限公司 一种信息处理方法以及信息处理装置
CN102541816A (zh) * 2010-12-10 2012-07-04 北大方正集团有限公司 一种信息处理方法以及信息处理装置
CN102567291A (zh) * 2010-12-31 2012-07-11 北大方正集团有限公司 一种删除版式文档中的花边字符的方法及装置
WO2014086266A1 (zh) * 2012-12-05 2014-06-12 上海合合信息科技发展有限公司 一种方便电子化的专业笔记本及其电子缩略图显示方法
CN103870543A (zh) * 2014-02-25 2014-06-18 百度在线网络技术(北京)有限公司 一种用于文档文件重构的方法及装置
CN103870543B (zh) * 2014-02-25 2017-07-25 百度在线网络技术(北京)有限公司 一种用于文档文件重构的方法及装置
CN105512095A (zh) * 2014-09-25 2016-04-20 北大方正集团有限公司 Epub电子书的生成方法
CN105512095B (zh) * 2014-09-25 2018-07-13 北大方正集团有限公司 Epub电子书的生成方法
CN105653549A (zh) * 2014-11-12 2016-06-08 北大方正集团有限公司 一种提取文档信息的方法及装置
CN107153665A (zh) * 2016-03-04 2017-09-12 北大方正集团有限公司 一种数字报纸展示方法及系统
CN110728240A (zh) * 2019-10-14 2020-01-24 北京华宇信息技术有限公司 一种对电子卷宗的标题自动识别的方法及装置
CN111612414A (zh) * 2020-04-24 2020-09-01 上海第一财经传媒有限公司 一种移动媒体应用管理系统
CN111612414B (zh) * 2020-04-24 2024-04-02 上海第一财经传媒有限公司 一种移动媒体应用管理系统

Similar Documents

Publication Publication Date Title
CN1912874A (zh) 一种提取见报资料数据信息的方法
US7705848B2 (en) Method of identifying semantic units in an electronic document
Papadopoulos et al. The IMPACT dataset of historical document images
JP4181892B2 (ja) 画像処理方法
CN101770446B (zh) 一种版式文件中表格识别方法及系统
US20040139391A1 (en) Integration of handwritten annotations into an electronic original
CN101872340A (zh) 一种基于版面格式模板的排版方法及装置
CN110704570A (zh) 一种连续页版式文档结构化信息提取方法
CN101046808A (zh) 一种文档处理系统和方法
WO2007018501A1 (en) A method for finding text reading order in a document
CN1763748A (zh) 电子归档系统和电子归档方法
CN1278260C (zh) 一种排版方法
JP2003288334A (ja) 文書処理装置及び文書処理方法
CN1745389A (zh) 用于监管出版媒体中的项目的出版和用于准备出版物的自动校样的方法
CN1525378A (zh) 票据定义数据生成方法以及票据处理装置
JP5380040B2 (ja) 文書処理装置
CN1808421A (zh) 一种基于电子版样纸的排版系统及排版方法
CN111144445B (zh) 印刷书刊书写格式的检错方法及系统、电子设备
JP2006221569A (ja) 文書処理システム、文書処理方法、プログラムおよび記憶媒体
CN101833545A (zh) 数字资源加工过程中的数据标引方法
JP2004246577A (ja) 画像処理方法
JP5446877B2 (ja) 目次構造特定装置
JP2005043990A (ja) 文書処理装置および文書処理方法
JP4807618B2 (ja) 画像処理装置及び画像処理プログラム
CN106874242B (zh) 一种排版方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication