CN1604073A - 一种对报纸版面进行标题与正文逻辑关联的方法 - Google Patents
一种对报纸版面进行标题与正文逻辑关联的方法 Download PDFInfo
- Publication number
- CN1604073A CN1604073A CN 200410091432 CN200410091432A CN1604073A CN 1604073 A CN1604073 A CN 1604073A CN 200410091432 CN200410091432 CN 200410091432 CN 200410091432 A CN200410091432 A CN 200410091432A CN 1604073 A CN1604073 A CN 1604073A
- Authority
- CN
- China
- Prior art keywords
- text
- chapter
- title
- word set
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000006185 dispersion Substances 0.000 claims description 31
- 229920006395 saturated elastomer Polymers 0.000 claims description 8
- 238000003058 natural language processing Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 230000008878 coupling Effects 0.000 claims description 5
- 238000010168 coupling process Methods 0.000 claims description 5
- 238000005859 coupling reaction Methods 0.000 claims description 5
- 230000003190 augmentative effect Effects 0.000 claims description 2
- 238000005194 fractionation Methods 0.000 claims description 2
- 239000002245 particle Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 235000012364 Peperomia pellucida Nutrition 0.000 description 1
- 240000007711 Peperomia pellucida Species 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明属于智能文字与图形信息处理技术,具体涉及一种对报纸版面进行标题与正文逻辑关联的方法。针对现有版面理解技术只依赖样式信息分类版面逻辑对象且对多篇章多标题的报纸版面缺乏语义结构提取的缺陷,本发明首次以图论理论进行数学建模,利用二分图匹配模型描述非正文区域集和正文区域集匹配粒度一对一的特性,根据空间关系建立加权二分图,并首次采用自然语言处理技术计算二分图边权值,最优匹配结果的配对饱和顶点作为逻辑关联成功的标题和正文篇章。本发明提出用最优匹配的库恩-曼克勒(Kuhn-Munkres)算法和人工智能相结合来解决标题正文的逻辑关联问题,使得匹配准确率非常高,可应用于历史数据结构化和元数据提取处理中。
Description
技术领域
本发明属于智能文字与图形信息处理技术,具体涉及一种对报纸版面进行标题与正文逻辑关联的方法。
背景技术
报纸标题在分类、检索等内容管理系统中起着重要作用,Dublin Core和NewsML都把标题作为一种重要元数据,特别是在跨媒体出版中,标题作为元数据及XML消息结构的重要元素,与正文逻辑关联的正确与否直接影响到数字资产管理系统中信息的重用与深加工,如检索、再发布和超级链接等。逻辑关联指的就是把报纸版面二维空间上平铺的各个文字块按其语义功能逻辑分类为标题、正文、报头、引语等,然后把表示同一消息的标题和正文作为一个结构的项关联起来。作为传统的媒体形式,不同于书籍、杂志,报纸的信息传播具有密集性,即在一个版面上进行多个篇章的排版,为了提高易读性,每个篇章都有一个对其内容进行概括的标题,在位置上标题内嵌于篇章区域或与篇章邻接,在表现形式上标题具有通栏、加黑加大字体等醒目特点。但在纸媒介、排版软件、PDF等各种载体的报纸版面中,篇章正文与标题并没有内在的结构化的关联,只是版面空间上的平铺罗列,且标题位置随意、字体大小不固定、横竖排不固定、一个标题与多个正文块位置邻近,使得判断一个标题与哪个正文匹配存在歧义,另外一些类标题块如报头、引语等在样式上与标题同质,仅仅利用样式信息无法正确对文字块进行逻辑分类。
另外,人们通过视觉思维能力和语义进行正文与标题的逻辑关联,但计算机却无法从直接的信息“理解”这种结构关联。由于报纸历史资产数量巨大,采用人工辅助干预方法既耗时成本又太大,如何在版面理解和结构化重构过程中使计算机智能、自动的进行报纸版面标题与正文的逻辑关联成为迫切需求。
标题与正文逻辑关联和对文字块逻辑分类需要交替进行,即首先粗分类文字块为非正文决和正文块,然后进行逻辑关联,再利用匹配的结果确定哪些非正文文字块是真正的标题,但目前对标题的逻辑分类都是利用样式信息独立进行的,如文献“Document page similarity based on layout visual saliency:Application to query by example and documentclassification”(Proceedings of the Seventh International ConferenceonDocument Analysis and Recognition.2003,1208~1212);而文献TOC(TableOf Content)目录提取方法“Automated Detection and Segmentation of Tableof Contents Page from Document Images”(作者是S.Mandal,S.P.Chowdhury和A.K.Das.发表于Proceedings of the Seventh International Conferenceon Document Analysis and Recognition,2003,398~402.)只适合书籍版面,对复杂版面的报纸无能为力;文献“复杂中文报纸的版面分析、理解和重构”(作者陈明、丁晓青、梁健。清华大学学报自然科学版2001年第41卷第1期.页码29~32,59)的匹配模型规则方法只能处理规则区域的常见类型,当正文区域是不规则形状或标题与正文的位置关系复杂时匹配模型没有描述的情况就无法正确匹配,另外一个标题与多个篇章位置邻接时存在歧义会导致错误匹配。现有技术缺乏统一的数学模型定量整体评估匹配优劣,都没有考虑语义信息,仅仅依据样式和位置信息处理复杂报纸版面是不够的。由于版面重构中标题与正文的逻辑关联处理是版面生成中为正文撰写标题的逆过程,自然语言处理技术中的标题生成的方法“Description of the UAM system for generationg veryshort summaries at DUC-2004”(Enrique alfonseca,Jose MariaGuirao,Antonio Moreno-Sandoval.Document Understanding Conference 2004)值得借鉴。
发明内容
针对现有技术中对报纸版面标题匹配效果不太理想的缺陷,本发明的目的是提供一种对报纸版面进行标题与正文逻辑关联的方法,该方法能对报纸版面进行篇章结构提取,可以大大提高标题匹配效果。
为达到以上目的,本发明采用的技术方案是:一种对报纸版面进行标题与正文逻辑关联的方法,包括以下步骤:
(1)读入版面分析后的报纸文档,对每个文字块按字体样式和块中行数量分类为正文文字块和非正文文字块,把正文文字块按阅读顺序和块样式分割成多个内容独立的篇章区域;
(2)建立加权二分图,二分图的两个顶点集分别包含所有的非正文文字块和篇章区域,二分图的边与非正文文字块和篇章区域在版面二维空间的相邻关系对应;
(3)二分图边的权值采用自然语言处理技术,由顶点对应的非正文文字块内容和篇章区域内容的语义确定,方法是利用标题是文章内容主题摘要的特点,把正文文字块中的文字进行词法分析后得到词集a,共有m个不同的词,并计算词集a中每个词的分散度和共指度,分散度以该词在篇章正文中最后一次出现和第一次出现的句子间距离表示,共指度以该词在篇章中出现的次数表示;同样把非正文文字块中的文字进行词法分析得到词集b,共有n个不同的词,并计算词集b中每个词在篇章正文中的相对分散度和相对共指度,相对分散度以该词在篇章正文中最后一次出现和第一次出现的句子间距离表示,相对共指度以该词在篇章中出现的次数表示;词集a中前n个最大分散度的和作为词集a的总分散度,词集a中前n个最大共指度的和作为词集a的总共指度,词集b中所有相对分散度的和作为词集b的总相对分散度,词集b中所有相对共指度的和作为词集b的总相对共指度。分散系数的计算通过词集b的总相对分散度除以词集a的总分散度得到,共指系数的计算通过词集b的总相对共指度除以词集a的总共指度得到;标题对篇章正文的词覆盖度,以词集b的词在篇章正文中出现的个数除以词集b所有词的个数表示。分散系数、共指系数和词覆盖度的线性加权即为边的权值;
(4)对加权二分图利用库恩-曼克勒(Kuhn-Munkres)算法进行最优匹配,最优匹配结果非正文文字块顶点集中的饱和顶点对应的非正文文字块内容即是标题,而与之有边相连的另一个篇章区域顶点集中的饱和顶点对应的就是这个标题所逻辑关联的正文篇章,二者分别作为XML篇章结构中的标题和正文项输出。
上述的逻辑关联指的是把报纸版面二维空间上平铺的各个文字块按其语义功能逻辑分类为标题、正文、报头、引语等,然后把表示同一消息的标题和正文作为一个结构的项关联起来,在进行标题与正文逻辑关联时,将图论中二分图的理论,算法及结果引入到文字块内容间摘要覆盖性的度量上,具体来说,是将图论中最优匹配的库恩-曼克勒(Kuhn-Munkres)算法用于基于内容的标题与正文逻辑关联。
本发明的效果在于:采用本发明所述的方法,通过信息处理装置能有效地对报纸版面进行篇章结构提取,大大提高了报纸版面中正文与标题的匹配效果。通过对问题的建模和对人类思维的模拟,使得匹配准确率非常高,可广泛地应用于数字资产管理系统的历史数据结构化和元数据提取处理中。
本发明之所以具有这样的效果,是因为本发明针对报纸版面文字区域复杂且文字块之间位置关系多样的特点,提出一种新的对报纸版面中标题逻辑关联正文的方法。本发明利用二分图匹配数学模型精确的描述了标题与正文粒度上一对一的特点,利用样式信息把报纸版面中文字块分类为非正文集和正文集,并根据两集合元素间的空间关系建立初始二分图,特别是首次采用自然语言处理技术,综合考虑抽取型和总结型两种摘要类型,并基于共指词链的长度与分散度计算标题对正文的语义摘要覆盖度作为非正文块与正文块之间逻辑关联的评判因子即加权二分图的边权值,经过最优匹配后的连接饱和点的边即是标题与正文的关联关系。
附图说明
图1是本发明的流程图;
图2是版面分析并分类后的报纸示意图;
图3是恢复阅读顺序后的具有篇章区域的报纸示意图;
图4是非正文文字块与篇章区域根据邻接关系生成的二分图示意图;
图5是库恩-曼克勒(Kuhn-Munkres)最优匹配算法结果示意图。
具体实施方式
下面结合附图对本发明作进一步地描述,本发明的流程图如图1所示:
(1)读入版面分析后的报纸文档,报纸文档包括扫描纸介质报纸并经OCR识别得到的文档、PDF、专业排版软件如方正飞腾生成的文档等,版面分析是自底向上把版面分割为各个块区域,并物理分类为文字块和图像块。对每个文字块按字体样式和块中行数量分类为正文文字块和非正文文字块,如图2所示,实线矩形表示正文文字块,虚线矩形表示非正文文字块,把正文文字块的邻接关系表示为有向图,并拆分转化为加权二分图,采用自然语言处理技术计算二分图边权值,通过最优匹配得到多个连续序列,每个序列再根据文字块样式信息分割成多个子序列,合并子序列对应的区域即是独立的篇章区域,其对应内容连接成的文字流作为篇章区域的内容,如图3所示,箭头表示阅读顺序的先后,每个连续的箭头序列把正文文字块组成了篇章区域,带圈数字表示篇章区域的编号,普通数字表示非正文文字块的编号;
(2)建立加权二分图,二分图的两个顶点集分别包含所有的非正文文字块和篇章区域,二分图的边与非正文文字块和篇章区域在版面二维空间的相邻关系对应,如图4所示,左边顶点集表示非正文文字块,右边顶点集表示篇章区域;
(3)二分图边的权值采用自然语言处理技术,由顶点对应的非正文文字块内容和篇章区域内容的语义确定,方法是利用标题是文章内容主题摘要的特点,把正文文字块中的文字进行词法分析后得到词集a,共有m个不同的词,并计算词集a中每个词的分散度和共指度,分散度以该词在篇章正文中最后一次出现和第一次出现的句子间距离表示,共指度以该词在篇章中出现的次数表示;同样把非正文文字块中的文字进行词法分析后得到词集b,共有n个不同的词,并计算词集b中每个词在篇章正文中的相对分散度和相对共指度,相对分散度以该词在篇章正文中最后一次出现和第一次出现的句子间距离表示,相对共指度以该词在篇章中出现的次数表示;词集a中前n个最大分散度的和作为词集a的总分散度,词集a中前n个最大共指度的和作为词集a的总共指度,词集b中所有相对分散度的和作为词集b的总相对分散度,词集b中所有相对共指度的和作为词集b的总相对共指度。分散系数的计算通过词集b的总相对分散度除以词集a的总分散度得到,共指系数的计算通过词集b的总相对共指度除以词集a的总共指度得到;标题对篇章正文的词覆盖度,以词集b的词在篇章正文中出现的个数除以词集b所有词的个数表示。分散系数、共指系数和词覆盖度的线性加权即为边的权值;
(4)对加权二分图利用库恩-曼克勒(Kuhn-Munkres)算法进行最优匹配,最优匹配结果非正文文字块顶点集中的饱和顶点对应的非正文文字块内容即是标题,而与之有边相连的另一个篇章区域顶点集中的饱和顶点对应的就是这个标题所逻辑关联的正文篇章,如图5所示,被边相连的左边顶点表示标题,右边顶点表示与之逻辑关联的篇章正文,如标题6与正文7是同一个消息的组成部分,二者分别作为XML篇章结构中的标题和正文项输出。最优匹配结果的非饱和点对应的文字块既非标题也非正文,只是版面中如报头、引语等其他类型的内容,既解决了版面对象逻辑分类问题又完成了标题与正文的逻辑关联。计算最优匹配的Kuhn_Munkres算法如下:
1)给出初始标号
2)求出边集El={(xi,yj)|l(xi)+l(yj)=ωij}、Gl=(X,Yk,El)及Gl中的一个匹配M;
3)如M已饱和X的所有结点,则M即是G的最优匹配,计算结束,否则进行下一步;
4)在X中找一M非饱和点x0,令A←(x0},B←φ,A,B是两个集合;
5)若
则转第9)步,否则进行下一步,其中,
是与A中结点邻接的结点集合;
6)找一结点
7)若y是M饱和点,则找出y的配对点z,令A←A∪{z},B←B∪{y},转第5)步,否则进行下一步;
8)存在一条从x0到y的可增广路P,令M←ME(P),转第3)步;
9)按下式计算α值:
修改标号:
根据l′求El′及Gl′;
10)l←l′,Gl←Gl′,转第6)步。
Claims (3)
1.一种对报纸版面进行标题与正文逻辑关联的方法,包括以下步骤:
(1)读入版面分析后的报纸文档,对每个文字块按字体样式和块中行数量分类为正文文字块和非正文文字块,把正文文字块按阅读顺序和块样式分割成多个内容独立的篇章区域;
(2)建立加权二分图,二分图的两个顶点集分别包含所有的非正文文字块和篇章区域,二分图的边与非正文文字块和篇章区域在版面二维空间的相邻关系对应;
(3)二分图边的权值采用自然语言处理技术,由顶点对应的非正文文字块内容和篇章区域内容的语义确定,方法是利用标题是文章内容主题摘要的特点,把正文文字块中的文字进行词法分析后得到词集a,共有m个不同的词,并计算词集a中每个词的分散度和共指度,分散度以该词在篇章正文中最后一次出现和第一次出现的句子间距离表示,共指度以该词在篇章中出现的次数表示;同样把非正文文字块中的文字进行词法分析得到词集b,共有n个不同的词,并计算词集b中每个词在篇章正文中的相对分散度和相对共指度,相对分散度以该词在篇章正文中最后一次出现和第一次出现的句子间距离表示,相对共指度以该词在篇章中出现的次数表示;词集a中前n个最大分散度的和作为词集a的总分散度,词集a中前n个最大共指度的和作为词集a的总共指度,词集b中所有相对分散度的和作为词集b的总相对分散度,词集b中所有相对共指度的和作为词集b的总相对共指度,分散系数的计算通过词集b的总相对分散度除以词集a的总分散度得到,共指系数的计算通过词集b的总相对共指度除以词集a的总共指度得到;标题对篇章正文的词覆盖度,以词集b的词在篇章正文中出现的个数除以词集b所有词的个数表示,分散系数、共指系数和词覆盖度的线性加权即为边的权值;
(4)对加权二分图利用库恩-曼克勒(Kuhn-Munkres)算法进行最优匹配,最优匹配结果非正文文字块顶点集中的饱和顶点对应的非正文文字块内容即是标题,而与之有边相连的另一个篇章区域顶点集中的饱和顶点对应的就是这个标题所逻辑关联的正文篇章,二者分别作为XML篇章结构中的标题和正文项输出;
上述的逻辑关联指的是把报纸版面二维空间上平铺的各个文字块按其语义功能逻辑分类为标题、正文、报头、引语,然后把表示同一消息的标题和正文作为一个结构的项关联起来。
2.如权利要求1所述的一种对报纸版面进行标题与正文逻辑关联的方法,其特征在于:步骤(1)中报纸文档包括扫描纸介质报纸并经OCR识别得到的文档、PDF、专业排版软件如方正飞腾生成的文档,版面分析是自底向上把版面分割为各个块区域,并物理分类为文字块和图像块,对每个文字块按字体样式和块中行数量分类为正文文字块和非正文文字块,把正文文字块的邻接关系表示为有向图,并拆分转化为加权二分图,采用自然语言处理技术计算二分图边权值,通过最优匹配得到多个连续序列,每个序列再根据文字块样式信息分割成多个子序列,合并子序列对应的区域即是独立的篇章区域,其对应内容连接成的文字流作为篇章区域的内容。
3.如权利要求1所述的一种对报纸版面进行标题与正文逻辑关联的方法,其特征在于:步骤(4)中,最优匹配结果的非饱和点对应的文字块既非标题也非正文,只是版面中如报头、引语等其他类型的内容,既解决了版面对象逻辑分类问题又完成了标题与正文的逻辑关联,计算最优匹配的库恩-曼克勒(Kuhn-Munkres)算法如下:
1)给出初始标号
2)求出边集El={(xi,yj)|l(xi)+l(yj)=ωij}、Gl=(X,Yk,El)及Gl中的一个匹配M;
3)如M已饱和X的所有结点,则M即是G的最优匹配,计算结束,否则进行下一步;
4)在X中找一M非饱和点x0,令A←{x0},B←φ,A,B是两个集合;
5)若
,则转第9)步,否则进行下一步,其中,
,是与A中结点邻接的结点集合;
6)找一结点
7)若y是M饱和点,则找出y的配对点z,令A←A∪{z},B←B∪{y},转第5)步,否则进行下一步;
8)存在一条从x0到y的可增广路P,令M←ME(P),转第3)步;
9)按下式计算α值:
,修改标号:
根据l′求El′及Gl′;
10)l←l′,Gl←Gl′,转第6)步。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2004100914324A CN1320481C (zh) | 2004-11-22 | 2004-11-22 | 一种对报纸版面进行标题与正文逻辑关联的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2004100914324A CN1320481C (zh) | 2004-11-22 | 2004-11-22 | 一种对报纸版面进行标题与正文逻辑关联的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1604073A true CN1604073A (zh) | 2005-04-06 |
CN1320481C CN1320481C (zh) | 2007-06-06 |
Family
ID=34667254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2004100914324A Expired - Fee Related CN1320481C (zh) | 2004-11-22 | 2004-11-22 | 一种对报纸版面进行标题与正文逻辑关联的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1320481C (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009000141A1 (fr) * | 2007-06-22 | 2008-12-31 | Peking University Founder Group Co., Ltd. | Procédé, système et dispositif de représentation d'informations de structure logique de fichier de mise en page |
CN102177520A (zh) * | 2008-08-13 | 2011-09-07 | 谷歌公司 | 将印刷媒体页面分割成文章 |
CN102262618A (zh) * | 2010-05-28 | 2011-11-30 | 北京大学 | 一种版面信息识别的方法及装置 |
CN101206639B (zh) * | 2007-12-20 | 2012-05-23 | 北大方正集团有限公司 | 一种基于pdf的复杂版面的标引方法 |
CN101727438B (zh) * | 2008-10-30 | 2012-07-18 | 北大方正集团有限公司 | 一种数字报刊版面信息的自动提取方法 |
CN102890827A (zh) * | 2011-10-09 | 2013-01-23 | 北京多看科技有限公司 | 一种扫描版文档重排版的方法 |
CN102929843A (zh) * | 2012-09-14 | 2013-02-13 | 《中国学术期刊(光盘版)》电子杂志社 | 一种文字编改系统及编改的方法 |
CN103092828A (zh) * | 2013-02-06 | 2013-05-08 | 杭州电子科技大学 | 基于语义分析和语义关系网络的文本相似度度量方法 |
CN103577818A (zh) * | 2012-08-07 | 2014-02-12 | 北京百度网讯科技有限公司 | 一种图像文字识别的方法和装置 |
CN106951400A (zh) * | 2017-02-06 | 2017-07-14 | 北京因果树网络科技有限公司 | 一种pdf文件的信息抽取方法及装置 |
CN104239282B (zh) * | 2014-09-09 | 2017-11-14 | 百度在线网络技术(北京)有限公司 | 电子书的处理方法和装置 |
CN107358208A (zh) * | 2017-07-14 | 2017-11-17 | 北京神州泰岳软件股份有限公司 | 一种pdf文档结构化信息提取方法及装置 |
CN108268429A (zh) * | 2017-06-15 | 2018-07-10 | 广东神马搜索科技有限公司 | 网络文学章节的确定方法和装置 |
CN111143230A (zh) * | 2018-11-02 | 2020-05-12 | 群联电子股份有限公司 | 数据整并方法、存储器存储装置及存储器控制电路单元 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995002221A1 (en) * | 1993-07-07 | 1995-01-19 | Inference Corporation | Case-based organizing and querying of a database |
JP2003006216A (ja) * | 2001-06-26 | 2003-01-10 | Sony Corp | 情報処理装置および情報処理方法、記録媒体、プログラム、並びに電子出版用データ提供システム |
-
2004
- 2004-11-22 CN CNB2004100914324A patent/CN1320481C/zh not_active Expired - Fee Related
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009000141A1 (fr) * | 2007-06-22 | 2008-12-31 | Peking University Founder Group Co., Ltd. | Procédé, système et dispositif de représentation d'informations de structure logique de fichier de mise en page |
CN101206639B (zh) * | 2007-12-20 | 2012-05-23 | 北大方正集团有限公司 | 一种基于pdf的复杂版面的标引方法 |
CN102177520B (zh) * | 2008-08-13 | 2014-03-12 | 谷歌公司 | 将印刷媒体页面分割成文章 |
CN102177520A (zh) * | 2008-08-13 | 2011-09-07 | 谷歌公司 | 将印刷媒体页面分割成文章 |
CN101727438B (zh) * | 2008-10-30 | 2012-07-18 | 北大方正集团有限公司 | 一种数字报刊版面信息的自动提取方法 |
CN102262618A (zh) * | 2010-05-28 | 2011-11-30 | 北京大学 | 一种版面信息识别的方法及装置 |
CN102262618B (zh) * | 2010-05-28 | 2014-07-09 | 北京大学 | 一种版面信息识别的方法及装置 |
CN102890827A (zh) * | 2011-10-09 | 2013-01-23 | 北京多看科技有限公司 | 一种扫描版文档重排版的方法 |
CN102890827B (zh) * | 2011-10-09 | 2015-05-13 | 北京多看科技有限公司 | 一种扫描版文档重排版的方法 |
CN103577818B (zh) * | 2012-08-07 | 2018-09-04 | 北京百度网讯科技有限公司 | 一种图像文字识别的方法和装置 |
CN103577818A (zh) * | 2012-08-07 | 2014-02-12 | 北京百度网讯科技有限公司 | 一种图像文字识别的方法和装置 |
CN102929843A (zh) * | 2012-09-14 | 2013-02-13 | 《中国学术期刊(光盘版)》电子杂志社 | 一种文字编改系统及编改的方法 |
CN103092828A (zh) * | 2013-02-06 | 2013-05-08 | 杭州电子科技大学 | 基于语义分析和语义关系网络的文本相似度度量方法 |
CN103092828B (zh) * | 2013-02-06 | 2015-08-12 | 杭州电子科技大学 | 基于语义分析和语义关系网络的文本相似度度量方法 |
CN104239282B (zh) * | 2014-09-09 | 2017-11-14 | 百度在线网络技术(北京)有限公司 | 电子书的处理方法和装置 |
CN106951400A (zh) * | 2017-02-06 | 2017-07-14 | 北京因果树网络科技有限公司 | 一种pdf文件的信息抽取方法及装置 |
CN108268429A (zh) * | 2017-06-15 | 2018-07-10 | 广东神马搜索科技有限公司 | 网络文学章节的确定方法和装置 |
CN108268429B (zh) * | 2017-06-15 | 2021-08-06 | 阿里巴巴(中国)有限公司 | 网络文学章节的确定方法和装置 |
CN107358208A (zh) * | 2017-07-14 | 2017-11-17 | 北京神州泰岳软件股份有限公司 | 一种pdf文档结构化信息提取方法及装置 |
CN111143230A (zh) * | 2018-11-02 | 2020-05-12 | 群联电子股份有限公司 | 数据整并方法、存储器存储装置及存储器控制电路单元 |
CN111143230B (zh) * | 2018-11-02 | 2022-03-29 | 群联电子股份有限公司 | 数据整并方法、存储器存储装置及存储器控制电路单元 |
Also Published As
Publication number | Publication date |
---|---|
CN1320481C (zh) | 2007-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103049435B (zh) | 文本细粒度情感分析方法及装置 | |
US7899826B2 (en) | Semantic reconstruction | |
CN103473263B (zh) | 一种面向新闻事件演变过程的可视化展现方法 | |
CN1320481C (zh) | 一种对报纸版面进行标题与正文逻辑关联的方法 | |
CN102662969B (zh) | 一种基于网页结构语义的互联网信息对象定位方法 | |
Perez-Arriaga et al. | TAO: system for table detection and extraction from PDF documents | |
CN112667940B (zh) | 基于深度学习的网页正文抽取方法 | |
CN103246644B (zh) | 一种网络舆情信息处理方法和装置 | |
Gao et al. | Structure extraction from PDF-based book documents | |
CN109446423B (zh) | 一种新闻以及文本的情感判断系统及方法 | |
Boubaker et al. | Online Arabic databases and applications | |
CN112084451B (zh) | 一种基于视觉分块的网页logo提取系统及方法 | |
Sharafat et al. | Data mining for smart legal systems | |
Bloechle et al. | XCDF: a canonical and structured document format | |
Aumann et al. | Visual information extraction | |
CN116994282B (zh) | 一种用于桥梁设计图的钢筋数量识别归集方法 | |
CN100336061C (zh) | 多媒体对象检索设备和方法 | |
Ishihara et al. | Analyzing visual layout for a non-visual presentation-document interface | |
CN112632421B (zh) | 一种自适应结构化的文档抽取方法 | |
CN104063506A (zh) | 重复网页识别方法和装置 | |
Naiman et al. | The digitization of historical astrophysical literature with highly localized figures and figure captions | |
Scanniello et al. | Using semantic clustering to enhance the navigation structure of web sites | |
Tanaka et al. | Constructing a public meeting corpus | |
Voutharoja et al. | Language independent neuro-symbolic semantic parsing for form understanding | |
Rastan | Towards generic framework for tabular data extraction and management in documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20070606 |