CN113268982A - 一种网络表格结构的识别方法及装置、计算机装置及计算机可读取存储介质 - Google Patents

一种网络表格结构的识别方法及装置、计算机装置及计算机可读取存储介质 Download PDF

Info

Publication number
CN113268982A
CN113268982A CN202110618601.9A CN202110618601A CN113268982A CN 113268982 A CN113268982 A CN 113268982A CN 202110618601 A CN202110618601 A CN 202110618601A CN 113268982 A CN113268982 A CN 113268982A
Authority
CN
China
Prior art keywords
cell
network
table structure
text
network table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110618601.9A
Other languages
English (en)
Other versions
CN113268982B (zh
Inventor
王志斌
段炼
周忠诚
彭文凯
黄九鸣
张圣栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Sifang Tianjian Information Technology Co Ltd
Original Assignee
Hunan Sifang Tianjian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Sifang Tianjian Information Technology Co Ltd filed Critical Hunan Sifang Tianjian Information Technology Co Ltd
Priority to CN202110618601.9A priority Critical patent/CN113268982B/zh
Publication of CN113268982A publication Critical patent/CN113268982A/zh
Application granted granted Critical
Publication of CN113268982B publication Critical patent/CN113268982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种网络表格结构的识别方法及装置、计算机装置及计算机可读取存储介质,该方法先通过对输入的HTML文件进行预处理以获取其中的表格相关信息,所述表格相关信息包括单元格文本和单元格所在位置,然后通过利用训练好的网络表格结构识别模型基于获取的单元格文本和单元格所在位置进行网络表格结构的识别,由于采用单元格作为最小识别粒度,相对于现有采用表格行作为识别单位,大大提升了识别结果的准确度,可以适应各种复杂的网络表格结构识别场景。

Description

一种网络表格结构的识别方法及装置、计算机装置及计算机 可读取存储介质
技术领域
本发明涉及表格信息抽取技术领域,特别地,涉及一种网络表格结构的识别方法及装置、计算机装置及计算机可读取存储介质。
背景技术
网络表格作为一种重要的信息表现形式广泛地存在于网络文档中,里面存放着大量价值较高的信息,但由于其内容缺乏清晰的语义信息且表格结构复杂多样导致计算机难以准确对表格内容进行理解。因此,对于网络表格信息抽取的研究具有重大意义。而表格结构识别是表格信息抽取领域的研究热点之一,它具体是指对表格结构进行分析,对表格区域进行划分等,例如包括表头区域识别、表体区域识别等。现有的表格结构识别研究可大体分为两类,分别为基于规则的表格结构识别方法和基于机器学习的表格结构识别方法。
其中,在基于规则的表格结构识别方法研究中,[Yang Y,Luk W S.A frameworkfor web table mining[C]//the fourth international workshop.2002.]提出了识别表格标题行和内容行的基本规则为:标题行中的单元格相对较少;标题行的视觉特性明显不同于内容行。BYU研究小组的Cui Tao在文章[Cui Tao.Schema Matching and DataExtraction over HTML Tables[D].Brigham Young University,USA,2003.]中提出了根据表格属性的位置信息和其他结构化信息定位表格标题和内容行。另外,还有人根据HTML标签信息识别表格结构,他们认为<th>标签代表的行即为标题行,<tb>标签代表的行即为内容行。
而在基于机器学习的表格结构识别方法研究中,大多是以表格行为单位人工提取表格行的特征,表格行特征包括结构特征、视觉特征、文本特征等,并利用这些特征对表格行进行分类,从而了解表格结构。其中,[Chen Y.Deep differentiable forest withsparse attention for the tabular data[J].2020.]和[Chavan M M,Shirgave S K.AMethodology for Extracting Head Contents from Meaningful Tables in Web Pages[C]//2011 International Conference on Communication Systems and NetworkTechnologies.IEEE,2011.]提出了使用决策树作为分类器对表格行进行分类。另外,[Adelfio M D,Samet H.Schema extraction for tabular data on the web[J].Proceedings of the VLDB Endowment,2013.]和[Chen X,Chiticariu L,Danilevsky M,et al.A Rectangle Mining Method for Understanding the Semantics of FinancialTables[C]//2017 14th IAPR International Conference on Document Analysis andRecognition(ICDAR).IEEE,2018.]则提出了使用CRF作为分类器对表格进行分类。
但是,现有的表格结构识别算法大多针对特定领域的简单表格,而且现有的识别算法通常都是以表格行为单位对表格结构进行识别,但是真实场景下的网络表格极其复杂,在一个表格行内可能同时出现表头单元格与表体单元格,单纯的针对表格行对表格结构进行划分不能满足真实场景的需要,导致现有的表格结构识别算法准确率不高。同时,现有的表格结构识别算法只能应用于指定领域,迁移到其他领域的难度较高,其中,基于规则的表格抽取算法在迁移到其他领域时需要请该领域专家重新指定规则,算法开发周期长且算法准确率普遍不高,而基于机器学习的表格抽取算法迁移到其他领域时需要重新对数据进行标注,需要大量的人力与时间成本。
发明内容
本发明提供了一种网络表格结构的识别方法及装置、计算机装置及计算机可读取存储介质,以解决现有的技术问题。
根据本发明的一个方面,提供一种网络表格结构的识别方法,包括以下过程:
输入HTML文件;
对输入的HTML文件进行预处理以获取其中的表格相关信息,所述表格相关信息包括单元格文本和单元格所在位置;
利用训练好的网络表格结构识别模型基于获取的表格相关信息进行网络表格结构的识别;
输出识别得到的网络表格结构。
进一步地,所述对输入的HTML文件进行预处理以获取其中的表格相关信息的过程具体包括以下内容:
对所述HTML文件中包含的网络表格内容进行定位;
根据所述网络表格的特点,使用正则表达式获取所述网络表格中各个单元格的文本内容和所在位置,得到单元格文本和单元格所在位置。
进一步地,所述网络表格结构识别模型的训练过程具体包括以下内容:
收集预设数量的目标领域的网络表格,并抽取出所有网络表格中的行文本和列文本作为模型训练的语料,其中,所述网络表格中的每一行文本或每一列文本的数据集合视为一个句子,每行或每列中的每个单元格的文本视为一个句子中的词语;
建立一个空的key字典,并向其中添加预设数量的表头单元格中的文本作为种子文本;
计算所述语料中所有词语与所述种子文本在同一个句子中同时出现的次数,得到共现度;
挑选出所述共现度大于阈值的词语,并经过文本过滤后将所述共现度大于阈值的词语加入到所述key字典中;
重复计算所述共现度和进行所述key字典扩充,直至没有新的词语的共现度大于所述阈值则模型训练结束,并保存所述key字典。
进一步地,所述利用训练好的网络表格结构识别模型基于获取的表格相关信息进行网络表格结构的识别的过程包括以下内容:
判断所述单元格文本是否出现在所述key字典中,若出现则所述单元格文本对应的单元格为表头单元格,否则为表体单元格。
进一步地,所述网络表格结构识别模型的训练过程还包括以下内容:
根据生成的所述key字典与收集到的表格语料构建单元格共现度网络,所述单元格共现度网络是一种带权值的无向无环图,所述无向无环图中的顶点为表格语料中的词语,所述无向无环图中的边表示词语之间的共现关系,若两个词语存在共现关系则两个词语对应的顶点存在边,反之则不存在边,所述无向无环图中边的权值根据以下公式计算得出:
weighti,j=(Ei+Ej)/(occuri,j×simi.j)
其中,weighti,j表示顶点i与顶点j之间的边的权值,simi,j代表顶点i与顶点j的文本语义相似度,Ei和Ej是一个常数,当顶点i或顶点j是key字典中的词语时,取值为0,否则取值为5,occuri,j代表顶点i与顶点j的文本共现次数。
进一步地,所述利用训练好的网络表格结构识别模型基于获取的表格相关信息进行网络表格结构的识别的过程还包括以下内容:
根据所述单元格文本找到其在所述单元格共现度网络中所在的顶点,使用最短距离算法求出当前顶点到达最近的表头单元格顶点的距离,若求出的距离低于预设阈值,则所述单元格文本对应的单元格是表头单元格,否则为表体单元格。
进一步地,所述网络表格结构的识别方法还包括以下内容:
获取预设的多套网络表格模板,将所述网络表格结构识别模型的识别结果与所述多套网络表格模板进行匹配,若匹配成功,则所述网络表格模板的表格结构即为输入的HTML文件中的网络表格结构。
另外,本发明还提供一种网络表格结构的识别装置,包括:
输入模块,用于供用户输入HTML文件;
预处理模块,用于对输入的HTML文件进行预处理以获取其中的表格相关信息,所述表格相关信息包括单元格文本和单元格所在位置;
识别模块,用于利用训练好的网络表格结构识别模型基于获取的表格相关信息进行网络表格结构的识别;
输出模块,用于输出识别得到的网络表格结构。
另外,本发明还提供一种计算机装置,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行如上所述的方法的步骤。
另外,本发明还提供一种计算机可读取存储介质,用于存储进行网络表格结构识别的计算机程序,该计算机程序在计算机上运行时执行如上所述的方法的步骤。
本发明具有以下效果:本发明的网络表格结构的识别方法,先通过对输入的HTML文件进行预处理以获取其中的表格相关信息,所述表格相关信息包括单元格文本和单元格所在位置,然后通过利用训练好的网络表格结构识别模型基于获取的单元格文本和单元格所在位置进行网络表格结构的识别,由于采用单元格作为最小识别粒度,相对于现有采用表格行作为识别单位,大大提升了识别结果的准确度,可以适应各种复杂的网络表格结构识别场景。
另外,本发明的网络表格结构的识别装置、计算机装置和计算机可读取存储介质同样具有上述优点。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例的网络表格结构的识别方法的流程示意图。
图2是图1中步骤S2的子流程示意图。
图3是本发明优选实施例的网络表格结构识别模型的训练流程示意图。
图4是本发明另一实施例的网络表格结构的识别装置的模块结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明的优选实施例提供一种网络表格结构的识别方法,包括以下过程:
步骤S1:输入HTML文件;
步骤S2:对输入的HTML文件进行预处理以获取其中的表格相关信息,所述表格相关信息包括单元格文本和单元格所在位置;
步骤S3:利用训练好的网络表格结构识别模型基于获取的表格相关信息进行网络表格结构的识别;
步骤S4:输出识别得到的网络表格结构。
可以理解,本实施例的网络表格结构的识别方法,先通过对输入的HTML文件进行预处理以获取其中的表格相关信息,所述表格相关信息包括单元格文本和单元格所在位置,然后通过利用训练好的网络表格结构识别模型基于获取的单元格文本和单元格所在位置进行网络表格结构的识别,由于采用单元格作为最小识别粒度,相对于现有采用表格行作为识别单位,大大提升了识别结果的准确度,可以适应各种复杂的网络表格结构识别场景。
可以理解,由于网络表格的结构复杂性,需要先对HTML文件进行预处理以转化为模型可以接受的输入形式,确保能够准确被模型识别。如图2所示,所述步骤S2具体包括以下内容:
步骤S21:对所述HTML文件中包含的网络表格内容进行定位;
步骤S22:根据所述网络表格的特点,使用正则表达式获取所述网络表格中各个单元格的文本内容和所在位置,得到单元格文本和单元格所在位置。
其中,在所述步骤S21中,具体通过<table>标签找到HTML文件中包含的所有网络表格。
在所述步骤S22中,经过本申请发明人分析发现,HTML表格存在以下特点:HTML表格为纯文本形式;表格行内容会被<tr></tr>标签覆盖;单元格内容会被<tb></tb>或者<th></th>标签覆盖;单元格跨行信息存储在“rowSpan”字段中,跨列信息存储在“colSpan”字段中。基于上述特点,可以通过正则表达式准确地获取每个单元格的文本内容和单元格位置信息,从而得到单元格文本和单元格所在位置,以便于后续进行识别。
另外,在本发明的其它实施例中,所述步骤S2还包括以下内容:
将网络表格中包含的空表、行数列数为1的表格删除,并将嵌套表格中的子表提取出来,并在提取位置做上相应的标记。
由于网络表格中常包含由嵌套表格、空表、行数列数为1的表格,这些表格是无法进行结构分析的,因此,需要将这些异常表格剔除掉。其中,嵌套表格的子表被提取出来后,还需要在提取位置做好相应的标记,以便于后续的表格结构识别。通过对异常表格进行清洗,一方面减少了后续模型识别的数据量,提高了识别效率,另一方面删除了干扰信息,提高了识别准确度。
另外,发明人根据对网络表格的特点进行分析还发现了以下表格特征:表头单元格中的文本虽然复杂,但在同领域表格中,并非是不可统计的,只是完全由人工来统计容易错漏且耗时耗力;表头单元格内的文本与表体单元格内的文本基本不一致;表头单元格中的文本容易重复多次出现,而表体单元格内文本重复出现的较少;表头单元格通常会出现在表格的同一行或同一列。因此,本申请的发明人设计了以下的模型训练算法对网络表格结构模型进行训练。
具体地,如图3所示,所述步骤S3中的网络表格结构识别模型的训练过程具体包括以下内容:
步骤S31:收集预设数量的目标领域的网络表格,并抽取出所有网络表格中的行文本和列文本作为模型训练的语料,其中,所述网络表格中的每一行文本或每一列文本的数据集合视为一个句子,每行或每列中的每个单元格的文本视为一个句子中的词语;
步骤S32:建立一个空的key字典,并向其中添加预设数量的表头单元格中的文本作为种子文本;
步骤S33:计算所述语料中所有词语与所述种子文本在同一个句子中同时出现的次数,得到共现度;
步骤S34:挑选出所述共现度大于阈值的词语,并经过文本过滤后将所述共现度大于阈值的词语加入到所述key字典中;
步骤S35:重复计算所述共现度和进行所述key字典扩充,直至没有新的词语的共现度大于所述阈值则模型训练结束,并保存所述key字典。
可以理解,在所述步骤S31中,通过网络爬虫技术收集大量目标领域的网络表格,然后对其进行预处理,抽取出每个单元格的文本内容和单元格所在位置,进而抽取得到所有表格中的行文本和列文本作为模型训练的语料。其中,网络表格中的每一行文本或每一列文本的数据集合视为一个句子,每行或每列中的每个单元格的文本视为一个句子中的词语。
在所述步骤S32中,建立一个空的key字典,然后加入预设数量的表头单元格中的文本作为种子文本,后续通过共现度计算来实现key字典的文本扩充。其中,所述key字典作为关键词存储数据库,而表头单元格中的文本内容则作为关键词。另外,预设数量可以根据实际需要进行设定。
在所述步骤S33中,通过计算语料中每个词语与种子文本在同一个句子中的共现度,即计算每个单元格的文本与key字典中存储的表头单元格的文本的共现度,若两者同时出现在同一个句子中,即位于同一行或者同一列,而HTML的表格特征之一即为表头单元格通常会出现在表格的同一行或同一列,则有可能该单元格为表头单元格。
在所述步骤S34中,当语料中的某个词语的共现度大于阈值,则该词语对应的单元格即为表头单元格,再经过文本过滤后将共现度大于阈值的词语扩充到key字典中。其中,文本过滤的内容包括删除重复的词语。
另外,本申请发明人还发现,表头单元格的文本不会出现类似人名、地名、组织机构名等专有名词,因此所述步骤S34中还包括以下内容:
使用已训练好的命名实体识别模型(一种深度神经网络模型,专门用于识别文本中的专有名词)对文本进行检测,若文本中出现类似人名、地名、组织机构名等专有名词,则认为该文本所在单元格一定不是表头单元格。
同时,发明人还发现表头单元格的文本不会是纯数字,若待检测文本为纯数字则一定不是表头单元格。
重复执行步骤S33和步骤S34,直至语料中没有新的词语的共现度大于阈值则模型训练结束,并保存key字典,以便于后续进行表头单元格的识别。
可以理解,本发明的模型训练算法基于单元格的文本进行分析,提高了网络表格结构识别模型的精准度,并且只要获取大量同领域的网络表格进行预处理后得到语料数据,即可基于共现度计算进行key字典的扩充,在各垂直领域之间的算法迁移成本较低,算法开发周期较短。
可以理解,所述步骤S3具体包括以下内容:
判断所述单元格文本是否出现在所述key字典中,若出现则所述单元格文本对应的单元格为表头单元格,否则为表体单元格。
通过判断输入的HTML文件经过解析后得到的每个单元格文本是否出现在key字典中,由于key字典经过本领域大量的语料数据进行了充分的扩充,基本上包含了本领域网络表格的所有表头单元格的内容,一旦单元格文本出现在key字典中,则该单元格即为表头单元格,否则为表体单元格。
可以理解,本发明根据HTML表格的特点,挖掘潜藏在HTML表格中的语义信息,利用构建key字典的形式来存储表头单元格的内容,并采用基于共现度的机器学习方式来不断扩充key字典,在实际识别过程中,只要单元格的文本出现在key字典中,则认为该单元格即为表头单元格,否则为表体单元格,识别效率和识别准确度高。
可以理解,考虑到仅根据key字典对单元格进行分类可能会出现错漏的情况,从而导致表格结构识别的准确率不够,本发明对所述网络表格结构识别模型的训练过程进行了优化,优化部分具体包括以下内容:
根据生成的key字典与收集到的表格语料构建单元格共现度网络,所述单元格共现度网络是一种带权值的无向无环图,所述无向无环图中的顶点为表格语料中的词语,所述无向无环图中的边表示词语之间的共现关系,若两个词语存在共现关系则两个词语对应的顶点存在边,反之则不存在边,所述无向无环图中边的权值根据以下公式计算得出:
weighti,j=(Ei+Ej)/(occuri,j×simi.j)
其中,weighti,j表示顶点i与顶点j之间的边的权值,顶点simi,j代表顶点i与顶点j的文本语义相似度,可以使用已训练好的中文语义相似度模型计算得出,Ei是一个常数,当顶点i是key字典中的词语时,取值为0,否则取值为5,Ej与Ei类似,occuri,j代表顶点i与顶点j的文本共现次数。可以看出,在单元格共现度网络中,两顶点的文本相似度与共现度越高,顶点间的权值越小。
则所述步骤S3还包括以下内容:
根据所述单元格文本找到其在单元格共现度网络中所在的顶点,使用最短距离算法求出当前顶点到达最近的表头单元格顶点的距离,若求出的距离低于预设阈值,则该单元格是表头单元格,否则为表体单元格。
通过基于单元格共现度网络的表格结构识别算法可以有效地缓解因key字典内容不足所导致的表格识别召回率低的问题,进一步提升了网络表格结构识别的准确度。
可以理解,基于单元格共现度网络的表格结构识别方法已经极大程度提高了表格结构识别的准确性,但还可以通过基于规则的表格结构还原来进一步提高模型的准确率。具体地,所述步骤S3还包括以下内容:
获取预设的多套网络表格模板,将所述网络表格结构识别模型的识别结果与所述多套网络表格模板进行匹配,若匹配成功,则所述网络表格模板的表格结构即为输入的HTML文件中的网络表格结构。
例如,网络表格模板可以是表格前n行存在表头单元格,之后所有行均只存在表体单元格,则认为前n行的单元格区全为表头单元格,一旦基于单元格共线度网络的表格结构识别算法得到的识别结果与该网络表格模板匹配成功,即识别结果中同样也是前n行存在表头单元格,之后所有行均只有表体单元格,则将该网络表格模板的表格结构作为最终识别得到的表格结构输出。若匹配不成功,则将基于单元格共线度网络的表格结构识别算法得到的表格结构作为识别结果输出。另外,还可以将匹配不成功的表格结构作为新的网络表格模板存储起来,以便于扩大模板数据库。其中,预设的多套网络表格模板可以由人工设计,或者从其他模板设计平台自动抓取。
另外,如图4所示,本发明的另一实施例还提供一种网络表格结构的识别装置,优选采用上述优选实施例的识别方法,该识别装置包括:
输入模块,用于供用户输入HTML文件;
预处理模块,用于对输入的HTML文件进行预处理以获取其中的表格相关信息,所述表格相关信息包括单元格文本和单元格所在位置;
识别模块,用于利用训练好的网络表格结构识别模型基于获取的表格相关信息进行网络表格结构的识别;
输出模块,用于输出识别得到的网络表格结构。
可以理解,本实施例的网络表格结构的识别装置,先通过预处理模块对输入的HTML文件进行预处理以获取其中的表格相关信息,所述表格相关信息包括单元格文本和单元格所在位置,然后通过识别模块利用训练好的网络表格结构识别模型基于获取的单元格文本和单元格所在位置进行网络表格结构的识别,最后通过输出模块将识别结果输出。由于采用单元格作为最小识别粒度,相对于现有采用表格行作为识别单位,大大提升了识别结果的准确度,可以适应各种复杂的网络表格结构识别场景。
可以理解,所述预处理模块具体包括:
网络表格定位单元,用于对HTML文件中包含的网络表格内容进行定位,具体通过<table>标签找到HTML文件中包含的所有网络表格;
表格信息获取单元,用于根据网络表格的特点,使用正则表达式获取表格中各个单元格的文本内容和所在位置,得到单元格文本和单元格所在位置。
另外,所述预处理模块还包括:
表格清洗单元,用于将网络表格中包含的空表、行数列数为1的表格删除,并将嵌套表格中的子表提取出来,并在提取位置做上相应的标记。
另外,所述识别装置还包括:
模型训练模块,用于对网络表格结构识别模型进行训练。
具体地,所述模型训练模块包括:
收集单元,用于收集预设数量的目标领域的网络表格;
所述预处理模块还用于抽取出所有网络表格中的行文本和列文本作为模型训练的语料,其中,网络表格中的每一行文本或每一列文本的数据集合视为一个句子,每行或每列中的每个单元格的文本视为一个句子中的词语;
字典创建单元,用于建立一个空的key字典,并向其中添加预设数量的表头单元格中的文本作为种子文本;
分析单元,用于计算语料中所有词语与种子文本在同一个句子中同时出现的次数,得到共现度,挑选出共现度大于阈值的词语,并经过文本过滤后将其加入到key字典中。
另外,所述模型训练模块还包括:
单元格共线度网络构建单元,用于根据生成的key字典与收集到的表格语料构建单元格共现度网络。
可以理解,所述识别模块具体包括:
第一识别单元,用于判断单元格文本是否出现在key字典中,若出现则该单元格为表头单元格,否则为表体单元格。
另外,所述识别模块还包括:
第二识别单元,用于根据单元格文本找到其在单元格共现度网络中所在的顶点,使用最短距离算法求出当前顶点到达最近的表头单元格顶点的距离,若求出的距离低于预设阈值,则该单元格是表头单元格,否则为表体单元格。
另外,所述识别模块还包括:
第三识别单元,用于将网络表格结构识别模型的识别结果与预设的多套网络表格模板进行匹配,若匹配成功,则所述网络表格模板的表格结构即为输入的HTML文件中的网络表格结构。
可以理解,在本发明的一具体实施例中,所述第一识别单元、第二识别单元和第三识别单元也可以集成为一个识别单元。
可以理解,本实施例的识别装置中所包含的各个模块和单元的工作原理和工作过程与上述方法实施例中的各个步骤相对应,故具体内容在此不再赘述,参考上述方法实施例即可。
另外,本发明还提供一种计算机装置,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行如上所述的方法的步骤。
另外,本发明还提供一种计算机可读取存储介质,用于存储进行网络表格结构识别的计算机程序,所述计算机程序在计算机上运行时执行如上所述的方法的步骤。
一般计算机可读取存储介质的形式包括:软盘(floppy disk)、可挠性盘片(flexible disk)、硬盘、磁带、任何其与的磁性介质、CD-ROM、任何其余的光学介质、打孔卡片(punch cards)、纸带(paper tape)、任何其余的带有洞的图案的物理介质、随机存取存储器(RAM)、可编程只读存储器(PROM)、可抹除可编程只读存储器(EPROM)、快闪可抹除可编程只读存储器(FLASH-EPROM)、其余任何存储器芯片或卡匣、或任何其余可让计算机读取的介质。指令可进一步被一传输介质所传送或接收。传输介质这一术语可包含任何有形或无形的介质,其可用来存储、编码或承载用来给机器执行的指令,并且包含数字或模拟通信信号或其与促进上述指令的通信的无形介质。传输介质包含同轴电缆、铜线以及光纤,其包含了用来传输一计算机数据信号的总线的导线。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种网络表格结构的识别方法,其特征在于,包括以下过程:
输入HTML文件;
对输入的HTML文件进行预处理以获取其中的表格相关信息,所述表格相关信息包括单元格文本和单元格所在位置;
利用训练好的网络表格结构识别模型基于获取的表格相关信息进行网络表格结构的识别;
输出识别得到的网络表格结构。
2.如权利要求1所述的网络表格结构的识别方法,其特征在于,所述对输入的HTML文件进行预处理以获取其中的表格相关信息的过程具体包括以下内容:
对所述HTML文件中包含的网络表格内容进行定位;
根据所述网络表格的特点,使用正则表达式获取所述网络表格中各个单元格的文本内容和所在位置,得到单元格文本和单元格所在位置。
3.如权利要求1所述的网络表格结构的识别方法,其特征在于,所述网络表格结构识别模型的训练过程具体包括以下内容:
收集预设数量的目标领域的网络表格,并抽取出所有网络表格中的行文本和列文本作为模型训练的语料,其中,所述网络表格中的每一行文本或每一列文本的数据集合视为一个句子,每行或每列中的每个单元格的文本视为一个句子中的词语;
建立一个空的key字典,并向其中添加预设数量的表头单元格中的文本作为种子文本;
计算所述语料中所有词语与所述种子文本在同一个句子中同时出现的次数,得到共现度;
挑选出所述共现度大于阈值的词语,并经过文本过滤后将所述共现度大于阈值的词语加入到所述key字典中;
重复计算所述共现度和进行所述key字典扩充,直至没有新的词语的共现度大于所述阈值则模型训练结束,并保存所述key字典。
4.如权利要求3所述的网络表格结构的识别方法,其特征在于,所述利用训练好的网络表格结构识别模型基于获取的表格相关信息进行网络表格结构的识别过程包括以下内容:
判断所述单元格文本是否出现在所述key字典中,若出现则所述单元格文本对应的单元格为表头单元格,否则为表体单元格。
5.如权利要求3所述的网络表格结构的识别方法,其特征在于,所述网络表格结构识别模型的训练过程还包括以下内容:
根据生成的所述key字典与收集到的表格语料构建单元格共现度网络,所述单元格共现度网络是一种带权值的无向无环图,所述无向无环图中的顶点为表格语料中的词语,所述无向无环图中的边表示词语之间的共现关系,若两个词语存在共现关系则两个词语对应的顶点存在边,反之则不存在边,所述无向无环图中边的权值根据以下公式计算得出:
weighti,j=(Ei+Ej)/(occuri,j×simi.j)
其中,weighti,j表示顶点i与顶点j之间的边的权值,simi,j代表顶点i与顶点j的文本语义相似度,Ei和Ej是一个常数,当顶点i或顶点j是key字典中的词语时,取值为0,否则取值为5,occuri,j代表顶点i与顶点j的文本共现次数。
6.如权利要求5所述的网络表格结构的识别方法,其特征在于,所述利用训练好的网络表格结构识别模型基于获取的表格相关信息进行网络表格结构的识别的过程还包括以下内容:
根据所述单元格文本找到其在所述单元格共现度网络中所在的顶点,使用最短距离算法求出当前顶点到达最近的表头单元格顶点的距离,若求出的距离低于预设阈值,则所述单元格文本对应的单元格是表头单元格,否则为表体单元格。
7.如权利要求6所述的网络表格结构的识别方法,其特征在于,所述利用训练好的网络表格结构识别模型基于获取的表格相关信息进行网络表格结构的识别过程还包括以下内容:
获取预设的多套网络表格模板,将所述网络表格结构识别模型的识别结果与所述多套网络表格模板进行匹配,若匹配成功,则所述网络表格模板的表格结构即为输入的HTML文件中的网络表格结构。
8.一种网络表格结构的识别装置,其特征在于,包括:
输入模块,用于供用户输入HTML文件;
预处理模块,用于对输入的HTML文件进行预处理以获取其中的表格相关信息,所述表格相关信息包括单元格文本和单元格所在位置;
识别模块,用于利用训练好的网络表格结构识别模型基于获取的表格相关信息进行网络表格结构的识别;
输出模块,用于输出识别得到的网络表格结构。
9.一种计算机装置,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行如权利要求1~7任一项所述的方法的步骤。
10.一种计算机可读取存储介质,用于存储进行网络表格结构识别的计算机程序,其特征在于,所述计算机程序在计算机上运行时执行如权利要求1~7任一项所述的方法的步骤。
CN202110618601.9A 2021-06-03 2021-06-03 一种网络表格结构的识别方法及装置、计算机装置及计算机可读取存储介质 Active CN113268982B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110618601.9A CN113268982B (zh) 2021-06-03 2021-06-03 一种网络表格结构的识别方法及装置、计算机装置及计算机可读取存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110618601.9A CN113268982B (zh) 2021-06-03 2021-06-03 一种网络表格结构的识别方法及装置、计算机装置及计算机可读取存储介质

Publications (2)

Publication Number Publication Date
CN113268982A true CN113268982A (zh) 2021-08-17
CN113268982B CN113268982B (zh) 2024-05-28

Family

ID=77234137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110618601.9A Active CN113268982B (zh) 2021-06-03 2021-06-03 一种网络表格结构的识别方法及装置、计算机装置及计算机可读取存储介质

Country Status (1)

Country Link
CN (1) CN113268982B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114428839A (zh) * 2022-01-27 2022-05-03 北京百度网讯科技有限公司 数据处理方法、段落文本确定方法、装置及电子设备
CN115048916A (zh) * 2022-05-27 2022-09-13 北京百度网讯科技有限公司 表格的处理方法和装置
CN115620322A (zh) * 2022-12-20 2023-01-17 华南理工大学 一种基于关键点检测的全线表表格结构识别方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398814A (zh) * 2007-09-26 2009-04-01 北京大学 一种同时抽取文档摘要和关键词的方法及系统
CN102043862A (zh) * 2010-12-29 2011-05-04 重庆新媒农信科技有限公司 网页数据定向抓取方法
CN102750316A (zh) * 2012-04-25 2012-10-24 北京航空航天大学 基于语义共现模型的概念关系标签抽取方法
CN103488787A (zh) * 2013-09-30 2014-01-01 北京奇虎科技有限公司 一种基于视频搜索的在线播放入口对象的推送方法和装置
JP2014021535A (ja) * 2012-07-12 2014-02-03 Mitsubishi Electric Corp 関連キーワード列抽出装置及び関連キーワード列抽出方法ならびに相互関係文の検索装置
CN110347982A (zh) * 2018-04-03 2019-10-18 鼎复数据科技(北京)有限公司 基于领域知识模版的表格结构化提取方法
CN110751038A (zh) * 2019-09-17 2020-02-04 北京理工大学 一种基于图注意力机制的pdf表格结构识别方法
CN111797356A (zh) * 2020-07-06 2020-10-20 上海冰鉴信息科技有限公司 网页表格信息抽取方法及装置
CN111914805A (zh) * 2020-08-18 2020-11-10 科大讯飞股份有限公司 表格结构化方法、装置、电子设备及存储介质
CN112528703A (zh) * 2019-09-17 2021-03-19 珠海金山办公软件有限公司 一种识别表格结构的方法、装置及电子设备
CN112528863A (zh) * 2020-12-14 2021-03-19 中国平安人寿保险股份有限公司 表格结构的识别方法、装置、电子设备及存储介质
CN112633011A (zh) * 2020-12-30 2021-04-09 清华大学 融合词语义与词共现信息的研究前沿识别方法及设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398814A (zh) * 2007-09-26 2009-04-01 北京大学 一种同时抽取文档摘要和关键词的方法及系统
CN102043862A (zh) * 2010-12-29 2011-05-04 重庆新媒农信科技有限公司 网页数据定向抓取方法
CN102750316A (zh) * 2012-04-25 2012-10-24 北京航空航天大学 基于语义共现模型的概念关系标签抽取方法
JP2014021535A (ja) * 2012-07-12 2014-02-03 Mitsubishi Electric Corp 関連キーワード列抽出装置及び関連キーワード列抽出方法ならびに相互関係文の検索装置
CN103488787A (zh) * 2013-09-30 2014-01-01 北京奇虎科技有限公司 一种基于视频搜索的在线播放入口对象的推送方法和装置
CN110347982A (zh) * 2018-04-03 2019-10-18 鼎复数据科技(北京)有限公司 基于领域知识模版的表格结构化提取方法
CN110751038A (zh) * 2019-09-17 2020-02-04 北京理工大学 一种基于图注意力机制的pdf表格结构识别方法
CN112528703A (zh) * 2019-09-17 2021-03-19 珠海金山办公软件有限公司 一种识别表格结构的方法、装置及电子设备
CN111797356A (zh) * 2020-07-06 2020-10-20 上海冰鉴信息科技有限公司 网页表格信息抽取方法及装置
CN111914805A (zh) * 2020-08-18 2020-11-10 科大讯飞股份有限公司 表格结构化方法、装置、电子设备及存储介质
CN112528863A (zh) * 2020-12-14 2021-03-19 中国平安人寿保险股份有限公司 表格结构的识别方法、装置、电子设备及存储介质
CN112633011A (zh) * 2020-12-30 2021-04-09 清华大学 融合词语义与词共现信息的研究前沿识别方法及设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHRIS BIEMANN 等: "Dictionary acquisition using parallel text and co-occurrence statistics", 《PROCEEDINGS OF THE 15TH NODALIDA CONFERENCE》, 31 January 2006 (2006-01-31), pages 22 - 29 *
HEIKO 等: "Identification and Analysis of CoOccurrence Networks with NetCutter", 《PLOS ONE》, pages 1 - 16 *
ZEWEN CHI 等: "Complicated Table Structure Recognition", 《ARXIV》, pages 1 - 9 *
陈琴: "基于上下文的信息检索若干关键技术研究", 《中国博士学位论文全文数据库》, pages 138 - 136 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114428839A (zh) * 2022-01-27 2022-05-03 北京百度网讯科技有限公司 数据处理方法、段落文本确定方法、装置及电子设备
CN115048916A (zh) * 2022-05-27 2022-09-13 北京百度网讯科技有限公司 表格的处理方法和装置
CN115620322A (zh) * 2022-12-20 2023-01-17 华南理工大学 一种基于关键点检测的全线表表格结构识别方法
CN115620322B (zh) * 2022-12-20 2023-04-07 华南理工大学 一种基于关键点检测的全线表表格结构识别方法

Also Published As

Publication number Publication date
CN113268982B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
CN113268982B (zh) 一种网络表格结构的识别方法及装置、计算机装置及计算机可读取存储介质
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN103823824B (zh) 一种借助互联网自动构建文本分类语料库的方法及系统
CN111914558A (zh) 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN107463658B (zh) 文本分类方法及装置
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN110175334B (zh) 基于自定义的知识槽结构的文本知识抽取系统和方法
CN111723564B (zh) 一种针对随案电子卷宗的事件抽取及处理方法
CN111191051B (zh) 一种基于中文分词技术的应急知识图谱的构建方法及系统
CN107943514A (zh) 一种软件文档中核心代码元素的挖掘方法及系统
CN109918648B (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法
CN106844482B (zh) 一种基于搜索引擎的检索信息匹配方法及装置
CN112257386B (zh) 一种文景转换中场景空间关系信息布局生成的方法
CN112699232A (zh) 文本标签提取方法、装置、设备和存储介质
CN113486189A (zh) 一种开放性知识图谱挖掘方法及系统
CN112149422A (zh) 一种基于自然语言的企业新闻动态监测方法
CN114357022B (zh) 一种基于事件关系发现的媒体内容关联挖掘方法
CN115599899A (zh) 基于飞行器知识图谱的智能问答方法、系统、设备及介质
Yurtsever et al. Figure search by text in large scale digital document collections
CN111581478A (zh) 一种特定主体的跨网站通用新闻采集方法
CN107291952B (zh) 一种提取有意义串的方法及装置
CN115994531A (zh) 一种多维度文本综合辨识方法
JPWO2014002212A1 (ja) 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム
CN112949304A (zh) 一种施工案例知识重用查询方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant