CN112100426A - 基于视觉和文本特征的通用表格信息检索的方法与系统 - Google Patents
基于视觉和文本特征的通用表格信息检索的方法与系统 Download PDFInfo
- Publication number
- CN112100426A CN112100426A CN202011004577.1A CN202011004577A CN112100426A CN 112100426 A CN112100426 A CN 112100426A CN 202011004577 A CN202011004577 A CN 202011004577A CN 112100426 A CN112100426 A CN 112100426A
- Authority
- CN
- China
- Prior art keywords
- basic
- text
- feature vector
- visual
- content units
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000013598 vector Substances 0.000 claims description 108
- 230000004927 fusion Effects 0.000 claims description 27
- 238000001514 detection method Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000013459 approach Methods 0.000 claims description 6
- 238000013145 classification model Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 238000007373 indentation Methods 0.000 abstract description 6
- 239000003086 colorant Substances 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明所提供的基于视觉和文本特征的通用表格信息检索的方法与系统,该方法包括输入格式标准化、表格内容索引、基本内容单元的向量化表示、查询的向量化表示、融合视觉特征的表格信息检索、内容单元合并、答案筛选并返回。基于本发明所述通用表格信息检索方法与系统可以用于以电子文档、网页、PDF和图片等多种格式出现的表格,本发明在现有基于文本特征的表格问答系统的基础上,联合表格的视觉特征,如表格的框线、基本内容单元的坐标、文本的字体、颜色和缩进等,自动根据所提问题对存在丰富视觉信息的非规范化表格进行信息检索,极大提升了对文档的检索能力,且提高了检索结果的精确度。
Description
技术领域
本发明涉及信息检索技术领域,尤其涉及的是基于视觉和文本特征的通用表格信息检索的方法与系统。
背景技术
随着大数据时代的到来,如何有效检索和利用海量文档以发掘其中巨大潜在应用价值成为亟待解决的问题。例如,通过对政府或金融机构发布的官方文档进行批量分析处理,可以为政府或金融机构的决策提供有效依据。
文档常见的类型包括表格,其中,表格作为一种信息载体,以其对数据的组织方式简洁明了、易于分析比较的优势,在人们的日常生活中被广泛使用。而表格分析中重要的组成部分为表格信息检索,即根据表格回答用户以自然语言的形式提出的问题。而表格信息检索根据其处理的数据可以分为两类,一类是文档中的表格,其数据往往经过了精心整理和排布以便阅读,且会通过基本内容单元合并和分类汇总处理,以减少重复项。另一类是根据数据库表格回答问题,相较于文档表格,其表格结构需要遵守一定范式。
近年来,基于深度学习的表格的问答模型不断被提出,并在各表格问答数据集上占据明显优势。其中,问答模型在实现上也可以分为两类,一类根据表格文本和问题描述生成可执行语句,如SQL或Lambda DCS,通过执行语句来获得答案;另一类直接选择与问题相关的基本内容单元,并预测一个需要在这组基本内容单元上执行的聚合操作,将执行结果作为答案。
然而上述问答模型仅使用了表格的文本特征,忽略了文档表格所具有的丰富视觉信息,造成获得的答案不精确。其中,忽略的信息可列举为:三线制表格中框线标示了标题行;金融领域的表格常使用字体加粗来表示汇总项,文本缩进来表示展开项;不同行、列、基本内容单元的背景色常代表了额外信息;文本的颜色和下划线常用来表示具有超链接属性等。
可见,现有表格信息检索的方式并不能全面覆盖文档的所有特征,以至于造成检索结果精确度低。
因此,现有技术存在缺陷,有待改进和发展。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供基于视觉和文本特征的通用表格信息检索的方法与系统,用于解决现有技术中进行表格检索的检索结果精确度低的问题。
本发明解决技术问题所采用的技术方案如下:
一种基于视觉和文本特征的通用表格信息检索的方法,其中,包括:
获取原始表格,将原始表格转换成图片;
识别图片中的基本内容单元,为每个基本内容单元构建索引,所述索引由像素位置坐标和基本文本内容构成;
为每个基本内容单元编码对应的基本特征向量,所述基本特征向量包括视觉特征向量、坐标特征向量和文本特征向量;
当接收到查询请求时,根据接收到的待查询文本内容,编码对应的待查询特征向量;
根据待查询特征向量和基本特征向量确定与待查询文本内容对应的索引号,并根据索引号返回检索结果。
进一步地,所述识别图片中的基本内容单元,为每个基本内容单元构建索引包括以下步骤:
定位图片中的原始表格,得到标准表格;
标准表格进行切分,得到各基本内容单元及对应的像素位置坐标;
通过字符检测模型对各基本内容单元进行字符检测,得到各基本内容单元对应的基本文本内容;
根据各基本文本内容和像素位置坐标构建各基本内容单元的索引。
进一步地,所述为每个基本内容单元编码对应的基本特征向量包括以下步骤:
对标准表格进行视觉特征抽取,得到对应的视觉特征图;
根据视觉特征图和像素位置坐标编码各基本内容单元对应的视觉特征向量;
对像素位置坐标进行规范化,并编码各基本内容单元对应的坐标特征向量;
对基本文本内容进行编码,得到各基本内容单元对应的文本特征向量。
进一步地,所述根据待查询特征向量和基本特征向量确定与待查询文本内容对应的索引号,并根据索引号返回检索结果具体包括:
将各基本特征向量中的视觉特征向量、坐标特征向量和文本特征向量进行特征融合,得到融合特征;
结合待查询文本和融合特征之间的语义逻辑关系,以及标准表格行列对应关系,得到各基本内容单元之间的高层特征信息;
将高层特征信息映射到固定长度,作为各基本内容单元对应的高层语义特征;
根据各高层语义特征,分别计算各基本内容单元与待查询文本内容的匹配度,并将匹配度大于匹配阈值的基本内容单元输出。
进一步地,所述根据待查询特征向量和基本特征向量确定与待查询文本内容对应的索引号,并根据索引号返回检索结果之后包括:
判断大于匹配阈值的基本内容单元中,是否存在多个基本内容单元属于同一个单元格的情况;
若存在,将大于匹配阈值的基本内容单元中、属于同一个单元格的基本内容单元进行合并,得到合并处理后的标准内容单元。
进一步地,对能够合并的单元格进行判断的方式至少包括:基于视觉的判断方式、基于文本的判断方式及两者的结合;
所述基于视觉的判断方式为:使用表格结构识别模型获取标准表格中各单元格的位置,判断是否存在多个基本内容单元属于同一个单元格,若存在,则将属于同一个单元格的多个基本内容单元合并;
所述基于文本的判断方式为:根据像素位置坐标判断各基本内容单元相互之间在水平和垂直方向上的邻接关系,将相邻基本内容单元的基本文本内容输入上下文判别模型中,判断其语义之间是否存在关联,若存在关联则将对应的相邻基本内容单元合并;
结合基于视觉和文本的判断方式为:根据像素位置坐标判断各基本内容单元相互之间在水平和垂直方向上的邻接关系,将相邻基本内容单元对应的基本文本内容输出融合视觉信息的上下文判别模型中,判断各基本文本内容之间是否语义相关,若相关则将对应的相邻基本内容单元合并。
进一步地,所述若存在,将大于匹配阈值的基本内容单元中、属于同一个单元格的基本内容单元进行合并,得到合并处理后的标准内容单元,之后包括:
对标准内容单元进行类型筛选,将与待查询文本内容类型不符的删除,将剩余的标准内容单元作为检索结果返回。
进一步地,对标准内容单元进行筛选至少包括:基于匹配的方式、基于分类的方式或两者的结合;
所述基于匹配的方式为:将待查询文本与标准内容单元对应文本逐一进行文本拼接,并分别输入自然语言处理模型,判断两者是否匹配,若匹配则保留检索结果,若不匹配则删除;
所述基于分类的方式为:将待查询文本与标准内容单元对应文本分别输入查询意图分类模型和检索结果分类模型中,分别得到对应的意图标签和检索标签,判断得到的意图标签和检索标签结果是否一致,若一致则保留检索结果,若不一致则删除。
本发明还公开了一种计算机可读存储介质,其中,所述计算机可读存储介质包括计算机程序,当计算机程序在电子设备上运行时,使得所述电子设备执行如上任一项所述的基于视觉和文本特征的通用表格信息检索的方法。
本发明还公开了一种系统,其中,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如上任一项所述的基于视觉和文本特征的通用表格信息检索的方法。
与现有技术相比,本发明的有益效果是:本发明在基于文本特征的表格问答系统的基础上,融合表格的视觉信息,如表格框线、基本内容单元的坐标、文本字体与缩进等,自动根据所提问题对存在丰富视觉信息的非规范化表格进行信息检索,极大提升了对文档的检索能力,且提高了检索结果的精确度。
附图说明
图1是本发明中基于视觉和文本特征的通用表格信息检索的方法的较佳实施例的流程图。
图2本发明图1中步骤S200的较佳实施例的流程图。
图3(a)是本发明中以基本内容单元为粒度构建表格内容索引的流程中当原始表格为电子文档或网页文档时的流程图。
图3(b)是本发明中以基本内容单元为粒度构建表格内容索引的流程中当原始表格为PDF表格或图片表格时的流程图。
图4是本发明图1中步骤S300的较佳实施例的流程图。
图5是本发明对各基本内容单元进行坐标特征向量编码的示意图。
图6是本发明图1中步骤S500的较佳实施例的流程图。
图7(a)是本发明中采用方式1对各基本内容单元的视觉特征向量、坐标特征向量和文本特征向量进行特征融合的示意图。
图7(b)是本发明中采用方式2对各基本内容单元的视觉特征向量、坐标特征向量和文本特征向量进行特征融合的示意图。
图7(c)是本发明中采用方式3对各基本内容单元的视觉特征向量、坐标特征向量和文本特征向量进行特征融合的示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
请参见图1,图1是本发明中一种基于视觉和文本特征的通用表格信息检索的方法的流程图。如图1所示,本发明实施例所述的一种基于视觉和文本特征的通用表格信息检索的方法包括以下步骤:
S100、获取原始表格,将原始表格转换成图片。
其中,原始表格的形式可为电子文档、网页、PDF和图片等多种格式,通过对原始表格进行格式标准化处理,实现本发明所述方法中表格检索方法的通用性。
S200、识别图片中的基本内容单元,为每个基本内容单元构建索引,所述索引由像素位置坐标和基本文本内容构成。
通过对基本内容单元进行表格内容索引处理,
S300、为每个基本内容单元编码对应的基本特征向量,所述基本特征向量包括视觉特征向量、坐标特征向量和文本特征向量。
具体地,根据各基本内容单元的索引,编码其基本特征向量,即对基本内容单元进行向量化表示。
S400、当接收到查询请求时,根据接收到的待查询文本内容,编码对应的待查询特征向量。
S500、根据待查询特征向量和基本特征向量确定与待查询文本内容对应的索引号,并根据索引号返回检索结果。
作为本发明的一个实施例,如图2所示,所述步骤S200具体包括:
S210、定位图片中的原始表格,得到标准表格。
S220、标准表格进行切分,得到各基本内容单元及对应的像素位置坐标。
S230、通过字符检测模型对各基本内容单元进行字符检测,得到各基本内容单元对应的基本文本内容。
S240、根据各基本文本内容和像素位置坐标构建各基本内容单元的索引。
在进行表格内容索引处理中,各基本内容单元可以是单元格粒度的,也可以是文本行粒度的,还可以是词粒度的。作为本发明的一个实施例,以单元格为粒度构建表格内容索引包括如下步骤:
S21、判断原始表格的类型。
S22、如果原始表格是电子文档中的表格,将文档表格转换成网页表格。通过解析文档表格中的各单元格文本和行列位置,将文档表格转换成网页表格,然后按网页表格进行处理。
S23、如果原始表格是网页表格,如图3(a)所示,则执行以下步骤S221-S224:
S231、查找HTML标签。
S232、对网页表格进行截图并保存。
S233、获取截图中各单元格像素位置坐标及内容文本。
S234、构建基本内容单元索引。
具体地,通过解析源网页文本,查找表格对应的HTML标签,确定网页中是否存在该表格。如果存在则调用浏览器保存表格截图,并获取各单元格在截图中的像素位置坐标和内容文本,并以此构建表格的基本内容单元索引。
S24、如果原始表格是PDF表格,将PDF文档转换成图片,然后按图片表格进行处理。
S25、如果是图片表格,如图3(b)所示,则执行以下步骤S251-S255:
S251、定位图片中的表格区域。
S252、识别表格结构。
S253、识别表格内的文本行。
S254、合并表格结构和文本行,得到各单元格的像素位置坐标和内容文本。
S255、构建基本内容单元索引。
具体地,如果原始表格是图片表格,首先使用表格检测模型定位图片中的表格区域,然后使用表格结构识别模型识别各单元格的位置及单元格合并情况,使用OCR模型检测并识别表格内的文本行,最后将表格结构识别结果与文本行识别结果进行合并,获得图片中各单元格的像素位置坐标与内容文本,并以此构建表格的基本内容单元索引。
作为本发明的一个实施例,如图4所示,所述步骤S300具体包括:
S310、对标准表格进行视觉特征抽取,得到对应的视觉特征图。
S320、根据视觉特征图和像素位置坐标编码各基本内容单元对应的视觉特征向量。
S330、对像素位置坐标进行规范化,并编码各基本内容单元对应的坐标特征向量。
S340、对基本文本内容进行编码,得到各基本内容单元对应的文本特征向量。
其中,各基本内容单元的视觉特征向量中包含了表格整体布局、表格框线、单元格背景色、文本字体、文本字号、文本粗细、文本颜色、文本缩进、文本下划线等视觉风格信息。通过对标准表格进行表格视觉特征抽取,得到相应的特征图后,根据各基本内容单元的位置坐标,编码各基本内容单元的视觉特征向量。
而在本发明的实施例中,编码基本内容单元的视觉特征向量也可采用以下几种方式:
实施例一、可以使用传统图像算法对标准表格的视觉风格进行特征抽取,可采用通过霍夫变换检测表格框线;通过统计各单元格内像素的平均值,得到单元格背景色特征;通过统计单元格内文本到单元格边框的距离,得到文本的缩进特征等方式。
实施例二、表格视觉特征抽取也可以使用深度学习网络实现,使用卷积神经网络获得标准表格的视觉特征编码后,通过ROI Pooling得到各单元格的视觉特征向量,其中,网络参数通过端到端的训练得到。
在本发明的另一实施例中,编码基本内容单元的坐标特征向量也可采用以下几种方式:
实施例三、采用将取值归一化到[0,1]区间的方式,对像素位置坐标进行规范化,然后使用全连接层将其映射到n维向量,获得各基本内容单元的坐标特征向量。
实施例四、坐标特征向量编码流程如图5所示,采用将像素位置坐标根据行列序号取整的方式,转换成(start_col,start_row,col_span,row_span)或(start_col,start_row,end_col,end_row)的形式,对像素坐标位置进行规范化,然后通过编码查找的方式将其映射到4*n维向量,再通过求和降维获得各基本内容单元的坐标特征向量。其中,像素位置坐标规范化格式以(start_col,start_row,end_col,end_row)为例。
作为本发明的一个实施例,如图6所示,所述步骤S500具体包括:
S510、将各基本特征向量中的视觉特征向量、坐标特征向量和文本特征向量进行特征融合,得到融合特征。
S520、结合待查询文本和融合特征之间的语义逻辑关系,以及标准表格行列对应关系,得到各基本内容单元之间的高层特征信息。
S530、将高层特征信息映射到固定长度,作为各基本内容单元对应的高层语义特征。
S540、根据各高层语义特征,分别计算各基本内容单元与待查询文本内容的匹配度,并将匹配度大于匹配阈值的基本内容单元输出。
其中,通过将各基本特征向量和待查询特征向量输入多模态表格检索模型中实现。所述多模态表格检索模型由输入端、模型端和输出端组成,在进行结果检索时,将各基本特征向量和待查询特征向量从输入端输入多模态表格检索模型中,模型端对各基本特征向量和待查询特征向量进行处理,输出端输出各基本内容单元中与待查询内容文本匹配的概率。
具体地,多模态表格检索模型是通过端到端的训练得到的,包括预训练和目标数据集微调两阶段。
其中,在预训练阶段使用的数据源自互联网上电子文档、网页、PDF和图片等多种格式表格,通过基于模板的方法自动生成以自然语言表示的查询内容和检索结果。
对模型进行预训练时,涉及到损失函数的分类计算,其中,损失函数的分类计算可采用以下一种或多种方式实现:
第一种、掩码语言模型损失,随机选取表格和查询内容中一定比例的输入词,将其替换成[MASK]标识,通过模型编码的各基本内容单元的高层语义特征,预测被遮住和未被遮住的词,根据预测结果与真实值计算分类损失。
第二种、表格结构损失,通过模型编码的各基本内容单元的高层语义特征,计算两个相邻基本内容单元属于同一单元格、同一行和同一列的概率,以及各基本内容单元属于行列标题或表格内容的概率,根据预测结果与真实值计算分类损失。
第三种、检索结果损失,根据模型输出的各基本内容单元被选中返回的概率,和查询内容对应的真实基本内容单元,计算分类损失。
在目标数据集微调阶段,则通过人工根据表格标注的查询内容及真实结果数据,将计算出的分类损失作为优化目标,对多模态表格检索模型进行微调。
其中,模型端包括特征融合模块、信息交互模块和特征生成模块:
特征融合模块,用于将各基本内容单元的视觉特征向量、坐标特征向量和文本特征向量通过特征融合,转换成融合有视觉和文本特征的融合特征。
信息交互模块,用于将待查询文本和各融合特征中的语义逻辑关系和表格结构中行列对应关系进行结合,通过对各基本内容单元之间的信息交互进行推理与检索,得到各基本内容之间的高层特征信息。
特征生成模块,用于将各基本内容单元对应的高层特征信息映射到固定长度,作为各基本内容单元的高层语义特征。
而在本发明的实施例中,特征融合模块也可采用以下几种方式将各基本内容单元的视觉特征向量、坐标特征向量和文本特征向量进行特征融合:
方式1、如图7(a)所示,将各基本内容单元的视觉特征向量、坐标特征向量和文本特征向量进行简单拼接,获得融合视觉和文本信息的融合特征。其中,V代表第i个基本内容单元的视觉特征向量;P代表第i个基本内容单元的坐标特征向量;T1,T2,…,其中,Tn代表第i个单元格的文本特征向量;n为该单元格内的字符串经分词后所得token的数目。
方式2、如图7(b)所示,将各基本内容单元的视觉特征向量、坐标特征向量与文本特征向量的维度调整至相同,比如,可将视觉特征向量和坐标特征向量的维度调整至与文本特征向量的维度一致;当三者维度调整一致后,将三者进行简单相加。
方式3、如图7(c)所示,可以先设计出用于对特征进行融合的神经网络,之后将视觉特征向量、坐标特征向量和文本特征向量拼接后,通过设计的多层神经网络,将拼接的特征向量作为输入,进而输出视觉文本融合后的特征,称为融合特征。
在本发明的实施例中,信息交互模块也可采用以下几种方式形成各基本内容单元对应的高层特征信息:
方式4、可以通过将待查询特征向量与各基本内容单元的融合特征向量顺序拼接后,输入基于深度学习的预训练语言表示模型实现。
方式5、可以根据各基本内容单元的像素位置坐标构建图模型,以待查询特征向量与各基本内容单元的融合特征向量作为节点,通过图神经网络来实现。
在本发明的实施例中,特征生成模块也可采用以下几种方式得到各基本内容单元的高层语义特征:
方式6、通过对各基本内容单元的高层特征信息进行池化处理。
方式7、可以将各基本内容单元的高层特征信息依次输入循环神经网络,选取循环神经网络最后的输出作为高层语义特征。
作为本发明的一个实施例,所述步骤S500之后包括以下步骤:
S600、判断大于匹配阈值的基本内容单元中,是否存在多个基本内容单元属于同一个单元格的情况。
S700、若存在,将大于匹配阈值的基本内容单元中、属于同一个单元格的基本内容单元进行合并,得到合并处理后的标准内容单元。
由于现有问答模型还无法处理基本内容单元合并的问题,需要通过预处理将合并基本内容单元拆分,但这种方式造成了信息的冗余,失去了表格结构本身简明扼要的特质。
因而,本发明方案能够解决基本内容单元合并的问题。其中,对能够合并的单元格进行判断的方式至少包括:基于视觉的判断方式、基于文本的判断方式及两者的结合。
所述基于视觉的判断方式为:使用表格结构识别模型获取标准表格中各单元格的位置,判断是否存在多个基本内容单元属于同一个单元格,若存在,则将属于同一个单元格的多个基本内容单元合并。
所述基于文本的判断方式为:根据像素位置坐标判断各基本内容单元相互之间在水平和垂直方向上的邻接关系,将相邻基本内容单元的基本文本内容输入上下文判别模型中,判断其语义之间是否存在关联,若存在关联则将对应的相邻基本内容单元合并。
结合基于视觉和文本的判断方式为:根据像素位置坐标判断各基本内容单元相互之间在水平和垂直方向上的邻接关系,将相邻基本内容单元对应的基本文本内容输出融合视觉信息的上下文判别模型中,判断各基本文本内容之间是否语义相关,若相关则将对应的相邻基本内容单元合并。
作为本发明的一个实施例,所述步骤S700之后包括以下步骤:
S800、对标准内容单元进行类型筛选,将与待查询文本内容类型不符的删除,将剩余的标准内容单元作为检索结果返回。
其中,对标准内容单元进行筛选至少包括:基于匹配的方式、基于分类的方式或两者的结合;
所述基于匹配的方式为:将待查询文本与标准内容单元对应文本逐一进行文本拼接,并分别输入自然语言处理模型,判断两者是否匹配,若匹配则保留检索结果,若不匹配则删除。
所述基于分类的方式为:将待查询文本与标准内容单元对应文本分别输入查询意图分类模型和检索结果分类模型中,分别得到对应的意图标签和检索标签,判断得到的意图标签和检索标签结果是否一致,若一致则保留检索结果,若不一致则删除。
本发明在现有基于文本特征的表格问答系统的基础上,联合表格的视觉特征,如表格的框线、基本内容单元的坐标、文本的字体、颜色和缩进等,自动根据所提问题对存在丰富视觉信息的非规范化表格进行信息检索,极大提升了文档分析中表格信息理解,推理与检索的能力。
本发明还公开了一种计算机可读存储介质,其中,所述计算机可读存储介质包括计算机程序,当计算机程序在电子设备上运行时,使得所述电子设备执行如上任一项所述的基于视觉和文本特征的通用表格信息检索的方法;具体如上所述。
本发明还公开了一种系统,其中,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如上任一项所述的基于视觉和文本特征的通用表格信息检索的方法;具体如上所述。
应当理解的是,以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (10)
1.一种基于视觉和文本特征的通用表格信息检索的方法,其特征在于,包括:
获取原始表格,将原始表格转换成图片;
识别图片中的基本内容单元,为每个基本内容单元构建索引,所述索引由像素位置坐标和基本文本内容构成;
为每个基本内容单元编码对应的基本特征向量,所述基本特征向量包括视觉特征向量、坐标特征向量和文本特征向量;
当接收到查询请求时,根据接收到的待查询文本内容,编码对应的待查询特征向量;
根据待查询特征向量和基本特征向量确定与待查询文本内容对应的索引号,并根据索引号返回检索结果。
2.根据权利要求1所述的基于视觉和文本特征的通用表格信息检索的方法,其特征在于,所述识别图片中的基本内容单元,为每个基本内容单元构建索引包括以下步骤:
定位图片中的原始表格,得到标准表格;
标准表格进行切分,得到各基本内容单元及对应的像素位置坐标;
通过字符检测模型对各基本内容单元进行字符检测,得到各基本内容单元对应的基本文本内容;
根据各基本文本内容和像素位置坐标构建各基本内容单元的索引。
3.根据权利要求1所述的基于视觉和文本特征的通用表格信息检索的方法,其特征在于,所述为每个基本内容单元编码对应的基本特征向量包括以下步骤:
对标准表格进行视觉特征抽取,得到对应的视觉特征图;
根据视觉特征图和像素位置坐标编码各基本内容单元对应的视觉特征向量;
对像素位置坐标进行规范化,并编码各基本内容单元对应的坐标特征向量;
对基本文本内容进行编码,得到各基本内容单元对应的文本特征向量。
4.根据权利要求1所述的基于视觉和文本特征的通用表格信息检索的方法,其特征在于,所述根据待查询特征向量和基本特征向量确定与待查询文本内容对应的索引号,并根据索引号返回检索结果具体包括:
将各基本特征向量中的视觉特征向量、坐标特征向量和文本特征向量进行特征融合,得到融合特征;
结合待查询文本和融合特征之间的语义逻辑关系,以及标准表格行列对应关系,得到各基本内容单元之间的高层特征信息;
将高层特征信息映射到固定长度,作为各基本内容单元对应的高层语义特征;
根据各高层语义特征,分别计算各基本内容单元与待查询文本内容的匹配度,并将匹配度大于匹配阈值的基本内容单元输出。
5.根据权利要求1所述的基于视觉和文本特征的通用表格信息检索的方法,其特征在于,所述根据待查询特征向量和基本特征向量确定与待查询文本内容对应的索引号,并根据索引号返回检索结果之后包括:
判断大于匹配阈值的基本内容单元中,是否存在多个基本内容单元属于同一个单元格的情况;
若存在,将大于匹配阈值的基本内容单元中、属于同一个单元格的基本内容单元进行合并,得到合并处理后的标准内容单元。
6.根据权利要求5所述的基于视觉和文本特征的通用表格信息检索的方法,其特征在于,对能够合并的单元格进行判断的方式至少包括:基于视觉的判断方式、基于文本的判断方式及两者的结合;
所述基于视觉的判断方式为:使用表格结构识别模型获取标准表格中各单元格的位置,判断是否存在多个基本内容单元属于同一个单元格,若存在,则将属于同一个单元格的多个基本内容单元合并;
所述基于文本的判断方式为:根据像素位置坐标判断各基本内容单元相互之间在水平和垂直方向上的邻接关系,将相邻基本内容单元的基本文本内容输入上下文判别模型中,判断其语义之间是否存在关联,若存在关联则将对应的相邻基本内容单元合并;
结合基于视觉和文本的判断方式为:根据像素位置坐标判断各基本内容单元相互之间在水平和垂直方向上的邻接关系,将相邻基本内容单元对应的基本文本内容输出融合视觉信息的上下文判别模型中,判断各基本文本内容之间是否语义相关,若相关则将对应的相邻基本内容单元合并。
7.根据权利要求5所述的基于视觉和文本特征的通用表格信息检索的方法,其特征在于,所述若存在,将大于匹配阈值的基本内容单元中、属于同一个单元格的基本内容单元进行合并,得到合并处理后的标准内容单元,之后包括:
对标准内容单元进行类型筛选,将与待查询文本内容类型不符的删除,将剩余的标准内容单元作为检索结果返回。
8.根据权利要求7所述的基于视觉和文本特征的通用表格信息检索的方法,其特征在于,对标准内容单元进行筛选至少包括:基于匹配的方式、基于分类的方式或两者的结合;
所述基于匹配的方式为:将待查询文本与标准内容单元对应文本逐一进行文本拼接,并分别输入自然语言处理模型,判断两者是否匹配,若匹配则保留检索结果,若不匹配则删除;
所述基于分类的方式为:将待查询文本与标准内容单元对应文本分别输入查询意图分类模型和检索结果分类模型中,分别得到对应的意图标签和检索标签,判断得到的意图标签和检索标签结果是否一致,若一致则保留检索结果,若不一致则删除。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括计算机程序,当计算机程序在电子设备上运行时,使得所述电子设备执行如权利要求1-8任一项所述的基于视觉和文本特征的通用表格信息检索的方法。
10.一种系统,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如权利要求1-8中任一项所述的基于视觉和文本特征的通用表格信息检索的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011004577.1A CN112100426B (zh) | 2020-09-22 | 2020-09-22 | 基于视觉和文本特征的通用表格信息检索的方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011004577.1A CN112100426B (zh) | 2020-09-22 | 2020-09-22 | 基于视觉和文本特征的通用表格信息检索的方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112100426A true CN112100426A (zh) | 2020-12-18 |
CN112100426B CN112100426B (zh) | 2024-05-24 |
Family
ID=73754910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011004577.1A Active CN112100426B (zh) | 2020-09-22 | 2020-09-22 | 基于视觉和文本特征的通用表格信息检索的方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112100426B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632927A (zh) * | 2020-12-30 | 2021-04-09 | 上海犀语科技有限公司 | 一种基于语义处理的表格片段链接复原方法及系统 |
CN112712085A (zh) * | 2020-12-28 | 2021-04-27 | 哈尔滨工业大学 | 一种提取多语言pdf文档中日期的方法 |
CN112800032A (zh) * | 2021-02-24 | 2021-05-14 | 北京智源人工智能研究院 | 基于表格数据的faq知识库自动构建方法和装置 |
CN113032418A (zh) * | 2021-02-08 | 2021-06-25 | 浙江大学 | 一种基于树状模型的复杂自然语言查询转sql方法 |
CN113343981A (zh) * | 2021-06-16 | 2021-09-03 | 北京百度网讯科技有限公司 | 一种视觉特征增强的字符识别方法、装置和设备 |
CN113378789A (zh) * | 2021-07-08 | 2021-09-10 | 京东数科海益信息科技有限公司 | 单元格位置的检测方法、装置和电子设备 |
CN113626444A (zh) * | 2021-08-26 | 2021-11-09 | 平安国际智慧城市科技股份有限公司 | 基于位图算法的表格查询方法、装置、设备及介质 |
CN113723278A (zh) * | 2021-08-27 | 2021-11-30 | 上海云从汇临人工智能科技有限公司 | 表格信息提取模型的训练方法及装置 |
CN114662482A (zh) * | 2022-03-25 | 2022-06-24 | 北京感易智能科技有限公司 | 文本表格中答案文本的抽取方法及装置 |
CN116775980A (zh) * | 2022-03-07 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 一种跨模态搜索方法及相关设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080294679A1 (en) * | 2007-04-24 | 2008-11-27 | Lixto Software Gmbh | Information extraction using spatial reasoning on the css2 visual box model |
CN102741838A (zh) * | 2009-10-02 | 2012-10-17 | A·穆苏卢里 | 块分割、识别与索引视觉元素及搜索文档的系统与方法 |
US20170364594A1 (en) * | 2016-06-15 | 2017-12-21 | International Business Machines Corporation | Holistic document search |
CN110472208A (zh) * | 2019-06-26 | 2019-11-19 | 上海恒生聚源数据服务有限公司 | Pdf文档中表格解析的方法、系统、存储介质及电子设备 |
-
2020
- 2020-09-22 CN CN202011004577.1A patent/CN112100426B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080294679A1 (en) * | 2007-04-24 | 2008-11-27 | Lixto Software Gmbh | Information extraction using spatial reasoning on the css2 visual box model |
CN102741838A (zh) * | 2009-10-02 | 2012-10-17 | A·穆苏卢里 | 块分割、识别与索引视觉元素及搜索文档的系统与方法 |
US20170364594A1 (en) * | 2016-06-15 | 2017-12-21 | International Business Machines Corporation | Holistic document search |
CN110472208A (zh) * | 2019-06-26 | 2019-11-19 | 上海恒生聚源数据服务有限公司 | Pdf文档中表格解析的方法、系统、存储介质及电子设备 |
Non-Patent Citations (3)
Title |
---|
LISAI ZHANG等: "Integrate Image Representation to Text Model on Sentence Level: a Semi-supervised Framework", ARXIV, 1 December 2019 (2019-12-01), pages 1912 * |
ZHICHENG HUANG等: "Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers", ARXIV, 20 June 2020 (2020-06-20), pages 2004 * |
邹伟: "基于视觉、词法、语义特征的web数据表格检测系统设计与实现", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 3, 15 March 2015 (2015-03-15), pages 138 - 2985 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112712085A (zh) * | 2020-12-28 | 2021-04-27 | 哈尔滨工业大学 | 一种提取多语言pdf文档中日期的方法 |
CN112632927A (zh) * | 2020-12-30 | 2021-04-09 | 上海犀语科技有限公司 | 一种基于语义处理的表格片段链接复原方法及系统 |
CN113032418A (zh) * | 2021-02-08 | 2021-06-25 | 浙江大学 | 一种基于树状模型的复杂自然语言查询转sql方法 |
CN112800032A (zh) * | 2021-02-24 | 2021-05-14 | 北京智源人工智能研究院 | 基于表格数据的faq知识库自动构建方法和装置 |
CN112800032B (zh) * | 2021-02-24 | 2021-08-31 | 北京智源人工智能研究院 | 基于表格数据的faq知识库自动构建方法和装置 |
CN113343981A (zh) * | 2021-06-16 | 2021-09-03 | 北京百度网讯科技有限公司 | 一种视觉特征增强的字符识别方法、装置和设备 |
CN113378789B (zh) * | 2021-07-08 | 2023-09-26 | 京东科技信息技术有限公司 | 单元格位置的检测方法、装置和电子设备 |
CN113378789A (zh) * | 2021-07-08 | 2021-09-10 | 京东数科海益信息科技有限公司 | 单元格位置的检测方法、装置和电子设备 |
CN113626444A (zh) * | 2021-08-26 | 2021-11-09 | 平安国际智慧城市科技股份有限公司 | 基于位图算法的表格查询方法、装置、设备及介质 |
CN113626444B (zh) * | 2021-08-26 | 2023-11-28 | 平安国际智慧城市科技股份有限公司 | 基于位图算法的表格查询方法、装置、设备及介质 |
CN113723278A (zh) * | 2021-08-27 | 2021-11-30 | 上海云从汇临人工智能科技有限公司 | 表格信息提取模型的训练方法及装置 |
CN113723278B (zh) * | 2021-08-27 | 2023-11-03 | 上海云从汇临人工智能科技有限公司 | 表格信息提取模型的训练方法及装置 |
CN116775980A (zh) * | 2022-03-07 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 一种跨模态搜索方法及相关设备 |
CN116775980B (zh) * | 2022-03-07 | 2024-06-07 | 腾讯科技(深圳)有限公司 | 一种跨模态搜索方法及相关设备 |
CN114662482A (zh) * | 2022-03-25 | 2022-06-24 | 北京感易智能科技有限公司 | 文本表格中答案文本的抽取方法及装置 |
CN114662482B (zh) * | 2022-03-25 | 2024-06-18 | 北京感易智能科技有限公司 | 文本表格中答案文本的抽取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112100426B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112100426B (zh) | 基于视觉和文本特征的通用表格信息检索的方法与系统 | |
US10754851B2 (en) | Question answering for data visualizations | |
KR100339446B1 (ko) | 주소 인식 장치 및 주소 인식 방법 | |
US7792369B2 (en) | Form processing method, form processing device, and computer product | |
US11288324B2 (en) | Chart question answering | |
CN113722490B (zh) | 一种基于键值匹配关系的视觉富文档信息抽取方法 | |
CN112949476B (zh) | 基于图卷积神经网络的文本关系检测方法、装置及存储介质 | |
CN110928961A (zh) | 一种多模态实体链接方法、设备及计算机可读存储介质 | |
CN109272440B (zh) | 一种联合文本和图像内容的缩略图生成方法及系统 | |
CN115273112A (zh) | 表格识别方法、装置、电子设备及可读存储介质 | |
CN113627190A (zh) | 可视化数据转换方法、装置、计算机设备及存储介质 | |
CN115240178A (zh) | 一种票据图像的结构化信息提取方法及系统 | |
CN112241730A (zh) | 一种基于机器学习的表格提取方法和系统 | |
CN112613293A (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN114170423B (zh) | 一种图像文档版面识别方法、装置及其系统 | |
CN114677695A (zh) | 表格解析方法、装置、计算机设备和存储介质 | |
CN117520590B (zh) | 海洋跨模态图文检索方法、系统、设备及存储介质 | |
CN112926700B (zh) | 针对目标图像的类别识别方法和装置 | |
CN114330247A (zh) | 一种基于图像识别的自动化保险条款解析方法 | |
CN112418207B (zh) | 一种基于自注意力蒸馏的弱监督文字检测方法 | |
Yuan et al. | An opencv-based framework for table information extraction | |
CN114254231A (zh) | 网页内文抽取方法 | |
CN116822634A (zh) | 一种基于布局感知提示的文档视觉语言推理方法 | |
CN115100664B (zh) | 基于相关性信息扩展的多模态虚假新闻识别方法及系统 | |
CN115984886A (zh) | 表格信息抽取方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |