CN113657274A - 表格生成方法、装置、电子设备、存储介质及产品 - Google Patents
表格生成方法、装置、电子设备、存储介质及产品 Download PDFInfo
- Publication number
- CN113657274A CN113657274A CN202110945523.3A CN202110945523A CN113657274A CN 113657274 A CN113657274 A CN 113657274A CN 202110945523 A CN202110945523 A CN 202110945523A CN 113657274 A CN113657274 A CN 113657274A
- Authority
- CN
- China
- Prior art keywords
- target
- image
- position information
- cell
- modal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
Abstract
本公开提供了一种表格生成方法、装置、电子设备、存储介质及产品,涉及人工智能领域;具体为计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景下。具体实现方案为:识别待识别图像中的至少一个表格对象,获得所述至少一个表格对象分别对应的表格属性;其中,任一个表格对象的表格属性包括单元格属性或非单元格属性;确定所述至少一个表格对象中具有单元格属性的至少一个目标对象;确定所述至少一个目标对象分别对应的单元格区域,获得所述至少一个目标对象分别对应的单元格位置信息;根据所述至少一个目标对象分别对应的单元格位置信息,生成所述待识别图像对应的电子表格。本公开的技术方案提高了表格生成精度。
Description
技术领域
本公开涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景下,尤其涉及一种表格生成方法、装置、电子设备、存储介质及产品。
背景技术
OCR(Optical Character Recognition,光学字符识别)技术,是指电子设备检测纸质上打印的字符,通过检测明暗等模式确定图像的表格形状,然后字符识别方法获得以计算机语言表示的文字的过程。
现有技术中,OCR技术识别表格的识别方式准确度不高,识别精度较差。
发明内容
本公开提供了一种用于表格生成的方法、装置、电子设备、存储介质及产品。
根据本公开的第一方面,提供了一种表格生成方法,包括:
识别待识别图像中的至少一个表格对象,获得所述至少一个表格对象分别对应的表格属性;其中,任一个表格对象的表格属性包括单元格属性或非单元格属性;
确定所述至少一个表格对象中具有单元格属性的至少一个目标对象;
确定所述至少一个目标对象分别对应的单元格区域,获得所述至少一个目标对象分别对应的单元格位置信息;
根据所述至少一个目标对象分别对应的单元格位置信息,生成所述待识别图像对应的电子表格。
根据本公开的第二方面,提供了一种表格生成装置,包括:
属性识别单元,用于识别待识别图像中的至少一个表格对象,获得所述至少一个表格对象分别对应的表格属性;其中,任一个表格对象的表格属性包括单元格属性或者非单元格属性中;
对象确定单元,用于确定所述至少一个表格对象中具有单元格属性的至少一个目标对象;
区域确定单元,用于确定所述至少一个目标对象分别对应的单元格区域,获得所述至少一个目标对象分别对应的单元格位置信息;
表格生成单元,用于根据所述至少一个目标对象分别对应的单元格位置信息,生成所述待识别图像对应的电子表格。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器以及与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法。
根据本公开的第四方面,提供了存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面所述的方法。
根据本公开的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法。
根据本公开的技术方案,通过识别待识别图像种至少一个表格对象的表格属性,以利用具有单元格属性的至少一个目标对象进行单元格区域的识别,将待识别图像中的单元格进行准确识别,获得有效的单元格位置信息,进而根据至少一个目标对象分别对应的单元格位置信息,生成待识别图像的电子表格。以单元格为识别基础,可以获得更准确地识别结果,提高电子表格的识别精度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的一种网络架构示意图;
图2是根据本公开第二实施例的一种表格生成方法的示意图;
图3是根据本公开第三实施例的又一种表格生成方法的流程图;
图4是根据本公开第四实施例的又一种表格生成方法的流程图;
图5是根据本公开实施例提供的一种特征融合示意图;
图6是用来实现本公开实施例的表格生成方法的表格生成装置的框图;
图7是用来实现本公开实施例的表格生成方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开提供一种表格生成方法及装置、电子设备、存储介质及产品,应用于人工智能领域,具体为计算机视觉和深度学习领域,可以应用于智慧城市和智慧金融场景下,以达到提高表格生成精度的目的。
现有技术中,可以采用OCR技术识别图像中的电子表格。通常,可以采用全局阈值算法、局部阈值算法、区域增长算法、水线算法、最小描述长度算法、基于马尔科夫随机场算法等方式对图像进行初步的二值化处理。然后可以利用图像倾斜校正算法对图像进行校正。常用的图像倾斜校正算法例如可以为,基于投影图的算法、基于Hough(霍夫)变换的算法、最近邻簇算法或者矢量化算法等。然后对校正之后的图像特征进行文本框检测,识别图像中的文本框,以通过获取文本框在图像中的区域图像,识别各个文本框的区域图像中的文本信息以及位置信息的方式生成电子表格。但是,由于上述算法计算复杂度较高,对待识别图像的图像精度要求较高等限制,这种采用传统OCR技术直接对文本框进行分割,并识别各个文本框对应区域图像的文本信息,从而根据各个文本框对应的区域图像的文本信息生成电子表格的方式识别精度并不高,准确度较差。
为了解决该技术问题,发明人通过创造性的研究后发现,电子表格在建立时,不同表格对象可以具有不同表格属性。例如表格中的第一个文本框的表格属性为表头属性,一行表格生成结束可以获得一个结束标识,例如</td>即是一个结束标识。表格中承载文本的表格对象的表格属性为单元格属性,每个单元格属性对应的表格对象即可以为一单元格。单元格相较于文本框,是一个更加基础且更加标准的电子表格中的属性,所以可以以单元格为识别基础,先识别出单元格,再对电子表格进行识别,能够有效提高电子表格的识别精度。所以可识别待识别图像中各个文本框对象或者字符对象的表格属性,然后利用各个对象的表格属性对表格进行还原。据此,发明人提出了本公开的技术方案。
本公开实施例中,针对待识别图像,识别该待识别图像中的至少一个表格对象,获得至少一个表格对象各自的表格属性,表格属性可以包括单元格属性或者非单元格属性,确定至少一个目标对象中具有单元格属性的至少一个目标对象,进而确定至少一个目标对象分别对应的单元格位置信息,实现对象所在单元格的确定,从而根据至少一个目标对象分别对应的单元格位置信息,生成待识别图像的电子表格。通过识别待识别图像中至少一个表格对象的表格属性,以将利用具有单元格属性的至少一个目标对象进行单元格区域的识别,将待识别图像中的单元格进行准确识别,以单元格为识别基础,可以获得更准确地识别结果,提高电子表格的识别精度。
图1是根据本公开提供的用于图像的表格生成方法的一个应用的网络架构图。如图1所示,该网络架构中可以包括一个服务器1以及一个与该服务器1通过局域网或者广域网进行网络连接的用户设备2,假设该用户设备为个人计算机2。该服务器1例如可以为普通服务器,超级个人计算机,云服务器等类型的服务器,本公开中对服务器的具体类型并不作出过多限定。用户设备2例如可以为计算机、笔记本、平板电脑、可穿戴设备、智能家电、车载设备等终端设备,本公开实施例中对用户设备的具体类型并不作出过多限定。用户设备可以检测用户提供的待识别图像,并将待识别图像发送至服务器。服务器可以识别待识别图像中的至少一个表格对象,以获得至少一个表格对象分别对应的表格属性。而其中,任一个表格对象的表格属性为单元格属性或者非单元格属性。确定至少一个表格对象中具有单元格属性的至少一个目标对象,从而可以确定至少一个目标对象分别对应的单元格区域,获得至少一个目标对象分别对应的单元格位置信息。进而根据至少一个目标对象分别对应的单元格位置信息,生成待识别对象对应的电子表格。以单元格为识别基础,可以获得更准确地识别结果,提高电子表格的识别精度。
本发明实施例提供的表格生成方法可应用于多种应用场景中,例如教育、智慧城市、智慧金融、智慧交通或者智慧保险等场景中,以纸质化保存的文档、文件等通过扫描仪等电子化手段转换为图像形式。为了能查询或者调研各个文档,以便于提高数据使用效率,需要将图像中的内容识别为计算机可存储的表格等,然后根据影像以及表格信息建立索引。通常可以采用OCR技术识别图像中的表格内容。
下面将结合附图对本公开实施例的技术方案进行详细介绍。
如图2所示,为本公开第一实施例提供的一种表格生成方法的一个实施例的流程图,该表格生成方法的执行主体为:表格生成装置。该表格生成装置可以位于电子设备中。则该方法可以包括以下几个步骤:
201:识别待识别图像中的至少一个表格对象,获得至少一个表格对象分别对应的表格属性。
其中,任一个表格对象的表格属性包括单元格属性或非单元格属性。
本实施例提供的表格生成方法,可以应用于电子设备中,该电子设备例如可以为计算机、超级个人计算机、笔记本电脑、云服务器、普通服务器等设备,本公开对电子设备的具体类型并不作出过多限定。
待识别图像中可以包括表格图像,表格图像并不能被计算机程序进行处理,可以识别待识别图像中的至少一个表格对象,然后利用表格对象对表格图像中的表格进行还原。
可选地,待识别图像中除表格对象之外,还可以包括非表格对象,例如logo对象,物体对象,例如杯子、小动物、人物等,本公开中仅针对表格图像中的表格对象进行处理,非表格对象识别之后,可以对非表格对象进行还原,其识别原理以及显示方式与现有技术相同,为了描述的简洁性考虑,在此不再赘述。
任一个表格对象可以对应有相应的表格属性。任一个表格对象的表格属性可以为单元格属性或非单元格属性的任一种。在Http协议中,单元格属性可以使用<td>的标识符表示。非单元格属性可以包括至少一种属性。例如,行<tr>属性、</td>属性、表头属性等均可以被划分为非单元格属性。
202:确定至少一个表格对象中具有单元格属性的至少一个目标对象。
至少一个目标对象可以为从至少一个表格对象中选择处理的表格属性为单元格属性的对象。具体可以分别根据至少一个表格对象各自的表格属性,从至少一个表格对象中选择表格属性为单元格属性的至少一个目标对象。目标对象可以通过检测待识别图像中的字符串对象获得,以字符串作为检测目标,从而检测获得至少一个目标对象。
目标对象可以为字符对象或者文本框对象。其中,字符对象可以为字符串中以空格为识别结束条件,获得的单词。例如,CASE NAME中即可以包括两个字符对象,分别为CASE以及NAME。其中,文本框对象为以字符串所在字符串区域为识别条件,获得的各个字符串所在的文本框。例如,假设CASE NAME的文本框为(v1,v2,v3,v4),则该文本框(v1,v2,v3,4)即可以为一个文本框对象。
203:确定至少一个目标对象分别对应的单元格区域,获得至少一个目标对象分别对应的单元格位置信息。
至少一个目标对象分别对应的单元格区域,可以为至少一个目标对象各自所在单元格区域。假设单元格区域为矩形,单元格位置信息可以为矩形的左上以及右下坐标,此时,单元格位置信息为目标对象所在的单元格在待识别图像中的位置坐标。
204:根据至少一个目标对象分别对应的单元格位置信息,生成待识别图像对应的电子表格。
可选地,根据至少一个目标对象分别对应的单元格位置信息,生成待识别图像对应的电子表格可以包括:根据至少一个目标对象分别对应的单元格位置信息,将至少一个目标对象中具有相同单元格位置信息的进行去重处理,获得至少一个目标位置信息,以根据至少一个目标位置信息以及至少一个目标位置信息的单元格所对应的文本信息,生成待识别图像对应的电子表格。
本公开实施例中,针对待识别图像,识别该待识别图像中的至少一个表格对象,获得至少一个表格对象各自的表格属性,然后利用至少一个表格对象分别对应的表格属性,确定至少一个目标对象中具有单元格属性的至少一个目标对象,进而确定至少一个目标对象分别对应的单元格位置信息,实现对象所在单元格的确定,从而根据至少一个目标对象分别对应的单元格位置信息,生成待识别图像的电子表格。通过识别待识别图像种至少一个表格对象的表格属性,以将利用具有单元格属性的至少一个目标对象进行单元格区域的识别,将待识别图像中的单元格进行准确识别,以单元格为识别基础,可以获得更准确地识别结果,提高电子表格的识别精度。
为了对表格中的单元格进行准确识别,在根据至少一个目标对象分别对应的单元格位置信息,生成待识别图像对应的电子表格时,可以采用单元格区域的图像识别方法进行识别。具体如图3所示,为本公开第二实施例提供的一种表格生成方法的流程图,该方法可以包括以下几个步骤:
301:识别待识别图像中的至少一个表格对象,获得至少一个表格对象分别对应的表格属性。
其中,任一个表格对象的表格属性为单元格属性或非单元格属性。
本实施例中部分步骤与上述实施例中部分步骤相同,为了描述的简洁性考虑,在此不再赘述。
302:确定至少一个表格对象中具有单元格属性的至少一个目标对象。
303:确定至少一个目标对象分别对应的单元格区域,获得至少一个目标对象分别对应的单元格位置信息。
304:根据至少一个目标对象分别对应的单元格位置信息,确定至少一个目标对象分别对应的区域图像。
可选地,根据至少一个目标对象分别对应的单元格位置信息,确定至少一个目标对象分别对应的区域图像可以包括:根据至少一个目标对象分别对应的单元格位置信息,从待识别图像中提取每个单元格位置信息对应的区域图像,以获得至少一个目标对象分别对应的区域图像。
区域图像可以为从待识别图像中提取的单元格区域所对应的局部图像。
305:识别至少一个目标对象分别对应的区域图像的文本信息,以获得至少一个目标对象分别对应的文本信息。
可选地,识别至少一个目标对象分别对应的区域图像的文本信息,以获得至少一个目标对象分别对应的文本信息可以包括:将至少一个目标对象分别对应的区域图像利用文字识别算法进行识别,获得至少一个目标对象分别对应的文本信息。具体地,可以将任一区域图像输入到文字识别算法中,同文字识别算法可以识别获得该区域图像的文本信息。
其中,文字识别算法可以为现有技术中的任一种文字识别算法,以对区域图像的文本信息进行准确识别。例如,可以为基于CRNN(Convolutional Recurrent NeuralNetwork,卷积递归神经网络)或者FOTS(Fast Oriented Text Spotting,端到端文本检测与识别)等机器学习的识别算法。
306:根据至少一个目标对象分别对应的文本信息以及单元格位置信息,生成电子表格。
电子表格可以根据至少一个目标对象分别对应的文本信息以及单元格位置信息生成。具体可以生成一个空白表格,根据至少一个目标对象各自的单元格位置信息将对应的文本信息填充到空白表格中。空白表格可以根据至少一个目标对象分别对应的单元格位置信息指示的单元格结构生成。
本实施例中,识别待识别图像种的至少一个表格对象,可以获得至少一个表格对象分别对应的表格属性。其中,任一个表格对象的表格属性为单元格属性或非单元格属性,以确定至少一个表格对象中具有单元格属性的至少一个目标对象。进一步,可以确定至少一个目标对象分别对应的单元格区域,获得至少一个目标对象分别对应的单元格位置信息。通过对单元格区域进行识别,可以获得准确的单元格位置信息。从而根据至少一个目标对象分别对应的单元格位置信息,确定至少一个目标对象分别对应的区域图像,以识别至少一个目标对象分别对应的区域图像的文本信息,获得至少一个目标对象分别对应的文本信息,获得准确的文本信息。进而根据至少一个目标对象分别对应的文本信息以及单元格位置信息,生成电子表格。通过利用文本信息以及单元格位置信息的准确生成,获得的各目标对象各自的文本信息与单元格位置信息的匹配度更高,进而完成电子表格的准确生成,确保电子表格的准确度。
除采用图像识别方法识别单元格内容之外,还可以在OCR识别的基础上,针对单元格内容进行更准确的识别。如图4所示,为本公开第三实施例提供的一种表格生成方法的流程图,该方法可以包括以下几个步骤:
401:识别待识别图像中的至少一个表格对象,获得至少一个表格对象分别对应的对象位置信息。
本实施例中部分步骤与上述实施例中部分步骤相同,为了描述的简洁性考虑,在此不再赘述。
其中,对象位置信息可以为能够覆盖表格对象的区域所形成的位置信息。对象位置信息可以包括矩形的坐标位置信息,该矩阵可以为覆盖表格对象的矩形区域。任一表格对象的对象文本信息可以为该表格对象的对象位置信息中的文本信息。
可选地,可以采用现有的OCR技术识别待识别图像中的至少一个表格对象,获得至少一个表格对象分别对应的对象位置信息和对象文本信息。本实施例是在现有的OCR技术的基础上,利用识别结果,也即至少一个表格对象分别对应的对象位置信息以及对象文本信息,对表格结构进行的进一步分析,从而利用表格结构对表格进行更准确的还原。
402:利用至少一个表格对象分别对应的对象位置信息,确定至少一个表格对象分别对应的表格属性。
其中,任一个表格对象的表格属性为单元格属性以及或非单元格属性。
可选地,利用至少一个表格对象分别对应的对象位置信息,确定至少一个表格对象分别对应的表格属性包括:利用至少一个表格对象分别对应的对象位置信息,对至少一个表格对象的表格结构进行分析处理,获得至少一个表格对象分别对应的表格属性。
403:确定至少一个表格对象中具有单元格属性的至少一个目标对象。
404:确定至少一个目标对象分别对应的单元格区域,获得至少一个目标对象分别对应的单元格位置信息。
405:根据至少一个目标对象分别对应的单元格位置信息,生成待识别图像对应的电子表格。
本实施例中,识别待识别图像种的至少一个表格对象之后,可以获得至少一个表格对象分别对应的对象位置信息以及对象文本信息。从而可以利用至少一个表格对象分别对应的对象区域信息以及对象文本信息,确定至少一个表格对象分别对应的表格属性。从而确定至少一个表格对象中具有单元格属性的至少一个目标对象。之后,确定至少一个目标对象分别对应的单元格区域,获得至少一个目标对象分别对应的单元格位置信息。根据至少一个目标对象分别对应的单元格位置信息,生成待识别图像对应的电子表格。通过识别待识别图像中的至少一个表格对象分别对应的对象位置信息以及对象文本信息,以利用对象位置信息以及对象文本信息,对待识别图像的表格结构进行分析,获得至少一个目标对象各自的表格属性。通过对表格结构的准确分析,可以获得各目标对象准确的表格属性,进而利用表格属性对表格进行准确还原,确保了还原结果的准确性的提高。
其中,利用至少一个表格对象分别对应的对象位置信息,确定至少一个表格对象分别对应的表格属性,可以包括:
基于至少一个表格对象分别对应的对象位置信息,提取至少一个表格对象分别对应的目标特征。
将至少一个表格对象分别对应的目标特征输入到属性分类模型,获得至少一个表格对象分别对应的表格属性。
可选地,属性分类模型可以为深度神经网络模型,例如可以为深度自注意力模型的解码器。至少一个表格对象分别对应的目标特征可以利用深度自注意力模型的编码器,对至少一个表格对象分别对应的对象文本信息以及对象位置信息编码获得。至少一个表格对象分别对应的目标特征可以利用深度自注意力模型的解码器获得。将至少一个表格对象分别对应的目标特征输入到属性分类模型,获得至少一个表格对象分别对应的表格属性可以包括:将至少一个表格对象分别对应的目标特征输入到深度自注意力模型的解码器,获得至少一个表格对象分别对应的表格属性。
其中,深度自注意力模型的编码器以及解码器可以训练获得。具体的训练步骤可以包括:确定至少一个训练样本,其中,每个训练样本对应有正确的属性标识。以训练结果为至少一个训练样本分别对应的正确属性标识为训练目标,利用至少一个训练样本训练获得深度自注意力模型的编码器以及解码器各自的模型参数。
在训练过程中,各个训练样本的目标特征的提取以及利用各个训练样本的目标特征对表格对象的属性进行确定的方式与本公开的实施例中至少一个表格对象的提取方式以及分类方式相同,在此不再赘述。
表格属性可以使用表格属性标识表示,例如,<tr>、<td>等均可以表示为一种表格属性。表格属性的具体表示方式属于现有技术,例如http协议即可以直接识别表格属性并按照表格属性对表格进行渲染。表格属性可以用于确定表格结构。
进一步,可选地,基于至少一个表格对象分别对应的对象位置信息,提取至少一个表格对象分别对应的目标特征,可以包括:
提取至少一个表格对象分别对应的对象特征。
基于至少一个表格对象分别对应的对象位置信息,提取至少一个表格对象分别对应的区域特征。
将任一个表格对象的对象特征和区域特征进行特征拼接处理,获得表格对象的多模态特征,以获得至少一个表格对象分别对应的多模态特征。
将至少一个表格对象分别对应的多模态特征输入特征融合模型,获得至少一个表格对象分别对应的目标特征。
其中,特征融合模型可以为深度神经网络模型,例如可以为深度自注意力模型的编码器。将至少一个表格对象分别对应的多模态特征输入特征融合模型,获得至少一个表格对象分别对应的目标特征可以包括:将至少一个表格对象分别对应的多模态特征输入深度自注意力模型的编码器,获得至少一个表格对象分别对应的目标特征。
可选地,基于至少一个表格对象分别对应的对象位置信息,提取至少一个表格对象分别对应的区域特征可以包括:将至少一个表格对象分别对应的对象位置信息,输入到特征转换模型,获得至少一个表格对象分别对应的区域特征。
特征转换模型可以为Word2Vec(word embedding,词向量)模型,提取到的至少一个表格对象分别对应的区域特征可以为至少一个表格对象分别对应的区域词向量。每个表格对象的区域词向量的向量长度相等,向量长度可以预先设置。
此外,特征转换模型还可以为其他深度神经网络模型,例如,Glove(Globalvectors for word representation,全局词频统计的词表征模型)等。
需要说明的是,本公开中所描述的任一种模型,仅仅是对各模型种类的详细说明,并不应构成对本公开的技术方案的具体限定,本领域中其他适用于本公开的技术方案的模型也属于本公开保护的内容。
除对象特征和区域特征两种模态种类对应的模态特征之外,还可以对其他模态种类的模态特征进行识别,以获取更多模态的特征,实现更多种特征的综合识别,以通过模块种类的方式增加多模态特征表达的全面性,进而促进识别效率以及识别准确度的提升。
在执行基于至少一个表格对象分别对应的对象位置信息,提取至少一个表格对象分别对应的区域特征之后,该方法还可以包括:
基于待识别图像,提取至少一个表格对象在预设模态种类分别对应的模态特征。
其中,将任一个表格对象的对象特征和区域特征进行特征拼接,获得表格对象的多模态特征,以获得至少一个表格对象分别对应的多模态特征,可以包括:
将任一个表格对象的对象特征、区域特征和表格对象在模态种类对应的模态特征进行特征拼接,获得表格对象的多模态特征,以获得至少一个表格对象分别对应的多模态特征。
其中,至少一个表格对象可以包括至少一个文本框对象和/或至少一个字符对象。
在一种可能的设计中,至少一个表格对象可以包括至少一个文本框对象。
提取至少一个表格对象分别对应的对象特征,可以包括:
提取待识别图像的图像特征。
根据至少一个表格对象分别对应的对象位置信息,从图像特征中提取至少一个表格对象分别对应的区域图像特征。
确定任一个表格对象的区域图像特征为表格对象的对象特征,以获得至少一个表格对象分别对应的对象特征。
可选地,提取待识别图像的图像特征可以包括:将待识别图像输入卷积神经网络,计算获得待识别图像的图像特征。在实际应用种,卷积神经网络可以为经典的卷积神经网络,例如可以为ResNet(Deep residual network,深度残差神经网络)、VGG(VisualGeometry Group Network,视觉几何群网络)、MobileNets(Efficient ConvolutionalNeural Networks for Mobile Vision Applications,用于移动视觉的高效卷积神经网络)等。
在又一种可能的设计中,至少一个表格对象包括至少一个字符对象;提取至少一个表格对象分别对应的对象特征,包括:
识别待识别图像中的至少一个表格对象分别对应的对象文本信息。
对至少一个表格对象分别对应的对象文本信息进行词向量提取,获得至少一个表格对象分别对应的对象特征。
其中,对至少一个表格对象分别对应的对象文本信息进行词向量提取,获得至少一个表格对象分别对应的对象特征可以包括:将至少一个表格对象分别对应对象文本信息输入词向量提取模型,获得至少一个表格对象分别对应的对象特征。
词向量提取模型可以为Word2Vec(word embedding,词向量)模型,提取到的至少一个表格对象分别对应的对象特征可以为至少一个表格对象分别对应的文本词向量。每个表格对象的文本词向量的向量长度相等,向量长度可以预先设置。
此外,词向量提取模型还可以为其他深度神经网络的词向量模型,例如,Glove(Global vectors for word representation,全局词频统计的词表征模型)等。
在至少一个表格对象同时包括至少一个文本框对象和至少一个字符对象时,至少一个文本框对象的对象特征识别方式可以参考前述实施例中至少一个文本框对象的识别方式,至少一个字符对象的对象特征的识别方式可以参考前述实施例中至少一个文本框对象的识别方式,为了描述的简洁性考虑,在此不再赘述。
在至少一个表格对象同时包括至少一个文本框对象和至少一个字符对象时,可以将至少一个字符对象以及至少一个文本框对象并列排列,以按照并列排列方式,将至少一个字符对象分别对应的多模态特征以及至少一个文本框对象分别对应的多模态特征同时输入到特征融合模型,获得至少一个表格对象分别对应的目标特征。
参考图5,假设采用OCR技术对待识别图像识别获得:至少一个字符对象分别对应的对象特征为T1,T2,T3,……,Tn,[SEP],n为大于1的正整数;至少一个文本框对象分别对应的对象特征为V1,V2,V3,……,Vm,[PAD],m为大于1的正整数。至少一个字符对象分别对应的区域特征可以表示为:B(t1),B(t2),B(t3)……,B(tn),[SEP]。至少一个文本框对象分别对应的区域特征可以表示为:B(v1),B(v2),B(v3)……,B(vn),[SEP]。其他类型的模态种类对应的模态特征,例如,表格标识特征,D0,D1,……,Dm。可以存在两个以上的字符对象的表格标识特征相同。将以上多种模态类型的特征进行加权计算,例如均值计算等,可以计算获得至少一个表格对象分别对应的多模态特征501:[Rt1,Rt2,Rt3,……,Rtn,[SEP],Rv1,Rv2,Rv3,……,Rvm,[PAD]]。
之后,可以将多模态特征501:[Rt1,Rt2,Rt3,……,Rtn,[SEP],Rv1,Rv2,Rv3,……,Rvm,[PAD]]输入到特征融合模型,例如图5中所示的深度自注意力网络502,获得至少一个表格对象分别对应的目标特征503:[Rt1’,Rt2’,Rt3’,……,Rtn’,[SEP],Rv 1’,Rv 2’,Rv 3’,……,Vm’,[PAD]]。在实际应用中,输入到特征融合模型的除至少一个表格对象各自的多模态特征之外,还可以包括表格结构特征,例如,[SEP]特征、[PAD]特征等,通过对[SEP]特征进行特征融合,获得的目标特征仍是表格结构特征,例如[SEP]特征输入经过特征融合处理仍获得的是[SEP]特征。表格结构特征识别获得的表格属性一般为非单元格属性。例如,[SEP]特征进行表格属性识别可以获得表格结束属性:</td>,</td>属于一种非单元格属性。
在获得多模态特征之后,可以利用多模态特征识别目标对象的单元格位置信息。其中,确定至少一个目标对象分别对应的单元格区域,获得至少一个目标对象分别对应的单元格位置信息可以包括:
基于至少一个表格对象分别对应的多模态特征,确定至少一个目标对象分别对应的多模态特征。
将至少一个目标对象分别对应的多模态特征输入单元格区域的位置解码器,获得至少一个目标对象分别对应的单元格位置信息。
在获得至少一个目标对象分别对应的多模态特征之后,可以将至少一个目标对象分别对应的多模态特征进行单元格位置信息的提取。
多模态特征中综合了表格对象在至少一个模态种类的特征,对表格对象进行了更全面的分析,获得的多模态特征包含了表格对象更全面的信息,以在利用多模特特征进行单元格位置信息提取时,可以获得更准确的单元格位置信息,从而提升电子表格还原精度。
其中,基于至少一个表格对象分别对应的多模态特征,确定至少一个目标对象分别对应的多模态特征,可以包括:
从至少一个表格对象中确定与任一个目标对象匹配的匹配对象,以将匹配对象的多模态特征确定为目标对象的多模态特征,获得至少一个目标对象分别对应的多模态特征。
在获得至少一个目标对象之后,其中,可能存在两个以上的目标对象属于相同的单元格区域,针对以上属于相同单元格区域的目标对象的单元格位置信息进行加权计算,以获得该单元格区域所对应的更准确的单元格位置信息。作为一种可能的实现方式,根据至少一个目标对象分别对应的单元格位置信息,生成待识别图像的电子表格,可以包括:
根据至少一个目标对象分别对应的表格属性,将至少一个目标对象中具有相同单元格区域的目标对象划分至同一个对象组中,获得至少一个对象组;
遍历至少一个对象组,将任一个对象组中至少一个目标对象各自的单元格位置信息进行加权计算,获得至少一个对象组分别对应的目标位置信息。
根据至少一个对象组分别对应目标位置信息,生成待识别图像的电子表格。
其中,任一个对象组中分别对应的权重可以相等,也即,将至少一个目标对象各自的单元格位置信息进行加权计算可以包括:将至少一个目标对象各自的单元格位置信息进行均值计算。获得的目标位置信息为至少一个目标对象的单元格位置信息的均值计算结果。
本实施例中,将至少一个目标对象进行了分组,以将同一组中的目标对象的单元格位置信息进行了加权计算,获得每个对象组的目标位置信息。通过将组内目标对象的单元格位置信息进行加权计算,获得的目标位置信息与单元格的位置更匹配,提高单元格区域的提取精度,进而获得的电子表格更准确。
作为一个实施例,遍历至少一个对象组,将任一个对象组中至少一个目标对象各自的单元格位置信息进行加权计算,获得至少一个对象组分别对应的目标位置信息之后,该方法还可以包括:
识别待识别图像中的至少一个表格对象分别对应的对象文本信息;
根据任一个对象组中至少一个目标对象各自的对象文本信息,确定该对象组的目标文本信息,获得至少一个对象组分别对应的目标文本信息;
根据至少一个对象组分别对应目标位置信息,生成待识别图像的电子表格,可以包括:
根据至少一个对象组分别对应的目标位置信息以及目标文本信息,生成待识别图像的电子表格。
其中,至少一个表格对象包括至少一个文本框对象;根据任一个对象组中至少一个目标对象各自的对象文本信息,确定对象组的目标文本信息,获得至少一个对象组分别对应的目标文本信息,包括:
识别至少一个文本框对象分别对应的对象位置信息以及对象文本信息;
基于至少一个文本框对象分别对应的对象位置信息以及至少一个对象组分别对应的目标位置信息,为至少一个对象组分别匹配对应的目标文本框对象。
确定与任一个对象组匹配的目标文本框对象的对象文本信息为对象组的目标文本信息,以获得至少一个对象组分别对应的目标文本信息。
本实施例中,将文本框对象的文本信息确定为相匹配的单元格的文本信息,以使得各对象组的目标文本信息更准确,获得的至少一个对象组分别对应的目标文本信息准确,进一步提高表格生成准确度。
在图2所示实施例中,识别至少一个目标对象分别对应的单元格位置信息时,利用各个单元格位置信息对待识别图像进行了分割,获得至少一个目标对象分别对应的区域图像,采用区域图像识别的方式,获得至少一个目标对象各自的区域图像的图像文本信息,获得至少一个目标对象分别对应的图像文本信息。通过区域图像的识别方式获得至少一个目标对象分别对应的图像文本信息。而上述实施例中,采用文本框与目标对象的位置匹配的关系,将文本框对应的文本信息填充到目标对象的单元格中。通过以上两种等方式的确认,可以实现多方式获得各单元格的目标文本信息。
在一种可能的设计中,为了使得各单元格的文本信息更准确,在获得至少一个对象组分别对应的目标文本信息以及至少一个目标对象分别对应区域图像的图像文本信息之后,任一个对象组的目标文本信息还可以通过以下实施例获得:
确定任一个对象组中至少一个目标对象各自的区域图像的图像文本信息,将至少一个目标对象各自的区域图像的图像文本信息进行语义识别,获得该对象组的识别语义信息。将任一个对象组的识别语义信息和目标文本信息进行比较,获得比较结果。根据比较结果更新该对象组的目标文本信息。
其中,比较结果包括语义识别信息的语义含义相对目标文本信息更准确或者语义识别信息的语义含义相对目标文本信息更偏差。具体可以计算以上两种信息的语义分数或者语义级别,从中选择语义分数更高或者语义级别更高的信息。
根据比较结果更新对象组的目标文本信息可以包括:在比较结果为语义识别信息的语义含义相对目标文本信息更准确的情况下,可以将语义识别信息作为目文本信息。在比较结果为语义识别信息的语义含义相对目标文本信息更偏差的情况下,维持原目标文本信息不变。
将至少一个目标对象各自的区域图像的文本信息进行语义识别,获得对象组的识别语义信息可以包括:将至少一个文本信息按照语法规则或者至少一个目标对象的排列顺序进行组合,获得对象组的识别语义信息。语法规则可以为预先设定的语法内容,例如可以为一个单元格中的字符语义与文本框内容取一种。例如,当至少一个目标对象包括字符对象以及文本框对象时,假设字符对象为CASE以及NAME,文本框对象为CASE NAME,则根据对象的排序,CASE的字符对象位于NAME对象的左边,则其对应的语义文本为CASE NAME,而文本框对象CASE NAME与语义文本相同,按照语法规则:字符与文本框的内容取其一,可以选择其中任一CASE NAME作为识别语义信息。
在前述实施例中,获得至少一个表格对象时,至少一个表格对象可以按照从左到右,从上到下的顺序进行排列,每个表格对象具有相应的排序顺序。
如图6所示,为本公开第四实施例提供的一种表格生成装置的结构示意图,该用于图像的表格内容识别的表格生成装置600可以包括以下几个单元:
属性识别单元601:用于识别待识别图像中的至少一个表格对象,获得至少一个表格对象分别对应的表格属性。其中,任一个表格对象的表格属性包括单元格属性或者非单元格属性。
对象确定单元602:用于确定至少一个表格对象中具有单元格属性的至少一个目标对象。
区域确定单元603:用于确定至少一个目标对象分别对应的单元格区域,获得至少一个目标对象分别对应的单元格位置信息。
表格生成单元604:用于根据至少一个目标对象分别对应的单元格位置信息,生成待识别图像对应的电子表格。
本公开实施例中,针对待识别图像,识别该待识别图像中的至少一个表格对象,获得至少一个表格对象各自的表格属性,然后利用至少一个表格对象分别对应的表格属性,确定至少一个目标对象中具有单元格属性的至少一个目标对象,进而确定至少一个目标对象分别对应的单元格位置信息,实现对象所在单元格的确定,从而根据至少一个目标对象分别对应的单元格位置信息,生成待识别图像的电子表格。通过识别待识别图像种至少一个表格对象的表格属性,以将利用具有单元格属性的至少一个目标对象进行单元格区域的识别,将待识别图像中的单元格进行准确识别,以单元格为识别基础,可以获得更准确地识别结果,提高电子表格的识别精度。
作为一个实施例,其中,表格生成单元604可以包括:
区域分割模块,用于根据至少一个目标对象分别对应的单元格位置信息,确定至少一个目标对象分别对应的区域图像;
文本识别模块,用于识别至少一个目标对象分别对应的区域图像的文本信息,以获得至少一个目标对象分别对应的图像文本信息;
第一生成模块,用于根据至少一个目标对象分别对应的图像文本信息以及单元格位置信息,生成电子表格。
作为一个实施例,表格生成单元604可以包括:
对象识别模块,用于识别待识别图像中的至少一个表格对象,获得至少一个表格对象分别对应的对象位置信息;
第二生成模块,用于利用至少一个表格对象分别对应的对象位置信息,确定至少一个表格对象分别对应的表格属性。
在一种可能的设计中,第二生成模块,包括:
特征识别子模块,用于基于至少一个表格对象分别对应的对象位置信息,提取至少一个表格对象分别对应的目标特征;
对象分类子模块,用于将至少一个表格对象分别对应的目标特征输入到属性分类模型,获得至少一个表格对象分别对应的表格属性。
在某些实施例中,特征识别子模块,包括:
第一提取单元,用于提取至少一个表格对象分别对应的对象特征;
第二提取单元,用于提取至少一个表格对象分别对应的区域特征。
特征拼接单元,用于将任一个表格对象的对象特征和区域特征进行特征拼接处理,获得表格对象的多模态特征,以获得至少一个表格对象分别对应的多模态特征。
特征融合单元,用于将至少一个表格对象分别对应的多模态特征输入特征融合模型,获得至少一个表格对象分别对应的目标特征。
作为一种可能的实现方式,其中,还包括:
第三提取单元,用于基于待识别图像,提取至少一个表格对象在预设模态种类分别对应的模态特征;
特征拼接单元,包括:
特征拼接模块,用于将任一个表格对象的对象特征、区域特征和表格对象在模态种类对应的模态特征进行特征拼接,获得表格对象的多模态特征,以获得至少一个表格对象分别对应的多模态特征。
在一种可能的设计中,其中,至少一个表格对象包括至少一个文本框对象;第一提取单元,可以包括:
第一提取模块,用于提取待识别图像的图像特征。
第二提取模块,用于根据至少一个表格对象分别对应的对象位置信息,从图像特征中提取至少一个表格对象分别对应的区域图像特征。
特征确定模块,用于确定任一个表格对象的区域图像特征为表格对象的对象特征,以获得至少一个表格对象分别对应的对象特征。
在又一种可能的设计中,至少一个表格对象包括至少一个字符对象;该装置还可以包括:
文本识别单元,用于识别待识别图像中的至少一个表格对象分别对应的对象文本信息。
其中,第一提取单元,可以包括:
第三提取模块,用于对至少一个表格对象分别对应的对象文本信息进行词向量提取,获得至少一个表格对象分别对应的对象特征。
作为一个实施例,其中,区域确定单元,包括:
对象确定模块,用于基于至少一个表格对象分别对应的多模态特征,确定至少一个目标对象分别对应的多模态特征。
位置确定模块,用于将至少一个目标对象分别对应的多模态特征输入单元格区域的位置解码器,获得至少一个目标对象分别对应的单元格位置信息。
在某些实施例中,其中,对象确定模块,包括:
对象匹配子模块,用于从至少一个表格对象中确定与任一个目标对象匹配的匹配对象,以将匹配对象的多模态特征确定为目标对象的多模态特征,获得至少一个目标对象分别对应的多模态特征。
作为一个实施例,其中,表格生成单元604可以包括:
对象划分模块,用于根据至少一个目标对象分别对应的表格属性,将至少一个目标对象中具有相同单元格区域的目标对象划分至同一个对象组中,获得至少一个对象组。
位置加权模块,用于遍历至少一个对象组,将任一个对象组中至少一个目标对象各自的单元格位置信息进行加权计算,获得至少一个对象组分别对应的目标位置信息。
第三生成模块,用于根据至少一个对象组分别对应目标位置信息,生成待识别图像的电子表格。
其中,该装置还可以包括:
文本识别单元,用于识别待识别图像中的至少一个表格对象分别对应的对象文本信息。
文本确定模块,用于根据任一个对象组中至少一个目标对象各自的对象文本信息,确定对象组的目标文本信息,获得至少一个对象组分别对应的目标文本信息。
第三生成模块具体可以用于:
根据至少一个对象组分别对应的目标位置信息以及目标文本信息,生成待识别图像的电子表格。
在一种可能的设计中,至少一个表格对象包括至少一个文本框对象;文本确定模块,包括:
第一识别子模块,用于识别至少一个文本框对象分别对应的对象位置信息;
对象匹配子模块,用于基于至少一个文本框对象分别对应的对象位置信息以及至少一个对象组分别对应的目标位置信息,为至少一个对象组分别匹配对应的目标文本框对象;
信息确定子模块,用于确定与任一个对象组匹配的目标文本框对象的对象文本信息为对象组的目标文本信息,以获得至少一个对象组分别对应的目标文本信息。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,本公开还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务端、刀片式服务端、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的至少一个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如表格生成方法。例如,在一些实施例中,表格生成方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的表格生成方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行表格生成方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务端上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务端)、或者包括中间件部件的计算系统(例如,应用服务端)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务端。客户端和服务端一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务端关系的计算机程序来产生客户端和服务端的关系。服务端可以是云服务端,又称为云计算服务端或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务端也可以为分布式系统的服务端,或者是结合了区块链的服务端。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (29)
1.一种表格生成方法,包括:
识别待识别图像中的至少一个表格对象,获得所述至少一个表格对象分别对应的表格属性;其中,任一个表格对象的表格属性包括单元格属性或非单元格属性;
确定所述至少一个表格对象中具有单元格属性的至少一个目标对象;
确定所述至少一个目标对象分别对应的单元格区域,获得所述至少一个目标对象分别对应的单元格位置信息;
根据所述至少一个目标对象分别对应的单元格位置信息,生成所述待识别图像对应的电子表格。
2.根据权利要求1所述的方法,其中,所述根据所述至少一个目标对象分别对应的单元格位置信息,生成所述待识别图像对应的电子表格,包括:
根据所述至少一个目标对象分别对应的单元格位置信息,确定至少一个目标对象分别对应的区域图像;
识别所述至少一个目标对象分别对应的区域图像的文本信息,以获得所述至少一个目标对象分别对应的图像文本信息;
根据所述至少一个目标对象分别对应的图像文本信息以及单元格位置信息,生成所述电子表格。
3.根据权利要求1所述的方法,其中,所述识别待识别图像中的至少一个表格对象,获得所述至少一个表格对象分别对应的表格属性,包括:
识别所述待识别图像中的至少一个表格对象分别对应的对象位置信息;
利用所述至少一个表格对象分别对应的对象位置信息,确定所述至少一个表格对象分别对应的表格属性。
4.根据权利要求3所述的方法,其中,所述利用所述至少一个表格对象分别对应的对象位置信息,确定所述至少一个表格对象分别对应的表格属性,包括:
基于所述至少一个表格对象分别对应的对象位置信息,提取所述至少一个表格对象分别对应的目标特征;
将所述至少一个表格对象分别对应的目标特征输入到属性分类模型,获得所述至少一个表格对象分别对应的表格属性。
5.根据权利要求4所述的方法,其中,所述基于所述至少一个表格对象分别对应的对象位置信息,提取所述至少一个表格对象分别对应的目标特征,包括:
提取所述至少一个表格对象分别对应的对象特征;
基于所述至少一个表格对象分别对应的对象位置信息,提取所述至少一个表格对象分别对应的区域特征;
将任一个表格对象的对象特征和区域特征进行特征拼接处理,获得所述表格对象的多模态特征,以获得所述至少一个表格对象分别对应的多模态特征;
将所述至少一个表格对象分别对应的多模态特征输入特征融合模型,获得所述至少一个表格对象分别对应的目标特征。
6.根据权利要求5所述的方法,其中,还包括:
基于所述待识别图像,提取所述至少一个表格对象在预设模态种类分别对应的模态特征;
所述将任一个表格对象的对象特征和区域特征进行特征拼接,获得所述表格对象的多模态特征,以获得所述至少一个表格对象分别对应的多模态特征,包括:
将任一个表格对象的对象特征、区域特征和所述表格对象在所述模态种类对应的模态特征进行特征拼接,获得所述表格对象的多模态特征,以获得所述至少一个表格对象分别对应的多模态特征。
7.根据权利要求5所述的方法,其中,所述至少一个表格对象包括至少一个文本框对象;所述提取所述至少一个表格对象分别对应的对象特征,包括:
提取所述待识别图像的图像特征;
根据所述至少一个表格对象分别对应的对象位置信息,从所述图像特征中提取所述至少一个表格对象分别对应的区域图像特征;
确定任一个表格对象的区域图像特征为所述表格对象的对象特征,以获得所述至少一个表格对象分别对应的对象特征。
8.根据权利要求5所述的方法,其中,所述至少一个表格对象包括至少一个字符对象;还包括:
识别所述待识别图像中的至少一个表格对象分别对应的对象文本信息;
所述提取所述至少一个表格对象分别对应的对象特征,包括:
对所述至少一个表格对象分别对应的对象文本信息进行词向量提取,获得所述至少一个表格对象分别对应的对象特征。
9.根据权利要求5所述的方法,其中,所述确定所述至少一个目标对象分别对应的单元格区域,获得所述至少一个目标对象分别对应的单元格位置信息,包括:
基于所述至少一个表格对象分别对应的多模态特征,确定所述至少一个目标对象分别对应的多模态特征;
将所述至少一个目标对象分别对应的多模态特征输入单元格区域的位置解码器,获得所述至少一个目标对象分别对应的单元格位置信息。
10.根据权利要求9所述的方法,其中,所述基于所述至少一个表格对象分别对应的多模态特征,确定所述至少一个目标对象分别对应的多模态特征,包括:
从所述至少一个表格对象中确定与任一个目标对象匹配的匹配对象,以将所述匹配对象的多模态特征确定为所述目标对象的多模态特征,获得所述至少一个目标对象分别对应的多模态特征。
11.根据权利要求1~10任一项所述的方法,其中,所述根据所述至少一个目标对象分别对应的单元格位置信息,生成所述待识别图像的电子表格,包括:
根据所述至少一个目标对象分别对应的表格属性,将所述至少一个目标对象中具有相同单元格区域的目标对象划分至同一个对象组中,获得至少一个对象组;
遍历所述至少一个对象组,将任一个对象组中至少一个目标对象各自的单元格位置信息进行加权计算,获得所述至少一个对象组分别对应的目标位置信息;
根据所述至少一个对象组分别对应目标位置信息,生成所述待识别图像的电子表格。
12.根据权利要求11所述的方法,其中,还包括:
识别所述待识别图像中的至少一个表格对象分别对应的对象文本信息;
根据任一个对象组中至少一个目标对象各自的对象文本信息,确定所述对象组的目标文本信息,获得所述至少一个对象组分别对应的目标文本信息;
所述根据所述至少一个对象组分别对应目标位置信息,生成所述待识别图像的电子表格,包括:
根据所述至少一个对象组分别对应的目标位置信息以及目标文本信息,生成所述待识别图像的电子表格。
13.根据权利要求12所述的方法,其中,所述至少一个表格对象包括至少一个文本框对象;所述根据任一个对象组中至少一个目标对象各自的对象文本信息,确定所述对象组的目标文本信息,获得所述至少一个对象组分别对应的目标文本信息,包括:
识别所述至少一个文本框对象分别对应的对象位置信息;
基于所述至少一个文本框对象分别对应的对象位置信息以及所述至少一个对象组分别对应的目标位置信息,为所述至少一个对象组分别匹配对应的目标文本框对象;
确定与任一个对象组匹配的目标文本框对象的对象文本信息为所述对象组的目标文本信息,以获得所述至少一个对象组分别对应的目标文本信息。
14.一种表格生成装置,包括:
属性识别单元,用于识别待识别图像中的至少一个表格对象,获得所述至少一个表格对象分别对应的表格属性;其中,任一个表格对象的表格属性为单元格属性包括非单元格属性;
对象确定单元,用于确定所述至少一个表格对象中具有单元格属性的至少一个目标对象;
区域确定单元,用于确定所述至少一个目标对象分别对应的单元格区域,获得所述至少一个目标对象分别对应的单元格位置信息;
表格生成单元,用于根据所述至少一个目标对象分别对应的单元格位置信息,生成所述待识别图像对应的电子表格。
15.根据权利要求14所述的装置,其中,所述表格生成单元,包括:
区域分割模块,用于根据所述至少一个目标对象分别对应的单元格位置信息,确定至少一个目标对象分别对应的区域图像;
文本识别模块,用于识别所述至少一个目标对象分别对应的区域图像的文本信息,以获得所述至少一个目标对象分别对应的图像文本信息;
第一生成模块,用于根据所述至少一个目标对象分别对应的图像文本信息以及单元格位置信息,生成所述电子表格。
16.根据权利要求14所述的装置,其中,所述表格生成单元,包括:
对象识别模块,用于识别所述待识别图像中的至少一个表格对象,获得所述至少一个表格对象分别对应的对象位置信息;
第二生成模块,用于利用所述至少一个表格对象分别对应的对象位置信息,确定所述至少一个表格对象分别对应的表格属性。
17.根据权利要求16所述的装置,其中,所述第二生成模块,包括:
特征识别子模块,用于基于所述至少一个表格对象分别对应对象位置信息,提取所述至少一个表格对象分别对应的目标特征;
对象分类子模块,用于将所述至少一个表格对象分别对应的目标特征输入到属性分类模型,获得所述至少一个表格对象分别对应的表格属性。
18.根据权利要求17所述的装置,其中,所述特征识别子模块,包括:
第一提取单元,用于提取所述至少一个表格对象分别对应的对象特征;
第二提取单元,用于基于所述至少一个表格对象分别对应的对象位置信息,提取所述至少一个表格对象分别对应的区域特征;
特征拼接单元,用于将任一个表格对象的对象特征和区域特征进行特征拼接处理,获得所述表格对象的多模态特征,以获得所述至少一个表格对象分别对应的多模态特征;
特征融合单元,用于将所述至少一个表格对象分别对应的多模态特征输入特征融合模型,获得所述至少一个表格对象分别对应的目标特征。
19.根据权利要求18所述的装置,其中,还包括:
第三提取单元,用于基于所述待识别图像,提取所述至少一个表格对象在预设模态种类分别对应的模态特征;
所述特征拼接单元,包括:
特征拼接模块,用于将任一个表格对象的对象特征、区域特征和所述表格对象在所述模态种类对应的模态特征进行特征拼接,获得所述表格对象的多模态特征,以获得所述至少一个表格对象分别对应的多模态特征。
20.根据权利要求18所述的装置,其中,所述至少一个表格对象包括至少一个文本框对象;所述第一提取单元,包括:
第一提取模块,用于提取所述待识别图像的图像特征;
第二提取模块,用于根据所述至少一个表格对象分别对应的对象位置信息,从所述图像特征中提取所述至少一个表格对象分别对应的区域图像特征;
特征确定模块,用于确定任一个表格对象的区域图像特征为所述表格对象的对象特征,以获得所述至少一个表格对象分别对应的对象特征。
21.根据权利要求18所述的装置,其中,所述至少一个表格对象包括至少一个字符对象;还包括:
文本识别单元,用于识别所述待识别图像中的至少一个表格对象分别对应的对象文本信息;
所述第一提取单元,包括:
第三提取模块,用于对所述至少一个表格对象分别对应的对象文本信息进行词向量提取,获得所述至少一个表格对象分别对应的对象特征。
22.根据权利要求18所述的装置,其中,所述区域确定单元,包括:
对象确定模块,用于基于所述至少一个表格对象分别对应的多模态特征,确定所述至少一个目标对象分别对应的多模态特征;
位置确定模块,用于将所述至少一个目标对象分别对应的多模态特征输入单元格区域的位置解码器,获得所述至少一个目标对象分别对应的单元格位置信息。
23.根据权利要求22所述的装置,其中,所述对象确定模块,包括:
对象匹配子模块,用于从所述至少一个表格对象中确定与任一个目标对象匹配的匹配对象,以将所述匹配对象的多模态特征确定为所述目标对象的多模态特征,获得所述至少一个目标对象分别对应的多模态特征。
24.根据权利要求14~23任一项所述的装置,其中,所述表格生成单元,包括:
对象划分模块,用于根据所述至少一个目标对象分别对应的表格属性,将所述至少一个目标对象中具有相同单元格区域的目标对象划分至同一个对象组中,获得至少一个对象组;
位置加权模块,用于遍历所述至少一个对象组,将任一个对象组中至少一个目标对象各自的单元格位置信息进行加权计算,获得所述至少一个对象组分别对应的目标位置信息;
第三生成模块,用于根据所述至少一个对象组分别对应目标位置信息,生成所述待识别图像的电子表格。
25.根据权利要求24所述的装置,其中,还包括:
文本识别单元,用于识别所述待识别图像中的至少一个表格对象分别对应的对象文本信息;
文本确定模块,用于根据任一个对象组中至少一个目标对象各自的对象文本信息,确定所述对象组的目标文本信息,获得所述至少一个对象组分别对应的目标文本信息;
所述第三生成模块具体用于:
根据所述至少一个对象组分别对应的目标位置信息以及目标文本信息,生成所述待识别图像的电子表格。
26.根据权利要求24所述的装置,其中,所述至少一个表格对象包括至少一个文本框对象;所述文本确定模块,包括:
第一识别子模块,用于识别所述至少一个文本框对象分别对应的对象位置信息;
对象匹配子模块,用于基于所述至少一个文本框对象分别对应的对象位置信息以及所述至少一个对象组分别对应的目标位置信息,为所述至少一个对象组分别匹配对应的目标文本框对象;
信息确定子模块,用于确定与任一个对象组匹配的目标文本框对象的对象文本信息为所述对象组的目标文本信息,以获得所述至少一个对象组分别对应的目标文本信息。
27.一种电子设备,包括:
至少一个处理器以及与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-13中任一项所述的方法。
28.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-13中任一项所述的方法。
29.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-13中任一项所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110945523.3A CN113657274B (zh) | 2021-08-17 | 2021-08-17 | 表格生成方法、装置、电子设备及存储介质 |
JP2022059810A JP7300034B2 (ja) | 2021-08-17 | 2022-03-31 | テーブル生成方法、装置、電子機器、記憶媒体及びプログラム |
US17/832,735 US20220301334A1 (en) | 2021-08-17 | 2022-06-06 | Table generating method and apparatus, electronic device, storage medium and product |
EP22178006.7A EP4138050A1 (en) | 2021-08-17 | 2022-06-09 | Table generating method and apparatus, electronic device, storage medium and product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110945523.3A CN113657274B (zh) | 2021-08-17 | 2021-08-17 | 表格生成方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113657274A true CN113657274A (zh) | 2021-11-16 |
CN113657274B CN113657274B (zh) | 2022-09-20 |
Family
ID=78480748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110945523.3A Active CN113657274B (zh) | 2021-08-17 | 2021-08-17 | 表格生成方法、装置、电子设备及存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220301334A1 (zh) |
EP (1) | EP4138050A1 (zh) |
JP (1) | JP7300034B2 (zh) |
CN (1) | CN113657274B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114639107A (zh) * | 2022-04-21 | 2022-06-17 | 北京百度网讯科技有限公司 | 表格图像处理方法、装置和存储介质 |
CN115409007A (zh) * | 2022-11-01 | 2022-11-29 | 摩尔线程智能科技(北京)有限责任公司 | 电子表格的生成方法、装置、电子设备及存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102501576B1 (ko) * | 2022-11-22 | 2023-02-21 | 주식회사 아무랩스 | 뉴럴 네트워크를 이용하여 도표에 대한 정보를 사용자 단말에게 전송하는 방법 및 장치 |
CN116151202B (zh) * | 2023-02-21 | 2024-04-02 | 中国人民解放军海军工程大学 | 表格填写方法、装置、电子设备及存储介质 |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150016718A1 (en) * | 2013-07-09 | 2015-01-15 | 3M Innovative Properties Company | Systems and methods for note content extraction and management using segmented notes |
CN107317951A (zh) * | 2016-03-29 | 2017-11-03 | 株式会社东芝 | 图像处理系统、图像处理装置以及图像处理方法 |
CN110321470A (zh) * | 2019-05-23 | 2019-10-11 | 平安科技(深圳)有限公司 | 文档处理方法、装置、计算机设备和存储介质 |
CN110334292A (zh) * | 2019-07-02 | 2019-10-15 | 百度在线网络技术(北京)有限公司 | 页面处理方法、装置及设备 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110738037A (zh) * | 2019-10-15 | 2020-01-31 | 深圳逻辑汇科技有限公司 | 用于自动生成电子表格的方法、装置、设备及存储介质 |
CN110956087A (zh) * | 2019-10-25 | 2020-04-03 | 天津幸福生命科技有限公司 | 一种图片中表格的识别方法、装置、可读介质和电子设备 |
CN111382717A (zh) * | 2020-03-17 | 2020-07-07 | 腾讯科技(深圳)有限公司 | 一种表格识别方法、装置和计算机可读存储介质 |
CN111782839A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 图像问答方法、装置、计算机设备和介质 |
CN111814598A (zh) * | 2020-06-22 | 2020-10-23 | 吉林省通联信用服务有限公司 | 一种基于深度学习框架的财务报表自动识别方法 |
CN111860502A (zh) * | 2020-07-15 | 2020-10-30 | 北京思图场景数据科技服务有限公司 | 图片表格的识别方法、装置、电子设备及存储介质 |
CN112001368A (zh) * | 2020-09-29 | 2020-11-27 | 北京百度网讯科技有限公司 | 文字结构化提取方法、装置、设备以及存储介质 |
CN112101165A (zh) * | 2020-09-07 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 兴趣点识别方法、装置、计算机设备和存储介质 |
CN112131920A (zh) * | 2019-06-24 | 2020-12-25 | 国际商业机器公司 | 用于扫描图像中的表格信息的数据结构生成 |
US20210064861A1 (en) * | 2019-08-29 | 2021-03-04 | Abbyy Production Llc | Identification of table partitions in documents with neural networks using global document context |
CN112528863A (zh) * | 2020-12-14 | 2021-03-19 | 中国平安人寿保险股份有限公司 | 表格结构的识别方法、装置、电子设备及存储介质 |
CN112528813A (zh) * | 2020-12-03 | 2021-03-19 | 上海云从企业发展有限公司 | 表格识别方法、装置以及计算机可读存储介质 |
CN112686223A (zh) * | 2021-03-12 | 2021-04-20 | 腾讯科技(深圳)有限公司 | 一种表格识别方法、装置和计算机可读存储介质 |
CN112906532A (zh) * | 2021-02-07 | 2021-06-04 | 杭州睿胜软件有限公司 | 图像处理方法和装置、电子设备和存储介质 |
CN112949415A (zh) * | 2021-02-04 | 2021-06-11 | 北京百度网讯科技有限公司 | 图像处理方法、装置、设备和介质 |
CN112966522A (zh) * | 2021-03-03 | 2021-06-15 | 北京百度网讯科技有限公司 | 一种图像分类方法、装置、电子设备及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7366978B1 (en) * | 2003-02-13 | 2008-04-29 | Microsoft Corporation | Method and system for creating a grid-like coordinate system for addressing data contained in an irregular computer-generated table |
US9042653B2 (en) * | 2011-01-24 | 2015-05-26 | Microsoft Technology Licensing, Llc | Associating captured image data with a spreadsheet |
US9588952B2 (en) * | 2015-06-22 | 2017-03-07 | International Business Machines Corporation | Collaboratively reconstituting tables |
US20170220858A1 (en) * | 2016-02-01 | 2017-08-03 | Microsoft Technology Licensing, Llc | Optical recognition of tables |
US10740123B2 (en) * | 2017-01-26 | 2020-08-11 | Nice Ltd. | Method and system for accessing table content in a digital image of the table |
CN111738251B (zh) | 2020-08-26 | 2020-12-04 | 北京智源人工智能研究院 | 一种融合语言模型的光学字符识别方法、装置和电子设备 |
CN113032672A (zh) | 2021-03-24 | 2021-06-25 | 北京百度网讯科技有限公司 | 多模态poi特征的提取方法和装置 |
-
2021
- 2021-08-17 CN CN202110945523.3A patent/CN113657274B/zh active Active
-
2022
- 2022-03-31 JP JP2022059810A patent/JP7300034B2/ja active Active
- 2022-06-06 US US17/832,735 patent/US20220301334A1/en active Pending
- 2022-06-09 EP EP22178006.7A patent/EP4138050A1/en not_active Withdrawn
Patent Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150016718A1 (en) * | 2013-07-09 | 2015-01-15 | 3M Innovative Properties Company | Systems and methods for note content extraction and management using segmented notes |
CN107317951A (zh) * | 2016-03-29 | 2017-11-03 | 株式会社东芝 | 图像处理系统、图像处理装置以及图像处理方法 |
CN110321470A (zh) * | 2019-05-23 | 2019-10-11 | 平安科技(深圳)有限公司 | 文档处理方法、装置、计算机设备和存储介质 |
CN112131920A (zh) * | 2019-06-24 | 2020-12-25 | 国际商业机器公司 | 用于扫描图像中的表格信息的数据结构生成 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110334292A (zh) * | 2019-07-02 | 2019-10-15 | 百度在线网络技术(北京)有限公司 | 页面处理方法、装置及设备 |
US20210064861A1 (en) * | 2019-08-29 | 2021-03-04 | Abbyy Production Llc | Identification of table partitions in documents with neural networks using global document context |
CN110738037A (zh) * | 2019-10-15 | 2020-01-31 | 深圳逻辑汇科技有限公司 | 用于自动生成电子表格的方法、装置、设备及存储介质 |
CN110956087A (zh) * | 2019-10-25 | 2020-04-03 | 天津幸福生命科技有限公司 | 一种图片中表格的识别方法、装置、可读介质和电子设备 |
CN111382717A (zh) * | 2020-03-17 | 2020-07-07 | 腾讯科技(深圳)有限公司 | 一种表格识别方法、装置和计算机可读存储介质 |
CN111814598A (zh) * | 2020-06-22 | 2020-10-23 | 吉林省通联信用服务有限公司 | 一种基于深度学习框架的财务报表自动识别方法 |
CN111782839A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 图像问答方法、装置、计算机设备和介质 |
CN111860502A (zh) * | 2020-07-15 | 2020-10-30 | 北京思图场景数据科技服务有限公司 | 图片表格的识别方法、装置、电子设备及存储介质 |
CN112101165A (zh) * | 2020-09-07 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 兴趣点识别方法、装置、计算机设备和存储介质 |
CN112001368A (zh) * | 2020-09-29 | 2020-11-27 | 北京百度网讯科技有限公司 | 文字结构化提取方法、装置、设备以及存储介质 |
CN112528813A (zh) * | 2020-12-03 | 2021-03-19 | 上海云从企业发展有限公司 | 表格识别方法、装置以及计算机可读存储介质 |
CN112528863A (zh) * | 2020-12-14 | 2021-03-19 | 中国平安人寿保险股份有限公司 | 表格结构的识别方法、装置、电子设备及存储介质 |
CN112949415A (zh) * | 2021-02-04 | 2021-06-11 | 北京百度网讯科技有限公司 | 图像处理方法、装置、设备和介质 |
CN112906532A (zh) * | 2021-02-07 | 2021-06-04 | 杭州睿胜软件有限公司 | 图像处理方法和装置、电子设备和存储介质 |
CN112966522A (zh) * | 2021-03-03 | 2021-06-15 | 北京百度网讯科技有限公司 | 一种图像分类方法、装置、电子设备及存储介质 |
CN112686223A (zh) * | 2021-03-12 | 2021-04-20 | 腾讯科技(深圳)有限公司 | 一种表格识别方法、装置和计算机可读存储介质 |
Non-Patent Citations (3)
Title |
---|
ZHIRUO WANG 等: "Structure-aware Pre-training for Table Understanding with Tree-based Transformers", 《ARXIV:2010.12537V1》 * |
张锐 等: "逼真生成表格式数据的非时间属性关联模型", 《计算机应用》 * |
边龙龙 等: "利用表样式、单元格样式实现表格快速排版", 《广东印刷》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114639107A (zh) * | 2022-04-21 | 2022-06-17 | 北京百度网讯科技有限公司 | 表格图像处理方法、装置和存储介质 |
CN115409007A (zh) * | 2022-11-01 | 2022-11-29 | 摩尔线程智能科技(北京)有限责任公司 | 电子表格的生成方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20220301334A1 (en) | 2022-09-22 |
EP4138050A1 (en) | 2023-02-22 |
CN113657274B (zh) | 2022-09-20 |
JP2022088602A (ja) | 2022-06-14 |
JP7300034B2 (ja) | 2023-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113657274B (zh) | 表格生成方法、装置、电子设备及存储介质 | |
CN113657390B (zh) | 文本检测模型的训练方法和检测文本方法、装置和设备 | |
CN114821622B (zh) | 文本抽取方法、文本抽取模型训练方法、装置及设备 | |
US11861919B2 (en) | Text recognition method and device, and electronic device | |
CN113705554A (zh) | 图像识别模型的训练方法、装置、设备及存储介质 | |
CN111858843B (zh) | 一种文本分类方法及装置 | |
CN113780098B (zh) | 文字识别方法、装置、电子设备以及存储介质 | |
CN114429637B (zh) | 一种文档分类方法、装置、设备及存储介质 | |
CN113627439A (zh) | 文本结构化处理方法、处理装置、电子设备以及存储介质 | |
CN115578735B (zh) | 文本检测方法和文本检测模型的训练方法、装置 | |
CN116152833B (zh) | 基于图像的表格还原模型的训练方法及表格还原方法 | |
CN113205041A (zh) | 结构化信息提取方法、装置、设备和存储介质 | |
CN113255501A (zh) | 生成表格识别模型的方法、设备、介质及程序产品 | |
CN114661904B (zh) | 文档处理模型的训练方法、装置、设备、存储介质及程序 | |
CN116416640A (zh) | 文档元素确定的方法、装置、设备以及存储介质 | |
CN113361522B (zh) | 用于确定字符序列的方法、装置和电子设备 | |
CN113887394A (zh) | 一种图像处理方法、装置、设备及存储介质 | |
CN114707017A (zh) | 视觉问答方法、装置、电子设备和存储介质 | |
CN114596442A (zh) | 一种图像识别方法、装置、设备及存储介质 | |
CN114187448A (zh) | 文档图像识别方法和装置、电子设备、计算机可读介质 | |
CN114187488A (zh) | 图像处理方法、装置、设备、介质及程序产品 | |
CN113947195A (zh) | 模型确定方法、装置、电子设备和存储器 | |
CN115497113B (zh) | 信息生成方法、装置、电子设备以及存储介质 | |
CN115497112B (zh) | 表单识别方法、装置、设备以及存储介质 | |
CN114445811A (zh) | 一种图像处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |