CN104809143A - 用于将表格信息植入信息库的方法和装置 - Google Patents
用于将表格信息植入信息库的方法和装置 Download PDFInfo
- Publication number
- CN104809143A CN104809143A CN201410043948.5A CN201410043948A CN104809143A CN 104809143 A CN104809143 A CN 104809143A CN 201410043948 A CN201410043948 A CN 201410043948A CN 104809143 A CN104809143 A CN 104809143A
- Authority
- CN
- China
- Prior art keywords
- head
- value
- information bank
- response
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Character Discrimination (AREA)
Abstract
本发明提供了用于将表格信息植入信息库的方法和装置。该方法包括:响应于接收到表格,参照结构化模板从表格中至少识别出头部和值;响应于对识别结果的反馈,调整识别结果,并按调整后的识别结果修正结构化模板;将调整后的识别结果中的头部与信息库中已有的头部进行匹配,从而按照头部的匹配结果将所述表格中的值合并到信息库中。根据本发明的一个实施例,提高了将表格信息植入企业的信息库的效率。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种用于将表格信息植入信息库的方法和装置。
背景技术
目前,大多数企业都有其内部的信息库,其帮助企业内部的员工共享信息。随着商业的发展,越来越多的企业需要与它们的合作伙伴共享信息,而不仅是在企业内部共享信息。
目前在企业间共享信息主要通过以下三种方式。
第一种方式是电子数据交换(EDI),它是多个计算机应用之间在理解传输的文档方面的通用接口。目前它被很多大公司用于例如发送订单等信息交换。这种方式的问题是:第一,它的成本高,因而许多小公司不愿意采用;第二,它要求信息交换的对方,即合作伙伴,也连接到EDI系统,而企业的合作伙伴是经常变化的;第三,它通过第三方系统交换信息,因而安全性差。
第二种方式是人工输入的方式。例如,企业的员工接收到从合作伙伴通过电子邮件发来的文档表格(例如订单)时,将文档表格中的信息一项一项以人工的方式输入到企业的信息库中。这种方式低效且容易出错。
第三种方式是专用程序的方式。对于特定的合作伙伴,分析它历史上发送过来的文档表格的数据结构。针对该合作伙伴,编写专用程序,用于解释该合作伙伴的文档表格的内容并将其转换为企业的信息库可以理解的结构,并合并到企业的信息库中。它的缺点是每个专用程序只针对特定的合作伙伴,因此需要大量的专用程序。而且,企业的合作伙伴经常发生变化,且特定合作伙伴的文档表格的数据结构也可能发生调整,在这些情况下都需要重新编写专用程序。
发明内容
本发明的一个实施例旨在提高将文档表格信息植入企业的信息库的效率。
根据本发明的一个实施例,提供了一种用于将表格信息植入信息库的方法,包括:响应于接收到表格,参照结构化模板从表格中至少识别出头部和值;响应于对识别结果的反馈,调整识别结果,并按调整后的识别结果修正结构化模板;将调整后的识别结果中的头部与信息库中已有的头部进行匹配,从而按照头部的匹配结果将所述表格中的值合并到信息库中。
在一种具体实现中,所述结构化模板初始包括预先定义的头部的集合,且响应于所述结构化模板是初始的,从表格中至少识别出头部和值的步骤参照以下项中的一项或多项进行识别:表格中的元素与结构化模板中的预先定义的头部及其同义词的匹配,所述同义词包括预先为所述预先定义的头部指定的同义词和通过检索资源获得的同义词中的至少一个;表格中的元素的显示属性;表格中元素的数据类型。
在一种具体实现中,所述结构化模板初始为空模板,且响应于所述结构化模板是初始的,从表格中至少识别出头部和值的步骤参照以下项中的一项或多项进行识别:表格中的元素的显示属性;表格中元素的数据类型。
在一种具体实现中,从表格中至少识别出头部和值的步骤还包括从表格中还识别出关键注解及其代表的含义;将调整后的识别结果中的头部与信息库中已有的头部进行匹配的步骤还包括以关键注解代表的含义作为新的头部,关键注解作为该新的头部对应的新的值,扩充该表格,以便与信息库中已有的头部进行匹配。
在一种具体实现中,根据表格中的头部和值之外的部分的显示属性和数据类型中的至少一个,识别出关键注解及其代表的含义。
在一种具体实现中,从表格中至少识别出头部和值的步骤包括:响应于多个表格被识别出具有相同的头部,将所述多个表格按照所述相同的头部整合。
在一种具体实现中,从表格中至少识别出头部和值的步骤包括:响应于多个表格被识别出具有相同的某一头部的元组,将所述多个表格按照该元组整合,所述元组是与该头部对应的值的集合。
在一种具体实现中,从表格中至少识别出头部和值的步骤包括:响应于从表格中识别出多个层级的头部,将所述多个层级的头部转换成单个层级的头部,所述单个层级的头部以转换前的所述多个层级的头部名称级联命名。
在一种具体实现中,将调整后的识别结果中的头部与信息库中已有的头部进行匹配的步骤包括:响应于为调整后的识别结果中的头部输入的别名,将调整后的识别结果中的头部及其别名与信息库中已有的头部进行匹配。
在一种具体实现中,所述结构化模板是与所述表格的类别相关联的。
根据本发明的一个实施例,提供了一种用于将表格信息植入信息库的装置,包括:识别单元,被配置为响应于接收到表格,参照结构化模板从表格中至少识别出头部和值;调整单元,被配置为响应于对识别结果的反馈,调整识别结果,并按调整后的识别结果修正结构化模板;匹配单元,被配置为将调整后的识别结果中的头部与信息库中已有的头部进行匹配,从而按照头部的匹配结果将所述表格中的值合并到信息库中。
在一种具体实现中,所述结构化模板初始包括预先定义的头部的集合,且识别单元被配置为响应于所述结构化模板是初始的,参照以下项中的一项或多项从表格中至少识别出头部和值:表格中的元素与结构化模板中的预先定义的头部及其同义词的匹配,所述同义词包括预先为所述预先定义的头部指定的同义词和通过检索资源获得的同义词中的至少一个;表格中的元素的显示属性;表格中元素的数据类型。
在一种具体实现中,所述结构化模板初始为空模板,且识别单元被配置为响应于所述结构化模板是初始的,参照以下项中的一项或多项从表格中至少识别出头部和值:表格中的元素的显示属性;表格中元素的数据类型。
在一种具体实现中,识别单元还被配置为从表格中还识别出关键注解及其代表的含义;匹配单元还被配置为以关键注解代表的含义作为新的头部,关键注解作为该新的头部对应的新的值,扩充该表格。
在一种具体实现中,识别单元被配置为根据表格中的头部和值之外的部分的显示属性和数据类型中的至少一个,识别出关键注解及其代表的含义。
在一种具体实现中,识别单元还被配置为响应于多个表格被识别出具有相同的头部,将所述多个表格按照所述相同的头部整合。
在一种具体实现中,识别单元还被配置为:响应于多个表格被识别出具有相同的某一头部的元组,将所述多个表格按照该元组整合,所述元组是与该头部对应的值的集合。
在一种具体实现中,识别单元还被配置为:响应于从表格中识别出多个层级的头部,将所述多个层级的头部转换成单个层级的头部,所述单个层级的头部以转换前的所述多个层级的头部名称级联命名。
在一种具体实现中,匹配单元被配置为:响应于为调整后的识别结果中的头部输入的别名,将调整后的识别结果中的头部及其别名与信息库中已有的头部进行匹配。
在一种具体实现中,所述结构化模板是与所述表格的类别相关联的。
根据本发明的一个实施例,还提供了一种信息管理系统,包括信息库和如上所述的用于将表格信息植入信息库的装置。
由于根据本发明的一个实施例的方案参照结构化模板从文档表格中至少识别出头部和值,用于随后的与信息库的匹配和合并,而这个结构化模板是根据实际运行中用户对识别结果的反馈不断调整的(即自学习的方式),这样就能够不用人工输入而自动地将文档表格中的数据结构识别出来,从而自动将文档表格中的信息植入企业的信息库。根据本发明的一个实施例,提高了将文档表格信息植入企业的信息库的效率。
另外,由于根据本发明的一个实施例的方案采用自学习的方式,因而无需针对每个合作伙伴编写专用程序,具有通用性。
附图说明
本发明的这些和其它的特征和优点通过以下结合附图的详细描述将变得更加显而易见。
图1示出了根据本发明的一个实施例的用于将表格信息植入信息库的方法的流程图。
图2示出了根据本发明的一个实施例的企业A从合作伙伴B接收到的一个表格。
图3示出了根据本发明的一个实施例的企业A的信息库中的数据结构。
图4示出了根据本发明的一个实施例的初始的结构化模板。
图5示出了根据本发明的一个实施例的从来自合作伙伴B的表格中识别出头部、值、关键注解和一般注解的识别结果。
图6示出了根据本发明的一个实施例的修正后的结构化模板。
图7示出了将识别出的关键注解表格化后的结果。
图8示出了根据本发明的一个实施例的将来自合作伙伴B的表格中的值合并到企业A的信息库后的合并结果。
图9示出了根据本发明的一个实施例的企业A从合作伙伴B接收到的表格T1。
图10示出了根据本发明的一个实施例的企业A从合作伙伴B接收到的表格T2。
图11示出了根据本发明的一个实施例的表格T1和T2整合后的表格。
图12示出了根据本发明的一个实施例的企业A从合作伙伴B接收到的表格T3。
图13示出了根据本发明的一个实施例的表格T1和T3整合后的表格。
图14示出了根据本发明的一个实施例的将文档中多个层级的头部转换为单个层级的头部的示意图。
图15示出了根据本发明的一个实施例的用于将表格信息植入信息库的装置的框图。
图16示出了根据本发明的一个实施例的用于将表格信息植入信息库的设备的框图。
具体实施方式
下面,将结合附图详细描述本发明的各个实施例。
如图1所示,根据本发明的一个实施例的一种用于将表格信息植入信息库的方法1,包括:在步骤S1,响应于接收到表格,参照结构化模板从表格中至少识别出头部和值;在步骤S2,响应于对识别结果的反馈,调整识别结果,并按调整后的识别结果修正结构化模板;在步骤S3,将调整后的识别结果中的头部与信息库中已有的头部进行匹配,从而按照头部的匹配结果将所述表格中的值合并到信息库中。
下面参照一个具体实施例,详细描述用于将表格信息植入信息库的方法1的一个具体实施过程。
假设企业A从合作伙伴B接收到了如图2所示的表格。企业A的信息库中的数据结构如图3所示。显然,无论是元素排布的方式、字体、大小,还是元素名称的命名,图2和图3都有所不同。例如,图2中的采购合同号和图3中的采购合同ID是同一个意思,但采用了不同的表述。因此,无法将该表格中的信息直接植入企业A的信息库。元素的含义是:将表格中的每一个表格单元的内容称为一个元素(例如图2的“提货日期”)。对于表格中的不在表格单元中的内容,位置紧密相邻的部分称为一个元素(例如图2的备注整体紧密相邻,称为一个元素,而“02.08.2012”和“张三”各称为一个元素)。
在一个实施例中,元素可分为四种类型:头部、值、关键注解和一般注解。头部例如图2的第一行的“提货日期”、“采购合同号”、“零件号”、“零件名”、“总数量”、“每箱数量”、“每托箱数”,它是关系数据库模型中的属性。值例如例如图2的第二、三行中的“02.07.2012”,“5500010330”等等,它是关系数据库模型中的属性值。关键注解例如图2中的记录日“02.08.2012”和记录人“张三”,其是虽不在表格单元中,但对于表格的意义比较重大的注解。一般注解例如图2中的备注整体,其是不在表格单元中、对表格单元中的内容起解释作用的内容。对于特定的头部,其对应的所有值构成一个元组。例如,对于“采购合同号”,“5500010330”、“5500010331”构成了一个元组。
为了将图2中的表格中的信息植入企业A的信息库,首先要识别出图2中的表格中哪些元素属于头部、哪些元素属于值等。为此,定义一个结构化模板。
初始的结构化模板仅包括预先定义好的头部的集合,如图4所示。例如,企业A的员工根据经验将一些出现概率可能会比较高的头部,例如“交货日”、“总箱数”、“总托数”、“总数量”,定义到结构化模板中。
由于初始的结构化模板中仅包括预先定义好的一些头部,仅参照这个初始的结构化模板,可能不足以从表格中识别出头部和值等。此时,可能还需参照:元素与结构化模板中的预先定义的头部的同义词的匹配;元素的显示属性;元素的数据类型。元素的显示属性是指元素的大小、字体、位置关系、颜色等可以从显示上区分元素属于头部还是值的属性。元素的数据类型是指元素是什么类型的数据,如字符串、数值等等。
结构化模板中的预先定义的头部的同义词,有两个可能的来源:一是用户预先为所述预先定义的头部指定的同义词,二是通过检索例如企业电子词典、在线词典、搜索网站等资源而获得的同义词。例如,对于图4中的“交货日”,用户预先为其指定了几个同义词:“交付日”、“交付货物日”、“交付日期”、“交付货物日期”;通过检索电子词典等,发现它又与“提货日”、“提货日期”、“取货日”、“取货日期”同义,其中“提货日期”与图2中的“提货日期”匹配。另外,图4中的“总数量”也与图2中的“总数量”匹配。
由于图2中发现了两个与初始结构化模板匹配的元素,即“提货日期”和“总数量”,将“提货日期”和“总数量”所在的行整个识别为头部,将表格中其它表格单元中的内容识别为值,如图5所示。
假设通过检索电子词典等资源的方式,并没有发现“交货日”与“提货日期”同义,则图2中识别为头部的元素就只有“总数量”。此时,有可能“总数量”所在的行的所有元素是“头部”,也有可能“总数量”所在列的所有元素是“头部”,也有可能多行或多列是头部(多个层级的头部)。因此,需要结合元素的显示属性、数据类型等判断。例如,由于“总数量”所在的行的所有元素的字体都是斜体字,与其它行不同,因此仍然如图5所示,将“总数量”所在的行识别为头部,将其它表格单元中的内容识别为值。再例如,当“总数量”被识别为头部后,也可以根据“总数量”所在的行的行宽大于其它行或其所在的行都是字符串数据类型等将“总数量”所在的行划分为头部。
另外,如图5所示,还从表格中识别出关键注解及其代表的含义。关键注解例如图2中的记录日“02.08.2012”和记录人“张三”,其是虽不在表格单元中,但对于表格的意义比较重大的注解。可以根据表格单元之外的部分中的显示属性和数据类型中的至少一个,来识别关键注解。显示属性包括大小、字体、位置关系、颜色等可以从显示上区分的属性。数据结构是指是字符串还是数值等。例如,由于“02.08.2012”和“张三”的位置比较特殊,分别是在表格的右上角和右下角,将它们识别成关键注解。由于这个位置上一般都是记录日和记录人的信息,将它们的含义识别成记录日和记录人。或者例如,由于“02.08.2012”是日期型字符串,而“张三”是首字符被识别为姓的字符串,因此将它们识别成关键注解。由于一般的表格周围都会出现记录日和记录人,将它们的含义识别成记录日和记录人。另外,对于备注整体,它的位置与表格主体离开一段距离,且是一个长的字符串,因此将其识别为一般注解。
向用户显示图5所示的识别结果。如果用户发现识别结果不正确,其可以通过标注识别错误的元素的形式进行反馈。响应于用户对识别结果的反馈,可以调整识别结果,并进一步向用户显示,直到用户没有反馈为止。此时,一方面可以用调整后的识别结果进行后续的信息合并,另一方面可以用调整后的识别结果修正结构化模板。
图6示出了根据一个实施例的修正后的结构化模板,它取代了如图4所示的初始的结构化模板。如图6所示,修正后的结构化模板不仅包含了头部名称,还反映出了头部、值、关键注解、一般注解的显示属性、数据结构等。当企业A下一次接收到来自合作伙伴B的表格时,参照该结构化模板中的头部名称、头部、值、关键注解、一般注解的显示属性、数据结构等,就会方便地从文档中识别出头部、值、关键注解、一般注解。
在与信息库中已有的头部进行匹配从而进行表格值的植入之前,以关键注解的含义作为新的头部,关键注解作为该新的头部对应的新的值,扩充该表格。如图7所示,由于识别出的关键注解“02.08.2012”和“张三”的含义分别是“记录日”和“记录人”,将“记录日”和“记录人”作为新的头部,“02.08.2012”和“张三”作为新的头部对应的值,扩充图5的表格为图7。
当将表格中的元素正确地识别为头部、值等后,识别出的头部的名称与企业A的信息库中的头部的名称也未必一致。例如,图7中的“提货日期”与图3中的“提货日”是同一个意思,但却采用不同的名称。为了解决这个问题,可以使用户为识别结果中的头部输入别名。例如,用户为图7中的“提货日期”输入别名“提货日”、“取货日期”、“取货日”,为图7中的“采购合同号”输入别名“采购合同编号”、“采购合同ID”,为图7中的“零件号”输入别名“零件编号”、“零件ID”,为图7中的“零件名”输入别名“零件名称”,为图7中的“总数量”输入别名“总数”。将图7中的头部名称及其别名与图3中企业A的信息库中的头部匹配后,将匹配的头部所对应的值合并到企业A的信息库中,如图8所示。
从图7和图8的对比可知,可能在来自合作伙伴B的文档中存在一些头部,如“零件名”,由于无法在企业A的信息库中找到匹配的头部,其对应的值无法合并到企业A的信息库中。企业A的信息库中也可能有一些头部,例如每托重量,由于在来自合作伙伴B的文档中不存在与其匹配的头部,因而找不到对应的值进行合并。
由于来自一个特定的合作伙伴的表格的数据结构是基本稳定的。因此,可以为来自特定合作伙伴的表格采用与该合作伙伴相关联的结构化模板,即一个合作伙伴一个结构化模板。这样就减少了用户对识别结果的反馈量,大大提高了将表格信息植入企业的信息库的效率。
表格的合并和级联
以上实施例针对用户A从合作伙伴B接收到一个表格的情形。对于用户A从合作伙伴B接收到多个表格的情形(例如,用户A从合作伙伴B接收到一篇文档,该文档中有多个表格),可以先考虑对这些表格进行合并或级联,合并或级联后再与信息库进行匹配并进行植入。这样可以进一步提高将文档表格植入企业的信息库的效率。
假设用户A从合作伙伴B接收到的文档中含有图9的表格T1和图10的表格T2。此时,从两个表格中分别识别出头部和值等。从表格T1和T2中识别出的头部是完全一样的。因此,可将两个表格按照头部整合成一个表格,如图11所示。这种整合方式称为合并。可以按照图11的合并后的表格的识别结果,与信息库已有的头部进行匹配从而进行表格信息的植入。
再假设用户A从合作伙伴B接收到的文档中含有图9的表格T1和图12的表格T3。此时,从两个表格中分别识别出头部和值等。在表格T1和T3中“零件号”这一头部的元组(即与“零件号”对应的值的集合)是相同的。因此,可将两个表格按照这一相同的元组整合成一个表格,如图13所示。这种整合方式称为级联。可以按照图13的级联后的表格的识别结果,与信息库已有的头部进行匹配从而进行表格信息的植入。
多层级头部的处理
头部的层级是指:如果表格中划分出多行头部或多列头部,则此时将该多行或多列称为头部的多个层级。如图14所示,表格中有两行的表格单元“三班”、“四班”、“男”、“女”都被划分为头部,此时头部有两个层级。将两个层级的头部转换成一个层级的头部,分别命名为“三班.男”、“三班.女”、“四班.男”、“四班.女”。这样做的好处是,便于与信息库中的头部进行头部的匹配。
其它变形
虽然在上面的实施例中,结构化模板初始包括预先定义的头部的集合,其也可以为空模板。如果结构化模板是空模板,从表格中识别出头部和等值就只能根据表格中元素的显示属性(如字体、大小、位置关系、颜色等)和/或数据类型(如是字符串还是数值等)等来识别。例如,表格中的第一行的元素的字体是斜体,而其它行的元素的字体是正常体,则将第一行识别为头部。
虽然在上面的实施例中,从表格中还识别关键注解及其含义,并在与信息库进行匹配之前将表格按关键注解的含义和关键注解进行扩充,但本发明也可以不识别关键注解,也将表格按关键注解的含义和关键注解进行扩充。
虽然在上面的实施例中,从表格中还识别一般注解,但本发明也可以不识别一般注解。
虽然在上面的实施例中,初始的结构化模板仅包括预先定义的头部的集合,并且相应的表格划分需要参照表格中元素的显示属性、数据结构等,但本领域技术人员应该理解,本发明不限于上述实施例。实际上,可以预先询问合作伙伴其表格中一般采用的显示属性、数据结构等,并结合预先定义的头部的集合,来定义该合作伙伴初始的结构化模板。由于此时初始的结构化模板中已含有该合作伙伴在表格中一般会采用的显示属性、数据结构等,在头部和值等的识别中只需将表格中的头部名称、头部和值的显示属性、数据结构与初始的结构化模板中的头部名称、头部和值的显示属性、数据结构进行匹配。
应当理解,虽然在上述实施例中,预先定义的头部的同义词基于预先为所述头部指定的同义词和/或通过检索资源获得的同义词来确定,本领域中仍有其它方法来确定同义词,例如词素分析技术等。
另外,虽然在上面的实施例中描述了在按照头部的匹配结果将表格中的值合并到信息库中之前的表格的合并和级联,也可以不进行这些表格的合并和级联,而是逐表格地将表格中的头部与信息库中头部进行匹配从而将表格中的值植入信息库中。
另外,虽然在上述多层级头部的处理中将转换后的单个层级的头部以转换前所述多个层级头部的级联命名,实际上也存在其它的命名方式,例如分析转换前多个层级头部的语意,再命新名。
虽然在上面的实施例中,将识别结果中的头部与信息库中已有的头部进行匹配是通过让用户为识别结果中的头部输入别名,再将识别结果中的头部及其别名与信息库中的头部进行匹配来实现的,本领域技术人员应当理解,本发明不限于这种特定方式。例如,可以找出信息库中已有的头部中有哪些头部可能对应于识别结果中的某一头部(例如通过词素分析技术等),然后显示给用户,供用户选择。如果用户作出了选择,则认为匹配成功。如果用户未选择,则认为信息库中已有的头部中没有与该头部匹配的头部。
另外,结构化模板也可以不与合作伙伴相关联,而是例如与用途相关联。例如,所有提货单可能都具有类似的数据结构,因此为提货单表格采用一个同样的结构化模板;所有对账单可能都具有类似的数据结构,因此为对账单表格采用一个同样的结构化模板。也可以对于特定的合作伙伴的特定用途的表格,采用一个相关联的模板。合作伙伴、表格的用途等统称为表格的类别。
另外,应当理解,即使结构化模板不与表格的类别(例如合作伙伴、用途)相关联(例如对于所有表格只采用一个结构化模板),相比于用户将文档中的信息逐一录入信息库的方式,仍然能够提高信息植入效率。
根据本发明的一个实施例的用于将表格信息植入信息库的装置
如图15所示,根据本发明的一个实施例的用于将表格信息植入信息库的装置2包括识别单元201、调整单元202和匹配单元203。识别单元201被配置为响应于接收到表格,参照结构化模板从表格中至少识别出头部和值。调整单元202被配置为响应于对识别结果的反馈,调整识别结果,并按调整后的识别结果修正结构化模板。匹配单元203被配置为将调整后的识别结果中的头部与信息库中已有的头部进行匹配,从而按照头部的匹配结果将所述表格中的值合并到信息库中。
所述结构化模板初始可以包括预先定义的头部的集合。此时,识别单元201可以被配置为响应于所述结构化模板是初始的,参照以下项中的一项或多项从表格中至少识别出头部和值:表格中的元素与结构化模板中的预先定义的头部及其同义词的匹配,所述同义词包括预先为所述预先定义的头部指定的同义词和通过检索资源获得的同义词中的至少一个;表格中的元素的显示属性;表格中元素的数据类型。
所述结构化模板初始也可以为空模板。此时,识别单元201可以被配置为响应于所述结构化模板是初始的,参照以下项中的一项或多项从表格中至少识别出头部和值:表格中的元素的显示属性;表格中元素的数据类型。
另外,识别单元201还可以被配置为从表格中还识别出关键注解及其代表的含义。此时,匹配单元203被配置为以关键注解代表的含义作为新的头部,关键注解作为该新的头部对应的新的值,扩充该表格。
识别单元201可以被配置为根据表格中的头部和值之外的部分的显示属性和数据类型中的至少一个,识别出关键注解及其代表的含义。
另外,识别单元201还可以被配置为:响应于多个表格被识别出具有相同的头部,将所述多个表格按照所述相同的头部整合。
另外,识别单元201还可以被配置为:响应于多个表格被识别出具有相同的某一头部的元组,将所述多个表格按照该元组整合,所述元组是与该头部对应的值的集合。
另外,识别单元201还可以被配置为:响应于从表格中识别出多个层级的头部,将所述多个层级的头部转换成单个层级的头部,所述单个层级的头部以转换前的所述多个层级的头部名称级联命名。
匹配单元203可以被配置为:响应于为调整后的识别结果中的头部输入的别名,将调整后的识别结果中的头部及其别名与信息库中已有的头部进行匹配。
所述结构化模板可以是与所述表格的类别相关联的。
另外,根据本发明的一个实施例,还提供了一种信息管理系统,包括信息库和如上所述的用于将表格信息植入信息库的装置2。
图16示出了根据本发明的一个实施例的用于将表格信息植入信息库的设备3的框图。该设备3可以包括存储器1501和处理器1502。存储器1501用于存储可执行指令。处理器1502用于根据所述存储器1501所存储的可执行指令,执行装置2中的各个单元所执行的操作。
此外,本发明的一个实施例还提供一种机器可读介质,其上存储有可执行指令,当该可执行指令被执行时,使得机器执行处理器1502所执行的操作。
本领域技术人员应当理解,上面的各个实施例可以在没有偏离发明实质的情况下做出各种变形和修改,因此,本发明的保护范围应当由所附的权利要求书来限定。
Claims (23)
1.一种用于将表格信息植入信息库的方法(1),包括:
响应于接收到表格,参照结构化模板从表格中至少识别出头部和值(S1);
响应于对识别结果的反馈,调整识别结果,并按调整后的识别结果修正结构化模板(S2);
将调整后的识别结果中的头部与信息库中已有的头部进行匹配,从而按照头部的匹配结果将所述表格中的值合并到信息库中(S3)。
2.根据权利要求1的方法(1),其中所述结构化模板初始包括预先定义的头部的集合,且响应于所述结构化模板是初始的,从表格中至少识别出头部和值的步骤(S1)参照以下项中的一项或多项进行识别:
表格中的元素与结构化模板中的预先定义的头部及其同义词的匹配,所述同义词包括预先为所述预先定义的头部指定的同义词和通过检索资源获得的同义词中的至少一个;
表格中的元素的显示属性;
表格中元素的数据类型。
3.根据权利要求1的方法(1),其中所述结构化模板初始为空模板,且响应于所述结构化模板是初始的,从表格中至少识别出头部和值的步骤(S1)参照以下项中的一项或多项进行识别:
表格中的元素的显示属性;
表格中元素的数据类型。
4.根据权利要求1的方法(1),其中
从表格中至少识别出头部和值的步骤(S1)还包括:从表格中还识别出关键注解及其代表的含义;
将调整后的识别结果中的头部与信息库中已有的头部进行匹配的步骤(S3)还包括:以关键注解代表的含义作为新的头部,关键注解作为该新的头部对应的新的值,扩充该表格,以便与信息库中已有的头部进行匹配。
5.根据权利要求4的方法(1),其中根据表格中的头部和值之外的部分的显示属性和数据类型中的至少一个,识别出关键注解及其代表的含义。
6.根据权利要求1的方法(1),其中从表格中至少识别出头部和值的步骤(S1)包括:响应于多个表格被识别出具有相同的头部,将所述多个表格按照所述相同的头部整合。
7.根据权利要求1的方法(1),其中从表格中至少识别出头部和值的步骤(S1)包括:响应于多个表格被识别出具有相同的某一头部的元组,将所述多个表格按照该元组整合,所述元组是与该头部对应的值的集合。
8.根据权利要求1的方法(1),其中从表格中至少识别出头部和值的步骤(S1)包括:响应于从表格中识别出多个层级的头部,将所述多个层级的头部转换成单个层级的头部,所述单个层级的头部以转换前的所述多个层级的头部名称级联命名。
9.根据权利要求1的方法(1),其中将调整后的识别结果中的头部与信息库中已有的头部进行匹配的步骤(S3)包括:响应于为调整后的识别结果中的头部输入的别名,将调整后的识别结果中的头部及其别名与信息库中已有的头部进行匹配。
10.根据权利要求1的方法(1),其中所述结构化模板是与所述表格的类别相关联的。
11.一种用于将表格信息植入信息库的装置(2),包括:
识别单元(201),被配置为响应于接收到表格,参照结构化模板从表格中至少识别出头部和值;
调整单元(202),被配置为响应于对识别结果的反馈,调整识别结果,并按调整后的识别结果修正结构化模板;
匹配单元(203),被配置为将调整后的识别结果中的头部与信息库中已有的头部进行匹配,从而按照头部的匹配结果将所述表格中的值合并到信息库中。
12.根据权利要求11的装置(2),其中所述结构化模板初始包括预先定义的头部的集合,且识别单元(201)被配置为响应于所述结构化模板是初始的,参照以下项中的一项或多项从表格中至少识别出头部和值:
表格中的元素与结构化模板中的预先定义的头部及其同义词的匹配,所述同义词包括预先为所述预先定义的头部指定的同义词和通过检索资源获得的同义词中的至少一个;
表格中的元素的显示属性;
表格中元素的数据类型。
13.根据权利要求11的装置(2),其中所述结构化模板初始为空模板,且识别单元(201)被配置为响应于所述结构化模板是初始的,参照以下项中的一项或多项从表格中至少识别出头部和值:
表格中的元素的显示属性;
表格中元素的数据类型。
14.根据权利要求11的装置(2),其中
识别单元(201)还被配置为从表格中还识别出关键注解及其代表的含义;
匹配单元(203)还被配置为以关键注解代表的含义作为新的头部,关键注解作为该新的头部对应的新的值,扩充该表格。
15.根据权利要求14的装置(2),其中识别单元(201)被配置为根据表格中的头部和值之外的部分的显示属性和数据类型中的至少一个,识别出关键注解及其代表的含义。
16.根据权利要求11的装置(2),其中识别单元(201)还被配置为:响应于多个表格被识别出具有相同的头部,将所述多个表格按照所述相同的头部整合。
17.根据权利要求11的装置(2),其中识别单元(201)还被配置为:响应于多个表格被识别出具有相同的某一头部的元组,将所述多个表格按照该元组整合,所述元组是与该头部对应的值的集合。
18.根据权利要求11的装置(2),其中识别单元(201)还被配置为:响应于从表格中识别出多个层级的头部,将所述多个层级的头部转换成单个层级的头部,所述单个层级的头部以转换前的所述多个层级的头部名称级联命名。
19.根据权利要求11的装置(1),其中匹配单元(203)被配置为:响应于为调整后的识别结果中的头部输入的别名,将调整后的识别结果中的头部及其别名与信息库中已有的头部进行匹配。
20.根据权利要求11的装置(1),其中所述结构化模板是与所述表格的类别相关联的。
21.一种信息管理系统,包括信息库和根据权利要求11-20中任一个的用于将表格信息植入信息库的装置(2)。
22.一种用于将表格信息植入信息库的设备(3),包括:
存储器(1501),用于存储可执行指令;
处理器(1502),用于根据所述存储器所存储的可执行指令,执行权利要求1-10中的任一个权利要求所执行的操作。
23.一种机器可读介质,其上存储有可执行指令,当所述可执行指令被执行时,使得机器执行权利要求1-10中的任一个权利要求所执行的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410043948.5A CN104809143B (zh) | 2014-01-29 | 2014-01-29 | 用于将表格信息植入信息库的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410043948.5A CN104809143B (zh) | 2014-01-29 | 2014-01-29 | 用于将表格信息植入信息库的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104809143A true CN104809143A (zh) | 2015-07-29 |
CN104809143B CN104809143B (zh) | 2019-05-28 |
Family
ID=53693968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410043948.5A Active CN104809143B (zh) | 2014-01-29 | 2014-01-29 | 用于将表格信息植入信息库的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104809143B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107103543A (zh) * | 2016-02-23 | 2017-08-29 | 平安科技(深圳)有限公司 | 协议数据处理方法和系统 |
CN107766313A (zh) * | 2017-10-19 | 2018-03-06 | 平安科技(深圳)有限公司 | 一种数据列表的导入方法及其终端 |
CN111767818A (zh) * | 2020-06-23 | 2020-10-13 | 北京思特奇信息技术股份有限公司 | 一种业务智能受理的方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080187240A1 (en) * | 2007-02-02 | 2008-08-07 | Fujitsu Limited | Apparatus and method for analyzing and determining correlation of information in a document |
CN101876970A (zh) * | 2009-12-22 | 2010-11-03 | 金蝶软件(中国)有限公司 | 一种合并报表方法和装置 |
CN101957865A (zh) * | 2010-10-27 | 2011-01-26 | 杭州新中大软件股份有限公司 | 一种异构系统间数据交换与共享技术 |
CN103020089A (zh) * | 2011-09-27 | 2013-04-03 | 深圳市金蝶友商电子商务服务有限公司 | 一种将excel文件中的数据导入数据库的方法及装置 |
CN103530327A (zh) * | 2013-09-25 | 2014-01-22 | 清华大学深圳研究生院 | 一种从非关系型数据库到关系型数据库的数据迁移方法 |
-
2014
- 2014-01-29 CN CN201410043948.5A patent/CN104809143B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080187240A1 (en) * | 2007-02-02 | 2008-08-07 | Fujitsu Limited | Apparatus and method for analyzing and determining correlation of information in a document |
CN101876970A (zh) * | 2009-12-22 | 2010-11-03 | 金蝶软件(中国)有限公司 | 一种合并报表方法和装置 |
CN101957865A (zh) * | 2010-10-27 | 2011-01-26 | 杭州新中大软件股份有限公司 | 一种异构系统间数据交换与共享技术 |
CN103020089A (zh) * | 2011-09-27 | 2013-04-03 | 深圳市金蝶友商电子商务服务有限公司 | 一种将excel文件中的数据导入数据库的方法及装置 |
CN103530327A (zh) * | 2013-09-25 | 2014-01-22 | 清华大学深圳研究生院 | 一种从非关系型数据库到关系型数据库的数据迁移方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107103543A (zh) * | 2016-02-23 | 2017-08-29 | 平安科技(深圳)有限公司 | 协议数据处理方法和系统 |
CN107103543B (zh) * | 2016-02-23 | 2021-03-30 | 平安科技(深圳)有限公司 | 协议数据处理方法和系统 |
CN107766313A (zh) * | 2017-10-19 | 2018-03-06 | 平安科技(深圳)有限公司 | 一种数据列表的导入方法及其终端 |
CN107766313B (zh) * | 2017-10-19 | 2019-05-07 | 平安科技(深圳)有限公司 | 一种数据列表的导入方法及其终端 |
CN111767818A (zh) * | 2020-06-23 | 2020-10-13 | 北京思特奇信息技术股份有限公司 | 一种业务智能受理的方法和装置 |
CN111767818B (zh) * | 2020-06-23 | 2024-04-26 | 北京思特奇信息技术股份有限公司 | 一种业务智能受理的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104809143B (zh) | 2019-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111459985B (zh) | 标识信息处理方法及装置 | |
US8868484B2 (en) | Efficiently updating rows in a data warehouse | |
CN110413611A (zh) | 数据存储、查询方法及装置 | |
CN105930316A (zh) | 专利撰写辅助系统及其辅助方法 | |
CN102893281A (zh) | 信息搜索设备、信息搜索方法、计算机程序和数据结构 | |
CN110532309B (zh) | 一种高校图书馆用户画像系统的生成方法 | |
CN105824833A (zh) | 基于用户行为反馈的关键词推荐方法和系统 | |
CN106021207A (zh) | 专利撰写系统及其方法 | |
CN102955844A (zh) | 基于主题版本呈现搜索结果 | |
CN102375807A (zh) | 文字校对方法和装置 | |
US20150193511A1 (en) | Graphical record matching process replay for a data quality user interface | |
CN102880683A (zh) | 一种可行性研究报告的自动网络生成系统及其生成方法 | |
US20190347484A1 (en) | System and method for grouping independent machine learnt artificial intelligence to generate collective "machine wisdom" to obtain higher accuracy in identification of tags, objects and actions in a video | |
CN112286934A (zh) | 数据库表导入方法、装置、设备及介质 | |
CN111008521A (zh) | 生成宽表的方法、装置及计算机存储介质 | |
US11138161B2 (en) | Single table multi-schema data store in a key value store | |
CN104809143A (zh) | 用于将表格信息植入信息库的方法和装置 | |
CN107430504A (zh) | 数据变换系统及方法 | |
US20060026143A1 (en) | System for querying databases | |
CN102521223A (zh) | 三词合一的企业知识关联存储、搜索与呈现方法 | |
US20140108367A1 (en) | Client apparatus and database server for resumable transaction and method thereof | |
US8880562B2 (en) | Generating a supplemental description of an entity | |
CN109145092A (zh) | 一种数据库更新、智能问答管理方法、装置及其设备 | |
US8805820B1 (en) | Systems and methods for facilitating searches involving multiple indexes | |
US20200320250A1 (en) | Systems and Methods for Generating Logical Documents for a Document Evaluation System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |