CN109002425B - 企业上下游关系的获取方法、终端设备及介质 - Google Patents
企业上下游关系的获取方法、终端设备及介质 Download PDFInfo
- Publication number
- CN109002425B CN109002425B CN201810630801.4A CN201810630801A CN109002425B CN 109002425 B CN109002425 B CN 109002425B CN 201810630801 A CN201810630801 A CN 201810630801A CN 109002425 B CN109002425 B CN 109002425B
- Authority
- CN
- China
- Prior art keywords
- text
- field
- page
- analyzed
- enterprise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明适用于数据处理技术领域,提供了企业上下游关系的获取方法、终端设备及介质,该方法包括:通过文本转换工具,将待分析文本的文本格式由pdf格式转换为xml格式;根据转换后待分析文本所包含的各个xml标签,定位待分析文本中所存在的表格,并获取表格中各个字段区域的中线值;基于中线值,分别对存在于各个表体区域中的企业对象标识进行分组处理,以得到各个企业对象标识所匹配的表头字段;根据客户字段以及供应商字段所分别匹配的企业对象标识,确定各个企业对象之间的上下游关系。本方案实现了对表格的自动化定位,根据客户字段以及供应商字段所分别匹配的企业对象标识,能够获知企业对象之间的产业链信息,故提高了企业上下游关系的获取效率。
Description
技术领域
本发明属于数据处理技术领域,尤其涉及一种企业上下游关系的获取方法、终端设备及计算机可读存储介质。
背景技术
企业产业链信息在企业风险评估、风险传导以及行业关联性分析等诸多方面均有着至关重要的参考价值。现有的一些企业公开文件中,往往会透露出其所关联的一些企业的产业链关系。例如,在企业所发布的招股书、年报以及季报等公开文件中,用户可以查看到该企业所销售产品的材料来源以及销售去向等,从而确定出该企业所关联的一些上下游企业。
然而,由于季报、年报以及招股书等公开文件的样式均较为复杂,故这类公开文件所包含的企业产业链信息也只能由人工来进行手动识别及获取,因而企业上下游关系的获取效率较为低下。
发明内容
有鉴于此,本发明实施例提供了一种企业上下游关系的获取方法、终端设备及计算机可读存储介质,以解决当前在各类企业公开文件中,企业上下游关系的获取效率均较为低下的问题。
本发明实施例的第一方面提供了一种企业上下游关系的获取方法,包括:
获取与企业对象关联的待分析文本;所述待分析文本的初始格式为可移植文档pdf格式;
通过预设的文本转换工具,将所述待分析文本的文本格式由所述pdf格式转换为可扩展标记语言xml格式;
根据转换后所述待分析文本所包含的各个xml标签,定位所述待分析文本中所存在的表格,并获取所述表格中各个字段区域的中线值;所述中线值表示所述字段区域的中心位置与页面左边界的距离值,所述字段区域包括表头区域以及表体区域;
基于所述中线值,分别对存在于各个所述表体区域中的企业对象标识进行分组处理,以得到各个所述企业对象标识所匹配的表头字段,所述表头字段包括客户字段以及供应商字段;
根据所述客户字段以及所述供应商字段所分别匹配的所述企业对象标识,确定各个所述企业对象之间的上下游关系。
本发明实施例的第二方面提供了一种终端设备,包括存储器以及处理器,所述存储器存中储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
获取与企业对象关联的待分析文本;所述待分析文本的初始格式为可移植文档pdf格式;
通过预设的文本转换工具,将所述待分析文本的文本格式由所述pdf格式转换为可扩展标记语言xml格式;
根据转换后所述待分析文本所包含的各个xml标签,定位所述待分析文本中所存在的表格,并获取所述表格中各个字段区域的中线值;所述中线值表示所述字段区域的中心位置与页面左边界的距离值,所述字段区域包括表头区域以及表体区域;
基于所述中线值,分别对存在于各个所述表体区域中的企业对象标识进行分组处理,以得到各个所述企业对象标识所匹配的表头字段,所述表头字段包括客户字段以及供应商字段;
根据所述客户字段以及所述供应商字段所分别匹配的所述企业对象标识,确定各个所述企业对象之间的上下游关系。
本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
获取与企业对象关联的待分析文本;所述待分析文本的初始格式为可移植文档pdf格式;
通过预设的文本转换工具,将所述待分析文本的文本格式由所述pdf格式转换为可扩展标记语言xml格式;
根据转换后所述待分析文本所包含的各个xml标签,定位所述待分析文本中所存在的表格,并获取所述表格中各个字段区域的中线值;所述中线值表示所述字段区域的中心位置与页面左边界的距离值,所述字段区域包括表头区域以及表体区域;
基于所述中线值,分别对存在于各个所述表体区域中的企业对象标识进行分组处理,以得到各个所述企业对象标识所匹配的表头字段,所述表头字段包括客户字段以及供应商字段;
根据所述客户字段以及所述供应商字段所分别匹配的所述企业对象标识,确定各个所述企业对象之间的上下游关系。
本发明实施例中,由于原始加载得到的招股书、年报以及季报等公开文件都是以pdf格式存在的,故通过将这些公开文件的文本格式转换为xml格式,能够根据机器可识别的xml标签来确定出表格所属的位置区域,实现了对表格的自动化定位;上述公开文件中,表格所包含的各个字段值均以文本形式存在于各个xml标签中,故对于表体区域中所存在的企业对象标识,基于各个字段区域的中线值来确定企业对象标识所匹配的客户字段或供应商字段,能够提高对表体区域中每个字段值所属表头字段的匹配准确率。由于客户以及供应商之间存在明确的上下游关系,因此,根据客户字段以及供应商字段所分别匹配的企业对象标识,能够获知各企业对象之间的产业链信息,从而提高了企业上下游关系的获取效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的企业上下游关系的获取方法的实现流程图;
图2是本发明实施例提供的企业上下游关系的获取方法S103的具体实现流程图;
图3是本发明实施例提供的企业上下游关系的获取方法S1031的具体实现流程图;
图4是本发明实施例提供的企业上下游关系的获取方法S104的具体实现流程图;
图5是本发明实施例提供的企业上下游关系的获取方法的实现流程图;
图6是本发明实施例提供的企业上下游关系的获取装置的示意图;
图7是本发明实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1示出了本发明实施例提供的企业上下游关系的获取方法的实现流程,该方法流程包括步骤S101至S105。各步骤的具体实现原理如下:
S101:获取与企业对象关联的待分析文本;所述待分析文本的初始格式为可移植文档pdf格式。
本发明实施例中,待分析文本为企业所发布的公开文件,包括季报、年报以及招股书等。根据预设的网站信息,定期从对应的公开网站中下载上述待分析文本。其中,由于企业在创建上述公开文件时,均以可移植文档(Portable Document Format,PDF)的格式进行输出,故从上述公开网站中所下载得到的待分析文本的格式均为PDF格式。
S102:通过预设的文本转换工具,将所述待分析文本的文本格式由所述pdf格式转换为可扩展标记语言xml格式。
对于每一个pdf格式的待分析文本,将其导入预设的文本转换工具,并在检测到用户发出的格式转换指令后,输出基于可扩展标记语言(eXtensible Markup Language,xml)格式的待分析文本。上述文本转换工具例如可以是福昕转换器、PDF全方位转换器以及AllOffice Converter等。
示例性地,基于xml格式的待分析文本例如可以是:
<text top="538"left="157"width="214"height="22"font="10">(三)其他重要事项</text>
<text top="584"left="171"width="596"height="19"font="12">截至2005年12月31日,公司对外签署尚未完工的重大工程合同明细如下:</text>
<text top="627"left="132"width="27"height="13"font="9">序号</text>
S103:根据转换后所述待分析文本所包含的各个xml标签,定位所述待分析文本中所存在的表格,并获取所述表格中各个字段区域的中线值;所述中线值表示所述字段区域的中心位置与页面左边界的距离值,所述字段区域包括表头区域以及表体区域。
根据上述示例中的待分析文本可知,基于xml格式的待分析文本包含有文本标签<text>,且<text>标签中还包含有top、width、height以及font等属性值。值得注意的是,除了文本标签<text>之外,基于xml格式的待分析文本还可能存在段落标签或其他类型的标签,在上述示例中暂时未显示。
本发明实施例中,每一文本标签所对应的文本数据为表格中一字段区域的属性值。根据文本标签的top属性值,可定位待分析文本中所存在的每一表格的位置。
具体地,图2示出了本发明实施例提供的企业上下游关系的获取方法S103的具体实现流程,详述如下:
S1031:对所述待分析文本中的每一页面,定位该页面所包含的各个文本标签,并读取所述文本标签中的top属性值。
本发明实施例中,企业对象所关联的每一待分析文本可以为单页显示的pdf文本,也可以是多页显示的pdf文本。在执行文本格式转换处理后,每一页面的pdf文本将转为对应的一页xml文本。
待分析文本中的表格在转换为xml格式之后,表格中每一字段的文本数据将与文本标签<text>中的文本数据相对应。对每一页面的xml文本,根据其所包含的各个文本标签,读取每一文本标签的top属性值。top属性值表示文本标签所对应的文本数据在当前页面中所处的位置与页面顶部的距离值。可见,若文本数据处于待分析文本中的不同行,则该文本数据所对应的文本标签的top属性值不同。并且,若文本数据出现于当前页面中较高的位置,则其所对应的文本标签的top属性值越小。
作为本发明的一个实施例,图3示出了本发明实施例提供的企业上下游关系的获取方法S1031的具体实现流程,详述如下:
S10311:分别对所述待分析文本中的每一页面进行扫描,以确定出包含预设表格名称的所述页面。
本发明实施例中,由于待分析文本为年报、季报以及招股书等公开文件,故待分析文本所包含的每一表格的表格名称都是符合预设格式的表格名称。根据预设的正则表达式,对待分析文本中的每一页面进行扫描。其中,上述正则表达式用于描述表格名称所符合的模式规则。
若在当前页面中识别到与该正则表达式匹配的文本数据,则确定该页面中包含有预设的表格名称,故将待分析文本中的该页面进行选取。在对待分析文本中的各个页面进行识别后,可依次确定出包含表格名称的多个页面。
S10312:对当前确定出的所述页面,定位其所包含的各个文本标签,并读取所述文本标签中的top属性值。
S10313:若当前所述页面中不存在所述top属性值相同的至少两个所述文本标签,则确定出包含所述预设表格名称的下一所述页面,并返回执行所述对当前确定出的所述页面,定位其所包含的各个文本标签,并读取所述文本标签中的top属性值的操作。
若当前确定出的一个页面中,不存在top属性值相同的至少两个文本标签,则表示该页面中不存在表格,因此,读取上述包含预设表格名称的下一页面,并返回执行步骤S10312。
本发明实施例中,由于基于正则表达式来执行字符匹配的方式对系统资源消耗较少,故通过预先确定出待分析文本中包含预设表格名称的多个页面,其相对于直接读取页面中各个文本标签的top属性值来确定该页面是否包含表格的方式来说,提高了表格的查找效率;通过初步定位待分析文本中表格所属的各个页面后,再根据top属性值来进一步确定表格的具体分布位置,避免了页面中仅存在表格名称而不存在相应表格的情况,因此,本发明实施例提高了表格定位的准确性。
S1032:在该页面中,分别检测出所述top属性值最大以及所述top属性值最小的各个所述文本标签,并将确定出的两个所述文本标签之间的页面区域定位为所述待分析文本中表格所存在的区域。
在当前页面所包含的各个文本标签中,根据top属性值的数值大小,筛选出top属性值最大以及top属性值最小的文本标签,则在待分析文本中,这两个文本标签所对应的文本数据分别位于表格的第一行以及最后一行。因此,本发明实施例中,根据top属性值最大以及top属性值最小的文本标签在当前页面中所属的位置,可在该页面中,确定出表格最后一行以及表格第一行的页面位置。将这两个页面位置之间的页面区域定位为一表格所存在的区域。
特别地,在当前页面中,分别检测出所述top属性值最大以及所述top属性值最小的各个所述文本标签之前,先检测该页面中是否存在连续出现的多个文本标签。若存在连续出现的K(K为大于零的整数)个文本标签,则将上述连续出现的K个文本标签确定为与待分析文本中的一个表格相对应的xml参数。对于每一表格所对应的xml参数,检测出top属性值最大以及top属性值最小的文本标签,并将确定出的两个文本标签之间的页面区域定位为该表格所存在的区域。因此,基于上述方式,可定位出当前页面中所存在的各个表格。
本发明实施例中,left属性值表示文本标签所对应的文本数据在当前页面中所处的位置与页面左侧的距离值,width属性值表示文本标签所对应的字段区域在表格中所占的宽度值,中线值表示字段区域的中心线在当前页面中所处的位置与页面左侧的距离值。
通过以下公式,分别计算表格中每一字段区域的中线值Line_Mid:
Line_Mid=Value[left]+Value[width]/2
其中,所述Value[left]表示字段区域所对应文本标签的left标签值;所述Value[width]表示字段区域所对应文本标签的width标签值。
S104:基于所述中线值,分别对存在于各个所述表体区域中的企业对象标识进行分组处理,以得到各个所述企业对象标识所匹配的表头字段,所述表头字段包括客户字段以及供应商字段。
本发明实施例中,对于待分析文本中所定位得到的每一表格,其包含有表体区域以及表头区域。表头区域包括表格中第一行文本数据所属的字段区域;表体区域包括表格中除表头区域之外的其他字段区域。
本发明实施例中,通过预设的识别算法,识别出每一表格中与企业对象标识关联的数据列。企业对象标识包括但不限于企业对象的名称、企业名称缩写或企业对象的行业通用名等。
示例性地,上述预设的识别算法例如可以是;获取预先收集得到的多个企业对象标识,并将上述多个企业对象标识存入标识列表;对每一文本标签所对应的文本数据,判断该文本数据与标识列表中的任一企业对象识别是否匹配;若该文本数据与标识列表中的任一企业对象识别系统,则确定该文本数据所属的数据列为与企业对象标识关联的数据列。
在季报、年报以及招股书等待分析文本所包含的表格中,对于企业对象标识所关联的数据列,其对应的表头字段通常为客户字段或供应商字段。由于基于xml格式的待分析文本中,难以直观地体现每一企业对象标识及其表头字段的对应关系,因此,本发明实施例中,基于企业对象标识所属字段区域的中线值,对企业对象标识进行分组处理,以确定每一企业对象标识是“客户”字段数据列中的表体数据还是“供应商”字段数据列中的表体数据。
具体地,作为本发明的一个实施例,图4示出了本发明实施例提供的企业上下游关系的获取方法S104的具体实现流程,详述如下:
S1041:分别获取所述表头区域中每一表头字段的第一中线值。
在当前页面所定位得到的一个表格中,根据上述分析可知,top属性值最小的各个文本标签所对应的文本数据为该表格的表头字段。因此,在计算出top属性值最小的每一文本标签的中线值后,将该中线值输出为该文本标签所对应的一个表头字段的中线值。
S1042:对每一所述企业对象标识所属的所述表体区域,获取该表体区域的第二中线值。
本发明实施例中,在文本标签所对应的文本数据中,若检测到该文本数据包含企业对象标识,则确定该文本标签所对应的字段区域为表体区域,故将该文本标签所对应的字段区域的中线值输出为当前表格中的一个表体区域的中线值。
需要说明的是,本实施例第一中线值是指表头区域的中线值,第二中线值是指表体区域的中线值。“第一”在此仅为表述和指代的方便,并不意味着在本发明的具体实现方式中一定会有与之对应的第一中线值。类似地,第二中线值中的“第二”也仅仅是为了表述和指代方便,并不意味着在本发明的具体实现方式中一定会有与之对应的第二中线值。
S1043:根据所述第一中线值以及所述第二中线值,分别计算该企业对象标识与各个所述表头字段的相对距离。
本发明实施例中,若表格中存在A(A为大于零的整数)个表头字段,则可以获得A个第一中线值。对每一个企业对象标识,根据其所属表体区域的第二中线值,分别计算该第二中线值与每一第一中线值的差值绝对值,将该差值绝对值输出为该企业对象标识与表头字段的相对距离。
示例性地,若表格中存在一企业对象标识为“鳄鱼集团”,且该表格中存在两个表头字段,分别为“客户”和“供应商”,则“鳄鱼集团”所在的表体字段与“客户”这一表头字段的相对距离D1为:
D1=abs(Line_mid[鳄鱼集团]-Line_mid[客户]
“鳄鱼集团”所在的表体字段与“供应商”这一表头字段的相对距离D2为:D2=abs(Line_mid[鳄鱼集团]-Line_mid[供应商]
其中,abs()为预设的绝对值取值函数;Line_mid[客户]为“客户”表头字段所属表头区域的第一中线值;Line_mid[供应商]为“供应商”表头字段所属表头区域的第一中线值;Line_mid[鳄鱼集团]为鳄鱼集团所属表体区域的第二中线值。
S1044:将所述相对距离最小的所述表头字段输出为与该企业对象标识匹配的表头字段。
本发明实施例中,在分别计算出企业对象标识与A个表头字段的相对距离后,可得到A个相对距离。在上述A个相对距离中,筛选出数值最小的相对距离,并确定出与该相对距离关联的第一中线值。根据确定出的上述第一中线值所对应的表头字段,将该表头字段输出为与该企业对象标识匹配的表头字段。
例如,在上述示例中,若“鳄鱼集团”所在的表体字段与“客户”这一表头字段的相对距离D1为3,“鳄鱼集团”所在的表体字段与“供应商”这一表头字段的相对距离D2为4,则其中相对距离最小的表头字段为“客户”这一字段,故将“客户”所属的表头字段输出为与该企业对象标识匹配的表头字段,即,将该企业对象标识所属的数据列确定为“客户”这一字段所在的数据列,从而实现对表格中各企业对象标识的准确分组。
S105:根据所述客户字段以及所述供应商字段所分别匹配的所述企业对象标识,确定各个所述企业对象之间的上下游关系。
本发明实施例中,对于top属性值相同的各个文本标签所分别对应的企业对象标识,将这些企业对象标识展示于预先创建的二维数据表格的同一行信息记录中。其中,上述二维数据表格的表头字段包括客户字段以及供应商字段。
本发明实施例中,根据企业对象标识所各自匹配的表头字段,对二维数据表格中各个企业对象标识所属的数据列进行调整,以使各企业对象标识与其匹配的表头字段位于同一数据列中。
示例性地,最终所输出得到的二维数据表格如下:
客户 | 供应商 |
鳄鱼集团 | 望望有限公司 |
好来旺集团 | 春夏秋冬集团 |
由于客户与供应商之间为下游与上游的供应链关系,故根据上述输出的二维数据表格,可确定出各个企业对象之间的上下游层级关系。例如,上述例子中,鳄鱼集团为相对于望望有限公司的下游层级,春夏秋冬集团为相对于好来旺集团的上游层级。
本发明实施例中,由于原始加载得到的招股书、年报以及季报等公开文件都是以pdf格式存在的,故通过将这些公开文件的文本格式转换为xml格式,能够根据机器可识别的xml标签来确定出表格所属的位置区域,实现了对表格的自动化定位;上述公开文件中,表格所包含的各个字段值均以文本形式存在于各个xml标签中,故对于表体区域中所存在的企业对象标识,基于各个字段区域的中线值来确定企业对象标识所匹配的客户字段或供应商字段,能够提高对表体区域中每个字段值所属表头字段的匹配准确率。由于客户以及供应商之间存在明确的上下游关系,因此,根据客户字段以及供应商字段所分别匹配的企业对象标识,能够获知各企业对象之间的产业链信息,从而提高了企业上下游关系的获取效率。
作为本发明的另一实施例,如图5所示,在上述步骤S104之前,还包括:
S106:对所述待分析文本中的每一页面,定位所述页面所包含的各个文本标签,并读取所述文本标签中的top属性值。
S107:若存在所述top属性值相同的至少两个所述文本标签,则将所述页面中的各个所述top属性值记录于预设的寄存器。
S108:查找所述寄存器中最小的所述top属性值,并读取与该top属性值对应的所述文本标签中的文本数据。
S109:将所述文本数据确定为所述表格中的一个所述表头字段。
本发明实施例中,待分析文本包含多个页面。对于每一页面,在基于xml格式的该页面中,定位其所包含的各个文本标签<text>,并读取各个文本标签的top属性值。
本发明实施例中,判断当前页面是否存在top属性值相同的至少两个文本标签。若判断结果为否,则读取待分析文本中的下一页面,并返回执行上述步骤S106。若判断结果为是,则在当前页面中,以上述至少两个文本标签所属的页面位置为起点,将后续所读取到的每一top属性值均记录于预设的寄存器中,直至各个top属性值均记录完毕时,查找出寄存器中最小的top属性值。
读取与该top属性值对应的各个文本标签中的文本数据,将该文本数据输出为当前页面所包含的一个表格中的表头字段。
例如,若基于xml格式的待分析文本为:
<text top="627"left="132"width="27"height="13"font="9">序号</text>
<text top="627"left="224"width="51"height="13"font="9">工程名称</text>
<text top="655"left="141"width="574"height="11"font="9">1复旦国权科技园2004年10月28日上海上风科盛投资有限公司15,000万元</text>
则其中top属性值最小的文本标签所对应的文本数据为“序号”以及“工程名称”,因此,将“序号”以及“工程名称”分别输出为当前表格中的两个表头字段。
本发明实施例中,通过遍历待分析文本的每一页面,定位每一页面所包含的各个文本标签,仅在该页面中包含有top属性值相同的至少两个文本标签时,才将该页面中的各个top属性值记录于预设的寄存器,避免了需要对每一页面执行文本标签的读写操作,实现了对表格所属页面的快速定位,故提高了待分析文本中表格的查找效率,从而也提高了对企业上下游关系的获取效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的企业上下游关系的获取方法,图6示出了本发明实施例提供的企业上下游关系的获取装置的结构框图,为了便于说明,仅示出了与本发明实施例相关的部分。
参照图6,该装置包括:
获取单元61,用于获取与企业对象关联的待分析文本;所述待分析文本的初始格式为可移植文档pdf格式。
转换单元62,用于通过预设的文本转换工具,将所述待分析文本的文本格式由所述pdf格式转换为可扩展标记语言xml格式。
定位单元63,用于根据转换后所述待分析文本所包含的各个xml标签,定位所述待分析文本中所存在的表格,并获取所述表格中各个字段区域的中线值;所述中线值表示所述字段区域的中心位置与页面左边界的距离值,所述字段区域包括表头区域以及表体区域。
分组单元64,用于基于所述中线值,分别对存在于各个所述表体区域中的企业对象标识进行分组处理,以得到各个所述企业对象标识所匹配的表头字段,所述表头字段包括客户字段以及供应商字段。
确定单元65,用于根据所述客户字段以及所述供应商字段所分别匹配的所述企业对象标识,确定各个所述企业对象之间的上下游关系。
可选地,所述企业上下游关系的获取装置还包括:
读取单元,用于对所述待分析文本中的每一页面,定位所述页面所包含的各个文本标签,并读取所述文本标签中的top属性值。
记录单元,用于若存在所述top属性值相同的至少两个所述文本标签,则将所述页面中的各个所述top属性值记录于预设的寄存器。
查找单元,用于查找所述寄存器中最小的所述top属性值,并读取与该top属性值对应的所述文本标签中的文本数据。
确定单元,用于将所述文本数据确定为所述表格中的一个所述表头字段。
可选地,所述分组单元64包括:
第一获取子单元,用于分别获取所述表头区域中每一表头字段的第一中线值。
第二获取子单元,用于对每一所述企业对象标识所属的所述表体区域,获取该表体区域的第二中线值。
计算子单元,用于根据所述第一中线值以及所述第二中线值,分别计算该企业对象标识与各个所述表头字段的相对距离。
输出子单元,用于将所述相对距离最小的所述表头字段输出为与该企业对象标识匹配的表头字段。
可选地,所述定位单元63包括:
定位子单元,用于对所述待分析文本中的每一页面,定位该页面所包含的各个文本标签,并读取所述文本标签中的top属性值。
检测子单元,用于在该页面中,分别检测出所述top属性值最大以及所述top属性值最小的各个所述文本标签,并将确定出的两个所述文本标签之间的页面区域定位为所述待分析文本中表格所存在的区域。
可选地,所述定位子单元具体用于:
分别对所述待分析文本中的每一页面进行扫描,以确定出包含预设表格名称的所述页面;
对当前确定出的所述页面,定位其所包含的各个文本标签,并读取所述文本标签中的top属性值;
若当前所述页面中不存在所述top属性值相同的至少两个所述文本标签,则确定出包含所述预设表格名称的下一所述页面,并返回执行所述对当前确定出的所述页面,定位其所包含的各个文本标签,并读取所述文本标签中的top属性值的操作。
图6是本发明一实施例提供的终端设备的示意图。如图6所示,该实施例的终端设备6包括:处理器60以及存储器61,所述存储器61中存储有可在所述处理器60上运行的计算机程序62,例如企业上下游关系的获取程序。所述处理器60执行所述计算机程序62时实现上述各个企业上下游关系的获取方法实施例中的步骤,例如图1所示的步骤101至105。或者,所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能,例如图6所示单元61至65的功能。
示例性的,所述计算机程序62可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器60执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序62在所述终端设备6中的执行过程。
所述终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是终端设备6的示例,并不构成对终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述终端设备6的内部存储单元,例如终端设备6的硬盘或内存。所述存储器61也可以是所述终端设备6的外部存储设备,例如所述终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (8)
1.一种企业上下游关系的获取方法,其特征在于,包括:
获取与企业对象关联的待分析文本;所述待分析文本的初始格式为可移植文档pdf格式;
通过预设的文本转换工具,将所述待分析文本的文本格式由所述pdf格式转换为可扩展标记语言xml格式;
根据转换后所述待分析文本所包含的各个xml标签,定位所述待分析文本中所存在的表格,并获取所述表格中各个字段区域的中线值;所述中线值表示所述字段区域的中心位置与页面左边界的距离值,所述字段区域包括表头区域以及表体区域;
基于所述中线值,分别对存在于各个所述表体区域中的企业对象标识进行分组处理,以得到各个所述企业对象标识所匹配的表头字段,所述表头字段包括客户字段以及供应商字段;
根据所述客户字段以及所述供应商字段所分别匹配的所述企业对象标识,确定各个所述企业对象之间的上下游关系;
在所述基于所述中线值,分别对存在于各个所述表体区域中的企业对象标识进行分组处理,以得到各个所述企业对象标识所匹配的表头字段之前,还包括:
对所述待分析文本中的每一页面,定位所述页面所包含的各个文本标签,并读取所述文本标签中的top属性值;
若存在所述top属性值相同的至少两个所述文本标签,则将所述页面中的各个所述top属性值记录于预设的寄存器;
查找所述寄存器中最小的所述top属性值,并读取与该top属性值对应的所述文本标签中的文本数据;
将所述文本数据确定为所述表格中的一个所述表头字段。
2.如权利要求1所述的企业上下游关系的获取方法,其特征在于,所述基于所述中线值,分别对存在于各个所述表体区域中的企业对象标识进行分组处理,以得到各个所述企业对象标识所匹配的表头字段,包括:
分别获取所述表头区域中每一表头字段的第一中线值;
对每一所述企业对象标识所属的所述表体区域,获取该表体区域的第二中线值;
根据所述第一中线值以及所述第二中线值,分别计算该企业对象标识与各个所述表头字段的相对距离;
将所述相对距离最小的所述表头字段输出为与该企业对象标识匹配的表头字段。
3.如权利要求1所述的企业上下游关系的获取方法,其特征在于,所述根据转换后所述待分析文本所包含的各个xml标签,定位所述待分析文本中所存在的表格,并获取所述表格中各个字段区域的中线值,包括:
对所述待分析文本中的每一页面,定位该页面所包含的各个文本标签,并读取所述文本标签中的top属性值;
在该页面中,分别检测出所述top属性值最大以及所述top属性值最小的各个所述文本标签,并将确定出的两个所述文本标签之间的页面区域定位为所述待分析文本中表格所存在的区域。
4.如权利要求3所述的企业上下游关系的获取方法,其特征在于,所述对所述待分析文本中的每一页面,定位所述页面所包含的各个文本标签,并读取所述文本标签中的top属性值,包括:
分别对所述待分析文本中的每一页面进行扫描,以确定出包含预设表格名称的所述页面;
对当前确定出的所述页面,定位其所包含的各个文本标签,并读取所述文本标签中的top属性值;
若当前所述页面中不存在所述top属性值相同的至少两个所述文本标签,则确定出包含所述预设表格名称的下一所述页面,并返回执行所述对当前确定出的所述页面,定位其所包含的各个文本标签,并读取所述文本标签中的top属性值的操作。
5.一种终端设备,包括存储器以及处理器,所述存储器存中储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如下步骤:
获取与企业对象关联的待分析文本;所述待分析文本的初始格式为可移植文档pdf格式;
通过预设的文本转换工具,将所述待分析文本的文本格式由所述pdf格式转换为可扩展标记语言xml格式;
根据转换后所述待分析文本所包含的各个xml标签,定位所述待分析文本中所存在的表格,并获取所述表格中各个字段区域的中线值;所述中线值表示所述字段区域的中心位置与页面左边界的距离值,所述字段区域包括表头区域以及表体区域;
基于所述中线值,分别对存在于各个所述表体区域中的企业对象标识进行分组处理,以得到各个所述企业对象标识所匹配的表头字段,所述表头字段包括客户字段以及供应商字段;
根据所述客户字段以及所述供应商字段所分别匹配的所述企业对象标识,确定各个所述企业对象之间的上下游关系;
所述处理器执行所述计算机程序时实现如下步骤:
对所述待分析文本中的每一页面,定位所述页面所包含的各个文本标签,并读取所述文本标签中的top属性值;
若存在所述top属性值相同的至少两个所述文本标签,则将所述页面中的各个所述top属性值记录于预设的寄存器;
查找所述寄存器中最小的所述top属性值,并读取与该top属性值对应的所述文本标签中的文本数据;
将所述文本数据确定为所述表格中的一个所述表头字段。
6.如权利要求5的终端设备,其特征在于,所述基于所述中线值,分别对存在于各个所述表体区域中的企业对象标识进行分组处理,以得到各个所述企业对象标识所匹配的表头字段,包括:
分别获取所述表头区域中每一表头字段的第一中线值;
对每一所述企业对象标识所属的所述表体区域,获取该表体区域的第二中线值;
根据所述第一中线值以及所述第二中线值,分别计算该企业对象标识与各个所述表头字段的相对距离;
将所述相对距离最小的所述表头字段输出为与该企业对象标识匹配的表头字段。
7.如权利要求5的终端设备,其特征在于,所述根据转换后所述待分析文本所包含的各个xml标签,定位所述待分析文本中所存在的表格,并获取所述表格中各个字段区域的中线值,包括:
对所述待分析文本中的每一页面,定位该页面所包含的各个文本标签,并读取所述文本标签中的top属性值;
在该页面中,分别检测出所述top属性值最大以及所述top属性值最小的各个所述文本标签,并将确定出的两个所述文本标签之间的页面区域定位为所述待分析文本中表格所存在的区域。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810630801.4A CN109002425B (zh) | 2018-06-19 | 2018-06-19 | 企业上下游关系的获取方法、终端设备及介质 |
PCT/CN2018/105543 WO2019242125A1 (zh) | 2018-06-19 | 2018-09-13 | 企业上下游关系的获取方法、装置、终端设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810630801.4A CN109002425B (zh) | 2018-06-19 | 2018-06-19 | 企业上下游关系的获取方法、终端设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109002425A CN109002425A (zh) | 2018-12-14 |
CN109002425B true CN109002425B (zh) | 2022-03-22 |
Family
ID=64600526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810630801.4A Active CN109002425B (zh) | 2018-06-19 | 2018-06-19 | 企业上下游关系的获取方法、终端设备及介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109002425B (zh) |
WO (1) | WO2019242125A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909123B (zh) * | 2019-10-23 | 2023-08-25 | 深圳价值在线信息科技股份有限公司 | 一种数据提取方法、装置、终端设备及存储介质 |
CN111382843B (zh) * | 2020-03-06 | 2023-10-20 | 浙江网商银行股份有限公司 | 企业上下游关系识别模型建立、关系挖掘的方法及装置 |
CN112199513A (zh) * | 2020-10-19 | 2021-01-08 | 支付宝(杭州)信息技术有限公司 | 企业供求关系的确定方法、装置和电子设备 |
CN112435051B (zh) * | 2020-11-13 | 2023-11-28 | 海创汇科技创业发展股份有限公司 | 一种关联企业的获取方法、电子设备、计算机可读存储介质及终端 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101446938A (zh) * | 2008-12-04 | 2009-06-03 | 金蝶软件(中国)有限公司 | 生成表格的方法和处理装置 |
CN103886098A (zh) * | 2014-04-04 | 2014-06-25 | 浙江大学城市学院 | 一种Word文档格式检查方法 |
CN104090920A (zh) * | 2014-06-17 | 2014-10-08 | 安徽教育网络出版有限公司 | 一种实现数字内容跨终端出版的系统 |
CN105138609A (zh) * | 2015-08-04 | 2015-12-09 | 广东瑞德智能科技股份有限公司 | 一种基于xml语言的家电设备描述方法 |
CN107818075A (zh) * | 2017-10-16 | 2018-03-20 | 平安科技(深圳)有限公司 | 表格信息结构化提取方法、电子设备及计算机可读存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100347706C (zh) * | 2005-12-03 | 2007-11-07 | 福州大学 | 一种pdf文档到xml文档转换的方法 |
CN101751612A (zh) * | 2008-12-18 | 2010-06-23 | 鸿富锦精密工业(深圳)有限公司 | 合约电子签核系统及方法 |
US20150046787A1 (en) * | 2013-08-06 | 2015-02-12 | International Business Machines Corporation | Url tagging based on user behavior |
CN108132920B (zh) * | 2018-01-10 | 2018-12-18 | 北京仁和汇智信息技术有限公司 | 一种xml文件与pdf文件同步关联的方法及装置 |
-
2018
- 2018-06-19 CN CN201810630801.4A patent/CN109002425B/zh active Active
- 2018-09-13 WO PCT/CN2018/105543 patent/WO2019242125A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101446938A (zh) * | 2008-12-04 | 2009-06-03 | 金蝶软件(中国)有限公司 | 生成表格的方法和处理装置 |
CN103886098A (zh) * | 2014-04-04 | 2014-06-25 | 浙江大学城市学院 | 一种Word文档格式检查方法 |
CN104090920A (zh) * | 2014-06-17 | 2014-10-08 | 安徽教育网络出版有限公司 | 一种实现数字内容跨终端出版的系统 |
CN105138609A (zh) * | 2015-08-04 | 2015-12-09 | 广东瑞德智能科技股份有限公司 | 一种基于xml语言的家电设备描述方法 |
CN107818075A (zh) * | 2017-10-16 | 2018-03-20 | 平安科技(深圳)有限公司 | 表格信息结构化提取方法、电子设备及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
基于Web 的表格信息抽取研究;秦振海 等;《计算机技术与发展》;20100228;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109002425A (zh) | 2018-12-14 |
WO2019242125A1 (zh) | 2019-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109002425B (zh) | 企业上下游关系的获取方法、终端设备及介质 | |
Shen et al. | Layoutparser: A unified toolkit for deep learning based document image analysis | |
US11397778B2 (en) | Method and device for mining an enterprise relationship | |
RU2679209C2 (ru) | Обработка электронных документов для распознавания инвойсов | |
US20170154385A1 (en) | System and method for automatic validation | |
WO2019237540A1 (zh) | 财政数据的获取方法、装置、终端设备及介质 | |
CN109074383B (zh) | 文档背景内可视化的文档搜索 | |
US10019535B1 (en) | Template-free extraction of data from documents | |
CN110909123B (zh) | 一种数据提取方法、装置、终端设备及存储介质 | |
CN109697201B (zh) | 一种查询处理的方法、系统、设备及计算机可读存储介质 | |
CN111159982B (zh) | 文档编辑方法、装置、电子设备及计算机可读存储介质 | |
CN110765750A (zh) | 报表数据录入方法及终端设备 | |
CN110879939A (zh) | 一种应标文件生成方法及装置 | |
CN111898378B (zh) | 政企客户的行业分类方法和装置、电子设备、存储介质 | |
CN111444368B (zh) | 构建用户画像的方法、装置、计算机设备及存储介质 | |
CN111695330A (zh) | 生成表格的方法、装置、电子设备及计算机可读存储介质 | |
CN107861931B (zh) | 模板文件处理方法、装置、计算机设备和存储介质 | |
CN111125483B (zh) | 网页数据抽取模板生成方法、装置、计算机装置及存储介质 | |
CN110909538B (zh) | 问答内容的识别方法、装置、终端设备及介质 | |
US20170169518A1 (en) | System and method for automatically tagging electronic documents | |
US11170164B2 (en) | System and method for cell comparison between spreadsheets | |
CN114169306A (zh) | 一种生成电子回执单的方法、装置、设备及可读存储介质 | |
CN110909112A (zh) | 数据提取方法、装置、终端设备及介质 | |
CN111667214A (zh) | 基于二维码的货物信息获取方法、装置及电子设备 | |
CN115017872B (zh) | 智能标注pdf文件中表格的方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |