CN107908602A - 一种文件检测方法及其装置 - Google Patents

一种文件检测方法及其装置 Download PDF

Info

Publication number
CN107908602A
CN107908602A CN201711344713.XA CN201711344713A CN107908602A CN 107908602 A CN107908602 A CN 107908602A CN 201711344713 A CN201711344713 A CN 201711344713A CN 107908602 A CN107908602 A CN 107908602A
Authority
CN
China
Prior art keywords
document
tree
rule
node
child node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711344713.XA
Other languages
English (en)
Inventor
王爽
郑锦光
张梦迪
吴珂皓
张白驹
社会芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wen Jie Internet Technology Co Ltd
Original Assignee
Beijing Wen Jie Internet Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wen Jie Internet Technology Co Ltd filed Critical Beijing Wen Jie Internet Technology Co Ltd
Priority to CN201711344713.XA priority Critical patent/CN107908602A/zh
Publication of CN107908602A publication Critical patent/CN107908602A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种文件检测方法,包括:S1:通过解析二进制指令,将PDF文件的内容解析为带标记的文本、表格和图片,同时记录文字的字体和字号信息,表格和图片的位置信息;S2:根据解析后的文档的字号大小得到相应章节的层级,根据层级的高低配置章节的层级根节点及子节点建立文档章节树;S3:根据监管机构要求披露的信息建立规则执行库;S4:根据监管机构要求披露的信息的章节建立根节点及子节点,并根据相应节点下的规则执行库的信息建立文档规则树;S5:将文档规则树与文档章节树进行匹配,对文本内容按照相应的规则树下的根节点及子节点的规则执行库进行比对;S6:输出文档中与规则执行库不符的内容。

Description

一种文件检测方法及其装置
技术领域
本发明涉及一种文件检测方法及其装置。
背景技术
随着市场经济的发展和金融体制改革的逐步深化,防范金融市场产生系统性风险已经逐渐成为市场参与各方的共识。由监管机构对市场进行监管则是防范风险的一种重要手段。
具体到债务市场,当非金融企业在进行债务融资工具时,必须按照监管机构的要求披露必要的经营信息。目前的处理流程是,非金融企业必须首先向监管机构提交各类信息披露文件,由监管机构的工作人员对各类文件进行审核,判断其是否满足了规定的披露要求。只有满足要求之后,才会进行下一步流程。
由于PDF格式的文档在不同的软硬件平台有一致的显示效果,企业提交的这些信息披露文件的格式一般都为PDF。除了格式之外,监管机构对信息披露文件的内容也有严格的要求,PDF的章节结构必须依照规定设计,对应章节的内容也必须覆盖到监管机构规定的披露内容。
随着企业的债务融资需求日益增长,监管机构的审核人员也必须随之增加。但是每个监管机构的人员是有上限的,为了解决这个矛盾,急需引入一种自动化方法来检查企业发行债券的申请文件是否合规,来协助工作人员审核文件,提高审核效率。
发明内容
为克服现有技术问题,本发明提供一种文件检测方法及其装置。
一种文件检测方法,包括:
S1:通过解析二进制指令,将PDF文件的内容解析为带标记的文本、表格和图片,同时记录文字的字体和字号信息,表格和图片的位置信息;
S2:根据解析后的文档的字号大小得到相应章节的层级,根据章节层级的高低,建立文档章节树;
S3:根据监管机构要求披露的信息建立规则执行库;
S4:根据监管机构要求披露的信息的章节建立根节点及子节点,并根据相应节点下的规则执行库的信息建立文档规则树;
S5:将文档规则树与文档章节树进行匹配,对文本内容按照相应的规则树下的根节点及子节点的规则执行库进行比对;
S6:输出文档中与规则执行库不符的内容。
优选的是,解析二进制指令时通过PDF文件内的指令流解析出相应的文本、表格和图片。
优选的是,解析二进制指令时根据PDF文件的线条位置解析相应的表格结构并将表格的内容存储为二维数组同时记录表格在文档中的位置。
优选的是,解析二进制指令时将PDF文件内的图片单独存储,并在相应的文档上标记引用相应图片的指令。
优选的是,在文档规则树与文档章节树进行匹配时,首先检测根节点是否匹配,然后检测子节点是否匹配;
所述子节点下包括该子节点的下一级子节点时,将下一级的子节点作为输入信息与文档规则树进行匹配。
优选的是,I1在对比时,输入两个同级别节点,其中一个为文档章节树节点,另一个为
规则树节点;
I2判断文档章节树节点和规则树节点是否匹配,如果匹配,标记章节树节点为匹配节点;如果不匹配,标记章节树的节点为不匹配节点;
I3如果文档章节树节点和规则树节点有子节点,则该子节点仍为同级别节点,将所有子节点成对依次作为输入,转入步骤I1;如果没有,进入步骤I4;
I4输出检查结果。
本发明同时提供一种文件检测装置,包括:
文件解析单元,所述文件解析单元通过解析二进制指令,将PDF文件的内容解析为带标记的文本、表格和图片,同时记录文字的字体和字号信息,表格和图片的位置信息;
文档章节树配置单元,所述文档章节树配置单元用于根据解析后的文档的字号大小得到相应章节的层级,根据层级的高低配置章节的层级根节点及子节点,建立文档章节树;
规则执行库单元,所述规则执行库单元根据监管机构要求披露的信息建立;
文档规则树单元,所述文档规则树单元根据监管机构要求披露的信息的章节建立根节点及子节点,并根据相应节点下的规则执行库的信息建立文档规则树;
比较单元,所述比较单元用于将文档规则树与文档章节树进行匹配,对文本内容按照相应的规则树下的根节点及子节点的规则执行库进行比对;
输出单元,所述输出单元用于输出文档中与规则执行库单元不符的内容。
优选的是,所述文件解析单元在解析二进制指令时:
通过PDF文件内的指令流解析出相应的文本、表格和图片;
根据PDF文件的线条位置解析相应的表格结构并将表格的内容存储为二维数组同时记录表格在文档中的位置;
将PDF文件内的图片单独存储,并在相应的文档上标记引用相应图片的指令。
优选的是,所述比较单元在进行文档规则树与文档章节树匹配时,首先检测根节点是否匹配,然后检测子节点是否匹配。
优选的是,所述子节点下包括该子节点的下一级子节点时,将下一级的子节点的第一个节点作为输入信息与文档规则树进行匹配。
本发明的有益效果:
本发明提供的文件检测方法及其装置通过将PDF文件转换为二进制指令的形式,同时根据字号将文件转换呈具有相应层级的文档章节树,并将监管机构要求披露的信息也转换为文档规则树的形式,通过对比各个层级的根节点及子节点的相应下的相应内容,提高审核的工作效率。
附图说明
图1为本发明的文件检测方法的流程示意图。
具体实施方式
如图1所示,一种文件检测方法,
包括:
S1:通过解析二进制指令,将PDF文件的内容解析为带标记的文本、表格和图片,同时记录文字的字体和字号信息,表格和图片的位置信息;
除了一些基本的文件元信息,PDF内部最主要的元素是指令流(operatorstream),PDF中的文本、表格、图片信息都是用指令在指定位置画出来的,因此这一步的工作就是解析出各类指令;
解析出文本:从PDF指令中恢复出文本信息,除此之外还要记录文本的字体、字号等信息;
解析出表格:PDF内部并没有表格的概念,表格实际上是某些指令在指定位置绘制线条,另外一些指令在线条之间的位置绘制文本,最终形成了视觉上的表格效果,在解析表格时要利用线条的位置关系,恢复出表格结构,将表格存储为二维数组,并在文本位置做出标记;
解析出图片:PDF内部的所有图片数据都存储在一个单独的区域,文档中某处出现的图片,实际上使用指令引用图片存储的位置,因此需要将图片单独存储,并在对应的文本位置做出标记;
S2:根据解析后的文档的字号大小得到相应章节的层级,根据章节层级的高低,建立文档章节树;
此步骤的主要目的在于根据文本内容的特点将文本解析为按章节级别存储的章节树,根据文本的字号信息以及监管机构规定的章节结构,识别出文档的所有标题,并标记标题级别,然后根据章节标题信息建立章节树;
具体过程例如:监管机构规定债券申请书的第三章必须描述企业的基本情况,那么,可以首先在文件中全文搜索类似于“第三章企业基本情况”这样的文本,对于所有找到的文本,再根据文本的字号大小来确认其到底是否为正确的标题(反之先搜索字号后搜索标题亦可)。如果字号比正文的字号大,那么判定为正确的标题,否则视为错误的判例。
用类似的方法,可以找到所有的章节标题结构,并根据标题之间的位置关系,确定其标题层级,比如说对于“第三章企业基本情况”下找到“第一节基本信息”,那么“第一节基本信息”这个标题层级就会比“第三章企业基本情况”低一级。则“第三章企业基本情况”为根节点,“第一节基本信息”为子节点;
同时依次向下搜索,将根节点下的同一字号标题配置为该根节点的子节点,在同一字号的标题搜索完成后向下继续搜索下一级的比该字号小(或大)一级的子节点,依次类推。例如“第三章企业基本情况”为根节点时,面有五个小标题,则这五个小标题均为“第三章企业基本情况”的子节点,然后再搜索这五个小标题下的各自的子节点,此时“第三章企业基本情况”的子节点可以理解为下一级的根节点,直到搜索到正文字号为止。
如此类推,直到找出所有的章节标题信息在找齐了所有的章节标题之后,可以根据章节标题的层级信息,建立章节树。
具体来说,建立树的根节点,设定其层级为0,将所有层级为1的章节添加为根节点的子节点。再对第一个层级为1的节点进行处理,将属于其的所有的层级为2的子节点增加为子节点。按照这种方式依次处理,直到在上一步提取的所有的章节标题处理完毕。
S3:根据监管机构要求披露的信息建立规则执行库;
规则执行库主要包括表达式以及表达式下的层级关系;
监管机构发布的信息披露要求一般为自然语言文本,比如:“第二章应描述企业基本信息,第二章第一节应描述企业实际控制人或控股股东”。这种规则是给人类理解的,计算机无法直接处理。
为了让计算机理解这些规则,需要将自然语言文本转换为正则表达式。比如对于“本章应描述企业基本信息”,可以转换为正则表达式:“第二章.*基本信息”。只有当标题中包含“第二章”和“基本信息”时,该正则表达式才返回真值,否则为假。
在将信息披露要求转换为正则表达式时,还要同时记录每条规则的层级关系信息。比如第X章这类规则属于一级规则,而第X章第Y节这类规则属于二级规则。此外,还要记录一级规则和二级规则的隶属关系,比如第二章第一节这条规则隶属于第二章这条规则。
S4:根据监管机构要求披露的信息的章节建立根节点及子节点,并根据相应节点下的规则执行库的信息建立文档规则树;
假设根节点为最高级,则首先将所有的一级规则设置为根节点的子节点,然后按照隶属关系,逐个添加二级规则为对应一级规则的子节点。之后再按照隶属关系,添加三级规则为二级规则的子节点。
如此类推,直到所有节点处理完毕。最终,得到文档规则树。
S5:将文档规则树与文档章节树进行匹配,对文本内容按照相应的规则树下的根节点及子节点的规则执行库进行比对;
首先说明一些定义:
根节点:为树的最高级节点,每棵树都只有一个根节点。
子节点:A节点隶属于B节点,且A节点的等级别B节点低一级,那么称A为B的子节点。
具体的步骤如下:
(1)在对比时,输入两个同级别节点,其中一个为文档章节树节点,另一个为规则树节点(在初次输入时,可以选择两棵树的根节点作为输入)。
(2)判断这两个节点是否匹配,如果匹配,标记章节树节点为匹配节点;如果不匹配,标记章节树的节点为不匹配节点。
(3)如果这两个节点有子节点,由于这两个节点的子节点仍为同级别节点,那么将二者的所有子节点成对作为输入,转入步骤(1);如果没有,进入步骤(4)。
(4)输出检查结果
S6:输出文档中与规则执行库不符的内容。
本发明同时提供一种文件检测装置,
包括:
文件解析单元,所述文件解析单元通过解析二进制指令,将PDF文件的内容解析为带标记的文本、表格和图片,同时记录文字的字体和字号信息,表格和图片的位置信息;
文档章节树配置单元,所述文档章节树配置单元用于根据解析后的文档的字号大小得到相应章节的层级,根据层级的高低配置章节的层级根节点及子节点建立文档章节树;
规则执行库单元,所述规则执行库单元根据监管机构要求披露的信息建立;
文档规则树单元,所述文档规则树单元根据监管机构要求披露的信息的章节建立根节点及子节点,并根据相应节点下的规则执行库的信息建立文档规则树;
比较单元,所述比较单元用于将文档规则树与文档章节树进行匹配,对文本内容按照相应的规则树下的根节点及子节点的规则执行库进行比对;
输出单元,所述输出单元用于输出文档中与规则执行库单元不符的内容。
所述文件解析单元在解析二进制指令时:
通过PDF文件内的指令流解析出相应的文本、表格和图片;
根据PDF文件的线条位置解析相应的表格结构并将表格的内容存储为二维数组同时记录相应的文档位置;
将PDF文件内的图片单独存储,并在相应的文档上标记引用相应图片的指令。
所述比较单元在进行文档规则树与文档章节树匹配时,首先检测根节点是否匹配,然后检测子节点是否匹配。
所述子节点下包括该子节点的下一级子节点时,将下一级的子节点作为输入信息与文档规则树进行匹配。
以上所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (10)

1.一种文件检测方法,其特征在于:
包括:
S1:通过解析二进制指令,将PDF文件的内容解析为带标记的文本、表格和图片,同时记录文字的字体和字号信息,表格和图片的位置信息;
S2:根据解析后的文档的字号大小得到相应章节的层级,根据章节层级的高低,建立文档章节树;
S3:根据监管机构要求披露的信息建立规则执行库;
S4:根据监管机构要求披露的信息的章节建立根节点及子节点,并根据相应节点下的规则执行库的信息建立文档规则树;
S5:将文档规则树与文档章节树进行匹配,对文本内容按照相应的规则树下的根节点及子节点的规则执行库进行比对;
S6:输出文档中与规则执行库不符的内容。
2.根据权利要求1所述的文件检测方法,其特征在于:
解析二进制指令时通过PDF文件内的指令流解析出相应的文本、表格和图片。
3.根据权利要求2所述的文件检测方法,其特征在于:
解析二进制指令时根据PDF文件的线条位置解析相应的表格结构并将表格的内容存储为二维数组同时记录表格在文档中的位置。
4.根据权利要求1所述的文件检测方法,其特征在于:
解析二进制指令时将PDF文件内的图片单独存储,并在相应的文档上标记引用相应图片的指令。
5.根据权利要求1所述的文件检测方法,其特征在于:
在文档规则树与文档章节树进行匹配时,首先检测根节点是否匹配,然后检测子节点是否匹配;
所述子节点下包括该子节点的下一级子节点时,将下一级的子节点作为输入信息与文档规则树进行匹配。
6.根据权利要求1所述的文件检测方法,其特征在于:
I1在对比时,输入两个同级别节点,其中一个为文档章节树节点,另一个为规则树节点;
I2判断文档章节树节点和规则树节点是否匹配,如果匹配,标记章节树节点为匹配节点;如果不匹配,标记章节树的节点为不匹配节点;
I3如果文档章节树节点和规则树节点有子节点,则该子节点仍为同级别节点,将所有子节点成对依次作为输入,转入步骤I1;如果没有,进入步骤I4;
I4输出检查结果。
7.一种文件检测装置,其特征在于:
包括:
文件解析单元,所述文件解析单元通过解析二进制指令,将PDF文件的内容解析为带标记的文本、表格和图片,同时记录文字的字体和字号信息,表格和图片的位置信息;
文档章节树配置单元,所述文档章节树配置单元用于根据解析后的文档的字号大小得到相应章节的层级,根据层级的高低配置章节的层级根节点及子节点,建立文档章节树;
规则执行库单元,所述规则执行库单元根据监管机构要求披露的信息建立;
文档规则树单元,所述文档规则树单元根据监管机构要求披露的信息的章节建立根节点及子节点,并根据相应节点下的规则执行库的信息建立文档规则树;
比较单元,所述比较单元用于将文档规则树与文档章节树进行匹配,对文本内容按照相应的规则树下的根节点及子节点的规则执行库进行比对;
输出单元,所述输出单元用于输出文档中与规则执行库单元不符的内容。
8.根据权利要求7所述的文件检测装置,其特征在于:
所述文件解析单元在解析二进制指令时:
通过PDF文件内的指令流解析出相应的文本、表格和图片;
根据PDF文件的线条位置解析相应的表格结构并将表格的内容存储为二维数组同时记录表格在文档中的位置;
将PDF文件内的图片单独存储,并在相应的文档上标记引用相应图片的指令。
9.根据权利要求7所述的文件检测装置,其特征在于:
所述比较单元在进行文档规则树与文档章节树匹配时,首先检测根节点是否匹配,然后检测子节点是否匹配。
10.根据权利要求7所述的文件检测装置,其特征在于:
所述子节点下包括该子节点的下一级子节点时,将下一级的子节点的第一个节点作为输入信息与文档规则树进行匹配。
CN201711344713.XA 2017-12-15 2017-12-15 一种文件检测方法及其装置 Pending CN107908602A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711344713.XA CN107908602A (zh) 2017-12-15 2017-12-15 一种文件检测方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711344713.XA CN107908602A (zh) 2017-12-15 2017-12-15 一种文件检测方法及其装置

Publications (1)

Publication Number Publication Date
CN107908602A true CN107908602A (zh) 2018-04-13

Family

ID=61868926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711344713.XA Pending CN107908602A (zh) 2017-12-15 2017-12-15 一种文件检测方法及其装置

Country Status (1)

Country Link
CN (1) CN107908602A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710894A (zh) * 2018-08-20 2019-05-03 平安普惠企业管理有限公司 文件内容提取方法、设备、装置及计算机可读存储介质
CN110377884A (zh) * 2019-06-13 2019-10-25 北京百度网讯科技有限公司 文档解析方法、装置、计算机设备及存储介质
CN110489087A (zh) * 2019-07-31 2019-11-22 北京字节跳动网络技术有限公司 一种生成分形结构的方法、装置、介质和电子设备
CN112016851A (zh) * 2020-09-14 2020-12-01 支付宝(杭州)信息技术有限公司 用于信息披露的管理方法以及装置
CN112487293A (zh) * 2020-11-30 2021-03-12 增长引擎(北京)信息技术有限公司 一种安全事故案例结构化信息抽取方法、装置及介质
CN113468864A (zh) * 2021-06-09 2021-10-01 广西电网有限责任公司 一种长文档的快速比对方法、装置和存储介质
CN113642291A (zh) * 2021-08-10 2021-11-12 东方财富信息股份有限公司 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端
CN113704417A (zh) * 2021-10-28 2021-11-26 北京关键科技股份有限公司 文档固定追踪和文档章节追踪关系的展示方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886098A (zh) * 2014-04-04 2014-06-25 浙江大学城市学院 一种Word文档格式检查方法
CN103902514A (zh) * 2014-04-04 2014-07-02 浙江大学城市学院 一种Word格式提取及再利用方法
CN106886509A (zh) * 2017-03-06 2017-06-23 大连理工大学 一种学位论文格式自动检测方法
CN106951400A (zh) * 2017-02-06 2017-07-14 北京因果树网络科技有限公司 一种pdf文件的信息抽取方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886098A (zh) * 2014-04-04 2014-06-25 浙江大学城市学院 一种Word文档格式检查方法
CN103902514A (zh) * 2014-04-04 2014-07-02 浙江大学城市学院 一种Word格式提取及再利用方法
CN106951400A (zh) * 2017-02-06 2017-07-14 北京因果树网络科技有限公司 一种pdf文件的信息抽取方法及装置
CN106886509A (zh) * 2017-03-06 2017-06-23 大连理工大学 一种学位论文格式自动检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
李红 等: "《数据结构与算法设计》", 30 September 2016, 中国科学技术大学出版社 *
李红 等: "数据结构与算法设计", 《数据结构与算法设计 *
钱雪忠 等: "《数据库原理及应用》", 30 September 2005, 北京邮电大学出版社 *
钱雪忠 等: "数据库原理及应用", 《数据库原理及应用 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710894A (zh) * 2018-08-20 2019-05-03 平安普惠企业管理有限公司 文件内容提取方法、设备、装置及计算机可读存储介质
CN110377884A (zh) * 2019-06-13 2019-10-25 北京百度网讯科技有限公司 文档解析方法、装置、计算机设备及存储介质
CN110489087A (zh) * 2019-07-31 2019-11-22 北京字节跳动网络技术有限公司 一种生成分形结构的方法、装置、介质和电子设备
CN110489087B (zh) * 2019-07-31 2023-05-30 北京字节跳动网络技术有限公司 一种生成分形结构的方法、装置、介质和电子设备
CN112016851A (zh) * 2020-09-14 2020-12-01 支付宝(杭州)信息技术有限公司 用于信息披露的管理方法以及装置
CN112016851B (zh) * 2020-09-14 2022-11-08 支付宝(杭州)信息技术有限公司 用于信息披露的管理方法以及装置
CN112487293A (zh) * 2020-11-30 2021-03-12 增长引擎(北京)信息技术有限公司 一种安全事故案例结构化信息抽取方法、装置及介质
CN113468864A (zh) * 2021-06-09 2021-10-01 广西电网有限责任公司 一种长文档的快速比对方法、装置和存储介质
CN113642291A (zh) * 2021-08-10 2021-11-12 东方财富信息股份有限公司 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端
CN113704417A (zh) * 2021-10-28 2021-11-26 北京关键科技股份有限公司 文档固定追踪和文档章节追踪关系的展示方法及系统

Similar Documents

Publication Publication Date Title
CN107908602A (zh) 一种文件检测方法及其装置
US9495347B2 (en) Systems and methods for extracting table information from documents
US9087236B2 (en) Automated recognition of process modeling semantics in flow diagrams
US8005815B2 (en) Search engine
CN104331449B (zh) 查询语句与网页相似度的确定方法、装置、终端及服务器
AU2021212025B2 (en) Intelligent question answering on tabular content
US10089390B2 (en) System and method to extract models from semi-structured documents
CN111159363A (zh) 一种基于知识库的问题答案确定方法及装置
KR20200141919A (ko) 구직자-구인자 매칭의 합격 여부 판단을 위한 기계 학습 방법 및 이를 이용한 추천 장치
CN107967290A (zh) 一种基于海量科研资料的知识图谱网络构建方法及系统、介质
JP2012208547A (ja) 契約チェック支援装置及び契約チェック支援プログラム
CN110362596A (zh) 一种文本抽取信息结构化数据处理的控制方法及装置
CN105956119A (zh) 专利撰写辅助系统及其方法
CN111191429A (zh) 数据表格自动填充的系统和方法
US20230351105A1 (en) Systems and methods for enhanced document generation
CN113627797A (zh) 入职员工画像生成方法、装置、计算机设备及存储介质
US20100217781A1 (en) Optimized method and system for managing proper names to optimize the management and interrogation of databases
CN115168562A (zh) 一种智能问答系统的构建方法、装置、设备及介质
CN110610003A (zh) 用于辅助文本标注的方法和系统
US20160321516A1 (en) Text parsing in complex graphical images
US11734517B1 (en) Systems and methods for measuring automatability of report generation using a natural language generation system
CN116048463A (zh) 基于标签管理的需求项内容智能推荐方法及装置
CN115757720A (zh) 基于知识图谱的项目信息搜索方法、装置、设备和介质
Mujtaba et al. Mining and analyzing occupational characteristics from job postings
CN110442716B (zh) 智能文本数据处理方法和装置、计算设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination