CN114564938A - 文档的解析方法及装置、存储介质和处理器 - Google Patents

文档的解析方法及装置、存储介质和处理器 Download PDF

Info

Publication number
CN114564938A
CN114564938A CN202011359806.1A CN202011359806A CN114564938A CN 114564938 A CN114564938 A CN 114564938A CN 202011359806 A CN202011359806 A CN 202011359806A CN 114564938 A CN114564938 A CN 114564938A
Authority
CN
China
Prior art keywords
document
target
information
contract
analysis result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011359806.1A
Other languages
English (en)
Inventor
蔡天慧
刘敏
康积华
孙宇飞
金龙
黄鹏
宋华青
李波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202011359806.1A priority Critical patent/CN114564938A/zh
Publication of CN114564938A publication Critical patent/CN114564938A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets

Abstract

本发明公开了一种文档的解析方法及装置、存储介质和处理器。其中,该方法包括:获取待解析的文档;对文档进行解析,得到文档表示;对文档表示通过自然语言处理,生成文档对应的层级化结构树;将层级化结构树转换为目标表示形式的解析结果,并输出解析结果。本发明解决了相关技术中对文档的解析效率低的技术问题。

Description

文档的解析方法及装置、存储介质和处理器
技术领域
本发明涉及信息处理技术领域,具体而言,涉及一种文档的解析方法及装置、存储介质和处理器。
背景技术
企业文书的种类繁多,同时存储介质多样,大量的文书信息也在各类智能化应用中时常需要被分析使用,以创造更高的价值,然而,目前在需要将电子或纸质的文档数据化时,大多采用人工方式处理,对文档的解析效率低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文档的解析方法及装置、存储介质和处理器,以至少解决相关技术中对文档的解析效率低的技术问题。
根据本发明实施例的一个方面,提供了一种文档的解析方法,包括:获取待解析的文档;对所述文档进行解析,得到文档表示;对所述文档表示通过自然语言处理,生成所述文档对应的层级化结构树;将所述层级化结构树转换为目标表示形式的解析结果,并输出所述解析结果。
进一步地,所述文档的类型为以下任意之一:Word、Excel、PDF、扫描件、图片、照片。
进一步地,在输出所述解析结果之后,所述方法还包括:基于所述解析结果,生成目标版本的解析内容;将所述目标版本的解析内容推送至目标对象。
进一步地,对所述文档表示通过自然语言处理的处理方式包括以下至少之一:文本分类、版面分析、标题提取。
进一步地,对所述文档进行解析的同时识别所述文档中的富文本信息,其中,所述富文本信息中至少包括:字体信息、对齐信息、表格、图片。
进一步地,所述文档为以下任意之一:专利文件、裁判文书、合同文件、聊天记录。
进一步地,在输出所述解析结果之后,所述方法还包括:接收查询指令,其中,所述查询指令中携带有查询信息,所述查询指令为文字指令或语音指令;响应所述查询指令,从所述解析结果中获取与所述查询信息相匹配的目标信息;显示所述目标信息。
根据本发明实施例的一个方面,提供了一种合同文件的处理方法,包括:获取待解析的合同文件;对所述合同文件进行处理,生成所述合同文件对应的层级化结构树;将所述层级化结构树转换为目标表示形式的解析结果,并输出所述解析结果。
进一步地,在输出所述解析结果之后,所述方法还包括:分析所述解析结果,以从所述解析结果中确定抽取内容;对所述抽取内容进行分析,并对所述抽取内容中的目标内容进行标识,其中,所述目标内容至少包括:内容归类和条款序号;输出标识后的目标内容。
进一步地,在输出标识后的目标内容之前,所述方法还包括:检测是否接收到编辑指令;若接收到编辑指令,响应所述编辑指令对所述抽取内容中的条款进行调整。
进一步地,所述方法还包括:确定所述合同文件中各个结构的内容对应的审批对象;将各个结构的内容传输至对应的审批对象;获取审批对象的审批结果。
进一步地,将各个结构的内容传输至对应的审批对象包括:将各个结构的内容中与对应的审批对象相关的内容采用预设标注方式进行标注,其中,所述预设标注方式为以下之一:高亮、加粗、字体放大、改变字体;将标注后的内容传输至对应的审批对象。
进一步地,在获取审批对象的审批结果之后,所述方法还包括:确定所述合同文件中各个结构的内容涉及的履约事项;基于所述履约事项生成履约计划;确定与所述履约计划相关的目标对象;将所述履约计划传输至与所述履约计划相关的目标对象。
进一步地,在获取审批对象的审批结果之后,所述方法还包括:确定所述合同文件中各个结构的内容涉及的履约风险;基于所述履约风险生成风险管控计划;确定所述风险管控计划中涉及的目标对象;将所述风险管控计划传输至所述风险管控计划中涉及的目标对象。
进一步地,在确定所述合同文件中各个结构的内容涉及的履约风险之后,所述方法还包括:基于所述履约风险对所述合同文件中各个结构的内容添加风险标签,其中,所述风险标签用于进行风险提醒。
根据本发明实施例的一个方面,提供了一种文档的解析方法,包括:获取待解析的文档;对所述文档进行处理,生成所述文档对应的结构树;基于所述结构树对所述文档进行拆分,得到多个信息片段,其中,每个信息片段中至少包括文档片段和所述文档片段的关键信息;对每个信息片段提取关键词,并将提取到的关键词、关键词对应的信息片段和所述文档存入搜索引擎。
进一步地,所述方法还包括:若检测到用户输入的搜索词,基于所述搜索词与所述搜索引擎中关键词进行匹配,确定与所述搜索词相匹配的目标关键词;返回与所述目标关键词对应的信息片段。
进一步地,在基于所述结构树对所述文档进行拆分,得到多个信息片段之后,所述方法还包括:将每个信息片段转换为对应的图片;将转换后的图片存入非关系型数据库;返回与所述目标关键词对应的信息片段还包括:从所述非关系型数据库中提取与所述信息片段对应的图片,在返回所述目标关键词对应的信息片段的同时返回所述信息片段对应的图片。
根据本发明实施例的一个方面,提供了一种文档的解析方法,包括:接收客户端上传的待解析的文档以及所述客户端发送的服务调用请求;响应所述服务调用请求,在服务器中对所述文档进行解析,得到文档表示;对所述文档表示通过自然语言处理,生成所述文档对应的层级化结构树;将所述层级化结构树转换为目标表示形式的解析结果;返回所述解析结果至客户端。
根据本发明实施例的一个方面,提供了一种文档调阅方法,包括:接收文档调阅指令,其中,所述文档调阅指令用于指示对目标文档集合进行分析,所述目标文档集合中的文档类别相同,或者文档类别和文档的子类别均相同,所述文档类别包括专利文档、裁判文书、合同文档、聊天记录;根据所述目标文档集合中每个文档的解析结果以及所述文档调阅指令,得到文档分析结果,其中,所述解析结果由上述任意一项所述的方法对所述目标文档集合中的文档进行解析获得;以目标展示形式,展示所述分析结果。
根据本发明实施例的一个方面,提供了一种文档的解析装置,包括:第一获取单元,用于获取待解析的文档;第一解析单元,用于对所述文档进行解析,得到文档表示;第一生成单元,用于对所述文档表示通过自然语言处理,生成所述文档对应的层级化结构树;第一处理单元,用于将所述层级化结构树转换为目标表示形式的解析结果,并输出所述解析结果。
根据本发明实施例的一个方面,提供了一种合同文件的解析装置,包括:第三获取单元,用于获取待解析的合同文件;第三生成单元,用于对所述合同文件进行处理,生成所述合同文件对应的层级化结构树;第一输出单元,用于将所述层级化结构树转换为目标表示形式的解析结果,并输出所述解析结果。
根据本发明实施例的一个方面,提供了一种文档的解析装置,包括:第五获取单元,用于获取待解析的文档;第七生成单元,用于对所述文档进行处理,生成所述文档对应的结构树;拆分单元,用于基于所述结构树对所述文档进行拆分,得到多个信息片段,其中,每个信息片段中至少包括文档片段和所述文档片段的关键信息;提取单元,用于对每个信息片段提取关键词,并将提取到的关键词、关键词对应的信息片段和所述文档存入搜索引擎。
根据本发明实施例的一个方面,提供了一种文档的解析装置,包括:第二接收单元,用于接收客户端上传的待解析的文档以及所述客户端发送的服务调用请求;第二解析单元,用于响应所述服务调用请求,在服务器中对所述文档进行解析,得到文档表示;生成单元,用于对所述文档表示通过自然语言处理,生成所述文档对应的层级化结构树;第二转换单元,用于将所述层级化结构树转换为目标表示形式的解析结果;第四处理单元,用于返回所述解析结果至客户端。
根据本发明实施例的一个方面,提供了一种文档调阅装置,包括:第三接收单元,用于接收文档调阅指令,其中,所述文档调阅指令用于指示对目标文档集合进行分析,所述目标文档集合中的文档类别相同,或者文档类别和文档的子类别均相同,所述文档类别包括专利文档、裁判文书、合同文档、聊天记录;第六获取单元,用于根据所述目标文档集合中每个文档的解析结果以及所述文档调阅指令,得到文档分析结果,其中,所述解析结果由上述一项所述的方法对所述目标文档集合中的文档进行解析获得;展示单元,用于以目标展示形式,展示所述分析结果。
根据本发明实施例的一个方面,提供了一种计算机可读的存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的文档的解析方法,或者,上述任意一项所述的合同文件的处理方法,或者,上述任意一项所述的文档调阅方法。
根据本发明实施例的一个方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的文档的解析方法,或者,上述任意一项所述的合同文件的处理方法,或者,上述任意一项所述的文档调阅方法。
在本发明实施例中,通过获取待解析的文档;对文档进行解析,得到文档表示;对文档表示通过自然语言处理,生成文档对应的层级化结构树;将层级化结构树转换为目标表示形式的解析结果,并输出解析结果,也即,利用自然语言处理技术快速准确的获取到文档对应的层级化结构树,最终以目标表示形式输出解析结果,避免了采用人工对文档进行解析的方式,进而解决了相关技术中对文档的解析效率低的技术问题,达到了提升对文档的解析效率的目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的计算机终端的硬件结构框图;
图2是根据本发明实施例一提供的文档的解析方法的流程图;
图3是根据本发明实施例一提供的可选的文档的解析方法的示意图一;
图4是根据本发明实施例一提供的文档的解析方法中层级化结构树的示意图;
图5是根据本发明实施例二提供的合同文件的处理方法的流程图;
图6是根据本发明实施例二提供的可选的合同文件的处理方法的示意图一;
图7是根据本发明实施例二提供的可选的合同文件的处理方法的示意图二;
图8是根据本发明实施例三提供的文档的解析方法的流程图;
图9是根据本发明实施例三提供的可选的文档的解析方法的示意图一;
图10是根据本发明实施例三提供的可选的文档的解析方法的示意图二;
图11是根据本发明实施例四提供的文档的解析方法的流程图;
图12是根据本发明实施例五提供的文档调阅方法的流程图;
图13是根据本发明实施例六提供的文档的解析装置的示意图;
图14是根据本发明实施例七提供的合同文件的处理装置的示意图;
图15是根据本发明实施例八提供的文档的解析装置的示意图;
图16是根据本发明实施例九提供的文档的解析装置的示意图;
图17是根据本发明实施例十提供的文档调阅装置的示意图;
图18是根据本发明实施例的可选的计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
合同模板:用于线上快速起草合同的标准化合同模板。
智能抽取:基于Word、PDF等文档采用光学字符识别技术进行文本抽取。
智能拆分:基于智能算法识别合同标题、签约方、正文、签署区域、附件等拆分;算法分析条款序号,进行深度树结构化分层。
自然语言处理,英文Natural Language Processing,简称NLP,是计算机科学领域以及人工智能领域的一个重要的研究方向,它研究用计算机来处理、理解以及运用人类语言(如中文、英文等),达到人与计算机之间进行有效通讯。在一般情况下,用户可能不熟悉机器语言,所以自然语言处理技术可以帮助这样的用户使用自然语言和机器交流。从建模的角度看,为了方便计算机处理,自然语言可以被定义为一组规则或符号的集合,我们组合集合中的符号来传递各种信息。自然语言的理解是个综合的系统工程,它又包含了很多细分学科,有代表声音的音系学,代表构词法的词态学,代表语句结构的句法学,代表理解的语义句法学和语用学。
实施例1
根据本发明实施例,提供了一种文档的解析方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现文档的解析方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的文档的解析方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的文档的解析方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
在上述运行环境下,本申请提供了如图2所示的文档的解析方法。图2是根据本发明实施例一的文档的解析方法的流程图。
步骤S101,获取待解析的文档。
上述待解析的文档的类型可以为多种类型,例如,文档的类型为以下任意之一:Word、Excel、PDF、扫描件等等。上述的文档可以为专利文件或者裁判文书。在客户端上获取待解析的文档,该文档可以是用户上传的,也可以是客户端本地存储的。
步骤S102,对文档进行解析,得到文档表示。
上述的文档表示可以理解为文档解析的中间信息,例如,文档的富文本信息。也即,在对文档进行解析时识别出文档中的信息,其中,所述信息中包括富文本信息,其中,富文本信息中至少包括:字体信息、对齐信息、表格、图片。其中,字体信息还可以包括:字体样式、字体大小、是否加粗等等。
针对不同的文档类型,可以通过不同的开源工具对文档进行解析,得到文档对应的文档表示。例如,针对Word类型的文档,可以通过Apache POI实现底层协议的解析,其中,Apache POI是Apache软件基金会的开放源码函式库,POI提供API给Java程序对Office格式的文档的读和写的功能。针对PDF类型的文档,可以通过Apache PDFBox实现底层协议的解析,其中,Apache PDFbox是一个开源的、基于Java的、支持PDF文档生成的工具库,它可以用于创建新的PDF文档,修改现有的PDF文档,还可以从PDF文档中提取所需的内容。针对扫描件类型的文档,可以通过光学字符识别技术实现底层协议的解析。
步骤S103,对文档表示通过自然语言处理,生成文档对应的层级化结构树。
上述步骤中,对文档表示通过自然语言处理的处理方式包括以下至少之一:文本分类、版面分析、标题提取。通过对文档表示利用NLP算法技术,可以得到的层级化结构树(可以理解为树状结构的表达形式),需要说明的是,层级化结构树的层级深度根据需求和文档的分级的深度确定。例如,对一份采购订单协议书,生成对应的层级化结构树为,第一层级包括:签约主体、正文、签章和附件,第二层级中的正文包括:定义、费用支付、交货、其它约定等,其中,费用支付部分会生成一棵条款树,该条款树中包括文档中的相关条款。
步骤S104,将层级化结构树转换为目标表示形式的解析结果,并输出解析结果。
上述的目标表示形式的具体形式不作限定,可以根据下游任务的需求,预先配置解析结果的表示形式。上述输出的目标表示形式的解析结果目的是通过统一的表示形式输出,使得不同类型的文本获得相同接口的输出,以便于下游用户的对接使用。
综上,在根据本发明实施例一的文档的解析方法中,通过获取待解析的文档;对文档进行解析,得到文档表示;对文档表示通过自然语言处理,生成文档对应的层级化结构树;将层级化结构树转换为目标表示形式的解析结果,并输出解析结果,也即,利用自然语言处理技术快速准确的获取到文档对应的层级化结构树,最终以目标表示形式输出解析结果,避免了采用人工对文档进行解析的方式,进而解决了相关技术中对文档的解析效率低的技术问题,达到了提升对文档的解析效率的目的。
如图3所示,针对不同的文档类型(例如,Word、Excel、PDF以及扫描件),通过不同的开源工具包括:Apache POI,PDFBox,实现了底层协议的解析。在现有开源工具基础上,首先拿到文档解析的中间信息(对应上述的文档表示),如:文本、字体、对齐等,在此基础上进一步分析。结合规则和NLP算法,实现对文档的层级化结构树构建和文档的统一的表达形式,也即,通过统一的标准解析协议对文档中的所有内容进行解析,得到文本信息和结构树信息,其中文本信息中可以包括富文本信息,基于富文本信息和结构树信息构建成层级化结构树,从而将层级化结构树通过统一的表示形式输出。
同时,本申请的技术方案不仅可以解析文档中正常的段落文本内容,还可以识别定位表格以及图片信息,并实现表格HTML表示和图片内容的存储,以便于下游任务的方便使用,并尽可能保证解析结果输出与原始文档的一致性。因此,本申请的技术方案在解析纯文本的同时也会解析文档本身丰富的富文本meta信息并输出文档的层级结构化解析结果。
在实现底层解析后,利用解析后的结果和NLP算法,综合分析富文本信息,获取层级化的结构树结果。其中,包括文本标签模块识别和精细层级结构识别,主要利用了文本分类、文本边界检测以及启发式精细层级方法,下面分别介绍上述几类算法的实现原理以及达到的效果。
一份《采购订单协议书》中包括合同标题、签约主体部分、正文、签章部分以及附件内容,本方案的方法中利用Fast Text(词向量计算和文本分类工具)和词向量的预训练模型来进行文本分类识别各个模块的边界文本段落。对于正文部分,需要获取精细层级结构信息,其中,上述的精细层级结构信息是指正文部分中各个层级结构中的信息,首先识别标题序号,根据不同的序号类别利用启发式算法,生成一棵结构树,对于合同即生成一棵条款树(对应上述的层级化结构树,如图4所示)。当文本中不存在显性的序号信息时,也可借助序列标注方法,识别边界段落。最后将层级化的结构树结果通过统一的表示形式输出,使得不同类型的文本获得相同接口的输出,以便于下游任务可以集中精力于各自的任务之中。需要说明的是,层级化结构树中的内容、展示和存储等可以由在定义结构树的结构时预先定义,由预先定义的规则确定。
可选地,在本申请实施例一提供的文档的解析方法中,在输出解析结果之后,该方法还包括:接收查询指令,其中,所述查询指令中携带有查询信息,所述查询指令为文字指令或语音指令;响应所述查询指令,从所述解析结果中获取与所述查询信息相匹配的目标信息;显示所述目标信息。
例如,若检测到用户触发的语音问答:请问合同文件A的有效期限是什么时候?则可以从解析出的解析结果中提取与提问内容相匹配的信息,例如提取到合同文件A的有效期限是2019年08月30日至2020年08月30日,则将提取到的内容进行显示,或者以语音播报的方式对提取到的内容进行语音播报。从而让用户能够快速的获取到自己需求的信息,提升用户体验。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
实施例2
在上述实施例一的运行环境下,本申请提供了如图5所示的合同文件的处理方法。图5是根据本发明实施例二的合同文件的处理方法的流程图。
步骤S501,获取待解析的合同文件。
步骤S502,对合同文件进行处理,生成合同文件对应的层级化结构树。
对合同文件进行处理可以先解析出合同文件的中间信息,例如合同文件的富文本信息,然后基于合同文件的中间信息生成合同文件对应的层级化结构树。
步骤S503,将层级化结构树转换为目标表示形式的解析结果,并输出解析结果。
上述的目标表示形式的具体形式在本申请中不作限定,可以根据下游任务的需求,预先配置解析结果的表示形式。通过上述步骤可以对合同文件进行快速解析,通过统一的表示形式(目标表示形式)输出。
可选地,在本发明实施例二的合同文件的处理方法中,在输出解析结果之后,该方法还包括:分析解析结果,以从解析结果中确定抽取内容;对抽取内容进行分析,并对抽取内容中的目标内容进行标识,其中,目标内容至少包括:内容归类和条款序号;输出标识后的目标内容。
例如,在用户上传一份合同文件后,通过对合同文件解析,得到解析结果,然后从解析结果中确定抽取内容,对抽取内容中的目标内容进行标识,突出目标内容,以便用户能够更加快速准确的看到被标识的目标内容。
对合同文件进行解析拆分的流程可以如图6所示,可以如在上传文件后,解析文件,确定文件中的文本,样式,序号等信息(对应上述的抽取内容)。然后进行算法打标,里面可以涉及条款归类,条款深度分析,条款标签等。对合同中的条款结构化,对某些同类的条款进行合并,在合同中把编号、层级,各个部分添加相应标签。若合同中内容还有其它需要配置的内容,对其进行配置。
可选地,在本发明实施例二的合同文件的处理方法中,在输出标识后的目标内容之前,该方法还包括:检测是否接收到编辑指令;若接收到编辑指令,响应编辑指令对抽取内容中的条款进行调整。
模板的起草发布的流程可以如图7所示,例如,通过模板操作员在新建模板时,先上传正本,将文本在线上进行智能抽取拆分,对生成的模板进行编辑,对解析出的条件进行拆分,此时会检测是否接收到编辑指令;若接收到编辑指令,响应编辑指令对抽取内容中的条款进行调整。也即,对部分需要编辑的条款对其进行编辑,在对条款内容修改完成后,记录下历史日志,将修改好的模板提交审批,若审批不通过,则将模板撤回,重新进行处理。若审批通过,则合同模板生效。
可选地,在本发明实施例二的合同文件的处理方法中,该方法还包括:确定合同文件中各个结构的内容对应的审批对象;将各个结构的内容传输至对应的审批对象;获取审批对象的审批结果。
例如,在合同模板生成之后,对于不同结构的内容推送至不同的审批对象。例如,审批对象包括:部门领导,法务和管理层,将涉及部门领导需要关注的内容,例如,权利及义务该结构部分的内容,传输至部门领导审核。将涉及法律条款的结构部分的传输至法务审核,将涉及履约风险的结构部分的传输至管理层审核。另外,还可以将各个结构的内容中与对应的审批对象相关的内容采用预设标注方式进行标注,其中,预设标注方式为以下之一:高亮、加粗、字体放大、改变字体;将标注后的内容传输至对应的审批对象,从而审核对象可以快速的获取到合同中需要自己重点关注的内容,快速审批,提升审批效率。
如图7所示,在合同模板创建之后,进行模板合同审批,合同签署归档,最后合同履约。具体地,对于模板创建的流程,上述已经描述过,在此不再赘述。在模板审批通过之后,将模板存在模板库(对应上述的模板超市),以便后续用户进行模板下载或者浏览。在需要起草合同时,进行合同创建,对该合同中的条款内容进行编辑,关联条款进行关联,输入组件值。然后提交合同,基于合同模板的组件对结构化字段抽取,将起草的合同提交审批。在合同审批阶段,启动审批流程,可以进行合同个性化审批流程,比如,将合同中各个不同对象需要审批的内容进行标注,各个对象可以直观获取到自己需要审批的内容。另外,基于合同中的条款标签也可以进行动态调整审批节点。在对合同审批时,也可以在线编辑模板,可以对各个合同模板进行差异比对,还可以对模板库中的其它合同模板进行下载或浏览。待审批完成后,生成合同终稿。
将合同终稿在线上添加电子章,在线下盖上实体章,然后进行合同履约阶段。对合同中的风险进行添加相应标签,以及对合同中的风险进行预测。
可选地,在本发明实施例二的合同文件的处理方法中,在获取审批对象的审批结果之后,该方法还包括:确定合同文件中各个结构的内容涉及的履约事项;基于履约事项生成履约计划;确定与履约计划相关的目标对象;将履约计划传输至与履约计划相关的目标对象。
通过上述方案可以基于合同中的履约事项生成的履约计划,将履约计划传输至与履约计划相关的目标对象,以便更好的实施合同签署后的履约情况。例如,履约计划中包括2020年9月1日至2020年12月1日需要生成取暖器1000台的任务,将该任务传输至生产线的负责人,以便及时进行跟进对生产任务进行及时排班以及监控生产情况。
可选地,在本发明实施例二的合同文件的处理方法中,在获取审批对象的审批结果之后,该方法还包括:确定合同文件中各个结构的内容涉及的履约风险;基于履约风险生成风险管控计划;确定风险管控计划中涉及的目标对象;将风险管控计划传输至风险管控计划中涉及的目标对象。
例如,履约风险包括:合同价格、结算方式、合同工期、工程款支付等风险,将履约风险生成风险管控计划,例如,该风险管控计划中涉及财务方、工程实施方等,将该风险管控计划传输至财务人员、工程实施负责人员,以便更好的监控合同履约过程中的风险。另外,在确定合同文件中各个结构的内容涉及的履约风险之后,该方法还包括:基于履约风险对合同文件中各个结构的内容添加风险标签,其中,风险标签用于进行风险提醒。例如,合同工期可能存在超工期的可能性,在合同中的合同工期处添加风险标签,以便进行风险提醒。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
实施例3
在上述实施例一的运行环境下,本申请提供了如图8所示的文档的解析方法。图8是根据本发明实施例三的文档的解析方法的流程图。
步骤S801,获取待解析的文档。
步骤S802,对文档进行处理,生成文档对应的结构树。
对文档进行处理可以先解析出文档的中间信息,例如文档的富文本信息,然后基于文档的中间信息生成文档对应的结构树。
步骤S803,基于结构树对文档进行拆分,得到多个信息片段,其中,每个信息片段中至少包括文档片段和文档片段的关键信息。
例如,文档片段为文档的第一段,文档片段的关键信息为从文档的第一段中提炼出的关键信息,比如,标签、时间、标题、段落ID之类的信息。
步骤S804,对每个信息片段提取关键词,并将提取到的关键词、关键词对应的信息片段和文档存入搜索引擎。
可以从信息片段的文档片段中的关键信息提取关键词,例如,提取到关键词:反垄断、挑战。将提取到的关键词、关键词对应的信息片段和文档存入搜索引擎,解决了对文档的解析效率低的技术问题,达到了提升对文档的解析效率的目的,同时也丰富搜索引擎中存储的内容。
如图9所示,若文档的类型是word或者PDF,通过OneDoc处理(对文档进行处理可以先解析出文档的中间信息,然后基于文档的中间信息生成文档对应的结构树),对文档进行拆分,得到多个信息片段,然后进行关键词抽取,将抽取到的关键词以及信息片段、文档等存储到搜索引擎。
可选的,在本发明实施例三的文档的解析方法中,该方法还包括:若检测到用户输入的搜索词,基于搜索词与搜索引擎中关键词进行匹配,确定与搜索词相匹配的目标关键词;返回与目标关键词对应的信息片段。
由于搜索引擎中存储了关键词对应的信息片段、关键词对应的信息片段所属的文档等等,用户在该搜索引擎中输入的搜索词进行搜索时,能够为用户返回更多类型的相关信息。例如,返回关键词对应的信息片段,或者关键词对应的信息片段所属的文档等等,从而能够为帮助用户快速且准确搜索出自己想要的信息,大大提升用户工作效率。
可选的,在本发明实施例三的文档的解析方法中,在基于结构树对文档进行拆分,得到多个信息片段之后,该方法还包括:将每个信息片段转换为对应的图片;将转换后的图片存入非关系型数据库。返回与目标关键词对应的信息片段还包括:从非关系型数据库中提取与信息片段对应的图片,在返回目标关键词对应的信息片段的同时返回信息片段对应的图片。
上述步骤如图10所示,若文档的类型是PPT(包括ppt和pptx),通过OneDoc技术处理(例如,对文档进行处理可以先解析出文档的中间信息,然后基于文档的中间信息生成文档对应的结构树),对文档进行拆分,得到多个知识卡片(也可以理解为将每一页PPT拆分为一个知识卡片),将每一页PPT转化成图片后保存到非关系型数据库中,然后对每个知识卡片进行关键词抽取,将抽取到的关键词以及知识卡片(也可以理解为信息片段)、文档等存储到搜索引擎。后续用户在该搜索引擎中输入的搜索词进行搜索时,除了返回关键词对应的信息片段,或者关键词对应的信息片段所属的文档等之外,还可以从非关系型数据库中提取与信息片段对应的图片,在返回目标关键词对应的信息片段的同时返回信息片段对应的图片,从而能够为帮助用户快速且准确搜索出自己想要的信息,大大提升用户工作效率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
实施例4
在上述实施例一的运行环境下,本申请提供了如图11所示的文档的解析方法。图11是根据本发明实施例四的文档的解析方法的流程图。
步骤1101,接收客户端上传的待解析的文档以及客户端发送的服务调用请求。
步骤1102,响应服务调用请求,在服务器中对文档进行解析,得到文档表示;对文档表示通过自然语言处理,生成文档对应的层级化结构树;将层级化结构树转换为目标表示形式的解析结果。
步骤1103,返回解析结果至客户端。
通过上述步骤,调用服务器中的服务对文档的解析,能够在服务端快速的利用自然语言处理技术快速准确的获取到文档对应的层级化结构树,最终以目标表示形式输出解析结果,避免了采用人工对文档进行解析的方式,进而解决了相关技术中对文档的解析效率低的技术问题,达到了提升对文档的解析效率的目的。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
实施例5
在上述实施例一的运行环境下,本申请提供了如图12所示的文档调阅方法。图12是根据本发明实施例五的文档调阅方法的流程图。
步骤1201,接收文档调阅指令,其中,文档调阅指令用于指示对目标文档集合进行分析,目标文档集合中的文档类别相同,或者文档类别和文档的子类别均相同,文档类别包括专利文档、裁判文书、合同文档、聊天记录。
需要说明的是,上述的文档的子类别是指同类文档中的不同分类,例如,合同文档中包括销售合同、采购合同、借款合同、租赁合同等多个子类别,裁判文书中的民事裁判文书包括:民事判决书、民事裁定书、民事调解书等多个子类别。
步骤1202,根据目标文档集合中每个文档的解析结果以及文档调阅指令,得到文档分析结果,其中,解析结果由实施例一中的方法对目标文档集合中的文档进行解析获得。
步骤1203,以目标展示形式,展示分析结果。
通过上述步骤S1201-步骤S1203,可以快速的对相同类别的文档进行快速分析,得到分析结果,并以目标展示形式进行展示,以便用户直观查看到分析结果,提升用户体验。
例如,目标文档集合中的文档类别为合同文档,文档的子类别为销售合同,在接收到文档调阅指令指示对合同文档中的销售合同进行分析时,则响应文档调阅指令,根据各个销售合同的解析结果进行分析,由于各个销售合同的解析结果包括合同中的信息,例如包括销售价格、合同要求、涉及法律条款等等,即可快速的分析得到销售合同的分析结果。例如,将销售合同中的涉及的销售价格进行比较分析,在分析结果中可以得出同类商品在不同时期的销售价格及销量,并也可以将该数据以图表的形式进行直观展示,以便用户直观查看。
再例如,目标文档集合中的文档类别为民事裁判文书,文档的子类别为民事裁定书,在接收到文档调阅指令指示对民事裁判文书中的民事裁定书进行分析时,则响应文档调阅指令,根据民事裁判文书的解析结果进行分析,由于各个民事裁判文书的解析结果包括民事裁判文书中的信息,例如包括工伤赔款、涉及法律条款等等,即可快速的分析得到民事裁判文书的分析结果。例如,将民事裁判文书中的涉及的工伤赔款进行比较分析,在分析结果中可以得出不同年度不同工伤情况对应的工伤赔款,并也可以将该数据以柱状图的形式进行直观展示,以便用户直观查看到分析结果,提升用户体验。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
实施例6
根据本发明实施例,还提供了一种用于实施上述实施例一中的文档的解析方法的装置,如图13所示,该装置包括:第一获取单元1301、第一解析单元1302、第一生成单元1303和第一处理单元1304。
具体地,第一获取单元1301,用于获取待解析的文档;
第一解析单元1302,用于对文档进行解析,得到文档表示;
第一生成单元1303,用于对文档表示通过自然语言处理,生成文档对应的层级化结构树;
第一处理单元1304,用于将层级化结构树转换为目标表示形式的解析结果,并输出解析结果。
综上,在本申请实施例五提供的文档的解析装置中,通过第一获取单元1301,用于获取待解析的文档;第一解析单元1302,用于对文档进行解析,得到文档表示;第一生成单元1303,用于对文档表示通过自然语言处理,生成文档对应的层级化结构树;第一处理单元1304,用于将层级化结构树转换为目标表示形式的解析结果,并输出解析结果,避免了采用人工对文档进行解析的方式,进而解决了相关技术中对文档的解析效率低的技术问题,达到了提升对文档的解析效率的目的。
可选地,在本申请实施例五提供的文档的解析装置中,文档的类型为以下任意之一:Word、Excel、PDF、扫描件、图片、照片。
可选地,在本申请实施例五提供的文档的解析装置中,该装置还包括:第二生成单元,用于在输出解析结果之后,基于解析结果,生成目标版本的解析内容;第一推送单元,用于将目标版本的解析内容推送至目标对象。
可选地,在本申请实施例五提供的文档的解析装置中,对文档表示通过自然语言处理的处理方式包括以下至少之一:文本分类、版面分析、标题提取。
可选地,在本申请实施例五提供的文档的解析装置中,对文档进行解析的同时识别文档中的富文本信息,其中,富文本信息中至少包括:字体信息、对齐信息、表格、图片。
可选地,在本申请实施例五提供的文档的解析装置中,文档为以下任意之一:专利文件、裁判文书、合同文件、聊天记录。
可选地,在本申请实施例五提供的文档的解析装置中,该装置还包括:第一接收单元,用于在输出解析结果之后,接收语音指令,其中,语音指令中携带有提问信息;第二获取单元,用于响应语音指令,从解析结果中获取与提问信息向匹配的目标信息;显示单元,用于显示目标信息。
此处需要说明的是,上述第一获取单元1301、第一解析单元1302、第一生成单元1303和第一处理单元1304对应于实施例1中的步骤S101至步骤S104,四个单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述单元、模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
实施例6
根据本发明实施例,还提供了一种用于实施上述实施例二中的合同文件的处理方法的装置,如图14所示,该装置包括:第三获取单元1401、第三生成单元1402和第一输出单元1403。
第三获取单元1401,用于获取待解析的合同文件;
第三生成单元1402,用于对合同文件进行处理,生成合同文件对应的层级化结构树;
第一输出单元1403,用于将层级化结构树转换为目标表示形式的解析结果,并输出解析结果。
综上,在本申请实施例五提供的文档的解析装置中,通过第三获取单元1401获取待解析的合同文件;第三生成单元1402对合同文件进行处理,生成合同文件对应的层级化结构树;第一输出单元1403将层级化结构树转换为目标表示形式的解析结果,并输出解析结果。避免了采用人工对合同文件进行解析的方式,进而解决了相关技术中对文档的解析效率低的技术问题,达到了提升对文档的解析效率的目的。
可选地,在本申请实施例五提供的文档的解析装置中,该装置还包括:第一分析单元,用于在输出解析结果之后,分析解析结果,以从解析结果中确定抽取内容;第二分析单元,用于对抽取内容进行分析,并对抽取内容中的目标内容进行标识,其中,目标内容至少包括:内容归类和条款序号;第四生成单元,用于输出标识后的目标内容。
可选地,在本申请实施例五提供的文档的解析装置中,该装置还包括:检测单元,用于在输出标识后的目标内容之前,检测是否接收到编辑指令;第二响应单元,用于若接收到编辑指令,响应编辑指令对抽取内容中的条款进行调整。
可选地,在本申请实施例五提供的文档的解析装置中,该装置还包括:第一确定单元,用于确定合同文件中各个结构的内容对应的审批对象;第一传输单元,用于将各个结构的内容传输至对应的审批对象;第四获取单元,用于获取审批对象的审批结果。
可选地,在本申请实施例五提供的文档的解析装置中,第一传输单元1403包括:标注子单元,用于将各个结构的内容中与对应的审批对象相关的内容采用预设标注方式进行标注,其中,预设标注方式为以下之一:高亮、加粗、字体放大、改变字体;第一传输子单元,用于将标注后的内容传输至对应的审批对象。
可选地,在本申请实施例五提供的文档的解析装置中,该装置还包括:第二确定单元,用于在获取审批对象的审批结果之后,确定合同文件中各个结构的内容涉及的履约事项;第五生成单元,用于基于履约事项生成履约计划;第三确定单元,用于确定与履约计划相关的目标对象;第二传输单元,用于将履约计划传输至与履约计划相关的目标对象。
可选地,在本申请实施例五提供的文档的解析装置中,该装置还包括:第四确定单元,用于在获取审批对象的审批结果之后,确定合同文件中各个结构的内容涉及的履约风险;第六生成单元,用于基于履约风险生成风险管控计划;第五确定单元,用于确定风险管控计划中涉及的目标对象;第三传输单元,用于将风险管控计划传输至风险管控计划中涉及的目标对象。
可选地,在本申请实施例五提供的文档的解析装置中,该装置还包括:第二处理单元,用于在确定合同文件中各个结构的内容涉及的履约风险之后,基于履约风险对合同文件中各个结构的内容添加风险标签,其中,风险标签用于进行风险提醒。
需要说明的是,上述单元、模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
实施例7
根据本发明实施例,还提供了一种用于实施上述实施例三中的文档的解析方法的装置,如图15所示,该装置包括:第五获取单元1501、第七生成单元1502、拆分单元1503和提取单元1504。
具体地,第五获取单元1501,用于获取待解析的文档;
第七生成单元1502,用于对文档进行处理,生成文档对应的结构树;
拆分单元1503,用于基于结构树对文档进行拆分,得到多个信息片段,其中,每个信息片段中至少包括文档片段和文档片段的关键信息;
提取单元1504,用于对每个信息片段提取关键词,并将提取到的关键词、关键词对应的信息片段和文档存入搜索引擎。
综上,在本申请实施例六提供的文档的解析装置中,通过第五获取单元1501获取待解析的文档;第七生成单元1502对文档进行处理,生成文档对应的结构树;拆分单元1503基于结构树对文档进行拆分,得到多个信息片段,其中,每个信息片段中至少包括文档片段和文档片段的关键信息;提取单元1504对每个信息片段提取关键词,并将提取到的关键词、关键词对应的信息片段和文档存入搜索引擎。避免了采用人工对文档进行解析的方式,进而解决了相关技术中对文档的解析效率低的技术问题,达到了提升对文档的解析效率的目的。
可选地,在本申请实施例六提供的文档的解析装置中,该装置还包括:第六确定单元,用于若检测到用户输入的搜索词,基于搜索词与搜索引擎中关键词进行匹配,确定与搜索词相匹配的目标关键词;第三处理单元,用于返回与目标关键词对应的信息片段。
可选地,在本申请实施例六提供的文档的解析装置中,该装置还包括:第一转换单元,用于在基于结构树对文档进行拆分,得到多个信息片段之后,将每个信息片段转换为对应的图片,将转换后的图片存入非关系型数据库;第三处理单元还用于从非关系型数据库中提取与信息片段对应的图片,在返回目标关键词对应的信息片段的同时返回信息片段对应的图片。
需要说明的是,上述单元、模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
实施例8
根据本发明实施例,还提供了一种用于实施上述实施例四中的文档的解析方法的装置,如图16所示,该装置包括:第二接收单元1601、第二解析单元1602、生成单元1603、第二转换单元1604和第四处理单元1605。
具体地,第二接收单元1601,用于接收客户端上传的待解析的文档以及所述客户端发送的服务调用请求;
第二解析单元1602,用于响应所述服务调用请求,在服务器中对所述文档进行解析,得到文档表示;
生成单元1603,用于对所述文档表示通过自然语言处理,生成所述文档对应的层级化结构树;
第二转换单元1604,用于将所述层级化结构树转换为目标表示形式的解析结果;
第四处理单元1605,用于返回所述解析结果至客户端。
通过上述方案,调用服务器中的服务对文档的解析,能够在服务端快速的利用自然语言处理技术快速准确的获取到文档对应的层级化结构树,最终以目标表示形式输出解析结果,避免了采用人工对文档进行解析的方式,进而解决了相关技术中对文档的解析效率低的技术问题,达到了提升对文档的解析效率的目的。
需要说明的是,上述单元为装置的一部分可以运行在实施例一提供的计算机终端10中。
实施例9
根据本发明实施例,还提供了一种用于实施上述实施例五中的文档调阅方法的装置,如图17所示,该装置包括:第三接收单元1701、第六获取单元1702和展示单元1703。
具体地,第三接收单元1701,用于接收文档调阅指令,其中,所述文档调阅指令用于指示对目标文档集合进行分析,所述目标文档集合中的文档类别相同,或者文档类别和文档的子类别均相同,所述文档类别包括专利文档、裁判文书、合同文档、聊天记录。
需要说明的是,上述的文档的子类别是指同类文档中的不同分类,例如,合同文档中包括销售合同、采购合同、借款合同、租赁合同等多个子类别,裁判文书中的民事裁判文书包括:民事判决书、民事裁定书、民事调解书等多个子类别。
第六获取单元1702,用于根据所述目标文档集合中每个文档的解析结果以及所述文档调阅指令,得到文档分析结果,其中,所述解析结果由上述一项所述的方法对所述目标文档集合中的文档进行解析获得;
展示单元1703,用于以目标展示形式,展示所述分析结果。
通过本申请实施例九提供的文档调阅装置,可以快速的对相同类别的文档进行快速分析,得到分析结果,并以目标展示形式进行展示,以便用户直观查看到分析结果,提升用户体验。
例如,目标文档集合中的文档类别为合同文档,文档的子类别为销售合同,在接收到文档调阅指令指示对合同文档中的销售合同进行分析时,则响应文档调阅指令,根据各个销售合同的解析结果进行分析,由于各个销售合同的解析结果包括合同中的信息,例如包括销售价格、合同要求、涉及法律条款等等,即可快速的分析得到销售合同的分析结果。例如,将销售合同中的涉及的销售价格进行比较分析,在分析结果中可以得出同类商品在不同时期的销售价格及销量,并也可以将该数据以图表的形式进行直观展示,以便用户直观查看。
再例如,目标文档集合中的文档类别为民事裁判文书,文档的子类别为民事裁定书,在接收到文档调阅指令指示对民事裁判文书中的民事裁定书进行分析时,则响应文档调阅指令,根据民事裁判文书的解析结果进行分析,由于各个民事裁判文书的解析结果包括民事裁判文书中的信息,例如包括工伤赔款、涉及法律条款等等,即可快速的分析得到民事裁判文书的分析结果。例如,将民事裁判文书中的涉及的工伤赔款进行比较分析,在分析结果中可以得出不同年度不同工伤情况对应的工伤赔款,并也可以将该数据以柱状图的形式进行直观展示,以便用户直观查看到分析结果,提升用户体验。
需要说明的是,上述单元、子单元作为装置的一部分可以运行在实施例一提供的计算机终端10中。
实施例10
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本申请实施例提供的计算机终端上包括一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时执行以下方法:获取待解析的文档;对所述文档进行解析,得到文档表示;对所述文档表示通过自然语言处理,生成所述文档对应的层级化结构树;将所述层级化结构树转换为目标表示形式的解析结果,并输出所述解析结果。
可选地,该计算机程序/指令被处理器执行时执行以下方法:所述文档的类型为以下任意之一:Word、Excel、PDF、扫描件、图片、照片。
可选地,该计算机程序/指令被处理器执行时执行以下方法:在输出所述解析结果之后,所述方法还包括:基于所述解析结果,生成目标版本的解析内容;将所述目标版本的解析内容推送至目标对象。
可选地,该计算机程序/指令被处理器执行时执行以下方法:对所述文档表示通过自然语言处理的处理方式包括以下至少之一:文本分类、版面分析、标题提取。
可选地,该计算机程序/指令被处理器执行时执行以下方法:对所述文档进行解析的同时识别所述文档中的富文本信息,其中,所述富文本信息中至少包括:字体信息、对齐信息、表格、图片。
可选地,该计算机程序/指令被处理器执行时执行以下方法:所述文档为以下任意之一:专利文件、裁判文书、合同文件、聊天记录。
可选地,该计算机程序/指令被处理器执行时执行以下方法:在输出所述解析结果之后,所述方法还包括:接收查询指令,其中,所述查询指令中携带有查询信息,所述查询指令为文字指令或语音指令;响应所述查询指令,从所述解析结果中获取与所述查询信息相匹配的目标信息;显示所述目标信息。
可选地,该计算机程序/指令被处理器执行时执行以下方法:获取待解析的合同文件;对所述合同文件进行处理,生成所述合同文件对应的层级化结构树;将所述层级化结构树转换为目标表示形式的解析结果,并输出所述解析结果。
可选地,该计算机程序/指令被处理器执行时执行以下方法:在输出所述解析结果之后,所述方法还包括:分析所述解析结果,以从所述解析结果中确定抽取内容;对所述抽取内容进行分析,并对所述抽取内容中的目标内容进行标识,其中,所述目标内容至少包括:内容归类和条款序号;输出标识后的目标内容。
可选地,该计算机程序/指令被处理器执行时执行以下方法:在输出标识后的目标内容之前,所述方法还包括:检测是否接收到编辑指令;若接收到编辑指令,响应所述编辑指令对所述抽取内容中的条款进行调整。
可选地,该计算机程序/指令被处理器执行时执行以下方法:所述方法还包括:确定所述合同文件中各个结构的内容对应的审批对象;将各个结构的内容传输至对应的审批对象;获取审批对象的审批结果。
可选地,该计算机程序/指令被处理器执行时执行以下方法:将各个结构的内容传输至对应的审批对象包括:将各个结构的内容中与对应的审批对象相关的内容采用预设标注方式进行标注,其中,所述预设标注方式为以下之一:高亮、加粗、字体放大、改变字体;将标注后的内容传输至对应的审批对象。
可选地,该计算机程序/指令被处理器执行时执行以下方法:在获取审批对象的审批结果之后,所述方法还包括:确定所述合同文件中各个结构的内容涉及的履约事项;基于所述履约事项生成履约计划;确定与所述履约计划相关的目标对象;将所述履约计划传输至与所述履约计划相关的目标对象。
可选地,该计算机程序/指令被处理器执行时执行以下方法:在获取审批对象的审批结果之后,所述方法还包括:确定所述合同文件中各个结构的内容涉及的履约风险;基于所述履约风险生成风险管控计划;确定所述风险管控计划中涉及的目标对象;将所述风险管控计划传输至所述风险管控计划中涉及的目标对象。
可选地,该计算机程序/指令被处理器执行时执行以下方法:在确定所述合同文件中各个结构的内容涉及的履约风险之后,所述方法还包括:基于所述履约风险对所述合同文件中各个结构的内容添加风险标签,其中,所述风险标签用于进行风险提醒。
可选地,该计算机程序/指令被处理器执行时执行以下方法:获取待解析的文档;对所述文档进行处理,生成所述文档对应的结构树;基于所述结构树对所述文档进行拆分,得到多个信息片段,其中,每个信息片段中至少包括文档片段和所述文档片段的关键信息;对每个信息片段提取关键词,并将提取到的关键词、关键词对应的信息片段和所述文档存入搜索引擎。
可选地,该计算机程序/指令被处理器执行时执行以下方法:若检测到用户输入的搜索词,基于所述搜索词与所述搜索引擎中关键词进行匹配,确定与所述搜索词相匹配的目标关键词;返回与所述目标关键词对应的信息片段。
可选地,该计算机程序/指令被处理器执行时执行以下方法:在基于所述结构树对所述文档进行拆分,得到多个信息片段之后,所述方法还包括:将每个信息片段转换为对应的图片;将转换后的图片存入非关系型数据库;返回与所述目标关键词对应的信息片段还包括:从所述非关系型数据库中提取与所述信息片段对应的图片,在返回所述目标关键词对应的信息片段的同时返回所述信息片段对应的图片。
可选地,该计算机程序/指令被处理器执行时执行以下方法:接收客户端上传的待解析的文档以及所述客户端发送的服务调用请求;响应所述服务调用请求,在服务器中对所述文档进行解析,得到文档表示;对所述文档表示通过自然语言处理,生成所述文档对应的层级化结构树;将所述层级化结构树转换为目标表示形式的解析结果;返回所述解析结果至客户端
可选地,该计算机程序/指令被处理器执行时执行以下方法:接收文档调阅指令,其中,所述文档调阅指令用于指示对目标文档集合进行分析,所述目标文档集合中的文档类别相同,或者文档类别和文档的子类别均相同,所述文档类别包括专利文档、裁判文书、合同文档、聊天记录;根据所述目标文档集合中每个文档的解析结果以及所述文档调阅指令,得到文档分析结果,其中,所述解析结果由上述任意一项所述的方法对所述目标文档集合中的文档进行解析获得;以目标展示形式,展示所述分析结果。
可选地,图18是根据本发明实施例的一种计算机终端的结构框图。如图18所示,该计算机终端可以包括:一个或多个(图18中仅示出一个)处理器、存储器。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的文档的解析方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文档的解析方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取待解析的文档;对所述文档进行解析,得到文档表示;对所述文档表示通过自然语言处理,生成所述文档对应的层级化结构树;将所述层级化结构树转换为目标表示形式的解析结果,并输出所述解析结果。
可选的,上述处理器还可以执行如下步骤的程序代码:所述文档的类型为以下任意之一:Word、Excel、PDF、扫描件、图片、照片。
可选的,上述处理器还可以执行如下步骤的程序代码:在输出所述解析结果之后,所述方法还包括:基于所述解析结果,生成目标版本的解析内容;将所述目标版本的解析内容推送至目标对象。
可选的,上述处理器还可以执行如下步骤的程序代码:对所述文档表示通过自然语言处理的处理方式包括以下至少之一:文本分类、版面分析、标题提取。
可选的,上述处理器还可以执行如下步骤的程序代码:对所述文档进行解析的同时识别所述文档中的富文本信息,其中,所述富文本信息中至少包括:字体信息、对齐信息、表格、图片。
可选的,上述处理器还可以执行如下步骤的程序代码:所述文档为以下任意之一:专利文件、裁判文书、合同文件、聊天记录。
可选的,上述处理器还可以执行如下步骤的程序代码:在输出所述解析结果之后,所述方法还包括:接收查询指令,其中,所述查询指令中携带有查询信息,所述查询指令为文字指令或语音指令;响应所述查询指令,从所述解析结果中获取与所述查询信息相匹配的目标信息;显示所述目标信息。
可选的,上述处理器还可以执行如下步骤的程序代码:获取待解析的合同文件;对所述合同文件进行处理,生成所述合同文件对应的层级化结构树;将所述层级化结构树转换为目标表示形式的解析结果,并输出所述解析结果。
可选的,上述处理器还可以执行如下步骤的程序代码:在输出所述解析结果之后,所述方法还包括:分析所述解析结果,以从所述解析结果中确定抽取内容;对所述抽取内容进行分析,并对所述抽取内容中的目标内容进行标识,其中,所述目标内容至少包括:内容归类和条款序号;输出标识后的目标内容。
可选的,上述处理器还可以执行如下步骤的程序代码:在输出标识后的目标内容之前,所述方法还包括:检测是否接收到编辑指令;若接收到编辑指令,响应所述编辑指令对所述抽取内容中的条款进行调整。
可选的,上述处理器还可以执行如下步骤的程序代码:所述方法还包括:确定所述合同文件中各个结构的内容对应的审批对象;将各个结构的内容传输至对应的审批对象;获取审批对象的审批结果。
可选的,上述处理器还可以执行如下步骤的程序代码:将各个结构的内容传输至对应的审批对象包括:将各个结构的内容中与对应的审批对象相关的内容采用预设标注方式进行标注,其中,所述预设标注方式为以下之一:高亮、加粗、字体放大、改变字体;将标注后的内容传输至对应的审批对象。
可选的,上述处理器还可以执行如下步骤的程序代码:在获取审批对象的审批结果之后,所述方法还包括:确定所述合同文件中各个结构的内容涉及的履约事项;基于所述履约事项生成履约计划;确定与所述履约计划相关的目标对象;将所述履约计划传输至与所述履约计划相关的目标对象。
可选的,上述处理器还可以执行如下步骤的程序代码:在获取审批对象的审批结果之后,所述方法还包括:确定所述合同文件中各个结构的内容涉及的履约风险;基于所述履约风险生成风险管控计划;确定所述风险管控计划中涉及的目标对象;将所述风险管控计划传输至所述风险管控计划中涉及的目标对象。
可选的,上述处理器还可以执行如下步骤的程序代码:在确定所述合同文件中各个结构的内容涉及的履约风险之后,所述方法还包括:基于所述履约风险对所述合同文件中各个结构的内容添加风险标签,其中,所述风险标签用于进行风险提醒。
可选的,上述处理器还可以执行如下步骤的程序代码:获取待解析的文档;对所述文档进行处理,生成所述文档对应的结构树;基于所述结构树对所述文档进行拆分,得到多个信息片段,其中,每个信息片段中至少包括文档片段和所述文档片段的关键信息;对每个信息片段提取关键词,并将提取到的关键词、关键词对应的信息片段和所述文档存入搜索引擎。
可选的,上述处理器还可以执行如下步骤的程序代码:所述方法还包括:若检测到用户输入的搜索词,基于所述搜索词与所述搜索引擎中关键词进行匹配,确定与所述搜索词相匹配的目标关键词;返回与所述目标关键词对应的信息片段。
可选的,上述处理器还可以执行如下步骤的程序代码:在基于所述结构树对所述文档进行拆分,得到多个信息片段之后,所述方法还包括:将每个信息片段转换为对应的图片;将转换后的图片存入非关系型数据库;返回与所述目标关键词对应的信息片段还包括:从所述非关系型数据库中提取与所述信息片段对应的图片,在返回所述目标关键词对应的信息片段的同时返回所述信息片段对应的图片。
可选的,上述处理器还可以执行如下步骤的程序代码:接收客户端上传的待解析的文档以及所述客户端发送的服务调用请求;响应所述服务调用请求,在服务器中对所述文档进行解析,得到文档表示;对所述文档表示通过自然语言处理,生成所述文档对应的层级化结构树;将所述层级化结构树转换为目标表示形式的解析结果;返回所述解析结果至客户端。
可选的,上述处理器还可以执行如下步骤的程序代码:接收文档调阅指令,其中,所述文档调阅指令用于指示对目标文档集合进行分析,所述目标文档集合中的文档类别相同,或者文档类别和文档的子类别均相同,所述文档类别包括专利文档、裁判文书、合同文档、聊天记录;根据所述目标文档集合中每个文档的解析结果以及所述文档调阅指令,得到文档分析结果,其中,所述解析结果由上述任意一项所述的方法对所述目标文档集合中的文档进行解析获得;以目标展示形式,展示所述分析结果。
采用本发明实施例,提供了一种文档的解析方法的方案,通过获取待解析的文档;对文档进行解析,得到文档表示;对文档表示通过自然语言处理,生成文档对应的层级化结构树;将层级化结构树转换为目标表示形式的解析结果,并输出解析结果,也即,利用自然语言处理技术快速准确的获取到文档对应的层级化结构树,最终以目标表示形式输出解析结果,避免了采用人工对文档进行解析的方式,进而解决了相关技术中对文档的解析效率低的技术问题,达到了提升对文档的解析效率的目的。
本领域普通技术人员可以理解,图18所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(Mobi leInternet Devices,MID)、PAD等终端设备。图18其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图18中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图18所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例11
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例中所提供的方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (28)

1.一种文档的解析方法,其特征在于,包括:
获取待解析的文档;
对所述文档进行解析,得到文档表示;
对所述文档表示通过自然语言处理,生成所述文档对应的层级化结构树;
将所述层级化结构树转换为目标表示形式的解析结果,并输出所述解析结果。
2.根据权利要求1所述的解析方法,其特征在于,所述文档的类型为以下任意之一:Word、Excel、PDF、扫描件、图片、照片。
3.根据权利要求1所述的解析方法,其特征在于,在输出所述解析结果之后,所述方法还包括:
基于所述解析结果,生成目标版本的解析内容;
将所述目标版本的解析内容推送至目标对象。
4.根据权利要求1所述的解析方法,其特征在于,对所述文档表示通过自然语言处理的处理方式包括以下至少之一:文本分类、版面分析、标题提取。
5.根据权利要求1所述的解析方法,其特征在于,对所述文档进行解析的同时识别所述文档中的富文本信息,其中,所述富文本信息中至少包括:字体信息、对齐信息、表格、图片。
6.根据权利要求1所述的解析方法,其特征在于,所述文档为以下任意之一:专利文件、裁判文书、合同文件、聊天记录。
7.根据权利要求1所述的解析方法,其特征在于,在输出所述解析结果之后,所述方法还包括:
接收查询指令,其中,所述查询指令中携带有查询信息,所述查询指令为文字指令或语音指令;
响应所述查询指令,从所述解析结果中获取与所述查询信息相匹配的目标信息;
显示所述目标信息。
8.一种合同文件的处理方法,其特征在于,包括:
获取待解析的合同文件;
对所述合同文件进行处理,生成所述合同文件对应的层级化结构树;
将所述层级化结构树转换为目标表示形式的解析结果,并输出所述解析结果。
9.根据权利要求8所述的处理方法,其特征在于,在输出所述解析结果之后,所述方法还包括:
分析所述解析结果,以从所述解析结果中确定抽取内容;
对所述抽取内容进行分析,并对所述抽取内容中的目标内容进行标识,其中,所述目标内容至少包括:内容归类和条款序号;
输出标识后的目标内容。
10.根据权利要求9所述的处理方法,其特征在于,在输出标识后的目标内容之前,所述方法还包括:
检测是否接收到编辑指令;
若接收到编辑指令,响应所述编辑指令对所述抽取内容中的条款进行调整。
11.根据权利要求10所述的处理方法,其特征在于,所述方法还包括:
确定所述合同文件中各个结构的内容对应的审批对象;
将各个结构的内容传输至对应的审批对象;
获取审批对象的审批结果。
12.根据权利要求11所述的处理方法,其特征在于,将各个结构的内容传输至对应的审批对象包括:
将各个结构的内容中与对应的审批对象相关的内容采用预设标注方式进行标注,其中,所述预设标注方式为以下之一:高亮、加粗、字体放大、改变字体;
将标注后的内容传输至对应的审批对象。
13.根据权利要求11所述的处理方法,其特征在于,在获取审批对象的审批结果之后,所述方法还包括:
确定所述合同文件中各个结构的内容涉及的履约事项;
基于所述履约事项生成履约计划;
确定与所述履约计划相关的目标对象;
将所述履约计划传输至与所述履约计划相关的目标对象。
14.根据权利要求11所述的处理方法,其特征在于,在获取审批对象的审批结果之后,所述方法还包括:
确定所述合同文件中各个结构的内容涉及的履约风险;
基于所述履约风险生成风险管控计划;
确定所述风险管控计划中涉及的目标对象;
将所述风险管控计划传输至所述风险管控计划中涉及的目标对象。
15.根据权利要求14所述的处理方法,其特征在于,在确定所述合同文件中各个结构的内容涉及的履约风险之后,所述方法还包括:
基于所述履约风险对所述合同文件中各个结构的内容添加风险标签,其中,所述风险标签用于进行风险提醒。
16.一种文档的解析方法,其特征在于,包括:
获取待解析的文档;
对所述文档进行处理,生成所述文档对应的结构树;
基于所述结构树对所述文档进行拆分,得到多个信息片段,其中,每个信息片段中至少包括文档片段和所述文档片段的关键信息;
对每个信息片段提取关键词,并将提取到的关键词、关键词对应的信息片段和所述文档存入搜索引擎。
17.根据权利要求16所述的解析方法,其特征在于,所述方法还包括:
若检测到用户输入的搜索词,基于所述搜索词与所述搜索引擎中关键词进行匹配,确定与所述搜索词相匹配的目标关键词;
返回与所述目标关键词对应的信息片段。
18.根据权利要求17所述的解析方法,其特征在于,
在基于所述结构树对所述文档进行拆分,得到多个信息片段之后,所述方法还包括:将每个信息片段转换为对应的图片;将转换后的图片存入非关系型数据库;
返回与所述目标关键词对应的信息片段还包括:从所述非关系型数据库中提取与所述信息片段对应的图片,在返回所述目标关键词对应的信息片段的同时返回所述信息片段对应的图片。
19.一种文档的解析方法,其特征在于,包括:
接收客户端上传的待解析的文档以及所述客户端发送的服务调用请求;
响应所述服务调用请求,在服务器中对所述文档进行解析,得到文档表示;对所述文档表示通过自然语言处理,生成所述文档对应的层级化结构树;将所述层级化结构树转换为目标表示形式的解析结果;
返回所述解析结果至客户端。
20.一种文档调阅方法,其特征在于,包括:
接收文档调阅指令,其中,所述文档调阅指令用于指示对目标文档集合进行分析,所述目标文档集合中的文档类别相同,或者文档类别和文档的子类别均相同,所述文档类别包括专利文档、裁判文书、合同文档、聊天记录;
根据所述目标文档集合中每个文档的解析结果以及所述文档调阅指令,得到文档分析结果,其中,所述解析结果由权利要求1至7中任意一项所述的方法对所述目标文档集合中的文档进行解析获得;
以目标展示形式,展示所述分析结果。
21.一种文档的解析装置,其特征在于,包括:
第一获取单元,用于获取待解析的文档;
第一解析单元,用于对所述文档进行解析,得到文档表示;
第一生成单元,用于对所述文档表示通过自然语言处理,生成所述文档对应的层级化结构树;
第一处理单元,用于将所述层级化结构树转换为目标表示形式的解析结果,并输出所述解析结果。
22.一种合同文件的解析装置,其特征在于,包括:
第三获取单元,用于获取待解析的合同文件;
第三生成单元,用于对所述合同文件进行处理,生成所述合同文件对应的层级化结构树;
第一输出单元,用于将所述层级化结构树转换为目标表示形式的解析结果,并输出所述解析结果。
23.一种文档的解析装置,其特征在于,包括:
第五获取单元,用于获取待解析的文档;
第七生成单元,用于对所述文档进行处理,生成所述文档对应的结构树;
拆分单元,用于基于所述结构树对所述文档进行拆分,得到多个信息片段,其中,每个信息片段中至少包括文档片段和所述文档片段的关键信息;
提取单元,用于对每个信息片段提取关键词,并将提取到的关键词、关键词对应的信息片段和所述文档存入搜索引擎。
24.一种文档的解析装置,其特征在于,包括:
第二接收单元,用于接收客户端上传的待解析的文档以及所述客户端发送的服务调用请求;
第二解析单元,用于响应所述服务调用请求,在服务器中对所述文档进行解析,得到文档表示;
生成单元,用于对所述文档表示通过自然语言处理,生成所述文档对应的层级化结构树;
第二转换单元,用于将所述层级化结构树转换为目标表示形式的解析结果;
第四处理单元,用于返回所述解析结果至客户端。
25.一种文档调阅装置,其特征在于,包括:
第三接收单元,用于接收文档调阅指令,其中,所述文档调阅指令用于指示对目标文档集合进行分析,所述目标文档集合中的文档类别相同,或者文档类别和文档的子类别均相同,所述文档类别包括专利文档、裁判文书、合同文档、聊天记录;
第六获取单元,用于根据所述目标文档集合中每个文档的解析结果以及所述文档调阅指令,得到文档分析结果,其中,所述解析结果由权利要求1至7中任意一项所述的方法对所述目标文档集合中的文档进行解析获得;
展示单元,用于以目标展示形式,展示所述分析结果。
26.一种计算机可读的存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任意一项所述的文档的解析方法,或者,权利要求8至15中任意一项所述的合同文件的处理方法,或者,权利要求16至18中任意一项所述的文档的解析方法,或者,权利要求19所述的文档的解析方法,或者,权利要求20所述的文档调阅方法。
27.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的文档的解析方法,或者,权利要求8至15中任意一项所述的合同文件的处理方法,或者,权利要求16至18中任意一项所述的文档的解析方法,或者,权利要求19所述的文档的解析方法,或者,权利要求20所述的文档调阅方法。
28.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时执行权利要求1至7中任意一项所述的文档的解析方法,或者,权利要求8至15中任意一项所述的合同文件的处理方法,或者,权利要求16至18中任意一项所述的文档的解析方法,或者,权利要求19所述的文档的解析方法,或者,权利要求20所述的文档调阅方法。
CN202011359806.1A 2020-11-27 2020-11-27 文档的解析方法及装置、存储介质和处理器 Pending CN114564938A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011359806.1A CN114564938A (zh) 2020-11-27 2020-11-27 文档的解析方法及装置、存储介质和处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011359806.1A CN114564938A (zh) 2020-11-27 2020-11-27 文档的解析方法及装置、存储介质和处理器

Publications (1)

Publication Number Publication Date
CN114564938A true CN114564938A (zh) 2022-05-31

Family

ID=81711158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011359806.1A Pending CN114564938A (zh) 2020-11-27 2020-11-27 文档的解析方法及装置、存储介质和处理器

Country Status (1)

Country Link
CN (1) CN114564938A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115374239A (zh) * 2022-07-13 2022-11-22 北京中海住梦科技有限公司 法律法规解析方法、装置、计算机设备及可读存储介质
CN116627912A (zh) * 2023-07-19 2023-08-22 中国电子科技集团公司第十研究所 一种多类型文档多模态内容的整合提取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115374239A (zh) * 2022-07-13 2022-11-22 北京中海住梦科技有限公司 法律法规解析方法、装置、计算机设备及可读存储介质
CN116627912A (zh) * 2023-07-19 2023-08-22 中国电子科技集团公司第十研究所 一种多类型文档多模态内容的整合提取方法

Similar Documents

Publication Publication Date Title
Soratto et al. Thematic content analysis using ATLAS. ti software: Potentialities for researchs in health
US11372935B2 (en) Automatically generating a website specific to an industry
CN112711937B (zh) 一种模板推荐方法、装置、设备及存储介质
CN109614504B (zh) 一种互联网电子书的管理系统及方法
Blismas et al. Computer-aided qualitative data analysis: panacea or paradox?
CN104487936B (zh) 用于对来自应用程序数据文件的信息进行计算机辅助消费的方法和系统
US10417267B2 (en) Information processing terminal and method, and information management apparatus and method
CN104050532A (zh) 简历生成方法及简历生成系统
CN111831911A (zh) 查询信息的处理方法、装置、存储介质和电子装置
CN105426508A (zh) 网页生成方法和装置
US20170109442A1 (en) Customizing a website string content specific to an industry
CN113627797B (zh) 入职员工画像生成方法、装置、计算机设备及存储介质
CN105893574B (zh) 一种数据处理方法及电子设备
US8260772B2 (en) Apparatus and method for displaying documents relevant to the content of a website
CN114564938A (zh) 文档的解析方法及装置、存储介质和处理器
Wong et al. Learning to extract and summarize hot item features from multiple auction web sites
Power et al. Improving archaeologists’ online archive experiences through user-centred design
McBride Translation memory systems: An analysis of translators’ attitudes and opinions
US20090199158A1 (en) Apparatus and method for building a component to display documents relevant to the content of a website
Wu et al. An explication of HistCiteTM: updates, modifications, and a variety of applications
CN110647504B (zh) 司法文书的检索方法及装置
CN112632950A (zh) Ppt生成方法、装置、设备及计算机可读存储介质
Rasmussen et al. The data documentation initiative: a preservation standard for research
CN108205564B (zh) 知识体系构建方法及系统
KR100862565B1 (ko) 사용자 맞춤형 특허정보 데이터베이스 구축시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination