CN106250385B - 用于文档的自动化信息抽象处理的系统和方法 - Google Patents

用于文档的自动化信息抽象处理的系统和方法 Download PDF

Info

Publication number
CN106250385B
CN106250385B CN201610417557.4A CN201610417557A CN106250385B CN 106250385 B CN106250385 B CN 106250385B CN 201610417557 A CN201610417557 A CN 201610417557A CN 106250385 B CN106250385 B CN 106250385B
Authority
CN
China
Prior art keywords
document
processor
classifier
sub
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610417557.4A
Other languages
English (en)
Other versions
CN106250385A (zh
Inventor
S·森古普塔
A·K·莫哈默德拉席德
C·拉克施米纳拉希姆汉
M·卡珀
J·乔治
M·斯里瓦斯塔瓦
V·萨曼斯
R·G·纳塔拉简
S·斯瓦米
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Accenture Global Services Ltd
Original Assignee
Accenture Global Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Accenture Global Services Ltd filed Critical Accenture Global Services Ltd
Publication of CN106250385A publication Critical patent/CN106250385A/zh
Application granted granted Critical
Publication of CN106250385B publication Critical patent/CN106250385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/142Image acquisition using hand-held instruments; Constructional details of the instruments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • G06V30/2504Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Abstract

本发明各实施例总体上涉及用于文档的自动化信息抽象处理的系统和方法。具体地,一种计算机实现的方法、处理流水线和系统创建文档与提取的信息的层级语义图。该方法包括通过使用数据分析器和机器学习模块访问文档、识别文档的层级结构以及将文档分成主要章节来将文档分摊至主要章节,将主要章节分类,并且将主要章节映射到多级之一中的关键元素,搜索一个主要章节,并且从一个主要章节中标识子章节以完成指示子章节与关键元素相关联的最大置信得分,通过使用数据分析器提供的序列建模器和语言学特性从标识的子章节提取信息,通过使用提取的信息生成文档的层级语义图,并且在用户接口中显示关键元素的下拉选择。

Description

用于文档的自动化信息抽象处理的系统和方法
相关申请的交叉引用
本申请要求2015年6月10日提交的印度临时申请No.2902/CHE/2015的权益,其通过引用将其全部内容并入于此。
技术领域
本公开涉及文档处理自动化领域,并且更具体地涉及用于自动化大型文档的信息抽象处理的系统和方法。
背景技术
计算机系统可以用于处理包含信息的文本文档。计算机系统可以创建保留原始文档重点的摘要。当文档结构被考虑用于文档的自动化信息抽象时,传统计算机系统可能不足以胜任。正因为如此,存在待解决的技术问题以便通过使用计算机系统和数据处理技术从文档中自动化抽象具体、良好定义的信息。
发明内容
本公开的示例至少提供了计算机系统和计算机实现的方法,其包括用于文档的自动化信息抽象处理的处理流水线。
在一个实施例中,本公开提供了一种用于创建文档与提取的信息的层级语义图的计算机系统。该计算机系统可以包括处理器和存储有处理器可执行指令的非瞬态计算机可读介质,该处理器可执行指令被配置为使得处理器:通过使用数据分析器和机器学习模块访问文档、识别文档的层级结构以及将文档分成主要章节来利用处理器将文档分摊至主要章节,其中数据分析器和机器学习模块是预定的并且被保存在数据库中。
该计算机系统可以通过使用来自机器学习模块的、具有多级的分类来利用处理器将文档的主要章节分类,并且将主要章节映射到多级中的一级中的关键元素,以及利用处理器搜索被映射到一个关键元素的一个主要章节,并且在一个主要章节内标识子章节以基于机器学习模块完成最大置信得分,其中最大置信得分可以指示子章节与关键元素相关联,并且子章节进一步包含粒度级信息片,粒度级信息片包括根据机器学习模块形成关键元素的子粒度条款类型。
该计算机系统可以通过使用由数据分析器提供的序列建模器和语言学特性来从所标识的子章节提取包括子粒度条款类型的粒度级信息片,根据层级结构,通过使用提取的信息生成文档的层级语义图,并且将提取的信息和层级语义图关联存储在数据库中,以及在用户显示器设备中的用户接口中呈现文档的关键元素的下拉选择,并且响应于对关键元素中的一个关键元素的选择,显示与选定的关键元素相关联的提取的信息。
在另一实施例中,本公开提供了一种用于创建文档与提取的信息的层级语义图的方法。该方法可以包括如下步骤:通过使用数据分析器和机器学习模块访问文档、识别文档的层级结构以及将文档分成主要章节来利用数据处理器将文档分摊至主要章节,其中数据分析器和机器学习模块是预定的并且被保存在数据库中,通过使用来自机器学习模块的、具有多级的分类来利用数据处理器将文档的主要章节分类,并且将主要章节映射到多级中的一级中的关键元素,利用数据处理器搜索被映射到一个关键元素的一个主要章节,并且在一个主要章节内标识子章节以基于机器学习模块完成最大置信得分,其中最大置信得分可以指示子章节与关键元素相关联,并且子章节可以进一步包含粒度级信息片,粒度级信息片包括根据机器学习模块形成关键元素的子粒度条款类型。
该方法可以进一步包括如下步骤:通过使用由数据分析器提供的序列建模器和语言学特性从所标识的子章节提取包括子粒度条款类型的粒度级信息片,根据层级结构,通过使用提取的信息生成文档的层级语义图,并且将提取的信息和层级语义图关联存储在存储器存储设备的数据库中,以及在用户显示器设备上的用户接口中呈现文档的关键元素的下拉选择,并且响应于对关键元素中的一个关键元素的选择,显示与所选定的关键元素相关联的提取的信息。
在另一实施例中,本公开提供了一种具有用于创建文档与提取的信息的层级语义图的处理流水线的系统。该系统可以包括:处理器、与处理器通信的数据通信网络、与数据通信网络通信的显示器设备,该显示器设备包括用户接口、与数据通信网络耦合的数据库、以及与处理器和数据通信网络耦合的非瞬态计算机可读介质;该非瞬态计算机可读介质存储有包括处理流水线的处理器可执行指令,该处理流水线包括文档获取器、文档分类器、文档映射器、文档提取器和结果查看器。
文档获取器可以被配置为使得处理器通过使用数据分析器和机器学习模块访问文档、识别文档的层级结构以及将文档分成主要章节来将文档分摊至主要章节,其中数据分析器和机器学习模块是预定的并且被保存在数据库中,文档分类器可以被配置为使得处理器通过使用来自机器学习模块的、具有多级的分类来将文档的主要章节分类,并且将主要章节映射到多级中的一级中的关键元素,以及文档映射器可以被配置为使得处理器搜索被映射到一个关键元素的一个主要章节,并且在一个主要章节内标识子章节以基于机器学习模块完成最大置信得分,其中最大置信得分指示子章节与关键元素相关联,并且子章节可以进一步包含粒度级信息片,粒度级信息片包括根据机器学习模块形成关键元素的子粒度条款类型。
文档提取器可以被配置为使得处理器通过使用由数据分析器提供的序列建模器和语言学特性从标识的子章节提取粒度级信息片,根据层级结构,通过使用提取的信息生成文档的层级语义图,并且将提取的信息和层级语义图关联存储在数据库中,以及结果查看器可以被配置为使得处理器在用户接口中呈现文档的关键元素的下拉选择,并且响应于对关键元素中的一个关键元素的选择,显示与选定关键元素相关联的提取的信息。
附图说明
参考以下附图和描述可以更好地理解系统和/或方法。参考以下附图描述非限制性和非排他性描述。附图中的组成不一定按比例,重点在于说明原理。在附图中,相似的附图标记遍及不同附图可以指代相似的部分,除非另外说明。
图1是用于创建文档与提取信息的层级语义图的方法的一个实施例的流程图。
图2图示了用于创建文档与提取信息的层级语义图的处理流水线的一个示例。
图3图示了用于创建文档与提取信息的层级语义图的系统的一个实施例。
图4图示了用于创建文档与提取信息的层级语义图的系统架构。
图5示出了针对关键元素的相关租赁章节的示例。
图6示出了针对关键元素的条款类型的相关租赁语句的示例。
图7示出了将条款组成一个或多个预定义的集合。
图8图示了标识针对停车位的租赁语句的示例。
图9示出了选择用于自动化信息抽象处理的客户端的示例。
图10示出了显示针对客户端文档的关键元素和条款类型的注释的示例。
图11示出了针对上传文档的选定文本的注释的示例。
图12示出了将注释与关键元素和条款类型相关联的示例。
图13示出了从选定文档中提取选定关键元素的示例。
图14图示了可以用于自动化信息抽象处理的计算机系统的示例。
具体实施方式
本文中所描述的原理可以用很多不同形式来实施。然而可能并非需要所有描绘的组成,并且一些实现可以包括另外的组成。可以在不偏离本文中给出的权利要求的精神或范围的情况下对组成的布置和类型做出变化。另外,可以提供不通过的或者更少的组成。
遍及本说明书对于单数或者复数形式的“一个示例”、“示例”、“多个示例”、“一个实施例”、“实施例”、“示例实施例”等的引用表示结合实施例或者示例描述的一个或多个特定的特征、结构或特性被包括在本公开的至少一个实施例或一个示例中。因此,遍及本说明书的各个地方的单数或者复数形式的短语“在一个实施例中”、“在实施例中”、“在示例实施例中”、“在一个示例中”、“在示例中”等的出现不一定全部指代同一实施例或者单个实施例。另外,在一个或多个实施例或示例中可以用任意合适的方式组合特定的特征、结构或特性。
本文中的描述中使用的术语仅出于描述特定示例的目的,而非意在限制。如本文中所使用的,单数形式的“一”、“一个”和“该”意在也包括复数形式,除非上下文另外清楚地指出。另外,如本文中的描述中以及遍及以下权利要求所使用的,“在……中”的含义包括“在……中”和“在……上”,除非上下文另外清楚地指出。还应当理解,如本文中所使用的术语“和/或”指代并且包括相关联的所列出的条目中的一个或多个的任何以及全部可能的组合。还应当理解,术语“可以包括”、“包括”、“包含”和/或“含有”当在本说明书中使用时规定所指出的状态、操作、元素和/或组成的存在,但是不排除一个或多个其他的特征、操作、元素、组成、和/或其组的存在或添加。
示例性环境可以包括服务器、客户端和通信网络。服务器和客户端可以通过通信网络耦合用于信息交换,诸如发送/接收标识信息、发送/接收数据文件(诸如启动画面图像等)。虽然环境中仅示出一个客户端和一个服务器,然而可以包括任何数目的终端或服务器,并且还可以包括其他设备。
所描述的设备间通信可以包括用于向服务器和客户端或者在多个服务器或客户端之间提供网络连接的任何适当类型的通信网络。例如,通信网络可以包括因特网或者其他类型的计算机网络或电信网络,其可以是有线的或者无线的。在实施例中,所公开的方法和装置可以例如在包括至少一个客户端的无线网络中来实现。
在一些情况下,客户端可以指代具有某些计算能力的任何适当的用户终端,诸如个人计算机(PC)、工作站计算机、服务器计算机、手持式计算设备(平板)、智能电话或移动电话、或者任何其他用户侧计算设备。在各种实施例中,客户端可以包括网络接入设备。客户端可以是静态的或者移动的。
如本文中所使用的服务器可以指代被配置成提供诸如数据库管理和搜索引擎的某些服务器功能的一个或多个服务器计算机。服务器还可以包括用以并行执行计算机程序的一个或多个处理器。
应当注意,实施例/示例以及实施例/示例中的特征可以在没有冲突的情况下彼此组合。各个发明方面在结合附图考虑时根据以下详细描述将变得很清楚。
应当注意,附图的流程图中图示的步骤可以使用可执行程序代码在一组计算机设备中执行。尽管流程图中示出了示例逻辑顺序,但是步骤的顺序在一些情况下可以不同于附图中的顺序。
本公开的示例中的目的、技术提议和优点在结合附图考虑时根据以下详细描述将很清楚和完整。下文中描述的示例仅是本公开的示例的部分,而非全部示例。本领域技术人员可以在没有创造性工作的情况下基于这些示例获取所有其他示例。
自动化抽象是利用计算机系统解析文本文档以创建保存原始文档的重点的抽象并且提取结构模板的文本中呈现的信息片的处理。然而,在频繁处理大型文档的组织中,尤其是在这种文档可能通常超过一百(100)页时,自动化信息抽象处理对于组织处理文档而言变得重要。例如,租赁文档可能是大型的。合同管理的自动化租赁抽象可以将文档处理时间从四十八(48)小时减少到二十四(24)小时。自动化信息抽象处理可以有助于处理文档及时并且成本有效的组织。
本公开内容公开了一种用于创建文档与提取信息的层级语义图的计算机实现的方法、处理流水线和系统。本公开内容公开了通过创建文档的结构化模型、进行文档的层级分割以及根据信息的呈现创建文档的语义图的文档的自动化分类。相关信息的自动化标识是通过以各粒度级进行检验并导航至相关信息呈现的文档段。所公开的方法、处理流水线和系统自动化地从文档提取结构化信息,并且收集并存储文档相关信息和待提取信息的特性,以及继续记录来自用户的反馈。所公开的方法、流水线和系统可以减少百分之五十(50%)的人类努力。
图1是用于创建文档与提取信息的层级语义图的方法的一个实施例的流程图100。图1中所示的步骤可以由一个或多个处理器执行以执行在非瞬态计算机可读介质中存储的指令。
步骤110:访问文档,识别层级结构并且将文档分成主要章节。步骤110的示例可以包括:通过使用数据分析器和机器学习模块访问文档、识别文档的层级结构、以及将文档分成主要章节来利用数据处理器将文档分摊到主要章节,其中数据分析器和机器学习模块是预定并且保留在数据库中的。
待处理的文档可以被电子访问。文档可以被存储在计算机可读介质(存储器、硬盘、闪存等),并且可以是特定类型的文档。例如,文档可以是租赁文档。文档可以以各种电子格式。例如,文档可以是以PDF格式或者以word文档格式。文档还可以以可以经由计算机或处理器电子访问的任意其他格式。这些格式可以是当前已知的或者稍后开发的。
可能需要将文档在不同格式之间转换。例如,如果文档是以PDF格式,在文档被访问并读取至存储器之后,文档可以从PDF格式转换成可以由计算机系统识别的基于文本的格式。
文档大小可以是大型的。待处理的文档可能超过一百(100)页。然而,本公开涉及的文档可以不受限于超过一百(100)页。某些文档,即使其可能小于一百(100)页,他们也可以在本公开的范围内。例如,即使租赁文档可能只有三十(30)页长,只要该租赁文档具有与超过一百(100)页长的其他租赁文档相似的总体结构,该30页租赁文档就可以是文档并且可以通过使用当前公开的方法自动化处理。
文档可以具有层级结构。待处理的文档可以具有多级结构。例如,租赁文档可以是三级结构。租赁文档的第一级可以具有租金和租赁期的长度。租金级可以进一步包括可以包括针对滞纳金和违约的章节的子级。在第二级中,滞纳金可以包括针对滞纳金利息的条款,并且利息条款可以是租赁文档的第三级。
可以存在文档若干主要章节。例如,租赁文档可以被分成针对转让、从属、变动、保险、违约、停车、保证金等的章节。由于相同类型文档的相似度,文档的主要章节和层级结构可以通过使用数据分析器和机器学习模块来预定。
数据分析器可以用于识别文档的特性。数据分析器可以识别文档的数字语言学,诸如某些类型信息的平均长度。数据分析器还可以识别文档的语言学特性。例如,数据分析器可以识别表达信息中涉及的谓语、表达信息中的位置结构、邻近字符、信息说明的开始和结束处的标记、用于表达信息的模式和数据的类型,以及引导表达信息中的正则表达式。
机器学习模块可以创建并保留用于在处理文档的各阶段应用的适当分类模型。例如,机器学习模块可以创建并保留针对文档信息的层级组织的各级的分类器。关键元素可以使用应用于文档中呈现的各片文本的分类器从文本中进行标识。这种分类器还可以用于标识信息说明的开始和结束点。
数据分析器和机器学习模块的输出可以被预定。结果的输出可以在文档被处理器和计算机访问、上传和处理之前被预定。数据分析器和机器学习模块的输出还可以被称为模型,并且可以从信息抽象处理单独生成。例如,单独计算机化的处理可以被开发以通过使用机器学习模块和数据分析器来创建针对特定类型文档的模型。模型包括分类模型(如支持向量机、随机森林)和序列模型(如条件随机字段)。适当的模型基于数据特性由机器学习和数据分析模块进行选择。模型可以通过在该模型最初被创建之后测试若干文档来进行训练。模型可以通过使用从文档的信息抽象处理接收的反馈进一步定期调整。模型因此可以从文档的信息抽象处理单独地预定。
数据分析器和机器学习模块的输出(模型)可以被保存在数据库。通过使用数据分析器和机器学习模块单独生成的模型可以用于信息抽象处理。为了生成的模型在计算机化的处理中被读取并使用,在进行针对文档的信息抽象处理时,预定模型可能需要被存储在数据库中并且稍后读取。由于模型可以从信息抽象处理中单独地预定并且可以被保存在数据库中,信息抽象处理可以作为单独的处理执行并且可以独立于生成模型。
步骤120:分类并映射主要章节。步骤120的示例可以包括:通过使用具有机器学习模块的多个级的分类利用数据处理器来分类文档的主要章节,并且将主要章节映射到多个级之一中的关键元素。关键元素还可以被称为机会。
文档可以根据分类被分类成主要章节。例如,租赁文档可以根据由机器学习模块生成的模型具有三(3)级分类。电子访问文档可以根据一级分类被分类成主要章节。例如,租赁文档可以根据机器学习模块的第二级分类被分成主要章节,租赁文档的第二级分类可以包括:滞纳金、延期、转让、恢复、违约、停车、招牌、变动、保险、从属、保证金、禁止反言等。
主要章节可以被映射到文档的关键元素。在文档的主要章节被分类之后,每个主要章节可以被映射到文档的关键元素。例如,当处理文档的第5段覆盖针对租赁的转让作为主要章节时,该第5段可以被映射到该租赁的关键元素转让。
步骤130:搜索主要章节并且标识子章节。针对步骤130的示例可以包括:利用数据处理器搜索被映射到一个关键元素的一个主要章节,并且在该一个主要章节中标识子章节以基于机器学习模块完成最大置信得分,其中最大置信得分指示子章节与关键元素相关联,并且子章节进一步包含包括根据机器学习模块形成关键元素的子粒度条款类型的粒度级信息片。
文档中的子章节可以针对一个关键元素进行标识。一个关键元素还可以被称为机会。每个关键元素可以具有如下特性,如平均长度和/或开始/结束标记。在文档中针对关键元素的主要章节被映射之后,针对主要章节的子章节可以被预测。机器学习模块可以提供针对与关键元素相关联的主要章节中的预测子章节的置信得分。最大置信得分可以指示子章节最有可能与关键元素相关联。
由于每个文档可以具有可以被映射到多个关键元素(或机会)的多个主要章节,因此针对每个主要章节的子章节的标识可以是重复过程。如此,针对被映射到机会O的每个主要章节S,通过使用机会的特性(如平均长度l和/或开始/结束标记)来针对子区域l搜索S,其在预测子区域为O方面最大化适当机器学习模块的置信得分。在形成O的标识区域中,重复上述处理以标识粒度和子粒度级信息片。子区域可以包含包括根据机器学习模块形成关键元素的子粒度条款类型的粒度级信息片。
步骤140:从子章节提取信息,并且存储所提取的信息和层级语义图。步骤140的示例可以包括:通过使用数据分析器提供的序列建模器如条件随机字段和语言学特性从标识的子章节提取包括子粒度条款类型的粒度级信息片,通过使用根据层级结构提取的信息生成文档的层级语义图,并且将提取的信息和层级语义图关联存储在存储器存储设备中的数据库中。
数据分析器可以用于提取最低级的信息。在用于标识子章节的处理被重复执行之后,最低级粒度信息可以被呈现在标识的区域中。当最低级粒度信息被呈现时,由数据分析器导出的语言学特性可以被用于提取所需的信息。数据分析器可以提供可以用于提取信息的谓语和结构规则。
层级语义图可以通过使用根据层级结构提取的信息生成。在文档的层级结构中的不同级被标识并且信息从文档中提取之后,层级语义图可以被生成。这种层级语义图可以反映经处理文档的层级结构。
提取的信息和层级语义图可以被存储在数据库中。在信息被提取并且层级语义图被生成之后,其可以被存储在数据库中供将来使用。例如,当租赁文档被解析并且租赁文档的信息被提取以及租赁文档的层级语义图被生成时,所提取的信息和层级语义图可以被存储在数据库中(诸如存储器、硬盘、闪存等中)。这种提取的租赁信息和层级语义图可以由计算机系统或处理器获得并供其稍后使用。
步骤150:显示关键元素的选择。步骤150的示例可以包括:在用户显示器设备上的用户接口中呈现文档的关键元素的下拉选择,并且响应于关键元素之一的选择,显示与选定关键元素相关联的提取的信息。
所提取的信息可以与可以供在用户接口中显示呈现的选定关键元素相关联。例如,用户接口可以提供租赁文档的关键元素的下拉选择,诸如滞纳金、延期和转让。用户可以从下拉选择中选择关键元素。在用户选择关键元素之后,计算机或处理器可以提取选定的租赁文档,并且租赁文档的相关部分可以在用户选择查看经处理的一个或多个文档之后在用户接口中显示。
主题专家(SME)可以创建针对特定类型文档(诸如租赁文档)的注释语料库。SME可以创建针对文档类型的若干关键元素。SME可以进一步创建子元素,所谓的从属于关键元素的条款类型。另外,SME可以创建针对关键元素和条款类型的组合的注释。注释可以与针对特定关键元素/条款类型组合的示例文档的相关章节相关联。例如,针对关键元素保险和条款类型商业普通责任的组合,SME可以创建具有“可应用于房屋的商业普通责任保险并且其从属权以发生为基础提供$2,000,000.00的最小组合单独限制”的注释。
数据分析器可以通过使用注释语料库来创建。数据分析器可以识别包括提取信息的平均长度(诸如待提取的信息的平均代表长度(通过聚集采样的长度))的数字特性。此外,数据分析器可以识别所提取信息的语言学特性,其中语言学特性可以包括表达信息中涉及的谓语、表达信息中的位置结构、邻近字符、信息说明的开始和结束处的标记、用于表达信息的模式以及引导表达信息中的正则表达式的数据类型。数据分析器另外可以标识并训练序列建模器(如条件随机字段),其可以被用于信息提取。
机器学习模块还可以通过使用可以由SME创建的注释语料库来创建。用于创建机器学习模块的步骤可以包括:根据文档的层级结构从由主题专家(SME)输入的注释语料库提取多级中的特征,应用选定的统计方法用于选择所提取特征的子集,其中选定的统计方法可以从若干统计方法中选择以便完成分类精确度,以及根据选定的特征从若干选项选择分类器,其中选定的特征可以在可以将从注释语料库提取的特征分类的多级中的一级中。
半监督学习方案可以在尝试影响非注释文档以及训练分类器模型的解决方案中采用。用户可以提供不具有训练采样的明确标记的原始文档。这些未标签采样还可以在半监督设置中由平台使用。取决于用于训练的标签数据的可用性,平台可以通过标签传播(Label Propagation)和标签扩散(Label Spreading)求助于半监督学习,并且可以从未注释文档中引导更多训练采样。特征选择可以通过在线性支持向量机被训练时选择具有非零系数结束的特征或者通过进行统计测试(如卡方)和挑选前x个百分比特征来进行。
创建机器学习模块的示例可以包括五(5)个步骤。(1)读取数据,并且基于VSM n元模型和TF-IDF计算将数据转换成数字特征;(2)通过使用统计方法(诸如卡方和/或其他方法)应用特征选择以优化最大化分类精确度;(3)取决于数据类型和特性,从若干模型(诸如:支持向量机、随机森林、多项式朴素贝叶斯)中选择适当分类器并且调谐该分类器的参数以找到对数据工作最好的模型;(4)将各信息片的特征关联并且将其分组使得一起出现或以邻居退出的最有可能的特征被标识;以及(5)创建并保留用于在自动处理文档中各阶段应用的适当分类模型,其中信息的层级组织的每级可以具有分类器,其中分类器可以用于标识信息说明的开始和结束点。
模型可以在其创建之后被训练。模块可以通过使用由SME创建的注释语料库来由数据分析器和机器学习模块来创建。模型可以被训练用于找到在每级对数据工作最好的分类器和针对信息提取的最佳序列建模器。模型的训练可以通过读取具有相同类型的若干示例文档并针对若干文档比较模型的结果,以及标识针对文档的层级结构中每级的最佳分类器来进行引导。针对文档的不同级的分类器可以是不同的。模型训练可以采取读取、比较和标识步骤的若干迭代。
方法可以是重新生成的。针对信息抽象处理的用户可以提供反馈,并且模型可以根据反馈通过使用机器学习模块和数据分析器来重新生成。提供反馈的用户可以是SME。SME可以通过用户接口提供反馈。反馈可以触发机器学习模块和数据分析器以适当间隔或在足够学习数据/反馈变得可用时重新生成模型。
图2图示了用于创建文档与提取信息的层级语义图的处理流水线的一个实施例200。如图2所示,处理流水线可以包括一个或多个处理器230、非瞬态计算机可读介质240、用户接口210、数据库250以及可以用于连接处理器230、非瞬态计算机可读介质240、用户接口210和数据库250的数据通信网络220。处理流水线200可以经由网络接口2001与数据分析器2002和机器学习模块2004进行通信。数据分析器2002可以包括数据分析器指令2005,并且机器学习模块2004可以包括机器学习模块指令2006。非瞬态计算机可读介质可以存储可以包括文档获取器2411、文档分类器2412、文档映射器2413、文档提取器2414、结果查看器2415和模型重新生成器2416的处理流水线指令。
处理流水线200的一个示例实现方式可以包括处理器230、用户接口210、数据库250、非瞬态计算机可读介质240和数据通信网络220,其中非瞬态计算机可读介质240存储包括文档获取器2411、文档分类器2412、文档映射器2413、文档提取器2414和结果查看器2415的处理器可执行指令241。
文档获取器2411可以被配置为使得处理器通过使用数据分析器和机器学习模块访问文档、识别文档的层级结构并且将文档分成主要章节来将文档分摊至主要章节,其中数据分析器和机器学习模块可以是预定的并且可以被保存在数据库中。
文档分类器2412可以被配置为使得处理器通过使用具有机器学习模块的多级的分类来将文档的主要章节分类,并且将该主要章节映射到多级之一中的关键元素。
文档映射器2413可以被配置为使得处理器搜索被映射到一个关键元素的一个主要章节,并且从该一个主要章节标识子章节以基于机器学习模块完成最大置信得分,其中最大置信得分可以指示子章节可以与关键元素相关联,并且子章节可以进一步包含包括根据机器学习模块形成关键元素的条款类型的子粒度级信息片。
文档提取器2414可以被配置为使得处理器通过使用数据分析器提供的序列建模器如条件随机字段和语言学特性从标识的子章节提取包括子粒度条款类型的粒度级信息片,通过使用根据层级结构提取的信息生成文档的层级语义图,并且将提取的信息和层级语义图关联存储在数据库中。
结果查看器2415可以被配置为使得处理器在用户接口中呈现文档的关键元素的下拉选择,并且响应于选择关键元素之一,显示与选定关键元素相关联的提取的信息。
数据分析器2002和机器学习模块2004可以经由网络接口2001与处理流水线2004连接。
数据分析器2002可以通过使用注释语料库创建并且可以包括处理器可执行指令2005,其可以使得处理器:识别包括提取的信息的平均长度的数字特性,并且识别提取的信息的语言学特性,其中语言学特性可以包括谓语、结构、邻近字符、以及引导表达信息中的正则表达式的数据类型。另外,数据分析器2002可以标识并训练序列建模器(如条件随机字段),其可以被用于信息提取。
机器学习模块2004可以被创建并且可以包括处理器可执行指令2006,其可以使得处理器:根据文档的层级结构从由主题专家输入的注释语料库提取多级中的特征,应用选定的统计方法用于选择所提取特征的子集,其中选定的统计方法可以从若干统计方法中选择以便完成分类精确度,以及根据选定的特征从若干选项选择分类器,其中选定的特征可以在将从注释语料库提取的特征分类的多级中的一级中。并且,针对选定分类器的若干选项可以包括以下各项中的至少一项:支持向量机、随机森林和多项式朴素贝叶斯。
处理流水线200的非瞬态计算机可读介质240可以包括模型重新生成器2416的指令241,其可以使得处理器根据针对所生成的层级语义图和所提取的信息的反馈重新生成待存储在数据库中的机器学习模块和数据分析器,其中反馈可以通过用户接口从主题专家接收。
图3图示了用于创建文档与提取信息的层级语义图的系统的一个实施例300。如图3所示,文档308可以被处理以形成文档与提取信息301的语义图。在图3中,文档308可以通过使用处理流水线303、数据分析器302和机器学习模块(ML模块)305进行处理。处理流水线303可以包括文档结构提取和处理3034、文档选择的粗粒度分类2022、优化针对相关粒度信息3032的标识的置信得分的滑动窗口算法和语言学规则、基于谓语的逻辑、序列模型3031。处理流水线303可以由数据分析器302和ML模块305馈送。数据分析器302和ML模块305两者可以通过使用可以存储在数据库306中的注释语料库3021生成。注释语料库3021可以由主题专家(SME)307直接创建或者可以由SME 307通过利用可以从文档和提取的信息301的语义图生成的反馈和新的示例3071来创建。ML模块305可以基于VSM n元和TF-IDF计算3052、使用统计方法的特征选择3053、统计相关和一致信息组标识3054和最佳分类器选择和优化参数调谐3055由特征提取步骤生成。针对各上下文的经训练的机器学习模型3051可以在其被生成之后被存储。
用于实现图3中所示系统的示例可以是计算机实现的系统,其可以包括:处理器和存储有处理器可执行指令的非瞬态计算机可读介质。处理器可执行指令可以被配置为使得处理器:通过使用数据分析器和机器学习模块访问文档、识别文档的层级结构以及将文档分成主要章节来利用处理器将文档分摊至主要章节,其中数据分析器和机器学习模块可以是预定的并且可以被保存在数据库中。
处理器可执行指令可以进一步被配置为使得处理器:通过使用具有机器学习模块的多级的分类来将文档的主要章节分类,并且将该主要章节映射到多级之一中的关键元素,搜索被映射到一个关键元素的一个主要章节,并且从该一个主要章节中标识子章节以基于机器学习模块完成最大置信得分,其中最大置信得分可以指示子章节与关键元素相关联,并且子章节可以进一步包含包括根据机器学习模块形成关键元素的条款类型的子粒度级信息片。
处理器可执行指令可以被配置为使得处理器:通过使用数据分析器提供的序列建模器如条件随机字段和语言学特性从标识的子章节提取包括子粒度条款类型的粒度级信息片,通过使用根据层级结构提取的信息生成文档的层级语义图,并且将提取的信息和层级语义图关联存储在存储器存储设备中的数据库中,以及在用户显示器设备中的用户接口中呈现文档的关键元素的下拉选择,并且响应于关键元素之一的选择,显示与选定关键元素相关联的提取的信息。
计算机实现的系统的处理器可执行指令可以被配置为使得处理器通过使用注释语料库来创建数据分析器,其中处理器可执行指令可以被配置为使得处理器:识别包括提取的信息的平均长度的数字特性;并且识别提取的信息的语言学特性,其中语言学特性可以包括谓语、结构、邻近字符、以及引导表达信息中的正则表达式的数据类型。处理器可执行指令可以进一步被配置为标识并训练序列建模器(如条件随机字段),其可以被用于信息提取。
计算机实现的系统的处理器可执行指令可以被配置为使得处理器创建机器学习模块,其中处理器可执行指令可以被配置为使得处理器:根据文档的层级结构从可以由主题专家输入的注释语料库提取多级中的特征,应用选定的统计方法用于选择所提取特征的子集,其中包括卡方的选定的统计方法可以从若干统计方法中选择以便完成分类精确度,以及根据选定的特征从若干选项选择分类器,其中选定的特征可以在可以将从注释语料库提取的特征分类的多级中的一级中,并且针对选定分类器的若干选项可以包括支持向量机、随机森林和多项式朴素贝叶斯。
计算机实现的系统的处理器可执行指令可以被配置为使得处理器根据针对所生成的层级语义图和所提取的信息的反馈重新生成待存储在数据库中的机器学习模块和数据分析器,其中反馈可以通过用户接口从主题专家接收。
针对不同客户端源文档的更高级字段(机会)的提取,具有不同内核和参数的支持向量机(SVM)可以示出最大训练精确度。在最高级,训练采样可以在大小方面相对较大并且针对文本分类任务SVM机器可能执行最佳。然而,当训练采样的大小变化时,其他方法可以示出更好的结果。可以理解,针对各种机会(具有不同文本大小)其他模型(如随机森林和多项朴素贝叶斯)可以胜过SVM。如此,平台可以支持可以允许数据选择模型的通用处理范式。
最佳选择的模型(连同其相关特征)可以不仅给予高训练准确度,还可以给予良好的泛化结果。测试文档上的精度和查全率可以说明这一点。例如,虽然精度可能良好,但是某些规则可能没有给予良好的查全率。为了改进最终抽象阶段的查全率,更多上下文提取规则和基于其他序列学习的方法也可以被制定。
图4图示了用于创建文档与提取信息的层级语义图的系统架构。如图4所示,SME401可以通过注释用户接口(UI)402提供注释。该注释可以被保存到数据库403.机器学习模块可以生成并训练模型404,并且生成并训练的模型还可以被存储在数据库(未示出)中。用户可以经由抽象用户接口(UI)405访问信息抽象系统。待处理并抽象的文档406可以通过抽象UI 405加载。抽象UI可以触发处理流水线407用于文档的自动化信息抽象处理。
图5示出了针对关键元素的相关租赁章节的示例500。如图5所示,租赁抽象器或查看器可能需要标识针对特定关键元素的租赁文档501的相关章节。图5中所示突出显示章节可以用于房东的维护502。突出显示章节可以从OCR处理中生成,并且可能包括某些打字错误。所公开的系统可以处理具有各种质量的文档,包括有图5中所示打字错误的文档。
图6示出了针对关键元素的条款类型的相关租赁语句的示例600。如图6所示,租赁抽象器或查看器可能需要针对特定关键元素的特定条款标识租赁文档601的相关语句。如图6中所示标识的条款可以是针对关键元素滞纳金的利息的条款602。
图7示出了将条款组成一个或多个预定义的集合的示例700。有时,租赁文档的章节可以包括多个条款。例如,租赁的保证金章节可以包括针对包括利息和不包括利息两者的条款。如图7所示,保证金章节701提供用于包括利息(当保证金被退还给租户时)以及不包括利息(当房东将保证金用于房东的赔偿金时)的条款。
图8图示了标识针对停车位的租赁语句的示例800。有时,租赁的语句可以针对关键元素。如图8所示,语句801指定关键元素停车位,其阐述了租户应当位于一百五十(150)停车位802。
图9示出了选择用于自动化信息抽象处理的客户端的示例900。不同组织可以具有不同的文档结构。信息抽象处理可能需要待开发处理的客户端。如图9所示,客户端可以被选择用于注释901和提取902。新的客户端可以被添加903并且现有客户端可以被删除904。图9还示出了用户可以选择用于查看客户端的按钮905。
图10示出了显示针对客户端文档的关键元素和条款类型的注释的示例1000。在客户端被选择之后,针对关键元素和条款类型的组合的注释1001可以被添加。注释可以由SME添加,并且可以包括针对特定关键元素和条款类型组合的租赁的示例抽象。注释可以是根据从文档选择的文本由针对关键元素和条款类型组合的SME创建并添加的注解或提取文本。如图10所示,客户端CIM被选择。针对关键元素保险1002和条款类型商业普通责任1003的组合,五十二(52)个注释由SME创建并录入。图10还示出了具有三十九(39)个关键元素1004和两百六十一(261)个条款1005的客户端CIM。
图11示出了针对上传文档的选定文本的注释的示例1100。如图11所示,针对佣金的上传文档1101的章节被标识,并且针对佣金的文档的突出显示文本1104被选择并且放入用户接口的文本选择章节,并且针对选定文本1102的提取文本1103的注释“无佣金”被创建并添加。
图12示出了将注释与关键元素和条款类型相关联的示例1200。如图12所示,关键元素租赁佣金1201与条款类型佣金1202的组合与提取文本“无佣金”1203相关联。
图13示出了从选定文档中提取选定关键元素的示例1300。在SME创建针对文档的注释之后,模型可以通过使用数据分析器和机器学习模块来创建。模型可以被训练。随后,经训练的模型可以用于文档的自动化信息抽象处理。有时,模型中标识的关键元素列表可以在用户接口中显示供用户进行选择,并且文档可以被上传并提取。处理的文档可以在用户接口中显示。如图13所示,针对客户端CIM的关键元素列表1301可以在用户接口中显示,并且针对关键元素的下拉选择1302被提供给用户以从包括滞纳金、延期和转让的列表中选择关键元素。文档可以被选择1305和上传1303。根据从文档的关键元素列表的下拉选择中选择的一个或多个关键元素,文档可以被提取并处理。经处理的文档可以按照用户在用户接口中的选择通过使用用户接口进行查看1304。
图14图示了可以用于自动化信息抽象处理的计算机系统的示例。参考图11,示出了可以用于图1至图3中的方法、处理流水线和系统或者被配置成执行本文中在本公开中所讨论的方法的任何其他系统所说明的部件中的一个或多个部件的计算机系统的说明性实施例,其用1400表示。虽然图14中将计算机系统1400图示为包括图示的所有部件,然而计算系统包括比图14中图示的更少或更多的部件也在本发明的范围内。
计算机系统1400可以包括指令集1424,指令集1424可以被执行以使得计算机系统1400执行本文中所公开的方法、处理或基于计算机的功能中的任何一个或多个。例如,如本文中所描述的自动化信息抽象处理可以是包括指令集1424的程序,指令集1424被控制器1402执行以执行本文中所描述的方法、处理或基于计算机的功能中的任何一个或多个。这样的程序可以整体存储、或者以任何部分组合的形式存储在图14中图示的示例性存储器部件(诸如主存储器1404、静态存储器1406或盘驱动1416)中的一个或多个部件上。
如所描述的,计算机系统1400可以是移动设备。计算机系统1400也可以使用网络1418连接到其他计算机系统或外围设备。在连网部署中,计算机系统1400可以在服务器的能力范围内操作或者作为服务器-客户端用户网络环境中的客户端用户计算机或者作为点到点(或分布式)网络环境中的对等计算机系统。除了其中实现计算机系统1400的实施例,计算机系统1400还可以实现为或者合并到各种设备中,诸如个人计算机(“PC”)、平板PC、机顶盒(“STB”)、个人数字助理(“PDA”)、移动设备(诸如智能电话或平板)、掌上电脑、膝上型电脑、台式电脑、网络路由器、交换机或桥接器、或者能够执行规定要由该机器来进行的动作的指令集(顺序的等)的任何其他机器。在特定实施例中,计算机系统1400可以使用提供语音、视频或数据通信的电子设备来实现。另外,虽然图示单个计算机系统1400,然而应当理解术语“系统”包括单独或者联合执行用以执行一个或多个计算机功能的指令集或多个指令集的系统或子系统的任意组合。
如图14中所图示的,计算机系统1400可以包括控制器,诸如中央处理单元(“CPU”)、图形处理单元(“GPU”)或者这二者。另外,计算机系统1400可以包括主存储器1404,并且另外地可以包括静态存储器1406。在其中计算机系统1400中包括多于一个存储器部件的情况下,存储器部件可以经由总线1408彼此通信。如所示,计算机系统1400还可以包括显示单元1410,诸如液晶显示器(“LCD”)、有机发光二极管(“OLED”)、平板显示器、固态显示器、或者阴极射线管(“CRT”)。另外,计算机系统1400可以包括一个或多个输入设备1412,诸如键盘、按钮、滚轮、用于图像捕获和/或视觉命令识别的数字相机、触摸屏、触摸板或音频输入设备(例如麦克风)。计算机系统1400还可以包括信号输出部件(诸如触觉反馈部件1414)以及信号生成设备1418(可以包括扬声器或远程控件)。
虽然没有具体说明,然而计算机系统1400可以另外包括用于识别计算机系统1400的位置的GPS(全球定位系统)部件。
另外,计算机系统1400可以包括定向单元1428,定向单元1428包括一个或多个陀螺仪和加速度计的任意组合。
计算机系统1400还可以包括用以使得计算机系统1400能够经由无线或有线通信信道与其他设备通信的网络接口设备1420。网络接口设备1420可以是用于经由Wi-Fi连接、蓝牙连接、近频通信连接、电信连接、因特网连接、有线以太网连接等与另一计算机系统通信的接口。计算机系统1400还可以可选地包括用于接受计算机可读介质1422的盘驱动单元1416。计算机可读介质1422可以包括控制器1402可执行的指令集,和/或计算机可读介质1422可以由计算机系统1400用作附加存储器存储装置。
在特定实施例中,如图14中所描绘的,盘驱动单元1416可以包括一个或多个指令集1424(诸如软件)可以嵌入在其中的计算机可读介质1422。另外,指令1424可以实施本文中所描述的方法、过程或逻辑中的一个或多个。在特定实施例中,指令1424在由计算机系统1400执行期间可以完全或者至少部分驻留在主存储器1404、静态存储器1406和/或控制器1402内。主存储器1404和控制器1402还可以包括计算机可读介质。
在替选实施例中,可以构造专用硬件实施方式(包括专用集成电路、可编程逻辑阵列和其他硬件设备)以实现本文中所描述的方法中的一个或多个。可以包括各种实施例的装置和系统的应用可以广泛地包括各种电子和计算机系统。本文中所描述的一个或多个实施例可以使用具有相关控制和数据信号(其可以在模块之间以及通过模块被通信)的一个或多个特定的互连硬件模块或设备来实现功能,或者被实现为专用集成电路的部分。相应地,本计算机系统1400可以包括软件、固件和硬件实施方式。术语“模块”或“单元”可以包括存储由处理器执行的代码的存储器(共享存储器、专用存储器或者存储器组)。
根据本公开的各种实施例,本文中所描述的方法可以用计算机系统可执行的软件程序来实现。另外,在示例性非限制实施例中,实施方式可以包括分布式处理、部件/对象分布式处理以及并行处理。替选地,可以构造虚拟计算机系统处理以实现如本文中所描述的方法或功能中的一个或多个。
本公开预期包括指令1424或者响应于传播的信号接收和执行指令1424的计算机可读介质1422;使得连接到网络1418的设备可以通过网络1418通信语音、视频或数据。另外,指令1424可以经由网络接口设备1420在网络1418上传输或接收。
虽然计算机可读介质1424被示出为单个介质,然而术语“计算机可读介质”包括单个介质或者多个介质,诸如集中式或分布式数据库和/或存储一个或多个指令集的相关联的缓存和服务器。术语“计算机可读介质”还应当包括能够存储、编码或执行用于由处理器来执行或者使得计算机系统执行本文中所公开的方法或操作中的一个或多个的指令集的任何有形介质。
在特定非限制性示例性实施例中,计算机可读介质1422可以包括固态存储器,诸如存储卡或容置一个或多个非易失性只读存储器(诸如闪存存储器)的其他封装件。另外,计算机可读介质1422可以是随机存取存储器或其他易失性可重写存储器。另外,计算机可读介质1422可以包括磁光介质或光学介质,诸如磁盘或磁带或者用以捕获通过传输介质通信的信息的任何其他存储设备。可以认为到电子邮件或者其他自包含信息档案或档案集的数字文件附接是等同于有形存储介质的分发介质。相应地,认为本公开包括计算机可读介质1422或分发介质以及数据或指令可以存储在其中的其他等同和后继介质中的任何一个或多个。计算机可读介质可以是瞬态的或者非瞬态的。
虽然本说明书描述可以在特定实施例中参考通常由具有文档的自动化信息抽象处理的需求的组织使用的特定标准和协议实现的部件和功能,然而本发明不限于这样的标准和协议。例如,用于因特网和其他分组交换网络传输(例如TCP/IP、UDP/IP、HTML、HTTP)的标准表示现有技术的示例。这样的标准被具有基本上相同功能的更快或更高效的等同标准周期性地取代。相应地,认为具有与本文中所公开的相同或相似功能的取代标准和协议是其等同标准和协议。
应当理解,以上提供的所有示例仅是本公开的优选示例中的一些。对于本领域技术人员,本公开意图覆盖被包括在本公开的原理的范围内的各种修改和等同布置。

Claims (15)

1.一种用于创建文档与提取的信息的层级语义图的计算机实现的系统,包括:处理器和存储有处理器可执行指令的非瞬态计算机可读介质,所述处理器可执行指令被配置为使得所述处理器:
通过访问所述文档并且识别所述文档的层级结构来利用所述处理器将所述文档分摊至主要章节,所述层级结构包括多级;
根据所述层级结构将所述文档划分成所述主要章节;
访问机器学习模型,所述机器学习模型包括多个被配置为对所述文档的各部分进行分类的分类器,所述多个分类器中的每一个用于所述层级结构的所述多级的相应级;
通过使用包括在所述多个分类器中的第一分类器来利用所述处理器将所述文档的每个所述主要章节分类,并且将所述主要章节映射到关键元素;
利用所述处理器搜索被映射到一个关键元素的一个主要章节,并且在所述一个主要章节内标识子章节,所述子章节包含粒度级信息片,所述粒度级信息片包括子粒度条款类型;
根据所述一个主要章节的特征从所述多个分类器中选择第二分类器,其中所述特征通过所述第二分类器实现最大置信得分,其中所述最大置信得分指示所述子章节与所述关键元素中的至少一个相关联;
使用为所述一个主要章节选择的所述第二分类器来利用所述处理器将每个所述粒度级信息片分类,并且将每个所述子章节映射到所述关键元素的至少一个;
通过使用由数据分析器提供的序列建模器和语言学特性来从所标识的子章节提取与所述子粒度条款类型相对应的粒度级信息片,所述数据分析器被配置为识别所述提取的信息的语言学特性,其中所述语言学特性包括谓语、结构、邻近字符、以及引导所述提取的信息的正则表达式的数据类型,其中所述序列建模器被基于注释语料库预先训练;
根据所述层级结构,通过使用所述提取的信息生成所述文档的所述层级语义图,并且将所述提取的信息和所述层级语义图存储在数据库中;以及
在用户显示器设备中的用户接口中呈现所述文档的所述关键元素的下拉选择,并且响应于对所述关键元素中的一个关键元素的选择,显示与选定的关键元素相关联的所述提取的信息。
2.根据权利要求1所述的计算机实现的系统,其中所述处理器可执行指令进一步使得所述处理器通过使用所述注释语料库来创建所述数据分析器,其中所述处理器可执行指令进一步使得所述处理器:
识别包括所述提取的信息的平均长度的数字特性。
3.根据权利要求1所述的计算机实现的系统,其中所述文档包括根据所述层级结构的多级,所述多级包括第一级、从属于包括所述关键元素的所述第一级的第二级、以及从属于包括所述条款类型的所述第二级的第三级,其中所述第一分类器被选择用于所述第一级,所述第二分类器被选择用于所述第二级,其中所述第一分类器不同于所述第二分类器。
4.根据权利要求1所述的计算机实现的系统,其中被配置为引起所述处理器选择所述第二分类器的指令进一步包括:
基于所述最大置信得分从包括支持向量机、随机森林和多项式朴素贝叶斯的组中选择分类模型。
5.根据权利要求1所述的计算机实现的系统,其中所述处理器可执行指令进一步使得所述处理器:
根据针对所生成的层级语义图和所述提取的信息的反馈来重新生成待被存储在所述数据库中的所述机器学习模型和所述数据分析器,其中所述反馈通过用户接口从主题专家接收。
6.一种用于创建文档与提取的信息的层级语义图的计算机实现的方法,包括:
通过访问所述文档并且识别所述文档的层级结构来利用数据处理器将所述文档分摊至主要章节;
根据所述层级结构将所述文档划分成主要章节;
访问机器学习模型,所述机器学习模型包括多个被配置为对所述文档的各部分进行分类的分类器,所述多个分类器中的每一个用于所述层级结构的相应级;
通过使用包括在所述多个分类器中的第一分类器来利用所述数据处理器将所述文档的每个所述主要章节分类,并且将所述主要章节映射到关键元素;
利用所述数据处理器搜索被映射到一个关键元素的一个主要章节,并且在所述一个主要章节内标识子章节,所述子章节包含粒度级信息片,所述粒度级信息片包括根据所述机器学习模型形成所述一个关键元素的子粒度条款类型;
根据所述一个主要章节的特征从过多个分类器中选择第二分类器,其中所述特征通过所述第二分类器实现最大置信得分,其中所述最大置信得分指示所述子章节与所述关键元素的至少一个相关联;
使用为所述一个主要章节选择的所述第二分类器来利用所述处理器将每个所述粒度级信息片分类,并且将每个所述子章节映射到所述关键元素的至少一个;
通过使用由数据分析器提供的序列建模器和语言学特性从所标识的子章节提取与所述子粒度条款类型相对应的所述粒度级信息片,所述数据分析器被配置为识别所提取信息的语言学特性,其中所述语言学特性包括谓词、结构、邻近字符、以及引导所述提取的信息的正则表达式的数据类型,其中所述序列建模器被基于注释语料库预先训练;
根据所述层级结构,通过使用所述提取的信息生成所述文档的所述层级语义图,并且将所述提取的信息和所述层级语义图存储在存储器存储设备数据库中;以及
在用户显示器设备上的用户接口中呈现所述文档的所述关键元素的下拉选择,并且响应于对所述关键元素中的一个关键元素的选择,显示与所选定的关键元素相关联的所述提取的信息。
7.根据权利要求6所述的计算机实现的方法,其中进一步包括通过使用所述注释语料库来创建所述数据分析器,包括:
识别包括所述提取的信息的平均长度的数字特性。
8.根据权利要求6所述的计算机实现的方法,其中根据所述层级结构将所述文档划分成主要章节进一步包括:
在所述文档中根据所述层级结构的多级识别第一级、从属于包括所述关键元素的所述第一级的第二级、以及从属于包括所述条款类型的所述第二级的第三级。
9.根据权利要求6所述的计算机实现的方法,其中选择第二分类器进一步包括:
基于所述最大置信得分从包括支持向量机、随机森林和多项式朴素贝叶斯的一组分类模型中选择用于所述第二分类器的分类模型。
10.根据权利要求6所述的计算机实现的方法,进一步包括:
根据针对所生成的层级语义图和所述提取的信息的反馈来重新生成待被存储在所述数据库中的所述机器学习模型和所述数据分析器,其中所述反馈通过用户接口从主题专家接收。
11.一种非暂时性计算机可读存储介质,包括可由处理器执行的多个指令,所述指令包括:
由所述处理器可执行的指令,用于通过访问文档并且识别所述文档的层级结构,将所述文档分摊至主要章节;
由所述处理器可执行的指令,用于根据所述层级结构将所述文档划分成所述主要章节;
由所述处理器可执行的指令,用于访问机器学习模型,所述机器学习模型包括多个被配置为对所述文档的各部分进行分类的分类器,所述多个分类器中的每一个用于所述层级结构的相应级;
由所述处理器可执行的指令,用于通过使用包括在所述多个分类器中的第一分类器将所述文档的每个所述主要章节分类,并且将所述主要章节映射到关键元素;
由所述处理器可执行的指令,用于利用所述处理器搜索被映射到一个关键元素的一个主要章节,并且在所述一个主要章节内标识子章节,所述子章节包含粒度级信息片,所述粒度级信息片包括子粒度条款类型;
由所述处理器可执行的指令,用于根据所述一个主要章节的特征从所述多个分类器中选择第二分类器,其中所述特征通过所述第二分类器实现最大置信得分,其中所述最大置信得分指示所述子章节与所述关键元素中的至少一个相关联;
由所述处理器可执行的指令,用于使用为所述一个主要章节选择的所述第二分类器来利用所述处理器将每个所述粒度级信息片分类,并且将每个所述子章节映射到所述关键元素的至少一个;
由所述处理器可执行的指令,用于通过使用由数据分析器提供的序列建模器和语言学特性来从所标识的子章节提取与所述子粒度条款类型相对应的粒度级信息片,所述数据分析器被配置为识别所述提取的信息的语言学特性,其中所述语言学特性包括谓语、结构、邻近字符、以及引导所述提取的信息的正则表达式的数据类型,其中所述序列建模器被基于注释语料库预先训练;
由所述处理器可执行的指令,用于根据所述层级结构,通过使用所述提取的信息生成所述文档的层级语义图,并且将所述提取的信息和所述层级语义图存储在数据库中;以及
由所述处理器可执行的指令,用于在用户显示器设备中的用户接口中呈现所述文档的所述关键元素的下拉选择,并且响应于对所述关键元素中的一个关键元素的选择,显示与选定的关键元素相关联的所述提取的信息。
12.根据权利要求11所述的非暂时性计算机可读存储介质,进一步包括:
由所述处理器可执行的指令,用于通过使用所述注释语料库来创建所述数据分析器;并且
由所述处理器可执行的指令,用于识别包括所述提取的信息的平均长度的数字特性。
13.根据权利要求11所述的非暂时性计算机可读存储介质,其中所述文档包括根据所述层级结构的多级,所述多级包括第一级、从属于包括所述关键元素的所述第一级的第二级、以及从属于包括所述条款类型的所述第二级的第三级,其中所述第一分类器被选择用于所述第一级,所述第二分类器被选择用于所述第二级,其中所述第一分类器不同于所述第二分类器。
14.根据权利要求11所述的非暂时性计算机可读存储介质,其中由所述处理器可执行的指令,用于选择所述第二分类器进一步包括:
由所述处理器可执行的指令,用于基于所述最大置信得分从包括支持向量机、随机森林和多项式朴素贝叶斯的组中选择分类模型。
15.根据权利要求11所述的非暂时性计算机可读存储介质,进一步包括
由所述处理器可执行的指令,用于根据针对所述生成的层级语义图和所述提取的信息的反馈来重新生成待被存储在所述数据库中的所述机器学习模块模型和所述数据分析器,其中所述反馈通过用户接口从主题专家接收。
CN201610417557.4A 2015-06-10 2016-06-12 用于文档的自动化信息抽象处理的系统和方法 Active CN106250385B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
IN2902CH2015 2015-06-10
IN2902/CHE/2015 2015-06-10
US14/836,659 2015-08-26
US14/836,659 US9946924B2 (en) 2015-06-10 2015-08-26 System and method for automating information abstraction process for documents

Publications (2)

Publication Number Publication Date
CN106250385A CN106250385A (zh) 2016-12-21
CN106250385B true CN106250385B (zh) 2021-12-31

Family

ID=57515927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610417557.4A Active CN106250385B (zh) 2015-06-10 2016-06-12 用于文档的自动化信息抽象处理的系统和方法

Country Status (3)

Country Link
US (1) US9946924B2 (zh)
CN (1) CN106250385B (zh)
AU (1) AU2016203856B2 (zh)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2635259C1 (ru) * 2016-06-22 2017-11-09 Общество с ограниченной ответственностью "Аби Девелопмент" Способ и устройство для определения типа цифрового документа
US20170213130A1 (en) * 2016-01-21 2017-07-27 Ebay Inc. Snippet extractor: recurrent neural networks for text summarization at industry scale
US10606952B2 (en) 2016-06-24 2020-03-31 Elemental Cognition Llc Architecture and processes for computer learning and understanding
US10789302B2 (en) * 2017-01-14 2020-09-29 Innoplexus Ag Method and system for extracting user-specific content
CN108334800B (zh) * 2017-01-20 2021-09-24 富士通株式会社 印章图像的处理装置、方法以及电子设备
US11449787B2 (en) 2017-04-25 2022-09-20 Xaxis, Inc. Double blind machine learning insight interface apparatuses, methods and systems
US10997507B2 (en) * 2017-06-01 2021-05-04 Accenture Global Solutions Limited Data reconciliation
CA3067326A1 (en) * 2017-06-19 2018-12-27 Equifax Inc. Machine-learning system for servicing queries for digital content
US10489502B2 (en) * 2017-06-30 2019-11-26 Accenture Global Solutions Limited Document processing
CN107391650B (zh) * 2017-07-14 2018-09-07 北京神州泰岳软件股份有限公司 一种文档的结构化拆分方法,装置及系统
US11748653B2 (en) * 2017-10-05 2023-09-05 DataRobot, Inc. Machine learning abstraction
WO2019077405A1 (en) 2017-10-17 2019-04-25 Handycontract, LLC METHOD, DEVICE AND SYSTEM FOR IDENTIFYING DATA ELEMENTS IN DATA STRUCTURES
US11475209B2 (en) 2017-10-17 2022-10-18 Handycontract Llc Device, system, and method for extracting named entities from sectioned documents
US10083231B1 (en) * 2017-11-30 2018-09-25 International Business Machines Corporation Fuzzy term partition identification
US10977429B2 (en) * 2018-02-27 2021-04-13 Sap Se Machine learning based document editing engine
CN110321535B (zh) * 2018-03-30 2023-08-18 富士胶片实业发展(上海)有限公司 儿童读物处理方法及装置
US11373101B2 (en) * 2018-04-06 2022-06-28 Accenture Global Solutions Limited Document analyzer
US10628632B2 (en) * 2018-04-11 2020-04-21 Accenture Global Solutions Limited Generating a structured document based on a machine readable document and artificial intelligence-generated annotations
JP7095377B2 (ja) * 2018-04-17 2022-07-05 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
CN108763952B (zh) * 2018-05-03 2022-04-05 创新先进技术有限公司 一种数据分类方法、装置及电子设备
CN108614898B (zh) * 2018-05-10 2021-06-25 爱因互动科技发展(北京)有限公司 文档解析方法与装置
US11010832B2 (en) 2018-05-11 2021-05-18 Kpmg Llp Loan audit system and method with chained confidence scoring
US11468237B2 (en) 2018-05-11 2022-10-11 Kpmg Llp Audit investigation tool
US11074354B2 (en) * 2018-09-19 2021-07-27 International Business Machines Corporation Segmenting, redacting, and transporting secure documents in a mixed security environment
US10872236B1 (en) 2018-09-28 2020-12-22 Amazon Technologies, Inc. Layout-agnostic clustering-based classification of document keys and values
US11049042B2 (en) 2018-11-05 2021-06-29 Convr Inc. Systems and methods for extracting specific data from documents using machine learning
US11270213B2 (en) * 2018-11-05 2022-03-08 Convr Inc. Systems and methods for extracting specific data from documents using machine learning
US10755039B2 (en) 2018-11-15 2020-08-25 International Business Machines Corporation Extracting structured information from a document containing filled form images
US11257006B1 (en) * 2018-11-20 2022-02-22 Amazon Technologies, Inc. Auto-annotation techniques for text localization
US10949661B2 (en) * 2018-11-21 2021-03-16 Amazon Technologies, Inc. Layout-agnostic complex document processing system
EP3660743B1 (en) * 2018-11-30 2024-03-20 Tata Consultancy Services Limited Systems and methods for automating information extraction from piping and instrumentation diagrams
EP3680842A1 (en) * 2019-01-11 2020-07-15 Sirionlabs Automated extraction of performance segments and metadata values associated with the performance segments from contract documents
US11048880B2 (en) * 2019-01-21 2021-06-29 Microsoft Technology Licensing, Llc Automatic summarization of content in electronic messages
US10402641B1 (en) 2019-03-19 2019-09-03 Capital One Services, Llc Platform for document classification
US11468346B2 (en) * 2019-03-29 2022-10-11 Konica Minolta Business Solutions U.S.A., Inc. Identifying sequence headings in a document
US11222174B2 (en) * 2019-04-03 2022-01-11 RELX Inc. Systems and methods for generating logical documents for a document evaluation system
US10614345B1 (en) * 2019-04-12 2020-04-07 Ernst & Young U.S. Llp Machine learning based extraction of partition objects from electronic documents
WO2020225923A1 (ja) * 2019-05-09 2020-11-12 日本電信電話株式会社 分析装置、分析方法及び分析プログラム
US11862305B1 (en) 2019-06-05 2024-01-02 Ciitizen, Llc Systems and methods for analyzing patient health records
US11424012B1 (en) 2019-06-05 2022-08-23 Ciitizen, Llc Sectionalizing clinical documents
US11120899B1 (en) * 2019-06-05 2021-09-14 Ciitizen Corporation Extracting clinical entities from clinical documents
US11113518B2 (en) 2019-06-28 2021-09-07 Eygs Llp Apparatus and methods for extracting data from lineless tables using Delaunay triangulation and excess edge removal
US11915465B2 (en) 2019-08-21 2024-02-27 Eygs Llp Apparatus and methods for converting lineless tables into lined tables using generative adversarial networks
US10956731B1 (en) * 2019-10-09 2021-03-23 Adobe Inc. Heading identification and classification for a digital document
US10949604B1 (en) 2019-10-25 2021-03-16 Adobe Inc. Identifying artifacts in digital documents
KR20210053020A (ko) * 2019-11-01 2021-05-11 삼성전자주식회사 전자 장치 및 그 동작 방법
CN111104989A (zh) * 2019-12-31 2020-05-05 北京讯腾智慧科技股份有限公司 燃气管道腐蚀预测方法和装置
CN111259830A (zh) * 2020-01-19 2020-06-09 中国农业科学院农业信息研究所 一种海外农业pdf文档内容碎片化方法及系统
US11625934B2 (en) 2020-02-04 2023-04-11 Eygs Llp Machine learning based end-to-end extraction of tables from electronic documents
CN111611211A (zh) * 2020-04-27 2020-09-01 深圳壹账通智能科技有限公司 文件导入归档方法、电子设备及存储介质
CN113657605B (zh) * 2020-05-12 2023-10-03 埃森哲环球解决方案有限公司 基于人工智能ai的文档处理器
US11562593B2 (en) * 2020-05-29 2023-01-24 Microsoft Technology Licensing, Llc Constructing a computer-implemented semantic document
EP3961425A1 (en) * 2020-08-28 2022-03-02 Siemens Aktiengesellschaft System and method for providing access to multimodal content in a technical document
US20230056987A1 (en) * 2021-08-19 2023-02-23 Digital Asset Capital, Inc. Semantic map generation using hierarchical clause structure
CN113852605B (zh) * 2021-08-29 2023-09-22 北京工业大学 一种基于关系推理的协议格式自动化推断方法及系统
CN115168345B (zh) * 2022-06-27 2023-04-18 天翼爱音乐文化科技有限公司 数据库分级分类方法、系统、装置及存储介质
CN115543437B (zh) * 2022-10-14 2023-08-15 广东工业大学 一种代码注释生成方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003017130A1 (en) * 2001-08-14 2003-02-27 Nathan Joel Mcdonald Document analysis system and method
CN1823334A (zh) * 2003-05-14 2006-08-23 塞利布罗斯有限公司 搜索引擎方法及装置
CN102160079A (zh) * 2008-09-19 2011-08-17 摩托罗拉移动公司 用于内容项目的关联内容的选择
CN102439594A (zh) * 2009-03-13 2012-05-02 发明机器公司 用于知识搜索的系统和方法
CN103744846A (zh) * 2013-08-13 2014-04-23 北京航空航天大学 一种多维度动态局部知识地图及其构建方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5708825A (en) * 1995-05-26 1998-01-13 Iconovex Corporation Automatic summary page creation and hyperlink generation
JP3791879B2 (ja) * 1999-07-19 2006-06-28 富士通株式会社 文書要約装置およびその方法
US7571177B2 (en) * 2001-02-08 2009-08-04 2028, Inc. Methods and systems for automated semantic knowledge leveraging graph theoretic analysis and the inherent structure of communication
GB2395808A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval
US20050182736A1 (en) * 2004-02-18 2005-08-18 Castellanos Maria G. Method and apparatus for determining contract attributes based on language patterns
US20070061755A1 (en) * 2005-09-09 2007-03-15 Microsoft Corporation Reading mode for electronic documents
AU2012327239B8 (en) * 2011-10-14 2015-10-29 Oath Inc. Method and apparatus for automatically summarizing the contents of electronic documents
WO2013123182A1 (en) * 2012-02-17 2013-08-22 The Trustees Of Columbia University In The City Of New York Computer-implemented systems and methods of performing contract review
US9418145B2 (en) * 2013-02-04 2016-08-16 TextWise Company, LLC Method and system for visualizing documents
US20150081277A1 (en) * 2014-08-28 2015-03-19 Kambiz Behi System and Method for Automatically Classifying Text using Discourse Analysis

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003017130A1 (en) * 2001-08-14 2003-02-27 Nathan Joel Mcdonald Document analysis system and method
CN1823334A (zh) * 2003-05-14 2006-08-23 塞利布罗斯有限公司 搜索引擎方法及装置
CN102160079A (zh) * 2008-09-19 2011-08-17 摩托罗拉移动公司 用于内容项目的关联内容的选择
CN102439594A (zh) * 2009-03-13 2012-05-02 发明机器公司 用于知识搜索的系统和方法
CN103744846A (zh) * 2013-08-13 2014-04-23 北京航空航天大学 一种多维度动态局部知识地图及其构建方法

Also Published As

Publication number Publication date
CN106250385A (zh) 2016-12-21
US9946924B2 (en) 2018-04-17
US20160364608A1 (en) 2016-12-15
AU2016203856A1 (en) 2017-01-05
AU2016203856B2 (en) 2017-02-23

Similar Documents

Publication Publication Date Title
CN106250385B (zh) 用于文档的自动化信息抽象处理的系统和方法
JP2017224184A (ja) 機械学習装置
US10002126B2 (en) Business intelligence data models with concept identification using language-specific clues
US20160085855A1 (en) Perspective data analysis and management
CN112016273A (zh) 文档目录生成方法、装置、电子设备及可读存储介质
CN111279335A (zh) 基于文档结构提取检索多语言文档
KR20190062388A (ko) 전자 기록물 태깅을 위한 시스템 및 방법
US20230206670A1 (en) Semantic representation of text in document
US20220121668A1 (en) Method for recommending document, electronic device and storage medium
CN110737824B (zh) 内容查询方法和装置
CN111143556A (zh) 软件功能点自动计数方法、装置、介质及电子设备
Bhatia et al. Machine Learning with R Cookbook: Analyze data and build predictive models
CA2932310C (en) System and method for automating information abstraction process for documents
CN105164672A (zh) 内容分类
EP3104285A1 (en) System and method for automating information abstraction process for documents
US10042913B2 (en) Perspective data analysis and management
US20210089539A1 (en) Associating user-provided content items to interest nodes
US11120204B2 (en) Comment-based article augmentation
CN115098619A (zh) 资讯去重方法、装置、电子设备及计算机可读取存储介质
AU2019290658B2 (en) Systems and methods for identifying and linking events in structured proceedings
Mengle et al. Mastering machine learning on Aws: advanced machine learning in Python using SageMaker, Apache Spark, and TensorFlow
CN113704599A (zh) 营销转化用户的预测方法、装置及计算机设备
US9471569B1 (en) Integrating information sources to create context-specific documents
US11645550B2 (en) Generation of digital standards using machine-learning model
Wu et al. Automatic semantic knowledge extraction from electronic forms

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant