CN112307741B - 保险行业文档智能化解析方法和装置 - Google Patents

保险行业文档智能化解析方法和装置 Download PDF

Info

Publication number
CN112307741B
CN112307741B CN202011621201.5A CN202011621201A CN112307741B CN 112307741 B CN112307741 B CN 112307741B CN 202011621201 A CN202011621201 A CN 202011621201A CN 112307741 B CN112307741 B CN 112307741B
Authority
CN
China
Prior art keywords
data
text
insurance industry
document
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011621201.5A
Other languages
English (en)
Other versions
CN112307741A (zh
Inventor
岳潭
胡宗海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202011621201.5A priority Critical patent/CN112307741B/zh
Publication of CN112307741A publication Critical patent/CN112307741A/zh
Application granted granted Critical
Publication of CN112307741B publication Critical patent/CN112307741B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种保险行业文档智能化解析方法和装置。该方法包括:将PDF格式的原数据转化为CSV格式的数据,CSV格式的数据包含预定的文档文本识别特征维度;对转化后的CSV格式的数据进行数据清洗处理;基于文本位置对文本特征进行上下文语义信息的捕捉,进行特征维度扩充;对要作为训练样本利用多个类别进行标注获得训练样本集,多个类别包括正文内容和多个不同级别的标题类别;从训练样本集中选取训练集,利用训练集对随机森林算法进行训练,利用训练后的随机森林算法对测试样本进行类别分类,得到测试样本数据特征的类别分类结果;基于类别分类结果对文档内容进行重组,生成结构化文件输出,并对文档中重要的属性进行抽取。

Description

保险行业文档智能化解析方法和装置
技术领域
本发明涉及文档解析技术领域,特别涉及一种保险行业文档智能化解析方法和装置。
背景技术
上个世纪90年代,人工智能技术飞速发展,国外众多情报工作者将机器学习的理念应用到了文本自动分类领域。随着机器学习算法的不断成熟,越来越多的电子文档可以进行智能化解析,分类等。然而,当今社会在文本数据领域,绝大多数的文本以非结构化形式存在。而结构化数据才能更好地进行机器学习的训练及预测。所以,将文本数据结构化解析是当今自然语言处理领域的一大难题。
现有的文档保存形式基本是PDF格式,因此一般需要将文本数据转换成特定格式才能进行后续的结构化及属性抽取工作。目前,OCR是PDF文档中文本提取的重要手段之一,是一种针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。对于OCR系统,如何除错或利用辅助信息提高识别正确率,是最重要的课题。而在实际应用中,由于不同行业的文档具有不同的特征,尤其在保险行业,OCR技术在保险文档的文本识别中无法满足需求。
另外,Quan等人提出了计算机领域论文分类及信息抽取系统,该系统使用朴素贝叶斯算法对大量论文进行自动分类及相关信息的抽取。并且在算法方面,开发了新的权重贝叶斯模型,用来更好地拟合数据模型。该系统虽然对文档进行了一定的处理,但处理的精度较低;且数据集文档大多数是论文摘要,而且原始文档是较为易处理的数据结构,非PDF格式。其对于保存形式基本是PDF格式的文档,无法做到精细的结构化解析。因此,针对保险行业的保存形式为PDF格式的文档,在解析过程中如何提高准确率和效率是亟待解决的技术问题。
发明内容
鉴于现有技术中存在的问题,本发明实施例提供了一种保险行业文档智能化解析方法和装置,以在产品文档的结构化解析过程中,提高准确率及效率。
根据本发明的一个方面,提供了一种保险行业文档智能化解析方法,所述方法包括:
将PDF格式的保险行业文档原数据转化为文本可识别的CSV格式的数据,其中所述CSV格式的数据包含保险行业文档文本识别特征维度,所述保险行业文档文本识别特征维度至少包括保险行业特征维度和文本位置特征维度;
对转化后的CSV格式的数据进行数据预处理,所述预处理包括进行分词处理和数据清洗处理;
对数据清洗后的CSV格式的数据,基于文本位置对文本特征进行上下文语义信息的捕捉,获得所述文本特征的上下文特征,以得到的上下文特征扩充数据清洗后的CSV格式的数据;
对要作为训练样本的CSV格式的数据利用多个类别进行标注获得训练样本集,所述多个类别至少包括正文内容和多个不同级别的标题类别;
从训练样本集中选取预定个数的训练集,利用训练集对随机森林算法进行训练,并利用训练后的随机森林算法对测试样本进行特征重要性评估和按类别分类,得到测试样本数据特征的类别分类结果;
基于类别分类结果对保险行业文档内容进行重组,生成结构化文件输出,并基于保险行业的行业需求确定的重要属性,对所述重要属性进行抽取。
在本发明一实施例中,所述保险行业文档文本识别特征维度还包括以下特征维度中的至少一种:页码、字号大小、文本计数、文本内容和字体;所述文本位置特征维度包括:上或下、左或右、宽度以及高度特征维度;所述多个类别还包括:无用内容类别。
在本发明一实施例中,所述保险行业特征维度包括保险公司识别特征维度。
在本发明一实施例中,将PDF格式的原数据转化为CSV格式的数据包括:利用pdfplumber框架将PDF格式的原数据转化为CSV格式的数据,所述pdfplumber框架基于保险行业的文档内容与语义习惯确定断句规则,并进行断句。
在本发明一实施例中,所述对转化后的CSV格式的数据进行数据清洗处理,包括:对转化后的CSV格式的数据进行以下处理中的至少一种:去除停用词、去除标点、去除水印、去除语气助词。
在本发明一实施例中,所述利用训练集对随机森林算法进行训练,包括:引入包括保险公司类别和保单类别在内的样本重要性特征,在决策树分类时使所述样本重要性特征具有指示重要的权重。
在本发明一实施例中,所述基于类别分类结果对保险行业文档内容进行重组,生成结构化文件输出,并基于保险行业的行业需求确定的重要属性,对所述重要属性进行抽取,包括:将分类得到的不同类别的数据保存为“字典”数据类型,所述字典数据类型中包括“key”与“value”属性;将数据写入json格式的文件中,通过字典数据类型中的“key”与“value”属性对文本中的各级标题与正文内容进行嵌套式保存;对于已经通过字典数据类型保存好的文本内容中对重要属性进行属性抽取。
在本发明一实施例中,对于已经通过字典数据类型保存好的文本内容进行属性抽取,包括:通过正则表达式算法来进行文本内容的匹配和抽取,并将抽取的数据保存为字典数据类型。
本发明的另一方面,还提供一种保险行业文档智能化解析装置,该装置包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。
本发明的另一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前所述方法的步骤。
本发明实施例中的保险行业文档智能化解析方法和装置,在文本转换阶段,通过在CSV格式的数据中设置保险行业特征维度及文本位置特征维度;且基于数据样本中的文本位置对文本特征进行上下文语义信息的捕捉,获得文本特征的上下文内容,从而对CSV格式样本进行了样本数据维度的增广;使得后续的算法可以更好的进行文本特征的识别,分类和抽取;提高了结构化解析的准确率及效率。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。
图1为本发明一实施例的保险行业文档智能化解析方法的流程示意图。
图2为本发明一实施例的保险行业文档智能化解析方法的流程示意图。
图3为PDF格式的保险行业文档示例的截图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
一般文档结构化解析主要分为以下几个方面:1)数据预处理(包括数据转换和数据清洗等),大多数文档以PDF格式存在,需要先将文本内容全部输出,在这一转换工作中会有文本内容识别准确率的损失。2)建立算法模型。3)属性抽取,对文档中重要的属性进行抽取。
针对目前保险行业的海量文档进行结构化解析及属性抽取过程中,存在的文本内容输出无法达到目标准确率的问题,训练和分类算法难以实现准确的数据分类和属性评估,从而无法准确抽取数据的问题,本发明提供了一种保险行业文档智能化解析方法和装置。
图1为本发明一实施例的保险行业文档智能化解析方法流程示意图,如图1所示,该方法包括步骤S10-S60。
步骤S10,将PDF格式的保险行业文档原数据转化为CSV格式的数据,其中CSV格式的数据包含保险行业文档文本识别特征维度,保险行业文档文本识别特征维度至少包括保险行业特征维度和文本位置特征维度。
因为现有的保险行业文档保存形式基本是PDF格式,需要将文本数据转换后才能进行后续的结构化及属性抽取的操作。而为了适应于后续的结构化及属性抽取的操作,需要预先将PDF格式的文档数据转换成文本可识别的特定格式数据。文本可识别特定格式是指在后续的数据处理过程中,文本内容可被识别及应用的数据格式,如CSV格式。
在本发明实施例中,优选地利用pdfplumber框架将PDF格式的原数据转化为CSV格式的数据。进一步地,本发明基于pdfplumber框架,针对保险行业的文档内容与语义习惯,重新人为定义断句规则,将一些识别错误导致的断句进行错误标识,并进一步让算法进行学习和拟合,充分降低了句子错误识别率。更具体地,在pdfplumber算法框架的基础上,对字符级别和单词短语级别的文本抽取模块进行重新编程,基于保险行业的文档内容和语义习惯,重新人为定义断句规则,以为对短语中不正常断句的问题进行重新识别与分断。该断句过程属于对转换格式后的数据的一种数据预处理过程。降低句子错误识别率在后续的算法模型中会提高拟合效果和分类准确率。
在该步骤中,还对所抽取的文本内容所附加的特征值维度进行扩充,使得CSV格式的数据包含保险行业文档文本识别特征维度,保险行业文档文本识别特征维度至少包括保险行业特征维度和文本位置特征维度。保险行业特征维度可以是能够表征行业属性的特征维度,文本位置特征维度用于表示文本在转换后的文档中的坐标位置。具体的,保险行业特征维度可以是保险公司识别特征维度,也即,能够识别出保险公司的特征度,如保险公司名称。保险行业特征维度还可以是表征保险行业的其他特征维度,如保单类型等,本发明并不限于此。
在本发明一实施例中,保险行业文档文本识别特征维度除了包括保险行业特征维度和文本位置特征维度之外,还包括以下特征维度中的至少一种:页码特征维度、字号大小特征维度、文本计数特征维度、文本内容特征维度和字体特征维度等。而文本位置特征维度具体的包括上或下、左或右、宽度以及高度特征维度。
图3为PDF格式的保险行业文档示例的截图,如下表1所示为将图3中的保险PDF文档转化为CSV格式得到的部分文本内容信息。
表1. 保险文档转换为CSV格式时的数据表局部示例。
Figure 465980DEST_PATH_IMAGE001
表1中可以看出,在基于pdfplumber框架将PDF格式的保险行业文档转换为CSV格式的数据的过程中,在数据中增加了包括页码(page)、字号大小(size)、文本计数(count)、文本内容(content)、保险公司(company,表中用数字代号表示)及文本坐标位置(top,left,width,height)等特征维度。此外还可以增加保险公司类别及保单类别等等特征。
基于增加的这些特征维度,后续的算法可以更好地进行文本特征的识别、分类和抽取。
步骤S20,对转化后的CSV格式的数据进行数据预处理。
所述预处理可包括进行分词处理和数据清洗处理。其中分词处理包括根据语义习惯进行断句处理等,上一步骤中已经对分词处理进行了简单描述。
数据清洗处理包括去除(即清洗掉)数据中的一些无用信息。无用信息可包括以下中的至少一种:停用词、水印、标点、语气助词等。在去除上述的无用信息之前,可先对CSV格式数据进行分词处理。
示例性的,分词框架可以选择JIEBA框架,并使用PYTHON语言调用;JIEBA面向中文分词有着较好准确率且方便操作等优点,功能方面也十分强大,可以对不同的切词精度进行调试。另外,英文切词方面可以采用NLTK框架,该框架对于英文领域有着较好的准确率。对CSV格式数据进行分词后,可进一步的去除标点符号以及语气助词等常用的无用词。应当理解的是,为了更准确进行分类处理,还可以人工比对选用该领域的特定停用词。例如,在数据清洗之前可人为定义保险行业的常用停用词,并基于人为定义的保险行业的常用停用词采用JIEBA框架对CSV格式的数据进行数据清洗。
步骤S30,对数据清洗后的CSV格式的数据,基于文本位置对文本特征进行上下文语义信息的捕捉,获得文本特征的上下文特征,以得到的上下文特征扩充数据清洗后的CSV格式的数据。
该步骤用于扩充转换为CSV格式的数据中的特征维度。更具体地,基于转化后的CSV格式的文本数据中的文本位置特征可以确定文本的位置,由此可以基于已有的CSV格式数据中文本内容的位置进行上下文捕捉,使得每一个文本样本不仅有自己对应的特征,还有其上下文内容的特征,如上下文坐标位置,语义向量等。上下文捕捉可实现样本数据维度的增广,以生成更多的上下文特征。
通过对单独的文本内容增加上下文信息的特征值补充,可使得数据拥有更多的特征值。抽取更多的文本特征信息在后续的算法模型中都也提高拟合效果和分类准确率,也即在后期的类别分类过程中,可更好的被算法拟合、分类及抽取。
步骤S40,对要作为训练样本的CSV格式的数据利用多个类别进行标注获得训练样本集,所述多个类别至少包括正文内容和多个不同级别的标题类别。
该步骤S40和步骤S30为特征工程的操作步骤,如图2所示。特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征。
在本发明实施例的特征工程中,可对要作为训练样本的CSV格式的数据人为进行标注,主要是对文本中各级标题,核心图标属性等关键信息进行标注,让计算机可以自动识别出关键属性。对训练样本标注后得到有标注的数据集,该数据集进一步的作为训练样本集。作为示例,CSV格式的数据内容可主要被标注为5个类别,分别是:无用内容,标注值为“-1”;正文内容,标注为“0”;一级标题,标注为“1”;二级标题,标注为“2”;三级标题,标注为“3”。但应当理解的是,数据的类别可根据实际需要进行确定,且其标注值仅是一种用于表示上述具体类别的简单表现形式,因此也可采用其他类型的标注值。
步骤S50,从训练样本集中选取预定个数的样本作为训练集,利用训练集对随机森林算法进行训练,并利用训练后的随机森林算法对测试样本进行特征重要性评估和按类别分类,得到测试样本数据特征的类别分类结果。
随机森林算法是利用多个决策树对样本进行训练、分类并预测的一种算法,主要应用于回归和分类场景。在对数据进行类别分类的同时,还可以给出各个变量的重要性评分,评估各个变量在分类中所起的作用。随机森林中随机是核心,通过随机的选择样本、特征,降低决策树之间的相关性。
在该步骤中,采用随机森林算法,是因为对于经过上下文特征扩充后的数据样本为高维特征输入样本,而在当前所有算法中,随机森林算法能够处理具有高维特征的输入样本,而且不需要降维,具有极好的准确率;并且随机森林算法能够评估各个特征在分类问题上的重要性。
通过利用训练样本对随机森林算法进行训练,可通过大量数据更正机器学习模型的参数,使算法模型能够完成特定功能。
该随机森林算法训练步骤可包括:
(1)在选取训练集过程中,可通过放回抽样(bootstrap)的方法从样本集中选取多个样本做为训练集。进一步的,通过抽样得到的训练集生成一颗决策树,在决策树的每一个结点随机不重复地选择多个(如d个)特征,利用这d个特征分别对训练集进行划分,找到最佳的划分特征(可用基尼系数、增益率或者信息增益判别)。
本发明实施例中,对于保险行业,引入了新的样本重要性特征,如保险公司类别及保单类别等;并给予部分特征赋予指示其重要性的较高的权重值,使得在决策树分类时这些特征有大的权重,以提升分类准确率。
(2)对于决策树,由于使用又放回抽样,根据统计学结果,约有三分之一的数据并没有用于生成树,我们称为Out-of-Bag样本。用Out-of-Bag(OOB)样本可以得到误差e1,然后随机改变OOB中的第j列,保持其他列不变,对第j列进行随机的上下置换,得到误差e2。至此,可以用e1-e2来刻画特征j的重要性。其依据就是,如果一个特征很重要,那么其变动后会非常影响测试误差,如果测试误差没有怎么改变,则说明特征j不重要。
(3)重复上述步骤k次,k即为随机森林中决策树的个数。由此可得到训练后的随机森林算法。
(4)用训练得到的随机森林算法对测试样本进行预测,并用票选法决定预测的结果,也即得到样本数据的分类结果。
步骤S60,基于类别分类结果对保险行业文档内容进行重组,生成结构化文件输出,并基于保险行业的行业需求确定的重要属性,对所述重要属性进行抽取。
当经过步骤S50得到样本数据的类别分类结果后,进一步的将文档内容进行重组,生成结构化文件并输出。在重组过程中,可将不同类别的数据保存为python语言的“字典”数据类型;该“字典”数据类型包括“key”与“value”属性。进一步将数据写入json格式的文件中,通过字典数据类型当中的“key”与“value”属性对文本当中的各级标题与正文内容进行嵌套式保存。如:一级标题—二级标题—三级标题—正文内容。进而对保存的文本数据进行输出。另外,在该步骤中,除了采用python语言之外,还可以采用其他种类的语言,只要确保所保存的数据能够按照预定格式进行输出即可。
进一步的,对于保存为python语言的“字典”数据类型的文本,还可以对重要属性进行属性抽取;重要属性为基于保险行业的行业特色人工挑选出的所需要的属性,如“公司名(CompanyName)”、“年龄(age)”、“支付方式(payment)”等。在该步骤中,由于文本为“字典”数据类型,因此可通过“key”属性查找“value”。可构造正则表达式,通过正则表达式算法来进行文本内容的匹配和抽取。
抽样输出的部分结果示例如下:
“{
“contact_name” : ”X X X X附加* *提前给付重大疾病保险条款”,
“file_name” : ” X X X X保险股份有限公司_健康保险-非个人税收##型健康保险-疾病保险-重大疾病保险_传统型产品_X X X X附加* *提前给付重大疾病保险.txt”,
“insurance_type” : ”重疾”,
“company_name” : ” X X X X保险股份有限公司”,
“age” : ”18周岁至55周岁”,
“payment” : ”合同约定”,
“career_constraint” : ”否”,
“death_responsibility” : ”否”,
“youyuqi” : ”无”,
“dengdaiqi” : ”无”,
“kuanxianqi” : ”60日”,
“baoxianqijian” : ”同主合同”,
}”。
上述实施例所公开的保险行业文档智能化解析方法,对于保险行业的海量文档进行结构化解析及属性抽取,极大节省消费者及保险从业者的时间,对保险行业的文档解析效率有明显提升效果;且该方法在处理过程中还进一步的提高了文档断句识别的准确率及效率。
在训练及分类过程中,具体的引入包括保险公司类别和保单类别在内的样本重要性特征,在决策树分类时使样本重要性特征具有更大的权重。在得到样本数据的类别分类结果后,进一步的将文档内容生成结构化文件输出,从而实现了保险行业文档的结构化解析。
当消费者或保险从业者需要大量阅读保险产品文档时,可以将文档批量放入采用该方法的系统中。系统可以将文档进行智能结构化解析,通过机器学习算法将整篇文档切分成若干部分,将不同文档进行智能结构化输出,在比较过程中,通过信息披露、结构化呈现等方式,横向对比,方便使用者进行相似保险文档之间的差异性比较,节省大量阅读保险产品文档的时间。
另外,与前述方法相应地,本发明还提供一种保险行业文档智能化解析装置,该装置包括处理器和存储器,所述存储器中存储有计算机指令,该处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。
本发明还涉及存储介质,其上可以存储有计算机程序代码,当程序代码被执行时可以实现本发明的方法的各种实施例,该存储介质可以是有形存储介质,诸如光盘、随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM或技术领域内所公知的任意其它形式的有形存储介质。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种保险行业文档智能化解析方法,其特征在于,所述方法包括以下步骤:
将PDF格式的保险行业文档原数据转化为CSV格式的数据,其中所述CSV格式的数据包含保险行业文档文本识别特征维度,所述保险行业文档文本识别特征维度至少包括保险行业特征维度和文本位置特征维度;其中,所述文本位置特征维度包括:上或下、左或右、宽度以及高度特征维度;
对转化后的CSV格式的数据进行数据预处理,所述预处理包括数据清洗处理;
对数据清洗后的CSV格式的数据,基于文本位置对文本特征进行上下文语义信息的捕捉,获得所述文本特征的上下文特征,以得到的上下文特征扩充数据清洗后的CSV格式的数据;
对要作为训练样本的CSV格式的数据利用多个类别进行标注获得训练样本集,所述多个类别至少包括正文内容和多个不同级别的标题类别;
从训练样本集中选取预定个数的样本作为训练集,利用训练集对随机森林算法进行训练,并利用训练后的随机森林算法对测试样本进行特征重要性评估和按类别分类,得到测试样本数据特征的类别分类结果;其中,对随机森林算法进行训练时引入包括保险公司类别和保单类别在内的样本重要性特征,在决策树分类时使所述样本重要性特征具有指示重要的权重;
基于类别分类结果对保险行业文档内容进行重组,生成结构化文件输出,并基于保险行业的行业需求确定的重要属性,对所述重要属性进行抽取。
2.根据权利要求1所述的方法,其特征在于,所述保险行业文档文本识别特征维度还包括以下特征维度中的至少一种:页码、字号大小、文本计数、文本内容和字体;
所述多个类别还包括:无用内容类别。
3.根据权利要求1所述的方法,其特征在于,
所述保险行业特征维度包括保险公司识别特征维度。
4.根据权利要求3所述的方法,其特征在于,将PDF格式的原数据转化为CSV格式的数据包括:利用pdfplumber框架将PDF格式的原数据转化为CSV格式的数据,所述pdfplumber框架基于保险行业的文档内容与语义习惯确定断句规则,并进行断句。
5.根据权利要求1所述的方法,其特征在于,所述对转化后的CSV格式的数据进行数据清洗处理,包括:对转化后的CSV格式的数据进行以下处理中的至少一种:去除停用词、去除标点、去除水印、去除语气助词。
6.根据权利要求1所述的方法,其特征在于,所述基于类别分类结果对保险行业文档内容进行重组,生成结构化文件输出,并基于保险行业的行业需求确定的重要属性,对所述重要属性进行抽取,包括:
将分类得到的不同类别的数据保存为字典数据类型,所述字典数据类型中包括“key”与“value”属性;
将数据写入json格式的文件中,通过字典数据类型中的“key”与“value”属性对文本中的各级标题与正文内容进行嵌套式保存;
对于已经通过字典数据类型保存好的文本内容中对重要属性进行属性抽取。
7.根据权利要求6所述的方法,其特征在于,对于已经通过字典数据类型保存好的文本内容进行属性抽取,包括:
通过正则表达式算法来进行文本内容的匹配和抽取,并将抽取的数据保存为字典数据类型。
8.一种保险行业文档智能化解析装置,该装置包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如权利要求1-7中任意一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任意一项所述方法的步骤。
CN202011621201.5A 2020-12-31 2020-12-31 保险行业文档智能化解析方法和装置 Active CN112307741B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011621201.5A CN112307741B (zh) 2020-12-31 2020-12-31 保险行业文档智能化解析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011621201.5A CN112307741B (zh) 2020-12-31 2020-12-31 保险行业文档智能化解析方法和装置

Publications (2)

Publication Number Publication Date
CN112307741A CN112307741A (zh) 2021-02-02
CN112307741B true CN112307741B (zh) 2021-03-30

Family

ID=74487557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011621201.5A Active CN112307741B (zh) 2020-12-31 2020-12-31 保险行业文档智能化解析方法和装置

Country Status (1)

Country Link
CN (1) CN112307741B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906352A (zh) * 2021-03-06 2021-06-04 道和云科技(天津)有限公司 一种车辆保险电子保单文本识别和抽取方法及系统
CN113065330A (zh) * 2021-03-22 2021-07-02 四川大学 一种从非结构化数据中提取敏感信息的方法
CN113704709A (zh) * 2021-08-27 2021-11-26 国网江苏省电力有限公司营销服务中心 基于属性重要性指数的数字水印数据溯源方法
CN114462383B (zh) * 2022-04-12 2022-07-08 江西少科智能建造科技有限公司 建筑图纸设计说明书获取方法、系统、存储介质及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582861A (zh) * 2018-10-29 2019-04-05 复旦大学 一种数据隐私信息检测系统
CN110472008A (zh) * 2019-07-04 2019-11-19 阿里巴巴集团控股有限公司 智能交互方法以及装置
CN110838071A (zh) * 2019-11-05 2020-02-25 泰康保险集团股份有限公司 保单数据的处理方法、装置及服务器
CN111259648A (zh) * 2020-01-19 2020-06-09 北京众信易保科技有限公司 基于多数据源的保单数据智能解析方法和系统
CN111259064A (zh) * 2020-01-10 2020-06-09 同方知网(北京)技术有限公司 一种可视化的自然语言分析挖掘系统及其建模方法
CN111640030A (zh) * 2020-05-29 2020-09-08 泰康保险集团股份有限公司 保险理赔失败数据的处理装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8478250B2 (en) * 2007-07-30 2013-07-02 Bindu Rama Rao Interactive media management server

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582861A (zh) * 2018-10-29 2019-04-05 复旦大学 一种数据隐私信息检测系统
CN110472008A (zh) * 2019-07-04 2019-11-19 阿里巴巴集团控股有限公司 智能交互方法以及装置
CN110838071A (zh) * 2019-11-05 2020-02-25 泰康保险集团股份有限公司 保单数据的处理方法、装置及服务器
CN111259064A (zh) * 2020-01-10 2020-06-09 同方知网(北京)技术有限公司 一种可视化的自然语言分析挖掘系统及其建模方法
CN111259648A (zh) * 2020-01-19 2020-06-09 北京众信易保科技有限公司 基于多数据源的保单数据智能解析方法和系统
CN111640030A (zh) * 2020-05-29 2020-09-08 泰康保险集团股份有限公司 保险理赔失败数据的处理装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
100天搞定机器学习|D33-34 随机森林;机器学习算法与Python;《https://www.cnblogs.com/jpld/p/11365469.html》;20190816;前言至第四节 *
数据科学实战:保险产品交叉销售预测分析;用户2769421;《https://cloud.tencent.com/developer/article/1749326》;20201119;第一页至第12页 *

Also Published As

Publication number Publication date
CN112307741A (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
CN112307741B (zh) 保险行业文档智能化解析方法和装置
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
CN114610515B (zh) 基于日志全语义的多特征日志异常检测方法及系统
CN109145260B (zh) 一种文本信息自动提取方法
CN111782807B (zh) 一种基于多方法集成学习的自承认技术债务检测分类方法
CN111198948A (zh) 文本分类校正方法、装置、设备及计算机可读存储介质
WO2018160551A1 (en) Automatic human-emulative document analysis enhancements
CN112926345B (zh) 基于数据增强训练的多特征融合神经机器翻译检错方法
CN112541337B (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及系统
CN113961685A (zh) 信息抽取方法及装置
CN110750978A (zh) 情感倾向分析方法、装置、电子设备及存储介质
Tkaczyk New methods for metadata extraction from scientific literature
CN114266256A (zh) 一种领域新词的提取方法及系统
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN116955604A (zh) 一种日志检测模型的训练方法、检测方法、装置
CN113159969A (zh) 一种金融长文本复核系统
CN117520561A (zh) 直升机装配领域知识图谱构建的实体关系抽取方法及系统
CN112784601A (zh) 关键信息提取方法、装置、电子设备和存储介质
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
JP2004171316A (ja) Ocr装置及び文書検索システム及び文書検索プログラム
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及系统
CN115310449A (zh) 一种基于小样本的命名实体识别方法、装置及相关介质
Khan et al. Analysis of Cursive Text Recognition Systems: A Systematic Literature Review
CN113722421A (zh) 一种合同审计方法和系统,及计算机可读存储介质
O’Brien et al. Optical character recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant