CN113627189A - 一种面向保险条款的实体识别信息抽取、存储、展示方法 - Google Patents

一种面向保险条款的实体识别信息抽取、存储、展示方法 Download PDF

Info

Publication number
CN113627189A
CN113627189A CN202110940483.3A CN202110940483A CN113627189A CN 113627189 A CN113627189 A CN 113627189A CN 202110940483 A CN202110940483 A CN 202110940483A CN 113627189 A CN113627189 A CN 113627189A
Authority
CN
China
Prior art keywords
insurance
entity
clauses
model
storing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110940483.3A
Other languages
English (en)
Inventor
王晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Quanshopkeeper Technology Co ltd
Original Assignee
Qingdao Quanshopkeeper Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Quanshopkeeper Technology Co ltd filed Critical Qingdao Quanshopkeeper Technology Co ltd
Priority to CN202110940483.3A priority Critical patent/CN113627189A/zh
Publication of CN113627189A publication Critical patent/CN113627189A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Mathematical Physics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明提出一种面向保险条款的实体识别信息抽取、存储、展示方法,包括以下步骤:(1)上传保险条款文件;(2)对上传文件进行分类、清洗、识别;(3)对识别结果进行文本重组、实体识别;(4)实体属性的提取;(5)数据存储、展示。所述面向保险条款的实体识别信息抽取、存储、展示方法,将保险条款中的核心信息、易忽略信息通过知识图谱的方式客观展示,不但让消费者更简单清楚的了解保险条款中的核心信息,也利于代理人对保险条款的解释,提升消费者对代理人及保险中介公司的信任度,有效提高客户的转化率,实现消费者、代理人和保险中介的三者共赢。

Description

一种面向保险条款的实体识别信息抽取、存储、展示方法
技术领域
本发明属于自然语言处理领域,涉及一种面向保险条款的实体识别信息抽取、存储、展示方法。
背景技术
保险条款是保险合同上规定的有关保险人与被保险人的权利、义务及其他保险事项的条文。近年,随着互联网技术的发展,保险行业也发展迅速,据相关数据统计,每天面市的保险产品上万,利用人工解析保险条款,成本巨大。保险条款非常重要,消费者在购买保险产品时,由于保险条款较长,文字描述复杂,很少有消费者花费较长时间仔细阅读保险条款。
目前保险代理平台往往只是将保险条款中的较少字段以表格的形式给消费者,完整版的保险条款文档多达几十页,通常只会通过URL跳转让消费者下载PDF文档自行查看,保险代理人也不方便给消费者讲透彻。消费者选购保险时,碍于对保险知识的缺失,很少有人理解保险条款中的某些字段含义,或因保险条款中文字数量较多,对保险条款中内容理解不透彻,一旦发生保险事故,容易产生纠纷,减少消费者对保险中介的信任,造成客户流失。因此,保险中介平台需要提供一种保险条款的展示功能,提高消费者和代理人对保险条款的理解,提升用户体验,提高保险中介的业绩。
发明内容
本发明的目的是:为了让消费者更透明、详尽的了解保险条款的要点内容,本发明提出了一种面向保险条款的实体识别信息抽取、存储、展示方法。
为了解决上述问题,本发明所采用的技术方案是:一种面向保险条款的实体识别信息抽取、存储、展示方法,其特征在于,包括如下步骤:
(1)上传保险条款文件;
(2)对上传文件进行分类、清洗、识别;
(3)对识别结果进行文本重组、实体识别;
(4)实体属性的提取;
(5)数据存储、展示。
进一步的,所述步骤(1)包括:用户通过网页上传保险条款,后台系统接收上传文件,并通过文件后缀名对上传文件做分类,丢弃不属于PDF格式的文件,接受PDF格式文件。
进一步的,所述步骤(2)包括:
(2.1)分类:使用PDFPlumber解析上传文件,根据解析结果,利用统计学判断该文件是否具有可编辑性,将文件分为可编辑和影印两种类型;
(2.2)识别:对可编辑类型文件,使用PDFPlumber解析得到的结果,转换为带有文字及文字坐标的Json文件;对于影印类型,使用OCR识别技术,对保险条款中的文字识别,经Pandas转换同样可以得到带有文字及文字坐标的Json数据;
(2.3)清洗:由于PDF文件的封面、页眉、页尾、图例、图表名这些位置的额信息冗余,对保险条款提取的信息没有意义,故根据解析结果中的文字坐标,删除这些位置的文本信息,保留有效的Json数据。
进一步的,所述步骤(3)包括:
(3.1)文本重组:经过步骤(2)解析得到数据,由于一级标题、二级标题以及正文字体大小不一,获取的文字坐标无法按行对齐,使用Pandas将所有文字重组到一个坐标系下,按行坐标分组,还原PDF中文字的位置;
(3.2)实体识别:
首先,通过已有的保险资料,通过无监督训练得到词向量预训练模型Bert,将文本用向量表示;
然后,利用实体构造实体识别模型的测试语料,包括保险公司、年龄、疾病名称、免责条款、犹豫期、等待期、保障责任这些保险实体;
最后,构建Bert&Bilstm&Crf实体识别的网络模型,将已标注的测试语料,经过监督式训练,生成实体识别模型,并将模型保存成h5格式。
进一步的,所述步骤(4)包括:
首先,根据已有保险资料,人工标注阅读理解模型的训练语料;
然后,构建Bert&TransModel的神经网络阅读理解模型;
最后,将训练语料输入模型,得到并保存h5格式的属性抽取模型;
根据步骤(3)中提取的实体,将实体所有句子及段落作为属性抽取模型的输入,经神经网络计算得到实体属性信息,并将该文件中的所有实体内容整合成一条Json数据。
进一步的,所述步骤(5)包括:将步骤(4)中生成的Json数据,通过接口的形式保存到Neo4j数据库,经后端的查询接口,通过前端页面展示实体和实体、实体和实体属性间的关系。
本发明实施例提供的上述技术方案的有益效果至少包括:本发明提出的面向保险条款的实体识别信息抽取、存储、展示方法,将保险条款中的核心信息、易忽略信息通过知识图谱的方式客观展示,不但让消费者更简单清楚的了解保险条款中的核心信息,也利于代理人对保险条款的解释,提升消费者对代理人及保险中介公司的信任度,有效提高客户的转化率,实现消费者、代理人和保险中介的三者共赢。
本发明方法打破了目前保险领域内还没有专门为PDF保险条款进行识别、提取、存储及展示的自动化流程,成为保险领域的先例。依靠深度学习的强大识别能力和图数据库NEO4J的强大展示功能,可以更加直观的展示保险条款中相关实体和实体属性的关系,让产品设计人员、代理人乃至普通消费者对于保险条款有一个全面了解,具有十分重要的使用价值。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例公开的面向保险条款的实体识别信息抽取、存储、展示方法的流程图。
图2为本发明实施例公开的实体识别的流程图。
图3为本发明实施例公开的实体属性的提取的流程图。
图4为本发明实施例公开的数据展示实例的解析结果。
图5为本发明实施例公开的保险条款经解析后生成的跟重庆有关的部分保险信息展示。
具体实施例
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明提出的一种面向保险条款的实体识别信息抽取、存储、展示方法,包括以下步骤:(1)上传保险条款文件;(2)对上传文件进行分类、清洗、识别;(3)对识别结果进行文本重组、实体识别;(4)实体属性的提取;(5)数据存储、展示。
1、文件上传。用户通过网页上传保险条款,后台系统接收上传文件,并通过文件后缀名对上传文件做分类,丢弃不属于PDF格式的文件,接受PDF格式文件。
2、文件分类、识别、清洗。本步骤进一步包括:
2.1分类。使用PDFPlumber解析上传文件,根据解析结果,利用统计学判断该文件是否具有可编辑性,将文件分为可编辑和影印两种类型。
2.2识别。对可编辑类型文件,使用PDFPlumber解析得到的结果,转换为带有文字及文字坐标的Json文件;对于影印类型,使用OCR识别技术,对保险条款中的文字识别,经Pandas转换同样可以得到带有文字及文字坐标的Json数据。
2.3清洗。由于PDF文件的封面、页眉、页尾、图例、图表名等位置的额信息冗余,对保险条款提取的信息没有意义,故根据解析结果中的文字坐标,删除这些位置的文本信息,保留有效的Json数据。
3、文本重组、实体识别。本步骤进一步包括:
3.1文本重组。经过步骤2解析得到数据,由于一级标题、二级标题以及正文字体大小不一,获取的文字坐标无法按行对齐。使用Pandas将所有文字重组到一个坐标系下,按行坐标分组,还原PDF中文字的位置。
3.2实体识别。首先,通过已有的保险资料,通过无监督训练得到词向量预训练模型Bert,将文本用向量表示;然后利用实体构造实体识别模型的测试语料,有保险公司、年龄、疾病名称、免责条款、犹豫期、等待期、保障责任等保险实体;最后构建Bert&Bilstm&Crf实体识别的网络模型,将已标注的测试语料,经过监督式训练,生成实体识别模型,并将模型保存成h5格式。
4、属性提取。首先,根据已有保险资料,人工标注阅读理解模型的训练语料;然后,构建Bert&TransModel的神经网络阅读理解模型;最后将训练语料输入模型,得到并保存h5格式的属性抽取模型。根据步骤3中提取的实体,将实体所句子及段落作为属性抽取模型的输入,经神经网络计算得到实体属性信息,并将该文件中的所有实体内容整合成一条Json数据。
5、数据存储展示。将步骤4中生成的Json数据,通过接口的形式保存到Neo4j数据库,经后端的查询接口,通过前端页面展示实体和实体、实体和实体属性间的关系。
图2描述了实体识别的流程图,[CLS]文本开始标志,wi表示单个字二者构成系统输入,Ei、EA、Ewi分别表示字wi的位置向量、句子向量、字向量,三者构成了Embedding层,即将输入转化为一个标准向量;Mix Model表示经过Bert模型的Encoder之后,将输入向量化,构成标准输出;Forward&Bacward LSTM Layer将句子之间的语义充分组合,构成BiLSTM输出,最后经过Crf,完成实体识别。比如输入句子“重庆地区可以买重疾险吗”,经过实体识别模型,可以获取“重庆”这个地区实体,用B-LOC表示实体“重庆”的第一个字,I-LOC表示实体“重庆”的第二个字。
图3描述了实体属性的提取,输入为图2识别出的实体所在的句子SentenceA,[CLS]表示句子SentenceA开头,[SEP]表示SentenceA的结尾及SentenceB的结尾,SentenceB表示SentenceA中实体所在的段落,每个wi表示一个字;经过Bert Model转化为标准的Word Vetor;Trans Model由FCNN、Softmax、Activation及MatrixTrans构成,输出Start&End Vector,经过Pooling Layer后得到实体的属性值。
图4是数据展示实例,通过上传中意心脑血管特定疾病保险条款,经过系统解析出的该险种可以保障的疾病、所属保险公司、险种等部分信息。
图5描述的是所有上传的保险条款经解析后,生成的跟重庆有关的部分保险信息。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
本领域技术人员还应当理解,结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性,上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为背离本公开的保护范围。
结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然,处理器和存储介质也可以作为分立组件存在于用户终端中。
对于软件实现,本申请中描述的技术可用执行本申请所述功能的模块(例如,过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内,也可以实现在处理器外,在后一种情况下,它经由各种手段以通信方式耦合到处理器,这些都是本领域中所公知的。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

Claims (6)

1.一种面向保险条款的实体识别信息抽取、存储、展示方法,其特征在于,包括如下步骤:
(1)上传保险条款文件;
(2)对上传文件进行分类、清洗、识别;
(3)对识别结果进行文本重组、实体识别;
(4)实体属性的提取;
(5)数据存储、展示。
2.如权利要求1所述的一种面向保险条款的实体识别信息抽取、存储、展示方法,其特征在于,所述步骤(1)包括:用户通过网页上传保险条款,后台系统接收上传文件,并通过文件后缀名对上传文件做分类,丢弃不属于PDF格式的文件,接受PDF格式文件。
3.如权利要求2所述的一种面向保险条款的实体识别信息抽取、存储、展示方法,其特征在于,所述步骤(2)包括:
(2.1)分类:使用PDFPlumber解析上传文件,根据解析结果,利用统计学判断该文件是否具有可编辑性,将文件分为可编辑和影印两种类型;
(2.2)识别:对可编辑类型文件,使用PDFPlumber解析得到的结果,转换为带有文字及文字坐标的Json文件;对于影印类型,使用OCR识别技术,对保险条款中的文字识别,经Pandas转换同样可以得到带有文字及文字坐标的Json数据;
(2.3)清洗:由于PDF文件的封面、页眉、页尾、图例、图表名这些位置的额信息冗余,对保险条款提取的信息没有意义,故根据解析结果中的文字坐标,删除这些位置的文本信息,保留有效的Json数据。
4.如权利要求3所述的一种面向保险条款的实体识别信息抽取、存储、展示方法,其特征在于,所述步骤(3)包括:
(3.1)文本重组:经过步骤(2)解析得到数据,由于一级标题、二级标题以及正文字体大小不一,获取的文字坐标无法按行对齐,使用Pandas将所有文字重组到一个坐标系下,按行坐标分组,还原PDF中文字的位置;
(3.2)实体识别:
首先,通过已有的保险资料,通过无监督训练得到词向量预训练模型Bert,将文本用向量表示;
然后,利用实体构造实体识别模型的测试语料,包括保险公司、年龄、疾病名称、免责条款、犹豫期、等待期、保障责任这些保险实体;
最后,构建Bert&Bilstm&Crf实体识别的网络模型,将已标注的测试语料,经过监督式训练,生成实体识别模型,并将模型保存成h5格式。
5.如权利要求4所述的一种面向保险条款的实体识别信息抽取、存储、展示方法,其特征在于,所述步骤(4)包括:
首先,根据已有保险资料,人工标注阅读理解模型的训练语料;
然后,构建Bert&TransModel的神经网络阅读理解模型;
最后,将训练语料输入模型,得到并保存h5格式的属性抽取模型;
根据步骤(3)中提取的实体,将实体所有句子及段落作为属性抽取模型的输入,经神经网络计算得到实体属性信息,并将该文件中的所有实体内容整合成一条Json数据。
6.如权利要求5所述的一种面向保险条款的实体识别信息抽取、存储、展示方法,其特征在于,所述步骤(5)包括:将步骤(4)中生成的Json数据,通过接口的形式保存到Neo4j数据库,经后端的查询接口,通过前端页面展示实体和实体、实体和实体属性间的关系。
CN202110940483.3A 2021-08-17 2021-08-17 一种面向保险条款的实体识别信息抽取、存储、展示方法 Pending CN113627189A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110940483.3A CN113627189A (zh) 2021-08-17 2021-08-17 一种面向保险条款的实体识别信息抽取、存储、展示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110940483.3A CN113627189A (zh) 2021-08-17 2021-08-17 一种面向保险条款的实体识别信息抽取、存储、展示方法

Publications (1)

Publication Number Publication Date
CN113627189A true CN113627189A (zh) 2021-11-09

Family

ID=78385879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110940483.3A Pending CN113627189A (zh) 2021-08-17 2021-08-17 一种面向保险条款的实体识别信息抽取、存储、展示方法

Country Status (1)

Country Link
CN (1) CN113627189A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115147013A (zh) * 2022-08-31 2022-10-04 南京复保科技有限公司 保险产品可读性计算方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008310653A (ja) * 2007-06-15 2008-12-25 Hitachi Ltd 契約システム、第一サーバ、プログラム、管理サーバ及び契約方法
CN110866836A (zh) * 2019-11-14 2020-03-06 支付宝(杭州)信息技术有限公司 计算机执行的医疗保险立案审核方法和装置
CN111444718A (zh) * 2020-03-12 2020-07-24 泰康保险集团股份有限公司 一种保险产品需求文档处理方法、装置及电子设备
CN111797630A (zh) * 2020-06-29 2020-10-20 大连理工大学 一种面向pdf格式论文的生物医学实体识别方法
CN112906352A (zh) * 2021-03-06 2021-06-04 道和云科技(天津)有限公司 一种车辆保险电子保单文本识别和抽取方法及系统
CN113128227A (zh) * 2020-01-14 2021-07-16 普天信息技术有限公司 实体抽取方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008310653A (ja) * 2007-06-15 2008-12-25 Hitachi Ltd 契約システム、第一サーバ、プログラム、管理サーバ及び契約方法
CN110866836A (zh) * 2019-11-14 2020-03-06 支付宝(杭州)信息技术有限公司 计算机执行的医疗保险立案审核方法和装置
CN113128227A (zh) * 2020-01-14 2021-07-16 普天信息技术有限公司 实体抽取方法及装置
CN111444718A (zh) * 2020-03-12 2020-07-24 泰康保险集团股份有限公司 一种保险产品需求文档处理方法、装置及电子设备
CN111797630A (zh) * 2020-06-29 2020-10-20 大连理工大学 一种面向pdf格式论文的生物医学实体识别方法
CN112906352A (zh) * 2021-03-06 2021-06-04 道和云科技(天津)有限公司 一种车辆保险电子保单文本识别和抽取方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵立鹏;张若伟;: "关系抽取技术的研究", 计算机产品与流通, no. 09, pages 104 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115147013A (zh) * 2022-08-31 2022-10-04 南京复保科技有限公司 保险产品可读性计算方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN108717406B (zh) 文本情绪分析方法、装置及存储介质
CN109685056B (zh) 获取文档信息的方法及装置
US12072917B2 (en) Database generation from natural language text documents
CN108228676B (zh) 信息抽取方法和系统
CN110580308B (zh) 信息审核方法及装置、电子设备、存储介质
CN112035653A (zh) 一种政策关键信息提取方法和装置、存储介质、电子设备
CN113495900A (zh) 基于自然语言的结构化查询语言语句获取方法及装置
CN113806550A (zh) 个性化知识图谱的生成方法、装置及计算机设备
CN112015721A (zh) 一种基于大数据的电商平台存储数据库的优化方法
CN113961685A (zh) 信息抽取方法及装置
CN112395858B (zh) 融合试题数据和解答数据的多知识点标注方法和系统
US20230161802A1 (en) Method and device for constructing standard knowledge graph, and method and device for querying standard
CN115917613A (zh) 文档中文本的语义表示
CN116244410B (zh) 一种基于知识图谱和自然语言的指标数据分析方法及系统
CN112784585A (zh) 金融公告的摘要提取方法与摘要提取终端
CN118194842A (zh) 文档智能识别方法、装置、电子设备及存储介质
CN113627189A (zh) 一种面向保险条款的实体识别信息抽取、存储、展示方法
CN117095422B (zh) 文档信息解析方法、装置、计算机设备、存储介质
CN117592470A (zh) 大语言模型驱动的低成本公报数据抽取方法
CN116012855A (zh) 文本内容审查方法、装置、计算机设备和存储介质
CN116306506A (zh) 一种基于内容识别的智能邮件模板方法
CN114254620A (zh) 政策解析方法、装置和存储介质
CN115017271A (zh) 用于智能生成rpa流程组件块的方法及系统
CN114154489A (zh) 一种三元组抽取方法、装置、设备及存储介质
CN114611489A (zh) 文本逻辑条件抽取ai模型构建方法、抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination