CN110276054B - 一种保险文本结构化实现方法 - Google Patents

一种保险文本结构化实现方法 Download PDF

Info

Publication number
CN110276054B
CN110276054B CN201910405167.9A CN201910405167A CN110276054B CN 110276054 B CN110276054 B CN 110276054B CN 201910405167 A CN201910405167 A CN 201910405167A CN 110276054 B CN110276054 B CN 110276054B
Authority
CN
China
Prior art keywords
text
insurance
entity information
blocks
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910405167.9A
Other languages
English (en)
Other versions
CN110276054A (zh
Inventor
肖国庆
曾子豪
周旭
李肯立
李克勤
郑浩
周晴宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN201910405167.9A priority Critical patent/CN110276054B/zh
Publication of CN110276054A publication Critical patent/CN110276054A/zh
Application granted granted Critical
Publication of CN110276054B publication Critical patent/CN110276054B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明提供了一种保险文本结构化实现方法,包括如下步骤:建立实体信息模板,所述实体信息模板包括不同类型保险文本的保障责任所含实体信息及实体类型标签;选取分隔位置将原始保险文本进行语义拆分,得到文本块;基于SVM的文本分类器对所述文本块进行分类,预测其所属的实体信息模板;基于条件随机场概率图模型对分类后的所述文本块进行序列标注,并根据所述文本块所属实体信息模板抽取实体信息,形成结构化数据;融合多个所述文本块的结构化数据,得到所述原始保险文本的结构化结果。本发明提供的保险文本结构化实现方法抽取保险文本中的结构化数据信息,可以简化保险文本的内容,实现保险文本的快速阅读。

Description

一种保险文本结构化实现方法
【技术领域】
本发明属于自然语言处理技术领域,特别涉及一种保险文本结构化实现方法。
【背景技术】
随着当前中国经济水平的发展和民众对保险产业认知的加深,使得保险产业在互联网效应的驱动下有了更进一步的发展。目前各大应用平台纷纷上线人寿保险、理财保险等相关保险产品,从保险购买者的角度出发,对于种类繁多的保险产品,投保人如何根据保险人的实际家庭经济状况和所需相关保障进行投保更大程度上取决于投保人对保险条款的理解和判断。但对于普通保险购买人来说,保险行业信息仍然存在着极大的不透明性,保险合同格式条款是由保险公司单方面商定、购买人并不参与定制的文本文件,且保险合同格式条款大多为长文本数据类型,并没有预定义的文字模板,文本内容多采用专业性语言和超长词汇进行描述。
相关技术中,主要以人工或基于规则的方式将保险条款的文本内容抽取展示,而不同险种文本内容各不相同,不同保险公司的保险产品中对于同一险种的保障责任描述方式也不一样。采用人工总结或者编写可匹配的正则表达式耗费了大量时间成本,且对于保险产品的覆盖面不够广泛,他们大多数只提取了赔付计算公式,对于保险文本中描述可能发生理赔的条件没有细化解析。
文本信息结构化的目的是利用中文分词、词性标注、命名实体识别等自然语言处理技术对非结构化文本的分析和处理,抽取文本内容中的结构化数据信息。不同类型的文本由于格式的不同,从其中要获取的结构化数据信息往往也是不同的,现有技术中针对不同类型的文本需要定义不同的方法和不同的程序,不能依靠同一套方法来实现不同类型文本的结构化。
因此,实有必要提供一种保险文本结构化实现方法以解决上述问题。
【发明内容】
本发明的目的在于提供一种保险文本结构化实现方法以解决现有技术中采用人工或基于规则的方式将保险条款的文本内容抽取展示,所造成的效率低下的问题。
本发明提供一种保险文本结构化实现方法,包括如下步骤:
S1:建立实体信息模板,所述实体信息模板包括不同类型保险文本的保障责任所含实体信息及实体类型标签;
S2:选取分隔位置将原始保险文本进行语义拆分,得到文本块;
S3:基于SVM的文本分类器对所述文本块进行分类,预测其所属的实体信息模板;
S4:基于条件随机场概率图模型对分类后的所述文本块进行序列标注,并根据所述文本块所属实体信息模板抽取实体信息,形成结构化数据;
S5:融合多个所述文本块的结构化数据,得到所述原始保险文本的结构化结果。
优选的,所述保险文本的类型包括人寿、意外、疾病、医疗和理财中的一种或多种。
优选的,所述步骤S2包括如下步骤:
S21:以分号及句号位置为潜在分割点,将所述原始保险文本拆分为多个文本块;
S22:遍历每个所述潜在分割点,计算每个所述潜在分割点的相似值;
S23:选取相似值高于给定阈值的潜在分割点作为所述原始保险文本的分隔位置。
优选的,所述步骤S22具体为:
自所述潜在分割点向左侧连续取m(m≥1)个文本块,形成第一文本,自所述潜在分割点P向右侧连续取n(n≥1)个文本块,形成第二文本,计算所述第一文本和所述第二文本的相似度;
调节m、n的值,得到第一文本和第二文本的相似度序列,取所述相似度序列中的最大值作为所述潜在分割点的相似值。
优选的,所述步骤S3包括如下步骤:
S31:抽取大量文本块样本作为分类训练样本,给出其所属的实体类别标签,生成类别集合;
S32:利用开源的中文分词工具对所述文本块进行分词,统计所述文本块中每个词在所述分类训练文本中出现的频数,去除频数小于某一阈值的词,生成分类训练样本词集;
S33:基于卡方统计,筛选出卡方值高于给定阈值的词作为文本特征词;
S34:以所述文档特征词在所述文本块中出现的频数作为特征值,对特征值进行归一化处理后生成特征向量,并采用支持向量机算法,预测所述原始保险文本类别。
优选的,所述支持向量机算法包括如下步骤:
S10:建立模型,选取所述分类训练样本中某一类别作为正类,其他类别作为负类,构造一个二分类器;
S20:重复步骤S10,依次另选一类为正类,其他类为负类,构建新的二分类模型,直至遍历完所有类别;
S30:输入所述文本块的词序列,利用每个二分类模型测试,取最大值作为分类结果,得到所述原始保险文本的类别。
与相关技术相比,本发明提供的保险文本结构化实现方法,采用建立实体信息模板后,将原始保险文本进行语义拆分,得到文本块,对所述文本块进行分类后,预测其所所属的实体信息模板,并对分类后的所述文本块进行序列标注,并抽取实体信息,形成结构化数据,将多个所述文本块的结构化数据进行融合,得到所述原始保险文本的结构化结果,使得所述原始保险文本的条款以更加直观、易理解且可对比的方式展示给保险购买人,方便保险购买人理解阅读。
【附图说明】
图1为本发明提供的保险文本结构化实现方法的步骤图;
图2为图1所示的步骤S2的步骤图;
图3为图1所示的步骤S3的步骤图;
图4为图3所示的支持向量机算法的步骤图;
图5为实施方式中文本块的实体信息抽取结果图;
图6为原始保险文本的结构化数据图。
【具体实施方式】
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
请结合参阅图1至图6,本发明提供一种保险条款文本结构化的实现方法,其包括如下步骤:
S1:建立实体信息模板,所述实体信息模板包括不同类型保险文本的保障责任所含实体信息及实体类型标签。
可以理解的是,不同类型保险文本的保障责任描述文本内容各不相同,在本实施方式中,将保险文本类型分为人寿、意外、疾病、医疗和理财五大类,并针对每一类别定义其需要抽取的实体信息,给每一实体信息打上实体类型标签,以供后续进行序列标注时使用。例如:
人寿类保险文本需要抽取的实体信息有:结果、原因、有效期间、年龄上限、年龄下限、结果发生时间、赔付额等;
疾病类保险文本需要抽取的实体信息有:结果、原因、有效期间、认可医生、确诊次数、组别数量、赔付额等;
理财类保险文本需要抽取的实体信息有:结果、领取时间、截至时间、赔付额等;
意外类保险文本需要抽取的实体信息有:结果、原因、地点、交通工具、身份、赔付额等;
医疗类保险文本需要抽取的实体信息有:结果、原因、诊疗次数、医疗机构、就诊时间、赔付额等。
当然,需要说明的是,本实施方式并非限定保险文本类型仅仅为上述五大类,也并非限定不同类型保险文本的具体实体信息,所述保险文本的类型和不同保险类型的实体信息还可以根据实际情况进行调整。
S2:选取分隔位置将原始保险文本进行语义拆分,得到文本块。
由于所述原始保险文本需要描述不同赔付条件下的不同赔付情况,且各赔付条件之间存在层级关系,为了便于后续处理以及达到高准确率的结构化结果,需要先将所述原始保险文本拆分成若干语义上独立的短句,且各个短句为并列关系,句式结构相似。
具体的,所述步骤S2包括如下步骤:
S21:以分号及句号位置为潜在分割点,将所述原始保险文本拆分为多个文本块。
可以理解的是,在汉语文字中分号主要用以分隔存在一定关系(并列、转折、承接、因果等,通常以并列关系居多)的两句分句或用来分隔作为列举分项出现的并列短语;句号表示一句话的结束。采用分号和句号作为潜在分隔点,可以较大程度上的保持多个所述文本块在语义及逻辑上的独立性。
S22:遍历每个所述潜在分割点,计算每个所述潜在分割点的相似值。
具体的,给定窗口大小L,L为文本块数量,遍历每个所述潜在分割点。具体的,对于任一个所述潜在分割点P,自所述潜在分割点P向左侧连续取m(1≤m≤L)个文本块,形成第一文本,自所述潜在分割点P向右侧连续取n(1≤n≤L)个文本块,形成第二文本,计算所述第一文本和所述第二文本的相似度,其中,所述第一文本和所述第二文本的相似度计算采用本领域的常规算法即可,如:基于词向量的算法(余弦相似度/曼哈顿距离/欧几里得距离/明式距离)、基于字符的算法(编辑距离/simhash/共有字符数)、基于概率统计的算法(杰卡德相似系数)和基于词嵌入模型的算法(word2vec/doc2vec)等。
可以理解的是,随着m、n取值的不同,所获得的第一文本和所述第二文本的长度不同,所计算出的第一文本和所述第二文本的相似度也不相同。调节m、n的值,得到第一文本和第二文本的相似度序列,取所述相似度序列中的最大值作为所述潜在分割点的相似值。
需要说明的是,本实施方式中针对的是汉语语言中采用从左往右的书写方式,在其他语言形式的保险文本中,所述第一文本还可以自所述潜在分割点向右侧或向下方或向上方连续取m个文本块形成;所述第二文本还可以自所述潜在分割点向左侧或向上方或向下方连续取n个文本块形成。
S23:选取相似值高于给定阈值的潜在分割点作为所述原始保险文本的分隔位置。
所述给定阈值可以根据实际情况进行给定,本发明对此不做限制。
具体的,给定保险文本“被保险人于本合同生效之日起一年后因疾病身故,本公司按本合同基本保险金额给付身故保险金,本合同终止。被保险人于本合同生效之日起一年内因疾病身故,本公司按以下二者之和给付身故全残保险金,本合同终止。a.本合同现金价值;b.已交保险费。”
根据步骤S21-S23将上述保险文本分为如下两个文本块:
(1)被保险人于本合同生效之日起一年后因疾病身故,本公司按本合同基本保险金额给付身故保险金,本合同终止。
(2)被保险人于本合同生效之日起一年内因疾病身故,本公司按以下二者之和给付身故保险金,本合同终止。a.本合同现金价值;b.已交保险费。
S3:基于SVM的文本分类器对所述文本块进行分类,预测其所属的实体信息模板。
具体的,所述步骤S3包括如下步骤:
S31:抽取大量文本块样本作为分类训练样本,给出其所属的实体类别标签,生成类别集合。
具体的,所述类型集合C={c1,c2,...,ci,...cn},其中ci为实体类别标签,n为总类别数量。
S32:利用开源的中文分词工具对所述文本块进行分词,统计所述文本块中每个词在所述分类训练文本中出现的频数,去除频数小于某一阈值的词,生成分类训练样本词集。
具体的,在本实施方式中,采用jieba分词工具所述文本块进行分词,将所述文本块转换为词序列;统计所述文本块中每个词出现的频数,过滤频数较低的词,并去除“若”、“并且”、“而”等停用词。
S33:基于卡方统计,筛选出卡方值高于给定阈值的词作为文本特征词。
具体的,计算所述分类训练样本词集W中每个词wj与所述实体类别标签ci的CHI值,取CHI值的最大值作为衡量指标,筛选出高于给定阈值的词作为文档特征词。
其中,CHI值计算如下:
其中,N表示所述分类训练样本W中所述文本块样本的总数,X表示属于ci类且包含词wj的文本块样本频数,Y表示不属于ci类但包含词wj的文本块样本频数,Z表示属于ci类但不包含词wj的文本块样本频数,A表示既不属于ci类也不包含词wj的文本块样本频数。
S34:以所述文档特征词在所述文本块中出现的频数作为特征值,对特征值进行归一化处理后生成特征向量,并采用支持向量机算法,预测所述原始保险文本类别。
具体的,对于所述原始保险文本,以文本特征词在文本块中出现的频数作为特征值,对特征值进行归一化处理后生成特征向量x=[t1,t2,…,tk,…,tm],其中tk为编号为k的词的特征值,m为文本特征个数。得到文本特征向量后,采用支持向量机算法,预测保险文本类别。
具体的,所述支持向量机算法的过程如下:
S10:建立模型,选取所述分类训练样本中某一类别作为正类,其他类别作为负类,构造一个二分类器。
训练样本为T={(t11,…,t1m,y1),(t21,…,t2m,y2),…,(ts1,…,tsm,ys)},其中tsm是第s个文本块样本中编号为m的词的特征值,y1-ys是s个文本块样本的标签值,正类为1,负类为-1。构造一个最大几何间隔分离超平面wTx+b=0将两类数据划分,其中w为超平面法向量,目标函数如下所示:
根据上述函数,采用优化计算包求解出w,b的值,得到当前的分类模型并保存。
S20:重复步骤S10,依次另选一类为正类,其他类为负类,构建新的二分类模型,直至遍历完所有类别。
S30:输入所述文本块的词序列,利用每个二分类模型测试,取最大值作为分类结果,得到所述原始保险文本的类别。
S4:基于条件随机场概率图模型对分类后的所述文本块进行序列标注,并根据所述文本块所属实体信息模板抽取实体信息,形成结构化数据。
具体的,采用条件随机场模型输入序列为所述文本块的词和词性的线性序列,输出序列为标记序列。对于分类后的所述文本块,可直接获取其实体信息模板对应的类型标签的集合,结合“BMES”标注体系,将每一类型标签名拼接B、M、E、S构成逐个标记。其中,B表示当前词位于实体首部,M表示当前词位于实体中间位置,E表示当前词位于实体尾部,S表示单个词构成实体,以及采用OUT标记表示当前词不属于任何实体信息。设P(Y|X)为线性链条件随机场,在随机变量X取值为某个词x的条件下,随机变量Y被标记为y的条件概率具有如下形式:
其中
上述表达式中,tk和st为特征函数,λk和μl是对应的权值。Z(x)是规范化因子,求和是在所有可能的输出序列上进行的。训练好模型后,对于给定的文本块序列x,求出条件概率P(y|x)最大的输出标记序列y。最后根据输出的标记序列进行解码,提取其对应信息模板的实体内容,得到所述文本块的实体信息。
本实施例利用条件随机场模型进行命名实体识别,并且选择CRF++作为CRF实现工具,分别对每一类别的文本块单独训练一个模型,每个模型的输入文件包括训练语料及特征模板文件。其中训练语料有三列,第一列为词,第二列为词性,第三列为实体标记,不同文本块使用空行间隔,格式如下表所示:
#SENT_BEG# begin OUT
c OUT
被保险人 nz OUT
身故 vn RS_S
qt OUT
未满 nz OUT
18 m AGH_B
周岁 q AGH_E
w OUT
训练好模型后,将保险短文本进行中文分词及词性标注转换为CRF++需要的测试文件格式利用模型预测其输出标记序列,最后对标记序列根据“BMES”标签体系提供的位置信息以及该保险短文本所属实体模板类别进行解码,形成结构化数据信息。例如上表中“身故”为“结果”这一实体信息的内容信息,“18周岁”为“年龄上限”这一实体信息的内容信息。
步骤5:融合多个所述文本块的结构化数据,得到所述原始保险文本的结构化结果。
对于任一短文本结构化结果可视为一个实体节点序列,预定义其实体节点顺序,使得后一实体类型节点为前一实体类型节点的子节点,即构成一颗除叶子节点外每一实体类型节点只有单一子节点的结构化树。由于本发明目的在于整段保险描述文本信息结构化,因此需将整段保险描述文本的多个短文本结构化结果合并为一颗结构化树,其合并策略为:从根节点往下,只对比相同实体类型的节点;对于实体类型相同的节点,若实体内容信息也相同且子树完全相同,则直接合并为一条分支;对于实体类型相同的节点,若其子节点不同,则新增一条分支。
上述举例中的保险文本两个短句实体信息抽取结果如图5所示,将crf模型识别出的多个实体信息转换为实体节点序列,根据预定义的实体类型顺序排序,最终将各个短句的实体节点序列合并为树形结构,形成所述原始保险文本的结构化结果,结果如图6所示。
与相关技术相比,本发明提供的保险文本结构化实现方法,采用建立实体信息模板后,将原始保险文本进行语义拆分,得到文本块,对所述文本块进行分类后,预测其所所属的实体信息模板,并对分类后的所述文本块进行序列标注,并抽取实体信息,形成结构化数据,将多个所述文本块的结构化数据进行融合,得到所述原始保险文本的结构化结果,使得所述原始保险文本的条款以更加直观、易理解且可对比的方式展示给保险购买人,方便保险购买人理解阅读。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (4)

1.一种保险文本结构化实现方法,其特征在于,包括如下步骤:
S1:建立实体信息模板,所述实体信息模板包括不同类型保险文本的保障责任所含实体信息及实体类型标签;
S2:选取分隔位置将原始保险文本进行语义拆分,得到文本块;
S3:基于SVM的文本分类器对所述文本块进行分类,预测其所属的实体信息模板;
S4:基于条件随机场概率图模型对分类后的所述文本块进行序列标注,并根据所述文本块所属实体信息模板抽取实体信息,形成结构化数据;
S5:融合多个所述文本块的结构化数据,得到所述原始保险文本的结构化结果,
所述步骤S2包括如下步骤:
S21:以分号及句号位置为潜在分割点,将所述原始保险文本拆分为多个文本块;
S22:遍历每个所述潜在分割点,根据相似度算法计算每个所述潜在分割点的相似值;
S23:选取相似值高于给定阈值的潜在分割点作为所述原始保险文本的分隔位置,
所述步骤S22具体为:
自所述潜在分割点向左侧连续取m个文本块,形成第一文本,自所述潜在分割点P向右侧连续取n个文本块,形成第二文本,计算所述第一文本和所述第二文本的相似度,其中,m≥1,n≥1;
调节m、n的值,得到第一文本和第二文本的相似度序列,取所述相似度序列中的最大值作为所述潜在分割点的相似值。
2.根据权利要求1所述的方法,其特征在于,所述保险文本的类型包括人寿、意外、疾病、医疗和理财中的一种或多种。
3.根据权利要求1所述的方法,其特征在于,所述步骤S3包括如下步骤:
S31:抽取大量文本块样本作为分类训练样本,给出其所属的实体类别标签,生成类别集合;
S32:利用开源的中文分词工具对所述文本块进行分词,统计所述文本块中每个词在所述分类训练文本中出现的频数,去除频数小于某一阈值的词,生成分类训练样本词集;
S33:基于卡方统计,筛选出卡方值高于给定阈值的词作为文本特征词;
S34:以所述文本特征词在所述文本块中出现的频数作为特征值,对特征值进行归一化处理后生成特征向量,并采用支持向量机算法,预测所述原始保险文本类别。
4.根据权利要求3所述的方法,其特征在于,所述支持向量机算法包括如下步骤:
S10:建立模型,选取所述分类训练样本中某一类别作为正类,其他类别作为负类,构造一个二分类器;
S20:重复步骤S10,依次另选一类为正类,其他类为负类,构建新的二分类模型,直至遍历完所有类别;
S30:输入所述文本块的词序列,利用每个二分类模型测试,取最大值作为分类结果,得到所述原始保险文本的类别。
CN201910405167.9A 2019-05-16 2019-05-16 一种保险文本结构化实现方法 Active CN110276054B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910405167.9A CN110276054B (zh) 2019-05-16 2019-05-16 一种保险文本结构化实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910405167.9A CN110276054B (zh) 2019-05-16 2019-05-16 一种保险文本结构化实现方法

Publications (2)

Publication Number Publication Date
CN110276054A CN110276054A (zh) 2019-09-24
CN110276054B true CN110276054B (zh) 2023-08-15

Family

ID=67960109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910405167.9A Active CN110276054B (zh) 2019-05-16 2019-05-16 一种保险文本结构化实现方法

Country Status (1)

Country Link
CN (1) CN110276054B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144095B (zh) * 2019-11-26 2024-04-05 方正璞华软件(武汉)股份有限公司 一种工伤案件裁决书的生成方法及装置
CN111143505B (zh) * 2019-11-28 2023-11-21 泰康保险集团股份有限公司 文档处理方法、装置、介质及电子设备
CN111444718A (zh) * 2020-03-12 2020-07-24 泰康保险集团股份有限公司 一种保险产品需求文档处理方法、装置及电子设备
CN111968624B (zh) * 2020-08-24 2024-02-09 平安科技(深圳)有限公司 数据构建方法、装置、电子设备及存储介质
CN112270604B (zh) * 2020-10-14 2024-08-20 招商银行股份有限公司 信息结构化处理方法、装置及计算机可读存储介质
CN112837771B (zh) * 2021-01-25 2022-09-13 山东浪潮智慧医疗科技有限公司 一种融合文本分类与词法分析的体检异常项归一化方法
CN113033204A (zh) * 2021-03-24 2021-06-25 广州万孚生物技术股份有限公司 信息实体抽取方法、装置、电子设备和存储介质
CN113643141B (zh) * 2021-08-30 2024-06-21 深圳平安医疗健康科技服务有限公司 解释性结论报告生成方法、装置、设备及存储介质
CN113569533B (zh) * 2021-09-26 2022-02-18 南京复保科技有限公司 保险内容标注方法、系统、计算机设备及存储介质
CN118194831B (zh) * 2024-05-14 2024-08-09 深圳市伊登软件有限公司 一种基于人工智能的大数据挖掘方法、系统和计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899260A (zh) * 2015-05-20 2015-09-09 东华大学 一种中文病理文本结构化处理方法
CN104965867A (zh) * 2015-06-08 2015-10-07 南京师范大学 基于chi特征选取的文本事件分类方法
CN107808011A (zh) * 2017-11-20 2018-03-16 北京大学深圳研究院 信息的分类抽取方法、装置、计算机设备和存储介质
CN109657058A (zh) * 2018-11-29 2019-04-19 东莞理工学院 一种公告信息的抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7899822B2 (en) * 2006-09-08 2011-03-01 International Business Machines Corporation Automatically linking documents with relevant structured information

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899260A (zh) * 2015-05-20 2015-09-09 东华大学 一种中文病理文本结构化处理方法
CN104965867A (zh) * 2015-06-08 2015-10-07 南京师范大学 基于chi特征选取的文本事件分类方法
CN107808011A (zh) * 2017-11-20 2018-03-16 北京大学深圳研究院 信息的分类抽取方法、装置、计算机设备和存储介质
CN109657058A (zh) * 2018-11-29 2019-04-19 东莞理工学院 一种公告信息的抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种面向中文网络百科非结构化信息的知识获取方法;王汀等;《图书情报工作》;20160705(第13期);全文 *

Also Published As

Publication number Publication date
CN110276054A (zh) 2019-09-24

Similar Documents

Publication Publication Date Title
CN110276054B (zh) 一种保险文本结构化实现方法
CN112001177B (zh) 融合深度学习与规则的电子病历命名实体识别方法及系统
CN107193959B (zh) 一种面向纯文本的企业实体分类方法
CN108563638B (zh) 一种基于主题识别和集成学习的微博情感分析方法
CN109933796B (zh) 一种公告文本关键信息提取方法及设备
CN108388660A (zh) 一种改进的电商产品痛点分析方法
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
Dwivedi et al. Sentiment analytics for crypto pre and post covid: topic modeling
US20230028664A1 (en) System and method for automatically tagging documents
Goel et al. Mining company sustainability reports to aid financial decision-making
KR20220068937A (ko) 기계학습 방법론을 이용한 한국 표준 산업/직업 분류 방법
CN114265931A (zh) 基于大数据文本挖掘的消费者政策感知分析方法及系统
Vukanti et al. Business Analytics: A case-study approach using LDA topic modelling
Chumwatana COMMENT ANALYSIS FOR PRODUCT AND SERVICE SATISFACTION FROM THAI CUSTOMERS'REVIEW IN SOCIAL NETWORK
Heidari et al. Financial footnote analysis: developing a text mining approach
CN110188340B (zh) 一种研报文本实体名词自动识别方法
Chikkamath et al. Patent sentiment analysis to highlight patent paragraphs
KR20230169538A (ko) 금융 마이데이터 기반 기계학습을 위한 말뭉치를 이용한 거래 적요 데이터 분석 장치 및 방법과 이를 위한 컴퓨터 프로그램
CN113868431A (zh) 面向金融知识图谱的关系抽取方法、装置及存储介质
Maheswari et al. Rule based morphological variation removable stemming algorithm
Aziz et al. Arabic fake news detection for Covid-19 using deep learning and machine learning
Trinh et al. Automatic process resume in talent pool by applying natural language processing
KR102086642B1 (ko) 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템 및 방법
CN110516069A (zh) 一种基于FastText-CRF的引文元数据抽取方法
Morbieu et al. Main content extraction from web pages

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant