CN109492230B - 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法 - Google Patents

一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法 Download PDF

Info

Publication number
CN109492230B
CN109492230B CN201910025071.XA CN201910025071A CN109492230B CN 109492230 B CN109492230 B CN 109492230B CN 201910025071 A CN201910025071 A CN 201910025071A CN 109492230 B CN109492230 B CN 109492230B
Authority
CN
China
Prior art keywords
text field
layer
neural network
insurance
insurance contract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910025071.XA
Other languages
English (en)
Other versions
CN109492230A (zh
Inventor
孙霖
王驰
张凯
季福乐
郑增威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University City College ZUCC
Original Assignee
Zhejiang University City College ZUCC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University City College ZUCC filed Critical Zhejiang University City College ZUCC
Priority to CN201910025071.XA priority Critical patent/CN109492230B/zh
Publication of CN109492230A publication Critical patent/CN109492230A/zh
Application granted granted Critical
Publication of CN109492230B publication Critical patent/CN109492230B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Biophysics (AREA)
  • Technology Law (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法,包括步骤:1)标注保险合同中的关键信息生成保险合同知识库;2)设计感兴趣文本域的卷积神经网络,包括卷积层、感兴趣文本域(TOI)池化层、全连接层与最终输出层;3)网络的训练需要两类样本;4)训练好的感兴趣文本域卷积神经网络在使用时还需要非极大值抑制算法(NMS)。本发明的有益效果是:本发明提出的感兴趣文本域卷积神经网络可以有效的解决保险合同标记中的元素重叠问题,显著优于基于概率图模型的现有方法,同时表明了本发明所提出的保险合同标注方法的优越性。

Description

一种基于感兴趣文本域卷积神经网络提取保险合同关键信息 的方法
技术领域
本发明涉及一种提取保险合同关键信息的方法,具体涉及一种利用感兴趣文本域卷积神经网络对保险合同文本中不同保险条款的关键信息进行提取的方法。
背景技术
自动文本分析在法律和金融等有大量合同文本的领域有很好的发展前景。传统的合同文本分析方法在人工阅读的基础上,通过对文本内容的分析判断合同文本中的不同元素,比如保险合同中的“保险金额”、“给付条件”等内容,这种方法效率低、耗时长,并且需要大量具有相关知识的工作人员。除了传统方法以外,基于机器学习的命名实体识别方法在相关问题上也有应用。基于超图的非连续法律实体识别,徐建忠等,信息技术与信息化,2017年6月公布了一种将超图模型应用于法律实体自动识别的方法。基于主题标签和CRF的中文微博命名实体识别,朱颢东等,华中师范大学学报(自然科学版),2018年7月公布了一种规则与统计相结合的基于条件随机场模型进行中文微博命名实体识别的方法。基于GRU的命名实体识别方法,王洁等,计算机系统应用,2018年9月公布了一种基于GRU(GatedRecurrent Unit)的命名实体识别方法,为了解决传统实体识别的人力成本和时间成本。综上所述,大部分的研究工作使用不同的方法解决不同场景下具体的问题。然而在保险合同中存在对于保险责任范围同一实体的不同表述,且存在大量实体之间的嵌套。因此建立一个能够识别保险合同中同一实体的不同表述,并且能够准确识别嵌套实体的模型仍是研究的难点。
发明内容
本发明的目的是克服现有技术中的不足,提供一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法,将大量保险合同自动转化为格式化结构并对保险合同中不同元素进行标记,在效率方面显著优于现有方法,同时能够有效地加速并帮助保险行业相关工作人员处理保险合同。
这种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法,包括以下步骤:
1)标注保险合同中的关键信息生成保险合同知识库:使用中文分词系统对中文保险合同文本进行分词;同时对不同保险条款中的关键信息进行标注,并将其存储为保险合同知识库用来训练感兴趣文本域卷积神经网络;其中关键信息包括投保范围和保险金额;其次使用分词后的保险合同文本训练词向量,将词向量结果存储为词向量嵌入模型;
2)设计感兴趣文本域的卷积神经网络:网络首先对输入做卷积,之后感兴趣文本域池化层从特征图中抽取固定长度的特征向量进行操作并组合,组合的结果会通过全连接层输入Softmax分类器,分类器输出对该感兴趣文本域分类的结果;整个网络包括四层:卷积层、感兴趣文本域(Text of interest,TOI)池化层、全连接层与最终输出层;
3)网络的训练需要两类样本:文本合同中完整的句子和这些句子当中的训练样本,训练样本包括标注好的元素类别和负样本;负样本定义为与该句话中所有真实样本的IoU指数都小于某个限度的一个滑动窗口,其中
Figure BDA0001942174630000021
a,b为两段需要进行计算的文本;使用这两类样本对网络进行训练,每一个训练数据都使用one-hot对类别进行编码;损失函数为
Figure BDA0001942174630000022
其中
Figure BDA0001942174630000023
是网络中Softmax分类器的输出;
4)训练好的感兴趣文本域卷积神经网络在使用时还需要非极大值抑制算法(NMS);首先,NMS根据分数(分类概率)对所有感兴趣文本域进行排序,把分数最大的窗口放到队列中;其次,计算其余窗口与队列中第一个感兴趣文本域的IoU,去除IoU大于设定的阈值的其余窗口;然后重复上面的过程,直至候选窗口队列为空。
作为优选:所述步骤2)中,感兴趣文本域的卷积神经网络的具体结构如下:
2.1)第一层是卷积层;首先从词向量嵌入模型中找到输入文本中每个词所对应的词向量,再将其按顺序拼接,其中每个单词的词向量为k维;卷积层的输入大小为n×k,n为不同文本中最长句子的长度,对长度不足的句子进行补0处理;卷积层中有一组卷积核,每个卷积核的大小为h×k,h为卷积核的长度;卷积层的输出为p个经过Relu激活函数的特征图,每个特征图的大小为(n-h+1)×1;
2.2)感兴趣文本域(Text of interest,TOI)池化层使用最大池化将特征图中的某一部分转化为固定长度L的向量,这些向量连接起来就是TOI池化层的输出;感兴趣文本域窗口就是特征图中需要进行池化操作的部分,感兴趣文本域窗口的长度用rl表示,训练过程中选择各种不同长度的rl;TOI池化层会独立的在每个特征图上最大池化操作,其中输出的每个单元所对应在特征图上的长度为
Figure BDA0001942174630000024
最大池化的起始位置相同;最后将所有的结果按顺序合并到一起作为TOI池化层的输出;
2.3)全连接层的输入大小为72×1的向量,输出大小为36×1的向量作为最后输出层的输入;输出层使用Softmax分类器,输出类别总数为K+1,其中K代表保险合同中元素的类别总数。
作为优选:所述步骤3)中,使用反向传播算法对网络进行训练时,网络中参数偏导数的计算方法为:
Figure BDA0001942174630000031
其中xi表示网络池化层输入特征图中的某个元素,ys,j表示池化层与xi对应的输出,s代表一个句子对应的第s个训练样本,j代表此样本对应的第j个子窗口。
本发明的有益效果是:本发明提出的感兴趣文本域卷积神经网络可以有效的解决保险合同标记中的元素重叠问题,显著优于基于概率图模型的现有方法,同时表明了本发明所提出的保险合同标注方法的优越性。
附图说明
图1是本方法的流程图;
图2是本方法中感兴趣文本域的卷积神经网络结构图。
具体实施方式
下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
在保险合同信息标注中,一个主要的困难就是标签的重叠,这与自然语言处理中的命名实体识别不同,不同标签之间会出现覆盖现象,因此本发明使用感兴趣文本域的卷积神经网络解决保险合同文本标注的问题。
所述的基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法,包括以下步骤:
1、标注保险合同中的关键信息生成保险合同知识库
标注保险合同中的关键信息生成保险合同知识库:使用中文分词系统对中文保险合同文本进行分词;同时对不同保险条款中的关键信息进行标注,并将其存储为保险合同知识库用来训练感兴趣文本域卷积神经网络。具体来说本发明定义了如下七类保险条款关键信息:投保范围(C),保险期间(PC),给付条件(CP),保险金额(IA),等待期(WP),保险责任的终止(T),保险责任的免除(E)。示例在图1的输出中展示。其次使用分词后的保险合同文本训练词向量,将词向量结果存储为词向量嵌入模型。在文本输入时,用词向量嵌入模型对文本进行处理,将单词转化为多维向量作为感兴趣文本域卷积神经网络的输入。
2、感兴趣文本域卷积神经网络的设计
在上述定义的基础上,本发明改进了普通的卷积神经网络:感兴趣文本域的卷积神经网络(TOI—CNN)。TOI-CNN首先对整个句子做卷积,之后感兴趣文本域池化层从特征图中抽取固定长度的特征向量进行操作并组合,组合的结果会通过全连接层输入Softmax分类器,分类器输出对该段文本分类的结果。网络的输入为保险合同中的一句话,输出为这句话在不同感兴趣文本域下的类别分数(即属于某类别的概率)。如图2所示,整个网络包括四层:卷积层、TOI(感兴趣文本域)池化层、全连接层与最终输出层。网络结构如下:
2.1、卷积层
普通的卷积神经网络与经过预训练的词向量组成第一层卷积层。卷积层以文本的词向量作为输入,其中每个单词的词向量为k维,wi表示第i个单词。卷积层输入的大小为n×k,n为不同文本中最长句子的长度,对长度不足的句子进行补0。卷积神经网络使用Relu函数作为激活函数。卷积层中有一组卷积核,每个卷积核的大小为h×k,h是卷积核的长度,一般设置为5。卷积层的输出为p个经过Relu激活函数的特征图,每个特征图的大小为(n-h+1)×1。
2.2、感兴趣文本域(Text of interest,TOI)池化层
TOI池化层使用最大池化的方法,将特征图中与感兴趣文本域长度对应的一块区域(黑框表示)转化成固定长度L的向量,在图2中L=2,同时用黑色曲线与方框解释了TOI池化层中感兴趣文本域区域与卷积层输出的特征图区域的对应关系:特征图中黑色方框代表此时的感兴趣文本域对应的区域,感兴趣文本域的长度用rl表示,rl长度为6。对每一个特征图独立进行POI池化计算,计算后的结果拼接在一起作为此层的输出。感兴趣文本域窗口就是特征图中需要进行池化操作的部分,输出结果中每一个元素所对应的感兴趣文本域中用来进行最大池化操作的区域长度为为
Figure BDA0001942174630000041
在图2中为6/2=3,对特征图中对应位置长度为3的区域进行最大池化就可以得到感兴趣文本域窗口中的1个元素。对不同特征图进行POI池化计算时,最大池化区域起始位置相同。
2.3、全连接层与输出层
最大池化层输出的结果通过一个全连接层从大小为72×1减少到36×1,最后再经过Softmax分类器输出某一个类别最大的概率。分类器的分类结果中有类别总数K+1种分类结果,多的1种类别在训练过程中代表负样本,在模型使用过称中代表保险合同文本信息标注中不需要处理的部分。
3、感兴趣文本域的卷积神经网络训练
网络训练需要两类样本:文本合同中完整的句子和这些句子当中选取好的训练样本,训练样本包括标注好的元素类别和负样本。负样本定义为该句话中的窗口,该窗口与该句话中所有真实样本的IoU(intersection-over-union)都小于某个阈值。
Figure BDA0001942174630000051
a,b为两段需要进行计算的文本。使用这两类样本对网络进行训练,每一个训练数据都使用one-hot对类别进行编码。类别为j的训练数据编码为p=(0,...,pj=1,...,0)。损失函数为:
Figure BDA0001942174630000054
其中
Figure BDA0001942174630000053
是网络中Softmax分类器的输出。用xi表示网络池化层输入特征图中的某个元素,ys,j表示池化层与xi对应的输出并且xi与输出相等,s代表与该句子对应的第s个训练样本,j代表此样本对应的第j个子窗口。那么网络在池化层的偏导数为:
Figure BDA0001942174630000052
4、使用感兴趣文本域的卷积神经网络标注保险合同
模型训练好之后无法直接使用,将保险合同中的一句话输入进网络时,有多个感兴趣文本域窗口长度并且这些窗口对应特征图中的不同起始点会产生不同的结果,为了准确的判断保险合同文本中不同元素的类别,需要使用非极大值抑制方法(NMS)对不同的感兴趣文本域窗口进行处理。首先,NMS根据分数(分类概率)对所有感兴趣文本域进行排序,把分数最大的窗口放到队列中其次,计算其余窗口与队列中第一个感兴趣文本域的IoU,去除IoU大于设定的阈值的其余窗口。然后重复上面的过程,直至候选窗口队列为空。需要注意的是:NMS一次处理一个类别,如果有N个类别,最大值抑制算法就需要执行N次。
实验及结果:
为了验证该方法的效果,评估我们提出方法的性能,保险合同文本标注试验使用了自己收集的500个真实的保险合同文本,其中包括寿险、健康险、财产险、住房保险以及汽车险。该实验使用其中的350个合同训练词向量,而其余150个合同进行手工标注用来测试保险合同信息标注的效果。
表1展示了本方法进行标注实验的结果,包括准确率(P),召回率(R)与F1分数以及它们的均值。文本标注的类别有投保范围(C),保险期间(PC),给付条件(CP),保险金额(IA),等待期(WP),保险责任的终止(T),保险责任的免除(E)。实验分别对比了两种常用的中文分词器:结巴中文分词(Jieba)与中科院汉语分词系统(NLPIR)。从实验结果中可以看出感兴趣文本域卷积神经网络(TOI-CNN)在每个类别的保险合同实体识别上都有杰出的表现。
表1通过本方法进行保险合同文本类别标注实验的结果
Figure BDA0001942174630000061
实验结论:
本专利提出了一种新的保险合同文本标注方法,在自己收集的一个中文保险合同数据集进行了试验,定义并标注了保险合同中的7种关键信息元素。该数据集现已公开。实验结果表明:本专利提出的感兴趣文本域卷积神经网络可以有效的解决保险合同标记中的元素重叠问题,显著优于基于概率图模型的现有方法,同时表明了本专利所提出保险合同标注方法的优越性。

Claims (3)

1.一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法,其特征在于,包括以下步骤:
1)标注保险合同中的关键信息生成保险合同知识库:使用中文分词系统对中文保险合同文本进行分词;同时对不同保险条款中的关键信息进行标注,并将其存储为保险合同知识库用来训练感兴趣文本域卷积神经网络;其中关键信息包括投保范围和保险金额;其次使用分词后的保险合同文本训练词向量,将词向量结果存储为词向量嵌入模型;
2)设计感兴趣文本域的卷积神经网络:网络首先对输入做卷积,之后感兴趣文本域池化层从特征图中抽取固定长度的特征向量进行操作并组合,组合的结果会通过全连接层输入Softmax分类器,分类器输出对该感兴趣文本域分类的结果;整个网络包括四层:卷积层、感兴趣文本域TOI池化层、全连接层与最终输出层;
3)网络的训练需要两类样本:文本合同中完整的句子和这些句子当中的训练样本,训练样本包括标注好的元素类别和负样本;负样本定义为与该句话中所有真实样本的IoU指数都小于某个限度的一个滑动窗口,其中
Figure FDA0001942174620000011
a,b为两段需要进行计算的文本;使用这两类样本对网络进行训练,每一个训练数据都使用one-hot对类别进行编码;损失函数为
Figure FDA0001942174620000012
其中
Figure FDA0001942174620000013
是网络中Softmax分类器的输出;
4)训练好的感兴趣文本域卷积神经网络在使用时还需要非极大值抑制算法NMS;首先,NMS根据分数即分类概率对所有感兴趣文本域进行排序,把分数最大的窗口放到队列中;其次,计算其余窗口与队列中第一个感兴趣文本域的IoU,去除IoU大于设定的阈值的其余窗口;然后重复上面的过程,直至候选窗口队列为空。
2.根据权利要求1所述的基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法,其特征在于,所述步骤2)中,感兴趣文本域的卷积神经网络的具体结构如下:
2.1)第一层是卷积层;首先从词向量嵌入模型中找到输入文本中每个词所对应的词向量,再将其按顺序拼接,其中每个单词的词向量为k维;卷积层的输入大小为n×k,n为不同文本中最长句子的长度,对长度不足的句子进行补0处理;卷积层中有一组卷积核,每个卷积核的大小为h×k,h为卷积核的长度;卷积层的输出为p个经过Relu激活函数的特征图,每个特征图的大小为(n-h+1)×1;
2.2)感兴趣文本域TOI池化层使用最大池化将特征图中的某一部分转化为固定长度L的向量,这些向量连接起来就是TOI池化层的输出;感兴趣文本域窗口就是特征图中需要进行池化操作的部分,感兴趣文本域窗口的长度用rl表示,训练过程中选择各种不同长度的rl;TOI池化层独立的在每个特征图上最大池化操作,其中输出的每个单元所对应在特征图上的长度为
Figure FDA0001942174620000021
最大池化的起始位置相同;最后将所有的结果按顺序合并到一起作为TOI池化层的输出;
2.3)全连接层的输入大小为72×1的向量,输出大小为36×1的向量作为最后输出层的输入;输出层使用Softmax分类器,输出类别总数为K+1,其中K代表保险合同中元素的类别总数。
3.根据权利要求1所述的基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法,其特征在于,所述步骤3)中,使用反向传播算法对网络进行训练时,网络中参数偏导数的计算方法为:
Figure FDA0001942174620000022
其中xi表示网络池化层输入特征图中的某个元素,ys,j表示池化层与xi对应的输出,s代表一个句子对应的第s个训练样本,j代表此样本对应的第j个子窗口。
CN201910025071.XA 2019-01-11 2019-01-11 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法 Active CN109492230B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910025071.XA CN109492230B (zh) 2019-01-11 2019-01-11 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910025071.XA CN109492230B (zh) 2019-01-11 2019-01-11 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法

Publications (2)

Publication Number Publication Date
CN109492230A CN109492230A (zh) 2019-03-19
CN109492230B true CN109492230B (zh) 2022-12-20

Family

ID=65714386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910025071.XA Active CN109492230B (zh) 2019-01-11 2019-01-11 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法

Country Status (1)

Country Link
CN (1) CN109492230B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7164888B2 (ja) * 2019-03-29 2022-11-02 智博 小野 契約書チェック装置及びそのプログラム
CN110276279B (zh) * 2019-06-06 2020-06-16 华东师范大学 一种基于图像分割的任意形状场景文本探测方法
CN110232438B (zh) * 2019-06-06 2021-07-20 北京致远慧图科技有限公司 一种极坐标系下卷积神经网络的图像处理方法及装置
CN110298043B (zh) * 2019-07-03 2023-04-07 吉林大学 一种车辆命名实体识别方法及系统
CN111652745B (zh) * 2020-05-28 2023-03-21 泰康保险集团股份有限公司 一种管理保险等待期的系统、方法、电子设备及存储介质
CN113221564B (zh) * 2021-04-29 2024-03-01 北京百度网讯科技有限公司 训练实体识别模型的方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570148A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于卷积神经网络的属性抽取方法
CN106980858A (zh) * 2017-02-28 2017-07-25 中国科学院信息工程研究所 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法
CN108509423A (zh) * 2018-04-04 2018-09-07 福州大学 一种基于二阶hmm的中标网页命名实体抽取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10678846B2 (en) * 2017-03-10 2020-06-09 Xerox Corporation Instance-level image retrieval with a region proposal network
US20180285397A1 (en) * 2017-04-04 2018-10-04 Cisco Technology, Inc. Entity-centric log indexing with context embedding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570148A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于卷积神经网络的属性抽取方法
CN106980858A (zh) * 2017-02-28 2017-07-25 中国科学院信息工程研究所 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法
CN108509423A (zh) * 2018-04-04 2018-09-07 福州大学 一种基于二阶hmm的中标网页命名实体抽取方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CNN Based Page Object Detection in Document Images;Xiaohan Yi等;《2017 14th IAPR International Conference on Document Analysis and Recognition》;20171231;全文 *
Cnn-iets: A cnn-based probabilistics approach for information extraction by text segmentation;Meng Hu等;《Proceedings of the 2017 ACM on Conference on Information and Knowledge Management》;20171231;全文 *
Nested named entity recognition revisited;Arzoo Katiyar等;《Proceedings of the 2018 Conference of the North American》;20181231;全文 *
中文嵌套命名实体关系抽取研究;许浩亮;《北京大学学报》;20180822;全文 *
基于特征融合网络的自然场景文本检测;余峥等;《计算机系统应用》;20180928;全文 *

Also Published As

Publication number Publication date
CN109492230A (zh) 2019-03-19

Similar Documents

Publication Publication Date Title
CN109492230B (zh) 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
CN111639171A (zh) 一种知识图谱问答方法及装置
CN112214610A (zh) 一种基于跨度和知识增强的实体关系联合抽取方法
CN112711953A (zh) 一种基于注意力机制和gcn的文本多标签分类方法和系统
CN106294344A (zh) 视频检索方法和装置
CN110688452B (zh) 一种文本语义相似度评估方法、系统、介质和设备
CN111143567B (zh) 一种基于改进神经网络的评论情感分析方法
CN111931505A (zh) 一种基于子图嵌入的跨语言实体对齐方法
CN110633366A (zh) 一种短文本分类方法、装置和存储介质
CN112732921B (zh) 一种虚假用户评论检测方法及系统
WO2020232898A1 (zh) 文本分类方法、装置、电子设备及计算机非易失性可读存储介质
CN111914099A (zh) 一种交通优化策略的智能问答方法、系统、装置及介质
CN111428511B (zh) 一种事件检测方法和装置
CN113948217A (zh) 一种基于局部特征整合的医学嵌套命名实体识别方法
CN115587597B (zh) 基于子句级关系图的方面词的情感分析方法以及装置
CN115858785A (zh) 一种基于大数据的敏感数据识别方法及系统
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN115953123A (zh) 机器人自动化流程的生成方法、装置、设备及存储介质
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN112685374A (zh) 日志分类方法、装置及电子设备
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN111553442B (zh) 一种分类器链标签序列的优化方法及系统
CN117009518A (zh) 融合基本属性和文本内容的相似事件判断方法及其应用
CN115759095A (zh) 一种烟草病虫害的命名实体识别方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant