CN110297913A - 一种电子公文实体抽取方法 - Google Patents

一种电子公文实体抽取方法 Download PDF

Info

Publication number
CN110297913A
CN110297913A CN201910507540.1A CN201910507540A CN110297913A CN 110297913 A CN110297913 A CN 110297913A CN 201910507540 A CN201910507540 A CN 201910507540A CN 110297913 A CN110297913 A CN 110297913A
Authority
CN
China
Prior art keywords
feature
crf
entity
word
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910507540.1A
Other languages
English (en)
Inventor
陈达纲
李泽源
李泽松
刘昆南
宋亚军
王鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Division Big Data Research Institute Co Ltd
Original Assignee
Division Big Data Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Division Big Data Research Institute Co Ltd filed Critical Division Big Data Research Institute Co Ltd
Priority to CN201910507540.1A priority Critical patent/CN110297913A/zh
Publication of CN110297913A publication Critical patent/CN110297913A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种电子公文实体抽取方法,包括如下步骤:A.预处理;B.构造特征;C.训练实体抽取模型;D.获取语料;E.获取词向量;F.训练算法模型。本发明采用传统的序列标注算法与深度学习算法相结合,利用传统序列算法需要少语料标注的优点,采用半监督的方法扩充语料,解决深度学习算法需要人工标注大量语料的费时费力问题;在CRF模型中添加最大正向及逆向词典、句法和语义特征,充分考虑了实体词出现的前后边界词特性,让算法更具泛化能力;采用dilated CNN与BiLSTM‑CRF相结合,dilated CNN将字符级向量与字符级位置特征作为外部特征,与词性向量一起拼接到词向量中,可以一定程度表达出更多的语义和上下相关信息。

Description

一种电子公文实体抽取方法
技术领域
本发明涉及一种电子公文实体抽取方法,具体涉及一种基于半监督的dilatedCNN-BiLSTM-CRF的电子公文实体抽取方法。
背景技术
公文是由特定部门机关撰写,不仅具有法律效力的政策活动证据,而且包含大量的专业政策知识,其中蕴含大量的实体信息,如:人名、地名、发文机关、组织机构名、科研项目名称、时间、事件等,只要是业务需要的特殊文本片段都可以称为实体,抽取这些实体或概念是公文分词、依存句法分析、语法分析等工作的前提,对公文本体构建、知识图谱构造以及潜在语义分析等工作有着重要作用。因此,如何更为精准地从公文文本中识别出实体成为了当前的研究热点。
然而,随着社会时代的发展,法律法规等政策性公文文件数量逐渐增加,其中所包含的新生词也会不断增加,相关的领域实体也在不断丰富,并且公文领域长实体居多(如:四川省发展和改革委员会、四川省科学技术厅),与普通词汇差距大,一般的分词工具也很难实现对公文细分领域的准确分词,这些都为正确提取实体信息带来了挑战。当前,工业界所采用的方法主要包括传统机器学习方法:将实体抽取任务转化为序列标注任务,使用HMM、MEMM、CRF等方法,CRF是目前主流的实体抽取方法,需要标注的语料不需要太多,但需要熟悉公文领域实体的专家参与人工构建特征,这是一个长期的过程;基于深度学习的方法:深度学习无论从准去率、召回率还是F1值都优于传统序列标注算法,深度学习广泛采用:RNN-CRF和CNN-CRF,BiLSTM+CRF算法,不依赖于特征工程,且取得了较高的准确率和召回率,它通过两层长短记忆神经网络(LSTM)学习文本中蕴含的特征,可以省去人工特征构建这一繁琐任务。由于BiLSTM+CRF算法具有长的记忆功能,但输入是词袋模型,忽略了词之间的上下文信息,且不能解决多义词的问题,本文通过增加dilated CNN层,将字符级向量与字符级位置特征作为外部特征,与词性向量一起拼接到词向量中,再输入到BiLSTM+CR网络,这样可以一定程度表达出更多的语义和上下相关信息此外对,同时dilated CNN支持并行化可以加快模型的收敛速度。但深度学习方法,一般需要大量标注语料,否则极易出现过拟合,无法达到预期的泛化能力。
发明内容
为解决上述技术问题,本发明提供了一种电子公文实体抽取方法,该电子公文实体抽取方法能够有效提高实体识别的准确率及召回率。
本发明通过以下技术方案得以实现。
本发明提供的一种电子公文实体抽取方法,包括如下步骤:
A.预处理:利用爬虫系统获取政府公文的文本数据,将文本数据存入数据库中,并对文本数据进行专家标注;
B.构造特征:根据专家标注对文本数据提取CRF特征,CRF特征包括特征词本身、词性、词长、左右信息熵、TF_IDF、公文领域词典位置、基于词典的前向最大匹配分词、基于词典的后向最大匹配分词、基于LTP的句法及基于LTP的语义特征;
C.训练实体抽取模型:根据提取得到的CRF特征,通过CRF++训练实体抽取模型;
D.获取语料:利用实体抽取模型,对文本数据进行语料扩充抽取,确保语料条数不小于5000;
E.获取词向量:将得到的语料通过Bert算法表示成词向量;
F.训练算法模型:以词向量作为训练数据,以dilated CNN-BiLSTM-CRF算法的网络层作为模型架构,训练得到政府公文实体抽取算法模型。
所述dilated CNN-BiLSTM-CRF算法是指,由输入至输出依次为dilated CNN、BiLSTM、CRF模型的算法。
所述步骤B包括如下步骤:
B1.标记词性:通过人工标注的方式对特征词的词性进行标注;
B2.计算词的长度:对每个特征词计算词长度其中wi为W中的字;
B3.计算左右信息熵:计算左信息熵为计算右信息熵为
B4.计算TF_IDF:计算词频再计算逆向文档频率然后计算TF_IDF为TF_IDF=TF·IDF,其中count(w,d)为单词w在文档d中的出现次数,xize(d)为文档d中总的单词个数,n为文档总数,docs(w,d)为单词w所出现的文件数;
B5.匹配分词:通过公文领域专家建立领域词典,从左向右取待切分汉语句的maxlen个字符作为匹配字段与字典匹配,如果匹配保存结果,不匹配减少一个字继续重复此步骤,直到所取字符串为空;
B6.计算基于LTP的句法特征:通过LTP标出语句子的语法成分;
B7.计算基于LTP的语义特征:通过LTP标出句子的谓词,并标注出论元的角色。
所述步骤B1中,标注规范采用哈工大LTP词性规范。
所述maxlen取值为8。
所述步骤C中通过CRF++训练实体抽取模型包含如下步骤:
C1.确定特征模板:CRF特征模板中包括一元特征Unigram及二元特征Bigram,在给定的观察序列X时,某个待定标记序列Y的概率为exp(∑jitj(yi-1,yi,x,i))+∑kkSk(yi,x,i))),其中tj(yi-1,yi,x,i)为转移函数,sk(yi,x,i)为状态函数,λi为tj的权重,μk为sk的权重;
C2.模型训练及预测:以CRF特征模板和标注好的训练数据作为输入,以实体抽取模型为输出,调用CRF++工具进行训练。
所述步骤F中,训练轮数为400~750。
所述CRF特征模板中,一元特征Unigram的特征窗口为5。
本发明的有益效果在于:采用传统的序列标注算法与深度学习算法相结合,利用传统序列算法需要少语料标注的优点,采用半监督的方法扩充语料,解决深度学习算法需要人工标注大量语料的费时费力问题;在CRF模型中添加最大正向及逆向词典、句法和语义特征,充分考虑了实体词出现的前后边界词特性,让算法更具泛化能力;采用dilated CNN与BiLSTM-CRF相结合,dilated CNN将字符级向量与字符级位置特征作为外部特征,与词性向量一起拼接到词向量中,可以一定程度表达出更多的语义和上下相关信息。
附图说明
图1是本发明的流程示意图;
图2是本发明中dilated CNN-BiLSTM-CRF算法的架构示意图。
具体实施方式
下面进一步描述本发明的技术方案,但要求保护的范围并不局限于所述。
如图1和图2所示的一种电子公文实体抽取方法,包括如下步骤:
A.预处理:从政府网站爬取公文相关数据,大数据平台将文本清洗后存入HBase中,专家标注(采用B、I、E、S、O标准)政府领域内公文中的实体(2000条左右);
B.构造特征:根据专家标注对文本数据提取CRF特征,CRF特征包括特征词本身、词性、词长、左右信息熵、TF_IDF、公文领域词典位置、基于词典的前向/后向最大匹配分词、基于LTP的句法及语义角色特征等;
C.训练实体抽取模型:基于步骤B构建的特征将标注好的语料进行处理,通过CRF++训练出实体抽取模型;
D.获取语料:将未标注的语料通过步骤C得到的模型抽取出实体,经专家审核将标注正确的公文实体继续作为语料,反复重复扩充到足够语料(1w条以上);
E.获取词向量:将步骤D得到的语料通过Bert算法表示成词向量;
F.训练算法模型:将步骤E作为输入,设计dilated CNN-BiLSTM-CRF算法的网络层结构,通过参数及网络结构优化后,最终训练得到公文实体抽取算法模型。
所述dilated CNN-BiLSTM-CRF算法是指,由输入至输出依次为dilated CNN、BiLSTM、CRF模型的算法。
所述步骤B包括如下步骤:
B1.标记词性:通过人工标注的方式对特征词的词性进行标注;
B2.计算词的长度:对每个特征词计算词长度其中wi为W中的字;
B3.计算左右信息熵:
计算左信息熵为
计算右信息熵为
B4.计算TF_IDF:计算词频再计算逆向文档频率0.01是平滑系数,然后计算TF_IDF为TF_IDF=TF·IDF,其中count(w,d)为单词w在文档d中的出现次数,size(d)为文档d中总的单词个数,n为文档总数,docs(w,D)为单词w所出现的文件数;
B5.匹配分词:通过公文领域专家建立领域词典,从左向右取待切分汉语句的maxlen(公文领域长词较多,最优取8)个字符作为匹配字段与字典匹配,如果匹配保存结果,不匹配减少一个字继续重复此步骤,直到所取字符串为空;
B6.计算基于LTP的句法特征:通过LTP标出语句子的“主谓宾”,“定状补”等语法成分,如SBV、VOB、ATT等;
B7.计算基于LTP的语义特征:通过LTP标出句子的谓词,并标注出论元(与谓词搭配的名词)的角色,如:施事者(Agent)、受事者(Patient)、客体(Theme)。
所述步骤B1中,标注规范采用哈工大LTP词性规范。
所述步骤C中通过CRF++训练实体抽取模型包含如下步骤:
C1.确定特征模板:CRF特征模板中包括一元特征Unigram及二元特征Bigram,在给定的观察序列X时,某个待定标记序列Y的概率为exp(∑jitj(yi-1,yi,x,i))+∑k(μksk(yi,x,i))),其中tj(yi-1,yi,x,i)为转移函数,sk(yi,x,i)为状态函数,λi为tj的权重,μk为sk的权重;
C2.模型训练及预测:下载CRF++工具包,运行脚本:crf_learn–a MIRA–f 3–c 1.5template train.data model_name,–a MIRA–f 3–c 1.5都是调优参数,template是步骤②生成的模板文件,train.data标注好的训练数据,model_name生成的模型文件名,执行完成后会生成model_name文件,将未标注的数据test.data预处理后调用:crf_test–m model_name test.data>result,经模型预测出的结果存入result文件,抽取出文件中文实体标记序列即为文本实体。
对于步骤F,具体的,将步骤D中CRF算法预测的实体语料,经审核后扩充到标准语料库中,当其数量达到(1w—2w条)后,通过Bert框架训练出词向量,将训练的词向量再输入到dilated CNN-BiLSTM-CRF,最后通过500多轮的迭代,最终收敛到一个设定阈值停止迭代,即训练出可以在线上运行的实体识别模型。
所述CRF特征模板中,一元特征Unigram的特征窗口为5,即当前位置的前后两个词,以下是根据词特征构成的模板,还有其他特征构成的模板暂不列出,CRF会根据如下模板生成的状态特征
#Unigram
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-2,0]/%x[-1,0]/%x[0,0]
U06:%x[-1,0]/%x[0,0]/%x[1,0]
U07:%x[0,0]/%x[1,0]/%x[2,0]
U08:%x[-1,0]/%x[0,0]
U09:%x[0,0]/%x[1,0]
二元特征:在一元特征基础上,增加了前一个标注结果,直接写B工具会自动根据特征及前后标注结果一起产生特征函数,CRF会根据模板生成tj(yi-1,yi,x,i)的转移特征。
实施例1
采用上述方案作为Dilated CNN-BiLSTM-CRF算法方案,同时对比采用LSTM、BiLSTM、BiLSTM-CRF三种算法的方案,进行电子公文实体抽取,得到如表1所示的结果:
表1对比结果表
模型 精确率/% 召回率/% F值/%
LSTM 81.65 80.17 80.90
BiLSTM 83.22 82.59 82.90
BiLSTM-CRF 86.57 85.23 85.89
Dilated CNN-BiLSTM-CRF 91.59 91.08 91.33

Claims (8)

1.一种电子公文实体抽取方法,其特征在于:包括如下步骤:
A.预处理:利用爬虫系统获取政府公文的文本数据,将文本数据存入数据库中,并对文本数据进行专家标注;
B.构造特征:根据专家标注对文本数据提取CRF特征,CRF特征包括特征词本身、词性、词长、左右信息熵、TF_IDF、公文领域词典位置、基于词典的前向最大匹配分词、基于词典的后向最大匹配分词、基于LTP的句法及基于LTP的语义特征;
C.训练实体抽取模型:根据提取得到的CRF特征,通过CRF++训练实体抽取模型;
D.获取语料:利用实体抽取模型,对文本数据进行语料扩充抽取,确保语料条数不小于5000;
E.获取词向量:将得到的语料通过Bert算法表示成词向量;
F.训练算法模型:以词向量作为训练数据,以dilated CNN-BiLSTM-CRF算法的网络层作为模型架构,训练得到政府公文实体抽取算法模型。
2.如权利要求1所述的电子公文实体抽取方法,其特征在于:所述dilated CNN-BiLSTM-CRF算法是指,由输入至输出依次为dilated CNN、BiLSTM、CRF模型的算法。
3.如权利要求1所述的电子公文实体抽取方法,其特征在于:所述步骤B包括如下步骤:
B1.标记词性:通过人工标注的方式对特征词的词性进行标注;
B2.计算词的长度:对每个特征词计算词长度其中wi为W中的字;
B3.计算左右信息熵:计算左信息熵为计算右信息熵为
B4.计算TF_IDF:计算词频再计算逆向文档频率然后计算TF_IDF为TF_IDF=TF·IDF,其中count(w,d)为单词w在文档d中的出现次数,size(d)为文档d中总的单词个数,n为文档总数,docs(w,D)为单词w所出现的文件数;
B5.匹配分词:通过公文领域专家建立领域词典,从左向右取待切分汉语句的maxlen个字符作为匹配字段与字典匹配,如果匹配保存结果,不匹配减少一个字继续重复此步骤,直到所取字符串为空;
B6.计算基于LTP的句法特征:通过LTP标出语句子的语法成分;
B7.计算基于LTP的语义特征:通过LTP标出句子的谓词,并标注出论元的角色。
4.如权利要求3所述的电子公文实体抽取方法,其特征在于:所述步骤B1中,标注规范采用哈工大LTP词性规范。
5.如权利要求3所述的电子公文实体抽取方法,其特征在于:所述maxlen取值为8。
6.如权利要求1所述的电子公文实体抽取方法,其特征在于:所述步骤C中通过CRF++训练实体抽取模型包含如下步骤:
C1.确定特征模板:CRF特征模板中包括一元特征Unigram及二元特征Bigram,在给定的观察序列X时,某个待定标记序列Y的概率为exp(∑jitj(yi-1,yi,x,i))+∑kksk(yi,x,i))),其中tj(yi-1,yi,x,i)为转移函数,sk(yi,x,i)为状态函数,λi为tj的权重,μk为sk的权重;
C2.模型训练及预测:以CRF特征模板和标注好的训练数据作为输入,以实体抽取模型为输出,调用CRF++工具进行训练。
7.如权利要求1所述的电子公文实体抽取方法,其特征在于:所述步骤F中,训练轮数为400~750。
8.如权利要求6所述的电子公文实体抽取方法,其特征在于:所述CRF特征模板中,一元特征Unigram的特征窗口为5。
CN201910507540.1A 2019-06-12 2019-06-12 一种电子公文实体抽取方法 Pending CN110297913A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910507540.1A CN110297913A (zh) 2019-06-12 2019-06-12 一种电子公文实体抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910507540.1A CN110297913A (zh) 2019-06-12 2019-06-12 一种电子公文实体抽取方法

Publications (1)

Publication Number Publication Date
CN110297913A true CN110297913A (zh) 2019-10-01

Family

ID=68027931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910507540.1A Pending CN110297913A (zh) 2019-06-12 2019-06-12 一种电子公文实体抽取方法

Country Status (1)

Country Link
CN (1) CN110297913A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968661A (zh) * 2020-03-04 2020-04-07 成都数联铭品科技有限公司 事件抽取方法及系统、计算机可读存储介质及电子设备
CN111027306A (zh) * 2019-12-23 2020-04-17 园宝科技(武汉)有限公司 一种基于关键词抽取和词移距离的知识产权匹配技术
CN111079418A (zh) * 2019-11-06 2020-04-28 科大讯飞股份有限公司 命名体识别方法、装置、电子设备和存储介质
CN111191452A (zh) * 2019-12-24 2020-05-22 中国铁道科学研究院集团有限公司电子计算技术研究所 一种铁路文本命名实体识别方法及装置
CN111325018A (zh) * 2020-01-21 2020-06-23 上海恒企教育培训有限公司 一种基于web检索和新词发现的领域词典构建方法
CN111444704A (zh) * 2020-03-27 2020-07-24 中南大学 基于深度神经网络的网络安全关键词抽取方法
CN111523304A (zh) * 2020-04-27 2020-08-11 华东师范大学 一种基于预训练模型的产品描述文本的自动生成方法
CN112257442A (zh) * 2020-09-27 2021-01-22 重庆生产力促进中心 一种基于扩充语料库神经网络的政策文件信息提取方法
CN112487206A (zh) * 2020-12-09 2021-03-12 中国电子科技集团公司第三十研究所 一种自动构建数据集的实体关系抽取方法
CN112528676A (zh) * 2020-12-18 2021-03-19 南开大学 文档级别的事件论元抽取方法
CN112668335A (zh) * 2020-12-21 2021-04-16 广州市申迪计算机系统有限公司 一种利用命名实体识别提取营业执照结构化信息的方法
WO2021072852A1 (zh) * 2019-10-16 2021-04-22 平安科技(深圳)有限公司 序列标注方法、系统和计算机设备
CN112733526A (zh) * 2021-01-28 2021-04-30 成都不问科技有限公司 一种自动识别财税文件中征税对象的抽取方法
CN112836046A (zh) * 2021-01-13 2021-05-25 哈尔滨工程大学 一种四险一金领域政策法规文本实体识别方法
CN113051910A (zh) * 2021-03-19 2021-06-29 上海森宇文化传媒股份有限公司 一种用于预测人物角色情绪的方法和装置
CN113127503A (zh) * 2021-03-18 2021-07-16 中国科学院国家空间科学中心 一种面向航天情报的自动信息提取方法及系统
CN113190541A (zh) * 2021-05-12 2021-07-30 《中国学术期刊(光盘版)》电子杂志社有限公司 一种基于数字人文的实体识别方法
CN113268576A (zh) * 2021-06-02 2021-08-17 北京汇声汇语科技有限公司 一种基于深度学习的部门语义信息抽取的方法及装置
CN113392649A (zh) * 2021-07-08 2021-09-14 上海浦东发展银行股份有限公司 一种识别方法、装置、设备及存储介质
CN113971404A (zh) * 2021-10-29 2022-01-25 中南民族大学 一种基于解耦注意力的文物安全命名实体识别方法
CN115270797A (zh) * 2022-09-23 2022-11-01 山东省计算中心(国家超级计算济南中心) 一种基于自训练半监督学习的文本实体抽取方法及系统
CN112668335B (zh) * 2020-12-21 2024-05-31 广州市申迪计算机系统有限公司 一种利用命名实体识别提取营业执照结构化信息的方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718586A (zh) * 2016-01-26 2016-06-29 中国人民解放军国防科学技术大学 分词的方法及装置
CN107193959A (zh) * 2017-05-24 2017-09-22 南京大学 一种面向纯文本的企业实体分类方法
CN108255813A (zh) * 2018-01-23 2018-07-06 重庆邮电大学 一种基于词频-逆文档与crf的文本匹配方法
CN108549635A (zh) * 2018-04-09 2018-09-18 北京信息科技大学 一种专利文献领域术语抽取方法
CN108595425A (zh) * 2018-04-20 2018-09-28 昆明理工大学 基于主题与语义的对话语料关键词抽取方法
CN108959242A (zh) * 2018-05-08 2018-12-07 中国科学院信息工程研究所 一种基于中文字符词性特征的目标实体识别方法及装置
CN108959252A (zh) * 2018-06-28 2018-12-07 中国人民解放军国防科技大学 基于深度学习的半监督中文命名实体识别方法
CN109189900A (zh) * 2018-08-03 2019-01-11 北京捷易迅信息技术有限公司 一种用于bot系统的实体抽取方法
CN109472026A (zh) * 2018-10-31 2019-03-15 北京国信云服科技有限公司 一种同时针对多个命名实体的精准情感信息提取方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718586A (zh) * 2016-01-26 2016-06-29 中国人民解放军国防科学技术大学 分词的方法及装置
CN107193959A (zh) * 2017-05-24 2017-09-22 南京大学 一种面向纯文本的企业实体分类方法
CN108255813A (zh) * 2018-01-23 2018-07-06 重庆邮电大学 一种基于词频-逆文档与crf的文本匹配方法
CN108549635A (zh) * 2018-04-09 2018-09-18 北京信息科技大学 一种专利文献领域术语抽取方法
CN108595425A (zh) * 2018-04-20 2018-09-28 昆明理工大学 基于主题与语义的对话语料关键词抽取方法
CN108959242A (zh) * 2018-05-08 2018-12-07 中国科学院信息工程研究所 一种基于中文字符词性特征的目标实体识别方法及装置
CN108959252A (zh) * 2018-06-28 2018-12-07 中国人民解放军国防科技大学 基于深度学习的半监督中文命名实体识别方法
CN109189900A (zh) * 2018-08-03 2019-01-11 北京捷易迅信息技术有限公司 一种用于bot系统的实体抽取方法
CN109472026A (zh) * 2018-10-31 2019-03-15 北京国信云服科技有限公司 一种同时针对多个命名实体的精准情感信息提取方法

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021072852A1 (zh) * 2019-10-16 2021-04-22 平安科技(深圳)有限公司 序列标注方法、系统和计算机设备
CN111079418A (zh) * 2019-11-06 2020-04-28 科大讯飞股份有限公司 命名体识别方法、装置、电子设备和存储介质
CN111079418B (zh) * 2019-11-06 2023-12-05 科大讯飞股份有限公司 命名体识别方法、装置、电子设备和存储介质
CN111027306A (zh) * 2019-12-23 2020-04-17 园宝科技(武汉)有限公司 一种基于关键词抽取和词移距离的知识产权匹配技术
CN111191452A (zh) * 2019-12-24 2020-05-22 中国铁道科学研究院集团有限公司电子计算技术研究所 一种铁路文本命名实体识别方法及装置
CN111325018A (zh) * 2020-01-21 2020-06-23 上海恒企教育培训有限公司 一种基于web检索和新词发现的领域词典构建方法
CN111325018B (zh) * 2020-01-21 2023-08-11 上海恒企教育培训有限公司 一种基于web检索和新词发现的领域词典构建方法
CN110968661A (zh) * 2020-03-04 2020-04-07 成都数联铭品科技有限公司 事件抽取方法及系统、计算机可读存储介质及电子设备
CN111444704A (zh) * 2020-03-27 2020-07-24 中南大学 基于深度神经网络的网络安全关键词抽取方法
CN111444704B (zh) * 2020-03-27 2023-09-19 中南大学 基于深度神经网络的网络安全关键词抽取方法
CN111523304B (zh) * 2020-04-27 2022-08-02 华东师范大学 一种基于预训练模型的产品描述文本的自动生成方法
CN111523304A (zh) * 2020-04-27 2020-08-11 华东师范大学 一种基于预训练模型的产品描述文本的自动生成方法
CN112257442A (zh) * 2020-09-27 2021-01-22 重庆生产力促进中心 一种基于扩充语料库神经网络的政策文件信息提取方法
CN112487206A (zh) * 2020-12-09 2021-03-12 中国电子科技集团公司第三十研究所 一种自动构建数据集的实体关系抽取方法
CN112528676B (zh) * 2020-12-18 2022-07-08 南开大学 文档级别的事件论元抽取方法
CN112528676A (zh) * 2020-12-18 2021-03-19 南开大学 文档级别的事件论元抽取方法
CN112668335B (zh) * 2020-12-21 2024-05-31 广州市申迪计算机系统有限公司 一种利用命名实体识别提取营业执照结构化信息的方法
CN112668335A (zh) * 2020-12-21 2021-04-16 广州市申迪计算机系统有限公司 一种利用命名实体识别提取营业执照结构化信息的方法
CN112836046A (zh) * 2021-01-13 2021-05-25 哈尔滨工程大学 一种四险一金领域政策法规文本实体识别方法
CN112733526A (zh) * 2021-01-28 2021-04-30 成都不问科技有限公司 一种自动识别财税文件中征税对象的抽取方法
CN112733526B (zh) * 2021-01-28 2023-11-17 成都不问科技有限公司 一种自动识别财税文件中征税对象的抽取方法
CN113127503A (zh) * 2021-03-18 2021-07-16 中国科学院国家空间科学中心 一种面向航天情报的自动信息提取方法及系统
CN113051910B (zh) * 2021-03-19 2023-05-26 上海森宇文化传媒股份有限公司 一种用于预测人物角色情绪的方法和装置
CN113051910A (zh) * 2021-03-19 2021-06-29 上海森宇文化传媒股份有限公司 一种用于预测人物角色情绪的方法和装置
CN113190541A (zh) * 2021-05-12 2021-07-30 《中国学术期刊(光盘版)》电子杂志社有限公司 一种基于数字人文的实体识别方法
CN113268576A (zh) * 2021-06-02 2021-08-17 北京汇声汇语科技有限公司 一种基于深度学习的部门语义信息抽取的方法及装置
CN113268576B (zh) * 2021-06-02 2024-03-08 北京汇声汇语科技有限公司 一种基于深度学习的部门语义信息抽取的方法及装置
CN113392649A (zh) * 2021-07-08 2021-09-14 上海浦东发展银行股份有限公司 一种识别方法、装置、设备及存储介质
CN113392649B (zh) * 2021-07-08 2023-04-07 上海浦东发展银行股份有限公司 一种识别方法、装置、设备及存储介质
CN113971404A (zh) * 2021-10-29 2022-01-25 中南民族大学 一种基于解耦注意力的文物安全命名实体识别方法
CN115270797A (zh) * 2022-09-23 2022-11-01 山东省计算中心(国家超级计算济南中心) 一种基于自训练半监督学习的文本实体抽取方法及系统

Similar Documents

Publication Publication Date Title
CN110297913A (zh) 一种电子公文实体抽取方法
CN112417880B (zh) 一种面向法院电子卷宗的案情信息自动抽取方法
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
WO2020063092A1 (zh) 知识图谱的处理方法及装置
CN109344391A (zh) 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN109408812A (zh) 一种基于注意力机制的序列标注联合抽取实体关系的方法
CN106844349B (zh) 基于协同训练的垃圾评论识别方法
CN110502644B (zh) 一种领域层级词典挖掘构建的主动学习方法
CN108415906B (zh) 基于领域自动识别篇章机器翻译方法、机器翻译系统
CN108647191B (zh) 一种基于有监督情感文本和词向量的情感词典构建方法
CN105261358A (zh) 用于语音识别的n元文法模型构造方法及语音识别系统
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
He et al. Using convolutional neural network with BERT for intent determination
CN110276069A (zh) 一种中国盲文错误自动检测方法、系统及存储介质
US20240111956A1 (en) Nested named entity recognition method based on part-of-speech awareness, device and storage medium therefor
CN112101014B (zh) 一种混合特征融合的中文化工文献分词方法
CN111191464A (zh) 基于组合距离的语义相似度计算方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN112818698A (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN105677639A (zh) 一种基于短语结构句法树的英文词义消歧方法
CN117094325A (zh) 水稻病虫害领域命名实体识别方法
Long et al. A method of Chinese named entity recognition based on CNN-BiLSTM-CRF model
Huang et al. Attention-based bidirectional long short-term memory networks for Chinese named entity recognition
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191001