CN110297913A - 一种电子公文实体抽取方法 - Google Patents
一种电子公文实体抽取方法 Download PDFInfo
- Publication number
- CN110297913A CN110297913A CN201910507540.1A CN201910507540A CN110297913A CN 110297913 A CN110297913 A CN 110297913A CN 201910507540 A CN201910507540 A CN 201910507540A CN 110297913 A CN110297913 A CN 110297913A
- Authority
- CN
- China
- Prior art keywords
- feature
- crf
- entity
- word
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000010276 construction Methods 0.000 claims abstract description 6
- 230000008569 process Effects 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 abstract description 8
- 238000002372 labelling Methods 0.000 abstract description 5
- 230000008901 benefit Effects 0.000 abstract description 3
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种电子公文实体抽取方法,包括如下步骤:A.预处理;B.构造特征;C.训练实体抽取模型;D.获取语料;E.获取词向量;F.训练算法模型。本发明采用传统的序列标注算法与深度学习算法相结合,利用传统序列算法需要少语料标注的优点,采用半监督的方法扩充语料,解决深度学习算法需要人工标注大量语料的费时费力问题;在CRF模型中添加最大正向及逆向词典、句法和语义特征,充分考虑了实体词出现的前后边界词特性,让算法更具泛化能力;采用dilated CNN与BiLSTM‑CRF相结合,dilated CNN将字符级向量与字符级位置特征作为外部特征,与词性向量一起拼接到词向量中,可以一定程度表达出更多的语义和上下相关信息。
Description
技术领域
本发明涉及一种电子公文实体抽取方法,具体涉及一种基于半监督的dilatedCNN-BiLSTM-CRF的电子公文实体抽取方法。
背景技术
公文是由特定部门机关撰写,不仅具有法律效力的政策活动证据,而且包含大量的专业政策知识,其中蕴含大量的实体信息,如:人名、地名、发文机关、组织机构名、科研项目名称、时间、事件等,只要是业务需要的特殊文本片段都可以称为实体,抽取这些实体或概念是公文分词、依存句法分析、语法分析等工作的前提,对公文本体构建、知识图谱构造以及潜在语义分析等工作有着重要作用。因此,如何更为精准地从公文文本中识别出实体成为了当前的研究热点。
然而,随着社会时代的发展,法律法规等政策性公文文件数量逐渐增加,其中所包含的新生词也会不断增加,相关的领域实体也在不断丰富,并且公文领域长实体居多(如:四川省发展和改革委员会、四川省科学技术厅),与普通词汇差距大,一般的分词工具也很难实现对公文细分领域的准确分词,这些都为正确提取实体信息带来了挑战。当前,工业界所采用的方法主要包括传统机器学习方法:将实体抽取任务转化为序列标注任务,使用HMM、MEMM、CRF等方法,CRF是目前主流的实体抽取方法,需要标注的语料不需要太多,但需要熟悉公文领域实体的专家参与人工构建特征,这是一个长期的过程;基于深度学习的方法:深度学习无论从准去率、召回率还是F1值都优于传统序列标注算法,深度学习广泛采用:RNN-CRF和CNN-CRF,BiLSTM+CRF算法,不依赖于特征工程,且取得了较高的准确率和召回率,它通过两层长短记忆神经网络(LSTM)学习文本中蕴含的特征,可以省去人工特征构建这一繁琐任务。由于BiLSTM+CRF算法具有长的记忆功能,但输入是词袋模型,忽略了词之间的上下文信息,且不能解决多义词的问题,本文通过增加dilated CNN层,将字符级向量与字符级位置特征作为外部特征,与词性向量一起拼接到词向量中,再输入到BiLSTM+CR网络,这样可以一定程度表达出更多的语义和上下相关信息此外对,同时dilated CNN支持并行化可以加快模型的收敛速度。但深度学习方法,一般需要大量标注语料,否则极易出现过拟合,无法达到预期的泛化能力。
发明内容
为解决上述技术问题,本发明提供了一种电子公文实体抽取方法,该电子公文实体抽取方法能够有效提高实体识别的准确率及召回率。
本发明通过以下技术方案得以实现。
本发明提供的一种电子公文实体抽取方法,包括如下步骤:
A.预处理:利用爬虫系统获取政府公文的文本数据,将文本数据存入数据库中,并对文本数据进行专家标注;
B.构造特征:根据专家标注对文本数据提取CRF特征,CRF特征包括特征词本身、词性、词长、左右信息熵、TF_IDF、公文领域词典位置、基于词典的前向最大匹配分词、基于词典的后向最大匹配分词、基于LTP的句法及基于LTP的语义特征;
C.训练实体抽取模型:根据提取得到的CRF特征,通过CRF++训练实体抽取模型;
D.获取语料:利用实体抽取模型,对文本数据进行语料扩充抽取,确保语料条数不小于5000;
E.获取词向量:将得到的语料通过Bert算法表示成词向量;
F.训练算法模型:以词向量作为训练数据,以dilated CNN-BiLSTM-CRF算法的网络层作为模型架构,训练得到政府公文实体抽取算法模型。
所述dilated CNN-BiLSTM-CRF算法是指,由输入至输出依次为dilated CNN、BiLSTM、CRF模型的算法。
所述步骤B包括如下步骤:
B1.标记词性:通过人工标注的方式对特征词的词性进行标注;
B2.计算词的长度:对每个特征词计算词长度其中wi为W中的字;
B3.计算左右信息熵:计算左信息熵为计算右信息熵为
B4.计算TF_IDF:计算词频再计算逆向文档频率然后计算TF_IDF为TF_IDF=TF·IDF,其中count(w,d)为单词w在文档d中的出现次数,xize(d)为文档d中总的单词个数,n为文档总数,docs(w,d)为单词w所出现的文件数;
B5.匹配分词:通过公文领域专家建立领域词典,从左向右取待切分汉语句的maxlen个字符作为匹配字段与字典匹配,如果匹配保存结果,不匹配减少一个字继续重复此步骤,直到所取字符串为空;
B6.计算基于LTP的句法特征:通过LTP标出语句子的语法成分;
B7.计算基于LTP的语义特征:通过LTP标出句子的谓词,并标注出论元的角色。
所述步骤B1中,标注规范采用哈工大LTP词性规范。
所述maxlen取值为8。
所述步骤C中通过CRF++训练实体抽取模型包含如下步骤:
C1.确定特征模板:CRF特征模板中包括一元特征Unigram及二元特征Bigram,在给定的观察序列X时,某个待定标记序列Y的概率为exp(∑j(λitj(yi-1,yi,x,i))+∑k(μkSk(yi,x,i))),其中tj(yi-1,yi,x,i)为转移函数,sk(yi,x,i)为状态函数,λi为tj的权重,μk为sk的权重;
C2.模型训练及预测:以CRF特征模板和标注好的训练数据作为输入,以实体抽取模型为输出,调用CRF++工具进行训练。
所述步骤F中,训练轮数为400~750。
所述CRF特征模板中,一元特征Unigram的特征窗口为5。
本发明的有益效果在于:采用传统的序列标注算法与深度学习算法相结合,利用传统序列算法需要少语料标注的优点,采用半监督的方法扩充语料,解决深度学习算法需要人工标注大量语料的费时费力问题;在CRF模型中添加最大正向及逆向词典、句法和语义特征,充分考虑了实体词出现的前后边界词特性,让算法更具泛化能力;采用dilated CNN与BiLSTM-CRF相结合,dilated CNN将字符级向量与字符级位置特征作为外部特征,与词性向量一起拼接到词向量中,可以一定程度表达出更多的语义和上下相关信息。
附图说明
图1是本发明的流程示意图;
图2是本发明中dilated CNN-BiLSTM-CRF算法的架构示意图。
具体实施方式
下面进一步描述本发明的技术方案,但要求保护的范围并不局限于所述。
如图1和图2所示的一种电子公文实体抽取方法,包括如下步骤:
A.预处理:从政府网站爬取公文相关数据,大数据平台将文本清洗后存入HBase中,专家标注(采用B、I、E、S、O标准)政府领域内公文中的实体(2000条左右);
B.构造特征:根据专家标注对文本数据提取CRF特征,CRF特征包括特征词本身、词性、词长、左右信息熵、TF_IDF、公文领域词典位置、基于词典的前向/后向最大匹配分词、基于LTP的句法及语义角色特征等;
C.训练实体抽取模型:基于步骤B构建的特征将标注好的语料进行处理,通过CRF++训练出实体抽取模型;
D.获取语料:将未标注的语料通过步骤C得到的模型抽取出实体,经专家审核将标注正确的公文实体继续作为语料,反复重复扩充到足够语料(1w条以上);
E.获取词向量:将步骤D得到的语料通过Bert算法表示成词向量;
F.训练算法模型:将步骤E作为输入,设计dilated CNN-BiLSTM-CRF算法的网络层结构,通过参数及网络结构优化后,最终训练得到公文实体抽取算法模型。
所述dilated CNN-BiLSTM-CRF算法是指,由输入至输出依次为dilated CNN、BiLSTM、CRF模型的算法。
所述步骤B包括如下步骤:
B1.标记词性:通过人工标注的方式对特征词的词性进行标注;
B2.计算词的长度:对每个特征词计算词长度其中wi为W中的字;
B3.计算左右信息熵:
计算左信息熵为
计算右信息熵为
B4.计算TF_IDF:计算词频再计算逆向文档频率0.01是平滑系数,然后计算TF_IDF为TF_IDF=TF·IDF,其中count(w,d)为单词w在文档d中的出现次数,size(d)为文档d中总的单词个数,n为文档总数,docs(w,D)为单词w所出现的文件数;
B5.匹配分词:通过公文领域专家建立领域词典,从左向右取待切分汉语句的maxlen(公文领域长词较多,最优取8)个字符作为匹配字段与字典匹配,如果匹配保存结果,不匹配减少一个字继续重复此步骤,直到所取字符串为空;
B6.计算基于LTP的句法特征:通过LTP标出语句子的“主谓宾”,“定状补”等语法成分,如SBV、VOB、ATT等;
B7.计算基于LTP的语义特征:通过LTP标出句子的谓词,并标注出论元(与谓词搭配的名词)的角色,如:施事者(Agent)、受事者(Patient)、客体(Theme)。
所述步骤B1中,标注规范采用哈工大LTP词性规范。
所述步骤C中通过CRF++训练实体抽取模型包含如下步骤:
C1.确定特征模板:CRF特征模板中包括一元特征Unigram及二元特征Bigram,在给定的观察序列X时,某个待定标记序列Y的概率为exp(∑j(λitj(yi-1,yi,x,i))+∑k(μksk(yi,x,i))),其中tj(yi-1,yi,x,i)为转移函数,sk(yi,x,i)为状态函数,λi为tj的权重,μk为sk的权重;
C2.模型训练及预测:下载CRF++工具包,运行脚本:crf_learn–a MIRA–f 3–c 1.5template train.data model_name,–a MIRA–f 3–c 1.5都是调优参数,template是步骤②生成的模板文件,train.data标注好的训练数据,model_name生成的模型文件名,执行完成后会生成model_name文件,将未标注的数据test.data预处理后调用:crf_test–m model_name test.data>result,经模型预测出的结果存入result文件,抽取出文件中文实体标记序列即为文本实体。
对于步骤F,具体的,将步骤D中CRF算法预测的实体语料,经审核后扩充到标准语料库中,当其数量达到(1w—2w条)后,通过Bert框架训练出词向量,将训练的词向量再输入到dilated CNN-BiLSTM-CRF,最后通过500多轮的迭代,最终收敛到一个设定阈值停止迭代,即训练出可以在线上运行的实体识别模型。
所述CRF特征模板中,一元特征Unigram的特征窗口为5,即当前位置的前后两个词,以下是根据词特征构成的模板,还有其他特征构成的模板暂不列出,CRF会根据如下模板生成的状态特征
#Unigram
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-2,0]/%x[-1,0]/%x[0,0]
U06:%x[-1,0]/%x[0,0]/%x[1,0]
U07:%x[0,0]/%x[1,0]/%x[2,0]
U08:%x[-1,0]/%x[0,0]
U09:%x[0,0]/%x[1,0]
二元特征:在一元特征基础上,增加了前一个标注结果,直接写B工具会自动根据特征及前后标注结果一起产生特征函数,CRF会根据模板生成tj(yi-1,yi,x,i)的转移特征。
实施例1
采用上述方案作为Dilated CNN-BiLSTM-CRF算法方案,同时对比采用LSTM、BiLSTM、BiLSTM-CRF三种算法的方案,进行电子公文实体抽取,得到如表1所示的结果:
表1对比结果表
模型 | 精确率/% | 召回率/% | F值/% |
LSTM | 81.65 | 80.17 | 80.90 |
BiLSTM | 83.22 | 82.59 | 82.90 |
BiLSTM-CRF | 86.57 | 85.23 | 85.89 |
Dilated CNN-BiLSTM-CRF | 91.59 | 91.08 | 91.33 |
Claims (8)
1.一种电子公文实体抽取方法,其特征在于:包括如下步骤:
A.预处理:利用爬虫系统获取政府公文的文本数据,将文本数据存入数据库中,并对文本数据进行专家标注;
B.构造特征:根据专家标注对文本数据提取CRF特征,CRF特征包括特征词本身、词性、词长、左右信息熵、TF_IDF、公文领域词典位置、基于词典的前向最大匹配分词、基于词典的后向最大匹配分词、基于LTP的句法及基于LTP的语义特征;
C.训练实体抽取模型:根据提取得到的CRF特征,通过CRF++训练实体抽取模型;
D.获取语料:利用实体抽取模型,对文本数据进行语料扩充抽取,确保语料条数不小于5000;
E.获取词向量:将得到的语料通过Bert算法表示成词向量;
F.训练算法模型:以词向量作为训练数据,以dilated CNN-BiLSTM-CRF算法的网络层作为模型架构,训练得到政府公文实体抽取算法模型。
2.如权利要求1所述的电子公文实体抽取方法,其特征在于:所述dilated CNN-BiLSTM-CRF算法是指,由输入至输出依次为dilated CNN、BiLSTM、CRF模型的算法。
3.如权利要求1所述的电子公文实体抽取方法,其特征在于:所述步骤B包括如下步骤:
B1.标记词性:通过人工标注的方式对特征词的词性进行标注;
B2.计算词的长度:对每个特征词计算词长度其中wi为W中的字;
B3.计算左右信息熵:计算左信息熵为计算右信息熵为
B4.计算TF_IDF:计算词频再计算逆向文档频率然后计算TF_IDF为TF_IDF=TF·IDF,其中count(w,d)为单词w在文档d中的出现次数,size(d)为文档d中总的单词个数,n为文档总数,docs(w,D)为单词w所出现的文件数;
B5.匹配分词:通过公文领域专家建立领域词典,从左向右取待切分汉语句的maxlen个字符作为匹配字段与字典匹配,如果匹配保存结果,不匹配减少一个字继续重复此步骤,直到所取字符串为空;
B6.计算基于LTP的句法特征:通过LTP标出语句子的语法成分;
B7.计算基于LTP的语义特征:通过LTP标出句子的谓词,并标注出论元的角色。
4.如权利要求3所述的电子公文实体抽取方法,其特征在于:所述步骤B1中,标注规范采用哈工大LTP词性规范。
5.如权利要求3所述的电子公文实体抽取方法,其特征在于:所述maxlen取值为8。
6.如权利要求1所述的电子公文实体抽取方法,其特征在于:所述步骤C中通过CRF++训练实体抽取模型包含如下步骤:
C1.确定特征模板:CRF特征模板中包括一元特征Unigram及二元特征Bigram,在给定的观察序列X时,某个待定标记序列Y的概率为exp(∑j(λitj(yi-1,yi,x,i))+∑k(μksk(yi,x,i))),其中tj(yi-1,yi,x,i)为转移函数,sk(yi,x,i)为状态函数,λi为tj的权重,μk为sk的权重;
C2.模型训练及预测:以CRF特征模板和标注好的训练数据作为输入,以实体抽取模型为输出,调用CRF++工具进行训练。
7.如权利要求1所述的电子公文实体抽取方法,其特征在于:所述步骤F中,训练轮数为400~750。
8.如权利要求6所述的电子公文实体抽取方法,其特征在于:所述CRF特征模板中,一元特征Unigram的特征窗口为5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910507540.1A CN110297913A (zh) | 2019-06-12 | 2019-06-12 | 一种电子公文实体抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910507540.1A CN110297913A (zh) | 2019-06-12 | 2019-06-12 | 一种电子公文实体抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110297913A true CN110297913A (zh) | 2019-10-01 |
Family
ID=68027931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910507540.1A Pending CN110297913A (zh) | 2019-06-12 | 2019-06-12 | 一种电子公文实体抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110297913A (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110968661A (zh) * | 2020-03-04 | 2020-04-07 | 成都数联铭品科技有限公司 | 事件抽取方法及系统、计算机可读存储介质及电子设备 |
CN111027306A (zh) * | 2019-12-23 | 2020-04-17 | 园宝科技(武汉)有限公司 | 一种基于关键词抽取和词移距离的知识产权匹配技术 |
CN111079418A (zh) * | 2019-11-06 | 2020-04-28 | 科大讯飞股份有限公司 | 命名体识别方法、装置、电子设备和存储介质 |
CN111191452A (zh) * | 2019-12-24 | 2020-05-22 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 一种铁路文本命名实体识别方法及装置 |
CN111325018A (zh) * | 2020-01-21 | 2020-06-23 | 上海恒企教育培训有限公司 | 一种基于web检索和新词发现的领域词典构建方法 |
CN111444704A (zh) * | 2020-03-27 | 2020-07-24 | 中南大学 | 基于深度神经网络的网络安全关键词抽取方法 |
CN111523304A (zh) * | 2020-04-27 | 2020-08-11 | 华东师范大学 | 一种基于预训练模型的产品描述文本的自动生成方法 |
CN112257442A (zh) * | 2020-09-27 | 2021-01-22 | 重庆生产力促进中心 | 一种基于扩充语料库神经网络的政策文件信息提取方法 |
CN112487206A (zh) * | 2020-12-09 | 2021-03-12 | 中国电子科技集团公司第三十研究所 | 一种自动构建数据集的实体关系抽取方法 |
CN112528676A (zh) * | 2020-12-18 | 2021-03-19 | 南开大学 | 文档级别的事件论元抽取方法 |
CN112668335A (zh) * | 2020-12-21 | 2021-04-16 | 广州市申迪计算机系统有限公司 | 一种利用命名实体识别提取营业执照结构化信息的方法 |
WO2021072852A1 (zh) * | 2019-10-16 | 2021-04-22 | 平安科技(深圳)有限公司 | 序列标注方法、系统和计算机设备 |
CN112733526A (zh) * | 2021-01-28 | 2021-04-30 | 成都不问科技有限公司 | 一种自动识别财税文件中征税对象的抽取方法 |
CN112836046A (zh) * | 2021-01-13 | 2021-05-25 | 哈尔滨工程大学 | 一种四险一金领域政策法规文本实体识别方法 |
CN113051910A (zh) * | 2021-03-19 | 2021-06-29 | 上海森宇文化传媒股份有限公司 | 一种用于预测人物角色情绪的方法和装置 |
CN113127503A (zh) * | 2021-03-18 | 2021-07-16 | 中国科学院国家空间科学中心 | 一种面向航天情报的自动信息提取方法及系统 |
CN113190541A (zh) * | 2021-05-12 | 2021-07-30 | 《中国学术期刊(光盘版)》电子杂志社有限公司 | 一种基于数字人文的实体识别方法 |
CN113268576A (zh) * | 2021-06-02 | 2021-08-17 | 北京汇声汇语科技有限公司 | 一种基于深度学习的部门语义信息抽取的方法及装置 |
CN113392649A (zh) * | 2021-07-08 | 2021-09-14 | 上海浦东发展银行股份有限公司 | 一种识别方法、装置、设备及存储介质 |
CN113971404A (zh) * | 2021-10-29 | 2022-01-25 | 中南民族大学 | 一种基于解耦注意力的文物安全命名实体识别方法 |
CN115270797A (zh) * | 2022-09-23 | 2022-11-01 | 山东省计算中心(国家超级计算济南中心) | 一种基于自训练半监督学习的文本实体抽取方法及系统 |
CN112668335B (zh) * | 2020-12-21 | 2024-05-31 | 广州市申迪计算机系统有限公司 | 一种利用命名实体识别提取营业执照结构化信息的方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718586A (zh) * | 2016-01-26 | 2016-06-29 | 中国人民解放军国防科学技术大学 | 分词的方法及装置 |
CN107193959A (zh) * | 2017-05-24 | 2017-09-22 | 南京大学 | 一种面向纯文本的企业实体分类方法 |
CN108255813A (zh) * | 2018-01-23 | 2018-07-06 | 重庆邮电大学 | 一种基于词频-逆文档与crf的文本匹配方法 |
CN108549635A (zh) * | 2018-04-09 | 2018-09-18 | 北京信息科技大学 | 一种专利文献领域术语抽取方法 |
CN108595425A (zh) * | 2018-04-20 | 2018-09-28 | 昆明理工大学 | 基于主题与语义的对话语料关键词抽取方法 |
CN108959242A (zh) * | 2018-05-08 | 2018-12-07 | 中国科学院信息工程研究所 | 一种基于中文字符词性特征的目标实体识别方法及装置 |
CN108959252A (zh) * | 2018-06-28 | 2018-12-07 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
CN109189900A (zh) * | 2018-08-03 | 2019-01-11 | 北京捷易迅信息技术有限公司 | 一种用于bot系统的实体抽取方法 |
CN109472026A (zh) * | 2018-10-31 | 2019-03-15 | 北京国信云服科技有限公司 | 一种同时针对多个命名实体的精准情感信息提取方法 |
-
2019
- 2019-06-12 CN CN201910507540.1A patent/CN110297913A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718586A (zh) * | 2016-01-26 | 2016-06-29 | 中国人民解放军国防科学技术大学 | 分词的方法及装置 |
CN107193959A (zh) * | 2017-05-24 | 2017-09-22 | 南京大学 | 一种面向纯文本的企业实体分类方法 |
CN108255813A (zh) * | 2018-01-23 | 2018-07-06 | 重庆邮电大学 | 一种基于词频-逆文档与crf的文本匹配方法 |
CN108549635A (zh) * | 2018-04-09 | 2018-09-18 | 北京信息科技大学 | 一种专利文献领域术语抽取方法 |
CN108595425A (zh) * | 2018-04-20 | 2018-09-28 | 昆明理工大学 | 基于主题与语义的对话语料关键词抽取方法 |
CN108959242A (zh) * | 2018-05-08 | 2018-12-07 | 中国科学院信息工程研究所 | 一种基于中文字符词性特征的目标实体识别方法及装置 |
CN108959252A (zh) * | 2018-06-28 | 2018-12-07 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
CN109189900A (zh) * | 2018-08-03 | 2019-01-11 | 北京捷易迅信息技术有限公司 | 一种用于bot系统的实体抽取方法 |
CN109472026A (zh) * | 2018-10-31 | 2019-03-15 | 北京国信云服科技有限公司 | 一种同时针对多个命名实体的精准情感信息提取方法 |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021072852A1 (zh) * | 2019-10-16 | 2021-04-22 | 平安科技(深圳)有限公司 | 序列标注方法、系统和计算机设备 |
CN111079418A (zh) * | 2019-11-06 | 2020-04-28 | 科大讯飞股份有限公司 | 命名体识别方法、装置、电子设备和存储介质 |
CN111079418B (zh) * | 2019-11-06 | 2023-12-05 | 科大讯飞股份有限公司 | 命名体识别方法、装置、电子设备和存储介质 |
CN111027306A (zh) * | 2019-12-23 | 2020-04-17 | 园宝科技(武汉)有限公司 | 一种基于关键词抽取和词移距离的知识产权匹配技术 |
CN111191452A (zh) * | 2019-12-24 | 2020-05-22 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 一种铁路文本命名实体识别方法及装置 |
CN111325018A (zh) * | 2020-01-21 | 2020-06-23 | 上海恒企教育培训有限公司 | 一种基于web检索和新词发现的领域词典构建方法 |
CN111325018B (zh) * | 2020-01-21 | 2023-08-11 | 上海恒企教育培训有限公司 | 一种基于web检索和新词发现的领域词典构建方法 |
CN110968661A (zh) * | 2020-03-04 | 2020-04-07 | 成都数联铭品科技有限公司 | 事件抽取方法及系统、计算机可读存储介质及电子设备 |
CN111444704A (zh) * | 2020-03-27 | 2020-07-24 | 中南大学 | 基于深度神经网络的网络安全关键词抽取方法 |
CN111444704B (zh) * | 2020-03-27 | 2023-09-19 | 中南大学 | 基于深度神经网络的网络安全关键词抽取方法 |
CN111523304B (zh) * | 2020-04-27 | 2022-08-02 | 华东师范大学 | 一种基于预训练模型的产品描述文本的自动生成方法 |
CN111523304A (zh) * | 2020-04-27 | 2020-08-11 | 华东师范大学 | 一种基于预训练模型的产品描述文本的自动生成方法 |
CN112257442A (zh) * | 2020-09-27 | 2021-01-22 | 重庆生产力促进中心 | 一种基于扩充语料库神经网络的政策文件信息提取方法 |
CN112487206A (zh) * | 2020-12-09 | 2021-03-12 | 中国电子科技集团公司第三十研究所 | 一种自动构建数据集的实体关系抽取方法 |
CN112528676B (zh) * | 2020-12-18 | 2022-07-08 | 南开大学 | 文档级别的事件论元抽取方法 |
CN112528676A (zh) * | 2020-12-18 | 2021-03-19 | 南开大学 | 文档级别的事件论元抽取方法 |
CN112668335B (zh) * | 2020-12-21 | 2024-05-31 | 广州市申迪计算机系统有限公司 | 一种利用命名实体识别提取营业执照结构化信息的方法 |
CN112668335A (zh) * | 2020-12-21 | 2021-04-16 | 广州市申迪计算机系统有限公司 | 一种利用命名实体识别提取营业执照结构化信息的方法 |
CN112836046A (zh) * | 2021-01-13 | 2021-05-25 | 哈尔滨工程大学 | 一种四险一金领域政策法规文本实体识别方法 |
CN112733526A (zh) * | 2021-01-28 | 2021-04-30 | 成都不问科技有限公司 | 一种自动识别财税文件中征税对象的抽取方法 |
CN112733526B (zh) * | 2021-01-28 | 2023-11-17 | 成都不问科技有限公司 | 一种自动识别财税文件中征税对象的抽取方法 |
CN113127503A (zh) * | 2021-03-18 | 2021-07-16 | 中国科学院国家空间科学中心 | 一种面向航天情报的自动信息提取方法及系统 |
CN113051910B (zh) * | 2021-03-19 | 2023-05-26 | 上海森宇文化传媒股份有限公司 | 一种用于预测人物角色情绪的方法和装置 |
CN113051910A (zh) * | 2021-03-19 | 2021-06-29 | 上海森宇文化传媒股份有限公司 | 一种用于预测人物角色情绪的方法和装置 |
CN113190541A (zh) * | 2021-05-12 | 2021-07-30 | 《中国学术期刊(光盘版)》电子杂志社有限公司 | 一种基于数字人文的实体识别方法 |
CN113268576A (zh) * | 2021-06-02 | 2021-08-17 | 北京汇声汇语科技有限公司 | 一种基于深度学习的部门语义信息抽取的方法及装置 |
CN113268576B (zh) * | 2021-06-02 | 2024-03-08 | 北京汇声汇语科技有限公司 | 一种基于深度学习的部门语义信息抽取的方法及装置 |
CN113392649A (zh) * | 2021-07-08 | 2021-09-14 | 上海浦东发展银行股份有限公司 | 一种识别方法、装置、设备及存储介质 |
CN113392649B (zh) * | 2021-07-08 | 2023-04-07 | 上海浦东发展银行股份有限公司 | 一种识别方法、装置、设备及存储介质 |
CN113971404A (zh) * | 2021-10-29 | 2022-01-25 | 中南民族大学 | 一种基于解耦注意力的文物安全命名实体识别方法 |
CN115270797A (zh) * | 2022-09-23 | 2022-11-01 | 山东省计算中心(国家超级计算济南中心) | 一种基于自训练半监督学习的文本实体抽取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110297913A (zh) | 一种电子公文实体抽取方法 | |
CN112417880B (zh) | 一种面向法院电子卷宗的案情信息自动抽取方法 | |
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
CN110245229B (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
WO2020063092A1 (zh) | 知识图谱的处理方法及装置 | |
CN109344391A (zh) | 基于神经网络的多特征融合中文新闻文本摘要生成方法 | |
CN109408812A (zh) | 一种基于注意力机制的序列标注联合抽取实体关系的方法 | |
CN106844349B (zh) | 基于协同训练的垃圾评论识别方法 | |
CN110502644B (zh) | 一种领域层级词典挖掘构建的主动学习方法 | |
CN108415906B (zh) | 基于领域自动识别篇章机器翻译方法、机器翻译系统 | |
CN108647191B (zh) | 一种基于有监督情感文本和词向量的情感词典构建方法 | |
CN105261358A (zh) | 用于语音识别的n元文法模型构造方法及语音识别系统 | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
He et al. | Using convolutional neural network with BERT for intent determination | |
CN110276069A (zh) | 一种中国盲文错误自动检测方法、系统及存储介质 | |
US20240111956A1 (en) | Nested named entity recognition method based on part-of-speech awareness, device and storage medium therefor | |
CN112101014B (zh) | 一种混合特征融合的中文化工文献分词方法 | |
CN111191464A (zh) | 基于组合距离的语义相似度计算方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN112818698A (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN105677639A (zh) | 一种基于短语结构句法树的英文词义消歧方法 | |
CN117094325A (zh) | 水稻病虫害领域命名实体识别方法 | |
Long et al. | A method of Chinese named entity recognition based on CNN-BiLSTM-CRF model | |
Huang et al. | Attention-based bidirectional long short-term memory networks for Chinese named entity recognition | |
CN111813927A (zh) | 一种基于主题模型和lstm的句子相似度计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191001 |