CN112966510A - 一种基于albert的武器装备实体抽取方法、系统及存储介质 - Google Patents
一种基于albert的武器装备实体抽取方法、系统及存储介质 Download PDFInfo
- Publication number
- CN112966510A CN112966510A CN202110163970.3A CN202110163970A CN112966510A CN 112966510 A CN112966510 A CN 112966510A CN 202110163970 A CN202110163970 A CN 202110163970A CN 112966510 A CN112966510 A CN 112966510A
- Authority
- CN
- China
- Prior art keywords
- entity
- albert
- statement
- result
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种基于ALBERT的武器装备实体抽取方法,包括以下步骤:使用ALBERT模型作为语句表征模型来表示句向量,将预设的训练集语句统合为多维向量特征作为神经网络输入,并将训练集语句对应的实体标记通过one‑hot编码得到对照结果向量特征;将对照结果向量特征输入BiLSTM‑CRF网络模型,对对照结果向量特征进行交叉训练,等待BiLSTM‑CRF网络模型收敛后得到网络模型;输入待识别语句至ALBERT模型,通过ALBERT模型表示为句向量,并作为特征输入到网络模型中;通过网络模型计算得到预测结果;将预测结果通过反one‑hot编码得到结果序列,识别结果序列得到实体名称和实体位置;将实体名称和实体位置作为最终结果输出。本发明能够有效地识别文本中的武器装备领域实体。
Description
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于ALBERT的武器装备实体抽取方法、系统及存储介质。
背景技术
命名实体识别(NER)是信息抽取的一个子任务,指在自然语言文本中,抽取出特定实体的位置和分类,是文本理解的基础。目前命名实体识别能在有限的领域和有限的实体类型中取得了较好的成绩,如新闻领域中的人名、地名、结构名等。但这些由特定语料训练而来的模型无法直接迁移到其它领域,如军事和医疗领域等。一方面,不同领域的数据具有不同的领域特性,当模型对一个领域数据拟合后,就无法在其它领域很好的工作。另一方面,不同领域的数据资源层次不齐,有些领域的语料资源非常匮乏,导致模型训练和测试都很难展开。
命名实体识别的另一个难点在于语言差异,英文单词之间都有空格分隔,实体边界明显,无论是基于字还是基于词作标注,都能取得较好的效果。而中文场景更加复杂,主要的难点如下:
1.中文词语之间没有英文词语之间明确的分隔符,尤其是一些专业领域词汇,普通分词工具无法胜任。
2.中文文本中还存在一些英文词汇,如在武器装备领域中,很多武器的名称都是中英结合,导致中、英文实体之间相互影响。
3.中文文本中还存在大量的英文外来词汇,中文实体识别不仅需要识别出中文实体,还需要识别出英文实体。
当前命名实体识别的主要方法主要有三种:
1.基于规则和词典方法。基于规则和词典的方法依赖语言学专家手工构造规则模板,以模式和字符串匹配为主要手段来提取文本中的实体。这些规则特征主要包括标点符号、关键字、指示词和中心词等,缺点是这类方法依赖于专业知识库和词典、可移植性差,在对于不同的领域需要语言专家重新构造规则模板,时间周期长,需要大量人工参与。
2.基于统计学方法。基于统计机器学习的方法主要有:隐马尔可夫模型(HMM),支持向量机(SVM)和条件随机场(CRF)。这些机器学习方法都有较高的准确率和召回率,但是普遍对语料库的依赖性高,同时也存在收敛速度慢和训练时间长的问题。
3.基于深度学习的方法。用于命名实体识别的主要网络模型有:卷积神经网络-条件随机场(CNN-CRF)、循环神经网络-条件随机场(RNN-CRF)、双向长短时序网络-条件随机场(LSTM-CRF)。这些深度网络模型结合了神经网络和条件随机场,以端到端的方式来预测和识别实体,这类方法不依赖于数据工程,具有很高的识别率和召回率。但是,此类方法严重依赖标注数据集,模型训练时间长,可解释性差。
命名实体识别一定程度上依赖于上下文的信息,因此目前业界普遍采用词向量和深度学习相结合的方式,通过词向量本身携带的大量语义和上下文信息来提高实体识别的概率,该方法能达到目前业界最高的识别率和召回率。
发明内容
本发明的目的在于,提供一种基于ALBERT的武器装备实体抽取方法、系统及存储介质,通过该方法,能够有效地识别文本中的武器装备领域实体。
为解决上述技术问题,本发明的技术方案为:一种基于ALBERT的武器装备实体抽取方法,包括以下步骤:
S1、使用ALBERT模型作为语句表征模型来表示句向量,将预设的训练集语句统合为多维向量特征作为神经网络输入,并将训练集语句对应的实体标记通过one-hot编码得到对照结果向量特征;
S2、将对照结果向量特征输入BiLSTM-CRF网络模型,对对照结果向量特征进行交叉训练,等待BiLSTM-CRF网络模型收敛后得到网络模型;
S3、输入待识别语句至ALBERT模型,通过ALBERT模型表示为句向量,并作为特征输入到网络模型中;
S4、通过网络模型计算得到预测结果;
S5、将预测结果通过反one-hot编码得到结果序列,识别结果序列得到实体名称和实体位置;
S6、将实体名称和实体位置作为最终结果输出。
进一步地,所述S1具体为:
S1.1、规定进入ALBERT模型的待识别语句长度为80,如果待识别语句长度小于80,使用0作为填充至待识别语句长度为80;如果待识别语句长度大于80,则将该待识别语句截断至待识别语句长度为80;
S1.2、以字符为单位将待识别语句分开,每个字符作为一个token,将各待识别语句输入ALBERT模型中并转化为句向量;
S1.3、将训练集中的每一条训练集语句均按照S1.1、S1.2的步骤处理得到多维向量特征;
S1.4、使用one-hot编码对每一条训练集语句对应的实体标记进行编码,得到对照结果向量特征。
进一步地,所述S2中交叉训练的具体方法为:
S2.1、通过Pytorch神经网络框架实现双向长短时序网络和条件随机场,即BiLSTM-CRF网络模型;
S2.2、设置神经网络相关参数,将对照结果向量特征输入BiLSTM-CRF网络模型进行迭代训练;
S2.3、随着迭代次数增加,当loss值小于阈值时停止训练,得到网络模型参数并存储。
进一步地,所述S5具体为:
S5.1、将预测结果标准化,即将预测结果中的小数进行四舍五入取整;
S5.2、将标准化后的预测结果通过反one-hot编码得到实体名称和实体位置,即将结果中的数字映射到实体名称。
进一步地,所述S6还包括以下步骤:将实体名称和实体位置整合为实体结果后输出。
一种使用如上述的一种基于ALBERT的武器装备实体抽取方法的系统,包括:
ALBERT模型模块,用于作为语句表征模型来表示句向量,将预设的训练集语句统合为多维向量特征作为神经网络输入,并将训练集语句对应的实体标记通过one-hot编码得到对照结果向量特征;
BiLSTM-CRF网络模型模块,用于对对照结果向量特征进行交叉训练,等待BiLSTM-CRF网络模型收敛后得到网络模型;
网络模型模块,用于通过网络模型对句向量计算得到预测结果,将预测结果通过反one-hot编码得到结果序列,识别结果序列得到实体名称和实体位置,并将实体名称和实体位置作为最终结果输出。
进一步地,所述ALBERT模型模块的具体工作过程为:
规定进入ALBERT模型的待识别语句长度为80,如果待识别语句长度小于80,使用0作为填充至待识别语句长度为80;如果待识别语句长度大于80,则将该待识别语句截断至待识别语句长度为80;
以字符为单位将待识别语句分开,每个字符作为一个token,将各待识别语句输入ALBERT模型中并转化为句向量;
将训练集中的每一条训练集语句均按照上述步骤处理得到多维向量特征;
使用one-hot编码对每一条训练集语句对应的实体标记进行编码,得到对照结果向量特征。
进一步地,所述BiLSTM-CRF网络模型模块的具体工作过程为:
通过Pytorch神经网络框架实现双向长短时序网络和条件随机场,即BiLSTM-CRF网络模型;
设置神经网络相关参数,将对照结果向量特征输入BiLSTM-CRF网络模型进行迭代训练;
随着迭代次数增加,当loss值小于阈值时停止训练,得到网络模型参数并存储。
进一步地,所述网络模型模块得到实体名称和实体位置的具体工作过程为:
将预测结果标准化,即将预测结果中的小数进行四舍五入取整;
将标准化后的预测结果通过反one-hot编码得到实体名称和实体位置,即将结果中的数字映射到实体名称。
一种计算机存储介质,所述计算机存储介质包括:至少一个指令,在所述指令被执行时实现以上任一项所述的方法步骤。
与现有技术相比,本发明的有益效果为:
基于ALBERT的武器装备实体抽取方法可以有效的提升命名实体识别的准确率和召回率,并且ALBERT模型较小,相较于BERT而言只会消耗较小内存。
附图说明
图1为本发明实施例提供的一种方法流程示意图;
图2为本发明实施例提供的一种网络模型训练流程图;
图3为本发明实施例提供的一种BiLSTM-CRF网络模型图;
图4为本发明实施例提供的一种BiLSTM-CRF网络模型训练过程截图;
图5为本发明实施例提供的一种BiLSTM-CRF网络模型测试截图;
图6为本发明实施例提供的一种ALBERT结构图;
图7为本发明实施例中提供的方法与对比方法在数据集上实验的结果对比表;
图8为本发明实施例中字符与实体标记的对应图表。
具体实施方式
为了使本专利的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利,并不用于限定本专利。此外需要说明,下面所描述的本专利各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合使用。
本发明提供一种基于ALBERT的武器装备领域实体抽取方法,如图1所示,包括以下步骤:
S1、使用ALBERT模型作为语句表征模型来表示句向量,将预设的训练集语句统合为多维向量特征作为神经网络输入,并将训练集语句对应的实体标记通过one-hot编码得到对照结果向量特征;
S1.1、规定进入ALBERT模型的待识别语句长度为80,如果待识别语句长度小于80,使用0作为填充至待识别语句长度为80;如果待识别语句长度大于80,则将该待识别语句截断至待识别语句长度为80;
S1.2、以字符为单位将待识别语句分开,每个字符作为一个token,将各待识别语句输入ALBERT模型中并转化为句向量;
S1.3、将训练集中的每一条训练集语句均按照S1.1、S1.2的步骤处理得到多维向量特征;
S1.4、使用one-hot编码对每一条训练集语句对应的实体标记进行编码,得到对照结果向量特征。如在语句“波音公司NB-1的潜航深是什么”中,“波音公司NB-1”是武器装备实体,实体标记为“WEAPON”,而“潜航深”是技术指标实体,实体标记为“TECHNIQUE”;该语句的实体标记具体表示如图8所示:
具体地,WEAPON标记对应了多个汉字和字母,因此在实体的开始有前缀B(Begin),实体中间有前缀M(Middle),实体结尾有前缀(E)。
对于语句“波音公司NB-1的潜航深是什么”转化为句向量的过程如公式(1)所示:
vector=ALBERT_transform(sentence) (1)
S2、如图3~图5所示,将对照结果向量特征输入BiLSTM-CRF网络模型,对对照结果向量特征进行交叉训练,等待BiLSTM-CRF网络模型收敛后得到网络模型,网络模型图见附图2;
S2.1、通过Pytorch神经网络框架实现双向长短时序网络和条件随机场,即BiLSTM-CRF网络模型;
S2.2、设置神经网络相关参数,将对照结果向量特征输入BiLSTM-CRF网络模型进行迭代训练;
S2.3、随着迭代次数增加,当loss值小于阈值时停止训练,得到网络模型参数并存储,其中神经网络优化器使用AdamW;
S3、读入待识别语句,并通过ALBERT表示为语句向量,并作为特征输入到网络模型中;
S4、通过网络模型计算得到预测结果;
S5、将预测结果反one-hot编码得到结果序列,并识别结果序列得到实体名称和实体位置;
S5.1、将模型预测结果标准化,将模型计算结果中的小数进行四舍五入取整;
S5.2、将标准化结果通过反one-hot编码得到实体名称和实体位置,即将结果中的数字映射到实体名称。
S6、将实体名称和实体位置作为最终结果输出。进一步处理S5中的实体名称和实体位置,将实体结果整合后输出。
一种使用如上述的一种基于ALBERT的武器装备实体抽取方法的系统,包括:
ALBERT模型模块,用于作为语句表征模型来表示句向量,将预设的训练集语句统合为多维向量特征作为神经网络输入,并将训练集语句对应的实体标记通过one-hot编码得到对照结果向量特征;
BiLSTM-CRF网络模型模块,用于对对照结果向量特征进行交叉训练,等待BiLSTM-CRF网络模型收敛后得到网络模型;
网络模型模块,用于通过网络模型对句向量计算得到预测结果,将预测结果通过反one-hot编码得到结果序列,识别结果序列得到实体名称和实体位置,并将实体名称和实体位置作为最终结果输出。
进一步地,所述ALBERT模型模块的具体工作过程为:
规定进入ALBERT模型的待识别语句长度为80,如果待识别语句长度小于80,使用0作为填充至待识别语句长度为80;如果待识别语句长度大于80,则将该待识别语句截断至待识别语句长度为80;
以字符为单位将待识别语句分开,每个字符作为一个token,将各待识别语句输入ALBERT模型中并转化为句向量;
将训练集中的每一条训练集语句均按照上述步骤处理得到多维向量特征;
使用one-hot编码对每一条训练集语句对应的实体标记进行编码,得到对照结果向量特征。
进一步地,所述BiLSTM-CRF网络模型模块的具体工作过程为:
通过Pytorch神经网络框架实现双向长短时序网络和条件随机场,即BiLSTM-CRF网络模型;
设置神经网络相关参数,将对照结果向量特征输入BiLSTM-CRF网络模型进行迭代训练;
随着迭代次数增加,当loss值小于阈值时停止训练,得到网络模型参数并存储。
进一步地,所述网络模型模块得到实体名称和实体位置的具体工作过程为:
将预测结果标准化,即将预测结果中的小数进行四舍五入取整;
将标准化后的预测结果通过反one-hot编码得到实体名称和实体位置,即将结果中的数字映射到实体名称。
一种计算机存储介质,所述计算机存储介质包括:至少一个指令,在所述指令被执行时实现以上任一项所述的方法步骤。
需要指出,根据实施的需要,可将本申请中描述的各个步骤/部件拆分为更多步骤/部件,也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件,以实现本专利的目的。
本领域的技术人员容易理解,以上所述仅为本专利的较佳实施例而已,并不用以限制本专利,凡在本专利的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本专利的保护范围之内。
Claims (10)
1.一种基于ALBERT的武器装备实体抽取方法,其特征在于,包括以下步骤:
S1、使用ALBERT模型作为语句表征模型来表示句向量,将预设的训练集语句统合为多维向量特征作为神经网络输入,并将训练集语句对应的实体标记通过one-hot编码得到对照结果向量特征;
S2、将对照结果向量特征输入BiLSTM-CRF网络模型,对对照结果向量特征进行交叉训练,等待BiLSTM-CRF网络模型收敛后得到网络模型;
S3、输入待识别语句至ALBERT模型,通过ALBERT模型表示为句向量,并作为特征输入到网络模型中;
S4、通过网络模型计算得到预测结果;
S5、将预测结果通过反one-hot编码得到结果序列,识别结果序列得到实体名称和实体位置;
S6、将实体名称和实体位置作为最终结果输出。
2.根据权利要求1所述的一种基于ALBERT的武器装备实体抽取方法,其特征在于,所述S1具体为:
S1.1、规定进入ALBERT模型的待识别语句长度为80,如果待识别语句长度小于80,使用0作为填充至待识别语句长度为80;如果待识别语句长度大于80,则将该待识别语句截断至待识别语句长度为80;
S1.2、以字符为单位将待识别语句分开,每个字符作为一个token,将各待识别语句输入ALBERT模型中并转化为句向量;
S1.3、将训练集中的每一条训练集语句均按照S1.1、S1.2的步骤处理得到多维向量特征;
S1.4、使用one-hot编码对每一条训练集语句对应的实体标记进行编码,得到对照结果向量特征。
3.根据权利要求1所述的一种基于ALBERT的武器装备领域实体抽取方法,其特征在于,所述S2中交叉训练的具体方法为:
S2.1、通过Pytorch神经网络框架实现双向长短时序网络和条件随机场,即BiLSTM-CRF网络模型;
S2.2、设置神经网络相关参数,将对照结果向量特征输入BiLSTM-CRF网络模型进行迭代训练;
S2.3、随着迭代次数增加,当loss值小于阈值时停止训练,得到网络模型参数并存储。
4.根据权利要求1所述的一种基于ALBERT的武器装备实体抽取方法,其特征在于,所述S5具体为:
S5.1、将预测结果标准化,即将预测结果中的小数进行四舍五入取整;
S5.2、将标准化后的预测结果通过反one-hot编码得到实体名称和实体位置,即将结果中的数字映射到实体名称。
5.根据权利要求1所述的一种基于ALBERT的武器装备实体抽取方法,其特征在于,所述S6还包括以下步骤:将实体名称和实体位置整合为实体结果后输出。
6.一种使用如权利要求1所述的一种基于ALBERT的武器装备实体抽取方法的系统,其特征在于,包括:
ALBERT模型模块,用于作为语句表征模型来表示句向量,将预设的训练集语句统合为多维向量特征作为神经网络输入,并将训练集语句对应的实体标记通过one-hot编码得到对照结果向量特征;
BiLSTM-CRF网络模型模块,用于对对照结果向量特征进行交叉训练,等待BiLSTM-CRF网络模型收敛后得到网络模型;
网络模型模块,用于通过网络模型对句向量计算得到预测结果,将预测结果通过反one-hot编码得到结果序列,识别结果序列得到实体名称和实体位置,并将实体名称和实体位置作为最终结果输出。
7.根据权利要求6所述的系统,其特征在于,所述ALBERT模型模块的具体工作过程为:
规定进入ALBERT模型的待识别语句长度为80,如果待识别语句长度小于80,使用0作为填充至待识别语句长度为80;如果待识别语句长度大于80,则将该待识别语句截断至待识别语句长度为80;
以字符为单位将待识别语句分开,每个字符作为一个token,将各待识别语句输入ALBERT模型中并转化为句向量;
将训练集中的每一条训练集语句均按照上述步骤处理得到多维向量特征;
使用one-hot编码对每一条训练集语句对应的实体标记进行编码,得到对照结果向量特征。
8.根据权利要求6所述的系统,其特征在于,所述BiLSTM-CRF网络模型模块的具体工作过程为:
通过Pytorch神经网络框架实现双向长短时序网络和条件随机场,即BiLSTM-CRF网络模型;
设置神经网络相关参数,将对照结果向量特征输入BiLSTM-CRF网络模型进行迭代训练;
随着迭代次数增加,当loss值小于阈值时停止训练,得到网络模型参数并存储。
9.根据权利要求6所述的系统,其特征在于,所述网络模型模块得到实体名称和实体位置的具体工作过程为:
将预测结果标准化,即将预测结果中的小数进行四舍五入取整;
将标准化后的预测结果通过反one-hot编码得到实体名称和实体位置,即将结果中的数字映射到实体名称。
10.一种计算机存储介质,其特征在于,所述计算机存储介质包括:至少一个指令,在所述指令被执行时实现如权利要求1至5任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110163970.3A CN112966510A (zh) | 2021-02-05 | 2021-02-05 | 一种基于albert的武器装备实体抽取方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110163970.3A CN112966510A (zh) | 2021-02-05 | 2021-02-05 | 一种基于albert的武器装备实体抽取方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112966510A true CN112966510A (zh) | 2021-06-15 |
Family
ID=76274778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110163970.3A Pending CN112966510A (zh) | 2021-02-05 | 2021-02-05 | 一种基于albert的武器装备实体抽取方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112966510A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113535979A (zh) * | 2021-07-14 | 2021-10-22 | 中国地质大学(北京) | 一种矿物领域知识图谱构建方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159385A (zh) * | 2019-12-31 | 2020-05-15 | 南京烽火星空通信发展有限公司 | 一种基于动态知识图谱的无模板通用智能问答方法 |
CN111428502A (zh) * | 2020-02-19 | 2020-07-17 | 中科世通亨奇(北京)科技有限公司 | 一种面向军事语料的命名实体标注方法 |
CN111709241A (zh) * | 2020-05-27 | 2020-09-25 | 西安交通大学 | 一种面向网络安全领域的命名实体识别方法 |
CN111832302A (zh) * | 2019-04-10 | 2020-10-27 | 北京京东尚科信息技术有限公司 | 一种命名实体识别方法和装置 |
CN112270193A (zh) * | 2020-11-02 | 2021-01-26 | 重庆邮电大学 | 基于bert-flat的中文命名实体识别方法 |
-
2021
- 2021-02-05 CN CN202110163970.3A patent/CN112966510A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111832302A (zh) * | 2019-04-10 | 2020-10-27 | 北京京东尚科信息技术有限公司 | 一种命名实体识别方法和装置 |
CN111159385A (zh) * | 2019-12-31 | 2020-05-15 | 南京烽火星空通信发展有限公司 | 一种基于动态知识图谱的无模板通用智能问答方法 |
CN111428502A (zh) * | 2020-02-19 | 2020-07-17 | 中科世通亨奇(北京)科技有限公司 | 一种面向军事语料的命名实体标注方法 |
CN111709241A (zh) * | 2020-05-27 | 2020-09-25 | 西安交通大学 | 一种面向网络安全领域的命名实体识别方法 |
CN112270193A (zh) * | 2020-11-02 | 2021-01-26 | 重庆邮电大学 | 基于bert-flat的中文命名实体识别方法 |
Non-Patent Citations (3)
Title |
---|
PEIDONG GAO,等: "Question Answering System over Knowledge Graph of Weapon Field", 《2020 5TH INTERNATIONAL CONFERENCE ON CONTROL, ROBOTICS AND CYBERNETICS (CRC)》, pages 1 - 7 * |
柴悦,等: "基于Att-iBi-LSTM的新闻主题词提取方法研究", 《武汉工程大学学报》, vol. 42, no. 5, pages 575 - 580 * |
江逸琪,等: "基于BiLSTM-CRF的体育新闻主题词抽取方法", 《武汉工程大学学报》, vol. 42, no. 01, pages 102 - 107 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113535979A (zh) * | 2021-07-14 | 2021-10-22 | 中国地质大学(北京) | 一种矿物领域知识图谱构建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN110532554B (zh) | 一种中文摘要生成方法、系统及存储介质 | |
CN107273358B (zh) | 一种基于管道模式的端到端英文篇章结构自动分析方法 | |
CN113495900B (zh) | 基于自然语言的结构化查询语言语句获取方法及装置 | |
CN112395385B (zh) | 基于人工智能的文本生成方法、装置、计算机设备及介质 | |
CN112541356B (zh) | 一种生物医学命名实体识别的方法和系统 | |
CN111046660B (zh) | 一种识别文本专业术语的方法及装置 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN112364623A (zh) | 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法 | |
US20230103728A1 (en) | Method for sample augmentation | |
CN109815497B (zh) | 基于句法依存的人物属性抽取方法 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN111078874B (zh) | 基于随机子空间的决策树分类的对外汉语难度评估方法 | |
CN112966510A (zh) | 一种基于albert的武器装备实体抽取方法、系统及存储介质 | |
CN115358227A (zh) | 一种基于短语增强的开放域关系联合抽取方法及系统 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN109960782A (zh) | 一种基于深度神经网络的藏文分词方法及装置 | |
CN115130475A (zh) | 一种可扩展的通用端到端命名实体识别方法 | |
CN113886521A (zh) | 一种基于相似词汇表的文本关系自动标注方法 | |
CN110347813B (zh) | 一种语料处理方法、装置、存储介质及电子设备 | |
Nguyen et al. | Adaptable filtering using hierarchical embeddings for chinese spell check | |
CN112380854A (zh) | 一种中文分词方法、装置、电子设备及存储介质 | |
CN113553853B (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
CN116720502B (zh) | 基于机器阅读理解与模板规则的航空文档信息抽取方法 | |
CN103064878A (zh) | 一种快速序列标注方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |