CN109117472A - 一种基于深度学习的维吾尔文命名实体识别方法 - Google Patents

一种基于深度学习的维吾尔文命名实体识别方法 Download PDF

Info

Publication number
CN109117472A
CN109117472A CN201810371094.1A CN201810371094A CN109117472A CN 109117472 A CN109117472 A CN 109117472A CN 201810371094 A CN201810371094 A CN 201810371094A CN 109117472 A CN109117472 A CN 109117472A
Authority
CN
China
Prior art keywords
vector
syllable
character
word
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810371094.1A
Other languages
English (en)
Inventor
买合木提·买买提
艾山·吾买尔
吐尔根·依布拉音
王路路
卡哈尔江·阿比的热西提
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang University
Original Assignee
Xinjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang University filed Critical Xinjiang University
Priority to CN201810371094.1A priority Critical patent/CN109117472A/zh
Publication of CN109117472A publication Critical patent/CN109117472A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的维吾尔文命名实体识别方法,该方法包括如下步骤:(1)对维吾尔文本进行分词,对词分别进行字符提取和音节切分;(2)用双向LSTM网络对提取的字符分别获得前向和反向字符向量,并将它们拼接到一起形成词语的字符向量表示;(3)用双向LSTM网络对切分的音节分别获得前向和反向音节向量,并将它们拼接到一起形成词语的音节向量表示;(4)将字符向量、音节向量与词向量进行拼接并作为传到双向LSTM神经网络来对每个词语的上下文信息进行建模;(5)在LSTM神经网络的输出端,利用条件随机场来对整个句子进行命名实体标注;本发明由字符,音节及词向量的拼接作为神经网络的输入,提取了词语的丰富结构信息,因此本发明能在形态丰富语言的序列标注中有广泛应用。

Description

一种基于深度学习的维吾尔文命名实体识别方法
技术领域
本发明涉及自然语言处理,具体涉及一种基于深度学习的维吾尔文命名实体识别方法。
背景技术
随着互联网技术的快速发展,有关新疆少数民族语言的搜索引擎、翻译系统有了比较好的发展,但是在维吾尔语命名实体的识别方面,仍然缺少准确率高得命名实体识别方法。命名实体识别作为机器翻译、信息抽取及检索等研究的基础,具有重要的研究意义。
目前命名实体识别(Named Entity Recognition,NER)方法分为三种:基于规则的方法,基于统计的方法以及基于神经网络的方法。基于规则的命名实体识别的基本思路是人工编写上下文敏感的产生式,使用普通的命名实体(NE)数据库,都将不同的权值赋给不同的规则以便在产生规则冲突时可以选择具有最大权值的规则。基于统计的方法将专名识别看作一般模式识别中分类问题的一个特例,利用字标注的方法来进行命名实体识别。其基本步骤包括:特征选择、机器学习、标注、后处理。基于深度学习的方法通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示,需要比较大的数据规模。2011年在NER任务上开始使用神经网络来进行研究。当时研究主要包含了两种网络结构,分别是窗口方法与句子方法来进行NER任务。这两种方法主要区别在于窗口方法仅使用当前预测词的上下文窗口进行输入,再使用传统的神经网络结构;句子方法用整个句子作为当前预测词输入,加入了句子中相对位置特征来区分句子中的每个词,接着使用一层卷积神经网络(CNN)结构。训练时的优化目标函数也分为两种,其一是词级别的对数似然,其二是句子级别的对数似然。2015年左右关于NER的工作大多使用的是循环神经网络与条件随机场相结合的(RNN+CRF)结构进行研究,这里的RNN一般使用长短期记忆神经网络(LSTM)或GRU,它主要有Embedding层(主要有词向量,字符相量以及一些额外特征),双向RNN层,tanh隐层以及最后的CRF层构成。其效果已经达到或者超过了基于丰富特征的CRF模型,已成为目前基于深度学习的NER方法中的最主流模型。这种模型在特征方面,无需额外的特征工程,仅使用词向量或字符相量就可以达到很好的效果。
维吾尔语命名实体识别具有独特的词法、语言特点,直接套用英语和汉语的方法并不合适。
目前维吾尔文命名实体识别研究相比于英文、中文的研究较少。国内有关维吾尔文命名实体识别主要集中在人名,时间表达式方面,也有基于规则的机构名、地名方面的研究。但是还没有基于深度学习的识别率比较高的识别方法出现,仍然无法满足应用需求。除此之外,汉语和英语命名实体识别最好的系统都使用字符级别的词语表示,但是根据维吾尔语词语的构词特点,词干和词缀往往是多余一个字符构成并且它们的前后连接具有一定的规律性,特别在命名实体上这些特点更加明显,因此可以通过音节向量来表示词语能够获取更丰富的词法信息,我们提出的基于深度学习的方法可以有效缓解维吾尔语命名实体识别中的词缀复杂等未登录词问题,提高了识别率。
发明内容
本发明的目的是为了对维吾尔文文本中的命名实体(人名,地名,机构名)进行检测并进行标注,以得到有效的识别性能,提出一种双向LSTM神经网络的输入由字符向量、音节向量和词语向量拼接组成的基于深度学习的维吾尔文命名实体识别方法。
基于深度学习的维吾尔文命名实体识别方法,包括如下步骤:
包括如下步骤:
S1.对待标注的维吾尔文文本数据进行分句、分词,并对词进行字符提取和音节切分;S2.用双向LSTM网络对提取的字符分别获得前向字符向量和反向字符向量,并将它们拼接到一起形成词语的字符向量表示;S3.用双向LSTM网络对切分的音节分别获得前向音节向量和反向音节向量,并将它们拼接到一起形成词语的音节向量表示;S4.将字符向量、音节向量与词向量进行拼接并作为传到双向LSTM神经网络来训练得到输入语句的信息特征;S5.针对步骤S4中得到的输出,利用条件随机场来对整个句子进行命名实体标注,标记出语句中的命名实体信息;
进一步的,在步骤S1中,进行所述字符提取和音节切分包括以下步骤:S11.采用自然语言处理工具对文本进行句子边界识别和词例化,使得数据集以句子和每句一个token分割来呈现;S12.对步骤S11中得到的句子以及单词进行统计,获取其对应的句表,单词表;S13.将步骤S12中的所述单词表进行字符统计,获取字符表;S14.按照音节进行切分,将步骤S12中的所述单词表中的音节进行统计,形成音节表;
进一步的,在步骤S4中,得到所述输入语句的信息特征包括以下步骤:S41.初始化:第t时刻的向量xt由字符级向量音节级向量传统的词嵌入组成,如以下公式:其中,xt∈Rn为时刻t输入拼接向量,ht隐藏层的向量,W*为不同状态下对于输入xt的权重矩阵,U*为隐藏层状态层ht的权重矩阵,b*为偏置向量;S42.遗忘门:决定上一时刻的单元状态ct-1丢弃了哪些信息,遗留哪些信息保留到当前时刻ct的单元状态,其计算公式如下:ft=σ(Wfxt+Ufht-1+bf);S43.输入门:确定哪些新信息被保存在的单元状态ct中;首先,使用sigmoid激活函数确定哪些信息被更新;然后,用tanh正切函数描述当前输入的单元状态接着,更新当前时刻的单元状态ct;其计算公式如下:
it=σ(Wixt+Uiht-1+bi);
S44.输出门;确定LSTM最终的输出值;首先利用sigmoid层确定细胞状态的输出,然后使用tanh层确定最终的输出,是由输出门和单元状态来共同确定;其计算公式如下:
ot=σ(Woxt+Uoht-1+bo);
ht=ot·tanh(ct);
S45.基于以上步骤,利用反向传播层获取未来信息;S46.两个隐藏层信息通过级联获取最后的输出向量。
进一步的,,在步骤S5中,标记出语句中的命名实体信息的具体步骤为:S51.对于给定的观察序列X,计算所有可能的标记序列y上的条件概率p(y|x);S52.极大化训练数据的对数似然函数来求模型参数;S53.在标记序列中找到条件概率最高的y来对序列进行标注。
本发明的有益效果是:与现有技术相比,针对维吾尔语命名实体识别,本发明技术方案使用一种基于音节表示的长短时记忆神经网络构造方法。其主要是采用基于端到端的序列化标注模型,使用双向LSTM对每个单词学习字符级向量、音节级向量,然后将字符级向量、音节向量和词向量结合起来,拼接成一个加强向量,输入到双向LSTM网络对命名实体识别进行建模,最后LSTM模型的输出标签序列输入到条件随机场中(CRF)进行解码。本发明不仅能够摒弃人工获取特征,而且应用场景广泛,能够解决不同领域的命名实体标注问题。
附图说明
图1是基于深度学习的维吾尔文命名实体识别的关键步骤流程图。
图2是获取音节向量表示的双向LSTM神经网络实例示意图。
图3是基于BI-LSTM-CRF的命名实体识别的实例示意图。
具体实施方式
如图所示,本实施例的基于深度学习的维吾尔文命名实体识别方法,包括如下步骤:
(1)对待标注的维吾尔文文本数据进行分句、分词,并对词进行字符提取和音节切分;
(2)用双向LSTM网络对提取的字符分别获得前向和反向字符向量,并将它们拼接到一起形成词语的字符向量表示;
(3)用双向LSTM网络对切分的音节分别获得前向和反向音节向量,并将它们拼接到一起形成词语的音节向量表示;
(4)将字符向量、音节向量与词向量进行拼接并作为传到双向LSTM神经网络来训练得到输入语句的信息特征;
(5)针对(4)中得到的输出,利用条件随机场来对整个句子进行命名实体标注,标记出语句中的命名实体信息。
上述各步骤具体采用如下技术方案实现:
对待标注的维吾尔文文本数据进行分句、分词,并对词进行字符提取和音节切分,其实现步骤如下:
(1)采用自然语言处理工具对文本进行句子边界识别和词例化,使得数据集以句子和每句一个token分割来呈现;
(2)对步骤(1)中得到的句子以及单词进行统计,获取其对应的句表,单词表;
(3)将步骤(2)中单词表进行字符统计,获取字符表;
(4)按照音节进行切分,将步骤(2)中单词表中的音节进行统计,形成音节表;
用双向LSTM网络对每个词的字符分别获得前向和反向字符向量,并将它们拼接到一起形成词语的字符向量表示;用双向LSTM网络对每个词的音节分别获得前向和反向音节向量,并将它们拼接到一起形成词语的音节向量表示。
将字符向量、音节向量与词向量进行拼接并作为传到双向LSTM神经网络来训练得到输入语句的信息特征,具体过程如下:
(1)初始化:xt∈Rn为时刻t输入拼接向量,ht隐藏层的向量,W*为不同状态下对于输入xt的权重矩阵,U*为隐藏层状态层ht的权重矩阵,b*为偏置向量。第t时刻的向量xt由字符级向量音节级向量传统的词嵌入组成,如公式1。
(2)遗忘门:决定上一时刻的单元状态ct-1丢弃了哪些信息,遗留哪些信息保留到当前时刻ct的单元状态。计算公式如下:
ft=σ(Wfxt+Ufht-1+bf) (2)
(3)输入门:确定哪些新信息被保存在的单元状态ct中。首先,使用sigmoid激活函数确定哪些信息被更新;然后,用tanh正切函数描述当前输入的单元状态接着,更新当前时刻的单元状态ct。计算公式如下:
it=σ(Wixt+Uiht-1+bi) (3)
(4)输出门:确定LSTM最终的输出值。首先利用sigmoid层确定细胞状态的输出,然后使用tanh层确定最终的输出,是由输出门和单元状态来共同确定。计算公式如下:
ot=σ(Woxt+Uoht-1+bo) (6)
ht=ot·tanh(ct) (7)
(5)基于以上步骤,利用反向传播层获取未来信息
(6)两个隐藏层信息通过级联获取最后的输出向量。
针对Bi-LSTM中得到的输出,利用条件随机场来对整个句子进行命名实体标注,标记出语句中的命名实体信息。
(1)对于给定的观察序列X,计算所有可能的标记序列y上的条件概率p(y|x);
(2)极大化训练数据的对数似然函数来求模型参数;
(3)在标记序列中找到条件概率最高的y来对序列进行标注。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.一种基于深度学习的维吾尔文命名实体识别方法,其特征在于,包括如下步骤:
S1.对待标注的维吾尔文文本数据进行分句、分词,并对词进行字符提取和音节切分;
S2.用双向LSTM网络对提取的字符分别获得前向字符向量和反向字符向量,并将它们拼接到一起形成词语的字符向量表示;
S3.用双向LSTM网络对切分的音节分别获得前向音节向量和反向音节向量,并将它们拼接到一起形成词语的音节向量表示;
S4.将字符向量、音节向量与词向量进行拼接并作为传到双向LSTM神经网络来训练得到输入语句的信息特征;
S5.针对步骤S4中得到的输出,利用条件随机场来对整个句子进行命名实体标注,标记出语句中的命名实体信息。
2.根据权利要求1所述的基于深度学习的维吾尔文命名实体识别方法,其特征在于,在步骤S1中,进行所述字符提取和音节切分包括以下步骤:
S11.采用自然语言处理工具对文本进行句子边界识别和词例化,使得数据集以句子和每句一个token分割来呈现;
S12.对步骤S11中得到的句子以及单词进行统计,获取其对应的句表,单词表;
S13.将步骤S12中的所述单词表进行字符统计,获取字符表;
S14.按照音节进行切分,将步骤S12中的所述单词表中的音节进行统计,形成音节表。
3.根据权利要求1所述的基于深度学习的维吾尔文命名实体识别方法,其特征在于,在步骤S4中,得到所述输入语句的信息特征包括以下步骤:
S41.初始化:第t时刻的向量xt由字符级向量音节级向量传统的词嵌入组成,如以下公式:
其中,xt∈Rn为时刻t输入拼接向量,ht隐藏层的向量,W*为不同状态下对于输入xt的权重矩阵,U*为隐藏层状态层ht的权重矩阵,b*为偏置向量;
S42.遗忘门:决定上一时刻的单元状态ct-1丢弃了哪些信息,遗留哪些信息保留到当前时刻ct的单元状态,其计算公式如下:
ft=σ(Wfxt+Ufht-1+bf)
S43.输入门:确定哪些新信息被保存在的单元状态ct中;首先,使用sigmoid激活函数确定哪些信息被更新;然后,用tanh正切函数描述当前输入的单元状态接着,更新当前时刻的单元状态ct;其计算公式如下:
it=σ(Wixt+Uiht-1+bi);
S44.输出门;确定LSTM最终的输出值;首先利用sigmoid层确定细胞状态的输出,然后使用tanh层确定最终的输出,是由输出门和单元状态来共同确定;其计算公式如下:
ot=σ(Woxt+Uoht-1+bo);
ht=ot·tanh(ct);
S45.基于以上步骤,利用反向传播层获取未来信息;
S46.两个隐藏层信息通过级联获取最后的输出向量。
4.根据权利要求1所述的基于深度学习的维吾尔文命名实体识别方法,其特征在于,在步骤S5中,标记出语句中的命名实体信息的具体步骤为:
S51.对于给定的观察序列X,计算所有可能的标记序列y上的条件概率p(y|x);
S52.极大化训练数据的对数似然函数来求模型参数;
S53.在标记序列中找到条件概率最高的y来对序列进行标注。
CN201810371094.1A 2018-11-12 2018-11-12 一种基于深度学习的维吾尔文命名实体识别方法 Pending CN109117472A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810371094.1A CN109117472A (zh) 2018-11-12 2018-11-12 一种基于深度学习的维吾尔文命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810371094.1A CN109117472A (zh) 2018-11-12 2018-11-12 一种基于深度学习的维吾尔文命名实体识别方法

Publications (1)

Publication Number Publication Date
CN109117472A true CN109117472A (zh) 2019-01-01

Family

ID=64821795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810371094.1A Pending CN109117472A (zh) 2018-11-12 2018-11-12 一种基于深度学习的维吾尔文命名实体识别方法

Country Status (1)

Country Link
CN (1) CN109117472A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858280A (zh) * 2019-01-21 2019-06-07 深圳昂楷科技有限公司 一种基于机器学习的脱敏方法、装置及脱敏设备
CN109871545A (zh) * 2019-04-22 2019-06-11 京东方科技集团股份有限公司 命名实体识别方法及装置
CN109871535A (zh) * 2019-01-16 2019-06-11 四川大学 一种基于深度神经网络的法语命名实体识别方法
CN110096591A (zh) * 2019-04-04 2019-08-06 平安科技(深圳)有限公司 基于词袋模型的长文本分类方法、装置、计算机设备及存储介质
CN110298019A (zh) * 2019-05-20 2019-10-01 平安科技(深圳)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN110414009A (zh) * 2019-07-09 2019-11-05 昆明理工大学 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN110489750A (zh) * 2019-08-12 2019-11-22 昆明理工大学 基于双向lstm-crf的缅甸语分词及词性标注方法及装置
CN110826334A (zh) * 2019-11-08 2020-02-21 中山大学 一种基于强化学习的中文命名实体识别模型及其训练方法
CN110879831A (zh) * 2019-10-12 2020-03-13 杭州师范大学 基于实体识别技术的中医药语句分词方法
CN111259672A (zh) * 2020-02-12 2020-06-09 新疆大学 基于图卷积神经网络的中文旅游领域命名实体识别方法
CN111476022A (zh) * 2020-05-15 2020-07-31 湖南工商大学 实体特征的字符嵌入及混合lstm实体识别方法、系统及介质
CN111523325A (zh) * 2020-04-20 2020-08-11 电子科技大学 一种基于笔画的中文命名实体识别方法
CN111597814A (zh) * 2020-05-22 2020-08-28 北京慧闻科技(集团)有限公司 一种人机交互命名实体识别方法、装置、设备及存储介质
CN112257447A (zh) * 2020-10-22 2021-01-22 北京众标智能科技有限公司 基于深度网络as-lstm的命名实体识别系统及识别方法
CN112307764A (zh) * 2019-07-30 2021-02-02 百度(美国)有限责任公司 用于神经命名实体识别的共指感知表示学习
CN112651245A (zh) * 2020-12-28 2021-04-13 南京邮电大学 序列标注模型及序列标注方法
CN113486193A (zh) * 2021-07-26 2021-10-08 国网经济技术研究院有限公司 一种基于机器学习的电网基建工程数据知识图谱构建方法
CN113609857A (zh) * 2021-07-22 2021-11-05 武汉工程大学 基于级联模型和数据增强的法律命名实体识别方法及系统
CN114298044A (zh) * 2021-12-27 2022-04-08 山东师范大学 一种中文命名实体识别方法及系统
CN114444485A (zh) * 2022-01-24 2022-05-06 四川大学 一种云环境网络设备实体识别方法
CN116386895A (zh) * 2023-04-06 2023-07-04 之江实验室 基于异构图神经网络的流行病舆情实体识别方法与装置
CN116705058A (zh) * 2023-08-04 2023-09-05 贝壳找房(北京)科技有限公司 多模语音任务的处理方法、电子设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MAIHEMUTI MAIMAITI等: "Bidirectional Long Short-Term Memory Network with a Conditional Random Field Layer for Uyghur Part-Of-Speech Tagging", 《MDPI》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871535A (zh) * 2019-01-16 2019-06-11 四川大学 一种基于深度神经网络的法语命名实体识别方法
CN109858280A (zh) * 2019-01-21 2019-06-07 深圳昂楷科技有限公司 一种基于机器学习的脱敏方法、装置及脱敏设备
CN110096591A (zh) * 2019-04-04 2019-08-06 平安科技(深圳)有限公司 基于词袋模型的长文本分类方法、装置、计算机设备及存储介质
CN109871545A (zh) * 2019-04-22 2019-06-11 京东方科技集团股份有限公司 命名实体识别方法及装置
CN110298019A (zh) * 2019-05-20 2019-10-01 平安科技(深圳)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN110298019B (zh) * 2019-05-20 2023-04-18 平安科技(深圳)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN110414009A (zh) * 2019-07-09 2019-11-05 昆明理工大学 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN112307764A (zh) * 2019-07-30 2021-02-02 百度(美国)有限责任公司 用于神经命名实体识别的共指感知表示学习
CN112307764B (zh) * 2019-07-30 2024-01-19 百度(美国)有限责任公司 用于神经命名实体识别的共指感知表示学习
CN110489750A (zh) * 2019-08-12 2019-11-22 昆明理工大学 基于双向lstm-crf的缅甸语分词及词性标注方法及装置
CN110879831A (zh) * 2019-10-12 2020-03-13 杭州师范大学 基于实体识别技术的中医药语句分词方法
CN110826334A (zh) * 2019-11-08 2020-02-21 中山大学 一种基于强化学习的中文命名实体识别模型及其训练方法
CN110826334B (zh) * 2019-11-08 2023-04-21 中山大学 一种基于强化学习的中文命名实体识别模型及其训练方法
CN111259672A (zh) * 2020-02-12 2020-06-09 新疆大学 基于图卷积神经网络的中文旅游领域命名实体识别方法
CN111523325A (zh) * 2020-04-20 2020-08-11 电子科技大学 一种基于笔画的中文命名实体识别方法
CN111476022A (zh) * 2020-05-15 2020-07-31 湖南工商大学 实体特征的字符嵌入及混合lstm实体识别方法、系统及介质
CN111597814B (zh) * 2020-05-22 2023-05-26 北京慧闻科技(集团)有限公司 一种人机交互命名实体识别方法、装置、设备及存储介质
CN111597814A (zh) * 2020-05-22 2020-08-28 北京慧闻科技(集团)有限公司 一种人机交互命名实体识别方法、装置、设备及存储介质
CN112257447A (zh) * 2020-10-22 2021-01-22 北京众标智能科技有限公司 基于深度网络as-lstm的命名实体识别系统及识别方法
CN112651245A (zh) * 2020-12-28 2021-04-13 南京邮电大学 序列标注模型及序列标注方法
CN113609857A (zh) * 2021-07-22 2021-11-05 武汉工程大学 基于级联模型和数据增强的法律命名实体识别方法及系统
CN113609857B (zh) * 2021-07-22 2023-11-28 武汉工程大学 基于级联模型和数据增强的法律命名实体识别方法及系统
CN113486193A (zh) * 2021-07-26 2021-10-08 国网经济技术研究院有限公司 一种基于机器学习的电网基建工程数据知识图谱构建方法
CN114298044A (zh) * 2021-12-27 2022-04-08 山东师范大学 一种中文命名实体识别方法及系统
CN114444485B (zh) * 2022-01-24 2023-06-06 四川大学 一种云环境网络设备实体识别方法
CN114444485A (zh) * 2022-01-24 2022-05-06 四川大学 一种云环境网络设备实体识别方法
CN116386895A (zh) * 2023-04-06 2023-07-04 之江实验室 基于异构图神经网络的流行病舆情实体识别方法与装置
CN116386895B (zh) * 2023-04-06 2023-11-28 之江实验室 基于异构图神经网络的流行病舆情实体识别方法与装置
CN116705058A (zh) * 2023-08-04 2023-09-05 贝壳找房(北京)科技有限公司 多模语音任务的处理方法、电子设备及可读存储介质
CN116705058B (zh) * 2023-08-04 2023-10-27 贝壳找房(北京)科技有限公司 多模语音任务的处理方法、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN109117472A (zh) 一种基于深度学习的维吾尔文命名实体识别方法
CN109299262B (zh) 一种融合多粒度信息的文本蕴含关系识别方法
CN111444726B (zh) 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置
CN113239210B (zh) 基于自动化补全知识图谱的水利文献推荐方法及系统
CN109325231B (zh) 一种多任务模型生成词向量的方法
CN110008469B (zh) 一种多层次命名实体识别方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN109871538A (zh) 一种中文电子病历命名实体识别方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN110263325B (zh) 中文分词系统
CN111078833B (zh) 一种基于神经网络的文本分类方法
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN112163425A (zh) 基于多特征信息增强的文本实体关系抽取方法
CN110555084A (zh) 基于pcnn和多层注意力的远程监督关系分类方法
CN113761890B (zh) 一种基于bert上下文感知的多层级语义信息检索方法
CN110532568B (zh) 基于树特征选择和迁移学习的汉语词义消歧方法
CN109214006A (zh) 图像增强的层次化语义表示的自然语言推理方法
CN109684928B (zh) 基于互联网检索的中文文档识别方法
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN106055560A (zh) 一种基于统计机器学习方法的分词字典数据采集方法
CN113704416A (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
CN111144119A (zh) 一种改进知识迁移的实体识别方法
CN112699685A (zh) 基于标签引导的字词融合的命名实体识别方法
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190101