CN109117472A - 一种基于深度学习的维吾尔文命名实体识别方法 - Google Patents
一种基于深度学习的维吾尔文命名实体识别方法 Download PDFInfo
- Publication number
- CN109117472A CN109117472A CN201810371094.1A CN201810371094A CN109117472A CN 109117472 A CN109117472 A CN 109117472A CN 201810371094 A CN201810371094 A CN 201810371094A CN 109117472 A CN109117472 A CN 109117472A
- Authority
- CN
- China
- Prior art keywords
- vector
- syllable
- character
- word
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000013135 deep learning Methods 0.000 title claims abstract description 16
- 239000013598 vector Substances 0.000 claims abstract description 73
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000005520 cutting process Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000002372 labelling Methods 0.000 abstract 1
- 238000011160 research Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于深度学习的维吾尔文命名实体识别方法,该方法包括如下步骤:(1)对维吾尔文本进行分词,对词分别进行字符提取和音节切分;(2)用双向LSTM网络对提取的字符分别获得前向和反向字符向量,并将它们拼接到一起形成词语的字符向量表示;(3)用双向LSTM网络对切分的音节分别获得前向和反向音节向量,并将它们拼接到一起形成词语的音节向量表示;(4)将字符向量、音节向量与词向量进行拼接并作为传到双向LSTM神经网络来对每个词语的上下文信息进行建模;(5)在LSTM神经网络的输出端,利用条件随机场来对整个句子进行命名实体标注;本发明由字符,音节及词向量的拼接作为神经网络的输入,提取了词语的丰富结构信息,因此本发明能在形态丰富语言的序列标注中有广泛应用。
Description
技术领域
本发明涉及自然语言处理,具体涉及一种基于深度学习的维吾尔文命名实体识别方法。
背景技术
随着互联网技术的快速发展,有关新疆少数民族语言的搜索引擎、翻译系统有了比较好的发展,但是在维吾尔语命名实体的识别方面,仍然缺少准确率高得命名实体识别方法。命名实体识别作为机器翻译、信息抽取及检索等研究的基础,具有重要的研究意义。
目前命名实体识别(Named Entity Recognition,NER)方法分为三种:基于规则的方法,基于统计的方法以及基于神经网络的方法。基于规则的命名实体识别的基本思路是人工编写上下文敏感的产生式,使用普通的命名实体(NE)数据库,都将不同的权值赋给不同的规则以便在产生规则冲突时可以选择具有最大权值的规则。基于统计的方法将专名识别看作一般模式识别中分类问题的一个特例,利用字标注的方法来进行命名实体识别。其基本步骤包括:特征选择、机器学习、标注、后处理。基于深度学习的方法通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示,需要比较大的数据规模。2011年在NER任务上开始使用神经网络来进行研究。当时研究主要包含了两种网络结构,分别是窗口方法与句子方法来进行NER任务。这两种方法主要区别在于窗口方法仅使用当前预测词的上下文窗口进行输入,再使用传统的神经网络结构;句子方法用整个句子作为当前预测词输入,加入了句子中相对位置特征来区分句子中的每个词,接着使用一层卷积神经网络(CNN)结构。训练时的优化目标函数也分为两种,其一是词级别的对数似然,其二是句子级别的对数似然。2015年左右关于NER的工作大多使用的是循环神经网络与条件随机场相结合的(RNN+CRF)结构进行研究,这里的RNN一般使用长短期记忆神经网络(LSTM)或GRU,它主要有Embedding层(主要有词向量,字符相量以及一些额外特征),双向RNN层,tanh隐层以及最后的CRF层构成。其效果已经达到或者超过了基于丰富特征的CRF模型,已成为目前基于深度学习的NER方法中的最主流模型。这种模型在特征方面,无需额外的特征工程,仅使用词向量或字符相量就可以达到很好的效果。
维吾尔语命名实体识别具有独特的词法、语言特点,直接套用英语和汉语的方法并不合适。
目前维吾尔文命名实体识别研究相比于英文、中文的研究较少。国内有关维吾尔文命名实体识别主要集中在人名,时间表达式方面,也有基于规则的机构名、地名方面的研究。但是还没有基于深度学习的识别率比较高的识别方法出现,仍然无法满足应用需求。除此之外,汉语和英语命名实体识别最好的系统都使用字符级别的词语表示,但是根据维吾尔语词语的构词特点,词干和词缀往往是多余一个字符构成并且它们的前后连接具有一定的规律性,特别在命名实体上这些特点更加明显,因此可以通过音节向量来表示词语能够获取更丰富的词法信息,我们提出的基于深度学习的方法可以有效缓解维吾尔语命名实体识别中的词缀复杂等未登录词问题,提高了识别率。
发明内容
本发明的目的是为了对维吾尔文文本中的命名实体(人名,地名,机构名)进行检测并进行标注,以得到有效的识别性能,提出一种双向LSTM神经网络的输入由字符向量、音节向量和词语向量拼接组成的基于深度学习的维吾尔文命名实体识别方法。
基于深度学习的维吾尔文命名实体识别方法,包括如下步骤:
包括如下步骤:
S1.对待标注的维吾尔文文本数据进行分句、分词,并对词进行字符提取和音节切分;S2.用双向LSTM网络对提取的字符分别获得前向字符向量和反向字符向量,并将它们拼接到一起形成词语的字符向量表示;S3.用双向LSTM网络对切分的音节分别获得前向音节向量和反向音节向量,并将它们拼接到一起形成词语的音节向量表示;S4.将字符向量、音节向量与词向量进行拼接并作为传到双向LSTM神经网络来训练得到输入语句的信息特征;S5.针对步骤S4中得到的输出,利用条件随机场来对整个句子进行命名实体标注,标记出语句中的命名实体信息;
进一步的,在步骤S1中,进行所述字符提取和音节切分包括以下步骤:S11.采用自然语言处理工具对文本进行句子边界识别和词例化,使得数据集以句子和每句一个token分割来呈现;S12.对步骤S11中得到的句子以及单词进行统计,获取其对应的句表,单词表;S13.将步骤S12中的所述单词表进行字符统计,获取字符表;S14.按照音节进行切分,将步骤S12中的所述单词表中的音节进行统计,形成音节表;
进一步的,在步骤S4中,得到所述输入语句的信息特征包括以下步骤:S41.初始化:第t时刻的向量xt由字符级向量音节级向量传统的词嵌入组成,如以下公式:其中,xt∈Rn为时刻t输入拼接向量,ht隐藏层的向量,W*为不同状态下对于输入xt的权重矩阵,U*为隐藏层状态层ht的权重矩阵,b*为偏置向量;S42.遗忘门:决定上一时刻的单元状态ct-1丢弃了哪些信息,遗留哪些信息保留到当前时刻ct的单元状态,其计算公式如下:ft=σ(Wfxt+Ufht-1+bf);S43.输入门:确定哪些新信息被保存在的单元状态ct中;首先,使用sigmoid激活函数确定哪些信息被更新;然后,用tanh正切函数描述当前输入的单元状态接着,更新当前时刻的单元状态ct;其计算公式如下:
it=σ(Wixt+Uiht-1+bi);
S44.输出门;确定LSTM最终的输出值;首先利用sigmoid层确定细胞状态的输出,然后使用tanh层确定最终的输出,是由输出门和单元状态来共同确定;其计算公式如下:
ot=σ(Woxt+Uoht-1+bo);
ht=ot·tanh(ct);
S45.基于以上步骤,利用反向传播层获取未来信息;S46.两个隐藏层信息通过级联获取最后的输出向量。
进一步的,,在步骤S5中,标记出语句中的命名实体信息的具体步骤为:S51.对于给定的观察序列X,计算所有可能的标记序列y上的条件概率p(y|x);S52.极大化训练数据的对数似然函数来求模型参数;S53.在标记序列中找到条件概率最高的y来对序列进行标注。
本发明的有益效果是:与现有技术相比,针对维吾尔语命名实体识别,本发明技术方案使用一种基于音节表示的长短时记忆神经网络构造方法。其主要是采用基于端到端的序列化标注模型,使用双向LSTM对每个单词学习字符级向量、音节级向量,然后将字符级向量、音节向量和词向量结合起来,拼接成一个加强向量,输入到双向LSTM网络对命名实体识别进行建模,最后LSTM模型的输出标签序列输入到条件随机场中(CRF)进行解码。本发明不仅能够摒弃人工获取特征,而且应用场景广泛,能够解决不同领域的命名实体标注问题。
附图说明
图1是基于深度学习的维吾尔文命名实体识别的关键步骤流程图。
图2是获取音节向量表示的双向LSTM神经网络实例示意图。
图3是基于BI-LSTM-CRF的命名实体识别的实例示意图。
具体实施方式
如图所示,本实施例的基于深度学习的维吾尔文命名实体识别方法,包括如下步骤:
(1)对待标注的维吾尔文文本数据进行分句、分词,并对词进行字符提取和音节切分;
(2)用双向LSTM网络对提取的字符分别获得前向和反向字符向量,并将它们拼接到一起形成词语的字符向量表示;
(3)用双向LSTM网络对切分的音节分别获得前向和反向音节向量,并将它们拼接到一起形成词语的音节向量表示;
(4)将字符向量、音节向量与词向量进行拼接并作为传到双向LSTM神经网络来训练得到输入语句的信息特征;
(5)针对(4)中得到的输出,利用条件随机场来对整个句子进行命名实体标注,标记出语句中的命名实体信息。
上述各步骤具体采用如下技术方案实现:
对待标注的维吾尔文文本数据进行分句、分词,并对词进行字符提取和音节切分,其实现步骤如下:
(1)采用自然语言处理工具对文本进行句子边界识别和词例化,使得数据集以句子和每句一个token分割来呈现;
(2)对步骤(1)中得到的句子以及单词进行统计,获取其对应的句表,单词表;
(3)将步骤(2)中单词表进行字符统计,获取字符表;
(4)按照音节进行切分,将步骤(2)中单词表中的音节进行统计,形成音节表;
用双向LSTM网络对每个词的字符分别获得前向和反向字符向量,并将它们拼接到一起形成词语的字符向量表示;用双向LSTM网络对每个词的音节分别获得前向和反向音节向量,并将它们拼接到一起形成词语的音节向量表示。
将字符向量、音节向量与词向量进行拼接并作为传到双向LSTM神经网络来训练得到输入语句的信息特征,具体过程如下:
(1)初始化:xt∈Rn为时刻t输入拼接向量,ht隐藏层的向量,W*为不同状态下对于输入xt的权重矩阵,U*为隐藏层状态层ht的权重矩阵,b*为偏置向量。第t时刻的向量xt由字符级向量音节级向量传统的词嵌入组成,如公式1。
(2)遗忘门:决定上一时刻的单元状态ct-1丢弃了哪些信息,遗留哪些信息保留到当前时刻ct的单元状态。计算公式如下:
ft=σ(Wfxt+Ufht-1+bf) (2)
(3)输入门:确定哪些新信息被保存在的单元状态ct中。首先,使用sigmoid激活函数确定哪些信息被更新;然后,用tanh正切函数描述当前输入的单元状态接着,更新当前时刻的单元状态ct。计算公式如下:
it=σ(Wixt+Uiht-1+bi) (3)
(4)输出门:确定LSTM最终的输出值。首先利用sigmoid层确定细胞状态的输出,然后使用tanh层确定最终的输出,是由输出门和单元状态来共同确定。计算公式如下:
ot=σ(Woxt+Uoht-1+bo) (6)
ht=ot·tanh(ct) (7)
(5)基于以上步骤,利用反向传播层获取未来信息
(6)两个隐藏层信息通过级联获取最后的输出向量。
针对Bi-LSTM中得到的输出,利用条件随机场来对整个句子进行命名实体标注,标记出语句中的命名实体信息。
(1)对于给定的观察序列X,计算所有可能的标记序列y上的条件概率p(y|x);
(2)极大化训练数据的对数似然函数来求模型参数;
(3)在标记序列中找到条件概率最高的y来对序列进行标注。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (4)
1.一种基于深度学习的维吾尔文命名实体识别方法,其特征在于,包括如下步骤:
S1.对待标注的维吾尔文文本数据进行分句、分词,并对词进行字符提取和音节切分;
S2.用双向LSTM网络对提取的字符分别获得前向字符向量和反向字符向量,并将它们拼接到一起形成词语的字符向量表示;
S3.用双向LSTM网络对切分的音节分别获得前向音节向量和反向音节向量,并将它们拼接到一起形成词语的音节向量表示;
S4.将字符向量、音节向量与词向量进行拼接并作为传到双向LSTM神经网络来训练得到输入语句的信息特征;
S5.针对步骤S4中得到的输出,利用条件随机场来对整个句子进行命名实体标注,标记出语句中的命名实体信息。
2.根据权利要求1所述的基于深度学习的维吾尔文命名实体识别方法,其特征在于,在步骤S1中,进行所述字符提取和音节切分包括以下步骤:
S11.采用自然语言处理工具对文本进行句子边界识别和词例化,使得数据集以句子和每句一个token分割来呈现;
S12.对步骤S11中得到的句子以及单词进行统计,获取其对应的句表,单词表;
S13.将步骤S12中的所述单词表进行字符统计,获取字符表;
S14.按照音节进行切分,将步骤S12中的所述单词表中的音节进行统计,形成音节表。
3.根据权利要求1所述的基于深度学习的维吾尔文命名实体识别方法,其特征在于,在步骤S4中,得到所述输入语句的信息特征包括以下步骤:
S41.初始化:第t时刻的向量xt由字符级向量音节级向量传统的词嵌入组成,如以下公式:
其中,xt∈Rn为时刻t输入拼接向量,ht隐藏层的向量,W*为不同状态下对于输入xt的权重矩阵,U*为隐藏层状态层ht的权重矩阵,b*为偏置向量;
S42.遗忘门:决定上一时刻的单元状态ct-1丢弃了哪些信息,遗留哪些信息保留到当前时刻ct的单元状态,其计算公式如下:
ft=σ(Wfxt+Ufht-1+bf)
S43.输入门:确定哪些新信息被保存在的单元状态ct中;首先,使用sigmoid激活函数确定哪些信息被更新;然后,用tanh正切函数描述当前输入的单元状态接着,更新当前时刻的单元状态ct;其计算公式如下:
it=σ(Wixt+Uiht-1+bi);
S44.输出门;确定LSTM最终的输出值;首先利用sigmoid层确定细胞状态的输出,然后使用tanh层确定最终的输出,是由输出门和单元状态来共同确定;其计算公式如下:
ot=σ(Woxt+Uoht-1+bo);
ht=ot·tanh(ct);
S45.基于以上步骤,利用反向传播层获取未来信息;
S46.两个隐藏层信息通过级联获取最后的输出向量。
4.根据权利要求1所述的基于深度学习的维吾尔文命名实体识别方法,其特征在于,在步骤S5中,标记出语句中的命名实体信息的具体步骤为:
S51.对于给定的观察序列X,计算所有可能的标记序列y上的条件概率p(y|x);
S52.极大化训练数据的对数似然函数来求模型参数;
S53.在标记序列中找到条件概率最高的y来对序列进行标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810371094.1A CN109117472A (zh) | 2018-11-12 | 2018-11-12 | 一种基于深度学习的维吾尔文命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810371094.1A CN109117472A (zh) | 2018-11-12 | 2018-11-12 | 一种基于深度学习的维吾尔文命名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109117472A true CN109117472A (zh) | 2019-01-01 |
Family
ID=64821795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810371094.1A Pending CN109117472A (zh) | 2018-11-12 | 2018-11-12 | 一种基于深度学习的维吾尔文命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109117472A (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858280A (zh) * | 2019-01-21 | 2019-06-07 | 深圳昂楷科技有限公司 | 一种基于机器学习的脱敏方法、装置及脱敏设备 |
CN109871545A (zh) * | 2019-04-22 | 2019-06-11 | 京东方科技集团股份有限公司 | 命名实体识别方法及装置 |
CN109871535A (zh) * | 2019-01-16 | 2019-06-11 | 四川大学 | 一种基于深度神经网络的法语命名实体识别方法 |
CN110096591A (zh) * | 2019-04-04 | 2019-08-06 | 平安科技(深圳)有限公司 | 基于词袋模型的长文本分类方法、装置、计算机设备及存储介质 |
CN110298019A (zh) * | 2019-05-20 | 2019-10-01 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN110414009A (zh) * | 2019-07-09 | 2019-11-05 | 昆明理工大学 | 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置 |
CN110489750A (zh) * | 2019-08-12 | 2019-11-22 | 昆明理工大学 | 基于双向lstm-crf的缅甸语分词及词性标注方法及装置 |
CN110826334A (zh) * | 2019-11-08 | 2020-02-21 | 中山大学 | 一种基于强化学习的中文命名实体识别模型及其训练方法 |
CN110879831A (zh) * | 2019-10-12 | 2020-03-13 | 杭州师范大学 | 基于实体识别技术的中医药语句分词方法 |
CN111259672A (zh) * | 2020-02-12 | 2020-06-09 | 新疆大学 | 基于图卷积神经网络的中文旅游领域命名实体识别方法 |
CN111476022A (zh) * | 2020-05-15 | 2020-07-31 | 湖南工商大学 | 实体特征的字符嵌入及混合lstm实体识别方法、系统及介质 |
CN111523325A (zh) * | 2020-04-20 | 2020-08-11 | 电子科技大学 | 一种基于笔画的中文命名实体识别方法 |
CN111597814A (zh) * | 2020-05-22 | 2020-08-28 | 北京慧闻科技(集团)有限公司 | 一种人机交互命名实体识别方法、装置、设备及存储介质 |
CN112257447A (zh) * | 2020-10-22 | 2021-01-22 | 北京众标智能科技有限公司 | 基于深度网络as-lstm的命名实体识别系统及识别方法 |
CN112307764A (zh) * | 2019-07-30 | 2021-02-02 | 百度(美国)有限责任公司 | 用于神经命名实体识别的共指感知表示学习 |
CN112651245A (zh) * | 2020-12-28 | 2021-04-13 | 南京邮电大学 | 序列标注模型及序列标注方法 |
CN113486193A (zh) * | 2021-07-26 | 2021-10-08 | 国网经济技术研究院有限公司 | 一种基于机器学习的电网基建工程数据知识图谱构建方法 |
CN113609857A (zh) * | 2021-07-22 | 2021-11-05 | 武汉工程大学 | 基于级联模型和数据增强的法律命名实体识别方法及系统 |
CN114298044A (zh) * | 2021-12-27 | 2022-04-08 | 山东师范大学 | 一种中文命名实体识别方法及系统 |
CN114444485A (zh) * | 2022-01-24 | 2022-05-06 | 四川大学 | 一种云环境网络设备实体识别方法 |
CN116386895A (zh) * | 2023-04-06 | 2023-07-04 | 之江实验室 | 基于异构图神经网络的流行病舆情实体识别方法与装置 |
CN116705058A (zh) * | 2023-08-04 | 2023-09-05 | 贝壳找房(北京)科技有限公司 | 多模语音任务的处理方法、电子设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
CN108268444A (zh) * | 2018-01-10 | 2018-07-10 | 南京邮电大学 | 一种基于双向lstm、cnn和crf的中文分词方法 |
-
2018
- 2018-11-12 CN CN201810371094.1A patent/CN109117472A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
CN108268444A (zh) * | 2018-01-10 | 2018-07-10 | 南京邮电大学 | 一种基于双向lstm、cnn和crf的中文分词方法 |
Non-Patent Citations (1)
Title |
---|
MAIHEMUTI MAIMAITI等: "Bidirectional Long Short-Term Memory Network with a Conditional Random Field Layer for Uyghur Part-Of-Speech Tagging", 《MDPI》 * |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871535A (zh) * | 2019-01-16 | 2019-06-11 | 四川大学 | 一种基于深度神经网络的法语命名实体识别方法 |
CN109858280A (zh) * | 2019-01-21 | 2019-06-07 | 深圳昂楷科技有限公司 | 一种基于机器学习的脱敏方法、装置及脱敏设备 |
CN110096591A (zh) * | 2019-04-04 | 2019-08-06 | 平安科技(深圳)有限公司 | 基于词袋模型的长文本分类方法、装置、计算机设备及存储介质 |
CN109871545A (zh) * | 2019-04-22 | 2019-06-11 | 京东方科技集团股份有限公司 | 命名实体识别方法及装置 |
CN110298019A (zh) * | 2019-05-20 | 2019-10-01 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN110298019B (zh) * | 2019-05-20 | 2023-04-18 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN110414009A (zh) * | 2019-07-09 | 2019-11-05 | 昆明理工大学 | 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置 |
CN112307764A (zh) * | 2019-07-30 | 2021-02-02 | 百度(美国)有限责任公司 | 用于神经命名实体识别的共指感知表示学习 |
CN112307764B (zh) * | 2019-07-30 | 2024-01-19 | 百度(美国)有限责任公司 | 用于神经命名实体识别的共指感知表示学习 |
CN110489750A (zh) * | 2019-08-12 | 2019-11-22 | 昆明理工大学 | 基于双向lstm-crf的缅甸语分词及词性标注方法及装置 |
CN110879831A (zh) * | 2019-10-12 | 2020-03-13 | 杭州师范大学 | 基于实体识别技术的中医药语句分词方法 |
CN110826334A (zh) * | 2019-11-08 | 2020-02-21 | 中山大学 | 一种基于强化学习的中文命名实体识别模型及其训练方法 |
CN110826334B (zh) * | 2019-11-08 | 2023-04-21 | 中山大学 | 一种基于强化学习的中文命名实体识别模型及其训练方法 |
CN111259672A (zh) * | 2020-02-12 | 2020-06-09 | 新疆大学 | 基于图卷积神经网络的中文旅游领域命名实体识别方法 |
CN111523325A (zh) * | 2020-04-20 | 2020-08-11 | 电子科技大学 | 一种基于笔画的中文命名实体识别方法 |
CN111476022A (zh) * | 2020-05-15 | 2020-07-31 | 湖南工商大学 | 实体特征的字符嵌入及混合lstm实体识别方法、系统及介质 |
CN111597814B (zh) * | 2020-05-22 | 2023-05-26 | 北京慧闻科技(集团)有限公司 | 一种人机交互命名实体识别方法、装置、设备及存储介质 |
CN111597814A (zh) * | 2020-05-22 | 2020-08-28 | 北京慧闻科技(集团)有限公司 | 一种人机交互命名实体识别方法、装置、设备及存储介质 |
CN112257447A (zh) * | 2020-10-22 | 2021-01-22 | 北京众标智能科技有限公司 | 基于深度网络as-lstm的命名实体识别系统及识别方法 |
CN112651245A (zh) * | 2020-12-28 | 2021-04-13 | 南京邮电大学 | 序列标注模型及序列标注方法 |
CN113609857A (zh) * | 2021-07-22 | 2021-11-05 | 武汉工程大学 | 基于级联模型和数据增强的法律命名实体识别方法及系统 |
CN113609857B (zh) * | 2021-07-22 | 2023-11-28 | 武汉工程大学 | 基于级联模型和数据增强的法律命名实体识别方法及系统 |
CN113486193A (zh) * | 2021-07-26 | 2021-10-08 | 国网经济技术研究院有限公司 | 一种基于机器学习的电网基建工程数据知识图谱构建方法 |
CN114298044A (zh) * | 2021-12-27 | 2022-04-08 | 山东师范大学 | 一种中文命名实体识别方法及系统 |
CN114444485B (zh) * | 2022-01-24 | 2023-06-06 | 四川大学 | 一种云环境网络设备实体识别方法 |
CN114444485A (zh) * | 2022-01-24 | 2022-05-06 | 四川大学 | 一种云环境网络设备实体识别方法 |
CN116386895A (zh) * | 2023-04-06 | 2023-07-04 | 之江实验室 | 基于异构图神经网络的流行病舆情实体识别方法与装置 |
CN116386895B (zh) * | 2023-04-06 | 2023-11-28 | 之江实验室 | 基于异构图神经网络的流行病舆情实体识别方法与装置 |
CN116705058A (zh) * | 2023-08-04 | 2023-09-05 | 贝壳找房(北京)科技有限公司 | 多模语音任务的处理方法、电子设备及可读存储介质 |
CN116705058B (zh) * | 2023-08-04 | 2023-10-27 | 贝壳找房(北京)科技有限公司 | 多模语音任务的处理方法、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109117472A (zh) | 一种基于深度学习的维吾尔文命名实体识别方法 | |
CN109299262B (zh) | 一种融合多粒度信息的文本蕴含关系识别方法 | |
CN111444726B (zh) | 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 | |
CN113239210B (zh) | 基于自动化补全知识图谱的水利文献推荐方法及系统 | |
CN109325231B (zh) | 一种多任务模型生成词向量的方法 | |
CN110008469B (zh) | 一种多层次命名实体识别方法 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN109871538A (zh) | 一种中文电子病历命名实体识别方法 | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN110263325B (zh) | 中文分词系统 | |
CN111078833B (zh) | 一种基于神经网络的文本分类方法 | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN112163425A (zh) | 基于多特征信息增强的文本实体关系抽取方法 | |
CN110555084A (zh) | 基于pcnn和多层注意力的远程监督关系分类方法 | |
CN113761890B (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
CN110532568B (zh) | 基于树特征选择和迁移学习的汉语词义消歧方法 | |
CN109214006A (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN109684928B (zh) | 基于互联网检索的中文文档识别方法 | |
CN111222318A (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
CN106055560A (zh) | 一种基于统计机器学习方法的分词字典数据采集方法 | |
CN113704416A (zh) | 词义消歧方法、装置、电子设备及计算机可读存储介质 | |
CN111144119A (zh) | 一种改进知识迁移的实体识别方法 | |
CN112699685A (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN115600597A (zh) | 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质 | |
CN110569355B (zh) | 一种基于词块的观点目标抽取和目标情感分类联合方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190101 |