CN107967253A - 一种基于迁移学习的低资源领域分词器训练方法及分词方法 - Google Patents

一种基于迁移学习的低资源领域分词器训练方法及分词方法 Download PDF

Info

Publication number
CN107967253A
CN107967253A CN201711026810.4A CN201711026810A CN107967253A CN 107967253 A CN107967253 A CN 107967253A CN 201711026810 A CN201711026810 A CN 201711026810A CN 107967253 A CN107967253 A CN 107967253A
Authority
CN
China
Prior art keywords
segmenter
word
hidden layer
target domain
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711026810.4A
Other languages
English (en)
Inventor
孙栩
许晶晶
李炜
马树铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201711026810.4A priority Critical patent/CN107967253A/zh
Publication of CN107967253A publication Critical patent/CN107967253A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于迁移学习的低资源领域分词器训练方法及分词方法。本方法为:1)在目标领域和各设定领域分别训练生成对应的分词器;2)利用各领域的分词器对目标领域的语料分词处理,获得各分词器在该目标领域的语料上每个字xi的隐层表示;3)计算各分词器在字xi的隐层表示与目标领域的分词器t在字xi的隐层表示的相关度,然后根据相关度得到各领域分词器对字xi的权重向量;4)根据权重向量对各分词器得到的隐层表示进行加权求和,得到一最终的隐层表示,并以该最终的隐层表示计算字xi的标签;5)根据各字的预测标签与标准结果训练得到该目标领域的分词器。本发明的分词器大大提高了低资源领域语料的分词效果。

Description

一种基于迁移学习的低资源领域分词器训练方法及分词方法
技术领域
本发明属于自然语言处理领域,涉及资源不足场景下的中文文本分词,尤其涉及一种基于迁移学习的低资源领域分词器训练方法及分词方法。
背景技术
对于传统的新闻领域上的分词任务,基于统计的方法最开始取得不错的效果,主要包括条件随机场和感知器模型。然而,这些模型需要抽取大量的特征,所以泛化能力受到了限制。
近年来,越来越多地采用基于神经网络的方法进行自动化抽取特征的工作,其中出现了比较多的分词模型,主要包括卷积神经网络(Convolutional Neural Network,CNN)、长短时记忆神经网络(Long Short Term Memory Network,LSTM)等。虽然这些基于神经网络的方法非常有效,但是,训练这些模型并且得到一个比较好的效果需要大量的标注数据。而对于很多专门领域来说,标注数据的数量很有限,使得采用基于神经网络的方法进行分词难以取得较好的效果。
发明内容
为了克服上述现有技术的不足,本发明提供一种用于解决资源不足问题的低资源领域分词器训练方法及分词方法,通过在不同领域模型上建立堆叠式神经网络,利用其它富资源领域的数据和少量特定领域资源的数据,对特定领域分词模型进行训练,由此减少不同领域间标注等方面的冲突,从而更顺畅地学习多领域知识,进而提升在低资源领域下分词的效果。
本发明的原理是:为了弥补特定领域分词的数据不足的问题,本发明利用了跨领域的标注数据来提升低资源领域中分词的效果。本发明包括建立多领域分词器和集成式神经网络学习器的学习过程。首先,为了利用不同领域各自的标注数据,本发明采用传统方法学习各自领域的分词器;其次为了更顺畅地将不同领域分词器结合起来,本发明使用堆叠式神经网络,通过在不同模型间建立通讯路径来自动决定如何使用不同领域的模型的信息。这种方法利用了不同领域间大量的有标注数据的同时,尽量减少了不同领域间的冲突。在使用跨领域的数据中,数据偏移是影响跨领域学习的主要障碍。首先,当源语料和目标语料数据分布不一致时,直接使用源语料训练得到的分类器反而会导致效果的进一步下降。其次,源语料和目标语料的标注标准存在部分差异,直接使用源语料会导致分类器对目标语料的标注标准适应性较差。最后,因为有很多源语料,如何有效地结合在不同源语料上学习得到的分类器也是一个比较大的问题。为了解决数据偏移的问题,本发明首先在不同的源语料上预训练了不同的源分类器,其次,采用新的堆叠式神经网络中的通讯路径的方法,通过对不同领域分类器自动赋予权重的方式进行源分类器的集成和选择。在使用目标语料的训练过程中,可使用层次式(layer-wise)的训练方式:先训练源分类器,再训练堆叠式神经网络。
本发明提供的技术方案是:
一种用于解决资源不足问题的低资源领域分词器训练方法,通过建立不同领域各自的分词器和堆叠式神经网络,利用设定领域,即富资源领域(如新闻领域),语料对资源不足的目标领域进行堆叠式神经网络模型的训练,由此提升在目标领域,即低资源领域,中分词的效果。此方法包括模型训练和模型预测两个部分;其中模型的训练过程包括如下步骤:
1.训练不同领域(包括设定领域和目标领域)的分词器,对任意一个领域,
(a)输入该领域的待切分数据X=x1x2,…,xi,…,xn和对应的标注结果Y=y1y2,…,yi,…,yn。其中,X为文本中的带切分的中文句子,xi为文本样例X中的一个字;yi为相应的xi对应的标签(BIEO)。
(b)使用一种传统的经典序列标注神经网络(比如递归神经网路)来对待切分数据预测分词标签信息,在这里不限定具体的网络模型以保持方法的通用性。
(c)按照标注结果,计算预测标签与标准结果间的负对数似然损失,并通过随机优化方法减小损失,从而学习到该领域的分词器。
2.构建堆叠式网络
(a)首先通过第1步不同领域中的分词器获得各个分词器在当前资源不足的目标领域语料上每个字的隐层表示,对该目标领域的语料中样例X的第i个字xi来说,第j个设定领域分词器得到的隐层表示为hi,j
(b)通过计算所有领域的分词器(包括目标领域和其它设定的富资源领域)在目标领域语料上每个字的隐层表示与目标领域的分词器t在目标领域语料上每个字的隐层表示的相关度,得到各个领域分词器对每个字xi的权重向量S(hi,j,hi,t)。这里在权重向量的计算上可以有四种方式。
(i)高斯相似度;
(ii)并联方式;
(iii)序列结构方式;
(iv)树状结构方式;
(c)按照上一步计算得到的字xi的权重向量S(hi,j,hi,t)对各分词器得到的字xi的隐层表示进行加权求和,得到最终的隐层表示,并以此进一步计算当前字xi标签。
(d)计算步骤(c)的预测标签与标准结果间的负对数似然损失,并通过随机优化方法减小负对数似然损失,从而学习到目标领域的分词器。
本发明提供四种权重向量的具体计算方法如下:
[1]高斯相似度:
设定领域的分词器j和目标领域的分词器t间的相似度计算方法如下:
其中,对当前字i,hi,j代表预训练得到的第j个设定领域的分词器输出的隐层向量表示,hi,t代表预训练得到的分词器t输出的隐层向量表示,σ2是超参数,Z是归一化参数。
[2]并联方式:
ei,j=f(W1[W2·hi,hi,j])
其中,对当前字i,hi,j代表预训练得到的第j个分词器输出的隐层向量表示,hi代表预训练得到的所有分词器输出的隐层向量表示的级联结果,W1和W2均为待学习参数矩阵,[]代表将两个向量并联起来,ei,j为权重参数,αi,j为归一化的权重参数,m为不同分词器的个数。
[3]序列结构方式:
与并联结构相似,hi,j代表预训练得到的第j个分词器输出的隐层向量表示,ei,j为序列结构的输出,即权重向量,αi,j为归一化的权重参数,序列结构也是对设定领域的分词器的加权平均,不同点在于这里的ei,j是由长短时记忆网络得到。
[4]树状结构方式:
树状结构通过门控网络动态选择两个节点的信息如何向上传递。
其中,l表示门控网络的第l个递归层,j表示门控网络的第j个节点,W为参数矩阵,[]代表级联操作,表示门控网络的第l个递归层第j个节点的输出。zN,zL,zR,rL,rR为门控网络中待学习的门;门控网络的输入为hi,j向量,输出为最终的预测标签。
作为一种优选方案,所述步骤1(b)的其中一种实现方法为使用长短时记忆网络,首先将输入的字符串映射到相应的词向量表示矩阵,按照词向量在句子中的先后顺序,依次输入到长短时记忆网络的单元中,并将当前时刻的隐层状态向量输出给下一时刻。每一时刻的隐层输出向量被作为分词输出的依据。
作为一种优选方案,所述步骤2(b)中使用[3]和[4]两种动态调整模型权重的方法可以得到较好的结果,其中在目标领域数据量较大时,序列模型更占优势,而在目标领域数据量较小时,选用树状结构模型可以得到更好的效果。
一种基于迁移学习的低资源领域分词器的分词方法,其特征在于,利用上述训练得到的分词器对低资源领域进行分词。
与现有技术相比,本发明的有益效果是:
本发明提供一种用于解决资源不足问题的迁移分词方法,通过建立不同领域各自的分词器和堆叠式神经网络,利用富资源领域(如新闻)语料对资源不足领域进行堆叠式神经网络模型的训练。本发明还通过建立通讯路径的方式,来减少不同领域间标注等方面的冲突,从而更顺畅地学习多领域数据。本发明有效地提升了在资源不足领域下分词的效果。
附图说明
图1是本发明提供的社交网络文本分词方法的流程图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种用于解决分词中资源不足问题的迁移学习方法,通过在不同领域模型的基础上建立堆叠式神经网络,利用其它富资源领域的数据和少量领域特定资源的数据对分词模型进行训练,由此减少不同领域间标注等方面的冲突,更顺畅地学习多领域数据,由此提升在资源不足领域下分词的效果。图1是本发明提供的社交网络文本分词方法的流程框图。具体过程如下:
1)算法的输入为目标领域的词语切分标注语料,首先从输入中选择某个样例X=x1x2,…,xn。以句子“他所在的跳伞队解散无奈告别飞行”为例,模型的输入样例为“x1=他,x2=所,x3=在,…,xn=行”。
2)利用不同领域各自的语料S1,S2,…,Sm训练得到各领域对应的分词器,为了增加模型的泛化能力,本发明并未限定使用具体某一种分类器训练方法,比如CNN,LSTM。利用S1,S2,…,Sm进行预训练的作用是为了利用在不同领域中各自的分词特点和数据,以及专有名词分词特点等。
3)对样例X中的xi来说,源分类器的隐层输出结果为hi,1,…,hi,2,…,hi.m。通过对源分类器赋予权重的方式进行源分类器的集成和选择,建立堆叠式神经网络。堆叠式神经网络的输入为m个源分类器的隐层输出结果hi,1,…,hi,j,…,hi.m,输出为预测标签yi′。堆叠式神经网络可以采用四种相似度权重计算方法(高斯、并联、序列、树状)中的一种来作为通讯路径,以序列结构为例,具体计算过程为:
a)使用长短时记忆网络把不同领域数据上训练得到的模型的输出hi,1,…,hi,j,…,hi.m作为输入;
b)通过长短时记忆网络,输出不同领域模型的权重向量ei,j,来自动决定不同领域的分词信息应该如何保留;
c)对权重向量进行归一化,得到每个特定领域模型的输出的最终的权重αi,j
d)对不同领域向量按照αi,j做加权平均;
4)根据加权平均后的向量进行柔性最大传递函数转换,得到预测的标签的概率分布。
5)计算预测的标签的概率分布和实际标准标签的交叉熵损失,并通过随机优化方法优化该损失,从而训练得到整个堆叠式神经网络。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (9)

1.一种基于迁移学习的低资源领域分词器训练方法,其步骤包括:
1)在目标领域和各设定领域分别进行训练,生成各领域对应的分词器;
2)利用步骤1)得到的各领域的分词器对目标领域的语料进行分词处理,获得各分词器在该目标领域的语料上每个字xi的隐层表示;
3)计算步骤2)中获得的各分词器在该目标领域的语料上每个字xi的隐层表示与目标领域的分词器t在该目标领域的语料上每个字xi的隐层表示的相关度,然后根据所述相关度得到各领域分词器对字xi的权重向量;
4)根据步骤3)得到的权重向量对各分词器得到的隐层表示进行加权求和,得到一最终的隐层表示,并以该最终的隐层表示计算字xi的标签;
5)根据步骤4)得到各字的预测标签与标准结果训练得到该目标领域的分词器。
2.如权利要求1所述的方法,其特征在于,所述权重向量其中,hi,j为第j个设定领域的分词器j对该目标领域的语料中样例X的字xi的隐层表示;hi,t为分词器t对该目标领域的语料中样例X的字xi的隐层表示;σ2是超参数,Z是归一化参数。
3.如权利要求1所述的方法,其特征在于,所述权重向量其中,ei,j=f(W1[W2·hi,hi,j]);hi,j代表第j个分词器对该目标领域的语料中样例X的字xi输出的隐层向量表示,hi代表m个分词器对该目标领域的语料中样例X的字xi输出的隐层向量表示的级联结果,W1和W2均为待学习参数矩阵,[]代表将两个向量并联起来,ei,j为权重参数,αi,j为归一化的权重参数。
4.如权利要求1所述的方法,其特征在于,所述权重向量其中,hi,j代表第j个分词器对该目标领域的语料中样例X的字xi输出的隐层向量表示,ei,j为权重参数,αi,j为归一化的权重参数。
5.如权利要求1所述的方法,其特征在于,所述权重向量 其中,l表示门控网络的第l个递归层,j表示门控网络的第j个节点,W为参数矩阵,[]代表级联操作,表示门控网络的第l个递归层第j个节点的输出,zN,zL,zR,rL,rR为门控网络中待学习的门。
6.如权利要求1所述的方法,其特征在于,所述步骤5)的方法为:计算步骤4)得到的预测标签与标准结果间的负对数似然损失,并通过随机优化方法减小负对数似然损失,得到该目标领域的分词器。
7.如权利要求1~6任一所述的方法,其特征在于,所述设定领域为富语料资源领域,所述目标领域为低语料资源领域。
8.一种基于迁移学习的低资源领域分词方法,其步骤包括:
1)在目标领域和各设定领域分别进行训练,生成各领域对应的分词器;
2)利用步骤1)得到的各领域的分词器对目标领域的语料进行分词处理,获得各分词器在该目标领域的语料上每个字xi的隐层表示;
3)计算步骤2)中获得的各分词器在该目标领域的语料上每个字xi的隐层表示与目标领域的分词器t在该目标领域的语料上每个字xi的隐层表示的相关度,然后根据所述相关度得到各领域分词器对字xi的权重向量;
4)根据步骤3)得到的权重向量对各分词器得到的隐层表示进行加权求和,得到一最终的隐层表示,并以该最终的隐层表示计算字xi的标签。
9.一种基于迁移学习的低资源领域分词方法,其特征在于,采用权利要求1所述的方法训练得到目标领域的分词器对目标领域的语料进行分词。
CN201711026810.4A 2017-10-27 2017-10-27 一种基于迁移学习的低资源领域分词器训练方法及分词方法 Pending CN107967253A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711026810.4A CN107967253A (zh) 2017-10-27 2017-10-27 一种基于迁移学习的低资源领域分词器训练方法及分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711026810.4A CN107967253A (zh) 2017-10-27 2017-10-27 一种基于迁移学习的低资源领域分词器训练方法及分词方法

Publications (1)

Publication Number Publication Date
CN107967253A true CN107967253A (zh) 2018-04-27

Family

ID=61999680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711026810.4A Pending CN107967253A (zh) 2017-10-27 2017-10-27 一种基于迁移学习的低资源领域分词器训练方法及分词方法

Country Status (1)

Country Link
CN (1) CN107967253A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446332A (zh) * 2018-12-25 2019-03-08 银江股份有限公司 一种基于特征迁移和自适应学习的人民调解案例分类系统及方法
CN110196980A (zh) * 2019-06-05 2019-09-03 北京邮电大学 一种基于卷积网络在中文分词任务上的领域迁移
CN111026910A (zh) * 2018-10-09 2020-04-17 北京奇虎科技有限公司 视频推荐方法、装置、电子设备及计算机可读存储介质
CN111797234A (zh) * 2020-06-16 2020-10-20 北京北大软件工程股份有限公司 一种自然语言处理分类模型中多标签分布学习的方法和系统
CN112199952A (zh) * 2020-12-04 2021-01-08 支付宝(杭州)信息技术有限公司 一种分词方法、多模式分词模型和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750338A (zh) * 2012-06-04 2012-10-24 天津大学 面向迁移学习的文本处理方法及其文本特征提取方法
CN103218405A (zh) * 2013-03-20 2013-07-24 西安电子科技大学 基于维数约简的集成迁移文本分类方法
CN104657350A (zh) * 2015-03-04 2015-05-27 中国科学院自动化研究所 融合隐式语义特征的短文本哈希学习方法
US20160246776A1 (en) * 2015-02-02 2016-08-25 Linkedin Corporation Modifying a tokenizer based on pseudo data for natural language processing
CN106649434A (zh) * 2016-09-06 2017-05-10 北京蓝色光标品牌管理顾问股份有限公司 一种跨领域知识迁移的标签嵌入方法和装置
CN107291837A (zh) * 2017-05-31 2017-10-24 北京大学 一种基于领域适应性的网络文本的分词方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750338A (zh) * 2012-06-04 2012-10-24 天津大学 面向迁移学习的文本处理方法及其文本特征提取方法
CN103218405A (zh) * 2013-03-20 2013-07-24 西安电子科技大学 基于维数约简的集成迁移文本分类方法
US20160246776A1 (en) * 2015-02-02 2016-08-25 Linkedin Corporation Modifying a tokenizer based on pseudo data for natural language processing
CN104657350A (zh) * 2015-03-04 2015-05-27 中国科学院自动化研究所 融合隐式语义特征的短文本哈希学习方法
CN106649434A (zh) * 2016-09-06 2017-05-10 北京蓝色光标品牌管理顾问股份有限公司 一种跨领域知识迁移的标签嵌入方法和装置
CN107291837A (zh) * 2017-05-31 2017-10-24 北京大学 一种基于领域适应性的网络文本的分词方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XINCHI CHEN: "Gated Recursive Neural Network for Chinese Word Segmentation", 《PROCEEDINGS OF THE 53RD ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS AND THE 7TH INTERNATIONAL JOINT CONFERENCE ON NATURAL LANGUAGE PROCESSING》 *
李雪莲 等: "基于门循环单元神经网络的中文分词法", 《厦门大学学报(自然科学版)》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026910A (zh) * 2018-10-09 2020-04-17 北京奇虎科技有限公司 视频推荐方法、装置、电子设备及计算机可读存储介质
CN111026910B (zh) * 2018-10-09 2024-04-05 三六零科技集团有限公司 视频推荐方法、装置、电子设备及计算机可读存储介质
CN109446332A (zh) * 2018-12-25 2019-03-08 银江股份有限公司 一种基于特征迁移和自适应学习的人民调解案例分类系统及方法
CN109446332B (zh) * 2018-12-25 2023-08-25 银江技术股份有限公司 一种基于特征迁移和自适应学习的人民调解案例分类系统及方法
CN110196980A (zh) * 2019-06-05 2019-09-03 北京邮电大学 一种基于卷积网络在中文分词任务上的领域迁移
CN111797234A (zh) * 2020-06-16 2020-10-20 北京北大软件工程股份有限公司 一种自然语言处理分类模型中多标签分布学习的方法和系统
CN111797234B (zh) * 2020-06-16 2024-04-30 北京北大软件工程股份有限公司 一种自然语言处理分类模型中多标签分布学习的方法和系统
CN112199952A (zh) * 2020-12-04 2021-01-08 支付宝(杭州)信息技术有限公司 一种分词方法、多模式分词模型和系统
CN112199952B (zh) * 2020-12-04 2021-03-23 支付宝(杭州)信息技术有限公司 一种分词方法、多模式分词模型和系统

Similar Documents

Publication Publication Date Title
CN107967253A (zh) 一种基于迁移学习的低资源领域分词器训练方法及分词方法
CN107239446B (zh) 一种基于神经网络与注意力机制的情报关系提取方法
CN107563498B (zh) 基于视觉与语义注意力相结合策略的图像描述方法及系统
CN108984745B (zh) 一种融合多知识图谱的神经网络文本分类方法
CN107943967A (zh) 基于多角度卷积神经网络与循环神经网络的文本分类算法
CN107153642A (zh) 一种基于神经网络识别文本评论情感倾向的分析方法
CN104298651B (zh) 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线方法
CN106383816B (zh) 基于深度学习的中文少数民族地区地名的识别方法
CN108664632A (zh) 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN106650789A (zh) 一种基于深度lstm网络的图像描述生成方法
CN107203511A (zh) 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN110032737A (zh) 一种基于神经网络的边界组合命名实体识别方法
CN109977234A (zh) 一种基于主题关键词过滤的知识图谱补全方法
CN104035996B (zh) 基于Deep Learning的领域概念抽取方法
CN109918491A (zh) 一种基于知识库自学习的智能客服问句匹配方法
CN107330446A (zh) 一种面向图像分类的深度卷积神经网络的优化方法
CN109389037A (zh) 一种基于深度森林和迁移学习的情感分类方法
CN105868773A (zh) 一种基于层次随机森林的多标签分类方法
CN107341145A (zh) 一种基于深度学习的用户情感分析方法
CN107992890B (zh) 一种基于局部特征的多视角分类器及设计方法
CN102708164B (zh) 电影期望值的计算方法及系统
CN107194422A (zh) 一种结合正反向实例的卷积神经网络关系分类方法
CN106897254A (zh) 一种网络表示学习方法
CN107220180A (zh) 一种基于神经网络语言模型的代码分类方法
CN108052625A (zh) 一种实体精细分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180427