CN107291837A - 一种基于领域适应性的网络文本的分词方法 - Google Patents

一种基于领域适应性的网络文本的分词方法 Download PDF

Info

Publication number
CN107291837A
CN107291837A CN201710397541.6A CN201710397541A CN107291837A CN 107291837 A CN107291837 A CN 107291837A CN 201710397541 A CN201710397541 A CN 201710397541A CN 107291837 A CN107291837 A CN 107291837A
Authority
CN
China
Prior art keywords
source
grader
formula
word
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710397541.6A
Other languages
English (en)
Other versions
CN107291837B (zh
Inventor
孙栩
许晶晶
马树铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201710397541.6A priority Critical patent/CN107291837B/zh
Publication of CN107291837A publication Critical patent/CN107291837A/zh
Application granted granted Critical
Publication of CN107291837B publication Critical patent/CN107291837B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公布了一种基于领域适应性的社交网络文本的分词方法,通过建立集成式神经网络和采用自训练的学习方法,利用跨领域的新闻语料、社交网络中的标注数据和无标注数据对集成式神经网络模型进行训练;具体将社交网络文本分为标注和未标注数据集合作为输入;将新闻领域语料作为源语料,在新闻源语料上预训练源分类器;通过对源分类器赋予权重的方式进行源分类器的集成;使用社交网络语料对集成式神经网络模型进行训练;利用训练好的集成式神经网络模型进行预测,由此提升社交网络分词的效果。本发明可用于解决社交网络中因为数据过少导致的效果差的问题,能够有效地提升社交网络文本分词的效果。

Description

一种基于领域适应性的网络文本的分词方法
技术领域
本发明属于自然语言处理领域,涉及社交网络文本分词,尤其涉及一种基于领域适应性的社交网络文本的分词方法。
背景技术
对于传统的新闻领域上的分词任务,基于统计的方法最开始取得不错的效果,主要包括条件随机场和感知器模型。然而,这些模型需要抽取大量的特征,所以泛化能力受到了限制。
近年来,越来越多地采用基于神经网络的方法进行自动化抽取特征的工作,其中出现了比较多的分词模型,主要包括卷积神经网络(Convolutional Neural Network,CNN)、长短时记忆神经网络(Long Short Term Memory Network,LSTM)等。虽然这些基于神经网络的方法非常有效,但是,训练这些模型并且得到一个比较好的效果需要大量的标注数据。而由于社交网络中的标注数据很有限,使得采用基于神经网络的方法进行分词无法取得较好的效果。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于领域适应性的社交网络文本的分词方法,通过建立集成式神经网络和采用自训练的学习方法,利用新闻领域语料,社交网络中少量的标注数据和大量的无标注数据进行集成式神经网络模型的训练,由此提升社交网络分词的效果,用于解决社交网络中因为数据过少导致的效果差的问题。
本发明的原理是:为了弥补社交网络分词的数据不足的问题,本发明利用了跨领域的标注数据和大量的无标注数据来提升社交网络分词的效果。本发明包括建立集成式神经网络和自训练学习过程。首先,为了利用跨领域的标注数据,我们提出了集成式神经网络。其次为了适应社交网络灵活的分词特点,我们提出了一种自训练的学习方法。这种方法利用了社交网络中大量的无标注数据。在使用跨领域的数据中,数据偏移是影响跨领域学习的主要障碍。首先,当源语料和目标语料数据分布不一致时,直接使用源语料训练得到的分类器反而会导致效果的进一步下降。其次,源语料和目标语料的标注标准存在部分差异,直接使用源语料会导致分类器对目标语料的标注标准适应性较差。最后,因为有很多源语料,如何有效地结合在不同源语料上学习得到的分类器也是一个比较大的问题。为了解决数据偏移的问题。我们首先在不同的源语料上预训练了不同的源分类器,其次,采用新的集成式神经网络,通过对分类器赋予权重的方式进行源分类器的集成和选择。在使用目标语料的训练过程中,可使用层次式(layer-wise)的训练方式:先训练源分类器,再训练集成式神经网络。
因为社交网络的语言用法灵活并且源语料又主要是新闻数据,用法比较规范,使得跨领域的学习不能很好地使用比如新词语的情况。而社交网络中有大量的无标注信息,这些无标注数据和目标语料标注数据有着相似的数据分布,并且可以用来进行新词语的挖掘。因此,本发明提出了自训练的方式,利用无标注的数据解决此问题。首先,利用集成式神经网络对未标注的数据赋予了一个预测标签,并提出了置信度函数对预测标签进行置信度的评测。最后,将未标注的数据,预测标签以及置信度一起加入到训练过程中。
本发明提供的技术方案是:
一种基于领域适应性的社交网络文本的分词方法,通过建立集成式神经网络和采用自训练的学习方法,利用新闻领域语料,社交网络中少量的标注数据和大量的无标注数据进行集成式神经网络模型的训练,由此提升社交网络分词的效果;包括模型训练和模型预测两个部分;其中模型的训练过程包括如下步骤:
11)将社交网络文本分为标注数据集合Tl和未标注数据集合Tu,作为输入;从输入集合中选择某个样例X=x1x2,…,xi,…,xn;其中,xi为社交网络文本样例X中的一个字;
以句子“他所在的跳伞队解散无奈告别飞行”为例,模型的输入样例为“x1=他,x2=所,x3=在,…,xn=行”。
12)在不同的新闻源语料上预训练不同的源分类器;
除了社交网络文本语料之外,还有大量的新闻领域语料。我们将这些资源丰富的新闻领域语料作为源语料来帮助社交网络文本语料的训练。我们在不同的新闻源语料上预训练不同的源分类器,来解决跨领域学习中数据偏移的问题;本发明中,源分类器可采用CNN、LSTM等;
13)通过对源分类器赋予权重的方式进行源分类器的集成和选择,建立集成式神经网络;
建立集成式神经网络包括如下过程:
131)首先通过式1计算得到权重:
ei,j=f(W1[W2*hi,hi,j]) (式1)
对样例X中的第i个字xi来说,源分类器的输出结果(m个源分类器的隐层输出结果)hi为hi,1,…,hi,2,…,hi.m,即hi={hi,1,…,hi,j,…,hi.m};W1,W2为参数矩阵(权重矩阵);ei,j是第i个字、第j个源分类器隐层输出结果的权重。
将m个源分类器的隐层输出结果hi,1,…,hi,j,…,hi.m作为集成式神经网络的输入,集成式神经网络的输出为预测标签yi
132)对m个源分类器计算权重,并对权重进行归一化操作,得到归一化权重αi,j
其中,αi,j为式2的结果输出,也就是第i个字、第j个源分类器隐层输出结果的权重。ei,j为式1的输出结果,分母为m个所有的源分类器ei,p的权重的相加。
133)根据源分类器的输出和权重计算结果,得到加权之后的输出权重si
其中,αi,j为式2的结果输出,也就是第i个字、第j个源分类器隐层输出结果的权重。hi,j为第i个字、第j个源分类器隐层输出结果。此公式含义为对所有隐层的输出结果加权累加。
其中,si为第i个字的隐层输出;
134)算法的预测结果为y1,y2,…,yi,…,yn。如果采用0/1分布标签,其中1代表切分句子,0代表不切分句子的话,模型的输出样例表示为:y1=1,y2=0,…,yn=1。
通过式4计算得到预测结果:
yi=softmax(g(si)) (式4)
si为式3的输出,g为激活函数(可采用sigmoid或者tanh作为激活函数),softmax为归一化函数,以上步骤叙述了如何搭建集成式神经网络,接下来说明如何使用社交网络语料进行训练。
14)使用社交网络语料进行训练:
社交网络语料是分词好的社交网络文本和未分词的社交网络文本,包括标注数据和无标注的数据;
对于标注样例X,对于第i个字xi,直接使用人为标注的分词结果(标注数据)yi求交叉熵损失函数l(θ),如式5:
其中yi为xi的人工标注标签,p为给定xi和θ标注标签yi的概率。m为样例X包括的字个数,θ为所有的模型参数。
对于无标注的数据,通过自训练的方式进行训练,自训练包括如下步骤:
141)首先利用集成式神经网络对未标注的数据赋予了一个预测标签;
集成式神经网络的输入是m个源分类器的隐层输出结果hi,1,…,hi,j,…,hi.m,集成式神经网络的输出为预测结果yi
142)对预测标签进行置信度的评测;
主要思想为对每个样例赋予不同置信度。我们采用得分最高的两个标签ymax(xi,j),y2nd(xi,j)作为计算的输入,通过式6计算得到样例置信度:
其中wi为样例X的权重,Zt为正则化项,对于字xi,j来说,ymax(xi,j)是预测概率最大的标签,y2nd(xi,j)为预测概率次大的标签,m为样例X包括的字的个数;。
143)将未标注的数据、预测标签以及置信度一起加入到训练过程中。
本发明具体实施中,采用了层次式(layer-wise)的训练方式:在社交网络文本数据上,先训练分类器,再训练集成式神经网络。
经过上述模型具体搭建和训练,获得训练好之后的模型。利用训练好的模型对新的社交网络文本进行分词,模型的分词过程包括如下步骤:
21)输入待分词的社交文本。同样以句子“他所在的跳伞队解散无奈告别飞行”为例,模型的输入样例为“x1=他,x2=所,x3=在,…,xn=行”。
22)计算式1~3,得到模型的隐层输出s,将s输入公式4得到最终的预测结果y={“y1=1,y2=0,y3=0,…,yn=1”}。以二分类举例,1代表分词,0代表代表不分词。
与现有技术相比,本发明的有益效果是:
本发明提供一种跨领域的社交网络文本分词方法,通过建立集成式神经网络和采用自训练的学习方法,利用跨领域的新闻语料,社交网络中少量的标注数据和大量的无标注数据进行集成式神经网络模型的训练,用于解决社交网络中因为数据过少导致的效果差的问题。本发明有效地提升了社交网络文本分词的效果。
附图说明
图1是本发明提供的社交网络文本分词方法的流程框图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种跨领域的社交网络文本分词方法,通过建立集成式神经网络和采用自训练的学习方法,利用跨领域的标注数据和社交网络中大量的无标注数据进行集成式神经网络模型的训练,由此提升社交网络分词的效果;图1是本发明提供的社交网络文本分词方法的流程框图。具体过程如下:
1)算法的输入T={Tl,Tu}包括两部分,其中Tl为标注数据集合,(比如标注样例:他/所在的/跳伞队/解散/无奈/告别/飞行,/为人工标注的词语分隔符),Tu为未标注数据集合(比如样例:推荐服用黑糖姜茶,此为未进行人工标注的训练样例)。首先从输入中选择某个样例X=x1x2,…,xn。以句子“他所在的跳伞队解散无奈告别飞行”为例,模型的输入样例为“x1=他,x2=所,x3=在,…,xn=行”。
2)在不同的源语料S1,S2,…,Sm上预训练了不同的源分类器,为了增加模型的泛化能力,我们并未限定使用具体某一种分类器,比如CNN,LSTM。预训练的作用是为了防止在跨领域的过程中出现的数据偏移现象。
3)对样例X中的xi来说,源分类器的输出结果为hi,1,…,hi,2,…,hi.m。通过对源分类器赋予权重的方式进行源分类器的集成和选择,建立集成式神经网络。集成式神经网络的输入为m个源分类器的隐层输出结果hi,1,…,hi,j,…,hi.m,输出为预测标签yi′。具体计算过程为:
31)首先通过式1计算得到权重:
ei,j=f(W1[W2*hi,hi,j]) (式1)
其中,hi={hi,1,…,hi,j,…,hi.m};W1,W2为模型参数矩阵;ei,j是第i个字、第j个源分类器隐层输出结果的权重。
32)对权重进行归一化操作,得到归一化权重αi,j
33)根据源分类器的输出和权重计算结果,得到加权之后的输出权重si
其中,si为第i个字的隐层输出;αi,j为式2的结果输出也就是第i个字,第j个源分类器隐层输出结果的权重。hi,j为第i个字,第j个源分类器隐层输出结果。m为源分类器的个数。si是不同源分类器的累积和。
34)集成式神经网络输出的预测标签结果为y1,y2,…,yi,…,yn。如果采用0/1分布标签,其中1代表切分句子,0代表不切分句子的话,模型的输出样例表示为:y1=1,y2=0,…,yn=1。
计算方式是:
yi′=softmax(g(si)) (式4)
4)对于标注数据,直接使用算法的预测结果和标注结果做交叉熵即可,对于未标注数据来说,因为没有标注数据,所以在此通过自训练的方式进行训练,具体包括如下步骤:
41)首先利用集成式神经网络对未标注的数据赋予了一个预测标签。具体过程见步骤1)~3)。
42)对预测标签进行置信度的评测。预测结果采用得分最高的两个标签ymax(xi,j),y2nd(xi,j)作为函数的输入,通过式6~式7计算得到置信度:
其中,wi为第i个样本的置信度,m为第i个样例的长度,n为总的样例个数。Zt是第t轮训练的正则化项,等于所有样例置信度的相加之和。
43)最后,将未标注的数据、预测标签以及置信度一起加入到目标函数中进行训练。目标函数表示为式8:
其中,N为mini-batch的大小,为第t轮训练的公式5中的wi,m为样例Xi的长度,Xi,j第i个样例第j个字,yi,j为第i个句子第j个字的标注标签,θ为模型参数。
本发明具体实施中采用了层次式的训练方式:先在社交网络文本数据上训练源分类器,再训练集成式神经网络。
经过上述模型搭建和模型训练,获得训练好之后的模型。利用训练好的模型对新的社交网络文本进行分词,模型的分词过程包括如下步骤:
21)输入待分词的社交文本。同样以句子“他所在的跳伞队解散无奈告别飞行”为例,模型的输入样例为“x1=他,x2=所,x3=在,…,xn=行”。
22)计算式1~3,得到模型的隐层输出s,将s输入公式4得到最终的预测结果y={“y1=1,y2=0,y3=0,…,yn=1”}。以二分类举例,1代表分词,0代表代表不分词。也就是说,最终的分词的预测结果示例为“他/所在的/跳伞队/解散/无奈/告别/飞行”,其中“/”表示分词标记。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (10)

1.一种基于领域适应性的社交网络文本的分词方法,通过建立集成式神经网络和采用自训练的学习方法,利用跨领域的新闻语料、社交网络中的标注数据和无标注数据进行集成式神经网络模型的训练,由此提升社交网络分词的效果;所述分词方法包括模型训练过程和模型预测过程;
模型训练过程包括如下步骤:
11)将社交网络文本分为标注数据集合Tl和未标注数据集合Tu,作为输入;输入集合包括样例X=x1x2,…,xi,…,xn;其中,xi为社交网络文本样例中的一个字;
12)将新闻领域语料作为源语料,在不同的新闻源语料上预训练不同的源分类器;
13)通过对源分类器赋予权重的方式进行源分类器的集成,建立集成式神经网络;将m个源分类器的隐层输出结果hi,1,…,hi,j,…,hi.m作为所述集成式神经网络的输入,所述集成式神经网络的输出为预测标签yi
14)使用社交网络语料对所述集成式神经网络模型进行训练:所述社交网络语料包括标注数据和无标注的数据;对标注数据直接求交叉熵损失函数;对于无标注数据,通过自训练的方式进行训练;得到训练好的集成式神经网络模型;
模型预测过程包括如下步骤:
21)将待分词的社交文本样例输入到所述训练好的集成式神经网络模型中;
22)按照步骤13)对源分类器赋予权重的方式,通过计算得到集成式神经网络模型的隐层输出,再得到最终的预测结果,即为分词结果。
2.如权利要求1所述分词方法,其特征是,步骤12)所述源分类器采用卷积神经网络或长短时记忆神经网络。
3.如权利要求1所述分词方法,其特征是,步骤13)建立集成式神经网络包括如下过程:
131)对样例X中的xi,通过式1计算得到第i个字、第j个源分类器隐层输出结果的权重:
ei,j=f(W1[W2*hi,hi,j]) (式1)
其中,hi为m个源分类器的隐层输出结果hi,1,…,hi,2,…,hi.m,即hi={hi,1,…,hi,j,…,hi.m};W1,W2为权重参数矩阵;ei,j是第i个字、第j个源分类器隐层输出结果的权重;
132)对m个源分类器计算权重,并通过式2对权重进行归一化操作,得到归一化权重αi,j
其中,αi,j为第i个字、第j个源分类器隐层输出结果的归一化权重;ei,j为式1的输出结果,即第i个字、第j个源分类器隐层输出结果的权重;式2中分母为m个所有的源分类器ei,p的权重的相加;
133)根据源分类器的输出和权重计算结果,通过式3对所有隐层的输出结果加权累加计算,得到加权之后的输出权重si
其中,αi,j为第i个字、第j个源分类器隐层输出结果的归一化权重;hi,j为第i个字、第j个源分类器隐层输出结果;si为第i个字的隐层输出;
134)通过式4计算得到预测结果,预测结果为y1,y2,…,yi,…,yn
yi=softmax(g(si)) (式4)
其中,si为式3的输出;g为激活函数;softmax为归一化函数,用于将隐层输出转换为概率分布;yi为第i个字的预测标签。
4.如权利要求1所述分词方法,其特征是,步骤14)对标注数据直接求交叉熵损失函数;所述交叉熵损失函数l(θ)表示为式5:
其中,yi为第i个字xi的人工标注标签,p为给定xi和θ标注标签yi的概率;m为样例X包括的字个数;θ为模型参数。
5.如权利要求1所述分词方法,其特征是,步骤14)对于无标注数据,通过自训练的方式进行训练;所述自训练包括如下步骤:
141)首先利用所述集成式神经网络对未标注数据的每个样例赋予一个预测标签;
142)对所述预测标签赋予不同置信度,进行置信度的评测;
143)将所述未标注数据、预测标签和置信度一起加入到训练过程中进行训练。
6.如权利要求5所述分词方法,其特征是,步骤142)赋予置信度具体采用得分最高的两个标签ymax(xj),y2nd(xj)作为计算的输入,通过式6计算得到样例的置信度wi
式6中,Zt为正则化项;ymax(x)、y2nd(x)分别为得分最高的两个标签;m为样例包括的字个数。
7.如权利要求5所述分词方法,其特征是,步骤143)具体将所述未标注数据、预测标签和置信度一起加入到目标函数中进行训练,所述目标函数为式8:
其中,N为mini-batch的大小;为第t轮训练中样例Xi的置信度wi;m为样例Xi的长度;Xi,j为样例Xi的第j个字;yi,j为样例Xi第j个字的标注标签;θ为模型参数。
8.如权利要求1所述分词方法,其特征是,步骤14)所述训练采用层次式的训练方式,先训练源分类器,再训练集成式神经网络。
9.如权利要求1所述分词方法,其特征是,步骤22)具体通过式1~3计算得到集成式神经网络模型的隐层输出s,再通过式4计算得到最终的预测结果:
对样例X中的xi,通过式1计算得到第i个字、第j个源分类器隐层输出结果的权重:
ei,j=f(W1[W2*hi,hi,j]) (式1)
其中,hi为m个源分类器的隐层输出结果hi,1,…,hi,2,…,hi.m,即hi={hi,1,…,hi,j,…,hi.m};W1,W2为权重参数矩阵;ei,j是第i个字、第j个源分类器隐层输出结果的权重;
对m个源分类器计算权重,并通过式2对权重进行归一化操作,得到归一化权重αi,j
其中,αi,j为第i个字、第j个源分类器隐层输出结果的归一化权重;ei,j为式1的输出结果,即第i个字、第j个源分类器隐层输出结果的权重;式2中分母为m个所有的源分类器ei,p的权重的相加;
根据源分类器的输出和权重计算结果,通过式3对所有隐层的输出结果加权累加计算,得到加权之后的输出权重si
其中,αi,j为第i个字、第j个源分类器隐层输出结果的归一化权重;hi,j为第i个字、第j个源分类器隐层输出结果;si为第i个字的隐层输出;
通过式4计算得到预测结果,预测结果为y1,y2,…,yi,…,yn
yi=softmax(g(si)) (式4)
其中,si为式3的输出;g为激活函数;softmax为归一化函数,用于将隐层输出转换为概率分布;yi为第i个字的预测标签。
10.如权利要求9所述分词方法,其特征是,所述预测结果为y={“y1=1,y2=0,y3=0,…,yn=1”};采用二分类方法,其中1代表分词,0代表不分词。
CN201710397541.6A 2017-05-31 2017-05-31 一种基于领域适应性的网络文本的分词方法 Active CN107291837B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710397541.6A CN107291837B (zh) 2017-05-31 2017-05-31 一种基于领域适应性的网络文本的分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710397541.6A CN107291837B (zh) 2017-05-31 2017-05-31 一种基于领域适应性的网络文本的分词方法

Publications (2)

Publication Number Publication Date
CN107291837A true CN107291837A (zh) 2017-10-24
CN107291837B CN107291837B (zh) 2020-04-03

Family

ID=60094219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710397541.6A Active CN107291837B (zh) 2017-05-31 2017-05-31 一种基于领域适应性的网络文本的分词方法

Country Status (1)

Country Link
CN (1) CN107291837B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107967253A (zh) * 2017-10-27 2018-04-27 北京大学 一种基于迁移学习的低资源领域分词器训练方法及分词方法
CN109599096A (zh) * 2019-01-25 2019-04-09 科大讯飞股份有限公司 一种数据筛选方法及装置
CN111507103A (zh) * 2020-03-09 2020-08-07 杭州电子科技大学 一种利用部分标注集的自训练神经网络分词模型
US11328180B2 (en) 2018-10-30 2022-05-10 Beijing Horizon Robotics Technology Research And Development Co., Ltd. Method for updating neural network and electronic device

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201117024A (en) * 2009-11-13 2011-05-16 Yu-Chieh Wu A unified machine learning-based Chinese word segmentation and part-of-speech tagging algorithm
CN103020034A (zh) * 2011-09-26 2013-04-03 北京大学 中文分词方法和装置
CN104239554A (zh) * 2014-09-24 2014-12-24 南开大学 跨领域跨类别的新闻评论情绪预测方法
CN105205124A (zh) * 2015-09-11 2015-12-30 合肥工业大学 一种基于随机特征子空间的半监督文本情感分类方法
US20160078359A1 (en) * 2014-09-12 2016-03-17 Xerox Corporation System for domain adaptation with a domain-specific class means classifier
CN105446955A (zh) * 2015-11-27 2016-03-30 贺惠新 一种自适应的分词方法
CN105512311A (zh) * 2015-12-14 2016-04-20 北京工业大学 一种基于卡方统计的自适应特征选择方法
CN106021461A (zh) * 2016-05-17 2016-10-12 深圳市中润四方信息技术有限公司 一种文本分类的方法及文本分类系统
CN106610937A (zh) * 2016-09-19 2017-05-03 四川用联信息技术有限公司 一种基于信息论的中文自动分词算法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201117024A (en) * 2009-11-13 2011-05-16 Yu-Chieh Wu A unified machine learning-based Chinese word segmentation and part-of-speech tagging algorithm
CN103020034A (zh) * 2011-09-26 2013-04-03 北京大学 中文分词方法和装置
US20160078359A1 (en) * 2014-09-12 2016-03-17 Xerox Corporation System for domain adaptation with a domain-specific class means classifier
CN104239554A (zh) * 2014-09-24 2014-12-24 南开大学 跨领域跨类别的新闻评论情绪预测方法
CN105205124A (zh) * 2015-09-11 2015-12-30 合肥工业大学 一种基于随机特征子空间的半监督文本情感分类方法
CN105446955A (zh) * 2015-11-27 2016-03-30 贺惠新 一种自适应的分词方法
CN105512311A (zh) * 2015-12-14 2016-04-20 北京工业大学 一种基于卡方统计的自适应特征选择方法
CN106021461A (zh) * 2016-05-17 2016-10-12 深圳市中润四方信息技术有限公司 一种文本分类的方法及文本分类系统
CN106610937A (zh) * 2016-09-19 2017-05-03 四川用联信息技术有限公司 一种基于信息论的中文自动分词算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李寿山等: "基于Stacking组合分类方法的中文情感分类研究", 《中文信息学报》 *
韩东煦: "中文分词模型的领域适应性方法", 《计算机学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107967253A (zh) * 2017-10-27 2018-04-27 北京大学 一种基于迁移学习的低资源领域分词器训练方法及分词方法
US11328180B2 (en) 2018-10-30 2022-05-10 Beijing Horizon Robotics Technology Research And Development Co., Ltd. Method for updating neural network and electronic device
CN109599096A (zh) * 2019-01-25 2019-04-09 科大讯飞股份有限公司 一种数据筛选方法及装置
CN109599096B (zh) * 2019-01-25 2021-12-07 科大讯飞股份有限公司 一种数据筛选方法及装置
CN111507103A (zh) * 2020-03-09 2020-08-07 杭州电子科技大学 一种利用部分标注集的自训练神经网络分词模型
CN111507103B (zh) * 2020-03-09 2020-12-29 杭州电子科技大学 一种利用部分标注集的自训练神经网络分词模型

Also Published As

Publication number Publication date
CN107291837B (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
CN105740349B (zh) 一种结合Doc2vec和卷积神经网络的情感分类方法
CN107291837A (zh) 一种基于领域适应性的网络文本的分词方法
Nikoo et al. Flood-routing modeling with neural network optimized by social-based algorithm
CN104834747B (zh) 基于卷积神经网络的短文本分类方法
Williamson et al. The box plot: a simple visual method to interpret data
CN106383815A (zh) 结合用户和产品信息的神经网络情感分析方法
CN107656990A (zh) 一种基于字和词两个层面特征信息的文本分类方法
CN106682696A (zh) 基于在线示例分类器精化的多示例检测网络及其训练方法
CN106383816B (zh) 基于深度学习的中文少数民族地区地名的识别方法
CN106445919A (zh) 一种情感分类方法及装置
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN106778882B (zh) 一种基于前馈神经网络的智能合约自动分类方法
CN107038480A (zh) 一种基于卷积神经网络的文本情感分类方法
CN110347836A (zh) 融入观点句特征的汉越双语新闻情感分类方法
CN107590127A (zh) 一种题库知识点自动标注方法及系统
CN108665064A (zh) 神经网络模型训练、对象推荐方法及装置
CN107578092A (zh) 一种基于情绪和意见挖掘的情感复合分析方法及系统
CN107194422A (zh) 一种结合正反向实例的卷积神经网络关系分类方法
CN112784047B (zh) 一种基于自注意力机制的可控可解释司法文本分类方法
CN108920446A (zh) 一种工程文本的处理方法
CN106506327A (zh) 一种垃圾邮件识别方法及装置
CN105955975A (zh) 一种面向学术文献的知识推荐方法
Alavi Fuzzy AHP method for plant species selection in mine reclamation plans: case study sungun copper mine
CN107967253A (zh) 一种基于迁移学习的低资源领域分词器训练方法及分词方法
Meng et al. A threshold artificial neural network model for improving runoff prediction in a karst watershed

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant