CN110032741B - 一种基于语义扩展和最大边缘相关的伪文本生成方法 - Google Patents

一种基于语义扩展和最大边缘相关的伪文本生成方法 Download PDF

Info

Publication number
CN110032741B
CN110032741B CN201910369823.4A CN201910369823A CN110032741B CN 110032741 B CN110032741 B CN 110032741B CN 201910369823 A CN201910369823 A CN 201910369823A CN 110032741 B CN110032741 B CN 110032741B
Authority
CN
China
Prior art keywords
text
word
expansion
pseudo
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910369823.4A
Other languages
English (en)
Other versions
CN110032741A (zh
Inventor
卢玲
杨武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Technology
Original Assignee
Chongqing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Technology filed Critical Chongqing University of Technology
Priority to CN201910369823.4A priority Critical patent/CN110032741B/zh
Publication of CN110032741A publication Critical patent/CN110032741A/zh
Application granted granted Critical
Publication of CN110032741B publication Critical patent/CN110032741B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种基于语义扩展和最大边缘相关的伪文本生成方法,包括以下步骤:S1,提取原文本的词和/或短语特征;S2,根据步骤S1中提取的特征通过相似度计算生成扩展词;S3,对步骤S2中的扩展词进行筛选候选词;S4,生成伪文本。本发明在较好地控制文本扩展的噪音的同时,实现了文本语义扩展。

Description

一种基于语义扩展和最大边缘相关的伪文本生成方法
技术领域
本发明涉及一种语义扩展技术领域,特别是涉及一种基于语义扩展和最大边缘相关的伪文本生成方法。
背景技术
短文本包括新闻标题、微博、网络评论以及文档摘要等。随着社交网络平台的快速发展,网络文本大量积聚,如何对海量短文本进行分析,如根据新闻标题进行分类、根据网络评论进行情感识别等,在自动问答、舆情发现等领域具有良好应用价值。短文本字符数少,词频及词共现频度低,在结构化时容易出现数据稀疏问题,使基于特征提取的传统机器学习方法和基于自动特征学习的神经网络方法直接应用于短文本时,仍存在不足。
目前,学者针对短文本特征稀疏问题开展了大量研究。从短文本的特征扩展方面,Wang等用外部特征扩展文本向量空间,并用一种类Kmeans方法对扩展文本进行聚类。Adams等用基于WordNet上下文增强的方法扩展特征,进行即时信息分析。张海涛等提出建立小样本簇背景特征集,并结合边缘相关性分析选取文本特征。Wang等结合密度峰聚类及WordEmbedding对短文本进行扩展。Bicalho等提出了一种文本扩展通用框架,并基于该框架生成伪文本,进行主题建模实证研究。增强短文本语义表达能力方面,Fan等通过增加新特征,修改初始特征权值及控制特征扩展度,提高短文本分类性能。杨峰等用增量式随机网络进行词语联想以增强局部文本语义。总体来看,现有研究主要着眼于扩展文本特征及增加特征表达强度。其中,特征增强方法虽取得了较好效果,但其人工成本高,算法复杂。基于扩展文本特征,生成伪文本的方法由于只改变输入数据,无需改变应用模型而被广泛关注,但现有研究较多关注的是文本特征的扩展方法。通过引入新的特征,虽然可扩展文本语义,但同时也可能引入噪音,因而使短文本发生主题偏移,反而使分类等任务的性能下降。
近年来,随着神经网络(Neural Networks,NNs)方法的发展,结合NNs方法对文本的词、句子及段落进行语义表示的研究被广泛关注。Mikolov等用Skip-gram模型学习文本向量表示,并对如何提高训练质量及速度进行了研究。Mitchell研究短语、句子的语义组合模型,对多种向量组合函数的效果进行了实证和评价。现有对词、短语的语义表示方法的研究,为文本语义特征扩展提供了新的着眼点。
综上所述,本文针对短文本扩展问题,对如何使扩展文本在尽可能小的范围内语义最大化进行了研究。运用Word Embedding进行文本特征表示,并提出了一种结合后验概率估计和最大边缘相关方法的语义扩展框架,用于生成伪文本。通过将伪文本用于多种分类模型下的新闻标题分类实验,验证了本文伪文本生成方法的有效性。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于语义扩展和最大边缘相关的伪文本生成方法。
为了实现本发明的上述目的,本发明提供了一种基于语义扩展和最大边缘相关的伪文本生成方法,其包括以下步骤:
S1,提取原文本的词和/或短语特征;
S2,根据步骤S1中提取的特征通过相似度计算生成扩展词;
S3,对步骤S2中的扩展词进行筛选候选词;
S4,生成伪文本。
在本发明的一种优选实施方式中,在步骤S1中,原文本的词和/或短语特征的提取方法包括:
设S为原文本,将其表示为词向量矩阵,设窗口大小为h,对窗口内词向量求和,得到S的一组短语特征T(h),表示为
Figure BDA0002049526580000031
其中,
Figure BDA0002049526580000032
是大小为h的窗口内词向量相加而成的新向量;
当h为1时,T(1)即为S,表示单个词特征;
通过改变h大小,得到S的多组语义特征,表示为T={T(1),T(2),...,T(p)}。
在本发明的一种优选实施方式中,在步骤S2中,扩展词的生成方法包括:
以预训练的词向量矩阵WMDIC为查找表;计算:
Figure BDA0002049526580000033
其中,findNearest()为计算最相似的词向量,ti为文本特征,WMDIC为预训练的词向量矩阵,n为候选顶点数;
Figure BDA0002049526580000034
为候选词集;
其中,sim()为相似度度量函数,为扩展特征,w为实边线权值;
Figure BDA0002049526580000037
其中,
Figure BDA0002049526580000038
为生成ti
Figure BDA0002049526580000039
之间权值为w的实线边;
Er=Er∪{er};Er为实线边集,er为实线边;
Figure BDA00020495265800000310
C(h)为扩展特征集,为候选扩展词集。
在本发明的一种优选实施方式中,在步骤S3中,候选词的筛选方法包括:
设词典为D,原文特征为T(h),对
Figure BDA00020495265800000312
为其候选词;计算:
Figure BDA00020495265800000314
其中,z为虚线边权值,其中,tj∈{ti-m,...,ti-1,ti+1,...,ti+m};
Figure BDA00020495265800000315
其中,
Figure BDA00020495265800000316
为生成tj
Figure BDA00020495265800000317
之间权值为z的虚线边;
Ep=Ep∪{ep},其中,Ep为虚边集,ep为虚线边;
其中,
Figure BDA00020495265800000318
为特征tj对候选词的条件概率,计算公式为:
Figure BDA0002049526580000041
其中,|D|为字典D中的词数,
Figure BDA0002049526580000042
是tj
Figure BDA0002049526580000043
在文本集中的共现频度;
由于
Figure BDA0002049526580000044
是生成的扩展词,对
Figure BDA0002049526580000045
假设其先验概率相等,令
Figure BDA0002049526580000046
Figure BDA0002049526580000047
在TP下的后验概率计算如式:
Figure BDA0002049526580000048
Figure BDA0002049526580000049
的后验概率是其相关联虚线边权值的乘积。
在本发明的一种优选实施方式中,伪文本的生成方法包括:
Figure BDA00020495265800000410
将评分最高的作为ti的扩展特征;
评分的计算方法为:
Figure BDA00020495265800000412
其中,w为实边线权值;
Figure BDA00020495265800000413
为扩展特征,
分别对进行语义扩展,将筛选的扩展词与S拼接,得到伪文本PD。
在本发明的一种优选实施方式中,在步骤S3中还包括:
在筛选扩展词时,对文本特征ti
Figure BDA00020495265800000415
为其候选词集,如
Figure BDA00020495265800000416
为ti-1已选中的扩展词,则对
Figure BDA00020495265800000417
计算:
Figure BDA00020495265800000418
其中,sim()为余弦相似度度量函数,λ是相关度度量参数;
当i为1时,由于t1没有前序特征,对其关联的实线边权值不做修改。
综上所述,由于采用了上述技术方案,本发明在较好地控制文本扩展的噪音的同时,实现了文本语义扩展。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明(2,1)阶语义扩展框架示意图。
图2是本发明伪文本生成流程示意图。
图3是本发明n-gram词向量组合的特征提取示意图。
图4是本发明短语特征扩展词的上下文关系示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
阅读短文本时,读者常根据自身认知及上下文进行联想。例如:“费德勒夺下温网第8冠”,读到“费德勒”、“温网”时,联想其近义词,如“网球”、“公开赛”,可辅助对原文的理解。可见,通过现有特征生成新词,与原文组成扩展文本,可提高词共现率,加深对文本的理解。扩展文本中包含原文特征,也包含扩展特征,称为伪文本(Pseudo-Documents,PD)。针对文本扩展,本文提出了一种(n,m)阶语义扩展框架,通过控制扩展特征噪音及最大化伪文本语义,提高伪文本质量。如图1所示是(2,1)阶语义扩展框架。
设T是文本特征集,表示为{t1,t2,t3,...,tq},t1,t2,t3,……,tq为文本特征;其中,q为文本特征数。(n,m)阶语义扩展是指对
Figure BDA0002049526580000051
选取n个候选扩展词,再观察ti左右m距离内的上下文,由此从n个候选词中选一个作为ti的扩展词。如图1所示(2,1)阶扩展框架中,特征t2有两个候选词c2、c3,灰色矩形框为t2的观察窗口。通过观察窗口内t2左右距离为1的上下文t1和t3,从c2、c3中选一个作为t2的扩展词。
令词典为D,文本特征集T的候选扩展词集为C。以特征为顶点,实线边表示顶点的相似关系,虚线边表示顶点的共现关系,(n,m)阶语义扩展框架形式化定义如下:
定义1:
令图G={V,E}为(n,m)阶语义扩展框架,其中:
①顶点集V=T∪C:
Figure BDA0002049526580000061
∧表示“命题”的“合取”运算,即“并且”的意思。
i.文本特征集T={t1,t2,t3,...,tq}。
Figure BDA0002049526580000062
其候选顶点集n为候选顶点数。对ctij为ti的第j个候选顶点。满足:
Figure BDA0002049526580000066
其中f为相似度度量函数。即
Figure BDA0002049526580000067
是ti在相似度函数f下的n个最相似顶点集。
ii.候选词集
Figure BDA0002049526580000068
得到C={c1,c2,...,cr},r为候选词集C中的候选词数。
②边集E=Er∪Ep
i.实线边集Er={er1,er2,...,ercard(T)×n},card(T)为文本特征集T中元素的个数。
Figure BDA0002049526580000069
er=(ti,ctij,w),ti∈T,
Figure BDA00020495265800000610
权值
Figure BDA00020495265800000611
其中v为
Figure BDA00020495265800000612
在C中的编号,即v∈{1,2,3,...,r}。
ii.虚线边集Ep={ep1,ep2,...,ep(card(C)-1)×2m},card(C)为获选词集C中元素的个数。
Figure BDA00020495265800000613
其左右距离为m的窗口内特征TP={ti-m,...,ti-1,ti+1,...,ti+m}。对tr∈TP,
Figure BDA00020495265800000615
权值
Figure BDA00020495265800000616
其中g为
Figure BDA00020495265800000617
与tr的共现度量函数,u为在C中的编号,即u∈{1,2,3,...,r}。
根据定义1,图1的(2,1)阶语义扩展框架中,每个原文特征有2个候选扩展词。如t2的候选词为c2、c3,实线边(t2,c2,w22)表示t2与c2的相似关系,w22为二者的相似度量值。t2的观察窗口大小为1,窗口内的特征为{t1,t3};边(t1,c2,z12)表示t1与c2的共现关系,z12为二者的共现度量值。由图1语义扩展框架,本文伪文本生成流程如图2所示。图2伪文本生成流程描述为:①提取原文语义特征T;②提取扩展词C;③生成实线边,描述T、C的相关性;④生成虚线边,描述C与T的上下文的相关性;⑤根据与C相关联边的权值,筛选扩展词,与原文合并形成伪文本。
原文语义特征表示及提取
语义特征表示方法
对任意短文本,其特征有单个词和短语两种表示形式。单个词特征的表示既要能体现词的语义,同时也易于扩展和组合。Word Embedding又称“词向量”。通过构建神经网络语言模型,根据词与维度的共现频率,可将词映射成低维实向量,即词向量。词向量的各维构成了语义空间,词的相对位置描述了其语义关系。语义相近的词,其在空间中的距离也相近。因此,对文本的单个词,可用词向量表示其语义。
由于单个词忽略了上下文信息,文本特征还应考虑短语,即词的组合特征。根据全局语义可描述为局部语义的函数,对词向量u、v,其组合可描述为:t=comb(u,v),即u、v通过组合函数comb产生新的语义t。对组合函数comb,向量加是一种常用方法,通过实证研究验证了该方法的有效性。另外,训练好的词向量具有如下analogy性质:
vec(“Madrid”)-vec(“Spain”)+vec(“France”)→vec(“Paris”)
词向量的这种analogy性质也为向量加提供了依据。因此,对词向量表示的单个词语,可用向量加作为组合函数,即:t=u+v。通过词向量u、v相加,产生语义特征t,用于描述文本的短语语义特征。
短语特征提取方法
由于短语是n-gram特征,其组合形式多样。另外,词向量加因无法判断相加顺序而忽略了词序信息。对此,本文用多尺度连续滑动窗口提取短语特征。通过窗口的不同尺度提取n-gram特征,用窗口滑动的连续性使组合特征间保持相对语序信息。设S为原文本,表示为词向量矩阵(s1,s2,s3,...,sk),k为原文本S中的特征数目,S的短语特征提取如图3所示。
设窗口大小为h,h=2m,对窗口内词向量求和,得到S的一组短语特征T(h),表示为
Figure BDA0002049526580000081
其中,
Figure BDA0002049526580000082
是大小为h的窗口内词向量相加而成的新向量,i=1,2,...,q。图3中,在窗口大小为4,滑动步长为1时,得到原文的一组语义特征表示显然,当h为1时,T(1)即为S,表示单个词特征。由于窗口滑动的连续性,T(h)的各特征间存在相对词序信息。通过改变h大小,h=1,2,…p,可得到S的多组语义特征,表示为T={T(1),T(2),…,T(p)},1≤p≤k。
扩展语义特征提取及筛选
语义特征扩展
其候选扩展词集
Figure BDA0002049526580000085
即是与ti语义相似度最大的词。对(n,m)阶扩展框架,本文提取ti最相似的n个词构成
Figure BDA0002049526580000086
并生成实线边集Er描述ti的相似关系。以预训练的词向量矩阵WMDIC为查找表,WMDIC∈Rdim×N,其中dim是词向量维度,N为单词数,Rdim×N表示词向量矩阵WMDIC的维度为dim×N。对
Figure BDA0002049526580000088
其扩展特征C(h)的提取及实线边生成如算法GenSolid所示:
算法GenSolid:
Input:T(h),WMDIC∈Rdim×N
Output:C(h),Er
Steps:
Figure BDA0002049526580000089
For each ti inT(h)
Figure BDA0002049526580000091
Figure BDA0002049526580000092
Figure BDA0002049526580000093
Figure BDA0002049526580000094
Er=Er∪{er}
Figure BDA0002049526580000095
其中,findNearest(ti,n,WMDIC)为计算ti最相似的n个词向量;
Figure BDA0002049526580000096
为ti与其扩展特征的相似度度量函数,本文采用余弦相似度;
Figure BDA0002049526580000098
为生成ti之间权值为w的实线边。
后验概率估计
对(n,m)阶扩展框架,C(h)的特征数是T(h)的n倍,为避免形成较大噪音,需筛选候选词,选取C(h)尽可能小的真子集。本文在词筛选时除考虑扩展词与原文的语义相似度,还基于原文上下文考虑扩展词的合理性。
朴素贝叶斯是解决机器学习问题的最有实际价值的方法之一。对分类问题,贝叶斯方法根据类别的先验概率和条件概率,以文本属于类别的最大后验概率作为分类结果。对文本特征集d=T={t1,t2,…,tq},tj是其任一词语,d属于类别Z的后验概率P(Z|d)如式⑴:
其中,P(Z)为Z的先验概率,P(tj|Z)为条件概率。根据贝叶斯方法,在当前上下文条件下,候选词的后验概率可作为其筛选依据之一。为此,本文用虚线边连接候选词与原文上下文,用候选词相对于原文上下文的条件概率作为虚线边权值,由此计算候选词的后验概率。设词典为D,原文特征为T(h),对
Figure BDA00020495265800000911
为其候选词,(n,m)阶扩展框架的虚线边生成如算法GenDotted:
算法GenDotted:
Input:T(h),C(h)
Output:Ep
Steps:
Figure BDA0002049526580000101
For each tiinT(h),即是ti∈T(h)
TP={ti-m,...,ti-1,ti+1,…,ti+m},
For each tjin TP,即是tj∈TP:
Figure BDA0002049526580000104
为生成tj
Figure BDA0002049526580000105
之间权值为z的虚线边;
Ep=Ep∪{ep}
其中,z为虚线边权值,
Figure BDA0002049526580000106
为特征tj对候选词
Figure BDA0002049526580000107
的条件概率,计算如式⑵:
Figure BDA0002049526580000108
其中,|D|为字典D中的词数,
Figure BDA0002049526580000109
是tj
Figure BDA00020495265800001010
在文本集中的共现频度。由此得到的虚线边集Ep描述了候选词与当前上下文TP的共现关系。由于
Figure BDA00020495265800001012
是生成的扩展词,对
Figure BDA00020495265800001013
本文假设其先验概率相等,令
Figure BDA00020495265800001014
则根据式⑴、⑵,
Figure BDA00020495265800001015
在TP下的后验概率计算如式⑶:
Figure BDA00020495265800001016
Figure BDA00020495265800001017
的后验概率是其相关联虚线边权值的乘积。当短语特征tj是词组合生成的向量时,难以直接计算tj
Figure BDA00020495265800001018
的共现关系,|TP|为TP中元素的个数,因此在实际计算中,
Figure BDA00020495265800001019
的上下文取生成tj的原文。如图4所示,对原文S,t2是s2、s3的组合特征,当扩展框架为m=1时,t2上下文观察窗口为1,因此其扩展词c2、c3的上下文为s1、s4,则c2的后验概率为:
P(c2|s1,s2)=P(s1|c2)×P(s2|c2)
当原文特征ti、tj的语义相似度较大,可能产生相同扩展词。如图1中,c3同时是t1、t2的扩展词。如ti、tj相邻,可能连续选中同一扩展词,使伪文本出现连续冗余词,影响伪文本质量。如句子“华为智能手机配置”,其中“智能”和“手机”的3个候选词分别为(根据本文训练的Word2Vec词向量):
“智能”:“智慧型”、“平板”、“功能手机”
“手机”:“智慧型”、“平板”、“android”
可见生成了重复扩展词“智慧型”、“平板”。其中,“智慧型”相对于原词上下文的后验概率分别为:
P智能(智慧型|华为,手机)=P(华为|智慧型)*P(手机|智慧型)
P手机(智慧型|智能,配置)=P(智能|智慧型)*P(配置|智慧型)
由于“智能”与“手机”的语义相似性,可假设:
P(手机|智慧型)≈P(智能|智慧型)
则:P智能(智慧型|华为,手机)≈P(华为|智慧型)
P手机(智慧型|智能,配置)≈P(配置|智慧型)
即“智慧型”的后验概率较大依赖于其与上下文“华为”、“配置”的共现关系。由于“智能”与“手机”相邻,其上下文处于较小观察窗口内,可假设上下文共现概率相等,即:
P(华为|智慧型)≈P(配置|智慧型)
则:P智能(智慧型|华为,手机)≈P手机(智慧型|智能,配置)
即如果“智慧型”被“智能”选中,则其也更容易被“手机”选中,使伪文本出现连续冗余词。为使C(h)在尽可能小的情况下最大化地扩展特征,需优化特征筛选方法。搜索引擎对查询结果的边缘相关处理[7]可作为一种优化依据。对搜索引擎的查询结果,将相关性计算与冗余性消除进行线性组合,使结果具有高相关性及较小冗余,称为最大边缘相关方法。对查询Q,R表示Q的结果集,
Figure BDA0002049526580000121
为已返回结果集。对
Figure BDA0002049526580000122
文档dj的最大边缘相关计算如式⑷:
MMR(dj)=λsim1(dj,Q)-(1-λ)sim2(di,dj) ⑷
其中,sim1、sim2分别为相关度、相似度度量函数。当λ=0,式⑷计算dj与已返回文档di的相似度。当λ=1,计算dj与查询Q的相关度。
对本文的词扩展问题,为避免连续选中重复词,选中的词间应具有较高边缘相关性,即对相邻文本特征ti-1和ti,其扩展词的相似性尽可能小。因此,在筛选扩展词时,对文本特征ti
Figure BDA0002049526580000123
为其候选词集,如
Figure BDA0002049526580000124
为ti-1已选中的扩展词,则对
Figure BDA0002049526580000125
根据式⑷,将ti相关联的实线边权值改写为式⑸:
Figure BDA0002049526580000126
其中,sim()为余弦相似度度量函数,λ是相关度度量参数,使用模型时,该参数根据实际情况设置和调整。即当文本特征ti-1选中扩展词
Figure BDA0002049526580000127
则计算其相邻后续文本特征ti的扩展词与扩展词
Figure BDA0002049526580000129
的相似度,据此更新ti所关联实线边的权值。当i为1时,由于t1没有前序特征,对其关联的实线边权值不做修改。
扩展特征筛选
由算法GenSolid及GenDotted,可生成一个由原文特征集T(h)、扩展特征集C(h)、实线边集Er及虚线边集Ep构成的语义扩展框架。对
Figure BDA00020495265800001210
的候选扩展词集
Figure BDA00020495265800001211
Figure BDA00020495265800001212
根据与
Figure BDA00020495265800001213
相关联的实线、虚线边权值对
Figure BDA00020495265800001214
进行评分,结合式⑶、⑸,的评分如式⑹:
Figure BDA00020495265800001216
Figure BDA00020495265800001217
将评分最高的
Figure BDA00020495265800001218
作为ti的扩展特征。
如前所述,对原文本S={s1,s2,s3,...,sk},设观察窗口大小分别为{1,2,...,p},则其语义特征T为{T(1),T(2),...,T(p)}。分别对
Figure BDA00020495265800001219
进行语义扩展,将筛选的扩展词与S拼接,得到伪文本PD,形如:PD={s1,s2,...,sk,c1,c2,...,cr}。PD中包含原文词和扩展词,扩展词间具有相对语序信息。
实验结果及分析
为验证伪文本效果,将生成的伪文本用于分类任务。实验数据来自NLP&CC2017评测,包括18个类别的中文新闻标题文本。标题的字符数介于1~40之间,分词(jieba分词)的词数介于1~20之间。训练集和开发集语料如表1所示。
表1实验数据分布
Figure BDA0002049526580000131
用google开源项目Word2Vec的Skip-gram模型训练词向量,所用语料及生成词向量名称为:
SV:搜狗新闻语料(SogouCS,一个月新闻数据);
WV:中文WiKi百科语料;
MWV:中文WiKi百科与训练集混合语料。
分别构建朴素贝叶斯(Naive Bayes,NB)、支持向量机(Support Vector Machine,SVM)、卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(RecurrentNeural Networks,RNN)分类模型。用未扩展的原文分类作为Baseline,以分类正确率为评价指标。采用(3,1)阶语义扩展框架,当λ为0.8时,各模型2分类、18分类正确率如表2所示。
表2各模型分类正确率对比
Figure BDA0002049526580000141
从表2可见,基于各词向量扩展生成的伪文本,在各分类模型的正确率均较Baseline有一定程度提高。从CNN对18个类别的分类结果看,由SV生成的伪文本分类正确率为0.7648,比Baseline提高3.7%,由MWV生成的伪文本正确率为0.7869,比Baseline提高6.7%·。从不同语料生成的词向量看,基于WV的伪文本分类正确率整体优于SV,其中MKV的性能比Baseline提高最为显著。分析其原因,由于新闻标题是短文本,其语法结构、遣词特点都与普通文本存在差异,因此用普通文本训练的词向量不能较好地表达新闻标题的语义。通过将普通文本与标题混合,可以使MKV词向量更符合新闻标题的语义特征。另外,本文伪文本生成方法,较大程度依赖于词向量的词覆盖率。由于MKV是WiKi百科与训练文本的混合语料,词覆盖率高于SV、MKV,因此用MKV生成的伪文本质量较优。
总体来看,伪文本在各分类模型上的正确率均较Baseline有一定程度提升,表明伪为本从一定程度扩展了文本语义,且在各分类模型中有稳定的性能。在18类的分类测试中,RNN基于SV扩展的正确率为0.7193,略低于Baseline,分析其原因,本文方法生成的伪文本,主要着眼于特征扩展及控制扩展特征的噪音,虽然可在保证扩展特征有效性的同时,较好地控制伪文本长度,且扩展特征间存在相对语序信息,但扩展特征间不存在显著的语义关系和语法结构,即伪文本与原文语法结构是不同的,使基于词序理解的RNN模型表现欠优,这也是本文下一步研究的问题之一。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (5)

1.一种基于语义扩展和最大边缘相关的伪文本生成方法,其特征在于,包括以下步骤:
S1,提取原文本的词和/或短语特征;
S2,根据步骤S1中提取的特征通过相似度计算生成扩展词;
其中,扩展词的生成方法包括:
以预训练的词向量矩阵WMDIC为查找表;计算:
其中,findNearest()为计算最相似的词向量,ti为文本特征,WMDIC为预训练的词向量矩阵,n为候选顶点数;
Figure FDA0002290158670000012
为候选词集;
Figure FDA0002290158670000013
其中,sim()为相似度度量函数,
Figure FDA0002290158670000014
为扩展特征,w为实边线权值;
Figure FDA0002290158670000015
其中,
Figure FDA0002290158670000016
为生成ti
Figure FDA0002290158670000017
之间权值为w的实线边;
Er=Er∪{er};Er为实线边集,er为实线边;
Figure FDA0002290158670000018
C(h)为扩展特征集,
Figure FDA0002290158670000019
为候选扩展词集;
S3,对步骤S2中的扩展词进行筛选候选词;
S4,生成伪文本。
2.根据权利要求1所述的基于语义扩展和最大边缘相关的伪文本生成方法,其特征在于,在步骤S1中,原文本的词和/或短语特征的提取方法包括:
设S为原文本,将其表示为词向量矩阵,设窗口大小为h,对窗口内词向量求和,得到S的一组短语特征T(h),表示为
Figure FDA00022901586700000110
其中,
Figure FDA00022901586700000111
是大小为h的窗口内词向量相加而成的新向量;
当h为1时,T(1)即为S,表示单个词特征;
通过改变h大小,得到S的多组语义特征,表示为T={T(1),T(2),...,T(p)}。
3.根据权利要求1所述的基于语义扩展和最大边缘相关的伪文本生成方法,其特征在于,在步骤S3中,候选词的筛选方法包括:
设词典为D,原文特征为T(h),对
Figure FDA0002290158670000021
为其候选词;计算:
其中,z为虚线边权值,其中,tj∈{ti-m,...,ti-1,ti+1,...,ti+m};
Figure FDA00022901586700000222
其中,
Figure FDA0002290158670000024
为生成tj
Figure FDA0002290158670000025
之间权值为z的虚线边;
Ep=Ep∪{ep},其中,Ep为虚边集,ep为虚线边;
其中,为特征tj对候选词
Figure FDA0002290158670000027
的条件概率,计算公式为:
Figure FDA0002290158670000028
其中,|D|为字典D中的词数,
Figure FDA0002290158670000029
是tj
Figure FDA00022901586700000210
在文本集中的共现频度;
由于
Figure FDA00022901586700000211
是生成的扩展词,对
Figure FDA00022901586700000212
假设其先验概率相等,令
Figure FDA00022901586700000213
Figure FDA00022901586700000214
在TP下的后验概率计算如式:
Figure FDA00022901586700000215
Figure FDA00022901586700000216
的后验概率是其相关联虚线边权值的乘积。
4.根据权利要求1所述的基于语义扩展和最大边缘相关的伪文本生成方法,其特征在于,在步骤S4中,伪文本的生成方法包括:
Figure FDA00022901586700000217
将评分最高的
Figure FDA00022901586700000218
作为ti的扩展特征;
评分的计算方法为:
Figure FDA00022901586700000219
其中,w为实边线权值;
Figure FDA00022901586700000220
为扩展特征,
分别对
Figure FDA00022901586700000221
进行语义扩展,将筛选的扩展词与S拼接,得到伪文本PD。
5.根据权利要求1所述的基于语义扩展和最大边缘相关的伪文本生成方法,其特征在于,在步骤S3中还包括:
在筛选扩展词时,对文本特征ti为其候选词集,如
Figure FDA0002290158670000032
为ti-1已选中的扩展词,则对
Figure FDA0002290158670000033
计算:
Figure FDA0002290158670000034
其中,sim()为余弦相似度度量函数,λ是相关度度量参数;
当i为1时,由于t1没有前序特征,对其关联的实线边权值不做修改。
CN201910369823.4A 2019-05-06 2019-05-06 一种基于语义扩展和最大边缘相关的伪文本生成方法 Active CN110032741B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910369823.4A CN110032741B (zh) 2019-05-06 2019-05-06 一种基于语义扩展和最大边缘相关的伪文本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910369823.4A CN110032741B (zh) 2019-05-06 2019-05-06 一种基于语义扩展和最大边缘相关的伪文本生成方法

Publications (2)

Publication Number Publication Date
CN110032741A CN110032741A (zh) 2019-07-19
CN110032741B true CN110032741B (zh) 2020-02-04

Family

ID=67241260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910369823.4A Active CN110032741B (zh) 2019-05-06 2019-05-06 一种基于语义扩展和最大边缘相关的伪文本生成方法

Country Status (1)

Country Link
CN (1) CN110032741B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157908B (zh) * 2021-03-22 2023-05-02 北京邮电大学 一种展示社交媒体热点子话题的文本可视化方法
CN115101164A (zh) * 2022-06-24 2022-09-23 杭州华卓信息科技有限公司 一种药物推荐方法和系统
CN117271755B (zh) * 2023-11-21 2024-03-08 青岛海尔乐信云科技有限公司 基于人工智能的客诉闭环规则引擎管理控制方法
CN117971913B (zh) * 2024-03-19 2024-07-19 佛山三水北控水质处理有限公司 一种应用数据库信息收集反馈指令的系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002215672A (ja) * 2001-01-22 2002-08-02 Kddi Corp 検索式拡張方法、検索システム及び検索式拡張コンピュータプログラム
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法
CN106484797A (zh) * 2016-09-22 2017-03-08 北京工业大学 基于稀疏学习的突发事件摘要抽取方法
CN107679228A (zh) * 2017-10-23 2018-02-09 合肥工业大学 一种基于短文本扩展和概念漂移检测的短文本数据流分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834735B (zh) * 2015-05-18 2018-01-23 大连理工大学 一种基于词向量的文档摘要自动提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002215672A (ja) * 2001-01-22 2002-08-02 Kddi Corp 検索式拡張方法、検索システム及び検索式拡張コンピュータプログラム
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法
CN106484797A (zh) * 2016-09-22 2017-03-08 北京工业大学 基于稀疏学习的突发事件摘要抽取方法
CN107679228A (zh) * 2017-10-23 2018-02-09 合肥工业大学 一种基于短文本扩展和概念漂移检测的短文本数据流分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"结合语义扩展和卷积神经网络的中文短文本分类方法";卢玲 等;《计算机应用》;20171210;第37卷(第12期);第3498-3503页 *

Also Published As

Publication number Publication date
CN110032741A (zh) 2019-07-19

Similar Documents

Publication Publication Date Title
CN110032741B (zh) 一种基于语义扩展和最大边缘相关的伪文本生成方法
Rao et al. LSTM with sentence representations for document-level sentiment classification
CN108108351B (zh) 一种基于深度学习组合模型的文本情感分类方法
CN111859987B (zh) 文本处理方法、目标任务模型的训练方法和装置
Lin et al. Automatic translation of spoken English based on improved machine learning algorithm
CN107315734B (zh) 一种基于时间窗口和语义的变体词规范化的方法和系统
CN109858028A (zh) 一种基于概率模型的短文本相似度计算方法
Gu et al. Language modeling with sparse product of sememe experts
CN110472244B (zh) 一种基于Tree-LSTM和情感信息的短文本情感分类方法
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
Wu et al. An effective approach of named entity recognition for cyber threat intelligence
CN114880461A (zh) 一种结合对比学习和预训练技术的中文新闻文本摘要方法
CN114217766A (zh) 基于预训练语言微调与依存特征的半自动需求抽取方法
Chen et al. Recurrent neural network with attention mechanism for language model
CN114428850A (zh) 一种文本检索匹配方法和系统
CN115168580A (zh) 一种基于关键词提取与注意力机制的文本分类方法
CN112528653A (zh) 短文本实体识别方法和系统
CN112199503A (zh) 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法
Zhen et al. The research of convolutional neural network based on integrated classification in question classification
Li A classification retrieval approach for English legal texts
Jia et al. A Chinese unknown word recognition method for micro-blog short text based on improved FP-growth
Gao et al. Attention-based BiLSTM network with lexical feature for emotion classification
Chen et al. Document-level multi-task learning approach based on coreference-aware dynamic heterogeneous graph network for event extraction
Meng et al. Multi-layer convolutional neural network model based on prior knowledge of knowledge graph for text classification
CN110162615A (zh) 一种智能问答方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant