CN111368068A - 一种基于词性特征和语义增强的短文本主题建模方法 - Google Patents

一种基于词性特征和语义增强的短文本主题建模方法 Download PDF

Info

Publication number
CN111368068A
CN111368068A CN202010193427.3A CN202010193427A CN111368068A CN 111368068 A CN111368068 A CN 111368068A CN 202010193427 A CN202010193427 A CN 202010193427A CN 111368068 A CN111368068 A CN 111368068A
Authority
CN
China
Prior art keywords
word
topic
short text
words
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010193427.3A
Other languages
English (en)
Inventor
赵博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Hongcheng Big Data Technology And Application Research Institute Co ltd
Original Assignee
Jiangsu Hongcheng Big Data Technology And Application Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Hongcheng Big Data Technology And Application Research Institute Co ltd filed Critical Jiangsu Hongcheng Big Data Technology And Application Research Institute Co ltd
Priority to CN202010193427.3A priority Critical patent/CN111368068A/zh
Publication of CN111368068A publication Critical patent/CN111368068A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于词性特征和语义增强的短文本主题建模方法,包括:(a)自定义词性特征;(b)计算各个单词间的语义相似度(c)生成建模文档;和(d)在模型的吉布斯采样推断过程中,对特定的单词进行语义增强。以解决现有的短文本主题模型无法对一个主题进行全面、具体的分析,也无法很好地解决短文本中存在的稀疏性的问题。

Description

一种基于词性特征和语义增强的短文本主题建模方法
技术领域
本发明涉及语言处理领域,特别涉及一种基于词性特征和语义增强的短文本主题建模方法。
背景技术
随着社交网络和移动设备的快速发展,短文本媒体逐渐成为人们日常生活中一种重要的信息来源,从这些短文本语料中挖掘潜在主题对于许多基于内容的分析任务来说十分重要,例如内容表征、用户兴趣分析、新兴主题发现和突发事件检测等。与传统的新闻报道和科技文献等长文本相比,短文本通常具备内容简短、编写随意、数据量大和内容繁杂等特点,这无疑给基于短文本的主题分析任务带来了巨大的挑战。
传统的主题模型,如概率潜在语义分析模型(Probabilistic Latent SemanticAnalysis,PLSA)和潜在狄利克雷分配模型(Latent Dirichlet Allocation,LDA),通常基于文档层级的单词共现模式进行建模,以挖掘出语料中的潜在主题。但是,由于短文本长度的限制,基于文档层级的单词共现模式在短文本语料中十分稀少,传统的主题模型不再适用。
而现有的短文本主题模型大多是针对短文本语料中存在的稀疏性问题进行改进,主要包括以下三种策略:基于自聚合的策略、基于窗口的策略和基于词嵌入的策略。基于自聚合的策略通过语料中的辅助元信息将短文本聚合成长伪文本,然后再应用传统的主题模型对短文本语料进行建模,然而这种策略高度依赖于数据集,可扩展性较差。基于窗口的策略假定某一窗口内的单词均采样自同一个主题分布,以此来增强短文本语料中的单词共现模式,然而这种策略无法捕获当前语料外具有强烈语义相关性的单词间的共现关系。基于词嵌入的策略通过融入外部语义信息能够在一定程度上缓解短文本中的稀疏性问题,但是基于外部语料训练的词嵌入不一定适用于当前语料,有可能会引入噪声,导致主题质量的降低。
另一方面,现有的短文本主题模型通常利用训练好的主题-单词分布中概率值最高的单词来描述主题,这种主题表示方式过于粗糙,无法对一个主题进行全面、具体的分析,例如,无法分析出与某主题相关的地点、对象和关键词等信息。并且,描述主题的单词中可能含有大量的噪声单词,虽然可以使用通用停词表过滤掉一些无用单词,但仍然会存在一些与主题无关的特定领域的常用词,影响主题的质量。此外,现有的基于词嵌入的短文本主题模型通常基于外部语料训练的词嵌入进行语义增强,这种做法会丢失单词在当前短文本语料中的句法和语义信息,而且存在一些单词没有对应的词嵌入,影响模型精度。
发明内容
本发明要解决的技术问题是提供一种基于词性特征和语义增强的短文本主题建模方法,以解决现有的短文本主题模型无法对一个主题进行全面、具体的分析,也无法很好地解决短文本中存在的稀疏性的问题。
为了解决上述技术问题,本发明的技术方案为:
一种基于词性特征和语义增强的短文本主题建模方法,包括:
(a)自定义词性特征
(b)计算各个单词间的语义相似度
(c)生成建模文档;和
(d)在模型的吉布斯采样推断过程中,对特定的单词进行语义增强。
进一步地,在步骤(a)之中还包括以下步骤:
(a1)根据语料特性和用户需求定义与主题相关的词性特征集;
(a2)进行预处理操作,并将每个单词根据词性标注的结果归入不同的词性特征。
进一步地,在步骤(b)之中还包括以下步骤:
(b1)通过计算外部词嵌入和本地词嵌入的加权平均获取单词的联合词嵌入;
(b2)然后通过计算联合词嵌入之间的余弦距离来衡量不同单词间的语义相似度,获得每个单词与其语义相关的单词的集合。
进一步地,在步骤(c)之中还包括以下步骤:
(c1)首先根据词性标注的结果判别该单词的词性特征;
(c2)若为地点和对象特征,则从对应的主题特征-单词分布中采样该单词;
(c3)否则,另外引入一个开关变量,来决定该单词是与主题相关的关键词还是全局背景单词。
进一步地,在步骤(d)之中还包括以下步骤:
(d1)首先为每篇文档随机初始化一个主题;
(d2)然后通过计算条件概率分布
Figure BDA0002416731830000031
为每篇文档重新采样一个主题,并更新相应的计数;迭代直至模型收敛;
(d3)待模型收敛之后,利用极大后验估计便可计算出全局主题分布
Figure BDA0002416731830000032
和主题特征和单词分布
Figure BDA0002416731830000033
计算公式为:
Figure BDA0002416731830000034
进一步地,还包括一种测试模型方法,包括以下步骤:
(e1)分别在SougoCA数据集(全网新闻数据集)和SearchSnippets数据集(检索片段数据集)上,从主题连贯性指标、短文本分类指标和短文本聚类指标三个方面评估;
(e2)并和其他短文本主题模型进行了对比。
进一步地,对于中文语料,在分词后采用863词性标注集对每个单词进行词性标注;对于英文语料,无需分词,直接使用NLTK工具包(自然语言处理工具包)进行词性标注和命名实体识别。
进一步地,其中单词w在嵌入空间中的表示为v(w),主题zd在嵌入空间中的表示为v(zd),则单词w与主题zd的相关度可以定义为两者在嵌入空间中的余弦距离:
Figure BDA0002416731830000035
其中,v(zd)的计算过程如下:首先选取主题zd的每个特征分布下概率值最高的前N个单词,构成主题zd的代表词集合W(zd),然后计算词向量的平均值作为主题zd在嵌入空间中的最终表示v(zd)。
采用上述技术方案,本发明所述方法在DMM的基础上,通过自定义词性特征引入主题特征-单词分布,能够从多个角度对一个主题进行更全面、具体的刻画;并引入背景单词分布,能有效减低噪声单词的影响;同时在模型的推断过程中,对特定的单词进行语义增强,能有针对性地缓解短文本中的稀疏性问题。通过在不同的数据集上与现有的短文本主题模型进行对比实验,本发明提出的模型在主题连贯性、短文本分类任务和短文本聚类任务上的精度都有所提升。
附图说明
图1为本发明方法的概率图模型。
图2为中英文语料中的词性标注集与自定义词性特征之间的对应关系。
图3为本发明方法与其他短文本主题模型在SougoCA数据集(全网新闻数据集)和SearchSnippets数据集(检索片段数据集)上的主题连贯性(Topic coherence)对比结果。
图4为本发明方法与其他短文本主题模型在SougoCA数据集(全网新闻数据集)和SearchSnippets数据集(检索片段数据集)上进行短文本分类任务的正确率(Accuracy)对比结果。
图5为本发明方法与其他短文本主题模型在SougoCA数据集(全网新闻数据集)和SearchSnippets数据集(检索片段数据集)上进行短文本聚类任务的纯度(Purity)对比结果。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提出了一种基于词性特征与语义增强的短文本主题模型,在DMM(Dirichlet Mixture Model,狄利克雷混合模型)的基础上,引入主题特征-单词分布和全局背景单词分布,并且在模型的吉布斯采样推断过程中,对特定的单词进行语义增强,以针对性地缓解短文本的稀疏性问题,提高主题连贯性。本发明包括以下四个步骤:
(1)自定义词性特征
首先,根据语料特性和用户需求定义与主题相关的词性特征集Q={q|q=0,…〖,N〗_(|Q|)},默认Q={0,1,2},分别代表与每个主题相关的地点、对象和关键词特征,因为大部分语料通常涉及这三个方面,也是用户感兴趣的三个方面。然后,对文档进行预处理操作,并将每个单词根据词性标注的结果归入不同的词性特征。
对于中文语料,在分词、去停用词后采用863词性标注集对每个单词进行词性标注;对于英文语料,无需分词,去停用词后直接使用NLTK工具包进行词性标注和命名实体识别。中英文词性标注集与自定义词性特征的对应关系如图2所示。
(2)计算单词间的语义相似度
现有基于词嵌入的主题模型大多数是基于外部语料训练词嵌入,这种做法会丢失单词在当前语料中的句法和语义信息,并且存在一些单词没有对应的词嵌入。为了获得单词更全面精确的语义表示,我们通过计算外部词嵌入和本地词嵌入的加权平均获取单词的联合词嵌入,然后通过计算联合词嵌入之间的余弦距离来衡量不同单词间的语义相似度,获得每个单词与其语义相关的单词的集合。
对于外部词嵌入,目前已经有很多基于大型外部语料预先训练好的中英文词向量可供直接下载。对于本地词嵌入,使用Google提供的word2vec工具基于当前语料训练而得,向量维度统一设定为300。由于外部语料和本地语料的数据规模之间存在差异,由两者训练获得的词向量在语义表达能力上也会有所不同。因此,我们利用外部词嵌入和本地局部词嵌入的加权平均值作为单词最终的联合词嵌入表示。假设单词w的外部词嵌入表示为g(w),本地词嵌入表示为l(w),γ代表外部词嵌入所占的比重,则单词w的联合词嵌入表示为u(w)=γg(w)+(1-γ)l(w)。
在获得了每个单词的联合词嵌入后,通过计算向量间的余弦距离来衡量不同单词间的语义相似度。假设单词w1和w2的词向量分别表示为v1={w11,…,w1n}和v2={w21,…,w2n},n代表向量维度,则两者之间的语义相似度定义如下:
Figure BDA0002416731830000051
sim(w1,w2)的取值在[0,1]之间,值越大代表单词之间的语义相似度越高。对于训练集中的每个单词w,设定一个阈值τ,假定只有与其相似度大于该阈值的单词才被认定为与单词w语义相关的单词,于是可以构造出如下的单词语义相似度矩阵:
M={mww'|w,w'∈V}
Figure BDA0002416731830000052
对于不同的阈值设定,某些单词的语义相似集可能会非常大,此时不仅会增加模型的训练时间,也会增加不相似单词的引入概率,造成模型的精度损失。因此需要额外引入一个阈值χ,如果与单词w语义相关的单词的数量大于χ,则将M中w所在行和列的值全部置为0。
(3)建模文档生成过程
由于短文本长度的限制,通常假定每篇短文本只有一个主题,其中主题基于DMM模型(Dirichlet Mixture Model,狄利克雷混合模型),每个主题由多个特征来描述。根据步骤(1)中的自定义词性特征集Q={q|q=0,…,N|Q|},将DMM模型中的每个主题-单词分布
Figure BDA0002416731830000061
细分为不同的主题特征-单词分布
Figure BDA0002416731830000062
对于文档中的每个单词,首先根据词性标注的结果判别该单词的词性特征,若为地点和对象特征,则从对应的主题特征-单词分布中采样该单词,否则,另外引入一个开关变量,来决定该单词是与主题相关的关键词还是全局背景单词。
具体的模型的概率图如图1所示。具体来说,假设语料中有D篇文档,主题数预设为K,词性特征集定义为Q={q|q=0,1,2}分别表示与主题相关的地点、对象和关键词特征。首先,对整个语料集采样全局主题分布
Figure BDA0002416731830000063
和全局背景单词分布
Figure BDA0002416731830000064
并对每个主题和特征采样主题特征-单词分布
Figure BDA0002416731830000065
然后,为每篇文档d采样一个主题
Figure BDA0002416731830000066
对文档d中的每个单词w,根据词性标注的结果获取词性特征qw,若qw=0,则认为单词w是与主题zd相关的地点,从对应的主题地点-单词分布中采样该单词
Figure BDA0002416731830000067
若qw=1,则认为单词w是与主题zd相关的对象,从对应的主题对象-单词分布中采样该单词
Figure BDA0002416731830000068
否则,首先从伯努利分布Bernoulli(λw)中采样开关变量sw。若sw=1,则认为单词w是与主题zd相关的关键词,此时qw=1,从对应的主题关键词-单词分布中采样该单词
Figure BDA0002416731830000069
若sw=0,则认为单词w是与主题无关的背景单词,从全局背景单词分布
Figure BDA00024167318300000610
中采样该单词
Figure BDA00024167318300000611
Figure BDA00024167318300000612
的情况下,如果单词w与文档d的主题zd越相关,该单词就越可能是用来描述该主题的关键词,否则为全局背景单词。因此,采用基于嵌入表示的方法来计算单词w与主题zd的相关度,作为开关变量sw的先验参数λw。假设单词w在嵌入空间中的表示为v(w),主题zd在嵌入空间中的表示为v(zd),则单词w与主题zd的相关度可以定义为两者在嵌入空间中的余弦距离:
Figure BDA0002416731830000071
其中,v(zd)的计算过程如下:首先选取主题zd的每个特征分布下概率值最高的前N个单词,构成主题zd的代表词集合W(zd),然后计算这些代表词的词向量的平均值作为主题zd在嵌入空间中的最终表示v(zd)。
(4)吉布斯采样推断
首先为每篇文档随机初始化一个主题;然后通过计算条件概率分布
Figure BDA0002416731830000072
为每篇文档重新采样一个主题,并更新相应的计数;迭代直至模型收敛。在更新计数的过程中,对于与主题zd相关的关键词w,不仅增加单词w在主题zd中出现的概率,同时增加与w语义相关的单词在主题zd中出现的概率。每篇文档主题采样的概率公式如下:
Figure BDA0002416731830000073
其中,mk代表主题k下的文档数,
Figure BDA0002416731830000074
代表在主题k特征q下单词w出现的次数,
Figure BDA0002416731830000075
代表单词w表现为背景单词的次数,nkq代表主题k特征q下的单词总数,nb代表背景单词总数,Nd,kq代表文档d中出现在主题k下词性特征为q的单词总数,Nd,b代表文档d中的背景单词总数,
Figure BDA0002416731830000076
代表文档d中单词w出现在主题k下词性特征为q时的总次数,
Figure BDA0002416731830000077
代表文档d中单词w表现为背景单词的次数。下标
Figure BDA0002416731830000079
代表相应的计数是在去除当前文档d的基础上统计而得,上标~代表相应计数是在对特定单词进行采样更新时,同时更新语义相关单词的计数后得到的。
待模型收敛之后,利用极大后验估计便可计算出全局主题分布
Figure BDA0002416731830000078
和主题特征-单词分布
Figure BDA0002416731830000081
Figure BDA0002416731830000082
根据上述算法内容,本发明提出了一种基于词性特征与语义增强的短文本主题模型,为了测试该模型的有效性,分别在SougoCA数据集和SearchSnippets数据集上,从主题连贯性指标、短文本分类指标和短文本聚类指标三个方面评估了模型生成主题的质量,并和其他短文本主题模型进行了对比。主题数K分别设置为{40,60,80},α=50/K,β=0.01,τ=0.5,χ=20。
如图3显示了不同短文本主题模型在这两个数据集上的主题连贯性(Topiccoherence)对比结果,每个主题选取了概率值最高的前10个单词计算PMI。
如图4显示了不同短文本主题模型在短文本分类任务中的正确率(Accuracy)对比结果,选用支持向量机作为分类器。
如图5显示了不同短文本主题模型在短文本聚类任务中的纯度(Purity)对比结果。其中,在分类和聚类任务中,采用基于单词概率之和的文本表示方式。从图中可以看出,我们的模型在不同的参数设置下都具有较好的性能,并且具有一定的鲁棒性,表明通过自定义词性特征,并对特定词性特征的单词进行语义增强,能有针对性地强化关键信息,弱化背景噪声单词的影响,提高文本表示的质量。
根据上述算法,本发明提供了一种基于词性特征和语义增强的短文本主题建模方法,包括:
(a)自定义词性特征
(b)计算各个单词间的语义相似度
(c)生成建模文档;和
(d)在模型的吉布斯采样推断过程中,对特定的单词进行语义增强。
进一步地,在步骤(a)之中还包括以下步骤:
(a1)根据语料特性和用户需求定义与主题相关的词性特征集;
(a2)进行预处理操作,并将每个单词根据词性标注的结果归入不同的词性特征。
进一步地,在步骤(b)之中还包括以下步骤:
(b1)通过计算外部词嵌入和本地词嵌入的加权平均获取单词的联合词嵌入;
(b2)然后通过计算联合词嵌入之间的余弦距离来衡量不同单词间的语义相似度,获得每个单词与其语义相关的单词的集合。
进一步地,在步骤(c)之中还包括以下步骤:
(c1)首先根据词性标注的结果判别该单词的词性特征;
(c2)若为地点和对象特征,则从对应的主题特征-单词分布中采样该单词;
(c3)否则,另外引入一个开关变量,来决定该单词是与主题相关的关键词还是全局背景单词。
进一步地,在步骤(d)之中还包括以下步骤:
(d1)首先为每篇文档随机初始化一个主题;
(d2)然后通过计算条件概率分布
Figure BDA0002416731830000091
为每篇文档重新采样一个主题,并更新相应的计数;迭代直至模型收敛;
(d3)待模型收敛之后,利用极大后验估计便可计算出全局主题分布
Figure BDA0002416731830000092
和主题特征和单词分布
Figure BDA0002416731830000093
计算公式为:
Figure BDA0002416731830000094
进一步地,还包括一种测试模型方法,包括以下步骤:
(e1)分别在SougoCA数据集和SearchSnippets数据集上,从主题连贯性指标、短文本分类指标和短文本聚类指标三个方面评估;
(e2)并和其他短文本主题模型进行了对比。
进一步地,对于中文语料,在分词后采用863词性标注集对每个单词进行词性标注;对于英文语料,无需分词,直接使用NLTK工具包进行词性标注和命名实体识别。
进一步地,其中单词w在嵌入空间中的表示为v(w),主题zd在嵌入空间中的表示为v(zd),则单词w与主题zd的相关度可以定义为两者在嵌入空间中的余弦距离:
Figure BDA0002416731830000101
其中,v(zd)的计算过程如下:首先选取主题zd的每个特征分布下概率值最高的前N个单词,构成主题zd的代表词集合W(zd),然后计算词向量的平均值作为主题zd在嵌入空间中的最终表示v(zd)。
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。

Claims (9)

1.一种基于词性特征和语义增强的短文本主题建模方法,其特征在于,包括:
(a)自定义词性特征
(b)计算各个单词间的语义相似度
(c)生成建模文档;和
(d)在模型的吉布斯采样推断过程中,对特定的单词进行语义增强。
2.根据权利要求1的短文本主题建模方法,其特征在于,在步骤(a)之中还包括以下步骤:
(a1)根据语料特性和用户需求定义与主题相关的词性特征集;
(a2)进行预处理操作,并将每个单词根据词性标注的结果归入不同的词性特征。
3.根据权利要求1的短文本主题建模方法,其特征在于,在步骤(b)之中还包括以下步骤:
(b1)通过计算外部词嵌入和本地词嵌入的加权平均获取单词的联合词嵌入;
(b2)然后通过计算联合词嵌入之间的余弦距离来衡量不同单词间的语义相似度,获得每个单词与其语义相关的单词的集合。
4.根据权利要求1的短文本主题建模方法,其特征在于,在步骤(c)之中还包括以下步骤:
(c1)首先根据词性标注的结果判别该单词的词性特征;
(c2)若为地点和对象特征,则从对应的主题特征-单词分布中采样该单词;
(c3)否则,另外引入一个开关变量,来决定该单词是与主题相关的关键词还是全局背景单词。
5.根据权利要求1的短文本主题建模方法,其特征在于,在步骤(d)之中还包括以下步骤:
(d1)首先为每篇文档随机初始化一个主题;
(d2)然后通过计算条件概率分布
Figure FDA0002416731820000021
为每篇文档重新采样一个主题,并更新相应的计数;迭代直至模型收敛;
(d3)待模型收敛之后,利用极大后验估计便可计算出全局主题分布
Figure FDA0002416731820000022
和主题特征和单词分布
Figure FDA0002416731820000023
计算公式为:
Figure FDA0002416731820000024
6.根据权利要求1-5任一所述的短文本主题建模方法,其特征在于,还包括一种测试模型方法,包括以下步骤:
(e1)分别在全网新闻数据集和检索片段数据集上,从主题连贯性指标、短文本分类指标和短文本聚类指标三个方面评估;
(e2)并和其他短文本主题模型进行了对比。
7.根据权利要求2所述的短文本主题建模方法,其特征在于,对于中文语料,在分词后采用词性标注集对每个单词进行词性标注;对于英文语料,使用自然语言处理工具包进行词性标注和命名实体识别。
8.根据权利要求4所述的短文本主题建模方法,其特征在于,其中单词w在嵌入空间中的表示为v(w),主题zd在嵌入空间中的表示为v(zd),则单词w与主题zd的相关度可以定义为两者在嵌入空间中的余弦距离:
Figure FDA0002416731820000025
9.根据权利要求8所述的短文本主题建模方法,其特征在于,其中v(zd)的计算过程如下:首先选取主题zd的每个特征分布下概率值最高的前N个单词,构成主题zd的代表词集合W(zd),然后计算词向量的平均值作为主题zd在嵌入空间中的最终表示v(zd)。
CN202010193427.3A 2020-03-18 2020-03-18 一种基于词性特征和语义增强的短文本主题建模方法 Pending CN111368068A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010193427.3A CN111368068A (zh) 2020-03-18 2020-03-18 一种基于词性特征和语义增强的短文本主题建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010193427.3A CN111368068A (zh) 2020-03-18 2020-03-18 一种基于词性特征和语义增强的短文本主题建模方法

Publications (1)

Publication Number Publication Date
CN111368068A true CN111368068A (zh) 2020-07-03

Family

ID=71206886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010193427.3A Pending CN111368068A (zh) 2020-03-18 2020-03-18 一种基于词性特征和语义增强的短文本主题建模方法

Country Status (1)

Country Link
CN (1) CN111368068A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051932A (zh) * 2021-04-06 2021-06-29 合肥工业大学 语义和知识扩展主题模型的网络媒体事件的类别检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130204885A1 (en) * 2012-02-02 2013-08-08 Xerox Corporation Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space
CN108733653A (zh) * 2018-05-18 2018-11-02 华中科技大学 一种基于融合词性和语义信息的Skip-gram模型的情感分析方法
CN109086375A (zh) * 2018-07-24 2018-12-25 武汉大学 一种基于词向量增强的短文本主题抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130204885A1 (en) * 2012-02-02 2013-08-08 Xerox Corporation Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space
CN108733653A (zh) * 2018-05-18 2018-11-02 华中科技大学 一种基于融合词性和语义信息的Skip-gram模型的情感分析方法
CN109086375A (zh) * 2018-07-24 2018-12-25 武汉大学 一种基于词向量增强的短文本主题抽取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051932A (zh) * 2021-04-06 2021-06-29 合肥工业大学 语义和知识扩展主题模型的网络媒体事件的类别检测方法
CN113051932B (zh) * 2021-04-06 2023-11-03 合肥工业大学 语义和知识扩展主题模型的网络媒体事件的类别检测方法

Similar Documents

Publication Publication Date Title
RU2628431C1 (ru) Подбор параметров текстового классификатора на основе семантических признаков
RU2628436C1 (ru) Классификация текстов на естественном языке на основе семантических признаков
Klementiev et al. Inducing crosslingual distributed representations of words
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN109299228B (zh) 计算机执行的文本风险预测方法及装置
Ehsan et al. Candidate document retrieval for cross-lingual plagiarism detection using two-level proximity information
CN108875059B (zh) 用于生成文档标签的方法、装置、电子设备和存储介质
CN110008474B (zh) 一种关键短语确定方法、装置、设备及存储介质
Jain et al. Fine-tuning textrank for legal document summarization: A bayesian optimization based approach
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
Jin et al. Entity linking at the tail: sparse signals, unknown entities, and phrase models
Zhang et al. Continuous word embeddings for detecting local text reuses at the semantic level
CN109271624B (zh) 一种目标词确定方法、装置及存储介质
CN114330335A (zh) 关键词抽取方法、装置、设备及存储介质
CN114676346A (zh) 新闻事件处理方法、装置、计算机设备和存储介质
CN113032556A (zh) 一种基于自然语言处理形成用户画像的方法
Lee et al. Detecting suicidality with a contextual graph neural network
US20190042568A1 (en) Method, apparatus, and computer-readable medium for determining a data domain associated with data
CN111368068A (zh) 一种基于词性特征和语义增强的短文本主题建模方法
CN115129890A (zh) 回馈数据图谱生成方法、生成设备、问答设备及冰箱
KR102215259B1 (ko) 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치
CN111199170B (zh) 配方文件识别方法及装置、电子设备、存储介质
JP5342574B2 (ja) トピックモデリング装置、トピックモデリング方法、及びプログラム
CN112270185A (zh) 一种基于主题模型的文本表示方法
Knopp et al. Topic modeling for word sense induction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination