CN113076467A - 基于跨语言神经主题模型的汉越新闻话题发现方法 - Google Patents

基于跨语言神经主题模型的汉越新闻话题发现方法 Download PDF

Info

Publication number
CN113076467A
CN113076467A CN202110326492.3A CN202110326492A CN113076467A CN 113076467 A CN113076467 A CN 113076467A CN 202110326492 A CN202110326492 A CN 202110326492A CN 113076467 A CN113076467 A CN 113076467A
Authority
CN
China
Prior art keywords
topic
news
vector
word
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110326492.3A
Other languages
English (en)
Inventor
余正涛
夏琳杰
高盛祥
黄于欣
朱恩昌
张勇丙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202110326492.3A priority Critical patent/CN113076467A/zh
Publication of CN113076467A publication Critical patent/CN113076467A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于跨语言神经主题模型的汉越新闻话题发现方法,属于自然语言处理技术领域。汉越的平行语料稀缺,训练高质量的双语词嵌入较为困难,而且新闻文本一般较长,双语词嵌入的方法难以很好的表征文本,本发明提出一种基于跨语言神经主题模型的汉越新闻话题发现方法(CL‑NTM),将双语语义对齐转化为双语主题对齐任务。首先针对汉语和越南语分别训练基于变分自编码器的神经主题模型,得到单语的主题抽象表征,然后利用小规模的平行语料将双语主题映射到同一语义空间,最后使用K‑means方法对双语主题表征进行聚类,发现新闻事件簇的话题。实验结果表明,CL‑NTM针对汉越低资源话题发现任务取得了很好的效果。

Description

基于跨语言神经主题模型的汉越新闻话题发现方法
技术领域
本发明涉及基于跨语言神经主题模型的汉越新闻话题发现方法,属于自然语言处理技术领域。
背景技术
汉越新闻话题发现就是将汉越新闻报道进行聚类再发现相关的话题。这帮助人们更容易了解同一事件汉越不同的话题讨论。汉越新闻话题发现任务可以看作是对双语新闻聚类的问题,其主要难点在于克服中文与越南文新闻报道之间的语言差异,将两种语言表征到同一语义空间下进行新闻事件聚类。以往跨语言话题发现方法主要分为基于翻译的方法和利用双语词典或平行语料训练双语词嵌入的方法。
发明内容
本发明提供了基于跨语言神经主题模型的汉越新闻话题发现方法,以解决在汉越低资源场景中,由于平行语料的稀缺,构建双语词典和训练高质量的双语词嵌入变得十分困难,汉越新闻文本很难对齐到同一语义空间中的问题。
本发明主要针对新闻长文本聚类,使用双语词嵌入对长文本进行表示的方法不能很好的提取到长文本中重要的词的信息,从而导致新闻长文本的聚类效果欠佳。针对新闻文本而言,通常类属于同一事件的新闻报道大多都描述了相同或相近的主题,利用这种主题的关联性能很好的发现文本间的关联关系,这为汉越新闻的话题发现提供了新的途径,使用新闻主题特征对新闻文本进行表征后聚类,将汉越双语的语义对齐任务转化为新闻主题对齐,利用少量平行篇章主题在空间中的对齐构建双语语义空间,降低了对齐的难度,并对汉越新闻主题进行聚类,抽取主题词代表事件簇的话题,最终实现汉越新闻话题发现。
本发明的技术方案是:基于跨语言神经主题模型的汉越新闻话题发现方法,
所述方法包括:
Step1、通过融入主题语义信息的变分自编码器神经主题模型分别得到汉越平行新闻篇章的主题向量;
Step2、利用平行语料主题向量对齐的特性预训练出主题映射矩阵,将汉越新闻的主题向量表征到同一语义空间下;
Step3、对汉越可比新闻篇章处理得到各自的主题向量表示,通过映射将汉越新闻主题向量共同表征到汉越双语语义空间中,进行主题向量的聚类,提取每个簇的主题词作为此类事件的相关话题。
作为本发明的进一步方案,所述步骤Step1的具体步骤为:
Step1.1、首先输入一篇新闻文档X,将其进行词切分,对新闻文本编码为词袋表示Xs,但由于词袋模型存在向量稀疏问题,使用两层多层感知机将词袋表示Xs编码为低维稠密的统计特征向量h:
Xs=fbow(X) (1)
h=MLP(Xs) (2)
fbow(·)表示将新闻篇章表征为词袋,X表示输入的新闻文档,Xs表示进行词切分后的新闻样本,即词袋表示,MLP表示多层感知机;
为了能通过统计特征向量h得到新闻的主题向量,将传统概率主题模型中的狄利克雷先验分布转化为高斯先验,假设每一篇新闻文本X的样本分布δ都属于正态分布,经过线性变换后的h同样属于正态分布:
μ∈N(0,I) (3)
h∈N(0,I) (4)
然后使用神经网络学习到h的正态分布均值μ与方差σ参数:
μ=wμh+bμ (5)
σ=wσh+bσ (6)
其中,w和b分别是权重矩阵和偏置矩阵,利用这种方式提取新闻文本X的统计特征并从中采样出新闻的主题向量Z:
Z=με+σ (7)
ε通过采样标准正态分布得到,通过编码器训练得到输入新闻文本X的主题向量Z;
Step1.2、对词表中的词进行向量化后,将Step1.1中得到的主题向量Z作为锚点,与词向量矩阵ρ进行点乘计算,计算每个词与主题的相关性生成主题-词的相关性矩阵α,在向量空间中与主题向量Z更相关的词会在距离上逼近它,计算公式如下:
α=softmax(ρT·Z) (8)
ρ代表词表的词向量矩阵,在这一步中,引用了CBOW的思想,CBOW每个词的计算过程如下:
wdn~softmax(ρTαdn) (9)
wdn是第d篇文档中第n个目标词,αdn表示目标词wdn周围窗口生成的上下文词向量;将主题向量Z作为词的上下文向量,对词表中的每个词都进行与主题向量Z进行一致性计算,在得到主题-词的相关性矩阵α;
Step1.3、将主题向量Z与主题-词相关性矩阵α相乘得到变分向量β:
β=softmax(Z·αT) (10)
利用softmax(·)函数进行归一化操作后,对β进行采样重构生成伪新闻文本
Figure BDA0002994866880000031
Figure BDA0002994866880000032
解码器将输入的新闻文本X进行编码后,希望能够学习到的变分向量β重构生成出伪新闻文本
Figure BDA0002994866880000033
尽可能与原文本X相似,因此引入重构损失Lre
Figure BDA0002994866880000034
其中,使用了log_softmax(·)函数优化模型损失的训练,避免梯度爆炸;
当本发明模型对新闻样本进行采样时并不能保证每个样本都服从标准正态分布,导致模型的后续推断很难进行。因此引入KL散度,利用调整KL散度带来的损失迫使每一个输入X的正态分布都服从标准正态分布,KL散度损失的目标函数如下:
Figure BDA0002994866880000035
因此总损失L为:
L=Lre+Lkl (14)
经过优化损失达到阈值收敛后,输出新闻篇章的主题向量Z。
作为本发明的进一步方案,所述步骤Step2的具体步骤为:
Step2.1、得到新闻主题向量Z后,使用平行新闻文本对,根据平行新闻文本对的主题向量在空间中位置对齐的关系,训练得到主题映射矩阵W*,具体训练公式如下:
Figure BDA0002994866880000041
当源语言i与目标语言j对齐时,Dij=1,通过最小化映射源语言主题向量与目标语言主题向量之间的欧几里得距离之和,训练得到最佳的映射矩阵W*,Zi*是中文语义空间中的第i个主题向量,Zj*是越南语义空间中的第j个主题向量,通过学习到的主题映射矩阵W*,将汉越可比语料的新闻主题映射到同一语义空间下。
作为本发明的进一步方案,所述步骤Step3的具体步骤为:
Step3.1、针对爬取特定的新闻事件个数事先确定常数K,常数K意味着最终的聚类类别数,首先随机选定K个初始点作为质心{C1,C2,...,CK},并通过计算每一个主题向量Z与质心C之间的欧式距离:
Figure BDA0002994866880000042
其中,Zi表示第i个主题向量,Cj表示第j个聚类质心;
通过依次比较每个主题向量与质心之间的距离,将每一篇新闻文本的主题向量Z分配到欧式距离最近的聚类簇S中S∈{S1,S2,...,SK},分配完成后重新定义每个簇的聚类质心:
Figure BDA0002994866880000043
|Sl|表示第l类簇中包含的聚类对象个数,Zi表示属于该类簇中的第i个主题向量;
重复上述过程,直到质心不再改变,达到收敛条件后,得到聚类的新闻事件簇,选取每个簇离质心距离最近的主题向量Z,发现该主题向量下的主题词作为此类簇的话题:
wt=argmax(softmax(Z·αT)) (18)
wt表示该类主题下的话题词,argmax(·)表示选取在重构文本
Figure BDA0002994866880000044
的过程中概率最高的词,并将其表示为此类新闻事件簇的相关话题,实现汉越新闻话题发现的最终目的。
本发明的有益效果是:
1、本发明将双语语义对齐转化为双语主题对齐任务;本发明针对汉越低资源话题发现任务取得了很好的效果;
2、本发明利用汉越新闻主题对齐的方式取得的聚类效果相较于基于双语语义对齐的方法更佳,且受到汉越资源稀缺的影响更小;
3、本发明使用融入主题语义信息的变分自编码器神经主题模型生成新闻主题,既考虑新闻的统计信息,又考虑了新闻的上下文语义信息。经实验证明,本发明提出的方法十分有效,生成的主题词具有更好的主题一致性。
附图说明
图1为本发明整体流程图;
图2为本发明中CL-NTM模型流程图;
图3为本发明的NTM模型框架图。
具体实施方式
实施例1:如图1-3所示,基于跨语言神经主题模型的汉越新闻话题发现方法,首先针对汉语和越南语分别训练基于变分自编码器的神经主题模型,得到单语的主题抽象表征,然后利用小规模的平行语料将双语主题映射到同一语义空间,最后使用K-means方法对双语主题表征进行聚类,发现新闻事件簇的话题。
具体步骤如下:
Step1、通过融入主题语义信息的变分自编码器神经主题模型分别得到汉越平行新闻篇章的主题向量;
首先在越南新闻网站上爬取了800篇越南新闻文本,根据新闻事件的主要报道在中文新闻网站中按1:5的比例获取相关中文可比语料4000篇和少量平行新闻篇章对132条;使用jieba分词和Vncorenlp工具包分别对中文和越南文的新闻语料进行分词和去停用词,过滤中文语料中出现频率不超过4次的词,越南语中滤除出现频率不超过2次的词。将变分自编码器中词嵌入维度设置为300,主题向量设置为20维,训练批次大小设置为100,使用Adam作为优化函数,学习率设置为0.002,运用梯度裁剪的方式防止梯度爆炸,并对输入Bow模型进行归一化处理,在K-means聚类中k值设置为4;
Step1.1、首先输入一篇新闻文档X,将其进行词切分,对新闻文本编码为词袋表示Xs,但由于词袋模型存在向量稀疏问题,使用两层多层感知机将词袋表示Xs编码为低维稠密的统计特征向量h:
Xs=fbow(X) (1)
h=MLP(Xs) (2)
fbow(·)表示将新闻篇章表征为词袋,X表示输入的新闻文档,Xs表示进行词切分后的新闻样本,即词袋表示,MLP表示多层感知机;
为了能通过统计特征向量h得到新闻的主题向量,将传统概率主题模型中的狄利克雷先验分布转化为高斯先验,假设每一篇新闻文本X的样本分布δ都属于正态分布,经过线性变换后的h同样属于正态分布:
μ∈N(0,I) (3)
h∈N(0,I) (4)
然后使用神经网络学习到h的正态分布均值μ与方差σ参数:
μ=wμh+bμ (5)
σ=wσh+bσ (6)
其中,w和b分别是权重矩阵和偏置矩阵,利用这种方式提取新闻文本X的统计特征并从中采样出新闻的主题向量Z:
Z=με+σ (7)
ε通过采样标准正态分布得到,通过编码器训练得到输入新闻文本X的主题向量Z;
Step1.2、对新闻语料进行词切分后生成词表ρ,使用skip-gram模型对词表中的词进行预训练得到词向量矩阵ρ1:v=[w1,w2,w3,...,wv]∈Rv×m,v表示词表的长度,m表示词向量的维度。对词表中的词进行向量化后,将Step1.1中得到的主题向量Z作为锚点,与词向量矩阵ρ进行点乘计算,计算每个词与主题的相关性生成主题-词的相关性矩阵α,在向量空间中与主题向量Z更相关的词会在距离上逼近它,计算公式如下:
α=softmax(ρT·Z) (8)
ρ代表词表的词向量矩阵,在这一步中,引用了CBOW的思想,CBOW每个词的计算过程如下:
wdn~softmax(ρTαdn) (9)
wdn是第d篇文档中第n个目标词,αdn表示目标词wdn周围窗口生成的上下文词向量;将主题向量Z作为词的上下文向量,对词表中的每个词都进行与主题向量Z进行一致性计算,在得到主题-词的相关性矩阵α;
Step1.3、为得到更高质量的主题向量,本方法融合了主题语义信息和新闻词频统计信息,将主题向量Z与主题-词相关性矩阵α相乘得到变分向量β:
β=softmax(Z·αT) (10)
利用softmax(·)函数进行归一化操作后,对β进行采样重构生成伪新闻文本
Figure BDA0002994866880000071
Figure BDA0002994866880000072
本模型的解码器的目的在于将输入的新闻文本X进行编码后,希望能够学习到的变分向量β重构生成出伪新闻文本
Figure BDA0002994866880000073
尽可能与原文本X相似,因此引入重构损失Lre
Figure BDA0002994866880000074
其中,使用了log_softmax(·)函数优化模型损失的训练,避免梯度爆炸;
由于本方法使用的神经主题模型摒弃了概率主题模型中的狄利克雷先验假设与吉布斯采样方式,通过假设新闻文本服从正态分布,并从正态分布中采样文本的特征。但这种采样方式也引出一个问题,当本发明模型对新闻样本进行采样时并不能保证每个样本都服从标准正态分布,导致模型的后续推断很难进行。因此引入KL散度,利用调整KL散度带来的损失迫使每一个输入X的正态分布都服从标准正态分布,KL散度损失的目标函数如下:
Figure BDA0002994866880000075
因此总损失L为:
L=Lre+Lkl (14)
经过优化损失达到阈值收敛后,输出新闻篇章的主题向量Z。
Step2、利用平行语料主题向量对齐的特性预训练出主题映射矩阵,将汉越新闻的主题向量表征到同一语义空间下;
作为本发明的进一步方案,所述步骤Step2的具体步骤为:
Step2.1、为实现汉越语义空间对齐,本方法通过NTM模型得到新闻主题向量Z后,调用Vecmap的方法,使用平行新闻文本对,根据平行新闻文本对的主题向量在空间中位置对齐的关系,训练得到主题映射矩阵W*,具体训练公式如下:
Figure BDA0002994866880000081
当源语言i与目标语言j对齐时,Dij=1,通过最小化映射源语言主题向量与目标语言主题向量之间的欧几里得距离之和,训练得到最佳的映射矩阵W*,Zi*是中文语义空间中的第i个主题向量,Zj*是越南语义空间中的第j个主题向量,通过学习到的主题映射矩阵W*,将汉越可比语料的新闻主题映射到同一语义空间下。
Step3、对汉越可比新闻篇章处理得到各自的主题向量表示,通过映射将汉越新闻主题向量共同表征到汉越双语语义空间中,进行主题向量的聚类,提取每个簇的主题词作为此类事件的相关话题。
作为本发明的进一步方案,所述步骤Step3的具体步骤为:
Step3.1、为了实现话题发现的任务,本方法通过主题对齐的方式将两种语言映射到同一语义空间后,使用K-means聚类的方法对汉越新闻的主题向量进行聚类。在使用K-means过程中本方法针对爬取特定的新闻事件个数事先确定常数K,常数K意味着最终的聚类类别数,首先随机选定K个初始点作为质心{C1,C2,...,CK},并通过计算每一个主题向量Z与质心C之间的欧式距离:
Figure BDA0002994866880000082
其中,Zi表示第i个主题向量,Cj表示第j个聚类质心;
通过依次比较每个主题向量与质心之间的距离,将每一篇新闻文本的主题向量Z分配到欧式距离最近的聚类簇S中S∈{S1,S2,...,SK},分配完成后重新定义每个簇的聚类质心:
Figure BDA0002994866880000083
|Sl|表示第l类簇中包含的聚类对象个数,Zi表示属于该类簇中的第i个主题向量;
重复上述过程,直到质心不再改变,达到收敛条件后,得到聚类的新闻事件簇,选取每个簇离质心距离最近的主题向量Z,发现该主题向量下的主题词作为此类簇的话题:
wt=argmax(softmax(Z·αT)) (18)
wt表示该类主题下的话题词,argmax(·)表示选取在重构文本
Figure BDA0002994866880000092
的过程中概率最高的词,并将其表示为此类新闻事件簇的相关话题,实现汉越新闻话题发现的最终目的。
为证明本方法提出方法对新闻文本聚类的有效性,首先比较了本方法与不同基线模型的F1值,如下表1所示:
表1.汉越新闻聚类对比实验结果
Figure BDA0002994866880000091
通过表1对比实验可知,上述几种模型中CLTC-LSA的方法是非概率的主题模型,它主要通过计算词之间的语义相似度,但在汉越低资源话题发现任务中,翻译效果较差,不能很好的计算中文与越南文之间的词的相似度,汉越语义空间的对齐效果欠佳,从而导致新闻聚类效果不够理想。从表中观察发现,ICE-LDA的聚类效果优于CLTC-LSA,ICE-LDA使用的是概率主题模型,能更好的对新闻文本进行主题的抽取,但由于该方法是将得到的新闻主题词通过翻译的方式建立双语联系,在汉越低资源条件下同样受翻译工具性能的影响较大,导致新闻聚类效果较差。CL-NTM*的实验结果表明,在汉越低资源场景下,双语词嵌入的对齐效果直接受困于平行篇章及平行句对的稀缺,通过训练双语词嵌入学习到映射矩阵通常很难实现新闻文本较好的对齐。在本组实验中,本方法分别对比了使用潜在语义分析、翻译工具和双语词嵌入的方法,实验证明,本方法利用汉越新闻主题对齐的方式取得的聚类效果相较于基于双语语义对齐的方法更佳,且受到汉越资源稀缺的影响更小;
为进一步证明本方法的有效性,本方法还与上述方法进行了主题一致性的比较,观察聚类后新闻簇的话题质量,从上表中主题一致性实验指标中可知,本模型相较于ICE-LDA与CLTC-LSA具有更好的主题一致性,具体原因分析如下:CLTC-LSA使用奇异值分解的方法提取新闻的主题词,但这种方法只是一种数学变换,很难与现实中的概念形成对应,导致生成的主题词可理解性差,而ICE-LDA具有词袋模型共有的缺点,只考虑新闻文本的统计信息,忽略了词的上下文语义信息,这使得模型生成的主题词容易出现高频无意义的词,从而影响模型主题一致性。本方法使用融入主题语义信息的变分自编码器神经主题模型生成新闻主题,既考虑新闻的统计信息,又考虑了新闻的上下文语义信息。经实验证明,本方法提出的方法十分有效,生成的主题词具有更好的主题一致性。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (4)

1.基于跨语言神经主题模型的汉越新闻话题发现方法,其特征在于:所述方法包括:
Step1、通过融入主题语义信息的变分自编码器神经主题模型分别得到汉越平行新闻篇章的主题向量;
Step2、利用平行语料主题向量对齐的特性预训练出主题映射矩阵,将汉越新闻的主题向量表征到同一语义空间下;
Step3、对汉越可比新闻篇章处理得到各自的主题向量表示,通过映射将汉越新闻主题向量共同表征到汉越双语语义空间中,进行主题向量的聚类,提取每个簇的主题词作为事件的相关话题。
2.根据权利要求1所述的基于跨语言神经主题模型的汉越新闻话题发现方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、首先输入一篇新闻文档X,将其进行词切分,对新闻文本编码为词袋表示Xs,使用两层多层感知机将词袋表示Xs编码为低维稠密的统计特征向量h:
Xs=fbow(X) (1)
h=MLP(Xs) (2)
fbow(·)表示将新闻篇章表征为词袋,X表示输入的新闻文档,Xs表示进行词切分后的新闻样本,即词袋表示,MLP表示多层感知机;
为了能通过统计特征向量h得到新闻的主题向量,将传统概率主题模型中的狄利克雷先验分布转化为高斯先验,假设每一篇新闻文本X的样本分布δ都属于正态分布,经过线性变换后的h同样属于正态分布:
μ∈N(0,I) (3)
h∈N(0,I) (4)
然后使用神经网络学习到h的正态分布均值μ与方差σ参数:
μ=wμh+bμ (5)
σ=wσh+bσ (6)
其中,w和b分别是权重矩阵和偏置矩阵,利用这种方式提取新闻文本X的统计特征并从中采样出新闻的主题向量Z:
Z=με+σ (7)
ε通过采样标准正态分布得到,通过编码器训练得到输入新闻文本X的主题向量Z;
Step1.2、对词表中的词进行向量化后,将Step1.1中得到的主题向量Z作为锚点,与词向量矩阵ρ进行点乘计算,计算每个词与主题的相关性生成主题-词的相关性矩阵α,在向量空间中与主题向量Z更相关的词会在距离上逼近它,计算公式如下:
α=softmax(ρT·Z) (8)
ρ代表词表的词向量矩阵,在这一步中,引用了CBOW的思想,CBOW每个词的计算过程如下:
wdn~softmax(ρTαdn) (9)
wdn是第d篇文档中第n个目标词,αdn表示目标词wdn周围窗口生成的上下文词向量;将主题向量Z作为词的上下文向量,对词表中的每个词都进行与主题向量Z进行一致性计算,在得到主题-词的相关性矩阵α;
Step1.3、将主题向量Z与主题-词相关性矩阵α相乘得到变分向量β:
β=softmax(Z·αT) (10)
利用softmax(·)函数进行归一化操作后,对β进行采样重构生成伪新闻文本
Figure FDA0002994866870000021
Figure FDA0002994866870000022
解码器将输入的新闻文本X进行编码后,希望能够学习到的变分向量β重构生成出伪新闻文本
Figure FDA0002994866870000023
尽可能与原文本X相似,因此引入重构损失Lre
Figure FDA0002994866870000024
其中,使用了log_softmax(·)函数优化模型损失的训练,避免梯度爆炸;
利用调整KL散度带来的损失迫使每一个输入X的正态分布都服从标准正态分布,KL散度损失的目标函数如下:
Figure FDA0002994866870000025
因此总损失L为:
L=Lre+Lkl (14)
经过优化损失达到阈值收敛后,输出新闻篇章的主题向量Z。
3.根据权利要求1所述的基于跨语言神经主题模型的汉越新闻话题发现方法,其特征在于:所述步骤Step2的具体步骤为:
Step2.1、得到新闻主题向量Z后,使用平行新闻文本对,根据平行新闻文本对的主题向量在空间中位置对齐的关系,训练得到主题映射矩阵W*,具体训练公式如下:
Figure FDA0002994866870000031
当源语言i与目标语言j对齐时,Dij=1,通过最小化映射源语言主题向量与目标语言主题向量之间的欧几里得距离之和,训练得到最佳的映射矩阵W*
Figure FDA0002994866870000034
是中文语义空间中的第i个主题向量,
Figure FDA0002994866870000035
是越南语义空间中的第j个主题向量,通过学习到的主题映射矩阵W*,将汉越可比语料的新闻主题映射到同一语义空间下。
4.根据权利要求1所述的基于跨语言神经主题模型的汉越新闻话题发现方法,其特征在于:所述步骤Step3的具体步骤为:
Step3.1、针对爬取特定的新闻事件个数事先确定常数K,常数K意味着最终的聚类类别数,首先随机选定K个初始点作为质心{C1,C2,...,CK},并通过计算每一个主题向量Z与质心C之间的欧式距离:
Figure FDA0002994866870000032
其中,Zi表示第i个主题向量,Cj表示第j个聚类质心;
通过依次比较每个主题向量与质心之间的距离,将每一篇新闻文本的主题向量Z分配到欧式距离最近的聚类簇S中S∈{S1,S2,...,SK},分配完成后重新定义每个簇的聚类质心:
Figure FDA0002994866870000033
|Sl|表示第l类簇中包含的聚类对象个数,Zi表示属于该类簇中的第i个主题向量;
重复上述过程,直到质心不再改变,达到收敛条件后,得到聚类的新闻事件簇,选取每个簇离质心距离最近的主题向量Z,发现该主题向量下的主题词作为此类簇的话题:
wt=argmax(softmax(Z·αT)) (18)
wt表示该类主题下的话题词,argmax(·)表示选取在重构文本
Figure FDA0002994866870000041
的过程中概率最高的词,并将其表示为此类新闻事件簇的相关话题,实现汉越新闻话题发现的最终目的。
CN202110326492.3A 2021-03-26 2021-03-26 基于跨语言神经主题模型的汉越新闻话题发现方法 Pending CN113076467A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110326492.3A CN113076467A (zh) 2021-03-26 2021-03-26 基于跨语言神经主题模型的汉越新闻话题发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110326492.3A CN113076467A (zh) 2021-03-26 2021-03-26 基于跨语言神经主题模型的汉越新闻话题发现方法

Publications (1)

Publication Number Publication Date
CN113076467A true CN113076467A (zh) 2021-07-06

Family

ID=76610511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110326492.3A Pending CN113076467A (zh) 2021-03-26 2021-03-26 基于跨语言神经主题模型的汉越新闻话题发现方法

Country Status (1)

Country Link
CN (1) CN113076467A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114595688A (zh) * 2022-01-06 2022-06-07 昆明理工大学 融合词簇约束的汉越跨语言词嵌入方法
CN114936564A (zh) * 2022-06-07 2022-08-23 上海开放大学 一种基于对齐变分自编码的多语言语义匹配方法及系统
CN114969312A (zh) * 2022-05-30 2022-08-30 特赞(上海)信息科技有限公司 基于变分自编码器的营销案例主题提取方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253973A (zh) * 2011-06-14 2011-11-23 清华大学 汉英跨语言新闻话题检测方法及系统
CN107391565A (zh) * 2017-06-13 2017-11-24 东南大学 一种基于主题模型的跨语言层次分类体系匹配方法
CN108519971A (zh) * 2018-03-23 2018-09-11 中国传媒大学 一种基于平行语料库的跨语种新闻主题相似性对比方法
CN109033320A (zh) * 2018-07-18 2018-12-18 无码科技(杭州)有限公司 一种双语新闻聚合方法及系统
CN109255121A (zh) * 2018-07-27 2019-01-22 中山大学 一种基于主题类的跨语言生物医学类学术论文信息推荐方法
CN109885686A (zh) * 2019-02-20 2019-06-14 延边大学 一种融合主题信息和BiLSTM-CNN的多语种文本分类方法
CN110472047A (zh) * 2019-07-15 2019-11-19 昆明理工大学 一种多特征融合的汉越新闻观点句抽取方法
CN111709231A (zh) * 2020-04-30 2020-09-25 昆明理工大学 一种基于自注意变分自编码的类案推荐方法
CN112287695A (zh) * 2020-09-18 2021-01-29 昆明理工大学 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法
CN112541343A (zh) * 2020-12-03 2021-03-23 昆明理工大学 基于词对齐的半监督对抗学习跨语言摘要生成方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253973A (zh) * 2011-06-14 2011-11-23 清华大学 汉英跨语言新闻话题检测方法及系统
CN107391565A (zh) * 2017-06-13 2017-11-24 东南大学 一种基于主题模型的跨语言层次分类体系匹配方法
CN108519971A (zh) * 2018-03-23 2018-09-11 中国传媒大学 一种基于平行语料库的跨语种新闻主题相似性对比方法
CN109033320A (zh) * 2018-07-18 2018-12-18 无码科技(杭州)有限公司 一种双语新闻聚合方法及系统
CN109255121A (zh) * 2018-07-27 2019-01-22 中山大学 一种基于主题类的跨语言生物医学类学术论文信息推荐方法
CN109885686A (zh) * 2019-02-20 2019-06-14 延边大学 一种融合主题信息和BiLSTM-CNN的多语种文本分类方法
CN110472047A (zh) * 2019-07-15 2019-11-19 昆明理工大学 一种多特征融合的汉越新闻观点句抽取方法
CN111709231A (zh) * 2020-04-30 2020-09-25 昆明理工大学 一种基于自注意变分自编码的类案推荐方法
CN112287695A (zh) * 2020-09-18 2021-01-29 昆明理工大学 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法
CN112541343A (zh) * 2020-12-03 2021-03-23 昆明理工大学 基于词对齐的半监督对抗学习跨语言摘要生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
夏青等: "融合要素及主题的汉越双语新闻话题分析", 《计算机工程》 *
张萌萌: "基于共享空间的跨语言情感分类", 《信息技术与信息化》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114595688A (zh) * 2022-01-06 2022-06-07 昆明理工大学 融合词簇约束的汉越跨语言词嵌入方法
CN114595688B (zh) * 2022-01-06 2023-03-10 昆明理工大学 融合词簇约束的汉越跨语言词嵌入方法
CN114969312A (zh) * 2022-05-30 2022-08-30 特赞(上海)信息科技有限公司 基于变分自编码器的营销案例主题提取方法及系统
CN114936564A (zh) * 2022-06-07 2022-08-23 上海开放大学 一种基于对齐变分自编码的多语言语义匹配方法及系统

Similar Documents

Publication Publication Date Title
CN110717047B (zh) 一种基于图卷积神经网络的Web服务分类方法
Lu et al. Bi-encoder transformer network for mandarin-english code-switching speech recognition using mixture of experts.
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
Dashtipour et al. Exploiting deep learning for Persian sentiment analysis
CN110717332B (zh) 基于非对称孪生网络的新闻与案件相似度计算方法
CN113076467A (zh) 基于跨语言神经主题模型的汉越新闻话题发现方法
CN111125349A (zh) 基于词频和语义的图模型文本摘要生成方法
CN109325229B (zh) 一种利用语义信息计算文本相似度的方法
CN108475262A (zh) 用于文本处理的电子设备和方法
CN108733647B (zh) 一种基于高斯分布的词向量生成方法
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN112287695A (zh) 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法
CN109992775A (zh) 一种基于高级语义的文本摘要生成方法
Dahou et al. Multi-channel embedding convolutional neural network model for arabic sentiment classification
CN114880461A (zh) 一种结合对比学习和预训练技术的中文新闻文本摘要方法
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
Xafopoulos et al. Language identification in web documents using discrete HMMs
CN111368542A (zh) 一种基于递归神经网络的文本语言关联抽取方法和系统
Ye et al. Improving cross-domain Chinese word segmentation with word embeddings
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN115168580A (zh) 一种基于关键词提取与注意力机制的文本分类方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
CN109543036A (zh) 基于语义相似度的文本聚类方法
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210706

RJ01 Rejection of invention patent application after publication