CN113076467A - 基于跨语言神经主题模型的汉越新闻话题发现方法 - Google Patents
基于跨语言神经主题模型的汉越新闻话题发现方法 Download PDFInfo
- Publication number
- CN113076467A CN113076467A CN202110326492.3A CN202110326492A CN113076467A CN 113076467 A CN113076467 A CN 113076467A CN 202110326492 A CN202110326492 A CN 202110326492A CN 113076467 A CN113076467 A CN 113076467A
- Authority
- CN
- China
- Prior art keywords
- topic
- news
- vector
- word
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000001537 neural effect Effects 0.000 title claims abstract description 20
- 238000013507 mapping Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims description 118
- 239000011159 matrix material Substances 0.000 claims description 38
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000004880 explosion Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000013459 approach Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 11
- 238000002474 experimental method Methods 0.000 abstract description 7
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000013519 translation Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及基于跨语言神经主题模型的汉越新闻话题发现方法,属于自然语言处理技术领域。汉越的平行语料稀缺,训练高质量的双语词嵌入较为困难,而且新闻文本一般较长,双语词嵌入的方法难以很好的表征文本,本发明提出一种基于跨语言神经主题模型的汉越新闻话题发现方法(CL‑NTM),将双语语义对齐转化为双语主题对齐任务。首先针对汉语和越南语分别训练基于变分自编码器的神经主题模型,得到单语的主题抽象表征,然后利用小规模的平行语料将双语主题映射到同一语义空间,最后使用K‑means方法对双语主题表征进行聚类,发现新闻事件簇的话题。实验结果表明,CL‑NTM针对汉越低资源话题发现任务取得了很好的效果。
Description
技术领域
本发明涉及基于跨语言神经主题模型的汉越新闻话题发现方法,属于自然语言处理技术领域。
背景技术
汉越新闻话题发现就是将汉越新闻报道进行聚类再发现相关的话题。这帮助人们更容易了解同一事件汉越不同的话题讨论。汉越新闻话题发现任务可以看作是对双语新闻聚类的问题,其主要难点在于克服中文与越南文新闻报道之间的语言差异,将两种语言表征到同一语义空间下进行新闻事件聚类。以往跨语言话题发现方法主要分为基于翻译的方法和利用双语词典或平行语料训练双语词嵌入的方法。
发明内容
本发明提供了基于跨语言神经主题模型的汉越新闻话题发现方法,以解决在汉越低资源场景中,由于平行语料的稀缺,构建双语词典和训练高质量的双语词嵌入变得十分困难,汉越新闻文本很难对齐到同一语义空间中的问题。
本发明主要针对新闻长文本聚类,使用双语词嵌入对长文本进行表示的方法不能很好的提取到长文本中重要的词的信息,从而导致新闻长文本的聚类效果欠佳。针对新闻文本而言,通常类属于同一事件的新闻报道大多都描述了相同或相近的主题,利用这种主题的关联性能很好的发现文本间的关联关系,这为汉越新闻的话题发现提供了新的途径,使用新闻主题特征对新闻文本进行表征后聚类,将汉越双语的语义对齐任务转化为新闻主题对齐,利用少量平行篇章主题在空间中的对齐构建双语语义空间,降低了对齐的难度,并对汉越新闻主题进行聚类,抽取主题词代表事件簇的话题,最终实现汉越新闻话题发现。
本发明的技术方案是:基于跨语言神经主题模型的汉越新闻话题发现方法,
所述方法包括:
Step1、通过融入主题语义信息的变分自编码器神经主题模型分别得到汉越平行新闻篇章的主题向量;
Step2、利用平行语料主题向量对齐的特性预训练出主题映射矩阵,将汉越新闻的主题向量表征到同一语义空间下;
Step3、对汉越可比新闻篇章处理得到各自的主题向量表示,通过映射将汉越新闻主题向量共同表征到汉越双语语义空间中,进行主题向量的聚类,提取每个簇的主题词作为此类事件的相关话题。
作为本发明的进一步方案,所述步骤Step1的具体步骤为:
Step1.1、首先输入一篇新闻文档X,将其进行词切分,对新闻文本编码为词袋表示Xs,但由于词袋模型存在向量稀疏问题,使用两层多层感知机将词袋表示Xs编码为低维稠密的统计特征向量h:
Xs=fbow(X) (1)
h=MLP(Xs) (2)
fbow(·)表示将新闻篇章表征为词袋,X表示输入的新闻文档,Xs表示进行词切分后的新闻样本,即词袋表示,MLP表示多层感知机;
为了能通过统计特征向量h得到新闻的主题向量,将传统概率主题模型中的狄利克雷先验分布转化为高斯先验,假设每一篇新闻文本X的样本分布δ都属于正态分布,经过线性变换后的h同样属于正态分布:
μ∈N(0,I) (3)
h∈N(0,I) (4)
然后使用神经网络学习到h的正态分布均值μ与方差σ参数:
μ=wμh+bμ (5)
σ=wσh+bσ (6)
其中,w和b分别是权重矩阵和偏置矩阵,利用这种方式提取新闻文本X的统计特征并从中采样出新闻的主题向量Z:
Z=με+σ (7)
ε通过采样标准正态分布得到,通过编码器训练得到输入新闻文本X的主题向量Z;
Step1.2、对词表中的词进行向量化后,将Step1.1中得到的主题向量Z作为锚点,与词向量矩阵ρ进行点乘计算,计算每个词与主题的相关性生成主题-词的相关性矩阵α,在向量空间中与主题向量Z更相关的词会在距离上逼近它,计算公式如下:
α=softmax(ρT·Z) (8)
ρ代表词表的词向量矩阵,在这一步中,引用了CBOW的思想,CBOW每个词的计算过程如下:
wdn~softmax(ρTαdn) (9)
wdn是第d篇文档中第n个目标词,αdn表示目标词wdn周围窗口生成的上下文词向量;将主题向量Z作为词的上下文向量,对词表中的每个词都进行与主题向量Z进行一致性计算,在得到主题-词的相关性矩阵α;
Step1.3、将主题向量Z与主题-词相关性矩阵α相乘得到变分向量β:
β=softmax(Z·αT) (10)
其中,使用了log_softmax(·)函数优化模型损失的训练,避免梯度爆炸;
当本发明模型对新闻样本进行采样时并不能保证每个样本都服从标准正态分布,导致模型的后续推断很难进行。因此引入KL散度,利用调整KL散度带来的损失迫使每一个输入X的正态分布都服从标准正态分布,KL散度损失的目标函数如下:
因此总损失L为:
L=Lre+Lkl (14)
经过优化损失达到阈值收敛后,输出新闻篇章的主题向量Z。
作为本发明的进一步方案,所述步骤Step2的具体步骤为:
Step2.1、得到新闻主题向量Z后,使用平行新闻文本对,根据平行新闻文本对的主题向量在空间中位置对齐的关系,训练得到主题映射矩阵W*,具体训练公式如下:
当源语言i与目标语言j对齐时,Dij=1,通过最小化映射源语言主题向量与目标语言主题向量之间的欧几里得距离之和,训练得到最佳的映射矩阵W*,Zi*是中文语义空间中的第i个主题向量,Zj*是越南语义空间中的第j个主题向量,通过学习到的主题映射矩阵W*,将汉越可比语料的新闻主题映射到同一语义空间下。
作为本发明的进一步方案,所述步骤Step3的具体步骤为:
Step3.1、针对爬取特定的新闻事件个数事先确定常数K,常数K意味着最终的聚类类别数,首先随机选定K个初始点作为质心{C1,C2,...,CK},并通过计算每一个主题向量Z与质心C之间的欧式距离:
其中,Zi表示第i个主题向量,Cj表示第j个聚类质心;
通过依次比较每个主题向量与质心之间的距离,将每一篇新闻文本的主题向量Z分配到欧式距离最近的聚类簇S中S∈{S1,S2,...,SK},分配完成后重新定义每个簇的聚类质心:
|Sl|表示第l类簇中包含的聚类对象个数,Zi表示属于该类簇中的第i个主题向量;
重复上述过程,直到质心不再改变,达到收敛条件后,得到聚类的新闻事件簇,选取每个簇离质心距离最近的主题向量Z,发现该主题向量下的主题词作为此类簇的话题:
wt=argmax(softmax(Z·αT)) (18)
本发明的有益效果是:
1、本发明将双语语义对齐转化为双语主题对齐任务;本发明针对汉越低资源话题发现任务取得了很好的效果;
2、本发明利用汉越新闻主题对齐的方式取得的聚类效果相较于基于双语语义对齐的方法更佳,且受到汉越资源稀缺的影响更小;
3、本发明使用融入主题语义信息的变分自编码器神经主题模型生成新闻主题,既考虑新闻的统计信息,又考虑了新闻的上下文语义信息。经实验证明,本发明提出的方法十分有效,生成的主题词具有更好的主题一致性。
附图说明
图1为本发明整体流程图;
图2为本发明中CL-NTM模型流程图;
图3为本发明的NTM模型框架图。
具体实施方式
实施例1:如图1-3所示,基于跨语言神经主题模型的汉越新闻话题发现方法,首先针对汉语和越南语分别训练基于变分自编码器的神经主题模型,得到单语的主题抽象表征,然后利用小规模的平行语料将双语主题映射到同一语义空间,最后使用K-means方法对双语主题表征进行聚类,发现新闻事件簇的话题。
具体步骤如下:
Step1、通过融入主题语义信息的变分自编码器神经主题模型分别得到汉越平行新闻篇章的主题向量;
首先在越南新闻网站上爬取了800篇越南新闻文本,根据新闻事件的主要报道在中文新闻网站中按1:5的比例获取相关中文可比语料4000篇和少量平行新闻篇章对132条;使用jieba分词和Vncorenlp工具包分别对中文和越南文的新闻语料进行分词和去停用词,过滤中文语料中出现频率不超过4次的词,越南语中滤除出现频率不超过2次的词。将变分自编码器中词嵌入维度设置为300,主题向量设置为20维,训练批次大小设置为100,使用Adam作为优化函数,学习率设置为0.002,运用梯度裁剪的方式防止梯度爆炸,并对输入Bow模型进行归一化处理,在K-means聚类中k值设置为4;
Step1.1、首先输入一篇新闻文档X,将其进行词切分,对新闻文本编码为词袋表示Xs,但由于词袋模型存在向量稀疏问题,使用两层多层感知机将词袋表示Xs编码为低维稠密的统计特征向量h:
Xs=fbow(X) (1)
h=MLP(Xs) (2)
fbow(·)表示将新闻篇章表征为词袋,X表示输入的新闻文档,Xs表示进行词切分后的新闻样本,即词袋表示,MLP表示多层感知机;
为了能通过统计特征向量h得到新闻的主题向量,将传统概率主题模型中的狄利克雷先验分布转化为高斯先验,假设每一篇新闻文本X的样本分布δ都属于正态分布,经过线性变换后的h同样属于正态分布:
μ∈N(0,I) (3)
h∈N(0,I) (4)
然后使用神经网络学习到h的正态分布均值μ与方差σ参数:
μ=wμh+bμ (5)
σ=wσh+bσ (6)
其中,w和b分别是权重矩阵和偏置矩阵,利用这种方式提取新闻文本X的统计特征并从中采样出新闻的主题向量Z:
Z=με+σ (7)
ε通过采样标准正态分布得到,通过编码器训练得到输入新闻文本X的主题向量Z;
Step1.2、对新闻语料进行词切分后生成词表ρ,使用skip-gram模型对词表中的词进行预训练得到词向量矩阵ρ1:v=[w1,w2,w3,...,wv]∈Rv×m,v表示词表的长度,m表示词向量的维度。对词表中的词进行向量化后,将Step1.1中得到的主题向量Z作为锚点,与词向量矩阵ρ进行点乘计算,计算每个词与主题的相关性生成主题-词的相关性矩阵α,在向量空间中与主题向量Z更相关的词会在距离上逼近它,计算公式如下:
α=softmax(ρT·Z) (8)
ρ代表词表的词向量矩阵,在这一步中,引用了CBOW的思想,CBOW每个词的计算过程如下:
wdn~softmax(ρTαdn) (9)
wdn是第d篇文档中第n个目标词,αdn表示目标词wdn周围窗口生成的上下文词向量;将主题向量Z作为词的上下文向量,对词表中的每个词都进行与主题向量Z进行一致性计算,在得到主题-词的相关性矩阵α;
Step1.3、为得到更高质量的主题向量,本方法融合了主题语义信息和新闻词频统计信息,将主题向量Z与主题-词相关性矩阵α相乘得到变分向量β:
β=softmax(Z·αT) (10)
其中,使用了log_softmax(·)函数优化模型损失的训练,避免梯度爆炸;
由于本方法使用的神经主题模型摒弃了概率主题模型中的狄利克雷先验假设与吉布斯采样方式,通过假设新闻文本服从正态分布,并从正态分布中采样文本的特征。但这种采样方式也引出一个问题,当本发明模型对新闻样本进行采样时并不能保证每个样本都服从标准正态分布,导致模型的后续推断很难进行。因此引入KL散度,利用调整KL散度带来的损失迫使每一个输入X的正态分布都服从标准正态分布,KL散度损失的目标函数如下:
因此总损失L为:
L=Lre+Lkl (14)
经过优化损失达到阈值收敛后,输出新闻篇章的主题向量Z。
Step2、利用平行语料主题向量对齐的特性预训练出主题映射矩阵,将汉越新闻的主题向量表征到同一语义空间下;
作为本发明的进一步方案,所述步骤Step2的具体步骤为:
Step2.1、为实现汉越语义空间对齐,本方法通过NTM模型得到新闻主题向量Z后,调用Vecmap的方法,使用平行新闻文本对,根据平行新闻文本对的主题向量在空间中位置对齐的关系,训练得到主题映射矩阵W*,具体训练公式如下:
当源语言i与目标语言j对齐时,Dij=1,通过最小化映射源语言主题向量与目标语言主题向量之间的欧几里得距离之和,训练得到最佳的映射矩阵W*,Zi*是中文语义空间中的第i个主题向量,Zj*是越南语义空间中的第j个主题向量,通过学习到的主题映射矩阵W*,将汉越可比语料的新闻主题映射到同一语义空间下。
Step3、对汉越可比新闻篇章处理得到各自的主题向量表示,通过映射将汉越新闻主题向量共同表征到汉越双语语义空间中,进行主题向量的聚类,提取每个簇的主题词作为此类事件的相关话题。
作为本发明的进一步方案,所述步骤Step3的具体步骤为:
Step3.1、为了实现话题发现的任务,本方法通过主题对齐的方式将两种语言映射到同一语义空间后,使用K-means聚类的方法对汉越新闻的主题向量进行聚类。在使用K-means过程中本方法针对爬取特定的新闻事件个数事先确定常数K,常数K意味着最终的聚类类别数,首先随机选定K个初始点作为质心{C1,C2,...,CK},并通过计算每一个主题向量Z与质心C之间的欧式距离:
其中,Zi表示第i个主题向量,Cj表示第j个聚类质心;
通过依次比较每个主题向量与质心之间的距离,将每一篇新闻文本的主题向量Z分配到欧式距离最近的聚类簇S中S∈{S1,S2,...,SK},分配完成后重新定义每个簇的聚类质心:
|Sl|表示第l类簇中包含的聚类对象个数,Zi表示属于该类簇中的第i个主题向量;
重复上述过程,直到质心不再改变,达到收敛条件后,得到聚类的新闻事件簇,选取每个簇离质心距离最近的主题向量Z,发现该主题向量下的主题词作为此类簇的话题:
wt=argmax(softmax(Z·αT)) (18)
为证明本方法提出方法对新闻文本聚类的有效性,首先比较了本方法与不同基线模型的F1值,如下表1所示:
表1.汉越新闻聚类对比实验结果
通过表1对比实验可知,上述几种模型中CLTC-LSA的方法是非概率的主题模型,它主要通过计算词之间的语义相似度,但在汉越低资源话题发现任务中,翻译效果较差,不能很好的计算中文与越南文之间的词的相似度,汉越语义空间的对齐效果欠佳,从而导致新闻聚类效果不够理想。从表中观察发现,ICE-LDA的聚类效果优于CLTC-LSA,ICE-LDA使用的是概率主题模型,能更好的对新闻文本进行主题的抽取,但由于该方法是将得到的新闻主题词通过翻译的方式建立双语联系,在汉越低资源条件下同样受翻译工具性能的影响较大,导致新闻聚类效果较差。CL-NTM*的实验结果表明,在汉越低资源场景下,双语词嵌入的对齐效果直接受困于平行篇章及平行句对的稀缺,通过训练双语词嵌入学习到映射矩阵通常很难实现新闻文本较好的对齐。在本组实验中,本方法分别对比了使用潜在语义分析、翻译工具和双语词嵌入的方法,实验证明,本方法利用汉越新闻主题对齐的方式取得的聚类效果相较于基于双语语义对齐的方法更佳,且受到汉越资源稀缺的影响更小;
为进一步证明本方法的有效性,本方法还与上述方法进行了主题一致性的比较,观察聚类后新闻簇的话题质量,从上表中主题一致性实验指标中可知,本模型相较于ICE-LDA与CLTC-LSA具有更好的主题一致性,具体原因分析如下:CLTC-LSA使用奇异值分解的方法提取新闻的主题词,但这种方法只是一种数学变换,很难与现实中的概念形成对应,导致生成的主题词可理解性差,而ICE-LDA具有词袋模型共有的缺点,只考虑新闻文本的统计信息,忽略了词的上下文语义信息,这使得模型生成的主题词容易出现高频无意义的词,从而影响模型主题一致性。本方法使用融入主题语义信息的变分自编码器神经主题模型生成新闻主题,既考虑新闻的统计信息,又考虑了新闻的上下文语义信息。经实验证明,本方法提出的方法十分有效,生成的主题词具有更好的主题一致性。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (4)
1.基于跨语言神经主题模型的汉越新闻话题发现方法,其特征在于:所述方法包括:
Step1、通过融入主题语义信息的变分自编码器神经主题模型分别得到汉越平行新闻篇章的主题向量;
Step2、利用平行语料主题向量对齐的特性预训练出主题映射矩阵,将汉越新闻的主题向量表征到同一语义空间下;
Step3、对汉越可比新闻篇章处理得到各自的主题向量表示,通过映射将汉越新闻主题向量共同表征到汉越双语语义空间中,进行主题向量的聚类,提取每个簇的主题词作为事件的相关话题。
2.根据权利要求1所述的基于跨语言神经主题模型的汉越新闻话题发现方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、首先输入一篇新闻文档X,将其进行词切分,对新闻文本编码为词袋表示Xs,使用两层多层感知机将词袋表示Xs编码为低维稠密的统计特征向量h:
Xs=fbow(X) (1)
h=MLP(Xs) (2)
fbow(·)表示将新闻篇章表征为词袋,X表示输入的新闻文档,Xs表示进行词切分后的新闻样本,即词袋表示,MLP表示多层感知机;
为了能通过统计特征向量h得到新闻的主题向量,将传统概率主题模型中的狄利克雷先验分布转化为高斯先验,假设每一篇新闻文本X的样本分布δ都属于正态分布,经过线性变换后的h同样属于正态分布:
μ∈N(0,I) (3)
h∈N(0,I) (4)
然后使用神经网络学习到h的正态分布均值μ与方差σ参数:
μ=wμh+bμ (5)
σ=wσh+bσ (6)
其中,w和b分别是权重矩阵和偏置矩阵,利用这种方式提取新闻文本X的统计特征并从中采样出新闻的主题向量Z:
Z=με+σ (7)
ε通过采样标准正态分布得到,通过编码器训练得到输入新闻文本X的主题向量Z;
Step1.2、对词表中的词进行向量化后,将Step1.1中得到的主题向量Z作为锚点,与词向量矩阵ρ进行点乘计算,计算每个词与主题的相关性生成主题-词的相关性矩阵α,在向量空间中与主题向量Z更相关的词会在距离上逼近它,计算公式如下:
α=softmax(ρT·Z) (8)
ρ代表词表的词向量矩阵,在这一步中,引用了CBOW的思想,CBOW每个词的计算过程如下:
wdn~softmax(ρTαdn) (9)
wdn是第d篇文档中第n个目标词,αdn表示目标词wdn周围窗口生成的上下文词向量;将主题向量Z作为词的上下文向量,对词表中的每个词都进行与主题向量Z进行一致性计算,在得到主题-词的相关性矩阵α;
Step1.3、将主题向量Z与主题-词相关性矩阵α相乘得到变分向量β:
β=softmax(Z·αT) (10)
其中,使用了log_softmax(·)函数优化模型损失的训练,避免梯度爆炸;
利用调整KL散度带来的损失迫使每一个输入X的正态分布都服从标准正态分布,KL散度损失的目标函数如下:
因此总损失L为:
L=Lre+Lkl (14)
经过优化损失达到阈值收敛后,输出新闻篇章的主题向量Z。
4.根据权利要求1所述的基于跨语言神经主题模型的汉越新闻话题发现方法,其特征在于:所述步骤Step3的具体步骤为:
Step3.1、针对爬取特定的新闻事件个数事先确定常数K,常数K意味着最终的聚类类别数,首先随机选定K个初始点作为质心{C1,C2,...,CK},并通过计算每一个主题向量Z与质心C之间的欧式距离:
其中,Zi表示第i个主题向量,Cj表示第j个聚类质心;
通过依次比较每个主题向量与质心之间的距离,将每一篇新闻文本的主题向量Z分配到欧式距离最近的聚类簇S中S∈{S1,S2,...,SK},分配完成后重新定义每个簇的聚类质心:
|Sl|表示第l类簇中包含的聚类对象个数,Zi表示属于该类簇中的第i个主题向量;
重复上述过程,直到质心不再改变,达到收敛条件后,得到聚类的新闻事件簇,选取每个簇离质心距离最近的主题向量Z,发现该主题向量下的主题词作为此类簇的话题:
wt=argmax(softmax(Z·αT)) (18)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110326492.3A CN113076467A (zh) | 2021-03-26 | 2021-03-26 | 基于跨语言神经主题模型的汉越新闻话题发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110326492.3A CN113076467A (zh) | 2021-03-26 | 2021-03-26 | 基于跨语言神经主题模型的汉越新闻话题发现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113076467A true CN113076467A (zh) | 2021-07-06 |
Family
ID=76610511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110326492.3A Pending CN113076467A (zh) | 2021-03-26 | 2021-03-26 | 基于跨语言神经主题模型的汉越新闻话题发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113076467A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114595688A (zh) * | 2022-01-06 | 2022-06-07 | 昆明理工大学 | 融合词簇约束的汉越跨语言词嵌入方法 |
CN114936564A (zh) * | 2022-06-07 | 2022-08-23 | 上海开放大学 | 一种基于对齐变分自编码的多语言语义匹配方法及系统 |
CN114969312A (zh) * | 2022-05-30 | 2022-08-30 | 特赞(上海)信息科技有限公司 | 基于变分自编码器的营销案例主题提取方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102253973A (zh) * | 2011-06-14 | 2011-11-23 | 清华大学 | 汉英跨语言新闻话题检测方法及系统 |
CN107391565A (zh) * | 2017-06-13 | 2017-11-24 | 东南大学 | 一种基于主题模型的跨语言层次分类体系匹配方法 |
CN108519971A (zh) * | 2018-03-23 | 2018-09-11 | 中国传媒大学 | 一种基于平行语料库的跨语种新闻主题相似性对比方法 |
CN109033320A (zh) * | 2018-07-18 | 2018-12-18 | 无码科技(杭州)有限公司 | 一种双语新闻聚合方法及系统 |
CN109255121A (zh) * | 2018-07-27 | 2019-01-22 | 中山大学 | 一种基于主题类的跨语言生物医学类学术论文信息推荐方法 |
CN109885686A (zh) * | 2019-02-20 | 2019-06-14 | 延边大学 | 一种融合主题信息和BiLSTM-CNN的多语种文本分类方法 |
CN110472047A (zh) * | 2019-07-15 | 2019-11-19 | 昆明理工大学 | 一种多特征融合的汉越新闻观点句抽取方法 |
CN111709231A (zh) * | 2020-04-30 | 2020-09-25 | 昆明理工大学 | 一种基于自注意变分自编码的类案推荐方法 |
CN112287695A (zh) * | 2020-09-18 | 2021-01-29 | 昆明理工大学 | 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法 |
CN112541343A (zh) * | 2020-12-03 | 2021-03-23 | 昆明理工大学 | 基于词对齐的半监督对抗学习跨语言摘要生成方法 |
-
2021
- 2021-03-26 CN CN202110326492.3A patent/CN113076467A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102253973A (zh) * | 2011-06-14 | 2011-11-23 | 清华大学 | 汉英跨语言新闻话题检测方法及系统 |
CN107391565A (zh) * | 2017-06-13 | 2017-11-24 | 东南大学 | 一种基于主题模型的跨语言层次分类体系匹配方法 |
CN108519971A (zh) * | 2018-03-23 | 2018-09-11 | 中国传媒大学 | 一种基于平行语料库的跨语种新闻主题相似性对比方法 |
CN109033320A (zh) * | 2018-07-18 | 2018-12-18 | 无码科技(杭州)有限公司 | 一种双语新闻聚合方法及系统 |
CN109255121A (zh) * | 2018-07-27 | 2019-01-22 | 中山大学 | 一种基于主题类的跨语言生物医学类学术论文信息推荐方法 |
CN109885686A (zh) * | 2019-02-20 | 2019-06-14 | 延边大学 | 一种融合主题信息和BiLSTM-CNN的多语种文本分类方法 |
CN110472047A (zh) * | 2019-07-15 | 2019-11-19 | 昆明理工大学 | 一种多特征融合的汉越新闻观点句抽取方法 |
CN111709231A (zh) * | 2020-04-30 | 2020-09-25 | 昆明理工大学 | 一种基于自注意变分自编码的类案推荐方法 |
CN112287695A (zh) * | 2020-09-18 | 2021-01-29 | 昆明理工大学 | 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法 |
CN112541343A (zh) * | 2020-12-03 | 2021-03-23 | 昆明理工大学 | 基于词对齐的半监督对抗学习跨语言摘要生成方法 |
Non-Patent Citations (2)
Title |
---|
夏青等: "融合要素及主题的汉越双语新闻话题分析", 《计算机工程》 * |
张萌萌: "基于共享空间的跨语言情感分类", 《信息技术与信息化》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114595688A (zh) * | 2022-01-06 | 2022-06-07 | 昆明理工大学 | 融合词簇约束的汉越跨语言词嵌入方法 |
CN114595688B (zh) * | 2022-01-06 | 2023-03-10 | 昆明理工大学 | 融合词簇约束的汉越跨语言词嵌入方法 |
CN114969312A (zh) * | 2022-05-30 | 2022-08-30 | 特赞(上海)信息科技有限公司 | 基于变分自编码器的营销案例主题提取方法及系统 |
CN114936564A (zh) * | 2022-06-07 | 2022-08-23 | 上海开放大学 | 一种基于对齐变分自编码的多语言语义匹配方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717047B (zh) | 一种基于图卷积神经网络的Web服务分类方法 | |
Lu et al. | Bi-encoder transformer network for mandarin-english code-switching speech recognition using mixture of experts. | |
WO2019080863A1 (zh) | 文本情感分类方法、存储介质及计算机 | |
Dashtipour et al. | Exploiting deep learning for Persian sentiment analysis | |
CN110717332B (zh) | 基于非对称孪生网络的新闻与案件相似度计算方法 | |
CN113076467A (zh) | 基于跨语言神经主题模型的汉越新闻话题发现方法 | |
CN111125349A (zh) | 基于词频和语义的图模型文本摘要生成方法 | |
CN109325229B (zh) | 一种利用语义信息计算文本相似度的方法 | |
CN108475262A (zh) | 用于文本处理的电子设备和方法 | |
CN108733647B (zh) | 一种基于高斯分布的词向量生成方法 | |
CN114757182A (zh) | 一种改进训练方式的bert短文本情感分析方法 | |
CN112287695A (zh) | 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法 | |
CN109992775A (zh) | 一种基于高级语义的文本摘要生成方法 | |
Dahou et al. | Multi-channel embedding convolutional neural network model for arabic sentiment classification | |
CN114880461A (zh) | 一种结合对比学习和预训练技术的中文新闻文本摘要方法 | |
CN110705247A (zh) | 基于χ2-C的文本相似度计算方法 | |
Xafopoulos et al. | Language identification in web documents using discrete HMMs | |
CN111368542A (zh) | 一种基于递归神经网络的文本语言关联抽取方法和系统 | |
Ye et al. | Improving cross-domain Chinese word segmentation with word embeddings | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
CN115168580A (zh) | 一种基于关键词提取与注意力机制的文本分类方法 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN113886562A (zh) | 一种ai简历筛选方法、系统、设备和存储介质 | |
CN109543036A (zh) | 基于语义相似度的文本聚类方法 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210706 |
|
RJ01 | Rejection of invention patent application after publication |