CN114579739B - 文本数据流的话题检测与追踪方法 - Google Patents

文本数据流的话题检测与追踪方法 Download PDF

Info

Publication number
CN114579739B
CN114579739B CN202210033912.3A CN202210033912A CN114579739B CN 114579739 B CN114579739 B CN 114579739B CN 202210033912 A CN202210033912 A CN 202210033912A CN 114579739 B CN114579739 B CN 114579739B
Authority
CN
China
Prior art keywords
text
cluster
clustering
topic
data stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210033912.3A
Other languages
English (en)
Other versions
CN114579739A (zh
Inventor
李崭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 10 Research Institute
Original Assignee
CETC 10 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 10 Research Institute filed Critical CETC 10 Research Institute
Priority to CN202210033912.3A priority Critical patent/CN114579739B/zh
Publication of CN114579739A publication Critical patent/CN114579739A/zh
Application granted granted Critical
Publication of CN114579739B publication Critical patent/CN114579739B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开的一种文本数据流的话题检测与追踪方法,属于自然语言处理技术领域。本发明通过以下技术方案实现:首先,将文本特征学习分为语义特征学习与时间特征学习,采用语义特征以及时序特征两种特征对文本的特征进行学习表达,将文本转化为向量特征;其次,采用标准化时间区间对文本数据流进行数据切分和时序建模,采用滑动窗口对文本数据流进行分批以及标签采样,将每个批次的数据输入到半监督文本聚类模块;然后半监督文本聚类模块根据文本的向量特征以及文本的标签,实现对文本数据集合的聚合、划分、标签传递,得到文本聚类结果;最后,通过对每个批次的文本聚类结果进行汇总,生成最终的话题检测与追踪结果。本发明简单易行,聚合性好。

Description

文本数据流的话题检测与追踪方法
技术领域
本发明属于自然语言处理技术领域,涉及一种信息处理技术,基于半监督文本聚类的话题检测与追踪方法TDT(Topic Detection and Tracking),,尤其是对文本数据流进行话题检测与追踪处理方法。
背景技术
话题检测与跟踪是一项面向新闻媒体信息流进行未知话题识别和已知话题跟踪的信息处理技术。该领域进行的多次大规模评测为信息识别、采集和组织等相关技术提供了新的测试平台。由于话题检测与跟踪相对于信息检索、信息挖掘和信息抽取等自然语言处理技术具备很多共性,并面向具备突发性和延续性规律的新闻语料,因此逐渐成为当前信息处理领域的研究热点。话题识别与跟踪以大规模新闻流为研究对象,通过监控新闻报道描述的话题,发现新的用户感兴趣的信息并将涉及某个话题的新闻报道组织起来以某种方式呈现给用户。话题识别与跟踪(TDT)旨在发展一系列基于事件的信息组织技术。TDT话题检测与跟踪起源于早期面向事件的检测与跟踪(Event Detection and Tracking,EDT)是近年提出的一项信息处理技术,这项技术旨在帮助人们应对日益严重的互联网信息爆炸问题,对新闻媒体信息流进行新话题的自动识别和已知话题的持续跟踪。与EDT不同,TDT检测与跟踪的对象从特定时间和地点发生的事件扩展为具备更多相关性外延的话题,相应的理论与应用研究也同时从传统对于事件的识别跨越到包含突发事件及其后续相关报道的话题检测与跟踪。由于网络信息数量庞大,形式多样、传播迅速,互联网新闻报道冗余多、议题发散、易漂移,与一个话题相关的信息往往孤立地分散在很多不同的地方并且出现在不同的时间,仅仅通过这些孤立的信息,人们对某些事件难以做到全面的把握。通过话题检测与追踪可以实现新话题的自动识别和已知话题的持续跟踪,提高信息获取的价值。话题检测与追踪主要研究方向是通过对文本数据流的文本数据进行识别,对数据的边界进行划分,从而实现突发性话题的发现检测、话题的发展跟踪以及话题发展变化的探测。其中核心的研究任务包括三个部分:话题的关联性分析、话题检测以及话题追踪。
话题的关联性分析的主要任务是判断两篇文章属于同一话题,在这个方向的研究上主流采用两种思路:文本特征化方式与文本判决方式。文本特征化方式是对文章进行特征化,把文本数据流信息特征成VSM向量模型,通过向量间的相似计算,获得文本间的相似度信息。其特征化的方式主要包括:one-hot模型,LDA模型,TF-IDF模型、PCA模型、基于编码器原理的神经网络模型。现主流方式一般采用神经网络模型,通过构建上下文学习任务,对网络特征层进行学习,在通过正向传播,得到文本的特征向量。文本判决方式一般采用mention-pair的思路,即主要目标是判决两篇文章是否属于同一个话题或属于同一个话题的概率是多少,其判决的主流方式包括:基于神经网络的分类模型、回归模型、概率图模型。
话题检测的主要任务是在数据中进行数据集合的划分。从而实现话题的检测。现在此方向研究的主流技术基本都是采用聚类算法进行研究,大体包括:LDA以及其各种变种聚类算法,流聚类算法(包括DBSCAN、BIRCH、SINGLE-PASS等)、图聚类算法(包括:LCA)、最大期望聚类算法、K均值聚类算法等。通过聚类算法,在数据流中划分出不同集合,实现对数据的聚合划分,达到话题检测的效果。
话题追踪的主要任务是判断一遍文本是否属于某一个话题,在这个方向的研究主流采用三类思路:文本二分类技术,文本的多分类技术以及模式匹配技术。文本二分类技术与文本多分类技术采用的都为分类模型,二分类的任务构建主要是判断一篇文本是否属于某一个话题,多分类的任务构建主要是判断文本属于哪一个现有话题,采用的模型包括:支持向量机、决策树、感知机、深度学习相关模型等。模式匹配技术则主要是通过信息流的融合,对新产生的数据与已经产生的话题进行匹配融合,从而实现话题的追踪能力。现有技术中,在语料的采集和话题识别方面,主要使用爬虫技术从网页上爬取所需网页,然后对网页内容进行加工清洗得到可以分析的文本语料库。
传统题检测与跟踪主要通过文档的层次聚类或者关键词关于文档的分布信息的聚类实现。但这些方法存在无法处理在线文档流、存储开销大、计算复杂度高的缺陷。当前如何从海量新闻大数据流中高效动态发现新生成的热点话题,追踪特定突发话题的发展态势,形成便于读者阅读的能够反映话题发展脉络的全貌信息,成为待解决的重要研究任务。面对传统信息处理方式,如人工整编,数据检索等,无法有效形成话题脉络的困境,目前基于聚类分析的方法可以自主的划分数据,形成话题脉络。但是聚类方式通常只考虑了话题的检测,无法学习已有话题标签的文本数据,也无法实现话题追踪的任务。同时聚类方式大多采用全量学习的方式,这导致模型更新速度较慢,使得学习以及预测过程十分缓慢。增量式聚类初始时话题模型不够充分和准确,随处理报道数量增加,误检与漏检的累积效应被放大。因此,急需研究一种可以对话题检测与话题追踪进行联合分析预测,并且可以实现增量学习的话题检测与追踪算法。
发明内容
为了解决话题检测与话题追踪进行联合分析预测以及增量学习的问题,本发明提供一种简单易行,聚合性有更好的效果,计算结果更快并能大大改进报道关系识别的性能基于半监督文本聚类的话题检测与追踪方法。
为了实现上述目的,本发明提供的一种文本数据流的话题检测与追踪方法,其包括如下步骤:首先,对文本数据流中的文本数据进行特征学习,将文本特征学习分为语义特征学习与时间特征学习,采用语义特征以及时序特征两种特征对文本的特征进行学习表达,将文本转化为向量特征,采用将Skip-Ngram模型作为文本语义学习以及表达的文本语义特征模型,Skip-Ngram模型通过对输入词汇的上下文词汇进行预测,预测给定中心词的上下文词,实现语义信息的学习,采用三角核函数进行特征表达,实现时间特征学习,最后将时间特征与语义特征进行拼接,得到文本特征实现文本特征学习;其次,采用标准化时间区间对文本数据流进行数据切分,通过输入的源数据流分割成各个独立的时间序列,把对数据全量学习与预测拆分成增量学习与预测的形式,进行时序建模,构建时间滑动窗口,采用时间滑动窗口对文本数据流进行分批以及标签采样,给定一个滑动窗口的大小,采样滑动窗口已有话题标签的文本数据,并加载滑动窗口内所有没有话题标签的文本数据,在不同时间点统计的数量特征,计算滑窗内的文本数据流的文本语义特征、文本时间特征,采样加载文本话题标签,将每个批次的数据输入到半监督文本聚类模块;半监督文本聚类模块根据文本的向量特征以及文本的标签数据,基于半监督文本聚类流程对文本数据集合进行的聚合、划分、标签传递,得到文本聚类结果;最后,通过对每个批次的文本聚类结果进行汇总,生成最终的话题检测与追踪结果。
本发明与现有技术相比具有如下有益效果:
本发明将文本特征学习分为语义特征学习与时间特征学习,在特征表达上,采用了语义特征的学习表达与时序特征学习表达相结合的方式,简单易行。采用Skip-Ngram模型作为文本语义学习以及表达模型,Skip-Ngram模型通过对输入词汇的上下文词汇进行预测,实现语义信息的学习,不断提高语义特征表达能力,从而提高了文本的语义特征关联。采用三角核函数进行特征表达,实现时间特征学习;使话题在时序上的聚合性以及语义上的聚合性有更好的效果。
本发明采用标准化时间区间对文本数据流进行数据切分,把输入的源数据流分割成各个独立的时间序列,对数据全量学习与预测拆分成增量学习与预测的形式,进行时序建模,构建滑动窗口对文本数据流进行分批以及标签采样,给定一个滑动窗口的大小,采样滑动窗口已有话题标签的文本数据,并加载滑动窗口内所有没有话题标签的文本数据输入到半监督文本聚类模块。这种通过时序建模的方式把对数据全量学习与预测拆分成增量学习与预测的形式,使得计算的结果更快。计算效率就大幅度提高。
本发明根据文本的向量特征以及文本的标签数据,对文本数据集合的聚合、划分、标签传递,得到文本聚类结果;最后,通过对每个批次的文本聚类结果进行汇总,生成最终的话题检测与追踪结果。这种采用半监督文本聚类的方式,使得文本话题检测聚合时,通过标签传播同时实现了文本历史话题的追踪,实现这两个任务可以联合分析以及预测,大大改进话题检测与追踪的性能。
本发明主演针对文本数据流,自动发现检测其中的热点话题,首先,对文本数据流中的文本数据进行特征学习,采用语义特征以及时序特征两种特征对文本的特征进行学习表达,将文本转化为向量特征;其次,进行时序建模,采用滑动窗口对文本数据流进行分批以及标签采样,将每个批次的数据输入到半监督文本聚类模块;然后,半监督文本聚类模块根据文本的向量特征以及文本的标签,实现对文本数据集合的聚合、划分、标签传递,得到文本聚类结果;最后,通过对每个批次的文本聚类结果进行汇总,生成最终的话题检测与追踪结果。同时对已有的话题情况持续的跟踪。这种采用半监督文本聚类的方式,使得文本话题检测聚合时,通过标签传播同时实现了文本历史话题的追踪,实现这两个任务可以联合分析以及预测,进一步提高了综合性能。
附图说明
为了更清楚地理解本发明,将通过具体实施方案,同时参照附图来描述本发明,其中:
图1本发明文本数据流的话题检测与追踪流程示意图;
图2是语义学习模型Skip-Ngram模型示意图;
图3是本发明半监督文本聚类流程示意图。
具体实施方式
参阅图1。根据本发明,首先,对文本数据流中的文本数据进行特征学习,将文本特征学习分为语义特征学习与时间特征学习,采用语义特征以及时序特征两种特征对文本的特征进行学习表达,将文本转化为向量特征,采用将Skip-Ngram模型作为文本语义学习以及表达的文本语义特征模型,Skip-Ngram模型通过对输入词汇的上下文词汇进行预测,预测给定中心词的上下文词,实现语义信息的学习,采用三角核函数进行特征表达,实现时间特征学习,最后将时间特征与语义特征进行拼接,得到文本特征实现文本特征学习;其次,采用标准化时间区间对文本数据流进行数据切分,通过输入的源数据流分割成各个独立的时间序列,把对数据全量学习与预测拆分成增量学习与预测的形式,进行时序建模,构建时间滑动窗口,采用时间滑动窗口对文本数据流进行分批以及标签采样,给定一个滑动窗口的大小,采样滑动窗口已有话题标签的文本数据,并加载滑动窗口内所有没有话题标签的文本数据,在不同时间点统计的数量特征,计算滑窗内的文本数据流的文本语义特征、文本时间特征,采样加载文本话题标签,将每个批次的数据输入到半监督文本聚类模块;半监督文本聚类模块根据文本的向量特征以及文本的标签数据,基于半监督文本聚类流程对文本数据集合进行的聚合、划分、标签传递,得到文本聚类结果;最后,通过对每个批次的文本聚类结果进行汇总,生成最终的话题检测与追踪结果。
在数据流切分中,设定文本数据流的单位时间为tunit,根据单位时间tunit把文本数据流切分为N个子数据段,则数据流在时间序列上N的一个时间序列Ts=(Ct1,Ct2,…Ct N)1*N,将时间滑窗的长度Tspan构建为Tspan=Cspan*tunit,且Tstep<Tspan,以滑动步长为Tstep=Cstep*tunit,构建时间滑窗,通过时间滑窗滑动加载新的数据进行半监督文本聚类计算,对时间滑窗滑动后计算得到的话题检测与追踪结果与历史结果进行合并,不断对时间滑窗进行滑动,直到时间滑窗滑至时间最新位置,完成话题检测与追踪的全部计算,其中,Ct N为切分的子数据段第N段文本数据集合。根据Tstep<Tspan可知滑窗在每次滑动后都会与前次窗口有重叠部分的情况,其长度为Tspan-Tstep,在重叠部分中部分数据在上次窗口中的计算中已经生成了话题标签,在每次滑窗内话题聚合学习上次滑窗内产生话题标签Ltopictag=Ctopictag*Rtopicsample,其中,Ctopictag为产生话题的文本标签,Rtopicsample为话题标签采样率。
文本的语义特征模型采用Skip-Ngram模型,Skip-Ngram模型首先对文本进行分词处理,对分词结果进行one-hot编码,得到维度为1*V词汇的one-hot特征向量xk和矩阵维度为V*N的编码矩阵Wl,其次,采用随机初始化所述矩阵中的初始化参数,得到初始化编码矩阵
Figure GDA0004092327020000061
通过输入词汇对其上下文词汇进行预测的学习任务,实现文本语义特征学习。
Skip-Ngram模型通过计算公式:
Figure GDA0004092327020000062
得到one-hot特征向量xk的特征向量hk,通过编码矩阵/>
Figure GDA0004092327020000063
进行特征降维的向量,矩阵中参数初始化采用随机初始化,得到矩阵维度为1*N的初始化解码矩阵/>
Figure GDA0004092327020000064
通过计算公式:/>
Figure GDA0004092327020000065
得到词汇的解码one-hot特征向量/>
Figure GDA0004092327020000066
并采用函数softmax将输出的特征向量/>
Figure GDA0004092327020000067
进行归一化处理,得到概率分布特征向量/>
Figure GDA0004092327020000068
对/>
Figure GDA0004092327020000069
与词汇j的one-hot特征向量采用交叉熵进行误差衡量,通过最小化交叉熵对词汇的上下文学习,实现文本的语义学习,其中,k表示输入词汇的索引,j表示需要预测的上下文词汇的索引。
Skip-Ngram模型采用一个词汇,对其上下文总共C个词汇进行预测学习,其损失函数为:
Figure GDA0004092327020000071
然后通过最小化损失函数与BP算法,对Skip-Ngram模型的编码矩阵与解码矩阵的参数进行更新,完成模型训练,得到文本语义模型,其中,完成语义模型训练后,对文本的语义特征进行表达,通过时间特征表达得到文本时间特征Vtimeemb,将文本语义特征与时间特征进行拼接,得到文本特征学习表达结果,然后对文本进行分词处理以及停用词过滤处理,再对得到的文本词汇集合进行频率统计,得到Nword个词汇,通过文本语义特征学习得到文本语义特征vtext,采用如下计算公式计算出文本特征向量vtext
Figure GDA0004092327020000072
其中,xj为词汇j的one-hot特征向量,C表示词汇k的上下文词汇,vi为文本中的第i个特征词汇的特征向量,fi为特征词汇的出现频率。
参阅图3。在半监督文本聚类流程中,半监督文本聚类模块设参与话题聚合的文本数量为i,每篇文章的特征向量
Figure GDA0004092327020000073
标签为/>
Figure GDA0004092327020000074
其中大部分文章没有标签,对相同标签的文本聚合成一个聚类点,对其它文本每篇单独形成一个聚类点,对聚类点初始化,形成一个簇中聚类点数量为Cclusterinit的聚类簇,完成聚类初始化。
半监督文本聚类模块根据当前聚类簇聚类中心选举及聚类点分布情况,对聚类簇进行中心点推举,推举方式采用聚类点价值评估算法,计算出局部密度pi:
Figure GDA0004092327020000075
将类簇中推举出的Ndis个中心点作为新的聚类中心点,以聚类点局部密度pi>Piscoremin为条件推选候选中心点,首先推选候选中心点,计算出聚类点间的距离dis:/>
Figure GDA0004092327020000076
其次,根据推选出的K个中心点,计算每个中心点的误差评估价值:
Figure GDA0004092327020000077
通过误差评估价值,得到Ndis个聚类中心点,完成中心点推举,其中,Ndis为裂变的数量,Piscoremin为局部密度的最小阈值,e表示自然常数,distmin为局部密度计算的最小距离,dista,i为聚类点a至聚类点i的距离。
半监督文本聚类模块误差评估后,通过Ndis个聚类中心点,进行类簇划分,计算聚类点间的相似度Sim:
Figure GDA0004092327020000081
非聚类中心点选择相似度最高的聚类中心点加入,形成类簇,类簇形成后,更新类簇中心,对非聚类中心点重新计算类簇划分,采用如下聚类中心更新计算公式迭计算聚类中心点vcenter:/>
Figure GDA0004092327020000082
直到所有的非聚类中心点不再更新其所属类簇,完成类簇划分,形成新的Ndis个聚类簇,其中,cctuster为当前类簇中所有聚类点,Veci为当前类簇中第i个聚类点的特征向量,veca、vecb分别表示文本a与文本b特征向量。
半监督文本聚类模块采用如下所示计算公式计算聚类误差Errcenter
Figure GDA0004092327020000083
计算出类簇划分对类簇带来的误差增益gerr
Figure GDA0004092327020000084
后判断信息增益是否大于设定的聚类增益最小阈值gerrmin,当聚类增益gerr<gerrmin,终止当前的当前类簇划分,并进行标签传播;当聚类增益gerr>gerrmin对当前类簇进行划分,得到子类簇,同时对划分生成每个新生成的类簇进行聚类划分,直至所有类簇聚类增益gerr<gerrmin,完成所有类簇的聚类划分,其中,/>
Figure GDA0004092327020000085
为划分前聚类簇的聚类簇误差,/>
Figure GDA0004092327020000086
为新划分的Ndis类簇的聚类误差和,ccluster为当前类簇中所有聚类点,vcenter为当前类簇的中心聚类点,veci为当前类簇中聚类点的特征向量。
半监督文本聚类模块在类簇中进行话题标签传播,设类簇中包含Ttopic个话题标签,若Ttopic=0,则类簇为新生成话题;若Ttopic=1,则类簇中所有聚类点为追加至该话题新文本数据;若Ttopic≥2,则在类簇中计算所有无标签聚类点与有标签聚类点的相似度,把无标签聚类点加入有标签聚类点,形成Ttopic个新类簇,完成话题标签传播。
本发明上述实施例的附图中相同或相似的标号对应相同或相似的部件;对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种文本数据流的话题检测与追踪方法,其包括如下步骤:首先,对文本数据流中的文本数据进行特征学习,将文本特征学习分为语义特征学习与时间特征学习,采用语义特征以及时序特征两种特征对文本的特征进行学习表达,将文本转化为向量特征,将Skip-Ngram模型作为文本语义学习以及表达的文本语义特征模型,Skip-Ngram模型对输入词汇的上下文词汇进行预测,预测给定中心词的上下文词,实现语义信息的学习,采用三角核函数进行特征表达,实现时间特征学习,将时间特征与语义特征进行拼接,得到文本特征实现文本特征学习;其次,采用标准化时间区间对文本数据流进行数据切分,通过输入的源数据流分割成各个独立的时间序列,把对数据全量学习与预测拆分成增量学习与预测的形式,进行时序建模,构建时间滑动窗口,采用时间滑动窗口对文本数据流进行分批以及标签采样,给定一个滑动窗口的大小,采样滑动窗口已有话题标签的文本数据,并加载滑动窗口内所有没有话题标签的文本数据,在不同时间点统计的数量特征,计算滑窗内的文本数据流的文本语义特征、文本时间特征,采样加载文本话题标签,将每个批次的数据输入到半监督文本聚类模块;半监督文本聚类模块根据文本的向量特征以及文本的标签数据,基于半监督文本聚类流程对文本数据集合进行聚合、划分、标签传递,得到文本聚类结果;最后,通过对每个批次的文本聚类结果进行汇总,生成最终的话题检测与追踪结果。
2.根据权利要求1所述的文本数据流的话题检测与追踪方法,其特征在于:在数据流切分中,设定文本数据流的单位时间为tunit,根据单位时间tunit把文本数据流切分为N个子数据段,则数据流在时间序列上N的一个时间序列Ts=(Ct1,Ct2,…CtN)1*N,将时间滑窗的长度Tspan构建为Tspan=Cspan*tunit,且Tstep<Tspan,以滑动步长为Tstep=Cstep*tunit,构建时间滑窗,通过时间滑窗滑动加载新的数据进行半监督文本聚类计算,对时间滑窗滑动后计算得到的话题检测与追踪结果与历史结果进行合并,不断对时间滑窗进行滑动,直到时间滑窗滑至时间最新位置,完成话题检测与追踪的全部计算,其中,CtN为切分的子数据段第N段文本数据集合。
3.根据权利要求2所述的文本数据流的话题检测与追踪方法,其特征在于:根据Tstep<Tspan可知滑窗在每次滑动后都会与前次窗口有重叠部分的情况,其长度为Tspan-Tstep,在重叠部分中部分数据在上次窗口中的计算中已经生成了话题标签,在每次滑窗内话题聚合学习上次滑窗内产生话题标签Ltopictag=Ctopictag*Rtopicsample,其中,Ctopictag为产生话题的文本标签,Rtopicsample为话题标签采样率。
4.根据权利要求1所述的文本数据流的话题检测与追踪方法,其特征在于:文本的语义特征模型采用Skip-Ngram模型,Skip-Ngram模型首先对文本进行分词处理,对分词结果进行one-hot编码,得到维度为1*V词汇的one-hot特征向量xk和矩阵维度为V*N的编码矩阵Wl,其次,采用随机初始化所述矩阵中的初始化参数,得到初始化编码矩阵
Figure FDA0004092327010000021
通过输入词汇对其上下文词汇进行预测的学习任务,实现文本语义特征学习。
5.根据权利要求1所述的文本数据流的话题检测与追踪方法,其特征在于:Skip-Ngram模型通过计算公式:
Figure FDA0004092327010000022
得到one-hot特征向量xk的特征向量hk,通过编码矩阵
Figure FDA0004092327010000023
进行特征降维的向量,矩阵中参数初始化采用随机初始化,得到矩阵维度为1*N的初始化解码矩阵/>
Figure FDA0004092327010000024
通过计算公式:/>
Figure FDA0004092327010000025
得到词汇的解码one-hot特征向量/>
Figure FDA0004092327010000026
并采用函数softmax将输出的特征向量/>
Figure FDA0004092327010000027
进行归一化处理,得到概率分布特征向量/>
Figure FDA0004092327010000028
对/>
Figure FDA0004092327010000029
与词汇j的one-hot特征向量采用交叉熵进行误差衡量,通过最小化交叉熵对词汇的上下文学习,实现文本的语义学习,其中,k表示输入词汇的索引,j表示需要预测的上下文词汇的索引。
6.根据权利要求1所述的文本数据流的话题检测与追踪方法,其特征在于:Skip-Ngram模型采用一个词汇,对其上下文总共C个词汇进行预测学习,其损失函数为:
Figure FDA00040923270100000210
然后通过最小化损失函数与BP算法,对Skip-Ngram模型的编码矩阵与解码矩阵的参数进行更新,完成模型训练,得到文本语义模型,其中,完成语义模型训练后,对文本的语义特征进行表达,通过时间特征表达得到文本时间特征Vtimeemb,将文本语义特征与时间特征进行拼接,得到文本特征学习表达结果,然后对文本进行分词处理以及停用词过滤处理,再对得到的文本词汇集合进行频率统计,得到Nword个词汇,通过文本语义特征学习得到文本语义特征vtext,采用如下计算公式计算出文本特征向量vtext
Figure FDA0004092327010000031
其中,xj为词汇j的one-hot特征向量,C表示词汇k的上下文词汇,vi为文本中的第i个特征词汇的特征向量,fi为特征词汇的出现频率。
7.根据权利要求1所述的文本数据流的话题检测与追踪方法,其特征在于:在半监督文本聚类流程中,半监督文本聚类模块设参与话题聚合的文本数量为i,每篇文章的特征向量
Figure FDA0004092327010000032
标签为/>
Figure FDA0004092327010000033
其中大部分文章没有标签,对相同标签的文本聚合成一个聚类点,对其它文本每篇单独形成一个聚类点,对聚类点初始化,形成一个簇中聚类点数量为Cclusterinit的聚类簇,完成聚类初始化;半监督文本聚类模块根据当前聚类簇聚类中心选举及聚类点分布情况,对聚类簇进行中心点推举,推举方式采用聚类点价值评估算法,计算出局部密度pi:/>
Figure FDA0004092327010000034
将类簇中推举出的Ndis个中心点作为新的聚类中心点,以聚类点局部密度pi>Piscoremin为条件推选候选中心点,首先推选候选中心点,计算出聚类点间的距离dis:/>
Figure FDA0004092327010000035
其次,根据推选出的K个中心点,计算每个中心点的误差评估价值:/>
Figure FDA0004092327010000036
Figure FDA0004092327010000037
通过误差评估价值,得到Ndis个聚类中心点,完成中心点推举,其中,Ndis为裂变的数量,Piscoremin为局部密度的最小阈值,e表示自然常数,distmin为局部密度计算的最小距离,dista,i为聚类点a至聚类点i的距离。
8.根据权利要求1所述的文本数据流的话题检测与追踪方法,其特征在于:半监督文本聚类模块误差评估后,通过Ndis个聚类中心点,进行类簇划分,计算聚类点间的相似度Sim:
Figure FDA0004092327010000038
非聚类中心点选择相似度最高的聚类中心点加入,形成类簇,类簇形成后,更新类簇中心,对非聚类中心点重新计算类簇划分,采用如下聚类中心更新计算公式迭计算聚类中心点vcenter:/>
Figure FDA0004092327010000041
直到所有的非聚类中心点不再更新其所属类簇,完成类簇划分,形成新的Ndis个聚类簇,其中,cctuster为当前类簇中所有聚类点,Veci为当前类簇中第i个聚类点的特征向量,veca、vecb分别表示文本a与文本b特征向量。
9.根据权利要求1所述的文本数据流的话题检测与追踪方法,其特征在于:半监督文本聚类模块采用如下所示计算公式计算聚类误差Errcenter
Figure FDA0004092327010000042
计算出类簇划分对类簇带来的误差增益gerr:/>
Figure FDA0004092327010000043
后判断信息增益是否大于设定的聚类增益最小阈值gerrmin,当聚类增益gerr<gerrmin,终止当前的当前类簇划分,并进行标签传播;当聚类增益gerr>gerrmin对当前类簇进行划分,得到子类簇,同时对划分生成每个新生成的类簇进行聚类划分,直至所有类簇聚类增益gerr<gerrmin,完成所有类簇的聚类划分,其中,/>
Figure FDA0004092327010000044
为划分前聚类簇的聚类簇误差,/>
Figure FDA0004092327010000045
为新划分的Ndis类簇的聚类误差和,ccluster为当前类簇中所有聚类点,vcenter为当前类簇的中心聚类点,veci为当前类簇中聚类点的特征向量。
10.根据权利要求1所述的文本数据流的话题检测与追踪方法,其特征在于:半监督文本聚类模块在类簇中进行话题标签传播,设类簇中包含Ttopic个话题标签,若Ttopic=0,则类簇为新生成话题;若Ttopic=1,则类簇中所有聚类点为追加至该话题新文本数据;若Ttopic≥2,则在类簇中计算所有无标签聚类点与有标签聚类点的相似度,把无标签聚类点加入有标签聚类点,形成Ttopic个新类簇,完成话题标签传播。
CN202210033912.3A 2022-01-12 2022-01-12 文本数据流的话题检测与追踪方法 Active CN114579739B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210033912.3A CN114579739B (zh) 2022-01-12 2022-01-12 文本数据流的话题检测与追踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210033912.3A CN114579739B (zh) 2022-01-12 2022-01-12 文本数据流的话题检测与追踪方法

Publications (2)

Publication Number Publication Date
CN114579739A CN114579739A (zh) 2022-06-03
CN114579739B true CN114579739B (zh) 2023-05-30

Family

ID=81769750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210033912.3A Active CN114579739B (zh) 2022-01-12 2022-01-12 文本数据流的话题检测与追踪方法

Country Status (1)

Country Link
CN (1) CN114579739B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116049414B (zh) * 2023-04-03 2023-06-06 北京中科闻歌科技股份有限公司 基于话题描述的文本聚类方法、电子设备和存储介质
CN116361470B (zh) * 2023-04-03 2024-05-14 北京中科闻歌科技股份有限公司 一种基于话题描述的文本聚类清洗和合并方法
CN116777295B (zh) * 2023-07-04 2024-06-14 上海智覓医药科技有限公司 一种基于数据智能的医药追溯系统及其方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731811A (zh) * 2013-12-20 2015-06-24 北京师范大学珠海分校 一种面向大规模动态短文本的聚类信息演化分析方法
CN106886561A (zh) * 2016-12-29 2017-06-23 中国科学院自动化研究所 基于时间关联交互融合的网络社区帖子影响排序方法
CN109325117A (zh) * 2018-08-24 2019-02-12 北京信息科技大学 一种多特征融合的微博中社会安全事件检测方法
CN109710728A (zh) * 2018-11-26 2019-05-03 西南电子技术研究所(中国电子科技集团公司第十研究所) 新闻话题自动发现方法
CN110096485A (zh) * 2019-03-18 2019-08-06 平安普惠企业管理有限公司 日志查询方法、装置、计算机设备及存储介质
CN113761200A (zh) * 2021-08-19 2021-12-07 淮阴工学院 一种基于文本分析算法的高校舆情数据分析系统构建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150356571A1 (en) * 2014-06-05 2015-12-10 Adobe Systems Incorporated Trending Topics Tracking

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731811A (zh) * 2013-12-20 2015-06-24 北京师范大学珠海分校 一种面向大规模动态短文本的聚类信息演化分析方法
CN106886561A (zh) * 2016-12-29 2017-06-23 中国科学院自动化研究所 基于时间关联交互融合的网络社区帖子影响排序方法
CN109325117A (zh) * 2018-08-24 2019-02-12 北京信息科技大学 一种多特征融合的微博中社会安全事件检测方法
CN109710728A (zh) * 2018-11-26 2019-05-03 西南电子技术研究所(中国电子科技集团公司第十研究所) 新闻话题自动发现方法
CN110096485A (zh) * 2019-03-18 2019-08-06 平安普惠企业管理有限公司 日志查询方法、装置、计算机设备及存储介质
CN113761200A (zh) * 2021-08-19 2021-12-07 淮阴工学院 一种基于文本分析算法的高校舆情数据分析系统构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Luigi Di Caro等.Emerging topic detection on Twitter based on temporal and social terms evaluation .《proceedings of the Tenth international workshop on multimedia data mining》.2010,1-10页. *
郭顺利.社会化问答社区用户生成答案知识聚合及服务研究.《中国博士学位论文全文数据库 信息科技辑》.2018,I143-7. *

Also Published As

Publication number Publication date
CN114579739A (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN110134757B (zh) 一种基于多头注意力机制的事件论元角色抽取方法
CN114579739B (zh) 文本数据流的话题检测与追踪方法
CN110413780B (zh) 文本情感分析方法和电子设备
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN112528658B (zh) 层次化分类方法、装置、电子设备和存储介质
CN113806482A (zh) 视频文本跨模态检索方法、装置、存储介质和设备
CN113780003A (zh) 时空数据变分编解码跨模态增强方法
CN116955699B (zh) 一种视频跨模态搜索模型训练方法、搜索方法及装置
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN115587207A (zh) 一种基于分类标签的深度哈希检索方法
CN114722835A (zh) 基于lda和bert融合改进模型的文本情感识别方法
TW202111569A (zh) 高擴展性、多標籤的文本分類方法和裝置
CN116958677A (zh) 一种基于多模态大数据的互联网短视频分类方法
CN116304020A (zh) 一种基于义原分析和跨度特征的工业文本实体抽取方法
CN111651597A (zh) 一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法
CN112181814B (zh) 一种针对于缺陷报告的多标签标记方法
CN112347247A (zh) 基于LDA和Bert的特定类别文本标题二分类方法
CN115599910A (zh) 一种企业三级行业多标签分类方法
CN114842301A (zh) 一种图像注释模型的半监督训练方法
CN110968795B (zh) 一种公司形象提升系统的数据关联匹配系统
CN114254622A (zh) 一种意图识别方法和装置
CN113988194A (zh) 多标签文本分类方法以及系统
CN114036946B (zh) 一种文本特征提取及辅助检索的系统及方法
Ding et al. Social Media-Based Traffic Situational Awareness under Extreme Weather

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant