CN114691993A

CN114691993A - 基于时间序列的动态自适应话题跟踪方法、系统及装置

Info

Publication number: CN114691993A
Application number: CN202210339805.3A
Authority: CN
Inventors: 季航; 赵加坤
Original assignee: Jiangsu Zhixin Credit Evaluation Consulting Co ltd
Current assignee: Jiangsu Zhixin Credit Evaluation Consulting Co ltd
Priority date: 2022-04-01
Filing date: 2022-04-01
Publication date: 2022-07-01

Abstract

本发明公开了一种基于时间序列的动态自适应话题跟踪方法、系统及装置，包括：对初始时刻的新闻文本进行话题检测，构建话题模型；对当前时刻输入的新闻文本进行文本预处理，构建文本的特征向量；对初始时刻到当前时刻所有的新闻文本进行划分，获取当前时刻新闻文本的相关阈值和更新阈值；计算话题模型的特征向量与输入文本特征向量的文本相似度，并与当前时刻新闻文本的相关阈值和更新阈值进行比较，判断话题模型是否进行更新；基于时序权重的自适应话题更新法对话题模型进行更新，并基于可视化工具，实时反馈话题更新结果。本发明引入更新阈值和相关阈值对话题进行聚类和话题中心更新，结合时序权重对话题模型文本赋予不同的权值，实现话题追踪。

Description

基于时间序列的动态自适应话题跟踪方法、系统及装置

技术领域

本发明属于数据挖掘领域，涉及一种基于时间序列的动态自适应话题跟踪方法、系统及装置。

背景技术

随着互联网的飞速发展，数据量呈指数级增长。一方面，大数据的积累为人工智能提供了基础支撑。另一方面，面对如此庞大的数据信息，如何从中提取感兴趣的知识成为普遍关注的问题。在用户实际的获取文本信息的过程中，每一个不同的个体对于所倾向的话题具有选择性。在信息的不断更新迭代过程中，用户更希望能够快速及时的获取到自己所关注的领域的话题事件，并能够对所关注的具体事件有一个完整的持续性追踪。

话题追踪技术的具体原理为相关热点话题文本通过话题检测技术生成话题集，并对该话题集进行训练，得到一个已知话题模型。当后续文本输入时，先对新文本进行预处理，表征为一个未知模型，再依据其与话题集中话题的相似程度，如若相似程度大于预先设定的阈值，则将其归入某个话题之中。

在传统的话题追踪算法中仅设置一个相似度阈值，当输入文本与话题模型相似度高于该阈值时即将输入文本的特征归为相关文本，但这也会造成一些问题：

1.一些相关文本对于某一话题簇贡献程度并不高，将该类文本划入到话题簇中会导致原有话题簇质量以及话题追踪性能的下降。

2.当后续输入文本的不断加入，原有的话题中心会发生漂移，因此为了保证话题簇的质量，在后续的追踪过程中需要不断地对话题中心进行更新，但是当每一个进入的文本都进行话题更新会造成模型计算量的急剧上升。

发明内容

本发明的目的在于解决现有技术中的问题，提供一种基于时间序列的动态自适应话题跟踪方法、系统及装置，在话题追踪的计算文本相似度过程中引入更新阈值以及相关阈值用以对话题进行聚类以及话题中心的更新，同时结合时序权重对于话题模型文本赋予不同的权值，保障话题的持续更新，实现对于话题的有效追踪。

为达到上述目的，本发明采用以下技术方案予以实现：

基于时间序列的动态自适应话题跟踪方法，包括：

对初始时刻的新闻文本进行话题检测，构建话题模型；

对当前时刻输入的新闻文本进行文本预处理，构建文本的特征向量；

对初始时刻到当前时刻所有的新闻文本进行划分处理，获取当前时刻新闻文本的相关阈值和更新阈值；

对话题模型的特征向量与输入文本特征向量的文本相似度进行计算，并与当前时刻新闻文本的相关阈值和更新阈值进行比较，判断话题模型是否进行更新；

基于时序权重的自适应话题更新法对话题模型进行更新，并基于可视化工具，实时反馈话题更新结果。

本发明的进一步改进在于：

对当前时刻输入的新闻文本进行文本预处理，具体为：

将新闻文本内容中的句子、段落和文章分割为以词为单位的文本结构，并对分割的词进行筛选去除无意义的停顿词；

构建文本的特征向量，具体为：通过TF-IDF算法、LDA算法和Bert-BiLSTM-CRF模型获取文本的关键词特征、主题词特征和命名实体特征，分别计算特征相似度进行加权融合，获得文本的特征向量。

对初始时刻到当前时刻所有的新闻文本进行划分处理，获取当前时刻新闻文本的相关阈值和更新阈值，具体为：

将话题开始时刻到当前时刻的所有文本分成s个时间间隔，文本输入时刻t的相关阈值ε_t通过之前每个时间间隔内的话题模型与反馈文本平均相似度与时间衰减因子相乘求和所得；相关阈值ε_t与更新阈值δ_t的计算公式如公式(1)和公式(2)所示：

δ_t＝ε_t+C (2)

其中C表示话题的容忍度，代表了更新阈值δ_t与相关阈值ε_t之间的差值。

对话题模型的特征向量与输入文本特征向量的文本相似度进行计算，具体为：

输入文本特征向量X＝(x₁,x₂,…,x_n)，文本相似度为Sim；话题模型中包含若干个话题簇；针对话题模型中话题簇，首先计算输入文本特征向量与话题模型中的每一个话题簇中每个文本特征向量Y＝(y₁,y₂,…,y_n)之间的相似度并累计求和取平均数，文本特征向量之间相似度计算方法采取余弦相似度，即：

获得每个话题簇与输入文本之间的相似度；从所有话题簇与输入文本的相似度中选取最大值Sim_max，作为话题模型与输入文本之间的相似度Sim。

与当前时刻新闻文本的相关阈值和更新阈值进行比较，判断话题模型是否进行更新，具体为：若文本相似度Sim小于相关阈值ε_t，则输入报道与话题模型不相关，生成新的话题簇；若高于相关阈值ε_t但是低于更新阈值δ_t，则将其归入到相关话题模型中，但不对话题模型进行更新；若高于更新阈值δ_t，则将文本归入话题模型并对话题模型进行更新。

采用基于时序权重的自适应话题更新方法对话题模型进行更新，具体为：

(1)遍历新报道的文本特征k_p，并初始化时间跨度阈值α以及权重阈值β；定义初始话题模型为t_i；

(2)如果

直接将该特征加入话题模型中，根据权重值进行排序，去除排序后权重值最低的特征；特征k_p的开始时间T_b和最近发生时间T_e均设为输入文本所发布的时间，并继续更新下一个文本特征；

(3)如果k_p∈t_i，则将该文本特征的最近发生时间T_e更改为输入文本的发布时间；时间跨度值为ΔT＝T_e-T_b；将时间跨度值与时间跨度阈值α进行比较，如果ΔT小于阈值α，则将文本特征权值按照公式(6)进行更新；

如果ΔT小于阈值α，按照公式(4)提升该话题特征的权重；

其中μ是权重调节因子，通过调整μ值使得特征在文本中的权重始终在0到1之间；

将公式(4)规范化得到公式(5)

其中max(w(k))_i为在话题i中权重最大的文本特征权值；

(4)当输入文本的所有特征均处理完成之后，计算话题i剩余未被更新的文本特征的时间跨度；未处理特征k_r的时间跨度ΔT_r为新输入文本的发布时间与特征的话题开始时间的差值；如果时间跨度大于α时，将该特征利用时间衰减因子进行衰减，得到文本特征k_r更新后的权值：

其中，(w(k_r))_i为话题i的权值，λ为时间跨度的调整因子，λ≥0；

(5)将更新后的文本特征权值与β进行比较，将所有权值小于β的文本特征进行剔除，最终完成话题的动态更新。

基于可视化工具，实时反馈话题更新结果，具体为：基于vue的前端可视化技术，将更新数据结果进行展示。

基于时间序列的动态自适应话题跟踪系统，包括：

检测模块，所述检测模块用于对初始时刻的新闻文本进行话题检测，构建话题模型；

预处理模块，所述预处理模块用于对当前时刻输入的新闻文本进行文本预处理，构建文本的特征向量；

划分模块，所述划分模块用于对初始时刻到当前时刻所有的新闻文本进行划分处理，获取当前时刻新闻文本的相关阈值和更新阈值；

对比模块，所述对比模块用于对话题模型的特征向量与输入文本特征向量的文本相似度进行计算，并与当前时刻新闻文本的相关阈值和更新阈值进行比较，判断话题模型是否进行更新；

更新模型，所述更新模块基于时序权重的自适应话题更新法对话题模型进行更新，并基于可视化工具，实时反馈话题更新结果。

一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明通过设置相关阈值以及更新阈值来分别筛选与话题模型相关的文本输入以及更新话题模型的反馈文本输入，仅在超过更新阈值时对于阈值进行更新，避免阈值的反复更新造成阈值设置的不准确，同时在相关阈值以及更新阈值的计算过程中引入时间因子的计算，使得阈值更新随时间变化而变化，充分反映话题的时效性。在每一次新文本引入后都及时对文本进行更新，在更新话题模型的过程中，通过发布时间跨度与阈值关系，动态调整话题簇中各个话题特征的权重，增强话题模型的时效性，同时及时剔除因发表时间较为久远的话题特征。通过可视化技术对话题追踪的最终结果进行显示，使得用户获取话题更为高效。

附图说明

为了更清楚的说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的基于时间序列的动态自适应话题跟踪方法的原理图；

图2为命名实体特征提取流程图；

图3为待追踪文本多特征融合提取流程图；

图4为改进的话题跟踪算法流程图；

图5为基于时序权重的话题动态更新流程图；

图6为本发明的基于时间序列的动态自适应话题跟踪系统的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明实施例的描述中，需要说明的是，若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

此外，若出现术语“水平”，并不表示要求部件绝对水平，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。

在本发明实施例的描述中，还需要说明的是，除非另有明确的规定和限定，若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合附图对本发明做进一步详细描述：

参见图1，本发明公开了一种基于时间序列的动态自适应话题跟踪方法，包括：

S101，对初始时刻的新闻文本进行话题检测，构建话题模型。

根据用户所感兴趣的某一特定领域，通过BeautifulSoup、Selenium等爬虫技术搜索该领域的相关报道，将获得的HTML文件保留为文本信息以及发布时间，去除无关信息。对于初始文本进行文本预处理、文本表示、特征提取、计算文本相似度、文本聚类，实现对于话题的检测，获得初始的话题模型

S102，对当前时刻输入的新闻文本进行文本预处理，构建文本的特征向量。

对于当前时刻输入的报道，将新闻文本的关键词、主题词、实体特征、语义特征进行融合提取，充分利用文本表征信息，结合时间衰减因子提取文本特征。将新闻文本内容中的句子、段落和文章分割为以词为单位的文本结构，并对分割的词进行筛选去除无意义的停顿词。

通过TF-IDF算法、LDA算法和Bert-BiLSTM-CRF模型获取文本的关键词特征、主题词特征和命名实体特征，分别计算特征相似度进行加权融合，获得文本的特征向量。

关键词特征融合采用TF-IDF算法，在计算词语重要性的过程中，将词性因素加入其中作为考量的因素。在一个文本中，不同词性的词语往往对于文本的重要性不尽相同。通常一些专业性的名词、动词、动名词能更好的表达文章内容，量词、副词等其他词性的词则不太可能是关键词。若词T为动词、名词、动名词，设置词性因子为0.8，若词T为副词、形容词，设置词性因子为0.4，其他词性的词性因子设置为0.1。新闻类文本中标题通常更有可能概括文章的主题内容，因此在标题中出现关键词的可能性也更高一些。同样的，在文章的第一句以及最后一句也更有可能出现主题句以及概括性的句子。这几个位置的词语往往比文章其他位置的文字更为重要，应被赋予更高的权值。若词出现在标题中，位置因子设置为1；若词出现在首段或尾段中，位置因子为0.5；其他位置词性因子为0.1。将词性、词位置作为词重要性程度的衡量因素，根据此方法计算出文章关键词的权重，对权重值进行排序，选取出其中权重值最高的数个关键词作为最终的关键词特征，利用余弦相似度计算关键词相似度sim_ITF-IDF。

主题词词特征提取采用LDA主题模型算法，训练开始前设置主题个数K以及相关的超参数α和β，在工程上，alpha一般取50/K,beta一般取0.01,吉布斯抽样的迭代次数一般为1000次。两个先验参数α和β分别代表主题先验分布和文档词语的先验分布，通过α可以分别得到文档d的主题分布θ，再通过该主题的多项分布θ中生成文档中第i个词的主题分布z_i，通过β生成主题对应的词语分布

通过该词语分布得到最终的主题词语w，利用JS距离公式计算主题特征相似度sim_LDA。

命名实体特征通过ALBERT-BiLSTM-CRF模型进行提取，流程见附图2所示，将经过预处理的初始文本输入至轻量级的ALBERT模型中，ALBERT在模型内部将输入的文本进行训练，生成包含一定语义信息的词嵌入向量。将经过ALBERT预训练生成的词嵌入向量输入进BiLSTM，作为初始输入。通过前向以及后向LSTM获取历史信息和将来信息，组合这两个信息得到在t时刻的输出上下文特征信息。同时还可以将高维信息向低维信息进行映射，保留有效的信息。通过BiLSTM可以获得有效的输出序列，但是仍然存在着一些不足。在BiLSTM的输出中，存在着一些并没有什么实际意义的字符，没有体现标签之间互相的依赖关系。而CRF层则是通过Softmax将结果映射到0和1之间，有效的对BiLSTM进行了一定的约束，同时CRF还可以充分考虑标签之间的依赖关系，利用Jaccard计算命名实体特征相似度sim_Entity。

基于上述提取到的三个维度特征向量，对其进行融合作为文本数据的语义表征，流程见附图3所示。对于提取到的主题词特征相似度系数、关键词特征相似度系数以及实体特征相似度系数进行特征融合，对三种特征结合时间衰减因子进行加权融合：

其中，α,β,γ为三种特征相似度的系数，α+β+γ＝1，t₀和t分别为文档p和q的发表时间。

S103，对初始时刻到当前时刻所有的新闻文本进行划分处理，获取当前时刻新闻文本的相关阈值和更新阈值。

传统话题追踪算法往往是通过信息检索和文本分类实现，现如今的网络信息文本主要具有更新速度快、文本类别多等特点，传统的文本分类方法并不能准确适用该类文本的话题跟踪需求，本发明提出了一种基于时间序列的自适应话题追踪模型，具体流程如图4所示，对于金融领域的新闻报道流进行检索话题，然后通过对每一个后续输入报道进行话题特征设置自适应的动态阈值并且融入时序因素进行话题更新，避免传统话题追踪方法因话题时效性原因造成的话题追踪不准确，实现对于新语料的文本分类，划分至话题模型中同一类别的话题，帮助用户完成对于特定领域特定话题事件的持续性追踪。算法实施步骤为：

δ_t＝ε_t+C (2)

S104，对话题模型的特征向量与输入文本特征向量的文本相似度进行计算，并与当前时刻新闻文本的相关阈值和更新阈值进行比较，判断话题模型是否进行更新。

对话题模型的特征向量与输入文本特征向量的文本相似度进行计算，具体为：输入文本特征向量X＝(x₁,x₂,…,x_n)，文本相似度为Sim；话题模型中包含若干个话题簇；针对话题模型中话题簇，首先计算输入文本特征向量与话题模型中的每一个话题簇中每个文本特征向量Y＝(y₁,y₂,…,y_n)之间的相似度并累计求和取平均数，文本特征向量之间相似度计算方法采取余弦相似度，即：

S105，基于时序权重的自适应话题更新法对话题模型进行更新，并基于可视化工具，实时反馈话题更新结果。

参见图5，采用基于时序权重的自适应话题更新方法对话题模型进行更新，具体为：

(2)如果

如果ΔT小于阈值α，按照公式(4)提升该话题特征的权重；

将公式(4)规范化得到公式(5)

其中max(w(k))_i为在话题i中权重最大的文本特征权值；

通过基于Vue、Html+Css+JS或Three.js的前端可视化技术，将更新数据结果进行展示传递给用户。

参见图6，本发明公布了一种基于时间序列的动态自适应话题跟踪系统，包括：

本发明一实施例提供的终端设备。该实施例的终端设备包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。

所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器、存储器。

所述处理器可以是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述终端设备的各种功能。

所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于时间序列的动态自适应话题跟踪方法，其特征在于，包括：

对初始时刻的新闻文本进行话题检测，构建话题模型；

2.根据权利要求1所述的基于时间序列的动态自适应话题跟踪方法，其特征在于，所述对当前时刻输入的新闻文本进行文本预处理，具体为：

所述构建文本的特征向量，具体为：通过TF-IDF算法、LDA算法和Bert-BiLSTM-CRF模型获取文本的关键词特征、主题词特征和命名实体特征，分别计算特征相似度进行加权融合，获得文本的特征向量。

3.根据权利要求1所述的基于时间序列的动态自适应话题跟踪方法，其特征在于，所述对初始时刻到当前时刻所有的新闻文本进行划分处理，获取当前时刻新闻文本的相关阈值和更新阈值，具体为：

δ_t＝ε_t+C (2)

4.根据权利要求1所述的基于时间序列的动态自适应话题跟踪方法，其特征在于，所述对话题模型的特征向量与输入文本特征向量的文本相似度进行计算，具体为：

5.根据权利要求3所述的基于时间序列的动态自适应话题跟踪方法，其特征在于，所述与当前时刻新闻文本的相关阈值和更新阈值进行比较，判断话题模型是否进行更新，具体为：若文本相似度Sim小于相关阈值ε_t，则输入报道与话题模型不相关，生成新的话题簇；若高于相关阈值ε_t但是低于更新阈值δ_t，则将其归入到相关话题模型中，但不对话题模型进行更新；若高于更新阈值δ_t，则将文本归入话题模型并对话题模型进行更新。

6.根据权利要求1所述的基于时间序列的动态自适应话题跟踪方法，其特征在于，所述采用基于时序权重的自适应话题更新方法对话题模型进行更新，具体为：

(2)如果

如果ΔT小于阈值α，按照公式(4)提升该话题特征的权重；

将公式(4)规范化得到公式(5)

其中max(w(k))_i为在话题i中权重最大的文本特征权值；

7.根据权利要求1所述的基于时间序列的动态自适应话题跟踪方法，其特征在于，所述基于可视化工具，实时反馈话题更新结果，具体为：基于vue的前端可视化技术，将更新数据结果进行展示。

8.基于时间序列的动态自适应话题跟踪系统，其特征在于，包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述方法的步骤。