CN114579731A - 基于多特征融合的网络信息话题检测方法、系统及装置 - Google Patents
基于多特征融合的网络信息话题检测方法、系统及装置 Download PDFInfo
- Publication number
- CN114579731A CN114579731A CN202210190628.7A CN202210190628A CN114579731A CN 114579731 A CN114579731 A CN 114579731A CN 202210190628 A CN202210190628 A CN 202210190628A CN 114579731 A CN114579731 A CN 114579731A
- Authority
- CN
- China
- Prior art keywords
- topic
- text
- feature
- clustering
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多特征融合的网络信息话题检测方法、系统及装置,包括:采集目标领域的新闻语料数据和文本发表时间;对采集到的新闻语料数据进行预处理,获取数据文档集;对数据文档集进行特征提取,并基于提取的特征和文本发表时间进行特征融合构建特征向量模型;基于文本发表时间的前后顺序,对特征向量模型进行聚类处理,将所有文本划分到各自的话题簇;将划分后文本在各自的话题簇中进行细聚类处理,并基于可视化工具,构建可视化微服务,实时反馈话题检测分析结果。本发明通过多维度特征提取融合的方法挖掘文本语义特征,对庞大数据集进行高效文本分析、语义挖掘和话题检测,减少传统话题检测算法的训练时间,加快话题检测的速度。
Description
技术领域
本发明属于数据挖掘领域,涉及一种基于多特征融合的网络信息话题检测方法、系统及装置。
背景技术
互联网的普及,改变了人们获取信息的主要途径。而如何从海量的信息中快速提取文本话题及关键信息、追踪话题的发展成为了人们更加快速准确获取信息的一个亟待解决的问题。同时话题往往具有时效性,过时的消息往往成为话题检测以及跟踪话题的一种干扰,阻碍了人们关注时下热点事件的发展与变化。因此在话题发现时应将时间因素作为一个重要考量因素,着重突出当前信息的价值,而弱化过时消息的影响。
特征提取技术主要是在获得预处理后的文本,对多维的文本特征进行特征提取,并对于后续文本处理无用的特征进行过滤,保留对于文本信息贡献程度较大的文本特征,同时可以对特征维度进行降低,提升算法处理时间效率。作为文本处理中十分基础也十分重要的一项技术,直接影响了后续文本处理的质量。
话题检测是对于海量的新闻事件文本进行获取处理分析生成话题的过程,话题能够在最大程度上表明某一组文本的核心思想,帮助人们免去阅读海量信息的烦恼。话题检测的流程一般为通过爬虫或者新闻数据集获取待处理文本,然后通过文本预处理技术将多余的噪声信息去除,同时完成分词、去除停用词等操作,接着通过文本的特征提取技术,将能代表文章核心思想的特征进行提取,并转化为机器可以识别的特征向量,最后使用机器学习的一些聚类算法以及相似度计算方法根据特征向量对文章进行聚类,提炼出话题。
话题检测以及跟踪依赖于对于初始文本信息特征的提取与融合。现有的特征提取技术往往对单一文本的特征进行抽取,但是初始文本特征信息往往包含多个维度,包括文本信息的标题、关键词、相关实体对象以及语义内容等。如果仅仅从一个角度去获取文本特征,往往会造成后续检测话题以及分析的效果不佳。
对于话题检测,些年来研究随着信息量的飞速增长,以及大规模流式数据的出现,传统的文本聚类算法如K-means算法、DBSCAN、基于层次聚类算法等往往适用于静态数据,对于新旧数据进行合并然后统一处理,对于聚类效果以及聚类效率都有不利的影响,难以适应大数据下数据海量性、多样性的特点。Single-Pass聚类算法作为一种增量式聚类算法,基本思想为对于文档进行顺序处理,以输入第一篇文档作为种子,建立相关的新主题。然后再将后续文档依据词袋模型进行向量化处理,计算该文档与现有主题之间的相似度,相似度计算方式一般采用欧氏距离、余弦距离等。在算法开始之前会设定一个阈值,如若后续文档与现有主题间的相似度均大于阈值,则将其新建一个主题,并将该文档并入新主题,否则就将其并入现有主题中与之相似度最大的一个主题。输入文档只需通过算法流程一次,效率较K-means以及KNN等算法有明显改进,更适应于现近文本数据的特点。但因Single-Pass仅仅对数据进行一次迭代,一些数据的错误聚类往往在后续过程中难以改进,所以造成聚类效果较差的问题。
发明内容
本发明的目的在于解决现有技术中的问题,提供一种基于多特征融合的网络信息话题检测方法、系统及装置,可自动完成文本数据从预处理到特征提取以及话题检测的全部流程,减少传统话题检测算法的训练时间,加快话题检测的速度;同时提升话题检测效率。
为达到上述目的,本发明采用以下技术方案予以实现:
基于多特征融合的网络信息话题检测方法,包括:
采集目标领域的新闻语料数据和文本发表时间;
对采集到的新闻语料数据进行预处理,获取数据文档集;
对数据文档集进行特征提取,并基于提取的特征和文本发表时间进行特征融合构建特征向量模型;
基于文本发表时间的前后顺序,对特征向量模型进行聚类处理,将所有文本划分到各自的话题簇;
将划分后文本在各自的话题簇中进行细聚类处理,并基于可视化工具,构建可视化微服务,实时反馈话题检测分析结果。
本发明的进一步改进在于:
采集目标领域的新闻语料数据和文本发表时间,具体为:采用爬虫对目标领域的报道进行搜索,保留获取的HTML文件的文本内容和发布时间。
对采集到的新闻语料数据进行预处理,具体为:
将文本内容中的句子、段落和文章分割为以词为单位的文本结构,并对分割的词进行筛选去除无意义的停顿词,基于开源的NLPIR、ICTCLAS和NLTK库对词语进行词性标注。
对数据文档集进行特征提取,并基于提取的特征和文本发表时间进行特征融合构建特征向量模型,具体为:
对数据文档集进行特征提取,通过文档关键词、主题词和命名实体特征三个维度的特征进行特征融合构建特征向量模型,具体为:
(1)利用TF-IDF算法获取文档关键词的权重,基于词长、词性和词位置的权重因素,选取权重最高的K个关键词作为关键词特征,利用余弦相似度计算关键词相似度simITF-IDF;
(2)基于隐含狄利克雷分布算法获取文档的主题词特征,利用JS距离公式计算主题特征相似度simLDA;
(3)利用ALBERT-BiLSTM-CRF算法获取文档命名实体特征,将文档输入至ALBERT模型中,在ALBERT模型内部对输入的文本进行训练,生成包含语义信息的词嵌入向量,再将词嵌入向量输入BiLSTM并使用CRF算法对输出进行约束,利用Jaccard计算命名实体特征相似度simEntity;
(4)对于提取到的主题词特征相似度系数、关键词特征相似度系数和实体特征相似度系数进行特征融合,对三种特征结合时间衰减因子进行加权融合:
其中,α,β,γ为三种特征相似度的系数,α+β+γ=1,t0和t分别为文档p和q的发表时间。
基于文本发表时间的前后顺序,对特征向量模型进行聚类处理,将所有文本划分到各自的话题簇,具体为:
(1)将构建的特征模型作为话题检测单遍聚类算法的输入,选取其中发布时间最早的一个文档,并将其文本向量记作d1,作为当前新话题簇T1的第一个对象;
(2)输入后续文档di,依据词袋模型进行向量化处理;
(4)判断d1与当前已有话题聚类中心的相似度,并与初始阈值theta进行比较;若文档d1最大的Sim值大于阈值theta,则选出其中最大的相似度值Sim,并将其并入该话题中;若文档d1最大的Sim值仍然小于阈值theta,则将其新建一个主题,并将该文档并入新主题;
(5)重复步骤(2)到步骤(4),直到所有文档均被划入到各自的话题簇为止。
将划分后文本在各自的话题簇中进行细聚类处理,具体为:
(1)将单遍聚类算法聚类的初始聚类数目作为神经网络模型中初始的神经元个数,聚类中心权值作为神经元的初始权值,确定学习速率η∈(0,1);所述初始聚类数目为话题簇的数目;
(2)从训练集中确定一组输入向量X={x1,x2,…,xn},根据距离公式计算输入向量与权向量之间的距离dij=||xi-ωj||2;
(3)找出与输入神经元距离最小的向量i=argminidij;
(4)对权向量进行调整:如果输入神经元t等于输出神经元类别c,Wi(new)=Wi(old)+η(X-Xi(old));如果输入神经元t不等于输出神经元类别c,Wi(new)=Wi(old)-η(X-Xi(old));
(5)选取训练集中剩余向量作为输入,返回步骤(2)直至训练集中所有向量均已通过算法为止;
(6)减小学习率η,如若学习率小于停止阈值,则停止算法流程,否则继续返回步骤(2),直到学习率小于停止阈值。
基于可视化工具,构建可视化微服务,实时反馈话题检测分析结果,具体为:基于vue的前端可视化技术,将训练数据的最终话题检测结果进行展示。
基于多特征融合的网络信息话题检测系统,包括:
采集模块,所述采集模块用于采集目标领域的新闻语料数据和文本发表时间;
预处理模块,所述预处理对采集到的新闻语料数据进行预处理,获取数据文档集;
模型构建模块,所述模型构建模块用于对数据文档集进行特征提取,并基于提取的特征和文本发表时间进行特征融合构建特征向量模型;
聚类处理模块,所述聚类处理模块基于文本发表时间的前后顺序,对特征向量模型进行聚类处理,将所有文本划分到各自的话题簇;
可视化模块,所述可视化模块用于将划分后文本在各自的话题簇中进行细聚类处理,并基于可视化工具,构建可视化微服务,实时反馈话题检测分析结果。
一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明通过构建对文本数据进行提取,通过多维度特征提取融合方法对文本义特征进行挖掘,对文本数据集进行高效的文本分析、语义挖掘以及话题检测,同时避免在面对大规模流式数据的情况下,由于高标准的训练要求,而导致训练过程终止,无法得出结果的情况,提升了话题检测效率。
附图说明
为了更清楚的说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明的基于多特征融合的网络信息话题检测方法的原理图;
图2为命名实体特征提取流程图;
图3为多特征融合提取流程图;
图4为基于改进的单遍聚类流程图;
图5为基于改进的神经网络聚类流程图;
图6为本发明的基于多特征融合的网络信息话题检测系统的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明实施例的描述中,需要说明的是,若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
此外,若出现术语“水平”,并不表示要求部件绝对水平,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
在本发明实施例的描述中,还需要说明的是,除非另有明确的规定和限定,若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
下面结合附图对本发明做进一步详细描述:
参见图1,本发明公开了基于多特征融合的网络信息检测方法,包括:
S101,采集目标领域的新闻语料数据和文本发表时间。
根据用户所感兴趣的某一特定领域,通过BeautifulSoup、Selenium等爬虫技术搜索该领域的相关报道,将获得的HTML文件保留为文本信息以及发布时间,去除无关信息。
S102,对采集到的新闻语料数据进行预处理,获取数据文档集。
对于初始文本将句子、段落、文章等长文本的形式进行分割,转化为以词为单位的文本结构,通过开源或者人工构建的词表去除文本中所蕴含的无意义的停用词。利用开源的NLPIR、ICTCLAS、NLTK库对词语进行词性标注。
S103,对数据文档集进行特征提取,并基于提取的特征和文本发表时间进行特征融合构建特征向量模型;
将文本的关键词、主题词、实体特征、语义特征进行融合提取,充分利用文本表征信息,结合时间衰减因子提取文本特征。
关键词特征融合采用TF-IDF算法,由TF(词频)和IDF(逆文档率)二者相乘得到。在计算词语重要性的过程中,将词性因素加入其中作为考量的因素。在一个文本中,不同词性的词语往往对于文本的重要性不尽相同。通常一些专业性的名词、动词、动名词能更好的表达文章内容,量词、副词等其他词性的词则不太可能是关键词。若词T为动词、名词、动名词,设置词性因子为0.8,若词T为副词、形容词,设置词性因子为0.4,其他词性的词性因子设置为0.1。新闻类文本中标题通常更有可能概括文章的主题内容,因此在标题中出现关键词的可能性也更高一些。同样的,在文章的第一句以及最后一句也更有可能出现主题句以及概括性的句子。这几个位置的词语往往比文章其他位置的文字更为重要,应被赋予更高的权值。若词出现在标题中,位置因子设置为1;若词出现在首段或尾段中,位置因子为0.5;其他位置词性因子为0.1。将词性、词位置作为词重要性程度的衡量因素,根据此方法计算出文章关键词的权重,对权重值进行排序,选取出其中权重值最高的数个关键词作为最终的关键词特征,利用余弦相似度计算关键词相似度simITF-IDF。
主题词词特征提取采用LDA主题模型算法,训练开始前设置主题个数K以及相关的超参数α和β,在工程上,alpha一般取50/K,beta一般取0.01,吉布斯抽样的迭代次数一般为1000次。两个先验参数α和β分别代表主题先验分布和文档词语的先验分布,通过α可以分别得到文档d的主题分布θ,再通过该主题的多项分布θ中生成文档中第i个词的主题分布zi,通过β生成主题对应的词语分布通过该词语分布得到最终的主题词语w,利用JS距离公式计算主题特征相似度simLDA。
命名实体特征通过ALBERT-BiLSTM-CRF模型进行提取,流程见附图2所示,将经过预处理的初始文本输入至轻量级的ALBERT模型中,ALBERT在模型内部将输入的文本进行训练,生成包含一定语义信息的词嵌入向量。将经过ALBERT预训练生成的词嵌入向量输入进BiLSTM,作为初始输入。通过前向以及后向LSTM获取历史信息和将来信息,组合这两个信息得到在t时刻的输出上下文特征信息。同时还可以将高维信息向低维信息进行映射,保留有效的信息。通过BiLSTM可以获得有效的输出序列,但是仍然存在着一些不足。在BiLSTM的输出中,存在着一些并没有什么实际意义的字符,没有体现标签之间互相的依赖关系。而CRF层则是通过Softmax将结果映射到0和1之间,有效的对BiLSTM进行了一定的约束,同时CRF还可以充分考虑标签之间的依赖关系,利用Jaccard计算命名实体特征相似度simEntity。
基于上述提取到的三个维度特征向量,对其进行融合作为文本数据的语义表征,流程见附图3所示。对于提取到的主题词特征相似度系数、关键词特征相似度系数和实体特征相似度系数进行特征融合,对三种特征结合时间衰减因子进行加权融合:
其中,α,β,γ为三种特征相似度的系数,α+β+γ=1,t0和t分别为文档p和q的发表时间。
S104,基于文本发表时间的前后顺序,对特征向量模型进行聚类处理,将所有文本划分到各自的话题簇。
传统的Single-Pass算法在文本聚类方面有着较高的效率,但是仍然存在聚类中心容易发生偏移、对文档输入顺序要求较高、忽略话题的时间因素影响、一次迭代容易造成准确率不高等问题。本发明提出了改进的单遍聚类流程图,具体流程见附图4所示,算法中涉及到的初始化参数主要有相似度阈值theta以及时间跨度阈值TimeSpan(其中TimeSpan为同一话题簇中最后一个文本发布时间与第一个文本发布时间差值)。初始主要依据所需聚类话题个数以及不同数据情况进行调整。算法实施步骤为:
(1)选取其中发布时间最早的一个文档,并将其文本向量记作d1,作为当前新话题簇T1的第一个对象;
(2)输入后续文档di,依据词袋模型进行向量化处理。
(4)判断d1与当前已有话题聚类中心的相似度,并与初始阈值theta进行比较;若文档d1最大的Sim值大于阈值theta,则选出其中最大的相似度值Sim,并将其并入该话题中。当TimeSpan大于当前话题簇中最新话题与最老话题时间差值TimeKey时,即代表当前话题簇已失效,后续文本输入进来时不在与该类簇中的文档进行相似度计算。并更新话题中心;若文档d1最大的Sim值仍然小于阈值theta,则将其新建一个主题,并将该文档并入新主题;
(5)重复步骤(2)到步骤(4),直到所有文档均被划入某个话题簇为止。
S105,将划分后文本在各自的话题簇中进行细聚类处理,并基于可视化工具,构建可视化微服务,实时反馈话题检测分析结果。
神经网络聚类算法的流程如附图5所示。
(1)将单遍聚类算法聚类的的初始聚类数目作为神经网络模型中初始的神经元个数,聚类中心权值作为神经元的初始权值,确定学习速率η∈(0,1);
(2)从训练集中确定一组输入向量X={x1,x2,…,xn},根据距离公式计算输入向量与权向量之间的距离dij=||xi-ωj||2;
(3)找出与输入神经元距离最小的向量i=argminidij;
(4)按照一定的规则对权向量进行调整:如果输入神经元t等于输出神经元类别c,Wi(new)=Wi(old)+η(X-Xi(old));如果输入神经元t不等于输出神经元类别c,Wi(new)=Wi(old)-η(X-Xi(old));对于获胜神经元邻域内的权值向量进行调整:Wi(t+1)=Ci(t){Wi(t)+h(t)η(t)[X-Wi(t)]}。其中h(t)为关于训练时间t的领域函数以及 其中,d为领域内神经元与获胜神经元的拓扑距离,σ代表了获胜神经元邻域大小。
(5)选取训练集中剩余向量作为输入,返回步骤(2)直至训练集中所有向量均已通过算法为止;
(6)减小学习率η,如若学习率小于停止阈值,则停止算法流程,否则继续返回步骤(2),直到学习率小于停止阈值。
通过基于vue的前端可视化技术,将训练数据的最终话题检测结果进行展示传递给用户。
参见图6,本发明公布了一种基于多特征融合的网络信息话题检测系统,包括:
采集模块,所述采集模块用于采集目标领域的新闻语料数据和文本发表时间;
预处理模块,所述预处理对采集到的新闻语料数据进行预处理,获取数据文档集;
模型构建模块,所述模型构建模块用于对数据文档集进行特征提取,并基于提取的特征和文本发表时间进行特征融合构建特征向量模型;
聚类处理模块,所述聚类处理模块基于文本发表时间的前后顺序,对特征向量模型进行聚类处理,将所有文本划分到各自的话题簇;
可视化模块,所述可视化模块用于将划分后文本在各自的话题簇中进行细聚类处理,并基于可视化工具,构建可视化微服务,实时反馈话题检测分析结果。
本发明一实施例提供的终端设备。该实施例的终端设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。
所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器、存储器。
所述处理器可以是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述终端设备的各种功能。
所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于多特征融合的网络信息话题检测方法,其特征在于,包括:
采集目标领域的新闻语料数据和文本发表时间;
对采集到的新闻语料数据进行预处理,获取数据文档集;
对数据文档集进行特征提取,并基于提取的特征和文本发表时间进行特征融合构建特征向量模型;
基于文本发表时间的前后顺序,对特征向量模型进行聚类处理,将所有文本划分到各自的话题簇;
将划分后文本在各自的话题簇中进行细聚类处理,并基于可视化工具,构建可视化微服务,实时反馈话题检测分析结果。
2.根据权利要求1所述的基于多特征融合的网络信息话题检测方法,其特征在于,所述采集目标领域的新闻语料数据和文本发表时间,具体为:采用爬虫对目标领域的报道进行搜索,保留获取的HTML文件的文本内容和发布时间。
3.根据权利要求2所述的基于多特征融合的网络信息话题检测方法,其特征在于,所述对采集到的新闻语料数据进行预处理,具体为:
将文本内容中的句子、段落和文章分割为以词为单位的文本结构,并对分割的词进行筛选去除无意义的停顿词,基于开源的NLPIR、ICTCLAS和NLTK库对词语进行词性标注。
4.根据权利要求3所述的基于多特征融合的网络信息话题检测方法,其特征在于,所述对数据文档集进行特征提取,并基于提取的特征和文本发表时间进行特征融合构建特征向量模型,具体为:
对数据文档集进行特征提取,通过文档关键词、主题词和命名实体特征三个维度的特征进行特征融合构建特征向量模型,具体为:
(1)利用TF-IDF算法获取文档关键词的权重,基于词长、词性和词位置的权重因素,选取权重最高的K个关键词作为关键词特征,利用余弦相似度计算关键词相似度simITF-IDF;
(2)基于隐含狄利克雷分布算法获取文档的主题词特征,利用JS距离公式计算主题特征相似度simLDA;
(3)利用ALBERT-BiLSTM-CRF算法获取文档命名实体特征,将文档输入至ALBERT模型中,在ALBERT模型内部对输入的文本进行训练,生成包含语义信息的词嵌入向量,再将词嵌入向量输入BiLSTM并使用CRF算法对输出进行约束,利用Jaccard计算命名实体特征相似度simEntity;
(4)对于提取到的主题词特征相似度系数、关键词特征相似度系数和实体特征相似度系数进行特征融合,对三种特征结合时间衰减因子进行加权融合:
其中,α,β,γ为三种特征相似度的系数,α+β+γ=1,t0和t分别为文档p和q的发表时间。
5.根据权利要求4所述的基于多特征融合的网络信息话题检测方法,其特征在于,所述基于文本发表时间的前后顺序,对特征向量模型进行聚类处理,将所有文本划分到各自的话题簇,具体为:
(1)将构建的特征模型作为话题检测单遍聚类算法的输入,选取其中发布时间最早的一个文档,并将其文本向量记作d1,作为当前新话题簇T1的第一个对象;
(2)输入后续文档di,依据词袋模型进行向量化处理;
(4)判断d1与当前已有话题聚类中心的相似度,并与初始阈值theta进行比较;若文档d1最大的Sim值大于阈值theta,则选出其中最大的相似度值Sim,并将其并入该话题中;若文档d1最大的Sim值仍然小于阈值theta,则将其新建一个主题,并将该文档并入新主题;
(5)重复步骤(2)到步骤(4),直到所有文档均被划入到各自的话题簇为止。
6.根据权利要求5所述的基于多特征融合的网络信息话题检测方法,其特征在于,所述将划分后文本在各自的话题簇中进行细聚类处理,具体为:
(1)将单遍聚类算法聚类的初始聚类数目作为神经网络模型中初始的神经元个数,聚类中心权值作为神经元的初始权值,确定学习速率η∈(0,1);所述初始聚类数目为话题簇的数目;
(2)从训练集中确定一组输入向量X={x1,x2,…,xn},根据距离公式计算输入向量与权向量之间的距离dij=||xi-ωj||2;
(3)找出与输入神经元距离最小的向量i=argminidij;
(4)对权向量进行调整:如果输入神经元t等于输出神经元类别c,Wi(new)=Wi(old)+η(X-Xi(old));如果输入神经元t不等于输出神经元类别c,Wi(new)=Wi(old)-η(X-Xi(old));
(5)选取训练集中剩余向量作为输入,返回步骤(2)直至训练集中所有向量均已通过算法为止;
(6)减小学习率η,如若学习率小于停止阈值,则停止算法流程,否则继续返回步骤(2),直到学习率小于停止阈值。
7.根据权利要求6所述的基于多特征融合的网络信息话题检测方法,其特征在于,所述基于可视化工具,构建可视化微服务,实时反馈话题检测分析结果,具体为:基于vue的前端可视化技术,将训练数据的最终话题检测结果进行展示。
8.基于多特征融合的网络信息话题检测系统,其特征在于,包括:
采集模块,所述采集模块用于采集目标领域的新闻语料数据和文本发表时间;
预处理模块,所述预处理对采集到的新闻语料数据进行预处理,获取数据文档集;
模型构建模块,所述模型构建模块用于对数据文档集进行特征提取,并基于提取的特征和文本发表时间进行特征融合构建特征向量模型;
聚类处理模块,所述聚类处理模块基于文本发表时间的前后顺序,对特征向量模型进行聚类处理,将所有文本划分到各自的话题簇;
可视化模块,所述可视化模块用于将划分后文本在各自的话题簇中进行细聚类处理,并基于可视化工具,构建可视化微服务,实时反馈话题检测分析结果。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210190628.7A CN114579731A (zh) | 2022-02-28 | 2022-02-28 | 基于多特征融合的网络信息话题检测方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210190628.7A CN114579731A (zh) | 2022-02-28 | 2022-02-28 | 基于多特征融合的网络信息话题检测方法、系统及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114579731A true CN114579731A (zh) | 2022-06-03 |
Family
ID=81776724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210190628.7A Withdrawn CN114579731A (zh) | 2022-02-28 | 2022-02-28 | 基于多特征融合的网络信息话题检测方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114579731A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115329078A (zh) * | 2022-08-11 | 2022-11-11 | 北京百度网讯科技有限公司 | 文本数据处理方法、装置、设备以及存储介质 |
CN116361469A (zh) * | 2023-04-03 | 2023-06-30 | 北京中科闻歌科技股份有限公司 | 一种基于预训练模型的话题生成方法 |
CN116522165A (zh) * | 2023-06-27 | 2023-08-01 | 武汉爱科软件技术股份有限公司 | 一种基于孪生结构的舆情文本匹配系统及方法 |
-
2022
- 2022-02-28 CN CN202210190628.7A patent/CN114579731A/zh not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115329078A (zh) * | 2022-08-11 | 2022-11-11 | 北京百度网讯科技有限公司 | 文本数据处理方法、装置、设备以及存储介质 |
CN115329078B (zh) * | 2022-08-11 | 2024-03-12 | 北京百度网讯科技有限公司 | 文本数据处理方法、装置、设备以及存储介质 |
CN116361469A (zh) * | 2023-04-03 | 2023-06-30 | 北京中科闻歌科技股份有限公司 | 一种基于预训练模型的话题生成方法 |
CN116522165A (zh) * | 2023-06-27 | 2023-08-01 | 武汉爱科软件技术股份有限公司 | 一种基于孪生结构的舆情文本匹配系统及方法 |
CN116522165B (zh) * | 2023-06-27 | 2024-04-02 | 武汉爱科软件技术股份有限公司 | 一种基于孪生结构的舆情文本匹配系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Filtering out the noise in short text topic modeling | |
Liu et al. | Short text feature selection for micro-blog mining | |
CN114579731A (zh) | 基于多特征融合的网络信息话题检测方法、系统及装置 | |
Banik et al. | Evaluation of naïve bayes and support vector machines on bangla textual movie reviews | |
CN105701084A (zh) | 一种基于互信息的文本分类的特征提取方法 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
Abid et al. | Spam SMS filtering based on text features and supervised machine learning techniques | |
Rafea et al. | Topic detection approaches in identifying topics and events from Arabic corpora | |
Banik et al. | Toxicity detection on bengali social media comments using supervised models | |
Tyagi et al. | Sentiment analysis of product reviews using support vector machine learning algorithm | |
CN109086355A (zh) | 基于新闻主题词的热点关联关系分析方法及系统 | |
Sarkar | Using character n-gram features and multinomial naïve bayes for sentiment polarity detection in Bengali tweets | |
Chang et al. | A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING. | |
Sharupa et al. | Emotion detection of Twitter post using multinomial Naive Bayes | |
Sandhiya et al. | A review of topic modeling and its application | |
Sharma et al. | Shallow Neural Network and Ontology-Based Novel Semantic Document Indexing for Information Retrieval. | |
CN114818724A (zh) | 一种社交媒体灾害有效信息检测模型的构建方法 | |
CN110019763B (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
Nasim et al. | Evaluation of clustering techniques on Urdu News head-lines: A case of short length text | |
Nahar et al. | Filtering Bengali political and sports news of social media from textual information | |
CN111026866B (zh) | 一种面向领域的文本信息抽取聚类方法、设备和存储介质 | |
Dubey et al. | Sentiment analysis of keenly intellective smart phone product review utilizing SVM classification technique | |
Voronov et al. | Forecasting popularity of news article by title analyzing with BN-LSTM network | |
CN114691993A (zh) | 基于时间序列的动态自适应话题跟踪方法、系统及装置 | |
Wan et al. | Vertical and sequential sentiment analysis of micro-blog topic |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220603 |