CN117633328B - 基于数据挖掘的新媒体内容监测方法及系统 - Google Patents

基于数据挖掘的新媒体内容监测方法及系统 Download PDF

Info

Publication number
CN117633328B
CN117633328B CN202410104059.9A CN202410104059A CN117633328B CN 117633328 B CN117633328 B CN 117633328B CN 202410104059 A CN202410104059 A CN 202410104059A CN 117633328 B CN117633328 B CN 117633328B
Authority
CN
China
Prior art keywords
content
link
time sequence
target
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410104059.9A
Other languages
English (en)
Other versions
CN117633328A (zh
Inventor
戴亦斌
周诗林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Bote Intelligent Technology Co ltd
Original Assignee
Wuhan Bote Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Bote Intelligent Technology Co ltd filed Critical Wuhan Bote Intelligent Technology Co ltd
Priority to CN202410104059.9A priority Critical patent/CN117633328B/zh
Publication of CN117633328A publication Critical patent/CN117633328A/zh
Application granted granted Critical
Publication of CN117633328B publication Critical patent/CN117633328B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于数据挖掘的新媒体内容监测方法及系统,该方法包括如下步骤:获取数据挖掘目标和数据监测目标,基于数据挖掘目标进行爬虫,得到多模态新媒体内容;查询多模态新媒体内容的内容来源方,并根据内容来源方创建来源实体节点;结合来源实体节点和多模态新媒体内容构建时序知识图谱;确定数据监测目标在时序知识图谱中对应的目标节点,利用时序链路预测方法预测目标节点的未来链路;基于数据监测目标继续进行爬虫,得到监测目标内容;根据监测目标内容更新时序知识图谱,并监测时序知识图谱中的新生链路,通过比对未来链路和新生链路,生成内容监测结果。本发明具有能够高效准确完成内容监测的效果。

Description

基于数据挖掘的新媒体内容监测方法及系统
技术领域
本发明属于大数据技术领域,具体是涉及到一种基于数据挖掘的新媒体内容监测方法及系统。
背景技术
在当今信息时代,互联网的快速发展和智能设备的广泛应用,导致时刻会有大量的新媒体内容产生并传播。这些新媒体内容包括多种形式的信息。为避免异常信息的产生和传播,往往需要采用数据挖掘的手段对新媒体内容进行实时监测。然而,由于新媒体内容信息量庞大且内容多样化,传统的聚类分析手段或文本挖掘手段在内容监测过程中不仅效率低下,且对于异常信息的识别也较为不准确,如何高效准确地监测这些新媒体内容成了一个重要的技术挑战。
发明内容
本发明提供一种基于数据挖掘的新媒体内容监测方法及系统,以解决内容监测效率低下,且对于异常信息的识别也较为不准确的问题。
第一方面,本发明提供一种基于数据挖掘的新媒体内容监测方法,该方法包括如下步骤:
获取数据挖掘目标和数据监测目标,基于所述数据挖掘目标进行爬虫,得到多模态新媒体内容;
查询所述多模态新媒体内容的内容来源方,并根据所述内容来源方创建来源实体节点;
结合所述来源实体节点和所述多模态新媒体内容构建时序知识图谱;
确定所述数据监测目标在所述时序知识图谱中对应的目标节点,利用时序链路预测方法预测所述目标节点的未来链路;
基于所述数据监测目标继续进行爬虫,得到监测目标内容;
根据所述监测目标内容更新所述时序知识图谱,并监测所述时序知识图谱中的新生链路,通过比对所述未来链路和所述新生链路,生成内容监测结果。
可选的,所述结合所述来源实体节点和所述多模态新媒体内容构建时序知识图谱包括如下步骤:
基于所有所述来源实体节点、所有所述来源实体节点之间的索引关系以及所述多模态新媒体内容与所述来源实体节点之间的关联关系构建一级图谱层;
按照所述多模态新媒体内容的内容类别解构所述多模态新媒体内容并进行分类特征提取,提取得到多个内容实体特征并生成内容实体节点;
在所述一级图谱层的基础上,基于多个所述内容实体节点之间的内容关联关系构建二级图谱层;
为所有所述内容实体特征添加时序属性,并在所述二级图谱层中的所有节点之间添加时序关系,形成时序知识图谱。
可选的,所述按照所述多模态新媒体内容的内容类别解构所述多模态新媒体内容并进行分类特征提取,提取得到多个内容实体特征并生成内容实体节点包括如下步骤:
根据所述多模态新媒体内容的信息属性识别所述多模态新媒体内容的内容类别;
按照所述内容类别将所述多模态新媒体内容解构为多类型的新媒体内容,所述多类型的新媒体内容包括文本内容、图片内容、音频内容和视频内容;
采用自然语言处理方法预处理所述文本内容,并通过关键词提取获取所述文本内容中的关键文本特征,利用文本分类算法将所述关键文本特征进行分类,得到文本内容实体特征,基于所述文本内容实体特征生成文本内容实体节点;
采用图像特征提取方法预处理所述图片内容,并提取所述图片内容中的关键图片特征,利用特征匹配算法将所述关键图片特征进行分类,得到图片内容实体特征,基于所述图片内容实体特征生成图片内容实体节点;
采用频谱分析方法预处理所述音频内容,并提取所述音频内容中的关键音频特征,利用预设的隐马尔可夫模型将所述关键音频特征进行分类,得到音频内容实体特征,基于所述音频内容实体特征生成音频内容实体节点;
采用视频分帧检测方法预处理所述视频内容,并提取所述视频内容中的关键视频特征,利用光流法将所述关键视频特征进行分类,得到视频内容实体特征,基于所述视频内容实体特征生成视频内容实体节点。
可选的,所述确定所述数据监测目标在所述时序知识图谱中对应的目标节点,利用时序链路预测方法预测所述目标节点的未来链路包括如下步骤:
根据所述数据监测目标的内容特征与所述时序知识图谱中的内容实体节点进行匹配,确定所述时序知识图谱中与数据监测目标具有关联性的目标节点;
根据时序知识图谱中的时序关系,查询所述目标节点在所述时序知识图谱中的历史链路;
基于所述历史链路进行回溯链路采样,从所述时序知识图谱中提取所述目标节点的目标子图结构;
基于所述目标子图结构,采用预设的神经网络模型并使用直推式时序链路预测方法预测所述目标节点的未来链路。
可选的,所述根据所述监测目标内容更新所述时序知识图谱,并监测所述时序知识图谱中的新生链路,通过比对所述未来链路和所述新生链路,生成内容监测结果包括如下步骤:
基于所述监测目标内容的内容特征遍历所述时序知识图谱中的所有节点,并将特征重复率超出预设阈值的节点标记为监测目标节点;
识别所述监测目标内容的内容来源可信度,根据所述内容来源可信度为所述监测目标内容赋予影响权重;
结合所述监测目标内容和所述影响权重更新所述时序知识图谱,并监测所述时序知识图谱中的新生链路;
通过比对所述未来链路和所述新生链路的链路覆盖目标、链路长度、链路走向和链路分支,生成链路比对结果,根据所述链路比对结果生成内容监测结果。
第二方面,本发明还提供一种基于数据挖掘的新媒体内容监测系统,所述系统包括:
信息获取子系统,用于获取数据挖掘目标和数据监测目标,基于所述数据挖掘目标进行爬虫,得到多模态新媒体内容;
节点生成子系统,用于查询所述多模态新媒体内容的内容来源方,并根据所述内容来源方创建来源实体节点;
图谱生成子系统,用于结合所述来源实体节点和所述多模态新媒体内容构建时序知识图谱;
链路预测子系统,用于确定所述数据监测目标在所述时序知识图谱中对应的目标节点,利用时序链路预测方法预测所述目标节点的未来链路;
内容监测子系统,用于基于所述数据监测目标继续进行爬虫,得到监测目标内容;
结果生成子系统,用于根据所述监测目标内容更新所述时序知识图谱,并监测所述时序知识图谱中的新生链路,通过比对所述未来链路和所述新生链路,生成内容监测结果。
可选的,所述图谱生成子系统包括:
第一图谱构建模块,用于基于所有所述来源实体节点、所有所述来源实体节点之间的索引关系以及所述多模态新媒体内容与所述来源实体节点之间的关联关系构建一级图谱层;
内容节点生成模块,用于按照所述多模态新媒体内容的内容类别解构所述多模态新媒体内容并进行分类特征提取,提取得到多个内容实体特征并生成内容实体节点;
第二图谱构建模块,用于在所述一级图谱层的基础上,基于多个所述内容实体节点之间的内容关联关系构建二级图谱层;
时序图谱构建模块,用于为所有所述内容实体特征添加时序属性,并在所述二级图谱层中的所有节点之间添加时序关系,形成时序知识图谱。
可选的,所述内容节点生成模块包括:
内容识别单元,用于根据所述多模态新媒体内容的信息属性识别所述多模态新媒体内容的内容类别;
内容解构单元,用于按照所述内容类别将所述多模态新媒体内容解构为多类型的新媒体内容,所述多类型的新媒体内容包括文本内容、图片内容、音频内容和视频内容;
文本内容处理单元,用于采用自然语言处理方法预处理所述文本内容,并通过关键词提取获取所述文本内容中的关键文本特征,利用文本分类算法将所述关键文本特征进行分类,得到文本内容实体特征,基于所述文本内容实体特征生成文本内容实体节点;
图片内容处理单元,用于采用图像特征提取方法预处理所述图片内容,并提取所述图片内容中的关键图片特征,利用特征匹配算法将所述关键图片特征进行分类,得到图片内容实体特征,基于所述图片内容实体特征生成图片内容实体节点;
音频内容处理单元,用于,采用频谱分析方法预处理所述音频内容,并提取所述音频内容中的关键音频特征,利用预设的隐马尔可夫模型将所述关键音频特征进行分类,得到音频内容实体特征,基于所述音频内容实体特征生成音频内容实体节点;
视频内容处理单元,用于采用视频分帧检测方法预处理所述视频内容,并提取所述视频内容中的关键视频特征,利用光流法将所述关键视频特征进行分类,得到视频内容实体特征,基于所述视频内容实体特征生成视频内容实体节点。
可选的,所述链路预测子系统包括:
内容匹配模块,用于根据所述数据监测目标的内容特征与所述时序知识图谱中的内容实体节点进行匹配,确定所述时序知识图谱中与数据监测目标具有关联性的目标节点;
链路查询模块,用于根据时序知识图谱中的时序关系,查询所述目标节点在所述时序知识图谱中的历史链路;
子图提取模块,用于基于所述历史链路进行回溯链路采样,从所述时序知识图谱中提取所述目标节点的目标子图结构;
链路预测模块,用于基于所述目标子图结构,采用预设的神经网络模型并使用直推式时序链路预测方法预测所述目标节点的未来链路。
可选的,所述结果生成子系统包括:
节点标记模块,用于基于所述监测目标内容的内容特征遍历所述时序知识图谱中的所有节点,并将特征重复率超出预设阈值的节点标记为监测目标节点;
内容赋权模块,用于识别所述监测目标内容的内容来源可信度,根据所述内容来源可信度为所述监测目标内容赋予影响权重;
链路监测模块,用于结合所述监测目标内容和所述影响权重更新所述时序知识图谱,并监测所述时序知识图谱中的新生链路;
结果生成模块,用于通过比对所述未来链路和所述新生链路的链路覆盖目标、链路长度、链路走向和链路分支,生成链路比对结果,根据所述链路比对结果生成内容监测结果。
本发明的有益效果是:
本发明所采用的基于数据挖掘的新媒体内容监测方法包括如下步骤:获取数据挖掘目标和数据监测目标,基于所述数据挖掘目标进行爬虫,得到多模态新媒体内容;查询所述多模态新媒体内容的内容来源方,并根据所述内容来源方创建来源实体节点;结合所述来源实体节点和所述多模态新媒体内容构建时序知识图谱;确定所述数据监测目标在所述时序知识图谱中对应的目标节点,利用时序链路预测方法预测所述目标节点的未来链路;基于所述数据监测目标继续进行爬虫,得到监测目标内容;根据所述监测目标内容更新所述时序知识图谱,并监测所述时序知识图谱中的新生链路,通过比对所述未来链路和所述新生链路,生成内容监测结果。
通过上述方案,可以实现对多模态新媒体内容的高效获取和监测。通过构建时序知识图谱,并利用时序链路预测方法,可以预测目标节点的未来链路,从而帮助分析多模态新媒体内容的传播趋势和影响力。同时,通过不断更新时序知识图谱和监测新生链路,可以实时监测多模态新媒体内容的变化,并生成内容监测结果,帮助用户了解和分析内容的传播情况。上述方案可以有效提高数据挖掘和监测的准确性和效率。
附图说明
图1为本申请其中一种实施方式中基于数据挖掘的新媒体内容监测方法的流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
参照图1,图1为一个实施例中基于数据挖掘的新媒体内容监测方法的流程示意图。应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。如图1所示,基于数据挖掘的新媒体内容监测方法具体包括如下步骤:
S101.获取数据挖掘目标和数据监测目标,基于数据挖掘目标进行爬虫,得到多模态新媒体内容。
其中,可以通过用户需求、市场研究等方式确定需要进行数据挖掘和监测的目标。可以是特定关键词、主题、事件等。使用爬虫技术从互联网等数据源中获取与数据挖掘目标相关的多模态新媒体内容,包括文本、图片、视频等。可以通过搜索引擎API、社交媒体API等方式进行数据获取。
S102.查询多模态新媒体内容的内容来源方,并根据内容来源方创建来源实体节点。
其中,通过查询多模态新媒体内容的来源方,例如网站、社交媒体账号等,来确定内容的来源。然后,根据这些来源方创建来源实体节点,用于后续构建时序知识图谱。对于每一条获取的新媒体内容,需要查询其内容来源方,例如是哪个用户发布的,或者来自哪个新闻网站。对每个内容来源方创建一个对应的来源实体节点,用于表示这些内容的来源。例如,如果一条推文是由用户@ABC发布的,那么就创建一个名为“@ABC”的来源实体节点。
S103.结合来源实体节点和多模态新媒体内容构建时序知识图谱。
其中,以时序网络结构为基础,将来源实体节点和多模态新媒体内容结合起来,构建时序知识图谱。可以使用图数据库等技术来存储和管理时序知识图谱。将多模态新媒体内容和其对应的来源实体节点结合起来,构建时序知识图谱。每条新媒体内容可以作为一个节点,与其对应的来源实体节点之间建立关联。同时,记录每个节点的时间信息,形成时序知识图谱。例如,如果一条推文包含了图片和视频,那么可以将这条推文、图片、视频以及发布者@ABC构成一个时序知识图谱。
S104.确定数据监测目标在时序知识图谱中对应的目标节点,利用时序链路预测方法预测目标节点的未来链路。
其中,根据数据监测目标,在时序知识图谱中找到对应的目标节点。利用时序链路预测方法,例如基于图的预测算法,预测目标节点的未来链路。预测的未来链路可以是目标节点与其他节点之间的关联关系。
S105.基于数据监测目标继续进行爬虫,得到监测目标内容。
其中,基于数据监测目标,继续使用爬虫技术获取与监测目标相关的内容。可以通过API或者直接访问数据源进行数据获取。
S106.根据监测目标内容更新时序知识图谱,并监测时序知识图谱中的新生链路,通过比对未来链路和新生链路,生成内容监测结果。
其中,将获取到的监测目标内容与时序知识图谱进行更新。可以使用图数据库的更新操作来更新时序知识图谱。同时,监测时序知识图谱中的新生链路,即新产生的关联关系和信息传播路径。通过比对未来链路和新生链路,可以生成内容监测结果。例如,如果预测的未来链路与实际的新生链路高度匹配,那么可以认为预测是准确的。
在其中一种实施方式中,步骤S103具体包括如下步骤:
基于所有来源实体节点、所有来源实体节点之间的索引关系以及多模态新媒体内容与来源实体节点之间的关联关系构建一级图谱层;
按照多模态新媒体内容的内容类别解构多模态新媒体内容并进行分类特征提取,提取得到多个内容实体特征并生成内容实体节点;
在一级图谱层的基础上,基于多个内容实体节点之间的内容关联关系构建二级图谱层;
为所有内容实体特征添加时序属性,并在二级图谱层中的所有节点之间添加时序关系,形成时序知识图谱。
在本实施方式中,首先,基于所有来源实体节点和它们之间的索引关系,以及多模态新媒体内容与来源实体节点之间的关联关系,构建一级图谱层。这意味着将来源实体节点和多模态新媒体内容作为一级节点,通过它们之间的关联关系构建图谱。例如,如果一条新闻来自于某个新闻网站,那么可以将这个新闻网站和新闻内容构建成一级图谱。可以使用图数据库或图模型来存储和管理一级图谱层的节点和关系。对于多模态新媒体内容,需要按照其内容类别进行解构,例如将文本、图片、视频等分开。然后针对每种内容类别进行特征提取,得到多个内容实体特征并生成内容实体节点。举例来说,对于一条包含文本、图片和视频的新闻,需要分别提取文本特征、图片特征和视频特征,并将它们作为内容实体节点的特征。
在一级图谱层的基础上,基于多个内容实体节点之间的内容关联关系构建二级图谱层。这意味着将不同内容实体节点之间的关联关系构建成图谱的边。例如,如果一条新闻中提到了某个事件,并且这个事件对应着另一条新闻,那么可以将这两条新闻之间建立内容关联关系。为所有内容实体特征添加时序属性,即记录它们的发布时间或者其他时间属性。然后在二级图谱层中的所有节点之间添加时序关系,形成时序知识图谱。举例来说,对于新闻内容实体节点,需要记录其发布时间,并在时序知识图谱中将不同新闻内容实体节点之间的时序关系构建起来,以表示它们之间的时间上的演化关系。
举例说明:假设构建一级图谱层时,有来源实体节点A、B和C,它们之间有索引关系。然后,对于一篇新闻文章,进行解构和分类特征提取,得到文本特征节点D和图像特征节点E。在一级图谱层中,将D和E与来源实体节点关联。接下来根据D和E之间的内容关联关系构建二级图谱层。假设D和E之间存在相似性关系,将其作为二级图谱层的关系。在二级图谱层中,D和E成为节点,相似性关系成为节点之间的关系。然后,为D和E添加时序属性,例如发布时间。在二级图谱层中的所有节点之间添加时序关系,例如节点之间的时间先后顺序。通过以上步骤,可以构建一个完整的时序知识图谱,其中包括一级图谱层和二级图谱层,以及节点之间的时序关系。这样的时序知识图谱可以有利于更好地理解和分析新媒体内容的时序演化规律,为内容监测和分析提供更全面的信息。
在其中一种实施方式中,按照多模态新媒体内容的内容类别解构多模态新媒体内容并进行分类特征提取,提取得到多个内容实体特征并生成内容实体节点这一步骤具体包括如下步骤:
根据多模态新媒体内容的信息属性识别多模态新媒体内容的内容类别;
按照内容类别将多模态新媒体内容解构为多类型的新媒体内容,多类型的新媒体内容包括文本内容、图片内容、音频内容和视频内容;
采用自然语言处理方法预处理文本内容,并通过关键词提取获取文本内容中的关键文本特征,利用文本分类算法将关键文本特征进行分类,得到文本内容实体特征,基于文本内容实体特征生成文本内容实体节点;
采用图像特征提取方法预处理图片内容,并提取图片内容中的关键图片特征,利用特征匹配算法将关键图片特征进行分类,得到图片内容实体特征,基于图片内容实体特征生成图片内容实体节点;
采用频谱分析方法预处理音频内容,并提取音频内容中的关键音频特征,利用预设的隐马尔可夫模型将关键音频特征进行分类,得到音频内容实体特征,基于音频内容实体特征生成音频内容实体节点;
采用视频分帧检测方法预处理视频内容,并提取视频内容中的关键视频特征,利用光流法将关键视频特征进行分类,得到视频内容实体特征,基于视频内容实体特征生成视频内容实体节点。
在本实施方式中,首先,根据多模态新媒体内容的信息属性,例如文件格式、元数据等,识别其内容类别。比如以文件格式进行识别,如果文件扩展名是".txt",则可以确定该内容为文本;如果文件扩展名是".jpg",则可以确定该内容为图片,以此类推。然后将多模态新媒体内容按照其内容类别进行解构,分为文本内容、图片内容、音频内容和视频内容。
对文本内容采用自然语言处理方法进行预处理,包括分词、去除停用词、词干提取等。然后通过关键词提取获取文本内容中的关键文本特征,例如通过TF-IDF算法获取关键词。接着利用文本分类算法,如朴素贝叶斯分类器或支持向量机等,将关键文本特征进行分类,得到文本内容实体特征。最后基于文本内容实体特征生成文本内容实体节点。具体地,可以将每段文本表示为一个节点,并将不同时间点的文本构建成时序序列。可以使用词嵌入(word embeddings)或其他文本表示方法来表示文本特征,然后将这些表示作为节点的特征。时间上相邻的文本节点之间可以建立时间上的边,表示它们之间的时序关系。
针对图片内容,采用图像特征提取方法进行预处理,提取图片内容中的关键图片特征,比如颜色直方图、纹理特征、边缘特征等。然后利用特征匹配算法,如K近邻算法或卷积神经网络等,将关键图片特征进行分类,得到图片内容实体特征。最后基于图片内容实体特征生成图片内容实体节点。具体地,可以将每张图片表示为一个节点,并将不同时间点的图片构建成时序序列。可以使用卷积神经网络(CNN)提取图片特征,然后将这些特征作为节点的特征。时间上相邻的图片节点之间可以建立时间上的边,表示它们之间的时序关系。
对于音频内容,采用频谱分析方法进行预处理,提取音频内容中的关键音频特征,如频谱图、声音强度等。然后利用预设的隐马尔可夫模型或其他音频分类模型,将关键音频特征进行分类,得到音频内容实体特征。最后基于音频内容实体特征生成音频内容实体节点。具体地,可以将每段音频表示为一个节点,并将不同时间点的音频构建成时序序列。常用的音频特征表示方法包括梅尔频谱图(Mel spectrogram)、MFCC(Mel-frequencycepstral coefficients)等。这些表示可以作为节点的特征,而不同时间点的音频节点之间可以建立时间上的边,表示它们之间的时序关系。
对于视频内容,采用视频分帧检测方法进行预处理,提取视频内容中的关键视频特征,如运动轨迹、颜色直方图等。然后利用光流法或其他视频特征分类算法,将关键视频特征进行分类,得到视频内容实体特征。最后基于视频内容实体特征生成视频内容实体节点。具体地,可以将每个时间点上的视频帧表示为一个节点,并将不同时间点的视频帧构建成时序序列。可以使用3D卷积神经网络(3D CNN)或光流等方法提取视频特征,然后将这些特征作为节点的特征。相邻时间点上的视频帧节点之间可以建立时间上的边,表示它们之间的时序关系。
在其中一种实施方式中,步骤S104具体包括如下步骤:
根据数据监测目标的内容特征与时序知识图谱中的内容实体节点进行匹配,确定时序知识图谱中与数据监测目标具有关联性的目标节点;
根据时序知识图谱中的时序关系,查询目标节点在时序知识图谱中的历史链路;
基于历史链路进行回溯链路采样,从时序知识图谱中提取目标节点的目标子图结构;
基于目标子图结构,采用预设的神经网络模型并使用直推式时序链路预测方法预测目标节点的未来链路。
在本实施方式中,首先,根据数据监测目标的内容特征,与时序知识图谱中的内容实体节点进行匹配,确定与数据监测目标具有关联性的目标节点。这可以通过比较数据监测目标的内容特征与时序知识图谱中内容实体节点的特征,使用文本相似度算法、图像特征匹配算法等进行匹配。一旦确定了与数据监测目标具有关联性的目标节点,可以根据时序知识图谱中的时序关系,查询目标节点在时序知识图谱中的历史链路。这意味着找出目标节点在过去时序上的相关节点和它们之间的关系,以便进行后续的分析和预测。
基于历史链路进行回溯链路采样,从时序知识图谱中提取目标节点的目标子图结构。这可以通过遍历历史链路,获取与目标节点相关的节点及它们之间的关系,形成目标子图结构,以便用于后续的预测分析。基于目标子图结构,采用预设的神经网络模型并使用直推式时序链路预测方法,预测目标节点的未来链路。这可以通过将目标子图结构作为输入,利用神经网络模型进行训练,并使用直推式时序链路预测方法,来预测目标节点未来的发展趋势和可能的关联节点。
举例来说,假设数据监测目标是一条特定的新闻,首先根据新闻的内容特征在时序知识图谱中确定与之具有关联性的目标节点,比如相关的事件节点、人物节点等。然后查询这些目标节点在时序知识图谱中的历史链路,找出它们在过去的关联关系。接着基于历史链路进行回溯链路采样,提取目标节点的目标子图结构,包括相关的节点和它们之间的关系。最后,可以使用预设的神经网络模型和直推式时序链路预测方法,基于目标子图结构来预测目标节点未来的链路发展情况。
在其中一种实施方式中,步骤S106具体包括如下步骤:
基于监测目标内容的内容特征遍历时序知识图谱中的所有节点,并将特征重复率超出预设阈值的节点标记为监测目标节点;
识别监测目标内容的内容来源可信度,根据内容来源可信度为监测目标内容赋予影响权重;
结合监测目标内容和影响权重更新时序知识图谱,并监测时序知识图谱中的新生链路;
通过比对未来链路和新生链路的链路覆盖目标、链路长度、链路走向和链路分支,生成链路比对结果,根据链路比对结果生成内容监测结果。
在本实施方式中,首先,基于监测目标内容的内容特征,遍历时序知识图谱中的所有节点,并将特征重复率超出预设阈值的节点标记为监测目标节点。具体可以通过计算监测目标内容特征与知识图谱节点特征的相似度,若超出阈值则标记为监测目标节点。对于监测目标内容的内容来源,进行可信度识别,根据内容来源的可信度为监测目标内容赋予影响权重。具体可以通过对内容来源的历史表现、权威性评估、用户评价等多方面考量,给出内容来源的可信度评分。结合监测目标内容和影响权重,更新时序知识图谱,并监测时序知识图谱中的新生链路。这意味着将监测目标内容与其影响权重反映到知识图谱中,并监测有关监测目标内容的新生链路的出现。
通过比对未来链路和新生链路的链路覆盖目标、链路长度、链路走向和链路分支,生成链路比对结果,根据比对结果生成内容监测结果。可以通过比对两种链路的相似性、发展趋势、关联节点等方面进行综合分析,生成内容监测结果。例如链路比对结果为两种链路的相似度,基于相似度并通过预设的相似度阈值生成内容监测结果,当相似度超出相似度阈值时,则生成的内容监测结果为无异常;当相似度未超出相似度阈值时,则生成的内容监测结果为出现异常信息。内容监测结果将反馈给数据监测目标的来源方。
本发明还公开一种基于数据挖掘的新媒体内容监测系统,系统包括:
信息获取子系统,用于获取数据挖掘目标和数据监测目标,基于数据挖掘目标进行爬虫,得到多模态新媒体内容;
节点生成子系统,用于查询多模态新媒体内容的内容来源方,并根据内容来源方创建来源实体节点;
图谱生成子系统,用于结合来源实体节点和多模态新媒体内容构建时序知识图谱;
链路预测子系统,用于确定数据监测目标在时序知识图谱中对应的目标节点,利用时序链路预测方法预测目标节点的未来链路;
内容监测子系统,用于基于数据监测目标继续进行爬虫,得到监测目标内容;
结果生成子系统,用于根据监测目标内容更新时序知识图谱,并监测时序知识图谱中的新生链路,通过比对未来链路和新生链路,生成内容监测结果。
在其中一种实施方式中,图谱生成子系统包括:
第一图谱构建模块,用于基于所有来源实体节点、所有来源实体节点之间的索引关系以及多模态新媒体内容与来源实体节点之间的关联关系构建一级图谱层;
内容节点生成模块,用于按照多模态新媒体内容的内容类别解构多模态新媒体内容并进行分类特征提取,提取得到多个内容实体特征并生成内容实体节点;
第二图谱构建模块,用于在一级图谱层的基础上,基于多个内容实体节点之间的内容关联关系构建二级图谱层;
时序图谱构建模块,用于为所有内容实体特征添加时序属性,并在二级图谱层中的所有节点之间添加时序关系,形成时序知识图谱。
在其中一种实施方式中,内容节点生成模块包括:
内容识别单元,用于根据多模态新媒体内容的信息属性识别多模态新媒体内容的内容类别;
内容解构单元,用于按照内容类别将多模态新媒体内容解构为多类型的新媒体内容,多类型的新媒体内容包括文本内容、图片内容、音频内容和视频内容;
文本内容处理单元,用于采用自然语言处理方法预处理文本内容,并通过关键词提取获取文本内容中的关键文本特征,利用文本分类算法将关键文本特征进行分类,得到文本内容实体特征,基于文本内容实体特征生成文本内容实体节点;
图片内容处理单元,用于采用图像特征提取方法预处理图片内容,并提取图片内容中的关键图片特征,利用特征匹配算法将关键图片特征进行分类,得到图片内容实体特征,基于图片内容实体特征生成图片内容实体节点;
音频内容处理单元,用于,采用频谱分析方法预处理音频内容,并提取音频内容中的关键音频特征,利用预设的隐马尔可夫模型将关键音频特征进行分类,得到音频内容实体特征,基于音频内容实体特征生成音频内容实体节点;
视频内容处理单元,用于采用视频分帧检测方法预处理视频内容,并提取视频内容中的关键视频特征,利用光流法将关键视频特征进行分类,得到视频内容实体特征,基于视频内容实体特征生成视频内容实体节点。
在其中一种实施方式中,链路预测子系统包括:
内容匹配模块,用于根据数据监测目标的内容特征与时序知识图谱中的内容实体节点进行匹配,确定时序知识图谱中与数据监测目标具有关联性的目标节点;
链路查询模块,用于根据时序知识图谱中的时序关系,查询目标节点在时序知识图谱中的历史链路;
子图提取模块,用于基于历史链路进行回溯链路采样,从时序知识图谱中提取目标节点的目标子图结构;
链路预测模块,用于基于目标子图结构,采用预设的神经网络模型并使用直推式时序链路预测方法预测目标节点的未来链路。
在其中一种实施方式中,结果生成子系统包括:
节点标记模块,用于基于监测目标内容的内容特征遍历时序知识图谱中的所有节点,并将特征重复率超出预设阈值的节点标记为监测目标节点;
内容赋权模块,用于识别监测目标内容的内容来源可信度,根据内容来源可信度为监测目标内容赋予影响权重;
链路监测模块,用于结合监测目标内容和影响权重更新时序知识图谱,并监测时序知识图谱中的新生链路;
结果生成模块,用于通过比对未来链路和新生链路的链路覆盖目标、链路长度、链路走向和链路分支,生成链路比对结果,根据链路比对结果生成内容监测结果。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的保护范围限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上的本申请中一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
本申请中一个或多个实施例旨在涵盖落入本申请的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请中一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (6)

1.一种基于数据挖掘的新媒体内容监测方法,其特征在于,包括如下步骤:
获取数据挖掘目标和数据监测目标,基于所述数据挖掘目标进行爬虫,得到多模态新媒体内容;
查询所述多模态新媒体内容的内容来源方,并根据所述内容来源方创建来源实体节点;
基于所有所述来源实体节点、所有所述来源实体节点之间的索引关系以及所述多模态新媒体内容与所述来源实体节点之间的关联关系构建一级图谱层;
按照所述多模态新媒体内容的内容类别解构所述多模态新媒体内容并进行分类特征提取,提取得到多个内容实体特征并生成内容实体节点;
在所述一级图谱层的基础上,基于多个所述内容实体节点之间的内容关联关系构建二级图谱层;
为所有所述内容实体特征添加时序属性,并在所述二级图谱层中的所有节点之间添加时序关系,形成时序知识图谱;
确定所述数据监测目标在所述时序知识图谱中对应的目标节点,利用时序链路预测方法预测所述目标节点的未来链路;
基于所述数据监测目标继续进行爬虫,得到监测目标内容;
基于所述监测目标内容的内容特征遍历所述时序知识图谱中的所有节点,并将特征重复率超出预设阈值的节点标记为监测目标节点;
识别所述监测目标内容的内容来源可信度,根据所述内容来源可信度为所述监测目标内容赋予影响权重;
结合所述监测目标内容和所述影响权重更新所述时序知识图谱,并监测所述时序知识图谱中的新生链路;
通过比对所述未来链路和所述新生链路的链路覆盖目标、链路长度、链路走向和链路分支,生成链路比对结果,根据所述链路比对结果生成内容监测结果。
2.根据权利要求1所述的基于数据挖掘的新媒体内容监测方法,其特征在于,所述按照所述多模态新媒体内容的内容类别解构所述多模态新媒体内容并进行分类特征提取,提取得到多个内容实体特征并生成内容实体节点包括如下步骤:
根据所述多模态新媒体内容的信息属性识别所述多模态新媒体内容的内容类别;
按照所述内容类别将所述多模态新媒体内容解构为多类型的新媒体内容,所述多类型的新媒体内容包括文本内容、图片内容、音频内容和视频内容;
采用自然语言处理方法预处理所述文本内容,并通过关键词提取获取所述文本内容中的关键文本特征,利用文本分类算法将所述关键文本特征进行分类,得到文本内容实体特征,基于所述文本内容实体特征生成文本内容实体节点;
采用图像特征提取方法预处理所述图片内容,并提取所述图片内容中的关键图片特征,利用特征匹配算法将所述关键图片特征进行分类,得到图片内容实体特征,基于所述图片内容实体特征生成图片内容实体节点;
采用频谱分析方法预处理所述音频内容,并提取所述音频内容中的关键音频特征,利用预设的隐马尔可夫模型将所述关键音频特征进行分类,得到音频内容实体特征,基于所述音频内容实体特征生成音频内容实体节点;
采用视频分帧检测方法预处理所述视频内容,并提取所述视频内容中的关键视频特征,利用光流法将所述关键视频特征进行分类,得到视频内容实体特征,基于所述视频内容实体特征生成视频内容实体节点。
3.根据权利要求1所述的基于数据挖掘的新媒体内容监测方法,其特征在于,所述确定所述数据监测目标在所述时序知识图谱中对应的目标节点,利用时序链路预测方法预测所述目标节点的未来链路包括如下步骤:
根据所述数据监测目标的内容特征与所述时序知识图谱中的内容实体节点进行匹配,确定所述时序知识图谱中与数据监测目标具有关联性的目标节点;
根据时序知识图谱中的时序关系,查询所述目标节点在所述时序知识图谱中的历史链路;
基于所述历史链路进行回溯链路采样,从所述时序知识图谱中提取所述目标节点的目标子图结构;
基于所述目标子图结构,采用预设的神经网络模型并使用直推式时序链路预测方法预测所述目标节点的未来链路。
4.一种基于数据挖掘的新媒体内容监测系统,其特征在于,所述系统包括:
信息获取子系统,用于获取数据挖掘目标和数据监测目标,基于所述数据挖掘目标进行爬虫,得到多模态新媒体内容;
节点生成子系统,用于查询所述多模态新媒体内容的内容来源方,并根据所述内容来源方创建来源实体节点;
图谱生成子系统,用于结合所述来源实体节点和所述多模态新媒体内容构建时序知识图谱;
所述图谱生成子系统包括:
第一图谱构建模块,用于基于所有所述来源实体节点、所有所述来源实体节点之间的索引关系以及所述多模态新媒体内容与所述来源实体节点之间的关联关系构建一级图谱层;
内容节点生成模块,用于按照所述多模态新媒体内容的内容类别解构所述多模态新媒体内容并进行分类特征提取,提取得到多个内容实体特征并生成内容实体节点;
第二图谱构建模块,用于在所述一级图谱层的基础上,基于多个所述内容实体节点之间的内容关联关系构建二级图谱层;
时序图谱构建模块,用于为所有所述内容实体特征添加时序属性,并在所述二级图谱层中的所有节点之间添加时序关系,形成时序知识图谱;
链路预测子系统,用于确定所述数据监测目标在所述时序知识图谱中对应的目标节点,利用时序链路预测方法预测所述目标节点的未来链路;
内容监测子系统,用于基于所述数据监测目标继续进行爬虫,得到监测目标内容;
结果生成子系统,用于根据所述监测目标内容更新所述时序知识图谱,并监测所述时序知识图谱中的新生链路,通过比对所述未来链路和所述新生链路,生成内容监测结果;
所述结果生成子系统包括:
节点标记模块,用于基于所述监测目标内容的内容特征遍历所述时序知识图谱中的所有节点,并将特征重复率超出预设阈值的节点标记为监测目标节点;
内容赋权模块,用于识别所述监测目标内容的内容来源可信度,根据所述内容来源可信度为所述监测目标内容赋予影响权重;
链路监测模块,用于结合所述监测目标内容和所述影响权重更新所述时序知识图谱,并监测所述时序知识图谱中的新生链路;
结果生成模块,用于通过比对所述未来链路和所述新生链路的链路覆盖目标、链路长度、链路走向和链路分支,生成链路比对结果,根据所述链路比对结果生成内容监测结果。
5.根据权利要求4所述的基于数据挖掘的新媒体内容监测系统,其特征在于,所述内容节点生成模块包括:
内容识别单元,用于根据所述多模态新媒体内容的信息属性识别所述多模态新媒体内容的内容类别;
内容解构单元,用于按照所述内容类别将所述多模态新媒体内容解构为多类型的新媒体内容,所述多类型的新媒体内容包括文本内容、图片内容、音频内容和视频内容;
文本内容处理单元,用于采用自然语言处理方法预处理所述文本内容,并通过关键词提取获取所述文本内容中的关键文本特征,利用文本分类算法将所述关键文本特征进行分类,得到文本内容实体特征,基于所述文本内容实体特征生成文本内容实体节点;
图片内容处理单元,用于采用图像特征提取方法预处理所述图片内容,并提取所述图片内容中的关键图片特征,利用特征匹配算法将所述关键图片特征进行分类,得到图片内容实体特征,基于所述图片内容实体特征生成图片内容实体节点;
音频内容处理单元,用于,采用频谱分析方法预处理所述音频内容,并提取所述音频内容中的关键音频特征,利用预设的隐马尔可夫模型将所述关键音频特征进行分类,得到音频内容实体特征,基于所述音频内容实体特征生成音频内容实体节点;
视频内容处理单元,用于采用视频分帧检测方法预处理所述视频内容,并提取所述视频内容中的关键视频特征,利用光流法将所述关键视频特征进行分类,得到视频内容实体特征,基于所述视频内容实体特征生成视频内容实体节点。
6.根据权利要求4所述的基于数据挖掘的新媒体内容监测系统,其特征在于,所述链路预测子系统包括:
内容匹配模块,用于根据所述数据监测目标的内容特征与所述时序知识图谱中的内容实体节点进行匹配,确定所述时序知识图谱中与数据监测目标具有关联性的目标节点;
链路查询模块,用于根据时序知识图谱中的时序关系,查询所述目标节点在所述时序知识图谱中的历史链路;
子图提取模块,用于基于所述历史链路进行回溯链路采样,从所述时序知识图谱中提取所述目标节点的目标子图结构;
链路预测模块,用于基于所述目标子图结构,采用预设的神经网络模型并使用直推式时序链路预测方法预测所述目标节点的未来链路。
CN202410104059.9A 2024-01-25 2024-01-25 基于数据挖掘的新媒体内容监测方法及系统 Active CN117633328B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410104059.9A CN117633328B (zh) 2024-01-25 2024-01-25 基于数据挖掘的新媒体内容监测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410104059.9A CN117633328B (zh) 2024-01-25 2024-01-25 基于数据挖掘的新媒体内容监测方法及系统

Publications (2)

Publication Number Publication Date
CN117633328A CN117633328A (zh) 2024-03-01
CN117633328B true CN117633328B (zh) 2024-04-12

Family

ID=90016651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410104059.9A Active CN117633328B (zh) 2024-01-25 2024-01-25 基于数据挖掘的新媒体内容监测方法及系统

Country Status (1)

Country Link
CN (1) CN117633328B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019026087A1 (en) * 2017-07-31 2019-02-07 Kulkarni Hrishikesh PREDICTION SYSTEM BASED ON INTELLIGENT CONTEXT
CN111221984A (zh) * 2020-01-15 2020-06-02 北京百度网讯科技有限公司 多模态内容处理方法、装置、设备及存储介质
CN112200317A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态知识图谱构建方法
WO2021157897A1 (en) * 2020-02-03 2021-08-12 Samsung Electronics Co., Ltd. A system and method for efficient multi-relational entity understanding and retrieval
CN114064926A (zh) * 2021-11-24 2022-02-18 国家电网有限公司大数据中心 多模态电力知识图谱构建方法、装置、设备及存储介质
CN116737943A (zh) * 2023-04-19 2023-09-12 海南大学 面向新闻领域的时序知识图谱链路预测方法
US11809480B1 (en) * 2020-12-31 2023-11-07 Meta Platforms, Inc. Generating dynamic knowledge graph of media contents for assistant systems

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9679558B2 (en) * 2014-05-15 2017-06-13 Microsoft Technology Licensing, Llc Language modeling for conversational understanding domains using semantic web resources
WO2018055646A1 (en) * 2016-09-22 2018-03-29 Dogma Srl. Method and system for searching, publishing and managing the life cycle of multimedia contents related to public events and the user experience
US20220343903A1 (en) * 2021-04-21 2022-10-27 Verneek, Inc. Data-Informed Decision Making Through a Domain-General Artificial Intelligence Platform

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019026087A1 (en) * 2017-07-31 2019-02-07 Kulkarni Hrishikesh PREDICTION SYSTEM BASED ON INTELLIGENT CONTEXT
CN111221984A (zh) * 2020-01-15 2020-06-02 北京百度网讯科技有限公司 多模态内容处理方法、装置、设备及存储介质
WO2021157897A1 (en) * 2020-02-03 2021-08-12 Samsung Electronics Co., Ltd. A system and method for efficient multi-relational entity understanding and retrieval
CN112200317A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态知识图谱构建方法
US11809480B1 (en) * 2020-12-31 2023-11-07 Meta Platforms, Inc. Generating dynamic knowledge graph of media contents for assistant systems
CN114064926A (zh) * 2021-11-24 2022-02-18 国家电网有限公司大数据中心 多模态电力知识图谱构建方法、装置、设备及存储介质
CN116737943A (zh) * 2023-04-19 2023-09-12 海南大学 面向新闻领域的时序知识图谱链路预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LP-UIT:A Multimodal Framework for Link Prediction in social Networks;Huizi Wu;2021IEEE;20211231;742-749 *
一种基于链接预测的多模态知识图谱补全技术;姜巍;软件;20221231;第43卷(第12期);25-27 *

Also Published As

Publication number Publication date
CN117633328A (zh) 2024-03-01

Similar Documents

Publication Publication Date Title
US11803591B2 (en) Method and apparatus for multi-dimensional content search and video identification
US10642891B2 (en) Graph matching by sub-graph grouping and indexing
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN110362660A (zh) 一种基于知识图谱的电子产品质量自动检测方法
US20080168070A1 (en) Method and apparatus for classifying multimedia artifacts using ontology selection and semantic classification
CN105159938B (zh) 检索方法和装置
US10387805B2 (en) System and method for ranking news feeds
CN113378565B (zh) 多源数据融合的事件分析方法、装置、设备及存储介质
Dang et al. Framework for retrieving relevant contents related to fashion from online social network data
WO2023108980A1 (zh) 基于文本对抗样例的信息推送方法及装置
TWI571756B (zh) 用以分析瀏覽記錄及其文件之方法及其系統
CN105589974A (zh) 基于Hadoop平台的监控视频检索方法和系统
Sreeja et al. A unified model for egocentric video summarization: an instance-based approach
CN117351334A (zh) 图像审核方法和相关设备
CN117633328B (zh) 基于数据挖掘的新媒体内容监测方法及系统
CN110727867A (zh) 一种基于模糊机制的语义实体推荐方法
KR20180067976A (ko) 태그의 감성 분석을 이용한 영화 평점 예측 방법, 이를 수행하기 위한 기록 매체 및 장치
CN112989105A (zh) 一种音乐结构的分析方法及系统
CN115858763A (zh) 多模态数据融合的城管事件分析方法及其应用
Choe et al. Semantic video event search for surveillance video
Nguyen et al. Pagerank-based approach on ranking social events: a case study with flickr
Li et al. [Retracted] Matching Subsequence Music Retrieval in a Software Integration Environment
Şimşek et al. CEP rule extraction from unlabeled data in IoT
Mojiri et al. Event detection in Twitter using multi timing chained windows
CN117708746B (zh) 一种基于多模态数据融合的风险预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant