CN113434751B - 一种网络热点人工智能预警系统及方法 - Google Patents

一种网络热点人工智能预警系统及方法 Download PDF

Info

Publication number
CN113434751B
CN113434751B CN202110792927.3A CN202110792927A CN113434751B CN 113434751 B CN113434751 B CN 113434751B CN 202110792927 A CN202110792927 A CN 202110792927A CN 113434751 B CN113434751 B CN 113434751B
Authority
CN
China
Prior art keywords
file
search
content
base
core information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110792927.3A
Other languages
English (en)
Other versions
CN113434751A (zh
Inventor
李斌阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Relations, University of
Original Assignee
International Relations, University of
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Relations, University of filed Critical International Relations, University of
Priority to CN202110792927.3A priority Critical patent/CN113434751B/zh
Publication of CN113434751A publication Critical patent/CN113434751A/zh
Application granted granted Critical
Publication of CN113434751B publication Critical patent/CN113434751B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B31/00Predictive alarm systems characterised by extrapolation or other computation using updated historic data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Emergency Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及网络监管技术领域,具体公开了一种网络热点人工智能预警系统及方法,所述系统包括:搜索结果获取模块,用于实时获取热搜词,将所述热搜词输入至预先标记的多个应用App中进行搜索,获取多个搜索结果;核心信息生成模块,用于识别搜索结果的文件类型,根据所述文件类型对搜索结果进行内容识别;遍历多个搜索结果所对应的内容识别结果,并基于相同的内容识别结果生成核心信息;其中,所述文件类型包括视频、音频和文本;本发明根据各软件中的热搜数据获取搜索结果,然后将所述搜索结果转换为纯文本文件,提取核心信息,所述核心信息即为热点。本发明不会直接监管用户终端,所需算力效率,不侵犯侵私的同时,提高了资源利用率。

Description

一种网络热点人工智能预警系统及方法
技术领域
本发明涉及网络监管技术领域,具体是一种网络热点人工智能预警系统及方法。
背景技术
在当今社会,网络媒体逐渐成为了大部分人获取信息的主要途径,但是在网络媒体传递信息的过程中,由于发布者的多元性以及隐匿性,往往会有很多不合适的内容出现,这些不合适的内容大多数以吸引别人注意为目的而发布的,随着社会的进步以及科技的发展,通过网络获取信息的人也越来越多,在获取信息的同时,本身就可以作为传播者,因此,很容易会发生不合适内容的快速传播,相应的,热点监控,特别是网络热点监控,便作为一个新的技术领域出现了。
但是现有的网络监控过程,往往都是监控用户终端,监控其交互软件中的内容,然后对内容进行风险识别,可以想到,这一过程是需要功能很强大的设备的,当然,在现有的计算机技术和网络技术下,是可以实现的,但是这样监管不仅侵犯用户的隐私,而且资源利用率不是很高。
因此,如何设计一种不直接对用户终端进行监管的热点监控系统是本发明所要解决的问题。
发明内容
本发明的目的在于提供一种网络热点人工智能预警系统及方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种网络热点人工智能预警方法,包括:
实时获取热搜词,将所述热搜词输入至预先标记的多个应用App中进行搜索,获取多个搜索结果;
识别搜索结果的文件类型,根据所述文件类型对搜索结果进行内容识别;遍历多个搜索结果所对应的内容识别结果,并基于相同的内容识别结果生成核心信息;其中,所述文件类型包括视频、音频和文本;
输入所述核心信息至传播预测模型中,得到所述核心信息在预设时间内的预测分享次数;
当所述预测分享次数大于预设的阈值时,标记所述核心信息以及与所述核心信息对应的热搜词,生成预警表。
作为本发明技术方案进一步的限定:所述实时获取热搜词,将所述热搜词输入至预先标记的多个应用App中进行搜索,获取多个搜索结果的步骤具体包括:
依次建立与应用App数据库的连接通道,实时获取热搜词;
将所述热搜词输入至其它应用App的搜索引擎,获取反馈内容;
获取所述反馈内容的浏览量,当所述浏览量大于预设的第二阈值时,标记所述反馈内容;
统计标记的反馈内容,得到搜索结果。
作为本发明技术方案进一步的限定:所述识别搜索结果的文件类型,根据所述文件类型进行内容识别的步骤具体包括:
获取搜索结果,基于所述搜索结果的文件后缀名确定文件类型;
当所述文件类型为文本文件时,提取文字信息,得到纯文本文件;
当所述文件类型为音频文件时,对所述音频文件进行语音识别,得到纯文本文件;
当所述文件类型为视频文件时,将所述视频文件转换为图像文件和音频文件,对所述图像文件进行文字识别,得到纯文本文件,对所述音频文件进行语音识别,得到纯文本文件。
作为本发明技术方案进一步的限定:所述遍历多个搜索结果所对应的内容识别结果,并基于相同的内容识别结果生成核心信息步骤具体包括:
读取不同纯文本文件字符数,得到字符数最小的基底文件;
比对其它文本文件与所述基底文件,得到重复内容及相应的重复次数,并根据重复内容及相应的重复次数生成信息表;
根据预设的第三阈值截取所述信息表,得到核心信息。
作为本发明技术方案进一步的限定:所述比对其它文本文件与所述基底文件,得到重复内容及相应的重复次数的步骤具体包括:
读取基底文件,根据串长提取基底文件中的基底字符串;
根据串长提取其它纯文本文件中的字符串,并将提取到的字符串与所述基底字符串比对;
当比对结果相同时,更新重复次数,并建立所述重复次数与所述基底字符串之间的映射;
根据所述重复次数对所述基底字符串进行排序,生成信息表;
其中,所述串长为变量,所述串长顺序减小,所述串长最大为所述基底文件的字符数,最小为二。
本发明技术方案还提供了一种网络热点人工智能预警系统,所述系统具体包括:
搜索结果获取模块,用于实时获取热搜词,将所述热搜词输入至预先标记的多个应用App中进行搜索,获取多个搜索结果;
核心信息生成模块,识别搜索结果的文件类型,根据所述文件类型对搜索结果进行内容识别;遍历多个搜索结果所对应的内容识别结果,并基于相同的内容识别结果生成核心信息;其中,所述文件类型包括视频、音频和文本;
预测模块,输入所述核心信息至传播预测模型中,得到所述核心信息在预设时间内的预测分享次数;
标记模块,当所述预测分享次数大于预设的阈值时,标记所述核心信息以及与所述核心信息对应的热搜词,生成预警表。
作为本发明技术方案进一步的限定:所述搜索结果获取模块具体包括:
词汇获取单元,用于依次建立与应用App数据库的连接通道,实时获取热搜词;
反馈内容单元,用于将所述热搜词输入至其它应用App的搜索引擎,获取反馈内容;
浏览量判断单元,用元获取所述反馈内容的浏览量,当所述浏览量大于预设的第二阈值时,标记所述反馈内容;
执行单元,用于统计标记的反馈内容,得到搜索结果。
作为本发明技术方案进一步的限定:所述核心信息生成模块具体包括:
类型确定单元,用于获取搜索结果,基于所述搜索结果的文件后缀名确定文件类型;
文本文件处理单元,用于当所述文件类型为文本文件时,提取文字信息,得到纯文本文件;
音频文件处理单元,用于当所述文件类型为音频文件时,对所述音频文件进行语音识别,得到纯文本文件;
视频文件处理单元,用于当所述文件类型为视频文件时,将所述视频文件转换为图像文件和音频文件,对所述图像文件进行文字识别,得到纯文本文件,对所述音频文件进行语音识别,得到纯文本文件。
作为本发明技术方案进一步的限定:所述核心信息生成模块还包括:
基底文件生成单元,用于读取不同纯文本文件字符数,得到字符数最小的基底文件;
比对单元,用于比对其它文本文件与所述基底文件,得到重复内容及相应的重复次数,并根据重复内容及相应的重复次数生成信息表;
截取单元,用于根据预设的第三阈值截取所述信息表,得到核心信息。
作为本发明技术方案进一步的限定:所述比对单元具体包括:
提取子单元,用于读取基底文件,根据串长提取基底文件中的基底字符串;
处理子单元,用于根据串长提取其它纯文本文件中的字符串,并将提取到的字符串与所述基底字符串比对;
次数更新子单元,用于当比对结果相同时,更新重复次数,并建立所述重复次数与所述基底字符串之间的映射;
排序子单元,用于根据所述重复次数对所述基底字符串进行排序,生成信息表;
其中,所述串长为变量,所述串长顺序减小,所述串长最大为所述基底文件的字符数,最小为二。
与现有技术相比,本发明的有益效果是:本发明根据各软件中的热搜数据获取搜索结果,然后将所述搜索结果转换为纯文本文件,提取核心信息,所述核心信息即为热点。本发明不会直接监管用户终端,所需算力效率,不侵犯侵私的同时,提高了资源利用率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。
图1为网络热点人工智能预警方法的流程框图。
图2为网络热点人工智能预警方法的第一子流程框图。
图3为网络热点人工智能预警方法的第二子流程框图。
图4为网络热点人工智能预警方法的第三子流程框图。
图5为网络热点人工智能预警方法的第四子流程框图。
图6为网络热点人工智能预警系统的组成框图。
图7为网络热点人工智能预警系统中搜索结果获取模块的组成框图。
图8为网络热点人工智能预警系统中核心信息生成模块的第一组成框图。
图9为网络热点人工智能预警系统中核心信息生成模块的第二的组成框图。
图10为核心信息生成模块中比对单元的组成框图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
图1示出了网络热点人工智能预警方法的流程框图,本发明实施例中,提供了一种网络热点人工智能预警方法,所述方法包括步骤S200-步骤S800:
步骤S200:实时获取热搜词,将所述热搜词输入至预先标记的多个应用App中进行搜索,获取多个搜索结果;
现有网络APP中都会具备搜索的功能,也会记录相应的搜索频率,可以想象这样一个具体的例子,在一些搜索引擎中,我们在键入信息的时候,总会有一些便捷词条会显示出来,便于我们去键入信息,或是引起我们的注意,很多人认为这是一些推送的广告信息,其实它也是上述热搜词的一种。在获取热搜词后,还需要基于所述热搜词获取相应的内容,因为热搜词的概括性太高,所以它很难去反应具体的内容,因此需要基于所述热搜词获取相应的内容。
步骤S400:识别搜索结果的文件类型,根据所述文件类型对搜索结果进行内容识别;遍历多个搜索结果所对应的内容识别结果,并基于相同的内容识别结果生成核心信息;其中,所述文件类型包括视频、音频和文本;
步骤S400是本发明的核心步骤,目的是对搜索结果进行检测,可以想到,如果一个新闻比较火,那么在各大媒体软件上是都是可以获取到的,我们通过搜索词去获取搜索结果时,会出现很多类型的文件,但归根结底只有三种,即,视频、音频和文本,对所述文件进行类型识别后,就进行比对。
步骤S600:输入所述核心信息至传播预测模型中,得到所述核心信息在预设时间内的预测分享次数;
步骤S800:当所述预测分享次数大于预设的阈值时,标记所述核心信息以及与所述核心信息对应的热搜词,生成预警表。
步骤S600-步骤S800是对于已经生成的核心信息进行处理,其处理过程是通过传播预测模型进行分享次数的预测,所述分享次数即可视为传播指数,其核心是传播预测模型;本发明技术方案中,可以采用多元线性回归模型,其中,多元线性回归模型中的输入是核心信息,每条核心信息都有着自己的属性,而这些属性就是多元线性回归模型的因变量,所述属性包括信息类别,比如,属于娱乐类别的核心信息与属于科技的核心信息之间的传播能力肯定是不同的;所述属性包括所述核心信息中人物信息的热度,像“科比”这类体坛巨星肯定是有着热度的,如果一个核心信息中具体这些词,那么它的传播能力也会增强;所述属性包括所述核心信息中流行词的数量,当然,流行词的定义是一个时效性的概念,因此,需要实时更新;此外,所述属性还可以包括一些其它数据,比如:基于相同的内容识别结果生成核心信息时,相同识别结果的个数以及多个搜索结果所对应的最早发布时间等等。
上述多元线性回归模型一定离不开初始的样本数据,即,预先获取一些信息及其分享次数,根据这些信息及其分享次数得到多元线性回归模块;值得一提的是,如果样本数据变化,所述多元线性回归模型也会随之改变,而本发明技术方案本身面对的问题也是具备时效性的,因此,需要定期调整样本数据,使得多元线性回归模型更加契合时代。
图2示出了网络热点人工智能预警方法的第一子流程框图,所述实时获取热搜词,将所述热搜词输入至预先标记的多个应用App中进行搜索,获取多个搜索结果的步骤具体包括步骤S201-步骤S207:
步骤S201:依次建立与应用App数据库的连接通道,实时获取热搜词;
步骤S203:将所述热搜词输入至其它应用App的搜索引擎,获取反馈内容;
步骤S205:获取所述反馈内容的浏览量,当所述浏览量大于预设的第二阈值时,标记所述反馈内容;
步骤S207:统计标记的反馈内容,得到搜索结果。
步骤S201-步骤S207是通过热搜词获取搜索结果的具体过程,其中,有一个重要的地方,即,步骤S203,将所述热搜词输入至其它应用App的搜索引擎,举例来说,微博上的热搜词,我需要将它输入除了微博以外的软件进行搜索,获取内容。
图3示出了网络热点人工智能预警方法的第二子流程框图,所述识别搜索结果的文件类型,根据所述文件类型进行内容识别的步骤具体包括步骤S401-步骤S407:
步骤S401:获取搜索结果,基于所述搜索结果的文件后缀名确定文件类型;
步骤S403:当所述文件类型为文本文件时,提取文字信息,得到纯文本文件;
步骤S403中的提取文字信息的意义是删除分隔符,所述文本文件与所述纯文本文件的区别就在于是否具有分隔符,有分隔符的是文本文件,无分隔符的是纯文本文件。
步骤S405:当所述文件类型为音频文件时,对所述音频文件进行语音识别,得到纯文本文件;
步骤S407:当所述文件类型为视频文件时,将所述视频文件转换为图像文件和音频文件,对所述图像文件进行文字识别,得到纯文本文件,对所述音频文件进行语音识别,得到纯文本文件;
步骤S401-步骤S407是文件分类的过程,文件后缀名便可以代表文件的类型,当然,有些软件有着自己的独特的后缀名,但是它们也可以归结为上述三种类型;步骤S403-步骤S407则是对不同类型文件的具体处理过程,可以看出,它们的目的都是生成纯文本文件。
图4示出了网络热点人工智能预警方法的第三子流程框图,所述遍历多个搜索结果所对应的内容识别结果,并基于相同的内容识别结果生成核心信息的步骤具体包括:
步骤S409:读取不同纯文本文件字符数,得到字符数最小的基底文件;
步骤S4011:比对其它文本文件与所述基底文件,得到重复内容及相应的重复次数,并根据重复内容及相应的重复次数生成信息表;
步骤S4013:根据预设的第三阈值截取所述信息表,得到核心信息。
在经过步骤S403-步骤S407生成纯文本文件后,需要通过这些纯文本文件得到重复的内容,也就是上述核心信息;上述比对过程是多个纯文本文件之间的比对,而每个纯文本文件中需要比对的内容显然不是一样长的,我们想要获取的是长度尽可能长的相同内容,比如,中国1:0韩国时的新闻,任何媒体的新闻中都会出现“于大宝头球射门”这样一句话,我们在比对过程中,就是想要去获取这样一句话,而不是“进球”这类比较短的词汇。
每个文本文件中都有很多种组合方式,可以想到,多个文本之间的比较是一个多 对多的比对过程,这是很难去实现的;但是本发明技术方案提供了一种具体的比对方式,这 也是本发明其中一个与众不同的实质性特点,即,本发明将字符数最小的纯文本文件作为 基底文件,其它文本文件均与所述基底文件进行比对,进而使得比对过程有序进行,其中, 在比对过程中,对于每个在比对的内容均进行重复次数的计算,然后根据重复次数生成比 对记录,也就是信息表;最后,仅截取重复次数达到一定程度的子信息表,所述子信息表中 的内容均为核心信息。所述信息表如下:
比对内容 重复次数
基底文件中的子内容 次数
…… ……
基底文件中的子内容 次数
图5示出了网络热点人工智能预警方法的第四子流程框图,所述比对其它文本文件与所述基底文件,得到重复内容及相应的重复次数的步骤具体包括:
步骤S40111:读取基底文件,根据串长提取基底文件中的基底字符串;
步骤S40113:根据串长提取其它纯文本文件中的字符串,并将提取到的字符串与所述基底字符串比对;
步骤S40115:当比对结果相同时,更新重复次数,并建立所述重复次数与所述基底字符串之间的映射;
步骤S40117:根据所述重复次数对所述基底字符串进行排序,生成信息表;
步骤S40111-步骤S40117是具体的通过基底文件比对其它纯文本文件的过程,首先,根据基底文件生成基底内容,可以想到,若想获取长度尽量长的相同内容,基底内容的长度应该是从大到小依次降低的,其长度最长不得超过基底文件的长度,最少可以是一,也可以是二,但一般情况下,单字的意义不大。所述基底内容就是上述基底字符串,所述基底内容的长度就是上述串长,所述串长为变量。值得一提的是,上述重复次数初始为零,每有一个相同的,则加一;建立所述重复次数与所述基底字符串之间的映射就是生成对应关系,也可以理解为,生成一张未排序的表。
实施例2
图6示出了网络热点人工智能预警系统的组成框图,本发明实施例中,提供了一种网络热点人工智能预警系统,所述系统10包括:
搜索结果获取模块11,用于实时获取热搜词,将所述热搜词输入至预先标记的多个应用App中进行搜索,获取多个搜索结果;
所述搜索结果获取模块11用于完成步骤200;
核心信息生成模块12,用于识别搜索结果的文件类型,根据所述文件类型对搜索结果进行内容识别;遍历多个搜索结果所对应的内容识别结果,并基于相同的内容识别结果生成核心信息;其中,所述文件类型包括视频、音频和文本;
所述核心信息生成模块12用于完成步骤400;
预测模块13,用于输入所述核心信息至传播预测模型中,得到所述核心信息在预设时间内的预测分享次数;
所述预测模块13用于完成步骤600;
标记模块14,用于当所述预测分享次数大于预设的阈值时,标记所述核心信息以及与所述核心信息对应的热搜词,生成预警表;
所述标记模块14用于完成步骤800。
图7示出了网络热点人工智能预警系统中搜索结果获取模块的组成框图,所述搜索结果获取模块11具体包括:
词汇获取单元111,用于依次建立与应用App数据库的连接通道,实时获取热搜词;
词汇获取单元111用于完成步骤S201;
反馈内容单元112,用于将所述热搜词输入至其它应用App的搜索引擎,获取反馈内容;
反馈内容单元112用于完成步骤S203;
浏览量判断单元113,用元获取所述反馈内容的浏览量,当所述浏览量大于预设的第二阈值时,标记所述反馈内容;
所述浏览量判断单元113用于完成步骤S205;
执行单元114,用于统计标记的反馈内容,得到搜索结果;
所述执行单元114用于完成步骤S207。
图8示出了网络热点人工智能预警系统中核心信息生成模块的第一组成框图,所述核心信息生成模块12具体包括:
类型确定单元121,用于获取搜索结果,基于所述搜索结果的文件后缀名确定文件类型;
所述类型确定单元121用于完成步骤401;
文本文件处理单元122,用于当所述文件类型为文本文件时,提取文字信息,得到纯文本文件;
所述文本文件处理单元122用于完成步骤403;
音频文件处理单元123,用于当所述文件类型为音频文件时,对所述音频文件进行语音识别,得到纯文本文件;
所述音频文件处理单元123用于完成步骤S405;
视频文件处理单元124,用于当所述文件类型为视频文件时,将所述视频文件转换为图像文件和音频文件,对所述图像文件进行文字识别,得到纯文本文件,对所述音频文件进行语音识别,得到纯文本文件;
所述视频文件处理单元124用于完成步骤S407。
图9示出了网络热点人工智能预警系统中核心信息生成模块的第二的组成框图,所述核心信息生成模块12还包括:
基底文件生成单元125,用于读取不同纯文本文件字符数,得到字符数最小的基底文件;
所述基底文件生成单元125用于完成步骤S409;
比对单元126,用于比对其它文本文件与所述基底文件,得到重复内容及相应的重复次数,并根据重复内容及相应的重复次数生成信息表;
所述比对单元126用于完成步骤S4011;
截取单元127,用于根据预设的第三阈值截取所述信息表,得到核心信息;
所述截取单元127用于完成步骤S4013。
图10示出了核心信息生成模块中比对单元的组成框图,所述比对单元126具体包括:
提取子单元1261,用于读取基底文件,根据串长提取基底文件中的基底字符串;
所述提取子单元1261用于完成步骤S40111;
处理子单元1262,用于根据串长提取其它纯文本文件中的字符串,并将提取到的字符串与所述基底字符串比对;
所述处理子单元1262用于完成步骤S40113;
次数更新子单元1263,用于当比对结果相同时,更新重复次数,并建立所述重复次数与所述基底字符串之间的映射;
所述次数更新子单元1263用于完成步骤S40115;
排序子单元1264,用于根据所述重复次数对所述基底字符串进行排序,生成信息表;
所述排序子单元1264用于完成步骤S40117;
其中,所述串长为变量,所述串长顺序减小,所述串长最大为所述基底文件的字符数,最小为二。
上述网络热点人工智能预警方法所能实现的功能均由计算机设备完成,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述程序代码由所述一个或多个处理器加载并执行以实现所述网络热点人工智能预警方法的功能。
处理器从存储器中逐条取出指令、分析指令,然后根据指令要求完成相应操作,产生一系列控制命令,使计算机各部分自动、连续并协调动作,成为一个有机的整体,实现程序的输入、数据的输入以及运算并输出结果,这一过程中产生的算术运算或逻辑运算均由运算器完成;所述存储器包括只读存储器(Read-Only Memory,ROM),所述只读存储器用于存储计算机程序,所述存储器外部设有保护装置。
示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在终端设备中的执行过程。
本领域技术人员可以理解,上述服务设备的描述仅仅是示例,并不构成对终端设备的限定,可以包括比上述描述更多或更少的部件,或者组合某些部件,或者不同的部件,例如可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,上述处理器是上述终端设备的控制中心,利用各种接口和线路连接整个用户终端的各个部分。
上述存储器可用于存储计算机程序和/或模块,上述处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现上述终端设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用App(比如信息采集模板展示功能、产品信息发布功能等)等;存储数据区可存储根据泊位状态显示系统的使用所创建的数据(比如不同产品种类对应的产品信息采集模板、不同产品提供方需要发布的产品信息等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例系统中的全部或部分模块/单元,也可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个系统实施例的功能。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种网络热点人工智能预警方法,其特征在于,包括:
实时获取热搜词,将所述热搜词输入至预先标记的多个应用App中进行搜索,获取多个搜索结果;
识别搜索结果的文件类型,根据所述文件类型对搜索结果进行内容识别;遍历多个搜索结果所对应的内容识别结果,并基于相同的内容识别结果生成核心信息;其中,所述文件类型包括视频、音频和文本;
输入所述核心信息至传播预测模型中,得到所述核心信息在预设时间内的预测分享次数;
当所述预测分享次数大于预设的阈值时,标记所述核心信息以及与所述核心信息对应的热搜词,生成预警表;
所述实时获取热搜词,将所述热搜词输入至预先标记的多个应用App中进行搜索,获取多个搜索结果的步骤具体包括:
依次建立与应用App数据库的连接通道,实时获取热搜词;
将所述热搜词输入至其它应用App的搜索引擎,获取反馈内容;
获取所述反馈内容的浏览量,当所述浏览量大于预设的第二阈值时,标记所述反馈内容;
统计标记的反馈内容,得到搜索结果。
2.根据权利要求1所述的网络热点人工智能预警方法,其特征在于,所述识别搜索结果的文件类型,根据所述文件类型进行内容识别的步骤具体包括:
获取搜索结果,基于所述搜索结果的文件后缀名确定文件类型;
当所述文件类型为文本文件时,提取文字信息,得到纯文本文件;
当所述文件类型为音频文件时,对所述音频文件进行语音识别,得到纯文本文件;
当所述文件类型为视频文件时,将所述视频文件转换为图像文件和音频文件,对所述图像文件进行文字识别,得到纯文本文件,对所述音频文件进行语音识别,得到纯文本文件。
3.根据权利要求2所述的网络热点人工智能预警方法,其特征在于,所述遍历多个搜索结果所对应的内容识别结果,并基于相同的内容识别结果生成核心信息步骤具体包括:
读取不同纯文本文件字符数,得到字符数最小的基底文件;
比对其它文本文件与所述基底文件,得到重复内容及相应的重复次数,并根据重复内容及相应的重复次数生成信息表;
根据预设的第三阈值截取所述信息表,得到核心信息。
4.根据权利要求3所述的网络热点人工智能预警方法,其特征在于,所述比对其它文本文件与所述基底文件,得到重复内容及相应的重复次数的步骤具体包括:
读取基底文件,根据串长提取基底文件中的基底字符串;
根据串长提取其它纯文本文件中的字符串,并将提取到的字符串与所述基底字符串比对;
当比对结果相同时,更新重复次数,并建立所述重复次数与所述基底字符串之间的映射;
根据所述重复次数对所述基底字符串进行排序,生成信息表;
其中,所述串长为变量,所述串长顺序减小,所述串长最大为所述基底文件的字符数,最小为二。
5.一种网络热点人工智能预警系统,其特征在于,所述系统具体包括:
搜索结果获取模块,用于实时获取热搜词,将所述热搜词输入至预先标记的多个应用App中进行搜索,获取多个搜索结果;
核心信息生成模块,用于识别搜索结果的文件类型,根据所述文件类型对搜索结果进行内容识别;遍历多个搜索结果所对应的内容识别结果,并基于相同的内容识别结果生成核心信息;其中,所述文件类型包括视频、音频和文本;
预测模块,用于输入所述核心信息至传播预测模型中,得到所述核心信息在预设时间内的预测分享次数;
标记模块,用于当所述预测分享次数大于预设的阈值时,标记所述核心信息以及与所述核心信息对应的热搜词,生成预警表;
所述搜索结果获取模块具体包括:
词汇获取单元,用于依次建立与应用App数据库的连接通道,实时获取热搜词;
反馈内容单元,用于将所述热搜词输入至其它应用App的搜索引擎,获取反馈内容;
浏览量判断单元,用元获取所述反馈内容的浏览量,当所述浏览量大于预设的第二阈值时,标记所述反馈内容;
执行单元,用于统计标记的反馈内容,得到搜索结果。
6.根据权利要求5所述的网络热点人工智能预警系统,其特征在于,所述核心信息生成模块具体包括:
类型确定单元,用于获取搜索结果,基于所述搜索结果的文件后缀名确定文件类型;
文本文件处理单元,用于当所述文件类型为文本文件时,提取文字信息,得到纯文本文件;
音频文件处理单元,用于当所述文件类型为音频文件时,对所述音频文件进行语音识别,得到纯文本文件;
视频文件处理单元,用于当所述文件类型为视频文件时,将所述视频文件转换为图像文件和音频文件,对所述图像文件进行文字识别,得到纯文本文件,对所述音频文件进行语音识别,得到纯文本文件。
7.根据权利要求6所述的网络热点人工智能预警系统,其特征在于,所述核心信息生成模块还包括:
基底文件生成单元,用于读取不同纯文本文件字符数,得到字符数最小的基底文件;
比对单元,用于比对其它文本文件与所述基底文件,得到重复内容及相应的重复次数,并根据重复内容及相应的重复次数生成信息表;
截取单元,用于根据预设的第三阈值截取所述信息表,得到核心信息。
8.根据权利要求7所述的网络热点人工智能预警系统,其特征在于,所述比对单元具体包括:
提取子单元,用于读取基底文件,根据串长提取基底文件中的基底字符串;
处理子单元,用于根据串长提取其它纯文本文件中的字符串,并将提取到的字符串与所述基底字符串比对;
次数更新子单元,用于当比对结果相同时,更新重复次数,并建立所述重复次数与所述基底字符串之间的映射;
排序子单元,用于根据所述重复次数对所述基底字符串进行排序,生成信息表;
其中,所述串长为变量,所述串长顺序减小,所述串长最大为所述基底文件的字符数,最小为二。
CN202110792927.3A 2021-07-14 2021-07-14 一种网络热点人工智能预警系统及方法 Active CN113434751B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110792927.3A CN113434751B (zh) 2021-07-14 2021-07-14 一种网络热点人工智能预警系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110792927.3A CN113434751B (zh) 2021-07-14 2021-07-14 一种网络热点人工智能预警系统及方法

Publications (2)

Publication Number Publication Date
CN113434751A CN113434751A (zh) 2021-09-24
CN113434751B true CN113434751B (zh) 2023-06-02

Family

ID=77760302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110792927.3A Active CN113434751B (zh) 2021-07-14 2021-07-14 一种网络热点人工智能预警系统及方法

Country Status (1)

Country Link
CN (1) CN113434751B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004206517A (ja) * 2002-12-26 2004-07-22 Nifty Corp ホットキーワード提示方法及びホットサイト提示方法
WO2008128442A1 (fr) * 2007-04-24 2008-10-30 Peking University Procédé pour la surveillance d'un état anormal d'informations internet
CN103955530A (zh) * 2014-05-12 2014-07-30 暨南大学 一种在线重复数据删除系统的数据重建优化方法
CN104111999A (zh) * 2014-07-02 2014-10-22 烽火通信科技股份有限公司 一种搜索引擎热点词分析算法
CN104850549A (zh) * 2014-02-13 2015-08-19 夷希数码科技(上海)有限公司 一种网络舆情的监控方法
CN106156041A (zh) * 2015-03-26 2016-11-23 科大讯飞股份有限公司 热点信息发现方法及系统
CN107944019A (zh) * 2017-12-11 2018-04-20 中广在线(北京)文化传媒有限公司 一种基于爬虫技术的境外舆情监测装置、系统及方法
CN112434226A (zh) * 2020-12-15 2021-03-02 易研信息科技有限公司 一种网络舆情监测预警方法
CN113014517A (zh) * 2021-02-23 2021-06-22 国网江西省电力有限公司检修分公司 基于csd文件的交换机转发信息实时比对方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4790235B2 (ja) * 2004-07-09 2011-10-12 株式会社リコー 情報表示装置、情報表示方法、およびその方法をコンピュータで実行させるプログラム
US9639549B2 (en) * 2014-01-24 2017-05-02 International Business Machines Corporation Hybrid of proximity and identity similarity based deduplication in a data deduplication system
US10102848B2 (en) * 2014-02-28 2018-10-16 Google Llc Hotwords presentation framework

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004206517A (ja) * 2002-12-26 2004-07-22 Nifty Corp ホットキーワード提示方法及びホットサイト提示方法
WO2008128442A1 (fr) * 2007-04-24 2008-10-30 Peking University Procédé pour la surveillance d'un état anormal d'informations internet
CN104850549A (zh) * 2014-02-13 2015-08-19 夷希数码科技(上海)有限公司 一种网络舆情的监控方法
CN103955530A (zh) * 2014-05-12 2014-07-30 暨南大学 一种在线重复数据删除系统的数据重建优化方法
CN104111999A (zh) * 2014-07-02 2014-10-22 烽火通信科技股份有限公司 一种搜索引擎热点词分析算法
CN106156041A (zh) * 2015-03-26 2016-11-23 科大讯飞股份有限公司 热点信息发现方法及系统
CN107944019A (zh) * 2017-12-11 2018-04-20 中广在线(北京)文化传媒有限公司 一种基于爬虫技术的境外舆情监测装置、系统及方法
CN112434226A (zh) * 2020-12-15 2021-03-02 易研信息科技有限公司 一种网络舆情监测预警方法
CN113014517A (zh) * 2021-02-23 2021-06-22 国网江西省电力有限公司检修分公司 基于csd文件的交换机转发信息实时比对方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Peter Sheridan Dodds.Global Social Network: Hedonometrics and Twitter.《PLOSone》.2011,1-21. *
于海.基于社交网络热点事件库的流行度预测研究.《中国博士学位论文全文数据库 信息科技辑》.2021,I139-2. *

Also Published As

Publication number Publication date
CN113434751A (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
US9471874B2 (en) Mining forums for solutions to questions and scoring candidate answers
US8630989B2 (en) Systems and methods for information extraction using contextual pattern discovery
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN109408821B (zh) 一种语料生成方法、装置、计算设备及存储介质
US20180293302A1 (en) Natural question generation from query data using natural language processing system
CN109508458B (zh) 法律实体的识别方法及装置
US9772991B2 (en) Text extraction
CN109800354B (zh) 一种基于区块链存储的简历修改意图识别方法及系统
CN111460131A (zh) 公文摘要提取方法、装置、设备及计算机可读存储介质
CN108399157B (zh) 实体与属性关系的动态抽取方法、服务器及可读存储介质
CN112818093A (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN114003725A (zh) 信息标注模型的构建方法以及信息标注的生成方法
CN103823868A (zh) 一种面向在线百科的事件识别方法和事件关系抽取方法
CN113434751B (zh) 一种网络热点人工智能预警系统及方法
CN111492364A (zh) 数据标注方法、装置及存储介质
CN111859042A (zh) 一种检索方法、装置及电子设备
CN114842982A (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN111401047A (zh) 法律文书的争议焦点生成方法、装置及计算机设备
CN113553853B (zh) 命名实体识别方法、装置、计算机设备及存储介质
Kale et al. Author identification on imbalanced class dataset of Indian literature in Marathi
CN110555196B (zh) 用于自动生成文章的方法、装置、设备和存储介质
CN109710844A (zh) 基于搜索引擎的快速准确定位文件的方法和设备
CN114444489B (zh) 一种信息抽取方法、装置及电子设备
CN116541382B (zh) 基于数据安全识别级别的数据治理方法及系统
CN117972025B (zh) 一种基于语义分析的海量文本检索匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant