CN110609999B - 舆情监控系统的冷启动方法及装置 - Google Patents

舆情监控系统的冷启动方法及装置 Download PDF

Info

Publication number
CN110609999B
CN110609999B CN201910725972.XA CN201910725972A CN110609999B CN 110609999 B CN110609999 B CN 110609999B CN 201910725972 A CN201910725972 A CN 201910725972A CN 110609999 B CN110609999 B CN 110609999B
Authority
CN
China
Prior art keywords
public opinion
monitoring system
keyword
frequency
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910725972.XA
Other languages
English (en)
Other versions
CN110609999A (zh
Inventor
顾超
王燕祥
余绮晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201910725972.XA priority Critical patent/CN110609999B/zh
Publication of CN110609999A publication Critical patent/CN110609999A/zh
Application granted granted Critical
Publication of CN110609999B publication Critical patent/CN110609999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种舆情监控系统的冷启动方法及装置,所述方法包括:将适用于第一地区的第一舆情监控系统的参数复制到适用于第二地区的第二舆情监控系统;获取第二地区的舆情文本;根据所述第二地区的舆情文本对所述第二舆情监控系统的参数进行调整。

Description

舆情监控系统的冷启动方法及装置
技术领域
本说明书涉及计算机技术领域。
背景技术
舆情监控系统用于监测网络上的舆论文章,例如新闻网站、博客、论坛上的文章,抓取这些舆情文本,对其进行分析,识别出重要的舆情风险,例如是否在讨论某个第三方支付平台的作弊情况。这种舆情监控系统的问题在于有地域性,一个国家或地区的舆情监控系统无法直接应用于另一个国家或地区,特别是语言不同的情况。
另外,这种舆情监控系统需要大量的数据来训练,否则无法正常工作。当需要在一个新的国家或地区部署舆情监控系统时(也可以称为冷启动),往往有较长的一段时间无法正常工作。
发明内容
本说明书提供了一种舆情监控系统的冷启动方法及装置,可以快速地用于各个不同的国家或地区,并能够在短期内自动完善成符合本国或本地区具体情况的舆情监控系统。
本申请公开了一种舆情监控系统的冷启动方法,包括:
将适用于第一地区的第一舆情监控系统的参数复制到适用于第二地区的第二舆情监控系统;
获取第二地区的舆情文本;
根据所述第二地区的舆情文本对所述第二舆情监控系统的参数进行调整。
在一个优选例中,所述第一地区和所述第二地区使用不同的语言。
在一个优选例中,所述参数包括风险特征识别的关键词库,所述关键词库中包括至少一个风险特征识别的关键词;
所述将适用于第一地区的第一舆情监控系统的参数复制到适用于第二地区的第二舆情监控系统之后,还包括:将所述关键词从第一地区的语言翻译为第二地区的语言。
在一个优选例中,所述根据所述第二地区的舆情文本对所述第二舆情监控系统的参数进行调整,进一步包括:
对所述舆情文本进行文本分析,得到出现频率超过预定门限的高频词汇;
计算所述高频词汇与所述关键词的词距;
根据所述高频词汇和所述关键词的词距,计算所述高频词汇与所述关键词对应的风险特征的相关性,选出相关性超过预定门限的词汇;
如果所述相关性超过预定门限的词汇不在当前的关键词库中,则将所述相关性超过预定门限的词汇作为新的关键词加入所述关键词库。
在一个优选例中,所述计算所述高频词汇与所述关键词对应的风险特征的相关性,进一步包括:
对于每一个所述高频词汇,根据该高频词汇每一次出现的位置与所述关键词之间的词距得到权重,将该高频词汇每次一次出现的位置对应的权重相加,得到该高频词汇与所述关键词对应的风险特征的相关性。
在一个优选例中,所述权重和词距负相关。
在一个优选例中,所述获取第二地区的舆情文本,进一步包括:从所述第二地区的网站爬取包含至少一个所述关键词的网页作为舆情文本。
在一个优选例中,所述参数包括以下之一或其任意组合:风险特征识别的关键词,舆情发酵标准,情绪模型。
在一个优选例中,所述根据所述第二地区的舆情文本对所述第二舆情监控系统的参数进行调整,进一步包括:
通过无监督或半监督型的模型训练调整所述第二舆情监控系统的参数;
在所述第二地区积累的舆情数据量达到预定标准后,通过监督型的模型训练调整所述第二舆情监控系统的参数。
在一个优选例中,所述通过无监督或半监督型的模型训练调整所述第二舆情监控系统的参数,进一步包括以下之一或其任意组合:
对风险特征识别的关键词进行调整,添加高频词,和/或删去低频词;
对发帖人身份权重进行重新定义;
调整舆情发酵标准的阈值。
在一个优选例中,所述舆情发酵标准包括以下之一或其任意组合:回帖量级,回帖频率,转发量级,转发频率,发帖人身份。
本申请还公开了一种舆情监控系统的冷启动装置包括:
复制模块,用于将适用于第一地区的第一舆情监控系统的参数复制到适用于第二地区的第二舆情监控系统;
获取模块,用于获取第二地区的舆情文本;
调整模块,用于根据所述第二地区的舆情文本对所述第二舆情监控系统的参数进行调整。
在一个优选例中,所述第一地区和所述第二地区使用不同的语言。
在一个优选例中,所述参数包括风险特征识别的关键词库,所述关键词库中包括至少一个风险特征识别的关键词;
所述复制模块还用于将所述关键词从第一地区的语言翻译为第二地区的语言。
在一个优选例中,所述调整模块包括以下子模块:
文本分析子模块,用于对所述舆情文本进行文本分析,得到出现频率超过预定门限的高频词汇;
词距计算子模块,用于计算所述高频词汇与所述关键词的词距;
相关性计算子模块,用于根据所述高频词汇和所述关键词的词距,计算所述高频词汇与所述关键词对应的风险特征的相关性,选出相关性超过预定门限的词汇;
关键词添加子模块,如果所述相关性超过预定门限的词汇不在当前的关键词库中,则将所述相关性超过预定门限的词汇作为新的关键词加入所述关键词库。
在一个优选例中,所述相关性计算子模块还用于对于每一个所述高频词汇,根据该高频词汇每一次出现的位置与所述关键词之间的词距得到权重,将该高频词汇每次一次出现的位置对应的权重相加,得到该高频词汇与所述关键词对应的风险特征的相关性。
在一个优选例中,所述权重和词距负相关。
在一个优选例中,所述获取模块还用于从所述第二地区的网站爬取包含至少一个所述关键词的网页作为舆情文本。
在一个优选例中,所述参数包括以下之一或其任意组合:风险特征识别的关键词,舆情发酵标准,情绪模型。
在一个优选例中,所述调整模块还包括以下子模块:
第一调整子模块,用于通过无监督或半监督型的模型训练调整所述第二舆情监控系统的参数;
第二调整子模块,用于在所述第二地区积累的舆情数据量达到预定标准后,通过监督型的模型训练调整所述第二舆情监控系统的参数。
在一个优选例中,所述第一调整子模块还包括以下子模块之一,或它们的任意组合:
关键词子模块,用于对风险特征识别的关键词进行调整,添加高频词,和/或删去低频词;
身份权重子模块,用于对发帖人身份权重进行重新定义;
舆情发酵标准子模块,用于调整舆情发酵标准的阈值。
在一个优选例中,所述舆情发酵标准包括以下之一或其任意组合:回帖量级,回帖频率,转发量级,转发频率,发帖人身份。
本申请还公开了一种舆情监控系统的冷启动系统包括:
存储器,用于存储计算机可执行指令;以及,
处理器,与所述存储器耦合,用于在执行所述计算机可执行指令时实现如前文描述的方法中的步骤。
本申请还公开了一种计算机可读存储介质所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如前文描述的方法中的步骤。
本说明书实施方式与现有技术相比,先对一个国家的舆情监控系统进行封装,这种封装包括对各类风险特征识别的关键词的封装、舆情发酵标准(如发帖人身份、回帖量级/频率、转发量级/频率)的封装、以及情绪模型的封装。然后通过无监督/半监督模型训练系统,调整相关参数。最后在舆情文本的数据量积累到一定数量之后,再通过监督学习完善参数,达到适合当地国际市场的监控体系。这种方法可以尽快地做出一个可以基本使用的舆情监控系统。
进一步的,舆情监控系统中包含一个关键词库,其中有多个用于风险特征识别的关键词,将一个舆情监控系统封装后应用到另一个语言不同的国家或地区时,这些与风险特征相关的关键词的转换是一个问题。虽然通过直接翻译可以得到一些关键词,但这样得到的关键词可能并不是网络文章常用的词汇。为了得到实际被使用的关键词,本说明书实施方式先爬取舆情文本,对其进行文本分析,得到高频词汇,再计算这些高频词汇和已有关键词的词距,根据词距计算这些高频词汇和风险特征的相关性,将相关性高的高频词汇作为新的关键词加入关键词库。虽然最初关键词库中都是直接翻译的词汇,但是经过上述技术方案,关键词库中会逐渐增加实际被经常使用的高频的关键词。实现关键词库的自适应升级。另外可以定期将关键词库中的低频词删去,以简化舆情风险的计算量。
总的来说,本说明书的实施例通过冷启动方式和自适应算法构建了一套针对国际环境的舆情监控系统的冷启动方法,可以快速地用于各个不同的国家或地区,并能够在短期内自动完善成符合本国或本地区具体情况的舆情监控系统。
本说明书中记载了大量的技术特征,分布在各个技术方案中,如果要罗列出本申请所有可能的技术特征的组合(即技术方案)的话,会使得说明书过于冗长。为了避免这个问题,本说明书上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征,都可以自由地互相组合,从而构成各种新的技术方案(这些技术方案均应该视为在本说明书中已经记载),除非这种技术特征的组合在技术上是不可行的。例如,在一个例子中公开了特征A+B+C,在另一个例子中公开了特征A+B+D+E,而特征C和D是起到相同作用的等同技术手段,技术上只要择一使用即可,不可能同时采用,特征E技术上可以与特征C相组合,则,A+B+C+D的方案因技术不可行而应当不被视为已经记载,而A+B+C+E的方案应当视为已经被记载。
附图说明
图1是根据本说明书第一实施方式的舆情监控系统的冷启动方法的流程示意图;
图2是根据本说明书第一实施方式的舆情监控系统的冷启动方法的细节流程示意图;
图3是根据本说明书第一实施方式的舆情监控系统的冷启动方法的另一个细节流程示意图;
图4是根据本说明书第二实施方式的舆情监控系统的冷启动装置的结构示意图。
具体实施方式
在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
下面是本说明书实施方式用到的部分概念:
监督学习:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。监督学习是从标记的训练数据来推断一个功能的机器学习方法。
无监督学习(unsupervised learning),仅使用未标记数据来进行模式识别工作。
半监督学习(Semi-Supervised Learning,SSL)是监督学习与无监督学习相结合的一种机器学习方法,半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。
下面将结合附图对本说明书的实施方式作进一步地详细描述。
本说明书的第一实施方式涉及一种舆情监控系统的冷启动方法,其流程如图1所示,该方法包括以下步骤:
步骤110:将适用于第一地区的第一舆情监控系统的参数复制到适用于第二地区的第二舆情监控系统。
步骤120:获取第二地区的舆情文本。
步骤130:根据所述第二地区的舆情文本对所述第二舆情监控系统的参数进行调整。
为了能够更好地理解本说明书的技术方案,下面进一步结合具体的例子对每个步骤进行更加详细的解释说明,这些例子中罗列的细节主要是为了便于理解,不作为对本申请保护范围的限制。
具体的,在步骤110中,所述参数可以是风险特征识别的关键词,或舆情发酵标准,或情绪模型,或它们的任意组合。
具体的,当所述参数是风险特征识别的关键词时,则所述参数包括风险特征识别的关键词库,所述关键词库中包括一个或多个风险特征识别的关键词。例如,在一个实施例中,关键词库中有多个关键词,需要识别的风险特征也有多个,并且,每个需要识别的风险特征分别对应关键词库中的一个或多个关键词,通过这些关键词可以识别相应的风险特征。
具体的,所述舆情发酵标准可以是回帖量级,或回帖频率,或转发量级,或转发频率,或发帖人身份,或它们的任意组合。
这样做的好处在于,通过将舆情监控系统的参数进行封装,使它可以通过后续的步骤,更有效地运用于各个国家或地区的舆情监控系统。
需指出,所述第一地区和所述第二地区可以使用不同的语言。在这种情况下,在将适用于第一地区的第一舆情监控系统的参数复制到适用于第二地区的第二舆情监控系统之后,还需要进一步将所述关键词从第一地区的语言翻译为第二地区的语言。
具体的,在步骤120中,可以从所述第二地区的网站爬取包含至少一个所述关键词的网页作为舆情文本。
具体的,如图2所示,在步骤130中,进一步包括以下子步骤:
步骤1302:通过无监督或半监督型的模型训练调整所述第二舆情监控系统的参数。
具体的,在本步骤中,可以进一步包括对风险特征识别的关键词进行调整,添加高频词。在这种情况下,如图3所示,步骤1302具体包括以下子步骤1302a-1302d:
步骤1302a:对所述舆情文本进行文本分析,得到出现频率超过预定门限的高频词汇。
需指出,所述高频词汇就是在舆情文本中出现次数多的词汇,或者说高明词汇就是出现频率超过预定门限的词汇。例如,在一个实施例中,舆情文本可以包括从网络上获取的多篇文章,比如10000篇文章。换句话说,高频词汇不是一篇文章中的出现次数多的词汇,而是从网络上获取的多篇文章中累积出现次数多的词汇。比如,如果10000篇中某一个词累计出现了8000多次,超过了预定的门限(例如对10000篇来说是5000次),则这个词可以属于高频词汇。
在一个实施例中,为了减少无关的高频词汇,可以只在与关键词的词距小于某个阈值的词汇中统计高频词汇。
步骤1302b:计算所述高频词汇与所述关键词的词距。
需指出,所述词距指的是的一个句子中,指定的词与关键词之间的距离,例如,指定的词与关键词隔了几个词。
需指出,在一个实施例中,为了计算所述词距,对某些语言,比如,汉语或日语等等,需要预先分词。由于分词是现有技术,本领域技术人员均能够实现,因此这里不做赘述。
步骤1302c:根据所述高频词汇和所述关键词的词距,计算所述高频词汇与该关键词对应的风险特征的相关性,选出相关性超过预定门限的词汇。
需指出,在一个实施例中,所述高频词汇与风险特征的相关性是一个系数。比如,在一个风险特征与一个关键词对应的情况下,对于每一个所述高频词汇,先根据该高频词汇每一次出现的位置与所述风险特征对应的关键词之间的词距得到该高频词汇在这一次出现的位置所对应的权重,然后,将该高频词汇每一次出现的位置所对应的权重相加,得到的结果即为该高频词汇与该关键词对应的风险特征的相关性。又比如,在一个风险特征与多个关键词对应的情况下,则可以选择与该高频词汇具有最小词距的关键词作为计算词距的基础,按照上述方式获得该高频词汇与该关键词对应的风险特征的相关性。需指出,以上仅是对获得高频词汇与风险特征的相关性的举例性说明,本申请的实施例不限于此,在此不做赘述。
需指出,所述高频词汇每一次出现的位置所对应的权重和该高频词汇每一次出现的位置与所述关键词之间的词距负相关。换句话说,高频词汇这一次出现的位置与关键词之间的词距越大,则该高频词汇这一次出现的位置所对应的权重就越小。
例如,在一个实施例中,高频词汇每一次出现的位置所对应的权重可以是该高频词汇这一次出现的位置与关键词之间的词距的倒数。比如,词A在距离关键词“欺诈”3个词的位置出现了一次,则词A这一次出现的位置与关键词之间的词距就是3,词A这一次出现的位置所对应的权重就是1/3;另外,词A在距离关键词“欺诈”9个词的位置又出现了一次,则词A这一次出现的位置与关键词之间的词距就是9,词A这一次出现的位置所对应的权重就是1/9。这种情况下,词A与关键词“欺诈”的相关性就是1/3+1/9。
又例如,高频词汇每一次出现的位置所对应的权重也可以通过分段查表的方式来确定。例如,该高频词汇这一次出现的位置与关键词之间的词距在10个字符以内的是一个权重的值,该高频词汇这一次出现的位置与关键词之间的词距在10-20个字符之间的是一个权重的值,以此类推。词距的区间可以根据实际情况调整,只要高频词汇每一次出现的位置所对应的权重和该高频词汇每一次出现的位置与所述关键词之间的词距负相关,即,距离越近权重越大即可。
此后,在获得了每个高频词汇与风险特征的相关性之后,选出与风险特征的相关性超过预定门限的高频词汇。
步骤1302d:如果所述与风险特征的相关性超过预定门限的高频词汇不在当前的关键词库中,则将所述相关性超过预定门限的高频词汇作为新的关键词加入所述关键词库。
需指出,上述步骤中还可以进一步包括通过删除低频词汇对风险特征识别的关键词进行调整,即,在关键词库中删除出现频率低于预定门限的词汇。
需指出,除了通过添加高频词汇或删除低频词汇对风险特征识别的关键词进行调整,来调整所述第二舆情监控系统的参数,还可以通过以下方式来调整所述第二舆情监控系统的参数:对发帖人身份权重进行重新定义,或调整舆情发酵标准的阈值。其中,如上所述,所述舆情发酵标准可以是回帖量级,或回帖频率,或转发量级,或转发频率,或发帖人身份,或它们的任意组合,可见,调整舆情发酵标准的阈值,也就是调整回帖量级,或回帖频率,或转发量级,或转发频率的阈值,或发帖人身份的条件。
总的来说,本说明书的实施例中,调整所述第二舆情监控系统的参数的方式,可以是以上方法之一,或它们的任意组合,在此不做赘述。
最后,步骤1304:在所述第二地区积累的舆情数据量达到预定标准后,通过监督型的模型训练调整所述第二舆情控制系统的参数。
第一实施方式通过冷启动方式和自适应算法构建了一套针对国际环境的舆情监控系统的冷启动方法,可以快速地用于各个不同的国家或地区,并能够在短期内自动完善成符合本国或本地区具体情况的舆情监控系统。
本说明书的第二实施方式涉及一种舆情监控系统的冷启动装置,其结构如图4所示,舆情监控系统的冷启动装置包括:复制模块、获取模块和调整模块。具体的:
复制模块用于将适用于第一地区的第一舆情监控系统的参数复制到适用于第二地区的第二舆情监控系统。
优选地,所述第一地区和所述第二地区使用不同的语言,所述复制模块还用于将所述关键词从第一地区的语言翻译为第二地区的语言。
优选地,所述参数包括以下之一或其任意组合:风险特征识别的关键词,舆情发酵标准,情绪模型。
优选地,所述参数包括风险特征识别的关键词库,所述关键词库中包括至少一个风险特征识别的关键词。
获取模块用于获取第二地区的舆情文本。
优选地,所述获取模块还用于从所述第二地区的网站爬取包含至少一个所述关键词的网页作为舆情文本。
调整模块用于根据所述第二地区的舆情文本对所述第二舆情监控系统的参数进行调整。
优选地,所述调整模块包括第一调整子模块和第二调整子模块。
所述第一调整子模块,用于通过无监督或半监督型的模型训练调整所述第二舆情监控系统的参数。
优选地,所述第一调整子模块还包括以下子模块之一,或它们的任意组合:关键词子模块,用于对风险特征识别的关键词进行调整,添加高频词,和/或删去低频词;身份权重子模块,用于对发帖人身份权重进行重新定义;舆情发酵标准子模块,用于调整舆情发酵标准的阈值。其中,所述舆情发酵标准包括以下之一或其任意组合:回帖量级,回帖频率,转发量级,转发频率,发帖人身份。
优选地,所述关键词子模块还包括:文本分析子模块,用于对所述舆情文本进行文本分析,得到出现频率超过预定门限的高频词汇;词距计算子模块,用于计算所述高频词汇与所述关键词的词距;相关性计算子模块,用于根据所述高频词汇和所述关键词的词距,计算所述高频词汇与所述关键词对应的风险特征的相关性,选出相关性超过预定门限的词汇;关键词添加子模块,如果所述相关性超过预定门限的词汇不在当前的关键词库中,则将所述相关性超过预定门限的词汇作为新的关键词加入所述关键词库。
优选地,所述相关性计算子模块还用于对于每一个所述高频词汇,根据该高频词汇每一次出现的位置与所述关键词之间的词距得到权重,将该高频词汇每次一次出现的位置对应的权重相加,得到该高频词汇与所述关键词对应的风险特征的相关性。其中,所述权重和词距负相关。
所述第二调整子模块用于在所述第二地区积累的舆情数据量达到预定标准后,通过监督型的模型训练调整所述第二舆情监控系统的参数。
第一实施方式是与本实施方式相对应的方法实施方式,第一实施方式中的技术细节可以应用于本实施方式,本实施方式中的技术细节也可以应用于第一实施方式。
需要说明的是,本领域技术人员应当理解,上述舆情监控系统的冷启动装置的实施方式中所示的各模块的实现功能可参照前述舆情监控系统的冷启动方法的相关描述而理解。上述舆情监控系统的冷启动装置的实施方式中所示的各模块的功能可通过运行于处理器上的程序(可执行指令)而实现,也可通过具体的逻辑电路而实现。本说明书实施例上述舆情监控系统的冷启动装置如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本说明书各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本说明书实施例不限制于任何特定的硬件和软件结合。
相应地,本说明书实施方式还提供一种计算机可读存储介质,其中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现本说明书的各方法实施方式。计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于,相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读存储介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
此外,本说明书实施方式还提供一种舆情监控系统的冷启动设备,其中包括用于存储计算机可执行指令的存储器,以及,处理器;该处理器用于在执行该存储器中的计算机可执行指令时实现上述各方法实施方式中的步骤。
在一个实施例中,该计算机可执行指令可以用于:将适用于第一地区的第一舆情监控系统的参数复制到适用于第二地区的第二舆情监控系统;获取第二地区的舆情文本;根据所述第二地区的舆情文本对所述第二舆情监控系统的参数进行调整。
在一个实施例中,该处理器可以是中央处理单元(Central Processing Unit,简称“CPU”),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,简称“DSP”)、专用集成电路(Application Specific Integrated Circuit,简称“ASIC”)等。前述的存储器可以是只读存储器(read-only memory,简称“ROM”)、随机存取存储器(randomaccess memory,简称“RAM”)、快闪存储器(Flash)、硬盘或者固态硬盘等。本发明各实施方式所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。在一个实施例中,该舆情监控系统的冷启动设备还包括总线和通信接口。处理器、存储器和通信接口都通过总线相互连接。通信接口可以是无线通信接口也可以是有线通信接口,用于使得处理器能够与其他的装置通信。
需要说明的是,在本专利的申请文件中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本专利的申请文件中,如果提到根据某要素执行某行为,则是指至少根据该要素执行该行为的意思,其中包括了两种情况:仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。
在本说明书提及的所有文献都被认为是整体性地包括在本说明书的公开内容中,以便在必要时可以作为修改的依据。此外应理解,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的保护范围之内。
在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描述的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

Claims (20)

1.一种舆情监控系统的冷启动方法,包括:
将适用于第一地区的第一舆情监控系统的参数复制到适用于第二地区的第二舆情监控系统,所述参数包括风险特征识别的关键词,所述关键词用于识别相应的风险特征;
获取第二地区的舆情文本,所述舆情文本包括至少一个所述关键词;
根据所述第二地区的舆情文本对所述第二舆情监控系统的参数进行调整;
其中,所述根据所述第二地区的舆情文本对所述第二舆情监控系统的参数进行调整,进一步包括:
通过无监督或半监督型的模型训练调整所述第二舆情监控系统的参数;
在所述第二地区积累的舆情数据量达到预定标准后,通过监督型的模型训练调整所述第二舆情监控系统的参数;
其中,所述根据所述第二地区的舆情文本对所述第二舆情监控系统的参数进行调整,包括对风险特征识别的关键词进行调整,添加高频词,具体包括:
对所述舆情文本进行文本分析,得到出现频率超过预定门限的高频词汇;
计算所述高频词汇与所述关键词的词距;
根据所述高频词汇和所述关键词的词距,计算所述高频词汇与所述关键词对应的风险特征的相关性,选出相关性超过预定门限的词汇;
如果所述相关性超过预定门限的词汇不在当前的关键词库中,则将所述相关性超过预定门限的词汇作为新的关键词加入所述关键词库。
2.如权利要求1所述的舆情监控系统的冷启动方法,其中,所述第一地区和所述第二地区使用不同的语言。
3.如权利要求2所述的舆情监控系统的冷启动方法,其中,所述参数包括风险特征识别的关键词库,所述关键词库中包括至少一个风险特征识别的关键词;
所述将适用于第一地区的第一舆情监控系统的参数复制到适用于第二地区的第二舆情监控系统之后,还包括:将所述关键词从第一地区的语言翻译为第二地区的语言。
4.如权利要求1所述的舆情监控系统的冷启动方法,其中,所述计算所述高频词汇与所述关键词对应的风险特征的相关性,进一步包括:
对于每一个所述高频词汇,根据该高频词汇每一次出现的位置与所述关键词之间的词距得到权重,将该高频词汇每次一次出现的位置对应的权重相加,得到该高频词汇与所述关键词对应的风险特征的相关性。
5.如权利要求4所述的舆情监控系统的冷启动方法,其中,所述权重和词距负相关。
6.如权利要求3所述的舆情监控系统的冷启动方法,其中,所述获取第二地区的舆情文本,进一步包括:从所述第二地区的网站爬取包含至少一个所述关键词的网页作为舆情文本。
7.如权利要求1-6中任意一项所述的舆情监控系统的冷启动方法,其中,所述参数还包括以下之一或其任意组合:舆情发酵标准,情绪模型。
8.如权利要求1所述的舆情监控系统的冷启动方法,其中,所述通过无监督或半监督型的模型训练调整所述第二舆情监控系统的参数,进一步包括以下之一或其任意组合:
对风险特征识别的关键词进行调整,删去低频词;
对发帖人身份权重进行重新定义;
调整舆情发酵标准的阈值。
9.如权利要求8所述的舆情监控系统的冷启动方法,其中,
所述舆情发酵标准包括以下之一或其任意组合:回帖量级,回帖频率,转发量级,转发频率,发帖人身份。
10.一种舆情监控系统的冷启动装置,包括:
复制模块,用于将适用于第一地区的第一舆情监控系统的参数复制到适用于第二地区的第二舆情监控系统,所述参数包括风险特征识别的关键词,所述关键词用于识别相应的风险特征;
获取模块,用于获取第二地区的舆情文本,所述舆情文本包括至少一个所述关键词;
调整模块,用于根据所述第二地区的舆情文本对所述第二舆情监控系统的参数进行调整;
其中,所述调整模块还包括以下子模块:
第一调整子模块,用于通过无监督或半监督型的模型训练调整所述第二舆情监控系统的参数;
第二调整子模块,用于在所述第二地区积累的舆情数据量达到预定标准后,通过监督型的模型训练调整所述第二舆情监控系统的参数;
所述第一调整子模块,包括:关键词子模块,用于对风险特征识别的关键词进行调整;
所述关键词子模块还包括:文本分析子模块,用于对所述舆情文本进行文本分析,得到出现频率超过预定门限的高频词汇;词距计算子模块,用于计算所述高频词汇与所述关键词的词距;相关性计算子模块,用于根据所述高频词汇和所述关键词的词距,计算所述高频词汇与所述关键词对应的风险特征的相关性,选出相关性超过预定门限的词汇;关键词添加子模块,如果所述相关性超过预定门限的词汇不在当前的关键词库中,则将所述相关性超过预定门限的词汇作为新的关键词加入所述关键词库。
11.如权利要求10所述的舆情监控系统的冷启动装置,其中,所述第一地区和所述第二地区使用不同的语言。
12.如权利要求11所述的舆情监控系统的冷启动装置,其中,所述参数包括风险特征识别的关键词库,所述关键词库中包括至少一个风险特征识别的关键词;
所述复制模块还用于将所述关键词从第一地区的语言翻译为第二地区的语言。
13.如权利要求10所述的舆情监控系统的冷启动装置,其中,所述相关性计算子模块还用于对于每一个所述高频词汇,根据该高频词汇每一次出现的位置与所述关键词之间的词距得到权重,将该高频词汇每次一次出现的位置对应的权重相加,得到该高频词汇与所述关键词对应的风险特征的相关性。
14.如权利要求13所述的舆情监控系统的冷启动装置,其中,所述权重和词距负相关。
15.如权利要求12所述的舆情监控系统的冷启动装置,其中,所述获取模块还用于从所述第二地区的网站爬取包含至少一个所述关键词的网页作为舆情文本。
16.如权利要求10-15中任意一项所述的舆情监控系统的冷启动装置,其中,所述参数还包括以下之一或其任意组合:舆情发酵标准,情绪模型。
17.如权利要求10所述的舆情监控系统的冷启动装置,其中,
所述关键词子模块,还用于对风险特征识别的关键词进行调整,删去低频词;
所述第一调整子模块还包括以下子模块之一或其任意组合:
身份权重子模块,用于对发帖人身份权重进行重新定义;
舆情发酵标准子模块,用于调整舆情发酵标准的阈值。
18.如权利要求17所述的舆情监控系统的冷启动装置,其中,
所述舆情发酵标准包括以下之一或其任意组合:回帖量级,回帖频率,转发量级,转发频率,发帖人身份。
19.一种舆情监控系统的冷启动系统,包括:
存储器,用于存储计算机可执行指令;以及,
处理器,与所述存储器耦合,用于在执行所述计算机可执行指令时实现如权利要求1至9中任意一项所述的方法中的步骤。
20.一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如权利要求1至9中任意一项所述的方法中的步骤。
CN201910725972.XA 2019-08-07 2019-08-07 舆情监控系统的冷启动方法及装置 Active CN110609999B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910725972.XA CN110609999B (zh) 2019-08-07 2019-08-07 舆情监控系统的冷启动方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910725972.XA CN110609999B (zh) 2019-08-07 2019-08-07 舆情监控系统的冷启动方法及装置

Publications (2)

Publication Number Publication Date
CN110609999A CN110609999A (zh) 2019-12-24
CN110609999B true CN110609999B (zh) 2023-08-11

Family

ID=68890814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910725972.XA Active CN110609999B (zh) 2019-08-07 2019-08-07 舆情监控系统的冷启动方法及装置

Country Status (1)

Country Link
CN (1) CN110609999B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108965594A (zh) * 2018-07-09 2018-12-07 珠海市魅族科技有限公司 终端设备的调节方法、系统及存储介质
CN109118051A (zh) * 2018-07-17 2019-01-01 阿里巴巴集团控股有限公司 基于网络舆情的风险商户识别及处置方法、装置及服务器
CN109145216A (zh) * 2018-08-29 2019-01-04 中国平安保险(集团)股份有限公司 网络舆情监控方法、装置及存储介质
CN109299258A (zh) * 2018-09-18 2019-02-01 平安科技(深圳)有限公司 一种舆情事件检测方法、装置及设备
CN109542985A (zh) * 2018-11-27 2019-03-29 江苏擎天信息科技有限公司 一种通用流式数据分析模型及其构建方法
CN109635111A (zh) * 2018-12-04 2019-04-16 国网江西省电力有限公司信息通信分公司 一种基于网络迁移的新闻点击诱饵检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108965594A (zh) * 2018-07-09 2018-12-07 珠海市魅族科技有限公司 终端设备的调节方法、系统及存储介质
CN109118051A (zh) * 2018-07-17 2019-01-01 阿里巴巴集团控股有限公司 基于网络舆情的风险商户识别及处置方法、装置及服务器
CN109145216A (zh) * 2018-08-29 2019-01-04 中国平安保险(集团)股份有限公司 网络舆情监控方法、装置及存储介质
CN109299258A (zh) * 2018-09-18 2019-02-01 平安科技(深圳)有限公司 一种舆情事件检测方法、装置及设备
CN109542985A (zh) * 2018-11-27 2019-03-29 江苏擎天信息科技有限公司 一种通用流式数据分析模型及其构建方法
CN109635111A (zh) * 2018-12-04 2019-04-16 国网江西省电力有限公司信息通信分公司 一种基于网络迁移的新闻点击诱饵检测方法

Also Published As

Publication number Publication date
CN110609999A (zh) 2019-12-24

Similar Documents

Publication Publication Date Title
CN107707545B (zh) 一种异常网页访问片段检测方法、装置、设备及存储介质
CN109344406B (zh) 词性标注方法、装置和电子设备
US9767198B2 (en) Method and system for presenting content summary of search results
CN109978060B (zh) 一种自然语言要素抽取模型的训练方法及装置
US9436768B2 (en) System and method for pushing and distributing promotion content
CN108881138B (zh) 一种网页请求识别方法及装置
CN108038173B (zh) 一种网页分类方法、系统及一种网页分类设备
US20140040297A1 (en) Keyword extraction
CN111324810A (zh) 一种信息过滤方法、装置及电子设备
CN111143551A (zh) 文本预处理方法、分类方法、装置及设备
CN112667780A (zh) 一种评论信息的生成方法、装置、电子设备及存储介质
US9619558B2 (en) Method and system for entity recognition in a query
WO2014139057A1 (en) Method and system for providing personalized content
CN109597982B (zh) 摘要文本识别方法及装置
CN117409419A (zh) 图像检测方法、设备及存储介质
US9454568B2 (en) Method, apparatus and computer storage medium for acquiring hot content
CN110619075A (zh) 一种网页识别方法与设备
US10387545B2 (en) Processing page
CN113505228A (zh) 一种多维文本数据分类方法、训练方法和装置
CN112256841B (zh) 文本匹配和对抗文本识别方法、装置及设备
CN110609999B (zh) 舆情监控系统的冷启动方法及装置
CN113139374A (zh) 一种文档相似段落的标记查询方法、系统、设备及存储介质
CN107665208B (zh) 用户偏好度量方法及装置
CN116862243A (zh) 一种基于神经网络的企业风险分析预测方法、系统及介质
CN102236652B (zh) 一种信息的分类方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant before: Advanced innovation technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant