CN110083759A - 舆论信息爬取方法、装置、计算机设备及存储介质 - Google Patents

舆论信息爬取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110083759A
CN110083759A CN201910198371.8A CN201910198371A CN110083759A CN 110083759 A CN110083759 A CN 110083759A CN 201910198371 A CN201910198371 A CN 201910198371A CN 110083759 A CN110083759 A CN 110083759A
Authority
CN
China
Prior art keywords
user
public
feelings information
information
inventory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910198371.8A
Other languages
English (en)
Inventor
李晨光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
Original Assignee
OneConnect Smart Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Smart Technology Co Ltd filed Critical OneConnect Smart Technology Co Ltd
Priority to CN201910198371.8A priority Critical patent/CN110083759A/zh
Publication of CN110083759A publication Critical patent/CN110083759A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了舆论信息爬取方法、装置、计算机设备及存储介质。该方法包括:将待爬取的用户清单中每一用户名称与预设的爬取关键词集合中各关键词进行组合,得到定向爬虫集合;通过定向爬虫集合从预设的网址清单中爬取与各用户对应的用户舆情信息,以得到用户舆情信息集合;对用户舆情信息集合中每一用户舆情信息进行关键词提取,得到对应的关键词列表;将每一用户舆情信息对应的关键词列表与对应的用户唯一身份识别信息进行封装,以得到与每一用户对应的处理后数据;将所选定的处理后数据输入至预先训练的朴素贝叶斯模型,得到对应目标用户的舆情评分值。该方法实现了自动化高效爬取指定用户的舆情信息,而且能获取其对应的舆情评分值。

Description

舆论信息爬取方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据爬取领域,尤其涉及一种舆论信息爬取方法、装置、计算机设备及存储介质。
背景技术
目前,针对用户进行信用分析时,除了获取用户的金融逾期信息、个人犯罪信息等进行分析,还能获取该用户的舆情信息。目前的舆情信息往往通过接口形式获取,不具备实时性,并不能快速的爬取指定用户的舆情信息。
发明内容
本发明实施例提供了一种舆论信息爬取方法、装置、计算机设备及存储介质,旨在解决现有技术中通过接口形式获取用户的舆情信息,导致不能快速的爬取指定用户的舆情信息的问题。
第一方面,本发明实施例提供了一种舆论信息爬取方法,其包括:
接收待爬取的用户清单,将所述用户清单中每一用户名称与预设的爬取关键词集合中各关键词进行组合,得到定向爬虫集合;
通过所述定向爬虫集合从预设的网址清单中爬取与所述用户清单中每一用户对应的用户舆情信息,以得到用户舆情信息集合;
通过词频-逆文本频率指数模型对所述用户舆情信息集合中每一用户舆情信息进行关键词提取,得到与每一用户舆情信息对应的关键词列表;
将每一用户舆情信息对应的关键词列表与所述用户清单中对应用户的用户唯一身份识别信息进行封装,以得到与所述用户清单中每一用户对应的处理后数据;以及
将所选定的处理后数据输入至预先训练的朴素贝叶斯模型,得到与所选定的处理后数据对应目标用户的舆情评分值。
第二方面,本发明实施例提供了一种舆论信息爬取装置,其包括:
集合获取单元,用于将根据预设的用户名单所爬取的各用户信息分别进行标注,得到与各用户信息一一对应的标注序列,以组成标注序列集合;
模型训练单元,用于将所述标注序列集合中每一标注序列作为待训练卷积神经网络的输入,将所述标注序列集合中每一标注序列对应的自然人失信概率作为待训练卷积神经网络的输出,对所述待训练卷积神经网络进行训练,得到用于预测自然人失信概率的卷积神经网络模型;
目标序列获取单元,用于若检测到待预测失信人概率的目标用户信息,获取所述目标用户信息对应的目标标注序列;
概率获取单元,用于将所述目标标注序列输入至所述卷积神经网络模型,计算得到与所述目标用户信息对应的目标自然人失信概率;以及
清单更新单元,用于若所述目标自然人失信概率大于预设的失信人概率阈值,将所述目标用户信息对应的添加至黑名单清单。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的舆论信息爬取方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的舆论信息爬取方法。
本发明实施例提供了一种舆论信息爬取方法、装置、计算机设备及存储介质。该方法包括接收待爬取的用户清单,将所述用户清单中每一用户名称与预设的爬取关键词集合中各关键词进行组合,得到定向爬虫集合;通过所述定向爬虫集合从预设的网址清单中爬取与所述用户清单中每一用户对应的用户舆情信息,以得到用户舆情信息集合;通过词频-逆文本频率指数模型对所述用户舆情信息集合中每一用户舆情信息进行关键词提取,得到与每一用户舆情信息对应的关键词列表;将每一用户舆情信息对应的关键词列表与所述用户清单中对应用户的用户唯一身份识别信息进行封装,以得到与所述用户清单中每一用户对应的处理后数据;以及将所选定的处理后数据输入至预先训练的朴素贝叶斯模型,得到与所选定的处理后数据对应目标用户的舆情评分值。该方法实现了自动化高效爬取指定用户的舆情信息,而且能获取用户舆情信息对应的舆情评分值。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的舆论信息爬取方法的应用场景示意图;
图2为本发明实施例提供的舆论信息爬取方法的流程示意图;
图3为本发明实施例提供的舆论信息爬取方法的另一流程示意图;
图4为本发明实施例提供的舆论信息爬取方法的子流程示意图;
图5为本发明实施例提供的舆论信息爬取方法的另一子流程示意图;
图6为本发明实施例提供的舆论信息爬取装置的示意性框图;
图7为本发明实施例提供的舆论信息爬取装置的另一示意性框图;
图8为本发明实施例提供的舆论信息爬取装置的子单元示意性框图;
图9为本发明实施例提供的舆论信息爬取装置的另一子单元示意性框图;
图10为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的舆论信息爬取方法的应用场景示意图,图2为本发明实施例提供的舆论信息爬取方法的流程示意图,该舆论信息爬取方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。
如图2所示,该方法包括步骤S110~S150。
S110、接收待爬取的用户清单,将所述用户清单中每一用户名称与预设的爬取关键词集合中各关键词进行组合,得到定向爬虫集合。
在本实施例中,当需服务器自动爬取指定用户的舆情信息时,上传端需事先上传待爬取的用户清单至服务器。例如,当需分析某一个人或企业的舆情(该舆情主要用于评估某一个人或企业的贷款资质时)时,可以对该待爬取的用户清单进行定向的舆情内容爬取,如由用户名称与诈骗、欺诈、捐款、法人变更等较敏感词汇进行组合后得到定向爬虫,以快速获取所需关注用户的重要舆情信息。其中,每一用户名称与预设的爬取关键词集合中各关键词进行组合,得到该用户对应的定向爬虫,所述用户清单中每一用户名称对应的定向爬虫组成定向爬虫集合。
由于通过用户名称与预设的爬取关键词集合中各关键词进行组合得到定向爬虫集合,能定向爬取所需要的舆情信息,避免了无关信息的爬取,提高了爬取效率。
S120、通过所述定向爬虫集合从预设的网址清单中爬取与所述用户清单中每一用户对应的用户舆情信息,以得到用户舆情信息集合。
在本实施例中,为了提高爬取的效率,可以预先设置网址清单,定向爬虫集合直接在预设的网址清单对应的各网站中爬取用户舆情信息即可。例如,预设的网址清单包括微博,微信,知乎等网站。
例如针对用户1的定向爬虫为用户1名称+诈骗、用户1名称+欺诈、用户1名称+捐款,通过用户1的定向爬虫在微博、微信、知乎等网站爬取与用户1对应用户舆情信息,所述用户清单中每一用户名称对应的用户舆情信息组成用户舆情信息集合。
S130、通过词频-逆文本频率指数模型对所述用户舆情信息集合中每一用户舆情信息进行关键词提取,得到与每一用户舆情信息对应的关键词列表。
在本实施例中,为了对用户清单中每一用户进行舆情分析时,可以通过定向爬取所需重点关注的舆情信息,之后对各用户所对应爬取的用户信息进行关键词提取,并与对应的用户唯一身份识别信息进行组成并封装得到每一用户一一对应的处理后数据。
在一实施例中,如图4所示,步骤S130包括:
S131、将所述用户舆情信息集合中各用户舆情信息进行分词,得到各用户舆情信息对应的分词结果;
S132、计算各分词结果中每一分词的词频;
S133、计算各分词结果中每一分词的逆文档频率;
S134、根据词频-逆文本频率指数=词频*逆文档频率,计算各分词结果中每一分词对应的词频-逆文本频率指数;
S135、将各分词结果中以每一个分词结果为一组分词结果,将每一组分词结果中每一分词对应的词频-逆文本频率指数按降序排序,获取组内排名位于预设的排名阈值之前的词频-逆文本频率指数对应的分词,以组成与各用户舆情信息对应的关键词列表。
在本实施例中,当通过TF-IDF模型(即term frequency–inverse documentfrequency,表示词频-逆文本频率指数模型)对用户舆情信息进行关键词信息抽取,可以将每一用户舆情信息简化表述为对应的关键词列表。
之后,由于每一用户舆情信息都简化为了关键词列表,故可以关键词列表来封装保存每一用户的简化舆情信息。
即通过词频-逆文本频率指数模型对用户舆情信息进行关键词提取,得到与用户舆情信息对应的关键词列表,具体如下:
1)将所述用户舆情信息进行分词,得到分词结果;
2)计算分词结果中每一分词i的词频,记为TFi;
3)计算分词结果中每一分词i的逆文档频率IDFi;
在计算每一分词i的逆文档频率IDFi时,需要一个语料库,用来模拟语言的使用环境;
逆文档频率IDFi=lg[语料库的文档总数/(包含该分词的文档数+1)];
如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词)。
4)根据TFi*IDFi计算分词结果中每一分词i对应的词频-逆文本频率指数TF-IDFi;
可以看到,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。所以,自动提取关键词的算法就很清楚了,就是计算出文档的每个分词的TF-IDF值,然后按降序排列,取排在前N位的词作为文档的关键词列表。
5)将分词结果中每一分词对应的词频-逆文本频率指数按降序排序,取排名位于预设的排名阈值之前的分词组成与用户舆情信息对应的关键词列表。
将每一用户舆情信息均进行关键词抽取后,得到了与每一用户舆情信息对应的关键词列表,将每一用户舆情信息简化为关键词便于后续预测该用户的舆情评分值。
S140、将每一用户舆情信息对应的关键词列表与所述用户清单中对应用户的用户唯一身份识别信息进行封装,以得到与所述用户清单中每一用户对应的处理后数据。
在本实施例中,为了确保每一用户的关键词列表能被唯一识别,需获知每一用户舆情信息对应的是所述用户清单中哪一用户,将每一用户舆情信息与所述用户清单中对应用户的用户唯一身份识别信息进行封装,即组成了与所述用户清单中每一用户对应的处理后数据。这样对每一用户对应的处理后数据进行后续舆情评分时,能一一对应计算各用户的舆情评分。
S150、将所选定的处理后数据输入至预先训练的朴素贝叶斯模型,得到与所选定的处理后数据对应目标用户的舆情评分值。
在一实施例中,如图5所示,步骤S150包括:
S151、获取所选定的处理后数据中各关键词;
S152、根据所述朴素贝叶斯模型获取以所选定的处理后数据中各关键词为前提条件对应计算的后验概率,以作为与所选定的处理后数据对应目标用户的舆情评分值。
在本实施例中,所述朴素贝叶斯模型函数如下:
其中,x1,x2,…,xn表示处理后数据中的各关键词。
例如,计算P(yk|x1,x2,…,xn)时,P(yk|x1,x2,…,xn)表示目标用户在包括关键词x1,x2,…,xn的前提下被划分为类别yk的概率,类别yk主要有两类,y1对应正面评价类别用户,y2对应负面评价类别用户;以P(y1|x1,x2,…,xn)和P(y2|x1,x2,…,xn)中的最大值作为目标用户的舆情评分值。
在一实施例中,步骤S110之前还包括:
将训练集数据中每一用户的关键词列表作为待训练朴素贝叶斯模型的输入,将训练集数据中对应用户的舆情评分作为待训练朴素贝叶斯模型的输出,对所述待训练待训练朴素贝叶斯模型进行训练,得到用于预测舆情评分的朴素贝叶斯模型。
在本实施例中,对待训练待训练朴素贝叶斯模型进行训练的过程与训练其他神经网络模型一样,仍是输入训练集数据中每一用户的关键词列表,然后将已知的与各用户对应的舆情评分作为待训练朴素贝叶斯模型的输出,通过海量训练集数据即可得到用于预测舆情评分的朴素贝叶斯模型。也即当通过对处理后数据中每一关键词作为舆情评分的影响因素,即可通过海量数据训练出用于预测某一用户的舆情评分的朴素贝叶斯模型。
在一实施例中,如图3所示,步骤S150之后还包括:
S160、若所述目标用户的舆情评分值超出预先设置的评分阈值,将所述目标用户设置非优质客户的标识。
在本实施例中,当需对某一个目标用户进行舆情评分预测时,将该目标用户的用户舆情信息进行关键词提取和封装后,得到当前处理后数据,之后将当前处理后数据作为朴素贝叶斯模型的输入,得到与所述待预测用户的用户舆情信息对应的舆情评分值。若待预测用户的舆情评分值超出预先设置的评分阈值,将待预测用户进行非优质客户标识;
若目标用户的舆情评分值(如0.85)大于预设的评分阈值(如将评分阈值设置为0.5),则表示该用户极大概率为非优质客户,应对其进行非优质客户标识。
该方法实现了自动化高效爬取指定用户的舆情信息,而且能获取用户舆情信息对应的舆情评分值。
本发明实施例还提供一种舆论信息爬取装置,该舆论信息爬取装置用于执行前述舆论信息爬取方法的任一实施例。具体地,请参阅图6,图6是本发明实施例提供的舆论信息爬取装置的示意性框图。该舆论信息爬取装置100可以配置于服务器中。
如图6所示,舆论信息爬取装置100包括定向爬取单元110、舆情集合获取单元120、关键词列表获取单元130、数据处理单元140、舆情评分值获取单元150。
定向爬取单元110,用于接收待爬取的用户清单,将所述用户清单中每一用户名称与预设的爬取关键词集合中各关键词进行组合,得到定向爬虫集合。
在本实施例中,当需服务器自动爬取指定用户的舆情信息时,上传端需事先上传待爬取的用户清单至服务器。例如,当需分析某一个人或企业的舆情(该舆情主要用于评估某一个人或企业的贷款资质时)时,可以对该待爬取的用户清单进行定向的舆情内容爬取,如由用户名称与诈骗、欺诈、捐款、法人变更等较敏感词汇进行组合后得到定向爬虫,以快速获取所需关注用户的重要舆情信息。其中,每一用户名称与预设的爬取关键词集合中各关键词进行组合,得到该用户对应的定向爬虫,所述用户清单中每一用户名称对应的定向爬虫组成定向爬虫集合。
由于通过用户名称与预设的爬取关键词集合中各关键词进行组合得到定向爬虫集合,能定向爬取所需要的舆情信息,避免了无关信息的爬取,提高了爬取效率。
舆情集合获取单元120,用于通过所述定向爬虫集合从预设的网址清单中爬取与所述用户清单中每一用户对应的用户舆情信息,以得到用户舆情信息集合。
在本实施例中,为了提高爬取的效率,可以预先设置网址清单,定向爬虫集合直接在预设的网址清单对应的各网站中爬取用户舆情信息即可。例如,预设的网址清单包括微博,微信,知乎等网站。
例如针对用户1的定向爬虫为用户1名称+诈骗、用户1名称+欺诈、用户1名称+捐款,通过用户1的定向爬虫在微博、微信、知乎等网站爬取与用户1对应用户舆情信息,所述用户清单中每一用户名称对应的用户舆情信息组成用户舆情信息集合。
关键词列表获取单元130,用于通过词频-逆文本频率指数模型对所述用户舆情信息集合中每一用户舆情信息进行关键词提取,得到与每一用户舆情信息对应的关键词列表。
在本实施例中,为了对用户清单中每一用户进行舆情分析时,可以通过定向爬取所需重点关注的舆情信息,之后对各用户所对应爬取的用户信息进行关键词提取,并与对应的用户唯一身份识别信息进行组成并封装得到每一用户一一对应的处理后数据。
在一实施例中,如图8所示,关键词列表获取单元130包括:
分词单元131,用于将所述用户舆情信息集合中各用户舆情信息进行分词,得到各用户舆情信息对应的分词结果;
词频计算单元132,用于计算各分词结果中每一分词的词频;
逆文档频率计算单元133,用于计算各分词结果中每一分词的逆文档频率;
指数计算单元134,用于根据词频-逆文本频率指数=词频*逆文档频率,计算各分词结果中每一分词对应的词频-逆文本频率指数;
抽取单元135,用于将各分词结果中以每一个分词结果为一组分词结果,将每一组分词结果中每一分词对应的词频-逆文本频率指数按降序排序,获取组内排名位于预设的排名阈值之前的词频-逆文本频率指数对应的分词,以组成与各用户舆情信息对应的关键词列表。
在本实施例中,当通过TF-IDF模型(即term frequency–inverse documentfrequency,表示词频-逆文本频率指数模型)对用户舆情信息进行关键词信息抽取,可以将每一用户舆情信息简化表述为对应的关键词列表。
之后,由于每一用户舆情信息都简化为了关键词列表,故可以关键词列表来封装保存每一用户的简化舆情信息。
数据处理单元140,用于将每一用户舆情信息对应的关键词列表与所述用户清单中对应用户的用户唯一身份识别信息进行封装,以得到与所述用户清单中每一用户对应的处理后数据。
在本实施例中,为了确保每一用户的关键词列表能被唯一识别,需获知每一用户舆情信息对应的是所述用户清单中哪一用户,将每一用户舆情信息与所述用户清单中对应用户的用户唯一身份识别信息进行封装,即组成了与所述用户清单中每一用户对应的处理后数据。这样对每一用户对应的处理后数据进行后续舆情评分时,能一一对应计算各用户的舆情评分。
舆情评分值获取单元150,用于将所选定的处理后数据输入至预先训练的朴素贝叶斯模型,得到与所选定的处理后数据对应目标用户的舆情评分值。
在一实施例中,如图9所示,舆情评分值获取单元150包括:
关键词获取单元151,用于获取所选定的处理后数据中各关键词;
评分值计算单元152,用于根据所述朴素贝叶斯模型获取以所选定的处理后数据中各关键词为前提条件对应计算的后验概率,以作为与所选定的处理后数据对应目标用户的舆情评分值。
在本实施例中,所述朴素贝叶斯模型函数如下:
其中,x1,x2,…,xn表示处理后数据中的各关键词。
例如,计算P(yk|x1,x2,…,xn)时,P(yk|x1,x2,…,xn)表示目标用户在包括关键词x1,x2,…,xn的前提下被划分为类别yk的概率,类别yk主要有两类,y1对应正面评价类别用户,y2对应负面评价类别用户;以P(y1|x1,x2,…,xn)和P(y2|x1,x2,…,xn)中的最大值作为目标用户的舆情评分值。
在一实施例中,舆论信息爬取装置100还包括:
模型训练单元,用于将训练集数据中每一用户的关键词列表作为待训练朴素贝叶斯模型的输入,将训练集数据中对应用户的舆情评分作为待训练朴素贝叶斯模型的输出,对所述待训练待训练朴素贝叶斯模型进行训练,得到用于预测舆情评分的朴素贝叶斯模型。
在本实施例中,对待训练待训练朴素贝叶斯模型进行训练的过程与训练其他神经网络模型一样,仍是输入训练集数据中每一用户的关键词列表,然后将已知的与各用户对应的舆情评分作为待训练朴素贝叶斯模型的输出,通过海量训练集数据即可得到用于预测舆情评分的朴素贝叶斯模型。也即当通过对处理后数据中每一关键词作为舆情评分的影响因素,即可通过海量数据训练出用于预测某一用户的舆情评分的朴素贝叶斯模型。
在一实施例中,如图7所示,舆论信息爬取装置100还包括:
标识单元160,用于若所述目标用户的舆情评分值超出预先设置的评分阈值,将所述目标用户设置非优质客户的标识。
在本实施例中,当需对某一个目标用户进行舆情评分预测时,将该目标用户的用户舆情信息进行关键词提取和封装后,得到当前处理后数据,之后将当前处理后数据作为朴素贝叶斯模型的输入,得到与所述待预测用户的用户舆情信息对应的舆情评分值。若待预测用户的舆情评分值超出预先设置的评分阈值,将待预测用户进行非优质客户标识;
若目标用户的舆情评分值(如0.85)大于预设的评分阈值(如将评分阈值设置为0.5),则表示该用户极大概率为非优质客户,应对其进行非优质客户标识。
该装置实现了自动化高效爬取指定用户的舆情信息,而且能获取其对应的舆情评分值。
上述舆论信息爬取装置可以实现为计算机程序的形式,该计算机程序可以在如图10所示的计算机设备上运行。
请参阅图10,图10是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图10,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行舆论信息爬取方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行舆论信息爬取方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图10中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下功能:接收待爬取的用户清单,将所述用户清单中每一用户名称与预设的爬取关键词集合中各关键词进行组合,得到定向爬虫集合;通过所述定向爬虫集合从预设的网址清单中爬取与所述用户清单中每一用户对应的用户舆情信息,以得到用户舆情信息集合;通过词频-逆文本频率指数模型对所述用户舆情信息集合中每一用户舆情信息进行关键词提取,得到与每一用户舆情信息对应的关键词列表;将每一用户舆情信息对应的关键词列表与所述用户清单中对应用户的用户唯一身份识别信息进行封装,以得到与所述用户清单中每一用户对应的处理后数据;以及将所选定的处理后数据输入至预先训练的朴素贝叶斯模型,得到与所选定的处理后数据对应目标用户的舆情评分值。
在一实施例中,处理器502在执行所述将所选定的处理后数据输入至预先训练的朴素贝叶斯模型,得到与所选定的处理后数据对应目标用户的舆情评分值的步骤之后,还执行如下操作:若所述目标用户的舆情评分值超出预先设置的评分阈值,将所述目标用户设置非优质客户的标识。
在一实施例中,处理器502在执行所述通过词频-逆文本频率指数模型对所述用户舆情信息集合中每一用户舆情信息进行关键词提取,得到与每一用户舆情信息对应的关键词列表的步骤时,执行如下操作:将所述用户舆情信息集合中各用户舆情信息进行分词,得到各用户舆情信息对应的分词结果;计算各分词结果中每一分词的词频;计算各分词结果中每一分词的逆文档频率;根据词频-逆文本频率指数=词频*逆文档频率,计算各分词结果中每一分词对应的词频-逆文本频率指数;将各分词结果中以每一个分词结果为一组分词结果,将每一组分词结果中每一分词对应的词频-逆文本频率指数按降序排序,获取组内排名位于预设的排名阈值之前的词频-逆文本频率指数对应的分词,以组成与各用户舆情信息对应的关键词列表。
在一实施例中,处理器502在执行所述接收待爬取的用户清单,将所述用户清单中每一用户名称与预设的爬取关键词集合中各关键词进行组合,得到定向爬虫集合的步骤之前,还执行如下操作:将训练集数据中每一用户的关键词列表作为待训练朴素贝叶斯模型的输入,将训练集数据中对应用户的舆情评分作为待训练朴素贝叶斯模型的输出,对所述待训练待训练朴素贝叶斯模型进行训练,得到用于预测舆情评分的朴素贝叶斯模型。
在一实施例中,处理器502在执行所述根将所选定的处理后数据输入至预先训练的朴素贝叶斯模型,得到与所选定的处理后数据对应目标用户的舆情评分值的步骤时,执行如下操作:获取所选定的处理后数据中各关键词;根据所述朴素贝叶斯模型获取以所选定的处理后数据中各关键词为前提条件对应计算的后验概率,以作为与所选定的处理后数据对应目标用户的舆情评分值。
本领域技术人员可以理解,图10中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图10所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现以下步骤:接收待爬取的用户清单,将所述用户清单中每一用户名称与预设的爬取关键词集合中各关键词进行组合,得到定向爬虫集合;通过所述定向爬虫集合从预设的网址清单中爬取与所述用户清单中每一用户对应的用户舆情信息,以得到用户舆情信息集合;通过词频-逆文本频率指数模型对所述用户舆情信息集合中每一用户舆情信息进行关键词提取,得到与每一用户舆情信息对应的关键词列表;将每一用户舆情信息对应的关键词列表与所述用户清单中对应用户的用户唯一身份识别信息进行封装,以得到与所述用户清单中每一用户对应的处理后数据;以及将所选定的处理后数据输入至预先训练的朴素贝叶斯模型,得到与所选定的处理后数据对应目标用户的舆情评分值。
在一实施例中,所述将所选定的处理后数据输入至预先训练的朴素贝叶斯模型,得到与所选定的处理后数据对应目标用户的舆情评分值之后,还包括:若所述目标用户的舆情评分值超出预先设置的评分阈值,将所述目标用户设置非优质客户的标识。
在一实施例中,所述通过词频-逆文本频率指数模型对所述用户舆情信息集合中每一用户舆情信息进行关键词提取,得到与每一用户舆情信息对应的关键词列表,包括:将所述用户舆情信息集合中各用户舆情信息进行分词,得到各用户舆情信息对应的分词结果;计算各分词结果中每一分词的词频;计算各分词结果中每一分词的逆文档频率;根据词频-逆文本频率指数=词频*逆文档频率,计算各分词结果中每一分词对应的词频-逆文本频率指数;将各分词结果中以每一个分词结果为一组分词结果,将每一组分词结果中每一分词对应的词频-逆文本频率指数按降序排序,获取组内排名位于预设的排名阈值之前的词频-逆文本频率指数对应的分词,以组成与各用户舆情信息对应的关键词列表。
在一实施例中,所述接收待爬取的用户清单,将所述用户清单中每一用户名称与预设的爬取关键词集合中各关键词进行组合,得到定向爬虫集合之前,还包括:将训练集数据中每一用户的关键词列表作为待训练朴素贝叶斯模型的输入,将训练集数据中对应用户的舆情评分作为待训练朴素贝叶斯模型的输出,对所述待训练待训练朴素贝叶斯模型进行训练,得到用于预测舆情评分的朴素贝叶斯模型。
在一实施例中,所述将所选定的处理后数据输入至预先训练的朴素贝叶斯模型,得到与所选定的处理后数据对应目标用户的舆情评分值,包括:获取所选定的处理后数据中各关键词;根据所述朴素贝叶斯模型获取以所选定的处理后数据中各关键词为前提条件对应计算的后验概率,以作为与所选定的处理后数据对应目标用户的舆情评分值。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种舆论信息爬取方法,其特征在于,包括:
接收待爬取的用户清单,将所述用户清单中每一用户名称与预设的爬取关键词集合中各关键词进行组合,得到定向爬虫集合;
通过所述定向爬虫集合从预设的网址清单中爬取与所述用户清单中每一用户对应的用户舆情信息,以得到用户舆情信息集合;
通过词频-逆文本频率指数模型对所述用户舆情信息集合中每一用户舆情信息进行关键词提取,得到与每一用户舆情信息对应的关键词列表;
将每一用户舆情信息对应的关键词列表与所述用户清单中对应用户的用户唯一身份识别信息进行封装,以得到与所述用户清单中每一用户对应的处理后数据;以及
将所选定的处理后数据输入至预先训练的朴素贝叶斯模型,得到与所选定的处理后数据对应目标用户的舆情评分值。
2.根据权利要求1所述的舆论信息爬取方法,其特征在于,所述将所选定的处理后数据输入至预先训练的朴素贝叶斯模型,得到与所选定的处理后数据对应目标用户的舆情评分值之后,还包括:
若所述目标用户的舆情评分值超出预先设置的评分阈值,将所述目标用户设置非优质客户的标识。
3.根据权利要求1所述的舆论信息爬取方法,其特征在于,所述通过词频-逆文本频率指数模型对所述用户舆情信息集合中每一用户舆情信息进行关键词提取,得到与每一用户舆情信息对应的关键词列表,包括:
将所述用户舆情信息集合中各用户舆情信息进行分词,得到各用户舆情信息对应的分词结果;
计算各分词结果中每一分词的词频;
计算各分词结果中每一分词的逆文档频率;
根据词频-逆文本频率指数=词频*逆文档频率,计算各分词结果中每一分词对应的词频-逆文本频率指数;
将各分词结果中以每一个分词结果为一组分词结果,将每一组分词结果中每一分词对应的词频-逆文本频率指数按降序排序,获取组内排名位于预设的排名阈值之前的词频-逆文本频率指数对应的分词,以组成与各用户舆情信息对应的关键词列表。
4.根据权利要求1所述的舆论信息爬取方法,其特征在于,所述接收待爬取的用户清单,将所述用户清单中每一用户名称与预设的爬取关键词集合中各关键词进行组合,得到定向爬虫集合之前,还包括:
将训练集数据中每一用户的关键词列表作为待训练朴素贝叶斯模型的输入,将训练集数据中对应用户的舆情评分作为待训练朴素贝叶斯模型的输出,对所述待训练待训练朴素贝叶斯模型进行训练,得到用于预测舆情评分的朴素贝叶斯模型。
5.根据权利要求1所述的舆论信息爬取方法,其特征在于,所述将所选定的处理后数据输入至预先训练的朴素贝叶斯模型,得到与所选定的处理后数据对应目标用户的舆情评分值,包括:
获取所选定的处理后数据中各关键词;
根据所述朴素贝叶斯模型获取以所选定的处理后数据中各关键词为前提条件对应计算的后验概率,以作为与所选定的处理后数据对应目标用户的舆情评分值。
6.一种舆论信息爬取装置,其特征在于,包括:
定向爬取单元,用于接收待爬取的用户清单,将所述用户清单中每一用户名称与预设的爬取关键词集合中各关键词进行组合,得到定向爬虫集合;
舆情集合获取单元,用于通过所述定向爬虫集合从预设的网址清单中爬取与所述用户清单中每一用户对应的用户舆情信息,以得到用户舆情信息集合;
关键词列表获取单元,用于通过词频-逆文本频率指数模型对所述用户舆情信息集合中每一用户舆情信息进行关键词提取,得到与每一用户舆情信息对应的关键词列表;
数据处理单元,用于将每一用户舆情信息对应的关键词列表与所述用户清单中对应用户的用户唯一身份识别信息进行封装,以得到与所述用户清单中每一用户对应的处理后数据;以及
舆情评分值获取单元,用于将所选定的处理后数据输入至预先训练的朴素贝叶斯模型,得到与所选定的处理后数据对应目标用户的舆情评分值。
7.根据权利要求6所述的舆论信息爬取装置,其特征在于,还包括:
标识单元,用于若所述目标用户的舆情评分值超出预先设置的评分阈值,将所述目标用户设置非优质客户的标识。
8.根据权利要求6所述的舆论信息爬取装置,其特征在于,所述关键词列表获取单元,包括:
分词单元,用于将所述用户舆情信息集合中各用户舆情信息进行分词,得到各用户舆情信息对应的分词结果;
词频计算单元,用于计算各分词结果中每一分词的词频;
逆文档频率计算单元,用于计算各分词结果中每一分词的逆文档频率;
指数计算单元,用于根据词频-逆文本频率指数=词频*逆文档频率,计算各分词结果中每一分词对应的词频-逆文本频率指数;
抽取单元,用于将各分词结果中以每一个分词结果为一组分词结果,将每一组分词结果中每一分词对应的词频-逆文本频率指数按降序排序,获取组内排名位于预设的排名阈值之前的词频-逆文本频率指数对应的分词,以组成与各用户舆情信息对应的关键词列表。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的舆论信息爬取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至5任一项所述的舆论信息爬取方法。
CN201910198371.8A 2019-03-15 2019-03-15 舆论信息爬取方法、装置、计算机设备及存储介质 Pending CN110083759A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910198371.8A CN110083759A (zh) 2019-03-15 2019-03-15 舆论信息爬取方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910198371.8A CN110083759A (zh) 2019-03-15 2019-03-15 舆论信息爬取方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN110083759A true CN110083759A (zh) 2019-08-02

Family

ID=67412563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910198371.8A Pending CN110083759A (zh) 2019-03-15 2019-03-15 舆论信息爬取方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110083759A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457603A (zh) * 2019-08-16 2019-11-15 中国电子信息产业集团有限公司第六研究所 用户关系抽取方法、装置、电子设备及可读存储介质
CN110825945A (zh) * 2019-10-29 2020-02-21 深圳前海环融联易信息科技服务有限公司 负面舆论收集方法、装置、计算机设备及存储介质
CN111680226A (zh) * 2020-06-16 2020-09-18 杭州安恒信息技术股份有限公司 网络舆情分析方法、装置、系统、设备及可读存储介质
CN113850662A (zh) * 2021-08-13 2021-12-28 厦门国际银行股份有限公司 一种舆情预警处理系统及方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457603A (zh) * 2019-08-16 2019-11-15 中国电子信息产业集团有限公司第六研究所 用户关系抽取方法、装置、电子设备及可读存储介质
CN110457603B (zh) * 2019-08-16 2021-08-06 中国电子信息产业集团有限公司第六研究所 用户关系抽取方法、装置、电子设备及可读存储介质
CN110825945A (zh) * 2019-10-29 2020-02-21 深圳前海环融联易信息科技服务有限公司 负面舆论收集方法、装置、计算机设备及存储介质
CN111680226A (zh) * 2020-06-16 2020-09-18 杭州安恒信息技术股份有限公司 网络舆情分析方法、装置、系统、设备及可读存储介质
CN113850662A (zh) * 2021-08-13 2021-12-28 厦门国际银行股份有限公司 一种舆情预警处理系统及方法

Similar Documents

Publication Publication Date Title
Pacheco et al. Uncovering coordinated networks on social media: methods and case studies
CN110083759A (zh) 舆论信息爬取方法、装置、计算机设备及存储介质
Zhang et al. A gated peripheral-foveal convolutional neural network for unified image aesthetic prediction
US11138381B2 (en) Method, computer device and readable medium for user's intent mining
CN103176982B (zh) 一种电子图书推荐的方法及系统
US10380249B2 (en) Predicting future trending topics
CN110532451A (zh) 针对政策文本的检索方法和装置、存储介质、电子装置
US20110289088A1 (en) System and method for ranking content interest
US9633119B2 (en) Content ranking based on user features in content
WO2009014361A2 (en) Method, system, and computer readable recording medium for filtering obscene contents
CN106326391A (zh) 多媒体资源推荐方法及装置
CN104217031A (zh) 一种根据服务器搜索日志数据进行用户分类的方法和装置
CN113383362B (zh) 用户识别方法及相关产品
CN105378730A (zh) 社交媒体分析与输出
CN110046196A (zh) 标识关联方法及装置、电子设备
CN105069036A (zh) 一种信息推荐方法及装置
CN104077707B (zh) 一种推广呈现方式的优化方法和装置
CN110113634A (zh) 一种信息互动方法、装置、设备及存储介质
CN106294473B (zh) 一种实体词挖掘方法、信息推荐方法及装置
CN109739989A (zh) 文本分类方法和计算机设备
CN109582792A (zh) 一种文本分类的方法及装置
CN106919588A (zh) 一种应用程序搜索系统及方法
US9807181B2 (en) Determination of general and topical news and geographical scope of news content
CN113127746A (zh) 基于用户聊天内容分析的信息推送方法及其相关设备
CN109960719A (zh) 一种文件处理方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination