CN115168686B

CN115168686B - 一种基于特征词的舆情线索处理方法

Info

Publication number: CN115168686B
Application number: CN202210879764.7A
Authority: CN
Inventors: 王强; 马剑; 杨昕; 王邵圆; 王发成
Original assignee: Jiangsu Jinnong Co ltd
Current assignee: Jiangsu Jinnong Co ltd
Priority date: 2022-07-25
Filing date: 2022-07-25
Publication date: 2023-05-12
Anticipated expiration: 2042-07-25
Also published as: CN115168686A

Abstract

本发明公开了一种基于特征词的舆情线索处理方法，构建线索挖掘模型，通过线索挖掘模型对第一舆情信息集合中的每条舆情信息进行风险点识别，即根据不同风险点对应的风险识别模型对相应舆情信息进行梳理，得到相应风险识别结果，将同一舆情信息对应的不同风险点相应的风险识别结果进行汇总，得到舆情信息的综合风险识别结果。本发明涉及互联网技术领域，不仅能够通过数据挖掘的方式来应对不同类型的线索和风险，同时能够，根据舆情形势的变化主动优化特征词库，对特征词库不断更新，不断提高特征词库对舆情线索分析结果的精度。

Description

一种基于特征词的舆情线索处理方法

技术领域

本发明涉及互联网技术领域，具体为一种基于特征词的舆情线索处理方法。

背景技术

面对当前海量舆情数据的形势，过去通过人工识别分析，逐条处理的方式往往不能及时发现风险、识别风险；同时，利用大数据工具实时处理舆论数据的手段也不断被人们提起和实践；利用大数据平台能够实时处理的特性和高速处理的优势，通过建立特征词库和特征词规则的方式，来为舆情分析挖掘系统做规则储备，该方式能够快速对海量舆情数据进行处理，大大改善了面对海量数据无从下手的现实问题。

但是现有的基于特征词的舆情线索处理方法尚且不够完善，目前市面大多数系统仅仅通过数据挖掘的方式来应对已知类型的线索和风险，无法主动优化特征词库，进而对特征词库无法根据舆情形势的变化不断更新，使得特征词库对舆情线索的分析结果容易出现偏差。

发明内容

本发明的目的在于提供一种基于特征词的舆情线索处理方法，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：一种基于特征词的舆情线索处理方法，所述方法包括以下步骤：

S1、通过公共接口对网上的舆情信息进行抓取；

S2、根据数据库中的一级特征词对抓取的舆情信息进行数据整理，筛选包含一级特征词的舆情信息，得到第一舆情信息集合，所述一级特征词包括单元素特征词及多个特征词构成的特征词组合，一级特征词包括多个单元素特征词及多个特征词组合，单元素特征词表示一个特征词；

S3、构建线索挖掘模型，通过线索挖掘模型对第一舆情信息集合中的每条舆情信息进行风险点识别，即根据不同风险点对应的风险识别模型对相应舆情信息进行梳理，得到相应风险识别结果，将同一舆情信息对应的不同风险点相应的风险识别结果进行汇总，得到舆情信息的综合风险识别结果；

S4、根据第一舆情信息集合中不同元素对应舆情信息的综合风险识别结果，对第一舆情信息集合进行相似元素合并处理，得到第二舆情信息集合，并计算第二舆情信息集合中每个元素对应的综合分析值，对第二舆情信息集合进行优化，得到第三舆情信息集合，根据第二舆情信息集合对一级特征词进行优化；

S5、根据第三舆情信息集合中每个元素对应舆情信息的综合风险识别结果，得到舆情信息对应的风险线索画像及风险地区定位；

S6、根据风险线索画像及风险地区定位，生成舆情线索，并按舆情线索对应的舆情信息相应综合分析值从大到小的顺序，对舆情线索进行编号并存储。

进一步的，所述S1中通过公共接口对网上的舆情信息进行抓取的过程中，所述公共接口为公有的能够进行数据抓取的接口，所述舆情信息包括舆论数据、政务信息数据及投诉举报数据。

进一步的，所述S2中根据数据库中的一级特征词对抓取的舆情信息进行数据整理的方法包括以下步骤：

S2.1、获取抓取的舆情信息及数据库中存储的一级特征词；

S2.2、对抓取的每条舆情信息进行关键词提取，并将每条舆情信息提取的关键词存储到一个空白集合中，得到每条舆情信息对应的关键词集合，

S2.3、将每条舆情信息对应的关键词集合与一级特征词进行比较，

当关键词集合中的单个元素对应的关键词与一级特征词中的单元素特征词存在相同情况时，则对该条舆情信息进行标记，

当关键词集合中的单个元素对应的关键词与一级特征词中的单元素特征词均不存在相同情况时，则将关键词集合中不同元素对应的关键词组合与一级特征词中的特征词组合进行比较，

若关键词集合中不同元素对应的关键词组合与一级特征词中的特征词组合存在相同情况时，则对该条舆情信息进行标记，

若关键词集合中不同元素对应的关键词组合与一级特征词中的特征词组合不存在相同情况时，则不对该条舆情信息进行标记；

S2.4、将抓取的舆情信息中标记的各条舆情信息进行汇总，得到第一舆情信息集合。

本发明通过一级特征词实现对舆情信息的筛选，一级特征词中设置特征词组合，是考虑到不同特征词组合在特定情况下具有特殊的含义，而特征词组合中的单独一个特征词往往较为普通，出现较为频繁，因此，设置特征词组合是为了便于对舆情信息进行较为精准的筛查，为后续获取舆情线索提供了数据参照。

进一步的，所述S3中得到舆情信息的综合风险识别结果的方法包括以下步骤：

S3.1、通过线索挖掘模型获取第一舆情信息集合中每个元素对应的舆情信息及舆情信息相应的关键词集合；

S3.2、分别选取不同的风险点对应的风险识别模型对每条舆情信息进行梳理，每个风险识别模型对应一个二级特征词集合，所述风险识别模型为数据库中预制的模型，

风险识别模型对每条舆情信息进行梳理的方式为：获取风险识别模型对应的二级特征词集合与每条舆情信息对应的关键词集合的交集，判断所得交集是否为空集，

当所得交集为空集时，则判定相应舆情信息不具备风险识别模型对应的风险点，

当所得交集不为空集时，则判定相应舆情信息具备风险识别模型对应的风险点，并将所得交集中的元素作为相应的风险识别结果；

S3.3、获取每条舆情信息对应的各个风险点及每个风险点对应的风险识别结果，将同一舆情信息对应的不同风险点相应的风险识别结果进行汇总，录入到一个空白集合中，得到相应舆情信息的综合风险识别结果。

本发明获取舆情信息的综合风险识别结果的过程中，构建的线索挖掘模型即获取舆情信息的综合风险识别结果的流程；风险识别模型是数据库中预制的固定模型，不同的风险识别模型是为了梳理舆情信息的不同风险点；将同一舆情信息对应的不同风险点相应的风险识别结果进行汇总，是为了判定舆情信息存在总的风险情况，便于后续分析舆情线索。

进一步的，所述S4中得到第二舆情信息集合的方法包括以下步骤：

S4.1、获取第一舆情信息集合中不同元素对应舆情信息的综合风险识别结果，并对综合风险识别结果为空集的舆情信息采用第二标记方式进行标记；

S4.2、选取第一舆情信息中未被第二标记方式标记元素中的任意两个构成一个元素对，得到所有不同的元素对构成的集合，记为元素对集合；

S4.3、计算每个元素对中两个元素对应舆情信息的综合风险识别结果之间的匹配度，所述匹配度等于两个舆情信息的综合风险识别结果交集中元素个数，与两个舆情信息的综合风险识别结果对应元素个数的最小值之间的比值，记为

N(A1∩A2)/{N(A1),N(A2)}min

其中，N(A1∩A2)表示两个舆情信息的综合风险识别结果交集中元素个数，N(A1)两个舆情信息中第一个舆情信息的综合风险识别结果对应元素个数，N(A2)两个舆情信息中第二个舆情信息的综合风险识别结果对应元素个数；

S4.4、对第一舆情信息集合进行相似元素合并处理，

当元素对对应的匹配度大于等于第一阈值时，则判定元素对中的两舆情信息相似，将两者进行合并，合并结果为两个舆情信息构成的数组，合并结果对应的综合风险识别结果为元素对中两个元素分别对应舆情信息的综合风险识别结果的并集，所述第一阈值为数据库中预制的常数；

当元素对对应的匹配度小于第一阈值时，则判定元素对中的两舆情信息不相似，不将两者进行合并；

当存在多个元素对中元素相互之间对应的匹配度均大于等于第一阈值时，则判定多个元素对中所有元素对应的舆情信息相似，将多个元素对中的所有元素进行合并，合并结果为多个元素对中的所有元素对应舆情信息构成的数组，合并结果对应的综合风险识别结果为多个元素对中的所有元素分别对应舆情信息的综合风险识别结果的并集；

当多个元素对对应元素中存在第一元素与第二元素、第二元素与第三元素的匹配度大于等于第一阈值且第一元素与第三元素的匹配度小于第一阈值时，则计算第一差值与第二差值的和除以第一数值得到的商，记为第一相对值，所述第一数值为第二元素与第三元素的匹配度，所述第一差值为第一元素与第二元素的匹配度与第一数值的差值，第二差值为第一元素与第三元素的匹配度与第一数值的差值，

将第一相对值与第二阈值进行比较，所述第二阈值为数据库中预制的常数，

若第一相对值大于等于第二阈值，则判定多个元素对中的第一元素与第二元素、第二元素与第三元素三者均相似，

若第一相对值小于第二阈值，则判定多个元素对中的第一元素与第二元素相似且对应舆情信息构成一个数组，第二元素与第三元素相似且对应舆情信息构成另一个数组；

S4.5、将第一舆情信息集合中未与其他元素进行合并的每个元素分别录入到一个空白数组中，将通过第一舆情信息集合得到的所有数组逐个录入到一个空白集合中，得到第二舆情信息集合，所述通过第一舆情信息集合得到的所有数组包括：元素合并得到的数组及第一舆情信息集合中未与其他元素进行合并的每个元素对应的数组。

本发明得到第二舆情信息集合的过程中，对综合风险识别结果为空集的舆情信息采用第二标记方式进行标记，是考虑到综合风险识别结果为空集时，计算相应元素对匹配度的过程中，分母出现为0的情况，进而使得获取的匹配度无意义。

进一步的，所述S4中得到第三舆情信息集合的方法包括以下步骤：

S4-1、获取第二舆情信息集合每个元素对应的数组及每个元素对应的综合风险识别结果；

S4-2、计算第二舆情信息集合中第j个元素对应数组的第一权重值G1j，

其中，r为数据库中预制的常数，k1j表示第j个元素对应数组中抓取的舆情信息的公共接口的种类数，不同的公共接口对应不同的舆情信息抓取渠道，YTk表示第k个公共接口获取的信息的权重系数，YSj_k表示第j个元素对应数组中通过第k个公共接口获取的舆情信息个数，YSj表示第j个元素对应数组中舆情信息的总个数，YPSj_k表示第j个元素对应数组中通过第k个公共接口获取的舆情信息对应的所有评论内，第j个元素对应的综合风险识别结果中元素出现的总个数，所述第j个元素对应的综合风险识别结果中同一元素在评论中出现的次数可以为多次；

S4-3、在第二舆情信息集合中的每个元素对应的第一权重值获取结束后，对YTk对应值进行更新，即获取数据库中前n次保存的第k个公共接口获取的信息的权重系数的和，并将所得和与

相加的结果除以n+1，将得到的商作为YTk更新后的值保存到数据库中；

S4-4、对第二舆情信息集合中每个元素对应数组的第一权重值进行判断，得到第三舆情信息集合，

当元素的第一权重值大于等于第四阈值时，则不对第二舆情信息集合中该元素进行处理，所述第四阈值为数据库中预制的常数，

当元素的第一权重值小于第四阈值时，则将第二舆情信息集合中该元素删除。

本发明得到第三舆情信息集合的过程中，第二舆情信息集合中第j个元素对应数组的第一权重值，是从舆情数据获取过程中对应的公共接口种类、每个公共接口在数组中对应的舆情信息的个数占比情况及每个公共接口在数组中对应的舆情信息的评论内容这三方面进行分析，不同公共接口对应不同的权重系数，且公共接口的权重系数是实时更新的，进而确保第一权重值的准确性，便于准确得到第三舆情信息集合。

进一步的，根据第二舆情信息集合对一级特征词进行优化时，获取第二舆情信息集合包含的所有舆情信息对应关键词集合的并集，记为第一对比集合，获取通过公共接口抓取的舆情信息中第二舆情信息集合不包含的所有舆情信息的集合，记为第二对比集合，

计算第一对比集合中关键词的不同组合内容，并计算每种组合内容在第二舆情信息集合包含的所有舆情信息对应关键词集合中出现的个数与第二舆情信息集合包含的所有舆情信息个数的比值，记为该组合内容对应的第一系数，一个组合内容在一个舆情信息对应的关键词集合中出现的次数为0次或1次，

计算第一对比集合对应的每个组合内容，在第二对比集合中所有舆情信息分别对应的关键词集合中出现的次数与第二对比集合的元素总个数的比值记为相应组合内容对应的第二系数，

当组合内容对应的第一系数等于0时，则不对该组合内容进行处理，

当组合内容对应的第一系数大于0且第二系数等于0时，则将该组合内容添加到一级特征词中，

当组合内容对应的第一系数大于0且第二系数大于0时，则计算该组合内容对应的第一系数与第二系数的比值，

若所得比值大于等于第三阈值，则将该组合内容添加到一级特征词中，所述第三阈值为数据库中预制的常数，

若所得比值小于第三阈值，则不对该组合内容进行处理。

本发明根据第二舆情信息集合对一级特征词进行优化，是为了通过已经筛选的舆情信息集合反向更新一级特征词，进而使得后续过程中通过数据库中的一级特征词对舆情信息进行筛选时，能够准确筛选出满足第二舆情信息集合条件舆情信息，能够有针对性的增加第二舆情信息集合的样本容量，便于后续精准、全面地获取舆情线索。

进一步的，所述S5得到舆情信息对应的风险线索画像及风险地区定位的方法包括以下步骤：

S5.1、获取第三舆情信息集合中每个元素对应的舆情信息综合风险识别结果；

S5.2、将第三舆情信息集合中每个元素对应的综合风险识别结果作为一个风险线索画像；

S5.3、获取第三舆情信息集合中每个元素对应的各个舆情信息中所含地理位置的集合，作为该元素对应的风险地区定位，

第三舆情信息集合中一个元素对应一个舆情线索，所述舆情线索包括一个风险线索画像及一个风险地区定位。

进一步的，所述S6上生成舆情线索时，获取每个舆情线索在第三舆情信息集合中对应元素相应的数组，同时生成相应舆情线索对应的唯一标记方式，进而通过生成的唯一标记方式对获取的数组中每个舆情信息进行标记。

与现有技术相比，本发明所达到的有益效果是：本发明不仅能够通过数据挖掘的方式来应对不同类型的线索和风险，同时能够，根据舆情形势的变化主动优化特征词库，对特征词库不断更新，不断提高特征词库对舆情线索分析结果的精度。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明一种基于特征词的舆情线索处理方法的流程示意图；

图2是本发明一种基于特征词的舆情线索处理方法的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图2，本发明提供技术方案：一种基于特征词的舆情线索处理方法，所述方法包括以下步骤：

S1、通过公共接口对网上的舆情信息进行抓取；

所述S1中通过公共接口对网上的舆情信息进行抓取的过程中，所述公共接口为公有的能够进行数据抓取的接口，所述舆情信息包括舆论数据、政务信息数据及投诉举报数据。

本实施例中公共接口包括：微博、贴吧、论坛及新闻等。

所述S2中根据数据库中的一级特征词对抓取的舆情信息进行数据整理的方法包括以下步骤：

S2.1、获取抓取的舆情信息及数据库中存储的一级特征词；

所述S3中得到舆情信息的综合风险识别结果的方法包括以下步骤：

S3.2、分别选取不同的风险点对应的风险识别模型对每条舆情信息进行梳理，每个风险识别模型对应一个二级特征词集合，

风险识别模型的类型包括地方金融类、中央金融类及企业风险类等，

所述风险识别模型为数据库中预制的模型，

所述S4中得到第二舆情信息集合的方法包括以下步骤：

N(A1∩A2)/{N(A1),N(A2)}min

本实施例中若A1包括10个元素，A2包括12个元素，且A1与A2的交集包括4个元素，

因为10＜12，

则A1与A2构成的元素对对应的匹配度为4÷10＝0.4。

S4.4、对第一舆情信息集合进行相似元素合并处理，

S4.5、将第一舆情信息集合中未与其他元素进行合并的每个元素分别录入到一个空白数组中，将通过第一舆情信息集合得到的所有数组逐个录入到一个空白集合中，得到第二舆情信息集合，所述通过第一舆情信息集合得到的所有数组包括元素合并得到的数组及第一舆情信息集合中未与其他元素进行合并的每个元素对应的数组。

所述S4中得到第三舆情信息集合的方法包括以下步骤：

本实施例中r为10，若第二舆情信息集合中第02个元素对应数组中抓取的舆情信息的公共接口的种类数为2，

若第02个元素对应数组中通过第1个公共接口获取的舆情信息个数为20，且第02个元素对应数组中通过第1个公共接口获取的舆情信息对应的所有评论内，第02个元素对应的综合风险识别结果中元素出现的总个数为200，

若第02个元素对应数组中通过第2个公共接口获取的舆情信息个数为30，且第02个元素对应数组中通过第2个公共接口获取的舆情信息对应的所有评论内，第02个元素对应的综合风险识别结果中元素出现的总个数为510，

若第1个公共接口获取的信息的权重系数为0.28，第2个公共接口获取的信息的权重系数为0.46；

则第二舆情信息集合中第02个元素对应数组的第一权重值为

根据第二舆情信息集合对一级特征词进行优化时，获取第二舆情信息集合包含的所有舆情信息对应关键词集合的并集，记为第一对比集合，获取通过公共接口抓取的舆情信息中第二舆情信息集合不包含的所有舆情信息的集合，记为第二对比集合，

若所得比值小于第三阈值，则不对该组合内容进行处理。

所述S5得到舆情信息对应的风险线索画像及风险地区定位的方法包括以下步骤：

所述S6上生成舆情线索时，获取每个舆情线索在第三舆情信息集合中对应元素相应的数组，同时生成相应舆情线索对应的唯一标记方式，进而通过生成的唯一标记方式对获取的数组中每个舆情信息进行标记

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于特征词的舆情线索处理方法，其特征在于，所述方法包括以下步骤：

S1、通过公共接口对网上的舆情信息进行抓取；

2.根据权利要求1所述的一种基于特征词的舆情线索处理方法，其特征在于：所述S1中通过公共接口对网上的舆情信息进行抓取的过程中，所述公共接口为公有的能够进行数据抓取的接口，所述舆情信息包括舆论数据、政务信息数据及投诉举报数据。

3.根据权利要求1所述的一种基于特征词的舆情线索处理方法，其特征在于：所述S2中根据数据库中的一级特征词对抓取的舆情信息进行数据整理的方法包括以下步骤：

S2.1、获取抓取的舆情信息及数据库中存储的一级特征词；

4.根据权利要求1所述的一种基于特征词的舆情线索处理方法，其特征在于：所述S3中得到舆情信息的综合风险识别结果的方法包括以下步骤：

5.根据权利要求1所述的一种基于特征词的舆情线索处理方法，其特征在于：所述S4中得到第二舆情信息集合的方法包括以下步骤：

N(A1∩A2)/{N(A1),N(A2)}min

S4.4、对第一舆情信息集合进行相似元素合并处理，

6.根据权利要求5所述的一种基于特征词的舆情线索处理方法，其特征在于：所述S4中得到第三舆情信息集合的方法包括以下步骤：

其中，r为数据库中预制的常数，k1j表示第j个元素对应数组中抓取的舆情信息的公共接口的种类数，YTk表示第k个公共接口获取的信息的权重系数，YSj_k表示第j个元素对应数组中通过第k个公共接口获取的舆情信息个数，YSj表示第j个元素对应数组中舆情信息的总个数，YPSj_k表示第j个元素对应数组中通过第k个公共接口获取的舆情信息对应的所有评论内，第j个元素对应的综合风险识别结果中元素出现的总个数；

7.根据权利要求1所述的一种基于特征词的舆情线索处理方法，其特征在于：根据第二舆情信息集合对一级特征词进行优化时，获取第二舆情信息集合包含的所有舆情信息对应关键词集合的并集，记为第一对比集合，获取通过公共接口抓取的舆情信息中第二舆情信息集合不包含的所有舆情信息的集合，记为第二对比集合，

若所得比值小于第三阈值，则不对该组合内容进行处理。

8.根据权利要求1所述的一种基于特征词的舆情线索处理方法，其特征在于：所述S5得到舆情信息对应的风险线索画像及风险地区定位的方法包括以下步骤：

9.根据权利要求1所述的一种基于特征词的舆情线索处理方法，其特征在于：所述S6上生成舆情线索时，获取每个舆情线索在第三舆情信息集合中对应元素相应的数组，同时生成相应舆情线索对应的唯一标记方式，进而通过生成的唯一标记方式对获取的数组中每个舆情信息进行标记。