CN110990574A

CN110990574A - 一种新闻资讯管理方法及装置

Info

Publication number: CN110990574A
Application number: CN201911297239.9A
Authority: CN
Inventors: 陶亮亮; 洪学海; 李小畅
Original assignee: Institute Of Big Data Cloud Computing Center Of Chinese Academy Shangrao
Current assignee: Institute Of Big Data Cloud Computing Center Of Chinese Academy Shangrao
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-04-10
Anticipated expiration: 2039-12-17
Also published as: CN110990574B

Abstract

本发明公开了一种新闻资讯管理方法及装置，该方法包括：步骤A、采集新闻资讯数据；步骤B、从预设数据库中找出与所述新闻资讯数据中目标新闻资讯文本相似度最大的M个参考新闻资讯文本，选择一个参考新闻资讯文本，进入步骤C；步骤C、获取被选中的参考新闻资讯文本的第一类簇信息；步骤D、判断所述目标新闻资讯文本是否属于所述第一类簇；若所述目标新闻资讯文本属于所述第一类簇，则将所述目标新闻资讯文本加入所述第一类簇。主要解决现有新闻资讯管理欠缺的问题。

Description

一种新闻资讯管理方法及装置

技术领域

本发明涉及电子技术领域，尤其涉及一种新闻资讯管理方法及装置。

背景技术

随着信息技术的发展，互联网已经成为政府、企业和网民发布、获取信息的重要平台。由于各网络平台数据质量参差不齐，互联网信息分散的特点，相关信息往往会被分布在网络各处，仅凭人力难以及时检测新闻事件和追踪相关信息。而现有事件检测与追踪研究大多关注的是某个特定平台，这容易导致事件缺失或者认知的偏差。因此，急需一种全方位的事件检测与追踪方法，帮助管理人员掌握情报，了解热点事件并追踪事件的发展动态，高效和科学的决策，为舆情监控提供数据支持。随着大数据时代的到来，目前事件检测与追踪方法主要面临以下方面的问题：事件发现大部分停留在事件的检测阶段，并未实现事件的管理，例如对新闻资讯数据进行聚类；挖掘事件关键词；挖掘舆情热词等等。景区管理人员不能全方位地了解事件的发展动态。

发明内容

本发明提供一种新闻资讯管理方法及装置，主要解决现有新闻资讯管理欠缺的问题。

本发明提供的新闻资讯管理方法，包括：

步骤A、采集新闻资讯数据；

步骤B、从预设数据库中找出与所述新闻资讯数据中目标新闻资讯文本相似度最大的M个参考新闻资讯文本，M大于或等于1；从所述M个参考新闻资讯文本中依次选择一个参考新闻资讯文本，进入步骤C；

步骤C、获取被选中的参考新闻资讯文本的第一类簇信息；

步骤D、判断所述目标新闻资讯文本是否属于所述第一类簇；若所述目标新闻资讯文本属于所述第一类簇，则进入步骤E；若所述目标新闻资讯文本不属于所述第一类簇，则从所述M个参考新闻资讯文本中选择另一个参考新闻资讯文本，返回步骤C，若所述M个参考新闻资讯文本都循环完毕，则进入步骤F；

步骤E、将所述目标新闻资讯文本加入所述第一类簇；

步骤F、新建第二类簇，将所述目标新闻资讯文本加入所述第二类簇。

本发明提供的新闻资讯管理装置，包括：

采集模块，用于采集新闻资讯数据；

匹配模块，用于从预设数据库中找出与所述新闻资讯数据中目标新闻资讯文本相似度最大的M个参考新闻资讯文本，M大于或等于1；从所述M个参考新闻资讯文本中依次选择一个参考新闻资讯文本；

获取模块、获取被选中的参考新闻资讯文本的第一类簇信息；

判断模块，用于判断所述目标新闻资讯文本是否属于所述第一类簇；若所述目标新闻资讯文本属于所述第一类簇，则进入步骤E；若所述目标新闻资讯文本不属于所述第一类簇，则从所述M个参考新闻资讯文本中选择另一个参考新闻资讯文本，返回步骤C，直到所述M个参考新闻资讯文本都循环完毕，则进入步骤F；

归类模块，用于所述判断模块的判断结果为所述目标新闻资讯文本属于所述第一类簇时，将所述目标新闻资讯文本加入所述第一类簇；以及所述判断模块的判断结果为所述目标新闻资讯文本不属于所述M个参考新闻资讯文本对应的类簇时，新建第二类簇，将所述目标新闻资讯文本加入所述第二类簇。

本发明提供的新闻资讯管理方法及装置，可以对采集到的新闻资讯数据中的新闻资讯文本进行聚类。进一步地，可以动态追踪同一目标事件的新闻资讯数据，对同一目标事件提取关键词，进而还可以根据该关键词编辑该目标事件的名称。进一步地，可以动态追踪多个目标事件的新闻资讯数据，对多个目标事件提取舆情热词，进而还可以通过词云的方式显示。

附图说明

图1为本发明第一实施例提供的新闻资讯管理方法的流程图；

图2为本发明第二实施例提供的新闻资讯管理装置的示意图；

图3为本发明第三实施例提供的某景区热点事件的新闻资讯管理方法的流程图；

图4为本发明第三实施例提供的新闻资讯文本聚类方法的流程图；

图5为本发明第三实施例提供的事件名称显示图；

图6为本发明第三实施例提供的舆情热词显示图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面通过具体实施例对本发明进一步详细说明。

第一实施例

参考图1，图1为本发明第一实施例提供的新闻资讯管理方法的流程图，该新闻资讯管理方法主要包括：

步骤A、采集新闻资讯数据；

步骤C、获取被选中的参考新闻资讯文本的第一类簇信息；

步骤D、判断所述目标新闻资讯文本是否属于所述第一类簇；若所述目标新闻资讯文本属于所述第一类簇，则进入步骤E；若所述目标新闻资讯文本不属于所述第一类簇，则从所述M个参考新闻资讯文本中选择另一个参考新闻资讯文本，返回步骤C，直到所述M个参考新闻资讯文本都循环完毕，则进入步骤F；

步骤E、将所述目标新闻资讯文本加入所述第一类簇；

本实施例中，步骤A中，采集新闻资讯数据可以通过多个网络渠道，按照预设频率或预设时间点或预设时间段或实时地采集新闻资讯数据。具体的，可采用网络爬虫技术来实现，例如景区管理人员根据业务需求配置新闻资讯数据来源渠道的网络链接，同时，还可以配置数据的采集频率以及采集时间点、时间段，保证采集到的新闻资讯数据的全面性和时效性。

新闻资讯数据的来源渠道可以是各大主流媒体、微博平台等。

步骤A可以采用同一目标事件的新闻资讯数据，也可以采集多个目标事件的新闻资讯数据，可根据用户需要设定来采集。

采集到的新闻资讯数据可以包括：纯文本形式的；本文和非文本共用形式；纯非文本形式。非文本包括视频、音频和/或图片。可以根据用户需要设定仅采集含新闻资讯文本的新闻资讯数据，含新闻资讯文本的新闻资讯数据包括纯文本形式的，还包括本文和非文本共用形式，采集到含新闻资讯文本的新闻资讯数据则进入步骤B，如果采集到纯非文本形式，则放弃该新闻资讯数据，不进行步骤B。

本实施例中，步骤B中，从预设数据库中找出与所述新闻资讯数据中目标新闻资讯文本相似度最大的M个参考新闻资讯文本，可以包括：

步骤B1、根据预设方式确定所述新闻资讯数据中目标新闻资讯文本的特征向量；

步骤B2、根据所述目标新闻资讯文本的特征向量，通过余玄聚类计算，找出与所述目标新闻资讯文本相似度最大的M个参考新闻资讯文本。

当然步骤B还可以有其他的匹配方式，这里不一一列举。

优选的，M的取值为3。

上述步骤B1可以进一步包括：

步骤B11、对所述新闻资讯数据中目标新闻资讯文本进行预处理，去除非汉字字符；

步骤B12、对所述目标新闻资讯文本中的汉字字符进行划分，划分出至少一个汉字字符单元，所述汉字字符单元包括：单个汉字、由两个或两个以上汉字字构成的词组、成语或短句；

步骤B13、根据各个所述汉字字符单元在所述目标新闻资讯文本和所述预设数据库中出现的频率，计算其词频权重，根据各个所述汉字字符单元的词频权重得到所述目标新闻资讯文本的特征向量。

上述步骤B11可以通过正则表达式去除新闻资讯文本中的非汉字字符，主要包括标点符号、表情符、数字、英文等。

上述步骤B12可以通过“结巴”分词工具对文本分词。在分词的过程中还可以构建停用词表和自定义词典，停用词表主要用于去除新闻资讯文本中的一些无意义的汉字字符单元；自定义词典主要用于自定义和解释新闻资讯文本中的特殊词汇。停用词表与自定义词典都可以在后续运行中不断的完善优化。

上述步骤B13可以进一步包括：

步骤B131、按照以下公式计算各所述汉字字符单元的词频权重：

其中，W_x,y表示x的词频权重，x表示汉字字符单元，y表示目标新闻资讯文本，tf_x,y表示x在y中的频率，df_x表示x在预设数据库中的频率，N表示预设数据库中的总文本数量。

步骤B132、根据各个所述汉字字符单元的的词频权重得到所述目标新闻资讯文本的特征向量。

本实施例中，上述步骤B中，所述从所述M个参考新闻资讯文本中依次选择一个参考新闻资讯文本，包括：

步骤B3、按照相似度由大到小的顺序从所述M个参考新闻资讯文本中依次选择一个参考新闻资讯文本。假设M等于2，即最先选择相似度最大的一个参考新闻资讯文本执行步骤C，在步骤D中若判断出所述目标新闻资讯文本不属于这一参考新闻资讯文本的类簇后，再选择相似度小的另一个参考新闻资讯文本执行步骤C。

本实施例中，步骤D中，判断所述目标新闻资讯文本是否属于所述第一类簇包括：

步骤D1、计算所述第一类簇对所述目标新闻资讯文本的认可度，若所述认可度大于或等于第二阈值，则所述目标新闻资讯文本属于所述第一类簇；若所述认可度小于第二阈值，则所述目标新闻资讯文本不属于所述第一类簇。

所述步骤D1中通过以下公式计算所述第一类簇对所述目标新闻资讯文本的认可度：

其中，approv(d,c)表示所述第一类簇对目标新闻资讯文本的认可度，d₁为目标新闻资讯文本，d_i为所述第一类簇中的第i个新闻资讯文本，n表示所述第一类簇的新闻资讯文本的总数量，t₁,t_i分别为d₁、d_i的采集时间sim(d₁,d_i)表示d₁、d_i两文本空间预先相似度。

本实施例中，所述步骤D之前，还包括：判断所述目标新闻资讯文本与所述被选中的参考新闻资讯文本的相似度是否大于或等于第一阈值；若大于或等于第一阈值，才进入步骤D，否则，对目标新闻资讯文本的聚类结束。

本实施例中，还可以包括关键词提取及应用流程，具体的：

步骤G、从步骤A动态采集的同一目标事件的多个新闻资讯数据中，通过词频-逆文本频率指数(tf-idf)算法，提取各个新闻资讯数据中目标新闻资讯文本中的初级关键词；按照预设的关键词权重信息，从提取出的各个初级关键词中选出权重最高的L个词作为所述目标事件的最终关键词；将所述最终关键词与所述目标事件的多个所述目标新闻资讯文本进行关联保存，和/或根据所述最终关键词编辑所述目标事件的名称，对所述目标事件的名称进行显示或保存。

和/或，

步骤H、从步骤A动态采集的多个目标事件的多个新闻资讯数据中，通过词频-逆文本频率指数算法，提取各个新闻资讯数据中目标新闻资讯文本中的初级舆情热词；按照预设的热词权重信息，从提取出的各个初级关键舆情热词中选出权重最高的Z个词作为最终舆情热词，保存或通过词云的方式显示。

上述最终关键词、最终舆情热词还可以在后续追踪中不断运行tf-idf算法进行动态更新。

本实施例提供的新闻资讯管理方法，可以对采集到的新闻资讯数据中的新闻资讯文本进行聚类。进一步地，可以动态追踪同一目标事件的新闻资讯数据，对同一目标事件提取关键词，进而还可以根据该关键词编辑该目标事件的名称。进一步地，可以动态追踪多个目标事件的新闻资讯数据，对多个目标事件提取舆情热词，进而还可以通过词云的方式显示。

第二实施例

参考图2，图2为本发明第二实施例提供的新闻资讯管理装置的示意图，该新闻资讯管理装置主要包括：

采集模块21，用于采集新闻资讯数据；即采集模块21对应用于执行第一实施例中的步骤A。

匹配模块22，用于从预设数据库中找出与所述新闻资讯数据中目标新闻资讯文本相似度最大的M个参考新闻资讯文本，M大于或等于1；从所述M个参考新闻资讯文本中依次选择一个参考新闻资讯文本；即匹配模块22对应用于执行第一实施例中的步骤B。

获取模块23、获取被选中的参考新闻资讯文本的第一类簇信息；即获取模块23对应用于执行第一实施例中的步骤C。

判断模块24，用于判断所述目标新闻资讯文本是否属于所述第一类簇；若所述目标新闻资讯文本属于所述第一类簇，则进入步骤E；若所述目标新闻资讯文本不属于所述第一类簇，则从所述M个参考新闻资讯文本中选择另一个参考新闻资讯文本，返回步骤C，直到所述M个参考新闻资讯文本都循环完毕，则进入步骤F；即判断模块24对应用于执行第一实施例中的步骤D。

归类模块25，用于所述判断模块的判断结果为所述目标新闻资讯文本属于所述第一类簇时，将所述目标新闻资讯文本加入所述第一类簇；以及所述判断模块的判断结果为所述目标新闻资讯文本不属于所述M个参考新闻资讯文本对应的类簇时，新建第二类簇，将所述目标新闻资讯文本加入所述第二类簇。即归类模块25对应用于执行第一实施例中的步骤E和F。

本实施例提供的新闻资讯管理装置，用于实现第一实施例中的方法。可以对采集到的新闻资讯数据中的新闻资讯文本进行聚类。进一步地，可以动态追踪同一目标事件的新闻资讯数据，对同一目标事件提取关键词，进而还可以根据该关键词编辑该目标事件的名称。进一步地，可以动态追踪多个目标事件的新闻资讯数据，对多个目标事件提取舆情热词，进而还可以通过词云的方式显示。

第三实施例

参考图3，图3为本发明第三实施例某景区热点事件的新闻资讯管理方法的流程图；

该新闻资讯管理方法主要包括：

步骤a、数据收集。通过网络爬虫技术实时的抓取各大主流媒体、微博等平台中关于该景区的热点事件的新闻资讯数据，每抓取到一个新闻资讯数据，则进行步骤b至d。

步骤b、数据预处理。首先，通过正则校验去除新闻资讯数据中目标新闻资讯文本中的非汉字字符，然后对该目标新闻资讯文本进行分词，分词过程中需要构建停用词表和自定义字典。

步骤c、文本特征表示。通过对tf-idf算法对目标新闻资讯文本进行特征表示。

步骤d、文本聚类。通过改进的siMg-pass算法对景区新闻资讯文本增量聚类，实现热点事件的监测与追踪。

步骤e、事件关键词挖掘。通过tf-idf算法挖掘事件的关键词，同时在后续事件的跟着过程中实时更新时间关键词。

步骤f、舆情热词挖掘。通过tf-idf算法挖掘所有事件的舆情热词，并定期更新舆情热词。

本实施例中，实现了景区新闻资讯多数据源的实时抓取，实时抓取多数据源的新闻资讯数据保证了景区热点事件检测与追踪中数据的可靠性与时效性，并采用了改进的siMgle-pass算法不仅实现了事件的检测，还可以实现对事件的动态追踪。

上述步骤a中，景区管理人员根据业务需求配置新闻资讯数据来源渠道的网络链接，同时，还可以配置数据的采集频率以及采集时间。

上述步骤b中，首先，通过正则表达式去除目标新闻资讯文本中的非汉字字符，主要包括标点符号，表情符、数字、英文等。然后，通过“结巴”分词工具对去除了非汉字字符后的目标新闻资讯文本分词，在分词的过程中需要构建停用词表和自定义词典，停用词表用于去除目标新闻资讯文本中一些无意义的词；自定义词典用于自定义和解释景区的特殊词汇。停用词表与自定义词典都需要在后续运行中得到不断的完善优化。

上述步骤c中，文本特征化表示中，可以按照公式(5.1)计算某个汉字字符单元的tf-idf的值，作为这个汉字字符单元的词频权重。最后通过各个汉字字符单元的tf-idf值构成目标新闻资讯文本的特征向量，该文本未出现的汉字字符单元用零表示。

上述步骤d中，文本聚类中算法采用的是改进的siMgle-pass算法增量聚类实现对话题检测与追踪，具体步骤如图4所示：

d1、假设采集到新闻资讯数据，其含有新闻资讯文本D，即目标新闻资讯文本D到来，对目标新闻资讯文本D进行预处理，特征向量表示。

d2、计算目标新闻资讯文本D与预设数据库中已有其他新闻资讯文本的相似度，具体的，通过余玄聚类计算相似度。

d3、找出与目标新闻资讯文本D相似度最大的3个文本，即3个参考新闻资讯文本。

d4、从3个参考新闻资讯文本中按照相似度由大到小的顺序，依次选择一个参考新闻资讯文本执行下面步骤，假设选中的是参考新闻资讯文本i。

d5、判断目标新闻资讯文本D与参考新闻资讯文本i的相似度是否大于或等于第一阈值，若大于或等于第一阈值，跳转d6，否则，跳转d10。

d6、从预设数据库中获取参考新闻资讯文本i所在的类簇信息，假设为第一类簇信息，计算第一类簇对目标新闻资讯文本D的认可度，利用上方的公式1.2计算。若认可度大于或等于第二阈值，则跳转d7，否则跳转d8。

d7、将目标新闻资讯文本D加入参考新闻资讯文本i所在的第一类簇，跳转d10。

d8、判断是否3个参考新闻资讯文本都已经循环完毕，若没计算完则继续执行d4，若执行完毕，则进入步骤d9。

d9、新建第二类簇，将目标新闻资讯文本D加入新建的第二类簇；

d10、新闻资讯文本D聚类结束，等待下一个新闻资讯文本到来。

上述步骤e中，在文本增量聚类之后，通过tf-idf算法挖掘同一目标事件的初始关键词，并按照词的权重信息，选出权重最高的10个词作为该目标事件的最终关键词，管理员可以根据最终关键词编辑该目标事件的名称进行显示，如图5所示。同时，在该目标事件的后续追踪中可以不断运行tf-idf算法动态的追踪最终关键词的变化。

图5中显示了4个目标事件的名称以及当前热度，在各个目标事件的名称前面还显示了对目标事件的排名，例如：排名第一的是绿色通道，当前热度值为100；排名第二的是胡歌珠峰攀登，当前热度值为99.7；排名第三的是婺源风景美，当前热度值为94.9；排名第四的是三清山风景美，当前热度值为94.2。

上述步骤f中，通过tf-idf算法挖掘该景区所有事件的初级舆情热词，并按照词的权重信息，选出权重最高的50个词作为最终舆情热词，并保存舆情热词的权重信息，通过词云的方式展示最终舆情热词，如图6所示，展示的最终舆情热词有：三清、三清宫、女神、道教、婺源等等。

本实施例实现了实时抓取多渠道的新闻资讯数据，保证了景区事件的监测与追踪过程中数据的可靠性和时效性。通过改进的siMgle-pass算法实现了新闻资讯文本的聚类。通过tf-idf算法实现了关键词、舆情热词挖掘。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种新闻资讯管理方法，其特征在于，包括：

步骤A、采集新闻资讯数据；

步骤C、获取被选中的参考新闻资讯文本的第一类簇信息；

步骤E、将所述目标新闻资讯文本加入所述第一类簇；

2.如权利要求1所述的新闻资讯管理方法，其特征在于，步骤B中所述从预设数据库中找出与所述新闻资讯数据中目标新闻资讯文本相似度最大的M个参考新闻资讯文本，包括：

3.如权利要求2所述的新闻资讯管理方法，其特征在于，步骤B1包括：

4.如权利要求3所述的新闻资讯管理方法，其特征在于，步骤B13包括：

其中，x表示汉字字符单元，y表示目标新闻资讯文本，tf_x,y表示x在y中的频率，df_x表示x在所述预设数据库中的频率，N表示所述预设数据库中的总文本数量；W_x,y表示x的词频权重。

步骤B132、根据各个所述汉字字符单元的词频权重得到所述目标新闻资讯文本的特征向量。

5.如权利要求1所述的新闻资讯管理方法，其特征在于，步骤B中所述从所述M个参考新闻资讯文本中依次选择一个参考新闻资讯文本，包括：

步骤B3、按照相似度由大到小的顺序从所述M个参考新闻资讯文本中依次选择一个参考新闻资讯文本。

6.如权利要求1所述的新闻资讯管理方法，其特征在于，所述步骤D中，判断所述目标新闻资讯文本是否属于所述第一类簇包括：

7.如权利要求6所述的新闻资讯管理方法，其特征在于，所述步骤D1中通过以下公式计算所述第一类簇对所述目标新闻资讯文本的认可度：

8.如权利要求1所述的新闻资讯管理方法，其特征在于，所述步骤D之前，还包括：判断所述目标新闻资讯文本与所述被选中的参考新闻资讯文本的相似度是否大于或等于第一阈值；若大于或等于第一阈值，才进入步骤D。

9.如权利要求1至8任一项所述的新闻资讯管理方法，其特征在于，还包括：

步骤G、从步骤A动态采集的同一目标事件的多个新闻资讯数据中，通过词频-逆文本频率指数算法，提取各个新闻资讯数据中目标新闻资讯文本中的初级关键词；按照预设的关键词权重信息，从提取出的各个初级关键词中选出权重最高的L个词作为所述目标事件的最终关键词；将所述最终关键词与所述目标事件的多个所述目标新闻资讯文本进行关联保存，和/或根据所述最终关键词编辑所述目标事件的名称，对所述目标事件的名称进行显示或保存。

和/或，

10.一种新闻资讯管理装置，其特征在于，包括：

采集模块，用于采集新闻资讯数据；