CN113641867B

CN113641867B - 基于微博舆情的城市间关系测度系统、方法、设备

Info

Publication number: CN113641867B
Application number: CN202110934772.2A
Authority: CN
Inventors: 张文生; 杨阳; 白江波
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2023-07-14
Anticipated expiration: 2041-08-16
Also published as: CN113641867A

Abstract

本发明属于城市关系测度领域，具体涉及一种基于微博舆情的城市间关系测度系统、方法、设备，旨在解决传统的城市测度方法需要耗费大量的精力统计或搜集基础数据，并且基础数据的时效性滞后，导致城市间的关系测度时效性、准确性较低的问题。本系统包括城市舆情爬取子模块、舆情信息整理子模块与城市关系测度子模块；所述舆情信息整理子模块包括有向无环图分词单元、BERT分词单元和加权计算单元；所述城市关系测度子模块包括第一频率计算单元、第二频率计算单元、城市关系测度单元。本发明提升了城市间的关系测度时效性、准确性。

Description

基于微博舆情的城市间关系测度系统、方法、设备

技术领域

本发明属于城市关系测度领域，具体涉及一种基于微博舆情的城市间关系测度系统、方法、设备。

背景技术

随着全球化的不断深入以及全球范围竞争的不断加剧，城市群日益成为全球经济竞争的新空间单元，城市群作为城市发展到成熟阶段的最高空间组织形式，其存在基础与其内部众多城市直接的联系息息相关，城市间的联系和互动也构成了城市关系的雏形，相比与传统的测度方法中对于基础数据的大量统计与严重滞后，互联网因其发展的迅速与使用的便利性，逐步成为了反应社会情况最活跃，最快捷和最直接的渠道。基于此，本发明结合‘微博’这一网络社区的舆情信息，通过对相关账号发布信息的整理分析，实现城市群内城市间的关系测度。

发明内容

为了解决现有技术中的上述问题，即为了解决传统的城市测度方法需要耗费大量的精力统计或搜集基础数据，并且基础数据的时效性滞后，导致城市间的关系测度时效性、准确性较低的问题，本发明第一方面，提出了一种基于微博舆情的城市间关系测度系统，该系统包括：城市舆情爬取子模块、舆情信息整理子模块与城市关系测度子模块；

所述城市舆情爬取子模块，配置为获取待关系测度的城市名称；并在设定主题类型的微博中，通过爬虫技术爬取与待关系测度的城市名称相关的微博数据，作为输入数据；

所述舆情信息整理子模块包括有向无环图分词单元、BERT 分词单元和加权计算单元；

所述有向无环图分词单元，配置为构建所述输入数据中各文本对应的有向无环图，并利用动态规划算法寻找有向无环图中概率最大的路径，得到各文本对应的分词结果，作为第一分词结果；根据停用词词典对第一分词结果中的停用词进行删除，得到第二分词结果；

所述BERT分词单元，配置为通过预构建的词嵌入矩阵提取所述输入数据中各词的词向量；将各词的词向量以及其在文本中的位置输入BERT模型，获取所述输入数据各文本的分词结果，作为第三分词结果；

所述加权计算单元，配置为将所述输入数据中各文本对应的第二分词结果和第三分词结果进行加权求和，得到各文本的最终分词结果；

所述城市关系测度子模块包括第一频率计算单元、第二频率计算单元、城市关系测度单元；

所述第一频率计算单元，配置为基于所述输入数据中各文本的最终分词结果，统计分词后的输入数据中包含各城市名称为词条的微博出现其他城市名称的频率，并以各微博的评论、点赞、转发数量的和为权重，对所述频率进行加权，将加权后的频率作为第一频率；

所述第二频率计算单元，配置为以各城市名称为词条，获取其在分词后的输入数据中的词频-逆向文件频率TF-IDF，并进行相乘，作为第二频率；

所述城市关系测度单元，配置为将所述第一频率、所述第二频率进行加权求和，作为各城市间的关系测度。

在一些优选的实施方式中，“构建所述输入数据中各文本对应的有向无环图”，其方法为：

统计所述输入数据中各词的词频，并以字典形式进行存储；

存储后，以各词的词频为节点，根据各词在文本中的位置及其对应文本的末尾位置，构建有向无环图。

在一些优选的实施方式中，所述BERT模型其多头注意力层提取多重语义信息的方法为：

M(Q，K，V)＝concat(M_i)w⁰

其中，Q，K，V分别为查询向量、键向量和值向量，

为Q，K，V的投影矩阵，M_i为单头自注意力机制层，w⁰为权重矩阵， M(Q，K，V)表示多头自注意力机制层，concat表示合并，/>

表示单头自注意力算法。

在一些优选的实施方式中，所述BERT模型其点积注意力层处理过程为：

其中，Attention(Q，K，V)表示点积注意力层的自注意力算法， T表示转置，d_k表示键向量K的维度。

在一些优选的实施方式中，所述词条的词频的获取方法为：

其中，tf_i，j表示词条在文本中出现的频率，即词频，n_i，j表示该词条在文件d_j中出现的次数，∑_kn_k，j表示文件d_j中所有词条出现的总数目。

在一些优选的实施方式中，所述逆向文件频率，其获取方法为：

其中，idf_i表示第i个文件的逆向文件频率，|D|为微博舆情文件总数，{j：t_i∈d_j}表示包含词条t_i的文件数目。

本发明的第二方面，提出了一种基于微博舆情的城市间关系测度方法，该方法包括：

S10，获取待关系测度的城市名称；并在设定主题类型的微博中，通过爬虫技术爬取与待关系测度的城市名称相关的微博数据，作为输入数据；

S20，构建所述输入数据中各文本对应的有向无环图，并利用动态规划算法寻找有向无环图中概率最大的路径，得到各文本对应的分词结果，作为第一分词结果；根据停用词词典对第一分词结果中的停用词进行删除，得到第二分词结果；

通过预构建的词嵌入矩阵提取所述输入数据中各词的词向量；将各词的词向量以及其在文本中的位置输入BERT模型，获取所述输入数据各文本的分词结果，作为第三分词结果；

将所述输入数据中各文本对应的第二分词结果和第三分词结果进行加权求和，得到各文本的最终分词结果；

S30，基于所述输入数据中各文本的最终分词结果，统计分词后的输入数据中包含各城市名称为词条的微博出现其他城市名称的频率，并以各微博的评论、点赞、转发数量的和为权重，对所述频率进行加权，将加权后的频率作为第一频率；

以各城市名称为词条，获取其在分词后的输入数据中的词频 -逆向文件频率TF-IDF，并进行相乘，作为第二频率；

将所述第一频率、所述第二频率进行加权求和，作为各城市间的关系测度。

本发明的第三方面，提出了一种电子设备，至少一个处理器；以及与至少一个所述处理器通信连接的存储器；其中，所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现权利要求上述的基于微博舆情的城市间关系测度方法。

本发明的第四方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现权利要求上述的基于微博舆情的城市间关系测度方法。

本发明的有益效果：

本发明提升了城市间的关系测度时效性、准确性。

本发明通过有条件的提取以发布内容，发布时间，以及评论，转发，点赞数为核心的微博舆情信息数据，并进行有效的筛选与测算，使得获得的城市间关系更具由时效性与准确性，完美解决了传统城市测度方法中实体数据搜集大量繁重工作，与搜集时效带来的严重滞后性，发掘了城市间关系测度的新方法，有效的降低了所需的成本。

附图说明

通过阅读参照以下附图所做的对非限制性实施例所做的详细描述，本申请的其他特征、目的和优点将会变得更明显。

图1是本发明一种实施例的基于微博舆情的城市间关系测度方法的框架示意图；

图2是本发明一种实施例的适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明的一种基于微博舆情的城市间关系测度系统，该系统包括：城市舆情爬取子模块100、舆情信息整理子模块200与城市关系测度子模块300；

所述城市舆情爬取子模块100，配置为获取待关系测度的城市名称；并在设定主题类型的微博中，通过爬虫技术爬取与待关系测度的城市名称相关的微博数据，作为输入数据；

所述舆情信息整理子模块200包括有向无环图分词单元、 BERT分词单元和加权计算单元；

所述城市关系测度子模块300包括第一频率计算单元、第二频率计算单元、城市关系测度单元；

为了更清晰地对本发明基于微博舆情的城市间关系测度系统进行说明，下面结合附图1对本发明系统一种实施例中各模块进行展开详述。

在本实施例中，通过爬虫技术，根据城市名称选取多个代表性的微博(例如：政务服务，警方发布，公共传媒)进行信息爬取，对微博的爬取内容包括：id，内容，发布时间，发布地址，点赞数，转发数，评论数，话题与@用户，并按照要求将数据保存于表格之中。

以粤港澳大湾区为例，根据其区划内九个城市，分别在政务发布，警方要问，综合新闻等方面选取三到四个代表性微博，如‘中国广州发布’，‘广州公安’，‘广州日报’等，以日期为标准，爬取2019 年6月至2020年10月57个账号发布的244370条包含id,内容，发布时间，发布地址，点赞数，转发数，评论数，话题与@用户的微博信息，其中含义分别为：

微博id：微博的id，为一串数字形式；

微博bid：微博的bid；

微博内容：微博正文；

微博发布位置：位置微博中的发布位置；

微博发布时间：微博发布时的时间，精确到天；

点赞数：微博被赞的数量；

转发数：微博被转发的数量；

评论数：微博被评论的数量；

话题：微博话题，即两个#中的内容，若存在多个话题，每个url以英文逗号分隔，若没有则值为”；

@用户：微博@的用户，若存在多个@用户，每个url以英文逗号分隔，若没有则值为”。

所述舆情信息整理子模块，用于对搜集到的微博舆情信息进行整理，主要包括BERT预训练命名实体识别与传统分词，通过对两个单元输出结果的加权比对，实现对所需信息(即包含一个以上其他城市名称的微博)精确提取。具体如下：

在本实施例中，先使用统计词典对搜集到的微博数据中的各词进行词频统计，并储存为字典形式，即构建词典，接着以每个词所在的位置与相应划分的末尾位置(即词对应的文本的末尾位置)构建列表，即有向无环图，最后，再利用动态规划算法在这条列表上寻找概率最大路径，其中，每个词出现的概率等于该词的词频除以所有词统计而成的词频的总和，实现分词，将分词结果作为第一分词结果。接着，根据停用词词典中所收录的停用词对分好的词条进行整理删除，获得第二分词结果。

在本实施中，将采集到的微博数据放入训练好的BERT模型进行分词，BERT在双向Transformer编码器的基础上，对预料中15％的信息进行替换和遮盖来提升学习性。其中，输入序列经过词嵌入和位置编码处理后放入多头自注意力机制层来提取多重语义的信息，即：

M(Q，K，V)＝concat(M_i)w⁰ (2)

其中，Q，K，V分别为查询向量、键向量和值向量，

表示单头自注意力算法。

经过缩放与点积注意力层得到自注意力结果，即：

其中，Attention(Q，K，V)表示点积注意力层的自注意力算法， T表示转置，d_k表示键向量K的维度。在经过注意力对字向量进行权重组合后，使得每个字向量都含有当前句子内所有字的信息，在此基础上，对处理过的信息进行残差连接与层归一化，其中，层归一化即：

其中，xⁱ就是上层的输出，μ和σ则是均值和标准差，ε参数的目的在于防止标准差为0，α和β则是用来调节弥补归一化中损失信息的参数。接着再把处理完的信息放入前馈神经网络中，重复几次后就可以实现BERT的分类，得到分词结果。

在本实施例中，根据有向无环图和BERT的分词结果加权计算后实现对无用数据的去除和有效数据的保留，完成数据清洗。

所述城市关系测度子模块用于对整理好的信息进行计算，最终实现对城市间关系的测度，其中包括根据评论转发点赞加权的频率的计算与基于TF-IDF的逆向词频计算，完成对城市间关系的精准测量。具体如下：

在本实施例中，数据在清洗完成后进行城市关系测度，首先结合评论，点赞，转发的数量构建传播混合权重对城市词条中出现的其他城市的词频进行频率统计(即权重词频统计)，作为第一频率。

在本实施例中，结合TF-IDF进行关系判定，TD-IDF系数就是TF×IDF,其中，TF表示词条在文本中出现的频率：

IDF逆向文件频率，其获取方法为：

另外，以各城市名称为词条，获取其在分词后的输入数据中的词频-逆向文件频率TF-IDF，其中，分词后的输入数据为基于所述输入数据中各文本的最终分词结果，获取的分词后的输入数据。

在本实施例中，根据微博相关账户的政务，警方，新闻等相关属性赋予不同权重，对第一频率、第二频率进行加权整合构建，获得固定微博账号相关城市间的关系指数，实现基于微博舆情的城市间关系测度。

需要说明的是，上述实施例提供的基于微博舆情的城市间关系测度系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第二实施例的一种基于微博舆情的城市间关系测度方法，具体包括：

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的方法具体的工作过程及有关说明，可以参考前述系统实施例中的对应过程，在此不再赘述。

本发明第三实施例的一种电子设备，至少一个处理器；以及与至少一个所述处理器通信连接的存储器；其中，所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现权利要求上述的基于微博舆情的城市间关系测度方法。

本发明第四实施例的一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现权利要求上述的基于微博舆情的城市间关系测度方法。

所述技术领域的技术人员可以清楚的了解到，未描述的方便和简洁，上述描述的设备、计算机可读存储介质的具体工作过程及有关说明，可以参考前述方法实例中的对应过程，在此不再赘述。

下面参考图2，其示出了适于用来实现本申请方法、系统、设备实施例的服务器的计算机系统的结构示意图。图2示出的服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图2所示，计算机系统包括中央处理单元(CPU，Central Processing Unit)201，其可以根据存储在只读存储器(ROM，Read Only Memory)202中的程序或者从存储部分208加载到随机访问存储器(RAM， Random Access Memory)203中的程序而执行各种适当的动作和处理。在 RAM203中，还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM203通过总线204彼此相连。输入/输出(I/O，Input/Output) 接口205也连接至总线204。

以下部件连接至I/O接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(CRT，Cathode Ray Tube)、液晶显示器(LCD， Liquid Crystal Display)等以及扬声器等的输出部分207；包括硬盘等的存储部分208；以及包括诸如LAN(局域网，Local AreaNetwork)卡、调制解调器等的网络接口卡的通讯部分209。通讯部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入存储部分208。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通讯部分209从网络上被下载和安装，和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU201执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM 或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于微博舆情的城市间关系测度系统，其特征在于，该系统包括：城市舆情爬取子模块、舆情信息整理子模块与城市关系测度子模块；

所述舆情信息整理子模块包括有向无环图分词单元、BERT分词单元和加权计算单元；

2.根据权利要求1所述的基于微博舆情的城市间关系测度系统，其特征在于，“构建所述输入数据中各文本对应的有向无环图”，其方法为：

统计所述输入数据中各词的词频，并以字典形式进行存储；

3.根据权利要求1所述的基于微博舆情的城市间关系测度系统，其特征在于，所述BERT模型其多头注意力层提取多重语义信息的方法为：

M_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

M(Q，K，V)＝concat(M_i)w⁰

其中，Q，K，V分别为查询向量、键向量和值向量，W_i ^Q，W_i ^K，W_i ^V为Q，K，V的投影矩阵，M_i为单头自注意力机制层，w⁰为权重矩阵，M(Q，K，V)表示多头自注意力机制层，concat表示合并，Attention(QW_i ^Q，KW_i ^K，VW_i ^V)表示单头自注意力算法。

4.根据权利要求3所述的基于微博舆情的城市间关系测度系统，其特征在于，所述BERT模型其点积注意力层处理过程为：

其中，Attention(Q，K，V)表示点积注意力层的自注意力算法，T表示转置，d_k表示键向量K的维度。

5.根据权利要求1所述的基于微博舆情的城市间关系测度系统，其特征在于，所述词条的词频的获取方法为：

6.根据权利要求1所述的基于微博舆情的城市间关系测度系统，其特征在于，所述逆向文件频率，其获取方法为：

7.一种基于微博舆情的城市间关系测度方法，其特征在于，该方法包括以下步骤：

以各城市名称为词条，获取其在分词后的输入数据中的词频-逆向文件频率TF-IDF，并进行相乘，作为第二频率；

8.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现权利要求7所述的基于微博舆情的城市间关系测度方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现权利要求7所述的基于微博舆情的城市间关系测度方法。