CN111914096A

CN111914096A - 基于舆情知识图谱的公共交通乘客满意度评价方法及系统

Info

Publication number: CN111914096A
Application number: CN202010639527.4A
Authority: CN
Inventors: 滕靖; 刘韶杰
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2020-11-10
Anticipated expiration: 2040-07-06
Also published as: CN111914096B

Abstract

一种基于舆情知识图谱的公共交通乘客满意度评价方法及系统，综合考虑了基于问卷调查和基于公共交通网络舆情的乘客满意度分析方法，应用网络舆情分析技术、自然语言分析方法、公共交通知识图谱、机器学习等方法对传统公共交通乘客满意度分析作出了有力补充。该发明主要包括：实施文本获取与处理分析；完成公共交通舆情知识图谱的建模与存储；“潜水”乘客满意度信息获取与分析；实现舆情指标映射、服务分值研判和历史事件方法库的构建。实现文本主题分类、满意度指标定位，明确满意度与部门及其职责对应关系，以便能够为传统公共交通乘客满意度分析提供有力补充，也能够为了解公共交通乘客需求、相关部门服务短板提供更科学的参考意见的效果。

Description

基于舆情知识图谱的公共交通乘客满意度评价方法及系统

技术领域

本发明涉及交通运输工程领域、计算机领域。

背景技术

公共交通乘客满意度指对公共交通服务的可得性、安全可靠性及便捷舒适度等方面体验的满意程度，其是了解乘客细致化交通需求的重要依据，提高城市公共交通精细化服务水平的重要途径。基于乘客视角开展主观服务质量评价，挖掘服务质量与服务感知差距，通过满意度评价结果定位需改进的服务模块与服务环节。

传统满意度评价数据来源于调查问卷，存在诸多缺陷。如样本量受限，覆盖度低、调查时间离散。受制于调查成本，满意度评价的质量提升空间不大，更无法满足长效监控、精细化服务改进需求；调查结果通常仅反映宏观服务水平，无法定位具体问题及其对应改进措施。

公共交通舆情是乘客对日常服务感知的即时反映，具有动态性、及时性。公共交通客流规模巨大，乘客越来越关注出行服务过程，且随着互联网+公交技术的广泛应用，网络信息反馈平台多样，每日产生交通舆情数据巨大。因此，通过互联网获取公共交通舆情信息，通过知识图谱等人工智能技术映射服务模块，能够较高频率、更大范围地反映乘客对服务质量的评价，该方法具有覆盖的公共交通方式多(公交、地铁、定制公交等)，覆盖服务环节完整，覆盖服务时段广泛，便于实时动态监督等优点。

为改进基于问卷调查的传统乘客满意度分析方法，拟采用基于网络舆情分析的乘客满意度分析模型，并结合知识图谱技术实现关联关系的分析与确认。通过舆情分析方法获取乘客的评论数据、用户画像，分析经典满意度评价模型，确定适于舆情文本信息的满意度评价指标，构建公共交通乘客满意度知识图谱，完成“事件—指标—职责—部门”的对应关系分析。下文分别简述三部分的技术现状。

1)满意度评价理论

满意度评价指标体系一般不超过三级，满意度问题设置一般不超过40个。评价模型主要分为三类，服务质量评价模型(SERVQUAL)，服务绩效模型(SERVPERF)和结构化方程模型SEM(Structural Equation Modeling)。2018年国家城市客运标准委员会组织完成了《城市公共交通乘客满意度评价方法》，其设置了公共汽电车交通和城市轨道交通的准则层指标和相应一级指标，建议基于调查问卷采用服务绩效模型或结构方程模型进行满意度分析，并给出对应模型参数估计方法、指标权重确定方法等。

2)知识图谱技术

知识图谱是一种使用图模型描述知识和建模事物关联关系的技术方法，其作为一种知识表示形式，已在语义搜索、辅助问答、关系研判、自然语言理解等诸多人工智能手段中发挥巨大作用。互联网大数据的迅猛集聚、人工智能算法的快速发展，为知识图谱提供前沿科技和发展条件。至此，知识图谱已完全具备识别舆情与服务要素的关联关系能力，为完善乘客满意度分析手段提供思路。

3)舆情分析技术

舆情是作为主体的民众对作为客体的社会事件等发表的观点及所持有的态度，舆情整体模块分析方法已较为成熟，主要包括：网络舆情数据的获取，舆情事件主题建模，舆情生命周期演化分析，热词定位以及可视化研究等。基于舆情分析基本技术，结合交通事件舆情特征、交通事件主题分类、交通事件情感库等可以实现交通事件网络舆情系统分析。随着自然语言分析技术、机器学习方法等的不断发展与完善，舆情分析的准确率、分析效率也在逐步地提升。

发明内容

本发明的目的是提供一种基于知识图谱的公共交通乘客满意度分析方法及系统。具有自动获取文本数据并进行自然语言分析，实现文本主题分类、满意度指标定位，明确满意度与部门及其职责对应关系，以便能够为传统公共交通乘客满意度分析提供有力补充，也能够为了解公共交通乘客需求、相关部门服务短板提供更科学的参考意见的效果。

本发明的上述技术目的是通过以下技术方案得以实现的：

技术方案一

一种基于舆情知识图谱的公共交通乘客满意度分析方法，包括以下步骤：

S1：实施文本获取与处理分析；

S2：完成公共交通知识图谱的建模与存储；

S3：“潜水”乘客满意度信息获取与分析；

S4：实现舆情指标映射，服务分值研判和历史事件方法库的构建。

技术方案二

一种基于知识图谱的公共交通乘客满意度分析系统，包括：

数据模块，实施文本获取与处理分析；

图谱模块，完成公共交通知识图谱的建模与存储；

应用模块，实现“潜水”乘客满意度信息分析，舆情指标映射，服务分值研判和历史事件方法库的构建。

本发明创新点：

1)基于乘客满意度评价的系统性技术路线

提出一套基于舆情的乘客满意度评价系统性技术路线——“舆情数据获取，舆情主题建模，舆情情感分析，服务指标映射，服务分数研判，满意度计算模型，结果可视化分析”。相比传统的问卷调查方式调查乘客满意度，大大增加了乘客满意度的调查样本量的同时，减少了调查人力成本，增加调查的实效性，进而实现秒级实时乘客满意度趋势跟踪。

2)基于知识图谱的舆情与满意度服务指标映射

提出一种通过知识图谱实现舆情事件与满意度评价指标映射的方法，填补了公共交通舆情文本与乘客满意度服务指标转换方法的空缺。

3)基于情感分析的满意度指标评分

提出一种基于交通舆情数据，使用自然语言分析、文本情感分析等技术完成舆情文本与服务指标评分的映射方法，完善了公共交通舆情文本与满意度分值数字语言的转化方法。

4)“潜水”乘客满意度分析方法

提出一种基于知识图谱的“潜水”乘客满意度分析方法。“潜水”乘客即本身关注事件的发展，但懒于作出明显的表态，即未发表评论，但他们通过点赞等方式间接表达观点，且此类乘客数量占据总乘客数的比例较大，对其进行研究具有重要意义。通过实现描摹用户画像，剖析用户关系网络等，解决了互联网未发表意见的“潜水”乘客的发现以及情感倾向的判别问题，并通过补充调查问卷的形式对“潜水”乘客进行调研，弥补了互联网舆情判别偏差的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。下面描述中的附图是本发明的一些实施例，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献修改，但只要在本发明的权利要求范围内都受到专利法的保护。

图1为发明方法流程示意图；

图2为本发明基于乘客满意度评价的流程；

图3为本发明基于情感分析的满意度指标评分流程；

图4为本发明“潜水”乘客满意度分析方法流程图；

图5为本发明系统的结构示意图；

图6为本发明基于乘客满意度评价系统的结构示意图；

图7为本发明基于情感分析的满意度指标评分系统结构示意图；

图8为本发明“潜水”乘客满意度分析系统结构示意图；

图9为本发明数据模块中的分析模块结构示意图；

具体实施方式

为了使本发明所要解决的技术问题、技术方案以及有益效果更加清楚明白，以下结合附图以及部分举例，对本发明进行进一步详细说明。

本发明的第一个方面是提供一种基于知识图谱的公共交通乘客满意度分析方法：

S1：实施文本获取与处理分析

以网络舆情文本作为数据输入，基于自然语言分析方法实现文本处理，构建舆情主题分类模型实现文本归类，完成情感及其可视化等，获取舆情初步印象。

具体步骤为：

S11：数据获取

通过网络爬虫工具获取微博、微信、新闻客户端等舆情产生地的交通舆情文本数据，包括用户名、用户ID、文本正文、发表时间、点赞数、转发数、评论信息、定位地点等非结构化文本数据。

S12：文本预处理

采用Python的正则表达式、BeautifulSoup模块等去除文本的非中文数据，删除对文本无影响内容，如“网页链接”等标签，@后紧邻文字等；去除所有标点符号，感叹号“！”除外；使用utf-8编码存储、读取后处理采用GBK编码格式；导入构建的公共交通事件名词库，结合HanLP、结巴分词工具实现文本分词与词性标注；使用基于字典的方法，剔除停用词。

S13：构建交通舆情主题分类模型

采用向量空间模型将文本转化成向量，如公式(1)所示，每一个文本表示为n维向量空间的一个向量v，向量中每一维对应一个特征项。其中，ω(f_i)表示特征项f_i在文本中的权值，即该特征描述文本语义内容的重要程度。选取词作为文本特征项，TF-IDF值作为每一个词的权值，如公式(2)所示。其中，TF(f_i)为词频，是词f_i在一篇文本中出现的频率，D为语料库中的总文档数，D_i表示语料库中含有词f_i的文档数，

称为反文档频率。通常每个文本需要对TF-IDF做归一化处理，从而避免文本长度产生影响，得到词f_i的权重ω(f_i)计算如公式(3)所示。

通过文本向量化，将其分类问题就转化为求待分类向量与已知主题向量的相似度问题。假设待分类文本向量为X＝(x₁,x₂,…,x_n)，已分类文本向量为β_i＝(β_i1,β_i2,…,β_im)，其中β_i表示主题向量类别。交通舆情主题分类模型如公式(4)、公式(5)所示。Similarity(β_i)表示待分类文本X与已知主题文本β_i之间相似度，取相似度最大的β_i作为X的主题类型Class(X)。在使用本模型前，需要标定模型参数β_ij。首先融合每类训练集中的所有文本，其次分别对集合文本进行文本向量化，最后得到已知分类主题的文本向量集合{β_i}。

V＝(ω(f₁),ω(f₂),…ω(f_n)) (1)

基于此结合自然语言分析方法，完成部门—职责、职责—指标以及文本—指标的文本主题预分类。其中部门设置、职责及指标需通过交通行业专业数据分类分析获取，文本指标即对获取的舆情数据进行处理分析。

S14：舆情情感与演化特征分析

演化特征分析主要依据关注度和关注度增量两项指标。其中关注度重点考虑点赞数、评论量、转发数，并依据花费时间长短对参数赋权，如公式(6)所示。其中n_praise、n_comment、n_forwarding分别代表点赞、评论、转发量，α，β，γ为其权重。关注度增量按照相邻时间段关注度差值比计算。依据关注度与关注度增量组合关系对舆情生命周期进行划分。

基于贝叶斯模型，采用机器学习的情感分析方法，计算如公式(7)、公式(8)所示，通过置换训练文本，完成交通情感分析模块的初步构建，借此计算各时间段情感极性分布。制作交通舆情热词词云，结合关键词频数折线图等方式，实现舆情热词演变分析等。

m_Significance＝α·n_praise+β·n_comment+γ·n_forwarding (6)

S2：完成公共交通舆情知识图谱的建模与存储，采用自底向上和自上向下相结合的构建方式，基于Neo4j图数据库进行存储，实现舆情知识图谱的构建。

具体步骤为：

S21：完成非结构化数据的实体抽取，包括通用命名实体识别和公共交通领域命名实体识别；其中，通用命名实体识别采用基于词典的方法，主要用于识别文本的实体类、时间类、数字类三大类，以及时间、日期、人名、地名、机构名、货币、百分比七小类。公共交通领域命名实体识别采用基于统计模型的方法，采用Inside-Outside-Beginning(IOB)标注体系对训练语料进行标注，参照斯坦福大学的NER完成特征定义，使用隐马尔科夫模型(Hidden Markov Model，HMM)完成模型训练。

S22：采用基于模板和监督学习的方法，实现属性关系抽取；基于模板的方法，在知识图谱数据量较少时起主要作用，其主要预定义实体间相关关系，如空间上相关、概念上相关、物理上相关等；基于深度学习主要采用CR-CNN模型，依次完成句子中的词到低维空间的映射，特征向量的生成，求向量最大值得到句子的向量表示，计算句子向量和关系向量点积，最终得到实体与每种预定义关系的分值。

S23：通过实体链接与知识合并，完成知识融合；实体链接依次通过实体指称识别，主要采用上文阐述的命名实体识别方法；采用启发式模式匹配方法完成表层名字扩展，并结合基于搜索引擎的输出结果生成候选实体；最后，通过基于概率生成模型的方法完成实体消歧，该模型依据实体概率分布P(e)选择实体和对应的实体，并根据给定实体e实体名称的条件概率P(s|e)选择实体涉及的名称，模型根据给定实体e上下文的条件概率P(c|e)输出实体提及的上下文，实体和提及的联合概率为公式(9)。当给定实体提及u时，候选实体消歧依据公式(10)。其中，P(e)对应实体流行度，P(s|e)对应实体名称知识，P(c|e)对应上下文知识。

P(m,e)＝P(s,c,e)＝P(e)P(s|e)P(c|e) (9)

S24：实现本体构建、知识推理与质量评估的知识加工；使用Protégé软件实现本体构建与知识建模，通过设定知识的OWL类、属性、表单、个体和元类标签，完成上下位关系及属性的建立；使用Drools实现知识推理。

首先，构建基本模块，其中org.kie.api.KieServices包用于建立模型，包org.kie.api.runtime.KieContainer用于存放数据，org.kie.api.runtime.KieSession是用于进行分析的一个类；其次，初始化Drools，以三元组数据形式分别输入本体数据和实例数据；在进行推理之前，必须制定规则文件进行存储。至此，实现面向部省市三级的“网络舆情—交通事件—交通治理”知识图谱、“事件—职责—部门”知识图谱，以及面向公共交通舆情的“文本—指标”知识图谱的构建。

S3：“潜水”乘客满意度信息获取与分析；许多乘客关注交通服务供给质量问题，但是其较少发表自己观点，导致该部分乘客服务感知数据的缺失、使得满意度分析结果存在偏差。为解决该问题，提出基于用户推荐系统的潜在乘客满意度分析方法。此处明确该类用户范围，指在相关交通舆情文本信息内点赞或点击相应表情选项但并未发表评论的用户。

具体步骤为：

S31：爬取相应舆情文本点赞人员列表、评论人员列表，筛选出点赞且并未发表评论的用户，获取该用户主页文本信息，如性别、昵称、所在地、简介等，完成用户“冷数据画像”绘制。其中强调，点赞处可详细选择“高兴、赞、惊讶、悲伤、愤怒”五种。通过观察可以发现，绝大多数用户在此处仅选择赞，而较少用户会选择其他四个选项，因此在此处选择“赞”的用户进入下一步分析，具体描摹其对某一事件情感倾向；选择“高兴、惊讶、悲伤、愤怒”的用户则分别赋予情感值“+2，0，-1，-2”，正数代表积极情感，负数代表消极情感，数值越大情感强度越强，0代表情感值待定，将其视为中性。

S32：爬取该类用户较近时期发表的日常微博内容，使用上文所述的自然语言分析方法、情感分析方法计算其普遍情感倾向，完成用户“温数据画像”绘制。

S33：挖掘该类用户“他的关注”对象以及频繁互动对象基本信息，尤其与目标文本有关联的“他的关注”对象信息，并通过知识图谱查询定位与该类用户有关系的用户群体，统计分析用户群体情感倾向，将用户群体情感倾向暂定为该类用户情感倾向，完成其“热数据画像”绘制。

S34：将“温数据画像”和“热数据画像”的情感倾向分别赋予初始权重，计算求得一定概率下初始情感倾向判别结果。

S35：根据上一步的判别结果，基于相应情感极性及情感等级，向用户推送同类情感性质的公共交通微博文本，并给出“感兴趣、不感兴趣”选项；此外，在条件允许的情况下，对该类用户发放专用调查问卷，以一定时间段内公共交通乘客满意度事件为题目核心，情感极性及情感等级为选项，明确其情感倾向度。二者结合以修正情感概率及其相关权重数值。

S36：多次重复第S35操作，找到“潜水”用户情感相似度最高的舆情文本，将此作为该用户一定时间段内情感评价依据，并将其输入乘客满意度分析模型，完成“潜水”乘客满意度分析。

S4：实现舆情指标映射(S41)、服务分值研判(S42)，历史事件方法库的构建(S43)；舆情指标映射主要采用基于主题分类模型和基于知识图谱推理的方法，服务分值研判主要采用基于语义词典和基于机器学习的方法，通过相关技术实现舆情文本与国家相关指标的映射，旨在实现“舆情事件—服务指标—服务主体”的自动定位，明确部门服务短板，调用历史事件库辅助部门作出合理改进决策。

舆情指标映射(S41)，具体步骤为：

S41a：首先，分类汇总国家部省市三级单位部门名称及其对应职责；其次，通过专家访谈等方式，明确部门职责与乘客满意度评价指标对应关系；最后，将国家标准中乘客满意度一级指标作为主题核心，对获取的舆情数据进行文本分类处理，即实现文本—指标对应分类；

S41b：采用上文主题分类模型，将舆情文本数据表示为向量形式，并将乘客满意度国标一级指标作为分类核心，通过相似度计算实现舆情文本分类，初步实现舆情文本与评价指标的映射；

S41c：将公共交通舆情文本按分类后数据分别输入图谱，完成知识图谱的构建。采用基于规则学习的推理AMIE，其是一种霍恩规则也是一种闭环规则。通过定义三个挖掘算子，增加悬挂原子，增加实例化原子和增加闭环原子，不断地在规则中增加挖掘算子来探索图上的搜索空间，并且融入设置最低规则头覆盖度过滤等减枝策略，通过SPARQL在知识图谱上的查询对规则的质量进行评价。最终实现规则的挖掘，并推理出新的三元组，从而进一步加大舆情文本与指标映射的程度。

服务分值研判(S42)具体步骤为：

S42a：以公开的中文情感极性词典为基础，辅助补充公共交通行业情感元素，构建公共交通情感词典；第一步，HowNet情感词典包括中文程度级别词语、正负面评价词语、正负面情感词语等，但其缺少否定词汇，而否定词汇会直接影响情感极性的判断，因此要对其进行补充。本文以“不、无、非、没、莫”为初始否定词，以维基百科数据为训练数据源，通过Word2vec对初始否定词进行扩充，选取相似度较高的前150个词语作为待定否定词集，并计算通过人工筛选确定最终否定词集。第二步，通用情感词典均缺少公共交通领域情感词汇，定义seed＝{快、通畅、便利、舒适}为正面情感词种子，seed＝{慢、拥堵、车祸、混乱}为负面情感词种子。在《同义词词林》的77343条词语中，寻找种子集的同义词和反义词对种子集进行扩展，形成交通情感扩展词典，两者汇总去重得到最终交通情感分析词典。

S42b：进行文本情感分析时，将长句分割成短句进行剖析，之后再拼凑实现整句情感判断。第一步，使用词典计算文本初始情感极性，若不含有情感词汇则记录为中性；第二步，计算否定词个数，若为奇数则情感极性反转，若为偶数则情感极性不变，完成情感极性分析。第三步，计算情感程度，遍历情感词汇，基于此向前寻找程度副词，副词以“一点，较大，多，不少，极”5级分类，其中标点符号“！”理解为“极”类，并分别赋予权重，以便于解决句子重组时前后短句情感不一致等问题，此处强调，副词的5级分类并不只单纯依照这五个字或词组，而是以此为种子进行迭代，并通过人工筛选得到同类字或词集。第四步，构建情感倾向词汇，如“政府”、“官员”、“斗殴”、“起哄”等，词语本身具有情感倾向极性，但是在与否定词汇搭配后并出现在建议性话语中可能改变句子情感极性。

S42c：基于上述理论完成文本情感分值研判。以“极优、优、良、中、差、较差、很差”7级程度打分为例，中性评论直接赋予4分。积极文本归属5，6，7分，消极文本归属1，2，3分，其中根据程度副词分级，对短句文本进行分数评测，为去除文本长度对数值加和的影响，在文本合并后用对其进行归一化处理，即使用各字句加和后数值除以字句个数。

历史事件方法库的构建(S43)，具体步骤为：

构建历史事件方法库，辅助短板部门决策；将公共交通乘客满意度事件及其对应部门、改进决策进行分类存储。第一步，以评价指标为核心节点，评价指标基于国标进行落地修正，对其进行文本验证及修订，采用适于网络舆情文本的评价指标；第二步，以事件主题为连接节点，基于上述主题分类模型对事件主题进行分类汇总，选取计算相似度最高值对应主题为事件主题；第三步，以处理措施为属性节点，将满意度事件主要改进方法措施进行简要记录，提取主要信息进行人工存储；第四步，以决策打分为属性附加节点，整合完成知识图谱存储。决策打分为措施改进前后相邻两次满意度相应指标评分差值，以及差值与改进前指标数值的比值；第五步，按照决策分值，选取排名前五的措施为短板部门提供辅助决策。首先，比较绝对评分差值，当评分差值大于规定阈值Ω时，直接选取绝对评分高的一方为优先选择项；其次，当评分差值小于规定阈值Ω时，比较差值与改进前指标数值的比值，选取比值较小者为优先选择项。

基于上述方法，进一步给出基于知识图谱的公共交通乘客满意度分析系统。

图5为本发明系统的结构示意图，图6为本发明基于乘客满意度评价系统的结构示意图：

系统包括三个模块：数据模块、图谱模块、应用模块，其中：

所述数据模块包括实时模块、处理模块、分析模块；

实时模块：通过网络爬虫工具，实时获取微博、微信、新闻客户端等舆情产生地的交通舆情文本数据，包括用户名、用户ID、文本正文、发表时间、点赞数、转发数、评论信息、定位地点等非结构化文本数据；

处理模块：对实时模块所获取的数据进行文本处理，采用Python的正则表达式、BeautifulSoup模块等去除文本的非中文数据，删除对文本无影响内容，如“网页链接”等标签，@后紧邻文字等；去除所有标点符号，感叹号“！”除外；使用utf-8编码存储、读取后处理采用GBK编码格式；导入构建的公共交通事件名词库，结合HanLP、结巴分词工具实现文本分词与词性标注；使用基于字典的方法，剔除停用词；

图9为本发明数据模块中的分析模块结构示意图，其包括交通舆情主题分类模块、舆情情感演化特征分析模块。其中，交通舆情主题分类模块：采用向量空间模型将文本转化成向量，每一个文本表示为n维向量空间的一个向量v，向量中每一维对应一个特征项，选取词作为文本特征项，使用文本向量化，通过求待分类向量与已知主题向量的相似度，得到主题分类结果。基于此模块，完成部门—职责、职责—指标以及文本—指标的文本主题预分类；舆情情感演化特征分析模块，第一，演化特征分析主要依据关注度和关注度增量两项指标，其中关注度重点考虑点赞数、评论量、转发数，并依据花费时间长短对参数赋权，关注度增量按照相邻时间段关注度差值比计算。依据关注度与关注度增量组合关系对舆情生命周期进行划分。第二，基于贝叶斯模型，采用机器学习的情感分析方法，通过置换训练文本，完成交通情感分析模块的初步构建，借此计算各时间段情感极性分布。制作交通舆情热词词云，结合关键词频数折线图等方式，实现舆情热词演变分析等。

所述图谱模块：完成公共交通舆情知识图谱的建模与存储，采用自底向上和自上向下相结合的构建方式，基于Neo4j图数据库进行存储，实现舆情知识图谱的构建。其中包括：第一，完成非结构化数据的实体抽取，包括通用命名实体识别和公共交通领域命名实体识别，通用命名实体识别采用基于词典的方法，主要用于识别文本的实体类、时间类、数字类三大类，以及时间、日期、人名、地名、机构名、货币、百分比七小类。公共交通领域命名实体识别采用基于统计模型的方法，采用Inside-Outside-Beginning(IOB)标注体系对训练语料进行标注，参照斯坦福大学的NER完成特征定义，使用隐马尔科夫模型(Hidden MarkovModel，HMM)完成模型训练；第二，采用基于模板和监督学习的方法，实现属性关系抽取，基于模板的方法，在知识图谱数据量较少时起主要作用，其主要预定义实体间相关关系，基于深度学习主要采用CR-CNN模型，依次完成句子中的词到低维空间的映射，特征向量的生成，求向量最大值得到句子的向量表示，计算句子向量和关系向量点积，最终得到实体与每种预定义关系的分值；第三，通过实体链接与知识合并，完成知识融合；实体链接依次通过实体指称识别，主要采用上文阐述的命名实体识别方法；采用启发式模式匹配方法完成表层名字扩展，并结合基于搜索引擎的输出结果生成候选实体；最后，通过基于概率生成模型的方法完成实体消歧；第四，实现本体构建、知识推理与质量评估的知识加工；使用Protégé软件实现本体构建与知识建模，通过设定知识的OWL类、属性、表单、个体和元类标签，完成上下位关系及属性的建立；使用Drools实现知识推理。首先，构建基本模块，其中org.kie.api.KieServices包用于建立模型，包org.kie.api.runtime.KieContainer用于存放数据，org.kie.api.runtime.KieSession是用于进行分析的一个类；其次，初始化Drools，以三元组数据形式分别输入本体数据和实例数据；在进行推理之前，必须制定规则文件进行存储。至此，实现面向部省市三级的“网络舆情—交通事件—交通治理”知识图谱、“事件—职责—部门”知识图谱，以及面向公共交通舆情的“文本—指标”知识图谱的构建。

所述应用模块包括潜水模块，映射模块，打分模块，其中：

图8为本发明“潜水”乘客满意度分析系统结构示意图，潜水模块主要用于获取与分析“潜水”乘客满意度信息。包括信息模块，画像模块，情感模块。

信息模块主要用于爬取三部分内容，首先是相应舆情文本点赞人员列表、评论人员列表，筛选出点赞且并未发表评论的用户，获取该用户主页文本信息，如性别、昵称、所在地、简介等，其次是爬取该类用户较近时期发表的日常微博内容，最后是挖掘该类用户“他的关注”对象以及频繁互动对象基本信息，尤其与目标文本有关联的“他的关注”对象信息，并通过知识图谱查询定位与该类用户有关系的用户群体；

画像模块依次使用上述三类数据，完成用户“冷数据画像”绘制。使用上文所述的自然语言分析方法、情感分析方法计算其普遍情感倾向，完成“温数据画像”绘制。统计分析用户群体情感倾向，将用户群体情感倾向暂定为该类用户情感倾向，完成“热数据画像”绘制；

情感模块，首先，将“温数据画像”和“热数据画像”的情感倾向分别赋予初始权重，计算求得一定概率下初始情感倾向判别结果。其次，根据上一步的判别结果，基于相应情感极性及情感等级，向用户推送同类情感性质的公共交通微博文本，并给出“感兴趣、不感兴趣”选项；此外，在条件允许的情况下，对该类用户发放专用调查问卷，以一定时间段内公共交通乘客满意度事件为题目核心，情感极性及情感等级为选项，明确其情感倾向度。二者结合以修正情感概率及其相关权重数值；最后，多次重复上述操作，找到“潜水”用户情感相似度最高的舆情文本，将此作为该用户一定时间段内情感评价依据，并将其输入乘客满意度分析模型，完成“潜水”乘客满意度分析。

映射模块，主要用于明确舆情文本与满意度指标的对应关系。第一，分类汇总国家部省市三级单位部门名称及其对应职责；第二，通过专家访谈等方式，明确部门职责与乘客满意度评价指标对应关系；第三，将国家标准中乘客满意度一级指标作为主题核心，对获取的舆情数据进行文本分类处理，即实现文本—指标对应分类；第四，采用上文主题分类模型，将舆情文本数据表示为向量形式，并将乘客满意度国标一级指标作为分类核心，通过相似度计算实现舆情文本分类，初步实现舆情文本与评价指标的映射；第五，将公共交通舆情文本按分类后数据分别输入图谱，完成知识图谱的构建，采用基于规则学习的推理AMIE，通过SPARQL在知识图谱上的查询对规则的质量进行评价，最终实现规则的挖掘，并推理出新的三元组，从而进一步加大舆情文本与指标映射的程度。

图7为本发明基于情感分析的满意度指标评分系统结构示意图，基于情感分析的满意度指标评分系统主要包括词典模块，断句模块，程度模块。

词典模块，以公开的中文情感极性词典为基础，辅助补充公共交通行业情感元素，构建公共交通情感词典。首先，在HowNet情感词典基础上，以“不、无、非、没、莫”为初始否定词，以维基百科数据为训练数据源，通过Word2vec对初始否定词进行扩充，选取相似度较高的前150个词语作为待定否定词集，并计算通过人工筛选确定最终否定词集。其次，在通用情感词典基础上，定义seed＝{快、通畅、便利、舒适}为正面情感词种子，seed＝{慢、拥堵、车祸、混乱}为负面情感词种子。在《同义词词林》的77343条词语中，寻找种子集的同义词和反义词对种子集进行扩展，形成交通情感扩展词典，两者汇总去重得到最终交通情感分析词典。

断句模块，将舆情中长句转化为短句，供程度模块进行使用。

程度模块，以“极优、优、良、中、差、较差、很差”7级程度打分为例，中性评论直接赋予4分。积极文本归属5，6，7分，消极文本归属1，2，3分，其中根据程度副词分级，对短句文本进行分数评测，为去除文本长度对数值加和的影响，在文本合并后用对其进行归一化处理，即使用各字句加和后数值除以字句个数。

本发明所提及的具体实施例仅仅是对本发明的解释，其并不是对本发明的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本发明的权利要求范围内都受到专利法的保护。

Claims

1.一种基于舆情知识图谱的公共交通乘客满意度评价方法。其特征在于，包括如下步骤：

S1：实施文本获取与处理分析；

S2：完成公共交通知识图谱的建模与存储；

S3：“潜水”乘客满意度信息获取与分析；

2.根据权利要求1所述的一种基于舆情知识图谱的公共交通乘客满意度评价方法，其特征是，在步骤S1中，实施文本获取与处理分析的具体步骤为：获取公共交通网络舆情数据，进行文本预处理，构建交通舆情主题分类模型，分析舆情情感与演变特征。

3.根据权利要求1所述的一种基于舆情知识图谱的公共交通乘客满意度评价方法，其特征是，在步骤S3中，“潜水”乘客满意度信息获取与分析的具体步骤为：爬取舆情文本相关附属信息，爬取用户日常文本信息，挖掘用户互动信息，获取初始情感判别结果，情感分析结果检验，重复实验结果校验。

4.根据权利要求1所述的一种基于舆情知识图谱的公共交通乘客满意度评价方法，其特征是，在步骤S4中，实现舆情指标映射，服务分值研判和历史事件方法库的构建的具体步骤为：明确部省市三级部门职责与舆情文本和国标指标对应关系，完成舆情文本与评价指标初步映射，将公共交通舆情文本按分类后数据分别输入图谱；构建公共交通情感词典，进行文本情感分析，完成文本情感分值研判；构建历史事件方法库，辅助短板部门决策。

5.根据权利要求2所述的方法中，其特征在于，

所述构建交通舆情主题分类模型，包括：采用向量空间模型将文本转化为向量，每一个文本表示为n维向量空间的一个向量v，向量中每一维对应一个特征项。选取词作为文本特征项，TF-IDF值作为每一个词的权值，通常每个文本需要对TF-IDF做归一化处理；基于此，将文本分类问题转化为求待分类向量与已知主题向量的相似度问题；

所述舆情情感与演化特征分析，包括：关注度重点考虑点赞数、评论量、转发数，并依据花费时间长短对参数赋权，关注度增量按照相邻时间段关注度差值比计算，并通过置换训练文本，完成交通情感分析模块初步构建；

基于此，完成各时间段情感极性分布研究，制作交通舆情热词词云，结合关键词频数折线图等方式进行可视化研究。

6.根据权利要求3所述的方法中，其特征在于，

所述爬取舆情文本相关附属信息，包括：爬取相应舆情文本点赞人员列表、评论人员列表，筛选出点赞且并未发表评论的用户，获取该用户主页文本信息，如性别、昵称、所在地、简介等；

所述爬取用户日常文本信息，包括：爬取该类用户较近时期发表的日常微博内容；

所述挖掘用户互动信息，包括：挖掘该类用户“他的关注”对象以及频繁互动对象基本信息，尤其与目标文本有关联的“他的关注”对象信息；

所述获取初始情感判别结果，包括：将“温数据画像”和“热数据画像”的情感倾向分别赋予初始权重，计算求得一定概率下初始情感倾向判别结果；

所述情感分析结果检验，包括：向用户推送同类情感性质的公共交通微博文本；以一定时间段内公共交通乘客满意度事件为题目核心，对该类用户发放专用调查问卷。

7.根据权利要求4所述的方法中，其特征在于，所述实现舆情指标映射，包括：

主题分类模型，将舆情文本数据表示为向量形式，并将乘客满意度国标一级指标作为分类核心，通过相似度计算实现舆情文本分类，初步实现舆情文本与评价指标的映射；

将公共交通舆情文本按分类后数据分别输入知识图谱，采用基于规则学习的推理AMIE算法，通过SPARQL在知识图谱上的查询对规则的质量进行评价，实现知识图谱推理，二者结合完成舆情文本与指标的映射；

所述服务分值研判，包括：以公开的中文情感极性词典为基础，辅助补充公共交通行业情感元素，构建公共交通情感词典；进行文本情感分析时，将长句分割成短句进行剖析，之后再拼凑实现整句情感判断；基于情感极性和情感程度判断进行情感评分；

所述构建历史事件方法库，辅助短板部门决策时，决策打分为措施改进前后相邻两次满意度相应指标评分差值，以及差值与改进前指标数值的比值，按照决策分值，选取排名前五的措施为短板部门提供辅助决策；首先，比较绝对评分差值，当评分差值大于规定阈值Ω时，直接选取绝对评分高的一方为优先选择项；其次，当评分差值小于规定阈值Ω时，比较差值与改进前指标数值的比值，选取比值较小者为优先选择项。

8.一种基于舆情知识图谱的公共交通乘客满意度评价系统，其特征在于，包括：

数据模块，实施文本获取与处理分析；

图谱模块，完成公共交通知识图谱的建模与存储；

9.如权利要求8所述的基于舆情知识图谱的公共交通乘客满意度评价系统，其特征在于，其中：

所述数据模块包括实时模块、处理模块、分析模块；

处理模块：对实时模块所获取的数据进行文本处理，采用Python的正则表达式、BeautifulSoup模块去除文本的非中文数据，删除对文本无影响内容，如“网页链接”等标签，@后紧邻文字等；去除所有标点符号，感叹号“！”除外；使用utf-8编码存储、读取后处理采用GBK编码格式；导入构建的公共交通事件名词库，结合HanLP、结巴分词工具实现文本分词与词性标注；使用基于字典的方法，剔除停用词；

数据模块中的分析模块，其包括交通舆情主题分类模块、舆情情感演化特征分析模块；其中，交通舆情主题分类模块：采用向量空间模型将文本转化成向量，每一个文本表示为n维向量空间的一个向量v，向量中每一维对应一个特征项，选取词作为文本特征项，使用文本向量化，通过求待分类向量与已知主题向量的相似度，得到主题分类结果；基于此模块，完成部门—职责、职责—指标以及文本—指标的文本主题预分类；舆情情感演化特征分析模块，第一，演化特征分析主要依据关注度和关注度增量两项指标，其中关注度重点考虑点赞数、评论量、转发数，并依据花费时间长短对参数赋权，关注度增量按照相邻时间段关注度差值比计算。依据关注度与关注度增量组合关系对舆情生命周期进行划分。第二，基于贝叶斯模型，采用机器学习的情感分析方法，通过置换训练文本，完成交通情感分析模块的初步构建，借此计算各时间段情感极性分布。制作交通舆情热词词云，结合关键词频数折线图等方式，实现舆情热词演变分析；

所述图谱模块：完成公共交通舆情知识图谱的建模与存储，采用自底向上和自上向下相结合的构建方式，基于Neo4j图数据库进行存储，实现舆情知识图谱的构建；其中包括：第一，完成非结构化数据的实体抽取，包括通用命名实体识别和公共交通领域命名实体识别，通用命名实体识别采用基于词典的方法，主要用于识别文本的实体类、时间类、数字类三大类，以及时间、日期、人名、地名、机构名、货币、百分比七小类。公共交通领域命名实体识别采用基于统计模型的方法，采用Inside-Outside-Beginning(IOB)标注体系对训练语料进行标注，参照斯坦福大学的NER完成特征定义，使用隐马尔科夫模型(Hidden MarkovModel，HMM)完成模型训练；第二，采用基于模板和监督学习的方法，实现属性关系抽取，基于模板的方法，在知识图谱数据量较少时起主要作用，其主要预定义实体间相关关系，基于深度学习主要采用CR-CNN模型，依次完成句子中的词到低维空间的映射，特征向量的生成，求向量最大值得到句子的向量表示，计算句子向量和关系向量点积，最终得到实体与每种预定义关系的分值；第三，通过实体链接与知识合并，完成知识融合；实体链接依次通过实体指称识别，主要采用上文阐述的命名实体识别方法；采用启发式模式匹配方法完成表层名字扩展，并结合基于搜索引擎的输出结果生成候选实体；最后，通过基于概率生成模型的方法完成实体消歧；第四，实现本体构建、知识推理与质量评估的知识加工；使用Protégé软件实现本体构建与知识建模，通过设定知识的OWL类、属性、表单、个体和元类标签，完成上下位关系及属性的建立；使用Drools实现知识推理。首先，构建基本模块，其中org.kie.api.KieServices包用于建立模型，包org.kie.api.runtime.KieContainer用于存放数据，org.kie.api.runtime.KieSession是用于进行分析的一个类；其次，初始化Drools，以三元组数据形式分别输入本体数据和实例数据；在进行推理之前，必须制定规则文件进行存储。至此，实现面向部省市三级的“网络舆情—交通事件—交通治理”知识图谱、“事件—职责—部门”知识图谱，以及面向公共交通舆情的“文本—指标”知识图谱的构建；

所述应用模块包括潜水模块，映射模块，打分模块，其中：

潜水模块主要用于获取与分析“潜水”乘客满意度信息；包括信息模块，画像模块，情感模块；

信息模块主要用于爬取三部分内容，首先是相应舆情文本点赞人员列表、评论人员列表，筛选出点赞且并未发表评论的用户，获取该用户主页文本信息，包括性别、昵称、所在地、简介，其次是爬取该类用户较近时期发表的日常微博内容，最后是挖掘该类用户“他的关注”对象以及频繁互动对象基本信息，尤其与目标文本有关联的“他的关注”对象信息，并通过知识图谱查询定位与该类用户有关系的用户群体；

画像模块依次使用上述三类数据，完成用户“冷数据画像”绘制；使用上文所述的自然语言分析方法、情感分析方法计算其普遍情感倾向，完成“温数据画像”绘制；统计分析用户群体情感倾向，将用户群体情感倾向暂定为该类用户情感倾向，完成“热数据画像”绘制；

情感模块，首先，将“温数据画像”和“热数据画像”的情感倾向分别赋予初始权重，计算求得一定概率下初始情感倾向判别结果；其次，根据上一步的判别结果，基于相应情感极性及情感等级，向用户推送同类情感性质的公共交通微博文本，并给出“感兴趣、不感兴趣”选项；此外，在条件允许的情况下，对该类用户发放专用调查问卷，以一定时间段内公共交通乘客满意度事件为题目核心，情感极性及情感等级为选项，明确其情感倾向度；二者结合以修正情感概率及其相关权重数值；最后，多次重复上述操作，找到“潜水”用户情感相似度最高的舆情文本，将此作为该用户一定时间段内情感评价依据，并将其输入乘客满意度分析模型，完成“潜水”乘客满意度分析；

映射模块，主要用于明确舆情文本与满意度指标的对应关系；第一，分类汇总国家部省市三级单位部门名称及其对应职责；第二，通过专家访谈等方式，明确部门职责与乘客满意度评价指标对应关系；第三，将国家标准中乘客满意度一级指标作为主题核心，对获取的舆情数据进行文本分类处理，即实现文本—指标对应分类；第四，采用上文主题分类模型，将舆情文本数据表示为向量形式，并将乘客满意度国标一级指标作为分类核心，通过相似度计算实现舆情文本分类，初步实现舆情文本与评价指标的映射；第五，将公共交通舆情文本按分类后数据分别输入图谱，完成知识图谱的构建，采用基于规则学习的推理AMIE，通过SPARQL在知识图谱上的查询对规则的质量进行评价，最终实现规则的挖掘，并推理出新的三元组，从而进一步加大舆情文本与指标映射的程度；

基于情感分析的满意度指标评分系统包括词典模块，断句模块，程度模块；

词典模块，以公开的中文情感极性词典为基础，辅助补充公共交通行业情感元素，构建公共交通情感词典；首先，在HowNet情感词典基础上，以“不、无、非、没、莫”为初始否定词，以维基百科数据为训练数据源，通过Word2vec对初始否定词进行扩充，选取相似度较高的前150个词语作为待定否定词集，并计算通过人工筛选确定最终否定词集；其次，在通用情感词典基础上，定义seed＝{快、通畅、便利、舒适}为正面情感词种子，seed＝{慢、拥堵、车祸、混乱}为负面情感词种子。在《同义词词林》的77343条词语中，寻找种子集的同义词和反义词对种子集进行扩展，形成交通情感扩展词典，两者汇总去重得到最终交通情感分析词典；

断句模块，将舆情中长句转化为短句，供程度模块进行使用；