CN111914096A - 基于舆情知识图谱的公共交通乘客满意度评价方法及系统 - Google Patents
基于舆情知识图谱的公共交通乘客满意度评价方法及系统 Download PDFInfo
- Publication number
- CN111914096A CN111914096A CN202010639527.4A CN202010639527A CN111914096A CN 111914096 A CN111914096 A CN 111914096A CN 202010639527 A CN202010639527 A CN 202010639527A CN 111914096 A CN111914096 A CN 111914096A
- Authority
- CN
- China
- Prior art keywords
- public
- text
- module
- emotion
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 40
- 238000004458 analytical method Methods 0.000 claims abstract description 102
- 238000000034 method Methods 0.000 claims abstract description 78
- 238000013507 mapping Methods 0.000 claims abstract description 31
- 238000010276 construction Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 24
- 230000009189 diving Effects 0.000 claims abstract description 21
- 238000011160 research Methods 0.000 claims abstract description 11
- 238000010801 machine learning Methods 0.000 claims abstract description 6
- 230000008451 emotion Effects 0.000 claims description 92
- 239000013598 vector Substances 0.000 claims description 51
- 230000002996 emotional effect Effects 0.000 claims description 45
- 238000012549 training Methods 0.000 claims description 14
- 230000006872 improvement Effects 0.000 claims description 13
- 238000013145 classification model Methods 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 12
- 230000009193 crawling Effects 0.000 claims description 11
- 238000005065 mining Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000000692 anti-sense effect Effects 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 5
- 230000007935 neutral effect Effects 0.000 claims description 5
- 238000013441 quality evaluation Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 4
- 230000008520 organization Effects 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 235000014347 soups Nutrition 0.000 claims description 3
- 238000013179 statistical model Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000012552 review Methods 0.000 claims description 2
- 238000002474 experimental method Methods 0.000 claims 1
- 238000012360 testing method Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 11
- 239000013589 supplement Substances 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 11
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000002354 daily effect Effects 0.000 description 3
- 238000013210 evaluation model Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000011835 investigation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于舆情知识图谱的公共交通乘客满意度评价方法及系统,综合考虑了基于问卷调查和基于公共交通网络舆情的乘客满意度分析方法,应用网络舆情分析技术、自然语言分析方法、公共交通知识图谱、机器学习等方法对传统公共交通乘客满意度分析作出了有力补充。该发明主要包括:实施文本获取与处理分析;完成公共交通舆情知识图谱的建模与存储;“潜水”乘客满意度信息获取与分析;实现舆情指标映射、服务分值研判和历史事件方法库的构建。实现文本主题分类、满意度指标定位,明确满意度与部门及其职责对应关系,以便能够为传统公共交通乘客满意度分析提供有力补充,也能够为了解公共交通乘客需求、相关部门服务短板提供更科学的参考意见的效果。
Description
技术领域
本发明涉及交通运输工程领域、计算机领域。
背景技术
公共交通乘客满意度指对公共交通服务的可得性、安全可靠性及便捷舒适度等方面体验的满意程度,其是了解乘客细致化交通需求的重要依据,提高城市公共交通精细化服务水平的重要途径。基于乘客视角开展主观服务质量评价,挖掘服务质量与服务感知差距,通过满意度评价结果定位需改进的服务模块与服务环节。
传统满意度评价数据来源于调查问卷,存在诸多缺陷。如样本量受限,覆盖度低、调查时间离散。受制于调查成本,满意度评价的质量提升空间不大,更无法满足长效监控、精细化服务改进需求;调查结果通常仅反映宏观服务水平,无法定位具体问题及其对应改进措施。
公共交通舆情是乘客对日常服务感知的即时反映,具有动态性、及时性。公共交通客流规模巨大,乘客越来越关注出行服务过程,且随着互联网+公交技术的广泛应用,网络信息反馈平台多样,每日产生交通舆情数据巨大。因此,通过互联网获取公共交通舆情信息,通过知识图谱等人工智能技术映射服务模块,能够较高频率、更大范围地反映乘客对服务质量的评价,该方法具有覆盖的公共交通方式多(公交、地铁、定制公交等),覆盖服务环节完整,覆盖服务时段广泛,便于实时动态监督等优点。
为改进基于问卷调查的传统乘客满意度分析方法,拟采用基于网络舆情分析的乘客满意度分析模型,并结合知识图谱技术实现关联关系的分析与确认。通过舆情分析方法获取乘客的评论数据、用户画像,分析经典满意度评价模型,确定适于舆情文本信息的满意度评价指标,构建公共交通乘客满意度知识图谱,完成“事件—指标—职责—部门”的对应关系分析。下文分别简述三部分的技术现状。
1)满意度评价理论
满意度评价指标体系一般不超过三级,满意度问题设置一般不超过40个。评价模型主要分为三类,服务质量评价模型(SERVQUAL),服务绩效模型(SERVPERF)和结构化方程模型SEM(Structural Equation Modeling)。2018年国家城市客运标准委员会组织完成了《城市公共交通乘客满意度评价方法》,其设置了公共汽电车交通和城市轨道交通的准则层指标和相应一级指标,建议基于调查问卷采用服务绩效模型或结构方程模型进行满意度分析,并给出对应模型参数估计方法、指标权重确定方法等。
2)知识图谱技术
知识图谱是一种使用图模型描述知识和建模事物关联关系的技术方法,其作为一种知识表示形式,已在语义搜索、辅助问答、关系研判、自然语言理解等诸多人工智能手段中发挥巨大作用。互联网大数据的迅猛集聚、人工智能算法的快速发展,为知识图谱提供前沿科技和发展条件。至此,知识图谱已完全具备识别舆情与服务要素的关联关系能力,为完善乘客满意度分析手段提供思路。
3)舆情分析技术
舆情是作为主体的民众对作为客体的社会事件等发表的观点及所持有的态度,舆情整体模块分析方法已较为成熟,主要包括:网络舆情数据的获取,舆情事件主题建模,舆情生命周期演化分析,热词定位以及可视化研究等。基于舆情分析基本技术,结合交通事件舆情特征、交通事件主题分类、交通事件情感库等可以实现交通事件网络舆情系统分析。随着自然语言分析技术、机器学习方法等的不断发展与完善,舆情分析的准确率、分析效率也在逐步地提升。
发明内容
本发明的目的是提供一种基于知识图谱的公共交通乘客满意度分析方法及系统。具有自动获取文本数据并进行自然语言分析,实现文本主题分类、满意度指标定位,明确满意度与部门及其职责对应关系,以便能够为传统公共交通乘客满意度分析提供有力补充,也能够为了解公共交通乘客需求、相关部门服务短板提供更科学的参考意见的效果。
本发明的上述技术目的是通过以下技术方案得以实现的:
技术方案一
一种基于舆情知识图谱的公共交通乘客满意度分析方法,包括以下步骤:
S1:实施文本获取与处理分析;
S2:完成公共交通知识图谱的建模与存储;
S3:“潜水”乘客满意度信息获取与分析;
S4:实现舆情指标映射,服务分值研判和历史事件方法库的构建。
技术方案二
一种基于知识图谱的公共交通乘客满意度分析系统,包括:
数据模块,实施文本获取与处理分析;
图谱模块,完成公共交通知识图谱的建模与存储;
应用模块,实现“潜水”乘客满意度信息分析,舆情指标映射,服务分值研判和历史事件方法库的构建。
本发明创新点:
1)基于乘客满意度评价的系统性技术路线
提出一套基于舆情的乘客满意度评价系统性技术路线——“舆情数据获取,舆情主题建模,舆情情感分析,服务指标映射,服务分数研判,满意度计算模型,结果可视化分析”。相比传统的问卷调查方式调查乘客满意度,大大增加了乘客满意度的调查样本量的同时,减少了调查人力成本,增加调查的实效性,进而实现秒级实时乘客满意度趋势跟踪。
2)基于知识图谱的舆情与满意度服务指标映射
提出一种通过知识图谱实现舆情事件与满意度评价指标映射的方法,填补了公共交通舆情文本与乘客满意度服务指标转换方法的空缺。
3)基于情感分析的满意度指标评分
提出一种基于交通舆情数据,使用自然语言分析、文本情感分析等技术完成舆情文本与服务指标评分的映射方法,完善了公共交通舆情文本与满意度分值数字语言的转化方法。
4)“潜水”乘客满意度分析方法
提出一种基于知识图谱的“潜水”乘客满意度分析方法。“潜水”乘客即本身关注事件的发展,但懒于作出明显的表态,即未发表评论,但他们通过点赞等方式间接表达观点,且此类乘客数量占据总乘客数的比例较大,对其进行研究具有重要意义。通过实现描摹用户画像,剖析用户关系网络等,解决了互联网未发表意见的“潜水”乘客的发现以及情感倾向的判别问题,并通过补充调查问卷的形式对“潜水”乘客进行调研,弥补了互联网舆情判别偏差的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。下面描述中的附图是本发明的一些实施例,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献修改,但只要在本发明的权利要求范围内都受到专利法的保护。
图1为发明方法流程示意图;
图2为本发明基于乘客满意度评价的流程;
图3为本发明基于情感分析的满意度指标评分流程;
图4为本发明“潜水”乘客满意度分析方法流程图;
图5为本发明系统的结构示意图;
图6为本发明基于乘客满意度评价系统的结构示意图;
图7为本发明基于情感分析的满意度指标评分系统结构示意图;
图8为本发明“潜水”乘客满意度分析系统结构示意图;
图9为本发明数据模块中的分析模块结构示意图;
具体实施方式
为了使本发明所要解决的技术问题、技术方案以及有益效果更加清楚明白,以下结合附图以及部分举例,对本发明进行进一步详细说明。
本发明的第一个方面是提供一种基于知识图谱的公共交通乘客满意度分析方法:
S1:实施文本获取与处理分析
以网络舆情文本作为数据输入,基于自然语言分析方法实现文本处理,构建舆情主题分类模型实现文本归类,完成情感及其可视化等,获取舆情初步印象。
具体步骤为:
S11:数据获取
通过网络爬虫工具获取微博、微信、新闻客户端等舆情产生地的交通舆情文本数据,包括用户名、用户ID、文本正文、发表时间、点赞数、转发数、评论信息、定位地点等非结构化文本数据。
S12:文本预处理
采用Python的正则表达式、BeautifulSoup模块等去除文本的非中文数据,删除对文本无影响内容,如“网页链接”等标签,@后紧邻文字等;去除所有标点符号,感叹号“!”除外;使用utf-8编码存储、读取后处理采用GBK编码格式;导入构建的公共交通事件名词库,结合HanLP、结巴分词工具实现文本分词与词性标注;使用基于字典的方法,剔除停用词。
S13:构建交通舆情主题分类模型
采用向量空间模型将文本转化成向量,如公式(1)所示,每一个文本表示为n维向量空间的一个向量v,向量中每一维对应一个特征项。其中,ω(fi)表示特征项fi在文本中的权值,即该特征描述文本语义内容的重要程度。选取词作为文本特征项,TF-IDF值作为每一个词的权值,如公式(2)所示。其中,TF(fi)为词频,是词fi在一篇文本中出现的频率,D为语料库中的总文档数,Di表示语料库中含有词fi的文档数,称为反文档频率。通常每个文本需要对TF-IDF做归一化处理,从而避免文本长度产生影响,得到词fi的权重ω(fi)计算如公式(3)所示。
通过文本向量化,将其分类问题就转化为求待分类向量与已知主题向量的相似度问题。假设待分类文本向量为X=(x1,x2,…,xn),已分类文本向量为βi=(βi1,βi2,…,βim),其中βi表示主题向量类别。交通舆情主题分类模型如公式(4)、公式(5)所示。Similarity(βi)表示待分类文本X与已知主题文本βi之间相似度,取相似度最大的βi作为X的主题类型Class(X)。在使用本模型前,需要标定模型参数βij。首先融合每类训练集中的所有文本,其次分别对集合文本进行文本向量化,最后得到已知分类主题的文本向量集合{βi}。
V=(ω(f1),ω(f2),…ω(fn)) (1)
基于此结合自然语言分析方法,完成部门—职责、职责—指标以及文本—指标的文本主题预分类。其中部门设置、职责及指标需通过交通行业专业数据分类分析获取,文本指标即对获取的舆情数据进行处理分析。
S14:舆情情感与演化特征分析
演化特征分析主要依据关注度和关注度增量两项指标。其中关注度重点考虑点赞数、评论量、转发数,并依据花费时间长短对参数赋权,如公式(6)所示。其中npraise、ncomment、nforwarding分别代表点赞、评论、转发量,α,β,γ为其权重。关注度增量按照相邻时间段关注度差值比计算。依据关注度与关注度增量组合关系对舆情生命周期进行划分。
基于贝叶斯模型,采用机器学习的情感分析方法,计算如公式(7)、公式(8)所示,通过置换训练文本,完成交通情感分析模块的初步构建,借此计算各时间段情感极性分布。制作交通舆情热词词云,结合关键词频数折线图等方式,实现舆情热词演变分析等。
mSignificance=α·npraise+β·ncomment+γ·nforwarding (6)
S2:完成公共交通舆情知识图谱的建模与存储,采用自底向上和自上向下相结合的构建方式,基于Neo4j图数据库进行存储,实现舆情知识图谱的构建。
具体步骤为:
S21:完成非结构化数据的实体抽取,包括通用命名实体识别和公共交通领域命名实体识别;其中,通用命名实体识别采用基于词典的方法,主要用于识别文本的实体类、时间类、数字类三大类,以及时间、日期、人名、地名、机构名、货币、百分比七小类。公共交通领域命名实体识别采用基于统计模型的方法,采用Inside-Outside-Beginning(IOB)标注体系对训练语料进行标注,参照斯坦福大学的NER完成特征定义,使用隐马尔科夫模型(Hidden Markov Model,HMM)完成模型训练。
S22:采用基于模板和监督学习的方法,实现属性关系抽取;基于模板的方法,在知识图谱数据量较少时起主要作用,其主要预定义实体间相关关系,如空间上相关、概念上相关、物理上相关等;基于深度学习主要采用CR-CNN模型,依次完成句子中的词到低维空间的映射,特征向量的生成,求向量最大值得到句子的向量表示,计算句子向量和关系向量点积,最终得到实体与每种预定义关系的分值。
S23:通过实体链接与知识合并,完成知识融合;实体链接依次通过实体指称识别,主要采用上文阐述的命名实体识别方法;采用启发式模式匹配方法完成表层名字扩展,并结合基于搜索引擎的输出结果生成候选实体;最后,通过基于概率生成模型的方法完成实体消歧,该模型依据实体概率分布P(e)选择实体和对应的实体,并根据给定实体e实体名称的条件概率P(s|e)选择实体涉及的名称,模型根据给定实体e上下文的条件概率P(c|e)输出实体提及的上下文,实体和提及的联合概率为公式(9)。当给定实体提及u时,候选实体消歧依据公式(10)。其中,P(e)对应实体流行度,P(s|e)对应实体名称知识,P(c|e)对应上下文知识。
P(m,e)=P(s,c,e)=P(e)P(s|e)P(c|e) (9)
S24:实现本体构建、知识推理与质量评估的知识加工;使用Protégé软件实现本体构建与知识建模,通过设定知识的OWL类、属性、表单、个体和元类标签,完成上下位关系及属性的建立;使用Drools实现知识推理。
首先,构建基本模块,其中org.kie.api.KieServices包用于建立模型,包org.kie.api.runtime.KieContainer用于存放数据,org.kie.api.runtime.KieSession是用于进行分析的一个类;其次,初始化Drools,以三元组数据形式分别输入本体数据和实例数据;在进行推理之前,必须制定规则文件进行存储。至此,实现面向部省市三级的“网络舆情—交通事件—交通治理”知识图谱、“事件—职责—部门”知识图谱,以及面向公共交通舆情的“文本—指标”知识图谱的构建。
S3:“潜水”乘客满意度信息获取与分析;许多乘客关注交通服务供给质量问题,但是其较少发表自己观点,导致该部分乘客服务感知数据的缺失、使得满意度分析结果存在偏差。为解决该问题,提出基于用户推荐系统的潜在乘客满意度分析方法。此处明确该类用户范围,指在相关交通舆情文本信息内点赞或点击相应表情选项但并未发表评论的用户。
具体步骤为:
S31:爬取相应舆情文本点赞人员列表、评论人员列表,筛选出点赞且并未发表评论的用户,获取该用户主页文本信息,如性别、昵称、所在地、简介等,完成用户“冷数据画像”绘制。其中强调,点赞处可详细选择“高兴、赞、惊讶、悲伤、愤怒”五种。通过观察可以发现,绝大多数用户在此处仅选择赞,而较少用户会选择其他四个选项,因此在此处选择“赞”的用户进入下一步分析,具体描摹其对某一事件情感倾向;选择“高兴、惊讶、悲伤、愤怒”的用户则分别赋予情感值“+2,0,-1,-2”,正数代表积极情感,负数代表消极情感,数值越大情感强度越强,0代表情感值待定,将其视为中性。
S32:爬取该类用户较近时期发表的日常微博内容,使用上文所述的自然语言分析方法、情感分析方法计算其普遍情感倾向,完成用户“温数据画像”绘制。
S33:挖掘该类用户“他的关注”对象以及频繁互动对象基本信息,尤其与目标文本有关联的“他的关注”对象信息,并通过知识图谱查询定位与该类用户有关系的用户群体,统计分析用户群体情感倾向,将用户群体情感倾向暂定为该类用户情感倾向,完成其“热数据画像”绘制。
S34:将“温数据画像”和“热数据画像”的情感倾向分别赋予初始权重,计算求得一定概率下初始情感倾向判别结果。
S35:根据上一步的判别结果,基于相应情感极性及情感等级,向用户推送同类情感性质的公共交通微博文本,并给出“感兴趣、不感兴趣”选项;此外,在条件允许的情况下,对该类用户发放专用调查问卷,以一定时间段内公共交通乘客满意度事件为题目核心,情感极性及情感等级为选项,明确其情感倾向度。二者结合以修正情感概率及其相关权重数值。
S36:多次重复第S35操作,找到“潜水”用户情感相似度最高的舆情文本,将此作为该用户一定时间段内情感评价依据,并将其输入乘客满意度分析模型,完成“潜水”乘客满意度分析。
S4:实现舆情指标映射(S41)、服务分值研判(S42),历史事件方法库的构建(S43);舆情指标映射主要采用基于主题分类模型和基于知识图谱推理的方法,服务分值研判主要采用基于语义词典和基于机器学习的方法,通过相关技术实现舆情文本与国家相关指标的映射,旨在实现“舆情事件—服务指标—服务主体”的自动定位,明确部门服务短板,调用历史事件库辅助部门作出合理改进决策。
舆情指标映射(S41),具体步骤为:
S41a:首先,分类汇总国家部省市三级单位部门名称及其对应职责;其次,通过专家访谈等方式,明确部门职责与乘客满意度评价指标对应关系;最后,将国家标准中乘客满意度一级指标作为主题核心,对获取的舆情数据进行文本分类处理,即实现文本—指标对应分类;
S41b:采用上文主题分类模型,将舆情文本数据表示为向量形式,并将乘客满意度国标一级指标作为分类核心,通过相似度计算实现舆情文本分类,初步实现舆情文本与评价指标的映射;
S41c:将公共交通舆情文本按分类后数据分别输入图谱,完成知识图谱的构建。采用基于规则学习的推理AMIE,其是一种霍恩规则也是一种闭环规则。通过定义三个挖掘算子,增加悬挂原子,增加实例化原子和增加闭环原子,不断地在规则中增加挖掘算子来探索图上的搜索空间,并且融入设置最低规则头覆盖度过滤等减枝策略,通过SPARQL在知识图谱上的查询对规则的质量进行评价。最终实现规则的挖掘,并推理出新的三元组,从而进一步加大舆情文本与指标映射的程度。
服务分值研判(S42)具体步骤为:
S42a:以公开的中文情感极性词典为基础,辅助补充公共交通行业情感元素,构建公共交通情感词典;第一步,HowNet情感词典包括中文程度级别词语、正负面评价词语、正负面情感词语等,但其缺少否定词汇,而否定词汇会直接影响情感极性的判断,因此要对其进行补充。本文以“不、无、非、没、莫”为初始否定词,以维基百科数据为训练数据源,通过Word2vec对初始否定词进行扩充,选取相似度较高的前150个词语作为待定否定词集,并计算通过人工筛选确定最终否定词集。第二步,通用情感词典均缺少公共交通领域情感词汇,定义seed={快、通畅、便利、舒适}为正面情感词种子,seed={慢、拥堵、车祸、混乱}为负面情感词种子。在《同义词词林》的77343条词语中,寻找种子集的同义词和反义词对种子集进行扩展,形成交通情感扩展词典,两者汇总去重得到最终交通情感分析词典。
S42b:进行文本情感分析时,将长句分割成短句进行剖析,之后再拼凑实现整句情感判断。第一步,使用词典计算文本初始情感极性,若不含有情感词汇则记录为中性;第二步,计算否定词个数,若为奇数则情感极性反转,若为偶数则情感极性不变,完成情感极性分析。第三步,计算情感程度,遍历情感词汇,基于此向前寻找程度副词,副词以“一点,较大,多,不少,极”5级分类,其中标点符号“!”理解为“极”类,并分别赋予权重,以便于解决句子重组时前后短句情感不一致等问题,此处强调,副词的5级分类并不只单纯依照这五个字或词组,而是以此为种子进行迭代,并通过人工筛选得到同类字或词集。第四步,构建情感倾向词汇,如“政府”、“官员”、“斗殴”、“起哄”等,词语本身具有情感倾向极性,但是在与否定词汇搭配后并出现在建议性话语中可能改变句子情感极性。
S42c:基于上述理论完成文本情感分值研判。以“极优、优、良、中、差、较差、很差”7级程度打分为例,中性评论直接赋予4分。积极文本归属5,6,7分,消极文本归属1,2,3分,其中根据程度副词分级,对短句文本进行分数评测,为去除文本长度对数值加和的影响,在文本合并后用对其进行归一化处理,即使用各字句加和后数值除以字句个数。
历史事件方法库的构建(S43),具体步骤为:
构建历史事件方法库,辅助短板部门决策;将公共交通乘客满意度事件及其对应部门、改进决策进行分类存储。第一步,以评价指标为核心节点,评价指标基于国标进行落地修正,对其进行文本验证及修订,采用适于网络舆情文本的评价指标;第二步,以事件主题为连接节点,基于上述主题分类模型对事件主题进行分类汇总,选取计算相似度最高值对应主题为事件主题;第三步,以处理措施为属性节点,将满意度事件主要改进方法措施进行简要记录,提取主要信息进行人工存储;第四步,以决策打分为属性附加节点,整合完成知识图谱存储。决策打分为措施改进前后相邻两次满意度相应指标评分差值,以及差值与改进前指标数值的比值;第五步,按照决策分值,选取排名前五的措施为短板部门提供辅助决策。首先,比较绝对评分差值,当评分差值大于规定阈值Ω时,直接选取绝对评分高的一方为优先选择项;其次,当评分差值小于规定阈值Ω时,比较差值与改进前指标数值的比值,选取比值较小者为优先选择项。
基于上述方法,进一步给出基于知识图谱的公共交通乘客满意度分析系统。
图5为本发明系统的结构示意图,图6为本发明基于乘客满意度评价系统的结构示意图:
系统包括三个模块:数据模块、图谱模块、应用模块,其中:
所述数据模块包括实时模块、处理模块、分析模块;
实时模块:通过网络爬虫工具,实时获取微博、微信、新闻客户端等舆情产生地的交通舆情文本数据,包括用户名、用户ID、文本正文、发表时间、点赞数、转发数、评论信息、定位地点等非结构化文本数据;
处理模块:对实时模块所获取的数据进行文本处理,采用Python的正则表达式、BeautifulSoup模块等去除文本的非中文数据,删除对文本无影响内容,如“网页链接”等标签,@后紧邻文字等;去除所有标点符号,感叹号“!”除外;使用utf-8编码存储、读取后处理采用GBK编码格式;导入构建的公共交通事件名词库,结合HanLP、结巴分词工具实现文本分词与词性标注;使用基于字典的方法,剔除停用词;
图9为本发明数据模块中的分析模块结构示意图,其包括交通舆情主题分类模块、舆情情感演化特征分析模块。其中,交通舆情主题分类模块:采用向量空间模型将文本转化成向量,每一个文本表示为n维向量空间的一个向量v,向量中每一维对应一个特征项,选取词作为文本特征项,使用文本向量化,通过求待分类向量与已知主题向量的相似度,得到主题分类结果。基于此模块,完成部门—职责、职责—指标以及文本—指标的文本主题预分类;舆情情感演化特征分析模块,第一,演化特征分析主要依据关注度和关注度增量两项指标,其中关注度重点考虑点赞数、评论量、转发数,并依据花费时间长短对参数赋权,关注度增量按照相邻时间段关注度差值比计算。依据关注度与关注度增量组合关系对舆情生命周期进行划分。第二,基于贝叶斯模型,采用机器学习的情感分析方法,通过置换训练文本,完成交通情感分析模块的初步构建,借此计算各时间段情感极性分布。制作交通舆情热词词云,结合关键词频数折线图等方式,实现舆情热词演变分析等。
所述图谱模块:完成公共交通舆情知识图谱的建模与存储,采用自底向上和自上向下相结合的构建方式,基于Neo4j图数据库进行存储,实现舆情知识图谱的构建。其中包括:第一,完成非结构化数据的实体抽取,包括通用命名实体识别和公共交通领域命名实体识别,通用命名实体识别采用基于词典的方法,主要用于识别文本的实体类、时间类、数字类三大类,以及时间、日期、人名、地名、机构名、货币、百分比七小类。公共交通领域命名实体识别采用基于统计模型的方法,采用Inside-Outside-Beginning(IOB)标注体系对训练语料进行标注,参照斯坦福大学的NER完成特征定义,使用隐马尔科夫模型(Hidden MarkovModel,HMM)完成模型训练;第二,采用基于模板和监督学习的方法,实现属性关系抽取,基于模板的方法,在知识图谱数据量较少时起主要作用,其主要预定义实体间相关关系,基于深度学习主要采用CR-CNN模型,依次完成句子中的词到低维空间的映射,特征向量的生成,求向量最大值得到句子的向量表示,计算句子向量和关系向量点积,最终得到实体与每种预定义关系的分值;第三,通过实体链接与知识合并,完成知识融合;实体链接依次通过实体指称识别,主要采用上文阐述的命名实体识别方法;采用启发式模式匹配方法完成表层名字扩展,并结合基于搜索引擎的输出结果生成候选实体;最后,通过基于概率生成模型的方法完成实体消歧;第四,实现本体构建、知识推理与质量评估的知识加工;使用Protégé软件实现本体构建与知识建模,通过设定知识的OWL类、属性、表单、个体和元类标签,完成上下位关系及属性的建立;使用Drools实现知识推理。首先,构建基本模块,其中org.kie.api.KieServices包用于建立模型,包org.kie.api.runtime.KieContainer用于存放数据,org.kie.api.runtime.KieSession是用于进行分析的一个类;其次,初始化Drools,以三元组数据形式分别输入本体数据和实例数据;在进行推理之前,必须制定规则文件进行存储。至此,实现面向部省市三级的“网络舆情—交通事件—交通治理”知识图谱、“事件—职责—部门”知识图谱,以及面向公共交通舆情的“文本—指标”知识图谱的构建。
所述应用模块包括潜水模块,映射模块,打分模块,其中:
图8为本发明“潜水”乘客满意度分析系统结构示意图,潜水模块主要用于获取与分析“潜水”乘客满意度信息。包括信息模块,画像模块,情感模块。
信息模块主要用于爬取三部分内容,首先是相应舆情文本点赞人员列表、评论人员列表,筛选出点赞且并未发表评论的用户,获取该用户主页文本信息,如性别、昵称、所在地、简介等,其次是爬取该类用户较近时期发表的日常微博内容,最后是挖掘该类用户“他的关注”对象以及频繁互动对象基本信息,尤其与目标文本有关联的“他的关注”对象信息,并通过知识图谱查询定位与该类用户有关系的用户群体;
画像模块依次使用上述三类数据,完成用户“冷数据画像”绘制。使用上文所述的自然语言分析方法、情感分析方法计算其普遍情感倾向,完成“温数据画像”绘制。统计分析用户群体情感倾向,将用户群体情感倾向暂定为该类用户情感倾向,完成“热数据画像”绘制;
情感模块,首先,将“温数据画像”和“热数据画像”的情感倾向分别赋予初始权重,计算求得一定概率下初始情感倾向判别结果。其次,根据上一步的判别结果,基于相应情感极性及情感等级,向用户推送同类情感性质的公共交通微博文本,并给出“感兴趣、不感兴趣”选项;此外,在条件允许的情况下,对该类用户发放专用调查问卷,以一定时间段内公共交通乘客满意度事件为题目核心,情感极性及情感等级为选项,明确其情感倾向度。二者结合以修正情感概率及其相关权重数值;最后,多次重复上述操作,找到“潜水”用户情感相似度最高的舆情文本,将此作为该用户一定时间段内情感评价依据,并将其输入乘客满意度分析模型,完成“潜水”乘客满意度分析。
映射模块,主要用于明确舆情文本与满意度指标的对应关系。第一,分类汇总国家部省市三级单位部门名称及其对应职责;第二,通过专家访谈等方式,明确部门职责与乘客满意度评价指标对应关系;第三,将国家标准中乘客满意度一级指标作为主题核心,对获取的舆情数据进行文本分类处理,即实现文本—指标对应分类;第四,采用上文主题分类模型,将舆情文本数据表示为向量形式,并将乘客满意度国标一级指标作为分类核心,通过相似度计算实现舆情文本分类,初步实现舆情文本与评价指标的映射;第五,将公共交通舆情文本按分类后数据分别输入图谱,完成知识图谱的构建,采用基于规则学习的推理AMIE,通过SPARQL在知识图谱上的查询对规则的质量进行评价,最终实现规则的挖掘,并推理出新的三元组,从而进一步加大舆情文本与指标映射的程度。
图7为本发明基于情感分析的满意度指标评分系统结构示意图,基于情感分析的满意度指标评分系统主要包括词典模块,断句模块,程度模块。
词典模块,以公开的中文情感极性词典为基础,辅助补充公共交通行业情感元素,构建公共交通情感词典。首先,在HowNet情感词典基础上,以“不、无、非、没、莫”为初始否定词,以维基百科数据为训练数据源,通过Word2vec对初始否定词进行扩充,选取相似度较高的前150个词语作为待定否定词集,并计算通过人工筛选确定最终否定词集。其次,在通用情感词典基础上,定义seed={快、通畅、便利、舒适}为正面情感词种子,seed={慢、拥堵、车祸、混乱}为负面情感词种子。在《同义词词林》的77343条词语中,寻找种子集的同义词和反义词对种子集进行扩展,形成交通情感扩展词典,两者汇总去重得到最终交通情感分析词典。
断句模块,将舆情中长句转化为短句,供程度模块进行使用。
程度模块,以“极优、优、良、中、差、较差、很差”7级程度打分为例,中性评论直接赋予4分。积极文本归属5,6,7分,消极文本归属1,2,3分,其中根据程度副词分级,对短句文本进行分数评测,为去除文本长度对数值加和的影响,在文本合并后用对其进行归一化处理,即使用各字句加和后数值除以字句个数。
本发明所提及的具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。
Claims (9)
1.一种基于舆情知识图谱的公共交通乘客满意度评价方法。其特征在于,包括如下步骤:
S1:实施文本获取与处理分析;
S2:完成公共交通知识图谱的建模与存储;
S3:“潜水”乘客满意度信息获取与分析;
S4:实现舆情指标映射,服务分值研判和历史事件方法库的构建。
2.根据权利要求1所述的一种基于舆情知识图谱的公共交通乘客满意度评价方法,其特征是,在步骤S1中,实施文本获取与处理分析的具体步骤为:获取公共交通网络舆情数据,进行文本预处理,构建交通舆情主题分类模型,分析舆情情感与演变特征。
3.根据权利要求1所述的一种基于舆情知识图谱的公共交通乘客满意度评价方法,其特征是,在步骤S3中,“潜水”乘客满意度信息获取与分析的具体步骤为:爬取舆情文本相关附属信息,爬取用户日常文本信息,挖掘用户互动信息,获取初始情感判别结果,情感分析结果检验,重复实验结果校验。
4.根据权利要求1所述的一种基于舆情知识图谱的公共交通乘客满意度评价方法,其特征是,在步骤S4中,实现舆情指标映射,服务分值研判和历史事件方法库的构建的具体步骤为:明确部省市三级部门职责与舆情文本和国标指标对应关系,完成舆情文本与评价指标初步映射,将公共交通舆情文本按分类后数据分别输入图谱;构建公共交通情感词典,进行文本情感分析,完成文本情感分值研判;构建历史事件方法库,辅助短板部门决策。
5.根据权利要求2所述的方法中,其特征在于,
所述构建交通舆情主题分类模型,包括:采用向量空间模型将文本转化为向量,每一个文本表示为n维向量空间的一个向量v,向量中每一维对应一个特征项。选取词作为文本特征项,TF-IDF值作为每一个词的权值,通常每个文本需要对TF-IDF做归一化处理;基于此,将文本分类问题转化为求待分类向量与已知主题向量的相似度问题;
所述舆情情感与演化特征分析,包括:关注度重点考虑点赞数、评论量、转发数,并依据花费时间长短对参数赋权,关注度增量按照相邻时间段关注度差值比计算,并通过置换训练文本,完成交通情感分析模块初步构建;
基于此,完成各时间段情感极性分布研究,制作交通舆情热词词云,结合关键词频数折线图等方式进行可视化研究。
6.根据权利要求3所述的方法中,其特征在于,
所述爬取舆情文本相关附属信息,包括:爬取相应舆情文本点赞人员列表、评论人员列表,筛选出点赞且并未发表评论的用户,获取该用户主页文本信息,如性别、昵称、所在地、简介等;
所述爬取用户日常文本信息,包括:爬取该类用户较近时期发表的日常微博内容;
所述挖掘用户互动信息,包括:挖掘该类用户“他的关注”对象以及频繁互动对象基本信息,尤其与目标文本有关联的“他的关注”对象信息;
所述获取初始情感判别结果,包括:将“温数据画像”和“热数据画像”的情感倾向分别赋予初始权重,计算求得一定概率下初始情感倾向判别结果;
所述情感分析结果检验,包括:向用户推送同类情感性质的公共交通微博文本;以一定时间段内公共交通乘客满意度事件为题目核心,对该类用户发放专用调查问卷。
7.根据权利要求4所述的方法中,其特征在于,所述实现舆情指标映射,包括:
主题分类模型,将舆情文本数据表示为向量形式,并将乘客满意度国标一级指标作为分类核心,通过相似度计算实现舆情文本分类,初步实现舆情文本与评价指标的映射;
将公共交通舆情文本按分类后数据分别输入知识图谱,采用基于规则学习的推理AMIE算法,通过SPARQL在知识图谱上的查询对规则的质量进行评价,实现知识图谱推理,二者结合完成舆情文本与指标的映射;
所述服务分值研判,包括:以公开的中文情感极性词典为基础,辅助补充公共交通行业情感元素,构建公共交通情感词典;进行文本情感分析时,将长句分割成短句进行剖析,之后再拼凑实现整句情感判断;基于情感极性和情感程度判断进行情感评分;
所述构建历史事件方法库,辅助短板部门决策时,决策打分为措施改进前后相邻两次满意度相应指标评分差值,以及差值与改进前指标数值的比值,按照决策分值,选取排名前五的措施为短板部门提供辅助决策;首先,比较绝对评分差值,当评分差值大于规定阈值Ω时,直接选取绝对评分高的一方为优先选择项;其次,当评分差值小于规定阈值Ω时,比较差值与改进前指标数值的比值,选取比值较小者为优先选择项。
8.一种基于舆情知识图谱的公共交通乘客满意度评价系统,其特征在于,包括:
数据模块,实施文本获取与处理分析;
图谱模块,完成公共交通知识图谱的建模与存储;
应用模块,实现“潜水”乘客满意度信息分析,舆情指标映射,服务分值研判和历史事件方法库的构建。
9.如权利要求8所述的基于舆情知识图谱的公共交通乘客满意度评价系统,其特征在于,其中:
所述数据模块包括实时模块、处理模块、分析模块;
实时模块:通过网络爬虫工具,实时获取微博、微信、新闻客户端等舆情产生地的交通舆情文本数据,包括用户名、用户ID、文本正文、发表时间、点赞数、转发数、评论信息、定位地点等非结构化文本数据;
处理模块:对实时模块所获取的数据进行文本处理,采用Python的正则表达式、BeautifulSoup模块去除文本的非中文数据,删除对文本无影响内容,如“网页链接”等标签,@后紧邻文字等;去除所有标点符号,感叹号“!”除外;使用utf-8编码存储、读取后处理采用GBK编码格式;导入构建的公共交通事件名词库,结合HanLP、结巴分词工具实现文本分词与词性标注;使用基于字典的方法,剔除停用词;
数据模块中的分析模块,其包括交通舆情主题分类模块、舆情情感演化特征分析模块;其中,交通舆情主题分类模块:采用向量空间模型将文本转化成向量,每一个文本表示为n维向量空间的一个向量v,向量中每一维对应一个特征项,选取词作为文本特征项,使用文本向量化,通过求待分类向量与已知主题向量的相似度,得到主题分类结果;基于此模块,完成部门—职责、职责—指标以及文本—指标的文本主题预分类;舆情情感演化特征分析模块,第一,演化特征分析主要依据关注度和关注度增量两项指标,其中关注度重点考虑点赞数、评论量、转发数,并依据花费时间长短对参数赋权,关注度增量按照相邻时间段关注度差值比计算。依据关注度与关注度增量组合关系对舆情生命周期进行划分。第二,基于贝叶斯模型,采用机器学习的情感分析方法,通过置换训练文本,完成交通情感分析模块的初步构建,借此计算各时间段情感极性分布。制作交通舆情热词词云,结合关键词频数折线图等方式,实现舆情热词演变分析;
所述图谱模块:完成公共交通舆情知识图谱的建模与存储,采用自底向上和自上向下相结合的构建方式,基于Neo4j图数据库进行存储,实现舆情知识图谱的构建;其中包括:第一,完成非结构化数据的实体抽取,包括通用命名实体识别和公共交通领域命名实体识别,通用命名实体识别采用基于词典的方法,主要用于识别文本的实体类、时间类、数字类三大类,以及时间、日期、人名、地名、机构名、货币、百分比七小类。公共交通领域命名实体识别采用基于统计模型的方法,采用Inside-Outside-Beginning(IOB)标注体系对训练语料进行标注,参照斯坦福大学的NER完成特征定义,使用隐马尔科夫模型(Hidden MarkovModel,HMM)完成模型训练;第二,采用基于模板和监督学习的方法,实现属性关系抽取,基于模板的方法,在知识图谱数据量较少时起主要作用,其主要预定义实体间相关关系,基于深度学习主要采用CR-CNN模型,依次完成句子中的词到低维空间的映射,特征向量的生成,求向量最大值得到句子的向量表示,计算句子向量和关系向量点积,最终得到实体与每种预定义关系的分值;第三,通过实体链接与知识合并,完成知识融合;实体链接依次通过实体指称识别,主要采用上文阐述的命名实体识别方法;采用启发式模式匹配方法完成表层名字扩展,并结合基于搜索引擎的输出结果生成候选实体;最后,通过基于概率生成模型的方法完成实体消歧;第四,实现本体构建、知识推理与质量评估的知识加工;使用Protégé软件实现本体构建与知识建模,通过设定知识的OWL类、属性、表单、个体和元类标签,完成上下位关系及属性的建立;使用Drools实现知识推理。首先,构建基本模块,其中org.kie.api.KieServices包用于建立模型,包org.kie.api.runtime.KieContainer用于存放数据,org.kie.api.runtime.KieSession是用于进行分析的一个类;其次,初始化Drools,以三元组数据形式分别输入本体数据和实例数据;在进行推理之前,必须制定规则文件进行存储。至此,实现面向部省市三级的“网络舆情—交通事件—交通治理”知识图谱、“事件—职责—部门”知识图谱,以及面向公共交通舆情的“文本—指标”知识图谱的构建;
所述应用模块包括潜水模块,映射模块,打分模块,其中:
潜水模块主要用于获取与分析“潜水”乘客满意度信息;包括信息模块,画像模块,情感模块;
信息模块主要用于爬取三部分内容,首先是相应舆情文本点赞人员列表、评论人员列表,筛选出点赞且并未发表评论的用户,获取该用户主页文本信息,包括性别、昵称、所在地、简介,其次是爬取该类用户较近时期发表的日常微博内容,最后是挖掘该类用户“他的关注”对象以及频繁互动对象基本信息,尤其与目标文本有关联的“他的关注”对象信息,并通过知识图谱查询定位与该类用户有关系的用户群体;
画像模块依次使用上述三类数据,完成用户“冷数据画像”绘制;使用上文所述的自然语言分析方法、情感分析方法计算其普遍情感倾向,完成“温数据画像”绘制;统计分析用户群体情感倾向,将用户群体情感倾向暂定为该类用户情感倾向,完成“热数据画像”绘制;
情感模块,首先,将“温数据画像”和“热数据画像”的情感倾向分别赋予初始权重,计算求得一定概率下初始情感倾向判别结果;其次,根据上一步的判别结果,基于相应情感极性及情感等级,向用户推送同类情感性质的公共交通微博文本,并给出“感兴趣、不感兴趣”选项;此外,在条件允许的情况下,对该类用户发放专用调查问卷,以一定时间段内公共交通乘客满意度事件为题目核心,情感极性及情感等级为选项,明确其情感倾向度;二者结合以修正情感概率及其相关权重数值;最后,多次重复上述操作,找到“潜水”用户情感相似度最高的舆情文本,将此作为该用户一定时间段内情感评价依据,并将其输入乘客满意度分析模型,完成“潜水”乘客满意度分析;
映射模块,主要用于明确舆情文本与满意度指标的对应关系;第一,分类汇总国家部省市三级单位部门名称及其对应职责;第二,通过专家访谈等方式,明确部门职责与乘客满意度评价指标对应关系;第三,将国家标准中乘客满意度一级指标作为主题核心,对获取的舆情数据进行文本分类处理,即实现文本—指标对应分类;第四,采用上文主题分类模型,将舆情文本数据表示为向量形式,并将乘客满意度国标一级指标作为分类核心,通过相似度计算实现舆情文本分类,初步实现舆情文本与评价指标的映射;第五,将公共交通舆情文本按分类后数据分别输入图谱,完成知识图谱的构建,采用基于规则学习的推理AMIE,通过SPARQL在知识图谱上的查询对规则的质量进行评价,最终实现规则的挖掘,并推理出新的三元组,从而进一步加大舆情文本与指标映射的程度;
基于情感分析的满意度指标评分系统包括词典模块,断句模块,程度模块;
词典模块,以公开的中文情感极性词典为基础,辅助补充公共交通行业情感元素,构建公共交通情感词典;首先,在HowNet情感词典基础上,以“不、无、非、没、莫”为初始否定词,以维基百科数据为训练数据源,通过Word2vec对初始否定词进行扩充,选取相似度较高的前150个词语作为待定否定词集,并计算通过人工筛选确定最终否定词集;其次,在通用情感词典基础上,定义seed={快、通畅、便利、舒适}为正面情感词种子,seed={慢、拥堵、车祸、混乱}为负面情感词种子。在《同义词词林》的77343条词语中,寻找种子集的同义词和反义词对种子集进行扩展,形成交通情感扩展词典,两者汇总去重得到最终交通情感分析词典;
断句模块,将舆情中长句转化为短句,供程度模块进行使用;
程度模块,以“极优、优、良、中、差、较差、很差”7级程度打分为例,中性评论直接赋予4分。积极文本归属5,6,7分,消极文本归属1,2,3分,其中根据程度副词分级,对短句文本进行分数评测,为去除文本长度对数值加和的影响,在文本合并后用对其进行归一化处理,即使用各字句加和后数值除以字句个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010639527.4A CN111914096B (zh) | 2020-07-06 | 2020-07-06 | 基于舆情知识图谱的公共交通乘客满意度评价方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010639527.4A CN111914096B (zh) | 2020-07-06 | 2020-07-06 | 基于舆情知识图谱的公共交通乘客满意度评价方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111914096A true CN111914096A (zh) | 2020-11-10 |
CN111914096B CN111914096B (zh) | 2024-02-02 |
Family
ID=73227398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010639527.4A Active CN111914096B (zh) | 2020-07-06 | 2020-07-06 | 基于舆情知识图谱的公共交通乘客满意度评价方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914096B (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112199517A (zh) * | 2020-11-17 | 2021-01-08 | 西安交通大学 | 一种it/ot驱动的技术管理创新方法 |
CN112199518A (zh) * | 2020-11-17 | 2021-01-08 | 西安交通大学 | 生产技术中知识图谱推荐驱动的生产技术路线图配置方法 |
CN112347230A (zh) * | 2020-11-16 | 2021-02-09 | 上海品见智能科技有限公司 | 一种基于Word2Vec的企业舆情数据分析方法 |
CN112559844A (zh) * | 2020-12-17 | 2021-03-26 | 北京邮电大学 | 自然灾害舆情分析方法和装置 |
CN112883278A (zh) * | 2021-03-23 | 2021-06-01 | 西安电子科技大学昆山创新研究院 | 基于智慧社区大数据知识图谱的不良舆论传播抑制方法 |
CN113064989A (zh) * | 2020-11-19 | 2021-07-02 | 龚越 | 一种交通舆情感知特征模块及分析治理应用 |
CN113204624A (zh) * | 2021-06-07 | 2021-08-03 | 吉林大学 | 一种多特征融合的文本情感分析模型及装置 |
CN113609270A (zh) * | 2021-08-10 | 2021-11-05 | 南京西桥科技有限公司 | 一种可标签区分客户的用户行为数据分析系统 |
CN113781769A (zh) * | 2021-08-09 | 2021-12-10 | 浪潮软件股份有限公司 | 一种基于互联网监管领域的交通信号灯控制方法 |
CN113780832A (zh) * | 2021-09-14 | 2021-12-10 | 平安科技(深圳)有限公司 | 舆情文本评分方法、装置、计算机设备和存储介质 |
CN114168730A (zh) * | 2021-11-26 | 2022-03-11 | 一拓通信集团股份有限公司 | 一种基于BiLSTM和SVM的消费倾向分析方法 |
CN114519091A (zh) * | 2022-02-17 | 2022-05-20 | 北京工业大学 | 一种基于购物评论的人格特质分析方法及系统 |
CN114881039A (zh) * | 2022-05-05 | 2022-08-09 | 重庆锐云科技有限公司 | 基于客户评价的车主画像方法、装置、设备和存储介质 |
CN115050187A (zh) * | 2022-08-12 | 2022-09-13 | 杭州城市大脑有限公司 | 一种基于舆情知识图谱的数字城市交通治理方法 |
CN115269931A (zh) * | 2022-09-28 | 2022-11-01 | 深圳技术大学 | 基于业务驱动的轨道交通车站数据图谱系统及其构建方法 |
CN115512529A (zh) * | 2021-06-23 | 2022-12-23 | 中国石油化工股份有限公司 | 承包商问题预警方法、预警装置及预警系统 |
CN115905518A (zh) * | 2022-10-17 | 2023-04-04 | 华南师范大学 | 基于知识图谱的情感分类方法、装置、设备以及存储介质 |
WO2023082698A1 (zh) * | 2021-11-10 | 2023-05-19 | 上海蜜度信息技术有限公司 | 公众满意度的分析方法、存储介质及电子设备 |
CN116341877A (zh) * | 2023-05-19 | 2023-06-27 | 北京华录高诚科技有限公司 | 基于TransGPT的综合交通运行服务系统和方法 |
CN116501895A (zh) * | 2023-06-14 | 2023-07-28 | 四创科技有限公司 | 一种台风时序知识图谱的构建方法及终端 |
CN116737992A (zh) * | 2023-08-15 | 2023-09-12 | 明麦(南京)科技有限公司 | 舆情监测数据处理方法及处理系统 |
CN116776105A (zh) * | 2023-08-22 | 2023-09-19 | 北京大学人民医院 | 创伤数据安全治理系统构建方法、装置和电子设备 |
CN117131152A (zh) * | 2023-10-26 | 2023-11-28 | 海易科技(北京)有限公司 | 信息存储方法、装置、电子设备和计算机可读介质 |
CN117875725A (zh) * | 2024-03-13 | 2024-04-12 | 湖南三湘银行股份有限公司 | 一种基于知识图谱的信息处理系统 |
CN118093865A (zh) * | 2024-01-02 | 2024-05-28 | 厦门中卡科技股份有限公司 | 基于知识图谱的客户画像方法及系统 |
CN118246032A (zh) * | 2024-05-27 | 2024-06-25 | 西安交通大学 | 云erp系统安全评价方法、系统、计算机设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
WO2018036239A1 (zh) * | 2016-08-24 | 2018-03-01 | 慧科讯业有限公司 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统 |
-
2020
- 2020-07-06 CN CN202010639527.4A patent/CN111914096B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
WO2018036239A1 (zh) * | 2016-08-24 | 2018-03-01 | 慧科讯业有限公司 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统 |
Non-Patent Citations (1)
Title |
---|
滕靖;刘韶杰;龚越;王文;: "交通事件网络舆情分析方法", 交通信息与安全, no. 06 * |
Cited By (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347230A (zh) * | 2020-11-16 | 2021-02-09 | 上海品见智能科技有限公司 | 一种基于Word2Vec的企业舆情数据分析方法 |
CN112347230B (zh) * | 2020-11-16 | 2024-04-19 | 上海品见智能科技有限公司 | 一种基于Word2Vec的企业舆情数据分析方法 |
CN112199518A (zh) * | 2020-11-17 | 2021-01-08 | 西安交通大学 | 生产技术中知识图谱推荐驱动的生产技术路线图配置方法 |
CN112199518B (zh) * | 2020-11-17 | 2023-08-15 | 西安交通大学 | 生产技术中知识图谱推荐驱动的生产技术路线图配置方法 |
CN112199517B (zh) * | 2020-11-17 | 2023-07-18 | 西安交通大学 | 一种it/ot驱动的技术管理创新方法 |
CN112199517A (zh) * | 2020-11-17 | 2021-01-08 | 西安交通大学 | 一种it/ot驱动的技术管理创新方法 |
CN113064989B (zh) * | 2020-11-19 | 2022-12-02 | 龚越 | 一种交通舆情感知特征提取方法 |
CN113064989A (zh) * | 2020-11-19 | 2021-07-02 | 龚越 | 一种交通舆情感知特征模块及分析治理应用 |
CN112559844A (zh) * | 2020-12-17 | 2021-03-26 | 北京邮电大学 | 自然灾害舆情分析方法和装置 |
CN112559844B (zh) * | 2020-12-17 | 2021-08-31 | 北京邮电大学 | 自然灾害舆情分析方法和装置 |
CN112883278A (zh) * | 2021-03-23 | 2021-06-01 | 西安电子科技大学昆山创新研究院 | 基于智慧社区大数据知识图谱的不良舆论传播抑制方法 |
CN113204624A (zh) * | 2021-06-07 | 2021-08-03 | 吉林大学 | 一种多特征融合的文本情感分析模型及装置 |
CN115512529A (zh) * | 2021-06-23 | 2022-12-23 | 中国石油化工股份有限公司 | 承包商问题预警方法、预警装置及预警系统 |
CN115512529B (zh) * | 2021-06-23 | 2024-03-05 | 中国石油化工股份有限公司 | 承包商问题预警方法、预警装置及预警系统 |
CN113781769A (zh) * | 2021-08-09 | 2021-12-10 | 浪潮软件股份有限公司 | 一种基于互联网监管领域的交通信号灯控制方法 |
CN113609270A (zh) * | 2021-08-10 | 2021-11-05 | 南京西桥科技有限公司 | 一种可标签区分客户的用户行为数据分析系统 |
CN113780832B (zh) * | 2021-09-14 | 2023-04-25 | 平安科技(深圳)有限公司 | 舆情文本评分方法、装置、计算机设备和存储介质 |
CN113780832A (zh) * | 2021-09-14 | 2021-12-10 | 平安科技(深圳)有限公司 | 舆情文本评分方法、装置、计算机设备和存储介质 |
WO2023082698A1 (zh) * | 2021-11-10 | 2023-05-19 | 上海蜜度信息技术有限公司 | 公众满意度的分析方法、存储介质及电子设备 |
CN114168730A (zh) * | 2021-11-26 | 2022-03-11 | 一拓通信集团股份有限公司 | 一种基于BiLSTM和SVM的消费倾向分析方法 |
CN114519091A (zh) * | 2022-02-17 | 2022-05-20 | 北京工业大学 | 一种基于购物评论的人格特质分析方法及系统 |
CN114519091B (zh) * | 2022-02-17 | 2024-04-30 | 北京工业大学 | 一种基于购物评论的人格特质分析方法及系统 |
CN114881039A (zh) * | 2022-05-05 | 2022-08-09 | 重庆锐云科技有限公司 | 基于客户评价的车主画像方法、装置、设备和存储介质 |
CN115050187B (zh) * | 2022-08-12 | 2022-11-01 | 杭州城市大脑有限公司 | 一种基于舆情知识图谱的数字城市交通治理方法 |
CN115050187A (zh) * | 2022-08-12 | 2022-09-13 | 杭州城市大脑有限公司 | 一种基于舆情知识图谱的数字城市交通治理方法 |
CN115269931B (zh) * | 2022-09-28 | 2022-11-29 | 深圳技术大学 | 基于业务驱动的轨道交通车站数据图谱系统及其构建方法 |
CN115269931A (zh) * | 2022-09-28 | 2022-11-01 | 深圳技术大学 | 基于业务驱动的轨道交通车站数据图谱系统及其构建方法 |
CN115905518A (zh) * | 2022-10-17 | 2023-04-04 | 华南师范大学 | 基于知识图谱的情感分类方法、装置、设备以及存储介质 |
CN115905518B (zh) * | 2022-10-17 | 2023-10-20 | 华南师范大学 | 基于知识图谱的情感分类方法、装置、设备以及存储介质 |
CN116341877A (zh) * | 2023-05-19 | 2023-06-27 | 北京华录高诚科技有限公司 | 基于TransGPT的综合交通运行服务系统和方法 |
CN116501895B (zh) * | 2023-06-14 | 2023-09-01 | 四创科技有限公司 | 一种台风时序知识图谱的构建方法及终端 |
CN116501895A (zh) * | 2023-06-14 | 2023-07-28 | 四创科技有限公司 | 一种台风时序知识图谱的构建方法及终端 |
CN116737992B (zh) * | 2023-08-15 | 2023-10-13 | 明麦(南京)科技有限公司 | 舆情监测数据处理方法及处理系统 |
CN116737992A (zh) * | 2023-08-15 | 2023-09-12 | 明麦(南京)科技有限公司 | 舆情监测数据处理方法及处理系统 |
CN116776105A (zh) * | 2023-08-22 | 2023-09-19 | 北京大学人民医院 | 创伤数据安全治理系统构建方法、装置和电子设备 |
CN117131152A (zh) * | 2023-10-26 | 2023-11-28 | 海易科技(北京)有限公司 | 信息存储方法、装置、电子设备和计算机可读介质 |
CN117131152B (zh) * | 2023-10-26 | 2024-02-02 | 海易科技(北京)有限公司 | 信息存储方法、装置、电子设备和计算机可读介质 |
CN118093865A (zh) * | 2024-01-02 | 2024-05-28 | 厦门中卡科技股份有限公司 | 基于知识图谱的客户画像方法及系统 |
CN118093865B (zh) * | 2024-01-02 | 2024-09-06 | 厦门中卡科技股份有限公司 | 基于知识图谱的客户画像方法及系统 |
CN117875725A (zh) * | 2024-03-13 | 2024-04-12 | 湖南三湘银行股份有限公司 | 一种基于知识图谱的信息处理系统 |
CN118246032A (zh) * | 2024-05-27 | 2024-06-25 | 西安交通大学 | 云erp系统安全评价方法、系统、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111914096B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111914096B (zh) | 基于舆情知识图谱的公共交通乘客满意度评价方法及系统 | |
CN111737495B (zh) | 基于领域自分类的中高端人才智能推荐系统及其方法 | |
Alaparthi et al. | Bidirectional Encoder Representations from Transformers (BERT): A sentiment analysis odyssey | |
CN104636425B (zh) | 一种网络个体或群体情绪认知能力预测与可视化方法 | |
CN111797898B (zh) | 一种基于深度语义匹配的在线评论自动回复方法 | |
CN107688870B (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
CN110457480A (zh) | 基于交互式注意力机制的细粒度情感分类模型的构建方法 | |
CN102831184A (zh) | 根据对社会事件的文字描述来预测社会情感的方法及系统 | |
CN110442728A (zh) | 基于word2vec汽车产品领域的情感词典构建方法 | |
CN111666496B (zh) | 一种基于评论文本的组推荐方法 | |
Lavanya et al. | Twitter sentiment analysis using multi-class SVM | |
CN108090231A (zh) | 一种基于信息熵的主题模型优化方法 | |
CN112069320B (zh) | 一种基于跨度的细粒度情感分析方法 | |
CN112182145A (zh) | 文本相似度确定方法、装置、设备和存储介质 | |
LU506520B1 (en) | A sentiment analysis method based on multimodal review data | |
Mozafari et al. | Emotion detection by using similarity techniques | |
Tang et al. | Evaluation of Chinese sentiment analysis APIs based on online reviews | |
Zhang et al. | A hybrid neural network approach for fine-grained emotion classification and computing | |
Wang et al. | A Deep‐Learning‐Inspired Person‐Job Matching Model Based on Sentence Vectors and Subject‐Term Graphs | |
Sasikala et al. | Transfer learning based recurrent neural network algorithm for linguistic analysis | |
Nguyen et al. | Analyzing customer experience in hotel services using topic modeling | |
Dai et al. | Research on image of enterprise after-sales service based on text sentiment analysis | |
CN114443846A (zh) | 一种基于多层级文本异构图的分类方法、装置及电子设备 | |
CN114595693A (zh) | 一种基于深度学习的文本情感分析方法 | |
CN115906824A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |