CN115860436A - 一种基于知识图谱的城市热线派单方法及系统 - Google Patents
一种基于知识图谱的城市热线派单方法及系统 Download PDFInfo
- Publication number
- CN115860436A CN115860436A CN202310138719.0A CN202310138719A CN115860436A CN 115860436 A CN115860436 A CN 115860436A CN 202310138719 A CN202310138719 A CN 202310138719A CN 115860436 A CN115860436 A CN 115860436A
- Authority
- CN
- China
- Prior art keywords
- city
- hot line
- entity
- data
- line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于知识图谱的城市热线派单方法及系统,涉及语言处理技术领域。包括步骤:获得城市热线数据,对城市热线数据进行预处理,形成热线数据集;对预处理后的热线数据集使用企业建模法构建城市热线本体;根据城市热线本体,对热线数据集使用语言技术平台进行实体与属性关系抽取,抽取出的实体与属性关系以三元组的形式进行存储;将存储的三元组导入到数据库中,完成城市热线知识图谱的构建;对待派单的城市热线事件根据城市热线知识图谱的实体特征进行检索,根据检索结果进行派单。本发明的城市热线派单方法减少了热线派单过程中的人工经验依赖,提高了派单的准确率和效率,具有广阔的应用前景。
Description
技术领域
本发明涉及语言处理技术领域,尤其涉及一种基于知识图谱的城市热线派单方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着城市的高速发展,市民越来越习惯于拨打政务服务便民热线寻求帮助和提出一些自己的建议。但随着热线数据量的巨增,如何快速筛选和处理这些热线成为了目前政务服务便民热线的一个迫切需求。
自然语言处理和大数据分析技术目前来说相对成熟,大数据分析是对大量数据进行快速的筛选,选择出需要的目标数据,完成对数据快速地分类处理。自然语言处理可以对文本数据进行快速处理,同时可以通过存入图数据库,以知识图谱的形式展示,做到数据的可视化。
然而发明人发现,现有的热线数据处理过程中还是依赖于人工派单的方式,无法将大数据分析和自然语言处理技术融合应用到热线数据的分类和派单中。另外,热线数据不仅数量巨大而且内容繁杂,对于许多无效和重复的热线数据不能进行有效的筛选,造成了热线数据处理时计算量大、耗时长、准确率低的现象,因此,如何对热线数据进行快速筛选和准确分类以实现城市热线的智能派单成为现有技术亟待解决的技术问题。
发明内容
针对现有技术存在的不足,本发明的目的是提供一种基于知识图谱的城市热线派单方法及系统,对热线内容进行数据处理和文本分析,结合知识图谱实现高效准确的城市热线派单。
为了实现上述目的,本发明是通过如下的技术方案来实现:
本发明第一方面提供了一种基于知识图谱的城市热线派单方法,包括以下步骤:
获得城市热线数据,对城市热线数据进行预处理,形成热线数据集;
对预处理后的热线数据集使用企业建模法构建城市热线本体;
根据城市热线本体,对热线数据集使用语言技术平台进行实体与属性关系抽取,抽取出的实体与属性关系以三元组的形式进行存储;
将存储的三元组导入到数据库中,完成城市热线知识图谱的构建;
对待派单的城市热线事件根据城市热线知识图谱的实体特征进行检索,根据检索结果进行派单。
进一步的,对城市热线数据进行预处理步骤包括:通过对重要的实体类进行查询确定重复数据,将重复数据进行删除操作;通过对在图数据库中实体类无法与属性类进行关系构建的派单进行查询确定有误数据,对有误数据进行清洗操作。
更进一步的,对有误数据进行清洗操作的具体步骤为:根据所有变量选择方法和数据预处理方式得到若干种组合清洗方式,将各种组合清洗方式基于有误数据采用不同的拟合模型进行拟合对比,选取拟合对比效果最高的组合清洗方式对有误数据进行清洗操作。
更进一步的,变量选择方法包括:方差分析法、卡方检验法、互信息法或Copula熵法。
更进一步的,数据预处理方式包括定量变量处理和定性变量处理,定量变量处理包括:不处理、正态化、标准化、归一化、先正态化后归一化、先标准化后归一化、先归一化后标准化、先正态化再标准化后归一化和先正态化再归一化后标准化;定性变量处理包括不引入哑变量或引入哑变量。
进一步的,对预处理后的热线数据集使用企业建模法构建城市热线本体的具体步骤为:
根据热线数据集的热线内容得到激励情节分类;
根据激励情节分类对热线内容中的形式化问题进行规范化表达,形成包含实体类和属性类的形式化能力问题;
将表达后的形式化能力问题进行规则描述;
根据事件关系串联实体类和属性类,形成能力问题解决方案;
调整能力问题解决方案的条件,从而获得最终的城市热线本体。
进一步的,实体与属性关系包括两种:
实体,实体-实体关系,实体;
实体,实体-属性关系,属性。
进一步的,对待派单的城市热线事件根据城市热线知识图谱的实体特征进行检索的具体步骤为:首先对待派单的城市热线事件中的热线事件发生地址在城市热线知识图谱中进行检索,获取对应地区所负责的部门;接着对待派单的城市热线事件中的热线内容进行检索,获取地区所负责对应热线类型的部门;最后将待派单的城市热线事件派单给检索到的部门。
更进一步的,对待派单的城市热线事件根据城市热线知识图谱的实体特征进行检索,若检索不到相同案例则立刻对城市热线知识图谱进行更新和补全。
本发明第二方面提供了一种基于知识图谱的城市热线派单系统,包括:
预处理模块,被配置为获得城市热线数据,对城市热线数据进行预处理,形成热线数据集;
城市热线本体构建模块,被配置为对预处理后的热线数据集使用企业建模法构建城市热线本体;
实体与属性关系抽取模块,被配置为根据城市热线本体,对热线数据集使用语言技术平台进行实体与属性关系抽取,抽取出的实体与属性关系以三元组的形式进行存储;
知识图谱模块,被配置为将存储的三元组导入到数据库中,完成城市热线知识图谱的构建;
派单模块,被配置为对待派单的城市热线事件根据城市热线知识图谱的实体特征进行检索,根据检索结果进行派单。
以上一个或多个技术方案存在以下有益效果:
本发明公开了一种基于知识图谱的城市热线派单方法,对城市热线数据进行了合理的筛选和提取,利用企业建模法构建了城市热线本体,结合语言技术平台实现实体与属性关系抽取,从而构建了城市热线知识图谱。对于待派单的城市热线事件提供了检索的依据和分类方向,减少了热线派单过程中的人工经验依赖,提高了派单的准确率和效率,从而节省了人力资源,降低了用人成本,具有广阔的应用前景。
本发明构建的城市热线知识图谱在检索过程中发现新的城市热线事件时,会根据没有检索到的城市热线事件对城市热线知识图谱进行更新和补全,保证知识图谱内容的实时性和准确性。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例一中基于知识图谱的城市热线派单方法流程图;
图2为本发明实施例一中数据预处理方式框架图;
图3为本发明实施例一中企业建模法的流程图;
图4为本发明实施例一中语言技术平台实体与属性关系抽取流程图;
图5为本发明实施例一中城市热线知识图谱更新和补全的流程图;
图6为本发明实施例一中DMAL方法流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
术语解释:
TOVE:企业建模法,TOVE为Toronto VirtualEnterprise的缩写。TOVE是一种手动构建城市热线本体的方法,先建立城市热线本体的非形式化描述说明,然后将这种描述形式化。该方法依据于实例对热线数据进行城市热线本体的构建,构建完成的城市热线本体相较于其他的城市热线本体构建方法更加的切合实际,对后续的知识抽取提供了抽取的边界和对象。
LTP:语言技术平台, LTP为LanguageTechnology Platform的缩写。LTP是一整套中文语言处理系统,提供了一系列中文自然语言处理工具,可以使用这些工具对热线数据进行快速的知识抽取并以三元组的形式进行存储,大大降低了知识图谱的构建成本和提高了后期知识图谱的更新和补全的效率。
Neo4j图数据库:Neo4j是一个高性能的NoSQL图形数据库,它支持复杂关系的查询任务,同时可以通过对实体节点查询得到其他相关的信息,从而对热线事件进行准确快速地派单处理。
Copula熵:Copula函数描述的是变量间的相关性,实际上是一类将联合分布函数与它们各自的边缘分布函数连接在一起的函数,因此也将它称为连接函数。Copula是拉丁语,原意是“连接”。Copula函数被认为是包含了随机变量之间所有相关性的信息,则Copula熵作为相关性的随机性的度量,就等于给出了随机变量之间所有阶次相关性的信息量。
DMAL:多标签节点为主的动态多元属性标签方法,DMAL为Dynamic MutivariateAttributelabeling的缩写。
LINE:大规模网络嵌入方法, LINE为Large-scale InformationNetworkEmbedding的缩写。
BERT:双向编码器模型,BERT是Bidirectional Encoder RepresentationsfromTransformer的缩写。
实施例一:
本发明实施例一提供了一种基于知识图谱的城市热线派单方法,如图1所示,包括以下步骤:
步骤1:获得城市热线数据,对城市热线数据进行预处理,形成热线数据集。
步骤2:对预处理后的热线数据集使用TOVE构建城市热线本体。
步骤3:根据城市热线本体,对热线数据集进行实体与属性关系抽取,抽取出的实体与属性关系以三元组的形式进行存储。
步骤4:将存储的三元组导入到数据库中,完成城市热线知识图谱的构建。
步骤5:对城市热线知识图谱进行实时的更新和补全。
步骤6:对待派单的城市热线事件根据城市热线知识图谱的实体特征进行检索,根据检索结果进行派单。具体的,依据热线发生地址和热线内容派送给相关的部门。
步骤1中,对城市热线数据进行预处理,形成数量充足且内容正确的热线数据集,步骤包括:将热线数据中的数据重复、派单有误数据或无效数据进行清洗操作。
将热线数据中的数据重复、派单有误数据或无效数据进行清洗操作具体为:先根据变量选择方法确定变量,再根据确定的变量选择数据预处理方式,采用选择的数据预处理方式对热线数据中的数据重复和派单有误数据(无效数据)进行处理以实现数据清洗,如图2所示:
变量选择方法包括:方差分析法、卡方检验法、互信息法或Copula熵法。
数据预处理方式包括定量变量处理和定性变量处理,定量变量处理包括:不处理、正态化、标准化、归一化、先正态化后归一化、先标准化后归一化、先归一化后标准化、先正态化再标准化后归一化和先正态化再归一化后标准化;定性变量处理包括不引入哑变量或引入哑变量。
本实施例中,城市热线本体包括实体类、属性类和事件关系。城市热线本体构建完成后就确定了城市热线数据中的实体、属性及事件关系。城市热线本体的实体类和属性类,根据现有热线数据的实体与属性定义规则获得,通过在Excel表中对重要的实体类进行查询确定重复数据,将重复数据进行删除操作;通过对在图数据库中实体类无法与属性类进行关系构建的派单进行查询确定有误数据,或者称为无效数据,即数据中存在实体类和属性类不匹配或者存在只有实体类而无属性类。
由于本实施例中的城市热线数据既包含定量变量又包含定性变量,因此在对有误数据进行清洗操作时,根据所有变量选择方法和数据预处理方式得到若干种组合清洗方式,将各种组合清洗方式基于有误数据采用不同的拟合模型进行拟合对比,选取拟合对比效果最高的组合清洗方式对有误数据进行清洗操作。
更为具体的,为尽可能提升模型拟合效果,在前期对定量变量分别经过不处理、正态化、标准化、归一化、先正态化后标准化(简记“正标”)、先正态化后归一化(简记“正归”)、先标准化后归一化(简记“标归”)、先归一化后标准化(简记“归标”)、先正态化再标准化后归一化(简记“正标归”)、先正态化再归一化后标准化(简记“正归标”)处理后,再对定性变量进行是否引入哑变量的处理,这样得到20种处理方式,考虑正态化中Box-cox变换需要的变量均为正数,故将正态化处理放在标准化与归一化前。完成数据预处理后,对数据采用逻辑回归、决策树、随机森林、支持向量机、朴素贝叶斯、K近邻、神经网络7种经典模型拟合,将训练好的模型在测试集上做预测,对比准确率、精确率、召回率、F-score、真阳率、假阳率、AUC7个指标,找出表现最优的模型。根据7个指标选择模型拟合最优的处理方式,指标均相同时,选取最简单处理方式。拟合逻辑回归模型时,仅正态化处理;拟合决策树模型时,正态化、先正态化再标准化后归一化、先正态化再归一化后标准化处理拟合模型效果最好,但仅正态化处理最为简单;拟合随机森林模型时,选取先归一化再标准化处理;拟合支持向量机模型时,归一化处理并引入哑变量、先标准化再归一化并引入哑变量处理拟合模型7种指标均相同,简便起见,选取归一化且引入哑变量处理;拟合朴素贝叶斯模型时,不处理、标准化、归一化、先标准化再归一化、先归一化再标准化5种处理方式拟合模型7种指标均相同,简便起见,选取不处理变量;拟合K近邻模型时,选取先正态化再归一化处理;拟合神经网络模型时,仅归一化处理。
根据改变变量处理方式可知,逻辑回归拟合效果最好;朴素贝叶斯、K近邻和神经网络拟合效果相似;支持向量机和随机森林拟合效果略差一点;决策树拟合效果较不理想,所以采用变量选择且正态化处理重新拟合。
最终,根据数据结果对比显示本实施例选择准确率最高的选择先正态化再标准化后归一化且引入哑变量处理的组合清洗方式,变量选择方法采用Copula熵选择法。
步骤2中,如图3所示,TOVE的具体步骤为:设计动机得到非形式化的能力问题,在进行术语的形式化,再形式化能力问题,形成形式化公理,根据形式化公理得到完全理论。并对形式化公理进行调整,完善形式化的能力问题,城市热线服务中心将上述方面存在的问题上报给相关的部门,相关部门根据调查落实措施并回复给市民。
而在本实施例中,对预处理后的热线数据集使用TOVE构建城市热线本体的具体步骤为:
根据热线数据集的热线内容得到激励情节分类;
根据激励情节分类对热线内容中的形式化问题进行规范化表达,形成包含实体类和属性类的形式化能力问题;
将表达后的形式化能力问题进行规则描述;
根据事件关系串联实体类和属性类,形成能力问题解决方案;
调整能力问题解决方案的条件,从而获得最终的城市热线本体。
其中,获取热线数据集的激励情节;激励情节是热线数据集中的热线数据描述的情节进行分类后得到的结果,本实施例中,激励情节为城市热线服务中心收到市民的举报和意见反映,可分为交通设施、交通秩序、机动车和驾驶员管理、公交运营、出租管理、营运车辆管理、物流管理、铁路运输、港航和公路路政等类别。
将热线数据分类后,需要通过对案例分析和提出一些规范性的问题来确定不同类别数据中的实体类和属性类,并因此了解事件关系。因此将激励情节中形式化能力问题根据术语的规范化进行表达。其中,形式化能力问题为根据现有数据总结而来的带有实体类和属性类的常规问题。为了方便获取事件关系,将表达后的形式化能力问题进行规则描述。
基于对现有数据的总结,得到本实施例中能力问题的规则化描述包括:截止到时间t,城市c中的交通运输的意见反映案例有多少、在时间段t期间,城市c的交通运输中的交通设施、交通秩序、机动车和驾驶员管理、出租管理、营运车辆管理、物流管理、铁路管理、港航和公路路政中哪一项接到的意见反映热线最多、在时间段t期间,市民p反映了城市c的交通运输中存在哪些问题、在时间t,城市c受理了市民p关于出租车绕路问题的处理结果是什么等一系列能够体现城市热线服务中心功能的问题。上述市民p为实体,时间t、城市c、时间段/>为相关属性。本实施例中,经过对大量城市热线数据模型的搭建,确定了城市热线本体中的重要数据:城市热线本体中最重要的实体类为反映人员和处理单位;属性包括时间属性、位置属性和事件属性。
将规则描述形式化为公理,形成能力问题解决方案;其中,将规则描述形式化为公理为:根据事件关系提取规则化描述中的实体类和属性类,其中,根据图数据库中实体类和属性类之间的匹配关系形成事件关系,或者根据历史数据经验或资料查询等确定事件关系,事件关系仅用于保证实体类与属性类提取的全面性,保证构建完整的城市热线本体,为后续实体与属性关系的提取提供依据。根据能力问题的规则化描述可以获得包含实体类和属性类的能力问题解决方案,即城市热线本体。调整能力问题解决方案的条件,从而获得最终的城市热线本体。
本实施例中采用上述的城市热线本体构建步骤和城市热线本体构建工具protégé来完成对城市热线本体的构建工作。
以能力问题“在时间段t期间,市民p反映了城市c的交通运输中存在哪些问题”为例。获得热线数据“高先生在2022年12月30日下午15:30,拨打交通热线反应济南历下区经十路段有长达500米的道路拥堵。历下区交通大队对此进行回应在16:00已完成道路疏通。”
以上述示例为例讲述,激励情节为通过对大量热线数据进行分类,对数据进行分类,上述数据被分为交通秩序类。进而形成能力问题:“在2022年12月30日下午15:30,市民高先生.反映了历下区经十路段的交通拥堵问题”然后在能力问题中就给出了相关的实体类和属性类,根据具体的数据集和能力问题就可以得出其中的实体类为反映人员:高先生,处理单位:历下区交通大队;时间属性:2022年12月30日下午15:30,位置属性:济南历下区经十路段;事件属性:有长达500米的道路拥堵。之后将实体类和属性类根据已知的事件关系进行串联形成能力问题解决方案,即为城市热线本体。
步骤3和步骤4中,根据城市热线本体,对热线数据集进行实体与属性关系抽取得具体过程为:根据城市热线本体确定城市热线知识抽取的边界,然后使用LTP对热线数据集中的热线事件发生地址和热线事件内容的实体与属性关系进行抽取。城市热线本体构建完成后就确定了城市热线数据中的实体类、属性类及事件关系,针对其中重要的数据进行标注,确保后续城市抽取的准确性,因此为城市热线知识抽取确定了抽取的边界。其中边界就是热线数据中的实体、属性及事件关系。实体与属性关系包括【实体,实体-实体关系,实体】以及【实体,实体-属性关系,属性】两种。根据城市热线本体中数据的标注和现有规则中的数据标签,得到实体与属性关系中,实体-实体关系与实体-属性关系的提取原则。
更具体的步骤如图4所示,对城市热线本体中重要的数据进行标注的具体步骤为:根据城市热线本体定义三元组词典表并构建同义词表;利用LTP工具根据同义词表生成训练数据集和测试数据集;筛选出具有热线事件发生地址和热线事件内容描述的数据分为训练数据集和测试数据集两部分。根据训练数据训练网络模型;本实施例中训练的网络模型为BERT,通过训练后的模型可以对城市热线数据中的实体与属性关系进行准确的标注和识别,避免了标注错误,减少人工的参与。通过训练好的网络模型对测试数据集进行预测实现实体与属性关系抽取;对预测结果进行优化得到三元组。上述的实体与属性关系抽取步骤结束后,将存储的三元组导入到Neo4j图数据库中,完成了城市热线知识图谱的构建。
步骤5中,完成城市热线知识图谱的构建后,需要对城市热线知识图谱进行实时的更新和补全,热线事件存在问题的多样性和重复率低的问题,需要实时地将新的热线案件导入到城市热线知识图谱中。因此对待派单的城市热线事件根据城市热线知识图谱的实体特征进行检索时,若检索不到相同案例则立刻对城市热线知识图谱进行更新和补全。
其中,对城市热线知识图谱进行更新和补全步骤如图5所示:对更新的数据进行数据预处理;通过命名实体属性对齐和填充方法将更新的数据整理成与已有知识图谱一致的模式;利用LINE方法命名实体和实体与属性关系,从而构建模式层;利用DMAL方法处理重复节点,保留更新节点的标签信息,从而构建实例层。通过上述步骤完成城市热线知识图谱的更新和补全。
其中,数据预处理和模式层构建后获得动态更新知识图谱的基本框架,接下来为框架添加实例和标签。本发明使用DMAL方法将所需更新节点分为3种情况,第1种情况是更新节点和已有节点信息完全不一致;第2种情况是更新节点和已有节点内容、标签等信息均一致;第3种情况是更新节点和已有节点内容一致但标签不一致。DMAL方法具体步骤如图6所示,输入更新节点和标签信息,在知识图谱中匹配标签和节点信息,若匹配成功则删除更新信息,否则进行是否匹配到节点信息的判断,若是则更新节点属性标签,否则更新节点。
步骤6中:对待派单的城市热线事件根据城市热线知识图谱的实体特征进行检索的具体步骤为:首先对待派单的城市热线事件中的热线事件发生地址在城市热线知识图谱中进行检索,获取对应地区所负责的部门;接着对待派单的城市热线事件中的热线内容进行检索,获取地区所负责对应热线类型的部门;最后将待派单的城市热线事件派单给检索到的部门。
综上,本发明提供了一种基于城市热线知识图谱的热线智能派单方法,通过对大量的热线派单案件进行存储和训练,得到智能派单的检索器和分类器;当有新的热线案例时,先在城市热线知识图谱中进行检索,若不存在案例中的情况,则对案例进行更新和补全;若在城市热线知识图谱中检索到了,则迅速对热线案例进行派单,派送给相关的部门进行处理。通过知识图谱的方式来辅助派单,能够减少热线派单过程的人工经验依赖,提高派单的准确率和效率。即使接触业务不久的新人,经过简单的培训,随着知识图谱的不断更新和补全可以在达到90%以上的派单准确率。
实施例二:
本发明实施例二提供了一种基于知识图谱的城市热线派单系统,包括:
预处理模块,被配置为获得城市热线数据,对城市热线数据进行预处理,形成热线数据集;
城市热线本体构建模块,被配置为对预处理后的热线数据集使用企业建模法构建城市热线本体;
实体与属性关系抽取模块,被配置为根据城市热线本体,对热线数据集使用语言技术平台进行实体与属性关系抽取,抽取出的实体与属性关系以三元组的形式进行存储;
知识图谱模块,被配置为将存储的三元组导入到数据库中,完成城市热线知识图谱的构建;
派单模块,被配置为对待派单的城市热线事件根据城市热线知识图谱的实体特征进行检索,根据检索结果进行派单。
以上实施例二中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种基于知识图谱的城市热线派单方法,其特征在于,包括以下步骤:
获得城市热线数据,对城市热线数据进行预处理,形成热线数据集;
对预处理后的热线数据集使用企业建模法构建城市热线本体;
根据城市热线本体,对热线数据集使用语言技术平台进行实体与属性关系抽取,抽取出的实体与属性关系以三元组的形式进行存储;
将存储的三元组导入到数据库中,完成城市热线知识图谱的构建;
对待派单的城市热线事件根据城市热线知识图谱的实体特征进行检索,根据检索结果进行派单。
2.如权利要求1所述的基于知识图谱的城市热线派单方法,其特征在于,对城市热线数据进行预处理步骤包括:通过对重要的实体类进行查询确定重复数据,将重复数据进行删除操作;通过对在图数据库中实体类无法与属性类进行关系构建的派单进行查询确定有误数据,对有误数据进行清洗操作。
3.如权利要求2所述的基于知识图谱的城市热线派单方法,其特征在于,对有误数据进行清洗操作的具体步骤为:根据所有变量选择方法和数据预处理方式得到若干种组合清洗方式,将各种组合清洗方式基于有误数据采用不同的拟合模型进行拟合对比,选取拟合对比效果最高的组合清洗方式对有误数据进行清洗操作。
4.如权利要求3所述的基于知识图谱的城市热线派单方法,其特征在于,变量选择方法包括:方差分析法、卡方检验法、互信息法或Copula熵法。
5.如权利要求4所述的基于知识图谱的城市热线派单方法,其特征在于,数据预处理方式包括定量变量处理和定性变量处理,定量变量处理包括:不处理、正态化、标准化、归一化、先正态化后归一化、先标准化后归一化、先归一化后标准化、先正态化再标准化后归一化和先正态化再归一化后标准化;定性变量处理包括不引入哑变量或引入哑变量。
6.如权利要求1所述的基于知识图谱的城市热线派单方法,其特征在于,对预处理后的热线数据集使用企业建模法构建城市热线本体的具体步骤为:
根据热线数据集的热线内容得到激励情节分类;
根据激励情节分类对热线内容中的形式化问题进行规范化表达,形成包含实体类和属性类的形式化能力问题;
将表达后的形式化能力问题进行规则描述;
根据事件关系串联实体类和属性类,形成能力问题解决方案;
调整能力问题解决方案的条件,从而获得最终的城市热线本体。
7.如权利要求1所述的基于知识图谱的城市热线派单方法,其特征在于,实体与属性关系包括两种:
实体,实体-实体关系,实体;
实体,实体-属性关系,属性。
8.如权利要求1所述的基于知识图谱的城市热线派单方法,其特征在于,对待派单的城市热线事件根据城市热线知识图谱的实体特征进行检索的具体步骤为:首先对待派单的城市热线事件中的热线事件发生地址在城市热线知识图谱中进行检索,获取对应地区所负责的部门;接着对待派单的城市热线事件中的热线内容进行检索,获取地区所负责对应热线类型的部门;最后将待派单的城市热线事件派单给检索到的部门。
9.如权利要求8所述的基于知识图谱的城市热线派单方法,其特征在于,对待派单的城市热线事件根据城市热线知识图谱的实体特征进行检索,若检索不到相同案例则立刻对城市热线知识图谱进行更新和补全。
10.一种基于知识图谱的城市热线派单系统,其特征在于,包括:
预处理模块,被配置为获得城市热线数据,对城市热线数据进行预处理,形成热线数据集;
城市热线本体构建模块,被配置为对预处理后的热线数据集使用企业建模法构建城市热线本体;
实体与属性关系抽取模块,被配置为根据城市热线本体,对热线数据集使用语言技术平台进行实体与属性关系抽取,抽取出的实体与属性关系以三元组的形式进行存储;
知识图谱模块,被配置为将存储的三元组导入到数据库中,完成城市热线知识图谱的构建;
派单模块,被配置为对待派单的城市热线事件根据城市热线知识图谱的实体特征进行检索,根据检索结果进行派单。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310138719.0A CN115860436B (zh) | 2023-02-21 | 2023-02-21 | 一种基于知识图谱的城市热线派单方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310138719.0A CN115860436B (zh) | 2023-02-21 | 2023-02-21 | 一种基于知识图谱的城市热线派单方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115860436A true CN115860436A (zh) | 2023-03-28 |
CN115860436B CN115860436B (zh) | 2023-05-26 |
Family
ID=85658461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310138719.0A Active CN115860436B (zh) | 2023-02-21 | 2023-02-21 | 一种基于知识图谱的城市热线派单方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115860436B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117313748A (zh) * | 2023-11-24 | 2023-12-29 | 中电科大数据研究院有限公司 | 面向政务问答的多特征融合语义理解方法及装置 |
CN117829494A (zh) * | 2023-12-27 | 2024-04-05 | 合肥工业大学 | 基于领域知识图谱的服务热线工单智能识别分发平台 |
CN118175223A (zh) * | 2024-04-08 | 2024-06-11 | 齐鲁工业大学(山东省科学院) | 基于机器可读模型的数据采集协议适配分析方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105378721A (zh) * | 2013-03-15 | 2016-03-02 | 比乌拉工厂有限公司 | 知识捕获和发现系统 |
US20190311003A1 (en) * | 2015-03-19 | 2019-10-10 | Semantic Technologies Pty Ltd | Semantic knowledge base |
US20210192142A1 (en) * | 2020-01-15 | 2021-06-24 | Beijing Baidu Netcom Science Technology Co., Ltd. | Multimodal content processing method, apparatus, device and storage medium |
CN113420059A (zh) * | 2021-08-23 | 2021-09-21 | 中关村科学城城市大脑股份有限公司 | 一种市民热线问题主动治理方法和装置 |
CN113505586A (zh) * | 2021-06-07 | 2021-10-15 | 中电鸿信信息科技有限公司 | 一种融合语义分类与知识图谱的坐席辅助问答方法与系统 |
CN114297516A (zh) * | 2021-06-18 | 2022-04-08 | 北京大学 | 一种基于知识图谱的事件发现与展现方法及系统 |
CN115204393A (zh) * | 2022-06-30 | 2022-10-18 | 清华大学 | 一种基于知识图谱的智慧城市知识本体库构建方法和装置 |
CN115470867A (zh) * | 2022-10-17 | 2022-12-13 | 云南电网有限责任公司信息中心 | 基于知识图谱的坐席匹配方法、装置、设备及存储介质 |
CN115544106A (zh) * | 2022-12-01 | 2022-12-30 | 云南电网有限责任公司信息中心 | 呼叫中心平台的内部事件检索方法、系统及计算机设备 |
-
2023
- 2023-02-21 CN CN202310138719.0A patent/CN115860436B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105378721A (zh) * | 2013-03-15 | 2016-03-02 | 比乌拉工厂有限公司 | 知识捕获和发现系统 |
US20190311003A1 (en) * | 2015-03-19 | 2019-10-10 | Semantic Technologies Pty Ltd | Semantic knowledge base |
US20210192142A1 (en) * | 2020-01-15 | 2021-06-24 | Beijing Baidu Netcom Science Technology Co., Ltd. | Multimodal content processing method, apparatus, device and storage medium |
CN113505586A (zh) * | 2021-06-07 | 2021-10-15 | 中电鸿信信息科技有限公司 | 一种融合语义分类与知识图谱的坐席辅助问答方法与系统 |
CN114297516A (zh) * | 2021-06-18 | 2022-04-08 | 北京大学 | 一种基于知识图谱的事件发现与展现方法及系统 |
CN113420059A (zh) * | 2021-08-23 | 2021-09-21 | 中关村科学城城市大脑股份有限公司 | 一种市民热线问题主动治理方法和装置 |
CN115204393A (zh) * | 2022-06-30 | 2022-10-18 | 清华大学 | 一种基于知识图谱的智慧城市知识本体库构建方法和装置 |
CN115470867A (zh) * | 2022-10-17 | 2022-12-13 | 云南电网有限责任公司信息中心 | 基于知识图谱的坐席匹配方法、装置、设备及存储介质 |
CN115544106A (zh) * | 2022-12-01 | 2022-12-30 | 云南电网有限责任公司信息中心 | 呼叫中心平台的内部事件检索方法、系统及计算机设备 |
Non-Patent Citations (3)
Title |
---|
XIANGNA LI 等: "Research and Development of ICT Call Center Data Auxiliary Analysis System Based on Knowledge Discovery", 《2020 IEEE 20TH INTERNATIONAL CONFERENCE ON SOFTWARE QUALITY, RELIABILITY AND SECURITY COMPANION (QRS-C)》》 * |
中央民族大学出版社 * |
黄小慧: "基于本体的网络问政知识管理机制研究", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117313748A (zh) * | 2023-11-24 | 2023-12-29 | 中电科大数据研究院有限公司 | 面向政务问答的多特征融合语义理解方法及装置 |
CN117313748B (zh) * | 2023-11-24 | 2024-03-12 | 中电科大数据研究院有限公司 | 面向政务问答的多特征融合语义理解方法及装置 |
CN117829494A (zh) * | 2023-12-27 | 2024-04-05 | 合肥工业大学 | 基于领域知识图谱的服务热线工单智能识别分发平台 |
CN118175223A (zh) * | 2024-04-08 | 2024-06-11 | 齐鲁工业大学(山东省科学院) | 基于机器可读模型的数据采集协议适配分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115860436B (zh) | 2023-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115860436B (zh) | 一种基于知识图谱的城市热线派单方法及系统 | |
Brockett et al. | Using rank statistics for determining programmatic efficiency differences in data envelopment analysis | |
CN111737400B (zh) | 一种基于知识推理的大数据业务标签的扩展方法及系统 | |
Tong et al. | A linear road object matching method for conflation based on optimization and logistic regression | |
US20190095507A1 (en) | Systems and methods for autonomous data analysis | |
CN106651247A (zh) | 基于gis拓扑分析的地址匹配区域块方法和系统 | |
CN108345596A (zh) | 楼宇信息融合服务平台 | |
CN110750654A (zh) | 知识图谱获取方法、装置、设备和介质 | |
CN111125343A (zh) | 适用于人岗匹配推荐系统的文本解析方法及装置 | |
CN111414491A (zh) | 一种电网行业知识图谱构建方法和装置以及设备 | |
CN114723528A (zh) | 基于知识图谱的商品个性化推荐方法及系统 | |
CN110515986B (zh) | 一种社交网络图的处理方法、装置及存储介质 | |
JPH10240799A (ja) | 新規出店評価支援装置 | |
CN110929134A (zh) | 投融资数据管理方法、装置、计算机设备及存储介质 | |
CN113254630A (zh) | 一种面向全球综合观测成果的领域知识图谱推荐方法 | |
Athanasiou et al. | Big POI data integration with Linked Data technologies. | |
Alsudais | Quantifying the offline interactions between hosts and guests of Airbnb | |
CN112836020A (zh) | 房源信息的查询方法、装置、设备以及计算机存储介质 | |
CN113204329A (zh) | 统一数据模型驱动业务应用的控制方法及其应用系统 | |
WO2022068659A1 (zh) | 信息的推送方法、装置和存储介质 | |
CN118013825A (zh) | 多层级多类型城市时空协同设计方法、系统、终端和介质 | |
KR102192136B1 (ko) | 법률안의 국회 본회의 통과가능성 예측 서비스 제공 시스템 | |
CN113535966A (zh) | 知识图谱的创建方法、信息获取的方法、装置和设备 | |
WO2019203693A1 (ru) | Способ проектирования топологии информационного пространства информационно-управляющей системы | |
CN111177501B (zh) | 一种标签处理方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |