CN111581390B - 一种知识图谱的构建方法、装置以及电子设备 - Google Patents

一种知识图谱的构建方法、装置以及电子设备 Download PDF

Info

Publication number
CN111581390B
CN111581390B CN201910123298.8A CN201910123298A CN111581390B CN 111581390 B CN111581390 B CN 111581390B CN 201910123298 A CN201910123298 A CN 201910123298A CN 111581390 B CN111581390 B CN 111581390B
Authority
CN
China
Prior art keywords
work order
entity
target
node
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910123298.8A
Other languages
English (en)
Other versions
CN111581390A (zh
Inventor
刘纯一
柳俊宏
薛艳云
王鹏
李奘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201910123298.8A priority Critical patent/CN111581390B/zh
Publication of CN111581390A publication Critical patent/CN111581390A/zh
Application granted granted Critical
Publication of CN111581390B publication Critical patent/CN111581390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本申请提供了一种知识图谱的构建方法、装置以及电子设备,其中,该方法包括:获取历史工单数据;历史工单数据包括历史订单的会话数据和/或评价数据,会话数据为历史订单在服务过程中会话服务提供方与目标对象之间的会话数据,目标对象包括订单服务提供方和/或订单服务请求方;基于历史工单数据的工单标题确定工单路径;基于工单路径中提取实体关系,并基于实体关系构建目标知识图谱;其中,实体关系表示工单路径中不同层级的路径中节点实体之间的关系,节点实体为多级子标题。本申请通过历史工单数据的工单标题确定工单路径,进而根据工单路径构建知识图谱的方式,提高了知识图谱的构建效率,提高了知识图谱的准确性。

Description

一种知识图谱的构建方法、装置以及电子设备
技术领域
本申请涉及数据处理的技术领域,具体而言,涉及一种知识图谱的构建方法、装置以及电子设备。
背景技术
目前,传统网约车平台的智能客服系统在实现和用户之间的对话时是基于智能知识库来实现的,因此,智能知识库中知识点的全面性和准确性直接影响对话机器人的服务效果。
在传统的智能知识库中,由于知识点的组织结构不同,并且分类格式不统一,知识点的管理存在困难。因此,可以利用知识图谱为智能知识库的管理与新知识点的校验进行辅助。从知识图谱的构建上而言,主要的构建方法分为自定而下的人工构建和自下而上的自动化构建方法。人工构建方法通过领域专家构建合理的实体和关系,并人工的构建知识图谱;而自动化构建方法则通过访问百科类数据,通过命名实体识别、关系抽取、实体对齐等手段构建知识图谱。
针对于知识图谱的构建而言,人工构建的方法可以保证知识图谱需要大量的人工投入;自动化的构建方法构建知识图谱的质量较低,需要进行人工校验。因此,上述传统的知识图谱的构建方法效率低,准确性差,这将导致智能知识库的结构混乱,精准度差,将影响用户的满意程度。
发明内容
有鉴于此,本申请实施例的目的在于提供一种知识图谱的构建方法、装置以及电子设备。本申请通过历史工单数据的工单标题确定工单路径,进而根据工单路径构建知识图谱的方式,提高了知识图谱的构建效率,提高了知识图谱的准确性。
根据本申请的一个方面,提供一种电子设备,可以包括一个或多个存储介质和一个或多个与存储介质通信的处理器。一个或多个存储介质存储有处理器可执行的机器可读指令。当电子设备运行时,处理器与存储介质之间通过总线通信,处理器执行所述机器可读指令,以执行一个或多个以下操作:
获取历史工单数据;所述历史工单数据包括历史订单的会话数据和/或评价数据,会话数据为历史订单在服务过程中会话服务提供方与目标对象之间的会话数据,所述目标对象包括订单服务提供方和/或订单服务请求方;基于所述历史工单数据的工单标题确定工单路径;其中,所述工单标题表示会话数据的会话场景信息,且所述工单标题中包含多级子标题,所述工单路径表示各级子标题之间的层级关系;基于所述工单路径中提取实体关系,并基于所述实体关系构建目标知识图谱;其中,所述实体关系表示所述工单路径中不同层级的路径中节点实体之间的关系,所述节点实体为多级子标题。
在本申请较佳的实施例中,所述工单标题为多个;基于所述历史工单数据的工单标题确定工单路径包括:获取每个所述工单标题中各级子标题的层级信息;基于每个所述工单标题中各级子标题的层级信息构建目标多叉树;并将所述目标多叉树中各个节点的路径信息确定为所述工单路径,其中,所述目标多叉树中的各个节点为所述多级子标题。
在本申请较佳的实施例中,基于所述工单标题中各级子标题的层级信息构建目标多叉树包括:基于所述层级信息将多个所述工单标题进行合并,得到初始多叉树,其中,多个所述工单标题中位于同一层级且名称相同的子标题合并为一个子标题;对所述初始多叉树中的节点实体进行合并处理,得到所述目标多叉树。
在本申请较佳的实施例中,对所述初始多叉树中的节点实体进行合并处理,得到所述目标多叉树包括:基于所述工单标题所对应的会话数量对所述初始多叉树中的节点实体进行合并处理,得到所述目标多叉树。
在本申请较佳的实施例中,基于所述工单标题所对应的会话数量对所述初始多叉树中的节点实体进行合并处理,得到所述目标多叉树包括:反复执行下述步骤,直至待合并节点实体的层级数大于或者等于预设层级数:将所述初始多叉树中节点实体Ai作为所述待合并节点实体;i大于或者等于所述预设层级数;获取所述初始多叉树中节点实体Ai所对应的会话数量;若所述会话数量小于预设阈值,则将所述节点实体Ai和节点实体Ai-1进行合并;并将节点实体Ai-1作为待合并节点实体,所述节点实体Ai-1为所述节点实体Ai所属的上一层级的节点。
在本申请较佳的实施例中,所述工单路径的数量为多个;基于所述工单路径中提取实体关系包括:在每条所述工单路径中提取任意两个相邻的节点实体,以及提取所述任意两个相邻的节点实体之间的层级关系;将所述任意两个相邻的节点实体及其层级关系确定为所述实体关系。
在本申请较佳的实施例中,所述实体关系为三元组数据,其中,所述三元组数据中包括的元素包括:所述任意两个相邻的节点实体的名称信息、所述任意两个相邻的节点实体之间的层级关系。
在本申请较佳的实施例中,基于所述实体关系构建目标知识图谱包括:获取目标知识点;所述目标知识点包含提问信息和所述提问信息的回答信息;结合所述目标知识点和所述实体关系构建所述目标知识图谱。
在本申请较佳的实施例中,结合所述目标知识点和所述实体关系构建所述目标知识图谱包括:对所述目标知识点进行分词处理,得到分词序列,其中,所述分词序列中包含至少一个分词;将所述分词序列中的各个分词和各个节点实体进行匹配;若所述分词序列中包含和所述各个节点实体相匹配的目标分词,则构建所述目标分词和所述实体关系之间的关联关系;基于所述关联关系和所述实体关系构建所述目标知识图谱。
在本申请较佳的实施例中,所述关联关系为三元组数据,所述三元组数据中包括以下元素:所述目标分词的名称信息,所述目标知识点,所述目标分词和所述目标知识点之间的所属关系。
在本申请较佳的实施例中,基于所述关联关系和所述实体关系构建所述目标知识图谱包括:将所述关联关系和所述实体关系映射为知识图谱,并将映射得到的知识图谱作为所述目标知识图谱。
在本申请较佳的实施例中,所述方法还包括:若所述分词序列中包含和所述各个节点实体相匹配的目标分词,则向用户发送校验信息,以提示用户校验所述目标知识点是否属于所述目标分词;若获取到的校验结果为校验通过,则构建所述目标分词和所述实体关系之间的关联关系。
根据本申请的另一个方面,还提供了一种知识图谱的构建装置,包括:获取单元,用于获取历史工单数据;所述历史工单数据包括历史订单的会话数据和/或评价数据,会话数据为历史订单在服务过程中会话服务提供方与目标对象之间的会话数据,所述目标对象包括订单服务提供方和/或订单服务请求方;确定单元,用于基于所述历史工单数据的工单标题确定工单路径;其中,所述工单标题表示会话数据的会话场景信息,且所述工单标题中包含多级子标题,所述工单路径表示各级子标题之间的层级关系;提取构建单元,用于基于所述工单路径中提取实体关系,并基于所述实体关系构建目标知识图谱;其中,所述实体关系表示所述工单路径中不同层级的路径中节点实体之间的关系,所述节点实体为多级子标题。
在本申请较佳的实施例中,所述工单标题为多个;所述确定单元包括:第一获取模块,用于获取每个所述工单标题中各级子标题的层级信息;第一构建模块,用于基于每个所述工单标题中各级子标题的层级信息构建目标多叉树;第一确定模块,用于将所述目标多叉树中各个节点的路径信息确定为所述工单路径,其中,所述目标多叉树中的各个节点为所述多级子标题。
在本申请较佳的实施例中,所述构建模块用于:基于所述层级信息将多个所述工单标题进行合并,得到初始多叉树,其中,多个所述工单标题中位于同一层级且名称相同的子标题合并为一个子标题;对所述初始多叉树中的节点实体进行合并处理,得到所述目标多叉树。
在本申请较佳的实施例中,所述构建模块还用于:基于所述工单标题所对应的会话数量对所述初始多叉树中的节点实体进行合并处理,得到所述目标多叉树。
在本申请较佳的实施例中,所述构建模块用于:反复执行下述步骤,直至待合并节点实体的层级数大于或者等于预设层级数:将所述初始多叉树中节点实体Ai作为所述待合并节点实体;i大于或者等于所述预设层级数;获取所述初始多叉树中节点实体Ai所对应的会话数量;若所述会话数量小于预设阈值,则将所述节点实体Ai和节点实体Ai-1进行合并;并将节点实体Ai-1作为待合并节点实体,所述节点实体Ai-1为所述节点实体Ai所属的上一层级的节点。
在本申请较佳的实施例中,所述工单路径的数量为多个;所述提取构建单元包括:提取模块,用于在每条所述工单路径中提取任意两个相邻的节点实体,以及提取所述任意两个相邻的节点实体之间的层级关系;第二确定模块,用于将所述任意两个相邻的节点实体及其层级关系确定为所述实体关系。
在本申请较佳的实施例中,所述实体关系为三元组数据,其中,所述三元组数据中包括的元素包括:所述任意两个相邻的节点实体的名称信息、所述任意两个相邻的节点实体之间的层级关系。
在本申请较佳的实施例中,所述提取构建单元还包括:第二获取模块,用于获取目标知识点;所述目标知识点包含提问信息和所述提问信息的回答信息;第二构建模块,用于结合所述目标知识点和所述实体关系构建所述目标知识图谱。
在本申请较佳的实施例中,所述第二构建模块用于:对所述目标知识点进行分词处理,得到分词序列,其中,所述分词序列中包含至少一个分词;将所述分词序列中的各个分词和各个节点实体进行匹配;若所述分词序列中包含和所述各个节点实体相匹配的目标分词,则构建所述目标分词和所述实体关系之间的关联关系;基于所述关联关系和所述实体关系构建所述目标知识图谱。
在本申请较佳的实施例中,所述关联关系为三元组数据,所述三元组数据中包括以下元素:所述目标分词的名称信息,所述目标知识点,所述目标分词和所述目标知识点之间的所属关系。
在本申请较佳的实施例中,所述第二构建模块还用于:将所述关联关系和所述实体关系映射为知识图谱,并将映射得到的知识图谱作为所述目标知识图谱。
在本申请较佳的实施例中,所述装置还用于:若所述分词序列中包含和所述各个节点实体相匹配的目标分词,则向用户发送校验信息,以提示用户校验所述目标知识点是否属于所述目标分词;若获取到的校验结果为校验通过,则构建所述目标分词和所述实体关系之间的关联关系。
根据本申请的另一个方面,还提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行上述任一所述的知识图谱的构建方法的步骤。
根据本申请的另一个方面,还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述任一所述的知识图谱的构建方法的步骤。
在本申请中,首先获取历史工单数据,然后,基于历史工单数据的工单标题确定工单路径;之后,基于工单路径中提取实体关系,并基于实体关系构建目标知识图谱。本申请通过历史工单数据的工单标题确定工单路径,进而根据工单路径构建知识图谱的方式,提高了知识图谱的构建效率,提高了知识图谱的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种电子设备的结构示意图;
图2示出了本申请实施例所提供的一种知识图谱的构建方法的流程图;
图3示出了本申请实施例所提供的一种多叉树的结构示意图;
图4示出了本申请实施例所提供的第一种可选地知识图谱的构建方法的流程图;
图5示出了本申请实施例所提供的第二种可选地知识图谱的构建方法的流程图;
图6示出了本申请实施例所提供的第三种可选地知识图谱的构建方法的流程图;
图7示出了本申请实施例所提供的第四种可选地知识图谱的构建方法的流程图;
图8示出了本申请实施例所提供的一种目标知识图谱的结构示意图;
图9示出了本申请实施例所提供的第五种可选地知识图谱的构建方法的流程图;
图10示出了本申请实施例所提供的一种知识图谱的构建装置的示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
本申请中的术语“服务”和“订单”可互换使用,以指代由乘客、服务请求方、司机、服务提供方、或供应商等、或其任意组合发起的服务请求。接受该“服务”或“订单”的可以是乘客、服务请求方、司机、服务提供方、或供应商等、或其任意组合。服务可以是收费的或免费的。
图1示出根据本申请的一些实施例的可以实现本申请提供的知识图谱的构建方法的电子设备100的示例性硬件和软件组件的示意图。
电子设备100可以是通用计算机或特殊用途的计算机,两者都可以用于实现本申请的知识图谱的构建方法。本申请尽管仅示出了一个计算机,但是为了方便起见,可以在多个类似平台上以分布式方式实现本申请描述的功能,以均衡处理负载。
例如,电子设备100可以包括连接到网络的网络端口110、用于执行程序指令的一个或多个处理器120、通信总线130、和不同形式的存储介质140,例如,磁盘、ROM、或RAM,或其任意组合。示例性地,计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备100还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output,I/O)接口150。
上述存储介质140存储有处理器120可执行的机器可读指令,当电子设备运行时,处理器120与存储介质140之间通过总线通信,处理器执行机器可读指令,以执行时执行下述知识图谱的构建方法的步骤。另外,存储介质也可以称为计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行下述知识图谱的构建方法的步骤。
处理器120中的获取单元用来获取历史工单数据;所述历史工单数据包括历史订单的会话数据和/或评价数据,会话数据为历史订单在服务过程中会话服务提供方与目标对象之间的会话数据,所述目标对象包括订单服务提供方和/或订单服务请求方。
之后,处理器120中的确定单元用来基于所述历史工单数据的工单标题确定工单路径;其中,所述工单标题表示会话数据的会话场景信息,且所述工单标题中包含多级子标题,所述工单路径表示各级子标题之间的层级关系。
接下来,处理器120中的提取构建单元基于所述工单路径中提取实体关系,并基于所述实体关系构建目标知识图谱;其中,所述实体关系表示所述工单路径中不同层级的路径中节点实体之间的关系,所述节点实体为多级子标题。
为了便于说明,在电子设备100中仅描述了一个处理器。然而,应当注意,本申请中的电子设备100还可以包括多个处理器,因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如,若电子设备100的处理器执行步骤A和步骤B,则应该理解,步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如,第一处理器执行步骤A,第二处理器执行步骤B,或者第一处理器和第二处理器共同执行步骤A和B。
参见图2所示的一种知识图谱的构建方法的流程图。
图2所示的知识图谱的构建方法以应用在服务器端为例进行说明,该方法包括如下步骤:
步骤S202,获取历史工单数据;所述历史工单数据包括历史订单的会话数据和/或评价数据,会话数据为历史订单在服务过程中会话服务提供方与目标对象之间的会话数据,所述目标对象包括订单服务提供方和/或订单服务请求方。
在本实施例中,可以从网约车平台的数据库中获取历史工单数据。其中,本申请中,工单数据是指订单在服务的过程中会话服务提供方(例如,客服)记录的该订单的相关信息,例如,会话数据和/或评价数据。具体地,会话数据可以为会话服务提供方(例如,客服)和订单服务提供方(例如,司机)之间的会话数据,还可以为会话服务提供方(例如,客服)和订单服务请求方(例如,乘客)之间的会话数据,本实施例对此不做具体限定。
需要说明的是,此处指的客服可以为智能客服系统和人工客服。
评价数据可以为订单服务提供方(例如,司机)对订单服务请求方(例如,乘客)的评价数据,还可以为订单服务请求方(例如,乘客)对订单服务提供方(例如,司机)的评价数据。
在本申请中,历史工单数据为所属于同一个业务实体的工单数据。例如,步骤S202中的历史工单数据为所属于“快车”的工单数据;又例如,步骤S202中的历史工单数据还可以为所属于“专车”的工单数据。
步骤S204,基于所述历史工单数据的工单标题确定工单路径;其中,所述工单标题表示会话数据的会话场景信息,且所述工单标题中包含多级子标题,所述工单路径表示各级子标题之间的层级关系。
工单数据在存储在数据库中之前,可以为该工单数据增加工单标题,该工单标题可以用于描述该会话数据的会话场景信息。例如,该会话场景信息用于描述该服务请求方和会话服务提供方之间的会话场景为报警求救的信息。
上述工单数据的工单标题可以为多级标题,也就是说,一个工单标题中可以包含多级子标题。例如,快车-咨询-APP产品使用-APP端取消订单,就可以为一个多级工单标题。其中,快车的层级最高,咨询、APP产品使用和APP端取消订单的层级依次降低。其中,快车、咨询、APP产品使用和APP端取消订单中的每个标题均为一个层级的子标题。
在本申请中,基于多个历史工单数据的工单标题构建的工单路径,用于表征工单标题中各级子标题之间的层级关系。例如,快车-咨询-APP产品使用-APP端取消订单,就可以理解为一个工单路径,其中,快车是咨询的上级标题,咨询是APP产品使用的上级标题,APP产品使用是APP端取消订单的上级标题。
需要说明的是,本申请所构建的工单路径可以为如图3所示的多叉树。如图3所示,快车-咨询-APP产品使用-APP端取消订单-APP端取消订单表示为一个工单路径,快车-咨询-APP产品使用-修改密码-修改密码表示为又一个工单路径。
步骤S206,基于所述工单路径中提取实体关系,并基于所述实体关系构建目标知识图谱;其中,所述实体关系表示所述工单路径中不同层级的路径中节点实体之间的关系,所述节点实体为多级子标题。
在按照上述所描述的方法得到如图3所示的工单路径之后,就可以在工单路径中提取实体关系,进而,根据该实体关系构建目标知识图谱。
在本申请中,定义工单路径中包含多个节点实体,每个节点实体即为工单标题中的多级标题。
在本申请中,实体关系表示工单路径中不同层级的路径中节点实体之间的关系。以图3所示的工单路径为例,假设,工单路径为:快车-咨询-APP产品使用-修改密码-修改密码,那么该实体关系可以为快车和咨询之间的关系,以及咨询和APP产品使用之间的关系,以及APP产品使用和修改密码之间的关系,以及修改密码和修改密码之间的关系。
在本申请中,首先获取历史工单数据,然后,基于历史工单数据的工单标题确定工单路径;之后,基于工单路径中提取实体关系,并基于实体关系构建目标知识图谱。本申请通过历史工单数据的工单标题确定工单路径,进而根据工单路径构建知识图谱的方式,提高了知识图谱的构建效率,提高了知识图谱的准确性。
下面将结合具体的实施例介绍上述知识图谱的构建方法。在本申请中,首先,获取历史工单数据。其中,该历史工单数据为所属于相同业务体系的工单数据,且该工单数据包括工单标题,在本申请中,历史工单数据的数量为多个。
在获取到历史工单数据之后,就可以基于该历史工单数据的工单标题确定工单路径。
通过上述描述可知,历史工单数据的数量为多个,且一个历史工单数据对应一个工单标题,那么在本申请中,工单标题的数量为多个。
基于此,如图4所示,步骤S204,基于所述历史工单数据的工单标题确定工单路径包括如下步骤:
步骤S401,获取每个所述工单标题中各级子标题的层级信息;
步骤S402,基于每个所述工单标题中各级子标题的层级信息构建目标多叉树;并将所述目标多叉树中各个节点的路径信息确定为所述工单路径,其中,所述目标多叉树中的各个节点为所述多级子标题。
通过上述描述可知,在本实施例中,每个工单标题为多级标题,也即,每个工单标题中包括多个子标题。
基于此,在确定基于多级工单标题确定工单路径时,可以获取每个多级工单标题中各级子标题的层级信息。例如,工单标题为:快车-咨询-APP产品使用。此时,可以确定该工单标题中各级子标题的层级信息。该层级信息用于表征各个子标题位于标题信息的第几层级。例如,“快车”位于该工单标题第一层级,“咨询”位于该工单标题的第二层级,“APP产品使用”位于该工单标题的第三层级。
在获取到上述层级信息之后,就可以基于每个工单标题中各级子标题的层级信息构建目标多叉树。例如,将历史工单数据所属的业务体系的名称作为根节点实体,其中,一般情况下,该根节点实体即为各级子标题中的第一层级的标题。然后,将多级工单标题中第二层级的子标题作为该根节点实体的下一级节点实体,以此类推,将多级工单标题中的第三层级的子标题作为该下一级节点实体的下一级节点实体,从而得到目标多叉树。
在本实施例中,在构建得到目标多叉树之后,就可以将目标多叉树中各个节点的路径信息确定为工单路径。上述步骤S401和步骤S402所构建的目标多叉树,可以为如图3所示的多叉树。如图3所示,“快车”、“咨询”、“APP产品使用”、“修改密码”、“关怀宝”、“变更城市”以及“变更手机号”等均为目标多叉树中的节点实体。基于该目标多叉树确定出的工单路径可以为:快车-咨询-APP产品使用-变更手机号。
通过上述描述可知,在本实施例中,按照上述方式所构建的目标多叉树,又可以称为知识图谱骨架,在得到该知识图谱骨架之后,就能够基于该知识图谱骨架构建知识图谱。在本申请中,按照各级工单标题来构建知识图谱骨架的方式,能够得到更加精准的知识图谱。
在本实施例中,在基于每个工单标题中的各级子标题的层级信息构建目标多叉树时,可以按照下述所描述的方式来实现,具体描述为:
首先,基于所述层级信息将多个所述工单标题进行合并,得到初始多叉树,其中,多个所述工单标题中位于同一层级且名称相同的子标题合并为一个子标题;
然后,对所述初始多叉树中的节点实体进行合并处理,得到所述目标多叉树。
在本实施例中,在基于层级信息构建目标多叉树时,可以首先基于层级信息将多个工单标题进行合并,得到初始多叉树。
按照层级将多个工单标题进行合并的过程可以描述为:假设多个工单标题为3个,分别是:A-B-C-D,A-B-C-D1和A-B-C1-D2。在将上述三个工单标题进行合并时,首先,将这三个工单标题的第一层级标题A合并为一个节点实体,该节点实体表示为A;然后,将这三个工单标题的第二层级标题B合并为一个节点实体,该节点实体表示为B,节点实体B为节点实体A的下一层级的节点;接下来,将“A-B-C-D-E和A-B-C-D1-E1”中的第三层级标题C合并为一个节点实体,该节点实体表示为C,节点实体C为节点实体B的下一层级的节点;以及“A-B-C1-D2-E2”中第三层级标题C1作为节点实体B另外一个下一层级的节点。最后,将“A-B-C-D”中的标题D和“A-B-C-D1”中的标题D1作为节点实体C的下一层级的节点;以及将“A-B-C1-D2”中的标题D2作为节点实体C1的下一层级的节点。
在本实施例中,当历史工单数据的数据量较大时,历史工单数据的工单标题的数量较大,此时,基于大量的工单标题构建的目标多叉树包含大量的冗余分支,其中,冗余分支即为部分工单子标题。基于此,在本申请中,可以对该初始多叉树中的节点实体进行合并处理,合并处理之后得到目标多叉树。
在本实施例中,在对初始多叉树中的节点实体进行合并处理,得到所述目标多叉树时,可以基于工单标题所对应的会话数量对初始多叉树中的节点实体进行合并处理,得到所述目标多叉树。
通过上述描述可知,在本实施例中,该工单标题为历史工单数据的工单标题,由于历史工单数据中包含会话数据和/或评价数据,因此,该工单标题也对应一个或多个会话数据。例如,上述实施例中的工单标题A-B-C-D可以对应一个或多个会话数据,工单标题A-B-C-D1可以对应一个或多个会话数据,以及工单标题A-B-C1-D2可以对应一个或多个会话数据。因此,在本实施例中,就可以通过工单标题所对应的会话数量对初始多叉树中的节点实体进行合并处理,得到所述目标多叉树。
需要说明的是,每个工单标题所对应的会话数据可以理解为该工单标题中的最后一层级的子标题所对应的会话数据。例如,如图3所示的目标多叉树,“变更手机号”可能是一个或多个工单标题中最后一层级的子标题,“变更号码归属地”还可能是一个或多个工单标题中最后一层级的子标题。此时,“变更手机号”可能对应一个或多个会话数据,且“变更号码归属地”还可能对应一个或多个会话数据。
可选地,如图5所示,基于所述工单标题所对应的会话数量对所述初始多叉树中的节点实体进行合并处理,得到所述目标多叉树包括如下步骤:
步骤S501,将所述初始多叉树中节点实体Ai作为所述待合并节点实体;i大于或者等于所述预设层级数;
步骤S502,获取所述初始多叉树中节点实体Ai所对应的会话数量;
步骤S503,若所述会话数量小于预设阈值,则将所述节点实体Ai和节点实体Ai-1进行合并;所述节点实体Ai-1为所述节点实体Ai所属的上一层级的节点;
步骤S504,判断i是否大于预设层级数;若是,则执行步骤S505,否则结束流程;
步骤S505,执行i=i-1,并返回执行步骤S501。
在本实施例中,首先,在初始多叉树中确定待合并节点实体,也就是说,要在初始多叉树中确定位于第i层级的子标题(也即,初始多叉树中的节点实体Ai)。之后,获取初始多叉树中节点实体Ai所对应的会话数据的数量(即,会话数量)。如果该会话数量小于预设阈值,那么将该节点实体Ai和节点实体Ai的上一层架的节点实体Ai-1进行合并。
接下来,判断i是否大于预设层级数,其中,预设层级数可以为选择为4。需要说明的是,预设层级数还可以选择为其他数值,本实施例中以4为例来进行说明。
如果判断出i大于预设层级数,则将i减“1”之后,将i-1重新赋值为i,并继续执行上述步骤S501至步骤S505。
下面将举例说明上述步骤S501至步骤S505。假设,预设层级数为4层,i的初始值为6。也就是说,在本实施例中,由于很多六级标题所对应数据量很少,为了构造一个简洁有效的知识图谱,可以先从初始多叉树中的6级子标题开始进行合并。例如,首先将初始多叉树中的6级子标题作为待合并节点实体,并获取初始多叉树中的6级子标题所对应的会话数量;若该会话数量小于预设阈值,则将该6级子标题与其所属的上一层级的子标题进行合并。会话数量大于或者等于预设阈值的子标题则无需合并。
之后,将初始多叉树中的5级子标题作为待合并节点实体,并获取初始多叉树中的5级子标题所对应的会话数量;若该会话数量小于预设阈值,则将该5级子标题与其所属的上一层级的子标题进行合并。会话数量大于或者等于预设阈值的子标题则无需合并。
继续合并,将初始多叉树中的4级子标题作为待合并节点实体,并获取初始多叉树中的4级子标题所对应的会话数量;若该会话数量小于预设阈值,则将该4级子标题与其所属的上一层级的子标题进行合并。会话数量大于或者等于预设阈值的子标题则无需合并。合并之后得到目标多叉树,需要说明的是,在本实施例中,构造的目标多叉树的每条路径则是提取得到的工单路径。
在本实施例中,在按照上述所描述的方式得到工单路径之后,就可以基于工单路径提取实体关系,并基于该实体关系构建目标知识图谱。
可选地,如图6所示,如果工单路径的数量为多个;那么步骤基于所述工单路径中提取实体关系包括如下步骤:
步骤S601,在每条所述工单路径中提取任意两个相邻的节点实体,以及提取所述任意两个相邻的节点实体之间的层级关系;
步骤S602,将所述任意两个相邻的节点实体及其层级关系确定为所述实体关系。其中,该实体关系可以为三元组数据,其中,所述三元组数据中包括的元素包括:所述任意两个相邻的节点实体的名称信息、所述任意两个相邻的节点实体之间的层级关系。
具体地,在如图3所示的目标多叉树中,可以提取“快车”和“咨询”这两个相邻的节点实体之间的层级关系,并将该层级关系作为实体关系。该层级关系用三元组数据表示为:(快车,第2级,咨询)。其中,“第2级”即为上述所述的层级关系。又例如,可以提取“咨询”和“APP产品使用”这两个相邻的节点实体之间的层级关系,该层级关系用三元组数据表示为:(咨询,第3级,APP产品使用)。其中,“第2级”即为上述所述的层级关系。其中,“第3级”即为上述所述的层级关系。
通过上述描述可知,在本实施例中,工单路径上的每个节点可以作为一个单独的节点实体。在本实施例中,将所有的节点实体抽取出来并去重之后作为知识图谱骨架的实体集合。同时,工单标题的路径也链接了不同的业务实体,此时,可以将不同层级的路径单独抽取出来作为实体之间的关系。基于实体和关系,构建了多个三元组数据,这些三元组数据构成了知识图谱的骨架。
通过上述描述可知,在本实施例中,通过对历史工单数据进行挖掘,提取对应业务线的各级工单标题,并将各级工单标题作为知识图谱中的实体,此时可以半自动化的获取知识图谱中的实体和部分关系(即,实体关系)。在得到上述实体关系之后,就可以基于该实体关系构建目标知识图谱,且通过上述实体关系构建的目标知识图谱准确度更高,实用性更强。
在本实施例中,在按照上述所描述的方式提取得到实体关系之后,就可以基于该实体关系构建目标知识图谱。
在一个可选的实施方式中,如图7所示,基于所述实体关系构建目标知识图谱包括如下步骤:
步骤S701,获取目标知识点;所述目标知识点包含提问信息和所述提问信息的回答信息;
步骤S702,结合所述目标知识点和所述实体关系构建所述目标知识图谱。
具体地,在本实施例中,获取目标知识点,其中,目标知识点可以用户预先收集好的知识点。需要说明的是,在本实施例中,知识点为一段对话,该对话中包含提问信息和回答信息。
进一步需要说明的是,在本实施例中,每个知识点中可以包含一个提问信息及其回答信息,还可以包含多个提问信息及其回答信息。具体设置方式,用户可以根据实际需要来进行设定。如果默认该知识点中包含一个提问信息及其回答信息,那么在获取到包含多个提问信息及其回答信息的原始知识点时,可以对该原始知识点进行拆分,拆分成多个知识点,且每个知识点中包含一个提问信息及其回答信息。
在获取到目标知识点之后,可以结合该目标知识点和实体关系构建目标知识图谱,具体过程描述如下:
首先,对所述目标知识点进行分词处理,得到分词序列,其中,所述分词序列中包含至少一个分词;
然后,将所述分词序列中的各个分词和各个节点实体进行匹配;
之后,若所述分词序列中包含和所述各个节点实体相匹配的目标分词,则构建所述目标分词和所述实体关系之间的关联关系;所述关联关系为三元组数据,所述三元组数据中包括以下元素:所述目标分词的名称信息,所述目标知识点,所述目标分词和所述目标知识点之间的所属关系;
最后,基于所述关联关系和所述实体关系构建所述目标知识图谱。
在本实施例中,首先利用分词器对目标知识点对应的语句进行分词处理,得到包含至少一个分词的分词序列。然后,将分词序列中的各个分词和目标多叉树中的各个节点实体进行匹配。如果分词序列中包含与各个节点实体相匹配的目标分词,则可以构建目标分词和实体关系之间的关联关系。可选地,在本实施例中,该关联关系可以表示为三元组数据。
需要说明的是,在本实施例中,在对目标知识点对应的语句进行分词之后,可以去除分词结果中的停用词、并对分词结果中的同义词进行转化之后,可以得到对应的分词序列。
假设,目标多叉树为如图3所示的多叉树。目标知识点为“更换手机号时提示号码错误”经过分词、去停用词和同义词转化之后可以表示为“变更手机号提示号码错误”,通过分词匹配之后,可以发现其能够链接到实体“变更手机号”,即可得到三元组数据(变更手机号,知识点,更换手机号时提示号码错误)。通过这样的方式,可以构建出智能知识库的知识图谱。
通过上述处理方式得到的结果可以有效的消除歧义,提高知识图谱的质量和准确性。本实施例通过知识点对应的分词序列去匹配实体关系中的节点实体。进而通过链接这些实体与知识点,并将通过人工校验的知识点加入到知识图谱中,最后形成知识图谱(即,上述目标知识图谱)。
在本实施例中,在按照上述所描述的方式将分词序列中的各个分词和各个节点实体进行匹配之后,则可以得到如:(变更手机号,知识点,更换手机号时提示号码错误)形式的关联关系。进而,基于所述关联关系和所述实体关系构建所述目标知识图谱。
在基于该关联关系和实体构建目标知识图谱时,可以将所述关联关系和所述实体关系映射为知识图谱,并将映射得到的知识图谱作为所述目标知识图谱。
由于上述关联关系和实体关系均为三元组数据,因此,在得到关联关系和实体关系之后,就可以将上述三元组数据映射为知识图谱,并将该知识图谱作为目标知识图谱。该目标知识图谱可以为如图8所示的图谱。
在一个可选的实施方式中,该方法还包括如下步骤:
若所述分词序列中包含和所述各个节点实体相匹配的目标分词,则向用户发送校验信息,以提示用户校验所述目标知识点是否属于所述目标分词;
若获取到的校验结果为校验通过,则构建所述目标分词和所述实体关系之间的关联关系。
通过上述描述可知,在本实施例中,首先利用分词器对目标知识点对应的语句进行分词处理,得到包含至少一个分词的分词序列。然后,将分词序列中的各个分词和目标多叉树中的各个节点实体进行匹配。如果分词序列中包含与各个节点实体相匹配的目标分词,则可以向用户发送校验信息,其中,该校验信息用于提示用户校验目标知识点是否属于目标分词。如果获取到用户输入的结果为校验通过,则可以构建目标分词和实体关系之间的关联关系。可选地,在本实施例中,该关联关系可以表示为三元组数据。
针对知识图谱而言,人工构建的方法可以保证知识图谱的高度准确性和专业性,但是需要大量的人工投入;自动化的构建方法不需要很大人力投入,但是其知识图谱的质量较低,需要进行人工校验。针对于网约车平台的智能知识库而言,需要保证构建的知识图谱的专业性和准确性,因此不能依赖于自动化构建的方法。同时,智能知识点的数量相对较大,完全通过人工构建知识图谱是一项艰巨的任务。基于此,在本申请中,采用半自动化的构建方法,在半自动化的构建方法结合自动化构建方法和人工校验来构建知识图谱,通过该方式构建的知识图谱,准确性高,实用性好。
下面,以图3和图8为例,将结合一个具体的示例对本发明提出的方法进行详细的讲解,其中,业务体系选择为快车乘客的场景。
在本实施例中,首先拉取该业务线下所有的工单标题和一个月的历史对话数据,并基于该工单标题构建N叉树,也就是工单路径。该N叉树如图3所示。其中,图3中的快车、咨询、APP产品使用等都是知识图谱骨架中的实体。工单路径中不同实体之间存在链接关系,接下来,抽取这些关系并划分为第1级、第2级等作为知识图谱骨架中的关系。这样,可以建立知识图谱中的三元组数据,例如(快车,第2级,咨询)和(咨询,第3级,APP产品使用)等。
当获取了知识图谱的骨架之后,可以对知识点进行处理。例如,知识点“更换手机号时提示号码已存在”经过分词、去停用词和同义词转化之后可以表示为“变更手机号、提示、号码、存在”,通过分词匹配之后,可以发现其能够链接到实体“变更手机号”,即可得到三元组数据(变更手机号,知识点,更换手机号时提示号码已存在)。通过这样的方式,可以构建出智能知识库的知识图谱,如图8所示。
综上,本发明利用历史工单数据的中工单标题抽取工单路径,并基于工单路径半自动化的构建智能知识库的知识图谱。本发明可以在保证知识图谱的质量的基础上减少人力资源的投入,进而为智能知识库知识点管理和新知识点挖掘提供辅助。
下面,结合图9介绍上述的知识图谱的构建方法。
具体而言,本实施例从人工知识库的历史工单数据出发,基于历史工单数据中的工单标题确定工单路径。具体确定过程如上所述,此处不再详细描述。
接下来,基于所述工单路径中提取实体关系;其中,所述实体关系表示所述工单路径中不同层级的路径中节点实体之间的关系,所述节点实体为多级子标题。具体提取过程如上所述,此处不再详细描述。
之后,获取目标知识点,并对目标知识点进行分词处理,得到分词序列。然后,将分词序列中的各个分词和多叉树中的节点实体进行匹配,如果匹配上,则可以向用户发送校验信息,其中,该校验信息用于提示用户校验目标知识点是否属于目标分词。如果获取到用户输入的结果为校验通过,则可以构建目标分词和实体关系之间的关联关系。可选地,在本实施例中,该关联关系可以表示为三元组数据。
图10是示出本申请的一些实施例的知识图谱的构建装置的框图,该知识图谱的构建装置实现的功能对应上述方法执行的步骤。该装置可以理解为上述服务器,或服务器的处理器,也可以理解为独立于上述服务器或处理器之外的在服务器控制下实现本申请功能的组件,如图所示,知识图谱的构建装置可以包括获取单元10、确定单元20,提取构建单元30。
获取单元10,用于获取历史工单数据;所述历史工单数据包括历史订单的会话数据和/或评价数据,会话数据为历史订单在服务过程中会话服务提供方与目标对象之间的会话数据,所述目标对象包括订单服务提供方和/或订单服务请求方;
确定单元20,用于基于所述历史工单数据的工单标题确定工单路径;其中,所述工单标题表示会话数据的会话场景信息,且所述工单标题中包含多级子标题,所述工单路径表示各级子标题之间的层级关系;
提取构建单元30,用于基于所述工单路径中提取实体关系,并基于所述实体关系构建目标知识图谱;其中,所述实体关系表示所述工单路径中不同层级的路径中节点实体之间的关系,所述节点实体为多级子标题。
在本申请中,首先获取历史工单数据,然后,基于历史工单数据的工单标题确定工单路径;之后,基于工单路径中提取实体关系,并基于实体关系构建目标知识图谱。本申请通过历史工单数据的工单标题确定工单路径,进而根据工单路径构建知识图谱的方式,提高了知识图谱的构建效率,提高了知识图谱的准确性。
可选地,所述工单标题为多个;所述确定单元包括:第一获取模块,用于获取每个所述工单标题中各级子标题的层级信息;第一构建模块,用于基于每个所述工单标题中各级子标题的层级信息构建目标多叉树;第一确定模块,用于将所述目标多叉树中各个节点的路径信息确定为所述工单路径,其中,所述目标多叉树中的各个节点为所述多级子标题。
可选地,所述构建模块用于:基于所述层级信息将多个所述工单标题进行合并,得到初始多叉树,其中,多个所述工单标题中位于同一层级且名称相同的子标题合并为一个子标题;对所述初始多叉树中的节点实体进行合并处理,得到所述目标多叉树。
可选地,所述构建模块还用于:基于所述工单标题所对应的会话数量对所述初始多叉树中的节点实体进行合并处理,得到所述目标多叉树。
可选地,所述构建模块用于:反复执行下述步骤,直至待合并节点实体的层级数大于或者等于预设层级数:将所述初始多叉树中节点实体Ai作为所述待合并节点实体;i大于或者等于所述预设层级数;获取所述初始多叉树中节点实体Ai所对应的会话数量;若所述会话数量小于预设阈值,则将所述节点实体Ai和节点实体Ai-1进行合并;并将节点实体Ai-1作为待合并节点实体,所述节点实体Ai-1为所述节点实体Ai所属的上一层级的节点。
可选地,所述工单路径的数量为多个;所述提取构建单元包括:提取模块,用于在每条所述工单路径中提取任意两个相邻的节点实体,以及提取所述任意两个相邻的节点实体之间的层级关系;第二确定模块,用于将所述任意两个相邻的节点实体及其层级关系确定为所述实体关系。
可选地,所述实体关系为三元组数据,其中,所述三元组数据中包括的元素包括:所述任意两个相邻的节点实体的名称信息、所述任意两个相邻的节点实体之间的层级关系。
可选地,所述提取构建单元还包括:第二获取模块,用于获取目标知识点;所述目标知识点包含提问信息和所述提问信息的回答信息;第二构建模块,用于结合所述目标知识点和所述实体关系构建所述目标知识图谱。
可选地,所述第二构建模块用于:对所述目标知识点进行分词处理,得到分词序列,其中,所述分词序列中包含至少一个分词;将所述分词序列中的各个分词和各个节点实体进行匹配;若所述分词序列中包含和所述各个节点实体相匹配的目标分词,则构建所述目标分词和所述实体关系之间的关联关系;基于所述关联关系和所述实体关系构建所述目标知识图谱。
可选地,所述关联关系为三元组数据,所述三元组数据中包括以下元素:所述目标分词的名称信息,所述目标知识点,所述目标分词和所述目标知识点之间的所属关系。
可选地,所述第二构建模块还用于:将所述关联关系和所述实体关系映射为知识图谱,并将映射得到的知识图谱作为所述目标知识图谱。
可选地,所述装置还用于:若所述分词序列中包含和所述各个节点实体相匹配的目标分词,则向用户发送校验信息,以提示用户校验所述目标知识点是否属于所述目标分词;若获取到的校验结果为校验通过,则构建所述目标分词和所述实体关系之间的关联关系。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述任一所述的知识图谱的构建方法的步骤。
上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等,或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接,或其任意组合。两个或更多个模块可以组合为单个模块,并且任何一个模块可以分成两个或更多个单元。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (24)

1.一种知识图谱的构建方法,其特征在于,包括:
获取历史工单数据;所述历史工单数据包括历史订单的会话数据和/或评价数据,会话数据为历史订单在服务过程中会话服务提供方与目标对象之间的会话数据,所述目标对象包括订单服务提供方和/或订单服务请求方;
获取所述历史工单数据的每个工单标题中各级子标题的层级信息;基于所述层级信息将多个所述工单标题进行合并,得到初始多叉树,其中,多个所述工单标题中位于同一层级且名称相同的子标题合并为一个子标题;对所述初始多叉树中的节点实体进行合并处理,得到目标多叉树;并将所述目标多叉树中各个节点的路径信息确定为工单路径;所述工单标题表示会话数据的会话场景信息,且所述工单标题中包含多级子标题,所述工单路径表示各级子标题之间的层级关系;
基于所述工单路径提取实体关系,并基于所述实体关系构建目标知识图谱;其中,所述实体关系表示所述工单路径中不同层级的路径中节点实体之间的关系,所述节点实体为多级子标题。
2.根据权利要求1所述的方法,其特征在于,所述目标多叉树中的各个节点为所述多级子标题。
3.根据权利要求1所述的方法,其特征在于,对所述初始多叉树中的节点实体进行合并处理,得到所述目标多叉树包括:
基于所述工单标题所对应的会话数量对所述初始多叉树中的节点实体进行合并处理,得到所述目标多叉树。
4.根据权利要求3所述的方法,其特征在于,基于所述工单标题所对应的会话数量对所述初始多叉树中的节点实体进行合并处理,得到所述目标多叉树包括:
反复执行下述步骤,直至待合并节点实体的层级数大于或者等于预设层级数:
将所述初始多叉树中节点实体Ai作为所述待合并节点实体;i大于或者等于所述预设层级数;
获取所述初始多叉树中节点实体Ai所对应的会话数量;
若所述会话数量小于预设阈值,则将所述节点实体Ai和节点实体Ai-1进行合并;并将节点实体Ai-1作为待合并节点实体,所述节点实体Ai-1为所述节点实体Ai所属的上一层级的节点。
5.根据权利要求1所述的方法,其特征在于,所述工单路径的数量为多个;基于所述工单路径提取实体关系包括:
在每条所述工单路径中提取任意两个相邻的节点实体,以及提取所述任意两个相邻的节点实体之间的层级关系;
将所述任意两个相邻的节点实体及其层级关系确定为所述实体关系。
6.根据权利要求5所述的方法,其特征在于,所述实体关系为三元组数据,其中,所述三元组数据中包括的元素包括:所述任意两个相邻的节点实体的名称信息、所述任意两个相邻的节点实体之间的层级关系。
7.根据权利要求1所述的方法,其特征在于,基于所述实体关系构建目标知识图谱包括:
获取目标知识点;所述目标知识点包含提问信息和所述提问信息的回答信息;
结合所述目标知识点和所述实体关系构建所述目标知识图谱。
8.根据权利要求7所述的方法,其特征在于,结合所述目标知识点和所述实体关系构建所述目标知识图谱包括:
对所述目标知识点进行分词处理,得到分词序列,其中,所述分词序列中包含至少一个分词;
将所述分词序列中的各个分词和各个节点实体进行匹配;
若所述分词序列中包含和所述各个节点实体相匹配的目标分词,则构建所述目标分词和所述实体关系之间的关联关系;
基于所述关联关系和所述实体关系构建所述目标知识图谱。
9.根据权利要求8所述的方法,其特征在于,所述关联关系为三元组数据,所述三元组数据中包括以下元素:所述目标分词的名称信息,所述目标知识点,所述目标分词和所述目标知识点之间的所属关系。
10.根据权利要求9所述的方法,其特征在于,基于所述关联关系和所述实体关系构建所述目标知识图谱包括:
将所述关联关系和所述实体关系映射为知识图谱,并将映射得到的知识图谱作为所述目标知识图谱。
11.根据权利要求9所述的方法,其特征在于,所述方法还包括:
若所述分词序列中包含和所述各个节点实体相匹配的目标分词,则向用户发送校验信息,以提示用户校验所述目标知识点是否属于所述目标分词;
若获取到的校验结果为校验通过,则构建所述目标分词和所述实体关系之间的关联关系。
12.一种知识图谱的构建装置,其特征在于,包括:
获取单元,用于获取历史工单数据;所述历史工单数据包括历史订单的会话数据和/或评价数据,会话数据为历史订单在服务过程中会话服务提供方与目标对象之间的会话数据,所述目标对象包括订单服务提供方和/或订单服务请求方;
确定单元,用于基于所述历史工单数据的工单标题确定工单路径;其中,所述工单标题表示会话数据的会话场景信息,且所述工单标题中包含多级子标题,所述工单路径表示各级子标题之间的层级关系;
提取构建单元,用于基于所述工单路径提取实体关系,并基于所述实体关系构建目标知识图谱;其中,所述实体关系表示所述工单路径中不同层级的路径中节点实体之间的关系,所述节点实体为多级子标题;
所述确定单元包括:
第一获取模块,用于获取所述历史工单数据的每个工单标题中各级子标题的层级信息;
第一构建模块,用于基于所述层级信息将多个所述工单标题进行合并,得到初始多叉树,其中,多个所述工单标题中位于同一层级且名称相同的子标题合并为一个子标题;对所述初始多叉树中的节点实体进行合并处理,得到目标多叉树;
第一确定模块,用于将所述目标多叉树中各个节点的路径信息确定为所述工单路径。
13.根据权利要求12所述的装置,其特征在于,所述目标多叉树中的各个节点为所述多级子标题。
14.根据权利要求12所述的装置,其特征在于,所述构建模块还用于:
基于所述工单标题所对应的会话数量对所述初始多叉树中的节点实体进行合并处理,得到所述目标多叉树。
15.根据权利要求14所述的装置,其特征在于,所述构建模块用于:
反复执行下述步骤,直至待合并节点实体的层级数大于或者等于预设层级数:
将所述初始多叉树中节点实体Ai作为所述待合并节点实体;i大于或者等于所述预设层级数;
获取所述初始多叉树中节点实体Ai所对应的会话数量;
若所述会话数量小于预设阈值,则将所述节点实体Ai和节点实体Ai-1进行合并;并将节点实体Ai-1作为待合并节点实体,所述节点实体Ai-1为所述节点实体Ai所属的上一层级的节点。
16.根据权利要求12所述的装置,其特征在于,所述工单路径的数量为多个;所述提取构建单元包括:
提取模块,用于在每条所述工单路径中提取任意两个相邻的节点实体,以及提取所述任意两个相邻的节点实体之间的层级关系;
第二确定模块,用于将所述任意两个相邻的节点实体及其层级关系确定为所述实体关系。
17.根据权利要求16所述的装置,其特征在于, 所述实体关系为三元组数据,其中,所述三元组数据中包括的元素包括:所述任意两个相邻的节点实体的名称信息、所述任意两个相邻的节点实体之间的层级关系。
18.根据权利要求12所述的装置,其特征在于,所述提取构建单元还包括:
第二获取模块,用于获取目标知识点;所述目标知识点包含提问信息和所述提问信息的回答信息;
第二构建模块,用于结合所述目标知识点和所述实体关系构建所述目标知识图谱。
19.根据权利要求18所述的装置,其特征在于,所述第二构建模块用于:
对所述目标知识点进行分词处理,得到分词序列,其中,所述分词序列中包含至少一个分词;
将所述分词序列中的各个分词和各个节点实体进行匹配;
若所述分词序列中包含和所述各个节点实体相匹配的目标分词,则构建所述目标分词和所述实体关系之间的关联关系;
基于所述关联关系和所述实体关系构建所述目标知识图谱。
20.根据权利要求19所述的装置,其特征在于,所述关联关系为三元组数据,所述三元组数据中包括以下元素:所述目标分词的名称信息,所述目标知识点,所述目标分词和所述目标知识点之间的所属关系。
21.根据权利要求20所述的装置,其特征在于,所述第二构建模块还用于:
将所述关联关系和所述实体关系映射为知识图谱,并将映射得到的知识图谱作为所述目标知识图谱。
22.根据权利要求20所述的装置,其特征在于,所述装置还用于:
若所述分词序列中包含和所述各个节点实体相匹配的目标分词,则向用户发送校验信息,以提示用户校验所述目标知识点是否属于所述目标分词;
若获取到的校验结果为校验通过,则构建所述目标分词和所述实体关系之间的关联关系。
23.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求1至11中任一所述的知识图谱的构建方法的步骤。
24.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至11中任一所述的知识图谱的构建方法的步骤。
CN201910123298.8A 2019-02-19 2019-02-19 一种知识图谱的构建方法、装置以及电子设备 Active CN111581390B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910123298.8A CN111581390B (zh) 2019-02-19 2019-02-19 一种知识图谱的构建方法、装置以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910123298.8A CN111581390B (zh) 2019-02-19 2019-02-19 一种知识图谱的构建方法、装置以及电子设备

Publications (2)

Publication Number Publication Date
CN111581390A CN111581390A (zh) 2020-08-25
CN111581390B true CN111581390B (zh) 2023-02-28

Family

ID=72112888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910123298.8A Active CN111581390B (zh) 2019-02-19 2019-02-19 一种知识图谱的构建方法、装置以及电子设备

Country Status (1)

Country Link
CN (1) CN111581390B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434501A (zh) * 2020-10-23 2021-03-02 杭州未名信科科技有限公司 工单智能生成的方法、装置、电子设备及介质
CN112988994B (zh) * 2021-03-04 2023-03-21 网易(杭州)网络有限公司 对话处理方法、装置及电子设备
CN113127649B (zh) * 2021-05-07 2023-06-06 支付宝(杭州)信息技术有限公司 图谱构建方法以及装置
CN116542634A (zh) * 2023-06-21 2023-08-04 中国电信股份有限公司 工单处理方法、装置和计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101155049A (zh) * 2006-09-25 2008-04-02 华为技术有限公司 一种消息系统中会话历史处理方法及消息系统
CN107341215A (zh) * 2017-06-07 2017-11-10 北京航空航天大学 一种基于分布式计算平台的多源垂直知识图谱分类集成查询方法
CN107784088A (zh) * 2017-09-30 2018-03-09 杭州博世数据网络有限公司 基于知识点连接关系的知识图谱构建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10311050B2 (en) * 2017-01-23 2019-06-04 International Business Machines Corporation Crowdsourced discovery of paths in a knowledge graph

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101155049A (zh) * 2006-09-25 2008-04-02 华为技术有限公司 一种消息系统中会话历史处理方法及消息系统
CN107341215A (zh) * 2017-06-07 2017-11-10 北京航空航天大学 一种基于分布式计算平台的多源垂直知识图谱分类集成查询方法
CN107784088A (zh) * 2017-09-30 2018-03-09 杭州博世数据网络有限公司 基于知识点连接关系的知识图谱构建方法

Also Published As

Publication number Publication date
CN111581390A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN111581390B (zh) 一种知识图谱的构建方法、装置以及电子设备
CN105574098B (zh) 知识图谱的生成方法及装置、实体对比方法及装置
CN106921504B (zh) 一种确定不同用户的关联路径的方法和设备
CN104050078A (zh) 测试脚本生成系统
CN111815169B (zh) 业务审批参数配置方法及装置
CN110874744B (zh) 一种数据异常检测方法及装置
CN111260102A (zh) 一种用户满意度预测方法、装置、电子设备及存储介质
CN111797022A (zh) 分单业务的测试用例生成方法、装置、电子设备及介质
CN112036153A (zh) 工单纠错方法、装置、计算机可读存储介质和计算机设备
CN104142952B (zh) 报表展示方法和装置
CN109189849B (zh) 一种标准化、流程化的数据录入方法和系统
CN109947817A (zh) 一种基于关联图谱的六度空间关系分析方法及系统
CN104965846B (zh) MapReduce平台上的虚拟人建立方法
CN112667869B (zh) 数据处理方法、设备、系统及存储介质
CN112241417B (zh) 页面数据的验证方法、装置、介质及电子设备
CN112035548A (zh) 识别模型的获取方法、识别方法、装置、设备及介质
CN111401388B (zh) 数据挖掘方法、装置、服务器及可读存储介质
CN107729457B (zh) 一种信息智能检索的方法、装置及存储介质
CN109919225A (zh) 一种基于时空数据的用户兴趣点识别的方法
CN115170575A (zh) 遥感影像变化检测及模型训练的方法及设备
CN114693429A (zh) 服务提供方和服务对象双向匹配选择方法及系统
CN107506473A (zh) 一种基于云计算的大数据检索方法
CN109743203B (zh) 一种基于量化信息流的分布式服务安全组合系统及方法
CN109684451B (zh) 一种信息处理方法和电子设备
CN109189912A (zh) 用户咨询语句库的更新方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant