CN109710942B - 图谱的构建方法及装置、电子设备 - Google Patents

图谱的构建方法及装置、电子设备 Download PDF

Info

Publication number
CN109710942B
CN109710942B CN201811632551.4A CN201811632551A CN109710942B CN 109710942 B CN109710942 B CN 109710942B CN 201811632551 A CN201811632551 A CN 201811632551A CN 109710942 B CN109710942 B CN 109710942B
Authority
CN
China
Prior art keywords
map
user
node
customer service
dialogue data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811632551.4A
Other languages
English (en)
Other versions
CN109710942A (zh
Inventor
冯梦盈
曾文佳
宋成业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lingxi Beijing Technology Co Ltd
Original Assignee
Lingxi Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lingxi Beijing Technology Co Ltd filed Critical Lingxi Beijing Technology Co Ltd
Priority to CN201811632551.4A priority Critical patent/CN109710942B/zh
Publication of CN109710942A publication Critical patent/CN109710942A/zh
Application granted granted Critical
Publication of CN109710942B publication Critical patent/CN109710942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种图谱的构建方法及装置、电子设备,包括获取及预处理目标领域内的对话数据;将预处理后的对话数据进行语义角色标注并获取对话数据的论元;根据对话数据的论元以及业务实体,构建用户图谱节点和客服图谱节点;计算用户图谱节点与客服图谱节点之间的图谱向量相似度,若满足条件,则合并用户图谱节点和客服图谱节点;在合并处理后的图谱节点中,提取次数超过预设阈值的知识点及事件关系,根据知识点构造知识图谱,根据事件关系构造事理图谱,得到目标领域对应的图谱;缓解了图谱的构建过程依赖专业人员的梳理,建设成本高,维护的实体多,构建的图谱精度低、耗时长的技术问题,降低了图谱的建设成本及维护成本,提高了图谱的精度。

Description

图谱的构建方法及装置、电子设备
技术领域
本发明涉及人工智能技术领域,尤其是涉及一种图谱的构建方法及装置、电子设备。
背景技术
随着人工智能技术的发展,对话机器人逐渐应用在客服、外呼、销售等诸多领域中,为客户提供筛选资讯、解答咨询问题、实现简单任务等功能,但是,随着技术的发展,客户对对话机器人的需求千差万别,对话机器人要满足舒适性、灵活性、个性化的要求,同时市场竞争的全球化,使得对对话机器人能力的要求也在不断提高。
对话机器人从最初的搜索式一问一答,演进到如今的分类式服务导航、任务式多轮对话,对话机器人与知识图谱的耦合日益加深,对话机器人对知识图谱的搜索不再满足于文本匹配式的词语知识、句法依存式的语义网络、或者统计分析式的文本搜索,因此,当对话机器人与垂直领域的业务场景紧密结合时,具有业务知识及推理计算能力的图谱成为构建对话机器人的必经之路,在一定领域的业务范围内,该图谱具有识别用户描述的隐藏含义、推断用户描述的事理缘由、计算和归一化用户诉求的能力。
现有技术中,在一定领域的业务范围内,构建图谱的方式为前期专业人员介入,梳理图谱结构,然后由业务人员根据图谱结构对业务内容、实体关系等信息进行填充,使得图谱的构建过程依赖于前期专业人员的梳理,建设成本高,需要维护的实体多,构建的图谱精度低、耗时长。
发明内容
有鉴于此,本发明的目的在于提供一种图谱的构建方法及装置、电子设备,以缓解现有技术中存在的图谱的构建过程依赖于前期专业人员的梳理,建设成本高,需要维护的实体多,构建的图谱精度低、耗时长的技术问题。
第一方面,本发明实施例提供了一种图谱的构建方法,所述图谱应用于对话机器人中,所述图谱包括知识图谱及事理图谱,所述方法包括:
获取目标领域内标注了业务诉求的对话数据;
对所述对话数据进行预处理;
将预处理之后的所述对话数据进行语义角色标注,基于所述语义角色标注获取所述对话数据的论元;
根据所述对话数据的论元以及预设的所述目标领域对应的业务实体,构建用户图谱节点和客服图谱节点;
计算所述用户图谱节点与所述客服图谱节点之间的图谱向量相似度,若所述图谱向量相似度大于预设的图谱向量相似度阈值,合并所述用户图谱节点和所述客服图谱节点;
在合并处理后的图谱节点中,提取次数超过预设阈值的知识点及事件关系,根据所述知识点构造知识图谱,根据所述事件关系构造事理图谱,得到所述目标领域对应的图谱。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述将预处理之后的所述对话数据进行语义角色标注,基于所述语义角色标注获取所述对话数据的论元,包括:
将预处理之后的所述对话数据输入到已训练好的语义角色模型中,对所述对话数据进行语义角色标注,基于进行语义角色标注的对话数据获取所述对话数据的论元;
所述语义角色模型通过长短时记忆神经网络训练得到。
结合第一方面第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述对所述对话数据进行语义角色标注,基于进行语义角色标注的对话数据获取所述对话数据的论元,包括:
将所述对话数据进行依存句法分析,得到句法分析树;
从所述句法分析树上识别所述对话数据中的谓词;
根据所述谓词确定对应的论元;
对所述论元进行分析,得到所述论元的语义角色标签并标注。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述根据所述对话数据的论元以及预设的所述目标领域对应的业务实体,构建用户图谱节点和客服图谱节点,包括:
分别获取所述对话数据中用户对话对应的论元及客服对所述用户的回答对应的论元;
基于所述业务实体和所述用户对话对应的论元,构造所述用户对话对应的用户图谱节点;
基于所述业务实体和所述客服对所述用户的回答对应的论元,构造所述客服对该用户的回答对应的客服图谱节点。
结合第一方面第三种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述计算所述用户图谱节点与所述客服图谱节点之间的图谱向量相似度,若所述图谱向量相似度大于预设的图谱向量相似度阈值,合并所述用户图谱节点和所述客服图谱节点,包括:
对所述用户图谱节点及所述客服图谱节点进行图谱向量化处理,计算所述用户图谱节点的向量及所述客服图谱节点的向量之间的图谱向量相似度;
若所述图谱向量相似度大于图谱向量相似度阈值,则所述用户图谱节点及所述客服图谱节点存在同义实体;
统一所述同义实体,基于所述业务实体,将所述用户图谱节点及所述客服图谱节点合并为一个图谱节点。
结合第一方面第三种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,在分别获取所述对话数据中用户对话对应的论元及客服对所述用户的回答对应的论元之前,所述方法还包括:
当所述对话数据中包括指代词语,则对所述对话数据进行指代消解操作。
结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,在得到合并处理后的图谱节点之后,所述方法还包括:
对合并处理后的图谱节点进行更新操作,所述更新操作包括:新增操作及修改操作。
结合第一方面至第一方面的第六种可能的实施方式,本发明实施例提供了第一方面的第七种可能的实施方式,其中,所述对所述对话数据进行预处理,包括:
对所述对话数据中的用户对话进行归一化处理。
第二方面,本发明实施例还提供一种图谱的构建装置,所述图谱应用于对话机器人中,所述图谱包括知识图谱及事理图谱,所述装置包括:
对话数据获取模块,用于获取目标领域内标注了业务诉求的对话数据;
数据处理模块,用于对所述对话数据进行预处理;
语义角色标注模块,用于将预处理之后的所述对话数据进行语义角色标注,基于所述语义角色标注获取所述对话数据的论元;
图谱节点构建模块,用于根据所述对话数据的论元以及预设的所述目标领域对应的业务实体,构建用户图谱节点和客服图谱节点;
图谱节点合并模块,用于计算所述用户图谱节点与所述客服图谱节点之间的图谱向量相似度,若所述图谱向量相似度大于预设的图谱向量相似度阈值,合并所述用户图谱节点和所述客服图谱节点;
图谱构造模块,用于在合并处理后的图谱节点中,提取次数超过预设阈值的知识点及事件关系,根据所述知识点构造知识图谱,根据所述事件关系构造事理图谱,得到所述目标领域对应的图谱。
第三方面,本发明实施例还提供一种电子设备,所述电子设备包括存储器和处理器;所述存储器用于存储支持处理器执行权利要求1至8任一项所述方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明实施例带来了以下有益效果:本发明提供了一种图谱的构建方法及装置、电子设备,包括:获取目标领域内标注了业务诉求的对话数据;对对话数据进行预处理;将预处理之后的对话数据进行语义角色标注,基于语义角色标注获取对话数据的论元;根据对话数据的论元以及预设的目标领域对应的业务实体,构建用户图谱节点和客服图谱节点;计算用户图谱节点与客服图谱节点之间的图谱向量相似度,若图谱向量相似度大于预设的图谱向量相似度阈值,合并用户图谱节点和客服图谱节点;在合并处理后的图谱节点中,提取次数超过预设阈值的知识点及事件关系,根据知识点构造知识图谱,根据事件关系构造事理图谱,得到目标领域对应的图谱;本发明提供的一种图谱的构建方法及装置,根据预处理后的对话数据中获取论元,根据论元得到图谱节点,进一步得到了知识图谱及事理图谱,不需要专业人员进行梳理,且该图谱是基于获取的对话数据构建的,当对话数据发生改变时,图谱能够根据改变的对话数据进行更新,缓解了现有技术中存在的图谱的构建过程依赖于前期专业人员的梳理,建设成本高,需要维护的实体多,构建的图谱精度低的技术问题,降低了图谱的建设成本及维护成本,提高了图谱的精度。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种图谱的构建方法的流程图;
图2为本发明实施例提供的另一种图谱的构建方法的流程图;
图3为本发明实施例提供的一种图谱的构建装置的结构示意图;
图4为本发明实施例提供的另一种图谱的构建装置的结构示意图。
图标:31-对话数据获取模块;32-数据处理模块;33-语义角色标注模块;34-图谱节点构建模块;35-图谱节点合并模块;36-图谱构造模块;341-获取单元;342-用户图谱节点单元;343-客服图谱节点单元。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前现有技术中,在一定领域的业务范围内,构建图谱的方式为前期专业人员介入,梳理图谱结构,然后由业务人员根据图谱结构对业务内容、实体关系等信息进行填充,使得图谱的构建过程依赖于前期专业人员的梳理,建设成本高,需要维护的实体多,构建的图谱精度低、耗时长,基于此,本发明实施例提供的一种构建图谱的方法及装置,可以缓解现有技术中存在的图谱的构建过程依赖于前期专业人员的梳理,建设成本高,需要维护的实体多,构建的图谱精度低、耗时长的技术问题,减小了成本,提高了图谱的精度。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种图谱的构建方法进行详细介绍。
实施例一:
本发明实施例提供了一种图谱的构建方法,参见图1所示的一种图谱的构建方法的流程图,该图谱应用于对话机器人中,图谱包括知识图谱及事理图谱,该方法包括:
步骤S101:获取目标领域内标注了业务诉求的对话数据;
具体的,该对话数据包括用户对话及客服对用户的回答,且对话数据的数量为千条及以上,其中,对话数据的数量可以根据实际需要进行设置,对此本发明实施例不作具体限制;业务诉求为目标领域内用户的一般诉求,例如,在航空领域内,业务诉求包括:查询航班、办理退款、更改密码等。
步骤S102:对对话数据进行预处理;
对对话数据进行预处理,包括去掉对话数据中的标点、表情、英文等干扰图谱构建的文字,例如,对话数据中用户对话为“路由器/的/红灯/一直/闪/。”,对该用户对话进行预处理得到:“路由器/红灯/一直/闪”;进一步的,对对话数据进行预处理还包括对用户对话进行归一化处理,具体的,在对话数据中,客服对用户的回答具有统一、标准、术语使用规范的特点,根据客服对用户的回答可以对用户对话进行归一化处理,例如,若用户对话:我要退票,客服对用户的回答:客户不好意思,为你造成了不便;则根据客服回答的“为你造成了不便”,对用户对话归一化为“客户要退票”;若不对用户对话进行归一化处理,在后续进行图谱节点构建时可能产生冗余的节点,对图谱节点的构造产生干扰,例如,用户对话为路由器坏了,根据用户对话可能产生3个节点:路由器坏了;路由坏了;猫坏了;其中,路由坏了及猫坏了为冗余节点,若对用户对话进行归一化处理,即根据客服回答:请检查路由器网线是否插好,归一化用户对话为:路由器坏了,进而不会产生冗余节点;对用户对话进行归一化处理可以减少对用户对话的标注过程,减少了标注的时间成本,提高了标注的精度,进一步提高了图谱构建的精度及减小了图谱构建的成本。
步骤S103:将预处理之后的对话数据进行语义角色标注,基于语义角色标注获取对话数据的论元;
具体的,将预处理之后的对话数据输入到已训练好的语义角色模型中,对该对话数据进行语义角色标注,基于进行语义角色标注的对话数据获取对话数据的论元;其中,语义角色模型通过长短时记忆神经网络训练得到。
对对话数据进行语义角色标注,基于进行语义角色标注的对话数据获取对话数据的论元,包括:将对话数据进行依存句法分析,得到句法分析树;从句法分析树上识别对话数据中的谓词;根据谓词确定对应的论元;对论元进行分析,得到论元的语义角色标签并标注,例如,用户对话为路由器的红灯一直闪,进行语义角色标注后可知谓词为闪,论元为红灯、路由器、一直,具体的,对得到的论元进行语义角色标签得到,附加:路由器,频率:一直,施事:红灯。
步骤S104:根据对话数据的论元以及预设的目标领域对应的业务实体,构建用户图谱节点和客服图谱节点;
具体的,业务实体为在目标领域内标注的重要的实体,该业务实体的数量为多个,业务实体的数量可以根据实际需要进行设置,例如,宽带领域内的实体包括:路由器、端口、网线等。
具体的,参见图2所示的一种图谱的构建方法的流程图,该步骤包括:
步骤S1041:分别获取对话数据中用户对话对应的论元及客服对用户回答对应的论元;
具体的,例如,用户对话为路由器的红灯一直闪;则获取到用户对话的论元为红灯、路由器、一直。
在分别获取对话数据中用户对话对应的论元及客服对用户的回答对应的论元之前,判断对话数据中是否存在指代词语,若存在,则对对话数据进行指代消解操作,例如,用户对话为路由器的红灯一直闪;客服回答为它可能坏了,请您检查下网线是否插紧了,则出现指代词语“它”,根据用户对话可知它指代路由器,将路由器带入可知客服回答为路由器可能坏了,请您检查下网线是否插紧了。
步骤S1042:基于业务实体和用户对话对应的论元,构造用户对话对应的用户图谱节点;
例如,获取到用户对话的论元为红灯、路由器、一直,而在宽带领域内的实体包括:路由器、端口、网线等,则基于业务实体和用户对话论元构造的用户图谱节点为:((路由器,红灯),一直,闪)。
步骤S1043:基于业务实体和客服对用户的回答对应的论元,构造客服对该用户的回答对应的客服图谱节点。
步骤S105:计算用户图谱节点与客服图谱节点之间的图谱向量相似度,若图谱向量相似度大于预设的图谱向量相似度阈值,合并用户图谱节点和客服图谱节点;
具体的,步骤S105包括:
对用户图谱节点及客服图谱节点进行图谱向量化处理,计算用户图谱节点的向量及客服图谱节点的向量之间的图谱向量相似度;
本发明实施例中,若图谱向量相似度大于图谱向量相似度阈值,则用户图谱节点及客服图谱节点存在同义实体;
本发明实施例中,具体的,将用户图谱节点及客服图谱节点输入到向量化模型中,对用户图谱节点及客服图谱节点进行图谱向量化处理,每个图谱节点对应一个n维向量值,计算用户图谱节点向量及客服图谱节点向量之间的夹角的余弦值,即为向量之间的相似度,根据向量之间的相似度判断用户图谱节点及客服图谱节点是否存在同义实体,若不同图谱节点的向量满足预设的条件,即图谱向量相似度大于预设的图谱向量相似度阈值,则判断不同图谱节点之间为同义实体,具体的,图谱向量相似度阈值可以根据实际的需要进行设置,例如,若用户图谱节点中的实体为路由器,对应的n维向量为V1(0.1,0.13,0.22,…,0.21),客服图谱节点中的实体为路由,对应的n维向量为V2(0.11,0.14,0.21,…,0.19),计算两个向量之间的夹角的余弦值cos(V1,V2),若夹角的余弦值大于预设的阈值,则判断路由器与路由为同义实体,即用户图谱节点与客服图谱节点存在同义实体。
统一同义实体,基于业务实体,将用户图谱节点及所述客服图谱节点合并为一个图谱节点。
若不存在同义实体,则客服回答的内容与用户对话的内容不匹配,放弃该对话数据,该对话数据不能用于生成图谱节点。
步骤S106:在合并处理后的图谱节点中,提取次数超过预设阈值的知识点及事件关系,根据知识点构造知识图谱,根据事件关系构造事理图谱,得到目标领域对应的图谱。
具体的,例如,图谱节点为(路由器/红灯/闪),则若路由器与红灯的次数超过预设阈值,则提取知识点路由器、红灯,根据业务实体路由器,提取知识点红灯与业务实体之间的关系,即红灯和路由器之间存在关联关系,根据路由器的红灯、路由器上的红灯、路由器上面的红灯等描述,得到知识图谱;
根据路由器红灯闪的对应关系路由器坏了等描述中,提取事理关系,即路由器红灯闪与路由器坏了之间为因果关系,进一步得到事理图谱,从而根据事理图谱可推断出用户对话的真实诉求为障碍报修。
本发明实施例通过提供了一种图谱的构建方法,其包括:获取目标领域内标注了业务诉求的对话数据;对对话数据进行预处理;将预处理之后的对话数据进行语义角色标注,基于语义角色标注获取对话数据的论元;根据对话数据的论元以及预设的目标领域对应的业务实体,构建用户图谱节点和客服图谱节点;计算用户图谱节点与客服图谱节点之间的图谱向量相似度,若图谱向量相似度大于预设的图谱向量相似度阈值,合并用户图谱节点和客服图谱节点;在合并处理后的图谱节点中,提取次数超过预设阈值的知识点及事件关系,根据知识点构造知识图谱,根据事件关系构造事理图谱,得到目标领域对应的图谱;本发明提供的一种图谱的构建方法,根据预处理后的对话数据中获取论元,根据论元得到图谱节点,进一步得到了知识图谱及事理图谱,不需要专业人员进行梳理,且该图谱是基于获取的对话数据构建的,当对话数据发生改变时,图谱能够根据改变的对话数据进行更新,缓解了现有技术中存在的图谱的构建过程依赖于前期专业人员的梳理,建设成本高,需要维护的实体多,构建的图谱精度低、耗时长的技术问题,降低了图谱的建设成本及维护成本,提高了图谱的精度。
作为一个可选实施例,在得到合并处理后的图谱节点之后,该方法还包括:
对合并处理后的图谱节点进行更新操作,该更新操作包括:新增操作及修改操作。
具体的,更新操作包括:
获取目标领域内标注了业务诉求的更新数据,对更新数据进行预处理;
将预处理之后的更新数据进行语义角色标注,基于语义角色标注获取更新数据的论元,根据更新数据的论元构建用户图谱节点和客服图谱节点;
计算更新数据的用户图谱节点与客服图谱节点之间的图谱向量相似度,若图谱向量相似度大于预设的图谱向量相似度阈值,合并用户图谱节点和客服图谱节点,得到更新图谱节点;
获取更新图谱节点与合并处理后的图谱节点中的实体及事理关系,判断合并处理后的图谱节点中是否存在更新图谱节点中的实体及事理关系,若不存在,则将更新图谱节点中的实体及事理关系添加到合并处理后的图谱节点中进行新增操作,形成新增后的图谱节点。
本发明实施例中,若合并处理后的图谱节点中存在更新图谱节点中的实体及事理关系,则判断实体及事理关系是否相同,若不相同,则对合并处理后的图谱节点进行修改操作;
具体的,统计合并处理后的图谱节点及更新图谱节点中实体及事理关系出现的次数,将次数较多的实体及事理关系输入到合并处理后的图谱节点中,对合并处理后的图谱节点进行修改。
实施例二:
在上述实施例的基础上,本发明实施例还提供了一种图谱的构建装置,如图3所示的是一种图谱的构建装置的结构示意图,图谱应用于对话机器人中,图谱包括知识图谱及事理图谱,该装置包括:
对话数据获取模块31,用于获取目标领域内标注了业务诉求的对话数据;
数据处理模块32,用于对对话数据进行预处理;
语义角色标注模块33,用于将预处理之后的对话数据进行语义角色标注,基于语义角色标注获取对话数据的论元;
图谱节点构建模块34,用于根据对话数据的论元以及预设的目标领域对应的业务实体,构建用户图谱节点和客服图谱节点;
图谱节点合并模块35,用于计算用户图谱节点与客服图谱节点之间的图谱向量相似度,若图谱向量相似度大于预设的图谱向量相似度阈值,合并用户图谱节点和客服图谱节点;
图谱构造模块36,用于在合并处理后的图谱节点中,提取次数超过预设阈值的知识点及事件关系,根据知识点构造知识图谱,根据事件关系构造事理图谱,得到目标领域对应的图谱。
作为一可选实施例,语义角色标注模块33,包括:
论元获取单元,用于将预处理之后的对话数据输入到已训练好的语义角色模型中,对对话数据进行语义角色标注,基于进行语义角色标注的对话数据获取对话数据的论元;
语义角色模型通过长短时记忆神经网络训练得到。
进一步的,论元获取单元包括:
句法分析单元,用于将对话数据进行依存句法分析,得到句法分析树;
谓词识别单元,用于从句法分析树上识别对话数据中的谓词;
论元确定单元,用于根据谓词确定对应的论元;
角色标注单元,用于对论元进行分析,得到论元的语义角色标签并标注。
作为一可选实施例,参见如图4所示的一种图谱的构建装置的结构示意图,图谱节点构建模块34,包括:
获取单元341,用于分别获取对话数据中用户对话对应的论元及客服对用户的回答对应的论元;
用户图谱节点单元342,用于基于业务实体和用户对话对应的论元,构造用户对话对应的用户图谱节点;
客服图谱节点单元343,用于基于业务实体和客服对用户的回答对应的论元,构造客服对用户的回答对应的客服图谱节点。
作为一可选实施例,图谱节点合并模块35,包括:
实体判断单元,用于对用户图谱节点及客服图谱节点进行图谱向量化处理,计算用户图谱节点的向量及客服图谱节点的向量之间的图谱向量相似度;
若图谱向量相似度大于图谱向量相似度阈值,则用户图谱节点及客服图谱节点存在同义实体;
合并单元,统一同义实体,基于业务实体,将用户图谱节点及客服图谱节点合并为一个图谱节点。
作为一可选实施例,图谱的构建装置还包括:
指代消解模块,用于当对话数据中包括指代词语,则对对话数据进行指代消解操作。
作为一可选实施例,该装置还包括:
图谱节点更新模块,用于对合并处理后的图谱节点进行更新操作,更新操作包括:新增操作及修改操作。
作为一可选实施例,数据处理模块32,包括:
归一化单元,用于对对话数据中的用户对话进行归一化处理。
本发明实施例提供的图谱的构建装置,与上述实施例提供的图谱的构建方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
实施例三:
在上述实施例的基础上,本发明实施例提供了一种电子设备,所述电子设备包括存储器和处理器;所述存储器用于存储支持处理器执行实施例一所述方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明实施例所提供的进行图谱的构建方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种图谱的构建方法,其特征在于,所述图谱应用于对话机器人中,所述图谱包括知识图谱及事理图谱,所述方法包括:
获取目标领域内标注了业务诉求的对话数据;
对所述对话数据进行预处理;
将预处理之后的所述对话数据进行语义角色标注,基于所述语义角色标注获取所述对话数据的论元;
根据所述对话数据的论元以及预设的所述目标领域对应的业务实体,构建用户图谱节点和客服图谱节点;
计算所述用户图谱节点与所述客服图谱节点之间的图谱向量相似度,若所述图谱向量相似度大于预设的图谱向量相似度阈值,合并所述用户图谱节点和所述客服图谱节点;
在合并处理后的图谱节点中,提取次数超过预设阈值的知识点及事件关系,根据所述知识点构造知识图谱,根据所述事件关系构造事理图谱,得到所述目标领域对应的图谱。
2.根据权利要求1所述的方法,其特征在于,所述将预处理之后的所述对话数据进行语义角色标注,基于所述语义角色标注获取所述对话数据的论元,包括:
将预处理之后的所述对话数据输入到已训练好的语义角色模型中,对所述对话数据进行语义角色标注,基于进行语义角色标注的对话数据获取所述对话数据的论元;
所述语义角色模型通过长短时记忆神经网络训练得到。
3.根据权利要求2所述的方法,其特征在于,所述对所述对话数据进行语义角色标注,基于进行语义角色标注的对话数据获取所述对话数据的论元,包括:
将所述对话数据进行依存句法分析,得到句法分析树;
从所述句法分析树上识别所述对话数据中的谓词;
根据所述谓词确定对应的论元;
对所述论元进行分析,得到所述论元的语义角色标签并标注。
4.根据权利要求1所述的方法,其特征在于,所述根据所述对话数据的论元以及预设的所述目标领域对应的业务实体,构建用户图谱节点和客服图谱节点,包括:
分别获取所述对话数据中用户对话对应的论元及客服对所述用户的回答对应的论元;
基于所述业务实体和所述用户对话对应的论元,构造所述用户对话对应的用户图谱节点;
基于所述业务实体和所述客服对所述用户的回答对应的论元,构造所述客服对所述用户的回答对应的客服图谱节点。
5.根据权利要求4所述的方法,其特征在于,所述计算所述用户图谱节点与所述客服图谱节点之间的图谱向量相似度,若所述图谱向量相似度大于预设的图谱向量相似度阈值,合并所述用户图谱节点和所述客服图谱节点,包括:
对所述用户图谱节点及所述客服图谱节点进行图谱向量化处理,计算所述用户图谱节点的向量及所述客服图谱节点的向量之间的图谱向量相似度;
若所述图谱向量相似度大于图谱向量相似度阈值,则所述用户图谱节点及所述客服图谱节点存在同义实体;
统一所述同义实体,基于所述业务实体,将所述用户图谱节点及所述客服图谱节点合并为一个图谱节点。
6.根据权利要求4所述的方法,其特征在于,在分别获取所述对话数据中用户对话对应的论元及客服对所述用户的回答对应的论元之前,所述方法还包括:
当所述对话数据中包括指代词语,则对所述对话数据进行指代消解操作。
7.根据权利要求1所述的方法,其特征在于,在得到合并处理后的图谱节点之后,所述方法还包括:
对合并处理后的图谱节点进行更新操作,所述更新操作包括:新增操作及修改操作。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述对所述对话数据进行预处理,包括:
对所述对话数据中的用户对话进行归一化处理。
9.一种图谱的构建装置,其特征在于,所述图谱应用于对话机器人中,所述图谱包括知识图谱及事理图谱,所述装置包括:
对话数据获取模块,用于获取目标领域内标注了业务诉求的对话数据;
数据处理模块,用于对所述对话数据进行预处理;
语义角色标注模块,用于将预处理之后的所述对话数据进行语义角色标注,基于所述语义角色标注获取所述对话数据的论元;
图谱节点构建模块,用于根据所述对话数据的论元以及预设的所述目标领域对应的业务实体,构建用户图谱节点和客服图谱节点;
图谱节点合并模块,用于计算所述用户图谱节点与所述客服图谱节点之间的图谱向量相似度,若所述图谱向量相似度大于预设的图谱向量相似度阈值,合并所述用户图谱节点和所述客服图谱节点;
图谱构造模块,用于在合并处理后的图谱节点中,提取次数超过预设阈值的知识点及事件关系,根据所述知识点构造知识图谱,根据所述事件关系构造事理图谱,得到所述目标领域对应的图谱。
10.一种电子设备,其特征在于,所述电子设备包括存储器和处理器;所述存储器用于存储支持处理器执行权利要求1至8任一项所述方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
CN201811632551.4A 2018-12-28 2018-12-28 图谱的构建方法及装置、电子设备 Active CN109710942B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811632551.4A CN109710942B (zh) 2018-12-28 2018-12-28 图谱的构建方法及装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811632551.4A CN109710942B (zh) 2018-12-28 2018-12-28 图谱的构建方法及装置、电子设备

Publications (2)

Publication Number Publication Date
CN109710942A CN109710942A (zh) 2019-05-03
CN109710942B true CN109710942B (zh) 2022-11-18

Family

ID=66258211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811632551.4A Active CN109710942B (zh) 2018-12-28 2018-12-28 图谱的构建方法及装置、电子设备

Country Status (1)

Country Link
CN (1) CN109710942B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977237B (zh) * 2019-05-27 2019-09-10 南京擎盾信息科技有限公司 一种面向法律领域的动态法律事件图谱构建方法
CN110245198B (zh) * 2019-06-18 2021-08-27 北京百度网讯科技有限公司 多源售票数据管理方法及系统、服务器和计算机可读介质
CN112836059B (zh) * 2019-11-25 2024-07-12 北京搜狗科技发展有限公司 医疗图谱建立方法及装置、医疗图谱查询方法及装置
CN111178940B (zh) * 2019-12-11 2023-09-01 北京明略软件系统有限公司 一种自动生成销售话术图谱的方法和系统
CN111813914B (zh) * 2020-07-13 2021-07-06 龙马智芯(珠海横琴)科技有限公司 基于字典树的问答方法、装置、识别设备及可读存储介质
CN112182242A (zh) * 2020-09-27 2021-01-05 武汉大学 一种面向电力作业全过程的安全管控知识图谱构建方法
CN112559758A (zh) * 2020-11-30 2021-03-26 北京百度网讯科技有限公司 构建知识图谱的方法、装置、设备和计算机可读存储介质
CN112686528B (zh) * 2020-12-28 2024-04-05 京东科技控股股份有限公司 用于分配客服资源的方法、装置、服务器和介质
CN113239170B (zh) * 2021-06-01 2023-11-28 平安科技(深圳)有限公司 基于相互角色感知的对话生成方法、装置、设备及介质
CN114817575B (zh) * 2022-06-24 2022-09-02 国网浙江省电力有限公司信息通信分公司 基于扩展模型的大规模电力事理图谱处理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018072563A1 (zh) * 2016-10-18 2018-04-26 中兴通讯股份有限公司 一种知识图谱构建方法、装置及系统
CN108763555A (zh) * 2018-06-01 2018-11-06 北京奇虎科技有限公司 基于需求词的画像数据获取方法及装置
CN108763556A (zh) * 2018-06-01 2018-11-06 北京奇虎科技有限公司 基于需求词的用户挖掘方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018072563A1 (zh) * 2016-10-18 2018-04-26 中兴通讯股份有限公司 一种知识图谱构建方法、装置及系统
CN108763555A (zh) * 2018-06-01 2018-11-06 北京奇虎科技有限公司 基于需求词的画像数据获取方法及装置
CN108763556A (zh) * 2018-06-01 2018-11-06 北京奇虎科技有限公司 基于需求词的用户挖掘方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
大规模知识图谱及其应用研究;孙雨生等;《情报理论与实践》;20181127(第11期);全文 *
电网公司客户服务知识图谱构建的应用价值;田晓等;《山东电力技术》;20151225(第12期);全文 *

Also Published As

Publication number Publication date
CN109710942A (zh) 2019-05-03

Similar Documents

Publication Publication Date Title
CN109710942B (zh) 图谱的构建方法及装置、电子设备
CN111428044B (zh) 多模态获取监管识别结果的方法、装置、设备及存储介质
CN110781276B (zh) 文本抽取方法、装置、设备及存储介质
US11170179B2 (en) Systems and methods for natural language processing of structured documents
CN110020422B (zh) 特征词的确定方法、装置和服务器
CN110222045B (zh) 一种数据报表获取方法、装置及计算机设备、存储介质
US20160293034A1 (en) Question answering system-based generation of distractors using machine learning
CN110909165A (zh) 数据处理方法、装置、介质及电子设备
CN111400471B (zh) 问题推荐方法、系统、电子设备和存储介质
CN110598070A (zh) 应用类型识别方法及装置、服务器及存储介质
CN113569578B (zh) 一种用户意图识别方法、装置和计算机设备
KR102307380B1 (ko) 자연어 처리 기반 콜센터 지원 시스템 및 방법
US11907863B2 (en) Natural language enrichment using action explanations
CN111783424B (zh) 一种文本分句方法和装置
CN112163081A (zh) 标签确定方法、装置、介质及电子设备
CN117520503A (zh) 基于llm模型的金融客服对话生成方法、装置、设备及介质
CN115204886A (zh) 账户识别的方法、装置、电子设备和存储介质
CN115186650A (zh) 数据检测方法及相关装置
CN113204643B (zh) 一种实体对齐方法、装置、设备及介质
CN114579725A (zh) 问答对生成方法、装置、电子设备和存储介质
CN112287111A (zh) 一种文本处理方法和相关装置
CN115221892B (zh) 工单数据处理方法及装置、存储介质及电子设备
CN116578700A (zh) 日志分类方法、日志分类装置、设备及介质
CN115859973A (zh) 文本特征提取方法、装置、非易失性存储介质及电子设备
CN115080744A (zh) 一种数据处理的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant