CN112199488B - 面向电力客服问答的渐增式知识图谱实体抽取方法和系统 - Google Patents
面向电力客服问答的渐增式知识图谱实体抽取方法和系统 Download PDFInfo
- Publication number
- CN112199488B CN112199488B CN202011218596.4A CN202011218596A CN112199488B CN 112199488 B CN112199488 B CN 112199488B CN 202011218596 A CN202011218596 A CN 202011218596A CN 112199488 B CN112199488 B CN 112199488B
- Authority
- CN
- China
- Prior art keywords
- entity
- entities
- customer service
- power customer
- coexistence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 29
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000012216 screening Methods 0.000 claims abstract description 11
- 238000010276 construction Methods 0.000 claims description 13
- 238000005516 engineering process Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- General Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Animal Behavior & Ethology (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种面向电力客服问答的渐增式知识图谱实体抽取方法和系统,所述方法包括将电力客服历史问答记录数据作为基础语料,形成基础数据集;在基础数据集上进行命名实体和事件实体的抽取并设置实体间的共存关系,形成初始种子实体集;在电力客服领域语料数据上进行命名实体和事件实体的抽取并构建实体间的共存关系,形成每个数据源对应的实体集;从每个电力客服语料数据源对应的实体集中筛选实体以扩展种子实体集,形成面向电力客服问答知识图谱的实体集。本发明具有自主选择语料数据和实体的能力。
Description
技术领域
本发明属于智能问答的实际应用技术领域,涉及一种面向电力客服问答的渐增式知识图谱实体抽取方法和系统。
背景技术
目前,在智能问答的实际应用领域,多采用的是基于常见问答数据集的方式,即依据常见问答对构成的初始数据,对输入问题,检索常见问答数据集问中与之匹配的问题,直接查询与之匹配问题的答案,作为输入问题的答案。这种检索方法是目前实现智能问答的一种重要技术途径,但是,检索方法对初始常见问答数据的依赖性非常强,其可行性很大程度上依赖于采集常见问答数据的覆盖度和精确性。
在电力客服领域,基于检索方法构建的领域问答系统确实能回答领域中相当一部分的问题,但是由于缺乏电力客服领域知识,难以求解需要利用领域知识之间的关联、逻辑、因果等关系推理生成答案的复杂问题。
当前,通过构建电力客服知识图谱形成领域知识库,是支撑复杂问题求解的关键技术。在电力客服领域,由于大量的用户、营销、产品、政策、条例、规章等数据资料用语用词规范,采用模板和机器学习方法,命名实体识别和事件识别能够达到较高精确度。然而,电力客服业务范围广,涉及到从客户到电力产品、网络营销等多方面的知识,构建完整的电力客服知识图谱既面临着大规模数据整理和劳务成本高昂、大规模多源异构数据处理难等诸多问题,也面临大规模知识图谱对智能问答针对性不强、运行效率低下的问题。如何构建专门针对电力客服问答的知识图谱,是亟待解决的问题。构建面向电力客服问答的知识图谱,首先要有针对性地从大规模异构电力客服领域数据中抽取实体,形成专门针对电力客服问答的实体集。
随着电力客服人员的规范梳理和长期积累,以及智能问答系统的初步应用,形成了大量的问答对话记录,利用这些数据中问答文本的实体信息作为出发点和启发信息,使得有选择地从大量电力客服语料数据中专门针对电力客服问答渐增式地实体抽取成为可能。
探索面向电力客服问答的渐增式知识图谱实体抽取有三个关键问题需要解决:
(1)如何构建初始种子实体集;
(2)利用已有的电力客服问答记录数据,如何构建对电力客服语料数据的评判模型,形成从大规模语料数据中判定能够面向电力客服问答知识图谱实体抽取的数据源的方法;
(3)如何从语料数据源的实体中选择能够面向电力客服问答的实体。
发明内容
为解决现有技术中的不足,本申请提供一种面向电力客服问答的渐增式知识图谱实体抽取方法,能够采用已有电力客服问答的历史记录,通过命名实体识别和事件实体识别技术基于这些历史记录形成初始种子实例集,并利用电力客服语料数据中实体间的共存关系,形成一种面向电力客服问答的渐增式知识图谱实体抽取方法,该方法的构建过程具有自主选择语料数据和实体的能力。
为了实现上述目标,本发明采用如下技术方案:
一种面向电力客服问答的渐增式知识图谱实体抽取方法,其特征在于:
所述方法包括以下步骤:
步骤S1,将电力客服历史问答记录数据作为基础语料,形成由问题-答案对构成的电力客服问答实体识别基础数据集;
步骤S2,使用命名实体识别和事件识别的方法,在基础数据集上进行命名实体和事件实体的抽取并设置实体间的共存关系,形成面向电力客服问答的知识图谱初始种子实体集;
步骤S3,使用命名实体识别和事件识别的方法,在除基础数据集之外的电力客服领域语料数据上进行命名实体和事件实体的抽取并构建实体间的共存关系,形成每个电力客服语料数据源对应的实体集;
步骤S4,根据实体间的共存关系及共存关联路径距离,从每个电力客服语料数据源对应的实体集中筛选实体以扩展种子实体集,形成面向电力客服问答知识图谱的实体集。
本发明进一步包括以下优选方案:
优选地,步骤S2包括:
步骤S21,对电力客服问答实体识别基础数据集中的问题语料抽取实体:
应用命名实体识别和事件识别技术,结合电力客服领域术语表,依据语料标注中的语义标签,抽取历史问答记录中问题题面中的命名实体,以及事件实体,生成题面初始种子实体集合;
步骤S22,对电力客服问答实体识别基础数据集中的答案语料抽取实体:
应用命名实体识别和事件识别技术,结合电力客服领域术语表,抽取历史问答记录中问题答案中相关的命名实体、事件实体,生成答案初始种子实体集合;
步骤S23,构建面向电力客服问答的知识图谱初始种子实体集合:
将由步骤S21和步骤S22抽取得到的实体合并形成初始种子实体集合;
步骤S24,设置初始种子实体集合中种子实体间的共存关系,形成面向电力客服问答的知识图谱初始种子实体集。
优选地,步骤S24具体为:
依据由步骤S1生成的电力客服问答实体识别基础数据集及其中问题-答案对应关系,将初始种子实体集合中出现在同一个问题的题面或答案中的实体之间,设置共存关系,即对于两个实体a,b,如果存在一个问题其题面或答案中有实体a和b,则将二元组(a,b)置于共存关系列表中,形成面向电力客服问答的知识图谱初始种子实体集。
优选地,所述电力客服语料数据源分为关系数据库电力客服语料数据源和文本语料电力客服语料数据源。
优选地,步骤S3包括:
对各电力客服语料数据源数据分别抽取命名实体和事件实体,存入对应的电力客服语料数据源的实体集合;
分别构建文本语料电力客服语料数据源的实体集合中实体间共存关系,以及关系数据库电力客服语料数据源的实体集合中实体间共存关系,得到电力客服语料数据源的实体集。
优选地,所述构建文本语料电力客服语料数据源的实体集合中实体间共存关系,具体为:
根据文本语料电力客服语料数据源的实体集合中任意两个实体是否在语料文本的一个句子中同时出现,确定这两个实体的共存关系,当两个实体在文本的某一个句子中同时出现,则在这两个实体间建立共存关系,即将由这两个实体构成的二元组添加到共存关系列表中。
优选地,所述构建关系数据库电力客服语料数据源的实体集合中实体间共存关系,具体为:
根据关系数据库电力客服语料数据源的实体集合中任意两个实体是否在关系数据库的一个表格元组中同时出现,确定这两个实体的共存关系,当两个实体在关系数据库的一个表格元组中同时出现,则将由这两个实体构成的二元组加入共存关系列表中。
优选地,步骤S4具体为:
计算每个数据源实体集中所含种子实体的比例,选取数据源实体集中所含种子实体的比例高于电力客服语料数据源相关度阈值的数据源实体集;
对数据源实体集中所含种子实体的比例高于电力客服语料数据源相关度阈值的数据源实体集,依据实体在该数据源数据项上的共存关系,以及该数据源实体集中实体与种子实体间共存关联路径距离阈值,从该数据源实体集中选择与某个已有的种子实体间有直接共存关系或有共存关系路径且共存关系路径长度小于设定的共存关联路径距离阈值的实体放入种子实体集;
迭代进行数据源中实体筛选并扩展种子实体集,直到种子实体集合达到集合不动点,或所含种子实体的比例高于电力客服语料数据源相关度阈值的数据源实体集已全部筛选完成,形成面向电力客服问答知识图谱的实体集合。
优选地,所述实体间的共存关系构成实体间的共存关系列表,由实体间的共存关系列表,构建实体共存关系图,其中将每个实体看作图的一个节点,共存关系列表中的每一个二元组,构成实体共存关系图中的一条无向边,两个节点间如果有多个二元组,则视为一个;
所述实体间有直接共存关系是指两个实体对应的节点在实体共存关系图中有一条边直接相连;
实体间共存关系路径长度等于在实体共存关系图上两个实体对应的两个节点之间的最短路径所包含边的数量;
如果两个实体对应节点之间无路径,则设这两个实体间的共存关系路径长度为正无穷。
本发明还公开了一种面向电力客服问答的渐增式知识图谱实体抽取系统,包括:
基础数据集构建模块,用于将电力客服历史问答记录数据作为基础语料,形成由问题-答案对构成的电力客服问答实体识别基础数据集;
种子实体集构建模块,用于使用命名实体识别和事件识别的方法,在基础数据集上进行命名实体和事件实体的抽取并设置实体间的共存关系,形成面向电力客服问答的知识图谱初始种子实体集;
数据源实体集构建模块,用于使用命名实体识别和事件识别的方法,在除基础数据集之外的电力客服领域语料数据上进行命名实体和事件实体的抽取并构建实体间的共存关系,形成每个电力客服语料数据源对应的实体集;
面向电力客服问答知识图谱的实体集构建模块,用于根据实体间的共存关系及共存关联路径距离,从每个电力客服语料数据源对应的实体集中筛选实体以扩展种子实体集,形成面向电力客服问答知识图谱的实体集。
本申请所达到的有益效果:
1.本发明采用种子实体集在电力客服语料数据源实体集中的比例进行电力客服语料数据源预筛选,可保证找到能够针对电力客服问答的电力客服语料数据源;
2.本发明使用实体间的共存关系、实体与种子实体间的共存关系路径长度阈值,可保证找到能够针对电力客服问答的实体,排除问答无关实体;
3.本发明使用的名实体识别和事件识别技术都有成熟的电力客服问答术语、模板、事件分类和识别模型,具有很高的可用性。
附图说明
图1为本发明一种面向电力客服问答的渐增式知识图谱实体抽取方法的流程示意图。
图2为本发明实施例中面向电力客服问答的知识图谱初始种子实体集抽取过程的示意图。
图3为本发明实施例中电力客服语料数据源实体集构建过程的示意图。
图4为本发明实施例中面向电力客服问答的知识图谱实体集构建过程的示意图;
图5为本发明实施例中对相关度超过阈值的电力客服语料数据源的电力客服语料数据源实体集,选择实体扩展种子实体集的过程示意图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
如图1所示,本发明的一种面向电力客服问答的渐增式知识图谱实体抽取方法,包括步骤S1-S4:
步骤S1,将电力客服常见历史问答记录数据作为基础语料,形成由问题-答案对构成的电力客服问答实体识别基础数据集;
即对原始的电力客服问答记录的数据语料进行去噪、去重、补全、统一格式等规范化处理,形成由问题-答案对构成的集合,作为电力客服问答实体识别基础数据集。
本发明以电力客服历史问答记录数据为实体的核心来源,以电力客服历史问答记录数据中抽取的实体为基础,自动引导从电力客服历史问答记录数据以外的电力客服领域语料数据中抽取实体。其中,各个步骤中命名实体识别和事件识别的环节综合采用包括基于模板匹配、统计学习和深度学习等不同实体识别技术。
步骤S2,使用命名实体识别和事件识别的方法,在基础数据集上进行命名实体和事件实体的抽取并设置实体间的共存关系,形成面向电力客服问答的知识图谱初始种子实体集,如图2所示,包括:
步骤S21,对电力客服问答实体识别基础数据集中的问题语料抽取实体:
应用命名实体识别和事件识别技术,结合电力客服领域词典,依据语料标注中的语义标签,抽取历史问答记录中问题题面中相关的地点、时间、组织、营业厅、设备、用户终端、户号等命名实体,以及对话、业务、故障、报修等事件实体,生成题面初始种子实体集合;
步骤S22,对电力客服问答实体识别基础数据集中的答案语料抽取实体:
应用命名实体识别和事件识别技术,结合电力客服领域术语表,抽取历史问答记录中问题答案中地点、时间、组织、营业厅、设备、用户终端、户号等命名实体,以及对话、业务、故障、报修等事件实体,生成答案初始种子实体集合;
步骤S23,构建面向电力客服问答的知识图谱初始种子实体集合:
将由步骤S21和步骤S22抽取得到的实体合并形成初始种子实体集合;
步骤S24,设置初始种子实体集合中种子实体间的共存关系,形成面向电力客服问答的知识图谱初始种子实体集,具体为:
依据由步骤S1生成的电力客服问答实体识别基础数据集及其中问题-答案对应关系,将初始种子实体集合中出现在同一个问题的题面或答案中的实体之间,设置共存关系——对于两个实体a,b如果存在一个问题其题面或答案中有实体a和b,则将二元组(a,b)置于共存关系列表中,形成面向电力客服问答的知识图谱初始种子实体集。
步骤S3,使用命名实体识别和事件识别的方法,在除基础数据集之外的电力客服领域语料数据上进行命名实体和事件实体的抽取并构建实体间的共存关系,形成每个电力客服语料数据源对应的实体集;
所述电力客服语料数据源分为关系数据库电力客服语料数据源和文本语料电力客服语料数据源。关系数据库电力客服语料数据源主要包括标准化客户信息数据、标准化对话信息数据、标准化业务信息数据,文本语料电力客服语料数据源主要包括规章制度文档段落或句子形成的字段值、对话视图中,有些字段值是文本型问答记录。
如图3所示,步骤S3包括:
步骤S31,对各电力客服语料数据源数据分别抽取实体:
应用命名实体识别和事件识别技术,识别各电力客服语料数据源数据中的命名实体和事件实体,存入对应的电力客服语料数据源的实体集合;
步骤S32,判断各电力客服语料数据源是否是关系数据库电力客服语料数据源,若是关系数据库电力客服语料数据源,则执行步骤S34,否则执行步骤S33;
步骤S33,构建文本语料电力客服语料数据源的实体集合中实体间共存关系:
根据文本语料电力客服语料数据源的实体集合中任意两个实体是否在语料文本的一个句子中同时出现,确定这两个实体的共存关系,当两个实体在文本的某一个句子中同时出现,则在这两个实体间建立共存关系——对于两个实体a,b,将二元组(a,b)置于共存关系列表中;
步骤S34,构建关系数据库电力客服语料数据源的实体集合中实体间共存关系,得到最终的电力客服语料数据源的实体集:
根据关系数据库电力客服语料数据源的实体集合中任意两个实体是否在关系数据库的一个表格元组中同时出现,确定这两个实体的共存关系,当两个实体在关系数据库的一个表格元组中同时出现,则在这两个实体间建立共存关系——对于两个实体a,b,将二元组(a,b)置于共存关系列表中,最终得到电力客服语料数据源的实体集。
步骤S4,根据实体间的共存关系及共存关联路径距离,从每个电力客服语料数据源对应的实体集中筛选实体以扩展种子实体集,形成面向电力客服问答知识图谱的实体集,具体为:
计算每个数据源实体集中所含种子实体的比例,选取数据源实体集中所含种子实体的比例高于电力客服语料数据源相关度阈值的数据源实体集;
对数据源实体集中所含种子实体的比例高于电力客服语料数据源相关度阈值的数据源实体集,依据实体在该数据源数据项上的共存关系,以及该数据源实体集中实体与种子实体间共存关联路径距离阈值,从该数据源实体集中选择与某个已有的种子实体间有直接共存关系或有共存关系路径且共存关系路径长度小于设定的共存关联路径距离阈值的实体放入种子实体集;
其中,由实体间的共存关系列表,构建实体共存关系图,其中将每个实体看作图的一个节点,共存关系列表中的每一个二元组,构成实体共存关系图中的一条无向边,两个节点间如果有多个二元组,则视为一个;所述实体间有直接共存关系是指两个实体对应的节点在实体共存关系图中有一条边直接相连。实体间共存关系路径长度等于在实体共存关系图上两个实体对应的两个节点之间的最短路径所包含边的数量。如果两个实体对应节点之间无路径,则设这两个实体间的共存关系路径长度为正无穷。
迭代进行数据源中实体筛选并扩展种子实体集,直到种子实体集合达到集合不动点,或所含种子实体的比例高于电力客服语料数据源相关度阈值的数据源实体集已全部完成筛选,则形成面向电力客服问答知识图谱的实体集合。
如图4所示,步骤4包括以下实施步骤:
步骤S41,设定电力客服语料数据源相关度阈值:
由用户输入一个电力客服语料数据源应该具备的与客服问答相关的最小值。步骤S42,共存关联路径距离阈值:
由用户输入一个实体作为问答相关实体应该与常见问答中实体的共存关联距离。
该值可以通过人工分析常见问答过程中,答案解释中相关实体和问题及答案的关联性确定。
步骤S43,将面向电力客服问答的知识图谱初始种子实体集设为种子实体集:
设定由基础语料数据集中得到的实体为下一步使用的种子实体集。
步骤S44,计算每一个电力客服语料数据源的相关度:
计算每个电力客服语料数据源的实体集中所含种子实体的比例作为该电力客服语料数据源与电力客服问答的相关度。
步骤S45,判断是否有相关度超过阈值的电力客服语料数据源:
判断每个电力客服语料数据源的实体集中所含种子实体的比例是否大于给定的电力客服语料数据源相关度阈值,如果判断为“否”则执行步骤S48,执行步骤,如果判断为“是”则执行步骤S46。
步骤S46,对相关度超过阈值的电力客服语料数据源的电力客服语料数据源实体集,选择实体放入种子实体集:
从每个相关度超过阈值的电力客服语料数据源的电力客服语料数据源实体集中,根据实体间的共存关系,选择实体加入种子实体集,更新种子实体集。在本发明的一个实施例中,该步骤如图5所示。
步骤S461,将相关度超过阈值的电力客服语料数据源的电力客服语料数据源实体集置入临时实体集,为下一步操作中取电力客服语料数据源实体集做准备。
步骤S462,判断临时实体集是否空:
查看电力客服语料数据源的实体是否都已经被检查过,当判断是“是”说明电力客服语料数据源的实体都已被检查或者电力客服语料数据源无实体,则结束步骤46,当判断是“否”则执行步骤S463。
步骤S463,从临时实体集中取出一个实体,从临时实体集中移除一个实体,并将该实体交由步骤S464;
步骤S464,判断是否有种子实体与临时实体集中所取出实体有共存关系:
根据电力客服语料数据源的实体集中的实体间共存关系,判定临时实体集中所取出实体是否与种子实体集中的种子实体间有共存关系。
步骤S465,判断是否有种子实体与临时实体集中所取出实体的共存关系路径小于共存关联路径距离阈值:
根据电力客服语料数据源的实体集中的实体间共存关系,判定临时实体集中所取出实体是否与种子实体集中的种子实体间有共存关系路径且其长度小于设定的共存关联路径距离阈值,其中共存关系路径长度等于路径包含的共存关系数量。
步骤S466,将与某个已有的种子实体间有直接共存关系或有共存关系路径且长度小于设定的共存关联路径距离阈值的语料中的实体当成新种子实体加入种子实体集,返回步骤S462。
步骤S47,判断种子实体集是否有变化:
判断种子实体集中所含种子数量是否增加,如果“是”则执行步骤S44,对下一个语料数据源进行分析,如果判断为“否”则执行步骤S48。
步骤S48,输出面向电力客服问答的实体集合。
本发明的一种面向电力客服问答的渐增式知识图谱实体抽取系统,包括:
基础数据集构建模块,用于将电力客服常见历史问答记录数据作为基础语料,形成由问题-答案对构成的电力客服问答实体识别基础数据集;
种子实体集构建模块,用于使用命名实体识别和事件识别的方法,在基础数据集上进行命名实体和事件实体的抽取并设置实体间的共存关系,形成面向电力客服问答的知识图谱初始种子实体集;
数据源实体集构建模块,用于使用命名实体识别和事件识别的方法,在除基础数据集之外的电力客服领域语料数据上进行命名实体和事件实体的抽取并构建实体间的共存关系,形成每个电力客服语料数据源对应的实体集;
面向电力客服问答知识图谱的实体集构建模块,用于根据实体间的共存关系及共存关联路径距离,从每个电力客服语料数据源对应的实体集中筛选实体以扩展种子实体集,形成面向电力客服问答知识图谱的实体集。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。
Claims (10)
1.一种面向电力客服问答的渐增式知识图谱实体抽取方法,其特征在于:
所述方法包括以下步骤:
步骤S1,将电力客服历史问答记录数据作为基础语料,形成由问题-答案对构成的电力客服问答实体识别基础数据集;
步骤S2,使用命名实体识别和事件识别的方法,在基础数据集上进行命名实体和事件实体的抽取并设置实体间的共存关系,形成面向电力客服问答的知识图谱初始种子实体集;
步骤S3,使用命名实体识别和事件识别的方法,在除基础数据集之外的电力客服领域语料数据上进行命名实体和事件实体的抽取并构建实体间的共存关系,形成每个电力客服语料数据源对应的实体集;
步骤S4,根据实体间的共存关系及共存关联路径距离,从每个电力客服语料数据源对应的实体集中筛选实体以扩展种子实体集,形成面向电力客服问答知识图谱的实体集。
2.根据权利要求1所述的一种面向电力客服问答的渐增式知识图谱实体抽取方法,其特征在于:
步骤S2包括:
步骤S21,对电力客服问答实体识别基础数据集中的问题语料抽取实体:
应用命名实体识别和事件识别技术,结合电力客服领域术语表,依据语料标注中的语义标签,抽取历史问答记录中问题题面中的命名实体,以及事件实体,生成题面初始种子实体集合;
步骤S22,对电力客服问答实体识别基础数据集中的答案语料抽取实体:
应用命名实体识别和事件识别技术,结合电力客服领域术语表,抽取历史问答记录中问题答案中相关的命名实体、事件实体,生成答案初始种子实体集合;
步骤S23,构建面向电力客服问答的知识图谱初始种子实体集合:
将由步骤S21和步骤S22抽取得到的实体合并形成初始种子实体集合;
步骤S24,设置初始种子实体集合中种子实体间的共存关系,形成面向电力客服问答的知识图谱初始种子实体集。
3.根据权利要求2所述的一种面向电力客服问答的渐增式知识图谱实体抽取方法,其特征在于:
步骤S24具体为:
依据由步骤S1生成的电力客服问答实体识别基础数据集及其中问题-答案对应关系,将初始种子实体集合中出现在同一个问题的题面或答案中的实体之间,设置共存关系,即对于两个实体a,b,如果存在一个问题其题面或答案中有实体a和b,则将二元组(a,b)置于共存关系列表中,形成面向电力客服问答的知识图谱初始种子实体集。
4.根据权利要求1-3任一所述的一种面向电力客服问答的渐增式知识图谱实体抽取方法,其特征在于:
所述电力客服语料数据源分为关系数据库电力客服语料数据源和文本语料电力客服语料数据源。
5.根据权利要求4所述的一种面向电力客服问答的渐增式知识图谱实体抽取方法,其特征在于:
步骤S3包括:
对各电力客服语料数据源数据分别抽取命名实体和事件实体,存入对应的电力客服语料数据源的实体集合;
分别构建文本语料电力客服语料数据源的实体集合中实体间共存关系,以及关系数据库电力客服语料数据源的实体集合中实体间共存关系,得到电力客服语料数据源的实体集。
6.根据权利要求5所述的一种面向电力客服问答的渐增式知识图谱实体抽取方法,其特征在于:
所述构建文本语料电力客服语料数据源的实体集合中实体间共存关系,具体为:
根据文本语料电力客服语料数据源的实体集合中任意两个实体是否在语料文本的一个句子中同时出现,确定这两个实体的共存关系,当两个实体在文本的某一个句子中同时出现,则在这两个实体间建立共存关系,即将由这两个实体构成的二元组添加到共存关系列表中。
7.根据权利要求5所述的一种面向电力客服问答的渐增式知识图谱实体抽取方法,其特征在于:
所述构建关系数据库电力客服语料数据源的实体集合中实体间共存关系,具体为:
根据关系数据库电力客服语料数据源的实体集合中任意两个实体是否在关系数据库的一个表格元组中同时出现,确定这两个实体的共存关系,当两个实体在关系数据库的一个表格元组中同时出现,则将由这两个实体构成的二元组加入共存关系列表中。
8.根据权利要求1所述的一种面向电力客服问答的渐增式知识图谱实体抽取方法,其特征在于:
步骤S4具体为:
计算每个数据源实体集中所含种子实体的比例,选取数据源实体集中所含种子实体的比例高于电力客服语料数据源相关度阈值的数据源实体集;
对数据源实体集中所含种子实体的比例高于电力客服语料数据源相关度阈值的数据源实体集,依据实体在该数据源数据项上的共存关系,以及该数据源实体集中实体与种子实体间共存关联路径距离阈值,从该数据源实体集中选择与某个已有的种子实体间有直接共存关系或有共存关系路径且共存关系路径长度小于设定的共存关联路径距离阈值的实体放入种子实体集;
迭代进行数据源中实体筛选并扩展种子实体集,直到种子实体集合达到集合不动点,或所含种子实体的比例高于电力客服语料数据源相关度阈值的数据源实体集已全部筛选完成,形成面向电力客服问答知识图谱的实体集合。
9.根据权利要求8所述的一种面向电力客服问答的渐增式知识图谱实体抽取方法,其特征在于:
所述实体间的共存关系构成实体间的共存关系列表,由实体间的共存关系列表,构建实体共存关系图,其中将每个实体看作图的一个节点,共存关系列表中的每一个二元组,构成实体共存关系图中的一条无向边,两个节点间如果有多个二元组,则视为一个;
所述实体间有直接共存关系是指两个实体对应的节点在实体共存关系图中有一条边直接相连;
实体间共存关系路径长度等于在实体共存关系图上两个实体对应的两个节点之间的最短路径所包含边的数量;
如果两个实体对应节点之间无路径,则设这两个实体间的共存关系路径长度为正无穷。
10.根据权利要求1-9任一所述的一种面向电力客服问答的渐增式知识图谱实体抽取方法的渐增式知识图谱实体抽取系统,其特征在于:
所述系统包括:
基础数据集构建模块,用于将电力客服历史问答记录数据作为基础语料,形成由问题-答案对构成的电力客服问答实体识别基础数据集;
种子实体集构建模块,用于使用命名实体识别和事件识别的方法,在基础数据集上进行命名实体和事件实体的抽取并设置实体间的共存关系,形成面向电力客服问答的知识图谱初始种子实体集;
数据源实体集构建模块,用于使用命名实体识别和事件识别的方法,在除基础数据集之外的电力客服领域语料数据上进行命名实体和事件实体的抽取并构建实体间的共存关系,形成每个电力客服语料数据源对应的实体集;
面向电力客服问答知识图谱的实体集构建模块,用于根据实体间的共存关系及共存关联路径距离,从每个电力客服语料数据源对应的实体集中筛选实体以扩展种子实体集,形成面向电力客服问答知识图谱的实体集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011218596.4A CN112199488B (zh) | 2020-11-04 | 2020-11-04 | 面向电力客服问答的渐增式知识图谱实体抽取方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011218596.4A CN112199488B (zh) | 2020-11-04 | 2020-11-04 | 面向电力客服问答的渐增式知识图谱实体抽取方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112199488A CN112199488A (zh) | 2021-01-08 |
CN112199488B true CN112199488B (zh) | 2023-09-26 |
Family
ID=74033247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011218596.4A Active CN112199488B (zh) | 2020-11-04 | 2020-11-04 | 面向电力客服问答的渐增式知识图谱实体抽取方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112199488B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051382A (zh) * | 2021-04-08 | 2021-06-29 | 云南电网有限责任公司电力科学研究院 | 一种基于知识图谱的电力故障智能问答方法及装置 |
CN113315792B (zh) * | 2021-07-30 | 2021-11-30 | 深圳市永达电子信息股份有限公司 | 网络数据的客体抽取方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468605A (zh) * | 2014-08-25 | 2016-04-06 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
WO2018072563A1 (zh) * | 2016-10-18 | 2018-04-26 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN108491491A (zh) * | 2018-03-14 | 2018-09-04 | 广州杰赛科技股份有限公司 | 智能客服知识图谱的构建方法与系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11222052B2 (en) * | 2011-02-22 | 2022-01-11 | Refinitiv Us Organization Llc | Machine learning-based relationship association and related discovery and |
-
2020
- 2020-11-04 CN CN202011218596.4A patent/CN112199488B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468605A (zh) * | 2014-08-25 | 2016-04-06 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
WO2018072563A1 (zh) * | 2016-10-18 | 2018-04-26 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN108491491A (zh) * | 2018-03-14 | 2018-09-04 | 广州杰赛科技股份有限公司 | 智能客服知识图谱的构建方法与系统 |
Non-Patent Citations (1)
Title |
---|
面向水利信息资源的智能问答系统构建与应用;张紫璇;陆佳民;姜笑;冯钧;;计算机与现代化(03);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112199488A (zh) | 2021-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109446344B (zh) | 一种基于大数据的智能分析报告自动生成系统 | |
CN102722709B (zh) | 一种垃圾图片识别方法和装置 | |
CN107368468A (zh) | 一种运维知识图谱的生成方法及系统 | |
CN106447346A (zh) | 一种智能电力客服系统的构建方法及系统 | |
CN105095195A (zh) | 基于知识图谱的人机问答方法和系统 | |
CN111967761A (zh) | 一种基于知识图谱的监控预警方法、装置及电子设备 | |
CN103823896A (zh) | 一种学科特征值算法及基于其的项目评审专家推荐算法 | |
CN112199488B (zh) | 面向电力客服问答的渐增式知识图谱实体抽取方法和系统 | |
CN112036842B (zh) | 一种科技服务智能匹配装置 | |
CN105095288A (zh) | 数据分析方法及数据分析装置 | |
Karakus et al. | Call center performance evaluation using big data analytics | |
CN115033679B (zh) | 基于知识图谱搜索汽车维修数据的方法 | |
CN102402717A (zh) | 数据分析设备和方法 | |
CN113626571A (zh) | 答句生成方法、装置、计算机设备和存储介质 | |
CN112363996B (zh) | 用于建立电网知识图谱的物理模型的方法及系统和介质 | |
CN113901233A (zh) | 一种查询数据修复方法、系统、计算机设备及存储介质 | |
CN109902148B (zh) | 一种通讯录联系人的企业名称自动补全的方法 | |
CN112241438A (zh) | 一种政策服务信息数据处理和查询方法及系统 | |
Dudek et al. | Integrated quality assessment of services in an adaptive expert system with a rule-based knowledge base | |
CN104573098B (zh) | 基于Spark系统的大规模对象识别方法 | |
CN116431828A (zh) | 一种基于神经网络技术构建的电网中台数据资产知识图谱数据库的构建方法 | |
CN111221967A (zh) | 一种基于区块链架构的语言数据分类存储系统 | |
CN110147980A (zh) | 工单处理方法及装置 | |
CN116467291A (zh) | 一种知识图谱存储与搜索方法及系统 | |
CN116303379A (zh) | 一种数据处理方法、系统及计算机储存介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |