CN112199488B - 面向电力客服问答的渐增式知识图谱实体抽取方法和系统 - Google Patents

面向电力客服问答的渐增式知识图谱实体抽取方法和系统 Download PDF

Info

Publication number
CN112199488B
CN112199488B CN202011218596.4A CN202011218596A CN112199488B CN 112199488 B CN112199488 B CN 112199488B CN 202011218596 A CN202011218596 A CN 202011218596A CN 112199488 B CN112199488 B CN 112199488B
Authority
CN
China
Prior art keywords
entity
entities
customer service
power customer
coexistence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011218596.4A
Other languages
English (en)
Other versions
CN112199488A (zh
Inventor
嵇友浪
赵洪莹
俞阳
孙少辰
吴宁
邹云峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Jiangsu Electric Power Co ltd Marketing Service Center
State Grid Corp of China SGCC
State Grid Jiangsu Electric Power Co Ltd
Original Assignee
State Grid Jiangsu Electric Power Co ltd Marketing Service Center
State Grid Corp of China SGCC
State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Jiangsu Electric Power Co ltd Marketing Service Center, State Grid Corp of China SGCC, State Grid Jiangsu Electric Power Co Ltd filed Critical State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Priority to CN202011218596.4A priority Critical patent/CN112199488B/zh
Publication of CN112199488A publication Critical patent/CN112199488A/zh
Application granted granted Critical
Publication of CN112199488B publication Critical patent/CN112199488B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • General Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种面向电力客服问答的渐增式知识图谱实体抽取方法和系统,所述方法包括将电力客服历史问答记录数据作为基础语料,形成基础数据集;在基础数据集上进行命名实体和事件实体的抽取并设置实体间的共存关系,形成初始种子实体集;在电力客服领域语料数据上进行命名实体和事件实体的抽取并构建实体间的共存关系,形成每个数据源对应的实体集;从每个电力客服语料数据源对应的实体集中筛选实体以扩展种子实体集,形成面向电力客服问答知识图谱的实体集。本发明具有自主选择语料数据和实体的能力。

Description

面向电力客服问答的渐增式知识图谱实体抽取方法和系统
技术领域
本发明属于智能问答的实际应用技术领域,涉及一种面向电力客服问答的渐增式知识图谱实体抽取方法和系统。
背景技术
目前,在智能问答的实际应用领域,多采用的是基于常见问答数据集的方式,即依据常见问答对构成的初始数据,对输入问题,检索常见问答数据集问中与之匹配的问题,直接查询与之匹配问题的答案,作为输入问题的答案。这种检索方法是目前实现智能问答的一种重要技术途径,但是,检索方法对初始常见问答数据的依赖性非常强,其可行性很大程度上依赖于采集常见问答数据的覆盖度和精确性。
在电力客服领域,基于检索方法构建的领域问答系统确实能回答领域中相当一部分的问题,但是由于缺乏电力客服领域知识,难以求解需要利用领域知识之间的关联、逻辑、因果等关系推理生成答案的复杂问题。
当前,通过构建电力客服知识图谱形成领域知识库,是支撑复杂问题求解的关键技术。在电力客服领域,由于大量的用户、营销、产品、政策、条例、规章等数据资料用语用词规范,采用模板和机器学习方法,命名实体识别和事件识别能够达到较高精确度。然而,电力客服业务范围广,涉及到从客户到电力产品、网络营销等多方面的知识,构建完整的电力客服知识图谱既面临着大规模数据整理和劳务成本高昂、大规模多源异构数据处理难等诸多问题,也面临大规模知识图谱对智能问答针对性不强、运行效率低下的问题。如何构建专门针对电力客服问答的知识图谱,是亟待解决的问题。构建面向电力客服问答的知识图谱,首先要有针对性地从大规模异构电力客服领域数据中抽取实体,形成专门针对电力客服问答的实体集。
随着电力客服人员的规范梳理和长期积累,以及智能问答系统的初步应用,形成了大量的问答对话记录,利用这些数据中问答文本的实体信息作为出发点和启发信息,使得有选择地从大量电力客服语料数据中专门针对电力客服问答渐增式地实体抽取成为可能。
探索面向电力客服问答的渐增式知识图谱实体抽取有三个关键问题需要解决:
(1)如何构建初始种子实体集;
(2)利用已有的电力客服问答记录数据,如何构建对电力客服语料数据的评判模型,形成从大规模语料数据中判定能够面向电力客服问答知识图谱实体抽取的数据源的方法;
(3)如何从语料数据源的实体中选择能够面向电力客服问答的实体。
发明内容
为解决现有技术中的不足,本申请提供一种面向电力客服问答的渐增式知识图谱实体抽取方法,能够采用已有电力客服问答的历史记录,通过命名实体识别和事件实体识别技术基于这些历史记录形成初始种子实例集,并利用电力客服语料数据中实体间的共存关系,形成一种面向电力客服问答的渐增式知识图谱实体抽取方法,该方法的构建过程具有自主选择语料数据和实体的能力。
为了实现上述目标,本发明采用如下技术方案:
一种面向电力客服问答的渐增式知识图谱实体抽取方法,其特征在于:
所述方法包括以下步骤:
步骤S1,将电力客服历史问答记录数据作为基础语料,形成由问题-答案对构成的电力客服问答实体识别基础数据集;
步骤S2,使用命名实体识别和事件识别的方法,在基础数据集上进行命名实体和事件实体的抽取并设置实体间的共存关系,形成面向电力客服问答的知识图谱初始种子实体集;
步骤S3,使用命名实体识别和事件识别的方法,在除基础数据集之外的电力客服领域语料数据上进行命名实体和事件实体的抽取并构建实体间的共存关系,形成每个电力客服语料数据源对应的实体集;
步骤S4,根据实体间的共存关系及共存关联路径距离,从每个电力客服语料数据源对应的实体集中筛选实体以扩展种子实体集,形成面向电力客服问答知识图谱的实体集。
本发明进一步包括以下优选方案:
优选地,步骤S2包括:
步骤S21,对电力客服问答实体识别基础数据集中的问题语料抽取实体:
应用命名实体识别和事件识别技术,结合电力客服领域术语表,依据语料标注中的语义标签,抽取历史问答记录中问题题面中的命名实体,以及事件实体,生成题面初始种子实体集合;
步骤S22,对电力客服问答实体识别基础数据集中的答案语料抽取实体:
应用命名实体识别和事件识别技术,结合电力客服领域术语表,抽取历史问答记录中问题答案中相关的命名实体、事件实体,生成答案初始种子实体集合;
步骤S23,构建面向电力客服问答的知识图谱初始种子实体集合:
将由步骤S21和步骤S22抽取得到的实体合并形成初始种子实体集合;
步骤S24,设置初始种子实体集合中种子实体间的共存关系,形成面向电力客服问答的知识图谱初始种子实体集。
优选地,步骤S24具体为:
依据由步骤S1生成的电力客服问答实体识别基础数据集及其中问题-答案对应关系,将初始种子实体集合中出现在同一个问题的题面或答案中的实体之间,设置共存关系,即对于两个实体a,b,如果存在一个问题其题面或答案中有实体a和b,则将二元组(a,b)置于共存关系列表中,形成面向电力客服问答的知识图谱初始种子实体集。
优选地,所述电力客服语料数据源分为关系数据库电力客服语料数据源和文本语料电力客服语料数据源。
优选地,步骤S3包括:
对各电力客服语料数据源数据分别抽取命名实体和事件实体,存入对应的电力客服语料数据源的实体集合;
分别构建文本语料电力客服语料数据源的实体集合中实体间共存关系,以及关系数据库电力客服语料数据源的实体集合中实体间共存关系,得到电力客服语料数据源的实体集。
优选地,所述构建文本语料电力客服语料数据源的实体集合中实体间共存关系,具体为:
根据文本语料电力客服语料数据源的实体集合中任意两个实体是否在语料文本的一个句子中同时出现,确定这两个实体的共存关系,当两个实体在文本的某一个句子中同时出现,则在这两个实体间建立共存关系,即将由这两个实体构成的二元组添加到共存关系列表中。
优选地,所述构建关系数据库电力客服语料数据源的实体集合中实体间共存关系,具体为:
根据关系数据库电力客服语料数据源的实体集合中任意两个实体是否在关系数据库的一个表格元组中同时出现,确定这两个实体的共存关系,当两个实体在关系数据库的一个表格元组中同时出现,则将由这两个实体构成的二元组加入共存关系列表中。
优选地,步骤S4具体为:
计算每个数据源实体集中所含种子实体的比例,选取数据源实体集中所含种子实体的比例高于电力客服语料数据源相关度阈值的数据源实体集;
对数据源实体集中所含种子实体的比例高于电力客服语料数据源相关度阈值的数据源实体集,依据实体在该数据源数据项上的共存关系,以及该数据源实体集中实体与种子实体间共存关联路径距离阈值,从该数据源实体集中选择与某个已有的种子实体间有直接共存关系或有共存关系路径且共存关系路径长度小于设定的共存关联路径距离阈值的实体放入种子实体集;
迭代进行数据源中实体筛选并扩展种子实体集,直到种子实体集合达到集合不动点,或所含种子实体的比例高于电力客服语料数据源相关度阈值的数据源实体集已全部筛选完成,形成面向电力客服问答知识图谱的实体集合。
优选地,所述实体间的共存关系构成实体间的共存关系列表,由实体间的共存关系列表,构建实体共存关系图,其中将每个实体看作图的一个节点,共存关系列表中的每一个二元组,构成实体共存关系图中的一条无向边,两个节点间如果有多个二元组,则视为一个;
所述实体间有直接共存关系是指两个实体对应的节点在实体共存关系图中有一条边直接相连;
实体间共存关系路径长度等于在实体共存关系图上两个实体对应的两个节点之间的最短路径所包含边的数量;
如果两个实体对应节点之间无路径,则设这两个实体间的共存关系路径长度为正无穷。
本发明还公开了一种面向电力客服问答的渐增式知识图谱实体抽取系统,包括:
基础数据集构建模块,用于将电力客服历史问答记录数据作为基础语料,形成由问题-答案对构成的电力客服问答实体识别基础数据集;
种子实体集构建模块,用于使用命名实体识别和事件识别的方法,在基础数据集上进行命名实体和事件实体的抽取并设置实体间的共存关系,形成面向电力客服问答的知识图谱初始种子实体集;
数据源实体集构建模块,用于使用命名实体识别和事件识别的方法,在除基础数据集之外的电力客服领域语料数据上进行命名实体和事件实体的抽取并构建实体间的共存关系,形成每个电力客服语料数据源对应的实体集;
面向电力客服问答知识图谱的实体集构建模块,用于根据实体间的共存关系及共存关联路径距离,从每个电力客服语料数据源对应的实体集中筛选实体以扩展种子实体集,形成面向电力客服问答知识图谱的实体集。
本申请所达到的有益效果:
1.本发明采用种子实体集在电力客服语料数据源实体集中的比例进行电力客服语料数据源预筛选,可保证找到能够针对电力客服问答的电力客服语料数据源;
2.本发明使用实体间的共存关系、实体与种子实体间的共存关系路径长度阈值,可保证找到能够针对电力客服问答的实体,排除问答无关实体;
3.本发明使用的名实体识别和事件识别技术都有成熟的电力客服问答术语、模板、事件分类和识别模型,具有很高的可用性。
附图说明
图1为本发明一种面向电力客服问答的渐增式知识图谱实体抽取方法的流程示意图。
图2为本发明实施例中面向电力客服问答的知识图谱初始种子实体集抽取过程的示意图。
图3为本发明实施例中电力客服语料数据源实体集构建过程的示意图。
图4为本发明实施例中面向电力客服问答的知识图谱实体集构建过程的示意图;
图5为本发明实施例中对相关度超过阈值的电力客服语料数据源的电力客服语料数据源实体集,选择实体扩展种子实体集的过程示意图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
如图1所示,本发明的一种面向电力客服问答的渐增式知识图谱实体抽取方法,包括步骤S1-S4:
步骤S1,将电力客服常见历史问答记录数据作为基础语料,形成由问题-答案对构成的电力客服问答实体识别基础数据集;
即对原始的电力客服问答记录的数据语料进行去噪、去重、补全、统一格式等规范化处理,形成由问题-答案对构成的集合,作为电力客服问答实体识别基础数据集。
本发明以电力客服历史问答记录数据为实体的核心来源,以电力客服历史问答记录数据中抽取的实体为基础,自动引导从电力客服历史问答记录数据以外的电力客服领域语料数据中抽取实体。其中,各个步骤中命名实体识别和事件识别的环节综合采用包括基于模板匹配、统计学习和深度学习等不同实体识别技术。
步骤S2,使用命名实体识别和事件识别的方法,在基础数据集上进行命名实体和事件实体的抽取并设置实体间的共存关系,形成面向电力客服问答的知识图谱初始种子实体集,如图2所示,包括:
步骤S21,对电力客服问答实体识别基础数据集中的问题语料抽取实体:
应用命名实体识别和事件识别技术,结合电力客服领域词典,依据语料标注中的语义标签,抽取历史问答记录中问题题面中相关的地点、时间、组织、营业厅、设备、用户终端、户号等命名实体,以及对话、业务、故障、报修等事件实体,生成题面初始种子实体集合;
步骤S22,对电力客服问答实体识别基础数据集中的答案语料抽取实体:
应用命名实体识别和事件识别技术,结合电力客服领域术语表,抽取历史问答记录中问题答案中地点、时间、组织、营业厅、设备、用户终端、户号等命名实体,以及对话、业务、故障、报修等事件实体,生成答案初始种子实体集合;
步骤S23,构建面向电力客服问答的知识图谱初始种子实体集合:
将由步骤S21和步骤S22抽取得到的实体合并形成初始种子实体集合;
步骤S24,设置初始种子实体集合中种子实体间的共存关系,形成面向电力客服问答的知识图谱初始种子实体集,具体为:
依据由步骤S1生成的电力客服问答实体识别基础数据集及其中问题-答案对应关系,将初始种子实体集合中出现在同一个问题的题面或答案中的实体之间,设置共存关系——对于两个实体a,b如果存在一个问题其题面或答案中有实体a和b,则将二元组(a,b)置于共存关系列表中,形成面向电力客服问答的知识图谱初始种子实体集。
步骤S3,使用命名实体识别和事件识别的方法,在除基础数据集之外的电力客服领域语料数据上进行命名实体和事件实体的抽取并构建实体间的共存关系,形成每个电力客服语料数据源对应的实体集;
所述电力客服语料数据源分为关系数据库电力客服语料数据源和文本语料电力客服语料数据源。关系数据库电力客服语料数据源主要包括标准化客户信息数据、标准化对话信息数据、标准化业务信息数据,文本语料电力客服语料数据源主要包括规章制度文档段落或句子形成的字段值、对话视图中,有些字段值是文本型问答记录。
如图3所示,步骤S3包括:
步骤S31,对各电力客服语料数据源数据分别抽取实体:
应用命名实体识别和事件识别技术,识别各电力客服语料数据源数据中的命名实体和事件实体,存入对应的电力客服语料数据源的实体集合;
步骤S32,判断各电力客服语料数据源是否是关系数据库电力客服语料数据源,若是关系数据库电力客服语料数据源,则执行步骤S34,否则执行步骤S33;
步骤S33,构建文本语料电力客服语料数据源的实体集合中实体间共存关系:
根据文本语料电力客服语料数据源的实体集合中任意两个实体是否在语料文本的一个句子中同时出现,确定这两个实体的共存关系,当两个实体在文本的某一个句子中同时出现,则在这两个实体间建立共存关系——对于两个实体a,b,将二元组(a,b)置于共存关系列表中;
步骤S34,构建关系数据库电力客服语料数据源的实体集合中实体间共存关系,得到最终的电力客服语料数据源的实体集:
根据关系数据库电力客服语料数据源的实体集合中任意两个实体是否在关系数据库的一个表格元组中同时出现,确定这两个实体的共存关系,当两个实体在关系数据库的一个表格元组中同时出现,则在这两个实体间建立共存关系——对于两个实体a,b,将二元组(a,b)置于共存关系列表中,最终得到电力客服语料数据源的实体集。
步骤S4,根据实体间的共存关系及共存关联路径距离,从每个电力客服语料数据源对应的实体集中筛选实体以扩展种子实体集,形成面向电力客服问答知识图谱的实体集,具体为:
计算每个数据源实体集中所含种子实体的比例,选取数据源实体集中所含种子实体的比例高于电力客服语料数据源相关度阈值的数据源实体集;
对数据源实体集中所含种子实体的比例高于电力客服语料数据源相关度阈值的数据源实体集,依据实体在该数据源数据项上的共存关系,以及该数据源实体集中实体与种子实体间共存关联路径距离阈值,从该数据源实体集中选择与某个已有的种子实体间有直接共存关系或有共存关系路径且共存关系路径长度小于设定的共存关联路径距离阈值的实体放入种子实体集;
其中,由实体间的共存关系列表,构建实体共存关系图,其中将每个实体看作图的一个节点,共存关系列表中的每一个二元组,构成实体共存关系图中的一条无向边,两个节点间如果有多个二元组,则视为一个;所述实体间有直接共存关系是指两个实体对应的节点在实体共存关系图中有一条边直接相连。实体间共存关系路径长度等于在实体共存关系图上两个实体对应的两个节点之间的最短路径所包含边的数量。如果两个实体对应节点之间无路径,则设这两个实体间的共存关系路径长度为正无穷。
迭代进行数据源中实体筛选并扩展种子实体集,直到种子实体集合达到集合不动点,或所含种子实体的比例高于电力客服语料数据源相关度阈值的数据源实体集已全部完成筛选,则形成面向电力客服问答知识图谱的实体集合。
如图4所示,步骤4包括以下实施步骤:
步骤S41,设定电力客服语料数据源相关度阈值:
由用户输入一个电力客服语料数据源应该具备的与客服问答相关的最小值。步骤S42,共存关联路径距离阈值:
由用户输入一个实体作为问答相关实体应该与常见问答中实体的共存关联距离。
该值可以通过人工分析常见问答过程中,答案解释中相关实体和问题及答案的关联性确定。
步骤S43,将面向电力客服问答的知识图谱初始种子实体集设为种子实体集:
设定由基础语料数据集中得到的实体为下一步使用的种子实体集。
步骤S44,计算每一个电力客服语料数据源的相关度:
计算每个电力客服语料数据源的实体集中所含种子实体的比例作为该电力客服语料数据源与电力客服问答的相关度。
步骤S45,判断是否有相关度超过阈值的电力客服语料数据源:
判断每个电力客服语料数据源的实体集中所含种子实体的比例是否大于给定的电力客服语料数据源相关度阈值,如果判断为“否”则执行步骤S48,执行步骤,如果判断为“是”则执行步骤S46。
步骤S46,对相关度超过阈值的电力客服语料数据源的电力客服语料数据源实体集,选择实体放入种子实体集:
从每个相关度超过阈值的电力客服语料数据源的电力客服语料数据源实体集中,根据实体间的共存关系,选择实体加入种子实体集,更新种子实体集。在本发明的一个实施例中,该步骤如图5所示。
步骤S461,将相关度超过阈值的电力客服语料数据源的电力客服语料数据源实体集置入临时实体集,为下一步操作中取电力客服语料数据源实体集做准备。
步骤S462,判断临时实体集是否空:
查看电力客服语料数据源的实体是否都已经被检查过,当判断是“是”说明电力客服语料数据源的实体都已被检查或者电力客服语料数据源无实体,则结束步骤46,当判断是“否”则执行步骤S463。
步骤S463,从临时实体集中取出一个实体,从临时实体集中移除一个实体,并将该实体交由步骤S464;
步骤S464,判断是否有种子实体与临时实体集中所取出实体有共存关系:
根据电力客服语料数据源的实体集中的实体间共存关系,判定临时实体集中所取出实体是否与种子实体集中的种子实体间有共存关系。
步骤S465,判断是否有种子实体与临时实体集中所取出实体的共存关系路径小于共存关联路径距离阈值:
根据电力客服语料数据源的实体集中的实体间共存关系,判定临时实体集中所取出实体是否与种子实体集中的种子实体间有共存关系路径且其长度小于设定的共存关联路径距离阈值,其中共存关系路径长度等于路径包含的共存关系数量。
步骤S466,将与某个已有的种子实体间有直接共存关系或有共存关系路径且长度小于设定的共存关联路径距离阈值的语料中的实体当成新种子实体加入种子实体集,返回步骤S462。
步骤S47,判断种子实体集是否有变化:
判断种子实体集中所含种子数量是否增加,如果“是”则执行步骤S44,对下一个语料数据源进行分析,如果判断为“否”则执行步骤S48。
步骤S48,输出面向电力客服问答的实体集合。
本发明的一种面向电力客服问答的渐增式知识图谱实体抽取系统,包括:
基础数据集构建模块,用于将电力客服常见历史问答记录数据作为基础语料,形成由问题-答案对构成的电力客服问答实体识别基础数据集;
种子实体集构建模块,用于使用命名实体识别和事件识别的方法,在基础数据集上进行命名实体和事件实体的抽取并设置实体间的共存关系,形成面向电力客服问答的知识图谱初始种子实体集;
数据源实体集构建模块,用于使用命名实体识别和事件识别的方法,在除基础数据集之外的电力客服领域语料数据上进行命名实体和事件实体的抽取并构建实体间的共存关系,形成每个电力客服语料数据源对应的实体集;
面向电力客服问答知识图谱的实体集构建模块,用于根据实体间的共存关系及共存关联路径距离,从每个电力客服语料数据源对应的实体集中筛选实体以扩展种子实体集,形成面向电力客服问答知识图谱的实体集。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims (10)

1.一种面向电力客服问答的渐增式知识图谱实体抽取方法,其特征在于:
所述方法包括以下步骤:
步骤S1,将电力客服历史问答记录数据作为基础语料,形成由问题-答案对构成的电力客服问答实体识别基础数据集;
步骤S2,使用命名实体识别和事件识别的方法,在基础数据集上进行命名实体和事件实体的抽取并设置实体间的共存关系,形成面向电力客服问答的知识图谱初始种子实体集;
步骤S3,使用命名实体识别和事件识别的方法,在除基础数据集之外的电力客服领域语料数据上进行命名实体和事件实体的抽取并构建实体间的共存关系,形成每个电力客服语料数据源对应的实体集;
步骤S4,根据实体间的共存关系及共存关联路径距离,从每个电力客服语料数据源对应的实体集中筛选实体以扩展种子实体集,形成面向电力客服问答知识图谱的实体集。
2.根据权利要求1所述的一种面向电力客服问答的渐增式知识图谱实体抽取方法,其特征在于:
步骤S2包括:
步骤S21,对电力客服问答实体识别基础数据集中的问题语料抽取实体:
应用命名实体识别和事件识别技术,结合电力客服领域术语表,依据语料标注中的语义标签,抽取历史问答记录中问题题面中的命名实体,以及事件实体,生成题面初始种子实体集合;
步骤S22,对电力客服问答实体识别基础数据集中的答案语料抽取实体:
应用命名实体识别和事件识别技术,结合电力客服领域术语表,抽取历史问答记录中问题答案中相关的命名实体、事件实体,生成答案初始种子实体集合;
步骤S23,构建面向电力客服问答的知识图谱初始种子实体集合:
将由步骤S21和步骤S22抽取得到的实体合并形成初始种子实体集合;
步骤S24,设置初始种子实体集合中种子实体间的共存关系,形成面向电力客服问答的知识图谱初始种子实体集。
3.根据权利要求2所述的一种面向电力客服问答的渐增式知识图谱实体抽取方法,其特征在于:
步骤S24具体为:
依据由步骤S1生成的电力客服问答实体识别基础数据集及其中问题-答案对应关系,将初始种子实体集合中出现在同一个问题的题面或答案中的实体之间,设置共存关系,即对于两个实体a,b,如果存在一个问题其题面或答案中有实体a和b,则将二元组(a,b)置于共存关系列表中,形成面向电力客服问答的知识图谱初始种子实体集。
4.根据权利要求1-3任一所述的一种面向电力客服问答的渐增式知识图谱实体抽取方法,其特征在于:
所述电力客服语料数据源分为关系数据库电力客服语料数据源和文本语料电力客服语料数据源。
5.根据权利要求4所述的一种面向电力客服问答的渐增式知识图谱实体抽取方法,其特征在于:
步骤S3包括:
对各电力客服语料数据源数据分别抽取命名实体和事件实体,存入对应的电力客服语料数据源的实体集合;
分别构建文本语料电力客服语料数据源的实体集合中实体间共存关系,以及关系数据库电力客服语料数据源的实体集合中实体间共存关系,得到电力客服语料数据源的实体集。
6.根据权利要求5所述的一种面向电力客服问答的渐增式知识图谱实体抽取方法,其特征在于:
所述构建文本语料电力客服语料数据源的实体集合中实体间共存关系,具体为:
根据文本语料电力客服语料数据源的实体集合中任意两个实体是否在语料文本的一个句子中同时出现,确定这两个实体的共存关系,当两个实体在文本的某一个句子中同时出现,则在这两个实体间建立共存关系,即将由这两个实体构成的二元组添加到共存关系列表中。
7.根据权利要求5所述的一种面向电力客服问答的渐增式知识图谱实体抽取方法,其特征在于:
所述构建关系数据库电力客服语料数据源的实体集合中实体间共存关系,具体为:
根据关系数据库电力客服语料数据源的实体集合中任意两个实体是否在关系数据库的一个表格元组中同时出现,确定这两个实体的共存关系,当两个实体在关系数据库的一个表格元组中同时出现,则将由这两个实体构成的二元组加入共存关系列表中。
8.根据权利要求1所述的一种面向电力客服问答的渐增式知识图谱实体抽取方法,其特征在于:
步骤S4具体为:
计算每个数据源实体集中所含种子实体的比例,选取数据源实体集中所含种子实体的比例高于电力客服语料数据源相关度阈值的数据源实体集;
对数据源实体集中所含种子实体的比例高于电力客服语料数据源相关度阈值的数据源实体集,依据实体在该数据源数据项上的共存关系,以及该数据源实体集中实体与种子实体间共存关联路径距离阈值,从该数据源实体集中选择与某个已有的种子实体间有直接共存关系或有共存关系路径且共存关系路径长度小于设定的共存关联路径距离阈值的实体放入种子实体集;
迭代进行数据源中实体筛选并扩展种子实体集,直到种子实体集合达到集合不动点,或所含种子实体的比例高于电力客服语料数据源相关度阈值的数据源实体集已全部筛选完成,形成面向电力客服问答知识图谱的实体集合。
9.根据权利要求8所述的一种面向电力客服问答的渐增式知识图谱实体抽取方法,其特征在于:
所述实体间的共存关系构成实体间的共存关系列表,由实体间的共存关系列表,构建实体共存关系图,其中将每个实体看作图的一个节点,共存关系列表中的每一个二元组,构成实体共存关系图中的一条无向边,两个节点间如果有多个二元组,则视为一个;
所述实体间有直接共存关系是指两个实体对应的节点在实体共存关系图中有一条边直接相连;
实体间共存关系路径长度等于在实体共存关系图上两个实体对应的两个节点之间的最短路径所包含边的数量;
如果两个实体对应节点之间无路径,则设这两个实体间的共存关系路径长度为正无穷。
10.根据权利要求1-9任一所述的一种面向电力客服问答的渐增式知识图谱实体抽取方法的渐增式知识图谱实体抽取系统,其特征在于:
所述系统包括:
基础数据集构建模块,用于将电力客服历史问答记录数据作为基础语料,形成由问题-答案对构成的电力客服问答实体识别基础数据集;
种子实体集构建模块,用于使用命名实体识别和事件识别的方法,在基础数据集上进行命名实体和事件实体的抽取并设置实体间的共存关系,形成面向电力客服问答的知识图谱初始种子实体集;
数据源实体集构建模块,用于使用命名实体识别和事件识别的方法,在除基础数据集之外的电力客服领域语料数据上进行命名实体和事件实体的抽取并构建实体间的共存关系,形成每个电力客服语料数据源对应的实体集;
面向电力客服问答知识图谱的实体集构建模块,用于根据实体间的共存关系及共存关联路径距离,从每个电力客服语料数据源对应的实体集中筛选实体以扩展种子实体集,形成面向电力客服问答知识图谱的实体集。
CN202011218596.4A 2020-11-04 2020-11-04 面向电力客服问答的渐增式知识图谱实体抽取方法和系统 Active CN112199488B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011218596.4A CN112199488B (zh) 2020-11-04 2020-11-04 面向电力客服问答的渐增式知识图谱实体抽取方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011218596.4A CN112199488B (zh) 2020-11-04 2020-11-04 面向电力客服问答的渐增式知识图谱实体抽取方法和系统

Publications (2)

Publication Number Publication Date
CN112199488A CN112199488A (zh) 2021-01-08
CN112199488B true CN112199488B (zh) 2023-09-26

Family

ID=74033247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011218596.4A Active CN112199488B (zh) 2020-11-04 2020-11-04 面向电力客服问答的渐增式知识图谱实体抽取方法和系统

Country Status (1)

Country Link
CN (1) CN112199488B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051382A (zh) * 2021-04-08 2021-06-29 云南电网有限责任公司电力科学研究院 一种基于知识图谱的电力故障智能问答方法及装置
CN113315792B (zh) * 2021-07-30 2021-11-30 深圳市永达电子信息股份有限公司 网络数据的客体抽取方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468605A (zh) * 2014-08-25 2016-04-06 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
WO2018072563A1 (zh) * 2016-10-18 2018-04-26 中兴通讯股份有限公司 一种知识图谱构建方法、装置及系统
CN108491491A (zh) * 2018-03-14 2018-09-04 广州杰赛科技股份有限公司 智能客服知识图谱的构建方法与系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11222052B2 (en) * 2011-02-22 2022-01-11 Refinitiv Us Organization Llc Machine learning-based relationship association and related discovery and

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468605A (zh) * 2014-08-25 2016-04-06 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
WO2018072563A1 (zh) * 2016-10-18 2018-04-26 中兴通讯股份有限公司 一种知识图谱构建方法、装置及系统
CN108491491A (zh) * 2018-03-14 2018-09-04 广州杰赛科技股份有限公司 智能客服知识图谱的构建方法与系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向水利信息资源的智能问答系统构建与应用;张紫璇;陆佳民;姜笑;冯钧;;计算机与现代化(03);全文 *

Also Published As

Publication number Publication date
CN112199488A (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
WO2019214245A1 (zh) 一种信息推送方法、装置、终端设备及存储介质
CN102722709B (zh) 一种垃圾图片识别方法和装置
CN107368468A (zh) 一种运维知识图谱的生成方法及系统
CN106447346A (zh) 一种智能电力客服系统的构建方法及系统
CN105095195A (zh) 基于知识图谱的人机问答方法和系统
CN112199488B (zh) 面向电力客服问答的渐增式知识图谱实体抽取方法和系统
CN103823896A (zh) 一种学科特征值算法及基于其的项目评审专家推荐算法
CN104615608A (zh) 一种数据挖掘处理系统及方法
CN112036842B (zh) 一种科技服务智能匹配装置
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN108763212A (zh) 一种地址信息提取方法及装置
CN115033679B (zh) 基于知识图谱搜索汽车维修数据的方法
CN102402717A (zh) 数据分析设备和方法
CN112363996B (zh) 用于建立电网知识图谱的物理模型的方法及系统和介质
CN113626571A (zh) 答句生成方法、装置、计算机设备和存储介质
CN109902148B (zh) 一种通讯录联系人的企业名称自动补全的方法
CN112241438A (zh) 一种政策服务信息数据处理和查询方法及系统
Dudek et al. Integrated quality assessment of services in an adaptive expert system with a rule-based knowledge base
CN104573098B (zh) 基于Spark系统的大规模对象识别方法
CN111221967A (zh) 一种基于区块链架构的语言数据分类存储系统
CN116303379A (zh) 一种数据处理方法、系统及计算机储存介质
CN113538011B (zh) 一种电力系统中非在册联系信息与在册用户的关联方法
CN115827885A (zh) 一种运维知识图谱的构建方法、装置及电子设备
CN106407271B (zh) 一种智能客服系统及其智能客服知识库的更新方法
CN113901233A (zh) 一种查询数据修复方法、系统、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant