CN111340366A - 结构化知识质量提升方法及设备 - Google Patents
结构化知识质量提升方法及设备 Download PDFInfo
- Publication number
- CN111340366A CN111340366A CN202010120920.2A CN202010120920A CN111340366A CN 111340366 A CN111340366 A CN 111340366A CN 202010120920 A CN202010120920 A CN 202010120920A CN 111340366 A CN111340366 A CN 111340366A
- Authority
- CN
- China
- Prior art keywords
- structured knowledge
- quality
- knowledge
- low
- structured
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000006872 improvement Effects 0.000 title claims abstract description 25
- 230000007547 defect Effects 0.000 claims abstract description 72
- 238000011156 evaluation Methods 0.000 claims abstract description 56
- 238000005065 mining Methods 0.000 claims abstract description 30
- 238000005516 engineering process Methods 0.000 claims abstract description 17
- 238000012986 modification Methods 0.000 claims description 30
- 230000004048 modification Effects 0.000 claims description 30
- 238000012937 correction Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012552 review Methods 0.000 claims 2
- 238000013461 design Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Development Economics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Game Theory and Decision Science (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种结构化知识质量提升方法及设备,该方法包括通过搜索引擎坏例挖掘算法,根据历史操作数据对知识库中各结构化知识进行评分,得到各结构化知识的评分结果;根据各结构化知识的评分结果,从知识库的各结构化知识中提取评分结果低于第一预设阈值的低质量结构化知识;针对每项低质量结构化知识,获取该低质量结构化知识的评价信息,通过文本挖掘技术从所述评价信息中提取该低质量结构化知识的缺陷位置;根据所述缺陷位置,对该低质量结构化知识进行修正,得到修正后的结构化知识。本发明实施例可以实现对电信客服系统的知识库中的结构化知识的质量进行高效的提升。
Description
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种结构化知识质量提升方法及设备。
背景技术
随着通信技术的发展,用户对电信服务的质量也提出了越来要高的要求,为了满足用户的要求,各电信运营商对于各自电信客服系统的知识库需要进行及时的维护和质量提升。
现有技术中,通常是由采编人员建立知识库中的结构化知识,并对各结构化知识进行人工的检查和更新以提升结构化知识的质量。
然而,知识库的知识信息量非常庞大,并且由于采编人员的数量多且能力参差不齐,因此会造成知识库中的存在大量的结构化知识需要质量提升,仅靠人工进行质量提升,工作量大效率。
发明内容
本发明实施例提供一种结构化知识质量提升方法及设备,以实现对电信客服系统的知识库中的结构化知识的质量进行高效的提升。
第一方面,本发明实施例提供一种结构化知识质量提升方法,包括:
通过搜索引擎坏例挖掘算法,根据历史操作数据对知识库中各结构化知识进行评分,得到各结构化知识的评分结果;
根据各结构化知识的评分结果,从知识库的各结构化知识中提取评分结果低于第一预设阈值的低质量结构化知识;
针对每项低质量结构化知识,获取该低质量结构化知识的评价信息,通过文本挖掘技术从所述评价信息中提取该低质量结构化知识的缺陷位置;根据所述缺陷位置,对该低质量结构化知识进行修正,得到修正后的结构化知识。
在一种可能的设计中,所述根据所述缺陷位置,对该低质量结构化知识进行修正,包括:
判断所述评价信息中是否存在该缺陷位置对应的修改建议,若存在,则将该修改建议替换所述缺陷位置处的数据。
在一种可能的设计中,所述判断所述评价信息中是否存在该缺陷位置对应的修改建议之后,还包括:
若不存在,则通过相似度算法获取与所述低质量结构化知识相似的第一高质量结构化知识,并根据所述缺陷位置和所述第一高质量结构化知识,对所述低质量结构化知识进行修改。
在一种可能的设计中,所述通过相似度算法获取与所述低质量结构化知识相似的第一高质量结构化知识,包括:
获取高于第二预设阈值的所有第二高质量结构化知识;
针对每项第二高质量结构化知识,计算所述高质量结构化知识与所述低质量结构化知识的相似度,获得各第二高质量结构化知识分别对应的相似度;
从各第二高质量结构化知识分别对应的相似度中选取最高相似度,并获取该最高相似度对应的第二高质量结构化知识,作为所述低质量结构化知识相似的第一高质量结构化知识。
在一种可能的设计中,所述历史操作数据包括搜索数据、点击量数据和更新时间,所述根据历史操作数据对知识库中各结构化知识进行评分,得到各结构化知识的评分结果,包括:
通过熵值法为所述搜索数据、所述点击量数据和所述更新时间分配相应的权重;
针对每项结构化知识,根据该结构化知识的所述搜索数据、所述点击量数据和所述更新时间,以及各项数据分别对应的权重,计算该结构化知识的评分结果。
在一种可能的设计中,所述评价信息包括缺陷位置填写项,所述通过文本挖掘技术从所述评价信息中提取该低质量结构化知识的缺陷位置,包括:
通过文本挖掘技术从所述评价信息中的缺陷位置填写项对应的内容中提取该低质量结构化知识的缺陷位置。
在一种可能的设计中,所述评价信息包括:采编人员输入的评价信息和客服人员输入的评价信息。
第二方面,本发明实施例提供一种结构化知识质量提升设备,包括:
评分模块,用于通过搜索引擎坏例挖掘算法,根据历史操作数据对知识库中各结构化知识进行评分,得到各结构化知识的评分结果;
提取模块,用于根据各结构化知识的评分结果,从知识库的各结构化知识中提取评分结果低于第一预设阈值的低质量结构化知识;
修正模块,用于针对每项低质量结构化知识,获取该低质量结构化知识的评价信息,通过文本挖掘技术从所述评价信息中提取该低质量结构化知识的缺陷位置;根据所述缺陷位置,对该低质量结构化知识进行修正,得到修正后的结构化知识。
第三方面,本发明实施例提供一种结构化知识质量提升设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的方法。
本实施例提供的结构化知识质量提升方法及设备,该方法通过搜索引擎坏例挖掘算法,根据历史操作数据对知识库中各结构化知识进行评分,得到各结构化知识的评分结果,并且根据各结构化知识的评分结果,从知识库的各结构化知识中提取评分结果低于第一预设阈值的低质量结构化知识,能够将结构化知识的质量进行量化,以准确的抓取质量待提升的低质量结构化知识。针对每项低质量结构化知识,获取该低质量结构化知识的评价信息,通过文本挖掘技术从所述评价信息中提取该低质量结构化知识的缺陷位置;根据所述缺陷位置,对该低质量结构化知识进行修正,得到修正后的结构化知识。实现了对低质量结构化知识中的缺陷进行自动修正的效果,从而能够提高对知识库中的各结构化知识进行质量提升的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的结构化知识质量提升方法的应用场景;
图2为本发明又一实施例提供的结构化知识质量提升方法的流程示意图;
图3为本发明又一实施例提供的结构化知识质量提升方法的流程示意图;
图4为本发明又一实施例提供的结构化知识质量提升设备的结构示意图;
图5为本发明又一实施例提供的结构化知识质量提升设备的结构示意图;
图6为本发明又一实施例提供的结构化知识质量提升设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一实施例提供的结构化知识质量提升方法的应用场景。如图1所示,电信客服系统包括终端设备101和服务器102,终端设备101和服务器102通过有线网络或者无线网络连接。服务器102,用于存储知识库。终端设备101,用于接收采编人员输入的各项结构化知识,并将输入的各项结构化知识存储于知识库中。还用于接收客服人员的查询信息,并将该查询信息发送给服务器102,以使服务器102根据该查询信息从知识库中提取相应的结构化知识,并将该结构化知识回传至终端设备101,推送给客服人员。可选地,该服务器102可以是本地服务器或者云存储服务器。若终端设备101的处理能力允许的话,也可以将知识库存储于终端设备,无需设置服务器102。可选地,终端设备101可以为手机、平板、计算机等设备。
在具体实现过程中,采编人员将用户有可能咨询的各结构化知识通过终端设备101存入服务器102中的知识库内。可选地,可以由多个采编人员通过各自的终端设备101进行结构化知识的输入。客服人员在接听客户的来电咨询时,可以根据客户的咨询问题,向终端设备101输入查询信息,以从服务器102的知识库中提取相关的结构化知识,以针对客户的咨询问题给出令客户满意的答复。
由此可见,为客户提供优质服务与知识库内的结构化知识的质量水平有重要关系。然而,现有技术中由于采编人员的数量多且能力参差不齐,因此会造成知识库中的存在大量的结构化知识需要质量提升,仅靠人工进行质量提升,工作量大效率。基于此,本发明实施例提供一种结构化知识质量提升方法,以对电信客服系统的知识库中的结构化知识的质量进行高效提升。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图2为本发明又一实施例提供的结构化知识质量提升方法的流程示意图。如图2所示,该方法包括:
201、通过搜索引擎坏例挖掘算法,根据历史操作数据对知识库中各结构化知识进行评分,得到各结构化知识的评分结果。
实际应用中,本实施例的执行主体可以为图1中的终端设备101或服务器102。
本实施例中,结构化知识是指对知识进行归纳整理后的知识点。例如,在电信服务中,各资费套餐,以一定的逻辑与架构进行存储。具体的,某资费套餐,可以由资费、套餐内容、套餐生效时间等院子组成。
可选地,所述历史操作数据可以包括搜索数据、点击量数据和更新时间等多种数据。
为了使评分更加客观准确,可以以该多种数据作为评定指标,进行评分。所述根据历史操作数据对知识库中各结构化知识进行评分,得到各结构化知识的评分结果,可以包括:
2011、通过熵值法为所述搜索数据、所述点击量数据和所述更新时间分配相应的权重。
2012针对每项结构化知识,根据该结构化知识的所述搜索数据、所述点击量数据和所述更新时间,以及各项数据分别对应的权重,计算该结构化知识的评分结果。
实际应用中,电信客服中心的客服人员所需要查询的所有的结构化知识都存在于相应的数据库中。每周定时检索知识库中的各结构化知识。查看各结构化知识的评分情况。对于每个结构化知识的评分情况都是实时更新的。具体的评分,可以由对多个方面的评价得到。例如,根据历史操作数据中的搜索数据得到搜索评分,根据点击量数据得到点击量评分,根据更新时间得到更新频率评分。
以下以搜索数据为例对评分原理进行示例说明。可选地,系统可以有日志记录功能,该日志记录功能用以记录搜索过程中所产生的搜索数据。以为后续搜索评分提供数据基础。具体的,当客服人员搜索一条结构化知识时,会生成一条日志,以搜索腾讯网卡为例,当客服人员输入腾讯网卡关键词进行搜索时,电信客服系统会从知识库中调取腾讯王卡相关的知识和内容并进行展示,并且该整个操作被记录为一条日志,
假设结构化知识“腾讯王卡a”显示在第一行,客服人员没有点击该结构化知识,那么日志中记录有:
腾讯王卡a 1(此处1代表知识显示在第一行)-0(此处0代表没有点击)-0s(此处0代表浏览时间为0);
假设结构化知识“腾讯王卡b”显示在第二行,客服人员点击了该第二行的腾讯王卡b,并浏览了了1秒,则日志中记录有:
腾讯王卡b 2-1-1s;
此时对于腾讯王卡a和腾讯网卡b来说,由于腾讯网卡b被点击浏览,则基于本次操作,腾讯网卡a的搜索评分将低于腾讯王卡b。
由此可知,本实施例中的对于搜索评分的评分规则可以包括:各结构化知识初始为0分,针对是否被点击,第一行的结构化知识未被点击扣0.1分。第二行的结构化知识被点击加0.1分,针对浏览时间,第二行的结构化知识被浏览1s加0.1分。也即根据是否被点击,以及是否被浏览以及浏览时间对每一次搜索操作进行搜索评分。
影响结构化知识的评分结果的因素有很多,例如,除了搜索数据,还可以包括能够反映对结构化知识的更新频率的更新时间,以及能够反映结构化知识受欢迎程度的点击量数据。因此,本实施例中,可以通过从搜索数据、点击量数据和更新时间三个方面进行分别评分。根据该三项评分得到每项接过话知识的最终评分结果。
由于不同的影响因素的影响程度不同,因此可以通过熵值法为不同的因素分配不同的权重,从而根据该权重和各项评分得到最终评分。
202、根据各结构化知识的评分结果,从知识库的各结构化知识中提取评分结果低于第一预设阈值的低质量结构化知识。
在实际应用中,可以设定满分分值,并设置不同阈值来标定低质量结构化知识和高质量结构化知识。例如,以满分分值为10为例,可以令高于9分的结构化知识未高质量结构化知识,低于5分的结构化知识为低质量结构化知识。
203、针对每项低质量结构化知识,获取该低质量结构化知识的评价信息,通过文本挖掘技术从所述评价信息中提取该低质量结构化知识的缺陷位置;根据所述缺陷位置,对该低质量结构化知识进行修正,得到修正后的结构化知识。
本实施例中,所述评价信息的来源可以有多种,例如可以包括:采编人员输入的评价信息和客服人员输入的评价信息。
具体的,电信客服系统中设置有知识评价功能,基于该功能,采编人员和客服人员可以对浏览到的具有缺陷的结构化知识进行评价信息的输入。该评价信息可以包括对于该结构化知识的主观评分、缺陷位置的指出和修改建议的填写。不同工作人员的评分可以进行累加以及实时更新。以便于工作人员的修正和补充。
可选地,所述评价信息可以包括缺陷位置填写项,所述通过文本挖掘技术从所述评价信息中提取该低质量结构化知识的缺陷位置,包括:
通过文本挖掘技术从所述评价信息中的缺陷位置填写项对应的内容中提取该低质量结构化知识的缺陷位置。
举例来说,以资费套餐为例,当客服人员或采编人员搜索到相关的资费套餐时,显示界面会呈现“缺陷位置处”和“修改建议”等填写项,以供客服人员或采编人员对该结构化知识进行评价,完成评价信息的采集。
资费套餐包括资费、套餐内容、套餐生效时间等原子。
显示界面不仅显示资费套餐的上述具体内容,还会提供“缺陷位置处”和“修改建议”的填写项。以使客服人员或采编人员输入存在缺陷的原子名称,以记录缺陷位置,输入修改建议,以记录修正内容。
本实施例提供的结构化知识质量提升方法,通过搜索引擎坏例挖掘算法,根据历史操作数据对知识库中各结构化知识进行评分,得到各结构化知识的评分结果,并且根据各结构化知识的评分结果,从知识库的各结构化知识中提取评分结果低于第一预设阈值的低质量结构化知识,能够将结构化知识的质量进行量化,以准确的抓取质量待提升的低质量结构化知识。针对每项低质量结构化知识,获取该低质量结构化知识的评价信息,通过文本挖掘技术从所述评价信息中提取该低质量结构化知识的缺陷位置;根据所述缺陷位置,对该低质量结构化知识进行修正,得到修正后的结构化知识。实现了对低质量结构化知识中的缺陷进行自动修正的效果,从而能够提高对知识库中的各结构化知识进行质量提升的效率。
图3为本发明又一实施例提供的结构化知识质量提升方法的流程示意图。如图3所示,在上述实施例的基础上,本实施例对步骤203的具体实现进行了详细说明,其中,针对每项低质量结构化知识所执行的步骤包括:
301、获取该低质量结构化知识的评价信息。
302、通过文本挖掘技术从所述评价信息中提取该低质量结构化知识的缺陷位置。
303、判断所述评价信息中是否存在该缺陷位置对应的修改建议。若存在,则执行步骤304。若不存在,则执行步骤305。
304、将该修改建议替换所述缺陷位置处的数据。
305、通过相似度算法获取与所述低质量结构化知识相似的第一高质量结构化知识,并根据所述缺陷位置和所述第一高质量结构化知识,对所述低质量结构化知识进行修改。
实际应用中,评价信息可以包括缺陷位置和修改建议的内容。针对每项低质量结构化知识获取缺陷位置和修改建议。采编人员或客服人员在填写修改建议时,可能会存在指出了缺陷位置,但是针对该缺陷位置因为忘记或暂时没有好的答案,未填写相关的修改建议。当然,如果存在修改建议,可以直接将修改建议中的内容,对缺陷位置处的数据进行替换或补充。
如果不存在修改建议,则可以通过相似度算法查找与该低质量结构化知识相似的高质量结构化知识。具体的,可以先提取评分结果高于预设分值的所有的第二高质量结构化知识,并从高于预设分值的所有的第二高质量结构化知识中提取与该低质量结构化知识相似度最高的第一高质量结构化知识。
可选地,所述通过相似度算法获取与所述低质量结构化知识相似的高质量结构化知识,可以包括:
确定评价相似度的多项指标。可选地,该多项指标可以包括知识标题、知识模板和知识内容等。
通过熵值法为各项指标分别分配权重。
根据各项指标的相似度和相对应的权重,确定该项第二高质量结构化知识与该低质量结构化知识的最终相似度。
选取各第一高质量结构化知识对应的最终相似度中最高值所对应的第一高质量结构化知识,作为与该低质量结构化知识相似的第一高质量结构化知识。
实际应用中,在查找到与低质量结构化知识相似的第一高质量结构化知识后,可以将第一高质量结构化知识中与低质量结构化知识中缺陷位置对应的内容替换或补充进低质量结构化知识中。例如,缺陷位置如果是资费套餐中的套餐生效时间的原子的内容。那么可以将第一高质量结构化知识中的套餐生效时间的具体内容替换或补充该低质量结构化知识的套餐生效时间的内容。
可选地,在步骤305后,还可以包括:
306、若第一高质量结构化知识中不存在低质量结构化知识缺陷位置的内容,则将该缺陷位置进行记录,并将该记录发送给采编人员,进行人工采编。
本实施例提供的结构化知识质量提升方法,通过综合采编人员和客服人员给出的评价信息,以及与每项低质量结构化知识相似的高质量结构化知识的内容对第质量结构化知识进行了自动高效的提升,节约了人力。
图4为本发明又一实施例提供的结构化知识质量提升设备的结构示意图。如图4所示,该结构化知识质量提升设备40包括:评分模块401、提取模块402和修正模块403。
评分模块401,用于通过搜索引擎坏例挖掘算法,根据历史操作数据对知识库中各结构化知识进行评分,得到各结构化知识的评分结果。
提取模块402,用于根据各结构化知识的评分结果,从知识库的各结构化知识中提取评分结果低于第一预设阈值的低质量结构化知识。
修正模块403,用于针对每项低质量结构化知识,获取该低质量结构化知识的评价信息,通过文本挖掘技术从所述评价信息中提取该低质量结构化知识的缺陷位置;根据所述缺陷位置,对该低质量结构化知识进行修正,得到修正后的结构化知识。
本发明实施例提供的结构化知识质量提升设备,评分模块通过搜索引擎坏例挖掘算法,根据历史操作数据对知识库中各结构化知识进行评分,得到各结构化知识的评分结果;提取模块根据各结构化知识的评分结果,从知识库的各结构化知识中提取评分结果低于第一预设阈值的低质量结构化知识;修正模块针对每项低质量结构化知识,获取该低质量结构化知识的评价信息,通过文本挖掘技术从所述评价信息中提取该低质量结构化知识的缺陷位置;根据所述缺陷位置,对该低质量结构化知识进行修正,得到修正后的结构化知识。从而能够提高对知识库中的各结构化知识进行质量提升的效率。
图5为本发明又一实施例提供的结构化知识质量提升设备的结构示意图。如图5所示,该结构化知识质量提升设备50中的修正模块403具体包括:。
可选地,所述修正模块403,包括:
判断单元4031,用于判断所述评价信息中是否存在该缺陷位置对应的修改建议,若存在,则将该修改建议替换所述缺陷位置处的数据。
可选地,所述修正模块403,还包括:
修改单元4032,用于在评级信息中不存在所述缺陷位置对应的修改建议时,通过相似度算法获取与所述低质量结构化知识相似的第一高质量结构化知识,并根据所述缺陷位置和所述第一高质量结构化知识,对所述低质量结构化知识进行修改。
可选地,所述修改单元4032,具体用于:
获取高于第二预设阈值的所有第二高质量结构化知识;
针对每项第二高质量结构化知识,计算所述高质量结构化知识与所述低质量结构化知识的相似度,获得各第二高质量结构化知识分别对应的相似度;
从各第二高质量结构化知识分别对应的相似度中选取最高相似度,并获取该最高相似度对应的第二高质量结构化知识,作为所述低质量结构化知识相似的第一高质量结构化知识。
可选地,所述历史操作数据包括搜索数据、点击量数据和更新时间,所述评分模块401,具体用于:
通过熵值法为所述搜索数据、所述点击量数据和所述更新时间分配相应的权重;
针对每项结构化知识,根据该结构化知识的所述搜索数据、所述点击量数据和所述更新时间,以及各项数据分别对应的权重,计算该结构化知识的评分结果。
可选地,所述评价信息包括缺陷位置填写项,所述修正模块403具体用于:
通过文本挖掘技术从所述评价信息中的缺陷位置填写项对应的内容中提取该低质量结构化知识的缺陷位置。
可选地,所述评价信息包括:采编人员输入的评价信息和客服人员输入的评价信息。
本发明实施例提供的结构化知识质量提升设备,可用于执行上述的方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
图6为本发明又一实施例提供的结构化知识质量提升设备的硬件结构示意图。如图6所示,本实施例提供的结构化知识质量提升设备6包括:至少一个处理器61和存储器62。该结构化知识质量提升设备6还包括通信部件63。其中,处理器61、存储器62以及通信部件63通过总线64连接。
在具体实现过程中,至少一个处理器61执行所述存储器62存储的计算机执行指令,使得至少一个处理器61执行如上结构化知识质量提升设备6所执行的结构化知识质量提升方法。
当本实施例的后端由服务器执行时,该通信部件63可以将语音帧发送给服务器。
处理器61的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述的图6所示的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上结构化知识质量提升设备执行的结构化知识质量提升方法。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上结构化知识质量提升设备执行的结构化知识质量提升方法。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种结构化知识质量提升方法,其特征在于,包括:
通过搜索引擎坏例挖掘算法,根据历史操作数据对知识库中各结构化知识进行评分,得到各结构化知识的评分结果;
根据各结构化知识的评分结果,从知识库的各结构化知识中提取评分结果低于第一预设阈值的低质量结构化知识;
针对每项低质量结构化知识,获取该低质量结构化知识的评价信息,通过文本挖掘技术从所述评价信息中提取该低质量结构化知识的缺陷位置;根据所述缺陷位置,对该低质量结构化知识进行修正,得到修正后的结构化知识。
2.根据权利要求1所述的方法,其特征在于,所述根据所述缺陷位置,对该低质量结构化知识进行修正,包括:
判断所述评价信息中是否存在该缺陷位置对应的修改建议,若存在,则将该修改建议替换所述缺陷位置处的数据。
3.根据权利要求2所述的方法,其特征在于,所述判断所述评价信息中是否存在该缺陷位置对应的修改建议之后,还包括:
若不存在,则通过相似度算法获取与所述低质量结构化知识相似的第一高质量结构化知识,并根据所述缺陷位置和所述第一高质量结构化知识,对所述低质量结构化知识进行修改。
4.根据权利要求3所述的方法,其特征在于,所述通过相似度算法获取与所述低质量结构化知识相似的第一高质量结构化知识,包括:
获取高于第二预设阈值的所有第二高质量结构化知识;
针对每项第二高质量结构化知识,计算所述高质量结构化知识与所述低质量结构化知识的相似度,获得各第二高质量结构化知识分别对应的相似度;
从各第二高质量结构化知识分别对应的相似度中选取最高相似度,并获取该最高相似度对应的第二高质量结构化知识,作为所述低质量结构化知识相似的第一高质量结构化知识。
5.根据权利要求1所述的方法,其特征在于,所述历史操作数据包括搜索数据、点击量数据和更新时间,所述根据历史操作数据对知识库中各结构化知识进行评分,得到各结构化知识的评分结果,包括:
通过熵值法为所述搜索数据、所述点击量数据和所述更新时间分配相应的权重;
针对每项结构化知识,根据该结构化知识的所述搜索数据、所述点击量数据和所述更新时间,以及各项数据分别对应的权重,计算该结构化知识的评分结果。
6.根据权利要求1所述的方法,其特征在于,所述评价信息包括缺陷位置填写项,所述通过文本挖掘技术从所述评价信息中提取该低质量结构化知识的缺陷位置,包括:
通过文本挖掘技术从所述评价信息中的缺陷位置填写项对应的内容中提取该低质量结构化知识的缺陷位置。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述评价信息包括:采编人员输入的评价信息和客服人员输入的评价信息。
8.一种结构化知识质量提升设备,其特征在于,包括:
评分模块,用于通过搜索引擎坏例挖掘算法,根据历史操作数据对知识库中各结构化知识进行评分,得到各结构化知识的评分结果;
提取模块,用于根据各结构化知识的评分结果,从知识库的各结构化知识中提取评分结果低于第一预设阈值的低质量结构化知识;
修正模块,用于针对每项低质量结构化知识,获取该低质量结构化知识的评价信息,通过文本挖掘技术从所述评价信息中提取该低质量结构化知识的缺陷位置;根据所述缺陷位置,对该低质量结构化知识进行修正,得到修正后的结构化知识。
9.一种结构化知识质量提升设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至7任一项所述的结构化知识质量提升方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至7任一项所述的结构化知识质量提升方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010120920.2A CN111340366B (zh) | 2020-02-26 | 2020-02-26 | 结构化知识质量提升方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010120920.2A CN111340366B (zh) | 2020-02-26 | 2020-02-26 | 结构化知识质量提升方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111340366A true CN111340366A (zh) | 2020-06-26 |
CN111340366B CN111340366B (zh) | 2022-10-21 |
Family
ID=71181939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010120920.2A Active CN111340366B (zh) | 2020-02-26 | 2020-02-26 | 结构化知识质量提升方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111340366B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111858965A (zh) * | 2020-08-04 | 2020-10-30 | 中国银行股份有限公司 | 知识库生成方法及装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005190232A (ja) * | 2003-12-26 | 2005-07-14 | Seiko Epson Corp | 質問回答装置の精度向上支援装置及び精度向上支援方法ならびにそのプログラム |
US20080103882A1 (en) * | 2006-10-25 | 2008-05-01 | General Electric Company | Method for cost-sensitive autonomous information retrieval and extraction |
CN103823879A (zh) * | 2014-02-28 | 2014-05-28 | 中国科学院计算技术研究所 | 面向在线百科的知识库自动更新方法及系统 |
US20160314158A1 (en) * | 2015-04-27 | 2016-10-27 | Rovi Guides, Inc. | Systems and methods for updating a knowledge graph through user input |
CN107562789A (zh) * | 2017-07-28 | 2018-01-09 | 深圳前海微众银行股份有限公司 | 知识库问题更新方法、客服机器人以及可读存储介质 |
CN107798123A (zh) * | 2017-11-10 | 2018-03-13 | 上海智臻智能网络科技股份有限公司 | 知识库及其建立、修改、智能问答方法、装置及设备 |
CN108090084A (zh) * | 2016-11-23 | 2018-05-29 | 卓望数码技术(深圳)有限公司 | 一种知识管理方法和系统 |
CN110019149A (zh) * | 2019-01-30 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种客服知识库的建立方法、装置及设备 |
CN110046235A (zh) * | 2019-03-18 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 一种知识库评估方法、装置及设备 |
CN110059171A (zh) * | 2019-04-12 | 2019-07-26 | 中国工商银行股份有限公司 | 智能问答性能提升方法及系统 |
CN110188205A (zh) * | 2019-05-08 | 2019-08-30 | 三角兽(北京)科技有限公司 | 一种智能客服系统知识库的更新方法及装置 |
-
2020
- 2020-02-26 CN CN202010120920.2A patent/CN111340366B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005190232A (ja) * | 2003-12-26 | 2005-07-14 | Seiko Epson Corp | 質問回答装置の精度向上支援装置及び精度向上支援方法ならびにそのプログラム |
US20080103882A1 (en) * | 2006-10-25 | 2008-05-01 | General Electric Company | Method for cost-sensitive autonomous information retrieval and extraction |
CN103823879A (zh) * | 2014-02-28 | 2014-05-28 | 中国科学院计算技术研究所 | 面向在线百科的知识库自动更新方法及系统 |
US20160314158A1 (en) * | 2015-04-27 | 2016-10-27 | Rovi Guides, Inc. | Systems and methods for updating a knowledge graph through user input |
CN108090084A (zh) * | 2016-11-23 | 2018-05-29 | 卓望数码技术(深圳)有限公司 | 一种知识管理方法和系统 |
CN107562789A (zh) * | 2017-07-28 | 2018-01-09 | 深圳前海微众银行股份有限公司 | 知识库问题更新方法、客服机器人以及可读存储介质 |
CN107798123A (zh) * | 2017-11-10 | 2018-03-13 | 上海智臻智能网络科技股份有限公司 | 知识库及其建立、修改、智能问答方法、装置及设备 |
CN110019149A (zh) * | 2019-01-30 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种客服知识库的建立方法、装置及设备 |
CN110046235A (zh) * | 2019-03-18 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 一种知识库评估方法、装置及设备 |
CN110059171A (zh) * | 2019-04-12 | 2019-07-26 | 中国工商银行股份有限公司 | 智能问答性能提升方法及系统 |
CN110188205A (zh) * | 2019-05-08 | 2019-08-30 | 三角兽(北京)科技有限公司 | 一种智能客服系统知识库的更新方法及装置 |
Non-Patent Citations (4)
Title |
---|
DAVID O.AIHE 等: "Correcting flawed expert knowledge through reinforcement learning", 《EXPERT SYSTEMS WITH APPLICATIONS》 * |
MORITZ HÖSER 等: "Modeling Adaptive Learning Agents for Domain Knowledge Transfer", 《2019 ACM/IEEE 22ND INTERNATIONAL CONFERENCE ON MODEL DRIVEN ENGINEERING LANGUAGES AND SYSTEMS COMPANION (MODELS-C)》 * |
朱梦月: "基于用户感知的高校机构知识库质量测评研究", 《中国优秀博硕士学位论文全文数据库(硕士)社会科学Ⅱ辑》 * |
相洋: "问答系统的答案优化方法研究", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111858965A (zh) * | 2020-08-04 | 2020-10-30 | 中国银行股份有限公司 | 知识库生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111340366B (zh) | 2022-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489633B (zh) | 一种基于图书馆数据的智慧大脑服务系统 | |
US11763145B2 (en) | Article recommendation method and apparatus, computer device, and storage medium | |
CN109597986A (zh) | 异常问题的定位方法、装置、设备及存储介质 | |
CN109597974B (zh) | 报表生成方法及装置 | |
CN111428599A (zh) | 票据识别方法、装置和设备 | |
CN112015721A (zh) | 一种基于大数据的电商平台存储数据库的优化方法 | |
CN111371672A (zh) | 消息推送方法及装置 | |
CN110502687B (zh) | 一种网站优化方法和装置 | |
CN111340366B (zh) | 结构化知识质量提升方法及设备 | |
CN111737443A (zh) | 答案文本的处理方法和装置、关键文本的确定方法 | |
CN107330709B (zh) | 确定目标对象的方法及装置 | |
CN111104628A (zh) | 一种用户识别方法、装置、电子设备和存储介质 | |
CN111062736A (zh) | 模型训练、线索排序方法、装置及设备 | |
CN109120509B (zh) | 一种信息收集的方法及装置 | |
CN110690987A (zh) | 账号信息管理方法、装置及设备 | |
CN112650931B (zh) | 一种内容推荐方法 | |
CN114564501A (zh) | 一种数据库数据存储、查询方法、装置、设备及介质 | |
CN109783559B (zh) | 房产交易数据的获取方法、装置、电子设备以及存储介质 | |
CN111523027B (zh) | 基于区块链技术的数据新闻自动撰写机器人 | |
CN114358879A (zh) | 一种基于大数据的物价实时监测方法和系统 | |
CN109785099B (zh) | 一种自动对业务数据信息进行处理的方法及系统 | |
CN109919811B (zh) | 基于大数据的保险代理人培养方案生成方法及相关设备 | |
CN110955760B (zh) | 判决结果的评价方法和相关装置 | |
CN108595534B (zh) | 一种资讯刷新的方法及装置 | |
CN112256836A (zh) | 记录数据的处理方法、装置和服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |