CN107958004A - 一种知识库的构建方法和装置 - Google Patents

一种知识库的构建方法和装置 Download PDF

Info

Publication number
CN107958004A
CN107958004A CN201610902538.0A CN201610902538A CN107958004A CN 107958004 A CN107958004 A CN 107958004A CN 201610902538 A CN201610902538 A CN 201610902538A CN 107958004 A CN107958004 A CN 107958004A
Authority
CN
China
Prior art keywords
knowledge
business
point
knowledge point
blocks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610902538.0A
Other languages
English (en)
Inventor
段福高
冯俊兰
邓路
胡珉
王燕蒙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201610902538.0A priority Critical patent/CN107958004A/zh
Publication of CN107958004A publication Critical patent/CN107958004A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的实施例提供一种知识库的构建方法和装置,方法包括:获取知识点;将知识点按照该知识点所属的业务划分为多个知识块;按照预设存储结构将所述多个知识块形成的知识块集存储在知识库中。本发明的方案通过对知识点进行分解,以知识块集合的形式进行细粒度存储,降低了知识在融合和共享方面的复杂性,在知识搜索方面也可以实现精确的知识反馈,满足用户对不同颗粒度的知识快速获取。

Description

一种知识库的构建方法和装置
技术领域
本发明涉及通信技术领域,特别是指一种知识库的构建方法和装置。
背景技术
在客服领域,知识库已经成为客服部门日常应答客户问题的知识来源。知识库是知识工程中结构化,易操作,易利用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。
(1)知识采编方面
在客服领域,存在着海量的以非结构化文档形式存储的知识,目前的知识采编过程还是以人工录入为主,效率低下。特别是要实现知识点的分割细化,就更加需要机器来自动完成而减少人工干预,进而才会提高知识的采编效率。
(2)知识存储方面
传统的文档式知识库采用大篇幅式存储,在知识维护、共享与扩展等方面都存在一些较为突出的问题,造成了工作效率的降低,已经被数据库管理系统所替代。
而基于数据库管理系统的知识库,目前的存储形式分为两种,即基于关系型数据库和非关系型数据库,其优势在于知识的生产、审核与知识使用不会被割裂开来,同时提高了工作效率。
在客服领域,针对某项业务下的知识点往往是由QA(问题-答案)和非QA组成,特别是非QA内容,又会包含图表等复杂内容,而现有的知识库往往对知识点内容进行整体性存储,并没有对其进行细粒度的分割,进而导致提供给客户的不是最精确的答案。
(3)知识共享方面
在客服领域,由于地域性的差异,各个地域客服部门会维护一套自己的知识库,很多共性的知识都是在进行重复性的存储。
(4)知识获取方面
大部分情况是客户写入关键词、自动关联一篇或几篇知识文档推送给客户,而这些知识文档之前是服务于座席培训、阅读后用来回答客户问题的,但现在直接开放给客户。由于这些文档没做客户化的工作或者做的不够,存在着专业术语多、逻辑不清晰、官方立场而非客户立场等问题,用户看不懂或者与用户问题关联度较差,虽然能够解决一部分问题但满意度不高。
另一部分做的比较好的是客户通过类似于聊天的自然语言与系统互动,系统建立了相应的词库进行分词,提取出相应的关键词后再进行搜索,回复给客户的是碎片化的片段内容。这种系统背后的核心仍然是搜索,只是将相应内容作了一定程度的碎片化并手动设置了相应的标签,客户体验好于前面的一种情况,但也只能在客户输入的语言比较专业时效果才好,而问题是大部分客户根本不专业。
发明人实现本发明的过程中,发现现有技术存在如下缺点:
1),知识结构优化问题。在实际的知识存储过程中,传统的知识存储方法在知识的共享、融合过程中存在先天性的缺陷。
知识共享方面,目前各个地域城市会根据业务分类对知识点的共性知识进行重复性存储。比如“国际业务”下的-“国际长途”知识点,对于“取消国际长途”问题,有两条答案,其中共性的答案是“10086热线取消”,非共性的答案是“访问某城市移动网上营业厅取消”。共性知识的重复性存储严重影响了知识的唯一性和无二义性,在知识的扩充和更改方面也会增加难度和成本。
知识融合方面,知识的粒度细分程度决定了知识的融合难易程度。目前客服领域知识的粒度不一,有的是粗粒度(如文档),有的是细粒度(如常见问题知识(FAQ))。很多知识库仅仅针对FAQ实现了细粒度划分,而针对某业务描述性的文档(带有图片、表格等)都是进行粗粒度的存储,如业务-知识点或业务-知识点-摘要的形式,粒度的细分程度不够,客户最终得到也不是精准的知识。
2),知识的语义关联问题。目前对知识的关联主要还是在搜索层面上实现的,比如建立了“Family”与“家庭”的关联(同义词),那么无论是用“家庭套餐”还是用“Family套餐”去发现,都可以找到知识库中的“家庭套餐”。但是客户的问题是多样的,如果要给出准确或接近客户意图的知识,单纯在搜索层面上建立词-词关联,给出的仍然是孤立的知识点。如果能够从知识点本身出发,建立知识点与知识点之间的关联,用户会得到更多接近其搜索意图的知识。
3),知识自动分割录入问题。目前,知识的生产人员多是通过知识库管理系统界面进行人工知识分割和录入。知识生产人员面临着在不同功能操作之间的反复切换,系统的延迟性与不稳定性都在制约着知识的录入效率。
发明内容
本发明提供了一种知识库的构建方法和装置,通过对知识点进行分解,以知识块集合的形式进行细粒度存储,降低了知识在融合和共享方面的复杂性,在知识搜索方面也可以实现精确的知识反馈,满足用户对不同颗粒度的知识快速获取。
为解决上述技术问题,本发明的实施例提供如下方案:
一种知识库的构建方法,包括:
获取知识点;
将知识点按照该知识点所属的业务划分为多个知识块;
按照预设存储结构将所述多个知识块形成的知识块集存储在知识库中。
其中,所述知识块包括:(参数,知识)构成的键值对。
其中,按照预设存储结构将所述多个知识块形成的知识块集存储在知识库的步骤包括:
按照KM=(N,C,B,H,T,R,L)的存储结构,将所述多个知识块形成的知识块集存储在知识库中;
其中,KM为知识块集;N表示知识点名称;C表示知识点分割后的知识块;B表示知识点所属的业务名称;H表示知识点所属的业务与其他业务的上下位关系或同位关系;T表示业务模板;R表示知识点之间的相近或互斥关系;L表示知识点所属的地域名称。
其中,知识块的集合C={C1,C2,…,Ci},其中,Ci=(p,v,n),p是参数,v是具体的答案值,n是一个用来将知识块排序的数值;
H={H1,H2,…,Hi},其中,Hi=(n,t),其中n是业务名称,t是关系的类型;
所述业务模板中包括知识点的知识块的参数的集合,即T={p1,p2,…,pi},其中,pi为参数;
知识点之间的关系R={R1,R2,…Ri},而Ri=(n,t),其中,n是关联的知识点名称,t是关系的类型;
L=(n,p,c),其中n是国家,p是省份,c是城市。
其中,知识库的构建方法还包括:
建立所述知识点所属的业务以及与该业务关联的其它业务之间的关联关系,并将该关联关系存储在所述知识库中;
和/或
建立多个知识点中知识点与知识点之间的关联关系,并将该关联关系存储在所述知识库中。
其中,建立所述知识点所属的业务以及与该业务关联的其它业务之间的关联关系的步骤包括:
通过业务关系模型RM1=(B,K,R1),建立所述知识点所属的业务以及,该业务关联的其它业务之间的关联关系;其中,
B表示业务名称的集合,即B={B1,B2,…,Bi};
K表示知识点的集合,即K={K1,K2,…,Ki};
R1代表示业务与业务之间的关系,所述关系包括:上下位关系或者同位关系。
其中,建立多个知识点中知识点与知识点之间的关联关系的步骤包括:
通过知识点关系模型RM2=(K,R2)建立多个知识点中知识点与知识点之间的关联关系;其中,
K表示知识点的集合,即K={K1,K2,…,Ki};
R2表示知识点与知识点之间的关系。
其中,知识库的构建方法还包括:
构建基于知识的同义词表、用代词表、上位词表和/或下位词表;
将所述同义词表、用代词表、上位词表和/或下位词表存储在所述知识库中。
其中,在非结构化文档中,知识点包括的知识块集合为:知识点A={(参数1,知识1),(参数2,知识2),…,(参数n,知识n)};
Word文档中,参数与知识的键值对,通过标题进行识别和拆分;
Html文档中,参数与知识的键值对,通过标签进行识别和拆分;
Excel文档中,参数与知识的键值对,通过列标题进行识别和拆分。
本发明的实施例还提供一种知识库的构建装置,包括:
获取模块,用于获取知识点;
划分模块,用于将知识点按照该知识点所属的业务划分为多个知识块;
存储模块,用于按照预设存储结构将所述多个知识块形成的知识块集存储在知识库中。
其中,所述知识块包括:(参数,知识)构成的键值对。
其中,所述存储模块具体用于:按照KM=(N,C,B,H,T,R,L)的存储结构,将所述多个知识块形成的知识块集存储在知识库中;
其中,KM为知识块集;N表示知识点名称;C表示知识点分割后的知识块;B表示知识点所属的业务名称;H表示知识点所属的业务与其他业务的上下位关系或同位关系;T表示业务模板;R表示知识点之间的相近或互斥关系;L表示知识点所属的地域名称。
其中,知识块的集合C={C1,C2,…,Ci},其中,Ci=(p,v,n),p是参数,v是具体的答案值,n是一个用来将知识块排序的数值;
H={H1,H2,…,Hi},其中,Hi=(n,t),其中n是业务名称,t是关系的类型;
所述业务模板中包括知识点的知识块的参数的集合,即T={p1,p2,…,pi},其中,pi为参数;
知识点之间的关系R={R1,R2,…Ri},而Ri=(n,t),其中,n是关联的知识点名称,t是关系的类型;
L=(n,p,c),其中n是国家,p是省份,c是城市。
其中,所述存储模块还用于:
建立所述知识点所属的业务以及与该业务关联的其它业务之间的关联关系,并将该关联关系存储在所述知识库中;
和/或
建立多个知识点中知识点与知识点之间的关联关系,并将该关联关系存储在所述知识库中。
其中,建立所述知识点所属的业务以及与该业务关联的其它业务之间的关联关系包括:
通过业务关系模型RM1=(B,K,R1),建立所述知识点所属的业务以及,该业务关联的其它业务之间的关联关系;其中,
B表示业务名称的集合,即B={B1,B2,…,Bi};
K表示知识点的集合,即K={K1,K2,…,Ki};
R1代表示业务与业务之间的关系,所述关系包括:上下位关系或者同位关系。
其中,建立多个知识点中知识点与知识点之间的关联关系的包括:
通过知识点关系模型RM2=(K,R2)建立多个知识点中知识点与知识点之间的关联关系;其中,
K表示知识点的集合,即K={K1,K2,…,Ki};
R2表示知识点与知识点之间的关系。
其中,所述存储模块还用于:构建基于知识的同义词表、用代词表、上位词表和/或下位词表;将所述同义词表、用代词表、上位词表和/或下位词表存储在所述知识库中。
其中,在非结构化文档中,知识点包括的知识块集合为:知识点A={(参数1,知识1),(参数2,知识2),…,(参数n,知识n)};
Word文档中,参数与知识的键值对,通过标题进行识别和拆分;
Html文档中,参数与知识的键值对,通过标签进行识别和拆分;
Excel文档中,参数与知识的键值对,通过列标题进行识别和拆分。
本发明的上述方案至少包括以下有益效果:
本发明的上述方案,通过对知识点进行分解,以知识块集合的形式进行细粒度存储,降低了知识在融合和共享方面的复杂性,在知识搜索方面也可以实现精确的知识反馈,满足用户对不同颗粒度的知识快速获取。并进一步的,从搜索和存储两个层面构建知识的语义关联。在搜索层面,扩展构建了同义词表、用代词表、上位词表、下位词表。在存储层面,通过建立业务与业务之间的上下位、同位关系,知识点与知识点之间的相近、互斥关系,进而扩展知识点与业务之间、知识点与知识点之间的语义关系。并进一步的可以使用机器自动完成对word、excel、html等非结构化文档知识的分割录入方法,该方法将大大提高知识的采编效率。
附图说明
图1为知识库的构建方法的流程图;
图2为扩展后的知识点与业务语义关系图;
图3为知识文档的自动分割和导入,具体转换示意图;
图4为知识库的构建装置示意图;
图5为知识库的构建装置的实施例具体实现示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
现有技术中,在知识存储过程中,传统的知识存储方法在知识的共享、融合过程中存在先天性的缺陷。针对客户问题,大多数情况下需要知识库提供细粒度的答案,同时知识分割的粒度越细,知识之间的融合和重构越容易实现,因此处理好知识分割的粒度问题是要解决的关键问题。
在搜索层面,仅仅构建同义词关系是不够的,词-词之间还存在用代、上下位等多种关系可以加强知识的关联。在存储层面,如果能够从知识点本身出发,建立知识点与知识点之间的关联,用户会得到更多接近其搜索意图的知识。
目前知识生产人员都是在线上借助知识库管理系统进行知识的录入,效率比较底下。
本发明的实施例针对上述现有技术中存在的问题,提供一种知识库的构建方法和装置,通过对知识点进行分解,以知识块集合的形式进行细粒度存储,降低了知识在融合和共享方面的复杂性,在知识搜索方面也可以实现精确的知识反馈,满足用户对不同颗粒度的知识快速获取。并进一步的,从搜索和存储两个层面构建知识的语义关联。在搜索层面,扩展构建了同义词表、用代词表、上位词表、下位词表。在存储层面,通过建立业务与业务之间的上下位、同位关系,知识点与知识点之间的相近、互斥关系,进而扩展知识点与业务之间、知识点与知识点之间的语义关系。并进一步的可以使用机器自动完成对word、excel、html等非结构化文档知识的分割录入方法,该方法将大大提高知识的采编效率。
如图1所示,本发明的实施例提供一种知识库的构建方法,包括:
步骤11,获取知识点;
步骤12,将知识点按照该知识点所属的业务划分为多个知识块;
步骤13,按照预设存储结构将所述多个知识块形成的知识块集存储在知识库中。
本发明的该实施例通过对知识点进行分解,以知识块集合的形式进行细粒度存储,降低了知识在融合和共享方面的复杂性,在知识搜索方面也可以实现精确的知识反馈,满足用户对不同颗粒度的知识快速获取。
其中,上述实施例中,所述知识块包括:(参数,知识)构成的键值对。
上述步骤13具体可以包括:按照KM=(N,C,B,H,T,R,L)的存储结构,将所述多个知识块形成的知识块集存储在知识库中;
其中,KM为知识块集;
N表示知识点名称;
C表示知识点分割后的知识块;知识块的集合C={C1,C2,…,Ci},其中,Ci=(p,v,n),p是参数,v是具体的答案值,n是一个用来将知识块排序的数值;
B表示知识点所属的业务名称;
H表示知识点所属的业务与其他业务的上下位关系或同位关系;H={H1,H2,…,Hi},其中,Hi=(n,t),其中n是业务名称,t是关系的类型;
T表示业务模板;所述业务模板中包括知识点的知识块的参数的集合,即T={p1,p2,…,pi},其中,pi为参数;
R表示知识点之间的相近或互斥关系;知识点之间的关系R={R1,R2,…Ri},而Ri=(n,t),其中,n是关联的知识点名称,t是关系的类型;
L表示知识点所属的地域名称,L=(n,p,c),其中n是国家,p是省份,c是城市。
进一步的,本发明的实施提供一种知识库的构建方法,包括:
步骤11,获取知识点;
步骤12,将知识点按照该知识点所属的业务划分为多个知识块;
步骤13,按照预设存储结构将所述多个知识块形成的知识块集存储在知识库中;
步骤14,建立所述知识点所属的业务以及与该业务关联的其它业务之间的关联关系,并将该关联关系存储在所述知识库中;和/或步骤15,建立多个知识点中知识点与知识点之间的关联关系,并将该关联关系存储在所述知识库中。
其中,建立所述知识点所属的业务以及与该业务关联的其它业务之间的关联关系的步骤包括:
通过业务关系模型RM1=(B,K,R1),建立所述知识点所属的业务以及,该业务关联的其它业务之间的关联关系;其中,
B表示业务名称的集合,即B={B1,B2,…,Bi};
K表示知识点的集合,即K={K1,K2,…,Ki};
R1代表示业务与业务之间的关系,所述关系包括:上下位关系或者同位关系。
其中,建立多个知识点中知识点与知识点之间的关联关系的步骤包括:
通过知识点关系模型RM2=(K,R2)建立多个知识点中知识点与知识点之间的关联关系;其中,
K表示知识点的集合,即K={K1,K2,…,Ki};
R2表示知识点与知识点之间的关系。
进一步的,本发明的实施提供一种知识库的构建方法,包括:
步骤11,获取知识点;
步骤12,将知识点按照该知识点所属的业务划分为多个知识块;
步骤13,按照预设存储结构将所述多个知识块形成的知识块集存储在知识库中;
步骤14,建立所述知识点所属的业务以及与该业务关联的其它业务之间的关联关系,并将该关联关系存储在所述知识库中;和/或步骤15,建立多个知识点中知识点与知识点之间的关联关系,并将该关联关系存储在所述知识库中;
步骤16,构建基于知识的同义词表、用代词表、上位词表和/或下位词表;将所述同义词表、用代词表、上位词表和/或下位词表存储在所述知识库中。
其中,在非结构化文档中,知识点包括的知识块集合为:知识点A={(参数1,知识1),(参数2,知识2),…,(参数n,知识n)};
Word文档中,参数与知识的键值对,通过标题进行识别和拆分;word文档一般会由题目、多级标题、正文之分,首先需要知识采编人员对word文档进行简单的预处理,采用字体大小来区分好题目、各级标题和正文,最终实现对知识文档的自动分割和导入,具体转换示意图如图3所示。
Html文档中,参数与知识的键值对,通过标签进行识别和拆分;Html文档,通过<h1><h2><p><span>等标签来识别“(参数,知识)”键值对;
Excel文档中,参数与知识的键值对,通过列标题进行识别和拆分,具体对Excel文档按照列标题来识别拆分。
本发明的上述实施例,采用模块化方法,按业务将知识点分割成知识块集,即构建了业务+知识点+知识块集合的存储结构,进而降低了知识在融合和共享方面的复杂性。具体的存储优化模型如下:KM=(N,C,H,T,R,L),(知识点名称,知识块(参数-知识)集合,业务名称,业务关联关系,模板(参数集合),知识点关联关系,地域)。
通过对知识存储结构的优化,实现了知识点的细粒度分割,多个知识点可以共享知识块,增强了知识的共享、融合和扩展,满足用户对不同颗粒度的知识快速获取。
本发明的上述实施例,从搜索和存储两个层面建立知识的关联:
(1)搜索层面:目前通用的解决方案是构建同义词表,在此基础上扩展了词-词之间的关系,构建了同义词表、用代词表、上位词表、下位词表。譬如“苹果”和“IPHONE”属于用代关系,用户在搜索“苹果”时,系统就会给出“IPHONE手机”的相关知识。譬如苹果、梨、橘子、葡萄都属于水果的下位词,当客户搜索苹果没有相应内容的时候可以推荐橘子、葡萄给用户。类比成用户想寻找无月租的套餐,但该公司没有这样的套餐怎么办,最低的是5元套餐,这个时候就可以推荐这个给客户,客户很可能就会选择。
(2)存储层面:一方面,从业务与业务之间的关系出发,这里主要考虑上下位关系、同位关系,进而扩展知识点与其他业务的关系。比如A与B业务是上下位关系,B业务和C业务是同位关系,知识点K隶属于B业务,则系统可以自动推理出K隶属于A业务,同时用户针对C业务查询时,系统在以C业务下知识点作为答案的同时,会以K知识点作为相关性参考答案。
此关系模型可以表示如下:RM=(B,K,R)。
其中B表示的是业务集合,即B={B1,B2,…,Bi};K表示的知识点;R代表的是业务与业务之间的关系。
另一方面,从知识点与知识点的关系出发,这里主要考虑相近、互斥关系,建立知识点与其他知识点的关系。比如K1和K2知识点建立了相近关系,用户在搜索到K1知识点的时候,系统会给出K2知识点作为推荐参考。如果K1和K2之间建立了互斥关系,这样即使二者之间答案很相似,系统也会把K2知识点屏蔽掉。
此关系模型可以表示如下:RM=(K,R)。
其中K表示知识点集合,即K={K 1,K 2,…,Ki};R代表的是知识点与知识点之间的关系类型。
由上述两方面,扩展后的知识点与业务语义关系,如图2所示:
(1)知识点A隶属于叶子业务1,由于叶子业务1和子业务是上下位关系,故知识点A隶属于子业务;
(2)知识点A和知识点B是相近关系,而知识点A隶属于叶子业务1,故知识点B可以作为叶子业务1的推荐参考知识;
(3)叶子业务1和叶子业务2之间是同位关系,知识点B作为叶子业务1的推荐知识外,也作为叶子业务2的推荐知识;
(4)由于知识点A和知识点C是互斥关系,故即使叶子业务1和叶子业务2之间是同位关系,知识点A也不会作为叶子业务2的推荐知识,同样知识点C也不会作为叶子业务1的推荐知识。
本发明的实施例将知识点分割成由多个知识块组成的集合,而每个知识块是一个“(参数,知识)”键值对。Word文档中,参数与知识的键值对,通过标题进行识别和拆分;
word文档一般会由题目、多级标题、正文之分,首先需要知识采编人员对word文档进行简单的预处理,具体采用字体大小来区分好题目、各级标题和正文,最终实现对知识文档的自动分割和导入,具体转换示意图如3所示。
Html文档中,参数与知识的键值对,具体通过标签进行识别和拆分;Html文档,通过<h1><h2><p><span>等标签来识别“(参数,知识)”键值对;
Excel文档中,参数与知识的键值对,通过列标题进行识别和拆分,具体对Excel文档按照列标题来识别拆分。从而实现了知识自动分割录入问题,大大提高知识的采编效率。
如图4所示,本发明的实施例还提供一种知识库的构建装置,包括:
获取模块41,用于获取知识点;
划分模块42,用于将知识点按照该知识点所属的业务划分为多个知识块;
存储模块43,用于按照预设存储结构将所述多个知识块形成的知识块集存储在知识库中。
其中,所述知识块包括:(参数,知识)构成的键值对。
其中,所述存储模块具体用于:按照KM=(N,C,B,H,T,R,L)的存储结构,将所述多个知识块形成的知识块集存储在知识库中;
其中,KM为知识块集;N表示知识点名称;C表示知识点分割后的知识块;B表示知识点所属的业务名称;H表示知识点所属的业务与其他业务的上下位关系或同位关系;T表示业务模板;R表示知识点之间的相近或互斥关系;L表示知识点所属的地域名称。
其中,知识块的集合C={C1,C2,…,Ci},其中,Ci=(p,v,n),p是参数,v是具体的答案值,n是一个用来将知识块排序的数值;
H={H1,H2,…,Hi},其中,Hi=(n,t),其中n是业务名称,t是关系的类型;
所述业务模板中包括知识点的知识块的参数的集合,即T={p1,p2,…,pi},其中,pi为参数;
知识点之间的关系R={R1,R2,…Ri},而Ri=(n,t),其中,n是关联的知识点名称,t是关系的类型;
L=(n,p,c),其中n是国家,p是省份,c是城市。
其中,所述存储模块还用于:
建立所述知识点所属的业务以及与该业务关联的其它业务之间的关联关系,并将该关联关系存储在所述知识库中;
和/或
建立多个知识点中知识点与知识点之间的关联关系,并将该关联关系存储在所述知识库中。
其中,建立所述知识点所属的业务以及与该业务关联的其它业务之间的关联关系包括:
通过业务关系模型RM1=(B,K,R1),建立所述知识点所属的业务以及,该业务关联的其它业务之间的关联关系;其中,
B表示业务名称的集合,即B={B1,B2,…,Bi};
K表示知识点的集合,即K={K1,K2,…,Ki};
R1代表示业务与业务之间的关系,所述关系包括:上下位关系或者同位关系。
其中,建立多个知识点中知识点与知识点之间的关联关系的包括:
通过知识点关系模型RM2=(K,R2)建立多个知识点中知识点与知识点之间的关联关系;其中,
K表示知识点的集合,即K={K1,K2,…,Ki};
R2表示知识点与知识点之间的关系。
其中,所述存储模块还用于:构建基于知识的同义词表、用代词表、上位词表和/或下位词表;将所述同义词表、用代词表、上位词表和/或下位词表存储在所述知识库中。
其中,在非结构化文档中,知识点包括的知识块集合为:知识点A={(参数1,知识1),(参数2,知识2),…,(参数n,知识n)};
Word文档中,参数与知识的键值对,通过标题进行识别和拆分;
Html文档中,参数与知识的键值对,通过标签进行识别和拆分;
Excel文档中,参数与知识的键值对,通过列标题进行识别和拆分。
上述装置实施例是与上述方法实施例对应的装置,上述方法实施例中所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
进一步的,该装置的实施例具体实现时,如图5所示,可以包括:
个人中心模块、管理中心模块、知识中心模块、反馈列表模块、任务列表模块、统计查询模块。
个人中心模块包括:账户管理、消息管理。
管理中心模块包括:知识树图管理、词库管理、模板管理。
其中知识树图管理用来管理知识与业务的上下位关系、知识与知识的同位关系的添加、删除、修改等操作;
词库管理主要是用来管理同义词、用代词、上位词、下位词的检索、添加、删除、修改等操作。
模板管理用来创建、删除模板,并预设知识点参数集合。
知识中心模块包括:知识采编、自动拆分导入、知识状态列表、知识搜索。
其中,知识采编是人工进行知识录入的模块;
自动拆分导入是进行机器进行批量、自动化的拆分导入;
知识状态列表主要是显示知识的办理、发布、删除等状态;
知识搜索是快速检索知识的模块。
反馈列表模块:其他采编人员或用户对知识产生的异议,将显示在反馈列表中,采编人员进而完成对知识的处理、更新、下线等操作。
任务列表模块:完成跨地域、部门之间知识点采编任务的上传与下达。
统计查询模块:包括知识统计、搜索统计、反馈统计、浏览统计等的查询展示功能。
本发明的上述实施例,采用模块化方法,按业务将知识点分割成知识块集,即构建了业务+知识点+知识块集合的存储结构,即KM=(N,C,B,H,T,R,L),(知识点名称,知识块(参数-知识)集合,业务名称,业务关联关系,模板(参数集合),知识点关联关系,地域)。
该存储结构将知识以最细的粒度进行存储,在知识获取方面,用户可以得到精确的知识,降低了知识在融合和共享方面的复杂性;从知识融合和共享方面,细粒度的知识块更加灵活,真正做到一处编辑,多处应用。同时,业务关联关系、知识关联关系增强了知识点与知识点之间的语义关系,能够扩展对用户问题的理解。在知识搜索方面也可以实现精确的知识反馈,满足用户对不同颗粒度的知识快速获取。
并进一步提出从搜索和存储两个层面建立知识的关联。在搜索层面,扩展了词-词之间的关系,构建了同义词表、用代词表、上位词表、下位词表。在存储层面,一方面,从业务与业务之间的关系出发,这里主要考虑上下位关系、同位关系,进而扩展知识点与其他业务的关系。另一方面,从知识点与知识点的关系出发,这里主要考虑相近、互斥关系,建立知识点与其他知识点的关系。
并进一步实现知识自动拆分录入。可以让机器自动完成对Word、Excel、Html等非结构化文档知识的分割录入方法。针对Word文档,采用字体大小来区分好题目、各级标题和正文,最终将知识点分割成由多个知识块组成的集合,而每个知识块是一个“(参数,知识)”键值对。同样对于Html文档,则通过<h1><h2><p><span>等标签来识别拆分;而对于Excel文档则是按照列标题来识别拆分。可以让机器自动完成对Word、Excel、Html等非结构化文档知识的分割录入方法,该方法将大大提高知识的采编效率。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (18)

1.一种知识库的构建方法,其特征在于,包括:
获取知识点;
将知识点按照该知识点所属的业务划分为多个知识块;
按照预设存储结构将所述多个知识块形成的知识块集存储在知识库中。
2.根据权利要求1所述的知识库的构建方法,其特征在于,所述知识块包括:(参数,知识)构成的键值对。
3.根据权利要求2所述的知识库的构建方法,其特征在于,按照预设存储结构将所述多个知识块形成的知识块集存储在知识库的步骤包括:
按照KM=(N,C,B,H,T,R,L)的存储结构,将所述多个知识块形成的知识块集存储在知识库中;
其中,KM为知识块集;N表示知识点名称;C表示知识点分割后的知识块;B表示知识点所属的业务名称;H表示知识点所属的业务与其他业务的上下位关系或同位关系;T表示业务模板;R表示知识点之间的相近或互斥关系;L表示知识点所属的地域名称。
4.根据权利要求3所述的知识库的构建方法,其特征在于,
知识块的集合C={C1,C2,…,Ci},其中,Ci=(p,v,n),p是参数,v是具体的答案值,n是一个用来将知识块排序的数值;
H={H1,H2,…,Hi},其中,Hi=(n,t),其中n是业务名称,t是关系的类型;
所述业务模板中包括知识点的知识块的参数的集合,即T={p1,p2,…,pi},其中,pi为参数;
知识点之间的关系R={R1,R2,…Ri},而Ri=(n,t),其中,n是关联的知识点名称,t是关系的类型;
L=(n,p,c),其中n是国家,p是省份,c是城市。
5.根据权利要求1所述的知识库的构建方法,其特征在于,还包括:
建立所述知识点所属的业务以及与该业务关联的其它业务之间的关联关系,并将该关联关系存储在所述知识库中;
和/或
建立多个知识点中知识点与知识点之间的关联关系,并将该关联关系存储在所述知识库中。
6.根据权利要求5所述的知识库的构建方法,其特征在于,建立所述知识点所属的业务以及与该业务关联的其它业务之间的关联关系的步骤包括:
通过业务关系模型RM1=(B,K,R1),建立所述知识点所属的业务以及,该业务关联的其它业务之间的关联关系;其中,
B表示业务名称的集合,即B={B1,B2,…,Bi};
K表示知识点的集合,即K={K1,K2,…,Ki};
R1代表示业务与业务之间的关系,所述关系包括:上下位关系或者同位关系。
7.根据权利要求5所述的知识库的构建方法,其特征在于,建立多个知识点中知识点与知识点之间的关联关系的步骤包括:
通过知识点关系模型RM2=(K,R2)建立多个知识点中知识点与知识点之间的关联关系;其中,
K表示知识点的集合,即K={K1,K2,…,Ki};
R2表示知识点与知识点之间的关系。
8.根据权利要求2所述的知识库的构建方法,其特征在于,还包括:
构建基于知识的同义词表、用代词表、上位词表和/或下位词表;
将所述同义词表、用代词表、上位词表和/或下位词表存储在所述知识库中。
9.根据权利要求2所述的知识库的构建方法,其特征在于,
在非结构化文档中,知识点包括的知识块集合为:知识点A={(参数1,知识1),(参数2,知识2),…,(参数n,知识n)};
Word文档中,参数与知识的键值对,通过标题进行识别和拆分;
Html文档中,参数与知识的键值对,通过标签进行识别和拆分;
Excel文档中,参数与知识的键值对,通过列标题进行识别和拆分。
10.一种知识库的构建装置,其特征在于,包括:
获取模块,用于获取知识点;
划分模块,用于将知识点按照该知识点所属的业务划分为多个知识块;
存储模块,用于按照预设存储结构将所述多个知识块形成的知识块集存储在知识库中。
11.根据权利要求10所述的知识库的构建装置,其特征在于,所述知识块包括:(参数,知识)构成的键值对。
12.根据权利要求11所述的知识库的构建装置,其特征在于,所述存储模块具体用于:按照KM=(N,C,B,H,T,R,L)的存储结构,将所述多个知识块形成的知识块集存储在知识库中;
其中,KM为知识块集;N表示知识点名称;C表示知识点分割后的知识块;B表示知识点所属的业务名称;H表示知识点所属的业务与其他业务的上下位关系或同位关系;T表示业务模板;R表示知识点之间的相近或互斥关系;L表示知识点所属的地域名称。
13.根据权利要求12所述的知识库的构建装置,其特征在于,
知识块的集合C={C1,C2,…,Ci},其中,Ci=(p,v,n),p是参数,v是具体的答案值,n是一个用来将知识块排序的数值;
H={H1,H2,…,Hi},其中,Hi=(n,t),其中n是业务名称,t是关系的类型;
所述业务模板中包括知识点的知识块的参数的集合,即T={p1,p2,…,pi},其中,pi为参数;
知识点之间的关系R={R1,R2,…Ri},而Ri=(n,t),其中,n是关联的知识点名称,t是关系的类型;
L=(n,p,c),其中n是国家,p是省份,c是城市。
14.根据权利要求10所述的知识库的构建装置,其特征在于,所述存储模块还用于:
建立所述知识点所属的业务以及与该业务关联的其它业务之间的关联关系,并将该关联关系存储在所述知识库中;
和/或
建立多个知识点中知识点与知识点之间的关联关系,并将该关联关系存储在所述知识库中。
15.根据权利要求14所述的知识库的构建装置,其特征在于,建立所述知识点所属的业务以及与该业务关联的其它业务之间的关联关系包括:
通过业务关系模型RM1=(B,K,R1),建立所述知识点所属的业务以及,该业务关联的其它业务之间的关联关系;其中,
B表示业务名称的集合,即B={B1,B2,…,Bi};
K表示知识点的集合,即K={K1,K2,…,Ki};
R1代表示业务与业务之间的关系,所述关系包括:上下位关系或者同位关系。
16.根据权利要求14所述的知识库的构建方法,其特征在于,建立多个知识点中知识点与知识点之间的关联关系的包括:
通过知识点关系模型RM2=(K,R2)建立多个知识点中知识点与知识点之间的关联关系;其中,
K表示知识点的集合,即K={K1,K2,…,Ki};
R2表示知识点与知识点之间的关系。
17.根据权利要求11所述的知识库的构建装置,其特征在于,所述存储模块还用于:构建基于知识的同义词表、用代词表、上位词表和/或下位词表;将所述同义词表、用代词表、上位词表和/或下位词表存储在所述知识库中。
18.根据权利要求11所述的知识库的构建装置,其特征在于,
在非结构化文档中,知识点包括的知识块集合为:知识点A={(参数1,知识1),(参数2,知识2),…,(参数n,知识n)};
Word文档中,参数与知识的键值对,通过标题进行识别和拆分;
Html文档中,参数与知识的键值对,通过标签进行识别和拆分;
Excel文档中,参数与知识的键值对,通过列标题进行识别和拆分。
CN201610902538.0A 2016-10-17 2016-10-17 一种知识库的构建方法和装置 Pending CN107958004A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610902538.0A CN107958004A (zh) 2016-10-17 2016-10-17 一种知识库的构建方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610902538.0A CN107958004A (zh) 2016-10-17 2016-10-17 一种知识库的构建方法和装置

Publications (1)

Publication Number Publication Date
CN107958004A true CN107958004A (zh) 2018-04-24

Family

ID=61953267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610902538.0A Pending CN107958004A (zh) 2016-10-17 2016-10-17 一种知识库的构建方法和装置

Country Status (1)

Country Link
CN (1) CN107958004A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555201A (zh) * 2019-09-11 2019-12-10 中国联合网络通信集团有限公司 知识文档生成方法、装置、电子设备及存储介质
CN110866089A (zh) * 2019-11-14 2020-03-06 国家电网有限公司 基于同义多语境分析的机器人知识库构建系统及方法
CN110990581A (zh) * 2019-11-20 2020-04-10 神思电子技术股份有限公司 一种用于知识库构建的动态数据采编方法
CN113221540A (zh) * 2021-06-03 2021-08-06 天闻数媒科技(湖南)有限公司 一种知识点识别的方法、装置、设备和存储介质
CN114519131A (zh) * 2021-12-29 2022-05-20 航天科工网络信息发展有限公司 一种面向异构资源的知识融合处理方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005052720A2 (en) * 2003-11-28 2005-06-09 Electronics And Telecommunications Research Institute Knowledge modeling system using ontology
CN1928864A (zh) * 2006-09-22 2007-03-14 浙江大学 一种基于问答库的中文自然语言问答方法
CN101650797A (zh) * 2009-09-14 2010-02-17 中国科学院计算技术研究所 一种移动客服知识库系统及其工作方法
CN103324689A (zh) * 2013-06-04 2013-09-25 北京大学 业务领域知识库构建方法和装置
CN104112184A (zh) * 2014-07-01 2014-10-22 江苏科技大学 精细化客服知识库系统及其工作方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005052720A2 (en) * 2003-11-28 2005-06-09 Electronics And Telecommunications Research Institute Knowledge modeling system using ontology
CN1928864A (zh) * 2006-09-22 2007-03-14 浙江大学 一种基于问答库的中文自然语言问答方法
CN101650797A (zh) * 2009-09-14 2010-02-17 中国科学院计算技术研究所 一种移动客服知识库系统及其工作方法
CN103324689A (zh) * 2013-06-04 2013-09-25 北京大学 业务领域知识库构建方法和装置
CN104112184A (zh) * 2014-07-01 2014-10-22 江苏科技大学 精细化客服知识库系统及其工作方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555201A (zh) * 2019-09-11 2019-12-10 中国联合网络通信集团有限公司 知识文档生成方法、装置、电子设备及存储介质
CN110866089A (zh) * 2019-11-14 2020-03-06 国家电网有限公司 基于同义多语境分析的机器人知识库构建系统及方法
CN110866089B (zh) * 2019-11-14 2023-04-28 国家电网有限公司 基于同义多语境分析的机器人知识库构建系统及方法
CN110990581A (zh) * 2019-11-20 2020-04-10 神思电子技术股份有限公司 一种用于知识库构建的动态数据采编方法
CN113221540A (zh) * 2021-06-03 2021-08-06 天闻数媒科技(湖南)有限公司 一种知识点识别的方法、装置、设备和存储介质
CN114519131A (zh) * 2021-12-29 2022-05-20 航天科工网络信息发展有限公司 一种面向异构资源的知识融合处理方法和装置

Similar Documents

Publication Publication Date Title
CN112214611B (zh) 一种企业知识图谱的构建系统和方法
CN107958004A (zh) 一种知识库的构建方法和装置
CN105512245B (zh) 一种基于回归模型建立企业画像的方法
Ingwersen et al. Smart city research 1990–2016
Eberendu Unstructured Data: an overview of the data of Big Data
CN100595760C (zh) 一种获取口语词条的方法、装置以及一种输入法系统
CN104835014A (zh) 一种企业科研信息服务平台
CN109033284A (zh) 基于知识图谱的电力信息运维系统数据库构建方法
CN108052605A (zh) 一种基于客户特征库的智能问答系统
CN110298033A (zh) 关键词语料标注训练提取工具
CN107967518B (zh) 一种基于产品设计的知识自动关联系统及方法
CN103955873A (zh) 创新资源信息整合服务平台
CN105095433A (zh) 实体推荐方法及装置
CN101556596B (zh) 一种输入法系统及智能组词的方法
CN106557967A (zh) 一种产品设计知识构建处理方法
CN111950921A (zh) 一种基于离线组网环境的多人协同评审方法
US20200334314A1 (en) Emergency disposal support system
CN114218333A (zh) 一种地质知识图谱构建方法、装置、电子设备及存储介质
CN114528312A (zh) 一种结构化查询语言语句的生成方法和装置
CN108959356A (zh) 一种智能配用电大数据应用系统数据集市建立方法
CN104408189A (zh) 关键词排名的展示方法和装置
CN109522336A (zh) 一种基于电子政务内网信息资源的决策分析系统及方法
CN112199488B (zh) 面向电力客服问答的渐增式知识图谱实体抽取方法和系统
CN108829698A (zh) 政务系统发文方法、装置、计算机设备及存储介质
CN116595191A (zh) 一种交互式低代码知识图谱的构建方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180424

RJ01 Rejection of invention patent application after publication