CN117648401A - 知识库构建方法和知识检索方法及相关装置、设备 - Google Patents

知识库构建方法和知识检索方法及相关装置、设备 Download PDF

Info

Publication number
CN117648401A
CN117648401A CN202311423694.5A CN202311423694A CN117648401A CN 117648401 A CN117648401 A CN 117648401A CN 202311423694 A CN202311423694 A CN 202311423694A CN 117648401 A CN117648401 A CN 117648401A
Authority
CN
China
Prior art keywords
knowledge
chapter
chapters
target
entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311423694.5A
Other languages
English (en)
Inventor
梅林海
郭思敏
李锐
胡国平
刘聪
魏思
刘权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202311423694.5A priority Critical patent/CN117648401A/zh
Publication of CN117648401A publication Critical patent/CN117648401A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种知识库构建方法和知识检索方法及相关装置、设备。该方法包括:基于词条实体的知识文档,构建关于词条实体的知识篇章;基于目标业务场景下的参考信息分别与各个知识篇章之间的匹配结果,选择知识篇章作为目标篇章;其中,参考信息包括历史问题、目标实体中至少一者;基于目标篇章,构建目标业务场景的知识库。上述方法,能够在尽可能降低知识库存储压力的情况下,提高知识库中所包含的知识篇章的有效性,以尽可能地满足特定用户的检索需求。

Description

知识库构建方法和知识检索方法及相关装置、设备
技术领域
本申请涉及信息处理技术领域,特别是涉及一种知识库构建方法和知识检索方法及相关装置、设备。
背景技术
随着计算机网络和移动互联等技术的发展和应用,人们不仅可以通过诸如书籍等传统方式检索知识,也越来越多依赖于通过专门网站(如,百科网站)中检索知识。
但是,在离线场景中,对于特定用户而言,通过专业书籍检索知识,效率较为低下。但是,若直接将专门网站的信息数据存储于本地,则需要占用海量的存储空间,且由于机器性能的限制,导致知识库的实用性大大降低。有鉴于此,如何在尽可能降低知识库存储压力的情况下,提高知识库中所包含的知识篇章的有效性,以尽可能地满足特定用户的检索需求,成为亟待解决的问题。
发明内容
本申请主要解决的技术问题是提供一种知识库构建方法和知识检索方法及相关装置、设备,能够在尽可能降低知识库存储压力的情况下,提高知识库中所包含的知识篇章的有效性。
为了解决上述技术问题,本申请第一方面提供了一种知识库构建方法,包括基于词条实体的知识文档,构建关于词条实体的知识篇章;基于目标业务场景下的参考信息分别与各个知识篇章之间的匹配结果,选择知识篇章作为目标篇章;其中,参考信息包括历史问题、目标实体中至少一者;基于目标篇章,构建目标业务场景的知识库。
为了解决上述技术问题,本申请第二方面提供了一种知识检索方法,包括获取目标业务场景下的待检索问题,并获取目标业务场景的知识库;其中,目标业务场景的知识库基于上述第一方面所述的知识库构建方法得到;基于待检索问题对知识库进行检索,得到用于回应待检索问题的知识篇章。
为了解决上述技术问题,本申请第三方面提供了一种知识库构建装置,包括篇章构建模块、篇章选择模块和知识库构建模块,篇章构建模块用于基于词条实体的知识文档,构建关于词条实体的知识篇章;篇章选择模块用于基于目标业务场景下的参考信息分别与各个知识篇章之间的匹配结果,选择知识篇章作为目标篇章;其中,参考信息包括历史问题、目标实体中至少一者;知识库构建模块用于基于目标篇章,构建目标业务场景的知识库。
为了解决上述技术问题,本申请第四方面提供了一种知识检索装置,包括获取模块和检索模块,获取模块用于获取目标业务场景下的待检索问题,并获取目标业务场景的知识库;其中,目标业务场景的知识库基于上述第一方面所述的知识库构建方法得到;检索模块用于基于待检索问题对知识库进行检索,得到用于回应待检索问题的知识篇章。
为了解决上述技术问题,本申请第五方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面所述的知识库构建方法,或,以实现上述第二方面所述的知识检索方法。
为了解决上述技术问题,本申请第六方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面所述的知识库构建方法,或,用于实现上述第二方面所述的知识检索方法。
上述方案,基于词条实体的知识文档构建关于词条实体的知识篇章,获取目标业务场景下的参考信息,且参考信息包括历史问题、目标实体中的至少一者,基于参考信息分别与各个知识篇章之间的匹配结果,选择满足匹配条件的知识篇章作为目标篇章,并基于目标篇章构建得到目标业务场景下的知识库。一方面,使用知识篇章的存储方式,在尽可能降低所需存储空间的情况下提高词条内容的完整性。另一方面,参考信息和目标业务场景共同提供用于筛选知识篇章的辅助信息,在海量的知识篇章中选择更具针对性的目标篇章,并基于目标篇章构建目标业务场景的知识库,能够在尽可能降低知识库存储压力的情况下,提高知识库中所包含的知识篇章的有效性,以尽可能地满足特定用户的检索需求。
附图说明
图1是本申请知识库构建方法一实施例的流程示意图;
图2是本申请知识库构建方法中知识文档一实施例的示意图;
图3是本申请知识库构建方法中知识文档解析结果一实施例的示意图;
图4是本申请知识检索方法一实施例的流程示意图;
图5是本申请知识库构建装置一实施例的框架示意图;
图6是本申请知识检索装置一实施例的框架示意图;
图7是本申请电子设备一实施例的框架示意图;
图8是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本文中术语“系统”和“网络”在本文中常被互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
请参阅图1,图1是本申请知识库构建方法一实施例的流程示意图。
具体而言,可以包括如下步骤:
步骤S10:基于词条实体的知识文档,构建关于词条实体的知识篇章。
在一个实施场景中,词条实体的知识文档可基于关于词条实体的半结构化网页提取得到,例如百科网页、知识社区等。具体的,互联网百科库中包括以网页呈现知识的关于词条实体的百科网页,其内容包括关于词条实体的词条描述、词条摘要、词条内容等,词条内容中一般还包括关于词条实体的例证、语用和参见等信息。
在另一个实施场景中,关于词条实体的知识文档为非结构化数据,例如知识篇章、图书电子档、论文扫描件等,对此类数据进行字符串的提取,并基于大语言模型等深度学习网络对字符串打标,得到分别与各个文档层级对应的层级标签及其字符串。
需要说明的是,用于获取知识文档的互联网百科库在本申请中不做限定,例如百度百科、维基百科、搜狗百科等。
在一个具体的实施场景中,百科网页的网页数据为半结构化数据,半结构化数据是介于结构化数据和完全无结构数据(如声音文件、图像文件等)之间的数据。它具有一定的结构,但是结构不完整、不规则,或者结构是隐含的。基于词条实体的知识文档进行解析,可得到分别与各个文档层级对应的层级标签及其字符串,基于分别与各个文档层级对应的层级标签及其字符串,可构建关于词条实体的知识篇章。通过上述方法,利用百科网页中的半结构化数据,提取得到分别与各个文档层级对应的层级标签及其字符串,并构建数据形式为非结构数据的知识篇章,在尽可能降低所需存储空间的情况下提高词条内容的完整性。
在一个具体的实施场景中,使用解析工具对百科网页提取数据,具体的,解析工具为爬虫软件、正则表达式等,解析工具可基于百科网页提取各个文档层级对应的层级标签及其字符串,并基于层级标签将对应字符串保存为对应的字段形式。
在一个具体的实施场景中,使用解析工具对百科网页提取数据时,同时获得百科网页中包含字符串的网页格式,其中网页格式包括表格格式和非表格格式中的一者,当解析到包含字符串的网页格式为表格格式时,删除对应字符串。通过上述方法,不获取表格格式的字符串以构建知识篇章,降低数据解析的压力,提高数据解析的效率。
在一个具体的实施场景中,对解析得到的字符串进行简单的数据整理,例如删除字符串所形成的语句中无意义的空格,以及删除一些常见的字符乱码等。
请结合参阅图2和图3,图2是本申请知识库构建方法中知识文档一实施例的示意图,图3是本申请知识库构建方法中知识文档解析结果一实施例的示意图。如图2所示,在一个具体的实施场景中,词条实体为“大语言模型”,词条实体的知识文档为关于“大语言模型”的百科网页,使用解析工具抽取上述百科网页中的数据,并基于半结构化的数据得到层级标签及其字符串,并将层级标签及其字符串保存为预先设置的数据格式。例如将层级标签及其字符串保存为JSON(JavaScript Object Notation,JS对象简谱)格式,JSON是一种轻量级的数据交换格式,它基于ECMAScript(European Computer ManufacturersAssociation,欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得JSON成为理想的数据交换语言。易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。具体的,如图3所示,词条实体(图2中最上方的“大语言模型”)对应的层级标签为“title”,将“大语言模型”的字符串保存为与“title”一致的字段,并确定“title”为最高等级的文档层级,词条描述(图2中位于词条实体下方的“使用大量文本数据训练的深度学习模型”)对应的层级标签为“desc”,将“使用大量文本数据训练的深度学习模型”的字符串保存为与“desc”一致的字段,并确定“desc”的文档层级为仅次于“title”的第二层级,词条摘要(图2中位于词条描述下方的“大语言模型(LLM)是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径”)对应的层级标签为“summary”,将“大语言模型(LLM)是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径”的字符串保存为与“summary”一致的字段,并确定“summary”的文档层级为次于“desc”的第三层级,词条内容(图2中位于最下方的“技术简介大语言模型是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径”)对应的层级标签为“part”,确定“part”的文档层级为次于“summary”的第四层级,其中,“技术简介”为“part”层级中的一级标题,“大语言模型是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径”为一级标题下的所属内容,因此定义词条内容中的一级标题的层级标签为“part_title”,一级标题下的所属内容的层级标签为“part_content”,并将其字符串保存为与对应层级标签一致的格式。
需要说明的是,在一些具体的实施场景中,词条内容中存在多个一级标题以及对应的一级标题下的所属内容,可根据一级标题被解析的先后顺序使用不同的数字角标确定其对应的层级标签,例如“part_title_1”、“part_title_2”、“part_title_3”等,相应的一级标题下所属内容的层级标签分别为“part_content_1”、“part_content_2”、“part_content_3”等,确定知识篇章中各个组成部分的组织结构时,可根据数字角标的大小确定组织结构中的组织顺序。在一些具体的实施场景中,一级标题下还存在二级标题和二级标题下的所属内容,可设置二级标题对应的层级标签为“part_2_title”,二级标题下的所属内容对应的层级标签为“part_2_content”。
在一个具体的实施场景中,使用解析工具对词条实体的百科网页进行解析时,所解析的文档层级的最低层级为二级标题及二级标题下的所属内容,可在尽可能保证构建得到的知识篇章的完整度的情况下,降低知识篇章的占用空间,并提高知识篇章的可读性。
在一个具体的实施场景中,基于各个层级标签之间的层级关系,可确定知识篇章中各个组成部分的组织结构,并且各个组成部分均涉及最高一级文档层级,最高一级文档层级对应层级标签的字符串为词条实体,且各个组成部分分别涉及的文档层级不完全相同,基于各个组成部分的组织结构,分别组织对应组成部分的层级标签及其字符串,以得到知识篇章。通过上述方法,分别组织对应组成部分的层级标签及其字符串得到知识篇章,使用知识篇章的存储方式,在尽可能降低所需存储空间的情况下提高词条内容的完整性。
在一个具体的实施场景中,为了提高构建得到的知识篇章的可读性,对知识篇章的内容进行分段展示,形成各个组成部分,且每个组成部分的开头均为对应词条实体的字符串。并且各个组成部分中的组织结构基于所包含的文档层级确定,例如,组织结构为文档层级的等级由高到低确定。
在一个具体的实施场景中,基于用户的阅读习惯以及篇幅限定,知识篇章至少包括包含对应于词条实体字符串的第一组成部分以及包含字条内容对应字符串的第二组成部分。
在一个具体的实施场景中,当解析到对应于词条描述的层级标签和/或对应于词条摘要的层级标签,基于词条描述和/或词条摘要,以及词条实体形成知识篇章的第一组成部分,且第一组成部分中的最高一级文档层级为对应于词条实体的层级,第一组成部分中的最低一级文档层级为对应于词条摘要的层级。例如,解析到对应于词条实体的层级标签“title”、对应于词条描述的层级标签“desc”和对应于词条摘要的层级标签“summary”,确定第一组成部分的组织结构为“title-desc-summary”。
在一个具体的实施场景中,当解析到对应于词条内容的层级标签,基于词条实体一级词条内容形成知识篇章的第二组成部分,且第二组成部分中的最高一级文档层级为对应于词条实体的层级,第二组成部分中的最低一级文档层级为对应于词条实体的层级。例如,解析到对应于词条内容的层级标签“part”,确定第二组成部分中的组织结构为“title-part”。
在一个具体的实施场景中,词条内容中包括一级标题以及对应的一级标题下的所属内容,和二级标题以及对应二级标题下的所属内容,一级标题的层级标签为“part_title”,一级标题下的所属内容的层级标签为“part_content”,二级标题的层级标签为“part_2_title”,二级标题下的所属内容的层级标签为“part_2_content”,确定第二组成部分中的组织结构为“title-part_title-part_content-part_2_title-part_2_content”。
在一个具体的实施场景中,设定预设字符阈值,第二组成部分可分割为多个组成子部分,参阅前述实施例,确定第二组成部分中的组织结构为“title-part_title-part_content-part_2_title-part_2_content”,解析到基于上述组织结构所形成的第二组成部分中的字符串大于预设字符阈值,可将上述组成部分拆解为第一子部分和第二子部分,且第一子部分的组织结构为“title-part_title-part_content”,第二子部分的组织结构为“title-part_title-part_2_title-part_2_content”。通过上述方法,基于文档层级确定各个组成部分以及对应的组织结构,实现知识篇章的构建,并按照一定的组织规则确定对应的组织结构,提高知识篇章的可读性。
在一个具体的实施场景中,基于各个组成部分的组织结构确定对应于组成部分的层级标签的字符串的拼接顺序,以及获取与各个层级标签具有映射关系的标签字符串,并基于各个层级标签对应的字符串和标签字符串组合形成更新后的字符串,并基于拼接顺序组织各个更新后的字符串。通过上述方法,分别组织对应组成部分的层级标签及其字符串得到知识篇章,使用知识篇章的存储方式,在尽可能降低所需存储空间的情况下提高词条内容的完整性。
在一个具体的实施场景中,不同层级标签对应的字符串可通过标号和/或连接词拼接,基于层级标签所获得的标签字符串与层级标签对应的字符串之间可通过标号连接,标号和连接词可通过预设拼接规则确定,且字符串的拼接顺序基于组织结构确定。例如参阅上述实施例中的组织结构为“title-desc-summary”,同一标签层级对应的标签字符串与字符串之间通过“:”连接,“title”对应的字符串为“大语言模型”,“title”对应的标签字符串为“实体”,更新后的字符串为“实体:大语言模型”,“desc”对应的字符串为“使用大量文本数据训练的深度学习模型”,“desc”对应的标签字符串为“描述”,更新后的字符串为“描述:使用大量文本数据训练的深度学习模型”,“summary”对应的字符串为“大语言模型(LLM)是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径”,“summary”对应的标签字符串为“简介”,更新后的字符串为“简介:大语言模型(LLM)是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径”,“title”与“desc”之间通过“,”连接,“desc”与“summary”之间通过“。”连接,因此得到基于拼接顺序组织各个更新后的字符串所得到的知识篇章为“实体:大语言模型,描述:使用大量文本数据训练的深度学习模型。简介:大语言模型(LLM)是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径”。
在一个实施场景中,建立预设词汇库,预设词汇库中包括至少一个待删除词汇,在基于拼接顺序组织各个更新后的字符串形成知识篇章之后,基于预设词汇库遍历知识篇章,删除知识篇章中所包含的所待删除词汇,得到更新后的知识篇章。通过上述方法,删除知识篇章在构建过程中存在的不恰当词汇,提高构建所得到的知识篇章的可读性。
步骤S20:基于目标业务场景下的参考信息分别与各个知识篇章之间的匹配结果,选择知识篇章作为目标篇章;其中,参考信息包括历史问题、目标实体中至少一者。
在一个实施场景中,预设业务场景包括但不限于:医药领域、汽车领域、农业领域等,例如,汽车业务场景下的历史问题包括“汽车的基本构成什么?”、“发动机的常见型号有哪些?”、“常见的汽车类型?”等,汽车业务场景下的目标实体包括“发动机”、“轴距”、“SUV”等。
在一个具体的实施场景中,基于词条实体的知识文档构建得到的知识篇章可基于预设业务场景进行预分类,例如,构建得到关于“大语言模型”的知识篇章A、关于“新能源汽车”的知识篇章B、关于“二氧化碳”的知识篇章C,基于预设业务场景,将知识篇章A划分至“计算机领域”,将知识篇章B划分至“汽车领域”,将知识篇章C划分至“化学领域”。预设业务场景可基于上下位关系构建类别树,将知识篇章划分至更加细化的业务场景中,划分方法在本申请中不做限定。
在一个实施场景中,在参考信息包括历史问题的情况下,对于各个知识篇章,统计与知识篇章具有关联关系的历史问题,得到对应知识篇章的关联问题数,基于各个知识篇章的关联问题数,选择知识篇章作为候选篇章,基于候选篇章与历史问题之间的关联度,确定是否选择候选篇章作为目标篇章。通过上述方法,参考信息和目标业务场景共同提供用于筛选知识篇章的辅助信息,基于数量庞大的知识篇章选择更具针对性的目标篇章,并基于目标篇章构建目标业务场景的知识库,能够在尽可能降低知识库存储压力的情况下,提高知识库中所包含的知识篇章的有效性。
在一个具体的实施场景中,获取目标业务场景下的历史问题,历史问题的数量与目标业务场景涉及范围相关,例如,“汽车领域”获取的历史问题数量多于“新能源汽车领域”获取的历史问题。基于各个知识篇章的关联题数对所有知识篇章进行排序,关联题数越多的知识篇章排序越靠前,排序越靠前表征在此业务场景下更容易被用户的问题选中作为应答,基于排序后的知识篇章选择预设数量的知识篇章作为候选篇章。
在一个具体的实施场景中,同一知识篇章可与多个历史问题具有关联关系,同样的,同一历史问题可与多个知识篇章具有关联关系,在一些实施场景中,存在知识篇章与所有历史问题中均没有关联关系。
需要说明的是,确定关联关系的方法在本申请中不做限定,例如神经网络、大语言模型等。
在一个具体的实施场景中,从历史问题所包含的各个实体中,选择用于确定关联关系的样本实体,基于样本实体遍历知识篇章,得到遍历结果,遍历结果表征知识篇章中是否存在与样本实体相匹配的文本内容,基于知识篇章关于各个历史问题的遍历结果,统计得到与知识篇章具有关联关系的历史问题。通过上述方法,基于历史问题中的三元组信息确定样本实体,基于样本实体遍历知识篇章,根据匹配结果确定知识篇章与历史问题是否存在关联关系,可以降低数据处理的压力,提高数据处理的效率。
在一个具体的实施场景中,当遍历结果表征知识篇章中存在与样本实体相匹配的文本内容时,认为此知识篇章与历史问题之间存在关联关系。当遍历结果表征知识篇章中不存在与样本实体相匹配的文本内容时,认为此知识篇章与历史问题之间不存在关联关系。
在一个具体的实施场景中,计算候选篇章与各个历史问题之间的关联度,当候选篇章与多个历史问题之间存在关联关系时,可得到与具有关联关系的历史问题的数量相同数量的关联度,比较关联度与关联阈值之间的关系,当存在关联度不小于关联阈值,或者至少存在预设数量关联度不小于关联阈值时,表征上述候选篇章在目标业务场景中具有较好的应答能力,可以保证构建得到的知识库的有效性,因此将上述候选篇章作为目标篇章。
需要说明的是,计算关联度的方法在本申请中不做限定,例如神经网络、大语言模型等。
在一个实施场景中,构建得到的知识篇章包含从知识文档中分别与各个文档层级对应的层级标签及其字符串,在参考信息包括目标实体的情况下,基于各个层级标签之间的层级关系,从知识篇章中提取表征词条实体的字符串作为目标字符串,并基于目标实体分别与各个目标字符串之间的匹配结果,选择知识篇章作为目标篇章。通过上述方法,利用知识篇章的结构特性,使用目标业务场景下目标实体的对应字符串与各个知识篇章中表征词条实体的目标字符串之间匹配关系确定符合条件的知识篇章作为目标篇章,降低目标篇章选择的复杂度,降低知识库构建的数据压力。
在一个具体的实施场景中,目标实体存在于对应于目标业务场景下的常用实体库中,且常用实体库中的各个目标实体具有对应的百科网页,在符合用户使用需求的情况下,提高目标篇章筛选的便利性。
在一个实施场景中,参考信息同时包括历史问题和目标实体,基于历史问题与知识篇章之间的匹配结果以及目标实体与知识篇章之间的匹配结果分别确定目标篇章,提高知识库中所包含的知识篇章的有效性。
在一个具体的实施场景中,首先基于目标实体与各个知识篇章之间的匹配关系筛选得到目标篇章,在知识篇章库中去除上述已经得到的目标篇章后,基于历史问题与剩余各个知识篇章之间的匹配关系筛选得到目标篇章,因此,可以降低基于历史问题获取目标篇章的数据处理压力,提高获取目标篇章的效率。
步骤S30:基于目标篇章,构建目标业务场景的知识库。
在一个实施场景中,目标篇章存储至对应目标业务场景的知识库中,知识库的存储形式在本申请中不做限定。
在一个具体的实施场景中,基于目标业务场景对知识库打标,构建知识库的分类树,基于知识库标签的层级关系确定分类树的叶节点,提高用户调用知识库的便捷性。
上述方法,基于词条实体的知识文档构建关于词条实体的知识篇章,获取目标业务场景下的参考信息,且参考信息包括历史问题、目标实体中的至少一者,基于参考信息分别与各个知识篇章之间的匹配结果,选择满足匹配条件的知识篇章作为目标篇章,并基于目标篇章构建得到目标业务场景下的知识库。一方面,使用知识篇章的存储方式,在尽可能降低所需存储空间的情况下提高词条内容的完整性。另一方面,参考信息和目标业务场景共同提供用于筛选知识篇章的辅助信息,在海量的知识篇章中选择更具针对性的目标篇章,并基于目标篇章构建目标业务场景的知识库,能够在尽可能降低知识库存储压力的情况下,提高知识库中所包含的知识篇章的有效性,以尽可能地满足特定用户的检索需求。
请参阅图4,图4是本申请知识检索方法一实施例的框架示意图。
具体而言,可以包括如下步骤:
步骤S40:获取目标业务场景下的待检索问题,并获取所述目标业务场景的知识库。
本公开实施例中,知识库的构建方法具体可以参阅前述公开实施例中相关描述,在此不再赘述。
在一个实施场景中,用户可在线使用知识库的检索功能,根据目标业务场景自动调用对应目标业务场景的知识库,并对其中的知识篇章进行检索,选择符合待检索问题的知识篇章。
在另一个实施场景中,用户可离线使用知识库的检索功能,用户根据目标业务场景下载对应的知识库,在离线场景下,实现对待检索问题的知识检索。上述方法,一方面,使用知识篇章的存储方式,在尽可能降低所需存储空间的情况下提高词条内容的完整性。另一方面,参考信息和目标业务场景共同提供用于筛选知识篇章的辅助信息,基于数量庞大的知识篇章选择更具针对性的目标篇章,并基于目标篇章构建目标业务场景的知识库,能够在尽可能降低知识库存储压力的情况下,提高知识库中所包含的知识篇章的有效性,满足用户的检索需求。
步骤S50:基于所述待检索问题对所述知识库进行检索,得到用于回应所述待检索问题的知识篇章。
在一个实施场景中,解析待检索问题对应三元组中待检索实体的第一字符串,遍历知识库中各个知识篇章中层级标签对应于词条实体的第二字符串,响应于第一字符串与第二字符串之间的相似度不小于相似阈值,选择对应于第二字符串的知识篇章作为用于回应待检索问题的知识篇章。通过上述方法,根据知识篇章的构建特性,基于待检索实体的第一字符串与词条实体的第二字符串之间的相似度确定可用于回应待检索问题的知识篇章,提高知识检索的效率。
需要说明的是,本申请中确定待检问题对应三元组的方法不做限定,例如大语言模型等。
上述方法,获取目标业务场景下的待检索问题,并获取目标业务场景的知识库,基于待检索问题对知识库进行检索,得到用于回应待检索问题的知识篇章。一方面,知识库中使用知识篇章的存储方式存储知识文档,在尽可能降低所需存储空间的情况下提高词条内容的完整性。另一方面,知识库基于参考信息和目标业务场景共同提供用于筛选知识篇章的辅助信息,基于数量庞大的知识篇章选择更具针对性的目标篇章,并基于目标篇章构建目标业务场景的知识库,能够在尽可能降低知识库存储压力的情况下,提高知识库中所包含的知识篇章的有效性,满足用户的检索需求,提高知识检索的效率。
请参阅图5,图5是本申请知识库构建装置50一实施例的框架示意图。如图5所示,知识库构建装置50包括篇章构建模块51、篇章选择模块52和知识库构建模块53,篇章构建模块51用于基于词条实体的知识文档,构建关于词条实体的知识篇章;篇章选择模块52用于基于目标业务场景下的参考信息分别与各个知识篇章之间的匹配结果,选择知识篇章作为目标篇章;其中,参考信息包括历史问题、目标实体中至少一者;知识库构建模块53用于基于目标篇章,构建目标业务场景的知识库。
因此,知识库构建装置50基于词条实体的知识文档构建关于词条实体的知识篇章,获取目标业务场景下的参考信息,且参考信息包括历史问题、目标实体中的至少一者,基于参考信息分别与各个知识篇章之间的匹配结果,选择满足匹配条件的知识篇章作为目标篇章,并基于目标篇章构建得到目标业务场景下的知识库。一方面,使用知识篇章的存储方式,在尽可能降低所需存储空间的情况下提高词条内容的完整性。另一方面,参考信息和目标业务场景共同提供用于筛选知识篇章的辅助信息,基于数量庞大的知识篇章选择更具针对性的目标篇章,并基于目标篇章构建目标业务场景的知识库,能够在尽可能降低知识库存储压力的情况下,提高知识库中所包含的知识篇章的有效性。
在一些公开实施例中,在参考信息包括历史问题的情况下,篇章选择模块52还包括关联确定模块(未图示),用于对于各个知识篇章,统计与知识篇章具有关联关系的历史问题,得到对应知识篇章的关联问题数;基于各个知识篇章的关联问题数,选择知识篇章作为候选篇章;基于候选篇章与历史问题之间的关联度,确定是否选择候选篇章作为目标篇章。
在一些公开实施例中,关联确定模块还包括遍历子模块(未图示),用于从历史问题所包含的各个实体中,选择用于确定关联关系的样本实体;基于样本实体遍历知识篇章,得到遍历结果;其中,遍历结果表征知识篇章中是否存在与样本实体相匹配的文本内容;基于知识篇章关于各个历史问题的遍历结果,统计得到与知识篇章具有关联关系的历史问题。
在一些公开实施例中,篇章构建模块51还包括解析获取模块(未图示),用于基于词条实体的知识文档进行解析,得到分别与各个文档层级对应的层级标签及其字符串;基于分别与各个文档层级对应的层级标签及其字符串,构建关于词条实体的知识篇章。
在一些公开实施例中,解析获取模块还包括组织模块(未图示),用于基于各个层级标签之间的层级关系,确定知识篇章中各个组成部分的组织结构;其中,各个组成部分均涉及最高一级文档层级,最高一级文档层级对应层级标签的字符串为词条实体,且各个组成部分分别涉及的文档层级不完全相同;基于各个组成部分的组织结构,分别组织对应组成部分的层级标签及其字符串,以得到知识篇章。
在一些公开实施例中,组织模块还包括组成确定模块(未图示),用于响应于解析到对应于词条描述的层级标签和/或对应于词条摘要的层级标签,基于词条描述和/或词条摘要,以及词条实体形成知识篇章的第一组成部分,且第一组成部分中的最高一级文档层级为对应于词条实体的层级,第一组成部分中的最低一级文档层级为对应于词条摘要的层级;响应于解析到对应于词条内容的层级标签,基于词条实体一级词条内容形成知识篇章的第二组成部分,且第二组成部分中的最高一级文档层级为对应于词条实体的层级,第二组成部分中的最低一级文档层级为对应于词条实体的层级。
在一些公开实施例中,组织模块还包括字符拼接模块(未图示),用于基于各个组成部分的组织结构确定对应于组成部分的层级标签的字符串的拼接顺序,以及获取与各个层级标签具有映射关系的标签字符串;基于各个层级标签对应的字符串和标签字符串组合形成更新后的字符串,并基于拼接顺序组织各个更新后的字符串。
在一些公开实施例中,知识篇章包含从知识文档中分别与各个文档层级对应的层级标签及其字符串,在参考信息包括目标实体的情况下,篇章构建模块51还包括提取匹配模块(未图示),用于基于各个层级标签之间的层级关系,从知识篇章中提取表征词条实体的字符串作为目标字符串;基于目标实体分别与各个目标字符串之间的匹配结果,选择知识篇章作为目标篇章。
请参阅图6,图6是本申请知识检索装置60一实施例的框架示意图。如图6所示,知识检索装置60包括获取模块61和检索模块62,获取模块61用于获取目标业务场景下的待检索问题,并获取目标业务场景的知识库;其中,目标业务场景的知识库基于上述第一方面所述的知识库构建方法得到;检索模块62用于基于待检索问题对知识库进行检索,得到用于回应待检索问题的知识篇章。
因此,知识检索装置60获取目标业务场景下的待检索问题,并获取目标业务场景的知识库,基于待检索问题对知识库进行检索,得到用于回应待检索问题的知识篇章。一方面,知识库中使用知识篇章的存储方式存储知识文档,在尽可能降低所需存储空间的情况下提高词条内容的完整性。另一方面,知识库基于参考信息和目标业务场景共同提供用于筛选知识篇章的辅助信息,基于数量庞大的知识篇章选择更具针对性的目标篇章,并基于目标篇章构建目标业务场景的知识库,能够在尽可能降低知识库存储压力的情况下,提高知识库中所包含的知识篇章的有效性,满足用户的检索需求,提高知识检索的效率。
在一些公开实施例中,检索模块62还包括相似匹配模块(未图示),用于解析待检索问题对应三元组中待检索实体的第一字符串;遍历知识库中各个知识篇章中层级标签对应于词条实体的第二字符串;响应于第一字符串与第二字符串之间的相似度不小于相似阈值,选择对应于第二字符串的知识篇章作为用于回应待检索问题的知识篇章。
请参阅图7,图7是本申请电子设备70一实施例的框架示意图。如图7所示,电子设备70包括相互耦接的存储器71和处理器72,存储器71中存储有程序指令,处理器72用于执行程序指令以实现上述任一知识库构建方法实施例中的步骤,或,上述任一知识检索方法实施例中的步骤。具体而言,电子设备70可以包括但不限于:服务器、台式计算机、笔记本电脑、平板电脑、智能手机等,在此不作限定。具体而言,处理器72用于控制其自身以及存储器71以实现上述任一知识库构建方法实施例中的步骤,或,任一知识检索方法实施例中的步骤。处理器72还可以称为CPU(Central Processing Unit,中央处理单元)。处理器72可能是一种集成电路芯片,具有信号的处理能力。处理器72还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器72可以由集成电路芯片共同实现。
因此,电子设备70基于词条实体的知识文档构建关于词条实体的知识篇章,获取目标业务场景下的参考信息,且参考信息包括历史问题、目标实体中的至少一者,基于参考信息分别与各个知识篇章之间的匹配结果,选择满足匹配条件的知识篇章作为目标篇章,并基于目标篇章构建得到目标业务场景下的知识库。一方面,使用知识篇章的存储方式,在尽可能降低所需存储空间的情况下提高词条内容的完整性。另一方面,参考信息和目标业务场景共同提供用于筛选知识篇章的辅助信息,基于数量庞大的知识篇章选择更具针对性的目标篇章,并基于目标篇章构建目标业务场景的知识库,能够在尽可能降低知识库存储压力的情况下,提高知识库中所包含的知识篇章的有效性。
请参阅图8,图8是本申请计算机可读存储介质80一实施例的框架示意图。计算机可读存储介质80存储有能够被处理器运行的程序指令81,程序指令81用于实现上述任一知识库构建方法实施例中的步骤,或,任一知识检索方法实施例中的步骤。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其他的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其他的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术作出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
若本申请技术方案涉及个人信息,应用本申请技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本申请技术方案涉及敏感个人信息,应用本申请技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。

Claims (14)

1.一种知识库构建方法,其特征在于,包括:
基于词条实体的知识文档,构建关于所述词条实体的知识篇章;
基于目标业务场景下的参考信息分别与各个所述知识篇章之间的匹配结果,选择所述知识篇章作为目标篇章;其中,所述参考信息包括历史问题、目标实体中至少一者;
基于所述目标篇章,构建所述目标业务场景的知识库。
2.根据权利要求1所述的方法,其特征在于,在所述参考信息包括所述历史问题的情况下,所述基于目标业务场景下的参考信息分别与各个所述知识篇章之间的匹配结果,选择所述知识篇章作为目标篇章,包括:
对于各个所述知识篇章,统计与所述知识篇章具有关联关系的历史问题,得到对应所述知识篇章的关联问题数;
基于各个所述知识篇章的关联问题数,选择所述知识篇章作为候选篇章;
基于所述候选篇章与所述历史问题之间的关联度,确定是否选择所述候选篇章作为所述目标篇章。
3.根据权利要求2所述的方法,其特征在于,所述统计与所述知识篇章具有关联关系的历史问题,包括:
从所述历史问题所包含的各个实体中,选择用于确定所述关联关系的样本实体;
基于所述样本实体遍历所述知识篇章,得到遍历结果;其中,所述遍历结果表征所述知识篇章中是否存在与所述样本实体相匹配的文本内容;
基于所述知识篇章关于各个所述历史问题的遍历结果,统计得到与所述知识篇章具有关联关系的历史问题。
4.根据权利要求1所述的方法,其特征在于,所述基于词条实体的知识文档,构建关于所述词条实体的知识篇章,包括:
基于词条实体的知识文档进行解析,得到分别与各个文档层级对应的层级标签及其字符串;
基于分别与各个文档层级对应的层级标签及其字符串,构建关于所述词条实体的知识篇章。
5.根据权利要求4所述的方法,其特征在于,所述基于分别与各个文档层级对应的层级标签及其字符串,构建关于所述词条实体的知识篇章,包括:
基于各个所述层级标签之间的层级关系,确定所述知识篇章中各个组成部分的组织结构;其中,各个所述组成部分均涉及最高一级所述文档层级,最高一级所述文档层级对应所述层级标签的字符串为所述词条实体,且各个所述组成部分分别涉及的文档层级不完全相同;
基于所述各个组成部分的组织结构,分别组织对应所述组成部分的层级标签及其字符串,以得到所述知识篇章。
6.根据权利要求5所述的方法,其特征在于,所述基于各个所述层级标签之间的层级关系,确定所述知识篇章中各个组成部分的组织结构,包括以下至少一者:
响应于解析到对应于词条描述的层级标签和/或对应于词条摘要的层级标签,基于所述词条描述和/或所述词条摘要,以及所述词条实体形成所述知识篇章的第一组成部分,且所述第一组成部分中的最高一级文档层级为对应于所述词条实体的层级,所述第一组成部分中的最低一级文档层级为对应于所述词条摘要的层级;
响应于解析到对应于词条内容的层级标签,基于所述词条实体一级所述词条内容形成所述知识篇章的第二组成部分,且所述第二组成部分中的最高一级文档层级为对应于所述词条实体的层级,所述第二组成部分中的最低一级文档层级为对应于所述词条内容的层级。
7.根据权利要求5所述的方法,其特征在于,所述基于所述各个组成部分的组织结构,分别组织对应所述组成部分的层级标签及其字符串,包括:
基于所述各个组成部分的组织结构确定对应于所述组成部分的层级标签的所述字符串的拼接顺序,以及获取与各个所述层级标签具有映射关系的标签字符串;
基于各个层级标签对应的所述字符串和所述标签字符串组合形成更新后的字符串,并基于所述拼接顺序组织各个所述更新后的字符串。
8.根据权利要求1或4所述的方法,其特征在于,所述知识篇章包含从所述知识文档中分别与各个文档层级对应的层级标签及其字符串,在所述参考信息包括所述目标实体的情况下,在所述基于目标业务场景下的参考信息分别与各个所述知识篇章之间的匹配结果,选择所述知识篇章作为目标篇章,包括:
基于各个层级标签之间的层级关系,从所述知识篇章中提取表征所述词条实体的字符串作为目标字符串;
基于所述目标实体分别与各个所述目标字符串之间的匹配结果,选择所述知识篇章作为所述目标篇章。
9.一种知识检索方法,其特征在于,包括:
获取目标业务场景下的待检索问题,并获取所述目标业务场景的知识库;其中,所述目标业务场景的知识库基于权利要求1至8任一项所述的知识库构建方法得到;
基于所述待检索问题对所述知识库进行检索,得到用于回应所述待检索问题的知识篇章。
10.根据权利要求9所述的方法,其特征在于,所述知识篇章包含分别与各个文档层级对应的层级标签及其字符串,所述基于所述待检索问题对所述知识库进行检索,得到用于回应所述待检索问题的知识篇章,包括:
解析所述待检索问题对应三元组中待检索实体的第一字符串;
遍历所述知识库中各个知识篇章中层级标签对应于词条实体的第二字符串;
响应于所述第一字符串与所述第二字符串之间的相似度不小于相似阈值,选择对应于所述第二字符串的所述知识篇章作为用于回应所述待检索问题的知识篇章。
11.一种知识库构建装置,其特征在于,包括:
篇章构建模块,用于基于词条实体的知识文档,构建关于所述词条实体的知识篇章;
篇章选择模块,用于基于目标业务场景下的参考信息分别与各个所述知识篇章之间的匹配结果,选择所述知识篇章作为目标篇章;其中,所述参考信息包括历史问题、目标实体中至少一者;
知识库构建模块,用于基于所述目标篇章,构建所述目标业务场景的知识库。
12.一种知识检索装置,其特征在于,包括:
获取模块,用于获取目标业务场景下的待检索问题,并获取所述目标业务场景的知识库;其中,所述目标业务场景的知识库基于权利要求1至8任一项所述的知识库构建方法得到;
检索模块,用于基于所述待检索问题对所述知识库进行检索,得到用于回应所述待检索问题的知识篇章。
13.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序以实现权利要求1至8任一项所述的知识库构建方法,或,以实现权利要求9至10任一项所述的知识检索方法。
14.一种计算机可读存储介质,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至8任一项所述的知识库构建方法,或,以实现权利要求9至10任一项所述的知识检索方法。
CN202311423694.5A 2023-10-27 2023-10-27 知识库构建方法和知识检索方法及相关装置、设备 Pending CN117648401A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311423694.5A CN117648401A (zh) 2023-10-27 2023-10-27 知识库构建方法和知识检索方法及相关装置、设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311423694.5A CN117648401A (zh) 2023-10-27 2023-10-27 知识库构建方法和知识检索方法及相关装置、设备

Publications (1)

Publication Number Publication Date
CN117648401A true CN117648401A (zh) 2024-03-05

Family

ID=90046827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311423694.5A Pending CN117648401A (zh) 2023-10-27 2023-10-27 知识库构建方法和知识检索方法及相关装置、设备

Country Status (1)

Country Link
CN (1) CN117648401A (zh)

Similar Documents

Publication Publication Date Title
Hofmann et al. Text mining and visualization: Case studies using open-source tools
US8799294B2 (en) Method for enhancing search and browsing in collaborative tagging systems through learned tag hierarchies
US20160034512A1 (en) Context-based metadata generation and automatic annotation of electronic media in a computer network
US10977486B2 (en) Blockwise extraction of document metadata
Khusro et al. On methods and tools of table detection, extraction and annotation in PDF documents
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
WO2017097231A1 (zh) 话题处理方法及装置
US20160034514A1 (en) Providing search results based on an identified user interest and relevance matching
US11222183B2 (en) Creation of component templates based on semantically similar content
US20150113388A1 (en) Method and apparatus for performing topic-relevance highlighting of electronic text
US8515986B2 (en) Query pattern generation for answers coverage expansion
Im et al. Linked tag: image annotation using semantic relationships between image tags
US8560518B2 (en) Method and apparatus for building sales tools by mining data from websites
CN111192176B (zh) 一种支持教育信息化评估的在线数据采集方法及装置
US20050138079A1 (en) Processing, browsing and classifying an electronic document
Ransom et al. Facets of user‐assigned tags and their effectiveness in image retrieval
CN115687647A (zh) 公证文书生成方法、装置、电子设备及存储介质
US20230126022A1 (en) Automatically determining table locations and table cell types
CN113407678B (zh) 知识图谱构建方法、装置和设备
US11507593B2 (en) System and method for generating queryeable structured document from an unstructured document using machine learning
Ma et al. Api prober–a tool for analyzing web api features and clustering web apis
CN117648401A (zh) 知识库构建方法和知识检索方法及相关装置、设备
WO2014049310A2 (en) Method and apparatuses for interactive searching of electronic documents
CN109213830B (zh) 专业性技术文档的文档检索系统
Xiao [Retracted] Application of Digital Information Technology in Book Classification and Quick Search in University Libraries

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination