CN117312480A - 一种基于多领域的知识库更新优化方法及系统 - Google Patents

一种基于多领域的知识库更新优化方法及系统 Download PDF

Info

Publication number
CN117312480A
CN117312480A CN202311383735.2A CN202311383735A CN117312480A CN 117312480 A CN117312480 A CN 117312480A CN 202311383735 A CN202311383735 A CN 202311383735A CN 117312480 A CN117312480 A CN 117312480A
Authority
CN
China
Prior art keywords
knowledge
retrieval
knowledge base
module
setting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311383735.2A
Other languages
English (en)
Inventor
吴隶妍
林雄
林少穗
彭迅
赵家润
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Guangxin Communications Services Co Ltd
Original Assignee
Guangdong Guangxin Communications Services Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Guangxin Communications Services Co Ltd filed Critical Guangdong Guangxin Communications Services Co Ltd
Priority to CN202311383735.2A priority Critical patent/CN117312480A/zh
Publication of CN117312480A publication Critical patent/CN117312480A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多领域的知识库更新优化方法及系统,通过基于知识时间构建知识库的知识打标签规则,设置知识库的知识检索匹配规则,依据知识检索匹配规则和知识打标签规则进行知识检索,得到检索结果,依据检索条件和相对应的检索结果进行知识库的更新,能够提高知识库的时效性和准确性,通过对知识库进行更新,将更新的知识进行训练,从而避免了回答容易出现原则性错误的问题。

Description

一种基于多领域的知识库更新优化方法及系统
技术领域
本发明涉及知识库更新优化技术领域,尤其涉及一种基于多领域的知识库更新优化方法及系统。
背景技术
以chatgpt为代表的大模型技术路线,能够理解用户意图,并通过语料合并的形式,与用户拟人化聊天,然而,chatgpt对于严谨官方的场景,回答容易出现原则性错误,其原因在于其知识库的开放性,海量未经审核的材料用于训练,不应拼接的材料却被拼接而出现似是而非的答案,同时答案也未考虑时效性。
发明内容
有鉴于此,本发明提出一种基于多领域的知识库更新优化方法及系统,可以解决现有技术所存在的回答容易出现原则性错误的缺陷。
本发明的技术方案是这样实现的:
一种基于多领域的知识库更新优化方法,具体包括:
基于知识时间构建知识库的知识打标签规则;
设置知识库的知识检索匹配规则;
获取检索条件,依据知识检索匹配规则和知识打标签规则进行知识检索,得到检索结果;
记录检索条件和相对应的检索结果;
依据检索条件和相对应的检索结果进行知识库的更新。
作为所述基于多领域的知识库更新优化方法的进一步可选方案,所述基于知识时间构建知识库的知识打标签规则,具体包括:
获取知识的起始时间或终止时间;
依据知识的起始时间或终止时间进行知识聚类,得到聚类结果;
依据聚类结果进行打标签规则的设置,构建出知识库的知识打标签规则。
作为所述基于多领域的知识库更新优化方法的进一步可选方案,所述设置知识库的知识检索匹配规则,具体包括:
设置知识检索因子;
设置每个知识检索因子的权重;
设置每个知识检索因子的相对应的检索方法。
作为所述基于多领域的知识库更新优化方法的进一步可选方案,所述依据检索条件和相对应的检索结果进行知识库的更新,具体包括:
依据检索条件和相对应的检索结果,统计从未被检索到的知识;
将从未检索到的知识进行标签修改或删除。
作为所述基于多领域的知识库更新优化方法的进一步可选方案,所述方法还包括对检索结果进行反馈,依据反馈结果对知识库进行更新。
一种基于多领域的知识库更新优化系统,包括:
构建模块,用于基于知识时间构建知识库的知识打标签规则;
设置模块,用于设置知识库的知识检索匹配规则;
检索模块,用于获取检索条件,依据知识检索匹配规则和知识打标签规则进行知识检索,得到检索结果;
记录模块,用于记录检索条件和相对应的检索结果;
更新模块,用于依据检索条件和相对应的检索结果进行知识库的更新。
作为所述基于多领域的知识库更新优化系统的进一步可选方案,所述构建模块包括:
获取模块,用于获取知识的起始时间或终止时间;
聚类模块,用于依据知识的起始时间或终止时间进行知识聚类,得到聚类结果;
执行模块,用于依据聚类结果进行打标签规则的设置,构建出知识库的知识打标签规则。
作为所述基于多领域的知识库更新优化系统的进一步可选方案,所述设置模块包括:
第一设置模块,用于设置知识检索因子;
第二设置模块,用于设置每个知识检索因子的权重;
第三设置模块,用于设置每个知识检索因子的相对应的检索方法。
作为所述基于多领域的知识库更新优化系统的进一步可选方案,所述更新模块包括:
统计模块,用于依据检索条件和相对应的检索结果,统计从未被检索到的知识;
处理模块,用于将从未检索到的知识进行标签修改或删除。
作为所述基于多领域的知识库更新优化系统的进一步可选方案,所述系统还包括反馈模块,所述反馈模块用于对检索结果进行反馈,依据反馈结果对知识库进行更新。
本发明的有益效果是:通过基于知识时间构建知识库的知识打标签规则,设置知识库的知识检索匹配规则,依据知识检索匹配规则和知识打标签规则进行知识检索,得到检索结果,依据检索条件和相对应的检索结果进行知识库的更新,能够提高知识库的时效性和准确性,通过对知识库进行更新,将更新的知识进行训练,从而避免了回答容易出现原则性错误的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于多领域的知识库更新优化方法的流程示意图;
图2为本发明一种基于多领域的知识库更新优化系统的组成示意图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
参考图1-2,一种基于多领域的知识库更新优化方法,具体包括:
基于知识时间构建知识库的知识打标签规则;
设置知识库的知识检索匹配规则;
获取检索条件,依据知识检索匹配规则和知识打标签规则进行知识检索,得到检索结果;
记录检索条件和相对应的检索结果;
依据检索条件和相对应的检索结果进行知识库的更新。
在本实施例中,通过基于知识时间构建知识库的知识打标签规则,设置知识库的知识检索匹配规则,依据知识检索匹配规则和知识打标签规则进行知识检索,得到检索结果,依据检索条件和相对应的检索结果进行知识库的更新,能够提高知识库的时效性和准确性,通过对知识库进行更新,将更新的知识进行训练,从而避免了回答容易出现原则性错误的问题。
优选的,所述基于知识时间构建知识库的知识打标签规则,具体包括:
获取知识的起始时间或终止时间;
依据知识的起始时间或终止时间进行知识聚类,得到聚类结果;
依据聚类结果进行打标签规则的设置,构建出知识库的知识打标签规则。
在本实施例中,所述获取知识的起始时间或终止时间为获取知识发表的起始时间或者知识失效的终止时间,通过先依据知识的起始时间或终止时间进行知识聚类,再进行打标签规则的设置,能够提高打标签规则设置的准确性,从而便于提高后续对知识库更新的准确性;需要说明的是,在为知识打标签时,如果该知识含有明确的起始时间或终止时间,则为该知识建立按照年-月-日切分的起始和终止标签,如果不含有明确的起始时间或终止时间,则依据知识内容进行打标签。
优选的,所述设置知识库的知识检索匹配规则,具体包括:
设置知识检索因子;
设置每个知识检索因子的权重;
设置每个知识检索因子的相对应的检索方法。
在本实施例中,所述知识检索因子包括时间检索因子、关键词检索因子、地址检索因子和相关词检索因子等等,不同的检索因子所占的权重并不相同,时间检索因子检索出来的内容占的权重最大,不同的检索因子配置不同的检索方法,可提高检索的准确性,从而便于提高后续对知识库更新的准确性。
优选的,所述依据检索条件和相对应的检索结果进行知识库的更新,具体包括:
依据检索条件和相对应的检索结果,统计从未被检索到的知识;
将从未检索到的知识进行标签修改或删除。
在本实施例中,依据检索条件和相对应的检索结果,统计在一定时间内,被一定次数检索但从未被检索到的知识,将从未检索到的知识进行标签修改或删除,能够有效对知识库进行更新,使得知识库中的知识更加合理。
优选的,所述方法还包括对检索结果进行反馈,依据反馈结果对知识库进行更新。
在本实施例中,通过对检索结果进行反馈,依据反馈结果对知识库进行更新,能够进一步提高知识库中知识的合理性。
一种基于多领域的知识库更新优化系统,包括:
构建模块,用于基于知识时间构建知识库的知识打标签规则;
设置模块,用于设置知识库的知识检索匹配规则;
检索模块,用于获取检索条件,依据知识检索匹配规则和知识打标签规则进行知识检索,得到检索结果;
记录模块,用于记录检索条件和相对应的检索结果;
更新模块,用于依据检索条件和相对应的检索结果进行知识库的更新。
在本实施例中,所述获取知识的起始时间或终止时间为获取知识发表的起始时间或者知识失效的终止时间,通过先依据知识的起始时间或终止时间进行知识聚类,再进行打标签规则的设置,能够提高打标签规则设置的准确性,从而便于提高后续对知识库更新的准确性;需要说明的是,在为知识打标签时,如果该知识含有明确的起始时间或终止时间,则为该知识建立按照年-月-日切分的起始和终止标签,如果不含有明确的起始时间或终止时间,则依据知识内容进行打标签。
优选的,所述构建模块包括:
获取模块,用于获取知识的起始时间或终止时间;
聚类模块,用于依据知识的起始时间或终止时间进行知识聚类,得到聚类结果;
执行模块,用于依据聚类结果进行打标签规则的设置,构建出知识库的知识打标签规则。
在本实施例中,所述获取知识的起始时间或终止时间为获取知识发表的起始时间或者知识失效的终止时间,通过先依据知识的起始时间或终止时间进行知识聚类,再进行打标签规则的设置,能够提高打标签规则设置的准确性,从而便于提高后续对知识库更新的准确性。
优选的,所述设置模块包括:
第一设置模块,用于设置知识检索因子;
第二设置模块,用于设置每个知识检索因子的权重;
第三设置模块,用于设置每个知识检索因子的相对应的检索方法。
在本实施例中,所述知识检索因子包括时间检索因子、关键词检索因子、地址检索因子和相关词检索因子等等,不同的检索因子所占的权重并不相同,时间检索因子检索出来的内容占的权重最大,不同的检索因子配置不同的检索方法,可提高检索的准确性,从而便于提高后续对知识库更新的准确性。
优选的,所述更新模块包括:
统计模块,用于依据检索条件和相对应的检索结果,统计从未被检索到的知识;
处理模块,用于将从未检索到的知识进行标签修改或删除。
在本实施例中,依据检索条件和相对应的检索结果,统计在一定时间内,被一定次数检索但从未被检索到的知识,将从未检索到的知识进行标签修改或删除,能够有效对知识库进行更新,使得知识库中的知识更加合理。
优选的,所述系统还包括反馈模块,所述反馈模块用于对检索结果进行反馈,依据反馈结果对知识库进行更新。
在本实施例中,通过对检索结果进行反馈,依据反馈结果对知识库进行更新,能够进一步提高知识库中知识的合理性。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于多领域的知识库更新优化方法,其特征在于,具体包括:
基于知识时间构建知识库的知识打标签规则;
设置知识库的知识检索匹配规则;
获取检索条件,依据知识检索匹配规则和知识打标签规则进行知识检索,得到检索结果;
记录检索条件和相对应的检索结果;
依据检索条件和相对应的检索结果进行知识库的更新。
2.根据权利要求1所述的一种基于多领域的知识库更新优化方法,其特征在于,所述基于知识时间构建知识库的知识打标签规则,具体包括:
获取知识的起始时间或终止时间;
依据知识的起始时间或终止时间进行知识聚类,得到聚类结果;
依据聚类结果进行打标签规则的设置,构建出知识库的知识打标签规则。
3.根据权利要求2所述的一种基于多领域的知识库更新优化方法,其特征在于,所述设置知识库的知识检索匹配规则,具体包括:
设置知识检索因子;
设置每个知识检索因子的权重;
设置每个知识检索因子的相对应的检索方法。
4.根据权利要求3所述的一种基于多领域的知识库更新优化方法,其特征在于,所述依据检索条件和相对应的检索结果进行知识库的更新,具体包括:
依据检索条件和相对应的检索结果,统计从未被检索到的知识;
将从未检索到的知识进行标签修改或删除。
5.根据权利要求4所述的一种基于多领域的知识库更新优化方法,其特征在于,所述方法还包括对检索结果进行反馈,依据反馈结果对知识库进行更新。
6.一种基于多领域的知识库更新优化系统,其特征在于,包括:
构建模块,用于基于知识时间构建知识库的知识打标签规则;
设置模块,用于设置知识库的知识检索匹配规则;
检索模块,用于获取检索条件,依据知识检索匹配规则和知识打标签规则进行知识检索,得到检索结果;
记录模块,用于记录检索条件和相对应的检索结果;
更新模块,用于依据检索条件和相对应的检索结果进行知识库的更新。
7.根据权利要求6所述的一种基于多领域的知识库更新优化系统,其特征在于,所述构建模块包括:
获取模块,用于获取知识的起始时间或终止时间;
聚类模块,用于依据知识的起始时间或终止时间进行知识聚类,得到聚类结果;
执行模块,用于依据聚类结果进行打标签规则的设置,构建出知识库的知识打标签规则。
8.根据权利要求7所述的一种基于多领域的知识库更新优化系统,其特征在于,所述设置模块包括:
第一设置模块,用于设置知识检索因子;
第二设置模块,用于设置每个知识检索因子的权重;
第三设置模块,用于设置每个知识检索因子的相对应的检索方法。
9.根据权利要求8所述的一种基于多领域的知识库更新优化系统,其特征在于,所述更新模块包括:
统计模块,用于依据检索条件和相对应的检索结果,统计从未被检索到的知识;
处理模块,用于将从未检索到的知识进行标签修改或删除。
10.根据权利要求9所述的一种基于多领域的知识库更新优化系统,其特征在于,所述系统还包括反馈模块,所述反馈模块用于对检索结果进行反馈,依据反馈结果对知识库进行更新。
CN202311383735.2A 2023-10-24 2023-10-24 一种基于多领域的知识库更新优化方法及系统 Pending CN117312480A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311383735.2A CN117312480A (zh) 2023-10-24 2023-10-24 一种基于多领域的知识库更新优化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311383735.2A CN117312480A (zh) 2023-10-24 2023-10-24 一种基于多领域的知识库更新优化方法及系统

Publications (1)

Publication Number Publication Date
CN117312480A true CN117312480A (zh) 2023-12-29

Family

ID=89288287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311383735.2A Pending CN117312480A (zh) 2023-10-24 2023-10-24 一种基于多领域的知识库更新优化方法及系统

Country Status (1)

Country Link
CN (1) CN117312480A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649544A (zh) * 2016-10-27 2017-05-10 国家电网公司信息通信分公司 一种用电信息数据检索方法及装置
CN108170835A (zh) * 2018-01-12 2018-06-15 深圳市富途网络科技有限公司 一种组合人工与ai的智能客服系统
CN109711553A (zh) * 2017-10-26 2019-05-03 北京航天长峰科技工业集团有限公司 一种小型专家知识库管理系统
CN112199376A (zh) * 2020-11-05 2021-01-08 北京三维天地科技股份有限公司 一种基于聚类分析的标准知识库管理方法及系统
CN114090777A (zh) * 2021-11-26 2022-02-25 北京金山数字娱乐科技有限公司 文本数据处理方法及装置
CN115687663A (zh) * 2022-09-27 2023-02-03 南京启数智能系统有限公司 基于全文搜索的视频检索及标记方法、系统及存储介质
CN116842151A (zh) * 2023-06-01 2023-10-03 阿里巴巴(中国)有限公司 问答模型构建、知识库创建、搜索问答方法、电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649544A (zh) * 2016-10-27 2017-05-10 国家电网公司信息通信分公司 一种用电信息数据检索方法及装置
CN109711553A (zh) * 2017-10-26 2019-05-03 北京航天长峰科技工业集团有限公司 一种小型专家知识库管理系统
CN108170835A (zh) * 2018-01-12 2018-06-15 深圳市富途网络科技有限公司 一种组合人工与ai的智能客服系统
CN112199376A (zh) * 2020-11-05 2021-01-08 北京三维天地科技股份有限公司 一种基于聚类分析的标准知识库管理方法及系统
CN114090777A (zh) * 2021-11-26 2022-02-25 北京金山数字娱乐科技有限公司 文本数据处理方法及装置
CN115687663A (zh) * 2022-09-27 2023-02-03 南京启数智能系统有限公司 基于全文搜索的视频检索及标记方法、系统及存储介质
CN116842151A (zh) * 2023-06-01 2023-10-03 阿里巴巴(中国)有限公司 问答模型构建、知识库创建、搜索问答方法、电子设备

Similar Documents

Publication Publication Date Title
CN111026671B (zh) 测试用例集构建方法和基于测试用例集的测试方法
CN105531706A (zh) 用于信息检索系统的搜索引擎
CN103605706A (zh) 一种基于知识地图的资源检索方法
CN107798123A (zh) 知识库及其建立、修改、智能问答方法、装置及设备
WO2023207096A1 (zh) 一种实体链接方法、装置、设备及非易失性可读存储介质
CN107590119B (zh) 人物属性信息抽取方法及装置
CN111831902A (zh) 推荐理由筛选方法、装置、电子设备
CN112132536A (zh) 一种岗位推荐方法、系统、计算机设备及存储介质
CN114090784A (zh) 一种材料领域知识图谱的实体标签聚类方法及装置
CN114661872A (zh) 一种面向初学者的api自适应推荐方法与系统
CN111666374A (zh) 一种在深度语言模型中融入额外知识信息的方法
CN112632122A (zh) 基于多指标的报表检索方法、装置、设备及存储介质
CN116151235A (zh) 文章生成方法、文章生成模型训练方法及相关设备
CN111708870A (zh) 基于深度神经网络的问答方法、装置及存储介质
CN113190692B (zh) 一种知识图谱的自适应检索方法、系统及装置
KR20200032873A (ko) 도서 정보 기반의 챗봇 서비스를 위한 파싱 시스템 및 그 제어 방법
CN115577694B (zh) 标准编写的智能推荐方法
CN111597400A (zh) 基于寻路算法的计算机检索系统及方法
CN110825930A (zh) 基于人工智能自动识别社区问答论坛中的正确回答的方法
CN117312480A (zh) 一种基于多领域的知识库更新优化方法及系统
CN106407271B (zh) 一种智能客服系统及其智能客服知识库的更新方法
CN115757720A (zh) 基于知识图谱的项目信息搜索方法、装置、设备和介质
CN113254668B (zh) 一种基于场景纬度的知识图谱构建方法及系统
CN110147358A (zh) 自动问答知识库的建设方法及建设系统
CN114461813A (zh) 一种基于知识图谱的数据推送方法、系统和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination