CN117349425A - 知识条目的生成方法、装置、设备和存储介质 - Google Patents

知识条目的生成方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN117349425A
CN117349425A CN202311643544.5A CN202311643544A CN117349425A CN 117349425 A CN117349425 A CN 117349425A CN 202311643544 A CN202311643544 A CN 202311643544A CN 117349425 A CN117349425 A CN 117349425A
Authority
CN
China
Prior art keywords
knowledge
prompt
question
target
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311643544.5A
Other languages
English (en)
Other versions
CN117349425B (zh
Inventor
于鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Renke Interactive Network Technology Co Ltd
Original Assignee
Beijing Renke Interactive Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Renke Interactive Network Technology Co Ltd filed Critical Beijing Renke Interactive Network Technology Co Ltd
Priority to CN202311643544.5A priority Critical patent/CN117349425B/zh
Publication of CN117349425A publication Critical patent/CN117349425A/zh
Application granted granted Critical
Publication of CN117349425B publication Critical patent/CN117349425B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,提供一种知识条目的生成方法、装置、设备和存储介质,该方法包括:利用大模型,根据提示词指令和目标文本,得到至少一个问答形式的提示结果;提示词指令用于指示基于目标文本抽取问答形式的提示结果的目标数量;目标文本为根据知识文档得到的;根据各个问答形式的提示结果和预设的知识条目分类库,生成知识文档对应的目标知识条目。本发明中因使用提示词指令与大模型进行交互可以快速得到问答形式的提示结果,进一步基于预设的知识条目分类库对提示结果进行分类,生成知识文档对应的目标知识条目,生成知识条目的速度较快,提高了知识条目的生成效率。

Description

知识条目的生成方法、装置、设备和存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种知识条目的生成方法、装置、设备和存储介质。
背景技术
知识条目是客服系统的核心功能之一,终端用户在进行咨询时,无论是机器人还是人工客服,都是基于客服系统中现有的知识条目进行回答。因此,知识条目的分类是否合理,覆盖是否全面,内容是否准确,直接决定了用户的咨询体验。
现有技术中,客服系统中的知识条目是对产品的相关文档逐一梳理后得到知识条目,并将梳理后得到的知识条目应用在客服系统中。然而,当前企业的产品更新迭代速度快,基于现有方法梳理得到知识条目的耗时较长,生成知识条目的效率较低。
发明内容
本发明提供一种知识条目的生成方法、装置、设备和存储介质,用以解决现有技术中生成知识条目的效率较低的缺陷,提升生成知识条目的效率。
第一方面,本发明提供一种知识条目的生成方法,包括:
利用大模型,根据提示词指令和目标文本,得到至少一个问答形式的提示结果;所述提示词指令用于指示基于所述目标文本抽取所述问答形式的提示结果的目标数量;所述目标文本为根据知识文档得到的;
根据各个所述问答形式的提示结果和预设的知识条目分类库,生成所述知识文档对应的目标知识条目。
可选地,所述利用大模型,根据提示词指令和目标文本,得到至少一个问答形式的提示结果,包括:
根据所述提示词指令,确定需基于所述目标文本抽取的所述问答形式的提示结果的目标数量;
根据所述目标数量,从所述目标文本中抽取出目标数量个问答形式的提示结果;
将所述目标数量个问答形式的提示结果,确定为所述至少一个问答形式的提示结果。
可选地,所述根据各个所述问答形式的提示结果和预设的知识条目分类库,生成所述知识文档对应的目标知识条目,包括:
针对任一所述问答形式的提示结果,提取所述问答形式的提示结果中的提问对象;
根据所述问答形式的提示结果中的提问对象,在所述预设的知识条目分类库的目录中进行匹配,得到所述提问对象对应的目标知识条目分类;
根据各个所述提问对象对应的目标知识条目分类,以及各个所述问答形式的提示结果中的回答数据,生成所述目标知识条目。
可选地,所述利用大模型,根据提示词指令和目标文本,得到至少一个问答形式的提示结果之前,还包括:
对知识文档进行预处理,得到所述知识文档对应的目标文本。
可选地,所述知识文档包括以下至少一项:产品说明书、BOM规格表、售后解决方案和企业宣传册;任一所述知识文档中包含的数据类型包括以下至少一项:文本类型、图片类型和语音类型;所述对知识文档进行预处理,得到所述知识文档对应的目标文本,包括:
确定所述知识文档中包含的数据类型;
在所述知识文档中包含语音类型的数据的情况下,将所述知识文档中包含的语音类型的数据转化为第二文本数据;
在所述知识文档中包含图片类型的数据的情况下,将所述知识文档中包含的图片类型的数据转换成第三文本数据;
对所述知识文档中包含的文本类型的第一文本数据、所述第二文本数据和所述第三文本数据进行汇总并去重,得到所述目标文本。
可选地,所述根据各个所述问答形式的提示结果和预设的知识条目分类库,生成所述知识文档对应的目标知识条目之后,还包括:
根据预设的审核规则对所述目标知识条目进行审核,得到审核后的目标知识条目。
可选地,所述利用大模型,根据提示词指令和目标文本,得到至少一个问答形式的提示结果之前,还包括:
对用户输入的提示词进行编译优化,得到所述提示词指令。
第二方面,本发明还提供一种知识条目的生成装置,该装置包括:
生成模块,用于利用大模型,根据提示词指令和目标文本,得到至少一个问答形式的提示结果;所述提示词指令用于指示基于所述目标文本抽取所述问答形式的提示结果的目标数量;所述目标文本为根据知识文档得到的;
分类模块,用于根据各个所述问答形式的提示结果和预设的知识条目分类库,生成所述知识文档对应的目标知识条目。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述知识条目的生成方法。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述知识条目的生成方法。
第五方面,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述知识条目的生成方法。
本发明提供的一种知识条目的生成方法、装置、设备和存储介质,首先,利用大模型,根据提示词指令和目标文本,得到至少一个问答形式的提示结果,其中,提示词指令用于指示基于目标文本抽取问答形式的提示结果的目标数量,目标文本为根据知识文档得到的;然后,根据各个问答形式的提示结果和预设的知识条目分类库,生成知识文档对应的目标知识条目。
本发明中创造性地利用提示词指令与大模型进行交互,提示词指令用于指示基于目标文本抽取问答形式的提示结果的目标数量,进而大模型根据提示词指令对目标文本进行分析处理,得到至少一个问答形式的提示结果,使用提示词指令与大模型进行交互可以快速得到问答形式的提示结果,进一步基于预设的知识条目分类库对提示结果进行分类,生成知识文档对应的目标知识条目,生成知识条目的速度较快,提高了知识条目的生成效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的知识条目的生成方法的流程示意图之一;
图2是本发明提供的知识条目的生成方法的流程示意图之二;
图3是本发明提供的知识条目的生成装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了更清晰地理解本发明提供的各个实施例,首先对本发明涉及的相关技术内容做如下介绍。
现有技术中,客服系统中的知识条目是通过人工的方式对产品的相关文档逐一梳理后得到知识条目,并将梳理后得到的知识条目应用在客服系统中。然而,当前企业的产品更新迭代速度越来越快,据统计,一家中型企业往往需要耗时一年,投入十人以上才能完成知识条目的梳理工作,这也是很多客服系统难以启动或者使用效果不佳的原因。也即,基于现有方法生成知识条目的效率较低。
下面结合图1-图4描述本发明提供的知识条目的生成方法,本方案能够以极低的成本盘活企业现有资产如知识文档,显著的提升了知识条目的生成的速度,进一步改善客服系统的客户体验。
图1是本发明提供的知识条目的生成方法的流程示意图之一,如图1所示,该方法包括:
步骤101、利用大模型,根据提示词指令和目标文本,得到至少一个问答形式的提示结果;提示词指令用于指示基于目标文本抽取问答形式的提示结果的目标数量;目标文本为根据知识文档得到的;
具体地,可以理解的是,人工智能领域的大模型Foundation Model,通常指的是一类被广泛使用的基础模型(或称基础架构模型),是在海量数据和计算资源的基础上训练出来的通用、通用性较强的深度学习模型。在自然语言处理领域,最著名的大模型为生成型预训练变换(Generative Pre-trained Transformer,GPT)系列模型,GPT模型采用了预训练加微调的方式,预先通过大规模的语料库训练出来的模型,可以在多种自然语言处理(Natural Language Processing,NLP)任务中表现出色,如文本分类、机器翻译、摘要生成等。
提示词指令用于指示基于目标文本抽取问答形式的提示结果的目标数量。可以根据提示词指令与大模型进行会话,会话的目的在于将目标文本抽取成知识条目其中,提示词指令指的是便于大模型理解的指令信息,其中,提示(prompt)词指令简单来说就是你给人工智能(Artificial Intelligence,AI)模型的指令,可以是一段文字,比如你和生成式预训练转化器GPT对话的文字,也可以是按照一定的格式的参数进行描述,比如AI绘图的软件,使用参数输入提示的情况比较多;例如:“请基于目标文本,整理出10个问答形式的提示结果,问答形式的提示结果需全部来自于目标文本,不得加入互联网的自行判断”。
在基于目标文本生成知识条目时,可以利用大模型根据提示词指令,对目标文本进行分析处理,得到目标知识条目,处理过程示例如下:
首先,在步骤101中,利用大模型,根据提示词指令和目标文本,得到至少一个问答形式的提示结果。其中,目标文本为根据知识文档得到的,知识文档指的是组织内部的有关产品、企业运营等的相关介绍文件,用于组织内部如企业内部的知识条目库的搭建。知识文档往往包含积累在个人、公司的云盘、内部管理系统或者其他知识管理软件上。这些知识文档大多数以PDF、word、excel或者ppt的形式存在,也称知识文档。例如,知识文档包括:产品说明书、物料清单(Bill of Material,BOM)规格表、售后解决方案、企业宣传册等等,所述知识文档例如为通过知识文档管理模块获取的。可以理解是,具体如何抽取问答形式的提示结果的过程取决于大模型的实现,本实施例对此不做限制。
步骤102、根据各个问答形式的提示结果和预设的知识条目分类库,生成知识文档对应的目标知识条目。
具体地,其中,预设的知识条目分类库为基于至少一个第一知识条目对应的业务场景得到的,也即是说预设的知识条目分类库指的是通过预先设定的知识条目的分类信息并存储得到,例如根据业务场景对知识条目进行划分,得到知识条目的分类信息,知识条目的分类信息例如一级分类包括售前咨询类、售后解决类,进一步地,售前咨询类对应的二级分类例如包括:产品咨询类、企业运营情况咨询;售后解决类例如包括:产品维护类、惬意运营类等等,可以理解的是,知识条目的分类信息可以根据实际情况进行自定义,本实施例对知识条目分类库中的知识条目如何分类不做限定。预设的关键词列表可以理解为是与知识条目分类相关的关键词列表,例如预设的关键词列表中的元素均为与所述知识条目分类相同或相似的分类关键词;进一步地,预设的关键词列表为利用大模型基于预设的知识条目分类库得到的。
在得到问答形式的提示结果后,可以进一步根据问答形式的提示结果以及预设的知识条目分类库,对所述问答形式的提示结果中包含的知识条目进行分类,得到目标知识条目以及目标知识条目对应的分类。基于本实施例的方法,可以快速、高效的将积累的知识文档转化为结构化的目标知识条目,并进行归类和梳理。
本实施例提供的方法中,首先,利用大模型,根据提示词指令和目标文本,得到至少一个问答形式的提示结果,其中,提示词指令用于指示基于目标文本抽取问答形式的提示结果的目标数量,目标文本为根据知识文档得到的;然后,根据各个问答形式的提示结果和预设的知识条目分类库,生成知识文档对应的目标知识条目。
本发明中创造性地利用提示词指令与大模型进行交互,提示词指令用于指示基于目标文本抽取问答形式的提示结果的目标数量,进而大模型根据提示词指令对目标文本进行分析处理,得到至少一个问答形式的提示结果,使用提示词指令与大模型进行交互可以快速得到问答形式的提示结果,进一步基于预设的知识条目分类库对提示结果进行分类,生成知识文档对应的目标知识条目,生成知识条目的速度较快,提高了知识条目的生成效率。
可选地,利用大模型,根据提示词指令和目标文本,得到至少一个问答形式的提示结果,包括:
根据提示词指令,确定需基于目标文本抽取的问答形式的提示结果的目标数量;
根据目标数量,从目标文本中抽取目标数量个问答形式的提示结果;
将目标数量个问答形式的提示结果,确定为至少一个问答形式的提示结果。
具体地,在一些实施例中,步骤101可以通过如下方式实现:
首先,根据提示词指令,确定需基于目标文本抽取的问答形式的提示结果的目标数量。例如,提示词指令1为“请基于目标文本整理出3个问答形式的提示结果,问答形式的提示结果需全部来自于目标文本,不得加入互联网的自行判断。”,则提示词指令1对应的需基于目标文本抽取的问答形式的提示结果的目标数量为“3”,也即需要基于目标文本抽取3个问答形式的提示结果;又例如,提示词指令2为“请基于目标文本整理出5个问答形式的提示结果,问答形式的提示结果需全部来自于目标文本”,则提示词指令2对应的需基于目标文本抽取的问答形式的提示结果的目标数量为“5”,也即需要基于目标文本抽取5个问答形式的提示结果;又例如,提示词指令3为“请基于目标文本整理出10个问答形式的提示结果,问答形式的提示结果需全部来自于目标文本”,则提示词指令3对应的需基于目标文本抽取的问答形式的提示结果的目标数量为“10”,也即需要基于目标文本抽取10个问答形式的提示结果。
进一步地,根据目标数量,从目标文本中抽取目标数量个问答形式的提示结果。例如在目标文本中抽取出目标数量个提问对象以及目标数量个提问对象各自对应的回答数据,进而,将目标数量个提问对象以及目标数量个提问对象各自对应的回答数据确定为所述目标数量个问答形式的提示结果。
例如,在目标文本中抽取出目标数量个提问对象以及目标数量个提问对象各自对应的回答数据的过程示例如下:
目标文本为:“AA mate60pro手机售价6999元;和AA mate50pro相比,支持5G模块和卫星通话,性能非常出色;目前在AA品牌商城和线下门店均有售,详情咨询010888888。”;提示词指令为:“请基于目标文本整理出3个问答形式的提示结果,问答形式的提示结果需全部来自于目标文本,不得加入互联网的自行判断”。
则大模型对应地整理出的3个问答形式的提示结果可以是:
(1)问答形式的提示结果1:提问对象1:AA mate60pro手机现在卖多少钱?回答数据1:6999;
(2)问答形式的提示结果2:提问对象2:我很感兴趣,请问怎么联系你们?回答数据2:请拨打010888888;
(3)问答形式的提示结果3:提问对象3:这款手机和老款相比,有什么升级吗?回答数据3:和旧款相比,支持5G模块和卫星通话。
进一步地,可以将目标数量个问答形式的提示结果,确定为至少一个问答形式的提示结果,从而实现目标知识条目的生成。
本实施例提供的方法中,首先,根据提示词指令,确定需基于目标文本抽取的问答形式的提示结果的目标数量,然后,根据目标数量,从目标文本中抽取目标数量个问答形式的提示结果,进一步地,将目标数量个问答形式的提示结果,确定为至少一个问答形式的提示结果。本发明中提示词指令用于指示基于目标文本抽取问答形式的提示结果的目标数量,基于提示词指令与大模型进行交互,可以快速得到基于目标文本抽取的问答形式的提示结果,生成知识条目的效率较高,并且,知识条目的内容均来自目标文本,生成的知识条目较为准确。
可选地,根据各个问答形式的提示结果和预设的知识条目分类库,生成知识文档对应的目标知识条目,包括:
针对任一问答形式的提示结果,提取问答形式的提示结果中的提问对象;
根据问答形式的提示结果中的提问对象,在预设的知识条目分类库的目录中进行匹配,得到提问对象对应的目标知识条目分类;
根据各个提问对象对应的目标知识条目分类,以及各个问答形式的提示结果中的回答数据,生成目标知识条目。
具体地,在一些实施例中,步骤102可以通过如下方法实现:
首先,在得到各个问答形式的提示结果后,针对任一问答形式的提示结果,首先提取该问答形式的提示结果中的提问对象。
例如,问答形式的提示结果1为“提问对象1:AA产品的价格是多少?回答数据1:AA产品的价格:单价6999元/个”,提取该问答形式的提示结果中的提问对象,也即“AA产品的价格是多少?”;
又例如,问答形式的提示结果2为“提问对象2:AA手机的性能升级情况怎么样?回答数据:AA mate60pro手机和AA mate50pro相比,支持5G模块和卫星通话”提取该问答形式的提示结果中的提问对象,也即“AA手机的性能升级情况怎么样?”;
又例如,问答形式的提示结果3为“提问对象3:联系方式是什么?回答数据:010888888”,提取该问答形式的提示结果中的提问对象,也即“联系方式是什么?”。
进一步地,根据问答形式的提示结果中的提问对象,在预设的知识条目分类库的目录中进行匹配,得到提问对象对应的目标知识条目分类,例如将“提问对象1:AA产品的价格是多少?”“提问对象2:AA手机的性能升级情况怎么样?”“提问对象3:联系方式是什么”,在所述预设的知识条目分类库中进行匹配,例如,通过分别比较各个提问对象中的关键词和预设的知识条目分类库的目录的相似度得到问答形式的提示结果匹配的目标知识条目分类。
进一步地,根据各个提问对象对应的目标知识条目分类,以及各个问答形式的提示结果中的回答数据,生成目标知识条目。例如,将目标知识条目以及目标知识条目分类确定为结构化的目标知识条目。
本实施例提供的方法中,针对任一问答形式的提示结果,提取问答形式的提示结果中的提问对象;然后,根据问答形式的提示结果中的提问对象,在预设的知识条目分类库的目录中进行匹配,得到提问对象对应的目标知识条目分类;进而,根据各个提问对象对应的目标知识条目分类,以及各个问答形式的提示结果中的回答数据,生成目标知识条目。基于本实施例提供的方法,通过预设的知识条目分类库对目标知识条目进行分类,便于后续快速找到对应的知识条目,基于目标知识条目进行业务咨询的用户体验较好。
可选地,利用大模型,根据提示词指令和目标文本,得到至少一个问答形式的提示结果之前,还包括:
对知识文档进行预处理,得到知识文档对应的目标文本。
具体地,在一些实施例中,在利用大模型对目标文本进行分析处理前,可以对获取到的知识文档进行预处理,如针对知识文档中不同的数据类型采用不同的文本提取方式,最终得到所述知识文档中对应的目标文本。
可以理解的是,知识文档指的是组织内部的有关产品、企业运营等的相关介绍文件,用于组织内部如企业内部的知识条目库的搭建。知识文档往往包含积累在个人、公司的云盘、内部管理系统或者其他知识管理软件上。这些知识文档大多数以PDF、word、excel或者ppt的形式存在,也称知识文档。例如,知识文档包括:产品说明书、物料清单(Bill ofMaterial,BOM)规格表、售后解决方案、企业宣传册等等,所述知识文档例如为通过知识文档管理模块获取的。
在本步骤中,可以利用知识文档管理模块对现有的知识文档进行预处理,例如目标文本的抽取工作,将知识文档中的图片类型的数据、音频类型的数据以及文本类型的数据抽取为目标文本并加以存储,可以得到知识文档对应的目标文本。
本实施例提供的方法中,对知识文档进行预处理得到目标文本,便于后续大模型对目标文本进行分析处理,生成知识文档对应的知识条目的生成效率较高。
可选地,知识文档包括以下至少一项:产品说明书、BOM规格表、售后解决方案和企业宣传册;任一知识文档中包含的数据类型包括以下至少一项:文本类型、图片类型和语音类型;对知识文档进行预处理,得到知识文档对应的目标文本,包括:
确定知识文档中包含的数据类型;
在知识文档中包含语音类型的数据的情况下,将知识文档中包含的语音类型的数据转化为第二文本数据;
在知识文档中包含图片类型的数据的情况下,将知识文档中包含的图片类型的数据转换成第三文本数据;
对知识文档中包含的文本类型的第一文本数据、第二文本数据和第三文本数据进行汇总并去重,得到目标文本。
具体地,可以理解的是,知识文档中包含的数据类型也是多样的,例如包含文本数据类型、图片数据类型、语音数据类型等等,在一些实施例中,对知识文档进行预处理,得到知识文档对应的目标文本的过程可以通过如下步骤实现:
首先,确定获取的知识文档中包含的数据类型,其中,数据类型可以包括以下至少一项:文本类型、图片类型和语音类型,其中,文本类型的数据可以直接提取为目标文本中包含的第一文本数据。
进一步地,在知识文档中包含语音类型的数据的情况下,可以将知识文档中包含的语音类型的数据转化为第二文本数据,例如利用自动语音识别(Automatic SpeechRecognition,ASR)技术将知识文档中包含的语音类型的数据转化为第二文本数据。
进一步地,在知识文档中包含图片类型的数据的情况下,可以将目标会话数据中包含的图片类型的数据转换成第三文本数据;例如利用光学字符识别(Optical CharacterRecognition,OCR)技术将知识文档中包含的图片类型的数据转化为第三文本数据。
进而,对上述第一文本数据、第二文本数据和第三文本数据进行汇总并去重,可以得到目标文本。
本实施例提供的方法中,首先确定知识文档中包含的数据类型,然后针对不同的数据类型采用不同的提取文本的方式,最终得到目标文本,便于后续大模型对目标文本进行分析处理,生成知识文档对应的知识条目的生成效率较高。
可选地,根据各个问答形式的提示结果和预设的知识条目分类库,生成知识文档对应的目标知识条目之后,还包括:
根据预设的审核规则对目标知识条目进行审核,得到审核后的目标知识条目。
具体地,可以理解的是,大模型基于提示结果生成的结构化的目标知识条目,也即目标知识条目以及目标知识条目各自对应的知识条目分类,有一定的概率不准确,然而,企业通常对知识条目的准确性、完整性要求极高。
因而,在一些实施例中,可以基于实际需要,在生成知识文档对应的结构化的目标知识条目之后,根据预设的审核规则对目标知识条目进行审核,得到审核后的目标知识条目,例如,利用知识条目管理模块对结构化的目标知识条目进行审核和确认,审核确认例如知识条目的内容是否正确、内容是否有缺失、知识条目的分类是否准确等等。进而,将审核后的目标知识条目才可以对外发布,或者应用在客服系统中。
本实施例提供的方法中,可以根据预设的审核规则对大模型生成的结构化的目标知识条目进行审核,得到审核后的目标知识条目,提高了生成的知识条目的准确性和完整性。
可选地,利用大模型,根据提示词指令和目标文本,得到至少一个问答形式的提示结果之前,还包括:
对用户输入的提示词进行编译优化,得到提示词指令。
具体地,在一些实施例中,利用提示词指令与大模型进行交互之前还包括:对用户输入的提示词进行编译优化,使得编译优化后的提示词指令更适应与大模型进行对话的语言,从而根据提示词指令得到提示结果的准确度较高。
可以理解的是,用户输入的提示词,也即原始提示词,主要是基于人的思维习惯进行创建,并不一定是最适合与大模型进行交互的提示词指令。例如,利用提示词管理模块对用户输入的提示词进行编译优化,包括但不限于以下几个方面:
(1)补充上下文提示词。因用户可能会发起多轮对话,可以将本轮之前的会话用到的提示词作为上下文提示词,与本次原始提示词一并提交给大模型,这将有利于大模型更好的理解客户需求;
(2)请求结构化输出。用户输入的提示词需要添加附加信息,使得大模型输出的提示结果符合结构化数据的特征。比如:请问“AA产品的价格、功能、面市时间分别是什么”;
(3)规范大模型的提示结果的输出格式。因大模型的每次输出偏差较大。可以对输出的提示结果的形式,如字符长度、语言类型或者语气等进行规范。例如,可以要求输出内容不超过300字,只能为中文。这样做的好处是,可以要求大模型严格提取目标文本中的信息,而不是自己自作主张的加入一些总结类的信息。
经过对用户输入的提示词,即对原始提示词进行上述优化操作,可以得到优化后的提示词,优化后的提示词为便于与大模型会话的提示词。
可以理解的是,上述功能实现,可以预置相应的提示,基于预制相应的提示创建提示词指令的效率更高。例如,利用提示管理模块,可以新增、删除和修改预置的提示,企业可根据自己的实际业务需求,去定制提示,以实现更好的输出效果。
本实施例提供的方法中,对用户输入的提示词进行编译优化转化为优化后的提示词,其中,优化后的提示词为便于与大模型进行会话的提示词指令,然后,基于提示词指令创造性的利用大模型实现知识条目的生成,生成效率更高,得到的提示结果准确度也更高。
图2是本发明提供的知识条目的生成方法的流程示意图之二,如图2所示,该方法包括:
步骤201、知识文档上传;
步骤202、对知识文档进行预处理,得到目标文本;
步骤203、人工创建提示词;
步骤204、对原始提示词进行编译优化,得到提示词指令;
步骤205、利用大模型基于提示词指令分析和处理目标文本,得到目标知识条目以及对应的分类;
步骤206、对目标知识条目以及对应的分类审核确认。
具体地,首先利用知识文档管理模块,上传知识文档,所述知识文档可能是Word、PDF、PPT、Excel格式的文档;进而,利用知识文档管理模块对知识文档进行预处理,得到目标文本;
其次,利用提示管理模块创建原始提示词,进一步对原始提示词进行编译优化,得到提示词指令;
然后,利用大模型管理模块基于提示词指令分析和处理目标文本,得到目标知识条目以及对应的分类;
最后,还可以对大模型管理模块生成的目标知识条目以及对应的分类进行审核确认。
本实施例提供的方法中,基于大模型实现对现有知识文档的自动化处理和分析,生成知识条目的效率更高。
下面对本发明提供的知识条目的生成装置进行描述,下文描述的知识条目的生成装置与上文描述的知识条目的生成方法可相互对应参照。
图3是本发明提供的知识条目的生成装置的结构示意图,如图3所示,该装置包括:
生成模块310,用于利用大模型,根据提示词指令和目标文本,得到至少一个问答形式的提示结果;所述提示词指令用于指示基于所述目标文本抽取所述问答形式的提示结果的目标数量;所述目标文本为根据知识文档得到的;
分类模块320,用于用于根据各个所述问答形式的提示结果和预设的知识条目分类库,生成所述知识文档对应的目标知识条目;
本实施提供的装置中,首先,生成模块310利用大模型,根据提示词指令和目标文本,得到至少一个问答形式的提示结果,其中,提示词指令用于指示基于目标文本抽取问答形式的提示结果的目标数量,目标文本为根据知识文档得到的;然后,分类模块320根据各个问答形式的提示结果和预设的知识条目分类库,生成知识文档对应的目标知识条目。
本发明中创造性地利用提示词指令与大模型进行交互,提示词指令用于指示基于目标文本抽取问答形式的提示结果的目标数量,进而大模型根据提示词指令对目标文本进行分析处理,得到至少一个问答形式的提示结果,使用提示词指令与大模型进行交互可以快速得到问答形式的提示结果,进一步基于预设的知识条目分类库对提示结果进行分类,生成知识文档对应的目标知识条目,生成知识条目的速度较快,提高了知识条目的生成效率。
可选地,所述生成模块310,具体用于:
根据所述提示词指令,确定需基于所述目标文本抽取的所述问答形式的提示结果的目标数量;
根据所述目标数量,从所述目标文本中抽取出目标数量个问答形式的提示结果;
将所述目标数量个问答形式的提示结果,确定为所述至少一个问答形式的提示结果。
可选地,所述分类模块320,具体用于:
针对任一所述问答形式的提示结果,抽取所述问答形式的提示结果中的提问对象;
根据所述问答形式的提示结果中的提问对象,在所述预设的知识条目分类库的目录中进行匹配,得到所述提问对象对应的目标知识条目分类;
根据各个所述提问对象对应的目标知识条目分类,以及各个所述问答形式的提示结果中的回答数据,生成所述目标知识条目。
可选地,所述装置还包括:预处理模块;
所述预处理模块,用于:
对知识文档进行预处理,得到所述知识文档对应的目标文本。
可选地,所述知识文档包括以下至少一项:产品说明书、BOM规格表、售后解决方案和企业宣传册;任一所述知识文档中包含的数据类型包括以下至少一项:文本类型、图片类型和语音类型;
所述预处理模块,具体用于:
确定所述知识文档中包含的数据类型;
在所述知识文档中包含语音类型的数据的情况下,将所述知识文档中包含的语音类型的数据转化为第二文本数据;
在所述知识文档中包含图片类型的数据的情况下,将所述知识文档中包含的图片类型的数据转换成第三文本数据;
对所述知识文档中包含的文本类型的第一文本数据、所述第二文本数据和所述第三文本数据进行汇总并去重,得到所述目标文本。
可选地,所述装置还包括:审核模块;
所述审核模块,用于:
根据预设的审核规则对所述目标知识条目进行审核,得到审核后的目标知识条目。
可选地,所述装置还包括:提示词管理模块;
所述提示词管理模块,用于:
对用户输入的提示词进行编译优化,得到所述提示词指令。
图4例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行知识条目的生成方法,该方法包括:
利用大模型,根据提示词指令和目标文本,得到至少一个问答形式的提示结果;所述提示词指令用于指示基于所述目标文本抽取所述问答形式的提示结果的目标数量;所述目标文本为根据知识文档得到的;
根据各个所述问答形式的提示结果和预设的知识条目分类库,生成所述知识文档对应的目标知识条目。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的知识条目的生成方法,该方法包括:
利用大模型,根据提示词指令和目标文本,得到至少一个问答形式的提示结果;所述提示词指令用于指示基于所述目标文本抽取所述问答形式的提示结果的目标数量;所述目标文本为根据知识文档得到的;
根据各个所述问答形式的提示结果和预设的知识条目分类库,生成所述知识文档对应的目标知识条目。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的知识条目的生成方法,该方法包括:
利用大模型,根据提示词指令和目标文本,得到至少一个问答形式的提示结果;所述提示词指令用于指示基于所述目标文本抽取所述问答形式的提示结果的目标数量;所述目标文本为根据知识文档得到的;
根据各个所述问答形式的提示结果和预设的知识条目分类库,生成所述知识文档对应的目标知识条目。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种知识条目的生成方法,其特征在于,包括:
利用大模型,根据提示词指令和目标文本,得到至少一个问答形式的提示结果;所述提示词指令用于指示基于所述目标文本抽取所述问答形式的提示结果的目标数量;所述目标文本为根据知识文档得到的;
根据各个所述问答形式的提示结果和预设的知识条目分类库,生成所述知识文档对应的目标知识条目。
2.根据权利要求1所述的知识条目的生成方法,其特征在于,所述利用大模型,根据提示词指令和目标文本,得到至少一个问答形式的提示结果,包括:
根据所述提示词指令,确定需基于所述目标文本抽取的所述问答形式的提示结果的目标数量;
根据所述目标数量,从所述目标文本中抽取目标数量个问答形式的提示结果;
将所述目标数量个问答形式的提示结果,确定为所述至少一个问答形式的提示结果。
3.根据权利要求1所述的知识条目的生成方法,其特征在于,所述根据各个所述问答形式的提示结果和预设的知识条目分类库,生成所述知识文档对应的目标知识条目,包括:
针对任一所述问答形式的提示结果,提取所述问答形式的提示结果中的提问对象;
根据所述问答形式的提示结果中的提问对象,在所述预设的知识条目分类库的目录中进行匹配,得到所述提问对象对应的目标知识条目分类;
根据各个所述提问对象对应的目标知识条目分类,以及各个所述问答形式的提示结果中的回答数据,生成所述目标知识条目。
4.根据权利要求1-3任一项所述的知识条目的生成方法,其特征在于,所述利用大模型,根据提示词指令和目标文本,得到至少一个问答形式的提示结果之前,还包括:
对知识文档进行预处理,得到所述知识文档对应的目标文本。
5.根据权利要求4所述的知识条目的生成方法,其特征在于,所述知识文档包括以下至少一项:产品说明书、BOM规格表、售后解决方案和企业宣传册;任一所述知识文档中包含的数据类型包括以下至少一项:文本类型、图片类型和语音类型;所述对知识文档进行预处理,得到所述知识文档对应的目标文本,包括:
确定所述知识文档中包含的数据类型;
在所述知识文档中包含语音类型的数据的情况下,将所述知识文档中包含的语音类型的数据转化为第二文本数据;
在所述知识文档中包含图片类型的数据的情况下,将所述知识文档中包含的图片类型的数据转换成第三文本数据;
对所述知识文档中包含的文本类型的第一文本数据、所述第二文本数据和所述第三文本数据进行汇总并去重,得到所述目标文本。
6.根据权利要求1-3任一项所述的知识条目的生成方法,其特征在于,所述根据各个所述问答形式的提示结果和预设的知识条目分类库,生成所述知识文档对应的目标知识条目之后,还包括:
根据预设的审核规则对所述目标知识条目进行审核,得到审核后的目标知识条目。
7.根据权利要求1-3任一项所述的知识条目的生成方法,其特征在于,所述利用大模型,根据提示词指令和目标文本,得到至少一个问答形式的提示结果之前,还包括:
对用户输入的提示词进行编译优化,得到所述提示词指令。
8.一种知识条目的生成装置,其特征在于,包括:
生成模块,用于利用大模型,根据提示词指令和目标文本,得到至少一个问答形式的提示结果;所述提示词指令用于指示基于所述目标文本抽取所述问答形式的提示结果的目标数量;所述目标文本为根据知识文档得到的;
分类模块,用于根据各个所述问答形式的提示结果和预设的知识条目分类库,生成所述知识文档对应的目标知识条目。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述知识条目的生成方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述知识条目的生成方法。
CN202311643544.5A 2023-12-04 2023-12-04 知识条目的生成方法、装置、设备和存储介质 Active CN117349425B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311643544.5A CN117349425B (zh) 2023-12-04 2023-12-04 知识条目的生成方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311643544.5A CN117349425B (zh) 2023-12-04 2023-12-04 知识条目的生成方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN117349425A true CN117349425A (zh) 2024-01-05
CN117349425B CN117349425B (zh) 2024-03-22

Family

ID=89371422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311643544.5A Active CN117349425B (zh) 2023-12-04 2023-12-04 知识条目的生成方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN117349425B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110320456A1 (en) * 2010-06-24 2011-12-29 Infosys Technologies Limited Tips management system and process for managing organization-wide knowledge tips
CN106485328A (zh) * 2016-10-31 2017-03-08 上海智臻智能网络科技股份有限公司 信息处理系统及方法
CN108874949A (zh) * 2018-06-05 2018-11-23 北京玄科技有限公司 基于业务语料的意图分类方法、装置及智能问答方法
CN108920556A (zh) * 2018-06-20 2018-11-30 华东师范大学 基于学科知识图谱的推荐专家方法
CN110580291A (zh) * 2019-07-29 2019-12-17 用友网络科技股份有限公司 基于erp客户服务知识图谱的智能搜索方法及计算机设备
CN111221799A (zh) * 2019-12-16 2020-06-02 广州科腾信息技术有限公司 一种it知识智能运营管理系统
CN112035640A (zh) * 2020-08-31 2020-12-04 重庆长安汽车股份有限公司 一种基于智能问答机器人的精细化问答方法、存储介质和智能设备
US20210133608A1 (en) * 2018-07-04 2021-05-06 Iryou Jyouhou Gijyutu Kenkyusho Corporation Medical document management system
CN113886545A (zh) * 2021-09-29 2022-01-04 平安银行股份有限公司 知识问答方法、装置、计算机可读介质及电子设备
CN115688920A (zh) * 2022-11-22 2023-02-03 百度国际科技(深圳)有限公司 知识抽取方法、模型的训练方法、装置、设备和介质
CN116186232A (zh) * 2023-04-26 2023-05-30 中国电子技术标准化研究院 一种标准知识智能问答实现方法、装置、设备和介质
CN116561277A (zh) * 2023-05-05 2023-08-08 科大讯飞股份有限公司 知识问答方法、装置、设备及存储介质
CN116737908A (zh) * 2023-07-19 2023-09-12 北京百度网讯科技有限公司 知识问答方法、装置、设备和存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110320456A1 (en) * 2010-06-24 2011-12-29 Infosys Technologies Limited Tips management system and process for managing organization-wide knowledge tips
CN106485328A (zh) * 2016-10-31 2017-03-08 上海智臻智能网络科技股份有限公司 信息处理系统及方法
CN108874949A (zh) * 2018-06-05 2018-11-23 北京玄科技有限公司 基于业务语料的意图分类方法、装置及智能问答方法
CN108920556A (zh) * 2018-06-20 2018-11-30 华东师范大学 基于学科知识图谱的推荐专家方法
US20210133608A1 (en) * 2018-07-04 2021-05-06 Iryou Jyouhou Gijyutu Kenkyusho Corporation Medical document management system
CN110580291A (zh) * 2019-07-29 2019-12-17 用友网络科技股份有限公司 基于erp客户服务知识图谱的智能搜索方法及计算机设备
CN111221799A (zh) * 2019-12-16 2020-06-02 广州科腾信息技术有限公司 一种it知识智能运营管理系统
CN112035640A (zh) * 2020-08-31 2020-12-04 重庆长安汽车股份有限公司 一种基于智能问答机器人的精细化问答方法、存储介质和智能设备
CN113886545A (zh) * 2021-09-29 2022-01-04 平安银行股份有限公司 知识问答方法、装置、计算机可读介质及电子设备
CN115688920A (zh) * 2022-11-22 2023-02-03 百度国际科技(深圳)有限公司 知识抽取方法、模型的训练方法、装置、设备和介质
CN116186232A (zh) * 2023-04-26 2023-05-30 中国电子技术标准化研究院 一种标准知识智能问答实现方法、装置、设备和介质
CN116561277A (zh) * 2023-05-05 2023-08-08 科大讯飞股份有限公司 知识问答方法、装置、设备及存储介质
CN116737908A (zh) * 2023-07-19 2023-09-12 北京百度网讯科技有限公司 知识问答方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN117349425B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
CN111368043A (zh) 基于人工智能的事件问答方法、装置、设备及存储介质
CN107153965A (zh) 一种多终端的智能客服解决方法
CN111428010B (zh) 人机智能问答的方法和装置
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN107807960B (zh) 智能客服方法、电子装置及计算机可读存储介质
CN110019742B (zh) 用于处理信息的方法和装置
CN109922213A (zh) 语音咨询时的数据处理方法、装置、存储介质及终端设备
CN116644145A (zh) 会话数据处理方法、装置、设备和存储介质
CN114218375B (zh) 基于图谱的对话引导方法、装置、设备及介质
CN111858854A (zh) 一种基于历史对话信息的问答匹配方法及相关装置
CN112016327A (zh) 基于多轮对话的智能结构化文本抽取方法、装置和电子设备
CN112288584A (zh) 保险报案处理方法、装置、计算机可读介质及电子设备
CN115438142B (zh) 一种对话式交互数据分析报告系统
CN114202203A (zh) 投诉工单处理方法、装置、存储介质及电子设备
CN112860873B (zh) 智能应答方法、装置及存储介质
CN117349425B (zh) 知识条目的生成方法、装置、设备和存储介质
CN114491010A (zh) 信息抽取模型的训练方法及装置
CN116226355A (zh) 一种智能客服方法、系统、电子设备及可读存储介质
CN116561284A (zh) 智能应答方法、装置、电子设备及介质
CN116501844A (zh) 语音关键词检索方法及系统
CN115964384A (zh) 一种数据查询方法、装置、电子设备及计算机可读介质
CN114254088A (zh) 自动应答模型的构建方法和自动应答方法
CN104915189A (zh) 客服设置装置及方法,以及对应之客服系统及方法
CN112307157B (zh) 申诉意见挖掘方法和装置
CN112395402A (zh) 基于深度模型的推荐话术生成方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant