CN117421415A - 数据处理方法、装置、电子设备及存储介质 - Google Patents
数据处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117421415A CN117421415A CN202311741610.2A CN202311741610A CN117421415A CN 117421415 A CN117421415 A CN 117421415A CN 202311741610 A CN202311741610 A CN 202311741610A CN 117421415 A CN117421415 A CN 117421415A
- Authority
- CN
- China
- Prior art keywords
- data
- question data
- question
- scene
- strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 14
- 230000001502 supplementing effect Effects 0.000 claims abstract description 52
- 239000013589 supplement Substances 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims description 32
- 238000000605 extraction Methods 0.000 claims description 25
- 238000004891 communication Methods 0.000 claims description 18
- 230000006399 behavior Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 230000000153 supplemental effect Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 abstract description 6
- 238000009825 accumulation Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种数据处理方法、装置、电子设备及存储介质。包括:获取问话数据及所述问话数据对应的场景领域;基于所述场景领域确定所述问话数据对应的数据补充策略,以及,基于所述场景领域确定所述问话数据对应的领域知识图谱;基于所述数据补充策略对所述问话数据进行补充处理,得到对应的补充结果;基于所述领域知识图谱对所述问话数据进行推理,得到对应的推理结果;将所述补充结果和所述推理结果输入至大语言模型,以由所述大语言模型输出所述问话数据对应的回答数据。从而提高大语言模型在该场景领域上进行数据处理的时效性和准确性,改善模型处理效果。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
大语言模型(large language model,LLM),是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径。千亿参数的大语言模型具有较好的自然语言理解能力和基于海量数据的常识知识,基于大语言模型在对话系统领域已经取得了最新的里程碑式的应用。
然而,目前的大语言模型在处理垂直领域的自然语言任务时,由于无法感知领域性知识的内容,使得数据处理的时效性和准确性难以得到保障,模型处理效果不够理想。
发明内容
本申请实施例的目的在于提供一种数据处理方法、装置、电子设备及存储介质,以解决目前的大语言模型在处理垂直领域的自然语言任务时,数据处理的时效性和准确性难以得到保障的问题。具体技术方案如下:
第一方面,本申请提供了一种数据处理方法,包括:
获取问话数据及所述问话数据对应的场景领域;
基于所述场景领域确定所述问话数据对应的数据补充策略,以及,基于所述场景领域确定所述问话数据对应的领域知识图谱;
基于所述数据补充策略对所述问话数据进行补充处理,得到对应的补充结果;
基于所述领域知识图谱对所述问话数据进行推理,得到对应的推理结果;
将所述补充结果和所述推理结果输入至大语言模型,以由所述大语言模型输出所述问话数据对应的回答数据。
在一个可能的实施方式中,所述数据补充策略包括参数提取策略和参数配置策略,所述基于所述数据补充策略对所述问话数据进行补充处理,得到对应的补充结果,包括:
基于所述参数提取策略提取所述问话数据对应的第一补充数据;
基于所述参数配置策略配置所述问话数据对应的第二补充数据;
将所述第一补充数据和所述第二补充数据,作为所述补充结果。
在一个可能的实施方式中,所述第一补充数据包括:所述问话数据的咨询时间、所述问话数据的咨询地点、所述问话数据对应的回答范围及所述问话数据对应的行为分类中的一项或多项。
在一个可能的实施方式中,所述第二补充数据包括:所述大语言模型对应的回答场景、所述大语言模型模拟的人物身份、所述大语言模型对应的输出策略及所述大语言模型返回结果的数量中的一项或多项。
在一个可能的实施方式中,所述基于所述场景领域确定所述问话数据对应的数据补充策略,包括:
获取预设的参数配置策略集合以及预设的参数提取策略;
在所述参数配置策略集合中,确定所述场景领域对应的参数配置策略;
将所述参数提取策略和所述场景领域对应的参数配置策略,确定为所述问话数据对应的数据补充策略。
在一个可能的实施方式中,所述基于所述领域知识图谱对所述问话数据进行推理,得到对应的推理结果,包括:
抽取所述问话数据中的实体和关系,得到对应的实体关系三元组;
基于所述实体关系三元组生成图数据库查询语言;
基于所述图数据库查询语言在所述领域知识图谱中进行查询操作,得到所述问话数据对应的推理结果。
在一个可能的实施方式中,所述基于所述场景领域确定所述问话数据对应的领域知识图谱,包括:
获取所述场景领域对应的领域样本数据;
基于所述领域样本数据构建所述问话数据对应的领域知识图谱。
第二方面,本申请提供了一种数据处理装置,包括:
获取模块,用于获取问话数据及所述问话数据对应的场景领域;
确定模块,用于基于所述场景领域确定所述问话数据对应的数据补充策略,以及,基于所述场景领域确定所述问话数据对应的领域知识图谱;
补充模块,用于基于所述数据补充策略对所述问话数据进行补充处理,得到对应的补充结果;
推理模块,用于基于所述领域知识图谱对所述问话数据进行推理,得到对应的推理结果;
输入模块,用于将所述补充结果和所述推理结果输入至大语言模型,以由所述大语言模型输出所述问话数据对应的回答数据。
在一个可能的实施方式中,所述数据补充策略包括参数提取策略和参数配置策略,所述补充模块,具体用于:
基于所述参数提取策略提取所述问话数据对应的第一补充数据;
基于所述参数配置策略配置所述问话数据对应的第二补充数据;
将所述第一补充数据和所述第二补充数据,作为所述补充结果。
在一个可能的实施方式中,所述第一补充数据包括:所述问话数据的咨询时间、所述问话数据的咨询地点、所述问话数据对应的回答范围及所述问话数据对应的行为分类中的一项或多项。
在一个可能的实施方式中,所述第二补充数据包括:所述大语言模型对应的回答场景、所述大语言模型模拟的人物身份、所述大语言模型对应的输出策略及所述大语言模型返回结果的数量中的一项或多项。
在一个可能的实施方式中,所述确定模块,具体用于:
获取预设的参数配置策略集合以及预设的参数提取策略;
在所述参数配置策略集合中,确定所述场景领域对应的参数配置策略;
将所述参数提取策略和所述场景领域对应的参数配置策略,确定为所述问话数据对应的数据补充策略。
在一个可能的实施方式中,所述推理模块,具体用于:
抽取所述问话数据中的实体和关系,得到对应的实体关系三元组;
基于所述实体关系三元组生成图数据库查询语言;
基于所述图数据库查询语言在所述领域知识图谱中进行查询操作,得到所述问话数据对应的推理结果。
在一个可能的实施方式中,所述确定模块,具体用于:
获取所述场景领域对应的领域样本数据;
基于所述领域样本数据构建所述问话数据对应的领域知识图谱。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一所述的方法步骤。
第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的数据处理方法。
本申请实施例有益效果:
本申请实施例提供了一种数据处理方法、装置、电子设备及存储介质,本申请实施例中,首先,获取问话数据及问话数据对应的场景领域,然后,基于场景领域确定问话数据对应的数据补充策略,以及,基于场景领域确定问话数据对应的领域知识图谱,进而,基于数据补充策略对问话数据进行补充处理,得到对应的补充结果,以及,基于领域知识图谱对问话数据进行推理,得到对应的推理结果,最后,将补充结果和推理结果输入至大语言模型,以由大语言模型输出问话数据对应的回答数据。如此,可以通过领域知识图谱对问话数据的推理结果,以及,场景领域对应数据补充策略对问话数据的补充结果,对大语言模型进行引导,从而提高大语言模型在该场景领域上进行数据处理的时效性和准确性,改善模型处理效果。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1为本申请实施例提供的一种数据处理方法的流程图;
图2为本申请实施例提供的另一种数据处理方法的流程图;
图3为本申请实施例提供的一种数据处理装置的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本发明。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。
图1为本申请实施例提供的一种数据处理方法的流程示意图。本方法可以应用于智能手机、笔记本电脑、台式电脑、便携式计算机、服务器等一个或多个电子设备上。此外,本方法的执行主体可以是硬件,也可以是软件。当上述执行主体为硬件时,该执行主体可以为上述电子设备中的一个或多个。例如,单个电子设备可以执行本方法,或者,多个电子设备可以彼此配合来执行本方法。当上述执行主体为软件时,本方法可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块。在此不作具体限定。
如图1所示,该方法具体包括:
S101,获取问话数据及所述问话数据对应的场景领域。
本申请实施例提供的一种数据处理方法,用于根据用户输入的问话数据,智能生成相应的回答数据,以实现智能问答。
问话数据,为包含问话内容的、文本形式的数据。
应用中,用户可以通过文本输入、图像输入或语音输入等方式输入问话数据。对于文本输入的方式,本申请实施例中,通过对文本内容进行处理得到问话数据。对于图像输入的方式,本申请实施例中,首先,通过图像识别的方式识别图像中的文本内容,进而,通过对文本内容进行处理得到问话数据。对于语音输入的方式,本申请实施例中,首先,通过语音识别的方式识别语音中的文本内容,进而,通过对文本内容进行处理得到问话数据。
场景领域,为问话数据涉及到的应用场景的领域,例如,金融领域、公安领域、政务领域、医疗领域、军工领域等。
在一实施例中,可以通过提取问话数据中的领域关键字确定对应的场景领域。由此,实现场景领域的智能确定。
在另一实施例中,用户输入问话数据前,可以先输入领域选择信息,如此,可以基于用户输入的领域选择信息确定对应的场景领域。
S102,基于所述场景领域确定所述问话数据对应的数据补充策略,以及,基于所述场景领域确定所述问话数据对应的领域知识图谱。
数据补充策略,用于对问话数据进行相关内容的补充,以提高问话数据的全面性。
本申请实施例中,基于所述场景领域确定所述问话数据对应的数据补充策略的具体实现可包括:获取预设的参数配置策略集合以及预设的参数提取策略,在所述参数配置策略集合中,确定所述场景领域对应的参数配置策略,将所述参数提取策略和所述场景领域对应的参数配置策略,确定为所述问话数据对应的数据补充策略。
其中,参数配置策略集合中包含多个参数配置策略,不同的场景领域与不同的参数配置策略对应,基于此,可以根据场景领域在参数配置策略集合中确定对应的参数配置策略。参数提取策略,为用户预先根据实际需求设置的、用于从问话数据及问话数据相关内容中提取对应的补充数据。例如,提取问话数据的产生时间和产生地点等。
领域知识图谱,指针对场景领域构建的知识图谱。
本申请实施例中,基于所述场景领域确定所述问话数据对应的领域知识图谱的具体实现可包括:获取所述场景领域对应的领域样本数据,基于所述领域样本数据构建所述问话数据对应的领域知识图谱。
其中,领域样本数据指在对应场景领域下获取的数据。例如,场景领域为政务,则领域样本数据为政务数据;又如,场景领域为金融,则领域样本数据为金融数据。
应用中,可以预先基于不同场景领域对应的领域样本数据,构建各个场景领域对应的领域知识图谱。如此,在通过步骤S101确定场景领域后,可以直接根据场景领域获取对应的领域知识图谱,从而提高数据处理的效率。
此外,为了提高知识图谱的准确性和全面性,在另一实施例中,还可以对知识图谱进行补全及更新,具体包括:获取场景领域对应的新增样本数据,基于新增样本数据,进行实体、关系、属性数据的抽取和对齐,进而,对知识图谱进行补全和更新操作,以达到保持知识图谱数据的准确性和全面性的目标。
S103,基于所述数据补充策略对所述问话数据进行补充处理,得到对应的补充结果。
补充结果,指对问话数据进行补充处理后的补全数据。
本申请实施例中,在确定数据补充策略后,可以基于prompt技术,根据数据补充策略对问话数据进行相关内容的补充,得到对应的补充结果,从而提高问话数据的全面性。
至于具体如何补充,将通过下文实施例进行详细的解释说明,这里先不详述。
S104,基于所述领域知识图谱对所述问话数据进行推理,得到对应的推理结果。
本申请实施例中,S104的具体实现可包括以下步骤:
步骤A1,抽取所述问话数据中的实体和关系,得到对应的实体关系三元组。
具体的,对于实体的抽取,可采用seq2seq、CRF(sequence labeling algorithm,序列化标注算法)等方式。对于关系的抽取,可采用模板匹配、远程监督等方式。进而,根据抽取的实体和关系构建实体关系三元组。应用中,在抽取实体和关系后,还可以对实体和关系进行对齐处理,根据对齐处理后的实体和关系构建实体关系三元组。如此,可以提高实体关系三元组的连贯性和完整性,从而提高后续根据该实体关系三元组推理的准确性。
步骤A2,基于所述实体关系三元组生成图数据库查询语言。
该实施例中,可以基于实体关系三元组生成图数据库查询语言,以用于后续在领域知识图谱中的查询和推理。应用中,图数据库查询语言可以是基于Neo4j技术生成的节点查询、子图查询的查询语句等。
步骤A3,基于所述图数据库查询语言在所述领域知识图谱中进行查询操作,得到所述问话数据对应的推理结果。
该实施例中,通过将图数据库查询语言输入至领域知识图谱查询,得到对应的推理结果。应用中,知识图谱的推理方法主要包括基于规则的推理、基于分布式表示的推理、基于神经网络的推理等。一般是通过计算或预测知识图谱中的关系边,对实体之间的关系进行推理和预测。知识图谱的知识基于三元组表示,推理通常发生在补全实体与实体之间的关系,或实体的属性值,或实体的层次关系等,查询和推理结果主要以三元组形式表示。
S105,将所述补充结果和所述推理结果输入至大语言模型,以由所述大语言模型输出所述问话数据对应的回答数据。
本申请实施例中,通过将补充结果和推理结果输入至大语言模型,可以使大语言模型基于补全的问话数据(即,补充结果),以及,由领域知识图谱根据问话数据推理的领域知识(即,推理结果),对问话数据进行分析,从而输出更准确的回答数据。
在本申请又一实施例中,还可以根据问话数据对应的场景领域,设置大语言模型的处理场景,在设置处理场景后,大模型可以查找自身针对该处理场景处理过的场景数据,并根据这些场景数据对问话数据进行分析,从而避免分析过程中其他场景数据的干扰,进一步提高回答数据的准确性。
此外,在本申请又一实施例中,对于多轮问答的情况,大语言模型在对问话数据进行分析过程中,可以参考该问话数据的历史对话内容对问话数据进行分析,从而进一步提高回答数据的准确性。
在此基础上,由于当前大语言模型对输入长度有所限制,过长的对话上下文会出现因超出输入长度限制而发生截断的问题。针对该问题,为此,在本申请又一实施例中,可以在历史对话中确定忽略内容,对该忽略内容进行忽略,仅参考其他未忽略的内容对问话数据进行分析,从而缩短上下文长度,避免出现截断问题。
应用中,可以预先设置作为参考内容的历史对话的数量阈值,若历史对话的数量超过该数量阈值,则进行确定忽略内容的步骤,使大语言模型参考的历史对话的数量保持在预设的数量阈值,从而避免参考数据量过多,保证模型的处理速度。
作为一种实现方式,可以将输入时间最早的、预设数量的历史对话的内容作为忽略内容。其中,预设数量=历史对话的数量-数量阈值。由于输入时间越早,与当前问话数据的关联性一般越小,因此,通过该方案,可以去除对话上下文中相对不重要的内容,拨冗去繁,仅保留重要对话内容,让大模型聚焦在对话的主线和核心问题上,减少忽略内容对模型处理准确度的影响。
作为另一种实现方式,可以随机将预设数量的历史对话的内容作为忽略内容。其中,预设数量=历史对话的数量-数量阈值。如此,可以随机忽略一些数据,从而减少参考数据量,提高处理速度。
此外,在本申请又一实施例中,在大语言模型输出问话数据对应的回答数据后,可以通过用户输入问话数据的对话界面展示回答数据,以方便用户查看,并且,在展示回答数据的同时,还可以展示该问答数据对应的可视化知识图谱,其中,该可视化知识图谱为领域知识图谱在对问话数据进行查询和推理过程中应用到的图谱知识所构成的可视化内容。如此,可以方便用户了解回答数据的出处。
本申请实施例中,首先,获取问话数据及问话数据对应的场景领域,然后,基于场景领域确定问话数据对应的数据补充策略,以及,基于场景领域确定问话数据对应的领域知识图谱,进而,基于数据补充策略对问话数据进行补充处理,得到对应的补充结果,以及,基于领域知识图谱对问话数据进行推理,得到对应的推理结果,最后,将补充结果和推理结果输入至大语言模型,以由大语言模型输出问话数据对应的回答数据。如此,可以通过领域知识图谱对问话数据的推理结果,以及,场景领域对应数据补充策略对问话数据的补充结果,对大语言模型进行引导,从而提高大语言模型在该场景领域上进行数据处理的时效性和准确性,改善模型处理效果。
参见图2,为本申请实施例提供的另一种数据处理方法的实施例流程图。该图2所示流程在上述图1所示流程的基础上,描述如何基于所述数据补充策略对所述问话数据进行补充处理,得到对应的补充结果。如图2所示,该流程可包括以下步骤:
S201,基于所述参数提取策略提取所述问话数据对应的第一补充数据;
S202,基于所述参数配置策略配置所述问话数据对应的第二补充数据;
S203,将所述第一补充数据和所述第二补充数据,作为所述补充结果。
数据补充策略,包括参数提取策略和参数配置策略,其中,参数提取策略为对问话数据相关内容进行提取的策略,例如,提取问话数据的产生时间和产生地点等。参数配置策略,为针对问话数据进行补充配置内容的策略,例如,补充回复问话数据的人物身份、输出策略、返回结果的数量等。
第一补充数据包括:所述问话数据的咨询时间、所述问话数据的咨询地点、所述问话数据对应的回答范围及所述问话数据对应的行为分类中的一项或多项。
应用中,咨询时间可以是问话数据的产生时间,例如,用户在2023年11月2日下午两点输入问话数据,则2023年11月2日下午两点为问话数据的产生时间。也可以是用户输入的时间,例如,对于一些政策问题,用户可能会咨询历年的政策,此时,用户输入的时间即为问话数据的咨询时间。
相应的,咨询地点可以是问话数据的产生地点,例如,用户在北京通过相应设备输入问话数据,则北京为产生地点。也可以是用户输入的地点,例如,对于一些政策问题,用户可能会咨询任意地区的政策,此时,用户输入的地点即为问话数据的咨询地点。
行为分类,指问话数据中问询内容对应的行为,例如,查询、缴纳、补缴、说明。应用中,可以通过用户输入的问话数据进行识别得到行为分类。例如,问话数据为如何缴纳XX费用,则对应的行为分类为缴纳,又如,问话数据为当前地区A的公积金政策是什么样的,则对应的行为分类为查询。
回答范围,指用于生成回答数据的参考内容的范围。应用中,可以通过对问话数据进行识别得到回答范围。例如,问话数据为“如何提取公积金”,则回答范围是“公积金提取”相关内容,又如,问话数据为“购房者如何提取公积金”,则回答范围是“购房者提取公积金”相关内容。
第二补充数据包括:所述大语言模型对应的回答场景、所述大语言模型模拟的人物身份、所述大语言模型对应的输出策略及所述大语言模型返回结果的数量中的一项或多项。
其中,回答场景是根据场景领域确定的,与场景领域一致,例如,场景领域为政务,则回答场景也为政务;人物身份,是大语言模型模拟的角色,例如,在政务场景下,大语言模型模拟的角色一般是政务工作人员,在其他场景下大语言模型模拟的角色还可以是律师、解答元等;输出策略,指输出回答数据的策略,包括输出格式、要求、逻辑具体完备等,例如,给出结果解释,推理过程及结果出处来源,又如,结果按照发布时间倒排逐条罗列,并给出政策来源;返回结果的数量,指通过模型得到多个结果后,返回给用户的结果的数量,例如,模型输出6个结果,可以仅选择2个结果作为回答数据反馈给用户。
基于此,对于问话数据“北京购房者的公积金如何进行提取”,最终生成的补充结果可以是:请以北京政务工作人员的身份,对引号内的问题进行回答,返回2条结果并给出政策来源及过程,“北京购房者的公积金如何进行提取”。
对于问话数据“浙江省大学生创业政策”,最终生成的补充结果可以是:作为一名浙江就业创业服务平台的工作人员,请罗列出浙江省针对大学生创业的最新3条的扶持政策及条件。
通过图2所示流程,可以基于参数提取策略和参数配置策略对问话数据进行补充,得到信息更加全面的补充结果,如此,可以改善后续大语言模型对问话数据的分析效果,提高输出结果的准确性。
基于相同的技术构思,本申请实施例还提供了一种数据处理装置,如图3所示,该装置包括:
获取模块301,用于获取问话数据及所述问话数据对应的场景领域;
确定模块302,用于基于所述场景领域确定所述问话数据对应的数据补充策略,以及,基于所述场景领域确定所述问话数据对应的领域知识图谱;
补充模块303,用于基于所述数据补充策略对所述问话数据进行补充处理,得到对应的补充结果;
推理模块304,用于基于所述领域知识图谱对所述问话数据进行推理,得到对应的推理结果;
输入模块305,用于将所述补充结果和所述推理结果输入至大语言模型,以由所述大语言模型输出所述问话数据对应的回答数据。
在一个可能的实施方式中,所述数据补充策略包括参数提取策略和参数配置策略,所述补充模块,具体用于:
基于所述参数提取策略提取所述问话数据对应的第一补充数据;
基于所述参数配置策略配置所述问话数据对应的第二补充数据;
将所述第一补充数据和所述第二补充数据,作为所述补充结果。
在一个可能的实施方式中,所述第一补充数据包括:所述问话数据的咨询时间、所述问话数据的咨询地点、所述问话数据对应的回答范围及所述问话数据对应的行为分类中的一项或多项。
在一个可能的实施方式中,所述第二补充数据包括:所述大语言模型对应的回答场景、所述大语言模型模拟的人物身份、所述大语言模型对应的输出策略及所述大语言模型返回结果的数量中的一项或多项。
在一个可能的实施方式中,所述确定模块,具体用于:
获取预设的参数配置策略集合以及预设的参数提取策略;
在所述参数配置策略集合中,确定所述场景领域对应的参数配置策略;
将所述参数提取策略和所述场景领域对应的参数配置策略,确定为所述问话数据对应的数据补充策略。
在一个可能的实施方式中,所述推理模块,具体用于:
抽取所述问话数据中的实体和关系,得到对应的实体关系三元组;
基于所述实体关系三元组生成图数据库查询语言;
基于所述图数据库查询语言在所述领域知识图谱中进行查询操作,得到所述问话数据对应的推理结果。
在一个可能的实施方式中,所述确定模块,具体用于:
获取所述场景领域对应的领域样本数据;
基于所述领域样本数据构建所述问话数据对应的领域知识图谱。
本申请实施例中,首先,获取问话数据及问话数据对应的场景领域,然后,基于场景领域确定问话数据对应的数据补充策略,以及,基于场景领域确定问话数据对应的领域知识图谱,进而,基于数据补充策略对问话数据进行补充处理,得到对应的补充结果,以及,基于领域知识图谱对问话数据进行推理,得到对应的推理结果,最后,将补充结果和推理结果输入至大语言模型,以由大语言模型输出问话数据对应的回答数据。如此,可以通过领域知识图谱对问话数据的推理结果,以及,场景领域对应数据补充策略对问话数据的补充结果,对大语言模型进行引导,从而提高大语言模型在该场景领域上进行数据处理的时效性和准确性,改善模型处理效果。
基于相同的技术构思,本申请实施例还提供了一种电子设备,如图4所示,包括处理器111、通信接口112、存储器113和通信总线114,其中,处理器111,通信接口112,存储器113通过通信总线114完成相互间的通信,
存储器113,用于存放计算机程序;
处理器111,用于执行存储器113上所存放的程序时,实现如下步骤:
获取问话数据及所述问话数据对应的场景领域;
基于所述场景领域确定所述问话数据对应的数据补充策略,以及,基于所述场景领域确定所述问话数据对应的领域知识图谱;
基于所述数据补充策略对所述问话数据进行补充处理,得到对应的补充结果;
基于所述领域知识图谱对所述问话数据进行推理,得到对应的推理结果;
将所述补充结果和所述推理结果输入至大语言模型,以由所述大语言模型输出所述问话数据对应的回答数据。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一数据处理方法的步骤。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一数据处理方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
应理解的是,文中使用的术语仅出于描述特定示例实施方式的目的,而无意于进行限制。除非上下文另外明确地指出,否则如文中使用的单数形式“一”、“一个”以及“所述”也可以表示包括复数形式。术语“包括”、“包含”、“含有”以及“具有”是包含性的,并且因此指明所陈述的特征、步骤、操作、元件和/或部件的存在,但并不排除存在或者添加一个或多个其它特征、步骤、操作、元件、部件、和/或它们的组合。文中描述的方法步骤、过程、以及操作不解释为必须要求它们以所描述或说明的特定顺序执行,除非明确指出执行顺序。还应当理解,可以使用另外或者替代的步骤。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
获取问话数据及所述问话数据对应的场景领域;
基于所述场景领域确定所述问话数据对应的数据补充策略,以及,基于所述场景领域确定所述问话数据对应的领域知识图谱;
基于所述数据补充策略对所述问话数据进行补充处理,得到对应的补充结果;
基于所述领域知识图谱对所述问话数据进行推理,得到对应的推理结果;
将所述补充结果和所述推理结果输入至大语言模型,以由所述大语言模型输出所述问话数据对应的回答数据。
2.根据权利要求1所述的方法,其特征在于,所述数据补充策略包括参数提取策略和参数配置策略,所述基于所述数据补充策略对所述问话数据进行补充处理,得到对应的补充结果,包括:
基于所述参数提取策略提取所述问话数据对应的第一补充数据;
基于所述参数配置策略配置所述问话数据对应的第二补充数据;
将所述第一补充数据和所述第二补充数据,作为所述补充结果。
3.根据权利要求2所述的方法,其特征在于,所述第一补充数据包括:所述问话数据的咨询时间、所述问话数据的咨询地点、所述问话数据对应的回答范围及所述问话数据对应的行为分类中的一项或多项。
4.根据权利要求2所述的方法,其特征在于,所述第二补充数据包括:所述大语言模型对应的回答场景、所述大语言模型模拟的人物身份、所述大语言模型对应的输出策略及所述大语言模型返回结果的数量中的一项或多项。
5.根据权利要求2所述的方法,其特征在于,所述基于所述场景领域确定所述问话数据对应的数据补充策略,包括:
获取预设的参数配置策略集合以及预设的参数提取策略;
在所述参数配置策略集合中,确定所述场景领域对应的参数配置策略;
将所述参数提取策略和所述场景领域对应的参数配置策略,确定为所述问话数据对应的数据补充策略。
6.根据权利要求1所述的方法,其特征在于,所述基于所述领域知识图谱对所述问话数据进行推理,得到对应的推理结果,包括:
抽取所述问话数据中的实体和关系,得到对应的实体关系三元组;
基于所述实体关系三元组生成图数据库查询语言;
基于所述图数据库查询语言在所述领域知识图谱中进行查询操作,得到所述问话数据对应的推理结果。
7.根据权利要求1所述的方法,其特征在于,所述基于所述场景领域确定所述问话数据对应的领域知识图谱,包括:
获取所述场景领域对应的领域样本数据;
基于所述领域样本数据构建所述问话数据对应的领域知识图谱。
8.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取问话数据及所述问话数据对应的场景领域;
确定模块,用于基于所述场景领域确定所述问话数据对应的数据补充策略,以及,基于所述场景领域确定所述问话数据对应的领域知识图谱;
补充模块,用于基于所述数据补充策略对所述问话数据进行补充处理,得到对应的补充结果;
推理模块,用于基于所述领域知识图谱对所述问话数据进行推理,得到对应的推理结果;
输入模块,用于将所述补充结果和所述推理结果输入至大语言模型,以由所述大语言模型输出所述问话数据对应的回答数据。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311741610.2A CN117421415A (zh) | 2023-12-18 | 2023-12-18 | 数据处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311741610.2A CN117421415A (zh) | 2023-12-18 | 2023-12-18 | 数据处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117421415A true CN117421415A (zh) | 2024-01-19 |
Family
ID=89532868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311741610.2A Pending CN117421415A (zh) | 2023-12-18 | 2023-12-18 | 数据处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117421415A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170228372A1 (en) * | 2016-02-08 | 2017-08-10 | Taiger Spain Sl | System and method for querying questions and answers |
CN116303980A (zh) * | 2023-05-19 | 2023-06-23 | 无码科技(杭州)有限公司 | 一种大语言模型知识增强方法、系统、电子设备及介质 |
CN116561278A (zh) * | 2023-05-05 | 2023-08-08 | 科大讯飞股份有限公司 | 知识问答方法、装置、设备及存储介质 |
CN116860987A (zh) * | 2023-06-13 | 2023-10-10 | 中电通商数字技术(上海)有限公司 | 基于生成式大语言模型的领域知识图谱构建方法和系统 |
CN116932776A (zh) * | 2023-07-13 | 2023-10-24 | 山东浪潮科学研究院有限公司 | 一种基于知识图谱的大模型知识更新方法和装置 |
CN117033608A (zh) * | 2023-09-28 | 2023-11-10 | 中国电子科技集团公司第十研究所 | 一种基于大语言模型的知识图谱生成式问答方法及系统 |
CN117033593A (zh) * | 2023-08-09 | 2023-11-10 | 深圳阿尔法分子科技有限责任公司 | 一种增强大语言模型问答特定领域问题能力的方法及系统 |
CN117056495A (zh) * | 2023-10-08 | 2023-11-14 | 吉奥时空信息技术股份有限公司 | 一种政务咨询自动问答方法与系统 |
CN117077791A (zh) * | 2023-10-12 | 2023-11-17 | 北京枫清科技有限公司 | 一种基于图数据结构的模型推理方法、装置、设备及介质 |
CN117235215A (zh) * | 2023-08-28 | 2023-12-15 | 浙江创邻科技有限公司 | 基于大模型和知识图谱的生成对话方法、系统及介质 |
-
2023
- 2023-12-18 CN CN202311741610.2A patent/CN117421415A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170228372A1 (en) * | 2016-02-08 | 2017-08-10 | Taiger Spain Sl | System and method for querying questions and answers |
CN116561278A (zh) * | 2023-05-05 | 2023-08-08 | 科大讯飞股份有限公司 | 知识问答方法、装置、设备及存储介质 |
CN116303980A (zh) * | 2023-05-19 | 2023-06-23 | 无码科技(杭州)有限公司 | 一种大语言模型知识增强方法、系统、电子设备及介质 |
CN116860987A (zh) * | 2023-06-13 | 2023-10-10 | 中电通商数字技术(上海)有限公司 | 基于生成式大语言模型的领域知识图谱构建方法和系统 |
CN116932776A (zh) * | 2023-07-13 | 2023-10-24 | 山东浪潮科学研究院有限公司 | 一种基于知识图谱的大模型知识更新方法和装置 |
CN117033593A (zh) * | 2023-08-09 | 2023-11-10 | 深圳阿尔法分子科技有限责任公司 | 一种增强大语言模型问答特定领域问题能力的方法及系统 |
CN117235215A (zh) * | 2023-08-28 | 2023-12-15 | 浙江创邻科技有限公司 | 基于大模型和知识图谱的生成对话方法、系统及介质 |
CN117033608A (zh) * | 2023-09-28 | 2023-11-10 | 中国电子科技集团公司第十研究所 | 一种基于大语言模型的知识图谱生成式问答方法及系统 |
CN117056495A (zh) * | 2023-10-08 | 2023-11-14 | 吉奥时空信息技术股份有限公司 | 一种政务咨询自动问答方法与系统 |
CN117077791A (zh) * | 2023-10-12 | 2023-11-17 | 北京枫清科技有限公司 | 一种基于图数据结构的模型推理方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113590776B (zh) | 基于知识图谱的文本处理方法、装置、电子设备及介质 | |
CN113157863A (zh) | 问答数据处理方法、装置、计算机设备及存储介质 | |
CN110377733A (zh) | 一种基于文本的情绪识别方法、终端设备及介质 | |
CN111177307A (zh) | 一种基于语义理解相似度阀值配置的测试方案及系统 | |
CN116756169A (zh) | 交互式生成数据报表的方法及计算设备 | |
CN114647713A (zh) | 基于虚拟对抗的知识图谱问答方法、设备及存储介质 | |
CN105989066A (zh) | 一种信息处理方法和装置 | |
CN113626571A (zh) | 答句生成方法、装置、计算机设备和存储介质 | |
CN117575008A (zh) | 训练样本生成方法、模型训练方法、知识问答方法及设备 | |
CN117290481A (zh) | 基于深度学习的问答方法、装置、存储介质及电子设备 | |
CN116796730A (zh) | 基于人工智能的文本纠错方法、装置、设备及存储介质 | |
CN117421415A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN115129863A (zh) | 意图识别方法、装置、设备、存储介质和计算机程序产品 | |
CN112988986B (zh) | 人机交互方法、装置与设备 | |
CN110955755A (zh) | 一种确定目标标准信息的方法和系统 | |
CN116933800B (zh) | 一种基于模版的生成式意图识别方法及装置 | |
CN116755683B (zh) | 一种数据处理方法和相关装置 | |
CN116383883B (zh) | 一种基于大数据的数据管理权限处理方法及系统 | |
CN118153579A (zh) | 一种智能问答方法、装置、设备及介质 | |
CN117391198A (zh) | 一种生成式阅读理解方法、装置、设备及存储介质 | |
CN117932058A (zh) | 基于文本分析的情绪识别方法、装置及设备 | |
CN112558913A (zh) | 基于聚合卡片的对话方法、装置、计算机设备及存储介质 | |
CN117909454A (zh) | 一种基于多轮对话的文本补全方法、装置及设备 | |
CN117171330A (zh) | 一种数据处理方法、装置、设备及介质 | |
CN117591644A (zh) | 智能问答方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |