CN117633540B - 样本数据构建方法及装置 - Google Patents
样本数据构建方法及装置 Download PDFInfo
- Publication number
- CN117633540B CN117633540B CN202410109946.5A CN202410109946A CN117633540B CN 117633540 B CN117633540 B CN 117633540B CN 202410109946 A CN202410109946 A CN 202410109946A CN 117633540 B CN117633540 B CN 117633540B
- Authority
- CN
- China
- Prior art keywords
- data
- item
- knowledge
- target
- link
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 103
- 238000012549 training Methods 0.000 claims abstract description 74
- 238000000034 method Methods 0.000 claims abstract description 70
- 238000004088 simulation Methods 0.000 claims description 49
- 238000012545 processing Methods 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 18
- 230000035606 childbirth Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 10
- 239000003795 chemical substances by application Substances 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供样本数据构建方法及装置,其中所述方法包括:确定目标数据以及目标数据中的事项标签数据和事项知识数据;根据事项标签数据和事项知识数据生成知识链路,并基于知识链路确定目标数据的图结构信息;确定事项标签数据中的事项标签子数据,并在知识链路中选择事项标签子数据对应的链路节点,根据链路节点生成图结构信息对应的链路节点组信息;利用图结构信息和链路节点组信息构建目标数据对应的样本对话数据,其中,样本对话数据用于训练对话模型。通过图结构信息和链路节点组信息构建出样本对话数据,利于后续利用样本对话数据训练出更准确的对话模型,为用户提供更好的对话问答服务。
Description
技术领域
本说明书实施例涉及人工智能技术领域,特别涉及样本数据构建方法以及装置。
背景技术
随着人工智能技术的发展,自然语言处理被广泛应用于各自领域,例如政务信息检索、医疗咨询,在线教学、网络购物等。问答系统为用户提供了一个快速查询、检索的接口,用于在交互界面上提出问题,问答系统能够用准确、简洁的自然语言作以回答。为了基于特定领域的文档知识进行问答,当前的问答方法一般先将文档进行切分,再通过检索模块召回相应的知识来回答问题,但是召回的内容可能不是用户期望了解的答案,无法给出用户真正需要的结果。因此,如何提高对话问答模型的预测能力,为用户提供更准确的对话问答服务是目前亟需解决的问题。
发明内容
有鉴于此,本说明书实施例提供了样本数据构建方法、项目问答方法。本说明书一个或者多个实施例同时涉及样本数据构建装置、项目问答装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中对话问答服务中无法为用户提供准确答案的问题。
根据本说明书实施例的第一方面,提供了一种样本数据构建方法,包括:
确定目标数据以及所述目标数据中的事项标签数据和事项知识数据;
根据所述事项标签数据和所述事项知识数据生成知识链路,并基于所述知识链路确定所述目标数据的图结构信息;
确定所述事项标签数据中的事项标签子数据,并在所述知识链路中选择所述事项标签子数据对应的链路节点,根据所述链路节点生成所述图结构信息对应的链路节点组信息;
利用所述图结构信息和所述链路节点组信息构建所述目标数据对应的样本对话数据,其中,所述样本对话数据用于训练对话模型。
根据本说明书实施例的第二方面,提供了一种样本数据构建方法,包括:
响应于客户端发送样本构建指令,确定所述样本构建指令对应的目标数据以及所述目标数据中的事项标签数据和事项知识数据;
根据所述事项标签数据和所述事项知识数据生成知识链路,并基于所述知识链路确定所述目标数据的图结构信息;
确定所述事项标签数据中的事项标签子数据,并在所述知识链路中选择所述事项标签子数据对应的链路节点,根据所述链路节点生成所述图结构信息对应的链路节点组信息;
利用所述图结构信息和所述链路节点组信息,构建所述目标数据对应的样本对话数据并发送至所述客户端,其中,所述样本对话数据用于训练对话模型。
根据本说明书实施例的第三方面,提供了一种项目问答方法,包括:
接收项目提问指令,其中,所述项目提问指令携带有关联企业项目的项目问题数据;
将所述项目问题数据输入至对话模型,获得所述对话模型基于所述项目问题数据输出的项目答案数据并展示,其中,所述对话模型由样本对话数据训练获得,所述样本对话数据由关联所述企业项目的事项标签数据和事项知识数据通过上述任意一项样本构建方法构建获得。
根据本说明书实施例的第四方面,提供了一种样本数据构建装置,包括:
确定模块,被配置为确定目标数据以及所述目标数据中的事项标签数据和事项知识数据;
生成模块,被配置为根据所述事项标签数据和所述事项知识数据生成知识链路,并基于所述知识链路确定所述目标数据的图结构信息;
选择模块,被配置为确定所述事项标签数据中的事项标签子数据,并在所述知识链路中选择所述事项标签子数据对应的链路节点,根据所述链路节点生成所述图结构信息对应的链路节点组信息;
构建模块,被配置为利用所述图结构信息和所述链路节点组信息构建所述目标数据对应的样本对话数据,其中,所述样本对话数据用于训练对话模型。
根据本说明书实施例的第五方面,提供了一种样本数据构建装置,包括:
确定模块,被配置为响应于客户端发送样本构建指令,确定所述样本构建指令对应的目标数据以及所述目标数据中的事项标签数据和事项知识数据;
生成模块,被配置为根据所述事项标签数据和所述事项知识数据生成知识链路,并基于所述知识链路确定所述目标数据的图结构信息;
选择模块,被配置为确定所述事项标签数据中的事项标签子数据,并在所述知识链路中选择所述事项标签子数据对应的链路节点,根据所述链路节点生成所述图结构信息对应的链路节点组信息;
构建模块,被配置为利用所述图结构信息和所述链路节点组信息,构建所述目标数据对应的样本对话数据并发送至所述客户端,其中,所述样本对话数据用于训练对话模型。
根据本说明书实施例的第六方面,提供了一种项目问答装置,包括:
接收模块,被配置为接收项目提问指令,其中,所述项目提问指令携带有关联企业项目的项目问题数据;
对话模块,被配置为将所述项目问题数据输入至对话模型,获得所述对话模型基于所述项目问题数据输出的项目答案数据并展示,其中,所述对话模型由样本对话数据训练获得,所述样本对话数据由关联所述企业项目的事项标签数据和事项知识数据通过上述任意一项样本构建方法构建获得。
根据本说明书实施例的第七方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述样本数据构建方法、项目问答方法的步骤。
根据本说明书实施例的第八方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述样本数据构建方法、项目问答方法的步骤。
根据本说明书实施例的第九方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述样本数据构建方法、项目问答方法的步骤。
本说明书提供一种样本数据构建方法,包括确定目标数据以及所述目标数据中的事项标签数据和事项知识数据;根据所述事项标签数据和所述事项知识数据生成知识链路,并基于所述知识链路确定所述目标数据的图结构信息;确定所述事项标签数据中的事项标签子数据,并在所述知识链路中选择所述事项标签子数据对应的链路节点,根据所述链路节点生成所述图结构信息对应的链路节点组信息;利用所述图结构信息和所述链路节点组信息构建所述目标数据对应的样本对话数据,其中,所述样本对话数据用于训练对话模型。
本说明书一个实施例提供的样本数据构建方法,通过目标数据中的事项标签数据和事项知识数据生成知识链路,并根据知识链路确定目标数据的图结构信息,实现了将目标数据转换成固定结构的图结构信息,便于后续从图结构信息中获取相关知识。在知识链路中选择相应的链路节点并生成链路节点组信息,通过图结构信息和链路节点组信息构建出关于事项标签数据和事项知识数据的样本对话数据,由于样本对话数据中包括链路节点组信息和图结构信息,使得利用样本对话数据训练出的对话模型具有基于问题进行反问的能力,从而在对话过程中进一步确定用户询问意图,使得对话模型的预测能力得到提升,实现在对话问答服务中为用户提供更准确的答案的目的。
附图说明
图1是本说明书一个实施例提供的一种样本数据构建系统的架构图;
图2是本说明书一个实施例提供的一种样本数据构建方法的流程图;
图3是本说明书一个实施例提供的一种样本构建方法中的图结构信息的示意图;
图4是本说明书一个实施例提供的一种样本构建方法中的链路节点组的示意图;
图5是本说明书一个实施例提供的另一种样本数据构建方法的流程图;
图6是本说明书一个实施例提供的一种样本数据构建方法的处理过程流程图;
图7是本说明书一个实施例提供的一种样本数据构建装置的结构示意图;
图8是本说明书一个实施例提供的另一种样本数据构建装置的结构示意图;
图9是本说明书一个实施例提供的一种项目问答方法的流程图;
图10是本说明书一个实施例提供的一种项目问答装置的结构示意图;
图11是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
此外,需要说明的是,本说明书一个或多个实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
本说明书一个或多个实施例中,大模型是指具有大规模模型参数的深度学习模型,通常包含上亿、上百亿、上千亿、上万亿甚至十万亿以上的模型参数。大模型又可以称为基石模型/基础模型(Foundation Model),通过大规模无标注的语料进行大模型的预训练,产出亿级以上参数的预训练模型,这种模型能适应广泛的下游任务,模型具有较好的泛化能力,例如大规模语言模型(Large Language Model, LLM)、多模态预训练模型(multi-modal pre-training model)等。
大模型在实际应用时,仅需少量样本对预训练模型进行微调即可应用于不同的任务中,大模型可以广泛应用于自然语言处理(Natural Language Processing,简称NLP)、计算机视觉等领域,具体可以应用于如视觉问答(Visual Question Answering,简称VQA)、图像描述(Image Caption,简称IC)、图像生成等计算机视觉领域任务,以及基于文本的情感分类、文本摘要生成、机器翻译等自然语言处理领域任务,大模型主要的应用场景包括数字助理、智能机器人、搜索、在线教育、办公软件、电子商务、智能设计等。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
SFT:模型微调(ScalableFine-Tuning),指采用预先训练好的神经网络模型,并针对特定任务在少量的监督数据上对其进行重新训练的技术。
DocGraph:图文档(GraphformofDocument),文档的一种结构化表示方式。
Agent:能够感知环境、理解输入信息,并根据预设的目标和规则进行决策和行动的实体和程序。
目前对于一些问答模型的问答能力要求为基于给定的文档知识进行问答,当前的方法一般是先将文档进行切分,再通过检索模块召回相应的知识来回答问题。然而对于一些结构性很强的文档如政务文档、论文文档、调研报告等,当前的问答模型不能给出用户真正需要的结果。
基于此在本说明书中,提供了样本数据构建方法,本说明书同时涉及样本数据构建装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了本说明书一个实施例提供的一种样本数据构建系统的架构图,样本数据构建系统可以包括客户端100和服务端200;
客户端100,用于向服务端200发送样本构建指令;
服务端200,用于响应于客户端发送样本构建指令,确定所述样本构建指令对应的目标数据以及所述目标数据中的事项标签数据和事项知识数据;根据所述事项标签数据和所述事项知识数据生成知识链路,并基于所述知识链路确定所述目标数据的图结构信息;确定所述事项标签数据中的事项标签子数据,并在所述知识链路中选择所述事项标签子数据对应的链路节点,根据所述链路节点生成所述图结构信息对应的链路节点组信息;利用所述图结构信息和所述链路节点组信息,构建所述目标数据对应的样本对话数据,其中,所述样本对话数据用于训练对话模型;向客户端100发送样本对话数据;
客户端100,还用于接收服务端200发送的样本对话数据。
应用本说明书实施例的方案,在用户想要基于办事指南类的知识文档进行对话模型训练时,为了能够优化对话模型的问答能力,提高对话模型输出答案的准确率,可以针对知识文档进行样本数据构建。此时可以使用服务端提供的样本数据构建服务,基于知识文档生成样本构建指令并发送给服务端。服务端接收到样本构建指令之后,根据样本构建指令确定目标数据以及目标数据中的事项标签数据和事项知识数据,然后根据事项标签数据和事项知识数据生成知识链路,如办事指南中某种服务对应的办事流程及最后的结果,如婚姻登记-本地户籍-本地户籍婚姻登记所需材料。然后基于知识链路确定目标数据的图结构信息,图结构信息中包括知识文档中的各个事项标签以及对应的事项知识,然后根据事项标签子数据对应的链路节点生成链路节点组信息,利用图结构信息和链路节点组信息作为模拟用户和模拟助手之间的问答数据,从而构建出目标数据对应的样本对话数据。
样本数据构建系统可以包括多个客户端100以及服务端200,其中,客户端100可以称为端侧设备,服务端200可以称为云侧设备。多个客户端100之间通过服务端200可以建立通信连接,在样本数据构建场景中,服务端200即用来在多个客户端100之间提供样本数据构建服务,多个客户端100可以分别作为发送端或接收端,通过服务端200实现通信。
用户通过客户端100可与服务端200进行交互以接收其它客户端100发送的数据,或将数据发送至其它客户端100等。在样本数据构建场景中,可以是用户通过客户端100向服务端200发布数据流,服务端200根据该数据流生成样本对话数据,并将样本对话数据推送至其他建立通信的客户端中。
其中,客户端100与服务端200之间通过网络建立连接。网络为客户端100与服务端200之间提供了通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。客户端100所传输的数据可能需要经过编码、转码、压缩等处理之后才发布至服务端200。
客户端100可以为浏览器、APP(Application,应用程序)、或网页应用如H5(HyperText Markup Language5,超文本标记语言第5版)应用、或轻应用(也被称为小程序,一种轻量级应用程序)或云应用等,客户端100可以基于服务端200提供的相应服务的软件开发工具包(SDK,Software Development Kit),如基于实时通信(RTC,Real TimeCommunication)SDK开发获得等。客户端100可以部署在电子设备中,需要依赖设备运行或者设备中的某些APP而运行等。电子设备例如可以具有显示屏并支持信息浏览等,如可以是个人移动终端如手机、平板电脑、个人计算机等。在电子设备中通常还可以配置各种其它类应用,例如人机对话类应用、模型训练类应用、文本处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
服务端200可以包括提供各种服务的服务器,例如为多个客户端提供通信服务的服务器,又如为客户端上使用的模型提供支持的用于后台训练的服务器,又如对客户端发送的数据进行处理的服务器等。需要说明的是,服务端200可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。服务器也可以是云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,Content DeliveryNetwork)以及大数据和人工智能平台等基础云计算服务的云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。
值得说明的是,本说明书实施例中提供的样本数据构建方法一般由服务端执行,但是,在本说明书的其它实施例中,客户端也可以与服务端具有相似的功能,从而执行本说明书实施例所提供的样本数据构建方法。在其它实施例中,本说明书实施例所提供的样本数据构建方法还可以是由客户端与服务端共同执行。
参见图2,图2示出了本说明书一个实施例提供的一种样本数据构建方法的流程图,具体包括以下步骤:
步骤202:确定目标数据以及所述目标数据中的事项标签数据和事项知识数据。
其中,目标数据可以理解为样本构建过程中使用的目标数据,目标数据可以是具有结构性的知识文档或数据,目标数据中的事项标签数据可以理解为目标数据中包括的事项关键词,如目标数据为出生登记的办事指南文档,事项关键词可以是国内、国外、A类型子女、B类型子女等。目标数据中的事项知识数据可以理解为目标数据中包括的事项知识,如目标数据为出生登记的办事指南文档,事项知识可以是出生登记政策。综上所述,事项标签数据即为目标数据中事项知识数据的关键词或索引,根据多个事项标签数据可以在目标数据中查询到对应的事项知识数据。如目标数据为出生登记的办事指南文档中,在事项标签数据为国内、A类型子女的情况下,对应的事项知识数据即为国内A类型子女出生登记政策。
在实际应用中,由于目标数据是具有结构性的知识文档或数据,用户在询问相关问题时,模型召回的结果可能不准确,如用户询问的是“如何给宝宝办理出生登记”,此时模型会根据检索模型召回的知识直接进行回答,但是出生登记包括了多种不同情况的登记政策,所以模型可能会召回错误的结果反馈给用户,导致用户无法获得想要的答案。因此,本说明书提供的样本数据构建方法中,通过构建图结构数据以及链路节点组,利用图结构数据和链路节点组来构建样本对话数据,使得模型经过样本对话数据训练之后,能够基于用户询问的问题进行反馈,从而一步步的确定用户的具体需求,从而向用户反馈正确的答案。
在本说明书一具体实施例中,确定目标数据,目标数据为出生登记的办事指南文档。确定该办事指南文档中包括的事项标签数据和事项知识数据,事项标签数据包括国内、国外、A类型、B类型等,事项知识数据包括国内A类型婴儿出生登记政策、国内B类型婴儿出生登记政策等。
进一步的,由于用于进行样本数据构建的数据可能并不是具有结构性的目标数据,为了便于后续能够确定目标数据中的事项标签和事项知识,需要对获取的数据进行预处理,具体的确定目标数据以及所述目标数据中的事项标签数据和事项知识数据之前,所述方法还包括:响应于样本构建指令确定初始数据;按照预设处理策略调整所述初始数据的数据结构,根据调整结果生成所述样本构建指令对应的目标数据。
其中,样本构建指令可以理解为针对某数据进行样本对话数据构建的指令,该指令可以由模型训练方发出,通过终端进行响应。响应于样本构建指令可以确定出初始数据,初始数据可以理解为不具备结构性的数据,如没有章节标题的知识文档,或者其他数据类型的知识数据如图片类型的知识数据、音频类型的知识数据等。在确定初始数据之后,为了能够使初始数据具有结构性,即确定初始数据中各项事项对应的关键词,并从初始数据中选择各项事项对应的事项知识,从而对初始数据进行知识归类,从而使得初始数据具有结构性,便于后续从结构性文档中确定出相应的事项标签和事项知识。
在实际应用中,在确定初始数据之后,可以直接按照预设处理策略对初始数据进行数据结构调整,预设处理策略中包括有针对不同数据类型的数据进行文本转换的方式如音频转换成文本、图片识别成文本等,以及对转换后的文本进行事项标签提取、事项知识搜索等操作,基于提取出的事项标签和事项知识对文本数据进行数据结构调整,使得调整后的初始数据具有结构性。
在本说明书一具体实施例中,响应于样本构建指令确定初始数据,初始数据为图片格式的知识数据,按照预设处理策略首先对初始数据进行图像识别,根据识别结果生成文本数据,然后确定文本数据中的事项关键词和事项知识,按照事项关键词和事项知识对其数据结构进行调整,归为不同标题对应不同知识,从而生成具有结构性的目标数据。
基于此,通过按照预设处理策略对初始数据进行数据结构调整,使得获得的目标数据具有结构性,便于后续从目标数据中确定事项标签和事项数据。
进一步的,为了能够准确地从目标数据中确定出事项标签数据和事项知识数据,需要对文本进行提取,具体的确定目标数据以及所述目标数据中的事项标签数据和事项知识数据,包括:确定目标数据并在所述目标数据中提取至少一个事项关键词文本;确定所述至少一个事项关键词文本对应的事项知识文本,将所述至少一个事项关键词文本作为所述目标数据的事项标签数据,将所述事项知识文本作为所述目标数据的事项知识数据。
其中,事项关键词文本可以理解为目标数据中各事项对应的关键词的文本,由于目标数据为结构性文档且包括各事项对应的事项知识,所以在提取事项关键词文本时,可以按照文档结构进行提取,如文档中包括主标题、副标题、小标题等,将标题作为事项关键词文本,如主标题为出生登记策略、副标题为国外出生、A类型子女等,则将这些标题都作为事项关键词文本,后续可以按照标题登记进行事项关键词的排序。事项知识文本可以理解为目标数据中各事项对应的知识文本,即根据各个事项关键词可以从目标数据中获取到对应事项的知识文本,例如目标数据为出生登记的办事指南文档,目标数据中包括有各事项对应的事项知识,如国内A类型子女出生登记政策、国外A类型子女出生登记政策,即该办事指南文档中各个登记政策均为事项知识文本。
在实际应用中,一种事项对应有事项知识,并且该事项中可能包括多个事项关键词,所以在提取出该事项的事项关键词文本之后,可以确定出对应的事项知识文本,如提取出的事项关键词文本包括出生登记、国外出生、A类型子女,则这些关键词文本对应的事项为国外A类型子女的出生登记政策,在目标数据中将关于国外A类型子女的出生登记政策的事项知识文本作为目标数据的事项知识数据。在一个目标数据即一个知识文档中可能包括多种事项,每种事项都有各自对应的事项标签和事项知识,并且各个事项对应的事项标签之间可能存在重叠。
在本说明书一具体实施例中,引用上例,目标数据为出生登记办事指南文档,在目标数据中提取事项关键词文本,事项关键词文本为出生登记、国外出生、国内出生、A类型子女、B类型子女,确定出生登记、国外出生、A类型子女这些事项关键词文本对应的事项知识文本为国外A类型子女出生登记政策,确定出生登记、国内出生、A类型子女这些事项关键词文本对应的事项知识文本为国内A类型子女出生登记政策,确定出生登记、国外出生、B类型子女这些事项关键词文本对应的事项知识文本为国外B类型子女出生登记政策,确定出生登记、国内出生、B类型子女这些事项关键词文本对应的事项知识文本为国内B类型子女出生登记政策。将各个事项的事项关键词文本作为目标数据的事项标签数据,将对应的事项知识文本作为事项知识数据。
基于此,通过从目标数据中提取出事项关键词文本,并确定事项关键词文本的事项知识文本,使得目标数据中的事项标签与事项知识具有对应关系,便于后续构建知识链路。
步骤204:根据所述事项标签数据和所述事项知识数据生成知识链路,并基于所述知识链路确定所述目标数据的图结构信息。
其中,知识链路可以理解为目标数据中各个事项对应的事项标签和事项知识组成的链路,知识链路中包括事项标签和对应的事项知识,如知识链路可以为“出生登记-国外-A类型子女-国外A类型子女出生登记政策”。图结构信息可以理解为将目标数据中包含的所有知识链路组合在一起后生成的知识链路,参见图3,图3是本说明书一个实施例提供的一种样本构建方法中的图结构信息的示意图,其中,包括了四条知识链路,每条知识链路中包括有对应的事项标签数据和事项知识数据,并且不同的知识链路之间可能存在相同的事项标签数据,由四条知识链路组成的图结构信息。
在实际应用中,根据事项标签数据和事项知识数据生成知识链路之后,则可以确定目标数据中所包含的各个事项对应的知识链路,此时可以将所有的知识链路进行组合,从而生成目标数据的图结构信息,图结构信息可以是一种文档形式的图结构文档,图结构文档也具有结构性。
在本说明书一具体实施例中,根据事项标签数据和事项知识数据生成办事指南文档中各类事项对应的知识链路,然后根据所有的知识链路生成该办事指南文档的图结构文档。
进一步的,为了能够生成正确的知识链路,避免知识链路中事项标签的顺序不对,导致后续无法按照知识链路中链路节点的顺序确定相应的事项知识,需要对事项标签进行排序,具体的根据所述事项标签数据和所述事项知识数据生成知识链路,包括:在所述事项标签数据中确定每个目标事项标签对应的标签层级信息;按照所述标签层级信息对所述每个目标事项标签进行排序,根据排序结果确定事项标签队列;在所述事项知识数据中选择所述事项标签队列对应的目标知识数据,并根据所述事项标签队列和所述目标知识数据生成知识链路。
其中,标签层级信息可以理解为事项标签对应的层级,如主标题为第一层级、副标题为第二层级、小标题为第三层级,根据事项标签的标签层级可以多目标事项标签进行排序,目标事项标签可以理解为从事项标签数据中选择出的一个事项对应的事项标签,对该事项的事项标签进行排序之后,则可以获得事项标签队列,然后将该事项标签队列的目标知识数据与其进行知识链路的生成。
在实际应用中,事项标签的标签层级信息可以按照知识文档中的标题层级进行确定,也可以由用户进行调整。并且事项标签的标签层级可能相同,此时可以随机对相同层级的事项标签进行排序。
在本说明书一具体实施例中,引用上例,在出生登记办事指南文档对应的事项标签数据中选择某个事项对应的目标事项标签,并确定每个目标事项标签对应的标签层级信息,包括“出生登记-1、国外-3、B类型子女-2”,则按照标签层级信息对这些目标事项标签进行排序之后获得的事项标签队列为“出生登记-B类型子女-国外”,然后在事项知识数据中选择出对应的目标知识数据,根据事项标签队列和目标知识数据生成知识链路。知识链路包括“出生登记-B类型子女-国外:国外B类型子女出生登记政策”。
基于此,通过每个事项标签的标签层级可以对事项标签进行排序,从而便于后续生成知识链路,避免知识链路的链路顺序出错,导致后续无法按照知识链路中的事项标签查找到相对应的事项知识数据。
进一步的,为了能够正常的生成知识链路,需要先生成事项标签对应的标签节点以及事项知识对应的知识节点,具体的根据所述事项标签队列和所述目标知识数据生成知识链路,包括:生成所述事项标签队列中每个目标事项标签对应的标签节点,以及所述目标知识数据对应的知识节点;连接所述每个目标事项标签对应的标签节点和所述知识节点,生成知识链路。
其中,标签节点可以理解事项标签在知识链路中对应的节点,知识节点可以理解为事项知识在知识链路中对应的节点,如图3中,出生登记、国外等这些事项标签对应的节点均为标签节点,国外A类型子女出生登记政策、国外B类型子女出生登记政策等这些事项知识对应的节点均为知识节点。在生成所有事项标签对应的标签节点和知识节点之后,则可以按照标签层级、对应的事项知识依次连接各个事项标签与相对应事项知识。
在本说明书一具体实施例中,生成事项标签队列中每个目标事项标签对应的标签节点,并生成该事项标签队列对应的目标知识数据对应的知识节点,将所有的标签节点以及知识节点进行顺序连接,从而生成该事项标签队列对应的知识链路。并按照该方式继续生成目标数据中其他事项对应的知识链路。
基于此,通过生成事项标签对应的标签节点,以及事项知识对应的知识节点,从而生成相应事项对应的知识链路。
进一步的,在确定每个事项对应的知识链路之后,需要将各个知识链路组合起来,生成相应的图结构信息,具体的基于所述知识链路确定所述目标数据的图结构信息,包括:确定所述知识链路中目标链路节点的节点信息;基于所述节点信息对所述知识链路进行调整,根据调整结果生成所述目标数据的图结构信息。
其中,节点信息可以理解为链路节点对应的节点内容信息和节点上下级连接关系,节点内容信息包括节点中对应的内容,如目标链路节点为标签节点的情况下,节点内容信息包括标签节点对应的事项标签;目标链路节点为知识节点的情况下,节点内容信息包括知识节点对应的事项知识。节点连接关系可以理解为该节点上下连接节点的关系。基于节点信息对知识链路进行调整包括将多条知识链路进行组合,对多条知识链路中重复的节点进行组合,然后重新连接相应的上下级节点。
在实际应用中,知识节点的由于唯一性一般不用进行调整,基于节点信息对知识链路进行调整,主要调整的是多条知识链路中的标签节点。
在本说明书一具体实施例中,确定知识链路中目标链路节点的节点信息,节点信息包括目标链路节点的节点内容信息和节点连接关系信息,如现有知识链路“出生登记-国内-A类型子女:国内A类型子女出生登记政策”和“出生登记-国外-A类型子女:国外A类型子女出生登记政策”,确定其中每个链路节点的节点信息,然后基于节点信息对其进行调整,将两条知识链路进行合并,生成相应的图结构信息。
基于此,通过对知识链路中的链路节点进行调整,从而能够将目标数据的知识链路进行合并,从而生成目标数据的图结构信息。
步骤206:确定所述事项标签数据中的事项标签子数据,并在所述知识链路中选择所述事项标签子数据对应的链路节点,根据所述链路节点生成所述图结构信息对应的链路节点组信息。
其中,事项标签子数据可以理解为从事项标签数据中选择出的一个事项标签,如事项标签数据包括A类型子女、B类型子女、国内、国外,即事项标签子数据可以是从事项标签数据中选择出的任意一个事项标签,如事项标签子数据可以是A类型子女或B类型子女等。链路节点可以理解为事项标签子数据在知识数据中对应的标签节点。链路节点组信息可以理解为将链路节点进行组合之后生成的节点组信息。
在实际应用中,为了后续能够进行样本对话数据的构建,需要模拟出用户在不同背景下的情况,则可以从事项标签数据中选择事项标签子数据,并根据事项标签子数据对应的链路节点生成链路节点组信息,利用链路节点组信息模拟用户的背景,如选择事项标签子数据为“A类型子女、国外”,则组成的链路节点组信息中包括“A类型子女、国外”,后续在构建样本对话数据时,模拟用户的提问则可以是“国外出生的宝宝如何进行出生登记”,模型可以提出反问“请问宝宝是A类型子女还是B类型子女”,模拟用户依据链路节点组信息可以给出回答“是A类型子女”,则模拟可以依据上述沟通对话给出用户想要的答案,从而提高模型的问答能力。
在本说明书一具体实施例中,从事项标签数据中选择相对应的事项标签子数据,并在知识链路中选择相对应的链路节点,利用链路节点构建出链路节点组信息,后续可以将链路节点组信息作为用户的模拟背景,从而构建出相对应的模拟对话数据。
进一步的,为了能够模拟用户在不同情况下的提问背景,可以按照不同的标签层级进行标签选择,具体的确定所述事项标签数据中的事项标签子数据,包括:按照预设选取策略基于至少一个标签层级信息在所述事项标签数据中选择目标事项标签;将所述目标事项标签作为事项标签子数据。
其中,预设选取策略可以理解为在选择事项标签时候使用的策略,预设选取策略中可以包括标签选取数量、选取方式等。具体实施时预设选取策略可以是选择任意两个层级下的事项标签,直至全部选取完毕,此时可以从两个层级中分别选择出一个事项标签,然后利用选择出的两个事项标签作为事项标签子数据,用于后续进行链路节点组构建,直至两个层级中的标签都一一组合过。
在实际应用中,为了能够构建出更多的样本对话数据,在选择事项标签数据时,可以按照排列组合的方式进行选取,即确保不同层级之间的事项标签都进行过组合,从而能够生成更多模拟用户提问背景的链路节点组。参见图4,图4是本说明书一个实施例提供的一种样本构建方法中的链路节点组的示意图,其中,每个链路节点组即为用户的提问背景,在构建对话数据时,可以按照链路节点中包括的事项标签进行提问或回答。需要说明的是,也可以选择任意一个层级中的一个事项标签构建成链路节点组,从而生成更多不同情况的用户背景。
在本说明书一具体实施例中,按照预设选取策略在任意两个标签层级的事项标签数据中选择目标事项标签,将选择出的两个目标事项标签作为事项标签子数据,后续作为构建链路节点组的数据。
基于此,通过根据标签层级信息进行事项标签子数据的选择,从而能够生成更多不同情况的用户模拟背景,使得后续能够生成更多不同情况的样本对话数据,提高模型的问答能力。
进一步的,为了能够生成正确链路节点组信息,需要将链路节点进行组合,然后获取组合后的事项标签子数据生成链路节点组信息,具体的据所述链路节点生成所述图结构信息对应的链路节点组信息,包括:对所述链路节点进行组合处理获得链路节点组;根据所述链路节点组对应的目标事项标签子数据生成所述图结构信息对应的链路节点组信息。
其中,链路节点组即为多个不同层级的链路节点组合在一起生成的节点组,链路节点组信息可以理解为链路节点组中包含的链路节点对应的事项标签信息,链路节点组信息由链路节点组中各个不同层级的链路节点对应的目标事项标签子数据生成,目标事项标签子数据即为链路节点组中包含的链路节点对应的事项标签子数据。
在实际应用中,由于图结构信息中包括多条知识链路,每条知识链路中存在多个不同层级的链路节点,如图3所示的图结构信息中可以选择链路节点“国外出生”、“A类型子女”进行组合,生成链路节点组“国外出生、A类型子女”,然后根据链路节点对应的目标事项标签子数据生成该链路节点组对应的链路节点组信息即“国外出生-A类型子女”,基于此,通过各个链路节点组对应的链路节点组信息,获得图结构信息对应的链路节点组信息。
在本说明书一具体实施例中,对链路节点进行组合处理,获得链路节点组,链路节点组为“国外、A类型子女”,获得该链路节点组中的事项标签子数据,生成链路节点组信息为“国外-A类型子女”,从而后续可以基于链路节点组信息先进行关于国外子女出生登记的询问,然后再回答是A类型子女,最后得到该链路节点组信息对应的答案。
基于此,通过链路节点组信息不仅可以模拟用户的提问背景,也可以确定出模拟用户提问时的询问顺序,以便于不同的链路节点组信息可以生成更多不同的样本对话数据。
步骤208:利用所述图结构信息和所述链路节点组信息构建所述目标数据对应的样本对话数据,其中,所述样本对话数据用于训练对话模型。
其中,样本对话数据可以理解为构建出的关于目标数据的对话数据,样本对话数据可以作为后续训练对话模型的训练数据。样本对话数据中模拟了用户与模型之间的对话,从而使得模型具有对话能力,具体实施时,对话模型可以应用在对话问答场景中,即对话模型可以作为对话问答模型进行使用,通过对话模型与用户之间进行对话,从而为用户提供更准确的问答服务。
在实际应用中,为了对用户和模型进行模拟,可以采用两个Agent进行模拟,具体的利用所述图结构信息和所述链路节点组信息构建所述目标数据对应的样本对话数据,包括:通过用户模拟组件基于所述链路节点组信息生成第一问答数据;通过助手模拟组件基于所述图结构信息和所述第一问答数据生成第二问答数据;根据所述第一问答数据和所述第二问答数据构建所述目标数据对应的样本对话数据。
其中,用户模拟组件可以理解为模拟用户的Agent,该Agent的作用为在对话场景中模拟用户针对相关项目进行提问或回答,如模拟用户进行询问关于出生登记流程,具体实施时用户模拟组件可以基于链路节点组信息进行提问,生成第一问答数据,第一问答数据即为模拟用户提出的关于目标数据的问题数据。助手模拟组件可以理解为模拟对话模型的Agent,该Agent的作用为在对话场景中模拟智能机器人针对用户的提问或问答进行反问或给出答案,对话场景中的智能机器人即为相关项目场景中为用户提供问答服务的智能设备,如用户终端上配置的语音助手、项目办理大厅中的可移动式问答设备等。通过助手模拟组件可以基于用户提出的问题以及图结构信息进行反问,生成第一问答数据对应的第二问答数据,后续用户模拟组件可以针对第二问答数据和链路节点组信息进行回答,助手模拟组件可以继续反问,直至能够回答出准确的答案,如用户模拟组件针对出生登记政策的进行模拟提问之后,助手模拟组件可以针对该提问进行反问,从而在用户模拟组件与助手模拟组件之间形成对话,通过对话内容确定模拟用户真实想了解的问题,并给出准确的答案。
在实际应用中,为了模拟真实的对话场景,可以使用User和Assistant两个Agent,User即为用户模拟组件用于模拟前来询问事项办理的用户,Assistant即为助手模拟组件用于模拟负责解答用户问题的助手。用户模拟组件可以随机从链路节点组信息中选择出一个作为本次询问的背景,用户模拟组件需要根据选择出的链路节点组信息进行提问和回答,而助手模拟组件则需要根据图结构信息向用户进行反问或给出答案,通过两个组件之间的对话配合,从而生成自然流畅的对话数据。
在本说明书一具体实施例中,链路节点组信息为“国外-A类型子女”,通过用户模拟组件基于链路节点组信息生成第一问答数据“国外的宝宝如何进行出生登记”,通过助手模拟组件基于图结构文档对第一问答数据提出反问,生成第二问答数据“请问宝宝是A类型子女还是B类型子女”,通过用户模拟组件基于链路节点组信息对第二问答数据进行回答“是A类型子女”,则此时助手模拟组件可以通过图结构文档依据上述的对话内容,筛选出准确的答案,并将所有的问答数据作为样本对话数据。
基于此,通过两个组件之间的协同配合,并分别利用链路节点组信息和图结构信息,从而能够模拟出真实的对话数据。
本说明书提供一种样本数据构建方法,包括确定目标数据以及所述目标数据中的事项标签数据和事项知识数据;根据所述事项标签数据和所述事项知识数据生成知识链路,并基于所述知识链路确定所述目标数据的图结构信息;确定所述事项标签数据中的事项标签子数据,并在所述知识链路中选择所述事项标签子数据对应的链路节点,根据所述链路节点生成所述图结构信息对应的链路节点组信息;利用所述图结构信息和所述链路节点组信息构建所述目标数据对应的样本对话数据,其中,所述样本对话数据用于训练对话模型。通过目标数据中的事项标签数据和事项知识数据生成知识链路,并根据知识链路确定目标数据的图结构信息,实现了将目标数据转换成固定结构的图结构信息,便于后续从图结构信息中获取相关知识。在知识链路中选择相应的链路节点并生成链路节点组信息,通过图结构信息和链路节点组信息构建出样本对话数据,利于后续利用样本对话数据训练出更准确的对话模型,为用户提供更准确的答案。
参见图5,图5示出了本说明书一个实施例提供的另一种样本数据构建方法的流程图,具体包括以下步骤:
步骤502:响应于客户端发送样本构建指令,确定所述样本构建指令对应的目标数据以及所述目标数据中的事项标签数据和事项知识数据。
其中,样本构建指令可以理解为客户端发送给服务端的用于进行样本对话数据构建的指令,样本构建指令中可以直接携带有目标数据,或者目标数据对应的数据标识,后续服务端可以直接从样本构建指令中确定目标数据,或者利用数据标识获取到目标数据。
在实际应用中,服务端可以提供样本对话数据构建服务,在用户具有样本对话数据构建需求时,可以通过客户端向服务端发送样本构建指令。
在本说明书一具体实施例中,确定样本构建指令对应的目标数据以及目标数据中的事项标签数据和事项知识数据,目标数据为婚姻登记办事指南文档,事项标签数据包括“A类型户籍、B类型户籍”,事项知识数据包括“A类型户籍婚姻登记政策、B类型户籍婚姻登记政策”。
步骤504:根据所述事项标签数据和所述事项知识数据生成知识链路,并基于所述知识链路确定所述目标数据的图结构信息。
在本说明书一具体实施例中,引用上例,利用事项标签数据和事项知识数据生成知识链路,知识链路包括“婚姻登记-A类型户籍-A类型户籍婚姻登记政策”,根据所有知识链路生成目标数据的图结构文档。
步骤506:确定所述事项标签数据中的事项标签子数据,并在所述知识链路中选择所述事项标签子数据对应的链路节点,根据所述链路节点生成所述图结构信息对应的链路节点组信息。
在本说明书一具体实施例中,引用上例,在事项标签数据中选择事项标签子数据,并根据事项标签子数据对应的链路节点,生成链路节点组信息,链路节点组信息为“婚姻登记、A类型户籍”。
步骤508:利用所述图结构信息和所述链路节点组信息,构建所述目标数据对应的样本对话数据并发送至所述客户端,其中,所述样本对话数据用于训练对话模型。
在本说明书一具体实施例中,引用上例,利用图结构信息和链路节点组信息,构建样本对话数据,用户提出问题“婚姻登记需要准备什么材料”,模型提出反问“请问双方是A类型户籍还是B类型户籍”,用户给出回答“A类型户籍”,模型给出答案“A类型户籍婚姻登记政策”,基于上述对话构建出样本对话数据,服务端将样本对话数据发送给客户端,以使客户端可以利用样本对话数据训练对话模型。
本说明书提供的一种样本数据构建方法,包括响应于客户端发送样本构建指令,确定所述样本构建指令对应的目标数据以及所述目标数据中的事项标签数据和事项知识数据;根据所述事项标签数据和所述事项知识数据生成知识链路,并基于所述知识链路确定所述目标数据的图结构信息;确定所述事项标签数据中的事项标签子数据,并在所述知识链路中选择所述事项标签子数据对应的链路节点,根据所述链路节点生成所述图结构信息对应的链路节点组信息;利用所述图结构信息和所述链路节点组信息,构建所述目标数据对应的样本对话数据并发送至所述客户端,其中,所述样本对话数据用于训练对话模型。通过目标数据中的事项标签数据和事项知识数据生成知识链路,并根据知识链路确定目标数据的图结构信息,实现了将目标数据转换成固定结构的图结构信息,便于后续从图结构信息中获取相关知识。在知识链路中选择相应的链路节点并生成链路节点组信息,通过图结构信息和链路节点组信息构建出样本对话数据,利于后续利用样本对话数据训练出更准确的对话模型,为用户提供更准确的答案。
下述结合附图6,以本说明书提供的样本数据构建方法在样本对话数据构建的应用为例,对所述样本数据构建方法进行进一步说明。其中,图6示出了本说明书一个实施例提供的一种样本数据构建方法的处理过程流程图,具体包括以下步骤:
步骤602:响应于样本构建指令确定初始数据,按照预设处理策略调整初始数据的数据结构,根据调整结果生成样本构建指令对应的目标数据。
在一种可实现的方式中,初始数据为社保办理的相关文档,按照预设处理策略调整设备办理文档的数据结构,生成具有结构性的社保办理文档。
步骤604:确定目标数据以及目标数据中的事项标签数据和事项知识数据。
在一种可实现的方式中,确定社保办理文档中的事项标签数据和事项知识数据包括“本地、外地、城市户籍、农村户籍”等,事项知识数据包括“外地农村户籍社保办理政策、本地农村户籍社保办理政策”等。
步骤606:在事项标签数据中确定每个目标事项标签对应的标签层级信息,按照标签层级信息对每个目标事项标签进行排序,根据排序结果确定事项标签队列。
在一种可实现的方式中,在事项标签数据中确定每个目标事项标签对应的标签层级信息,按照标签层级信息对每个目标事项标签进行排序,根据排序结果确定事项标签队列,事项标签队列包括“本地-城市户籍、外地-城市户籍”等。
步骤608:在事项知识数据中选择事项标签队列对应的目标知识数据,并根据事项标签队列和目标知识数据生成知识链路。
在一种可实现的方式中,事项标签队列为“本地-城市户籍”,生成相对应的标签节点,选择对应的目标知识数据为“本地城市户籍社保办理政策”,并生成相对应的知识节点,根据事项标签队列和目标知识数据分别对应的节点,生成知识链路“本地-城市户籍:本地城市户籍社保办理政策”。
步骤610:确定知识链路中目标链路节点的节点信息,基于节点信息对知识链路进行调整,根据调整结果生成目标数据的图结构信息。
在一种可实现的方式中,确定每条知识链路中每个链路节点的节点内容和节点连接关系,基于节点内容和节点连接关系将多条知识链路进行合并,生成图结构文档。
步骤612:按照预设选取策略基于至少一个标签层级信息在事项标签数据中选择目标事项标签,将目标事项标签作为事项标签子数据。
在一种可实现的方式中,根据不同的标签层级在每个标签层级中随机选择一个目标事项标签,然后将目标事项标签作为事项标签子数据。
步骤614:对链路节点进行组合处理获得链路节点组,根据链路节点组对应的目标事项标签子数据生成图结构信息对应的链路节点组信息。
在一种可实现的方式中,将事项标签子数据对应的链路节点进行组合,获得链路节点组,链路节点组为“本地-城市户籍”,链路节点组信息为“城市户籍-本地”。
步骤616:通过用户模拟组件基于链路节点组信息生成第一问答数据,通过助手模拟组件基于图结构信息和所述第一问答数据生成第二问答数据。
在一种可实现的方式中,通过用户模拟组件基于链路节点组信息生成第一问答数据为“请问城市户籍的社保怎么办理”,通过助手模拟组件基于图结构信息和第一问答数据生成第二问答数据“请问您是本地户籍还是外地户籍”,通过用户模拟组件给出回答“本地户籍”,通过助手模拟组件给出答案“本地城市户籍社保办理政策”。
步骤618:根据第一问答数据和第二问答数据构建目标数据对应的样本对话数据。
在一种可实现的方式中,根据上述的对话数据生成样本对话数据,后续可以利用样本对话数据训练对话模型,使得对话模型具有反问能力,从而为用户提供更好的问答服务。
本说明书提供的一种样本数据构建方法,通过目标数据中的事项标签数据和事项知识数据生成知识链路,并根据知识链路确定目标数据的图结构信息,实现了将目标数据转换成固定结构的图结构信息,便于后续从图结构信息中获取相关知识。在知识链路中选择相应的链路节点并生成链路节点组信息,通过图结构信息和链路节点组信息构建出样本对话数据,利于后续利用样本对话数据训练出更准确的对话模型,为用户提供更准确的答案。
与上述方法实施例相对应,本说明书还提供了样本数据构建装置实施例,图7示出了本说明书一个实施例提供的一种样本数据构建装置的结构示意图。如图7所示,该装置包括:
确定模块702,被配置为确定目标数据以及所述目标数据中的事项标签数据和事项知识数据;
生成模块704,被配置为根据所述事项标签数据和所述事项知识数据生成知识链路,并基于所述知识链路确定所述目标数据的图结构信息;
选择模块706,被配置为确定所述事项标签数据中的事项标签子数据,并在所述知识链路中选择所述事项标签子数据对应的链路节点,根据所述链路节点生成所述图结构信息对应的链路节点组信息;
构建模块708,被配置为利用所述图结构信息和所述链路节点组信息构建所述目标数据对应的样本对话数据,其中,所述样本对话数据用于训练对话模型。
可选的,所述装置还包括预处理模块,被配置为响应于样本构建指令确定初始数据;按照预设处理策略调整所述初始数据的数据结构,根据调整结果生成所述样本构建指令对应的目标数据。
可选的,所述确定模块702,进一步被配置为确定目标数据并在所述目标数据中提取至少一个事项关键词文本;确定所述至少一个事项关键词文本对应的事项知识文本,将所述至少一个事项关键词文本作为所述目标数据的事项标签数据,将所述事项知识文本作为所述目标数据的事项知识数据。
可选的,所述生成模块704,进一步被配置为在所述事项标签数据中确定每个目标事项标签对应的标签层级信息;按照所述标签层级信息对所述每个目标事项标签进行排序,根据排序结果确定事项标签队列;在所述事项知识数据中选择所述事项标签队列对应的目标知识数据,并根据所述事项标签队列和所述目标知识数据生成知识链路。
可选的,所述生成模块704,进一步被配置为生成所述事项标签队列中每个目标事项标签对应的标签节点,以及所述目标知识数据对应的知识节点;连接所述每个目标事项标签对应的标签节点和所述知识节点,生成知识链路。
可选的,所述生成模块704,进一步被配置为确定所述知识链路中目标链路节点的节点信息;基于所述节点信息对所述知识链路进行调整,根据调整结果生成所述目标数据的图结构信息。
可选的,所述选择模块706,进一步被配置为按照预设选取策略基于至少一个标签层级信息在所述事项标签数据中选择目标事项标签;将所述目标事项标签作为事项标签子数据。
可选的,所述选择模块706,进一步被配置为对所述链路节点进行组合处理获得链路节点组;根据所述链路节点组包含的所述事项标签子数据生成所述图结构信息对应的链路节点组信息。
可选的,所述构建模块708,进一步被配置为通过用户模拟组件基于所述链路节点组信息生成第一问答数据;通过助手模拟组件基于所述图结构信息和所述第一问答数据生成第二问答数据;根据所述第一问答数据和所述第二问答数据构建所述目标数据对应的样本对话数据。
本说明书提供的一种样本数据构建装置,包括:确定模块,被配置为确定目标数据以及所述目标数据中的事项标签数据和事项知识数据;生成模块,被配置为根据所述事项标签数据和所述事项知识数据生成知识链路,并基于所述知识链路确定所述目标数据的图结构信息;选择模块,被配置为确定所述事项标签数据中的事项标签子数据,并在所述知识链路中选择所述事项标签子数据对应的链路节点,根据所述链路节点生成所述图结构信息对应的链路节点组信息;构建模块,被配置为利用所述图结构信息和所述链路节点组信息构建所述目标数据对应的样本对话数据,其中,所述样本对话数据用于训练对话模型。通过目标数据中的事项标签数据和事项知识数据生成知识链路,并根据知识链路确定目标数据的图结构信息,实现了将目标数据转换成固定结构的图结构信息,便于后续从图结构信息中获取相关知识。在知识链路中选择相应的链路节点并生成链路节点组信息,通过图结构信息和链路节点组信息构建出样本对话数据,利于后续利用样本对话数据训练出更准确的对话模型,为用户提供更准确的答案。
上述为本实施例的一种样本数据构建装置的示意性方案。需要说明的是,该样本数据构建装置的技术方案与上述的样本数据构建方法的技术方案属于同一构思,样本数据构建装置的技术方案未详细描述的细节内容,均可以参见上述样本数据构建方法的技术方案的描述。
与上述方法实施例相对应,本说明书还提供了样本数据构建装置实施例,图8示出了本说明书一个实施例提供的另一种样本数据构建装置的结构示意图。如图8所示,该装置包括:
确定模块802,被配置为响应于客户端发送样本构建指令,确定所述样本构建指令对应的目标数据以及所述目标数据中的事项标签数据和事项知识数据;
生成模块804,被配置为根据所述事项标签数据和所述事项知识数据生成知识链路,并基于所述知识链路确定所述目标数据的图结构信息;
选择模块806,被配置为确定所述事项标签数据中的事项标签子数据,并在所述知识链路中选择所述事项标签子数据对应的链路节点,根据所述链路节点生成所述图结构信息对应的链路节点组信息;
构建模块808,被配置为利用所述图结构信息和所述链路节点组信息,构建所述目标数据对应的样本对话数据并发送至所述客户端,其中,所述样本对话数据用于训练对话模型。
本说明书提供的一种样本数据构建装置,包括:确定模块,被配置为响应于客户端发送样本构建指令,确定所述样本构建指令对应的目标数据以及所述目标数据中的事项标签数据和事项知识数据;生成模块,被配置为根据所述事项标签数据和所述事项知识数据生成知识链路,并基于所述知识链路确定所述目标数据的图结构信息;选择模块,被配置为确定所述事项标签数据中的事项标签子数据,并在所述知识链路中选择所述事项标签子数据对应的链路节点,根据所述链路节点生成所述图结构信息对应的链路节点组信息;构建模块,被配置为利用所述图结构信息和所述链路节点组信息,构建所述目标数据对应的样本对话数据并发送至所述客户端,其中,所述样本对话数据用于训练对话模型。通过目标数据中的事项标签数据和事项知识数据生成知识链路,并根据知识链路确定目标数据的图结构信息,实现了将目标数据转换成固定结构的图结构信息,便于后续从图结构信息中获取相关知识。在知识链路中选择相应的链路节点并生成链路节点组信息,通过图结构信息和链路节点组信息构建出样本对话数据,利于后续利用样本对话数据训练出更准确的对话模型,为用户提供更准确的答案。
上述为本实施例的一种样本数据构建装置的示意性方案。需要说明的是,该样本数据构建装置的技术方案与上述的样本数据构建方法的技术方案属于同一构思,样本数据构建装置的技术方案未详细描述的细节内容,均可以参见上述样本数据构建方法的技术方案的描述。
参见图9,图9示出了本说明书一个实施例提供的一种项目问答方法的流程图,具体包括以下步骤:
步骤902:接收项目提问指令,其中,所述项目提问指令携带有关联企业项目的项目问题数据。
其中,项目提问指令可以是针对企业项目发出的提问指令,项目提问指令可以由使用企业项目的用户发出。具体的企业项目可以是该企业提供的项目,企业项目可以包括为对内提供的企业项目或者对外提供的企业项目,对内提供的企业项目即为该企业内部使用的项目服务,如入职流程服务、报销流程服务等项目,对外提供的企业项目即为该企业提供的项目服务,如提供了一种问答搜索服务、智能售后服务等项目。项目问题数据即为针对企业项目发出的问题数据,项目问题数据可以是文本形式数据、语音形式数据等等,可以根据实际情况确定问答服务所能够接收的项目问题数据。
在实际应用中,在不同场景下即企业项目的类型不同的情况下,发出项目提问指令的用户也不同。在企业项目的类型为对内项目的情况下,发出项目提问指令的用户可以是企业内部员工,例如员工通过企业内部软件提供的问答服务,询问关于该企业当前的请假流程,通过问答服务获取到相应的答案,从而为企业提供一种更加智能、便捷的企业管理方法;在企业项目的类型为对外项目的情况下,发出项目提问指令的用户可以是使用该企业提供的服务的用户,例如某企业提供一种网购项目,网购项目中部署了对外提供问答服务的API接口,提问用户可以是使用该网购项目的用户,在该网购项目中进行项目相关的提问,如用户针对网购商品进行退换货流程的询问。
步骤904:将所述项目问题数据输入至对话模型,获得所述对话模型基于所述项目问题数据输出的项目答案数据并展示,其中,所述对话模型由样本对话数据训练获得,所述样本对话数据由关联所述企业项目的事项标签数据和事项知识数据通过上述任意一项样本构建方法构建获得。
其中,对话模型可以是利用本说明书提供的样本数据构建方法构建出的样本对话数据训练获得的模型,对话模型可以实现问答服务即与用户进行对话问答,通过根据用户提出的问题进行反问,进一步确定用户的询问意图,从而为用户提供更准确的答案。因此在接收到项目提问指令并确定出项目问题数据之后,可以将项目问题数据输入至对话模型,由对话模型输出相应的项目答案数据,项目答案数据即为本次项目提问指令中携带的项目问题对应的项目答案。
在实际应用中,企业为了能够提供关于企业项目的对话问答服务,需要基于关联企业项目的事项标签数据和事项知识数据先构建出样本对话数据,然后利用样本对话数据训练获得对话模型,由对话模型来实现提供对话问答服务。
在本说明书一具体实施例中,企业项目为网购项目,关联企业项目的事项标签数据包括退货、换货、物流等标签数据,事项知识数据包括退货流程、换货流程、物流查询流程等知识数据,基于关联网购项目的事项标签数据和事项知识数据构建出样本对话数据,并利用样本对话数据训练获得对话模型。用户针对网购项目进行退货操作流程的询问,将用户发出的问题输入至对话模型,获得对话模型输出的答案并返回展示给用户。
在本说明书另一具体实施例中,企业项目为企业内部的OA(Office Automation,办公自动化)项目,关联该项目的事项标签数据包括请假、报销、采购等标签数据,事项知识数据包括请假流程、报销流程、采购流程等知识数据,基于关联OA项目的事项标签数据和事项知识数据构建出样本对话数据,并利用样本对话数据训练获得对话模型。用户针对请假流程进行询问,将用户发出的问题输入至对话模型,获得对话模型输出的答案并返回展示给用户。
基于此,通过由关联企业项目的事项标签数据和事项知识数据构建出样本对话数据,并利用样本对话数据训练获得对话模型,使得通过对话模型为用户提供对话问答服务,在与用户对话过程中,进一步确定用户询问的真实意图,从而为用户提供更准确的答案,提高用户服务使用体验。
进一步的,为了能够更好的为用户提供对话问答服务,避免出现给出的答案不符合用户询问预期的情况,需要训练出对话模型,具体的,接收企业用户发送的项目提问指令之前,所述方法还包括:确定所述样本对话数据中的样本问题数据和所述样本问题数据对应的样本答案数据;将所述样本问题数据输入至预训练模型,获得所述预训练模型输出的预测答案数据;根据所述样本答案数据和所述预测答案数据计算模型损失值,并根据所述模型损失值调整所述预训练模型的模型参数,并继续训练所述预训练模型,直至获得满足训练停止条件的对话模型。
其中,在接收企业用户发送的项目提问指令之前,需要训练出用于实现对话问答服务的对话模型。样本对话数据可以理解为用于训练模型训练的数据。样本对话数据中包括样本问题数据和样本答案数据,样本问题数据即为样本对话数据中提出问题的数据,样本问题数据可以是用户向对话问答模型提出的问题数据,也可以是对话问答模型向用户反问提出的问题数据;样本答案数据即为样本问题数据对应的答案数据,基于样本对话数据和样本问题数据即可以模拟出用户在使用对话问答服务过程中用户与对话模型之间的对话,因此通过样本对话数据和样本问题数据即可以训练出对话模型。预训练模型可以理解为通过预训练获得的语言模型,具备基础的文本、语音等形式数据的处理能力。预测答案数据可以理解为预训练模型基于样本问题数据进行处理之后输出的答案数据,预测答案数据可能存在回答不准确的情况,所以后续需要利用样本答案数据和预测答案数据计算模型损失值,利用模型损失值调整模型参数,并不断利用样本对话数据进行迭代训练,直至获得满足训练停止条件的对话模型。训练停止条件可以包括达到预设训练迭代轮次或模型参数达到预设参数。
在实际应用中,样本对话数据由关联企业项目的事项标签数据和事项知识数据构建获得,通过样本对话数据中的样本问题数据和样本答案数据即可以训练出能够针对企业项目进行对话问答的对话模型,从而为用户提供关于企业项目的对话问答服务。通过对话模型与提问用户之间进行对话,使得对话模型能够为用户提供更为准确的答案。
本说明书提供的一种项目问答方法,包括:接收项目提问指令,其中,所述项目提问指令携带有关联企业项目的项目问题数据;将所述项目问题数据输入至对话模型,获得所述对话模型基于所述项目问题数据输出的项目答案数据并展示,其中,所述对话模型由样本对话数据训练获得,所述样本对话数据由关联所述企业项目的事项标签数据和事项知识数据通过上述任意一项样本构建方法构建获得。通过样本对话数据中的样本问题数据和样本答案数据即可以训练出能够针对企业项目进行对话问答的对话模型,从而为用户提供关于企业项目的对话问答服务。通过对话模型与提问用户之间进行对话,使得对话模型能够为用户提供更为准确的答案。
与上述方法实施例相对应,本说明书还提供了项目问答装置实施例,图10示出了本说明书一个实施例提供的一种项目问答装置的结构示意图。如图10所示,该装置包括:
接收模块1002,被配置为接收项目提问指令,其中,所述项目提问指令携带有关联企业项目的项目问题数据;
对话模块1004,被配置为将所述项目问题数据输入至对话模型,获得所述对话模型基于所述项目问题数据输出的项目答案数据并展示,其中,所述对话模型由样本对话数据训练获得,所述样本对话数据由关联所述企业项目的事项标签数据和事项知识数据通过上述任意一项样本构建方法构建获得。
可选的,所述装置还包括训练模块,被配置为确定所述样本对话数据中的样本问题数据和所述样本问题数据对应的样本答案数据;将所述样本问题数据输入至预训练模型,获得所述预训练模型输出的预测答案数据;根据所述样本答案数据和所述预测答案数据计算模型损失值,并根据所述模型损失值调整所述预训练模型的模型参数,并继续训练所述预训练模型,直至获得满足训练停止条件的对话模型。
本说明书提供的一种项目问答装置,包括接收模块,被配置为接收项目提问指令,其中,所述项目提问指令携带有关联企业项目的项目问题数据;对话模块,被配置为将所述项目问题数据输入至对话模型,获得所述对话模型基于所述项目问题数据输出的项目答案数据并展示,其中,所述对话模型由样本对话数据训练获得,所述样本对话数据由关联所述企业项目的事项标签数据和事项知识数据通过上述任意一项样本构建方法构建获得。通过样本对话数据中的样本问题数据和样本答案数据即可以训练出能够针对企业项目进行对话问答的对话模型,从而为用户提供关于企业项目的对话问答服务。通过对话模型与提问用户之间进行对话,使得对话模型能够为用户提供更为准确的答案。
图11示出了根据本说明书一个实施例提供的一种计算设备1100的结构框图。该计算设备1100的部件包括但不限于存储器1110和处理器1120。处理器1120与存储器1110通过总线1130相连接,数据库1150用于保存数据。
计算设备1100还包括接入设备1140,接入设备1140使得计算设备1100能够经由一个或多个网络1160通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备1140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,networkinterface controller))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX,WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near FieldCommunication)。
在本说明书的一个实施例中,计算设备1100的上述部件以及图11中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图11所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备1100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(PC,Personal Computer)的静止计算设备。计算设备1100还可以是移动式或静止式的服务器。
其中,处理器1120用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述样本数据构建方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的样本数据构建方法、项目问答方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述样本数据构建方法、项目问答方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述样本数据构建方法、项目问答方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的样本数据构建方法、项目问答方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述样本数据构建方法、项目问答方法的技术方案的描述。
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述样本数据构建方法、项目问答方法的步骤。
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的样本数据构建方法、项目问答方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述样本数据构建方法、项目问答方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。
Claims (17)
1.一种样本数据构建方法,包括:
确定目标数据以及所述目标数据中的事项标签数据和事项知识数据,其中,所述事项标签数据为所述目标数据包括的事项关键词文本,所述事项知识数据为所述目标数据包括的事项知识文本;
根据所述事项标签数据和所述事项知识数据生成知识链路,并基于所述知识链路确定所述目标数据的图结构信息,其中,根据所述事项标签数据和所述事项知识数据生成知识链路包括:在所述事项标签数据中确定每个目标事项标签对应的标签层级信息,按照所述标签层级信息对所述每个目标事项标签进行排序,根据排序结果确定事项标签队列,在所述事项知识数据中选择所述事项标签队列对应的目标知识数据,并根据所述事项标签队列和所述目标知识数据生成知识链路;
确定所述事项标签数据中的事项标签子数据,并在所述知识链路中选择所述事项标签子数据对应的链路节点,根据所述链路节点生成所述图结构信息对应的链路节点组信息;
利用所述图结构信息和所述链路节点组信息构建所述目标数据对应的样本对话数据,其中,所述样本对话数据用于训练对话模型,所述样本对话数据由用户模拟组件基于所述链路节点组信息,和助手模拟组件基于所述图结构信息构建获得。
2.如权利要求1所述的方法,确定目标数据以及所述目标数据中的事项标签数据和事项知识数据之前,所述方法还包括:
响应于样本构建指令确定初始数据;
按照预设处理策略调整所述初始数据的数据结构,根据调整结果生成所述样本构建指令对应的目标数据。
3.如权利要求1所述的方法,确定目标数据以及所述目标数据中的事项标签数据和事项知识数据,包括:
确定目标数据并在所述目标数据中提取至少一个事项关键词文本;
确定所述至少一个事项关键词文本对应的事项知识文本,将所述至少一个事项关键词文本作为所述目标数据的事项标签数据,将所述事项知识文本作为所述目标数据的事项知识数据。
4.如权利要求1所述的方法,根据所述事项标签队列和所述目标知识数据生成知识链路,包括:
生成所述事项标签队列中每个目标事项标签对应的标签节点,以及所述目标知识数据对应的知识节点;
连接所述每个目标事项标签对应的标签节点和所述知识节点,生成知识链路。
5.如权利要求1所述的方法,基于所述知识链路确定所述目标数据的图结构信息,包括:
确定所述知识链路中目标链路节点的节点信息;
基于所述节点信息对所述知识链路进行调整,根据调整结果生成所述目标数据的图结构信息。
6.如权利要求1所述的方法,确定所述事项标签数据中的事项标签子数据,包括:
按照预设选取策略基于至少一个标签层级信息在所述事项标签数据中选择目标事项标签;
将所述目标事项标签作为事项标签子数据。
7.如权利要求1所述的方法,根据所述链路节点生成所述图结构信息对应的链路节点组信息,包括:
对所述链路节点进行组合处理获得链路节点组;
根据所述链路节点组对应的目标事项标签子数据生成所述图结构信息对应的链路节点组信息。
8.如权利要求1所述的方法,利用所述图结构信息和所述链路节点组信息构建所述目标数据对应的样本对话数据,包括:
通过所述用户模拟组件基于所述链路节点组信息生成第一问答数据;
通过所述助手模拟组件基于所述图结构信息和所述第一问答数据生成第二问答数据;
根据所述第一问答数据和所述第二问答数据构建所述目标数据对应的样本对话数据。
9.一种样本数据构建方法,包括:
响应于客户端发送样本构建指令,确定所述样本构建指令对应的目标数据以及所述目标数据中的事项标签数据和事项知识数据,其中,所述事项标签数据为所述目标数据包括的事项关键词文本,所述事项知识数据为所述目标数据包括的事项知识文本;
根据所述事项标签数据和所述事项知识数据生成知识链路,并基于所述知识链路确定所述目标数据的图结构信息,其中,根据所述事项标签数据和所述事项知识数据生成知识链路包括:在所述事项标签数据中确定每个目标事项标签对应的标签层级信息,按照所述标签层级信息对所述每个目标事项标签进行排序,根据排序结果确定事项标签队列,在所述事项知识数据中选择所述事项标签队列对应的目标知识数据,并根据所述事项标签队列和所述目标知识数据生成知识链路;
确定所述事项标签数据中的事项标签子数据,并在所述知识链路中选择所述事项标签子数据对应的链路节点,根据所述链路节点生成所述图结构信息对应的链路节点组信息;
利用所述图结构信息和所述链路节点组信息,构建所述目标数据对应的样本对话数据并发送至所述客户端,其中,所述样本对话数据用于训练对话模型,所述样本对话数据由用户模拟组件基于所述链路节点组信息,和助手模拟组件基于所述图结构信息构建获得。
10.如权利要求9所述的方法,将所述样本对话数据发送至所述客户端之后,所述方法还包括:
响应于所述客户端针对所述样本对话数据返回的数据调整指令,确定数据调整信息;
根据所述数据调整信息对所述样本对话数据进行调整,并将调整后的样本对话数据发送至所述客户端。
11.一种项目问答方法,包括:
接收项目提问指令,其中,所述项目提问指令携带有关联企业项目的项目问题数据;
将所述项目问题数据输入至对话模型,获得所述对话模型基于所述项目问题数据输出的项目答案数据并展示,其中,所述对话模型由样本对话数据训练获得,所述样本对话数据由关联所述企业项目的事项标签数据和事项知识数据通过如权利要求1-9任意一项所述方法构建获得。
12.如权利要求11所述的方法,接收企业用户发送的项目提问指令之前,所述方法还包括:
确定所述样本对话数据中的样本问题数据和所述样本问题数据对应的样本答案数据;
将所述样本问题数据输入至预训练模型,获得所述预训练模型输出的预测答案数据;
根据所述样本答案数据和所述预测答案数据计算模型损失值,并根据所述模型损失值调整所述预训练模型的模型参数,并继续训练所述预训练模型,直至获得满足训练停止条件的对话模型。
13.一种样本数据构建装置,包括:
确定模块,被配置为确定目标数据以及所述目标数据中的事项标签数据和事项知识数据,其中,所述事项标签数据为所述目标数据包括的事项关键词文本,所述事项知识数据为所述目标数据包括的事项知识文本;
生成模块,被配置为根据所述事项标签数据和所述事项知识数据生成知识链路,并基于所述知识链路确定所述目标数据的图结构信息,其中,根据所述事项标签数据和所述事项知识数据生成知识链路包括:在所述事项标签数据中确定每个目标事项标签对应的标签层级信息,按照所述标签层级信息对所述每个目标事项标签进行排序,根据排序结果确定事项标签队列,在所述事项知识数据中选择所述事项标签队列对应的目标知识数据,并根据所述事项标签队列和所述目标知识数据生成知识链路;
选择模块,被配置为确定所述事项标签数据中的事项标签子数据,并在所述知识链路中选择所述事项标签子数据对应的链路节点,根据所述链路节点生成所述图结构信息对应的链路节点组信息;
构建模块,被配置为利用所述图结构信息和所述链路节点组信息构建所述目标数据对应的样本对话数据,其中,所述样本对话数据用于训练对话模型,所述样本对话数据由用户模拟组件基于所述链路节点组信息,和助手模拟组件基于所述图结构信息构建获得。
14.一种样本数据构建装置,包括:
确定模块,被配置为响应于客户端发送样本构建指令,确定所述样本构建指令对应的目标数据以及所述目标数据中的事项标签数据和事项知识数据,其中,所述事项标签数据为所述目标数据包括的事项关键词文本,所述事项知识数据为所述目标数据包括的事项知识文本;
生成模块,被配置为根据所述事项标签数据和所述事项知识数据生成知识链路,并基于所述知识链路确定所述目标数据的图结构信息,其中,根据所述事项标签数据和所述事项知识数据生成知识链路包括:在所述事项标签数据中确定每个目标事项标签对应的标签层级信息,按照所述标签层级信息对所述每个目标事项标签进行排序,根据排序结果确定事项标签队列,在所述事项知识数据中选择所述事项标签队列对应的目标知识数据,并根据所述事项标签队列和所述目标知识数据生成知识链路;
选择模块,被配置为确定所述事项标签数据中的事项标签子数据,并在所述知识链路中选择所述事项标签子数据对应的链路节点,根据所述链路节点生成所述图结构信息对应的链路节点组信息;
构建模块,被配置为利用所述图结构信息和所述链路节点组信息,构建所述目标数据对应的样本对话数据并发送至所述客户端,其中,所述样本对话数据用于训练对话模型,所述样本对话数据由用户模拟组件基于所述链路节点组信息,和助手模拟组件基于所述图结构信息构建获得。
15.一种项目问答装置,包括:
接收模块,被配置为接收项目提问指令,其中,所述项目提问指令携带有关联企业项目的项目问题数据;
对话模块,被配置为将所述项目问题数据输入至对话模型,获得所述对话模型基于所述项目问题数据输出的项目答案数据并展示,其中,所述对话模型由样本对话数据训练获得,所述样本对话数据由关联所述企业项目的事项标签数据和事项知识数据通过如权利要求1-10任意一项所述方法构建获得。
16.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至12任意一项所述方法的步骤。
17.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至12任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410109946.5A CN117633540B (zh) | 2024-01-25 | 2024-01-25 | 样本数据构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410109946.5A CN117633540B (zh) | 2024-01-25 | 2024-01-25 | 样本数据构建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117633540A CN117633540A (zh) | 2024-03-01 |
CN117633540B true CN117633540B (zh) | 2024-04-30 |
Family
ID=90025599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410109946.5A Active CN117633540B (zh) | 2024-01-25 | 2024-01-25 | 样本数据构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117633540B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347810A (zh) * | 2019-05-30 | 2019-10-18 | 重庆金融资产交易所有限责任公司 | 对话式检索回答方法、装置、计算机设备及存储介质 |
CN111930784A (zh) * | 2020-07-23 | 2020-11-13 | 南京南瑞信息通信科技有限公司 | 一种电网知识图谱构建方法及其系统 |
CN112182188A (zh) * | 2020-09-30 | 2021-01-05 | 珠海格力电器股份有限公司 | 一种基于知识图谱的问答方法及装置、存储介质 |
CN112949758A (zh) * | 2021-03-30 | 2021-06-11 | 中国建设银行股份有限公司 | 应答模型的训练方法、应答方法、装置、设备及存储介质 |
CN114547321A (zh) * | 2021-02-18 | 2022-05-27 | 北京中科五极数据科技有限公司 | 一种基于知识图谱的答案生成方法、装置及电子设备 |
CN116127095A (zh) * | 2023-01-04 | 2023-05-16 | 北京工业大学 | 一种序列模型与知识图谱结合的问答方法 |
CN116595125A (zh) * | 2022-09-08 | 2023-08-15 | 电子科技大学 | 一种基于知识图检索的开放域问答方法 |
CN116662564A (zh) * | 2023-05-23 | 2023-08-29 | 重庆大学 | 一种基于深度矩阵分解与知识图谱的服务推荐方法 |
CN116775821A (zh) * | 2023-05-22 | 2023-09-19 | 阿里巴巴(中国)有限公司 | 对话处理方法以及系统 |
CN117290489A (zh) * | 2023-11-24 | 2023-12-26 | 烟台云朵软件有限公司 | 一种行业问答知识库快速构建方法与系统 |
CN117312525A (zh) * | 2023-10-23 | 2023-12-29 | 湖南省爱数信息技术集团有限公司 | 基于知识图谱的问答方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11632305B2 (en) * | 2021-06-02 | 2023-04-18 | Jpmorgan Chase Bank, N.A. | Method and system for link prediction in large multiplex networks |
CN113918622B (zh) * | 2021-10-22 | 2022-04-19 | 南京理工大学 | 基于区块链的信息溯源方法及系统 |
-
2024
- 2024-01-25 CN CN202410109946.5A patent/CN117633540B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347810A (zh) * | 2019-05-30 | 2019-10-18 | 重庆金融资产交易所有限责任公司 | 对话式检索回答方法、装置、计算机设备及存储介质 |
CN111930784A (zh) * | 2020-07-23 | 2020-11-13 | 南京南瑞信息通信科技有限公司 | 一种电网知识图谱构建方法及其系统 |
CN112182188A (zh) * | 2020-09-30 | 2021-01-05 | 珠海格力电器股份有限公司 | 一种基于知识图谱的问答方法及装置、存储介质 |
CN114547321A (zh) * | 2021-02-18 | 2022-05-27 | 北京中科五极数据科技有限公司 | 一种基于知识图谱的答案生成方法、装置及电子设备 |
CN112949758A (zh) * | 2021-03-30 | 2021-06-11 | 中国建设银行股份有限公司 | 应答模型的训练方法、应答方法、装置、设备及存储介质 |
CN116595125A (zh) * | 2022-09-08 | 2023-08-15 | 电子科技大学 | 一种基于知识图检索的开放域问答方法 |
CN116127095A (zh) * | 2023-01-04 | 2023-05-16 | 北京工业大学 | 一种序列模型与知识图谱结合的问答方法 |
CN116775821A (zh) * | 2023-05-22 | 2023-09-19 | 阿里巴巴(中国)有限公司 | 对话处理方法以及系统 |
CN116662564A (zh) * | 2023-05-23 | 2023-08-29 | 重庆大学 | 一种基于深度矩阵分解与知识图谱的服务推荐方法 |
CN117312525A (zh) * | 2023-10-23 | 2023-12-29 | 湖南省爱数信息技术集团有限公司 | 基于知识图谱的问答方法、装置、设备及存储介质 |
CN117290489A (zh) * | 2023-11-24 | 2023-12-26 | 烟台云朵软件有限公司 | 一种行业问答知识库快速构建方法与系统 |
Non-Patent Citations (2)
Title |
---|
A Question Embedding-based Method to Enrich Features for Knowledge Base Question Answering;Wang Xin 等;《 2022 IEEE INTERNATIONAL SYMPOSIUM ON CIRCUITS AND SYSTEMS (ISCAS 22)》;20220601;第2851-2855页 * |
基于双曲图注意力网络的知识图谱链路预测方法;吴铮 等;《电子与信息学报》;20220630;第44卷(第6期);第2184-2194页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117633540A (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111026842B (zh) | 自然语言处理方法、自然语言处理装置及智能问答系统 | |
CN113127624B (zh) | 问答模型的训练方法及装置 | |
CN116595154B (zh) | 任务处理方法以及自动问答方法 | |
US11030405B2 (en) | Method and device for generating statement | |
CN117332072B (zh) | 对话处理、语音摘要提取以及目标对话模型训练方法 | |
CN116050405A (zh) | 文本处理、问答文本处理及文本处理模型训练方法 | |
CN116975288A (zh) | 文本处理方法及文本处理模型训练方法 | |
CN116610781A (zh) | 任务模型训练方法以及装置 | |
CN117271745A (zh) | 一种信息处理方法、装置及计算设备、存储介质 | |
CN117633540B (zh) | 样本数据构建方法及装置 | |
Kaviya et al. | Artificial intelligence based farmer assistant chatbot | |
CN117573842B (zh) | 文档检索方法以及自动问答方法 | |
CN113204623A (zh) | 问答方法及装置 | |
CN116467500B (zh) | 数据关系识别、自动问答、查询语句生成方法 | |
CN116578682B (zh) | 一种法务服务的智能咨询方法及系统 | |
CN117336539B (zh) | 一种用于短视频ip打造的视频脚本生产方法及系统 | |
Dasanayaka et al. | Contextual assistant framework for the sinhala language | |
CN117972047A (zh) | 文档检索方法以及自动问答方法 | |
CN118136154A (zh) | 数据处理方法、分子处理模型的训练方法 | |
CN117971420A (zh) | 任务处理、交通任务处理以及任务处理模型训练方法 | |
Roma et al. | A BERT-Based Approach to Intent Recognition | |
CN116204619A (zh) | 查询模板构建方法、信息查询方法、虚拟对话方法及装置 | |
CN117493578A (zh) | 一种基于数据库的分层信息知识增强方法及装置 | |
CN116680245A (zh) | 任务处理方法、数据补充方法以及任务处理系统 | |
CN117830447A (zh) | 图像生成、自动问答以及参数生成模型训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |