CN116561540A

CN116561540A - 业务数据校正方法、装置及ai数字人的训练方法、装置

Info

Publication number: CN116561540A
Application number: CN202310759719.2A
Authority: CN
Inventors: 李伟; 王英
Original assignee: 4u Beijing Technology Co ltd
Current assignee: 4u Beijing Technology Co ltd
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-08-08
Anticipated expiration: 2043-06-26
Also published as: CN116561540B

Abstract

本申请提供了一种业务数据校正方法、装置及AI数字人的训练方法、装置，其中，该业务数据校正方法包括：获取异常的业务数据；利用第一编码器对所述异常的业务数据进行编码，得到第一编码向量，并利用自回归解码器对所述第一编码向量进行解码得到初始业务文本信息；利用第二编码器对所述初始业务文本信息进行编码，得到第二编码向量，并基于所述第二编码向量，利用非自回归解码器对所述异常的业务数据进行校正。本申请解决了现有技术中用于训练AI数字人的业务数据中存在大量异常数据导致训练出的AI数字人的响应不准确的技术问题。

Description

业务数据校正方法、装置及AI数字人的训练方法、装置

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种业务数据校正方法、装置及AI数字人的训练方法、装置。

背景技术

AI数字人是利用人工智能技术创建的虚拟人物，其外貌、动作和语音能力高度逼真。通过AI算法和技术，AI数字人能够模拟人类的外观、行为和交流方式，使其在视觉和听觉上与真实人类无异。

AI数字人可以担任企业中的数字员工，如专业客服、行政前台、销售主播等，为企业提供内容传播、品牌营销和销售转化等服务。它们可以应用于各种终端场景，如PC、APP、小程序、VRMR等，以满足不同行业多样化的需求，并提升数据交互能力，助力企业在营销方面实现长足发展。

然而，目前的AI数字人的交互技术虽然使用了机器学习算法和自然语言处理技术，使得AI数字人能够理解和回应用户的提问或互动，但其互动能力通常基于诸如chatGPT等大型模型的训练，限制了其针对企业的个性化回应能力。

为了解决这一问题，现有技术中提出了一种根据企业的业务数据训练企业专属AI数字人的技术方案，使其对用户的问询做出更加符合企业实际情况、更加准确和严谨的回应。

然而，企业产生的业务数据类型多种多样，业务逻辑纷繁复杂，业务数据中经常存在大量的异常数据，如何校正这些异常数据是当前亟待解决的技术问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种业务数据校正方法、装置及AI数字人的训练方法、装置，以至少解决现有技术中用于训练AI数字人的业务数据中存在大量异常数据导致训练出的AI数字人的响应不准确的技术问题。

根据本申请实施例的一个方面，提供了一种业务数据校正方法，包括：获取异常的业务数据；利用第一编码器对所述异常的业务数据进行编码，得到第一编码向量，并利用自回归解码器对所述第一编码向量进行解码得到初始业务文本信息，其中，所述第一编码向量表征所述异常的业务数据在连续向量空间中的表示形式；利用第二编码器对所述初始业务文本信息进行编码，得到第二编码向量，并基于所述第二编码向量，利用非自回归解码器对所述异常的业务数据进行校正，其中，所述第二编码向量表征所述初始业务文本信息的特征向量。

根据本申请实施例的另一方面，还提供了一种AI数字人的训练方法，包括：获取业务数据；基于上述的业务数据校正方法来对所述业务数据进行预处理；基于预处理后的所述业务数据来训练所述AI数字人。

根据本申请实施例的又一个方面，还提供了一种业务数据校正装置，包括：数据获取模块，被配置为获取异常的业务数据；文本获取模块，被配置为利用第一编码器对所述异常的业务数据进行编码，得到第一编码向量，并利用自回归解码器对所述第一编码向量进行解码得到初始业务文本信息，其中，所述第一编码向量表征所述异常的业务数据在连续向量空间中的表示形式；校正模块，被配置为利用第二编码器对所述初始业务文本信息进行编码，得到第二编码向量，并基于所述第二编码向量，利用非自回归解码器对所述异常的业务数据进行校正，其中，所述第二编码向量表征所述初始业务文本信息的特征向量。

根据本申请实施例的又一个方面，还提供了一种AI数字人的训练装置，包括：获取模块，被配置为获取业务数据；如上所述的业务数据校正装置，被配置为对所述业务数据进行预处理；训练模块，被配置为基于预处理后的所述业务数据来训练所述AI数字人。

在本申请实施例中，获取异常的业务数据；利用第一编码器对所述异常的业务数据进行编码，得到第一编码向量，并利用自回归解码器对所述第一编码向量进行解码得到初始业务文本信息；利用第二编码器对所述初始业务文本信息进行编码，得到第二编码向量，并基于所述第二编码向量，利用非自回归解码器对所述异常的业务数据进行校正。通过上述方案，解决了现有技术中用于训练AI数字人的业务数据中存在异常数据导致训练出的AI数字人的响应不准确的技术问题。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种业务数据校正方法的流程图；

图2是根据本申请实施例的另一种业务数据校正方法的流程图；

图3是根据本申请实施例的一种对业务数据进行聚类的方法的流程图；

图4是根据本申请实施例的一种确定维度矩阵的方法的流程图；

图5是根据本申请实施例的一种利用异常标记来对业务数据进行校正的方法的流程图；

图6是根据本申请实施例的一种业务数据校正装置的结构示意图；

图7示出了适于用来实现本公开实施例的电子设备的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

实施例1

本申请实施例提供了一种业务数据校正方法，如图1所示，该方法包括以下步骤：

步骤S102，获取多个业务数据，并从所述多个业务数据中提取业务场景特征。

首先，从多个业务数据来源获取一系列相关的业务数据，例如企业的销售记录、客户行为数据、供应链数据等。这些数据可以以结构化形式存在，比如数据库表格，也可以以非结构化形式存在，如文本、日志文件等。

接下来，从获取的多个业务数据中提取与业务场景相关的特征。这些特征可以是数值型、离散型或文本型数据，用于描述不同的业务情况和行为。

在本实例中，允许从不同的业务数据源获取数据，并综合多个数据源。这样可以获得更全面和多样化的数据，更好地描述业务场景。此外，通过提取关键特征，可以捕捉到业务场景中最具代表性和重要性的信息，而忽略次要和不相关的数据，从而简化后续分析的复杂性。

步骤S104，采用聚类算法，对所述业务场景特征进行聚类分析，得到多个业务场景特征类。

针对每个未被归类的业务场景特征，在获取业务场景特征的特征向量后，计算其与业务场景特征类中多个聚类中心之间的距离。如果该特征向量与最近的聚类中心的距离大于等于预设的距离阈值，则创建一个新的业务场景特征类。将与该特征向量对应的未被归类的业务场景特征归为这个新的业务场景特征类，并将该未被归类的业务场景特征的特征向量作为新业务场景特征类的聚类中心。如果该特征向量与最近的聚类中心的距离小于预设的距离阈值，则将与该特征向量对应的未被归类的业务场景特征归属于与该最近聚类中心对应的业务场景特征类。

本实施例通过计算未归类的业务场景特征与已有聚类中心的距离，并根据预设的距离阈值进行分类决策，可以更准确地将业务场景特征归类到相应的业务场景特征类中。这有助于提高分类的准确性和可靠性。此外，通过在已有聚类中心与未归类的业务场景特征之间进行距离计算和分类判断，可以高效地处理大量的业务场景特征数据。这有助于减少计算和处理的时间成本，提高数据处理效率。

步骤S106，基于所述多个业务场景特征类中的每个业务场景特征类下的各个业务数据，来确定所述每个业务场景特征类的维度矩阵。

针对每个业务场景特征类，对其下的各个业务数据进行参数分布分析，以确定不同参数维度在每个业务场景特征类中的分布情况。通过这个分析，可以构建每个业务场景特征类的维度矩阵，其中维度矩阵反映了不同参数维度对应的参数值在该业务场景特征类中的分布情况。具体而言，针对每个参数维度，可以计算各个业务数据在该参数维度下不同参数值的出现频率。根据这些频率，可以确定不同参数维度在每个业务场景特征类中的分布情况。

本实施例通过对每个业务场景特征类下的各个业务数据进行参数分布分析，可以深入了解不同参数维度在每个业务场景特征类中的分布情况。这有助于获取业务场景特征类中参数值的偏好、分布范围以及可能存在的异常情况，进一步了解业务场景特征类的特点和特征。此外，通过分析不同参数维度在每个业务场景特征类中的分布情况，可以构建每个业务场景特征类的维度矩阵。该维度矩阵反映了不同参数维度对应的参数值在业务场景特征类中的分布情况。这为后续的数据分析和决策提供了基础，可以更好地理解和比较不同业务场景特征类之间的参数分布差异。

步骤S108，基于所述维度矩阵来识别与所述维度矩阵对应的业务场景特征类中是否存在异常的业务数据，并在存在所述异常的业务数据的情况下，获取所述异常的业务数据的异常位置。

针对所述每个业务数据，将所述每个业务数据映射到所述每个业务场景特征类的维度矩阵上，得到映射后的业务数据；计算所述映射后的业务数据与所述维度矩阵中每个参数维度的匹配程度，并基于所述匹配程度，来识别与所述映射后的业务数据对应的业务数据是否是所述异常的业务数据，最后，在确定为异常的业务数据的情况下，获取异常的业务数据及异常位置。

本实施例通过将每个业务数据映射到业务场景特征类的维度矩阵上，可以将原始的业务数据转换为在特定业务场景下的映射后的业务数据。这样的映射可以更好地反映数据与业务场景特征之间的关系和相互作用。此外，通过计算映射后的业务数据与维度矩阵中每个参数维度的匹配程度，可以评估数据在不同参数维度上的匹配程度。这有助于判断数据是否与业务场景特征类中的预期分布和特征一致，进一步分析数据的可靠性和准确性。

步骤S110，基于异常位置对业务数据进行校正。

利用第一编码器对所述异常的业务数据进行编码，得到第一编码向量，并利用自回归解码器对所述第一编码向量进行解码得到初始业务文本信息，其中，所述第一编码向量表征所述异常的业务数据在连续向量空间中的表示形式。

例如，利用所述第一编码器将所述异常的业务数据转换为多个密集的编码向量，以将所述异常的业务数据映射到连续的向量空间，其中，所述多个密集的编码向量中的部分或全部编码向量携带与所述异常位置对应的第一异常标记；利用所述第一编码器动态地为所述多个密集的编码向量分配不同的权重，以捕捉所述多个密集的编码向量的关键信息；基于所述权重，利用所述第一编码器的多层编码器分别对所述多个密集的编码向量进行编码，得到所述第一编码向量。

其中，所述多层编码器中的每个编码器为双向编码器，所述双向编码器包括所述前向子编码器和所述后向子编码器。在一些实施例中，可以利用前向子编码器从前向对所述多个密集的编码向量进行前向编码，得到前向编码向量；可以利用后向子编码器从后向对所述多个密集的编码向量进行后向编码，得到后向编码向量；然后，基于所述前向编码向量和所述后向编码向量，得到所述第一编码向量。

利用第二编码器对所述初始业务文本信息进行编码，得到第二编码向量，并基于所述第二编码向量，利用非自回归解码器对所述异常的业务数据进行校正，其中，所述第二编码向量表征所述初始业务文本信息的特征向量。

具体地，从所述第二编码向量中获取与所述第一异常标记对应的第二异常标记；基于所述第二编码向量和所述第二异常标记，利用所述非自回归解码器对所述异常的业务数据进行校正。针对所述第二异常标记指示的所述第二编码向量中的位置信息，增加所述第二编码器中与所述位置信息对应的编码器的编码权重；基于所述编码权重来进行预测，得到预测文本，并基于所述预测文本来校正所述异常的业务数据。

本申请实施例通过在多个密集编码向量中携带与异常位置对应的第一异常标记，可以将异常位置的信息嵌入到编码向量中，然后，利用第二编码器和非自回归解码器，结合第二异常标记和第二编码向量，可以对异常的业务数据进行校正。通过获取与第一异常标记对应的第二异常标记，可以确定异常位置所在的位置信息。根据这些位置信息，增加相应位置的编码器的编码权重，可以更加准确地预测和校正异常的业务数据。最后，根据编码权重和位置信息，可以使用预测文本来校正异常的业务数据。这样，可以修复异常数据并恢复到正常状态。

实施例2

以企业的呼叫中心服务（call center）的业务数据为例，语音识别技术可能会出现错误，导致识别结果与实际语音内容不符。这种情况可能由于背景噪声、发音不清晰或语速过快等因素引起。因此，识别出的文本数据可能包含词语错误、语法错误或不完整的句子。此外，不同地区和个人之间存在方言和口音的差异，这可能导致语音识别系统难以正确理解和转录语音内容。方言和口音的变化可能导致词语的发音不规范，从而使得识别的文本数据出现错误。此外，歧义性问题也会导致业务数据出现异常。例如，类似的发音或语音模式可能对应多个不同的词语，使得识别结果存在模糊性，从而引发错误。所有这些因素都可能导致业务数据中存在异常的情况，而且异常数据的数量有时会比较大。这些异常的业务数据进而会导致训练出的AI数字人的响应不准确的问题。

为了解决上述技术问题。本申请实施例提供了一种业务数据校正方法，如图2所示，该方法包括以下步骤：

步骤S202，对业务数据进行聚类，得到业务场景特征类。

在一些实施例中，聚类的方法可以如图3所示，包括以下步骤：

步骤S2022，从预设时间段内的业务数据中提取业务场景特征。

首先，确定要提取业务场景特征的预设时间段。根据具体需求，可以设置时间段为过去一个月、一季度或一年等。然后，从相应的数据源中获取预设时间段内的业务数据，包括用户行为记录、交易数据、日志文件等，以涵盖所关注的业务场景。接下来，确定要提取的业务场景，例如可以是用户的某个行为模式、某个产品的使用情况或某个服务的交互过程等。最后，从业务数据中提取业务场景特征，可以运用统计指标、时序模式、关联规则、机器学习算法等进行特征提取。例如，针对用户行为数据，可以提取用户访问频率、浏览时间、交互路径等特征；对于交易数据，可以提取交易金额、交易时间、商品类别等特征。

步骤S2024, 获取从所述业务数据中提取的业务场景特征中的每个未被归类的业务场景特征的特征向量。

对于每个未被归类的业务场景特征，通过特征提取方法将其转化为特征向量。例如，对于文本特征，可以应用自然语言处理技术将文本转换为词向量表示。对于数值特征，可以直接将其值作为特征向量的元素。特征向量的生成可以使用数学计算、算法转换或其他相应的方法。

步骤S2026, 计算所述业务场景特征类的多个聚类中心中距离所述特征向量最近的聚类中心与所述特征向量之间的距离。

针对每个未被归类的业务场景特征的特征向量，在不存在聚类中心的情况下，取业务场景特征类中的任意一个业务场景特征的特征向量作为业务场景特征类的聚类中心，并计算该未被归类的业务场景特征的特征向量到该聚类中心的距离，然后将该距离作为最近的聚类中心与该未被归类的业务场景特征的特征向量之间的距离。

在存在聚类中心的情况下，分别计算该未被归类的业务场景特征的特征向量与每个业务场景特征类的聚类中心之间的距离。例如，使用如欧氏距离或曼哈顿距离等距离度量方法，计算该特征向量与每个聚类中心之间的距离，并确定距离该特征向量最近的聚类中心。例如，通过比较每个距离值来找到最小距离，并将该最小距离作为最近的聚类中心与该特征向量之间的距离。

步骤S2028，基于距离确定业务场景特征类。

在上述距离大于等于预设距离阈值的情况下，建立新业务场景特征类，将该未被归类的业务场景特征归属为所述新业务场景特征类，并将该未被归类的业务场景特征的特征向量作为所述新业务场景特征类的聚类中心。在所述距离小于预设距离阈值的情况下，将该未被归类的业务场景特征归属为与距离所述特征向量最近的聚类中心相对应的业务场景特征类。

步骤S204，基于所述多个业务场景特征类中的每个业务场景特征类下的各个业务数据，来确定所述每个业务场景特征类的维度矩阵。

在示例性实施例中，维度矩阵的确定方法可以如图4所示，包括以下步骤：

步骤S2042，对业务数据进行参数分布分析。

针对每个业务场景特征类，对其下的各个业务数据进行参数分布分析。计算每个参数维度在该业务场景特征类中的分布情况，例如计算参数值的频率、占比等。

具体地，对于每个业务场景特征类，取出该类下的各个业务数据。针对每个参数维度，计算该维度在业务场景特征类中的分布情况。例如，可以通过统计每个参数值在该类中出现的次数或占比来实现。

例如，假设有一个参数维度W1，包含参数值A、B、C。在业务场景特征类中，统计参数维度W1下参数值A出现的次数为a，参数值B出现的次数为b，参数值C出现的次数为c。然后，计算参数值A的频率为a/(a+b+c)，参数值B的频率为b/(a+b+c)，参数值C的频率为c/(a+b+c)。

对于每个参数维度，构建该维度下不同参数值的分布数据。将参数值和对应的频率或占比组合成一个数据对，形成该参数维度的分布数据。以维度W1为例，构建的分布数据可以表示为{(A, 频率A), (B, 频率B), (C, 频率C)}。

步骤S2044，构建维度矩阵。

基于参数分布的分析结果，构建每个业务场景特征类的维度矩阵。维度矩阵是一个多维数组，其中每个维度对应一个参数维度，而矩阵中的每个元素表示该参数维度对应的参数值的分布情况。

具体地，首先，确定维度矩阵的大小，即确定维度矩阵的行数和列数。行数为参数维度的数量，列数为每个参数维度下的参数值数量。然后，对于每个参数维度，将其对应的参数值及其分布情况作为一行数据添加到维度矩阵中。例如，假设有以下参数维度及其对应的参数值：维度W1：参数值A、参数值B、参数值C；维度W2：参数值X、参数值Y、参数值Z，则，对于业务场景特征类中的每个参数维度，维度W1的参数分布情况为{(A, 0.4), (B, 0.3),(C, 0.3)}，维度W2的参数分布情况为{(X, 0.2), (Y,0.5), (Z, 0.3)}。然后，根据上述分布情况构建维度矩阵，其中，维度矩阵的行数为2，即对应两个参数维度：W1和W2，列数为3，即每个参数维度下的参数值数量为3。

步骤S2046，归一化处理。

对维度矩阵进行归一化处理，以确保不同参数维度之间的权重相互平衡。可以将每个参数维度的分布值除以该维度下所有参数值的总和或最大值，使得每个参数维度的值在0到1之间。

对于维度矩阵中的每个参数维度，计算该参数维度下所有参数值的总和或最大值，其将被用作归一化的分母。然后，遍历该参数维度下的每个参数值，将其对应的分布值除以分母，得到归一化后的分布值。更新维度矩阵中的每个参数维度的分布值为归一化后的分布值。

步骤S206，基于所述维度矩阵来识别与所述维度矩阵对应的业务场景特征类中是否存在异常的业务数据。

在一些实施例中，识别异常的业务数据的方法可以包括以下步骤：

步骤S2062，针对每个业务数据，将其映射到对应的维度矩阵上。

获取业务数据，其中，该业务数据包含多个参数值。针对每个参数维度，在维度矩阵中找到对应的参数维度，以得到映射后的业务数据。

步骤S2064，对于每个映射后的业务数据，计算其与维度矩阵中每个参数维度的匹配程度。

针对维度矩阵中的每个参数维度，计算映射后的业务数据与该参数维度的余弦相似度。具体地，对于每个参数维度，计算映射后的业务数据与该参数维度的余弦相似度，并将所有参数维度的余弦相似度进行求和。将求和结果除以参数维度的总数，得到余弦相似度的均值。这个均值表示映射后的业务数据与维度矩阵中所有参数维度的平均相似程度。比较均值与预设相似度阈值。如果均值小于预设相似度阈值，则将映射后的业务数据对应的业务数据识别为异常的业务数据。

本实施例通过计算余弦相似度的均值，可以综合考虑映射后的业务数据与维度矩阵中的每个参数维度之间的相似程度。如果均值小于预设相似度阈值，表示映射后的业务数据与维度矩阵整体的相似度较低，可能表明该业务数据在该业务场景特征类中存在异常。这样可以通过设定预设相似度阈值来判断业务数据是否异常，并进行相应的异常处理或分析。

具体地，首先，计算参数维度向量。根据某个参数维度上的参数值的分布情况，将参数值构建为一个向量。例如，在维度矩阵中，参数维度为地点，参数值"北京"的分布情况为0.4，表示"北京"这个参数值在该维度上的分布为0.4。将该分布情况构建为一个参数维度向量，例如[0, 0, 0, 0.4, 0, 0, 0, ...]，其中向量的长度等于参数值的总数，其余位置为0。

然后，计算映射后的业务数据向量。将映射后的业务数据表示为一个向量。根据业务数据在该参数维度上的取值，将对应位置的值设为1，其余位置为0。例如，如果映射后的业务数据的参数值是"城市A"，那么对应的向量表示为[1, 0, 0, 0, 0, 0, 0, ...]。

接着，计算余弦相似度。使用余弦相似度公式计算映射后的业务数据向量与参数维度向量之间的余弦相似度。重复上述步骤，直至计算出映射后的业务数据向量与其他参数维度向量的余弦相似度。

最后对余弦相似度求和并计算均值。将所有参数维度的余弦相似度进行求和，然后除以参数维度的总数，得到余弦相似度的均值。

例如，可以根据以下公式计算匹配程度：

其中，S表示匹配程度，A表示映射后的业务数据的向量，B_ij 表示第i 个参数维度的第 j 个参数值的向量。P_ij表示第i 个参数维度的第j 个参数值的分布情况，N表示参数维度的总数，M_i 表示第i个参数维度的参数值数量。

步骤S2066，根据计算得到的匹配程度，判断业务数据样本是否异常。

可以设置一个阈值来判断匹配程度是否超过或低于阈值，从而确定业务数据是否异常。例如，在所述余弦相似度的均值小于预设相似度阈值的情况，将与所述映射后的业务数据对应的业务数据识别为所述异常的业务数据。

步骤S208，对异常的业务数据进行校正处理。

在通过上述步骤识别出异常的业务数据之后，还需要对这些业务数据进行校正。如图5所示，该方法包括以下步骤：

步骤S2082，获取异常的业务数据。

步骤S2084，利用第一编码器对所述异常的业务数据进行编码，得到第一编码向量，并利用自回归解码器对所述第一编码向量进行解码得到初始业务文本信息。

1）利用第一编码器对异常的业务数据进行编码，得到第一编码向量。

首先将异常的业务数据输入到第一编码器中。第一编码器的主要任务是将输入的异常业务数据转换为一个向量表示，也就是第一编码向量。通过这个向量表示，可以将数据进行抽象和压缩，以捕捉异常业务数据的关键特征和信息，并在编码向量中携带与异常业务数据的异常位置对应的第一异常标记。

具体来说，首先使用嵌入层将异常的业务数据转换为密集的向量表示。嵌入层通过将每个单词或字符映射到一个连续的向量空间，可以更好地表示单词之间的语义关系，从而提高编码向量的语义相关性。此外，在第一编码器中引入注意力机制。注意力机制能够帮助模型更好地关注输入序列中的关键部分，并动态地分配权重给不同位置的输入，以准确捕捉异常数据的关键信息。这样可以增强编码向量的表达能力。最后，本实施例中的第一编码器采用多层编码器的结构。每个编码器层都能够独立地对输入进行编码，并将其传递给下一层。通过堆叠多个编码器层，可以捕捉不同抽象级别的异常数据特征，使得编码向量更具有丰富性和多样性。

为了更全面地编码异常数据，本实施例还引入了双向编码器。双向编码器由两个子编码器组成，分别从前向和后向处理输入序列。子编码器的输出可以合并，以获得更全面的编码表示。这样可以更好地利用上下文信息，提供更准确的编码向量。

最后，为了提高第一编码器的泛化能力和减少过拟合，本实施例采用了正则化和规范化方法。例如，采用批量归一化来规范化第一编码器的输出。批量归一化通过对每个批次的输入数据进行规范化，将其调整到均值为0、方差为1的标准正态分布。这样有助于解决内部协变量偏移和梯度消失等问题，提升第一编码器的性能。

本实施例通过将异常的业务数据输入第一编码器，并应用嵌入层、注意力机制、多层和双向编码器以及正则化和规范化技术，可以更好地提取异常数据的关键特征和信息，并将其表示为一个向量，即第一编码向量。这个向量表示捕捉了异常业务数据的关键特征和信息，包括与异常位置对应的第一异常标记。通过编码器的嵌入层和注意力机制，可以更好地表达异常数据的语义相关性，并利用多层和双向编码器提取更丰富和全面的异常数据特征。通过将异常的业务数据转换为第一编码向量，可以进一步应用该向量进行下一步的分析和处理。例如，可以将第一编码向量输入到其他模型或算法中，用于异常检测、分类或预测等任务。这样，可以利用第一编码向量所携带的关键信息，更准确地理解和处理异常业务数据。

需要注意的是，在实施中，还可以根据具体情况对第一编码器的结构和参数进行调整和优化。通过不断改进和优化第一编码器，可以进一步提升其性能和效果，使其适应各种异常业务数据的处理需求。

总之，通过将异常的业务数据输入第一编码器，并利用嵌入层、注意力机制、多层和双向编码器以及正则化和规范化技术，可以将异常数据转换为一个向量表示，捕捉其关键特征和信息。这为进一步分析和处理异常业务数据提供了基础，帮助更好地理解和应对异常情况。

2）利用自回归解码器对第一编码向量进行解码，得到初始业务文本信息。

使用第一编码向量作为输入，将其提供给自回归解码器。自回归解码器是一种序列生成模型，它根据已生成的序列部分来预测下一个序列元素。在这里，它的作用是根据第一编码向量生成初始业务文本信息的序列。

自回归解码器通过逐步生成序列的方式进行操作。它从一个起始标记开始，然后根据已生成的部分序列和上下文信息，逐步预测下一个序列元素。在每个时间步，解码器输出一个概率分布，表示下一个可能的序列元素。

在生成序列的过程中，可以使用一些策略来增强解码的准确性和多样性。例如，采用温度参数来调整概率分布的平滑程度，从而控制生成结果的保守性或创造性。还可以使用束搜索（beam search）等算法来选择最可能的序列。

通过重复进行解码操作，直到达到预定的序列长度或生成特定的终止标记，自回归解码器将生成完整的初始业务文本信息序列。在解码的过程中，将异常标记保留在解码得到的初始业务文本信息中。

本实施例通过自回归解码器对第一编码向量进行解码，可以生成初始的业务文本信息。自回归解码器能够根据已生成的序列部分和上下文信息，逐步预测下一个序列元素，以生成完整的初始业务文本信息序列。在解码的过程中，保留了异常标记，确保校正后的数据仍然包含异常位置信息。

步骤S2086，利用第二编码器对所述初始业务文本信息进行编码，得到第二编码向量，并基于所述第二编码向量，利用非自回归解码器对所述异常的业务数据进行校正。

1）利用第二编码器对所述初始业务文本信息进行编码，得到第二编码向量。

使用第二编码器对初始业务文本信息进行编码。第二编码器将初始文本信息转换为一个向量表示，即第二编码向量。该向量捕捉了初始业务文本信息中的关键特征和语义信息。在第二编码向量中保留了与初始业务文本信息中的异常标记对应的异常标记。本实施例通过第二编码器对初始业务文本信息进行编码，可以得到第二编码向量。这个向量捕捉了初始业务文本信息的关键特征和语义信息，并保留了与异常标记对应的异常标记。

2）基于所述第二编码向量和异常标记，利用非自回归解码器对所述异常的业务数据进行校正。

从第二编码向量中获取与第一异常标记对应的第二异常标记，第二异常标记指示了异常位置在第二编码向量中的位置信息。基于第二编码向量和第二异常标记，使用非自回归解码器对异常的业务数据进行校正。非自回归解码器可以根据第二编码向量和异常标记生成校正后的业务数据。校正后的业务数据可以是文本、数值或其他形式的数据。

具体地，根据第二异常标记指示的异常位置信息，增加第二编码器中与异常位置信息对应的编码器的编码权重。通过调整编码权重，加强与异常位置相关的编码器的影响力，以提高校正的准确性。

基于调整后的编码器权重，使用第二编码器对异常数据进行编码。利用编码后的向量，结合相应的解码器，进行非自回归解码，生成预测文本或数据。根据预测的文本或数据，对异常的业务数据进行校正。校正过程可以根据具体需求进行调整，例如修改、替换、插入或删除数据等操作。

本实施例根据第二编码向量和异常标记，使用非自回归解码器对异常的业务数据进行校正。非自回归解码器可以根据第二编码向量和异常标记生成校正后的业务数据，根据具体的异常位置信息进行相应的修正操作。这种校正方式可以针对特定异常进行精细调整，提高校正的准确性。

本申请实施例针对已识别出的异常业务数据进行校正处理，使其符合预期的数据规范和标准。通过校正，可以修复异常数据中的错误、缺失或不一致之处，提高数据的准确性和一致性。

实施例3

本申请实施例提供了一种AI数字人的训练方法，该方法包括以下步骤：

首先，获取业务数据。

接着，对业务数据进行预处理。

本实施例中，对业务数据进行预处理的方法和实施例1、2中的方法类似，此处不再赘述。

最后，基于预处理后的所述业务数据来训练所述AI数字人。

本实施例通过训练AI数字人时基于预处理后的业务数据，可以使得AI数字人具备更准确的理解和响应能力。预处理后的业务数据反映了真实场景的特征，训练出的AI数字人可以更好地适应实际情况，并提供准确的解决方案、建议或响应。

实施例4

本申请实施例提供了一种业务数据校正装置，如图6所示，包括：数据获取模块62、文本获取模块64、和校正模块66。

数据获取模块62被配置为获取异常的业务数据；文本获取模块64被配置为利用第一编码器对所述异常的业务数据进行编码，得到第一编码向量，并利用自回归解码器对所述第一编码向量进行解码得到初始业务文本信息，其中，所述第一编码向量表征所述异常的业务数据在连续向量空间中的表示形式；校正模块66被配置为利用第二编码器对所述初始业务文本信息进行编码，得到第二编码向量，并基于所述第二编码向量，利用非自回归解码器对所述异常的业务数据进行校正，其中，所述第二编码向量表征所述初始业务文本信息的特征向量。

需要说明的是：上述实施例提供的业务数据校正装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的业务数据校正装置与业务数据校正方法实施例属于同一构思，其具体实现过程详见方法实施例，此处不再赘述。

本申请实施例还提供了一种AI数字人的训练装置，包括：获取模块，被配置为获取业务数据；如上所述的业务数据校正装置，被配置为对所述业务数据进行预处理；训练模块，被配置为基于预处理后的所述业务数据来训练所述AI数字人。

实施例5

图7示出了适于用来实现本公开实施例的电子设备的结构示意图。需要说明的是，图7示出的电子设备仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，该电子设备包括中央处理单元(CPU)1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有系统操作所需的各种程序和数据。CPU1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的方法和装置中限定的各种功能。在一些实施例中，电子设备还可以包括AI( ArtificialIntelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现上述方法实施例的各个步骤等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的终端设备，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种业务数据校正方法，其特征在于，包括：

获取异常的业务数据；

利用第一编码器对所述异常的业务数据进行编码，得到第一编码向量，并利用自回归解码器对所述第一编码向量进行解码得到初始业务文本信息，其中，所述第一编码向量表征所述异常的业务数据在连续向量空间中的表示形式；

2.根据权利要求1所述的方法，其特征在于，获取异常的业务数据，包括：

获取多个业务数据，并从所述多个业务数据中提取业务场景特征；

采用聚类算法，对所述业务场景特征进行聚类分析，得到多个业务场景特征类；

基于所述多个业务场景特征类中的每个业务场景特征类下的各个业务数据，来确定所述每个业务场景特征类的维度矩阵，其中，所述维度矩阵表示所述每个业务场景特征类的不同参数维度对应的参数值的分布情况；

基于所述维度矩阵来识别与所述维度矩阵对应的业务场景特征类中是否存在异常的业务数据，并在存在所述异常的业务数据的情况下，获取所述异常的业务数据以及所述异常的业务数据的异常位置。

3.根据权利要求2所述的方法，其特征在于，利用第一编码器对所述异常的业务数据进行编码，得到第一编码向量，包括：

利用所述第一编码器将所述异常的业务数据转换为多个密集的编码向量，以将所述异常的业务数据映射到所述连续向量空间，其中，所述多个密集的编码向量中的部分或全部编码向量携带与所述异常位置对应的第一异常标记；

利用所述第一编码器动态地为所述多个密集的编码向量分配不同的权重，以捕捉所述多个密集的编码向量的关键信息；

基于所述权重，利用所述第一编码器的多层编码器分别对所述多个密集的编码向量进行编码，得到所述第一编码向量。

4.根据权利要求3所述的方法，其特征在于，利用所述第一编码器的多层编码器分别对所述多个密集的编码向量进行编码，得到所述第一编码向量，包括：

利用前向子编码器从前向对所述多个密集的编码向量进行前向编码，得到前向编码向量；

利用后向子编码器从后向对所述多个密集的编码向量进行后向编码，得到后向编码向量；

基于所述前向编码向量和所述后向编码向量，得到所述第一编码向量；

其中，所述多层编码器中的每个编码器为双向编码器，所述双向编码器包括所述前向子编码器和所述后向子编码器。

5.根据权利要求3所述的方法，其特征在于，基于所述第二编码向量，利用非自回归解码器对所述异常的业务数据进行校正，包括：

从所述第二编码向量中获取与所述第一异常标记对应的第二异常标记，其中，所述第二异常标记指示了所述异常位置在所述第二编码向量中的位置信息；

基于所述第二编码向量和所述第二异常标记，利用所述非自回归解码器对所述异常的业务数据进行校正。

6.根据权利要求5所述的方法，其特征在于，基于所述第二编码向量和所述第二异常标记，利用所述非自回归解码器对所述异常的业务数据进行校正，包括：

针对所述第二异常标记指示的所述第二编码向量中的位置信息，增加所述第二编码器中与所述位置信息对应的编码器的编码权重；

基于所述编码权重来进行预测得到预测文本，并基于所述预测文本来校正所述异常的业务数据。

7.一种AI数字人的训练方法，其特征在于，包括：

获取业务数据；

基于权利要求1至6中任一项所述的方法来对所述业务数据进行预处理；

基于预处理后的所述业务数据来训练所述AI数字人。

8.一种业务数据校正装置，其特征在于，包括：

数据获取模块，被配置为获取异常的业务数据；

文本获取模块，被配置为利用第一编码器对所述异常的业务数据进行编码，得到第一编码向量，并利用自回归解码器对所述第一编码向量进行解码得到初始业务文本信息，其中，所述第一编码向量表征所述异常的业务数据在连续向量空间中的表示形式；

校正模块，被配置为利用第二编码器对所述初始业务文本信息进行编码，得到第二编码向量，并基于所述第二编码向量，利用非自回归解码器对所述异常的业务数据进行校正，其中，所述第二编码向量表征所述初始业务文本信息的特征向量。

9.一种AI数字人的训练装置，其特征在于，包括：

获取模块，被配置为获取业务数据；

如权利要求8所述的业务数据校正装置，被配置为对所述业务数据进行预处理；

训练模块，被配置为基于预处理后的所述业务数据来训练所述AI数字人。

10.一种计算机可读存储介质，其上存储有程序，其特征在于，在所述程序运行时，使得计算机执行如权利要求1至6中任一项所述的方法。