CN111783143B

CN111783143B - 用户数据的业务模型使用确定方法、装置及系统

Info

Publication number: CN111783143B
Application number: CN202010722285.5A
Authority: CN
Inventors: 王力; 周俊
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2023-05-09
Anticipated expiration: 2040-07-24
Also published as: CN111783143A

Abstract

本说明书实施例提供用户数据的业务模型使用确定方法及系统。业务模型包括第一特征向量化模型和业务预测模型。将第一用户的第一用户数据提供给第一特征向量化模型得到第一特征向量表示。将第一特征向量表示提供给用户归属确定模型来确定对应的用户归属预测标签。在用户归属预测标签指示属于第一用户时，输出用于指示第一用户数据被业务模型使用的指示信息。用户归属确定模型利用第一数据集训练出。第一数据集包括第二数据集的各个第二数据的第二特征向量表示以及各个第二数据的用户归属标签。第二数据包括公共数据以及第一用户的部分用户数据。各个第二数据的第二特征向量表示利用基于第二数据集训练的第二特征向量化模型得到。

Description

用户数据的业务模型使用确定方法、装置及系统

技术领域

本说明书实施例通常涉及人工智能领域，尤其涉及用于确定用户数据是否被业务模型使用的方法、装置及系统。

背景技术

在机器学习领域，业务模型被广泛地应用于业务服务提供方所提供的各种业务服务场景，比如，业务风险识别、业务决策、用户人群识别等等。在进行业务服务时，业务服务提供方会收集大量的用户数据，并且将所收集的用户数据使用来训练业务模型，从而使得业务模型学习和记忆用户数据中携带的特征信息，由此训练出业务模型。然后，利用训练好的业务模型来进行模型预测，并根据模型预测结果来向用户或客户提供相应的业务服务。业务模型训练时所使用的用户数据包含大量用户隐私数据。由于用户隐私数据会涉及用户隐私，数据拥有方并不希望所具有的用户隐私数据在未经许可的情况下被业务模型使用来进行模型训练。由此，如何确定数据拥有方所具有的用户隐私数据是否被业务模型使用来进行模型训练，成为期待解决的问题。

发明内容

鉴于上述，本说明书实施例提供用于确定第一用户的第一用户数据是否被业务模型使用的方法，所述业务模型包括第一特征向量化模型和业务预测模型。在该方法，利用包括公共数据集以及部分用户数据的第二数据集训练出第二特征向量化模型，并根据所训练出的第二特征向量化模型得到的各个第二数据的第二特征向量表示以及各个第二数据的用户归属标签来训练出用户归属确定模型。随后，使用业务模型的第一特征向量化模型得到第一用户的第一用户数据的第一特征向量表示，并将第一特征向量表示提供给用户归属确定模型来确定第一用户数据的用户归属预测标签，由此确定业务模型是否使用第一用户数据来进行模型训练。此外，在确定第一用户数据被业务模型使用来进行模型训练时，向业务模型的模型提供方发送隐私数据保护请求，由此进一步提升隐私数据保护效果。

根据本说明书实施例的一个方面，提供一种用于确定第一用户的第一用户数据是否被业务模型使用的方法，所述业务模型包括第一特征向量化模型和业务预测模型，所述方法包括：将第一用户的第一用户数据提供给所述业务模型的第一特征向量化模型，得到所述第一用户数据的第一特征向量表示；将所述第一用户数据的第一特征向量表示提供给用户归属确定模型，确定所述第一特征向量表示的用户归属预测标签；以及在所述用户归属预测标签指示属于所述第一用户时，输出用于指示所述第一用户数据被所述业务模型使用的指示信息，其中，所述用户归属确定模型利用第一数据集训练出，所述第一数据集包括第二数据集的各个第二数据的第二特征向量表示以及各个第二数据的用户归属标签，所述第二数据至少包括公共数据以及所述第一用户的至少部分用户数据，各个第二数据的第二特征向量表示利用基于所述第二数据集训练出的第二特征向量化模型得到，所述第一和第二特征向量化模型输出的特征向量表示的维度相同。

可选地，在上述方面的一个示例中，所述第二数据仅仅包括公共数据以及所述第一用户的至少部分用户数据，以及所述用户归属确定模型是二分类模型。

可选地，在上述方面的一个示例中，所述第二数据包括公共数据、第一用户的至少部分用户数据以及至少一个第二用户的至少部分用户数据，以及所述用户归属确定模型是多分类模型。

可选地，在上述方面的一个示例中，所述第一用户数据是文本数据，以及所述业务模型的第一特征向量化模型的输入数据具有规定的数据长度范围。

可选地，在上述方面的一个示例中，在所述第一用户数据的数据长度小于所述数据长度范围的下限值时，对所述第一用户数据进行数据长度补足处理。

可选地，在上述方面的一个示例中，针对所述第一用户数据的数据长度补足处理是基于所述第一用户数据的数据内容的数据长度补足处理。

可选地，在上述方面的一个示例中，基于所述第一用户数据的数据内容的数据长度补足处理包括：利用滑动窗口文本抽取机制来对所述第一用户数据进行数据内容抽取，并根据所抽取的数据内容得到经过数据长度补足后的第一用户数据；或者将所述第一用户数据提供给文本生成模型，得到经过数据长度补足后的第一用户数据。

可选地，在上述方面的一个示例中，在所述第一用户数据的数据长度大于所述数据长度范围的上限值时，对所述第一用户数据进行数据长度截取处理，所述截取后的第一用户数据的数据长度在所述数据长度范围内。

可选地，在上述方面的一个示例中，所述截取后的第一用户数据包括得到多个截取后的第一用户数据，所述第一用户数据的全部数据内容包含在所述多个截取后的第一用户数据中，并且所述多个截取后的第一用户数据被提供给所述第一特征向量化模型。

可选地，在上述方面的一个示例中，所述第二特征向量化模型包括至少两个第二特征向量化模型，以及各个第二特征向量化模型利用从所述第二数据集采样的训练数据训练出。

可选地，在上述方面的一个示例中，所述方法还可以包括：响应于输出用于指示所述第一用户数据被所述业务模型使用的指示信息，向所述业务模型的模型提供方发送隐私数据保护请求。

根据本说明书的实施例的另一方面，提供一种用于确定第一用户的第一用户数据是否被业务模型使用的装置，所述业务模型包括第一特征向量化模型和业务预测模型，所述装置包括：特征向量表示获取单元，将第一用户的第一用户数据提供给所述业务模型的第一特征向量化模型，得到所述第一用户数据的第一特征向量表示；用户归属标签确定单元，将所述第一用户数据的第一特征向量表示提供给用户归属确定模型，确定所述特征向量表示的用户归属预测标签；以及输出单元，在所述用户归属预测标签指示属于所述第一用户时，输出用于指示所述第一用户数据被所述业务模型使用的指示信息，其中，所述用户归属确定模型利用第一数据集训练出，所述第一数据集包括第二数据集的各个第二数据的第二特征向量表示以及各个第二数据的用户归属标签，所述第二数据集至少包括公共数据集以及所述第一用户的至少部分用户数据，各个第二数据的第二特征向量表示利用基于所述第二数据集训练出的第二特征向量化模型得到，所述第一和第二特征向量化模型输出的特征向量表示的维度相同。

可选地，在上述方面的一个示例中，所述装置还可以包括：用户数据处理单元，在所述第一用户数据的数据长度小于所述数据长度范围的下限值时，对所述第一用户数据进行数据长度补足处理。

可选地，在上述方面的一个示例中，在所述第一用户数据的数据长度小于所述数据长度范围的下限值时，所述用户数据处理单元基于所述第一用户数据的数据内容对所述第一用户数据进行数据长度补足处理。

可选地，在上述方面的一个示例中，在所述第一用户数据的数据长度小于所述数据长度范围的下限值时，所述用户数据处理单元：利用滑动窗口文本抽取机制来对所述第一用户数据进行数据内容抽取，并根据所抽取的数据内容得到经过数据长度补足后的第一用户数据；或者将所述第一用户数据提供给文本生成模型，得到经过数据长度补足后的第一用户数据。

可选地，在上述方面的一个示例中，在所述第一用户数据的数据长度大于所述数据长度范围的上限值时，所述用户数据处理单元对所述第一用户数据进行数据长度截取处理，所述截取后的第一用户数据的数据长度在所述数据长度范围内。

可选地，在上述方面的一个示例中，所述截取后的第一用户数据包括多个截取后的第一用户数据，所述第一用户数据的全部数据内容包含在所述多个截取后的第一用户数据中，并且所述多个截取后的第一用户数据被提供给所述第一特征向量化模型。

可选地，在上述方面的一个示例中，所述装置还可以包括：数据保护请求发送单元，响应于输出用于指示所述第一用户数据被所述业务模型使用的指示信息，向所述业务模型的模型提供方发送隐私数据保护请求。

根据本说明书的实施例的另一方面，提供一种用于确定第一用户的第一用户数据是否被业务模型使用的系统，所述业务模型包括第一特征向量化模型和业务预测模型，所述系统包括：用户归属确定模型训练装置，利用第一数据集训练出用户归属确定模型，所述第一数据集包括第二数据集的各个第二数据的第二特征向量表示以及各个第二数据的用户归属标签，所述第二数据至少包括公共数据以及所述第一用户的至少部分用户数据；特征向量化模型训练装置，基于第二数据集训练出第二特征向量化模型，所述第二特征向量化模型被使用来得到各个第二数据的第二特征向量表示，所述第一和第二特征向量化模型输出的特征向量表示的维度相同；以及如上所述的用户归属确定装置。

根据本说明书的实施例的另一方面，提供一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器耦合的存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如上所述的方法。

根据本说明书的实施例的另一方面，提供一种机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如上所述的方法。

附图说明

通过参照下面的附图，可以实现对于本说明书内容的本质和优点的进一步理解。在附图中，类似组件或特征可以具有相同的附图标记。

图1示出了业务模型的示例示意图。

图2示出了根据本说明书的实施例的用于确定用户数据是否被业务模型使用的系统的示例示意图。

图3示出了根据本说明书的实施例的用于确定用户数据是否被业务模型使用的过程的示例示意图。

图4示出了根据本说明书的实施例的在用户归属确定装置处执行的用于确定用户数据是否被业务模型使用的方法的流程图。

图5示出了根据本说明书的实施例的用户数据的数据长度补足处理过程的一个示例的示意图。

图6示出了根据本说明书的实施例的用户数据的数据长度补足处理过程的另一示例的示意图。

图7示出了根据本说明书的实施例的用户数据的数据长度截取处理过程的一个示例的示意图。

图8示出了根据本说明书的实施例的用于确定用户数据是否被业务模型使用的装置的方框图。

图9示出了根据本说明书的实施例的用于实现用户归属确定装置的电子设备的示意图。

具体实施方式

现在将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。例如，所描述的方法可以按照与所描述的顺序不同的顺序来执行，以及各个步骤可以被添加、省略或者组合。另外，相对一些示例所描述的特征在其它例子中也可以进行组合。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义，无论是明确的还是隐含的。除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

下面将结合附图详细描述根据本说明书的实施例的用于确定用户数据是否被业务模型使用的方法、装置和系统。

在本说明书中，用户数据被业务模型使用是指用户数据被业务模型使用来进行模型训练，从而使得业务模型能够学习和记忆用户数据的特征信息，由此业务模型可以基于所记忆的用户数据的特征信息来进行业务预测。

图1示出了业务模型100的示例示意图。

如图1所示，业务模型100包括特征向量化模型10和业务预测模型20。特征向量化模型10被配置为对用户数据集进行向量化处理，得到用户数据集中的各个用户的用户数据的特征向量表示。在一个示例中，用户数据集中的用户数据可以是文本数据。例如，用户数据可以是本地收集的用户特征数据，例如，用户姓名、用户年龄、用户购买行为、用户网络操作行为、用户职业、用户身高等等。在一个示例中，每条用户数据样本的数据长度可以是固定长度值，也可以是不固定的长度值。例如，针对每个用户，可以从用户数据集中进行多次数据采样来得到多条用户数据样本。每条用户数据样本得到一个特征向量表示。在本说明书中，经由特征向量化模型得到的特征向量表示的维度是固定值，所述固定值可以是预先确定的整数值，例如，特征向量表示的维度可以为200维。

所得到的各个用户的用户数据的特征向量表示被提供给业务预测模型20，由业务预测模型20使用来进行业务预测。在本说明书中，业务预测模型20可以是用于任何业务应用场景的业务预测模型。业务预测模型20的示例例如可以包括但不限于业务风险识别模型、业务分类模型、用户人群识别模型、用户行为预测模型等等。

为了使得业务模型100的模型预测结果准确，业务模型100的模型提供方会收集大量的用户数据，并使用所收集的用户数据来训练业务模型100，由此得到训练好的业务模型100。然而，用户数据会涉及用户隐私，为了保护用户隐私，用户数据的数据拥有方(或者用户)可能不希望所具有的用户隐私数据在未经许可的情况下被业务模型使用来进行模型训练，或者不希望被业务模型使用来进行模型训练。由于业务模型的内部操作或内部处理不容易被外部获取，从而数据拥有方难以知晓自己拥有的用户隐私数据是否被业务模型使用。由此，需要提供一种用于确定数据拥有方所具有的用户隐私数据是否被业务模型使用来进行模型训练的技术方案。

图2示出了根据本说明书的实施例的用于确定用户数据是否被业务模型使用的系统(下文中称为“用户归属确定系统”)200的示例示意图。如图2所示，用户归属确定系统200包括特征向量化模型训练装置210、用户归属确定模型训练装置220和用户归属确定装置230。在图2中示出的示例中，业务模型包括第一特征向量化模型和业务预测模型。

特征向量化模型训练装置210被配置为基于第二数据集训练出第二特征向量化模型，所述第二特征向量化模型被使用来得到各个第二数据的第二特征向量表示。这里，第二数据集中的第二数据至少包括公共数据以及第一用户的至少部分用户数据。公共数据例如可以是不属于任何用户所有的公用数据(即，非用户隐私数据)。第二数据集可以由特征向量化模型训练方例如本地收集或者经由网络获取。

用户归属确定模型训练装置220被配置为利用第一数据集训练出用户归属确定模型。在本说明书中，第一数据集包括第二数据集的各个第二数据的第二特征向量表示以及各个第二数据的用户归属标签。例如，第二数据集中的公共数据不属于任何用户，从而其用户归属标签为0。具有用户归属的用户数据，其用户归属标签为对应的用户。在一个示例中，可以针对每个用户(例如，第一用户)训练出一个用户归属确定模型，相应地，用户归属标签为二分类标签，即，用户归属标签(第一用户)为0或1，或者用户归属标签为一个概率值。在用户归属标签为0或者概率值低于预定阈值时，表示该数据不属于该用户(第一用户)。在用户归属标签为1或不低于预定阈值时，表示该数据属于该用户(第一用户)。在一个示例中，可以针对所有用户训练出一个用户归属确定模型，相应地，用户归属标签为多分类标签，即，用户归属标签为标签向量，例如，假设有N个用户，则用户归属标签为N维标签向量，该N维标签向量至多存在一个元素的值为1或者一个元素的值大于预定阈值。在N维标签向量存在元素值1或大于预定阈值的元素值时，表示该数据属于该元素所对应的用户。

在本说明书中，第一和第二特征向量化模型输出的第一和第二特征向量表示的维度相同，从而针对相同的用户数据，第二特征向量化模型可以输出与第一特征向量化模型得到的特征向量表示类似的特征向量表示。

用户归属确定装置230被配置为将第一用户的第一用户数据依序提供给业务模型的第一特征向量化模型以及所训练出的用户归属确定模型来判断第一用户数据是否被业务模型使用。用户归属确定装置230的操作和结构将在下面参照附图详细说明。

如图3所示，在本地或者经由网络收集第二数据集，第二数据集中的第二数据至少包括公共数据以及至少第一用户的至少部分第一用户数据。第二数据集中的各个第二数据具有用户归属标签。在另一示例中，第二数据还可以包括至少第二用户的至少部分第二用户数据。

利用所收集的第二数据集中的第二数据训练出第二特征向量化模型，所训练出的第二特征向量化模型被配置为对数据进行向量化处理，得到数据的第二特征向量表示。在本说明书的一个示例中，可以通过对第二数据集进行K次数据采样，得到K个训练和测试数据集。所述K个训练和测试数据集可以被使用来训练出K个第二特征向量化模型。在另一示例中，也可以使用第二数据集来训练出一个第二特征向量化模型。

然后，将第二数据集中的每个第二数据提供给所训练出的第二特征向量化模型，得到各个第二数据的第二特征向量表示。然后，利用所得到的各个第二数据的第二特征向量表示以及各个第二数据的用户归属标签，构建用于训练用户归属确定模型的第一数据集。接着，利用所构建出的第一数据集来训练出用户归属确定模型。

在本说明书的一个示例中，如果第二数据仅仅包括公共数据以及第一用户的至少部分用户数据，则所训练出的用户归属确定模型是二分类模型。用户归属确定模型的输出结果是属于第一用户的概率。

在本说明书的另一示例中，如果第二数据包括公共数据、第一用户的至少部分用户数据以及至少一个第二用户的至少部分用户数据，则所训练出的用户归属确定模型是多分类模型。用户归属确定模型的输出结果是属于各个用户的概率，即，输出结果是概率向量。

在完成上述第二特征向量化模型和用户归属确定模型的训练后，可以使用所训练出的用户归属确定模型来判断第一用户的第一用户数据是否被业务模型使用。具体地，如图3所示，将第一用户的第一用户数据提供给业务模型的第一特征向量化模型，得到第一用户数据的第一特征向量表示。然后，将第一用户数据的第一特征向量表示提供给用户归属确定模型，得到该第一特征向量表示的用户归属预测标签。随后，根据所确定出的用户归属预测标签来判断第一用户数据是否被业务模型使用。例如，如果所得到的用户归属预测标签的概率值大于预定阈值，则认为该用户归属预测标签指示第一用户数据属于第一用户，由此确定第一用户数据被业务模型使用。

图4示出了根据本说明书的实施例的在用户归属确定装置230处执行的用于确定用户数据是否被业务模型使用的方法(下文中称为“用户归属确定方法”)400的流程图。

如图4所示，在410，将第一用户的第一用户数据提供给业务模型的第一特征向量化模型，得到第一用户数据的第一特征向量表示。接着，在420，将第一用户数据的第一特征向量表示提供给用户归属确定模型，确定第一特征向量表示的用户归属预测标签。

然后，在430，判断用户归属预测标签是否指示第一特征向量表示对应于第一用户(即，第一特征向量表示所对应的数据属于第一用户)。

在用户归属预测标签指示属于第一用户时，在440，输出用于指示第一用户数据被业务模型使用的指示信息。这里，指示信息可以是视频信息、音频信息、告警信息或者文本信息中的至少一种。所述告警信息的示例例如包括但不限于蜂鸣告警、闪烁告警、语音告警等等。所述指示信息例如可以定向提供给用户，或者也可以以广播方式提供给外部。

在用户归属预测标签指示不属于第一用户时，流程结束，或者提供用于指示第一用户数据未被业务模型使用的指示信息。

此外，可选地，在一个示例中，第一用户数据可以是文本数据，以及业务模型的第一特征向量化模型的输入数据具有规定的数据长度范围。例如，所述数据长度范围可以是30到50个分词，或者可以固定为50个分词。

相应地，图4中所示的用户归属确定方法还可以包括对第一用户数据进行数据处理。具体地，在一个示例中，在第一用户数据的数据长度小于数据长度范围的下限值时，可以对第一用户数据进行数据长度补足处理。例如，可以基于第一用户数据的数据内容针对第一用户数据执行数据长度补足处理。

如图5所示，针对第一用户数据“This is an example，this is somewhat sick”，可以利用滑动窗口文本抽取机制来对第一用户数据进行数据内容抽取。例如，可以利用3个滑动窗口来对第一用户数据进行数据内容抽取，由此得到三个数据抽取内容“This is anexample”，“this is somewhat sick this is an example an example”和“this issomewhat”。

随后，根据所抽取的数据内容得到经过数据长度补足后的第一用户数据。例如，可以将所得到的三个数据抽取内容级联，得到经过数据长度补足处理后的第一用户数据“This is an example，this is somewhat sick this is an example an example，thisis somewhat”。

利用上述数据长度补足处理，所得到的经过数据长度补足后的第一用户数据中存在冗余数据内容，但是由于所补充的数据内容都是从第一用户数据中抽取的，从而不会引入不是第一用户数据的数据内容，由此确保第二特征向量化模型得到的特征向量表示不会引入新的特征信息。

如图6所示，针对第一用户数据“This is an example，this is somewhat sick”，可以从网络获取用于数据补长的文本生成模型。然后，将该第一用户数据提供给所获取的文本生成模型，由此得到经过数据长度补足后的第一用户数据，即，“This is an example,this is somewhat sick,but it can be overcome if we find a way together”。这里，所补充的数据内容“but it can be overcome if we find a way together”例如可以是利用文本生成模型，基于原始第一用户数据的上下文来生成的。

利用上述数据长度补足处理，所得到的经过数据长度补足后的第一用户数据中不存在冗余数据内容，并且所引入的新数据内容是基于原始第一用户数据的上下文生成的，从而该新数据内容与原始第一用户数据之间存在强关联性，由此可以补充和丰富第一用户数据的特征信息，从而为第二特征向量化模型提供具有更丰富特征信息的输入数据，由此可以得到更好的特征向量表示。

可选地，在另一示例中，第一用户数据的数据长度可以大于数据长度范围的上限值。在第一用户数据的数据长度大于数据长度范围的上限值时，可以对第一用户数据进行数据长度截取处理，所述截取后的第一用户数据的数据长度在数据长度范围内。例如，在一个示例中，可以从第一用户数据中截取部分用户数据作为第二特征向量化模型的模型输入数据。在另一个示例中，可以对第一用户数据进行多次数据长度截取处理，得到多个截取后的第一用户数据，所述第一用户数据的全部数据内容包含在该多个截取后的第一用户数据中。

图7示出了根据本说明书的实施例的用户数据的数据长度截取处理过程的一个示例的示意图。如图7所示，针对第一用户数据“Books possess an essence ofimmortality.They are by far the most lasting products of human effort.Templesand statues decay,but books survive.Time is of no account with greatthoughts,which are as fresh today as when they first passed through theirauthor’s minds,ages ago.What was then said and thought still speaks to us asvividly as ever from the printed page.The only effect of time have been tosift out the bad products；for nothing in literature can long survive e butwhat is really good.Books introduce us into the best society；they bring usinto the presence of the greatest minds that have ever lived.We hear whatthey said and did；we see the as if they were really alive；we sympathize withthem,enjoy with them,grieve with them；their experience becomes ours,and wefeel as if we were in a measure actors with them in the scenes which theydescribe.”，可以执行三次用户数据截取，得到第一用户数据样本A“Books possess anessence of immortality.They are by far the most lasting products of humaneffort.Temples and statues decay,but books survive.Time is of no account withgreat thoughts,which are as fresh today as when they first passed throughtheir author’s minds,ages ago.”，第一用户数据样本B“What was then said andthought still speaks to us as vividly as ever from the printed page.The onlyeffect of time have been to sift out the bad products；for nothing inliterature can long survive e but what is really good.”，以及第一用户数据样本C“Books introduce us into the best society；they bring us into the presence ofthe greatest minds that have ever lived.We hear what they said and did；we seethe as if they were really alive；we sympathize with them,enjoy with them,grieve with them；their experience becomes ours,and we feel as if we were in ameasure actors with them in the scenes which they describe.”。

然后，将多个截取后的第一用户数据被提供给第一特征向量化模型，由此得到多个第一特征向量表示。随后，将该多个第一特征向量表示提供给用户归属确定模型，确定各个第一特征向量表示的用户归属预测标签。如果该多个第一特征向量表示的用户归属预测标签中存在一个用户归属预测标签指示属于第一用户，则表示第一用户数据被业务模型使用。

此外，可选地，所述用户归属确定方法还可以包括：响应于输出用于指示第一用户数据被所述业务模型使用的指示信息，向业务模型的模型提供方发送隐私数据保护请求。所述隐私数据保护请求的示例例如可以包括但不限于申请提高用户数据的隐私保护级别或保护强度，要求业务模型提供方提供数据使用报酬，进一步优化用户数据的隐私保护策略，要求业务模型提供方禁止使用用户数据等等。上述隐私数据保护请求可以由用户归属确定装置响应于输出用于指示第一用户数据被业务模型使用的指示信息而发出，也可以在用户接收到所述指示信息后，经由用户向业务模型提供方发送。

如上参照图1到图7描述了根据本说明书的实施例的用于确定用户数据是否被业务模型使用的方法。

利用上述方法，使用包括公共数据集以及部分用户数据的第二数据集训练出第二特征向量化模型，并根据所训练出的第二特征向量化模型得到的各个第二数据的第二特征向量表示以及各个第二数据的用户归属标签来训练出用户归属确定模型。随后，使用业务模型的第一特征向量化模型得到第一用户的第一用户数据的第一特征向量表示，并将第一特征向量表示提供给用户归属确定模型来确定第一用户数据的用户归属预测标签，由此确定业务模型是否使用第一用户数据来进行模型训练。此外，在确定第一用户数据被业务模型使用来进行模型训练时，向业务模型的模型提供方发送隐私数据保护请求，由此进一步提升隐私数据保护效果。

此外，利用上述方法，通过规定第二特征向量化模型的模型输入数据的数据长度范围，并且在提供给第二特征向量化模型的第一用户数据的数据长度不满足数据长度范围的情况下，对第一用户数据进行数据处理，使得经过处理后的第一用户数据满足第二特征向量化模型的模型输入数据要求，由此可以保证第二特征向量化模型的模型工作效率。

此外，通过利用滑动窗口文本抽取机制来对第一用户数据进行数据内容抽取并根据所得到的数据抽取内容来得到经过数据长度补足处理后的第一用户数据，所得到的经过数据长度补足后的第一用户数据中存在冗余数据内容，并且由于所补充的数据内容都是从第一用户数据中抽取的，从而不会引入不是第一用户数据的数据内容，由此确保第二特征向量化模型得到的特征向量表示不会引入新的特征信息。

此外，通过将原始第一用户数据提供给文本生成模型来进行数据长度补充，所得到的经过数据长度补足后的第一用户数据中不存在冗余数据内容，并且所引入的新数据内容是基于原始第一用户数据的上下文生成的，从而该新数据内容与原始第一用户数据之间存在强关联性，由此可以补充和丰富第一用户数据的特征信息，从而为第二特征向量化模型提供具有更丰富特征信息的输入数据，由此可以得到更好的特征向量表示。

此外，通过在第一用户数据的数据长度大于数据长度范围的上限值时，对第一用户数据进行多次数据长度截取处理，得到多个截取后的第一用户数据，第一用户数据的全部数据内容包含在该多个截取后的第一用户数据中。随后，将多个截取后的第一用户数据全部被提供给第一特征向量化模型来得到多个第一特征向量表示。按照这种方式，可以使得提供给用户归属确定模型的特征向量表示不会损失原始第一用户数据的特征信息，由此提升用户归属确定的准确性。

图8示出了根据本说明书的实施例的用于确定用户数据是否被业务模型使用的装置(下文中称为“用户归属确定装置”)800的方框图。在该实施例中，业务模型包括第一特征向量化模型和业务预测模型。第一特征向量化模型被配置为对第一用户数据进行特征向量化处理，得到第一用户数据的第一特征向量表示。业务预测模型被配置为使用第一用户数据的第一特征向量表示来进行业务预测。在图8中示出的示例中，第一用户数据是文本数据，以及业务模型的第一特征向量化模型的输入数据具有规定的数据长度范围。

如图8所示，用户归属确定装置800包括用户数据处理单元810、特征向量表示获取单元820、用户归属标签确定单元830、输出单元840和数据保护请求发送单元850。

用户数据处理单元810被配置为在第一用户数据的数据长度不在第一特征向量化模型的输入数据所规定的数据长度范围时，对第一用户数据执行数据处理。

具体地，在第一用户数据的数据长度小于数据长度范围的下限值时，用户数据处理单元810对第一用户数据进行数据长度补足处理。在一个示例中，在第一用户数据的数据长度小于数据长度范围的下限值时，用户数据处理单元810基于第一用户数据的数据内容对第一用户数据进行数据长度补足处理。例如，用户数据处理单元810可以利用滑动窗口文本抽取机制来对第一用户数据进行数据内容抽取，并根据所抽取的数据内容得到经过数据长度补足后的第一用户数据。或者，用户数据处理单元810将第一用户数据提供给用于文本补长的文本生成模型，得到经过数据长度补足后的第一用户数据。这里，文本生成模型可以是从网络上下载的任何合适文本生成模型。

在另一示例中，在第一用户数据的数据长度大于数据长度范围的上限值时，用户数据处理单元810对第一用户数据进行数据长度截取处理，所述截取后的第一用户数据的数据长度在数据长度范围内。在另一示例中，所述截取后的第一用户数据可以包括多个截取后的第一用户数据，所述第一用户数据的全部数据内容包含在所述多个截取后的第一用户数据中，并且所述多个截取后的第一用户数据全部被提供给业务模型的第一特征向量化模型。

回到图8，特征向量表示获取单元820被配置为将第一用户的第一用户数据(经过上述用户数据处理后的第一用户数据，如果需要)提供给业务模型的第一特征向量化模型，得到第一用户数据的第一特征向量表示。特征向量表示获取单元820的操作可以参考上面参照图4描述的410的操作。

用户归属标签确定单元830被配置为将第一用户数据的第一特征向量表示提供给用户归属确定模型，确定第一特征向量表示的用户归属预测标签。用户归属标签确定单元830的操作可以参考上面参照图4描述的420的操作。

输出单元840被配置为在用户归属标签指示属于第一用户时，输出用于指示第一用户数据被业务模型使用的指示信息。这里，指示信息可以是视频信息、音频信息、告警信息或者文本信息中的至少一种。所述告警信息的示例例如包括但不限于蜂鸣告警、闪烁告警、语音告警等等。所述指示信息可以定向提供给用户，或者也可以以广播方式提供给外部。

数据保护请求发送单元850被配置为响应于输出用于指示第一用户数据被业务模型使用的指示信息，向业务模型的模型提供方发送隐私数据保护请求。所述隐私数据保护请求的示例例如可以包括但不限于申请提高用户数据的隐私保护级别或保护强度，要求业务模型提供方提供数据使用报酬，进一步优化用户数据的隐私保护策略，要求业务模型提供方禁止使用用户数据等等。

在图8的示例中，数据保护请求发送单元850被示出为包括在用户归属确定装置800中，在本说明书的另一示例中，针对用户数据的隐私数据保护请求也可以是在用户接收到所述指示信息后，经由用户向业务模型提供方发送。

要说明的是，图8中示出的仅仅是用户归属确定装置的一个例示实施例。在本说明书的其它实施例中，用户归属确定装置可以不包括用户数据处理单元810和数据保护请求发送单元850中的一个或者两者。

如上参照图1到图8，对根据本说明书实施例的用户归属确定方法、用户归属确定装置及系统进行了描述。上面的用户归属确定装置可以采用硬件实现，也可以采用软件或者硬件和软件的组合来实现。

图9示出了根据本说明书实施例的用于实现用户归属确定装置的电子设备900的硬件结构图。如图9所示，电子设备900可以包括至少一个处理器910、存储器(例如，非易失性存储器)920、内存930和通信接口940，并且至少一个处理器910、存储器920、内存930和通信接口940经由总线960连接在一起。至少一个处理器910执行在存储器中存储或编码的至少一个计算机可读指令(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器中存储计算机可执行指令，其当执行时使得至少一个处理器910：将第一用户的第一用户数据提供给业务模型的第一特征向量化模型，得到第一用户数据的第一特征向量表示；将第一用户数据的第一特征向量表示提供给用户归属确定模型，确定第一特征向量表示的用户归属预测标签；以及在用户归属预测标签指示属于第一用户时，输出用于指示第一用户数据被业务模型使用的指示信息，其中，用户归属确定模型利用第一数据集训练出，第一数据集包括第二数据集的各个第二数据的第二特征向量表示以及各个第二数据的用户归属标签，第二数据集至少包括公共数据集以及第一用户的至少部分用户数据，各个第二数据的第二特征向量表示利用基于第二数据集训练出的第二特征向量化模型得到，第一和第二特征向量化模型输出的特征向量表示的维度相同。

应该理解，在存储器中存储的计算机可执行指令当执行时使得至少一个处理器910进行本说明书的各个实施例中以上结合图1-8描述的各种操作和功能。

根据一个实施例，提供了一种比如机器可读介质(例如，非暂时性机器可读介质)的程序产品。机器可读介质可以具有指令(即，上述以软件形式实现的元素)，该指令当被机器执行时，使得机器执行本说明书的各个实施例中以上结合图1-8描述的各种操作和功能。具体地，可以提供配有可读存储介质的系统或者装置，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。

在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。

可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上或云上下载程序代码。

本领域技术人员应当理解，上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此，本发明的保护范围应当由所附的权利要求书来限定。

需要说明的是，上述各流程和各系统结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的，可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理实体实现，或者，有些单元可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

以上各实施例中，硬件单元或模块可以通过机械方式或电气方式实现。例如，一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器，FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器)，可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。

上面结合附图阐述的具体实施方式描述了示例性实施例，但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说，对本公开内容进行的各种修改是显而易见的，并且，也可以在不脱离本公开内容的保护范围的情况下，将本文所定义的一般性原理应用于其它变型。因此，本公开内容并不限于本文所描述的示例和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种用于确定第一用户的第一用户数据是否被业务模型使用的方法，所述业务模型包括第一特征向量化模型和业务预测模型，所述方法包括：

将第一用户的第一用户数据提供给所述业务模型的第一特征向量化模型，得到所述第一用户数据的第一特征向量表示；

将所述第一用户数据的第一特征向量表示提供给用户归属确定模型，确定所述第一特征向量表示的用户归属预测标签；以及

在所述用户归属预测标签指示属于所述第一用户时，输出用于指示所述第一用户数据被所述业务模型使用的指示信息，

其中，所述用户归属确定模型利用第一数据集训练出，所述第一数据集包括第二数据集的各个第二数据的第二特征向量表示以及各个第二数据的用户归属标签，所述第二数据至少包括公共数据以及所述第一用户的至少部分用户数据，各个第二数据的第二特征向量表示利用基于所述第二数据集训练出的第二特征向量化模型得到，所述第一特征向量化模型和所述第二特征向量化模型输出的特征向量表示的维度相同，所述公共数据包括不属于任何用户私有的公用数据。

2.如权利要求1所述的方法，其中，所述第二数据仅仅包括公共数据集以及所述第一用户的至少部分用户数据，以及所述用户归属确定模型是二分类模型。

3.如权利要求1所述的方法，其中，所述第二数据包括公共数据集、第一用户的至少部分用户数据以及至少一个第二用户的至少部分用户数据，以及所述用户归属确定模型是多分类模型。

4.如权利要求1所述的方法，其中，所述第一用户数据是文本数据，以及所述业务模型的第一特征向量化模型的输入数据具有规定的数据长度范围。

5.如权利要求4所述的方法，其中，在所述第一用户数据的数据长度小于所述数据长度范围的下限值时，对所述第一用户数据进行数据长度补足处理。

6.如权利要求5所述的方法，其中，针对所述第一用户数据的数据长度补足处理是基于所述第一用户数据的数据内容的数据长度补足处理。

7.如权利要求6所述的方法，其中，基于所述第一用户数据的数据内容的数据长度补足处理包括：

利用滑动窗口文本抽取机制来对所述第一用户数据进行数据内容抽取，并根据所抽取的数据内容得到经过数据长度补足后的第一用户数据；或者

将所述第一用户数据提供给文本生成模型，得到经过数据长度补足后的第一用户数据。

8.如权利要求4所述的方法，其中，在所述第一用户数据的数据长度大于所述数据长度范围的上限值时，对所述第一用户数据进行数据长度截取处理，所述截取后的第一用户数据的数据长度在所述数据长度范围内。

9.如权利要求8所述的方法，其中，所述截取后的第一用户数据包括多个截取后的第一用户数据，所述第一用户数据的全部数据内容包含在所述多个截取后的第一用户数据中，并且所述多个截取后的第一用户数据被提供给所述第一特征向量化模型。

10.如权利要求1所述的方法，其中，所述第二特征向量化模型包括至少两个第二特征向量化模型，以及各个第二特征向量化模型利用从所述第二数据集采样的训练数据训练出。

11.如权利要求1所述的方法，还包括：

响应于输出用于指示所述第一用户数据被所述业务模型使用的指示信息，向所述业务模型的模型提供方发送隐私数据保护请求。

12.一种用于确定第一用户的第一用户数据是否被业务模型使用的装置，所述业务模型包括第一特征向量化模型和业务预测模型，所述装置包括：

特征向量表示获取单元，将第一用户的第一用户数据提供给所述业务模型的第一特征向量化模型，得到所述第一用户数据的第一特征向量表示；

用户归属标签确定单元，将所述第一用户数据的第一特征向量表示提供给用户归属确定模型，确定所述第一特征向量表示的用户归属预测标签；以及

输出单元，在所述用户归属预测标签指示属于所述第一用户时，输出用于指示所述第一用户数据被所述业务模型使用的指示信息，

13.如权利要求12所述的装置，其中，所述第一用户数据是文本数据，以及所述业务模型的第一特征向量化模型的输入数据具有规定的数据长度范围。

14.如权利要求13所述的装置，还包括：

用户数据处理单元，在所述第一用户数据的数据长度小于所述数据长度范围的下限值时，对所述第一用户数据进行数据长度补足处理。

15.如权利要求14所述的装置，其中，在所述第一用户数据的数据长度小于所述数据长度范围的下限值时，所述用户数据处理单元基于所述第一用户数据的数据内容对所述第一用户数据进行数据长度补足处理。

16.如权利要求15所述的装置，其中，在所述第一用户数据的数据长度小于所述数据长度范围的下限值时，所述用户数据处理单元：

17.如权利要求14所述的装置，其中，在所述第一用户数据的数据长度大于所述数据长度范围的上限值时，所述用户数据处理单元对所述第一用户数据进行数据长度截取处理，所述截取后的第一用户数据的数据长度在所述数据长度范围内。

18.如权利要求17所述的装置，其中，所述截取后的第一用户数据包括多个截取后的第一用户数据，所述第一用户数据的全部数据内容包含在所述多个截取后的第一用户数据中，并且所述多个截取后的第一用户数据被提供给所述第一特征向量化模型。

19.如权利要求12所述的装置，还包括：

数据保护请求发送单元，响应于输出用于指示所述第一用户数据被所述业务模型使用的指示信息，向所述业务模型的模型提供方发送隐私数据保护请求。

20.一种用于确定第一用户的第一用户数据是否被业务模型使用的系统，所述业务模型包括第一特征向量化模型和业务预测模型，所述系统包括：

用户归属确定模型训练装置，利用第一数据集训练出用户归属确定模型，所述第一数据集包括第二数据集的各个第二数据的第二特征向量表示以及各个第二数据的用户归属标签，所述第二数据至少包括公共数据以及所述第一用户的至少部分用户数据，所述公共数据包括不属于任何用户私有的公用数据，

特征向量化模型训练装置，基于第二数据集训练出第二特征向量化模型，所述第二特征向量化模型被使用来得到各个第二数据的第二特征向量表示，所述第一特征向量化模型和所述第二特征向量化模型输出的特征向量表示的维度相同；以及

如权利要求12到19中任一所述的装置。

21.一种电子设备，包括：

至少一个处理器，以及

与所述至少一个处理器耦合的存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如权利要求1到11中任一所述的方法。

22.一种机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如权利要求1到11中任一所述的方法。