CN115098619A

CN115098619A - 资讯去重方法、装置、电子设备及计算机可读取存储介质

Info

Publication number: CN115098619A
Application number: CN202210731087.4A
Authority: CN
Inventors: 李珊
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-09-23

Abstract

本申请提供一种资讯去重方法、装置、电子设备及计算机可读取存储介质，涉及数据处理技术领域。该方法包括：对资讯文本进行处理，得到当前文本向量；对当前文本向量进行验证，若对当前文本向量验证通过，将当前文本向量作为目标文本向量；若对当前文本向量验证未通过，则对当前文本向量进行更新，以得到目标文本向量；基于去重阈值对目标文本向量去重，得到目标资讯文本。本申请能够通过对推荐的资讯文本进行处理、验证、更新等方式，将得到的目标文本向量进行去重，从而得到去重后用于推荐给用户的目标资讯文本，能够对体量较长、维度较广、多种不同环境下的资讯文本都进行去重，有效地减少推荐的资讯中重复、冗余的内容，提高了去重的精度。

Description

资讯去重方法、装置、电子设备及计算机可读取存储介质

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种资讯去重方法、装置、电子设备及计算机可读取存储介质。

背景技术

近年来，金融市场受到人们的关注越来越高，各大金融公司，例如各种银行每天可以向用户提供成千上万条的金融资讯供用户浏览。在对银行资讯进行推荐时，可以根据用户的历史行为、身份标签、兴趣属性等数据特征来对相关的资讯进行推荐。但是，推荐过程中容易出现重复、冗余的内容，导致对资讯的推荐效率较低，用户无法准确地获取感兴趣的资讯。

发明内容

有鉴于此，本申请实施例的目的在于提供一种资讯去重方法、装置、电子设备及计算机可读取存储介质，以改善现有技术中存在的推荐的资讯文本中重复内容较多问题。

为了解决上述问题，第一方面，本申请实施例提供了一种资讯去重方法，所述方法包括：对资讯文本进行处理，得到当前文本向量；对所述当前文本向量进行验证，若对所述当前文本向量验证通过，将所述当前文本向量作为目标文本向量；若对所述当前文本向量验证未通过，则对所述当前文本向量进行更新，以得到目标文本向量；基于去重阈值对所述目标文本向量去重，得到目标资讯文本。

在上述实现过程中，为了对资讯文本中存在的重复内容进行去除，可以先对资讯文本进行向量化地处理，从而得到当前文本向量，并通过对当前文本向量进行验证，以根据验证结果确定处理后能够进行去重的目标文本向量，根据去重阈值对目标文本向量进行去重。能够对体量较长、维度较广、多种不同环境下的多种资讯文本都进行去重，有效地提高了去重时的精度和效率，减少了推荐的资讯中重复、冗余的内容，为银行中各种使用场景下的资讯推荐提供更多样化的内容，减少因内容重复而降低用户体验的情况。

可选地，所述对资讯文本进行处理，得到当前文本向量，包括：根据文本处理模型对资讯文本进行处理，得到所述当前文本向量；所述对所述当前文本向量进行更新，以得到目标文本向量，包括：对所述文本处理模型进行更新，确定更新处理模型；根据所述更新处理模型对所述当前文本向量进行更新，以得到所述目标文本向量。

在上述实现过程中，通过文本处理模型能够对资讯文本进行向量化处理，从而得到用于比较内容之间相似度的当前文本向量。在验证未通过时，则表明文本处理模型的处理效果不佳，需要对文本处理模型进行更新，并根据得到的更新处理模型重新对资讯文本进行处理，得到对当前文本向量更新后的目标文本向量，从而以能够验证通过的目标文本向量进行去重处理。在去重的过程中能够根据资讯文本的向量化结果不断地对文本处理模型的性能进行完善，有效地提高了获取的目标文本向量的准确性和有效性，从而提高去重的精度和效果。

可选地，所述文本处理模型包括摘要模型、对比模型和降维模型；所述根据文本处理模型对资讯文本进行处理，得到所述当前文本向量，包括：根据所述摘要模型对资讯文本进行提取，得到文本摘要；根据所述对比模型对所述文本摘要进行向量提取，得到初始向量；根据所述降维模型对所述初始向量进行降维，得到所述当前文本向量。

在上述实现过程中，文本处理模型可以包括多种类型的模型，能够对资讯文本进行摘要提取、向量提取以及降维处理，从而能够将资讯文本的内容进行向量化，以便于对资讯文本中的重复内容进行确定和去除。其中，对资讯文本进行摘要提取，能够对体量较大的长文本进行处理，适用于多种长度的资讯文本；对资讯文本进行向量提取，能够将文本摘要转换为便于进行相似度对比的向量化数据；对提取的初始向量进行降维处理，能够将长度较长且稀疏的初始向量降为多维的向量，便于对向量化数据进行对比和存储。能够通过多种不同功能的模型分别对资讯文本进行相应地处理，有效地提到了当前文本向量的准确性。

可选地，所述根据所述对比模型对所述文本摘要进行向量提取，得到初始向量之前，所述方法还包括：获取资讯文本训练集，其中，所述资讯文本训练集中包括多条历史资讯文本的语料文本；根据资讯文本训练集对所述对比模型进行对比训练。

在上述实现过程中，为了提高对比模型对文本摘要进行向量化提取时的准确性，可以通过资讯文本训练集对对比模型进行对比训练，从而根据训练集中的多条语料文本的多次对比训练提高对比模型的学习效果。能够根据对比模型直接对资讯文本进行向量化提取，减去训练向量化相似度模型的标注成本，有效地减小了模型的训练成本。

可选地，所述对所述文本处理模型进行更新，确定更新处理模型，包括：根据所述当前文本向量对所述对比模型的第一模型参数进行调整，得到第一调整模型参数；根据所述第一调整模型参数对应的所述对比模型、所述摘要模型和所述降维模型对所述资讯文本进行处理，得到第一调整文本向量；基于所述第一调整文本向量对所述摘要模型的第二模型参数进行调整，得到第二调整模型参数；根据所述第一调整模型参数对应的所述对比模型、所述第二调整模型参数对应的所述摘要模型和所述降维模型对所述资讯文本进行处理，得到第二调整文本向量；基于所述第二调整文本向量对所述降维模型的第三模型参数进行调整，得到第三调整模型参数，以所述第一调整模型参数对应的所述对比模型、所述第二调整模型参数对应的所述摘要模型和所述第三调整模型参数对应的所述降维模型作为所述更新处理模型。

在上述实现过程中，在对文本处理模型进行更新时，由于文本处理模型中包含多个模型，因此，可以分别对多个模型依次进行调参处理，从而通过模型参数的调整对多个模型的处理效果进行对应地调整。在调整时，可以采取对多个模型的模型参数分别进行调整的方式。并且，每个模型的参数调整都是在上一个模型进行调参后得到的调整文本向量的基础上进行的，对当前的某个模型进行调参时，其他模型的参数可以保持不变，对上一个模型进行调参完毕后才对后续的模型进行调参，能够根据顺序依次针对每个模型的处理效果进行调整，从而对每一个模型的处理效果分别进行优化，减小了调参时的成本，有效地提高了对每一个模型进行调参以优化处理效果的准确性和针对性。

可选地，所述根据所述更新处理模型对所述当前文本向量进行更新，以得到所述目标文本向量，包括：根据所述第一调整模型参数对应的所述对比模型、所述第二调整模型参数对应的所述摘要模型和所述第三调整模型参数对应的所述降维模型对所述资讯文本进行处理，得到第三调整文本向量；对所述第三调整文本向量进行验证，在对当前的所述第三调整文本向量验证通过时，将当前的所述第三调整文本向量作为所述目标文本向量。

在上述实现过程中，根据更新后得到的更新处理模型继续对资讯文本进行处理，能够得到对应的第三调整文本向量。第三调整文本向量为处理效果优化后的模型处理得到的向量数据，通过继续对第三调整文本向量进行验证，能够继续对更新处理模型当前的处理效果进行验证，在验证通过时，则表示更新处理模型的处理效果较好，当前的第三调整文本向量能够作为进行去重的目标文本向量，从而有效地提高了去重时所采用的目标文本向量的有效性和实时性。

可选地，所述对所述当前文本向量进行验证，包括：基于资讯文本验证集判断所述当前文本向量是否满足预设的去重条件；在所述当前文本向量满足所述去重条件时，则对所述当前文本向量验证通过；在所述当前文本向量不满足所述去重条件时，则对所述当前文本向量验证未通过。

在上述实现过程中，可以通过资讯文本验证集对当前文本向量是否满足预设的去重条件进行验证，从而确定当前文本向量是否能够进行去重的验证结果。去重条件与对资讯文本进行向量化处理时的文本处理模型的处理效果相关，能够有效地提高了对当前文本向量进行验证时的准确性，从而提高进行去重时的目标文本向量的有效性，进一步地提高了去重的有效性。

可选地，所述资讯文本中包括多条语义标签；所述基于资讯文本验证集判断所述当前文本向量是否满足预设的去重条件，包括：获取所述资讯文本验证集，其中，所述资讯文本验证集中包括多条历史文本向量；计算所述历史文本向量与所述当前文本向量之间的相似度；确定所述相似度与所述语义标签之间的相关值；基于所述相关值判断所述当前文本向量是否满足预设的所述去重条件。

在上述实现过程中，可以通过计算资讯文本验证集中的多个历史文本向量与当前文本向量之间的相似度，并根据相似度与当前文本向量中标注的语义标签计算两者之间的相关值。能够以相关值作为对当前文本向量是否能够进行去重的去重条件，即文本处理模型的处理效果是否满足预设效果的验证指标进行验证，从而判断是否需要对当前文本向量进行更新，以保证进行去重时的目标文本向量的有效性较高，提高了对资讯文本进行去重时的精度和有效性。

可选地，所述基于去重阈值对所述目标文本向量去重，得到目标资讯文本之前，所述方法还包括：获取所述资讯文本验证集中多条历史文本向量的判断标签，其中，所述判断标签表示对应的所述历史文本向量中的内容是否重复；根据所述判断标签和所述语义标签，确定所述去重阈值。

在上述实现过程中，去重阈值为判断资讯文本中向量的相似度的阈值，高于去重阈值的向量内容为重复内容，低于去重阈值的向量内容为非重复内容。通过资讯文本验证集中，判断历史文本向量是否重复的判断标签以及文本向量中的语义标签，能够对去重阈值进行调整，以确定针对资讯文本进行去重时准确的判断阈值，进一步地提高去重时的准确性。

可选地，所述对资讯文本进行处理，得到当前文本向量之前，所述方法还包括：根据所述资讯文本中金融产品的类型确定对应的语义标签；根据所述语义标签对所述资讯文本中对应的所述金融产品的名称进行标注。

在上述实现过程中，由于银行等应用场景对应推荐的资讯文本中可能会具有一些场景对应的专有名词或术语，采用通用的方式对资讯文本进行处理时，无法对资讯文本中的内容进行准确地向量化。因此，可以根据资讯文本中金融产品的类型确定与之对应的语义标签，从而在资讯文本中的相关内容处，对使用场景对应的专有名词或术语进行相应地标注，以使资讯文本能够进行准确地向量化，进一步地对资讯文本进行处理后得到的当前文本向量的准确性。能够根据不同的应用场景对不同种类的资讯文本进行针对性地标注处理，提高资讯去重的适用范围，满足用户的多种需求。

第二方面，本申请实施例还提供了一种资讯去重装置，所述装置包括：处理模块，用于对资讯文本进行处理，得到当前文本向量；验证模块，用于对所述当前文本向量进行验证；若对所述当前文本向量验证通过，所述验证模块，还用于将所述当前文本向量作为目标文本向量；若对所述当前文本向量验证未通过，更新模块，用于对所述当前文本向量进行更新，以得到目标文本向量；去重模块，用于基于去重阈值对所述目标文本向量去重，得到目标资讯文本。

第三方面，本申请实施例还提供了一种电子设备，所述电子设备包括存储器和处理器，所述存储器中存储有程序指令，所述处理器读取并运行所述程序指令时，执行上述资讯去重方法中任一实现方式中的步骤。

第四方面，本申请实施例还提供了一种计算机可读取存储介质，所述可读取存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行上述资讯去重方法中任一实现方式中的步骤。

综上所述，本申请提供了一种资讯去重方法、装置、电子设备及计算机可读取存储介质，通过对推荐的资讯文本进行向量化处理、验证、更新等方式，能够对资讯文本进行有效地高精度去重。可以对体量较长、维度较广、多种不同环境下的资讯文本都进行去重，有效地减少推荐的资讯中重复、冗余的内容，提高了去重的精度和效果，提升了用户的使用体验。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种电子设备的方框示意图；

图2为本申请实施例提供的一种资讯去重方法的流程示意图；

图3为本申请实施例提供的一种步骤S500的详细流程示意图；

图4为本申请实施例提供的一种步骤S200的详细流程示意图；

图5为本申请实施例提供的一种步骤S510的详细流程示意图；

图6为本申请实施例提供的一种步骤S520的详细流程示意图；

图7为本申请实施例提供的一种步骤S300的详细流程示意图；

图8为本申请实施例提供的一种步骤S310的详细流程示意图；

图9为本申请实施例提供的另一种资讯去重方法的流程示意图；

图10为本申请实施例提供的又一种资讯去重方法的流程示意图；

图11为本申请实施例提供的一种资讯去重装置的结构示意图。

图标：100-电子设备；111-存储器；112-存储控制器；113-处理器；114-外设接口；115-输入输出单元；116-显示单元；800-资讯去重装置；810-处理模块；820-验证模块；830-更新模块；840-去重模块。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请实施例的一部分实施例，而不是全部的实施例。基于本申请实施例的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请实施例保护的范围。

随着互联网的快速发展，用户能够通过互联网获取的资讯信息量呈现爆发式增长。在金融领域中，为了提高资讯内容的阅读效率，快速提取到有效信息，各个银行能够根据用户的历史行为、身份标签、兴趣属性等数据特征向用户推荐相关的资讯信息，以供用户对资讯中的多种服务进行查看和了解。但是，在进行推荐时，由于推荐的资讯中存在一些重复、冗余的内容，用户在查看资讯时会看到重复的内容，无法及时地获取所需的信息，降低了用户的使用体验和对资讯的推荐效率。

为了解决上述问题，本申请实施例提供了一种资讯去重方法，应用于电子设备，电子设备可以为服务器、个人电脑(Personal Computer，PC)、平板电脑、智能手机、个人数字助理(Personal Digital Assistant，PDA)等具有逻辑计算功能的电子设备，能够对金融领域中推荐的资讯进行去除处理，以减少资讯中重复的内容，提高用户的使用体验。

可选地，请参阅图1，图1为本申请实施例提供的一种电子设备的方框示意图。电子设备100可以包括存储器111、存储控制器112、处理器113、外设接口114、输入输出单元115、显示单元116。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对电子设备100的结构造成限定。例如，电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

上述的存储器111、存储控制器112、处理器113、外设接口114、输入输出单元115及显示单元116各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。上述的处理器113用于执行存储器中存储的可执行模块。其中，存储器111可以是，但不限于，随机存取存储器(Random Access Memory，简称RAM)，只读存储器(Read Only Memory，简称ROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，可擦除只读存储器(ErasableProgrammable Read-Only Memory，简称EPROM)，电可擦除只读存储器(Electric ErasableProgrammable Read-Only Memory，简称EEPROM)等。其中，存储器111用于存储程序，处理器113在接收到执行指令后，执行程序，本申请实施例任一实施例揭示的过程定义的电子设备100所执行的方法可以应用于处理器113中，或者由处理器113实现。

上述的处理器113可能是一种集成电路芯片，具有信号的处理能力。上述的处理器113可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(digital signalprocessor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

上述的外设接口114将各种输入/输出装置耦合至处理器113以及存储器111。在一些实施例中，外设接口114，处理器113以及存储控制器112可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。

上述的输入输出单元115用于提供给用户输入数据。输入输出单元115可以是，但不限于，鼠标和键盘等。

上述的显示单元116在电子设备100与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中，显示单元可以是液晶显示器或触控显示器。若为触控显示器，其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作，并将该感应到的触控操作交由处理器进行计算和处理。在本申请实施例中，显示单元116可以显示初始的资讯文本和去重后得到的目标资讯文本等相关信息。

本实施例中的电子设备可以用于执行本申请实施例提供的各个资讯去重方法中的各个步骤。下面通过几个实施例详细描述资讯去重方法的实现过程。

请参阅图2，图2为本申请实施例提供的一种资讯去重方法的流程示意图，该方法可以包括步骤S200-S600。

步骤S200，对资讯文本进行处理，得到当前文本向量。

其中，为了更好地对资讯文本中的重复内容进行更好地去重，可先对资讯文本进行向量化地处理，从而得到能够比较向量相似度的当前文本向量。

可选地，资讯文本可以为多种类型的文本数据，对资讯文本的各种因素都不进行限制。示例地，各种因素可以为资讯文本的体量大小，例如字数、长度等，资讯文本适用的场景，例如银行资讯的推荐场景中，资讯文本的类型，例如推荐场景下对各种不同类型的产品进行推荐的资讯文本等。

可选地，对资讯文本进行向量化处理的方式可以为根据文本处理模型对资讯文本进行处理，得到当前文本向量。

步骤S300，对当前文本向量进行验证。

其中，对资讯文本进行向量化处理时，由于文本处理模型的处理效果不同，得到的向量数据也不相同。为了保证文本处理模型对资讯文本的处理效果，可以对当前文本向量进行验证。

步骤S400，若对当前文本向量验证通过，将当前文本向量作为目标文本向量。

其中，在当前文本向量验证通过时，则文本处理模型的处理效果较好，当前文本向量的有效性较高，能够直接以当前文本向量作为进行去重处理的目标文本向量。

步骤S500，若对当前文本向量验证未通过，则对当前文本向量进行更新，以得到目标文本向量。

其中，在当前文本向量验证未通过时，则文本处理模型的处理效果不佳，当前文本向量的有效性较低，需要对当前文本向量进行更新，并对更新后的文本向量继续进行验证，以更新后的能够通过验证的文本向量作为进行去重处理的目标文本向量。

可选地，能够根据不同的验证结果确定相应的目标文本向量，从而保证目标文本向量的有效性。

步骤S600，基于去重阈值对目标文本向量去重，得到目标资讯文本。

其中，根据去重阈值对目标文本向量中重复、冗余的内容进行去除，从而得到用于推荐给用户的目标资讯文本。

可选地，在进行去重处理时，目标文本向量中的向量的余弦相似度大于去重阈值时，则表示该向量对应的内容为重复内容，需要进行去除处理；目标文本向量中的向量的余弦相似度小于去重阈值时，则表示该向量对应的内容为非重复内容，无需进行去除处理。能够对整个目标文本向量都进行处理，有效地减少内容重复而降低用户体验的情况。

值得说明的是，在对重复的内容进行去除时，还可以按照时间的优先级进行去除处理。能够优先去掉时间较久的重复内容，有效地提高了推荐的目标资讯文本的时效性，更适用于银行环境下的推荐场景。

在图2所示的实施例中，能够对体量较长、维度较广、多种不同环境下的多种资讯文本都进行去重，有效地提高了去重时的精度和效率，减少了推荐的资讯中重复、冗余的内容，为银行中各种使用场景下的资讯推荐提供更多样化的内容。

可选地，请参阅图3，图3为本申请实施例提供的一种步骤S500的详细流程示意图，步骤S500可以包括步骤S510-S520。

步骤S510，对文本处理模型进行更新，确定更新处理模型。

其中，在验证未通过时，则表明文本处理模型的处理效果不佳，由于对资讯文本进行向量化处理的文本处理模型可以为迭代的处理模型，因此，能够在文本处理模型的原基础上对其中的参数进行更新，从而得到更新处理模型。

步骤S520，根据更新处理模型对当前文本向量进行更新，以得到目标文本向量。

其中，根据得到的更新处理模型重新对资讯文本进行处理，得到对当前文本向量更新后的目标文本向量，从而以能够验证通过的目标文本向量进行去重处理。

在图3所示的实施例中，在去重的过程中能够根据资讯文本的向量化结果不断地对文本处理模型的性能进行完善，有效地提高了获取的目标文本向量的准确性和有效性，从而提高去重的精度和效果。

可选地，请参阅图4，图4为本申请实施例提供的一种步骤S200的详细流程示意图，步骤S200可以包括步骤S211-S213。

步骤S211，根据摘要模型对资讯文本进行提取，得到文本摘要。

其中，资讯文本中可以包含一些字数较多、体量较大的文本，为了获得资讯文本的核心内容，可以采用摘要模型对资讯文本进行关键词或关键句地提取，从而得到文本摘要。

可选地，摘要模型可以为TextRank算法模型，能够对资讯文本进行关键词或关键句提取，从而，无监督方式，无需构造数据集训练，且提取的效果较好。

可选地，在通过摘要模型对资讯文本进行提取时，可以通过构建拓扑结构图的方式从资讯文本中抽取出若干个关键句作为摘要，例如，从资讯文本中抽取4个关键句作为文本摘要，若资讯文本较短，不满4个句子时，则补充空值作为文本摘要，适用于对多种长度的资讯文本进行处理。示例地，关键句的个数可以根据不同景的文本长度、性能要求以及实验等实际情况和需求进行设定和调整，也可以是其他数量。每个抽取的关键句的长度不进行限制，多个关键句的长度可以相等，以便于进行统一处理。例如，可以将每个关键句的字数设定为128，在不足时，则补充空值，从而使多个关键句的长度相等。

步骤S212，根据对比模型对文本摘要进行向量提取，得到初始向量。

其中，文本摘要为资讯文本的核心内容，能够通过对比模型对文本摘要进行向量化处理，以根据向量比较相似度，有效地节约了模型的运行成本。文本摘要中可以包括资讯文本的标题和多个关键句，可以根据对比模型，分别对标题和每个关键句进行提取，得到多个子向量，并对多个子向量进行拼接，得到长度较长的初始向量。例如，对每个资讯文本的标题和4个关键句子分别采用对比模型提取多个子向量，并将多个字向量拼接为长度为5*768的一维向量作为初始向量。

可选地，对比模型可以为SimCSE模型，SimCSE模型是一种基于开源预训练模型，可通过Dropout(在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃)方式获取正样本，从而以无监督方式进行模型微调的对比学习模型。

可选地，在对比模型进行向量提取之前，还可以获取资讯文本训练集，其中，资讯文本训练集中包括多条历史资讯文本的语料文本；根据资讯文本训练集对对比模型进行对比训练。示例地，可以将资讯文本训练集中多条历史资讯文本的标题和每句话作为语料文本，可以抽取5万条语料文本对对比模型进行训练，将批处理参数设为128，使每条语料文本通过Dropout得到一条新数据作为其正样本，同时批处理中的其他语料文本为负样本，以对每一批语料文本进行对比训练。采用对比训练后的对比模型进行向量化处理，无需脱离预训练模型重新训练向量化相似度的模型，能够免去较高的批注成本，且对比模型的学习效果较好，提取的向量数据更加准确。

步骤S213，根据降维模型对初始向量进行降维，得到当前文本向量。

其中，由于向量化后的初始向量较长且信息稀疏，因此，可以通过降维模型对初始向量进行降维处理，得到当前文本向量。例如，将5*768的一维向量降至100维的当前文本向量，便于对向量化数据进行对比和存储。

可选地，降维模型可以为TruncatedSVD(截断奇异值分解)算法模型，通过生成指定维度的矩阵，以实现降维处理。

可选地，可以将当前文本向量存储在基于Milvus框架的向量存储与搜索引擎中，方便后续使用。

在图4所示的实施例中，能够通过多种不同功能的模型分别对资讯文本进行相应地处理，有效地提到了当前文本向量的准确性。

可选地，请参阅图5，图5为本申请实施例提供的一种步骤S510的详细流程示意图，步骤S510可以包括步骤S511-S515。

步骤S511，根据当前文本向量对对比模型的第一模型参数进行调整，得到第一调整模型参数。

其中，可以先对对比模型的第一模型参数进行调整，得到第一调整模型参数，以实现对对比模型的更新。值得说明的是，在对文本处理模型中的各个模型进行更新时，可以分别对多个模型依次进行调参处理，从而通过模型参数的调整对多个模型的处理效果进行对应地调整。在调整时，可以采取对多个模型的模型参数分别进行调整的方式。并且，每个模型的参数调整都是在上一个模型进行调参后得到的调整文本向量的基础上进行的，对当前的某个模型进行调参时，其他模型的参数可以保持不变，对上一个模型进行调参完毕后才对后续的模型进行调参。

步骤S512，根据第一调整模型参数对应的对比模型、摘要模型和降维模型对资讯文本进行处理，得到第一调整文本向量。

其中，对每个模型进行调参都会改变最终生成的文本向量数据，因此，在对对比模型的参数进行调整后，可以基于第一调整模型参数下的对比模型，以及未调参的摘要模型和降维模型对资讯文本进行处理，从而得到第一调整文本向量，以作为对后续模型进行调参的基础。

步骤S513，基于第一调整文本向量对摘要模型的第二模型参数进行调整，得到第二调整模型参数。

其中，可以在第一调整文本向量的基础上对摘要模型的第二模型参数进行调整，得到第二调整模型参数，以实现对摘要模型的更新。

步骤S514，根据第一调整模型参数对应的对比模型、第二调整模型参数对应的摘要模型和降维模型对资讯文本进行处理，得到第二调整文本向量。

其中，在对摘要模型的参数进行调整后，可以基于第一调整模型参数下的对比模型、第二调整模型参数下的摘要模型，以及未调参降维模型对资讯文本进行处理，从而得到第二调整文本向量，以作为对后续模型进行调参的基础。

步骤S515，基于第二调整文本向量对降维模型的第三模型参数进行调整，得到第三调整模型参数。

其中，可以在第二调整文本向量的基础上对降维模型的第三模型参数进行调整，得到第三调整模型参数，以实现对降维模型的更新。能够以第一调整模型参数对应的对比模型、第二调整模型参数对应的摘要模型和第三调整模型参数对应的降维模型作为更新处理模型。

可选地，在对多个模型的桉树进行调整时，可以采用Grid Search(网格搜索)的方式进行调参。

在图5所示的实施例中，能够根据顺序依次针对每个模型的处理效果进行调整，从而对每一个模型的处理效果分别进行优化，减小了调参时的成本，有效地提高了对每一个模型进行调参以优化处理效果的准确性和针对性。

可选地，请参阅图6，图6为本申请实施例提供的一种步骤S520的详细流程示意图，步骤S520可以包括步骤S521-S522。

步骤S521，根据第一调整模型参数对应的对比模型、第二调整模型参数对应的摘要模型和第三调整模型参数对应的降维模型对资讯文本进行处理，得到第三调整文本向量。

其中，根据更新后的对比模型、摘要模型以及降维模型继续对资讯文本进行处理，能够得到对应的第三调整文本向量。可选地，处理方式可以与图4所示的实施例中的方式相同，不再进行赘述。

步骤S522，对第三调整文本向量进行验证，在对当前的第三调整文本向量验证通过时，将当前的第三调整文本向量作为目标文本向量。

其中，通过继续对第三调整文本向量进行验证，能够继续对更新处理模型当前的处理效果进行验证，在验证通过时，则表示更新处理模型的处理效果较好，当前的第三调整文本向量能够作为进行去重的目标文本向量。

可选地，在验证未通过时，则继续根据图5所示的实施例中的更新方法对文本处理模型进行调参更新，并根据更新处理模型继续对资讯文本进行处理，并继续对当前的第三调整文本向量进行验证，直至当前的第三调整文本向量验证通过，以当前的第三调整文本向量作为进行去重的目标文本向量。

在图6所示的实施例中，能够对处理过程中更新得到的更新处理模型的处理效果继续进行验证，从而对处理模型的处理效果不断地进行优化，有效地提高了去重时所采用的目标文本向量的有效性和实时性。

可选地，请参阅图7，图7为本申请实施例提供的一种步骤S300的详细流程示意图，步骤S300可以包括步骤S310-S330。

步骤S310，基于资讯文本验证集判断当前文本向量是否满足预设的去重条件。

其中，可以通过资讯文本验证集对当前文本向量是否满足预设的去重条件进行验证，从而对资讯文本处理过程的处理效果进行验证，确定当前文本向量是否能够进行去重的验证结果。

可选地，去重条件与对资讯文本进行向量化处理时的文本处理模型的处理效果相关，可以设置为验证模型效果的指标数据。

步骤S320，在当前文本向量满足去重条件时，则对当前文本向量验证通过。

步骤S330，在当前文本向量不满足去重条件时，则对当前文本向量验证未通过。

其中，根据当前文本向量是否满足去重时的指标数据的结果，能够确定当前文本向量的验证结果，从而确定是否需要对当前文本向量进行更新，以保证能够使用有效的目标文本向量进行去重处理。

在图7所示的实施例中，能够有效地提高了对当前文本向量进行验证时的准确性，从而提高进行去重时的目标文本向量的有效性，进一步地提高了去重的有效性。

可选地，请参阅图8，图8为本申请实施例提供的一种步骤S310的详细流程示意图，步骤S310可以包括步骤S311-S314。

步骤S311，获取资讯文本验证集。

其中，可以从历史数据库中获取资讯文本验证集，资讯文本验证集中可以包括多条历史文本向量，历史文本向量的数量可以根据实际情况进行选择和调整。

步骤S312，计算历史文本向量与当前文本向量之间的相似度。

其中，可以计算当前文本向量与每个历史文本向量之间的余弦相似度，从而对向量化后的内容之间的相似度进行比较。

步骤S313，确定相似度与语义标签之间的相关值；

其中，资讯文本中包括多条标注的语义标签，可以根据余弦相似度与标注的语义标签，计算两者之间的相关值。

步骤S314，基于相关值判断当前文本向量是否满足预设的去重条件。

其中，根据相关值是否满足去重条件的指标数据，从而判断当前文本向量是否满足去重条件，能够对模型的处理效果进行验证，以在不满足时对模型进行更新，从而优化模型的处理效果。

在图8所示的实施例中，能够保证进行去重时的目标文本向量的有效性较高，提高了对资讯文本进行去重时的精度和有效性。

可选地，请参阅图9，图9为本申请实施例提供的另一种资讯去重方法的流程示意图，在步骤S600之前，该方法还可以包括步骤S710-S720。

步骤S710，获取资讯文本验证集中多条历史文本向量的判断标签。

其中，判断标签为表示对应的历史文本向量中的内容是否重复的标签内容，可以为历史数据库中人工标注的标签。

步骤S720，根据判断标签和语义标签，确定去重阈值。

其中，根据判断标签和标注的语义标签的交叉熵，能够确定合适的去重阈值，从而使用去重阈值来判断文章之间是否重复，高于去重阈值的向量内容为重复内容，低于去重阈值的向量内容为非重复内容。

在图9所示的实施例中，能够对去重阈值进行调整，以确定针对资讯文本进行去重时准确的判断阈值，进一步地提高去重时的准确性。

可选地，请参阅图10，图10为本申请实施例提供的又一种资讯去重方法的流程示意图，在步骤S200之前，该方法还可以包括步骤S730-S740。

步骤S730，根据资讯文本中金融产品的类型确定对应的语义标签。

其中，由于银行等应用场景对应推荐的资讯文本中可能会具有一些场景对应的专有名词或术语，采用通用的方式对资讯文本进行处理时，不能覆盖大多数场景下专有的术语和产品名称等，无法对资讯文本中的内容进行准确地向量化。因此，可以根据资讯文本中金融产品的类型确定与之对应的语义标签。示例地，对于像“天天成长”、“悦享天添”等银行场景专有的金融产品名称，可以选择采用产品的类别标签加入到资讯文本中，作为辅助识别这些产品实际内容的语义标签。例如，“天天成长”就有“活期理财”、“短久期理财”等语义标签。

步骤S740，根据语义标签对资讯文本中对应的金融产品的名称进行标注。

其中，考虑到金融产品命名也包含了一定的细粒度语义，可以将产品名称从原文本中保留，将确定的语义标签在文本的相关内容处，例如金融产品的名称处进行相应地标注处理。

在图10所示的实施例中，能够根据不同的应用场景对不同种类的资讯文本进行针对性地标注处理，提高资讯去重的适用范围，满足用户的多种需求。

请参阅图11，图11为本申请实施例提供的一种资讯去重装置的结构示意图，资讯去重装置800可以包括：处理模块810，用于对资讯文本进行处理，得到当前文本向量；验证模块820，用于对当前文本向量进行验证；若对当前文本向量验证通过，验证模块820，还用于将当前文本向量作为目标文本向量；若对当前文本向量验证未通过，更新模块830，用于对当前文本向量进行更新，以得到目标文本向量；去重模块840，用于基于去重阈值对目标文本向量去重，得到目标资讯文本。

在一可选的实施方式中，处理模块810，还用于根据文本处理模型对资讯文本进行处理，得到当前文本向量；更新模块830，还用于对文本处理模型进行更新，确定更新处理模型；根据更新处理模型对当前文本向量进行更新，以得到目标文本向量。

在一可选的实施方式中，文本处理模型包括摘要模型、对比模型和降维模型；处理模块810中还可以包括摘要子模块、向量子模块和降维子模块；摘要子模块，用于根据摘要模型对资讯文本进行提取，得到文本摘要；向量子模块，用于根据对比模型对文本摘要进行向量提取，得到初始向量；降维子模块，用于根据降维模型对初始向量进行降维，得到当前文本向量。

在一可选的实施方式中，向量子模块中还可以包括预训练单元，用于获取资讯文本训练集，其中，资讯文本训练集中包括多条历史资讯文本的语料文本；根据资讯文本训练集对对比模型进行对比训练。

在一可选的实施方式中，更新模块830中还可以包括第一调整子模块、处理子模块、第二调整子模块和第三调整子模块；第一调整子模块，用于根据当前文本向量对对比模型的第一模型参数进行调整，得到第一调整模型参数；处理子模块，用于根据第一调整模型参数对应的对比模型、摘要模型和降维模型对资讯文本进行处理，得到第一调整文本向量；第二调整子模块，用于基于第一调整文本向量对摘要模型的第二模型参数进行调整，得到第二调整模型参数；处理子模块，还用于根据第一调整模型参数对应的对比模型、第二调整模型参数对应的摘要模型和降维模型对资讯文本进行处理，得到第二调整文本向量；第三调整子模块，用于基于第二调整文本向量对降维模型的第三模型参数进行调整，得到第三调整模型参数，以第一调整模型参数对应的对比模型、第二调整模型参数对应的摘要模型和第三调整模型参数对应的降维模型作为更新处理模型。

在一可选的实施方式中，处理子模块，还用于根据第一调整模型参数对应的对比模型、第二调整模型参数对应的摘要模型和第三调整模型参数对应的降维模型对资讯文本进行处理，得到第三调整文本向量；更新模块830中还可以包括验证子模块，用于对第三调整文本向量进行验证，在对当前的第三调整文本向量验证通过时，将当前的第三调整文本向量作为目标文本向量。

在一可选的实施方式中，验证模块820还可以包括判断子模块，用于基于资讯文本验证集判断当前文本向量是否满足预设的去重条件；在当前文本向量满足去重条件时，则对当前文本向量验证通过；在当前文本向量不满足去重条件时，则对当前文本向量验证未通过。

在一可选的实施方式中，资讯文本中包括多条语义标签；判断子模块中还可以包括获取单元、计算单元、确定单元和判断单元；获取单元，用于获取资讯文本验证集，其中，资讯文本验证集中包括多条历史文本向量；计算单元，用于计算历史文本向量与当前文本向量之间的相似度；确定单元，用于确定相似度与语义标签之间的相关值；判断单元，用于基于相关值判断当前文本向量是否满足预设的去重条件。

在一可选的实施方式中，资讯去重装置800还可以包括阈值模块，用于获取资讯文本验证集中多条历史文本向量的判断标签，其中，判断标签表示对应的历史文本向量中的内容是否重复；根据判断标签和语义标签，确定去重阈值。

在一可选的实施方式中，资讯去重装置800还可以包括标注模块，用于根据资讯文本中金融产品的类型确定对应的语义标签；根据语义标签对资讯文本中对应的金融产品的名称进行标注。

由于本申请实施例中的资讯去重装置800解决问题的原理与前述的资讯去重方法的实施例相似，因此本实施例中的资讯去重装置800的实施可以参见上述资讯去重方法的实施例中的描述，重复之处不再赘述。

本申请实施例还提供了一种计算机可读取存储介质，可读取存储介质中存储有计算机程序指令，计算机程序指令被一处理器读取并运行时，执行本实施例提供的资讯去重方法中任一项方法中的步骤。

综上所述，本申请实施例提供了一种资讯去重方法、装置、电子设备及计算机可读取存储介质，通过对推荐的资讯文本进行向量化处理、验证、更新等方式，能够对资讯文本进行有效地高精度去重。可以对体量较长、维度较广、多种不同环境下的资讯文本都进行去重，有效地减少推荐的资讯中重复、冗余的内容，提高了去重的精度和效果，提升了用户的使用体验。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的框图显示了根据本申请的多个实施例的设备的可能实现的体系架构、功能和操作。在这点上，框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图中的每个方框、以及框图的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种资讯去重方法，其特征在于，所述方法包括：

对资讯文本进行处理，得到当前文本向量；

对所述当前文本向量进行验证，若对所述当前文本向量验证通过，将所述当前文本向量作为目标文本向量；

若对所述当前文本向量验证未通过，则对所述当前文本向量进行更新，以得到目标文本向量；

基于去重阈值对所述目标文本向量去重，得到目标资讯文本。

2.根据权利要求1所述的方法，其特征在于，所述对资讯文本进行处理，得到当前文本向量，包括：

根据文本处理模型对资讯文本进行处理，得到所述当前文本向量；

所述对所述当前文本向量进行更新，以得到目标文本向量，包括：

对所述文本处理模型进行更新，确定更新处理模型；

根据所述更新处理模型对所述当前文本向量进行更新，以得到所述目标文本向量。

3.根据权利要求2所述的方法，其特征在于，所述文本处理模型包括摘要模型、对比模型和降维模型；所述根据文本处理模型对资讯文本进行处理，得到所述当前文本向量，包括：

根据所述摘要模型对资讯文本进行提取，得到文本摘要；

根据所述对比模型对所述文本摘要进行向量提取，得到初始向量；

根据所述降维模型对所述初始向量进行降维，得到所述当前文本向量。

4.根据权利要求3所述的方法，其特征在于，所述根据所述对比模型对所述文本摘要进行向量提取，得到初始向量之前，所述方法还包括：

获取资讯文本训练集，其中，所述资讯文本训练集中包括多条历史资讯文本的语料文本；

根据资讯文本训练集对所述对比模型进行对比训练。

5.根据权利要求3所述的方法，其特征在于，所述对所述文本处理模型进行更新，确定更新处理模型，包括：

根据所述当前文本向量对所述对比模型的第一模型参数进行调整，得到第一调整模型参数；

根据所述第一调整模型参数对应的所述对比模型、所述摘要模型和所述降维模型对所述资讯文本进行处理，得到第一调整文本向量；

基于所述第一调整文本向量对所述摘要模型的第二模型参数进行调整，得到第二调整模型参数；

根据所述第一调整模型参数对应的所述对比模型、所述第二调整模型参数对应的所述摘要模型和所述降维模型对所述资讯文本进行处理，得到第二调整文本向量；

基于所述第二调整文本向量对所述降维模型的第三模型参数进行调整，得到第三调整模型参数，以所述第一调整模型参数对应的所述对比模型、所述第二调整模型参数对应的所述摘要模型和所述第三调整模型参数对应的所述降维模型作为所述更新处理模型。

6.根据权利要求5所述的方法，其特征在于，所述根据所述更新处理模型对所述当前文本向量进行更新，以得到所述目标文本向量，包括：

根据所述第一调整模型参数对应的所述对比模型、所述第二调整模型参数对应的所述摘要模型和所述第三调整模型参数对应的所述降维模型对所述资讯文本进行处理，得到第三调整文本向量；

对所述第三调整文本向量进行验证，在对当前的所述第三调整文本向量验证通过时，将当前的所述第三调整文本向量作为所述目标文本向量。

7.根据权利要求1所述的方法，其特征在于，所述对所述当前文本向量进行验证，包括：

基于资讯文本验证集判断所述当前文本向量是否满足预设的去重条件；

在所述当前文本向量满足所述去重条件时，则对所述当前文本向量验证通过；

在所述当前文本向量不满足所述去重条件时，则对所述当前文本向量验证未通过。

8.根据权利要求7所述的方法，其特征在于，所述资讯文本中包括多条语义标签；所述基于资讯文本验证集判断所述当前文本向量是否满足预设的去重条件，包括：

获取所述资讯文本验证集，其中，所述资讯文本验证集中包括多条历史文本向量；

计算所述历史文本向量与所述当前文本向量之间的相似度；

确定所述相似度与所述语义标签之间的相关值；

基于所述相关值判断所述当前文本向量是否满足预设的所述去重条件。

9.根据权利要求8所述的方法，其特征在于，所述基于去重阈值对所述目标文本向量去重，得到目标资讯文本之前，所述方法还包括：

获取所述资讯文本验证集中多条历史文本向量的判断标签，其中，所述判断标签表示对应的所述历史文本向量中的内容是否重复；

根据所述判断标签和所述语义标签，确定所述去重阈值。

10.根据权利要求1所述的方法，其特征在于，所述对资讯文本进行处理，得到当前文本向量之前，所述方法还包括：

根据所述资讯文本中金融产品的类型确定对应的语义标签；

根据所述语义标签对所述资讯文本中对应的所述金融产品的名称进行标注。

11.一种资讯去重装置，其特征在于，所述装置包括：

处理模块，用于对资讯文本进行处理，得到当前文本向量；

验证模块，用于对所述当前文本向量进行验证；

若对所述当前文本向量验证通过，所述验证模块，还用于将所述当前文本向量作为目标文本向量；

若对所述当前文本向量验证未通过，更新模块，用于对所述当前文本向量进行更新，以得到目标文本向量；

去重模块，用于基于去重阈值对所述目标文本向量去重，得到目标资讯文本。

12.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器中存储有程序指令，所述处理器运行所述程序指令时，执行权利要求1-10中任一项所述方法中的步骤。

13.一种计算机可读取存储介质，其特征在于，所述可读取存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器运行时，执行权利要求1-10任一项所述方法中的步骤。