CN112597281A

CN112597281A - 一种信息获取方法及装置

Info

Publication number: CN112597281A
Application number: CN202011585913.6A
Authority: CN
Inventors: 黄雅欢; 周健
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-02
Anticipated expiration: 2040-12-28
Also published as: CN112597281B

Abstract

本发明提供一种信息获取方法及装置，包括：获取每个客户的信息要素，并获得每个客户的信息要素的特征向量，分别计算每个客户的信息要素的特征向量与参考向量的相似度，参考向量为参考用户的信息要素的特征向量；对相似度进行排序，根据预设间隔抽取部分相似度，并获取抽取的部分相似度对应的客户的信息要素。这样，计算每个客户的信息要素的特征向量与参考客户的信息要素的特征向量的相似度，根据相似度对客户的信息要素进行筛选，在后续获取客户的信息要素时，可以根据预设间隔抽取部分相似度，筛除部分相似度较高的客户的信息要素，减小获取客户的信息要素的过程中的计算量，优先计算时间。

Description

一种信息获取方法及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种信息获取方法及装置。

背景技术

随着计算机技术和互联网技术的不断发展，信息技术在现代银行经营业务中得到了普遍应用。银行在大量的业务中产生大量的客户信息，例如对公客户信息“十三要素”、个人客户信息“九要素”。庞大的客户信息使得在对客户信息特征提取时，需要较大的计算量，耗费较长的计算时间。

发明内容

有鉴于此，本发明的目的在于提供一种信息获取方法及装置，减小计算量，优化计算时间。

为实现上述目的，本发明有如下技术方案：

一种信息获取方法，包括：

获取每个客户的信息要素，并获取所述每个客户的信息要素的特征向量；

分别计算所述每个客户的信息要素的特征向量与参考向量的相似度；所述参考向量为参考客户的信息要素的特征向量；

对所述相似度进行排序，根据预设间隔依次抽取所述相似度中的部分相似度，以获得所述部分相似度对应的客户的信息要素。

可选的，所述获取每个客户的信息要素，并获取所述每个客户的信息要素的特征向量，包括：

对每个客户的信息要素进行分词，并收集所有的分词；

根据收集的所有的分词获取所述每个客户的每个分词的频率，分别对所述每个客户的每个分词的频率进行降序排列并编号；

分别将每个客户的信息要素的每个分词的频率的编号作为神经网络模型的输入数据，将相邻的分词的频率的编号作为所述神经网络模型的输出数据，以获得每个客户的信息要素的中间参数矩阵；

根据所述每个客户的信息要素的中间参数矩阵获得所述每个客户的信息要素的特征向量。

可选的，所述根据所述每个客户的信息要素的中间参数矩阵获得所述每个客户的信息要素的特征向量包括：

将所述每个客户的信息要素的分词分别对应中间参数矩阵的行向量，以获得每个客户的信息要素的分词的向量；

将每个客户的信息要素的分词的向量组成多维向量，该多维向量为所述每个客户的信息要素的特征向量。

可选的，所述分别计算所述每个客户的信息要素的特征向量与参考向量的相似度，包括：

分别计算所述每个客户的信息要素的向量与所述参考向量的余弦值，所述余弦值表示客户的信息要素的向量与参考向量的相似度。

可选的，所述信息要素包括：姓名、证件类型、证件号码、证件有效期、国籍、性别、职业、联系地址和联系电话。

一种信息获取装置，包括：

第一获取单元，用于获取每个客户的信息要素，并获取所述每个客户的信息要素的特征向量；

计算单元，用于分别计算所述每个客户的信息要素的特征向量与参考向量的相似度；所述参考向量为参考客户的信息要素的特征向量；

第二获取单元，用于对所述相似度进行排序，根据预设间隔依次抽取所述相似度中的部分相似度，以获得所述部分相似度对应的客户的信息要素。

可选的，所述第一获取单元包括：分词单元、排序单元、第一子获取单元以及第二子获取单元；

所述分词单元，用于对每个客户的信息要素进行分词，并收集所有的分词；

所述排序单元，用于根据收集的所有的分词获取所述每个客户的每个分词的频率，分别对所述每个客户的每个分词的频率进行降序排列并编号；

所述第一子获取单元，用于分别将每个客户的信息要素的每个分词的频率的编号作为神经网络模型的输入数据，将相邻的分词的频率的编号作为所述神经网络模型的输出数据，以获得每个客户的信息要素的中间参数矩阵；

所述第二子获取单元，用于根据所述每个客户的信息要素的中间参数矩阵获得所述每个客户的信息要素的特征向量。

可选的，所述第二子获取单元具体用于将所述每个客户的信息要素的分词分别对应中间参数矩阵的行向量，以获得每个客户的信息要素的分词的向量；将每个客户的信息要素的分词的向量组成多维向量，该多维向量为所述每个客户的信息要素的特征向量。

可选的，所述计算单元具体用于分别计算所述每个客户的信息要素的向量与所述参考向量的余弦值，所述余弦值表示客户的信息要素的向量与参考向量的相似度。

本发明实施例提供的一种信息获取方法，包括：获取每个客户的信息要素，并获得每个客户的信息要素的特征向量，计算每个客户的信息要素的特征向量与参考向量的相似度，参考向量为参考用户的信息要素的特征向量；对相似度进行排序，根据预设间隔抽取部分相似度，并获取抽取的部分相似度对应的客户的信息要素。这样，计算每个客户的信息要素的特征向量与参考客户的信息要素的特征向量的相似度，根据相似度对客户的信息要素进行筛选，在后续获取客户的信息要素时，可以根据预设间隔抽取部分相似度，筛除部分相似度较高的客户的信息要素，减小获取客户的信息要素的过程中的计算量，优先计算时间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了根据本发明实施例一种信息获取方法的流程示意图；

图2示出了根据本发明实施例一种信息获取装置的结构示意图；

图3示出了根据本发明实施例一种信息获取装置的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其它不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

正如背景技术的描述，随着计算机技术和互联网技术的不断发展，信息技术在现代银行经营业务中得到了普遍应用。银行在大量的业务中产生大量的客户信息，例如对公客户信息“十三要素”、个人客户信息“九要素”。庞大的客户信息使得在对客户信息特征提取时，需要较大的计算量，耗费较长的计算时间。

为此，本申请实施例提供一种信息获取方法，包括：获取每个客户的信息要素，并获得每个客户的信息要素的特征向量，计算每个客户的信息要素的特征向量与参考向量的相似度，参考向量为参考用户的信息要素的特征向量；对相似度进行排序，根据预设间隔抽取部分相似度，并获取抽取的部分相似度对应的客户的信息要素。这样，计算每个客户的信息要素的特征向量与参考客户的信息要素的特征向量的相似度，根据相似度对客户的信息要素进行筛选，在后续获取客户的信息要素时，可以根据预设间隔抽取部分相似度，筛除部分相似度较高的客户的信息要素，减小获取客户的信息要素的过程中的计算量，优先计算时间。

为了便于理解本申请的技术方案和技术效果，以下将结合附图对具体的实施例进行详细的说明。

参考图1所示，在步骤S01中，获取每个客户的信息要素并获取所述每个客户的信息要素的特征向量。

获取每个客户的信息要素，信息要素用于表示客户的身份信息，例如可以包括：姓名、证件类型、证件号码、证件有效期、国籍、性别、职业、联系地址以及联系电话等。对每个客户的信息要素进行向量化处理，以获取每个客户的信息要素的特征向量。具体的，在获取每个客户的信息要素之后，可以先利用自然语言处理(NLP，Natural LanguageProcessing)技术对每个客户的信息要素进行预处理，例如进行关键词提取和无用信息的去除。

本实施例中，获取每个客户的信息要素的特征向量的方法可以为，对每个客户的信息要素进行分词，并收集所有的分词；根据收集的所有的分词获取每个客户的分词的频率，对每个客户的每个分词的频率进行降序排列并编号；将每个客户的信息要素的每个分词的频率的编号作为神经网络模型的输入数据，将相邻的分词的频率的编号作为神经网络模型的输出数据，以获得每个客户的信息要素的中间参数矩阵；根据每个客户的信息要素的中间参数矩阵获得每个客户的信息要素的特征向量。

例如对客户一的信息要素进行分词，分词结果为a、b、c、d、e，对客户二的信息要素进行分词，分词结果为b、e、j、k、l，对对客户三的信息要素进行分词，分词结果为b、d、e、j、n，可以理解的是，此处为了便于描述，利用英文字母表示中文词语，每一个英文字母表示一个中文词语。而后，收集所有客户的分词结果，则收集客户一的分词结果、客户二的分词结果以及客户三的分词结果获取所有客户的信息要素的分词集合为a、b、c、d、e、b、e、j、k、l、b、d、e、j、n。根据收集的所有客户的信息要素的分词结果确定每一个客户的每一分词出现的频率，客户一中信息要素的分词出现的频率分别为1、3、1、2、3，客户二中信息要素的分词出现的频率分别为3、3、2、1、1，客户三中信息要素的分词出现的频率分别为3、2、3、2、1。

而后对客户一的信息要素的分词出现的频率进行降序排列为3、3、2、1、1，并对降序排列的顺序进行编号，则频率3对应的编号分别为1和2，频率2对应的编号为2，频率1对应的编号分别为4和5，则分词与频率的关系以及频率与编号的关系可以确定分词和编号的关系，且每一个分词对应一个编号。当频率相同时，可以根据分词出现的先后顺序确定分词对应的编号，例如分词b和分词e出现的频率相同且分词b先于分词e出现，则分词b对应的编号为1，分词e对应的编号为2。从而确客户一中信息要素的分词a对应的编号为4，分词b对应的编号为1，分词c对应的编号为5，分词d对应的编号为3，分词e对应的编号为2。

对客户二的信息要素的分词出现的频率进行降序排列为3、3、2、2、1，对降序排列的顺序进行编号，则频率3对应的编号分别为1和2，频率2对应的编号分别为3和4，频率3对应的编号为5，且根据分词出现的先后顺序确定客户二的信息要素的分词b对应编号1，分词e对应编号2，分词j对应编号3，分词k对应编号4，分词l对应编号5。

对客户三的信息要素的分词出现的频率进行降序排列为3、3、2、2、1，对降序排列的顺序进行编号，则频率3对应的编号为1和2，频率2对应的变化为3和4，频率1对应的编号为5，且根据分词出现的先后顺序确定客户三的信息要素的分词b对应编号1，分词d对应编号3，分词e对应编号2，分词j对应编号4，分词n对应编号5。

而后，将客户一的信息要素的每个分词的频率的编号作为输入数据，将相邻的分词的编号作为输出数据，对神经网络模型进行训练，以分词a为例，当字段长度为1时，分词a对应的编号为4为输入数据时，输出数据为b对应的编号1以及数据c对应的编号5。以分词为c为例，当字段长度为1时，分词c对应的编号为5为输入数据，当字段长度为1时，输出数据为分词b对应的编号1以及分词e对应的编号2，当字段长度为2时，输出数据为分词b对应的编号1、分词e对应的编号2、分词a对应的编号4以及分词e对应的编号2。在确定的字段长度下，通过多组输入数据和输出数据对神经网络模型进行训练，获得客户一的信息要素的中间参数矩阵，神经网络模型可以包括输入层、中间层以及输出层，输入层对应输入数据，输出数据对应输出数据，通过输入数据和输出数据对神经模型进行训练后得到中间层的中间参数矩阵。类似的，将客户二的信息要素的每个分词的频率的编号作为输入数据，将相邻的分词的编号作为输出数据，获得客户二的信息要素的中间参数矩阵，将客户三的信息要素的每个分词的频率的编号作为输入数据，将相邻的分词的编号作为输出数据，获得客户三的信息要素的中间参数矩阵。

根据客户的中间参数矩阵获得客户的信息要素的每一个分词的向量。具体的，当信息要素的分词的个数为m个时，获得的中间参数矩阵为m×n维矩阵，且每一个分词分别对应中间参数矩阵的行向量，从而获得每一个分词的向量，而后将多个分词的向量组合形成信息要素的特征向量，例如客户一的每个分词的向量均为m维向量，且客户一的分词数量为3时，客户一的信息要素的特性向量为3m维向量。

在步骤S02中，计算每个客户的信息要素的特征向量与参考向量的相似度，参考向量为参考客户的信息要素的特征向量。

在步骤S01中，获取每个客户的信息要素的特征向量，分别计算每个客户的信息要素的特征向量与参考向量的相似度，具体的，可以分别计算每个客户的信息要素的特征向量与参考向量的余弦距离，余弦距离即余弦相似度，用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。当两个向量夹角的余弦等于1时，两个向量完全重复，即该客户的信息要素与参考客户的信息要素完全重复，夹角的余弦越接近于1，表明该客户的信息要素与参考客户的信息要素越相似，夹角的余弦越远离1，表明该客户的信息与参考客户的信息要素相差越大。

在步骤S03中，对相似度进行排序，根据预设间隔依次抽取相似度中的部分相似度，以获得部分相似度对应的客户的信息要素。

经过步骤S01中获取每个客户的信息要素的特征向量与参考向量的相似度，即获取每个客户的信息要素与参考客户的信息要素的相似度之后，对相似度进行排序并编号。例如，客户一的信息要素与参考客户的信息要素的相似度为0.2，客户二的信息要素与参考客户的信息要素的相似度为1，客户三的信息要素与参考客户的信息要素的相似度为0.8，客户四的信息要素与参考客户的信息要素的相似度为0.5，客户五的信息要素与参考客户的信息要素的相似度为0.7。可以对相似度进行降序排列并编号，则对相似度进行降序排序为1、0.8、0.7、0.5、0.2，相似度1对应的编号为1，相似度0.8对应的编号为2，相似度0.7对应的编号为3，相似度为0.5对应的编号为4，相似度为0.2对应的编号为5。也可以对相似度进行升序排列并编号，则对相似度进行升序排列为0.2、0.5、0.7、0.8、1，相似度0.2对应的编号为1，相似度0.5对应的编号为2，相似度0.7对应的编号为3，相似度0.8对应的编号为4，相似度1对应的编号为5。

在对相似度进行排序之后，可以根据预设间隔抽取相似度中的部分相似度。具体的，根据客户的信息要素与参考客户的信息要素的相似度以及相似度对应的编号，确定客户的信息要素对应的编号，则对相似度进行降序排列后，客户一的信息要素对应的编号为5、客户二的信息要素对应的编号为1、客户三的信息要素对应的编号为2、客户四的信息要素对应的编号为4、客户五的信息要素对应的编号为3。对相似度进行升序排列后，客户一的信息要素对应的编号为1，客户二的信息要素对应的编号为5，客户三的信息要素对应的编号为4，客户四的信息要素对应的编号为2，客户五的信息要素对应的编号为3。预设间隔例如可以为2，则抽取相似度中的部分相似度为客户一、客户三以及客户五对应的相似度，进而获得客户一的信息要素、客户三的信息要素以及客户五的信息要素。

以上对本申请实施例提供的一种信息获取方法进行了详细的描述，本申请实施例还提供一种信息获取装置，参考图2所示，包括：

第一获取单元201，用于获取每个客户的信息要素，并获取所述每个客户的信息要素的特征向量；

计算单元202，用于分别计算所述每个客户的信息要素的特征向量与参考向量的相似度；所述参考向量为参考客户的信息要素的特征向量；

第二获取单元203，用于对所述相似度进行排序，根据预设间隔依次抽取所述相似度中的部分相似度，以获得所述部分相似度对应的客户的信息要素。

本实施例中，第一获取单元201包括分词单元211、排序单元221、第一子获取单元231以及第二子获取单元241，参考图3所示；

所述分词单元211，用于对每个客户的信息要素进行分词，并收集所有的分词；

所述排序单元221，用于根据收集的所有的分词获取所述每个客户的每个分词的频率，分别对所述每个客户的每个分词的频率进行降序排列并编号；

所述第一子获取单元231，用于分别将每个客户的信息要素的每个分词的频率的编号作为神经网络模型的输入数据，将相邻的分词的频率的编号作为所述神经网络模型的输出数据，以获得每个客户的信息要素的中间参数矩阵；

所述第二子获取单元241，用于根据所述每个客户的信息要素的中间参数矩阵获得所述每个客户的信息要素的特征向量。

本实施例中，所述第二子获取单元241具体用于将所述每个客户的信息要素的分词分别对应中间参数矩阵的行向量，以获得每个客户的信息要素的分词的向量；将每个客户的信息要素的分词的向量组成多维向量，该多维向量为所述每个客户的信息要素的特征向量。

本实施例中，所述计算单元202具体用于分别计算所述每个客户的信息要素的向量与所述参考向量的余弦值，所述余弦值表示客户的信息要素的向量与参考向量的相似度。所述信息要素包括：姓名、证件类型、证件号码、证件有效期、国籍、性别、职业、联系地址和联系电话。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其它实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种信息获取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取每个客户的信息要素，并获取所述每个客户的信息要素的特征向量，包括：

对每个客户的信息要素进行分词，并收集所有的分词；

3.根据权利要求2所述的方法，其特征在于，所述根据所述每个客户的信息要素的中间参数矩阵获得所述每个客户的信息要素的特征向量包括：

4.根据权利要求1所述的方法，其特征在于，所述分别计算所述每个客户的信息要素的特征向量与参考向量的相似度，包括：

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述信息要素包括：姓名、证件类型、证件号码、证件有效期、国籍、性别、职业、联系地址和联系电话。

6.一种信息获取装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述第一获取单元包括：分词单元、排序单元、第一子获取单元以及第二子获取单元；

8.根据权利要求7所述的装置，其特征在于，所述第二子获取单元具体用于将所述每个客户的信息要素的分词分别对应中间参数矩阵的行向量，以获得每个客户的信息要素的分词的向量；将每个客户的信息要素的分词的向量组成多维向量，该多维向量为所述每个客户的信息要素的特征向量。

9.根据权利要求6所述的装置，其特征在于，所述计算单元具体用于分别计算所述每个客户的信息要素的向量与所述参考向量的余弦值，所述余弦值表示客户的信息要素的向量与参考向量的相似度。

10.根据权利要求6-9任意一项所述的装置，其特征在于，所述信息要素包括：姓名、证件类型、证件号码、证件有效期、国籍、性别、职业、联系地址和联系电话。