CN111797206A

CN111797206A - 一种基于自然语言词向量的银行名称匹配方法及系统

Info

Publication number: CN111797206A
Application number: CN202010657559.7A
Authority: CN
Inventors: 李振; 刘昊霖; 尹正; 鲍东岳; 张刚; 彭加欣; 陈厚霖; 李千惠; 刘蓓; 周光传; 张晨星
Original assignee: Minsheng Science And Technology Co ltd
Current assignee: Minsheng Science And Technology Co ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-10-20

Abstract

本发明提供了一种基于自然语言词向量的银行名称匹配方法及系统，涉及数据查询技术领域，能够实现银行名称的一步查询，大大缩短查询时间，且步骤简单、操作方便、准确率高；该方法包括：S1、采用TF‑IDF算法训练处理后银行名称库得到第一词向量矩阵；S2、逐行做归一化处理得到第一归一化矩阵；S3、预处理客户输入银行名得到多个2字词组；S4、采用TF‑IDF算法训练2字词组得到第二词向量矩阵，并逐行做归一化处理得到第二归一化矩阵；S4、计算第一归一化矩阵和第二归一化矩阵的余弦相似度，根据余弦相似度选择银行全称作为匹配结果。本发明提供的技术方案适用于银行名称匹配的过程中。

Description

一种基于自然语言词向量的银行名称匹配方法及系统

【技术领域】

本发明涉及数据查询技术领域，尤其涉及一种基于自然语言词向量的银行名称匹配方法及系统。

【背景技术】

转账，是指不直接使用现金，而是通过银行将款项从付款账户划转到收款账户完成货币收付的一种银行货币结算方式。如今，几乎每个人、每家企业都有转账汇款的需求。当人们跨行转账时，有的时候需要输入正确的银行名称甚至行号来保证转账准确无误的完成，否则该笔转账操作会被打回或者转入错误账户，造成不良影响。例如银行网点柜员办理汇款业务、企业使用银企直连转账汇款、银行内部跨行转账等等。目前主流的银行名称查询方法依赖传统数据库匹配，首先选定银行，再选定省市和地区，然后模糊查询录入(简称或缩写还需要加*号搜索)，从给出的一系列银行名称里找到目标银行，最后回显或录入行号。整个过程需要人工手动操作多个步骤，完成平均需要半分钟时间，占用时间长，自动化程度低。市场上也有一些模糊匹配的方法，但这些方法匹配效率和匹配准确性尚不能满足需求。

因此，有必要研究一种基于自然语言词向量的银行名称匹配方法及系统来应对现有技术的不足，以解决或减轻上述一个或多个问题。

【发明内容】

有鉴于此，本发明提供了一种基于自然语言词向量的银行名称匹配方法及系统，能够实现银行名称的一步查询，大大缩短查询时间，且步骤简单、操作方便、准确率高。

一方面，本发明提供一种基于自然语言词向量技术的银行名称高效匹配方法，其特征在于，所述方法的步骤包括：

S1、对银行名称库进行处理后作为第一训练集，采用TF-IDF算法处理第一训练集，得到第一词向量矩阵；

S2、对第一词向量矩阵的每一行分别做归一化处理得到第一归一化矩阵；

S3、对客户输入的银行简称做预处理获得第二训练集；

S4、采用TF-IDF算法对第二训练集进行处理，得到第二词向量矩阵，并对第二词向量矩阵每一行分别做归一化处理得到第二归一化矩阵；

S5、计算第一归一化矩阵和第二归一化矩阵的余弦相似度，根据余弦相似度选择银行全称作为匹配结果。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，第一训练集和第二训练集均包括若干单字词组和若干2字词组。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，根据余弦相似度选择银行全称作为匹配结果的具体内容为：第二归一化矩阵与第一归一化矩阵的转置做点乘，选择相乘结果中每一行最大值所在位置对应的银行全称作为匹配结果。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，步骤S1中对银行名称库做的处理包括：

S11、过滤掉银行名称中的非关键文字；

S12、对过滤后的银行名称做切分和重新组合，获得多个单字和多个2字词组。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，步骤S2或步骤S4中的归一化处理为L²范数归一化处理，使每一行向量的模等于1。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，L²范数归一化处理的计算方式为：

其中，norm2(x)为L²范数，x_i为第一或第二词向量矩阵中的元素，x′_i为对应的第一或第二归一化矩阵中的元素；x₁、x₂…x_n为向量中的各个值，代表银行名称对应的TF-IDF值。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，TF-IDF算法具体为：TF-IDF＝TF*IDF；TF为某一词的词频，IDF为逆向文件频率。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，TF的计算公式为：

IDF的计算公式为：

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述方法的步骤还包括：S5、将新增银行名称加入到银行名称库中，重新进行S1-S4。

另一方面，本发明提供一种基于自然语言词向量技术的银行名称高效匹配系统，其特征在于，用于实现如上任一所述的匹配方法；

所述匹配系统包括：

IO模块，用于客户数据的输入和匹配结果的输出；

模型模块，负责对银行名称库和客户输入银行简称做前期处理，以及获取对应的词向量矩阵；

存储计算模块，用于存储银行名称库和词向量矩阵，并进行计算，计算内容包括归一化处理、余弦相似度计算以及结果匹配。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述系统进行银行名称匹配的过程在1秒内完成，且准确率达到99.9％以上。

再一方面，本发明提供一种基于自然语言词向量的金融机构名称匹配方法，其特征在于，所述匹配方法针对包括银行在内的金融机构，步骤如上任一所述的匹配方法的步骤，但需将银行名称、银行全称、银行简称等改为对应的金融机构名称、全称或简称。

与现有技术相比，本发明可以获得包括以下技术效果：能够实现银行名称的一步查询，不需要选定省市和地区等多步操作，步骤简单、操作方便；采用矩阵式余弦相似度计算的方式，速度远高于传统循环计算方式，实现1s匹配，大大缩短查询时间，且准确率高。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有技术效果。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明一个实施例提供的基于自然语言词向量技术的银行名称高效匹配方法的流程图；

图2是本发明一个实施例提供的基于自然语言词向量技术的银行名称高效匹配系统的工作逻辑图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

针对现有技术的不足，为简化银行名称查询步骤，提高匹配效率，本发明提供一种基于自然语言词向量技术的银行名称高效匹配系统，可根据银行简称快速匹配到银行全称。该高效匹配系统包括三个模块，分别为IO模块、模型模块和存储计算模块。IO模块负责数据的输入和结果输出；模型模块包括数据预处理和TF-IDF模型；存储计算模块用于存储所有行名行号和词向量矩阵，采用的计算方式为词向量矩阵计算。相应的，匹配方法同样基于自然语言词向量技术，将已有的银行名称库作为训练数据集，先对银行名称做分词、过滤无关词、词语组合等预处理，然后采用TF-IDF算法训练得到词向量，最后基于余弦相似度的计算方法，将需要检索的词向量处理结果与词向量矩阵转置相乘得到两词向量之间的余弦相似度，余弦相似度最大的词向量即为与检索词最匹配的银行名称，将该名称返回到IO系统即完成一次银行名称匹配。

该方法的具体内容包括以下步骤：

步骤1：针对已有的银行名称库，预处理每个银行名称，并对银行名称做切分和组合处理，然后运用TF-IDF算法获取词向量矩阵；

步骤1的具体步骤为：

步骤1.1：对银行名称库里的所有银行名称做预处理，预处理内容包括过滤无关键信息的文字，包括有限公司、股份有限公司、银行和支行等，以减小计算量；例如中国工商银行北京市顺义支行过滤后变成中国工商北京市顺义；

步骤1.2：切分和组合银行名称，将银行名称按字切分开，再对字做两两组合，最终获得多个单字词组和多个“2字词组”；例如中国工商北京市顺义切分组合后变成[中国、工商、北京、顺义、中工、工顺、京顺…]；

步骤1.3：将上述步骤得得到的字和两字词组作为训练集，运用TF-IDF算法训练得到TF-IDF矩阵X，将TF-IDF模型存入模型模块，TF-IDF模型即为保存内容，包含了训练集中每个词和字的TF和IDF信息，以及词和字的序号；TF-IDF算法的具体计算方式为：TF-IDF＝TF*IDF；其中，TF为词频，IDF为逆向文件频率；

其中，TF的计算公式为：

IDF的计算公式为：

步骤2：对TF-IDF矩阵中的每一行做L²范数归一化处理得到归一化后的矩阵X′，使每一行向量的模等于1，将归一化后的矩阵X′存入存储计算模块，归一化计算方式为：

其中，norm2(x)为L²范数；x_i为TF-IDF矩阵中的元素，x′_i为对应的归一化矩阵中的元素；范数公式中的x₁、x₂…x_n分别是一个向量中的各个值，代表这某个银行名称组合切分后的TF-IDF值；

步骤3：当从IO模块输入一条银行简称时，对该条名称做过滤、切分和组合等预处理，获得多个“2字词组”，调用保存在模型模块中的TF-IDF模型将多个“2字词组”转化成TF-IDF矩阵并做归一化处理得到矩阵Y，此步骤操作同步骤1；例如输入：工商银行顺义，过滤切分组合后变成：[工商，顺义，工顺，工义…]；

步骤4：计算矩阵Y与矩阵X′的余弦相似度，计算方式为矩阵Y点乘矩阵X′的转置，根据相乘后的结果，选择每一行中最大值所在位置对应的银行全称作为匹配结果并输出。

本申请的内容也可适用于其他金融机构名称的匹配过程。

本发明的有益效果如下：

1)、本发明系统可实现银行名称一步查询，不需要选定省市和地区等多步操作，输入银行简称即可自动匹配到具体银行名称和银行行号，步骤简单，操作方便。

2)、本发明中词向量的余弦相似度采取矩阵计算的方式，速度远高于循环计算方式，整个查询匹配过程能在1秒内返回，实现跨行转账秒级操作，相比传统方法效率大大提升。

3)、传统转账方式有时会出现人工操作失误的情况，本发明经对14万条数据测试后发现准确率达到99.9％，准确率非常高，几乎零失误。

4)、本发明能很好的支持新增行名，将新增的行名加入训练数据中，并重新训练模型即可支持对新增行名的查询匹配。

以上对本申请实施例所提供的一种基于自然语言词向量技术的银行名称高效匹配系统，进行了详细介绍。以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

如在说明书及权利要求书当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求书并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求书当中所提及的“包含”、“包括”为一开放式用语，故应解释成“包含/包括但不限定于”。“大致”是指在可接收的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。说明书后续描述为实施本申请的较佳实施方式，然所述描述乃以说明本申请的一般原则为目的，并非用以限定本申请的范围。本申请的保护范围当视所附权利要求书所界定者为准。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

上述说明示出并描述了本申请的若干优选实施例，但如前所述，应当理解本申请并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述申请构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围，则都应在本申请所附权利要求书的保护范围内。