CN115688763A

CN115688763A - 一种单位名称一致性的判别方法

Info

Publication number: CN115688763A
Application number: CN202210961022.9A
Authority: CN
Inventors: 郑紫薇; 曹润萱; 赵忠平; 王彦青; 张少杰; 孙书梅
Original assignee: Beijing Digital Communications Lianyu Information Technology Co ltd
Current assignee: Beijing Digital Communications Lianyu Information Technology Co ltd
Priority date: 2022-08-11
Filing date: 2022-08-11
Publication date: 2023-02-03

Abstract

一种单位名称一致性的判别方法，包括：构建标准名称库，将每个标准单位名称分词，并设定类别；获取用户输入名称，将输入名称分词，并设定类别；构建一致性判断库；为一致性判断库中每个标准单位名称构建组合名称集；计算输入名称和每个标准单位名称的余弦相似度，从中挑选余弦相似度最大值及对应的标准单位名称；采用序列匹配法，计算输入名称和每个标准单位名称的序列相似度，从中挑选序列相似度最大值及对应的标准单位名称；判断余弦相似度最大值的标准单位名称和序列相似度最大值的标准单位名称是否一致，如果是，则标准单位名称是和用户输入名称一致的单位名称。本发明属于信息领域，能准确识别、匹配获得和用户输入名称一致的标准单位名称。

Description

一种单位名称一致性的判别方法

技术领域

本发明涉及一种单位名称一致性的判别方法，属于信息领域。

背景技术

在银行、证券、保险的各类业务场景中，需要正确获取用户填写的单位信息，而这些单位数据为用户个人手动填写，常存在与工商注册的标准名称不一致的情况，用户的错填漏填以及多样化的简称形式往往导致单位名称很难被正确识别。

一般来说，对单位名称一致性的判别存在如下问题：

(1)名称不准确。单位数据为用户个人手动填写，常存在单位名称漏填错填、使用不统一的单位简称、分支单位与上属单位不进行区分等问题。

(2)简称多样化。大部分单位简称往往是人们根据习惯约定而成的，没有标准的形式，包括汉语拼音、缩写、以前的名字、音译等等。

专利申请CN 202111505876(申请名称：一种公司信息匹配方法，申请人：北京羽乐创新科技有限公司，申请日：2021.12.10)公开了一种公司信息匹配方法，所述方法包括：接收用户输入的待查公司信息；格式化待查公司电话号码；模糊检索待查公司名称，得到第一结果集；所述第一结果集中包括检索到的至少一个相似公司信息；判断待查公司名称和所述第一结果集中的相似公司名称是否一致；若公司名称一致，则判断与所述待查公司名称一致的相似公司名称对应的相似公司电话号码是否和格式化后的待查公司电话号码一致；若电话号码一致，则确定待查公司信息匹配结果为一致，所述公司信息包括公司名称、公司电话号码和公司地址。该技术方案通过公司名称和电话号码来确定公司信息匹配是否一致，并在判断待查公司名称的字符串和当前相似公司名称的字符串是否相等时，基于经验和人为规定的规则采用了将名称切割为“区域+字号+行业号+企业类型”形式，缺乏普适性，而且仅基于单独字符串判断，却忽略了字符串之间的联系性，容易导致匹配结果出现混淆。

因此，如何准确识别用户输入的单位名称，从而匹配获得和用户输入名称一致的标准单位名称，已成为技术人员重点关注的技术问题。

发明内容

有鉴于此，本发明的目的是提供一种单位名称一致性的判别方法，能准确识别用户输入的单位名称，从而匹配获得和用户输入名称一致的标准单位名称。

为了达到上述目的，本发明提供了一种单位名称一致性的判别方法，包括有：

步骤一、构建标准名称库，将标准名称库中的每个标准单位名称分词，并设定每个分词的类别，分词的类别包括地区R、关键词X、行业I和单位后缀O；

步骤二、获取用户输入名称，将用户输入名称分词，并设定每个分词的类别；

步骤三、基于标准名称库，构建一致性判断库；

步骤四、为一致性判断库中的每个标准单位名称构建组合名称集：将每个标准单位名称的分词按照其类别进行组合，从而生成一个新的组合名称，将按照多种类别组合方式得到的多个组合名称构成每个标准单位名称的组合名称集；

步骤五、计算用户输入名称和一致性判断库中每个标准单位名称的组合名称集中每个组合名称的余弦距离，然后加权计算得到用户输入名称和每个标准单位名称的余弦相似度，最后从中挑选余弦相似度的最大值及对应的标准单位名称；

步骤六、采用序列匹配法，计算用户输入名称和一致性判断库中每个标准单位名称的组合名称集中每个组合名称的序列匹配值，然后加权计算得到用户输入名称和每个标准单位名称的序列相似度，最后从中挑选序列相似度的最大值及对应的标准单位名称；

步骤七、判断余弦相似度最大值对应的标准单位名称和序列相似度最大值对应的标准单位名称是否一致，如果是，则余弦相似度最大值对应的标准单位名称是和用户输入名称一致的单位名称，并将序列相似度最大值作为一致性判别值保存，本流程结束；如果否，则继续下一步；

步骤八、分别计算余弦相似度最大值、序列相似度最大值对应的标准单位名称和用户输入名称的序列匹配值，然后从中挑选最大值，最大值对应的标准单位名称是和用户输入名称一致的单位名称，并将最大值作为一致性判别值保存。

与现有技术相比，本发明的有益效果是：本发明设计了针对单位名称短文本的专用分词方法，首先对单位名称进行分词，然后融合余弦距离与Sequence Matcher两种方法，并在此基础上给词向量分配不同的权重进行加权计算来输出最终得分，最后对于判别计算效果较为模糊的用户输入名称再进一步通过无监督学习法进行建模并输出最终得分，从而能够准确匹配获得和用户输入名称一致的标准单位名称；本发明对单位名称做切分时采用中科院NLPIR 库进行分词和标注词性，再基于每个部分的词性设置所属类型，并对各个部分进行排列组合，计算时对各种组合进行加权计算作为匹配分数，从而能更好的保留字符串之间的关联性，准确识别多样化的简称。

附图说明

图1是本发明一种单位名称一致性的判别方法的流程图。

图2是图1步骤五中，计算用户输入名称和标准单位名称的组合名称集中的组合名称的余弦距离的具体步骤流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

如图1所示，本发明一种单位名称一致性的判别方法，包括有：

步骤一、构建标准名称库，将标准名称库中的每个标准单位名称分词，并设定每个分词的类别，分词的类别包括地区(R)、关键词(X)、行业(I)和单位后缀(O)；

步骤三、基于标准名称库，构建一致性判断库：提取用户输入名称中类别为关键词X的分词的首个字S，然后逐一判断标准名称库中每个标准单位名称是否包含有类别为X、且首个字为S的分词，如果是，则将该标准单位名称写入一致性判断库中；

在全量标准名称库中提取关键词X的首个字与用户输入名称的关键词X的首个字相同的所有数据，作为本次判别的一致性判断库，能够大量缩减标准库量级、提高效率与准确性；

步骤七、判断余弦相似度最大值对应的标准单位名称和序列相似度最大值对应的标准单位名称是否一致？如果是，则余弦相似度最大值对应的标准单位名称是和用户输入名称一致的单位名称，并将序列相似度最大值作为一致性判别值保存，本流程结束；如果否，则继续下一步；

本发明可以提取工商注册标准名称表和组织机构名称表中的单位名称数据作为标准单位名称来构建标准名称库，并对用户输入表中的用户输入名称和标准名称库中的标准单位名称进行数据预处理，具体步骤如下：

1)将用户输入表、工商注册标准名称表和组织机构名称表中单位名称为空的数据过滤掉；

2)将文本中包含的特殊字符，如“？”、“^”、“(”、“)”、“《”、“》”等符号去掉；

3)将全是数字和字母的数据认定为脏数据处理；

4)去除文本前后、中间的空格；

5)将文本中包含的全角和半角阿拉伯数字替换为汉字数字。

将预先准备的单位名称后缀、单位名称关键词创建为用户词典，并将其导入分词环境。为提高银行、保险等分支机构多的行业的判别准确性，提前对其进行去除停用词的操作，例如去除“分行”，“支行”，“股份有限公司”等影响判别结果的词。

由于单位名称一般由地区(R)、关键词(X)、行业(I)和单位后缀(O)四部分组成，因此，本发明采用RXIO方式表示单位的名称结构，步骤一或步骤二中，设定每个分词的类别，可以进一步包括有：

采用NLPIR中文分词系统，对标准单位名称或者用户输入名称进行分词和标注词性，所述词性包括有：地点、名词、动词、副词，然后逐一设定每个分词的类别：如果词性为地点，则分词的类别为地区R；如果词性为名词、且分词存在于单位后缀词库中，则分词的类别为单位后缀O；如果词性为名词、动词、或副词，且分词存在于行业词库中，则分词的类别为行业I；如果分词存在于单位关键词词库中、或未存在于任何词库中且不属于上述三种类别，则分词的类别为关键词X。

通过实验验证，步骤四采用3种类别组合方式时的技术效果最优，这3种类别组合方式分别是：关键词X、地点R+关键词X、关键词X+行业I，以上海沃力森健身公司为例，其组合名称集可以是{沃力森，上海沃力森，沃力森健身}。下表示出了一个对标准单位名称或者用户输入名称进行分词和设定类别的实例：

如图2所示，步骤五中，计算用户输入名称N_Input和标准单位名称N_b的组合名称集中的组合名称N_z的余弦距离，可以进一步包括有：

步骤51、将用户输入名称N_Input对应的所有分词构成用户分词集合t_Input；

步骤52、将组合名称N_z对应的所有分词构成组合分词集合t_z；

步骤53、将用户分词集合t_Input和组合分词集合t_z合并成总词集合U，并去除U中的重复分词：

步骤54、将用户输入名称N_Input转化成用户词向量A：创建一个长度和总词集合U中元素数相等的用户词向量，并初始化为0，然后逐一判断总词集合U中的每个元素是否存在于t_Input中，如果是，则将用户词向量的对应位置修改为1，如果否，则继续判断U中的下一个元素；

步骤55、将组合名称N_z转化成组合词向量B：创建一个长度和总词集合U中元素数相等的组合词向量，并初始化为0，然后逐一判断总词集合U中的每个元素是否存在于t_z中，如果是，则将组合词向量的对应位置修改为1，如果否，则继续判断U中的下一个元素；

步骤56、计算用户词向量A和组合词向量B的余弦距离，其计算公式为：

根据行业经验和大量数据测试发现，由于地名、行业和组织结构均有或多或少的重复度而关键词X较为独特，所以关键词X对判别结果的准确度影响较大，因此为关键词X这种类别组合方式分配最大权重；地点R+关键词X的类别组合方式和关键词X+行业I的类别组合方式的影响度则次之，并且二者重要度不分上下，因此赋予其比关键词X小且彼此相等的权重。所以，当采取关键词X、地点R+关键词X、关键词X+行业I这3种类别组合方式时，在步骤五和步骤六的加权计算中，关键词X的权重值最大，且地点R+关键词X、关键词X+行业I的权重值相等时能取得最优技术效果。

步骤五中，加权计算用户输入名称和每个标准单位名称的余弦相似度的公式如下：

其中，dist(N_Input，N_b)是用户输入名称N_Input和标准单位名称N_b的余弦相似度，C_i是用户输入名称和标准单位名称的组合名称集中第i个组合名称的余弦距离，ω_i是第i种类别组合方式的权重值，M是组合名称集中的组合名称数。

序列匹配法是短文本匹配中的一种常用方法，对长度相同的序列，计算每两点之间的距离然后求和，距离越小相似度越高；对长度不同的序列，可使用子序列匹配和滑动窗口来进行处理。为了提高效率与增加准确度，本发明对特定行业采用序列匹配法进行相似度计算。在开始判别分析前，先对下属分支机构多的行业单位(例如银行、保险)以及事业单位和政府机构在各自的机构类别中进行未加权的序列匹配，减少后续的计算量，并且经过验证，此方法对于此类行业判别更为准确。其中，单独为银行设置更多细分至名称的规则，增加银行名称判别的准确性，避免在大类标准库中进行行业判别时出现银行名称错误的问题。步骤六中，加权计算用户输入名称和每个标准单位名称的序列相似度的公式如下：

其中，xl(N_Input，N_b)是用户输入名称N_Input和标准单位名称N_b的序列相似度，x_i是用户输入名称和标准单位名称的组合名称集中第i个组合名称的序列匹配值，ω_i是第i种类别组合方式的权重值，M是组合名称集中的组合名称数。

步骤七或八中，若一致性判别值低于设定阈值时，还可以包括有：

步骤九、采用Word2Vec，构建用户输入名称和一致性判断库中所有标准用户名称对应的词向量，然后将用户输入名称和一致性判断库中所有标准用户名称的词向量输入无监督学习KD-tree算法，并输出获得和用户输入名称距离最近的标准单位名称和距离得分，所输出的标准单位名称是和用户输入名称一致的单位名称，将距离得分作为一致性判别值保存。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种单位名称一致性的判别方法，其特征在于，包括有：

步骤三、基于标准名称库，构建一致性判断库；

2.根据权利要求1所述的方法，其特征在于，步骤一或步骤二中，设定每个分词的类别，进一步包括有：

对标准单位名称或者用户输入名称进行分词和标注词性，所述词性包括有：地点、名词、动词、副词，然后逐一设定每个分词的类别：如果词性为地点，则分词的类别为地区R；如果词性为名词、且分词存在于单位后缀词库中，则分词的类别为单位后缀O；如果词性为名词、动词、或副词，且分词存在于行业词库中，则分词的类别为行业I；如果分词存在于单位关键词词库中、或未存在于任何词库中且不属于上述三种类别，则分词的类别为关键词X。

3.根据权利要求1所述的方法，其特征在于，步骤三进一步包括有：

提取用户输入名称中类别为关键词X的分词的首个字S，然后逐一判断标准名称库中每个标准单位名称是否包含有类别为X、且首个字为S的分词，如果是，则将该标准单位名称写入一致性判断库中。

4.根据权利要求1所述的方法，其特征在于，步骤五中，计算用户输入名称N_Input和标准单位名称N_b的组合名称集中的组合名称N_z的余弦距离，进一步包括有：

步骤52、将组合名称N₂对应的所有分词构成组合分词集合t_z；

步骤53、将用户分词集合t_Input和组合分词集合t_z合并成总词集合U，并去除U中的重复分词；

5.根据权利要求1所述的方法，其特征在于，当采取关键词X、地点R+关键词X、关键词X+行业I这3种类别组合方式时，在步骤五和步骤六的加权计算中，关键词X的权重值大于地点R+关键词X和关键词X+行业I的权重值，且地点R+关键词X和关键词X+行业I的权重值相等。

6.根据权利要求1所述的方法，其特征在于，步骤七或八中，若一致性判别值低于设定阈值时，还包括有：