CN116127976A

CN116127976A - 公司名称的匹配方法、装置及电子设备

Info

Publication number: CN116127976A
Application number: CN202310027146.4A
Authority: CN
Inventors: 崔世琦; 董丽荣; 丁峰; 吴正午; 刘贤艳; 谭晓颖; 孙晓锐
Original assignee: China Judicial Big Data Research Institute Co ltd
Current assignee: China Judicial Big Data Research Institute Co ltd
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2023-05-16
Anticipated expiration: 2043-01-09
Also published as: CN116127976B

Abstract

本发明公开了一种公司名称的匹配方法、装置及电子设备，所述方法包括：获取待测公司名称中实体的实体类型，所述实体类型包括：区划、字号、行业和组织形式；基于所述实体类型，将所述实体组合成多个层级的模糊查询；利用所述多个层级的模糊查询，在ElasticSearch中进行公司名称的搜索，以得到名称匹配结果。本发明大幅度减少了人工检验的工作量，大大提升了校验速度。

Description

公司名称的匹配方法、装置及电子设备

技术领域

本公开涉及数据处理领域，具体涉及一种公司名称的匹配方法、装置及电子设备。

背景技术

裁判文书作为法制社会产物蕴含巨大的信息，其中公司名称在文书中出现的频次十分高，并且对金融机构或者银行进行风险审核时具有非常重要的意义。但是自然人在提交材料时很多时候都会出现错误，比如口语化名称，少写行政区划、错别字、漏填，子公司、简称等等。后期对公司名称的校验十分困难。

现阶段市面上技术仍在精准匹配公司名称的阶段，模糊匹配算法较少。有的话也是两两对比公司名称较多，在面对海量的法律文书中的公司名称时显得效率低下，并且不够准确。

发明内容

针对上述问题，本发明公开了一种公司名称的匹配方法、装置及电子设备，该方法包括基于ES搜索引擎的快速搜索，基于TF-IDF的停用词建立，基于字符串相似个数的topk推荐，基于预训练模型BERT结合余弦相似度的概率计算，基于KDtree的快速搜索，基于UIE的命名体识别等等。

本发明的技术内容，包括：

一种公司名称的匹配方法，所述方法包括：

获取待测公司名称中实体的实体类型，所述实体类型包括：区划、字号、行业和组织形式；

基于所述实体类型，将所述实体组合成多个层级的模糊查询，所述多个层级的模糊查询的形式包括：(“区划”&“行业”)&(“字号1”|……|“字号n”)和(“区划”|“行业”)&(“字号1”|……|“字号n”)；

利用所述多个层级的模糊查询，在ElasticSearch中进行公司名称的搜索，以得到名称匹配结果；其中，ElasticSearch搜索引擎中已录入标准化和唯一化的公司名称。

进一步地，所述获取待测公司名称中实体的实体类型之前，所述方法还包括：

建立停用词表；

利用jieba工具对待测公司名称进行分词处理，并基于所述停用词表，删除分词结果中的停用词；

根据删除停用词后的分词结果组成模糊查询的并行查询，并在ElasticSearch中进行公司名称的搜索；

在返回一个公司名称的情况下，利用BERT预训练模型，计算所述公司名称与所述待测公司名称的相似度，并在相似度不小于设定值的情况下，将所述公司名称作为公司名称匹配结果，在相似度小于设定值的情况下，将公司名称匹配结果设为未匹配到公司名称；

在返回多个公司名称的情况下，将公司名称匹配结果设为未匹配到公司名称；

在返回结果为空的情况下，跳转至获取待测公司名称中实体的实体类型。

进一步地，所述建立停用词表，包括：

获取标准的工商数据集合，并对所述工商数据集合中的公司名称进行标准化和唯一性处理；

利用jieba分词工具对所有格式标准的公司名称数据集进行分词，进而获得分词后的结果集N；

对所述结果集N中的词进行词频统计；

在词频统计结果的基础上，利用TF-IDF计算出备选停用词集合；

根据专家领域知识把备选停用词集合中有意义的词进行删除，以得到停用词表。

进一步地，所述利用BERT预训练模型，计算所述公司名称与所述待测公司名称的相似度，包括：

利用BERT预训练模型，分别将所述公司名称与所述待测公司名称转化为公司名称向量和待测公司名称向量；

通过计算所述公司名称向量和所述待测公司名称向量余弦相似度，得到所述公司名称与所述待测公司名称的相似度。

进一步地，基于所述实体类型，将所述实体组合成多个层级的模糊查询之前，还包括：

针对实体类型为字号的实体，在所述实体包含的字数为一个字的情况下，将所述实体挂靠到最近的实体类型为字号的实体上，

和/或，

针对实体类型为字号的实体，在所述实体包含的字数大于设定值的情况下，对所述实体进行二次切分。

进一步地，所述利用所述多个层级的模糊查询，在ElasticSearch中进行公司名称的搜索，以得到名称匹配结果，包括：

利用(“区划”&“行业”)&(“字号1”|……|“字号n”)在ElasticSearch中进行公司名称的第一搜索；

在第一搜索的返回结果为空的情况下，跳转至利用(“区划”|“行业”)&(“字号1”|……|“字号n”)在ElasticSearch中进行公司名称的第二搜索；

在第一搜索的返回结果为一个公司名称的情况下，利用BERT预训练模型，计算所述公司名称与所述待测公司名称的相似度，并在相似度不小于设定值的情况下，将所述公司名称作为公司名称匹配结果，在相似度小于设定值的情况下，跳转至利用(“区划”|“行业”)&(“字号1”|……|“字号n”)在ElasticSearch中进行公司名称的第二搜索；

在第一搜索的返回结果为多个公司名称的情况下，构建第一搜索的返回结果的KDtree，以进行所述待测公司名称与每一所述公司名称的相似度计算，并在任一相似度不小于设定值的情况下，将对应的公司名称作为公司名称匹配结果，在相似度全小于设定值的情况下，跳转至利用(“区划”|“行业”)&(“字号1”|……|“字号n”)在ElasticSearch中进行公司名称的第二搜索；

利用(“区划”|“行业”)&(“字号1”|……|“字号n”)在ElasticSearch中进行公司名称的第二搜索；

在第二搜索的返回结果为空的情况下，将公司名称匹配结果设为未匹配到公司名称；

在第二搜索的返回结果为一个公司名称的情况下，利用BERT预训练模型，计算所述公司名称与所述待测公司名称的相似度，并在相似度不小于设定值的情况下，将公司名称匹配结果设为未匹配到公司名称，在相似度小于设定值的情况下，将公司名称匹配结果设为未匹配到公司名称；

在第二搜索的返回结果为多个公司名称的情况下，构建第二搜索的返回结果的KDtree，以进行所述待测公司名称与每一所述公司名称的相似度计算，并在任一相似度不小于设定值的情况下，将对应的公司名称作为公司名称匹配结果，在相似度全小于设定值的情况下，将公司名称匹配结果设为未匹配到公司名称。

进一步地，所述构建第一搜索的返回结果的KDtree，包括：

获取所述第一搜索的返回结果中公司名称的数量；

在所述数量大于数量K的情况下，从所述第一搜索的返回结果中筛选出K个公司名称，并跳转至根据BERT预训练模型将K个公司名称转化成向量；

在所述数量不大于数量K的情况下，直接跳转至根据BERT预训练模型将K个公司名称转化成向量；

根据BERT预训练模型将K个公司名称转化成向量；

根据KDtree数据结构，生成由所述向量组成的KD树。

进一步地，所述从所述第一搜索的返回结果中筛选出K个公司名称，包括：

对所述待测公司名称和所述第一搜索的返回结果中的公司名称进行切词；

针对切词结果，利用词粒度和字粒度结合的相似度计算方法，计算所述待测公司名称所述第一搜索的返回结果中每一公司名称的相似度；

基于所述相似度筛选出K个公司名称。

一种公司名称的匹配装置，所述装置包括：

类型获取模块，用于获取待测公司名称中实体的实体类型，所述实体类型包括：区划、字号、行业和组织形式；

查询生成模块，用于基于所述实体类型，将所述实体组合成多个层级的模糊查询，所述多个层级的模糊查询的形式包括：(“区划”&“行业”)&(“字号1”|……|“字号n”)和(“区划”|“行业”)&(“字号1”|……|“字号n”)；

模糊搜索模块，用于利用所述多个层级的模糊查询，在ElasticSearch中进行公司名称的搜索，以得到名称匹配结果；其中，ElasticSearch搜索引擎中已录入标准化和唯一化的公司名称。

一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述任一所述的公司名称的匹配方法。

与现有技术相比，本发明至少具有以下有益效果：

本发明提供一种快速匹配校验公司名称的方法，该方法主要利用相似计算，快速搜索topK和KDtree算法，结合基于预训练的BERT模型向量化，结合基于百度的开源的UIE命名识别技术完成了公司名称的快速匹配方法。该方法在公司产生的脏数据中完成百万数据的精准匹配，大幅度减少了人工检验的工作量，大大提升了校验速度。

附图说明

图1为具体实施步骤的流程图。

图2为UIE命名体识别结构图。

图3为BERT向量化的结构图。

具体实施方式

为进一步阐述本发明的技术解决方案，下面通过附图和具体实例来详细说明上述各步骤，但所举实施例不作为对本发明的限定。

本发明的公司名称的匹配方法，如图1所示，包括步骤110-步骤130。

步骤110：获取待测公司名称中实体的实体类型。

本发明先结合百度开源的UIE统一信息抽取模型，训练了一种基于UIE的公司命名体识别抽取模型。具体的模型结构如图2所示。

之后，将待测公司名称输入公司命名体识别抽取模型，就可以抽取出“区划”、“字号”、“行业”、“组织形式”等四种不同类型的实体。其中，“字号”信息尤其关键。例如“沈阳聚合源大康商贸有限公司”抽取结果为“沈阳”(区划)、“聚合源”(字号)、“大康”(字号)、“商贸”(行业)、“有限公司”(组织形式)。

之后，为更好地进行公司名称匹配，本发明还需要对模型输出的关键信息“字号”进行组合整理。例如，在模型的字号输出结果为“聚合”、“源”、“大康”的情况下，本发明会将单字字号挂靠到最近的多字字号上，从而得到“聚合源”和“大康”。再例如，在在模型的字号输出结果为“聚合源大康”的情况下，本发明会对该过长的字号进行二次切分，从而得到“聚合源”和“大康”。

步骤120：基于所述实体类型，将所述实体组合成多个层级的模糊查询。

本发明基于实体类型，将待测公司名称中的各实体组合成多个层级的模糊查询的或集query。一示例中，由于“组织形式”通常为公司，有限公司等特别常见的形式，因此本发明将第一个层级的模糊查询的或集query的形式，表示为(“区划”&“行业”)&(“字号1”|“字号2”)，将第二个层级的模糊查询的或集query的形式，表示为(“区划”|“行业”)&(“字号1”|“字号2”)，从而加快了查询效率。

以上述的“沈阳聚合源大康商贸有限公司”为例，其的多个层级的模糊查询的形式为：第一层级的(“沈阳”&“商贸”)&(“聚合源”|“大康”)和第二层级的(“沈阳”|“商贸”)&(“聚合源”|“大康”)。

步骤130：利用所述多个层级的模糊查询，在ElasticSearch中进行公司名称的搜索，以得到名称匹配结果。

一个实施例中，本发明的多个层级的模糊查询，包括以下步骤：

步骤131：使用第一个层级的模糊查询在ElasticSearch中进行搜索。若有返回值，则进入步骤133，否则，进入步骤132。

ElasticSearch搜索引擎可以是一个自建的搜索引擎。该ElasticSearch搜索引擎中的数据是通过获取标准的工商数据集合，并完成了公司名称的标准化和唯一性处理，从而可以实现快速响应。

步骤132：使用第二个层级的模糊查询在ElasticSearch中进行搜索。若有返回值，则进入步骤133，否则，返回未匹配到公司名称，结束流程。

步骤133：判断返回值的数量。

若返回唯一值，则进入步骤134；若返回值的数量大于1且不大于K，则进入步骤136；若返回值的数量大于K个，则进入步骤135。

步骤134：根据图3所示的基于BERT预训练模型将待测公司名称和返回结果转化特定向量A，B，并利用余弦相似度计算出返回值与待测公司名称的相似度，若计算的相似度结果大于设定的阈值，则返回匹配的公司名称，否则返回未匹配到公司名称，结束流程。

具体的余弦相似度计算公式如下：

步骤135：在返回结果中筛选出K个返回值。

本发明根据TopK算法快速筛选出粗精度的K条。TopK的具体算法如下：

由于本次发明全是基于公司名称的字符串本身信息进行匹配，有时会匹配到非常多的数据，为了提高搜索速度，快速找到前K个样本集合，在此我们采用了基于词粒度和字粒度结合的相似度计算方法。

(1)首先将待测公司进行切词切字，得到然后我们将所有返回的样本集合也分别切词切字。

(2)然后根据基于词粒度和字粒度结合的相似度计算方法计算两两公司名称的相似度。计算公式如下：

(3)最后遍历返回的样本集合推选出得分最高的K个样本。

步骤136：根据BERT预训练模型将K个返回值转化成向量，然后根据KDtree数据结构生成KD树，进一步的通过输入的公司名称快速推断出最相似公司。

在通过输入的公司名称快速推断出最相似公司中，本发明利用余弦相似度公式计算两者相似度，若相似度大于设定的另一个特定阈值，则返回匹配的公司名称。否则返回未匹配到公司名称。此种方式可以解决大部分“错写”、“多写”，“简称”等错误。例如可以将“沈阳聚合源大康商贸有限公司”匹配出“沈阳聚和源大康商贸有限公司”，“滁州市国有资产管理运营公司”匹配出“滁州市国有资产运营有限公司”等。

此外，本发明还公开了一种公司名称的匹配方法。该方法与上述的公司名称的匹配方法的区别在于，在步骤110之前，还包括步骤210-步骤

步骤210：建立停用词表。

本发明先利用jieba分词工具对所有格式标准的公司名称数据集进行分词，进而获得分词后的结果集N，然后对该结果集N进行词频统计，接着，利用TF-IDF(termfrequency–inverse document frequency)计算出备选停用词集合，最后，根据专家领域知识把其中有意义的词进行删除，从而得到停用词表。具体步骤如下:

步骤221：词频为任意词X在N中出现的次数为n，标准化后的计算方式如下：

步骤222：文档频率为包含某词语的公司数量m，逆向文档频率则是文档频率log值：

步骤223：TF-IDF可以反应词频和词的重要性，进而可以筛选出停用词，计算方式如下：

步骤220：对待测公司名称进行分词处理，并结合停用词表删除停用词之后，得到该待测公司名称的分词信息。

步骤230：根据现有的分词信息组成模糊查询的并行query。

本发明的模糊查询的并行query(“词1”&“词2”&“词3”|“词4”)，在ElasticSearch中进行搜索。若返回唯一值，则进入步骤(240)，若返回数量大于1，则进入步骤(250)，若返回数量为0，则进入步骤(260)。

步骤240：基于余弦相似度，获取匹配结果。

根据图3所示的基于BERT预训练模型将待测公司名称和返回结果转化特定向量A，B，并利用余弦相似度计算出二者的相似度。若计算的相似度结果大于设定的阈值，则返回匹配的公司名称，否则返回未匹配到公司名称，结束流程。此方式可以解决漏填行政区划、组织形式的公司名称，例如输入“南蔡村镇甘桥电镀厂”、“开原市金山实业有限公司”可以匹配出“天津市武清区南蔡村镇甘桥电镀厂”、“开原市金山实业开发有限责任公司”等。

步骤250：返回未匹配到公司名称。

若返回数量大于1，则返回未匹配到公司名称。因为目前用户输入的待测公司名称信息太笼统，例如‘中国石油公司’、‘中国银行’等等，并且含有该信息的公司名称在标准数据集中有很多，需要其他维度的信息来确定公司名称。本次发明暂时不对此次情形进行处理。

步骤260：若返回数量为0。则代表待输入的公司名称切词后从候选集中找不到相应的相似样本。对此，本发明就跳转至步骤110。

返回步骤110之后，本发明可以根据公司名称的是由“区划”、“字号”、“行业”、“组织形式”四部分组成的特点，继续后续的匹配步骤。

综上所述，本发明由公司专业测试人员，完全按照上述流程，在人工校验过的数据集中进行测试，准确率可达到93％以上。并且接口的响应时间也可达到毫米级。目前已完成百万法律文书中公司名称的更新优化，大大节省了人工成本。

另一方面，本发明还公开了一种公司名称的匹配装置，该所述装置包括：

本申请实施例提供的公司名称的匹配装置能够实现上述任意方法实施例实现的各个过程，为避免重复，这里不再赘述。

本发明还公开了一种电子设备。该电子设备可以是计算机设备、笔记本电脑、服务器或者其他类型的电子设备。

该电子设备可包括至少一个处理器和存储器。处理器可以执行存储在存储器中的指令。处理器通过数据总线与存储器1020通信连接。除存储器外，处理器还可通过数据总线与输入设备、输出设备、通信设备通信连接。

处理器可以是任何常规的处理器。处理器可以包括诸如中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphic Process Unit，GPU)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、片上系统(System on Chip，SOC)、专用集成芯片(Application Specific Integrated Circuit，ASIC)或它们的组合。

存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

在本公开实施例中，存储器中存储有可执行指令，处理器可以从所述存储器中读取所述可执行指令，并执行所述指令以实现上述示例性实施例中目标检测模型的评估方法的全部或部分步骤。

除了上述方法、装置和电子设备以外，本公开的示例性实施例还包括计算机程序产品或存储有该计算机程序产品的计算机可读存储介质。该计算机产品中包括计算机程序指令，该计算机程序指令可被处理器执行，以实现上述示例性实施例中描述的全部或部分步骤。

计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言以及脚本语言(例如Python)。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质更具体的例子包括：具有一个或多个导线电连接的静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘，或者上述的任意合适的组合。

以上所述实施例仅为本发明呈现的具体方式，凡是对以上实施例进行简单变换或等价替换可轻而易举得到的技术方案，均属于本发明的保护范围。

Claims

1.一种公司名称的匹配方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述获取待测公司名称中实体的实体类型之前，所述方法还包括：

建立停用词表；

3.如权利要求2所述的方法，其特征在于，所述建立停用词表，包括：

对所述结果集N中的词进行词频统计；

4.如权利要求2所述的方法，其特征在于，所述利用BERT预训练模型，计算所述公司名称与所述待测公司名称的相似度，包括：

5.如权利要求1所述的方法，其特征在于，基于所述实体类型，将所述实体组合成多个层级的模糊查询之前，还包括：

和/或，

6.如权利要求1所述的方法，其特征在于，所述利用所述多个层级的模糊查询，在ElasticSearch中进行公司名称的搜索，以得到名称匹配结果，包括：

7.如权利要求6所述的方法，其特征在于，所述构建第一搜索的返回结果的KDtree，包括：

获取所述第一搜索的返回结果中公司名称的数量；

根据BERT预训练模型将K个公司名称转化成向量；

根据KDtree数据结构，生成由所述向量组成的KD树。

8.如权利要求7所述的方法，其特征在于，所述从所述第一搜索的返回结果中筛选出K个公司名称，包括：

针对切词结果，利用词粒度和字粒度结合的相似度计算方法，计算所述待测公司名称与所述第一搜索的返回结果中每一公司名称的相似度；

基于所述相似度筛选出K个公司名称。

9.一种公司名称的匹配装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现所述权利要求1-8中任一所述的公司名称的匹配方法。