CN111104795A - 公司名称的匹配方法、装置、计算机设备及存储介质 - Google Patents

公司名称的匹配方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111104795A
CN111104795A CN201911135941.5A CN201911135941A CN111104795A CN 111104795 A CN111104795 A CN 111104795A CN 201911135941 A CN201911135941 A CN 201911135941A CN 111104795 A CN111104795 A CN 111104795A
Authority
CN
China
Prior art keywords
matching
matched
company
company names
names
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911135941.5A
Other languages
English (en)
Inventor
张二红
朱娜
郑哲青
叶松云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Financial Management College
Original Assignee
Ping An Financial Management College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Financial Management College filed Critical Ping An Financial Management College
Priority to CN201911135941.5A priority Critical patent/CN111104795A/zh
Publication of CN111104795A publication Critical patent/CN111104795A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提出一种公司名称的匹配方法,所述方法包括:接收客户端提交的公司名称匹配请求;响应于所述公司名称匹配请求,从所述公司名称匹配请求中提取两个待匹配的公司名称;利用预先建立的结巴分词字典对所述两个待匹配的公司名称进行分词得到若干个字段,并将若干个字段与预先建立的词库进行匹配得到所述两个待匹配的公司名称中的特征信息;利用所述特征信息依据预设的模糊匹配模型生成两个待匹配的公司名称的匹配度;依据所述匹配度判断所述两个待匹配的公司名称是否匹配,并将匹配结果反馈至所述客户端,并将匹配结果反馈至所述客户端。本申请可以快速、准确地生成两个待匹配公司名称的匹配度,减少了公司名称匹配工作的处理量,提高了公司名称匹配的处理效率。

Description

公司名称的匹配方法、装置、计算机设备及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种公司名称的匹配方法、装置、计算机设备及存储介质。
背景技术
现有的公司名称的写法多种多样,没有统一的标准化格式。其中,有的公司名称采用简写的形式,有的采用全称的形式,还有自创的公司名称的写法。一个集团下的公司可能有不同的子公司,不同的子公司下还可能有分公司。因此,如何判断一个公司的归属,以及如何判断两个名称写法不一致的公司是否是同一家公司或者是否是在同一个集团下的子公司,目前还没有可行的判断方案。
现有技术中,通常通过简单的判断公司的全称判断两个公司名称是否匹配,是否属于同一家公司,这种判断方法会导致覆盖面不全,判断结果不够精准,并且公司名称缺少标准,对其进行归一化需耗费巨大人力,降低了公司名称匹配的效率。
发明内容
本申请提供一种公司名称的匹配方法及相应的装置,所述方法可以快速、准确地确定两个待匹配公司名称是否匹配,从而减少公司名称匹配工作的处理量,提高公司名称匹配的处理效率。
本申请还提供一种用于执行本申请的公司名称的匹配方法的计算机设备及可读存储介质。
为解决上述问题,本申请采用如下各方面的技术方案:
第一方面,本申请提供一种公司名称的匹配方法,所述方法包括:
接收客户端提交的公司名称匹配请求;
响应于所述公司名称匹配请求,从所述公司名称匹配请求中提取两个待匹配的公司名称;
利用预先建立的结巴分词字典对所述两个待匹配的公司名称进行分词得到若干个字段,并将若干个字段与预先建立的词库进行匹配得到所述两个待匹配的公司名称中的特征信息;
利用所述特征信息依据预设的模糊匹配模型生成两个待匹配的公司名称的匹配度;
依据所述匹配度判断所述两个待匹配的公司名称是否匹配,并将匹配结果反馈至所述客户端,并将匹配结果反馈至所述客户端。
具体的,所述利用所述特征信息依据预设的模糊匹配模型计算两个待匹配的公司名称的匹配度之前,还包括:
设定所述模糊匹配模型中所包含的各类特征信息的权重值。
具体的,所述利用所述特征信息依据预设的模糊匹配模型计算两个待匹配的公司名称的匹配度,包括:
计算其中一个公司名称中的特征信息与另一个公司名称中对应的特征信息的匹配分值;
计算各个匹配分值与对应的特征信息的权重值的乘积的和,得到两个待匹配的公司名称的匹配度。
优选的,所述依据所述匹配度判断所述两个待匹配的公司名称是否匹配,并将匹配结果反馈至所述客户端,包括:
当判断出所述匹配度大于预设阈值时,判断出所述两个待匹配的公司名称匹配成功,并将匹配成功的结果反馈至所述客户端。
优选的,所述当判断出所述匹配度大于预设阈值时,判断出所述两个待匹配的公司名称匹配成功之后,包括:
建立该两个公司名称对应的员工的人脉关系,并将所述人脉关系反馈至所述客户端展示。
具体的,所述设定所述模糊匹配模型中所包含的各类特征信息的权重值,包括:
设定所述模糊匹配模型中所包含的各类特征信息的初始权重值;
依据所述初始权重值得到两个待匹配的公司名称的初始匹配度;
依据所述初始匹配度利用线性回归模型周期性调整各类特征信息的权重值,把调整后的权重值作为对应特征信息的权重值。
优选的,所述利用预先建立的结巴分词字典对所述两个待匹配的公司名称进行分词得到若干个字段,并将若干个字段与预先建立的词库进行匹配得到所述两个待匹配的公司名称中的特征信息,包括:
将若干个字段分别与预先建立的词库中的地域词库、行业词库以及结束语词库进行匹配得到所述公司名称的地域、行业以及结束语;
将匹配不成功的字段作为商号输出;
将所述公司名称的地域、行业、结束语以及商号作为所述公司名称的特征信息。
第二方面,本申请提供一种公司名称的匹配装置,所述装置包括:
接收模块,用于接收客户端提交的公司名称匹配请求;
提取模块,用于响应于所述公司名称匹配请求,从所述公司名称匹配请求中提取两个待匹配的公司名称;
匹配模块,用于利用预先建立的结巴分词字典对所述两个待匹配的公司名称进行分词得到若干个字段,并将若干个字段与预先建立的词库进行匹配得到所述两个待匹配的公司名称中的特征信息;
生成模块,用于利用所述特征信息依据预设的模糊匹配模型生成两个待匹配的公司名称的匹配度;
反馈模块,用于依据所述匹配度判断所述两个待匹配的公司名称是否匹配,并将匹配结果反馈至所述客户端。
第三方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现第一方面中任一项所述公司名称的匹配方法的步骤。
第四方面,本申请提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如第一方面中任一项权利要求所述公司名称的匹配方法的步骤。
相对于现有技术,本申请的技术方案至少具备如下优点:
本申请提供一种公司名称的匹配方法,通过接收客户端提交的公司名称匹配请求;响应于所述公司名称匹配请求,从所述公司名称匹配请求中提取两个待匹配的公司名称;利用预先建立的结巴分词字典对所述两个待匹配的公司名称进行分词得到若干个字段,并将若干个字段与预先建立的词库进行匹配得到所述两个待匹配的公司名称中的特征信息;利用所述特征信息依据预设的模糊匹配模型生成两个待匹配的公司名称的匹配度;依据所述匹配度判断所述两个待匹配的公司名称是否匹配,并将匹配结果反馈至所述客户端。本申请可以快速、准确地生成两个待匹配公司名称的匹配度,减少了公司名称匹配工作的处理量,提高了公司名称匹配的处理效率。
2,本申请中,还包括:设定各个特征信息的初始权重值;依据所述初始权重值得到两个待匹配的公司名称的初始匹配度;依据所述初始匹配度利用线性回归模型调整各个特征信息的初始权重值。本申请通过设定一个初始权重值,依据该初始权重值计算得到一个初始匹配度,依据该初始匹配度利用线性回归模型不断调整各个特征信息的权重值,以使得生成的匹配结果越来越精准。
3,本申请中,所述依据所述匹配度判断所述两个待匹配的公司名称是否匹配,并将匹配结果反馈至所述客户端之后,包括:当判断出两个待匹配的公司名称匹配成功时,建立该两个公司名称对应的员工的人脉关系。本申请中可以将公式名称的匹配结果应用于员工的人脉关系调查,将公式名称匹配成功的员工划分为同一个关系圈,便于员工人脉关系的管控。
附图说明
图1为一个实施例中公司名称的匹配方法流程图;
图2为一个实施例中公司名称的匹配装置结构框图;
图3为一个实施例中计算机设备的内部结构框图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在本申请的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如S11、S12等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
本领域普通技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本领域普通技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,本申请实施例提供一种公司名称的匹配方法,所述方法执行于服务器,如图1所示,所述方法包括以下步骤:
S11、接收客户端提交的公司名称匹配请求。
本申请中,所述客户端可以接收公司名称匹配的触发指令,向所述服务器提交所述公司名称匹配请求。一种可能的设计中,该应用程序启动后,提供一个用户界面,用户通过该用户界面进行操作,可以产生公司名称匹配的触发指令,例如提供一个虚拟按键,当用户需要匹配某两个公司的公司名称时,通过触控该虚拟按键后,即产生所述公司名称匹配的触发指令。
S12、响应于所述公司名称匹配请求,从所述公司名称匹配请求中提取两个待匹配的公司名称。
本申请中,所述公司名称匹配请求中携带了两个待匹配的公司名称。所述服务器接收所述公司名称匹配请求后,提取所述公司名称匹配请求中的两个待匹配的公司名称。
一种可能的应用场景中,用户可以输入两个待匹配的公司名称之后,提交公司名称匹配请求。所述服务器接收公司名称匹配请求后,提取所述两个待匹配的公司名称。
S13、利用预先建立的结巴分词字典对所述两个待匹配的公司名称进行分词得到若干个字段,并将若干个字段与预先建立的词库进行匹配得到所述两个待匹配的公司名称中的特征信息。
本申请中,所述公司名称的匹配方法可应用于任意两个公司名称的匹配。具体的,获取两个待匹配的公司名称,分别提取两个公司名称中的特征信息。本申请实施例中,所述特征信息至少包括地域、商号、行业以及结束语。其中,商号是企业特定化的标志,即同一企业其商号具有唯一性,公司不一致的公司名称,通过商号可将该企业下的所有公司进行关联,以便构建知识图谱。例如,立方是商号,该商号下包括:立方知识产权代理有限公司广州分公司、立方知识产权代理有限公司武汉分公司等子公司。结束语是指不含代表该企业的词语。例如,有限公司、股份公司、总公司、企业、支行、支公司等。
具体的,所述提取所述两个待匹配的公司名称中的特征信息,包括:
建立结巴分词字典;利用建立的所述结巴分词字典对所述公司名称进行结巴分词得到若干个字段;依据若干个字段与预先建立的地域词库、行业词库以及结束语词库进行匹配得到所述公司名称的地域、行业以及结束语;将匹配不成功的字段作为商号输出;将所述公司名称的地域、行业、结束语以及商号作为所述公司名称的特征信息。
建立结巴分词字典,通过不断验证公司名称的拆分的字段,利用该拆分的字段补充结巴分词包自带的字典以调整结巴分词包自带的字典得到本申请所述的结巴分词字典。
进一步的,本申请预先建立了地域词库、行业词库以及结束语词库。一种可能的设计中,可以利用历史的分词结果建立所述地域词库、行业词库以及结束语词库,并且不断更新所述地域词库、行业词库以及结束语词库。具体的,将所述公司名称分词后的字段与地域词库中的基准词进行匹配,获取与所述字段的匹配度大于预设阈值的地域词库中的基准词作为所述公司名称的地域的标准输出。同理,行业以及结束语采用相同的方法得到标准输出。
进一步的,所述将匹配不成功的字段作为商号输出,包括:
当商号为空时,则以地域对应的字段加行业对应的字段作为商号输出。
例如,广州海科电子科技有限公司,通过结巴分词字典对其进行分词结果为:广州、海科、电子、科技股份有限公司;依据预先建立的地域词库,行业词库以及结束语词库可以得到该公司名称的地域为“广州”;行业为电子/通信/硬件行业;结束语为“科技有限公司”;商号则为“海科”。
S14、利用所述特征信息依据预设的模糊匹配模型生成两个待匹配的公司名称的匹配度。
本申请中,所述特征信息包括地域、商号、行业以及结束语四类。所述模糊匹配模型中包括该四类特征信息对应的权重值以及对应的生成所述两个待匹配的公司名称的匹配度的公式。
本申请中,所述利用所述特征信息依据预设的模糊匹配模型生成两个待匹配的公司名称的匹配度之前,包括:
预先设定所述预设的模糊匹配模型中所包含的各类特征信息的权重值。
具体的,本申请根据不同的场景设定不同的生成方案。一种可能的设计中,本申请设定所述模糊匹配模型中各类特征信息的权重值如下表1所示。
表1一种实施例中,所述模糊匹配模型中各类特征信息的权重值
Figure BDA0002279592820000081
Figure BDA0002279592820000091
如上表1所示,在对所述公司名称进行拆分时可能出现以上7种场景,各种场景下对应各类特征信息的权重值。其中,表格中的“有”表示至少有一个公司名称中存在该类特征信息。例如,商号为“有”,表示以下3中情况,假如参与匹配的公司为A以及B:
其一,公司名称A中有商号,B中没有商号;
其二、B中有商号,A中没有商号;
其三,A以及B中都有商号。
进一步的,所述利用所述特征信息依据预设的模糊匹配模型生成两个待匹配的公司名称的匹配度,包括:
计算其中一个公司名称中的特征信息与另一个公司名称中对应的特征信息的匹配分值;计算各个匹配分值与对应的特征信息的权重值的乘积的和得到两个待匹配的公司名称的匹配度。
本申请中,所述模糊匹配模型中的生成两个待匹配的公司名称的匹配度的公式如下:
公司名称的匹配度=商号的匹配分值*商号的权重值+行业的匹配分值*行业的权重值+地域的匹配分值*地域的权重值
具体的,所述计算其中一个公司名称中的特征信息与另一个公司名称中对应的特征信息的匹配分值包括:
统计其中一个公司名称中的特征信息与另一个公司名称中对应的特征信息中相同字符的字数;将两个特征信息中相同字符的字数除以两个公司名称的总字字符数之和得到所述匹配分值。具体的,商号的匹配分值的计算公式如下:
商号的匹配分值=两个商号中相同字符的数量/两个公司名称的总字数之和
S15、依据所述匹配度判断所述两个待匹配的公司名称是否匹配,并将匹配结果反馈至所述客户端。
本申请中,所述依据所述匹配度判断所述两个待匹配的公司名称是否匹配,并将匹配结果反馈至所述客户端,包括:
当判断出所述匹配度大于预设阈值时,判断所述两个待匹配的公司名称匹配成功。
其中,所述预设阈值可以根据实际情况设定,例如,可以设定所述预设阈值为60。当判断出所述匹配度大于60时,判断所述两个待匹配的公司名称匹配成功。
另一种实施例中,在判断所述两个待匹配的公司名称是否匹配时,还可以采用如下方案:
判断所述两个待匹配的公司名称中是否分别都存在商号、行业以及地域等特征信息;
若判断出所述两个待匹配的公司名称中分别都存在商号、行业以及地域等特征信息,则判断商号、行业以及地域三个特征信息的匹配分值是否都大于预设的参考值;
若是,则判断所述两个待匹配的公司名称匹配成功,否则,判断两个待匹配的公司名称匹配不成功。
具体的,一种实施例中,可以设定所述参考值为70。对于两个公司名称都存在商号、行业以及地域的场景,则需分别满足该三个特征信息的匹配分值在70以上才判断两个待匹配的公司名称匹配成功,否则,判断两个待匹配的公司名称匹配不成功。
优选的,本申请还提供了各类特征信息的权重值的调整方案。具体的,所述设定各个特征信息的权重值,还包括:
设定各个特征信息的初始权重值;依据所述初始权重值得到两个待匹配的公司名称的初始匹配度;依据所述初始匹配度利用线性回归模型周期性调整各类特征信息的权重值,把调整后的权重值作为对应特征信息的权重值。
具体的,所述依据所述初始匹配度利用线性回归模型周期性调整各类特征信息的权重值,把调整后的权重值作为对应特征信息的权重值,包括:
1,获取人工校验所述初始匹配度的校验结果;
2,依据预先设定的调整区间设定各类特征信息的权重值的第一次调整值;
3,将所述校验结果以及所述第一次调整值输入线性回归模型得到均方误差;
4,若该均方误差小于前一次得到的均方误差,则将所述第一次调整值作为对应特征信息的权重值,否则,重复步骤1-3。
进一步的,依据所述第一次调整值得到第二次匹配度;循环执行步骤1-4不断调整所述各类特征信息的权重值,直到得到的均方误差越来越小,则说明调整的权重值越来越准确,依据该调整值计算的公司名称的匹配度则越来越精准。本申请中,预先设定一个调节权重值的调整区间,该调整区间可以根据实际情况设定,例如,可以设定所述调整区间为0至1之间。
优选的,所述依据所述匹配度判断所述两个待匹配的公司名称匹配成功之后,包括:建立该两个公司名称对应的员工的人脉关系。本申请可以应用于员工人脉关系整合、招聘以及员工画像等场景。
请参考图2,在另一种实施例中,本申请提供了一种公司名称的匹配装置,包括:
接收模块11,用于接收客户端提交的公司名称匹配请求;
提取模块12,用于响应于所述公司名称匹配请求,从所述公司名称匹配请求中提取两个待匹配的公司名称
匹配模块13,用于利用预先建立的结巴分词字典对所述两个待匹配的公司名称进行分词得到若干个字段,并将若干个字段与预先建立的词库进行匹配得到所述两个待匹配的公司名称中的特征信息;
生成模块14,用于利用所述特征信息依据预设的模糊匹配模型生成两个待匹配的公司名称的匹配度;
反馈模块15,用于依据所述匹配度判断所述两个待匹配的公司名称是否匹配,并将匹配结果反馈至所述客户端。
进一步的,所述生成模块14,还包括:
设定单元,用于设定所述模糊匹配模型中所包含的各类特征信息的权重值。
具体的,所述生成模块14,包括:
生成单元,用于计算其中一个公司名称中的特征信息与另一个公司名称中对应的特征信息的匹配分值;
计算各个匹配分值与对应的特征信息的权重值的乘积的和,得到两个待匹配的公司名称的匹配度。
具体的,所述反馈模块15,包括:
反馈单元,用于当判断出所述匹配度大于预设阈值时,判断出所述两个待匹配的公司名称匹配成功,并将匹配成功的结果反馈至所述客户端。
进一步的,所述当判断出所述匹配度大于预设阈值时,判断出所述两个待匹配的公司名称匹配成功之后,包括:
建立该两个公司名称对应的员工的人脉关系,并将所述人脉关系反馈至所述客户端展示。
进一步的,所述设定所述模糊匹配模型中所包含的各类特征信息的权重值,包括:
设定所述模糊匹配模型中所包含的各类特征信息的初始权重值;
依据所述初始权重值得到两个待匹配的公司名称的初始匹配度;
依据所述初始匹配度利用线性回归模型周期性调整各类特征信息的权重值,把调整后的权重值作为对应特征信息的权重值。
具体的,所述匹配模块13,包括:
匹配单元,用于将若干个字段分别与预先建立的词库中的地域词库、行业词库以及结束语词库进行匹配得到所述公司名称的地域、行业以及结束语;
将匹配不成功的字段作为商号输出;
将所述公司名称的地域、行业、结束语以及商号作为所述公司名称的特征信息。
在另一种实施例中,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现任一项技术方案所述的公司名称的匹配方法。其中,所述计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random AcceSSMemory,随即存储器)、EPROM(EraSable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically EraSable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,存储设备包括由设备(例如,计算机、手机)以能够读的形式存储或传输信息的任何介质,可以是只读存储器,磁盘或光盘等。
本申请实施例提供的一种计算机可读存储介质,可实现接收客户端提交的公司名称匹配请求;响应于所述公司名称匹配请求,从所述公司名称匹配请求中提取两个待匹配的公司名称;利用预先建立的结巴分词字典对所述两个待匹配的公司名称进行分词得到若干个字段,并将若干个字段与预先建立的词库进行匹配得到所述两个待匹配的公司名称中的特征信息;利用所述特征信息依据预设的模糊匹配模型生成两个待匹配的公司名称的匹配度;依据所述匹配度判断所述两个待匹配的公司名称是否匹配,并将匹配结果反馈至所述客户端,并将匹配结果反馈至所述客户端。本申请可以快速、准确地生成两个待匹配公司名称的匹配度,减少了公司名称匹配工作的处理量,提高了公司名称匹配的处理效率以及提高了公司名称匹配的精度。
此外,在又一种实施例中,本申请提供了一种计算机设备,如图3所示,所述计算机设备包括处理器303、存储器305、输入单元307以及显示单元309等器件。本领域技术人员可以理解,图3示出的结构器件并不构成对所有计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件。存储器305可用于存储应用程序301以及各功能模块,处理器303运行存储在存储器305的应用程序301,从而执行设备的各种功能应用以及数据处理。存储器305可以是内存储器或外存储器,或者包括内存储器和外存储器两者。内存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本申请所公开的存储器包括但不限于这些类型的存储器。本申请所公开的存储器305只作为例子而非作为限定。
输入单元307用于接收信号的输入,以及接收用户输入的关键字。输入单元307可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程序驱动相应的连接装置;其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元309可用于显示用户输入的信息或提供给用户的信息以及计算机设备的各种菜单。显示单元309可采用液晶显示器、有机发光二极管等形式。处理器303是计算机设备的控制中心,利用各种接口和线路连接整个电脑的各个部分,通过运行或执行存储在存储器303内的软件程序和/或模块,以及调用存储在存储器内的数据,执行各种功能和处理数据。图3中所示的一个或多个处理器303能够执行、实现图2中所示的接收模块11、提取模块12、匹配模块13、生成模块14以及反馈模块15的功能。
在一种实施方式中,所述计算机设备包括存储器305和处理器303,所述存储器305中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器303执行以上实施例所述的一种公司名称的匹配方法的步骤。
本申请实施例提供的一种计算机设备,可实现接收客户端提交的公司名称匹配请求;响应于所述公司名称匹配请求,从所述公司名称匹配请求中提取两个待匹配的公司名称;利用预先建立的结巴分词字典对所述两个待匹配的公司名称进行分词得到若干个字段,并将若干个字段与预先建立的词库进行匹配得到所述两个待匹配的公司名称中的特征信息;利用所述特征信息依据预设的模糊匹配模型生成两个待匹配的公司名称的匹配度;依据所述匹配度判断所述两个待匹配的公司名称是否匹配,并将匹配结果反馈至所述客户端,并将匹配结果反馈至所述客户端。本申请可以快速、准确地生成两个待匹配公司名称的匹配度,减少了公司名称匹配工作的处理量,提高了公司名称匹配的处理效率。
本申请实施例提供的计算机可读存储介质可以实现上述公司名称的匹配方法的实施例,具体功能实现请参见方法实施例中的说明,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种公司名称的匹配方法,其特征在于,所述方法包括:
接收客户端提交的公司名称匹配请求;
响应于所述公司名称匹配请求,从所述公司名称匹配请求中提取两个待匹配的公司名称;
利用预先建立的结巴分词字典对所述两个待匹配的公司名称进行分词得到若干个字段,并将若干个字段与预先建立的词库进行匹配得到所述两个待匹配的公司名称中的特征信息,
利用所述特征信息依据预设的模糊匹配模型生成两个待匹配的公司名称的匹配度;
依据所述匹配度判断所述两个待匹配的公司名称是否匹配,并将匹配结果反馈至所述客户端。
2.根据权利要求1所述的公司名称的匹配方法,其特征在于,所述利用预先建立的结巴分词字典对所述两个待匹配的公司名称进行分词得到若干个字段,并将若干个字段与预先建立的词库进行匹配得到所述两个待匹配的公司名称中的特征信息,包括:
将若干个字段分别与预先建立的词库中的地域词库、行业词库以及结束语词库进行匹配得到所述公司名称的地域、行业以及结束语;
将匹配不成功的字段作为商号输出;
将所述公司名称的地域、行业、结束语以及商号作为所述公司名称的特征信息。
3.根据权利要求2所述的公司名称的匹配方法,其特征在于,所述利用所述特征信息依据预设的模糊匹配模型生成两个待匹配的公司名称的匹配度之前,还包括:
预先设定所述预设的模糊匹配模型中所包含的各类所述特征信息的权重值。
4.根据权利要求3所述的公司名称的匹配方法,其特征在于,所述利用所述特征信息依据预设的模糊匹配模型生成两个待匹配的公司名称的匹配度,包括:
计算其中一个公司名称中的特征信息与另一个公司名称中对应的特征信息的匹配分值;
计算各个匹配分值与对应的特征信息的权重值的乘积的和,得到两个待匹配的公司名称的匹配度。
5.根据权利要求3所述的公司名称的匹配方法,其特征在于,所述预先设定所述预设的模糊匹配模型中所包含的各类所述特征信息的权重值,包括:
预先设定所述预设的模糊匹配模型中所包含的各类所述特征信息的初始权重值;
依据所述初始权重值得到两个待匹配的公司名称的初始匹配度;
依据所述初始匹配度利用线性回归模型周期性调整各类所述特征信息的权重值,把调整后的权重值作为对应特征信息的权重值。
6.根据权利要求1所述的公司名称的匹配方法,其特征在于,所述依据所述匹配度判断所述两个待匹配的公司名称是否匹配,并将匹配结果反馈至所述客户端,包括:
当判断出所述匹配度大于预设阈值时,判断出所述两个待匹配的公司名称匹配成功,并将匹配成功的结果反馈至所述客户端。
7.根据权利要求6所述的公司名称的匹配方法,其特征在于,所述当判断出所述匹配度大于预设阈值时,判断出所述两个待匹配的公司名称匹配成功之后,包括:
建立该两个公司名称对应的员工的人脉关系,并将所述人脉关系反馈至所述客户端展示。
8.一种公司名称的匹配装置,其特征在于,所述装置包括:
接收模块,用于接收客户端提交的公司名称匹配请求;
提取模块,用于响应于所述公司名称匹配请求,从所述公司名称匹配请求中提取两个待匹配的公司名称;
匹配模块,用于利用预先建立的结巴分词字典对所述两个待匹配的公司名称进行分词得到若干个字段,并将若干个字段与预先建立的词库进行匹配得到所述两个待匹配的公司名称中的特征信息;
生成模块,用于利用所述特征信息依据预设的模糊匹配模型生成两个待匹配的公司名称的匹配度;
反馈模块,用于依据所述匹配度判断所述两个待匹配的公司名称是否匹配,并将匹配结果反馈至所述客户端。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1至7中任一项所述公司名称的匹配方法的步骤。
10.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述公司名称的匹配方法的步骤。
CN201911135941.5A 2019-11-19 2019-11-19 公司名称的匹配方法、装置、计算机设备及存储介质 Pending CN111104795A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911135941.5A CN111104795A (zh) 2019-11-19 2019-11-19 公司名称的匹配方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911135941.5A CN111104795A (zh) 2019-11-19 2019-11-19 公司名称的匹配方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN111104795A true CN111104795A (zh) 2020-05-05

Family

ID=70420702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911135941.5A Pending CN111104795A (zh) 2019-11-19 2019-11-19 公司名称的匹配方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111104795A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709327A (zh) * 2020-05-29 2020-09-25 中国人民财产保险股份有限公司 基于ocr识别的模糊匹配方法和装置
CN113065057A (zh) * 2021-04-14 2021-07-02 上海浦东发展银行股份有限公司 一种数据信息真实性校验方法、装置、设备及存储介质
CN113268986A (zh) * 2021-05-24 2021-08-17 交通银行股份有限公司 一种基于模糊匹配算法的单位名称匹配、查找方法及装置
CN113313095A (zh) * 2021-07-30 2021-08-27 太平金融科技服务(上海)有限公司深圳分公司 用户信息匹配方法、装置、计算机设备和存储介质
CN113553400A (zh) * 2021-07-26 2021-10-26 杭州叙简科技股份有限公司 一种企业知识图谱实体链接模型的构建方法及装置
CN114297461A (zh) * 2021-12-10 2022-04-08 北京羽乐创新科技有限公司 一种公司信息匹配方法
CN113268986B (zh) * 2021-05-24 2024-05-24 交通银行股份有限公司 一种基于模糊匹配算法的单位名称匹配、查找方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102768659A (zh) * 2011-05-03 2012-11-07 阿里巴巴集团控股有限公司 重复账号自动识别方法和系统
US20170124202A1 (en) * 2015-10-29 2017-05-04 International Business Machines Corporation Foreign organization name matching
CN108572947A (zh) * 2017-03-13 2018-09-25 腾讯科技(深圳)有限公司 一种数据融合方法及装置
CN109165326A (zh) * 2018-08-16 2019-01-08 蜜小蜂智慧(北京)科技有限公司 一种字符串匹配方法及装置
CN110232187A (zh) * 2019-05-20 2019-09-13 平安科技(深圳)有限公司 企业名称相似度识别方法、装置、计算机设备和存储介质
CN110427991A (zh) * 2019-07-22 2019-11-08 联动优势科技有限公司 一种字符串匹配方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102768659A (zh) * 2011-05-03 2012-11-07 阿里巴巴集团控股有限公司 重复账号自动识别方法和系统
US20170124202A1 (en) * 2015-10-29 2017-05-04 International Business Machines Corporation Foreign organization name matching
CN108572947A (zh) * 2017-03-13 2018-09-25 腾讯科技(深圳)有限公司 一种数据融合方法及装置
CN109165326A (zh) * 2018-08-16 2019-01-08 蜜小蜂智慧(北京)科技有限公司 一种字符串匹配方法及装置
CN110232187A (zh) * 2019-05-20 2019-09-13 平安科技(深圳)有限公司 企业名称相似度识别方法、装置、计算机设备和存储介质
CN110427991A (zh) * 2019-07-22 2019-11-08 联动优势科技有限公司 一种字符串匹配方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709327A (zh) * 2020-05-29 2020-09-25 中国人民财产保险股份有限公司 基于ocr识别的模糊匹配方法和装置
CN111709327B (zh) * 2020-05-29 2023-06-27 中国人民财产保险股份有限公司 基于ocr识别的模糊匹配方法和装置
CN113065057A (zh) * 2021-04-14 2021-07-02 上海浦东发展银行股份有限公司 一种数据信息真实性校验方法、装置、设备及存储介质
CN113268986A (zh) * 2021-05-24 2021-08-17 交通银行股份有限公司 一种基于模糊匹配算法的单位名称匹配、查找方法及装置
CN113268986B (zh) * 2021-05-24 2024-05-24 交通银行股份有限公司 一种基于模糊匹配算法的单位名称匹配、查找方法及装置
CN113553400A (zh) * 2021-07-26 2021-10-26 杭州叙简科技股份有限公司 一种企业知识图谱实体链接模型的构建方法及装置
CN113313095A (zh) * 2021-07-30 2021-08-27 太平金融科技服务(上海)有限公司深圳分公司 用户信息匹配方法、装置、计算机设备和存储介质
CN114297461A (zh) * 2021-12-10 2022-04-08 北京羽乐创新科技有限公司 一种公司信息匹配方法

Similar Documents

Publication Publication Date Title
CN111104795A (zh) 公司名称的匹配方法、装置、计算机设备及存储介质
CN110765763B (zh) 语音识别文本的纠错方法、装置、计算机设备和存储介质
CN110991196B (zh) 多义词的翻译方法、装置、电子设备及介质
CN111310440B (zh) 文本的纠错方法、装置和系统
CN111222305A (zh) 一种信息结构化方法和装置
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN106202548A (zh) 数据存储方法、查找方法及装置
CN112651236B (zh) 提取文本信息的方法、装置、计算机设备和存储介质
EP3588376A1 (en) System and method for enrichment of ocr-extracted data
CN111460131A (zh) 公文摘要提取方法、装置、设备及计算机可读存储介质
CN111931489B (zh) 文本纠错方法、装置和设备
CN110413961A (zh) 基于分类模型进行文本评分的方法、装置和计算机设备
CN110222203A (zh) 元数据搜索方法、装置、设备及计算机可读存储介质
CN110019712A (zh) 多意图查询方法和装置、计算机设备及计算机可读存储介质
CN112733545A (zh) 文本分块方法、装置、计算机设备和存储介质
CN112199588A (zh) 舆情文本筛选方法及装置
CN107085568A (zh) 一种文本相似度判别方法及装置
CN112990035A (zh) 一种文本识别的方法、装置、设备以及存储介质
CN110046344B (zh) 添加分隔符的方法及终端设备
US10643022B2 (en) PDF extraction with text-based key
CN113704406A (zh) 一种流行缩略语的中文释义匹配系统与方法
CN109918420B (zh) 一种竞争对手推荐方法、服务器
CN109829048B (zh) 电子装置、访谈辅助方法和计算机可读存储介质
CN115392235A (zh) 字符匹配方法、装置、电子设备及可读存储介质
CN113887345A (zh) 结合ai和rpa的文本信息处理方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination