CN116361517B - 一种企业字号查重方法、装置、设备和介质 - Google Patents
一种企业字号查重方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN116361517B CN116361517B CN202310610295.3A CN202310610295A CN116361517B CN 116361517 B CN116361517 B CN 116361517B CN 202310610295 A CN202310610295 A CN 202310610295A CN 116361517 B CN116361517 B CN 116361517B
- Authority
- CN
- China
- Prior art keywords
- enterprise
- target
- word size
- size
- historical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9027—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90348—Query processing by searching ordered data, e.g. alpha-numerically ordered data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种企业字号查重方法、装置、设备和介质,所述方法包括:获取已审批通过的多个历史企业字号;分别将每个历史企业字号进行字段拆分,以得到每个历史企业字号的拆分结果;基于每个历史企业字号的拆分结果,生成关于所述历史企业字号的标准trie树;在获取到企业名称注册请求后,从企业名称注册请求中提取出目标企业字号;根据所述目标企业字号,采用trie树查找方式,在所述标准trie树中查找与目标企业字号具有相似性的参考企业字号;根据查找到的参考企业字号和目标企业字号的对比结果,确定目标企业字号是否通过查重要求。
Description
技术领域
本申请涉及数据处理领域,具体而言,涉及一种企业字号查重方法、装置、设备和介质。
背景技术
企业在进行工商企业设立登记时,需要提供企业名称(字号),只有在提供的企业名称和现有企业的名称不冲突的情况下,登记才能通过。因此,一般在企业进行登记前或进行登记时,需对新提交的企业名称(字号)进行查重校验,以避免和已有企业名称重复或相似以导致侵权情况的产生。
由于现有的企业主体数量过于庞大,并且每年新增的企业数量也很大,因此,目前技术中采用的在用户提交查重请求后,将新的企业名称和现有的全部企业名称分别进行查重比对的方式工作量过大。
发明内容
有鉴于此,本申请的目的在于提供一种企业字号查重方法、装置、设备和介质,用于解决现有技术中对企业名称的查重速度较慢的问题。
第一方面,本申请实施例提供了一种企业字号查重方法,包括:
获取已审批通过的多个历史企业字号;
分别将每个历史企业字号进行字段拆分,以得到每个历史企业字号的拆分结果;
基于每个历史企业字号的拆分结果,生成关于所述历史企业字号的标准trie树;
在获取到企业名称注册请求后,从企业名称注册请求中提取出目标企业字号;
根据所述目标企业字号,采用trie树查找方式,在所述标准trie树中查找与目标企业字号具有相似性的参考企业字号;
根据查找到的参考企业字号和目标企业字号的对比结果,确定目标企业字号是否通过查重要求。
可选的,步骤分别将每个历史企业字号进行字段拆分,以得到每个历史企业字号的拆分结果,包括:
针对每个历史企业字号,按照关键词提取的方式从该历史企业字号中提取出具有特定含义的目标词汇;
针对每个历史企业字号,将提取剩余的字段按照逐个文字的方式进行拆分,以得到每个历史企业字号的目标文字;所述目标文字包括目标字和目标字符;
将目标词汇、目标文字组成所述拆分结果。
可选的,所述标准trie树的每个分支均是按照所述目标词汇和目标文字的内容,以及所述目标词汇和目标文字在所述历史企业字号中的位置确定的。
可选的,所述标准trie树是由连接在根节点下多个分支构成,每个分支均包括多级子节点,每个下一级子节点均与所对应的上一级子节点相连接;每一个子节点均为所述历史企业字号中的一个文字或词汇。
可选的,步骤根据所述目标企业字号,采用trie树查找方式,在所述标准trie树中查找与目标企业字号具有相似性的参考企业字号,包括:
使用目标企业字号中的首个字符在所述标准trie树的第一级子节点中进行遍历,以将存在有与所述首个字符相同的一级子节点所在的分支作为候选分支;
使用目标企业字号中的下一个字符在所述标准trie树的下一级子节点中进行遍历,以根据存在有与所述下一个字符相同的下一级子节点所在的分支对候选分支进行更新;
若目标企业字号中还存在未进行遍历的字符,则取下一个字符执行步骤使用目标企业字号中的下一个字符在所述标准trie树的下一级子节点中进行遍历;若目标企业字号中不存在未进行遍历的字符,则根据历次遍历所得到的候选分支确定参考企业字号。
可选的,还包括:
判断目标企业字号与历史企业字号中的驰名企业字号的第一相似度,以及和著名企业字号的第二相似度;
根据所述第一相似度和第二相似度,判断目标企业字号是否为重点审核对象;
若目标企业字号为重点审核对象,则执行步骤使用目标企业字号中的首个字符在所述标准trie树的第一级子节点中进行遍历;
若目标企业字号不为重点审核对象,则采用左模糊检索方式,在保存有历史企业字号的数据中进行排查,以确定目标企业字号是否通过查重要求。
可选的,标准trie树是正向索引形式的标准trie树或反向索引形式的标准trie树。
第二方面,本申请实施例提供了一种企业字号查重装置,包括:
获取模块,用于获取已审批通过的多个历史企业字号;
拆分模块,用于分别将每个历史企业字号进行字段拆分,以得到每个历史企业字号的拆分结果;
生成模块,用于基于每个历史企业字号的拆分结果,生成关于所述历史企业字号的标准trie树;
提取模块,用于在获取到企业名称注册请求后,从企业名称注册请求中提取出目标企业字号;
查找模块,用于根据所述目标企业字号,采用trie树查找方式,在所述标准trie树中查找与目标企业字号具有相似性的参考企业字号;
查重模块,用于根据查找到的参考企业字号和目标企业字号的对比结果,确定目标企业字号是否通过查重要求。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述方法的步骤。
本申请实施例提出的企业字号查重方法,首先,获取已审批通过的多个历史企业字号;其次,分别将每个历史企业字号进行字段拆分,以得到每个历史企业字号的拆分结果;然后,基于每个历史企业字号的拆分结果,生成关于所述历史企业字号的标准trie树;在获取到企业名称注册请求后,从企业名称注册请求中提取出目标企业字号;根据所述目标企业字号,采用trie树查找方式,在所述标准trie树中查找与目标企业字号具有相似性的参考企业字号;最后,根据查找到的参考企业字号和目标企业字号的对比结果,确定目标企业字号是否通过查重要求。
在某些实施例中,通过预先使用历史企业字号建立了标准trie树,使得在对新的目标企业字号进行排查的时候,可以使用trie树的查找方式,大大降低了数据的查找量,提高了查找的速度。
经过综合统计,企业字号常用汉字数量在2000个以内,使用该树形结构来存储历史企业字号的情况下,每个层级的子节点个数一般不超过2000,树的深度一般不超过10,使用该方案每次查重判断匹配次数大多可限制在10000次以内,相比千万级别的数据匹配量大大减少了匹配次数。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种企业字号查重方法的流程示意图;
图2为本申请实施例提供的一种标准trie树的示意图;
图3为本申请实施例提供的一种按照词汇进行拆分的方法的流程示意图;
图4为本申请实施例提供的一种计算机设备的结构示意图;
图5为本申请实施例提供的一种业字号查重装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
相关技术中,在进行工商注册前,需要核验用户所提交的企业字号是否与历史上其他用户已经注册成功的企业字号是否有冲突。实际生活中,已经注册成功的企业字号的数量是很多的,因此如果采用逐个对比的方式(将待注册的企业字号分别与每一个已经注册成功的历史企业字号进行对比)则会导致对比工作量过大,消耗的算力过多。
针对上述情况,本申请提供了一种企业字号查重方法,如图1所示,包括如下内容:
S101,获取已审批通过的多个历史企业字号;
S102,分别将每个历史企业字号进行字段拆分,以得到每个历史企业字号的拆分结果;
S103,基于每个历史企业字号的拆分结果,生成关于所述历史企业字号的标准trie树;
S104,在获取到企业名称注册请求后,从企业名称注册请求中提取出目标企业字号;
S105,根据所述目标企业字号,采用trie树查找方式,在所述标准trie树中查找与目标企业字号具有相似性的参考企业字号;
S106,根据查找到的参考企业字号和目标企业字号的对比结果,确定目标企业字号是否通过查重要求。
其中,步骤S101-S103是建立标准trie树的过程,步骤S104-S106是在获取到的待注册的企业字号之后,判断该待注册的企业字号是否重复的过程。
步骤S101-S103在每次查重服务启动或构建时执行一次即可;步骤S104-S106则是在每次接收到企业字号注册请求之后都要执行的步骤,当一个新企业名称查重通过且完成名称登记业务时,针对该企业字号执行S102-S103步骤将该字号加入trie树”。
具体来说,在步骤S101中,首先要获取已经注册成功的多个历史企业字号。
步骤S102中,需要将每个历史企业字号进行拆分,拆分的方式有两种,分别是按照逐个汉字/字符(如或其他拼音文字)进行拆分(拆分之后每个字符自己会形成一个trie树中的节点),和按照语义识别所确定的词汇+逐个汉字/字符(如或其他拼音文字)作为最小单位进行拆分,当然,按照词汇作为最小单位进行拆分可能无法将全部内容拆分完全,可能在按照词汇作为最小单位进行拆分后,还需要按照逐个汉字/字符为单位进行拆分。也就是按照词汇进行拆分得到的每个词汇会单独形成一个trie树中的节点,按照词汇进行拆分后剩余的每个汉字/字符会单独形成一个trie树中的节点。
步骤S103中,需要按照拆分结果来生成trie树。如图2所示,示出了使用历史企业字号为ABCD、ABED和FAB所形成的标准trie树(实际实现的时候,该标准trie树可以是正向索引形式的标准trie树或反向索引形式的标准trie树)。形成该trie树的过程中,是采用按照汉字作为最小单位进行拆分的。该图中共有4级节点和7个分支,每个分支中顺序排列的多个节点(排列顺序是按照该子节点和根节点之间的远近情况确定的,子节点和根节点之间经过越多的连线则越远)都是按照文字在这三个词(ABCD、ABED和FAB)中汉字的先后顺序确定的。每个分支至少由两个子节点组成,每个子节点中均是一个汉字,如分支1中共有四级子节点,分别是顺序依次排列的A、B、C、D;分支2中共有四级子节点,分别是顺序依次排列的A、B、E、D。在该图中,每个节点都会按照和根节点之间的远近情况(直接或间接的情况)区分为不同级别的节点,比如第一级节点中就有A、B、C、E、F。
在形成该trie树之后,进行检索的时候,就可以不用每次都分别遍历全部的历史企业字号了,因为大量的历史企业字号之间都是有相同前缀的,相同的部分只比对一次即可。下面简述两种比对方式。方式1,比如图2中的分支1和分支2,原本AB两个字都要分别对比两次,采用tire树查找方式,只需要分别比对一次即可。在比对之后,可以得到目标企业字号与每个分支的相似度(与每个分支重复字数的比例,或者是重复字数的数量),之后就可以将相似度过高的分支作为参考企业字号,或者是将相似度过高的分支所对应的历史企业字号作为参考企业字号(如分支3的相似度过高,则可以将分支的“BCD”作为参考企业字号,也可以将分支3所对应的“ABCD”作为参考企业字号)。
方式2,除了按照上述方式进行对比外还可以采用如下方式对比:如果某个汉字比对失败,也就是目标企业字号中的某个汉字和某分支中的某个节点(汉字)不同,则可以放弃该分支,即后续不用在比对该分支中剩余的节点(汉字)了,以此就可以降低比对文字的数量。
进而,在步骤S104中,在接收到用户所发起的企业字号注册请求后,需要从该请求中提取出来目标企业字号,该目标企业字号也就是用户期望进行注册的企业字号。该企业字号注册请求可以是用户实际发起的注册请求,也可以是用户在发起注册之前用于验证目标企业字号是否可以使用的请求。
在步骤S105中,可以采用trie树的查找方式,利用目标企业字号,查找和目标企业字号具有相似性的参考企业字号。下面介绍一种按照上述方式2执行的查找方案:按照如图2所示的trie树,查找的方式可以是利用目标企业字号的首个文字(某种情况下,本方案中的文字也可以是词汇,后续步骤中不再重复说明),在第一级子节点中进行查找,将与首个文字不同的第一级子节点所在的分支排除掉(后续进行查找的过程中不用查找被排除掉的分支),之后使用目标企业字号中的第二个文字在剩余的分支中的第二级子节点中查找,并将与第二个文字不同的第二级子节点所在的分支排除掉,以此类推,逐个使用目标企业字号中的每个文字在trie树的每一级节点中进行查找,直到所有的分支都被排除掉,或者是目标企业字号中的每个文字都在查找的过程中使用过。进而,在查找阶段完成之后,可以将经历过查找次数超过一定数值(可以理解为较晚被排除掉),或者是每次查找都没被排除掉的分支所对应的企业字号作为参考企业字号(如分支3中的BCD和分支6中的ED,又或者是分支1中的历史企业字号ABCD)。
最后在步骤S106中,可以将查找到的参考企业字号与目标企业字号进行对比,此处可以设置比对阈值,如可以在参考企业字号的文字与目标企业字号的文字完全相同的情况下,才确定目标企业字号没有通过查重;也可以是在目标企业字号与某个参考企业字号的文字重复度大于70%时,认为确定目标企业字号没有通过查重。还可以是根据与目标企业字号的文字重复度超过70%的参考企业字号的数量来确定目标企业字号没有通过查重,比如与目标企业字号的文字重复度超过70%的参考企业字号的数量超过10(超过预定重复度的参考企业字号的数量是否超过预定数值),则认为该目标企业字号是过于常见的,不具有显著性,此时就可以确定目标企业字号没有通过查重。
当然,在步骤S106执行的时候,还可以增加其他的规则,比如左侧的文字的对最终文字重复度的影响权重高于右侧的文字(即字号中排列靠前的文字的权重大于排列靠后的文字的权重)。
如前文中的说明,在步骤S102中需要对历史企业字号进行拆分,拆分的方式有两种分别是按照汉字/字符进行拆分和按照词汇进行拆分,下面提供一种按照词汇进行拆分的方案,如图3所示,即步骤S102,包括:
S1021,针对每个历史企业字号,按照关键词提取的方式从该历史企业字号中提取出具有特定含义的目标词汇;
S1022,针对每个历史企业字号,将提取剩余的字段按照逐个文字的方式进行拆分,以得到每个历史企业字号的目标文字;所述目标文字包括目标字和目标字符;
S1023,将目标词汇、目标文字组成所述拆分结果。
步骤S1021中,需要对每个历史企业字号进行语义识别,从历史企业字号中提取出具有特定语言含义的词汇。执行该步骤前可以预先建立一个数据库,该数据库中存储有所有在进行企业字号注册时需要注意的词汇。进而,在执行步骤S1021时就可以根据数据库中所存储的词汇来对每个历史企业字号进行词汇提取。
步骤S1022中,需要基于目标词汇对历史企业字号进行拆分,也就是将企业字号中非目标词汇的内容进行拆分,进而得到目标文字。
最后将目标词汇和目标文字组合成拆分结果。
比如,“FGAB”就可以将“FG”一词单独提取出来,然后再将“AB”两个字进行拆分,进而,FGAB得到的拆分结果就是“FG”、“A”和“B”。也就是FGAB所对应的三级子节点就是第一级子节点“FG”,第二级子节点“A”和第三级子节点“B”。按照这种方式在进行拆分之后,可以将词汇所对应的权重提高,也就是词汇是相同的,要比文字相同对重复度的影响更大,由于词汇中一般包含至少两个文字,因此可以根据词汇中所包含的字数来确定权重,比如两个文字的词汇的权重,应当是单个文字的三倍,三个文字的词汇的权重应当是单个文字的5倍。
进而,在按照词汇+文字进行拆分的情况下,标准trie树的每个分支均是按照所述目标词汇和目标文字的内容,以及所述目标词汇和目标文字在所述历史企业字号中的位置确定的。也就是,每个分支中不同子节点的顺序,均是按照该子节点中的文字在历史企业字号中的顺序确定的。如某个历史企业字号为1234567(此处使用数字替代文字),进行拆分得到的拆分结果是“1”、“23”、“45”、“6”和“7”,也就是23和45分别是两个词汇。那么在建立标准trie树时,顺序的多个子节点就分别是“1”、“23”、“45”、“6”和“7”。
对应的,在使用词汇和文字拆分得到了拆分结果,并建立了trie树之后,在进行查找的时候,也应当先对目标企业字号按照词汇和文字进行拆分,之后再进行查找。下面提供一种对应的查找方式,也就是步骤S105可以按照如下方式实现:
步骤1051,使用目标企业字号中的首个字符在所述标准trie树的第一级子节点中进行遍历,以将存在有与所述首个字符相同的一级子节点所在的分支作为候选分支;
步骤1052,使用目标企业字号中的下一个字符在所述标准trie树的下一级子节点中进行遍历,以根据存在有与所述下一个字符相同的下一级子节点所在的分支对候选分支进行更新;
步骤1053,若目标企业字号中还存在未进行遍历的字符,则取下一个字符执行步骤使用目标企业字号中的下一个字符在所述标准trie树的下一级子节点中进行遍历;若目标企业字号中不存在未进行遍历的字符,则根据历次遍历所得到的候选分支确定参考企业字号。
步骤1051中,需要使用目标企业字号中的首个字符在标准trie树中进行遍历。比如目标企业字号为“GAB”,按照上述方式2,对图2中所示的trie树进行遍历,则在第一轮遍历的时候,应当使用“G”进行遍历,所有第一级子节点都有没有相同的,此时遍历结束(此时没有参考企业字号)。
又比如目标企业字号为“ABCH”,按照上述方式2,则在第一轮遍历的时候,应当使用A进行遍历,查找到第一分支和第二分支符合要求,也就是第一分支和第二分支应当作为候选分支;之后在步骤1052中,使用ABCH中的“B”在第二级子节点中进行遍历,此时,还是只有分支1和分支2是候选分支;然后再步骤1053中,发现还有剩余的字符,即“C”,此时,需要使用C在第三级子节点中进行遍历,此时,只有分支1能作为候选分支了,最后,再使用“H”在第四级子节点中进行遍历,此时就没有候选分支了,并且由于目标企业字号中的文字都已经使用完了,同时,已经没有候选节点了,可以终止遍历了(实际上,只要目标企业字号中的文字都已经使用完了,或者,已经没有候选节点这两个条件中符合一个条件,就可以终止遍历了)。之后,由于分支1是最后被排除掉的,因此,可以使用ABCD作为参考企业字号。当然,如前文中所说,可以设定重复度阈值(查重阈值),在阈值适当的情况下,也可以将分支2作为参考企业字号。
对应的,如果使用上述方式1来对“GAB”进行查找,则只有分支7的重复度为67%(三个字中共有两个字重复),此时,如果重复度阈值为60%,则只有分支7的GAB可以作为参考企业字号。
由于企业字号中存在驰名企业字号和著名企业字号,同时,抄袭驰名企业字号和著名企业字号的问题更加严重,因此,针对模仿驰名企业字号和著名企业字号的目标企业字号应当重点审查。进而,本申请所提供的方法还包括如下步骤:
判断目标企业字号与历史企业字号中的驰名企业字号的第一相似度,以及和著名企业字号的第二相似度;
根据所述第一相似度和第二相似度,判断目标企业字号是否为重点审核对象;
若目标企业字号为重点审核对象,则执行步骤使用目标企业字号中的首个字符在所述标准trie树的第一级子节点中进行遍历;
若目标企业字号不为重点审核对象,则采用左模糊检索方式,在保存有历史企业字号的数据中进行排查,以确定目标企业字号是否通过查重要求。
也就是,在执行本方案前需要先生成驰名企业字号和著名企业字号的名录,之后执行本方案的时候,在名录中使用目标企业字号进行排查。执行时,分别计算目标企业字号和名录中的驰名企业字号和著名企业字号的第一相似度和第二相似度,然后根据这两个相似度确定目标企业字号是否是重点审核对象,一般来说,只要某一个相似度超过预定的数值,就要将目标企业字号作为重点审核对象。此时,就可以执行步骤使用目标企业字号中的首个字符在所述标准trie树的第一级子节点中进行遍历。否则,就可以采用左模糊检索方式来进行排查。左模糊检索方式可以高速识别字号前半部分重复情况,但对中间重复或后半部分重复识别的能力较差,如:已存在“XWZZ”字号,使用“新XWZZ”、“GXW”等字号均可顺利通过。准确性不够。
具体的,第一相似度的重要程度要比第二相似度的重要程度要高,因此,在分别设定阈值的时候,可以是判断第一相似度是否超过阈值的阈值数值低于判断第二相似度是否超过阈值的阈值数值。
本申请还提供了一种企业字号查重装置,如图5所示,包括:
获取模块501,用于获取已审批通过的多个历史企业字号;
拆分模块502,用于分别将每个历史企业字号进行字段拆分,以得到每个历史企业字号的拆分结果;
生成模块503,用于基于每个历史企业字号的拆分结果,生成关于所述历史企业字号的标准trie树;
提取模块504,用于在获取到企业名称注册请求后,从企业名称注册请求中提取出目标企业字号;
查找模块505,用于根据所述目标企业字号,采用trie树查找方式,在所述标准trie树中查找与目标企业字号具有相似性的参考企业字号;
查重模块506,用于根据查找到的参考企业字号和目标企业字号的对比结果,确定目标企业字号是否通过查重要求。
可选的,拆分模块,包括:
提取单元,用于针对每个历史企业字号,按照关键词提取的方式从该历史企业字号中提取出具有特定含义的目标词汇;
拆分单元,用于针对每个历史企业字号,将提取剩余的字段按照逐个文字的方式进行拆分,以得到每个历史企业字号的目标文字;所述目标文字包括目标字和目标字符;
组成单元,用于将目标词汇、目标文字组成所述拆分结果。
可选的,所述标准trie树的每个分支均是按照所述目标词汇和目标文字的内容,以及所述目标词汇和目标文字在所述历史企业字号中的位置确定的。
可选的,所述标准trie树是由连接在根节点下多个分支构成,每个分支均包括多级子节点,每个下一级子节点均与所对应的上一级子节点相连接;每一个子节点均为所述历史企业字号中的一个文字或词汇。
可选的,查找模块,包括:
遍历单元,用于使用目标企业字号中的首个字符在所述标准trie树的第一级子节点中进行遍历,以将存在有与所述首个字符相同的一级子节点所在的分支作为候选分支;
更新单元,用于使用目标企业字号中的下一个字符在所述标准trie树的下一级子节点中进行遍历,以根据存在有与所述下一个字符相同的下一级子节点所在的分支对候选分支进行更新;
确定单元,用于若目标企业字号中还存在未进行遍历的字符,则取下一个字符执行步骤使用目标企业字号中的下一个字符在所述标准trie树的下一级子节点中进行遍历;若目标企业字号中不存在未进行遍历的字符,则根据历次遍历所得到的候选分支确定参考企业字号。
可选的,所述装置还包括:
第一判断模块,用于判断目标企业字号与历史企业字号中的驰名企业字号的第一相似度,以及和著名企业字号的第二相似度;
第二判断模块,用于根据所述第一相似度和第二相似度,判断目标企业字号是否为重点审核对象;若目标企业字号为重点审核对象,则执行步骤使用目标企业字号中的首个字符在所述标准trie树的第一级子节点中进行遍历;若目标企业字号不为重点审核对象,则采用左模糊检索方式,在保存有历史企业字号的数据中进行排查,以确定目标企业字号是否通过查重要求。
可选的,标准trie树是正向索引形式的标准trie树或反向索引形式的标准trie树。
对应于图1中的企业字号查重方法,本申请实施例还提供了一种计算机设备400,如图4所示,该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序,其中,上述处理器402执行上述计算机程序时实现上述企业字号查重方法。
具体地,上述存储器401和处理器402能够为通用的存储器和处理器,这里不做具体限定,当处理器402运行存储器401存储的计算机程序时,能够执行上述企业字号查重方法,解决了现有技术中对企业名称的查重速度较慢的问题。
对应于图1中的企业字号查重方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述企业字号查重方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述企业字号查重方法,解决了现有技术中对企业名称的查重速度较慢的问题,本申请通过预先使用历史企业字号建立了标准trie树,使得在对新的目标企业字号进行排查的时候,可以使用trie树的查找方式,大大降低了数据的查找量,提高了查找的速度。经过综合统计,企业字号常用汉字数量在2000个以内,使用该树形结构来存储历史企业字号的情况下,每个层级的子节点个数一般不超过2000,树的深度一般不超过10,使用该方案每次查重判断匹配次数大多可限制在10000次以内,相比千万级别的数据匹配量大大减少了匹配次数。
在本申请所提供的实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (8)
1.一种企业字号查重方法,其特征在于,包括:
获取已审批通过的多个历史企业字号;
分别将每个历史企业字号进行字段拆分,以得到每个历史企业字号的拆分结果;
基于每个历史企业字号的拆分结果,生成关于所述历史企业字号的标准trie树;所述标准trie树是由连接在根节点下多个分支构成,每个分支均包括多级子节点,每个下一级子节点均与所对应的上一级子节点相连接;每一个子节点均为所述历史企业字号中的一个文字或词汇;
在获取到企业名称注册请求后,从企业名称注册请求中提取出目标企业字号;
使用目标企业字号中的首个字符在所述标准trie树的第一级子节点中进行遍历,以将存在有与所述首个字符相同的一级子节点所在的分支作为候选分支;
使用目标企业字号中的下一个字符在所述标准trie树的下一级子节点中进行遍历,以根据存在有与所述下一个字符相同的下一级子节点所在的分支对候选分支进行更新;
若目标企业字号中还存在未进行遍历的字符,则取下一个字符执行步骤使用目标企业字号中的下一个字符在所述标准trie树的下一级子节点中进行遍历;若目标企业字号中不存在未进行遍历的字符,则根据历次遍历所得到的候选分支确定参考企业字号;
根据查找到的参考企业字号和目标企业字号的对比结果,确定目标企业字号是否通过查重要求。
2.根据权利要求1所述的方法,其特征在于,步骤分别将每个历史企业字号进行字段拆分,以得到每个历史企业字号的拆分结果,包括:
针对每个历史企业字号,按照关键词提取的方式从该历史企业字号中提取出具有特定含义的目标词汇;
针对每个历史企业字号,将提取剩余的字段按照逐个文字的方式进行拆分,以得到每个历史企业字号的目标文字;所述目标文字包括目标字和目标字符;
将目标词汇、目标文字组成所述拆分结果。
3.根据权利要求2所述的方法,其特征在于,所述标准trie树的每个分支均是按照所述目标词汇和目标文字的内容,以及所述目标词汇和目标文字在所述历史企业字号中的位置确定的。
4.根据权利要求1所述的方法,其特征在于,还包括:
判断目标企业字号与历史企业字号中的驰名企业字号的第一相似度,以及和著名企业字号的第二相似度;
根据所述第一相似度和第二相似度,判断目标企业字号是否为重点审核对象;
若目标企业字号为重点审核对象,则执行步骤使用目标企业字号中的首个字符在所述标准trie树的第一级子节点中进行遍历;
若目标企业字号不为重点审核对象,则采用左模糊检索方式,在保存有历史企业字号的数据中进行排查,以确定目标企业字号是否通过查重要求。
5.根据权利要求1所述的方法,其特征在于,标准trie树是正向索引形式的标准trie树或反向索引形式的标准trie树。
6.一种企业字号查重装置,其特征在于,包括:
获取模块,用于获取已审批通过的多个历史企业字号;
拆分模块,用于分别将每个历史企业字号进行字段拆分,以得到每个历史企业字号的拆分结果;
生成模块,用于基于每个历史企业字号的拆分结果,生成关于所述历史企业字号的标准trie树;所述标准trie树是由连接在根节点下多个分支构成,每个分支均包括多级子节点,每个下一级子节点均与所对应的上一级子节点相连接;每一个子节点均为所述历史企业字号中的一个文字或词汇;
提取模块,用于在获取到企业名称注册请求后,从企业名称注册请求中提取出目标企业字号;
查找模块,用于使用目标企业字号中的首个字符在所述标准trie树的第一级子节点中进行遍历,以将存在有与所述首个字符相同的一级子节点所在的分支作为候选分支;使用目标企业字号中的下一个字符在所述标准trie树的下一级子节点中进行遍历,以根据存在有与所述下一个字符相同的下一级子节点所在的分支对候选分支进行更新;若目标企业字号中还存在未进行遍历的字符,则取下一个字符执行步骤使用目标企业字号中的下一个字符在所述标准trie树的下一级子节点中进行遍历;若目标企业字号中不存在未进行遍历的字符,则根据历次遍历所得到的候选分支确定参考企业字号;
查重模块,用于根据查找到的参考企业字号和目标企业字号的对比结果,确定目标企业字号是否通过查重要求。
7.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-5中任一项所述的方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1-5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310610295.3A CN116361517B (zh) | 2023-05-29 | 2023-05-29 | 一种企业字号查重方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310610295.3A CN116361517B (zh) | 2023-05-29 | 2023-05-29 | 一种企业字号查重方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116361517A CN116361517A (zh) | 2023-06-30 |
CN116361517B true CN116361517B (zh) | 2023-08-25 |
Family
ID=86922427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310610295.3A Active CN116361517B (zh) | 2023-05-29 | 2023-05-29 | 一种企业字号查重方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116361517B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111696635A (zh) * | 2020-05-13 | 2020-09-22 | 平安科技(深圳)有限公司 | 疾病名称标准化方法及装置 |
CN112149419A (zh) * | 2020-09-30 | 2020-12-29 | 中国工商银行股份有限公司 | 字段的规范化自动命名方法、装置及系统 |
CN112364635A (zh) * | 2020-11-30 | 2021-02-12 | 中国银行股份有限公司 | 企业名称查重方法及装置 |
CN114444441A (zh) * | 2022-01-04 | 2022-05-06 | 杭州网易竹书信息技术有限公司 | 名称相似度计算方法、装置、存储介质和计算设备 |
CN115712757A (zh) * | 2022-11-04 | 2023-02-24 | 连通(杭州)技术服务有限公司 | 一种基于索引树的企业名称匹配方法与设备 |
-
2023
- 2023-05-29 CN CN202310610295.3A patent/CN116361517B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111696635A (zh) * | 2020-05-13 | 2020-09-22 | 平安科技(深圳)有限公司 | 疾病名称标准化方法及装置 |
CN112149419A (zh) * | 2020-09-30 | 2020-12-29 | 中国工商银行股份有限公司 | 字段的规范化自动命名方法、装置及系统 |
CN112364635A (zh) * | 2020-11-30 | 2021-02-12 | 中国银行股份有限公司 | 企业名称查重方法及装置 |
CN114444441A (zh) * | 2022-01-04 | 2022-05-06 | 杭州网易竹书信息技术有限公司 | 名称相似度计算方法、装置、存储介质和计算设备 |
CN115712757A (zh) * | 2022-11-04 | 2023-02-24 | 连通(杭州)技术服务有限公司 | 一种基于索引树的企业名称匹配方法与设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116361517A (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110390006B (zh) | 问答语料生成方法、装置和计算机可读存储介质 | |
CN110362824B (zh) | 一种自动纠错的方法、装置、终端设备及存储介质 | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN110851559B (zh) | 数据元自动识别方法和识别系统 | |
CN111814455B (zh) | 搜索词纠错对构建方法、终端及存储介质 | |
CA2882280A1 (en) | System and method for matching data using probabilistic modeling techniques | |
CN101131706A (zh) | 一种查询修正方法及系统 | |
Bellare et al. | Learning extractors from unlabeled text using relevant databases | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN110941959A (zh) | 文本违规检测、文本还原方法、数据处理方法及设备 | |
Liu et al. | Ranking-based name matching for author disambiguation in bibliographic data | |
CN107168966B (zh) | 一种搜索引擎索引构建方法及装置 | |
CN111190873B (zh) | 一种用于云原生系统日志训练的日志模式提取方法及系统 | |
CN113033204A (zh) | 信息实体抽取方法、装置、电子设备和存储介质 | |
Han et al. | Towards effective extraction and linking of software mentions from user-generated support tickets | |
CN109543002B (zh) | 简写字符的还原方法、装置、设备及存储介质 | |
CN112612810A (zh) | 慢sql语句识别方法及系统 | |
CN113032371A (zh) | 数据库语法分析方法、装置和计算机设备 | |
CN116361517B (zh) | 一种企业字号查重方法、装置、设备和介质 | |
CN111680146A (zh) | 确定新词的方法、装置、电子设备及可读存储介质 | |
CN108776705B (zh) | 一种文本全文精确查询的方法、装置、设备及可读介质 | |
CN111368547A (zh) | 基于语义解析的实体识别方法、装置、设备和存储介质 | |
CN113449063B (zh) | 一种构建文档结构信息检索库的方法及装置 | |
CN110941713A (zh) | 基于主题模型的自优化金融资讯版块分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |