CN114880430A - 名称处理方法及装置 - Google Patents
名称处理方法及装置 Download PDFInfo
- Publication number
- CN114880430A CN114880430A CN202210502398.3A CN202210502398A CN114880430A CN 114880430 A CN114880430 A CN 114880430A CN 202210502398 A CN202210502398 A CN 202210502398A CN 114880430 A CN114880430 A CN 114880430A
- Authority
- CN
- China
- Prior art keywords
- standard
- name
- standard name
- simplified
- names
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供了名称处理方法及装置,在获取到目标对象的第一非标准名称后,对第一非标准名称进行简化处理,得到第二非标准名称;以及对待简化标准名称集中的标准名称进行简化处理,得到简化标准名称集;然后确定简化标准名称集中与第二非标准名称相匹配的目标简化标准名称,目标简化标准名称对应的未简化标准名称即可作为第一非标准名称的参考标准名称,以使得在用户输入不规范的名称时,从预设标准名称集中自动匹配该不规范名称对应的参考标准名称,这样能够提高针对不规范名称进行标准名称匹配的效率和匹配准确度,并且还可以根据该参考标准名称对不规范名称进行纠正或者根据该参考标准名称确定输入不规范名称的用户是否为目标服务用户。
Description
技术领域
本申请涉及信息处理领域,尤其涉及一种名称处理方法及装置。
背景技术
目前,随着互联网时代的到来,互联网在人们日常的学习、工作和生活中得到广泛的应用。人们日常的各种事务都可以通过互联网来处理和呈现。例如,通过互联网完成某项业务的线上申请,其中,在业务申请过程中,往往需要用户手动输入一些个人信息,如个人姓名、家庭住址、当前任职的公司名称等等。然而,针对名称比较长的信息填写,通常存在用户填写不规范、不标准的情况,因此,需要针对用户输入名称从预设数据库中匹配与其对应的标准全称,但是,现有的名称匹配过程存在效率低、准确度低的问题。
发明内容
本申请实施例的目的是提供一种名称处理方法及装置,用于提高针对用户输入的不规范名称进行标准名称匹配的效率和匹配准确度。
为了实现上述技术方案,本申请实施例是这样实现的:
第一方面,本申请实施例提供的一种名称处理方法,所述方法包括:
获取目标对象的第一非标准名称;
对所述第一非标准名称进行简化处理,得到第二非标准名称;以及对待简化标准名称集中包括的标准名称进行简化处理,得到简化标准名称集;其中,若所述第一非标准名称中不包括指定字段,则所述待简化标准名称集为预设标准名称集;若所述第一非标准名称中包括所述指定字段,则所述待简化标准名称集为所述预设标准名称集中满足第一约束条件的标准名称形成的集合;
确定所述简化标准名称集中与所述第二非标准名称相匹配的目标简化标准名称;所述目标简化标准名称对应的未简化标准名称用于作为所述第一非标准名称的参考标准名称。
第二方面,本申请实施例提供的一种名称处理装置,所述装置包括:
名称获取模块,被配置为获取目标对象的第一非标准名称;
名称简化模块,被配置为对所述第一非标准名称进行简化处理,得到第二非标准名称;以及对待简化标准名称集中包括的标准名称进行简化处理,得到简化标准名称集;其中,若所述第一非标准名称中不包括指定字段,则所述待简化标准名称集为预设标准名称集;若所述第一非标准名称中包括所述指定字段,则所述待简化标准名称集为所述预设标准名称集中满足第一约束条件的标准名称形成的集合;
名称确定模块,被配置为确定所述简化标准名称集中与所述第二非标准名称相匹配的目标简化标准名称;所述目标简化标准名称对应的未简化标准名称用于作为所述第一非标准名称的参考标准名称。
第三方面,本申请实施例提供的一种名称处理设备,所述设备包括:
处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令被配置由所述处理器执行,所述可执行指令包括用于执行如第一方面中所述的方法中的步骤。
第四方面,本申请实施例提供的一种存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令使得计算机执行如第一方面中所述的方法中的步骤。
可以看出,在本申请实施例中,在获取到目标对象的第一非标准名称后,对第一非标准名称进行简化处理,得到第二非标准名称;以及对待简化标准名称集中的标准名称进行简化处理,得到简化标准名称集;然后确定简化标准名称集中与第二非标准名称相匹配的目标简化标准名称,目标简化标准名称对应的未简化标准名称即可作为第一非标准名称的参考标准名称;即并非直接计算非标准名称与标准名称之间的语义相似度并基于语义相似度确定非标准名称的参考标准名称,而是先对第一非标准名称和待简化标准名称集(即P个未简化标准名称)进行简化处理,得到简化后的第二非标准名称和P个简化标准名称,其中,待简化标准名称集中包括哪些标准名称基于第一非标准名称中是否包含指定字段确定的,即以预设标准名称集包括X个未简化标准名称为例,若第一非标准名称中不包含指定字段,则待简化标准名称集即为预设标准名称集(即P个未简化标准名称即为X个未简化标准名称,P=X),若第一非标准名称中包含指定字段,则P个未简化标准名称即为预设标准名称集中满足第一约束条件的标准名称(即基于指定字段匹配方式,从X个未简化标准名称中召回与第一非标准名称匹配的P个未简化标准名称,P<X),然后,再从P个简化标准名称中召回与第二非标准名称匹配的Y个简化标准名称(即目标简化标准名称),由于通过依次对第一非标准名称和未简化标准名称进行多级处理,最终从预设标准名称集中召回第一非标准名称的参考标准名称,进而可根据该参考标准名称确定目标对象的标准化且规范化的全称,以使得在用户输入不规范的名称(即第一非标准名称)时,从预设标准名称集中自动匹配该不规范的名称对应的参考标准名称(即目标简化标准名称对应的未简化标准名称),这样不仅能够实现自动筛选出与第一非标准名称关联度高的参考标准名称,还能够避免因语义相似度计算准确度低导致筛选出的参考标准名称的准确度低的问题,从而提高针对不规范名称进行标准名称匹配的效率和匹配准确度,并且还可以根据该参考标准名称对第一非标准名称进行名称纠正,也可以根据该参考标准名称与第一非标准名称的关联程度,决定是否将输入不规范名的用户确定为目标服务用户。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请一个或多个中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的名称处理方法的第一种流程示意图;
图2为本申请实施例提供的名称处理方法中确定目标简化标准名称的具体实现原理示意图;
图3为本申请实施例提供的名称处理方法中针对目标简化标准名称的按序可视化显示的具体实现原理示意图;
图4为本申请实施例提供的名称处理方法的第二种流程示意图;
图5为本申请实施例提供的名称处理方法的具体实现原理示意图;
图6为本申请实施例提供的名称处理装置的模块组成示意图;
图7为本申请实施例提供的名称处理设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请一个或多个中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一个或多个一部分实施例,而不是全部的实施例。基于本申请一个或多个中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请的保护范围。
需要说明的是,在不冲突的情况下,本申请中的一个或多个实施例以及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请实施例。
本申请一个或多个实施例提供了一种名称处理方法及装置,考虑到针对某些特定的应用场景,待处理的第一非标准名称可能包含较少的语义信息(例如,公司名称仅仅是几个词的组合而包含的语义信息比较少),因此,如果直接利用语义相似度计算方式确定预存的标准名称与用户输入的非标准名称之间的语义相似度,再基于语义相似度筛选出与非标准名称相似度比较高的标准名称,可能会召回与非标准名称语义相似但完全无关的多个标准名称(例如,针对名称“上海富冶电子商务”,由于“富冶”与“三钢”的语义相似度比较高,因此将“福建省三钢(集团)有限责任公司”作为标准名称召回),从而导致针对非标准名称的标准名称匹配召回准确度低,基于此,本技术方案通过先对第一非标准名称和待简化标准名称集(即P个未简化标准名称)进行简化处理,得到简化后的第二非标准名称和P个简化标准名称,其中,待简化标准名称集中包括哪些标准名称基于第一非标准名称中是否包含指定字段确定的,即以预设标准名称集包括X个未简化标准名称为例,若第一非标准名称中不包含指定字段,则待简化标准名称集即为预设标准名称集(即P个未简化标准名称即为X个未简化标准名称,P=X),若第一非标准名称中包含指定字段,则P个未简化标准名称即为预设标准名称集中满足第一约束条件的标准名称(即基于指定字段匹配方式,从X个未简化标准名称中召回与第一非标准名称匹配的P个未简化标准名称,P<X),然后,再从P个简化标准名称中召回与第二非标准名称匹配的Y个简化标准名称(即目标简化标准名称),目标简化标准名称对应的未简化标准名称即可作为第一非标准名称的参考标准名称,这样能够从根源上避免召回一些与第一非标准名称语义相似但完全无关的参考标准名称,从而提高从预设标准名称集中针对非标准名称进行标准名称匹配召回的准确度,进而提高基于召回的参考标准名称进行相应的业务处理(如名词纠正或者目标服务用户确定)的准确度;又考虑到如果采用词性划分的方式先将第一非标准名称进行分词和词性标注,再根据各分词的词性,将第一非标准名称中的不同组成部分进行区分,针对标准名称同样采用相同的词性划分方式,将标准名称中的不同组成部分进行区分;然后按照不同的组成部分,将第一非标准名称和标准名称进行对应匹配,但由于在分词过程中,过于依赖词性识别算法的识别准确度,如果词性识别算法准确度低,可能导致词性识别错误(例如,针对名称“唐山锦绣香江商务酒店”,将“香江”的词性误识别为地名),从而导致后续按照不同组成部分对应匹配错误,进而导致标准名称的召回准确度低,基于此,本技术方案仅仅是通过借助至少一个能够表征待简化标准名称和第一非标准名称具有一定关联性的指定字段,从预设标准名称集中进行初步召回,得到待简化标准名称集,并不作为对名称进行组成部分划分的依据,并且在初步召回多个待简化标准名称后,先对待简化标准名称和第一非标准名称进行简化处理,再从多个简化标准名称中进行二次召回目标简化标准名称作为第一非标准名称的参考标准名称,这样能够从根源上避免因词性划分错误而导致对应匹配错误的问题,从而提高从预设标准名称集中针对非标准名称进行标准名称匹配召回的准确度,进而提高基于召回的参考标准名称进行相应的业务处理(如名词纠正或者目标服务用户确定)的准确度。
图1为本申请一个或多个实施例提供的名称处理方法的第一种流程示意图,图1中的方法能够由服务器或者终端设备执行,如图1所示,该方法至少包括以下步骤:
S202,获取目标对象的第一非标准名称;
其中,上述目标对象可以对应于目标用户针对某一项业务办理所输入的业务申请相关信息中的一个信息填写项,第一非标准名称即为目标用户针对该信息填写项所填写的个人信息,例如,信息填写项为目标用户的任职公司名称,对应的目标对象为用户任职公司,第一非标准名称为目标用户输入的任职公司名称;又如,信息填写项为目标用户的收货地址信息,对应的目标对象为用户收货地址,第一非标准名称为目标用户输入的收货地址名称;再如,信息填写项为目标用户期望途经的景点名称,对应的目标对象为旅游景点,第一非标准名称为目标用户输入的旅游景点名称;
S204,对上述第一非标准名称进行简化处理,得到第二非标准名称;以及对待简化标准名称集中包括的标准名称进行简化处理,得到简化标准名称集;
其中,若第一非标准名称中不包括指定字段,则上述待简化标准名称集为预设标准名称集;若第一非标准名称中包括指定字段,则上述待简化标准名称集为预设标准名称集中满足第一约束条件的标准名称形成的集合;也就是说,待简化标准名称集中包括哪些标准名称基于第一非标准名称中是否包含指定字段确定的,即基于预设标准名称集和第一非标准名称中是否包含指定字段,确定待简化标准名称集。
具体的,上述预设标准名称集中包括多个未简化标准名称,未简化标准名称可以为根据实际业务需求预先存储的目标对象的标准名称,例如,以目标对象为用户任职公司为例,对应的,预设标准名称集包括预存的多个优质企业名称,这样如果后续匹配出第一非标准名称对应于一个优质企业名称,因此,可以将目标用户作为目标服务用户纳入目标人群,进而有针对性地向目标人群发送目标推送信息(如,与用户工作属性有关的文章信息、应用程序、增值服务信息等)、或者针对目标人群的业务咨询请求,为其匹配服务等级更高的坐席人员,从而实现为目标人群提供更加优质的服务;又如,以目标对象为旅游景点为例,对应的,预设标准名称集包括预存的多个目标景点名称(即与目标推送信息相关的景点名称),这样如果后续匹配出第一非标准名称对应于一个目标景点名称,因此,可以将目标用户作为目标服务用户纳入目标人群,进而有针对性地向目标人群发送目标推送信息(如,与目标旅游景点有关的景点实况信息、周边餐饮信息等),从而实现为目标人群提供更加优质的服务。
其中,无论是未简化标准名称还是第一非标准名称中均可以包括多个字段,例如,针对第一非标准名称为任职公司名称而言,第一非标准名称可以包括地名字段,还可以包括通用字段,由于地名字段可以用来从预设标准名称集中初步召回与第一非标准名称具有一定关联的未简化标准名称,因此,可以将地名字段确定为指定字段。
具体的,针对上述第一非标准名称中不包含指定字段的情况,可以直接将上述预设标准名称集确定为待简化标准名称集;即将预设标准名称集中的所有未简化标准名称均召回,针对各未简化标准名称进行后续的简化处理和字符串匹配处理;
具体的,针对上述第一非标准名称中包含指定字段的情况,可以基于所述指定字段,确定上述预设标准名称集包括的多个标准名称中满足第一约束条件的标准名称,得到待简化标准名称集;即针对第一非标准名称中包含指定字段的情况,因此可以基于该指定字段在上述预设标准名称集中初步召回与第一非标准名称具有一定关联的未简化标准名称,再针对初步召回的未简化标准名称进行后续的简化处理和字符串匹配处理,而可以直接将未召回的未简化标准名称丢弃;
其中,上述第一约束条件可以包括:未简化标准名称不包含指定字段、未简化标准名称包含指定字段且未简化标准名称中指定字段的第一赋值与第一非标准名称中所述指定字段的第二赋值满足预设匹配成功条件,该预设匹配成功条件包括:赋值所属级别相同且赋值相同、或者赋值所属级别不相同,即针对第一非标准名称从预设标准名称集中初步召回的标准名称包括:不包含指定字段的未简化标准名称、第一赋值与第二赋值的所属级别相同且赋值相同的未简化标准名称、以及第一赋值与第二赋值的所属级别不相同的未简化标准名称。
具体的,仍以指定字段为地名字段为例,第一赋值和第二赋值的所属级别包括:省级地名、省级地名下属的市级地名、或者直辖市;对应的,若未简化标准名称中的地名字段的第一赋值的所属级别为省级地名,第一非标准名称中的地名字段的第二赋值的所属级别为市级地名,则确定第一赋值与第二赋值的所属级别不相同,若未简化标准名称中的地名字段的第一赋值具体为山东省,第一非标准名称中的地名字段的第二赋值具体为杭州市,则确定第一赋值与第二赋值的赋值不相同。
具体的,在获取第一非标准名称和待简化标准名称之后,且在基于预设字符串匹配方法进行标准名称二次召回之前,可以先对第一非标准名称和待简化标准名称集中的各标准名称(即预设标准名称中包括的X个标准名称、或者基于指定字段从X个标准名称中初步召回的P标准名称)进行简化处理,得到第一非标准名称对应的简化后的第二非标准名称、以及P个未简化标准名称对应的P个简化标准名称,未简化标准名称对应于一个简化标准名称;
其中,上述简化处理可以包含对名称中的目标字段的删除处理,目标字段可以包括上述指定字段和通用字段中至少一项,具体的,上述简化处理可以包括:指定字段的删除处理、以及通用字段的删除处理;例如,以第一非标准名称为用户输入的任职公司名称为例,指定字段可以是任职公司名称中的前缀地名字段(如北京市、深圳市等),通用字段可以是任职公司名称中的后缀公司类型字段(如股份有限公司、有限责任公司等)。
需要说明的是,在基于预设字符串匹配方法进行标准名称二次召回之前,可以不对名称进行简化处理,而是直接基于预设字符串匹配方法,从预设标准名称集或者满足第一约束条件的标准名称中召回与第一非标准名称相匹配的目标简化标准名称;然而,在具体实施时,考虑到名称中通常会存在一些不必要的字段(如前缀地名字段、后缀公司类型字段等),为了提高后续基于预设字符串匹配方法进行标准名称召回的召回效率和准确率,可以先对第一非标准名称和待简化标准名称集中的标准名称进行简化处理,再基于预设字符串匹配方法进行标准名称二次召回。
S106,确定上述简化标准名称集中与第二非标准名称相匹配的目标简化标准名称;其中,目标简化标准名称对应的未简化标准名称用于作为第一非标准名称的参考标准名称。
其中,在对标准名称和非标准名称进行简化处理之后,由于简化处理得到的第二非标准名称和简化标准名称中只包含能够表征是哪个公司的关键字段,因此,可以继续基于字符串匹配的方式从P个简化标准名称(对应于基于指定字段匹配的方式初步召回的P个未简化标准名称)中,再次召回与第二非标准名称相匹配的Y个简化标准名称作为目标简化标准名称;
具体的,需要说明的是,针对上述S106,确定上述简化标准名称集中与第二非标准名称相匹配的目标简化标准名称的具体实现过程,可以直接将简化标准名称与第二非标准名称进行语义相似度匹配,再基于语义相似度的大小关系,在简化标准名称集中确定语义相似度排序靠前的一定数量的目标简化标准名称;但是考虑到直接计算两个名称之间的语义相似度,可能会召回与第二非标准名称语义相似但完全无关的简化标准名称集(即召回与第二非标准名称中的词不相同但语义相同的简化标准名称),从而导致确定出的目标简化标准名称的准确度低的问题,因此,本申请在具体实施时,优选地,基于预设字符串匹配方法在P个简化标准名称中筛选出Y个目标简化标准名称;
具体的,由于字符串匹配的过程所针对的字符串为简化处理后的第二非标准名称和简化标准名称(即仅保留关键字段的名称),以及待执行字符串匹配的简化标准名称为经过初步召回得到的,即已经从预设标准名称集中初步筛除未简化标准名称中指定字段与第一非标准名称不匹配的部分未简化标准名称(即不满足第一约束条件的未简化标准名称),因此,能够提高字符串匹配的匹配效率和匹配准确度。
本申请实施例中,通过先对第一非标准名称和待简化标准名称集(即P个未简化标准名称)进行简化处理,得到简化后的第二非标准名称和P个简化标准名称,其中,待简化标准名称集中包括哪些标准名称基于第一非标准名称中是否包含指定字段确定的,即以预设标准名称集包括X个未简化标准名称为例,若第一非标准名称中不包含指定字段,则待简化标准名称集即为预设标准名称集(即P个未简化标准名称即为X个未简化标准名称,P=X),若第一非标准名称中包含指定字段,则P个未简化标准名称即为预设标准名称集中满足第一约束条件的标准名称(即基于指定字段匹配方式,从X个未简化标准名称中召回与第一非标准名称匹配的P个未简化标准名称,P<X),然后,再从P个简化标准名称中召回与第二非标准名称匹配的Y个简化标准名称(即目标简化标准名称),由于通过依次对第一非标准名称和未简化标准名称进行多级处理,最终从预设标准名称集中召回第一非标准名称的参考标准名称,进而可根据该参考标准名称确定目标对象的标准化且规范化的全称,以使得在用户输入不规范的名称(即第一非标准名称)时,从预设标准名称集中自动匹配该不规范的名称对应的参考标准名称(即目标简化标准名称对应的未简化标准名称),这样不仅能够实现自动筛选出与第一非标准名称关联度高的参考标准名称,还能够避免因语义相似度计算准确度低导致筛选出的参考标准名称的准确度低的问题,从而提高针对不规范名称进行标准名称匹配的效率和匹配准确度,并且还可以根据该参考标准名称对第一非标准名称进行名称纠正,也可以根据该参考标准名称与第一非标准名称的关联程度,决定是否将输入不规范名的用户确定为目标服务用户。
进一步的,在针对第一非标准名称确定出参考标准名称之后,可以基于该参考标准名称进行相应的业务处理,例如,基于该参考标准名称对第一非标准名称进行名词纠正,参考标准名称用于对上述第一非标准名称进行名称纠正,即某一参考标准名称可能就是目标对象的标准化且规范化的全称,可以自动基于多个目标简化标准名称中与第二非标准名称的语义相似度最大的目标简化标准名称对应的未简化标准名称,对第一非标准名称进行名称纠正;也可以在用户终端展示确定出的至少一个参考标准名称,基于用户输入信息,确定哪个参考标准名称用于对第一非标准名称进行名称纠正,从而实现在用户输入不规范名称时,根据该参考标准名称进行名称纠正;又如,基于该参考标准名称确定输入第一非标准名称的目标用户是否为目标服务用户,其中,可以自动基于至少一个目标简化标准名称与第二非标准名称的语义相似度的最大值,确定输入第一非标准名称的目标用户是否为目标服务用户(如语义相似度最大值大于一定阈值);也可以在用户终端展示确定出的至少一个参考标准名称,基于用户输入信息,确定输入第一非标准名称的目标用户是否为目标服务用户,从而实现在用户输入不规范名称时,根据该参考标准名称从众多用户中筛选出目标服务用户。
考虑到在实际应用过程中,可能需要在可视化界面上显示匹配出的目标简化标准名称对应的未简化标准名称(即用户输入的不规范名称的至少一个参考标准名称),以便目标用户或者名称核实人员对标准名称匹配结果进行确认,因此,在确定出目标简化标准名称之后,可以直接输出目标简化标准名称对应的未简化标准名称(即将简化后的目标简化标准名称映射回简化前的未简化标准名称);然而,在具体实施时,为了便于目标用户或者名称检查人员快速定位最可能是第一非标准名称的标准化且规范化全称的标准名称,因此,可以再基于各目标简化标准名称与第二非标准名称之间的语义相似度,按照由大到小的顺序按序输出目标简化标准名称对应的未简化标准名称。
具体的,仍以第一非标准名称为目标用户的任职公司名称为例,基于上述两次召回(即基于地名字段的匹配召回方式和基于字符串的匹配召回方式)已经能够匹配出与用户输入的第一非标准公司名称关联度比较高的标准公司名称(如预存的优质企业名称);然后,再引入语义相似度匹配的过程,能够进一步对召回的目标优质企业名称进行排序,在可视化界面上优先显示与用户输入的任职公司名称最相关的优质企业名称。
其中,针对第一非标准名称包含指定字段的情况,上述待简化标准名称集即为预设标准名称集中部分标准名称形成的集合,其中,预设标准名称集可以包括第一标准名称和第二标准名称,所述第一标准名称不包含所述指定字段;所述第二标准名称包含所述指定字段;
具体的,上述预设标准名称集中满足第一约束条件的标准名称可以包括至少一个第一标准名称和至少一个第二标准名称;
对应的,所述第二标准名称中所述指定字段的第一赋值与所述第一非标准名称中所述指定字段的第二赋值相同,且所述第一赋值与所述第二赋值的所属级别相同;或者,所述第一赋值与所述第二赋值的所属级别不相同。具体的,所述指定字段的第一赋值可以是第二标准名称中所述指定字段的取值,例如,指定字段为地名字段,若第二标准名称中所述指定字段的取值为北京市,则第一赋值为北京市;所述指定字段的第二赋值可以是第一非标准名称中所述指定字段的取值,例如,指定字段为地名字段,若第一非标准名称中所述指定字段的取值为河北省,则第二赋值为河北省。
也就是说,如果未简化标准名称中不包含指定字段(第一标准名称),则可以直接将第一标准名称作为满足第一约束条件的标准名称;若如果未简化标准名称中包含指定字段(第二标准名称),则需要基于第二标准名称中指定字段的第一赋值和第一非标准名称中指定字段的第二赋值之间的关系,来确定第二标准名称是否为满足第一约束条件的标准名称。
在具体实施时,针对第一非标准名称中包括指定字段,基于指定字段从预设标准名称集中召回与第一非标准名称匹配的未简化标准名称的过程,可以包括:
步骤一,将预设标准名称集中不包含指定字段的标准名称(即上述第一标准名称)确定为满足第一约束条件的标准名称;
具体的,针对未简化标准名称中不包含指定字段的情况,考虑到未简化标准名称可能为第一非标准名称的标准化且规范化的全称,因此,可以将此类未简化标准名称作为召回对象,进一步参与后续的基于字符串匹配召回来决定是否将该未简化标准名称作为目标简化标准名称;
具体的,仍以第一非标准名称为目标用户的任职公司名称为例,对应的,上述指定字段可以是前缀地名字段,若未简化标准名称中的前缀字段不为地名字段,则直接召回。
步骤二,针对每个包含指定字段的未简化标准名称(即上述第二标准名称),将第二标准名称和第一非标准名称确定为第一待匹配名称组合;
具体的,针对未简化标准名称中包含指定字段的情况,可以将任一个未简化标准名称与第一非标准名称进行组合,得到一个第一待匹配名称组合,再针对每个第一待匹配名称组合执行下述基于指定字段进行标准名称召回的操作;
步骤三,针对每个第一匹配名称组合,根据第一待匹配名称组合对应的第一赋值、第二赋值、以及第一赋值与第二赋值的所属级别关系,确定第一待匹配名称组合中的第二标准名称的第一匹配结果;其中,第一匹配结果包括表征第二标准名称是否满足第一约束条件;
其中,第一待匹配名称组合对应的第一赋值即为第一待匹配名称组合中的第二标准名称中指定字段的取值,第一待匹配名称组合对应的第二赋值即为第一待匹配名称组合中的第一非标准名称中指定字段的取值;
具体的,考虑到可以基于第二标准名称中指定字段的第一赋值和第一非标准名称中指定字段的第二赋值之间的级别是否相同和/或赋值是否相同,初步识别第二标准名称是否可能为第一非标准名称的标准化且规范化的全称,进而决定第二标准名称是否作为召回对象(即基于指定字段进行标准名称召回的操作),即是否参与后续的基于字符串匹配召回的过程;
具体的,仍以第一非标准名称为目标用户的任职公司名称为例,对应的,上述指定字段可以是前缀地名字段,若第二标准名称中的前缀字段为地名字段,则基于第二标准名称中的前缀地名字段的第一赋值和第一非标准名称中的前缀地名字段的第二赋值,来决定第二标准名称是否作为召回对象;例如,若第二标准名称中的第一前缀地名与第一非标准名称中的第二前缀地名属于同一级别(如直辖市)且第一前缀地名与第二前缀地名相同(如北京市),因此,确定第二标准名称满足第一约束条件,即可以将第二标准名称作为召回对象;又如,若第二标准名称中的第一前缀地名与第一非标准名称中的第二前缀地名属于不同级别(如一个为省级地名,另一个为省级地名下属的市级地名)且第一前缀地名与第二前缀地名不相同(如省级地名为山东省,市级地名为郑州市),因此,确定第二标准名称满足第一约束条件,即可以将第二标准名称作为召回对象。
步骤四,基于第一标准名称和各第二标准名称对应的第一匹配结果,确定预设标准名称集中满足第一约束条件的标准名称,得到待简化标准名称集。
具体的,针对每个第一待匹配名称组合执行上述指定字段匹配召回之后,即可确定预设标准名称集中哪些未简化标准名称满足第一约束条件,即将此类未简化标准名称作为召回对象,添加至待简化标准名称集,哪些未简化标准名称不满足第一约束条件,即此类未简化标准名称不作为召回对象,直接丢弃。
也就是说,针对第一非标准名称包含指定字段的情况,可以从包含X个未简化标准名称的预设标准名称集中初步筛选出在指定字段上与第一非标准名称(如用户输入的任职公司名称)具有一定关联性的未简化标准名称(如预存的优质企业名称),得到包含P个标准名称的待简化标准名称集。
具体的,针对基于指定字段的第一赋值和第二赋值判断第二标准名称是否作为初步召回对象的过程,上述步骤三,针对每个第一匹配名称组合,根据第一待匹配名称组合对应的第一赋值、第二赋值、以及第一赋值与第二赋值的所属级别关系,确定第一待匹配名称组合中的第二标准名称的第一匹配结果,具体包括:
(1)若第一待匹配名称组合对应的第一赋值和第二赋值的所属级别相同且第一赋值与第二赋值相同,则确定第一待匹配名称组合中第二标准名称的第一匹配结果为第二标准名称满足第一约束条件;
例如,仍以第一非标准名称为目标用户输入的任职公司名称,若第二标准名称中的第一前缀地名与第一非标准名称中的第二前缀地名属于同一级别(如直辖市)且第一前缀地名与第二前缀地名相同(如北京市),因此,确定第二标准名称满足第一约束条件,即可以将第二标准名称作为召回对象。
(2)若第一待匹配名称组合对应的第一赋值和第二赋值的所属级别相同且第一赋值与第二赋值不相同,则确定第一待匹配名称组合中第二标准名称的第一匹配结果为第二标准名称不满足第一约束条件;
例如,仍以第一非标准名称为目标用户输入的任职公司名称,若第二标准名称中的第一前缀地名与第一非标准名称中的第二前缀地名属于同一级别(如省级地名)且第一前缀地名与第二前缀地名不相同(如山东省、浙江省),因此,考虑到这两个名称之间表征同一公司的可能性比较小,即属于无关联的两个公司名称,因此,确定第二标准名称不满足第一约束条件,即第二标准名称不作为召回对象。
(3)若第一待匹配名称组合对应的第一赋值和第二赋值的所属级别不相同,则确定第一待匹配名称组合中第二标准名称的第一匹配结果为第二标准名称满足第一约束条件。
例如,仍以第一非标准名称为目标用户输入的任职公司名称,若第二标准名称中的第一前缀地名与第一非标准名称中的第二前缀地名属于不同级别(如一个为省级地名,另一个为省级地名下属的市级地名)且第一前缀地名与第二前缀地名不相同(如省级地名为山东省,市级地名为郑州市),因此,确定第二标准名称满足第一约束条件,即可以将第二标准名称作为召回对象;
在具体实施时,针对第一赋值与第二赋值的所属级别不相同且取值不相同的情况,可以是不对第一赋值与第二赋值的归属关系进行限制,例如,第一前缀地名为省级地名,第二前缀地名为市级地名,则即使市级地名不归属于省级地名(如省级地名为山东省,市级地名为郑州市),也认为第二标准名称满足第一约束条件,即放宽初步召回约束条件,尽可能多地召回一些可能具有一定关联的未简化标准名称,参与后续的基于字符串匹配召回的过程,防止因目标用户地名输入错误导致漏召回的情况;另外,为了提高初步召回准确度,也可以进一步限定第一赋值与第二赋值为归属关系,例如,第一前缀地名为省级地名,第二前缀地名为市级地名,则只有市级地名归属于省级地名(如省级地名为山东省,市级地名为济南市),才认为第二标准名称满足第一约束条件。具体参与哪种实现方式可以根据实际需求进行设定,在此不做限定。
其中,针对目标简化标准名称的确定过程,优选地,基于预设字符串匹配方法在P个简化标准名称中筛选出Y个目标简化标准名称,因此,上述S106,确定上述简化标准名称集中与第二非标准名称相匹配的目标简化标准名称,具体包括:
基于预设字符串匹配方法,确定上述简化标准名称集中与第二非标准名称相匹配的目标简化标准名称。
进一步的,为了提高基于字符串匹配进行标准名称召回的召回效率,其中,上述预设字符串匹配方法可以包括暴力字符串匹配方法和字符串模糊匹配方法;
对应的,上述基于预设字符串匹配方法,确定上述简化标准名称集中与第二非标准名称相匹配的目标简化标准名称,具体包括:
步骤一,基于暴力字符串匹配方法,确定简化标准名称集中满足第二约束条件的简化标准名称;其中,第二约束条件包括简化标准名称与第二非标准名称之间属于包含关系;
步骤二,基于字符串模糊匹配方法,确定简化标准名称子集中满足第三约束条件的简化标准名称;其中,简化标准名称子集包括不满足第二约束条件的简化标准名称;其中,第三约束条件包括简化标准名称与第二非标准名称之间的差异程度小于第一预设阈值;即针对基于暴力字符串匹配方法筛除的第二标准名称形成的集合进行字符串模糊匹配,筛选出满足第三约束条件的简化标准名称;
步骤三,将满足所述第二约束条件的简化标准名称、以及不满足所述第二约束条件且满足所述第三约束条件的简化标准名称,确定为所述第二非标准名称相匹配的目标简化标准名称。
在具体实施时,可以针对每个简化标准名称,将所述简化标准名称和第二非标准名称确定为第二待匹配名称组合;
具体的,可以将任一个简化标准名称与第二非标准名称进行组合,得到一个第二待匹配名称组合,再针对每个第二待匹配名称组合执行下述基于字符串匹配进行标准名称召回的操作;
首先,基于暴力字符串匹配方法,确定简化标准名称集中满足第二约束条件的简化标准名称;其中,第二约束条件包括第二待匹配名称组合中的简化标准名称与第二非标准名称之间属于包含关系,即第二待匹配名称组合中的简化标准名称属于第二非标准名称(即第二非标准名称包含简化标准名称)、或者第二非标准名称属于简化标准名称(即简化标准名称包含第二非标准名称);
具体的,基于暴力字符串匹配方法,判断第二待匹配名称组合中的简化标准名称与第二非标准名称之间是否属于包含关系,来决定简化标准名称是否作为召回对象(即基于字符串匹配进行标准名称召回的操作),即将简化标准名称和第二非标准名称分别作为一个字符串,对两个字符串进行整体对比,判断一个字符串是否属于另一个字符串;另外,针对不满足第二约束条件的简化标准名称并不是直接丢弃,而是针对不满足第二约束条件的简化标准名称基于字符串模糊匹配方法进行标准名称召回的操作。
也就是说,基于暴力字符串匹配方法,将P个简化标准名称划分为简化名称子集1和简化名称子集2;其中,简化名称子集1包括满足第二约束条件的y1个简化标准名称,简化名称子集2包括不满足第二约束条件的r个简化标准名称,将y1个简化标准名称确定为目标简化标准名称;针对r个简化标准名称,再基于字符串模糊匹配方法从中选取目标简化标准名称,即针对简化名称子集2继续执行字符串模糊匹配,确定目标召回对象。
然后,基于字符串模糊匹配方法,在不满足第二约束条件的简化标准名称(即简化名称子集2)中确定满足第三约束条件的简化标准名称;其中,第三约束条件包括第二待匹配名称组合中的简化标准名称与第二非标准名称之间的差异程度小于第一预设阈值;
其中,上述字符串模糊匹配方法可以是用于评估两个字符串之间的差异程度的N-Gram算法,上述简化标准名称与第二非标准名称之间的差异程度可以是基于N-Gram算法计算简化标准名称与第二非标准名称之间的距离所确定的,即简化标准名称与第二非标准名称之间的差异程度与简化标准名称与第二非标准名称之间的距离正相关,简化标准名称与第二非标准名称之间的关联程度与简化标准名称与第二非标准名称之间的距离负相关,即简化标准名称与第二非标准名称之间的距离越小,差异程度越小,关联程度越大,说明简化标准名称与第二非标准名称表征同一公司的可能性越大,因此,可以针对不满足第二约束条件的简化标准名称,仍以第二待匹配名称组合为最小匹配单元,确定第二待匹配名称组合中的简化标准名称与第二非标准名称之间的差异程度,将差异程度小于第一预设阈值的简化标准名称作为目标简化标准名称。
需要说明的是,简化标准名称与第二非标准名称之间的距离确定过程可以参见现有的N-Gram算法中针对两个字符串之间的距离计算的具体实现过程,在此不再赘述。
最后,将满足第二约束条件的简化标准名称、以及不满足第二约束条件且满足第三约束条件的简化标准名称,确定为第二非标准名称相匹配的目标简化标准名称。
具体的,利用暴力字符串匹配方法,从简化标准名称集中筛选出满足第二约束条件的简化标准名称作为目标简化标准名称,以及利用字符串模糊匹配方法,从不满足第二约束条件的简化标准名称中筛选出满足第三约束条件的简化标准名称作为目标简化标准名称。
也就是说,在基于指定字段执行标准名称初步召回、以及名称简化处理之后,再基于字符串匹配执行标准名称二次召回,即从简化标准名称集中继续召回与第二非标准名称在字符串上具有一定关联性的简化标准名称,具体的,先使用暴力字符串匹配方法,召回与第二非标准名称具有包含或者被包含关系的简化标准名称;然后,再基于字符串模糊匹配方法,从暴力字符串匹配丢弃的简化标准名称中召回与第二非标准名称之间的差异程度小于第一预设阈值的简化标准名称,即先采用暴力匹配这种以简化后名称中整体字符串为一个匹配单元进行匹配的方式,再采用模糊匹配这种以简化后名称中一定数量的子字符串为最小匹配单元进行匹配的方式,从P个简化标准名称中召回与第二非标准名称匹配的Y个简化标准名称(即目标简化标准名称)。
进一步地,为了提高基于字符串模糊匹配方法进行标准名称召回的召回准确度,其中,针对利用字符串模糊匹配方法,从不满足第二约束条件的简化标准名称中筛选出满足第三约束条件的目标简化标准名称的过程,可以参考每个待匹配名称组合中的最短字符串长度,有针对性地选择对应的字符串模糊匹配方法,具体的,上述字符串模糊匹配方法可以包括第一字符串匹配方法和第二字符串匹配方法,第一字符串匹配方法对应的第一字符匹配步长小于第二字符串匹配方法对应的第二字符匹配步长;即第一字符串匹配方法对应的字符匹配步长为第一数值,第二字符串匹配方法对应的字符匹配步长为第二数值,第一数值小于第二数值;
对应的,上述步骤二,基于字符串模糊匹配方法,确定简化标准名称子集中满足第三约束条件的简化标准名称,具体包括:
基于第一字符串匹配方法,确定简化标准名称子集包括的第一类简化标准名称中满足第三约束条件的简化标准名称;其中,所述第一类简化标准名称与第二非标准名称之间的最短字符串长度小于第二预设阈值;
基于第二字符串匹配方法,确定简化标准名称子集包括的第二类简化标准名称中满足第三约束条件的简化标准名称;其中,所述第二类简化标准名称与第二非标准名称之间的最短字符串长度大于或等于第二预设阈值。
在具体实施时,针对每个不满足第二约束条件的简化标准名称(即简化名称子集2)进行字符串模糊匹配的过程,可以具体包括:
(1)针对每个不满足第二约束条件的简化标准名称,将简化标准名称和上述第二非标准名称确定为第三待匹配名称组合;
具体的,可以将任一个不满足第二约束条件的简化标准名称与第二非标准名称进行组合,得到一个第三待匹配名称组合,再针对每个第三待匹配名称组合执行下述基于字符串模糊匹配进行标准名称召回的操作。
(2)若第三待匹配名称组合中最短字符串长度小于第二预设阈值,则基于第一字符串匹配方法,确定简化标准名称的第二匹配结果;其中,第二匹配结果包括表征简化标准名称是否满足第三约束条件;
具体的,上述第一字符串匹配方法可以为One-Gram算法,对应的,字符匹配步进为1,即针对最短字符串长度小于第二预设阈值的第三待匹配名称组合,基于One-Gram算法,对所述第三待匹配名称组合中的简化标准名称和第二非标准名称进行字符串匹配,判断简化标准名称和第二非标准名称之间的差异程度满足第三约束条件。
(3)若第三待匹配名称组合中最短字符串长度大于或等于第二预设阈值,则基于第二字符串匹配方法,确定简化标准名称的第二匹配结果;
其中,第二字符串匹配方法可以为Two-Gram算法,对应的,字符匹配步进为2,即针对最短字符串长度大于或等于第二预设阈值的第三待匹配名称组合,基于Two-Gram算法,对所述第三待匹配名称组合中的简化标准名称和第二非标准名称进行字符串匹配,判断简化标准名称和第二非标准名称之间的差异程度满足第三约束条件。
也就是说,针对基于字符串模糊匹配方法进行标准名称召回的过程,考虑简化标准名称与第二非标准名称中最短字符串长度,来决定使用哪种匹配方式,例如,针对最短字符串长度比较小的情况,使用One-Gram字符串匹配方法(即第一字符串匹配方法),即N-Gram检测筛选方法中的N=1,每次将一个字符作为比对单元(即字符匹配步长为1);针对最短字符串长度比较大的情况,使用Two-Gram字符串匹配方法(即第二字符串匹配方法),即N-Gram检测筛选方法中的N=2,每次将两个字符作为比对单元(即字符匹配步长为2)。
(4)基于各不满足第二约束条件的简化标准名称对应的第二匹配结果,确定满足第三约束条件的简化标准名称。
在具体实施时,在基于字符串模糊匹配方法进行标准名称召回的过程中,可以先基于第三待匹配名称组合对应的最短字符串长度(即第三待匹配名称组合中的简化标准名称和第二非标准名称中字数最少的名称的长度)与第二预设阈值的大小关系,将不满足第二约束条件的r个简化标准名称(即简化名称子集2)划分为简化名称子集21和简化名称子集22;其中,简化名称子集21包括:对应的最短字符串长度小于第二预设阈值的r1个简化标准名称,简化名称子集22包括:对应的最短字符串长度大于或等于第二预设阈值的r2个简化标准名称;然后,针对r1个简化标准名称,基于第一字符串匹配方法,对包含所述简化标准名称的第三待匹配名称组合进行字符串匹配,筛选出满足第三约束条件的y2个简化标准名称;针对r2个简化标准名称,基于第二字符串匹配方法,对包含所述简化标准名称的第三待匹配名称组合进行字符串匹配,筛选出满足第三约束条件的y3个简化标准名称。
也就是说,基于暴力字符串匹配方法,从P个简化标准名称中选出满足第二约束条件的y1个简化标准名称,再基于字符串模糊匹配方法,从不满足第二约束条件的r个简化标准名称中筛选出满足第三约束条件的(y2+y3)个简化标准名称,即最终筛选出的目标简化标准名称的数量为Y=y1+y2+y3。
另外,在具体实施时,也可以将Two-Gram(即N=2,字符匹配步长为2)作为第一字符串匹配方法,将Tri-Gram作为第二字符串匹配方法(即N=3,字符匹配步长为3),具体将哪种N-Gram算法作为第一字符串匹配方法和第二字符串匹配方法可以根据实际需求进行设置,即N-Gram算法中的N的取值可以根据简化标准名称和第二非标准名称包含的字符长度分布来决定。
也就是说,经过上述步骤S106即可从P个简化标准名称中进一步筛选出在字符串匹配上与第二非标准名称(如简化后的任职公司名称)具有一定关联性的简化标准名称(如简化后的优质企业名称),得到Y个简化标准名称(即目标简化标准名称);其中,需要说明的是,Y可以等于零,当Y=0时,说明在预设标准名称集中不存在第一非标准名称对应的真实的标准化且规范化的全称,进而说明目标用户可以不作为重点关注人群,即不会将目标用户纳入目标人群,从而实现从众多用户中筛选出需要重点关注的目标人群。
在一个具体的实施例中,以第一非标准名称中包含指定字段且指定字段为地名字段为例,如图2所示,给出了确定目标简化标准名称的具体实现过程,具体包括:
(1)获取目标用户输入的第一非标准名称和预设标准名称集;其中,预设标准名称集包括X个未简化标准名称;
(2)将上述X个未简化标准名称中不包含指定字段的未简化标准名称确定为满足第一约束条件的未简化标准名称,即添加至待简化标准名称集;
(3)针对每个包含指定字段的未简化标准名称,将未简化标准名称和第一非标准名称确定为第一待匹配名称组合;根据第一待匹配名称组合对应的第一赋值、第二赋值、以及第一赋值与第二赋值的所属级别关系,确定未简化标准名称是否满足第一约束条件,将满足第一约束条件的未简化标准名称添加至待简化标准名称集;其中,经过上述(2)和(3)得到的待简化标准名称集包括P个未简化标准名称;P、X均为大于2的整数且P≤X;
(4)对上述第一非标准名称中的地名字段和通用后缀字段进行删除,得到第二非标准名称;以及对上述P个未简化标准名称中的地名字段和通用后缀字段进行删除,得到P个简化标准名称;
(5)基于暴力字符串匹配方法,在P个简化标准名称中确定满足第二约束条件的y1个简化标准名称(即暴力匹配成功的简化标准名称);对应的,在P个简化标准名称中不满足第二约束条件的简化标准名称(即暴力匹配失败简化标准名称)的数量为r,P=y1+r,y1为大于等于零的整数,r为大于等于1的整数;
(6)针对不满足第二约束条件的r个简化标准名称,将r个简化标准名称和上述第二非标准名称确定为r个待匹配名称组合,即一个简化标准名称对应于待匹配名称集合;
(7)基于待匹配名称组合对应的最短字符串长度与第二预设阈值的大小关系,将不满足第二约束条件的r个简化标准名称(即上述简化名称子集2)划分为简化名称子集21和简化名称子集22;
其中,简化名称子集21包括:对应的最短字符串长度小于第二预设阈值的r1个简化标准名称,简化名称子集22包括:对应的最短字符串长度大于或等于第二预设阈值的r2个简化标准名称,r=r1+r2,r1和r2为大于等于零的整数;
(8)针对r1个简化标准名称,基于第一字符串匹配方法,对包含所述简化标准名称的待匹配名称组合进行字符串匹配,筛选出满足第三约束条件的y2个简化标准名称(即模糊匹配成功的简化标准名称);
(9)针对r2个简化标准名称,基于第二字符串匹配方法,对包含所述简化标准名称的待匹配名称组合进行字符串匹配,筛选出满足第三约束条件的y3个简化标准名称(即模糊匹配成功的简化标准名称);
(10)将上述满足第二约束条件的y1个简化标准名称、满足第三约束条件的y2个简化标准名称、满足第三约束条件的y3个简化标准名称,确定为目标简化标准名称,即目标简化标准名称的数量Y=y1+y2+y3。
进一步的,在基于预设标准名称集,筛选出多个目标简化标准名称之后,可以直接输出多个目标简化标准名称对应的未简化标准名称,也可以先计算各目标简化标准名称与第二非标准名称之间的语义相似度,再基于语义相似度生成相应的标准名称匹配结果,其中,该标准名称匹配结果可以包括:基于语义相似度排序后的多个目标简化标准名称对应的未简化标准名称;并且,由于基于上述步骤S106筛选出的目标简化标准名称与第二非标准名称至少包含一个共有子字符串,再计算目标简化标准名称与第二非标准名称之间的语义相似度,也能够在一定程度上降低因个别词不相同但语义相同而导致初始的语义相似度虚高的问题,基于此,在上述S106,确定上述简化标准名称集中与第二非标准名称相匹配的目标简化标准名称之后,还包括:
步骤一,确定每个目标简化标准名称与上述第二非标准名称之间的语义相似度;
步骤二,基于各目标简化标准名称的语义相似度,生成第一非标准名称的标准名称匹配结果。
具体的,可以直接将语义相似度和目标简化标准名称对应的未简化标准名称的对应关系作为第一非标准名称的标准名称匹配结果,也可以先基于语义相似度对目标简化标准名称进行排序,再将排序后的目标简化标准名称对应的未简化标准名称和语义相似度的对应关系作为第一非标准名称的标准名称匹配结果。
其中,上述步骤二,基于各目标简化标准名称的语义相似度,生成第一非标准名称的标准名称匹配结果,具体包括:
基于各目标简化标准名称的语义相似度,确定目标简化标准名称对应的未简化标准名称的排序结果;
基于各未简化标准名称的排序结果,确定第一非标准名称的标准名称匹配结果。
具体的,按照语义相似度由大到小的顺序对多个目标简化标准名称进行排序,针对标准名称匹配结果的生成过程,标准名称匹配结果可以包括语义相似度排序靠前的预设数量的目标简化标准名称对应的未简化标准名称,标准名称匹配结果可以包括排序后的所有目标简化标准名称对应的未简化标准名称,还可以仅包括语义相似度最大的目标简化标准名称对应的未简化标准名称,具体采用哪种方式可以根据实际需求进行设置。
在具体实施时,可以直接将语义相似度最大的目标简化标准名称对应的未简化标准名称确定为第一非标准名称的标准化且规范化全称,还可以将标准名称匹配结果发送至目标用户或者名称核实人员对应的终端设备,在终端设备的可视化界面上显示基于语义相似度排序后的目标简化标准名称对应的未简化标准名称,以便名称核实人员对标准名称匹配结果进行确认。
进一步的,针对目标简化标准名称的语义相似度的确定过程,考虑到也可能因目标简化标准名称与第二非标准名称中的个别词不相同但语义相同,而导致利用预设语义相似度算法得到的语义相似度会比较大,进而导致目标简化标准名称对应的未简化标准名称的排序结果的准确度低,即针对语义相似度的计算过程并非将利用预设语义相似度算法,计算得到的初始的语义相似度作为最终的语义相似度,而是基于目标简化标准名称与第二非标准名称之间的字符串匹配结果,对初始的语义相似度进行修正,增大与第二非标准名称相关程度大的目标简化标准名称的最终的语义相似度,即进一步解决因目标简化标准名称与第二非标准名称中的个别词不相同但语义相同导致初始的语义相似度虚高的问题,基于此,上述步骤一,确定每个目标简化标准名称与上述第二非标准名称之间的语义相似度,具体包括:
(1)利用预设语义相似度算法,确定目标简化标准名称与上述第二非标准名称之间的初始相似度;
具体的,可以利用现有的设语义相似度算法,计算目标简化标准名称与第二非标准名称这两个字符串之间的语义相似度即为初始相似度;
(2)基于目标简化标准名称对应的初始相似度、以及目标简化标准名称与第二非标准名称之间的字符串匹配结果,确定目标简化标准名称与所述第二非标准名称之间的语义相似度;
其中,上述字符串匹配结果包括表征目标简化标准名称与第二非标准名称之间是否属于包含关系的匹配结果,即字符串匹配结果是基于上述暴力字符串匹配方法或者字符串模糊匹配方法,对简化标准名称与第二非标准名称进行字符串匹配得到的;其中,属于包含关系的目标简化标准名称的语义相似度大于目标简化标准名称对应的初始相似度;对应的,不属于包含关系的目标简化标准名称的语义相似度可以等于目标简化标准名称对应的初始相似度。
具体的,可以通过在初始相似度的基础上加上一个预设增益值的方式,来增加与第二非标准名称之间属于包含关系的目标简化标准名称的语义相似度,使得这种与第二非标准名称的字符串匹配程度高的目标简化标准名称对应的未简化标准名称排序更靠前;具体的,上述包括:
(2-1)根据目标简化标准名称与第二非标准名称之间的字符串匹配结果,确定各目标简化标准名称对应的相似度增益值;其中,字符串匹配结果包括表征目标简化标准名称与第二非标准名称之间是否属于包含关系的匹配结果,其中,属于包含关系的目标简化标准名称的第一增益值大于不属于包含关系的目标简化标准名称的第二增益值,例如,第一增益值为预设增益值(大于零的数值),第二增益值为0;
(2-2)对目标简化标准名称对应的相似度增益值与初始相似度求和,得到目标简化标准名称与第二非标准名称之间的语义相似度。
也就是说,针对上述基于暴力字符串匹配方法筛选出的目标简化标准名称,在所述目标简化标准名称的初始相似度的基础上,加上一个预设增益值,即满足第二约束条件的y1个目标简化标准名称的语义相似度等于对应的初始相似度与预设增益值之和,而针对满足第三约束条件的(y2+y3)个目标简化标准名称的语义相似度等于对应的初始相似度;
其中,预设增益值可以取固定值,为了确保预设增益值能够对最终排序结果起到关键作用,预设增益值的大小也可以根据多个目标简化标准名称对应的初始语义相似度的分布范围所确定,例如,将初始语义相似度的分布范围中的最小值确定为预设增益值,又如,将初始语义相似度的分布范围中的均值确定为预设增益值,再如,将初始语义相似度的分布范围中的方差确定为预设增益值,在具体实施时,可以根据实际需求进行设定。
需要说明的是,在具体实施时,上述字符串匹配结果还可以包括:基于字符串模糊匹配方法得到的表征差异程度大小的匹配结果,对应的,针对满足第三约束条件的(y2+y3)个简化标准名称(即目标简化标准名称),可以根据各目标简化标准名称对应的差异程度,确定目标简化标准名称对应的相似度增益值,其中,差异程度越小,对应的相似度增益值越大。
另外,还可以通过增大与第二非标准名称之间属于包含关系的目标简化标准名称的权重系数方式,来增加与第二非标准名称之间属于包含关系的目标简化标准名称的语义相似度,使得这种与第二非标准名称的字符串匹配程度高的目标简化标准名称对应的未简化标准名称排序更靠前,具体包括:
(2-3)根据目标简化标准名称与第二非标准名称之间的字符串匹配结果,确定各目标简化标准名称对应的权重系数;其中,字符串匹配结果包括表征目标简化标准名称与第二非标准名称之间是否属于包含关系的匹配结果,其中,属于包含关系的目标简化标准名称的第一权重值大于不属于包含关系的目标简化标准名称的第二权重值,例如,第一权重值为预设权重值(大于1的数值),第二权重值为1;
也就是说,上述Y个目标简化标准名称中满足第二约束条件的y1个目标简化标准名称的第一权重值大于上述Y个目标简化标准名称中满足第三约束条件的(y2+y3)个目标简化标准名称的第二权重值;
(2-4)基于各目标简化标准名称对应的权重系数,对所述目标简化标准名称对应的初始相似度进行加权处理,得到目标简化标准名称与第二非标准名称之间的语义相似度。
需要说明的是,在具体实施时,上述字符串匹配结果还可以包括:基于字符串模糊匹配方法得到的表征差异程度大小的匹配结果,对应的,针对满足第三约束条件的(y2+y3)个简化标准名称(即目标简化标准名称),可以根据各目标简化标准名称对应的差异程度,确定目标简化标准名称对应的权重系数,其中,差异程度越小,对应的权重系数越大。
在一个具体的实施例中,在上述图2的基础上,在确定出多个目标简化标准名称之后,以Y=3为例,如图3所示,给出了针对目标简化标准名称的按序可视化显示的具体实现过程,具体包括:
(1)针对每个目标简化标准名称,利用预设语义相似度算法,确定目标简化标准名称与上述第二非标准名称之间的初始相似度;
(2)基于目标简化标准名称对应的初始相似度、以及目标简化标准名称与第二非标准名称之间的字符串匹配结果,确定目标简化标准名称与第二非标准名称之间的语义相似度;
(3)按照语义相似度由大到小的顺序,基于目标简化标准名称的语义相似度,对目标简化标准名称进行排序;
(4)基于排序结果,在可视化界面上按序显示第一非标准名称和目标简化标准名称对应的未简化标准名称之间的对应关系,另外还可以同时显示各目标简化标准名称对应的语义相似度、字符串匹配结果等,其中,以目标简化标准名称的数量为3个为例,即目标简化标准名称1、2、3,对应于未简化标准名称1、2、3,且基于语义相似度进行排序得到的排序结果为:目标简化标准名称3、1、2。
另外,在具体实施时,如果识别出的目标简化标准名称数量比较多,还可以输出排序靠前的预设数量的目标简化标准名称对应的未简化标准名称。
进一步的,针对在预设标准名称集中能够匹配出第一非标准名称对应的真实的标准化且规范化的全称的情况,说明目标用户可以作为重点关注人群,即将目标用户纳入目标人群,具体的,在上述步骤二,基于各目标简化标准名称的语义相似度,生成第一非标准名称的标准名称匹配结果之后,还包括:
若上述目标简化标准名称对应的语义相似度中的最大值大于第三预设阈值,则将输入上述第一非标准名称的目标用户确定为目标服务人群。
具体的,针对基于X个未简化标准名称确定出Y个目标简化标准名称的情况,如果Y个目标简化标准名称的对应的Y个语义相似度中的最大值大于第三预设阈值,则说明在预设标准名称集中能够匹配出第一非标准名称对应的真实的标准化且规范化的全称,进而可以将输入上述第一非标准名称的目标用户纳入目标人群,进而为目标人群提供更加优质的服务。
例如,上述第一非标准名称为目标用户输入的任职公司名称,对应的,上述预设标准名称集包括预存的多个优质企业名称,如果Y个目标简化标准名称的对应的Y个语义相似度中的最大值大于第三预设阈值,则说明在多个优质企业名称中能够匹配出目标用户输入的任职公司名称对应的真实的标准化且规范化的公司全称,即自动识别出目标用户属于预设的优质企业的员工,因此,将目标用户纳入目标人群,进而为目标人群提供更加优质的服务。
进一步的,针对第一非标准名称的获取过程,如图4所示,上述S202,获取目标对象的第一非标准名称,具体包括:
S2022,获取目标用户在申请线上业务办理时输入的业务申请相关信息;其中,业务申请相关信息包括目标用户的任职公司名称;
S2024,将目标用户输入的任职公司名称确定为目标对象的第一非标准名称;对应的,上述预设标准名称集可以包括目标服务企业名称库中的多个企业注册名称。
具体的,针对预设标准名称集的确定过程,可以将预设目标服务企业名称库中的多个企业注册名称确定为预设标准名称集;其中,预设目标服务企业名称库中可以包括预设的多个优质企业名称。
具体的,考虑到目标用户输入的任职公司名称可能是不规范的、不标准的,因此可以通过本申请提供的名称处理方法对到目标用户输入的任职公司名称进行标准名称匹配,即自动识别目标用户输入的任职公司名称是否与目标服务企业名称库中的某一企业注册名称为同一公司,即说明目标用户属于预设的优质企业的员工,因此,将目标用户纳入目标人群,进而为目标人群提供更加优质的服务。
在一个具体的实施例中,在上述图2和图3的基础上,如图5所示,第一非标准名称为目标用户输入的任职企业名称,未简化标准名称为预存的优质企业名称,且目标用户的任职企业名称中的前缀字段为地名字段为例,给出了名称处理的具体实现过程,具体包括:
(1)获取目标用户在申请线上业务办理时输入的业务申请相关信息;以及获取预设目标服务企业名称库中的多个优质企业注册名称(即未简化标准名称);
(2)在业务申请相关信息中提取目标用户的任职公司名称(即第一非标准名称);
(3)基于地名字段,在多个优质企业注册名称中确定满足第一约束条件的优质企业注册名称,得到待简化标准名称集;
(4)对上述任职公司名称进行简化处理,得到第二非标准名称;以及对上述待简化标准名称集中的各优质企业注册名称进行简化处理,得到简化标准名称集;
(5)基于预设字符串匹配方法,确定上述简化标准名称集中与上述第二非标准名称相匹配的目标简化标准名称;
需要说明的是,目标简化标准名称的确定过程可以参照上述图2中所示的具体实现过程,在此不再赘述。
(6)针对每个目标简化标准名称,确定目标简化标准名称与上述第二非标准名称之间的语义相似度;其中,仍以目标简化标准名称的数量为3为例;
(7)若目标简化标准名称对应的语义相似度的最大值大于第三预设阈值(即语义相似度2大于第三预设阈值),则将目标用户添加至目标人群的名单,并向目标人群发送目标推送信息;其中,语义相似度的最大值大于第三预设阈值则说明预存的多个优质企业注册名称中包含目标用户的任职企业名称对应的优质企业注册名称;
其中,目标推送消息可以包括:与目标用户申请的线上业务有关的推送消息,还可以是与目标用户申请的线上业务无关且与用户工作性质有关的推送消息,例如,用户工作性质有关的文章信息、应用程序、增值服务信息中至少一项;另外,针对目标人群的业务咨询请求,还可以为其匹配服务等级更高的坐席人员,从而实现为目标人群提供更加优质的服务。
本申请实施例中的名称处理方法,通过先对第一非标准名称和待简化标准名称集(即P个未简化标准名称)进行简化处理,得到简化后的第二非标准名称和P个简化标准名称,其中,待简化标准名称集中包括哪些标准名称基于第一非标准名称中是否包含指定字段确定的,即以预设标准名称集包括X个未简化标准名称为例,若第一非标准名称中不包含指定字段,则待简化标准名称集即为预设标准名称集(即P个未简化标准名称即为X个未简化标准名称,P=X),若第一非标准名称中包含指定字段,则P个未简化标准名称即为预设标准名称集中满足第一约束条件的标准名称(即基于指定字段匹配方式,从X个未简化标准名称中召回与第一非标准名称匹配的P个未简化标准名称,P<X),然后,再从P个简化标准名称中召回与第二非标准名称匹配的Y个简化标准名称(即目标简化标准名称),由于通过依次对第一非标准名称和未简化标准名称进行多级处理,最终从预设标准名称集中召回第一非标准名称的参考标准名称,进而可根据该参考标准名称确定目标对象的标准化且规范化的全称,以使得在用户输入不规范的名称(即第一非标准名称)时,从预设标准名称集中自动匹配该不规范的名称对应的参考标准名称(即目标简化标准名称对应的未简化标准名称),这样不仅能够实现自动筛选出与第一非标准名称关联度高的参考标准名称,还能够避免因语义相似度计算准确度低导致筛选出的参考标准名称的准确度低的问题,从而提高针对不规范名称进行标准名称匹配的效率和匹配准确度,并且还可以根据该参考标准名称对第一非标准名称进行名称纠正,也可以根据该参考标准名称与第一非标准名称的关联程度,决定是否将输入不规范名的用户确定为目标服务用户。
对应上述图1至图5描述的名称处理方法,基于相同的技术构思,本申请实施例还提供了一种名称处理装置,图6为本申请实施例提供的名称处理装置的模块组成示意图,该装置用于执行图1至图5描述的名称处理方法,如图6所示,该装置包括:
名称获取模块602,被配置为获取目标对象的第一非标准名称;
名称简化模块604,被配置为对所述第一非标准名称进行简化处理,得到第二非标准名称;以及对待简化标准名称集中包括的标准名称进行简化处理,得到简化标准名称集;其中,若所述第一非标准名称中不包括指定字段,则所述待简化标准名称集为预设标准名称集;若所述第一非标准名称中包括所述指定字段,则所述待简化标准名称集为所述预设标准名称集中满足第一约束条件的标准名称形成的集合;
名称确定模块606,被配置为确定所述简化标准名称集中与所述第二非标准名称相匹配的目标简化标准名称;所述目标简化标准名称对应的未简化标准名称用于作为所述第一非标准名称的参考标准名称。
本申请实施例中的名称处理装置,通过先对第一非标准名称和待简化标准名称集(即P个未简化标准名称)进行简化处理,得到简化后的第二非标准名称和P个简化标准名称,其中,待简化标准名称集中包括哪些标准名称基于第一非标准名称中是否包含指定字段确定的,即以预设标准名称集包括X个未简化标准名称为例,若第一非标准名称中不包含指定字段,则待简化标准名称集即为预设标准名称集(即P个未简化标准名称即为X个未简化标准名称,P=X),若第一非标准名称中包含指定字段,则P个未简化标准名称即为预设标准名称集中满足第一约束条件的标准名称(即基于指定字段匹配方式,从X个未简化标准名称中召回与第一非标准名称匹配的P个未简化标准名称,P<X),然后,再从P个简化标准名称中召回与第二非标准名称匹配的Y个简化标准名称(即目标简化标准名称),由于通过依次对第一非标准名称和未简化标准名称进行多级处理,最终从预设标准名称集中召回第一非标准名称的参考标准名称,进而可根据该参考标准名称确定目标对象的标准化且规范化的全称,以使得在用户输入不规范的名称(即第一非标准名称)时,从预设标准名称集中自动匹配该不规范的名称对应的参考标准名称(即目标简化标准名称对应的未简化标准名称),这样不仅能够实现自动筛选出与第一非标准名称关联度高的参考标准名称,还能够避免因语义相似度计算准确度低导致筛选出的参考标准名称的准确度低的问题,从而提高针对不规范名称进行标准名称匹配的效率和匹配准确度,并且还可以根据该参考标准名称对第一非标准名称进行名称纠正,也可以根据该参考标准名称与第一非标准名称的关联程度,决定是否将输入不规范名的用户确定为目标服务用户。
需要说明的是,本申请中关于名称处理装置的实施例与本申请中关于名称处理方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的名称处理方法的实施,重复之处不再赘述。
进一步地,对应上述图1至图5所示的方法,基于相同的技术构思,本申请实施例还提供了一种名称处理设备,该设备用于执行上述的名称处理方法,如图7所示。
名称处理设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器701和存储器702,存储器702中可以存储有一个或一个以上存储应用程序或数据。其中,存储器702可以是短暂存储或持久存储。存储在存储器702的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对名称处理设备中的一系列计算机可执行指令。更进一步地,处理器701可以设置为与存储器702通信,在名称处理设备上执行存储器702中的一系列计算机可执行指令。名称处理设备还可以包括一个或一个以上电源703,一个或一个以上有线或无线网络接口704,一个或一个以上输入输出接口705,一个或一个以上键盘706等。
在一个具体的实施例中,名称处理设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对名称处理设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取目标对象的第一非标准名称;
对所述第一非标准名称进行简化处理,得到第二非标准名称;以及对待简化标准名称集中包括的标准名称进行简化处理,得到简化标准名称集;其中,若所述第一非标准名称中不包括指定字段,则所述待简化标准名称集为预设标准名称集;若所述第一非标准名称中包括所述指定字段,则所述待简化标准名称集为所述预设标准名称集中满足第一约束条件的标准名称形成的集合;
确定所述简化标准名称集中与所述第二非标准名称相匹配的目标简化标准名称;所述目标简化标准名称对应的未简化标准名称用于作为所述第一非标准名称的参考标准名称。
本申请实施例中的名称处理设备,通过先对第一非标准名称和待简化标准名称集(即P个未简化标准名称)进行简化处理,得到简化后的第二非标准名称和P个简化标准名称,其中,待简化标准名称集中包括哪些标准名称基于第一非标准名称中是否包含指定字段确定的,即以预设标准名称集包括X个未简化标准名称为例,若第一非标准名称中不包含指定字段,则待简化标准名称集即为预设标准名称集(即P个未简化标准名称即为X个未简化标准名称,P=X),若第一非标准名称中包含指定字段,则P个未简化标准名称即为预设标准名称集中满足第一约束条件的标准名称(即基于指定字段匹配方式,从X个未简化标准名称中召回与第一非标准名称匹配的P个未简化标准名称,P<X),然后,再从P个简化标准名称中召回与第二非标准名称匹配的Y个简化标准名称(即目标简化标准名称),由于通过依次对第一非标准名称和未简化标准名称进行多级处理,最终从预设标准名称集中召回第一非标准名称的参考标准名称,进而可根据该参考标准名称确定目标对象的标准化且规范化的全称,以使得在用户输入不规范的名称(即第一非标准名称)时,从预设标准名称集中自动匹配该不规范的名称对应的参考标准名称(即目标简化标准名称对应的未简化标准名称),这样不仅能够实现自动筛选出与第一非标准名称关联度高的参考标准名称,还能够避免因语义相似度计算准确度低导致筛选出的参考标准名称的准确度低的问题,从而提高针对不规范名称进行标准名称匹配的效率和匹配准确度,并且还可以根据该参考标准名称对第一非标准名称进行名称纠正,也可以根据该参考标准名称与第一非标准名称的关联程度,决定是否将输入不规范名的用户确定为目标服务用户。
需要说明的是,本申请中关于名称处理设备的实施例与本申请中关于名称处理方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的名称处理方法的实施,重复之处不再赘述。
进一步地,对应上述图1至图5所示的方法,基于相同的技术构思,本申请实施例还提供了一种存储介质,用于存储计算机可执行指令,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令在被处理器执行时,能实现以下流程:
获取目标对象的第一非标准名称;
对所述第一非标准名称进行简化处理,得到第二非标准名称;以及对待简化标准名称集中包括的标准名称进行简化处理,得到简化标准名称集;其中,若所述第一非标准名称中不包括指定字段,则所述待简化标准名称集为预设标准名称集;若所述第一非标准名称中包括所述指定字段,则所述待简化标准名称集为所述预设标准名称集中满足第一约束条件的标准名称形成的集合;
确定所述简化标准名称集中与所述第二非标准名称相匹配的目标简化标准名称;所述目标简化标准名称对应的未简化标准名称用于作为所述第一非标准名称的参考标准名称。
本申请实施例中的存储介质存储的计算机可执行指令在被处理器执行时,通过先对第一非标准名称和待简化标准名称集(即P个未简化标准名称)进行简化处理,得到简化后的第二非标准名称和P个简化标准名称,其中,待简化标准名称集中包括哪些标准名称基于第一非标准名称中是否包含指定字段确定的,即以预设标准名称集包括X个未简化标准名称为例,若第一非标准名称中不包含指定字段,则待简化标准名称集即为预设标准名称集(即P个未简化标准名称即为X个未简化标准名称,P=X),若第一非标准名称中包含指定字段,则P个未简化标准名称即为预设标准名称集中满足第一约束条件的标准名称(即基于指定字段匹配方式,从X个未简化标准名称中召回与第一非标准名称匹配的P个未简化标准名称,P<X),然后,再从P个简化标准名称中召回与第二非标准名称匹配的Y个简化标准名称(即目标简化标准名称),由于通过依次对第一非标准名称和未简化标准名称进行多级处理,最终从预设标准名称集中召回第一非标准名称的参考标准名称,进而可根据该参考标准名称确定目标对象的标准化且规范化的全称,以使得在用户输入不规范的名称(即第一非标准名称)时,从预设标准名称集中自动匹配该不规范的名称对应的参考标准名称(即目标简化标准名称对应的未简化标准名称),这样不仅能够实现自动筛选出与第一非标准名称关联度高的参考标准名称,还能够避免因语义相似度计算准确度低导致筛选出的参考标准名称的准确度低的问题,从而提高针对不规范名称进行标准名称匹配的效率和匹配准确度,并且还可以根据该参考标准名称对第一非标准名称进行名称纠正,也可以根据该参考标准名称与第一非标准名称的关联程度,决定是否将输入不规范名的用户确定为目标服务用户。
需要说明的是,本申请中关于存储介质的实施例与本申请中关于名称处理方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的名称处理方法的实施,重复之处不再赘述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域内的技术人员应明白,本申请实施例可提供为方法、系统或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请的一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本文件的实施例而已,并不用于限制本文件。对于本领域技术人员来说,本文件可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本文件的权利要求范围之内。
Claims (12)
1.一种名称处理方法,其特征在于,所述方法包括:
获取目标对象的第一非标准名称;
对所述第一非标准名称进行简化处理,得到第二非标准名称;以及对待简化标准名称集中包括的标准名称进行简化处理,得到简化标准名称集;其中,若所述第一非标准名称中不包括指定字段,则所述待简化标准名称集为预设标准名称集;若所述第一非标准名称中包括所述指定字段,则所述待简化标准名称集为所述预设标准名称集中满足第一约束条件的标准名称形成的集合;
确定所述简化标准名称集中与所述第二非标准名称相匹配的目标简化标准名称;所述目标简化标准名称对应的未简化标准名称用于作为所述第一非标准名称的参考标准名称。
2.根据权利要求1所述的方法,其特征在于,所述预设标准名称集中满足第一约束条件的标准名称包括至少一个第一标准名称和至少一个第二标准名称;
其中,所述第一标准名称不包含所述指定字段;所述第二标准名称包含所述指定字段;
所述第二标准名称中所述指定字段的第一赋值与所述第一非标准名称中所述指定字段的第二赋值相同,且所述第一赋值与所述第二赋值的所属级别相同;或者,所述第一赋值与所述第二赋值的所属级别不相同。
3.根据权利要求1所述的方法,其特征在于,所述确定所述简化标准名称集中与所述第二非标准名称相匹配的目标简化标准名称,包括:
基于预设字符串匹配方法,确定所述简化标准名称集中与所述第二非标准名称相匹配的目标简化标准名称。
4.根据权利要求3所述的方法,其特征在于,所述预设字符串匹配方法包括暴力字符串匹配方法和字符串模糊匹配方法;
所述基于预设字符串匹配方法,确定所述简化标准名称集中与所述第二非标准名称相匹配的目标简化标准名称,包括:
基于所述暴力字符串匹配方法,确定所述简化标准名称集中满足第二约束条件的简化标准名称;其中,所述第二约束条件包括简化标准名称与第二非标准名称之间属于包含关系;
基于所述字符串模糊匹配方法,确定简化标准名称子集中满足第三约束条件的简化标准名称;其中,所述简化标准名称子集包括不满足所述第二约束条件的简化标准名称,所述第三约束条件包括简化标准名称与第二非标准名称之间的差异程度小于第一预设阈值;
将满足所述第二约束条件的简化标准名称、以及不满足所述第二约束条件且满足所述第三约束条件的简化标准名称,确定为所述第二非标准名称相匹配的目标简化标准名称。
5.根据权利要求4所述的方法,其特征在于,所述字符串模糊匹配方法包括第一字符串匹配方法和第二字符串匹配方法;所述第一字符串匹配方法对应的第一字符匹配步长小于所述第二字符串匹配方法对应的第二字符匹配步长;
所述基于所述字符串模糊匹配方法,确定简化标准名称子集中满足第三约束条件的简化标准名称,包括:
基于所述第一字符串匹配方法,确定简化标准名称子集包括的第一类简化标准名称中满足第三约束条件的简化标准名称;其中,所述第一类简化标准名称与所述第二非标准名称之间的最短字符串长度小于第二预设阈值;
基于所述第二字符串匹配方法,确定简化标准名称子集包括的第二类简化标准名称中满足第三约束条件的简化标准名称;其中,所述第二类简化标准名称与所述第二非标准名称之间的最短字符串长度大于或等于所述第二预设阈值。
6.根据权利要求1所述的方法,其特征在于,在确定所述简化标准名称集中与所述第二非标准名称相匹配的目标简化标准名称之后,还包括:
确定每个所述目标简化标准名称与所述第二非标准名称之间的语义相似度;
基于确定的所述语义相似度,生成所述第一非标准名称的标准名称匹配结果。
7.根据权利要求6所述的方法,其特征在于,所述基于确定的所述语义相似度,生成所述第一非标准名称的标准名称匹配结果,包括:
基于确定的所述语义相似度,确定每个所述目标简化标准名称对应的未简化标准名称的排序结果;
基于每个所述未简化标准名称的排序结果,确定所述第一非标准名称的标准名称匹配结果。
8.根据权利要求6所述的方法,其特征在于,针对每个所述目标简化标准名称,确定所述目标简化标准名称与所述第二非标准名称之间的语义相似度,包括:
利用预设语义相似度算法,确定所述目标简化标准名称与所述第二非标准名称之间的初始相似度;
基于所述初始相似度、以及所述目标简化标准名称与所述第二非标准名称之间的字符串匹配结果,确定所述目标简化标准名称与所述第二非标准名称之间的语义相似度;所述字符串匹配结果包括表征目标简化标准名称与第二非标准名称之间是否属于包含关系的匹配结果,属于包含关系的所述目标简化标准名称的语义相似度大于所述目标简化标准名称对应的所述初始相似度。
9.根据权利要求6所述的方法,其特征在于,在基于确定的所述语义相似度,生成所述第一非标准名称的标准名称匹配结果之后,还包括:
若确定的所述语义相似度中的最大值大于第三预设阈值,则将输入所述第一非标准名称的目标用户确定为目标服务人群。
10.一种名称处理装置,其特征在于,所述装置包括:
名称获取模块,被配置为获取目标对象的第一非标准名称;
名称简化模块,被配置为对所述第一非标准名称进行简化处理,得到第二非标准名称;以及对待简化标准名称集中包括的标准名称进行简化处理,得到简化标准名称集;其中,若所述第一非标准名称中不包括指定字段,则所述待简化标准名称集为预设标准名称集;若所述第一非标准名称中包括所述指定字段,则所述待简化标准名称集为所述预设标准名称集中满足第一约束条件的标准名称形成的集合;
名称确定模块,被配置为确定所述简化标准名称集中与所述第二非标准名称相匹配的目标简化标准名称;所述目标简化标准名称对应的未简化标准名称用于作为所述第一非标准名称的参考标准名称。
11.一种名称处理设备,其特征在于,所述设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令被配置由所述处理器执行,所述可执行指令包括用于执行如权利要求1-9任一项所述的方法中的步骤。
12.一种存储介质,其特征在于,所述存储介质用于存储计算机可执行指令,所述可执行指令使得计算机执行如权利要求1-9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210502398.3A CN114880430B (zh) | 2022-05-10 | 2022-05-10 | 名称处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210502398.3A CN114880430B (zh) | 2022-05-10 | 2022-05-10 | 名称处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114880430A true CN114880430A (zh) | 2022-08-09 |
CN114880430B CN114880430B (zh) | 2023-07-18 |
Family
ID=82672912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210502398.3A Active CN114880430B (zh) | 2022-05-10 | 2022-05-10 | 名称处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114880430B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090234826A1 (en) * | 2005-03-19 | 2009-09-17 | Activeprime, Inc. | Systems and methods for manipulation of inexact semi-structured data |
US20100198756A1 (en) * | 2009-01-30 | 2010-08-05 | Zhang ling qin | Methods and systems for matching records and normalizing names |
US20150363381A1 (en) * | 2014-06-11 | 2015-12-17 | Fuji Xerox Co., Ltd. | Template management apparatus, non-transitory computer readable medium, and template management method |
US9542456B1 (en) * | 2013-12-31 | 2017-01-10 | Emc Corporation | Automated name standardization for big data |
CN107153991A (zh) * | 2017-04-28 | 2017-09-12 | 国网冀北电力有限公司物资分公司 | 一种财务系统中名称不一致的综合处理方法 |
CN108108373A (zh) * | 2016-11-25 | 2018-06-01 | 阿里巴巴集团控股有限公司 | 一种名称匹配方法及装置 |
US20190205376A1 (en) * | 2017-12-28 | 2019-07-04 | Microsoft Technology Licensing, Llc | Title standardization through iterative processing |
CN110377801A (zh) * | 2019-07-24 | 2019-10-25 | 浙江诺诺网络科技有限公司 | 一种商品名称校正方法、装置和计算机可读存储介质 |
CN110489381A (zh) * | 2019-07-04 | 2019-11-22 | 北京雷石天地电子技术有限公司 | 外接资源的识别方法及系统 |
CN111694823A (zh) * | 2020-05-15 | 2020-09-22 | 平安科技(深圳)有限公司 | 机构标准化方法、装置、电子设备及存储介质 |
CN113488182A (zh) * | 2021-05-25 | 2021-10-08 | 北京大学 | 多源异构医疗化验检查数据处理方法、装置、设备和介质 |
CN113658720A (zh) * | 2021-08-23 | 2021-11-16 | 中国医学科学院北京协和医院 | 匹配诊断名称和icd编码的方法、装置、电子设备和存储介质 |
CN113807657A (zh) * | 2021-08-18 | 2021-12-17 | 山东健康医疗大数据有限公司 | 一种实现医院药品数据标准化的方法 |
CN114153962A (zh) * | 2021-11-26 | 2022-03-08 | 浙江大华技术股份有限公司 | 一种数据匹配方法、装置及电子设备 |
-
2022
- 2022-05-10 CN CN202210502398.3A patent/CN114880430B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090234826A1 (en) * | 2005-03-19 | 2009-09-17 | Activeprime, Inc. | Systems and methods for manipulation of inexact semi-structured data |
US20100198756A1 (en) * | 2009-01-30 | 2010-08-05 | Zhang ling qin | Methods and systems for matching records and normalizing names |
US9542456B1 (en) * | 2013-12-31 | 2017-01-10 | Emc Corporation | Automated name standardization for big data |
US20150363381A1 (en) * | 2014-06-11 | 2015-12-17 | Fuji Xerox Co., Ltd. | Template management apparatus, non-transitory computer readable medium, and template management method |
CN108108373A (zh) * | 2016-11-25 | 2018-06-01 | 阿里巴巴集团控股有限公司 | 一种名称匹配方法及装置 |
CN107153991A (zh) * | 2017-04-28 | 2017-09-12 | 国网冀北电力有限公司物资分公司 | 一种财务系统中名称不一致的综合处理方法 |
US20190205376A1 (en) * | 2017-12-28 | 2019-07-04 | Microsoft Technology Licensing, Llc | Title standardization through iterative processing |
CN110489381A (zh) * | 2019-07-04 | 2019-11-22 | 北京雷石天地电子技术有限公司 | 外接资源的识别方法及系统 |
CN110377801A (zh) * | 2019-07-24 | 2019-10-25 | 浙江诺诺网络科技有限公司 | 一种商品名称校正方法、装置和计算机可读存储介质 |
CN111694823A (zh) * | 2020-05-15 | 2020-09-22 | 平安科技(深圳)有限公司 | 机构标准化方法、装置、电子设备及存储介质 |
CN113488182A (zh) * | 2021-05-25 | 2021-10-08 | 北京大学 | 多源异构医疗化验检查数据处理方法、装置、设备和介质 |
CN113807657A (zh) * | 2021-08-18 | 2021-12-17 | 山东健康医疗大数据有限公司 | 一种实现医院药品数据标准化的方法 |
CN113658720A (zh) * | 2021-08-23 | 2021-11-16 | 中国医学科学院北京协和医院 | 匹配诊断名称和icd编码的方法、装置、电子设备和存储介质 |
CN114153962A (zh) * | 2021-11-26 | 2022-03-08 | 浙江大华技术股份有限公司 | 一种数据匹配方法、装置及电子设备 |
Non-Patent Citations (2)
Title |
---|
彭颖霞;吴升;: "一种适于地理编码的地址数据规范化方法", 测绘科学技术学报, no. 05, pages 87 - 90 * |
贾君枝;赵宇飞;: "Wikidata与名称规范档数据聚合实现", 情报科学, no. 11, pages 74 - 79 * |
Also Published As
Publication number | Publication date |
---|---|
CN114880430B (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110046236B (zh) | 一种非结构化数据的检索方法及装置 | |
JP2019106194A (ja) | メッセージ中のタスクの識別 | |
US20090089279A1 (en) | Method and Apparatus for Detecting Spam User Created Content | |
US20180276615A1 (en) | Address extraction from a communication | |
CN111163072B (zh) | 机器学习模型中特征值的确定方法、装置及电子设备 | |
CN110399448B (zh) | 中文地名地址搜索匹配方法、终端、计算机可读存储介质 | |
CN109002499B (zh) | 学科相关性知识点库构建方法及其系统 | |
CN108376064B (zh) | 规则引擎系统及规则引擎的相关方法 | |
CN112883030A (zh) | 数据收集方法、装置、计算机设备和存储介质 | |
CN116882372A (zh) | 文本生成方法、装置、电子设备以及存储介质 | |
CN113672738A (zh) | 用于确定知识图谱的至少一部分的设备和方法 | |
CN110580255A (zh) | 一种存储并检索数据的方法以及系统 | |
WO2011163000A2 (en) | Memorable resource names | |
CN110895587A (zh) | 用于确定目标用户的方法和装置 | |
CN114880430A (zh) | 名称处理方法及装置 | |
CN108595395B (zh) | 一种昵称的生成方法、装置及设备 | |
CN114490673B (zh) | 数据信息处理方法、装置、电子设备及存储介质 | |
CN116049333A (zh) | 一种地址数据治理方法、设备及介质 | |
CN114237588A (zh) | 一种代码仓库选择方法、装置、设备及存储介质 | |
CN115237783A (zh) | 一种测试数据生成方法及装置 | |
CN111881309B (zh) | 电子证照检索方法、装置和计算机可读介质 | |
JP5211000B2 (ja) | ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム | |
KR101723310B1 (ko) | 특허공보를 기반으로한 대리인 검색 서비스 제공 시스템 및 방법 | |
CN114003685A (zh) | 分词位置索引构建方法及其装置、文档检索方法及其装置 | |
CN111104369A (zh) | 一种检索数据库构建方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |