CN111160011A - 一种组织机构单位规范化方法、装置、设备及存储介质 - Google Patents

一种组织机构单位规范化方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111160011A
CN111160011A CN201911303535.5A CN201911303535A CN111160011A CN 111160011 A CN111160011 A CN 111160011A CN 201911303535 A CN201911303535 A CN 201911303535A CN 111160011 A CN111160011 A CN 111160011A
Authority
CN
China
Prior art keywords
candidate
unit
similarity
organization
address information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911303535.5A
Other languages
English (en)
Other versions
CN111160011B (zh
Inventor
李保敏
刘伟棠
何林强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN201911303535.5A priority Critical patent/CN111160011B/zh
Publication of CN111160011A publication Critical patent/CN111160011A/zh
Application granted granted Critical
Publication of CN111160011B publication Critical patent/CN111160011B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Remote Sensing (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种组织机构单位规范化方法、装置、设备及存储介质,由于在本发明实施例中,在进行组织机构单位规范化时,首先根据待规范化的第一组织机构单位的第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度筛选出标准库中的第一候选组织机构单位,然后再结合第一组织机构单位的第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度,最终确定出标准库中的目标组织机构单位并进行规范化。综合名称信息和地址信息两方面计算相似度确定目标组织机构单位并进行规范化,使得组织机构单位规范化的准确性较高,并且本发明实施例无需人工选取特定的参数,因而降低了对于使用人员的技术要求。

Description

一种组织机构单位规范化方法、装置、设备及存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种组织机构单位规范化方法、装置、设备及存储介质。
背景技术
目前公安、消防等相关部门每天会收到大量的报警信息,人们报警时,不同的人对于同一个组织机构单位的描述方式有可能是不同的。例如某个组织机构单位可能会有以下几种描述情况:“某省某市某区某路某号”,“某省某市某区某酒店对过”,“某省某市某区某路某某路的交叉口”。不同的描述方式对于相关部门工作人员的行动带来了不便,因此需要将报警信息中的组织机构单位进行规范化以便于相关部门工作人员开展工作。
现有技术中在进行组织机构单位规范化处理时,一般包括以下方法:
1、引入地区、类别和命名特征,并设计相关规则,采用规则与编辑距离混合使用的策略进行机构名称匹配。该方法存在的问题是,需要人工选取特定参数,对人员的技术要求较高。
2、采用编辑距离算法对机构名称进行初步聚类,基于初步聚类结果,采用K-means算法对名称进行聚类,对每一类赋予固定标识符。该方法存在的问题是,采用K-means算法进行聚类,此算法中K值的选取会对算法效果有较大的影响,对于使用人员有较高的门槛,同样,距离编辑算法会根据不同的距离度量标准产生不同的结果,方法准确性较低。
发明内容
本发明实施例提供了一种组织机构单位规范化方法、装置、设备及存储介质,用以解决现有技术中组织机构单位规范化方法对人员要求较高,并且准确性较低的问题。
本发明实施例提供了一种组织机构单位规范化方法,所述方法包括:
识别待规范化的第一组织机构单位的第一名称信息,计算所述第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度,将所述第一相似度大于预设的第一阈值的第二组织机构单位作为第一候选组织机构单位;
识别所述第一组织机构单位的第一地址信息,计算所述第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度;
根据每个第二相似度在所述每个第一候选组织机构单位中确定目标组织机构单位,将所述第一组织机构单位规范化为所述目标组织机构单位。
进一步地,所述计算所述第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度包括:
根据TF-IDF算法,计算所述第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度。
进一步地,所述计算所述第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度包括:
根据python-difflib算法,计算所述第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度。
进一步地,所述根据每个第二相似度在所述每个第一候选组织机构单位中确定目标组织机构单位包括:
根据每个第一候选组织机构单位对应的第一相似度、第二相似度以及预设的权重值,计算每个第一候选组织机构单位对应的综合相似度,根据每个第一候选组织机构单位对应的综合相似度,确定目标组织机构单位。
进一步地,所述根据每个第一候选组织机构单位对应的综合相似度,确定目标组织机构单位包括:
将所述综合相似度大于预设的第二阈值的第一候选组织机构单位作为第二候选组织机构单位;
当所述第一地址信息和每个第二候选组织机构单位的第三地址信息中均包含数字符号时,针对每个第三地址信息,判断该第三地址信息中的数字符号与所述第一地址信息中的数字符号是否相同,如果是,保留该第三地址信息,如果否,滤除该第三地址信息;
根据保留的每个第三地址信息对应的第二候选组织机构单位对应的综合相似度,确定目标组织机构单位。
进一步地,所述根据保留的每个第三地址信息对应的第二候选组织机构单位对应的综合相似度,确定目标组织机构单位包括:
将保留的第二候选组织机构单位作为第三候选组织机构单位;
针对每个第三候选组织机构单位,判断该第三候选组织机构单位是否为预设类别的组织机构单位,如果是,将所述第一名称信息与该第三候选组织机构单位的第三名称信息进行对应位置的字符匹配,从首个非相同字符处向后截取所述第一名称信息与该第三名称信息的字符,得到第四名称信息和第五名称信息;根据所述第四名称信息与第五名称信息的第三相似度、所述第一地址信息与该第三候选组织机构单位的第二地址信息的第二相似度以及预设的权重值,计算该第三候选组织机构单位对应的综合相似度;判断所述综合相似度是否大于预设的第三阈值,如果是,保留该第三候选组织机构单位,如果否,滤除该第三候选组织机构单位;
根据保留的每个第三候选组织机构单位对应的综合相似度,确定目标组织机构单位。
另一方面,本发明实施例提供了一种组织机构单位规范化装置,所述装置包括:
第一确定模块,用于识别待规范化的第一组织机构单位的第一名称信息,计算所述第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度,将所述第一相似度大于预设的第一阈值的第二组织机构单位作为第一候选组织机构单位;
第二确定模块,用于识别所述第一组织机构单位的第一地址信息,计算所述第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度;
第三确定模块,用于根据每个第二相似度在所述每个第一候选组织机构单位中确定目标组织机构单位,将所述第一组织机构单位规范化为所述目标组织机构单位。
进一步地,所述第一确定模块,具体用于根据TF-IDF算法,计算所述第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度。
进一步地,所述第二确定模块,具体用于根据python-difflib算法,计算所述第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度。
进一步地,所述第三确定模块,具体用于根据每个第一候选组织机构单位对应的第一相似度、第二相似度以及预设的权重值,计算每个第一候选组织机构单位对应的综合相似度,根据每个第一候选组织机构单位对应的综合相似度,确定目标组织机构单位。
进一步地,所述第三确定模块,具体用于将所述综合相似度大于预设的第二阈值的第一候选组织机构单位作为第二候选组织机构单位;当所述第一地址信息和每个第二候选组织机构单位的第三地址信息中均包含数字符号时,针对每个第三地址信息,判断该第三地址信息中的数字符号与所述第一地址信息中的数字符号是否相同,如果是,保留该第三地址信息,如果否,滤除该第三地址信息;根据保留的每个第三地址信息对应的第二候选组织机构单位对应的综合相似度,确定目标组织机构单位。
进一步地,所述第三确定模块,具体用于将保留的第二候选组织机构单位作为第三候选组织机构单位;针对每个第三候选组织机构单位,判断该第三候选组织机构单位是否为预设类别的组织机构单位,如果是,将所述第一名称信息与该第三候选组织机构单位的第三名称信息进行对应位置的字符匹配,从首个非相同字符处向后截取所述第一名称信息与该第三名称信息的字符,得到第四名称信息和第五名称信息;根据所述第四名称信息与第五名称信息的第三相似度、所述第一地址信息与该第三候选组织机构单位的第二地址信息的第二相似度以及预设的权重值,计算该第三候选组织机构单位对应的综合相似度;判断所述综合相似度是否大于预设的第三阈值,如果是,保留该第三候选组织机构单位,如果否,滤除该第三候选组织机构单位;根据保留的每个第三候选组织机构单位对应的综合相似度,确定目标组织机构单位。
另一方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一项所述的方法步骤。
另一方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法步骤。
本发明实施例提供了一种组织机构单位规范化方法、装置、设备及存储介质,所述方法包括:识别待规范化的第一组织机构单位的第一名称信息,计算所述第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度,将所述第一相似度大于预设的第一阈值的第二组织机构单位作为第一候选组织机构单位;识别所述第一组织机构单位的第一地址信息,计算所述第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度;根据每个第二相似度在所述每个第一候选组织机构单位中确定目标组织机构单位,将所述第一组织机构单位规范化为所述目标组织机构单位。
由于在本发明实施例中,在进行组织机构单位规范化时,首先根据待规范化的第一组织机构单位的第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度筛选出标准库中的第一候选组织机构单位,然后再结合第一组织机构单位的第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度,最终确定出标准库中的目标组织机构单位并进行规范化。本发明实施例在组织机构单位名称信息相似度的基础上,引入了组织机构单位的地址信息的相似度,综合名称信息和地址信息两方面计算相似度确定目标组织机构单位并进行规范化,使得组织机构单位规范化的准确性较高,并且本发明实施例无需人工选取特定的参数,因而降低了对于使用人员的技术要求,并且由于不会受到人为选定参数的影响,因此提高了组织机构单位规范化的稳定性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的组织机构单位规范化过程示意图;
图2为本发明实施例4提供的组织机构单位规范化流程图;
图3为本发明实施例5提供的组织机构单位规范化装置结构示意图;
图4为本发明实施例6提供的电子设备结构示意图。
具体实施方式
下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1:
图1为本发明实施例提供的组织机构单位规范化过程示意图,该过程包括以下步骤:
S101:识别待规范化的第一组织机构单位的第一名称信息,计算所述第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度,将所述第一相似度大于预设的第一阈值的第二组织机构单位作为第一候选组织机构单位。
S102:识别所述第一组织机构单位的第一地址信息,计算所述第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度。
S103:根据每个第二相似度在所述每个第一候选组织机构单位中确定目标组织机构单位,将所述第一组织机构单位规范化为所述目标组织机构单位。
本发明实施例提供的组织机构单位规范化方法应用于电子设备,该电子设备可以是PC、平板电脑等设备。
电子设备中预先保存有标准库,在本发明实施例中,将待规范化的组织机构单位称为第一组织机构单位,将标准库中的组织机构单位称为第二组织机构单位。将第一组织机构单位的名称信息称为第一名称信息,第一组织机构单位的地址信息称为第一地址信息。将第二组织机构单位的名称信息称为第二名称信息,第二组织机构单位的地址信息称为第二地址信息。
电子设备首先识别出待规范化的第一组织机构单位的第一名称信息,计算第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度。具体的,可以根据TF-IDF算法,计算第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度。电子设备中保存有预设的第一阈值,针对得到的每个第一相似度,判断该第一相似度是否大于预设的第一阈值,如果是,将该第一相似度对应的第二组织机构单位作为第一候选组织机构单位。即通过计算第一组织机构单位与标准库中每个第二组织机构单位的名称信息的相似度,从标准库中筛选出第一候选组织机构单位。
电子设备识别出待规范化的第一组织机构单位的第一地址信息,计算第一地址信息与标准库中每个第一候选组织机构单位的第二地址信息的第二相似度。具体的,可以根据python-difflib算法,计算第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度。
电子设备根据每个第二相似度在每个第一候选组织机构单位中确定目标组织机构单位,并将第一组织机构单位规范化为所述目标组织机构单位。其中,电子设备可以将第二相似度最大的第一候选组织机构单位作为目标组织机构单位。
由于在本发明实施例中,在进行组织机构单位规范化时,首先根据待规范化的第一组织机构单位的第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度筛选出标准库中的第一候选组织机构单位,然后再结合第一组织机构单位的第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度,最终确定出标准库中的目标组织机构单位并进行规范化。本发明实施例在组织机构单位名称信息相似度的基础上,引入了组织机构单位的地址信息的相似度,综合名称信息和地址信息两方面计算相似度确定目标组织机构单位并进行规范化,使得组织机构单位规范化的准确性较高,并且本发明实施例无需人工选取特定的参数,因而降低了对于使用人员的技术要求,并且由于不会受到人为选定参数的影响,因此提高了组织机构单位规范化的稳定性。
实施例2:
为了使确定的目标组织机构单位更准确,在上述实施例的基础上,在本发明实施例中,所述根据每个第二相似度在所述每个第一候选组织机构单位中确定目标组织机构单位包括:
根据每个第一候选组织机构单位对应的第一相似度、第二相似度以及预设的权重值,计算每个第一候选组织机构单位对应的综合相似度,根据每个第一候选组织机构单位对应的综合相似度,确定目标组织机构单位。
在本发明实施例中,电子设备针对名称信息相似度和地址信息相似度分别保存有对应的权重值,其中,名称信息相似度对应的权重值和地址信息相似度对应的权重值可以相同或不同。电子设备确定出每个第一候选组织机构单位对应的第一相似度和第二相似度之后,根据每个第一候选组织机构单位对应的第一相似度、第二相似度以及预设的名称信息相似度对应的权重值和地址信息相似度对应的权重值,通过加权平均算法计算出每个第一候选组织机构单位对应的综合相似度,然后根据每个第一候选组织机构单位对应的综合相似度,确定目标组织机构单位。其中,电子设备可以将综合相似度最大的第一候选组织机构单位作为目标组织机构单位。
由于在本发明实施例中,分别计算出每个第一候选组织机构单位对应的第一相似度和第二相似度之后,结合预设的权重值计算出综合相似度,然后根据每个第一候选组织机构单位对应的综合相似度,确定目标组织机构单位,使得确定的目标组织机构单位更准确。
实施例3:
为了进一步使确定的目标组织机构单位更准确,在上述实施例的基础上,在本发明实施例中,所述根据每个第一候选组织机构单位对应的综合相似度,确定目标组织机构单位包括:
将所述综合相似度大于预设的第二阈值的第一候选组织机构单位作为第二候选组织机构单位;
当所述第一地址信息和每个第二候选组织机构单位的第三地址信息中均包含数字符号时,针对每个第三地址信息,判断该第三地址信息中的数字符号与所述第一地址信息中的数字符号是否相同,如果是,保留该第三地址信息,如果否,滤除该第三地址信息;
根据保留的每个第三地址信息对应的第二候选组织机构单位对应的综合相似度,确定目标组织机构单位。
在本发明实施例中,当待规范化的第一组织机构单位的第一地址信息中包含数字符号时,即使待规范化的第一组织机构单位的第一地址信息与某个第一候选组织机构单位的第二地址信息的第二相似度很高时,如果第一地址信息与该第二地址信息中包含的数字符号不相同,则说明第一组织机构单位与该第一候选组织机构单位的地址不同,第一组织机构单位与该第一候选组织机构单位也就不相同。
基于上述原因,为了使确定的目标组织机构单位更准确,在本发明实施例中,电子设备保存有预设的第二阈值,电子设备针对每个第一候选组织机构单位,计算出该第一候选组织机构单位对应的综合相似度之后,先判断该综合相似度是否大于预设的第二阈值,如果是,则将该第一候选组织机构单位作为第二候选组织机构单位,如果否,则滤除该第一候选组织机构单位。其中,预设的第二阈值与预设的第一阈值可以相同或不同。
电子设备确定出每个第二候选组织机构单位之后,将每个第二候选组织机构单位的地址信息称为第三地址信息。针对每个第二候选组织机构单位,判断该第二候选组织机构单位的第三地址信息中是否包含数字字符,如果不包含,则保留该第二候选组织机构单位,如果包含,判断该第二候选组织机构单位的第三地址信息中包含的数字字符于与第一地址信息中包含的数字符号是否相同,如果是,则保留该第二候选组织机构单位,如果否,则滤除该第二候选组织机构单位。
然后在保留的每个第二候选组织机构单位中确定目标组织机构单位。具体的,根据保留的每个第二候选组织机构单位对应的综合相似度,确定目标组织机构单位。其中,可以将综合相似度最大的保留的第二候选组织机构单位作为目标组织机构单位。
由于在本发明实施例中,根据地址信息中包含的数字符号对候选组织机构单位进行进一步地筛选,进而在保留的第二候选组织机构单位中确定目标组织机构单位,可以进一步使得确定的目标组织机构单位更准确。
实施例4:
对于特殊的组织机构单位,例如“中国石油化工股份有限公司杭州建德第一加油站”和“中国石油化工股份有限公司杭州建德第二加油站”这两个组织机构单位,虽然组织机构单位的相似度很高,但是并非是同一个组织机构单位。考虑到上述问题,为了进一步使得确定的目标组织机构单位更准确,在上述各实施例的基础上,在本发明实施例中,所述根据保留的每个第三地址信息对应的第二候选组织机构单位对应的综合相似度,确定目标组织机构单位包括:
将保留的第二候选组织机构单位作为第三候选组织机构单位;
针对每个第三候选组织机构单位,判断该第三候选组织机构单位是否为预设类别的组织机构单位,如果是,将所述第一名称信息与该第三候选组织机构单位的第三名称信息进行对应位置的字符匹配,从首个非相同字符处向后截取所述第一名称信息与该第三名称信息的字符,得到第四名称信息和第五名称信息;根据所述第四名称信息与第五名称信息的第三相似度、所述第一地址信息与该第三候选组织机构单位的第二地址信息的第二相似度以及预设的权重值,计算该第三候选组织机构单位对应的综合相似度;判断所述综合相似度是否大于预设的第三阈值,如果是,保留该第三候选组织机构单位,如果否,滤除该第三候选组织机构单位;
根据保留的每个第三候选组织机构单位对应的综合相似度,确定目标组织机构单位。
在本发明实施例中,可以预先确定存在上述问题的组织机构单位为预设类别的组织机构单位。电子设备确定出保留的第二候选组织机构单位之后,先将保留的第二候选组织机构单位作为第三候选组织机构单位。然后针对每个第三候选组织机构单位,判断该第三候选组织机构单位是否为预设类别的组织机构单位,如果是,则从首个非相同字符处往后截取作为新的组织机构单位名称信息。使用拟合好的TF-IDF算法计算新的组织机构单位名称信息的相似度,作为新的名称相似度。结合该第三候选组织机构单位的地址相似度,采用同样的加权平均计算新的综合相似度。将新的综合相似度高于一定阈值的第三候选组织机构单位保留,否则滤除。
具体的,针对每个第三候选组织机构单位,判断该第三候选组织机构单位是否为预设类别的组织机构单位,如果是,将第一名称信息与该第三候选组织机构单位的第三名称信息进行对应位置的字符匹配,从首个非相同字符处向后截取所述第一名称信息与该第三名称信息的字符,得到第四名称信息和第五名称信息。根据TF-IDF算法,计算所述第四名称信息与第五名称信息的第三相似度。根据第四名称信息与第五名称信息的第三相似度、所述第一地址信息与该第三候选组织机构单位的第二地址信息的第二相似度以及预设的权重值,计算该第三候选组织机构单位对应的综合相似度;判断所述综合相似度是否大于预设的第三阈值,如果是,保留该第三候选组织机构单位,如果否,滤除该第三候选组织机构单位。其中,预设的第三阈值和预设的第二阈值可以相同或不同。然后,根据保留的每个第三候选组织机构单位对应的综合相似度,确定目标组织机构单位。其中,可以将综合相似度最大的保留的第三候选组织机构单位作为目标组织机构单位。
由于在本发明实施例中,对于特殊的组织机构单位,从首个非相同字符处向后截取新的组织机构单位名称,并重新计算综合相似度,最终确定出目标组织机构单位,可以进一步使得确定的目标组织机构单位更准确。
下面结合一个具体的示例进行说明:
本方面实施例选取名称信息为“中国石油化工股份有限公司杭州复兴路加油站”,地址信息为“杭州市上城区复兴路闸口白塔附近”的待规范化组织机构单位进行说明,详细步骤如下:
1、计算名称相似度。通过拟合好的TF-IDF算法分别计算该待规范化数据的名称与每一条标准库中的组织机构单位名称的相似度,得到的候选单位集为[中国石油化工股份有限公司浙江杭州复兴路加油站]和[杭州浙石复兴加油站有限公司],假设单位名称相似度分别为0.98,0.78,并且候选单位集中的机构名称对应的地址分别为[浙江省杭州市上城区南星街道复兴路闸口白塔附近]和[浙江省杭州市上城区南星街道复兴路151号]。
2、计算地址相似度。通过python-difflib算法分别计算待规范化组织机构单位中的地址信息与候选单位集中每一个组织机构单位所对应地址信息的相似度,假设得到相似度结果分别为0.81,0.51。
3、计算综合相似度。假设对上述名称相似度和地址相似度分别赋予0.7和0.3的权重,则得到的综合相似度分别为0.93,0.70。
获取初步相似单位集。假设设置综合相似度阈值为0.75,因此得到的初步相似单位集中包含[名称:中国石油化工股份有限公司浙江杭州复兴路加油站,地址:浙江省杭州市上城区南星街道复兴路闸口白塔附近]。
4、筛选。由于待规范化数据的地址和初步相似单位集中的数据地址均不包含地址号,因此不进行筛选。
5、特殊单位处理。通过逐个字符比较,截取的待规范化数据的新名称为“杭州复兴路加油站”,初步相似单位集中数据的新名称为“浙江杭州复兴路加油站”,并通过拟合好的TF-IDF算法计算得到新名称之间的相似度,假设为0.95,若对新名称相似度和地址相似度分别赋予0.7和0.3的权值,则将得到的新的综合相似度为0.91,假设对特殊数据计算得到的新的综合相似度设定阈值为0.85,显然新的综合相似度高于该阈值,因此将基准数据中的“中国石油化工股份有限公司浙江杭州复兴路加油站-浙江省杭州市上城区南星街道复兴路闸口白塔附近”作为目标组织机构单位,并将“中国石油化工股份有限公司杭州复兴路加油站,杭州市上城区复兴路闸口白塔附近”规范化为“中国石油化工股份有限公司浙江杭州复兴路加油站-浙江省杭州市上城区南星街道复兴路闸口白塔附近”。
图2为本发明实施例提供的组织机构单位规范化流程图,包括以下步骤:
S201:识别待规范化的第一组织机构单位的第一名称信息,根据TF-IDF算法,计算所述第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度,将所述第一相似度大于预设的第一阈值的第二组织机构单位作为第一候选组织机构单位。
S202:识别所述第一组织机构单位的第一地址信息,根据python-difflib算法,计算所述第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度。
S203:根据每个第一候选组织机构单位对应的第一相似度、第二相似度以及预设的权重值,计算每个第一候选组织机构单位对应的综合相似度。
S204:将所述综合相似度大于预设的第二阈值的第一候选组织机构单位作为第二候选组织机构单位;当所述第一地址信息和每个第二候选组织机构单位的第三地址信息中均包含数字符号时,针对每个第三地址信息,判断该第三地址信息中的数字符号与所述第一地址信息中的数字符号是否相同,如果是,保留该第三地址信息,如果否,滤除该第三地址信息。
S205:将保留的第二候选组织机构单位作为第三候选组织机构单位;针对每个第三候选组织机构单位,判断该第三候选组织机构单位是否为预设类别的组织机构单位,如果是,将所述第一名称信息与该第三候选组织机构单位的第三名称信息进行对应位置的字符匹配,从首个非相同字符处向后截取所述第一名称信息与该第三名称信息的字符,得到第四名称信息和第五名称信息;根据所述第四名称信息与第五名称信息的第三相似度、所述第一地址信息与该第三候选组织机构单位的第二地址信息的第二相似度以及预设的权重值,计算该第三候选组织机构单位对应的综合相似度;判断所述综合相似度是否大于预设的第三阈值,如果是,保留该第三候选组织机构单位,如果否,滤除该第三候选组织机构单位;根据保留的每个第三候选组织机构单位对应的综合相似度,确定目标组织机构单位。
实施例5:
图3为本发明实施例提供的组织机构单位规范化装置结构示意图,该装置包括:
第一确定模块31,用于识别待规范化的第一组织机构单位的第一名称信息,计算所述第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度,将所述第一相似度大于预设的第一阈值的第二组织机构单位作为第一候选组织机构单位;
第二确定模块32,用于识别所述第一组织机构单位的第一地址信息,计算所述第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度;
第三确定模块33,用于根据每个第二相似度在所述每个第一候选组织机构单位中确定目标组织机构单位,将所述第一组织机构单位规范化为所述目标组织机构单位。
所述第一确定模块31,具体用于根据TF-IDF算法,计算所述第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度。
所述第二确定模块32,具体用于根据python-difflib算法,计算所述第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度。
所述第三确定模块33,具体用于根据每个第一候选组织机构单位对应的第一相似度、第二相似度以及预设的权重值,计算每个第一候选组织机构单位对应的综合相似度,根据每个第一候选组织机构单位对应的综合相似度,确定目标组织机构单位。
所述第三确定模块33,具体用于将所述综合相似度大于预设的第二阈值的第一候选组织机构单位作为第二候选组织机构单位;当所述第一地址信息和每个第二候选组织机构单位的第三地址信息中均包含数字符号时,针对每个第三地址信息,判断该第三地址信息中的数字符号与所述第一地址信息中的数字符号是否相同,如果是,保留该第三地址信息,如果否,滤除该第三地址信息;根据保留的每个第三地址信息对应的第二候选组织机构单位对应的综合相似度,确定目标组织机构单位。
所述第三确定模块33,具体用于将保留的第二候选组织机构单位作为第三候选组织机构单位;针对每个第三候选组织机构单位,判断该第三候选组织机构单位是否为预设类别的组织机构单位,如果是,将所述第一名称信息与该第三候选组织机构单位的第三名称信息进行对应位置的字符匹配,从首个非相同字符处向后截取所述第一名称信息与该第三名称信息的字符,得到第四名称信息和第五名称信息;根据所述第四名称信息与第五名称信息的第三相似度、所述第一地址信息与该第三候选组织机构单位的第二地址信息的第二相似度以及预设的权重值,计算该第三候选组织机构单位对应的综合相似度;判断所述综合相似度是否大于预设的第三阈值,如果是,保留该第三候选组织机构单位,如果否,滤除该第三候选组织机构单位;根据保留的每个第三候选组织机构单位对应的综合相似度,确定目标组织机构单位。
实施例6:
在上述各实施例的基础上,本发明实施例中还提供了一种电子设备,如图4所示,包括:处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信;
所述存储器303中存储有计算机程序,当所述程序被所述处理器301执行时,使得所述处理器301执行如下步骤:
识别待规范化的第一组织机构单位的第一名称信息,计算所述第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度,将所述第一相似度大于预设的第一阈值的第二组织机构单位作为第一候选组织机构单位;
识别所述第一组织机构单位的第一地址信息,计算所述第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度;
根据每个第二相似度在所述每个第一候选组织机构单位中确定目标组织机构单位,将所述第一组织机构单位规范化为所述目标组织机构单位。
基于同一发明构思,本发明实施例中还提供了一种电子设备,由于上述电子设备解决问题的原理与组织机构单位规范化方法相似,因此上述电子设备的实施可以参见方法的实施,重复之处不再赘述。
本发明实施例提供的电子设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、网络侧设备等。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口302用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
在本发明实施例中处理器执行存储器上所存放的程序时,实现识别待规范化的第一组织机构单位的第一名称信息,计算所述第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度,将所述第一相似度大于预设的第一阈值的第二组织机构单位作为第一候选组织机构单位;识别所述第一组织机构单位的第一地址信息,计算所述第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度;根据每个第二相似度在所述每个第一候选组织机构单位中确定目标组织机构单位,将所述第一组织机构单位规范化为所述目标组织机构单位。
由于在本发明实施例中,在进行组织机构单位规范化时,首先根据待规范化的第一组织机构单位的第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度筛选出标准库中的第一候选组织机构单位,然后再结合第一组织机构单位的第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度,最终确定出标准库中的目标组织机构单位并进行规范化。本发明实施例在组织机构单位名称信息相似度的基础上,引入了组织机构单位的地址信息的相似度,综合名称信息和地址信息两方面计算相似度确定目标组织机构单位并进行规范化,使得组织机构单位规范化的准确性较高,并且本发明实施例无需人工选取特定的参数,因而降低了对于使用人员的技术要求,并且由于不会受到人为选定参数的影响,因此提高了组织机构单位规范化的稳定性。
实施例7:
在上述各实施例的基础上,本发明实施例还提供了一种计算机存储可读存储介质,所述计算机可读存储介质内存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行时实现如下步骤:
识别待规范化的第一组织机构单位的第一名称信息,计算所述第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度,将所述第一相似度大于预设的第一阈值的第二组织机构单位作为第一候选组织机构单位;
识别所述第一组织机构单位的第一地址信息,计算所述第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度;
根据每个第二相似度在所述每个第一候选组织机构单位中确定目标组织机构单位,将所述第一组织机构单位规范化为所述目标组织机构单位。
基于同一发明构思,本发明实施例中还提供了一种计算机可读存储介质,由于处理器在执行上述计算机可读存储介质上存储的计算机程序时解决问题的原理与组织机构单位规范化方法相似,因此处理器在执行上述计算机可读存储介质存储的计算机程序的实施可以参见方法的实施,重复之处不再赘述。
上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD)等。
在本发明实施例中提供的计算机可读存储介质内存储计算机程序,计算机程序被处理器执行时实现识别待规范化的第一组织机构单位的第一名称信息,计算所述第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度,将所述第一相似度大于预设的第一阈值的第二组织机构单位作为第一候选组织机构单位;识别所述第一组织机构单位的第一地址信息,计算所述第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度;根据每个第二相似度在所述每个第一候选组织机构单位中确定目标组织机构单位,将所述第一组织机构单位规范化为所述目标组织机构单位。
由于在本发明实施例中,在进行组织机构单位规范化时,首先根据待规范化的第一组织机构单位的第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度筛选出标准库中的第一候选组织机构单位,然后再结合第一组织机构单位的第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度,最终确定出标准库中的目标组织机构单位并进行规范化。本发明实施例在组织机构单位名称信息相似度的基础上,引入了组织机构单位的地址信息的相似度,综合名称信息和地址信息两方面计算相似度确定目标组织机构单位并进行规范化,使得组织机构单位规范化的准确性较高,并且本发明实施例无需人工选取特定的参数,因而降低了对于使用人员的技术要求,并且由于不会受到人为选定参数的影响,因此提高了组织机构单位规范化的稳定性。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (14)

1.一种组织机构单位规范化方法,其特征在于,所述方法包括:
识别待规范化的第一组织机构单位的第一名称信息,计算所述第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度,将所述第一相似度大于预设的第一阈值的第二组织机构单位作为第一候选组织机构单位;
识别所述第一组织机构单位的第一地址信息,计算所述第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度;
根据每个第二相似度在所述每个第一候选组织机构单位中确定目标组织机构单位,将所述第一组织机构单位规范化为所述目标组织机构单位。
2.如权利要求1所述的方法,其特征在于,所述计算所述第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度包括:
根据TF-IDF算法,计算所述第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度。
3.如权利要求1所述的方法,其特征在于,所述计算所述第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度包括:
根据python-difflib算法,计算所述第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度。
4.如权利要求1所述的方法,其特征在于,所述根据每个第二相似度在所述每个第一候选组织机构单位中确定目标组织机构单位包括:
根据每个第一候选组织机构单位对应的第一相似度、第二相似度以及预设的权重值,计算每个第一候选组织机构单位对应的综合相似度,根据每个第一候选组织机构单位对应的综合相似度,确定目标组织机构单位。
5.如权利要求4所述的方法,其特征在于,所述根据每个第一候选组织机构单位对应的综合相似度,确定目标组织机构单位包括:
将所述综合相似度大于预设的第二阈值的第一候选组织机构单位作为第二候选组织机构单位;
当所述第一地址信息和每个第二候选组织机构单位的第三地址信息中均包含数字符号时,针对每个第三地址信息,判断该第三地址信息中的数字符号与所述第一地址信息中的数字符号是否相同,如果是,保留该第三地址信息,如果否,滤除该第三地址信息;
根据保留的每个第三地址信息对应的第二候选组织机构单位对应的综合相似度,确定目标组织机构单位。
6.如权利要求5所述的方法,其特征在于,所述根据保留的每个第三地址信息对应的第二候选组织机构单位对应的综合相似度,确定目标组织机构单位包括:
将保留的第二候选组织机构单位作为第三候选组织机构单位;
针对每个第三候选组织机构单位,判断该第三候选组织机构单位是否为预设类别的组织机构单位,如果是,将所述第一名称信息与该第三候选组织机构单位的第三名称信息进行对应位置的字符匹配,从首个非相同字符处向后截取所述第一名称信息与该第三名称信息的字符,得到第四名称信息和第五名称信息;根据所述第四名称信息与第五名称信息的第三相似度、所述第一地址信息与该第三候选组织机构单位的第二地址信息的第二相似度以及预设的权重值,计算该第三候选组织机构单位对应的综合相似度;判断所述综合相似度是否大于预设的第三阈值,如果是,保留该第三候选组织机构单位,如果否,滤除该第三候选组织机构单位;
根据保留的每个第三候选组织机构单位对应的综合相似度,确定目标组织机构单位。
7.一种组织机构单位规范化装置,其特征在于,所述装置包括:
第一确定模块,用于识别待规范化的第一组织机构单位的第一名称信息,计算所述第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度,将所述第一相似度大于预设的第一阈值的第二组织机构单位作为第一候选组织机构单位;
第二确定模块,用于识别所述第一组织机构单位的第一地址信息,计算所述第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度;
第三确定模块,用于根据每个第二相似度在所述每个第一候选组织机构单位中确定目标组织机构单位,将所述第一组织机构单位规范化为所述目标组织机构单位。
8.如权利要求7所述的装置,其特征在于,所述第一确定模块,具体用于根据TF-IDF算法,计算所述第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度。
9.如权利要求7所述的装置,其特征在于,所述第二确定模块,具体用于根据python-difflib算法,计算所述第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度。
10.如权利要求7所述的装置,其特征在于,所述第三确定模块,具体用于根据每个第一候选组织机构单位对应的第一相似度、第二相似度以及预设的权重值,计算每个第一候选组织机构单位对应的综合相似度,根据每个第一候选组织机构单位对应的综合相似度,确定目标组织机构单位。
11.如权利要求10所述的装置,其特征在于,所述第三确定模块,具体用于将所述综合相似度大于预设的第二阈值的第一候选组织机构单位作为第二候选组织机构单位;当所述第一地址信息和每个第二候选组织机构单位的第三地址信息中均包含数字符号时,针对每个第三地址信息,判断该第三地址信息中的数字符号与所述第一地址信息中的数字符号是否相同,如果是,保留该第三地址信息,如果否,滤除该第三地址信息;根据保留的每个第三地址信息对应的第二候选组织机构单位对应的综合相似度,确定目标组织机构单位。
12.如权利要求11所述的装置,其特征在于,所述第三确定模块,具体用于将保留的第二候选组织机构单位作为第三候选组织机构单位;针对每个第三候选组织机构单位,判断该第三候选组织机构单位是否为预设类别的组织机构单位,如果是,将所述第一名称信息与该第三候选组织机构单位的第三名称信息进行对应位置的字符匹配,从首个非相同字符处向后截取所述第一名称信息与该第三名称信息的字符,得到第四名称信息和第五名称信息;根据所述第四名称信息与第五名称信息的第三相似度、所述第一地址信息与该第三候选组织机构单位的第二地址信息的第二相似度以及预设的权重值,计算该第三候选组织机构单位对应的综合相似度;判断所述综合相似度是否大于预设的第三阈值,如果是,保留该第三候选组织机构单位,如果否,滤除该第三候选组织机构单位;根据保留的每个第三候选组织机构单位对应的综合相似度,确定目标组织机构单位。
13.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一项所述的方法步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一项所述的方法步骤。
CN201911303535.5A 2019-12-17 2019-12-17 一种组织机构单位规范化方法、装置、设备及存储介质 Active CN111160011B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911303535.5A CN111160011B (zh) 2019-12-17 2019-12-17 一种组织机构单位规范化方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911303535.5A CN111160011B (zh) 2019-12-17 2019-12-17 一种组织机构单位规范化方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111160011A true CN111160011A (zh) 2020-05-15
CN111160011B CN111160011B (zh) 2023-06-27

Family

ID=70557530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911303535.5A Active CN111160011B (zh) 2019-12-17 2019-12-17 一种组织机构单位规范化方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111160011B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984776A (zh) * 2020-08-20 2020-11-24 中国农业科学院农业信息研究所 一种基于词向量模型的机构名称规范方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100198756A1 (en) * 2009-01-30 2010-08-05 Zhang ling qin Methods and systems for matching records and normalizing names
CN106709065A (zh) * 2017-01-19 2017-05-24 国家电网公司 一种地址信息标准化处理方法及装置
CN109033086A (zh) * 2018-08-03 2018-12-18 银联数据服务有限公司 一种地址解析、匹配的方法及装置
CN109582969A (zh) * 2018-12-04 2019-04-05 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN110147418A (zh) * 2019-04-18 2019-08-20 厦门市美亚柏科信息股份有限公司 一种判断地址是否标准化、地址标准化的方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100198756A1 (en) * 2009-01-30 2010-08-05 Zhang ling qin Methods and systems for matching records and normalizing names
CN106709065A (zh) * 2017-01-19 2017-05-24 国家电网公司 一种地址信息标准化处理方法及装置
CN109033086A (zh) * 2018-08-03 2018-12-18 银联数据服务有限公司 一种地址解析、匹配的方法及装置
CN109582969A (zh) * 2018-12-04 2019-04-05 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN110147418A (zh) * 2019-04-18 2019-08-20 厦门市美亚柏科信息股份有限公司 一种判断地址是否标准化、地址标准化的方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984776A (zh) * 2020-08-20 2020-11-24 中国农业科学院农业信息研究所 一种基于词向量模型的机构名称规范方法
CN111984776B (zh) * 2020-08-20 2023-08-11 中国农业科学院农业信息研究所 一种基于词向量模型的机构名称规范方法

Also Published As

Publication number Publication date
CN111160011B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
CN108090567B (zh) 电力通信系统故障诊断方法及装置
CN110443458A (zh) 风险评估方法、装置、计算机设备和存储介质
CN110992169A (zh) 一种风险评估方法、装置、服务器及存储介质
CN111507638A (zh) 一种风险信息输出、风险信息构建方法及装置
CN107704512A (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
CN110633991A (zh) 风险识别方法、装置和电子设备
CN111931047B (zh) 基于人工智能的黑产账号检测方法及相关装置
CN110688536A (zh) 一种标签预测方法、装置、设备和存储介质
CN112184005B (zh) 一种运营任务分类方法、装置、设备和存储介质
CN108305012A (zh) 一种风控规则获取方法及装置
CN111400695B (zh) 一种设备指纹生成方法、装置、设备和介质
CN110827036A (zh) 一种欺诈交易的检测方法、装置、设备及存储介质
CN111160011A (zh) 一种组织机构单位规范化方法、装置、设备及存储介质
CN117764617A (zh) 一种基于大数据分析的物业运行成本预测方法和装置
CN116975400A (zh) 一种数据分级分类方法、装置、电子设备及存储介质
CN111695820A (zh) 工程车辆电子联单管理方法、装置、终端及存储介质
CN113516398A (zh) 基于分层抽样的风险设备识别方法、装置及电子设备
CN114049215A (zh) 异常交易识别方法、装置及应用
CN113298353A (zh) 一种基于用户生存模型的资源调整方法、装置和系统
CN110968690A (zh) 词语的聚类划分方法和装置、设备以及存储介质
CN109545298A (zh) 一种基于数据分析的病种分值计算方法及计算设备
CN114860823A (zh) 一种批量数据处理的方法和装置
CN114492383B (zh) 一种数字货币交易地址的实体名称识别方法和装置
CN110648208B (zh) 群组识别方法、装置和电子设备
CN117251515A (zh) 资产托管中的实体三元组确定方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant