CN111832304A - 楼盘名称的查重方法、装置、电子设备及存储介质 - Google Patents
楼盘名称的查重方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111832304A CN111832304A CN202010608427.5A CN202010608427A CN111832304A CN 111832304 A CN111832304 A CN 111832304A CN 202010608427 A CN202010608427 A CN 202010608427A CN 111832304 A CN111832304 A CN 111832304A
- Authority
- CN
- China
- Prior art keywords
- building
- names
- name
- building name
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 238000013507 mapping Methods 0.000 claims description 47
- 230000004044 response Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 abstract description 8
- 241000220317 Rosa Species 0.000 description 18
- 238000010586 diagram Methods 0.000 description 9
- 235000019082 Osmanthus Nutrition 0.000 description 7
- 241000333181 Osmanthus Species 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 240000008254 Rosa chinensis Species 0.000 description 5
- 235000000664 Rosa chinensis Nutrition 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 244000242564 Osmanthus fragrans Species 0.000 description 1
- 235000019083 Osmanthus fragrans Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/758—Involving statistics of pixels or of feature values, e.g. histogram matching
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了楼盘名称的查重方法、装置、电子设备及存储介质。该方法的一具体实施方式包括:获取至少两个楼盘名称;将至少两个楼盘名称中包括相同字符的楼盘名称确定为相应的楼盘名称组;分别计算各楼盘名称组内每两个楼盘名称之间的相似度;根据各楼盘名称组内每两个楼盘名称之间的相似度,确定至少两个楼盘名称中重复的楼盘名称。该实施方式降低了楼盘查重过程的计算复杂度,提高了处理效率。
Description
技术领域
本公开涉及计算机技术领域,具体涉及楼盘名称的查重方法、装置、电子设备及存储介质。
背景技术
房产交易具有频率低、标的大、复杂度高等特点,为了保证房产交易的顺利完成,需要保证房源信息的真实性,由此涉及到对房源地址信息中的楼盘名称进行查重的问题。
现有方式中,通常将多个楼盘名称进行两两比较,从而确定出重复的楼盘名称。但是,这种楼盘名称查重方式的计算复杂度较高,效率低下,不能满足大体量数据查重或者实时查重的需要。
因此,有必要提出一种新的对楼盘名称进行查重的技术方案。
发明内容
本公开提出了楼盘名称的查重方法、装置、电子设备及存储介质。
第一方面,本公开提供了一种楼盘名称的查重方法,包括:
获取至少两个楼盘名称;
将上述至少两个楼盘名称中包括相同字符的楼盘名称确定为相应的楼盘名称组;
分别计算各上述楼盘名称组内每两个楼盘名称之间的相似度;
根据各上述楼盘名称组内每两个楼盘名称之间的相似度,确定上述至少两个楼盘名称中重复的楼盘名称。
在一些可选的实施方式中,上述将上述至少两个楼盘名称中包括相同字符的楼盘名称确定为相应的楼盘名称组,包括:
建立空的由键值对组成的映射表,其中,上述键值对中的键为单个字符,上述键值对中的值为楼盘名称列表;
对于上述至少两个楼盘名称中的每个楼盘名称,通过上述映射表的键记录该楼盘名称包括的各字符,以及通过上述映射表的键对应的值记录该楼盘名称;
用上述映射表中各键值对的值确定上述楼盘名称组。
在一些可选的实施方式中,上述分别计算各上述楼盘名称组内每两个楼盘名称之间的相似度,包括:
对于各上述楼盘名称组内每两个楼盘名称,对该两个楼盘名称执行如下相似度确定操作:
确定该两个楼盘名称包括的相同字符的数量;
确定该两个楼盘名称中楼盘名称长度的最大值;
将该两个楼盘名称包括的相同字符的数量除以该两个楼盘名称中楼盘名称长度的最大值的比值,确定为该两个楼盘名称之间的相似度。
在一些可选的实施方式中,上述根据各上述楼盘名称组内每两个楼盘名称之间的相似度,确定上述至少两个楼盘名称中重复的楼盘名称,包括:
确定各上述楼盘名称组内每两个楼盘名称之间的相似度是否大于预设相似度阈值;
响应于确定是,确定相应的两个楼盘名称为重复的楼盘名称。
在一些可选的实施方式中,上述方法还包括:
响应于确定两个楼盘名称为重复的楼盘名称,将重复的两个楼盘名称合并为一个楼盘名称。
在一些可选的实施方式中,上述方法还包括:
获取目标楼盘名称;
根据上述目标楼盘名称与上述目标楼盘名称所在的各个楼盘名称组内其他楼盘名称之间的相似度,确定上述目标楼盘名称对应的相似楼盘名称列表;
输出上述目标楼盘名称对应的相似楼盘名称列表。
第二方面,本公开提供了一种楼盘名称的查重装置,包括:
获取模块,被配置为获取至少两个楼盘名称;
分组模块,用于将上述至少两个楼盘名称中包括相同字符的楼盘名称确定为相应的楼盘名称组;
计算模块,用于分别计算各上述楼盘名称组内每两个楼盘名称之间的相似度;
确定模块,用于根据各上述楼盘名称组内每两个楼盘名称之间的相似度,确定上述至少两个楼盘名称中重复的楼盘名称。
在一些可选的实施方式中,上述分组模块进一步被配置为:
建立空的由键值对组成的映射表,其中,上述键值对中的键为单个字符,上述键值对中的值为楼盘名称列表;
对于上述至少两个楼盘名称中的每个楼盘名称,通过上述映射表的键记录该楼盘名称包括的各字符,以及通过上述映射表的键对应的值记录该楼盘名称;
用上述映射表中各键值对的值确定上述楼盘名称组。
在一些可选的实施方式中,上述计算模块进一步被配置为:
对于各上述楼盘名称组内每两个楼盘名称,对该两个楼盘名称执行如下相似度确定操作:
确定该两个楼盘名称包括的相同字符的数量;
确定该两个楼盘名称中楼盘名称长度的最大值;
将该两个楼盘名称包括的相同字符的数量除以该两个楼盘名称中楼盘名称长度的最大值的比值,确定为该两个楼盘名称之间的相似度。
在一些可选的实施方式中,上述确定模块进一步被配置为:
确定各上述楼盘名称组内每两个楼盘名称之间的相似度是否大于预设相似度阈值;
响应于确定是,确定相应的两个楼盘名称为重复的楼盘名称。
在一些可选的实施方式中,上述装置还包括合并模块,上述合并模块被配置为:
响应于确定两个楼盘名称为重复的楼盘名称,将重复的两个楼盘名称合并为一个楼盘名称。
在一些可选的实施方式中,上述装置还包括排序模块,上述排序模块被配置为:
获取目标楼盘名称;
根据上述目标楼盘名称与上述目标楼盘名称所在的各个楼盘名称组内其他楼盘名称之间的相似度,确定上述目标楼盘名称对应的相似楼盘名称列表;
输出上述目标楼盘名称对应的相似楼盘名称列表。
第三方面,本公开提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如本公开第一方面任一实施方式描述的方法。
第四方面,本公开提供了一种计算机可读介质,其上存储有计算机程序,其中,上述程序被处理器执行时实现如本公开第一方面任一实施方式描述的方法。
本公开的本实施例中楼盘名称的查重方法,将至少两个楼盘名称中包括相同字符的楼盘名称确定为相应的楼盘名称组,分别计算各组内每两个楼盘名称之间的相似度并据此确定重复的楼盘名称,降低了楼盘查重过程的计算复杂度,提高了处理效率,有利于满足大体量数据查重或者实时查重的需求。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开的一个实施例可以应用于其中的示例性系统架构图;
图2A是根据本公开的楼盘名称的查重方法的一个实施例的流程图;
图2B是根据本公开的步骤202的一个实施例的分解流程图;
图3是根据本公开的楼盘名称的查重装置的一个实施例的结构示意图;
图4是适于用来实现本公开的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本公开的楼盘名称的查重方法或楼盘名称的查重装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101通过网络102与服务器103交互,以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用,例如楼盘名称记录类应用、楼盘名称查重类应用、网页浏览器应用等。
终端设备101可以是硬件,也可以是软件。当终端设备101为硬件时,可以是具有显示屏并且支持文本输入的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供楼盘名称的查重服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器103可以是提供各种服务的服务器,例如对终端设备101发送的至少两个楼盘名称提供楼盘名称的查重服务的后台服务器。后台服务器可以对接收到的楼盘名称进行查重等处理,并将处理结果(例如重复楼盘名称的列表)反馈给终端设备。
在一些情况下,本公开所提供的楼盘名称的查重方法可以由终端设备101和服务器103共同执行,例如,“获取至少两个楼盘名称”的步骤可以由终端设备101执行,其余步骤可以由服务器103执行。本公开对此不做限定。相应地,楼盘名称的查重装置也可以分别设置于终端设备101和服务器103中。
在一些情况下,本公开所提供的楼盘名称的查重方法可以由服务器103执行,相应地,楼盘名称的查重装置也可以设置于服务器103中,这时,系统架构100也可以不包括终端设备101。
在一些情况下,本公开所提供的楼盘名称的查重方法可以由终端设备101执行,相应地,楼盘名称的查重装置也可以设置于终端设备101中,这时,系统架构100也可以不包括服务器103。
需要说明的是,服务器103可以是硬件,也可以是软件。当服务器103为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器103为软件时,可以实现成多个软件或软件模块(例如用来提供楼盘名称的查重服务),也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2A,其示出了根据本公开的楼盘名称的查重方法的一个实施例的流程200。该楼盘名称的查重方法,包括以下步骤:
步骤201,获取至少两个楼盘名称。
在本实施例中,楼盘名称可以是文本数据,例如可以是“玫瑰园一期”、“月季园二期”、“桂花园三期”等文本数据。该文本数据可以是通过对楼盘地址信息进行信息提取而得到的,例如可以基于神经网络模型、正则表达式等方式进行信息提取。例如,可以对楼盘地址信息“M市N区玫瑰园一期X栋Y单元101”进行信息提取,从中得到楼盘名称“玫瑰园一期”。该文本数据还可以通过对图像数据进行图像识别处理得到,或者通过对语音数据进行语音识别处理得到。
在本实施例中,楼盘名称可以包括至少一个字符。上述字符可以是中文字符、英文字符或者其他语言中类似汉字或字母的基本单位。例如,“月季园二期”这一楼盘名称包括“月”、“季”、“园”、“二”、“期”这五个字符。
在本实施例中,上述楼盘名称的查重方法的执行主体(例如图1所示的服务器)可以从本地获取至少两个楼盘名称,也可以从与上述执行主体网络连接的其他电子设备远程地获取至少两个楼盘名称。例如,上述执行主体可以从本地存储的数据库或者与上述执行主体网络连接的其他电子设备存储的数据库中获取至少两个楼盘名称。上述执行主体也可以从房产交易服务器或对房源信息提供资源管理服务的服务器获取至少两个楼盘名称。
步骤202,将至少两个楼盘名称中包括相同字符的楼盘名称确定为相应的楼盘名称组。
在本实施例中,如果某个字符既属于楼盘名称A,又属于楼盘名称B,那么可以认为楼盘名称A和楼盘名称B包括相同字符。例如,“园”这一字符既属于楼盘名称“玫瑰园一期”,又属于楼盘名称“月季园二期”,那么可以认为“玫瑰园一期”和“月季园二期”这两个楼盘名称包括相同字符“园”。
在本实施例中,可以将包括某个字符的全部楼盘名称确定为该字符对应的楼盘名称组。例如,对于以下六个楼盘名称:“玫瑰园一期”、“月季园二期”、“桂花园三期”、“上河村”、“中河村”、“下河村”,可以将“玫瑰园一期”、“月季园二期”、“桂花园三期”确定为“园”这一字符对应的楼盘名称组,也可以将“玫瑰园一期”、“月季园二期”、“桂花园三期”确定为“期”这一字符对应的楼盘名称组,还可以将“上河村”、“中河村”、“下河村”确定为“村”这一字符对应的楼盘名称组。上述例子中各字符和相应楼盘名称组的对应关系如下表所示:
字符 | 楼盘名称组 |
园 | 玫瑰园一期,月季园二期,桂花园三期 |
期 | 玫瑰园一期,月季园二期,桂花园三期 |
河 | 上河村,中河村,下河村 |
村 | 上河村,中河村,下河村 |
在一些可选的实施方式中,步骤202可以按照图2B所示的流程实施。图2B是根据本公开的步骤202的一个实施例的分解流程图。如图2B所示,步骤202可以进一步包括以下步骤:
步骤2021,建立空的由键值对组成的映射表。
在该实施方式中,键值对中的键可以是单个字符,键值对中的值可以是包括该键值对中的键对应的字符的楼盘名称列表。在一个例子中,某个键值对中的键可以是“园”这一字符,该键值对中的值可以是{玫瑰园一期,月季园二期,桂花园三期}这一楼盘名称列表。上述键值对可以记为“园-{玫瑰园一期,月季园二期,桂花园三期}”。
步骤2022,对于至少两个楼盘名称中的每个楼盘名称,通过映射表的键记录该楼盘名称包括的各字符,以及通过映射表的键对应的值记录该楼盘名称。
在该实施方式中,通过映射表的键记录该楼盘名称包括的各字符,可以实施为以下方式:对于该楼盘名称包括的每个字符,可以先确定现有的映射表中是否存在与该字符对应的键。如果不存在,则可以将该字符赋值给映射表的某个空的键。如果存在,则可以不对映射表进行更改。
在该实施方式中,通过映射表的键对应的值记录该楼盘名称,可以实施为以下方式:对于该楼盘名称对应的每个键(也就是与该楼盘名称包括的每个字符相对应的键),将该楼盘名称记录在该键对应的楼盘名称列表(也就是该键对应的值)中。
在一个例子中,映射表的初始状态可以是没有存储任何字符或楼盘名称列表的空状态。在此基础上,可以通过以下操作将“上河村”这一楼盘名称记录在映射表中:首先,可以将“上”、“河”、“村”这三个字符赋值给映射表中的三个空白键,相应地,可以得到“上”、“河”、“村”这三个键。其次,可以将“上河村”这一楼盘名称分别记录在“上”、“河”、“村”这三个键对应的楼盘名称列表中。通过上述操作,可以得到“上-{上河村}”、“河-{上河村}”、“村-{上河村}”这三个键值对,此时映射表中的全部内容即为上述三个键值对。在上述操作的基础上,可以进一步将“中河村”这一楼盘名称记录在映射表中。首先,由于现有映射表中不存在与“中”这一字符对应的键,因此可以将该字符赋值给一个空白键,从而得到“中”这一键。由于现有映射表中已经存在与“河”、“村”这两个字符对应的键,因此可以不进行相应的赋值操作。此时,映射表中包括“上”、“河”、“村”、“中”这四个键。其次,可以将“中河村”这一楼盘名称分别记录在“中”、“河”、“村”这三个键对应的楼盘名称列表中。通过上述操作,可以得到“上-{上河村}”、“河-{上河村,中河村}”、“村-{上河村,中河村}”、“中-{中河村}”这四个键值对,此时映射表中的全部内容即为上述四个键值对。
步骤2023,用映射表中各键值对的值确定楼盘名称组。
在该实施方式中,对于映射表中的某个键值对,在该键值对中的值(也就是楼盘名称列表)包括的楼盘名称的个数大于或者等于2的情况下,可以将该键值对中的值确定为与该键值对中的键相对应的楼盘名称组。在该键值对中的值包括的楼盘名称的个数小于2的情况下,可以不对该键值对进行处理。
在前文描述的例子中,对于“村-{上河村,中河村}”这一键值对,由于该键值对中的值包括的楼盘名称的个数为2,因此可以将{上河村,中河村}确定为“村”这一字符对应的楼盘名称组。对于“中-{中河村}”这一键值对,由于该键值对中的值包括的楼盘名称的个数小于2,也就不会存在重复楼盘名称的情况,因此可以不对该键值对进行处理。
在该实施方式中,由于映射表中采用了键值对的数据结构,键值对的数据结构具有查找效率高的特点,因此基于映射表对至少两个楼盘名称进行分组,能够有效提高处理效率。
需要说明的是,前文描述的例子是基于中文字符进行楼盘名称分组的,在楼盘名称为英文或者其他语种的情况下,也可以采用相同方法基于英文字母或者其他语言单位进行楼盘名称分组。此外,在楼盘名称为英文的情况下,也可以基于单词进行楼盘名称分组,从而进一步提高处理效率。
步骤203,分别计算各楼盘名称组内每两个楼盘名称之间的相似度。
通过上述生成楼盘名称组的过程可知,同一楼盘名称组内任两个楼盘名称之间均包括至少一个相同字符,反之,分别属于任两个不同楼盘名称组的两个楼盘名称之间不存在相同字符,因此,为了减少楼盘查重的计算量,不需计算分别属于任两个不同楼盘名称组的两个楼盘名称之间的相似度,而只需分别计算各楼盘名称组内每两个楼盘名称之间的相似度。
在本实施例中,可以采用文本距离方法(例如余弦距离、欧几里德距离、曼哈顿距离、切比雪夫距离等)、TF-IDF算法、BM25算法等方法计算各楼盘名称组内每两个楼盘名称之间的相似度。
在一些可选的实施方式中,步骤203可以进一步包括以下步骤:对于各楼盘名称组内每两个楼盘名称,可以对该两个楼盘名称执行相似度确定操作。上述相似度确定操作可以包括以下步骤:
首先,可以确定该两个楼盘名称包括的相同字符的数量。
在该实施方式中,两个楼盘名称包括的相同字符的数量可以是同时属于这两个楼盘名称的字符的总数。例如,对于“月季园二期”、“桂花园三期”这两个楼盘名称,二者包括的相同字符为“园”和“期”,因此二者包括的相同字符的数量为2。
其次,可以确定该两个楼盘名称中楼盘名称长度的最大值。
在该实施方式中,可以分别确定两个楼盘名称的长度并进行比较,从而确定两个楼盘名称中楼盘名称长度的最大值。在前文描述的例子中,“月季园二期”和“桂花园三期”这两个楼盘名称的长度均为5,因此这两个楼盘名称中楼盘名称长度的最大值为5。
最后,可以将该两个楼盘名称包括的相同字符的数量除以该两个楼盘名称中楼盘名称长度的最大值的比值,确定为该两个楼盘名称之间的相似度。
在前文描述的例子中,可以将“月季园二期”和“桂花园三期”这两个楼盘名称包括的相同字符的数量2除以这两个楼盘名称中楼盘名称长度的最大值为5,得到的比值为0.4即为这两个楼盘名称之间的相似度。
在该实施方式中,相似度的数值可以在[0,1]这一区间内。容易理解,相似度的数值越大,可以表示相应两个楼盘之间的相似程度越高。
在该实施方式中,将两个楼盘名称包括的相同字符的数量除以两个楼盘名称中楼盘名称长度的最大值的比值作为两个楼盘名称之间的相似度,能够有效量化楼盘之间的相似程度,并且算法简便、有利于提高处理速度。
步骤204,根据各楼盘名称组内每两个楼盘名称之间的相似度,确定至少两个楼盘名称中重复的楼盘名称。
在本实施例中,对于各楼盘名称组内每两个楼盘名称,可以根据该两个楼盘名称之间的相似度确定该两个楼盘名称是否为重复的楼盘名称,进而可以确定全体楼盘名称中重复的楼盘名称。
在一些可选的实施方式中,步骤204可以进一步包括如下步骤:首先,可以确定各楼盘名称组内每两个楼盘名称之间的相似度是否大于预设相似度阈值。其次,响应于确定是,可以确定相应的两个楼盘名称为重复的楼盘名称。上述相似度阈值可以是上述楼盘名称的查重方法的执行主体提供的默认值,也可以是用户根据实际需求具体设置的数值。在前文描述的例子中,假设预设相似度阈值是0.9,由于“月季园二期”和“桂花园三期”这两个楼盘名称之间的相似度为0.4,因此可以确定“月季园二期”和“桂花园三期”这两个楼盘名称不属于重复的楼盘名称。
在本实施例中,将至少两个楼盘名称中包括相同字符的楼盘名称确定为相应的楼盘名称组,分别计算各组内每两个楼盘名称之间的相似度并据此确定重复的楼盘名称,降低了楼盘查重过程的计算复杂度,提高了处理效率,有利于满足大体量数据查重或者实时查重的需求。
在一些可选的实施方式中,如图2A所示,在步骤204之后,上述楼盘名称的查重方法还包括以下步骤:
步骤205,响应于确定两个楼盘名称为重复的楼盘名称,将重复的两个楼盘名称合并为一个楼盘名称。
例如,对于楼盘名称“桂花园三期”(其ID例如是id_1)和楼盘名称“桂花园三期”(其ID例如是id_2)这两个楼盘名称,根据本实施例中楼盘名称的查重方法可以确定这两个楼盘名称的相似度为1,假设预设相似度阈值可以是0.9,因此可以确定这两个楼盘名称为重复的楼盘名称。在此基础上,可以将ID为id_2的楼盘名称删除,只保留ID为id_1的楼盘名称(反之亦可),从而完成这两个重复的楼盘名称的合并。
上述实施方式可以实现对重复楼盘名称的自动合并,能够进一步提高对房源地址信息进行处理的效率。
在一些可选的实施方式中,对于特定的楼盘名称,可以根据前文描述的相似度确定与该楼盘名称相似的楼盘名称并进行排序。在该实施方式中,上述楼盘名称的查重方法还包括以下步骤:
首先,获取目标楼盘名称。
其次,根据目标楼盘名称与目标楼盘名称所在的各个楼盘名称组内其他楼盘名称之间的相似度,确定目标楼盘名称对应的相似楼盘名称列表。
在确定目标楼盘名称对应的相似楼盘名称列表时,可以按照相似度的高低确定各个楼盘名称在列表中的排列顺序,例如可以将相似度较高的楼盘名称置于列表中靠前的位置,可以将相似度较低的楼盘名称置于列表中靠后的位置。
在确定目标楼盘名称对应的相似楼盘名称列表时,可以过滤掉相似度较低的楼盘名称,例如过滤掉相似度小于0.4的楼盘名称。
最后,输出目标楼盘名称对应的相似楼盘名称列表。
例如,可以在显示设备上显示相似楼盘名称列表,也可以将相似度楼盘名称列表保存预设格式的文件且存储在本地或者发送至其电子设备。
在该实施方式中,基于相似度确定与目标楼盘名称相似的楼盘名称并进行排序,有利于相关人员获取目标楼盘名称的相似度信息,且有利于相关人员对高相似度楼盘进行人工对比。
在根据本公开的楼盘查重方法的一个例子中,楼盘查重方法可以实施为以下过程:
首先,初始化一个映射表。该映射表的键为单个字符,该映射表的值为由包含该字符的楼盘名称所组成的列表。
其次,对于至少两个楼盘名称,基于楼盘ID进行循环处理,以将每个楼盘名称及其包括的字符记录在映射表中。
之后,基于映射表的键进行循环处理,以计算映射表的每个键对应的楼盘名称列表中每两个楼盘名称之间的相似度。
最后,将每个键对应的楼盘名称列表中每两个楼盘名称之间的相似度与预设相似度阈值进行比较,确定相应的两个楼盘名称是否为重复的楼盘名称。
上述各步骤的具体实施方式以及相应的技术效果可参见前文描述的内容,此处不再赘述。
进一步参考图3,作为对上述各图所示方法的实现,本公开提供了一种楼盘名称的查重装置的一个实施例,该装置实施例与图2A所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例的楼盘名称的查重装置300包括:获取模块301、分组模块302、计算模块303和确定模块304。其中,获取模块301可以被配置为获取至少两个楼盘名称;分组模块302可以被配置为将至少两个楼盘名称中包括相同字符的楼盘名称确定为相应的楼盘名称组;计算模块303可以被配置为分别计算各楼盘名称组内每两个楼盘名称之间的相似度;确定模块304可以被配置为根据各楼盘名称组内每两个楼盘名称之间的相似度,确定至少两个楼盘名称中重复的楼盘名称。
在本实施例中,楼盘名称的查重装置300的获取模块301、分组模块302、计算模块303和确定模块304的具体处理及其所带来的技术效果可分别参考图2A对应实施例中步骤201、步骤202、步骤203和步骤204的相关说明,在此不再赘述。
在一些可选的实施方式中,分组模块302可以进一步被配置为:建立空的由键值对组成的映射表,其中,键值对中的键为单个字符,键值对中的值为楼盘名称列表;对于至少两个楼盘名称中的每个楼盘名称,通过映射表的键记录该楼盘名称包括的各字符,以及通过映射表的键对应的值记录该楼盘名称;用映射表中各键值对的值确定楼盘名称组。
在一些可选的实施方式中,计算模块303可以进一步被配置为:对于各楼盘名称组内每两个楼盘名称,对该两个楼盘名称执行如下相似度确定操作:确定该两个楼盘名称包括的相同字符的数量;确定该两个楼盘名称中楼盘名称长度的最大值;将该两个楼盘名称包括的相同字符的数量除以该两个楼盘名称中楼盘名称长度的最大值的比值,确定为该两个楼盘名称之间的相似度。
在一些可选的实施方式中,确定模块304可以进一步被配置为:确定各楼盘名称组内每两个楼盘名称之间的相似度是否大于预设相似度阈值;响应于确定是,确定相应的两个楼盘名称为重复的楼盘名称。
在一些可选的实施方式中,该装置300还可以包括合并模块(图3中未示出),合并模块可以被配置为:响应于确定两个楼盘名称为重复的楼盘名称,将重复的两个楼盘名称合并为一个楼盘名称。
在一些可选的实施方式中,该装置300还可以包括排序模块(图3中未示出),排序模块可以被配置为:获取目标楼盘名称;根据目标楼盘名称与目标楼盘名称所在的各个楼盘名称组内其他楼盘名称之间的相似度,确定目标楼盘名称对应的相似楼盘名称列表;输出目标楼盘名称对应的相似楼盘名称列表。
需要说明的是,本公开提供的楼盘名称的查重装置中各模块的实现细节和技术效果可以参考本公开中其它实施例的说明,在此不再赘述。
下面参考图4,其示出了适于用来实现本公开的电子设备的计算机系统400的结构示意图。图4示出的电子设备仅仅是一个示例,不应对本公开的功能和使用范围带来任何限制。
如图4所示,计算机系统400包括中央处理单元(CPU,Central Processing Unit)401,其可以根据存储在只读存储器(ROM,Read Only Memory)402中的程序或者从存储部分408加载到随机访问存储器(RAM,Random Access Memory)403中的程序而执行各种适当的动作和处理。在RAM403中,还存储有系统400操作所需的各种程序和数据。CPU401、ROM402以及RAM403通过总线404彼此相连。输入/输出(I/O,Input/Output)接口405也连接至总线404。
以下部件连接至I/O接口405:包括触控屏、手写板、键盘或鼠标等的输入部分406;包括诸如阴极射线管(CRT,Cathode Ray Tube)、液晶显示器(LCD,Liquid CrystalDisplay)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN(局域网,Local Area Network)卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本公开的方法中限定的上述功能。需要说明的是,本公开的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++、Python,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块、分组模块、聚类模块和确定模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取模块还可以被描述为“获取至少两个楼盘名称的模块”。
作为另一方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的,也可以是单独存在而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:获取至少两个楼盘名称;将至少两个楼盘名称中包括相同字符的楼盘名称确定为相应的楼盘名称组;分别计算各楼盘名称组内每两个楼盘名称之间的相似度;根据各楼盘名称组内每两个楼盘名称之间的相似度,确定至少两个楼盘名称中重复的楼盘名称。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (14)
1.一种楼盘名称的查重方法,包括:
获取至少两个楼盘名称;
将所述至少两个楼盘名称中包括相同字符的楼盘名称确定为相应的楼盘名称组;
分别计算各所述楼盘名称组内每两个楼盘名称之间的相似度;
根据各所述楼盘名称组内每两个楼盘名称之间的相似度,确定所述至少两个楼盘名称中重复的楼盘名称。
2.根据权利要求1所述的方法,其中,所述将所述至少两个楼盘名称中包括相同字符的楼盘名称确定为相应的楼盘名称组,包括:
建立空的由键值对组成的映射表,其中,所述键值对中的键为单个字符,所述键值对中的值为楼盘名称列表;
对于所述至少两个楼盘名称中的每个楼盘名称,通过所述映射表的键记录该楼盘名称包括的各字符,以及通过所述映射表的键对应的值记录该楼盘名称;
用所述映射表中各键值对中的值确定所述楼盘名称组。
3.根据权利要求1所述的方法,其中,所述分别计算各所述楼盘名称组内每两个楼盘名称之间的相似度,包括:
对于各所述楼盘名称组内每两个楼盘名称,对该两个楼盘名称执行如下相似度确定操作:
确定该两个楼盘名称包括的相同字符的数量;
确定该两个楼盘名称中楼盘名称长度的最大值;
将该两个楼盘名称包括的相同字符的数量除以该两个楼盘名称中楼盘名称长度的最大值的比值,确定为该两个楼盘名称之间的相似度。
4.根据权利要求1-3中任一项所述的方法,其中,所述根据各所述楼盘名称组内每两个楼盘名称之间的相似度,确定所述至少两个楼盘名称中重复的楼盘名称,包括:
确定各所述楼盘名称组内每两个楼盘名称之间的相似度是否大于预设相似度阈值;
响应于确定是,确定相应的两个楼盘名称为重复的楼盘名称。
5.根据权利要求4所述的方法,其中,所述方法还包括:
响应于确定两个楼盘名称为重复的楼盘名称,将重复的两个楼盘名称合并为一个楼盘名称。
6.根据权利要求1-3中任一项所述的方法,其中,所述方法还包括:
获取目标楼盘名称;
根据所述目标楼盘名称与所述目标楼盘名称所在的各个楼盘名称组内其他楼盘名称之间的相似度,确定所述目标楼盘名称对应的相似楼盘名称列表;
输出所述目标楼盘名称对应的相似楼盘名称列表。
7.一种楼盘名称的查重装置,包括:
获取模块,被配置为获取至少两个楼盘名称;
分组模块,被配置为将所述至少两个楼盘名称中包括相同字符的楼盘名称确定为相应的楼盘名称组;
计算模块,被配置为分别计算各所述楼盘名称组内每两个楼盘名称之间的相似度;
确定模块,被配置为根据各所述楼盘名称组内每两个楼盘名称之间的相似度,确定所述至少两个楼盘名称中重复的楼盘名称。
8.根据权利要求7所述的装置,其中,所述分组模块进一步被配置为:
建立空的由键值对组成的映射表,其中,所述键值对中的键为单个字符,所述键值对中的值为楼盘名称列表;
对于所述至少两个楼盘名称中的每个楼盘名称,通过所述映射表的键记录该楼盘名称包括的各字符,以及通过所述映射表的键对应的值记录该楼盘名称;
用所述映射表中各键值对的值确定所述楼盘名称组。
9.根据权利要求7所述的装置,其中,所述计算模块进一步被配置为:
对于各所述楼盘名称组内每两个楼盘名称,对该两个楼盘名称执行如下相似度确定操作:
确定该两个楼盘名称包括的相同字符的数量;
确定该两个楼盘名称中楼盘名称长度的最大值;
将该两个楼盘名称包括的相同字符的数量除以该两个楼盘名称中楼盘名称长度的最大值的比值,确定为该两个楼盘名称之间的相似度。
10.根据权利要求7-9中任一项所述的装置,其中,所述确定模块进一步被配置为:
确定各所述楼盘名称组内每两个楼盘名称之间的相似度是否大于预设相似度阈值;
响应于确定是,确定相应的两个楼盘名称为重复的楼盘名称。
11.根据权利要求10所述的装置,其中,所述装置还包括合并模块,所述合并模块被配置为:
响应于确定两个楼盘名称为重复的楼盘名称,将重复的两个楼盘名称合并为一个楼盘名称。
12.根据权利要求7-9中任一项所述的装置,其中,所述装置还包括排序模块,所述排序模块被配置为:
获取目标楼盘名称;
根据所述目标楼盘名称与所述目标楼盘名称所在的各个楼盘名称组内其他楼盘名称之间的相似度,确定所述目标楼盘名称对应的相似楼盘名称列表;
输出所述目标楼盘名称对应的相似楼盘名称列表。
13.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010608427.5A CN111832304B (zh) | 2020-06-29 | 2020-06-29 | 楼盘名称的查重方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010608427.5A CN111832304B (zh) | 2020-06-29 | 2020-06-29 | 楼盘名称的查重方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111832304A true CN111832304A (zh) | 2020-10-27 |
CN111832304B CN111832304B (zh) | 2024-02-27 |
Family
ID=72899465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010608427.5A Active CN111832304B (zh) | 2020-06-29 | 2020-06-29 | 楼盘名称的查重方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111832304B (zh) |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080068226A1 (en) * | 2006-08-31 | 2008-03-20 | Microsoft Corporation | Smart filtering with multiple simultaneous keyboard inputs |
US20130007007A1 (en) * | 2011-06-29 | 2013-01-03 | Nokia Corporation | Method and apparatus for providing a list-based interface to key-value stores |
CN103164480A (zh) * | 2011-12-13 | 2013-06-19 | 北京千橡网景科技发展有限公司 | 用于在社交网络中推荐兴趣点的方法和设备 |
US20150056997A1 (en) * | 2013-08-22 | 2015-02-26 | Qualcomm Incorporated | Methods and apparatus for improved cell re-selection with autonomous search function |
CN104504150A (zh) * | 2015-01-09 | 2015-04-08 | 成都布林特信息技术有限公司 | 新闻舆情监测系统 |
CN105373604A (zh) * | 2015-11-09 | 2016-03-02 | 北京奇虎科技有限公司 | 书籍库中相似书的挖掘、净化方法和装置 |
CN105718506A (zh) * | 2016-01-04 | 2016-06-29 | 胡新伟 | 一种科技项目查重对比的方法 |
WO2017134801A1 (ja) * | 2016-02-04 | 2017-08-10 | 富士通株式会社 | 項目名対応付け処理方法、項目名対応付け処理プログラム及び情報処理装置 |
CN107633067A (zh) * | 2017-09-21 | 2018-01-26 | 北京工业大学 | 一种基于人员行为规律和数据挖掘方法的群体识别方法 |
JP2018036744A (ja) * | 2016-08-30 | 2018-03-08 | 株式会社パスコ | 類似文字列検出装置及び類似文字列検出方法並びに類似文字列検出プログラム |
CN109101620A (zh) * | 2018-08-08 | 2018-12-28 | 广州神马移动信息科技有限公司 | 相似度计算方法、聚类方法、装置、存储介质及电子设备 |
WO2019063387A1 (en) * | 2017-09-29 | 2019-04-04 | Telefonaktiebolaget Lm Ericsson (Publ) | CREATING A PSEUDONYM TO REQUEST A NETWORK TRANCHE |
CN109635030A (zh) * | 2018-12-14 | 2019-04-16 | 平安城市建设科技(深圳)有限公司 | 房源录入方法、装置、设备及可读存储介质 |
CN110750615A (zh) * | 2019-09-30 | 2020-02-04 | 贝壳技术有限公司 | 文本重复性判定方法和装置、电子设备和存储介质 |
CN110750509A (zh) * | 2019-10-24 | 2020-02-04 | 赛诺贝斯(北京)营销技术股份有限公司 | 一种企业名称查重方法及装置、设备、介质 |
CN110852057A (zh) * | 2018-07-27 | 2020-02-28 | 北京京东尚科信息技术有限公司 | 一种计算文本相似度的方法和装置 |
CN111291155A (zh) * | 2020-01-17 | 2020-06-16 | 青梧桐有限责任公司 | 基于文本相似度的同名小区辨别方法及系统 |
-
2020
- 2020-06-29 CN CN202010608427.5A patent/CN111832304B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080068226A1 (en) * | 2006-08-31 | 2008-03-20 | Microsoft Corporation | Smart filtering with multiple simultaneous keyboard inputs |
US20130007007A1 (en) * | 2011-06-29 | 2013-01-03 | Nokia Corporation | Method and apparatus for providing a list-based interface to key-value stores |
CN103164480A (zh) * | 2011-12-13 | 2013-06-19 | 北京千橡网景科技发展有限公司 | 用于在社交网络中推荐兴趣点的方法和设备 |
US20150056997A1 (en) * | 2013-08-22 | 2015-02-26 | Qualcomm Incorporated | Methods and apparatus for improved cell re-selection with autonomous search function |
CN104504150A (zh) * | 2015-01-09 | 2015-04-08 | 成都布林特信息技术有限公司 | 新闻舆情监测系统 |
CN105373604A (zh) * | 2015-11-09 | 2016-03-02 | 北京奇虎科技有限公司 | 书籍库中相似书的挖掘、净化方法和装置 |
CN105718506A (zh) * | 2016-01-04 | 2016-06-29 | 胡新伟 | 一种科技项目查重对比的方法 |
WO2017134801A1 (ja) * | 2016-02-04 | 2017-08-10 | 富士通株式会社 | 項目名対応付け処理方法、項目名対応付け処理プログラム及び情報処理装置 |
JP2018036744A (ja) * | 2016-08-30 | 2018-03-08 | 株式会社パスコ | 類似文字列検出装置及び類似文字列検出方法並びに類似文字列検出プログラム |
CN107633067A (zh) * | 2017-09-21 | 2018-01-26 | 北京工业大学 | 一种基于人员行为规律和数据挖掘方法的群体识别方法 |
WO2019063387A1 (en) * | 2017-09-29 | 2019-04-04 | Telefonaktiebolaget Lm Ericsson (Publ) | CREATING A PSEUDONYM TO REQUEST A NETWORK TRANCHE |
CN110852057A (zh) * | 2018-07-27 | 2020-02-28 | 北京京东尚科信息技术有限公司 | 一种计算文本相似度的方法和装置 |
CN109101620A (zh) * | 2018-08-08 | 2018-12-28 | 广州神马移动信息科技有限公司 | 相似度计算方法、聚类方法、装置、存储介质及电子设备 |
CN109635030A (zh) * | 2018-12-14 | 2019-04-16 | 平安城市建设科技(深圳)有限公司 | 房源录入方法、装置、设备及可读存储介质 |
CN110750615A (zh) * | 2019-09-30 | 2020-02-04 | 贝壳技术有限公司 | 文本重复性判定方法和装置、电子设备和存储介质 |
CN110750509A (zh) * | 2019-10-24 | 2020-02-04 | 赛诺贝斯(北京)营销技术股份有限公司 | 一种企业名称查重方法及装置、设备、介质 |
CN111291155A (zh) * | 2020-01-17 | 2020-06-16 | 青梧桐有限责任公司 | 基于文本相似度的同名小区辨别方法及系统 |
Non-Patent Citations (1)
Title |
---|
千寻: "文本相识度算法(余弦相似性、简单共有词、编辑距离、SimHash、汉明距离、Jaccard相似性系数、欧几里得距离、曼哈顿距离)", pages 1 - 3, Retrieved from the Internet <URL:https://blog.csdn.net/u011630575/article/details/52164688> * |
Also Published As
Publication number | Publication date |
---|---|
CN111832304B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709527A (zh) | 运维知识图谱库的建立方法、装置、设备及存储介质 | |
CN112613917A (zh) | 基于用户画像的信息推送方法、装置、设备及存储介质 | |
CN111538774B (zh) | 数据存储及展示方法、系统、设备及存储介质 | |
CN111427971A (zh) | 用于计算机系统的业务建模方法、装置、系统和介质 | |
CN111339743B (zh) | 一种账号生成的方法和装置 | |
CN111046237A (zh) | 用户行为数据处理方法、装置、电子设备及可读介质 | |
CN111752944B (zh) | 数据分摊方法、装置、计算机设备及存储介质 | |
CN111125266A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN112925859B (zh) | 数据存储方法和装置 | |
CN112417274A (zh) | 一种消息推送方法、装置、电子设备及存储介质 | |
CN114205690A (zh) | 流量预测、模型训练方法及装置、电子设备、存储介质 | |
CN113987086A (zh) | 数据处理方法、数据处理装置、电子设备以及存储介质 | |
CN111160847A (zh) | 一种处理流程信息的方法和装置 | |
US10055421B1 (en) | Pre-execution query optimization | |
CN115203435A (zh) | 基于知识图谱的实体关系生成方法及数据查询方法 | |
CN112163127B (zh) | 关系图谱构建方法、装置、电子设备及存储介质 | |
CN107291923B (zh) | 信息处理方法和装置 | |
CN112966756A (zh) | 一种可视化的准入规则的生成方法、装置、机器可读介质及设备 | |
CN114860821A (zh) | 图数据库的数据导入方法及装置、存储介质、电子设备 | |
CN111898027A (zh) | 确定特征维度的方法、装置、电子设备和计算机可读介质 | |
CN111832304B (zh) | 楼盘名称的查重方法、装置、电子设备及存储介质 | |
US20170161359A1 (en) | Pattern-driven data generator | |
CN109542986B (zh) | 网络数据的要素归一化方法、装置、设备及存储介质 | |
CN112685388B (zh) | 数据模型表构建方法、装置、电子设备和计算机可读介质 | |
CN108920602B (zh) | 用于输出信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |