CN117131867B - 房本地址拆分方法、装置、计算机程序产品和存储介质 - Google Patents
房本地址拆分方法、装置、计算机程序产品和存储介质 Download PDFInfo
- Publication number
- CN117131867B CN117131867B CN202210541639.5A CN202210541639A CN117131867B CN 117131867 B CN117131867 B CN 117131867B CN 202210541639 A CN202210541639 A CN 202210541639A CN 117131867 B CN117131867 B CN 117131867B
- Authority
- CN
- China
- Prior art keywords
- address
- house
- splitting
- target
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000004590 computer program Methods 0.000 title claims abstract description 17
- 238000013507 mapping Methods 0.000 claims description 40
- 238000012549 training Methods 0.000 claims description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 abstract description 10
- 238000012015 optical character recognition Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种房本地址拆分方法、装置、计算机程序产品和存储介质,方法包括:对目标房本的房本地址进行拆分,确定房本地址的第一拆分结果;其中,第一拆分结果包括以下至少一项:省份、城市、地区;将房本地址输入至命名实体识别模型中,得到命名实体识别模型输出的房本地址的第二拆分结果;第二拆分结果包括以下至少一项:街道、小区、楼号、单元号、楼层、房间号;基于房本地址的第一拆分结果和第二拆分结果,确定目标房本的房本地址拆分结果。本发明能够得到房本地址完整的九级地址信息,从而为房屋评估等房产交易和管理环节提供有效的信息参考。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种房本地址拆分方法、装置、计算机程序产品和存储介质。
背景技术
房本光学字符识别(Optical Character Recognition,OCR)是房产交易中的核心备件,而OCR识别的地址混合着省、市、区、街道、小区、楼号、单元号、楼层、房间号等信息,这些经用户授权使用的信息在房屋评估中具有重要参考价值,因而需要将房本地址拆分为如上所述的九级地址。
相关技术中,由于各个省市的房本格式不一样,造成房本地址信息无统一格式,大部分房本地址信息不全,有些房本地址信息不包含市、街道、小区等,导致无法采用统一的规则进行拆分处理。
发明内容
本发明提供一种房本地址拆分方法、装置、计算机程序产品和存储介质,用以解决如何将无统一规则的房本地址进行拆分处理的问题。
本发明提供一种房本地址拆分方法,包括:
对目标房本的房本地址进行拆分,确定所述房本地址的第一拆分结果;其中,所述第一拆分结果包括以下至少一项:省份、城市、地区;
将所述房本地址输入至命名实体识别模型中,得到所述命名实体识别模型输出的所述房本地址的第二拆分结果;其中,所述命名实体识别模型是以样本地址和所述样本地址的第二拆分结果为训练样本进行训练后得到的;所述第二拆分结果包括以下至少一项:街道、小区、楼号、单元号、楼层、房间号;
基于所述房本地址的第一拆分结果和所述第二拆分结果,确定所述目标房本的房本地址拆分结果。
根据本发明提供的一种房本地址拆分方法,所述命名实体识别模型,包括:双向编码表征模型BERT、长短期记忆神经网络LSTM、条件随机场CRF模型。
根据本发明提供的一种房本地址拆分方法,所述对目标房本的房本地址进行拆分,确定所述房本地址的第一拆分结果,包括:
基于目标映射关系对所述房本地址进行拆分,确定所述房本地址的第一拆分结果;其中,所述目标映射关系用于表征省份与城市、及城市与地区的对应关系;
或者,调用目标地图应用中的地理编码对所述房本地址进行解析,得到所述房本地址的第一拆分结果。
根据本发明提供的一种房本地址拆分方法,所述基于目标映射关系对所述房本地址进行拆分,确定所述房本地址的第一拆分结果,包括:
对所述房本地址进行解析;在从所述房本地址中解析出目标城市的情况下,基于目标映射关系和所述目标城市,确定所述房本地址的目标省份;
或者,在从所述房本地址中解析出目标地区的情况下,基于所述目标映射关系和所述目标地区,确定所述房本地址的目标城市和目标省份。
根据本发明提供的一种房本地址拆分方法,所述基于所述目标映射关系和所述目标地区,确定所述房本地址的目标城市,包括:
在基于所述目标映射关系和所述目标地区确定至少两个城市的情况下,基于所述目标房本的房本编号确定所述房本地址的目标城市。
根据本发明提供的一种房本地址拆分方法,所述基于所述房本地址的第一拆分结果和所述第二拆分结果,确定所述目标房本的房本地址拆分结果,包括:
将所述房本地址的第一拆分结果和所述第二拆分结果进行合并,得到所述目标房本的房本地址拆分结果。
本发明还提供一种房本地址拆分装置,包括:
第一确定模块,用于对目标房本的房本地址进行拆分,确定所述房本地址的第一拆分结果;其中,所述第一拆分结果包括以下至少一项:省份、城市、地区;
识别模块,用于将所述房本地址输入至命名实体识别模型中,得到所述命名实体识别模型输出的所述房本地址的第二拆分结果;其中,所述命名实体识别模型是以样本地址和所述样本地址的第二拆分结果为训练样本进行训练后得到的;所述第二拆分结果包括以下至少一项:街道、小区、楼号、单元号、楼层、房间号;
第二确定模块,用于基于所述房本地址的第一拆分结果和所述第二拆分结果,确定所述目标房本的房本地址拆分结果。
本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行所述程序指令时实现如上述任一种所述房本地址拆分方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述房本地址拆分方法的步骤。
本发明提供的房本地址拆分方法、装置、计算机程序产品和存储介质,在对目标房本的房本地址进行拆分时,对于房本地址的向上三级信息和向下六级信息,分别采用不同方法进行拆分,即通过对房本地址进行拆分确定房本地址的第一拆分结果,通过将房本地址输入至命名实体识别模型中得到房本地址的第二拆分结果,进而基于第一拆分结果和第二拆分结果共同确定目标房本的房本地址拆分结果,得到房本地址完整的九级地址信息,从而为房屋评估等房产交易和管理环节提供有效的信息参考。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的房本地址拆分方法的流程示意图之一;
图2是本发明提供的房本地址拆分方法的流程示意图之二;
图3是本发明提供的房本地址拆分方法的流程示意图之三;
图4是本发明提供的房本地址拆分方法的流程示意图之四;
图5是本发明提供的房本地址拆分方法的流程示意图之五;
图6是本发明提供的房本地址拆分装置的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图5描述本发明的房本地址拆分方法。
图1为本发明提供的房本地址拆分方法的流程示意图之一,如图 1所示,该方法包括:
步骤110,对目标房本的房本地址进行拆分,确定所述房本地址的第一拆分结果;其中,所述第一拆分结果包括以下至少一项:省份、城市、地区。
可选地,本发明提供的房本地址拆分方法可应用于对房屋评估等房产交易和管理的应用场景中。本发明提供的房本地址拆分方法的执行主体可以为房本地址拆分装置,例如电子设备、或者该房本地址拆分装置中的用于执行房本地址拆分方法的控制模块。
可选地,目标房本为需要进行房产评估等房产交易和管理的房本。由于各地区的房本格式不统一,导致房本地址也无统一格式,大部分房本地址信息不全,有些房本地址不包含城市、街道、小区等信息。房本地址包括以下至少一项:省份、城市、地区、街道、小区、楼号、单元号、楼层、房间号等信息。
可选地,将房本地址和房本编号输入向上三级拆分算法进行拆分,得到房本地址的第一拆分结果。其中,向上三级拆分算法对房本地址的省份、城市、地区等三级地址进行拆分,得到房本地址的省份、城市、地区等三级地址,因此,房本地址的第一拆分结果包括以下至少一项:省份、城市、地区。
步骤120,将所述房本地址输入至命名实体识别模型中,得到所述命名实体识别模型输出的所述房本地址的第二拆分结果;其中,所述命名实体识别模型是以样本地址和所述样本地址的第二拆分结果为训练样本进行训练后得到的;所述第二拆分结果包括以下至少一项:街道、小区、楼号、单元号、楼层、房间号。
可选地,命名实体识别(Named Entity Recognition,NER)模型包括:双向编码表征模型(Bidirectional Encoder Representations from Transformers,BERT)、长短期记忆神经网络(Long Short-Term Memory, LSTM)、条件随机场(Conditional RandomFields,CRF)模型,其中, BERT模型用于抽取房本地址丰富的文本特征,LSTM模型从BERT模型的输出结果中提取房本地址识别所需的特征,CRF模型对LSTM 模型的输出结果进行解码,得到最优的标注序列。
可选地,针对街道、小区、楼号、单元号、楼层、房间号等向下六级地址,将六级地址标注后输入至NER模型,需要说明的是,对六级地址标注时需要定义地址标注规则,其中,“街道”使用“ST”标注,“小区”使用“RC”标注,“楼号”使用“BD”标注,“单元号”使用“UN”标注,“楼层”使用“LA”标注,“房号”使用“RM”标注。NER模型用于对房本地址中的街道、小区、楼号、单元号、楼层、房间号等六级地址信息进行命名实体识别,根据NER模型的输出结果得到六级地址信息。需要说明的是,针对特殊地址特殊处理。
可选地,NER模型是以样本地址和样本地址的第二拆分结果为训练样本进行训练后得到的。待NER模型训练好之后,输入房本地址至NER模型,就可以得到房本地址对应拆分后的结果。
可选地,房本地址的第二拆分结果包括以下至少一项:街道、小区、楼号、单元号、楼层、房间号。
步骤130,基于所述房本地址的第一拆分结果和所述第二拆分结果,确定所述目标房本的房本地址拆分结果。
可选地,将房本地址的第一拆分结果和第二拆分结果合并,得到目标房本的房本地址的拆分结果。
本发明提供的房本地址拆分方法,在对目标房本的房本地址进行拆分时,对于房本地址的向上三级信息和向下六级信息,分别采用不同方法进行拆分,即通过对房本地址进行拆分确定房本地址的第一拆分结果,通过将房本地址输入至命名实体识别模型中得到房本地址的第二拆分结果,进而基于第一拆分结果和第二拆分结果共同确定目标房本的房本地址拆分结果,得到房本地址完整的九级地址信息,从而为房屋评估等房产交易和管理环节提供有效的信息参考。
可选地,图2为本发明提供的房本地址拆分方法的流程示意图之二,如图2所示,该方法包括:
步骤210,基于目标映射关系对所述房本地址进行拆分,确定所述房本地址的第一拆分结果;其中,所述目标映射关系用于表征省份与城市、及城市与地区的对应关系;或者,调用目标地图应用中的地理编码对所述房本地址进行解析,得到所述房本地址的第一拆分结果。
可选地,目标映射关系是预先设置的,用于表征省份与城市、及城市与地区之间的对应关系。
可选地,根据目标映射关系对房本地址进行拆分,首先根据房本地址拆分出城市,若城市存在,则根据目标映射关系中城市与省份之间的对应关系查找确定出省份,从而确定房本地址的第一拆分结果;其次根据房本地址拆分出地区,若地区存在,则根据目标映射关系中城市与地区之间的对应关系查找确定出城市,从而确定房本地址的第一拆分结果。
可选地,目标地图应用为选择的用于房本地址拆分的地图应用。
可选地,地理编码能够从已知的房本地址,查询该房本地址对应在目标地图应用上的点坐标,从而确定出房本地址的城市或者地区信息。当对房本地址进行拆分时未得到城市或者地区信息,则调用目标地图应用中的地理编码对房本地址进行解析,得到房本地址的第一拆分结果。
步骤220,将所述房本地址输入至命名实体识别模型中,得到所述命名实体识别模型输出的所述房本地址的第二拆分结果;其中,所述命名实体识别模型是以样本地址和所述样本地址的第二拆分结果为训练样本进行训练后得到的;所述第二拆分结果包括以下至少一项:街道、小区、楼号、单元号、楼层、房间号。
步骤230,基于所述房本地址的第一拆分结果和所述第二拆分结果,确定所述目标房本的房本地址拆分结果。
可选地,关于步骤220-230的说明和解释,可以参照上述针对步骤120-130的说明和解释,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明提供的房本地址拆分方法,通过预先设置省份与城市、城市与地区之间对应的目标映射关系对房本地址进行拆分得到城市或地区信息,或者调用目标地图应用中的地理编码对房本地址进行解析得到城市或地区信息,从而确定房本地址的第一拆分结果,再通过将房本地址输入至命名实体识别模型中得到房本地址的第二拆分结果,进而基于第一拆分结果和第二拆分结果共同确定目标房本的房本地址拆分结果,得到房本地址完整的九级地址信息,从而为房屋评估等房产交易和管理环节提供有效的信息参考。
可选地,图3为本发明提供的房本地址拆分方法的流程示意图之三,如图3所示,该方法包括:
步骤310,对所述房本地址进行解析;在从所述房本地址中解析出目标城市的情况下,基于目标映射关系和所述目标城市,确定所述房本地址的目标省份;或者,在从所述房本地址中解析出目标地区的情况下,基于所述目标映射关系和所述目标地区,确定所述房本地址的目标城市和目标省份。
可选地,在基于目标映射关系和目标地区确定出至少两个城市的情况下,基于目标房本的房本编号确定房本地址的目标城市。
具体地,从房本地址解析的目标地区确定得到房本地址的目标城市可能不唯一,一个目标地区对应一个或多个目标城市,例如,朝阳区对应北京市和长春市。此时,结合房本编号进行判断,确定房本地址的目标城市。由于房本编号大部分是城市、省份等缩写,例如,苏房权证相城住字第30098376号,因此需要构建省份的省会城市简称查询表,根据省会城市简称查询表和房本编号中城市、省份等缩写确定出房本地址的目标城市,从而确定房本地址的目标城市。
可选地,根据目标房本获取目标房本的房本图片,将目标房本的房本图片输入至房本OCR模型中,房本OCR模型输出房本信息。房本OCR模型识别出房本信息后,使用模版匹配技术匹配出房本地址和房本编号。其中,模版匹配技术用于将房本信息与模版房本信息匹配,得到房本地址和房本编号,房本OCR模型指对目标房本的房本图片进行分析识别处理,获取目标房本的房本地址及房本编号的过程,即将房本图片中的文字进行识别,并以文本的形式返回。
可选地,若从房本地址中解析出目标城市的情况下,根据目标映射关系和目标城市,从目标映射关系中查找出目标城市对应的目标省份,从而确定出房本地址的目标省份。
可选地,若从房本地址中解析出目标地区的情况下,根据目标映射关系和目标地区,从目标映射关系中查找出目标地区对应的目标城市,从而确定出房本地址的目标城市,再根据目标城市和目标映射关系查找出目标城市对应的目标省份。
步骤320,将所述房本地址输入至命名实体识别模型中,得到所述命名实体识别模型输出的所述房本地址的第二拆分结果;其中,所述命名实体识别模型是以样本地址和所述样本地址的第二拆分结果为训练样本进行训练后得到的;所述第二拆分结果包括以下至少一项:街道、小区、楼号、单元号、楼层、房间号。
步骤330,基于所述房本地址的第一拆分结果和所述第二拆分结果,确定所述目标房本的房本地址拆分结果。
可选地,关于步骤320-330的说明和解释,可以参照上述针对步骤120-130的说明和解释,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明提供的房本地址拆分方法,通过对房本地址进行解析得到目标城市或者目标地区,再根据目标城市与目标映射关系确定出房本地址的目标省份,以及根据目标地区与目标映射关系确定出房本地址的目标城市和目标省份,从而确定房本地址的第一拆分结果,再通过将房本地址输入至命名实体识别模型中得到房本地址的第二拆分结果,进而基于第一拆分结果和第二拆分结果共同确定目标房本的房本地址拆分结果,得到房本地址完整的九级地址信息,从而为房屋评估等房产交易和管理环节提供有效的信息参考。
可选地,图4为本发明提供的房本地址拆分方法的流程示意图之四,如图4所示,该方法包括:
步骤410,对目标房本的房本地址进行拆分,确定所述房本地址的第一拆分结果;其中,所述第一拆分结果包括以下至少一项:省份、城市、地区。
步骤420,将所述房本地址输入至命名实体识别模型中,得到所述命名实体识别模型输出的所述房本地址的第二拆分结果;其中,所述命名实体识别模型是以样本地址和所述样本地址的第二拆分结果为训练样本进行训练后得到的;所述第二拆分结果包括以下至少一项:街道、小区、楼号、单元号、楼层、房间号。
可选地,关于步骤410-420的说明和解释,可以参照上述针对步骤110-120的说明和解释,且能达到相同的技术效果,为避免重复,这里不再赘述。
步骤430,将所述房本地址的第一拆分结果和所述第二拆分结果进行合并,得到所述目标房本的房本地址拆分结果。
可选地,房本地址的第一拆分结果包括以下至少一项:省份、城市、地区,第二拆分结果包括以下至少一项:街道、小区、楼号、单元号、楼层、房间号。
可选地,将向上三级拆分算法得到的第一拆分结果与向下六级拆分得到的第二拆分结果分别封装为类,将向上三级拆分算法得到的结果与向下六级拆分结果合并输出,并对特殊地址规则处理,例如房间号为2-1-205。
可选地,将房本地址的第一拆分结果与第二拆分结果按照省份、城市、地区、街道、小区、楼号、单元号、楼层、房间号等顺序合并,得到目标房本的房本地址拆分结果。
本发明提供的房本地址拆分方法,通过对房本地址进行拆分确定房本地址的第一拆分结果,及房本地址的第二拆分结果,进而将第一拆分结果和第二拆分结果合并确定目标房本的房本地址拆分结果,得到房本地址完整的九级地址信息,从而为房屋评估等房产交易和管理环节提供有效的信息参考。
可选地,图5为本发明提供的房本地址拆分方法的流程示意图之五,如图5所示,该方法具体实施过程如下:
步骤510,获取目标房本的房本图片。根据待拆分房本地址的目标房本获取目标房本的房本图片,其中,房本图片可以是通过拍照得到,也可以经过扫描得到。
步骤520,将房本图片输入至房本OCR模型。房本OCR模型对输入的房本图片进行识别,得到房本图片的房本信息,其中,房本信息包括至少一下一项:房本地址、房本编号。
步骤530,模版匹配。房本OCR模型识别出房本信息后,经过模版匹配技术匹配得到房本地址和房本编号,例如,房本地址为“开发区xx路157号南办公2909户”,房本编号为“鲁(2018)青岛市黄岛区不动产权第01505*号”;或者只匹配得到房本地址,而未匹配得到房本编号,例如,房本地址为“和平南路358号”,未匹配得到房本编号。
步骤540,地址向上三级拆分算法。将房本地址和房本编号输入地址向上三级拆分算法,根据房本地址拆分出目标城市,若有目标城市,根据目标映射关系及目标城市查询得到目标城市对应的目标省份;再根据房本地址拆分出目标地区,若有目标地区,根据目标映射关系及目标地区查询得到目标地区对应的目标城市。若目标地区对应的目标城市不唯一,例如,朝阳区对应北京市和长春市,在这种情况下,再结合房本编号进行判断。由于房本编号大部分是城市、省份等缩写,需要构建省份的省会简称查询表,从而得到目标地区对应的目标城市。
需要说明的是,若结合房本地址及房本编号无法得到房本地址的目标城市或者目标地区,则调用目标地图应用中的地理编码,将房本地址输入至目标地图应用中,得到该房本地址对应在目标地图应用上的点坐标,从而确定出房本地址的城市或者地区信息。定义向上三级拆分类,包括获取城市、地区、搜索城市、省份、处理房本编号等功能。
步骤550,地址向下六级拆分。针对街道、小区、楼号、单元号、楼层、房间号等地址信息,由于毫无规则,而且地址多样,无法通过固定规则进行拆分提取,因此采用NER模型对其进行命名实体识别,对于特殊情况单独处理。
需要说明的是,在使用NER模型之前,先定义需要标注的地址规则,例如,“街道”使用“ST”标注,“小区”使用“RC”标注,“楼号”使用“BD”标注,“单元号”使用“UN”标注,“楼层”使用“LA”标注,“房号”使用“RM”标注。将标注之后的地址输入至NER模型进行训练和处理,为了减少地址标注数量,增加NER模型的泛化能力,NER模型采用BERT模型、LSTM模型和CRF模型架构设计。待模型训练好之后,输入房本地址至NER模型,NER模型输出对应拆分后的地址。
步骤560,将向上三级拆分的结果与向下六级拆分的结果合并。向上三级拆分的结果为第一拆分结果,第一拆分结果包括以下至少一项:省份、城市、地区。向下六级拆分的结果为第二拆分结果,第二拆分结果包括以下至少一项:街道、小区、楼号、单元号、楼层、房间号。将房本地址的第一拆分结果与第二拆分结果进行合并,得到最终的房本地址拆分后的九级地址。
本发明提供的房本地址拆分方法,通过房本OCR模型对目标房本的房本地址进行拆分,对于房本地址的向上三级信息和向下六级信息,分别采用不同方法进行拆分,即通过对房本地址进行拆分确定房本地址的第一拆分结果,通过将房本地址输入至命名实体识别模型中得到房本地址的第二拆分结果,进而基于第一拆分结果和第二拆分结果共同确定目标房本的房本地址拆分结果,得到房本地址完整的九级地址信息,从而为房屋评估等房产交易和管理环节提供有效的信息参考。
下面对本发明提供的房本地址拆分装置进行描述,下文描述的房本地址拆分装置与上文描述的房本地址拆分方法可相互对应参照。
本发明提供一种房本地址拆分装置,图6为本发明提供的房本地址拆分装置的结构示意图,如图6所示,房本地址拆分装置600包括:第一确定模块601、识别模块602、第二确定模块603;其中,
第一确定模块601,用于对目标房本的房本地址进行拆分,确定所述房本地址的第一拆分结果;其中,所述第一拆分结果包括以下至少一项:省份、城市、地区;
识别模块602,用于将所述房本地址输入至命名实体识别模型中,得到所述命名实体识别模型输出的所述房本地址的第二拆分结果;其中,所述命名实体识别模型是以样本地址和所述样本地址的第二拆分结果为训练样本进行训练后得到的;所述第二拆分结果包括以下至少一项:街道、小区、楼号、单元号、楼层、房间号;
第二确定模块603,用于基于所述房本地址的第一拆分结果和所述第二拆分结果,确定所述目标房本的房本地址拆分结果。
本发明提供的房本地址拆分装置,在对目标房本的房本地址进行拆分时,对于房本地址的向上三级信息和向下六级信息,分别采用不同方法进行拆分,即通过对房本地址进行拆分确定房本地址的第一拆分结果,通过将房本地址输入至命名实体识别模型中得到房本地址的第二拆分结果,进而基于第一拆分结果和第二拆分结果共同确定目标房本的房本地址拆分结果,得到房本地址完整的九级地址信息,从而为房屋评估等房产交易和管理环节提供有效的信息参考。
可选地,所述命名实体识别模型,包括:双向编码表征模型BERT、长短期记忆神经网络LSTM、条件随机场CRF模型。
可选地,第一确定模块601,具体用于:基于目标映射关系对所述房本地址进行拆分,确定所述房本地址的第一拆分结果;其中,所述目标映射关系用于表征省份与城市、及城市与地区的对应关系;
或者,调用目标地图应用中的地理编码对所述房本地址进行解析,得到所述房本地址的第一拆分结果。
可选地,第一确定模块601,具体用于:对所述房本地址进行解析;在从所述房本地址中解析出目标城市的情况下,基于目标映射关系和所述目标城市,确定所述房本地址的目标省份;
或者,在从所述房本地址中解析出目标地区的情况下,基于所述目标映射关系和所述目标地区,确定所述房本地址的目标城市和目标省份。
可选地,第一确定模块601,具体用于:在基于所述目标映射关系和所述目标地区确定至少两个城市的情况下,基于所述目标房本的房本编号确定所述房本地址的目标城市。
可选地,第二确定模块603,具体用于:将所述房本地址的第一拆分结果和所述第二拆分结果进行合并,得到所述目标房本的房本地址拆分结果。
图7为本发明提供的电子设备的实体结构示意图,如图7所示,该电子设备700可以包括:处理器(processor)710、通信接口 (Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行房本地址拆分方法,该方法包括:对目标房本的房本地址进行拆分,确定房本地址的第一拆分结果;其中,第一拆分结果包括以下至少一项:省份、城市、地区;将房本地址输入至命名实体识别模型中,得到命名实体识别模型输出的房本地址的第二拆分结果;其中,命名实体识别模型是以样本地址和样本地址的第二拆分结果为训练样本进行训练后得到的;第二拆分结果包括以下至少一项:街道、小区、楼号、单元号、楼层、房间号;基于房本地址的第一拆分结果和第二拆分结果,确定目标房本的房本地址拆分结果。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的房本地址拆分方法,该方法包括:对目标房本的房本地址进行拆分,确定房本地址的第一拆分结果;其中,第一拆分结果包括以下至少一项:省份、城市、地区;将房本地址输入至命名实体识别模型中,得到命名实体识别模型输出的房本地址的第二拆分结果;其中,命名实体识别模型是以样本地址和样本地址的第二拆分结果为训练样本进行训练后得到的;第二拆分结果包括以下至少一项:街道、小区、楼号、单元号、楼层、房间号;基于房本地址的第一拆分结果和第二拆分结果,确定目标房本的房本地址拆分结果。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的房本地址拆分方法,该方法包括:对目标房本的房本地址进行拆分,确定房本地址的第一拆分结果;其中,第一拆分结果包括以下至少一项:省份、城市、地区;将房本地址输入至命名实体识别模型中,得到命名实体识别模型输出的房本地址的第二拆分结果;其中,命名实体识别模型是以样本地址和样本地址的第二拆分结果为训练样本进行训练后得到的;第二拆分结果包括以下至少一项:街道、小区、楼号、单元号、楼层、房间号;基于房本地址的第一拆分结果和第二拆分结果,确定目标房本的房本地址拆分结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种房本地址拆分方法,其特征在于,包括:
采用向上三级地址拆分算法对目标房本的房本地址进行拆分,确定所述房本地址的第一拆分结果;包括:根据所述房本地址拆分出目标地区,若有所述目标地区,根据目标映射关系及目标地区查询得到目标地区对应的目标城市;若所述目标地区对应的目标城市不唯一,结合房本编号进行判断;其中,所述第一拆分结果包括以下至少一项:省份、城市、地区;
将所述房本地址输入至命名实体识别模型中,采用向下六级地址拆分算法进行拆分,得到所述命名实体识别模型输出的所述房本地址的第二拆分结果;其中,所述命名实体识别模型是以样本地址和所述样本地址的第二拆分结果为训练样本进行训练后得到的;所述第二拆分结果包括以下至少一项:街道、小区、楼号、单元号、楼层、房间号;所述向上三级地址拆分算法与所述向下六级地址拆分算法不同;
基于所述房本地址的第一拆分结果和所述第二拆分结果,确定所述目标房本的房本地址拆分结果。
2.根据权利要求1所述的房本地址拆分方法,其特征在于,所述命名实体识别模型,包括:双向编码表征模型BERT、长短期记忆神经网络LSTM、条件随机场CRF模型。
3.根据权利要求1所述的房本地址拆分方法,其特征在于,所述对目标房本的房本地址进行拆分,确定所述房本地址的第一拆分结果,包括:
基于目标映射关系对所述房本地址进行拆分,确定所述房本地址的第一拆分结果;其中,所述目标映射关系用于表征省份与城市、及城市与地区的对应关系;
或者,调用目标地图应用中的地理编码对所述房本地址进行解析,得到所述房本地址的第一拆分结果。
4.根据权利要求3所述的房本地址拆分方法,其特征在于,所述基于目标映射关系对所述房本地址进行拆分,确定所述房本地址的第一拆分结果,包括:
对所述房本地址进行解析;在从所述房本地址中解析出目标城市的情况下,基于目标映射关系和所述目标城市,确定所述房本地址的目标省份;
或者,在从所述房本地址中解析出目标地区的情况下,基于所述目标映射关系和所述目标地区,确定所述房本地址的目标城市和目标省份。
5.根据权利要求4所述的房本地址拆分方法,其特征在于,所述基于所述目标映射关系和所述目标地区,确定所述房本地址的目标城市,包括:
在基于所述目标映射关系和所述目标地区确定至少两个城市的情况下,基于所述目标房本的房本编号确定所述房本地址的目标城市。
6.根据权利要求1所述的房本地址拆分方法,其特征在于,所述基于所述房本地址的第一拆分结果和所述第二拆分结果,确定所述目标房本的房本地址拆分结果,包括:
将所述房本地址的第一拆分结果和所述第二拆分结果进行合并,得到所述目标房本的房本地址拆分结果。
7.一种房本地址拆分装置,其特征在于,包括:
第一确定模块,用于采用向上三级地址拆分算法对目标房本的房本地址进行拆分,确定所述房本地址的第一拆分结果;包括:根据所述房本地址拆分出目标地区,若有所述目标地区,根据目标映射关系及目标地区查询得到目标地区对应的目标城市;若所述目标地区对应的目标城市不唯一,结合房本编号进行判断;其中,所述第一拆分结果包括以下至少一项:省份、城市、地区;
识别模块,用于将所述房本地址输入至命名实体识别模型中,采用向下六级地址拆分算法进行拆分,得到所述命名实体识别模型输出的所述房本地址的第二拆分结果;其中,所述命名实体识别模型是以样本地址和所述样本地址的第二拆分结果为训练样本进行训练后得到的;所述第二拆分结果包括以下至少一项:街道、小区、楼号、单元号、楼层、房间号;所述向上三级地址拆分算法与所述向下六级地址拆分算法不同;
第二确定模块,用于基于所述房本地址的第一拆分结果和所述第二拆分结果,确定所述目标房本的房本地址拆分结果。
8.一种计算机程序产品,其特征在于,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行所述程序指令时实现如权利要求1至6任一项所述房本地址拆分方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述房本地址拆分方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210541639.5A CN117131867B (zh) | 2022-05-17 | 2022-05-17 | 房本地址拆分方法、装置、计算机程序产品和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210541639.5A CN117131867B (zh) | 2022-05-17 | 2022-05-17 | 房本地址拆分方法、装置、计算机程序产品和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117131867A CN117131867A (zh) | 2023-11-28 |
CN117131867B true CN117131867B (zh) | 2024-05-14 |
Family
ID=88849502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210541639.5A Active CN117131867B (zh) | 2022-05-17 | 2022-05-17 | 房本地址拆分方法、装置、计算机程序产品和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117131867B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073724A (zh) * | 2011-01-11 | 2011-05-25 | 深圳市络道科技有限公司 | 一种中文地址自动归户识别系统及方法 |
WO2015027836A1 (zh) * | 2013-08-27 | 2015-03-05 | 深圳市华傲数据技术有限公司 | 一种地名实体识别的方法及系统 |
WO2018150244A1 (en) * | 2017-02-18 | 2018-08-23 | Yogesh Chunilal Rathod | Registering, auto generating and accessing unique word(s) including unique geotags |
CN109359200A (zh) * | 2018-10-11 | 2019-02-19 | 北京国信达数据技术有限公司 | 地名地址数据智能解析系统 |
CN109359186A (zh) * | 2018-10-25 | 2019-02-19 | 杭州时趣信息技术有限公司 | 一种确定地址信息的方法、装置和计算机可读存储介质 |
CN109684440A (zh) * | 2018-12-13 | 2019-04-26 | 北京惠盈金科技术有限公司 | 基于层级标注的地址相似度度量方法 |
CN109740150A (zh) * | 2018-12-20 | 2019-05-10 | 出门问问信息科技有限公司 | 地址解析方法、装置、计算机设备及计算机可读存储介质 |
CN111161086A (zh) * | 2019-12-16 | 2020-05-15 | 中国平安财产保险股份有限公司 | 业务数据的查询方法、系统、计算机设备及存储介质 |
CN111914557A (zh) * | 2020-07-31 | 2020-11-10 | 上海燕汐软件信息科技有限公司 | 地址解析方法、装置、设备及计算机可读存储介质 |
CN112329467A (zh) * | 2020-11-03 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 地址识别方法、装置、电子设备以及存储介质 |
CN113553847A (zh) * | 2020-04-24 | 2021-10-26 | 中国电信股份有限公司 | 用于对地址文本进行解析的方法、装置、系统和存储介质 |
CN113761137A (zh) * | 2020-06-02 | 2021-12-07 | 阿里巴巴集团控股有限公司 | 一种提取地址信息的方法及装置 |
CN113779427A (zh) * | 2021-08-11 | 2021-12-10 | 荣耀终端有限公司 | 日程地址识别方法、设备、存储介质和软件程序产品 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021000362A1 (zh) * | 2019-07-04 | 2021-01-07 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
-
2022
- 2022-05-17 CN CN202210541639.5A patent/CN117131867B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073724A (zh) * | 2011-01-11 | 2011-05-25 | 深圳市络道科技有限公司 | 一种中文地址自动归户识别系统及方法 |
WO2015027836A1 (zh) * | 2013-08-27 | 2015-03-05 | 深圳市华傲数据技术有限公司 | 一种地名实体识别的方法及系统 |
WO2018150244A1 (en) * | 2017-02-18 | 2018-08-23 | Yogesh Chunilal Rathod | Registering, auto generating and accessing unique word(s) including unique geotags |
CN109359200A (zh) * | 2018-10-11 | 2019-02-19 | 北京国信达数据技术有限公司 | 地名地址数据智能解析系统 |
CN109359186A (zh) * | 2018-10-25 | 2019-02-19 | 杭州时趣信息技术有限公司 | 一种确定地址信息的方法、装置和计算机可读存储介质 |
CN109684440A (zh) * | 2018-12-13 | 2019-04-26 | 北京惠盈金科技术有限公司 | 基于层级标注的地址相似度度量方法 |
CN109740150A (zh) * | 2018-12-20 | 2019-05-10 | 出门问问信息科技有限公司 | 地址解析方法、装置、计算机设备及计算机可读存储介质 |
CN111161086A (zh) * | 2019-12-16 | 2020-05-15 | 中国平安财产保险股份有限公司 | 业务数据的查询方法、系统、计算机设备及存储介质 |
CN113553847A (zh) * | 2020-04-24 | 2021-10-26 | 中国电信股份有限公司 | 用于对地址文本进行解析的方法、装置、系统和存储介质 |
CN113761137A (zh) * | 2020-06-02 | 2021-12-07 | 阿里巴巴集团控股有限公司 | 一种提取地址信息的方法及装置 |
CN111914557A (zh) * | 2020-07-31 | 2020-11-10 | 上海燕汐软件信息科技有限公司 | 地址解析方法、装置、设备及计算机可读存储介质 |
CN112329467A (zh) * | 2020-11-03 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 地址识别方法、装置、电子设备以及存储介质 |
CN113779427A (zh) * | 2021-08-11 | 2021-12-10 | 荣耀终端有限公司 | 日程地址识别方法、设备、存储介质和软件程序产品 |
Non-Patent Citations (2)
Title |
---|
地址树模型的中文地址提取方法;亢孟军 等;《测绘学报》;20150131;第44卷(第1期);99-107 * |
电力大数据中文地址解析和规范化方法研究;刘婷婷 等;《电力信息与通信技术》;20171231;第15卷(第5期);1-7 * |
Also Published As
Publication number | Publication date |
---|---|
CN117131867A (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918673B (zh) | 语义仲裁方法、装置、电子设备和计算机可读存储介质 | |
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
US20220138193A1 (en) | Conversion method and systems from natural language to structured query language | |
CN111274822A (zh) | 语义匹配方法、装置、设备及存储介质 | |
CN112801099B (zh) | 一种图像处理方法、装置、终端设备及介质 | |
CN115238688B (zh) | 电子信息数据关联关系分析方法、装置、设备和存储介质 | |
CN114120299A (zh) | 信息获取方法、装置、存储介质及设备 | |
CN112328936A (zh) | 一种网站识别方法、装置、设备及计算机可读存储介质 | |
CN113822521B (zh) | 题库题目的质量检测方法、装置及存储介质 | |
CN114091551A (zh) | 色情图像识别方法、装置、电子设备及存储介质 | |
CN117131867B (zh) | 房本地址拆分方法、装置、计算机程序产品和存储介质 | |
Kim et al. | Towards a fairer landmark recognition dataset | |
Ledesma et al. | Enabling automated herbarium sheet image post‐processing using neural network models for color reference chart detection | |
CN116976341A (zh) | 实体识别方法、装置、电子设备、存储介质及程序产品 | |
CN116431625A (zh) | 一种地理实体的定位分析方法、装置及计算机设备 | |
CN111598075B (zh) | 图片生成方法、设备及可读存储介质 | |
CN113887671A (zh) | 基于图像识别技术的建筑图纸信息自动提取方法及系统 | |
CN113836297A (zh) | 文本情感分析模型的训练方法及装置 | |
CN111177228A (zh) | 基于学科评估的数据处理方法、系统、装置及电子设备 | |
CN109344392A (zh) | 一种证券客服咨询的智能消息推送方法、系统及装置 | |
CN115908998B (zh) | 水深数据识别模型的训练方法、水深数据识别方法及装置 | |
CN113988176B (zh) | 样本标注方法和装置 | |
CN115017307B (zh) | 一种中文热线的文本数据自动识别与分类的方法 | |
CN114385903B (zh) | 应用账号的识别方法、装置、电子设备及可读存储介质 | |
CN117851545A (zh) | 基于数据中台的数据查询方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |