CN112069273A - 地址文本的分类方法、装置、电子设备及存储介质 - Google Patents

地址文本的分类方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112069273A
CN112069273A CN202010811547.5A CN202010811547A CN112069273A CN 112069273 A CN112069273 A CN 112069273A CN 202010811547 A CN202010811547 A CN 202010811547A CN 112069273 A CN112069273 A CN 112069273A
Authority
CN
China
Prior art keywords
address
participles
text
speech
classifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010811547.5A
Other languages
English (en)
Inventor
吴帝
孔令其
程昆
王晓炜
王胜
张定棋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fengtu Technology Shenzhen Co Ltd
Original Assignee
Fengtu Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fengtu Technology Shenzhen Co Ltd filed Critical Fengtu Technology Shenzhen Co Ltd
Priority to CN202010811547.5A priority Critical patent/CN112069273A/zh
Publication of CN112069273A publication Critical patent/CN112069273A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Remote Sensing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种地址文本的分类方法、装置、电子设备及存储介质,该地址文本的分类方法包括:获取地址文本;基于词性对地址文本进行分词,得到多个第一地址分词和多个第一地址分词对应的词性;基于预设词性范围对多个第一地址分词进行筛选,得到筛选结果;基于筛选结果确定地址文本的地址类型。本申请地址文本的分类方法首先基于词性对地址文本分词得到多个第一地址分词和对应的词性,然后根据预设词性范围对分词后的第一地址分词进行筛选,得到筛选结果,可以根据需求去除干扰词性对应的第一地址分词,从而提高地址文本分类的效率和准确率。

Description

地址文本的分类方法、装置、电子设备及存储介质
技术领域
本申请涉及自然语言处理技术领域,具体涉及一种地址文本的分类方法、装置、电子设备及存储介质。
背景技术
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
在信息化技术高速发展的今天,计算机识别已经代替人工识别成为一种高效处理信息的方法。在快递领域,一条地址里包含了丰富信息,通常通过人工核实来提取出其中相关信息,并对地址文本进行分类,当数据量倍增时人工核实的方法效率较低且准确率较低。
发明内容
本申请旨在提供一种地址文本的分类方法、装置、电子设备及存储介质,旨在解决现有技术中地址文本分类效率较低且准确率较低的问题。
一方面,本申请提供一种地址文本的分类方法,所述分类方法包括:
获取地址文本;
基于词性对所述地址文本进行分词,得到多个第一地址分词和所述多个第一地址分词对应的词性;
基于预设词性范围对所述多个第一地址分词进行筛选,得到筛选结果;
基于所述筛选结果确定所述地址文本的地址类型。
其中,所述基于预设词性范围对所述多个第一地址分词进行筛选,得到筛选结果,包括:
判断所述多个第一地址分词中是否存在预设的指示方位词;
若所述多个第一地址分词中不存在所述指示方位词,则基于预设词性范围对所述多个第一地址分词进行筛选。
其中,所述地址文本的分类方法还包括:
若所述多个第一地址分词中存在所述指示方位词,则获取所述指示方位词与所述多个第一地址分词的位置关系;
基于所述位置关系和所述指示方位词的类型对所述多个第一地址分词进行筛选,得到多个第二地址分词;
基于所述预设词性范围对所述多个第二地址分词进行筛选,得到所述筛选结果。
其中,所述基于所述筛选结果确定所述地址文本的地址类型,包括:
基于所述筛选结果中的地址分词获取地址主体词;
基于所述地址主体词确定所述地址文本的地址类型。
其中,所述基于所述筛选结果中的地址分词获取地址主体词,包括:
当所述筛选结果中的地址分词的数量为至少两个时,基于预设词性组合策略对所述筛选结果中的地址分词进行组合,得到所述地址主体词。
其中,所述基于所述地址主体词确定所述地址文本的地址类型,包括:
判断第一预设数据库中是否存在所述地址主体词,其中,所述第一预设数据库中存储有信息点名称和地址类型的对应关系;
若所述第一预设数据库中存在所述地址主体词,则将所述地址主体词对应的地址类型确定为所述地址文本的地址类型。
其中,所述地址文本的分类方法还包括:
若所述第一预设数据库中不存在所述地址主体词,则判断第二预设数据库中是否存在与所述地址主体词匹配的正则表达式,其中,所述第二预设数据库中存储有多个地址类型对应的正则表达式;
若所述第二预设数据库中存在与所述地址主体词匹配的正则表达式,则将与所述地址主体词匹配的正则表达式对应的地址类型确定为所述地址文本的地址类型。
一方面,本申请提供一种地址文本的分类装置,所述分类装置包括:
获取单元,用于获取地址文本;
分词单元,用于基于词性对所述地址文本进行分词,得到多个第一地址分词和所述多个第一地址分词对应的词性;
筛选单元,用于基于预设词性范围对所述多个第一地址分词进行筛选,得到筛选结果;
确定单元,用于基于所述筛选结果确定所述地址文本的地址类型。
其中,所述筛选单元,还用于判断所述多个第一地址分词中是否存在预设的指示方位词;
若所述多个第一地址分词中不存在所述指示方位词,则基于预设词性范围对所述多个第一地址分词进行筛选。
其中,所述筛选单元,还用于若所述多个第一地址分词中存在所述指示方位词,则获取所述指示方位词与所述多个第一地址分词的位置关系;
基于所述位置关系和所述指示方位词的类型对所述多个第一地址分词进行筛选,得到多个第二地址分词;
基于所述预设词性范围对所述多个第二地址分词进行筛选,得到所述筛选结果。
其中,所述确定单元,还用于基于所述筛选结果中的地址分词获取地址主体词;
基于所述地址主体词确定所述地址文本的地址类型。
其中,所述确定单元,还用于当所述筛选结果中的地址分词的数量为至少两个时,基于预设词性组合策略对所述筛选结果中的地址分词进行组合,得到所述地址主体词。
其中,所述确定单元,还用于判断第一预设数据库中是否存在所述地址主体词,其中,所述第一预设数据库中存储有信息点名称和地址类型的对应关系;
若所述第一预设数据库中存在所述地址主体词,则将所述地址主体词对应的地址类型确定为所述地址文本的地址类型。
其中,所述确定单元,还用于若所述第一预设数据库中不存在所述地址主体词,则判断第二预设数据库中是否存在与所述地址主体词匹配的正则表达式,其中,所述第二预设数据库中存储有多个地址类型对应的正则表达式;
若所述第二预设数据库中存在与所述地址主体词匹配的正则表达式,则将与所述地址主体词匹配的正则表达式对应的地址类型确定为所述地址文本的地址类型。
一方面,本申请提供一种电子设备,所述电子设备包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现第一方面任一项所述的地址文本的分类方法。
一方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行第一方面任一项所述的地址文本的分类方法中的步骤。
本申请提供一种地址文本的分类方法,首先基于词性对地址文本分词得到多个第一地址分词和对应的词性,然后根据预设词性范围对分词后的第一地址分词进行筛选,得到筛选结果,可以根据需求去除干扰词性对应的第一地址分词,从而提高地址文本分类的效率和准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的地址文本的分类系统的场景示意图;
图2是本申请实施例提供的地址文本的分类方法一个实施例流程示意图;
图3是本申请实施例中提供的地址文本的分类方法中基于地址主体词确定地址文本的地址类型一个实施例流程示意图;
图4是本申请实施例中提供的地址文本的分类装置一个实施例结构示意图;
图5是本申请实施例中提供的电子设备一个实施例结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本申请中,“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本申请,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本申请。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本申请的描述变得晦涩。因此,本申请并非旨在限于所示的实施例,而是与符合本申请所公开的原理和特征的最广范围相一致。
需要说明的是,本申请实施例方法由于是在电子设备中执行,各电子设备的处理对象均以数据或信息的形式存在,例如时间,实质为时间信息,可以理解的是,后续实施例中若提及尺寸、数量、位置等,均为对应的数据存在,以便电子设备进行处理,具体此处不作赘述。
本申请实施例提供一种地址文本的分类方法、装置、电子设备及存储介质,以下分别进行详细说明。
请参阅图1,图1为本申请实施例所提供的地址文本的分类系统的场景示意图,该地址文本的分类系统可以包括电子设备100,电子设备100中集成有地址文本的分类装置,如图1中的电子设备。
本申请实施例中,该电子设备100可以是独立的服务器,也可以是服务器组成的服务器网络或服务器集群,例如,本申请实施例中所描述的电子设备100,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中,云服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成。
本领域技术人员可以理解,图1中示出的应用环境,仅仅是与本申请方案一种应用场景,并不构成对本申请方案应用场景的限定,其他的应用环境还可以包括比图1中所示更多或更少的电子设备,例如图1中仅示出1个电子设备,可以理解的,该地址文本的分类系统还可以包括一个或多个其他服务,具体此处不作限定。
另外,如图1所示,该地址文本的分类系统还可以包括存储器200,用于存储数据,例如地址文本等。
需要说明的是,图1所示的地址文本的分类系统的场景示意图仅仅是一个示例,本申请实施例描述的地址文本的分类系统以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着地址文本的分类系统的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
首先,本申请实施例中提供一种地址文本的分类方法,该地址文本的分类方法的执行主体为地址文本的分类装置,该地址文本的分类装置应用于电子设备,该地址文本的分类方法包括:
获取地址文本;
基于词性对地址文本进行分词,得到多个第一地址分词和多个第一地址分词对应的词性;
基于预设词性范围对多个第一地址分词进行筛选,得到筛选结果;
基于筛选结果确定地址文本的地址类型。
参阅图2,图2是本申请实施例提供的地址文本的分类方法一个实施例流程示意图。如图2所示,该地址文本的分类方法包括:
S201、获取地址文本。
本申请实施例中,获取用户订单,从用户订单中提取地址文本。其中,地址文本为中文地址文本。当然,在其他实施例中,地址文本也可以是英文地址文本、日文地址文本等。地址文本是经过去掉标点、去掉特殊符号以及去掉重复词等方式进行地址规范标准化后的地址文本。例如,地址文本是:A省B市C区E街道软件产业基地。
S202、基于词性对地址文本进行分词,得到多个第一地址分词和多个第一地址分词对应的词性。
在一个具体的实施例中,对地址文本进行分词,得到多个第一地址文本分词,对每个第一地址文本分词进行词性标注,得到多个第一地址文本分词对应的词性。例如,地址文本的词性共有10个词性,分别为省、市、区、街道、道路、道路编号、信息点、楼栋、单元、房号。其中,信息点(POI,Point of Information)。在地理信息系统中,一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。传统的地理信息采集方法需要地图测绘人员采用精密的测绘仪器去获取一个信息点的经纬度,然后再标记下来。正因为POI的采集是一个非常费时费事的工作,对一个地理信息系统来说,POI的数量在一定程度代表着整个系统的价值。每个POI包含四方面信息,名称、类别、坐标、分类,全面的POI讯息是丰富导航地图的必备资讯,及时的POI信息点能提醒用户路况的分支及周边建筑的详尽信息,也能方便导航中查到你所需要的各个地方,选择最为便捷和通畅的道路来进行路径规划,因此,导航地图POI多少状况直接影响到导航的好用程度。
当然,地址文本的词性也可以是18个词性、17个词性或者其他数量的词性,根据具体情况设置,本申请对此不作限定。词性是地址文本分词后每个地址分词的所属层级,表示分词后的每个地址分词的重要程度。
具体的,可以通过jieba、THULAC、SnowNLP、pynlpir、CoreNLP以及pyLTP等分词工具对地址文本进行分词,本申请对此不作限定。例如,jieba分词工具支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。根据具体情况选用具体的分词模式,本申请对此不作限定。
例如,地址文本为“A省B市C区E街道软件产业基地”,分词之后,得到:A省^1|B市^2|C区^3|E街道^9|软件产业基地^13。“软件产业基地”是第一地址文本分词,13就是“软件产业基地”的词性,词性为信息点。多个第一地址文本分词分别为:A省|B市|C区|E街道|软件产业基地,多个第一地址文本分词对应的词性为:1、2、3、9、13。
S203、基于预设词性范围对多个第一地址分词进行筛选,得到筛选结果。
其中,预设词性范围根据具体需求输入即可,例如,预设词性范围为信息点,代号13;预设词性范围为道路和支路,代号为9和11。地址文本的分类装置获取预设词性范围,基于预设词性范围对多个第一地址分词进行筛选,得到筛选结果。
例如,若预设词性范围为信息点,代号13,地址文本为“A省B市C区E街道软件产业基地”,则筛选结果为:软件产业基地。若预设词性范围为街道和支路,地址文本为“A省B市C区E街道F路G支路软件产业基地”则筛选结果为:“E街道”“G支路”。
在一个具体的实施例中,基于预设词性范围对多个第一地址分词进行筛选,得到筛选结果,包括:
(1)判断多个第一地址分词中是否存在指示方位词。
本申请实施例中,指示方位词可以用来指示方位,例如,东、南、西、北、内、上、里等。可以事先指定指示方位词,本申请对此不作限定。例如,地址文本为“A省B市C区E街道软件产业基地东D超市”,分词之后,得到:A省^1|B市^2|C区^3|E街道^9|软件产业基地^13|东^15|D超市^16|,则确定多个第一地址分词中存在指示方位词。
(2)若多个第一地址分词中不存在指示方位词,则基于预设词性范围对多个第一地址分词进行筛选。
进一步的,若多个第一地址分词中存在指示方位词,则获取指示方位词与多个第一地址分词的位置关系。
具体的,若多个第一地址分词中存在指示方位词,则获取多个第一地址分词的位置排序,根据多个第一地址分词的位置排序确定指示方位词与多个第一地址分词的位置关系。位置关系包括第一地址分词位于指示方位词之前、第一地址分词位于指示方位词之后。例如,地址文本为“A省B市C区E街道软件产业基地东D超市”,分词之后,得到:A省^1|B市^2|C区^3|E街道^9|软件产业基地^13|东^15|D超市^16|,则多个第一地址分词的位置排序分别为1,2,3,4,5,6,7。“A省”“B市”“C区”“E街道”位于指示方位词之前,“D超市”位于指示方位词之后。
在获取指示方位词与多个第一地址分词的位置关系之后,基于位置关系和指示方位词的类型对多个第一地址分词进行筛选,得到多个第二地址分词。
具体的,指示方位词的类型包括前向方位词和后向方位词。后向方位词包括东、南、西、北等,后向方位词之后的地址分词所表示的地址不包含于后向方位词之前的地址分词所表示的地址,因此后向方位词之后的地址分词相对后向方位词之前的地址分词更重要,更能体现地址文本的表征意义。前向方位词包括内、上、里等,前向方位词之后的地址分词所表示的地址包含于前向方位词之前的地址分词所表示的地址,前向方位词之前的地址分词相对前向方位词之后的地址分词更重要,更能体现地址文本的表征意义。前向方位词和后向方位词可以进行自定义。
在一个具体的实施例中,基于位置关系和指示方位词的类型对多个第一地址分词进行筛选,得到多个第二地址分词包括:判断指示方位词是否为预设的前向方位词;若指示方位词为预设的前向方位词,则将指示方位词前面的多个第一地址分词筛选出来,得到多个第二地址分词。若指示方位词不为预设的前向方位词,则将指示方位词后面的多个第一地址分词筛选出来,得到多个第二地址分词。
例如,若地址文本为“A省B市C区E街道软件产业基地东D超市”,则筛选出的多个第二地址分词为“东”之后的地址分词:D超市。若地址文本为“A省B市C区E街道软件产业基地内”,则筛选出的多个第二地址分词为“内”之前的地址分词:A省B市C区E街道软件产业基地。
在基于位置关系和指示方位词的类型对多个第一地址分词进行筛选,得到多个第二地址分词之后,基于预设词性范围对多个第二地址分词进行筛选,得到筛选结果。
通过预设的指示方位词将多个第一地址分词中较为重要的一部分地址分词提取出来,一方面增加了筛选的效率,另一方面也提高了筛选的准确率,从而能够提高地址文本分类的效率和准确率。
S204、基于筛选结果确定地址文本的地址类型。
在一个具体的实施例中,基于筛选结果确定地址文本的地址类型包括:
(1)基于筛选结果中的地址分词获取地址主体词。
地址类型主要包括22个大类和879个小类,其中包括:办公场所、交通设施、住宅、医院、酒店等等。地址主体词是地址类型信息重要载体。
具体的,获取筛选结果中的地址分词的数量。
当筛选结果中的地址分词的数量为至少两个时,基于预设词性组合策略对筛选结果中的地址分词进行组合,得到地址主体词。例如,若预设词性范围为街道和支路,地址文本为“A省B市C区E街道F路G支路软件产业基地”则筛选结果为:“E街道”“G支路”,则根据预设词性组合策略,地址主体词为:E街道G支路。预设词性组合策略可以根据具体情况设置,例如,将词性为9和11的地址分词进行组合。
当筛选结果中的地址分词的数量为1个时,将筛选结果中的地址分词确定为地址主体词。例如,若预设词性范围为信息点,代号13,地址文本为“A省B市C区E街道软件产业基地”,则筛选结果为:软件产业基地,则地址主体词为:软件产业基地。
(2)基于地址主体词确定地址文本的地址类型。
如图3所示,在一个具体的实施例中,基于地址主体词确定地址文本的地址类型,包括:
S301、判断第一预设数据库中是否存在地址主体词。
其中,第一预设数据库中存储有信息点名称和地址类型的对应关系。
具体的,将地址主体词与第一预设数据库的多个信息点名称进行匹配,若能匹配到与地址主体词相同的信息点名称,则判断第一预设数据库中存在地址主体词,则执行S302;若未能匹配到与地址主体词相同的信息点名称,则判断第一预设数据库中不存在地址主体词,需要进一步在第二预设数据库中进行查找匹配,则执行S303。
其中,第一预设数据库可以是中国POI数据库,目前中国POI数据库已经发布各个城市的POI数据。例如,信息点和地址类型的对应关系可直接采用c++标准库里的map作为映射表。map是标准模板库(STL,Standard Template Library)的一个关联容器,它提供一对一(其中第一个可以称为关键字,每个关键字只能在map中出现一次,第二个可能称为该关键字的值)的数据处理能力,由于这个特性,它完成有可能在我们处理一对一数据的时候,在编程上提供快速通道。这里说下map内部数据的组织,map内部自建一颗红黑树(一种非严格意义上的平衡二叉树),这颗树具有对数据自动排序的功能,所以在map内部所有的数据都是有序的。
例如,信息点和地址类型的对应关系为:“软件产业基地”对应地址类型“办公场所”;“C大酒店”对应地址类型“酒店”;“C医院”对应地址类型“医院”。若地址主体词为:“软件产业基地”,则第一预设数据库中存在地址主体词。若地址主体词为:“E街道G支路”,则第一预设数据库中不存在地址主体词。
S302、将地址主体词对应的地址类型确定为地址文本的地址类型。
例如,若地址主体词为:“软件产业基地”,则地址文本对应的类型为“办公场所”。
S303、判断第二预设数据库中是否存在与地址主体词匹配的正则表达式,其中,第二预设数据库中存储有多个地址类型对应的正则表达式。
正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式的文本。正则表达式是对字符串(包括普通字符(例如,a到z之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,该模式描述在搜索文本时要匹配的一个或多个字符串。
例如,第二预设数据库中存储有:正则表达式A,对应地址类型“酒店”;正则表达式B,对应地址类型“医院”;正则表达式C,对应地址类型“办公场所”。
具体的,若第二预设数据库中存在与地址主体词匹配的正则表达式,则执行S304;若第二预设数据库中不存在与地址主体词匹配的正则表达式,则发出提示信息,提示工作人员通过其他途径对地址文本进行分类。
S304、将与地址主体词匹配的正则表达式对应的地址类型确定为地址文本的地址类型。
若第二预设数据库中存在与地址主体词匹配的正则表达式,将与地址主体词匹配的正则表达式对应的地址类型确定为地址文本的地址类型。
本申请提供一种地址文本的分类方法,首先基于词性对地址文本分词得到多个第一地址分词和对应的词性,然后根据预设词性范围对分词后的第一地址分词进行筛选,得到筛选结果,可以根据需求去除干扰词性对应的第一地址分词,从而提高地址文本分类的效率和准确率
为了更好实施本申请实施例中地址文本的分类方法,在地址文本的分类方法基础之上,本申请实施例中还提供一种地址文本的分类装置,如图4所示,图4是本申请实施例中提供的地址文本的分类装置一个实施例结构示意图,该地址文本的分类装置包括:
获取单元401,用于获取地址文本;
分词单元402,用于基于词性对地址文本进行分词,得到多个第一地址分词和多个第一地址分词对应的词性;
筛选单元403,用于基于预设词性范围对多个第一地址分词进行筛选,得到筛选结果;
确定单元404,用于基于筛选结果确定地址文本的地址类型。
其中,筛选单元403,还用于判断多个第一地址分词中是否存在预设的指示方位词;
若多个第一地址分词中不存在指示方位词,则基于预设词性范围对多个第一地址分词进行筛选。
其中,筛选单元403,还用于若多个第一地址分词中存在指示方位词,则获取指示方位词与多个第一地址分词的位置关系;
基于位置关系和指示方位词的类型对多个第一地址分词进行筛选,得到多个第二地址分词;
基于预设词性范围对多个第二地址分词进行筛选,得到筛选结果。
其中,确定单元404,还用于基于筛选结果中的地址分词获取地址主体词;
基于地址主体词确定地址文本的地址类型。
其中,确定单元404,还用于当筛选结果中的地址分词的数量为至少两个时,基于预设词性组合策略对筛选结果中的地址分词进行组合,得到地址主体词。
其中,确定单元404,还用于判断第一预设数据库中是否存在地址主体词,其中,第一预设数据库中存储有信息点名称和地址类型的对应关系;
若第一预设数据库中存在地址主体词,则将地址主体词对应的地址类型确定为地址文本的地址类型。
其中,确定单元404,还用于若第一预设数据库中不存在地址主体词,则判断第二预设数据库中是否存在与地址主体词匹配的正则表达式,其中,第二预设数据库中存储有多个地址类型对应的正则表达式;
若第二预设数据库中存在与地址主体词匹配的正则表达式,则将与地址主体词匹配的正则表达式对应的地址类型确定为地址文本的地址类型。
本申请实施例还提供一种电子设备,其集成了本申请实施例所提供的任一种地址文本的分类装置。如图5所示,其示出了本申请实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解,图中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器601是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器601可包括一个或多个处理核心;优选的,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。
存储器602可用于存储软件程序以及模块,处理器601通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器601对存储器602的访问。
电子设备还包括给各个部件供电的电源603,优选的,电源603可以通过电源管理系统与处理器601逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元604,该输入单元604可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器601会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器601来运行存储在存储器602中的应用程序,从而实现各种功能,如下:
获取地址文本;
基于词性对地址文本进行分词,得到多个第一地址分词和多个第一地址分词对应的词性;
基于预设词性范围对多个第一地址分词进行筛选,得到筛选结果;
基于筛选结果确定地址文本的地址类型。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。其上存储有计算机程序,计算机程序被处理器进行加载,以执行本申请实施例所提供的任一种地址文本的分类方法中的步骤。例如,计算机程序被处理器进行加载可以执行如下步骤:
获取地址文本;
基于词性对地址文本进行分词,得到多个第一地址分词和多个第一地址分词对应的词性;
基于预设词性范围对多个第一地址分词进行筛选,得到筛选结果;
基于筛选结果确定地址文本的地址类型。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对其他实施例的详细描述,此处不再赘述。
具体实施时,以上各个单元或结构可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元或结构的具体实施可参见前面的方法实施例,在此不再赘述。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种地址文本的分类方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种地址文本的分类方法,其特征在于,所述分类方法包括:
获取地址文本;
基于词性对所述地址文本进行分词,得到多个第一地址分词和所述多个第一地址分词对应的词性;
基于预设词性范围对所述多个第一地址分词进行筛选,得到筛选结果;
基于所述筛选结果确定所述地址文本的地址类型。
2.根据权利要求1所述的地址文本的分类方法,其特征在于,所述基于预设词性范围对所述多个第一地址分词进行筛选,得到筛选结果,包括:
判断所述多个第一地址分词中是否存在预设的指示方位词;
若所述多个第一地址分词中不存在所述指示方位词,则基于预设词性范围对所述多个第一地址分词进行筛选。
3.根据权利要求2所述的地址文本的分类方法,其特征在于,所述地址文本的分类方法还包括:
若所述多个第一地址分词中存在所述指示方位词,则获取所述指示方位词与所述多个第一地址分词的位置关系;
基于所述位置关系和所述指示方位词的类型对所述多个第一地址分词进行筛选,得到多个第二地址分词;
基于所述预设词性范围对所述多个第二地址分词进行筛选,得到所述筛选结果。
4.根据权利要求1-3任意一项所述的地址文本的分类方法,其特征在于,所述基于所述筛选结果确定所述地址文本的地址类型,包括:
基于所述筛选结果中的地址分词获取地址主体词;
基于所述地址主体词确定所述地址文本的地址类型。
5.根据权利要求4所述的地址文本的分类方法,其特征在于,所述基于所述筛选结果中的地址分词获取地址主体词,包括:
当所述筛选结果中的地址分词的数量为至少两个时,基于预设词性组合策略对所述筛选结果中的地址分词进行组合,得到所述地址主体词。
6.根据权利要求4所述的地址文本的分类方法,其特征在于,所述基于所述地址主体词确定所述地址文本的地址类型,包括:
判断第一预设数据库中是否存在所述地址主体词,其中,所述第一预设数据库中存储有信息点名称和地址类型的对应关系;
若所述第一预设数据库中存在所述地址主体词,则将所述地址主体词对应的地址类型确定为所述地址文本的地址类型。
7.根据权利要求6所述的地址文本的分类方法,其特征在于,所述地址文本的分类方法还包括:
若所述第一预设数据库中不存在所述地址主体词,则判断第二预设数据库中是否存在与所述地址主体词匹配的正则表达式,其中,所述第二预设数据库中存储有多个地址类型对应的正则表达式;
若所述第二预设数据库中存在与所述地址主体词匹配的正则表达式,则将与所述地址主体词匹配的正则表达式对应的地址类型确定为所述地址文本的地址类型。
8.一种地址文本的分类装置,其特征在于,所述分类装置包括:
获取单元,用于获取地址文本;
分词单元,用于基于词性对所述地址文本进行分词,得到多个第一地址分词和所述多个第一地址分词对应的词性;
筛选单元,用于基于预设词性范围对所述多个第一地址分词进行筛选,得到筛选结果;
确定单元,用于基于所述筛选结果确定所述地址文本的地址类型。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现权利要求1至7任一项所述的地址文本的分类方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至7任一项所述的地址文本的分类方法中的步骤。
CN202010811547.5A 2020-08-13 2020-08-13 地址文本的分类方法、装置、电子设备及存储介质 Pending CN112069273A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010811547.5A CN112069273A (zh) 2020-08-13 2020-08-13 地址文本的分类方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010811547.5A CN112069273A (zh) 2020-08-13 2020-08-13 地址文本的分类方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112069273A true CN112069273A (zh) 2020-12-11

Family

ID=73660937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010811547.5A Pending CN112069273A (zh) 2020-08-13 2020-08-13 地址文本的分类方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112069273A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468881A (zh) * 2021-07-23 2021-10-01 浙江大华技术股份有限公司 一种地址标准化方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090038188A (ko) * 2007-10-15 2009-04-20 한국전자통신연구원 내비게이션용 poi의 이형태 생성방법 및 그 시스템
CN105022748A (zh) * 2014-04-28 2015-11-04 北京图盟科技有限公司 一种运单地址分级方法及装置
CN106021499A (zh) * 2016-05-20 2016-10-12 中国农业大学 基于志愿者地理信息的建设用地分类方法和装置
CN107590242A (zh) * 2017-09-14 2018-01-16 北京三快在线科技有限公司 一种地址信息处理方法及装置
CN110347777A (zh) * 2019-07-17 2019-10-18 腾讯科技(深圳)有限公司 一种兴趣点poi的分类方法、装置、服务器及存储介质
CN110795642A (zh) * 2019-09-27 2020-02-14 腾讯科技(深圳)有限公司 位置名称生成方法以及位置名称显示方法
CN110968654A (zh) * 2018-09-29 2020-04-07 阿里巴巴集团控股有限公司 文本数据的地址类目确定方法、设备以及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090038188A (ko) * 2007-10-15 2009-04-20 한국전자통신연구원 내비게이션용 poi의 이형태 생성방법 및 그 시스템
CN105022748A (zh) * 2014-04-28 2015-11-04 北京图盟科技有限公司 一种运单地址分级方法及装置
CN106021499A (zh) * 2016-05-20 2016-10-12 中国农业大学 基于志愿者地理信息的建设用地分类方法和装置
CN107590242A (zh) * 2017-09-14 2018-01-16 北京三快在线科技有限公司 一种地址信息处理方法及装置
CN110968654A (zh) * 2018-09-29 2020-04-07 阿里巴巴集团控股有限公司 文本数据的地址类目确定方法、设备以及系统
CN110347777A (zh) * 2019-07-17 2019-10-18 腾讯科技(深圳)有限公司 一种兴趣点poi的分类方法、装置、服务器及存储介质
CN110795642A (zh) * 2019-09-27 2020-02-14 腾讯科技(深圳)有限公司 位置名称生成方法以及位置名称显示方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
薛梅;向华;: "基于无规则地址点的地理编码模型设计及实现", 城市勘测, no. 04 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468881A (zh) * 2021-07-23 2021-10-01 浙江大华技术股份有限公司 一种地址标准化方法及装置
CN113468881B (zh) * 2021-07-23 2024-02-27 浙江大华技术股份有限公司 一种地址标准化方法及装置

Similar Documents

Publication Publication Date Title
CN108363698B (zh) 兴趣点关系识别方法及装置
CN108388559B (zh) 地理空间应用下的命名实体识别方法及系统、计算机程序
US20200326197A1 (en) Method, apparatus, computer device and storage medium for determining poi alias
CN110750654A (zh) 知识图谱获取方法、装置、设备和介质
CN105608113B (zh) 判断文本中poi数据的方法及装置
CN111694823A (zh) 机构标准化方法、装置、电子设备及存储介质
CN111930793A (zh) 目标行为挖掘与检索分析方法、系统、计算机设备及应用
WO2019227581A1 (zh) 兴趣点识别方法、装置、终端设备及存储介质
CN102930048A (zh) 使用参考和视觉数据的语义自动发现的数据丰富
JP2023519049A (ja) Poi状態情報を取得する方法、及び装置
CN110688434B (zh) 一种兴趣点处理方法、装置、设备和介质
CN111143556A (zh) 软件功能点自动计数方法、装置、介质及电子设备
CN112214595A (zh) 类别确定方法、装置、设备及介质
US10909473B2 (en) Method to determine columns that contain location data in a data set
CN112818072A (zh) 旅游知识图谱更新方法、系统、设备及存储介质
CN112069273A (zh) 地址文本的分类方法、装置、电子设备及存储介质
CN109033370A (zh) 一种查找相似店铺的方法及装置、店铺接入的方法及装置
CN110232160B (zh) 兴趣点变迁事件检测方法、装置及存储介质
CN110990651B (zh) 地址数据处理方法、装置、电子设备及计算机可读介质
CN115017425B (zh) 地点检索方法、装置、电子设备以及存储介质
CN111062193A (zh) 医疗数据标注方法及装置、存储介质、电子设备
CN110377907B (zh) 一种招聘信息标准化方法及装置
CN111325235B (zh) 面向多语种的通用地名语义相似度计算方法及其应用
CN110321435B (zh) 一种数据源划分方法、装置、设备和存储介质
CN110414006B (zh) 文本的主题标注方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination