CN111522901B - 文本中地址信息的处理方法及装置 - Google Patents
文本中地址信息的处理方法及装置 Download PDFInfo
- Publication number
- CN111522901B CN111522901B CN202010190560.3A CN202010190560A CN111522901B CN 111522901 B CN111522901 B CN 111522901B CN 202010190560 A CN202010190560 A CN 202010190560A CN 111522901 B CN111522901 B CN 111522901B
- Authority
- CN
- China
- Prior art keywords
- address
- labels
- standard
- types
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文本中地址信息的处理方法、装置、计算机设备及计算机存储介质,涉及信息识别技术领域,能够对复杂文本中的地址信息进行有效识别,提高标准地址的检索效率。所述方法包括:获取利用地址判别模型从自由文本中筛选出包含地址信息的文本;基于预先训练的地址实体抽取模型,对所述包含地址信息的文本进行地址实体抽取,得到携带有地址类型的地址实体片段;从预先构建的标准地址库中查询出与地址实体片段中地址标签相映射地址类型的标准地址标签,所述标注地址库中记录有不同地址类型的地址标签与标准地址标签之间的映射关系;将所述与地址实体片段中地址标签相映射地址类型的标准地址标签进行处理后,输出文本中标准化的地址信息。
Description
技术领域
本发明涉及信息识别技术领域,尤其是涉及文本中地址信息的处理方法、装置、计算机设备及计算机存储介质。
背景技术
随着互联网技术的不断发展,越来越多的网络内容直接来自于用户上传分享的信息,例如,维基百科、新浪微博、大众点评。这种互动资源逐渐成为互联网内容重要源泉的同时,如何保证用户上传分享内容的正确性和规范性尤为重要,特别是针对提供生活消费平台的网站,任一网站中就包含上百万条用户上传的地址信息,而这些地址信息都是基于自由文本式的、无显式的结构且隐含语义性地附加说明信息,很难准确的识别出地址信息。
现有技术中,常见的从自由文本中识别地址信息的方法是基于一份无层级的地址词表进行查找匹配,利用匹配得到的结果来识别文本中的地址信息。然而,由于自由文本中的地址描述方式存在形式不规范、内容丰富多样的特点,仅仅靠人工统计抽取规则的方法很难做到对自由文本中的地址信息进行有效提取,更何况针对海量数据,识别速度慢,并且对新地址、复杂地址检索的检索效率较差。
发明内容
有鉴于此,本发明提供了一种文本中地址信息的处理方法、装置、计算机设备及计算机存储介质,主要目的在于对复杂文本中的地址信息进行有效识别,提高标准地址的检索效率。
依据本发明一个方面,提供了一种文本中地址信息的处理方法,该方法包括:
获取利用地址判别模型从自由文本中筛选出包含地址信息的文本;
基于预先训练的地址实体抽取模型,对所述包含地址信息的文本进行地址实体抽取,得到携带有地址类型的地址实体片段;
从预先构建的标准地址库中查询出与地址实体片段中地址标签相映射地址类型的标准地址标签,所述标注地址库中记录有不同地址类型的地址标签与标准地址标签之间的映射关系;
将所述与地址实体片段中地址标签相映射地址类型的标准地址标签进行处理后,输出文本中标准化的地址信息。
进一步地,在所述基于预先训练的地址实体抽取模型,对所述包含地址信息的文本进行地址实体抽取,得到携带有地址类型的地址实体片段之前,所述方法还包括:
收集标注有地址类型的地址实体片段作为标注数据,并将所述标注数据输入至神经网络模型进行训练迭代,得到地址实体抽取模型。
进一步地,所述从预先构建的标准地址库中查询出与地址实体片段中地址标签相映射地址类型的标准地址标签,具体包括:
利用带词性属性的分词方式对携带有地址类型的地址实体片段进行分词处理,得到携带有词性属性的地址标签;
将词性属性为名词的地址标签与预先构建的标准地址库中不同地址类型的地址标签进行规则匹配;
获取与地址实体片段中地址标签相映射地址类型的标准地址标签。
进一步地,所述将词性属性为名词的地址标签与预先构建的标准地址库中不同地址类型的地址标签进行规则匹配,具体包括:
设置词性属性为名词的地址标签对应的规则匹配模式;
利用规则匹配模式将词性属性为名词的地址标签与预先构建的标准地址库中不同类型的地址标签进行规则匹配。
进一步地,在所述获取与地址实体片段中地址标签相映射地址类型的标准地址标签之后,所述方法还包括:
若所述预先构建的标准地址库中未匹配得到与地址实体片段中地址标签相映射地址类型的标准地址标签,则针对未匹配到的地址标签构建前缀树;
对构建前缀树的地址标签进行信息规范后,重新与预先构建的标准地址库中不同类型的地址标签进行模糊匹配。
进一步地,所述对构建前缀树的地址标签进行信息规范后,重新与预先构建的标准地址库中不同类型的地址标签进行模糊匹配,具体包括:
通过构建前缀树的地址标签进行信息规范,挖掘与地址标签相关联的模糊匹配模式;
利用模糊匹配模式,将信息规范后的地址标签重新与预先构建的标准地址库中不同类型的地址标签进行模糊匹配。
进一步地,所述将所述与地址实体片段中地址标签相映射地址类型的标准地址标签进行处理后,输出文本中标准化的地址信息,具体包括:
按照地址实体片段中地址类型的排列顺序对所述与地址实体片段中地址标签相映射地址类型的标准地址标签进行拼接合并;
将拼接合并后的标准地址标签作为标注的地址信息,输出文本中标准化的地址信息。
依据本发明另一个方面,提供了一种文本中地址信息的处理装置,所述装置包括:
获取单元,用于获取利用地址判别模型从自由文本中筛选出包含地址信息的文本;
抽取单元,用于基于预先训练的地址实体抽取模型,对所述包含地址信息的文本进行地址实体抽取,得到携带有地址类型的地址实体片段;
查询单元,用于从预先构建的标准地址库中查询出与地址实体片段中地址标签相映射地址类型的标准地址标签,所述标注地址库中记录有不同地址类型的地址标签与标准地址标签之间的映射关系;
处理单元,用于将所述与地址实体片段中地址标签相映射地址类型的标准地址标签进行处理后,输出文本中标准化的地址信息。
进一步地,所述装置还包括:
训练单元,用于在所述基于预先训练的地址实体抽取模型,对所述包含地址信息的文本进行地址实体抽取,得到携带有地址类型的地址实体片段之前,收集标注有地址类型的地址实体片段作为标注数据,并将所述标注数据输入至神经网络模型进行训练迭代,得到地址实体抽取模型。
进一步地,所述查询单元包括:
分词模块,用于利用带词性属性的分词方式对携带有地址类型的地址实体片段进行分词处理,得到携带有词性属性的地址标签;
第一匹配模块,用于将词性属性为名词的地址标签与预先构建的标准地址库中不同地址类型的地址标签进行规则匹配;
获取模块,用于获取与地址实体片段中地址标签相映射地址类型的标准地址标签。
进一步地,所述第一匹配模块包括:
设置子模块,用于设置词性属性为名词的地址标签对应的规则匹配模式;
第一匹配子模块,用于利用规则匹配模式将词性属性为名词的地址标签与预先构建的标准地址库中不同类型的地址标签进行规则匹配。
进一步地,所述查询单元还包括:
构建模块,用于在所述获取与地址实体片段中地址标签相映射地址类型的标准地址标签之后,若所述预先构建的标准地址库中未匹配得到与地址实体片段中地址标签相映射地址类型的标准地址标签,则针对未匹配到的地址标签构建前缀树;
第二匹配模块,用于对构建前缀树的地址标签进行信息规范后,重新与预先构建的标准地址库中不同类型的地址标签进行模糊匹配。
13、根据权利要求12所述的装置,其特征在于,所述第二匹配模块包括:
挖掘子模块,用于通过构建前缀树的地址标签进行信息规范,挖掘与地址标签相关联的模糊匹配模式;
第二匹配子模块,用于利用模糊匹配模式,将信息规范后的地址标签重新与预先构建的标准地址库中不同类型的地址标签进行模糊匹配。
进一步地,所述处理单元包括:
拼接模块,用于按照地址实体片段中地址类型的排列顺序对所述与地址实体片段中地址标签相映射地址类型的标准地址标签进行拼接合并;
输出模块,用于将拼接合并后的标准地址标签作为标注的地址信息,输出文本中标准化的地址信息。
依据本发明又一个方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现文本中地址信息的处理方法的步骤。
依据本发明再一个方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现文本中地址信息的处理方法的步骤。
借由上述技术方案,本发明提供一种文本中地址信息的处理方法及装置,通过获取利用地址判别模型从自由文本中筛选出包含地址信息的文本,基于预先训练的地址实体抽取模型,对所述包含地址信息的文本进行地址实体抽取,得到携带有地址类型的地址实体片段,并从预先构建的标准地址库中查询出与地址实体片段中地址标签相映射地址类型的标准地址标签,将与地址实体片段中地址标签相映射地址类型的标准地址标签进行处理后,输出文本中标准化的地址信息。与现有技术中基于一份无层级的地址词表进行查找匹配的方式进行文本中地址信息的处理的方式相比,本发明实施例通过将自由文本中的复杂地址看作是不同类型、不同级别的单个地址组合而成的复杂结构,将地址识别问题转换为单个地址的组合问题,通过预先分类分级的标准地址库,在提高标准地址检索效率的同时,也使得地址库词表可以扩充到海量级别;同时,利用深度学习模型,对单个地址进行分类分级、映射到标准地址库,使得自由文本中地址信息能够规范化输出。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种文本中地址信息的处理方法流程示意图;
图2示出了本发明实施例提供的另一种文本中地址信息的处理方法流程示意图;
图3示出了本发明实施例提供的另一种文本中地址信息的处理过程示意图;
图4示出了本发明实施例提供的一种文本中地址信息的处理装置结构示意图;
图5示出了本发明实施例提供的另一种文本中地址信息的处理装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种文本中地址信息的处理方法,能够对复杂文本中的地址信息进行有效识别,提高标准地址的检索效率,如图1所示,该方法包括:
101、获取利用地址判别模型从自由文本中筛选出包含地址信息的文本。
由于用户上传的自由文本中可能包含有各种各样的实体元素,例如,人物元素、时间元素、地址元素以及机构元素等等,自由文本中的地址元素包含有大量的地理空间数据,通过有效识别自由文本中地址信息,并对地址信息进行规范化处理,能够作为地理信息采集的有效补充,进而丰富地理信息的数据源。
其中,地址判别模型为利用深度学习分类所训练得到的模型,通过将已标注地理信息的文本样本数据输入至神经网络模型中进行训练,从而输出文本中是否包含地理信息的分类结果。可以理解的是,已标注地理信息的文本样本可以通过人工标记分为两类,包含地址信息的文本和不包含地址信息的文本,并且在神经网络模型迭代过程中,可通过增加文本样本数据的方式提升地址判别模型的准确率。
需要说明的是,地址信信息不仅包含确切的地理位置,还可能包含有附加说明等其他存在形式,例如,南京市六合区雄州南路168号,该地址信息仅包含确切的地理位置,南京市建邺区江东中路265号(奥体中心东面),该地址信息不仅包含确切的地理位置,还包含有附加说明。而自由文本中地址信息的存在形式可能更加复杂,这里地址判别模型能够对自由文本中地址信息进行初步识别,从自由文本中筛选出包含各种地址信息存在形式的文本。
102、基于预先训练的地址实体抽取模型,对所述包含地址信息的文本进行地址实体抽取,得到携带有地址类型的地址实体片段。
其中,预先训练的地址实体抽取模型为利用深度学习分类所训练得到的模型,通过将已标地址类型的地址实体样本数据输入至神经网络模型中进行训练,从而输出文本中地址片段在地址类型上分类结果。可以理解的是,已标地址类型的地址实体样本数据可以通过人工标记分为不同地址类型,例如,建筑类、道路类、商铺类、结构/单位类等,并且在神经网络模型迭代过程中,可通过增加地址实体样本数据的方式提升地址实体提取模型的准确率。
可以理解的是,上述地址实体抽取模型可以将包含有地址信息中不同地址类型的地址实体片段提取出来,减少信息遗漏,还可以提升后续地址的匹配效率。
103、从预先构建的标准地址库中查询出与地址实体片段中地址标签相映射地址类型的标准地址标签。
其中,标注地址库中记录有不同地址类型的地址标签与标准地址标签之间的映射关系,针对每个地址类型都会收集有与标准地址标签相映射的多种地址标签。
通常情况下,针对每个地址类型下的地址标签都会映射有标准地址标签,该标准地址标签包括区域范围由大至小多个层级的地址类型,例如,对于建筑类地址类型的地址标签为复旦大学法学系,在标准地址库中映射有上海市杨浦区淞沪路2005号。具体可以根据地址实体片段对应的地址类型,从标准地址库中查询针对该地址类型下的标准地址标签,遍历匹配该地址类型下的每个地址标签,获取与实体片段中地址标签相映射地址类型的标准地址标签。
104、将所述与地址实体片段中地址标签相映射地址类型的标准地址标签进行处理后,输出文本中标准化的地址信息。
由于与地址实体片段中存在多个地址标签,而不同地址标签相映射地址类型的标准地址标签可能包含重复的地址信息,通过汇总不同地址标签相映射地址类型的标准地址标签,可以提炼出文本中标准化的地址信息,进而保证文本中地址信息的有效性。
例如,对于地址片段为A区B大厦中包含有两个地址标签,而A区映射为X市A区,B大厦映射为X市A区C路D号,汇总两个地址标签所映射的标准地址信息为X市A区C路D号。
可以理解的是,在汇总不同地址标签相映射单地址类型的标准地址标签过程中,低层次的地址标签可能会映射出多个标准地址标签,例如,万达广场可能在同一个城市内有多个,这里可以结合其他的地址片段以及地址片段中位置靠前的地址标签所映射的标准地址标签,对标准地址标签进行预测。例如,位置靠前的地址标签映射到了城市和区的标准地址标签,而在该城市和区范围内的万达广场只有一个,所以预测出万达广场地址标签对应的标准地址标签。
本发明提供一种文本中地址信息的处理方法,通过获取利用地址判别模型从自由文本中筛选出包含地址信息的文本,基于预先训练的地址实体抽取模型,对所述包含地址信息的文本进行地址实体抽取,得到携带有地址类型的地址实体片段,并从预先构建的标准地址库中查询出与地址实体片段中地址标签相映射地址类型的标准地址标签,将与地址实体片段中地址标签相映射地址类型的标准地址标签进行处理后,输出文本中标准化的地址信息。与现有技术中基于一份无层级的地址词表进行查找匹配的方式进行文本中地址信息的处理的方式相比,本发明实施例通过将自由文本中的复杂地址看作是不同类型、不同级别的单个地址组合而成的复杂结构,将地址识别问题转换为单个地址的组合问题,通过预先分类分级的标准地址库,在提高标准地址检索效率的同时,也使得地址库词表可以扩充到海量级别;同时,利用深度学习模型,对单个地址进行分类分级、映射到标准地址库,使得自由文本中地址信息能够规范化输出。
本发明实施例提供了另一种文本中地址信息的处理方法,可以能够对复杂文本中的地址信息进行有效识别,提高标准地址的检索效率,如图2所示,所述方法包括:
201、获取利用地址判别模型从自由文本中筛选出包含地址信息的文本。
可以理解的是,这里自由文本的获取来源可以为机器数据,包括但不局限于应用日志、物联网、GPS定位等,并且机器数据可以应用到不同行业的应用场景中,例如,餐饮领域的机器数据可以用于外卖配送,利用消费数据、消费时间、订单数据等餐饮数据,并结合一些其它来源的信息,去识别每一笔交易中的配送地址。通常情况下,自由文本为短文本,且字数不超过2000字,若超过,则会根据标点符号切分为多个短文本。
对于本发明实施例,神经网络模型的学习需要大量的机器数据,而有监督的机器学习就需要有标注的数据作为先验经验,通过从机器数据中抽取大量包含有地址信息的文本和未包含有地址信息的机器数据作为训练样本数据。
通常情况下用于训练地址判别模型的神经网络模型具有多个层级,具体可以通过卷积层、全连接层、池化层以及分类层结构实现分类效果,这里的卷积层相当于神经神经网络模型的隐含层,可以为多层结构,用于提取更深层次的已标注数据在是否包含地址信息的特征参数。
应说明的是,本发明实施例对神经网络模型不进行限定,可以使用卷积神经网络模型,还可以使用深度残差网络模型,还可以使用支持向量机模型等等,只要是能够达到分类训练效果的网络模型即可。
202、收集标注有地址类型的地址实体片段作为标注数据,并将所述标注数据输入至神经网络模型进行训练迭代,得到地址实体抽取模型。
在本发明实施例中,为了确保数据标注的质量,可以设置标注样例、标注模板等作为参考,对于地址类型不确定的标注数据,可以选择放弃或者后续统一标注。具体对待标注数据的标注形式可以包括但不局限于文字、数字、编码等,例如,可以直接使用行业名称,还可以设置编码等。当然还可以借助标注工具对待标注数据进行分类、拉框、注释以及标记等操作,这里不进行限定。
同样的,用于训练地址实体抽取模型的神经网络模型具有多个层级,并且在神经网络模型中,为了减小参数,减低计算,常常在连续卷积层中间隔插入池化层;这里的全连接层与卷积层相似,卷积层的神经元和上一层输出局部区域相连,当然为了减少输出特征向量过多,可以设置两个全连接层,在训练数据通过若干个卷积层训练后对训练输出的特征参数进行整合。
具体采用神经网络模型训练地址实体抽取模型的过程可以包括:通过神经网络模型的卷积层提取达到训练已标注不同地址类型的地址实体片段的特征,得到该不同地址类型下数据的特征参数;通过卷积神经网络模型的池化层对不同地址类型下数据的特征参数进行降维处理,得到降维处理后数据在各个地址类型上的特征参数;通过卷积神经网络模型的全连接层汇总降维处理后数据在各个地址类型上的特征参数,得到数据在各个地址类型上的权重值;通过卷积神经网络模型的分类层根据数据在各个地址类型上的权重值生成数据特征与各个地址类型之间的映射关系,构建地址实体抽取模型。
203、基于预先训练的地址实体抽取模型,对所述包含地址信息的文本进行地址实体抽取,得到携带有地址类型的地址实体片段。
在本发明实施例中,根据实际应用需求,可以设置以下六大类地址类型:
a)国家行政区域类:包含省、直辖市、自治区、自治州、直辖市区、县级市、乡等国家形成区域;
b)道路类:路、胡同、巷等;
c)建筑类;
d)机构、单位类;
e)店铺类;
f)其他类,不属于以上5中地址类型。
为了便于对地址实体片段进行抽取,地址实体抽取模型输出携带有地址类型的地址实体片段的形式可以为地址类型,[地址片段在自由文本中的起始位置,地址片段在自由文本中的结束位置],这里对地址实体片段的形式不进行限定。
应说明的是,这里在利用神经网络模型识别为不包含地址信息的文本时,可以当不包含地址信息的文本数据每增长10w条时,从增长的数据中随机抽取1w条进行人工标注,如果发现这1w条中包含有地址信息的文本,则更新地址实体抽取模型的训练数据,重新训练地址实体抽取模型。
204、利用带词性属性的分词方式对携带有地址类型的地址实体片段进行分词处理,得到携带有词性属性的地址标签。
可以理解的是,由于地址实体抽取模型在地址实体片段的抽取过程中往往存在一定的误差,使得携带有地址类型的实体片段中存在杂质信息,可以用地址信息的词性属性来过滤掉部分杂志信息。
具体可以利用带有词性标注的分词工具来对携带有地址类型的地址实体片段进行分词处理,进而将地址实体片段拆分为多个地址标签,并且每个地址标签携带有词性属性,如名词、副词、形容词、动词等。
205、将词性属性为名词的地址标签与预先构建的标准地址库中不同地址类型的地址标签进行规则匹配。
在本发明实施例中,由于地址信息通常为名词的词性属性,具体可以通过设置词性属性为名词的地址标签对应的规则匹配模式,利用规则匹配模式将词性属性为名词的地址标签与预先构建的标准地址库中不同类型的地址标签进行规则匹配。
应说明的是,若预先构建的标准地址库中未匹配得到与地址实体片段中地址标签相映射地址类型的标准地址标签,则说明实体片段中的地址标签可能不完整,存在缺失的字段,这里可以针对未匹配到的地址标签构建前缀树,并对构建前缀树的地址标签进行信息规范后,重新与预先构建的标准地址库中不同类型的地址标签进行模糊匹配。当然还有可能是该地址标签并非是地址信息,即使构建前缀树仍然无法从标准地址库中映射出标准地址标签,则对该地址标签进行过滤。
具体在对构建前缀树的地址标签进行信息规范后,重新与预先构建的标准地址库中不同类型的地址标签进行模糊匹配的过程中,可以通过构建前缀树的地址标签进行信息规范,挖掘与地址标签相关联的模糊匹配模式,并利用模糊匹配模式,将信息规范后的地址标签重新与预先构建的标准地址库中不同类型的地址标签进行模糊匹配。
206、获取与地址实体片段中地址标签相映射地址类型的标准地址标签。
207、按照地址实体片段中地址类型的排列顺序对所述与地址实体片段中地址标签相映射地址类型的标准地址标签进行拼接合并。
对于地址实体片段中的多个地址标签已经映射到的标准地址标签,标准地址标签中包含有多个层级的地址类型,可以按照实体片段中地址类型的排列顺序进行拼接合并,选取包含有最多层级地址类型的标准地址标签。
208、将拼接合并后的标准地址标签作为标注的地址信息,输出文本中标准化的地址信息。
具体文本中地址信息的处理过程可以如图3所示,首先输入自由文本,并利用地址判别模型,判断自由文本中是否包含地址信息,如果否,则说明该自由文本并不包含地址信息,无需进行处理,对其进行抽样复检后更新自由文本数据,如果是,则基于预先构建的地址实体抽取模型,从自由文本中抽取地址实体片段,并对地址实体片段进行拆解,判断拆解后的地址标签是否存在标准地址库中,该标准地址库中记录有地址标签与不同地址类型下标准地址标签之间的映射关系如果否,则说明该地址标签并非真实的地址信息,标准地址库可能收集的不够全面或者,可以根据处理结果将地址标签更新到标准地址库中,如果是,则说明标准地址库中存在有标准地址标签,进一步根据处理结果对地址信息进行标准化输出。
进一步地,作为图1所述方法的具体实现,本发明实施例提供了一种文本中地址信息的处理装置,如图4所示,所述装置包括:获取单元31、抽取单元32、查询单元33、处理单元34。
获取单元31,可以用于获取利用地址判别模型从自由文本中筛选出包含地址信息的文本;
抽取单元32,可以用于基于预先训练的地址实体抽取模型,对所述包含地址信息的文本进行地址实体抽取,得到携带有地址类型的地址实体片段;
查询单元33,可以用于从预先构建的标准地址库中查询出与地址实体片段中地址标签相映射地址类型的标准地址标签,所述标注地址库中记录有不同地址类型的地址标签与标准地址标签之间的映射关系;
处理单元34,可以用于将所述与地址实体片段中地址标签相映射地址类型的标准地址标签进行处理后,输出文本中标准化的地址信息。
本发明提供一种文本中地址信息的处理装置,通过获取利用地址判别模型从自由文本中筛选出包含地址信息的文本,基于预先训练的地址实体抽取模型,对所述包含地址信息的文本进行地址实体抽取,得到携带有地址类型的地址实体片段,并从预先构建的标准地址库中查询出与地址实体片段中地址标签相映射地址类型的标准地址标签,将与地址实体片段中地址标签相映射地址类型的标准地址标签进行处理后,输出文本中标准化的地址信息。与现有技术中基于一份无层级的地址词表进行查找匹配的方式进行文本中地址信息的处理的方式相比,本发明实施例通过将自由文本中的复杂地址看作是不同类型、不同级别的单个地址组合而成的复杂结构,将地址识别问题转换为单个地址的组合问题,通过预先分类分级的标准地址库,在提高标准地址检索效率的同时,也使得地址库词表可以扩充到海量级别;同时,利用深度学习模型,对单个地址进行分类分级、映射到标准地址库,使得自由文本中地址信息能够规范化输出。
作为图4中所示文本中地址信息的处理装置的进一步说明,图5是根据本发明实施例另一种文本中地址信息的处理装置的结构示意图,如图5所示,所述装置还包括:
训练单元35,可以用于在所述基于预先训练的地址实体抽取模型,对所述包含地址信息的文本进行地址实体抽取,得到携带有地址类型的地址实体片段之前,收集标注有地址类型的地址实体片段作为标注数据,并将所述标注数据输入至神经网络模型进行训练迭代,得到地址实体抽取模型。
进一步地,所述查询单元33包括:
分词模块331,可以用于利用带词性属性的分词方式对携带有地址类型的地址实体片段进行分词处理,得到携带有词性属性的地址标签;
第一匹配模块332,可以用于将词性属性为名词的地址标签与预先构建的标准地址库中不同地址类型的地址标签进行规则匹配;
获取模块333,可以用于获取与地址实体片段中地址标签相映射地址类型的标准地址标签。
进一步地,所述第一匹配模块332包括:
设置子模块3321,可以用于设置词性属性为名词的地址标签对应的规则匹配模式;
第一匹配子模块3322,可以用于利用规则匹配模式将词性属性为名词的地址标签与预先构建的标准地址库中不同类型的地址标签进行规则匹配。
进一步地,所述查询单元33还包括:
构建模块334,可以用于在所述获取与地址实体片段中地址标签相映射地址类型的标准地址标签之后,若所述预先构建的标准地址库中未匹配得到与地址实体片段中地址标签相映射地址类型的标准地址标签,则针对未匹配到的地址标签构建前缀树;
第二匹配模块335,可以用于对构建前缀树的地址标签进行信息规范后,重新与预先构建的标准地址库中不同类型的地址标签进行模糊匹配。
进一步地,所述第二匹配模块335包括:
挖掘子模块3351,可以用于通过构建前缀树的地址标签进行信息规范,挖掘与地址标签相关联的模糊匹配模式;
第二匹配子模块3352,可以用于利用模糊匹配模式,将信息规范后的地址标签重新与预先构建的标准地址库中不同类型的地址标签进行模糊匹配。
进一步地,所述处理单元34包括:
拼接模块341,可以用于按照地址实体片段中地址类型的排列顺序对所述与地址实体片段中地址标签相映射地址类型的标准地址标签进行拼接合并;
输出模块342,可以用于将拼接合并后的标准地址标签作为标注的地址信息,输出文本中标准化的地址信息。
需要说明的是,本实施例提供的一种文本中地址信息的处理装置所涉及各功能单元的其他相应描述,可以参考图1和图2中的对应描述,在此不再赘述。
基于上述如图1和图2所示方法,相应的,本实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1和图2所示的文本中地址信息的处理方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1和图2所示的方法,以及图4和图5所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1和图2所示的文本中地址信息的处理方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的文本中地址信息的处理的实体设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本申请的技术方案,与目前现有技术相比,通过将自由文本中的复杂地址看作是不同类型、不同级别的单个地址组合而成的复杂结构,将地址识别问题转换为单个地址的组合问题,通过预先分类分级的标准地址库,在提高标准地址检索效率的同时,也使得地址库词表可以扩充到海量级别;同时,利用深度学习模型,对单个地址进行分类分级、映射到标准地址库,使得自由文本中地址信息能够规范化输出。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (7)
1.一种文本中地址信息的处理方法,其特征在于,所述方法包括:
获取利用地址判别模型从自由文本中筛选出包含地址信息的文本;
基于预先训练的地址实体抽取模型,对所述包含地址信息的文本进行地址实体抽取,得到携带有地址类型的地址实体片段,其中,收集标注有地址类型的地址实体片段作为标注数据,并将所述标注数据输入至神经网络模型进行训练迭代,得到地址实体抽取模型,所述地址类型包括国家行政区域类、道路类、建筑类、机构单位类、店铺类、其他类,所述国家行政区域类包括省、直辖市、自治区、自治州、直辖市区、县级市、乡,所述道路类包括路、胡同、巷;
从预先构建的标准地址库中查询出与地址实体片段中地址标签相映射地址类型的标准地址标签,所述标准地址库中记录有不同地址类型的地址标签与标准地址标签之间的映射关系,其中,利用带词性属性的分词方式对所述携带有地址类型的地址实体片段进行分词处理,得到携带有词性属性的地址标签,将词性属性为名词的地址标签与所述预先构建的标准地址库中不同地址类型的地址标签进行规则匹配,获取与所述地址实体片段中地址标签相映射地址类型的标准地址标签,若所述预先构建的标准地址库中未匹配得到与所述地址实体片段中地址标签相映射地址类型的标准地址标签,则针对未匹配到的地址标签构建前缀树,对构建前缀树的地址标签进行信息规范后,重新与预先构建的标准地址库中不同类型的地址标签进行模糊匹配;
将所述与地址实体片段中地址标签相映射地址类型的标准地址标签进行处理后,输出文本中标准化的地址信息。
2.根据权利要求1所述的方法,其特征在于,所述将词性属性为名词的地址标签与预先构建的标准地址库中不同地址类型的地址标签进行规则匹配,具体包括:
设置词性属性为名词的地址标签对应的规则匹配模式;
利用规则匹配模式将词性属性为名词的地址标签与预先构建的标准地址库中不同类型的地址标签进行规则匹配。
3.根据权利要求1所述的方法,其特征在于,所述对构建前缀树的地址标签进行信息规范后,重新与预先构建的标准地址库中不同类型的地址标签进行模糊匹配,具体包括:
通过构建前缀树的地址标签进行信息规范,挖掘与地址标签相关联的模糊匹配模式;
利用模糊匹配模式,将信息规范后的地址标签重新与预先构建的标准地址库中不同类型的地址标签进行模糊匹配。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述将所述与地址实体片段中地址标签相映射地址类型的标准地址标签进行处理后,输出文本中标准化的地址信息,具体包括:
按照地址实体片段中地址类型的排列顺序对所述与地址实体片段中地址标签相映射地址类型的标准地址标签进行拼接合并;
将拼接合并后的标准地址标签作为标注的地址信息,输出文本中标准化的地址信息。
5.一种文本中地址信息的处理装置,其特征在于,所述装置包括:
获取单元,用于获取利用地址判别模型从自由文本中筛选出包含地址信息的文本;
训练单元,用于收集标注有地址类型的地址实体片段作为标注数据,并将所述标注数据输入至神经网络模型进行训练迭代,得到地址实体抽取模型;
抽取单元,用于基于预先训练的地址实体抽取模型,对所述包含地址信息的文本进行地址实体抽取,得到携带有地址类型的地址实体片段,所述地址类型包括国家行政区域类、道路类、建筑类、机构单位类、店铺类、其他类,所述国家行政区域类包括省、直辖市、自治区、自治州、直辖市区、县级市、乡,所述道路类包括路、胡同、巷;
查询单元,用于从预先构建的标准地址库中查询出与地址实体片段中地址标签相映射地址类型的标准地址标签,所述标准地址库中记录有不同地址类型的地址标签与标准地址标签之间的映射关系;
处理单元,用于将所述与地址实体片段中地址标签相映射地址类型的标准地址标签进行处理后,输出文本中标准化的地址信息;
其中,所述查询单元还包括:分词模块,用于利用带词性属性的分词方式对携带有地址类型的地址实体片段进行分词处理,得到携带有词性属性的地址标签;
第一匹配模块,用于将词性属性为名词的地址标签与预先构建的标准地址库中不同地址类型的地址标签进行规则匹配;
获取模块,用于获取与地址实体片段中地址标签相映射地址类型的标准地址标签;
构建模块,用于在所述获取与地址实体片段中地址标签相映射地址类型的标准地址标签之后,若所述预先构建的标准地址库中未匹配得到与地址实体片段中地址标签相映射地址类型的标准地址标签,则针对未匹配到的地址标签构建前缀树;
第二匹配模块,用于对构建前缀树的地址标签进行信息规范后,重新与预先构建的标准地址库中不同类型的地址标签进行模糊匹配。
6.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
7.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010190560.3A CN111522901B (zh) | 2020-03-18 | 2020-03-18 | 文本中地址信息的处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010190560.3A CN111522901B (zh) | 2020-03-18 | 2020-03-18 | 文本中地址信息的处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111522901A CN111522901A (zh) | 2020-08-11 |
CN111522901B true CN111522901B (zh) | 2023-10-20 |
Family
ID=71901937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010190560.3A Active CN111522901B (zh) | 2020-03-18 | 2020-03-18 | 文本中地址信息的处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111522901B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232080A (zh) * | 2020-10-20 | 2021-01-15 | 大唐融合通信股份有限公司 | 命名实体识别方法、装置及电子设备 |
CN113157978B (zh) * | 2021-01-15 | 2023-03-28 | 浪潮云信息技术股份公司 | 数据的标签建立方法和装置 |
CN113255353B (zh) * | 2021-05-31 | 2022-08-16 | 中科(厦门)数据智能研究院 | 一种实体标准化方法 |
CN113468881B (zh) * | 2021-07-23 | 2024-02-27 | 浙江大华技术股份有限公司 | 一种地址标准化方法及装置 |
CN114035872A (zh) * | 2021-10-27 | 2022-02-11 | 北京闪送科技有限公司 | 一种通过自动识别并帮助用户快速完善收发件信息的方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015027837A1 (zh) * | 2013-08-30 | 2015-03-05 | 深圳市华傲数据技术有限公司 | 一种通信地址补全的装置及方法 |
CN105528372A (zh) * | 2014-09-30 | 2016-04-27 | 华为技术有限公司 | 一种地址搜索方法和设备 |
WO2016127677A1 (zh) * | 2015-02-13 | 2016-08-18 | 深圳市华傲数据技术有限公司 | 地址结构化方法及装置 |
WO2016127904A1 (zh) * | 2015-02-13 | 2016-08-18 | 阿里巴巴集团控股有限公司 | 文本地址处理方法及装置 |
CN108920457A (zh) * | 2018-06-15 | 2018-11-30 | 腾讯大地通途(北京)科技有限公司 | 地址识别方法和装置及存储介质 |
CN109254964A (zh) * | 2018-08-20 | 2019-01-22 | 中国平安人寿保险股份有限公司 | 地址标准化方法、装置、计算机设备和存储介质 |
CN109271640A (zh) * | 2018-11-13 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 文本信息的地域属性识别方法及装置、电子设备 |
CN109284358A (zh) * | 2018-09-05 | 2019-01-29 | 普信恒业科技发展(北京)有限公司 | 一种中文地址名词分层级的方法和装置 |
CN109325222A (zh) * | 2018-07-23 | 2019-02-12 | 广州都市圈网络科技有限公司 | 一种规格化地址描述方法 |
CN109684440A (zh) * | 2018-12-13 | 2019-04-26 | 北京惠盈金科技术有限公司 | 基于层级标注的地址相似度度量方法 |
CN109800280A (zh) * | 2019-01-16 | 2019-05-24 | 北京神州泰岳软件股份有限公司 | 地址匹配方法及装置 |
CN109960795A (zh) * | 2019-02-18 | 2019-07-02 | 平安科技(深圳)有限公司 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8595219B1 (en) * | 2012-05-16 | 2013-11-26 | Trans Union, Llc | System and method for contextual and free format matching of addresses |
CN109033086A (zh) * | 2018-08-03 | 2018-12-18 | 银联数据服务有限公司 | 一种地址解析、匹配的方法及装置 |
-
2020
- 2020-03-18 CN CN202010190560.3A patent/CN111522901B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015027837A1 (zh) * | 2013-08-30 | 2015-03-05 | 深圳市华傲数据技术有限公司 | 一种通信地址补全的装置及方法 |
CN105528372A (zh) * | 2014-09-30 | 2016-04-27 | 华为技术有限公司 | 一种地址搜索方法和设备 |
WO2016127677A1 (zh) * | 2015-02-13 | 2016-08-18 | 深圳市华傲数据技术有限公司 | 地址结构化方法及装置 |
WO2016127904A1 (zh) * | 2015-02-13 | 2016-08-18 | 阿里巴巴集团控股有限公司 | 文本地址处理方法及装置 |
CN108920457A (zh) * | 2018-06-15 | 2018-11-30 | 腾讯大地通途(北京)科技有限公司 | 地址识别方法和装置及存储介质 |
CN109325222A (zh) * | 2018-07-23 | 2019-02-12 | 广州都市圈网络科技有限公司 | 一种规格化地址描述方法 |
CN109254964A (zh) * | 2018-08-20 | 2019-01-22 | 中国平安人寿保险股份有限公司 | 地址标准化方法、装置、计算机设备和存储介质 |
CN109284358A (zh) * | 2018-09-05 | 2019-01-29 | 普信恒业科技发展(北京)有限公司 | 一种中文地址名词分层级的方法和装置 |
CN109271640A (zh) * | 2018-11-13 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 文本信息的地域属性识别方法及装置、电子设备 |
CN109684440A (zh) * | 2018-12-13 | 2019-04-26 | 北京惠盈金科技术有限公司 | 基于层级标注的地址相似度度量方法 |
CN109800280A (zh) * | 2019-01-16 | 2019-05-24 | 北京神州泰岳软件股份有限公司 | 地址匹配方法及装置 |
CN109960795A (zh) * | 2019-02-18 | 2019-07-02 | 平安科技(深圳)有限公司 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111522901A (zh) | 2020-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111522901B (zh) | 文本中地址信息的处理方法及装置 | |
CN110399457B (zh) | 一种智能问答方法和系统 | |
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
CN110008300B (zh) | Poi别名的确定方法、装置、计算机设备和存储介质 | |
CN111291210A (zh) | 图像素材库生成方法、图像素材推荐方法及相关装置 | |
CN112818093A (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN111274239A (zh) | 试卷结构化处理方法、装置和设备 | |
CN110298039B (zh) | 事件地的识别方法、系统、设备及计算机可读存储介质 | |
CN112256845A (zh) | 意图识别方法、装置、电子设备和计算机可读存储介质 | |
CN102930048A (zh) | 使用参考和视觉数据的语义自动发现的数据丰富 | |
CN112257444B (zh) | 金融信息负面实体发现方法、装置、电子设备及存储介质 | |
CN113268615A (zh) | 资源标签生成方法、装置、电子设备及存储介质 | |
Chiang | Unlocking textual content from historical maps-potentials and applications, trends, and outlooks | |
US10909473B2 (en) | Method to determine columns that contain location data in a data set | |
CN116955541B (zh) | 融合地理要素语义分割与相似度的地址匹配方法和系统 | |
CN113761137B (zh) | 一种提取地址信息的方法及装置 | |
Chatterjee et al. | SAGEL: smart address geocoding engine for supply-chain logistics | |
Chang et al. | Enhancing POI search on maps via online address extraction and associated information segmentation | |
Jaiswal et al. | GeoCAM: A geovisual analytics workspace to contextualize and interpret statements about movement | |
CN107577667B (zh) | 一种实体词处理方法和装置 | |
Chiang et al. | Historical map applications and processing technologies | |
CN113806311B (zh) | 基于深度学习的文件分类方法、装置、电子设备及介质 | |
CN114842982A (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN115186240A (zh) | 基于关联性信息的社交网络用户对齐方法、装置、介质 | |
CN114706948A (zh) | 新闻处理方法、装置、存储介质以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |