CN112069824B - 基于上下文概率和引证的地域识别方法、装置及介质 - Google Patents

基于上下文概率和引证的地域识别方法、装置及介质 Download PDF

Info

Publication number
CN112069824B
CN112069824B CN202011250325.7A CN202011250325A CN112069824B CN 112069824 B CN112069824 B CN 112069824B CN 202011250325 A CN202011250325 A CN 202011250325A CN 112069824 B CN112069824 B CN 112069824B
Authority
CN
China
Prior art keywords
region
landmark
citation
keywords
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011250325.7A
Other languages
English (en)
Other versions
CN112069824A (zh
Inventor
李涛
赵冲
李青龙
骆飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Smart Starlight Information Technology Co ltd
Original Assignee
Beijing Smart Starlight Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Smart Starlight Information Technology Co ltd filed Critical Beijing Smart Starlight Information Technology Co ltd
Priority to CN202011250325.7A priority Critical patent/CN112069824B/zh
Publication of CN112069824A publication Critical patent/CN112069824A/zh
Application granted granted Critical
Publication of CN112069824B publication Critical patent/CN112069824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于上下文概率和引证的地域识别方法、装置及介质,包括:构建映射表,所述映射表包括地域词表、歧义词表和上下文概率表;设定地域词表每个地域关键词的引证等级;通过映射表硬匹配查询获得文档中的匹配词;通过上下文概率表和歧义词表对匹配词进行消歧;获得消歧后的匹配词的引证等级,在引证等级对应的行政地域的等级内,采用地域词表对文档进行匹配查询,获得匹配词对应的一个或多个地域关键词;按照行政地域对匹配词对应的多个地域关键词进行合并输出,获得地域关键词串。本发明占用人工成本少、消耗资源少、速度快、出错容易纠正、正确率和召回率高。

Description

基于上下文概率和引证的地域识别方法、装置及介质
技术领域
本发明涉及地域识别技术领域,更为具体地,涉及一种基于上下文概率和引证的地域识别方法、装置、电子设备及计算机存储介质。
背景技术
随着互联网的发展,互联网承载的文本数据也日益剧增,在越来越多的场景中,获知文本中的行政地域信息成为了一个不可或缺的需求。
目前所属行政地域识别任务普遍是以地域关键词识别任务为基础,更进一步输出文本的地域信息(省-市-县-镇),地域关键词识别相关任务,目前有三大分支:
传统规则方法,此类方法往往需要多个任务领域相关的专家,进行大量的词汇、句式和规则积累,需要做大量的专家工作。优点是具有速度快,资源消耗少,错误易纠正。缺点是召回率和正确率存在不足。
机器学习方法,此类方法需要前期大量的人工标注工作,优点是此类方法基本具有比较清晰的数学理论基础,正确率相较于传统规则方法正确率高。缺点是此方法没有神经网络方法正确率高,纠错较难而且纠错周期较长,且相对传统规则方法需要的人工标注成本较高。
神经网络学习方法,此类方法同样需要前期大量的人工标注和持续标注跟进工作。优点是召回率和准确率较高并且不需要相关领域的专家。缺点是纠错最难而且纠错周期很长,并且此类方法普遍存在人工成本,研发成本,和服务器成本三高问题。
发明内容
鉴于上述问题,本发明的目的是提供一种占用人工成本少、消耗资源少、速度快、出错容易纠正、正确率和召回率高的基于上下文概率和引证的地域识别方法及装置、电子设备及计算机存储介质。
为了实现上述目的,本发明提供一种基于上下文概率和引证的地域识别方法,包括:
构建映射表,所述映射表包括地域词表、歧义词表和上下文概率表,所述地域词表是地域关键词和行政地域的等级映射表,所述行政地域的等级由高到低包括省、市、县和镇;所述歧义词表包括地域关键词及其歧义词的映射表以及地标关键词及其歧义词的映射表;所述上下文概率表包括地域关键词的文本和上下文概率的映射表;
设定地域词表每个地域关键词的引证等级,所述引证等级包括不需要引证和引证对应的行政地域的等级,所述引证对应的行政地域的等级高于地域词表中地域关键词对应的行政地域的等级;
通过映射表硬匹配查询获得文档中的匹配词;
通过上下文概率表和歧义词表对匹配词进行消歧;
获得消歧后的匹配词的引证等级,在引证等级对应的行政地域的等级内,采用地域词表对文档进行匹配查询,获得匹配词对应的一个或多个地域关键词;
按照行政地域对匹配词对应的多个地域关键词进行合并输出,获得地域关键词串。
优选地,所述映射表还包括地标词表,所述地标词表是地标关键词和行政地域的等级映射表,所述地标词表中的行政地域的等级由高到低包括省、市和县;所述歧义词表包括地标关键词及其歧义词的映射表。
进一步,优选地,还包括:
设定地标关键词对应的引证等级,所述地标关键词对应的引证等级与其在地标词表中的行政地域的等级相同;
当一个匹配词按照行政地域输出的地域关键词串不唯一时,采用地标词表对文档进行匹配查询,获得文档中与地标关键词匹配的地标匹配词;
通过歧义词表对地标匹配词进行消歧;
获得地标匹配词对应的引证等级;
删除不存在地标匹配词对应的引证等级的地域关键词串。
优选地,所述引证等级包括0级、1级、2级和3级,所述0级是不需要引证,所述1级为省级引证,所述2级为市级引证,所述3级为区/县级引证。
优选地,所述地域词表和歧义词表的构建方法包括:
在行政网站获取全国完整行政划分,获得行政地域的等级;
设置每个行政地域的等级对应的多个地域关键词;
通过对多个地域关键词数据分拣和数据验证构建地域词表;
通过对每个地域关键词的歧义联想和歧义积累构建歧义词表。
优选地,所述地标词表的构建方法包括:
基于地图的开放API接口爬取地标信息;
通过对得到的全部地标信息进行文本预演构建地标词表。
优选地,所述上下文概率表的构建方法包括:
通过现有的地域关键词公开标注数据集和条件随机场获得地域关键词的上下文概率,构建上下文概率表,所述上下文概率表是包含地域关键词、地域关键词左侧设定个数字符和地域关键词右侧设定个数字符的文本及上下文概率的映射。
此外,本发明还提供一种基于上下文概率和引证的地域识别装置,包括:
映射表构建模块,构建映射表,所述映射表包括地域词表、歧义词表和上下文概率表,所述地域词表是地域关键词和行政地域的等级映射表,所述行政地域的等级由高到低包括省、市、县和镇;所述歧义词表包括地域关键词及其歧义词的映射表以及地标关键词及其歧义词的映射表;所述上下文概率表包括地域关键词的文本和上下文概率的映射表;
设定模块,设定地域词表每个地域关键词的引证等级,所述引证等级包括不需要引证和引证对应的行政地域的等级,所述引证对应的行政地域的等级高于地域词表中地域关键词对应的行政地域的等级;
匹配词获得模块,通过映射表硬匹配查询获得文档中的匹配词;
消歧模块,通过上下文概率表和歧义词表对匹配词进行消歧;
引证模块,获得消歧后的匹配词的引证等级,在引证等级对应的行政地域的等级内,采用地域词表对文档进行匹配查询,获得匹配词对应的一个或多个地域关键词;
输出模块,按照行政地域对匹配词对应的多个地域关键词进行合并输出,获得地域关键词串。
为了实现上述目的,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述基于上下文概率和引证的地域识别方法。
为了实现上述目的,本发明还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于上下文概率和引证的地域识别方法。
本发明所述基于上下文概率和引证的地域识别方法及装置、电子设备及计算机存储介质根据预先设定的映射表和引证等级逻辑,对文档中的地域关键词进行准确提取,在提取的同时实现了地域行政信息的归属确认,将行政信息与地域关键词信息进行预先绑定,并将这个文档之外的信息使用引证逻辑介入到地域关键词正确性确认过程中,让本是需要两个不同步骤确认得到的地域关键词和行政信息融合在一起,并通过引证关系相互确认,大大的提高了所属地域识别的正确率,召回率、实用性,并且因为是基于逻辑计算,本质上可控性强,纠错和调整十分容易。
为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物。
附图说明
图1是本发明所述基于上下文概率和引证的地域识别方法的流程示意图;
图2是本发明所述地域词表和歧义词表的构建方法的流程示意图;
图3是本发明所述所述地标词表的构建方法的流程示意图;
图4是本发明所述在引证等级对应的行政地域的等级内,采用地域词表对文档进行匹配查询的方法的流程示意图;
图5是本发明所述基于上下文概率和引证的地域识别装置的构成框图;
图6是本发明一实施例提供的实现基于基于上下文概率和引证的地域识别方法的电子设备的内部结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
以下将结合附图对本发明的具体实施例进行详细描述。
图1是本发明所述基于上下文概率和引证的地域识别方法的流程示意图,如图1所示,所述地域识别方法包括:
步骤S1,构建映射表,所述映射表包括地域词表、歧义词表和上下文概率表,所述地域词表是地域关键词和行政地域的等级映射表,所述行政地域的等级由高到低包括省、市、县和镇,例如,行政地域“辽宁省”的等级为“省”;所述歧义词表包括地域关键词及其歧义词的映射表以及地标关键词及其歧义词的映射表;所述上下文概率表包括地域关键词的文本和上下文概率的映射表;
步骤S2,设定地域词表每个地域关键词的引证等级,所述引证等级包括不需要引证和引证对应的行政地域的等级,所述引证对应的行政地域的等级高于地域词表中地域关键词对应的行政地域的等级,例如,北京有朝阳区,朝阳区对应的行政地域的等级为区,引证等级为省;
步骤S3,通过映射表硬匹配查询(例如,AC自动机查询)获得文档中的匹配词,例如,文档中的一句文本“我在朝阳遇见了我叔叔”,通过地域词表获得匹配词“朝阳”;
步骤S4,对查询结果进行消歧,上下文概率消歧,也就是说,通过上下文概率表和歧义词表对匹配词进行消歧,例如,“王朝阳”为“朝阳”的歧义词,可以消除文档中的王朝阳;
步骤S5,对消歧后的查询结果进行文档内的地域引证,也就是说,获得消歧后的匹配词的引证等级,在引证等级对应的行政地域的等级内,采用地域词表对文档进行匹配查询,获得匹配词对应的一个或多个地域关键词,例如,匹配词“朝阳”的引证等级为省,地域词表在文档中进行匹配查询时查到北京;
步骤S6,按照行政地域对匹配词对应的多个地域关键词进行合并输出,获得地域关键词串,如上例,按照省、市、区的行政地域的等级对“北京市”和“朝阳区”合并输出为地域关键词串“北京市-北京市-朝阳区”。
在上述基于上下文概率和引证的地域识别方法中,步骤S4通过消歧确定匹配词是一个地方,但是无法确定具体是哪个省、市、县下的地方,通过印证级别的引证确定地方是哪个省、市、县下的地方。
在一个实施例中,步骤S6还包括:
通过不同匹配词对应的地域关键词之间进行相互引证,分别输出含有相同地域关键词的每个匹配词对应的地域关键词串,例如,文档中对匹配词“朝阳”输出的地域关键词串有“北京市-北京市-朝阳区”和“辽宁省-朝阳市”,另一匹配词“海淀”输出的地域关键词串有“北京市-北京市-海淀区”,则通过匹配词“朝阳”和“海淀”的相互引证,输出含有相同地域关键词“北京市”的地域关键词串有“北京市-北京市-朝阳区”和““北京市-北京市-海淀区”。
在一个实施例中,在步骤S1中,所述映射表还包括地标词表,所述地标词表是地标关键词和行政地域的等级映射表,所述地标词表中的行政地域的等级由高到低包括省、市和县;所述歧义词表包括地标关键词及其歧义词的映射表;在步骤S2中,设定地标关键词对应的引证等级,所述地标关键词对应的引证等级与其在地标词表中的行政地域的等级相同。
在一个可选实施例中,步骤S6之后还包括:
采用地标词表对文档进行匹配查询,获得文档中与地标关键词匹配的地标匹配词;
通过歧义词表对地标匹配词进行消歧;
获得地标匹配词对应的引证等级;
删除不存在地标匹配词对应的引证等级相同的行政地域的等级的地域关键词串,例如,文档中对匹配词“朝阳”输出的地域关键词串有“北京市-北京市-朝阳区”和“辽宁省-朝阳市”,采用地标词表匹配对文档进行匹配查询的地标匹配词为“中央电视台”,中央电视台的引证等级为区,则删除不存在行政地域等级“区”的地域关键词串“辽宁省-朝阳市”。
在一个实施例中,基于上下文概率和引证的地域识别方法包括:
构建地域关键词和地标关键词的关键词映射表,例如,地标关键词“中央电视台”和地域关键词“朝阳区”或“北京市”映射,优选地,关键词映射表中,地域关键词对应的行政地域的等级大于地标关键词属于的行政区域的最小等级;
采用地标词表对文档进行匹配查询,查询文档中的地标关键词,例如查询的结果是地标关键词“中央电视台”;
获得地标关键词对应的地域关键词,例如,地标关键词“中央电视台”对应的地域关键词为“北京市”;
删除与地域关键词不匹配的地域关键词串,如上例删除与“北京市”不匹配的地域关键词串“辽宁省-朝阳市”。
在一个可选实施例中,步骤S6之后还包括:
采用地标词表对文档进行匹配查询,获得文档中与地标关键词匹配的地标匹配词;
通过歧义词表对地标匹配词进行消歧;
获得地标匹配词对应的引证等级,在引证等级对应的行政地域的等级内,采用地标词表对文档进行匹配查询,获得地标匹配词对应的一个或多个地标关键词,例如,地标匹配词为“中央电视台”,引证等级为区,采用地标词表对文档匹配查询获得的地标关键词为“朝阳市”;
按照行政地域对地标匹配词对应的多个地标关键词进行合并输出,获得地标关键词串,如上例,获得的地标关键词串为“北京市-北京市-朝阳区-中央电视台”。
优选地,步骤S6之后还包括:
通过地标关键词串引证地域关键词串,也就是说输出含有地标关键词的地域关键词串,例如,文档中对匹配词“朝阳”输出的地域关键词串有“北京市-北京市-朝阳区”和“辽宁省-朝阳市”,地标关键词串为“北京市-北京市-朝阳区-中央电视台”,地域关键词串有“北京市-北京市-朝阳区”含有地标关键词“北京市”,因此进行输出。
在一个实施例中,所述引证等级包括0级、1级、2级和3级,所述0级是不需要引证,所述1级为省级引证,所述2级为市级引证,所述3级为区/县级引证,优选地,地域关键词或地表关键词的行政区域归属本身唯一且长度大于设定值,引证等级为0。
在一个实施例中,在步骤S1中,如图2所示,所述地域词表和歧义词表的构建方法包括:
在行政网站获取全国完整行政划分,获得行政地域的等级;
设置每个行政地域的等级对应的多个地域关键词;
通过对多个地域关键词数据分拣和数据验证构建地域词表;
通过对每个地域关键词的歧义联想和歧义积累构建歧义词表。
在一个实施例中,在步骤S1中,如图3所示,所述地标词表的构建方法包括:
基于地图的开放API接口爬取地标信息;
通过对得到的全部地标信息进行文本预演构建地标词表,优选地,通过对得到的全部地标进行文本预演,删除头部噪音地标得到地标词表,也就是说,由于地标噪音词在文本中的出现频率高于正常的地标关键词,因此通过对所有地标词进行大数据匹配,删除高频噪音词。
优选地,所述基于地图的开放API接口爬取地标信息的步骤包括:
通过API接口获取地域行政地点的经纬度为起点;
以各起点的经纬度在地图上利用API进行设定范围搜索,获取设定范围内的地标;
以地标的经纬度为起点,进行设定范围搜索,直至遍历完地图,获得所有地标的地标信息,所述地标包括地标名称及其对应的行政地域的等级。
在一个实施例中,在步骤S1中,所述上下文概率表的构建方法包括:
通过现有的地域关键词公开标注数据集和条件随机场获得地域关键词的上下文概率,构建上下文概率表,所述上下文概率表是包含地域关键词、地域关键词左侧设定个数字符和地域关键词右侧设定个数字符的文本及上下文概率的映射。
上下文,顾名思义,就是关键词的前后字符。优选地,建立左一、左二、右一、右二四个上下文词表,包括:通过对现有的地域关键词公开标注数据集和高准确度模型(bert+CRF训练的模型)的输出文本进行合并;对文本中地域词的左一、左二、右一、右二字符进行概率统计;留存概率高的左一、左二、右一、右二字符得到;的左一、左二、右一、右二四个上下文词表。发明人发现确认来自上下文1-2个字符对词的准确性判断影响最大,因此在准确构建上下文概率表的同时减轻运算量。
在一个实施例中,如图4所示,步骤S5包括:
获得消歧后的匹配词的引证等级;
将不需要引证的匹配词及其对应的行政地域的等级进行归档;
将需要省级引证的匹配词及其对应的行政地域的等级进行归档;
采用省级引证对应的地域词表对文档进行匹配查询,如果查到需引证的省(地域关键词),进行最终引证归档,如果没有查到需引证的省,舍弃匹配词;
将需要市级引证的匹配词及其对应的行政地域的等级进行归档;
采用市级引证对应的地域词表对文档进行匹配查询,如果查到需引证的市(地域关键词),进行最终引证归档,如果没有查到需引证的市,舍弃匹配词;
采用区/县级引证对应的地域词表对文档进行匹配查询,如果查到需引证的区/县(地域关键词),进行最终引证归档,如果没有查到需引证的区/县,舍弃匹配词,优选地,如果没查到需引证的区/县,采用市级引证对应的地域词表对文档进行匹配查询,如果查到需引证的市(地域关键词),进行最终引证归档,如果没有查到需引证的市,舍弃匹配词。
本发明所述基于上下文概率和引证的地域识别方法引入引证等级,可以根据引证等级在地域词表内引证,也可以采用不同匹配词之间的引证,还可以采用地域词表和地标词表相互引证,很大程度上提高了地域识别的召回率和正确率。另外本申请是采用词表匹配的方法,计算量小,占用人工成本少、消耗资源少、速度快、出错容易纠正。
图5是本发明所述基于上下文概率和引证的地域识别装置的构成框图,如图5所示,所述地域识别装置100包括:
映射表构建模块110,构建映射表,所述映射表包括地域词表、歧义词表和上下文概率表,所述地域词表是地域关键词和行政地域的等级映射表,所述行政地域的等级由高到低包括省、市、县和镇;所述歧义词表包括地域关键词及其歧义词的映射表以及地标关键词及其歧义词的映射表;所述上下文概率表包括地域关键词的文本和上下文概率的映射表;
设定模块120,设定地域词表每个地域关键词的引证等级,所述引证等级包括不需要引证和引证对应的行政地域的等级,所述引证对应的行政地域的等级高于地域词表中地域关键词对应的行政地域的等级;
匹配词获得模块130,通过映射表硬匹配查询获得文档中的匹配词;
消歧模块140,通过上下文概率表和歧义词表对匹配词进行消歧;
引证模块150,获得消歧后的匹配词的引证等级,在引证等级对应的行政地域的等级内,采用地域词表对文档进行匹配查询,获得匹配词对应的一个或多个地域关键词;
输出模块160,按照行政地域对匹配词对应的多个地域关键词进行合并输出,获得地域关键词串。
优选地,所述引证等级包括0级、1级、2级和3级,所述0级是不需要引证,所述1级为省级引证,所述2级为市级引证,所述3级为区/县级引证。
在一个实施例中,所述映射表还包括地标词表,所述地标词表是地标关键词和行政地域的等级映射表,所述地标词表中的行政地域的等级由高到低包括省、市和县;所述歧义词表包括地标关键词及其歧义词的映射表。
优选地,设定模块设定地标关键词对应的引证等级,所述地标关键词对应的引证等级与其在地标词表中的行政地域的等级相同;输出模块输出的一个匹配词对应的地域关键词串不唯一时,匹配词获得模块采用地标词表对文档进行匹配查询,获得文档中与地标关键词匹配的地标匹配词;消歧模块通过歧义词表对地标匹配词进行消歧;引证模块获得地标匹配词对应的引证等级;输出模块删除不存在地标匹配词对应的引证等级的地域关键词串。
在一个实施例中,映射表构建模块包括:
地域词表和歧义词表构建单元,在行政网站获取全国完整行政划分,获得行政地域的等级;设置每个行政地域的等级对应的多个地域关键词;通过对多个地域关键词数据分拣和数据验证构建地域词表;通过对每个地域关键词的歧义联想和歧义积累构建歧义词表;
上下文概率表构建单元,通过现有的地域关键词公开标注数据集和条件随机场获得地域关键词的上下文概率,构建上下文概率表,所述上下文概率表是包含地域关键词、地域关键词左侧设定个数字符和地域关键词右侧设定个数字符的文本及上下文概率的映射。
优选地,映射表构建模块还包括:
地标词表的构建单元,基于地图的开放API接口爬取地标信息;通过对得到的全部地标信息进行文本预演构建地标词表。
如图6所示,是本发明实现基于上下文概率和引证的地域识别方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于上下文概率和引证的地域识别程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card, SMC)、安全数字(SecureDigital, SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于上下文概率和引证的地域识别程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如基于上下文概率和引证的地域识别程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图6仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图6示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的基于上下文概率和引证的地域识别程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
构建映射表,所述映射表包括地域词表、歧义词表和上下文概率表,所述地域词表是地域关键词和行政地域的等级映射表,所述行政地域的等级由高到低包括省、市、县和镇;所述歧义词表包括地域关键词及其歧义词的映射表以及地标关键词及其歧义词的映射表;所述上下文概率表包括地域关键词的文本和上下文概率的映射表;
设定地域词表每个地域关键词的引证等级,所述引证等级包括不需要引证和引证对应的行政地域的等级,所述引证对应的行政地域的等级高于地域词表中地域关键词对应的行政地域的等级;
通过映射表硬匹配查询获得文档中的匹配词;
通过上下文概率表和歧义词表对匹配词进行消歧;
获得消歧后的匹配词的引证等级,在引证等级对应的行政地域的等级内,采用地域词表对文档进行匹配查询,获得匹配词对应的一个或多个地域关键词;
按照行政地域对匹配词对应的多个地域关键词进行合并输出,获得地域关键词串。
具体地,所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质可以是非易失性,也可以是易失性,计算机可读存储介质中包括计算机程序,该计算机程序被处理器执行时实现如下操作:
构建映射表,所述映射表包括地域词表、歧义词表和上下文概率表,所述地域词表是地域关键词和行政地域的等级映射表,所述行政地域的等级由高到低包括省、市、县和镇;所述歧义词表包括地域关键词及其歧义词的映射表以及地标关键词及其歧义词的映射表;所述上下文概率表包括地域关键词的文本和上下文概率的映射表;
设定地域词表每个地域关键词的引证等级,所述引证等级包括不需要引证和引证对应的行政地域的等级,所述引证对应的行政地域的等级高于地域词表中地域关键词对应的行政地域的等级;
通过映射表硬匹配查询获得文档中的匹配词;
通过上下文概率表和歧义词表对匹配词进行消歧;
获得消歧后的匹配词的引证等级,在引证等级对应的行政地域的等级内,采用地域词表对文档进行匹配查询,获得匹配词对应的一个或多个地域关键词;
按照行政地域对匹配词对应的多个地域关键词进行合并输出,获得地域关键词串。
本申请之计算机可读存储介质的具体实施方式与上述基于上下文概率和引证的地域识别方法、装置、电子设备的具体实施方式大致相同,在此不再赘述。
在一个具体实施例中,地域词表有8335条映射,歧义词表有29224条映射,地标词表具有4238043条映射,上下文概率标有3004条映射,文本为:我在朝阳遇见了我叔叔。朝阳出现在文本中时,该地域关键词经过去歧义和上下文确认之后,但是北京有朝阳区还是辽宁省的朝阳市。如果地标本身唯一且长度大于4,设置引证等级为0,如果地标词表中,如果有一个词可能映照多行政地域归属信息,那么根据需要设置对应的引证等级。需要确定文本中是否出现北京市直辖市或者辽宁省才能确定行政地域归属信息,所以需要对朝阳设置如下两条1级引证:
朝阳 北京市-北京市-朝阳区 1
朝阳 辽宁省-朝阳市 1
其中,1代表需要1级别引证。
使用的是双trie树实现的AC自动机算法进行查询,便捷高效,查询的结果为:
朝阳 北京市-北京市-朝阳区 1 start:2 end:4
朝阳 辽宁省-朝阳市 1 start:2 end:4
其中,start和end代表查到的关键词在文本中出现的索引位置。
利用歧义词对查询结果进行消歧,如果查询结果中包含需要确认词的歧义词,那么这条查询结果舍弃。利用上下文对查询结果进行消歧,如果一条查询结果关键词长度小于3且左一、左二、右一、右二均不在上下文字符中。那么这条查询结果舍弃。
存储关键词和地域行政信息对照信息,逐条存储,同时存储一份去重后的行政信息,包括:
首先,将所有留存的结果按照引证等级,分类归档。
将0级别的引证,直接归入最终正确结果的待输出归档中。
分别遍历1,2,3级引证类别中的关键词和地域行政信息对照信息。查询其在最终正确结果的待输出归档中的行政信息中是否有满足自身以引证条件的行政信息例如,(朝阳 辽宁省-朝阳市 1 start:2 end:4)引证等级是1,需要确定已有正确结果中没有省级名称是辽宁省的,如果有,将当前遍历到的关键词和地域行政信息对照信息存储到最终正确结果的待输出归档中。如果是引证级别3在初步引证失败后,应再次和引证2级别的归档中的行政信息进行引证。如果引证到,将当前遍历到的关键词和地域行政信息对照信息存储到最终正确结果的待输出归档中,同时把被引证到的引证2级别的归档中的对应的那条关键词和地域行政信息对照信息存储到最终正确结果的待输出归档中。
遍历最终正确结果的待输出归档中的关键词和地域行政信息对照信息,逐条输出或者按照想要的格式进行输出。
现有BERT模型在上述具体实施例中资源使用情况:内存:200M+ ; GPU:8G+ ; 识别速度:200条/S; 纠错周期:7天+;召回率:95.33%;正确率:85.7%;本发明所述基于上下文概率和引证的地域识别方法的资源使用情况:内存:1.4G;GPU:0G ;识别速度:4900条/S;纠错周期:1小时;召回率:95.21% ;正确率:91%。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (8)

1.一种基于上下文概率和引证的地域识别方法,其特征在于,包括:
构建映射表,所述映射表包括地域词表、歧义词表、地标词表和上下文概率表,所述地域词表是地域关键词和行政地域的等级映射表,所述行政地域的等级由高到低为省、市、区/县和镇;所述地标词表是地标关键词和行政地域的等级映射表,所述地标词表中的行政地域的等级由高到低包括省、市和区/县;所述歧义词表包括地域关键词及其歧义词的映射表以及地标关键词及其歧义词的映射表;所述上下文概率表包括地域关键词的文本和上下文概率的映射表;
设定地域词表每个地域关键词的引证等级,所述引证等级包括不需要引证和引证对应的行政地域的等级,所述引证对应的行政地域的等级高于地域词表中地域关键词对应的行政地域的等级;
通过映射表采用AC自动机查询方式获得文档中的匹配词;
通过上下文概率表和歧义词表对匹配词进行消歧;
获得消歧后的匹配词的引证等级,在引证等级对应的行政地域的等级内,采用地域词表对文档进行匹配查询,获得匹配词对应的一个或多个地域关键词;
按照行政地域对匹配词对应的多个地域关键词进行合并输出,获得地域关键词串;
其中,还包括:
设定地标关键词对应的引证等级,所述地标关键词对应的引证等级与其在地标词表中的行政地域的等级相同;
当一个匹配词按照行政地域输出的地域关键词串不唯一时,采用地标词表对文档进行匹配查询,获得文档中与地标关键词匹配的地标匹配词;
通过歧义词表对地标匹配词进行消歧;
获得地标匹配词对应的引证等级;
删除不存在地标匹配词对应的引证等级的地域关键词串。
2.根据权利要求1所述的基于上下文概率和引证的地域识别方法,其特征在于,所述引证等级包括0级、1级、2级和3级,所述0级是不需要引证,所述1级为省级引证,所述2级为市级引证,所述3级为区/县级引证。
3.根据权利要求1所述的基于上下文概率和引证的地域识别方法,其特征在于,所述地域词表和歧义词表的构建方法包括:
在行政网站获取全国完整行政划分,获得行政地域的等级;
设置每个行政地域的等级对应的多个地域关键词;
通过对多个地域关键词数据分拣和数据验证构建地域词表;
通过对每个地域关键词的歧义联想和歧义积累构建歧义词表。
4.根据权利要求1所述的基于上下文概率和引证的地域识别方法,其特征在于,所述地标词表的构建方法包括:
基于地图的开放API接口爬取地标信息;
通过对得到的全部地标信息进行文本预演构建地标词表,其中,所述进行文本预演构建地标词表的方法包括:通过对所有地标词进行大数据匹配,删除高频噪音词。
5.根据权利要求1所述的基于上下文概率和引证的地域识别方法,其特征在于,所述上下文概率表的构建方法包括:
通过现有的地域关键词公开标注数据集和条件随机场获得地域关键词的上下文概率,构建上下文概率表,所述上下文概率表是包含地域关键词、地域关键词左侧设定个数字符和地域关键词右侧设定个数字符的文本及上下文概率的映射。
6.一种基于上下文概率和引证的地域识别装置,其特征在于,包括:
映射表构建模块,构建映射表,所述映射表包括地域词表、歧义词表和上下文概率表,所述地域词表是地域关键词和行政地域的等级映射表,所述行政地域的等级由高到低包括省、市、区/县和镇;所述歧义词表包括地域关键词及其歧义词的映射表以及地标关键词及其歧义词的映射表;所述上下文概率表包括地域关键词的文本和上下文概率的映射表;
设定模块,设定地域词表每个地域关键词的引证等级,所述引证等级包括不需要引证和引证对应的行政地域的等级,所述引证对应的行政地域的等级高于地域词表中地域关键词对应的行政地域的等级;
匹配词获得模块,通过映射表采用AC自动机查询方式获得文档中的匹配词;
消歧模块,通过上下文概率表和歧义词表对匹配词进行消歧;
引证模块,获得消歧后的匹配词的引证等级,在引证等级对应的行政地域的等级内,采用地域词表对文档进行匹配查询,获得匹配词对应的一个或多个地域关键词;
输出模块,按照行政地域对匹配词对应的多个地域关键词进行合并输出,获得地域关键词串;
其中,所述映射表还包括地标词表,所述地标词表是地标关键词和行政地域的等级映射表,所述地标词表中的行政地域的等级由高到低包括省、市和区/县;所述歧义词表包括地标关键词及其歧义词的映射表;
其中,设定模块设定地标关键词对应的引证等级,所述地标关键词对应的引证等级与其在地标词表中的行政地域的等级相同;输出模块输出的一个匹配词对应的地域关键词串不唯一时,匹配词获得模块采用地标词表对文档进行匹配查询,获得文档中与地标关键词匹配的地标匹配词;消歧模块通过歧义词表对地标匹配词进行消歧;引证模块获得地标匹配词对应的引证等级;输出模块删除不存在地标匹配词对应的引证等级的地域关键词串。
7.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至5中任一所述的基于上下文概率和引证的地域识别方法。
8.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一所述的基于上下文概率和引证的地域识别方法。
CN202011250325.7A 2020-11-11 2020-11-11 基于上下文概率和引证的地域识别方法、装置及介质 Active CN112069824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011250325.7A CN112069824B (zh) 2020-11-11 2020-11-11 基于上下文概率和引证的地域识别方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011250325.7A CN112069824B (zh) 2020-11-11 2020-11-11 基于上下文概率和引证的地域识别方法、装置及介质

Publications (2)

Publication Number Publication Date
CN112069824A CN112069824A (zh) 2020-12-11
CN112069824B true CN112069824B (zh) 2021-02-02

Family

ID=73655081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011250325.7A Active CN112069824B (zh) 2020-11-11 2020-11-11 基于上下文概率和引证的地域识别方法、装置及介质

Country Status (1)

Country Link
CN (1) CN112069824B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065419B (zh) * 2021-03-18 2022-05-24 哈尔滨工业大学 一种基于流量高频内容的模式匹配算法及系统
CN113065354B (zh) * 2021-03-19 2024-01-09 平安普惠企业管理有限公司 语料中地理位置的识别方法及其相关设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9477717B2 (en) * 2008-03-31 2016-10-25 Yahoo! Inc. Cross-domain matching system
CN102479230A (zh) * 2010-11-29 2012-05-30 北京四维图新科技股份有限公司 提取地理特征词的方法和装置
US20130110839A1 (en) * 2011-10-31 2013-05-02 Evan R. Kirshenbaum Constructing an analysis of a document
CN102426603B (zh) * 2011-11-11 2014-06-18 任子行网络技术股份有限公司 一种文字信息地域识别方法及装置
CN103853738B (zh) * 2012-11-29 2017-06-27 中国科学院计算机网络信息中心 一种网页信息相关地域的识别方法
CN106503150A (zh) * 2016-10-21 2017-03-15 天津海量信息技术股份有限公司 中文地名行政区划归属识别方法
CN106570130B (zh) * 2016-10-27 2019-10-01 厦门市美亚柏科信息股份有限公司 基于rdf知识库的文本地域判断方法及其系统
CN109271640B (zh) * 2018-11-13 2021-09-17 腾讯科技(深圳)有限公司 文本信息的地域属性识别方法及装置、电子设备
CN110245277B (zh) * 2019-06-12 2022-04-15 杭州数澜科技有限公司 用于确定地名串的方法和系统
CN110399613B (zh) * 2019-07-26 2023-03-31 浪潮软件股份有限公司 一种基于词性标注的互联网新闻涉及地名识别方法及系统
CN111325030A (zh) * 2020-03-31 2020-06-23 卓尔智联(武汉)研究院有限公司 文本标签构建方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN112069824A (zh) 2020-12-11

Similar Documents

Publication Publication Date Title
CN112016304A (zh) 文本纠错方法、装置、电子设备及存储介质
CN106909611B (zh) 一种基于文本信息抽取的酒店自动匹配方法
CN112069276B (zh) 地址编码方法、装置、计算机设备及计算机可读存储介质
CN112541338A (zh) 相似文本匹配方法、装置、电子设备及计算机存储介质
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
CN112069824B (zh) 基于上下文概率和引证的地域识别方法、装置及介质
CN113033198B (zh) 相似文本推送方法、装置、电子设备及计算机存储介质
CN113268615A (zh) 资源标签生成方法、装置、电子设备及存储介质
WO2019227581A1 (zh) 兴趣点识别方法、装置、终端设备及存储介质
CN112528174A (zh) 基于知识图谱和多重匹配的地址修整补全方法及应用
CN113378970A (zh) 语句相似性检测方法、装置、电子设备及存储介质
CN113360768A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
WO2022121152A1 (zh) 智能对话方法、装置、电子设备及存储介质
CN114461761A (zh) 基于标签匹配的搜索方法、系统、计算机设备及存储介质
CN113344125A (zh) 长文本匹配识别方法、装置、电子设备及存储介质
CN112632264A (zh) 智能问答方法、装置、电子设备及存储介质
CN110232160B (zh) 兴趣点变迁事件检测方法、装置及存储介质
CN113806311B (zh) 基于深度学习的文件分类方法、装置、电子设备及介质
CN115718807A (zh) 人员关系分析方法、装置、设备及存储介质
CN112417812B (zh) 地址标准化方法、系统及电子设备
CN114722140A (zh) 基于用户标签的数据推送方法、装置、设备及存储介质
CN111680122B (zh) 空间数据主动推荐方法、装置、存储介质及计算机设备
CN114036414A (zh) 兴趣点的处理方法、装置、电子设备、介质及程序产品
CN114003812A (zh) 地址匹配方法、系统、设备及存储介质
CN113850643A (zh) 产品推荐方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant