CN112329469B - 一种行政地域实体识别方法及系统 - Google Patents
一种行政地域实体识别方法及系统 Download PDFInfo
- Publication number
- CN112329469B CN112329469B CN202011223738.6A CN202011223738A CN112329469B CN 112329469 B CN112329469 B CN 112329469B CN 202011223738 A CN202011223738 A CN 202011223738A CN 112329469 B CN112329469 B CN 112329469B
- Authority
- CN
- China
- Prior art keywords
- region
- name
- short
- regular expression
- names
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000014509 gene expression Effects 0.000 claims abstract description 192
- 238000013507 mapping Methods 0.000 claims abstract description 99
- 238000005520 cutting process Methods 0.000 claims abstract description 3
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 241000219112 Cucumis Species 0.000 description 1
- 235000015510 Cucumis melo subsp melo Nutrition 0.000 description 1
- FJJCIZWZNKZHII-UHFFFAOYSA-N [4,6-bis(cyanoamino)-1,3,5-triazin-2-yl]cyanamide Chemical compound N#CNC1=NC(NC#N)=NC(NC#N)=N1 FJJCIZWZNKZHII-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9027—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种行政地域实体识别方法及系统,其中方法包括以下步骤:获取并切分待识别文本,获得若干个待识别短句;基于预设的地域召回映射表召回各待识别短句中包含的地域名,并提取所述地域名对应的所有地域的ID,生成与所述待识别短句相映射的候选ID集;基于候选ID集从预设的地域正则表达式映射表中提取相对应的正则表达式,将所述待识别短句与所述正则表达式相匹配,获得相应的识别结果。本发明中将待识别文本拆分为待识别短句,使精确判别的步骤仅在可能出现地域实体且尽可能短的文本中进行,从而有效提高识别效率,且本发明利用正则表达式进行精确判别,正则表达式的可解释强,便于后续纠错、维护和更新。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种行政地域实体识别方法及系统。
背景技术
行政地域实体识别用于从文本中提取地域实体,从而为文本标注行政地域标签,以便于后续进行信息过滤、筛选、分析。
现有技术中识别行政地域实体的方法包括以下两种:
1.基于分词的结果进行文本简单匹配;该方案准确性高度依赖分词器分词及词性标注的效能,如基于词性对分词结果进行筛选后进行匹配,但此种方式在提高准确性的同时将牺牲召回率。
以哈密市为例,如基于分词“哈密”进行文本匹配,会出现将“哈密瓜”误判为“哈密市”的情况,如果精确匹配“哈密市”,则会丢失“新疆哈密”等由短名指代的地域实体。
2、使用深度学习的方法识别地域实体,此类方法往往速度较慢;由于深度模型属于黑盒模型、可解释性弱,出现异常结果需要修复时,往往需要投入大量的精力和时间进行处理,且不能保证一定能解决特定问题,故模型针对特定的错误例子(badcase),很难进行针对性的处理来纠正错误,不便于维护更新。
发明内容
本发明针对现有技术中的缺点,提供了一种在保证准确率和召回率前提下,识别效率高的行政地域实体识别方法及系统。
为了解决上述技术问题,本发明通过下述技术方案得以解决:
本发明提出一种行政地域实体识别方法,包括以下步骤:
获取并切分待识别文本,获得若干个待识别短句;
基于预设的地域召回映射表召回各待识别短句中包含的地域名,并提取所述地域名对应的所有地域的ID,生成与所述待识别短句相映射的候选ID集;
基于候选ID集从预设的地域正则表达式映射表中提取相对应的正则表达式,将所述待识别短句与所述正则表达式相匹配,获得相应的识别结果。
作为一种可实施方式:
所述地域名包括名称和短名;
所述地域召回映射表包括短名映射数据和名称映射数据;
所述短名映射数据包括相映射的短名和第一ID列表,所述第一ID列表包含与所述短名相对应的所有地域的ID;
所述名称映射数据包括相映射的名称和第二ID列表,所述第二ID列表包含与所述名称相对应的所有地域的ID。
作为一种可实施方式,地域召回映射表的获取方法包括以下步骤:
配置地域实体元数据;
遍历各地域实体元数据,从所述地域实体元数据中提取相应地域的ID、名称和短名;
将所述短名加入地域召回映射表,并将所述ID添加至与所述短名相映射的第一ID列表;
将所述短名与所述名称进行匹配,匹配不成功时将所述名称加入地域召回映射表,并将所述ID添加至与所述名称相映射的第二ID列表。
作为一种可实施方式:
所述地域实体元数据还包括地域级别、上级ID、直辖市情况、名称冲突情况、名称歧义情况、与上级短名冲突情况和短名歧义情况;
地域正则表达式映射表包括相映射的ID和正则表达式,所述正则表达式的获取方法为;
配置通用元数据,所述通用元数据包括消歧后缀正则表达式、禁止前缀正则表达式和禁止后缀正则表达式;
基于所述地域实体元数据和所述通用元数据,依次为各地域生成与其相对应的正则表达式。
作为一种可实施方式:
基于所述地域级别和所述直辖市情况判断所述地域的等级;
当所述地域级别为省级,或所述地域级别为市级且所述直辖市情况为直辖市市区本级时,判定所述地域为一级地域,否则所述地域为二级地域;
当所述地域为一级地域时,基于名称和短名,以及所述通用元数据,按照预设的一级地域判别正则表达式生成与所述地域相对应的正则表达式;
当所述地域为二级地域时,基于名称、短名和上级ID,以及所述通用元数据,按照预设的第一判别正则表达式生成第一正则表达式,并基于名称冲突情况、名称歧义情况、名称冲突情况、与上级短名冲突情况和/或短名歧义情况对所述第一正则表达式进行表达式追加,生成与所述地域相对应的正则表达式。
作为一种可实施方式:
当所述名称冲突情况为冲突时,将第一正则表达式作为与所述地域相对应的正则表达式,否则,按照预设的第二判别正则表达式追加召回所述名称的表达式,生成第二正则表达式;
当所述名称歧义情况为歧义,将第二正则表达式作为与所述地域相对应的正则表达式,否则,按照预设的第三判别正则表达式进行追加表达式,生成第三正则表达式;
当所述短名冲突情况为冲突,且所述上级短名冲突情况为不冲突时,将第三正则表达式作为与所述地域相对应的正则表达式,否则,按照预设的第四判别正则表达式进行追加召回短名的表达式,生成第四正则表达式;
当所述短名歧义情况为歧义,或所述名称长度大于预设的长度阈值且以县结尾时,将第四正则表达式作为与所述地域相对应的正则表达式,否则,按照预设的第五判别正则表达式进行追加表达式,生成第五正则表达式,将第五正则表达式作为与所述地域相对应的正则表达式。
作为一种可实施方式:
地域召回映射表为TrieTree结构。
本发明还提出一种行政地域实体识别系统,包括:
拆分模块,用于获取并切分待识别文本,获得若干个待识别短句;
匹配模块,用于基于预设的地域召回映射表召回各待识别短句中包含的地域名,并提取所述地域名对应的所有地域的ID,生成与所述待识别短句相映射的候选ID集;
消歧模块,用于基于候选ID集从预设的地域正则表达式映射表中提取相对应的正则表达式,将所述待识别短句与所述正则表达式相匹配,获得相应的识别结果。
作为一种可实施方式,还包括映射表生成模块,所述映射表生成模块包括配置单元、第一生成单元和第二生成单元;所述配置单元,用于配置地域实体元数据,还用于配置通用元数据;
所述第一生成单元被配置为:
遍历各地域实体元数据,从所述地域实体元数据中提取相应地域的ID、名称和短名;
将所述短名加入短名映射数据,并将所述ID添加至与所述短名相映射的第一ID列表;
将所述短名与所述名称进行匹配,匹配不成功时将所述名称加入名称映射数据,并将所述ID添加至与所述名称相映射的第二ID列表;
基于所述短名映射数据和所述名称映射数据生成地域召回映射表;
所述第二生成单元,用于基于所述地域实体元数据和所述通用元数据,依次为各地域生成与其相对应的正则表达式,基于所述正则表达式和对应地域的地域标识构建地域正则表达式映射表。
本发明还提出一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现上述任一项所述的方法。
本发明由于采用了以上技术方案,具有显著的技术效果:
1、本发明通过地域召回映射表对可能存在地域实体的待识别短句进行召回,利用用于判定所述地域实体的正则表达式,对所召回的待识别短句进行精确判别,从而保证准确率和召回率,且将待识别文本拆分为待识别短句,使精确判别的步骤仅在可能出现地域实体且尽可能短的文本中进行,从而有效提高识别效率。
2、本发明通过基于地域实体元数据自动生成地域召回映射表,基于地域实体元数据和通用元数据自动生成各地域对应的正则表达式,无需工作人员手动编译,工作效率高且节约人力成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一种行政地域实体识别方法的简易流程示意图;
图2是生成地域召回映射表的流程示意图;
图3是生成地域正则表达式映射表的流程示意图;
图4是判断地域等级的流程示意图;
图5是生成二级地域的判别正则表达式的流程示意图;
图6是本发明一种行政地域实体识别方法的详细流程示意图;
图7是本发明一种行政地域实体识别系统的模块连接示意图。
具体实施方式
下面结合实施例对本发明做进一步的详细说明,以下实施例是对本发明的解释而本发明并不局限于以下实施例。
实施例1、一种行政地域实体识别方法,如图1所示,包括以下步骤:
S100、获取并切分待识别文本,获得若干个待识别短句;
S200、基于预设的地域召回映射表召回各待识别短句中包含的地域名,并提取所述地域名对应的所有地域的ID,生成与所述待识别短句相映射的候选ID集;
S300、基于候选ID集从预设的地域正则表达式映射表中提取相对应的正则表达式,将所述待识别短句与所述正则表达式相匹配,获得相应的识别结果。
现有实体识别方法虽包括基于使用正则表达式或等效的用于模式匹配的代码逻辑进行简单字符串匹配的方法,但由于行政地域实体的数量众多,且地域名之间存在相冲突的情况、地域名还存在其他含义的情况,故无法采用通用的正则表达式;如为每个行政地域实体设计与其相对应的正则表达式进行实体识别,需要所有正则表达式与待识别文本相匹配,匹配速度慢。
本实施例中通过地域召回映射表对可能存在地域实体的待识别短句进行召回,利用用于判定所述地域实体的正则表达式,对所召回的待识别短句进行精确判别,由于本实施例中将待识别文本拆分为待识别短句,使精确判别的步骤仅在可能出现地域实体且尽可能短的文本中进行,从而有效提高识别效率,基于正则表达式的可解释强,便于后续纠错、维护和更新。
上述步骤S100中获取并切分待识别文本,获得若干个待识别短句的具体实现方式如下:
配置字符列表,基于所述字符列表对所述待识别文本进行切分,获得若干个短句;
判定字符长度大于预设字符长度阈值(如1)的短句为待识别短句。
本实施例中字符列表包含:“#()—"'“”1234567890[],;:?()【】。,:;、?…|\n”;
上述最后一个字符为空格,“\n”为换行符。
进一步地:
所述地域名包括名称和短名;
所述地域召回映射表包括短名映射数据和名称映射数据;
所述短名映射数据包括相映射的短名和第一ID列表,所述第一ID列表包含与所述短名相对应的所有地域的ID;
所述名称映射数据包括相映射的名称和第二ID列表,所述第二ID列表包含与所述名称相对应的所有地域的ID。
本实施例通过地域召回映射表的设计,在检测待识别短句中包含的地域名时无需遍历所有地域实体,仅需使遍历短名映射数据和名称映射数据即可,大大提升实体识别效率。
进一步地:
地域召回映射表的获取方法包括以下步骤:
A1、配置地域实体元数据;
本实施例中地域实体元数据包括相应地域的ID、名称、短名、地域级别、上级ID、直辖市情况、名称冲突情况、名称歧义情况、短名冲突情况、与上级短名冲突情况和短名歧义情况短名冲突情况,具体如下表所示:
表1
其中,本实施例中为便于进行行政地域的实体识别,将直辖市下辖一个市级的市区本级,再下面是县级的区和县。
A2、基于所述地域实体元数据生成地域召回映射表,参照图2,具体步骤为:
遍历各地域实体元数据,从所述地域实体元数据中提取相应地域的ID、名称和短名;
将所述短名加入地域召回映射表,并将所述ID添加至与所述短名相映射的第一ID列表,本实施例中短名为键,第一映射列表为相应的值,当地域召回映射表中所述短名已存在相映射的ID列表时,直接将所述ID添加至该ID列表,否则说明所述短名初次加入地域召回映射表,此时创建ID列表并将所述ID添加至该ID列表。
将所述短名与所述名称进行匹配,匹配不成功时将所述名称加入地域召回映射表,并将所述ID添加至与所述名称相映射的第二ID列表。
同上,将名称作为键,第二ID列表作为值。
当短名是名称的一部分时判定短名与所述名称相匹配,如杭州市与杭州,匹配不成功的情况如塔什库尔干县与塔县。
本实施例中,只在地域的短名与名称不匹配时,才额外将名称加入地域召回映射表,从而在保证召回率的同时减少需匹配的名称,提高召回速度。
本实施例中地域召回映射表采用TrieTree结构(前缀树/字典树),便于在后续基于地域召回映射表进行地域召回时加速召回速度,TrieTree各节点键对应短名/名称。
进一步地,地域正则表达式映射表的构建方法如图3所示,包括以下步骤:
遍历所有地域实体元数据,为各地域实体生成相对应的判别正则表达式,基于所述判别正则表达式从地域实体元数据和通用元数据中调取相关数据,生成相对应的正则表达式;
将ID作为键,相对应的正则表达式作为值,生成地域正则表达式映射表。
地域正则表达式映射表包括相映射的ID和正则表达式,所述正则表达式的获取方法为;
B1、配置通用元数据,所述通用元数据包括消歧后缀正则表达式、禁止前缀正则表达式和禁止后缀正则表达式,具体如下表所示:
表2
B2、基于所述地域实体元数据和所述通用元数据,依次为各地域生成与其相对应的正则表达式。
由于人工为各行政地域实体配置与其相对应的正则表达式的工作量大,故本实施例中提出一种自动生成正则表达式的方法,具体步骤如下:
B2.1、参照图4,基于所述地域级别和所述直辖市情况判断所述地域的等级;
当所述地域级别为省级,或所述地域级别为市级且所述直辖市情况为直辖市市区本级时,判定所述地域为一级地域,否则所述地域为二级地域;
B2.2、当所述地域为一级地域时,基于名称和短名,以及所述通用元数据,按照预设的一级地域判别正则表达式生成与所述地域相对应的正则表达式;
本实施例中一级地域判别正则表达式为:<名称>|<短名><消歧后缀正则表达式>?<禁止后缀正则表达式>;
上述尖括号“<>”代表对元数据信息或局部计算变量的引用,其余符号均为正则表达式符号,例如“|”表示或运算,“?”表示出现0次或1次。
B2.3、参照图5,当所述地域为二级地域时,基于名称、短名和上级ID,以及所述通用元数据,按照预设的第一判别正则表达式(即,图5中部分1)生成第一正则表达式,并基于名称冲突情况、名称歧义情况、名称冲突情况、与上级短名冲突情况和/或短名歧义情况对所述第一正则表达式进行表达式追加,生成与所述地域相对应的正则表达式。
本实施例中,第一判别正则表达式为=<前缀>(<名称>|<短名>)<消歧后缀正则表达式>?;
前缀的获取方法为:
当地域名称以‘区’结尾或没有祖父节点时,前缀=(<父节点名称>|<父节点短名>)
否则,前缀=(<父节点名称>|<父节点短名>|<祖父节点名称>|<祖父节点短名>)
第一判别正则表达式为各县级可通用的正则表达式,但由于名称及短名的复杂情况,故根据地域名称及短名的冲突情况、歧义情况进行表达式的追加,如名称冲突时,即可追加单独判别名称的正则表达式,以提高召回率。
具体步骤如下:
当所述名称冲突情况为冲突时,将第一正则表达式作为与所述地域相对应的正则表达式,否则,按照预设的第二判别正则表达式(即,图5中部分2)追加召回所述名称的表达式,生成第二正则表达式;
本实施例中第二判别正则表达式=<第一判别正则表达式>|<名称><消歧后缀正则表达式>。
当所述名称歧义情况为歧义,将第二正则表达式作为与所述地域相对应的正则表达式,否则,按照预设的第三判别正则表达式(即,图5中部分3)进行追加表达式,生成第三正则表达式;
本实施例中第三判别正则表达式=<第二判别正则表达式>?;既,将第二判别表达式中消岐后缀正则表达式部分变为可选,从而提高实体识别的召回率;
当所述短名冲突情况为冲突,且所述上级短名冲突情况为不冲突时,将第三正则表达式作为与所述地域相对应的正则表达式,否则,按照预设的第四判别正则表达式(即,图5中部分4)进行追加召回短名的表达式,生成第四正则表达式;
本实施例中第四判别正则表达式=<第三判别正则表达式>|<禁止前缀正则表达式><短名><消歧后缀正则表达式>;
当所述短名歧义情况为歧义,或所述名称长度大于预设的长度阈值且以县结尾时,将第四正则表达式作为与所述地域相对应的正则表达式,否则,按照预设的第五判别正则表达式进行追加表达式,生成第五正则表达式,将第五正则表达式作为与所述地域相对应的正则表达式。
本实施例中第五判别正则表达式=<第四判别正则表达式>?<禁止后缀正则表达式>;
由上可知,随着对实体地域名称/短名的冲突、歧义等情况的渐次判别,逐步追加召回更多的表达情况,扩大召回率。
本实施例通过自动生成各行政地域实体的正则表达式,将所述行政地域实体所对应的ID与正则表达式添加至地域正则表达式映射表中。
参照图6,对本实施例所提出的行政地域实体识别方法进行详细介绍:
获取输入文本,将输入文本作为待识别文本进行切分,获得若干个短句;
提取字符数大于1的短句(因实施例中地域名称、短名长度均大于1)作为待识别短句,生成待识别短句列表;
基于地域召回映射表检测待识别短句列表是否存在地域的名称或短名,当存在时,将各名称或短名相映射的ID列表汇总去重,获得候选ID表,将所述待识别短句作为键,候选ID表作为值,构成短句候选映射表;短句候选映射表中不包含候选ID表为空的短句。
遍历所述短句候选映射表,依次提取相映射的待识别短句和候选ID表,此时基于候选ID表和地域正则表达式映射表对所述待识别短句进行精确判别,具体步骤如下:
遍历候选ID表,依次提取ID,并基于所提取的ID从地域正则表达式映射表中提取相应的正则表达式,如ID为330100,即从地域正则表达式映射表中提取判定是否是杭州的正则表达式。
将所述正则表达式与所述待识别短句相匹配,当待识别短句中部分内容或全部内容与所述正则表达式相匹配,则判定匹配成功,此时完成实体链接,即可将匹配成功的正则表达式对应的ID添加至识别结果ID集合,所述识别结果ID集合与待识别短句相映射。
工作人员后续可将各识别结果ID集合作为待识别短句的标签,以便于进行数据筛选,还可基于所述识别结果ID集合从地域实体元数据中抽取相关数据,以进行数据分析或其他应用。
综上,本实施例在保证足够准确率、召回率的前提下,通过对省市县三级行政地域实体进行元数据配置,而后基于元数据信息自动生成地域召回数据结构及判别正则表达式,极大简化了识别逻辑的产生及维护过程,并能保证运行效率。当结果不符合预期时,可通过更新配置数据,如地域实体元数据的数据项、通用元数据的数据项、各判断规则,即可快速、批量地解决同类问题;元数据、算法逻辑与最终输出之间关联直接、可解释性强。
实施例2、一种行政地域实体识别系统,如图7所示,包括:
映射表生成模块100,用于生成地域召回映射表和地域正则表达式映射表;
拆分模块200,用于获取并切分待识别文本,获得若干个待识别短句;
匹配模块300,用于基于预设的地域召回映射表召回各待识别短句中包含的地域名,并提取所述地域名对应的所有地域的ID,生成与所述待识别短句相映射的候选ID集;
消歧模块400,用于基于候选ID集从预设的地域正则表达式映射表中提取相对应的正则表达式,将所述待识别短句与所述正则表达式相匹配,获得相应的识别结果。
所述映射表生成模块100包括配置单元110、第一生成单元120和第二生成单元130;
所述配置单元110,用于配置地域实体元数据,还用于配置通用元数据;
所述第一生成单元120被定义为:
遍历各地域实体元数据,从所述地域实体元数据中提取相应地域的ID、名称和短名;
将所述短名加入短名映射数据,并将所述ID添加至与所述短名相映射的第一ID列表;
将所述短名与所述名称进行匹配,匹配不成功时将所述名称加入名称映射数据,并将所述ID添加至与所述名称相映射的第二ID列表;
基于所述短名映射数据和所述名称映射数据生成地域召回映射表;
所述第二生成单元130,用于基于所述地域实体元数据和所述通用元数据,依次为各地域生成与其相对应的正则表达式,基于所述正则表达式和对应地域的地域标识构建地域正则表达式映射表。
实施例3、一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如实施例1所述的方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是:
说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
此外,需要说明的是,本说明书中所描述的具体实施例,其零、部件的形状、所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化,均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离本发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
Claims (8)
1.一种行政地域实体识别方法,其特征在于包括以下步骤:
获取并切分待识别文本,获得若干个待识别短句;
基于预设的地域召回映射表召回各待识别短句中包含的地域名,并提取所述地域名对应的所有地域的ID,生成与所述待识别短句相映射的候选ID集;
基于候选ID集从预设的地域正则表达式映射表中提取相对应的正则表达式,将所述待识别短句与所述正则表达式相匹配,获得相应的识别结果;
所述地域名包括名称和短名,所述名称为地域的标准全称,所述短名为相应的常用简写;
所述地域召回映射表包括短名映射数据和名称映射数据;
所述短名映射数据包括相映射的短名和第一ID列表,所述第一ID列表包含与所述短名相对应的所有地域的ID;
所述名称映射数据包括相映射的名称和第二ID列表,所述第二ID列表包含与所述名称相对应的所有地域的ID;
地域召回映射表的获取方法包括以下步骤:
配置地域实体元数据;
遍历各地域实体元数据,从所述地域实体元数据中提取相应地域的ID、名称和短名;
将所述短名加入地域召回映射表,并将所述ID添加至与所述短名相映射的第一ID列表;
将所述短名与所述名称进行匹配,匹配不成功时将所述名称加入地域召回映射表,并将所述ID添加至与所述名称相映射的第二ID列表。
2.根据权利要求1所述的行政地域实体识别方法,其特征在于:
所述地域实体元数据还包括地域级别、上级ID、直辖市情况、名称冲突情况、名称歧义情况、短名冲突情况、与上级短名冲突情况和短名歧义情况,其中短名冲突情况指多个地域共享同一个短名,与上级短名冲突情况指短名与上级短名一致;
地域正则表达式映射表包括相映射的ID和正则表达式,所述正则表达式的获取方法为:
配置通用元数据,所述通用元数据包括消歧后缀正则表达式、禁止前缀正则表达式和禁止后缀正则表达式;
基于所述地域实体元数据和所述通用元数据,依次为各地域生成与其相对应的正则表达式。
3.根据权利要求2所述的行政地域实体识别方法,其特征在于:
基于所述地域级别和所述直辖市情况判断所述地域的等级;
当所述地域级别为省级,或所述地域级别为市级且所述直辖市情况为直辖市市区本级时,判定所述地域为一级地域,否则所述地域为二级地域;
当所述地域为一级地域时,基于名称和短名,以及所述通用元数据,按照预设的一级地域判别正则表达式生成与所述地域相对应的正则表达式;
当所述地域为二级地域时,基于名称、短名和上级ID,以及所述通用元数据,按照预设的第一判别正则表达式生成第一正则表达式,并基于名称冲突情况、名称歧义情况、短名冲突情况、与上级短名冲突情况和/或短名歧义情况对所述第一正则表达式进行表达式追加,生成与所述地域相对应的正则表达式。
4.根据权利要求3所述的行政地域实体识别方法,其特征在于:
当所述名称冲突情况为冲突时,将第一正则表达式作为与所述地域相对应的正则表达式,否则,按照预设的第二判别正则表达式追加召回所述名称的表达式,生成第二正则表达式;
当所述名称歧义情况为歧义,将第二正则表达式作为与所述地域相对应的正则表达式,否则,按照预设的第三判别正则表达式进行追加表达式,生成第三正则表达式;
当所述短名冲突情况为冲突,且所述上级短名冲突情况为不冲突时,将第三正则表达式作为与所述地域相对应的正则表达式,否则,按照预设的第四判别正则表达式进行追加召回短名的表达式,生成第四正则表达式;
当所述短名歧义情况为歧义,或所述名称长度大于预设的长度阈值且以县结尾时,将第四正则表达式作为与所述地域相对应的正则表达式,否则,按照预设的第五判别正则表达式进行追加表达式,生成第五正则表达式,将第五正则表达式作为与所述地域相对应的正则表达式。
5.根据权利要求1至4任一所述的行政地域实体识别方法,其特征在于:
地域召回映射表为TrieTree结构。
6.一种行政地域实体识别系统,其特征在于包括:
拆分模块,用于获取并切分待识别文本,获得若干个待识别短句;
匹配模块,用于基于预设的地域召回映射表召回各待识别短句中包含的地域名,并提取所述地域名对应的所有地域的ID,生成与所述待识别短句相映射的候选ID集;所述地域名包括名称和短名,所述名称为地域的标准全称,所述短名为相应的常用简写;所述地域召回映射表包括短名映射数据和名称映射数据;所述短名映射数据包括相映射的短名和第一ID列表,所述第一ID列表包含与所述短名相对应的所有地域的ID;所述名称映射数据包括相映射的名称和第二ID列表,所述第二ID列表包含与所述名称相对应的所有地域的ID;
消歧模块,用于基于候选ID集从预设的地域正则表达式映射表中提取相对应的正则表达式,将所述待识别短句与所述正则表达式相匹配,获得相应的识别结果;
映射表生成模块,所述映射表生成模块包括配置单元和第一生成单元;
所述配置单元,用于配置地域实体元数据;
所述第一生成单元被配置为:
遍历各地域实体元数据,从所述地域实体元数据中提取相应地域的ID、名称和短名;
将所述短名加入短名映射数据,并将所述ID添加至与所述短名相映射的第一ID列表;
将所述短名与所述名称进行匹配,匹配不成功时将所述名称加入名称映射数据,并将所述ID添加至与所述名称相映射的第二ID列表;
基于所述短名映射数据和所述名称映射数据生成地域召回映射表。
7.根据权利要求6所述的行政地域实体识别系统,其特征在于:
所述映射表生成模块还包括第二生成单元;
所述配置单元,还用于配置通用元数据;
所述第二生成单元,用于基于所述地域实体元数据和所述通用元数据,依次为各地域生成与其相对应的正则表达式,基于所述正则表达式和对应地域的地域标识构建地域正则表达式映射表。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1至5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011223738.6A CN112329469B (zh) | 2020-11-05 | 2020-11-05 | 一种行政地域实体识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011223738.6A CN112329469B (zh) | 2020-11-05 | 2020-11-05 | 一种行政地域实体识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112329469A CN112329469A (zh) | 2021-02-05 |
CN112329469B true CN112329469B (zh) | 2023-12-19 |
Family
ID=74316034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011223738.6A Active CN112329469B (zh) | 2020-11-05 | 2020-11-05 | 一种行政地域实体识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329469B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106909655A (zh) * | 2017-02-27 | 2017-06-30 | 中国科学院电子学研究所 | 基于产生式别名挖掘的知识图谱实体发现和链接方法 |
CN107133311A (zh) * | 2017-04-28 | 2017-09-05 | 安徽博约信息科技股份有限公司 | 基于区域编码的网络信息归属地索引标记方法 |
CN108304372A (zh) * | 2017-09-29 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 实体提取方法和装置、计算机设备和存储介质 |
CN108363701A (zh) * | 2018-04-13 | 2018-08-03 | 达而观信息科技(上海)有限公司 | 命名实体识别方法及系统 |
CN109271640A (zh) * | 2018-11-13 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 文本信息的地域属性识别方法及装置、电子设备 |
CN109753653A (zh) * | 2018-12-25 | 2019-05-14 | 金蝶软件(中国)有限公司 | 实体名称识别方法、装置、计算机设备和存储介质 |
CN109871536A (zh) * | 2019-01-29 | 2019-06-11 | 北京明略软件系统有限公司 | 地名识别方法和装置 |
CN110298039A (zh) * | 2019-06-20 | 2019-10-01 | 北京百度网讯科技有限公司 | 事件地的识别方法、系统、设备及计算机可读存储介质 |
CN110909160A (zh) * | 2019-10-11 | 2020-03-24 | 平安科技(深圳)有限公司 | 正则表达式生成方法、服务器及计算机可读存储介质 |
CN111401058A (zh) * | 2020-03-12 | 2020-07-10 | 广州大学 | 一种基于命名实体识别工具的属性值抽取方法及装置 |
CN111444344A (zh) * | 2020-03-27 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 实体分类方法、装置、计算机设备和存储介质 |
CN111611801A (zh) * | 2020-06-02 | 2020-09-01 | 腾讯科技(深圳)有限公司 | 一种识别文本地域属性的方法、装置、服务器及存储介质 |
CN111723575A (zh) * | 2020-06-12 | 2020-09-29 | 杭州未名信科科技有限公司 | 识别文本的方法、装置、电子设备及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9817875B2 (en) * | 2014-10-28 | 2017-11-14 | Conduent Business Services, Llc | Methods and systems for automated data characterization and extraction |
-
2020
- 2020-11-05 CN CN202011223738.6A patent/CN112329469B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106909655A (zh) * | 2017-02-27 | 2017-06-30 | 中国科学院电子学研究所 | 基于产生式别名挖掘的知识图谱实体发现和链接方法 |
CN107133311A (zh) * | 2017-04-28 | 2017-09-05 | 安徽博约信息科技股份有限公司 | 基于区域编码的网络信息归属地索引标记方法 |
CN108304372A (zh) * | 2017-09-29 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 实体提取方法和装置、计算机设备和存储介质 |
CN108363701A (zh) * | 2018-04-13 | 2018-08-03 | 达而观信息科技(上海)有限公司 | 命名实体识别方法及系统 |
CN109271640A (zh) * | 2018-11-13 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 文本信息的地域属性识别方法及装置、电子设备 |
CN109753653A (zh) * | 2018-12-25 | 2019-05-14 | 金蝶软件(中国)有限公司 | 实体名称识别方法、装置、计算机设备和存储介质 |
CN109871536A (zh) * | 2019-01-29 | 2019-06-11 | 北京明略软件系统有限公司 | 地名识别方法和装置 |
CN110298039A (zh) * | 2019-06-20 | 2019-10-01 | 北京百度网讯科技有限公司 | 事件地的识别方法、系统、设备及计算机可读存储介质 |
CN110909160A (zh) * | 2019-10-11 | 2020-03-24 | 平安科技(深圳)有限公司 | 正则表达式生成方法、服务器及计算机可读存储介质 |
CN111401058A (zh) * | 2020-03-12 | 2020-07-10 | 广州大学 | 一种基于命名实体识别工具的属性值抽取方法及装置 |
CN111444344A (zh) * | 2020-03-27 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 实体分类方法、装置、计算机设备和存储介质 |
CN111611801A (zh) * | 2020-06-02 | 2020-09-01 | 腾讯科技(深圳)有限公司 | 一种识别文本地域属性的方法、装置、服务器及存储介质 |
CN111723575A (zh) * | 2020-06-12 | 2020-09-29 | 杭州未名信科科技有限公司 | 识别文本的方法、装置、电子设备及介质 |
Non-Patent Citations (2)
Title |
---|
基于SQL数据库的行政区划地理信息的识别研究;仰燕兰;叶桦;费树岷;;科技通报(第05期);全文 * |
基于本体的中文地名识别;杜萍;刘勇;;西北师范大学学报(自然科学版)(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112329469A (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177184A (zh) | 基于自然语言的结构化查询语言转换方法、及其相关设备 | |
CN108304372B (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
Rashel et al. | Building an Indonesian rule-based part-of-speech tagger | |
CN111488468B (zh) | 地理信息知识点抽取方法、装置、存储介质及计算机设备 | |
CN111159330B (zh) | 一种数据库查询语句的生成方法及装置 | |
CN111814455B (zh) | 搜索词纠错对构建方法、终端及存储介质 | |
CN112417891B (zh) | 一种基于开放式信息抽取的文本关系自动标注方法 | |
CN103324609A (zh) | 文本校对装置和文本校对方法 | |
CN111488466B (zh) | 中文带标记错误语料生成方法、计算装置和存储介质 | |
CN111190873B (zh) | 一种用于云原生系统日志训练的日志模式提取方法及系统 | |
CN111814476A (zh) | 一种实体关系的抽取方法和装置 | |
CN107608981B (zh) | 基于正则表达式的字符匹配方法及系统 | |
Leonandya et al. | A semi-supervised algorithm for Indonesian named entity recognition | |
CN113032371A (zh) | 数据库语法分析方法、装置和计算机设备 | |
CN111831792B (zh) | 一种电力知识库构建方法及系统 | |
CN113761137B (zh) | 一种提取地址信息的方法及装置 | |
CN112329469B (zh) | 一种行政地域实体识别方法及系统 | |
CN110750632B (zh) | 一种改进的中文alice智能问答方法及系统 | |
CN107480128A (zh) | 中文文本的分词方法及装置 | |
CN111611793B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN110162615B (zh) | 一种智能问答方法、装置、电子设备和存储介质 | |
CN103927176A (zh) | 一种基于层次主题模型的程序特征树的生成方法 | |
CN111782892A (zh) | 基于前缀树的相似字符识别方法、设备、装置和存储介质 | |
CN110309258B (zh) | 一种输入检查方法、服务器和计算机可读存储介质 | |
CN112925874B (zh) | 基于案例标记的相似代码搜索方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20221219 Address after: Room 430, cultural center, 460 Wenyi West Road, Xihu District, Hangzhou City, Zhejiang Province, 310012 Applicant after: XINHUA ZHIYUN TECHNOLOGY Co.,Ltd. Applicant after: Xinhua fusion media technology development (Beijing) Co.,Ltd. Address before: Room 430, cultural center, 460 Wenyi West Road, Xihu District, Hangzhou City, Zhejiang Province, 310012 Applicant before: XINHUA ZHIYUN TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |