CN104008169A - 一种基于语义的地理标注内容安全检查方法及装置 - Google Patents
一种基于语义的地理标注内容安全检查方法及装置 Download PDFInfo
- Publication number
- CN104008169A CN104008169A CN201410241021.2A CN201410241021A CN104008169A CN 104008169 A CN104008169 A CN 104008169A CN 201410241021 A CN201410241021 A CN 201410241021A CN 104008169 A CN104008169 A CN 104008169A
- Authority
- CN
- China
- Prior art keywords
- geographical marking
- geographical
- content
- marking
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于语义的地理标注内容安全检查方法及装置,属于地理信息技术领域。本发明充分利用关键词匹配、特征提取、语义相似度计算及规则匹配等关键技术,在构建地理信息标注内容安全分类体系、禁用词库、白名单库及审图规则库的基础上,实现禁用词匹配、标注自动分类、白名单过滤及地图公开表示规则检查为一体的地理标注内容安全检查方法,有效提高地理标注内容的检查效率和准确性,为保障国家地理信息安全提供技术支持。
Description
技术领域
本发明属于地理信息技术领域,具体涉及一种对于地理标注内容进行安全检查的方法和装置,尤其是,结合了语义判别与审图规则对地理标注内容进行安全检查的方法和装置。
背景技术
近年来,随着互联网、云计算、物联网、VGI等新技术的不断发展和日趋成熟,以及人们对地理信息需求越来越强烈,互联网已经成为了地理信息共享、传播和应用的主要平台。网络地理标注(Point ofInterest:POI)则是目前最具有代表性的与互联网结合并应用到大众生活中的地理信息产品,其作为一个带位置信息的综合信息,能够通过在地图上直观地标注现实世界的实体及其相关属性,主要包括名称、类别、经度、纬度等信息,为人们的生活带来极大的便利。
为了快速抢占这一机遇,谷歌地图、微软地图、雅虎地图、MapABC、MapBar、天地图等众多地理信息服务网站都推出了地理信息查询和用户标注等相关功能。这种地理信息网站信息容量巨大、内容增长迅速、地理信息与位置信息关联度高,已经成为信息社会重要的信息资源发布与交流平台。
然而网络地理信息标注在为给人们生活带来巨大方便的同时,地理信息的安全隐患也随之而来。由于地理标注与位置信息关系密切、上传用户的安全意识不高、数据量过于庞大等原因,使得大量涉及国家安全和社会稳定等方面的内容敏感的地理标注信息也出现在网络上,对国家地理信息安全提出了严重威胁和重大挑战。因此,对地理标注内容安全检查技术要求也越来越高、越来越迫切,但目前的地理标注内审审查方法无法满足现实的需求,主要表现在以下几个方面:
(1)现阶段地理标注内容审查还需要大量的人工研判与干预,由于目前互联网地图服务商生产的地理标注数据量日益丰富,大型地图服务商的地理标注数据量达到千万级别,因此,对地理标注内容的人工检查已经无法满足要求;
(2)现阶段地理标注内容审查时间周期比较长,不能实时地进行研判,由于互联网用户数量庞大、标注行为频繁,因此,对于敏感标注信息的有效识别和应急处理能力亟待加强;
(3)互联网涉密地理信息内容判定困难,现阶段地理标注内容审查技术尚无法满足大规模互联网地理内容分析与信息提取的需求。
现有的方法一般为基于敏感词的地理标注内容检查方法,通过构建地理标注内容的敏感词库,然后利用关键词过滤方法进行地理标注内容的安全检查。这类方法的不足表现为结果多且相关性低,其主要缺点可归纳为以下三点:
(1)检查结果准确性低:由于匹配过程仅仅基于敏感词的包含与否,无法从语义的层面上进行全方位地匹配,使得检查结果中存在很多噪声信息;
(2)检查结果召回率不高:由于匹配结果太过依赖敏感词库的构建,一旦敏感词库中包含的敏感词语不全,检查结果就会出现大面积的遗漏;
(3)没有考虑审图规则过滤:由于审图规则并不是通过关键词进行表达,而是通过一定的数字规则、组合规则等继续表示,使得基于关键词的内容检查方法无法与审图规则相结合。
应当指出,测绘地理信息事业的快速发展,地图审查的工作量日益增大,从地图审查中心成立之初的2002年审查量750余件到2012年审查量3630余件,10年间地图审查的工作量增长近5倍。多年以来,凭借人工肉眼进行地图技术审查的方法既费时又费力,已很难满足地图审核申请人对测绘地理信息行政主管部门的期望,很难满足行政许可法提出的提高行政许可效率的要求。
特别是,国家测绘地理信息局颁发的《公开地图内容表示若干规定》中指出,公开地图和地图产品上不得表示下列内容:
●国防、军事设施,及军事单位;
●未经公开的港湾、港口、沿海潮浸地带的详细性质,火车站内站线的具体线路配置状况;
●航道水深、船闸尺度、水库库容、输电线路电压等精确数据,桥梁、渡口、隧道的结构形式和河底性质;
●未经国家有关部门批准公开发表的各项经济建设的数据等;
●未公开的机场(含民用、军民合用机场)和机关、单位;
●其他涉及国家秘密的内容。
如何将上述各种审图规定进行规则化,然后充分利用相关规则进行辅助审图,是实现电子化自动审图技术中关键因素。现阶段的审图技术中并没用有效结合审图规则,而只是将其作为人工审图的辅助材料,进行人工审图确认与分析。
因此,如何能够在无人工预先干预的情况下,能够实现地理标注(Point of Interest:POI)内容的自动安全检查,实现海量地理标注中涉密的地理标注对象自动、快速的发现和筛选,为地理标注内容的电子化审查提供技术支撑,有效保障国家地理信息安全,成为现有技术亟需解决的技术问题。
发明内容
本发明针对现阶段地理标注内容安全审查的需要,结合中文文本分词、语义分析、相似度计算、规则匹配等关键技术,提出一种基于语义与审图规则结合的地理标注内容安全检查方法及装置。
为达此目的,本发明采用以下技术方案:
一种基于语义的地理标注内容安全检查方法,包括如下步骤:
S110,禁用词匹配步骤:
构建地理标注内容禁用词库,并利用中文文本匹配方法,有效进行地理标注内容中名称信息和描述信息的关键词匹配与查找,实现基于禁用词库的地理标注涉密内容的自动发现;
S120,标注自动分类步骤:
针对地理标注的内容、类别及属性,构建地理标注内容分类体系,并针对分类体系中的各个地理信息标注类别,设定语义分类规则和特征向量;然后根据地理标注的名称信息和描述信息,提取地理标注内容的语义特征向量,再利用语义相似度计算方法,实现基于语义的网络地理标注内容的自动分类计算;
S130:白名单过滤步骤
根据标注自动分类步骤所匹配的部分涉密类型,从该类型中取出相应的白名单对象库,然后根据地理标注的名称信息与白名单对象库中的标注对象名称的相似度计算,通过与设定相似度阈值进行比较,实现白名单过滤功能;
S140,地图公开表示规则检查步骤
根据相应的规则要求,将其中的各种规则要求进行数字化表达,并利用正向表达式配准及规则匹配等技术,实现地理标注的公开地图内容表示规定检查,确保地理标注内容可公开性。
优选地,所述禁用词匹配步骤包括如下子步骤:
S111:从地理标注内容中提取名称信息和描述信息,融合形成一段描述地理标注内容的文本信息;
S112:利用中文文本匹配方法对所述文本信息与所述禁用词库进行关键词匹配;
S113:如果匹配成功,说明该条地理标注内容中包含涉密信息,则将该条地理标注收录到质疑地理标注数据库中;否则,进入标注自动分类步骤进行进一步检查。
优选地,所述标注自动分类步骤包括如下子步骤:
S121:针对地理标注内容、类别及属性,构建地理标注内容分类体系,并针对分类体系中的各个地理信息标注类别,设定语义分类的分类规则和特征向量;
S122:利用文中分词技术,对地理标注的名称信息进行分词处理,将其分为不可再分的词语粒度单元;
S123:根据各个分词单元的词性特征,对名称信息进行角色标注,确定各词语在整个名称信息中的地位;
S124:根据角色标注选定名称信息的中心词,再利用基于中心词的剪枝算法,剔除不具有实际意义的词语标注;
S125:根据各个分词单元离中心词的距离,设置相关语义权重,计算名称信息的语义相似度;
S126:通过比较地理标注的名称信息与分类体系中各个类别的相似度值,选择匹配最佳的地理标注类型,进行涉密类型判断,实现基于语义的地理标注内容的自动分类:如果匹配的类型为完全涉密类,则将该条地理标注收录到质疑地理标注数据库中;如果匹配的类型为完全公开类,则将该条地理标注收录到可公开地理标注数据库中;如果匹配的类型为部分涉密类,则进入白名单过滤步骤继续进行进一步检查。
优选地,所述白名单过滤步骤包括如下子步骤:
S131:根据地理标注内容自动分类的结果,即根据标注自动分类步骤所匹配的部分涉密类型,读取该类型相应的白名单对象库;
S132:提取地理标注名称信息及白名单对象库中的所有对象名称信息的SVM向量;
S133:计算地理标注名称信息SVM向量与白名单对象名称信息SVM向量的相似度;
S134:将计算结果与设定的相似度阈值进行比较,判断该条地理标注是否属于白名单对象库:如果计算结果小于相似度阈值,则表示该地理标注不属于白名单对象库,将该条地理标注收录到质疑地理标注数据库中;如果计算结果大于或等于相似度阈值,则表示该地理标注属于白名单对象库,将进入地图公开表示规则检查步骤进行进一步检查。
优选地,所述地图公开表示规则检查步骤包括如下子步骤:
S141:根据自动分类结果的类型,读取该类型对应的地图公开表示规则名录;
S142:根据所述公开表示规则名录,从电子化审图规则数据库中读取相应的审图规则;
S143:根据审图规则对地理标注名称信息和描述信息进行逐一的匹配审查,并判断地理标注名称信息和描述信息是否与审图规则中某一条规则描述的情况相匹配,如果匹配成功,将该条地理标注收录到质疑地理标注数据库中;否则,将该条地理标注收录到可公开地理标注数据库中。
优选地,所述禁用词库能够根据需要及时调整、删除或添加所述地理标注。
优选地,所述地理标注内容分类体系根据地理标注内容所属的类别及涉密情况,将其分为完全涉密类、完全公开类和部分涉密类。
优选地,所述规则要求为《公开地图内容表示规定》的要求。
优选地,审图人员能够人工对质疑地理标注数据库进行检查,人工判断其中的地理标注内容是否可以移入到可公开地理标注数据库中。
本发明还公开了一种基于语义的地理标注内容安全检查装置,其包括如下单元:
禁用词匹配单元210:
构建地理标注内容禁用词库,并利用中文文本匹配方法,有效进行地理标注内容中名称信息和描述信息的关键词匹配与查找,实现基于禁用词库的地理标注涉密内容的自动发现;
标注自动分类单元220:
针对地理标注的内容、类别及属性,构建地理标注内容分类体系,并针对分类体系中的各个地理信息标注类别,设定语义分类规则和特征向量;然后根据地理标注的名称信息和描述信息,提取地理标注内容的语义特征向量,再利用语义相似度计算方法,实现基于语义的网络地理标注内容的自动分类计算;
白名单过滤单元230:
根据标注自动分类步骤所匹配的部分涉密类型,从该类型中取出相应的白名单对象库,然后根据地理标注的名称信息与白名单对象库中的标注对象名称的相似度计算,通过与设定相似度阈值进行比较,实现白名单过滤功能;
地图公开表示规则检查单元240:
根据相应的规则要求,将其中的各种规则要求进行数字化表达,并利用正向表达式配准及规则匹配等技术,实现地理标注的公开地图内容表示规定检查,确保地理标注内容可公开性。
本发明有效克服基于敏感词库的地理标注内容信息的关键词检查方法的检查结果准确性低、召回率不高的缺点,通过构建地理标注的内容安全分类体系及白名单库,引入语义相似度计算、规则匹配、正向表达式配准等技术,实现地理标注内容的电子化自动检查,降低了地理标注内容审查中人工参与的工作量,大幅度提高地理标注内容审查的效率。
本发明具有如下优点:
1.构建了POI信息内容安全分类体系;
2.基于语义相似度计算的地理标注内容自动分类;
3.基于公开地图标示规定的地理标注内容审查。
附图说明
图1是根据本发明的具体实施例的地理标注内容安全检查方法的流程图;
图2是根据本发明的具体实施例的禁用词匹配步骤的具体流程图;
图3是根据本发明的具体实施例的标注自动分类步骤的具体流程图;
图4是本发明所构建的地理信息标注内容分类体系的示意图;
图5是根据本发明的具体实施例的白名单过滤步骤的具体流程图;
图6是根据本发明的具体实施例的地图公开表示规则检查步骤的具体流程图;
图7是根据本发明的具体实施例的地理标注内容安全检查装置的模块图;
图8是对本发明的安全检查方法进行性能测试的多重迭代测试的流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
参见图1,公开了根据本发明的具体实施例的地理标注内容安全检查方法的流程图,其包括如下步骤:
S110,禁用词匹配步骤:
构建地理标注内容禁用词库,并利用中文文本匹配方法,有效进行地理标注内容中名称信息和描述信息的关键词匹配与查找,实现基于禁用词库的地理标注涉密内容的自动发现。
优选地,其包括如下子步骤:
S111:从地理标注内容中提取名称信息和描述信息,融合形成一段描述地理标注内容的文本信息;
S112:利用中文文本匹配方法对所述文本信息与所述禁用词库进行关键词匹配;
S113:如果匹配成功,说明该条地理标注内容中包含涉密信息,则将该条地理标注收录到质疑地理标注数据库中;否则,进入标注自动分类步骤进行进一步检查。
优选的,能够根据需要及时调整、删除或添加所述地理标注的禁用词库中的内容,从而能够快速有效发现地理标注内容中的禁用词语,确保地理标注安全审查的应急性和时效性。
示例:
当地理标注名称为“法轮功集会”或“尖阁列岛”时,由于禁用词库包含了“法轮功集会”、“尖阁列岛”等相关禁用词,因此在禁用词匹配步骤中,“法轮功集会”或“尖阁列岛”地理标注将被匹配成果,并收录到质疑地理标注数据库,无法公开表示。
S120,标注自动分类步骤:
针对地理标注的内容、类别及属性,构建地理标注内容分类体系,并针对分类体系中的各个地理信息标注类别,设定语义分类规则和特征向量;然后根据地理标注的名称信息和描述信息,提取地理标注内容的语义特征向量,再利用语义相似度计算方法,实现基于语义的网络地理标注内容的自动分类计算。
优选地,包括如下子步骤:
S121:针对地理标注内容、类别及属性,构建地理标注内容分类体系,并针对分类体系中的各个地理信息标注类别,设定语义分类的分类规则和特征向量;
S122:利用文中分词技术,对地理标注的名称信息进行分词处理,将其分为不可再分的词语粒度单元;
S123:根据各个分词单元的词性特征,对名称信息进行角色标注,确定各词语在整个名称信息中的地位;
S124:根据角色标注选定名称信息的中心词,再利用基于中心词的剪枝算法,剔除不具有实际意义的词语标注;
S125:根据各个分词单元离中心词的距离,设置相关语义权重,计算名称信息的语义相似度;
S126:通过比较地理标注的名称信息与分类体系中各个类别的相似度值,选择匹配最佳的地理标注类型,进行涉密类型判断,实现基于语义的地理标注内容的自动分类:如果匹配的类型为完全涉密类,则将该条地理标注收录到质疑地理标注数据库中;如果匹配的类型为完全公开类,则将该条地理标注收录到可公开地理标注数据库中;如果匹配的类型为部分涉密类,则进入白名单过滤步骤继续进行进一步检查。
在该步骤中,所述地理标注内容分类体系根据地理标注内容所属的类别及涉密情况,将其分为完全涉密类、完全公开类和部分涉密类。例如分类体系中包括“军事基地”、“武器库”、“化工厂”、“饭馆”、“旅馆”、“机场”等类别,其中“军事基地”、“武器库”属于完全涉密类,“饭馆”、“旅馆”属于完全公开类,由于“化工厂”可能为“石油化工厂”,“机场”可能为“军用机场”,因此“化工厂”、“机场”属于部分涉密类。
示例:
(1)当地理标注名称为“海军部队驻扎地”时,首先对“海军部队驻扎地”进行中文分词,其分词结果为“海军|部队|驻扎地”,然后进行词性标注,将“海军”标注为形容词,“部队”“驻扎地”为名称,再根据名词短语中最后的名称为中心词的方式,将“驻扎地”作为整条名称信息的中心词,最后利用相似度计算“海军部队驻扎地”与“部队驻扎地”的相似度为100%,而“部队驻扎地”在分类体系的“军用基地”类型中,所以将“海军部队驻扎地”归类到“军用基地”,而“军用基地”属于完全涉密类型,因此将“海军部队驻扎地”标注收录到质疑地理标注数据库,无法公开表示。
(2)当地理标注名称为“海军广场”、“雷达表商店”时,通过分词和词性标引,能够找出其中心词分别为“广场”和“商店”,根据标注自动分类,将其分别归类到“公共设施”和“商场”两个非涉密类别中,因此可以直接公开。
(3)当标注名称为“北京首都国际机场”、“西郊机场”、“南苑机场”时,通过分词和词性标引,能够找出其中心词为“机场”,根据标注自动分类,将其分别归类到“机场”类别中,由于“机场”属于部分涉密类型,因此需要进入白名单过滤步骤进行进一步检查。
S130:白名单过滤步骤
根据标注自动分类步骤所匹配的部分涉密类型,从该类型中取出相应的白名单对象库,然后根据地理标注的名称信息与白名单对象库中的标注对象名称的相似度计算,通过与设定相似度阈值进行比较,实现白名单过滤功能。
进一步优选的,包括如下步骤:
S131:根据地理标注内容自动分类的结果,即根据标注自动分类步骤所匹配的部分涉密类型,读取该类型相应的白名单对象库;
S132:提取地理标注名称信息及白名单对象库中的所有对象名称信息的SVM向量;
S133:计算地理标注名称信息SVM向量与白名单对象名称信息SVM向量的相似度;
S134:将计算结果与设定的相似度阈值进行比较,判断该条地理标注是否属于白名单对象库:如果计算结果小于相似度阈值,则表示该地理标注不属于白名单对象库,将该条地理标注收录到质疑地理标注数据库中;如果计算结果大于或等于相似度阈值,则表示该地理标注属于白名单对象库,将进入地图公开表示规则检查步骤进行进一步检查。
示例:
(1)当标注名称为“北京首都机场”、“西郊机场”、“南苑机场”时,需要从白名单对象库中读取相关机场名称,然后进行一一对比,由于“北京首都机场”与白名单中的“北京首都国际机场”匹配成功,“南苑机场”与白名单中的“北京南苑机场”匹配成功,因此,“北京首都机场”、“南苑机场”属于白名单对象库,可以公开表示;而“西郊机场”、并不在白名单对象库中,因此将其收录到质疑地理标注数据库,无法公开表示。
(2)当标注名称为“武汉长江大桥”、“密云水库”时,也属于白名单对象,但是由于此类白名单对象需要进行审图规则审查,因此需要继续进入地图公开表示规则检查步骤做进一步判断。
S140,地图公开表示规则检查步骤
根据相应的规则要求,例如《公开地图内容表示规定》的要求,将其中的各种规则要求进行数字化表达,主要包括材质规则、数量规则、能力规则等26种相关规则表达,并利用正向表达式配准及规则匹配等技术,实现地理标注的公开地图内容表示规定检查,确保地理标注内容可公开性。
优选地,包括如下步骤
S141:根据自动分类结果的类型,读取该类型对应的地图公开表示规则名录;
S142:根据所述公开表示规则名录,从电子化审图规则数据库中读取相应的审图规则;
S143:根据审图规则对地理标注名称信息和描述信息进行逐一的匹配审查,并判断地理标注名称信息和描述信息是否与审图规则中某一条规则描述的情况相匹配,如果匹配成功,将该条地理标注收录到质疑地理标注数据库中;否则,将该条地理标注收录到可公开地理标注数据库中。
示例:
(1)当标注的名为“武汉长江大桥”,描述信息为:“全长1670米,宽22.5米,载重2000吨”,根据公开地图审查规则,桥梁不能描述其尺寸和载重信息,而此条地理标注的描述信息中对桥的长度,宽度及载重进行了描述,因此该地理标注为涉密标注,将其收录到质疑地理标注数据库,无法公开表示。
(2)当标注名称为“密云水库”,描述信息为“库容为43亿立方米”,根据公开地图审查规则,水库不能表明其库容,因此该地理标注为涉密标注,将其收录到质疑地理标注数据库,无法公开表示。
在本发明中,POI审图人员还可以人工对质疑地理标注数据库进行检查,人工判断其中的地理标注内容是否可以移入到可公开地理标注数据库中,从而实现自动判断与人工判断的结合,进一步提高本发明的方法的精确度。
相应的,参见图7,本发明还公开了一种基于语义的地理标注内容安全检查装置,其包括如下模块:
禁用词匹配单元210:
构建地理标注内容禁用词库,并利用中文文本匹配方法,有效进行地理标注内容中名称信息和描述信息的关键词匹配与查找。实现基于禁用词库的地理标注涉密内容的自动发现。
标注自动分类单元220:
针对地理标注的内容、类别及属性,构建地理标注内容分类体系,并针对分类体系中的各个地理信息标注类别,设定语义分类规则和特征向量;然后根据地理标注的名称信息和描述信息,提取地理标注内容的语义特征向量,再利用语义相似度计算方法,实现基于语义的网络地理标注内容的自动分类计算。
白名单过滤单元230:
根据标注自动分类步骤所匹配的部分涉密类型,从该类型中取出相应的白名单对象库,然后根据地理标注的名称信息与白名单对象库中的标注对象名称的相似度计算,通过与设定相似度阈值进行比较,实现白名单过滤功能。
地图公开表示规则检查单元240:
根据相应的规则要求,例如《公开地图内容表示规定》的要求,将其中的各种规则要求进行数字化表达,主要包括材质规则、数量规则、能力规则等26种相关规则表达,并利用正向表达式配准及规则匹配等技术,实现地理标注的公开地图内容表示规定检查,确保地理标注内容可公开性。
本发明有效克服基于敏感词库的地理标注内容信息的关键词检查方法的检查结果准确性低、召回率不高的缺点,通过构建地理标注的内容安全分类体系及白名单库,引入语义相似度计算、规则匹配、正向表达式配准等技术,实现地理标注内容的电子化自动检查,降低了地理标注内容审查中人工参与的工作量,大幅度提高地理标注内容审查的效率。
具体而言,本发明具有如下优点:
1、构建了POI信息内容安全分类体系
针对各主流的网络POI数据服务商,如ESRI、Google、天地图、百度、高德、腾讯等,都根据一定规范制定了相应的POI数据分类体系,使得目前并不存在统一的POI数据分类体系,也造成各地理标注提供商之间的分类信息无法进行直接比较等问题。并且,各种地图服务商定义的分类体系主要是面向公众生活服务的,并不能够很好地套用在地理标注内容安全审查中,因此可以说,目前商不存在一种专门针对地理标注内容安全的分类体系。
本发明设计和构建一种面向POI信息内容的安全分类体系,即图4所示的地理信息标注内容分类体系。其已经包括了依据《国家秘密及其密级具体范围的规定汇编》以及地图司日常地图审查中的关键词等在内的33种敏感分类种类、242个特征词、43条类型判别规则,并可以根据需要进行扩充。
2、基于语义相似度计算的地理标注内容自动分类
目前对于中文POI信息内容分类的方法还比较少,主要是基于中文词典、关键字与SVM特征向量等技术进行POI名称的匹配、识别与分类。这些方法存在以下两个不足:
a)没有考虑POI名称短语与长篇文本信息的区别,并没有专门针对名称短语的结构进行分类算法的设计;
b)只是简单地通过关键词进行划分,没有从语义的层次上对POI内容进行理解和分类。
为了有效克服上述问题,本发明通过构建地理信息标注内容分类体系及每种类型的分类特征,然后针对地理标注信息内容中的名称、文本描述信息,提取地理标注内容的语义特征向量,语义相似度计算与特征规则匹配,实现基于语义的网络地理标注内容的自动分类计算。
3、基于公开地图标示规定的地理标注内容审查
POI信息中存在某些类别中部分信息不能公开的情况,因此,无法通过POI内容的自动分类代替所有的安全检查,还需要根据国家测绘地理信息局颁发的《公开地图内容表示若干规定》中的相关规则进行内容检测,才能确保POI内容的安全性和可公开性。
为此,本发明通过从《公开地图内容表示若干规定》中提取并凝练出POI内容审查的相关规则,主要可包括河流的通航能力、水深、流速、河口地区潮水位、潮流速、潮水温、潮流量、潮波,水库的库容,堤顶的高度,船闸的尺度,滚水坝的高度、长度、宽度,道路的最大纵坡、最小曲率半径,车行桥、人行桥的限高、限宽、载重量、坡度,隧道的高度、宽度,航道的水深等数量属性识别,以及干出滩的沙滩、沙砾滩、砾石滩、岩石滩,道路铺设材料,河流底质等材质识别,有效降低人工参与审图的工作量,辅助实现全自动化的电子化审图。
本发明通过实验的迭代测试与对比分析,其流程如附图8所示,发现本发明有效提高了召回率和准确率,其中对于涉密地理信息标注的召回率可达91.5%,准确率约为84%。
显然,本领域技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。
Claims (10)
1.一种基于语义的地理标注内容安全检查方法,包括如下步骤:
S110,禁用词匹配步骤:
构建地理标注内容禁用词库,并利用中文文本匹配方法,有效进行地理标注内容中名称信息和描述信息的关键词匹配与查找,实现基于禁用词库的地理标注涉密内容的自动发现;
S120,标注自动分类步骤:
针对地理标注的内容、类别及属性,构建地理标注内容分类体系,并针对分类体系中的各个地理信息标注类别,设定语义分类规则和特征向量;然后根据地理标注的名称信息和描述信息,提取地理标注内容的语义特征向量,再利用语义相似度计算方法,实现基于语义的网络地理标注内容的自动分类计算;
S130:白名单过滤步骤
根据标注自动分类步骤所匹配的部分涉密类型,从该类型中取出相应的白名单对象库,然后根据地理标注的名称信息与白名单对象库中的标注对象名称的相似度计算,通过与设定相似度阈值进行比较,实现白名单过滤功能;
S140,地图公开表示规则检查步骤
根据相应的规则要求,将其中的各种规则要求进行数字化表达,并利用正向表达式配准及规则匹配等技术,实现地理标注的公开地图内容表示规定检查,确保地理标注内容可公开性。
2.根据权利要求1所述基于语义的地理标注内容安全检查方法,其特征在于:
所述禁用词匹配步骤包括如下子步骤:
S111:从地理标注内容中提取名称信息和描述信息,融合形成一段描述地理标注内容的文本信息;
S112:利用中文文本匹配方法对所述文本信息与所述禁用词库进行关键词匹配;
S113:如果匹配成功,说明该条地理标注内容中包含涉密信息,则将该条地理标注收录到质疑地理标注数据库中;否则,进入标注自动分类步骤进行进一步检查。
3.根据权利要求1所述基于语义的地理标注内容安全检查方法,其特征在于:
所述标注自动分类步骤包括如下子步骤:
S121:针对地理标注内容、类别及属性,构建地理标注内容分类体系,并针对分类体系中的各个地理信息标注类别,设定语义分类的分类规则和特征向量;
S122:利用文中分词技术,对地理标注的名称信息进行分词处理,将其分为不可再分的词语粒度单元;
S123:根据各个分词单元的词性特征,对名称信息进行角色标注,确定各词语在整个名称信息中的地位;
S124:根据角色标注选定名称信息的中心词,再利用基于中心词的剪枝算法,剔除不具有实际意义的词语标注;
S125:根据各个分词单元离中心词的距离,设置相关语义权重,计算名称信息的语义相似度;
S126:通过比较地理标注的名称信息与分类体系中各个类别的相似度值,选择匹配最佳的地理标注类型,进行涉密类型判断,实现基于语义的地理标注内容的自动分类:如果匹配的类型为完全涉密类,则将该条地理标注收录到质疑地理标注数据库中;如果匹配的类型为完全公开类,则将该条地理标注收录到可公开地理标注数据库中;如果匹配的类型为部分涉密类,则进入白名单过滤步骤继续进行进一步检查。
4.根据权利要求1所述基于语义的地理标注内容安全检查方法,其特征在于:
所述白名单过滤步骤包括如下子步骤:
S131:根据地理标注内容自动分类的结果,即根据标注自动分类步骤所匹配的部分涉密类型,读取该类型相应的白名单对象库;
S132:提取地理标注名称信息及白名单对象库中的所有对象名称信息的SVM向量;
S133:计算地理标注名称信息SVM向量与白名单对象名称信息SVM向量的相似度;
S134:将计算结果与设定的相似度阈值进行比较,判断该条地理标注是否属于白名单对象库:如果计算结果小于相似度阈值,则表示该地理标注不属于白名单对象库,将该条地理标注收录到质疑地理标注数据库中;如果计算结果大于或等于相似度阈值,则表示该地理标注属于白名单对象库,将进入地图公开表示规则检查步骤进行进一步检查。
5.根据权利要求1所述基于语义的地理标注内容安全检查方法,其特征在于:
所述地图公开表示规则检查步骤包括如下子步骤:
S141:根据自动分类结果的类型,读取该类型对应的地图公开表示规则名录;
S142:根据所述公开表示规则名录,从电子化审图规则数据库中读取相应的审图规则;
S143:根据审图规则对地理标注名称信息和描述信息进行逐一的匹配审查,并判断地理标注名称信息和描述信息是否与审图规则中某一条规则描述的情况相匹配,如果匹配成功,将该条地理标注收录到质疑地理标注数据库中;否则,将该条地理标注收录到可公开地理标注数据库中。
6.根据权利要求1到5中任意一项所述的基于语义的地理标注内容安全检查方法,其特征在于:
所述禁用词库能够根据需要及时调整、删除或添加所述地理标注。
7.根据权利要求6所述的基于语义的地理标注内容安全检查方法,其特征在于:
所述地理标注内容分类体系根据地理标注内容所属的类别及涉密情况,将其分为完全涉密类、完全公开类和部分涉密类。
8.根据权利要求6所述的基于语义的地理标注内容安全检查方法,其特征在于:
所述规则要求为《公开地图内容表示规定》的要求。
9.根据权利要求6所述的基于语义的地理标注内容安全检查方法,其特征在于:
审图人员能够人工对质疑地理标注数据库进行检查,人工判断其中的地理标注内容是否可以移入到可公开地理标注数据库中。
10.一种基于语义的地理标注内容安全检查装置,其包括如下单元:
禁用词匹配单元210:
构建地理标注内容禁用词库,并利用中文文本匹配方法,有效进行地理标注内容中名称信息和描述信息的关键词匹配与查找,实现基于禁用词库的地理标注涉密内容的自动发现;
标注自动分类单元220:
针对地理标注的内容、类别及属性,构建地理标注内容分类体系,并针对分类体系中的各个地理信息标注类别,设定语义分类规则和特征向量;然后根据地理标注的名称信息和描述信息,提取地理标注内容的语义特征向量,再利用语义相似度计算方法,实现基于语义的网络地理标注内容的自动分类计算;
白名单过滤单元230:
根据标注自动分类步骤所匹配的部分涉密类型,从该类型中取出相应的白名单对象库,然后根据地理标注的名称信息与白名单对象库中的标注对象名称的相似度计算,通过与设定相似度阈值进行比较,实现白名单过滤功能;
地图公开表示规则检查单元240:
根据相应的规则要求,将其中的各种规则要求进行数字化表达,并利用正向表达式配准及规则匹配等技术,实现地理标注的公开地图内容表示规定检查,确保地理标注内容可公开性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410241021.2A CN104008169B (zh) | 2014-05-30 | 2014-05-30 | 一种基于语义的地理标注内容安全检查方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410241021.2A CN104008169B (zh) | 2014-05-30 | 2014-05-30 | 一种基于语义的地理标注内容安全检查方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104008169A true CN104008169A (zh) | 2014-08-27 |
CN104008169B CN104008169B (zh) | 2017-02-22 |
Family
ID=51368826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410241021.2A Active CN104008169B (zh) | 2014-05-30 | 2014-05-30 | 一种基于语义的地理标注内容安全检查方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104008169B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488100A (zh) * | 2015-11-18 | 2016-04-13 | 国信司南(北京)地理信息技术有限公司 | 一种非涉密环境下涉密地理数据的高效检测发现系统 |
CN106155998A (zh) * | 2015-04-09 | 2016-11-23 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及装置 |
CN106897302A (zh) * | 2015-12-18 | 2017-06-27 | 北京四维图新科技股份有限公司 | 一种兴趣点更新出品方法及装置 |
CN108287816A (zh) * | 2017-01-10 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 兴趣点在线检测、机器学习分类器训练方法和装置 |
CN109446288A (zh) * | 2018-10-18 | 2019-03-08 | 重庆邮电大学 | 一种基于Spark互联网涉密地图检测算法 |
CN109543764A (zh) * | 2018-11-28 | 2019-03-29 | 安徽省公共气象服务中心 | 一种基于智能语义感知的预警信息合法性检测方法及检测系统 |
CN109800326A (zh) * | 2019-01-24 | 2019-05-24 | 广州虎牙信息科技有限公司 | 一种视频处理方法、装置、设备和存储介质 |
CN110245212A (zh) * | 2019-04-28 | 2019-09-17 | 阿里巴巴集团控股有限公司 | 一种内容审核方法及装置 |
CN111985389A (zh) * | 2020-08-18 | 2020-11-24 | 中国电建集团成都勘测设计研究院有限公司 | 一种基于流域属性距离的流域相似判别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156726A (zh) * | 2011-04-01 | 2011-08-17 | 中国测绘科学研究院 | 基于语义相似度的地理要素查询扩展方法 |
CN102306169A (zh) * | 2011-08-23 | 2012-01-04 | 国家测绘局卫星测绘应用中心 | 数字矢量海、陆图融合方法和系统 |
CN102819604A (zh) * | 2012-08-20 | 2012-12-12 | 徐亮 | 基于内容相关性的文件涉密内容检索、密级判定及标注方法 |
CN103020164A (zh) * | 2012-11-26 | 2013-04-03 | 华北电力大学 | 一种基于多语义分析和个性化排序的语义检索方法 |
-
2014
- 2014-05-30 CN CN201410241021.2A patent/CN104008169B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156726A (zh) * | 2011-04-01 | 2011-08-17 | 中国测绘科学研究院 | 基于语义相似度的地理要素查询扩展方法 |
CN102306169A (zh) * | 2011-08-23 | 2012-01-04 | 国家测绘局卫星测绘应用中心 | 数字矢量海、陆图融合方法和系统 |
CN102819604A (zh) * | 2012-08-20 | 2012-12-12 | 徐亮 | 基于内容相关性的文件涉密内容检索、密级判定及标注方法 |
CN103020164A (zh) * | 2012-11-26 | 2013-04-03 | 华北电力大学 | 一种基于多语义分析和个性化排序的语义检索方法 |
Non-Patent Citations (1)
Title |
---|
梁汝鹏等: "基于知识标注的地理信息语义服务框架研究", 《地理与地理信息科学》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106155998B (zh) * | 2015-04-09 | 2019-03-26 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及装置 |
CN106155998A (zh) * | 2015-04-09 | 2016-11-23 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及装置 |
CN105488100A (zh) * | 2015-11-18 | 2016-04-13 | 国信司南(北京)地理信息技术有限公司 | 一种非涉密环境下涉密地理数据的高效检测发现系统 |
CN106897302A (zh) * | 2015-12-18 | 2017-06-27 | 北京四维图新科技股份有限公司 | 一种兴趣点更新出品方法及装置 |
CN106897302B (zh) * | 2015-12-18 | 2020-03-31 | 北京四维图新科技股份有限公司 | 一种兴趣点更新出品方法及装置 |
CN108287816A (zh) * | 2017-01-10 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 兴趣点在线检测、机器学习分类器训练方法和装置 |
CN108287816B (zh) * | 2017-01-10 | 2021-06-04 | 腾讯科技(深圳)有限公司 | 兴趣点在线检测、机器学习分类器训练方法和装置 |
CN109446288A (zh) * | 2018-10-18 | 2019-03-08 | 重庆邮电大学 | 一种基于Spark互联网涉密地图检测算法 |
CN109543764A (zh) * | 2018-11-28 | 2019-03-29 | 安徽省公共气象服务中心 | 一种基于智能语义感知的预警信息合法性检测方法及检测系统 |
CN109800326A (zh) * | 2019-01-24 | 2019-05-24 | 广州虎牙信息科技有限公司 | 一种视频处理方法、装置、设备和存储介质 |
CN109800326B (zh) * | 2019-01-24 | 2021-07-02 | 广州虎牙信息科技有限公司 | 一种视频处理方法、装置、设备和存储介质 |
CN110245212A (zh) * | 2019-04-28 | 2019-09-17 | 阿里巴巴集团控股有限公司 | 一种内容审核方法及装置 |
CN111985389A (zh) * | 2020-08-18 | 2020-11-24 | 中国电建集团成都勘测设计研究院有限公司 | 一种基于流域属性距离的流域相似判别方法 |
CN111985389B (zh) * | 2020-08-18 | 2023-05-16 | 中国电建集团成都勘测设计研究院有限公司 | 一种基于流域属性距离的流域相似判别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104008169B (zh) | 2017-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104008169A (zh) | 一种基于语义的地理标注内容安全检查方法及装置 | |
Resch et al. | Combining machine-learning topic models and spatiotemporal analysis of social media data for disaster footprint and damage assessment | |
Kuang et al. | Predicting duration of traffic accidents based on cost-sensitive Bayesian network and weighted K-nearest neighbor | |
CN112329467B (zh) | 地址识别方法、装置、电子设备以及存储介质 | |
Ribeiro Jr et al. | Traffic observatory: a system to detect and locate traffic events and conditions using Twitter | |
Zhou et al. | Online public opinion analysis on infrastructure megaprojects: Toward an analytical framework | |
Alomari et al. | Road traffic event detection using twitter data, machine learning, and apache spark | |
CN103049532A (zh) | 基于突发事件应急管理的知识库引擎构建及其查询方法 | |
Li et al. | Mining trajectory data and geotagged data in social media for road map inference | |
Zhang et al. | Extracting the location of flooding events in urban systems and analyzing the semantic risk using social sensing data | |
CN103853738A (zh) | 一种网页信息相关地域的识别方法 | |
Pei et al. | Big geodata mining: Objective, connotations and research issues | |
Anbalagan et al. | # ChennaiFloods: leveraging human and machine learning for crisis mapping during disasters using social media | |
Wang et al. | On representation learning for road networks | |
Tan et al. | Damage classification and recovery analysis of the Chongqing, China, floods of August 2020 based on social-media data | |
CN107577702A (zh) | 一种社交媒体中交通信息的辨别方法 | |
Lai et al. | A natural language processing approach to understanding context in the extraction and geocoding of historical floods, storms, and adaptation measures | |
Hanifah et al. | Twitter information extraction for smart city | |
Kitamoto et al. | Toponym-based geotagging for observing precipitation from social and scientific data streams | |
Yue et al. | Using twitter data to determine hurricane category: An experiment | |
Wu et al. | Object-oriented and deep-learning-based high-resolution mapping from large remote sensing imagery | |
Ji et al. | Validation of global airport spatial locations from open databases using deep learning for runway detection | |
Zhang et al. | SVM based extraction of spatial relations in text | |
Wang et al. | The level of delay caused by crashes (LDC) in metropolitan and non-metropolitan areas: a comparative analysis of improved Random Forests and LightGBM | |
Qin et al. | Identifying urban functional zones by capturing multi-spatial distribution patterns of points of interest |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |