CN110674239B - 一种地理要素自动分类方法及装置 - Google Patents
一种地理要素自动分类方法及装置 Download PDFInfo
- Publication number
- CN110674239B CN110674239B CN201910929375.9A CN201910929375A CN110674239B CN 110674239 B CN110674239 B CN 110674239B CN 201910929375 A CN201910929375 A CN 201910929375A CN 110674239 B CN110674239 B CN 110674239B
- Authority
- CN
- China
- Prior art keywords
- category
- geographic
- vector
- classification
- geographic element
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种地理要素自动分类方法及装置,使用语料训练数据和预设的深度神经网络训练词向量模型;根据词向量模型确定预设地理要素分类类别的类别向量;根据词向量模型确定待分类地理要素的地理要素向量;计算地理要素向量与类别向量之间的相似度;将相似度满足预设条件的类别作为地理要素的类别。本发明解决了现有地理要素需要人工分类、时间人力成本花费大效率低等问题,实现地理要素分类的自动化与智能化。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种地理要素自动分类方法及装置。
背景技术
地理要素是地图的地理内容,包括表示地球表面自然形态所包括的要素,如地貌、水系、植被和土壤等自然地理要素与人类在生产活动中改造自然界所形成的要素,如居民地、道路网、通信设备、工农业设施、经济文化和行政标志等社会经济要素。通常在军用数字地图源中,诸多地理要素处于同一个层级中,没有清晰的属性类别进行区分。因此在对数据可视化显示时,诸多地理要素只能用同样的符号标识,不利于用户区分;并且只能同时显示或者不显示,不利于缩放地图时的防拥控制。若能够根据要素名称对地理要素进行分类,对不同的类别标注不同的符号标识和不同等级的可见性控制,可以提高航空数字地图的可读性与可观性,实现地图的防拥功能,方便飞行员对地图信息进行分类查看与决策。然而目前地理要素分类仍依赖于手工分类,而仅仅对于中国区域内的数据源而来,需要分类的地理要素就达到上百万之多,手工分类不能完成,因此实现GIS地图地理要素自动分类至关重要。
发明内容
本发明的发明目的在于提供一种地理要素自动分类方法及地理要素自动分类装置,采用无监督的方法实现地理要素的自动分类,解决现有地理要素需要人工分类、时间人力成本花费大效率低等问题,实现地理要素分类的自动化与智能化。
本发明的发明目的一通过以下技术方案实现:
一种地理要素自动分类方法,包括如下步骤:
步骤S1:使用语料训练数据和预设的深度神经网络训练词向量模型;
步骤S2:根据词向量模型确定预设地理要素分类类别的类别向量;
步骤S3:根据词向量模型确定待分类地理要素的地理要素向量;
步骤S4:计算地理要素向量与类别向量之间的相似度;
步骤S5:将相似度满足预设条件的类别作为地理要素的类别。
优选地,步骤S1包含以下步骤:
步骤S101、收集语料训练数据;
步骤S102、对语料训练数据先进行文本分词,再去掉停用词、低频词,最行进行整理,得到词向量模型训练样本;
步骤S103、将词向量模型训练样本输入预设的深度神经网络训练词向量模型。
优选地,步骤S2包含以下步骤:
步骤S201、确定预设地理要素分类类别;
步骤S202、将预设地理要素分类类别输入到词向量模型中得到的词向量作为预设地理要素分类类别的类别向量。
优选地,步骤S3包含以下步骤:
步骤S301、提取待分类地理要素的中心词;
步骤S302、将待分类地理要素的中心词输入到词向量模型中得到的词向量作为待分类地理要素的地理要素向量。
优选地,步骤S4中以地理要素向量与类别向量之间夹角的余弦值作为地理要素向量与类别向量之间的相似度。
优选地,步骤S5中,将相似度按照从大到小的顺序进行排序,设置分类阈值,如果相似度的最大值大于或等于分类阈值,则将相似度的最大值对应的地理要素分类类别作为待分类地理要素的类别。
本发明的发明目的二通过以下技术方案实现
一种地理要素自动分类装置,包含训练模块、类别向量获取模块、地理要素向量获取模块、计算模块和分类模块;
训练模块用于使用语料训练数据和预设的深度神经网络训练词向量模型;
类别向量获取模块用于根据词向量模型,确定地理要素分类类别的类别向量;
地理要素向量获取模块用于根据词向量模型,确定地理要素的地理要素向量;
计算模块用于计算地理要素向量与类别向量之间的相似度;
分类模块用于将相似度满足预设条件的类别作为地理要素的类别。
本发明的有益效果在于:采用无监督的方法实现地理要素分类,无需人工标注训练数据,降低了人力成本;对地理要素实现自动分类,无需手工分类,提高了分类效率。
附图说明
图1为实施例一所示的地理要素自动分类方法的主要流程示意图;
图2为实施例二所示的地理要素自动分类装置的主要模块示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参见图1所示,本实施例所示的地理要素自动分类方法包含以下步骤:
步骤S1、使用语料训练数据和预设的深度神经网络训练词向量模型。具体包括:
步骤S101、收集语料训练数据。
使用训练词向量模型来对地理要素实现无监督分类需要大量的语料训练样本,由于地理要素是人为命名的一系列短语,使用地理要素数据训练词向量模型难以取得很好的效果,考虑到地理要素经常出现在新闻文本中,可以通过爬虫技术获取新闻文本作为语料训练样本,或者直接使用搜狗新闻语料集。在本实施例中,语料训练样本为中文文本,待分类地理要素为中文地理要素,在其他可选的实施例中,语料训练样本也可以为其他语言的文本,相应的,待分类地理要素也可以是其他语言的地理要素。
步骤S102、对语料训练数据进行预处理。
首先,需要对语料训练数据进行文本分词,得到语料训练数据的分词表示形式。可以利用中文分词工具LTP、jieba等对语料训练样本进行分词。
其次,对分词表示形式去除停用词、低频词等,得到处理后的语料训练数据。
最后,对处理后的语料训练数据进行整理,得到词向量模型训练样本,以满足预设的深度神经网络的输入和输出格式。
步骤S103、将词向量模型训练样本输入预设的深度神经网络训练词向量模型。
word2vec是Google在2013年开源的一种无监督词向量算法,利用预设的深度神经网络可以将训练样本中的每个词语用几百维的向量来表示。word2vec有两种训练模型:CBOW模型和skip-gram模型。CBOW模型是通过上下词预测当前词,而skip-gram模型是通过当前词预测上下文。在本实施例中,可以使用word2vec中的CBOW模型或skip-gram模型,使用词向量模型训练样本,训练词向量模型。
步骤S2、根据词向量模型确定预设地理要素分类类别的类别向量。具体包括:
步骤S201、确定预设地理要素分类类别。
根据实际需求,确定预设的地理要素分类类别关键词,例如:学校、医院、制造业、文化景点等。
步骤S202、确定预设地理要素分类类别的类别向量。
根据词向量模型,获取预设地理要素分类类别关键词的词向量,作为预设地理要素分类类别的类别向量。例如预设一个地理要素分类类别“学校”,将分类类别关键词“学校”输入到词向量模型中,得到一个300维的向量vec(“学校”),将向量vec(“学校”)作为预设的地理要素分类类别“学校”的类别向量。
步骤S3、根据词向量模型确定待分类地理要素的地理要素向量。具体包括:
步骤S301、提取待分类地理要素的中心词。
待分类地理要素一般是人为命名的一系列短语,由修饰语和表示属性的中心词组成,中心词一般位于地理要素的末尾,以名词居多,例如地理要素“石桥中学”由修饰语“石桥”和中心词“中学”表示。例如,可以利用中文分词工具LTP、jieba等对待分类地理要素进行分词,将分词后得到的最后一个名词作为待分类地理要素的中心词。
步骤S302、确定待分类地理要素的地理要素向量。
根据词向量模型,获取待分类地理要素的中心词的词向量,作为待分类地理要素的地理要素向量。例如待分类地理要素“石桥中学”的中心词为“中学”,将中心词“中学”输入到词向量模型中,得到一个300维的向量vec(“中学”),将向量vec(“中学”)作为待分类地理要素“石桥中学”的地理要素向量。
步骤S4、计算地理要素向量与类别向量之间的相似度,例如,可以计算地理要素向量与类别向量之间夹角的余弦值作为地理要素向量与类别向量之间的相似度。
步骤S5、将相似度满足预设条件的类别作为待分类地理要素的类别,具体包括:将相似度按照从大到小的顺序进行排序,设置分类阈值,如果相似度的最大值大于或等于分类阈值,则将相似度的最大值对应的地理要素分类类别作为待分类地理要素的类别。
实施例二
参见图2所示,本实施例所示的地理要素自动分类装置包括训练模块、类别向量获取模块、地理要素向量获取模块、计算模块和分类模块。
训练模块用于使用语料训练数据和预设的深度神经网络训练词向量模型,具体包括:
(1)收集语料训练数据。
使用训练词向量模型来对地理要素实现无监督分类需要大量的语料训练样本,由于地理要素是人为命名的一系列短语,使用地理要素数据训练词向量模型难以取得很好的效果,考虑到地理要素经常出现在新闻文本中,可以通过爬虫技术获取新闻文本作为语料训练样本,或者直接使用搜狗新闻语料集。在本实施例中,语料训练样本为中文文本,待分类地理要素为中文地理要素,在其他可选的实施例中,语料训练样本也可以为其他语言的文本,相应的,待分类地理要素也可以是其他语言的地理要素。
(2)对语料训练数据进行预处理。
首先,需要对语料训练数据进行文本分词,得到语料训练数据的分词表示形式。可以利用中文分词工具LTP、jieba等对语料训练样本进行分词。
其次,对分词表示形式去除停用词、低频词等,得到处理后的语料训练数据。
最后,对处理后的语料训练数据进行整理,得到词向量模型训练样本,以满足预设的深度神经网络的输入和输出格式。
(3)利用预设的深度神经网络训练词向量模型。
word2vec是Google在2013年开源的一种无监督词向量算法,利用预设的深度神经网络可以将训练样本中的每个词语用几百维的向量来表示。word2vec有两种训练模型:CBOW模型和skip-gram模型。CBOW模型是通过上下词预测当前词,而skip-gram模型是通过当前词预测上下文。在本实施例中,可以使用word2vec中的CBOW模型或skip-gram模型,使用词向量模型训练样本,训练词向量模型。
类别向量获取模块用于根据词向量模型,确定地理要素分类类别的类别向量,具体包括:
确定预设地理要素分类类别。
根据实际需求,确定预设的地理要素分类类别关键词,例如:学校、医院、制造业、文化景点等。
确定预设地理要素分类类别的类别向量。
根据词向量模型,获取预设地理要素分类类别关键词的词向量,作为预设地理要素分类类别的类别向量。例如预设一个地理要素分类类别“学校”,将分类类别关键词“学校”输入到词向量模型中,得到一个300维的向量vec(“学校”),将向量vec(“学校”)作为预设的地理要素分类类别“学校”的类别向量。
地理要素向量获取模块用于根据词向量模型,确定地理要素的地理要素向量,具体包括:
(1)提取待分类地理要素的中心词。
待分类地理要素一般是人为命名的一系列短语,由修饰语和表示属性的中心词组成,中心词一般位于地理要素的末尾,以名词居多,例如地理要素“石桥中学”由修饰语“石桥”和中心词“中学”表示。例如,可以利用中文分词工具LTP、jieba等对待分类地理要素进行分词,将分词后得到的最后一个名词作为待分类地理要素的中心词。
(2)确定待分类地理要素的地理要素向量。
根据词向量模型,获取待分类地理要素的中心词的词向量,作为待分类地理要素的地理要素向量。例如待分类地理要素“石桥中学”的中心词为“中学”,将中心词“中学”输入到词向量模型中,得到一个300维的向量vec(“中学”),将向量vec(“中学”)作为待分类地理要素“石桥中学”的地理要素向量。
计算模块用于计算地理要素向量与类别向量之间的相似度,例如,可以计算地理要素向量与类别向量之间夹角的余弦值作为地理要素向量与类别向量之间的相似度。
分类模块用于将相似度满足预设条件的类别作为地理要素的类别,具体包括:将相似度按照从大到小的顺序进行排序,设置分类阈值,如果相似度的最大值大于或等于分类阈值,则将相似度的最大值对应的地理要素分类类别作为待分类地理要素的类别。
Claims (3)
1.一种地理要素自动分类方法,其特征在于包括如下步骤:
步骤S1:使用语料训练数据和预设的深度神经网络训练词向量模型;包含以下步骤:
步骤S101、收集语料训练数据;
步骤S102、对语料训练数据先进行文本分词,再去掉停用词、低频词,最行进行整理,得到词向量模型训练样本;
步骤S103、将词向量模型训练样本输入预设的深度神经网络训练词向量模型;
步骤S2:根据词向量模型确定预设地理要素分类类别的类别向量;包含以下步骤:
步骤S201、确定预设地理要素分类类别;
步骤S202、将预设地理要素分类类别输入到词向量模型中得到的词向量作为预设地理要素分类类别的类别向量;
步骤S3:根据词向量模型确定待分类地理要素的地理要素向量;包含以下步骤:
步骤S301、提取待分类地理要素的中心词;
步骤S302、将待分类地理要素的中心词输入到词向量模型中得到的词向量作为待分类地理要素的地理要素向量;
步骤S4:计算以地理要素向量与类别向量之间夹角的余弦值作为地理要素向量与类别向量之间的相似度;
步骤S5:将相似度满足预设条件的类别作为地理要素的类别。
2.根据权利要求1所述一种地理要素自动分类方法,其特征在于所述步骤S5中,将相似度按照从大到小的顺序进行排序,设置分类阈值,如果相似度的最大值大于或等于分类阈值,则将相似度的最大值对应的地理要素分类类别作为待分类地理要素的类别。
3.一种地理要素自动分类装置,其特征在于包含训练模块、类别向量获取模块、地理要素向量获取模块、计算模块和分类模块;
训练模块用于收集语料训练数据,对语料训练数据先进行文本分词,再去掉停用词、低频词,最行进行整理,得到词向量模型训练样本;将词向量模型训练样本输入预设的深度神经网络训练词向量模型;
类别向量获取模块用于确定预设地理要素分类类别,将预设地理要素分类类别输入到词向量模型中得到的词向量作为预设地理要素分类类别的类别向量;
地理要素向量获取模块用于提取待分类地理要素的中心词,将待分类地理要素的中心词输入到词向量模型中得到的词向量作为待分类地理要素的地理要素向量;计算模块用于计算以地理要素向量与类别向量之间夹角的余弦值作为地理要素向量与类别向量之间的相似度;
分类模块用于将相似度满足预设条件的类别作为地理要素的类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910929375.9A CN110674239B (zh) | 2019-09-27 | 2019-09-27 | 一种地理要素自动分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910929375.9A CN110674239B (zh) | 2019-09-27 | 2019-09-27 | 一种地理要素自动分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110674239A CN110674239A (zh) | 2020-01-10 |
CN110674239B true CN110674239B (zh) | 2022-11-04 |
Family
ID=69079924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910929375.9A Active CN110674239B (zh) | 2019-09-27 | 2019-09-27 | 一种地理要素自动分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110674239B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077400A (zh) * | 2012-12-26 | 2013-05-01 | 中国土地勘测规划院 | 土地利用数据库支持的地类信息遥感自动识别方法 |
CN107609121A (zh) * | 2017-09-14 | 2018-01-19 | 深圳市玛腾科技有限公司 | 基于LDA和word2vec算法的新闻文本分类方法 |
CN107766426A (zh) * | 2017-09-14 | 2018-03-06 | 北京百分点信息科技有限公司 | 一种文本分类方法、装置及电子设备 |
WO2019149200A1 (zh) * | 2018-02-01 | 2019-08-08 | 腾讯科技(深圳)有限公司 | 文本分类方法、计算机设备及存储介质 |
-
2019
- 2019-09-27 CN CN201910929375.9A patent/CN110674239B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077400A (zh) * | 2012-12-26 | 2013-05-01 | 中国土地勘测规划院 | 土地利用数据库支持的地类信息遥感自动识别方法 |
CN107609121A (zh) * | 2017-09-14 | 2018-01-19 | 深圳市玛腾科技有限公司 | 基于LDA和word2vec算法的新闻文本分类方法 |
CN107766426A (zh) * | 2017-09-14 | 2018-03-06 | 北京百分点信息科技有限公司 | 一种文本分类方法、装置及电子设备 |
WO2019149200A1 (zh) * | 2018-02-01 | 2019-08-08 | 腾讯科技(深圳)有限公司 | 文本分类方法、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于上下文语义的朴素贝叶斯文本分类算法;郑开雨等;《计算机与现代化》;20180615(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110674239A (zh) | 2020-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106570148B (zh) | 一种基于卷积神经网络的属性抽取方法 | |
CN104794212B (zh) | 基于用户评论文本的上下文情感分类方法及分类系统 | |
CN107169079B (zh) | 一种基于Deepdive的领域文本知识抽取方法 | |
CN108038205B (zh) | 针对中文微博的观点分析原型系统 | |
CN107766371A (zh) | 一种文本信息分类方法及其装置 | |
CN112527915B (zh) | 线性文化遗产知识图谱构建方法、系统、计算设备和介质 | |
CN111159356B (zh) | 基于教学内容的知识图谱构建方法 | |
CN108595582B (zh) | 一种基于社会信号的灾害性气象热点事件识别方法 | |
CN108763212A (zh) | 一种地址信息提取方法及装置 | |
CN114548298B (zh) | 模型训练、交通信息处理方法、装置、设备和存储介质 | |
CN108287911A (zh) | 一种基于约束化远程监督的关系抽取方法 | |
CN110287329A (zh) | 一种基于商品文本分类的电商类目属性挖掘方法 | |
CN113434688B (zh) | 用于舆情分类模型训练的数据处理方法和装置 | |
CN114153978A (zh) | 模型训练方法、信息抽取方法、装置、设备及存储介质 | |
CN115600605A (zh) | 一种中文实体关系联合抽取方法、系统、设备及存储介质 | |
CN107092593B (zh) | 初等数学分层抽样应用题的句子语义角色识别方法及系统 | |
CN109002561A (zh) | 基于样本关键词学习的文本自动分类方法、系统及介质 | |
CN110674239B (zh) | 一种地理要素自动分类方法及装置 | |
CN116701648A (zh) | 基于规范标准映射知识图谱及schema设计方法 | |
CN115270774B (zh) | 一种半监督学习的大数据关键词词典构建方法 | |
CN114638222B (zh) | 自然灾害数据的分类方法及其模型训练方法、装置 | |
CN115511280A (zh) | 一种基于多模态数据融合的城市洪水韧性评价方法 | |
CN113342943B (zh) | 一种分类模型的训练方法和装置 | |
CN114626669A (zh) | 基于多元数据的光缆巡检优先级判断方法及装置 | |
CN111723164B (zh) | 地址信息的处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |