CN110472655A - 一种用于跨境旅游的标志物机器学习识别系统及方法 - Google Patents
一种用于跨境旅游的标志物机器学习识别系统及方法 Download PDFInfo
- Publication number
- CN110472655A CN110472655A CN201910595808.1A CN201910595808A CN110472655A CN 110472655 A CN110472655 A CN 110472655A CN 201910595808 A CN201910595808 A CN 201910595808A CN 110472655 A CN110472655 A CN 110472655A
- Authority
- CN
- China
- Prior art keywords
- marker
- classification
- picture
- sample set
- fuzzy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种用于跨境旅游的标志物机器学习识别方法和系统,包括获取待识别的标志物图片;基于通过机器学习训练后的模糊辨识器,确定该标志物所属的模糊分类;根据所述模糊分类,确定对应的通过机器学习训练后的分类识别器;基于通过机器学习训练后的分类识别器,确定该标志物的具体分类;根据所述具体分类,确定对应的通过机器学习训练后的语义识别器;通过所述语义识别器对所述待识别的标志物图片进行识别,确定该标志物图片的语义信息;根据所述语义信息输出该标志物图片的含义文字。本发明面向跨境旅游,对于图形化标志物为游客提供标志物识别及其含义的文字转换。
Description
技术领域
本发明涉及基于人工智能的智慧旅游领域,特别涉及一种用于跨境旅游的标志物机器学习识别系统及方法。
背景技术
随着人们生活水平的提高,旅游已经逐步成为生活中的必需活动。为了满足人们在旅游过程中的需要,智慧旅游技术应运而生,并得到快速发展。智慧旅游指的是综合运用移动互联网、大数据、人工智能等技术手段,为人们的旅途提供个性化、便利化、智能化的信息和服务。
近年来,跨境旅游特别是自由行模式的跨境旅游越来越受到旅游者的青睐,跨境旅游给游客带来新鲜的体验,但同时,在跨境旅游时游客通常也面临着人地两生、语言不通、缺乏境外生活常识和文化背景的问题。如何解决游客在跨境旅游时面临的上述问题,为智慧旅游技术提供了一个全新而广阔的应用场景。
目前,针对跨境旅游最常见的语言不通问题,以智能手机或者翻译机为硬件,通过文字提取、语音辨识以及机器翻译等技术手段,已经基本使游客能够在跨境旅游过程中与他人实现无障碍的语言或者文字的交流,以及实现对路牌、店名、文字提示等信息的转译和阅读。
在公共场所中,还存在着大量的图形化的标志物,其中有的标志物会具有相对应的文字表示,通过文字可理解其含义;但是,有相当数量的图形化标志物根本没有对应的文字表示。
另外,标志物可以分为标准化标志物以及非标准化标志物。前者例如交通标志物等,采用法律、法规或者国家行业标准所规定的统一图形,相对容易识别或查询其含义。而后者的图形则没有统一规定,其图形样式丰富,整体趋同但细节存在明显差别,当地人民结合自身的文化常识与背景完全能够理解其含义,但是对于游客来说则有可能存在含义认知方面的困难。
因此,对于跨境旅游来说,对于图形化标志物——特别是无对应文字说明的非标准化标志物,为游客提供标志物识别及其含义的文字转换,是智慧旅游技术当中一个较为前沿的技术问题。
发明内容
(一)发明目的
本发明提供了一种用于跨境旅游的标志物机器学习识别方法和系统。本发明旨在面向图形化标志物——特别是无对应文字说明的非标准化标志物,为游客提供标志物识别及其含义的文字转换。
(二)技术方案
本发明提供了一种用于跨境旅游的标志物机器学习识别方法,所述方法包括:
获取待识别的标志物图片;
基于通过机器学习训练后的模糊辨识器,确定该标志物所属的模糊分类;根据所述模糊分类,确定对应的通过机器学习训练后的分类识别器;
基于通过机器学习训练后的分类识别器,确定该标志物的具体分类;
根据所述具体分类,确定对应的通过机器学习训练后的语义识别器;
通过所述语义识别器对所述待识别的标志物图片进行识别,确定该标志物图片的语义信息;
根据所述语义信息输出该标志物图片的含义文字。
优选的是,采用如下方式训练所述模糊辨识器:选取一定数量的标志物样本,所述标志物样本具有预设数目个模糊类别,将各标志物样本按照所述模糊类别归类后组成标志物样本集;对所述标志物样本集进行增强,得到增强后标志物样本集;基于所述增强后的标志物样本集对模糊辨识器进行训练。
优选的是,采用如下方式训练所述分类识别器:获取预设数目的、携带有某一具体分类注释、且按照所述模糊类别归类后的标志物样本组成的正分类样本集,以及由非本具体分类的样本组成的负分类样本集;对所述正分类样本集进行增强,得到增强后正分类样本集;利用所述增强后正分类样本集、所述负分类样本集对分类识别器分别训练。
优选的是,通过所述语义识别器对所述待识别的标志物图片进行识别,确定该标志物图片的语义信息:根据所述具体分类,利用卷积神经网络CNN对所述标志物图片进行特征提取,得到所述标志物图片的特征序列;根据所述特征序列和预设双向循环神经网络CRNN以及转录层,得到所述标志物图片对应的语义信息,所述预设卷积循环神经网络CRNN使得所述标志物图片的特征序列与其对应的语义信息相关联。
优选的是,在确定了新的标志物图片的模糊类别和具体类别之后时,将该标志物图片更新到与其模糊类别对应的正分类样本集。
本发明进而提供了一种用于跨境旅游的标志物机器学习识别系统,包括移动终端和服务器;
所述移动终端拍摄标志物,将待识别的标志物图片上传给服务器;所述服务器基于机器学习训练识别该标志物图片的语义信息,生成表达该语义信息的含义文字,并将含义文字反馈给移动终端;
其中,所述服务器具体包括:模糊辨识器、分类识别器、标志物样本集库、语义识别器以及文字转换器;
所述模糊辨识器通过机器学习训练后的,根据标志物图片,确定该标志物所属的模糊类别;
所述分类识别器的数目与模糊类别的数目对应,分类识别器经过机器学习训练,根据标志物图片确定该标志物图片在本模糊类别中所属的具体分类;
所述语义识别器的数目与具体分类的数目对应,所述语义识别器对所述待识别的标志物图片进行识别,确定该标志物图片的语义信息;
所述标志物样本集库用于收集和提供训练所述模糊辨识器、分类识别器、以及语义识别器的标志物样本集;
所述文字转换器用于根据所述语义信息输出该标志物图片的含义文字。
优选的是,所述模糊辨识器采用如下方式训练:选取一定数量的标志物样本,所述标志物样本具有预设数目个模糊类别,将各标志物样本按照所述模糊类别归类后组成标志物样本集;对所述标志物样本集进行增强,得到增强后标志物样本集;基于所述增强后的标志物样本集对模糊辨识器进行训练。
优选的是,所述分类识别器采用如下方式训练:获取预设数目的、携带有某一具体分类注释、且按照所述模糊类别归类后的标志物样本组成的正分类样本集,以及由非本具体分类的样本组成的负分类样本集;对所述正分类样本集进行增强,得到增强后正分类样本集;利用所述增强后正分类样本集、所述负分类样本集对分类识别器分别训练。
优选的是,所述语义识别器包括卷积神经网络CNN,双向循环神经网络CRNN和转录层;根据所述具体分类,卷积神经网络CNN对所述标志物图片进行特征提取,得到所述标志物图片的特征序列;根据所述特征序列,所述预设双向循环神经网络CRNN以及转录层得到所述标志物图片对应的语义信息,所述预设卷积循环神经网络CRNN使得所述标志物图片的特征序列与其对应的语义信息相关联。
优选的是,标志物样本集库在确定了新的标志物图片的模糊类别和具体类别之后时,将该标志物图片更新到与其模糊类别对应的正分类样本集。
(三)有益效果
本发明面向跨境旅游,对于图形化标志物——特别是无对应文字说明的非标准化标志物,为游客提供标志物识别及其含义的文字转换。本发明利用样本集对模糊辨识器、分类识别器以及语义识别器分别实现机器学习训练;本发明先通过模糊辨识器确定该标志物所属的模糊分类;根据模糊分类选取与该模糊分类相对应的分类识别器,确定该标志物的具体分类;进而根据所述具体分类确定对应的语义识别器,实现语义信息的识别,从而适应了图形化标志物特别是非标准化标志物的图像特征差异化较大的特点,从而保证了语义识别器对该具体分类标志物的适应性和识别的准确度。
附图说明
以下参考附图描述的实施例是示例性的,旨在用于解释和说明本发明,而不能理解为对本发明的保护范围的限制。
图1是本发明公开的用于跨境旅游的标志物机器学习识别方法流程图;
图2是本发明公开的用于跨境旅游的标志物机器学习识别系统架构图;
图3是本发明公开的用于跨境旅游的标志物机器学习识别的服务器具体架构图。
具体实施方式
为使本发明实施的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行更加详细的描述。
需要说明的是:所描述的实施例是本发明一部分实施例,而不是全部的实施例,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。基于本发明中的实施例,本领域普通技术人员在没有创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了一种用于跨境旅游的标志物机器学习识别方法。
首先,步骤S1:获取待识别的标志物图片。具体来说,应用该方法的硬件架构可以包括移动终端和服务器。移动终端是具有摄像头和联网功能的智能手机或者翻译机,游客遇到不能够理解含义的图形化的标志物时,利用移动终端拍摄该标志物,将待识别的标志物图片上传给服务器;所述服务器获得待识别的标志物图片。
步骤S2:基于通过机器学习训练后的模糊辨识器,确定该标志物所属的模糊类别。在本发明中,所述模糊类别是模糊辨识器对待识别的标志物图片进行识别后得出的一个广泛尺度类别,每个模糊类别可以包含一定数量的具体分类。例如,可以将所有标志物图片划分为5个模糊类别,即安全警告标志、性别标志、通行标志、工具标志以及货币标志,则所有标志物都按照这5个模糊类别进行归类,归入其中之一。每个模糊类别又包含至少一个具体分类,例如通行标志又包括电梯标志、出口标志、入口标志、扶梯标志、方向标志等多个具体分类;工具标志又包括公共电话、自动售卖机、饮水处等具体分类;货币标志可以包括外币兑换、消费退税、银行服务等具体分类。标志物又可以进一步更为精确地归入模糊类别的某一个具体分类。
模糊辨识器经过机器学习训练,能够从标志物图片中辨识出该标志物所属于的模糊类。所述模糊辨识器可以采用BP神经网络等架构的监督学习模块实现。
所述模糊辨识器的机器学习训练过程如下所述:选取一定数量的标志物样本,所述标志物样本具有预设数目个模糊类别,将各标志物样本按照所述模糊类别归类后组成标志物样本集;对所述标志物样本集进行增强,得到增强后标志物样本集;基于所述增强后的标志物样本集对模糊辨识器进行训练。本发明中,进行分类的最终目的是确定标志物所述的具体分类,从而在更小的尺度下实现标志物的语义提取。在训练模糊辨识器的过程中,将训练所用的标志物样本事先按照模糊类别归类到标志物样本集,可以提高训练后模糊辨识器的检测性能和识别精度。进而,对标志物样本集中的标志物样本进行增强,包括:对图片执行色彩抖动,模糊,随机擦除,PCA抖动,旋转,剪裁以及尺度变换,从而由一副原始的标志物样本图片增强为若干标志物样本图片。对标志物样本集进行增强,实际上是对样本集中的标志物样本图片进行随机增强,随机增强可以增强算法的普适性能力,在一定的程度上,增强处理也可以增加样本的数量,从而避免某些模糊类别下的检测样本太少。
步骤S3:根据所述模糊类别,确定对应的通过机器学习训练后的分类识别器。
根据模糊类别,确定对应的通过训练得到的分类识别器。在本发明中,分类识别器的数目与模糊类的数目对应,也就是说标志物被划分为多少个模糊类别,则具有对应数量的分类识别器,每个模糊类对应于自己的分类识别器,不同的模糊类下的标志物需要相应于该模糊类的分类识别器来进行识别。这样能够提高识别的精度,此外,在有新的需要被识别的标志物输入时,只需确定该新的需要被识别的标志物所属的模糊类别,重新训练所属模糊类别对应的一个分类识别器即可,可以减少重新训练分类识别器所花费的时间。
采用如下方式训练所述分类识别器:获取预设数目的、携带有某一具体分类注释、且按照所述模糊类别归类后的标志物样本组成的正分类样本集,以及由非本模糊类别的样本组成的负分类样本集;对所述正分类样本集进行增强,得到增强后正分类样本集;利用所述增强后正分类样本集、所述负分类样本集对分类识别器分别训练。
其中,正分类样本集的样本集数量与模糊类别的数目相对应,例如上文中提到5个模糊类别,则对应具有5个正分类样本集。每个正分类样本集中具有预设数量的标志物样本,且每个标志物样本携带表达该样本的具体分类的具体分类注释。例如,与通行标志这一模糊类别对应的正分类样本集中的每个样本带有表示电梯标志、出口标志、入口标志、扶梯标志、方向标志中任一个具体分类的具体分类注释。另外,每个模糊类别还对应一个负分类样本集,其中包含非本模糊类别的标志物样本,包含的负分类样本图片数量,可以根据实际情况来确定。负分类样本,能帮助分类识别器增强对可能造成误检的标志物的鲁棒性。
对各个正分类样本集中的标志物样本进行增强,得到增强后正分类样本集。增强方式包括:对标志物图片执行色彩抖动,模糊,随机擦除,PCA抖动,旋转,剪裁以及尺度变换。对每个正分类样本集单独进行数据增强更具有针对性,并且不会相互约束。
分类识别器属于BP神经网络架构的监督学习模块,经过机器学习训练,能够根据标志物图片确定该标志物图片在本模糊类别中所属的具体分类。
步骤S4:基于通过机器学习训练后的分类识别器,确定该标志物的具体分类。
在模糊辨识器以及与各个模糊类别对应的分类识别器均完成机器学习训练后,对于任意一张标志物图片,输入模糊辨识器,获得其模糊类别,再将该标志物图片输入到该模糊类别对应的分类识别器中,则获得该标志物图片的具体分类。
本发明中,通过训练模糊辨识器以及与各个模糊类别对应的分类识别器,分类识别器能较好地提取同属于一个模糊类别的标志物图片的共性特征,因此当当前的标志物图片是未包含于样本集中的标志物时,由于标志物之间具有相似性,分类识别器即使遇到没有遇到过的标志物也能检测出其具体类别。
进一步地,在确定了新的标志物图片的模糊类别和具体类别之后时,可以将该标志物图片更新到与其模糊类别对应的正分类样本集,从而,可以实时或者定期基于更新后的正分类样本集、负分类样本集重新训练所述分类识别器。
步骤S5:根据所述具体分类,确定对应的通过机器学习训练后的语义识别器。
本发明中,如前文所述,在将一个标志物图片输入模糊辨识器以及级联的分类识别器中获得该标志物图片的具体分类之后,将该标志物图片输入与其具体分类对应的一个语义识别器。本发明中语义识别器的数目与具体分类的数目对应,每个具体分类对应于自己的语义识别器。
步骤S6:通过所述语义识别器对所述待识别的标志物图片进行识别,确定该标志物图片的语义信息。
本发明通过所述语义识别器对所述待识别的标志物图片进行识别,确定该标志物图片的语义信息。
语义识别器主要由三个部分组成:卷积神经网络CNN,双向循环神经网络CRNN和转录层。卷积神经网络CNN由输入的标志物图像提取出固定数量的特征序列,特征序列被输入由LSTM模块组成的双向循环神经网络CRNN得到初步的预测序列,再由转录层去掉预测序列中的冗余部分得到最终的语义序列。
与每个具体分类对应的语义识别器,利用卷积神经网络CNN对所述标志物图片进行特征提取,得到所述标志物图片的特征序列;根据所述特征序列和预设双向循环神经网络CRNN以及转录层,得到所述标志物图片对应的语义信息,所述预设卷积循环神经网络CRNN使得所述标志物图片的特征序列与其对应的语义信息相关联。
语义识别器的卷积神经网络CNN由卷积层和最大值池化层构成,用于从输入的标志物图像中提取序列化的特征表达,即特征序列,特征序列是一个特征向量集合,每一个特征向量由池化处理的标志物图片的每一列像素提取,即第i个特征向量由池化处理的标志物图片第i列像素得到,从左至右提取得到的特征向量集合作为特征序列。最大值池化层按照最大值原则进行池化,所以池化处理的标志物图片的每一列对应于原始标志物图片中的一个矩形区域。双向循环神经网络CRNN是一个深度的双向RNN(RecurrentNeuralNetwork),用于将特征序列转化为字符序列。在本申请中,将卷积神经网络CNN输出的长度为T的特征序列X记为{X1,…XT},双向循环神经网络CRNN的每一个输出Y由整个序列X得到。在双向循环神经网络CRNN中,使用了LSTM(Long Short-Term Memory,长短期记忆网络)单元,LSTM单元包含了一个记忆单元和三个乘法门(分别为输入门,输出门和遗忘门)。记忆单元可以存储之前的上下文,输入、输出门可以使上下文保存较长的一段时间,同时遗忘门可以清除上下文。转录层的作用是依据条件概率将RNN的预测序列转化为目标序列,这个条件概率的对数似然函数作为整个网络的目标损失函数。因此对于整个语义识别器来说,其输入为标志物图片,其输出为对应标志物图片语义信息的结构化字符序列。
语义识别器的CNN和CRNN首先经过机器学习训练,具体来说,可利用前述样本集中的标志物样本图片及其对应的语义信息,对语义识别器进行训练。在完成训练后,获取当前需要识别语义信息的标志物图片,利用卷积神经网络CNN对当前标志物图片进行特征提取,得到特征序列;根据所述特征序列和预设双向循环神经网络CRNN以及转录层,得到所述标志物图片对应的语义信息,所述预设卷积循环神经网络CRNN使得所述标志物图片的特征序列与其对应的语义信息相关联。
步骤S7:根据所述语义信息输出该标志物图片的含义文字。如前文所述,所述语义信息是结构化字符序列,在本步骤中将结构化字符序列根据词典映射转换为自然语言形式的含义文字,然后将其发送给移动终端,供游客阅读。
如图2和图3所示,本发明进而提供了一种用于跨境旅游的标志物机器学习识别系统。
如图2所示,该系统首先包括移动终端和服务器。其中,移动终端是具有摄像头和联网功能的智能手机或者翻译机,游客遇到不能够理解含义的图形化的标志物时,利用移动终端拍摄该标志物,将待识别的标志物图片上传给服务器。服务器基于机器学习训练识别该标志物图片的语义信息,生成表达该语义信息的含义文字,并将含义文字反馈给移动终端,由移动终端向游客显示。
其中,如图3所示,该服务器具体包括:模糊辨识器、分类识别器、标志物样本集库、语义识别器以及文字转换器。
具体来说,所述模糊辨识器通过机器学习训练后的,根据标志物图片,确定该标志物所属的模糊类别。所述模糊辨识器的机器学习训练过程如下所述:从所述标志物样本集库当中,选取一定数量的标志物样本,所述标志物样本具有预设数目个模糊类别,将各标志物样本按照所述模糊类别归类后组成标志物样本集;对所述标志物样本集进行增强,得到增强后标志物样本集;基于所述增强后的标志物样本集对模糊辨识器进行训练。本发明中,进行分类的最终目的是确定标志物所述的具体分类,从而在更小的尺度下实现标志物的语义提取。在训练模糊辨识器的过程中,将训练所用的标志物样本事先按照模糊类别归类到标志物样本集,可以提高训练后模糊辨识器的检测性能和识别精度。进而,对标志物样本集中的标志物样本进行增强,包括:对图片执行色彩抖动,模糊,随机擦除,PCA抖动,旋转,剪裁以及尺度变换,从而由一副原始的标志物样本图片增强为若干标志物样本图片。对标志物样本集进行增强,实际上是对样本集中的标志物样本图片进行随机增强,随机增强可以增强算法的普适性能力,在一定的程度上,增强处理也可以增加样本的数量,从而避免某些模糊类别下的检测样本太少。模糊辨识器经过机器学习训练,能够从标志物图片中辨识出该标志物所属于的模糊类。所述模糊辨识器可以采用BP神经网络等架构的监督学习模块实现。
所述分类识别器的数目与模糊类别的数目对应,也就是说标志物被划分为多少个模糊类别,则具有对应数量的分类识别器,每个模糊类别对应于自己的分类识别器。分类识别器属于BP神经网络架构的监督学习模块,经过机器学习训练,能够根据标志物图片确定该标志物图片在本模糊类别中所属的具体分类。采用如下方式训练所述分类识别器:从所述标志物样本集库获取预设数目的、携带有某一具体分类注释、且按照所述模糊类别归类后的标志物样本组成的正分类样本集,以及由非本模糊类别的样本组成的负分类样本集;对所述正分类样本集进行增强,得到增强后正分类样本集;利用所述增强后正分类样本集、所述负分类样本集对分类识别器分别训练。
语义识别器的数目与具体分类的数目对应,每个具体分类对应于自己的语义识别器。在将一个标志物图片输入模糊辨识器以及级联的分类识别器中获得该标志物图片的具体分类之后,将该标志物图片输入与其具体分类对应的一个语义识别器。所述语义识别器对所述待识别的标志物图片进行识别,确定该标志物图片的语义信息。
语义识别器主要由三个部分组成:卷积神经网络CNN,双向循环神经网络CRNN和转录层。卷积神经网络CNN由输入的标志物图像提取出固定数量的特征序列,特征序列被输入由LSTM模块组成的双向循环神经网络CRNN得到初步的预测序列,再由转录层去掉预测序列中的冗余部分得到最终的语义序列,作为所述语义信息。与每个具体分类对应的语义识别器,利用卷积神经网络CNN对所述标志物图片进行特征提取,得到所述标志物图片的特征序列;根据所述特征序列和预设双向循环神经网络CRNN以及转录层,得到所述标志物图片对应的语义信息,所述预设卷积循环神经网络CRNN使得所述标志物图片的特征序列与其对应的语义信息相关联。
语义识别器的卷积神经网络CNN由卷积层和最大值池化层构成,用于从输入的标志物图像中提取序列化的特征表达,即特征序列,特征序列是一个特征向量集合,每一个特征向量由池化处理的标志物图片的每一列像素提取,即第i个特征向量由池化处理的标志物图片第i列像素得到,从左至右提取得到的特征向量集合作为特征序列。最大值池化层按照最大值原则进行池化,所以池化处理的标志物图片的每一列对应于原始标志物图片中的一个矩形区域。双向循环神经网络CRNN是一个深度的双向RNN(RecurrentNeuralNetwork),用于将特征序列转化为字符序列。在本申请中,将卷积神经网络CNN输出的长度为T的特征序列X记为{X1,…XT},双向循环神经网络CRNN的每一个输出Y由整个序列X得到。在双向循环神经网络CRNN中,使用了LSTM(Long Short-Term Memory,长短期记忆网络)单元,LSTM单元包含了一个记忆单元和三个乘法门(分别为输入门,输出门和遗忘门)。记忆单元可以存储之前的上下文,输入、输出门可以使上下文保存较长的一段时间,同时遗忘门可以清除上下文。转录层的作用是依据条件概率将RNN的预测序列转化为目标序列,这个条件概率的对数似然函数作为整个网络的目标损失函数。因此对于整个语义识别器来说,其输入为标志物图片,其输出为对应标志物图片语义信息的结构化字符序列。
语义识别器的CNN和CRNN首先经过机器学习训练,具体来说,可利用前述样本集中的标志物样本图片及其对应的语义信息,对语义识别器进行训练。在完成训练后,获取当前需要识别语义信息的标志物图片,利用卷积神经网络CNN对当前标志物图片进行特征提取,得到特征序列;根据所述特征序列和预设双向循环神经网络CRNN以及转录层,得到所述标志物图片对应的语义信息,所述预设卷积循环神经网络CRNN使得所述标志物图片的特征序列与其对应的语义信息相关联。
所述文字转换器用于根据所述语义信息输出该标志物图片的含义文字。如前文所述,所述语义信息是结构化字符序列,在本步骤中将结构化字符序列根据词典映射转换为自然语言形式的含义文字,然后将其发送给移动终端,供游客阅读。
可见,本发明面向跨境旅游,对于图形化标志物——特别是无对应文字说明的非标准化标志物,为游客提供标志物识别及其含义的文字转换。本发明利用样本集对模糊辨识器、分类识别器以及语义识别器分别实现机器学习训练;本发明先通过模糊辨识器确定该标志物所属的模糊分类;根据模糊分类选取与该模糊分类相对应的分类识别器,确定该标志物的具体分类;进而根据所述具体分类确定对应的语义识别器,实现语义信息的识别,从而适应了图形化标志物特别是非标准化标志物的图像特征差异化较大的特点,从而保证了语义识别器对该具体分类标志物的适应性和识别的准确度。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种用于跨境旅游的标志物机器学习识别方法,其特征在于,包括:
获取待识别的标志物图片;
基于通过机器学习训练后的模糊辨识器,确定该标志物所属的模糊分类;根据所述模糊分类,确定对应的通过机器学习训练后的分类识别器;
基于通过机器学习训练后的分类识别器,确定该标志物的具体分类;
根据所述具体分类,确定对应的通过机器学习训练后的语义识别器;
通过所述语义识别器对所述待识别的标志物图片进行识别,确定该标志物图片的语义信息;
根据所述语义信息输出该标志物图片的含义文字。
2.根据权利要求1所述的用于跨境旅游的标志物机器学习识别方法,其特征在于,采用如下方式训练所述模糊辨识器:选取一定数量的标志物样本,所述标志物样本具有预设数目个模糊类别,将各标志物样本按照所述模糊类别归类后组成标志物样本集;对所述标志物样本集进行增强,得到增强后标志物样本集;基于所述增强后的标志物样本集对模糊辨识器进行训练。
3.根据权利要求2所述的用于跨境旅游的标志物机器学习识别方法,其特征在于,采用如下方式训练所述分类识别器:获取预设数目的、携带有某一具体分类注释、且按照所述模糊类别归类后的标志物样本组成的正分类样本集,以及由非本具体分类的样本组成的负分类样本集;对所述正分类样本集进行增强,得到增强后正分类样本集;利用所述增强后正分类样本集、所述负分类样本集对分类识别器分别训练。
4.根据权利要求3所述的用于跨境旅游的标志物机器学习识别方法,其特征在于,通过所述语义识别器对所述待识别的标志物图片进行识别,确定该标志物图片的语义信息:根据所述具体分类,利用卷积神经网络CNN对所述标志物图片进行特征提取,得到所述标志物图片的特征序列;根据所述特征序列和预设双向循环神经网络CRNN以及转录层,得到所述标志物图片对应的语义信息,所述预设卷积循环神经网络CRNN使得所述标志物图片的特征序列与其对应的语义信息相关联。
5.根据权利要求4所述的用于跨境旅游的标志物机器学习识别方法,其特征在于,在确定了新的标志物图片的模糊类别和具体类别之后时,将该标志物图片更新到与其模糊类别对应的正分类样本集。
6.一种用于跨境旅游的标志物机器学习识别系统,包括移动终端和服务器;
所述移动终端拍摄标志物,将待识别的标志物图片上传给服务器;所述服务器基于机器学习训练识别该标志物图片的语义信息,生成表达该语义信息的含义文字,并将含义文字反馈给移动终端;
其中,所述服务器具体包括:模糊辨识器、分类识别器、标志物样本集库、语义识别器以及文字转换器;
所述模糊辨识器通过机器学习训练后的,根据标志物图片,确定该标志物所属的模糊类别;
所述分类识别器的数目与模糊类别的数目对应,分类识别器经过机器学习训练,根据标志物图片确定该标志物图片在本模糊类别中所属的具体分类;
所述语义识别器的数目与具体分类的数目对应,所述语义识别器对所述待识别的标志物图片进行识别,确定该标志物图片的语义信息;
所述标志物样本集库用于收集和提供训练所述模糊辨识器、分类识别器、以及语义识别器的标志物样本集;
所述文字转换器用于根据所述语义信息输出该标志物图片的含义文字。
7.根据权利要求6所述的用于跨境旅游的标志物机器学习识别系统,其特征在于,所述模糊辨识器采用如下方式训练:选取一定数量的标志物样本,所述标志物样本具有预设数目个模糊类别,将各标志物样本按照所述模糊类别归类后组成标志物样本集;对所述标志物样本集进行增强,得到增强后标志物样本集;基于所述增强后的标志物样本集对模糊辨识器进行训练。
8.根据权利要求7所述的用于跨境旅游的标志物机器学习识别系统,其特征在于,所述分类识别器采用如下方式训练:获取预设数目的、携带有某一具体分类注释、且按照所述模糊类别归类后的标志物样本组成的正分类样本集,以及由非本具体分类的样本组成的负分类样本集;对所述正分类样本集进行增强,得到增强后正分类样本集;利用所述增强后正分类样本集、所述负分类样本集对分类识别器分别训练。
9.根据权利要求8所述的用于跨境旅游的标志物机器学习识别系统,其特征在于,所述语义识别器包括卷积神经网络CNN,双向循环神经网络CRNN和转录层;根据所述具体分类,卷积神经网络CNN对所述标志物图片进行特征提取,得到所述标志物图片的特征序列;根据所述特征序列,所述预设双向循环神经网络CRNN以及转录层得到所述标志物图片对应的语义信息,所述预设卷积循环神经网络CRNN使得所述标志物图片的特征序列与其对应的语义信息相关联。
10.根据权利要求9所述的用于跨境旅游的标志物机器学习识别系统,其特征在于,标志物样本集库在确定了新的标志物图片的模糊类别和具体类别之后时,将该标志物图片更新到与其模糊类别对应的正分类样本集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910595808.1A CN110472655B (zh) | 2019-07-03 | 2019-07-03 | 一种用于跨境旅游的标志物机器学习识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910595808.1A CN110472655B (zh) | 2019-07-03 | 2019-07-03 | 一种用于跨境旅游的标志物机器学习识别系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110472655A true CN110472655A (zh) | 2019-11-19 |
CN110472655B CN110472655B (zh) | 2020-09-11 |
Family
ID=68507352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910595808.1A Active CN110472655B (zh) | 2019-07-03 | 2019-07-03 | 一种用于跨境旅游的标志物机器学习识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110472655B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310868A (zh) * | 2020-03-13 | 2020-06-19 | 厦门大学 | 一种基于卷积神经网络的水书手写文字识别方法 |
CN111709357A (zh) * | 2020-06-12 | 2020-09-25 | 北京百度网讯科技有限公司 | 识别目标区域的方法、装置、电子设备和路侧设备 |
WO2022029514A1 (en) * | 2020-08-04 | 2022-02-10 | International Business Machines Corporation | Class-dependent machine learning based inferences |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103186634A (zh) * | 2011-12-31 | 2013-07-03 | 无锡物联网产业研究院 | 一种智能交通监控视频的检索方法及装置 |
CN103366190A (zh) * | 2013-07-26 | 2013-10-23 | 中国科学院自动化研究所 | 一种识别交通标志的方法 |
WO2015149009A1 (en) * | 2014-03-27 | 2015-10-01 | Georgia Tech Research Corporation | Systems and methods for identifying traffic control devices and testing the retroreflectivity of the same |
CN106022300A (zh) * | 2016-06-02 | 2016-10-12 | 中国科学院信息工程研究所 | 基于级联深度学习的交通标志识别方法和系统 |
CN108009518A (zh) * | 2017-12-19 | 2018-05-08 | 大连理工大学 | 一种基于快速二分卷积神经网络的层次化交通标识识别方法 |
US9984471B2 (en) * | 2016-07-26 | 2018-05-29 | Intuit Inc. | Label and field identification without optical character recognition (OCR) |
CN108230190A (zh) * | 2018-04-12 | 2018-06-29 | 苍南斯尤电子科技有限公司 | 一种基于互联网的智能旅游管理系统 |
CN108363957A (zh) * | 2018-01-19 | 2018-08-03 | 成都考拉悠然科技有限公司 | 基于级联网络的交通标志检测与识别方法 |
CN108827275A (zh) * | 2018-06-08 | 2018-11-16 | 苏州经贸职业技术学院 | 旅游导航方法和系统 |
-
2019
- 2019-07-03 CN CN201910595808.1A patent/CN110472655B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103186634A (zh) * | 2011-12-31 | 2013-07-03 | 无锡物联网产业研究院 | 一种智能交通监控视频的检索方法及装置 |
CN103366190A (zh) * | 2013-07-26 | 2013-10-23 | 中国科学院自动化研究所 | 一种识别交通标志的方法 |
WO2015149009A1 (en) * | 2014-03-27 | 2015-10-01 | Georgia Tech Research Corporation | Systems and methods for identifying traffic control devices and testing the retroreflectivity of the same |
CN106022300A (zh) * | 2016-06-02 | 2016-10-12 | 中国科学院信息工程研究所 | 基于级联深度学习的交通标志识别方法和系统 |
US9984471B2 (en) * | 2016-07-26 | 2018-05-29 | Intuit Inc. | Label and field identification without optical character recognition (OCR) |
CN108009518A (zh) * | 2017-12-19 | 2018-05-08 | 大连理工大学 | 一种基于快速二分卷积神经网络的层次化交通标识识别方法 |
CN108363957A (zh) * | 2018-01-19 | 2018-08-03 | 成都考拉悠然科技有限公司 | 基于级联网络的交通标志检测与识别方法 |
CN108230190A (zh) * | 2018-04-12 | 2018-06-29 | 苍南斯尤电子科技有限公司 | 一种基于互联网的智能旅游管理系统 |
CN108827275A (zh) * | 2018-06-08 | 2018-11-16 | 苏州经贸职业技术学院 | 旅游导航方法和系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310868A (zh) * | 2020-03-13 | 2020-06-19 | 厦门大学 | 一种基于卷积神经网络的水书手写文字识别方法 |
CN111709357A (zh) * | 2020-06-12 | 2020-09-25 | 北京百度网讯科技有限公司 | 识别目标区域的方法、装置、电子设备和路侧设备 |
CN111709357B (zh) * | 2020-06-12 | 2023-07-28 | 阿波罗智联(北京)科技有限公司 | 识别目标区域的方法、装置、电子设备和路侧设备 |
WO2022029514A1 (en) * | 2020-08-04 | 2022-02-10 | International Business Machines Corporation | Class-dependent machine learning based inferences |
Also Published As
Publication number | Publication date |
---|---|
CN110472655B (zh) | 2020-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021135193A1 (zh) | 一种基于视觉对象引导的社交媒体短文本命名实体识别方法 | |
CN106022300B (zh) | 基于级联深度学习的交通标志识别方法和系统 | |
CN107729309B (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN104573669B (zh) | 图像物体检测方法 | |
CN110263324A (zh) | 文本处理方法、模型训练方法和装置 | |
CN108595708A (zh) | 一种基于知识图谱的异常信息文本分类方法 | |
CN106407333A (zh) | 基于人工智能的口语查询识别方法及装置 | |
US20230087292A1 (en) | Data annotation method and apparatus, and fine-grained recognition method and apparatus | |
CN110472655A (zh) | 一种用于跨境旅游的标志物机器学习识别系统及方法 | |
CN108804608A (zh) | 一种基于层次attention的微博谣言立场检测方法 | |
CN109829499A (zh) | 基于同一特征空间的图文数据融合情感分类方法和装置 | |
CN110210036A (zh) | 一种意图识别方法及装置 | |
CN115860152B (zh) | 一种面向人物军事知识发现的跨模态联合学习方法 | |
CN111221961A (zh) | 一种基于s-lstm模型与槽值门的说话人意图识别系统及方法 | |
CN113901228A (zh) | 融合领域知识图谱的跨境民族文本分类方法及装置 | |
CN109657096A (zh) | 一种基于低学龄教学音视频的辅助统计报告生成方法 | |
CN115187910A (zh) | 视频分类模型训练方法、装置、电子设备及存储介质 | |
CN116304042A (zh) | 一种基于多模态特征自适应融合的虚假新闻检测方法 | |
CN113255360A (zh) | 基于层次化自注意力网络的文档评级方法和装置 | |
CN114548099A (zh) | 基于多任务框架的方面词和方面类别联合抽取和检测方法 | |
CN110633689B (zh) | 基于半监督注意力网络的人脸识别模型 | |
Al-Obodi et al. | A Saudi Sign Language recognition system based on convolutional neural networks | |
CN118038139A (zh) | 一种基于大模型微调的多模态小样本图像分类方法 | |
CN117454987B (zh) | 基于事件自动抽取的矿山事件知识图谱构建方法及装置 | |
WO2022252089A1 (zh) | 对象检测模型的训练方法、对象检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |