CN108287816B - 兴趣点在线检测、机器学习分类器训练方法和装置 - Google Patents
兴趣点在线检测、机器学习分类器训练方法和装置 Download PDFInfo
- Publication number
- CN108287816B CN108287816B CN201710016323.3A CN201710016323A CN108287816B CN 108287816 B CN108287816 B CN 108287816B CN 201710016323 A CN201710016323 A CN 201710016323A CN 108287816 B CN108287816 B CN 108287816B
- Authority
- CN
- China
- Prior art keywords
- interest
- interest point
- machine learning
- keywords
- learning classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Remote Sensing (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种兴趣点在线检测、机器学习分类器训练方法和装置,兴趣点在线检测方法包括:获取从待检测兴趣点的兴趣点名称中分词得到的关键词;确定分词得到的关键词是否为属于预设的关键词集合的关键词;生成第一特征因子序列,所述第一特征因子序列与所述关键词集合中的关键词一一对应;根据所对应关键词是否为分词得到的关键词,将所述第一特征因子序列中的第一特征因子取不同的值,得到包括所述第一特征因子序列的特征向量;通过机器学习分类器并根据所述特征向量判断所述待检测兴趣点是否属于预设类别。本发明在保证一定正确率的情况下显著提高了兴趣点在线检测效率。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及地图兴趣点处理技术领域,尤其涉及一种兴趣点在线检测、机器学习分类器训练方法和装置。
背景技术
兴趣点(POI,Point of Interest)用于在地图上标识特定位置处的对象,如政府机构、商业机构、旅游景点或者交通设施等。兴趣点通常会发生变化,而地图服务的提供者通常难以维护所有兴趣点,因此需要其它用户或机构自主编辑兴趣点。
地图上某些对象属于预设类别,如涉密对象,不宜在地图上标示,如军事设施等。而兴趣点编辑者有时会将标识该涉密对象的兴趣点提交,从而有可能导致泄密。而为了发现属于预设类别的兴趣点,就需要人工对兴趣点进行检测,从而对发现的兴趣点进行处理,如对涉密兴趣点进行下线处理。
然而,兴趣点数量庞大,而且不断更新,人工检测兴趣点需要占用大量人力资源,且人工效率比较低,导致人工检测兴趣点效率很低。
发明内容
基于此,有必要针对目前人工检测兴趣点效率很低的问题,提供一种兴趣点在线检测、机器学习分类器训练方法和装置。
一种兴趣点在线检测方法,包括:
获取从待检测兴趣点的兴趣点名称中分词得到的关键词;
确定分词得到的关键词是否为属于预设的关键词集合的关键词;
生成第一特征因子序列,所述第一特征因子序列与所述关键词集合中的关键词一一对应;
根据所对应关键词是否为分词得到的关键词,将所述第一特征因子序列中的第一特征因子取不同的值,得到包括所述第一特征因子序列的特征向量;
通过机器学习分类器并根据所述特征向量判断所述待检测兴趣点是否属于预设类别。
一种兴趣点在线检测装置,包括:
关键词处理模块,用于获取从待检测兴趣点的兴趣点名称中分词得到的关键词;确定分词得到的关键词是否为属于预设的关键词集合的关键词;
特征向量生成模块,用于生成第一特征因子序列,所述第一特征因子序列与所述关键词集合中的关键词一一对应;根据所对应关键词是否为分词得到的关键词,将所述第一特征因子序列中的第一特征因子取不同的值,得到包括所述第一特征因子序列的特征向量;
检测模块,用于通过机器学习分类器并根据所述特征向量判断所述待检测兴趣点是否属于预设类别。
上述兴趣点在线检测方法和装置,检测所用的特征向量中,第一特征因子与预设的关键词集合中的关键词一一对应,且第一特征因子因属于或者不属于相应的兴趣点名称而取不同的值。于是特征向量可以反映出相应兴趣点名称是否包括关键词集合中的关键词的信息,还可以反映出相应兴趣点名称所包括的关键词在关键词集合中的分布情况。因此机器学习分类器就可以通过训练反映出属于预设类别的兴趣点的内在特性,从而利用该机器学习分类器检测待检测兴趣点是否属于预设类别,在保证一定正确率的情况下显著提高了兴趣点在线检测效率。
一种用于兴趣点在线检测的机器学习分类器训练方法,包括:
获取兴趣点样本集合中的兴趣点样本;
获取从所述兴趣点样本的兴趣点名称中分词得到的关键词;
确定分词得到的关键词是否为属于预设的关键词集合的关键词;
生成第一特征因子序列,所述第一特征因子序列与所述关键词集合中的关键词一一对应;
根据所对应关键词是否为分词得到的关键词,将所述第一特征因子序列中的第一特征因子取不同的值,得到包括所述第一特征因子序列的特征向量;
根据所述特征向量训练机器学习分类器。
一种用于兴趣点在线检测的机器学习分类器训练装置,包括:
关键词处理模块,用于获取兴趣点样本集合中的兴趣点样本;获取从所述兴趣点样本的兴趣点名称中分词得到的关键词;确定分词得到的关键词是否为属于预设的关键词集合的关键词;
特征向量生成模块,用于生成第一特征因子序列,所述第一特征因子序列与所述关键词集合中的关键词一一对应;根据所对应关键词是否为分词得到的关键词,将所述第一特征因子序列中的第一特征因子取不同的值,得到包括所述第一特征因子序列的特征向量;
训练模块,用于根据所述特征向量训练机器学习分类器。
上述用于兴趣点在线检测的机器学习分类器训练方法和装置,训练所用的特征向量中,第一特征因子与预设的关键词集合中的关键词一一对应,且第一特征因子因属于或者不属于相应的兴趣点名称而取不同的值。于是特征向量可以反映出相应兴趣点名称是否包括关键词集合中的关键词的信息,还可以反映出相应兴趣点名称所包括的关键词在关键词集合中的分布情况。因此机器学习分类器就可以通过训练反映出属于预设类别的兴趣点的内在特性,将该机器学习分类器用于兴趣点在线检测时,就可以在保证一定正确率的情况下显著提高了兴趣点在线检测效率。
附图说明
图1为一个实施例中兴趣点在线检测方法的应用环境图;
图2为一个实施例中服务器的内部结构示意图;
图3为一个实施例中兴趣点在线检测方法的流程示意图;
图4为一个实施例中生成与待检测兴趣点相应的特征向量,特征向量包括与关键词集合中的关键词一一对应的第一特征因子,且第一特征因子在相应的关键词是或者不是分词得到的关键词时分别取不同的值的流程示意图;
图5为一个实施例中构建兴趣点样本集合以训练机器学习分类器的步骤的流程示意图;
图6为一个实施例中根据兴趣点样本集合训练机器学习分类器的步骤的流程示意图;
图7为一个实施例中筛选出最大的分类预测正确率并获取相应的参数取值,并根据获取的参数取值和兴趣点样本集合训练机器学习分类器的步骤的流程示意图;
图8为一个实施例中根据离散参数取值集合中的每个参数取值和兴趣点样本子集,训练与每个参数取值相应的机器学习分类器,并获得相应参数取值所对应机器学习分类器的分类预测正确率的步骤的流程示意图;
图9为一个实施例中用于兴趣点在线检测的机器学习分类器训练方法的流程示意图;
图10为一个实施例中生成与兴趣点样本相应的特征向量,特征向量包括与关键词集合中的关键词一一对应的第一特征因子,且第一特征因子在相应的关键词是或者不是分词得到的关键词时分别取不同的值的步骤的流程示意图;
图11为一个实施例中生成兴趣点样本集合的步骤的流程示意图;
图12为一个实施例中根据与兴趣点样本相应的特征向量训练机器学习分类器的步骤的流程示意图;
图13为一个实施例中筛选出最大的分类预测正确率并获取相应的参数取值,并根据获取的参数取值和兴趣点样本集合训练机器学习分类器的步骤的流程示意图;
图14为一个实施例中根据离散参数取值集合中的每个参数取值和兴趣点样本子集,训练与每个参数取值相应的机器学习分类器,并获得相应参数取值所对应机器学习分类器的分类预测正确率的步骤的流程示意图;
图15为一个实施例中兴趣点在线检测装置的结构框图;
图16为另一个实施例中兴趣点在线检测装置的结构框图;
图17为一个实施例中用于兴趣点在线检测的机器学习分类器训练装置的结构框图;
图18为一个实施例中用于兴趣点在线检测的机器学习分类器训练装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中兴趣点在线检测方法的应用环境图。参照图1,该兴趣点在线检测方法应用于兴趣点在线检测系统,该兴趣点在线检测系统包括兴趣点源设备110、兴趣点检测服务器120和地图服务器130。兴趣点检测服务器120可通过网络分别与兴趣点源设备110和地图服务器130连接。其中,兴趣点源设备110可以是终端或者另一个服务器。兴趣点源设备110作为兴趣点的来源,可向兴趣点检测服务器120提供兴趣点,兴趣点检测服务器120则可将兴趣点源设备110所提供的兴趣点作为待检测兴趣点,并针对该待检测兴趣点执行一种兴趣点在线检测方法,判断待检测兴趣点是否属于预设类别。兴趣点检测服务器120可在待检测兴趣点被判断为不属于预设类别时通知地图服务器130将待检测兴趣点上线,从而允许该待检测兴趣点在由地图服务器130提供的地图上显示。兴趣点检测服务器可在待检测兴趣点被判断为属于预设类别时拒绝通知地图服务器130将待检测兴趣点上线,从而拒绝该待检测兴趣点在由地图服务器130提供的地图上显示。其中兴趣点检测服务器120和地图服务器130可以是同一服务器。
图2为一个实施例中服务器的内部结构示意图,该服务器可作为图1中的兴趣点检测服务器120和地图服务器130。参照图2,该服务器包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中,该服务器的非易失性存储介质存储有操作系统和数据库,还包括兴趣点在线检测装置和/或用于兴趣点在线检测的机器学习分类器训练装置。数据库可用于存储预设的关键词集合。该兴趣点在线检测装置用于实现一种兴趣点在线检测方法。用于兴趣点在线检测的机器学习分类器训练装置用于实现一种用于兴趣点在线检测的机器学习分类器训练方法。该服务器的处理器用于提供计算和控制能力,支撑整个服务器的运行。该服务器的内存储器为非易失性存储介质中的兴趣点在线检测装置和/或用于兴趣点在线检测的机器学习分类器训练装置的运行提供环境,该内存储器中可储存有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种兴趣点在线检测方法。该服务器的网络接口用于据以与外部进行网络通信,如接收兴趣点。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的服务器的限定,具体的服务器可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
图3为一个实施例中兴趣点在线检测方法的流程示意图。本实施例主要以该方法应用于上述图1中的兴趣点检测服务器120来举例说明。参照图3,该兴趣点在线检测方法具体包括如下步骤:
S302,获取从待检测兴趣点的兴趣点名称中分词得到的关键词。
其中,待检测兴趣点是需要检测其是否属于预设类别的兴趣点。一个兴趣点可以包括兴趣点名称、位置坐标以及兴趣点名称的分词结果。位置坐标包括经度和纬度。兴趣点也可以称为信息点。
兴趣点在线检测方法可用于检测待检测兴趣点是否属于涉密兴趣点。而涉密兴趣点是指含有需要保密的信息的兴趣点,该需要保密的信息是在指定的保密需求下能够唯一确定其是否需要保密的信息。指定的保密需求如按照法律、法规或约定需要对指定信息进行保密的需求。需要保密的信息可以包含在兴趣点名称和兴趣点所携带的位置坐标中。
具体地,兴趣点检测服务器可获取待检测兴趣点的兴趣点名称,对该兴趣点名称进行分词,获得一个或者多个关键词。其中,关键词是具有单独语义的词。兴趣点检测服务器可根据兴趣点名称的语言种类,选择相应的分词算法,采用该分词算法对兴趣点名称进行分词。
进一步地,对兴趣点名称分词可采用基于字符串匹配的分词算法、基于语义分析的分词算法或者基于统计的分词算法。基于字符串匹配的分词算法如正向最大匹配算法、逆向最大匹配算法、最少切分算法或者双向最大匹配算法。
在一个实施例中,兴趣点检测服务器也可以获取待检测兴趣点的兴趣点名称后,对该兴趣点名称进行分词,获得一个或多个词片段,从该一个或多个词片段中过滤掉属于停用词表中的词片段,保留过滤后剩余的词片段作为关键词。停用词表包括没有实际语义的词,如单独的连词或语气助词。
在一个实施例中,兴趣点检测服务器也可以直接从待检测兴趣点所包括的分词结果中提取现成的关键词,该关键词预先从待检测兴趣点的兴趣点名称中分词得到,并作为一种属性由待检测兴趣点所携带。
举例说明,若一个待检测兴趣点的兴趣点名称为“北京大学”,将该兴趣点名称分词可得到“北京”和“大学”两个关键词,且这两个关键词可作为分词结果由该待检测兴趣点所携带。兴趣点检测服务器可在获取到待检测兴趣点后,直接从待检测兴趣点所携带的分词结果中提取“北京”和“大学”两个关键词。
S304,确定分词得到的关键词是否为属于预设的关键词集合的关键词。
其中,关键词集合是一系列关键词的集合。关键词是属于预设类别的兴趣点所具有的词。关键词可以是涉密关键词,涉密关键词是会导致需要保密的信息被泄露的敏感词,如政府机关名称或军事设施名称等。
具体地,兴趣点检测服务器可将分词得到的关键词与关键词集合中的每个关键词比较。若比较结果为一致,则判定该分词得到的关键词为关键词,也就是关键词集合中的相应关键词属于待检测兴趣点的兴趣点名称。若比较结果为不一致,则判定该分词得到的关键词不是关键词。
而且,当关键词集合中至少一个关键词属于待检测兴趣点的兴趣点名称时,该待检测兴趣点属于预设类别的概率相对较大。当关键词集合中的关键词均不属于待检测兴趣点的兴趣点名称时,该待检测兴趣点属于预设类别的概率相对较小。
S306,生成第一特征因子序列,第一特征因子序列与关键词集合中的关键词一一对应。
S307,根据所对应关键词是否为分词得到的关键词,将第一特征因子序列中的第一特征因子取不同的值,得到包括第一特征因子序列的特征向量。
其中,与待检测兴趣点相应的特征向量,是表征该待检测兴趣点的特征的向量。特征向量至少包括按序排列的第一特征因子构成的第一特征因子序列,该第一特征因子的数量与关键词集合中关键词的数量相等。特征向量中的每个第一特征因子分别对应关键词集合中的一个关键词。
进一步地,在与待检测兴趣点相应的特征向量中,对应于不属于待检测兴趣点的兴趣点名称的关键词的第一特征因子,其值为第一值;对应于属于待检测兴趣点的兴趣点名称的关键词的第一特征因子,其值为第二值。
举例说明,假设关键词共包含200个关键词,则与待检测兴趣点相应的特征向量包括200个相应的第一特征因子。且200个第一特征因子中,若对应的关键词未出现在待检测兴趣点的兴趣点名称中,则相应的第一特征因子取0;若对应的关键词出现在待检测兴趣点的兴趣点名称中,则相应的第一特征因子取1。
S308,通过机器学习分类器并根据特征向量判断待检测兴趣点是否属于预设类别。
其中,机器学习分类器是经过训练后具有分类能力的机器学习算法模型。机器学习英文全称为Machine Learning,简称ML。机器学习分类器可通过样本学习具备分类能力,本实施例的机器学习分类器用于将由多维度特征表征的待检测资源地址划分到恶意资源地址和非恶意资源地址中的一类。非恶意资源地址是不指向恶意资源的资源地址。机器学习分类器可以采用SVM(Support Vector Machine,支持向量机)分类器、贝叶斯分类器或者神经网络模型等。实践中采用SVM分类器在检测兴趣点时可以达到很高的正确率。
具体地,兴趣点样本是在训练机器学习分类器时所需的已知是否属于预设类别的兴趣点。在线下训练时,生成与兴趣点样本相应的特征向量,该特征向量和与待检测兴趣点相应的特征向量形式相同。根据与兴趣点样本相应的特征向量训练机器学习分类器,使得该机器学习分类器具备判断输入的特征向量所对应的待检测兴趣点是否属于预设类别的能力。在线上应用时,兴趣点检测服务器将与待检测兴趣点相应的特征向量输入机器学习分类器,通过机器学习分类器的计算后输出属于或者不属于预设类别的判断结果。
上述兴趣点在线检测方法,检测所用的特征向量中,第一特征因子与预设的关键词集合中的关键词一一对应,且第一特征因子因属于或者不属于相应的兴趣点名称而取不同的值。于是特征向量可以反映出相应兴趣点名称是否包括关键词集合中的关键词的信息,还可以反映出相应兴趣点名称所包括的关键词在关键词集合中的分布情况。因此机器学习分类器就可以通过训练反映出属于预设类别的兴趣点的内在特性,从而利用该机器学习分类器检测待检测兴趣点是否属于预设类别,在保证一定正确率的情况下显著提高了兴趣点在线检测效率。
图4为一个实施例中步骤S307的流程示意图。参照图4,步骤S307具体包括如下步骤:
S402,将第一特征因子序列中的第一特征因子初始化为第一值。
具体地,兴趣点检测服务器先初始化第一特征因子序列,该第一特征因子序列包括的第一特征因子与关键词集合中的关键词一一对应,且均被初始化为第一值,如初始化为0。
S404,在第一特征因子序列中,将所对应关键词为分词得到的关键词的第一特征因子,置为与第一值不同的第二值。
S406,生成包括第一特征因子序列的特征向量。
具体地,兴趣点检测服务器根据步骤S304中确定的属于预设的关键词集合的关键词,将初始化的第一特征因子序列中相应的第一特征因子置为第二值,如置为1。第二值与第一值不同。
举例说明,假设关键词共包含200个关键词,则与待检测兴趣点相应的特征向量包括200个相应的第一特征因子,且200个第一特征因子的值均被初始化为0。若待检测兴趣点的兴趣点名称中包括一个关键词,则该关键词所对应的第一特征因子被置为1,从而构成与待检测兴趣点相应的特征向量。
本实施例中,由于在关键词集合中,未出现于兴趣点名称中的关键词远多于出现于兴趣点名称中的关键词,第一特征因子先初始化为第一值,再在相应的关键词属于兴趣点名称时置为第二值,可以更高效地生成特征向量,进而更高些地进行兴趣点在线检测。
在一个实施例中,步骤S307包括:按照第一特征因子序列中第一特征因子的排序顺序,依次为每个第一特征因子赋值得到与待检测兴趣点相应的特征向量。且在赋值时:若对应的关键词不是分词得到的关键词,则赋值第一值;若对应的关键词是分词得到的关键词,则赋值第二值。
在一个实施例中,特征向量还包括:表征相应兴趣点名称的长度的第二特征因子;和/或,表征相应兴趣点的模糊位置的第三特征因子;和/或,表征相应兴趣点的来源的第四特征因子。
具体地,第一、第二、第三以及第四特征因子分别用于表征相应兴趣点在不同维度的特征。每个特征向量的第一、第二、第三以及第四特征因子按照统一的顺序在特征向量中排列。对于与待检测兴趣点相应的特征向量,相应的兴趣点为待检测兴趣点;对于与兴趣点样本相应的特征向量,相应的兴趣点为兴趣点样本。
其中第一特征因子主要表征相应兴趣点名称中关键词的特征。第二特征因子表征相应兴趣点名称的长度。
第三特征因子表征相应兴趣点的模糊位置,表示的是根据相应兴趣点的位置坐标所扩展出的位置范围。具体可以将位置坐标所包括的经度和纬度的精度降低作为模糊位置,或者将位置坐标所包括的经度和纬度中的至少一者除以大于1的实数。其中将经度和纬度除以大于1的实数,可以让精度和纬度之间的差距减小,从而扩大了相应兴趣点所覆盖的位置范围。
第四特征因子表征兴趣点的来源,可用不同的数值代表不同的来源。兴趣点的来源比如地图提供方、地图用户、地图提供方的合作方或者网络来源。
本实施例中,除了利用兴趣点名称中的关键词是否属于涉及关键词集合这一维度,还利用兴趣点名称的长度、兴趣点位置以及兴趣点来源等多个维度综合构建特征向量,使得特征向量能够更好地表征相应兴趣点的特征,从而进一步提高兴趣点在线检测的正确率。
在一个实施例中,步骤S307包括:根据所对应关键词是否为分词得到的关键词,将第一特征因子序列中的第一特征因子取不同的值后,将第一特征因子、第二特征因子、第三特征因子以及第四特征因子分别进行归一化后,将归一化后的第一特征因子、第二特征因子、第三特征因子以及第四特征因子构成特征向量。
其中归一化是将有量纲的表达式经过变换,化为无量纲的表达式。不同的特征因子可采用不同的归一化方式。数量级较大的可采用取对数方式进行归一化,数量级较小的可采用线性函数归一化。数量级较大或者较小,是可以通过比较第一特征因子、第二特征因子、第三特征因子以及第四特征因子的数量级确定的。线性函数归一化,具体可将原值减去最小值作为第一差,将最大值减去原值作为第二差,将第一差除以第二差得到归一化后的值。
本实施例中,对各特征因子分别进行归一化后构成特征向量,可更加明显地反映出不同兴趣点的特征,从而使得特征向量能够更好地表征相应兴趣点的特征,从而进一步提高兴趣点在线检测的正确率。
如图5所示,在一个实施例中,在步骤S302之前,该兴趣点在线检测方法还包括:构建兴趣点样本集合以训练机器学习分类器的步骤,具体包括如下步骤:
S502,获取已知属于预设类别的兴趣点的第一兴趣点样本。
具体地,兴趣点检测服务器可获取已确定为属于预设类别第一兴趣点样本,该第一兴趣点样本为正样本。
S504,获取已知不属于预设类别的兴趣点、且相应兴趣点名称中存在关键词集合中的关键词的第二兴趣点样本。
具体地,兴趣点检测服务器可获取作为负样本的第二兴趣点样本,该第二兴趣点样本的兴趣点名称中存在关键词集合中的关键词。
S506,获取已知不属于预设类别的兴趣点、且相应兴趣点名称中不存在关键词集合中的关键词的第三兴趣点样本。
具体地,兴趣点检测服务器可获取作为负样本的第三兴趣点样本,该第三兴趣点样本的兴趣点名称中不存在关键词集合中的关键词。
S508,将第一兴趣点样本、第二兴趣点和第三兴趣点样本混合获得兴趣点样本集合。
具体地,兴趣点检测服务器可将作为正样本的第一兴趣点样本,以及作为负样本的第二兴趣点和第三兴趣点样本进行混合,得到包括正样本和负样本的兴趣点样本集合。混合时可采用随机混合。
S510,根据与兴趣点样本集合中的兴趣点样本相应的特征向量训练机器学习分类器。
具体地,涉及检测服务器可生成与兴趣点样本集合中的兴趣点样本相应的特征向量,从而根据与兴趣点样本相应的特征向量训练机器学习分类器。
本实施例中,兴趣点样本包括正样本和负样本,负样本则包括存在和不存在关键词集合中关键词的情况,利用这样的兴趣点样本集合训练出的机器学习分类器能够学习到更加准确的分类规则,从而可以进一步提高兴趣点在线检测的正确率。
在一个实施例中,在步骤S302之前,该兴趣点在线检测方法还包括根据兴趣点样本集合训练机器学习分类器的步骤。参照图6,该根据兴趣点样本集合训练机器学习分类器的步骤具体包括如下步骤:
S602,获取兴趣点样本集合。
具体地,兴趣点检测服务器具体可通过上述步骤S502至步骤S508获取兴趣点样本集合。下述步骤S604至步骤S610包括于上述步骤S510。
S604,从兴趣点样本集合中选取兴趣点样本子集。
具体地,兴趣点检测服务器可从兴趣点样本集合中随机选择少量兴趣点样本构成兴趣点样本子集。兴趣点样本子集是兴趣点样本集合的子集。兴趣点样本子集中兴趣点样本的数量可以是预设数量,也可以是预设比例与兴趣点样本集合中兴趣点样本总数的乘积。
S606,获取机器学习分类器的离散参数取值集合。
其中,离散参数取值集合是若干离散的参数取值构成的集合。参数取值是训练机器学习分类器所需参数的取值。兴趣点检测服务器具体可按照第一步长,在连续参数取值范围中采样,获得一系列的离散参数取值,以构成离散参数取值集合。若机器学习分类器包括多个需要学习的参数,则兴趣点检测服务器可获取与每个参数对应的离散参数取值集合。若机器学习分类器采用SVM分类器,则参数比如惩罚系数。
S608,根据离散参数取值集合中的每个参数取值和兴趣点样本子集,训练与每个参数取值相应的机器学习分类器,并获得相应参数取值所对应机器学习分类器的分类预测正确率。
具体地,兴趣点检测服务器可遍历离散参数取值集合中的每个参数取值,利用当前遍历的参数取值和兴趣点样本子集训练机器学习分类器,并获得该机器学习分类器对应的分类预测正确率,直至遍历完离散参数取值集合中的所有参数取值。
进一步地,兴趣点检测服务器可将兴趣点样本子集划分为训练集和测试集,遍历离散参数取值集合中的每个参数取值,利用当前遍历的参数取值和训练集训练机器学习分类器,并利用训练的机器学习分类器对测试集进行预测,获取测试集已知的分类结果,将预测得到的预测结果与已知的分类结果比较,得到相应机器学习分类器的分类预测正确率。
S610,筛选出最大的分类预测正确率并获取相应的参数取值,并根据获取的参数取值和兴趣点样本集合训练机器学习分类器。
具体地,兴趣点检测服务器可将S608中获得的分类预测正确率进行比较,找出其中最大的分类预测正确率,获取训练该最大的分类预测正确率的机器学习分类器所用的参数取值,从而利用获取的参数取值以及兴趣点样本集合继续训练机器学习分类器。
本实施例中,先从兴趣点样本集合中选取兴趣点样本子集,利用兴趣点样本子集快速找出合适的参数取值,从而利用该参数取值以及兴趣点样本集合进行训练,可提高训练机器学习分类器的效率。
如图7所示,在一个实施例中,步骤S610包括以下步骤:
S702,筛选出最大的分类预测正确率所对应的参数取值。
S704,根据筛选出的参数取值确定参数取值扩展集合。
具体地,假设筛选出的参数取值为u,则兴趣点检测服务器可将u朝小于u和大于u的两个方向分别扩展预设长度L,得到连续参数取值范围[u-L,u+L]。连续参数取值范围是相应的连续参数取值范围的子集。兴趣点检测服务器按照小于第一步长的第二步长,从连续参数取值范围中采样,得到一系列的参数取值,该一系列的参数取值构成参数取值扩展集合。
S706,根据参数取值扩展集合中的每个参数取值和兴趣点样本子集,再次训练与每个参数取值相应的机器学习分类器,并获得相应参数取值所对应机器学习分类器的分类预测正确率。
具体地,兴趣点检测服务器可遍历参数取值扩展集合中的每个参数取值,利用当前遍历的参数取值和兴趣点样本子集训练机器学习分类器,并获得该机器学习分类器对应的分类预测正确率,直至遍历完参数取值扩展集合中的所有参数取值。
进一步地,兴趣点检测服务器可将兴趣点样本子集划分为训练集和测试集,遍历参数取值扩展集合中的每个参数取值,利用当前遍历的参数取值和训练集训练机器学习分类器,并利用训练的机器学习分类器对测试集进行预测,获取测试集已知的分类结果,将预测得到的预测结果与已知的分类结果比较,得到相应机器学习分类器的分类预测正确率。
S708,从再次训练获得的分类预测正确率中挑选最大的分类预测正确率。
S710,根据挑选出的分类预测正确率所对应的参数取值和兴趣点样本集合训练机器学习分类器。
具体地,兴趣点检测服务器可将S706中获得的分类预测正确率进行比较,找出其中最大的分类预测正确率,获取训练该最大的分类预测正确率的机器学习分类器所用的参数取值,从而利用获取的参数取值以及兴趣点样本集合继续训练机器学习分类器。
本实施例中,先利用兴趣点样本子集在离散参数取值集合中粗略定位参数取值,再在参数取值扩展集合中精确定位参数取值,可以尽可能找到最合适的参数取值,从而利用该参数取值以及兴趣点样本集合进行训练,训练出的机器学习分类器在用于兴趣点在线检测时可以达到更高的正确率。
参照图8,步骤S608具体包括如下步骤:
S802,从兴趣点样本子集划分出至少三份的兴趣点样本。
具体地,兴趣点检测服务器可将兴趣点样本子集随机或者平均划分为N份兴趣点样本。其中N为大于等于3的正整数。
S804,轮次将划分出的其中一份兴趣点样本作为测试集,并将划分出的其它份兴趣点样本分别作为训练集。
举例说明,假设N为3,每份兴趣点样本分别记为N1,N2以及N3,则兴趣点检测服务器可依次将N1,N2和N3分别作为测试集。且在将N1作为测试集时,将N2和N3作为2个训练集。在将N2作为测试集时,将N1和N3作为2个训练集。在将N3作为测试集时,将N1和N2作为2个训练集。
S806,根据离散参数取值集合中的每个参数取值和训练集训练相应的机器学习分类器,并根据相应的测试集获得相应机器学习分类器的分类预测正确率。
具体地,兴趣点检测服务器遍历离散参数取值集合中的每个参数取值,遍历至其中一个参数取值时,利用遍历至的参数取值分别与轮次确定的训练集结合训练机器学习分类器,并利用训练出的机器学习分类器对轮次确定的测试集预测分类,得到相应机器学习分类器的分类预测正确率。
举例说明,若将N2和N3作为2个训练集,则利用遍历至的参数取值分别与N2及N3结合训练机器学习分类器,并用作为测试集的N1进行预测,获得相应机器学习分类器的分类预测正确率。以此类推。
S808,将对应相同参数取值训练出的机器学习分类器所对应的分类预测正确率平均,获得相应参数取值所对应机器学习分类器的分类预测正确率。
举例说明,对于相同的参数取值,假设将N2和N3作为训练集,N1作为测试集,相应的分类预测正确率分别为A12和A13。将N1和N3作为训练集,N2作为测试集,相应的分类预测正确率分别为A21和A23。将N1和N2作为训练集,将N3作为测试,相应的分类预测正确率分别为A31和A32。将A12、A13、A21、A23、A31和A32求平均,得到相应参数取值所对应机器学习分类器的分类预测正确率。
本实施例中,从兴趣点样本子集划分出至少三份的兴趣点样本,轮次选取测试集和样本集,利用样本集训练机器学习分类器,并利用测试集检验分类预测正确率,可以帮助找出最合适的参数取值,从而利用该参数取值以及兴趣点样本集合进行训练,训练出的机器学习分类器在用于兴趣点在线检测时可以达到更高的正确率。
如图9所示,在一个实施例中,提供了一种用于兴趣点在线检测的机器学习分类器训练方法,具体包括如下步骤:
S902,获取兴趣点样本集合中的兴趣点样本。
S904,获取从兴趣点样本的兴趣点名称中分词得到的关键词。
S906,确定分词得到的关键词是否为属于预设的关键词集合的关键词。
S908,生成第一特征因子序列,第一特征因子序列与关键词集合中的关键词一一对应。
S909,根据所对应关键词是否为分词得到的关键词,将第一特征因子序列中的第一特征因子取不同的值,得到包括第一特征因子序列的特征向量。
S910,根据与兴趣点样本相应的特征向量训练机器学习分类器。
上述用于兴趣点在线检测的机器学习分类器训练方法,训练所用的特征向量中,第一特征因子与预设的关键词集合中的关键词一一对应,且第一特征因子因属于或者不属于相应的兴趣点名称而取不同的值。于是特征向量可以反映出相应兴趣点名称是否包括关键词集合中的关键词的信息,还可以反映出相应兴趣点名称所包括的关键词在关键词集合中的分布情况。因此机器学习分类器就可以通过训练反映出属于预设类别的兴趣点的内在特性,将该机器学习分类器用于兴趣点在线检测时,就可以在保证一定正确率的情况下显著提高了兴趣点在线检测效率。
图10为一个实施例中步骤S909的流程示意图。参照图10,该步骤S909具体包括如下步骤:
S1002,将第一特征因子序列中的第一特征因子初始化为第一值。
S1004,在第一特征因子序列中,将所对应关键词为分词得到的关键词的第一特征因子,置为与第一值不同的第二值。
S1006,生成包括第一特征因子序列的特征向量。
本实施例中,由于在关键词集合中,未出现于兴趣点名称中的关键词远多于出现于兴趣点名称中的关键词,第一特征因子先初始化为第一值,再在相应的关键词属于兴趣点名称时置为第二值,可以更高效地生成特征向量,进而更高些地进行兴趣点在线检测。
在一个实施例中,步骤S909包括:按照第一特征因子序列中第一特征因子的排序顺序,依次为每个第一特征因子赋值得到与兴趣点样本相应的特征向量。且在赋值时:若对应的关键词不是分词得到的关键词,则赋值第一值;若对应的关键词是分词得到的关键词,则赋值第二值。
在一个实施例中,特征向量还包括:表征相应兴趣点名称的长度的第二特征因子;和/或,表征相应兴趣点的模糊位置的第三特征因子;和/或,表征相应兴趣点的来源的第四特征因子。
本实施例中,除了利用兴趣点名称中的关键词是否属于涉及关键词集合这一维度,还利用兴趣点名称的长度、兴趣点位置以及兴趣点来源等多个维度综合构建特征向量,使得特征向量能够更好地表征相应兴趣点的特征,从而进一步提高兴趣点在线检测的正确率。
在一个实施例中,步骤S909包括:根据所对应关键词是否为分词得到的关键词,将第一特征因子序列中的第一特征因子取不同的值后,将第一特征因子、第二特征因子、第三特征因子以及第四特征因子分别进行归一化后,将归一化后的第一特征因子、第二特征因子、第三特征因子以及第四特征因子构成特征向量。
本实施例中,对各特征因子分别进行归一化后构成特征向量,可更加明显地反映出不同兴趣点的特征,从而使得特征向量能够更好地表征相应兴趣点的特征,从而进一步提高兴趣点在线检测的正确率。
图11为一个实施例中用于兴趣点在线检测的机器学习分类器训练方法在步骤S902之前还包括的生成兴趣点样本集合的步骤的流程示意图。参照图11,该生成兴趣点样本集合的步骤包括:
S1102,获取已知属于预设类别的兴趣点的第一兴趣点样本。
S1104,获取已知不属于预设类别的兴趣点、且相应兴趣点名称中存在关键词集合中的关键词的第二兴趣点样本。
S1106,获取已知不属于预设类别的兴趣点、且相应兴趣点名称中不存在关键词集合中的关键词的第三兴趣点样本。
S1108,将第一兴趣点样本、第二兴趣点和第三兴趣点样本混合获得兴趣点样本集合。
本实施例中,兴趣点样本包括正样本和负样本,负样本则包括存在和不存在关键词集合中关键词的情况,利用这样的兴趣点样本集合训练出的机器学习分类器能够学习到更加准确的分类规则,从而可以进一步提高兴趣点在线检测的正确率。
在一个实施例中,步骤S902具体包括如下步骤:从兴趣点样本集合中选取兴趣点样本子集;获取兴趣点样本子集中的兴趣点样本。图12为一个实施例中S910的流程示意图。参照图12,步骤S910包括:
S1202,获取机器学习分类器的离散参数取值集合。
S1204,根据离散参数取值集合中的每个参数取值和兴趣点样本子集,训练与每个参数取值相应的机器学习分类器,并获得相应参数取值所对应机器学习分类器的分类预测正确率。
S1206,筛选出最大的分类预测正确率并获取相应的参数取值,并根据获取的参数取值和兴趣点样本集合训练机器学习分类器。
本实施例中,先从兴趣点样本集合中选取兴趣点样本子集,利用兴趣点样本子集快速找出合适的参数取值,从而利用该参数取值以及兴趣点样本集合进行训练,可提高训练机器学习分类器的效率。
图13为一个实施例中步骤S1206的流程示意图。参照图13,步骤S1206具体包括如下步骤:
S1302,筛选出最大的分类预测正确率所对应的参数取值。
S1304,根据筛选出的参数取值确定参数取值扩展集合。
S1306,根据参数取值扩展集合中的每个参数取值和兴趣点样本子集,再次训练与每个参数取值相应的机器学习分类器,并获得相应参数取值所对应机器学习分类器的分类预测正确率。
S1308,从再次训练获得的分类预测正确率中挑选最大的分类预测正确率。
S1310,根据挑选出的分类预测正确率所对应的参数取值和兴趣点样本集合训练机器学习分类器。
本实施例中,先利用兴趣点样本子集在离散参数取值集合中粗略定位参数取值,再在参数取值扩展集合中精确定位参数取值,可以尽可能找到最合适的参数取值,从而利用该参数取值以及兴趣点样本集合进行训练,训练出的机器学习分类器在用于兴趣点在线检测时可以达到更高的正确率。
图14为一个实施例中步骤S1204的流程示意图。参照图14,步骤S1204具体包括如下步骤:
S1402,从兴趣点样本子集划分出至少三份的兴趣点样本。
S1404,轮次将划分出的其中一份兴趣点样本作为测试集,并将划分出的其它份兴趣点样本分别作为训练集。
S1406,根据离散参数取值集合中的每个参数取值和训练集训练相应的机器学习分类器,并根据相应的测试集获得相应机器学习分类器的分类预测正确率。
S1408,将对应相同参数取值训练出的机器学习分类器所对应的分类预测正确率平均,获得相应参数取值所对应机器学习分类器的分类预测正确率。
本实施例中,从兴趣点样本子集划分出至少三份的兴趣点样本,轮次选取测试集和样本集,利用样本集训练机器学习分类器,并利用测试集检验分类预测正确率,可以帮助找出最合适的参数取值,从而利用该参数取值以及兴趣点样本集合进行训练,训练出的机器学习分类器在用于兴趣点在线检测时可以达到更高的正确率。
图15为一个实施例中兴趣点在线检测装置1500的结构框图。参照图15,兴趣点在线检测装置1500包括:关键词处理模块1501、特征向量生成模块1502和检测模块1503。
关键词处理模块1501,用于获取从待检测兴趣点的兴趣点名称中分词得到的关键词;确定分词得到的关键词是否为属于预设的关键词集合的关键词。
特征向量生成模块1502,用于生成与待检测兴趣点相应的特征向量,特征向量包括与关键词集合中的关键词一一对应的第一特征因子,且第一特征因子在相应的关键词是或者不是分词得到的关键词时分别取不同的值。
检测模块1503,用于通过机器学习分类器并根据特征向量判断待检测兴趣点是否属于预设类别。
在一个实施例中,特征向量生成模块1502还用于生成与待检测兴趣点相应且包括初始化为第一值的第一特征因子的特征向量,第一特征因子与关键词集合中的关键词一一对应;将特征向量中与分词得到的关键词一一对应的第一特征因子置为与第一值不同的第二值。
在一个实施例中,特征向量还包括:表征相应兴趣点名称的长度的第二特征因子;和/或,表征相应兴趣点的模糊位置的第三特征因子;和/或,表征相应兴趣点的来源的第四特征因子。
图16为另一个实施例中兴趣点在线检测装置1500的结构框图。参照图16,兴趣点在线检测装置1500还包括:兴趣点样本集合获取模块1504和训练模块1505。
兴趣点样本集合获取模块1504,用于获取已知属于预设类别的兴趣点的第一兴趣点样本;获取已知不属于预设类别的兴趣点、且相应兴趣点名称中存在关键词集合中的关键词的第二兴趣点样本;获取已知不属于预设类别的兴趣点、且相应兴趣点名称中不存在关键词集合中的关键词的第三兴趣点样本;将第一兴趣点样本、第二兴趣点和第三兴趣点样本混合获得兴趣点样本集合。
训练模块1505,用于根据与兴趣点样本集合中的兴趣点样本相应的特征向量训练机器学习分类器。
在一个实施例中,训练模块1505用于获取兴趣点样本集合;从兴趣点样本集合中选取兴趣点样本子集;获取机器学习分类器的离散参数取值集合;根据离散参数取值集合中的每个参数取值和兴趣点样本子集,训练与每个参数取值相应的机器学习分类器,并获得相应参数取值所对应机器学习分类器的分类预测正确率;筛选出最大的分类预测正确率并获取相应的参数取值,并根据获取的参数取值和兴趣点样本集合训练机器学习分类器。
在一个实施例中,训练模块1505还用于筛选出最大的分类预测正确率所对应的参数取值;根据筛选出的参数取值确定参数取值扩展集合;根据参数取值扩展集合中的每个参数取值和兴趣点样本子集,再次训练与每个参数取值相应的机器学习分类器,并获得相应参数取值所对应机器学习分类器的分类预测正确率;从再次训练获得的分类预测正确率中挑选最大的分类预测正确率;根据挑选出的分类预测正确率所对应的参数取值和兴趣点样本集合训练机器学习分类器。
在一个实施例中,训练模块1505还用于从兴趣点样本子集划分出至少三份的兴趣点样本;轮次将划分出的其中一份兴趣点样本作为测试集,并将划分出的其它份兴趣点样本分别作为训练集;根据离散参数取值集合中的每个参数取值和训练集训练相应的机器学习分类器,并根据相应的测试集获得相应机器学习分类器的分类预测正确率;将对应相同参数取值训练出的机器学习分类器所对应的分类预测正确率平均,获得相应参数取值所对应机器学习分类器的分类预测正确率。
上述兴趣点在线检测装置1500,检测所用的特征向量中,第一特征因子与预设的关键词集合中的关键词一一对应,且第一特征因子因属于或者不属于相应的兴趣点名称而取不同的值。于是特征向量可以反映出相应兴趣点名称是否包括关键词集合中的关键词的信息,还可以反映出相应兴趣点名称所包括的关键词在关键词集合中的分布情况。因此机器学习分类器就可以通过训练反映出属于预设类别的兴趣点的内在特性,从而利用该机器学习分类器检测待检测兴趣点是否属于预设类别,在保证一定正确率的情况下显著提高了兴趣点在线检测效率。
图17为一个实施例中用于兴趣点在线检测的机器学习分类器训练装置1700的结构框图。参照图17,用于兴趣点在线检测的机器学习分类器训练装置1700包括:关键词处理模块1701、特征向量生成模块1702和训练模块1703。
关键词处理模块1701,用于获取兴趣点样本集合中的兴趣点样本;获取从兴趣点样本的兴趣点名称中分词得到的关键词;确定分词得到的关键词是否为属于预设的关键词集合的关键词。
特征向量生成模块1702,用于生成与兴趣点样本相应的特征向量,特征向量包括与关键词集合中的关键词一一对应的第一特征因子,且第一特征因子在相应的关键词是或者不是分词得到的关键词时分别取不同的值。
训练模块1703,用于根据与兴趣点样本相应的特征向量训练机器学习分类器。
在一个实施例中,特征向量生成模块1702还用于生成与兴趣点样本相应且包括初始化为第一值的第一特征因子的特征向量,第一特征因子与关键词集合中的关键词一一对应;将特征向量中与分词得到的关键词一一对应的第一特征因子置为与第一值不同的第二值。
在一个实施例中,特征向量还包括:表征相应兴趣点名称的长度的第二特征因子;和/或,表征相应兴趣点的模糊位置的第三特征因子;和/或,表征相应兴趣点的来源的第四特征因子。
图18为一个实施例中用于兴趣点在线检测的机器学习分类器训练装置1700的结构框图。参照图18,用于兴趣点在线检测的机器学习分类器训练装置1700还包括:兴趣点样本集合获取模块1704,用于获取已知属于预设类别的兴趣点的第一兴趣点样本;获取已知不属于预设类别的兴趣点、且相应兴趣点名称中存在关键词集合中的关键词的第二兴趣点样本;获取已知不属于预设类别的兴趣点、且相应兴趣点名称中不存在关键词集合中的关键词的第三兴趣点样本;将第一兴趣点样本、第二兴趣点和第三兴趣点样本混合获得兴趣点样本集合。
在一个实施例中,关键词处理模块1701还用于从兴趣点样本集合中选取兴趣点样本子集;获取兴趣点样本子集中的兴趣点样本。
训练模块1703还用于获取机器学习分类器的离散参数取值集合;根据离散参数取值集合中的每个参数取值和兴趣点样本子集,训练与每个参数取值相应的机器学习分类器,并获得相应参数取值所对应机器学习分类器的分类预测正确率;筛选出最大的分类预测正确率并获取相应的参数取值,并根据获取的参数取值和兴趣点样本集合训练机器学习分类器。
在一个实施例中,训练模块17003还用于筛选出最大的分类预测正确率所对应的参数取值;根据筛选出的参数取值确定参数取值扩展集合;根据参数取值扩展集合中的每个参数取值和兴趣点样本子集,再次训练与每个参数取值相应的机器学习分类器,并获得相应参数取值所对应机器学习分类器的分类预测正确率;从再次训练获得的分类预测正确率中挑选最大的分类预测正确率;根据挑选出的分类预测正确率所对应的参数取值和兴趣点样本集合训练机器学习分类器。
在一个实施例中,训练模块1703还用于从兴趣点样本子集划分出至少三份的兴趣点样本;轮次将划分出的其中一份兴趣点样本作为测试集,并将划分出的其它份兴趣点样本分别作为训练集;根据离散参数取值集合中的每个参数取值和训练集训练相应的机器学习分类器,并根据相应的测试集获得相应机器学习分类器的分类预测正确率;将对应相同参数取值训练出的机器学习分类器所对应的分类预测正确率平均,获得相应参数取值所对应机器学习分类器的分类预测正确率。
上述用于兴趣点在线检测的机器学习分类器训练装置1700,训练所用的特征向量中,第一特征因子与预设的关键词集合中的关键词一一对应,且第一特征因子因属于或者不属于相应的兴趣点名称而取不同的值。于是特征向量可以反映出相应兴趣点名称是否包括关键词集合中的关键词的信息,还可以反映出相应兴趣点名称所包括的关键词在关键词集合中的分布情况。因此机器学习分类器就可以通过训练反映出属于预设类别的兴趣点的内在特性,将该机器学习分类器用于兴趣点在线检测时,就可以在保证一定正确率的情况下显著提高了兴趣点在线检测效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (22)
1.一种兴趣点在线检测方法,包括:
获取从待检测兴趣点的兴趣点名称中分词得到的关键词;
确定分词得到的关键词是否为属于预设的关键词集合的关键词;
生成第一特征因子序列,所述第一特征因子序列与所述关键词集合中的关键词一一对应;
根据所对应关键词是否为分词得到的关键词,将所述第一特征因子序列中的第一特征因子取不同的值,得到包括所述第一特征因子序列的特征向量;所述特征向量还包括表征相应兴趣点名称的长度的第二特征因子;和/或,表征相应兴趣点的模糊位置的第三特征因子;和/或,表征相应兴趣点的来源的第四特征因子;所述特征向量中所包括的特征因子均是归一化处理后的特征因子;
通过机器学习分类器并根据所述特征向量判断所述待检测兴趣点是否属于预设类别。
2.根据权利要求1所述的方法,其特征在于,所述根据所对应关键词是否为分词得到的关键词,将所述第一特征因子序列中的第一特征因子取不同的值,得到包括所述第一特征因子序列的特征向量包括:
将所述第一特征因子序列中的第一特征因子初始化为第一值;
在所述第一特征因子序列中,将所对应关键词为所述分词得到的关键词的第一特征因子,置为与所述第一值不同的第二值;
生成包括所述第一特征因子序列的特征向量。
3.根据权利要求1所述的方法,其特征在于,所述归一化处理的归一化方式包括取对数归一化和线性函数归一化。
4.根据权利要求1所述的方法,其特征在于,所述获取从待检测兴趣点的兴趣点名称中分词得到的关键词之前,所述方法还包括:
获取已知属于预设类别的兴趣点的第一兴趣点样本;
获取已知不属于预设类别的兴趣点、且相应兴趣点名称中存在所述关键词集合中的关键词的第二兴趣点样本;
获取已知不属于预设类别的兴趣点、且相应兴趣点名称中不存在所述关键词集合中的关键词的第三兴趣点样本;
将所述第一兴趣点样本、第二兴趣点和所述第三兴趣点样本混合获得兴趣点样本集合;
根据与所述兴趣点样本集合中的兴趣点样本相应的特征向量训练机器学习分类器。
5.根据权利要求1所述的方法,其特征在于,所述获取从待检测兴趣点的兴趣点名称中分词得到的关键词之前,所述方法还包括:
获取兴趣点样本集合;
从所述兴趣点样本集合中选取兴趣点样本子集;
获取机器学习分类器的离散参数取值集合;
根据所述离散参数取值集合中的每个参数取值和所述兴趣点样本子集,训练与每个参数取值相应的机器学习分类器,并获得相应参数取值所对应机器学习分类器的分类预测正确率;
筛选出最大的分类预测正确率并获取相应的参数取值,并根据获取的参数取值和所述兴趣点样本集合训练机器学习分类器。
6.一种用于兴趣点在线检测的机器学习分类器训练方法,包括:
获取兴趣点样本集合中的兴趣点样本;
获取从所述兴趣点样本的兴趣点名称中分词得到的关键词;
确定分词得到的关键词是否为属于预设的关键词集合的关键词;
生成第一特征因子序列,所述第一特征因子序列与所述关键词集合中的关键词一一对应;
根据所对应关键词是否为分词得到的关键词,将所述第一特征因子序列中的第一特征因子取不同的值,得到包括所述第一特征因子序列的特征向量;所述特征向量还包括表征相应兴趣点名称的长度的第二特征因子;和/或,表征相应兴趣点的模糊位置的第三特征因子;和/或,表征相应兴趣点的来源的第四特征因子;所述特征向量中所包括的特征因子均是归一化处理后的特征因子;
根据所述特征向量训练机器学习分类器。
7.根据权利要求6所述的方法,其特征在于,所述根据所对应关键词是否为分词得到的关键词,将所述第一特征因子序列中的第一特征因子取不同的值,得到包括所述第一特征因子序列的特征向量包括:
将所述第一特征因子序列中的第一特征因子初始化为第一值;
在所述第一特征因子序列中,将所对应关键词为所述分词得到的关键词的第一特征因子,置为与所述第一值不同的第二值;
生成包括所述第一特征因子序列的特征向量。
8.根据权利要求6所述的方法,其特征在于,所述归一化处理的归一化方式包括取对数归一化和线性函数归一化。
9.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取已知属于预设类别的兴趣点的第一兴趣点样本;
获取已知不属于预设类别的兴趣点、且相应兴趣点名称中存在所述关键词集合中的关键词的第二兴趣点样本;
获取已知不属于预设类别的兴趣点、且相应兴趣点名称中不存在所述关键词集合中的关键词的第三兴趣点样本;
将所述第一兴趣点样本、第二兴趣点和所述第三兴趣点样本混合获得兴趣点样本集合。
10.根据权利要求6所述的方法,其特征在于,所述获取兴趣点样本集合中的兴趣点样本包括:
从兴趣点样本集合中选取兴趣点样本子集;
获取所述兴趣点样本子集中的兴趣点样本;
所述根据与所述兴趣点样本相应的特征向量训练机器学习分类器包括:
获取机器学习分类器的离散参数取值集合;
根据所述离散参数取值集合中的每个参数取值和所述兴趣点样本子集,训练与每个参数取值相应的机器学习分类器,并获得相应参数取值所对应机器学习分类器的分类预测正确率;
筛选出最大的分类预测正确率并获取相应的参数取值,并根据获取的参数取值和所述兴趣点样本集合训练机器学习分类器。
11.根据权利要求10所述的方法,其特征在于,所述筛选出最大的分类预测正确率并获取相应的参数取值,并根据获取的参数取值和所述兴趣点样本集合训练机器学习分类器包括:
筛选出最大的分类预测正确率所对应的参数取值;
根据筛选出的参数取值确定参数取值扩展集合;
根据所述参数取值扩展集合中的每个参数取值和所述兴趣点样本子集,再次训练与每个参数取值相应的机器学习分类器,并获得相应参数取值所对应机器学习分类器的分类预测正确率;
从再次训练获得的分类预测正确率中挑选最大的分类预测正确率;
根据挑选出的分类预测正确率所对应的参数取值和所述兴趣点样本集合训练机器学习分类器。
12.根据权利要求10所述的方法,其特征在于,所述根据所述离散参数取值集合中的每个参数取值和所述兴趣点样本子集,训练与每个参数取值相应的机器学习分类器,并获得相应参数取值所对应机器学习分类器的分类预测正确率包括:
从所述兴趣点样本子集划分出至少三份的兴趣点样本;
轮次将划分出的其中一份兴趣点样本作为测试集,并将划分出的其它份兴趣点样本分别作为训练集;
根据所述离散参数取值集合中的每个参数取值和所述训练集训练相应的机器学习分类器,并根据相应的测试集获得相应机器学习分类器的分类预测正确率;
将对应相同参数取值训练出的机器学习分类器所对应的分类预测正确率平均,获得相应参数取值所对应机器学习分类器的分类预测正确率。
13.一种兴趣点在线检测装置,其特征在于,包括:
关键词处理模块,用于获取从待检测兴趣点的兴趣点名称中分词得到的关键词;确定分词得到的关键词是否为属于预设的关键词集合的关键词;
特征向量生成模块,用于生成第一特征因子序列,所述第一特征因子序列与所述关键词集合中的关键词一一对应;根据所对应关键词是否为分词得到的关键词,将所述第一特征因子序列中的第一特征因子取不同的值,得到包括所述第一特征因子序列的特征向量;所述特征向量还包括表征相应兴趣点名称的长度的第二特征因子;和/或,表征相应兴趣点的模糊位置的第三特征因子;和/或,表征相应兴趣点的来源的第四特征因子;所述特征向量中所包括的特征因子均是归一化处理后的特征因子;
检测模块,用于通过机器学习分类器并根据所述特征向量判断所述待检测兴趣点是否属于预设类别。
14.根据权利要求13所述的装置,其特征在于,所述特征向量生成模块还用于将所述第一特征因子序列中的第一特征因子初始化为第一值;在所述第一特征因子序列中,将所对应关键词为所述分词得到的关键词的第一特征因子,置为与所述第一值不同的第二值;生成包括所述第一特征因子序列的特征向量。
15.根据权利要求13所述的装置,其特征在于,所述装置还包括:
兴趣点样本集合获取模块,用于获取已知属于预设类别的兴趣点的第一兴趣点样本;获取已知不属于预设类别的兴趣点、且相应兴趣点名称中存在所述关键词集合中的关键词的第二兴趣点样本;获取已知不属于预设类别的兴趣点、且相应兴趣点名称中不存在所述关键词集合中的关键词的第三兴趣点样本;将所述第一兴趣点样本、第二兴趣点和所述第三兴趣点样本混合获得兴趣点样本集合;
训练模块,用于根据与所述兴趣点样本集合中的兴趣点样本相应的特征向量训练机器学习分类器。
16.根据权利要求13所述的装置,其特征在于,所述装置还包括:
训练模块,用于获取兴趣点样本集合;从所述兴趣点样本集合中选取兴趣点样本子集;获取机器学习分类器的离散参数取值集合;根据所述离散参数取值集合中的每个参数取值和所述兴趣点样本子集,训练与每个参数取值相应的机器学习分类器,并获得相应参数取值所对应机器学习分类器的分类预测正确率;筛选出最大的分类预测正确率并获取相应的参数取值,并根据获取的参数取值和所述兴趣点样本集合训练机器学习分类器。
17.一种用于兴趣点在线检测的机器学习分类器训练装置,其特征在于,包括:
关键词处理模块,用于获取兴趣点样本集合中的兴趣点样本;获取从所述兴趣点样本的兴趣点名称中分词得到的关键词;确定分词得到的关键词是否为属于预设的关键词集合的关键词;
特征向量生成模块,用于生成第一特征因子序列,所述第一特征因子序列与所述关键词集合中的关键词一一对应;根据所对应关键词是否为分词得到的关键词,将所述第一特征因子序列中的第一特征因子取不同的值,得到包括所述第一特征因子序列的特征向量;所述特征向量还包括表征相应兴趣点名称的长度的第二特征因子;和/或,表征相应兴趣点的模糊位置的第三特征因子;和/或,表征相应兴趣点的来源的第四特征因子;所述特征向量中所包括的特征因子均是归一化处理后的特征因子;
训练模块,用于根据所述特征向量训练机器学习分类器。
18.根据权利要求17所述的装置,其特征在于,所述特征向量生成模块还用于将所述第一特征因子序列中的第一特征因子初始化为第一值;在所述第一特征因子序列中,将所对应关键词为所述分词得到的关键词的第一特征因子,置为与所述第一值不同的第二值;生成包括所述第一特征因子序列的特征向量。
19.根据权利要求17所述的装置,其特征在于,所述装置还包括:
兴趣点样本集合获取模块,用于获取已知属于预设类别的兴趣点的第一兴趣点样本;获取已知不属于预设类别的兴趣点、且相应兴趣点名称中存在所述关键词集合中的关键词的第二兴趣点样本;获取已知不属于预设类别的兴趣点、且相应兴趣点名称中不存在所述关键词集合中的关键词的第三兴趣点样本;将所述第一兴趣点样本、第二兴趣点和所述第三兴趣点样本混合获得兴趣点样本集合。
20.根据权利要求17所述的装置,其特征在于,所述关键词处理模块还用于从兴趣点样本集合中选取兴趣点样本子集;获取所述兴趣点样本子集中的兴趣点样本;
所述训练模块还用于获取机器学习分类器的离散参数取值集合;根据所述离散参数取值集合中的每个参数取值和所述兴趣点样本子集,训练与每个参数取值相应的机器学习分类器,并获得相应参数取值所对应机器学习分类器的分类预测正确率;筛选出最大的分类预测正确率并获取相应的参数取值,并根据获取的参数取值和所述兴趣点样本集合训练机器学习分类器。
21.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。
22.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710016323.3A CN108287816B (zh) | 2017-01-10 | 2017-01-10 | 兴趣点在线检测、机器学习分类器训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710016323.3A CN108287816B (zh) | 2017-01-10 | 2017-01-10 | 兴趣点在线检测、机器学习分类器训练方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108287816A CN108287816A (zh) | 2018-07-17 |
CN108287816B true CN108287816B (zh) | 2021-06-04 |
Family
ID=62819666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710016323.3A Active CN108287816B (zh) | 2017-01-10 | 2017-01-10 | 兴趣点在线检测、机器学习分类器训练方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108287816B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110968654B (zh) * | 2018-09-29 | 2023-10-20 | 阿里巴巴集团控股有限公司 | 文本数据的地址类目确定方法、设备以及系统 |
CN110046254B (zh) * | 2019-04-18 | 2022-03-08 | 阿波罗智联(北京)科技有限公司 | 用于生成模型的方法和装置 |
CN110175300A (zh) * | 2019-05-24 | 2019-08-27 | 北京百度网讯科技有限公司 | 兴趣点poi处理方法、装置、设备及存储介质 |
CN110457706B (zh) * | 2019-08-15 | 2023-08-22 | 腾讯科技(深圳)有限公司 | 兴趣点名称选择模型训练方法、使用方法、装置及存储介质 |
CN111553279B (zh) * | 2020-04-28 | 2023-05-05 | 北京百度网讯科技有限公司 | 兴趣点的表征学习、识别方法、装置、设备及存储介质 |
CN111797708A (zh) * | 2020-06-12 | 2020-10-20 | 瑞声科技(新加坡)有限公司 | 气流杂音检测方法、装置、终端及存储介质 |
CN111790038B (zh) * | 2020-06-23 | 2024-03-29 | 深圳市联奕实业有限公司 | 音乐辅助睡眠的方法、装置、计算机设备及存储介质 |
CN113569149B (zh) * | 2021-07-30 | 2024-01-19 | 拉扎斯网络科技(上海)有限公司 | 信息处理方法、装置、电子设备 |
CN114579046B (zh) * | 2022-01-21 | 2024-01-02 | 南华大学 | 一种云存储相似数据检测方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8589404B1 (en) * | 2012-06-19 | 2013-11-19 | Northrop Grumman Systems Corporation | Semantic data integration |
CN103605729A (zh) * | 2013-11-19 | 2014-02-26 | 段炼 | 一种基于局部随机词汇密度模型poi中文文本分类的方法 |
CN104008169A (zh) * | 2014-05-30 | 2014-08-27 | 中国测绘科学研究院 | 一种基于语义的地理标注内容安全检查方法及装置 |
CN104331716A (zh) * | 2014-11-20 | 2015-02-04 | 武汉图歌信息技术有限责任公司 | 面向大规模训练数据的svm主动学习分类算法 |
CN104699818A (zh) * | 2015-03-25 | 2015-06-10 | 武汉大学 | 一种多源异构的多属性poi融合方法 |
-
2017
- 2017-01-10 CN CN201710016323.3A patent/CN108287816B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8589404B1 (en) * | 2012-06-19 | 2013-11-19 | Northrop Grumman Systems Corporation | Semantic data integration |
CN103605729A (zh) * | 2013-11-19 | 2014-02-26 | 段炼 | 一种基于局部随机词汇密度模型poi中文文本分类的方法 |
CN104008169A (zh) * | 2014-05-30 | 2014-08-27 | 中国测绘科学研究院 | 一种基于语义的地理标注内容安全检查方法及装置 |
CN104331716A (zh) * | 2014-11-20 | 2015-02-04 | 武汉图歌信息技术有限责任公司 | 面向大规模训练数据的svm主动学习分类算法 |
CN104699818A (zh) * | 2015-03-25 | 2015-06-10 | 武汉大学 | 一种多源异构的多属性poi融合方法 |
Non-Patent Citations (2)
Title |
---|
杨小明.电子地图兴趣点分类自动标注算法研究.《网络安全技术与应用》.2015, * |
电子地图兴趣点分类自动标注算法研究;杨小明;《网络安全技术与应用》;20150331;第13-15页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108287816A (zh) | 2018-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108287816B (zh) | 兴趣点在线检测、机器学习分类器训练方法和装置 | |
CN109933802A (zh) | 图文匹配方法、装置及存储介质 | |
CN113361578B (zh) | 图像处理模型的训练方法、装置、电子设备及存储介质 | |
CN110232112B (zh) | 文章中关键词提取方法及装置 | |
CN102902821A (zh) | 基于网络热点话题的图像高级语义标注、检索方法及装置 | |
CN112559676B (zh) | 相似题目的检索方法、装置及计算机存储介质 | |
CN113343012B (zh) | 一种新闻配图方法、装置、设备及存储介质 | |
CN112818995B (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN109857873A (zh) | 推荐实体的方法和装置、电子设备、计算机可读介质 | |
CN117332090B (zh) | 一种敏感信息识别方法、装置、设备和存储介质 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN110727816A (zh) | 兴趣点类别确定方法和装置 | |
CN115795030A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
Schwegmann et al. | Synthetic aperture radar ship discrimination, generation and latent variable extraction using information maximizing generative adversarial networks | |
CN116415020A (zh) | 一种图像检索的方法、装置、电子设备及存储介质 | |
US11347928B2 (en) | Detecting and processing sections spanning processed document partitions | |
CN110188277B (zh) | 一种资源的推荐方法及装置 | |
CN111597336A (zh) | 训练文本的处理方法、装置、电子设备及可读存储介质 | |
CN112084956A (zh) | 一种基于小样本学习原型网络的特殊面容人群筛查系统 | |
US10705810B2 (en) | Automatic code generation | |
Adaloglou et al. | Rethinking cluster-conditioned diffusion models | |
CN116304155A (zh) | 基于二维图片的三维构件检索方法、装置、设备及介质 | |
Valldor et al. | Firearm detection in social media images | |
US11983241B2 (en) | Method and system for training a neural network | |
CN113704462A (zh) | 文本处理方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |