CN113449050B - 位置搜索方法、装置及存储介质 - Google Patents
位置搜索方法、装置及存储介质 Download PDFInfo
- Publication number
- CN113449050B CN113449050B CN202010213779.0A CN202010213779A CN113449050B CN 113449050 B CN113449050 B CN 113449050B CN 202010213779 A CN202010213779 A CN 202010213779A CN 113449050 B CN113449050 B CN 113449050B
- Authority
- CN
- China
- Prior art keywords
- data
- keywords
- machine learning
- learning model
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000010801 machine learning Methods 0.000 claims abstract description 67
- 238000012545 processing Methods 0.000 claims abstract description 35
- 231100000279 safety data Toxicity 0.000 claims description 66
- 238000012549 training Methods 0.000 claims description 39
- 238000012795 verification Methods 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 7
- 238000007499 fusion processing Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 2
- 239000010750 BS 2869 Class C2 Substances 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Remote Sensing (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种位置搜索方法、装置及存储介质,方法包括:使用已训练的机器学习模型对关键词进行处理,确定该关键词的类别信息,再根据关键词和关键词的类别信息从数据库中搜索与关键词相关联的数据。本发明使用机器学习模型确定关键词的位置,无需确定阈值的数值,易于实现。同时,使用机器学习模型可快速识别关键词对应位置,提高该搜索方法的运算速率,提升响应速率。
Description
技术领域
本发明实施例涉及地理信息技术领域,尤其涉及一种位置搜索方法、装置及存储介质。
背景技术
随着互联网技术的发展,人们通过在互联网中输入关键词,即可搜索到与关键词对应的各种信息。
当输入关键词与地理位置有关时,需要确定是否将默认位置切换至其他位置,并返回切换后的位置所对应的搜索结果,进而提高搜索准确度。现有的位置搜索方法的原理为:输入关键词,确定与关键词所相关的全部搜索结果,根据全部搜索结果确定该关键词的多个特征值,再根据每个特征值与特征阈值之间关系,和每个特征值的权重,确定关键词的类别,若关键词的类别是不切换,则返回默认位置对应的搜索结果,若关键词的类别是切换至其他位置,并返回切换后位置所对应的搜索结果。
然而,现有技术中,需要大量数据确定特征值的阈值,在实现该方法时比较困难。同时,由于关键词的特征值比较多,对应阈值判断条件也比较多,造成现有位置搜索方法计算复杂,响应缓慢。
发明内容
本发明实施例提供一种位置搜索方法、装置及存储介质,以解决现有方法由于确定判定阈值的数值比较复杂进而导致实现困难、以及由于判定条件比较繁琐进而导致方法计算复杂的技术问题。
第一方面,本发明提供一种位置搜索方法,方法包括:
获取用户输入的关键词;
根据训练后的机器学习模型对关键词进行处理,确定关键词的类别信息,其中,机器学习模型是由第一安全数据进行训练后获得的,第一安全数据包括用于作为机器学习模型输入数据的数据分量和用于作为机器学习模型输出数据的类别信息;
根据关键词和关键词的类别信息从数据库确定位置搜索结果。
第二方面,本发明提供一种位置搜索装置,装置包括:
获取模块,用于获取用户输入的关键词;
处理模块,用于根据训练后的机器学习模型对关键词进行处理,确定关键词的类别信息,其中,机器学习模型是由第一安全数据进行训练后获得的,第一安全数据包括用于作为机器学习模型输入数据的数据分量和用于作为机器学习模型输出数据的类别信息;
确定模块,用于根据关键词和关键词的类别信息从数据库确定位置搜索结果。
第三方面,本发明提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行第一方面及可选方案所涉及的位置搜索方法。
本发明提供一种位置搜索方法、装置和存储介质,方法包括:使用已训练的机器学习模型对关键词进行处理,确定该关键词的类别信息,再根据类别信息和关键词搜索与关键词相关联的数据。本发明使用机器学习模型确定关键词的位置,无需确定阈值的数值,易于实现。同时,使用机器学习模型可快速识别关键词对应位置,提高该搜索方法的运算速率,提升响应速率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的位置搜索方法的流程示意图;
图2为本发明实施例二提供的位置搜索方法的流程示意图;
图3为本发明实施例二提供的相邻数据的分布图一;
图4为本发明实施例二提供的相邻数据的分布图二;
图5为本发明实施例二提供的安全数据的数据分量的分布图;
图6为本发明实施例二提供的数据分量t11和数据分量t13关于类别C0的相关性分布;
图7为本发明实施例二提供的数据分量t11和数据分量t13关于类别C2的相关性分布;
图8为本发明实施例二提供的数据分量t11和数据分量t13关于类别C2和C0的相关性分布;
图9为本发明实施例二提供的生成新数据分量的验证图之一;
图10为本发明实施例二提供的生成新数据分量的验证图之二;
图11为本发明实施例二提供的位置搜索方法的原理图;
图12为本发明实施例三提供的位置搜索装置的结构示意图;
图13为本发明实施例四提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的位置搜索方法原理如下:确定关键词对应的多个特征值,根据每个特征值的权重值、和每个特征值与阈值之间关系确定关键词的数据类别,进而确定是否将位置由默认位置更换到其他位置,若切换默认位置,则返回切换后的位置上对应的数据,若没有切换,则返回默认位置上对应的数据。然而,现有技术使用阈值判断获得关键词对应位置,由于关键词对应有多个特征值,阈值判断条件必然十分复杂,导致该搜索方法计算复杂,使得该搜索方法无法快速返回搜索结果。另外,在确定阈值的数值过程中,需要进行大量的数据统计,过程繁琐,造成该方法在实现过程中比较困难。
本发明提供的位置搜索方法,可以应用于各种搜索引擎和应用程序。例如:地图类应用程序、生活服务类应用程序等。本发明的发明构思是:基于机器学习算法,使用数据对机器学习模型进行训练,在使用训练后的机器学习模型对关键词进行处理,确定关键词对应的位置。可以避免使用阈值判定条件确定关键词对应的位置。考虑到用户位置会影响到机器学习模型的模型参数,针对不同位置训练不同的机器学习模型,以提高机器学习模型的准确度。在确定数据的过程中,先从原始数据中选取部分数据进行类别验证获得安全数据。再使用安全数据识别未验证数据的类别,以获得足够数量的安全数据。通过上述方法可以快速获取足够数量的安全数据,进而提升机器学习模型的准确度。
图1为本发明实施例一提供的位置搜索方法的流程示意图。如图1所示,本发明提供的位置搜索方法包括如下步骤:
S101、获取用户输入的关键词。
更具体地,通过用户界面接收用户输入的关键词。例如:通过应用程序的搜索框接收用户输入的关键词。其中,用户输入的关键词为“东方明珠塔”。
S102、根据已训练的机器学习模型对关键词进行处理,确定关键词的类别信息。
更具体地,通过第一安全数据对机器学习模型进行训练,确定训练模型中的参数。第一安全数据包括数据分量和类别信息。其中,数据分量用于作为机器学习模型输入数据,类别信息用于作为机器学习模型输出数据的类别信息。在对机器学习模型训练完后,将关键词输入机器学习模型,确定关键词对应的类别信息。其中,关键词的类别信息包括:不切换默认位置和切换默认位置。切换默认位置是指将当前默认位置切换到其他位置。不切换默认位置是指关键词对应位置为当前默认位置,默认位置根据用户位置确定。
例如:若向已训练的机器学习模型中输入“东方明珠塔”,此时默认城市在“西安”,由于东方明珠塔对应的位置是上海,则需要切换至“上海”,则关键词“东方明珠塔”的类别信息是切换默认位置。若此时默认城市是“上海”,则关键词“东方明珠塔”的类别信息是不切换默认位置。
S103、根据关键词和关键词的类别信息从数据库确定位置搜索结果。
更具体地,若关键词的类别信息是不切换默认位置,则关键词的位置信息是当前默认位置。从数据库中找到在当前默认位置与关键词所有的相关数据,并作为位置搜索结果返回。
若关键词的类别信息是切换默认位置,根据数据库确定关键词对应的位置。其中,根据数据库确定关键词对应的位置具体包括:从数据库中找到与关键词所有的相关数据,根据关键词与上述相关数据的匹配度确定每个相关数据的分数,将分数最高的相关数据的位置信息作为关键词的更新后位置信息,从数据库中找到在更新后位置与关键词所有的相关数据,并作为位置搜索结果返回。
在本实施例提供的位置搜索方法中,使用机器学习模型对关键词进行处理,确定关键词的类别信息,再根据关键词的类别信息和数据库确定关键词的位置信息,并从数据库中搜索在关键词的位置信息下与关键词关联的数据返回。相较于现有的基于阈值判定的搜索方法,本方法无需确定特征值的阈值数值,也无需进行阈值判断,可以快速确定关键词的位置,快速返回对应数据,响应速率快,且易于实现。
图2为本发明实施例二提供的位置搜索方法的流程示意图。如图2所示,本发明提供的位置搜索方法包括如下步骤:
S201、获取训练关键词。
更具体地,根据日志信息和数据库内索引数据获得训练关键词,其中,日志信息是应用程序或者搜索引擎在提供服务过程中生成的日志信息。在本实施例中,将不切换默认位置标记为类别C0,将切换默认位置标记为类别C2。
S202、对训练关键词进行数值化处理。
更具体地,训练关键词的数值化过程包括获得训练关键词的相关数据和获得训练关键词的特征值,训练关键词的特征值构成训练数据。
其中,获得训练关键词的特征值通过对训练关键词的相关数据进行统计分析获得训练关键词的特征值。可根据表1所示统计特征获得训练关键词的特征值。
表1为通过统计分析确定的特征值
特征0 | 所有相关数据的平均分 | 特征6 | 当前位置的得分 |
特征1 | 所有相关数据中的最大分 | 特征7 | 最大分和平均分的比值 |
特征2 | 所有相关数据的总分 | 特征8 | 最大分和总分的比值 |
特征3 | 所有相关数据的最小分 | 特征9 | 最大分和最小分的比值 |
特征4 | 所有相关数据的方差 | 特征10 | 最大分和第二大得分的比值 |
特征5 | 第二大得分 | 特征11 | 最大分和当前位置得分的比值 |
在获得训练关键词的特征值之后,将训练关键词的所有特征值作为一组原始数据,将训练关键词的类别作为原始数据的类别,完成原始数据集的构建。
然而,在对训练关键词进行数值化处理过程中,用户位置会影响训练关键词的特征值,进而影响获得的原始数据。对相关数据进行分析过程是依赖用户位置的,也就是用户位置不同,相关数据的分析结果不同。下面举例说明:
在数据库中输入关键词“中国地质大学”,返回搜索结果,并利用上述表1的特征对返回搜索结果进行统计分析,其中,当前位置分别设置为北京、武汉和保定。表2为关键词“中国地质大学”对应的原始数据。根据表2可知,对于不同的城市,计算出来当前城市得分(特征6)和最大分和当前位置得分的比值(特征11)是不一样的。若将这三组原始数据同时输入机器学习性进行训练,会对机器学习模型造成影响。因为其他特征值一样,会加大不同特征值(也就是特征6和特征11)的权重。机器学习模型基于决策树决策时,根据特征增益率来计算特征的重要性,为了确定三组训练数据的类别信息,会增加特征6和特征11的权重值,进而影响决策树的参数。
表2三个城市对应的原始数据
特征0 | 特征1 | 特征2 | 特征3 | 特征4 | 特征5 | 特征6 | |
北京 | 0.055388 | 0.332367 | 5.538798 | 0.043973 | 0.034205 | 0.227354 | 0.227354 |
武汉 | 0.055388 | 0.332367 | 5.538798 | 0.043973 | 0.034205 | 0.227354 | 0.332367 |
保定 | 0.055388 | 0.332367 | 5.538798 | 0.043973 | 0.034205 | 0.227354 | 0.078628 |
特征7 | 特征8 | 特征9 | 特征10 | 特征11 | 特征12 | ||
北京 | 6.000701 | 0.060007 | 7.558479 | 1.461888 | 1.461888 | c0 | |
武汉 | 6.000701 | 0.060007 | 7.558479 | 1.461888 | 1 | c0 | |
保定 | 6.000701 | 0.060007 | 7.558479 | 1.461888 | 4.227068 | c2 |
针对上述分析,根据用户位置训练不同机器学习模型。用户位置信息可以为城市信息和省份信息。例如:武汉、北京等。可得到武汉对应的机器学习模型,北京对应的机器学习模型。
S203、对原始数据集进行预处理。
更具体地,对原始数据集进行预处理,具体包括:从原始数据集中选取原始数据进行类别验证处理,获得第一安全数据集。用第一安全数据集对不安全数据集进行类别识别处理,获得第二安全数据。使用第二安全数据更新用于训练机器学习模型的第一安全数据集合。
其中,从原始数据集中选取原始数据,并验证所选取的原始数据的类别。具体为:从原始数据集中选取数据,确定所选取的原始数据对应的位置,将所选取的原始数据对应的位置与当前默认位置比较,若相同,则该原始数据的数据类别为不需要切换。若不相同,则该原始数据的类别为需要切换。
在确定原始数据的类别之后,将通过比较确定的类别与原始数据原有的数据类别进行比较,也就是与原始数据对应的关键词的类别进行比较,若相同,则表示该原始数据是可靠的,为安全数据,若不相同,则表示原始数据不可靠。
其中,不安全数据为原始数据集中未被选取进行类别处理的原始数据。用第一安全数据集对不安全数据集进行类别识别处理,获得第二安全数据集,具体为:从第一安全数据集中选取数量少的类别对应的安全数据,生成第三安全数据。对第三安全数据集中进行过采样,生成第四安全数据。并用第四安全数据更新第一安全数据集。从第一安全数据集中获取不安全数据的相邻数据。根据相邻数据的类别确定不安全数据的类别,生成第二安全数据。
其中,从第一安全数据集中选取数量少的类别对应的安全数据,生成第三安全数据,具体指:对第一安全数据集进行类别分类,获得多组安全数据集。其中,每一组安全数据集中安全数据的类别相同,两组安全数据集的类别不同。例如:进行类别分类后生成两组安全数据集,其中一组安全数据集中数据的类别全部为不切换默认位置,另一组安全数据集中数据的类别全部为切换默认位置。且不切换默认位置的安全数据集中数据少,则将该组数据集作为第三安全数据集。
其中,在实施例中,对第三安全数据集进行过采样,生成第四安全数据集。第四安全数据集中数据的个数小于类别商的五分之一,比如:在上述第三安全数据集中,较多样本数据的类别是C0,较少样本数据的类别是C2,它们之间的商为10,则每次生成第四安全数据集中数据个数为2。
其中,针对每个不安全数据,在第一安全数据集中,确定不安全数据K个相邻数据。可以根据如下公式确定相邻数据:
其中,将每个第一安全数据和不安全数据均用向量表示:X=(x1,x2,…,xd,y),其中,x1表示特征值,y表示数据的类别。若第一安全数据与样本数据之间的欧式距离小于预设阈值,则该第一安全数据为不安全数据的相邻数据。在本实施例中,K取10个。
其中,根据相邻数据的类别确定不安全数据的类别,生成第二安全数据,具体包括:确定不安全数据的K个相邻数据的数据类型,若某个类别的安全数据的个数达到预设阈值,则将不安全数据的类型确定为该类别。反之,则再利用第二安全数据集更新第一安全数据集之后,用第一安全数据集对该不安全数据集进行类别识别处理。直到将所有不安全数据的类别都识别完为止。或者,在安全数据集合中数据的类别均衡时。
图3为本发明实施例二提供的相邻数据的分布图一,图4为本发明实施例二提供的相邻数据的分布图二。本发明在利用相邻数据对不安全数据进行类别处理过程中,若相邻数据的类型分布不均衡,即满足图3所示分布,三角形是多数类,圆形是少数类,对菱形样本进行类别识别过程中,选取5个相邻数据。其中,3个相邻数据是三角形,2个相邻数据是圆形,则容易将菱形样本识别为三角形。造成误判。但是,若相邻数据的分布满足图4,也就是类别均衡,则不会造成误判。因此,本实施例中对从第一安全数据集中选取数量少的类别对应的安全数据,生成第三安全数据。对第三安全数据集中进行过采样,生成第四安全数据。并用第四安全数据更新第一安全数据集。以实现第一安全数据集中类别均衡。
S204、对安全数据进行特征挖掘处理。
更具体地,对安全数据进行特征挖掘处理,具体包括:获取安全数据的每个数据分量之间的第一关系,及每个数据分量和安全数据的类别信息之间的第二关系;根据第一关系和第二关系,从安全数据的多个数据分量中选取部分数据分量进行融合处理,并将处理得到的数据分量作为安全数据的数据分量。
例如:某个安全数据的数据分量包括数据分量t11至数据分量t14,图5为本发明实施例二提供的安全数据的数据分量的分布图,其中,横坐标表示数据分量的数值,纵坐标表示安全数据的数量,其中,深灰色表示类别C0,浅灰色表示类别C2。图6为本发明实施例二提供的数据分量t11和数据分量t13关于类别C0的相关性分布。其中,横坐标表示数据分量t11的数值,纵坐标表示数据分量t13的数值。
图7为本发明实施例二提供的数据分量t11和数据分量t13关于类别C2的相关性分布。其中,横坐标表示数据分量t11的数值,纵坐标表示数据分量t13的数值。图8为本发明实施例二提供的数据分量t11和数据分量t13关于类别C2和C0的相关性分布。其中,横坐标表示数据分量t11的数值,纵坐标表示数据分量t13的数值。
如图5至图8所示,可知数据分量t11和数据分量t13的第一关系为:在类别C0中,数据分量t11取值较大,数据分量t13取值较小。在类别C2中,数据分量t11取值较小,数据分量t13取值较大。将数据分量t11和数据分量t13作为中间数据分量,并以此来添加新的数据分量t15。当t11大于t13时,设置新的数据分量为极大,反之,新的数据分量极小。并将新数据分量t15增加至安全数据的数据分量中。作为可选方案,可以使用函数对新数据分量进行取值。
在本实施例中,极大值和极小值分别取5000和0,图9为本发明实施例二提供的生成新数据分量的验证图之一,图10为本发明实施例二提供的生成新数据分量的验证图之二。其中,图9表示未添加新数据分量情况下所选择特征,图10表示添加新数据分量情况下的所选择特征。
S205、使用第一安全数据集对机器学习模型进行训练。
更具体地,将经过预处理和特征挖掘处理后得到的第一安全数据输入机器学习模型中,第一安全数据集如表3所示,安全数据表示为X,安全数据的类型为y,则输入训练样本表示为Z=(X,y),其中,X=(x1,x2,…,xn),其中,x1是安全数据X在第i个特征的取值,y表示该安全数据的类别。
表3为第一安全数据集
其中,机器学习模型的基础理论如下:
信息量:信息量表示事件发生所带来的信息大小,计算公式如下:
L=-log2p(x)
信息熵:信息熵表示是在结果出来之前对可能产生的信息量的期望,考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望,计算公式如下:
H(Y)=-∑p(x)log2p(x)
条件熵:条件熵表示某个属性特征下的信息熵,计算公式如下:
H(Y|X)=P(X)H(Y|X=x)
信息增益:信息增益表示信息熵和条件熵的差,计算公式如下:
G(Y|X)=H(Y)-H(Y|X)
增益率计算公式如下:
其中,IV(X)为属性X的固有值。属性X的可能取值数目越多,IV(X)越大。
根据表2可知,在用户所处的当前位置不同时,相同的训练关键词对应原始数据不同,若将对应相同关键词的原始数据一同训练机器学习模型时,会影响训练过程,详细分析参考上述内容。因此,针对用户所处的位置,训练不同机器学习模型。并配置表示用户位置信息与训练后的机器学习模型的对应关系的映射表。
S206、获取用户输入的关键词和用户位置信息。
其中,可根据设备的定位信息获取用户位置信息,也可通过用户直接输入位置信息。获取用户输入的关键词方式已经在S101中说明,重复部分不再赘述。
S207、根据用户位置信息和映射表确定训练后的机器学习模型。
其中,通过查找映射表,确定用户位置对应的训练后的机器学习模型。
S208、根据已训练的机器学习模型对关键词进行处理,确定关键词的类别信息。
其中,该步骤已经在S102中详细说明,重复部分不再赘述。
S209、根据关键词和关键词的类别信息从数据库确定位置搜索结果。
其中,该步骤已经在S103中详细说明,重复部分不再赘述。
图11为本发明实施例二提供的位置搜索方法的原理图,如图11所示,本实施例先从线上的服务日志和索引数据中抽取关键词,再统计每条数据得分生成特征值,对特征值构成的数据进行预处理,再对特征值进行统计分析,挖掘新特征值,经过上述预处理和挖掘后,用数据训练机器学习模型,最后用机器学习模型对关键词进行识别,并返回关键词的位置,最终在数据库中搜索到关键词的位置对应数据。
在本实施例中,先对部分安全数据进行验证识别,再使用安全数据识别未验证数据的类别,以获得足够数量的安全数据。通过上述方法可以快速获取足够数量的安全数据,进而提升机器学习模型的准确度。为了进一步优化安全数据,还对安全数据的特征值进行扩展。另外,对安全数据进行位置分类,可以避免出现多个安全数据对应一个关键词,增加安全数据的可靠性,进而提升机器学习模型的准确度。
图12为本发明实施例三提供的位置搜索装置的结构示意图,如图12所示,本发明提供一种位置搜索装置300,装置包括:
获取模块301,用于获取用户输入的关键词;
处理模块302,用于根据训练后的机器学习模型对关键词进行处理,确定关键词的类别信息,其中,机器学习模型是由第一安全数据进行训练后获得的,第一安全数据包括用于作为机器学习模型输入数据的数据分量和用于作为机器学习模型输出数据的类别信息;
确定模块303,用于根据关键词和关键词的类别信息从数据库确定位置搜索结果。
可选地,获取模块301还用于获取用户位置信息;
确定模块302还用于根据用户位置信息和映射表确定训练后的机器学习模型,其中,映射表用于表示位置信息与训练后的机器学习模型的对应关系。
可选地,还包括获得模块304,获得模块304具体用于:
从原始数据集中选取多个原始数据进行类别验证处理,获得第一安全数据集;
用第一安全数据集对每个不安全数据进行类别识别处理,获得第二安全数据,其中,不安全数据包括未进行类别验证的原始数据;
将第二安全数据增加至第一安全数据集。
可选地,获得模块304具体用于:
从第一安全数据集中获取每个不安全数据的相邻数据;
根据相邻数据的类别信息确定每个不安全数据的类别信息,生成第二安全数据。
可选地,获得模块304具体用于:
从第一安全数据集中选取多个第三安全数据,其中,第三安全数据的类别信息属于少数类,少数类是指对第一安全数据的类别信息进行统计后安全数据数量最少的类别信息;
对多个第三安全数据进行过采样,生成第四安全数据;
将第四安全数据增加至更新第一安全数据集。
可选地,获得模块304具体用于:
从数据库中获取训练关键词的至少一个相关数据;
使用至少一个相关数据对训练关键词进行数值化处理,获得训练关键词的第一特征值集;
将训练关键词的第一特征值集作为原始数据的数据分量。
可选地,获得模块304具体用于:
获取安全数据的每个数据分量之间的第一关系,及每个数据分量和安全数据的类别信息之间的第二关系;
根据第一关系和第二关系,从安全数据的多个数据分量中选取部分数据分量进行融合处理,并将处理得到的数据分量作为安全数据的数据分量。
可选地,类别信息包括:切换当前默认位置或者不切换当前默认位置。
图13为本发明实施例四提供的电子设备的结构示意图。如图13所示,本实施例提供的电子设备400包括:处理器401和存储器402。
存储器402,用于存储计算机执行指令;
处理器401,用于执行存储器存储的计算机执行指令,以实现上述实施例中定位方法所执行的各个步骤。具体可以参见前述控制方法实施例中的相关描述。
可选地,上述存储器402既可以是独立的,也可以跟处理器401集成在一起。
当存储器402独立设置时,该电子设备还包括总线403,用于连接存储器402和处理器401。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现如上电子设备所执行的定位方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (8)
1.一种位置搜索方法,其特征在于,方法包括:
获取用户输入的关键词;
根据训练后的机器学习模型对所述关键词进行处理,确定所述关键词的类别信息,其中,所述机器学习模型是由第一安全数据进行训练后获得的,所述第一安全数据包括用于作为所述机器学习模型输入数据的数据分量和用于作为所述机器学习模型输出数据的类别信息;
根据所述关键词和所述关键词的类别信息从数据库确定位置搜索结果;
其中,在所述根据训练后的机器学习模型对所述关键词进行处理,确定所述关键词的类别信息之前,所述方法还包括:
从原始数据集中选取多个原始数据进行类别验证处理,获得第一安全数据集;
用所述第一安全数据集对每个不安全数据进行类别识别处理,获得第二安全数据,其中,所述不安全数据包括未进行类别验证的原始数据;
将所述第二安全数据增加至所述第一安全数据集;
其中,所述类别信息包括:切换当前默认位置或者不切换当前默认位置。
2.根据权利要求1所述的方法,其特征在于,在所述根据训练后的机器学习模型对所述关键词进行处理,确定所述关键词的类别信息之前,所述方法还包括:
获取用户位置信息;
根据所述用户位置信息和映射表确定所述训练后的机器学习模型,其中,所述映射表用于表示位置信息与所述训练后的机器学习模型的对应关系。
3.根据权利要求1所述的方法,其特征在于,用所述第一安全数据集对不安全数据进行类别识别处理,获得第二安全数据,具体包括:
从所述第一安全数据集中获取每个所述不安全数据的相邻数据;
根据所述相邻数据的类别信息确定每个所述不安全数据的类别信息,生成所述第二安全数据。
4.根据权利要求3所述的方法,其特征在于,在从所述第一安全数据集中获取每个所述不安全数据的相邻数据之前,所述方法还包括:
从所述第一安全数据集中选取多个第三安全数据,其中,所述第三安全数据的类别信息属于少数类,所述少数类是指对所述第一安全数据的类别信息进行统计后安全数据数量最少的类别信息;
对所述多个第三安全数据进行过采样,生成第四安全数据;
将所述第四安全数据增加至更新所述第一安全数据集。
5.根据权利要求1所述的方法,其特征在于,在所述从原始数据集中选取多个原始数据进行类别验证处理,之前还包括:
从数据库中获取训练关键词的至少一个相关数据;
使用所述至少一个相关数据对训练关键词进行数值化处理,获得所述训练关键词的第一特征值集;
将所述训练关键词的第一特征值集作为原始数据的数据分量。
6.根据权利要求1所述的方法,其特征在于,在将所述第二安全数据增加至所述第一安全数据集之后,所述方法还包括:
获取所述安全数据的每个数据分量之间的第一关系,及每个所述数据分量和所述安全数据的类别信息之间的第二关系;
根据所述第一关系和所述第二关系,从所述安全数据的多个数据分量中选取部分数据分量进行融合处理,并将处理得到的数据分量作为所述安全数据的数据分量。
7.一种位置搜索装置,其特征在于,所述装置包括:
获取模块,用于获取用户输入的关键词;
处理模块,用于根据训练后的机器学习模型对所述关键词进行处理,确定所述关键词的类别信息,其中,所述机器学习模型是由第一安全数据进行训练后获得的,所述第一安全数据包括用于作为所述机器学习模型输入数据的数据分量和用于作为所述机器学习模型输出数据的类别信息;
确定模块,用于根据所述关键词和所述关键词的类别信息从数据库确定位置搜索结果;
所述处理模块用于从原始数据集中选取多个原始数据进行类别验证处理,获得第一安全数据集;用所述第一安全数据集对每个不安全数据进行类别识别处理,获得第二安全数据,其中,所述不安全数据包括未进行类别验证的原始数据;将所述第二安全数据增加至所述第一安全数据集;其中,所述类别信息包括:切换当前默认位置或者不切换当前默认位置。
8.一种计算机可读存储介质,其特征在于,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至6中任一项所述的位置搜索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010213779.0A CN113449050B (zh) | 2020-03-24 | 2020-03-24 | 位置搜索方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010213779.0A CN113449050B (zh) | 2020-03-24 | 2020-03-24 | 位置搜索方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113449050A CN113449050A (zh) | 2021-09-28 |
CN113449050B true CN113449050B (zh) | 2024-04-16 |
Family
ID=77806555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010213779.0A Active CN113449050B (zh) | 2020-03-24 | 2020-03-24 | 位置搜索方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113449050B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102479230A (zh) * | 2010-11-29 | 2012-05-30 | 北京四维图新科技股份有限公司 | 提取地理特征词的方法和装置 |
CN105677927A (zh) * | 2016-03-31 | 2016-06-15 | 百度在线网络技术(北京)有限公司 | 用于提供搜索结果的方法和装置 |
CN107315759A (zh) * | 2016-04-26 | 2017-11-03 | 百度(美国)有限责任公司 | 归类关键字的方法、装置和处理系统、分类模型生成方法 |
CN107315841A (zh) * | 2017-07-20 | 2017-11-03 | 北京三快在线科技有限公司 | 一种信息搜索方法、装置及系统 |
JP2019012552A (ja) * | 2018-09-10 | 2019-01-24 | パイオニア株式会社 | 検索装置、検索方法および検索プログラム |
CN109408710A (zh) * | 2018-09-26 | 2019-03-01 | 斑马网络技术有限公司 | 搜索结果优化方法、装置、系统及存储介质 |
JP2019053386A (ja) * | 2017-09-13 | 2019-04-04 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
CN110019676A (zh) * | 2017-12-01 | 2019-07-16 | 北京搜狗科技发展有限公司 | 一种在查询信息中识别核心词的方法、装置和设备 |
CN110659409A (zh) * | 2018-12-29 | 2020-01-07 | 北京奇虎科技有限公司 | 兴趣点poi的推荐方法和装置 |
CN110853647A (zh) * | 2018-07-27 | 2020-02-28 | Tcl集团股份有限公司 | 一种视频搜索方法、视频播放终端及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101174216B1 (ko) * | 2010-10-25 | 2012-08-14 | 엔에이치엔(주) | 지역기반의 검색어를 추천하는 시스템 및 그 방법 |
US11442999B2 (en) * | 2018-07-24 | 2022-09-13 | Microsoft Technology Licensing Llc | Personalized whole search page organization and relevance |
EP3621021A1 (en) * | 2018-09-07 | 2020-03-11 | Delta Electronics, Inc. | Data search method and data search system thereof |
-
2020
- 2020-03-24 CN CN202010213779.0A patent/CN113449050B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102479230A (zh) * | 2010-11-29 | 2012-05-30 | 北京四维图新科技股份有限公司 | 提取地理特征词的方法和装置 |
CN105677927A (zh) * | 2016-03-31 | 2016-06-15 | 百度在线网络技术(北京)有限公司 | 用于提供搜索结果的方法和装置 |
CN107315759A (zh) * | 2016-04-26 | 2017-11-03 | 百度(美国)有限责任公司 | 归类关键字的方法、装置和处理系统、分类模型生成方法 |
CN107315841A (zh) * | 2017-07-20 | 2017-11-03 | 北京三快在线科技有限公司 | 一种信息搜索方法、装置及系统 |
JP2019053386A (ja) * | 2017-09-13 | 2019-04-04 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
CN110019676A (zh) * | 2017-12-01 | 2019-07-16 | 北京搜狗科技发展有限公司 | 一种在查询信息中识别核心词的方法、装置和设备 |
CN110853647A (zh) * | 2018-07-27 | 2020-02-28 | Tcl集团股份有限公司 | 一种视频搜索方法、视频播放终端及存储介质 |
JP2019012552A (ja) * | 2018-09-10 | 2019-01-24 | パイオニア株式会社 | 検索装置、検索方法および検索プログラム |
CN109408710A (zh) * | 2018-09-26 | 2019-03-01 | 斑马网络技术有限公司 | 搜索结果优化方法、装置、系统及存储介质 |
CN110659409A (zh) * | 2018-12-29 | 2020-01-07 | 北京奇虎科技有限公司 | 兴趣点poi的推荐方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113449050A (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107229668B (zh) | 一种基于关键词匹配的正文抽取方法 | |
CN112035599B (zh) | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 | |
CN105302810A (zh) | 一种信息搜索方法和装置 | |
US10565253B2 (en) | Model generation method, word weighting method, device, apparatus, and computer storage medium | |
CN109388634B (zh) | 地址信息的处理方法、终端设备及计算机可读存储介质 | |
CN111159404B (zh) | 文本的分类方法及装置 | |
CN112329816A (zh) | 数据分类方法、装置、电子设备和可读存储介质 | |
CN112559747A (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
CN113052577A (zh) | 一种区块链数字货币虚拟地址的类别推测方法及系统 | |
CN106803092B (zh) | 一种标准问题数据的确定方法及装置 | |
Vu et al. | Rumor detection by propagation embedding based on graph convolutional network | |
CN110457707B (zh) | 实词关键词的提取方法、装置、电子设备及可读存储介质 | |
CN113449050B (zh) | 位置搜索方法、装置及存储介质 | |
CN115272776B (zh) | 基于双路卷积与双注意的高光谱图像分类方法及存储介质 | |
CN104809236B (zh) | 一种基于微博的用户年龄分类方法及系统 | |
CN116502091A (zh) | 一种基于lstm和注意力机制的网络入侵检测方法 | |
CN116069905A (zh) | 图像文本模型处理方法及图像文本检索系统 | |
CN112069392B (zh) | 涉网犯罪防控方法、装置、计算机设备及存储介质 | |
CN114547294A (zh) | 一种基于传播过程综合信息的谣言检测方法及系统 | |
KR102405799B1 (ko) | 사이버 공간에서 실시간 공격 탐지를 위한 시간에 따른 지속적인 적응형 학습을 제공하는 방법 및 시스템 | |
Zou et al. | An improved model for spam user identification | |
Yang et al. | Study on the application of data mining for customer groups based on the modified ID3 algorithm in the e-commerce | |
Schütz | Detection and identification of fake news: binary content classification with pre-trained language models | |
CN112613888B (zh) | 一种基于app列表分析的诈骗嫌疑识别方法和装置 | |
CN116136866B (zh) | 基于知识图谱的中文新闻摘要事实性知识校正方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |