CN108628943A - 一种数据处理方法、装置和电子设备 - Google Patents
一种数据处理方法、装置和电子设备 Download PDFInfo
- Publication number
- CN108628943A CN108628943A CN201810265316.1A CN201810265316A CN108628943A CN 108628943 A CN108628943 A CN 108628943A CN 201810265316 A CN201810265316 A CN 201810265316A CN 108628943 A CN108628943 A CN 108628943A
- Authority
- CN
- China
- Prior art keywords
- terrestrial reference
- entity
- search text
- described search
- trade company
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种数据处理方法、装置和电子设备,其中的方法具体包括:接收搜索文本;依据所述搜索文本中的实体,确定所述搜索文本指向的地标;输出所述地标的属性信息,以根据所述地标的属性信息确定所述搜索文本对应的搜索结果。本申请实施例可以使搜索结果更加准确地满足搜索文本对应的搜索意图。
Description
技术领域
本申请涉及搜索技术领域,特别是涉及一种数据处理方法、装置和电子设备。
背景技术
互联网技术的发展所带来的信息量增大,使得用户在筛选信息的情况下越来越依靠于搜索引擎。搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,对信息进行组织和处理后,为用户提供搜索服务,并将与用户搜索相关的信息展示给用户的系统。
用户在使用搜索引擎的过程中,可以在搜索引擎提供的搜索框中提供搜索词,由搜索引擎查询得到与该搜索词相匹配的搜索结果,并利用一定的排序策略将经过排序的搜索结果返回给用户。以商户的搜索为例,搜索引擎可以针对商户添加标签(如商户名称、商户注册公司名称、商户品牌名称、商户营业时间等),这样,现有的搜索引擎可以通过文本匹配的方式,对该搜索词与商户的标签进行匹配,并将匹配成功的商户作为该搜索词对应的搜索结果。
在实际应用中,若一个商户的标签与搜索词匹配成功,则这个商户将有可能出现在搜索结果中;反之,若未针对一个商户添加与搜索词相匹配的标签,则这个商户将不可能出现在搜索结果中。这样,现有的搜索引擎通过文本匹配的方式获取搜索词对应的搜索结果,可能无法准确地满足搜索词对应的搜索意图。例如,用户在输入搜索词“位置A名称”的情况下,应该想去“位置A名称广场”;但是,现有的搜索引擎通常仅仅能够将商户名称包含“位置A名称”(如商户名称为“位置A名称小吃铺”、或者“位置A名称餐厅”等)的商户作为该搜索词对应的搜索结果,而有些商户A的上述名称不包含“位置A名称”、但是可以满足搜索词对应的搜索意图,但现有的搜索引擎提供的搜索结果中可能不包括商户A。
发明内容
本申请实施例所要解决的技术问题是提供一种数据处理方法,可以使搜索结果更加准确地满足搜索文本对应的搜索意图。
相应的,本申请实施例还提供了一种数据处理装置、一种电子设备、一种存储介质,用以保证上述方法的实现及应用。
为了解决上述问题,第一方面,本申请实施例提供了一种数据处理方法包括:
接收搜索文本;
依据所述搜索文本中的实体,确定所述搜索文本指向的地标;
输出所述地标的属性信息,以根据所述地标的属性信息确定所述搜索文本对应的搜索结果。
第二方面,本申请实施例提供了一种数据处理装置,包括:
接收模块,用于接收搜索文本;
地标确定模块,用于依据所述搜索文本中的实体,确定所述搜索文本指向的地标;以及
属性输出模块,用于输出所述地标的属性信息,以根据所述地标的属性信息确定所述搜索文本对应的搜索结果。
第三方面,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的数据处理方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的数据处理方法。
本申请实施例包括如下优点:
本申请实施例通过地标表征搜索文本对应的搜索意图,该地标的属性信息可被应用于所述搜索文本所对应搜索结果的确定过程,以提高搜索结果与搜索意图之间的匹配度,因此本申请实施例可以使搜索结果更加准确地满足搜索文本对应的搜索意图。具体地,由于本申请实施例的搜索结果可以为依据地标的属性信息得到,故本申请实施例的搜索结果中可以包含商户名称与搜索文本不匹配的商户,并且,本申请实施例的搜索结果可以考虑地标的地理位置,故可以使得搜索结果中的商户与该地标之间的距离满足一定的需求,因此,本申请实施例可以使搜索结果更加准确地满足搜索文本对应的搜索意图。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例的一种数据处理方法的步骤流程图;
图2是本申请实施例的一种实体关系的示意;
图3是本申请一个实施例的一种数据处理方法的步骤流程图;
图4是图3所示方法的流程示意;
图5是本申请一个实施例的一种数据处理方法的步骤流程图;
图6是本申请一个实施例的一种数据处理装置的结构框图;
图7是本申请一个实施例的一种电子设备1500的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种数据处理方案,该方案可以接收搜索文本;依据所述搜索文本中的实体,确定所述搜索文本指向的地标,并输出所述地标的属性信息,以根据所述地标的属性信息确定所述搜索文本对应的搜索结果。
本申请实施例中,地标可以指某城市具有独特地理特色的建筑物或者自然物,可以使用户通过地标确定自己身在何方,有确定方位的作用;也即,地标可以指用于确定方位的建筑物或者自然物。本申请实施例中,地标的例子可以包括:商场、交叉路口、小区、学校、景点、酒店、地铁站、影院、摩天大楼、教堂、寺庙、雕像、灯塔、桥梁等。可以理解,本申请实施例对于具体的地标不加以限制。
本申请实施例通过地标表征搜索文本对应的搜索意图,该地标的属性信息可被应用于所述搜索文本所对应搜索结果的确定过程,以提高搜索结果与搜索意图之间的匹配度,因此本申请实施例可以使搜索结果更加准确地满足搜索文本对应的搜索意图。
在本申请实施例的一种示例中,假设搜索文本“位置A名称”,则本申请实施例可以确定该搜索文本对应的地标“位置A名称广场”,并输出地标“位置A名称广场”的属性信息(如地理位置),以根据地标“位置A名称广场”的属性信息确定该搜索文本对应的搜索结果。例如,可以根据地标“位置A名称广场”的地理位置,确定距离该地理位置较近的商户,作为该搜索文本对应的搜索结果。由于本申请实施例的搜索结果可以为依据地标的属性信息得到,故本申请实施例的搜索结果中可以包含商户名称与搜索文本不匹配的商户,并且,本申请实施例的搜索结果可以考虑地标的地理位置,故可以使得搜索结果中的商户与该地标之间的距离满足一定的需求,因此,本申请实施例可以使搜索结果更加准确地满足搜索文本对应的搜索意图。
在本申请实施例的另一种示例中,假设搜索文本“长宁来福士”,则本申请实施例可以确定该搜索文本对应的地标“长宁区来福士广场”,并输出地标“来福士广场长宁店”的属性信息(如地理位置),以根据地标“来福士广场长宁店”的属性信息确定该搜索文本对应的搜索结果;该搜索结果中可以包含商户名称与“来福士广场长宁店”不匹配的商户,并且,该搜索结果中的商户与该地标之间的距离可以满足一定的需求。
在本申请实施例的再一种示例中,假设搜索文本为“安化路凯旋路”,则本申请实施例可以确定该搜索文本对应的地标“安化路与凯旋路的交叉路口点”,并输出地标“安化路与凯旋路的交叉路口点”的属性信息(如地理位置),以根据地标“安化路与凯旋路的交叉路口点”的属性信息确定该搜索文本对应的搜索结果;该搜索结果中可以包含商户名称与“安化路凯旋路”不匹配的商户,并且,该搜索结果中的商户与该地标之间的距离可以满足一定的需求。
本申请实施例可以应用于搜索场景、或者搜索意图理解场景。
其中,在搜索场景下,例如搜索引擎的搜索系统可以针对用户输入的搜索文本,确定所述搜索文本指向的地标,根据所述地标的属性信息确定所述搜索文本对应的搜索结果,并向用户提供该搜索结果。
在搜索意图理解场景下,搜索意图理解系统可以针对输入的搜索文本,确定所述搜索文本指向的地标,并输出所述地标的属性信息。可选地,该搜索意图理解系统可以提供API(应用程序编程接口,Application Programming Interface),供搜索系统调用。API的输入可以包括:搜索文本,API的输出可以包括:所述搜索文本指向的地标的属性信息。其中,API是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。
可以理解,上述搜索场景、或者搜索意图理解场景只是作为本申请实施例的应用场景的示例,本申请实施例对于具体的应用场景不加以限制。
本申请实施例所适用的设备具体可以包括但不限于:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3,Moving Picture Experts Group AudioLayer III)播放器、MP4(动态影像专家压缩标准音频层面 4,Moving Picture ExpertsGroup Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。上述设备的角色可以为服务器、或者客户端。可以理解,本申请实施例对于具体的设备、以及设备的具体角色不加以限制。
参照图1,示出了本申请的一种数据处理方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101、接收搜索文本;
步骤102、依据所述搜索文本中的实体,确定所述搜索文本指向的地标;
步骤103、输出所述地标的属性信息,以根据所述地标的属性信息确定所述搜索文本对应的搜索结果。
本申请实施例的方法所包括的步骤101至步骤103可由搜索系统或者搜索意图理解系统执行,可以理解,本申请实施例对于本申请实施例的方法所包括的步骤的具体执行主体不加以限制。
在本申请的一种实施例中,步骤101可以接收用户输入的搜索文本。例如,搜索系统可以通过搜索框接收用户输入的搜索词,该搜索词可以通过键盘方式、或者语音输入方式输入,可以通过语音识别技术将用户输入的语音转换为文本。
在本申请的另一种实施例中,步骤101可以接收搜索系统输入的搜索文本。可选地,可以接收对于API的调用请求,该调用请求中可以包括搜索文本。
本申请实施例中,实体是一个具体事物或概念,实体一般会划分类型,例如地理类实体、商户类实体、人物类实体、电影类实体等实体类型;同一个实体可以对应多个实体实例,实体实例是在网络(或其它媒介)中对一个实体的描述性页面(内容),例如各种百科的页面中即包含实体对应的实体实例。实体的例子可以包括但不限于:人名、地名、商户名、产品名、品牌名等。
本申请实施例中,地标可以指用于确定方位的建筑物或者自然物,上述地标通常与实体相关,故步骤102可以依据所述搜索文本中的实体,确定所述搜索文本指向的地标。
本申请实施例可以利用NER(命名实体识别,Named Entity Recognition)方法,确定所述搜索文本中的实体。
根据一种实施例,NER方法可以包括:基于词库的方法。基于词库的方法可以根据词组出现的频率对高频词构建实体库,对于可以在实体库中检索到的词直接将其识别为实体。其中,词组可以指两个或更多词的组合。在实际应用中,可以从互联网抓取实体相关数据,并对实体相关数据进行分析,以得到对应的实体词,并将该实体词存储至实体库,本发明实施例对于具体的实体词及其获取方式不加以限制。
根据另一种实施例,NER方法可以包括:基于规则的方法。基于规则的方法可以根据词组的组成规则,例如机构名称通常包含地点和职能信息等,将搜索文本中满足相应规则的词组标注为实体。
根据再一种实施例,NER方法可以包括:基于统计学习的方法。基于统计学习的方法将命名实体识别看作一个分类问题,采用类似SVM(支持向量机,Support VectorMachine)、贝叶斯等分类方法;或者,将命名实体识别看作一个序列标注问题,采用HMM(隐马尔科夫模型,Hidden Markov Model)、最大熵模型(Maximum Entropy Model)、CRF(条件随机场, conditional random field algorithm)、LSTM(长短期记忆网络,Long Short-Term Memory)模型等序列标注模型。
在本申请的一种实施例中,上述确定所述搜索文本中的实体的过程可以包括:确定搜索文本的文本特征,然后利用NER方法确定该文本特征对应的实体。其中,该文本特征可以是搜索文本对应的词特征、上下文特征、词与词之间的关系特征等,其中,可以对搜索文本进行分词后得到词,如对搜索文本“长宁来福士”进行分词得“长宁”和“来福士”,分别对“长宁”和“来福士”进行命名实体识别,“长宁/行政区”,“来福士/商场”。
在本申请的一种实施例中,上述利用NER方法确定该文本特征对应的实体的过程可以包括:利用前述的一种或者多种NER方法,对上述文本特征进行识别,以得到该搜索文本对应的候选实体(如商场词、商户名称词、地址词等)。可选地,还可以利用点击特征,确定上述候选实体对应的实体类型,其中,上述点击特征可以为依据用户点击日志得到,上述用户点击日志可以记录用户查询实体的情况下点击的查询结果的类型。可选地,还可以验证上述候选实体是否为实体。上述验证可用于验证实体的边界是否正确、和.或、实体类型是否标注正确等。
可以理解,前述的NER方法和确定所述搜索文本中的实体的过程只是作为可选实施例,实际上,本领域技术人员可以根据实际应用需求,采用所需的NER方法、以及确定所述搜索文本中的实体的过程,本申请实施例对于具体的NER方法和确定所述搜索文本中的实体的具体过程不加以限制。
考虑到实体可以对应有别名、简名等描述,为了实现实体的语义归一,在本申请的一种可选实施例中,所述依据所述搜索文本中的实体,确定所述搜索文本指向的地标的过程,可以包括:对所述搜索文本中实体对应的关键词进行归一化,以得到所述搜索文本中实体对应的标准词;依据所述搜索文本中实体对应的标准词,确定所述搜索文本指向的地标。上述归一化可以将实体对应的关键词转换为标准形式的标准词,这样,可以实现实体表示的唯一化。并且,可以使得实体相关数据库针对一个实体采用一个标准词进行存储,因此,可以降低实体相关数据库的容量,节省实体相关数据库占用的存储空间。实体相关数据库的例子可以包括:实体库、用于表征实体关系的知识图谱(Knowledge Graph)等。其中,实体库可用于存储实体、以及实体对应的属性信息;知识图谱用于描述客观世界的概念、实体、事件及其之间的关系。
并且,上述归一化能够针对不同形式的搜索文本确定其指向的地标,可以大大降低人工运营成本。
在本申请的一种可选实施例中,上述对所述搜索文本中实体对应的关键词进行归一化的过程可以包括:依据归一关键词与标准词之间的映射关系,确定所述搜索文本中实体对应的标准词。具体地,可以将所述搜索文本中实体对应的关键词与上述映射关系中的归一关键词进行匹配,以得到所述搜索文本中实体对应的标准词。
根据一种实施例,可以依据两个词之间的相似度,确定与标准词之间的相似度超过相似度阈值的词,作为归一关键词。其中,可以分别确定标准词与候选词对应的第一词向量和第二词向量,并利用例如余弦距离的度量方法,确定第一词向量和第二词向量之间的相似度。根据另一种实施例,可以收集标准词对应的别名和/或简名,作为归一关键词,如“北京交通大学”的简名为“北交大”、“交大”、或者“北京交大”等。
在本申请的另一种可选实施例中,在所述搜索文本中实体对应的关键词对应有多个标准词的情况下,可以依据标准词对应的点击信息,从多个标准词中选择所述搜索文本中实体对应的标准词。上述点击信息可以包括:点击次数、点击率等,其中,点击率可以指点击次数与被展示次数的比值。例如,搜索文本中实体对应的关键词为“海底捞”,假设根据上述映射关系匹配得到两个标准词:“海底捞火锅”与“海底捞mini火锅外送”;由于大多数用户点击的是“海底捞火锅”,也即,“海底捞火锅”的点击次数大于“海底捞mini火锅外送”,故可以将“海底捞”归一到“海底捞火锅”而不是“海底捞mini火锅外送“。
可以理解,上述对所述搜索文本中实体对应的关键词进行归一化的过程只是作为可选实施例,实际上,本领域技术人员可以根据实际应用需求,确定所需的归一化过程,本申请实施例对于对所述搜索文本中实体对应的关键词进行归一化的具体过程不加以限制。
本申请实施例中,所述实体可以包括但不限于:地址实体、地标实体和品牌实体中的至少一种。
本申请实施例中,所述实体关系可以包括如下关系中的至少一种:
地标实体与品牌实体之间的关系;
地标实体与地址实体之间的关系;以及
地址实体与地址实体之间的关系。
参照图2,示出了本申请实施例的一种实体关系的示意,其中可以包括:地标实体与品牌实体之间的关系、地标实体与地址实体之间的关系、以及地址实体与地址实体之间的关系。
其中,地址实体与地址相关,地址可用于表征方位,如“来福士广场长宁店”对应的地址实体为:“上海市长宁路1139号”。地址实体的信息可以包括:行政区(如长宁区)、商区(如中山公园)、道路(如长宁路)、道路名地址(如长宁路1139号)、分店信息(如长宁店)等,可以理解,本申请实施例对于地址实体的具体信息不加以限制。
地标实体与地标相关,地标的类型可以包括但不限于:商场、交叉路口、小区、学校、景点、酒店、地铁站、影院、摩天大楼、教堂、寺庙、雕像、灯塔、桥梁等。
品牌实体可以与品牌相关,品牌是用以识别某个销售者或某群销售者的产品或服务,并使之与竞争对手的产品或服务区别开来的商业名称及其标志,通常由文字、标记、符号、图案和颜色等要素或这些要素的组合构成。例如“来福士广场”为一个品牌。品牌可以对应有核心词,核心词可以指能精准表达品牌且字数比较少的词,如“来福士广场”的核心词为“来福士”。
地标实体与品牌实体之间的关系可用于表征一个地标实体与其对应的品牌实体之间的关系,例如,地址实体“来福士广场长宁店”与品牌实体“来福士广场”之间可以具有关系。
地标实体与地址实体之间的关系可用于表征一个地标实体与其对应的具体方位之间的关系,例如,地址实体“来福士广场长宁店”与地址实体“上海市长宁路1139号”之间可以具有关系。
地址实体与地址实体之间的关系可用于表征两个地址实体之间的关系。例如,地址实体“安化路”与“凯旋路”之间具备相交关系。
本申请实施例中,所述地标的属性信息可以包括如下信息中的至少一种:标识、类型、形状、地理位置、地理围栏、用户状态和类目。
其中,标识可以为地标的名称、编号等信息;类型可以指地标对应的机构类型,该机构类型可以为依据地标的营业性质得到;形状可以指地标的分布特征,上述形状可以包括:点状、线状、体状;地理位置可以指地标对应的经纬度;地理围栏可以指地标对应的虚拟地理区域。地理围栏可以指针对一个实体,用一个虚拟的栅栏围出一个虚拟地理边界;当终端进入、离开虚拟地理边界对应的地理区域,或在该地理区域内活动时,终端可以接收自动通知和警告;也即,地理围栏可以指一个实体对应的虚拟地理区域,可以理解,本申请实施例对于实体对应的地理围栏不加以限制。
用户状态可以指用户与地标之间的关系,用户状态可以包括:行前状态、或者行中状态,其中,用户位置在地标所属的地理区域范围内,则用户状态为行中状态;或者,若用户位置不在地标所属的地理区域范围内,则用户状态为行前状态。假设用户在“来福士广场长宁店”这个地标内部搜索“长宁来福士”,可以判断用户处于行中状态,那么这个地标对应的内部商户对用户来说更有价值;或者,假设用户在“来福士广场长宁店”外部搜索“长宁来福士”,可以判断用户处于行前状态,那么这个地标对应的周边商户对用户来说更有价值。
类目可以指地标所对应商户的属性,比如火锅、咖啡、等等;可选地,类目可以对应一个级别或者多个级别;以两个级别为例,一级类目的粒度较粗,具体包括:美食、生活服务、教育、出行等,二级类目的粒度较细,具体包括:咖啡(属于美食类目)、火锅(属于美食类目)等等。
地标实体对应的属性信息可以通过线下挖掘、或者在线挖掘的方式得到。例如,对“来福士广场长宁店”这个地标,线下挖掘其位于:“长宁区”、“中山公园商区”和“长宁路”,具体地址为“长宁路1139号”,它属于“来福士广场”这个品牌下,核心词为“来福士”。可以理解,本申请实施例对于地标实体对应的属性信息的具体确定方式不加以限制。
可以理解,图2所示实体关系只是作为可选实施例,本领域技术人员可以根据实际应用需求采用所需的实体关系,本申请实施例对于具体的实体关系不加以限制。
本申请实施例可以提供确定所述搜索文本指向的地标的如下技术方案:
技术方案1
技术方案1中,所述步骤102依据所述搜索文本中的实体,确定所述搜索文本指向的地标的过程,可以包括:依据所述搜索文本中实体之间的关系,确定所述搜索文本指向的地标。
在实际应用中,所述搜索文本中的实体可以为两个或者两个以上,本申请实施例可以依据其中任意两个实体之间的关系,确定所述搜索文本指向的地标。
在本申请的一种可选实施例中,上述实体之间的关系可以包括:地址实体之间的距离,则所述依据所述搜索文本中实体之间的关系,确定所述搜索文本指向的地标的过程,可以包括:确定所述搜索文本中任意两个地址实体之间的距离;若所述距离不超过距离阈值,则依据所述两个地址实体之间的连接信息,确定所述搜索文本指向的地标。
上述连接信息可用于连接上述两个地址实体,上述连接信息可以包括:交点、或者连接道路等。假设道路A与道路B相交,则道路A与道路B之间的连接信息为交点。连接道路的情况可以包括:道路C与道路D相交、以及道路D与道路E相交,道路C与道路E之间的连接道路可以包括:道路D。
根据一种实施例,可以将两个地址实体之间的交点,作为所述搜索文本指向的地标。假设搜索文本为“安化路凯旋路”,则本申请实施例可以确定该搜索文本中包括两条道路的实体:“安化路”和“凯旋路”,并且,根据“安化路”和“凯旋路”之间的距离,确定两者之间的连接信息为交点也即两者具有相交关系,因此,可以确定所述搜索文本指向的地标为:“安化路”和“凯旋路”对应的交叉路口点。
需要说明的是,若不存在以该搜索词“安化路凯旋路”为标签的商户,则现有的搜索引擎将无法提供用户所需的商户,因此无法准确地满足搜索词对应的搜索需求。而本申请实施例可以确定该搜索文本对应的地标“安化路与凯旋路的交叉路口点”,并输出地标“安化路与凯旋路的交叉路口点”的属性信息(如地理位置),以根据地标“安化路与凯旋路的交叉路口点”的属性信息确定该搜索文本对应的搜索结果;该搜索结果中可以包含商户名称与“安化路凯旋路”不匹配的商户,并且,该搜索结果中的商户与该地标之间的距离可以满足一定的需求。
根据另一种实施例,可以从两个地址实体之间的连接道路对应的地标中,选择所述搜索文本指向的地标。例如,可以从两个地址实体之间的连接道路对应的地标中,选择热度最高的地标,作为所述搜索文本指向的地标。其中,可以用户对于地标的操作情况,确定地标的热度,上述操作情况可以包括:点击情况、搜索情况等,可以理解,本申请实施例对于地标的热度的具体确定过程不加以限制。
本申请实施例中,可以依据两个地址实体对应的地理围栏(Geofence),确定两个地址实体之间的距离。在实际应用中,地理围栏可以包括:若干位置点,本申请实施例可以分别从两个地址实体对应的地理围栏中获取第一位置点和第二位置点,计算第一位置点和第二位置点之间的距离,将上述距离的最小值作为两个地址实体之间的距离。
假设第一位置点和第二位置点分别为A点和B点,则A点与B点之间的距离可以为
AB2=AO2+BO2-2AO*BO*Cos(△AOB)
其中,R指地球半径,wa、ja分别为A点的经度和纬度,wb、jb分别为B点的经度和纬度,O点为地球的球心。
可以理解,上述A点与B点之间的距离的计算过程只是作为示例,实际上本领域技术人员可以根据实际应用需求,采用任意方法计算A点与B 点之间的距离,本申请实施例对于A点与B点之间的距离的具体计算过程不加以限制。
本申请实施例中,若两个地址实体分别包括的两个位置点之间的最小距离不超过距离阈值,则可认为在两个地址实体存在交叉,从而确定所述搜索文本指向的地标为:两个地址实体对应的交叉路口点。
当然,上述地址实体之间的距离只是作为搜索文本中实体之间的关系的示例,实际上,搜索文本中实体之间的关系还可以包括:地标实体与地址实体之间的关系,如搜索文本“长宁来福士”对应的两个实体为:“长宁/行政区”,“来福士/商场”,该两个实体之间的关系为:地址实体与地标实体之间的关系,故可以确定所述搜索文本指向的地标地标实体。搜索文本中实体之间的关系还可以包括:地标实体与品牌实体之间的关系等。
技术方案2
技术方案2中,所述步骤102依据所述搜索文本中的实体,确定所述搜索文本指向的地标的过程,可以包括:确定与所述搜索文本中实体存在实体关系的地标实体,作为所述搜索文本指向的地标。
在实际应用中,可以依据所述搜索文本中实体,查询实体关系,以得到与所述搜索文本中实体存在实体关系的地标实体。具体地,假设知识图谱用于表征表征实体关系,则可以将所述搜索文本中实体对应的关键词与知识图谱中相应类型的实体进行匹配,以得到与所述搜索文本中实体存在实体关系的地标实体。
根据一种实施例,可以将所述搜索文本中地址实体对应的关键词与知识图谱中的地址实体进行匹配,若匹配成功,则可以依据知识图谱中记录的地址实体与地标实体之间的关系,得到与所述搜索文本中地址实体存在实体关系的地标实体。例如,搜索文本中地址实体为“上海市长宁路1139号”,则可以得到与该地址实体存在实体关系的地标实体:“来福士广场长宁店”。
根据另一种实施例,可以将所述搜索文本中品牌实体对应的关键词与知识图谱中的品牌实体进行匹配,若匹配成功,则可以依据知识图谱中记录的品牌实体与地标实体之间的关系,得到与所述搜索文本中品牌实体存在实体关系的地标实体。例如,搜索文本中品牌实体为“京泰龙”,则可以得到与该品牌实体存在实体关系的地标实体:“北京京泰龙国际大酒店”。
根据再一种实施例,可以将所述搜索文本中地址实体对应的关键词与知识图谱中的地址实体进行匹配、以及将所述搜索文本中品牌实体对应的关键词与知识图谱中的品牌实体进行匹配,以得到与所述搜索文本中地址实体和品牌实体均存在实体关系的地标实体。
例如,假设搜索文本“长宁来福士”对应的两个实体为:“长宁/行政区”、“来福士/商场”,则可以将地址实体“长宁/行政区”、品牌实体“来福士/商场”分别与知识图谱中的地址实体和品牌实体进行匹配,以得到与地址实体“长宁/行政区”、品牌实体“来福士/商场”均存在实体关系的地标实体:“来福士广场长宁店”。又如,假设搜索文本为“如家成府路”对应的两个实体为:“成府路”、“如家”,则可以将地址实体“五道口”、品牌实体“如家”分别与知识图谱中的地址实体和品牌实体进行匹配,以得到与地址实体“成府路”、品牌实体“如家”均存在实体关系的地标实体:“如家快捷酒店五道口店”。
技术方案3
技术方案3中,所述步骤102依据所述搜索文本中的实体,确定所述搜索文本指向的地标的过程,可以包括:将所述搜索文本中实体的属性信息与地标的属性信息进行匹配,并将匹配成功的地标作为所述搜索文本指向的地标。
例如,假设搜索文本为“交大”,则可以确定该搜索文本中的实体“交大”,借助该搜索文本对应的城市确定该实体“交大”对应的标准词“北京交通大学”,并将该标准词与地标的名称进行匹配,以得到该标准词对应的地标为:“北京交通大学”,该地标的类型为学校。
又如,假设搜索文本“成府路”对应的地址实体为:“成府路”,则可以将“成府路”与地标的名称进行匹配,以得到“成府路”对应的地标为:“成府路”,该地标的类型为道路。
以上通过技术方案1至技术方案3对确定所述搜索文本指向的地标的过程进行了详细介绍,可以理解,本领域技术人员可以根据实际应用需求,采用技术方案1至技术方案3中的任一或者组合,或者还可以采用其他技术方案,本申请实施例对于确定所述搜索文本指向的地标的具体过程不加以限制。
步骤102得到的地标对应的属性信息,可用于确定所述搜索文本对应的搜索结果。步骤103中,第一设备可以将地标对应的属性信息输出给第二设备,或者,第一设备上运行的第一模块可以将地标对应的属性信息输出给第一设备上运行的第二模块。
例如,在搜索意图理解场景下,第一设备上的搜索意图理解系统可以提供API,供调用。API的输入可以包括:搜索文本,API的输出可以包括:所述搜索文本指向的地标的属性信息。这样,第一设备上的搜索意图理解系统可以针对对于API的调用请求,通过步骤101至步骤103得到所述搜索文本指向的地标的属性信息,并向调用方输出所述搜索文本指向的地标的属性信息。调用方可以为例如搜索引擎的搜索系统,该搜索系统可以依据所述搜索文本指向的地标的属性信息,确定所述搜索文本对应的搜索结果。
参照图3,示出了本申请实施例的一种数据处理方法的步骤流程图,参照图4,示出了图3所示方法的流程示意,该方法具体可以包括如下步骤:
步骤301、针对对于API的调用请求中包括的搜索文本,进行命名实体识别,以得到该搜索文本中的实体;
步骤302、对所述搜索文本中实体对应的关键词进行归一化,以得到所述搜索文本中实体对应的标准词;
步骤303、依据所述搜索文本中实体对应的标准词,确定所述搜索文本指向的地标;
步骤304、确定所述地标的属性信息,并向调用方输出所述地标的属性信息。
以搜索文本为“长宁来福士”为例,步骤301可以得到实体的名称、地址、类目等属性信息,具体地,实体的地址为“长宁”,实体的名称为“来福士”;步骤302可以通过语义归一化,得到标准词:实体的地址“长宁区”、以及实体的名称“来福士广场”;步骤303可以将所述搜索文本中实体的属性信息与地标的属性信息进行匹配,以得到特定类型的地标,如景点、酒店、商场、地铁站、行政楼、小区、交叉路口等类型的地标等,例如,实体的地址“长宁区”、以及实体的名称“来福士广场”对应的地标为“来福士广场长宁店”;步骤304可以确定地标的如下属性信息中的至少一种:地理围栏、地理位置、形状、一级类目、二级类目、用户状态等,并且,还可以将属性信息封装为调用结果的形式,并向调用方返回该调用结果。
综上,本申请实施例的数据处理方法,通过地标表征搜索文本对应的搜索意图,该地标的属性信息可被应用于所述搜索文本所对应搜索结果的确定过程,以提高搜索结果与搜索意图之间的匹配度,因此本申请实施例可以使搜索结果更加准确地满足搜索文本对应的搜索意图。具体地,由于本申请实施例的搜索结果可以为依据地标的属性信息得到,故本申请实施例的搜索结果中可以包含商户名称与搜索文本不匹配的商户,并且,本申请实施例的搜索结果可以考虑地标的地理位置,故可以使得搜索结果中的商户与该地标之间的距离满足一定的需求,因此,本申请实施例可以使搜索结果更加准确地满足搜索文本对应的搜索意图。
参照图5,示出了本申请的一种数据处理方法实施例的步骤流程图,具体可以包括如下步骤:
步骤501、接收搜索文本;
步骤502、依据所述搜索文本中的实体,确定所述搜索文本指向的地标;
步骤503、依据所述地标的属性信息,确定所述地标对应的目标商户;
步骤504、输出所述目标商户的信息。
相对于图1所示方法实施例,图5所示方法实施例还可以依据所述地标的属性信息,确定所述地标对应的目标商户,并输出所述目标商户的信息。所述目标商户的信息可以包括:名称、位置、类型、用户评价等信息。在实际应用中,可以通过搜索结果页输出所述目标商户的信息,其中,一个目标商户可以对应一条搜索结果,可以理解,本申请实施例对于输出所述目标商户的信息的具体过程不加以限制。
由于本申请实施例的目标商户可以为依据地标的属性信息得到,故本申请实施例的目标商户中可以包含商户名称与搜索文本不匹配的商户,并且,本申请实施例的搜索结果可以考虑地标的地理位置,故可以使得目标商户与该地标之间的距离满足一定的需求,因此,本申请实施例可以使搜索结果更加准确地满足搜索文本对应的搜索意图。
本申请实施例中,所述地标的属性信息可以包括如下信息中的至少一种:标识、类型、形状、地理位置、地理围栏、用户状态和类目。故本申请实施例可以通过一种属性信息或者多种属性信息理解搜索场景,通过地标来建立属性信息与商户之间的对应关系,更好地满足用户意图。上述属性信息与商户之间的对应关系可以包括:地标标识与商户之间的对应关系、地标的类型与商户之间的对应关系、地标的地理位置与商户之间的对应关系、地标的地理围栏与商户之间的对应关系、地标对应的用户状态与商户之间的对应关系、以及类目与商户之间的对应关系中的至少一种。由此可以通过查询上述对应关系,确定所述地标对应的目标商户。
在本申请的一种可选实施例中,所述地标的属性信息可以包括:形状;
则所述依据所述地标的属性信息,确定所述地标对应的目标商户所采用的确定方式可以包括:
确定方式1、所述地标的形状为面状,依据所述地标对应的第一地点,确定所述地标对应的目标商户;所述第一地点可以包括:入口、出口和预设内部地点中的至少一种;或者
确定方式2、所述地标的形状为线状,依据所述地标对应的第二地点,确定所述地标对应的目标商户;所述第二地点对应的热度符合预置条件;或者
确定方式3、所述地标的形状为点状,依据所述地标与商户之间的距离,确定所述地标对应的目标商户。
本申请实施例可以依据地标的形状,理解搜索场景。由此可以针对地标的不同形状,在目标商户的确定过程中进行差异化处理,由此可以提升用户体验。
对应确定方式1,若地标的形状为面状,如地铁站、小区、景点等,则可以依据所述地标对应的第一地点,确定所述地标对应的目标商户。由于面状的地标内部几乎没有商户,故可以根据面状的地标的若干个入口/出口,分别召回对应的商户,按照商户与这些第一地点的相对位置(如距离远近、是否在道路的同一侧)确定目标商户,因此可以更好地满足用户的搜索意图。因此,上述第一地点可以为离线挖掘或者人为制定的、面状的地标所对应地理围栏中较为重要的地点,如地铁的出口/入口、景点内部的重要地点等。
对于确定方式2,若地标的形状为线状,如道路等,则可以挖掘现状的地标上在沿途上热度比较大的一些第二地点,按照商户与这些第二地点的相对位置确定目标商户,这样可以符合用户的搜索意图。
在本申请的一种可选实施例中,确定第二地点的过程可以包括:确定线状的地标对应的地理位置点与预设POI(兴趣点,Point of interest)之间的距离,依据所述距离对应的排序算法,确定最热的地理位置点。
其中,上述地理位置点位于线状的地标所对应的地理围栏内部,预设 POI可以为热度符合预置条件的POI,上述预置条件可以包括:热度超过热度阈值、或者热度排名符合条件等。
假设线状的地标沿途有j个预设POI,线状的地标所对应地理围栏包括 n个经纬度点,也即,地理围栏是由若干个地理位置点组成的,Pn是其中的一个地理位置点,则排序算法可以通过argminF(n)确定F(n)取得最大值的情况下n的数值,F(n)可以表示为
其中,distance(X,Y)用于计算X点与Y点之间的距离。
对于确定方式3,若地标的形状为点状,如交叉路口等,则可以按照商户与点状的地标之间的相对位置(如距离远近、是否在道路的同一侧)确定目标商户。
在本申请的一种可选实施例中,所述地标的属性信息可以包括:用户状态,用户户状态可以指用户与地标之间的关系,用户状态可以包括:行前状态、或者行中状态。根据一种实施例,若用户状态为行中状态,则可以将所述地标对应地理围栏内部的商户,作为目标商户。根据另一种实施例,若用户状态为行前状态,则可以将所述地标对应地理围栏外部的商户,作为目标商户。
综上,本申请实施例的数据处理方法,目标商户可以为依据地标的属性信息得到,故本申请实施例的目标商户中可以包含商户名称与搜索文本不匹配的商户,并且,本申请实施例的搜索结果可以考虑地标的地理位置,故可以使得目标商户与该地标之间的距离满足一定的需求,因此,本申请实施例可以使搜索结果更加准确地满足搜索文本对应的搜索意图。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的运动动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的运动动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的运动动作并不一定是本发明实施例所必须的。
装置实施例
参照图6,示出了本发明的一种数据处理装置实施例的结构框图,具体可以包括:
接收模块601,用于接收搜索文本;
地标确定模块602,用于依据所述搜索文本中的实体,确定所述搜索文本指向的地标;以及
属性输出模块603,用于输出所述地标的属性信息,以根据所述地标的属性信息确定所述搜索文本对应的搜索结果。
可选地,所述地标确定模块602可以包括:
第一地标确定子模块,用于依据所述搜索文本中实体之间的关系,确定所述搜索文本指向的地标;和/或
第二地标确定子模块,用于确定与所述搜索文本中实体存在实体关系的地标实体,作为所述搜索文本指向的地标;和/或
第三地标确定子模块,用于将所述搜索文本中实体的属性信息与地标的属性信息进行匹配,并将匹配成功的地标作为所述搜索文本指向的地标。
可选地,所述第一地标确定子模块,用于可以包括:
距离确定单元,用于确定所述搜索文本中任意两个地址实体之间的距离;
地标确定单元,用于若所述距离不超过距离阈值,则依据所述两个地址实体之间的连接信息,确定所述搜索文本指向的地标。
可选地,所述实体可以包括:地址实体、地标实体和品牌实体中的至少一种;
所述实体关系可以包括如下关系中的至少一种:
地标实体与品牌实体之间的关系;
地标实体与地址实体之间的关系;以及
地址实体与地址实体之间的关系。
可选地,所述地标确定模块602可以包括:
归一化子模块,用于对所述搜索文本中实体对应的关键词进行归一化,以得到所述搜索文本中实体对应的标准词;
第四地标确定子模块,用于依据所述搜索文本中实体对应的标准词,确定所述搜索文本指向的地标。
可选地,所述地标的属性信息可以包括如下信息中的至少一种:
标识、类型、形状、地理位置、地理围栏、用户状态和类目。
可选地,所述装置还可以包括:
商户确定模块,用于依据所述地标的属性信息,确定所述地标对应的目标商户;
商户输出模块,用于输出所述目标商户的信息。
可选地,所述地标的属性信息可以包括:形状;
所述商户确定模块可以包括:
第一商户确定子模块,用于所述地标的形状为面状,依据所述地标对应的第一地点,确定所述地标对应的目标商户;所述第一地点可以包括:入口、出口和预设内部地点中的至少一种;或者
第二商户确定子模块,用于所述地标的形状为线状,依据所述地标对应的第二地点,确定所述地标对应的目标商户;所述第二地点对应的热度符合预置条件;或者
第三商户确定子模块,用于所述地标的形状为点状,依据所述地标与商户之间的距离,确定所述地标对应的目标商户。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
相应的,本申请还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如图1至图5中一个或多个所述的数据处理方法。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。
本申请还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如图1至图5中一个或多个所述的数据处理方法的步骤。
参照图7,示出了本申请的一种电子设备1500的结构示意图,具体可以包括:至少一个处理器1501、存储器1502、至少一个网络接口1504和用户接口1503。电子设备1500中的各个组件通过总线系统1505耦合在一起。可理解,总线系统1505用于实现这些组件之间的连接通信。总线系统1505 除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图7中将各种总线都标为总线系统1505。
其中,用户接口1503可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
可以理解,本申请实施例中的存储器1502可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器 (ProgrammableROM,PROM)、可擦除可编程只读存储器(ErasablePROM, EPROM)、电可擦除可编程只读存储器(ElectricallyEPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(RandomAccessMemory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(StaticRAM,SRAM)、动态随机存取存储器 (DynamicRAM,DRAM)、同步动态随机存取存储器(SynchronousDRAM, SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleDataRate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(SynchlinkDRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambusRAM, DRRAM)。本申请实施例描述的系统和方法的存储器1502旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器1502存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统15021和应用程序15022。
其中,操作系统15021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序 15022,包含各种应用程序,例如媒体播放器(MediaPlayer)、浏览器 (Browser)等,用于实现各种应用业务。实现本申请实施例方法的程序可以包含在应用程序15022中。
在本申请实施例中,通过调用存储器1502存储的程序或指令,具体的,可以是应用程序15022中存储的程序或指令,处理器1501用于获取当前移动终端对应的访问接入点列表;获取所述访问接入点列表中接入点对应的预置子区域;其中,所述预置子区域为根据所述接入点的访问接入点信号覆盖范围内历史移动终端的历史定位坐标得到;所述预置子区域在所述接入点的访问接入点信号覆盖范围内、且所述接入点的访问接入点信号为所述预置子区域中唯一存在的访问接入点信号;从所述预置子区域中确定目标预置子区域,并依据所述目标预置子区域对应的历史定位坐标,得到所述当前移动终端的定位结果。
上述本申请实施例揭示的方法可以应用于处理器1501中,或者由处理器1501实现。处理器1501可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1501可以是通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路 (ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(FieldProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1502,处理器1501读取存储器1502 中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本申请实施例描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecificIntegratedCircuits,ASIC)、数字信号处理器(DigitalSignalProcessing,DSP)、数字信号处理设备 (DSPDevice,DSPD)、可编程逻辑设备(ProgrammableLogicDevice,PLD)、现场可编程门阵列(Field-ProgrammableGateArray,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本申请实施例中所述功能的模块(例如过程、函数等)来实现本申请实施例中所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请提供的一种数据处理方法、装置及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件物品的形式体现出来,该计算机软件物品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
Claims (18)
1.一种数据处理方法,其特征在于,包括:
接收搜索文本;
依据所述搜索文本中的实体,确定所述搜索文本指向的地标;
输出所述地标的属性信息,以根据所述地标的属性信息确定所述搜索文本对应的搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述依据所述搜索文本中的实体,确定所述搜索文本指向的地标,包括:
依据所述搜索文本中实体之间的关系,确定所述搜索文本指向的地标;和/或
确定与所述搜索文本中实体存在实体关系的地标实体,作为所述搜索文本指向的地标;和/或
将所述搜索文本中实体的属性信息与地标的属性信息进行匹配,并将匹配成功的地标作为所述搜索文本指向的地标。
3.根据权利要求2所述的方法,其特征在于,所述依据所述搜索文本中实体之间的关系,确定所述搜索文本指向的地标,包括:
确定所述搜索文本中任意两个地址实体之间的距离;
若所述距离不超过距离阈值,则依据所述两个地址实体之间的连接信息,确定所述搜索文本指向的地标。
4.根据权利要求2所述的方法,其特征在于,所述实体包括:地址实体、地标实体和品牌实体中的至少一种;
所述实体关系包括如下关系中的至少一种:
地标实体与品牌实体之间的关系;
地标实体与地址实体之间的关系;以及
地址实体与地址实体之间的关系。
5.根据权利要求1所述的方法,其特征在于,所述依据所述搜索文本中的实体,确定所述搜索文本指向的地标,包括:
对所述搜索文本中实体对应的关键词进行归一化,以得到所述搜索文本中实体对应的标准词;
依据所述搜索文本中实体对应的标准词,确定所述搜索文本指向的地标。
6.根据权利要求1至5中任一所述的方法,其特征在于,所述地标的属性信息包括如下信息中的至少一种:
标识、类型、形状、地理位置、地理围栏、用户状态和类目。
7.根据权利要求1至5中任一所述的方法,其特征在于,所述方法还包括:
依据所述地标的属性信息,确定所述地标对应的目标商户;
输出所述目标商户的信息。
8.根据权利要求7所述的方法,其特征在于,所述地标的属性信息包括:形状;
所述依据所述地标的属性信息,确定所述地标对应的目标商户,包括:
所述地标的形状为面状,依据所述地标对应的第一地点,确定所述地标对应的目标商户;所述第一地点包括:入口、出口和预设内部地点中的至少一种;或者
所述地标的形状为线状,依据所述地标对应的第二地点,确定所述地标对应的目标商户;所述第二地点对应的热度符合预置条件;或者
所述地标的形状为点状,依据所述地标与商户之间的距离,确定所述地标对应的目标商户。
9.一种数据处理装置,其特征在于,包括:
接收模块,用于接收搜索文本;
地标确定模块,用于依据所述搜索文本中的实体,确定所述搜索文本指向的地标;以及
属性输出模块,用于输出所述地标的属性信息,以根据所述地标的属性信息确定所述搜索文本对应的搜索结果。
10.根据权利要求9所述的装置,其特征在于,所述地标确定模块包括:
第一地标确定子模块,用于依据所述搜索文本中实体之间的关系,确定所述搜索文本指向的地标;和/或
第二地标确定子模块,用于确定与所述搜索文本中实体存在实体关系的地标实体,作为所述搜索文本指向的地标;和/或
第三地标确定子模块,用于将所述搜索文本中实体的属性信息与地标的属性信息进行匹配,并将匹配成功的地标作为所述搜索文本指向的地标。
11.根据权利要求10所述的装置,其特征在于,所述第一地标确定子模块,用于包括:
距离确定单元,用于确定所述搜索文本中任意两个地址实体之间的距离;
地标确定单元,用于若所述距离不超过距离阈值,则依据所述两个地址实体之间的连接信息,确定所述搜索文本指向的地标。
12.根据权利要求10所述的装置,其特征在于,所述实体包括:地址实体、地标实体和品牌实体中的至少一种;
所述实体关系包括如下关系中的至少一种:
地标实体与品牌实体之间的关系;
地标实体与地址实体之间的关系;以及
地址实体与地址实体之间的关系。
13.根据权利要求9所述的装置,其特征在于,所述地标确定模块包括:
归一化子模块,用于对所述搜索文本中实体对应的关键词进行归一化,以得到所述搜索文本中实体对应的标准词;
第四地标确定子模块,用于依据所述搜索文本中实体对应的标准词,确定所述搜索文本指向的地标。
14.根据权利要求9至13中任一所述的装置,其特征在于,所述地标的属性信息包括如下信息中的至少一种:
标识、类型、形状、地理位置、地理围栏、用户状态和类目。
15.根据权利要求9至13中任一所述的装置,其特征在于,所述装置还包括:
商户确定模块,用于依据所述地标的属性信息,确定所述地标对应的目标商户;
商户输出模块,用于输出所述目标商户的信息。
16.根据权利要求15所述的装置,其特征在于,所述地标的属性信息包括:形状;
所述商户确定模块包括:
第一商户确定子模块,用于所述地标的形状为面状,依据所述地标对应的第一地点,确定所述地标对应的目标商户;所述第一地点包括:入口、出口和预设内部地点中的至少一种;或者
第二商户确定子模块,用于所述地标的形状为线状,依据所述地标对应的第二地点,确定所述地标对应的目标商户;所述第二地点对应的热度符合预置条件;或者
第三商户确定子模块,用于所述地标的形状为点状,依据所述地标与商户之间的距离,确定所述地标对应的目标商户。
17.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任意一项所述的数据处理方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至8任意一项所述的数据处理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810265316.1A CN108628943B (zh) | 2018-03-28 | 2018-03-28 | 一种数据处理方法、装置和电子设备 |
PCT/CN2018/121502 WO2019184463A1 (zh) | 2018-03-28 | 2018-12-17 | 数据处理 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810265316.1A CN108628943B (zh) | 2018-03-28 | 2018-03-28 | 一种数据处理方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108628943A true CN108628943A (zh) | 2018-10-09 |
CN108628943B CN108628943B (zh) | 2021-10-08 |
Family
ID=63696447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810265316.1A Active CN108628943B (zh) | 2018-03-28 | 2018-03-28 | 一种数据处理方法、装置和电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108628943B (zh) |
WO (1) | WO2019184463A1 (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657145A (zh) * | 2018-12-20 | 2019-04-19 | 拉扎斯网络科技(上海)有限公司 | 商户搜索方法及装置、电子设备及计算机可读存储介质 |
CN110275963A (zh) * | 2019-06-25 | 2019-09-24 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
WO2019184463A1 (zh) * | 2018-03-28 | 2019-10-03 | 北京三快在线科技有限公司 | 数据处理 |
CN111324679A (zh) * | 2018-12-14 | 2020-06-23 | 阿里巴巴集团控股有限公司 | 地址信息的处理方法、装置和系统 |
CN111581245A (zh) * | 2020-03-26 | 2020-08-25 | 口口相传(北京)网络技术有限公司 | 一种数据搜索方法以及装置 |
CN111881183A (zh) * | 2020-07-28 | 2020-11-03 | 北京金堤科技有限公司 | 企业名称匹配方法和装置、以及存储介质和电子设备 |
WO2021000491A1 (zh) * | 2019-07-03 | 2021-01-07 | 平安科技(深圳)有限公司 | 问句实体识别与链接方法、装置、计算机设备及存储介质 |
CN113094600A (zh) * | 2020-01-08 | 2021-07-09 | 百度在线网络技术(北京)有限公司 | 电子地图的搜索方法、装置、设备和介质 |
CN113297456A (zh) * | 2021-05-20 | 2021-08-24 | 北京三快在线科技有限公司 | 搜索方法、装置、电子设备及存储介质 |
CN114117004A (zh) * | 2021-11-24 | 2022-03-01 | 北京百度网讯科技有限公司 | 地址识别方法、装置、电子设备以及存储介质 |
CN116910186A (zh) * | 2023-09-12 | 2023-10-20 | 南京信息工程大学 | 一种文本索引模型构建方法、索引方法、系统和终端 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627184B (zh) * | 2020-05-08 | 2023-09-26 | 北京京东振世信息技术有限公司 | 数据处理方法和装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102262630A (zh) * | 2010-05-31 | 2011-11-30 | 国际商业机器公司 | 进行扩展化搜索的方法和装置 |
CN103064904A (zh) * | 2011-12-18 | 2013-04-24 | 微软公司 | 查询构件的基于地图的选择 |
CN103292823A (zh) * | 2012-02-23 | 2013-09-11 | 日本善邻数据通信有限公司 | 路径搜索系统和路径搜索方法 |
CN103353869A (zh) * | 2013-05-31 | 2013-10-16 | 百度在线网络技术(北京)有限公司 | 一种基于用户位置的搜索结果提供方法以及服务器 |
CN103425659A (zh) * | 2012-05-15 | 2013-12-04 | 阿里巴巴集团控股有限公司 | 基于地理位置的信息搜索方法及服务器 |
CN103714092A (zh) * | 2012-09-29 | 2014-04-09 | 北京百度网讯科技有限公司 | 一种地理位置的搜索方法和装置 |
CN105426414A (zh) * | 2015-11-02 | 2016-03-23 | 杭州友谦网络科技有限公司 | 一种基于地理围栏的用户搜索匹配方法及装置 |
CN105592120A (zh) * | 2014-10-27 | 2016-05-18 | 阿里巴巴集团控股有限公司 | 提供地理位置信息的方法及装置 |
CN107273376A (zh) * | 2016-04-07 | 2017-10-20 | 阿里巴巴集团控股有限公司 | 目标位置搜索方法和装置 |
US20170357670A1 (en) * | 2016-02-17 | 2017-12-14 | Www.Trustscience.Com Inc. | Searching for entities based on trust score and geography |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100428236C (zh) * | 2006-05-12 | 2008-10-22 | 熊昺辉 | 网络信息分类和搜索方法 |
US20140040236A1 (en) * | 2012-07-31 | 2014-02-06 | Microsoft Corporation | Visualization of top local geographical entities through web search data |
CN103353894A (zh) * | 2013-07-19 | 2013-10-16 | 武汉睿数信息技术有限公司 | 一种基于语义分析的数据搜索方法和系统 |
CN108628943B (zh) * | 2018-03-28 | 2021-10-08 | 北京三快在线科技有限公司 | 一种数据处理方法、装置和电子设备 |
-
2018
- 2018-03-28 CN CN201810265316.1A patent/CN108628943B/zh active Active
- 2018-12-17 WO PCT/CN2018/121502 patent/WO2019184463A1/zh active Application Filing
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102262630A (zh) * | 2010-05-31 | 2011-11-30 | 国际商业机器公司 | 进行扩展化搜索的方法和装置 |
CN103064904A (zh) * | 2011-12-18 | 2013-04-24 | 微软公司 | 查询构件的基于地图的选择 |
CN103292823A (zh) * | 2012-02-23 | 2013-09-11 | 日本善邻数据通信有限公司 | 路径搜索系统和路径搜索方法 |
CN103425659A (zh) * | 2012-05-15 | 2013-12-04 | 阿里巴巴集团控股有限公司 | 基于地理位置的信息搜索方法及服务器 |
CN103714092A (zh) * | 2012-09-29 | 2014-04-09 | 北京百度网讯科技有限公司 | 一种地理位置的搜索方法和装置 |
CN103353869A (zh) * | 2013-05-31 | 2013-10-16 | 百度在线网络技术(北京)有限公司 | 一种基于用户位置的搜索结果提供方法以及服务器 |
CN105592120A (zh) * | 2014-10-27 | 2016-05-18 | 阿里巴巴集团控股有限公司 | 提供地理位置信息的方法及装置 |
CN105426414A (zh) * | 2015-11-02 | 2016-03-23 | 杭州友谦网络科技有限公司 | 一种基于地理围栏的用户搜索匹配方法及装置 |
US20170357670A1 (en) * | 2016-02-17 | 2017-12-14 | Www.Trustscience.Com Inc. | Searching for entities based on trust score and geography |
CN107273376A (zh) * | 2016-04-07 | 2017-10-20 | 阿里巴巴集团控股有限公司 | 目标位置搜索方法和装置 |
Non-Patent Citations (2)
Title |
---|
史云松: "基于ArcGIS Server的网络地图服务系统研究与实现", 《中国优秀硕士学位论文全文数据库基础科学辑》 * |
陈能成: "《网络地理信息系统的方法与实践》", 31 August 2009, 武汉大学出版社 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019184463A1 (zh) * | 2018-03-28 | 2019-10-03 | 北京三快在线科技有限公司 | 数据处理 |
CN111324679B (zh) * | 2018-12-14 | 2023-04-11 | 阿里巴巴集团控股有限公司 | 地址信息的处理方法、装置和系统 |
CN111324679A (zh) * | 2018-12-14 | 2020-06-23 | 阿里巴巴集团控股有限公司 | 地址信息的处理方法、装置和系统 |
CN109657145A (zh) * | 2018-12-20 | 2019-04-19 | 拉扎斯网络科技(上海)有限公司 | 商户搜索方法及装置、电子设备及计算机可读存储介质 |
CN110275963A (zh) * | 2019-06-25 | 2019-09-24 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
WO2021000491A1 (zh) * | 2019-07-03 | 2021-01-07 | 平安科技(深圳)有限公司 | 问句实体识别与链接方法、装置、计算机设备及存储介质 |
CN113094600A (zh) * | 2020-01-08 | 2021-07-09 | 百度在线网络技术(北京)有限公司 | 电子地图的搜索方法、装置、设备和介质 |
US11609961B2 (en) | 2020-01-08 | 2023-03-21 | Baidu Online Network Technology (Beijing) Co., Ltd. | Search method and apparatus for an electronic map, device and medium |
CN111581245A (zh) * | 2020-03-26 | 2020-08-25 | 口口相传(北京)网络技术有限公司 | 一种数据搜索方法以及装置 |
CN111581245B (zh) * | 2020-03-26 | 2023-10-17 | 口口相传(北京)网络技术有限公司 | 一种数据搜索方法以及装置 |
CN111881183A (zh) * | 2020-07-28 | 2020-11-03 | 北京金堤科技有限公司 | 企业名称匹配方法和装置、以及存储介质和电子设备 |
CN113297456A (zh) * | 2021-05-20 | 2021-08-24 | 北京三快在线科技有限公司 | 搜索方法、装置、电子设备及存储介质 |
CN114117004B (zh) * | 2021-11-24 | 2023-06-30 | 北京百度网讯科技有限公司 | 地址识别方法、装置、电子设备以及存储介质 |
CN114117004A (zh) * | 2021-11-24 | 2022-03-01 | 北京百度网讯科技有限公司 | 地址识别方法、装置、电子设备以及存储介质 |
CN116910186A (zh) * | 2023-09-12 | 2023-10-20 | 南京信息工程大学 | 一种文本索引模型构建方法、索引方法、系统和终端 |
CN116910186B (zh) * | 2023-09-12 | 2023-11-21 | 南京信息工程大学 | 一种文本索引模型构建方法、索引方法、系统和终端 |
Also Published As
Publication number | Publication date |
---|---|
WO2019184463A1 (zh) | 2019-10-03 |
CN108628943B (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108628943A (zh) | 一种数据处理方法、装置和电子设备 | |
CN108804532B (zh) | 一种查询意图的挖掘和查询意图的识别方法、装置 | |
CN102142003B (zh) | 兴趣点信息提供方法及装置 | |
US20050149507A1 (en) | Systems and methods for identifying an internet resource address | |
CN110968654B (zh) | 文本数据的地址类目确定方法、设备以及系统 | |
CN103914498A (zh) | 一种地图搜索的搜索建议方法和装置 | |
CN108388582A (zh) | 用于识别相关实体的方法、系统和装置 | |
KR20100068492A (ko) | 맵 기반 표시를 포함하는 지리적 특정 검색 결과들을 위한 방법 및 장치 | |
US20130144860A1 (en) | System and Method for Automatically Identifying Classified Websites | |
CN105183733A (zh) | 一种文本信息的匹配、业务对象的推送方法和装置 | |
US20100325129A1 (en) | Determining the geographic scope of web resources using user click data | |
Ashari | Implementation of cyber-physical-social system based on service oriented architecture in smart tourism | |
KR20160133304A (ko) | 사용자 리뷰 제공 방법, 장치 및 컴퓨터 프로그램 | |
Yang et al. | A mobile location-based information recommendation system based on gps and web 2.0 services | |
US20130018704A1 (en) | Systems and methods for determining school geographic boundaries and related searches | |
CN112102006A (zh) | 基于大数据分析的目标客户获取方法、搜索方法及装置 | |
CN107943906A (zh) | 一种信息的收藏、展示方法和装置 | |
US20110264683A1 (en) | System and method for managing information map | |
Souza et al. | The role of gazetteers in geographic knowledge discovery on the web | |
KR20110059070A (ko) | 부동산 정보 제공 방법 및 이를 위한 시스템 | |
KR101867421B1 (ko) | 소셜 데이터를 이용한 서비스 제공업체 추천 방법 및 장치 | |
CN114513550B (zh) | 一种地理位置信息的处理方法、装置及电子设备 | |
Hattori et al. | Activity-based query refinement for context-aware information retrieval | |
TW201030540A (en) | System for conducting a geographic-oriented keyword advertisement recommendation and method of the same | |
Achmad et al. | Context-aware based restaurant recommender system: a prescriptive analytics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |