CN110019201B - 一种生成结构化数据的方法、装置及系统 - Google Patents

一种生成结构化数据的方法、装置及系统 Download PDF

Info

Publication number
CN110019201B
CN110019201B CN201710927218.5A CN201710927218A CN110019201B CN 110019201 B CN110019201 B CN 110019201B CN 201710927218 A CN201710927218 A CN 201710927218A CN 110019201 B CN110019201 B CN 110019201B
Authority
CN
China
Prior art keywords
information
target
content type
destination
type information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710927218.5A
Other languages
English (en)
Other versions
CN110019201A (zh
Inventor
胡刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201710927218.5A priority Critical patent/CN110019201B/zh
Publication of CN110019201A publication Critical patent/CN110019201A/zh
Application granted granted Critical
Publication of CN110019201B publication Critical patent/CN110019201B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2291User-Defined Types; Storage management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种生成结构化数据的方法、装置及系统,所述方法包括:获取指定目的地标识对应的目标内容类型信息;从预设的目录集合中匹配所述指定目的地标识以及所述目标内容类型信息,获得对应的目标目录,其中,所述目标目录包括一个或多个目标信息点标识;从预设的素材数据库中提取与所述一个或多个目标信息点标识对应的目标素材;基于所述目标素材以及所述目标目录,生成基于所述指定目的地标识的结构化数据。在本发明实施例中,整个过程无需人工参与,自动化程度高,提高了目标结构化数据的产出效率。

Description

一种生成结构化数据的方法、装置及系统
技术领域
本申请涉及数据处理技术领域,特别是涉及一种生成结构化数据的方法、一种生成结构化数据的装置以及一种生成结构化数据的系统。
背景技术
随着互联网技术的飞速发展,网络信息迅速成为人们获取信息的主要渠道之一。互联网在将人类可以获取的几乎所有知识纳入其中的同时,也给资源的使用者和提供者带来了巨大压力。
在现有技术中,数据提供方可以通过网页的信息向使用者展示结构化数据,其中,现有的网页中的很多结构化数据的都是用户输入的文章,内容的生产过程对人的依赖性比较大,生产数量少、效率低。
发明内容
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种生成结构化数据的方法和相应地一种生成结构化数据的装置以及一种生成结构化数据的系统。
为了解决上述问题,本申请实施例公开了一种生成结构化数据的方法,所述方法包括:
获取指定目的地标识对应的目标内容类型信息;
从预设的目录集合中匹配所述指定目的地标识以及所述目标内容类型信息,获得对应的目标目录,其中,所述目标目录包括一个或多个目标信息点标识;
从预设的素材数据库中提取与所述一个或多个目标信息点标识对应的目标素材;
基于所述目标素材以及所述目标目录,生成基于所述指定目的地标识的结构化数据。
优选地,所述获取指定目的地标识对应的目标内容类型信息,包括:
针对目的地集合中的各个目的地,获取所述目的地对应的已有结构化数据;
确定所述已有结构化数据具备的内容类型信息;
基于所述内容类型信息,确定所述指定目的地标识缺失的内容类型信息,作为目标内容类型信息。
优选地,所述基于所述内容类型信息,确定所述指定目的地标识缺失的内容类型信息,作为目标内容类型信息,包括:
获取所述内容类型信息对应的已有结构化数据的数量;
若所述数量没有达到指定阈值,则计算所述指定阈值与所述数量的差值,作为所述指定目的地标识针对所述内容类型信息缺失的结构化数据的数量。
优选地,所述素材数据库采用如下方式生成:
创建素材数据库,所述素材数据库包括信息点集合;
采集素材信息;
确定所述素材信息关联的信息点;
判断所述关联的信息点是否存在所述信息点集合中;
若是,则将所述素材信息与所述信息点绑定;
若否,则在所述信息点集合中添加所述关联的信息点,并将所述素材信息与所述信息点绑定。
优选地,所述方法还包括:
针对所述信息点集合中各个信息点对应的素材信息,分别获取所述素材信息的排序分数;
基于所述排序分数,对所述信息点中的素材信息进行排序。
优选地,所述从预设的素材数据库中提取与所述一个或多个目标信息点标识对应的目标素材,包括:
在所述信息点集合中匹配所述目标信息点标识,获得所述目标信息点标识对应的,排序在前的多种素材信息,作为目标素材。
优选地,所述目录集合采用如下方式生成:
获取目的地集合;
针对所述目的地集合中的各个目的地标识,确定所述目的地标识下的,与指定内容类型信息对应的候选信息点;
将所述候选信息点进行排序;
生成所述目的地标识、所述指定内容类型信息以及对应的排序后的候选信息点的绑定关系,作为所述目的地标识针对指定内容类型信息的目录;
将所有目的地对应的目录组织成目录集合。
优选地,所述针对所述目的地集合中的各个目的地标识,确定所述目的地标识下的,与指定内容类型信息对应的候选信息点,包括:
针对所述目的地集合中的各个目的地标识,从所述信息点集合中,选取属于所述目的地标识的针对指定信息点类型的信息点,作为候选信息点。
优选地,所述将所述候选信息点进行排序的步骤包括:
分别获取所述候选信息点在一个或多个指定维度中对应的信息点数据;
基于所述一个或多个指定维度对应的信息点数据,对所述候选信息点进行排序。
优选地,所述针对所述目的地集合中的各个目的地标识,确定所述目的地标识下的,与指定内容类型信息对应的候选信息点,包括:
针对所述目的地集合中的每一个目的地标识,获取所述目的地标识下的,指定内容类型信息对应的结构化数据;
基于所述指定内容类型信息对应的结构化数据,提取多个候选信息点以及所述候选信息点对应的时间信息。
优选地,所述将所述候选信息点进行排序的步骤包括:
按照各个候选信息点的时间信息的先后顺序,对所述候选信息点进行排序。
本发明实施例还公开了一种生成结构化数据的装置,所述装置包括:
类型信息获取模块,用于获取指定目的地标识对应的目标内容类型信息;
目标目录获取模块,用于从预设的目录集合中匹配所述指定目的地标识以及所述目标内容类型信息,获得对应的目标目录,其中,所述目标目录包括一个或多个目标信息点标识;
目标素材提取模块,用于从预设的素材数据库中提取与所述一个或多个目标信息点标识对应的目标素材;
结构化数据生成模块,用于基于所述目标素材以及所述目标目录,生成基于所述指定目的地标识的结构化数据。
优选地,所述类型信息获取模块包括:
已有结构化数据获取子模块,用于针对目的地集合中的各个目的地,获取所述目的地对应的已有结构化数据;
已有类型确定子模块,用于确定所述已有结构化数据具备的内容类型信息;
目标类型确定子模块,用于基于所述内容类型信息,确定所述指定目的地标识缺失的内容类型信息,作为目标内容类型信息。
优选地,所述目标类型确定子模块还用于:
获取所述内容类型信息对应的已有结构化数据的数量;
若所述数量没有达到指定阈值,则计算所述指定阈值与所述数量的差值,作为所述指定目的地标识针对所述内容类型信息缺失的结构化数据的数量。
优选地,通过素材数据库生成模块生成素材数据库,所述素材数据库生成模块包括:
数据库创建子模块,用于创建素材数据库,所述素材数据库包括信息点集合;
素材采集子模块,用于采集素材信息;
信息点确定子模块,用于确定所述素材信息关联的信息点;
判断子模块,用于判断所述关联的信息点是否存在所述信息点集合中,若是,则调用绑定子模块,若否,则调用信息点添加子模块;
绑定子模块,用于将所述素材信息与所述信息点绑定;
信息点添加子模块,用于在所述信息点集合中添加所述关联的信息点,并调用绑定子模块。
优选地,所述装置还包括:
排序分数获取模块,用于针对所述信息点集合中各个信息点对应的素材信息,分别获取所述素材信息的排序分数;
素材排序模块,用于基于所述排序分数,对所述信息点中的素材信息进行排序。
优选地,所述目标素材提取模块还用于:
在所述信息点集合中匹配所述目标信息点标识,获得所述目标信息点标识对应的,排序在前的多种素材信息,作为目标素材。
优选地,通过目录生成模块生成目录集合,所述目录生成模块包括:
目的地集合获取子模块,用于获取目的地集合;
候选信息点确定子模块,用于针对所述目的地集合中的各个目的地标识,确定所述目的地标识下的,与指定内容类型信息对应的候选信息点;
排序子模块,用于将所述候选信息点进行排序;
绑定关系生成子模块,用于生成所述目的地标识、所述指定内容类型信息以及对应的排序后的候选信息点的绑定关系,作为所述目的地标识针对指定内容类型信息的目录;
集合组织子模块,用于将所有目的地对应的目录组织成目录集合。
优选地,所述候选信息点确定子模块还用于:
针对所述目的地集合中的各个目的地标识,从所述信息点集合中,选取属于所述目的地标识的针对指定信息点类型的信息点,作为候选信息点。
优选地,所述排序子模块还用于:
分别获取所述候选信息点在一个或多个指定维度中对应的信息点数据;
基于所述一个或多个指定维度对应的信息点数据,对所述候选信息点进行排序。
优选地,所述候选信息点确定子模块还用于:
针对所述目的地集合中的每一个目的地标识,获取所述目的地标识下的,指定内容类型信息对应的结构化数据;
基于所述指定内容类型信息对应的结构化数据,提取多个候选信息点以及所述候选信息点对应的时间信息。
优选地,所述排序子模块还用于:
按照各个候选信息点的时间信息的先后顺序,对所述候选信息点进行排序。
本发明实施例还公开了一种生成结构化数据的系统,所述系统包括内容分析子系统、内容生产引擎、素材数据库、目录数据库,其中,
所述内容分析子系统,用于获取指定目的地标识对应的目标内容类型信息;
所述内容生产引擎,用于从所述目录数据库中匹配所述指定目的地标识以及所述目标内容类型信息,获得对应的目标目录,以及,从所述素材数据库中提取与所述目标目录中的一个或多个目标信息点标识对应的目标素材,并基于所述目标素材以及所述目标目录,生成基于所述指定目的地标识的结构化数据。
优选地,所述系统还包括:
素材采集子系统,用于创建包括信息点集合的素材数据库;采集素材信息;确定所述素材信息关联的信息点;判断所述关联的信息点是否存在所述信息点集合中;若是,则将所述素材信息与所述信息点绑定;若否,则在所述信息点集合中添加所述关联的信息点,并将所述素材信息与所述信息点绑定。
优选地,所述系统还包括:
内容质量子系统,用于针对所述信息点集合中各个信息点对应的素材信息,分别获取所述素材信息的排序分数;基于所述排序分数,对所述信息点中的素材信息进行排序。
优选地,所述系统还包括:
目录生成子系统,用于获取目的地集合;针对所述目的地集合中的各个目的地标识,确定所述目的地标识下的,与指定内容类型信息对应的候选信息点;将所述候选信息点进行排序;生成所述目的地标识、所述指定内容类型信息以及对应的排序后的候选信息点的绑定关系,作为所述目的地标识针对指定内容类型信息的目录;将所有目的地对应的目录组织成目录数据库。
本申请实施例包括以下优点:
在本申请实施例中,可以获取已有的已有结构化数据,对该已有结构化数据进行分析,确定需要的指定目的地标识以及目标内容类型信息,从预先生成的目录集合中查找与该需要的指定目的地标识以及目标内容类型信息对应的目标目录以后,可以根据目标目录中的目标信息点标识,从预先生成的素材数据库中获取各个目标信息点标识对应的目标素材,将目标素材以及目标目录进行包装后可以产出目标结构化数据,整个过程无需人工参与,自动化程度高,提高了目标结构化数据的产出效率。
附图说明
图1是本申请的生成素材数据库的步骤流程图;
图2是本申请的一种生成目录集合的步骤流程图;
图3是本申请的榜单骨架示意图;
图4是本申请的一种生成结构化数据的方法实施例的步骤流程图;
图5是本申请的目标结构化数据的框架示意图;
图6是本申请的一种生成结构化数据的装置实施例的结构框图;
图7是本申请的一种生成结构化数据的系统实施例的结构框图;
图8是本申请的一种系统实施例的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请实施例的生成结构化数据的方法可以应用于电商平台、旅游平台等数据平台中,该数据平台通过对已有的已有结构化数据进行分析,以及预先获取的素材,来自动化生成指定目的地的结构化数据,节省了人力制作结构化数据的成本,提高了结构化数据的生成效率。
在本申请实施例中,可以包括数据准备阶段以及内容生成阶段。
具体而言,在数据准备阶段中,可以生成素材数据库以及目录集合。
参考图1所示的生成素材数据库的步骤流程图,生成素材数据库的过程可以包括如下步骤:
步骤101,创建素材数据库,所述素材数据库包括信息点集合;
在具体实现中,信息点POI可以是一个具体的地点,比如,具体的酒店、景点、车站、商场等旅行地点。
信息点集合中可以包括一个或多个POI的标识,在实际中,该信息点集合可以通过人工定制,也可以通过调用本数据平台中的其他模块或第三方应用程序或第三方平台的接口来获取,例如,调用高德地图的接口,获取高德地图中存在的信息点集合。
在具体实现中,可以预先创建一个空的素材数据库,并将信息点集合存储在该素材数据库中。
步骤102,采集素材信息;
在具体实现中,素材信息可以包括一切能够获取的与POI相关的素材,例如,可以采集本数据平台的素材信息,也可以抓取外网中其他数据平台的素材信息,本申请实施例对此不作限定。
作为本申请实施例的一种优选示例,素材信息可以包括与POI相关的描述、评论、图片、视频、音频等信息。例如,若用户在数据平台中通过广场、酒店、度假商品、POI详情页面等地方发表评论,或者在评论的同时上传图片,则本申请实施例可以将这些数据提取出来,作为素材信息。
步骤103,确定所述素材信息关联的信息点;
获得素材信息以后,可以对这些素材信息进行分析,得到该素材信息关联的POI。
在具体实现中,有些素材信息本身就关联POI的信息,例如:
用户在广场中发表的评论和图片是包含经纬度的,基于这个经纬度可以反向查询出对应的POI的信息;
用户发表的针对某个酒店中的评论,则这个酒店就是一个POI;
用户针对度假商品的评论,部分度假商品中就包含目的地和POI的信息,而有一部分评论可以通过关键字和商品所属的目的地解析出POI;
用户在POI的详情页面中发表的评论本身就包含POI的信息。
需要说明的是,本申请实施例并不限于以上的获取素材信息对应的POI的方式,本领域技术人员采用其他方式从素材信息中分析出POI均是可以的。
步骤104,判断所述关联的信息点是否存在所述信息点集合中;若否,则执行步骤105,若是,则执行步骤106;
步骤105,在所述信息点集合中添加所述关联的信息点,并执行步骤106。
步骤106,将所述素材信息与所述信息点绑定。
具体的,获取素材信息对应的POI以后,可以判断该POI是否存在于信息点集合中,如果该POI在信息点集合中,则将该POI对应的素材信息与该POI绑定。如果该POI不在信息点集合中,则将该POI添加到信息点集合中,并将该POI对应的素材信息与该POI绑定。
通过上述的POI与素材信息的绑定操作,可以产出该POI对应的素材信息,则素材数据库中可以包括信息点集合以及与一个或多个POI绑定的素材信息。
在本申请实施例的一种优选实施例中,得到各个POI对应的素材信息以后,还可以包括如下步骤:针对所述信息点集合中各个信息点对应的素材信息,分别获取所述素材信息的排序分数;基于所述排序分数,对所述信息点中的素材信息进行排序。
在本申请实施例中,还可以通过内容质量分析机制对素材信息进行评分。
在具体实现中,可以通过NLP(Natural Language Processing,自然语言处理)算法对素材信息进行打分,以确定素材信息的好坏,并根据该打分对属于同一POI的素材信息进行排序。
在实际中,可以设定一个基础阈值,针对属于同一POI的素材信息,过滤掉打分低于该基础阈值的素材信息,然后根据高于基础阈值的打分对应的素材信息,按照分数由高到低进行排序。
需要说明的是,本申请实施例并不限于上述获取素材信息的排序分数的方式,本领域技术人员采用其他方式确定素材信息的排序分数均是可以的。
通过本申请实施例生成的素材数据库,可以获取信息点集合中各个POI对应的素材信息,为后续的目录集合生成阶段以及结构化数据生成阶段提供了数据基础。
参考图2所示的一种生成目录集合的步骤流程图,生成目录集合的过程可以包括如下步骤:
步骤201,获取目的地集合;
在具体实现中,目的地可以与行政区等价,例如,台湾省、北京、浙江、杭州、天目山等都可以算是一个目的地。
目的地集合中可以包括一个或多个目的地的标识,在实际中,该目的地集合可以通过人工定制,也可以通过调用本数据平台中的其他模块或第三方应用程序或第三方平台的接口来获取,例如,调用高德地图的接口,获取高德地图中存在的目的地集合。
步骤202,针对所述目的地集合中的各个目的地标识,确定所述目的地标识下的,与指定内容类型信息对应的候选信息点;
作为本申请实施例的一种优选示例,针对旅行数据平台,该指定内容类型信息至少可以包括榜单类型以及经典玩法类型,其中,榜单是属于某一种内容类型信息的POI产生的POI排序集合;经典玩法是指基于旅行行程安排抽象的基于时间维度的目的地和POI的路径。
在本申请实施例的一种优选实施例中,当所述指定内容类型信息为榜单类型时,步骤202可以包括如下子步骤:
针对所述目的地集合中的各个目的地标识,从所述信息点集合中,选取属于所述目的地标识的,针对指定信息点类型的信息点,作为候选信息点。
作为一种示例,信息点类型,即POI类型,可以包括但不限于酒店、景点、车站、商场等类型。
在实际中,POI可以与目的地相关联,例如,某个杭州的酒店的目的地为杭州。在具体实现中,可以按照目的地对信息点集合中的各个POI进行分类,获得属于同一目的地的POI。
得到属于同一目的地的POI以后,可以基于POI类型对该属于同一目的地的POI进一步分类,得到属于某个目的地的某个POI类型的POI,作为候选POI。
在实际中,各个目的地对应的候选POI可以有多个。
在本申请实施例的另一种优选实施例中,当所述指定内容类型信息为经典玩法类型时,步骤202可以包括如下子步骤:
针对所述目的地集合中的每一个目的地标识,获取所述目的地标识下的,指定内容类型信息对应的结构化数据;基于所述指定内容类型信息对应的结构化数据,提取多个候选信息点以及所述候选信息点对应的时间信息。
在具体实现中,可以从当前数据平台和/或第三方应用程序和/或第三方数据平台中获取属于经典玩法的旅游内容(即结构化数据),并可以按照时间顺序从该旅游内容中提取多个候选POI,其中,该候选POI的POI类型可以包括景点、酒店、商场等一种或多种。
步骤203,将所述候选信息点进行排序;
得到各个目的地的针对指定内容类型信息对应的多个候选POI以后,可以对该多个候选POI进行排序。
在本申请实施例的一种优选实施例中,若指定内容类型信息为榜单类型,步骤203可以包括如下子步骤:
分别获取所述候选信息点在一个或多个指定维度中对应的信息点数据;基于所述一个或多个指定维度对应的信息点数据,对所述候选信息点进行排序。
在具体实现中,上述一个或多个指定维度可以根据候选POI的热门程度或者相关商品的购买行为来确定,例如,热门程度对应的信息点数据可以包括:该候选POI在一个时间段内的相关的评论数量、好评数量、游客数量等。相关商品的购买行为对应的信息点数据可以包括:相关商品的月销量、年销量等。
在具体实现中,可以调用本数据平台中的其他模块和/或第三方应用程序和/或第三方平台的接口来统计候选POI对应的信息点数据,例如,若当前数据平台在当前POI详情页面提供了用户的评论入口,则针对POI的评论数据可以从这个详情页面中获取。又如,若当前数据平台是提供景点和酒店交易行为的平台,则月销量、年销量这样的交易数据可以从该平台中获取。
在一种实施方式中,得到候选POI在一个或多个指定维度对应的信息点数据以后,可以基于其中一个指定维度对应的信息点数据对候选POI进行排序。例如,根据评论数量对候选POI进行排序,得到最热门的前几个POI。或者,根据月销量对候选POI进行排序,得到销量最好的前几个POI。
在另一种实施方式中,也可以结合多个指定维度对应的信息点数据在对候选POI进行排序,例如,若指定维度包括评论数量和月销量,则可以在DB中通过order by(评论数量,月销量)的方式产出POI排序数据。
在本申请实施例的另一种优选实施例中,若指定内容类型信息为经典玩法类型,步骤203可以包括如下子步骤:
按照各个候选信息点的时间信息的先后顺序,对所述候选信息点进行排序。
具体的,针对经典玩法类型,可以按照时间的先后对候选POI进行排序。
步骤204,生成所述目的地标识、所述指定内容类型信息以及对应的排序后的候选信息点的绑定关系,作为所述目的地标识针对指定内容类型信息的目录;
具体的,对候选POI进行排序后,可以得到该多个候选POI的排序数据,随后,可以生成该排序数据,对应的目的地标识以及指定内容类型信息和/或指定信息点类型(针对经典玩法类型,该绑定关系中可以不包含信息点类型)的绑定关系,作为该目的地针对指定内容类型信息和/或指定信息点类型的目录(又可以称为骨架)。
例如,若目的地为杭州,指定内容类型信息为榜单,指定POI类型为景点,候选POI的排序由高到低分别为西溪湿地、京杭大运河、宋城、钱塘江大桥、小河直街、大兜路历史文化街区,则生成的榜单骨架可以如图3的榜单骨架示意图所示。
步骤205,将所有目的地对应的目录组织成目录集合。
获取目的地集合中每一个目的地针对不同指定内容类型信息的目录以后,可以将所有的目录组织成目录集合,为后续的结构化数据生成阶段提供了数据基础。
参照图4,示出了本申请的一种生成结构化数据的方法实施例的步骤流程图,具体可以包括如下步骤:
步骤401,获取指定目的地标识对应的目标内容类型信息;
在具体实现中,可以由用户来指定该指定目的地标识,例如,接收用户输入的包含目的地的标识的输入序列,则该目的地为指定目的地。或者,可以通过大数据分析来确定指定目的地标识,例如,获取本数据平台和/或其他数据平台分析出的目的地集合,将需要进行分析的该目的地集合中的目的地作为指定目的地。本申请实施例对指定目的地的确定方式不作限定。
在本申请实施例的一种优选实施例中,步骤401可以包括如下子步骤:
子步骤S11,针对目的地集合中的各个目的地,获取所述目的地对应的已有结构化数据;
在一种实施方式中,可以采用如下方式生成目的地集合,并获取该目的地集合中各个目的地对应的已有结构化数据:
获取结构化数据库中的结构化数据,按照目的地标识对所述结构化数据进行分类,得到各个目的地标识对应的已有结构化数据,并将所有的目的地标识组织成目的地集合。
在具体实现中,该结构化数据库中的结构化数据可以包括从本数据平台中采集的数据,和/或,从外网中获取的数据,例如,跨平台获取的数据。
在实际中,所述结构化数据为与目的地相关的数据,例如,若当前数据平台为旅游网站或者旅游应用程序app,则结构化数据可以为旅游网站或旅游app中存在的旅游内容,例如游记、攻略、景点介绍等。
从结构化数据库中获得已有结构化数据以后,可以基于各个目的地的目的地标识将结构化数据进行分类,确定各个目的地的结构化数据的分布情况,从而得到各个目的地标识对应的已有结构化数据。
子步骤S12,确定所述已有结构化数据具备的内容类型信息;
得到各个目的地标识对应的已有结构化数据以后,可以进一步确定该目的地具备的内容类型信息。
在实际中,已有结构化数据中可以具有对应的内容类型信息,如果不具备,则可以采用分析算法分析该已有结构化数据对应的内容类型信息,例如,某篇旅行内容的文章描述的是基于时间维度的目的地和POI游玩感受的文章,则可以判定该旅游内容的内容类型信息为经典玩法类型,如果某篇旅行内容的文章描述的是POI排名和描述的文章,则可以判定该旅游内容的内容类型信息为榜单类型。
子步骤S13,基于所述内容类型信息,确定所述目的地标识缺失的内容类型信息,作为目标内容类型信息。
得到已有结构化数据的内容类型信息以后,可以根据该内容类型信息,确定对应的目的地所缺失的内容类型信息,即目标内容类型信息。
在具体实现中,目标内容类型信息可以包括与当前的内容类型信息不同的类型,也可以是当前内容类型信息所缺少的结构化数据的数量,本申请实施例对此不作限定。
在本申请实施例的一种优选实施例中,子步骤S13进一步可以包括如下子步骤:
获取所述内容类型信息对应的已有结构化数据的数量;若所述数量没有达到指定阈值,则计算所述指定阈值与所述数量的差值,作为所述目的地标识针对所述内容类型信息缺失的结构化数据的数量。
在具体实现中,针对目的地获得对应的内容类型信息以后,可以计算每种内容类型信息对应的已有结构化数据的数量,例如,某个目的地中属于榜单类型的旅行内容的数量,或者属于经典玩法类型的旅行内容的数量。然后比较该内容类型信息对应的已有结构化数据的数量与指定阈值,若该数量不满足指定阈值,则将其差值作为该内容类型信息缺失的结构化数据的数量,此处可以将该缺失的部分称为目标内容类型信息。
例如,若目的地为杭州,针对其现有的旅行内容确定榜单类型的旅行内容为10个,经典玩法类型的旅行内容为1个;另一个目的地为绍兴,针对其现有的旅行内容确定榜单类型的旅行内容为1个,经典玩法类型的旅行内容为5个,假设榜单类型对应的指定阈值为5个、经典玩法对应的指定阈值也是5个,则可以确定杭州缺少4个榜单类型的旅行内容,绍兴缺少4个经典玩法类型的旅行内容,即杭州的目标内容类型信息为4个榜单类型的旅行内容,绍兴的目标内容类型信息为4个经典玩法类型的旅行内容。
步骤402,从目录集合中匹配所述指定目的地标识以及所述目标内容类型信息,获得对应的目标目录,其中,所述目标目录包括一个或多个目标信息点标识;
在本申请实施例中,步骤402可以由数据平台中的内容生产引擎执行。当获得各个指定目的地的目标内容类型信息以后,可以将该指定目的地的指定目的地标识以及对应的目标内容类型信息发送给内容生产引擎,指导内容生产引擎做定向内容生产。
由上述图2实施例可知,目录集合中的各个目录都包含目的地标识以及指定内容类型信息,当确定指定目的地标识以及目标内容类型信息以后,可以在目录集合中匹配该指定目的地标识以及目标内容类型信息,若匹配成功,则获得对应的目录作为目标目录。
步骤403,从素材数据库中提取与所述一个或多个目标信息点标识对应的目标素材;
在具体实现中,从图2的实施例可知,目录中可以包括一个或多个POI标识,确定目标目录以后,可以进一步获取该目标目录中的各个POI标识对应的素材信息。
从图1实施例可知,素材信息与POI进行绑定,则确定目标目录中的目标POI标识以后,可以根据该目标POI标识在素材数据库中匹配对应的素材信息,作为目标素材。
为了提高目标素材的质量,在本申请实施例的一种优选实施例中,步骤403进一步可以包括如下子步骤:在所述信息点集合中查找所述目标信息点标识,获得所述目标信息点标识对应的,排序在前的多种素材信息,作为目标素材。
具体的,根据目标目录中的目标POI标识在素材数据库中匹配到对应的素材信息以后,可以提取排序在前的多个素材信息作为目标素材,从而可以提高素材的质量。
步骤404,基于所述目标素材以及所述目标目录,生成基于所述指定指定目的地标识的结构化数据。
在具体实现中,得到指定目的地的目标目录以及目标素材以后,可以将该目标素材填充在目标目录的框架中,以得到指定目的地的结构化数据的框架,例如,若目标目录为图3所示的目录,填充了目标素材后可以得到图5所示的结构化数据的框架。
对结构化数据的框架进行包装,可以生产出基于指定目的地标识对应的结构化数据。例如,根据图5所示的目标结构化数据的框架,可以生成一篇关于杭州最出名的六大景点的榜单的文章。
在本申请实施例中,可以获取已有结构化数据,对该已有结构化数据进行分析,确定需要的指定目的地标识以及目标内容类型信息,从预先生成的目录集合中匹配与该需要的指定目的地标识以及目标内容类型信息对应的目标目录以后,可以根据目标目录中的目标POI标识,从预先生成的素材数据库中获取各个目标POI标识对应的目标素材,将目标素材以及目标目录进行包装后可以产出指定目的地的结构化数据,整个过程无需人工参与,自动化程度高,提高了目标结构化数据的产出效率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
参照图6,示出了本申请的一种生成结构化数据的装置实施例的结构框图,所述装置具体可以包括如下模块:
类型信息获取模块601,用于获取指定目的地标识对应的目标内容类型信息;
目标目录获取模块602,用于从预设的目录集合中匹配所述指定目的地标识以及所述目标内容类型信息,获得对应的目标目录,其中,所述目标目录包括一个或多个目标信息点标识;
目标素材提取模块603,用于从预设的素材数据库中提取与所述一个或多个目标信息点标识对应的目标素材;
结构化数据生成模块604,用于基于所述目标素材以及所述目标目录,生成基于所述指定目的地标识的结构化数据。
在本申请实施例的一种优选实施例中,所述类型信息获取模块601可以包括如下子模块:
已有结构化数据获取子模块,用于针对目的地集合中的各个目的地,获取所述目的地对应的已有结构化数据;
已有类型确定子模块,用于确定所述已有结构化数据具备的内容类型信息;
目标类型确定子模块,用于基于所述内容类型信息,确定所述指定目的地标识缺失的内容类型信息,作为目标内容类型信息。
在本申请实施例的一种优选实施例中,所述目标类型确定子模块还用于:
获取所述内容类型信息对应的已有结构化数据的数量;
若所述数量没有达到指定阈值,则计算所述指定阈值与所述数量的差值,作为所述指定目的地标识针对所述内容类型信息缺失的结构化数据的数量。
在本申请实施例的一种优选实施例中,通过素材数据库生成模块生成素材数据库;
所述素材数据库生成模块包括:
数据库创建子模块,用于创建素材数据库,所述素材数据库包括信息点集合;
素材采集子模块,用于采集素材信息;
信息点确定子模块,用于确定所述素材信息关联的信息点;
判断子模块,用于判断所述关联的信息点是否存在所述信息点集合中,若是,则调用绑定子模块,若否,则调用信息点添加子模块;
绑定子模块,用于将所述素材信息与所述信息点绑定;
信息点添加子模块,用于在所述信息点集合中添加所述关联的信息点,并调用绑定子模块。
在本申请实施例的一种优选实施例中,所述装置还包括:
排序分数获取模块,用于针对所述信息点集合中各个信息点对应的素材信息,分别获取所述素材信息的排序分数;
素材排序模块,用于基于所述排序分数,对所述信息点中的素材信息进行排序。
在本申请实施例的一种优选实施例中,所述目标素材提取模块603还用于:
在所述信息点集合中匹配所述目标信息点标识,获得所述目标信息点标识对应的,排序在前的多种素材信息,作为目标素材。
在本申请实施例的一种优选实施例中,通过目录生成模块生成目录集合;
所述目录生成模块包括:
目的地集合获取子模块,用于获取目的地集合;
候选信息点确定子模块,用于针对所述目的地集合中的各个目的地标识,确定所述目的地标识下的,与指定内容类型信息对应的候选信息点;
排序子模块,用于将所述候选信息点进行排序;
绑定关系生成子模块,用于生成所述目的地标识、所述指定内容类型信息以及对应的排序后的候选信息点的绑定关系,作为所述目的地标识针对指定内容类型信息的目录;
集合组织子模块,用于将所有目的地对应的目录组织成目录集合。
在本申请实施例的一种优选实施例中,所述候选信息点确定子模块还用于:
针对所述目的地集合中的各个目的地标识,从所述信息点集合中,选取属于所述目的地标识的针对指定信息点类型的信息点,作为候选信息点。
在本申请实施例的一种优选实施例中,所述排序子模块还用于:
分别获取所述候选信息点在一个或多个指定维度中对应的信息点数据;
基于所述一个或多个指定维度对应的信息点数据,对所述候选信息点进行排序。
在本申请实施例的一种优选实施例中,所述候选信息点确定子模块还用于:
针对所述目的地集合中的每一个目的地标识,获取所述目的地标识下的,指定内容类型信息对应的结构化数据;
基于所述指定内容类型信息对应的结构化数据,提取多个候选信息点以及所述候选信息点对应的时间信息。
在本申请实施例的一种优选实施例中,所述排序子模块还用于:
按照各个候选信息点的时间信息的先后顺序,对所述候选信息点进行排序。
对于装置实施例而言,由于其与上述方法实施例基本相似,所以描述的比较简单,相关之处参见客户端实施例的部分说明即可。
参照图7,示出了本申请的一种生成结构化数据的系统实施例的结构框图,所述系统包括内容分析子系统701、内容生产引擎702、素材数据库703、目录数据库704,其中,
所述内容分析子系统701,用于获取指定目的地标识对应的目标内容类型信息;
所述内容生产引擎702,用于从所述目录数据库704中匹配所述指定目的地标识以及所述目标内容类型信息,获得对应的目标目录,以及,从所述素材数据库703中提取与所述目标目录中的一个或多个目标信息点标识对应的目标素材,并基于所述目标素材以及所述目标目录,生成基于所述指定目的地标识的结构化数据。
在本申请实施例的一种优选实施例中,所述系统还包括:
素材采集子系统,用于创建包括信息点集合的素材数据库;采集素材信息;确定所述素材信息关联的信息点;判断所述关联的信息点是否存在所述信息点集合中;若是,则将所述素材信息与所述信息点绑定;若否,则在所述信息点集合中添加所述关联的信息点,并将所述素材信息与所述信息点绑定。
在本申请实施例的一种优选实施例中,所述系统还包括:
内容质量子系统705,用于针对所述信息点集合中各个信息点对应的素材信息,分别获取所述素材信息的排序分数;基于所述排序分数,对所述信息点中的素材信息进行排序。
在本申请实施例的一种优选实施例中,所述系统还包括:
目录生成子系统,用于获取目的地集合;针对所述目的地集合中的各个目的地标识,确定所述目的地标识下的,与指定内容类型信息对应的候选信息点;将所述候选信息点进行排序;生成所述目的地标识、所述指定内容类型信息以及对应的排序后的候选信息点的绑定关系,作为所述目的地标识针对指定内容类型信息的目录;将所有目的地对应的目录组织成目录数据库。
本公开的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的系统。图8示意性地示出了可被用于实现本公开中所述的各个实施例的示例性系统(或装置)800。
对于一个实施例,图8示出了示例性系统800,该系统具有一个或多个处理器802、被耦合到(一个或多个)处理器802中的至少一个的系统控制模块(芯片组)804、被耦合到系统控制模块804的系统存储器806、被耦合到系统控制模块804的非易失性存储器(NVM)/存储设备808、被耦合到系统控制模块804的一个或多个输入/输出设备810,以及被耦合到系统控制模块806的网络接口812。
处理器802可包括一个或多个单核或多核处理器,处理器802可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,系统800能够作为本申请实施例中所述的数据平台。
在一些实施例中,系统800可包括具有指令的一个或多个计算机可读介质(例如,系统存储器806或NVM/存储设备808)以及与该一个或多个计算机可读介质相合并被配置为执行指令以实现模块从而执行本公开中所述的动作的一个或多个处理器802。
对于一个实施例,系统控制模块804可包括任意适当的接口控制器,以向(一个或多个)处理器802中的至少一个和/或与系统控制模块804通信的任意适当的设备或组件提供任意适当的接口。
系统控制模块804可包括存储器控制器模块,以向系统存储器806提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
系统存储器806可被用于例如为系统800加载和存储数据和/或指令。对于一个实施例,系统存储器806可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,系统存储器806可包括双倍数据速率类型四同步动态随机存取存储器(DDR8SDRAM)。
对于一个实施例,系统控制模块804可包括一个或多个输入/输出控制器,以向NVM/存储设备808及(一个或多个)输入/输出设备810提供接口。
例如,NVM/存储设备808可被用于存储数据和/或指令。NVM/存储设备808可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备808可包括在物理上作为系统800被安装在其上的设备的一部分的存储资源,或者其可被该设备访问而不必作为该设备的一部分。例如,NVM/存储设备808可通过网络经由(一个或多个)输入/输出设备810进行访问。
(一个或多个)输入/输出设备810可为系统800提供接口以与任意其他适当的设备通信,输入/输出设备810可以包括通信组件、音频组件、传感器组件等。网络接口812可为系统800提供接口以通过一个或多个网络通信,系统800可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合进行无线通信。
对于一个实施例,(一个或多个)处理器802中的至少一个可与系统控制模块804的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器802中的至少一个可与系统控制模块804的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器802中的至少一个可与系统控制模块804的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器802中的至少一个可与系统控制模块804的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,系统800可以但不限于是:浏览器、工作站、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中,系统800可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,系统800包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
其中,如果显示器包括触摸面板,显示屏可以被实现为触屏显示器,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为客户端、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的客户端、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、客户端、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、客户端、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、客户端、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种生成结构化数据的方法、装置及系统进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的客户端及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (15)

1.一种生成结构化数据的方法,其特征在于,所述方法包括:
获取指定目的地标识对应的目标内容类型信息;
从预设的目录集合中匹配所述指定目的地标识以及所述目标内容类型信息,获得对应的目标目录,其中,所述目标目录包括一个或多个目标信息点标识;
从预设的素材数据库中提取与所述一个或多个目标信息点标识对应的目标素材;
基于所述目标素材以及所述目标目录,生成基于所述指定目的地标识的结构化数据;
所述获取指定目的地标识对应的目标内容类型信息,包括:
针对目的地集合中的各个目的地,获取所述目的地对应的已有结构化数据;确定所述已有结构化数据具备的内容类型信息;基于所述内容类型信息,确定所述指定目的地标识缺失的内容类型信息,作为目标内容类型信息。
2.根据权利要求1所述的方法,其特征在于,所述基于所述内容类型信息,确定所述指定目的地标识缺失的内容类型信息,作为目标内容类型信息,包括:
获取所述内容类型信息对应的已有结构化数据的数量;
若所述数量没有达到指定阈值,则计算所述指定阈值与所述数量的差值,作为所述指定目的地标识针对所述内容类型信息缺失的结构化数据的数量。
3.根据权利要求1所述的方法,其特征在于,所述素材数据库采用如下方式生成:
创建素材数据库,所述素材数据库包括信息点集合;
采集素材信息;
确定所述素材信息关联的信息点;
判断所述关联的信息点是否存在所述信息点集合中;
若是,则将所述素材信息与所述信息点绑定;
若否,则在所述信息点集合中添加所述关联的信息点,并将所述素材信息与所述信息点绑定。
4.根据权利要求1或3所述的方法,其特征在于,所述方法还包括:
针对所述信息点集合中各个信息点对应的素材信息,分别获取所述素材信息的排序分数;
基于所述排序分数,对所述信息点中的素材信息进行排序。
5.根据权利要求4所述的方法,其特征在于,所述从预设的素材数据库中提取与所述一个或多个目标信息点标识对应的目标素材,包括:
在所述信息点集合中匹配所述目标信息点标识,获得所述目标信息点标识对应的,排序在前的多种素材信息,作为目标素材。
6.根据权利要求3所述的方法,其特征在于,所述目录集合采用如下方式生成:
获取目的地集合;
针对所述目的地集合中的各个目的地标识,确定所述目的地标识下的,与指定内容类型信息对应的候选信息点;
将所述候选信息点进行排序;
生成所述目的地标识、所述指定内容类型信息以及对应的排序后的候选信息点的绑定关系,作为所述目的地标识针对指定内容类型信息的目录;
将所有目的地对应的目录组织成目录集合。
7.根据权利要求6所述的方法,其特征在于,所述针对所述目的地集合中的各个目的地标识,确定所述目的地标识下的,与指定内容类型信息对应的候选信息点,包括:
针对所述目的地集合中的各个目的地标识,从所述信息点集合中,选取属于所述目的地标识的针对指定信息点类型的信息点,作为候选信息点。
8.根据权利要求7所述的方法,其特征在于,所述将所述候选信息点进行排序的步骤包括:
分别获取所述候选信息点在一个或多个指定维度中对应的信息点数据;
基于所述一个或多个指定维度对应的信息点数据,对所述候选信息点进行排序。
9.根据权利要求6所述的方法,其特征在于,所述针对所述目的地集合中的各个目的地标识,确定所述目的地标识下的,与指定内容类型信息对应的候选信息点,包括:
针对所述目的地集合中的每一个目的地标识,获取所述目的地标识下的,指定内容类型信息对应的结构化数据;
基于所述指定内容类型信息对应的结构化数据,提取多个候选信息点以及所述候选信息点对应的时间信息。
10.根据权利要求8所述的方法,其特征在于,所述将所述候选信息点进行排序的步骤包括:
按照各个候选信息点的时间信息的先后顺序,对所述候选信息点进行排序。
11.一种生成结构化数据的装置,其特征在于,所述装置包括:
类型信息获取模块,用于获取指定目的地标识对应的目标内容类型信息;
目标目录获取模块,用于从预设的目录集合中匹配所述指定目的地标识以及所述目标内容类型信息,获得对应的目标目录,其中,所述目标目录包括一个或多个目标信息点标识;
目标素材提取模块,用于从预设的素材数据库中提取与所述一个或多个目标信息点标识对应的目标素材;
结构化数据生成模块,用于基于所述目标素材以及所述目标目录,生成基于所述指定目的地标识的结构化数据;
所述类型信息获取模块,还用于针对目的地集合中的各个目的地,获取所述目的地对应的已有结构化数据;确定所述已有结构化数据具备的内容类型信息;基于所述内容类型信息,确定所述指定目的地标识缺失的内容类型信息,作为目标内容类型信息。
12.一种生成结构化数据的系统,其特征在于,所述系统包括内容分析子系统、内容生产引擎、素材数据库、目录数据库,其中,
所述内容分析子系统,用于获取指定目的地标识对应的目标内容类型信息;
所述内容生产引擎,用于从所述目录数据库中匹配所述指定目的地标识以及所述目标内容类型信息,获得对应的目标目录,以及,从所述素材数据库中提取与所述目标目录中的一个或多个目标信息点标识对应的目标素材,并基于所述目标素材以及所述目标目录,生成基于所述指定目的地标识的结构化数据;
所述内容分析子系统,还用于针对目的地集合中的各个目的地,获取所述目的地对应的已有结构化数据;确定所述已有结构化数据具备的内容类型信息;基于所述内容类型信息,确定所述指定目的地标识缺失的内容类型信息,作为目标内容类型信息。
13.根据权利要求12所述的系统,其特征在于,所述系统还包括:
素材采集子系统,用于创建包括信息点集合的素材数据库;采集素材信息;确定所述素材信息关联的信息点;判断所述关联的信息点是否存在所述信息点集合中;若是,则将所述素材信息与所述信息点绑定;若否,则在所述信息点集合中添加所述关联的信息点,并将所述素材信息与所述信息点绑定。
14.根据权利要求13所述的系统,其特征在于,所述系统还包括:
内容质量子系统,用于针对所述信息点集合中各个信息点对应的素材信息,分别获取所述素材信息的排序分数;基于所述排序分数,对所述信息点中的素材信息进行排序。
15.根据权利要求12-14任一项所述的系统,其特征在于,所述系统还包括:
目录生成子系统,用于获取目的地集合;针对所述目的地集合中的各个目的地标识,确定所述目的地标识下的,与指定内容类型信息对应的候选信息点;将所述候选信息点进行排序;生成所述目的地标识、所述指定内容类型信息以及对应的排序后的候选信息点的绑定关系,作为所述目的地标识针对指定内容类型信息的目录;将所有目的地对应的目录组织成目录数据库。
CN201710927218.5A 2017-10-09 2017-10-09 一种生成结构化数据的方法、装置及系统 Active CN110019201B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710927218.5A CN110019201B (zh) 2017-10-09 2017-10-09 一种生成结构化数据的方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710927218.5A CN110019201B (zh) 2017-10-09 2017-10-09 一种生成结构化数据的方法、装置及系统

Publications (2)

Publication Number Publication Date
CN110019201A CN110019201A (zh) 2019-07-16
CN110019201B true CN110019201B (zh) 2023-03-07

Family

ID=67186411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710927218.5A Active CN110019201B (zh) 2017-10-09 2017-10-09 一种生成结构化数据的方法、装置及系统

Country Status (1)

Country Link
CN (1) CN110019201B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110942017B (zh) * 2019-11-25 2022-12-02 重庆紫光华山智安科技有限公司 基于自动化的多算法指标对比方法及系统
CN112000495B (zh) * 2020-10-27 2021-02-12 博泰车联网(南京)有限公司 用于兴趣点信息管理的方法、电子设备和存储介质
CN113642745B (zh) * 2021-08-11 2023-09-01 余国立 一种园林数据采集方法及系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7865306B2 (en) * 2000-09-28 2011-01-04 Michael Mays Devices, methods, and systems for managing route-related information
US9104293B1 (en) * 2012-12-19 2015-08-11 Amazon Technologies, Inc. User interface points of interest approaches for mapping applications
CN103020308A (zh) * 2013-01-07 2013-04-03 北京趣拿软件科技有限公司 旅游攻略项目的推荐方法及装置
CN104063815A (zh) * 2013-03-21 2014-09-24 阿里巴巴集团控股有限公司 协助制定旅游行程计划的方法及系统
CN103455338A (zh) * 2013-09-22 2013-12-18 广州中国科学院软件应用技术研究所 一种数据获取方法及装置
CN104776842B (zh) * 2014-01-15 2019-04-05 中国移动通信集团辽宁有限公司 一种获取兴趣点位置信息的方法及装置
CN104298777B (zh) * 2014-11-03 2017-11-10 厦门欣欣信息有限公司 一种旅游线路搜索推荐的方法及装置
CN104463730A (zh) * 2014-12-29 2015-03-25 广州神马移动信息科技有限公司 基于旅游目标地域来挖掘旅游路线的方法和设备
CN104537070B (zh) * 2014-12-29 2019-07-02 广州神马移动信息科技有限公司 挖掘旅游目的地景点的方法和设备
CN105159933B (zh) * 2015-08-06 2019-04-30 北京百度网讯科技有限公司 旅游信息推荐方法及装置
CN105468679B (zh) * 2015-11-13 2019-04-12 中国人民解放军国防科学技术大学 一种旅游信息处理与方案提供方法
CN106933789B (zh) * 2015-12-30 2023-06-20 阿里巴巴集团控股有限公司 旅游攻略生成方法和生成系统
CN105976277A (zh) * 2016-05-05 2016-09-28 云神科技投资股份有限公司 一种基于全景智慧旅游的系统和方法
CN106777212A (zh) * 2016-12-23 2017-05-31 北京奇虎科技有限公司 基于景点名称搜索的搜索结果展现方法及装置

Also Published As

Publication number Publication date
CN110019201A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN110413877A (zh) 一种资源推荐方法、装置及电子设备
JP5984917B2 (ja) 提案される語を提供するための方法および装置
CN101999121B (zh) 推荐信息评价装置及推荐信息评价方法
WO2017096877A1 (zh) 一种推荐方法和装置
CN110019201B (zh) 一种生成结构化数据的方法、装置及系统
CN108509497B (zh) 信息推荐方法、装置和电子设备
CN105930429A (zh) 一种音乐推荐的方法及装置
US11347758B2 (en) Method and apparatus for processing search data
CN105335423B (zh) 一种网页的用户反馈的收集处理方法及装置
CN107861753B (zh) App生成索引、检索方法和系统及可读存储介质
KR20100007895A (ko) 이동 비주얼 탐색에 코드-기반 및 광학식 문자 인식 기술들을 통합시키기 위한, 방법, 기기 및 컴퓨터 프로그램 제품
CN107133165B (zh) 浏览器兼容性检测方法及装置
CN113852832B (zh) 视频处理方法、装置、设备和存储介质
CN110619076A (zh) 一种搜索词推荐方法、装置、计算机及存储介质
CN111831899B (zh) 导航兴趣点推荐方法、装置、服务器及可读存储介质
RU2601138C2 (ru) Способ предоставления рекомендуемой информации для браузера мобильного терминала и система, применяющая данный способ
US20130268514A1 (en) Brand analysis using interactions with search result items
CN110019645A (zh) 索引库构建方法、搜索方法及装置
EP4343583A1 (en) Text input method and apparatus, and electronic device and storage medium
CN105354318A (zh) 一种文件查找方法及装置
CN110852794A (zh) 一种小说推荐方法及设备
EP2713287A1 (en) Network comment collection method and system
KR20180021152A (ko) 정보 푸시 방법 및 장치
WO2016187768A1 (zh) 一种视频信息推送方法及装置
CN105843887B (zh) 信息处理方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant