CN108664535B - 信息输出方法和装置 - Google Patents

信息输出方法和装置 Download PDF

Info

Publication number
CN108664535B
CN108664535B CN201710217796.XA CN201710217796A CN108664535B CN 108664535 B CN108664535 B CN 108664535B CN 201710217796 A CN201710217796 A CN 201710217796A CN 108664535 B CN108664535 B CN 108664535B
Authority
CN
China
Prior art keywords
information
attribute information
output
attribute
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710217796.XA
Other languages
English (en)
Other versions
CN108664535A (zh
Inventor
方琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710217796.XA priority Critical patent/CN108664535B/zh
Publication of CN108664535A publication Critical patent/CN108664535A/zh
Application granted granted Critical
Publication of CN108664535B publication Critical patent/CN108664535B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本申请公开了信息输出方法和装置。该方法的一具体实施方式包括:获取网页结构化信息集合,其中,网页结构化信息包括多个属性,将多个属性中的至少一个属性对应的属性信息组成网页结构化信息的属性信息集合;在网页结构化信息集合中,识别属性信息集合之间的相似度大于预设阈值的多条网页结构化信息;在多条网页结构化信息中,提取针对同一属性的多个属性信息;基于多个属性信息的质量度,在多个属性信息中选取属性信息并输出,其中,质量度是基于以下至少一个来确定的:属性信息所来源的网站的网站信息,属性信息的发布时间距离当前时间的时间长度,属性信息所包含的预设关键字的数量以及属性信息的长度。该实施方式保证了选取的网页数据的质量。

Description

信息输出方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及信息输出方法和装置。
背景技术
在互联网技术领域中,经常需要使用网络爬虫来爬取互联网上的网页数据,之后,将爬取到的网页数据进行保存,如,保存到文本文件或者数据库中等。但是,由于互联网上的网页数据的种类繁多,且数目庞大,一般需要定义爬取模板,并通过爬虫工具对网页数据进行爬取,且一个爬取模板可以用来爬取某一类别的网页数据。
现有技术中,在对网页结构化数据进行爬取时,一般需要首先针对需要爬取的数据,定义爬取模板,再通过爬虫工具,将数据下载到本地,最后通过文本文件或者结构化数据库的方式进行存储。然而,这种方式只会保存网络爬虫先爬取到的网页数据,舍弃后爬取到的网页数据,而后爬取到的网页数据中的内容的质量可能会更好,因此,通过这种方式爬取到的网页数据的质量得不到保障。
发明内容
本申请的目的在于提出一种改进的信息输出方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请实施例提供了一种信息输出方法,该方法包括:获取网页结构化信息集合,其中,网页结构化信息包括多个属性,将多个属性中的至少一个属性对应的属性信息组成网页结构化信息的属性信息集合;在网页结构化信息集合中,识别属性信息集合之间的相似度大于预设阈值的多条网页结构化信息;在多条网页结构化信息中,提取针对同一属性的多个属性信息;基于多个属性信息的质量度,在多个属性信息中选取属性信息并输出,其中,质量度是基于以下至少一个来确定的:属性信息所来源的网站的网站信息,属性信息的发布时间距离当前时间的时间长度,属性信息所包含的预设关键字的数量以及属性信息的长度。
在一些实施例中,基于多个属性信息的质量度,在多个属性信息中选取属性信息并输出,包括:获取多个属性信息中的每个属性信息所来源的网站的网站信息,其中,网站信息包括网站名称;将网站名称导入预先设置的网站权重输出模型进行匹配得到权重,其中,网站权重输出模型用于表征网站名称与权重的对应关系;在多个属性信息中,选取所来源的网站的权重最大的属性信息并输出。
在一些实施例中,基于多个属性信息的质量度,在多个属性信息中选取属性信息并输出,包括:确定多个属性信息中的每个属性信息所包含的预设关键字的数量;在多个属性信息中,选取所包含的预设关键字的数量最多的属性信息并输出。
在一些实施例中,基于多个属性信息的质量度,在多个属性信息中选取属性信息并输出,包括:确定多个属性信息中的每个属性信息的发布时间距离当前时间的时间长度;在多个属性信息中,选取时间长度最短的属性信息并输出。
在一些实施例中,在多个属性信息中选取属性信息并输出,包括:将所选取的属性信息添加到待输出内容中;输出待输出内容。
在一些实施例中,多条网页结构化信息中的每条网页结构化信息包括信息标识和对应的内容标识,待输出内容包括内容标识和对应的信息标识;以及该方法还包括:将多条网页结构化信息中的每条网页结构化信息的内容标识设置为待输出内容的内容标识,将待输出内容的信息标识设置为多条网页结构化信息中的各条网页结构化信息的信息标识。
在一些实施例中,该方法还包括:基于待输出内容的信息标识、多条网页结构化信息中的每条网页结构化信息的内容标识,确定待输出内容与多条网页结构化信息的对应关系;保存多条网页结构化信息、待输出内容、待输出内容与多条网页结构化信息的对应关系。
第二方面,本申请实施例提供了一种信息输出装置,该装置包括:获取单元,配置用于获取网页结构化信息集合,其中,网页结构化信息包括多个属性,将多个属性中的至少一个属性对应的属性信息组成网页结构化信息的属性信息集合;识别单元,配置用于在网页结构化信息集合中,识别属性信息集合之间的相似度大于预设阈值的多条网页结构化信息;提取单元,配置用于在多条网页结构化信息中,提取针对同一属性的多个属性信息;选取单元,配置用于基于多个属性信息的质量度,在多个属性信息中选取属性信息并输出,其中,质量度是基于以下至少一个来确定的:属性信息所来源的网站的网站信息,属性信息的发布时间距离当前时间的时间长度,属性信息所包含的预设关键字的数量以及属性信息的长度。
在一些实施例中,选取单元包括:获取模块,配置用于获取多个属性信息中的每个属性信息所来源的网站的网站信息,其中,网站信息包括网站名称;匹配模块,配置用于将网站名称导入预先设置的网站权重输出模型进行匹配得到权重,其中,网站权重输出模型用于表征网站名称与权重的对应关系;第一选取模块,配置用于在多个属性信息中,选取所来源的网站的权重最大的属性信息并输出。
在一些实施例中,选取单元包括:第一确定模块,配置用于确定多个属性信息中的每个属性信息所包含的预设关键字的数量;第二选取模块,配置用于在多个属性信息中,选取所包含的预设关键字的数量最多的属性信息并输出。
在一些实施例中,选取单元包括:第二确定模块,配置用于确定多个属性信息中的每个属性信息的发布时间距离当前时间的时间长度;第三选取模块,配置用于在多个属性信息中,选取时间长度最短的属性信息并输出。
在一些实施例中,选取单元包括:添加模块,配置用于将所选取的属性信息添加到待输出内容中;输出模块,配置用于输出待输出内容。
在一些实施例中,多条网页结构化信息中的每条网页结构化信息包括信息标识和对应的内容标识,待输出内容包括内容标识和对应的信息标识;以及该装置还包括:设置单元,配置用于将多条网页结构化信息中的每条网页结构化信息的内容标识设置为待输出内容的内容标识,将待输出内容的信息标识设置为多条网页结构化信息中的各条网页结构化信息的信息标识。
在一些实施例中,该装置还包括:确定单元,配置用于基于待输出内容的信息标识、多条网页结构化信息中的每条网页结构化信息的内容标识,确定待输出内容与多条网页结构化信息的对应关系;保存单元,配置用于保存多条网页结构化信息、待输出内容、待输出内容与多条网页结构化信息的对应关系。
本申请提供的信息输出方法和装置,通过在相似的多条网页结构化信息中,提取针对同一属性的多个属性信息,之后在多个属性信息中选取质量度高的属性信息并输出,从而保证了选取的网页数据的质量。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的信息输出方法的一个实施例的流程图;
图3是本申请的信息输出方法所适用的多条网页结构化信息与待输出内容的一个示意图;
图4是根据本申请的信息输出方法的又一个实施例的流程图;
图5是根据本申请的信息输出装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的信息输出方法或信息输出装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括呈现终端1011、1012,网络1021、1022,网页服务器103,服务器104和信息显示装置105。其中,网络1021用以在呈现终端1011、1012和服务器104之间提供通信链路的介质;网络1022用以在网页服务器103和服务器104之间提供通信链路的介质。网络1021、1022可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
服务器104可以通过网络1021与呈现终端1011、1012交互,以呈现属性信息等;服务器104还可以通过网络1022与网页服务器103交互,以获取网页结构化信息等;服务器104还可以与本地的信息显示装置105交互,以输出并呈现属性信息等。
呈现终端1011、1012可以是具有显示屏并且支持信息交互的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器104可以是提供各种服务的服务器,例如对从网页服务器103中获取网页结构化信息,在相似的多条网页结构化信息中,提取针对同一属性的多个属性信息,之后在多个属性信息中选取质量度高的属性信息,并将选取出的属性信息在呈现终端1011、1012上或者信息显示装置105上进行呈现的后台服务器。
信息显示装置105可以是具有显示屏并且与服务器104进行本地交互的各种电子设备,其可以将服务器104选取出的属性信息进行呈现。
需要说明的是,本申请实施例所提供的信息输出方法一般由服务器104执行,相应地,信息输出装置一般设置于服务器104中。
应该理解,图1中的呈现终端、网络、网页服务器、服务器和信息显示装置的数目仅仅是示意性的。根据实现需要,可以具有任意数目的呈现终端、网络、网页服务器、服务器和信息显示装置。
继续参考图2,示出了根据本申请的信息输出方法的一个实施例的流程200。该信息输出方法,包括以下步骤:
步骤201,获取网页结构化信息集合。
在本实施例中,信息输出方法运行于其上的电子设备(例如图1所示的服务器)可以获取网页结构化信息集合,其中,网页结构化信息抽取就是将网页中的非结构化数据按照一定的需求抽取成结构化数据,网页结构化信息即是从网页中抽取出的结构化数据。
网页结构化信息可以包括多个属性,属性可以与网页结构化信息的类别相关联,这些属性在抽取网页结构化信息之前可以被预先设定出,其中,网页结构化信息的类别可以为预设的类别,如,新闻、电影、社交等等。作为示例,从新闻类网站中抽取的网页结构化信息的属性可以为标题、所来源网站的名称、新闻时间、新闻摘要和新闻正文等;从电影类网站中抽取的网页结构化信息的属性可以为电影名称、导演名称、主演名称、编剧名称等。
上述电子设备可以将网页结构化信息的多个属性中的至少一个属性对应的属性信息组成上述网页结构化信息的属性信息集合,上述至少一个属性可以为预先设置的与网页结构化信息的类别相关的属性,上述电子设备可以预先接收用户输入的或者缺省设置的网页结构化信息的类别与至少一个属性之间的关系,并将上述关系进行存储,当使用网络爬虫爬取网页结构化信息时,将该网页结构化信息的类别所对应的至少一个属性的属性信息组成该网页结构化信息的属性信息集合。如,对于新闻类网页的结构化信息,上述至少一个属性可以为标题;对于音乐类网页的结构化信息,上述至少一个属性可以为歌曲名称和歌手名称。
在本实施例中,可以采用下述两种方式抽取网页结构化信息:模板抽取方式;对网页不依赖的网页库级的结构化信息抽取方式。模板抽取方式的抽取步骤如下:首先确定需要抽取的网页数据的数据类别,例如,新闻类数据、电影类数据等等,并设计好数据模型;之后,根据数据模型配置爬取模板,并使用网络爬虫进行结构化信息的爬取。网页库结构化信息抽取方式是采用页面结构分析与智能节点分析转换的方法,自动抽取结构化数据。
步骤202,在网页结构化信息集合中,识别属性信息集合之间的相似度大于预设阈值的多条网页结构化信息。
在本实施例中,在步骤201中获取到网页结构化信息集合之后,上述电子设备可以首先获取上述网页结构化信息集合中每个网页结构化信息的属性信息集合;之后,将各个属性信息集合中针对同一属性的多个属性信息进行相似度对比,得到针对各个属性的属性信息的相似度,则属性信息集合之间的相似度可以为针对属性信息集合中的各个属性信息的相似度之和,也可以为针对属性信息集合中的各个属性信息的相似度之积,作为示例,若属性信息集合A中包括属性信息A1和属性信息A2,属性信息集合B中包括属性信息B1和属性信息B2,若属性信息A1与属性信息B1为针对同一属性的属性信息,且属性信息A2与属性信息B2为针对同一属性的属性信息,属性信息A1与属性信息B1之间的相似度为0.9,属性信息A2与属性信息B2之间的相似度为0.8,则属性信息集合A与属性信息集合B之间的相似度可以为1.7(即属性信息A1与属性信息B1之间的相似度加上属性信息A2与属性信息B2之间的相似度),也可以为0.72(即属性信息A1与属性信息B1之间的相似度乘以属性信息A2与属性信息B2之间的相似度);然后,可以识别出属性信息集合之间的相似度大于预设阈值的多条网页结构化信息。
在本实施例中,可以采用基于最长公共子串(Longest Common Subsequence)的文本比较算法(例如,Needleman/Wunsch算法)确定属性信息A与属性信息B之间的相似度,也可以采用基于编辑距离(Edit Distance)的文本比较算法(例如,LD(LevenshteinDistance)算法)确定属性信息A与属性信息B之间的相似度,其中,属性信息A和属性信息B分别为网页结构化信息A的属性信息集合和网页结构化信息B的属性信息集合中的针对同一属性的属性信息。LD算法又可以称为编辑距离算法,是通过插入字符、删除字符、替换字符将字符串A变为另一个字符串B,操作过程的次数为这两个字符串的差异,将属性信息A变换成属性信息B的过程中,操作次数越少,则相似度越大;通过Needleman/Wunsch算法可以找到字符串A与字符串B中最长的公共子串,最长公共子串不需要连续出现,但是出现的顺序要一致,属性信息A与属性信息B的最长公共子串的长度与属性信息A的长度或属性信息B的长度的比值越大,则相似度越大。
步骤203,在多条网页结构化信息中,提取针对同一属性的多个属性信息。
在本实施例中,在步骤202中识别出多条网页结构化信息之后,上述电子设备可以在上述多条网页结构化信息中,提取针对同一属性的多个属性信息。
作为示例,若上述多条网页结构化信息为新闻类的网页结构化信息A和新闻类的网页结构化信息B,新闻类的网页结构化信息包括的属性可以为标题名称、作者名称、新闻时间、新闻正文,则可以在网页结构化信息A和网页结构化信息B中,分别提取网页结构化信息A和网页结构化信息B的标题名称、作者名称、新闻时间、新闻正文。
步骤204,基于多个属性信息的质量度,在多个属性信息中选取属性信息并输出。
在本实施例中,上述电子设备可以获取上述多个属性信息的质量度,之后基于多个属性信息的质量度,在多个属性信息中选取属性信息并输出,可以选取质量度最大的属性信息进行输出。上述质量度可以基于以下至少一项来确定:属性信息所来源的网站的网站信息,属性信息的发布时间距离当前时间的时间长度,属性信息所包含的预设关键字的数量以及属性信息的长度。
作为示例,对于新闻类的网页结构化信息,原创稿件多、发布时间快、转载率高、权威性高、点击量大的网站内的属性信息可以被认为是质量度高的属性信息,如国家或者中央媒体的网站中的属性信息的质量度一般被认为高于其他新闻网站、地方网站或者知名度不高的网站中的属性信息;对于新闻类的网页结构化信息中的“新闻时间”这一属性,可以认为发布时间距离当前时间的时间长度越长的质量度越高,即选取最早的时间作为“新闻时间”进行输出;对于新闻类的网页结构化信息中的“新闻摘要”这一属性,可以认为包括预设关键字的数量越多,对应的属性信息的质量度越高,例如,当“新闻摘要”中包含“最新”或者“最热”等文字、且包含这类文字的数量越多,则可以认为这条“新闻摘要”的质量度越高。
在本实施例中,上述质量度还可以基于属性信息的创建时间、属性信息中是否包含敏感词等等进行确定。比如,对于电影类网页结构化信息的“演员名称”这一属性,可以认为属性信息的长度越短,质量度越高;对于社交类网页结构化信息,可以认为包含敏感词的属性信息的质量度低。在多数网站中,敏感词一般是指带有敏感倾向、暴力倾向、不健康色彩的词或不文明语。
对于一些特定的网页结构化信息,需要一些特定的方法确定属性信息的质量度,比如,针对图片类网页结构化信息的“图片链接”这一属性,质量度与图片大小具有一定的关系;针对图片类网页结构化信息的“图片高”、“图片宽”这类属性,由阿拉伯数字表示的属性信息的质量度高。
在本实施例中,属性信息的质量度一般是由多个因素(属性信息所来源的网站的网站信息,属性信息的发布时间距离当前时间的时间长度,属性信息所包含的预设关键字的数量,属性信息的长度,属性信息的创建时间,属性信息中是否包含敏感词等等)进行确定的,对于不同的属性信息确定质量度时,所采用的因素可以不相同,且采用多个因素确定属性信息的质量度时,每个因素的权重也可以不相同。
作为示例,针对新闻类的网页结构化信息中的“新闻摘要”这一属性,质量度可以由属性信息所来源的网站信息、属性信息中包含预设关键字的数量所确定。如,新闻摘要A来源于A网站,新闻摘要B来源于B网站,且A网站的转载率、权威性和点击量均高于B网站,因此,针对“属性信息所来源的网站信息”这一确定因素,新闻摘要A的质量度大于新闻摘要B;但是,新闻摘要A中不包含预设关键字,而新闻摘要B中包含一个预设关键字,因此,针对“属性信息所包含的预设关键字的数量”这一确定因素,新闻摘要B的质量度大于新闻摘要A,若针对“新闻摘要”这一属性,“属性信息所包含的预设关键字的数量”的权重大于“属性信息所来源的网站信息”,则可以确定新闻摘要B的质量度大于新闻摘要A。
在本实施例的一些可选的实现方式中,上述电子设备可以将所选取出的属性信息添加到待输出内容中,之后,将上述待输出内容进行输出。上述电子设备可以在每次选取出属性信息之后,将选取出的属性信息进行输出;也可以将各个不同属性所对应的属性信息均选取出并添加到待输出内容之后,将上述待输出内容进行输出。
在本实施例的一些可选的实现方式中,上述多条网页结构化信息中的每条网页结构化信息包括信息标识和对应的内容标识,上述待输出内容包括内容标识和对应的信息标识,上述电子设备可以将上述多条网页结构化信息中的每条网页结构化信息的内容标识设置为上述待输出内容的内容标识,并可以将上述待输出内容的信息标识设置为上述多条网页结构化信息中的各条网页结构化信息的信息标识。作为示例,上述多条网页结构化信息包括网页结构化信息A和网页结构化信息B,网页结构化信息A的信息标识为“111”,网页结构化信息B的信息标识为“112”,待输出内容的内容标识为“222”,则可以将上述网页结构化信息A与上述网页结构化信息B的内容标识均设置为“222”,并将上述待输出内容的信息标识设置为“111”与“112”。
在本实施例的一些可选的实现方式中,上述电子设备可以基于上述待输出内容的信息标识、上述多条网页结构化信息中的每条网页结构化信息的内容标识,确定上述待输出内容与上述多条网页结构化信息的对应关系;之后,可以将上述待输出内容、上述多条网页结构化信息、上述待输出内容与上述多条网页结构化信息的对应关系进行保存。当后期需要对上述待输出内容进行多次加工或者修改时,这种实现方式提供了修改时可参考的原始数据,即多条网页结构化信息。
继续参见图3,图3是本申请的信息输出方法所适用的多条网页结构化信息与待输出内容的一个示意图。在图3的示意图中,网页结构化信息301的标题为“楼市调控央行、银监会、国土部这些决策层怎么说?”,网页结构化信息302的标题为“央行、银监会、国土部决策层谈楼市调控”,则后台服务器可以通过标题,识别出网页结构化信息301与网页结构化信息302为相似的网页结构化信息。在网页结构化信息301与网页结构化信息302中,针对“标题”选取属性信息时,因为标题“楼市调控央行、银监会、国土部这些决策层怎么说?”来源于“A网站”,标题“央行、银监会、国土部决策层谈楼市调控”来源于“B网站”,因为“A网站”的权重高于“B网站”,则可以将网页结构化信息301的标题“楼市调控央行、银监会、国土部这些决策层怎么说?”添加到待输出内容303中进行输出;针对“来源网站”选取属性信息时,因为“A网站”的权重高于“B网站”,则可以将网页结构化信息301的来源网站“A网站”添加到待输出内容303中进行输出;针对“新闻时间”选取属性信息时,因为网页结构化信息301的新闻时间“2017年3月21日7:10:23”距离当前时间的时间长度最长,即新闻时间更早,则可以将网页结构化信息301的新闻时间“2017年3月21日7:10:23”添加到待输出内容303中进行输出;针对“新闻摘要”选取属性信息时,因为网页结构化信息302的新闻摘要中包含预设关键字“最新”,则可以将网页结构化信息302的新闻摘要添加到待输出内容303中进行输出;针对“新闻正文”选取属性信息时,因为网页结构化信息301的新闻正文与网页结构化信息302的新闻正文相同,则可以将该相同的新闻正文添加到待输出内容303中进行输出。
本申请的上述实施例提供的方法通过在相似的多条网页结构化信息中,提取针对同一属性的多个属性信息,之后在多个属性信息中选取质量度高的属性信息并输出,从而保证了选取的网页数据的质量。
进一步参考图4,其示出了信息输出方法的又一个实施例的流程400。该信息输出方法的流程400,包括以下步骤:
步骤401,获取网页结构化信息集合。
在本实施例中,信息输出方法运行于其上的电子设备(例如图1所示的服务器)可以获取网页结构化信息集合,其中,网页结构化信息抽取就是将网页中的非结构化数据按照一定的需求抽取成结构化数据,网页结构化信息即是从网页中抽取出的结构化数据。
网页结构化信息可以包括多个属性,属性与网页结构化信息的类别相关联,这些属性在抽取网页结构化信息之前可以被预先设定出,其中,网页结构化信息的类别可以为预设的类别。作为示例,从房产类网站中抽取的网页结构化信息的属性可以为地址信息、房屋类型、面积、装修情况、联系人等。
在本实施例中,上述属性一般是指网页结构化信息的特殊属性,特殊属性是根据网页结构化信息的类别的不同而有所区别,除了特殊属性,网页结构化信息还可以包括基本属性,基本属性是所有类别的网页结构化信息都拥有的属性,例如,创建时间、更新时间等等。
上述电子设备可以将网页结构化信息的多个属性中的至少一个属性对应的属性信息组成上述网页结构化信息的属性信息集合,上述至少一个属性可以为预先设置的与网页结构化信息的类别相关的属性,上述电子设备可以预先接收用户输入的或者缺省设置的网页结构化信息的类别与至少一个属性之间的关系,并将上述关系进行存储,当使用网络爬虫爬取网页结构化信息时,将该网页结构化信息的类别所对应的至少一个属性的属性信息组成该网页结构化信息的属性信息集合。
在本实施例中,可以采用下述两种方式抽取网页结构化信息:模板抽取方式;对网页不依赖的网页库级的结构化信息抽取方式。
步骤402,在网页结构化信息集合中,识别属性信息集合之间的相似度大于预设阈值的多条网页结构化信息。
在本实施例中,在步骤401中获取到网页结构化信息集合之后,上述电子设备可以首先获取上述网页结构化信息集合中每个网页结构化信息的属性信息集合;之后,将各个属性信息集合中针对同一属性的多个属性信息进行相似度对比,得到针对各个属性的属性信息的相似度,则属性信息集合之间的相似度可以为针对属性信息集合中的各个属性信息的相似度之和,也可以为针对属性信息集合中的各个属性信息的相似度之积;然后,可以识别出属性信息集合之间的相似度大于预设阈值的多条网页结构化信息。
在本实施例中,可以采用基于最长公共子串的文本比较算法确定属性信息A与属性信息B之间的相似度,也可以采用基于编辑距离的文本比较算法确定属性信息A与属性信息B之间的相似度,其中,属性信息A和属性信息B分别为网页结构化信息A的属性信息集合和网页结构化信息B的属性信息集合中的针对同一属性的属性信息。
步骤403,在多条网页结构化信息中,提取针对同一属性的多个属性信息。
在本实施例中,在步骤402中识别出多条网页结构化信息之后,上述电子设备可以在上述多条网页结构化信息中,提取针对同一属性的多个属性信息。
作为示例,若上述多条网页结构化信息为新闻类的网页结构化信息A和新闻类的网页结构化信息B,新闻类的网页结构化信息包括的属性可以为标题名称、作者名称、新闻时间、新闻正文,则可以在网页结构化信息A和网页结构化信息B中,分别提取网页结构化信息A和网页结构化信息B的标题名称、作者名称、新闻时间、新闻正文。
步骤404,获取多个属性信息中的每个属性信息所来源的网站的网站信息。
在本实施例中,在步骤403中提取出多个属性信息之后,上述电子设备可以获取上述多个属性信息中的每个属性信息所来源的网站的网站信息,之后可以执行步骤405。对于多个属性信息中的每个属性信息,该属性信息所来源的网站的网站信息,即为该属性信息所属的网页结构化信息所来源的网站的网站信息。上述网站信息可以包括以下至少一项:网站名称、网站类别、网站域名、网站程序以及网站数据库。
步骤405,将网站名称导入预先设置的网站权重输出模型进行匹配得到权重。
在本实施例中,在步骤404中获取到多个网站名称之后,对于多个网站名称中的每个网站名称,可以将该网站名称导入到预先设置的网站权重输出模型进行匹配得到该网站名称对应的权重,之后可以执行步骤406,其中,上述网站权重输出模型用于表征网站名称与网站权重的对应关系。上述电子设备可以利用预先获取的网站名称与预先设置的每个网站名称对应的权重的对应关系,设置网站权重输出模型。
网站的权重一般与网站的原创稿件数量、发布时间、转载率、权威性、点击量等信息相关,原创稿件多、发布时间快、转载率高、权威性高、点击量大的网站的权重也会相对较大。
步骤406,在多个属性信息中,选取所来源的网站的权重最大的属性信息并输出。
在本实施例中,在步骤405中匹配得到各个网站的权重之后,上述电子设备可以在上述多个属性信息中,选取所来源的网站的权重最大的属性信息进行输出。
步骤407,确定多个属性信息中的每个属性信息所包含的预设关键字的数量。
在本实施例中,在步骤403中提取出多个属性信息之后,上述电子设备可以确定上述多个属性信息中的每个属性信息所包含的预设关键字的数量,之后执行步骤408。上述关键字可以为“最热”、“最新”等等表征信息的实效性的词语。
步骤408,在多个属性信息中,选取所包含的预设关键字的数量最多的属性信息并输出。
在本实施例中,在步骤407中确定了每个属性信息所包含的预设关键字的数量之后,上述电子设备可以在多个属性信息中,选取所包含的预设关键字的数量最多的属性信息并输出。
作为示例,对于新闻类的网页结构化信息中的“新闻摘要”这一属性,可以认为包括预设关键字的数量越多,对应的属性信息的质量度越高,例如,当“新闻摘要”中包含“最新”或者“最热”等文字、且包含这类文字的数量越多,则可以认为这条“新闻摘要”的质量度越高。
步骤409,确定多个属性信息中的每个属性信息的发布时间距离当前时间的时间长度。
在本实施例中,在步骤403中提取出多个属性信息之后,上述电子设备可以确定上述多个属性信息中的每个属性信息的发布时间距离当前时间的时间长度。
步骤410,在多个属性信息中,选取时间长度最短的属性信息并输出。
在本实施例中,在步骤409中确定出每个属性信息的发布时间距离当前时间的时间长度之后,上述电子设备可以在多个属性信息中,选取时间长度最短的属性信息并输出。
作为示例,对于新闻类的网页结构化信息中的“新闻正文”这一属性,可以认为发布时间距离当前时间的时间长度越短,新闻内容的质量度越高。
从图4中可以看出,与图2对应的实施例相比,本实施例中的信息输出方法的流程400突出了对属性信息进行选取的步骤。由此,本实施例描述的方案引入了更多属性信息的选取方法,从而使得选取出的属性信息的质量度更高。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种信息输出装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的信息输出装置500包括:获取单元501、识别单元502、提取单元503和选取单元504。其中,获取单元501配置用于获取网页结构化信息集合,其中,网页结构化信息包括多个属性,将多个属性中的至少一个属性对应的属性信息组成网页结构化信息的属性信息集合;识别单元502配置用于在网页结构化信息集合中,识别属性信息集合之间的相似度大于预设阈值的多条网页结构化信息;提取单元503配置用于在多条网页结构化信息中,提取针对同一属性的多个属性信息;选取单元504配置用于基于多个属性信息的质量度,在多个属性信息中选取属性信息并输出,其中,质量度是基于以下至少一个来确定的:属性信息所来源的网站的网站信息,属性信息的发布时间距离当前时间的时间长度,属性信息所包含的预设关键字的数量以及属性信息的长度。
在本实施例中,信息输出装置500的获取单元501可以获取网页结构化信息集合,其中,网页结构化信息抽取就是将网页中的非结构化数据按照一定的需求抽取成结构化数据,网页结构化信息即是从网页中抽取出的结构化数据。网页结构化信息可以包括多个属性,属性可以与网页结构化信息的类别相关联,这些属性在抽取网页结构化信息之前可以被预先设定出。上述获取单元501可以将网页结构化信息的多个属性中的至少一个属性对应的属性信息组成上述网页结构化信息的属性信息集合,上述至少一个属性可以为预先设置的与网页结构化信息的类别相关的属性。
在本实施例中,在上述获取单元501获取到网页结构化信息集合之后,上述识别单元502可以首先获取上述网页结构化信息集合中每个网页结构化信息的属性信息集合;之后,将各个属性信息集合中针对同一属性的多个属性信息进行相似度对比,得到针对各个属性的属性信息的相似度,则属性信息集合之间的相似度可以为针对属性信息集合中的各个属性信息的相似度之和,也可以为针对属性信息集合中的各个属性信息的相似度之积;然后,可以识别出属性信息集合之间的相似度大于预设阈值的多条网页结构化信息。
在本实施例中,在上述识别单元502识别出多条网页结构化信息之后,上述提取单元503可以在上述多条网页结构化信息中,提取针对同一属性的多个属性信息。
在本实施例中,上述选取单元504可以获取上述多个属性信息的质量度,之后基于多个属性信息的质量度,在多个属性信息中选取属性信息并输出,可以选取质量度最大的属性信息进行输出。上述质量度可以基于以下至少一项来确定:属性信息所来源的网站的网站信息,属性信息的发布时间距离当前时间的时间长度,属性信息所包含的预设关键字的数量以及属性信息的长度。上述质量度还可以基于属性信息的创建时间、属性信息中是否包含敏感词等等进行确定。
在本实施例的一些可选的实现方式中,上述选取单元504可以包括获取模块(图中未示出)、匹配模块(图中未示出)和第一选取模块(图中未示出)。上述获取模块可以获取上述多个属性信息中的每个属性信息所来源的网站的网站信息。对于多个属性信息中的每个属性信息,该属性信息所来源的网站的网站信息,即为该属性信息所属的网页结构化信息所来源的网站的网站信息。上述网站信息可以包括以下至少一项:网站名称、网站类别、网站域名、网站程序以及网站数据库。对于多个网站名称中的每个网站名称,上述匹配模块可以将该网站名称导入到预先设置的网站权重输出模型进行匹配得到该网站名称对应的权重,其中,上述网站权重输出模型用于表征网站名称与网站权重的对应关系。上述匹配模块可以利用预先获取的网站名称与预先设置的每个网站名称对应的权重的对应关系,设置网站权重输出模型。在上述匹配模块匹配得到各个网站的权重之后,上述第一选取模块可以在上述多个属性信息中,选取所来源的网站的权重最大的属性信息进行输出。
在本实施例的一些可选的实现方式中,上述选取单元504还可以包括第一确定模块(图中未示出)和第二选取模块(图中未示出)。在上述提取单元503提取出多个属性信息之后,上述第一确定模块可以确定上述多个属性信息中的每个属性信息所包含的预设关键字的数量。在上述第一确定模块确定了每个属性信息所包含的预设关键字的数量之后,上述第二选取模块可以在多个属性信息中,选取所包含的预设关键字的数量最多的属性信息并输出。
在本实施例的一些可选的实现方式中,上述选取单元504还可以包括第二确定模块(图中未示出)和第三选取模块(图中未示出)。在上述提取单元503提取出多个属性信息之后,上述第二确定模块可以确定上述多个属性信息中的每个属性信息的发布时间距离当前时间的时间长度。在上述第二确定模块确定出每个属性信息的发布时间距离当前时间的时间长度之后,上述第三选取模块可以在多个属性信息中,选取时间长度最短的属性信息并输出。
在本实施例的一些可选的实现方式中,上述选取单元504还可以包括添加模块(图中未示出)和输出模块(图中未示出)。上述添加模块可以将所选取出的属性信息添加到待输出内容中,之后,上述输出模块将上述待输出内容进行输出。上述输出模块可以在每次选取出属性信息之后,将选取出的属性信息进行输出;也可以将各个不同属性所对应的属性信息均选取出并添加到待输出内容之后,将上述待输出内容进行输出。
在本实施例的一些可选的实现方式中,上述多条网页结构化信息中的每条网页结构化信息包括信息标识和对应的内容标识,上述待输出内容包括内容标识和对应的信息标识。上述信息输出装置500还可以包括设置单元(图中未示出),上述设置单元可以将上述多条网页结构化信息中的每条网页结构化信息的内容标识设置为上述待输出内容的内容标识,并可以将上述待输出内容的信息标识设置为上述多条网页结构化信息中的各条网页结构化信息的信息标识。
在本实施例的一些可选的实现方式中,上述信息输出装置500还可以包括确定单元(图中未示出)和保存单元(图中未示出)。上述确定单元可以基于上述待输出内容的信息标识、上述多条网页结构化信息中的每条网页结构化信息的内容标识,确定上述待输出内容与上述多条网页结构化信息的对应关系;之后,上述保存单元可以将上述待输出内容、上述多条网页结构化信息、上述待输出内容与上述多条网页结构化信息的对应关系进行保存。当后期需要对上述待输出内容进行多次加工或者修改时,这种实现方式提供了修改时可参考的原始数据,即多条网页结构化信息。
下面参考图6,其示出了适于用来实现本发明实施例的服务器的计算机系统600的结构示意图。图6示出的服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、识别单元、提取单元和选取单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。例如,获取单元还可以被描述为“用于获取网页结构化信息集合的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:获取网页结构化信息集合,其中,网页结构化信息包括多个属性,将多个属性中的至少一个属性对应的属性信息组成网页结构化信息的属性信息集合;在网页结构化信息集合中,识别属性信息集合之间的相似度大于预设阈值的多条网页结构化信息;在多条网页结构化信息中,提取针对同一属性的多个属性信息;基于多个属性信息的质量度,在多个属性信息中选取属性信息并输出,其中,质量度是基于以下至少一个来确定的:属性信息所来源的网站的网站信息,属性信息的发布时间距离当前时间的时间长度,属性信息所包含的预设关键字的数量以及属性信息的长度。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (14)

1.一种信息输出方法,其特征在于,所述方法包括:
获取网页结构化信息集合,其中,网页结构化信息包括多个属性,将所述多个属性中的至少一个属性对应的属性信息组成所述网页结构化信息的属性信息集合;
在所述网页结构化信息集合中,识别属性信息集合之间的相似度大于预设阈值的多条网页结构化信息;
在所述多条网页结构化信息中,提取针对同一属性的多个属性信息;
基于所述多个属性信息的质量度,在所述多个属性信息中选取属性信息并输出,其中,质量度是基于以下至少一个来确定的:属性信息所来源的网站的网站信息,属性信息的发布时间距离当前时间的时间长度,属性信息所包含的预设关键字的数量以及属性信息的长度;
将所述多条网页结构化信息中的每条网页结构化信息的内容标识设置为待输出内容的内容标识,将所述待输出内容的信息标识设置为所述多条网页结构化信息中的各条网页结构化信息的信息标识,其中,所述待输出内容包括所选取的属性信息;
基于所述待输出内容的信息标识、所述多条网页结构化信息中的每条网页结构化信息的内容标识,确定所述待输出内容与所述多条网页结构化信息的对应关系;
保存所述多条网页结构化信息、所述待输出内容、所述待输出内容与所述多条网页结构化信息的对应关系。
2.根据权利要求1所述的方法,其特征在于,所述基于所述多个属性信息的质量度,在所述多个属性信息中选取属性信息并输出,包括:
获取所述多个属性信息中的每个属性信息所来源的网站的网站信息,其中,所述网站信息包括网站名称;
将所述网站名称导入预先设置的网站权重输出模型进行匹配得到权重,其中,所述网站权重输出模型用于表征网站名称与权重的对应关系;
在所述多个属性信息中,选取所来源的网站的权重最大的属性信息并输出。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述多个属性信息的质量度,在所述多个属性信息中选取属性信息并输出,包括:
确定所述多个属性信息中的每个属性信息所包含的预设关键字的数量;
在所述多个属性信息中,选取所包含的预设关键字的数量最多的属性信息并输出。
4.根据权利要求3所述的方法,其特征在于,所述基于所述多个属性信息的质量度,在所述多个属性信息中选取属性信息并输出,包括:
确定所述多个属性信息中的每个属性信息的发布时间距离当前时间的时间长度;
在所述多个属性信息中,选取时间长度最短的属性信息并输出。
5.根据权利要求1所述的方法,其特征在于,所述在所述多个属性信息中选取属性信息并输出,包括:
将所选取的属性信息添加到待输出内容中;
输出所述待输出内容。
6.根据权利要求1所述的方法,其特征在于,所述多条网页结构化信息中的每条网页结构化信息包括信息标识和对应的内容标识,所述待输出内容包括内容标识和对应的信息标识。
7.一种信息输出装置,其特征在于,所述装置包括:
获取单元,配置用于获取网页结构化信息集合,其中,网页结构化信息包括多个属性,将所述多个属性中的至少一个属性对应的属性信息组成所述网页结构化信息的属性信息集合;
识别单元,配置用于在所述网页结构化信息集合中,识别属性信息集合之间的相似度大于预设阈值的多条网页结构化信息;
提取单元,配置用于在所述多条网页结构化信息中,提取针对同一属性的多个属性信息;
选取单元,配置用于基于所述多个属性信息的质量度,在所述多个属性信息中选取属性信息并输出,其中,质量度是基于以下至少一个来确定的:属性信息所来源的网站的网站信息,属性信息的发布时间距离当前时间的时间长度,属性信息所包含的预设关键字的数量以及属性信息的长度;
设置单元,配置用于将所述多条网页结构化信息中的每条网页结构化信息的内容标识设置为待输出内容的内容标识,将所述待输出内容的信息标识设置为所述多条网页结构化信息中的各条网页结构化信息的信息标识,其中,所述待输出内容包括所选取的属性信息;
确定单元,配置用于基于所述待输出内容的信息标识、所述多条网页结构化信息中的每条网页结构化信息的内容标识,确定所述待输出内容与所述多条网页结构化信息的对应关系;
保存单元,配置用于保存所述多条网页结构化信息、所述待输出内容、所述待输出内容与所述多条网页结构化信息的对应关系。
8.根据权利要求7所述的装置,其特征在于,所述选取单元包括:
获取模块,配置用于获取所述多个属性信息中的每个属性信息所来源的网站的网站信息,其中,所述网站信息包括网站名称;
匹配模块,配置用于将所述网站名称导入预先设置的网站权重输出模型进行匹配得到权重,其中,所述网站权重输出模型用于表征网站名称与权重的对应关系;
第一选取模块,配置用于在所述多个属性信息中,选取所来源的网站的权重最大的属性信息并输出。
9.根据权利要求7或8所述的装置,其特征在于,所述选取单元包括:
第一确定模块,配置用于确定所述多个属性信息中的每个属性信息所包含的预设关键字的数量;
第二选取模块,配置用于在所述多个属性信息中,选取所包含的预设关键字的数量最多的属性信息并输出。
10.根据权利要求9所述的装置,其特征在于,所述选取单元包括:
第二确定模块,配置用于确定所述多个属性信息中的每个属性信息的发布时间距离当前时间的时间长度;
第三选取模块,配置用于在所述多个属性信息中,选取时间长度最短的属性信息并输出。
11.根据权利要求7所述的装置,其特征在于,所述选取单元包括:
添加模块,配置用于将所选取的属性信息添加到待输出内容中;
输出模块,配置用于输出所述待输出内容。
12.根据权利要求7所述的装置,其特征在于,所述多条网页结构化信息中的每条网页结构化信息包括信息标识和对应的内容标识,所述待输出内容包括内容标识和对应的信息标识。
13.一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN201710217796.XA 2017-04-01 2017-04-01 信息输出方法和装置 Active CN108664535B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710217796.XA CN108664535B (zh) 2017-04-01 2017-04-01 信息输出方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710217796.XA CN108664535B (zh) 2017-04-01 2017-04-01 信息输出方法和装置

Publications (2)

Publication Number Publication Date
CN108664535A CN108664535A (zh) 2018-10-16
CN108664535B true CN108664535B (zh) 2022-08-12

Family

ID=63784551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710217796.XA Active CN108664535B (zh) 2017-04-01 2017-04-01 信息输出方法和装置

Country Status (1)

Country Link
CN (1) CN108664535B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449199B (zh) * 2021-09-01 2021-11-26 深圳市知酷信息技术有限公司 一种基于综合安全审计的文档监控管理系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178708A (zh) * 2006-11-07 2008-05-14 北京酷讯科技有限公司 针对结构化网页的自动模板信息定位方法
CN101996190A (zh) * 2009-08-12 2011-03-30 北京大学 一种从网页中抽取信息的方法及装置
CN103235803A (zh) * 2013-04-17 2013-08-07 北京京东尚科信息技术有限公司 一种从文本中获取物品属性值的方法和装置
CN103324761A (zh) * 2013-07-11 2013-09-25 广州市尊网商通资讯科技有限公司 一种基于互联网数据形成产品数据库方法和系统
CN103559199A (zh) * 2013-09-29 2014-02-05 北京航空航天大学 网页信息抽取方法和装置
CN105095368A (zh) * 2015-06-29 2015-11-25 北京金山安全软件有限公司 一种对新闻信息进行排序的方法及装置
CN105279277A (zh) * 2015-11-12 2016-01-27 百度在线网络技术(北京)有限公司 知识数据的处理方法和装置
CN106202382A (zh) * 2016-07-08 2016-12-07 南京缘长信息科技有限公司 链接实体方法和系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8243325B2 (en) * 2005-07-08 2012-08-14 Xerox Corporation Method for prepress-time color match verification and correction
CN101165685A (zh) * 2006-10-19 2008-04-23 国际商业机器公司 用于生成动态网页的方法及装置
CN100447793C (zh) * 2007-01-10 2008-12-31 苏州大学 基于视觉特征的页面查询接口抽取方法
CN101154231B (zh) * 2007-07-09 2011-06-29 孟智平 一种应用网页语义的方法和系统
CN101561802A (zh) * 2008-04-18 2009-10-21 上海复旦光华信息科技股份有限公司 网页结构化数据提取方法与系统
CN101615193A (zh) * 2009-07-07 2009-12-30 北京大学 一种基于百科数据提取集成的查询系统
JP2012064136A (ja) * 2010-09-17 2012-03-29 Nippon Telegr & Teleph Corp <Ntt> テストデータ生成方法、テストデータ生成装置及びテストデータ生成プログラム
JP2013178676A (ja) * 2012-02-28 2013-09-09 Nippon Telegr & Teleph Corp <Ntt> 制御システム及び制御方法
CN102831251A (zh) * 2012-09-20 2012-12-19 北京理工大学 基于动态学习框架的全自动网页结构化数据抽取方法
CN103092986A (zh) * 2013-02-06 2013-05-08 网之易信息技术(北京)有限公司 针对网页的反馈方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178708A (zh) * 2006-11-07 2008-05-14 北京酷讯科技有限公司 针对结构化网页的自动模板信息定位方法
CN101996190A (zh) * 2009-08-12 2011-03-30 北京大学 一种从网页中抽取信息的方法及装置
CN103235803A (zh) * 2013-04-17 2013-08-07 北京京东尚科信息技术有限公司 一种从文本中获取物品属性值的方法和装置
CN103324761A (zh) * 2013-07-11 2013-09-25 广州市尊网商通资讯科技有限公司 一种基于互联网数据形成产品数据库方法和系统
CN103559199A (zh) * 2013-09-29 2014-02-05 北京航空航天大学 网页信息抽取方法和装置
CN105095368A (zh) * 2015-06-29 2015-11-25 北京金山安全软件有限公司 一种对新闻信息进行排序的方法及装置
CN105279277A (zh) * 2015-11-12 2016-01-27 百度在线网络技术(北京)有限公司 知识数据的处理方法和装置
CN106202382A (zh) * 2016-07-08 2016-12-07 南京缘长信息科技有限公司 链接实体方法和系统

Also Published As

Publication number Publication date
CN108664535A (zh) 2018-10-16

Similar Documents

Publication Publication Date Title
US10795939B2 (en) Query method and apparatus
CN107832434B (zh) 基于语音交互生成多媒体播放列表的方法和装置
CN108052613B (zh) 用于生成页面的方法和装置
CN107943877B (zh) 待播放多媒体内容的生成方法和装置
CN111522927B (zh) 基于知识图谱的实体查询方法和装置
US8984414B2 (en) Function extension for browsers or documents
US10169005B2 (en) Consolidating and reusing portal information
CN109271556B (zh) 用于输出信息的方法和装置
KR20180087456A (ko) 브라우징 액티비티에 기초하여 정합 애플리케이션을 식별하는 기법
CN106919711B (zh) 基于人工智能的标注信息的方法和装置
CN110019948B (zh) 用于输出信息的方法和装置
CN111339743B (zh) 一种账号生成的方法和装置
US20200073925A1 (en) Method and system for generating a website from collected content
CN113360106B (zh) 一种网页打印方法和装置
CN110852057A (zh) 一种计算文本相似度的方法和装置
CN113239256A (zh) 生成网站签名的方法、识别网站的方法及装置
CN108664535B (zh) 信息输出方法和装置
CN110895587B (zh) 用于确定目标用户的方法和装置
CN108664511B (zh) 获取网页信息方法和装置
CN113011152B (zh) 文本处理方法、装置、设备及计算机可读存储介质
CN111723177B (zh) 信息提取模型的建模方法、装置及电子设备
CN113656737A (zh) 网页内容展示方法、装置、电子设备以及存储介质
CN111310016B (zh) 标签挖掘方法、装置、服务器和存储介质
CN113221572A (zh) 一种信息处理方法、装置、设备及介质
CN112035581A (zh) 基于模型的任务处理方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant