CN103500181A - 一种互联网信息分析方法和装置 - Google Patents
一种互联网信息分析方法和装置 Download PDFInfo
- Publication number
- CN103500181A CN103500181A CN201310412581.5A CN201310412581A CN103500181A CN 103500181 A CN103500181 A CN 103500181A CN 201310412581 A CN201310412581 A CN 201310412581A CN 103500181 A CN103500181 A CN 103500181A
- Authority
- CN
- China
- Prior art keywords
- fragment
- attribute
- matched rule
- list
- mark
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种互联网信息分析方法和一种互联网信息分析装置,用于分析由互联网获取的海量信息。其中互联网信息分析方法包括:预先设置标记数据列表、规则数据列表和关联属性列表;抓取海量的互联网文件,从所述海量的互联网文件中提取出多段正文,将每段正文切分为至少一个片段;以及分析所述片段以获取互联网信息,具体包括对每一个片段执行以下操作:判断标记数据列表中是否存在与该片段匹配的字段标记,若是则进一步判断规则数据列表中是否存在与该片段匹配的匹配规则,若是则使用与该片段匹配的字段标记和匹配规则并利用所述关联属性列表筛选对应的属性与字段标记。使用本发明的方法和装置,可以提高对互联网信息进行分析的准确度。
Description
技术领域
本发明涉及对由互联网获取的海量信息进行分析方法,具体涉及一种互联网信息分析方法和一种互联网信息分析装置。
背景技术
随着网络信息爆炸式增长,人们对海量的互联网信息进行分析处理的需求也越来越高,利用大规模的搜索引擎以及数据抓取技术,可以获取互联网上的海量信息(由超文本链接标示语言HTML代码构成)。
但是现有的对获取的互联网上的海量信息进行分析的方法,例如利用海量信息获得用户对相关产品的反馈的方法,仅仅是简单地使用准确率低的字段匹配算法或者使用运算复杂度高的语义匹配算法。使用字段匹配算法获得的信息的准确率很低,使用语义匹配算法的运算开销巨大而无法与信息量的快速增加相适应,另外,网络语言所具有的语义不规范的特点进一步增大了使用语义匹配算法的运算复杂度,网络语言所具有的变化极快的特点进一步增大了使用语义匹配算法的算法维护工作的难度,换言之,由于网络语言变化极快,因此使用语义匹配算法时维护人员需要经常性地对算法进行比较大的调整,维护开销和维护难度比较大。因此,亟需能够在保证分析准确率的同时,有效地减小运算开销的方法和系统。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少解决上述部分问题的一种互联网信息分析方法和一种互联网信息分析装置。
本发明提供了一种互联网信息分析方法。该方法包括如下步骤:
预先设置标记数据列表、规则数据列表和关联属性列表;所述标记数据列表包括多个字段标记;所述规则数据列表包括匹配规则以及与每个匹配规则对应的属性;所述关联属性列表包括多个关联列表,每个关联列表对应于一个字段标记并包括与该字段标记对应的属性;
抓取海量的互联网文件,从所述海量的互联网文件中提取出多段正文,将每段正文切分为至少一个片段;
分析所述片段以获取互联网信息,具体包括对每一个片段执行以下操作:判断标记数据列表中是否存在与该片段匹配的字段标记,若是则进一步判断规则数据列表中是否存在与该片段匹配的匹配规则,若是则使用与该片段匹配的字段标记和匹配规则并利用所述关联属性列表筛选对应的属性与字段标记作为获取的互联网信息。
较佳地,所述使用与该片段匹配的字段标记和匹配规则并利用所述关联属性列表筛选对应的属性与字段标记,具体包括:
选择与该片段匹配的字段标记所对应的关联列表;以及对每一个与该片段匹配的匹配规则执行以下操作:判断与该匹配规则所对应的属性是否位于上述所选择的关联列表中,若是则将该属性以及与该属性所在的关联列表相对应的字段标记保存为对应的属性与字段标记。。
较佳地,所述规则数据列表,还包括与每个匹配规则对应的评价参数;所述使用与该片段匹配的字段标记和匹配规则并利用所述关联属性列表筛选对应的属性与字段标记,具体包括:选择与该片段匹配的字段标记所对应的关联列表;以及对每一个与该片段匹配的匹配规则执行以下操作:判断与该匹配规则所对应的属性是否位于上述所选择的关联列表中,若是则将该属性以及与该属性所在的关联列表相对应的字段标记保存为对应的属性与字段标记,同时保存与该匹配规则对应的评价参数。
较佳地,所述抓取海量的互联网文件,具体包括:使用网络爬虫采集海量的HTML源文件。所述从所述海量的互联网文件中提取出多段正文,具体包括:对所述HTML源文件使用正则表达式进行净化和提取正文的操作,从而选取正文。所述将每段正文切分为至少一个片段,具体包括:使用正则表达式将选取的正文按照标点符号进行断句,得到的每一个句子为一个片段。
较佳地,所述判断标记数据列表中是否存在与该片段匹配的字段标记具体包括:使用字段匹配方法,判断标记数据列表中的字段标记是否等于该片段中的一个字段。
较佳地,所述匹配规则为预先设定的匹配算法,包括多个关键词以及不同关键词之间的位置关系。所述判断规则数据列表中是否存在与该片段匹配的匹配规则,包括对每一个匹配算法执行以下操作:判断该片段是否包括该匹配算法中的所述多个关键词,若否则该片段不与该匹配规则匹配,若是则进一步判断所述关键词在该片段中的位置是否符合匹配算法中的位置关系,若否则该片段不与该匹配规则匹配,若是则该片段与该匹配规则匹配。
本发明提供了一种互联网信息分析装置。该装置包括数据库单元、片段获取单元和信息分析单元;
所述数据库单元,适于预先保存有标记数据列表、规则数据列表和关联属性列表;所述标记数据列表包括多个字段标记;所述规则数据列表包括匹配规则以及与每个匹配规则对应的属性;所述关联属性列表包括多个关联列表,每个关联列表对应于一个字段标记并包括与该字段标记对应的属性;
所述片段获取单元,适于抓取海量的互联网文件,从所述海量的互联网文件中提取出多段正文,以及将每段正文切分为至少一个片段,将片段发送给信息分析单元;
所述信息分析单元,适于分析接收到的片段以获取互联网信息,具体包括字段分析子单元、匹配分析子单元,以及关联分析子单元;
所述字段分析子单元,适于对每一个接收到的片段判断标记数据列表中是否存在与该片段匹配的字段标记,若是则将该片段发送给所述匹配分析子单元;
所述匹配分析子单元,适于对每一个接收到的片段判断规则数据列表中是否存在与该片段匹配的匹配规则,若是则将该片段发送给所述关联分析子单元;
所述关联分析子单元,适于对每一个接收到的片段,使用与该片段匹配的字段标记和匹配规则并利用所述关联属性列表筛选对应的属性与字段标记作为获取的互联网信息。
较佳地,所述关联分析子单元,适于在接收到片段时,选择与该片段匹配的字段标记所对应的关联列表;以及对每一个与该片段匹配的匹配规则,判断与该匹配规则所对应的属性是否位于上述所选择的关联列表中,若是则将该属性以及与该属性所在的关联列表相对应的字段标记保存为对应的属性与字段标记。
较佳地,所述规则数据列表,还包括与每个匹配规则对应的评价参数。所述关联分析子单元,适于在接收到片段时,选择与该片段匹配的字段标记所对应的关联列表;以及对每一个与该片段匹配的匹配规则,判断与该匹配规则所对应的属性是否位于上述所选择的关联列表中,若是则将该属性以及与该属性所在的关联列表相对应的字段标记保存为对应的属性与字段标记,同时保存与该匹配规则对应的评价参数。
较佳地,所述片段获取单元,适于使用网络爬虫采集海量的HTML源文件;对所述HTML源文件使用正则表达式进行净化和提取正文的操作,从而选取正文。所述片段获取单元,适于使用正则表达式将选取的正文按照标点符号进行断句,得到的每一个句子为一个片段。所述字段分析子单元,适于对每一个接收到的片段,使用字段匹配方法,判断标记数据列表中的字段标记是否等于该片段中的一个字段。所述匹配规则为预先设定的匹配算法,包括多个关键词以及不同关键词之间的位置关系;所述匹配分析子单元,适于对每一个接收到的片段,判断该片段是否包括该匹配算法中的所述多个关键词,若否则该片段不与该匹配规则匹配,若是则进一步判断所述关键词在该片段中的位置是否符合匹配算法中的位置关系,若否则该片段不与该匹配规则匹配,若是则该片段与该匹配规则匹配。
根据本发明的互联网信息分析方法和互联网信息分析装置可以将获取的互联网信息进行整理以得到片段以及对得到的片段分两步依序进行匹配,对两次均被成功地匹配的片段判断两次的匹配结果是否符合预设的关联关系。由此,虽然经过两次匹配,但是第一步匹配的开销比较小,且只有在第一步匹配通过的基础上才进行第二步匹配操作,因此整体开销小;同时,由于本发明对两次匹配的结果按照关联关系进行比对筛选,可以提高对互联网信息进行分析的准确度;同时,可以通过修改关联列表中的属性,控制筛选得到的属性的范围,有助于提高筛选获得的信息的专注度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明互联网信息分析方法一个实施例的流程图;
图2为图1中步骤S300的详细的流程图;
图3为本发明互联网信息分析装置一个实施例的框图;
图4为本发明互联网信息分析装置另一个实施例的框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
由以上对于背景技术的说明可知,本发明发明人已知的技术方案,在进行大数据处理时,存在运算开销和准确度无法兼得的问题,本发明通过
图1为本发明互联网信息分析方法一个实施例的流程图。该方法包括如下的步骤:
S100:预先设置标记数据列表、规则数据列表和关联属性列表。
本实施例中,标记数据列表包括多个字段标记;规则数据列表包括匹配规则以及与每个匹配规则对应的属性;关联属性列表包括多个关联列表,每个关联列表对应于一个字段标记并包括与该字段标记对应的属性。
当然,在实际工程中,可以根据需要设置多个标记数据列表、多个规则数据列表和多个关联属性列表,并根据具体的使用需要选择使用相应的标记数据列表、规则数据列表和关联属性列表。以分析网络用户对特定种类产品的评价为例,可以针对不同的产品领域(例如汽车、餐饮等等),设置不同的标记数据列表、规则数据列表和关联属性列表,根据需要进行分析的领域而选择相应的标记数据列表、规则数据列表和关联属性列表。
规则数据列表还可以包括与每个匹配规则对应的评价参数。同样以分析网络用户对特定种类产品的评价为例,字段标记为产品名称,例如越野车、登山鞋等等;规则数据列表包括匹配规则以及与匹配规则对应的属性和评价参数,例如,属性为启动速度、耐磨性、防水性等,评价参数为较好或较差或给出相应的分数以表示网络用户对产品属性的评价。进一步地,字段标记也可以包括商品或者服务提供者的名称,从而可以方便使用者对使用本发明的方法所得到的分析结果进行后续的处理,例如,方便使用者分析网络用户对不同商品提供者提供的商品的评价。
S200:抓取海量的互联网文件,从所述海量的互联网文件中提取出多段正文,将每段正文切分为至少一个片段;
较佳地,抓取海量的互联网文件具体包括:使用网络爬虫采集海量的HTML源文件。更具体地,可以先通过调用搜索引擎而检索得到所需要的互联网网页,进而使用网络爬虫从上述检索得到的互联网网页采集HTML源文件。
从所述海量的互联网文件中提取出多段正文具体包括:对所述HTML源文件使用正则表达式进行净化和提取正文的操作,从而选取正文,本实施例中可以通过利用HTML所规定的各种TAG设置正则表达式,从而滤除图片、FLASH、广告等不需要分析的内容并且选出正文。
将每段正文切分为至少一个片段具体包括:使用正则表达式将选取的正文按照标点符号进行断句,得到的每一个句子为一个片段。
S300:分析所述片段以获取互联网信息。
图2为图1中步骤S300的详细的流程图。步骤S300具体包括:
S310:读取所述片段中的一个片段。
S320:判断标记数据列表中是否存在与该片段匹配的字段标记,若否则执行步骤S350,若是则执行步骤S330。
本实施例中,判断标记数据列表中是否存在与该片段匹配的字段标记具体是使用字段匹配方法,分别判断标记数据列表中的各个字段标记是否等于该片段中的一个字段,进而筛选得到匹配的字段标记。同样以分析网络用户对特定种类产品的评价为例,如果需要分析网络用户对户外用品的评价,则判断包括户外用品的产品名称(例如冲锋衣、登山鞋等等)的标记数据列表中是否存在与获取的片段匹配的字段标记(即产品名称),如果存在则进一步执行步骤S330并保存所述字段标记,否则执行步骤S350。
S330:判断规则数据列表中是否存在与该片段匹配的匹配规则,若否则执行步骤S350,若是则执行步骤S341。
本实施例中,匹配规则为预先设定的匹配算法,包括多个关键词以及不同关键词之间的位置关系。则判断规则数据列表中是否存在与该片段匹配的匹配规则,包括对每一个匹配算法执行以下操作:判断该片段是否包括该匹配算法中的所述多个关键词,若否则该片段不与该匹配规则匹配,若是则进一步判断所述关键词在该片段中的位置是否符合匹配算法中的位置关系,若否则该片段不与该匹配规则匹配,若是则该片段与该匹配规则匹配,可以记录该匹配规则对应的属性。
通过这样的方法,可以借助判断片段中是否存在关键词以及存在关键词的片段中的关键词的位置关系,快速且准确地进行匹配运算。
虽然本发明对一个片段,分两次采用匹配算法,但是因为后续会将两次匹配算法得到的结果进行校验,所以能够降低每一次匹配算法的复杂度;进一步地,因为在通过步骤S320匹配之后,只对存在与其匹配的字段标记的片段进行步骤S330的匹配操作,运算复杂度降低。
S340:使用与该片段匹配的字段标记和匹配规则并利用所述关联属性列表筛选对应的属性与字段标记。
其中,步骤S340具体包括以下步骤:
S341:选择与该片段匹配的字段标记所对应的关联列表。本实施例中,根据字段标记选择关联列表,同样以分析网络用户对特定种类产品的评价为例,如果在步骤S320中,与一个片段匹配的字段标记为登山鞋;则选择与登山鞋所对应的关联列表,该关联列表包括的属性为耐磨性、防水性等等。
S342:读取一个与该片段匹配的匹配规则。本实施例中,在步骤S330中可以获得与片段匹配的匹配规则;同样以分析网络用户对特定种类产品的评价为例,如果在步骤S330中,与该片段匹配的匹配规则共有两个,对应的属性分别为防水性和耐磨性;则在步骤S342读取其中一个匹配规则。
S343:判断与该匹配规则所对应的属性是否位于上述所选择的关联列表中,若是则执行步骤S344,否则执行步骤S345。本实施例中,同样以分析网络用户对特定种类产品的评价为例,如果在步骤S342中,读取的匹配规则对应的属性为防水性;则在步骤S343判断防水性的属性是否位于在步骤S341中选择的关联列表中。即通过判断经过上述匹配算法得到的属性与字段标记是否位于同一关联列表,实现了对匹配运算结果的二次校验,提高了分析的准确率。
S344:将该属性以及与该属性所在的关联列表相对应的字段标记保存为对应的属性与字段标记,作为获取的互联网信息。本实施例中,如果步骤S343的判断结果为是,则将属性以及字段标记保存为对应的属性与字段标记,从而获取互联网信息,供使用者使用以进行后续的处理。
S345:判断是否存在未读取的匹配规则,若判断为是则执行步骤S342,否则执行步骤S350。即如果存在未读取的匹配规则,则返回步骤S342读取匹配规则。
S350:判断是否存在未读取的片段,若判断为是则执行步骤S310,否则退出流程。即如果存在未读取的片段,则返回步骤S310读取片段。
进一步地,使用本实施例的互联网信息分析方法时,可以通过修改关联列表中的属性,控制筛选得到的属性的范围,有助于提高筛选获得的信息的专注度。例如,如果需要针对特定属性进行分析,则可以将关联列表中的属性设置为所上述特定属性,从而对信息进一步进行筛选,而且这一步筛选操作的准确率更高。现有技术中的这一步筛选一般是通过在使用搜索引擎的操作中设置搜索条件而实现的,在搜索条件多的情况下往往会导致搜索引擎获取的搜索结果遗漏部分信息,本发明则可以更好地保证信息的完整性和准确性。
进一步地,使用本发明的互联网信息分析方法时,由于将匹配操作分为两个步骤,与使用一次匹配操作的方法相比,在网络语言变化时,修改匹配规则的操作更方便。原因在于将匹配操作分为两个步骤时,单个匹配操作的复杂度明显降低,匹配规则的复杂度也明显降低,则对匹配规则的修改也更方便。
图3为本发明互联网信息分析装置一个实施例的框图。本发明的互联网信息分析装置,包括数据库单元100、片段获取单元200和信息分析单元300。
其中,数据库单元100预先保存有标记数据列表110、规则数据列表120和关联属性列表130。本发明的标记数据列表110包括多个字段标记,规则数据列表120包括匹配规则以及与每个匹配规则对应的属性,关联属性列表130包括多个关联列表,每个关联列表对应于一个字段标记并包括与该字段标记对应的属性。
片段获取单元200,适于抓取海量的互联网文件,从所述海量的互联网文件中提取出多段正文,以及将每段正文切分为至少一个片段,将片段发送给信息分析单元300。具体地,本发明的片段获取单元200,适于使用网络爬虫采集海量的HTML源文件,更具体地,可以先通过调用搜索引擎而检索得到所需要的互联网网页,进而使用网络爬虫从上述检索得到的互联网网页采集HTML源文件。片段获取单元200,适于对HTML源文件使用正则表达式进行净化和提取正文的操作,从而选取正文,本实施例中的片段获取单元200可以通过利用HTML所规定的各种TAG设置正则表达式,从而滤除图片、FLASH、广告等不需要分析的内容并且选出正文;片段获取单元200还适于使用正则表达式将选取的正文按照标点符号进行断句,得到的每一个句子为一个片段。
信息分析单元300,连接于数据库单元100和片段获取单元200。适于分析接收到的片段以获取互联网信息,具体包括字段分析子单元310、匹配分析子单元320,以及关联分析子单元330。
字段分析子单元310,适于对每一个接收到的片段判断标记数据列表110中是否存在与该片段匹配的字段标记,若是则将该片段发送给所述匹配分析子单元320。本实施例的字段分析子单元310通过对每一个接收到的片段,使用字段匹配方法判断标记数据列表110中的字段标记是否等于该片段中的一个字段,从而判断标记数据列表110中是否存在与该片段匹配的字段标记。
匹配分析子单元320,适于对每一个接收到的片段判断规则数据列表120中是否存在与该片段匹配的匹配规则,若是则将该片段发送给所述关联分析子单元330。本实施例的匹配规则为预先设定的匹配算法,包括多个关键词以及不同关键词之间的位置关系。本实施例的匹配分析子单元320,适于在接收到片段时,对每一个匹配规则,判断该片段是否包括该匹配规则中的所述多个关键词,若否则该片段不与该匹配规则匹配,若是则进一步判断所述关键词在该片段中的位置是否符合匹配规则中的位置关系,若否则该片段不与该匹配规则匹配,若是则该片段与该匹配规则匹配
关联分析子单元330,适于对每一个接收到的片段使用与该片段匹配的字段标记和匹配规则并利用所述关联属性列表130筛选对应的属性与字段标记作为获取的互联网信息。
更具体地,关联分析子单元330,适于在接收到片段时,选择与该片段匹配的字段标记所对应的关联列表,以及对每一个与该片段匹配的匹配规则,判断与该匹配规则所对应的属性是否位于上述所选择的关联列表中,若是则将该属性以及与该属性所在的关联列表相对应的字段标记保存为对应的属性与字段标记。
较佳地,本发明的规则数据列表120,还包括与每个匹配规则对应的评价参数,则关联分析子单元330,在上述将该属性以及与该属性所在的关联列表相对应的字段标记保存为对应的属性与字段标记的同时,一并保存评价参数,则可以方便使用者对使用本发明的方法所得到的分析结果进行后续的处理。
图4为本发明互联网信息分析装置另一个实施例的框图。图4所示的装置与图3所示的装置大致相同,不同之处在于,图4所示的装置还包括数据修改单元400,数据修改单元400连接于数据库单元100并适于修改数据库单元100所保存的标记数据列表110、规则数据列表120和关联属性列表130。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
本领域技术人员可以理解,可以对实施例中的设备中的单元进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
Claims (10)
1.一种互联网信息分析方法,其中,该方法包括如下步骤:
预先设置标记数据列表、规则数据列表和关联属性列表;所述标记数据列表包括多个字段标记;所述规则数据列表包括匹配规则以及与每个匹配规则对应的属性;所述关联属性列表包括多个关联列表,每个关联列表对应于一个字段标记并包括与该字段标记对应的属性;
抓取海量的互联网文件,从所述海量的互联网文件中提取出多段正文,将每段正文切分为至少一个片段;
分析所述片段以获取互联网信息,具体包括对每一个片段执行以下操作:判断标记数据列表中是否存在与该片段匹配的字段标记,若是则进一步判断规则数据列表中是否存在与该片段匹配的匹配规则,若是则使用与该片段匹配的字段标记和匹配规则并利用所述关联属性列表筛选对应的属性与字段标记作为获取的互联网信息。
2.根据权利要求1所述的方法,其中,
所述使用与该片段匹配的字段标记和匹配规则并利用所述关联属性列表筛选对应的属性与字段标记,具体包括:
选择与该片段匹配的字段标记所对应的关联列表;以及
对每一个与该片段匹配的匹配规则执行以下操作:判断与该匹配规则所对应的属性是否位于上述所选择的关联列表中,若是则将该属性以及与该属性所在的关联列表相对应的字段标记保存为对应的属性与字段标记。
3.根据权利要求1所述的方法,其中,
所述规则数据列表,还包括与每个匹配规则对应的评价参数;
所述使用与该片段匹配的字段标记和匹配规则并利用所述关联属性列表筛选对应的属性与字段标记,具体包括:
选择与该片段匹配的字段标记所对应的关联列表;以及
对每一个与该片段匹配的匹配规则执行以下操作:判断与该匹配规则所对应的属性是否位于上述所选择的关联列表中,若是则将该属性以及与该属性所在的关联列表相对应的字段标记保存为对应的属性与字段标记,同时保存与该匹配规则对应的评价参数。
4.根据权利要求1所述的方法,其中,
所述抓取海量的互联网文件,具体包括:使用网络爬虫采集海量的HTML源文件;
所述从所述海量的互联网文件中提取出多段正文,具体包括:对所述HTML源文件使用正则表达式进行净化和提取正文的操作,从而选取正文;
所述将每段正文切分为至少一个片段,具体包括:使用正则表达式将选取的正文按照标点符号进行断句,得到的每一个句子为一个片段。
5.根据权利要求1所述的方法,其中,
所述判断标记数据列表中是否存在与该片段匹配的字段标记具体包括:使用字段匹配方法,判断标记数据列表中的字段标记是否等于该片段中的一个字段。
6.根据权利要求1所述的方法,其中,
所述匹配规则为预先设定的匹配算法,包括多个关键词以及不同关键词之间的位置关系;
所述判断规则数据列表中是否存在与该片段匹配的匹配规则,包括对每一个匹配算法执行以下操作:
判断该片段是否包括该匹配算法中的所述多个关键词,若否则该片段不与该匹配规则匹配,若是则进一步判断所述关键词在该片段中的位置是否符合匹配算法中的位置关系,若否则该片段不与该匹配规则匹配,若是则该片段与该匹配规则匹配。
7.一种互联网信息分析装置,其中,该装置包括数据库单元、片段获取单元和信息分析单元;
所述数据库单元,适于预先保存有标记数据列表、规则数据列表和关联属性列表;所述标记数据列表包括多个字段标记;所述规则数据列表包括匹配规则以及与每个匹配规则对应的属性;所述关联属性列表包括多个关联列表,每个关联列表对应于一个字段标记并包括与该字段标记对应的属性;
所述片段获取单元,适于抓取海量的互联网文件,从所述海量的互联网文件中提取出多段正文,以及将每段正文切分为至少一个片段,将片段发送给信息分析单元;
所述信息分析单元,适于分析接收到的片段以获取互联网信息,具体包括字段分析子单元、匹配分析子单元,以及关联分析子单元;
所述字段分析子单元,适于对每一个接收到的片段,判断标记数据列表中是否存在与该片段匹配的字段标记,若是则将该片段发送给所述匹配分析子单元;
所述匹配分析子单元,适于对每一个接收到的片段,判断规则数据列表中是否存在与该片段匹配的匹配规则,若是则将该片段发送给所述关联分析子单元;
所述关联分析子单元,适于对每一个接收到的片段,使用与该片段匹配的字段标记和匹配规则并利用所述关联属性列表筛选对应的属性与字段标记作为获取的互联网信息。
8.根据权利要求7所述的装置,其中,
所述关联分析子单元,适于在接收到片段时,选择与该片段匹配的字段标记所对应的关联列表;以及对每一个与该片段匹配的匹配规则,判断与该匹配规则所对应的属性是否位于上述所选择的关联列表中,若是则将该属性以及与该属性所在的关联列表相对应的字段标记保存为对应的属性与字段标记。
9.根据权利要求7所述的装置,其中,
所述规则数据列表,还包括与每个匹配规则对应的评价参数;
所述关联分析子单元,适于在接收到片段时,选择与该片段匹配的字段标记所对应的关联列表;以及对每一个与该片段匹配的匹配规则,判断与该匹配规则所对应的属性是否位于上述所选择的关联列表中,若是则将该属性以及与该属性所在的关联列表相对应的字段标记保存为对应的属性与字段标记,同时保存与该匹配规则对应的评价参数。
10.根据权利要求7所述的装置,其中,
所述片段获取单元,适于使用网络爬虫采集海量的HTML源文件;对所述HTML源文件使用正则表达式进行净化和提取正文的操作,从而选取正文;
所述片段获取单元,适于使用正则表达式将选取的正文按照标点符号进行断句,得到的每一个句子为一个片段;
所述字段分析子单元,适于对每一个接收到的片段,使用字段匹配方法,判断标记数据列表中的字段标记是否等于该片段中的一个字段;
所述匹配规则为预先设定的匹配算法,包括多个关键词以及不同关键词之间的位置关系;所述匹配分析子单元,适于对每一个接收到的片段,判断该片段是否包括该匹配算法中的所述多个关键词,若否则该片段不与该匹配规则匹配,若是则进一步判断所述关键词在该片段中的位置是否符合匹配算法中的位置关系,若否则该片段不与该匹配规则匹配,若是则该片段与该匹配规则匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310412581.5A CN103500181B (zh) | 2013-09-11 | 2013-09-11 | 一种互联网信息分析方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310412581.5A CN103500181B (zh) | 2013-09-11 | 2013-09-11 | 一种互联网信息分析方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103500181A true CN103500181A (zh) | 2014-01-08 |
CN103500181B CN103500181B (zh) | 2017-05-24 |
Family
ID=49865392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310412581.5A Active CN103500181B (zh) | 2013-09-11 | 2013-09-11 | 一种互联网信息分析方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103500181B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107153635A (zh) * | 2016-03-04 | 2017-09-12 | 《中国学术期刊(光盘版)》电子杂志社有限公司 | 一种自动提取论文引用内容及对应文后参考文献的方法和系统 |
CN108959649A (zh) * | 2018-08-02 | 2018-12-07 | 杭州数梦工场科技有限公司 | 一种基于web页面的数据表字段映射配置方法和系统 |
CN109063178A (zh) * | 2018-08-22 | 2018-12-21 | 四川新网银行股份有限公司 | 一种自动扩展的自助分析报表的方法及装置 |
CN109558497A (zh) * | 2018-12-04 | 2019-04-02 | 珠海市新德汇信息技术有限公司 | 一种数据本体侦查分析方法 |
CN112307275A (zh) * | 2019-07-30 | 2021-02-02 | 北京国电智深控制技术有限公司 | 一种信息处理的方法、装置及计算机存储介质 |
CN112488840A (zh) * | 2019-09-12 | 2021-03-12 | 京东数字科技控股有限公司 | 信息输出方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101158953A (zh) * | 2007-10-08 | 2008-04-09 | 上海聆众商务咨询有限公司 | 网络文档信息处理方法及装置 |
CN101727451A (zh) * | 2008-10-22 | 2010-06-09 | 富士通株式会社 | 信息提取方法和装置 |
CN101833555A (zh) * | 2009-03-12 | 2010-09-15 | 富士通株式会社 | 信息提取方法和装置 |
CN101968788A (zh) * | 2009-07-27 | 2011-02-09 | 富士通株式会社 | 提取商品属性信息的方法和设备 |
-
2013
- 2013-09-11 CN CN201310412581.5A patent/CN103500181B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101158953A (zh) * | 2007-10-08 | 2008-04-09 | 上海聆众商务咨询有限公司 | 网络文档信息处理方法及装置 |
CN101727451A (zh) * | 2008-10-22 | 2010-06-09 | 富士通株式会社 | 信息提取方法和装置 |
CN101833555A (zh) * | 2009-03-12 | 2010-09-15 | 富士通株式会社 | 信息提取方法和装置 |
CN101968788A (zh) * | 2009-07-27 | 2011-02-09 | 富士通株式会社 | 提取商品属性信息的方法和设备 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107153635A (zh) * | 2016-03-04 | 2017-09-12 | 《中国学术期刊(光盘版)》电子杂志社有限公司 | 一种自动提取论文引用内容及对应文后参考文献的方法和系统 |
CN108959649A (zh) * | 2018-08-02 | 2018-12-07 | 杭州数梦工场科技有限公司 | 一种基于web页面的数据表字段映射配置方法和系统 |
CN109063178A (zh) * | 2018-08-22 | 2018-12-21 | 四川新网银行股份有限公司 | 一种自动扩展的自助分析报表的方法及装置 |
CN109558497A (zh) * | 2018-12-04 | 2019-04-02 | 珠海市新德汇信息技术有限公司 | 一种数据本体侦查分析方法 |
CN112307275A (zh) * | 2019-07-30 | 2021-02-02 | 北京国电智深控制技术有限公司 | 一种信息处理的方法、装置及计算机存储介质 |
CN112488840A (zh) * | 2019-09-12 | 2021-03-12 | 京东数字科技控股有限公司 | 信息输出方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103500181B (zh) | 2017-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8868621B2 (en) | Data extraction from HTML documents into tables for user comparison | |
CN101223525B (zh) | 关系网络 | |
CN105404699A (zh) | 一种搜索财经文章的方法、装置及服务器 | |
CN103500181A (zh) | 一种互联网信息分析方法和装置 | |
CN104036038A (zh) | 新闻推荐方法和系统 | |
CN103514299A (zh) | 信息搜索方法和装置 | |
CN104063476A (zh) | 基于社交网络的内容推荐方法和系统 | |
CN104462611A (zh) | 信息排序模型的建模方法、排序方法及建模装置、排序装置 | |
US10783195B2 (en) | System and method for constructing search results | |
CN104199833A (zh) | 一种网络搜索词的聚类方法和聚类装置 | |
CN104965905A (zh) | 一种网页分类的方法和装置 | |
CN103914545A (zh) | 搜索展现方法及装置 | |
US20180330012A1 (en) | Method, apparatus, and computer-readable medium for generating categorical and criterion-based search results from a search query | |
CN103984757A (zh) | 在搜索结果页上插入新闻信息条目的方法和系统 | |
EP1233353A2 (en) | Data mining method and system | |
CN103942264A (zh) | 推送包含新闻信息的网页的方法和装置 | |
CN103136213A (zh) | 一种提供相关词的方法及装置 | |
CN112579893A (zh) | 一种信息推送、信息展示方法、装置及设备 | |
CN105117434A (zh) | 一种网页分类方法和系统 | |
CN103324742A (zh) | 推荐关键词的方法和设备 | |
CN102609539A (zh) | 一种搜索方法和系统 | |
CN104573019A (zh) | 信息检索方法和装置 | |
CN106126736A (zh) | 面向软件安全性bug修复的软件开发者个性化推荐方法 | |
CN105589954A (zh) | 基于中心词确定搜索建议的方法及装置 | |
CN104462552A (zh) | 问答页面核心词提取方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211028 Address after: 851414 No. 5, building 1, unit 8, building 10, Riyue lake water view garden, duilongdeqing District, Lhasa City, Tibet Autonomous Region Patentee after: Tibet Qiancheng Information Technology Co.,Ltd. Address before: 101205 1f, West building, No. 7, Shunxing Road, Daxingzhuang Town, Pinggu District, Beijing Patentee before: Liu Chunmei |
|
TR01 | Transfer of patent right |