CN103838785A - 一种专利领域的垂直搜索引擎 - Google Patents
一种专利领域的垂直搜索引擎 Download PDFInfo
- Publication number
- CN103838785A CN103838785A CN201210490948.0A CN201210490948A CN103838785A CN 103838785 A CN103838785 A CN 103838785A CN 201210490948 A CN201210490948 A CN 201210490948A CN 103838785 A CN103838785 A CN 103838785A
- Authority
- CN
- China
- Prior art keywords
- information
- url
- web
- text
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Abstract
本发明设计并实现了一种专利领域的垂直搜索引擎。专利垂直搜索系统是在专利领域应用垂直搜索的理念和技术,面向互联网中为数不多的专利权威网站,对它们的专利信息资源进行抓取、分析、整合,最后给专利相关工作者提供专业的专利搜索以及聚类可视化分析服务。专利信息绝大部分集中在少数几个专利站点,所以只需要对这些特定的专利站点进行采集,就能满足绝大多数用户的需求。采集对象的有限性和针对性,可以很好的提高采集的效率和准确率,而且信息的及时更新也可以得到保证。对聚类结果进行可视化能使用户更加直观形象地理解聚类得到的信息,了解数据之间的相互关系及发展趋势,从更高的层次对数据进行更深入的观察和分析。
Description
技术领域
本发明涉及搜索引擎技术,特别是一种针对专利领域的垂直搜索引擎。
背景技术
随着Internet的迅猛发展和Web信息的增加,从海量级的网络信息资源中快速准确地获取信息就显得越来越困难,也变得越来越重要。搜索引擎就是在这样的背景下出现的技术,它整合了互联网上的网页资源,并提供信息导航和信息查询服务,在很大程度上解决了人们在互联网上查找和定位信息的瓶颈问题。但是,目前的通用搜索引擎在使用中也面临着许多问题。
Web上的信息量十分庞大,通用搜索引擎试图对Web进行整体信息的抓取,在硬件资源和网络资源方面的代价将是十分巨大的。而事实上,许多页面的使用几率很小,这就存在着一个极大的信息资源的存储浪费问题。另外,Web页面的动态变化使得网页数据在抓取到的那一刻起就面临着过时的风险,为了降低这种风险,需要不停地对己提取的Web信息重新提取以保持对数据的更新。随着Web信息规模上的急剧增长,面向整体Web信息提取中的刷新问题变得异常的尖锐。尽管可以通过不断地提高单机性能,使用分布式计算技术增加系统的并行能力,设计新型算法以优化刷新策略,但是Web信息的刷新问题的解决还远不能令人满意,许多大型通用搜索引擎刷新一次Web数据需要几周甚至几个月的时间。
垂直搜索引擎正是针对通用搜索引擎的信息量大、查询不准确、深度不够等问题提出来的新的搜索引擎服务模式。垂直搜索在Web信息采集过程中根据主题性决定页面的取舍,使绝大部分与主题无关的页面被舍弃掉,这样做的目的使得采集到的页面有着较高的利用率,也极大地节省了资源的消耗。另外,对于垂直搜索的Web信息提取而言,Web信息的刷新问题相对容易处理。随着提取页面数量的大幅度降低,就可以缩短页面的刷新周期,从而使得数据过时的风险也随之降低。
专利垂直搜索系统是在专利领域应用垂直搜索的理念和技术,面向互联网中为数不多的专利权威网站,对它们的专利信息资源进行抓取、分析、整合,最后给专利相关工作者提供专业的专利搜索以及聚类可视化分析服务。专利工作者的主要需求有:一是可以按不同的专利字段搜索专利信息;二是可以根据不同字段的组合关系检索满足条件的专利,如and、or关系;三是可以对专利检索结果动态聚类,以方便从整体上对专利进行挖掘分析。
发明内容
为更好的满足用户的要求,本发明要设计并实现一种针对专利领域的垂直搜索引擎。
为了实现上述目的,本发明的技术方案如下:一种专利领域的垂直搜索引擎,包括以下步骤:
A、专利信息采集
信息采集模块的主要功能是通过网络蜘蛛技术抓取专利领域的网页并存储到本地。垂直网络蜘蛛主要包括主题确定、网页采集、链接分析、内容分析和相关性分析五个模块。
A1、主题确定
主题确定模块主要解决初始种子URL的选取及主题特征的提取。初始种子URL,并通过程序收集一定数目的专利网页作为训练集合,经中文分词处理后,确定相应的主题特征词,用于后续的主题相关度分析。
A2、网页采集
网络蜘蛛采用多线程技术,从URL队列中获取输入数据,向该URL对应的Web服务器发出下载请求,采集到的页面由后续模块做进一步的处理。
A3、链接分析
对于采集到的网页,分析并尽可能多地提取出其中的链接。页面链接的URL一般是多种格式的,可能是完整路径,也可能是相对路径,必须对它们进行处理转换得到统一标准格式的完整URL,然后调用相关性分析模块决定URL的取舍,对于满足条件的URL插入到URL队列中。
A4、内容分析
对于采集到的网页,分析网页文本信息,包括过滤HTML标签、网页内容文本提取、切词,提取其中的特征项。
A5、相关性分析
主题相关性分析模块通过向量空间模型计算网页向量与主题特征向量之间的相似度。以此决定网页的取舍以及URL在候选队列中的优先级顺序。
B、专利信息抽取
首先,对目标网页进行分析,确定待抽取的元数据并分析其对应的HTML代码特点。然后,根据待抽取元数据在网页中对应的代码特点制定相应的抽取规则,抽取规则的制定要保证对待抽取数据匹配的唯一性。最后,对抽取后的结构化数据进行整合处理,确保数据库中专利信息的一致性和完整性。
C、专利信息检索
C1、建立索引文件
通过接口调用Lucene的索引模块,实现对数据库中的信息建立索引。首先从数据库中提取出要索引的文本,将文本组织成一个Document类型的对象。由分析器对文本进行分析,针对中文文本主要需要实现的是中文分词。文本分析后,索引生成模块把预处理后的文档加入到索引文件中,包括统计每个词在文档中出现的次数、出现的位置等相关信息,将这些信息存储在索引文件中。
C2、专利搜索
首先对用户输入的搜索关键词进行切词,然后从索引文件中查找包含切分出的每个词的文档并对这些文档集进行汇总,得到最终的结果集。如果结果集中的文档数大于零,则对检索结果按照相关度排序,并对首页显示的结果进行关键词高亮显示后返回给用户,并对当前的检索结果进行缓存处理。
D、聚类可视化
首先对检索模块返回的搜索结果进行数据预处理,主要是去除中文停用词和非词的标记,然后对处理后的文本字符串生成一颗后缀树,通过后缀树识别短语类进行聚类,对短语类处理合并后生成最终的聚类结果,最后对聚类结果进行可视化表示。
与现有技术相比,本发明具有以下有益效果:
1、专利信息绝大部分集中在少数几个专利站点,所以只需要对这些特定的专利站点进行采集,就能满足绝大多数用户的需求。采集对象的有限性和针对性,可以很好的提高采集的效率和准确率,而且信息的及时更新也可以得到保证。
2、对聚类结果进行可视化能使用户更加直观形象地理解聚类得到的信息,了解数据之间的相互关系及发展趋势,从更高的层次对数据进行更深入的观察和分析。
具体实施方式
A、专利信息采集
信息采集模块的主要功能是通过网络蜘蛛技术抓取专利领域的网页并存储到本地。垂直网络蜘蛛主要包括主题确定、网页采集、链接分析、内容分析和相关性分析五个模块。
以中华人民共和国国家知识产权局站点作为初始种子URL,其中包含着大量的专利信息资源,但是通过分析发现该站点的专利数据是动态生成的,而且采用的是Javascript分页方式,导致不同专利数据页面的URL相同,因此一般的网络蜘蛛抓取不到分页后的专利页面。针对这种分页方式的Web站点,本专利通过分析该站点的HTML代码,采用网络蜘蛛模拟填写表单并自动提交的方式抓取分页后的专利数据信息。
B、专利信息抽取
首先,通过分析抓取的中华人民共和国国家知识产权局的专利网页,确定抽取的元数据包括专利申请号、申请日、名称、公开号、公开日、分类号、申请人、发明人、专利代理机构、代理人、摘要等信息。
然后,针对中华人民共和国国家知识产权局站点中的专利网页,为待抽取元数据编写的正则表达式规则。
最后,本专利在数据库中以专利申请号作为专利信息的标识属性,作为区分不同专利信息的依据。
C、专利信息检索
C1、建立索引
本专利实现的索引模块负责对数据库中的结构化数据建立索引,生成的索引文件为检索模块提供服务。Lucene提供了非常简单的建立索引的方法,可以对大量数据进行批量索引,还提供了增量索引技术。本专利通过系统接口调用Lucene的索引模块,实现对数据库中的信息建立索引。
首先从数据库中提取出要索引的文本,将文本组织成一个Document类型的对象,因为只有符合Lucene.Document要求的文档才能使用Lucene对其建索引。Lucene的文档是由多个字段组成的,因此可以控制哪些字段需要进行索引,哪些字段不需要索引,索引的字段是否需要分词等等。接下来由分析器对文本进行分析,针对中文文本主要需要实现的是中文分词。文本分析后,索引生成模块把预处理后的文档加入到索引文件中,包括统计每个词在文档中出现的次数、出现的位置等相关信息,这些信息都会被存储在索引文件中,最后生成的索引文件就可以被检索模块进行调用。
建立好的索引文件是不可读的,要想查看索引信息,以及对索引进行一些特殊操作,可以使用第三方工具包Luke进行操作。Luke的功能十分强大,不仅可以显示Lucene所建立的索引文件的内部结构,而且还可以监视和修改索引文件。
D、聚类可视化
首先对检索模块返回的搜索结果进行数据预处理,主要是去除中文停用词和非词的标记,然后对处理后的文本字符串生成一颗后缀树,通过后缀树识别短语类进行聚类,对短语类处理合并后生成最终的聚类结果,最后对聚类结果进行可视化表示。
利用GIS技术,用可视化地图的形式表示聚类结果。GIS中的数据分为两类:一类主要是和空间位置、空间关系有关的数据,称为空间数据;一类是地理元素中非空间的属性信息,称为属性数据。因此,可以通过空间数据定位聚类后每个类别的位置,而属性数据则可以表现每个类的不同特征。针对一次查询结果生成的聚类可视化地图。
Claims (1)
1.一种专利领域的垂直搜索引擎,其特征在于:包括以下步骤:
A、专利信息采集
信息采集模块的主要功能是通过网络蜘蛛技术抓取专利领域的网页并存储到本地;垂直网络蜘蛛主要包括主题确定、网页采集、链接分析、内容分析和相关性分析五个模块;
A1、主题确定
主题确定模块主要解决初始种子URL的选取及主题特征的提取;初始种子URL,并通过程序收集一定数目的专利网页作为训练集合,经中文分词处理后,确定相应的主题特征词,用于后续的主题相关度分析;
A2、网页采集
网络蜘蛛采用多线程技术,从URL队列中获取输入数据,向该URL对应的Web服务器发出下载请求,采集到的页面由后续模块做进一步的处理;
A3、链接分析
对于采集到的网页,分析并尽可能多地提取出其中的链接;页面链接的URL一般是多种格式的,可能是完整路径,也可能是相对路径,必须对它们进行处理转换得到统一标准格式的完整URL,然后调用相关性分析模块决定URL的取舍,对于满足条件的URL插入到URL队列中;
A4、内容分析
对于采集到的网页,分析网页文本信息,包括过滤HTML标签、网页内容文本提取、切词,提取其中的特征项;
A5、相关性分析
主题相关性分析模块通过向量空间模型计算网页向量与主题特征向量之间的相似度;以此决定网页的取舍以及URL在候选队列中的优先级顺序;
B、专利信息抽取
首先,对目标网页进行分析,确定待抽取的元数据并分析其对应的HTML代码特点;然后,根据待抽取元数据在网页中对应的代码特点制定相应的抽取规则,抽取规则的制定要保证对待抽取数据匹配的唯一性;最后,对抽取后的结构化数据进行整合处理,确保数据库中专利信息的一致性和完整性;
C、专利信息检索
C1、建立索引文件
通过接口调用Lucene的索引模块,实现对数据库中的信息建立索引;首先从数据库中提取出要索引的文本,将文本组织成一个Document类型的对象;由分析器对文本进行分析,针对中文文本主要需要实现的是中文分词;文本分析后,索引生成模块把预处理后的文档加入到索引文件中,包括统计每个词在文档中出现的次数、出现的位置等相关信息,将这些信息存储在索引文件中;
C2、专利搜索
首先对用户输入的搜索关键词进行切词,然后从索引文件中查找包含切分出的每个词的文档并对这些文档集进行汇总,得到最终的结果集;如果结果集中的文档数大于零,则对检索结果按照相关度排序,并对首页显示的结果进行关键词高亮显示后返回给用户,并对当前的检索结果进行缓存处理;
D、聚类可视化
首先对检索模块返回的搜索结果进行数据预处理,主要是去除中文停用词和非词的标记,然后对处理后的文本字符串生成一颗后缀树,通过后缀树识别短语类进行聚类,对短语类处理合并后生成最终的聚类结果,最后对聚类结果进行可视化表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210490948.0A CN103838785A (zh) | 2012-11-27 | 2012-11-27 | 一种专利领域的垂直搜索引擎 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210490948.0A CN103838785A (zh) | 2012-11-27 | 2012-11-27 | 一种专利领域的垂直搜索引擎 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103838785A true CN103838785A (zh) | 2014-06-04 |
Family
ID=50802294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210490948.0A Pending CN103838785A (zh) | 2012-11-27 | 2012-11-27 | 一种专利领域的垂直搜索引擎 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103838785A (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104317845A (zh) * | 2014-10-13 | 2015-01-28 | 安徽华贞信息科技有限公司 | 一种深度网络数据自动抽取方法及系统 |
CN104462588A (zh) * | 2014-12-29 | 2015-03-25 | 芜湖乐锐思信息咨询有限公司 | 一种基于云数据库的知识产权检索系统 |
CN105005881A (zh) * | 2015-08-31 | 2015-10-28 | 佛山市恒南微科技有限公司 | 一种实现区域企业知识产权摸底与管理的系统 |
CN105069585A (zh) * | 2015-08-31 | 2015-11-18 | 佛山市恒南微科技有限公司 | 一种企业专利公告信息抓取与管理系统 |
CN105069112A (zh) * | 2015-08-11 | 2015-11-18 | 浪潮软件集团有限公司 | 一种行业垂直搜索引擎系统 |
CN105139308A (zh) * | 2015-08-31 | 2015-12-09 | 佛山市恒南微科技有限公司 | 一种实现区域企业专利信息摸底与管理的系统 |
CN105183822A (zh) * | 2015-08-31 | 2015-12-23 | 佛山市恒南微科技有限公司 | 一种企业商标公告信息抓取与管理系统 |
CN106844640A (zh) * | 2017-01-22 | 2017-06-13 | 漳州科技职业学院 | 一种网页数据分析处理方法 |
CN107346325A (zh) * | 2016-05-04 | 2017-11-14 | 中国石油集团长城钻探工程有限公司 | 信息查询方法及装置 |
CN107704515A (zh) * | 2017-09-01 | 2018-02-16 | 安徽简道科技有限公司 | 基于互联网数据抓取系统的数据抓取方法 |
CN108304416A (zh) * | 2017-01-13 | 2018-07-20 | 苏州稻城信息科技有限公司 | 一种基于语义分析的多属性自动映射系统 |
CN108846016A (zh) * | 2018-05-05 | 2018-11-20 | 复旦大学 | 一种面向中文分词的搜索算法 |
CN108984568A (zh) * | 2017-06-04 | 2018-12-11 | 北京询达数据科技有限公司 | 一种全自动互联网暗网搜索引擎的设计方法 |
CN109857793A (zh) * | 2018-12-28 | 2019-06-07 | 考拉征信服务有限公司 | 技术背景数据的处理方法、装置、电子设备及存储介质 |
WO2019174132A1 (zh) * | 2018-03-12 | 2019-09-19 | 平安科技(深圳)有限公司 | 数据处理方法、服务器及计算机存储介质 |
CN110866177A (zh) * | 2018-08-27 | 2020-03-06 | 中国石油化工股份有限公司 | 化工事故新闻采集方法及机器可读存储介质 |
CN111475703A (zh) * | 2020-04-28 | 2020-07-31 | 深圳市智佳家电子科技有限公司 | 一种抓取网络特定数据的分析方法 |
CN112016830A (zh) * | 2020-08-27 | 2020-12-01 | 广东电网有限责任公司 | 一种专利文件评估任务分配方法及装置 |
CN113435199A (zh) * | 2021-07-18 | 2021-09-24 | 谢勇 | 一种性格对应文化的存储读取干涉方法及系统 |
CN113779349A (zh) * | 2021-08-11 | 2021-12-10 | 中央广播电视总台 | 数据检索系统、装置、电子设备和可读存储介质 |
CN113821704A (zh) * | 2020-06-18 | 2021-12-21 | 华为技术有限公司 | 构建索引的方法、装置、电子设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070266015A1 (en) * | 2006-05-12 | 2007-11-15 | Microsoft Corporation | User Created Search Vertical Control of User Interface |
CN102402539A (zh) * | 2010-09-15 | 2012-04-04 | 倪毅 | 对象级个性化垂直搜索引擎设计技术 |
-
2012
- 2012-11-27 CN CN201210490948.0A patent/CN103838785A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070266015A1 (en) * | 2006-05-12 | 2007-11-15 | Microsoft Corporation | User Created Search Vertical Control of User Interface |
CN102402539A (zh) * | 2010-09-15 | 2012-04-04 | 倪毅 | 对象级个性化垂直搜索引擎设计技术 |
Non-Patent Citations (1)
Title |
---|
王治江: "面向领域的垂直搜索系统研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104317845A (zh) * | 2014-10-13 | 2015-01-28 | 安徽华贞信息科技有限公司 | 一种深度网络数据自动抽取方法及系统 |
CN104462588A (zh) * | 2014-12-29 | 2015-03-25 | 芜湖乐锐思信息咨询有限公司 | 一种基于云数据库的知识产权检索系统 |
CN105069112A (zh) * | 2015-08-11 | 2015-11-18 | 浪潮软件集团有限公司 | 一种行业垂直搜索引擎系统 |
CN105005881A (zh) * | 2015-08-31 | 2015-10-28 | 佛山市恒南微科技有限公司 | 一种实现区域企业知识产权摸底与管理的系统 |
CN105069585A (zh) * | 2015-08-31 | 2015-11-18 | 佛山市恒南微科技有限公司 | 一种企业专利公告信息抓取与管理系统 |
CN105139308A (zh) * | 2015-08-31 | 2015-12-09 | 佛山市恒南微科技有限公司 | 一种实现区域企业专利信息摸底与管理的系统 |
CN105183822A (zh) * | 2015-08-31 | 2015-12-23 | 佛山市恒南微科技有限公司 | 一种企业商标公告信息抓取与管理系统 |
CN107346325A (zh) * | 2016-05-04 | 2017-11-14 | 中国石油集团长城钻探工程有限公司 | 信息查询方法及装置 |
CN108304416A (zh) * | 2017-01-13 | 2018-07-20 | 苏州稻城信息科技有限公司 | 一种基于语义分析的多属性自动映射系统 |
CN106844640A (zh) * | 2017-01-22 | 2017-06-13 | 漳州科技职业学院 | 一种网页数据分析处理方法 |
CN106844640B (zh) * | 2017-01-22 | 2020-02-21 | 漳州科技职业学院 | 一种网页数据分析处理方法 |
CN108984568A (zh) * | 2017-06-04 | 2018-12-11 | 北京询达数据科技有限公司 | 一种全自动互联网暗网搜索引擎的设计方法 |
CN107704515A (zh) * | 2017-09-01 | 2018-02-16 | 安徽简道科技有限公司 | 基于互联网数据抓取系统的数据抓取方法 |
WO2019174132A1 (zh) * | 2018-03-12 | 2019-09-19 | 平安科技(深圳)有限公司 | 数据处理方法、服务器及计算机存储介质 |
CN108846016A (zh) * | 2018-05-05 | 2018-11-20 | 复旦大学 | 一种面向中文分词的搜索算法 |
CN108846016B (zh) * | 2018-05-05 | 2021-08-20 | 复旦大学 | 一种面向中文分词的搜索算法 |
CN110866177B (zh) * | 2018-08-27 | 2022-07-01 | 中国石油化工股份有限公司 | 化工事故新闻采集方法及机器可读存储介质 |
CN110866177A (zh) * | 2018-08-27 | 2020-03-06 | 中国石油化工股份有限公司 | 化工事故新闻采集方法及机器可读存储介质 |
CN109857793A (zh) * | 2018-12-28 | 2019-06-07 | 考拉征信服务有限公司 | 技术背景数据的处理方法、装置、电子设备及存储介质 |
CN111475703A (zh) * | 2020-04-28 | 2020-07-31 | 深圳市智佳家电子科技有限公司 | 一种抓取网络特定数据的分析方法 |
CN111475703B (zh) * | 2020-04-28 | 2023-06-13 | 深圳市智佳家电子科技有限公司 | 一种抓取网络特定数据的分析方法 |
CN113821704B (zh) * | 2020-06-18 | 2024-01-16 | 华为云计算技术有限公司 | 构建索引的方法、装置、电子设备和存储介质 |
CN113821704A (zh) * | 2020-06-18 | 2021-12-21 | 华为技术有限公司 | 构建索引的方法、装置、电子设备和存储介质 |
CN112016830A (zh) * | 2020-08-27 | 2020-12-01 | 广东电网有限责任公司 | 一种专利文件评估任务分配方法及装置 |
CN113435199A (zh) * | 2021-07-18 | 2021-09-24 | 谢勇 | 一种性格对应文化的存储读取干涉方法及系统 |
CN113779349A (zh) * | 2021-08-11 | 2021-12-10 | 中央广播电视总台 | 数据检索系统、装置、电子设备和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103838785A (zh) | 一种专利领域的垂直搜索引擎 | |
CN103226578B (zh) | 面向医学领域的网站识别和网页细分类的方法 | |
CN111708740A (zh) | 基于云平台的海量搜索查询日志计算分析系统 | |
JP2017157192A (ja) | キーワードに基づいて画像とコンテンツアイテムをマッチングする方法 | |
CN104376406A (zh) | 一种基于大数据的企业创新资源管理与分析系统和方法 | |
CN106383887A (zh) | 一种环保新闻数据采集和推荐展示的方法及系统 | |
Hou et al. | Newsminer: Multifaceted news analysis for event search | |
CN102402539A (zh) | 对象级个性化垂直搜索引擎设计技术 | |
JP6165955B1 (ja) | 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム | |
TW202001620A (zh) | 自動化網站資料蒐集方法 | |
Prajapati | A survey paper on hyperlink-induced topic search (HITS) algorithms for web mining | |
CN103744954A (zh) | 一种词关联网模型的构建方法及其构建器 | |
JP2017157193A (ja) | 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法 | |
CN106649498A (zh) | 一种基于爬虫和文本聚类分析的网络舆情分析系统 | |
CN106649883B (zh) | 一种跨语言的主题网站自动发现方法 | |
Khan et al. | Self-adaptive ontology-based focused crawling: a literature survey | |
Ma et al. | API prober–a tool for analyzing web API features and clustering web APIs | |
Hernández et al. | A conceptual framework for efficient web crawling in virtual integration contexts | |
Zhang et al. | Research and implementation of keyword extraction algorithm based on professional background knowledge | |
Xu et al. | Method of deep web collection for mobile application store based on category keyword searching | |
Yuan et al. | Self-adaptive extracting academic entities from World Wide Web | |
Duklan et al. | Classification of search engine optimization techniques: A data mining approach | |
Gao et al. | Modelling on web dynamic incremental crawling and information processing | |
Gunasundari et al. | Removing non-informative blocks from the web pages | |
Hovad et al. | Real-time web mining application to support decision-making process |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140604 |