CN106844640B - 一种网页数据分析处理方法 - Google Patents

一种网页数据分析处理方法 Download PDF

Info

Publication number
CN106844640B
CN106844640B CN201710045575.9A CN201710045575A CN106844640B CN 106844640 B CN106844640 B CN 106844640B CN 201710045575 A CN201710045575 A CN 201710045575A CN 106844640 B CN106844640 B CN 106844640B
Authority
CN
China
Prior art keywords
webpage
word segmentation
data
compression
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710045575.9A
Other languages
English (en)
Other versions
CN106844640A (zh
Inventor
杨爱华
陈林水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZHANGZHOU TECHNOLOGY VOCATIONAL COLLEGE
Original Assignee
ZHANGZHOU TECHNOLOGY VOCATIONAL COLLEGE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZHANGZHOU TECHNOLOGY VOCATIONAL COLLEGE filed Critical ZHANGZHOU TECHNOLOGY VOCATIONAL COLLEGE
Priority to CN201710045575.9A priority Critical patent/CN106844640B/zh
Publication of CN106844640A publication Critical patent/CN106844640A/zh
Application granted granted Critical
Publication of CN106844640B publication Critical patent/CN106844640B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明公开了一种网页数据分析处理方法。该方法基于网页数据服务平台实现,所述网页数据服务平台包括客户端、内容服务器及分词云服务器,所述内容服务器上安装有网页抓取系统、内容提取系统、内容分析系统及数据库,该方法具体包括以下步骤:S1、网页抓取;S2、内容提取;S3、中文分词;S4、内容分析;S5、结果呈现,客户端从数据库中调取数据结果,并呈现给用户。本发明采用基于阅读习惯的网页内容提取技术,能够快速识别出网页的主题内容并进行提取,采用云分词技术实现高效中文分词,为大数据分析提供了基础保障,用户无需投入软硬件资源,能够满足中小企业和普通个人用户的大数据分析服务的低成本、定向化要求。

Description

一种网页数据分析处理方法
技术领域
本发明涉及互联网数据挖掘分析技术领域,尤其涉及一种网页数据分析处理方法。
背景技术
目前,互联网充斥着大量各式各样的信息,人们处于数据庞大、信息海 量的时代。这些大量数据需要通过一定的发现方法,才能实现对企业或者社 会发展有意义的信息进行深度挖掘。
以往的信息挖掘的方式一般通过信息检索或者数理统计的方法进行,比 如普通个人用户使用的百度、谷歌等搜索引擎,虽然可以检索到词条相关内 容,但是绝大多数都是无用信息,在这样大量的数据条件下很难得到所希望 的精准结果。而其深度挖掘和分析的功能往往都是面向大型企业或事业单位, 相对于广大中小企业或普通个人用户来说成本及其昂贵。因此迫切需要面向 广大中小企业和普通个人用户的低成本、定向化、精准化的大数据分析平台, 为其提供精准的情报搜集、舆情分析及决策服务,使得广大中小企业能够在 大数据时代的机遇与挑战中充分掘取更多商业价值,提升企业核心竞争力。
发明内容
本发明的目的在于提供一种网页数据分析处理方法,该方法具有低成本、定向化、精准化的特点。
为实现上述目的,本发明的技术方案是:一种网页数据分析处理方法,该方法基于一网页数据服务平台实现,所述网页数据服务平台包括客户端、内容服务器和分词云服务器,所述内容服务器上安装有网页抓取系统、内容提取系统、内容分析系统和数据库,所述方法具体实现步骤如下:
S1、网页抓取
所述网页抓取系统获取爬取任务,将待爬取 URL 加入爬虫队列,抓取网页页面;
S2、内容提取
所述内容提取系统基于阅读习惯对步骤S1抓取的网页页面进行分割,生成多个区块,所述多个区块包括主题块和噪音块,剔除所述噪音块,提取主题块的核心文本数据;
S3、中文分词
向所述分词云服务器发送分词任务请求,并提交步骤S2提取的核心文本数据,分词云服务器对核心文本数据进行中文分词处理,并将分词结果发送给所述内容分析系统;
S4、内容分析
预先建立实体关系数据集,所述实体关系数据集包含一组命名实体以及与每个命名实体对应的特征信息知识库,内容分析系统针提取所述步骤S3得到的分词结果的关键词,得到关键词数据集,针对每个关键词在特征信息知识库搜索与该关键词对应的匹配结果,将该匹配结果对应的命名实体作为属性索引项添加到结构化数据表,将该关键词作为属性值添加到结构化数据表,遍历关键词数据集中的所有关键词,得到结构化数据集,基于结构化数据集对核心文本数据及对应的网页页面进行分类,并存储到数据库;
S5、结果呈现
客户端从数据库中调取数据结果,并呈现给用户。
在本发明一实施例中,所述步骤S2具体实现步骤如下:
S21、内容提取系统针对步骤S1抓取的网页页面生成初始 DOM 树;
S22、清理初始DOM 树中无用节点,构建目标 DOM 树;
S23、利用基于视觉信息的网页分块算法对网页页面进行分割,生成多个区块,所述区块携带有语义属性,所述语义属性包括链接个数、链接长度及文本长度;
S24、根据网页页面的链接数量和链接密度判断网页类型,若网页类型为导航页,则中止,若网页类型为主题页,则执行步骤 S25;
S25、根据各个区块的语义属性,对各个区块进行分类,分为主题块及噪音块;
S26、剔除所述噪音块,提取主题块的核心文本数据。
在本发明一实施例中,所述步骤S22中的无用节点为初始DOM树种与内容提取无关的节点,其包括脚本、样式控制信息、注释及空格文本节点。
在本发明一实施例中,所述内容服务器上安装有第一压缩/解压缩系统,所述分词云服务器上安装有第二压缩/解压缩系统以及中文分词系统,第一压缩/解压缩系统和第二压缩/解压缩系统均具有压缩词典,所述第一压缩/解压缩系统还包括第一压缩模块、第一解压缩模块及词典升级模块,所述第二压缩/解压缩系统还包括第二压缩模块、第二解压缩模块及词典更新模块;
所述步骤 S3 具体实现步骤如下:
S31、内容服务器向分词云服务器发送分词任务请求,并利用第一压缩模块基于压缩词典对所述核心文本数据进行数据压缩处理,发送给分词云服务器;
S32、分词云服务器对分词任务请求进行安全验证,验证通过后利用第二解压缩模块进行数据解压缩处理,还原出核心文本数据;
S33、中文分词系统对核心文本数据进行中文分词处理,生成分词结果;
S34、利用第二压缩模块基于压缩词典对分词结果进行数据压缩处理,发送给内容服务器,同时将分词结果存储在分词云服务器,对第二压缩/解压缩系统的压缩词典进行更新;
S35、内容服务器利用第一解压缩模块进行数据解压缩处理,还原出分词结果,同时与分词云服务器进行通信,对第一压缩/解压缩系统的压缩词典进行升级。
在本发明一实施例中,所述步骤 S33中的中文分词处理通过以下步骤实现:
汉转音剔除错误字词;
通过同义匹配、词性确认、语法切割、固定词匹配、标点规范、缩进规范、冗余感知及网络修正进行分词处理。
在本发明一实施例中,所述步骤S4还包括:
计算每个关键词在核心文本数据出现的频度,找出未与特征信息知识库实现匹配且频度高于预设频度阈值的关键词,并将该关键词计入候选词库,存储到数据库中。
相较于现有技术,本发明具有以下有益效果:
1、本发明采用基于阅读习惯的网页内容提取技术,能够快速识别出网页 的主题内容并进行提取,采用云分词技术实现高效中文分词,为大数据分析 提供了基础保障,用户无需投入软硬件资源,能够满足中小企业和普通个人 用户的大数据分析服务的低成本、定向化要求;
2、本发明基于关系抽取技术来实现网页内容分析和网页分类,通过针对 不同行业和需求设定实体关系数据集,可实现数据分析的精准性;
3、本发明采用云分词技术进行中文分词处理的过程中,通过配备压缩词 典及相应的压缩、解压缩模块,可较小分词数据上传、回传的数量,提升了 中文分词的效率,压缩词典可进行更新升级(自动或定时),进一步确保了 分词数据的压缩效果。
附图说明
图 1 为本发明网页数据服务平台的结构示意图;
图 2 为本发明的工作流程图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明的一种网页数据分析处理方法,该方法基于一网页数据服务平台实现,所述网页数据服务平台包括客户端、内容服务器和分词云服务器,所述内容服务器上安装有网页抓取系统、内容提取系统、内容分析系统和数据库,所述方法具体实现步骤如下:
S1、网页抓取
所述网页抓取系统获取爬取任务,将待爬取 URL 加入爬虫队列,抓取网页页面;
S2、内容提取
所述内容提取系统基于阅读习惯对步骤S1抓取的网页页面进行分割,生成多个区块,所述多个区块包括主题块和噪音块,剔除所述噪音块,提取主题块的核心文本数据;
S3、中文分词
向所述分词云服务器发送分词任务请求,并提交步骤S2提取的核心文本数据,分词云服务器对核心文本数据进行中文分词处理,并将分词结果发送给所述内容分析系统;
S4、内容分析
预先建立实体关系数据集,所述实体关系数据集包含一组命名实体以及与每个命名实体对应的特征信息知识库,内容分析系统针提取所述步骤S3得到的分词结果的关键词,得到关键词数据集,针对每个关键词在特征信息知识库搜索与该关键词对应的匹配结果,将该匹配结果对应的命名实体作为属性索引项添加到结构化数据表,将该关键词作为属性值添加到结构化数据表,遍历关键词数据集中的所有关键词,得到结构化数据集,基于结构化数据集对核心文本数据及对应的网页页面进行分类,并存储到数据库;
S5、结果呈现
客户端从数据库中调取数据结果,并呈现给用户。
以下为本发明的具体实施过程。
请参阅图 1 和图 2,本发明公开了一种网页数据分析处理方法,基于网页数据服务平台实现,网页数据服务平台包括客户端 10、内容服务器 20 及分词 云服务器 30,内容服务器 20 上安装有网页抓取系统 21、内容提取系统 22、 内容分析系统 23 及数据库24,该方法包括以下步骤:
S1、网页抓取
网页抓取系统 21 获取爬取任务,将待爬取 URL 加入爬虫队列,抓取网页页面;
S2、内容提取
内容提取系统 22 基于阅读习惯对网页页面进行分割,生成多个区块,多个区块包括主题块及噪音块,剔除噪音块,提取主题块的核心文本数据。步骤 S2 具体包括以下分步骤:
S21、内容提取系统 22 针对网页页面生成初始 DOM 树。
S22、清理初始 DOM 树中无用节点,构建目标 DOM 树。无用节点为初始 DOM 树中与内容提取无关的节点,其包括脚本、样式控制信息、注释及空格文本节点。
S23、利用基于视觉信息的网页分块算法(VIPS) 对网页页面进行分割,生成多个区块,区块携带有语义属性,语义属性包括链接个数、链接长度及文本长度。
S24、根据网页页面的链接数量和链接密度判断网页类型,若网页类型为导航页,则中止,若网页类型为主题页,则执行步骤 S25。
S25、根据各个区块的语义属性,对各个区块进行分类,分为主题块及噪音块。噪音块包括导航栏、广告栏及其他干扰信息
S26、剔除噪音块,提取主题块的核心文本数据。优选地,无用节点为初始 DOM 树中与内容提取无关的节点,其包括脚本、样式控制信息、注释及空格文本节点。
S3、中文分词
向分词云服务器 30 发送分词任务请求,并提交核心文本数据,分词云服务器 30对核心文本数据进行中文分词处理,并将分词结果发送给内容分析系统23。
为实现核心文本数据和分词结果的传输效率,本实施例采用了词典压缩技术。在本实施例中,内容服务器 20 上安装有第一压缩/解压缩系统 25,分词云服务器 30 上安装有第二压缩/解压缩系统 31 以及中文分词系统 32,第一压缩/解压缩系统 25 和第二压缩/解压缩系统 31 均具有压缩词典,第一压缩/解压缩系统 25 还包括第一压缩模块、第一解压缩模块及词典升级模块,第二压缩/解压缩系统 31 还包括第二压缩模块、第二解压缩模块及词典更新模块。压缩词典可根据行业特点和用户需求进行定制。
步骤 S3 包括以下分步骤:
S31、内容服务器 20 向分词云服务器 30 发送分词任务请求,并利用第一压缩模块基于压缩词典对核心文本数据进行数据压缩处理,发送给分词云服务器 30。
S32、分词云服务器 30 对分词任务请求进行安全验证,验证通过后利用第二解压缩模块进行数据解压缩处理,还原出核心文本数据。
S33、中文分词系统 32 对核心文本数据进行中文分词处理,生成分词结果。中文分词处理具体为,首先通过汉转音剔除错误字词,然后通过同义匹 配、词性确认、语法切割、固定词匹配、标点规范、缩进规范、冗余感知及网络修正进行分词处理。
S34、利用第二压缩模块基于压缩词典对分词结果进行数据压缩处理,发送给内容服务器 20,同时将分词结果存储在分词云服务器 30,对第二压缩/解压缩系统 31 的压缩词典进行更新。
S35、内容服务器 20 利用第一解压缩模块进行数据解压缩处理,还原出分词结果,同时与分词云服务器 30 进行通信,对第一压缩/解压缩系统 25 的压缩词典进行升级。
S4、内容分析
预先建立实体关系数据集,建立实体关系数据集包含一组命名实体以及与每个命名实体对应的特征信息知识库。
内容分析系统 23 针对分词结果提取关键词,得到关键词数据集。
针对每个关键词在特征信息知识库搜索与该关键词对应的匹配结果,将该匹配结果对应的命名实体作为属性索引项添加到结构化数据表,将该关键词作为属性值添加到结构化数据表,遍历关键词数据集中的所有关键词,得到结构化数据集。
基于结构化数据集对核心文本数据及对应的网页页面进行分类,并存储到数据库24。
计算每个关键词在核心文本数据出现的频度,找出未与特征信息知识库实现匹配且频度高于预设频度阈值的关键词,并将该关键词计入候选词库,存储到数据库 24 中,后续可通过人工方式对候选词库中的关键词进行评估,选择添加到特征信息知识库中或者删除。
S5、结果呈现
客户端 10 从数据库 24 中调取数据结果,并呈现给用户。
通过以上描述可以看出,本发明可根据用户需求定制业务规则和分析模型,利用内容服务器 20 进行网页主题内容提取和数据分析,利用分词云服务器 30 进行中文分词,利用客户端 10 查看数据推送结果。用户无需投入软硬件资源,能够满足中小企业和普通个人用户的大数据分析服务的低成本、定 向化要求。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (5)

1.一种网页数据分析处理方法,其特征在于:该方法基于一网页数据服务平台实现,所述网页数据服务平台包括客户端、内容服务器和分词云服务器,所述内容服务器上安装有网页抓取系统、内容提取系统、内容分析系统和数据库,所述方法具体实现步骤如下:
S1、网页抓取
所述网页抓取系统获取爬取任务,将待爬取 URL 加入爬虫队列,抓取网页页面;
S2、内容提取
所述内容提取系统基于阅读习惯对步骤S1抓取的网页页面进行分割,生成多个区块,所述多个区块包括主题块和噪音块,剔除所述噪音块,提取主题块的核心文本数据;
S3、中文分词
向所述分词云服务器发送分词任务请求,并提交步骤S2提取的核心文本数据,分词云服务器对核心文本数据进行中文分词处理,并将分词结果发送给所述内容分析系统;
S4、内容分析
预先建立实体关系数据集,所述实体关系数据集包含一组命名实体以及与每个命名实体对应的特征信息知识库,内容分析系统针提取所述步骤S3得到的分词结果的关键词,得到关键词数据集,针对每个关键词在特征信息知识库搜索与该关键词对应的匹配结果,将该匹配结果对应的命名实体作为属性索引项添加到结构化数据表,将该关键词作为属性值添加到结构化数据表,遍历关键词数据集中的所有关键词,得到结构化数据集,基于结构化数据集对核心文本数据及对应的网页页面进行分类,并存储到数据库;
S5、结果呈现
客户端从数据库中调取数据结果,并呈现给用户;
所述内容服务器上安装有第一压缩/解压缩系统,所述分词云服务器上安装有第二压缩/解压缩系统以及中文分词系统,第一压缩/解压缩系统和第二压缩/解压缩系统均具有压缩词典,所述第一压缩/解压缩系统还包括第一压缩模块、第一解压缩模块及词典升级模块,所述第二压缩/解压缩系统还包括第二压缩模块、第二解压缩模块及词典更新模块;
所述步骤 S3 具体实现步骤如下:
S31、内容服务器向分词云服务器发送分词任务请求,并利用第一压缩模块基于压缩词典对所述核心文本数据进行数据压缩处理,发送给分词云服务器;
S32、分词云服务器对分词任务请求进行安全验证,验证通过后利用第二解压缩模块进行数据解压缩处理,还原出核心文本数据;
S33、中文分词系统对核心文本数据进行中文分词处理,生成分词结果;
S34、利用第二压缩模块基于压缩词典对分词结果进行数据压缩处理,发送给内容服务器,同时将分词结果存储在分词云服务器,对第二压缩/解压缩系统的压缩词典进行更新;
S35、内容服务器利用第一解压缩模块进行数据解压缩处理,还原出分词结果,同时与分词云服务器进行通信,对第一压缩/解压缩系统的压缩词典进行升级。
2.根据权利要求1所述的一种网页数据分析处理方法,其特征在于:所述步骤S2具体实现步骤如下:
S21、内容提取系统针对步骤S1抓取的网页页面生成初始 DOM 树;
S22、清理初始DOM 树中无用节点,构建目标 DOM 树;
S23、利用基于视觉信息的网页分块算法对网页页面进行分割,生成多个区块,所述区块携带有语义属性,所述语义属性包括链接个数、链接长度及文本长度;
S24、根据网页页面的链接数量和链接密度判断网页类型,若网页类型为导航页,则中止,若网页类型为主题页,则执行步骤 S25;
S25、根据各个区块的语义属性,对各个区块进行分类,分为主题块及噪音块;
S26、剔除所述噪音块,提取主题块的核心文本数据。
3.根据权利要求2所述的一种网页数据分析处理方法,其特征在于:所述步骤S22中的无用节点为初始DOM树种与内容提取无关的节点,其包括脚本、样式控制信息、注释及空格文本节点。
4.根据权利要求1所述的一种网页数据分析处理方法,其特征在于:所述步骤 S33中的中文分词处理通过以下步骤实现:
汉转音剔除错误字词;
通过同义匹配、词性确认、语法切割、固定词匹配、标点规范、缩进规范、冗余感知及网络修正进行分词处理。
5.根据权利要求1所述的一种网页数据分析处理方法,其特征在于:所述步骤S4还包括:
计算每个关键词在核心文本数据出现的频度,找出未与特征信息知识库实现匹配且频度高于预设频度阈值的关键词,并将该关键词计入候选词库,存储到数据库中。
CN201710045575.9A 2017-01-22 2017-01-22 一种网页数据分析处理方法 Active CN106844640B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710045575.9A CN106844640B (zh) 2017-01-22 2017-01-22 一种网页数据分析处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710045575.9A CN106844640B (zh) 2017-01-22 2017-01-22 一种网页数据分析处理方法

Publications (2)

Publication Number Publication Date
CN106844640A CN106844640A (zh) 2017-06-13
CN106844640B true CN106844640B (zh) 2020-02-21

Family

ID=59119183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710045575.9A Active CN106844640B (zh) 2017-01-22 2017-01-22 一种网页数据分析处理方法

Country Status (1)

Country Link
CN (1) CN106844640B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697225A (zh) * 2017-10-23 2019-04-30 贵州双龙数联科技有限公司 基于神经网络半监督学习的互联网大数据文本精准挖掘引擎
CN107798091B (zh) * 2017-10-23 2021-05-18 金蝶软件(中国)有限公司 一种数据爬取的方法及其相关设备
CN108415957B (zh) * 2017-11-06 2022-06-07 北京京东尚科信息技术有限公司 网页自定义导航的方法及装置
CN108334560B (zh) * 2018-01-03 2022-04-15 腾讯科技(深圳)有限公司 一种信息获取方法及相关设备
CN108416048B (zh) * 2018-03-16 2021-09-21 安徽大学 一种面向词典集的复杂从属结构网页信息抽取方法及系统
CN108549707A (zh) * 2018-04-18 2018-09-18 安徽智网信息科技有限公司 一种基于行为感知的大数据提取系统及方法
CN111191095A (zh) * 2018-11-14 2020-05-22 中国移动通信集团河北有限公司 网页数据获取方法、装置、设备及介质
CN111931040B (zh) * 2020-06-30 2024-01-12 深圳市世强元件网络有限公司 一种网络平台内部服务实体服务入口的推荐方法
CN113065151A (zh) * 2020-08-27 2021-07-02 开鑫金服(南京)信息服务有限公司 关系型数据库信息安全强化方法、系统、终端及存储介质
CN116450727B (zh) * 2023-06-19 2023-08-18 中国人民解放军联勤保障部队第九八〇医院 医疗数据处理方法、装置、终端设备和可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663023A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种提取网页内容的实现方法
CN103389998A (zh) * 2012-05-11 2013-11-13 安徽华贞信息科技有限公司 一种基于云服务的新型互联网商业情报语义分析技术
CN103841216A (zh) * 2014-04-01 2014-06-04 深圳市科盾科技有限公司 一种基于云平台的网络舆情监控系统
CN103838785A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种专利领域的垂直搜索引擎
CN103984700A (zh) * 2014-04-15 2014-08-13 厦门产业技术研究院 一种用于科技信息垂直搜索的异构数据分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663023A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种提取网页内容的实现方法
CN103389998A (zh) * 2012-05-11 2013-11-13 安徽华贞信息科技有限公司 一种基于云服务的新型互联网商业情报语义分析技术
CN103838785A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种专利领域的垂直搜索引擎
CN103841216A (zh) * 2014-04-01 2014-06-04 深圳市科盾科技有限公司 一种基于云平台的网络舆情监控系统
CN103984700A (zh) * 2014-04-15 2014-08-13 厦门产业技术研究院 一种用于科技信息垂直搜索的异构数据分析方法

Also Published As

Publication number Publication date
CN106844640A (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
CN106844640B (zh) 一种网页数据分析处理方法
US11580104B2 (en) Method, apparatus, device, and storage medium for intention recommendation
US10146862B2 (en) Context-based metadata generation and automatic annotation of electronic media in a computer network
KR101557294B1 (ko) 편집 거리 및 문서 정보를 이용한 검색 결과 랭킹
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
CN104850554B (zh) 一种搜索方法和系统
WO2017097231A1 (zh) 话题处理方法及装置
WO2020164276A1 (zh) 网页数据爬取方法、装置、系统及计算机可读存储介质
CN106599160B (zh) 一种内容规则库管理系统及其编码方法
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
US20110208715A1 (en) Automatically mining intents of a group of queries
TWI547815B (zh) Information retrieval method and device
CN102722498A (zh) 搜索引擎及其实现方法
CN104133877A (zh) 软件标签的生成方法和装置
CN102722501A (zh) 搜索引擎及其实现方法
CN102737021A (zh) 搜索引擎及其实现方法
CN113660541A (zh) 新闻视频的摘要生成方法及装置
CN103324641B (zh) 信息记录推荐方法和装置
US9552415B2 (en) Category classification processing device and method
CN103226601A (zh) 一种图片搜索的方法和装置
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
US10671810B2 (en) Citation explanations
CN113961811B (zh) 基于事件图谱的话术推荐方法、装置、设备及介质
CN106934007B (zh) 关联信息的推送方法及装置
KR20220116086A (ko) 텍스트 데이터의 수집·정제 시스템 및 방법, 그 방법을 수행하기 위한 기록 매체

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant