CN111126050A

CN111126050A - 一种网站标题提取方法、系统及相关设备

Info

Publication number: CN111126050A
Application number: CN201911358328.XA
Authority: CN
Inventors: 贾真; 范渊
Original assignee: DBAPPSecurity Co Ltd
Current assignee: DBAPPSecurity Co Ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-08
Anticipated expiration: 2039-12-25
Also published as: CN111126050B

Abstract

本申请提供一种网站标题提取方法，包括：获取目标网站对应的html内容；提取html内容中的title标签；确定标签权重以及html内容中文本文字、图片和视频分别对应的第一权重、第二权重和第三权重；确定标签权重、第一权重、第二权重和第三权重中的权重最大值；将权重最大值对应的内容提取到的标题作为网站标题。本申请能够提高网站标题的准确性，解决了直接根据html内容得到的title标签不准确的问题，能够避免网站站点名错误和乱码。本申请还提供一种网站标题提取系统、计算机可读存储介质和电子设备，具有上述有益效果。

Description

一种网站标题提取方法、系统及相关设备

技术领域

本申请涉及互联网领域，特别涉及一种网站标题提取方法、系统及相关设备。

背景技术

网络上不同的网站使用不同的标题显示方式，导致自动监测网站标题不准确的问题。该问题不解决带来的危害是服务中大量的监测网站站点名错误与乱码，用户体验感差。

发明内容

本申请的目的是提供一种网站标题提取方法、系统、计算机可读存储介质和电子设备，能够提高提取到的网站标题的准确性。

为解决上述技术问题，本申请提供一种网站标题提取方法，具体技术方案如下：

获取目标网站对应的html内容；

提取所述html内容中的title标签；

确定标签权重以及所述html内容中文本文字、图片和视频分别对应的第一权重、第二权重和第三权重；

确定所述标签权重、所述第一权重、所述第二权重和所述第三权重中的权重最大值；

将权重最大值对应的内容提取到的标题作为网站标题。

其中，提取所述html内容中的title标签包括：

根据所述html内容中标签字符确定title标签。

其中，确定标签权重以及所述html内容中文本文字、图片和视频分别对应的第一权重、第二权重和第三权重包括：

确定标签权重，并根据所述html内容中文本文字、图片和视频各自所占的比例确定所述html内容中文本文字、图片和视频分别对应的第一权重、第二权重和第三权重。

其中，若所述文本文字对应第一标题、所述图片对应第二标题、所述视频对应第三标题，则将权重最大值对应的内容提取到的标题作为网站标题包括：

若所述标签权重最大，将所述title标签作为网站标题；

若所述第一权重最大，提取所述文本文字的第一标题作为网站标题；

若所述第二权重最大，提取所述图片的第二标题作为网站标题；

若所述第三权重最大，提取所述视频的第三标题作为网站标题。

其中，提取所述文本文字的第一标题作为网站标题包括：

利用双向最大匹配法提取所述文本文字中的字符串；

对所述字符串利用傅里叶转化确定各分词文字的权重；

将所述权重前预设百分比的分词文字作为第一标题；

将所述第一标题作为网站标题。

其中，提取所述图片的第二标题作为网站标题包括：

利用SIFT算法识别所述图片中的图片文字；

对所述图片文字进行文字提取得到第二标题；

将所述第二标题作为网站标题。

其中，提取所述视频的第三标题作为网站标题包括：

利用MFCC提取所述视频中的视频文字；

对所述视频文字进行文字提取得到第三标题；

将所述第三标题作为网站标题。

本申请还提供一种网站标题提取系统，包括：

获取模块，用于获取目标网站对应的html内容；

提取模块，用于提取所述html内容中的title标签；

权重计算模块，用于确定标签权重以及所述html内容中文本文字、图片和视频分别对应的第一权重、第二权重和第三权重；

权重确定模块，用于将所述标签权重、所述第一权重、所述第二权重和所述第三权重中的权重最大值；

标题提取模块，用于将权重最大值对应的内容提取到的标题作为网站标题。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的方法的步骤。

本申请还提供一种电子设备，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步骤。

本申请提供一种网站标题提取方法，包括：获取目标网站对应的html内容；提取所述html内容中的title标签；确定标签权重以及所述html内容中文本文字、图片和视频分别对应的第一权重、第二权重和第三权重；确定所述标签权重、所述第一权重、所述第二权重和所述第三权重中的权重最大值；将权重最大值对应的内容提取到的标题作为网站标题。

本申请需要确定文本文字、图片和视频的权重，结合直接提取到的title标签对应的标签权重，对权重最大者对应的内容进行标题提取，能够提高网站标题的准确性，解决了直接根据html内容得到的title标签不准确的问题，能够避免网站站点名错误和乱码。本申请还提供一种网站标题提取系统、计算机可读存储介质和电子设备，具有上述有益效果，此处不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种网站标题提取方法的流程图；

图2为本申请实施例所提供的MFCC语音提取的流程图；

图3为本申请实施例所提供的一种网站标题提取系统结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例所提供的一种网站标题提取方法的流程图，该方法包括：

S101：获取目标网站对应的html内容；

本步骤旨在获取目标网站的html内容，即确定需要获取标题的网站站点，即可直接打开该站点获得对应的html内容。

S102：提取html内容中的title标签；

通常，在html内容中，存在一个html的<title>标签，本步骤需要根据html标签字符确定title标签。而该标签字符则是网站站点自身设定的标题。现有技术则是直接抓取该<title>标签以获得网站站点标题，但很多时候，该标题内容与网站站点的实际内容并不相符，因此本申请为解决该问题，还需要执行下文所述的步骤。

S103：确定标签权重以及html内容中文本文字、图片和视频分别对应的第一权重、第二权重和第三权重；

本步骤中，需要进一步确定html内容中文本文字、图片和视频各自的权重。在html内容中，主要包含三部分内容，即文本文字、图片和视频。需要注意的是，这种分类方式将html内容中的音频作为视频来处理。

为了使得网站标题与站点内容更加匹配，本步骤需要确定各部分内容占整个html内容的比重。

除此之外，还需要确定标签权重。虽然很多时候网站html内容中的标签可能无法直接作为标题，但依旧存在直接作为标题的可能，因此，还需要为标签设置权重。

S104：确定标签权重、第一权重、第二权重和第三权重中的权重最大值；

S105：将权重最大值对应的内容提取到的标题作为网站标题。

具体的，若文本文字对应第一标题、图片对应第二标题、视频对应第三标题，则本步骤具体可以为：

若标签权重最大，将title标签作为网站标题；

若第一权重最大，提取文本文字的第一标题作为网站标题；

若第二权重最大，提取图片的第二标题作为网站标题；

若第三权重最大，提取视频的第三标题作为网站标题。

当然，若计算得到存在多个相同最大权重，则可任选一个最大权重值对应的内容提取得到网站标题。

本申请需要确定文本文字、图片和视频的权重，结合直接提取到的title标签对应的标签权重，对权重最大者对应的内容进行标题提取，能够提高网站标题的准确性，解决了直接根据html内容得到的title标签不准确的问题，能够避免网站站点名错误和乱码。

下面分别对文本文字提取、图片提取和视频提取得到网站标题的过程作说明：

对于文本文字，提取文本文字的第一标题作为网站标题包括：

S201：利用双向最大匹配法提取文本文字中的字符串；

S202：对字符串利用傅里叶转化确定各分词文字的权重；

S203：将权重前预设百分比的分词文字作为第一标题；

S204：将第一标题作为网站标题。

对于文本文字，使用双向最大匹配法，基于词典的分词方法是按照一定策略将待分析的汉字串与一个词典库中的词条进行匹配，若在词典库中找到某个字符串，则匹配成功将内容分词后，通过傅立叶转化的方式，将其中权重最高的分词文字摘选出来，对于排名前10％的文字，记录并整合前10％的文字得到第一标题。

关于采用的傅立叶转化的方式，通过自己内部自主开发的算法包实现了以下的功能，如一维和多维变换、纯粹的真实输入或输出数据的快速转换

真实偶数/奇数数据的变换：离散余弦变换(DCT)和离散正弦变换(DST)，类型I-IV高效处理多个跨步变换等能力.

对于图片，提取图片的第二标题作为网站标题包括：

S301：利用SIFT算法识别图片中的图片文字；

S302：对图片文字进行文字提取得到第二标题；

S303：将第二标题作为网站标题。

同样的，使用SIFT算法，识别图片中的文字SIFT算法实现物体识别主要有三大步骤：

1、提取关键点；

2、对关键点附加详细的信息(局部特征)也就是所谓的描述器；

3、通过两方特征点(附带上特征向量的关键点)的两两比较找出相互匹配的若干对特征点，也就建立了景物间的对应关系。

利用原始图像与高斯核的卷积来建立尺度空间，并在高斯差分空间金字塔上提取出尺度不变性的特征点，提取出图片中的文字，对文字进行加权处理，结合第一种类型，实现目标文本的再筛选.对于第三种类型，视频中的文本介绍说明，

对于视频(包括连续音频)，提取视频的第三标题作为网站标题包括：

S401：利用MFCC提取视频中的视频文字。

S402：对视频文字进行文字提取得到第三标题；

S403：将第三标题作为网站标题。

针对视频语音的数据提取，通过MFCC将其中的文字提取，具体流程可参见图2，图2为本申请实施例所提供的视频提取第三标题的流程图，其过程较为复杂，具体过程可以如下：

第一步、预加重

预加重处理其实是将语音信号通过一个高通滤波器，以对视频中的语音信号进行信号补偿。当然这一步并非提取第三标题的必须步骤，若是语音信号质量较佳，可以直接执行第二步。

第二步、分帧

即将视频以预设采样频率划分成帧。在此对于预设采样频率不作具体限定。可以先将N个采样点集合成一个观测单位，称为帧。通常情况下N的值可以为256或512，涵盖的时间约为20～30ms左右。为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，通常M的值约为N的1/2或1/3。通常语音识别所采用语音信号的采样频率为8KHz或16KHz，以8KHz来说，若帧长度为256个采样点，则对应的时间长度是256/80001000＝32ms。

第三步、加窗(Hamming Window)；

将第二步得到的每帧与汉明窗相乘，得到加窗帧。将每一帧乘以汉明窗，以增加帧左端和右端的连续性。假设分帧后的信号为S(n)，n＝0，1，…，N-1，N为帧的大小，那么乘上汉明窗后不同的a值会产生不同的汉明窗，一般情况下a可以取0.46。

第四步、快速傅里叶变换(fast Fourier transform，简称FFT)

本步骤需要对第三步得到的加窗帧进行快速傅里叶变换，得到视频在功率谱。由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。所以在乘上汉明窗后，每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对加窗帧信号进行快速傅里叶变换得到各帧的频谱，并对语音信号的频谱取模平方得到语音信号的功率谱。

第五步、三角带通滤波器处理

本步骤需要利用Mel滤波器组进行滤波处理，将功率谱通过一组Mel尺度的三角形滤波器组，定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近)，采用的滤波器为三角滤波器，中心频率为。M通常取22-26。各f(m)之间的间隔随着m值的减小而缩小，随着m值的增大而增宽。

第六步、计算每个滤波器组输出的对数能量；

第七步、经离散余弦变换(DCT)得到MFCC系数；

将第六步得到的对数能量带入离散余弦变换，求出L阶的Mel-scale Cepstrum参数。L阶指MFCC系数阶数，通常取12-16。这里M是三角滤波器个数。

此外，一帧的音量(即能量)，也是语音的重要特征，而且非常容易计算。因此，通常再加上一帧的对数能量(定义：一帧内信号的平方和，再取以10为底的对数值，再乘10)使得每一帧基本的语音特征就多了一维，包括一个对数能量和剩下的倒频谱参数。

第八步、动态查分参数的提取(包括一阶差分和二阶差分)；

标准的倒谱参数MFCC只反映了语音参数的静态特性，语音的动态特性可以用这些静态特征的差分谱来描述。因此将动态、静态特征结合起来才能有效提高系统的识别性能。

下面对本申请实施例提供的一种网站标题提取系统进行介绍，下文描述的网站标题提取系统与上文描述的一种网站标题提取方法可相互对应参照。

参见图3，图3为本申请实施例所提供的一种网站标题提取系统结构示意图，本申请还提供一种网站标题提取系统，包括：

获取模块100，用于获取目标网站对应的html内容；

提取模块200，用于提取所述html内容中的title标签；

权重计算模块300，用于确定标签权重以及所述html内容中文本文字、图片和视频分别对应的第一权重、第二权重和第三权重；

权重确定模块400，用于将所述标签权重、所述第一权重、所述第二权重和所述第三权重中的权重最大值；

标题提取模块500，用于将权重最大值对应的内容提取到的标题作为网站标题。

本申请还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还提供了一种电子设备，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种网站标题提取方法，其特征在于，包括：

获取目标网站对应的html内容；

提取所述html内容中的title标签；

将权重最大值对应的内容提取到的标题作为网站标题；所述内容包括所述文本文字、所述图片和所述视频。

2.根据权利要求1所述的网站标题提取方法，其特征在于，提取所述html内容中的title标签包括：

根据所述html内容中标签字符确定title标签。

3.根据权利要求1所述的网站标题提取方法，其特征在于，确定标签权重以及所述html内容中文本文字、图片和视频分别对应的第一权重、第二权重和第三权重包括：

4.根据权利要求1所述的网站标题提取方法，其特征在于，若所述文本文字对应第一标题、所述图片对应第二标题、所述视频对应第三标题，则将权重最大值对应的内容提取到的标题作为网站标题包括：

若所述标签权重最大，将所述title标签作为网站标题；

5.根据权利要求4所述的网站标题提取方法，其特征在于，提取所述文本文字的第一标题作为网站标题包括：