CN101751403B - 将超文字标签语言文件转换成纯文字文件的方法 - Google Patents

将超文字标签语言文件转换成纯文字文件的方法 Download PDF

Info

Publication number
CN101751403B
CN101751403B CN2008101851640A CN200810185164A CN101751403B CN 101751403 B CN101751403 B CN 101751403B CN 2008101851640 A CN2008101851640 A CN 2008101851640A CN 200810185164 A CN200810185164 A CN 200810185164A CN 101751403 B CN101751403 B CN 101751403B
Authority
CN
China
Prior art keywords
content
file
label
block
target block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008101851640A
Other languages
English (en)
Other versions
CN101751403A (zh
Inventor
蔡弘扬
洪启豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Esobi Inc
Original Assignee
Esobi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Esobi Inc filed Critical Esobi Inc
Priority to CN2008101851640A priority Critical patent/CN101751403B/zh
Publication of CN101751403A publication Critical patent/CN101751403A/zh
Application granted granted Critical
Publication of CN101751403B publication Critical patent/CN101751403B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种将超文字标签语言文件转换成纯文字文件的方法,其先将超文字标签语言文件做标签处理的动作,用以去除其它不必要的标签及标签中所包含的杂乱信息,以保留有用的HTML文件段落和至少一个目的标签及其所包含的内容,从该保留的HTML文件段落中将一目的标签及其它剩余标签的内容提取出来并记录其相关信息于一数据结构中,再根据数据结构所记录的信息进行段落区隔的步骤,以区隔出至少一个目标区块,然后将目标区块与HTML文件标题作关联性对比,以找出最接近标题文意的目标区块,作为基础区块组,再建立空间向量模型,找出其它区块中,和基础区块相似度大于一相似度门坎值的区块,最后将这些区块的内容输出成为纯文字文件。

Description

将超文字标签语言文件转换成纯文字文件的方法
技术领域
本发明涉及一种网页内容的萃取方法,特别是有关一种可以从超文字标签语言(Hyper Text Markup Language,HTML)文件中找出和HTML文件主题最接近的重要内容,并将此重要内容输出为纯文字文件的方法。
背景技术
HTML文件是一种可以被网络浏览器(browser)读取,再以网页方式显示其内容的一种文件。和一般纯文字文件(txt file)不同的是,HTML文件的内容不仅包含纯文字的部份,还包含了许多的标记(tag)和其它格式的信息如影像或是影片,而标记的作用在指示网络浏览器,以指定的形式,将内容显示在网页之中,使网页的内容更丰富且具备多样性。但是目前有许多携带型的电子产品由于硬件的限制,例如较小的显示器而无法显示完整的网页内容,也有一些应用程序只需要撷取或是显示网页中特定的文字内容,而不希望包含其它不重要的噪声,所以为了支持这些应用程序(application)或是装置,已有厂商发展出一些可以将HTML文件中的纯文字内容萃取出来的技术。
在已核准的台湾发明专利434492提出了《一种超媒体文件转换为语音的方法》,其中提到了一种超媒体标示语言剖析器可以分析超媒体文件档案(即HTML文件)的内容,将其分离成文字内容、标示文件结构的超媒体标签及控制发音方式的发音控制指令,但是在此专利技术中并未进一步对分离出来的文字内容进行处理,以除去可能存在不重要的或是与文件主题无关的噪声。
在已核准的台湾发明专利200813763提出了《多线程分析网页数据的系统及方法》,公开了一种基于分析规则,利用一判断模块对XML格式网页的内容中是否有相应的分析规则,再依判断结果决定是否再利用一分析模块对网页内容进行评估,及根据所述分析规则中的限定判断所述分析后的网页内容是否符合评估要求,期望能快速、有效地萃取所需浏览网页中的信息;但是在此一技术中并未详细公开所述的分析规则。
另外一种已知将HTML文件转换成纯文字内容的技术,首先是对HTML文件做标签的处理,删除不重要的标签、和其中一些标签内夹带的内容,接着从剩余的内容中把剩余标签内夹带的文字或句子提取出来,以这些句子当中最长的句子为基础句子(base句子),从base句子向前及向后以寻找在一预定范围内(例如10个相邻句子范围)且长度够长的句子,这个过程称为距离扩散寻找步骤,一旦找到这种句子就再从找到的句子,再往外寻找预定范围以内是否还有长度够长的句子,直到找不到为止,最后将最前面的一句到最后面的一句范围内所有的句子提出来,即为最后的纯文字内容,再将这个纯文字内容输出为纯文字文件。
上述将HTML文件转换成纯文字内容的技术,存在着一些问题如下:
1.重要内文区块中间夹杂的不重要句子或文字,也会一并被萃取出来。
2.有的文章前后句子很短,若是未达到预设的长度就会被略过而无法被萃取出来,也不会在扩散寻找的过程中被找出来。
3.有时最长的句子或文字未必是重要的内容,虽然最长的句子通常是重要内容的机率很高,但也会有例外的情况,例如某一网页内的新闻内容非常短,但是这个新闻内容才是重要的句子或文字,如广告或其它新闻超级链接可能是最长的句子或文字,并不是我们所认为重要的句子或文字,若是采用前述的现有技术,就会出现挑选内容完全错误的情况发生。
因此,如何在HTML文件,特别是从网页内容中找出和文件标题相关的纯文字内容,才是我们所关心的课题,仅仅是把HTML文件中的纯文字内容萃取出来是不够的,如果萃取出来的纯文字内容又与HTML文件的标题无关,也非我们所期待的结果。
发明内容
本发明的目的在提出一种可以从超文字标签语言文件(HTML文件)中提取重要的内容的方法,换言之就是可以简化HTML文件的内容,只将其中重要的内容提取出来成为纯文字文件的一种方法。
本发明的目的之一在提出一种可从HTML文件中提取和HTML文件标题最接近的内容,并输出成为纯文字文件的方法。
为达上述目的,本发明的方法的较佳实施例包括下列步骤:
1、取得HTML文件;
2、执行标签处理步骤,去除HTML文件中大部份不必要的标签及这些不必要的标签所包含的内容(杂乱信息),以保留有用的HTML文件段落,在保留的文件段落中包含至少一个目的标签及目的标签所包含的内容;
3、从保留的HTML文件段落中将目的标签及其它剩余标签的内容提取出来,并依序记录其相关信息于一数据结构;更包括从该数据结构所记录的信息中由第一笔往下依序寻找HTML文件标题,找出该HTML文件标题后,将数据结构中所记录的该HTML文件标题及该HTML文件标题的前的信息内容全部删除。
4、根据数据结构所记录的信息进行段落区隔的步骤,藉以区隔出至少一个目标区块;
5、将目标区块与HTML文件标题作关联性对比,以找出最接近HTML文件标题的文意的目标区块,并将目标区块的内容输出成为纯文字文件。
其中,该数据结构可以是数组或是表格或是其它类型的数据结构,其功能是在后续的处理步骤中暂时地记录有需要的相关信息。
本发明所公开的方法还包括:以一预设的句子索引值作为段落区隔的依据,将保留的HTML文件段落区隔为多个目标区块,再进一步从这多个目标区块中找出最接近HTML文件标题的文意的目标区块,然后将此一目标区块的内容输出成为纯文字文件。
本发明所公开的方法还包括:以目的标签作为段落区隔的依据,将位在不同的目的标签附近的内容分类为不同的目标区块,再进一步从这些分属不同的目的标签类别的目标区块中找出最接近HTML文件标题的文意的目标区块,然后将此一目标区块的内容输出成为纯文字文件。
本发明所公开的方法还包括:依一最长句搜寻步骤从保留的HTML文件段落中找出重要的内容再输出为纯文字文件。
本发明公开的较佳实施例方法,还包括:以一扩散搜寻步骤,将分属不同的目的标签类别的目标区块中的内容细分为数个小区块,再依据小区块的内容找出和HTML文件标题的文意最接近的小区块,然后将被找出的小区块的内容输出成为纯文字文件。
本发明还公开了一种利用空间向量模型分析,从多个目标区块或是多个小区块之中找出一个或多个和HTML文件标题的文意最接近者设为基础区块,再找出其它和基础区块相似度高于一预设的相似度门坎值的小区块,并将这些相似度高于相似度门坎值的小区块的内容和基础区块的内容合并,再输出成为纯文字文件。依据本发明所公开的技术方案可以获致的功效包括:
1.HTML文件中间夹杂的非重要的内容或句子几乎不会被提出来,因为非重要的内容或句子几乎不会出现在本发明所选定的目的标签附近。
2.重要但太短的内容或句子不会被忽略,非重要但很长的内容或句子也不会错误地被提取出来,因为本发明优先以HTML文件中的内容是否出现在目的标签附近而决定是否提取出来,而不是依内容或是句子的长度来寻找重要的内容。
3.通过搜寻标题,以删除标题以及标题前面所有内容,使得处理的数据量更加精简。在一网页中,重要的纯文字内容皆出现在标题之下,故我们将标题以及标题前面所有无用的内容删除,将更加精简数据处理量,使纯文字结果更精确、效率提升。
4.本发明更利用关联性分析和空间向量模型分析方法,在多个目标区块或是小区块中找出一个或多个和HTML文件标题的文意最接近以及相似度高于相似度门坎值的目标区块或是小区块,并将这些内容合并再输出成为纯文字文件;因此可以更准确地找出HTML文件中的重要内容并输出成为纯文字文件。
有关上述提及的HTML文件标题,可为HTML Title Tag,或实际应用的ItemTitle of RSS Feed,或甚至是Summary(description)of RSS Feed等。本发明的技术内容及其较实施例,配合附图详细说明如下。
附图说明
图1显示了用以实施本发明的方法的计算机系统结构的一种较佳的实施例;
图2为本发明方法的一种较佳实施例的步骤流程图;
图3为本发明方法实施例的步骤流程图;
图4为本发明方法的较佳实施例中局部的详细步骤流程图;
图5A为本发明的数据结构的第一种范例;
图5B为本发明的数据结构的另一种范例,显示除出标签及标签以前的内容后的结果;
图6为本发明方法的较佳实施例中局部的详细步骤流程图;
图7为本发明方法产生的目标区块的第一种实施例;
图8为本发明方法的较佳实施例中局部的详细步骤流程图;
图9为本发明方法的较佳实施例中局部的详细步骤流程图;
图10为本发明方法产生的标签<p>类的目标区块和标签<br>类的目标区块的实施例;
图11为本发明方法的较佳实施例中局部的详细步骤流程图;
图12为本发明方法在标签<br>类的目标区块中产生小区块的实施例;
图13为本发明方法的较佳实施例中局部的详细步骤流程图;
图14为本发明方法的较佳实施例中局部的详细步骤流程图;
图15为本发明方法的较佳实施例中局部的详细步骤流程图。
其中,附图标记:
10中央处理器          11主存储器
12网络通信接口        13输入装置
14储存装置
具体实施方式
图1显示了用以实施本发明的方法的计算机系统结构的一种较佳的实施例,所述的计算机系统结构包括:一中央处理器10、主存储器11、网络通信接口12、输入装置13(如键盘和鼠标)、以及储存装置14,以上这些部件彼此可以相互通信,其中的储存装置14可以是磁盘驱动器或是其它计算机可读取的记录媒体,用于储存数据和用以实现本发明的方法步骤的程序(process)。主存储器11可用来储存数据及程序,但通常是用来储存中央处理器10目前正在执行的程序及相关数据。中央处理器10则是用来执行前述程序中的指令并作相关的处理数据。网络通信接12可与网络(可为因特网(internet)或是局域网络(local area net))连接,网络通信接12的较佳实施例可以是以太网络卡(ethernet card)或是其它型态的网络卡。
图2公开了本发明的一种较佳实施例的步骤流程图,包括:
步骤A、通过网络取得HTML文件,并储存于储存装置14;
步骤B、执行标签处理步骤,去除HTML文件中大部份不必要的标签及标签所包含的内容(噪声),以保留有用的HTML文件段落,在保留的HTML文件段落中包含至少一个目的标签和此一目的标签所包含的内容;
步骤C、从保留的HTML文件段落中,将目的标签及其它剩余标签的内容提取出来,并依序记录其相关信息于一数据结构中,这里所指的数据结构可以是数组或是表格或是其它类型的数据结构,其功能是在后续的处理步骤中暂时地记录有需要的相关信息;
步骤D、根据此数据结构中所记录的信息进行段落区隔的步骤,以区隔出至少一个目标区块;以及
步骤E、将目标区块与HTML文件标题作关联性对比,以找出最接近HTML文件标题的文意的目标区块,并将目标区块的内容输出成为纯文字文件。
其中在步骤B对HTML文件做标签处理的步骤,其目的在于删除HTML文件(指HTML原始码)中大量不需要的噪声,一般而言网页的HTML文件中,往往会有许多不同的标签参杂在其中,大多数以相应的头标签“<xxx>”及尾标签″</xxx>″等型态出现(例如<a…>、</a>,<font…>、</font>等等),但也有少部分例外,如批注标签:<!---->、或是段落标签<p>有时只会单独出现,不会有尾标签</p>伴随。这些不同的标签,有其不同的功用。由于HTML文件的篇幅往往都非常大,但是重要的内容只出现在其中一小部分,于是本发明首先针对重要的内容不可能出现的标签范围,先将HTML文件的内容做大幅度的删减。删减步骤如图3所示,包括:
步骤B.1保留HTML文件中标签<body>和</body>中间的部份;
步骤B.2删除批注标签<!---->和其中间夹杂的内容;批注标签包含的内容为用来解释网页原始码的写法,以便自己撰写网页、或是日后维护修改网页时,容易了解原始码的涵义。因此其中的内容和网页的重要内文并没有关系,直接删除之;
步骤B.3删除标签<script></script>和中间夹杂的内容(这类标签夹杂的内容并不重要,将这些标签和其中夹杂的内容都一并删除);
步骤B.4删除标签<style></style>和其中间夹杂的内容(这类标签夹杂的内容并不重要,将这些标签和其中夹杂内容都一并删除);
步骤B.5删除空白行(超文字标签语言内容往往包含一些甚至大量空白行,将这些空白行删除);以及
步骤B.6删除超级链接标签<a></a>、字体字型标签、<span></span>和图形标签<img>;超级链接标签和字体字型等标签夹杂的内容通常都很重要,并且很可能出现在重要的内容之中,例如当某一段重要的内容中有个关键词,需要呈现粗体效果,或是加上超级链接,这类标签就会出现在重要的内容中;至于图片标签会出现在图片附近。为了保持重要内容的连贯性,需将这些标签删除,重要的内容才不致被这些标签切割成好几部分。
实例:<p>一头黑熊走进<a id=″yui-gen0″class=″ynwsyq yqclass″title=″加拿大″href=″http://tw.news.yahoo.com/article/url/d/a/081005/1/17462.html?″>加拿大</a>卑诗省一家三明治店,细细的闻了一遍各种佐料,没闻到喜欢的,就离开了。</p>
这段HTML文件在浏览器中将会显示为″一头黑熊走进加拿大卑诗省一家三明治店,细细的闻了一遍各种佐料,没闻到喜欢的,就离开了。″因为中间″加拿大″三个字在网页中,以超级链接方式显现,以致于在原始码中,有超级链接标签<a>和</a>出现在里面,如果不加以处理,这个完整的内容将被切成三句内容:
1.一头黑熊走进
2.加拿大
3.卑诗省一家三明治店,细细的闻了一遍各种作料,没闻到喜欢的,就离开了。
这并不是一个很理想的情况,一整个连贯的内容硬是被切成几个部份。因此本发明的方法只是将这类超级链接标签、和字体字型标签和图片标签全部删除,使得语意连贯的完整内容可以一次全部提取出来,而不会被分割成好几个部份。
一般而言在HTML文件中真正重要的内容,往往都出现在标签<p>或标签<br>附近,因此,本发明在标签处理步骤中将标签<p>和标签<br>设为“目的标签”,再依据前述图3的标签处理步骤,将HTML文件中大部份不必要的标签及这些标签所包含的内容(噪声)除去之后,将位于标签<p>和标签<br>附近的内容提取出来,再和其余仅除去标签之后所留下的内容或段落,一并作后续的处理。
前述步骤C的具体实施方式,现举一实例说明如下。假设在步骤B的标签处理步骤完毕之后,剩余的HTML文件内容为:
“<li>PPP</li>QQ<p>RR<p>SSS<h1>TITLE</h1><div><br>AAAAA</br><p>BBBBBBB</div><p>CCC<h2>DDD</h2><p>EEEEEEE<p>FFFF<div><li>TT</li><li>UUU</li><td>VVVVV</td><td>WWWW</td><td>XXXXX</td><li>YYY</li><li>ZZZZZ</l i></div><br>GGGGG</br><br>HHHH</br>”
其中的句子PPP、QQ、RR、SSS、TITLE、AAAAA、BBBBBBB、CCC、DDD、EEEEEEE、FFFF、TT、UUU、VVVVV、WWWW、XXXXX、YYY、ZZZZZ、GGGGG和HHHH分别被不同的标签夹住,像这类被标签夹住的内容,本发明的方法是将其提取出来并将其相关信息存入一数据结构,这些相关信息包括了:每句内容的索引值(index),内容长度、及内容前后是否有出现目的标签等等相关信息(这里的标签<p>中,</p>、<p xxx>也都归类为标签<p>,标签<br>亦比照相同原则处理),其中的索引值为剩余标签当中提取出来的句子,按照前后顺序依序给予的值,以便后续的较佳实施例步骤中作为判断每句内容间的相对位置距离的参考信息,所述数据结构的内容可以是如下列表1所示的例子。
表1
 索引值(index)   内容长度(字符数)   前后出现目的标签
  1   3   否
  2   2   是
  3   2   是
  4   3   是
  ...   ...   ...
承上述例子,经过提取的后得到的句子和其索引值如图5A所示。在图5A中的左方为各句子的索引值,右方为各句子的内容。
本发明的另一较佳实施例方法,前述的步骤C还包括了一通过搜寻标题(TITLE)并且删除标题以及标题前面所有内容的步骤C-1,可以使得后续步骤D至步骤E中处理的数据量更加精简。一般而言,在一网页中,重要的纯文字内容皆出现在标题之下,故我们将标题以及标题前面所有无用的内容删除,将更加精简数据处理量,使纯文字结果更精确、效率提升。
步骤C-1的较佳处理流程,请参阅图4,包括:
C-1.1、从数据结构中,第一笔数据内容依序往下搜寻标题位置;
C-1.2、当找到标题时,将标题以及标题前面所有内容删除,然后结束处理流程;以及
C-1.3、当没有找到标题,并且未搜寻到最后一笔,则继续寻找下一笔数据。
上述C-1.3搜寻标题的动作,将持续往下搜寻,直到搜寻到标题并返回前述步骤C-1.2做删除内容的动作,或是搜寻到最后一笔数据却都搜寻不到标题,而结束处理流程。
而前述图5A中的数据结构,再经过上述步骤C-1处理完毕之后的内容,如图5B所示其中的数据量将比利用步骤C-1处理的前的数据量较少,将更加精简数据处理量,使纯文字结果更精确、效率提升。
而在本发明以下的实施例说明中的其余步骤D及步骤E,皆可适用于前述图5A及图5B的数据结构所包含的例子。
如图6所示,依据本发明方法的较佳实施例,其中的步骤D所述的“段落区隔”的第一种较佳实施例,包括以下步骤:
步骤D-11、在保留的HTML文件段落中由上往下寻找出第一句位于目的标签(可能为标签<p>或是标签<br>)附近的句子,设为第一个基础句子(base句子);
步骤D-12、从第一个基础句子向下寻找下一句位于目的标签附近的句子,若是没有找到另一句子,则执行步骤D-15;
步骤D-13、当前一步骤中被找到的句子的索引值和目前的基础句子间的索引值距离在一预设的距离门坎值内,就以找到的句子设为目前的基础句子,然后返回执行上一步骤D-11,若是索引值距离大于前述预设的距离门坎值,则继续下一步骤;
步骤D-14、将上述第一个被找到的基础句子到上一句子之间的所有句子组合成一目标区块,并设目前句子为第一个基础句子,然后返回执行上述步骤D-12;
步骤D-15、将第一个基础句子到此句子之间的所有句子,组合成一目标区块。
图6所示的步骤主要就是把一个或多个彼此的索引值距离在一预设距离门坎值内的句子集合为一个目标区块,而较佳的预设距离门坎值可为1~5。换言之就是当索引值距离超过预设的距离门坎值(例如5),就将索引值距离较远的一句内容分到下一个目标区块。
特别需要注意的是,本发明对于位在搜寻范围内但不是前述的目的标签的句子亦会将其提取出来。举例来说,在图5A中的句子“DDD”的前后标签虽然不属于标签<p>、或标签<br>。但是句子“DDD”也夹在搜寻的范围内(假设预设的距离门坎值为5)的句子,因此就算不在标签<p>、或标签<br>附近也会被提出来。在根据步骤D11~D15的处理后,可以得到如图7所示的多个目标区块,分别为第一目标区块和第二目标区块。
前述的步骤E所称的关联性对比的具体实施方式,可以利用如“词频统计”或是重复字词的数量分析等方式(此为已知技术,不再详述),从多个目标区块中找出和HTML文件标题的文意最接近者,再将这个被找出来的目标区块中的内容输出成为纯文字文件。
其中,在步骤E中还包括以下步骤,并请参考图8所示:
步骤E-11、若是有多个目标区块,则将这些目标区块与HTML文件标题作关联性对比,找出最接近HTML文件标题的文意的目标区块设为基础区块;以及
步骤E-12、利用空间向量模型分析,将其它目标区块一一与基础区块做计算,找出和基础区块相似度高于一预设的相似度门坎值的其它目标区块,并将这些目标区块的内容和基础区块的内容合并,再输出成为纯文字文件。
有关上述提及的HTML文件标题,其可为HTML Title Tag,或实际应用的Item Title of RSS Feed,或甚至是Summary(description)of RSS Feed等。
前述步骤D所述的“段落区隔”的另一种较佳实施方式,主要是以目的标签的类别作为段落区隔的依据,区隔的方法是依据数据结构所记录的信息,挑出所有在目的标签(标签<p>和标签<br>)附近的内容,再根据目的标签进行群组区隔分类,将目的标签附近的内容分类为不同的目标区块;其中出现在标签<p>附近的内容归类于标签<p>类的目标区块、出现在标签<br>附近的内容归类于标签<br>类的目标区块。
在此一实施例中步骤D还包括以下步骤,请参考图9所示:
步骤D-21、挑出所有目的标签包含的内容,并依据目的标签进行群组区隔分类,将位在不同的目的标签附近的内容分类为不同的目的标签类别的目标区块。
以前述剩余的HTML文件内容为例:
“<li>PPP</li>QQ<p>RR<p>SSS<h1>TITLE</h1><div><br>AAAAA</br><p>BBBBBBB</div><p>CCC<h2>DDD</h2><p>EEEEEEE<p>FFFF<div><li>TT</li><li>UUU</li><td>VVVVV</td><td>WWWW</td><td>XXXXX</td><li>YYY</li><li>ZZZZZ</li></div><br>GGGGG</br><br>HHHH</br>”;在经过上述步骤D-21处理之后,结果如图10所示将被区隔为标签<p>类的目标区块和标签<br>类的目标区块。
由于上述的步骤D-21主要是以目的标签作为段落区隔的依据,实务上被分类为某一目的标签类别的目标区块的内容,可能还包括了多个句子,特别是这些句子的索引值相差很大时,为了可以更准确的从其中找到重要的内容,还有必要对这些句子作进一步的区隔藉以生成不同的小区块,因此本发明利用一扩散搜寻步骤进一步将目的标签类别的目标区块的内容区隔为多个小区块,而此一扩散搜寻步骤的较佳实施例步骤,如图11所示,包括:
步骤D-211、从某一目的标签类别的目标区块中的第一句内容作为第一个基础句子,开始向下寻找下一句子并将找到的句子设为目标句子,若找到的目标句子和基础句子的索引值距离小于一预设的距离门坎值(例如预设的距离门坎值为10),则设此目标句子为新的基础句子,并继续向下寻找下一句子,否则将第一个基础句子和目标句子的上一句被找到的句子之间,这些两两距离不超过门坎值的句子,合并为一小区块。重复上述步骤,直到目的区块的所有句子都搜寻过,以建立一目标区块中的不同小区块。
以图10中标签<br>类的目标区块为例:
index 6:AAAAA
index 19:GGGGG
index 20:HHHH
在这个例子中,从索引值6的这一句内容开始往下推,和接下来索引值19的这句内容的索引值距离有13,大于预设的距离门坎值(10),故将索引值6的这一句和索引值19的这一句分隔为不同的小区块;同理,从索引值19的这一句内容再开始向下寻找和下一句内容的索引值20的距离只有1,小于预设的距离门坎值(10),故将索引值19的这一句和索引值20的这一句合并为同一个小区块,以后依此类推,直到这个目的标签类别的目标区块中的每一句内容都检查完毕。因此,图10中标签<br>类的目标区块在经过扩散搜寻步骤D-211的处理之后的结果将如图12所示,其中的“AAAAA”将被区隔为“第一小区块”,而“GGGGG”和”HHHH”将被区隔为“第二小区块”。
HTML文件在依据本发明前述的步骤D-21处理之后,基本上可能会产生下列的三种结果:
第一种结果:只存在标签<p>类的目标区块;
第二种结果:只存在标签<br>类的目标区块;以及
第三种结果:同时存在标签<P>类的目标区块和标签<br>类的目标区块。
对于第一种结果和第二种结果而言,若是再经过前述步骤D-211的处理之后,在标签<p>类的目标区块或是标签<br>类的目标区块中都没有多个小区块,则直接将标签<p>类的目标区块或是标签<br>类的目标区块中的内容输出为纯文字文件。
对于第一种结果和第二种结果而言,若是再经过前述步骤D-211的处理之后,在标签<p>类的目标区块或是标签<br>类的目标区块中具有多个小区块,本发明前述的步骤E则会进一步利用和标题的文意对比及空间向量模型分析,从所有小区块之中找出适合的区块,再将其内容合并后输出成为纯文字文件,其步骤如图13所示,包括:
步骤E-31将多个小区块与HTML文件标题作关联性对比,找出最接近HTML文件标题的文意的小区块设为基础区块;以及
步骤E-32利用空间向量模型分析在目标区块中找出和基础区块的相似度高于一预设的相似度门坎值N的所有小区块,再和基础区块合并成为重要的内容后,输出为纯文字文件。
对于前述第三种结果而言,本发明前述的步骤E将会依据图14所示的步骤在标签<p>类的目标区块和标签<br>类的目标区块中找出重要的内容,然后输出为纯文字文件,其步骤包括:
步骤E-41、若这(些)目标区块内包含其它小区块,则将各个小区块的内容与HTML文件标题作一关联性比较,找出和HTML文件标题的文意最近似的小区块设为一基础区块;
步骤E-42、当没有其它的小区块时,将基础区块的内容作为重要的内容输出为纯文字文件;以及
步骤E-43、当还有其它的小区块时,利用空间向量模型分析,将其它的小区块一一与基础区块做计算,找出和基础区块相似度高于预设的相似度门坎值的小区块,并将这(些)被找出的小区块的内容与基础区块的内容合并后输出成为纯文字文件。
举例说明:
一、假设一网页的标题、标签<p>类的目标区块和标签<br>类的目标区块内容分别如下:
标题:海角票房冲破3亿!演员惊喜期待冲4亿
标签<p>类的目标区块:
小区块1:
国片海角七号掀起的风潮至今仍然没有退烧的迹象,因为票房截至刚过去的这个周末已经达到3亿2千万,不但荣登今年华语片卖座龙头的宝座,现在也挑战华语片卖座冠军、16年前由成龙主演的「警察故事3:超级警察」;以3亿的票房推估,有民众看了18次之多。
小区块2:
热力席卷全台的海角七号票房持续发酵,截至10月5号为止,全台票房已经来到3亿2千万,现在有许多年轻人见面都在聊海角七号,不论是男女主角的爱情故事、片中演唱会上范逸臣演唱的歌曲,抑或是人气指数超高的:“国宝”茂伯,都是全民话题,这股海角热持续推升海角票房,让本片打破今年原本最卖座的华语片《赤壁》,以及去年李安的《色·戒》票房;如果以3亿的票房估算,全台湾有100万名观众进戏院看过海角,甚至有观众重复观赏了18次之多。
标签<br>类的目标区块:
小区块1:
*女性影展特辟“韩国女流”金敏芝将来台力挺
*威廉21岁生日遭恶整妹妹的生日卡片让他哽咽
*电影情报站/不能来台宣传冰火情敌女主角翻脸
*刘真再出书首开金嗓唱“森巴”和“恰恰”
*为流浪动物献爱心朱天心与兽医惺惺相惜
小区块2:
*海角七号将跨海来洛杉矶参加台湾影展
*巴黎时尚周LV这回走非洲风
*《海角七号》里的磁性嗓音他~是25岁的型男荫山征彦
*海角离别送行最后一幕500人临演当地居民轧一角
*蔡依林飞赴纽约拜街头爵大师习舞
这四个小区块经过个别和HTML文件标题逐字比较,重复字词分别为:
标签<p>类的目标区块的小区块1:(3,亿,海角,演,票房)
标签<p>类的目标区块的小区块2:(3,亿,海角,海角票房,演,破,票房,角)
标签<br>类的目标区块的小区块1:(角)
标签<br>类的目标区块的小区块2:(海,海角,演,角)
其中以标签<p>类的目标区块中的小区块2和HTML文件标题重复字词最多,我们就以标签<p>类的目标区块的小区块2为基础区块,而重要的纯文字内容应该就在标签<p>类的目标区块之中。
二、若是标签<p>类的目标区块里面的小区块数超过1,则制作空间向量模型,并对此标签<p>类的目标区块之中的各个小区块做空间向量模型分析,比较基础区块和其它小区块的空间向量相似度,若是相似度高过一相似度门坎值N,我们就认定这个小区块和基础区块的文意相似度高,将这个小区块和基础区块合并成为最终输出的纯文字文件。本发明的较佳实施例的一是将预设的相似度门坎值N设为0.6。
例:以上一个例子而言,标签<p>类的目标区块中的小区块2为基础区块,并且这个标签<p>类的目标区块内有2个小区块,数量超过1,于是对标签<p>类的目标区块中的2个小区块制作空间向量模型,而制作向量空间模型的过程为:在这2个小区块中,找出了三个关键词词:票房、海角、全台,则针对这2个小区块,制作一三维空间向量模型,由于小区块1出现票房2次、海角1次、全台0次,所以小区块1的空间向量为(2,1,0),而小区块2出现票房5次、海角3次、全台3次,所以小区块2的空间向量为(5,3,3)。将非基础区块的小区块1的空间向量(2,1,0)和基础区块(小区块2)的空间向量(5,3,3)作相似度计算,两向量的余弦值为
v &RightArrow; 1 &CenterDot; v &RightArrow; 2 | v &RightArrow; 1 | | v &RightArrow; 2 | = 2 &times; 5 + 1 &times; 3 + 0 &times; 3 2 2 + 1 2 + 0 2 &times; 5 2 + 3 2 + 3 2 = 0.873334 , 高于门坎值0.6,于是我们判断小区块1和基础区块在文意上非常接近,可以一起被挑选出来,成为重要的内容,再输出成为纯文字文件。
图15公开了前述步骤D中所述的“段落区隔”的另一种较佳实施例,此种实施例依据“最长句搜寻步骤”,在保留的HTML文件段落中提取出重要的内容,再直接转为纯文字文件,其步骤包括:
步骤D-31,在保留的HTML段落中寻找最长的内容设为基础句子(base句子);
步骤D-32,从基础句子向前及向后以寻找索引值距离在一预设的距离门坎值内(例如10)且内容长度达到一经计算的长度长度门坎值的一句内容,再以找到的这句内容为基础句子再往外寻找在所述预设的距离门坎值内是否还有长度够长的内容,直到找不到为止;
步骤D-33,最后将找到的最前至最后句子之间所有内容,提取出来作为重要的内容,再将此重要的内容输出为纯文字文件,如此将可获得更为精确的核心纯文字文件。

Claims (13)

1.将超文字标签语言文件转换成纯文字文件的方法,其特征在于,包含下列步骤:
A、取得一HTML文件;
B、执行标签处理步骤,去除该HTML文件中大部分不必要的标签及该些不必要的标签所包含的内容,以保留有用的HTML文件段落,该段落包含至少一个目的标签及该目的标签所包含的内容;
C、从该保留有用的HTML文件段落中将该些目的标签及其它剩余标签的内容提取出来,并依序记录其相关信息于一数据结构中;
D、根据该数据结构中所记录的信息依照该些目的标签进行段落区隔的步骤,以区隔出至少一个目标区块;以及
E、将该些目标区块与该HTML文件标题作关联性对比,以找出最接近标题文意的目标区块,并将该目标区块的内容输出成为纯文字文件;
步骤E包括:
若是有多个目标区块,则将该多个目标区块与该HTML文件标题作关联性对比,找出最接近该HTML文件标题的文意的目标区块设为基础区块;以及
利用空间向量模型分析,将除该基础区块之外的该多个目标区块一一与该基础区块做计算,找到和该基础区块相似度高于一预设的相似度门坎值的目标区块,并将所找到的目标区块的内容和该基础区块的内容合并,再输出成为纯文字文件。
2.如权利要求1所述的将超文字标签语言文件转换成纯文字文件的方法,其特征在于,步骤B的标签处理步骤还包括:
B-1、保留该HTML文件中标签<body>和</body>中间的部份;
B-2、删除批注标签<!-- -->和其中间夹杂的内容;
B-3、删除标签<script></script>和其中间夹杂的内容;
B-4、删除标签<style></style>和其中间夹杂的内容;
B-5、删除空白行;以及
B-6、删除超级链接标签<a></a>、字体字型标签、<span></span>和图形标签<img>。
3.如权利要求1所述的将超文字标签语言文件转换成纯文字文件的方法, 其特征在于,该数据结构所储存的相关信息,包括:每一句内容的索引值、该内容长度、及内容前后是否有出现该目的标签的信息。
4.如权利要求1所述的将超文字标签语言文件转换成纯文字文件的方法,其特征在于,步骤C还包括:
C-1、从该数据结构所记录的信息中由第一笔往下依序寻找HTML文件标题,找出该HTML文件标题后,将数据结构中所记录的该HTML文件标题及该HTML文件标题之前的信息内容全部删除。
5.如权利要求3所述的将超文字标签语言文件转换成纯文字文件的方法,其特征在于,步骤D中的段落区隔步骤还包括:
D-21、挑出所有该些目的标签包含的内容,并依据该些目的标签进行群组区隔分类,将位在不同的目的标签附近的内容分类为不同的目标区块组。
6.如权利要求5所述的将超文字标签语言文件转换成纯文字文件的方法,其特征在于,步骤D-21还包括:
D-211、从该些目标区块组中的第一句内容开始向下寻找,把一个或多个在一预设的距离门坎值内的内容集合为一个小区块,当该索引值的距离超过该预设的距离门坎值,就将距离较远的内容分到另一个小区块。
7.如权利要求6所述的将超文字标签语言文件转换成纯文字文件的方法,其特征在于,该预设的距离门坎值为1~5。
8.如权利要求6所述的将超文字标签语言文件转换成纯文字文件的方法,其特征在于,该预设的距离门坎值设为1~10。
9.如权利要求1所述的将超文字标签语言文件转换成纯文字文件的方法,其特征在于,于步骤D中还包括当找不到目的标签时,即从该保留有用的HTML文件段落中以一最长句搜寻步骤找出重要内容并输出为纯文字文件。
10.如权利要求9所述的将超文字标签语言文件转换成纯文字文件的方法,其特征在于,该最长句搜寻步骤包括:
在该保留有用的HTML文件段落中寻找最长的内容设为基础句子;
从该基础句子向前及向后以寻找在一预设的距离门坎值内且内容长度达到一预设的句子长度门坎值的内容,再以找到的该内容为基础句子,再往外寻找在该预设的距离门坎值内是否还有长度够长的内容,直到找不到为止;以及
将找到的最前至最后句子之间的所有内容提取出来作为重要的内容,再将 该重要的内容输出为纯文字文件,该所有内容中包括最后找到的该基础句子。
11.如权利要求10所述的将超文字标签语言文件转换成纯文字文件的方法,其特征在于,该预设的距离门坎值设为1~10。
12.如权利要求1所述的将超文字标签语言文件转换成纯文字文件的方法,其特征在于,该目的标签包含标签<p>和标签<br>。
13.如权利要求1所述的将超文字标签语言文件转换成纯文字文件的方法,其特征在于,该相似度门坎值为0.6。 
CN2008101851640A 2008-12-11 2008-12-11 将超文字标签语言文件转换成纯文字文件的方法 Expired - Fee Related CN101751403B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101851640A CN101751403B (zh) 2008-12-11 2008-12-11 将超文字标签语言文件转换成纯文字文件的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101851640A CN101751403B (zh) 2008-12-11 2008-12-11 将超文字标签语言文件转换成纯文字文件的方法

Publications (2)

Publication Number Publication Date
CN101751403A CN101751403A (zh) 2010-06-23
CN101751403B true CN101751403B (zh) 2012-08-08

Family

ID=42478394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101851640A Expired - Fee Related CN101751403B (zh) 2008-12-11 2008-12-11 将超文字标签语言文件转换成纯文字文件的方法

Country Status (1)

Country Link
CN (1) CN101751403B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678407A (zh) * 2012-09-24 2014-03-26 富士通株式会社 数据处理方法和数据处理设备
CN104765737A (zh) * 2014-01-03 2015-07-08 易搜比控股公司 撷取超文字标签语言文件内容的方法
CN106446139A (zh) * 2016-09-20 2017-02-22 微梦创科网络科技(中国)有限公司 一种提取网页内容的方法及装置
CN106528714B (zh) * 2016-10-26 2018-08-03 广州酷狗计算机科技有限公司 获取文字提示文件的方法及装置
CN106991083A (zh) * 2017-03-20 2017-07-28 珠海格力电器股份有限公司 一种电子文档处理的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1592280A (zh) * 2003-09-01 2005-03-09 摩托罗拉公司 用于网页概括的网关
CN101246481A (zh) * 2007-02-16 2008-08-20 易搜比控股公司 使超文字标示语言网页转换成纯文字的方法及其系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1592280A (zh) * 2003-09-01 2005-03-09 摩托罗拉公司 用于网页概括的网关
CN101246481A (zh) * 2007-02-16 2008-08-20 易搜比控股公司 使超文字标示语言网页转换成纯文字的方法及其系统

Also Published As

Publication number Publication date
CN101751403A (zh) 2010-06-23

Similar Documents

Publication Publication Date Title
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN102207948B (zh) 一种事件陈述句素材库的生成方法
TWI387890B (zh) A method of converting a hypertext label language file into a plain text file
CN105975478A (zh) 一种基于词向量分析的网络文章所属事件的检测方法和装置
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
CN105844424A (zh) 基于网络评论的产品质量问题发现及风险评估方法
CN101751403B (zh) 将超文字标签语言文件转换成纯文字文件的方法
CN107480200A (zh) 基于词标签的词语标注方法、装置、服务器及存储介质
CN101582074B (zh) 一种DeepWeb响应页面数据抽取方法
Khasawneh et al. Arabic sentiment polarity identification using a hybrid approach
CN102682082A (zh) 基于内容结构特征的网络Flash搜索系统及搜索方法
CN104462532A (zh) 网页正文提取的方法和装置
CN109033060A (zh) 一种信息对齐方法、装置、设备及可读存储介质
JP4293145B2 (ja) クチコミ情報判定方法及び装置及びプログラム
CN108363700A (zh) 新闻标题的质量评估方法及装置
CN103823868A (zh) 一种面向在线百科的事件识别方法和事件关系抽取方法
CN103729354B (zh) 网页信息处理方法及装置
Yafooz et al. Challenges and issues on online news management
Hassel Evaluation of automatic text summarizaiton: a practical implementation
Lin et al. Combining a segmentation-like approach and a density-based approach in content extraction
CN111259143A (zh) 一种基于lda模型的新闻自动标签方法
KR101105798B1 (ko) 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법
Karsvall et al. SDHK meets NER: Linking Place Names with Medieval Charters and Historical Maps.
CN102207947B (zh) 一种直接引语素材库的生成方法
Kalita et al. An extractive approach of text summarization of Assamese using WordNet

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120808

Termination date: 20171211