CN102163213A - 一种语音浏览方法及浏览器 - Google Patents

一种语音浏览方法及浏览器 Download PDF

Info

Publication number
CN102163213A
CN102163213A CN2011100468963A CN201110046896A CN102163213A CN 102163213 A CN102163213 A CN 102163213A CN 2011100468963 A CN2011100468963 A CN 2011100468963A CN 201110046896 A CN201110046896 A CN 201110046896A CN 102163213 A CN102163213 A CN 102163213A
Authority
CN
China
Prior art keywords
webpage
node
theme
user
piecemeal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100468963A
Other languages
English (en)
Other versions
CN102163213B (zh
Inventor
邓铸辉
陈启华
王向东
钱跃良
林守勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201110046896.3A priority Critical patent/CN102163213B/zh
Publication of CN102163213A publication Critical patent/CN102163213A/zh
Application granted granted Critical
Publication of CN102163213B publication Critical patent/CN102163213B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种语音浏览方法,包括:网页信息提取步骤:对于用户请求的任一网页,首先对其进行网页分类,若判定该网页属于主题型网页,则对网页进行主内容抽取;若该网页为非主题型网页,则进行网页分块;网页格式转换步骤:将HTML格式的网页自动转换为VOICEXML格式的网页;其中,对于主题型网页,所抽取的网页主内容设置为优先向用户朗读;对于非主题型网页,为用户设置快捷键以使用户能够在各网页块之间自由切换和选择;语音推送步骤:基于voiceXML格式网页,向用户朗读网页内容。本发明还提供了相应的语音浏览器。发明能够使得网页内容的呈现更为合理和高效;发明能够使满足用户的实时请求。

Description

一种语音浏览方法及浏览器
技术领域
本发明涉及网络浏览器技术领域,具体地说,本发明涉及一种语音浏览方法及浏览器。
背景技术
浏览器是指一种获取网页内容的软件,而语音浏览器是在获取web页面供用户浏览的过程中使用语音技术(比如说,将网页的内容通过语音的方式提供给用户),从而满足那些不能通过视觉浏览网页的用户(如盲人)的浏览需求。
早期的语音浏览器主要是屏读软件(screen reader),其中比较有影响的包括:国外的JAWS,IBM Home Page Reader,国内的阳光读屏、永德读屏和晨光读屏等软件。这类软件可通过语音合成技术将屏幕上显示的网页文本内容读出,使盲人依靠听觉获取网页内容。屏读软件最大的问题在于,这些软件几乎不对网页做分析和处理,而是直接按照网页固有顺序读出所有网页内容。这样,当网页内容很多时,用户很难快速定位到感兴趣的内容。
针对屏读软件费时、低效的缺点,近年来,语音浏览器研究的热点逐渐转向对网页结构和内容的解析和重组,以期在更大的粒度上显示和操作网页内容。国内外许多研究者都开展了相关的研究,开发出了一批应用系统。其中最具代表性的是美国的HearSay项目和IBM日本公司的相关研究。
为解决网页内容太多造成的访问低效问题,HearSay系统将HTML网页内容分为较大的块(block),用户可以通过快捷键跳过网页块,从而较快地定位到感兴趣的信息。而且,当用户点击网页中的某个链接进入另一个网页时,系统会自动跳转到与链接文字语义最接近的块,从而直接朗读用户最可能感兴趣的内容。这一按照语义相关性跳转的特性是较为重要的创新,但只能用于链接跳转,无法用于首次进入网站首页时,而网站首页对用户来说却是必不可少且浏览最为困难的网页。另外,HearSay系统的分块算法比较初级,其分块效果琐碎且有一定的随意性,往往不符合网页视觉和结构的特点,并且只能支持向下跳过网页块的操作,并未把整个网页组织成块的集合,使用户可以直接在所有块间选择和跳转。
IBM日本公司的系统“Web content transcoding system”通过将网页分为若干个组(group)来减少网页中一次性读出的条目的个数。该系统将组作为网页的基本单位进行组织和显示,使得用户可操作的单位变大因而提高了交互效率。然而,为得到较好的分组效果,该系统需要采用动态匹配的方法对整个网站进行离线批处理,这种方法处理时间较长,无法满足用户的实时请求,返回给用户的网页有可能是已过期的旧网页(具体可参考文献:Takagi,H.and Asakawa,C.,″Web Content.Transcoding For VoiceOutput″,Technology And.Persons With Disabilities Conference,2002.4.)。
综上所述,当前迫切需要一种既便于用户以语音方式浏览各种网页,又够满足用户的实时请求的语音浏览方法和语音浏览器。
发明内容
本发明的目的是提供一种便于用户以语音方式浏览各种网页且处理时间短,能够满足用户的实时请求的语音浏览方法和语音浏览器。
为实现上述发明目的,本发明提供了一种语音浏览方法,包括:
网页信息提取步骤:对于用户请求的任一网页,首先对其进行网页分类,若判定该网页属于主题型网页,则对网页进行主内容抽取;若该网页为非主题型网页,则进行网页分块;
网页格式转换步骤:将HTML格式的网页自动转换为VOICEXML格式的页面;
语音推送步骤:基于voiceXML格式网页,向用户朗读网页内容。
其中,所述网页格式转换步骤中,对于主题型网页,所抽取的网页主内容设置为优先向用户朗读;对于非主题型网页,为用户设置快捷键以使用户能够在各网页块之间自由切换和选择;
其中,所述网页信息提取步骤中,网页分类的算法包括下列步骤:
11)对网页进行DOM树解析,计算每一个DOM结点的链接文字比;
12)对网页是否为主题型网页进行粗判断以将该网页判定为主题型网页、非主题型网页和网页类型待定的网页;
其中,所述粗判断包括:
当DOM树根结点的链接文字比小于预设的第一阈值时,判定该网页为主题型网页,网页分类算法结束;
当DOM树根结点的链接文字比大于预设的第二阈值时,判定该网页为非主题型网页,网页分类算法结束;
当DOM树根结点的链接文字在所述第一阈值和所述第二阈值之间时,该网页类型待定,转入步骤3);
13)根据步骤11)中得出的DOM树中各结点的链接文字比确定所述网页的最大内容结点;
14)根据最大内容结点所占区域的位置判断该网页是否为主题型网页。
其中,所述步骤14)中,当最大内容结点所占区域的位置位于网页中心区域时,判定该网页为主题型网页,否则判定为非主题型网页。
其中,网页的中心区域定义如下:
如页面的坐标是(0,0,width,height),其中(0,0)代表左上角坐标,(width,height)代表页面的右下角的坐标。width指页面的宽度,height指页面的高度,那么网页的中心区域为(0.25*width,0,0.75*width,0.5*height);
当最大内容结点所占区域与网页的中心区域有交集时,即判定最大内容结点所占区域的位置位于网页中心区域。
其中,所述网页信息提取步骤中,主内容抽取的算法包括下列步骤:
21)取最大内容结点所对应的DOM树片段,对该DOM树片段进行遍历,对该DOM树片段中的每个结点,如该结点包含的链接的个数大于预设的链接个数阈值,且该结点的链接文字比大于预设的链接文字比阈值,则判定该结点为噪音结点;否则判定为主内容结点;
22)去除所有噪音结点,得到只含主内容结点的子结点集合。
其中,所述网页信息提取步骤中,分块处理的算法包括下列步骤:
31)获取待分块网页的DOM树;
32)遍历所述DOM树,将其中每个只包含1个基本多行结点的结点作为一个基本分块,将每两个只包含1个基本多行结点的结点之间的零散叶结点分别合成一个基本分块;其中,当一个基本多行结点的父结点被作为一个基本分块时,该基本多行结点不再作为一个基本分块。
其中,所述分块处理的算法还包括:
33)在所述基本分块中找出主题块,将主题块与其后面邻接的若干个非主题块合并;所述主题块中包含主题或分类标签。
其中,所述步骤32)包括下列子步骤:
321)自底向上遍历网页的DOM树,找出DOM树中的基本多行结点;
322)自顶向下先序遍历DOM树,将其中每个只包含1个基本多行结点的结点作为一个基本分块,将每两个只包含1个基本多行结点的结点之间的零散叶结点分别合成一个基本分块。
其中,所述步骤321)包括下列子步骤:
3211)自底向上遍历网页的DOM树,对每个当前结点,执行步骤3212);
3212)记录当前结点所含的基本多行结点个数。
其中,所述步骤322)包括下列子步骤:
3221)建立一个结点列表,自顶向下地先序遍历DOM树;
3222)如果当前结点包含的基本多行结点个数为0,将当前结点放入所述结点列表,否则执行步骤3223);
3223)如果当前结点包含的基本多行结点个数为1,则执行步骤3224),否则执行步骤3225);
3224)将当前块作为一个基本分块,并将当前所述结点列表中的结点合并,作为另一个基本分块,然后清空所述结点列表;
3225)如果当前结点包含的基本多行结点个数大于1,则对它的所有孩子结点分别执行步骤3222)~3225)。
其中,所述步骤33)包括下列子步骤:
331)对每个基本分块,根据其字体、文字长度、背景颜色中的一项或多项特征来判断该基本分块是否是主题块;
332)将每个主题块与其后面邻接的若干个非主题块合并。
其中,所述步骤332)包括下列子步骤:
3321)取出一个主题块;
3322)取与所述主题块的宽度相等的后面邻接的若干非主题块或者其宽度之和与所述主题块的宽度相等的后面邻接的若干非主题块,根据预设的条件判断是否将该主题块这些后面邻接的非主题块合并,如果是,则合并;如果否,则不合并。
其中,所述步骤3322)中,所述预设的条件是:主题块与后面邻接的非主题块的纵坐标距离小于预设的阈值。
为实现上述发明目的,本发明还提供了一种语音浏览器,包括:
网页信息提取装置:用于对于用户请求的任一网页,首先对其进行网页分类,若判定该网页属于主题型网页,则对网页进行主内容抽取;若该网页为非主题型网页,则进行网页分块;
网页格式转换装置:用于将HTML格式的网页自动转换为VOICEXML格式的网页;其中,对于主题型网页,所抽取的网页主内容设置为优先向用户朗读;对于非主题型网页,为用户设置快捷键以使用户能够在各网页块之间自由切换和选择;以及
语音推送装置:用于基于voiceXML格式网页向用户朗读网页内容。
与现有技术相比,本发明具有下列技术效果:
1、发明能够使得网页内容的呈现更为合理和高效;
2、发明能够使满足用户的实时请求。
附图说明
以下,结合附图来详细说明本发明的实施例,其中:
图1a示出了本发明所涉及的一个典型的主题型网页的示例;
图1b示出了本发明所涉及的一个典型的非主题型网页的示例;
图2示出了本发明一个实施例的网页信息提取及格式转换的流程图;
图3示出了本发明一个优选实施例中的网页分类算法的流程图;
图4a示出了网页中的一个部分;
图4b示出了图4a所示的网页中的一个部分所对应的DOM树;
图5a示出了一个典型的非主题型网页及其最大内容块所占的区域;
图5b示出了一个典型的主题型网页及其最大内容块所占的区域;
图5c示出了一个主题型网页抽取主内容块的结果;
图6示出了本发明一个优选实施例的语音推送系统;
图7示出了本发明一个优选实施例中的语音推送流程图。
具体实施方式
本发明根据网页结构和用户浏览习惯的不同,将网页分为主题型与非主题型两类,并针对两类网页的特点进行不同的分析和处理。其中,主题型网页是指包含明确的内容主体,网页中的其余内容主要作为该主体的辅助或装饰而存在的页面。这一类页面的典型代表是具体的文章(如新闻)页面,如附图1a所示,图中线框所标示的内容即为网页的主体内容。非主题型网页也可以称作目录型网页,这种网页一般不包含明确的内容主体,各部分内容的地位比较平等,其主要作用在于导航,因此通常由大量的超链接构成。为充分发挥导航的作用,这类网页在视觉上往往采用块状结构来组织,将属于同一主题或分类的超链接组织为一个网页块。这类页面的典型代表是各大网站的首页,如附图1b所示,图中线框标示的区域即为一些明显的块状视觉区域。
本发明之所以将网页分为主题型与非主题型两类,是因为用户对这两类网页内容的关注重点和浏览方式是不同的。对于主题型网页,用户最关心其主体内容,而对其它的部分的关注程度要小得多。对于非主题型网页,用户往往快速地大略浏览一遍整个网页,发现感兴趣的部分后再深入进去。由于网页设计者一般把相关的内容组织为视觉上的块状区域,因此用户也常常以块为单位对整个网页进行大略地浏览,并定位到自己感兴趣的块。
下面结合附图和实施例,对本发明做进一步地描述。
根据本发明的一个实施例,提供了一种语音浏览方法,该语音浏览方法的主要流程包括:
网页信息提取步骤:参考图2,对于用户请求的任一网页,首先对其进行自动的网页分类,若判定该网页属于主题型网页,则对网页进行主内容抽取,将网页转化为主内容与非主内容并列的内部结构化表示;若该网页为非主题型网页,则进行自动网页分块,将网页转化为以网页块为单位的内部结构化表示;
网页格式转换步骤:将HTML格式的网页自动转换为VOICEXML格式的网页。参考图2,其中,主题型网页和非主题型网页使用不同的转换模板,对于主题型网页,需要优先向用户朗读网页主内容,而对于非主题型网页,则允许用户使用快捷键在各网页块之间自由切换和选择;
语音推送步骤:基于voiceXML格式网页,用语音推送系统向用户朗读网页内容,该步骤未在图2中示出。
下面分别详细介绍一系列优选实施例中的上述三个步骤。
一、网页信息提取步骤
网页信息提取步骤在下文中分成网页分类、主内容块抽取和分块处理三个部分进行描述。
(1)网页分类
在网页信息提取步骤中,首先需要进行网页分类,即判定一个网页是主题型网页还是非主题型网页。根据本发明的一个优选实施例,提供了一种优选的网页分类算法。该实施例采用文档对象模型来表示网页的内部结构。然后通过DOM树的结点的属性(在该优选实施例的网页分类算法中,DOM树的结点属性主要包括该结点的链接文字比和该结点所占的网页区域)来判断网页是否属于主题型网页还是非主题型网页。
为方便表示,定义以下概念:
对于任意结点N,其链接文字比LTR(N)定义为
LTR(N)=N.LinkTextLen/N.TextLen    (1)
其中N.TextLen为该结点和其子结点中包含的所有显示在网页上的文字总数。N.LinkTextLen表示该结点及其子结点中所包含的链接文字总数。每个结点的链接文字比LTR(N)反映的是结点所包含的网页范围内链接的密度。如果链接密度很大,则该结点对应的网页范围内包含了大量链接,该结点的内容不应该是一篇文章。
每一个网页都可以用DOM树表示,通过浏览器提供的接口可以得到网页的DOM树表示。其中图4b示出了图4a所示的网页中的一个部分所对应的DOM树。通过对DOM树进行一次自底向上的遍历,可以得到每一个结点的LinkTextLen和TextLen。遍历过程如下:遍历过程中如果碰到文字结点,即DOM树中标签为<text>结点,将它的TextLen设置为该结点所包含的文字总数,LinkTextLen结点设置为0。如果碰到链接结点,那么设置该结点的LinkTextLen设置为该结点所包含的文字总数,同时也设置该结点的TextLen为该结点所包含的文字总数,因为TextLen包含LinkTextLen。而对于其他结点,则在遍历完它的所有子结点之后设置该结点的LinkTextLen为所有子结点的LinkTextLen之和,该结点的TextLen为所有子结点的TextLen之和。如图4b中的黑色结点的LinkTextLen为三个子结点的LinkTextLen之和8+0+2=10,而TextLen也为三个子结点的TextLen之和为8+34+2=44。
进一步地,把链接文字大于一定阈值的结点称为内容结点。并定义最大内容结点为
Figure BDA0000048048840000071
其中
Figure BDA0000048048840000072
为所有内容结点的集合。
Figure BDA0000048048840000073
指在
Figure BDA0000048048840000074
范围内找出N.TextLen值最大的内容结点。可以看出,最大内容结点就是所含文字最多的内容结点,下面提出的网页分类方法主要围绕最大内容结点展开。
具体地,参考图3,在上述优选实施例中,网页分类算法包括下列步骤:
步骤1:对网页进行DOM树解析。
步骤2:计算每一个DOM结点的链接文字比。
步骤3:对网页是否为主题型网页进行粗判断,即按照一定规则直接判定出明显的主题型和非主题型网页,不能直接判定的,则归入类型待定网页,类型待定网页将在后续步骤中进行精确判定。
在一个实施例中,粗判断的规则如下:
Figure BDA0000048048840000081
其中,T表示网页为主题型,NT表示网页为非主题型,U表示类型目前无法确定,需要进一步的精细分类,TLTR1和TLTR2为预先设定的阈值,在本发明中,设定TLTR1=0.2;TLTR2=0.8。但需要注意的是,本发明的TLTR1和TLTR2并不限于上述取值,比如可根据实际情况,通过实验测出TLTR1和TLTR2优选取值。
步骤4:当步骤3的判断结果为T或NT时,网页分类算法结束,当结果为U时,跳到步骤5。
步骤5:根据前面最大内容结点的定义和步骤2中每一个DOM树结点所赋予的链接文字比确定最大内容结点。
步骤6:得到最大内容结点之后根据最大内容结点在网页区域所占的位置,即是否处于网页的中心区域来判断该网页是否为主题页。
每一个结点都可以通过DOM树中的接口得到它在网页中所占的区域。如图5a所示,图片左上角的坐标为(0,0),右下角为(800,800),其中前面一个数字代表横坐标,方向从左往右,后面一个数字代表纵坐标,方向从上到下。而其中黑色线框所示的左上角坐标为(300,500),右下角坐标为(800,650)。
特别地,在该优选实施例中,如页面的坐标是(0,0,width,height),其中(0,0)代表左上角坐标,(width,height)代表页面的右下角的坐标。width指页面的宽度,height指页面的高度,那么网页的中心区域定义为(0.25*width,0,0.75*width,0.5*height)
如果最大内容结点所占的区域与网页的中心区域有交集(即有重叠)的话,那么判定该网页为主题型网页,否则判定为非主题型网页。
上述网页分类算法数据处理量小,能够快速对网页进行分类。
图5a和图5b分别示出了两个典型的网页,根据上述网页分类算法,能够准确地判定出图5a为非主题型网页,图5b为主题型网页。图5a中,最大内容块所占区域并不处在网页的中心区域,图5b中,最大内容块所占区域则处于网页的中心区域。可以看出,上述网页分类算法不仅能够快速对网页进行分类,而且其分类结果也具有非常高的准确性,能够有效地区分出一些迷惑性较大的网页,防止发生误判,从而提高语音浏览的整体性能。
(2)主内容块抽取
在对网页进行分类后,需要根据不同的网页类型作出相应的数据处理。对于主题型网页,需要进行抽取主内容块,对于非主题型网页,需要进行分块处理。
对于主题型网页,根据本发明的另一个优选实施例,还提供了一种优选的主内容块抽取方法,但需要注意的是,本发明并不限于该主内容块抽取方法。
由于主题型网页中的噪音信息十分明显,相对于主内容来说更加容易识别,所以本发明通过去噪的方法来提取主题型网页的内容。该实施例通过对前文所述的最大内容结点所对应的DOM树片段进行自上而下的遍历来实现主内容块的抽取。其中,最大内容结点所对应的DOM树片段是指最大内容结点及其所有子孙结点所构成的DOM树片段。在上述遍历过程中,根据以下规则判断当前结点是否为噪音结点
Figure BDA0000048048840000091
其中N.LinkNum为结点N所包含(包含其子结点)的链接的个数,LTR(N)为N的链接文字比,TLinkNum与TLTR2均为预先设定的阈值。在该优选实施例中,TLinkNum=2,TLTR2=0.4,删除所有的噪音结点后,剩下的子结点集合即为最终抽取到的主内容。图5c中,黑色方框示出了抽取主内容块的结果,可以看出,图5c黑色方框所示的部分就是图5b中最大内容结点去掉了噪音结点“您所在的位置:首页>>成长历程”所获取到的主内容块。
上述两个优选实施例的网页分类算法和内容抽取算法只利用到了链接文字LinkTextLen和总文字长度TextLen以及网页中元素所占的区域,这些都可以通过Dom树轻松获取,并且运算规则简单,因此容易实现,同时上述网页分类算法和内容抽取算法能达到很高的准确率,利用上述两个优选实施例的网页分类算法和内容抽取算法对大量网页进行了主题页判断,绝大部分的网页都能正确的判断其类型,并且正确地抽取出其主内容。
(3)分块处理
为了对网页内容重新组织,使得网页中意义上相对完整的内容可以相对成块,分块的方法有很多,比如说,可以通过简单的<p>,<TABLE>,<UL>等简单的HTML标签分割网页,也可以利用一些视觉信息通过网页中块与块之间的的空白将不同的块隔开,VIPS(Visual-based PageSegmentation)就是这样一种算法。本发明可以根据应用需求采用其中的一种算法。
特别地,对于非主题型网页,根据本发明的又一个优选实施例,还提供了一种优选的分块处理的方法,但需要注意的是,本发明并不限于该分块处理方法。
本优选实施例的网页分割方法是一种基于DOM树对网页进行分割的方法,DOM树本质上是一棵标签树,它反映了网页的结构信息。此外为了获得较好的分块效果,还可以引入了少量简单的视觉信息来辅助网页分块。在完成分块后,可以将其中每个分块与相应的控制命令映射,从而方便用户浏览网页。
该优选实施例中引入了“基本多行结点”的概念,其定义如下:
定义.基本多行结点。
基本多行结点采用递归定义,如果一个结点同时满足下述a、b、c三个条件,则该结点是基本多行结点。
a)该结点不是叶子结点;
b)该结点的所有子孙结点都不是基本多行结点;
c)存在该结点的两个孩子结点NC1,NC2满足
NC1.TextLen≠0,NC2.TextLen≠0
NC1.Region.LeftTop.y≠NC2.Region.LeftTop.y
其中,N.TextLen表示结点N(包括其孩子结点)中包含的文本长度,N.Region.TopLeft.y表示结点N在网页所占的区域的左上角的纵坐标值。
从上述定义可以看出,基本多行结点包含至少两个含有文本的结点,且这两个结点在网页上显示的纵坐标位置不同,这直接体现了“多行”的性质。而且,上述的递归定义保证了基本多行结点是满足“多行”性质的最小结点。
定义.结点所含的基本多行结点个数。
对任一结点N,其所含的基本多行结点个数nMLBN(N)(简称多行块属性)定义为:
如果N为DOM树的叶子结点,则nMLBN(N)=0;
如果N为基本多行结点,则nMLBN(N)=1;
如果N既不是叶子结点也不是基本多行结点,则N必然有孩子结点,设其所有孩子结点的集合为
Figure BDA0000048048840000111
Figure BDA0000048048840000112
即N所含的基本多行结点个数为其所有孩子结点所含的基本多行结点个数之和。
上述两个定义都是递归定义,因此,在具体实现时也采用递归算法比较方便。在本实施例中,采用递归算法对DOM树进行自下而上的后序遍历,对遍历的每个结点应用上述两个定义进行判断和计算,即可得到各结点所含的基本多行结点个数。
本实施例主要包括两个步骤:基于多行块的分割和基于主题块的合并。下面分别介绍这两个步骤。
1、基于多行块的分割:通过对网页DOM树的遍历,把网页分割成多行块。该方法只需对DOM树进行一次自底向上和一次自顶向下的遍历即可完成,具有执行效率高容易实现的优点。
在一个实施例中,基于多行块的分割主要包括以下子步骤:
步骤A1:对网页的DOM树进行自底向上的遍历,在遍历过程中,根据基本多行结点和结点所包含的基本多行结点个数的定义对每一个结点设置其nMLBN(N)的值。
步骤A2:建立一个结点列表,自顶向下地先序遍历DOM树,对各结点分别执行如下步骤:
1)如果当前结点包含的多行块属性为0,将当前结点放入结点列表,否则执行步骤2。
2)如果当前结点包含的多行块属性为1,则执行步骤3,否则执行步骤4。
3)如果结点列表不为空,则将结点列表中的结点合并,使之自成一块,该分块作为原始网页的一个基本分块,之后清空结点列表。同时当前块也自成一块,该分块也作为原始网页的一个基本分块。
4)如果当前结点的包含的多行块属性大于1,则对它的所有孩子结点分别执行步骤1~4。
所有结点都遍历一次后,步骤A2完成,此时原始网页被划分为多个基本分块,其中,每个基本多行结点各自是一个基本分块,每两个基本多行结点之间的零散叶结点则被合成一个基本分块。
2、基于主题块的合并:主题块具有与其他普通块不同的特征(如字体大小,文字长度,背景颜色等与普通块不同),因此可以根据这些特征,从基本分块中找出主题块,然后再根据视觉信息将主题块与附近的基本分块合并成一个分块,从而得到更好的分块效果。为方便描述,本文中将除主题块外的基本分块称为非主题块。
在一个实施例中,基于主题块的合并主要包括以下步骤:
步骤B1:对上一步中所得到的所有块进行一次遍历,并将符合主题块特征的块标记为主题块。
步骤B2:遍历所有主题块,对当前主题块,找出当前主题块后面邻接的若干个非主题块基本分块,并分析当前主题块和其附近的非主题块在网页中所占的矩形区域,利用视觉信息判断这些块能否合成更大的块。如果能,则合成更大的块。在优选实施例中,可以设定分块间隔阈值,如果邻接的非主题块与当前主题块的宽度相等(宽度指块的右横坐标减去左横坐标的值)(或邻接的若干非主题块宽度之和与主题块的宽度相等),且该邻接的非主题块与当前主题块纵坐标差值小于所述基本分块间间隔阈值,则将当前主题块与邻近的非主题块基本分块合并成一个分块。
上述优选的分块处理算法能够在分块的同时很好地保持原有的网页结构,避免打散属于同一主题或分类的链接,避免主题或分类标签与其对应的链接分离。同时,该优选的分块处理算法执行效率高,容易实现。
二、网页格式转换步骤
VoiceXML是W3C(World Wide Web Consortium)制定的通过语音对话访问万维网内容及其交互语音应答的传递标准。将VoiceXML应用于语音浏览器,可以方便地处理与用户的语音交互,为视力残障人士信息的获取提供了方便。
根据本发明的一个优选实施例,网页格式转换步骤中,首先采用基于模板的方法来实现HTML到VoiceXML的实时转换。所谓模板就是所制定的HTML网页格式到VOICEXML格式转换的规则,该规则包括了网页转换模式和盲人利用语音浏览器上网的交互模式,虽然网页内容可能千奇百怪,但在用户的交互模式方面是相对固定的,因此可以针对网页的类型抽象出一套适合该类型网页的交互模式,并在交互模式中定义具体的用户浏览方式和交互方式。考虑到主题型和非主题型两种类型的网页在交互方式上有较大差异,本实施例中对两种类型的网页分别制定了一套模板来实现HTML到VoiceXML的转换。
对于非主题型网页,由于该类型网页的内容结构相对扁平,各块之间的关系相对衡量,因此模板默认按照各块在DOM树中出现的先后顺序进行访问。同时为了方便用户更好的控制网页访问过程,模板会自动生成网页总体概况信息,比如当前网页总的分块数目,并允许用户直接通过给出块的具体数字实现对块的直接访问。在块访问控制方面,允许用户在访问具体块时跳转到其他内容块,同时支持上一块下一块等操作。
对于主题型网页,网页分块将网页分成了主内容块和非主内容块。由于用户在浏览主题型网页时主要是想关注主内容块的内容,因此在定义用户的交互模式时,需要重点突出主内容块的信息,在用户访问该网页时模板默认会直接进入主内容块,并且提供快捷键供用户在主内容块部分和非主内容块部分之间切换。另外针对主内容块的内容以非链接文本为主,文本长度一般较长的特点,本实施例对主内容块中的文本进行了分句处理,供用户在访问时通过快捷键来实现对网页内容的跨越式访问。
三、语音推送步骤
在将HTML转换成voiceXML之后,需要执行语音推送步骤。
根据本发明的一个优选实施例,提供了一种语音推送系统,以执行语音推送步骤。所述语音推送系统对网页内容进行解析,根据不同网页的特点,将网页组织为一组子块或抽取其中的主要内容,从而帮助用户快速定位和选择感兴趣的内容。语音推送系统采用VoiceXML处理与用户的交互,提供语音命令词、快捷键及通过关键词选择链接等多种交互方式,方便用户使用,所述语音推送系统如附图6所示。
如图6所示,用户既可以通过移动和固定电话拨通语音平台上网,也可以用计算机通过网络客户端软件来访问互联网。其流程为:当用户发出访问请求时,VoiceXML解析平台响应用户的请求,将用户所需要访问的网络URL地址传递给文档服务器,文档服务器根据URL地址通过网络下载相应网页,利用网页内容解析技术将网页内容重新组织(抽取主内容或组织为一组块状结构)并转化为VoiceXML网页格式,随后,服务器端将VoiceXML网页传回VoiceXML解析器平台,解析平台对文件进行解析,并根据VXML文件内的流程不断修改自身状态并执行相应的动作,如申请语音识别、语音合成、播放语音等。
具体地,参考图7,本优选实施例中语音推送步骤包括下列子步骤:
步骤1:系统启动后,voiceXML解析器首先读取一个特定的首页,然后处理该页面,接着该首页通过语音合成之后被送到用户,然后跳到步骤2.
步骤2:voiceXML解析器将首页送给用户之后,就开始等待用户的按键输入或者是语音输入,用户可以是电话端的用户或者是电脑端的用户。如果有用户输入,跳到步骤3。
步骤3:用户的输入接着被送到voiceXML解析器,voiceXML解析器接着处理用户的输入。跳到步骤4。
步骤4:如果用户的输入是语音,那么语音将被送到语音识别服务器进行语音识别,跳到步骤5.否则不做处理,跳到步骤6。
步骤5:语音识别服务器将语音识别的结果返回给voiceXML服务器。跳到步骤6.
步骤6:如果用户的输入是网址的话,需要请求文档服务器取得该网页对应的voiceXML文档。所以跳到步骤9.否则,跳到步骤7,继续处理用户输入。
步骤7:如果用户的输入为结束的话,那么流程将结束。否则,跳到步骤8。
步骤8:voiceXML解析器根据用户的输入将网页中的下一内容返回给用户。然后跳到步骤2,继续等待用户的输入。
步骤9:解析器将网址发送给文档服务器。然后等待文档服务器生成的文档。跳到步骤10.
步骤10:文档服务器将从互联网获取该网址所对应的网页。跳到步骤11.
步骤11:根据前一部分的算法,参见附图5,判断该网页是不是主题性网页。如果是,跳到步骤12,否则的话,跳到步骤13。
步骤12:参见附图6.对主题性网页进行内容抽取处理,跳到步骤14。
步骤13:对非主题型网页进行网页分块处理。跳到步骤14.
步骤14:根据对主题型网页和非主题型网页的处理,把处理结果转换成为voiceXML网页。
步骤15:把处理结果送voiceXML解析器。跳到步骤2。
本发明针对当前面向语音浏览器的网页结构和内容解析的研究存在的问题,参考网页解析在信息检索、普适计算等其它领域的应用,本发明提出了一种新颖的基于网页类型的解析框架。根据网页结构和用户操作的不同,本文提出的网页解析框架将网页分为主题型与非主题型两类,并针对两类网页的特点进行不同的分析和处理。对于包含某种主要内容(如一篇文章)的主题型网页,抽取其主要内容并优先向用户展示;对于各部分比较平衡的非主题型网页(如网页首页),则对网页进行分块处理。这样就提高了网页内容的粒度,使得网页内容的呈现更为合理和高效。进一步地,本发明还针对网页分类、网页主内容抽取和网页分块分别提出了准确高效的算法。实验结果表明,其效果优于当前已有算法。更进一步地,基于上述算法,本发明还实现了一个面向盲人上网的语音推送系统,该系统可实时接收用户的访问请求,实时对请求的网页进行解析,并将解析后的网页转化为语音输出到客户端。与现有的屏读软件及其它语音浏览器相比,本发明可大大提高用户的浏览效率。
最后,上述的实施例仅用来说明本发明,它不应该理解为是对本发明的保护范围进行任何限制。而且,本领域的技术人员可以明白,在不脱离上述实施例精神和原理下,对上述实施例所进行的各种等效变化、变型以及在文中没有描述的各种改进均在本专利的保护范围之内。

Claims (10)

1.一种语音浏览方法,包括:
网页信息提取步骤:对于用户请求的任一网页,首先对其进行网页分类,若判定该网页属于主题型网页,则对网页进行主内容抽取;若该网页为非主题型网页,则进行网页分块;
网页格式转换步骤:将HTML格式的网页自动转换为VOICEXML格式的网页;
语音推送步骤:基于voiceXML格式网页,向用户朗读网页内容。
2.根据权利要求1所述的语音浏览方法,其特征在于,所述网页格式转换步骤中,对于主题型网页,所抽取的网页主内容设置为优先向用户朗读;对于非主题型网页,为用户设置快捷键以使用户能够在各网页块之间自由切换和选择。
3.根据权利要求1所述的语音浏览方法,其特征在于,所述网页信息提取步骤中,网页分类的算法包括下列步骤:
11)对网页进行DOM树解析,计算每一个DOM结点的链接文字比;
12)对网页是否为主题型网页进行粗判断以将该网页判定为主题型网页、非主题型网页和网页类型待定的网页;
13)根据步骤11)中得出的DOM树中各结点的链接文字比确定所述网页的最大内容结点;
14)根据最大内容结点所占区域的位置判断该网页是否为主题型网页。
4.根据权利要求3所述的语音浏览方法,其特征在于,所述步骤12)包括:
当DOM树根结点的链接文字比小于预设的第一阈值时,判定该网页为主题型网页,网页分类算法结束;
当DOM树根结点的链接文字比大于预设的第二阈值时,判定该网页为非主题型网页,网页分类算法结束;
当DOM树根结点的链接文字在所述第一阈值和所述第二阈值之间时,该网页类型待定,转入步骤3)。
5.根据权利要求3所述的语音浏览方法,其特征在于,所述步骤14)中,当最大内容结点所占区域的位置位于网页中心区域时,判定该网页为主题型网页,否则判定为非主题型网页。
6.根据权利要求5所述的语音浏览方法,其特征在于,网页的中心区域定义如下:
如页面的坐标是(0,0,width,height),其中(0,0)代表左上角坐标,(width,height)代表页面的右下角的坐标。width指页面的宽度,height指页面的高度,那么网页的中心区域为(0.25*width,0,0.75*width,0.5*height);
当最大内容结点所占区域与网页的中心区域有交集时,即判定最大内容结点所占区域的位置位于网页中心区域。
7.根据权利要求3所述的语音浏览方法,其特征在于,所述网页信息提取步骤中,主内容抽取的算法包括下列步骤:
21)取最大内容结点所对应的DOM树片段,对该DOM树片段进行遍历,对该DOM树片段中的每个结点,如该结点包含的链接的个数大于预设的链接个数阈值,且该结点的链接文字比大于预设的链接文字比阈值,则判定该结点为噪音结点;否则判定为主内容结点;
22)去除所有噪音结点,得到只含主内容结点的子结点集合。
8.根据权利要求2所述的语音浏览方法,其特征在于,所述网页信息提取步骤中,分块处理的算法包括下列步骤:
31)获取待分块网页的DOM树;
32)遍历所述DOM树,将其中每个只包含1个基本多行结点的结点作为一个基本分块,将每两个只包含1个基本多行结点的结点之间的零散叶结点分别合成一个基本分块;其中,当一个基本多行结点的父结点被作为一个基本分块时,该基本多行结点不再作为一个基本分块。
9.根据权利要求8所述的语音浏览方法,其特征在于,所述分块处理的算法还包括:
33)在所述基本分块中找出主题块,将主题块与其后面邻接的若干个非主题块合并;所述主题块中包含主题或分类标签。
10.一种语音浏览器,包括:
网页信息提取装置:用于对于用户请求的任一网页,首先对其进行网页分类,若判定该网页属于主题型网页,则对网页进行主内容抽取;若该网页为非主题型网页,则进行网页分块;
网页格式转换装置:用于将HTML格式的网页自动转换为VOICEXML格式的网页;以及
语音推送装置:用于基于voiceXML格式网页向用户朗读网页内容。
CN201110046896.3A 2011-02-25 2011-02-25 一种语音浏览方法及浏览器 Expired - Fee Related CN102163213B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110046896.3A CN102163213B (zh) 2011-02-25 2011-02-25 一种语音浏览方法及浏览器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110046896.3A CN102163213B (zh) 2011-02-25 2011-02-25 一种语音浏览方法及浏览器

Publications (2)

Publication Number Publication Date
CN102163213A true CN102163213A (zh) 2011-08-24
CN102163213B CN102163213B (zh) 2015-06-24

Family

ID=44464440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110046896.3A Expired - Fee Related CN102163213B (zh) 2011-02-25 2011-02-25 一种语音浏览方法及浏览器

Country Status (1)

Country Link
CN (1) CN102163213B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013029454A1 (zh) * 2011-08-26 2013-03-07 腾讯科技(深圳)有限公司 一种网站展示方法及浏览器
CN103797453A (zh) * 2011-10-28 2014-05-14 日立公共系统有限公司 带语音合成信息的文本数据提供装置以及文本数据提供方法
CN104078038A (zh) * 2013-03-28 2014-10-01 腾讯科技(深圳)有限公司 一种页面内容朗读方法和装置
CN105574004A (zh) * 2014-10-10 2016-05-11 阿里巴巴集团控股有限公司 一种网页去重方法和设备
CN106021389A (zh) * 2016-05-12 2016-10-12 新华通讯社 基于模板自动生成新闻的系统和方法
CN108733813A (zh) * 2018-05-21 2018-11-02 山东管理学院 面向bbs论坛网页内容的信息提取方法、系统及介质
CN109766073A (zh) * 2019-01-25 2019-05-17 四川长虹电器股份有限公司 电视浏览器中语音操作网页内容导航的方法
CN110334292A (zh) * 2019-07-02 2019-10-15 百度在线网络技术(北京)有限公司 页面处理方法、装置及设备
US11151607B2 (en) * 2017-12-29 2021-10-19 Paypal, Inc. Blockchain-enabled targeted content system
CN115062246A (zh) * 2022-05-31 2022-09-16 哈尔滨亿时代数码科技开发有限公司 网站无障碍模块跳转方法及装置和网站

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020198720A1 (en) * 2001-04-27 2002-12-26 Hironobu Takagi System and method for information access
US20050027823A1 (en) * 2001-04-09 2005-02-03 Ahad Rana Server-based browser system
CN101246494A (zh) * 2008-03-19 2008-08-20 腾讯科技(深圳)有限公司 一种互联网网页转换方法、系统及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050027823A1 (en) * 2001-04-09 2005-02-03 Ahad Rana Server-based browser system
US20020198720A1 (en) * 2001-04-27 2002-12-26 Hironobu Takagi System and method for information access
CN101246494A (zh) * 2008-03-19 2008-08-20 腾讯科技(深圳)有限公司 一种互联网网页转换方法、系统及设备

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013029454A1 (zh) * 2011-08-26 2013-03-07 腾讯科技(深圳)有限公司 一种网站展示方法及浏览器
CN103797453A (zh) * 2011-10-28 2014-05-14 日立公共系统有限公司 带语音合成信息的文本数据提供装置以及文本数据提供方法
CN104078038B (zh) * 2013-03-28 2019-03-01 腾讯科技(深圳)有限公司 一种页面内容朗读方法和装置
CN104078038A (zh) * 2013-03-28 2014-10-01 腾讯科技(深圳)有限公司 一种页面内容朗读方法和装置
WO2014154097A1 (en) * 2013-03-28 2014-10-02 Tencent Technology (Shenzhen) Company Limited Automatic page content reading-aloud method and device thereof
CN105574004B (zh) * 2014-10-10 2019-06-21 阿里巴巴集团控股有限公司 一种网页去重方法和设备
CN105574004A (zh) * 2014-10-10 2016-05-11 阿里巴巴集团控股有限公司 一种网页去重方法和设备
CN106021389A (zh) * 2016-05-12 2016-10-12 新华通讯社 基于模板自动生成新闻的系统和方法
US11151607B2 (en) * 2017-12-29 2021-10-19 Paypal, Inc. Blockchain-enabled targeted content system
CN108733813A (zh) * 2018-05-21 2018-11-02 山东管理学院 面向bbs论坛网页内容的信息提取方法、系统及介质
CN109766073A (zh) * 2019-01-25 2019-05-17 四川长虹电器股份有限公司 电视浏览器中语音操作网页内容导航的方法
CN110334292A (zh) * 2019-07-02 2019-10-15 百度在线网络技术(北京)有限公司 页面处理方法、装置及设备
CN115062246A (zh) * 2022-05-31 2022-09-16 哈尔滨亿时代数码科技开发有限公司 网站无障碍模块跳转方法及装置和网站

Also Published As

Publication number Publication date
CN102163213B (zh) 2015-06-24

Similar Documents

Publication Publication Date Title
CN102163213B (zh) 一种语音浏览方法及浏览器
CN101957816B (zh) 基于多页面比较的网页元数据自动抽取方法和系统
US8239387B2 (en) Structural clustering and template identification for electronic documents
CN101727461B (zh) 一种网页的正文抽取方法
CN101388022B (zh) 一种融合文本语义和视觉内容的Web人像检索方法
CN101515272B (zh) 提取网页内容的方法和装置
US20050066269A1 (en) Information block extraction apparatus and method for Web pages
US20040103371A1 (en) Small form factor web browsing
CN106503211B (zh) 面向信息发布类网站的移动版自动生成的方法
CN101520798A (zh) 基于垂直搜索和聚焦爬虫的网页分类技术
CN100592296C (zh) 一种分页方法及分页装置
CN102591992A (zh) 基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
CN101609450A (zh) 基于训练集的网页分类方法
KR101984937B1 (ko) 전통문화 3d 디지털 연표 표출 시스템
CN103365924A (zh) 一种搜索信息的方法、装置和终端
CN101546341A (zh) 信息推荐装置和信息推荐方法
CN103226578A (zh) 面向医学领域的网站识别和网页细分类的方法
CN102270331A (zh) 基于可视化搜索的网络购物导航方法
CN102065114A (zh) 一种移动终端访问网页的方法及装置
CN101246494A (zh) 一种互联网网页转换方法、系统及设备
CN101872350A (zh) 网页正文抽取方法和装置
CN103049536A (zh) 提取网页正文内容的方法和系统
CN104572934B (zh) 一种基于dom的网页关键内容抽取方法
CN102662969A (zh) 一种基于网页结构语义的互联网信息对象定位方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150624