CN101055575A

CN101055575A - 一种听网的方法

Info

Publication number: CN101055575A
Application number: CN 200610072201
Authority: CN
Inventors: 杨波涛
Original assignee: Beijing Wenyan Technology Co Ltd
Current assignee: Beijing Wenyan Technology Co Ltd
Priority date: 2006-04-13
Filing date: 2006-04-13
Publication date: 2007-10-17

Abstract

一种收听web网页文字内容的方法，首先获取网页内容；然后从网页内容中通过模式匹配提取正文内容；使用语音合成引擎对提取的正文内容进行文本语音转换，播放转换后的语音；本发明使得人们可以用听觉从网络上获取文字信息。

Description

一种听网的方法

技术领域：

本发明涉及一种使用听觉来获取网页信息的方法，特别是指一种采用网页内容处理技术和语音合成技术，收听网页内容的方法。

背景技术：

目前的互联网系统高度发达，人们每天大量的从互联网上获得信息。现在人们从互联网上获得信息的方式主要是依赖于视觉的网页浏览。长时间的浏览经常会导致人们视觉疲劳，不利用健康，也减低了效率。未能充分利用人类听觉获取信息的能力。

本方法采用网页内容处理技术和语音合成技术，把网页内容转换为语音。使得人们可以使用听觉来进行网页浏览，从网络上获取信息。一方面人们可以放松劳累的双眼，舒缓心理的紧张，有利于身体健康。另一面，视觉和听觉可以同时获取不同的信息，从而使得获取信息的效率提高。

采用本发明，人们可以在移动环境下如开车、乘车、散步时获取网络信息，也可以在运动、就餐、洗漱等活动的同时进行听觉冲浪。

同时本发明也为视觉障碍的残疾人提供了网页浏览的方法。

本发明使得我们可以手机、移动设备、计算机及各种信息家电为平台，通过多种方式接入互联网，利用语音网技术来朗读互联网的信息，从而实现用耳朵去冲浪的新体验。

本发明为人们与互联网的交互方式提供了新的手段，开辟了崭新的领域。

发明内容：

本发明的主要目的在于提供一种听网的方法，通过对网页内容的处理，采用语音合成技术对处理后的网页进行文本语音转换，使得人们可以通过听觉来获取网络上的信息。

本发明的目的是这样实现的：

1、一种听网的方法，该方法至少包括如下的步骤：

步骤1：获取网页内容；

步骤2：从网页内容中提取正文内容；

步骤3：播放提取的正文内容。

2、上述步骤1获取的网页内容格式为HTML或WML；

3、上述从网页内容中抽取正文内容的具体步骤为：

步骤21：根据网页的统一资源定位符从模式数据库中查询该网页的正文模式信息；

步骤22：根据正文模式信息，使用模式匹配算法对网页内容进行模式匹配；

步骤23：从模式匹配的结果中提取网页的正文内容。

步骤24：对提取的正文内容进行格式化处理，去除HTML或WML标签，转换为纯文本格式。

4、上述播放提取的正文内容的具体步骤为：

步骤31：使用语音合成引擎将提取的正文内容转换为语音；

步骤32：播放合成的语音。

本发明丰富了人们与互联网交互的方式，使得人们可以通过听觉从网络获取信息；从而使人类与互联网的交互趋于自然和智能化。

附图说明：

图1为本发明的流程图。

图2为本发明的实施例涉及的系统的整体结构示意图。

图3为本发明的实施例的流程图。

具体实施方式：

参见图2，听网客户端是一个具有运算、存储和信息交换能力的设备，可以是智能手机、PDA或计算机；听网服务器是一个具有运算、存储和信息交换能力的计算机设备，听网服务器上有模式数据库；Web站点是一个位于互联网或者内部网的Web服务器。

模式数据库中包含的信息至少包括统一资源定位符分类模式、优先级和对应得正文模式。模式以正则表达式来表示。模式数据库表结构如表1所示。

表1

统一资源定位符分类模式	优先级	正文模式
统一资源定位符分类模式	优先级	正文模式	w.example.com.cn.*？	2	d+ 年 d+ 月 d+ 日sd+[：:]d+).？″来源[：:].*？
w.ent.example.com.cn.*？	1	d+ 年 d+ 月 d+ 日sd+[：:]d+).？″来源[：:].*？网友评论	w.example.com.cn.*？	2	d+ 年 d+ 月 d+ 日sd+[：:]d+).？″来源[：:].*？
w.ent.example.com.cn.*？	1	d+ 年 d+ 月 d+ 日sd+[：:]d+).？″来源[：:].*？网友评论	w.exampleb.com.cn.*？	1	d+ 年 d+ 月 d+ 日sd+[：:]d+).？网友评论
。。。。			w.exampleb.com.cn.*？	1	d+ 年 d+ 月 d+ 日sd+[：:]d+).？网友评论

参见图2，本发明的听网的方法主要包括如下的步骤：

步骤1：获取网页内容；

步骤2：从网页内容中提取正文内容；

步骤3：播放提取的正文内容。

上述步骤1获取网页内容的具体步骤如下：

步骤11：听网客户端向Web站点发送请求；

步骤12：，Web服务器根据请求的统一资源定位符和上下文信息返回网页内容给听网客户端；该网页内容可以为HTML或WML；

步骤13：听网客户端保存该网页的内容供下面的步骤使用。

上述步骤2从网页内容中提取正文内容的具体步骤如下：

步骤21：听网客户端向听网服务器发送请求，该请求中包括步骤一中进行Web请求时的统一资源定位符和上下文信息；

步骤22：听网服务器获侦听到请求后，根据Web请求中的统一资源定位符到模式数据库中查询所有与该Web请求的统一资源定位符模式匹配的分类模式，在匹配的数据库行中选取优先级数值最小的行，然后取正文模式的字符串值作为查询结果；

步骤23：听网服务器将查询获得的对应的网页正文模式返回给听网客户端；

步骤24：听网客户端根据听网服务器返回的网页正文模式对步骤1中获取的网页内容进行模式匹配，根据模式匹配的结果提取网页的正文内容；

步骤25：对提取的正文内容进行格式化处理，去除HTML或WML标签，转换为纯文本格式。

上述步骤3播放提取的正文内容的具体步骤如下：

步骤31：使用语音合成引擎将提取的正文内容转换为语音；

步骤32：播放合成的语音。

上述的技术方案中听网客户端硬件设备可以为移动终端、PDA、嵌入式设备或计算机。

上述的技术方案实施时可以使移动终端具有语音网络浏览功能；移动终端用户可以通过听觉来实时的从网络上获得信息，例如听天气预报、体育新闻、国际国内新闻等，极大的丰富了人们访问互联网的方式，使得人们可以随时随地的访问互联网。

最后所应说明的是，以上实施例仅用以说明而并非限制本发明所描述的技术方案；因此，尽管本说明书参照上述的实施例对本发明已进行了详细的说明，但是，本领域的普通技术人员应当理解，仍然可以对本发明进行修改或者等同地替换；而一切不脱离本发明的精神和范围的技术方案及其改进，其均应涵盖在本发明的权利要求范围当中。

Claims

1、一种听网的方法，其特征在于：该方法至少包括如下的步骤：

步骤1：获取网页内容；

步骤2：从网页内容中提取正文内容；

步骤3：播放提取的正文内容。

2、根据权利要求1所述的听网的方法，其特征在于：获取网页的内容格式为HTML或WML。

3、根据权利要求1所述的听网的方法，其特征在于：从网页内容中抽取正文内容的步骤为：

步骤23：从模式匹配的结果中提取网页的正文内容；

4、根据权利要求1所述的听网的方法，其特征在于：播放提取的正文内容的具体步骤为：

步骤31：使用语音合成引擎将提取的正文内容转换为语音；

步骤32：播放合成的语音。