CN101055575A - 一种听网的方法 - Google Patents

一种听网的方法 Download PDF

Info

Publication number
CN101055575A
CN101055575A CN 200610072201 CN200610072201A CN101055575A CN 101055575 A CN101055575 A CN 101055575A CN 200610072201 CN200610072201 CN 200610072201 CN 200610072201 A CN200610072201 A CN 200610072201A CN 101055575 A CN101055575 A CN 101055575A
Authority
CN
China
Prior art keywords
web page
body matter
extracts
page contents
net
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200610072201
Other languages
English (en)
Inventor
杨波涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wenyan Technology Co Ltd
Original Assignee
Beijing Wenyan Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wenyan Technology Co Ltd filed Critical Beijing Wenyan Technology Co Ltd
Priority to CN 200610072201 priority Critical patent/CN101055575A/zh
Publication of CN101055575A publication Critical patent/CN101055575A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

一种收听web网页文字内容的方法,首先获取网页内容;然后从网页内容中通过模式匹配提取正文内容;使用语音合成引擎对提取的正文内容进行文本语音转换,播放转换后的语音;本发明使得人们可以用听觉从网络上获取文字信息。

Description

一种听网的方法
技术领域:
本发明涉及一种使用听觉来获取网页信息的方法,特别是指一种采用网页内容处理技术和语音合成技术,收听网页内容的方法。
背景技术:
目前的互联网系统高度发达,人们每天大量的从互联网上获得信息。现在人们从互联网上获得信息的方式主要是依赖于视觉的网页浏览。长时间的浏览经常会导致人们视觉疲劳,不利用健康,也减低了效率。未能充分利用人类听觉获取信息的能力。
本方法采用网页内容处理技术和语音合成技术,把网页内容转换为语音。使得人们可以使用听觉来进行网页浏览,从网络上获取信息。一方面人们可以放松劳累的双眼,舒缓心理的紧张,有利于身体健康。另一面,视觉和听觉可以同时获取不同的信息,从而使得获取信息的效率提高。
采用本发明,人们可以在移动环境下如开车、乘车、散步时获取网络信息,也可以在运动、就餐、洗漱等活动的同时进行听觉冲浪。
同时本发明也为视觉障碍的残疾人提供了网页浏览的方法。
本发明使得我们可以手机、移动设备、计算机及各种信息家电为平台,通过多种方式接入互联网,利用语音网技术来朗读互联网的信息,从而实现用耳朵去冲浪的新体验。
本发明为人们与互联网的交互方式提供了新的手段,开辟了崭新的领域。
发明内容:
本发明的主要目的在于提供一种听网的方法,通过对网页内容的处理,采用语音合成技术对处理后的网页进行文本语音转换,使得人们可以通过听觉来获取网络上的信息。
本发明的目的是这样实现的:
1、一种听网的方法,该方法至少包括如下的步骤:
步骤1:获取网页内容;
步骤2:从网页内容中提取正文内容;
步骤3:播放提取的正文内容。
2、上述步骤1获取的网页内容格式为HTML或WML;
3、上述从网页内容中抽取正文内容的具体步骤为:
步骤21:根据网页的统一资源定位符从模式数据库中查询该网页的正文模式信息;
步骤22:根据正文模式信息,使用模式匹配算法对网页内容进行模式匹配;
步骤23:从模式匹配的结果中提取网页的正文内容。
步骤24:对提取的正文内容进行格式化处理,去除HTML或WML标签,转换为纯文本格式。
4、上述播放提取的正文内容的具体步骤为:
步骤31:使用语音合成引擎将提取的正文内容转换为语音;
步骤32:播放合成的语音。
本发明丰富了人们与互联网交互的方式,使得人们可以通过听觉从网络获取信息;从而使人类与互联网的交互趋于自然和智能化。
附图说明:
图1为本发明的流程图。
图2为本发明的实施例涉及的系统的整体结构示意图。
图3为本发明的实施例的流程图。
具体实施方式:
参见图2,听网客户端是一个具有运算、存储和信息交换能力的设备,可以是智能手机、PDA或计算机;听网服务器是一个具有运算、存储和信息交换能力的计算机设备,听网服务器上有模式数据库;Web站点是一个位于互联网或者内部网的Web服务器。
模式数据库中包含的信息至少包括统一资源定位符分类模式、优先级和对应得正文模式。模式以正则表达式来表示。模式数据库表结构如表1所示。
表1
统一资源定位符分类模式 优先级 正文模式
w.example.com.cn.*? 2 d+  年  d+  月  d+  日s*d+[::]d+).*?″来源[::].*?
w.ent.example.com.cn.*? 1 d+  年  d+  月  d+  日s*d+[::]d+).*?″来源[::].*?网友评论
w.exampleb.com.cn.*? 1 d+  年  d+  月  d+  日s*d+[::]d+).*?网友评论
。。。。
参见图2,本发明的听网的方法主要包括如下的步骤:
步骤1:获取网页内容;
步骤2:从网页内容中提取正文内容;
步骤3:播放提取的正文内容。
上述步骤1获取网页内容的具体步骤如下:
步骤11:听网客户端向Web站点发送请求;
步骤12:,Web服务器根据请求的统一资源定位符和上下文信息返回网页内容给听网客户端;该网页内容可以为HTML或WML;
步骤13:听网客户端保存该网页的内容供下面的步骤使用。
上述步骤2从网页内容中提取正文内容的具体步骤如下:
步骤21:听网客户端向听网服务器发送请求,该请求中包括步骤一中进行Web请求时的统一资源定位符和上下文信息;
步骤22:听网服务器获侦听到请求后,根据Web请求中的统一资源定位符到模式数据库中查询所有与该Web请求的统一资源定位符模式匹配的分类模式,在匹配的数据库行中选取优先级数值最小的行,然后取正文模式的字符串值作为查询结果;
步骤23:听网服务器将查询获得的对应的网页正文模式返回给听网客户端;
步骤24:听网客户端根据听网服务器返回的网页正文模式对步骤1中获取的网页内容进行模式匹配,根据模式匹配的结果提取网页的正文内容;
步骤25:对提取的正文内容进行格式化处理,去除HTML或WML标签,转换为纯文本格式。
上述步骤3播放提取的正文内容的具体步骤如下:
步骤31:使用语音合成引擎将提取的正文内容转换为语音;
步骤32:播放合成的语音。
上述的技术方案中听网客户端硬件设备可以为移动终端、PDA、嵌入式设备或计算机。
上述的技术方案实施时可以使移动终端具有语音网络浏览功能;移动终端用户可以通过听觉来实时的从网络上获得信息,例如听天气预报、体育新闻、国际国内新闻等,极大的丰富了人们访问互联网的方式,使得人们可以随时随地的访问互联网。
最后所应说明的是,以上实施例仅用以说明而并非限制本发明所描述的技术方案;因此,尽管本说明书参照上述的实施例对本发明已进行了详细的说明,但是,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或者等同地替换;而一切不脱离本发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围当中。

Claims (4)

1、一种听网的方法,其特征在于:该方法至少包括如下的步骤:
步骤1:获取网页内容;
步骤2:从网页内容中提取正文内容;
步骤3:播放提取的正文内容。
2、根据权利要求1所述的听网的方法,其特征在于:获取网页的内容格式为HTML或WML。
3、根据权利要求1所述的听网的方法,其特征在于:从网页内容中抽取正文内容的步骤为:
步骤21:根据网页的统一资源定位符从模式数据库中查询该网页的正文模式信息;
步骤22:根据正文模式信息,使用模式匹配算法对网页内容进行模式匹配;
步骤23:从模式匹配的结果中提取网页的正文内容;
步骤24:对提取的正文内容进行格式化处理,去除HTML或WML标签,转换为纯文本格式。
4、根据权利要求1所述的听网的方法,其特征在于:播放提取的正文内容的具体步骤为:
步骤31:使用语音合成引擎将提取的正文内容转换为语音;
步骤32:播放合成的语音。
CN 200610072201 2006-04-13 2006-04-13 一种听网的方法 Pending CN101055575A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200610072201 CN101055575A (zh) 2006-04-13 2006-04-13 一种听网的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200610072201 CN101055575A (zh) 2006-04-13 2006-04-13 一种听网的方法

Publications (1)

Publication Number Publication Date
CN101055575A true CN101055575A (zh) 2007-10-17

Family

ID=38795414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200610072201 Pending CN101055575A (zh) 2006-04-13 2006-04-13 一种听网的方法

Country Status (1)

Country Link
CN (1) CN101055575A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254550A (zh) * 2010-05-21 2011-11-23 腾讯科技(深圳)有限公司 网页文字朗读方法和系统
CN102622333A (zh) * 2011-01-18 2012-08-01 微软公司 提取文本以转换成音频
CN102968461A (zh) * 2012-11-05 2013-03-13 王逸竹 一种采编读网页浏览器及实现方法
CN103377238A (zh) * 2012-04-26 2013-10-30 腾讯科技(深圳)有限公司 处理网页信息的方法及浏览器
CN103544009A (zh) * 2013-10-17 2014-01-29 常熟市华安电子工程有限公司 一种新型播放器
CN103871399A (zh) * 2012-12-10 2014-06-18 腾讯科技(深圳)有限公司 文本信息播放方法及装置
CN104536645A (zh) * 2014-12-17 2015-04-22 北京塞宾科技有限公司 一种基于云技术的信息呈现方法
CN105975469A (zh) * 2015-12-01 2016-09-28 乐视致新电子科技(天津)有限公司 一种浏览器的网页浏览方法和装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254550A (zh) * 2010-05-21 2011-11-23 腾讯科技(深圳)有限公司 网页文字朗读方法和系统
CN102254550B (zh) * 2010-05-21 2015-06-17 腾讯科技(深圳)有限公司 网页文字朗读方法和系统
CN102622333A (zh) * 2011-01-18 2012-08-01 微软公司 提取文本以转换成音频
CN103377238A (zh) * 2012-04-26 2013-10-30 腾讯科技(深圳)有限公司 处理网页信息的方法及浏览器
CN103377238B (zh) * 2012-04-26 2016-04-06 腾讯科技(深圳)有限公司 处理网页信息的方法及浏览器
CN102968461A (zh) * 2012-11-05 2013-03-13 王逸竹 一种采编读网页浏览器及实现方法
CN103871399A (zh) * 2012-12-10 2014-06-18 腾讯科技(深圳)有限公司 文本信息播放方法及装置
CN103871399B (zh) * 2012-12-10 2017-07-18 腾讯科技(深圳)有限公司 文本信息播放方法及装置
CN103544009A (zh) * 2013-10-17 2014-01-29 常熟市华安电子工程有限公司 一种新型播放器
CN104536645A (zh) * 2014-12-17 2015-04-22 北京塞宾科技有限公司 一种基于云技术的信息呈现方法
CN105975469A (zh) * 2015-12-01 2016-09-28 乐视致新电子科技(天津)有限公司 一种浏览器的网页浏览方法和装置
WO2017092312A1 (zh) * 2015-12-01 2017-06-08 乐视控股(北京)有限公司 一种浏览器的网页浏览方法和装置

Similar Documents

Publication Publication Date Title
CN101055575A (zh) 一种听网的方法
CN102855312B (zh) 一种面向领域主题的Web服务聚类方法
WO2004036337A3 (en) Information extraction using an object based semantic network
CN102254550B (zh) 网页文字朗读方法和系统
EP1638032A3 (en) Method, system and apparatus for maintaining user privacy in a knowledge interchange system
CN101329868B (zh) 一种针对地区语言使用偏好的语音识别优化系统及其方法
EP1544752A3 (en) Dynamic content clustering
EP1612701A3 (en) Automated taxonomy generation
CN103871402B (zh) 语言模型训练系统、语音识别系统及相应方法
CA2490430A1 (en) Method and apparatus for automatically building conversational systems
CN101192213B (zh) 网络信息自动下载和处理方法
CN111329494A (zh) 基于语音关键词检索和语音情绪识别的抑郁症检测方法
CN1877697A (zh) 一种基于分布式结构的说话人确认方法
CN103942226B (zh) 获取热点内容的方法和装置
CN108399238A (zh) 一种融合文本概念化和网络表示的观点检索系统及方法
CN101079752A (zh) 一种跟踪网络用户行为的方法、系统及设备
CN107045497A (zh) 一种快速的新闻文本内容情感分析系统及方法
CN1162789C (zh) 通过主题词矫正基于向量空间模型文本相似度计算的方法
CN107825433A (zh) 一种儿童语音指令识别的卡片机器人
CN101031100A (zh) 一种涉农信息的分众传播系统及方法
CN111866079A (zh) 一种财经资讯推送系统及方法
WO2017128220A1 (zh) 一种音乐播放技术的数据统计方法及移动终端
Madaliyeva The Linguistic and Stylistic Significance of Analyzing Mass Media Texts
CN109165392A (zh) 语言翻译方法和装置
Losh Ancient Rhetorics and Digital Networks ed. by Michele Kennerly, Damien Smith Pfister

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication