CN104078038B - 一种页面内容朗读方法和装置 - Google Patents

一种页面内容朗读方法和装置 Download PDF

Info

Publication number
CN104078038B
CN104078038B CN201310104807.5A CN201310104807A CN104078038B CN 104078038 B CN104078038 B CN 104078038B CN 201310104807 A CN201310104807 A CN 201310104807A CN 104078038 B CN104078038 B CN 104078038B
Authority
CN
China
Prior art keywords
page content
reading
content
user
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310104807.5A
Other languages
English (en)
Other versions
CN104078038A (zh
Inventor
张凯
胡博
唐廷勇
刘人方
王智培
周睿奕
王曦
谢郑凯
贺柏森
黄英
李未
冯诚
杨惠姣
刘玉磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310104807.5A priority Critical patent/CN104078038B/zh
Priority to PCT/CN2014/073550 priority patent/WO2014154097A1/en
Priority to US14/303,902 priority patent/US20140297285A1/en
Publication of CN104078038A publication Critical patent/CN104078038A/zh
Application granted granted Critical
Publication of CN104078038B publication Critical patent/CN104078038B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种页面内容朗读方法和装置:获取用户请求浏览的页面内容,并确定页面内容的格式是否符合预定要求;如果是,则将页面内容展示给用户,并在当接收到用户的朗读请求时,将页面内容处理成适合朗读的形式,并将处理后的页面内容朗读出来;如果否,则在将页面内容转换为符合预定要求的格式后,展示给用户,并在当接收到用户的朗读请求时,将页面内容处理成适合朗读的形式,并将处理后的页面内容朗读出来。本发明所述方案具有广泛适用性,并能够降低实现成本。

Description

一种页面内容朗读方法和装置
技术领域
本发明涉及网络技术,特别涉及一种页面内容朗读方法和装置。
背景技术
为方便用户获取页面内容,现有技术中提出了一种页面内容朗读技术,即当用户需要浏览某一页面内容时,可由系统将该页面内容为用户朗读出来,这样,用户即可通过收听的方式而不是浏览的方式方便地获取到页面内容。
在某些场景下,如用户开车不方便操控手机的场景下,上述技术将非常实用。
现有页面朗读技术主要有以下两种实现方式:
1)用户在自身的终端如手机上安装专门的小说朗读软件,用户可浏览该软件所能提供的任一小说的页面内容,并且,可针对任一页面内容发出朗读请求,相应地,该软件将该页面内容为用户朗读出来;
2)针对不同的页面内容,分别通过真人录制的方式生成对应的朗读材料,并存储,当接收到用户针对任一页面内容的朗读请求时,播放对应的朗读材料。
但是,上述两种方式在实际应用中均会存在一定的问题,如:
对于方式1),在页面内容上有很大的局限性,即仅适用于小说,不能实现对于其它页面内容,如新闻、论坛、杂志等的朗读,适用范围有限;
对于方式2),由于实际应用中会涉及到各式各样的页面内容,如果均进行真人录制,将需要很高的实现成本,包括人力成本和存储成本等。
发明内容
有鉴于此,本发明提供了一种页面内容朗读方法和装置,可以对不同类型的网页内容进行朗读且不用提前进行真人录制,具有广泛适用性,并能够降低实现成本。
一种页面内容朗读方法,包括:
获取用户请求浏览的页面内容,并确定页面内容的格式是否符合预定要求;
如果是,则将页面内容展示给用户,并在当接收到用户的朗读请求时,将页面内容处理成适合朗读的形式,并将处理后的页面内容朗读出来;
如果否,则在将页面内容转换为符合预定要求的格式后,展示给用户,并在当接收到用户的朗读请求时,将页面内容处理成适合朗读的形式,并将处理后的页面内容朗读出来。
一种页面内容朗读装置,包括:获取模块和朗读模块;
所述获取模块,用于获取用户请求浏览的页面内容,并发送给所述朗读模块;
所述朗读模块,用于确定页面内容的格式是否符合预定要求;
如果是,则将页面内容展示给用户,并在当接收到用户的朗读请求时,将页面内容处理成适合朗读的形式,并将处理后的页面内容朗读出来;
如果否,则在将页面内容转换为符合预定要求的格式后,展示给用户,并在当接收到用户的朗读请求时,将页面内容处理成适合朗读的形式,并将处理后的页面内容朗读出来。
可见,采用本发明所述方案,获取用户请求浏览的页面内容,并确定页面内容的格式是否符合预定要求,如果是,则可直接将页面内容展示给用户,否则,可将页面内容转换为符合预定要求的格式,并展示给用户,当接收到用户的朗读请求时,将页面内容处理成适合朗读的形式,并将处理后的页面内容为用户朗读出来;相比于现有方式1),本发明所述方案可适用于任意页面内容,即不再局限于小说,对其它页面内容如新闻、论坛、杂志等均适用,从而扩大了本发明所述方案的适用范围,即本发明所述方案具有广泛适用性;相比于现有方式2),本发明所述方案无需进行真人录制,从而降低了实现成本,包括人力成本和存储成本等。
附图说明
图1为本发明页面内容朗读装置的运行环境示意图。
图2为本发明页面内容朗读方法实施例的流程图。
图3为本发明页面内容朗读方法较佳实施例的流程图。
图4为本发明页面内容朗读装置实施例的组成结构示意图。
具体实施方式
针对现有技术中存在的技术问题,本发明中提出一种改进后的页面内容朗读方案,采用文本到语音的合成(TTS,Text To Speech)技术与页面正文抽取技术相结合的实现方式。
其中,TTS技术又称为语音合成技术,是一种将文本转化为语音的技术,即将文本按字或词分解为音素,并通过查询语音库得到不同音素对应的语音,通过扬声器等播放出来,所播放出来的声音采用真人普通话作为标准发音,朗读速度可达到3~4个汉字/秒,使用户可以听到清晰悦耳的音质和连贯流畅的语调。
页面正文抽取技术是指当用户通过浏览器客户端对某一页面内容发出浏览请求后,由后台服务器对该页面内容进行过滤和标记,将广告等用户不感兴趣的内容进行滤除,并对正文内容的头尾进行标记,而后由浏览器客户端根据后台服务器所作的标记,将正文内容展示给用户。
图1为本发明页面内容朗读装置的运行环境示意图。该页面内容朗读装置可置于浏览器客户端内,如图1所示,该浏览器客户端可包括:人机交互电路11、通信电路12、存储器13、音频电路14和处理器15等。
其中,人机交互电路11可用于进行人机交互,如接收用户的请求,将用户所请求的页面内容展示给用户等;通信电路12可用于与服务器进行信息交互,如从服务器中获取用户请求的页面内容等;存储器13可用于存储上述页面内容朗读装置所对应的程序指令,并存储从服务器获取到的页面内容以及经过各种处理后的页面内容等;音频电路14可用于播放所朗读的页面内容等;处理器15可用于控制其它各部分(如存储器13中所存储的页面内容朗读装置的程序指令)进行工作,并执行页面内容的格式转换和页面内容的朗读等功能。
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案作进一步地详细说明。
图2为本发明页面内容朗读方法实施例的流程图。该方法应用于浏览器客户端中。如图2所示,该方法包括以下步骤:
步骤21:获取用户请求浏览的页面内容。
如何获取为现有技术,在此不再赘述。
步骤22:确定页面内容的格式是否符合预定要求,如果是,则执行步骤23,否则,执行步骤24。
在实际应用中,当接收到用户针对任一页面内容的浏览请求时,可首先确定页面内容是否为进行页面正文抽取后的页面内容,并可根据确定结果的不同,后续采用不同的处理方式,即如果确定页面内容为进行页面正文抽取后的页面内容,则执行步骤23,否则,执行步骤24。
步骤23:将页面内容展示给用户,并在当接收到用户的朗读请求时,将页面内容处理成适合朗读的形式,并将处理后的页面内容朗读出来。
如果步骤22中确定出页面内容为进行页面正文抽取后的页面内容,则本步骤中,可直接将页面内容展示给用户,并可在展示的同时,在展示界面的菜单中显示一个“朗读”按钮,当确定用户点击该按钮后,即可认为用户发出了朗读请求,相应地,可利用TTS技术,将页面内容处理成适合朗读的形式,并将处理后的页面内容朗读出来。
步骤24:在将页面内容转换为符合预定要求的格式后,展示给用户,并在当接收到用户的朗读请求时,将页面内容处理成适合朗读的形式,并将处理后的页面内容朗读出来。
具体而言,浏览器客户端首先将页面内容发送给后台服务器,由后台服务器对页面内容进行页面正文抽取,并接收后台服务器返回的处理后的页面内容,展示给用户。在展示的同时,在展示界面的菜单中显示一个“朗读”按钮,当确定用户点击该按钮后,即可利用TTS技术,将页面内容处理成适合朗读的形式,并将处理后的页面内容朗读出来。
另外,为方便用户定位当前朗读的位置,便于在听和看之间进行顺利切换,本发明所述方案中还提出,在朗读的同时,可将朗读完的文字以卡拉OK跟读模式进行标示。
具体来说,可在接收到用户的朗读请求之前,通过对标点符号的判断等,对所展示的页面内容进行分句处理,从而得到一个个的句子;相应地,在对所展示的页面内容进行朗读的同时,每朗读完一个句子,则将句子进行标示。
如何进行标示,本实施例不作限制。
比如,假设正常情况下,所展示的页面内容中的文字均为黑色,那么,可在每朗读完一个句子后,将该句子中的文字显示为蓝色,这样,用户即可方便直观地了解到当前朗读到的位置。
基于上述介绍,图3为本发明页面内容朗读方法较佳实施例的流程图。如图3所示,包括以下步骤:
步骤31:获取用户请求浏览的页面内容。
步骤32:确定页面内容是否为进行页面正文抽取后的页面内容,如果是,则执行步骤33,否则,执行步骤34。
步骤33:将页面内容展示给用户,之后执行步骤35。
步骤34:将页面内容发送给后台服务器进行页面正文抽取,接收后台服务器返回的处理后的页面内容,展示给用户,之后执行步骤35。
步骤35:当接收到用户的朗读请求时,利用TTS技术将页面内容处理成适合朗读的形式,并将处理后的页面内容朗读出来。
步骤36:在朗读的同时,将朗读完的文字以卡拉OK跟读模式进行标示。
本发明同时公开了一种页面内容朗读装置。
图4为本发明页面内容朗读装置实施例的组成结构示意图。如图4所示,包括:获取模块41和朗读模块42;
获取模块41,用于获取用户请求浏览的页面内容,并发送给朗读模块42;
朗读模块42,用于确定页面内容的格式是否符合预定要求;
如果是,则将页面内容展示给用户,并在当接收到用户的朗读请求时,将页面内容处理成适合朗读的形式,并将处理后的页面内容朗读出来;
如果否,则在将页面内容转换为符合预定要求的格式后,展示给用户,并在当接收到用户的朗读请求时,将页面内容处理成适合朗读的形式,并将处理后的页面内容朗读出来。
其中,
朗读模块42可具体包括:展示单元421和朗读单元422;
展示单元421,用于确定页面内容的格式是否符合预定要求;如果是,则将页面内容展示给用户,并在当接收到用户的朗读请求时,通知朗读单元422执行朗读功能;如果否,则在将页面内容转换为符合预定要求的格式后,展示给用户,并在当接收到用户的朗读请求时,通知朗读单元422执行朗读功能;
朗读单元422,用于将页面内容处理成适合朗读的形式,并将处理后的页面内容朗读出来。
具体地,
展示单元421确定页面内容是否为进行页面正文抽取后的页面内容,如果是,则确定页面内容的格式符合预定要求,否则,确定不符合预定要求,将页面内容发送给后台服务器进行页面正文抽取,并接收后台服务器返回的处理后的页面内容。
朗读单元422利用TTS技术,将页面内容处理成适合朗读的形式,并将处理后的页面内容朗读出来。
另外,
展示单元421可进一步用于,在朗读单元422朗读的同时,将朗读完的文字以卡拉OK跟读模式进行标示。
展示单元421还可进一步用于,在将页面内容转换为符合预定要求的格式之后,在接收到用户的朗读请求之前,对所展示的页面内容进行分句处理;
相应地,朗读单元422每朗读完一个句子,展示单元421则将该句子进行标示。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (8)

1.一种在驾驶场景下的页面内容朗读方法,其特征在于,包括:
获取用户请求浏览的页面内容,并确定页面内容的格式是否符合预定要求,其中,确定页面内容的格式是否符合预定要求包括:确定页面内容是否为进行页面正文抽取后的页面内容;
如果是,则将页面内容展示给用户,并在当接收到用户的朗读请求时,将页面内容处理成适合朗读的形式,并将处理后的页面内容朗读出来;
如果否,则将页面内容发送给后台服务器以使其对所述页面内容进行页面正文抽取,将抽取出的内容展示给用户,并在当接收到用户的朗读请求时,将页面内容处理成适合朗读的形式,并将处理后的页面内容朗读出来。
2.根据权利要求1所述的方法,其特征在于,
所述后台服务器通过对所述页面内容进行过滤和标记,将所述页面内容的正文内容以外的内容滤除,并对所述页面内容的正文内容的头尾进行标记。
3.根据权利要求1所述的方法,其特征在于,所述将页面内容处理成适合朗读的形式是通过文本到语音的合成技术来实现。
4.根据权利要求1、2或3所述的方法,其特征在于,
该方法进一步包括:在朗读的同时,将朗读完的文字以卡拉OK跟读模式进行标示。
5.根据权利要求4所述的方法,其特征在于,
在将页面内容转换为符合预定要求的格式之后,在接收到用户的朗读请求之前,进一步包括:对所展示的页面内容进行分句处理;
所述在朗读的同时,将朗读完的文字以卡拉OK跟读模式进行标示的步骤包括:每朗读完一个句子,则将该句子进行标示。
6.一种在驾驶场景下的页面内容朗读装置,其特征在于,包括:获取模块和朗读模块;
所述获取模块,用于获取用户请求浏览的页面内容,并发送给所述朗读模块;
所述朗读模块,用于确定页面内容的格式是否符合预定要求,其中,确定页面内容的格式是否符合预定要求包括:确定页面内容是否为进行页面正文抽取后的页面内容;
如果是,则将页面内容展示给用户,并在当接收到用户的朗读请求时,将页面内容处理成适合朗读的形式,并将处理后的页面内容朗读出来;
如果否,则将页面内容发送给后台服务器以使其对所述页面内容进行页面正文抽取,并将接收的所述后台服务器返回的处理后的页面内容展示给用户,并在当接收到用户的朗读请求时,将页面内容处理成适合朗读的形式,并将处理后的页面内容朗读出来。
7.根据权利要求6所述的装置,其特征在于,
其中,所述后台服务器通过对所述页面内容进行过滤和标记,将所述页面内容的正文内容以外的内容滤除,并对所述页面内容的正文内容的头尾进行标记。
8.根据权利要求6所述的装置,其特征在于,
所述朗读模块利用文本到语音的合成技术,将页面内容处理成适合朗读的形式,并将处理后的页面内容朗读出来。
CN201310104807.5A 2013-03-28 2013-03-28 一种页面内容朗读方法和装置 Active CN104078038B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310104807.5A CN104078038B (zh) 2013-03-28 2013-03-28 一种页面内容朗读方法和装置
PCT/CN2014/073550 WO2014154097A1 (en) 2013-03-28 2014-03-17 Automatic page content reading-aloud method and device thereof
US14/303,902 US20140297285A1 (en) 2013-03-28 2014-06-13 Automatic page content reading-aloud method and device thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310104807.5A CN104078038B (zh) 2013-03-28 2013-03-28 一种页面内容朗读方法和装置

Publications (2)

Publication Number Publication Date
CN104078038A CN104078038A (zh) 2014-10-01
CN104078038B true CN104078038B (zh) 2019-03-01

Family

ID=51599261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310104807.5A Active CN104078038B (zh) 2013-03-28 2013-03-28 一种页面内容朗读方法和装置

Country Status (2)

Country Link
CN (1) CN104078038B (zh)
WO (1) WO2014154097A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104754126A (zh) * 2015-03-21 2015-07-01 苏州乐聚一堂电子科技有限公司 在移动电子装置中展现电子信息的方法
CN106547511B (zh) 2015-09-16 2019-12-10 广州市动景计算机科技有限公司 一种语音播读网页信息的方法、浏览器客户端及服务器
CN105975469A (zh) * 2015-12-01 2016-09-28 乐视致新电子科技(天津)有限公司 一种浏览器的网页浏览方法和装置
CN110347309A (zh) * 2019-06-26 2019-10-18 腾讯科技(深圳)有限公司 朗读控制方法、装置和设备及计算机存储介质
CN113347302A (zh) * 2020-02-17 2021-09-03 林意胜 车用免持装置的播音系统
EP3886411A1 (en) * 2020-03-27 2021-09-29 Yi Sheng Lin Speech system for a vehicular device holder
CN112307390A (zh) * 2020-11-26 2021-02-02 广东南方网络信息科技有限公司 一种网站无障碍信息化处理方法、装置、存储介质及系统
CN114461170A (zh) * 2022-01-27 2022-05-10 山东省城市商业银行合作联盟有限公司 手机银行应用程序的页面朗读方法及系统
CN118280342B (zh) * 2024-05-31 2024-08-09 贵阳朗玛信息技术股份有限公司 一种朗读流式Markdown文本并跟踪显示朗读进度的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163213A (zh) * 2011-02-25 2011-08-24 中国科学院计算技术研究所 一种语音浏览方法及浏览器
CN102254550A (zh) * 2010-05-21 2011-11-23 腾讯科技(深圳)有限公司 网页文字朗读方法和系统
CN102483742A (zh) * 2009-09-04 2012-05-30 培基维帝亚股份有限公司 用于管理因特网媒体内容的系统和方法
CN102831229A (zh) * 2012-08-30 2012-12-19 浙大网新科技股份有限公司 适合盲人使用的网页浏览方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7194411B2 (en) * 2001-02-26 2007-03-20 Benjamin Slotznick Method of displaying web pages to enable user access to text information that the user has difficulty reading

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102483742A (zh) * 2009-09-04 2012-05-30 培基维帝亚股份有限公司 用于管理因特网媒体内容的系统和方法
CN102254550A (zh) * 2010-05-21 2011-11-23 腾讯科技(深圳)有限公司 网页文字朗读方法和系统
CN102163213A (zh) * 2011-02-25 2011-08-24 中国科学院计算技术研究所 一种语音浏览方法及浏览器
CN102831229A (zh) * 2012-08-30 2012-12-19 浙大网新科技股份有限公司 适合盲人使用的网页浏览方法

Also Published As

Publication number Publication date
WO2014154097A1 (en) 2014-10-02
CN104078038A (zh) 2014-10-01

Similar Documents

Publication Publication Date Title
CN104078038B (zh) 一种页面内容朗读方法和装置
JP7529236B2 (ja) インタラクティブ情報処理方法、装置、機器、及び媒体
CN108847214B (zh) 语音处理方法、客户端、装置、终端、服务器和存储介质
US8719029B2 (en) File format, server, viewer device for digital comic, digital comic generation device
CN107369462B (zh) 电子书语音播放方法、装置及终端设备
CN107864410B (zh) 一种多媒体数据处理方法、装置、电子设备以及存储介质
JP5634853B2 (ja) 電子コミックのビューワ装置、電子コミックの閲覧システム、ビューワプログラム、ならびに電子コミックの表示方法
CN101465068A (zh) 用于确定电子设备中增补内容的方法
JP6202815B2 (ja) 文字認識装置および文字認識方法並びに文字認識プログラム
EP2747464A1 (en) Sent message playing method, system and related device
CN113886612A (zh) 一种多媒体浏览方法、装置、设备及介质
CN110379406B (zh) 语音评论转换方法、系统、介质和电子设备
US20140297285A1 (en) Automatic page content reading-aloud method and device thereof
WO2023103597A1 (zh) 多媒体内容的分享方法、装置、设备、介质及程序产品
WO2020188885A1 (ja) 情報処理方法、プログラム、端末
CN111327961A (zh) 一种视频字幕切换方法及系统
CN113132789B (zh) 一种多媒体的交互方法、装置、设备及介质
JP2022051500A (ja) 関連情報提供方法及びシステム
CN112837668B (zh) 一种语音处理方法、装置和用于处理语音的装置
CN112562733A (zh) 媒体数据处理方法及装置、存储介质、计算机设备
KR20140109551A (ko) 증강 현실을 이용한 외국어 학습 장치 및 방법
CN111506744B (zh) 一种点读的方法及终端设备
KR20140087949A (ko) 증강 현실을 이용한 외국어 학습 장치 및 방법
CN116614557A (zh) 语音数据传输方法、装置、设备、存储介质及产品
CN118823156A (zh) 图像生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant