CN106547511B - 一种语音播读网页信息的方法、浏览器客户端及服务器 - Google Patents

一种语音播读网页信息的方法、浏览器客户端及服务器 Download PDF

Info

Publication number
CN106547511B
CN106547511B CN201510591191.8A CN201510591191A CN106547511B CN 106547511 B CN106547511 B CN 106547511B CN 201510591191 A CN201510591191 A CN 201510591191A CN 106547511 B CN106547511 B CN 106547511B
Authority
CN
China
Prior art keywords
tts
browser client
version number
page
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510591191.8A
Other languages
English (en)
Other versions
CN106547511A (zh
Inventor
梁捷
吴伟勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou Dongjing Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Dongjing Computer Technology Co Ltd filed Critical Guangzhou Dongjing Computer Technology Co Ltd
Priority to CN201510591191.8A priority Critical patent/CN106547511B/zh
Priority to PCT/CN2016/079635 priority patent/WO2017045399A1/zh
Publication of CN106547511A publication Critical patent/CN106547511A/zh
Priority to US15/921,336 priority patent/US10714074B2/en
Application granted granted Critical
Publication of CN106547511B publication Critical patent/CN106547511B/zh
Priority to US16/900,679 priority patent/US11308935B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种语音播读网页信息的方法、浏览器客户端及服务器。其中,浏览器客户端安装有语音合成TTS引擎,该方法包括:浏览器客户端向服务器发送页面访问请求,包括页面地址和TTS标识信息;浏览器客户端接收服务器返回的应答数据,应答数据包括服务器根据TTS标识信息确定的TTS标准版本号及页面地址对应的TTS页面数据;浏览器客户端根据TTS标准版本号通过TTS引擎对TTS页面数据进行语音播读。本发明通过浏览器客户端安装的TTS引擎对页面信息进行语音播读,在用户不方便通过眼睛浏览网页时,以及对于眼睛有生理缺陷的用户,都可以通过听觉来收听播读的页面信息,为用户浏览网页提供了一种基于听觉的便捷方式。

Description

一种语音播读网页信息的方法、浏览器客户端及服务器
技术领域
本发明涉及互联网通信领域,具体而言,涉及一种语音播读网页信息的方法、浏览器客户端及服务器。
背景技术
目前,终端都安装有浏览器,用户经常通过浏览器浏览网页,网页一般包括文本、图片或视频等信息,这些信息都是基于用户的视觉感官的。当用户通过浏览器浏览网页时,终端将网页显示在终端的屏幕上,用户必须通过眼睛观看来浏览网页。
但日常生活中存在一些不方便通过眼睛浏览网页的场景,如当用户正驾驶汽车,或者正搭乘拥挤的公共交通工具,或者用户正在步行或跑步时,此时通过眼睛浏览网页会给用户带来不便,甚至对用户的眼睛造成伤害。另外,盲人或弱视者等眼睛有生理缺陷的用户根本无法通过眼睛浏览网页。
对于上述不便于通过眼睛浏览网页的情况,目前相关技术还没有给出将网页信息便捷地提供给用户的方式,影响了用户使用浏览器的体验度。
发明内容
有鉴于此,本发明实施例的目的在于提供一种语音播读网页信息的方法、浏览器客户端及服务器,通过浏览器客户端安装的TTS引擎对页面信息进行语音播读,为用户浏览网页提供一种基于听觉的全新方式。
第一方面,本发明实施例提供了一种语音播读网页信息的方法,包括:
所述浏览器客户端向服务器发送页面访问请求,所述页面访问请求包括页面地址和语音合成TTS标识信息;
所述浏览器客户端接收所述服务器根据所述页面访问请求返回的应答数据,所述应答数据包括所述服务器根据所述TTS标识信息确定的TTS标准版本号及所述页面地址对应的TTS页面数据;
所述浏览器客户端根据所述TTS标准版本号通过TTS引擎对所述TTS页面数据进行语音播读。
结合第一方面,本发明实施例提供了上述第一方面的第一种可能的实现方式,其中,所述浏览器客户端根据所述TTS标准版本号通过所述TTS引擎对所述TTS页面数据进行语音播读,包括:
所述浏览器客户端根据所述TTS标准版本号获取对应的TTS标准协议;
所述浏览器客户端根据所述TTS标准协议,从所述TTS页面数据中解析出全局播读信息、局部播读信息及待播读数据;
所述浏览器客户端通过所述TTS引擎获取所述待播读数据对应的语音数据,并根据所述全局播读信息和所述局部播读信息播读所述语音数据。
结合第一方面的第一种可能的实现方式,本发明实施例提供了上述第一方面的第二种可能的实现方式,其中,所述浏览器客户端通过所述TTS引擎获取所述待播读数据对应的语音数据,包括:
所述浏览器客户端确定所述TTS引擎的引擎类型,所述引擎类型包括全功能引擎和精简引擎;
当所述浏览器客户端安装的TTS引擎的引擎类型为全功能引擎时,所述浏览器客户端通过所述TTS引擎调用本地语音库将所述待播读数据转换为语音数据;
当所述浏览器客户端安装的TTS引擎的引擎类型为精简引擎时,所述浏览器客户端从所述服务器加载已录制语音资源数据,通过所述TTS引擎调用加载的所述已录制语音资源数据将所述待播读数据转换为语音数据。
结合第一方面的第一种可能的实现方式,本发明实施例提供了上述第一方面的第三种可能的实现方式,其中,所述浏览器客户端根据所述TTS标准协议,从所述TTS页面数据中解析出全局播读信息、局部播读信息及待播读数据,包括:
所述浏览器客户端根据所述TTS标准协议,从所述TTS页面数据的头部信息中解析出全局播读信息;
所述浏览器客户端从所述TTS页面数据中识别预设标签对应的数据块,将识别的所述数据块确定为待播读数据;
所述浏览器客户端从识别的所述预设标签的开标签信息中获取局部播读信息。
结合第一方面,本发明实施例提供了上述第一方面的第四种可能的实现方式,其中,当所述TTS引擎的引擎类型为全功能引擎,且所述浏览器客户端根据所述TTS标准版本号通过所述TTS引擎对所述TTS页面数据进行语音播读时,所述方法还包括:
所述浏览器客户端采集用户的语音信息,并通过所述TTS引擎将所述用户的语音信息识别为文本信息;
若所述文本信息与预设的语音播放控制信息相匹配,则执行相应的语音播放控制操作。
第二方面,本发明实施例提供了一种语音播读网页信息的方法,所述方法包括:
服务器接收浏览器客户端发送的页面访问请求,所述页面访问请求包括页面地址和TTS标识信息;
所述服务器根据所述TTS标识信息确定TTS标准版本号,及根据所述页面地址和所述TTS标识信息获取所述页面地址对应的TTS页面数据;
所述服务器将所述TTS页面数据及所述TTS标准版本号作为应答数据发送给所述浏览器客户端,以使所述浏览器客户端根据所述TTS标准版本号对所述TTS页面数据进行语音播读。
结合第二方面,本发明实施例提供了上述第二方面的第一种可能的实现方式,其中,所述TTS标识信息包括所述浏览器客户端所支持的TTS标准版本号和所述浏览器客户端安装的TTS引擎的引擎类型;
所述服务器根据所述页面地址和所述TTS标识信息获取所述页面地址对应的TTS页面数据,包括:
所述服务器根据所述页面地址加载对应的页面数据;
所述服务器根据所述浏览器客户端所支持的TTS标准版本号和所述引擎类型对所述页面数据进行TTS标记,得到所述页面地址对应的TTS页面数据。
结合第二方面,本发明实施例提供了上述第二方面的第二种可能的实现方式,其中,所述TTS标识信息包括所述浏览器客户端所支持的TTS标准版本号和所述浏览器客户端安装的TTS引擎的引擎类型;
所述服务器根据所述页面地址和所述TTS标识信息获取所述页面地址对应的TTS页面数据,包括:
所述服务器根据所述TTS标识信息和所述页面地址,查询本地缓存中是否存在对应的TTS页面数据,若存在,则直接从本地缓存中获取所述TTS页面数据;
当查询出本地缓存中不存在对应的TTS页面数据时,所述服务器根据所述页面地址加载对应的页面数据,根据所述浏览器客户端所支持的TTS标准版本号和所述引擎类型对所述页面数据进行TTS标记,得到所述页面地址对应的TTS页面数据。
结合第二方面及第二方面的第一或第二种可能的实现方式,本发明实施例提供了上述第二方面的第三种可能的实现方式,其中,所述服务器根据所述浏览器客户端所支持的TTS标准版本号和所述引擎类型对所述页面数据进行TTS标记,包括:
所述服务器根据所述浏览器客户端所支持的TTS标准版本号,确定所述浏览器客户端所支持的TTS标准版本标记集合;根据所述引擎类型,确定所述引擎类型对应的TTS标记策略;
所述服务器根据所述TTS标准版本标记集合和所述TTS标记策略在所述页面数据的头部信息中添加全局播读信息;
所述服务器从所述页面数据中确定出需语音播读的数据块,根据所述TTS标准版本标记集合和所述TTS标记策略通过预设标签对所述数据块进行标记,并在所述预设标签的开标签信息中添加局部播读信息。
结合第二方面的第二种可能的实现方式,本发明实施例提供了上述第二方面的第四种可能的实现方式,其中,所述服务器对所述页面数据进行TTS标记,得到所述页面地址对应的TTS页面数据之后,还包括:
所述服务器将所述TTS标识信息、所述页面地址及所述TTS页面数据存储到本地缓存中。
结合第二方面,本发明实施例提供了上述第二方面的第五种可能的实现方式,其中,所述TTS标识信息包括所述浏览器客户端所支持的TTS标准版本号;
所述服务器根据所述TTS标识信息确定TTS标准版本号,包括:
所述服务器将所述浏览器客户端所支持的TTS标准版本号与自身支持的版本号进行比较;
当所述浏览器客户端所支持的TTS标准版本号高于所述服务器支持的版本号时,所述服务器将自身支持的版本号确定为TTS标准版本号;
当所述浏览器客户端所支持的TTS标准版本号低于或等于所述服务器支持的版本号时,所述服务器将所述浏览器客户端所支持的TTS标准版本号确定为所述TTS标准版本号。
结合第二方面,本发明实施例提供了上述第二方面的第六种可能的实现方式,其中,所述方法还包括:
所述服务器判断所述页面访问请求中所述TTS标识信息包括的TTS引擎的引擎类型是否为精简引擎,当判断出所述引擎类型为精简引擎时,获取自身存储的语音资源数据,将所述语音资源数据发送给所述浏览器客户端;或者,
所述服务器接收所述浏览器客户端发送的语音资源数据获取请求,获取自身存储的语音资源数据,将所述语音库发送给所述浏览器客户端。
第三方面,本发明实施例提供了一种浏览器客户端,所述浏览器客户端安装有TTS引擎,所述浏览器客户端包括:
发送模块,用于向服务器发送页面访问请求,所述页面访问请求包括页面地址和TTS标识信息;
接收模块,用于接收所述服务器根据所述页面访问请求返回的应答数据,所述应答数据包括所述服务器根据所述TTS标识信息确定的TTS标准版本号及所述页面地址对应的TTS页面数据;
语音播读模块,用于根据所述TTS标准版本号通过TTS引擎对所述TTS页面数据进行语音播读。
结合第三方面,本发明实施例提供了上述第三方面的第一种可能的实现方式,其中,所述语音播读模块包括:
获取单元,用于根据所述TTS标准版本号获取对应的TTS标准协议;
解析单元,用于根据所述TTS标准协议,从所述TTS页面数据中解析出全局播读信息、局部播读信息及待播读数据;
播读单元,用于通过所述TTS引擎获取所述待播读数据对应的语音数据,并根据所述全局播读信息和所述局部播读信息播读所述语音数据。
结合第三方面的第一种可能的实现方式,本发明实施例提供了上述第三方面的第二种可能的实现方式,其中,所述播读单元包括:
确定子单元,用于确定所述TTS引擎的引擎类型,所述引擎类型包括全功能引擎和精简引擎;
第一转换子单元,用于当所述浏览器客户端安装的TTS引擎的引擎类型为全功能引擎时,通过所述TTS引擎调用本地语音库将所述待播读数据转换为语音数据;
第二转换子单元,用于当所述浏览器客户端安装的TTS引擎的引擎类型为精简引擎时,从所述服务器加载已录制语音资源数据,通过所述TTS引擎调用加载的所述已录制语音资源数据将所述待播读数据转换为语音数据。
结合第三方面的第一种可能的实现方式,本发明实施例提供了上述第三方面的第三种可能的实现方式,其中,所述解析单元包括:
解析子单元,用于根据所述TTS标准协议,从所述TTS页面数据的头部信息中解析出全局播读信息;
识别子单元,用于从所述TTS页面数据中识别预设标签对应的数据块,将识别的所述数据块确定为待播读数据;
获取子单元,用于从识别的所述预设标签的开标签信息中获取局部播读信息。
结合第三方面,本发明实施例提供了上述第三方面的第四种可能的实现方式,其中,当所述TTS引擎的引擎类型为全功能引擎,且所述语音播读模块进行语音播读时,所述浏览器客户端还包括:
播放控制模块,用于采集用户的语音信息,并通过所述TTS引擎将所述用户的语音信息识别为文本信息;若所述文本信息与预设的语音播放控制信息相匹配,则执行相应的语音播放控制操作。
第四方面,本发明实施例提供了一种服务器,所述服务器包括:
接收模块,用于接收浏览器客户端发送的页面访问请求,所述页面访问请求包括页面地址和所述浏览器客户端的TTS标识信息;
获取模块,用于根据所述TTS标识信息确定TTS标准版本号,及根据所述页面地址和所述TTS标识信息获取所述页面地址对应的TTS页面数据;
发送模块,用于将所述TTS页面数据及所述TTS标准版本号作为应答数据发送给所述浏览器客户端,以使所述浏览器客户端根据所述TTS标准版本号对所述TTS页面数据进行语音播读。
结合第四方面,本发明实施例提供了上述第四方面的第一种可能的实现方式,其中,所述TTS标识信息包括所述浏览器客户端所支持的TTS标准版本号和所述浏览器客户端安装的TTS引擎的引擎类型;所述获取模块包括:
加载单元,用于根据所述页面地址加载对应的页面数据;
TTS标记单元,用于根据所述浏览器客户端所支持的TTS标准版本号和所述引擎类型对所述页面数据进行TTS标记,得到所述页面地址对应的TTS页面数据。
结合第四方面,本发明实施例提供了上述第四方面的第二种可能的实现方式,其中,所述TTS标识信息包括所述浏览器客户端所支持的TTS标准版本号和所述浏览器客户端安装的TTS引擎的引擎类型;所述获取模块包括:
查询单元,用于根据所述TTS标识信息和所述页面地址,查询本地缓存中是否存在对应的TTS页面数据,若存在,则直接从本地缓存中获取所述TTS页面数据;
获取单元,用于当查询出本地缓存中不存在对应的TTS页面数据时,根据所述页面地址加载对应的页面数据,根据所述浏览器客户端所支持的TTS标准版本号和所述引擎类型对所述页面数据进行TTS标记,得到所述页面地址对应的TTS页面数据。
结合第四方面及第四方面的第一或第二种可能的实现方式,本发明实施例提供了上述第四方面的第三种可能的实现方式,其中,所述根据所述浏览器客户端所支持的TTS标准版本号和所述引擎类型对所述页面数据进行TTS标记,包括:
确定子单元,用于根据所述浏览器客户端所支持的TTS标准版本号,确定所述浏览器客户端所支持的TTS标准版本标记集合;根据所述引擎类型,确定所述引擎类型对应的TTS标记策略;
添加子单元,用于根据所述TTS标准版本标记集合和所述TTS标记策略在所述页面数据的头部信息中添加全局播读信息;
标记子单元,用于从所述页面数据中确定出需语音播读的数据块,根据所述TTS标准版本标记集合和所述TTS标记策略通过预设标签对所述数据块进行标记,并在所述预设标签的开标签信息中添加局部播读信息。
结合第四方面的第二种可能的实现方式,本发明实施例提供了上述第四方面的第四种可能的实现方式,其中,所述服务器还包括:
存储模块,用于将所述TTS标识信息、所述页面地址及所述TTS页面数据存储到本地缓存中。
结合第四方面,本发明实施例提供了上述第四方面的第五种可能的实现方式,其中,所述TTS标识信息包括所述浏览器客户端所支持的TTS标准版本号;所述获取模块包括:
比较单元,用于将所述浏览器客户端所支持的TTS标准版本号与自身支持的版本号进行比较;
第一确定单元,用于当所述浏览器客户端所支持的TTS标准版本号高于所述服务器支持的版本号时,将自身支持的版本号确定为TTS标准版本号;
第二确定单元,用于当所述浏览器客户端所支持的TTS标准版本号低于或等于所述服务器支持的版本号时,将所述浏览器客户端所支持的TTS标准版本号确定为所述TTS标准版本号。
结合第四方面,本发明实施例提供了上述第四方面的第六种可能的实现方式,其中,所述服务器还包括:
获取发送模块,用于判断所述页面访问请求中所述TTS标识信息包括的TTS引擎的引擎类型是否为精简引擎,当判断出所述引擎类型为精简引擎时,获取自身存储的语音资源数据,将所述语音资源数据发送给所述浏览器客户端;或者,
所述获取发送模块,还用于接收所述浏览器客户端发送的语音资源数据获取请求,获取自身存储的语音资源数据,将所述语音资源数据发送给所述浏览器客户端。
在本发明实施例中,浏览器客户端安装有TTS引擎,浏览器客户端向服务器发送包括页面地址和TTS标识信息的页面访问请求,接收服务器根据该页面访问请求返回的TTS标准版本号及页面地址对应的TTS页面数据,浏览器客户端根据TTS标准版本号通过TTS引擎对TTS页面数据进行语音播读。本发明通过浏览器客户端安装的TTS引擎对页面信息进行语音播读,在用户不方便通过眼睛浏览网页时,以及对于眼睛有生理缺陷的用户,都可以通过听觉来收听播读的页面信息,为用户浏览网页提供了一种基于听觉的便捷方式。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例1所提供的一种语音播读网页信息的方法流程图;
图2示出了本发明实施例2所提供的一种浏览器客户端的结构示意图;
图3示出了本发明实施例3所提供的一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
考虑到相关技术中对于不便于通过眼睛浏览网页的情况,以及对于眼睛有生理缺陷的用户,目前还没有给出将网页信息便捷地提供给用户的方式,影响了用户使用浏览器的体验度。基于此,本发明实施例提供了一种语音播读网页信息的方法、浏览器客户端及服务器。下面通过实施例进行描述。
实施例1
参见图1,本发明实施例提供了一种语音播读网页信息的方法。在本发明实施例中,浏览器客户端中安装有TTS(Text to Speech,语音合成)引擎,TTS引擎可以为安装在浏览器客户端内的组件,或者,TTS引擎为可供浏览器客户端调用的系统服务或应用程序。本发明实施例通过TTS引擎来播读需要访问的网页的页面信息。该方法具体包括以下步骤:
步骤101:浏览器客户端向服务器发送页面访问请求,该页面访问请求包括页面地址和TTS标识信息。
上述服务器可以为网站服务器或浏览器后台服务器。上述TTS标识信息包括浏览器客户端安装的TTS引擎的引擎类型及浏览器客户端所支持的TTS标准版本号。上述TTS引擎的引擎类型包括全功能引擎和精简引擎。
类型为全功能引擎的TTS引擎中包含本地集成的语音库,且可以基于文本识别TTS引擎使用的编码集和所属的语言类型,并能够基于词典集对给定的文本进行实时分词,通过本地集成的语音库来生成语音数据,以及能够与语音数据内部的文本进行关联,且支持语音播放的控制操作,如开始、暂停、重新播放或停止播放等播放控制操作。另外,全功能的TTS引擎还可以支持用户的语音识别功能,将用户的语音转化为播放控制操作。
类型为精简引擎的TTS引擎可以基于文本识别TTS引擎使用的编码集和所属的语言类型,并基于词典集对给定的文本进行实时分词,能够与语音播放资源内部的文本进行关联,且同样支持语音播放的控制操作,如开始、暂停、重新播放或停止播放等播放控制操作。
全功能的TTS引擎和精简的TTS引擎的区别在于,全功能的TTS引擎具有本地集成的语音库,而精简的TTS引擎没有本地集成的语音库,精简的TTS引擎不支持进行本地实时语音播放,同时也不支持用户的语音识别。精简的TTS引擎适用于硬件配置条件相对较低的移动设备。
在本发明实施例中,当用户需要浏览某网页时,用户向浏览器客户端中输入该网页的页面地址,或者用户点击该网页对应的链接。浏览器客户端检测到用户输入页面地址或检测到某链接被点击时,浏览器客户端获取用户输入的页面地址或者获取该链接对应的页面地址,并从浏览器客户端安装的TTS功能模块中获取TTS引擎的引擎类型及所支持的TTS标准版本号,将获取的引擎类型及浏览器客户端所支持的TTS标准版本号组成TTS标识信息,发送页面访问请求给服务器,并在该页面访问请求中携带获取的页面地址和TTS标识信息。
步骤102:服务器接收浏览器客户端发送的页面访问请求,根据该页面访问请求获取TTS标准版本号及页面地址对应的TTS页面数据。
服务器根据该页面访问请求携带的页面地址和TTS标识信息获取页面地址对应的TTS页面数据,并根据TTS标识信息确定TTS标准版本号。
服务器根据页面地址和TTS标识信息获取页面地址对应的TTS页面数据的操作,具体包括:服务器根据页面地址加载对应的页面数据,根据浏览器客户端所支持的TTS标准版本号和TTS引擎的引擎类型对页面数据进行TTS标记,得到页面地址对应的TTS页面数据。
对页面数据进行TTS标记的操作,具体包括,服务器根据浏览器客户端所支持的TTS标准版本号,确定浏览器客户端所支持的TTS标准版本标记集合,根据TTS引擎的引擎类型,确定该引擎类型对应的TTS标记策略,根据确定的TTS标准版本标记集合和TTS标记策略在加载的页面数据的头部信息中添加全局播读信息,以及从页面数据中确定出需语音播读的数据块,根据该TTS标准版本标记集合和TTS标记策略通过预设标签对数据块进行标记,并在预设标签的开标签信息中添加局部播读信息。
在本发明实施例中,TTS标准版本标记集合中包括支持TTS标记的html标签、TTS专用标签以及可用的TTS属性等。支持TTS标记的html标签可以为直接或间接带有文本的html标签,TTS专用标签为上述预设标签,预设标签可以为播读标签<speech>。可用的TTS属性包括上述全局播读信息及局部播读信息。全局播读信息为页面全局作用域的文本TTS属性信息。局部播读信息为上述预设标签作用域下的TTS属性信息。
不同版本的TTS引擎所支持的TTS标准版本标记集合中支持TTS标记的html标签可能不同,所以需要根据浏览器客户端所支持的TTS标准版本号,确定浏览器客户端所支持的TTS标记集合。
由于全功能类型的TTS引擎与精简类型的TTS引擎间存在功能上的差异,所以服务器中预先设置了全功能类型的TTS引擎对应的TTS标记策略以及精简类型的TTS引擎对应的TTS标记策略。TTS标记策略决定了如何对TTS语音资源进行标记。
需语音播读的数据块可以为直接或间接带有文本的html标签组成的数据块。直接或间接带有文本的html标签包括超链接标签<a>、粗体标签<b>、大号字体标签<big>、块引用标签<blockquote>、文献引用标签<cite>、细节描述标签<details>、短语元素标签<dfn>、文本样式标签<font>、页脚标签<footer>、页眉标签<header>、斜体文本标签<i>、带记号文本标签<mark>、突出显示标签<m>、普通文本标签<p>、短引用标签<q>、小号字体标签<small>、强调标签<strong>及描述标签<summary>。预设标签可以为播读标签<speech>。
服务器根据浏览器客户端所支持的TTS标准版本号,确定浏览器客户端所支持的TTS标准版本标记集合,根据TTS引擎的引擎类型,确定对应的TTS标记策略,根据确定的TTS标准版本标记集合和TTS标记策略在加载的页面数据的头部信息中添加该标记策略对应的全局播读信息,遍历页面数据中的各个标签信息,确定出上述直接或间接带有文本的html标签信息,将确定的标签信息确定为需语音播读的数据块,将确定的数据块设置为上述预设标签<speech>的标签内容,并在该预设标签<speech>中添加上述TTS标记策略对应的局部播读信息。
为了便于理解上述对某一数据块的TTS标记操作,此处举例进行说明。例如,假设确定的数据块为<p>Hello,baby!</p>,TTS标记策略对应的局部播读信息为role=”female”;text-type=”main-body”;speeding=”normal”;positioning=”xpath”;playback-mode=”local”;playback=”exclusive”。
则TTS标记后的数据为:<speech role=”female”;text-type=”main-body”;speeding=”normal”;positioning=”xpath”;playback-mode=”local”;playback=”exclusive”><p>Hello,baby!</p></speech>
上述全局播读信息包括的属性及属性值的相关信息如下所示,
1、version(版本号),该属性为必要的属性,该属性的属性值可以为初始版本号,如初始版本1.0等。该属性用于TTS标准的版本控制,不同的版本支持的相关标签或属性不同,且TTS标准的版本需要保持向后兼容,即新版本的TTS标准同时支持旧版本的TTS标准。
2、type(类型),该属性也为必要的属性,该属性的属性值可以为full(全功能类型)或lite(精简类型)。full标识本页面的语音播放需要TTS全功能引擎,lite标识本页面的语音播放只需要TTS精简引擎。该属性的设定值为full还是lite,需要根据浏览器客户端发送的页面访问请求携带的TTS标识信息来确定。当浏览器客户端发送的页面访问请求携带的TTS标识信息中不包含引擎类型时,可以默认该属性的设定值为full或lite。
3、speed(速度),该属性为可选属性,该属性的属性值可以为slow(慢)、normal(正常)或fast(快),该属性用于定义页面TTS引擎的播放速度。该属性的属性值的设定需要基于浏览器客户端安装的TTS引擎支持的TTS标准来定义。该属性的属性值并不限定于上述三种,也可以设定为其它更加细化的播放速度。
4、role(角色),该属性也为可选属性,该属性的属性值可以为male(男性)、female(女性)及user-defined(用户自定义)。当该属性值为male时TTS引擎调用男声语音库,当该属性值为female时TTS引擎调用女声语音库,当该属性值为user-defined时TTS引擎使用用户在本地TTS引擎设定的语音库,例如,用户设定的语音库可以为某明星的中文语音库或用户对自己的语音进行录音生成的语音库。这些语音库支持的语音词典必须遵循TTS标准。其中,男声语音库和女声语音库是TTS功能必须支持的基础语音库。当用户未在浏览器客户端设置想要使用的语音库时,该属性的属性值可默认设置为male或female。
5、playback(播放形式),该属性也为可选属性,该属性的属性值可以为exclusive(独占式播放)及coexisting(共存式播放),exclusive表示浏览器客户端播放页面信息时禁止系统内其他语音源的播放,coexisting表示浏览器客户端播放页面信息时不禁止系统内其他语音源的播放。当用户未在浏览器客户端设置想要使用的语音库时,该属性的属性值可默认为exclusive或coexisting。
6、charset(字符集),该属性也为可选属性,该属性的属性值可以为auto-detect(自动检测),表示自动检测文本使用的字符集,该字符集可以为UTF-8(8-bit UnicodeTransformation Format,万国码)或GB2314等。另外,也可选择在该属性提供具体的字符集。当用户未在浏览器客户端设置想要使用的语音库时,该属性的属性值可默认为auto-detect。
7、lang规定文本的语言,该性也为可选属性,该属性的属性值可以为auto-detect(自动检测),表示自动检测文本国家/地区语言。也可选择在该属性提供具体的语言,比如简体中文、繁体中文、英语或法语等。当用户未在浏览器客户端设置想要使用的语音库时,该属性的属性值可默认为auto-detect。
8、vocable-control(语音播放控制),该性也为可选属性,该属性定义了可供语音控制的TTS播放控制操作关键词,存在多个时之间用“,”分割。该属性主要是声明建议提供给用户基于语音控制的操作,但具体是否实现取决于TTS引擎的引擎类型。当且仅当服务器识别浏览器客户端安装了TTS全功能引擎时才可以提供该属性值。该属性可以设为以下属性值:
next:切换到下一段可供TTS播放的文本;
previous:切换到上一段可供TTS播放的文本;
up-level:切换到当前可供TTS播放的文本节点的可供TTS播放的文本祖先节点;
down-level:切换到当前可供TTS播放的文本节点的可供TTS播放的第一个子节点;
start:开始播放当前选定的TTS片段;
stop:停止播放当前选定的TTS片段;
hold:暂停播放当前选定的TTS片段;
resume:从暂停位置继续播放当前选定的TTS片段;
replay:从头开始播放当前选定的TTS片段;
click:如果当前播放的TTS文本位于可点击的标签中,通过语音触发点击操作。
在本发明实施例中,向页面数据的头部信息中添加全局播读信息时,在页面数据的头部信息的meta(元信息)标记中添加一个name(名称)信息,该name信息的值为“tts”,其对应的内容可以包含上述全局播读信息。
例如,在meta标记中添加全局播读信息的方式可以为,
<meta name=”tts”content=”version:1.0;type:full;speed:normal;role:male;playback:exclusive;charset:auto-detect;lang:aut o-detect;vocable-control:next,previous,up-level,down-level,start,stop,hold,resume,replay,click”>
之所以在meta标记中添加全局播读信息,是因为meta标记一般位于html页面的head(头)部分,通常浏览器客户端解析页面时会对head部分进行预处理,如此便于浏览器客户端根据全局播读信息对TTS引擎进行相应的属性设定初始化。
在本发明实施例中,局部播读信息包括的属性及属性值的相关信息如下所示,
1、text-type(文本类型),该属性为必要的属性,该属性可以设置为以下属性值:Heading(标题):表示作为“标题”的TTS文本。当speech标签包含标题标签h1、h2、h3、h4、h5或h6时,建议使用该属性值;Abstract(摘要):表示作为“摘要”的TTS文本。
2、speed,该属性的相关信息与上述全局播读信息中的speed属性的相关信息相同,再次不再赘述。
3、role,该属性的相关信息与上述全局播读信息中的role属性的相关信息相同,再次不再赘述。
4、playback,该属性的相关信息与上述全局播读信息中的playback属性的相关信息相同,再次不再赘述。
5、playback-mode,该属性也为可选属性,该属性可以设置为以下属性值:local表示使用本地语音库进行实时TTS播放,该属性值仅支持TTS全功能引擎;outsourcing表示使用已录制的语音资源播放,该属性值既支持TTS精简引擎也支持TTS全功能引擎。
当浏览器客户端安装了TTS全功能引擎时,服务器可以同时提供上述两个属性值,并以“,”进行分割,由浏览器决定采用哪种播放方式。
6、outsourcing-href,该属性也为可选属性,该属性可以设置为已录制的TTS播放语音资源。该TTS播放语音资源必须遵循基于TTS音频格式规范,除带有音频信息外,还需带有文本及文本与语音同步的信息。该属性主要用于支持TTS精简引擎进行在线播放;而对于TTS全功能引擎,会基于用户设置来选择是否选择播放已录制的语音资源或者实时播放。
7、positioning,该属性也为可选属性,该属性表示预设标签<speech>在该页面中的所有TTS片段的位置,即speech标签包含的文本的位置。主要用于用户进行TTS片段切换控制时的定位。该属性可以设置为以下属性值:xpath:基于html标签的xpath路径而进行TTS片段的定位,实质上是基于页面自身的结构进行TTS片段组织;manual:该方式需要提供层次化的位置信息,其格式可以为一级序号-二级序号-三级序号等,使用该属性值时,TTS片段的组织可以与页面自身结构无关。
在本发明实施例中,局部播读信息的优先级高于全局播读信息的优先级。由于局部播读信息与全局播读信息存在相同的属性,且页面的html祖先和孙子节点可能存在同样的局部播读信息,其之间的优先级规定如下:
当出现属性值不同时,局部播读信息覆盖全局播读信息。例如,如果预设标签<speech>中没有对该属性进行定义,而全局播读信息中有相应属性定义,则沿用全局播读信息的属性定义;
当出现属性值不同时,孙子节点的属性定义覆盖祖先节点的属性定义。例如,如果孙子节点的<speech>标签没有对该属性进行定义,而祖先节点的<speech>标签有相应属性定义,则沿用祖先节点的<speech>标签的属性定义。
在本发明实施例中,对于过去处理的页面访问请求,服务器可以在本地缓存中缓存过去处理的页面访问请求对应的引擎类型、页面地址及TTS页面数据的对应关系。
当服务器根据页面地址和TTS标识信息获取页面地址对应的TTS页面数据时,服务器根据TTS标识信息和页面地址,查询本地缓存中是否存在对应的TTS页面数据,若存在,则直接从本地缓存中获取TTS页面数据。当查询出本地缓存中不存在对应的TTS页面数据时,服务器根据页面地址加载对应的页面数据,根据浏览器客户端所支持的TTS标准版本号和引擎类型对页面数据进行TTS标记,得到页面地址对应的TTS页面数据。
在本发明实施例中,对于给定的某个具体页面,当浏览器客户端所支持的TTS标准版本号和TTS引擎的引擎类型两者都确定时,对该页面进行TTS标记所依据的TTS标准版本标记集合和TTS标记策略也是确定的,因此该页面的TTS标记结果也是确定的。所以当本地缓存中不存在对应的TTS页面数据时,且服务器对页面数据进行TTS标记,得到页面地址对应的TTS页面数据之后,服务器将TTS标识信息、页面地址及TTS页面数据存储到本地缓存中。
在本发明实施例中,由于TTS标准可能随着版本的演进而发生变化,浏览器客户端需要在页面访问请求中声明自己支持的最高版本,并最终和服务器协商出使用的版本。TTS标准的版本需要向后兼容。
服务器根据TTS标识信息确定TTS标准版本号的操作,具体包括:服务器将浏览器客户端所支持的TTS标准版本号与自身支持的版本号进行比较;当浏览器客户端所支持的TTS标准版本号高于服务器支持的版本号时,服务器将自身支持的版本号确定为TTS标准版本号;当浏览器客户端所支持的TTS标准版本号低于或等于服务器支持的版本号时,服务器将浏览器客户端所支持的TTS标准版本号确定为TTS标准版本号。
服务器通过上述步骤102的操作获取TTS标准版本号及页面地址对应的TTS页面数据之后,通过如下步骤103的操作将这些信息发送给浏览器客户端。
步骤103:服务器将TTS页面数据及TTS标准版本号作为应答数据发送给浏览器客户端;
步骤104:浏览器客户端接收服务器返回的应答数据,根据TTS标准版本号通过TTS引擎对TTS页面数据进行语音播读。
浏览器客户端根据TTS标准版本号获取对应的TTS标准协议,根据该TTS标准协议,从TTS页面数据中解析出全局播读信息、局部播读信息及待播读数据,通过TTS引擎获取待播读数据对应的语音数据,并根据全局播读信息和局部播读信息播读语音数据。
上述浏览器客户端根据TTS标准协议,从TTS页面数据中解析出全局播读信息、局部播读信息及待播读数据的操作,具体包括:浏览器客户端根据TTS标准协议,从TTS页面数据的头部信息中解析出全局播读信息,从TTS页面数据中识别预设标签对应的数据块,将识别的数据块确定为待播读数据,以及从识别的预设标签的开标签信息中获取局部播读信息。
浏览器客户端对TTS页面数据进行处理时,浏览器客户端的解析器按照相应的TTS标准版本标记集合对TTS页面数据进行解析,提取出待播读数据、全局播读信息和局部播读信息,再调用TTS引擎来实现语音播读。
上述浏览器客户端通过TTS引擎获取待播读数据对应的语音数据的操作,具体包括:浏览器客户端确定TTS引擎的引擎类型,当浏览器客户端安装的TTS引擎的引擎类型为全功能引擎时,浏览器客户端通过TTS引擎调用本地语音库将待播读数据转换为语音数据;当浏览器客户端安装的TTS引擎的引擎类型为精简引擎时,浏览器客户端从服务器加载已录制语音资源数据,通过TTS引擎调用加载的已录制语音资源数据将待播读数据转换为语音数据。
上述已录制语音资源数据是关联到具体文本段落的语音资源,其内部带有文本分词信息。精简类型的TTS引擎可以识别已录制语音资源数据,并通过文本词的索引关系来播读语音。已录制语音资源数据与语音库之间的区别为:因为语音库是语音词典,所以语音库可以支持任何文本的实时播读;而因为已录制语音资源的内容已经是确定的,所以已录制语音资源只能支持特定的文本段落的播读。
由于当浏览器客户端安装的TTS引擎为精简引擎时,浏览器客户端中未配置本地的语音库,此时浏览器客户端要实现对网页信息的语音播读,必须从服务器获取已录制语音资源数据。在本发明实施例中,可以通过如下两种方式来从服务器获得已录制语音资源数据,具体包括,
第一种方式,由服务器识别浏览器安装的TTS引擎的引擎类型,并当该引擎类型为精简引擎时主动将已录制语音资源数据下发给浏览器客户端。具体地,服务器判断页面访问请求中TTS标识信息包括的引擎类型是否为精简引擎,当判断出引擎类型为精简引擎时,获取自身存储的语音资源数据,将该语音资源数据发送给浏览器客户端。
第二种方式,当浏览器客户端安装的TTS引擎的引擎类型为精简引擎时,由客户端向服务器请求获取语音资源数据。具体地,服务器接收浏览器客户端发送的语音资源数据获取请求,获取自身存储的语音资源数据,将语音资源数据发送给浏览器客户端。
在本发明实施例中,浏览器客户端中预设了语音播放控制信息,语音播放控制信息可以为“暂停”或“播放”等信息。当TTS引擎的引擎类型为全功能引擎,且浏览器客户端根据TTS标准版本号通过TTS引擎对TTS页面数据进行语音播读时,用户可以对着终端说话,浏览器客户端采集用户的语音信息,并通过TTS引擎将用户的语音信息识别为文本信息,根据该文本信息查询预设的语音播放控制信息,若该文本信息与某预设的语音播放控制信息相匹配,则执行该预设的语音播放控制信息相应的语音播放控制操作。例如,假设根据用户的语音信息识别的文本信息为“暂停”,则浏览器客户端暂停正在播放的网页信息。
在本发明实施例中,由于规定了全局播读信息、局部播读信息以及通过预设标签对页面数据进行TTS标记,改进了html标准规范使其支持TTS标记,改进后的html标准规范可直接在html页面上应用,其可以对文本类标签进行TTS可用的声明,并针对语音播读的全局播读信息及局部播读信息进行相应的标识。另外,本发明实施例在浏览器客户端发送的页面访问请求中携带TTS引标识信息,以及在服务器返回的应答数据中携带TTS标准版本号,在浏览器客户端与服务器之间的HTTP应答协议中扩展字段,使扩展后的HTTP协议能够支持浏览器客户端与服务器之间的TTS标准版本的协商。
在本发明实施例中,浏览器客户端安装有TTS引擎,浏览器客户端向服务器发送包括页面地址和TTS标识信息的页面访问请求,接收服务器根据该页面访问请求返回的TTS标准版本号及页面地址对应的TTS页面数据,浏览器客户端根据TTS标准版本号通过TTS引擎对TTS页面数据进行语音播读。本发明通过浏览器客户端安装的TTS引擎对页面信息进行语音播读,在用户不方便通过眼睛浏览网页时,以及对于眼睛有生理缺陷的用户,都可以通过听觉来收听播读的页面信息,为用户浏览网页提供了一种基于听觉的便捷方式。
实施例2
参见图2,本发明实施例提供了一种浏览器客户端,该浏览器客户端用于执行上述语音播读网页信息的方法。该浏览器客户端安装有TTS引擎,该浏览器客户端包括:
发送模块201,用于向服务器发送页面访问请求,页面访问请求包括页面地址和TTS标识信息;
接收模块202,用于接收服务器根据页面访问请求返回的应答数据,应答数据包括服务器根据TTS标识信息确定的TTS标准版本号及页面地址对应的TTS页面数据;
语音播读模块203,用于根据TTS标准版本号通过TTS引擎对TTS页面数据进行语音播读。
上述语音播读模块203包括:获取单元、解析单元和播读单元。
获取单元,用于根据TTS标准版本号获取对应的TTS标准协议;解析单元,用于根据TTS标准协议,从TTS页面数据中解析出全局播读信息、局部播读信息及待播读数据;播读单元,用于通过TTS引擎获取待播读数据对应的语音数据,并根据全局播读信息和局部播读信息播读语音数据。
上述播读单元包括:确定子单元、第一转换子单元和第二转换子单元。
确定子单元,用于确定TTS引擎的引擎类型,引擎类型包括全功能引擎和精简引擎;第一转换子单元,用于当浏览器客户端安装的TTS引擎的引擎类型为全功能引擎时,通过TTS引擎调用本地语音库将待播读数据转换为语音数据;第二转换子单元,用于当浏览器客户端安装的TTS引擎的引擎类型为精简引擎时,从服务器加载已录制语音资源数据,通过TTS引擎调用加载的已录制语音资源数据将待播读数据转换为语音数据。
语音播读模块203中的解析单元包括:解析子单元、识别子单元和获取子单元。
解析子单元,用于根据TTS标准协议,从TTS页面数据的头部信息中解析出全局播读信息;识别子单元,用于从TTS页面数据中识别预设标签对应的数据块,将识别的数据块确定为待播读数据;获取子单元,用于从识别的预设标签的开标签信息中获取局部播读信息。
在本发明实施例中,当TTS引擎的引擎类型为全功能引擎,且语音播读模块203进行语音播读时,该浏览器客户端还包括播放控制模块。
该播放控制模块,用于采集用户的语音信息,并通过TTS引擎将用户的语音信息识别为文本信息;若文本信息与预设的语音播放控制信息相匹配,则执行相应的语音播放控制操作。
在本发明实施例中,浏览器客户端安装有TTS引擎,浏览器客户端向服务器发送包括页面地址和TTS引标识信息的页面访问请求,接收服务器根据该页面访问请求返回的TTS标准版本号及页面地址对应的TTS页面数据,浏览器客户端根据TTS标准版本号通过TTS引擎对TTS页面数据进行语音播读。本发明通过浏览器客户端安装的TTS引擎对页面信息进行语音播读,在用户不方便通过眼睛浏览网页时,以及对于眼睛有生理缺陷的用户,都可以通过听觉来收听播读的页面信息,为用户浏览网页提供了一种基于听觉的便捷方式。
实施例3
参见图3,本发明实施例提供了一种服务器,该服务器用于执行上述实施例1提供的语音播读网页信息的方法。该服务器具体包括,
接收模块301,用于接收浏览器客户端发送的页面访问请求,页面访问请求包括页面地址和浏览器客户端的TTS标识信息。
获取模块302,用于根据TTS标识信息确定TTS标准版本号,及根据页面地址和TTS标识信息获取页面地址对应的TTS页面数据。
上述TTS标识信息包括浏览器客户端所支持的TTS标准版本号和安装的TTS引擎的引擎类型;获取模块302包括:加载单元和TTS标记单元。
加载单元,用于根据页面地址加载对应的页面数据;TTS标记单元,用于根据浏览器客户端所支持的TTS标准版本号和引擎类型对页面数据进行TTS标记,得到页面地址对应的TTS页面数据。
获取模块302包括:查询单元和获取单元。
查询单元,用于根据TTS标识信息和页面地址,查询本地缓存中是否存在对应的TTS页面数据,若存在,则直接从本地缓存中获取TTS页面数据;获取单元,用于当查询出本地缓存中不存在对应的TTS页面数据时,根据页面地址加载对应的页面数据,根据浏览器客户端所支持的TTS标准版本号和引擎类型对页面数据进行TTS标记,得到页面地址对应的TTS页面数据。
在本发明实施例中,该服务器还包括:存储模块,用于将TTS标识信息、页面地址及TTS页面数据存储到本地缓存中。
上述根据浏览器客户端所支持的TTS标准版本号和引擎类型对页面数据进行TTS标记时,确定子单元,用于根据浏览器客户端所支持的TTS标准版本号,确定浏览器客户端所支持的TTS标准版本标记集合;根据引擎类型,确定引擎类型对应的TTS标记策略;添加子单元,用于根据TTS标准版本标记集合和TTS标记策略在页面数据的头部信息中添加全局播读信息;标记子单元,用于从页面数据中确定出需语音播读的数据块,根据TTS标准版本标记集合和TTS标记策略通过预设标签对数据块进行标记,并在预设标签的开标签信息中添加局部播读信息。
在本发明实施例中,TTS标识信息还包括浏览器客户端所支持的TTS标准版本号;获取模块302通过比较单元、第一确定单元和第二确定单元来确定TTS标准版本号。
上述比较单元,用于将浏览器客户端所支持的TTS标准版本号与自身支持的版本号进行比较;第一确定单元,用于当浏览器客户端所支持的TTS标准版本号高于服务器支持的版本号时,将自身支持的版本号确定为TTS标准版本号;第二确定单元,用于当浏览器客户端所支持的TTS标准版本号低于或等于服务器支持的版本号时,将浏览器客户端所支持的TTS标准版本号确定为TTS标准版本号。
发送模块303,用于将TTS页面数据及TTS标准版本号作为应答数据发送给浏览器客户端,以使浏览器客户端根据TTS标准版本号对TTS页面数据进行语音播读。
在本发明实施例中,服务器还包括:
获取发送模块,用于判断页面访问请求中TTS标识信息包括的TTS引擎的引擎类型是否为精简引擎,当判断出引擎类型为精简引擎时,获取自身存储的语音资源数据,将语音资源数据发送给浏览器客户端;或者,
上述获取发送模块,还用于接收浏览器客户端发送的语音资源数据获取请求,获取自身存储的语音资源数据,将语音库发送给浏览器客户端。
在本发明实施例中,浏览器客户端安装有TTS引擎,浏览器客户端向服务器发送包括页面地址和TTS标识信息的页面访问请求,接收服务器根据该页面访问请求返回的TTS标准版本号及页面地址对应的TTS页面数据,浏览器客户端根据TTS标准版本号通过TTS引擎对TTS页面数据进行语音播读。本发明通过浏览器客户端安装的TTS引擎对页面信息进行语音播读,在用户不方便通过眼睛浏览网页时,以及对于眼睛有生理缺陷的用户,都可以通过听觉来收听播读的页面信息,为用户浏览网页提供了一种基于听觉的便捷方式。
在本申请所提供的几个实施例中,应该理解到,所揭露浏览器客户端、服务器和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (20)

1.一种语音播读网页信息的方法,其特征在于,包括:
浏览器客户端向服务器发送页面访问请求,所述页面访问请求包括页面地址和语音合成TTS标识信息,所述TTS标识信息包括所述浏览器客户端所支持的TTS标准版本号;
所述浏览器客户端接收所述服务器根据所述页面访问请求返回的应答数据,所述应答数据包括所述服务器根据所述TTS标识信息确定的TTS标准版本号及所述页面地址对应的TTS页面数据,其中:所述服务器根据所述TTS标识信息确定的TTS标准版本号,包括:所述服务器将所述浏览器客户端所支持的TTS标准版本号与自身支持的版本号进行比较;当所述浏览器客户端所支持的TTS标准版本号高于所述服务器支持的版本号时,所述服务器将自身支持的版本号确定为TTS标准版本号;当所述浏览器客户端所支持的TTS标准版本号低于或等于所述服务器支持的版本号时,所述服务器将所述浏览器客户端所支持的TTS标准版本号确定为所述TTS标准版本号;
所述浏览器客户端根据所述TTS标准版本号获取对应的TTS标准协议;
所述浏览器客户端根据所述TTS标准协议,从所述TTS页面数据中解析出全局播读信息、局部播读信息及待播读数据;
所述浏览器客户端通过TTS引擎获取所述待播读数据对应的语音数据,并根据所述全局播读信息和所述局部播读信息播读所述语音数据。
2.根据权利要求1所述的方法,其特征在于,所述浏览器客户端通过所述TTS引擎获取所述待播读数据对应的语音数据,包括:
所述浏览器客户端确定所述TTS引擎的引擎类型,所述引擎类型包括全功能引擎和精简引擎;
当所述浏览器客户端安装的TTS引擎的引擎类型为全功能引擎时,所述浏览器客户端通过所述TTS引擎调用本地语音库将所述待播读数据转换为语音数据;当所述浏览器客户端安装的TTS引擎的引擎类型为精简引擎时,所述浏览器客户端从所述服务器加载已录制语音资源数据,通过所述TTS引擎调用加载的所述已录制语音资源数据将所述待播读数据转换为语音数据。
3.根据权利要求1所述的方法,其特征在于,所述浏览器客户端根据所述TTS标准协议,从所述TTS页面数据中解析出全局播读信息、局部播读信息及待播读数据,包括:
所述浏览器客户端根据所述TTS标准协议,从所述TTS页面数据的头部信息中解析出全局播读信息;
所述浏览器客户端从所述TTS页面数据中识别预设标签对应的数据块,将识别的所述数据块确定为待播读数据;
所述浏览器客户端从识别的所述预设标签的开标签信息中获取局部播读信息。
4.根据权利要求1所述的方法,其特征在于,当所述TTS引擎的引擎类型为全功能引擎,且所述浏览器客户端根据所述TTS标准版本号通过所述TTS引擎对所述TTS页面数据进行语音播读时,所述方法还包括:
所述浏览器客户端采集用户的语音信息,并通过所述TTS引擎将所述用户的语音信息识别为文本信息;
若所述文本信息与预设的语音播放控制信息相匹配,则执行相应的语音播放控制操作。
5.一种语音播读网页信息的方法,其特征在于,所述方法包括:
服务器接收浏览器客户端发送的页面访问请求,所述页面访问请求包括页面地址和TTS标识信息,所述TTS标识信息包括所述浏览器客户端所支持的TTS标准版本号;
所述服务器根据所述TTS标识信息确定TTS标准版本号,及根据所述页面地址和所述TTS标识信息获取所述页面地址对应的TTS页面数据,其中:所述服务器根据所述TTS标识信息确定的TTS标准版本号,包括:所述服务器将所述浏览器客户端所支持的TTS标准版本号与自身支持的版本号进行比较;当所述浏览器客户端所支持的TTS标准版本号高于所述服务器支持的版本号时,所述服务器将自身支持的版本号确定为TTS标准版本号;当所述浏览器客户端所支持的TTS标准版本号低于或等于所述服务器支持的版本号时,所述服务器将所述浏览器客户端所支持的TTS标准版本号确定为所述TTS标准版本号;
所述服务器将所述TTS页面数据及所述TTS标准版本号作为应答数据发送给所述浏览器客户端,以使所述浏览器客户端根据所述TTS标准版本号对所述TTS页面数据进行语音播读。
6.根据权利要求5所述的方法,其特征在于,所述TTS标识信息包括所述浏览器客户端所支持的TTS标准版本号和所述浏览器客户端安装的TTS引擎的引擎类型;
所述服务器根据所述页面地址和所述TTS标识信息获取所述页面地址对应的TTS页面数据,包括:
所述服务器根据所述页面地址加载对应的页面数据;
所述服务器根据所述浏览器客户端所支持的TTS标准版本号和所述引擎类型对所述页面数据进行TTS标记,得到所述页面地址对应的TTS页面数据。
7.根据权利要求5所述的方法,其特征在于,所述TTS标识信息包括所述浏览器客户端所支持的TTS标准版本号和所述浏览器客户端安装的TTS引擎的引擎类型;
所述服务器根据所述页面地址和所述TTS标识信息获取所述页面地址对应的TTS页面数据,包括:
所述服务器根据所述TTS标识信息和所述页面地址,查询本地缓存中是否存在对应的TTS页面数据,若存在,则直接从本地缓存中获取所述TTS页面数据;当查询出本地缓存中不存在对应的TTS页面数据时,所述服务器根据所述页面地址加载对应的页面数据,根据所述浏览器客户端所支持的TTS标准版本号和所述引擎类型对所述页面数据进行TTS标记,得到所述页面地址对应的TTS页面数据。
8.根据权利要求6或7所述的方法,其特征在于,所述服务器根据所述浏览器客户端所支持的TTS标准版本号和所述引擎类型对所述页面数据进行TTS标记,包括:
所述服务器根据所述浏览器客户端所支持的TTS标准版本号,确定所述浏览器客户端所支持的TTS标准版本标记集合;根据所述引擎类型,确定所述引擎类型对应的TTS标记策略;
所述服务器根据所述TTS标准版本标记集合和所述TTS标记策略在所述页面数据的头部信息中添加全局播读信息;
所述服务器从所述页面数据中确定出需语音播读的数据块,根据所述TTS标准版本标记集合和所述TTS标记策略通过预设标签对所述数据块进行标记,并在所述预设标签的开标签信息中添加局部播读信息。
9.根据权利要求7所述的方法,其特征在于,所述服务器对所述页面数据进行TTS标记,得到所述页面地址对应的TTS页面数据之后,还包括:
所述服务器将所述TTS标识信息、所述页面地址及所述TTS页面数据存储到本地缓存中。
10.根据权利要求5所述的方法,其特征在于,所述方法还包括:
所述服务器判断所述页面访问请求中所述TTS标识信息包括的TTS引擎的引擎类型是否为精简引擎,当判断出所述引擎类型为精简引擎时,获取自身存储的语音资源数据,将所述语音资源数据发送给所述浏览器客户端;或者,
所述服务器接收所述浏览器客户端发送的语音资源数据获取请求,获取自身存储的语音资源数据,将所述语音资源数据发送给所述浏览器客户端。
11.一种浏览器客户端,其特征在于,所述浏览器客户端安装有TTS引擎,所述浏览器客户端包括:
发送模块,用于向服务器发送页面访问请求,所述页面访问请求包括页面地址和TTS标识信息,所述TTS标识信息包括所述浏览器客户端所支持的TTS标准版本号;
接收模块,用于接收所述服务器根据所述页面访问请求返回的应答数据,所述应答数据包括所述服务器根据所述TTS标识信息确定的TTS标准版本号及所述页面地址对应的TTS页面数据,其中:所述服务器根据所述TTS标识信息确定的TTS标准版本号,包括:所述服务器将所述浏览器客户端所支持的TTS标准版本号与自身支持的版本号进行比较;当所述浏览器客户端所支持的TTS标准版本号高于所述服务器支持的版本号时,所述服务器将自身支持的版本号确定为TTS标准版本号;当所述浏览器客户端所支持的TTS标准版本号低于或等于所述服务器支持的版本号时,所述服务器将所述浏览器客户端所支持的TTS标准版本号确定为所述TTS标准版本号;
语音播读模块,包括:
获取单元,用于根据所述TTS标准版本号获取对应的TTS标准协议;
解析单元,用于根据所述TTS标准协议,从所述TTS页面数据中解析出全局播读信息、局部播读信息及待播读数据;
播读单元,用于通过TTS引擎获取所述待播读数据对应的语音数据,并根据所述全局播读信息和所述局部播读信息播读所述语音数据。
12.根据权利要求11所述的浏览器客户端,其特征在于,所述播读单元包括:确定子单元,用于确定所述TTS引擎的引擎类型,所述引擎类型包括全功能引擎和精简引擎;
第一转换子单元,用于当所述浏览器客户端安装的TTS引擎的引擎类型为全功能引擎时,通过所述TTS引擎调用本地语音库将所述待播读数据转换为语音数据;
第二转换子单元,用于当所述浏览器客户端安装的TTS引擎的引擎类型为精简引擎时,从所述服务器加载已录制语音资源数据,通过所述TTS引擎调用加载的所述已录制语音资源数据将所述待播读数据转换为语音数据。
13.根据权利要求11所述的浏览器客户端,其特征在于,所述解析单元包括:解析子单元,用于根据所述TTS标准协议,从所述TTS页面数据的头部信息中解析出全局播读信息;
识别子单元,用于从所述TTS页面数据中识别预设标签对应的数据块,将识别的所述数据块确定为待播读数据;
获取子单元,用于从识别的所述预设标签的开标签信息中获取局部播读信息。
14.根据权利要求11所述的浏览器客户端,其特征在于,当所述TTS引擎的引擎类型为全功能引擎,且所述语音播读模块进行语音播读时,所述浏览器客户端还包括:
播放控制模块,用于采集用户的语音信息,并通过所述TTS引擎将所述用户的语音信息识别为文本信息;若所述文本信息与预设的语音播放控制信息相匹配,则执行相应的语音播放控制操作。
15.一种服务器,其特征在于,所述服务器包括:
接收模块,用于接收浏览器客户端发送的页面访问请求,所述页面访问请求包括页面地址和所述浏览器客户端的TTS标识信息,所述TTS标识信息包括所述浏览器客户端所支持的TTS标准版本号;
获取模块,用于根据所述TTS标识信息确定TTS标准版本号,及根据所述页面地址和所述TTS标识信息获取所述页面地址对应的TTS页面数据,所述获取模块包括:
比较单元,用于将所述浏览器客户端所支持的TTS标准版本号与自身支持的版本号进行比较;
第一确定单元,用于当所述浏览器客户端所支持的TTS标准版本号高于所述服务器支持的版本号时,将自身支持的版本号确定为TTS标准版本号;
第二确定单元,用于当所述浏览器客户端所支持的TTS标准版本号低于或等于所述服务器支持的版本号时,将所述浏览器客户端所支持的TTS标准版本号确定为所述TTS标准版本号;
发送模块,用于将所述TTS页面数据及所述TTS标准版本号作为应答数据发送给所述浏览器客户端,以使所述浏览器客户端根据所述TTS标准版本号对所述TTS页面数据进行语音播读。
16.根据权利要求15所述的服务器,其特征在于,所述TTS标识信息包括所述浏览器客户端所支持的TTS标准版本号和所述浏览器客户端安装的TTS引擎的引擎类型;所述获取模块包括:
加载单元,用于根据所述页面地址加载对应的页面数据;
TTS标记单元,用于根据所述浏览器客户端所支持的TTS标准版本号和所述引擎类型对所述页面数据进行TTS标记,得到所述页面地址对应的TTS页面数据。
17.根据权利要求15所述的服务器,其特征在于,所述TTS标识信息包括所述浏览器客户端所支持的TTS标准版本号和所述浏览器客户端安装的TTS引擎的引擎类型;所述获取模块包括:
查询单元,用于根据所述TTS标识信息和所述页面地址,查询本地缓存中是否存在对应的TTS页面数据,若存在,则直接从本地缓存中获取所述TTS页面数据;
获取单元,用于当查询出本地缓存中不存在对应的TTS页面数据时,根据所述页面地址加载对应的页面数据,根据所述浏览器客户端所支持的TTS标准版本号和所述引擎类型对所述页面数据进行TTS标记,得到所述页面地址对应的TTS页面数据。
18.根据权利要求16或17所述的服务器,其特征在于,所述根据所述浏览器客户端所支持的TTS标准版本号和所述引擎类型对所述页面数据进行TTS标记,包括:
确定子单元,用于根据所述浏览器客户端所支持的TTS标准版本号,确定所述浏览器客户端所支持的TTS标准版本标记集合;根据所述引擎类型,确定所述引擎类型对应的TTS标记策略;
添加子单元,用于根据所述TTS标准版本标记集合和所述TTS标记策略在所述页面数据的头部信息中添加全局播读信息;
标记子单元,用于从所述页面数据中确定出需语音播读的数据块,根据所述TTS标准版本标记集合和所述TTS标记策略通过预设标签对所述数据块进行标记,并在所述预设标签的开标签信息中添加局部播读信息。
19.根据权利要求17所述的服务器,其特征在于,所述服务器还包括:存储模块,用于将所述TTS标识信息、所述页面地址及所述TTS页面数据存储到本地缓存中。
20.根据权利要求15所述的服务器,其特征在于,所述服务器还包括:
获取发送模块,用于判断所述页面访问请求中所述TTS标识信息包括的TTS引擎的引擎类型是否为精简引擎,当判断出所述引擎类型为精简引擎时,获取自身存储的语音资源数据,将所述语音资源数据发送给所述浏览器客户端;或者,
所述获取发送模块,还用于接收所述浏览器客户端发送的语音资源数据获取请求,获取自身存储的语音资源数据,将所述语音资源数据发送给所述浏览器客户端。
CN201510591191.8A 2015-09-16 2015-09-16 一种语音播读网页信息的方法、浏览器客户端及服务器 Expired - Fee Related CN106547511B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201510591191.8A CN106547511B (zh) 2015-09-16 2015-09-16 一种语音播读网页信息的方法、浏览器客户端及服务器
PCT/CN2016/079635 WO2017045399A1 (zh) 2015-09-16 2016-04-19 一种语音播读网页信息的方法、浏览器客户端及服务器
US15/921,336 US10714074B2 (en) 2015-09-16 2018-03-14 Method for reading webpage information by speech, browser client, and server
US16/900,679 US11308935B2 (en) 2015-09-16 2020-06-12 Method for reading webpage information by speech, browser client, and server

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510591191.8A CN106547511B (zh) 2015-09-16 2015-09-16 一种语音播读网页信息的方法、浏览器客户端及服务器

Publications (2)

Publication Number Publication Date
CN106547511A CN106547511A (zh) 2017-03-29
CN106547511B true CN106547511B (zh) 2019-12-10

Family

ID=58288141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510591191.8A Expired - Fee Related CN106547511B (zh) 2015-09-16 2015-09-16 一种语音播读网页信息的方法、浏览器客户端及服务器

Country Status (3)

Country Link
US (2) US10714074B2 (zh)
CN (1) CN106547511B (zh)
WO (1) WO2017045399A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7516190B2 (en) * 2000-02-04 2009-04-07 Parus Holdings, Inc. Personal voice-based information retrieval system
CN108121758A (zh) * 2017-11-16 2018-06-05 五八有限公司 详情页的展示方法、装置、设备及系统
CN109119066A (zh) * 2018-09-30 2019-01-01 苏州浪潮智能软件有限公司 一种快速进行语音播放的方法
KR20210110676A (ko) * 2019-02-12 2021-09-08 구글 엘엘씨 차량 클라이언트 장치가 온디바이스 기능을 사용하도록 지시
US11386884B2 (en) * 2019-11-04 2022-07-12 Vhs, Llc Platform and system for the automated transcription of electronic online content from a mostly visual to mostly aural format and associated method of use
CN112118285B (zh) * 2020-07-31 2022-05-20 山东鲁能软件技术有限公司 适用于客户端全版本浏览器的数据传输方法及系统
CN112542166B (zh) * 2020-11-27 2024-06-04 广州橙行智动汽车科技有限公司 一种语音交互的方法和装置
CN112783866B (zh) * 2021-01-29 2024-06-14 深圳追一科技有限公司 数据读取方法、装置、计算机设备和存储介质
KR20220128868A (ko) 2021-03-15 2022-09-22 삼성전자주식회사 대체 컨텐츠를 제공하는 전자 장치 및 그의 동작 방법
CN113450762B (zh) * 2021-06-23 2024-05-14 Oppo广东移动通信有限公司 文字朗读方法、装置、终端及存储介质
CN113611282B (zh) * 2021-08-09 2024-05-14 苏州市广播电视总台 广播节目智能播报系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101004806A (zh) * 2005-11-03 2007-07-25 国际商业机器公司 用于对合成数据进行语音呈现的方法和系统
CN101047525A (zh) * 2007-04-27 2007-10-03 中国移动通信集团福建有限公司 智能型ivr接口网关数据处理方法
CN102254550A (zh) * 2010-05-21 2011-11-23 腾讯科技(深圳)有限公司 网页文字朗读方法和系统
CN202838716U (zh) * 2012-10-29 2013-03-27 苏州大学 一种用于点读普通书籍的点读机
CN104078038A (zh) * 2013-03-28 2014-10-01 腾讯科技(深圳)有限公司 一种页面内容朗读方法和装置

Family Cites Families (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8209184B1 (en) * 1997-04-14 2012-06-26 At&T Intellectual Property Ii, L.P. System and method of providing generated speech via a network
US6163769A (en) 1997-10-02 2000-12-19 Microsoft Corporation Text-to-speech using clustered context-dependent phoneme-based units
US6144938A (en) 1998-05-01 2000-11-07 Sun Microsystems, Inc. Voice user interface with personality
US6718015B1 (en) * 1998-12-16 2004-04-06 International Business Machines Corporation Remote web page reader
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US6757362B1 (en) 2000-03-06 2004-06-29 Avaya Technology Corp. Personal virtual assistant
US6546082B1 (en) * 2000-05-02 2003-04-08 International Business Machines Corporation Method and apparatus for assisting speech and hearing impaired subscribers using the telephone and central office
US6778961B2 (en) * 2000-05-17 2004-08-17 Wconect, Llc Method and system for delivering text-to-speech in a real time telephony environment
US7886006B1 (en) 2000-09-25 2011-02-08 Avaya Inc. Method for announcing e-mail and converting e-mail text to voice
WO2002044887A2 (en) * 2000-12-01 2002-06-06 The Trustees Of Columbia University In The City Of New York A method and system for voice activating web pages
US7194411B2 (en) * 2001-02-26 2007-03-20 Benjamin Slotznick Method of displaying web pages to enable user access to text information that the user has difficulty reading
ITRM20010126A1 (it) * 2001-03-12 2002-09-12 Mediavoice S R L Metodo di abilitazione dell'interazione vocale di una pagina o di un sito web.
JP2002358092A (ja) 2001-06-01 2002-12-13 Sony Corp 音声合成システム
US7313525B1 (en) * 2001-09-26 2007-12-25 Sprint Spectrum L.P. Method and system for bookmarking navigation points in a voice command title platform
CN1427394A (zh) * 2002-04-09 2003-07-02 北京无限商机通信技术有限公司 语音浏览网关
US7373300B1 (en) * 2002-12-18 2008-05-13 At&T Corp. System and method of providing a spoken dialog interface to a website
US20050131698A1 (en) 2003-12-15 2005-06-16 Steven Tischer System, method, and storage medium for generating speech generation commands associated with computer readable information
WO2005059895A1 (en) 2003-12-16 2005-06-30 Loquendo S.P.A. Text-to-speech method and system, computer program product therefor
US20050169283A1 (en) * 2004-01-30 2005-08-04 Lucent Technologies Inc. Internet access through conventional telephones
US7869999B2 (en) 2004-08-11 2011-01-11 Nuance Communications, Inc. Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis
US7693719B2 (en) * 2004-10-29 2010-04-06 Microsoft Corporation Providing personalized voice font for text-to-speech applications
US8838673B2 (en) * 2004-11-22 2014-09-16 Timothy B. Morford Method and apparatus to generate audio versions of web pages
US8024194B2 (en) * 2004-12-08 2011-09-20 Nuance Communications, Inc. Dynamic switching between local and remote speech rendering
US7987244B1 (en) 2004-12-30 2011-07-26 At&T Intellectual Property Ii, L.P. Network repository for voice fonts
US20060200355A1 (en) * 2005-03-01 2006-09-07 Gil Sideman System and method for a real time client server text to speech interface
US8224647B2 (en) 2005-10-03 2012-07-17 Nuance Communications, Inc. Text-to-speech user's voice cooperative server for instant messaging clients
US20070211071A1 (en) * 2005-12-20 2007-09-13 Benjamin Slotznick Method and apparatus for interacting with a visually displayed document on a screen reader
US7890330B2 (en) 2005-12-30 2011-02-15 Alpine Electronics Inc. Voice recording tool for creating database used in text to speech synthesis system
US9208783B2 (en) * 2007-02-27 2015-12-08 Nuance Communications, Inc. Altering behavior of a multimodal application based on location
JP2008225254A (ja) 2007-03-14 2008-09-25 Canon Inc 音声合成装置及び方法並びにプログラム
EP2140341B1 (en) 2007-04-26 2012-04-25 Ford Global Technologies, LLC Emotive advisory system and method
CN101295504B (zh) * 2007-04-28 2013-03-27 诺基亚公司 用于仅文本的应用的娱乐音频
US7689421B2 (en) 2007-06-27 2010-03-30 Microsoft Corporation Voice persona service for embedding text-to-speech features into software programs
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8117036B2 (en) * 2008-12-03 2012-02-14 At&T Intellectual Property I, L.P. Non-disruptive side conversation information retrieval
US8655660B2 (en) 2008-12-11 2014-02-18 International Business Machines Corporation Method for dynamic learning of individual voice patterns
US8332225B2 (en) * 2009-06-04 2012-12-11 Microsoft Corporation Techniques to create a custom voice font
US8150695B1 (en) * 2009-06-18 2012-04-03 Amazon Technologies, Inc. Presentation of written works based on character identities and attributes
US20120069974A1 (en) 2010-09-21 2012-03-22 Telefonaktiebolaget L M Ericsson (Publ) Text-to-multi-voice messaging systems and methods
WO2012115213A1 (ja) 2011-02-22 2012-08-30 日本電気株式会社 音声合成システム、音声合成方法、および音声合成プログラム
US9122535B2 (en) * 2011-11-22 2015-09-01 Netapp, Inc. Optimizing distributed data analytics for shared storage
US9240180B2 (en) * 2011-12-01 2016-01-19 At&T Intellectual Property I, L.P. System and method for low-latency web-based text-to-speech without plugins
US9002810B1 (en) * 2011-12-28 2015-04-07 Emc Corporation Method and system for managing versioned structured documents in a database
US9087024B1 (en) * 2012-01-26 2015-07-21 Amazon Technologies, Inc. Narration of network content
US9483461B2 (en) * 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US20140236602A1 (en) * 2013-02-21 2014-08-21 Utah State University Synthesizing Vowels and Consonants of Speech
US20140297285A1 (en) * 2013-03-28 2014-10-02 Tencent Technology (Shenzhen) Company Limited Automatic page content reading-aloud method and device thereof
US9645983B1 (en) * 2013-06-18 2017-05-09 Amazon Technologies, Inc. Modifying a document at a script processing server using a client device's state information
US9311912B1 (en) 2013-07-22 2016-04-12 Amazon Technologies, Inc. Cost efficient distributed text-to-speech processing
US9196239B1 (en) * 2013-08-30 2015-11-24 Amazon Technologies, Inc. Distracted browsing modes
US9690854B2 (en) * 2013-11-27 2017-06-27 Nuance Communications, Inc. Voice-enabled dialog interaction with web pages
KR102232583B1 (ko) * 2015-01-08 2021-03-26 삼성전자주식회사 전자장치 및 전자장치의 웹 재현 방법
US20160306784A1 (en) * 2015-04-16 2016-10-20 Audioeye, Inc. Audio Onboarding Of Digital Content With Enhanced Audio Communications
US20160343366A1 (en) * 2015-05-19 2016-11-24 Google Inc. Speech synthesis model selection
US10607595B2 (en) * 2017-08-07 2020-03-31 Lenovo (Singapore) Pte. Ltd. Generating audio rendering from textual content based on character models

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101004806A (zh) * 2005-11-03 2007-07-25 国际商业机器公司 用于对合成数据进行语音呈现的方法和系统
CN101047525A (zh) * 2007-04-27 2007-10-03 中国移动通信集团福建有限公司 智能型ivr接口网关数据处理方法
CN102254550A (zh) * 2010-05-21 2011-11-23 腾讯科技(深圳)有限公司 网页文字朗读方法和系统
CN202838716U (zh) * 2012-10-29 2013-03-27 苏州大学 一种用于点读普通书籍的点读机
CN104078038A (zh) * 2013-03-28 2014-10-01 腾讯科技(深圳)有限公司 一种页面内容朗读方法和装置

Also Published As

Publication number Publication date
US20200302911A1 (en) 2020-09-24
US10714074B2 (en) 2020-07-14
WO2017045399A1 (zh) 2017-03-23
US20180204563A1 (en) 2018-07-19
CN106547511A (zh) 2017-03-29
US11308935B2 (en) 2022-04-19

Similar Documents

Publication Publication Date Title
CN106547511B (zh) 一种语音播读网页信息的方法、浏览器客户端及服务器
US10282162B2 (en) Audio book smart pause
US10192544B2 (en) Method and system for constructing a language model
US8849895B2 (en) Associating user selected content management directives with user selected ratings
CN101826096B (zh) 基于鼠标指点的信息显示方法、装置系统
US20020052747A1 (en) Method and system of interpreting and presenting web content using a voice browser
US20110302486A1 (en) Method and apparatus for obtaining the effective contents of web page
US20070214148A1 (en) Invoking content management directives
US20070005649A1 (en) Contextual title extraction
WO2013020450A1 (zh) 一种网页浏览方法、装置及移动终端
US20120072831A1 (en) Method for creating a multi-lingual web page
JP3789614B2 (ja) ブラウザシステム、音声プロキシサーバ、リンク項目の読み上げ方法及びリンク項目の読み上げプログラムを格納した記憶媒体
US8028226B2 (en) Document content analysis technology for reducing cognitive load
CN115687572A (zh) 一种数据信息的检索方法、装置、设备及存储介质
CN114021042A (zh) 网页内容的提取方法、装置、计算机设备和存储介质
KR101751942B1 (ko) 자동 번역 시스템에서 중국어 문장의 단어의 뜻을 제공하는 방법, 번역 장치 및 단말기, 그리고 이 방법을 실행시키기 위한 프로그램을 저장한 기록매체
KR102585545B1 (ko) 음성 기반 제품사용설명서 안내 서비스 제공 방법
CN116320614A (zh) 一种智能展示语音转文字方法、系统及介质
KR100832859B1 (ko) 모바일 웹 콘텐츠 서비스 시스템 및 그 방법
JP2002014893A (ja) 画面読み上げソフトを使用する利用者に向けたWebページ案内サーバー
CN108595470B (zh) 音频段落收藏方法、装置、系统及计算机设备
Li et al. Web page layout adaptation based on webkit for e-paper device
US20240073476A1 (en) Method and system for accessing user relevant multimedia content within multimedia files
KR20110012890A (ko) 소형 이동 단말기를 위한 웹 기반 텍스트 요약 방법 및 시스템
WO2016156943A1 (en) Method and system for augmenting text in a document

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200417

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping B radio 14 floor tower square

Patentee before: GUANGZHOU UCWEB COMPUTER TECHNOLOGY Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20191210

Termination date: 20200916