CN107656933A - 一种语音播报方法及装置 - Google Patents

一种语音播报方法及装置 Download PDF

Info

Publication number
CN107656933A
CN107656933A CN201610590146.5A CN201610590146A CN107656933A CN 107656933 A CN107656933 A CN 107656933A CN 201610590146 A CN201610590146 A CN 201610590146A CN 107656933 A CN107656933 A CN 107656933A
Authority
CN
China
Prior art keywords
node
content
destination node
reported
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610590146.5A
Other languages
English (en)
Other versions
CN107656933B (zh
Inventor
曹刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201610590146.5A priority Critical patent/CN107656933B/zh
Priority to PCT/CN2017/073946 priority patent/WO2018018882A1/zh
Priority to EP17833197.1A priority patent/EP3489845A4/en
Priority to US16/320,776 priority patent/US11074037B2/en
Publication of CN107656933A publication Critical patent/CN107656933A/zh
Application granted granted Critical
Publication of CN107656933B publication Critical patent/CN107656933B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback

Abstract

本发明公开了一种语音播报方法,所述方法包括:接收到语音播报操作时,生成语音播报指令;根据所述语音播报指令在当前的网页界面从当前聚焦节点开始中查找节点;当所述节点为目标节点时,播报所述目标节点的文本内容;其中,所述目标节点为具有文本信息的不具有子节点且不响应操作事件的节点。本发明实施例还公开了一种语音播报装置。

Description

一种语音播报方法及装置
技术领域
本发明涉及通信领域,尤其涉及一种语音播报方法及终端。
背景技术
北美国家法律规定诸如手机等终端设备必须支持残障人士使用的语音辅助功能,如GOOGLE开发的TALKBACK语音播报辅助功能等。该语音功能通过盲人用户在手机上屏幕上进行一些手势的操作可以自动语音播报用户接触的控件名称或内容。但目前手机上的常规技术在支持这些语音辅助功能时还存在各种的问题。比如对于纯按键手机,在浏览器中支持语音辅助功能进行上网浏览来说这是一件非常困难的事情,因为在触摸屏上可以通过双指滑动自动依次语音播报网页文档对象模型(Document Object Model,DOM)树中每个节点的内容,而按键机上只有靠方向键导航才能对聚焦元素进行语音播报。
但语音播报和按键机方向键导航本身功能有冲突,因为按键机方向键只能聚焦网页中可聚焦的元素(如链接、输入框、按钮等),这样靠按键导航就会漏掉很多非可聚焦元素的正文信息的语音播报。因此,急需一种语音播报的技术方案,能够解决现有技术在进行语音播报的过程中漏掉很多非聚焦元素的正文信息的问题。
发明内容
有鉴于此,本发明实施例希望提供一种语音播报的方法,至少解决了在进行语音播报时漏掉很多非聚焦元素的正文信息的问题。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种语音播报方法,所述方法包括:接收到语音播报操作时,生成语音播报指令;根据所述语音播报指令在当前的网页界面从当前聚焦节点开始查找节点;当所述节点为目标节点时,播报所述目标节点的文本内容;其中,所述目标节点为具有文本信息的不具有子节点且不响应操作事件的节点。
在上述方案中,在播报所述目标节点的文本内容之前,所述方法还包括:确定所述节点为不响应操作事件的节点时,确定所述节点为非可聚焦节点;确定所述非可聚焦节点为网页文本对象模型DOM中不包括子节点的节点元素时,确定所述节点为页节点;判断所述页节点的文本长度;当所述页节点的文本长度大于预设的长度阈值时,确定所述节点为目标节点。
在上述方案中,在播报所述目标节点的文本内容之前,所述方法还包括:检测所述目标节点的待播报内容大小;根据所述目标节点的待播报内容大小对所述目标节点进行对应的节点重构处理。
在上述方案中,所述根据所述目标节点的待播报内容大小对所述目标节点进行对应的节点重构处理包括:当所述目标节点的待播报内容未达到第一预设范围时,对所述目标节点进行合并处理,将合并处理后的待播报内容作为文本内容;当所述目标节点的待播报内容属于所述第一预设范围内时,获取所述目标节点的待播报内容,将待播报内容作为文本内容;当所述目标节点的待播报内容超过所述第一预设范围时,对所述目标节点进行分割处理,将分割处理后待播报内容作为文本内容。
在上述方案中,对所述目标节点进行合并处理包括:从所述目标节点开始顺序查找所述目标节点的待合并节点,其中,所述待合并节点为所述目标节点的具有文本信息的不具有子节点的兄弟节点;当所述待合并节点与所述目标节点的元素标签相同时,将所述目标节点与所述合并节点进行合并得到合并节点;检测所述合并节点的待播报内容的大小是否未达到第一预设范围;当所述合并节点的待播报内容的大小未达到第一预设范围时,继续查找下一与所述目标节点的元素标签相同的待合并节点,直到所述合并节点的待播报内容的大小达到第一预设范围或不存在与所述目标节点的元素标签相同的待合并节点。
本发明实施例还提供一种实现上述语音播报方法的语音播报装置,所述装置包括:接收单元、查找单元以及播报单元;其中,所述接收单元,用于接收到语音播报操作时,生成语音播报指令;所述查找单元,用于根据所述语音播报指令在当前的网页界面从当前聚焦节点开始查找节点;所述播报单元,用于当所述节点为目标节点时,播报所述目标节点的文本内容;其中,所述目标节点为具有文本信息的不具有子节点且不响应操作事件的节点。
在上述方案中,所述装置还包括:确定单元,用于:确定所述节点为不响应操作事件的节点时,确定所述节点为非可聚焦节点;确定所述非可聚焦节点为网页文本对象模型DOM中不包括子节点的节点元素时,确定所述节点为页节点;判断所述页节点的文本长度;当所述页节点的文本长度大于预设的长度阈值时,确定所述节点为目标节点。
在上述方案中,所述装置还包括:检测单元和重构单元;其中,所述检测单元,用于检测所述目标节点的待播报内容大小;所述重构单元,用于根据所述目标节点的待播报内容大小对所述目标节点进行对应的节点重构处理。
在上述方案中,所述重构单元包括:合并模块、直接播报模块以及分割模块;其中,所述合并模块,用于当所述目标节点的待播报内容未达到第一预设范围时,对所述目标节点进行合并处理,将合并处理后的待播报内容作为文本内容;所述直接播报模块,用于当所述目标节点的待播报内容属于所述第一预设范围内时,获取所述目标节点的待播报内容,将待播报内容作为文本内容;所述分割模块,用于当所述目标节点的待播报内容超过所述第一预设范围时,对所述目标节点进行分割处理,将分割处理后待播报内容作为文本内容。
在上述方案中,所述合并模块具体用于:当所述目标节点的待播报内容未达到第一预设范围时,从所述目标节点开始顺序查找所述目标节点的待合并节点,其中,所述待合并节点为所述目标节点的具有文本信息的不具有子节点的兄弟节点;当所述待合并节点与所述目标节点的元素标签相同时,将所述目标节点与所述合并节点进行合并得到合并节点;检测所述合并节点的待播报内容的大小是否未达到第一预设范围;当所述合并节点的待播报内容的大小未达到第一预设范围时,继续查找下一与所述目标节点的元素标签相同的待合并节点,直到所述合并节点的待播报内容的大小达到第一预设范围或不存在与所述目标节点的元素标签相同的待合并节点;将合并处理后的待播报内容作为文本内容。
本发明实施例的一种语音播报的方法,包括:接收到语音播报操作时,生成语音播报指令;根据所述语音播报指令在当前的网页界面从当前聚焦节点开始中查找节点;当所述节点为目标节点时,播报所述目标节点的文本内容;其中,所述目标节点为具有文本信息的不具有子节点的节点。采用本发明实施例,当接收到语音播报操作时,在当前的网页界面从当前的聚焦节点开始查找具有文本信息且不具有子节点的节点,查找出目标节点,将该目标节点的文本内容进行播报,通过本发明实施例提供的方法,能够解决现有技术中在进行语音播报时漏掉很多非聚焦元素的正文信息的问题,进行语音播报的过程中保证所有需播放内容的完整播报。
附图说明
图1为本发明实施例一提供的语音播报方法的流程示意图;
图2为本发明实施例二提供的语音播报方法的流程示意图语;
图3为本发明实施例三提供的语音播报方法的流程示意图;
图4为本发明实施例四提供的节点重构方法的流程示意图;
图5为本发明实施例五提供的一种语音播报装置的结构示意图;
图6为本发明实施例五提供的另一种语音播报装置的结构示意图;
图7为本发明实施例五提供的重构单元的结构示意图;
图8为本发明实施例六提供的一种语音播报装置的结构示意图。
具体实施方式
下面结合附图对技术方案的实施作进一步的详细描述。
实施例一
本发明实施例一提供语音播报方法,如图1所示,所述方法包括:
S101、接收到语音播报操作时,生成语音播报指令;
具体的,当终端接收到用户对终端的语音播报操作时,基于语音播报操作的触发生成语音播报指令。这里,终端可包括具有触摸屏来接收用户的触摸操作的终端、通过功能按键对终端进行控制操作的终端,也可包括通过语音进行控制操作的终端,对具体的终端的类型不做任何限制,只要能够接收用户操作即可。
这里,当终端接收到用户的操作时,判断接收到的操作与预设的语音播报操作是否一致,当一致时,确定接收到语音播报操作。语音播报操作的具体的形式不做限制,比如:按键终端的方向键中的上按键、触摸屏终端的双触摸点滑动、触摸屏终端上接收到的预设轨迹的操作或一段预设的语音等,这些可由系统进行配置,也可由用户进行设置。
S102、根据所述语音播报指令在当前的网页界面从当前聚焦节点开始查找节点;
当终端生成语音播报指令时,确定接收到用户触发语音播报过程,此时,在终端当前的网页界面从当前聚焦节点开始查找节点。这里,网页界面可为浏览器的网页界面,比如UC,也可为终端上安装的应用程序的网页界面,比如:网易新闻APP。当前的聚焦节点为当前用户界面的作用点,比如,当接收到的语音播报操作为触屏操作时,此时,聚焦节点接收触屏操作的坐标对应的点;当接收的语音播报操作为按键操作时,可将本次操作之前的上一次操作作用的作用点作为当前聚焦点。这里,也可将网页界面的第一个节点作为接收到语音播报操作时的当前聚焦点,当接收到语音播报操作时,从网页界面的第一个节点开始查找节点。这里,当前聚焦节点可根据需要进行设置。
这里,当终端生成语音播报指令时,当前聚焦的节点为终端在接收到语音播报操作之前最后一次操作所对应的坐标对应的节点。
需要说明的是,网页的结构可根据DOM,节点树来进行解析,网页的超文本标记语言(Hypertext Markup Language,HTML)文档中的每个成分都是一个节点。网页的整个文档是一个文档节点,每个HTML标签是一个元素节点,包含在HTML元素中的文本是文本节点。每一个HTML属性是一个属性节点,注释属于注释节点。节点彼此都有等级关系。HTML文档中的所有节点组成了一个文档树(或节点树)。HTML文档中的每个元素、属性、文本等都代表着树中的一个节点。树起始于文档节点,并由此继续伸出枝条,直到处于这棵节点树最低级别的所有文本节点为止。
S103、当所述节点为目标节点时,播报所述目标节点的文本内容;其中,所述目标节点为具有文本信息的不具有子节点且不响应操作事件的节点。
这里,在播报所述目标节点的文本内容之前,所述方法还包括:确定所述节点为不响应操作事件的节点时,确定所述节点为非可聚焦节点;确定所述非可聚焦节点为网页文本对象模型DOM中不包括子节点的节点元素时,确定所述节点为页节点;判断所述页节点的文本长度;当所述页节点的文本长度大于预设的长度阈值时,确定所述节点为目标节点。
当终端接收到语音播报指令时,查找网页DOM树中的节点元素,其中,这些节点元素包括可聚焦节点元素和非可聚焦节点元素,这里,可通过节点的元素标签来确定该节点是为可聚焦节点还是非可聚焦节点;其中,可聚焦节点的元素标签包括A、INPUT、BUTTON等元素标签,对应的节点元素为链接、输入框、按钮等需要响应操作事件的节点元素,操作事件为点击事件等用户事件。这里以链接举例,对于链接,当接收到用户的点击时,需将网页转至该链接对应的网页,以响应用户的点击事件。当一节点不是可聚焦节点时,可确定该节点为非可聚焦节点,非可聚焦节点不响应用户的操作事件,比如,某节点为显示一段文字,该段文字在接收用户对这段的文字操作时,保持文字的显示内容不变,不对接收到的用户操作进行响应。
当在网页DOM树中识别出非可聚焦节点时,确定该节点是否存在子节点,当该节点不具有子节点时,则表明该节点为DOM树中的页节点,这里,页节点为DOM树中最后一级节点,该节点只存在父节点或兄弟节点,而不存在子节点。这里,存在子节点的父节点为结构节点,不需要进行播报。
当确定一个非可聚焦节点为页节点时,获取该页节点的文本长度,当文本长度大于长度阈值时,确定该节点为具有文本信息的不具有子节点且不响应操作事件的节点,即为目标节点。
这里,可获取该节点的innerText属性值,通过innerText属性值通常对应该节点可显示的文本信息,当该属性值的文本长度大于长度阈值则表明该节点的文本长度大于长度阈值。其中,长度阈值可为零,也可为其他用于限定待语音播报的文本的最低长度,该值可根据实际需求进行设置。当文本长度大于零,表明待语音播报的节点存在显示的文本信息即可,当文本长度大于一值时,表明待语音播报的节点显示的文本信息需大于该值。
当确定一节点为目标节点时,将该节点的文本内容发送至语音辅助接口,这里,语音辅助播报接口是网页所属的浏览器或应用程序与手机系统语音辅助应用(如GOOGLE的TALKBACK)之间的桥梁,它将当前目标节点中的内容传递给语音辅助应用进行实时地语音播报,实现目标节点的文本内容的语音播报。
在本发明实施例中,在播报所述目标节点的文本内容之前,所述方法还包括:检测所述目标节点的待播报内容大小;根据所述目标节点的待播报内容大小对所述目标节点进行对应的节点重构处理。具体的,根据播报内容大小不同进行的处理不同:
当所述目标节点的待播报内容未达到第一预设范围时,对所述目标节点进行合并处理,将合并处理后的待播报内容作为文本内容;
当所述目标节点的待播报内容属于所述第一预设范围内时,获取所述目标节点的待播报内容,将输出待播报内容作为文本内容;
当所述目标节点的待播报内容超过所述第一预设范围时,对所述目标节点进行分割处理,输出分割处理后待播报内容作为文本内容。
这里,待播报内容的大小可包括待播报文本的长度、节点的布局高度等用于衡量待播报内容多少的参数,其中,布局高度为网页布局完成后该节点在实际网页中所占的内容像素高度。这里,以布局高度作为待播报内容的大小为例对根据待播报内容的大小对目标节点做对应的节点重构处理进行说明。这里的节点重构处理包括不处理直接输出目标节点的文本内容、进行分割处理输出分割后的分割节点的文本内容以及进行合并处理输出合并后的合并节点的文本内容。
当第一预设范围为(aH/10,aH),其中,H为移动终端的屏幕像素高度,a为一取值为1至1.5的系数,h为目标节点的布局高度。当aH/10<h<aH时,表明该目标节点的布局高度处于第一预设范围内,认为该目标节点的高度适中,则将该目标节点的文本内容作为待播报内容,直接输出至语音辅助接口。当h>aH时,表明该目标节点的布局高度超过第一预设范围,待播报内容相对过大,此时,对该目标节点的待播报内容进行分割处理,将该目标节点的待播报内容分割为多个分割节点,其中,每个分割节点的待播报内容处于(aH/10,aH)范围内,使得该待播报内容比较多的节点的内容分割为多个高度适中的分割节点进行语音播报,将分割节点的待播报内容依次发送至语音辅助接口,此时,可将分割后的多个分割节点根据分割顺序依次进行语音播报。当h<aH/10时,表明该目标节点的布局高度未达到第一预设范围,待播报内容相对过小,此时,对该目标节点进行合并处理,将该目标节点的待播报内容与待合并节点的待播报内容进行合并,使得合并后的合并节点的高度适中,即合并节点的待播报内容的大小适中,将合并后的合并节点的待播报内容发送至语音辅助接口,进行播报。
当目标节点的待播报内容未达到第一预设范围内时,从所述目标节点开始顺序查找所述目标节点的待合并节点,其中,所述待合并节点为所述目标节点的具有文本信息的不具有子节点的兄弟节点;当所述待合并节点与所述目标节点的元素标签相同时,将所述目标节点与所述合并节点进行合并得到合并节点;检测所述合并节点的待播报内容的大小是否未达到第一预设范围;当所述合并节点的待播报内容的大小未达到第一预设范围时,继续查找下一与所述目标节点的元素标签相同的待合并节点,直到所述合并节点的待播报内容的大小达到第一预设范围或不存在与所述目标节点的元素标签相同的待合并节点。这里,进行合并的节点的数量根据待合并节点的待播报内容的大小确定,使得合并后的合并节点的待播报内容的大小属于第二预设范围内,这里,第一预设范围与第二预设范围可相同,也可不同,具体的,可根据实际需求进行调整。待合并节点为与目标节点具有相同父节点的兄弟节点,且与目标节点的元素标签相同,元素标签可包括<p>、<div>、<h3>等,比如,目标节点的元素标签为<p>时,待合并节点的元素标签也为<p>。
通过本发明实施例提供的语音播报方法,一方面,通过页节点和innerText属性值的判断确定可支持语音播报的非可聚焦元素,即虚拟可聚焦节点,这样就避免了在按键机上进行按键聚焦会漏掉包含正文信息进行语音播报的节点,同时去除了一些不必要节点的语音播报,达到消除噪音的目的,能够解决现有技术中在进行语音播报时漏掉很多非聚焦元素的正文信息的问题,进行语音播报的过程中保证所有需播放内容的完整播报。另一方面,对非可聚焦节点进行节点动态重构处理中,通过对节点的待播报内容大小判断其内容是否过大或过小来进行动态节点分割或合并处理,从而避免了内容过大时会使每次播报的内容过多,不利于盲人用户进行重放,而过小又需要频繁地操作播报等问题。因此通过本发明实施例提供的语音播报的方法能够在各种类型的终端上很好地支持盲人用户进行语音辅助功能的网页导航的体验,具有很高的技术价值和商用价值。
实施例二
在本发明实施例二中,以双指滑动来触发目标节点的查找为具体的应用场景对本发明实施例提供的语音播报方法进行说明,如图2所示,该方法包括:
S201:接收到双指滑动事件时,判断备选节点是否为可聚焦节点;
当移动终端接收到用户的双指滑动操作时,确定接收到语音播报请求,此时,根据用户输入的双指滑动事件,在网页DOM树中从当前聚焦节点开始顺次查找下一个支持语音播报的可聚焦备选节点。当查找到备选节点时,判断该备选节点是否是常规可聚焦节点(即可聚焦节点),如果是进入S205进行处理,否则进入S202。这里常规可聚焦节点主要包括节点的元素标签为A(链接)、INPUT(输入框)、BUTTON(按钮)等节点,这些节点都是需要响应用户事件处理的元素,所以称为常规可聚焦节点;当一节点不是常规可聚焦节点时,确定该节点为非可聚焦节点。
S202、判断备选节点是否为页节点;
判断该备选节点是否是网页DOM树中的页节点,如果是进入S203,否则重新进入S201再查找下一个备选节点聚焦节点处理。这里DOM树中的页节点表示该节点无任何子节点元素。
S203、判断该节点的文本长度是否大于零;
获取该备选节点的innerText属性值,如果该属性值的文本长度大于零则进入S204处理,该备选节点即为查找的目标节点,否则重新进入S201再查找下一个备选聚焦节点处理。这里节点的innerText属性值对应该节点可显示的文本信息。
S204、根据该备选节点的待播报内容进行节点重构处理并进行语音播报;
这里,将该备选节点设置为虚拟可聚焦节点(即目标节点),并获取该可虚拟可聚焦节点的待播报内容的大小对该虚拟可聚焦节点进行节点重构处理,将处理后的节点的待播报内容发送至语音辅助接口,通过语音辅助接口将待播报内容传递给语音辅助应用进行实时地语音播报。
S205、将可聚焦节点的待播报内容进行播报。
将该常规可聚焦节点的待播报内容直接输出给语音辅助接口,通过语音辅助接口将待播报内容传递给语音辅助应用进行实时地语音播报。
实施例三
在本发明实施例三中,以在纯按键终端中通过用户按下方向键来触发目标节点的查找为具体的应用场景对本发明实施例提供的语音播报方法进行说明,但当用户按压下方向键时,终端接收到方向键事件。如图3所示,该方法包括:
S301:接收到方向键事件时,判断备选节点是否为可聚焦节点;
当移动终端接收到用户的方向键操作时,确定接收到语音播报请求,此时,根据用户按下的方向键事件,在网页DOM树中从当前聚焦节点开始顺次查找下一个支持语音播报的可聚焦备选节点,当查找到备选节点时,判断该备选节点是否是常规可聚焦节点(即可聚焦节点),如果是进入S305进行处理,否则进入S302。这里常规可聚焦节点主要包括节点的元素标签为A(链接)、INPUT(输入框)、BUTTON(按钮)等节点,这些节点都是需要响应用户事件处理的元素,所以称为常规可聚焦节点;当一节点不是可聚焦节点时,确定该节点为非可聚焦节点。
S302、判断备选节点是否为页节点;
判断该备选节点是否是网页DOM树中的页节点,如果是进入S303,否则重新进入S301再查找下一个备选节点聚焦节点处理。这里DOM树中的页节点表示该节点无任何子节点元素。
S303、判断该节点的文本长度是否大于零;
获取该备选节点的innerText属性值,如果该属性值的文本长度大于零则进入S304处理,该备选节点即为查找的目标节点,否则重新进入S301再查找下一个备选聚焦节点处理。这里节点的innerText属性值对应该节点可显示的文本信息。
S304、根据该备选节点的待播报内容进行节点重构处理并进行语音播报;
这里,将该备选节点设置为虚拟可聚焦节点(即目标节点),并获取该可虚拟可聚焦节点的待播报内容的大小对该虚拟可聚焦节点进行节点重构处理,将处理后的节点的待播报内容发送至语音辅助接口,通过语音辅助接口将待播报内容传递给语音辅助应用进行实时地语音播报。
S305、将该可聚焦节点的待播报内容直接输出给语音辅助接口,通过语音辅助接口将待播报内容传递给语音辅助应用进行实时地语音播报。
需要说明的是,根据实施例二和实施例三中的语音播报方法,本发明实施例提供的语音播报的方法中目标节点查找的处理适用于各种终端设备,除了输入触发方式不一样外,其他步骤处理都是完全一样。因此本发明实施例提供的进行语音播报的方法不局限于实体按键操作指令触发的方式或触摸屏上的手势指令动作,以及语音等其他输入指令动作。
实施例四
在本发明实施例四中,对本发明实施例提供的语音播报的方法中的节点重构的方法进行具体描述,这里,以获取的待播报内容大小为布局高度、第一预设范围为(aH/10,aH)为例对节点重构方法进行说明,如图4所示,该节点重构方法包括:
S401、获取目标节点的布局高度;
具体的,获取虚拟可聚焦节点(目标节点)的布局高度记为h,布局高度是指网页布局完成后该节点在实际网页中所占的内容像素高度;将获取的布局高度h与第一预设范围进行匹配。
S402、判断高度布局是否属于第一预设范围?
具体的,如果该虚拟可聚焦节点的布局高度h满足:
aH/10<h<aH (1)
则认为该高度适中进入S406处理,否则进入S403处理。这里H为终端设备的屏幕像素高度,a为一常系数,可取1或1.5。
S403、判断高度布局是否超过第一预设范围?
具体的,如果该虚拟可聚焦节点的布局高度h满足:
h>aH (2)
则认为该高度过大进入S406处理,否则进入S404处理;
S404、判断高度布局是否未达到第一预设范围?
具体的,如果该虚拟可聚焦节点的布局高度h满足:
h<aH/10 (3)
则认为该高度过小进入下一步骤S405处理。
S405:对目标节点进行合并处理;
判断该虚拟可聚焦节点的下一个节点也是虚拟可聚焦节点同时,该节点与目标节点具有相同的元素标签且具有相同的父节点,则该虚拟的下一个节点为待合并节点,则在DOM树中将该待合并节点合并到当前聚焦节点中并重新进入S401处理,否则进入S407处理;
S406:对目标节点进行分割处理;
将该虚拟可聚焦节点分割成满足式(1)的各个新的虚拟可聚焦节点即分割节点(也可称为分离节点),并将分割后的第一个分割节点作为当前虚拟可聚焦节点,进入S407处理;
S407:语音播报待播报内容。
将当前虚拟可聚焦节点的待播报内容发送到语音辅助接口,通过语音辅助接口将待播报内容传递给语音辅助应用进行实时地语音播报。
需要说明的是,在S401至S404的步骤中,依次比较布局高度与第一预设范围的关系,在实际应用中,可直接根据布局高度与第一预设范围的关系,进入对应的节点重构处理。
实施例五
为实现上述语音播报方法,本发明实施例五提供一种语音播报的装置,如图5所示,该装置包括:接收单元501、查找单元502以及播报单元503;其中,
接收单元501,用于接收到语音播报操作时,生成语音播报指令;
查找单元502,用于根据所述语音播报指令在当前的网页界面从当前聚焦节点开始查找节点;
播报单元503,用于当所述节点为目标节点时,播报所述目标节点的文本内容;其中,所述目标节点为具有文本信息的不具有子节点且不响应操作事件的节点。
如图6所示,该语音播报装置还可包括确定单元504,用于:确定所述节点为不响应操作事件的节点时,确定所述节点为非可聚焦节点;确定所述非可聚焦节点为网页文本对象模型DOM中不包括子节点的节点元素时,确定所述节点为页节点;判断所述页节点的文本长度;当所述页节点的文本长度大于预设的长度阈值时,确定所述节点为目标节点。
如图6所示,该语音播报装置还可包括检测单元505、重构单元506,其中,检测单元505,用于检测所述目标节点的待播报内容大小;重构单元506,用于根据所述目标节点的待播报内容大小对所述目标节点进行对应的节点重构处理。
如图7所示,重构单元506可包括:合并模块5061、直接播报模块5062以及分割模块5063;其中,
合并模块5061,用于当所述目标节点的待播报内容未达到第一预设范围时,对所述目标节点进行合并处理,将合并处理后的待播报内容作为文本内容;
直接播报模块5062,用于当所述目标节点的待播报内容属于所述第一预设范围内时,获取所述目标节点的待播报内容,将待播报内容作为文本内容;
分割模块5063,用于当所述目标节点的待播报内容超过所述第一预设范围时,对所述目标节点进行分割处理,将分割处理后待播报内容作为文本内容。
合并模块5061具体用于:当所述目标节点的待播报内容未达到第一预设范围时,从所述目标节点开始顺序查找所述目标节点的待合并节点,其中,所述待合并节点为所述目标节点的具有文本信息的不具有子节点的兄弟节点;当所述待合并节点与所述目标节点的元素标签相同时,将所述目标节点与所述合并节点进行合并得到合并节点;检测所述合并节点的待播报内容的大小是否未达到第一预设范围;当所述合并节点的待播报内容的大小未达到第一预设范围时,继续查找下一与所述目标节点的元素标签相同的待合并节点,直到所述合并节点的待播报内容的大小达到第一预设范围或不存在与所述目标节点的元素标签相同的待合并节点;将合并处理后的待播报内容作为文本内容。
实施例六
本发明实施例六以在浏览器中的一种支持语音辅助功能的网页导航方法为具体的应用场景,对本发明实施例提供的语音播报装置进行进一步说明,如图8所示,该装置聚焦节点处理单元801(与接收单元501、查找单元502、确定单元504对应)、节点动态重构处理单元802(与检测单元505、重构单元506对应)、语音辅助接口单元803(与播报单元503对应)。
聚焦节点处理单元801主要在接收到语音播报操作时,根据用户输入聚焦请求事件在网页DOM树中查找支持语音播报的可聚焦节点元素,将可聚焦节点直接输入到语音辅助接口单元803进行处理,其他能进行语音播报的节点作为虚拟可聚焦节点输入到节点重构处理单元802中。
节点重构处理单元802根据虚拟可聚焦节点布局高度进行动态合并或分割节点得到重构处理后的目标节点,将重构处理后的语音节点的待播报内容发送至给语音辅助接口单元803进行处理。
需要说明的是,语音辅助接口单元803可通过语音辅助接口实现,与语音播报应用程序结合实现语音的播报。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (10)

1.一种语音播报方法,其特征在于,所述方法包括:
接收到语音播报操作时,生成语音播报指令;
根据所述语音播报指令在当前的网页界面从当前聚焦节点开始查找节点;
当所述节点为目标节点时,播报所述目标节点的文本内容;其中,所述目标节点为具有文本信息的不具有子节点且不响应操作事件的节点。
2.根据权利要求1所述的方法,其特征在于,在播报所述目标节点的文本内容之前,所述方法还包括:
确定所述节点为不响应操作事件的节点时,确定所述节点为非可聚焦节点;
确定所述非可聚焦节点为网页文本对象模型DOM中不包括子节点的节点元素时,确定所述节点为页节点;
判断所述页节点的文本长度;
当所述页节点的文本长度大于预设的长度阈值时,确定所述节点为目标节点。
3.根据权利要求1所述的方法,其特征在于,在播报所述目标节点的文本内容之前,所述方法还包括:
检测所述目标节点的待播报内容大小;
根据所述目标节点的待播报内容大小对所述目标节点进行对应的节点重构处理。
4.根据权利要求3所述的方法,其特征在于,所述根据所述目标节点的待播报内容大小对所述目标节点进行对应的节点重构处理包括:
当所述目标节点的待播报内容未达到第一预设范围时,对所述目标节点进行合并处理,将合并处理后的待播报内容作为文本内容;
当所述目标节点的待播报内容属于所述第一预设范围内时,获取所述目标节点的待播报内容,将待播报内容作为文本内容;
当所述目标节点的待播报内容超过所述第一预设范围时,对所述目标节点进行分割处理,将分割处理后待播报内容作为文本内容。
5.根据权利要求4所述的方法,其特征在于,对所述目标节点进行合并处理包括:
从所述目标节点开始顺序查找所述目标节点的待合并节点,其中,所述待合并节点为所述目标节点的具有文本信息的不具有子节点的兄弟节点;
当所述待合并节点与所述目标节点的元素标签相同时,将所述目标节点与所述合并节点进行合并得到合并节点;
检测所述合并节点的待播报内容的大小是否未达到第一预设范围;
当所述合并节点的待播报内容的大小未达到第一预设范围时,继续查找下一与所述目标节点的元素标签相同的待合并节点,直到所述合并节点的待播报内容的大小达到第一预设范围或不存在与所述目标节点的元素标签相同的待合并节点。
6.一种语音播报装置,其特征在于,所述装置包括:接收单元、查找单元以及播报单元;其中,
所述接收单元,用于接收到语音播报操作时,生成语音播报指令;
所述查找单元,用于根据所述语音播报指令在当前的网页界面从当前聚焦节点开始查找节点;
所述播报单元,用于当所述节点为目标节点时,播报所述目标节点的文本内容;其中,所述目标节点为具有文本信息的不具有子节点且不响应操作事件的节点。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:确定单元,用于:
确定所述节点为不响应操作事件的节点时,确定所述节点为非可聚焦节点;
确定所述非可聚焦节点为网页文本对象模型DOM中不包括子节点的节点元素时,确定所述节点为页节点;
判断所述页节点的文本长度;
当所述页节点的文本长度大于预设的长度阈值时,确定所述节点为目标节点。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:检测单元和重构单元;其中,
所述检测单元,用于检测所述目标节点的待播报内容大小;
所述重构单元,用于根据所述目标节点的待播报内容大小对所述目标节点进行对应的节点重构处理。
9.根据权利要求8所述的装置,其特征在于,所述重构单元包括:合并模块、直接播报模块以及分割模块;其中,
所述合并模块,用于当所述目标节点的待播报内容未达到第一预设范围时,对所述目标节点进行合并处理,将合并处理后的待播报内容作为文本内容;
所述直接播报模块,用于当所述目标节点的待播报内容属于所述第一预设范围内时,获取所述目标节点的待播报内容,将待播报内容作为文本内容;
所述分割模块,用于当所述目标节点的待播报内容超过所述第一预设范围时,对所述目标节点进行分割处理,将分割处理后待播报内容作为文本内容。
10.根据权利要求9所述的装置,其特征在于,所述合并模块具体用于:
当所述目标节点的待播报内容未达到第一预设范围时,从所述目标节点开始顺序查找所述目标节点的待合并节点,其中,所述待合并节点为所述目标节点的具有文本信息的不具有子节点的兄弟节点;当所述待合并节点与所述目标节点的元素标签相同时,将所述目标节点与所述合并节点进行合并得到合并节点;检测所述合并节点的待播报内容的大小是否未达到第一预设范围;当所述合并节点的待播报内容的大小未达到第一预设范围时,继续查找下一与所述目标节点的元素标签相同的待合并节点,直到所述合并节点的待播报内容的大小达到第一预设范围或不存在与所述目标节点的元素标签相同的待合并节点;将合并处理后的待播报内容作为文本内容。
CN201610590146.5A 2016-07-25 2016-07-25 一种语音播报方法及装置 Active CN107656933B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201610590146.5A CN107656933B (zh) 2016-07-25 2016-07-25 一种语音播报方法及装置
PCT/CN2017/073946 WO2018018882A1 (zh) 2016-07-25 2017-02-17 一种语音播报方法及装置
EP17833197.1A EP3489845A4 (en) 2016-07-25 2017-02-17 LANGUAGE RADIO PROCESS AND DEVICE
US16/320,776 US11074037B2 (en) 2016-07-25 2017-02-17 Voice broadcast method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610590146.5A CN107656933B (zh) 2016-07-25 2016-07-25 一种语音播报方法及装置

Publications (2)

Publication Number Publication Date
CN107656933A true CN107656933A (zh) 2018-02-02
CN107656933B CN107656933B (zh) 2022-02-08

Family

ID=61017525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610590146.5A Active CN107656933B (zh) 2016-07-25 2016-07-25 一种语音播报方法及装置

Country Status (4)

Country Link
US (1) US11074037B2 (zh)
EP (1) EP3489845A4 (zh)
CN (1) CN107656933B (zh)
WO (1) WO2018018882A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110047214A (zh) * 2019-04-23 2019-07-23 深圳市丰巢科技有限公司 一种快递柜语音播报的配置方法、装置、设备及存储介质
CN110703614A (zh) * 2019-09-11 2020-01-17 珠海格力电器股份有限公司 语音控制方法、装置、语义网络构建方法及装置
CN110737817A (zh) * 2018-07-02 2020-01-31 中兴通讯股份有限公司 浏览器的信息处理方法、装置、智能设备及存储介质
WO2020228325A1 (zh) * 2019-05-14 2020-11-19 广东康云科技有限公司 基于浏览器的ai机器人实现方法、系统及存储介质
CN115766933A (zh) * 2022-10-31 2023-03-07 中国农业银行股份有限公司 一种无障碍模式语音播报方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070157081A1 (en) * 2004-07-06 2007-07-05 Fujitsu Limited Browser with screen-reading function and browsing processing method
CN101325768A (zh) * 2007-06-14 2008-12-17 鸿富锦精密工业(深圳)有限公司 移动通信装置及其按键输入方法
EP2385679A1 (en) * 2010-05-07 2011-11-09 Research In Motion Limited Locally stored phishing countermeasure
US8090583B1 (en) * 2002-12-18 2012-01-03 At&T Intellectual Property Ii, L.P. System and method of automatically generating building dialog services by exploiting the content and structure of websites
US8311835B2 (en) * 2003-08-29 2012-11-13 Microsoft Corporation Assisted multi-modal dialogue
CN102946469A (zh) * 2012-10-18 2013-02-27 北京小米科技有限责任公司 移动终端的语音播报方法和装置以及移动终端
CN103188316A (zh) * 2011-12-30 2013-07-03 上海博泰悦臻电子设备制造有限公司 车载端,车载语音播报的实现系统、适配装置和启动方法
CN103853355A (zh) * 2014-03-17 2014-06-11 吕玉柱 电子设备操作方法及其操控设备
CN104572650A (zh) * 2013-10-11 2015-04-29 中兴通讯股份有限公司 浏览器智能阅读实现方法、装置及其终端

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002033582A2 (en) * 2000-10-16 2002-04-25 Text Analysis International, Inc. Method for analyzing text and method for builing text analyzers
US7885390B2 (en) * 2005-07-01 2011-02-08 Soleo Communications, Inc. System and method for multi-modal personal communication services
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US10276170B2 (en) * 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
KR101314262B1 (ko) * 2010-11-11 2013-10-14 (주) 에스엔아이솔라 시각 장애인에 의한 객체 조작이 가능한 터치스크린 장치 및 그 장치에서의 객체 조작 방법
CN102117317B (zh) 2010-12-28 2012-08-22 北京航空航天大学 一种基于语音技术的盲人互联网系统
WO2014062859A1 (en) * 2012-10-16 2014-04-24 Audiologicall, Ltd. Audio signal manipulation for speech enhancement before sound reproduction
US9356574B2 (en) * 2012-11-20 2016-05-31 Karl L. Denninghoff Search and navigation to specific document content
US20150314454A1 (en) * 2013-03-15 2015-11-05 JIBO, Inc. Apparatus and methods for providing a persistent companion device
US9507561B2 (en) * 2013-03-15 2016-11-29 Verizon Patent And Licensing Inc. Method and apparatus for facilitating use of touchscreen devices
WO2016094807A1 (en) * 2014-12-11 2016-06-16 Vishal Sharma Virtual assistant system to enable actionable messaging

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8090583B1 (en) * 2002-12-18 2012-01-03 At&T Intellectual Property Ii, L.P. System and method of automatically generating building dialog services by exploiting the content and structure of websites
US8311835B2 (en) * 2003-08-29 2012-11-13 Microsoft Corporation Assisted multi-modal dialogue
US20070157081A1 (en) * 2004-07-06 2007-07-05 Fujitsu Limited Browser with screen-reading function and browsing processing method
CN101325768A (zh) * 2007-06-14 2008-12-17 鸿富锦精密工业(深圳)有限公司 移动通信装置及其按键输入方法
EP2385679A1 (en) * 2010-05-07 2011-11-09 Research In Motion Limited Locally stored phishing countermeasure
CN103188316A (zh) * 2011-12-30 2013-07-03 上海博泰悦臻电子设备制造有限公司 车载端,车载语音播报的实现系统、适配装置和启动方法
CN102946469A (zh) * 2012-10-18 2013-02-27 北京小米科技有限责任公司 移动终端的语音播报方法和装置以及移动终端
CN104572650A (zh) * 2013-10-11 2015-04-29 中兴通讯股份有限公司 浏览器智能阅读实现方法、装置及其终端
CN103853355A (zh) * 2014-03-17 2014-06-11 吕玉柱 电子设备操作方法及其操控设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110737817A (zh) * 2018-07-02 2020-01-31 中兴通讯股份有限公司 浏览器的信息处理方法、装置、智能设备及存储介质
CN110047214A (zh) * 2019-04-23 2019-07-23 深圳市丰巢科技有限公司 一种快递柜语音播报的配置方法、装置、设备及存储介质
WO2020228325A1 (zh) * 2019-05-14 2020-11-19 广东康云科技有限公司 基于浏览器的ai机器人实现方法、系统及存储介质
CN110703614A (zh) * 2019-09-11 2020-01-17 珠海格力电器股份有限公司 语音控制方法、装置、语义网络构建方法及装置
CN115766933A (zh) * 2022-10-31 2023-03-07 中国农业银行股份有限公司 一种无障碍模式语音播报方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN107656933B (zh) 2022-02-08
US11074037B2 (en) 2021-07-27
EP3489845A1 (en) 2019-05-29
US20190163439A1 (en) 2019-05-30
EP3489845A4 (en) 2019-06-05
WO2018018882A1 (zh) 2018-02-01

Similar Documents

Publication Publication Date Title
CN107656933A (zh) 一种语音播报方法及装置
KR102455232B1 (ko) 콘텍스트 기반 탭 관리를 위한 방법 및 전자 장치
CN105868166B (zh) 一种正则表达式的生成方法及系统
CN102929924A (zh) 一种基于浏览内容的取词搜索结果生成方法及装置
US20150169504A1 (en) Layer based reorganization of document components
CN102929925A (zh) 一种基于浏览内容的搜索方法及装置
CN102929926A (zh) 一种基于浏览内容的取词搜索方法及装置
CN102065114A (zh) 一种移动终端访问网页的方法及装置
CN102141868B (zh) 快捷操作信息交互页面的方法、输入法系统和浏览器插件
CN105677815B (zh) 一种网页书签添加方法及终端
CN102945243A (zh) 一种基于浏览内容的联系信息识别方法
US20150242474A1 (en) Inline and context aware query box
CN104298654A (zh) 用于显示信息的方法、装置
CN109634436A (zh) 输入法的联想方法、装置、设备及可读存储介质
CN109656444A (zh) 列表定位方法、装置、设备及存储介质
CN103941979B (zh) 一种在移动设备中输入文字的方法和装置
CN107547944A (zh) 接口实现方法及装置、机顶盒
US20140337709A1 (en) Method and apparatus for displaying web page
JP2021170309A (ja) トピック概念マイニング方法、装置、電子機器、記憶媒体及びプログラム
CN107544727A (zh) 一种光标的定位方法、系统、可读存储介质及计算机设备
CN106202160A (zh) 一种网页显示方法及装置
CN115391398A (zh) 信息搜索方法、装置、电子设备及可读存储介质
WO2017181619A1 (zh) 页面响应方法及装置
CN115292462A (zh) 文字生成方法和装置、移动终端、可读存储介质和芯片
CN104407853A (zh) 一种实现table多行同时编辑的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant