CN109410932A - 基于html5网页的语音操作方法和装置 - Google Patents

基于html5网页的语音操作方法和装置 Download PDF

Info

Publication number
CN109410932A
CN109410932A CN201811206012.4A CN201811206012A CN109410932A CN 109410932 A CN109410932 A CN 109410932A CN 201811206012 A CN201811206012 A CN 201811206012A CN 109410932 A CN109410932 A CN 109410932A
Authority
CN
China
Prior art keywords
information
text
module
user
html5 webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811206012.4A
Other languages
English (en)
Other versions
CN109410932B (zh
Inventor
骆何飞
李升起
赵洪飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811206012.4A priority Critical patent/CN109410932B/zh
Publication of CN109410932A publication Critical patent/CN109410932A/zh
Application granted granted Critical
Publication of CN109410932B publication Critical patent/CN109410932B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例提出一种基于HTML5网页的语音操作方法和装置,方法包括:获取客户端接收的用户语音指令的语音解析结果;识别语音解析结果中的页面操作指令,页面操作指令包括页面内容信息和操作类别信息;根据页面操作指令执行对应的页面操作;将页面操作结果反馈至客户端,以使客户端显示操作结果。通过HTML5网页与客户端之间的交互,可直接通过语音对HTML5网页进行对应的页面编辑操作,使得用户从客户端的富文本功能和手动操作模式中脱离,提高了用户操作效率并较小了用户操作成本。

Description

基于HTML5网页的语音操作方法和装置
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于HTML5网页的语音操作方法和装置。
背景技术
现有的程序中基于HTML5(Hyper Text Markup Language,超级文本标记语言)网页的写作过程均需要用户手动触发按键事件,使得HTML5网页接收到触发事件并作出对应的操作处理。例如,用户手动点击输入、换行等操作按钮后用户才能进行对应的操作,这样使得用户的操作成本提高。另一方面,用户只能够使用程序中提前预置好的一些操作富文本特性功能对写作内容进行相应的修改,而不能够根据自己的需要个性化使用。
在背景技术中公开的上述信息仅用于加强对本发明的背景的理解,因此其可能包含没有形成为本领域普通技术人员所知晓的现有技术的信息。
发明内容
本发明实施例提供一种基于HTML5网页的语音操作方法和装置,以解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种基于HTML5网页的语音操作方法,包括:
获取客户端接收的用户语音指令的语音解析结果;
识别语音解析结果中的页面操作指令,所述页面操作指令包括页面内容信息和操作类别信息;
根据所述页面操作指令执行对应的页面操作;
将页面操作结果反馈至所述客户端,以使所述客户端显示所述操作结果。
在一个实施方式中,所述操作类别信息包括文字生成和/或文本编辑。
在一个实施方式中,当所述操作类别信息为文字生成时,根据所述页面操作指令执行对应的页面操作,包括:
对所述页面内容信息进行筛选,提取出所述页面内容信息中的有效文字信息;
将所述有效文字信息转换成对应的文字。
在一个实施方式中,当所述操作类别信息为文本编辑时,根据所述页面操作指令执行对应的页面操作,包括:
提取出所述操作类别信息中的关键词,所述关键词包括文本位置信息以及编辑方式信息;
对所述页面内容信息进行筛选,提取出所述页面内容信息中的有效文字信息;
根据所述文本位置信息和所述有效文字信息,找到对应的待编辑内容;
根据所述编辑方式信息对所述待编辑内容做出对应的编辑操作。
第二方面,本发明实施例提供了一种基于HTML5网页的语音操作方法,包括:
获取用户的语音指令;
对所述用户的语音指令进行语音解析;
将语音解析结果并发送至HTML5网页,以使HTML5网页识别所述语音解析结果中的页面操作指令并执行与所述页面操作指令对应的操作;其中,所述页面操作指令包括页面内容信息和操作类别信息;
获取HTML5网页的操作结果并显示。
在一个实施方式中,还包括:
创建与所述HTML5网页的关联,用于完成与所述HTML5网页的交互;
创建与语音采集模块的关联,用于获取所述语音采集模块采集的所述用户的语音指令。
在一个实施方式中,所述操作类别信息包括文字生成和/或文本编辑。
在一个实施方式中,对所述用户的语音指令进行语音解析,包括:
将所述用户的语音指令发送至服务器进行语音解析;
接收所述服务器的语音解析结果。
第三方面,本发明实施例提供了一种基于HTML5网页的语音操作装置,包括:
获取模块,获取客户端接收的用户语音指令的语音解析结果;
识别模块,用于识别语音解析结果中的页面操作指令,所述页面操作指令包括页面内容信息和操作类别信息;
执行模块,用于根据所述页面操作指令执行对应的页面操作;
反馈模块,用于将页面操作结果反馈至所述客户端,以使所述客户端显示所述操作结果。
在一个实施方式中,执行模块包括:
第一提取子模块,用于对所述页面内容信息进行筛选,提取出所述页面内容信息中的有效文字信息;
文字生成子模块,用于将所述有效文字信息转换成对应的文字。
在一个实施方式中,执行模块包括:
第二提取子模块,用于提取出所述操作类别信息中的关键词,所述关键词包括文本位置信息以及编辑方式信息;
第三提取子模块,用于对所述页面内容信息进行筛选,提取出所述页面内容信息中的有效文字信息;
查找子模块,用于根据所述文本位置信息和所述有效文字信息,找到对应的待编辑内容;
编辑子模块,用于根据所述编辑方式信息对所述待编辑内容做出对应的编辑操作。
第四方面,本发明实施例提供了一种基于HTML5网页的语音操作装置,包括:
获取模块,用于获取用户的语音指令;
解析模块,用于对所述用户的语音指令进行语音解析;
发送模块,用于将语音解析结果并发送至HTML5网页,以使HTML5网页识别所述语音解析结果中的页面操作指令并执行与所述页面操作指令对应的操作;其中,所述页面操作指令包括页面内容信息和操作类别信息;
显示模块,用于获取HTML5网页的操作结果并显示。
在一个实施方式中,还包括:
第一关联模块,用于创建与所述HTML5网页的关联,用于完成与所述HTML5网页的交互;
第二关联模块,用于创建与语音采集模块的关联,用于获取所述语音采集模块采集的所述用户的语音指令。
在一个实施方式中,解析模块包括:
发送子模块,用于将所述用户的语音指令发送至服务器进行语音解析;
接收子模块,用于接收所述服务器的语音解析结果。
第五方面,本发明实施例提供了一种基于HTML5网页的语音操作的终端,包括:
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,基于HTML5网页的语音操作的终端的结构中包括处理器和存储器,所述存储器用于存储支持基于HTML5网页的语音操作的终端执行上述第一方面中基于HTML5网页的语音操作方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。基于HTML5网页的语音操作的终端还可以包括通信接口,用于基于HTML5网页的语音操作的终端与其他设备或通信网络通信。
第六方面,本发明实施例提供了一种计算机可读存储介质,用于存储基于HTML5网页的语音操作的终端所用的计算机软件指令,其包括用于执行上述第一方面中基于HTML5网页的语音操作方法为基于HTML5网页的语音操作的终端所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:过HTML5网页与客户端之间的交互,可直接通过语音对HTML5网页进行对应的页面编辑操作,使得用户从客户端的富文本功能和手动操作模式中脱离,提高了用户操作效率并较小了用户操作成本。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为本发明实施方式提供的基于HTML5网页的语音操作方法的流程图。
图2为本发明实施方式提供的步骤S300的具体流程图。
图3为本发明另一实施方式提供的步骤S300的具体流程图。
图4为本发明另一实施方式提供的基于HTML5网页的语音操作方法的流程图。
图5为本发明实施方式提供的基于HTML5网页的语音操作装置的结构示意图。
图6为本发明实施方式提供的执行模块的结构示意图。
图7为本发明另一实施方式提供的基于HTML5网页的语音操作装置的结构示意图。
图8为本发明又一实施方式提供的基于HTML5网页的语音操作装置的结构示意图。
图9为本发明实施方式提供的基于HTML5网页的语音操作装置的工作框图示。
图10为本发明实施方式提供的由客户端进入HTML5网页的显示界面示意图。
图11为本发明实施方式提供的基于HTML5网页的语音操作终端结构示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
本发明实施例提供了一种基于HTML5网页的语音操作方法,可应用于HTML5网页,如图1所示,包括以下步骤:
S100:获取客户端接收的用户语音指令的语音解析结果。语音解析结果可以理解为对用户的音频语音指令进行转换和解析,从而得到的带有指令信息的数据。
S200:识别语音解析结果中的页面操作指令,页面操作指令包括页面内容信息和操作类别信息。操作类别信息可以理解为用户的需求,例如,操作类别信息为文字生成和/或文本编辑。页面内容信息可以理解为具体需要生成的文字内容或是需要编辑的文本内容。
S300:根据页面操作指令执行对应的页面操作。页面操作的内容不限于客户端中提前预置的富文本特性功能(例如,文字加粗、段落换行、文本内容插入和删除等)。也可以是客户端中不具有的富文本特性功能。从而实现根据用户的语音指令做出与语音指令对应的任意个性化操作。无需根据客户端中预置的功能限定用户可用的指令内容,降低了用户的操作成本,满足了用户的个性化使用需求。
S400:将页面操作结果反馈至客户端,以使客户端显示操作结果。例如,客户端为手机中安装的app(Application,应用程序),则需要将HTML5网页中根据用户语音指令实现的操作结果通过app的界面显示给用户。
在一个实施例中,操作类别信息可以包括文字生成和/或文本编辑。文字生成可以理解为将用户通过语音说出的内容转化成文字。文本编辑可以理解为根据用户通过语音说出的指令对已有的文本内容进行编辑修改。编辑修改的操作方式可以是现有技术中的任意方式,例如,文字加粗、文字斜体、段落换行、语句插入、语句删除、改变文字字体字号等任意编辑操作。
在一个优选的实施方式中,操作类别信息还可以包括图片编辑。例如,通过用户的语音指令插入图片、删除图片、调整图片大小、改变图片颜色等。
在一个实施例中,如图2所示,当操作类别信息为文字生成时,根据页面操作指令执行对应的页面操作,包括:
S310:对页面内容信息进行筛选,提取出页面内容信息中的有效文字信息。由于页面内容信息中包含用户希望生成的文字信息数据,同时也有可能包含用户不希望生成的文字信息数据,因此需要对页面内容信息中的文字信息数据进行判断和提取,筛选出有效文字信息。
S320:将有效文字信息转换成对应的文字。
在一个具体应用示例中,客户端采集到用户的语音指令为“我想写一段话,内容是今天是十月一号,天气晴朗”,客户端将该语音指令进行解析并将语音解析结果发送给HTML5网页。HTML5网页对该语音解析结果进行识别,根据“我想写一段话”判断出用户的操作类别信息为文字生成。进一步的,判断这段语音指令中的希望生成的文字内容为“今天是十月一号,天气晴朗”,不希望生成的文字内容为“我想写一段话,内容是”,因此将页面操作指令中的“今天是十月一号,天气晴朗”作为有效文字信息筛选提取出,并将其转换成对应的文字生成。
在一个实施例中,如图3所示,当操作类别信息为文本编辑时,根据页面操作指令执行对应的页面操作,包括:
S330:提取操作类别信息中的关键词。关键词包括文本位置信息以及编辑方式信息。文本位置信息可以理解为用户希望编辑的语句、文字、词汇或是段落等在整个文本中所处的具体位置。编辑方式可以理解为是现有技术中的任意方式,例如,文字加粗、文字斜体、段落换行、语句插入、语句删除、改变文字字体字号等任意编辑方式。
S340:对页面内容信息进行筛选,提取出页面内容信息中的有效文字信息。
S350:根据文本位置信息和有效文字信息,找到对应的待编辑内容。
S360:根据编辑方式信息对待编辑内容做出对应的编辑操作。
在一个具体应用示例中,客户端采集到用户的语音指令为“我想将全文中的第二自然段的所有文字加粗”。客户端将该语音指令进行解析并将语音解析结果发送给HTML5网页。HTML5网页对该语音解析结果进行识别,根据“我想将……加粗”判断出用户的页面操作指令的类别是文本编辑。进一步的,提取出页面操作指令中的文本位置信息为“全文中的第二自然段”。提取出页面操作指令中的编辑方式信息为“所有文字加粗”。提取出的有效文字信息为“第二自然段的所有文字”。从而在HTML5网页找到全文中的第二自然段,并将第二自然段进行加粗操作。
在一个实施例中,还包括:
创建HTML5网页与客户端的关联,用于完成客户端与HTML5网页的数据交互。例如,使客户端能够将用户语音指令的语音解析结果以json(JavaScript Object Notation,JS对象简谱)数据格式发送给HTML5网页。
创建客户端与语音采集模块的关联,用于使得客户端能够获取语音采集模块采集的用户的语音指令。
在一个实施方式中,客户端可以直接对获取的用户的语音指令进行解析,也可以发送至服务器进行解析。服务器将语音解析结果发送至客户端,客户端再将语音解析结果发送至HTML5网页。
在一个应用示例中,客户启动客户端,客户端通过webview(网络视图)加载HTML5网页。然后客户端通过json代码注入完成创建与HTML5网页的关联,并创建与语音采集模块的关联。当用户通过语音采集模块输入语音指令后,客户端获取语音采集模块采集的用户的语音指令,并将用户的语音指令通过http的形式发送至服务器进行解析。服务器完成解析后将语音解析结果发送给客户端。客户端将语音解析结果通过jsbridge(JavaScriptbridge,js桥)发送至HTML5网页。然后HTML5网页执行上述各实施例S100-S400的步骤,从而实现对用户语音指令在网页上做出与之对应的文字生成(例如写作)或文本编辑操作。
本发明实施例提供了一种基于HTML5网页的语音操作方法,可应用于客户端(例如app),如图4所示,包括以下步骤:
S10:获取用户的语音指令。
S20:对用户的语音指令进行语音解析。
S30:将语音解析结果并发送至HTML5网页,以使HTML5网页识别语音解析结果中的页面操作指令并执行与页面操作指令对应的操作。其中,页面操作指令包括页面内容信息和操作类别信息。
S40:获取HTML5网页的操作结果并显示。
在一个实施例中,还包括:
创建与HTML5网页的关联,用于完成与HTML5网页的交互。
创建与语音采集模块的关联,用于获取语音采集模块采集的用户的语音指令。
在一个实施例中,操作类别信息包括文字生成和/或文本编辑。
在一个实施例中,对用户的语音指令进行语音解析,包括:
将用户的语音指令发送至服务器进行语音解析。
接收服务器的语音解析结果。
本发明实施例提供了一种基于HTML5网页的语音操作装置,如图5所示,包括:
获取模块10,用于获取客户端接收的用户语音指令的语音解析结果。
识别模块20,用于识别语音解析结果中的页面操作指令,页面操作指令包括页面内容信息和操作类别信息。
执行模块30,用于根据页面操作指令执行对应的页面操作;
反馈模块40,用于将页面操作结果反馈至客户端,以使客户端显示操作结果。
在一个实施例中,如图6所示,执行模块30包括:
第一提取子模块31,用于对页面内容信息进行筛选,提取出页面内容信息中的有效文字信息。
文字生成子模块32,用于将有效文字信息转换成对应的文字。
在一个实施例中,如图6所示,执行模块30包括:
第二提取子模块33,用于提取出操作类别信息中的关键词,关键词包括文本位置信息以及编辑方式信息。
第三提取子模块34,用于对页面内容信息进行筛选,提取出页面内容信息中的有效文字信息。
查找子模块35,用于根据文本位置信息和有效文字信息,找到对应的待编辑内容。
编辑子模块36,用于根据编辑方式信息对待编辑内容做出对应的编辑操作。
本发明实施例提供了一种基于HTML5网页的语音操作装置,如图7所示,包括:
获取模块50,用于获取用户的语音指令。
解析模块60,用于对用户的语音指令进行语音解析。
发送模块70,用于将语音解析结果并发送至HTML5网页,以使HTML5网页识别语音解析结果中的页面操作指令并执行与页面操作指令对应的操作;其中,页面操作指令包括页面内容信息和操作类别信息。
显示模块80,用于获取HTML5网页的操作结果并显示。
在一个实施例中,如图8所示,还包括:
第一关联模块91,用于创建与HTML5网页的关联,用于完成与HTML5网页的交互;
第二关联模块92,用于创建与语音采集模块的关联,用于获取语音采集模块采集的用户的语音指令。
在一个实施例中,解析模块包括:
发送子模块,用于将用户的语音指令发送至服务器进行语音解析。
接收子模块,用于接收服务器的语音解析结果。
需要说明的是,上述各实施例中基于HTML5网页的语音操作装置均包含与各方法实施例对应的模块,或是基于HTML5网页的语音操作装置均包含与各方法实施例对应的功能。
在一个应用示例中,一种基于HTML5网页的语音操作装置,如图9所示,包括:客户端APP100和APP服务器200。
客户端APP100包括web(即HTML5网页)界面模块101和webview模块102。web界面模块101能够实现通过json数据格式与Native(客户端APP100)通信。web界面模块101还能够实现HTML5网页大小与客户端APP100的显示界面的页面适配。web界面模块101能够实现用户交互处理、数据输入(例如语音输入)、UI(User Interface,用户界面)显示以及根据语音解析结果在页面上进行语音操作。webview模块102通过JSCore(JavaScript Core,JS通信桥梁)加载web界面模块101以显示HTML5网页。webview模块102中还存储有资源(例如,界面中的案件、输入框等可调用的触发事件)。webview模块102能够实现Native与HTML5网页交互以及数据传递。还能够实现网络请求功能,例如将用户的语音指令通过http的形式发送至服务器进行解析。
APP服务器200用于接收客户端APP100传递的语音指令数据,以及接受APP100的调用。客户端APP100用于获取APP服务器200解析后的语音解析结果。APP服务器200包括appservice模块201以及语音service模块202。app service服务模块201用于调用语音service模块202对用户的语音指令进行解析。语音service模块202用于对用户的语音指令进行解析并将语音解析结果发送至app service模块201。
在一个应用示例中,如图10所示,提供了一种由客户端进入HTML5网页的显示界面示意图。HTML5网页界面中包括语音采集识别显示区300和用户交互区400。用户点击语音采集识别显示区300底部的“说完了”按钮,即可与语音采集模块关联,实现语音指令的采集。语音采集模块将采集的语音指令发送至客户端进行解析,客户端将语音解析结果发送至HTML5网页,HTML5网页识别语音解析结果中的页面操作指令,根据页面操作指令执行对应的页面操作并通过用户交互区400显示最终的页面操作结果。
本发明实施例提供了一种基于HTML5网页的语音操作的终端,如图11所示,包括:
存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。处理器920执行计算机程序时实现上述实施例中的基于HTML5网页的语音操作方法。存储器910和处理器920的数量可以为一个或多个。
通信接口930,用于存储器910和处理器920与外部进行通信。
存储器910可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器910、处理器920、以及通信接口930独立实现,则存储器910、处理器920以及通信接口930可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA,Extended IndustryStandard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920以及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现如实施例一包括的任一所述的基于HTML5网页的语音操作方法。
在一个实施例中,HTML5网页可以与运行在iOS、Android等任何已有的运行系统上客户端适配,无需针对不同的系统重新设计HTML5网页。HTML5网页根据用户语音指令做出的对应页面操作不局限于客户端内预置的富文本功能,其页面操作可以独立于客户端,因此无需使客户端对应客户的语音指令进行新功能的开发与发版。本发明实施例很方便的实现了Android或iOS与HTML5网页之间的语音交互,可以通过预置Api(ApplicationProgramming Interface,应用程序编程接口)在HTML5网页中进行语音输入和语音操作,大大降低了用户的操作成本。并且实现语音输入与语音指令操作。可直接语音文字加粗、插入和引用等富文本功能。同时在增加新功能的时候,无需再在Native做新功能的开发与发版。另外相关页面也不需要再为Android和iOS适配两套方案了,从而达到了跨品台的特性,开发效率也得到了很大的提升。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (16)

1.一种基于HTML5网页的语音操作方法,其特征在于,包括:
获取客户端接收的用户语音指令的语音解析结果;
识别语音解析结果中的页面操作指令,所述页面操作指令包括页面内容信息和操作类别信息;
根据所述页面操作指令执行对应的页面操作;
将页面操作结果反馈至所述客户端,以使所述客户端显示所述操作结果。
2.如权利要求1所述的方法,其特征在于,所述操作类别信息包括文字生成和/或文本编辑。
3.如权利要求2所述的方法,其特征在于,当所述操作类别信息为文字生成时,根据所述页面操作指令执行对应的页面操作,包括:
对所述页面内容信息进行筛选,提取出所述页面内容信息中的有效文字信息;
将所述有效文字信息转换成对应的文字。
4.如权利要求2所述的方法,其特征在于,当所述操作类别信息为文本编辑时,根据所述页面操作指令执行对应的页面操作,包括:
提取出所述操作类别信息中的关键词,所述关键词包括文本位置信息以及编辑方式信息;
对所述页面内容信息进行筛选,提取出所述页面内容信息中的有效文字信息;
根据所述文本位置信息和所述有效文字信息,找到对应的待编辑内容;
根据所述编辑方式信息对所述待编辑内容做出对应的编辑操作。
5.一种基于HTML5网页的语音操作方法,其特征在于,包括:
获取用户的语音指令;
对所述用户的语音指令进行语音解析;
将语音解析结果并发送至HTML5网页,以使HTML5网页识别所述语音解析结果中的页面操作指令并执行与所述页面操作指令对应的操作;其中,所述页面操作指令包括页面内容信息和操作类别信息;
获取HTML5网页的操作结果并显示。
6.如权利要求5所述的方法,其特征在于,还包括:
创建与所述HTML5网页的关联,用于完成与所述HTML5网页的交互;
创建与语音采集模块的关联,用于获取所述语音采集模块采集的所述用户的语音指令。
7.如权利要求5所述的方法,其特征在于,所述操作类别信息包括文字生成和/或文本编辑。
8.如权利要求5所述的方法,其特征在于,对所述用户的语音指令进行语音解析,包括:
将所述用户的语音指令发送至服务器进行语音解析;
接收所述服务器的语音解析结果。
9.一种基于HTML5网页的语音操作装置,其特征在于,包括:
获取模块,用于获取客户端接收的用户语音指令的语音解析结果;
识别模块,用于识别语音解析结果中的页面操作指令,所述页面操作指令包括页面内容信息和操作类别信息;
执行模块,用于根据所述页面操作指令执行对应的页面操作;
反馈模块,用于将页面操作结果反馈至所述客户端,以使所述客户端显示所述操作结果。
10.如权利要求9所述的装置,其特征在于,执行模块包括:
第一提取子模块,用于对所述页面内容信息进行筛选,提取出所述页面内容信息中的有效文字信息;
文字生成子模块,用于将所述有效文字信息转换成对应的文字。
11.如权利要求9所述的装置,其特征在于,执行模块包括:
第二提取子模块,用于提取出所述操作类别信息中的关键词,所述关键词包括文本位置信息以及编辑方式信息;
第三提取子模块,用于对所述页面内容信息进行筛选,提取出所述页面内容信息中的有效文字信息;
查找子模块,用于根据所述文本位置信息和所述有效文字信息,找到对应的待编辑内容;
编辑子模块,用于根据所述编辑方式信息对所述待编辑内容做出对应的编辑操作。
12.一种基于HTML5网页的语音操作装置,其特征在于,包括:
获取模块,用于获取用户的语音指令;
解析模块,用于对所述用户的语音指令进行语音解析;
发送模块,用于将语音解析结果并发送至HTML5网页,以使HTML5网页识别所述语音解析结果中的页面操作指令并执行与所述页面操作指令对应的操作;其中,所述页面操作指令包括页面内容信息和操作类别信息;
显示模块,用于获取HTML5网页的操作结果并显示。
13.如权利要求12所述的装置,其特征在于,还包括:
第一关联模块,用于创建与所述HTML5网页的关联,用于完成与所述HTML5网页的交互;
第二关联模块,用于创建与语音采集模块的关联,用于获取所述语音采集模块采集的所述用户的语音指令。
14.如权利要求12所述的装置,其特征在于,解析模块包括:
发送子模块,用于将所述用户的语音指令发送至服务器进行语音解析;
接收子模块,用于接收所述服务器的语音解析结果。
15.一种基于HTML5网页的语音操作终端,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至8中任一项所述的方法。
16.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至8中任一项所述的方法。
CN201811206012.4A 2018-10-17 2018-10-17 基于html5网页的语音操作方法和装置 Active CN109410932B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811206012.4A CN109410932B (zh) 2018-10-17 2018-10-17 基于html5网页的语音操作方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811206012.4A CN109410932B (zh) 2018-10-17 2018-10-17 基于html5网页的语音操作方法和装置

Publications (2)

Publication Number Publication Date
CN109410932A true CN109410932A (zh) 2019-03-01
CN109410932B CN109410932B (zh) 2022-03-01

Family

ID=65467311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811206012.4A Active CN109410932B (zh) 2018-10-17 2018-10-17 基于html5网页的语音操作方法和装置

Country Status (1)

Country Link
CN (1) CN109410932B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112291223A (zh) * 2020-10-23 2021-01-29 摩森特(北京)科技有限公司 一种手机终端不支持5g消息的解决方法
CN112289314A (zh) * 2020-09-28 2021-01-29 珠海大横琴科技发展有限公司 一种语音处理方法和装置
CN112540758A (zh) * 2020-12-08 2021-03-23 杭州讯酷科技有限公司 一种基于语音识别的ui界面智能构建方法
CN112735424A (zh) * 2020-12-23 2021-04-30 青岛海尔科技有限公司 语音识别方法及装置、存储介质及电子装置
CN113961285A (zh) * 2021-09-27 2022-01-21 北京三快在线科技有限公司 页面显示方法、服务器、客户端、电子设备及存储介质
CN116340685A (zh) * 2023-03-28 2023-06-27 广东保伦电子股份有限公司 一种基于语音生成网页方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100105364A1 (en) * 2008-10-29 2010-04-29 Seung-Jin Yang Mobile terminal and control method thereof
CN102629246A (zh) * 2012-02-10 2012-08-08 北京百纳信息技术有限公司 识别浏览器语音命令的服务器及浏览器语音命令识别方法
CN102905185A (zh) * 2012-10-26 2013-01-30 四川长虹电器股份有限公司 全语音控制html5视频播放的方法
EP2653964A2 (en) * 2012-04-20 2013-10-23 Nuance Communications, Inc. Methods and systems for speech-enabling a human-to-machine interface
CN104240707A (zh) * 2012-11-26 2014-12-24 北京奇虎科技有限公司 用于浏览器的语音识别处理方法和浏览器
WO2016045501A1 (zh) * 2014-09-24 2016-03-31 阿里巴巴集团控股有限公司 搜索方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100105364A1 (en) * 2008-10-29 2010-04-29 Seung-Jin Yang Mobile terminal and control method thereof
CN102629246A (zh) * 2012-02-10 2012-08-08 北京百纳信息技术有限公司 识别浏览器语音命令的服务器及浏览器语音命令识别方法
EP2653964A2 (en) * 2012-04-20 2013-10-23 Nuance Communications, Inc. Methods and systems for speech-enabling a human-to-machine interface
CN102905185A (zh) * 2012-10-26 2013-01-30 四川长虹电器股份有限公司 全语音控制html5视频播放的方法
CN104240707A (zh) * 2012-11-26 2014-12-24 北京奇虎科技有限公司 用于浏览器的语音识别处理方法和浏览器
WO2016045501A1 (zh) * 2014-09-24 2016-03-31 阿里巴巴集团控股有限公司 搜索方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112289314A (zh) * 2020-09-28 2021-01-29 珠海大横琴科技发展有限公司 一种语音处理方法和装置
CN112291223A (zh) * 2020-10-23 2021-01-29 摩森特(北京)科技有限公司 一种手机终端不支持5g消息的解决方法
CN112291223B (zh) * 2020-10-23 2023-03-24 摩森特(北京)科技有限公司 一种手机终端不支持5g消息的解决方法
CN112540758A (zh) * 2020-12-08 2021-03-23 杭州讯酷科技有限公司 一种基于语音识别的ui界面智能构建方法
CN112540758B (zh) * 2020-12-08 2024-05-07 杭州讯酷科技有限公司 一种基于语音识别的ui界面智能构建方法
CN112735424A (zh) * 2020-12-23 2021-04-30 青岛海尔科技有限公司 语音识别方法及装置、存储介质及电子装置
CN113961285A (zh) * 2021-09-27 2022-01-21 北京三快在线科技有限公司 页面显示方法、服务器、客户端、电子设备及存储介质
CN116340685A (zh) * 2023-03-28 2023-06-27 广东保伦电子股份有限公司 一种基于语音生成网页方法及系统
CN116340685B (zh) * 2023-03-28 2024-01-30 广东保伦电子股份有限公司 一种基于语音生成网页方法及系统

Also Published As

Publication number Publication date
CN109410932B (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN109410932A (zh) 基于html5网页的语音操作方法和装置
US20220245328A1 (en) Customizable data management form builder method and devices
CN106662920B (zh) 交互式视频生成
US10366154B2 (en) Information processing device, information processing method, and computer program product
US20160306784A1 (en) Audio Onboarding Of Digital Content With Enhanced Audio Communications
US20150024351A1 (en) System and Method for the Relevance-Based Categorizing and Near-Time Learning of Words
EP3602330B1 (en) Automatically generating documents
CN109582945A (zh) 文章生成方法、装置及存储介质
CN103761277A (zh) 一种ePub电子书的加载方法和系统
CN104915186B (zh) 一种制作页面的方法和装置
CN111324390A (zh) 实现app内容可配置和实时更新的装置及方法
CN108170785B (zh) 终端搜索操作的引导方法、装置及计算机可读存储介质
CN113655999A (zh) 一种页面控件的渲染方法、装置、设备及存储介质
CN111880813B (zh) 实现安卓卡片ui的方法、存储介质
KR20200034660A (ko) 쉬워진 사용자 반응
US20150111189A1 (en) System and method for browsing multimedia file
CN110134410A (zh) 冷启动用户的个性化信息关联方法、装置及存储介质
CN113419711A (zh) 页面引导方法、装置、电子设备及存储介质
US20130124959A1 (en) Application generation apparatus, application generation method, and computer-readable recording medium
JP6664536B1 (ja) ウエブフォーム入力支援システム
CN113297425A (zh) 文档转换方法、装置、服务器及存储介质
US20200388076A1 (en) Method and system for generating augmented reality interactive content
KR101165201B1 (ko) 컨텐츠 제공 시스템의 변환서버
US20130104014A1 (en) Viewer unit, server unit, display control method, digital comic editing method and non-transitory computer-readable medium
US20240126978A1 (en) Determining attributes for elements of displayable content and adding them to an accessibility tree

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant