CN110085224B - 智能终端全程语音操控处理方法、智能终端及存储介质 - Google Patents
智能终端全程语音操控处理方法、智能终端及存储介质 Download PDFInfo
- Publication number
- CN110085224B CN110085224B CN201910286405.9A CN201910286405A CN110085224B CN 110085224 B CN110085224 B CN 110085224B CN 201910286405 A CN201910286405 A CN 201910286405A CN 110085224 B CN110085224 B CN 110085224B
- Authority
- CN
- China
- Prior art keywords
- text
- voice
- intelligent terminal
- interface element
- interface
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 58
- 238000004458 analytical method Methods 0.000 claims abstract description 44
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 26
- 238000004364 calculation method Methods 0.000 claims abstract description 16
- 238000012015 optical character recognition Methods 0.000 claims description 61
- 239000006185 dispersion Substances 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 5
- 238000000926 separation method Methods 0.000 claims 2
- 230000008569 process Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/196—Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
- G06V30/1983—Syntactic or structural pattern recognition, e.g. symbolic string recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了智能终端全程语音操控处理方法、智能终端及存储介质,所述方法包括:基于智能终端当前显示界面,同时进行本地和云端解析,分析出当前界面的所有界面元素对应的文本内容;当接收到用户语音输入,获取用户的语音指令内容;在已解析的界面元素库中,通过智能匹配算法计算出与语音指令对应的目标界面元素;根据计算结果,对目标界面元素执行点击和跳转操作,实现全程语音控制。本发明在用户输入语音指令后,结合语音指令文本,通过智能匹配算法计算出语音指令对应的最佳界面元素,针对目标界面元素执行点击和跳转操作,从而实现全程语音控制,对任何看见的界面元素进行精准语音控制,大大为用户的操作提供了方便。
Description
技术领域
本发明涉及智能终端技术领域,具体涉及一种智能终端全程语音操控处理方法、智能终端及存储介质。
背景技术
目前智能电视的语音操控技术能够实现基本的电视控制和功能,只要输入预先实现的语音命令即可执行对应的功能。
已有语音技术,在软件发布时已经限制了语音操控的局限性,仅支持预先设置的语音功能,无法全面适应用户在与电视设备交互过程中的所有控制需求,即用户无法全程通过语音控制电视,有时不方便用户操作使用。
因此,现有技术还有待于改进和发展。
发明内容
鉴于上述现有技术的不足之处,本发明的目的在于提供一种智能终端全程语音操控处理方法、智能终端及存储介质,本发明通过实时分析当前屏幕的界面元素,根据用户的语音输入内容,通过AI算法,智能匹配用户语音指令对对应的界面元素,从而精确控制,实现了任何界面下所见即可说的效果,给用户带来一种智能语音操控的高科技体验快感。
为了达到上述目的,本发明采取了以下技术方案:
一种智能终端全程语音操控处理方法,其中,包括如下步骤:
基于智能终端当前显示界面,同时进行本地和云端解析,分析出当前界面的所有界面元素对应的文本内容;
当接收到用户语音输入,获取用户的语音指令内容;在已解析的界面元素库中,通过智能匹配算法计算出与语音指令对应的目标界面元素;
根据计算结果,对目标界面元素执行点击和跳转操作,实现全程语音控制。
所述的智能终端全程语音操控处理方法,其中,所述基于智能终端当前显示界面,同时进行本地和云端解析,分析出当前界面的所有界面元素对应的文本内容的步骤包括:
基于智能终端当前界面,本地解析所有控件元素的文本和坐标信息,保存在界面元素文本信息库中;
同时截取当前界面,发送到云端服务器进行解析,获得图片中的文本和坐标,保存在界面元素信息库中。
所述的智能终端全程语音操控处理方法,其中,所述当接收到用户语音输入,获取用户的语音指令内容;在已解析的界面元素库中,通过智能匹配算法计算出与语音指令对应的目标界面元素的步骤还包括:
当接收到用户语音输入,获取用户的语音指令内容;
根据语音输入内容,在已解析的界面元素库中,将语音指令内容与当前界面元素信息库进行智能匹配,计算出最佳匹配的界面元素。
所述的智能终端全程语音操控处理方法,其中,所述根据计算结果,对目标界面元素执行点击和跳转操作,实现全程语音控制的步骤包括:
根据计算结果,对目标界面元素执行选中点击,实现跳转;以实现全程语音控制。
所述的智能终端全程语音操控处理方法,其中,所述基于智能终端当前显示界面,同时进行本地和云端解析,分析出当前界面的所有界面元素对应的文本内容的步骤还包括:
智能终端显示界面元素的解析,通过本地控件解析和云端OCR解析技术,全面解析出当前界面的所有界面元素的文本和坐标信息。
所述的智能终端全程语音操控处理方法,其中,所述通过智能匹配算法计算出与语音指令对应的目标界面元素的步骤还包括:
将目标文本与本地解析的控件树的文本信息做对比,当文本相似度达到指定阈值,且文本所在控件的属性符合可视可点击,则标记为匹配,即保存匹配的文本控件的中心坐标;
若本地解析的文本信息与目标文本不匹配,则获取图像识别服务器的解析结果,称OCR结果,若此时未有结果返回,则等待一定阈值时间,超时认为无匹配结果;
获取到OCR结果后,对目标文本和OCR结果中的文本计算出包含的最长公共子串,即公共文本,找到公共子串后在OCR结果中拼接出与目标文本长度相等的新文本,利用算法求编辑距离求出拼接文本与目标文本的相似度,记录该相似度,用于筛选最佳匹配项;
当相似度达到一定相似度阈值时,从OCR结果中,取出上述中求得的相似文本的每个字符的坐标,利用这些坐标的加减求出字符间的间距,再依次对这些字符间距求均值和方差,当方差小于一定阈值时,即可认为该字符串不离散,认为是电视视图中处于同一控件下的文本,并记录该方差为离散程度;同时计算并保存该字符串的中心坐标;
取相似字符串的前两个字符,以及OCR结果中处于这两个字符前的一个字符,求其离散程度,当离散程度大于一定阈值时,认为相似字符串与OCR结果中前序的文本在电视视图中分分隔开的,记之为前向离散程度;同理求出并记录后向离散程度;
通过系统接口,找出在OCR结果中计算所得的相似字符串的中心坐标所在位置的控件信息,如有可视可点击控件,记录点击次数;
结合系统接口和OCR结果的相似度、离散程度、前向后向离散程度,确认最佳匹配项。
一种智能终端,其中,包括:处理器、存储器和通信总线;
所述存储器上存储有可被所述处理器执行的智能终端全程语音操控处理程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述智能终端全程语音操控处理程序时实现如下步骤:
基于智能终端当前显示界面,同时进行本地和云端解析,分析出当前界面的所有界面元素对应的文本内容;
当接收到用户语音输入,获取用户的语音指令内容;在已解析的界面元素库中,通过智能匹配算法计算出与语音指令对应的目标界面元素;
根据计算结果,对目标界面元素执行点击和跳转操作,实现全程语音控制。
所述智能终端,其中,所述处理器执行所述智能终端全程语音操控处理程序时还实现如下步骤:
基于智能终端当前界面,本地解析所有控件元素的文本和坐标信息,保存在界面元素文本信息库中;
同时截取当前界面,发送到云端服务器进行解析,获得图片中的文本和坐标,保存在界面元素信息库中
当接收到用户语音输入,获取用户的语音指令内容;
根据语音输入内容,在已解析的界面元素库中,将语音指令内容与当前界面元素信息库进行智能匹配,计算出最佳匹配的界面元素。
所述智能终端,其中,所述处理器执行所述智能终端全程语音操控处理程序时还实现如下步骤:
根据计算结果,对目标界面元素执行选中点击,实现跳转;以实现全程语音控制;
智能终端显示界面元素的解析,通过本地控件解析和云端OCR解析技术,全面解析出当前界面的所有界面元素的文本和坐标信息;
所述通过智能匹配算法计算出与语音指令对应的目标界面元素的步骤还包括:
将目标文本与本地解析的控件树的文本信息做对比,当文本相似度达到指定阈值,且文本所在控件的属性符合可视可点击,则标记为匹配,即保存匹配的文本控件的中心坐标;
若本地解析的文本信息与目标文本不匹配,则获取图像识别服务器的解析结果,称OCR结果,若此时未有结果返回,则等待一定阈值时间,超时认为无匹配结果;
获取到OCR结果后,对目标文本和OCR结果中的文本计算出包含的最长公共子串,即公共文本,找到公共子串后在OCR结果中拼接出与目标文本长度相等的新文本,利用算法求编辑距离求出拼接文本与目标文本的相似度,记录该相似度,用于筛选最佳匹配项;
当相似度达到一定相似度阈值时,从OCR结果中,取出上述中求得的相似文本的每个字符的坐标,利用这些坐标的加减求出字符间的间距,再依次对这些字符间距求均值和方差,当方差小于一定阈值时,即可认为该字符串不离散,认为是电视视图中处于同一控件下的文本,并记录该方差为离散程度;同时计算并保存该字符串的中心坐标;
取相似字符串的前两个字符,以及OCR结果中处于这两个字符前的一个字符,求其离散程度,当离散程度大于一定阈值时,认为相似字符串与OCR结果中前序的文本在电视视图中分分隔开的,记之为前向离散程度;同理求出并记录后向离散程度;
通过系统接口,找出在OCR结果中计算所得的相似字符串的中心坐标所在位置的控件信息,如有可视可点击控件,记录点击次数;
结合系统接口和OCR结果的相似度、离散程度、前向后向离散程度,确认最佳匹配项。
一种计算机可读存储介质,其中,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现任意一项所述的智能终端全程语音操控处理方法中的步骤。
相较于现有技术,本发明提供的智能终端全程语音操控处理方法、智能终端及存储介质,本发明基于电视当前显示界面,同时进行本地和云端解析,分析出当前界面的所有界面元素对应的文本内容,用户输入语音指令后,结合语音指令文本,通过智能匹配算法计算出语音指令对应的最佳界面元素,针对目标界面元素执行点击和跳转操作,从而实现全程语音控制,对任何看见的界面元素进行精准语音控制,大大为用户的操作提供了方便。
附图说明
图1为本发明提供的智能终端全程语音操控处理方法的其中一实施例流程图。
图2为本发明提供的智能终端全程语音操控处理方法的语音指认解析过程流程图。
图3为本发明提供的智能终端全程语音操控处理方法的另一实施例流程图。
图4为本发明智能终端较佳实施例的功能模块图。
图5为本发明提供的智能终端全程语音操控处理方法的本地控件解析示意图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
请参阅图1,本发明提供的智能终端全程语音操控处理方法包括以下步骤:
S100、基于智能终端当前显示界面,同时进行本地和云端解析,分析出当前界面的所有界面元素对应的文本内容;
本发明实施例中,采用基于智能终端当前显示界面,同时进行本地和云端解析,分析出当前界面的所有界面元素对应的文本内容。其中,所述智能终端为智能电视,当然还可以为智能电脑,智能手机等。
本步骤中基于智能终端当前界面,本地解析所有控件元素的文本和坐标信息,保存在界面元素文本信息库中;即解析当前界面所有控件元素的文本和坐标信息并保存,例如解析调台控件,中央一台具体坐标位置等,方便后面语音指令操作点击和跳转。
同时截取当前界面,发送到云端服务器进行解析,获得图片中的文本和坐标,保存在界面元素信息库中。而当前界面图片信息,是通过发给云端服务器进行解析文本和坐标,保存。
S200、当接收到用户语音输入,获取用户的语音指令内容;在已解析的界面元素库中,通过智能匹配算法计算出与语音指令对应的目标界面元素。
本发明实施例中,当接收到用户语音输入,获取用户的语音指令内容;在已解析的界面元素库中,通过智能匹配算法计算出与语音指令对应的目标界面元素。
具体地,如图2所示,当接收到用户语音输入,获取用户的语音指令内容;根据语音输入内容,在已解析的界面元素库中,将语音指令内容与当前界面元素信息库进行智能匹配,计算出最佳匹配的界面元素。如图2所示,用户的语音指令,可通过智能电视的 UI(界面)解析模块进行解析,其中界面的控件是通过DUMP文件解析各控件树的(Dump文件是进程的内存镜像)。其中,图片文件的文字和位置信息是通过OCR解析,所谓OCR解析,是截取当前界面的截图,把截图文件上传到云服务器,解析出图片中的文字和位置信息并返回。此种方法可以有效识别出图片中嵌入的文本以及非标准的文本(艺术字体)。 例如,图片文件解析截图,通过OCR服务器解析出文字+位置信息(包括坐标信息)。
当解析完成,文字+位置,通过智能匹配算法计算出与语音指令对应的目标界面元素,以计算最佳匹配元素。例如,将目标文本与本地解析的控件树的文本信息作对比,当文本相似度达到指定阈值,且文本所在控件的属性符合“可视可点击”,则标记为匹配,即保存匹配的文本控件的中心坐标。
其中,所述通过智能匹配算法计算出与语音指令对应的目标界面元素具体为:
1、将目标文本与本地解析的控件树的文本信息作对比,当文本相似度达到指定阈值(例如相似度达80%以上),且文本所在控件的属性符合“可视可点击”,则标记为匹配,即保存匹配的文本控件的中心坐标;
2、若本地解析的文本信息与目标文本不匹配,则获取图像识别服务器的解析结果(以下称OCR结果),若此时未有结果返回,则等待一定阈值时间(例如1秒),超时认为无匹配结果;
3、获取到OCR结果后,对目标文本和OCR结果中的文本使用算法计算出包含的最长公共子串(即公共文本),找到公共子串后在OCR结果中拼接出与目标文本长度相等的新文本,利用算法求编辑距离(Levenshtein Distance)求出拼接文本与目标文本的相似度,记录该相似度,用于筛选最佳匹配项;
4、当相似度达到一定相似度阈值(例如相似度达80%以上)时,从OCR结果中,取出步骤3中求得的相似文本的每个字符的坐标,利用这些坐标的加减求出字符间的间距,再依次对这些字符间距求均值和方差,当方差小于一定阈值时,即可认为该字符串不离散,认为是电视视图中处于同一控件下的文本,并记录该方差为离散程度;同时计算并保存该字符串的中心坐标;
5、取相似字符串的前两个字符,以及OCR结果中处于这两个字符前的一个字符,同步骤7理求其离散程度,当离散程度大于一定阈值时,认为相似字符串与OCR结果中前序的文本在电视视图中分分隔开的,记之为前向离散程度;同理求出并记录后向离散程度;
6、通过系统接口,找出在OCR结果中计算所得的相似字符串的中心坐标所在位置的控件信息,如有“可视可点击”控件,记录点击次数;
7、结合系统接口和OCR结果的相似度、离散程度、前向后向离散程度,确认最佳匹配项。
S300、根据计算结果,对目标界面元素执行点击和跳转操作,实现全程语音控制。
本发明实施例中,根据计算结果,对目标界面元素执行点击和跳转操作,实现全程语音控制。
即根据计算结果,对目标界面元素执行选中点击,实现跳转;以实现全程语音控制。例如,当用户语音指令,“切换打开腾讯视频APP”,则本发明实施例中会自动根据用户的语音指令找到“腾讯视频APP”,目标界面元素执行点击和跳转操作,以切换打开腾讯视频APP。
本发明实施例中,所述基于智能终端当前显示界面,同时进行本地和云端解析,分析出当前界面的所有界面元素对应的文本内容的步骤还包括: 智能终端显示界面元素的解析,通过本地控件解析和云端OCR解析技术,全面解析出当前界面的所有界面元素的文本和坐标信息。例如,如图5所示,例如:如下电视界面,通过本地控件解析可以解析出第一行的文字(“首页”,“商城”等)的坐标,以及图片中的文字(“少儿”,“让利返场”等)的坐标。
本发明实施例,可以实现将语音输入应用到所有可见界面元素的控制,达到所见即可得到效果,实现全程语音控制。
以下通过一具体应用实施例对本发明做进一步详细说明:
如图3所示,本发明提供了一种智能终端全程语音操控处理方法,实现步骤包括:
1、基于当前电视界面,本地解析所有控件元素的文本和坐标信息,保存在界面元素文本信息库中
2、同时截取当前电视界面,发送到云端服务器进行解析,获得图片中的文本和坐标,保存在界面元素信息库中
3、用户进行语音输入,获取到用户的语音指令内容;
4、将语音指令内容与当前界面元素信息库进行智能匹配,计算出最佳匹配的界面元素
5、根据计算结果,对目标界面元素执行选中点击,实现跳转。
由上可见,本发明提供了一种智能终端全程语音操控处理方法,本发明基于电视当前显示界面,同时进行本地和云端解析,分析出当前界面的所有界面元素对应的文本内容,用户输入语音指令后,结合语音指令文本,通过智能匹配算法计算出语音指令对应的最佳界面元素,针对目标界面元素执行点击和跳转操作,从而实现全程语音控制,对任何看见的界面元素进行精准语音控制,大大为用户的操作提供了方便。
如图4所示,基于上述智能终端全程语音操控处理方法,本发明还相应提供了一种智能终端,所述智能终端可以是智能电视、手机、桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该智能终端包括处理器10、存储器20及显示屏30, 处理器10通过通信总线50与存储器20连接,所述显示屏30通过通信总线50与处理器10连接。图2仅示出了智能终端的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器20在一些实施例中可以是所述智能终端的内部存储单元,例如智能终端的内存。所述存储器20在另一些实施例中也可以是所述智能终端的外部存储设备,例如所述智能终端上配备的插接式U盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器20还可以既包括所智能终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述智能终端的应用软件及各类数据,例如所述安装智能终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,存储器20上存储有智能终端全程语音操控处理方法程序40,该智能终端全程语音操控处理方法程序40可被处理器10所执行,从而实现本申请中智能终端全程语音操控处理方法。
所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器,手机基带处理器或其他数据处理芯片,用于运行所述存储器20中存储的程序代码或处理数据,例如执行所述智能终端全程语音操控处理方法等。
所述显示屏30在一些实施例中可以是LED显示屏、液晶显示屏、触控式液晶显示屏以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示屏30用于显示在所述智能终端的信息以及用于显示可视化的用户界面。所述智能终端的部件10-30通过系统总线相互通信。
在一实施例中,当处理器10执行所述存储器20中智能终端全程语音操控处理方法程序40时实现以下步骤:
基于智能终端当前显示界面,同时进行本地和云端解析,分析出当前界面的所有界面元素对应的文本内容;
当接收到用户语音输入,获取用户的语音指令内容;在已解析的界面元素库中,通过智能匹配算法计算出与语音指令对应的目标界面元素;
根据计算结果,对目标界面元素执行点击和跳转操作,实现全程语音控制。
所述智能终端,其中,所述处理器执行所述智能终端全程语音操控处理程序时还实现如下步骤:
基于智能终端当前界面,本地解析所有控件元素的文本和坐标信息,保存在界面元素文本信息库中;
同时截取当前界面,发送到云端服务器进行解析,获得图片中的文本和坐标,保存在界面元素信息库中
当接收到用户语音输入,获取用户的语音指令内容;
根据语音输入内容,在已解析的界面元素库中,将语音指令内容与当前界面元素信息库进行智能匹配,计算出最佳匹配的界面元素。
所述智能终端,其中,所述处理器执行所述智能终端全程语音操控处理程序时还实现如下步骤:
根据计算结果,对目标界面元素执行选中点击,实现跳转;以实现全程语音控制;
智能终端显示界面元素的解析,通过本地控件解析和云端OCR解析技术,全面解析出当前界面的所有界面元素的文本和坐标信息;
将语音输入应用到所有可见界面元素的控制,达到所见即可得到效果,实现全程语音控制,具体如上所述。
基于上述实施例,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述任意一项所述的智能终端全程语音操控处理方法中的步骤,具体如上所述。
综上所述,本发明提供的智能终端全程语音操控处理方法、智能终端及存储介质中,本发明提供的智能终端全程语音操控处理方法、智能终端及存储介质,本发明基于电视当前显示界面,同时进行本地和云端解析,分析出当前界面的所有界面元素对应的文本内容,用户输入语音指令后,结合语音指令文本,通过智能匹配算法计算出语音指令对应的最佳界面元素,针对目标界面元素执行点击和跳转操作,从而实现全程语音控制,对任何看见的界面元素进行精准语音控制,大大为用户的操作提供了方便。
当然,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件(如处理器,控制器等)来完成,所述的程序可存储于一计算机可读取的存储介质中,该程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (6)
1.一种智能终端全程语音操控处理方法,其特征在于,包括如下步骤:
基于智能终端当前显示界面,同时进行本地和云端解析,分析出当前界面的所有界面元素对应的文本内容;
接收到用户语音输入,获取用户的语音指令内容;在已解析的界面元素库中,通过智能匹配算法计算出与语音指令对应的目标界面元素;
所述通过智能匹配算法计算出与语音指令对应的目标界面元素的步骤还包括:
将目标文本与本地解析的控件树的文本信息做对比,当文本相似度达到指定阈值,且文本所在控件的属性符合可视可点击,则标记为匹配,即保存匹配的文本控件的中心坐标;
若本地解析的文本信息与目标文本不匹配,则获取图像识别服务器的解析结果,称OCR结果,若此时未有结果返回,则等待一定阈值时间,超时认为无匹配结果;
获取到OCR结果后,对目标文本和OCR结果中的文本计算出包含的最长公共子串,即公共文本,找到最长公共子串后在OCR结果中拼接出与目标文本长度相等的新文本,利用算法求编辑距离求出拼接文本与目标文本的相似度,记录该相似度,用于筛选最佳匹配项;
当相似度达到一定相似度阈值时,从OCR结果中,取出求得的相似文本的每个字符的坐标,利用这些坐标的加减求出字符间的间距,再依次对这些字符间距求均值和方差,当方差小于一定阈值时,即可认为字符串不离散,认为是电视视图中处于同一控件下的文本,并记录该方差为离散程度;同时计算并保存字符串的中心坐标;
取相似字符串的前两个字符,以及OCR结果中处于这两个字符前的一个字符,求其离散程度,当离散程度大于一定阈值时,认为相似字符串与OCR结果中前序的文本在电视视图中是分隔开的,记之为前向离散程度;
取相似字符串的后两个字符,以及OCR结果中处于这两个字符后的一个字符,求其离散程度,当离散程度大于一定阈值时,认为相似字符串与OCR结果中后序的文本在电视视图中是分隔开的,记之为后向离散程度;
通过系统接口,找出在OCR结果中计算所得的相似字符串的中心坐标所在位置的控件信息,如有可视可点击控件,记录点击次数;
结合系统接口和OCR结果的相似度、离散程度、前向后向离散程度,确认最佳匹配项;
根据计算结果,对目标界面元素执行点击和跳转操作,实现全程语音控制。
2.根据权利要求1所述的智能终端全程语音操控处理方法,其特征在于,所述基于智能终端当前显示界面,同时进行本地和云端解析,分析出当前界面的所有界面元素对应的文本内容的步骤包括:
基于智能终端当前界面,本地解析所有控件元素的文本和坐标信息,保存在界面元素库中;
同时截取当前界面,发送到云端服务器进行解析,获得图片中的文本和坐标,保存在界面元素库中。
3.根据权利要求1所述的智能终端全程语音操控处理方法,其特征在于,所述当接收到用户语音输入,获取用户的语音指令内容;在已解析的界面元素库中,通过智能匹配算法计算出与语音指令对应的目标界面元素的步骤还包括:
当接收到用户语音输入,获取用户的语音指令内容;
根据语音输入内容,在已解析的界面元素库中,将语音指令内容与当前界面元素库进行智能匹配,计算出最佳匹配的界面元素。
4.一种智能终端,其特征在于,包括:处理器、存储器和通信总线;
所述存储器上存储有可被所述处理器执行的智能终端全程语音操控处理程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述智能终端全程语音操控处理程序时实现如下步骤:
基于智能终端当前显示界面,同时进行本地和云端解析,分析出当前界面的所有界面元素对应的文本内容;
接收到用户语音输入,获取用户的语音指令内容;在已解析的界面元素库中,通过智能匹配算法计算出与语音指令对应的目标界面元素;
所述处理器执行所述智能终端全程语音操控处理程序时还实现如下步骤:
根据计算结果,对目标界面元素执行选中点击,实现跳转;以实现全程语音控制;
智能终端显示界面元素的解析,通过本地控件解析和云端OCR解析技术,全面解析出当前界面的所有界面元素的文本和坐标信息;
所述通过智能匹配算法计算出与语音指令对应的目标界面元素的步骤还包括:
将目标文本与本地解析的控件树的文本信息做对比,当文本相似度达到指定阈值,且文本所在控件的属性符合可视可点击,则标记为匹配,即保存匹配的文本控件的中心坐标;
若本地解析的文本信息与目标文本不匹配,则获取图像识别服务器的解析结果,称OCR结果,若此时未有结果返回,则等待一定阈值时间,超时认为无匹配结果;
获取到OCR结果后,对目标文本和OCR结果中的文本计算出包含的最长公共子串,即公共文本,找到最长公共子串后在OCR结果中拼接出与目标文本长度相等的新文本,利用算法求编辑距离求出拼接文本与目标文本的相似度,记录该相似度,用于筛选最佳匹配项;
当相似度达到一定相似度阈值时,从OCR结果中,取出求得的相似文本的每个字符的坐标,利用这些坐标的加减求出字符间的间距,再依次对这些字符间距求均值和方差,当方差小于一定阈值时,即可认为字符串不离散,认为是电视视图中处于同一控件下的文本,并记录该方差为离散程度;同时计算并保存字符串的中心坐标;
取相似字符串的前两个字符,以及OCR结果中处于这两个字符前的一个字符,求其离散程度,当离散程度大于一定阈值时,认为相似字符串与OCR结果中前序的文本在电视视图中是分隔开的,记之为前向离散程度;
取相似字符串的后两个字符,以及OCR结果中处于这两个字符后的一个字符,求其离散程度,当离散程度大于一定阈值时,认为相似字符串与OCR结果中后序的文本在电视视图中是分隔开的,记之为后向离散程度;
通过系统接口,找出在OCR结果中计算所得的相似字符串的中心坐标所在位置的控件信息,如有可视可点击控件,记录点击次数;
结合系统接口和OCR结果的相似度、离散程度、前向后向离散程度,确认最佳匹配项;
根据计算结果,对目标界面元素执行点击和跳转操作,实现全程语音控制。
5.根据权利要求4所述智能终端,其特征在于,所述处理器执行所述智能终端全程语音操控处理程序时还实现如下步骤:
基于智能终端当前界面,本地解析所有控件元素的文本和坐标信息,保存在界面元素库中;
同时截取当前界面,发送到云端服务器进行解析,获得图片中的文本和坐标,保存在界面元素库中;
当接收到用户语音输入,获取用户的语音指令内容;
根据语音输入内容,在已解析的界面元素库中,将语音指令内容与当前界面元素库进行智能匹配,计算出最佳匹配的界面元素。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-3任意一项所述的智能终端全程语音操控处理方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910286405.9A CN110085224B (zh) | 2019-04-10 | 2019-04-10 | 智能终端全程语音操控处理方法、智能终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910286405.9A CN110085224B (zh) | 2019-04-10 | 2019-04-10 | 智能终端全程语音操控处理方法、智能终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110085224A CN110085224A (zh) | 2019-08-02 |
CN110085224B true CN110085224B (zh) | 2021-06-01 |
Family
ID=67414711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910286405.9A Active CN110085224B (zh) | 2019-04-10 | 2019-04-10 | 智能终端全程语音操控处理方法、智能终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110085224B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112306447A (zh) * | 2019-08-30 | 2021-02-02 | 北京字节跳动网络技术有限公司 | 一种界面导航方法、装置、终端和存储介质 |
CN110706707B (zh) * | 2019-11-13 | 2020-09-18 | 百度在线网络技术(北京)有限公司 | 用于语音交互的方法、装置、设备和计算机可读存储介质 |
CN111145754B (zh) * | 2019-12-12 | 2021-04-13 | 深圳追一科技有限公司 | 语音输入方法、装置、终端设备及存储介质 |
CN111145747A (zh) * | 2019-12-30 | 2020-05-12 | 智车优行科技(北京)有限公司 | 一种语音控制实现方法及装置 |
CN111263236B (zh) * | 2020-02-21 | 2022-04-12 | 广州欢网科技有限责任公司 | 电视机应用的语音适配方法和装置及语音控制方法 |
CN111475241B (zh) * | 2020-04-02 | 2022-03-11 | 深圳创维-Rgb电子有限公司 | 一种界面的操作方法、装置、电子设备及可读存储介质 |
CN111681658A (zh) * | 2020-06-05 | 2020-09-18 | 苏州思必驰信息科技有限公司 | 车载app的语音控制方法和装置 |
CN112732379B (zh) * | 2020-12-30 | 2023-12-15 | 智道网联科技(北京)有限公司 | 智能终端上应用程序的运行方法、终端和存储介质 |
CN113077858B (zh) * | 2021-03-19 | 2022-11-29 | 海信视像科技股份有限公司 | 显示设备控件的控制方法、显示设备及服务器 |
CN114049892A (zh) * | 2021-11-12 | 2022-02-15 | 杭州逗酷软件科技有限公司 | 语音控制方法、装置以及电子设备 |
CN116560611A (zh) * | 2022-01-29 | 2023-08-08 | 华为技术有限公司 | 一种语音控制方法、装置和电子设备 |
CN114625297A (zh) * | 2022-03-15 | 2022-06-14 | 上海小度技术有限公司 | 一种交互方法、装置、设备以及存储介质 |
CN116088992B (zh) * | 2023-02-13 | 2024-02-02 | 润芯微科技(江苏)有限公司 | 一种基于图像识别和语音识别的点击控制方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140013192A1 (en) * | 2012-07-09 | 2014-01-09 | Sas Institute Inc. | Techniques for touch-based digital document audio and user interface enhancement |
CN105161106A (zh) * | 2015-08-20 | 2015-12-16 | 深圳Tcl数字技术有限公司 | 智能终端的语音控制方法、装置及电视机系统 |
CN107077319A (zh) * | 2016-12-22 | 2017-08-18 | 深圳前海达闼云端智能科技有限公司 | 基于语音控制的位置定位方法、装置、用户设备及计算机程序产品 |
CN107424609A (zh) * | 2017-07-31 | 2017-12-01 | 北京云知声信息技术有限公司 | 一种语音控制方法及装置 |
CN107608652A (zh) * | 2017-08-28 | 2018-01-19 | 三星电子(中国)研发中心 | 一种语音控制图形界面的方法和装置 |
CN108279839A (zh) * | 2017-01-05 | 2018-07-13 | 阿里巴巴集团控股有限公司 | 基于语音的交互方法、装置、电子设备及操作系统 |
CN108683937A (zh) * | 2018-03-09 | 2018-10-19 | 百度在线网络技术(北京)有限公司 | 智能电视的语音交互反馈方法、系统及计算机可读介质 |
CN109241523A (zh) * | 2018-08-10 | 2019-01-18 | 北京百度网讯科技有限公司 | 变体作弊字段的识别方法、装置及设备 |
US20190042186A1 (en) * | 2017-08-07 | 2019-02-07 | Dolbey & Company, Inc. | Systems and methods for using optical character recognition with voice recognition commands |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7133538B2 (en) * | 2002-04-10 | 2006-11-07 | National Instruments Corporation | Pattern matching utilizing discrete curve matching with multiple mapping operators |
CN101533474B (zh) * | 2008-03-12 | 2014-06-04 | 三星电子株式会社 | 基于视频图像的字符和图像识别系统和方法 |
US8588529B2 (en) * | 2011-08-15 | 2013-11-19 | Vistaprint Schweiz Gmbh | Method and system for detecting text in raster images |
US11074495B2 (en) * | 2013-02-28 | 2021-07-27 | Z Advanced Computing, Inc. (Zac) | System and method for extremely efficient image and pattern recognition and artificial intelligence platform |
-
2019
- 2019-04-10 CN CN201910286405.9A patent/CN110085224B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140013192A1 (en) * | 2012-07-09 | 2014-01-09 | Sas Institute Inc. | Techniques for touch-based digital document audio and user interface enhancement |
CN105161106A (zh) * | 2015-08-20 | 2015-12-16 | 深圳Tcl数字技术有限公司 | 智能终端的语音控制方法、装置及电视机系统 |
CN107077319A (zh) * | 2016-12-22 | 2017-08-18 | 深圳前海达闼云端智能科技有限公司 | 基于语音控制的位置定位方法、装置、用户设备及计算机程序产品 |
CN108279839A (zh) * | 2017-01-05 | 2018-07-13 | 阿里巴巴集团控股有限公司 | 基于语音的交互方法、装置、电子设备及操作系统 |
CN107424609A (zh) * | 2017-07-31 | 2017-12-01 | 北京云知声信息技术有限公司 | 一种语音控制方法及装置 |
US20190042186A1 (en) * | 2017-08-07 | 2019-02-07 | Dolbey & Company, Inc. | Systems and methods for using optical character recognition with voice recognition commands |
CN107608652A (zh) * | 2017-08-28 | 2018-01-19 | 三星电子(中国)研发中心 | 一种语音控制图形界面的方法和装置 |
CN108683937A (zh) * | 2018-03-09 | 2018-10-19 | 百度在线网络技术(北京)有限公司 | 智能电视的语音交互反馈方法、系统及计算机可读介质 |
CN109241523A (zh) * | 2018-08-10 | 2019-01-18 | 北京百度网讯科技有限公司 | 变体作弊字段的识别方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110085224A (zh) | 2019-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110085224B (zh) | 智能终端全程语音操控处理方法、智能终端及存储介质 | |
WO2022142014A1 (zh) | 基于多模态信息融合的文本分类方法、及其相关设备 | |
CN107832662B (zh) | 一种获取图片标注数据的方法和系统 | |
CN107223246B (zh) | 图像标注方法、装置及电子设备 | |
CN106933630B (zh) | 一种客户端升级方法、装置、设备及存储介质 | |
US11475588B2 (en) | Image processing method and device for processing image, server and storage medium | |
US20210294855A1 (en) | Method for processing information, electronic device and storage medium | |
CN113382279B (zh) | 直播推荐方法、装置、设备、存储介质以及计算机程序产品 | |
CN107977155B (zh) | 一种手写识别方法、装置、设备和存储介质 | |
CN111309200A (zh) | 一种扩展阅读内容的确定方法、装置、设备及存储介质 | |
US20190227634A1 (en) | Contextual gesture-based image searching | |
CN113190695A (zh) | 多媒体数据搜索方法及装置、计算机设备和介质 | |
CN110727595B (zh) | 一种应用登录界面识别方法、智能终端及存储介质 | |
EP3961433A2 (en) | Data annotation method and apparatus, electronic device and storage medium | |
EP3910496A1 (en) | Search method and device | |
CN107862035B (zh) | 会议记录的网络读取方法、装置、智能平板和存储介质 | |
US10963690B2 (en) | Method for identifying main picture in web page | |
CN106878773B (zh) | 电子设备、视频处理方法及装置和存储介质 | |
CN111708912A (zh) | 视频会议记录查询处理方法、装置 | |
CN108665769B (zh) | 基于卷积神经网络的网络教学方法以及装置 | |
CN114880498B (zh) | 事件信息展示方法及装置、设备和介质 | |
US10275528B2 (en) | Information processing for distributed display of search result | |
CN108304104B (zh) | 一种数据获取方法及其设备、存储介质、终端 | |
CN113127058B (zh) | 数据标注方法、相关装置及计算机程序产品 | |
CN115017922A (zh) | 图片翻译的方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |