CN111626035B - 一种版面分析方法及电子设备 - Google Patents

一种版面分析方法及电子设备 Download PDF

Info

Publication number
CN111626035B
CN111626035B CN202010270092.0A CN202010270092A CN111626035B CN 111626035 B CN111626035 B CN 111626035B CN 202010270092 A CN202010270092 A CN 202010270092A CN 111626035 B CN111626035 B CN 111626035B
Authority
CN
China
Prior art keywords
region
matched
service
roi
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010270092.0A
Other languages
English (en)
Other versions
CN111626035A (zh
Inventor
姚恒志
施烈航
王志远
李乐陶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202010270092.0A priority Critical patent/CN111626035B/zh
Publication of CN111626035A publication Critical patent/CN111626035A/zh
Priority to US17/916,520 priority patent/US20230154147A1/en
Priority to EP21784560.1A priority patent/EP4113356A4/en
Priority to PCT/CN2021/085900 priority patent/WO2021204187A1/zh
Application granted granted Critical
Publication of CN111626035B publication Critical patent/CN111626035B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04886Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures by partitioning the display area of the touch-screen or the surface of the digitising tablet into independently controllable areas, e.g. virtual keyboards or menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/048Indexing scheme relating to G06F3/048
    • G06F2203/04808Several contacts: gestures triggering a specific function, e.g. scrolling, zooming, right-click, when the user establishes several contacts with the surface simultaneously; e.g. using several fingers or a combination of fingers and pen

Abstract

本申请提供一种版面分析方法及电子设备,涉及人工智能(Artificial Intelligence,AI)领域的智能推荐与搜索技术。解决了在接收到用户触发版面分析的操作后,基于系统组件的判别方式可能导致的电子设备实际提供的服务与用户实际想使用服务不符的问题。接收用户在电子设备的触摸屏上的触发进行版面分析的操作;响应于该操作,获取至少一个ROI;根据电子设备的触摸屏上当前显示界面的内容,确定当前显示界面中各待匹配区域的类型和位置信息;根据至少一个ROI和每个待匹配区域的类型和位置信息,确定至少一个ROI与每类待匹配区域的重叠程度;至少根据至少一个ROI与每类待匹配区域的重叠程度确定并运行对应服务;在电子设备的触摸屏上显示运行该服务后的版面分析结果。

Description

一种版面分析方法及电子设备
技术领域
本申请涉及人工智能(Artificial Intelligence,AI)领域的智能推荐与搜索技术,尤其涉及一种版面分析方法及电子设备。
背景技术
随着电子技术的不断发展,如手机,平板电脑等电子设备的性能在逐步提高,其所能提供的功能也越来越丰富。版面分析是其中的一项重要功能。以华为的HiTouch功能为例。电子设备根据用户触发HiTouch功能时电子设备屏幕显示内容的不同,可为用户提供不同服务,达到版面分析目的。具体的,以触发HiTouch功能的操作为用户在电子设备屏幕上的双指按压操作为例。电子设备根据用户执行双指按压操作时的按压位置可确定按压区域。用户执行双指按压操作时,如果按压区域显示的主要内容为文本,则可认为用户想使用文字识别服务,那么,响应用户的操作,电子设备提供文字识别服务。如果按压区域显示的主要内容为图像,则可认为用户想使用识图购物服务,那么,响应用户的操作,电子设备提供识图购物服务。如果按压区域显示的主要内容为二维码,则可认为用户想使用二维码识别服务,此时,响应用户的操作,电子设备提供二维码识别服务。
在现有技术中,电子设备可根据用户执行双指按压操作时按压位置对应的系统组件(view),确定用户想使用的服务,进而提供对应服务。例如,按压位置对应的系统组件为文本组件(textview),可确定用户想使用的服务为文字识别服务。又如,按压位置对应的系统组件为图像组件(imageview),则可确定用户想使用的服务为识图购物服务。
但是,在系统组件间存在嵌套关系的情况下,现有技术提供的基于系统组件的判别方式可能会出现电子设备实际提供的服务与用户实际想使用的服务不符的现象。例如,如图1所示,textview中嵌套有imageview。用户使用两个手指在图1中所示的按压位置①执行双指按压操作。可以看到的是,两个按压位置①均在textview上,则基于系统组件的判别方式,电子设备会提供文字识别服务。而按压区域(如两个按压位置①构成的矩形区域)的主要内容是图像,也就是说,用户可能实际想使用的是识图购物服务。
发明内容
本申请实施例提供一种版面分析方法及电子设备,解决了在接收到用户触发版面分析的操作后,电子设备基于系统组件的判别方式可能导致的电子设备实际提供的服务与用户实际想使用服务不符的问题。这样,可以为用户提供更贴合用户需求的版面分析结果,提高电子设备版面分析的实用性和效率。
为达到上述目的,本申请实施例采用如下技术方案:
本申请的第一方面,提供一种版面分析方法,该方法可以包括:接收用户在电子设备的触摸屏上的第一操作,该第一操作用于触发电子设备进行版面分析;响应于第一操作,获取至少一个感兴趣区域(ROI);根据电子设备的触摸屏上当前显示的第一界面的内容,确定第一界面中各待匹配区域的类型和位置信息;根据至少一个ROI和每个待匹配区域的类型和位置信息,确定至少一个ROI与每类待匹配区域的重叠程度;至少根据至少一个ROI与每类待匹配区域的重叠程度确定第一服务,运行第一服务;在电子设备的触摸屏上显示第二界面,该第二界面包括运行第一服务后的版面分析结果;其中,第一服务为文字识别服务,识图购物服务,文字翻译服务,或二维码识别服务。
在一些实施例中,在确定出第一服务,即用户触发版面分析想要使用的服务后,也可以暂不运行第一服务,而是显示界面,该界面中包括能提供的版面分析服务,如包括第一服务和第二服务,且在该界面中第一服务的标识显示在第二服务的标识之前(也就是说,第一服务的标识和第二服务的标识排序后显示在该界面中,且第一服务的标识排在第二服务的标识之前),或者第一服务的标识被突出显示,以向用户提示推荐了第一服务。之后,在用户选择了第一服务后,可再运行该第一服务,还可显示运行该第一服务后的版面分析结果。
采用该技术方案,在接收到触发电子设备进行版面分析的用户操作后,获取至少一个ROI,并根据电子设备屏幕上当前显示界面的内容,确定当前显示界面中各区域的类型和位置信息。之后,可根据获取到的至少一个ROI,以及当前显示界面中每个区域的类型和位置信息,确定至少一个ROI与每类区域的重叠程度。这样,至少利用确定出的至少一个ROI与每类区域的重叠程度,可确定出用户触发电子设备进行版面分析具体是想要使用如文字识别服务,识图购物服务,文字翻译服务和二维码识别服务中的哪个服务,并通过运行确定出的该服务,以便在电子设备的触摸屏上显示运行该服务后的版面分析结果。通过本实施例提供的方法,以至少一个ROI和电子设备屏幕上当前显示界面的内容为依据,去分析判断用户触发版面分析想要使用的服务,使得电子设备可以为用户提供更贴合用户需求的版面分析结果,提高电子设备版面分析的实用性和效率。
在一种可能的实现方式中,上述至少根据至少一个ROI与每类待匹配区域的重叠程度确定第一服务,可以包括:根据至少一个ROI与每类待匹配区域的重叠程度,以及历史操作记录确定第一服务;该历史操作记录包括:第二操作和用户对应选择的服务,第二操作是在接收到第一操作之前接收的用于触发电子设备进行版面分析的操作。通过参考用户的历史操作记录,分析判断用户本次触发版面分析的意图,进一步的提高了电子设备版面分析效率。
在另一种可能的实现方式中,电子设备存储有预测模型,该预测模型具备根据区域间的重叠程度确定需运行的服务的功能,预测模型根据历史操作记录更新过;上述根据至少一个ROI与每类待匹配区域的重叠程度,以及历史操作记录确定第一服务,可以包括:电子设备将至少一个ROI与每类待匹配区域的重叠程度作为预测模型的输入确定第一服务。
在另一种可能的实现方式中,电子设备存储有预测模型,该预测模型具备根据区域间的重叠程度确定需运行的服务的功能;上述至少根据至少一个ROI与每类待匹配区域的重叠程度确定第一服务,可以包括:电子设备将至少一个ROI与每类待匹配区域的重叠程度作为预测模型的输入确定第一服务。
在另一种可能的实现方式中,上述ROI可以包括:第一ROI,第二ROI,第三ROI和第四ROI中的一种或多种;其中,第一ROI是第一操作的按压位置构成的区域;第二ROI是第一界面的中心区域;第三ROI是第一界面的全部区域;第四ROI是占第一界面预定比例的区域。由于在接收到上述第一操作后,并不能获知输入该操作的用户是何种按压习惯的用户。因此,可以获取上述多种ROI,用于后续预测用户的实际感兴趣区域。
在另一种可能的实现方式中,按压位置构成的区域是矩形区域。
在另一种可能的实现方式中,上述根据电子设备的触摸屏上当前显示的第一界面的内容,确定第一界面中各待匹配区域的类型和位置信息,可以包括:服务器根据第一界面的内容,采用神经网络算法或图像内容检测算法,确定第一界面中各待匹配区域的类型和位置信息。通过由服务器基于神经网络算法或图像内容检测算法,对第一界面进行图像分析,可以进一步的提高版面分析的效率。
在另一种可能的实现方式中,待匹配区域的类型可以包括以下类型中的一种或多种:文本区域,图像区域或二维码区域。
在另一种可能的实现方式中,上述根据至少一个ROI和每个待匹配区域的类型和位置信息,确定至少一个ROI与每类待匹配区域的重叠程度,可以包括:根据每个待匹配区域的位置信息,确定每个待匹配区域与至少一个ROI的第一交并比(IoU);根据每个待匹配区域的类型,将同类型待匹配区域与至少一个ROI的第一IoU合并,获得至少一个ROI与每类待匹配区域的重叠程度。其中,IoU是两个区域交集的面积,或两个区域并集的面积。IoU可用来度量两个区域的重叠程度。IoU越大,表示两个区域的重叠程度越高。因此,通过确定每个待匹配区域与上述ROI的IoU,可确定出待匹配区域与ROI的重叠程度,作为确定用户的实际感兴趣区域的依据。
在另一种可能的实现方式中,上述根据每个待匹配区域的位置信息,确定每个待匹配区域与至少一个ROI的第一交并比IoU,可以包括:根据每个待匹配区域的位置信息,确定每个待匹配区域与至少一个ROI的第二IoU;根据每个待匹配区域的位置信息,确定每个待匹配区域的中心点与至少一个ROI的中心点之间的距离;对每个待匹配区域的中心点与至少一个ROI的中心点之间的距离进行归一化,并根据归一化后的距离获取每个待匹配区域的衰减系数;针对每个待匹配区域,采用待匹配区域的衰减系数,对待匹配区域与至少一个ROI的第二IoU进行衰减处理,获得每个待匹配区域与至少一个ROI的第一IoU。通过对待匹配区域与ROI的IoU(如上述第二IoU)做衰减,可以更为准确的确定出用户实际的感兴趣区域。
在另一种可能的实现方式中,在电子设备的触摸屏上显示第二界面之后,该方法还可以包括:接收用户选择使用第一服务的操作;将至少一个ROI与每类待匹配区域的重叠程度和第一服务作为第一训练样本,利用第一训练样本更新预测模型,使得预测模型具备根据至少一个ROI与每类待匹配区域的重叠程度,确定第一服务的功能。
在另一种可能的实现方式中,在电子设备的触摸屏上显示第二界面之后,该方法还可以包括:接收用户选择使用第二服务的操作,第二服务为文字识别服务,识图购物服务,文字翻译服务,或二维码识别服务,第二服务与第一服务不同;将至少一个ROI与每类待匹配区域的重叠程度和第二服务作为第二训练样本,利用第二训练样本更新预测模型,使得预测模型具备根据至少一个ROI与每类待匹配区域的重叠程度,确定第二服务的功能。
在本实施例中,在用户使用过程中,通过收集用户的使用习惯,并利用收集到的使用习惯更新预测模型。这样,使得为用户提供的版面分析结果更进一步的贴合用户需求。
在另一种可能的实现方式中,第二界面还包括第二服务的标识;上述接收用户选择使用第二服务的操作,可以包括:接收用户对第二服务的标识的操作。
本申请的第二方面,提供一种电子设备,该电子设备可以包括:输入单元和显示单元;显示单元,用于显示第一界面;输入单元,用于接收用户的第一操作,该第一操作用于触发电子设备进行版面分析;显示单元,还用于响应于第一操作,显示第二界面,该第二界面包括运行第一服务后的版面分析结果,第一服务为文字识别服务,识图购物服务,文字翻译服务,或二维码识别服务;其中,第一服务是根据至少一个感兴趣区域ROI与每类待匹配区域的重叠程度确定的,至少一个ROI与每类待匹配区域的重叠程度是根据至少一个ROI和第一界面中的每个待匹配区域的类型和位置信息确定的,第一界面中各待匹配区域的类型和位置信息是根据第一界面的内容确定的。
在一种可能的实现方式中,第一服务具体是根据至少一个ROI与每类待匹配区域的重叠程度,以及历史操作记录确定的;历史操作记录包括:第二操作和用户对应选择的服务,第二操作是在接收到第一操作之前接收的用于触发电子设备进行版面分析的操作。
在另一种可能的实现方式中,电子设备还包括存储单元和确定单元;存储单元,用于存储预测模型,预测模型具备根据区域间的重叠程度确定需运行的服务的功能,预测模型根据历史操作记录更新过;确定单元,用于将至少一个ROI与每类待匹配区域的重叠程度作为预测模型的输入确定第一服务。
在另一种可能的实现方式中,电子设备还包括存储单元和确定单元;存储单元,用于存储预测模型,预测模型具备根据区域间的重叠程度确定需运行的服务的功能;确定单元,用于将至少一个ROI与每类待匹配区域的重叠程度作为预测模型的输入确定第一服务。
在另一种可能的实现方式中,ROI包括:第一ROI,第二ROI,第三ROI和第四ROI中的一种或多种;第一ROI是第一操作的按压位置构成的区域;第二ROI是第一界面的中心区域;第三ROI是第一界面的全部区域;第四ROI是占第一界面预定比例的区域。
在另一种可能的实现方式中,按压位置构成的区域是矩形区域。
在另一种可能的实现方式中,第一界面中各待匹配区域的类型和位置信息具体是服务器根据第一界面的内容采用神经网络算法或图像内容检测算法确定的。
在另一种可能的实现方式中,待匹配区域的类型包括以下类型中的一种或多种:文本区域,图像区域或二维码区域。
在另一种可能的实现方式中,至少一个ROI与每类待匹配区域的重叠程度是根据至少一个ROI和第一界面中的每个待匹配区域的类型和位置信息确定的,包括:根据每个待匹配区域的位置信息,确定每个待匹配区域与至少一个ROI的第一交并比IoU;根据每个待匹配区域的类型,将同类型待匹配区域与至少一个ROI的第一IoU合并,获得至少一个ROI与每类待匹配区域的重叠程度。
在另一种可能的实现方式中,根据每个待匹配区域的位置信息,确定每个待匹配区域与至少一个ROI的第一交并比IoU,包括:根据每个待匹配区域的位置信息,确定每个待匹配区域与至少一个ROI的第二IoU;根据每个待匹配区域的位置信息,确定每个待匹配区域的中心点与至少一个ROI的中心点之间的距离;对每个待匹配区域的中心点与至少一个ROI的中心点之间的距离进行归一化,并根据归一化后的距离获取每个待匹配区域的衰减系数;针对每个待匹配区域,采用待匹配区域的衰减系数,对待匹配区域与至少一个ROI的第二IoU进行衰减处理,获得每个待匹配区域与至少一个ROI的第一IoU。
在另一种可能的实现方式中,电子设备还包括:模型更新单元;输入单元,还用于接收用户选择使用第一服务的操作;模型更新单元,用于将至少一个ROI与每类待匹配区域的重叠程度和第一服务作为第一训练样本,利用第一训练样本更新预测模型,使得预测模型具备根据至少一个ROI与每类待匹配区域的重叠程度,确定第一服务的功能。
在另一种可能的实现方式中,电子设备还包括:模型更新单元;输入单元,还用于接收用户选择使用第二服务的操作,第二服务为文字识别服务,识图购物服务,文字翻译服务,或二维码识别服务,第二服务与第一服务不同;模型更新单元,用于将至少一个ROI与每类待匹配区域的重叠程度和第二服务作为第二训练样本,利用第二训练样本更新预测模型,使得预测模型具备根据至少一个ROI与每类待匹配区域的重叠程度,确定第二服务的功能。
在另一种可能的实现方式中,第二界面还包括第二服务的标识;输入单元,具体用于接收用户对第二服务的标识的操作。
本申请的第三方面,提供一种电子设备,该电子设备包括显示屏、存储器和一个或多个处理器;显示屏、存储器和处理器耦合;显示屏包括触摸屏;存储器用于存储计算机程序代码,计算机程序代码包括计算机指令,当计算机指令被处理器执行时,使得电子设备执行以下步骤:电子设备显示第一界面;电子设备接收用户的第一操作,第一操作用于触发电子设备进行版面分析;电子设备响应于第一操作,显示第二界面,第二界面包括运行第一服务后的版面分析结果,第一服务为文字识别服务,识图购物服务,文字翻译服务,或二维码识别服务;其中,第一服务是根据至少一个感兴趣区域ROI与每类待匹配区域的重叠程度确定的,至少一个ROI与每类待匹配区域的重叠程度是根据至少一个ROI和第一界面中的每个待匹配区域的类型和位置信息确定的,第一界面中各待匹配区域的类型和位置信息是根据第一界面的内容确定的。
在一种可能的实现方式中,第一服务具体是根据至少一个ROI与每类待匹配区域的重叠程度,以及历史操作记录确定的;历史操作记录包括:第二操作和用户对应选择的服务,第二操作是在接收到第一操作之前接收的用于触发电子设备进行版面分析的操作。
在另一种可能的实现方式中,存储器中还存储有预测模型,预测模型具备根据区域间的重叠程度确定需运行的服务的功能,预测模型根据历史操作记录更新过;电子设备将至少一个ROI与每类待匹配区域的重叠程度作为预测模型的输入确定第一服务。
在另一种可能的实现方式中,存储器中还存储有预测模型,预测模型具备根据区域间的重叠程度确定需运行的服务的功能;电子设备将至少一个ROI与每类待匹配区域的重叠程度作为预测模型的输入确定第一服务。
在另一种可能的实现方式中,ROI包括:第一ROI,第二ROI,第三ROI和第四ROI中的一种或多种;第一ROI是第一操作的按压位置构成的区域;第二ROI是第一界面的中心区域;第三ROI是第一界面的全部区域;第四ROI是占第一界面预定比例的区域。
在另一种可能的实现方式中,按压位置构成的区域是矩形区域。
在另一种可能的实现方式中,第一界面中各待匹配区域的类型和位置信息具体是服务器根据第一界面的内容采用神经网络算法或图像内容检测算法确定的。
在另一种可能的实现方式中,待匹配区域的类型包括以下类型中的一种或多种:文本区域,图像区域或二维码区域。
在另一种可能的实现方式中,至少一个ROI与每类待匹配区域的重叠程度是根据至少一个ROI和第一界面中的每个待匹配区域的类型和位置信息确定的,包括:根据每个待匹配区域的位置信息,确定每个待匹配区域与至少一个ROI的第一交并比IoU;根据每个待匹配区域的类型,将同类型待匹配区域与至少一个ROI的第一IoU合并,获得至少一个ROI与每类待匹配区域的重叠程度。
在另一种可能的实现方式中,根据每个待匹配区域的位置信息,确定每个待匹配区域与至少一个ROI的第一交并比IoU,包括:根据每个待匹配区域的位置信息,确定每个待匹配区域与至少一个ROI的第二IoU;根据每个待匹配区域的位置信息,确定每个待匹配区域的中心点与至少一个ROI的中心点之间的距离;对每个待匹配区域的中心点与至少一个ROI的中心点之间的距离进行归一化,并根据归一化后的距离获取每个待匹配区域的衰减系数;针对每个待匹配区域,采用待匹配区域的衰减系数,对待匹配区域与至少一个ROI的第二IoU进行衰减处理,获得每个待匹配区域与至少一个ROI的第一IoU。
在另一种可能的实现方式中,电子设备接收用户选择使用第一服务的操作;电子设备将至少一个ROI与每类待匹配区域的重叠程度和第一服务作为第一训练样本,利用第一训练样本更新预测模型,使得预测模型具备根据至少一个ROI与每类待匹配区域的重叠程度,确定第一服务的功能。
在另一种可能的实现方式中,电子设备接收用户选择使用第二服务的操作,第二服务为文字识别服务,识图购物服务,文字翻译服务,或二维码识别服务,第二服务与第一服务不同;电子设备将至少一个ROI与每类待匹配区域的重叠程度和第二服务作为第二训练样本,利用第二训练样本更新预测模型,使得预测模型具备根据至少一个ROI与每类待匹配区域的重叠程度,确定第二服务的功能。
在另一种可能的实现方式中,第二界面还包括第二服务的标识;电子设备接收用户选择使用第二服务的操作具体为:接收用户对第二服务的标识的操作。
本申请的第四方面,提供一种版面分析系统,该版面分析系统可以包括电子设备和服务器,用于执行如第一方面或第一方面的可能的实现方式中任一项所述的版面分析方法。
本申请的第五方面,提供一种芯片系统,该芯片系统应用于如第三方面及第三方面的可能的实现方式中任一项所述的电子设备;芯片系统包括一个或多个接口电路和一个或多个处理器;接口电路和处理器通过线路互联;处理器通过接口电路从电子设备的存储器接收并执行计算机指令。
本申请的第六方面,提供一种计算机可读存储介质,用于存储如第三方面及第三方面的可能的实现方式中任一项的电子设备运行的计算机指令。
本申请的第七方面,提供一种计算机程序产品,包括如第三方面及第三方面的可能的实现方式中任一项的电子设备运行的计算机指令。
可以理解地,上述提供的第二方面及其任一种可能的设计方式所述的电子设备,第三方面及其任一种可能的设计方式所述的电子设备,第四方面所述的版面分析系统,第五方面所述的芯片系统,第六方面所述的计算机可读存储介质,第七方面所述的计算机程序产品所能达到的有益效果,可参考如第一方面及其任一种可能的设计方式中的有益效果,此处不再赘述。
附图说明
图1为本申请实施例提供的一种版面分析的界面实例示意图;
图2为本申请实施例提供的一种电子设备的硬件结构示意图;
图3为本申请实施例提供的一种版面分析方法的流程示意图;
图4为本申请实施例提供的另一种版面分析的界面实例示意图;
图5为本申请实施例提供的一种用户感兴趣区域的实例示意图;
图6为本申请实施例提供的一种图像版面分析结果的实例示意图;
图7为本申请实施例提供的另一种版面分析方法的流程示意图;
图8为本申请实施例提供的一种区域位置关系的实例示意图;
图9为本申请实施例提供的一种ROI与待匹配区域位置关系的实例示意图;
图10为本申请实施例提供的又一种版面分析的界面实例示意图;
图11为本申请实施例提供的一种芯片系统的结构示意图。
具体实施方式
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本申请实施例提供一种版面分析方法,该方法可以应用于电子设备为用户提供版面分析服务的过程中。具体的,在接收到触发电子设备进行版面分析的用户操作后,作为对该操作的响应,可获取至少一个感兴趣区域(region of interest,ROI),并根据电子设备屏幕上当前显示界面的内容,确定当前显示界面中各区域(如称为待匹配区域)的类型和位置信息。之后,可根据获取到的至少一个ROI,以及当前显示界面中每个待匹配区域的类型和位置信息,确定至少一个ROI与每类待匹配区域的重叠程度。这样,至少利用确定出的至少一个ROI与每类待匹配区域的重叠程度,可确定出用户触发电子设备进行版面分析具体是想要使用如文字识别服务,识图购物服务,文字翻译服务和二维码识别服务中的哪个服务,并通过运行确定出的该服务,以便在电子设备的触摸屏上显示运行该服务后的版面分析结果。可以看到的是,以至少一个ROI和电子设备屏幕上当前显示界面的内容为依据,去分析判断用户触发版面分析想要使用的服务,使得电子设备可以为用户提供更贴合用户需求的版面分析结果,提高电子设备版面分析的实用性和效率。
需要说明的是,本实施例提供的版面分析方法可以是电子设备和服务器配合来完成的,也可以是电子设备单独完成的。
示例性的,本申请实施例中的电子设备可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本,以及蜂窝电话、个人数字助理(personal digital assistant,PDA)、增强现实(augmented reality,AR)\虚拟现实(virtual reality,VR)设备等支持版面分析功能的设备,本申请实施例对该电子设备的具体形态不作特殊限制。本申请实施例中的服务器是用来存储数据和提供计算能力的设备。该服务器可以是单个的计算机设备,也可以是大规模的计算机集群,本申请实施例在此对服务器的具体形态也不作特殊限制。
下面将结合附图对本申请实施例的实施方式进行详细描述。
请参考图2,为本申请实施例提供的一种电子设备的结构示意图。如图2所示,电子设备可以包括:处理器110,外部存储器接口120,内部存储器121,通用串行总线(universalserial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。
其中,上述传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L和骨传导传感器180M等传感器。
可以理解的是,本实施例示意的结构并不构成对电子设备的具体限定。在另一些实施例中,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。控制器可以是电子设备的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。处理器110可以通过该一个或多个接口与电子设备的其他器件交互。可以理解的是,图2示出的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备的结构限定。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器,显示屏194,摄像头193,和无线通信模块160等供电。
电子设备的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在电子设备上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。
无线通信模块160可以提供应用在电子设备上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。
无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,电子设备的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备可以通过无线通信技术与网络以及其他设备通信。
电子设备通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。显示屏194用于显示图像,视频等。该显示屏194包括显示面板。电子设备可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。ISP用于处理摄像头193反馈的数据。摄像头193用于捕获静态图像或视频。在一些实施例中,电子设备可以包括1个或N个摄像头193,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备可以支持一种或多种视频编解码器。这样,电子设备可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行电子设备的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。
其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flashstorage,UFS)等。
电子设备可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。耳机接口170D用于连接有线耳机。按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和电子设备的接触和分离。电子设备可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。以下实施例中的方法可以在具有上述硬件结构的电子设备中实现。
以下实施例中以上述电子设备是手机为例,对本申请实施例的方法进行说明。
实施例一
本申请实施例一提供一种版面分析方法。如图3所示,该版面分析方法可以包括步骤S301-S306。以下对步骤S301-S306进行详细说明。
S301、手机接收用户在手机的触摸屏上的第一操作,该第一操作用于触发手机进行版面分析。
版面分析(可以理解成界面内容分析,如华为手机的智慧识屏功能能智能地根据用户在屏幕上的按压位置的内容的不同,为用户提供不同服务)目前已经是手机的一项重要功能。手机在接收到触发版面分析功能(如华为手机的智慧识屏功能)的用户操作后,可根据用户感兴趣区域中内容的不同,为用户提供不同服务,如文字识别服务,识图购物服务,文字翻译服务,或二维码识别服务等。
在本实施例中,可以将用于触发手机进行版面分析的用户操作称为第一操作。示例性的,该第一操作可以是按压操作。另外,用户执行该第一操作时使用的手指可以是一个,也可以两个或两个以上。如,该第一操作具体可以为用户两个手指在手机触摸屏上的按压操作。为了便于描述,在本实施例中,将用户两个手指在触摸屏上的按压操作称为双指按压操作。以下实施例中均以第一操作为双指按压操作为例进行说明。例如,以版面分析功能为华为的HiTouch功能为例。结合图1所示,手机可接收用户在手机的触摸屏上的双指按压操作。其中,图1中两个“①”所示的位置是用户两个手指分别在手机触摸屏上的按压位置。
S302、响应于第一操作,获取至少一个ROI。
继续以版面分析功能为华为的HiTouch功能为例。经统计,不同用户在触发手机的HiTouch功能时,其执行第一操作,如执行双指按压操作时的按压习惯是有区别的。示例性的,本实施例中将有不同按压习惯的用户分为三种,分别称为第一种用户,第二种用户,第三种用户。以下对这三种用户进行说明。其中,以用户想要电子设备提供版面分析服务的具体内容所在区域称为感兴趣区域为例。
第一种用户:具有在触摸屏上明确地针对感兴趣区域执行双指按压操作习惯的用户。也就是说,这种用户在有需要手机提供版面分析服务的需求时,会明确地针对感兴趣区域执行双指按压操作。例如,结合图1,用户的感兴趣区域是图1中小女孩的裙子所在区域。如图4中的(a)所示,这种用户会使用两个手指在手机触摸屏显示的小女孩的裙子的位置,如,图4中的(a)中两个“②”所示的位置处执行双指按压操作。可以看到的是,按压区域,如两个按压位置“②”构成的矩形区域较明确针对的便是小女孩的裙子所在区域。
第二种用户:具有在触摸屏上通过执行双指按压操作框选感兴趣区域习惯的用户。也就是说,这种用户在有需要手机提供版面分析服务的需求时,不会明确的针对感兴趣区域执行双指按压操作,而是通过执行双指按压操作将感兴趣区域框选起来。例如,结合图1,继续以用户的感兴趣区域是图1中小女孩的裙子所在区域为例。如图1所示,这种用户会使用两个手指在手机触摸屏上包含小女孩的裙子的位置,如,图1中的两个“①”所示的位置处执行双指按压操作。可以看到的是,按压区域,如两个按压位置“①”构成的矩形区域并未明确针对小女孩的裙子所在区域,而是包含了小女孩的裙子所在区域。
第三种用户:不论对触摸屏上显示的哪个区域感兴趣,都会针对相对固定的位置执行双指按压操作的用户。也就是说,这种用户在有需要手机提供版面分析服务的需求时,不论感兴趣区域在触摸屏的哪个位置,其执行双指按压操作的位置都是相对固定不变的。例如,结合图1,继续以用户的感兴趣区域是图1中小女孩的裙子所在区域为例。如图4中的(b)所示,这种用户会使用两个手指在手机触摸屏上如图4中的(b)中的两个“③”所示的位置处执行双指按压操作。且,当这种用户的感兴趣区域是触摸屏的其他区域,如,图4中的(b)所示的内容1所在区域时,这种用户执行双指按压操作的位置依然是如图4中的(b)中的两个“③”所示的位置。
可以理解的,对于版面分析而言,具体分析的对象应是用户实际感兴趣的区域中的内容。对于第一种用户和第二种用户而言,由于其在执行双指按压操作时针对的便是感兴趣区域,因此可以以接收到的双指按压操作的按压位置为依据,来确定用户实际感兴趣的区域,以进行版面分析。如,将接收到的双指按压操作的按压位置构成的区域(如矩形区域)作为用户的感兴趣区域(ROI)。而对于第三种用户而言,由于不论其感兴趣的区域在触摸屏的哪个位置,其执行双指按压操作的位置都是相对固定的,也就是说,其执行双指按压操作时并不会针对感兴趣区域,因此,接收到的双指按压操作的按压位置,并不能反映用户实际感兴趣的区域。在一些实施例中,可将预设区域作为该种用户的ROI。如,可将手机触摸屏上当前显示的界面的中心区域,全部区域,或占预定比例的区域中的一种或多种作为该种用户的ROI。
在本实施例中,结合图1,以手机接收到的第一操作,如双指按压操作为按压位置在图1中两个“①”所示的按压位置为例。由于手机接收到该双指按压操作后,并不能获知输入该操作的用户是何种按压习惯的用户。因此,在手机接收到该操作后,可以获取以下ROI中的一种或多种:第一ROI,第二ROI,第三ROI和第四ROI。
其中,第一ROI可以是接收到的双指按压操作的按压位置构成的区域。示例性的,第一ROI具体的可以是接收到的双指按压操作的按压位置构成的矩形区域。例如,结合图1,如图5中的(a)所示,手机接收到的双指按压操作的按压位置在图5中的(a)中两个“①”所示的按压位置,第一ROI可以是这两个按压位置“①”构成的矩形区域,如,图5中的(a)所示的ROI 1。
第二ROI可以是手机的触摸屏上当前显示的界面(如称为第一界面)的中心区域。示例性的,所述的中心区域可以是以该第一界面的对角线交点为中心,边长为第一值的正方形区域。该第一值可以为第一界面的宽,或者为第一界面宽的N分之一。N为大于1的整数,如2,3,4等。例如,结合图1,以第一值为第一界面的宽为例。如图5中的(b)所示,第二ROI可以是以第一界面的对角线交点为中心,边长是第一界面的宽的正方形区域,如,图5中的(b)所示的ROI 2。
第三ROI可以是手机的触摸屏上当前显示的界面(如称为第一界面)的全部区域。例如,结合图1,如图5中的(c)所示,第三ROI为第一界面的全部区域,如,图5中的(c)所示的ROI 3。
第四ROI可以是占手机触摸屏上当前显示的界面(如称为第一界面)预定比例的区域。该预定比例可以为1/M。M为大于1的整数,如2,3,4等。例如,结合图1,以预定比例为1/3为例。如图5中的(d)所示,第四ROI可以是占第一界面的1/3比例的区域,如,图5中的(d)所示的ROI 4。图5中的(d)是以第四ROI是第一界面的上1/3区域为例示出的。在其他一些实施例中,第四ROI也可以是第一界面中间的1/3区域,还可以是第一界面的下1/3区域,本实施例在此不做具体限制。
S303、根据手机的触摸屏上当前显示的第一界面的内容,确定第一界面中各待匹配区域的类型和位置信息。
其中,待匹配区域的类型包括以下类型中的一种或多种:文本区域,图像区域或二维码区域。
在本实施例中,可以根据手机触摸屏上当前显示的第一界面的内容,对第一界面进行区域划分,划分得到的区域可以称为待匹配区域。示例性的,在手机接收到上述第一操作后,手机可以对手机触摸屏上当前显示的第一界面进行截图处理,获得第一界面的截图。之后,可以对第一界面的截图进行图像版面分析。作为一种示例,可以采用神经网络算法或基于像素分布的图像内容检测算法,对第一界面的截图进行图像版面分析,以获得各待匹配区域,并确定各待匹配区域的类型和位置信息,以指示第一界面中哪部分区域是图像区域,哪部分区域是文本区域,哪部分区域是二维码区域等。其中,待匹配区域的位置信息可以使用该区域左上角的像素点和右下角的像素点在第一界面的截图中的位置来指示。
例如,继续结合图1,在手机接收到用户的双指按压操作后,手机可获取当前显示界面,即第一界面的截图,如图6所示,获得图像A。之后,可采用神经网络算法或基于像素分布的图像内容检测算法对该图像A进行图像版面分析。分析后可获得该图像A包括3个待匹配区域,分别为区域1,区域2和区域3。其中,区域1的类型是文本区域,位置信息采用该区域1左上角的像素点和右下角的像素点在图像A中的位置指示。区域2的类型是图像区域,位置信息采用该区域2左上角的像素点和右下角的像素点在图像A中的位置指示。区域3的类型是文本区域,位置信息采用该区域3左上角的像素点和右下角的像素点在图像A中的位置指示。
S304、根据至少一个ROI和每个待匹配区域的类型和位置信息,确定至少一个ROI与每类待匹配区域的重叠程度。
在执行S302获取到至少一个ROI,执行S303确定出第一界面中各待匹配区域的类型和位置信息后,可以根据该至少一个ROI和每个待匹配区域的类型和位置信息,确定至少一个ROI与每类待匹配区域的重叠程度。其中,重叠程度可用于表征用户对待匹配区域的感兴趣程度。如ROI与某类待匹配区域的重叠程度越高,表征用户对该类待匹配区域越感兴趣。
在一些实施例中,如图7所示,S304可以包括以下步骤:S304A-S304B。
S304A、根据每个待匹配区域的位置信息,确定每个待匹配区域与至少一个ROI的第一交并比(intersection over union,IoU)。
其中,IoU是两个区域交集的面积,或两个区域并集的面积。IoU可用来度量两个区域的重叠程度。IoU越大,表示两个区域的重叠程度越高。例如,如图8所示,当两个区域的位置关系如图8中的(a)所示的关系时,通过计算两个区域交集的面积或两个区域并集的面积可以确定出这两个区域的IoU=0.5。当两个区域的位置关系如图8中的(b)所示的关系时,通过计算两个区域交集的面积或两个区域并集的面积可以确定出这两个区域的IoU=0.7。当两个区域的位置关系如图8中的(c)所示的关系时,通过计算两个区域交集的面积或两个区域并集的面积可以确定出这两个区域的IoU=0.9。结合图8可以看到的是,两个区域的IoU越大,两者的重叠程度越高。
在本实施例中,可以根据每个待匹配区域的位置信息,通过计算每个待匹配区域与至少一个ROI的交集的面积(或并集的面积),确定每个待匹配区域与至少一个ROI的IoU。本实施例中可称为第二IoU。通过计算待匹配区域与ROI的IoU(如该第二IoU)可以初步确定用户实际的感兴趣区域是待匹配区域中的哪个区域。
在一些实施例中,可将确定出的该第二IoU作为上述第一IoU。在其他一些实施例中,在一个ROI覆盖了多个待匹配区域时,为了能够更为准确的确定用户实际的感兴趣区域,可以确定每个待匹配区域的衰减系数。之后,针对每个待匹配区域,可以采用该待匹配区域的衰减系数,对该待匹配区域与该ROI的IoU(如上述第二IoU)做衰减。
示例性的,对待匹配区域与一个ROI的第二IoU做衰减的具体处理过程可以包括:根据该待匹配区域的位置信息,确定该待匹配区域的中心点与该ROI的中心点之间的距离。对该待匹配区域的中心点与该ROI的中心点之间的距离进行归一化,并根据归一化后的距离获取该待匹配区域的衰减系数。其中,中心点越接近ROI中心点的待匹配区域的衰减系数越接近于1,中心点离ROI中心点越远的待匹配区域的衰减系数越接近于0。之后,采用该待匹配区域的衰减系数,对该待匹配区域与该ROI的第二IoU进行衰减处理。进行衰减处理后获得的IoU,便可作为该待匹配区域与该ROI的第一IoU。
例如,衰减系数可采用以下公式获得:y=e^(-distance/CENTER_DECAY_INDEX)。其中,y为衰减系数,distance为待匹配区域的中心点与ROI的中心点之间的距离,CENTER_DECAY_INDEX为第一界面的截图,如上述图像A的对角线长度。distance/CENTER_DECAY_INDEX即为对待匹配区域的中心点与ROI的中心点之间的距离进行归一化后的距离。
需要说明的是,以上是以采用待匹配区域的中心点与ROI的中心点之间的距离为依据确定衰减系数,对待匹配区域与ROI的IoU进行衰减处理为例进行说明的。在其他一些实施例中,还可以采用高斯模糊等其他方式确定衰减系数,以对待匹配区域与ROI的IoU进行衰减处理,本申请实施例在此对确定衰减系数的方式不做具体限制。
以下结合具体示例对S304A进行详细介绍。以S302中获取了三个ROI,分别是第一ROI(如,图5中的(a)所示的ROI 1),第二ROI(如,图5中的(b)所示的ROI 2)和第三ROI(如,图5中的(c)所示的ROI 3),S303中确定出第一界面中包括三个待匹配区域,如图6所示,分别为区域1,区域2和区域3为例。其中,区域1和区域3的类型均为文本区域,区域2的类型为图像区域。
结合图5和图6,如图9所示,对于ROI 1,可以确定上述三个待匹配区域中每个待匹配区域与ROI 1的IoU(该IoU即为上述第二IoU)。
具体的:根据区域1的位置信息,通过计算区域1与ROI 1的交集的面积(或并集的面积),确定区域1和ROI 1的IoU。例如,采用IoU_区域1'表示区域1和ROI 1的IoU,如计算出的IoU_区域1'=0.3。根据区域2的位置信息,通过计算区域2与ROI 1的交集的面积(或并集的面积),确定区域2和ROI 1的IoU。例如,采用IoU_区域2'表示区域2和ROI 1的IoU,如计算出IoU_区域2'=0.5。根据区域3的位置信息,通过计算区域3与ROI1的交集的面积(或并集的面积),确定区域3和ROI 1的IoU。例如,采用IoU_区域3'表示区域3和ROI 1的IoU,如计算出IoU_区域3'=0.2。
在本实施例中,将ROI 1与区域1,区域2和区域3的IoU用V1'表示,则ROI 1与上述的三个待匹配区域的IoU为:V1'=<IoU_区域1'=0.3,IoU_区域2'=0.5,IoU_区域3'=0.2>。
继续结合图9,还可以分别对上述IoU做衰减处理。首先可确定各待匹配区域的衰减系数。具体的:根据区域1的位置信息,确定该区域1的中心点(如,图9中所示的中心点2)与ROI 1的中心点(如,图9中所示的中心点1)之间的距离。对该中心点2与中心点1之间的距离进行归一化,并根据归一化后的距离获取该区域1的衰减系数。例如,采用alpha_区域1表示区域1的衰减系数,如确定的alpha_区域1=0.3。类似的,可以确定区域2及区域3的衰减系数。例如,采用alpha_区域2表示区域2的衰减系数,如确定的alpha_区域2=0.9。采用alpha_区域3表示区域3的衰减系数,如确定的alpha_区域3=0.2。
在本实施例中,将区域1,区域2和区域3的衰减系数用A1表示,则区域1,区域2和区域3的衰减系数为:A1=<alpha_区域1=0.3,alpha_区域2=0.9,alpha_区域3=0.2>。
之后,可以采用每个待匹配区域的衰减系数,对该待匹配区域与ROI 1的IoU(即上述第二IoU)进行衰减处理。例如,可采用各区域与ROI 1的IoU乘以该区域的衰减系数来实现衰减处理,以获得衰减后的IoU,即获得上述第一IoU。如,采用IoU_区域1表示区域1和ROI1的衰减后的IoU,则IoU_区域1=IoU_区域1'*alpha_区域1=0.3*0.3=0.09。采用IoU_区域2表示区域2和ROI 1的衰减后的IoU,则IoU_区域2=IoU_区域2'*alpha_区域2=0.5*0.9=0.45。采用IoU_区域3表示区域3和ROI 1的衰减后的IoU,则IoU_区域3=IoU_区域3'*alpha_区域3=0.2*0.2=0.04。
在本实施例中,将ROI 1与区域1,区域2和区域3的衰减后的IoU用V1表示,则ROI1与上述的三个待匹配区域的衰减后的IoU为:V1=<IoU_区域1=0.09,IoU_区域2=0.45,IoU_区域3=0.04>。
可以看到的是,通过执行以上操作可获得ROI 1与上述区域1,区域2和区域3的IoU,用于表征上述区域1,区域2和区域3中每个待匹配区域与ROI 1的重叠程度。
类似的,针对ROI 2及ROI 3分别执行以上操作后,也可以获得ROI 2与上述区域1,区域2和区域3的IoU,用于表征上述区域1,区域2和区域3中每个待匹配区域与ROI 2的重叠程度,获得ROI 3与上述区域1,区域2和区域3的IoU,用于表征上述区域1,区域2和区域3中每个待匹配区域与ROI 3的重叠程度。如,采用V2表示ROI 2与上述区域1,区域2和区域3的IoU,采用V3表示ROI 3与上述区域1,区域2和区域3的IoU。
S304B、根据每个待匹配区域的类型,将同类型待匹配区域与至少一个ROI的第一IoU合并,获得至少一个ROI与每类待匹配区域的重叠程度。
在本实施例中,考虑到用户执行第一操作,如上述双指按压操作时,双指按压操作的两个按压位置可能位于两个区域,如结合图4中的(b)所示,双指按压操作的两个按压位置(如图4中的(b)所示的“③”的位置)分别位于两个文本区域,因此在执行上述S304A获得各待匹配区域与ROI的第一IoU后,可将类型相同的待匹配区域与该ROI的第一IoU合并,以获得该ROI与每类待匹配区域的重叠程度。
例如,结合S304A中的示例,区域1和区域3的类型均为文本区域,区域2的类型为图像区域。针对ROI 1,其与区域1,区域2和区域3的衰减后的IoU为:V1=<IoU_区域1=0.09,IoU_区域2=0.45,IoU_区域3=0.04>。则可将类型相同的区域1和区域3与ROI 1的衰减后的IoU合并,获得ROI 1与每类待匹配区域的重叠程度。如采用S1表示ROI 1与每类待匹配区域的重叠程度,则S1=<text=0.13,image=0.45>。
类似的,针对ROI 2,可根据V2,将类型相同的待匹配区域与ROI 2的衰减后的IoU合并,以获得ROI 2与每类待匹配区域的重叠程度。如采用S2表示ROI 2与每类待匹配区域的重叠程度。针对ROI 3,可根据V3,将类型相同的待匹配区域与ROI 3的衰减后的IoU合并,以获得ROI 3与每类待匹配区域的重叠程度。如采用S3表示ROI 3与每类待匹配区域的重叠程度。
需要说明的是,在本申请实施例中,以上S302-S304可以全部由手机实现,也可以全部由服务器实现,或者还可以部分由手机实现,部分由服务器实现。例如,以S302-S304部分由手机实现,部分由服务器实现为例。作为一种示例,S302和S304可由手机实现。S303可由服务器实现。其中,在服务器执行S303之前,手机可将手机触摸屏上当前显示的第一界面进行截图后发送给服务器,作为服务器执行S303的依据。另外,服务器执行S303获得的第一界面中各待匹配区域的类型和位置信息需发送给手机,以作为手机执行S304的依据。
S305、至少根据至少一个ROI与每类待匹配区域的重叠程度确定第一服务,运行第一服务。
第一服务为文字识别服务,识图购物服务,文字翻译服务,或二维码识别服务。
正如上述实施例的描述,ROI与某类待匹配区域的重叠程度越高,表征用户对该类待匹配区域越感兴趣,因此S304中获得的至少一个ROI与每类待匹配区域的重叠程度,可作为决策为用户提供何种服务的依据。
其中,S305可由手机实现,也可由服务器实现。示例性的,以手机实现S305为例。在本实施中,手机中可以存储有预测模型,该预测模型具备根据区域间的重叠程度确定需运行的服务的功能。在S304中获得至少一个ROI与每类待匹配区域的重叠程度后,手机可将获得的至少一个ROI与每类待匹配区域的重叠程度作为该预测模型的输入来确定需运行的服务,即确定第一服务。
作为一种示例,上述预测模型可以是使用按照业务逻辑产生的训练样本进行训练获得,并在手机出厂前存储在手机中的。在一些实施例中,预测模型可以是逻辑回归(logistic regression)模型、线性回归(Linear Regression)模型等。
其中,上述业务逻辑具体可以是:用户输入双指按压操作后,按压区域显示的主要内容为文本,提供文字识别服务,按压区域显示的主要内容为图像,提供识图购物服务,按压区域显示的主要内容为二维码,提供二维码识别服务等。
上述预测模型的训练过程可以是:首先,可默认执行上述第一操作,如双指按压操作的用户均是S302中所述的第一种用户或第二种用户,并构造符合第一种用户和/或第二种用户的X和Y键值对。其中,该X和Y键值对可以称为训练样本。X表示第一种用户或第二种用户输入双指按压操作后,获得的上述至少一个ROI与每类待匹配区域的重叠程度,其可作为模型的输入。Y表示第一种用户或第二种用户输入双指按压操作后,提供的服务,其可作为模型的输出。且X和Y键值对符合上述业务逻辑。之后,可利用构造的X和Y键值对进行模型训练,获得预测模型,以使得其具备根据区域间的重叠程度确定需运行的服务的功能。在手机出厂前,可将获得的预测模型存储在手机中。这样,结合以上S301-S304中的示例,在手机接收到用户在图1所示的两个“①”所示按压位置操作时,经以上S302-S304的处理,基于手机中存储的预测模型,手机可将获得的S1,S2和S3输入预测模型。预测模型的输出结果是确定出的需要运行的服务,即第一服务。由于构造预测模型的训练样本符合上述业务逻辑,因此,在本实施例中确定出的第一服务为识图购物服务。
手机还可运行第一服务。在本实施例中,运行第一服务时分析的内容可以是接收到的第一操作,如双指按压操作的按压位置构成的区域中与该第一服务对应的内容,也可以是第一界面中与该第一服务对应的内容。示例性的,第一服务为文字识别服务,与第一服务对应的内容为文字。第一服务为识图购物服务,与第一服务对应的内容为图像。第一服务为文字翻译服务,与第一服务对应的内容为文字。第一服务为二维码识别服务,与第一服务对应的内容为二维码。例如,结合图1和上述示例,手机运行识图购物服务,运行识图购物服务时分析的内容为图1所示的两个“①”所示的按压位置构成的矩形区域中的图像。
S306、手机在手机的触摸屏上显示第二界面,该第二界面包括运行第一服务后的版面分析结果。
在S305中确定并运行第一服务后,手机可在手机的触摸屏上显示包括运行该第一服务后的版面分析结果的第二界面。例如,结合S305中的示例,如图10所示,手机显示第二界面1001,该第二界面1001中包括运行识图购物服务后的版面分析结果。如,结合图1,通过分析图1所示的两个“①”所示的按压位置构成的矩形区域(如图1中示出的按压区域)中的图像,显示的版面分析结果包括与按压区域中小女孩的裙子类似的商品1002的购物链接和商品1003的购物链接。进一步的,在进行版面分析获得的版面分析结果较多,在第二界面1001中不能完全显示时,第二界面1001中还可以包括拖动条1004。手机在接收到用户对该拖动条104的操作后,可在该第二界面1001中显示其他的版面分析结果。
在本申请实施例中,进一步的,在不同用户使用手机的版面分析功能的过程中,使用习惯可能是不同的。因此,手机还可收集用户的使用习惯,如将收集到的用户的使用习惯称为历史操作记录。手机可以以该历史操作记录和存储的预测模型为依据,确定接收到触发进行版面分析的用户操作后需要给用户提供的版面分析服务。这样,可使得所提供的版面分析服务能够适配当前用户的使用习惯。例如,对于手机出厂前存储的上述预测模型,手机可根据历史操作记录对存储的该预测模型进行更新。
具体的,作为一种示例,在上述S306之后,手机可接收用户选择使用服务(如上述第一服务,或区别于第一服务的其他服务)的用户操作。手机在接收到该用户操作后,可以将上述S304中获得的至少一个ROI与每类待匹配区域的重叠程度和用户选择的服务作为训练样本,对手机中存储的预测模型进行更新,以使得更新后的预测模型更能够适配当前用户的使用习惯。
例如,结合图10和S306中的示例,手机显示第二界面1001后,用户可能会选择推荐的第一服务。手机可接收用户选择使用第一服务(即识图购物服务)的操作。其中,手机接收到的用户选择识图购物服务的操作可以是对第二界面1001中包括的商品1002的购物链接或商品1003的购物链接的操作,如点击操作。手机接收到的用户选择识图购物服务的操作还可以是对第二界面1001中包括的拖动条1004的操作。之后,手机可将S304中获得的至少一个ROI与每类待匹配区域的重叠程度和识图购物服务作为第一训练样本(如可称为正样本)。并利用该第一训练样本更新存储在手机中的预测模型,以使得更新后的预测模型具备根据S304中获得的至少一个ROI与每类待匹配区域的重叠程度,确定该识图购物服务的功能。如可使用梯度下降算法对预测模型进行迭代。
又例如,结合图10和S306中的示例,手机显示第二界面1001后,用户可能不会选择推荐的第一服务,而是选择了其他服务,如称为第二服务。手机可接收用户选择使用第二服务的操作。如,以第二服务为文字识别服务为例。如图10所示,第二界面1001中还可以包括文字识别服务的标识1005。其中,手机接收到的用户选择文字识别服务的操作可以是对第二界面1001中包括的文字识别服务的标识1005的操作,如点击操作。之后,手机可将S304中获得的至少一个ROI与每类待匹配区域的重叠程度和文字识别服务作为第二训练样本。并利用该第二训练样本更新存储在手机中的预测模型,以使得更新后的预测模型具备根据S304中获得的至少一个ROI与每类待匹配区域的重叠程度,确定该文字识别服务的功能。当然,如果用户没有选择推荐的第一服务,也没有选择其他服务,则可以舍弃本次的记录,即不进行预测模型的更新。这样,在用户使用一段时间后,经过多次对预测模型的更新,更新后的预测模型会构建成符合当前用户使用习惯的具备稳定分布特征的模型,从而达到适配当前用户使用习惯的效果。
以上S305和S306是以确定出第一服务后,直接运行第一服务,并显示运行第一服务后版面分析结果为例进行说明的,在其他一些实施例中,在确定出第一服务后,也可以暂不运行第一服务,而是显示一界面,该界面中可以包括所能提供的版面分析服务,如包括第一服务和第二服务,且在该界面中第一服务的标识显示在第二服务的标识之前,或者第一服务的标识被突出显示,以提示用户推荐了第一服务。之后,在用户选择了第一服务后,可再运行该第一服务,并显示运行该第一服务后的版面分析结果。例如,以第一服务为识图购物服务,还能够提供文字识别服务,文字翻译服务为例。在确定出需要为用户提供的服务为识图购物服务后,手机可显示菜单,该菜单中包括识图购物服务的标识,文字识别服务的标识和文字翻译服务的标识。且,在该菜单中,识图购物服务的标识排在文字识别服务的标识及文字翻译服务的标识之前,或者,在该菜单中,识图购物服务的标识被突出显示,文字识别服务的标识和文字翻译服务的标识未被突出显示。这可提示用户优先推荐了识图购物服务。在用户选择了识图购物服务后,再运行识图购物服务,并显示运行识图购物服务后的版面分析结果,如图10所示。
本申请实施例中,在接收到触发电子设备进行版面分析的用户操作后,获取至少一个ROI,并根据电子设备屏幕上当前显示界面的内容,确定当前显示界面中各区域的类型和位置信息。之后,可根据获取到的至少一个ROI,以及当前显示界面中每个区域的类型和位置信息,确定至少一个ROI与每类区域的重叠程度。这样,至少利用确定出的至少一个ROI与每类区域的重叠程度,可确定出用户触发电子设备进行版面分析具体是想要使用如文字识别服务,识图购物服务,文字翻译服务和二维码识别服务中的哪个服务,并通过运行确定出的该服务,以便在电子设备的触摸屏上显示运行该服务后的版面分析结果。通过本实施例提供的方法,以至少一个ROI和电子设备屏幕上当前显示界面的内容为依据,去分析判断用户触发版面分析想要使用的服务,如利用预测模型进行分析,使得电子设备可以为用户提供更贴合用户需求的版面分析结果,提高电子设备版面分析的实用性和效率。进一步的,在用户使用过程中,通过收集用户的使用习惯,并利用收集到的使用习惯更新预测模型。这样,使得为用户提供的版面分析结果更进一步的贴合用户需求。
实施例二
本申请实施例二提供一种电子设备,该电子设备可以包括:显示屏、存储器和一个或多个处理器。该显示屏、存储器和处理器耦合。该显示屏可以包括触摸屏。该存储器用于存储计算机程序代码,该计算机程序代码包括计算机指令。当处理器执行计算机指令时,电子设备可执行上述方法实施例中手机执行的各个功能或者步骤。当然,该电子设备包括但不限于上述显示屏、存储器和一个或多个处理器。例如,该电子设备的结构可以参考图2所示的电子设备的结构。
实施例三
本申请实施例三提供一种服务器,该服务器可以包括:存储器和一个或多个处理器。该存储器和处理器耦合。该存储器用于存储计算机程序代码,该计算机程序代码包括计算机指令。当处理器执行计算机指令时,服务器可执行上述方法实施例中服务器执行的各个功能或者步骤。当然,该服务器包括但不限于上述存储器和一个或多个处理器。例如,该服务器还可以包括通信接口,用于实现与其他设备,如上述电子设备的通信。
实施例四
本申请实施例四提供一种芯片系统,该芯片系统可以应用于前述实施例中的电子设备。如图11所示,该芯片系统包括至少一个处理器1101和至少一个接口电路1102。该处理器1101可以是上述电子设备中的处理器。处理器1101和接口电路1102可通过线路互联。该处理器1101可以通过接口电路1102从上述电子设备的存储器接收并执行计算机指令。当计算机指令被处理器1101执行时,可使得电子设备执行上述实施例中手机执行的各个步骤。当然,该芯片系统还可以包含其他分立器件,本申请实施例对此不作具体限定。
实施例五
本申请实施例五提供一种计算机可读存储介质,用于存储上述电子设备(如手机)运行的计算机指令。
实施例六
本申请实施例六提供一种计算机程序产品,包括上述电子设备(如手机)运行的计算机指令。
通过以上实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (17)

1.一种版面分析方法,其特征在于,所述方法包括:
接收用户在电子设备的触摸屏上的第一操作,所述第一操作用于触发所述电子设备进行版面分析;
响应于所述第一操作,获取至少一个感兴趣区域ROI;
根据所述电子设备的触摸屏上当前显示的第一界面的内容,确定所述第一界面中各待匹配区域的类型和位置信息;
根据所述至少一个感兴趣区域ROI和每个待匹配区域的类型和位置信息,确定所述至少一个感兴趣区域ROI与每类待匹配区域的重叠程度;
至少根据所述至少一个感兴趣区域ROI与每类待匹配区域的重叠程度确定第一服务,运行所述第一服务;
在所述电子设备的触摸屏上显示第二界面,所述第二界面包括运行所述第一服务后的版面分析结果;其中,所述第一服务为文字识别服务,识图购物服务,文字翻译服务,或二维码识别服务。
2.根据权利要求1所述的方法,其特征在于,所述至少根据所述至少一个感兴趣区域ROI与每类待匹配区域的重叠程度确定第一服务,包括:
根据所述至少一个感兴趣区域ROI与每类待匹配区域的重叠程度,以及历史操作记录确定所述第一服务;所述历史操作记录包括:第二操作和用户对应选择的服务,所述第二操作是在接收到所述第一操作之前接收的用于触发所述电子设备进行版面分析的操作。
3.根据权利要求2所述的方法,其特征在于,所述电子设备存储有预测模型,所述预测模型具备根据区域间的重叠程度确定需运行的服务的功能,所述预测模型根据所述历史操作记录更新过;
所述根据所述至少一个感兴趣区域ROI与每类待匹配区域的重叠程度,以及历史操作记录确定所述第一服务,包括:
所述电子设备将所述至少一个感兴趣区域ROI与每类待匹配区域的重叠程度作为所述预测模型的输入确定所述第一服务。
4.根据权利要求1所述的方法,其特征在于,所述电子设备存储有预测模型,所述预测模型具备根据区域间的重叠程度确定需运行的服务的功能;
所述至少根据所述至少一个感兴趣区域ROI与每类待匹配区域的重叠程度确定第一服务,包括:
所述电子设备将所述至少一个感兴趣区域ROI与每类待匹配区域的重叠程度作为所述预测模型的输入确定所述第一服务。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述感兴趣区域ROI包括:第一感兴趣区域ROI,第二感兴趣区域ROI,第三感兴趣区域ROI和第四感兴趣区域ROI中的一种或多种;
所述第一感兴趣区域ROI是所述第一操作的按压位置构成的区域;
所述第二感兴趣区域ROI是所述第一界面的中心区域;
所述第三感兴趣区域ROI是所述第一界面的全部区域;
所述第四感兴趣区域ROI是占所述第一界面预定比例的区域。
6.根据权利要求5所述的方法,其特征在于,所述按压位置构成的区域是矩形区域。
7.根据权利要求1所述的方法,其特征在于,所述根据所述电子设备的触摸屏上当前显示的第一界面的内容,确定所述第一界面中各待匹配区域的类型和位置信息,包括:
服务器根据所述第一界面的内容,采用神经网络算法或图像内容检测算法,确定所述第一界面中各待匹配区域的类型和位置信息。
8.根据权利要求1所述的方法,其特征在于,
所述待匹配区域的类型包括以下类型中的一种或多种:文本区域,图像区域或二维码区域。
9.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个感兴趣区域ROI和每个待匹配区域的类型和位置信息,确定所述至少一个感兴趣区域ROI与每类待匹配区域的重叠程度,包括:
根据每个待匹配区域的位置信息,确定每个待匹配区域与所述至少一个感兴趣区域ROI的第一交并比IoU,所述交并比IoU用于指示两个区域交集的面积、或者并集的面积;
根据每个待匹配区域的类型,将同类型待匹配区域与所述至少一个感兴趣区域ROI的第一IoU合并,获得所述至少一个感兴趣区域ROI与每类待匹配区域的重叠程度。
10.根据权利要求9所述的方法,其特征在于,所述根据每个待匹配区域的位置信息,确定每个待匹配区域与所述至少一个感兴趣区域ROI的第一交并比IoU,包括:
根据每个待匹配区域的位置信息,确定每个待匹配区域与所述至少一个感兴趣区域ROI的第二IoU;
根据每个待匹配区域的位置信息,确定每个待匹配区域的中心点与所述至少一个感兴趣区域ROI的中心点之间的距离;
对每个待匹配区域的中心点与所述至少一个感兴趣区域ROI的中心点之间的距离进行归一化,并根据归一化后的距离获取每个待匹配区域的衰减系数;
针对每个待匹配区域,采用所述待匹配区域的衰减系数,对所述待匹配区域与所述至少一个感兴趣区域ROI的第二IoU进行衰减处理,获得每个待匹配区域与所述至少一个感兴趣区域ROI的所述第一IoU。
11.根据权利要求3或4所述的方法,其特征在于,在所述电子设备的触摸屏上显示第二界面之后,所述方法还包括:
接收用户选择使用所述第一服务的操作;
将所述至少一个感兴趣区域ROI与每类待匹配区域的重叠程度和所述第一服务作为第一训练样本,利用所述第一训练样本更新所述预测模型,使得所述预测模型具备根据所述至少一个感兴趣区域ROI与每类待匹配区域的重叠程度,确定所述第一服务的功能。
12.根据权利要求3或4所述的方法,其特征在于,在所述电子设备的触摸屏上显示第二界面之后,所述方法还包括:
接收用户选择使用第二服务的操作,所述第二服务为所述文字识别服务,所述识图购物服务,所述文字翻译服务,或所述二维码识别服务,所述第二服务与所述第一服务不同;
将所述至少一个感兴趣区域ROI与每类待匹配区域的重叠程度和所述第二服务作为第二训练样本,利用所述第二训练样本更新所述预测模型,使得所述预测模型具备根据所述至少一个感兴趣区域ROI与每类待匹配区域的重叠程度,确定所述第二服务的功能。
13.根据权利要求12所述的方法,其特征在于,所述第二界面还包括所述第二服务的标识;
所述接收用户选择使用第二服务的操作,包括:
接收用户对所述第二服务的标识的操作。
14.一种电子设备,其特征在于,所述电子设备包括显示屏、存储器和一个或多个处理器;所述显示屏、所述存储器和所述处理器耦合;所述显示屏包括触摸屏;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,当所述计算机指令被所述处理器执行时,使得所述电子设备执行如权利要求1-13中任一项所述的版面分析方法。
15.一种版面分析系统,其特征在于,所述版面分析系统包括电子设备和服务器,用于执行如权利要求1-13中任一项所述的版面分析方法。
16.一种芯片系统,其特征在于,所述芯片系统应用于如权利要求14所述的电子设备;所述芯片系统包括一个或多个接口电路和一个或多个所述处理器;所述接口电路和所述处理器通过线路互联;所述处理器通过所述接口电路从所述电子设备的所述存储器接收并执行所述计算机指令。
17.一种计算机可读存储介质,其特征在于,用于存储如权利要求14所述的电子设备运行的所述计算机指令。
CN202010270092.0A 2020-04-08 2020-04-08 一种版面分析方法及电子设备 Active CN111626035B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202010270092.0A CN111626035B (zh) 2020-04-08 2020-04-08 一种版面分析方法及电子设备
US17/916,520 US20230154147A1 (en) 2020-04-08 2021-04-08 Layout Analysis Method and Electronic Device
EP21784560.1A EP4113356A4 (en) 2020-04-08 2021-04-08 LAYOUT ANALYSIS METHOD AND ELECTRONIC DEVICE
PCT/CN2021/085900 WO2021204187A1 (zh) 2020-04-08 2021-04-08 一种版面分析方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010270092.0A CN111626035B (zh) 2020-04-08 2020-04-08 一种版面分析方法及电子设备

Publications (2)

Publication Number Publication Date
CN111626035A CN111626035A (zh) 2020-09-04
CN111626035B true CN111626035B (zh) 2022-09-02

Family

ID=72258856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010270092.0A Active CN111626035B (zh) 2020-04-08 2020-04-08 一种版面分析方法及电子设备

Country Status (4)

Country Link
US (1) US20230154147A1 (zh)
EP (1) EP4113356A4 (zh)
CN (1) CN111626035B (zh)
WO (1) WO2021204187A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626035B (zh) * 2020-04-08 2022-09-02 华为技术有限公司 一种版面分析方法及电子设备
CN115422402A (zh) * 2021-05-12 2022-12-02 华为技术有限公司 一种工程化预测分析的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104423803A (zh) * 2013-08-27 2015-03-18 三星电子株式会社 用于基于内容提供信息的方法及其电子设备
CN108595078A (zh) * 2018-05-07 2018-09-28 深圳市万普拉斯科技有限公司 触摸操作方法、装置、移动终端和计算机可读存储介质
CN110275667A (zh) * 2019-06-25 2019-09-24 努比亚技术有限公司 内容显示方法、移动终端及计算机可读存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150012840A1 (en) * 2013-07-02 2015-01-08 International Business Machines Corporation Identification and Sharing of Selections within Streaming Content
KR102173123B1 (ko) * 2013-11-22 2020-11-02 삼성전자주식회사 전자장치에서 이미지 내의 특정 객체를 인식하기 위한 방법 및 장치
CN103823849A (zh) * 2014-02-11 2014-05-28 百度在线网络技术(北京)有限公司 词条的获取方法及装置
US10489932B2 (en) * 2017-11-27 2019-11-26 Huntercraft Limited Intelligent shooting training management system
CN109189290B (zh) * 2018-10-18 2021-01-26 广州酷狗计算机科技有限公司 点击区域识别方法、装置和计算机可读存储介质
CN109829458B (zh) * 2019-01-14 2023-04-04 上海交通大学 实时自动生成记录系统操作行为的日志文件的方法
CN111626035B (zh) * 2020-04-08 2022-09-02 华为技术有限公司 一种版面分析方法及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104423803A (zh) * 2013-08-27 2015-03-18 三星电子株式会社 用于基于内容提供信息的方法及其电子设备
CN108595078A (zh) * 2018-05-07 2018-09-28 深圳市万普拉斯科技有限公司 触摸操作方法、装置、移动终端和计算机可读存储介质
CN110275667A (zh) * 2019-06-25 2019-09-24 努比亚技术有限公司 内容显示方法、移动终端及计算机可读存储介质

Also Published As

Publication number Publication date
US20230154147A1 (en) 2023-05-18
WO2021204187A1 (zh) 2021-10-14
EP4113356A4 (en) 2023-08-23
EP4113356A1 (en) 2023-01-04
CN111626035A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN109299315B (zh) 多媒体资源分类方法、装置、计算机设备及存储介质
CN110134804B (zh) 图像检索方法、装置及存储介质
CN110471858B (zh) 应用程序测试方法、装置及存储介质
CN112269853B (zh) 检索处理方法、装置及存储介质
CN112287234B (zh) 信息检索方法、装置及存储介质
CN111027490B (zh) 人脸属性识别方法及装置、存储介质
CN111626035B (zh) 一种版面分析方法及电子设备
CN114547428A (zh) 推荐模型处理方法、装置、电子设备及存储介质
CN114255745A (zh) 一种人机交互的方法、电子设备及系统
CN112818979B (zh) 文本识别方法、装置、设备及存储介质
CN113946302B (zh) 一种打开文件的方法及设备
CN113343709B (zh) 意图识别模型的训练方法、意图识别方法、装置及设备
CN114281937A (zh) 嵌套实体识别模型的训练方法、嵌套实体识别方法及装置
CN111310075A (zh) 信息收藏方法、信息收藏装置、存储介质与电子设备
US20240005928A1 (en) Electronic device and method by which electronic device stores tag information of content
CN108829600B (zh) 算法库的测试方法、装置、存储介质和电子设备
WO2024051730A1 (zh) 跨模态检索方法、装置、设备、存储介质及计算机程序
US20230359352A1 (en) Method for providing clipboard function, and electronic device supporting same
CN114417030A (zh) 资源处理方法、装置、设备及计算机可读存储介质
CN116775915A (zh) 资源推荐方法、推荐预测模型训练方法、装置及设备
CN111680320A (zh) 输入方法、装置及终端设备
CN115019309A (zh) 基于图像的字符识别方法、装置、设备及存储介质
CN117725244A (zh) 数据搜索方法、装置、介质及设备
CN117012194A (zh) 一种提高车端网联应用的可见即可说识别率的方法
CN115633114A (zh) 通信录字母的显示方法、装置和终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant