CN115346205A - 一种页面信息的识别方法、装置及电子设备 - Google Patents
一种页面信息的识别方法、装置及电子设备 Download PDFInfo
- Publication number
- CN115346205A CN115346205A CN202211264267.2A CN202211264267A CN115346205A CN 115346205 A CN115346205 A CN 115346205A CN 202211264267 A CN202211264267 A CN 202211264267A CN 115346205 A CN115346205 A CN 115346205A
- Authority
- CN
- China
- Prior art keywords
- image
- target
- page
- image area
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 105
- 238000013507 mapping Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 142
- 238000012545 processing Methods 0.000 claims description 40
- 238000013528 artificial neural network Methods 0.000 claims description 30
- 238000013461 design Methods 0.000 claims description 26
- 125000004122 cyclic group Chemical group 0.000 claims description 25
- 230000000694 effects Effects 0.000 claims description 18
- 238000003860 storage Methods 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 20
- 230000002829 reductive effect Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 7
- 238000013210 evaluation model Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本公开提供了一种页面信息的识别方法、装置及电子设备,该方法包括:获取待识别的目标页面;提取所述目标页面中的目标图像区域;其中,所述目标图像区域为所述目标页面中目标对象所在的图像区域,所述目标对象包括文字和/或图标;基于预设的图像识别模型,根据所述目标图像区域,得到所述目标图像区域所对应的编号;根据所述目标图像区域所对应的编号查找预设的对照表,得到所述目标图像区域所包含的图文信息;其中,所述对照表反映编号和图文信息之间的映射关系;根据所述目标图像区域所包含的图文信息,得到所述目标页面的页面信息。
Description
技术领域
本公开涉及图像处理技术领域,更具体地,涉及一种页面信息的识别方法、一种页面信息的识别装置、一种电子设备、及一种计算机可读存储介质。
背景技术
随着计算机技术的不断发展壮大,电子游戏成为了许多人们娱乐时的优先选择。电子游戏是依托于电子设备平台而运行的交互游戏。在游戏中,用户可以通过角色扮演、资源管理等方式进行游戏。
对于游戏行业来说,游戏页面的页面信息的识别对于玩家行为理解、游戏策略优化、游戏账号估值等方面都有着重要的作用。
发明内容
本公开的一个目的是提供一种识别页面信息的新技术方案。
根据本公开的第一方面,提供了一种页面信息的识别方法,包括:
获取待识别的目标页面;
提取所述目标页面中的目标图像区域;其中,所述目标图像区域为所述目标页面中目标对象所在的图像区域,所述目标对象包括文字和/或图标;
基于预设的图像识别模型,根据所述目标图像区域,得到所述目标图像区域所对应的编号;
根据所述目标图像区域所对应的编号查找预设的对照表,得到所述目标图像区域所包含的图文信息;其中,所述对照表反映编号和图文信息之间的映射关系;
根据所述目标图像区域所包含的图文信息,得到所述目标页面的页面信息。
可选的,所述提取目标页面中的目标图像区域,包括:
基于预设的图像检测模型,根据所述目标页面,得到至少一个目标图像区域,以及所述目标图像区域的第一得分;其中,所述第一得分表示所述目标图像区域中包含目标对象的概率;
剔除第一得分小于或等于第一分数阈值的目标图像区域。
可选的,所述基于预设的图像识别模型,根据所述目标图像区域,得到所述目标图像区域所对应的编号之前,所述方法包括:
按照设定倍数对所述目标图像区域的区域范围进行放大处理。
可选的,所述方法还包括:
基于所述图像识别模型,根据所述目标图像区域,得到表示所述目标对象区域和对应编号之间匹配度的第二得分;
剔除第二得分小于或等于第二分数阈值的目标图像区域。
可选的,还包括:
获取第一训练样本,所述第一训练样本包括第一图像和所述第一图像所包含的图文信息对应的编号;
根据所述第一训练样本对卷积循环神经网络进行训练,得到所述图像识别模型。
可选的,所述第一图像所包含的图文信息包括文字,所述方法还包括:
基于预设的文字处理方式,对所述第一图像中的文字进行处理,得到特效文字;
将所述特效文字设置在预设的背景图像中,得到第二图像;
根据所述第二图像和所述第一图像对应的编号,得到第二训练样本;
还根据所述第二训练样本对所述卷积循环神经网络进行训练,得到所述图像识别模型。
可选的,所述第一图像的图文信息包括目标文字,所述方法还包括:
获取包含个性化设计字体的目标文字的图像块;
将所述图像块与所述第一图像进行拼接,得到第三图像;
根据所述第三图像和所述第一图像对应的编号,得到第三训练样本;
还根据所述第三训练样本对所述卷积循环神经网络进行训练,得到所述图像识别模型。
根据本公开的第二方面,提供了一种页面信息的识别方法,包括:
获取待识别的目标游戏页面;
提取所述目标游戏页面中的目标图像区域;其中,所述目标图像区域为所述目标游戏页面中目标对象所在的图像区域,所述目标对象包括文字和/或图标;
基于预设的图像识别模型,根据所述目标图像区域,得到所述目标图像区域所对应的编号;
根据所述目标图像区域所对应的编号查找预设的对照表,得到所述目标图像区域所包含的图文信息;其中,所述对照表反映编号和图文信息之间的映射关系;
根据所述目标图像区域的图文信息,得到所述目标游戏页面的页面信息。
可选的,还包括:
根据所述目标游戏页面的页面信息,对所述目标游戏页面进行翻译,得到翻译后的游戏页面。
可选的,还包括:
根据所述目标游戏页面的页面信息,对所述目标游戏页面所对应的目标账号进行评估,得到表示所述目标账号的价值的第三得分。
根据本公开的第三方面,提供了一种图像识别模型的训练方法,包括:
获取第一训练样本,所述第一训练样本包括第一图像和所述第一图像所包含的图文信息对应的编号;所述第一图像中的目标对象包括文字和/或图标;
根据所述第一训练样本对卷积循环神经网络进行训练,得到所述图像识别模型。
可选的,所述第一图像所包含的图文信息包括文字,所述方法还包括:
基于预设的文字处理方式,对所述第一图像中的文字进行处理,得到特效文字;
将所述特效文字设置在预设的背景图像中,得到第二图像;
根据所述第二图像和所述第一图像对应的编号,得到第二训练样本;
还根据所述第二训练样本对所述卷积循环神经网络进行训练,得到所述图像识别模型。
可选的,所述第一图像的图文信息包括目标文字,所述方法还包括:
获取包含个性化设计字体的目标文字的图像块;
将所述图像块与所述第一图像进行拼接,得到第三图像;
根据所述第三图像和所述第一图像对应的编号,得到第三训练样本;
还根据所述第三训练样本对所述卷积循环神经网络进行训练,得到所述图像识别模型。
根据本公开的第四方面,提供了一种页面信息的识别装置,包括:
页面获取模块,用于获取待识别的目标页面;
区域提取模块,用于提取所述目标页面中的目标图像区域;其中,所述目标图像区域为所述目标页面中目标对象所在的图像区域,所述目标对象包括文字和/或图标;
编号识别模块,用于基于预设的图像识别模型,根据所述目标图像区域,得到所述目标图像区域所对应的编号;
信息查找模块,用于根据所述目标图像区域所对应的编号查找预设的对照表,得到所述目标图像区域所包含的图文信息;其中,所述对照表反映编号和图文信息之间的映射关系;
信息得到模块,用于根据所述目标图像区域所包含的图文信息,得到所述目标页面的页面信息。
根据本公开的第五方面,提供了一种图像识别模型的训练装置,包括:
样本获取模块,用于获取第一训练样本,所述第一训练样本包括第一图像和所述第一图像所包含的图文信息对应的编号;所述第一图像中的目标对象包括文字和/或图标;
模型训练模块,用于根据所述第一训练样本对卷积循环神经网络进行训练,得到所述图像识别模型。
根据本公开的第六方面,提供了一种电子设备,包括:
根据本公开第四方面或第五方面所述的装置;或者,
处理器和存储器,所述存储器用于存储指令,所述指令用于控制所述处理器执行根据本公开第一方面、第二方面或第三方面所述的方法。
根据本公开的第七方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现如本公开第一方面、第二方面或第三方面所述的方法。
通过本公开的实施例,提取待识别的目标页面中的目标图像区域,基于图像识别模型,得到目标图像区域所对应的编号,根据目标图像区域所对应的编号查找反映编号和图文信息之间映射关系的对照表,得到目标图像区域所包含的图文信息,再根据目标图像区域所包含的图文信息,得到目标页面的页面信息。这样,可以实现目标页面中文字与图标的一体化识别,既可以识别序列类型的文字,也可以识别非序列类型的图标,避免文字和图标需要多个模型来进行识别,减少模型数量,进一步可以降低模型的管理维护成本。此外,还可以提高页面信息的识别效率,提高个性化设计字体的文字的识别精度。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且连同其说明一起用于解释本公开的原理。
图1是显示可用于实现本公开的实施例的电子设备的硬件配置的例子的框图。
图2a示出了本公开的实施例的页面信息的识别方法的应用场景的一个例子的示意图。
图2b示出了本公开的实施例的页面信息的识别方法的应用场景的另一个例子的示意图。
图3示出了本公开的第一实施例的页面信息的识别方法的流程示意图。
图4a示出了本公开的实施例的第三图像的生成方式的一个例子的示意图。
图4b示出了本公开的实施例的第三图像的生成方式的另一个例子的示意图。
图5示出了本公开的第二实施例的页面信息的识别方法的流程示意图。
图6示出了本公开的实施例的页面信息的识别装置的框图。
图7示出了本公开的第三实施例的图像识别模型的训练方法的流程示意图。
图8示出了本公开的实施例的图像识别模型的训练装置的框图。
图9示出了本公开的实施例的电子设备的一个例子的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<硬件配置>
图1是示出可以实现本公开的实施例的电子设备1000的硬件配置的框图。
电子设备1000可以是便携式电脑、台式计算机、手机、平板电脑、音箱、耳机等。如图1所示,电子设备1000可以包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、麦克风1800等等。其中,处理器1100可以是中央处理器CPU、微处理器MCU等。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、耳机接口等。通信装置1400例如能够进行有线或无线通信,具体地可以包括Wifi通信、蓝牙通信、2G/3G/4G/5G通信等。显示装置1500例如是液晶显示屏、触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘、体感输入等。用户可以通过扬声器1700和麦克风1800输入/输出语音信息。
图1所示的电子设备仅仅是说明性的并且决不意味着对本公开、其应用或使用的任何限制。应用于本公开的实施例中,电子设备1000的所述存储器1200用于存储指令,所述指令用于控制所述处理器1100进行操作以执行本公开实施例提供的任意一项页面信息的识别方法。本领域技术人员应当理解,尽管在图1中对电子设备1000示出了多个装置,但是,本公开可以仅涉及其中的部分装置,例如,电子设备1000只涉及处理器1100和存储装置1200。技术人员可以根据本公开所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
<应用场景>
图2a和图2b为本公开实施例的页面信息的识别方法的应用场景的示意图。
本实施例的页面信息的识别方法具体可以应用于游戏场景中,也可以应用于产品评价或者是客服评价的场景中。
如图2a所示的目标页面可以是游戏页面。在虚线框201内,胜、败是个性化设计字体的文字;在虚线框202内,人物名称1、人物名称2、技能1、技能2、技能3、技能4、技能5和技能6是普通字体的文字,在虚线框203内,目标对象是图标。
如图2a所示,电子设备在运行目标游戏的过程中,可以是提供有识别按钮,用户根据实际需求,在需要对目标游戏当前所展示页面的页面信息进行识别的情况下,点击该识别按钮,触发执行本实施例方法的电子设备获取当前所展示的页面,作为目标页面。
本实施例中所获取得到的页面信息,可以用于对游戏账号进行估值,得到表示该游戏账号的价值的得分,也可以用于对目标页面进行翻译。
如图2b所示的目标页面可以是聊天页面,语句1~语句8是文字,虚线框内的表情是图标。
如图2b所示,电子设备在运行目标应用的过程中,可以是提供有识别按钮,运营人员根据实际需求,在需要确定用户对产品的评价或者是用户对客服的评价的情况下,上传用户的聊天页面,并点击该识别按钮,触发执行本实施例方法的电子设备获取运营人员所上传的聊天页面,作为目标页面。
本实施例中所获取得到的页面信息,可以用于确定用户对产品的评价或者是用户对客服的评价,也可以用于对目标页面进行翻译。
在如图2a和图2b所示的例子中,电子设备可以是提取目标页面中的目标对象所在的目标图像区域;基于图像识别模型,得到目标图像区域对应的编号;根据目标图像区域所对应的编号查找反映编号和图文信息之间映射关系的对照表,得到目标图像区域所包含的图文信息,并根据目标图像区域所包含的图文信息,得到目标页面的页面信息。
在本实施例中,目标页面中可以包括文字和图标,其中,文字可以是普通字体的文字,也可以是个性化设计字体的文字。
通过本公开的实施例,可以实现目标页面中文字与图标的一体化识别,既可以识别序列类型的文字,也可以识别非序列类型的图标,避免文字和图标需要多个模型来进行识别,减少模型数量,进一步可以降低模型的管理维护成本。此外,还可以提高页面信息的识别效率,提高个性化设计字体的文字的识别精度。
在一个实施例中,电子设备在得到目标页面的页面信息的情况下,还可以是展示该页面信息,以供用户查看。
<第一方法实施例>
在本实施例中,提供一种页面信息的识别方法。该页面信息的识别方法可以是由电子设备实施。该电子设备可以是如图1所示的电子设备1000。
根据图3所示,本实施例的页面信息的识别方法可以包括如下步骤S1000~S5000:
步骤S1000,获取待识别的目标页面。
本实施例中待识别的目标页面,可以是包括文字和/或图标的图像页面。
在一个例子中,该目标页面可以是游戏页面。具体的,目标页面可以是用户在玩游戏的过程中所截取的任意页面。
在一个实施例中,执行本实施例方法的电子设备可以是提供有用于上传待识别的目标页面的入口,用户可以是通过点击该入口,将需要识别的目标页面上传至电子设备中,以供电子设备获取,并识别目标页面中的页面信息。
步骤S2000,提取目标页面中的目标图像区域,其中,目标图像区域为目标页面中目标对象所在的图像区域,目标对象包括文字和/或图标。
在本实施例中,目标对象可以是预先根据应用场景或具体需求所设置的文字和图标。
其中,文字可以是普通字体的文字,也可以是个性化设计字体的文字。图标是具有指代意义的图形符号。在目标页面为游戏页面的情况下,图标可以表示游戏角色职业、等级、技能等。在目标页面为聊天页面的情况下,图标可以是表情。
本实施例的目标图像区域,可以是四边形的图像区域,由四边形顶点的坐标集表示。
在本公开的一个实施例中,提取目标页面中的目标图像区域,可以包括:
基于预设的图像检测模型,根据目标页面,得到至少一个目标图像区域,以及目标图像区域的第一得分;剔除第一得分小于或等于第一分数阈值的目标图像区域。
其中,第一得分可以表示对应的目标图像区域中包含目标对象的概率。
本实施例中的第一分数阈值可以是预先根据应用场景或具体需求所设定的。第一得分小于或等于第一分数阈值,表示目标图像区域中包含目标对象的概率较低,可以无需对其进行图文信息识别。
在本实施例中,可以是预先获取多个页面,作为样本页面,以用于对图像检测模型进行训练。具体的,可以是由研发人员根据需求定位样本页面中的普通字体的文字、个性化设计字体的文字和图标等重要元素,在样本页面中使用四边形框框住这些重要元素位置进行标注,形成样本页面到四边形顶点坐标集的数据集,作为用于训练图像检测模型的训练样本。
进一步地,根据样本页面以及样本页面中标注的四边形框的顶点坐标集,得到第四训练样本;根据第四训练样本对基于二值化的文本检测网络进行训练,得到图像检测模型。
本实施例中,基于二值化的文本检测网络可以是由特征提取ResNet网络、特征金字塔结构增强特征FPN网络、计算文本区域概率图Head网络三部分组成。其中,ResNet(Residual Network)是一个经典的特征提取网络结构;FPN(Feature Pyramid Networks)是一种用卷积网络来高效提取图片中各维度特征的常用方法;head是获取网络输出内容的网络,利用之前提取的特征做出预测。
在一个实施例中,在根据样本页面对图像检测模型进行训练之前,还可以对样本页面进行增强处理。增强处理的方式可以包括:旋转、模糊化、尺寸调整等。
在目标图像区域由四边形顶点的坐标集表示的实施例中,在得到目标图像区域的情况下,该方法还可以包括:按照设定倍数对目标图像区域的区域范围进行放大处理。其中,设定倍数可以是预先根据应用场景或具体需求所设定的。例如,该设定倍数可以是1.8。
在本实施例中,在对目标图像区域的区域范围进行放大处理后,目标图像区域的面积相比于处理前放大了设定倍数倍。这样,可以使得目标图像区域包含的目标对象完整。
步骤S3000,基于预设的图像识别模型,根据目标图像区域,得到目标图像区域所对应的编号。
在本实施例中,可以是在确定样本页面中需要识别的普通字体的文字、个性化设计字体的文字和图标等重要元素后,可以是由研发人员对这些元素进行一一编号,形成反映编号和图文信息之间映射关系的对照表,以用于后续根据图像识别模型输出的编号来确定目标图像区域的图文信息。
具体的,可以是将目标图像区域输入至图像识别模型中,即可以得到目标图像区域所对应的编号,其中,该编号可以表示目标图像区域所包含的图文信息。
在本公开的一个实施例中,该方法还可以包括:获取第一训练样本;其中,第一训练样本包括第一图像和第一图像所包含的图文信息对应的编号;根据第一训练样本对卷积循环神经网络进行训练,得到图像识别模型。
本实施例中,卷积循环神经网络可以是由CNN网络、RNN网络和CTC网络组成。其中,CNN(Convolutional Neural Network)是一种广泛用于图像和视频识别的前向传播类型的深度卷积神经网络;RNN(Feature Pyramid Networks),是一种用卷积网络来高效提取图片中各维度特征的常用方法;CTC(Connectionist Temporal Classification)是一种解决输入序列和输出序列对应问题的技术。
进一步地,第一图像可以是样本页面中标注的四边形框所框中的图像区域。第一图像所包含的图文信息对应的编号可以是由研发人员根据实际情况所标注的。
在一个例子中,第一图像可以是根据标注的四边形框对样本页面进行裁剪,得到至少一个第一图像。
在图像识别模型的训练过程中需要大量的训练样本,由于人工标注的人工成本较高,因此,可以根据少量标注的第一训练样本来生成用于训练图像识别模型的训练样本。
在一个实施例中,第一图像所包含的图文信息为文字。那么,该方法还可以包括如下所示的步骤S3111~S3114:
步骤S3111,基于预设的文字处理方式,对第一图像中的文字进行处理,得到特效文字。
在本实施例中,可以是使用字体文件,对第一图像中的文字转换为指定字体的文字,还可以是改变文字的大小、颜色和/或特效,得到特效文字。
步骤S3112,将特效文字设置在预设的背景图像中,得到第二图像。
在本实施例中,背景图像可以是预先设置的不包含目标对象的图像。
步骤S3113,根据第二图像和第一图像对应的编号,得到第二训练样本。
在本实施例中,由于第二图像是将第一图像中的文字进行处理得到的特效文字设置在背景图像中得到的,因此,第一图像和第二图像中所包含的文字相同,那么,第一图像和第二图像对应的编号也相同。因此,可以是将第一图像对应的编号作为第二图像对应的编号,而不需要人工再对第二图像对应的编号进行标注,可以降低人工成本。
步骤S3114,还根据第二训练样本对卷积循环神经网络进行训练,得到图像识别模型。
在一个实施例中,第一图像所包含的图文信息包括目标文字,其中,目标文字可以是预先设置的,获取有包含个性化设计字体的目标文字的图像块的文字。那么,该方法还可以包括如下所示的步骤S3121~S3124:
步骤S3121,获取包含个性化设计字体的目标文字的图像块。
在本实施例中,目标文字可以是一个或多个文字。第一图像中所包含的文字,可以包括一个或多个目标文字,还可以包括其他文字,其他文字为除目标文字以外的文字。
如图4a所示的第一图像中所包含的文字可以包括“破”、“军”、“威”、“胜”,在如图4b所示的第一图像中所包含的文字可以包括“校”、“胜”、“帷”、“幄”。在目标文字为“胜”的情况下,通过步骤S3121获取的图像块,可以是包含“胜”的个性化设计字体的文字的图像块。
在一个例子中,包含个性化设计字体的目标文字的图像块,可以是预先从样本页面中截取的。
步骤S3122,将该图像块与第一图像进行拼接,得到第三图像。
本实施例中,图像块与第一图像进行拼接的方式,可以是将图像块设置在第一图像中目标文字的位置处,得到第三图像。
如图4a和图4b所示,可以是将“胜”的图像块设置在第一图像中文字“胜”所在位置上,得到第三图像。
在本公开的一个实施例中,在执行步骤S3122之前,该方法还可以包括:对该图像块进行数据增强处理。
具体的,对图像块进行数据增强处理,可以包括对图像块进行旋转、模糊化、尺寸调整等处理。
步骤S3123,根据第三图像和第一图像对应的编号,得到第三训练样本。
在本实施例中,由于第三图像是将目标文字的图像块与第一图像进行拼接得到的,因此,第一图像和第三图像中所包含的文字相同,那么,第一图像和第三图像对应的编号也相同。因此,可以是将第一图像对应的编号作为第三图像对应的编号,而不需要人工再对第三图像对应的编号进行标注,可以降低人工成本。
步骤S3124,还根据第三训练样本对卷积循环神经网络进行训练,得到图像识别模型。
通过本实施例的方式来生成第三训练样本,可以克服个性化设计字体的文字难生成的问题,还可以利用文字识别本身的序列性优势,大规模生成第三训练样本,使得利用第三训练样本训练得到的图像识别模型可以很好的对个性化设计字体的文字进行识别。
在本公开的一个实施例中,由于图标本身没有前后语义,因此,可以是将样本页面中的图标截取下来,进行旋转、模糊化、尺寸调整等增强处理后,随机穿插在普通文本行图像中或单独成为一张图像,形成新的训练样本。
在本公开的一个实施例中,该方法还可以包括:
基于图像识别模型,根据目标图像区域,得到表示目标图像区域和对应编号之间匹配度的第二得分;剔除第二得分小于或等于预设的第二分数阈值的目标图像区域。其中,第二分数阈值可以是预先根据应用场景或具体需求所设定的。
在第二得分小于或等于第二分数阈值的情况下,表示目标图像区域所包含的图文信息为该编号所对应的图文信息的概率较低,因此,可以是剔除第二得分小于或等于第二分数阈值的目标图像区域,无需获取该目标图像区域所包含的图文信息。
步骤S4000,根据目标图像区域所对应的编号查找预设的对照表,得到目标图像区域所包含的图文信息。
其中,该对照表可以反映编号和图文信息之间的映射关系。
根据目标图像区域所对应的编号查找该对照表,可以得到该编号所对应的图文信息,即为目标图像区域所包含的图文信息。
步骤S5000,根据目标图像区域的图文信息,得到目标页面的页面信息。
通过本公开的实施例,提取待识别的目标页面中的目标图像区域,基于图像识别模型,得到目标图像区域所对应的编号,根据目标图像区域所对应的编号查找反映编号和图文信息之间映射关系的对照表,得到目标图像区域所包含的图文信息,再根据目标图像区域所包含的图文信息,得到目标页面的页面信息。这样,可以实现目标页面中文字与图标的一体化识别,既可以识别序列类型的文字,也可以识别非序列类型的图标,避免文字和图标需要多个模型来进行识别,减少模型数量,进一步可以降低模型的管理维护成本。此外,还可以提高页面信息的识别效率,提高个性化设计字体的文字的识别精度。
在本公开的一个实施例中,在得到目标页面的页面信息的情况下,该方法还可以包括:
根据目标页面的页面信息,对目标页面进行翻译,得到并展示翻译后的目标页面。
在本实施例中,在目标页面中的文字的语种为用户无法理解的语种的情况下,通过识别目标页面的页面信息,再根据该页面信息对目标页面进行翻译,得到并展示翻译后的目标页面,可以便于用户理解,提升用户体验。
在本公开的另一个实施例中,目标页面可以是游戏页面,那么,在得到目标页面的页面信息的情况下,该方法还可以包括:
根据目标游戏页面的页面信息,对目标游戏页面所对应的目标账号进行评估,得到表示目标账号的价值的第三得分。
目标游戏页面所对应的目标账号,可以是登录提供目标游戏页面的目标游戏的账号。
在一个实施例中,可以是获取预先训练得到用于评估账号价值的账号价值评估模型,基于该账号价值评估模型,根据目标游戏页面的页面信息,得到表示目标账号的价值的第三得分。
通过本实施例,可以更加客观、准确地评估账号的价值。
在本公开的再一个实施例中,目标页面可以是用户与目标产品的客服的聊天页面,那么,在得到目标页面的页面信息的情况下,该方法还可以包括:
根据目标页面的页面信息,获取用户对提供目标页面的目标产品的满意度。
在一个实施例中,可以是获取预先训练得到用于评价用户对目标产品满意度的评价模型,基于该评价模型,根据目标页面的页面信息,得到用户对目标产品的满意度。
<第二方法实施例>
本实施例还提供了一种页面信息的识别方法。如图5所示,可以包括如下所示的步骤S5100~S5500:
步骤S5100,获取待识别的目标游戏页面。
本实施例中待识别的目标游戏页面,可以是包括文字和/或图标的游戏页面。
本实施例中,目标游戏页面可以是指定游戏所能够提供的任意页面。例如,可以是目标游戏页面所对应的目标账号与客服的沟通页面,也可以是用于展示目标账号的账号信息的页面,还可以是游戏介绍的页面,在此不做限定。
在本公开的一个实施例中,可以是在游戏中提供识别按钮,用户根据实际需求,在需要对游戏当前所展示页面的页面信息进行识别的情况下,点击该识别按钮,触发执行本实施例方法的电子设备可以获取当前所展示的页面,作为目标游戏页面。
在本公开的另一个实施例中,可以是在游戏中提供截图按钮和用于上传待识别的目标游戏页面的入口。用户可以根据实际需求,在需要对游戏当前所展示页面的页面信息进行识别的情况下,点击截图按钮,触发执行本实施例方法的电子设备对当前所展示页面的进行截图处理,得到目标游戏页面,并将其保存在电子设备中。用户可以是通过点击该入口,将需要识别的目标游戏页面上传至电子设备中,以供电子设备获取,并识别目标游戏页面中的页面信息。
步骤S5200,提取目标游戏页面中的目标图像区域;其中,目标图像区域为目标游戏页面中目标对象所在的图像区域,目标对象包括文字和/或图标。
在本实施例中,该步骤S5200可以是参照前述的第一方法实施例中的步骤S2000,在此不再赘述。
步骤S5300,基于预设的图像识别模型,根据目标图像区域,得到目标图像区域所对应的编号。
在本实施例中,该步骤S5300可以是参照前述的第一方法实施例中的步骤S3000,在此不再赘述。
步骤S5400,根据目标图像区域所对应的编号查找预设的对照表,得到目标图像区域所包含的图文信息。
其中,该对照表反映编号和图文信息之间的映射关系。
在本实施例中,该步骤S5400可以是参照前述的第一方法实施例中的步骤S4000,在此不再赘述。
步骤S5500,根据目标图像区域的图文信息,得到目标游戏页面的页面信息。
在本实施例中,该步骤S5500可以是参照前述的第一方法实施例中的步骤S5000,在此不再赘述。
在本公开的一个实施例中,在得到目标游戏页面的页面信息的情况下,该方法还可以包括:
根据目标游戏页面的页面信息,对目标游戏页面进行翻译,得到翻译后的游戏页面。
在本实施例中,在目标游戏页面中的文字的语种为用户无法理解的语种的情况下,通过识别目标游戏页面的页面信息,再根据该页面信息对目标游戏页面进行翻译,得到并展示翻译后的游戏页面,可以便于用户理解,提升用户的游戏体验。
在本公开的一个实施例中,在得到目标游戏页面的页面信息的情况下,该方法还可以包括:
根据目标游戏页面的页面信息,对目标游戏页面所对应的目标账号进行评估,得到表示目标账号的价值的第三得分。
目标游戏页面所对应的目标账号,可以是登录提供目标游戏页面的目标游戏的账号。
在一个实施例中,可以是获取预先训练得到用于评估账号价值的账号价值评估模型,基于该账号价值评估模型,根据目标游戏页面的页面信息,得到表示目标账号的价值的第三得分。
通过本实施例,可以更加客观、准确地评估账号的价值。
在本公开的一个实施例中,目标游戏页面可以是用户与客服的聊天页面,那么,在得到目标游戏页面的页面信息的情况下,该方法还可以包括:
根据目标游戏页面的页面信息,获取用户对提供目标游戏页面的目标游戏的满意度。
<第一装置实施例>
在本实施例中,提供一种页面信息的识别装置6000,如图6所示,包括页面获取模块6100、区域提取模块6200、编号识别模块6300、信息查找模块6400和信息得到模块6500。该页面获取模块6100用于获取待识别的目标页面;该区域提取模块6200用于提取所述目标页面中的目标图像区域;其中,所述目标图像区域为所述目标页面中目标对象所在的图像区域,所述目标对象包括文字和/或图标;该编号识别模块6300用于基于预设的图像识别模型,根据所述目标图像区域,得到所述目标图像区域所对应的编号;该信息查找模块6400用于根据所述目标图像区域所对应的编号查找预设的对照表,得到所述目标图像区域所包含的图文信息;其中,所述对照表反映编号和图文信息之间的映射关系;该信息得到模块6500用于根据所述目标图像区域所包含的图文信息,得到所述目标页面的页面信息。
在本公开的一个实施例中,所述区域提取模块6200还用于:
基于预设的图像检测模型,根据所述目标页面,得到至少一个目标图像区域,以及所述目标图像区域的第一得分;其中,所述第一得分表示所述目标图像区域中包含目标对象的概率;
剔除第一得分小于或等于第一分数阈值的目标图像区域。
在本公开的一个实施例中,所述页面信息的识别装置6000还包括:
用于按照设定倍数对所述目标图像区域的区域范围进行放大处理的模块。
在本公开的一个实施例中,所述页面信息的识别装置6000还包括:
用于基于所述图像识别模型,根据所述目标图像区域,得到表示所述目标对象区域和对应编号之间匹配度的第二得分的模块;
用于剔除第二得分小于或等于第二分数阈值的目标图像区域的模块。
在本公开的一个实施例中,所述页面信息的识别装置6000还包括:
用于获取第一训练样本的模块,所述第一训练样本包括第一图像和所述第一图像所包含的图文信息对应的编号;
用于根据所述第一训练样本对卷积循环神经网络进行训练,得到所述图像识别模型的模块。
在本公开的一个实施例中,所述第一图像所包含的图文信息包括文字,所述页面信息的识别装置6000还包括:
用于基于预设的文字处理方式,对所述第一图像中的文字进行处理,得到特效文字的模块;
用于将所述特效文字设置在预设的背景图像中,得到第二图像的模块;
用于根据所述第二图像和所述第一图像对应的编号,得到第二训练样本的模块;
用于根据所述第二训练样本对所述卷积循环神经网络进行训练,得到所述图像识别模型的模块。
在本公开的一个实施例中,所述第一图像的图文信息包括目标文字,所述页面信息的识别装置6000还包括:
用于获取包含个性化设计字体的目标文字的图像块的模块;
用于将所述图像块与所述第一图像进行拼接,得到第三图像的模块;
用于根据所述第三图像和所述第一图像对应的编号,得到第三训练样本的模块;
用于根据所述第三训练样本对所述卷积循环神经网络进行训练,得到所述图像识别模型的模块。
本领域技术人员应当明白,可以通过各种方式来实现页面信息的识别装置6000。例如,可以通过指令配置处理器来实现页面信息的识别装置6000。例如,可以将指令存储在ROM中,并且当启动设备时,将指令从ROM读取到可编程器件中来实现页面信息的识别装置6000。例如,可以将页面信息的识别装置6000固化到专用器件(例如ASIC)中。可以将页面信息的识别装置6000分成相互独立的单元,或者可以将它们合并在一起实现。页面信息的识别装置6000可以通过上述各种实现方式中的一种来实现,或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。
在本实施例中,页面信息的识别装置6000可以具有多种实现形式,例如,页面信息的识别装置6000可以是任何的提供页面信息的识别服务的软件产品或者应用程序中运行的功能模块,或者是这些软件产品或者应用程序的外设嵌入件、插件、补丁件等,还可以是这些软件产品或者应用程序本身。
<第三方法实施例>
在本实施例中,提供一种图像识别模型的训练方法。该图像识别模型的训练方法可以是由电子设备实施。该电子设备可以是如图1所示的电子设备1000。
根据图7所示,本实施例的页面信息的识别方法可以包括如下步骤S7100~S7200:
步骤S7100,获取第一训练样本;其中,第一训练样本包括第一图像和第一图像所包含的图文信息对应的编号,第一图像中的目标对象包括文字和/或图标。
第一图像可以是样本页面中标注的四边形框所框中的图像区域。第一图像所包含的图文信息对应的编号可以是由研发人员根据实际情况所标注的。
在一个例子中,第一图像可以是根据标注的四边形框对样本页面进行裁剪,得到至少一个第一图像。
在图像识别模型的训练过程中需要大量的训练样本,由于人工标注的人工成本较高,因此,可以根据少量标注的第一训练样本来生成用于训练图像识别模型的训练样本。
步骤S7200,根据第一训练样本对卷积循环神经网络进行训练,得到图像识别模型。
本实施例中,卷积循环神经网络可以是由CNN网络、RNN网络和CTC网络组成。其中,CNN(Convolutional Neural Network)是一种广泛用于图像和视频识别的前向传播类型的深度卷积神经网络;RNN(Feature Pyramid Networks),是一种用卷积网络来高效提取图片中各维度特征的常用方法;CTC(Connectionist Temporal Classification)是一种解决输入序列和输出序列对应问题的技术。
通过本公开的实施例,训练得到的图像识别模型,既可以识别序列类型的文字,也可以识别非序列类型的图标,实现页面中文字与图标的一体化识别。
在图像识别模型的训练过程中需要大量的训练样本,由于人工标注的人工成本较高,因此,可以根据少量标注的第一训练样本来生成用于训练图像识别模型的训练样本。
在一个实施例中,第一图像所包含的图文信息为文字。那么,该方法还可以包括如下所示的步骤S7310~S7340:
步骤S7310,基于预设的文字处理方式,对第一图像中的文字进行处理,得到特效文字。
在本实施例中,可以是使用字体文件,对第一图像中的文字转换为指定字体的文字,还可以是改变文字的大小、颜色和/或特效,得到特效文字。
步骤S7320,将特效文字设置在预设的背景图像中,得到第二图像。
在本实施例中,背景图像可以是预先设置的不包含目标对象的图像。
步骤S7330,根据第二图像和第一图像对应的编号,得到第二训练样本。
在本实施例中,由于第二图像是将第一图像中的文字进行处理得到的特效文字设置在背景图像中得到的,因此,第一图像和第二图像中所包含的文字相同,那么,第一图像和第二图像对应的编号也相同。因此,可以是将第一图像对应的编号作为第二图像对应的编号,而不需要人工再对第二图像对应的编号进行标注,可以降低人工成本。
步骤S7340,还根据第二训练样本对卷积循环神经网络进行训练,得到图像识别模型。
在一个实施例中,第一图像所包含的图文信息包括目标文字,其中,目标文字可以是预先设置的,获取有包含个性化设计字体的目标文字的图像块的文字。那么,该方法还可以包括如下所示的步骤S7410~S7440:
步骤S7410,获取包含个性化设计字体的目标文字的图像块。
在本实施例中,目标文字可以是一个或多个文字。第一图像中所包含的文字,可以包括一个或多个目标文字,还可以包括其他文字,其他文字为除目标文字以外的文字。
如图4a所示的第一图像中所包含的文字可以包括“破”、“军”、“威”、“胜”,在如图4b所示的第一图像中所包含的文字可以包括“校”、“胜”、“帷”、“幄”。在目标文字为“胜”的情况下,通过步骤S3121获取的图像块,可以是包含“胜”的个性化设计字体的文字的图像块。
在一个例子中,包含个性化设计字体的目标文字的图像块,可以是预先从样本页面中截取的。
步骤S7420,将该图像块与第一图像进行拼接,得到第三图像。
本实施例中,图像块与第一图像进行拼接的方式,可以是将图像块设置在第一图像中目标文字的位置处,得到第三图像。
如图4a和图4b所示,可以是将“胜”的图像块设置在第一图像中文字“胜”所在位置上,得到第三图像。
在本公开的一个实施例中,在执行步骤S3122之前,该方法还可以包括:对该图像块进行数据增强处理。
具体的,对图像块进行数据增强处理,可以包括对图像块进行旋转、模糊化、尺寸调整等处理。
步骤S7430,根据第三图像和第一图像对应的编号,得到第三训练样本。
在本实施例中,由于第三图像是将目标文字的图像块与第一图像进行拼接得到的,因此,第一图像和第三图像中所包含的文字相同,那么,第一图像和第三图像对应的编号也相同。因此,可以是将第一图像对应的编号作为第三图像对应的编号,而不需要人工再对第三图像对应的编号进行标注,可以降低人工成本。
步骤S7440,还根据第三训练样本对卷积循环神经网络进行训练,得到图像识别模型。
通过本实施例的方式来生成第三训练样本,可以克服个性化设计字体的文字难生成的问题,还可以利用文字识别本身的序列性优势,大规模生成第三训练样本,使得利用第三训练样本训练得到的图像识别模型可以很好的对个性化设计字体的文字进行识别。
在本公开的一个实施例中,由于图标本身没有前后语义,因此,可以是将样本页面中的图标截取下来,进行旋转、模糊化、尺寸调整等增强处理后,随机穿插在普通文本行图像中或单独成为一张图像,形成新的训练样本。
<第二装置实施例>
在本实施例中,提供一种图像识别模型的训练装置8000,如图8所示,包括样本获取模块8100和模型训练模块8200。
样本获取模块8100用于获取第一训练样本,所述第一训练样本包括第一图像和所述第一图像所包含的图文信息对应的编号;所述第一图像中的目标对象包括文字和/或图标。
模型训练模块8200用于根据所述第一训练样本对卷积循环神经网络进行训练,得到所述图像识别模型。
在本公开的一个实施例中,该图像识别模型的训练装置8000还可以包括:
用于基于预设的文字处理方式,对所述第一图像中的文字进行处理,得到特效文字的模块;
用于将所述特效文字设置在预设的背景图像中,得到第二图像的模块;
用于根据所述第二图像和所述第一图像对应的编号,得到第二训练样本的模块;
模型训练模块8200还用于根据所述第二训练样本对所述卷积循环神经网络进行训练,得到所述图像识别模型。
在本公开的一个实施例中,该图像识别模型的训练装置8000还可以包括:
用于获取包含个性化设计字体的目标文字的图像块的模块;
用于将所述图像块与所述第一图像进行拼接,得到第三图像的模块;
用于根据所述第三图像和所述第一图像对应的编号,得到第三训练样本的模块;
模型训练模块8200还用于根据所述第三训练样本对所述卷积循环神经网络进行训练,得到所述图像识别模型。
<电子设备>
在本实施例中,还提供一种电子设备9000。该电子设备9000可以是图1所示的电子设备1000。
在一方面,该电子设备9000可以包括前述的页面信息的识别装置6000,用于实施本公开任意实施例的页面信息的识别方法。或者,该电子设备9000还可以包括前述的图像识别模型的训练装置8000,用于实施本公开任意实施例的图像识别模型的训练方法。
在另一方面,如图9所示,电子设备9000还可以包括处理器9100和存储器9200,该存储器9200用于存储可执行的指令;该处理器9100用于根据指令的控制运行电子设备9000执行根据本公开任意实施例的页面信息的识别方法或图像识别模型的训练方法。
在本实施例中,该电子设备9000可以是手机、平板电脑、掌上电脑、台式机、笔记本电脑等设备。例如,电子设备9000可以是具有页面信息的识别功能的电子产品。
<计算机可读存储介质>
在本实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序在被处理器执行时实现如本公开任意实施例的页面信息的识别方法或图像识别模型的训练方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本公开的范围由所附权利要求来限定。
Claims (15)
1.一种页面信息的识别方法,包括:
获取待识别的目标页面;
提取所述目标页面中的目标图像区域;其中,所述目标图像区域为所述目标页面中目标对象所在的图像区域,所述目标对象包括文字和/或图标;
基于预设的图像识别模型,根据所述目标图像区域,得到所述目标图像区域所对应的编号;
根据所述目标图像区域所对应的编号查找预设的对照表,得到所述目标图像区域所包含的图文信息;其中,所述对照表反映编号和图文信息之间的映射关系;
根据所述目标图像区域所包含的图文信息,得到所述目标页面的页面信息。
2.根据权利要求1所述的方法,所述提取目标页面中的目标图像区域,包括:
基于预设的图像检测模型,根据所述目标页面,得到至少一个目标图像区域,以及所述目标图像区域的第一得分;其中,所述第一得分表示所述目标图像区域中包含目标对象的概率;
剔除第一得分小于或等于第一分数阈值的目标图像区域。
3.根据权利要求1所述的方法,所述基于预设的图像识别模型,根据所述目标图像区域,得到所述目标图像区域所对应的编号之前,所述方法包括:
按照设定倍数对所述目标图像区域的区域范围进行放大处理。
4.根据权利要求1所述的方法,所述方法还包括:
基于所述图像识别模型,根据所述目标图像区域,得到表示所述目标对象区域和对应编号之间匹配度的第二得分;
剔除第二得分小于或等于第二分数阈值的目标图像区域。
5.根据权利要求1所述的方法,还包括:
获取第一训练样本,所述第一训练样本包括第一图像和所述第一图像所包含的图文信息对应的编号;
根据所述第一训练样本对卷积循环神经网络进行训练,得到所述图像识别模型。
6.根据权利要求5所述的方法,所述第一图像所包含的图文信息包括文字,所述方法还包括:
基于预设的文字处理方式,对所述第一图像中的文字进行处理,得到特效文字;
将所述特效文字设置在预设的背景图像中,得到第二图像;
根据所述第二图像和所述第一图像对应的编号,得到第二训练样本;
还根据所述第二训练样本对所述卷积循环神经网络进行训练,得到所述图像识别模型。
7.根据权利要求5所述的方法,所述第一图像的图文信息包括目标文字,所述方法还包括:
获取包含个性化设计字体的目标文字的图像块;
将所述图像块与所述第一图像进行拼接,得到第三图像;
根据所述第三图像和所述第一图像对应的编号,得到第三训练样本;
还根据所述第三训练样本对所述卷积循环神经网络进行训练,得到所述图像识别模型。
8.一种页面信息的识别方法,包括:
获取待识别的目标游戏页面;
提取所述目标游戏页面中的目标图像区域;其中,所述目标图像区域为所述目标游戏页面中目标对象所在的图像区域,所述目标对象包括文字和/或图标;
基于预设的图像识别模型,根据所述目标图像区域,得到所述目标图像区域所对应的编号;
根据所述目标图像区域所对应的编号查找预设的对照表,得到所述目标图像区域所包含的图文信息;其中,所述对照表反映编号和图文信息之间的映射关系;
根据所述目标图像区域的图文信息,得到所述目标游戏页面的页面信息。
9.一种图像识别模型的训练方法,包括:
获取第一训练样本,所述第一训练样本包括第一图像和所述第一图像所包含的图文信息对应的编号;所述第一图像中的目标对象包括文字和/或图标;
根据所述第一训练样本对卷积循环神经网络进行训练,得到所述图像识别模型。
10.根据权利要求9所述的方法,所述第一图像所包含的图文信息包括文字,所述方法还包括:
基于预设的文字处理方式,对所述第一图像中的文字进行处理,得到特效文字;
将所述特效文字设置在预设的背景图像中,得到第二图像;
根据所述第二图像和所述第一图像对应的编号,得到第二训练样本;
还根据所述第二训练样本对所述卷积循环神经网络进行训练,得到所述图像识别模型。
11.根据权利要求9所述的方法,所述第一图像的图文信息包括目标文字,所述方法还包括:
获取包含个性化设计字体的目标文字的图像块;
将所述图像块与所述第一图像进行拼接,得到第三图像;
根据所述第三图像和所述第一图像对应的编号,得到第三训练样本;
还根据所述第三训练样本对所述卷积循环神经网络进行训练,得到所述图像识别模型。
12.一种页面信息的识别装置,包括:
页面获取模块,用于获取待识别的目标页面;
区域提取模块,用于提取所述目标页面中的目标图像区域;其中,所述目标图像区域为所述目标页面中目标对象所在的图像区域,所述目标对象包括文字和/或图标;
编号识别模块,用于基于预设的图像识别模型,根据所述目标图像区域,得到所述目标图像区域所对应的编号;
信息查找模块,用于根据所述目标图像区域所对应的编号查找预设的对照表,得到所述目标图像区域所包含的图文信息;其中,所述对照表反映编号和图文信息之间的映射关系;
信息得到模块,用于根据所述目标图像区域所包含的图文信息,得到所述目标页面的页面信息。
13.一种图像识别模型的训练装置,包括:
样本获取模块,用于获取第一训练样本,所述第一训练样本包括第一图像和所述第一图像所包含的图文信息对应的编号;所述第一图像中的目标对象包括文字和/或图标;
模型训练模块,用于根据所述第一训练样本对卷积循环神经网络进行训练,得到所述图像识别模型。
14.一种电子设备,其中,包括:
根据权利要求12或13所述的装置;或者,
处理器和存储器,所述存储器用于存储指令,所述指令用于控制所述处理器执行根据权利要求1至11中任一项所述的方法。
15.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现如权利要求1至11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211264267.2A CN115346205A (zh) | 2022-10-17 | 2022-10-17 | 一种页面信息的识别方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211264267.2A CN115346205A (zh) | 2022-10-17 | 2022-10-17 | 一种页面信息的识别方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115346205A true CN115346205A (zh) | 2022-11-15 |
Family
ID=83957242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211264267.2A Pending CN115346205A (zh) | 2022-10-17 | 2022-10-17 | 一种页面信息的识别方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115346205A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363792A (zh) * | 2018-02-13 | 2018-08-03 | 广东欧珀移动通信有限公司 | 应用页面的链接生成方法、装置、存储介质及电子设备 |
CN111259889A (zh) * | 2020-01-17 | 2020-06-09 | 平安医疗健康管理股份有限公司 | 图像文本识别方法、装置、计算机设备及计算机存储介质 |
CN114003671A (zh) * | 2021-10-21 | 2022-02-01 | 中国人民解放军战略支援部队信息工程大学 | 一种地图图幅编码识别的方法及其识别系统 |
WO2022105569A1 (zh) * | 2020-11-17 | 2022-05-27 | 深圳壹账通智能科技有限公司 | 页面方向识别方法、装置、设备及计算机可读存储介质 |
-
2022
- 2022-10-17 CN CN202211264267.2A patent/CN115346205A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363792A (zh) * | 2018-02-13 | 2018-08-03 | 广东欧珀移动通信有限公司 | 应用页面的链接生成方法、装置、存储介质及电子设备 |
CN111259889A (zh) * | 2020-01-17 | 2020-06-09 | 平安医疗健康管理股份有限公司 | 图像文本识别方法、装置、计算机设备及计算机存储介质 |
WO2022105569A1 (zh) * | 2020-11-17 | 2022-05-27 | 深圳壹账通智能科技有限公司 | 页面方向识别方法、装置、设备及计算机可读存储介质 |
CN114003671A (zh) * | 2021-10-21 | 2022-02-01 | 中国人民解放军战略支援部队信息工程大学 | 一种地图图幅编码识别的方法及其识别系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106303723B (zh) | 视频处理方法和装置 | |
WO2019200783A1 (zh) | 动态图表类页面数据爬取方法、装置、终端及存储介质 | |
CN109034069B (zh) | 用于生成信息的方法和装置 | |
CN109543058B (zh) | 用于检测图像的方法、电子设备和计算机可读介质 | |
US10963760B2 (en) | Method and apparatus for processing information | |
CN107908641B (zh) | 一种获取图片标注数据的方法和系统 | |
US20210042504A1 (en) | Method and apparatus for outputting data | |
US20170351371A1 (en) | Touch interaction based search method and apparatus | |
EP3872652B1 (en) | Method and apparatus for processing video, electronic device, medium and product | |
EP3879451A2 (en) | Image moderation method, image moderation apparatus, electronic device, and storage medium | |
CN112085090A (zh) | 翻译方法、装置以及电子设备 | |
CN112214271A (zh) | 页面引导方法、装置和电子设备 | |
CN113255377A (zh) | 一种翻译方法、装置、电子设备及存储介质 | |
CN111754414B (zh) | 一种图像处理方法、装置和用于图像处理的装置 | |
CN109241930B (zh) | 用于处理眉部图像的方法和装置 | |
CN113313066A (zh) | 图像识别方法、装置、存储介质以及终端 | |
US10915778B2 (en) | User interface framework for multi-selection and operation of non-consecutive segmented information | |
CN108664948B (zh) | 用于生成信息的方法和装置 | |
CN115346205A (zh) | 一种页面信息的识别方法、装置及电子设备 | |
CN115565186A (zh) | 文字识别模型的训练方法、装置、电子设备和存储介质 | |
CN110287310B (zh) | 基于用户标记生成定制化电子书的方法及计算设备 | |
CN113591437A (zh) | 游戏文本翻译方法、电子设备及存储介质 | |
CN107872730A (zh) | 一种视频中的嵌入内容的获取方法和装置 | |
CN112542163A (zh) | 智能语音交互方法、设备及存储介质 | |
CN110969161A (zh) | 图像处理方法、电路、视障辅助设备、电子设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221115 |