CN110738522B - 用户画像构建方法、装置、计算机设备和存储介质 - Google Patents

用户画像构建方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110738522B
CN110738522B CN201910976921.4A CN201910976921A CN110738522B CN 110738522 B CN110738522 B CN 110738522B CN 201910976921 A CN201910976921 A CN 201910976921A CN 110738522 B CN110738522 B CN 110738522B
Authority
CN
China
Prior art keywords
image
analyzed
user
information
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910976921.4A
Other languages
English (en)
Other versions
CN110738522A (zh
Inventor
龚泽熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Original Assignee
Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuo Erzhi Lian Wuhan Research Institute Co Ltd filed Critical Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Priority to CN201910976921.4A priority Critical patent/CN110738522B/zh
Publication of CN110738522A publication Critical patent/CN110738522A/zh
Application granted granted Critical
Publication of CN110738522B publication Critical patent/CN110738522B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Character Input (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请涉及一种用户画像构建方法、装置、计算机设备和存储介质,获取待分析图像,将待分析图像映射到预设坐标系后,能够根据预设的坐标系下坐标与区域图像的分割关系,快速地将图像分割成多个区域图像,省去大量的识别操作,然后,再提取分割后的区域图像的信息,将提取出的信息与识别出的目标用户进行绑定,快速且集中地完成用户数据的采集,进而提高了用户画像构建的效率。

Description

用户画像构建方法、装置、计算机设备和存储介质
技术领域
本申请涉及数据处理领域,特别是涉及用户画像构建方法、装置、计算机设备和存储介质。
背景技术
用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,其在各领域得到了广泛的应用。具体来讲,用户画像由某一特定群体或对象的多项特征构成,输出结果通常是对特征的具体描述,也可理解为用户画像是由多个用户标签组合而成。
目前,用户画像构建的方式多是通过从网络平台或其他数据平台采集用户数据,再对采集到的用户数据进行特征提取和分析,构建用户画像。若用户数据的采集涉及到基于图像分割出包含用户特征信息的图像,进而去提取出用户数据的,大多是通过特定的标识符进行图像分割,再基于分割之后的图像区域,进行用户画像,但是,由于用户涉及的网络平台和数据平台不同,产生的用户数据不尽相同且较为零散,且计算机在对标识字符进行识别时,需要执行大量的识别操作,对计算机硬件消耗较大,影响数据处理的速度,提高了用户数据采集的难度,进而影响了用户画像构建的效率。
发明内容
基于此,有必要针对现有的用户画像构建方法效率较低的问题,提供一种高效的用户画像构建方法、装置、计算机设备和存储介质。
一种用户画像构建方法,方法包括:
获取待分析图像,识别待分析图像对应的目标用户;
将待分析图像映射到预设坐标系中、并根据预设坐标系下的坐标与区域图像的分割关系,将待分析图像分割为多个待分析区域图像;
提取待分析区域图像的数据、并将待分析区域图像的数据与目标用户进行绑定;
基于目标用户已绑定的待分析区域图像的数据,根据预设的标签规则,从预设的用户标签库中匹配出对应的标签信息;
根据标签信息,建立目标用户的用户画像。
在其中一个实施例中,获取待分析图像包括:
获取初始待分析图像;
根据初始待分析图像的属性数据,将初始待分析图像进行分割和垂直排列重组,以使文件中携带的内容在同一图像上显示,得到待分析图像。
在其中一个实施例中,预设坐标系下的坐标与区域图像的分割关系由以下方式得到:
获取历史图像;
对历史图像进行二值化处理和预设二维坐标系下的垂直方向投影,得到对应的垂直直方图;
记录垂直直方图的波谷在预设二维坐标系中对应的坐标信息;
识别坐标信息对应历史图像中的起始字符信息,若起始字符信息为目标类型信息,则保留坐标信息对应的分割点;
根据分割点将历史图像分割成多个区域图像,得到预设二维坐标系下坐标与区域图像的分割关系。
在其中一个实施例中,对历史图像进行二值化处理和预设二维坐标系下的垂直方向投影,得到对应的垂直直方图包括:
将历史图像转换为HSV域图像;
采用Yen算法,计算HSV域图像中V通道的门限值;
根据V通道的门限值,调整黑色像素阈值范围;
基于调整后的黑色像素阈值范围,得到二值化图像;
对二值化图像进行垂直方向投影,得到对应的垂直直方图。
在其中一个实施例中,根据分割点将历史图像分割成多个区域图像,得到预设二维坐标系下坐标与区域图像的分割关系之后,还包括:
采用光学字符识别技术,将区域图像携带的文字信息转化为文本字符;
对文本字符进行标注、分割以及关键词提取,得到区域图像对应的数据提取信息。
在其中一个实施例中,提取待分析区域图像的数据包括:
采用光学字符识别技术,将待分析区域图像携带的文字信息转换为文本字符;
根据区域图像对应的数据提取信息,提取出待分析区域图像的对应的文本字符。
在其中一个实施例中,根据标签信息,建立目标用户的用户画像之后,还包括:
当检测到目标用户输入的目标内容推送指令时,获取目标内容推送指令中包含的内容标识;
根据目标用户的用户画像,推送与内容标识对应的目标内容。
一种用户画像构建装置,装置包括:
用户识别模块,用于获取待分析图像,识别待分析图像对应的目标用户;
图像分割模块,用于将待分析图像映射到预设坐标系中、并根据预设坐标系下的坐标与区域图像的分割关系,将待分析图像分割为多个待分析区域图像;
信息提取模块,用于提取待分析区域图像的数据、并将待分析区域图像的数据与目标用户进行绑定;
标签匹配模块,用于基于目标用户已绑定的待分析区域图像的数据,根据预设的标签规则,从预设的用户标签库中匹配出对应的标签信息;
用户画像模块,用于根据标签信息,建立目标用户的用户画像。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待分析图像,识别待分析图像对应的目标用户;
将待分析图像映射到预设坐标系中、并根据预设坐标系下的坐标与区域图像的分割关系,将待分析图像分割为多个待分析区域图像;
提取待分析区域图像的数据、并将待分析区域图像的数据与目标用户进行绑定;
基于目标用户已绑定的待分析区域图像的数据,根据预设的标签规则,从预设的用户标签库中匹配出对应的标签信息;
根据标签信息,建立目标用户的用户画像。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待分析图像,识别待分析图像对应的目标用户;
将待分析图像映射到预设坐标系中、并根据预设坐标系下的坐标与区域图像的分割关系,将待分析图像分割为多个待分析区域图像;
提取待分析区域图像的数据、并将待分析区域图像的数据与目标用户进行绑定;
基于目标用户已绑定的待分析区域图像的数据,根据预设的标签规则,从预设的用户标签库中匹配出对应的标签信息;
根据标签信息,建立目标用户的用户画像。
上述用户画像构建方法、装置、计算机设备和存储介质,获取待分析图像,将待分析图像映射到预设坐标系后,能够根据预设的坐标系下坐标与区域图像的分割关系,快速地将图像分割成多个区域图像,省去大量的识别操作,然后,再提取分割后的区域图像的信息,将提取出的信息与识别出的目标用户进行绑定,快速且集中地完成用户数据的采集,进而提高了用户画像构建的效率。
附图说明
图1为一个实施例中用户画像构建方法的应用环境图;
图2为一个实施例中用户画像构建方法的流程示意图;
图3为一个实施例中步骤得到预设的坐标系下坐标与区域图像的分割关系的流程示意图;
图4为另一个实施例中用户画像构建方法的详细流程示意图;
图5为一个实施例中用户画像构建装置的结构框图;
图6为另一个实施例中用户画像构建装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的用户画像构建方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。具体的,可以是用户将待分析图像输入至终端102,终端102将用户上传的待分析图像实时上传至服务器104,服务器104获取待分析图像,识别待分析图像对应的目标用户(即所属用户),将待分析图像映射到预设坐标系中、并根据预设坐标系下的坐标与区域图像的分割关系,将待分析图像快速分割为多个待分析区域图像,然后,提取出待分析区域图像的数据,并将待分析区域图像的数据与目标用户进行绑定,使得提取出的数据与目标用户关联起来,基于目标用户已绑定的待分析区域图像的数据,根据预设的标签规则,从预设的用户标签库中匹配出对应的标签信息,根据标签信息,建立目标用户的用户画像。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现,为便于更清楚地说明本申请提供的用户画像方法,下面待分析图像将以已批改的试卷图像为例进行解释说明。
在其中一个实施例中,如图2所示,提供了一种用户画像构建方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S100,获取待分析图像,识别待分析图像对应的目标用户。
其中,待分析图像以已批改的试卷图像为例,已批改的试卷图像的来源可以是用户将初始已批改的试卷文件通过扫描的方式,将试卷文件转换为图像,然后,将扫描后得到的已批改的试卷图像输入至终端,终端实时将用户输入的已批改的试卷图像上传至服务器的数据库,当用户通过终端102向服务器104发送用户画像构建指令时,从数据库中获取待分析图像。待分析试卷图像中携带有用户标识内容例如用户姓名或用于标识用户身份的条形码或二维码,可以通过对待分析试卷图像进行字符识别或标识码识别,识别出试卷所属的目标用户Nx,Nx表示用户编号。
在其中一个实施例中,获取待分析图像包括:获取初始待分析图像,根据初始待分析图像的数据,将初始待分析图像进行分割和垂直排列重组,以使文件中携带的内容在同一图像上显示,得到待分析图像。
在实际应用中,待分析图像即已批改的试卷图像,为分割重组后的图像。具体的,可以是用户于终端输入试卷文件的属性数据,包括纸张大小、文字排列方式如横排以及栏目数等,然后将初始已批改的试卷文件通过扫描的方式存储为图像,得到初始待分析图像,终端将出初始待分析图像发送至服务器,服务器获取初始待分析图像,根据初始待分析图像携带的文件数据,对初始待分析图像进行分割,例如,一份扫描后的试卷文件的大小为B4,横排,两栏,在扫描完成后,根据扫描的试卷文件的文件数据,将初始待分析图像分割为四面,得到四份分割文件,将四份分割文件按照文件内容的先后顺序进行垂直排列重组,以使初始待分析图像中携带的内容在同一图像上显示,得到重组图像即待分析图像。
步骤S200,将待分析图像映射到预设坐标系中、并根据预设坐标系下的坐标与区域图像的分割关系,将待分析图像分割为多个待分析区域图像。
得到分割重组后的已批改试卷图像后,将分割重组后的已批改试卷图像映射到预设坐标系中、并根据得到的预设坐标系下的坐标与区域图像的分割关系,将分割重组后的待分析试卷图像分割为多个待分析的试题区域图像Px,得到试题区域图像与试题的关系(Label~Px),其表示Label题号所对应的图片信息为Px,则有:
Figure BDA0002233934980000061
其中,预设的二维坐标系的建立方式可以是选取文件图像的左上角的点为原点,原点向右为横坐标轴,原点向下为纵坐标轴(以下简称Y轴)。
在其中一个实施例中,预设坐标系下的坐标与区域图像的分割关系由以下方式得到:
步骤202,获取历史图像;
步骤204,对历史图像进行二值化处理和预设二维坐标系下的垂直方向投影,得到对应的垂直直方图;
步骤206,记录垂直直方图的波谷在预设二维坐标系中对应的坐标信息;
步骤208,识别坐标信息对应历史图像中的起始字符信息,若起始字符信息为目标类型信息,则保留坐标信息对应的分割点;
步骤210,根据分割点将历史图像分割成多个区域图像,得到预设二维坐标系下坐标与区域图像的分割关系。
图像的二值化,就是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的只有黑和白的视觉效果。二值化可以把灰度图像转换成二值图像。把大于某个临界灰度值的像素灰度设为灰度极大值,把小于这个值的像素灰度设为灰度极小值,从而实现二值化。当获取待分析图像后,可以是以RGB(Red,Green,Blue,红、绿、蓝)三通道方式读取待分析图像各像素点的像素值,按照规范将像素值设置为0或255,将待分析图像转换为二值化图像。本实施例中,二值化图像黑色像素区域为具有字体的部分,白色像素区域为无字体的部分。采用标记黑色像素点为1,白色像素点为0的方法对黑色像素区域进行二值化,得到二值化图像。在实际应用中,将待分析图像分割之前,需要将历史图像映射到预设坐标系下进行分割操作,得到预设二维坐标系下坐标与区域图像的分割关系。具体的,可以是用户于终端输入历史试卷的属性数据,包括纸张大小、文字排列方式如横排以及栏目数等,然后将历史试卷通过扫描的方式存储为图像,得到历史图像,终端将出历史图像发送至服务器,服务器获取历史图像,根据历史图像携带的文件数据,对历史图像进行分割,在将分割后得到的图像按照图像内容固有的先后顺序垂直排列重组,得到文件图像,将文件图像转换为HSV域图像,然后采用Yen算法,计算HSV域图像中V通道的门限值,根据门限值调整黑色像素,得到二值化图像,然后对二值化图像进行预设二维坐标系下的垂直方向投影,得到对应的垂直直方图,记录每个垂直直方图的每个波谷在纵坐标轴的坐标信息Gn(将坐标信息作为分割点),然后,识别每个坐标信息Gn对应的文件图像中的起始字符信息,若起始字符为数字字符如“1,2”或“1.1,1.2”或者包含关键字如“第一题,第二题”等,则保留坐标信息对应的分割点,得到Gn’,否则,删除该坐标信息,最后,根据保留下的分割点将历史图像分割为多个区域图像,得到预设二维坐标系下坐标与区域图像的分割关系,如:
Figure BDA0002233934980000081
本实施例中,通过确定好的分割点即能高效地完成图像的分割,省去大量的识别操作,且能够根据预设二维坐标系下坐标与区域图像的分割关系,快速地将图像分割成多个区域图像,提高了文件图像分割的效率。
在其中一个实施例中,对历史图像进行二值化处理和预设二维坐标系下的垂直方向投影,得到对应的垂直直方图包括:将历史图像转换为HSV域图像,采用Yen算法,计算HSV域图像中V通道的门限值,根据V通道的门限值,调整黑色像素阈值范围,基于调整后的黑色像素阈值范围,得到二值化图像,对二值化图像进行垂直方向投影,得到对应的垂直直方图。
HSV是根据颜色的直观特性创建的一种颜色空间,也称六角锥体模型,其中H代表色调,S代表饱和度,V代表明度。Yen算法是一种求解二值化阈值的方法。本实施例中,采用Yen算法,计算HSV域图像中V通道的门限值,记为Tv。根据V通道的门限值,即在V通道取像素值在0~35范围内选取一个数值作为黑色像素阈值,以此调整黑色像素阈值范围,并从HSV域图像中选取三通道值在黑色像素阈值范围内的像素点,作为黑色像素点。基于调整后的黑色像素阈值,将黑色像素点标记为1,白色像素点标记为0,对黑色像素区域进行二值化,得到二值化图像。再将得到的二值化图像进行预设坐标系下的垂直方向投影,得到对应的垂直直方图。
在其中一个实施例中,根据分割点将用户画像构建成多个区域图像之后,还包括:采用光学字符识别技术,将区域图像携带的文字信息转化为文本字符,对文本字符进行标注、分割以及关键词提取,得到区域图像对应的数据提取信息。
光学字符识别技术即OCR(optical character recognition,光学字符识别)技术,OCR是指针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。本实施例中,待分析图像以试卷为例,则分割出来的区域图像可以是以题目为单位的试题图像,通过光学字符识别技术,对每个区域Area对应的试题图像携带的文字字符进行字符识别,将试题图像的文字字符即印刷体字符转化为文本字符,然后,标注出每张试题图像的类别信息(可以是标注出每一题的题目编号,记为Label,Label与Area为一一对应关系,即一个区域Area对应一道试题即一个Label),并对试题图像中的文字字符进行分割和关键词提取,来判断该试题所属的知识领域Zone,得到区域图像对应的提取信息,如下所示:
Figure BDA0002233934980000091
例如,提取出坐标范围为[0,G1’]对应的是题目编号为1即第1题的试题图像,该试题图像中的文本字符信息中关键词包含有三角形,中点,垂线,平分线以及交点等,则判断此试题大概率属于数学三角几何的知识领域,[0,G1’]~第1题~数学三角几何的对应关系即本实施例中的数据提取信息。本实施例中,通过光学字符识别技术,得到区域图像对应的数据提取信息,能够便于在后续处理待分析图像时,由图像的坐标,直接查找到对应的类别信息和所属领域等。
步骤S300,提取待分析区域图像的数据、并将待分析区域图像的数据与目标用户进行绑定。
在完成待分析试卷图像的分割之后,分析各待分析试题图像Px,可通过特定标识符的识别和数据提取信息,提取出待分析区域图像的数据。具体的,可以是识别其中的符号标记,通过符号标记来识别该试题区域的对应题目的错对状态,记为Corrx,并整理得分情况,记为Scorex,然后,记录出特定标识对应的状态,并采用光学字符识别技术,将待分析区域图像携带的文字信息转换为文本字符,根据区域图像对应的提取信息,提取出待分析区域图像的对应的文本字符。具体的,符号标记可以是图像中的特定标识如红色标志的手机数字、勾、半勾及叉等,当识别到试题区域图像中的符号标记为勾或半勾时,则表示试题回答正确,Corrx记为1,并根据预设的各题分数计算得分;当识别到试题区域图像中的符号标记为叉时,则表示试题回答错误,Corrx记为0,并根据预设的各题分数计算得分,以此方式,提取该待分析区域图像的信息(Label~Px~Corrx~Scorex),得到:
Figure BDA0002233934980000101
Figure BDA0002233934980000111
得到上述(Label~Px~Corrx~Scorex)之后,保存(Label~Px~Corrx~Scorex)中Corrx=0的题目信息对应的区域图像,遍历(Label~Px~Corrx~Scorex),查找出其中Corrx=0的Label,记为Labelx,其中
Figure BDA0002233934980000112
通过Label~Zone查找Labelx的信息(即错题信息),提取所需要记录的内容,包括题目编号,题目信息,所属知识领域等,记为(Labelx~Zone),其中:
Figure BDA0002233934980000113
Zonex∈[知识领域1,知识领域2,知识领域3,……,知识领域n]
Figure BDA0002233934980000114
在提取出上述包括题目编号,题目信息,所属知识领域等数据后,将该提取出的数据与目标用户进行绑定,完成目标用户与提取出的用户数据的关联,可记为Nx~(Labelx~Zone)。
步骤S400,基于目标用户已绑定的待分析区域图像的数据,根据预设的标签规则,从预设的用户标签库中匹配出对应的标签信息。
预设的用户标签库对于不同类型的用户涉及有不同的用户标签,例如,针对学生个人用户,班级群体用户以及学校单位用户,设计有不同的标签规则可匹配出不同的标签信息。标签库的建立可以是根据至少两个用户的行为数据设置标签库,标签库包含至少两个标签,并且每个标签对应至少两个标签值,其中每个标签值有设置有对应的标签规则。通过后续获得的用户所绑定的错题信息进行梳理,将其归类以丰富标签种类和内容,主要是以错题的种类,分值以及题目难易程度,针对人群等因素为基础,筛选出其中与用户教育因素相关的数据,由此设计并丰富标签,并将标签按照层级关系和关联关系分类组织起来,最终形成一个较为完整,全面的标签体系,即为标签库。通过与学生用户绑定的错题,计算该学生错题分数比例,可计算出其学习状况,学习状况可细分为:优等,中等,基础。学生用户错题比例越高,则代表其所掌握的知识能力越基础,也可计算出该生是否存在偏科情况等。对于班级群体用户来说,可以根据班级长期的错题水平,来判断其班级学习能力,可细分为:平行班,实验班以及奥数班。本实施例中,当调取目标用户的用户数据(包括已绑定的待分析区域图像的数据),通过预设的标签规则,对获取的用户数据进行标签计算,匹配出相应的标签信息。例如,获得该目标用户的错题信息,根据其错题分数比例进行划分,如果用户某科错题分数比例占其错题总分的60%-80%,则匹配出该目标用户的标签为“偏科”,标签值为“明显”,某科错题分数比例占其错题总分的25%-60%,则匹配出该目标用户的标签为“偏科”,标签值为“轻微”;计算获得整个班级学生错题分数平均数,若该目标用户错题分数低于学生错题分数平均数的20%,则继续匹配出标签为“学习状况”,标签值为“优等”。还可根据错题所属知识领域,得知用户对于某个知识点的掌握程度。
步骤S500,根据标签信息,建立目标用户的用户画像。
如上述实施例所述,在匹配出该目标用户的标签信息后,可根据标签信息建立用户的画像。具体的,在为不同类型的用户构建用户画像,所需要的标签信息不同,例如,如学生用户根据与其绑定的错题信息,得到其无偏科情况,其在班上的学习状况的标签值为优等,则构建的用户画像可以是某某班级的学习状况优等且无偏科情况。
上述用户画像构建方法,获取待分析图像,将待分析图像映射到预设坐标系后,能够根据预设的坐标系下坐标与区域图像的分割关系,快速地将图像分割成多个区域图像,省去大量的识别操作,然后,再提取分割后的区域图像的信息,将提取出的信息与识别出的目标用户进行绑定,快速且集中地完成用户数据的采集,进而提高了用户画像构建的效率。
如图4所示,在其中一个实施例中,根据标签信息,建立目标用户的用户画像之后,还包括:步骤S600,当检测到目标用户输入的目标内容推送指令时,获取目标内容推送指令中包含的内容标识,根据目标用户的用户画像,推送与内容标识对应的目标内容。
在实际应用中,在建立了目标用户的用户画像后,可在该目标用户输入目标内容推送指令时,根据用户画像有针对性的推送内容。具体的,可以是当检测到该目标用户输入的目标内容推送指令时,获取目标内容推送指令中包含的内容标识,根据目标用户的用户画像,推送与内容标识对应的目标内容。例如,当目标用户的用户画像表征该用户存在数学偏科,且对于数学三角函数的掌握度不够,可在该用户点击“试题训练”按钮,发送试题推送指令时,多推送包含三角函数的试题,供该用户进行试题训练。本实施例中,根据用户画像进行目标内容的推送,能够有针对性地为用户推送内容,提高用户体验感。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在其中一个实施例中,如图5所示,提供了一种用户画像构建装置,包括:用户识别模块510、图像分割模块520、信息提取模块530、标签匹配模块540以及用户画像模块550,其中:
用户识别模块510,用于获取待分析图像,识别待分析图像对应的目标用户;
图像分割模块520,用于将待分析图像映射到预设坐标系中、并根据预设坐标系下的坐标与区域图像的分割关系,将待分析图像分割为多个待分析区域图像;
信息提取模块530,用于提取待分析区域图像的数据、并将待分析区域图像的数据与目标用户进行绑定;
标签匹配模块540,用于基于目标用户已绑定的待分析区域图像的数据,根据预设的标签规则,从预设的用户标签库中匹配出对应的标签信息;
用户画像模块550,用于根据标签信息,建立目标用户的用户画像。
在其中一个实施例中,图像获取模块510还用于获取初始待分析图像,根据初始待分析图像的属性数据,将初始待分析图像进行分割和垂直排列重组,以使文件中携带的内容在同一图像上显示,得到待分析图像。
在其中一个实施例中,用户识别模块510还用于获取初始待分析图像,根据初始待分析图像的属性数据,将初始待分析图像进行分割和垂直排列重组,以使文件中携带的内容在同一图像上显示,得到待分析图像。
如图6所示,在其中一个实施例中,用户画像构建装置还包括分割关系获取模块560,用于获取历史图像,对历史图像进行二值化处理和预设二维坐标系下的垂直方向投影,得到对应的垂直直方图,记录垂直直方图的波谷在预设二维坐标系中对应的坐标信息,识别坐标信息对应历史图像中的起始字符信息,若起始字符信息为目标类型信息,则保留坐标信息对应的分割点,根据分割点将历史图像分割成多个区域图像,得到预设二维坐标系下坐标与区域图像的分割关系。
在其中一个实施例中,用户画像构建装置还包括图像处理模块570,用于将历史图像转换为HSV域图像,采用Yen算法,计算HSV域图像中V通道的门限值,根据V通道的门限值,调整黑色像素阈值范围,基于调整后的黑色像素阈值范围,得到二值化图像,对二值化图像进行垂直方向投影,得到对应的垂直直方图。
如图6所示,在其中一个实施例中,用户画像构建装置还包括提取信息获取模块580,用于采用光学字符识别技术,将区域图像携带的文字信息转化为文本字符,对文本字符进行标注、分割以及关键词提取,得到区域图像对应的数据提取信息。
在其中一个实施例中,信息提取模块530还用于采用光学字符识别技术,将待分析区域图像携带的文字信息转换为文本字符,根据区域图像对应的数据提取信息,提取出待分析区域图像的对应的文本字符。
如图6所示,在其中一个实施例中,用户画像构建装置还包括内容推送模块590,用于当检测到目标用户输入的目标内容推送指令时,获取目标内容推送指令中包含的内容标识,根据目标用户的用户画像,推送与内容标识对应的目标内容。
关于用户画像构建装置的具体限定可以参见上文中对于用户画像构建方法的限定,在此不再赘述。上述用户画像构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在其中一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待分析图像数据以及用户数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户画像构建方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在其中一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述用户画像构建方法的步骤。
在其中一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述用户画像构建方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种用户画像构建方法,所述方法包括:
获取待分析图像,识别所述待分析图像对应的目标用户;其中,所述待分析图像中携带有用于标识用户身份的标识信息;
将所述待分析图像映射到预设坐标系中、并根据所述预设坐标系下的坐标与区域图像的分割关系,将所述待分析图像分割为多个待分析区域图像;
提取所述待分析区域图像的数据、并将所述待分析区域图像的数据与所述目标用户进行绑定;
基于所述目标用户已绑定的所述待分析区域图像的数据,根据预设的标签规则,从预设的用户标签库中匹配出对应的标签信息;
根据所述标签信息,建立所述目标用户的用户画像。
2.根据权利要求1所述的用户画像构建方法,其特征在于,所述获取待分析图像包括:
获取初始待分析图像;
根据所述初始待分析图像的属性数据,将所述初始待分析图像进行分割和垂直排列重组,以使文件中携带的内容在同一图像上显示,得到所述待分析图像。
3.根据权利要求1所述的用户画像构建方法,其特征在于,所述预设坐标系下的坐标与区域图像的分割关系由以下方式得到:
获取历史图像;
对所述历史图像进行二值化处理和预设二维坐标系下的垂直方向投影,得到对应的垂直直方图;
记录所述垂直直方图的波谷在所述预设二维坐标系中对应的坐标信息;
识别所述坐标信息对应所述历史图像中的起始字符信息,若所述起始字符信息为目标类型信息,则保留所述坐标信息对应的分割点;
根据所述分割点将所述历史图像分割成多个区域图像,得到所述预设二维坐标系下坐标与区域图像的分割关系。
4.根据权利要求3所述的用户画像构建方法,其特征在于,所述对所述历史图像进行二值化处理和预设二维坐标系下的垂直方向投影,得到对应的垂直直方图包括:
将所述历史图像转换为HSV域图像;
采用Yen算法,计算所述HSV域图像中V通道的门限值;
根据所述V通道的门限值,调整黑色像素阈值范围;
基于调整后的黑色像素阈值范围,得到二值化图像;
对所述二值化图像进行垂直方向投影,得到对应的垂直直方图。
5.根据权利要求3所述的用户画像构建方法,其特征在于,所述根据所述分割点将所述历史图像分割成多个区域图像,得到所述预设二维坐标系下坐标与区域图像的分割关系之后,还包括:
采用光学字符识别技术,将所述区域图像携带的文字信息转化为文本字符;
对所述文本字符进行标注、分割以及关键词提取,得到所述区域图像对应的数据提取信息。
6.根据权利要求5所述的用户画像构建方法,其特征在于,提取所述待分析区域图像的数据包括:
采用光学字符识别技术,将所述待分析区域图像携带的文字信息转换为文本字符;
根据所述区域图像对应的数据提取信息,提取出所述待分析区域图像的对应的文本字符。
7.根据权利要求1至6中任一项所述的用户画像构建方法,其特征在于,所述根据所述标签信息,建立所述目标用户的用户画像之后,还包括:
当检测到所述目标用户输入的目标内容推送指令时,获取所述目标内容推送指令中包含的内容标识;
根据所述目标用户的用户画像,推送与所述内容标识对应的目标内容。
8.一种用户画像构建装置,其特征在于,所述装置包括:
用户识别模块,用于获取待分析图像,识别所述待分析图像对应的目标用户;其中,所述待分析图像中携带有用于标识用户身份的标识信息;
图像分割模块,用于将所述待分析图像映射到预设坐标系中、并根据所述预设坐标系下的坐标与区域图像的分割关系,将所述待分析图像分割为多个待分析区域图像;
信息提取模块,用于提取所述待分析区域图像的数据、并将所述待分析区域图像的数据与所述目标用户进行绑定;
标签匹配模块,用于基于所述目标用户已绑定的所述待分析区域图像的数据,根据预设的标签规则,从预设的用户标签库中匹配出对应的标签信息;
用户画像模块,用于根据所述标签信息,建立所述目标用户的用户画像。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201910976921.4A 2019-10-15 2019-10-15 用户画像构建方法、装置、计算机设备和存储介质 Active CN110738522B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910976921.4A CN110738522B (zh) 2019-10-15 2019-10-15 用户画像构建方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910976921.4A CN110738522B (zh) 2019-10-15 2019-10-15 用户画像构建方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN110738522A CN110738522A (zh) 2020-01-31
CN110738522B true CN110738522B (zh) 2022-12-09

Family

ID=69269982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910976921.4A Active CN110738522B (zh) 2019-10-15 2019-10-15 用户画像构建方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110738522B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107798321A (zh) * 2017-12-04 2018-03-13 海南云江科技有限公司 一种试卷分析方法和计算设备
CN108805128A (zh) * 2017-05-05 2018-11-13 北京京东金融科技控股有限公司 一种字符分割方法和装置
CN109492143A (zh) * 2018-09-21 2019-03-19 平安科技(深圳)有限公司 图像数据处理方法、装置、计算机设备及存储介质
CN109711874A (zh) * 2018-12-17 2019-05-03 平安科技(深圳)有限公司 用户画像生成方法、装置、计算机设备和存储介质
CN109871415A (zh) * 2019-01-21 2019-06-11 武汉光谷信息技术股份有限公司 一种基于图数据库的用户画像构建方法、系统及存储介质
CN109977959A (zh) * 2019-03-29 2019-07-05 国家电网有限公司 一种火车票字符区域分割方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805128A (zh) * 2017-05-05 2018-11-13 北京京东金融科技控股有限公司 一种字符分割方法和装置
CN107798321A (zh) * 2017-12-04 2018-03-13 海南云江科技有限公司 一种试卷分析方法和计算设备
CN109492143A (zh) * 2018-09-21 2019-03-19 平安科技(深圳)有限公司 图像数据处理方法、装置、计算机设备及存储介质
CN109711874A (zh) * 2018-12-17 2019-05-03 平安科技(深圳)有限公司 用户画像生成方法、装置、计算机设备和存储介质
CN109871415A (zh) * 2019-01-21 2019-06-11 武汉光谷信息技术股份有限公司 一种基于图数据库的用户画像构建方法、系统及存储介质
CN109977959A (zh) * 2019-03-29 2019-07-05 国家电网有限公司 一种火车票字符区域分割方法及装置

Also Published As

Publication number Publication date
CN110738522A (zh) 2020-01-31

Similar Documents

Publication Publication Date Title
CN110334585B (zh) 表格识别方法、装置、计算机设备和存储介质
CN110728687B (zh) 文件图像分割方法、装置、计算机设备和存储介质
Cliche et al. Scatteract: Automated extraction of data from scatter plots
US20140257995A1 (en) Method, device, and system for playing video advertisement
WO2021212658A1 (zh) Ocr图像样本生成、印刷体验证方法、装置、设备及介质
CN107689070B (zh) 图表数据结构化提取方法、电子设备及计算机可读存储介质
CN113255915A (zh) 基于结构化实例图的知识蒸馏方法、装置、设备和介质
CN114092938B (zh) 图像的识别处理方法、装置、电子设备及存储介质
CN114610892A (zh) 知识点标注方法、装置、电子设备和计算机存储介质
CN111061933A (zh) 图片样本库构建方法、装置、可读存储介质及终端设备
CN112446259A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN112241730A (zh) 一种基于机器学习的表格提取方法和系统
CN110580507B (zh) 一种城市肌理分类识别方法
CN111738252B (zh) 图像中的文本行检测方法、装置及计算机系统
CN113673528B (zh) 文本处理方法、装置、电子设备和可读存储介质
CN114330247A (zh) 一种基于图像识别的自动化保险条款解析方法
CN113821663A (zh) 图像处理方法、装置、设备及计算机可读存储介质
CN110738522B (zh) 用户画像构建方法、装置、计算机设备和存储介质
CN113807315B (zh) 一种构建待识别对象识别模型的方法、装置、设备及介质
Schlegel A holistic workflow for semi-automated object extraction from large-scale historical maps
CN114494678A (zh) 文字识别方法和电子设备
CN113435441A (zh) 基于Bi-LSTM机制的四则运算算式图像智能批改方法
CN113065010A (zh) 标牌图像管理方法、装置、计算机设备和存储介质
CN114996510A (zh) 教学视频分段及信息点提取方法、装置、电子设备和介质
CN113128486B (zh) 手写数学公式样本库的构建方法、装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant