CN111626191B - 模型生成方法、装置、计算机可读存储介质及电子设备 - Google Patents

模型生成方法、装置、计算机可读存储介质及电子设备 Download PDF

Info

Publication number
CN111626191B
CN111626191B CN202010455247.8A CN202010455247A CN111626191B CN 111626191 B CN111626191 B CN 111626191B CN 202010455247 A CN202010455247 A CN 202010455247A CN 111626191 B CN111626191 B CN 111626191B
Authority
CN
China
Prior art keywords
information
user
user information
model
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010455247.8A
Other languages
English (en)
Other versions
CN111626191A (zh
Inventor
彭强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Horizon Robotics Science and Technology Co Ltd
Original Assignee
Shenzhen Horizon Robotics Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Horizon Robotics Science and Technology Co Ltd filed Critical Shenzhen Horizon Robotics Science and Technology Co Ltd
Priority to CN202010455247.8A priority Critical patent/CN111626191B/zh
Publication of CN111626191A publication Critical patent/CN111626191A/zh
Application granted granted Critical
Publication of CN111626191B publication Critical patent/CN111626191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Abstract

模型生成方法、装置、计算机可读存储介质及电子设备。本公开实施例公开了一种模型生成方法和装置,其中,该方法包括:输出预设的第一引导信息;响应于用户触发与第一引导信息对应的操作,获取第一用户信息和第一标签信息;确定第一用户信息的第一质量等级;根据第一质量等级,生成并输出第二引导信息;响应于用户触发与第二引导信息对应的操作,获取第二用户信息和第二标签信息;将第一用户信息、第二用户信息作为预先设置的初始模型的输入,将第一标签信息、第二标签信息作为初始模型的期望输出,训练初始模型,得到目标特征识别模型。本公开实施例可以降低因用户信息与预先训练初始模型使用的训练样本之间的差异导致的对目标特征的识别误差,改善了模型的性能。

Description

模型生成方法、装置、计算机可读存储介质及电子设备
技术领域
本公开涉及计算机技术领域,尤其是一种模型生成方法、装置、计算机可读存储介质及电子设备。
背景技术
随着人工智能技术的不断发展,越来越多的机器学习模型被应用在各种领域。目前的模型的训练阶段通常在服务器端实现,训练完成后再部署到终端。由于各个终端的使用环境各不相同,导致不同的终端下的模型的性能不同。
发明内容
本公开的实施例提供了一种模型生成方法、装置、计算机可读存储介质及电子设备。
本公开的实施例提供了一种模型生成方法,该方法包括:输出预设的用于获取第一用户信息和与第一用户信息对应的第一标签信息的第一引导信息;响应于用户触发与第一引导信息对应的操作,获取第一用户信息和第一标签信息;确定第一用户信息的第一质量等级;根据第一质量等级,生成并输出用于获取第二用户信息和与第二用户信息对应的第二标签信息的第二引导信息,其中,第二用户信息对应的第二质量等级与第一用户信息对应的第一质量等级不同;响应于用户触发与第二引导信息对应的操作,获取第二用户信息和第二标签信息;将第一用户信息、第二用户信息作为预先设置的初始模型的输入,将第一标签信息、第二标签信息作为初始模型的期望输出,训练初始模型,得到目标特征识别模型。
根据本公开实施例的另一个方面,提供了一种模型生成装置,该装置包括:第一输出模块,用于输出预设的用于获取第一用户信息和与第一用户信息对应的第一标签信息的第一引导信息;第一获取模块,用于响应于用户触发与第一引导信息对应的操作,获取第一用户信息和第一标签信息;第一确定模块,用于确定第一用户信息的第一质量等级;第二输出模块,用于根据第一质量等级,生成并输出用于获取第二用户信息和与第二用户信息对应的第二标签信息的第二引导信息,其中,第二用户信息对应的第二质量等级与第一用户信息对应的第一质量等级不同;第二获取模块,用于响应于用户触发与第二引导信息对应的操作,获取第二用户信息和第二标签信息;训练模块,用于将第一用户信息、第二用户信息作为预先设置的初始模型的输入,将第一标签信息、第二标签信息作为初始模型的期望输出,训练初始模型,得到目标特征识别模型。
根据本公开实施例的另一个方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序用于执行上述模型生成方法。
根据本公开实施例的另一个方面,提供了一种电子设备,电子设备包括:处理器;用于存储处理器可执行指令的存储器;处理器,用于从存储器中读取可执行指令,并执行指令以实现上述模型生成方法。
基于本公开上述实施例提供的模型生成方法、装置、计算机可读存储介质及电子设备,通过输出第一引导信息,以引导用户输入第一用户信息和第一标签信息,当获取到第一用户信息和第一标签信息时,确定第一用户信息的第一质量等级,根据第一质量等级,输出用于获取第二用户信息和与第二用户信息对应的第二标签信息的第二引导信息,然后获取第二用户信息和第二标签信息,最后基于第一用户信息、第二用户信息、第一标签信息、第二标签信息对初始模型进行训练,得到目标特征识别模型,从而充分地利用了实际使用终端设备的用户信息对初始模型进行训练,降低了因用户信息与预先训练初始模型使用的训练样本之间的差异导致的对目标特征的识别误差,改善了模型在终端上执行时的性能。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本公开所适用的系统图。
图2是本公开一示例性实施例提供的模型生成方法的流程示意图。
图3是本公开的实施例的模型生成方法的一个应用场景的示意图。
图4是本公开一示例性实施例提供的模型生成装置的结构示意图。
图5是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
申请概述
当模型被部署到某个特定具体的场景时会产生性能的下降,有一部分原因是使用环境对模型造成一定的偏置,模型的训练过程所采用的样本未考虑到该偏置,因而会影响模型的性能。
示例性系统
图1示出了可以应用本公开的实施例的模型生成方法或模型生成装置的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101,网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101通过网络102与服务器103交互,以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用,例如搜索类应用、网页浏览器应用、购物类应用、即时通信工具等。
终端设备101可以是各种电子设备,包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。
服务器103可以是提供各种服务的服务器,例如对终端设备101上的初始模型提供支持的后台模型服务器。后台模型服务器可以预先使用训练样本训练得到初始模型并推送至终端设备101。
需要说明的是,本公开的实施例所提供的模型生成方法一般由终端设备101执行,相应地,模型生成装置一般设置于终端设备101中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
示例性方法
图2是本公开一示例性实施例提供的模型生成方法的流程示意图。本实施例可应用在电子设备(如图1所示的终端设备101)上,如图2所示,该方法包括如下步骤:
步骤201,输出预设的用于获取第一用户信息和与第一用户信息对应的第一标签信息的第一引导信息。
在本实施例中,电子设备可以输出预设的用于获取第一用户信息和与第一用户信息对应的第一标签信息的第一引导信息。其中,第一用户信息可以是用于表征用户的特征的各种信息,例如用户图像、用户语音、用户浏览过的文章等。需要说明的是,上述用户可以是一个人,也可以是多个人,即第一用户信息的数量可以是一个,也可以是多个。第一标签信息可以是用于对第一用户信息进行标记的信息。例如,当第一用户信息为用户图像时,第一标签信息可以包括用户的性别、年龄等;当第一用户信息为用户浏览过的文章时,第一标签信息可以包括该文章的类别。
第一引导信息可以显示在电子设备的屏幕上,从而引导用户进行相应的操作。例如,第一引导信息可以是文字“请正对屏幕拍摄脸部”,或者可以是“请按如下文字说话,……”。
步骤202,响应于用户触发与第一引导信息对应的操作,获取第一用户信息和第一标签信息。
在本实施例中,电子设备可以响应于用户触发与第一引导信息对应的操作,获取第一用户信息和第一标签信息。其中,上述与第一引导信息对应的操作可以是用户直接输入第一用户信息的操作,也可以是用于指示电子设备间接获取第一用户信息的操作。例如,第一引导信息包括文字“请正对屏幕自拍”和“从相册选择”,则与第一引导信息对应的操作可以是用户利用电子设备上的摄像头自拍,或点击文字“从相册选择”,并根据用户的选择获取图像。
步骤203,确定第一用户信息的第一质量等级。
在本实施例中,电子设备可以确定第一用户信息的第一质量等级。其中,第一质量等级用于表征第一用户信息的质量好坏程度。作为示例,当第一用户信息是用户图像时,可以将图像的亮度、清晰度等属性作为划分质量等级的依据,当用户图像的亮度大于等于第一亮度阈值时,确定达到等级一,当用户图像的亮度小于第一亮度阈值且大于等于第二亮度阈值时,确定达到等级二,以此类推。
再例如,当第一用户信息是用户语音时,可以将语音的音量、信噪比等属性作为划分质量等级的依据,当用户语音的信噪比大于等于第一信噪比阈值时,确定达到等级一,当用户语音的信噪比小于第一信噪比阈值且大于等于第二信噪比阈值时,确定达到等级二,以此类推。
步骤204,根据第一质量等级,生成用于获取第二用户信息和与第二用户信息对应的第二标签信息的第二引导信息。
在本实施例中,电子设备可以根据第一质量等级,生成用于获取第二用户信息和与第二用户信息对应的第二标签信息的第二引导信息。其中,第二用户信息对应的第二质量等级与第一用户信息对应的第一质量等级不同。
作为示例,当第一质量等级表征用户图像的亮度较高时,继续生成第二引导信息并输出第二引导信息,例如第二引导信息可以包括文字“请改变您周围的亮度后拍摄”。用户看到第二引导信息后,可以调整灯光亮度或移动电子设备的位置,以拍摄对应于第二质量等级(例如亮度较低)的用户图像。
步骤205,响应于用户触发与第二引导信息对应的操作,获取第二用户信息和第二标签信息。
在本实施例中,电子设备可以响应于用户触发与第二引导信息对应的操作,获取第二用户信息和第二标签信息。其中,第一用户信息和第二用户信息的形式可以相同或不同。例如,第一用户信息和第二用户信息可以均为用户图像,此时,第一标签信息和第二标签信息可以分别包括对应的图像质量等级(例如亮度等级)。第一用户信息可以是用户图像,第二用户信息可以是用户语音,此时,第一标签信息和第二标签信息可以分别包括对应的图像质量等级和语音质量等级(例如信噪比等级)。
步骤206,将第一用户信息、第二用户信息作为预先设置的初始模型的输入,将第一标签信息、第二标签信息作为初始模型的期望输出,训练初始模型,得到目标特征识别模型。
在本实施例中,电子设备可以将第一用户信息、第二用户信息作为预先设置的初始模型的输入,将第一标签信息、第二标签信息作为初始模型的期望输出,利用机器学习方法,训练初始模型,得到目标特征识别模型。其中,初始模型可以包括各种机器学习模型,例如卷积神经网络、支持向量机、循环神经网络等。
在训练时,第一用户信息对应于第一标签信息,第二用户信息对应于第二标签信息。电子设备可以首先将第一用户信息输入初始模型,得到实际结果(例如分类结果),将实际结果与期望输出(即第一标签信息表征的类别)进行对比,利用反向传播法和梯度下降法,调整初始模型的参数。再将第二用户信息输入调整参数后的初始模型,利用同样的方法,继续调整初始模型的参数,将调整参数后的初始模型确定为目标特征识别模型。
目标特征识别模型用于识别输入的用户信息的目标特征。例如当用户信息为人脸图像时,目标特征可以是人脸的外形特征,将人脸图像输入目标特征识别模型,可以得到对人脸图像进行分类的结果。再例如,当用户信息为语音信息时,目标特征可以是语音的声纹特征,将语音信息输入目标特征识别模型,可以得到对语音信息进行分类的结果。
在一些可选的实现方式中,初始模型部署在目标终端设备上,训练初始模型包括:在目标终端设备处于目标状态时训练初始模型。其中,目标终端设备可以是上述模型生成方法的执行主体。目标状态可以是预先指定的训练初始模型时目标终端设备所处的状态,作为示例,目标状态可以包括以下至少一种状态:锁屏状态、充电状态、处于某个固定的时间段等。由于目标状态通常是目标终端设备没有被正常使用的状态,因此在目标状态训练初始模型,可以降低训练模型对目标终端设备的运算资源造成的影响。
在一些可选的实现方式中,步骤201可以如下执行:输出预设的用于引导用户输入第一用户信息和第一标签信息的第一引导信息。相应地,步骤204可以如下执行:生成并输出预设的用于引导用户输入第二用户信息和第二标签信息的第二引导信息。本实现方式中,第一用户信息和第一标签信息是用户输入的。例如,第一用户信息和第二用户信息是用户自拍的头像,则第一引导信息和第二引导信息可以包括文字“请正对收手机拍摄”。第一标签信息和第二标签信息可以是用户手动输入的文字,例如用户的年龄、性别等。本实现方式中的第一用户信息、第二用户信息、第一标签信息、第二标签信息是用户实时输入的,因此,可以及时、准确地对模型进行训练。在一些可选的实现方式中,步骤201可以如下执行:输出预设的用于指示从目标存储区获取第一用户信息和第一标签信息的第一引导信息。相应地,步骤204可以如下执行:输出预设的用于指示从目标存储区获取第二用户信息和第二标签信息的第二引导信息。其中,目标存储区可以是上述电子设备或与上述电子设备通信连接的其他电子设备中的存储区,目标存储区中预先存储有第一用户信息、第二用户信息、第一标签信息、第二标签信息。作为示例,目标存储区可以是电子设备上安装的其他应用软件对应的存储区,用户曾经使用该软件输入过第一用户信息、第二用户信息、第一标签信息、第二标签信息。本实现方式可以直接获取用户曾经输入的第一用户信息、第二用户信息、第一标签信息、第二标签信息,从而可以缩短信息获取的时间,提高了模型训练的效率。
在一些可选的实现方式中,初始模型包括以下至少一种:人脸识别模型、语音识别模型、文本识别模型。当第一用户信息和第二用户信息是用户脸部图像时,可以对人脸识别模型进行训练。当第一用户信息和第二用户信息是用户语音时,可以对语音识别模型进行训练。当第一用户信息和第二用户信息是文本(例如用户浏览过的文本或用户输入的文本)时,可以对文本识别模型进行训练。本实现方式针对不同类型的信息训练不同的模型,从而提高了基于模型进行信息识别的多样性。
下面,分别以人脸识别模型、语音识别模型、文本识别模型为例,对本公开的实施例的应用场景进行示例性说明。
场景一:
如图3所示,如果待输入的用户信息为用户图像,电子设备301首先输出用于引导用户自拍的引导信息。例如在屏幕上显示脸部轮廓标记302,以引导用户拍摄与轮廓标记的大小相应的脸部图像。然后,用户点击拍摄按钮303,电子设备301获取到用户的脸部图像作为第一脸部图像304(即第一用户信息)。随后,生成第一标签信息305,例如包括用户输入的性别、年龄等,以及当前的图像质量等级。再然后,电子设备301确定脸部图像的第一质量等级,例如图像亮度等级。再然后,生成用于引导用户调整拍摄方式以获得与上述图像亮度等级不同的其他图像亮度等级的脸部图像的引导信息。例如,输出文字“请改变当前的环境亮度”。用户通过调整当前所在的位置或调整灯光亮度等方式改变环境亮度,电子设备301根据当前显示的图像检测到当前亮度符合第二质量等级后,再输出文字“请拍摄”。随后用户再点击拍摄按钮,得到第二脸部图像306(即第二用户信息),并生成第二标签信息307,例如包括第一标签信息中的用户性别、年龄等,以及当前的图像质量等级。最后,将两次拍摄的脸部图像作为人脸识别模型308的输入,将第一标签信息、第二标签信息作为人脸识别模型的期望输出,训练人脸识别模型,得到人脸特征识别模型。
场景二:
如果待输入的用户信息为用户语音,输出用于引导用户发出用户语音的引导信息。例如在屏幕上显示文字“请说出以下文字:xxxxx”。然后,用户发出语音,电子设备获取到用户的语音信号作为第一用户信息,并将在屏幕上显示的文字xxxxx和语音信号的信噪比作为第一标签信息。然后,电子设备确定语音信号的第一质量等级,例如信噪比等级。再然后,再次在屏幕上显示引导信息“请说出以下文字:xxxxx”。用户发出语音,电子设备获取到用户第二次发出的语音信号作为第二用户信息,并将在屏幕上显示的文字xxxxx和第二次发出的语音信号的信噪比作为第二标签信息。最后,将两次获取的语音信号作为语音识别模型的输入,将第一标签信息、第二标签信息作为语音识别模型的期望输出,训练语音识别模型,得到语音特征识别模型。
场景三:
如果待输入的用户信息为与用户相关的文本信息,输出用于引导用户输入文本信息的第一引导信息。例如在屏幕上显示输入框和提示信息“姓名:___,年龄___,爱好___,……”,将用户输入文本框中的文字作为第一用户信息。在屏幕上显示“请选择您的消费习惯:激进、一般、保守”,用户选择相应的选项后,将用户选择的选项作为第一标签信息。然后,电子设备确定第一用户信息的第一质量等级,例如确定错字率、错词率、病句率等,基于这些数据计算得分以确定相应的质量等级。再然后,再次输出与第一引导信息相同或不同的内容作为第二引导信息。用户根据第二引导信息填写第二用户信息和第二标签信息。最后,将第一用户信息、第二用户信息作为文本识别模型的输入,将第一标签信息、第二标签信息作为文本识别模型的期望输出,训练文本识别模型,得到文本特征识别模型。
本公开的上述实施例提供的方法,通过输出第一引导信息,以引导用户输入第一用户信息和第一标签信息,当获取到第一用户信息和第一标签信息时,确定第一用户信息的第一质量等级,根据第一质量等级,输出用于获取第二用户信息和与第二用户信息对应的第二标签信息的第二引导信息,然后获取第二用户信息和第二标签信息,最后基于第一用户信息、第二用户信息、第一标签信息、第二标签信息对初始模型进行训练,得到目标特征识别模型,从而充分地利用了实际使用终端设备的用户信息对初始模型进行训练,降低了因用户信息与预先训练初始模型使用的训练样本之间的差异导致的对目标特征的识别误差,改善了模型在终端上执行时的性能。
示例性装置
图4是本公开一示例性实施例提供的模型生成装置的结构示意图。本实施例可应用在电子设备上,如图4所示,模型生成装置包括:第一输出模块401,用于输出预设的用于获取第一用户信息和与第一用户信息对应的第一标签信息的第一引导信息;第一获取模块402,用于响应于用户触发与第一引导信息对应的操作,获取第一用户信息和第一标签信息;第一确定模块403,用于确定第一用户信息的第一质量等级;第二输出模块404,用于根据第一质量等级,生成并输出用于获取第二用户信息和与第二用户信息对应的第二标签信息的第二引导信息,其中,第二用户信息对应的第二质量等级与第一用户信息对应的第一质量等级不同;第二获取模块405,用于响应于用户触发与第二引导信息对应的操作,获取第二用户信息和第二标签信息;训练模块406,用于将第一用户信息、第二用户信息作为预先设置的初始模型的输入,将第一标签信息、第二标签信息作为初始模型的期望输出,训练初始模型,得到目标特征识别模型。
在本实施例中,第一输出模块401可以输出预设的用于获取第一用户信息和与第一用户信息对应的第一标签信息的第一引导信息。其中,第一用户信息可以是用于表征用户的特征的各种信息,例如用户图像、用户语音、用户浏览过的文章等。第一标签信息可以是用于对第一用户信息进行标记的信息。例如,当第一用户信息为用户图像时,第一标签信息可以包括用户的性别、年龄等;当第一用户信息为用户浏览过的文章时,第一标签信息可以包括该文章的类别。
第一引导信息可以显示在上述模型生成装置的屏幕上,从而引导用户进行相应的操作。例如,第一引导信息可以是文字“请正对屏幕拍摄脸部”,或者可以是“请按如下文字说话,……”。
在本实施例中,第一获取模块402可以响应于用户触发与第一引导信息对应的操作,获取第一用户信息和第一标签信息。其中,上述与第一引导信息对应的操作可以是用户直接输入第一用户信息的操作,也可以是用于指示第一获取模块402间接获取第一用户信息的操作。例如,第一引导信息包括文字“请正对屏幕自拍”和“从相册选择”,则与第一引导信息对应的操作可以是用户利用上述装置上的摄像头自拍,或点击文字“从相册选择”,并根据用户的选择获取图像。
在本实施例中,第一确定模块403可以确定第一用户信息的第一质量等级。其中,第一质量等级用于表征第一用户信息的质量好坏程度。作为示例,当第一用户信息是用户图像时,可以将图像的亮度、清晰度等属性作为划分质量等级的依据,当用户图像的亮度大于等于第一亮度阈值时,确定达到等级一,当用户图像的亮度小于第一亮度阈值且大于等于第二亮度阈值时,确定达到等级二,以此类推。
再例如,当第一用户信息是用户语音时,可以将语音的音量、信噪比等属性作为划分质量等级的依据,当用户语音的信噪比大于等于第一信噪比阈值时,确定达到等级一,当用户语音的信噪比小于第一信噪比阈值且大于等于第二信噪比阈值时,确定达到等级二,以此类推。
在本实施例中,第二输出模块404可以根据第一质量等级,生成用于获取第二用户信息和与第二用户信息对应的第二标签信息的第二引导信息。其中,第二用户信息对应的第二质量等级与第一用户信息对应的第一质量等级不同。
作为示例,当第一质量等级表征用户图像的亮度较高时,继续生成第二引导信息并输出第二引导信息,例如第二引导信息可以包括文字“请改变您周围的亮度后拍摄”。用户看到第二引导信息后,可以调整灯光亮度或移动上述装置的位置,以拍摄对应于第二质量等级(例如亮度较低)的用户图像。
在本实施例中,第二获取模块405可以响应于用户触发与第二引导信息对应的操作,获取第二用户信息和第二标签信息。其中,第一用户信息和第二用户信息的形式可以相同或不同。例如,第一用户信息和第二用户信息可以均为用户图像,此时,第一标签信息和第二标签信息可以分别包括对应的图像质量等级(例如亮度等级)。第一用户信息可以是用户图像,第二用户信息可以是用户语音,此时,第一标签信息和第二标签信息可以分别包括对应的图像质量等级和语音质量等级(例如信噪比等级)。
在本实施例中,训练模块406可以将第一用户信息、第二用户信息作为预先设置的初始模型的输入,将第一标签信息、第二标签信息作为初始模型的期望输出,利用机器学习方法,训练初始模型,得到目标特征识别模型。其中,初始模型可以包括各种机器学习模型,例如卷积神经网络、支持向量机、循环神经网络等。
在训练时,第一用户信息对应于第一标签信息,第二用户信息对应于第二标签信息。训练模块406可以首先将第一用户信息输入初始模型,得到实际结果(例如分类结果),将实际结果与期望输出(即第一标签信息表征的类别)进行对比,利用反向传播法和梯度下降法,调整初始模型的参数。再将第二用户信息输入调整参数后的初始模型,利用同样的方法,继续调整初始模型的参数,将调整参数后的初始模型确定为目标特征识别模型。
目标特征识别模型用于识别输入的用户信息的目标特征。例如当用户信息为人脸图像时,目标特征可以是人脸的外形特征,将人脸图像输入目标特征识别模型,可以得到对人脸图像进行分类的结果。再例如,当用户信息为语音信息时,目标特征可以是语音的声纹特征,将语音信息输入目标特征识别模型,可以得到对语音信息进行分类的结果。
在一些可选的实现方式中,初始模型可以部署在目标终端设备上,训练模块406可以进一步用于:在目标终端设备处于目标状态时训练初始模型。
在一些可选的实现方式中,第一输出模块401可以进一步用于:输出预设的用于引导用户输入第一用户信息和第一标签信息的第一引导信息;第二输出模块404可以进一步用于:生成并输出预设的用于引导用户输入第二用户信息和第二标签信息的第二引导信息。
在一些可选的实现方式中,第一输出模块401可以进一步用于:输出预设的用于指示从目标存储区获取第一用户信息和第一标签信息的第一引导信息;第二输出模块404可以进一步用于:输出预设的用于指示从目标存储区获取第二用户信息和第二标签信息的第二引导信息。
在一些可选的实现方式中,初始模型包括以下至少一种:人脸识别模型、语音识别模型、文本识别模型。
本公开上述实施例提供的模型生成装置,通过输出第一引导信息,以引导用户输入第一用户信息和第一标签信息,当获取到第一用户信息和第一标签信息时,确定第一用户信息的第一质量等级,根据第一质量等级,输出用于获取第二用户信息和与第二用户信息对应的第二标签信息的第二引导信息,然后获取第二用户信息和第二标签信息,最后基于第一用户信息、第二用户信息、第一标签信息、第二标签信息对初始模型进行训练,得到目标特征识别模型,从而充分地利用了实际使用终端设备的用户信息对初始模型进行训练,降低了因用户信息与预先训练初始模型使用的训练样本之间的差异导致的对目标特征的识别误差,改善了模型在终端上执行时的性能。
示例性电子设备
下面,参考图5来描述根据本公开实施例的电子设备。该电子设备可以是如图1所示的终端设备101和服务器103中的任一个或两者、或与它们独立的单机设备,该单机设备可以与终端设备101和服务器103进行通信,以从它们接收所采集到的输入信号。
图5图示了根据本公开实施例的电子设备的框图。
如图5所示,电子设备500包括一个或多个处理器501和存储器502。
处理器501可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备500中的其他组件以执行期望的功能。
存储器502可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器501可以运行程序指令,以实现上文的本公开的各个实施例的模型生成方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备500还可以包括:输入装置503和输出装置504,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是终端设备101或服务器103时,该输入装置503可以是触摸屏、鼠标、键盘、麦克风、摄像头等设备,用于输入用户信息等。在该电子设备是单机设备时,该输入装置503可以是通信网络连接器,用于从终端设备101和服务器103接收所输入的用户信息等。
该输出装置504可以向外部输出各种信息,包括确定出的类别信息。该输出设备504可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图5中仅示出了该电子设备500中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备500还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的模型生成方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的模型生成方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (9)

1.一种模型生成方法,包括:
输出预设的用于获取第一用户信息和与所述第一用户信息对应的第一标签信息的第一引导信息;
响应于用户触发与所述第一引导信息对应的操作,获取所述第一用户信息和所述第一标签信息;
确定所述第一用户信息的第一质量等级,其中,所述第一质量等级用于表征所述第一用户信息的质量好坏程度;
根据所述第一质量等级,生成并输出用于获取第二用户信息和与所述第二用户信息对应的第二标签信息的第二引导信息,其中,所述第二用户信息对应的第二质量等级与所述第一用户信息对应的第一质量等级不同,所述第二质量等级用于表征所述第二用户信息的质量好坏程度;
响应于用户触发与所述第二引导信息对应的操作,获取所述第二用户信息和所述第二标签信息;
将所述第一用户信息和所述第二用户信息作为预先设置的初始模型的输入,将所述第一标签信息和所述第二标签信息作为所述初始模型的期望输出,训练所述初始模型,得到目标特征识别模型,其中,所述目标特征识别模型用于识别输入的用户信息的目标特征,所述初始模型部署在目标终端设备上;
所述训练所述初始模型包括:
在所述目标终端设备处于目标状态时训练所述初始模型,所述目标状态是预先指定的训练所述初始模型时所述目标终端设备所处的状态,且所述目标状态是所述目标终端设备没有被正常使用的状态。
2.根据权利要求1所述的方法,其中,所述输出预设的用于获取第一用户信息和与所述第一用户信息对应的第一标签信息的第一引导信息,包括:
输出预设的用于引导所述用户输入所述第一用户信息和所述第一标签信息的第一引导信息;
所述生成并输出用于获取第二用户信息和与所述第二用户信息对应的第二标签信息的第二引导信息,包括:
生成并输出预设的用于引导所述用户输入所述第二用户信息和所述第二标签信息的第二引导信息。
3.根据权利要求1所述的方法,其中,所述输出预设的用于获取第一用户信息和与第一用户信息对应的第一标签信息的第一引导信息,包括:
输出预设的用于指示从目标存储区获取所述第一用户信息和所述第一标签信息的第一引导信息;
所述输出预设的用于获取第二用户信息和与第二用户信息对应的第二标签信息的第二引导信息,包括:
输出预设的用于指示从目标存储区获取所述第二用户信息和所述第二标签信息的第二引导信息。
4.根据权利要求1-3任一项所述的方法,其中,所述初始模型包括以下至少一种:人脸识别模型、语音识别模型、文本识别模型。
5.一种模型生成装置,包括:
第一输出模块,用于输出预设的用于获取第一用户信息和与所述第一用户信息对应的第一标签信息的第一引导信息;
第一获取模块,用于响应于用户触发与所述第一引导信息对应的操作,获取所述第一用户信息和所述第一标签信息;
第一确定模块,用于确定所述第一用户信息的第一质量等级,其中,所述第一质量等级用于表征所述第一用户信息的质量好坏程度;
第二输出模块,用于根据所述第一质量等级,生成并输出用于获取第二用户信息和与所述第二用户信息对应的第二标签信息的第二引导信息,其中,所述第二用户信息对应的第二质量等级与所述第一用户信息对应的第一质量等级不同,所述第二质量等级用于表征所述第二用户信息的质量好坏程度;
第二获取模块,用于响应于用户触发与所述第二引导信息对应的操作,获取所述第二用户信息和所述第二标签信息;
训练模块,用于将所述第一用户信息和所述第二用户信息作为预先设置的初始模型的输入,将所述第一标签信息和所述第二标签信息作为所述初始模型的期望输出,训练所述初始模型,得到目标特征识别模型,其中,所述目标特征识别模型用于识别输入的用户信息的目标特征,所述初始模型部署在目标终端设备上;
所述训练模块进一步用于:
在所述目标终端设备处于目标状态时训练所述初始模型,所述目标状态是预先指定的训练所述初始模型时所述目标终端设备所处的状态,且所述目标状态是所述目标终端设备没有被正常使用的状态。
6.根据权利要求5所述的装置,其中,所述第一输出模块进一步用于:
输出预设的用于引导所述用户输入所述第一用户信息和所述第一标签信息的第一引导信息;
所述第二输出模块进一步用于:
生成并输出预设的用于引导所述用户输入所述第二用户信息和所述第二标签信息的第二引导信息。
7.根据权利要求5所述的装置,其中,所述第一输出模块进一步用于:
输出预设的用于指示从目标存储区获取所述第一用户信息和所述第一标签信息的第一引导信息;
所述第二输出模块进一步用于:
输出预设的用于指示从目标存储区获取所述第二用户信息和所述第二标签信息的第二引导信息。
8.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-4任一所述的方法。
9.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-4任一所述的方法。
CN202010455247.8A 2020-05-26 2020-05-26 模型生成方法、装置、计算机可读存储介质及电子设备 Active CN111626191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010455247.8A CN111626191B (zh) 2020-05-26 2020-05-26 模型生成方法、装置、计算机可读存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010455247.8A CN111626191B (zh) 2020-05-26 2020-05-26 模型生成方法、装置、计算机可读存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN111626191A CN111626191A (zh) 2020-09-04
CN111626191B true CN111626191B (zh) 2023-06-30

Family

ID=72259989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010455247.8A Active CN111626191B (zh) 2020-05-26 2020-05-26 模型生成方法、装置、计算机可读存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN111626191B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960110A (zh) * 2018-06-26 2018-12-07 北京字节跳动网络技术有限公司 用于生成信息的方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239858B (zh) * 2014-09-05 2017-06-09 华为技术有限公司 一种人脸特征验证的方法和装置
CN109816023B (zh) * 2019-01-29 2022-01-04 北京字节跳动网络技术有限公司 用于生成图片标签模型的方法和装置
CN110134316B (zh) * 2019-04-17 2021-12-24 华为技术有限公司 模型训练方法、情绪识别方法及相关装置和设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960110A (zh) * 2018-06-26 2018-12-07 北京字节跳动网络技术有限公司 用于生成信息的方法和装置

Also Published As

Publication number Publication date
CN111626191A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
US9792534B2 (en) Semantic natural language vector space
CN110298906B (zh) 用于生成信息的方法和装置
CN110516737B (zh) 用于生成图像识别模型的方法和装置
US20170200065A1 (en) Image Captioning with Weak Supervision
CN111428010B (zh) 人机智能问答的方法和装置
CN111916061B (zh) 语音端点检测方法、装置、可读存储介质及电子设备
CN111582360B (zh) 用于标注数据的方法、装置、设备和介质
KR20210094445A (ko) 정보 처리 방법, 장치 및 저장 매체
CN112188306B (zh) 一种标签生成方法、装置、设备及存储介质
CN111611990A (zh) 用于识别图像中表格的方法和装置
US20230035366A1 (en) Image classification model training method and apparatus, computer device, and storage medium
CN111831826A (zh) 跨领域的文本分类模型的训练方法、分类方法以及装置
CN111626191B (zh) 模型生成方法、装置、计算机可读存储介质及电子设备
CN116912478A (zh) 目标检测模型构建、图像分类方法、电子设备
CN112309389A (zh) 信息交互方法和装置
CN111460811A (zh) 众包任务的答案验证方法、装置、计算机设备及存储介质
CN113360630B (zh) 交互信息提示方法
CN112214626B (zh) 图像识别方法、装置、可读存储介质及电子设备
CN110377824B (zh) 信息推送方法、装置、计算机可读存储介质及电子设备
CN110232911B (zh) 跟唱识别方法、装置、存储介质及电子设备
CN111400443B (zh) 信息处理方法、装置及存储介质
CN112542154B (zh) 文本转换方法、装置、计算机可读存储介质及电子设备
CN110516717B (zh) 用于生成图像识别模型的方法和装置
CN111985235B (zh) 文本处理方法、装置、计算机可读存储介质和电子设备
CN115248846B (zh) 文本识别方法、设备、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant