CN115438655A - 人物性别识别方法、装置、电子设备及存储介质 - Google Patents
人物性别识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115438655A CN115438655A CN202211249109.XA CN202211249109A CN115438655A CN 115438655 A CN115438655 A CN 115438655A CN 202211249109 A CN202211249109 A CN 202211249109A CN 115438655 A CN115438655 A CN 115438655A
- Authority
- CN
- China
- Prior art keywords
- gender
- corpus
- character
- person
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种人物性别识别方法、装置、电子设备及存储介质,涉及数据处理技术领域,所述方法包括:确定第一目标语料,所述第一目标语料中包括至少一个人物姓名;对所述第一目标语料中包括的各人物姓名进行人物性别预标注,获得第二目标语料;将所述第二目标语料输入至训练完成的人物性别识别模型,获得所述人物性别识别模型输出的预测结果;基于所述预测结果,确定所述第一目标语料中包括的各人物姓名分别对应的人物性别。本发明通过对第一目标语料中包括的人物姓名进行人物性别预标注获得第二目标语料,并将第二目标语料输入至人物性别识别模型以进行人物性别预测,从而实现对待翻译文档中涉及的人物进行自动化地人物性别识别。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种人物性别识别方法、装置、电子设备及存储介质。
背景技术
目前的机器翻译引擎由于受技术因素的限制只能作单句翻译,而在翻译类似文学作品(尤其是文学小说)的文档时,因其内容涉及大量人物,基于单句的机器翻译因为无法从当前语句中推断人物性别而导致译文中的性别代词使用混乱,大大增加了后编辑时校正的工作量。
因此,如何对待翻译文档中涉及的人物进行自动化地人物性别识别,成为业界亟需解决的问题。
发明内容
针对现有技术存在的问题,本发明提供一种人物性别识别方法、装置、电子设备及存储介质。
第一方面,本发明提供一种人物性别识别方法,包括:
确定第一目标语料,所述第一目标语料中包括至少一个人物姓名;
对所述第一目标语料中包括的各人物姓名进行人物性别预标注,获得第二目标语料;
将所述第二目标语料输入至训练完成的人物性别识别模型,获得所述人物性别识别模型输出的预测结果;
基于所述预测结果,确定所述第一目标语料中包括的各人物姓名分别对应的人物性别。
可选地,根据本发明提供的一种人物性别识别方法,在所述将所述第二目标语料输入至训练完成的人物性别识别模型,获得所述人物性别识别模型输出的预测结果之前,所述方法还包括:
提取第一样本语料中包括的各人物姓名分别对应的性别分类特征;
基于所述第一样本语料和所述性别分类特征生成训练语料,所述训练语料中携带有样本标签;
基于所述训练语料训练人物性别识别模型,获得所述训练完成的人物性别识别模型;
其中,所述性别分类特征包括男性、女性和未知性别。
可选地,根据本发明提供的一种人物性别识别方法,所述基于所述训练语料训练人物性别识别模型,获得所述训练完成的人物性别识别模型,包括:
基于所述训练语料和逻辑回归模型训练人物性别识别模型,获得所述训练完成的人物性别识别模型。
可选地,根据本发明提供的一种人物性别识别方法,所述提取第一样本语料中包括的各人物姓名分别对应的性别分类特征,包括:
基于预训练语言模型提取第一样本语料中包括的各人物姓名分别对应的性别分类特征。
可选地,根据本发明提供的一种人物性别识别方法,所述预训练语言模型为BERT模型。
可选地,根据本发明提供的一种人物性别识别方法,在所述提取第一样本语料中包括的各人物姓名分别对应的性别分类特征之前,所述方法还包括:
确定第二样本语料,所述第二样本语料中包括至少一个人物姓名和所述至少一个人物姓名对应的人物性别特征;
获取对所述第二样本语料进行人工标注后的所述第一样本语料,所述第一样本语料中包括的各人物姓名具有对应的性别分类特征;
其中,所述人物性别特征包括人物关系称谓或人称代词。
第二方面,本发明还提供一种人物性别识别装置,包括:
第一确定模块,用于确定第一目标语料,所述第一目标语料中包括至少一个人物姓名;
标注模块,用于对所述第一目标语料中包括的各人物姓名进行人物性别预标注,获得第二目标语料;
识别模块,用于将所述第二目标语料输入至训练完成的人物性别识别模型,获得所述人物性别识别模型输出的预测结果;
第二确定模块,用于基于所述预测结果,确定所述第一目标语料中包括的各人物姓名分别对应的人物性别。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述人物性别识别方法。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述人物性别识别方法。
第五方面,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述人物性别识别方法。
本发明提供的人物性别识别方法、装置、电子设备及存储介质,通过对第一目标语料中包括的人物姓名进行人物性别预标注获得第二目标语料,并将第二目标语料输入至人物性别识别模型以进行人物性别预测,从而实现对待翻译文档中涉及的人物进行自动化地人物性别识别。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的人物性别识别方法的流程示意图之一;
图2是本发明提供的人物性别识别方法的流程示意图之二;
图3是本发明提供的人物性别识别装置的结构示意图;
图4是本发明提供的电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图4描述本发明提供的人物性别识别方法、装置、电子设备及存储介质。
图1是本发明提供的人物性别识别方法的流程示意图之一,如图1所示,该方法包括:
步骤100,确定第一目标语料,所述第一目标语料中包括至少一个人物姓名;
步骤110,对所述第一目标语料中包括的各人物姓名进行人物性别预标注,获得第二目标语料;
步骤120,将所述第二目标语料输入至训练完成的人物性别识别模型,获得所述人物性别识别模型输出的预测结果;
步骤130,基于所述预测结果,确定所述第一目标语料中包括的各人物姓名分别对应的人物性别。
具体地,在本发明实施例中,为了克服现有技术难以对待翻译文档中涉及的人物进行自动化地人物性别识别的缺陷,本发明通过对第一目标语料中包括的人物姓名进行人物性别预标注获得第二目标语料,并将第二目标语料输入至人物性别识别模型以进行人物性别预测,从而实现对待翻译文档中涉及的人物进行自动化地人物性别识别。
可选地,可以先提取待翻译文档中的第一目标语料,其中,该第一目标语料中包括至少一个人物姓名。
例如,第一目标语料包括:A的爸爸的姓名为B。
又例如,第一目标语料包括:C找到D,急匆匆的对她说:“......”。
可选地,可以对第一目标语料中包括的各人物姓名进行人物性别预标注,获得第二目标语料。
例如,第二目标语料包括:A的爸爸的姓名为B,A为女性,B为男性。
又例如,第二目标语料包括:C找到D,急匆匆的对她说:“......”,C为男性,D为女性。
可以理解的是,在本发明实施例中,可以根据第一目标语料中的人物关系称谓(爸爸、妈妈、哥哥、姐姐、弟弟、妹妹等)或人称代词(他、她)等,确定第一目标语料中包括的各人物姓名对应的人物性别,并进行人物性别预标注;在无法确定第一目标语料中包括的任意一个人物姓名对应的人物性别的情况下,可以预先为该人物姓名任意标注一个人物性别,例如,无法确定上述第一目标语料中A的性别,则可以为A预标注为:A为女性,或者A为男性;无法确定上述第一目标语料中C的性别,则可以为C预标注为:C为男性,或者C为女性。
可选地,可以将第二目标语料输入至训练完成的人物性别识别模型,获得人物性别识别模型输出的预测结果。
可选地,在本发明实施例中,人物性别识别模型可以是基于任意神经网络模型搭建的,本发明实施例对此不作具体限定。
可选地,可以基于人物性别识别模型输出的预测结果,确定第一目标语料中包括的各人物姓名分别对应的人物性别。
例如,在将第二目标语料(A的爸爸的姓名为B,A为女性,B为男性)输入至人物性别识别模型后,人物性别识别模型输出的预测结果为0和1,则表明A的性别预测错误,B的性别预测正确,进而可以基于该预测结果确定A的性别为男性,B的性别为男性。
本发明提供的人物性别识别方法,通过对第一目标语料中包括的人物姓名进行人物性别预标注获得第二目标语料,并将第二目标语料输入至人物性别识别模型以进行人物性别预测,从而实现对待翻译文档中涉及的人物进行自动化地人物性别识别。
可选地,在所述将所述第二目标语料输入至训练完成的人物性别识别模型,获得所述人物性别识别模型输出的预测结果之前,所述方法还包括:
提取第一样本语料中包括的各人物姓名分别对应的性别分类特征;
基于所述第一样本语料和所述性别分类特征生成训练语料,所述训练语料中携带有样本标签;
基于所述训练语料训练人物性别识别模型,获得所述训练完成的人物性别识别模型;
其中,所述性别分类特征包括男性、女性和未知性别。
具体地,在本发明实施例中,在应用人物性别识别模型进行人物性别预测之前,先对人物性别识别模型进行训练,以获取训练完成的人物性别识别模型,其中,人物性别识别模型的训练步骤包括:
(1)提取第一样本语料中包括的各人物姓名分别对应的性别分类特征,其中,性别分类特征可以包括男性、女性和未知性别;
(2)基于第一样本语料和提取到的性别分类特征生成训练语料,并且该训练语料中携带有样本标签;
(3)基于训练语料训练人物性别识别模型,获得训练完成的人物性别识别模型。
例如,第一样本语料为:
A的爸爸的姓名为B,[A,未知性别],[B,男性]。
则第一样本语料中包括的各人物姓名分别对应的性别分类特征包括[A,未知性别]和[B,男性],进一步可以基于第一样本语料和提取到的性别分类特征生成如下的训练语料:
语料1:A的爸爸的姓名为B,A是男性。(标签为0)
语料2:A的爸爸的姓名为B,A是女性。(标签为0)
语料3:A的爸爸的姓名为B,B是男性。(标签为1)
语料4:A的爸爸的姓名为B,B是女性。(标签为0)
上述训练语料构造的思路是:在每个语句后面加一个人物性别描述的短句,如果该性别描述是正确的,则整个语句对应的样本标签标记为1,否则标记为0,则人物性别识别模型训练就可以转化为一个二分类的训练问题。
本发明提供的人物性别识别方法,通过基于第一样本语料和从第一样本语料中提取的性别分类特征,生成训练语料,进而基于训练语料实现对人物性别识别模型的训练,以便于后续利用训练完成的人物性别识别模型实现对待翻译文档中涉及的人物进行自动化地人物性别识别。
可选地,所述基于所述训练语料训练人物性别识别模型,获得所述训练完成的人物性别识别模型,包括:
基于所述训练语料和逻辑回归模型训练人物性别识别模型,获得所述训练完成的人物性别识别模型。
具体地,在本发明实施例中,在生成训练语料之后,可以基于训练语料和逻辑回归模型对人物性别识别模型进行训练,以获得训练完成的人物性别识别模型。
可以理解的是,逻辑回归模型可以实现对人物性别识别模型的分类训练。
可选地,所述提取第一样本语料中包括的各人物姓名分别对应的性别分类特征,包括:
基于预训练语言模型提取第一样本语料中包括的各人物姓名分别对应的性别分类特征。
具体地,在本发明实施例中,可以基于预训练语言模型提取第一样本语料中包括的各人物姓名分别对应的性别分类特征。
可选地,所述预训练语言模型为BERT(Bidirectional Encoder Representationfrom Transformers)模型。
可选地,在本发明实施例中,可以采用预训练语言模型BERT进行第一样本语料中性别分类特征的提取,将经BERT编码后的第一个标志位处的向量作为第一样本语料的分类特征,并采用逻辑回归模型对人物性别识别模型进行分类训练。
可选地,在所述提取第一样本语料中包括的各人物姓名分别对应的性别分类特征之前,所述方法还包括:
确定第二样本语料,所述第二样本语料中包括至少一个人物姓名和所述至少一个人物姓名对应的人物性别特征;
获取对所述第二样本语料进行人工标注后的所述第一样本语料,所述第一样本语料中包括的各人物姓名具有对应的性别分类特征;
其中,所述人物性别特征包括人物关系称谓或人称代词。
具体地,在本发明实施例中,在提取第一样本语料中包括的各人物姓名分别对应的性别分类特征之前,可以先确定第二样本语料,且该第二样本语料中包括至少一个人物姓名和至少一个人物姓名对应的人物性别特征,然后对第二样本语料进行人工标注以获取第一样本语料,该第一样本语料中包括的各人物姓名具有对应的性别分类特征。
可选地,在本发明实施例中,可以通过命名实体识别模型从语料库中筛选包含有人物姓名和与人物姓名相对应的人物性别特征的第二样本语料。
可以理解的是,语料筛选就是要选出含有人物姓名以及人物姓名对应的人物性别特征的语句,以作为下一步人工标注的语料。筛选过程可以通过程序在语料库中自动搜索发现,基本过程可以为:首先通过命名实体识别模型从语料库中筛选出含有人物姓名的语句,再判断该语句是否含有人物性别特征,人物性别特征可以是如下类别中的一种:人物关系称谓或人称代词等。
可选地,人物关系称谓可以包括爸爸、妈妈、哥哥、姐姐、弟弟、和妹妹等。
可选地,人称代词可以包括他和她等。
可以理解的是,在筛选出第二样本语料之后,可以对第二样本语料进行人工标注,以获取人工标注后的第一样本语料。
例如,第二样本语料包括:A的爸爸的姓名为B,则对第二样本语料进行人工标注后得到的第一样本语料包括:
A的爸爸的姓名为B,[A,未知性别],[B,男性]。
其中,在上述第一样本语料中,[A,未知性别]和[B,男性]为人工标注的性别分类特征。
本发明提供的人物性别识别方法,通过获取对性别分类特征进行人工标注后的第一样本语料,便于后续基于第一样本语料和第一样本语料中的性别分类特征生成训练语料,进而实现基于训练语料训练人物性别识别模型。
图2是本发明提供的人物性别识别方法的流程示意图之二,如图2所示,该方法包括:
步骤200,标注语料。
具体地,在从语料库中筛选出样本语料之后,可以对筛选出的样本语料进行人工标注,以获取人工标注后的样本语料。
步骤210,训练人物性别识别模型。
具体地,在获取到人工标注后的样本语料之后,可以基于人工标注后的样本语料生成训练语料,进而基于训练语料训练人物性别识别模型,以获取训练完成的人物性别识别模型。
步骤220,机器翻译时加持人物性别信息。
具体地,可以利用训练完成的人物性别识别模型实现对待翻译文档中涉及的人物进行人物性别识别,在完成人物性别识别后,将识别得到的人物性别信息加持到机器翻译的文档信息中。
可选地,在进行机器翻译时,对于含有人物姓名的语句,可以通过两种方式加持该人物姓名对应的性别信息以提升机器翻译的准确性。一种方式是知识注入,即在原始语句的人物姓名后直接附加该人物姓名对应的人物性别信息,可以理解的是,这种方式需要机翻引擎的支持,适用于自有产权的机翻引擎,在引擎训练时含有相应格式的训练数据;另一种方式是后处理模式,该方式适用于不能自主可控的第三方机翻引擎,其需要对机器翻译文档进行指代消解分析,确定出人物姓名与对应的性别代词之间的对应关系,再基于该人物姓名的性别信息判断相应的性别代词是否正确,如果不正确则进行自动纠正。
可以理解的是,在人物性别识别模型精度的影响下,基于单一的语句输出的人物性别难以保证100%正确,但是通常情况下,一个人物姓名会在待翻译文档中的多个语句中出现,通过人物性别识别模型输出每个人物姓名对应的人物性别后再进行统计处理,即可得到各人物姓名对应的准确人物性别。
可以理解的是,本发明实施例提供的人物性别识别方法,可以通过将可能影响单句翻译质量的文档全局信息预先提取出来,利用人物性别识别模型进行人物性别预测,再将得到的人物性别识别结果加持或补充到单句翻译中,在一定程度上可以克服单句翻译无法利用文档全局信息的缺陷,优化机器翻译效果。
本发明提供的人物性别识别方法,通过对第一目标语料中包括的人物姓名进行人物性别预标注获得第二目标语料,并将第二目标语料输入至人物性别识别模型以进行人物性别预测,从而实现对待翻译文档中涉及的人物进行自动化地人物性别识别。
下面对本发明提供的人物性别识别装置进行描述,下文描述的人物性别识别装置与上文描述的人物性别识别方法可相互对应参照。
图3是本发明提供的人物性别识别装置的结构示意图,如图3所示,该装置包括:第一确定模块310、标注模块320、识别模块330和第二确定模块340;其中:
第一确定模块310用于确定第一目标语料,所述第一目标语料中包括至少一个人物姓名;
标注模块320用于对所述第一目标语料中包括的各人物姓名进行人物性别预标注,获得第二目标语料;
识别模块330用于将所述第二目标语料输入至训练完成的人物性别识别模型,获得所述人物性别识别模型输出的预测结果;
第二确定模块340用于基于所述预测结果,确定所述第一目标语料中包括的各人物姓名分别对应的人物性别。
本发明提供的人物性别识别装置,通过对第一目标语料中包括的人物姓名进行人物性别预标注获得第二目标语料,并将第二目标语料输入至人物性别识别模型以进行人物性别预测,从而实现对待翻译文档中涉及的人物进行自动化地人物性别识别。
可选地,所述装置还包括提取模块、生成模块和训练模块;其中:
所述提取模块用于提取第一样本语料中包括的各人物姓名分别对应的性别分类特征;
所述生成模块用于基于所述第一样本语料和所述性别分类特征生成训练语料,所述训练语料中携带有样本标签;
所述训练模块用于基于所述训练语料训练人物性别识别模型,获得所述训练完成的人物性别识别模型;
其中,所述性别分类特征包括男性、女性和未知性别。
可选地,所述训练模块还用于:
基于所述训练语料和逻辑回归模型训练人物性别识别模型,获得所述训练完成的人物性别识别模型。
可选地,所述提取模块还用于:
基于预训练语言模型提取第一样本语料中包括的各人物姓名分别对应的性别分类特征。
可选地,所述预训练语言模型为BERT模型。
可选地,所述装置还包括第三确定模块和获取模块;其中:
所述第三确定模块用于确定第二样本语料,所述第二样本语料中包括至少一个人物姓名和所述至少一个人物姓名对应的人物性别特征;
所述获取模块用于获取对所述第二样本语料进行人工标注后的所述第一样本语料,所述第一样本语料中包括的各人物姓名具有对应的性别分类特征;
其中,所述人物性别特征包括人物关系称谓或人称代词。
本发明提供的人物性别识别装置,通过对第一目标语料中包括的人物姓名进行人物性别预标注获得第二目标语料,并将第二目标语料输入至人物性别识别模型以进行人物性别预测,从而实现对待翻译文档中涉及的人物进行自动化地人物性别识别。
在此需要说明的是,本发明实施例提供的上述人物性别识别装置,能够实现上述人物性别识别方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
图4是本发明提供的电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行上述各方法所提供的人物性别识别方法,该方法包括:
确定第一目标语料,所述第一目标语料中包括至少一个人物姓名;
对所述第一目标语料中包括的各人物姓名进行人物性别预标注,获得第二目标语料;
将所述第二目标语料输入至训练完成的人物性别识别模型,获得所述人物性别识别模型输出的预测结果;
基于所述预测结果,确定所述第一目标语料中包括的各人物姓名分别对应的人物性别。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的人物性别识别方法,该方法包括:
确定第一目标语料,所述第一目标语料中包括至少一个人物姓名;
对所述第一目标语料中包括的各人物姓名进行人物性别预标注,获得第二目标语料;
将所述第二目标语料输入至训练完成的人物性别识别模型,获得所述人物性别识别模型输出的预测结果;
基于所述预测结果,确定所述第一目标语料中包括的各人物姓名分别对应的人物性别。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的人物性别识别方法,该方法包括:
确定第一目标语料,所述第一目标语料中包括至少一个人物姓名;
对所述第一目标语料中包括的各人物姓名进行人物性别预标注,获得第二目标语料;
将所述第二目标语料输入至训练完成的人物性别识别模型,获得所述人物性别识别模型输出的预测结果;
基于所述预测结果,确定所述第一目标语料中包括的各人物姓名分别对应的人物性别。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种人物性别识别方法,其特征在于,包括:
确定第一目标语料,所述第一目标语料中包括至少一个人物姓名;
对所述第一目标语料中包括的各人物姓名进行人物性别预标注,获得第二目标语料;
将所述第二目标语料输入至训练完成的人物性别识别模型,获得所述人物性别识别模型输出的预测结果;
基于所述预测结果,确定所述第一目标语料中包括的各人物姓名分别对应的人物性别。
2.根据权利要求1所述的人物性别识别方法,其特征在于,在所述将所述第二目标语料输入至训练完成的人物性别识别模型,获得所述人物性别识别模型输出的预测结果之前,所述方法还包括:
提取第一样本语料中包括的各人物姓名分别对应的性别分类特征;
基于所述第一样本语料和所述性别分类特征生成训练语料,所述训练语料中携带有样本标签;
基于所述训练语料训练人物性别识别模型,获得所述训练完成的人物性别识别模型;
其中,所述性别分类特征包括男性、女性和未知性别。
3.根据权利要求2所述的人物性别识别方法,其特征在于,所述基于所述训练语料训练人物性别识别模型,获得所述训练完成的人物性别识别模型,包括:
基于所述训练语料和逻辑回归模型训练人物性别识别模型,获得所述训练完成的人物性别识别模型。
4.根据权利要求2所述的人物性别识别方法,其特征在于,所述提取第一样本语料中包括的各人物姓名分别对应的性别分类特征,包括:
基于预训练语言模型提取第一样本语料中包括的各人物姓名分别对应的性别分类特征。
5.根据权利要求4所述的人物性别识别方法,其特征在于,所述预训练语言模型为BERT模型。
6.根据权利要求2-5任一项所述的人物性别识别方法,其特征在于,在所述提取第一样本语料中包括的各人物姓名分别对应的性别分类特征之前,所述方法还包括:
确定第二样本语料,所述第二样本语料中包括至少一个人物姓名和所述至少一个人物姓名对应的人物性别特征;
获取对所述第二样本语料进行人工标注后的所述第一样本语料,所述第一样本语料中包括的各人物姓名具有对应的性别分类特征;
其中,所述人物性别特征包括人物关系称谓或人称代词。
7.一种人物性别识别装置,其特征在于,包括:
第一确定模块,用于确定第一目标语料,所述第一目标语料中包括至少一个人物姓名;
标注模块,用于对所述第一目标语料中包括的各人物姓名进行人物性别预标注,获得第二目标语料;
识别模块,用于将所述第二目标语料输入至训练完成的人物性别识别模型,获得所述人物性别识别模型输出的预测结果;
第二确定模块,用于基于所述预测结果,确定所述第一目标语料中包括的各人物姓名分别对应的人物性别。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述人物性别识别方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述人物性别识别方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述人物性别识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211249109.XA CN115438655A (zh) | 2022-10-12 | 2022-10-12 | 人物性别识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211249109.XA CN115438655A (zh) | 2022-10-12 | 2022-10-12 | 人物性别识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115438655A true CN115438655A (zh) | 2022-12-06 |
Family
ID=84250564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211249109.XA Pending CN115438655A (zh) | 2022-10-12 | 2022-10-12 | 人物性别识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115438655A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116108862A (zh) * | 2023-04-07 | 2023-05-12 | 北京澜舟科技有限公司 | 篇章级机器翻译模型构建方法、系统及存储介质 |
-
2022
- 2022-10-12 CN CN202211249109.XA patent/CN115438655A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116108862A (zh) * | 2023-04-07 | 2023-05-12 | 北京澜舟科技有限公司 | 篇章级机器翻译模型构建方法、系统及存储介质 |
CN116108862B (zh) * | 2023-04-07 | 2023-07-25 | 北京澜舟科技有限公司 | 篇章级机器翻译模型构建方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
CN111738251B (zh) | 一种融合语言模型的光学字符识别方法、装置和电子设备 | |
CN110705206B (zh) | 一种文本信息的处理方法及相关装置 | |
CN109670180B (zh) | 向量化译员的翻译个性特征的方法及装置 | |
CN112966106A (zh) | 文本的情绪识别方法、装置、设备及存储介质 | |
CN112560510A (zh) | 翻译模型训练方法、装置、设备及存储介质 | |
CN114595327A (zh) | 数据增强方法和装置、电子设备、存储介质 | |
CN108319581A (zh) | 一种自然语言语句评价方法及装置 | |
CN111143531A (zh) | 一种问答对构建方法、系统、装置及计算机可读存储介质 | |
CN115526171A (zh) | 一种意图识别方法、装置、设备及计算机可读存储介质 | |
CN112069818A (zh) | 三元组预测模型生成方法、关系三元组提取方法和装置 | |
CN115438655A (zh) | 人物性别识别方法、装置、电子设备及存储介质 | |
CN114821613A (zh) | 一种pdf中表格信息的抽取方法和系统 | |
CN110750626B (zh) | 一种基于场景的任务驱动的多轮对话方法及系统 | |
CN113934834A (zh) | 一种问句匹配的方法、装置、设备和存储介质 | |
CN113192534A (zh) | 地址搜索方法、装置、电子设备及存储介质 | |
CN111782789A (zh) | 智能问答方法与系统 | |
CN114398492B (zh) | 一种在数字领域的知识图谱构建方法、终端及介质 | |
CN115796141A (zh) | 文本数据增强方法和装置、电子设备、存储介质 | |
CN111310457B (zh) | 词语搭配不当识别方法、装置、电子设备和存储介质 | |
CN115017886A (zh) | 文本匹配方法、文本匹配装置、电子设备及存储介质 | |
CN114154497A (zh) | 语病识别方法、装置、电子设备和存储介质 | |
CN114038451A (zh) | 对话数据的质检方法、装置、计算机设备及存储介质 | |
CN116186529A (zh) | 语义理解模型的训练方法及装置 | |
CN111428005A (zh) | 标准问答对确定方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |