CN112446210A - 用户性别预测方法、装置及电子设备 - Google Patents

用户性别预测方法、装置及电子设备 Download PDF

Info

Publication number
CN112446210A
CN112446210A CN202011368188.7A CN202011368188A CN112446210A CN 112446210 A CN112446210 A CN 112446210A CN 202011368188 A CN202011368188 A CN 202011368188A CN 112446210 A CN112446210 A CN 112446210A
Authority
CN
China
Prior art keywords
gender
information
keywords
user
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011368188.7A
Other languages
English (en)
Other versions
CN112446210B (zh
Inventor
刘舟
徐键滨
吴梓辉
徐雅
王理平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Sanqi Mutual Entertainment Technology Co ltd
Original Assignee
Guangzhou Sanqi Mutual Entertainment Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Sanqi Mutual Entertainment Technology Co ltd filed Critical Guangzhou Sanqi Mutual Entertainment Technology Co ltd
Priority to CN202011368188.7A priority Critical patent/CN112446210B/zh
Publication of CN112446210A publication Critical patent/CN112446210A/zh
Application granted granted Critical
Publication of CN112446210B publication Critical patent/CN112446210B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种用户性别预测方法、装置及电子设备,所述方法包括:从至少一个用户终端上获取用户在各目标应用程序中的历史文本信息,其中,各所述目标应用程序为采用同一账号进行登录的应用程序,各所述目标应用程序在所述服务器中存在唯一标识;对各所述历史文本信息进行分词处理,获取分词集,并从所述分词集中提取多个关键词;将所述多个关键词输入分类模型,以基于所述分类模型输出所述用户的性别信息。

Description

用户性别预测方法、装置及电子设备
技术领域
本申请涉及计算机技术领域,特别涉及一种用户性别预测方法、装置及电子设备。
背景技术
不同性别的用户在进行不同行为时会有不同的倾向性,因此确定用户性别在游戏领域中具有广泛的研究前景和实用价值。常见的用户性别确定方式,是通过用户在注册游戏账户时收集用户填写的性别信息来确定用户的性别。但在注册游戏账户时,由于个人属性数据涉及隐私问题,用户经常不进行填写或者填写虚假的性别信息,导致与用户性别相关的推送无法与用户的需求实现匹配,并且难以结合用户性别信息进行研究。
为此,现有技术通过将用户在当前游戏中发出的文本内容进行文本特征提取后代入分类模型,实现对应文本的用户性别的判断,这种方式文本内容来源单一,容易受到用户所在语境导致说话方式改变的影响,进而影响预测准确性。
发明内容
本申请的目的在于至少解决现有技术中存在的技术问题之一,提供一种用户性别预测方法、装置以及电子设备,提高用户性别预测的准确性。
本申请实施例提供一种用户性别预测方法,应用于服务器,包括:
从至少一个用户终端上获取用户在各目标应用程序中的历史文本信息,其中,各所述目标应用程序为采用同一账号进行登录的应用程序,各所述目标应用程序在所述服务器中存在唯一标识;
对各所述历史文本信息进行分词处理,获取分词集,并从所述分词集中提取多个关键词;
将所述多个关键词输入分类模型,以基于所述分类模型输出所述用户的性别信息。
进一步的,从所述分词集中提取多个关键词,包括:
根据预设词频,从所述分词集中提取多个关键词。
进一步的,将所述多个关键词输入分类模型,以基于所述分类模型输出所述用户的性别信息,包括:
将所述多个关键词输入分类模型,获取与所述多个关键词一一对应的多个预测信息后,根据所述多个预测信息中两种预测信息的占比,获取所述用户的性别信息。
进一步的,将所述多个关键词输入分类模型,以基于所述分类模型输出所述用户的性别信息,包括:
将所述多个关键词输入分类模型,获取与各所述关键词对应的性别类,并根据所述关键词在所述性别类下的预设权重,对每个所述性别类下的各所述关键词进行加权,获取各所述性别类的预测值后,根据各所述性别类的预测值,输出所述用户的性别信息。
进一步的,所述预设权重由初始权重进行调整后确定,其中,所述初始权重根据所述关键词在各所述历史文本信息中的使用间隔时长进行调整,当所述关键词在各所述历史文本信息中的使用间隔时长小于等于预设时长时,增加所述初始权重的权重值,当所述关键词在各所述历史文本信息中的使用间隔时长大于预设时长时,减少所述初始权重的权重值。
进一步的,对各所述历史文本信息进行分词处理,获取分词集包括:
根据语料库对所述文本信息进行新词识别,获取N个新词,其中,所述新词由在各历史文本信息中以相邻文字组合出现的频次超过预设频次的至少两个单字组成,N≥0;
根据所述N个新词更新所述语料库;
根据更新后的所述语料库,对所述文本信息进行分词处理,获取多个所述对象分词组成所述分词集。
进一步的,在本申请实施例中,还包括:
根据所述N个新词向管理终端发送配置请求,并在接收到所述管理终端根据所述配置请求发送的配置指令时,为各所述新词绑定对应的第一配置信息,并根据所述第一配置信息更新所述分类模型。
进一步的,在本申请实施例中,还包括:
根据存在所述新词的各历史文本信息对应的所述性别信息的占比,确定所述新词对应的第二配置信息;
根据各所述第二配置信息更新所述分类模型。
进一步的,与所述相邻文字组合相邻的单字的变化频率大于预设频率。
进一步的,本申请实施例中,还提供了一种用户性别预测装置,包括:
文本信息获取模块,用于从至少一个用户终端上获取用户在各目标应用程序中的历史文本信息,其中,各所述目标应用程序为采用同一账号进行登录的应用程序,各所述目标应用程序在所述服务器中存在唯一标识。
关键信息提取模块,用于对个所述历史文本信息进行分词处理,获取分词集,并从所述分词集中提取多个关键词。
性别信息预测模块,用于将所述多个关键词输入分类模型,以基于所述分类模型输出所述用户的性别信息。
进一步的,所述性别信息预测模块具体用于:
将所述多个关键词输入分类模型,获取与所述多个关键词一一对应的多个预测信息后,根据所述多个预测信息中两种预测信息的占比,获取所述用户的性别信息。
进一步的,所述性别信息预测模块具体用于:
将所述多个关键词输入分类模型,获取与各所述关键词对应的性别类,并根据所述关键词在所述性别类下的预设权重,对每个所述性别类下的各所述关键词进行加权,获取各所述性别类的预测值后,根据各所述性别类的预测值,输出所述用户的性别信息。
进一步的,本申请实施例提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例所述的用户性别预测方法。
进一步的,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上述实施例所述的用户性别预测方法。
相比于现有技术,上述实施例通过获取多个目标应用程序中的历史文本信息来进行关键词提取,进而获取用户性别信息,使得对于用户性别判断的来源多样,避免由于历史文本信息单一而导致性别预测可能受到该文本信息中特有的说话方式的影响,有效地提高性别预测的准确性。
上述实施例通过设置预设词频来对提取的关键词进行限制,使得关键词与历史文本信息的关联度更高,提高了利用关键词进行性别预测的准确性。
上述实施例通过得到的多个预测信息中两种性别的分别占比来确定最终预测的性别信息,使得能够在获取关键词对应的预测信息后对用户性别信息进行快速预测。
上述实施例通过对关键词在性别类下设置相应权重进行加权,从而得到各性别类的预测值来作为性别信息,能够有效地依据关键词对应的性别类以及在对应性别类中的影响来提高性别预测的准确性。
上述实施例通过词语在预设时段内的使用间隔时长来调整分词的权重,从而进一步提高预测的准确性。
上述实施例在分词前先通过设定出现频次来进行新词识别,能够快速识别新词并且根据获得的新词来对分类模型进行训练从而更新分类模型,使得在性别预测中考虑新词对预测的影响,提高预测的准确性。
上述实施例通过限定文字组合相邻单字的变化频率来获取新词,提高了获取的新词的准确度。
上述实施例通过获得新词时对管理终端发送配置请求,使得管理终端能够在得到新词时获得相关提示并对新词设置相应的第一配置信息,从而依据得到的第一配置信息对分类模型进行更新训练,从而避免新词的缺失对分类模型预测造成影响,能够提升性别预测的准确度。。
上述实施例依据新词在各历史文本中的性别信息占比来获取第二配置信息,并依据新词及对应第二配置信息对分类模型进行更新训练,提高新词对分类模型的训练效果,提升性别预测的准确性。
附图说明
下面结合附图和实施例对本申请进一步地说明;
图1为一个实施例中用户性别预测方法的应用环境图。
图2为一个实施例中用户性别预测方法的流程示意图。
图3为一个实施例中历史文本信息为私人聊天记录时的实际示意图。
图4为另一个实施例中用户性别预测方法的流程示意图。
图5为又一个实施例中用户性别预测方法的流程示意图。
图6为还有一个实施例中用户性别预测方法的流程示意图。
图7为一个实施例中提供的用户性别预测装置的结构示意图。
图8为一个实施例中计算机设备的结构框图。
具体实施方式
本部分将详细描述本申请的具体实施例,本申请之较佳实施例在附图中示出,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本申请的每个技术特征和整体技术方案,但其不能理解为对本申请保护范围的限制。
现有技术通过将用户在当前游戏中发出的文本内容进行文本特征提取后代入分类模型,实现对应文本的用户性别的判断,这种方式文本内容来源单一,容易受到用户所在语境导致说话方式改变的影响,进而影响预测准确性。
如图1所示,是一个实施例中用户性别预测方法的应用环境图。参照图1,该用户性别预测系统包括用户终端110和服务器120。用户终端110和服务器120通过网络连接。用户终端110具体可以是台式用户终端110或移动用户终端110,移动用户终端110具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器120或者是多个服务器120组成的服务器120集群来实现。其中,服务器120从终端110中获取用户在不同应用程序中输入的文本信息,服务器120对文本信息进行关键词提取,并依据提取的关键词进行用户性别信息的预测。
下面,将通过几个具体的实施例对本申请实施例提供的用户性别预测方法进行详细介绍和说明。
如图2所示,在一个实施例中,提供了一种用户性别预测方法。本实施例主要以该方法应用于计算机设备来举例说明。该计算机设备具体可以是上述图1中的服务器120。
参照图2,该用户性别预测方法具体包括如下步骤:
一种用户性别预测方法,应用于服务器,包括:
S11、从至少一个用户终端上获取用户在各目标应用程序中的历史文本信息,其中,各目标应用程序为采用同一账号进行登录的应用程序,各目标应用程序在服务器中存在唯一标识。
在本实施例中,所述历史文本信息为短文本,可以为聊天室消息、短信息、电子邮件或者即时通信等文本信息。
在本实施例中,用户在不同目标应用中通过不同方式进行文字输入后保存下来的内容为历史文本信息。对于从用户终端上获取历史文本信息的方式不做限定。
在本实施例中,目标应用程序为与服务器建立连接的应用程序,各目标应用程序在服务器中存在的唯一标识,能够对服务器中各目标应用程序进行快速查找。所述唯一标识,可以为各目标应用程序在服务器中的存储地址,也可以为各目标在服务器中的其他唯一标识方式。
在本实施例中,服务器可以连接多个用户终端,如用户终端1、2、3,而每个用户终端中均装有多个目标应用程序,例如用户终端1中安装有目标应用程序《云上城之歌》、《混沌起源》、《斗罗大陆》、《永恒纪元》,用户终端2中安装有目标应用程序《云上城之歌》、《混沌起源》、《斗罗大陆》、《永恒纪元》、《大天使之剑》,用户终端3中安装有目标应用程序《云上城之歌》、《混沌起源》、《斗罗大陆》、《大天使之剑》。通过对目标应用程序设置唯一标识,能够使得服务器直接根据唯一标识从对应的目标程序中直接获取文本信息,从而省略识别对应用户终端的过程,使得文本信息的获取效率大大提高,进而提高了用户性别预测的实时性。
同时,在本实施例中,为了保证获取到的各目标应用程序中的历史文本信息均属于同一用户,所以各目标应用程序为采用同一账号进行登录的应用程序。该账号可以为用户自定义的账号、其他外部应用程序的关联账号如微博账号等或手机号码。
在本实施例中,通过提取多个目标应用程序中的历史文本信息,使得文本内容来源多样化,能够避免受到单一目标应用程序中由于用户所在特定语境导致说话方式改变的影响,提高了性别预测的准确性。
S12、对各历史文本信息进行分词处理,获取分词集,并从分词集中提取多个关键词。
在本实施例中,历史文本信息可以为在应用程序的公频或其他频道发出的信息,也可以为私人对话窗口中的聊天记录,等等。其中私人对话窗口中的聊天记录的历史文本信息如图3所示,为“你的名字有我帅吗”。对于历史文本信息的形式不做具体的限定。
在一个实施例中,对于历史文本信息的分词集的获取,可以通过采用TextRank算法将历史文本信息按照完整句子进行分割。对于每个句子进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词和形容词。此时根据保留的单词构建候选词图G=(V,E),其中V为节点集,由分词组成,然后采用共现关系(Co-Occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词。得到的单词即为历史文本信息进行分词处理后得到的分词,得到的分词构成分词集。此时根据TextRank的公式,迭代传播各节点的权重,直至收敛,对节点权重进行倒序排序,得到最重要的T个单词,作为分词集提取得到的关键词。
在一个实施例中,对各历史文本信息进行分词处理来获取分词集,可以采用基于语料库的分词方法,具体通过构建一个语料库,该语料库中有若干分组词条。例如语料库中有分组词条“化妆”、“跑步”、“打球”等等。该语料库中的分组词条可以通过保存网络上已有的词条或者通过人工来进行设定。通过将各历史文本与语料库中的各分组词条进行匹配处理,将历史文本信息在语料库中有对应分组词条的词语截取出来,截取得到的词语即为分词,全部分词组成的一个集合即为分词集。
在一个实施例中,可以通过对语料库中的各分组词条预先设置相应的提取权重,例如分组词条“化妆”的提取权重为5,“跑步”的提取权重为2,“打球”的提取权重为4,等等。上述分组词条对应的提取权重可通过人工依据各分组词条对于用户性别预测起到的影响大小来进行设置,例如分组词条“化妆”会被认为是女生才会使用的词语,因此会被认为对于用户性别预测起到的影响较大,所以设置的提取权重较大,分组词条“跑步”会被认为难以判断是用户是男是女,因此会被认为对于用户性别预测起到的影响较为一般,所以设置的提取权重较小,分组词条“打球”会被认为大概率是男生会使用的词语,因此会被认为对于用户性别预测起到的影响较大,但相较于分组词条“化妆”而言影响较小一点,所以设置的提取权重较大,但相较于分组词条“化妆”的提取权重而言小一点。需要说明的是,上述设置方式只是本实施例中的一个举例,具体词语的权重设置方式和分组方式可根据业务需求或其他需求进行调整,在此不做具体限定。在语料库中各分组词条均有相应的提取权重时,将各历史文本信息依据语料库进行分词处理得到的分词集,将其中各个分词分别依据其对应分组词条的提取权重来进行排序,提取其中提取权重最大的若干个分词作为关键词。关键词的数量可依据需求进行相应调整,在此不做具体的限定。
在一个实施例中,从分词集中提取多个关键词,包括:
根据预设词频,从分词集中提取多个关键词。
在本实施例中,通过设置预设词频来从分词集中确定关键词,即通过统计分词集中各个分词在各历史文本中的出现次数,并对出现次数进行排序,提取其中出现次数最多的若干个分词作为关键词,从而能够进一步保证选取的关键词与各历史文本信息具有较高的关联性,从而令选取的关键词更能代表各历史文本信息对于用户性别预测的影响,提高了预测的准确性。
S13、将多个关键词输入分类模型,以基于分类模型输出用户的性别信息。
在一个实施例中,对于将多个关键词输入分类模型,以基于分类模型输出用户的性别信息,该分类模型可以采用基于长短期记忆神经网络(Long-Short Term Memory,LSTM)。具体通过将关键词的词向量输入到预先训练好的LSTM中,利用LSTM的时序记忆功能对词向量的特征进行排序,得到隐藏层当前的隐状态H。标准的LSTM无法检测各个词向量的重要程度,所以需要通过加入attention机制来捕捉关键部分。LSTM是循环神经网络的一种,是一种具有链状结构的特殊的循环神经网络,和普通的循环神经网络相比,LSTM的重复循环模块具有不同的结构,主要有四层神经网络组成,网络层之间的交互是复杂的。LSTM网络的核心是由各个传输单元的状态决定。LSTM的另一个优势就是可以对单元状态中信息的传输进行控制,并通过门限结构管理信息,门限的作用就是对信息进行选择,使其有选择性地通过。阈值的组成主要有sigmoid神经网络层和逐点乘法组成。输出表示信息传递的选择程度,0表示不允许任何信息通过,1表示都可以通过。LSTM一共有三个门限,分别为:输入门、遗忘门和输出门。通过这三种门限结构对单元状态进行控制和保护。LSTM输出的隐层表示与aspect向量拼接后作为输入,经过一层神经网络得到的新的隐层表示,给当前的隐状态添加注意力机制,通过自动加权的方式决定需要关注的部分,分别得到各个词向量的概率分布。最终的词向量经过softmax函数判断用户性别的概率,得到用户的性别信息。
在一个实施例中,对于将多个关键词输入到分类模型中,获取用户的性别信息,可以通过将关键词对应的词向量输入到text CNN模型中得到。具体通过使用text CNN模型提取不同关键词的ngram特征,进而将上述特征通过连接softmax层预测该词向量属于哪个性别的概率。
在本实施例中,采用分类模型获取词语的相关特性的概率可采用现有技术中常用的更新训练方式,在此不做具体限定。
在本实施例中,可以通过统计分类模型输出的多个关键词及对应的性别概率,选取其中最大的概率,该概率对应的性别即为分类模型输出的用户信息。例如,关键词“化妆”的女性概率为95%,关键词“跑步”的男性概率为55%,关键词“打球”的男性概率为90%,此时得到的最大概率为95%,该概率对应的性别为女性,因此输出的用户性别信息为女性。
在上述实施例中,通过获取多个目标应用程序中的历史文本信息来进行关键词提取,进而获取用户性别信息,使得对于用户性别判断的来源多样,避免由于历史文本信息单一而导致性别预测可能受到该文本信息中特有的说话方式的影响,有效地提高性别预测的准确性。
如图4所示,在另一个实施例中,提供了一种用户性别预测方法。本实施例主要以该方法应用于计算机设备来举例说明。该计算机设备具体可以是上述图1中的服务器120。
参照图4,该用户性别预测方法具体包括如下步骤:
S21、从至少一个用户终端上获取用户在各目标应用程序中的历史文本信息,其中,各目标应用程序为采用同一账号进行登录的应用程序,各目标应用程序在服务器中存在唯一标识。
此步骤与上述实施例相同,具体解析可以参照上述实施例,为了避免重复,在此不再赘述。
S22、对各历史文本信息进行分词处理,获取分词集,并从分词集中提取多个关键词。
此步骤与上述实施例相同,具体解析可以参照上述实施例,为了避免重复,在此不再赘述。
S23、将多个关键词输入分类模型,获取与多个关键词一一对应的多个预测信息后,根据多个预测信息中两种预测信息的占比,获取用户的性别信息。
在本实施例中,多个关键词输出相应的用户性别的概率,例如关键词“化妆”的女性概率为95%,关键词“跑步”的男性概率为55%,关键词“打球”的男性概率为90%,此时将关键词较大概率对应的性别作为该关键词的对应性别,依据多个关键词中占比更多的性别作为预测的用户性别信息。例如上述三个关键词中女性性别的关键词为1个,男性性别的关键词为2个,男性性别的关键词占比较大,因此预测的用户性别信息为男性。
在本实施例中,通过得到的多个预测信息中两种性别的分别占比来确定最终预测的性别信息,使得能够在获取关键词对应的预测信息后对用户性别信息进行快速预测。
如图5所示,在又一个实施例中,提供了一种用户性别预测方法。本实施例主要以该方法应用于计算机设备来举例说明。该计算机设备具体可以是上述图1中的服务器120。
参照图5,该用户性别预测方法具体包括如下步骤:
S31、从至少一个用户终端上获取用户在各目标应用程序中的历史文本信息,其中,各目标应用程序为采用同一账号进行登录的应用程序,各目标应用程序在服务器中存在唯一标识。
此步骤与上述实施例相同,具体解析可以参照上述实施例,为了避免重复,在此不再赘述。
S32、对各历史文本信息进行分词处理,获取分词集,并从分词集中提取多个关键词。
此步骤与上述实施例相同,具体解析可以参照上述实施例,为了避免重复,在此不再赘述。
S33、将多个关键词输入分类模型,获取与各关键词对应的性别类,并根据关键词在性别类下的预设权重,对每个性别类下的各关键词进行加权,获取各性别类的预测值后,根据各性别类的预测值,输出用户的性别信息。
在一个实施例中,将多个关键词输入到分类模型中,输出多个关键词相应的用户性别的概率之后,先将多个关键词对应的性别类进行划分,其中,性别类分为男性和女性两类,例如,关键词“化妆”的女性概率为95%,对应的性别类为女性,关键词“跑步”的男性概率为55%,对应的性别类为男性,关键词“打球”的男性概率为90%,对应的性别类为男性。
获取各关键词对应的性别类之后,再在女性和男性两个性别类中,针对各个性别类中的关键词对于确定用户为该性别类的性别的重要性,来给多个关键词设置预设权重,这里的预设权重相区别于上述的提取权重,用于对关键词进行加权计算,得到最终的用户性别信息。例如关键词“化妆”的女性概率为95%,预设权重为9,关键词“跑步”的男性概率为55%,预设权重为2,关键词“打球”的男性概率为90%,预设权重为7,此时得到的用户信息为女性的数值为10.15,用户信息为男性的数值为7.85,因此输出的用户性别信息为女性。其中,预设权重可以通过人工进行设定。
在本实施例中,通过对关键词在性别类下设置相应权重进行加权,从而得到各性别类的预测值来作为性别信息,能够有效地依据关键词对应的性别类以及在对应性别类中的影响来提高性别预测的准确性。
在一个实施例中,预设权重由初始权重进行调整后确定,其中,初始权重根据关键词在各历史文本信息中的使用间隔时长进行调整,当关键词在各历史文本信息中的使用间隔时长小于等于预设时长时,增加初始权重的权重值,当关键词在各历史文本信息中的使用间隔时长大于预设时长时,减少初始权重的权重值。
在本实施例中,对于预设权重设置了调整方式,依据各关键词在各历史文本信息中的使用间隔时长来调整。由于预设权重是针对各个性别类中的关键词对于确定用户为该性别类的性别的重要性,因此关键词在各历史文本信息中使用的时间间隔越长,关键词对于确定用户为该性别类的性别的重要程度就会降低,因此相应地,预设权重也应当减少。相反,关键词在各历史文本信息中使用的时间间隔越短,关键词对于确定用户为该性别类的性别的重要程度就会增大,相应地预设权重也应当增加。其中,初始权重是预设权重调整过程中的标识方式,当初始权重调整完并用于进行加权计算时,即为预设权重。例如,对于关键词“化妆”,初始权重为9,如果该关键词在当前时间段内各历史文本信息中使用的时间间隔由10min增加到15min,此时将其初始权重调整为6,如果该关键词在之后时间里的各历史文本信息中使用的时间间隔由15min减少到5min,此时将其初始权重调整为12,并且此时需要进行用户性别预测的话,预设权重为12,并以此进行加权计算来获取用户性别信息。
在本实施例中,通过词语在预设时段内的使用间隔时长来调整分词的权重,从而进一步提高预测的准确性。
如图6所示,在还有一个实施例中,提供了一种用户性别预测方法。本实施例主要以该方法应用于计算机设备来举例说明。该计算机设备具体可以是上述图1中的服务器120。
参照图6,该用户性别预测方法具体包括如下步骤:
一种用户性别预测方法,应用于服务器,包括:
S41、从至少一个用户终端上获取用户在各目标应用程序中的历史文本信息,其中,各目标应用程序为采用同一账号进行登录的应用程序,各目标应用程序在服务器中存在唯一标识。
此步骤与上述实施例相同,具体解析可以参照上述实施例,为了避免重复,在此不再赘述。
S42、根据语料库对文本信息进行新词识别,获取N个新词,其中,新词由在各历史文本信息中以相邻文字组合出现的频次超过预设频次的至少两个单字组成,N≥0。
在本实施例中,为了避免忽视语料库中没有分组词条的词语对于用户性别预测的影响,因此在进行分词处理获取分词集之前,对各历史文本信息进行识别,获取新词。其中,新词为语料库中没有对应分组词条的词语。例如,语料库中仅具有“化妆”和“跑步”这两分组词条,词语“卸妆”为语料库中没有对应分组词条的词语,那么词语“卸妆”即为新词。
在本实施例中,对各历史文本信息进行新词识别来获取新词的方式,与通过比对语料库中的预设词条来获取分词的方式不同,新词获取具体通过检测字组合的频率,即检测相邻的至少包括两个单字的文字组合的出现频率,如“粉”、“底”、“液”,当这三个单字的文字组合出现超过预设频次的频次后,将“粉底液”这文字组合作为新词。其中,预设频次为人为设定的针对文字组合出现的次数。
在一个实施例中,与相邻文字组合相邻的单字的变化频率大于预设频率,如“南京市长江大桥”中分词“市长”这文字组合前后单字“京”和“江”的变化频率需要大于大为设定的预设频率,否则可能将“南京市长江大桥”分词为“南京市”和“长江大桥”两个文字组合,即不存在“市长”这个分词。通过限定文字组合相邻单字的变化频率来获取新词,提高了获取的新词的准确度。
S43、根据N个新词更新语料库。
在本实施例中,获取新词后,将新词作为新的预设词条保存到语料库中,对语料库进行更新。
在一个实施例中,用户性别预测方法,还包括:
根据N个新词向管理终端发送配置请求,并在接收到管理终端根据配置请求发送的配置指令时,为各新词绑定对应的第一配置信息,并根据第一配置信息更新分类模型。
在本实施例中,配置请求为需要输入新词到分类模型中来对分类模型进行更新训练的通知信息,管理终端接收到该通知信息后依据该通知信息发送配置指令,配置指令是指输入新词及新词对应的配置信息到分类模型中,即能够通过输入新词及新词对应的第一配置信息对分类模型进行更新训练,避免分类模型无法识别新词并且无法对新词进行分类,第一配置信息为新词对应的性别信息,第一配置信息可以通过人工进行设定。其中,对分类模型进行更新训练的方式可采用现有技术中常用的更新训练方式,在此不做具体限定。
在本实施例中,通过获得新词时对管理终端发送配置请求,使得管理终端能够在得到新词时获得相关提示并对新词设置相应的第一配置信息,避免无法及时对分类模型进行更新,使得无法将新词应用到用户性别预测中。
在一个实施例中,在本申请实施例中,还包括:
根据存在新词的各历史文本信息对应的性别信息的占比,确定新词对应的第二配置信息;
根据各第二配置信息更新分类模型。
在本实施例中,得到新词后,可以通过获取存在新词的各历史文本信息的性别信息的占比,以根据各历史文本信息的性别信息的占比,确定新词的第二配置信息,其中,第二配置信息为新词所对应的性别信息,并将新词存储到语料库中。例如,新词“粉底液”,统计其在10个文本信息中对应的性别信息为“女性”或是“男性”的次数,其中,性别信息为“女性”的文本数量为9个,性别信息为“男性”的文本数量为1个,因此以占比十分之九的性别信息“女性”作为“粉底液”的第二配置信息,即性别信息。确定性别信息后将该新词及对应的第二配置信息输入到分类模型中,对分类模型进行更新训练。其中,对分类模型进行更新训练的方式可采用现有技术中常用的更新训练方式,在此不做具体限定。
在本实施例中,通过新词所在各历史文本信息的性别信息的占比来确定新词的第二配置信息,即性别信息,能够更快且更准确地确认新词的性别信息,而且得到的对应性别信息的准确度也得到了提高。
提取权重提取权重提取权重提取权重提取权重提取权重
S44、根据更新后的语料库,对文本信息进行分词处理,获取多个对象分词组成分词集,并从分词集中提取多个关键词。
在本实施例中,将各历史文本信息与更新后的语料库中的分组词条进行匹配,将历史文本信息在语料库中有对应分组词条的词语截取出来,截取得到的词语即为分词,全部分词组成的一个集合即为分词集。
在本实施例中,可以通过对语料库中的各分组词条设置相应的提取权重。其中,语料库中根据新词设置的新的分组词条对应的提取权重可以通过人工来进行设置。例如,新的分组词条“粉底液”的提取权重可以人工设置为5。
在语料库中各分组词条均有相应的提取权重时,将各历史文本信息依据语料库进行分词处理得到的分词集,将其中各个分词分别依据其对应分组词条的提取权重来进行排序,提取其中提取权重最大的若干个分词作为关键词。关键词的数量依据需求相应变化,在此不做具体的限定。
S45、将多个关键词输入分类模型,以基于分类模型输出用户的性别信息。
此步骤与上述实施例相同,具体解析可以参照上述实施例,为了避免重复,在此不再赘述。
在本实施例中,通过设定出现频次来进行新词识别,能够快速识别新词并且在性别预测中考虑新词对预测的影响,提高预测的准确性。
在一个实施例中,如图7所示,提供了一种用户性别预测装置,包括:
文本信息获取模块101,用于从至少一个用户终端上获取用户在各目标应用程序中的历史文本信息,其中,各目标应用程序为采用同一账号进行登录的应用程序,各目标应用程序在服务器中存在唯一标识。
关键信息提取模块102,用于对各历史文本信息进行分词处理,获取分词集,并从分词集中提取多个关键词。
性别信息预测模块103,用于将多个关键词输入分类模型,以基于分类模型输出用户的性别信息。
在一个实施例中,关键信息提取模块102,还用于:
根据预设词频,从分词集中提取多个关键词。
在一个实施例中,关键信息提取模块102,还用于:
根据语料库对文本信息进行新词识别,获取N个新词,其中,新词由在各历史文本信息中以相邻文字组合出现的频次超过预设频次的至少两个单字组成,N≥0,与相邻文字组合相邻的单字的变化频率大于预设频率;根据N个新词更新语料库;根据更新后的语料库,对文本信息进行分词处理,获取多个对象分词组成分词集。
在一个实施例中,关键信息提取模块102,还用于:
根据N个新词向管理终端发送配置请求,并在接收到管理终端根据配置请求发送的配置指令时,为各新词绑定对应的第一配置信息,并根据第一配置信息更新分类模型。
在一个实施例中,关键信息提取模块102,还用于:
根据存在新词的各历史文本信息对应的性别信息的占比,确定新词对应的第二配置信息;根据各第二配置信息更新分类模型。
在一个实施例中,性别信息预测模块103,还用于:
将多个关键词输入分类模型,获取与多个关键词一一对应的多个预测信息后,根据多个预测信息中两种预测信息的占比,获取用户的性别信息。
在一个实施例中,性别信息预测模块103,还用于:
将多个关键词输入分类模型,获取与各关键词对应的性别类,并根据关键词在性别类下的预设权重,对每个性别类下的各关键词进行加权,获取各性别类的预测值后,根据各性别类的预测值,输出用户的性别信息。其中,预设权重由初始权重进行调整后确定,其中,初始权重根据关键词在各历史文本信息中的使用间隔时长进行调整,当关键词在各历史文本信息中的使用间隔时长小于等于预设时长时,增加初始权重的权重值,当关键词在各历史文本信息中的使用间隔时长大于预设时长时,减少初始权重的权重值。
在一个实施例中,提供了一种计算机设备,如图8所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现用户性别预测方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行用户性别预测方法。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的用户性别预测装置可以实现为一种计算机程序的形式,计算机程序可在如图8所示的计算机设备上运行。计算机设备的存储器中可存储组成该用户性别预测装置的各个程序模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的用户性别预测方法中的步骤。
在一个实施例中,提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时执行上述用户性别预测方法的步骤。此处用户性别预测方法的步骤可以是上述各个实施例的用户性别预测方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述用户性别预测方法的步骤。此处用户性别预测方法的步骤可以是上述各个实施例的用户性别预测方法中的步骤。
以上所述是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本申请的保护范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。

Claims (13)

1.一种用户性别预测方法,应用于服务器,其特征在于,包括:
从至少一个用户终端上获取用户在各目标应用程序中的历史文本信息,其中,各所述目标应用程序为采用同一账号进行登录的应用程序,各所述目标应用程序在所述服务器中存在唯一标识;
对各所述历史文本信息进行分词处理,获取分词集,并从所述分词集中提取多个关键词;
将所述多个关键词输入分类模型,以基于所述分类模型输出所述用户的性别信息。
2.根据权利要求1所述的用户性别预测方法,其特征在于,所述从所述分词集中提取多个关键词,包括:
根据预设词频,从所述分词集中提取多个关键词。
3.根据权利要求1或2所述的用户性别预测方法,其特征在于,所述将所述多个关键词输入分类模型,以基于所述分类模型输出所述用户的性别信息,包括:
将所述多个关键词输入分类模型,获取与所述多个关键词一一对应的多个预测信息后,根据所述多个预测信息中两种预测信息的占比,获取所述用户的性别信息。
4.根据权利要求1或2所述的用户性别预测方法,其特征在于,所述将所述多个关键词输入分类模型,以基于所述分类模型输出所述用户的性别信息,包括:
将所述多个关键词输入分类模型,获取与各所述关键词对应的性别类,并根据所述关键词在所述性别类下的预设权重,对每个所述性别类下的各所述关键词进行加权,获取各所述性别类的预测值后,根据各所述性别类的预测值,输出所述用户的性别信息。
5.根据权利要求4所述的用户性别预测方法,其特征在于,所述预设权重由初始权重进行调整后确定,其中,所述初始权重根据所述关键词在各所述历史文本信息中的使用间隔时长进行调整,当所述关键词在各所述历史文本信息中的使用间隔时长小于等于预设时长时,增加所述初始权重的权重值,当所述关键词在各所述历史文本信息中的使用间隔时长大于预设时长时,减少所述初始权重的权重值。
6.根据权利要求1所述的用户性别预测方法,其特征在于,对各所述历史文本信息进行分词处理,获取分词集包括:
根据语料库对所述文本信息进行新词识别,获取N个新词,其中,所述新词由在各历史文本信息中以相邻文字组合出现的频次超过预设频次的至少两个单字组成,N≥0;
根据所述N个新词更新所述语料库;
根据更新后的所述语料库,对所述文本信息进行分词处理,获取多个所述对象分词组成所述分词集。
7.根据权利要求6所述的用户性别预测方法,其特征在于,还包括:
根据所述N个新词向管理终端发送配置请求,并在接收到所述管理终端根据所述配置请求发送的配置指令时,为各所述新词绑定对应的第一配置信息,并根据所述第一配置信息更新所述分类模型。
8.根据权利要求6所述的用户性别预测方法,其特征在于,还包括:
根据存在所述新词的各历史文本信息对应的所述性别信息的占比,确定所述新词对应的第二配置信息;
根据各所述第二配置信息更新所述分类模型。
9.根据权利要求6所述的用户性别预测方法,其特征在于,与所述相邻文字组合相邻的单字的变化频率大于预设频率。
10.一种用户性别预测装置,其特征在于,包括:
文本信息获取模块,用于从至少一个用户终端上获取用户在各目标应用程序中的历史文本信息,其中,各所述目标应用程序为采用同一账号进行登录的应用程序,各所述目标应用程序在所述服务器中存在唯一标识;
关键信息提取模块,用于对个所述历史文本信息进行分词处理,获取分词集,并从所述分词集中提取多个关键词;
性别信息预测模块,用于将所述多个关键词输入分类模型,以基于所述分类模型输出所述用户的性别信息。
11.根据权利要求10所述的用户性别预测装置,其特征在于,所述性别信息预测模块具体用于:
将所述多个关键词输入分类模型,获取与所述多个关键词一一对应的多个预测信息后,根据所述多个预测信息中两种预测信息的占比,获取所述用户的性别信息。
12.根据权利要求10所述的用户性别预测装置,其特征在于,所述性别信息预测模块具体用于:
将所述多个关键词输入分类模型,获取与各所述关键词对应的性别类,并根据所述关键词在所述性别类下的预设权重,对每个所述性别类下的各所述关键词进行加权,获取各所述性别类的预测值后,根据各所述性别类的预测值,输出所述用户的性别信息。
13.一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至9中任一项所述的用户性别预测方法。
CN202011368188.7A 2020-11-27 2020-11-27 用户性别预测方法、装置及电子设备 Active CN112446210B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011368188.7A CN112446210B (zh) 2020-11-27 2020-11-27 用户性别预测方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011368188.7A CN112446210B (zh) 2020-11-27 2020-11-27 用户性别预测方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112446210A true CN112446210A (zh) 2021-03-05
CN112446210B CN112446210B (zh) 2024-01-09

Family

ID=74738134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011368188.7A Active CN112446210B (zh) 2020-11-27 2020-11-27 用户性别预测方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112446210B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113426135A (zh) * 2021-05-31 2021-09-24 广州三七极耀网络科技有限公司 游戏中的用户信息处理方法、装置及电子设备
CN113426134A (zh) * 2021-05-28 2021-09-24 广州三七极创网络科技有限公司 游戏中发布信息的监控方法、装置及电子设备
CN113486946A (zh) * 2021-07-01 2021-10-08 有米科技股份有限公司 基于图像数据的服装商品性别分类方法及装置
CN113762589A (zh) * 2021-07-16 2021-12-07 国家电网有限公司 一种输变电工程变更预测系统及方法
CN113850291A (zh) * 2021-08-18 2021-12-28 北京百度网讯科技有限公司 文本处理及模型训练方法、装置、设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955771A (zh) * 2011-08-18 2013-03-06 华东师范大学 中文单字串模式和词缀模式的新词自动识别技术及系统
CN105138510A (zh) * 2015-08-10 2015-12-09 昆明理工大学 一种基于微博的新词情感倾向判定方法
CN107832304A (zh) * 2017-11-23 2018-03-23 珠海金山网络游戏科技有限公司 一种基于消息文本判断用户性别的方法和系统
CN108427668A (zh) * 2018-01-23 2018-08-21 山东汇贸电子口岸有限公司 一种中文语义库新词的生成方法
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955771A (zh) * 2011-08-18 2013-03-06 华东师范大学 中文单字串模式和词缀模式的新词自动识别技术及系统
CN105138510A (zh) * 2015-08-10 2015-12-09 昆明理工大学 一种基于微博的新词情感倾向判定方法
CN107832304A (zh) * 2017-11-23 2018-03-23 珠海金山网络游戏科技有限公司 一种基于消息文本判断用户性别的方法和系统
CN108427668A (zh) * 2018-01-23 2018-08-21 山东汇贸电子口岸有限公司 一种中文语义库新词的生成方法
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113426134A (zh) * 2021-05-28 2021-09-24 广州三七极创网络科技有限公司 游戏中发布信息的监控方法、装置及电子设备
CN113426135A (zh) * 2021-05-31 2021-09-24 广州三七极耀网络科技有限公司 游戏中的用户信息处理方法、装置及电子设备
CN113486946A (zh) * 2021-07-01 2021-10-08 有米科技股份有限公司 基于图像数据的服装商品性别分类方法及装置
CN113762589A (zh) * 2021-07-16 2021-12-07 国家电网有限公司 一种输变电工程变更预测系统及方法
CN113850291A (zh) * 2021-08-18 2021-12-28 北京百度网讯科技有限公司 文本处理及模型训练方法、装置、设备和存储介质
CN113850291B (zh) * 2021-08-18 2023-11-24 北京百度网讯科技有限公司 文本处理及模型训练方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN112446210B (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
US11227118B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
US20220188521A1 (en) Artificial intelligence-based named entity recognition method and apparatus, and electronic device
CN112446210A (zh) 用户性别预测方法、装置及电子设备
WO2020147428A1 (zh) 交互内容生成方法、装置、计算机设备及存储介质
KR102288249B1 (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
US11176453B2 (en) System and method for detangling of interleaved conversations in communication platforms
CN107229645B (zh) 信息处理方法、服务平台及客户端
CN111324713B (zh) 对话自动回复方法、装置、存储介质和计算机设备
CN109284502B (zh) 一种文本相似度计算方法、装置、电子设备及存储介质
CN110909531B (zh) 信息安全的甄别方法、装置、设备及存储介质
CN109299228A (zh) 计算机执行的文本风险预测方法及装置
CN108287875B (zh) 人物共现关系确定方法、专家推荐方法、装置及设备
CN113095080B (zh) 基于主题的语义识别方法、装置、电子设备和存储介质
CN109710732B (zh) 信息查询方法、装置、存储介质和电子设备
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN113204953A (zh) 基于语义识别的文本匹配方法、设备及设备可读存储介质
CN110705282A (zh) 关键词提取方法、装置、存储介质及电子设备
CN110162535B (zh) 用于执行个性化的搜索方法、装置、设备以及存储介质
CN113360617B (zh) 异常识别方法、装置、设备和存储介质
CN113095073B (zh) 语料标签生成方法、装置、计算机设备和存储介质
CN114547257A (zh) 类案匹配方法、装置、计算机设备及存储介质
CN114691828A (zh) 数据处理方法、装置、设备以及介质
Huang et al. KIEM: a knowledge graph based method to identify entity morphs
CN111625636A (zh) 一种人机对话的拒绝识别方法、装置、设备、介质
US11966709B2 (en) Apparatus and methods to contextually decipher and analyze hidden meaning in communications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant