CN115409104A - 用于识别对象类型的方法、装置、设备、介质和程序产品 - Google Patents
用于识别对象类型的方法、装置、设备、介质和程序产品 Download PDFInfo
- Publication number
- CN115409104A CN115409104A CN202211027893.XA CN202211027893A CN115409104A CN 115409104 A CN115409104 A CN 115409104A CN 202211027893 A CN202211027893 A CN 202211027893A CN 115409104 A CN115409104 A CN 115409104A
- Authority
- CN
- China
- Prior art keywords
- information
- data
- probability value
- identified
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开实施例公开了一种用于识别对象类型的方法、装置、电子设备、存储介质和计算机程序产品,其中,方法包括:获取待识别对象的信息,并从信息中提取特征数据;基于特征数据,分别利用第一预测模型和第二预测模型预测出待识别对象为预设类型的第一概率值和第二概率值;基于第一概率值和第二概率值,确定第三概率值;响应于确定第三概率值大于预设阈值,确定待识别对象为预设类型。可以自动识别对象的类型,有助于提高识别效率,降低成本。并且,通过结合两个模型的预测结果确定最终的识别结果,可以提高识别的准确度。
Description
技术领域
本公开涉及一种用于识别对象类型的方法、装置、电子设备、存储介质和计算机程序产品。
背景技术
实践中,虚假消息或数据会对人们的生活和工作带来产生不利影响,甚至还会导致巨大损失。以房地产领域为例,假房源(例如可以是价格虚假、出售状态不真实或虚构房源等)可以产生诸多不良影响,例如,影响服务商的信用和品牌价值、为相关工作人员带来额外的工作困扰、甚至会导致交易双方的经济损失等。
发明内容
本公开实施例提供一种用于识别对象类型的方法、装置、电子设备、存储介质和计算机程序产品,以自动识别对象的类型,并提高识别的准确度。
本公开实施例的一个方面,提供一种用于识别对象类型的方法,包括:获取待识别对象的信息,并从信息中提取特征数据;基于特征数据,分别利用第一预测模型和第二预测模型预测出待识别对象为预设类型的第一概率值和第二概率值;基于第一概率值和第二概率值,确定第三概率值;响应于确定第三概率值大于预设阈值,确定待识别对象为预设类型。
在一些实施例中,从信息中提取特征数据,包括:从信息中提取初始特征数据,初始特征数据至少包括以下一种类型的数据:数值数据、离散数据、时间数据;对初始特征数据进行预处理,将初始特征数据种的非数值数据转化为数值数据,得到特征数据;其中,预处理包括:针对离散数据,基于预设的编码方式,将离散数据编码为数值数据;和/或,针对时间数据,将时间数据表征的时间与预设时间的差值确定为时间数据对应的数值数据。
在一些实施例中,对初始特征数据进行预处理之前,方法包括:若初始特征数据中存在缺失值,根据缺失值对应的待识别对象的属性,将缺失值确定为预设的默认值。
在一些实施例中,第一预测模型和第二预测模型通过如下方式得到:获取多个已识别对象的历史信息及其识别结果;基于历史信息的至少一个属性,对多个历史信息进行分层采样,得到多个样本信息及其识别结果;分别从多个样本信息中提取样本特征数据,并基于样本信息的识别结果对样本特征数据进行标记,得到多个训练样本;利用多个训练样本,分别训练预先构建的初始第一预测模型和初始第二预测模型,得到训练后的第一预测模型和第二预测模型。
在一些实施例中,待识别对象包括待识别房源;预设类型表征假房源;信息至少包括以下之一:房源的基础信息、房源的维护信息、房源的业务信息。
在一些实施例中,确定待识别对象为预设类型之后,方法还包括:基于信息,生成待识别房源的验真任务。
本公开实施例的又一个方面,提供一种用于识别对象类型的装置,包括:信息获取单元,被配置成获取待识别对象的信息,并从信息中提取特征数据;概率预测单元,被配置成基于特征数据,分别利用第一预测模型和第二预测模型预测出待识别对象为预设类型的第一概率值和第二概率值;数值处理单元,被配置成基于第一概率值和第二概率值,确定第三概率值;类型确定单元,被配置成响应于确定第三概率值大于预设阈值,确定待识别对象为预设类型。
本公开实施例的又一个方面,提供了一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行存储器中存储的计算机程序,且计算机程序被执行时,实现上述任一实施例中的方法。
本公开实施例的又一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现上述任一实施例中的方法。
本公开实施例的又一个方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,实现上述任一实施例中的方法。
本公开的实施例提供的用于识别对象类型的方法,可以从待识别对象的信息中心提取特征数据,然后分别利用第一预测模型和第二预测模型对特征数据进行处理,预测出待识别对象为预设类型的第一概率值和第二概率;之后,根据第一概率值和第二概率值确定第三概率值,当第三概率值大于预设阈值时,确定待识别对象为预设类型。可以自动识别对象的类型,有助于提高识别效率,降低成本。并且,通过结合两个模型的预测结果确定最终的识别结果,可以提高识别的准确度。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同描述一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1为本公开的用于识别对象类型的方法的一个实施例的流程示意图;
图2为本公开的用于识别对象类型的方法的一个场景示意图;
图3为本公开的用于识别对象类型的方法的一个实施例中提取特征数据的流程示意图;
图4为本公开的用于识别对象类型的方法的一个实施例中训练模型的流程示意图;
图5为本公开的用于识别对象类型的装置的一个实施例的结构示意图;
图6为本公开电子设备一个应用实施例的结构示意图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
本公开概述
在实现本公开的过程中,发明人发现,在一些特定领域中,由于涉及对象的属性较复杂,导致识别对象类型的难度较高,因而通常采用人工识别对象的类型。例如在房地产领域,为了确保房源的真实性,通常是由相关工作人员根据房源的信息识别房源的真伪。
人工识别对象类型的方法至少存在以下缺陷:识别任务的耗时较长且人力成本较高高;识别的规则和方法相对朴素,无法挖掘捕捉海量的高维数据中的关键信息,难以保证识别的准确度。
示例性方法
下面结合图1对本公开的用于识别对象类型的方法进行示例性说明。图1示出了本公开的用于识别对象类型的方法的一个实施例的流程图,如图1所示,该流程包括以下步骤:
步骤110、获取待识别对象的信息,并从信息中提取特征数据。
在本实施例中,待识别对象表示待识别类型的对象,例如可以是待识别真伪的消息或数据。信息的数据形式可以是文本也可以是图片。
特征数据表示待识别对象的信息中包含的、可以表征待识别对象特征的数据,特征例如可以包括待识别对象的自身属性(例如物理属性、名称等)、描述待识别对象的数据(例如价值)、与待识别对象存在关联的行为记录(例如维护记录、交易记录)等。
作为示例,执行主体(例如可以是终端设备,也可以是服务器)可以通过网络等多种方式获取待识别对象的信息,之后,执行主体可以利用关键词检测算法从信息中提取出各种类型的关键数据,得到待识别对象的特征数据。当信息为图像时,执行主体可以首先通过实例分割模型从图像中提取文本,然后再对文本进行关检测检测,从中提取特征数据。
步骤120、基于特征数据,分别利用第一预测模型和第二预测模型预测出待识别对象为预设类型的第一概率值和第二概率值。
在本实施例中,第一预测模型和第二预测模型可以是两个不同的模型,分别对应不同的预测策略。
例如,可以采用随机森林模型和GBDT模型(Gradient Boosting Decision Tree,梯度提升决策树模型)作为第一预测模型和第二预测模型,这两个模型均可以挖掘不同维度的特征之间的线性关系和非线性关系,有助于提高预测结果的准确度。
在一个具体的示例中,执行主体可以首先对特征数据进行归一化处理,将特征数据转化为多维的特征向量,然后将特征向量分别输入GBDT模型和随机森林模型,由GBDT模型和随机森林模型根据各自的预测策略分别对特征向量进行处理,分别输出第一置信度和第二置信度,即得到第一概率值和第二概率值。
步骤130、基于第一概率值和第二概率值,确定第三概率值。
作为示例,执行主体可以将第一概率值和第二概率值的均值作为第三概率值。
再例如,执行主体可以根据预设的权重系数,将第一概率值和第二概率值的加权平均值作为第三概率值,其中,权重系数可以根据第一预测模型和第二预测模型的性能设定,例如准确率越高,权重系数越大。
步骤140、响应于确定第三概率值大于预设阈值,确定待识别对象为预设类型。
本实施例提供的用于识别对象类型的方法,可以从待识别对象的信息中心提取特征数据,然后分别利用第一预测模型和第二预测模型对特征数据进行处理,预测出待识别对象为预设类型的第一概率值和第二概率;之后,根据第一概率值和第二概率值确定第三概率值,当第三概率值大于预设阈值时,确定待识别对象为预设类型。可以自动识别对象的类型,有助于提高识别效率,降低成本。并且,通过结合两个模型的预测结果确定最终的识别结果,可以提高识别的准确度。
在本实施例的一些可选的实施方式中,待识别对象包括待识别房源;预设类型表征假房源;信息至少包括以下之一:房源的基础信息、房源的维护信息、房源的业务信息。
下面结合图2对本实施方式中的用于识别对象类型的方法进行示例性说明,在图2所示的场景中,电子设备200可以是终端设备,也可以是服务器,其上装载有GBDT模型230(即第一预测模型)和随机森林模型240(即第二预测模型)。数据库220可以设置于服务商的数据服务器210,用于分类存储房源信息,例如可以包括待识别的房源的信息和已识别完成的房源信息。电子设备200作为执行主体,可以从数据库220中获取待识别的房源的信息250,然后从中提取出特征数据260,并将特征数据260分别输入GBDT模型230和随机森林模型240,分别得到第一概率值270和第二概率值280。之后,可以将第一概率值270和第二概率值280的均值作为第三概率值290,并通过第三概率值290判断信息250对应的房源是否为假房源。当第三概率值290大于预设阈值时,电子设备200可以将该房源标记为假房源。
作为示例,房源的基础信息可以包括房源价格、开发商品牌、户型信息、位置信息等;房源的维护信息例如可以包括经纪人维护房源信息的记录、经纪人跟进记录等;房源的业务信息例如可以包括商机记录等。
在本实施方式中,可以将房源作为待识别对象,将假房源作为预设类型,基于房源的信息预测房源为假房源的概率值,可以实现假房源的自动识别,与人工圈选假房源的方式相比,效率更高、成本更低且准确度更高。
进一步的,确定待识别对象为预设类型之后,方法还包括:基于信息,生成待识别房源的验真任务。
实践中,为了确保房源的真实性,在识别出假房源之后,还需要由工作人员执行验真任务去验真房源的真实性,例如可以通过拨打电话、实地勘察等方式对房源的信息进行验证。
作为示例,执行主体可以根据房源的信息以及不同类型的信息对应的验证方式生成验真任务,以便于指导工作人员执行验真任务对识别出的假房源进行进一步的验证。
在本实施方式中,执行主体可以基于房源的信息自动生成验真任务,可以提高房源验真流程的自动化程度,有助于提高工作效率。
接着参考图3,图3示出了本公开的用于识别对象类型的方法的一个实施例中提取特征数据的流程图,如图3所示,该流程包括以下步骤:
步骤310、从信息中提取初始特征数据。
其中,初始特征数据至少包括以下一种类型的数据:数值数据、离散数据、时间数据。
在本实施例中,初始特征数据表示从信息中提取出的、未经过处理的原始数据,通常可以包括多种类型的数据。数值数据可以表示数值形式的数据,例如可以包括价格、面积等数据。离散数据可以表示非数值类型的数据,例如可以包括关键词等。时间数据可以表示用于描述时间的数据,例如可以包括数据的生成时间、获取时间、维护时间等。
作为示例,执行主体可以通过特征提取模型从信息中提取各种类型的数据,得到待识别对象的初始特征数据,特征提取模型例如可以是n-gram模型、决策树语言模型等。
步骤320、对初始特征数据进行预处理,将初始特征数据种的非数值数据转化为数值数据,得到特征数据。
其中,步骤320可以进一步包括步骤321和/或步骤322。
步骤321、针对离散数据,基于预设的编码方式,将离散数据编码为数值数据。
作为示例,执行主体可以采用1-of-K算法,将离散数据转化为数值数据。
步骤322、针对时间数据,将时间数据表征的时间与预设时间的差值确定为时间数据对应的数值数据。
在图3所示的实施例中,执行主体可以首先从信息中提取各种类型的数据,得到初始特征数据,然后针对其中的不同类型的数据采用对应的预处理方式,将非数值类型的数据转化为数值类型,得到的特征数据中只包括数值类数据。以此得到的特征数据可以准确地刻画待识别对象的特征,并且可以降低后续模型预测阶段的数据处理运算量,有助于提高识别效率和准确度。
在本实施例的一些可选的实施方式中,在步骤320之前,该方法还可以包括:若初始特征数据中存在缺失值,根据缺失值对应的待识别对象的属性,将缺失值确定为预设的默认值。
继续结合图2所示的场景进行举例说明,当初始特征数据中包括的房源的跟进记录(包括跟进时间和跟进次数)缺失时,可以将其跟进时间对应的缺失值设定为默认时间,将跟进次数对应的缺失值设定为默认次数。再例如,当初始特征数据中的价格缺失时,可以将缺失值设定为房源所在的位置对应的平均价格。
本实施方式中,可以根据缺失值对应待识别对象的属性,将缺失值确定为预设的默认值,可以提高初始特征数据的完整性和有效性,有助于保持初始特征数据所包括的特征维度。
接着参考图4,图4示出了本公开的用于识别对象类型的一个实施例中训练模型的流程图,如图4所示,该流程包括以下步骤:
步骤410、获取多个已识别对象的历史信息及其识别结果。
在本实施例中,已识别对象与待识别对象对应同一个对象的两种状态,例如对象可以是房源,已识别对象表示识别完成的房源,待识别对象则表示未经过识别的房源。
历史信息表示已识别对象在识别时所使用的信息,可以包括与待识别对象的信息相同类型的数据。
继续结合图2所示的场景进行举例说明,执行主体可以从数据库220中获取已识别完成的房源的信息及其识别结果。
步骤420、基于历史信息的至少一个属性,对多个历史信息进行分层采样,得到多个样本信息及其识别结果。
作为示例,执行主体可以根据历史信息的时间和热度对多个历史信息进行分层采样。具体的,假定执行主体在步骤410中获取的历史信息数量为1000,设定的样本数量为100。执行主体可以首先对全部历史信息进行统计分析,分别确定出不同时间段所对应的历史信息在全部历史信息中的比例,然后将全部历史信息分为多个层。例如,获取时间为2月的历史信息对应的比例为10%,获取时间为3月的历史信息对应的比例为30%,其余时间段对应的内容在此不再赘述。则可以将2月对应的层中包括100个历史信息,3月对应的层中包括300个历史信息。之后,执行主体可以分别对两个层中的历史信息进行随机采样,从2月对应的层中采样出10个样本信息,从3月对应的层中采样出30个样本信息。
进一步的,执行主体可以同时根据多个维度的属性对历史数据进行分层采样、例如,在上述时间属性的基础上,还可以结合历史数据的热度属性进行更细粒度的分层,作为示例,3月对应的历史数据中,热度值小于1000的历史信息对应的比例为30%,热度值为1000至2000的历史数据对应的比例为40%,其余热度值对应的内容在此不再赘述。则执行主体可将3月对应的层再次细分为多个层,例如获取时间为3月且热度值小于1000的历史信息对应的层中包括90个历史信息,获取时间为3月且热度值为1000至2000的历史信息对应的层中包括120个历史信息。相应地,执行主体可以对这两个层进行随机采样,分别从中采样出9个样本信息和12个样本信息。
在本实施中,通过分层采样从历史信息中提取样本信息,可以确保样本信息的与历史信息具有相同的分布规律。
步骤430、分别从多个样本信息中提取样本特征数据,并基于样本信息的识别结果对样本特征数据进行标记,得到多个训练样本。
作为示例,执行主体可以通过图3所示的流程从样本信息中提取样本特征数据。
步骤440、利用多个训练样本,分别训练预先构建的初始第一预测模型和初始第二预测模型,得到训练后的第一预测模型和第二预测模型。
在图4所示的实施例中,可以基于历史信息的至少一个属性对历史数据进行分层采样,以提取样本信息,并以此构建训练样本,可以确保训练样本与历史信息具有相同的分布规律,并以此训练第一预测模型和第二预测模型,使得第一预测模型和第二预测模型学习到的预测策略与待识别对象的特征数据的匹配程度更高,有助于提高识别结果的准确度。
示例性装置
下面参考图5,图5示出了本公开的一种用于识别对象类型的装置的一个实施例的结构示意图,如图5所示,该装置包括:信息获取单元510,被配置成获取待识别对象的信息,并从信息中提取特征数据;概率预测单元520,被配置成基于特征数据,分别利用第一预测模型和第二预测模型预测出待识别对象为预设类型的第一概率值和第二概率值;数值处理单元530,被配置成基于第一概率值和第二概率值,确定第三概率值;类型确定单元540,被配置成响应于确定第三概率值大于预设阈值,确定待识别对象为预设类型。
在其中一个实施例中,信息获取单元510进一步包括:提取模块,被配置成从信息中提取初始特征数据,初始特征数据至少包括以下一种类型的数据:数值数据、离散数据、时间数据;预处理模块,被配置成对初始特征数据进行预处理,将初始特征数据中的非数值数据转化为数值数据,得到特征数据;其中,预处理模块进一步包括:编码子模块,被配置成针对离散数据,基于预设的编码方式,将离散数据编码为数值数据;和/或,差值子模块,被配置成针对时间数据,将时间数据表征的时间与预设时间的差值确定为时间数据对应的数值数据。
在其中一个实施例中,该装置包括:数值填充单元,被配置成若初始特征数据中存在缺失值,根据缺失值对应的待识别对象的属性,将缺失值确定为预设的默认值。
在其中一个实施例中,该装置还包括:历史信息获取单元,被配置成获取多个已识别对象的历史信息及其识别结果;采样单元,被配置成基于历史信息的至少一个属性,对多个历史信息进行分层采样,得到多个样本信息及其识别结果;样本生成单元,被配置成分别从多个样本信息中提取样本特征数据,并基于样本信息的识别结果对样本特征数据进行标记,得到多个训练样本;训练单元,被配置成利用多个训练样本,分别训练预先构建的初始第一预测模型和初始第二预测模型,得到训练后的第一预测模型和第二预测模型。
在其中一个实施例中,待识别对象包括待识别房源;预设类型表征假房源;信息至少包括以下之一:房源的基础信息、房源的维护信息、房源的业务信息。
在其中一个实施例中,该装置还包括任务生成单元,被配置成基于信息,生成待识别房源的验真任务。
另外,本公开实施例还提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现本公开上述任一实施例所述的用于识别对象类型的方法。
图6为本公开电子设备一个应用实施例的结构示意图。下面,参考图6来描述根据本公开实施例的电子设备。如图6所示,电子设备包括一个或多个处理器和存储器。
处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器可以包括一个或多个各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序,处理器可以运行所述程序,以实现上文所述的本公开的各个实施例的用于识别对象类型的方法以及/或者其他期望的功能。
在一个示例中,电子设备还可以包括:输入装置和输出装置,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
此外,该输入设备还可以包括例如键盘、鼠标等等。
该输出装置可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图6中仅示出了该电子设备中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
除了上述方法和设备以外,本公开的实施例还提供一种计算机程序产品,其包括计算机程序,所述计算机程序在被处理器运行时使得所述处理器执行本说明书上述部分中描述的根据本公开各种实施例的用于识别对象类型的方法中的步骤。
此外,本公开的实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器运行时使得所述处理器执行本说明书上述部分中描述的根据本公开各种实施例的用于识别对象类型的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种用于识别对象类型的方法,其特征在于,包括:
获取待识别对象的信息,并从所述信息中提取特征数据;
基于所述特征数据,分别利用第一预测模型和第二预测模型预测出所述待识别对象为预设类型的第一概率值和第二概率值;
基于所述第一概率值和所述第二概率值,确定第三概率值;
响应于确定所述第三概率值大于预设阈值,确定所述待识别对象为所述预设类型。
2.根据权利要求1所述的方法,其特征在于,从所述信息中提取特征数据,包括:
从所述信息中提取初始特征数据,所述初始特征数据至少包括以下一种类型的数据:数值数据、离散数据、时间数据;
对所述初始特征数据进行预处理,将所述初始特征数据种的非数值数据转化为数值数据,得到所述特征数据;
其中,所述预处理包括:针对所述离散数据,基于预设的编码方式,将所述离散数据编码为数值数据;和/或,针对所述时间数据,将所述时间数据表征的时间与预设时间的差值确定为所述时间数据对应的数值数据。
3.根据权利要求2所述的方法,其特征在于,对所述初始特征数据进行预处理之前,所述方法包括:
若所述初始特征数据中存在缺失值,根据所述缺失值对应的所述待识别对象的属性,将所述缺失值确定为预设的默认值。
4.根据权利要求1所述的方法,其特征在于,所述第一预测模型和所述第二预测模型通过如下方式得到:
获取多个已识别对象的历史信息及其识别结果;
基于所述历史信息的至少一个属性,对多个所述历史信息进行分层采样,得到多个样本信息及其识别结果;
分别从所述多个样本信息中提取样本特征数据,并基于所述样本信息的识别结果对所述样本特征数据进行标记,得到多个训练样本;
利用所述多个训练样本,分别训练预先构建的初始第一预测模型和初始第二预测模型,得到训练后的所述第一预测模型和所述第二预测模型。
5.根据权利要求1至4之一所述的方法,其特征在于,所述待识别对象包括待识别房源;所述预设类型表征假房源;
所述信息至少包括以下之一:房源的基础信息、房源的维护信息、房源的业务信息。
6.根据权利要求5所述的方法,其特征在于,确定所述待识别对象为所述预设类型之后,所述方法还包括:
基于所述信息,生成所述待识别房源的验真任务。
7.一种用于识别对象类型的装置,其特征在于,包括:
信息获取单元,被配置成获取待识别对象的信息,并从所述信息中提取特征数据;
概率预测单元,被配置成基于所述特征数据,分别利用第一预测模型和第二预测模型预测出所述待识别对象为预设类型的第一概率值和第二概率值;
数值处理单元,被配置成基于所述第一概率值和所述第二概率值,确定第三概率值;
类型确定单元,被配置成响应于确定所述第三概率值大于预设阈值,确定所述待识别对象为所述预设类型。
8.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现上述权利要求1-6任一所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现上述权利要求1-6任一所述的方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时,实现上述权利要求1-6之一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211027893.XA CN115409104A (zh) | 2022-08-25 | 2022-08-25 | 用于识别对象类型的方法、装置、设备、介质和程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211027893.XA CN115409104A (zh) | 2022-08-25 | 2022-08-25 | 用于识别对象类型的方法、装置、设备、介质和程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115409104A true CN115409104A (zh) | 2022-11-29 |
Family
ID=84161461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211027893.XA Pending CN115409104A (zh) | 2022-08-25 | 2022-08-25 | 用于识别对象类型的方法、装置、设备、介质和程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115409104A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115730251A (zh) * | 2022-12-06 | 2023-03-03 | 贝壳找房(北京)科技有限公司 | 关系识别方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107633203A (zh) * | 2017-08-17 | 2018-01-26 | 平安科技(深圳)有限公司 | 面部情绪识别方法、装置及存储介质 |
CN109543841A (zh) * | 2018-11-09 | 2019-03-29 | 北京泊远网络科技有限公司 | 深度学习方法、装置、电子设备及计算机可读介质 |
CN109684922A (zh) * | 2018-11-20 | 2019-04-26 | 浙江大学山东工业技术研究院 | 一种基于卷积神经网络的多模型对成品菜的识别方法 |
CN110414716A (zh) * | 2019-07-03 | 2019-11-05 | 北京科技大学 | 一种基于LightGBM的企业失信概率预测方法及系统 |
CN110719279A (zh) * | 2019-10-09 | 2020-01-21 | 东北大学 | 基于神经网络的网络异常检测系统及检测方法 |
CN111383032A (zh) * | 2020-02-12 | 2020-07-07 | 北京城市网邻信息技术有限公司 | 一种房源信息的真实性检测方法和装置 |
CN111914645A (zh) * | 2020-06-30 | 2020-11-10 | 五八有限公司 | 识别虚假信息的方法、装置、电子设备及存储介质 |
CN113015167A (zh) * | 2021-03-11 | 2021-06-22 | 杭州安恒信息技术股份有限公司 | 加密流量数据的检测方法、系统、电子装置和存储介质 |
CN113988867A (zh) * | 2021-10-18 | 2022-01-28 | 中国工商银行股份有限公司 | 欺诈行为检测方法、装置、计算机设备和存储介质 |
CN114564992A (zh) * | 2022-02-28 | 2022-05-31 | 上海图灵医疗科技有限公司 | 一种基于病理数据的病理特征概率分布预测方法及系统 |
WO2022160449A1 (zh) * | 2021-01-28 | 2022-08-04 | 平安科技(深圳)有限公司 | 文本分类方法、装置、电子设备及存储介质 |
-
2022
- 2022-08-25 CN CN202211027893.XA patent/CN115409104A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107633203A (zh) * | 2017-08-17 | 2018-01-26 | 平安科技(深圳)有限公司 | 面部情绪识别方法、装置及存储介质 |
CN109543841A (zh) * | 2018-11-09 | 2019-03-29 | 北京泊远网络科技有限公司 | 深度学习方法、装置、电子设备及计算机可读介质 |
CN109684922A (zh) * | 2018-11-20 | 2019-04-26 | 浙江大学山东工业技术研究院 | 一种基于卷积神经网络的多模型对成品菜的识别方法 |
CN110414716A (zh) * | 2019-07-03 | 2019-11-05 | 北京科技大学 | 一种基于LightGBM的企业失信概率预测方法及系统 |
CN110719279A (zh) * | 2019-10-09 | 2020-01-21 | 东北大学 | 基于神经网络的网络异常检测系统及检测方法 |
CN111383032A (zh) * | 2020-02-12 | 2020-07-07 | 北京城市网邻信息技术有限公司 | 一种房源信息的真实性检测方法和装置 |
CN111914645A (zh) * | 2020-06-30 | 2020-11-10 | 五八有限公司 | 识别虚假信息的方法、装置、电子设备及存储介质 |
WO2022160449A1 (zh) * | 2021-01-28 | 2022-08-04 | 平安科技(深圳)有限公司 | 文本分类方法、装置、电子设备及存储介质 |
CN113015167A (zh) * | 2021-03-11 | 2021-06-22 | 杭州安恒信息技术股份有限公司 | 加密流量数据的检测方法、系统、电子装置和存储介质 |
CN113988867A (zh) * | 2021-10-18 | 2022-01-28 | 中国工商银行股份有限公司 | 欺诈行为检测方法、装置、计算机设备和存储介质 |
CN114564992A (zh) * | 2022-02-28 | 2022-05-31 | 上海图灵医疗科技有限公司 | 一种基于病理数据的病理特征概率分布预测方法及系统 |
Non-Patent Citations (1)
Title |
---|
马路遥: "基于多模型特征提取与融合的虚假评价文本识别" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115730251A (zh) * | 2022-12-06 | 2023-03-03 | 贝壳找房(北京)科技有限公司 | 关系识别方法 |
CN115730251B (zh) * | 2022-12-06 | 2024-06-07 | 贝壳找房(北京)科技有限公司 | 关系识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111797210A (zh) | 基于用户画像的信息推荐方法、装置、设备及存储介质 | |
CN113986864A (zh) | 日志数据处理方法、装置、电子设备及存储介质 | |
CN112631889A (zh) | 针对应用系统的画像方法、装置、设备及可读存储介质 | |
CN113190702A (zh) | 用于生成信息的方法和装置 | |
CN112990281A (zh) | 异常投标识别模型训练方法、异常投标识别方法及装置 | |
CN113570259A (zh) | 基于维度模型的数据评估方法和计算机程序产品 | |
CN115099233A (zh) | 一种语义解析模型的构建方法、装置、电子设备及存储介质 | |
CN115936895A (zh) | 基于人工智能的风险评估方法、装置、设备及存储介质 | |
CN115409104A (zh) | 用于识别对象类型的方法、装置、设备、介质和程序产品 | |
CN114493853A (zh) | 信用等级评价方法、装置、电子设备及存储介质 | |
CN112101024B (zh) | 基于app信息的目标对象识别系统 | |
CN117875320A (zh) | 基于人工智能的数据处理方法、装置、设备及存储介质 | |
CN113379124A (zh) | 基于预测模型的人员稳定性预测方法及装置 | |
CN117273968A (zh) | 一种跨业务线产品的会计凭证生成方法及其相关设备 | |
CN117251777A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN117033431A (zh) | 工单处理方法、装置、电子设备和介质 | |
CN114897613A (zh) | 一种异常交易行为检测方法、系统、电子设备及存储介质 | |
CN113901817A (zh) | 文档分类方法、装置、计算机设备和存储介质 | |
CN113449506A (zh) | 一种数据检测方法、装置、设备及可读存储介质 | |
CN113706207A (zh) | 基于语义解析的订单成交率分析方法、装置、设备及介质 | |
CN112860652A (zh) | 作业状态预测方法、装置和电子设备 | |
CN115080730A (zh) | 账户数据处理方法、装置、电子设备和计算机存储介质 | |
CN112465149A (zh) | 同城件识别方法、装置、电子设备以及存储介质 | |
CN118569961B (zh) | 一种租赁物池化管理方法及装置、存储介质及电子设备 | |
US11928153B2 (en) | Multimedia linked timestamp validation detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |