CN110781204B - 目标对象的标识信息确定方法、装置、设备及存储介质 - Google Patents

目标对象的标识信息确定方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110781204B
CN110781204B CN201910849794.1A CN201910849794A CN110781204B CN 110781204 B CN110781204 B CN 110781204B CN 201910849794 A CN201910849794 A CN 201910849794A CN 110781204 B CN110781204 B CN 110781204B
Authority
CN
China
Prior art keywords
information
target object
recall information
matching
recall
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910849794.1A
Other languages
English (en)
Other versions
CN110781204A (zh
Inventor
江小天
卢俊之
杨璧嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Dadi Tongtu Beijing Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Tencent Dadi Tongtu Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd, Tencent Dadi Tongtu Beijing Technology Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910849794.1A priority Critical patent/CN110781204B/zh
Publication of CN110781204A publication Critical patent/CN110781204A/zh
Application granted granted Critical
Publication of CN110781204B publication Critical patent/CN110781204B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02WCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO WASTEWATER TREATMENT OR WASTE MANAGEMENT
    • Y02W90/00Enabling technologies or technologies with a potential or indirect contribution to greenhouse gas [GHG] emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Remote Sensing (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种目标对象的标识信息确定方法、装置、设备及存储介质,该方法包括:基于目标对象的自然语言处理结果,确定目标对象的召回信息集;获取每个召回信息对应的关联属性特征;将每个召回信息对应的关联属性特征输入信息匹配模型进行信息匹配处理,得到每个召回信息与目标对象的第一匹配结果;将每个召回信息与目标对象分别按照预设自然语言匹配策略以及预设字符串匹配策略进行匹配,得到每个召回信息与目标对象的第二、第三匹配结果;基于第一、第二和第三匹配结果,确定目标对象的候选召回信息;将候选召回信息对应的标识信息确定为目标对象的标识信息。本申请能够提高目标对象的标识信息确定的准确率,降低错判和漏判的概率。

Description

目标对象的标识信息确定方法、装置、设备及存储介质
技术领域
本申请属于互联网技术领域,具体涉及一种目标对象的标识信息确定方法、装置、设备及存储介质。
背景技术
随着科技的发展和互联网技术的不断进步,移动终端提供的服务不断升级。目前基于位置的服务(Location Based Services,LBS)是当前移动终端服务中的热点。
在LBS中,兴趣点(Point of Interest,POI)已成为衡量LBS价值的标准。其中,POI是一个区域活力的重要组成部分,是现实世界的地点描述,具体可以包括零售商铺、餐饮门店、公交站、娱乐场所或大学等。不同的POI可以具备不同的名称,名称用于标识POI。
在实际应用中,经常需要对POI进行连锁品牌POI识别,即识别POI属于哪个连锁品牌。现有技术方案多采用基于模式匹配的方式进行POI连锁品牌识别,具体为通过将候选POI与词表进行模式匹配,得到文字形式相似的品牌。然而现有方式缺少对POI文本的语义理解,常常会导致错判和漏判,POI连锁品牌识别准确率不高。
发明内容
为了提高POI连锁品牌识别的准确率,降低错判和漏判的概率,本申请提出一种目标对象的标识信息确定方法、装置、设备及存储介质。
一方面,本申请提出了目标对象的标识信息确定方法,所述方法包括:。
基于目标对象对应的自然语言处理结果,确定所述目标对象对应的召回信息集;
获取每个召回信息对应的关联属性特征;其中,所述关联属性特征表征所述召回信息与所述目标对象的关联关系;
将每个召回信息对应的关联属性特征输入信息匹配模型进行信息匹配处理,得到每个召回信息与所述目标对象的第一匹配结果;
将每个召回信息与所述目标对象按照预设自然语言匹配策略进行匹配,得到每个召回信息与所述目标对象的第二匹配结果;
将每个召回信息与所述目标对象按照预设字符串匹配策略进行匹配,得到每个召回信息与所述目标对象的第三匹配结果;
基于所述第一匹配结果、所述第二匹配结果和所述第三匹配结果,确定所述目标对象对应的候选召回信息;
将所述候选召回信息对应的标识信息确定为所述目标对象的标识信息。
另一方面,本申请提出了一种目标对象的标识信息确定装置,所述装置包括:
召回信息集确定模块,用于基于目标对象对应的自然语言处理结果,确定所述目标对象对应的召回信息集;
关联属性特征获取模块,用于获取每个召回信息对应的关联属性特征;其中,所述关联属性特征表征所述召回信息与所述目标对象的关联关系;
第一匹配结果获取模块,用于将每个召回信息对应的关联属性特征输入信息匹配模型进行信息匹配处理,得到每个召回信息与所述目标对象的第一匹配结果;
第二匹配结果获取模块,用于将每个召回信息与所述目标对象按照预设自然语言匹配策略进行匹配,得到每个召回信息与所述目标对象的第二匹配结果;
第三匹配结果获取模块,用于将每个召回信息与所述目标对象按照预设字符串匹配策略进行匹配,得到每个召回信息与所述目标对象的第三匹配结果;
候选召回信息确定模块,用于基于所述第一匹配结果、所述第二匹配结果和所述第三匹配结果,确定所述目标对象对应的候选召回信息;
标识信息确定模块,用于将所述候选召回信息对应的标识信息确定为所述目标对象的标识信息。
另一方面,本申请提出了一种设备,所述设备包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述所述的目标对象的标识信息确定方法。
另一方面,本申请提出了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述所述的目标对象的标识信息确定方法。
本申请提出的一种目标对象的标识信息确定方法、装置、设备及存储介质,根据目标对象对应的自然语言处理结果,确定该目标对象对应的召回信息集,将每个召回信息与目标对象进行模型匹配和策略匹配,模型匹配过程如下:将每个召回信息对应的关联属性特征输入信息匹配模型进行信息匹配处理,得到每个召回信息与所述目标对象的第一匹配结果,策略匹配过程如下:将每个召回信息与目标对象分别按照预设自然语言匹配策略和预设字符串匹配策略进行匹配,得到每个召回信息与该目标对象的第二匹配结果和第三匹配结果,接着从上述三个匹配结果中确定出目标对象对应的候选召回信息,并将该候选召回信息对应的标识信息确定为该目标对象的标识信息。本申请中由于使用模型匹配和策略匹配这两大匹配策略对召回信息与目标对象进行匹配,匹配精度较高,且上述匹配过程可以对目标对象的语义进行分析,进一步提高匹配精度,从而提高POI连锁品牌识别准确率,降低错判和漏判的概率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的一种目标对象的标识信息确定方法的流程示意图。
图2是本申请实施例提供的另一种目标对象的标识信息确定方法的流程示意图。
图3是本申请实施例提供的另一种目标对象的标识信息确定方法的流程示意图。
图4是本申请实施例提供的另一种目标对象的标识信息确定方法的流程示意图。
图5是本申请实施例提供的目标对象的标识信息确定方法应用在地图上对连锁店进行标注的结构示意图。
图6中的A是本申请实施例提供的目标对象的标识信息确定方法对检索结果排序进行优化的结构示意图,B是未使用本申请实施例提供的目标对象的标识信息确定方法的检索结果排序示意图。
图7是本申请实施例提供的目标对象的标识信息确定方法对连锁店信息的名称进行规范化的结构示意图。
图8是本申请实施例提供的一种目标对象的标识信息确定装置的结构示意图。
图9是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
随着人工智能(Artificial Intelligence,AI)的研究和进步,AI在多个领域展开研究和应用。AI是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
具体地,本申请实施例提供的方案涉及人工智能的自然语言处理技术(NatureLanguage processing,NLP)。NLP是人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。NLP是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,NLP可以包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
具体地,本申请实施例提供的方案涉及NLP中的文本预处理技术和语义理解技术。比如,对目标对象的名称和召回信息进行自然语言处理涉及文本预处理技术中的词/句切分、词性标注、语句分类等技术,此外还涉及语义理解技术中的词法分析、语法分析、语义分析等技术。
具体地,本申请实施例提供的技术方案具体通过如下实施例进行说明。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1是本申请实施例提供的一种目标对象的标识信息确定方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图1所示,所述方法可以包括:
S101.基于目标对象对应的自然语言处理结果,确定所述目标对象对应的召回信息集。
本申请实施例中,该目标对象可以为一个待匹配标识信息的POI。该POI可以为电子地图上的某个点,用于表示该点代表的职能,比如,一家商铺、一栋房子、一个公交站等。通常POI可以包括以下至少一项:名称、类别、经度、纬度和海拔等信息。当应用于POI连锁品牌识别场景中时,该标识信息可以为连锁品牌,连锁品牌是指包含2个或以上连锁店,具备统一的视觉识别系统(标识(LOGOtype,logo)/店招风格等),提供某类商品或服务的品牌。属于连锁品牌的POI可以为招牌名称相同(或含专名)、logo相同、经营同类商品和服务的同一品牌的POI。
在实际应用中,一个POI可以为由多个PP构成,该PP为某来源的地点描述,提供POI完整信息的一部分。PP可以为POI的获取方式,比如可以由用户通过实际采集获取,也可以对合作方进行点评,由合作方提供等。比如,从地图类应用程序中或从点评类应用程序中获取相应的POI。
具体地,本申请实施例中的目标对象可以为某个来源的、待匹配连锁品牌的待匹配POI。相应地,召回信息可以为由与待匹配POI对应的至少一个召回信息组成的集合。
本申请实施例中,如图2所示,在所述基于目标对象对应的自然语言处理结果,确定所述目标对象对应的召回信息集之前,所述方法还可以包括:
S100.对所述目标对象的名称进行规范化处理。
本申请实施例中,在确定需要进行连锁品牌识别的POI(即待匹配POI)之后,可以对待匹配POI名称进行规范化处理,以提高后续匹配和连锁品牌识别的准确度。在一个可行的实施例中,所述对所述目标对象的名称进行规范化处理可以包括:
S1001.对所述目标对象的名称进行预处理。
本申请实施例中,预处理过程可以包括:去除待匹配POI名称中的标点、将待匹配POI名称中的大小写进行转换、去除待匹配POI名称中的分店成分等。
S1003.对预处理后的目标对象的名称进行自然语言处理,得到所述目标对象的核心词、所述目标对象的业务词或所述目标对象的类别词中的至少一种。
本申请实施例中,在名称预处理之后,可以对待匹配POI名称进行NLP分析,该NLP分析结果包括但不限于待匹配POI的核心词、待匹配POI的业务词、待匹配POI的类别词、待匹配POI的核心词的同义词、待匹配POI的业务词的同义词、待匹配POI的类别词的同义词等。
S1005.若基于所述目标对象对应的自然语言处理结果,确定所述目标对象的名称由第一信息和第二信息组成,则将所述第一信息从所述目标对象的名称中删除,使所述目标对象的名称中仅包含所述第二信息;其中,所述第二信息为从属于所述第一信息的信息。
本申请实施例中,如果根据NLP分析结果,确定待匹配POI名称包括第一信息和第二信息,即具有主子点结构,则取其子点参与匹配。例如,待匹配POI名称为“肯德基南门”,该名称中主点(即第一信息)为“肯德基”,子点(即第二信息)为“南门”,则该待匹配POI名称的本质为“南门”,而非“肯德基”。因此,可以将主点从该待匹配POI名称中删除,让该POI使用“南门”进行匹配,即对“南门”进行NLP分析后参与后续的匹配过程,提高待匹配POI的匹配精度,进而提高后续POI连锁品牌识别的准确率,降低POI连锁品牌粗错判和误判的概率。
相应地,如图2所示,所述基于所述目标对象对应的自然语言处理结果,确定所述目标对象对应的召回信息集,可以包括:
S1011.获取与所述目标对象的核心词具有交集的信息,得到所述目标对象对应的第一交集信息集。
S1013.确定所述目标对象的核心词对应的同义词。
S1015.获取与所述同义词具有交集的信息,得到所述目标对象对应的第二交集信息集。
S1017.对所述第一交集信息集中的信息和所述第二交集信息集中的信息进行汇总,得到所述目标对象对应的召回信息集。
本申请实施例中,对于待匹配POI,可以通过该POI名称的NLP分析结果,确定与该待匹配POI相关的召回信息集,可以按照S1011的方法用待匹配POI的核心词召回与其核心词具有交集的召回信息,并按照S1013-S1015中的方法扩大召回数量,召回率较高。
当应用于连锁品牌识别场景中时,本申请实施例中的召回信息可以为与待匹配POI的核心词或核心词的同义词具有交集的品牌别名(即某一品牌对应的品牌别名),相应地,召回信息集可以为由至少一个品牌别名组成的集合。在确定目标对象对应的召回信息(即品牌别名)后,即可通过品牌别名对应的品牌确定目标对象所述的连锁品牌。例如,如果核心词为肯德基,则可以在S1011中确定出与该核心词具有交集的品牌别名,并在S1013中根据NLP结果,确定肯德基的同义词为KFC,接着在S1015中确定出与KFC具有交集的品牌别名,最后将得到的品牌别名进行汇总,得到目标对象对应的品牌别名集,最后根据品牌别名集中的品牌别名对应的品牌确定目标对象的品牌。
本申请实施例中,如果S1011-S1017中召回的数量过多,会影响后续的匹配精度,且会增加系统负担。因此,可以实时或定时监控召回数量,当召回数量大于一定阈值时,触发严格匹配逻辑,只召回包含该待匹配POI名称的品牌别名或被该待匹配POI名称所包含的品牌别名。同时设置类别兼容表,将召回的品牌别名与该类别兼容表中的信息进行比对,如果召回的品牌别名不位于该类别兼容表中,表明该召回的品牌别名与待匹配POI不兼容,则将该召回的品牌别名删除,如果召回的品牌别名位于该类别兼容表中,表明该召回的品牌别名与待匹配POI兼容,则将该召回的品牌别名保留。
具体地,在所述基于所述目标对象对应的自然语言处理结果,确定所述目标对象对应的召回信息集之后,所述方法还可以包括触发严格匹配逻辑的步骤:
若所述召回信息集中的召回信息的数量大于第一阈值,则将所述召回信息集中除包含目标对象名称的召回信息或被目标对象名称所包含的召回信息之外的其他召回信息删除。
若预设类别兼容表中不包括所述召回信息,则将所述预设类别兼容表中不包括的召回信息删除。
S103.获取每个召回信息对应的关联属性特征;其中,所述关联属性特征表征所述召回信息与所述目标对象的关联关系。
本申请实施例中,在所述获取每个召回信息对应的关联属性特征之前,所述方法还可以包括:
对每个召回信息进行自然语言处理,得到每个召回信息对应的自然语言处理结果;其中,每个召回信息对应的自然语言处理结果包括每个召回信息的核心词、每个召回信息的业务词或每个召回信息的类别词中的至少一种。
本申请实施例中,如图3所示,所述获取每个召回信息对应的关联属性特征,可以包括:
S1031.基于每个召回信息的名称与所述目标对象的名称,确定每个召回信息对应的名称相似度特征。
S1033.基于每个召回信息的核心词与所述目标对象的核心词,确定每个召回信息对应的核心词相似度特征。
S1035.基于每个召回信息的业务词与所述目标对象的业务词,确定每个召回信息对应的业务词相似度特征。
S1037.基于每个召回信息的类别词与所述目标对象的类别词,确定每个召回信息对应的类别词相似度特征。
S1039.获取每个召回信息与所述目标对象之间的重叠信息,得到每个召回信息对应的交叉特征。
S10311.将每个召回信息对应的名称相似度特征、核心词相似度特征、业务词相似度特征、类别词相似度特征和交叉特征,确定为每个召回信息对应的关联属性特征。
S105.将每个召回信息对应的关联属性特征输入信息匹配模型进行信息匹配处理,得到每个召回信息与所述目标对象的第一匹配结果。
本申请实施例中,可以根据每个召回信息的NLP分析结果以及待匹配POI的NLP分析结果,按照S1031-S10311确定每个召回信息对应的名称相似性、核心词相似性、类别词相似性、业务词相似性、类别相似性、交叉特征等。
本申请实施例中,如图3所示,所述将每个召回信息对应的关联属性特征输入信息匹配模型进行信息匹配处理,得到每个召回信息与所述目标对象的第一匹配结果,可以包括:
将每个召回信息对应的名称相似度特征、核心词相似度特征、业务词相似度特征、类别词相似度特征和交叉特征输入所述信息匹配模型进行信息匹配处理,得到每个召回信息与所述目标对象相匹配的第一匹配得分。
在实际应用中,该第一匹配得到的取值范围为[0,1]。
需要说明的是,本申请实施例中的模型匹配过程中使用的特征包括但不限于上述特征,所使用特征的数量和类别可以根据实际应用场景进行调整。
在一个可行的实施例中,在模型匹配之后,该方法还可以包括算法后过滤策略,即将通过模型匹配算法得到的第一匹配结果进行过滤,去除掉一些算法结果误差较大,或无法匹配的案例。该过滤策略可以为:匹配到的召回信息和待匹配POI具有核心词一致,或词法关键组分一致、或核心词一致的特点。
本申请实施例中,如图4所示,在基于目标对象对应的自然语言处理结果,确定所述目标对象对应的召回信息集之前,所述方法还包括:
S001.获取所述信息匹配模型的步骤。
所述获取所述信息匹配模型的步骤,可以包括:
S0011.获取样本对象集。
S0013.将具有相同名称和类别的样本对象归为一类,得到候选样本对象集。
S0015.基于候选样本对象对应的自然语言处理结果,确定所述候选样本对象对应的候选样本召回信息集。
S0017.对每个候选样本召回信息标注匹配标签;其中,所述匹配标签表征所述候选样本召回信息与所述候选样本对象的匹配度。
S0019.获取每个候选样本召回信息对应的候选样本关联属性特征;其中,所述候选样本关联属性特征表征候选样本召回信息与候选样本对象之间的关联关系。
S00111.基于每个候选样本召回信息对应的候选样本关联属性特征,使用预设机器模型进行信息匹配训练,在所述信息匹配训练中调整所述预设机器模型的模型参数至所述预设机器学习模型输出的匹配标签与输入的候选样本召回信息相匹配。
S00113.将当前模型参数所对应的机器学习模型作为所述信息匹配模型。
本申请实施例中,POI数据库中有成千上亿个POI,可以从该数据库中选取一定量的POI数据或直接将数据库中所有POI数据作为样本对象集,按照S1023中将样本对象集中的对象按照名称和类别进行划分,同一个名称和类别的样本对象划分为一组,划分完成后就会得到候选样本对象集。其中,对样本对象集按照名称和分类进行划分,能够有效减少数据量级,有利于提高POI匹配和连锁品牌识别的效率,同时减轻系统压力。
在实际应用中,候选样本对象集可以用rb表示,候选样本对象集中的候选样本对象可以用rb_a表示,对于rb中的每一个rb_a,可以按照以下方法生成正样本集合和负样本集合:
(1)正样本集合:与rb_a具有相同POI、且与该rb_a的核心词(基于NLP分析结果得到)具有交集的其他rb。
(2)负样本集合:通过rb_a召回的候选rb中的非正样本部分,且与rb_a具有相同或同义的“核心词”序列。
其中,负样本集合中的rb_a召回的候选rb可以与S1011-S1017中的召回过程类似,在此不再赘述。
在得到正、负样本集合后,可以通过以下方法对正、负样本进行采样:
(1)对于负样本,每个名称仅选择一个rb_a。
(2)删除统计信息中rb包含的POI数量小于或等于预设阈值的正负样本,比如,该预设阈值可以取值为5。
(3)每个rb_a最多生成预设数量的正样本和负样本,比如,该预设数量可以为100。
S107.将每个召回信息与所述目标对象按照预设自然语言匹配策略进行匹配,得到每个召回信息与所述目标对象的第二匹配结果。
在训练过程中使用的预设机器模型包括但不限于支撑向量机、逻辑回归、决策树、极端梯度提升(eXtreme Gradient Boosting,XGBoost)或神经网络等模型。
本申请实施例中,除了将每个召回信息与目标对象进行模型匹配外,还可以进行策略匹配,该策略匹配可以自然语言匹配,具体地,如图3所示,所述将每个召回信息与所述目标对象按照预设自然语言匹配策略进行匹配,得到每个召回信息与所述目标对象的第二匹配结果,可以包括:
将每个召回信息的自然语言处理结果与所述目标对象的自然语言处理结果按照预设自然语言匹配策略进行匹配,得到每个召回信息与所述目标对象相匹配的第二匹配得分;其中,所述预设自然语言匹配策略由对自然语言处理结果中的核心词、业务词或类别词中的至少一个进行组合得到。
在POI连锁品牌识别场景中,所述预设自然语言匹配策略可以为:
(1)(类别完全相同且不为“其它”)AND(核心词完全相同或完全同义)AND(均无业务词,或均有业务词且业务词完全相同或部分同义,或一方有业务词一方无业务词无类别词)。
(2)(类别在类别兼容表中)AND(均有类别词且完全相同或部分同义,或均无类别词)AND(核心词完全相同或完全同义)AND(均无业务词,或均有业务词且业务词完全相同或部分同义,或一方有业务词一方无业务词无类别词)。
其中,上述预设自然语言匹配策略中的“AND”表示“和”的意思,该第二匹配得分的取值范围可以为[0,2]。如果召回信息的自然语言处理结果与所述目标对象的自然语言处理结果满足上述预设自然语言匹配策略(1)或(2),则说明召回信息与目标对象相匹配,匹配得分为2,若自然语言处理结果与所述目标对象的自然语言处理结果完全不满足上述预设自然语言匹配策略,则匹配得分为0,若自然语言处理结果与所述目标对象的自然语言处理结果满足上述预设自然语言匹配策略中的一部分,则可以根据匹配程度取0到2之间的数值作为匹配得分。
S109.将每个召回信息与所述目标对象按照预设字符串匹配策略进行匹配,得到每个召回信息与所述目标对象的第三匹配结果。
本申请实施例中,策略匹配还可以包括预设字符串匹配策略,具体地,如图3所示,所述将每个召回信息与所述目标对象按照预设字符串匹配策略进行匹配,得到每个召回信息与所述目标对象的第三匹配结果,可以包括:
将每个召回信息的字符串与所述目标对象的字符串按照预设字符串匹配策略进行匹配,得到每个召回信息与所述目标对象相匹配的第三匹配得分;其中,所述预设字符串匹配策略为召回信息位于所述预设类别兼容表中且召回信息的字符串与目标对象名称的字符串相同,或召回信息位于所述预设类别兼容表中且召回信息的字符串与目标对象名称的字符串相差预设关键字符。
在POI连锁品牌识别场景中,所述预设字符串匹配策略可以为(类别兼容)AND(名字相同,或只差结尾的“店”,“馆”)。
其中,上述预设字符串匹配策略中的“AND”表示“和”的意思,该第三匹配得分的取值可以为3。若召回信息的字符串与所述目标对象的字符串满足上述预设字符串匹配策略,则匹配得分为3,若召回信息的字符串与所述目标对象的字符串完全不满足上述预设字符串匹配策略,则匹配得分为0,若召回信息的字符串与所述目标对象的字符串满足上述预设字符串匹配策略中的一部分,则则可以根据匹配程度取0到3之间的数值作为匹配得分。
S1011.基于所述第一匹配结果、所述第二匹配结果和所述第三匹配结果,确定所述目标对象对应的候选召回信息。
本申请实施例中,如图3所示,所述基于所述第一匹配结果、所述第二匹配结果和所述第三匹配结果,确定所述目标对象对应的候选召回信息,可以包括:
S10111.对每个召回信息与所述目标对象的第一匹配得分、第二匹配得分和第三匹配得分进行降序排列,将排序最前的匹配得分确定为每个召回信息与所述目标对象的候选匹配得分。
S10113.将与所述目标对象的候选匹配得分大于第二阈值的召回信息确定为所述候选召回信息。
在POI连锁品牌识别场景中,每个目标对象可以召回多个品牌别名,每个品牌别名又对应有3个匹配得分,为了提高匹配精度,可以取得分最高的品牌别名作为候选召回信息,如果候选召回信息有多个,还可以从中选出最优的候选召回信息。即POI连锁品牌识别场景中的候选召回信息是多匹配优选结果,具体的多匹配优选策略可以如下:
召回品牌信息被预设字符串匹配策略选中>被预设自然语言匹配策略选中>被信息匹配模型选中。
如果候选召回信息有多个,则可以判断该候选召回信息是品牌主名还是品牌别名,其中,候选召回信息是品牌主名>候选召回信息是品牌别名。
如果候选召回信息有多个,还可以判断该候选召回信息所属的品牌的索引(index)的数量,其中候选召回信息所属品牌的index的数量多>候选召回信息所属品牌的index的数量少。
其中,上述“>”表示优于。
S1013.将所述候选召回信息对应的标识信息确定为所述目标对象的标识信息。
本申请实施例中,如图3所示,所述将所述候选召回信息对应的标识信息确定为所述目标对象的标识信息,可以包括:
S10131.从标识信息信息库中获取与所述候选召回信息对应的标识信息;其中,所述标识信息信息库包括召回信息与标识信息的映射关系。
S10133.将所述候选召回信息对应的标识信息确定为所述目标对象的标识信息。
在POI连锁品牌识别场景中,标识信息可以为连锁品牌,则可以预先建立连锁品牌库,该连锁品牌库的建立过程可以如下:
给定连锁品牌列表,提前对列表中所有连锁品牌的品牌名称和别名进行NLP分析,将品牌名称的核心词建立倒排索引,即存储出现这个核心词的所有品牌别名。当确定出候选召回信息之后,查阅该连锁品牌库,从中找到与候选召回信息对应的连锁品牌,并将该连锁品牌确定为待匹配POI的连锁品牌。
在实际应用中,连锁品牌在全量和头部POI数据中,都有较高占比,用户影响较大。本申请实施例中的目标对象的标识信息确定方法可以用于各种类型的场景中,以下举例说明其具体的应用场景:
(1)在地图上对连锁店进行标注:在识别出待匹配POI为连锁店时,可以在地图类应用程序(比如手机地图)统一标注连锁店标记。比如,如图5所示,可以加油站进行连锁品牌标注,为用户通过地图搜索加油提供便利。
(2)对检索结果排序进行优化:当用户使用点评类应用程序搜索某一连锁店时,系统会自动将属于该连锁店的店名排列在搜索结果的前面,优先推荐给用户,如图6所示中A所示,与未使用本申请实施例中目标对象的标识信息确定方法确定POI的品牌相比(如图6中的B所示),用户的检索结果得到明显优化,确保用户较好的体检。
(3)对连锁店信息的名称进行规范化:如图7所示,如果发现某一POI名称是连锁品牌,则可以直接利用连锁品牌库对其名称进行修改,从而达到名称一致的良好用户体验。
在POI连锁品牌识别场景中,本申请实施例提供的目标对象的标识信息确定方法,首先根据待匹POI名称的NLP分析结果,确定待匹配POI对应的品牌别名集,召回率较高,此外,由于NLP可以对POI名称进行语义分析,有效提高待匹配POI与召回的品牌别名的匹配精度。接着通过模型和策略(预设自然语言匹配策略和预设字符串匹配策略)进行双重匹配,匹配可靠性和精度较高,同时通过多匹配优选对匹配结果进行优选得到待匹配POI对应的候选品牌别名,最后将该候选品牌别名对应的连锁品牌确定为待匹配POI的品牌,从而提高了连锁品牌识别的精度,降低连锁品牌的错判和误判率。
如图8所示,本申请实施例提供了一种目标对象的标识信息确定装置,所述装置可以包括:
召回信息集确定模块201,可以用于基于目标对象对应的自然语言处理结果,确定所述目标对象对应的召回信息集。
关联属性特征获取模块203,可以用于获取每个召回信息对应的关联属性特征;其中,所述关联属性特征表征所述召回信息与所述目标对象的关联关系。
第一匹配结果获取模块205,可以用于将每个召回信息对应的关联属性特征输入信息匹配模型进行信息匹配处理,得到每个召回信息与所述目标对象的第一匹配结果。
第二匹配结果获取模块207,可以用于将每个召回信息与所述目标对象按照预设自然语言匹配策略进行匹配,得到每个召回信息与所述目标对象的第二匹配结果。
第三匹配结果获取模块209,可以用于将每个召回信息与所述目标对象按照预设字符串匹配策略进行匹配,得到每个召回信息与所述目标对象的第三匹配结果。
候选召回信息确定模块2011,可以用于基于所述第一匹配结果、所述第二匹配结果和所述第三匹配结果,确定所述目标对象对应的候选召回信息。
标识信息确定模块2013,可以用于将所述候选召回信息对应的标识信息确定为所述目标对象的标识信息。
本申请实施例中,所述装置还可以包括:
预处理模块,可以用于对所述目标对象的名称进行预处理;
目标对象处理模块,可以用于对预处理后的目标对象的名称进行自然语言处理,得到所述目标对象的核心词、所述目标对象的业务词或所述目标对象的类别词中的至少一种;
第一删除模块,可以用于若基于所述目标对象对应的自然语言处理结果,确定所述目标对象的名称由第一信息和第二信息组成,则将所述第一信息从所述目标对象的名称中删除,使所述目标对象的名称中仅包含所述第二信息;其中,所述第二信息为从属于所述第一信息的信息。
本申请实施例中,所述召回信息集确定模块201可以进一步包括:
第一交集信息集获取单元,可以用于获取与所述目标对象的核心词具有交集的信息,得到所述目标对象对应的第一交集信息集。
同义词确定单元,可以用于确定所述目标对象的核心词对应的同义词。
第二交集信息集获取单元,可以用于获取与所述同义词具有交集的信息,得到所述目标对象对应的第二交集信息集。
信息汇总单元,可以用于对所述第一交集信息集中的信息和所述第二交集信息集中的信息进行汇总,得到所述目标对象对应的召回信息集。
本申请实施例中,所述装置还可以包括:
第二删除模块,可以用于若所述召回信息集中的召回信息的数量大于第一阈值,则将所述召回信息集中除包含目标对象名称的召回信息或被目标对象名称所包含的召回信息之外的其他召回信息删除。
第三删除模块,可以用于若预设类别兼容表中不包括所述召回信息,则将所述预设类别兼容表中不包括的召回信息删除。
本申请实施例中,所述装置还可以包括:
召回信息处理模块,可以用于对每个召回信息进行自然语言处理,得到每个召回信息对应的自然语言处理结果;其中,每个召回信息对应的自然语言处理结果包括每个召回信息的核心词、每个召回信息的业务词或每个召回信息的类别词中的至少一种。
本申请实施例中,所述关联属性特征获取模块203可以进一步包括:
名称相似度特征确定单元,可以用于基于每个召回信息的名称与所述目标对象的名称,确定每个召回信息对应的名称相似度特征。
核心词相似度特征确定单元,可以用于基于每个召回信息的核心词与所述目标对象的核心词,确定每个召回信息对应的核心词相似度特征。
业务词相似度特征确定单元,可以用于基于每个召回信息的业务词与所述目标对象的业务词,确定每个召回信息对应的业务词相似度特征。
类别词相似度特征确定单元,可以用于基于每个召回信息的类别词与所述目标对象的类别词,确定每个召回信息对应的类别词相似度特征。
交叉特征确定单元,可以用于获取每个召回信息与所述目标对象之间的重叠信息,得到每个召回信息对应的交叉特征。
关联属性特征确定单元,可以用于将每个召回信息对应的名称相似度特征、核心词相似度特征、业务词相似度特征、类别词相似度特征和交叉特征,确定为每个召回信息对应的关联属性特征。
本申请实施例中,第一匹配结果获取模块205可以用于:将每个召回信息对应的名称相似度特征、核心词相似度特征、业务词相似度特征、类别词相似度特征和交叉特征输入所述信息匹配模型进行信息匹配处理,得到每个召回信息与所述目标对象相匹配的第一匹配得分。
本申请实施例中,第二匹配结果获取模块207可以用于:将每个召回信息的自然语言处理结果与所述目标对象的自然语言处理结果按照预设自然语言匹配策略进行匹配,得到每个召回信息与所述目标对象相匹配的第二匹配得分;其中,所述预设自然语言匹配策略由对自然语言处理结果中的核心词、业务词或类别词中的至少一个进行组合得到。
本申请实施例中,第三匹配结果获取模块209可以用于将每个召回信息的字符串与所述目标对象的字符串按照预设字符串匹配策略进行匹配,得到每个召回信息与所述目标对象相匹配的第三匹配得分;其中,所述预设字符串匹配策略为召回信息位于所述预设类别兼容表中且召回信息的字符串与目标对象名称的字符串相同,或召回信息位于所述预设类别兼容表中且召回信息的字符串与目标对象名称的字符串相差预设关键字符。
本申请实施例中,候选召回信息确定模块2011可以包括:
候选匹配得分确定单元,可以用于对每个召回信息与所述目标对象的第一匹配得分、第二匹配得分和第三匹配得分进行降序排列,将排序最前的匹配得分确定为每个召回信息与所述目标对象的候选匹配得分。
候选召回信息确定单元,可以用于将与所述目标对象的候选匹配得分大于第二阈值的召回信息确定为所述候选召回信息。
本申请实施例中,所述标识信息确定模块2013可以包括:
标识信息获取单元,可以用于从标识信息库中获取与所述候选召回信息对应的标识信息;其中,所述标识信息库包括召回信息与标识信息的映射关系。
目标对象的标识信息确定单元,可以用于将所述候选召回信息对应的标识信息确定为所述目标对象的标识信息。
本申请实施例中,所述装置还可以包括:
样本对象集获取模块,可以用于获取样本对象集。
候选样本对象集获取模块,将具有相同名称和类别的样本对象归为一类,得到候选样本对象集。
候选样本召回信息集确定模块,可以用于基于候选样本对象对应的自然语言处理结果,确定所述候选样本对象对应的候选样本召回信息集。
匹配标签标注模块,可以用于对每个候选样本召回信息标注匹配标签;其中,所述匹配标签表征所述候选样本召回信息与所述候选样本对象的匹配度。
候选样本关联属性特征获取模块,可以用于获取每个候选样本召回信息对应的候选样本关联属性特征;其中,所述候选样本关联属性特征表征候选样本召回信息与候选样本对象之间的关联关系。
训练模块,可以用于基于每个候选样本召回信息对应的候选样本关联属性特征,使用预设机器模型进行信息匹配训练,在所述信息匹配训练中调整所述预设机器模型的模型参数至所述预设机器学习模型输出的匹配标签与输入的候选样本召回信息相匹配。
信息匹配模型确定模块,可以用于将当前模型参数所对应的机器学习模型作为所述信息匹配模型。
需要说明的是,本申请实施例中的目标对象的标识信息确定装置与目标对象的标识信息确定方法基于相同的发明构思。
本申请实施例还提供了一种目标对象的标识信息确定的设备,该设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的目标对象的标识信息确定方法。
本申请的实施例还提供了一种存储介质,所述存储介质可设置于终端之中以保存用于实现方法实施例中一种目标对象的标识信息确定方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的目标对象的标识信息确定方法。
可选地,在本说明书实施例中,存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书实施例所述存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用程序以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本申请实施例所提供的目标对象的标识信息确定方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图9是本申请实施例提供的一种目标对象的标识信息确定方法的服务器的硬件结构框图。如图9所示,该服务器300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)310(处理器310可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器330,一个或一个以上存储应用程序323或数据322的存储介质320(例如一个或一个以上海量存储设备)。其中,存储器330和存储介质1120可以是短暂存储或持久存储。存储在存储介质320的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器310可以设置为与存储介质320通信,在服务器300上执行存储介质320中的一系列指令操作。服务器300还可以包括一个或一个以上电源360,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口340,和/或,一个或一个以上操作系统321,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口340可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器300的通信供应商提供的无线网络。在一个实例中,输入输出接口340包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口340可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图9所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器300还可包括比图9中所示更多或者更少的组件,或者具有与图9所示不同的配置。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (14)

1.一种目标对象的标识信息确定方法,其特征在于,所述方法包括:
基于目标对象对应的自然语言处理结果,确定所述目标对象对应的召回信息集;
获取每个召回信息对应的关联属性特征;其中,所述关联属性特征表征所述召回信息与所述目标对象的关联关系;每个召回信息对应的关联属性特征包括每个召回信息与所述目标对象的名称相似度特征、核心词相似度特征、业务词相似度特征、类别词相似度特征和交叉特征;
将每个召回信息对应的关联属性特征输入信息匹配模型进行信息匹配处理,得到每个召回信息与所述目标对象的第一匹配结果,包括:将每个召回信息对应的名称相似度特征、核心词相似度特征、业务词相似度特征、类别词相似度特征和交叉特征输入所述信息匹配模型进行信息匹配处理,得到每个召回信息与所述目标对象相匹配的第一匹配得分;
将每个召回信息与所述目标对象按照预设自然语言匹配策略进行匹配,得到每个召回信息与所述目标对象的第二匹配结果,包括:将每个召回信息的自然语言处理结果与所述目标对象的自然语言处理结果按照预设自然语言匹配策略进行匹配,得到每个召回信息与所述目标对象相匹配的第二匹配得分;其中,所述预设自然语言匹配策略由对自然语言处理结果中的核心词、业务词或类别词中的至少一个进行组合得到;
将每个召回信息与所述目标对象按照预设字符串匹配策略进行匹配,得到每个召回信息与所述目标对象的第三匹配结果,包括:将每个召回信息的字符串与所述目标对象的字符串按照预设字符串匹配策略进行匹配,得到每个召回信息与所述目标对象相匹配的第三匹配得分;其中,所述预设字符串匹配策略为召回信息位于预设类别兼容表中且召回信息的字符串与目标对象名称的字符串相同,或召回信息位于预设类别兼容表中且召回信息的字符串与目标对象名称的字符串相差预设关键字符;
基于所述第一匹配结果、所述第二匹配结果和所述第三匹配结果,确定所述目标对象对应的候选召回信息;
将所述候选召回信息对应的标识信息确定为所述目标对象的标识信息。
2.根据权利要求1所述的方法,其特征在于,
在所述基于目标对象对应的自然语言处理结果,确定所述目标对象对应的召回信息集之前,所述方法还包括:
对所述目标对象的名称进行预处理;
对预处理后的目标对象的名称进行自然语言处理,得到所述目标对象的核心词、所述目标对象的业务词或所述目标对象的类别词中的至少一种;
若基于所述目标对象对应的自然语言处理结果,确定所述目标对象的名称由第一信息和第二信息组成,则将所述第一信息从所述目标对象的名称中删除,使所述目标对象的名称中仅包含所述第二信息;
其中,所述第二信息为从属于所述第一信息的信息。
3.根据权利要求2所述的方法,其特征在于,所述基于目标对象对应的自然语言处理结果,确定所述目标对象对应的召回信息集,包括:
获取与所述目标对象的核心词具有交集的信息,得到所述目标对象对应的第一交集信息集;
确定所述目标对象的核心词对应的同义词;
获取与所述同义词具有交集的信息,得到所述目标对象对应的第二交集信息集;
对所述第一交集信息集中的信息和所述第二交集信息集中的信息进行汇总,得到所述目标对象对应的召回信息集;
在所述基于目标对象对应的自然语言处理结果,确定所述目标对象对应的召回信息集之后,所述方法还包括:
若所述召回信息集中的召回信息的数量大于第一阈值,则将所述召回信息集中除包含目标对象名称的召回信息或被目标对象名称所包含的召回信息之外的其他召回信息删除;
若预设类别兼容表中不包括所述召回信息,则将所述预设类别兼容表中不包括的召回信息删除。
4.根据权利要求3所述的方法,其特征在于,
在所述获取每个召回信息对应的关联属性特征之前,所述方法还包括:
对每个召回信息进行自然语言处理,得到每个召回信息对应的自然语言处理结果;其中,每个召回信息对应的自然语言处理结果包括每个召回信息的核心词、每个召回信息的业务词或每个召回信息的类别词中的至少一种;
相应地,所述获取每个召回信息对应的关联属性特征,包括:
基于每个召回信息的名称与所述目标对象的名称,确定每个召回信息对应的名称相似度特征;
基于每个召回信息的核心词与所述目标对象的核心词,确定每个召回信息对应的核心词相似度特征;
基于每个召回信息的业务词与所述目标对象的业务词,确定每个召回信息对应的业务词相似度特征;
基于每个召回信息的类别词与所述目标对象的类别词,确定每个召回信息对应的类别词相似度特征;
获取每个召回信息与所述目标对象之间的重叠信息,得到每个召回信息对应的交叉特征;
将每个召回信息对应的名称相似度特征、核心词相似度特征、业务词相似度特征、类别词相似度特征和交叉特征,确定为每个召回信息对应的关联属性特征。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第一匹配结果、所述第二匹配结果和所述第三匹配结果,确定所述目标对象对应的候选召回信息,包括:
对每个召回信息与所述目标对象的第一匹配得分、第二匹配得分和第三匹配得分进行降序排列,将排序最前的匹配得分确定为每个召回信息与所述目标对象的候选匹配得分;
将与所述目标对象的候选匹配得分大于第二阈值的召回信息确定为所述候选召回信息;
所述将所述候选召回信息对应的标识信息确定为所述目标对象的标识信息,包括:
从标识信息库中获取与所述候选召回信息对应的标识信息;其中,所述标识信息库包括召回信息与标识信息的映射关系;
将所述候选召回信息对应的标识信息确定为所述目标对象的标识信息。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括获取所述信息匹配模型的步骤,所述获取所述信息匹配模型的步骤,包括:
获取样本对象集;
将具有相同名称和类别的样本对象归为一类,得到候选样本对象集;
基于候选样本对象对应的自然语言处理结果,确定所述候选样本对象对应的候选样本召回信息集;
对每个候选样本召回信息标注匹配标签;其中,所述匹配标签表征所述候选样本召回信息与所述候选样本对象的匹配度;
获取每个候选样本召回信息对应的候选样本关联属性特征;其中,所述候选样本关联属性特征表征候选样本召回信息与候选样本对象之间的关联关系;
基于每个候选样本召回信息对应的候选样本关联属性特征,使用预设机器模型进行信息匹配训练,在所述信息匹配训练中调整所述预设机器模型的模型参数至所述预设机器学习模型输出的匹配标签与输入的候选样本召回信息相匹配;
将当前模型参数所对应的机器学习模型作为所述信息匹配模型。
7.一种目标对象的标识信息确定装置,其特征在于,所述装置包括:
召回信息集确定模块,用于基于目标对象对应的自然语言处理结果,确定所述目标对象对应的召回信息集;
关联属性特征获取模块,用于获取每个召回信息对应的关联属性特征;其中,所述关联属性特征表征所述召回信息与所述目标对象的关联关系;每个召回信息对应的关联属性特征包括每个召回信息与所述目标对象的名称相似度特征、核心词相似度特征、业务词相似度特征、类别词相似度特征和交叉特;
第一匹配结果获取模块,用于将每个召回信息对应的关联属性特征输入信息匹配模型进行信息匹配处理,得到每个召回信息与所述目标对象的第一匹配结果;所述第一匹配结果获取模块,用于将每个召回信息对应的名称相似度特征、核心词相似度特征、业务词相似度特征、类别词相似度特征和交叉特征输入所述信息匹配模型进行信息匹配处理,得到每个召回信息与所述目标对象相匹配的第一匹配得分:
第二匹配结果获取模块,用于将每个召回信息与所述目标对象按照预设自然语言匹配策略进行匹配,得到每个召回信息与所述目标对象的第二匹配结果;所述第二匹配结果获取模块,用于将每个召回信息的自然语言处理结果与所述目标对象的自然语言处理结果按照预设自然语言匹配策略进行匹配,得到每个召回信息与所述目标对象相匹配的第二匹配得分;其中,所述预设自然语言匹配策略由对自然语言处理结果中的核心词、业务词或类别词中的至少一个进行组合得到;
第三匹配结果获取模块,用于将每个召回信息与所述目标对象按照预设字符串匹配策略进行匹配,得到每个召回信息与所述目标对象的第三匹配结果;
候选召回信息确定模块,用于基于所述第一匹配结果、所述第二匹配结果和所述第三匹配结果,确定所述目标对象对应的候选召回信息;所述第三匹配结果获取模块,用于将每个召回信息的字符串与所述目标对象的字符串按照预设字符串匹配策略进行匹配,得到每个召回信息与所述目标对象相匹配的第三匹配得分;其中,所述预设字符串匹配策略为召回信息位于预设类别兼容表中且召回信息的字符串与目标对象名称的字符串相同,或召回信息位于预设类别兼容表中且召回信息的字符串与目标对象名称的字符串相差预设关键字符;
标识信息确定模块,用于将所述候选召回信息对应的标识信息确定为所述目标对象的标识信息。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
预处理模块,用于对所述目标对象的名称进行预处理;
目标对象处理模块,用于对预处理后的目标对象的名称进行自然语言处理,得到所述目标对象的核心词、所述目标对象的业务词或所述目标对象的类别词中的至少一种;
第一删除模块,用于若基于所述目标对象对应的自然语言处理结果,确定所述目标对象的名称由第一信息和第二信息组成,将所述第一信息从所述目标对象的名称中删除,使所述目标对象的名称中仅包含所述第二信息;其中,所述第二信息为从属于所述第一信息的信息。
9.根据权利要求8所述的装置,其特征在于,所述召回信息集确定模块包括:
第一交集信息集获取单元,用于获取与所述目标对象的核心词具有交集的信息,得到所述目标对象对应的第一交集信息集;
同义词确定单元,用于确定所述目标对象的核心词对应的同义词;
第二交集信息集获取单元,用于获取与所述同义词具有交集的信息,得到所述目标对象对应的第二交集信息集;
信息汇总单元,用于对所述第一交集信息集中的信息和所述第二交集信息集中的信息进行汇总,得到所述目标对象对应的召回信息集;
所述装置还包括:
第二删除模块,用于若所述召回信息集中的召回信息的数量大于第一阈值,将所述召回信息集中除包含目标对象名称的召回信息或被目标对象名称所包含的召回信息之外的其他召回信息删除;
第三删除模块,用于若预设类别兼容表中不包括所述召回信息,则将所述预设类别兼容表中不包括的召回信息删除。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
召回信息处理模块,用于对每个召回信息进行自然语言处理,得到每个召回信息对应的自然语言处理结果;其中,每个召回信息对应的自然语言处理结果包括每个召回信息的核心词、每个召回信息的业务词或每个召回信息的类别词中的至少一种;
所述关联属性特征获取模块,包括:
名称相似度特征确定单元,用于基于每个召回信息的名称与所述目标对象的名称,确定每个召回信息对应的名称相似度特征;
核心词相似度特征确定单元,用于基于每个召回信息的核心词与所述目标对象的核心词,确定每个召回信息对应的核心词相似度特征;
业务词相似度特征确定单元,用于基于每个召回信息的业务词与所述目标对象的业务词,确定每个召回信息对应的业务词相似度特征;
类别词相似度特征确定单元,用于基于每个召回信息的类别词与所述目标对象的类别词,确定每个召回信息对应的类别词相似度特征;
交叉特征确定单元,用于获取每个召回信息与所述目标对象之间的重叠信息,得到每个召回信息对应的交叉特征;
关联属性特征确定单元,用于将每个召回信息对应的名称相似度特征、核心词相似度特征、业务词相似度特征、类别词相似度特征和交叉特征,确定为每个召回信息对应的关联属性特征。
11.根据权利要求7所述的装置,其特征在于,所述候选召回信息确定模块包括:
候选匹配得分确定单元,用于对每个召回信息与所述目标对象的第一匹配得分、第二匹配得分和第三匹配得分进行降序排列,将排序最前的匹配得分确定为每个召回信息与所述目标对象的候选匹配得分;
候选召回信息确定单元,用于将与所述目标对象的候选匹配得分大于第二阈值的召回信息确定为所述候选召回信息;
所述标识信息确定模块包括:
标识信息获取单元,用于从标识信息库中获取与所述候选召回信息对应的标识信息;其中,所述标识信息库包括召回信息与标识信息的映射关系;
目标对象的标识信息确定单元,用于将所述候选召回信息对应的标识信息确定为所述目标对象的标识信息。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括:
样本对象集获取模块,用于获取样本对象集;
候选样本对象集获取模块,用于将具有相同名称和类别的样本对象归为一类,得到候选样本对象集;
候选样本召回信息集确定模块,用于基于候选样本对象对应的自然语言处理结果,确定所述候选样本对象对应的候选样本召回信息集;
匹配标签标注模块,用于对每个候选样本召回信息标注匹配标签;其中,所述匹配标签表征所述候选样本召回信息与所述候选样本对象的匹配度;
候选样本关联属性特征获取模块,用于获取每个候选样本召回信息对应的候选样本关联属性特征;其中,所述候选样本关联属性特征表征候选样本召回信息与候选样本对象之间的关联关系;
训练模块,用于基于每个候选样本召回信息对应的候选样本关联属性特征,使用预设机器模型进行信息匹配训练,在所述信息匹配训练中调整所述预设机器模型的模型参数至所述预设机器学习模型输出的匹配标签与输入的候选样本召回信息相匹配;
信息匹配模型确定模块,用于将当前模型参数所对应的机器学习模型作为所述信息匹配模型。
13.一种目标对象的标识信息确定的设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-6任一所述的目标对象的标识信息确定方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-6任一所述的目标对象的标识信息确定方法。
CN201910849794.1A 2019-09-09 2019-09-09 目标对象的标识信息确定方法、装置、设备及存储介质 Active CN110781204B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910849794.1A CN110781204B (zh) 2019-09-09 2019-09-09 目标对象的标识信息确定方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910849794.1A CN110781204B (zh) 2019-09-09 2019-09-09 目标对象的标识信息确定方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110781204A CN110781204A (zh) 2020-02-11
CN110781204B true CN110781204B (zh) 2024-02-20

Family

ID=69384141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910849794.1A Active CN110781204B (zh) 2019-09-09 2019-09-09 目标对象的标识信息确定方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110781204B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444438B (zh) * 2020-03-24 2023-09-01 北京百度网讯科技有限公司 召回策略的准召率的确定方法、装置、设备及存储介质
CN111782979A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 兴趣点的品牌分类方法、装置、设备以及存储介质
CN112541076B (zh) * 2020-11-09 2024-03-29 北京百度网讯科技有限公司 目标领域的扩充语料生成方法、装置和电子设备
CN113852832B (zh) * 2020-11-26 2022-09-20 阿里巴巴集团控股有限公司 视频处理方法、装置、设备和存储介质
CN112711645B (zh) * 2021-01-11 2022-05-10 腾讯科技(深圳)有限公司 一种位置点信息扩展方法、装置、存储介质和电子设备
CN113987309B (zh) * 2021-12-29 2022-03-11 深圳红途科技有限公司 个人隐私数据识别方法、装置、计算机设备及存储介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582085A (zh) * 2008-09-19 2009-11-18 江苏大学 一种基于分布式信息检索系统的集合选择方法
CN101833710A (zh) * 2010-05-07 2010-09-15 中国科学院自动化研究所 一种基于语义的物联网物品信息跟踪和追溯方法
CN102043843A (zh) * 2010-12-08 2011-05-04 百度在线网络技术(北京)有限公司 一种用于基于目标应用获取目标词条的方法与获取设备
CN103854064A (zh) * 2012-11-29 2014-06-11 中国科学院计算机网络信息中心 一种面向特定区域的事件发生风险预测并预警方法
CN104008187A (zh) * 2014-06-11 2014-08-27 北京邮电大学 一种基于最小编辑距离的半结构化文本匹配方法
CN104156413A (zh) * 2014-07-30 2014-11-19 中国科学院自动化研究所 一种基于商标密度的个性化商标匹配识别方法
CN105354300A (zh) * 2015-11-05 2016-02-24 上海智臻智能网络科技股份有限公司 一种信息推荐方法及装置
CN106528845A (zh) * 2016-11-22 2017-03-22 北京百度网讯科技有限公司 基于人工智能的检索纠错方法及装置
CN106557410A (zh) * 2016-10-25 2017-04-05 北京百度网讯科技有限公司 基于人工智能的用户行为分析方法和装置
CN106610937A (zh) * 2016-09-19 2017-05-03 四川用联信息技术有限公司 一种基于信息论的中文自动分词算法
CN107491518A (zh) * 2017-08-15 2017-12-19 北京百度网讯科技有限公司 一种搜索召回方法和装置、服务器、存储介质
CN108509474A (zh) * 2017-09-15 2018-09-07 腾讯科技(深圳)有限公司 搜索信息的同义词扩展方法及装置
CN108776901A (zh) * 2018-04-27 2018-11-09 微梦创科网络科技(中国)有限公司 基于搜索词的广告推荐方法及系统
CN109241319A (zh) * 2018-09-28 2019-01-18 百度在线网络技术(北京)有限公司 一种图片检索方法、装置、服务器和存储介质
CN109255072A (zh) * 2018-08-15 2019-01-22 腾讯科技(深圳)有限公司 信息召回方法及装置、计算机存储介质、电子设备
CN109344395A (zh) * 2018-08-30 2019-02-15 腾讯科技(深圳)有限公司 一种数据处理方法、装置、服务器及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6728621B2 (ja) * 2015-10-13 2020-07-22 日本電気株式会社 成功支援システム、情報処理装置、方法およびプログラム
US10007867B2 (en) * 2016-04-04 2018-06-26 Google Llc Systems and methods for identifying entities directly from imagery

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582085A (zh) * 2008-09-19 2009-11-18 江苏大学 一种基于分布式信息检索系统的集合选择方法
CN101833710A (zh) * 2010-05-07 2010-09-15 中国科学院自动化研究所 一种基于语义的物联网物品信息跟踪和追溯方法
CN102043843A (zh) * 2010-12-08 2011-05-04 百度在线网络技术(北京)有限公司 一种用于基于目标应用获取目标词条的方法与获取设备
CN103854064A (zh) * 2012-11-29 2014-06-11 中国科学院计算机网络信息中心 一种面向特定区域的事件发生风险预测并预警方法
CN104008187A (zh) * 2014-06-11 2014-08-27 北京邮电大学 一种基于最小编辑距离的半结构化文本匹配方法
CN104156413A (zh) * 2014-07-30 2014-11-19 中国科学院自动化研究所 一种基于商标密度的个性化商标匹配识别方法
CN105354300A (zh) * 2015-11-05 2016-02-24 上海智臻智能网络科技股份有限公司 一种信息推荐方法及装置
CN106610937A (zh) * 2016-09-19 2017-05-03 四川用联信息技术有限公司 一种基于信息论的中文自动分词算法
CN106557410A (zh) * 2016-10-25 2017-04-05 北京百度网讯科技有限公司 基于人工智能的用户行为分析方法和装置
CN106528845A (zh) * 2016-11-22 2017-03-22 北京百度网讯科技有限公司 基于人工智能的检索纠错方法及装置
CN107491518A (zh) * 2017-08-15 2017-12-19 北京百度网讯科技有限公司 一种搜索召回方法和装置、服务器、存储介质
CN108509474A (zh) * 2017-09-15 2018-09-07 腾讯科技(深圳)有限公司 搜索信息的同义词扩展方法及装置
CN108776901A (zh) * 2018-04-27 2018-11-09 微梦创科网络科技(中国)有限公司 基于搜索词的广告推荐方法及系统
CN109255072A (zh) * 2018-08-15 2019-01-22 腾讯科技(深圳)有限公司 信息召回方法及装置、计算机存储介质、电子设备
CN109344395A (zh) * 2018-08-30 2019-02-15 腾讯科技(深圳)有限公司 一种数据处理方法、装置、服务器及存储介质
CN109241319A (zh) * 2018-09-28 2019-01-18 百度在线网络技术(北京)有限公司 一种图片检索方法、装置、服务器和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于信息检索的需求跟踪方法综述;胡成海;彭蓉;王帮超;;计算机应用与软件(10);第26-34页 *
税务业务咨询问答系统;陈义;胡志宇;曾玮;吴相录;;计算机应用与软件(02);第116-119页 *

Also Published As

Publication number Publication date
CN110781204A (zh) 2020-02-11

Similar Documents

Publication Publication Date Title
CN110781204B (zh) 目标对象的标识信息确定方法、装置、设备及存储介质
CN110765257B (zh) 一种知识图谱驱动型的法律智能咨询系统
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
CN108664599B (zh) 智能问答方法、装置、智能问答服务器及存储介质
CN106815252B (zh) 一种搜索方法和设备
CN111401066B (zh) 基于人工智能的词分类模型训练方法、词处理方法及装置
CN109920414A (zh) 人机问答方法、装置、设备和存储介质
CN111144723A (zh) 人岗匹配推荐方法及系统、存储介质
CN111105209B (zh) 适用于人岗匹配推荐系统的职位简历匹配方法及装置
CN110866093A (zh) 机器问答方法及装置
CN111444344B (zh) 实体分类方法、装置、计算机设备和存储介质
CN110147421B (zh) 一种目标实体链接方法、装置、设备及存储介质
CN110168535A (zh) 一种信息处理方法及终端、计算机存储介质
CN111309887B (zh) 一种训练文本关键内容提取模型的方法和系统
CN108228567B (zh) 用于提取组织机构的简称的方法和装置
CN110807323A (zh) 情绪向量的生成方法及装置
CN112926308A (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN111552787A (zh) 问答处理方法、装置、设备及存储介质
CN110991183A (zh) 问题的谓词确定方法、装置、设备及存储介质
CN110427470A (zh) 问答处理方法、装置及电子设备
CN112581297B (zh) 基于人工智能的信息推送方法、装置及计算机设备
CN110929526B (zh) 样本生成方法、装置以及电子设备
CN116049376A (zh) 一种信创知识检索回复的方法、装置和系统
CN116431746A (zh) 基于编码库的地址映射方法、装置、电子设备及存储介质
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40023489

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant