CN112307199A - 信息识别、数据处理方法、装置及设备、信息交互方法 - Google Patents

信息识别、数据处理方法、装置及设备、信息交互方法 Download PDF

Info

Publication number
CN112307199A
CN112307199A CN201910632610.6A CN201910632610A CN112307199A CN 112307199 A CN112307199 A CN 112307199A CN 201910632610 A CN201910632610 A CN 201910632610A CN 112307199 A CN112307199 A CN 112307199A
Authority
CN
China
Prior art keywords
feature
category
information
training sample
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910632610.6A
Other languages
English (en)
Inventor
唐铭谦
牛振兴
刘宇
田雷
徐良鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910632610.6A priority Critical patent/CN112307199A/zh
Publication of CN112307199A publication Critical patent/CN112307199A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供一种信息识别、数据处理方法、装置及设备、信息交互方法,该信息识别方法包括:接收任一用户端发送的待识别信息;确定待识别信息对应待识别词语中,属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词;从向量特征库中查找与第一关键词相匹配的第一文本特征;提取第二关键词对应第二文本特征;将第一文本特征以及第二文本特征进行融合,获得待识别特征;基于待识别特征,从对象识别模型对应至少一个类目中识别待识别信息对应的目标类目;根据目标类目,输出至少一个目标对象至用户端,以供用户端展示至少一个目标对象。本发明实施例通过提高特征提取效率以及准确度,以促进对象确定效率以及准确度的提高。

Description

信息识别、数据处理方法、装置及设备、信息交互方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种信息识别、数据处理方法、装置及设备、信息交互方法。
背景技术
随着科技的迅速发展,网络平台的应用越来越广泛,网络平台是指可以通过网络进行对象的交易、展示或者查询的网站。在实际应用中,由于对象的种类非常丰富,可以将每个对象按照其对应的详细对象信息划分到相应的类目中,以便于管理对象信息。
现有技术中,在识别对象类目以获取目标对象时,需要基于确定的对象的详细信息,经过图像提取、词向量转换等方式提取对象的特征,并利用特定的对象识别模型对对象特征进行分类,以确定对象的目标类目。但是,在提取对象的特征时,多采用深度神经网络模型等方式完成特征提取、词向量转换等提取方式,以获得对象的特征。
但是,由于神经网络的计算复杂度比较高,采用深度神经网络模型等方式提取对象的特征时,耗时较长,造成识别效率较低的技术问题。
发明内容
有鉴于此,本发明实施例提供一种信息识别、数据处理方法、装置及设备、信息交互方法,用以解决现有技术中特征提取困难,效率较低导致识别效率较低的技术问题。
第一方面,本发明实施例提供一种信息识别方法,包括:
接收任一用户端发送的待识别信息;
确定待识别信息对应待识别词语中,属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词;
从向量特征库中查找与所述第一关键词相匹配的第一文本特征;其中,所述向量特征库包括属于第一词语类型的至少一个词语对应文本特征;
提取所述第二关键词对应的第二文本特征;
将所述第一文本特征以及所述第二文本特征进行融合,获得待识别特征;
将基于所述待识别特征,从输入对象分类模型对象识别模型对应至少一个类目中识别获得所述待识别信息对应的目标类目;
根据所述目标类目,输出至少一个目标对象至所述用户端,以供所述用户端展示所述至少一个目标对象。
第二方面,本发明实施例提供一种数据处理方法,包括:
确定至少一个训练样本;其中,每个训练样本为一个待分类的样本信息,每个样本信息对应一个样本目标类目;
确定每个训练样本对应训练词语中,属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词;其中,所述向量特征库包括属于第一词语类型的至少一个词语对应文本特征;
从所述向量特征库中查找与每个训练样本的所述第一关键词相匹配的第一样本特征;
提取每个训练样本的所述第二关键词对应的第二样本特征;
将每个训练样对应所述第一样本特征与所述第二样本特征进行融合,获得每个训练样本的样本特征;
构建对象识别模型;
基于所述至少一个训练样本分别对应的样本特征以及样本目标类目,训练所述对象识别模型的分类器以及识别器;其中,所述分类器包括至少一个类目。
第三方面,本发明实施例提供一种信息识别方法,包括:
接收商家端发送的待识别信息;其中,所述待识别信息包括待识别对象 的对象信息;
确定所述待识别信息对应待识别词语中,属于第一词语类型的第三关键词以及属于第二词语类型的第四关键词;
从向量特征库中查找与所述第三关键词相匹配的第三文本特征;其中,所述向量特征库包括属于第一词语类型的至少一个词语对应文本特征;
提取所述第四关键词对应的第四文本特征;
将所述第三文本特征以及所述第四文本特征进行融合,获得待识别特征;
基于所述待识别特征,从所述对象识别模型对应至少一个类目中识别所述待识别信息对应的目标类目;
增加所述待识别信息对应待识别对象至所述目标类目中。
第四方面,本发明实施例提供一种信息交互方法,包括:
商家端获取第一用户输入的第一待识别信息,发送所述第一待识别信息至服务端;其中,所述第一待识别信息包括待识别商品的商品信息;
服务端接收商家端发送的所述第一待识别信息;确定所述第一待识别信息对应待识别词语中,属于第一词语类型的第三关键词以及属于第二词语类型的第四关键词;从向量特征库中查找与所述第三关键词相匹配的第三文本特征;提取所述第四关键词对应的第四文本特征;将所述第三文本特征以及所述第四文本特征进行融合,获得第一待识别特征;基于所述第一待识别特征,从所述对象识别模型对应至少一个类目中识别所述第一待识别信息对应的目标类目;增加所述待识别商品的商品信息至所述目标类目中;
用户端获取第二用户输入的第二待识别信息,发送第二待识别信息至服务端;其中,所述第二待识别信息包括与待查找商品相关的信息;
服务端接收用户端发送的所述第二待识别信息;确定所述第二待识别信息对应待识别词语中,属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词;从向量特征库中查找与所述第一关键词相匹配的第一文本特征;提取所述第二关键词对应的第二特性信息;将所述第一文本特征以及所述第二文本特征进行融合,获得第二待识别特征;基于所述第二待识别特 征,从所述对象识别模型对应至少一个类目中识别所述第二待识别信息对应的目标类目;根据所述目标类目,输出至少一个目标对象至所述用户端;
所述用户端接收到所述至少一个商品的商品信息后,输出查找到的所述至少一个商品的商品信息;
其中,所述向量特征库包括属于第一词语类型的至少一个词语对应文本特征。
第五方面,本发明实施例提供一种信息识别装置,包括:
第一接收模块,用于接收任一用户端发送的待识别信息;
第一分类模块,用于确定待识别信息对应待识别词语中,属于第一词语类型的第一关键词以及属于第二词语类型第二关键词;
第一查找模块,用于从向量特征库中查找与所述第一关键词相匹配的第一文本特征;其中,所述向量特征库包括属于第一词语类型的至少一个词语对应文本特征;
第一提取模块,用于提取所述第二关键词对应的第二文本特征;
第一融合模块,用于将所述第一文本特征以及所述第二文本特征进行融合,获得待识别特征;
第一识别模块,将基于所述待识别特征,从对象识别模型对应至少一个类目中识别所述待识别信息对应的目标类目;
对象输出模块,用于根据所述目标类目,输出至少一个目标对象至所述用户端,以供所述用户端展示所述至少一个目标对象。
第六方面,本发明实施例提供一种数据处理装置,包括:
样本确定模块,用于确定至少一个训练样本;其中,每个训练样本为一个待分类的样本信息,每个样本信息对应一个样本目标类目;
样本分类模块,用于确定每个训练样本对应训练词语中,属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词;
样本特征查找模块,用于从所述向量特征库中查找与每个训练样本的所述第一关键词相匹配的第一样本特征;
样本特征提取模块,用于提取每个训练样本的所述第二关键词对应的第二样本特征;
样本特征融合模块,用于将每个训练样对应所述第一样本特征与所述第二样本特征进行融合,获得每个训练样本的样本特征;
模型构建模块,用于构建对象识别模型;
模型训练模块,用于基于所述至少一个训练样本分别对应的样本特征以及样本目标类目,训练所述对象识别模型的分类器以及识别器;其中,所述分类器包括至少一个类目。
第七方面,本发明实施例提供一种信息识别装置,包括:
第二接收模块,用于接收商家端发送的待识别信息;其中,所述待识别信息包括待识别对象的对象信息;
第二分类模块,用于确定所述待识别信息对应待识别词语中,属于第一词语类型的第三关键词以及属于第二词语类型的第四关键词;
第二查找模块,用于从向量特征库中查找与所述第三关键词相匹配的第三文本特征;
第二提取模块,用于提取所述第四关键词对应的第四文本特征;
第二融合模块,用于将所述第三文本特征以及所述第四文本特征进行融合,获得待识别特征;
第二识别模块,用于基于所述待识别特征,从对象识别模型对应至少一个类目中识别所述待识别信息对应的目标类目;
对象增加模块,用于增加所述待识别信息对应待识别对象至所述目标类目中。
第八方面提供一种信息识别设备,包括:存储组件以及处理组件;所述存储组件用于存储一条或多条计算机指令,所述一条或多条计算机指令用于被所述处理组件调用,以执行本发明任一实施例所述的信息识别方法。
第九方面提供一种数据处理设备,包括:存储组件以及处理组件;所述存储组件用于存储一条或多条计算机指令,所述一条或多条计算机指令用于 被所述处理组件调用,以执行本发明任一实施例所述的的数据处理方法。
本发明实施例,服务端可以接收任一用户端发送的待识别信息,进而可以确定待识别信息对应待识别词语中属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词,以从包括第一词语类型至少一个词语各自文本特征的向量特征库中查找与第一关键词相匹配的第一文本特征;提取所述第二关键词对应的第二文本特征,将待识别信息划分为两种关键词之后,可以采用不同方式确定每种关键词的文本特征。由于第一关键词采用向量特征库查找方式获取相应的第一文本特征,可以以更高效率获得更准确的第一文本特征,从而可以提高待识别特征的获取效率以及该特征的准确度,之后基于待识别特征,确定用户输入的信息所对应的目标类目,提高待分类特征的提取效率,以促进对象类目的确定效率,达到提高目标类目确定效率的目标。而从目标类目所对应的至少一个对象中,查找与所述待识别信息相匹配的至少一个目标对象。实现准确定位目标类目,以从目标类目对应的大量对象中以更高效以及更准确的查找方式获得至少一个目标对象,提高对象查找效率以及准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一个应用场景一个实施例的示例图;
图2为本发明实施例提供的一种信息识别方法的一个实施例的流程图;
图3为本发明实施例提供的一个应用场景又一个实施例的示例图;
图4为本发明实施例提供的一种数据处理方法的一个实施例的流程图;
图5为本发明实施例提供的一种信息识别方法的一个实施例的流程图;
图6为本发明实施例提供的一个应用场景又一个实施例的示例图;
图7为本发明实施例提供的一个应用场景又一个实施例的示例图;
图8为本发明实施例提供的一种信息识别装置的一个实施例的结构示意图;
图9为本发明实施例提供的一种信息识别设备的一个实施例的结构示意图;
图10为本发明实施例提供的一种数据处理装置的一个实施例的结构示意图;
图11为本发明实施例提供的一种数据处理设备的又一个实施例的结构示意图;
图12为本发明实施例提供的一种信息识别装置的一个实施例的结构示意图;
图13为本发明实施例提供的一种信息识别设备的一个实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于识别”。类似地,取决于语境,短语“如果确定”或“如果识别(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当识别(陈述的条件或事件)时”或“响应于识别(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
本发明实施例可以应用于网络对象的识别场景中,通过将待识别信息中包含的词语进行词语类型划分,以快速获得特定词语的特性信息,进而增加待识别信息的特征提取效率,促进信息的类目分类效率。
现有技术中,网络平台上可以发布并展示对象,在一些场景中,网络平台上还可以完成对象的交易或者查询工作。网络平台为了提高针对对象的发布、展示、交易或者被查询的效率,网络平台可以将对象按照其所对应的详细信息划分到相应的类目中。如,可以将手机、电脑、平板电脑等划分到“电子设备”的类目中,还可以将不同品牌的手机,例如,a手机品牌、b手机品牌、c手机品牌的对象等划分到“手机”的类目中。通常,不同的类目之间可以级联关联,例如,在“电子设备”的父类目中包含的“手机”“电脑”“平板电脑”属于该“电子设备”的子类目。而在实际应用中,为了区分不同的对象,网络平台通常还可以为对象设置相应的SPU与SKU,SPU实际可以包含对象的品牌名称、型号等,SKU中除包含品牌名称、型号之外,还可以包含对象的颜色、大小和/或数量等信息。SKU实际为网络平台为对象设置的最小类目,通过SKU即可以确定对象最终的目标类目。
在对象的目标类目的确定场景中,网络平台可以根据用户输入的信息,查找与该信息相匹配的目标类目,以完成对象的发布、交易和/或查询等工作。在查找与用户输入的信息相匹配的目标类目时,需要先基于对象相关的查询信息,使用神经网络模型提取查询信息的图像特征或者词向量特性,以获得对象特征。但是由于神经网络模型的计算复杂度比较高,采用深度神经网络模型等方式提取对象特征时,耗时比较长,提取效率不高,导致对象的类目确定效率降低。
为了更清楚地展示本申请,如图1所示,为现有电子商务场景中,发布商 品的第一应用场景实施例的示意图。以商家端为平板电脑为例,商家可以将对象,也即商品的商品信息输入到商家端M1,商家端M1可以接收商家上传的商品图像、文字描述、声音、视频、SPU和/或SKU等待识别的商品信息,并将待识别的商品信息发送至服务端M2,由服务端M2查找目标类目S101,将商品对应商品信息保存至该目标类目中S102。
此外,图1中,还展示了在电子商务场景中,查找商品的第二应用场景的示意图,用户可以将待查找信息,也即待查找商品的商品信息输入到用户端M3,用户端M3可以将该待查找信息发送至服务端M2,服务端M2使用神经网络模型提取查询信息的图像特征或者词向量特性,以获得对象特征S103,进而查找对象特征对应的目标类目S104,反馈目标类目中的商品S105至用户端M3。
为了解决上述问题,发明人想到在实际应用中,由于与对象相关的信息中通常可以包括对象所对应的对象品牌名称、对象型号等信息是具有特定含义的,在各种对象特征提取时,如果将具有特定含义的信息事先完成对象特征的转换,可以提高对象特征的提取效率,进而提高对象类目的确定效率。据此,发明人提出了本申请的技术方案。
本发明实施例中,服务端可以接收用户端发送的待识别信息,通过确定待识别信息的待识别词语中属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词,将待识别信息按照词语属性进行划分,进而可以从包括第一词语类型至少一个词语各自文本特征的向量特征库中查找与所述第一关键词相匹配的第一文本特征,以及提取第二关键词对应的第二文本特征,以将第一文本特征以及第二文本特征进行融合,获得待识别特征,将待识别特征输入对象识别模型获得待识别信息对应的目标类目。从而,通过将待识别信息的划分,可以快速确定第一关键词的第一文本特征,进而降低待识别信息的特征提取的计算成本,提高文本特征的确定效率,以提高目标类目的确定效率。之后,可以从目标类目对应的至少一个对象中,查找与待识别信息相匹配的至少一个目标对象。通过准确定位准确定位目标类目,以从目标类目对应的大量对象中以更高效以及更准确的查找方式获得至少一个目标对象,提高对象查找效率以及 准确度。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
图2为本发明实施例提供的一种信息识别方法的一个实施例的流程图。如图2所示,该方法包括如下步骤:
201:接收任一用户端发送的待识别信息。
本发明实施例可以应用于网络平台中,网络平台可以包括前端以及后端,网络平台的前端,也即用户端或者商家端。用户端可以基于用户请求,完成网络平台中的对象查询浏览或者交易等内容;商家端可以基于商家的发布请求,在网络平台上发布对象;网络平台的后端也即服务端,可以为用户提供对象查询、浏览或者交易等服务,还可以为商家提供对象的发布、查询或者交易等服务。本发明实施例可以应用于服务端中,由服务端完成识别工作。
在识别过程中,用户端需要先与服务端建立网络连接,之后,用户端可以发送待识别信息至服务端,以供服务端接收待识别信息,进而执行本发明实施例的技术方案,查找待识别信息的的目标类目,之后将查找到的目标类目包含的至少一个对象发送至用户端,以供用户端输出所述至少一个对象。用户通过在用户端查找目标类目的至少一个对象,可以获得相关对象信息,进而对至少一个对象中的任一个或多个对象发起交易、展示等操作请求。
202:确定待识别信息对应待识别词语中,属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词。
其中,待识别信息可以指与对象的详细信息相关的内容,待识别信息中可以包含对象详细信息,例如,可以包括对象标题、名称、颜色、大小、数量和/或型号等内容相关的信息。
在一些应用场景中,由于对象的详细信息可以包括对象名称、标题、型号等信息,此外,在商品交易场景中,对象的详细信息还可以包括对象所属的品牌名称等,这些专属于某些对象的词语具有专属性,这类词语的指代性较强,因此,可以将待识别信息中的词语按照不同属性划分成两类词语,其中一类为指代性比较强的词语,一类为普通的、语义明确的词语,其中,可以将指代性 比较强的词语划分至第一关键词,可以将普通、语义明确的词语划分至第二关键词,以分别采用不同的特征提取方式确定待识别信息中的不同词语所对应的文本特征。例如,专有的指代性词语可以包括某化妆品的品牌名,而普通词语可以为红色、羊毛等具有普遍语义明确的词语。
服务端获取到待识别信息之后,可以对待识别信息进行自然语言分析处理(NLP,Natural Language Processing),也即对每个词语进行进行编码获得词向量,并对各个词语进行命名实体识别(Named Entity Recognition,NER)处理,以将待识别信息中的词语进行分类,获得第一关键词以及第二关键词。
所述确定待识别信息对应待识别词语中,属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词之前,所述方法还可以包括确定待识别信息对应待识别词语。所述确定待识别信息对应待识别词语可以包括:提取待识别信息中的文字中包含的关键词以及提取待识别信息中的图像中包括的关键词。
203:从向量特征库中查找与第一关键词相匹配的第一文本特征。
其中,所述向量特征库包括属于第一词语类型的至少一个词语对应文本特征。所述向量特征库基于至少一个词语对应的文本特征预先建立获得。所述向量特征库中可以存储有至少一个词语,以及每个词语对应的文本特征。
第一词语类型中包括的每个词语的词语含义确定,例如,品牌名称、型号等均可以为第一词语类型的词语,每个词语所代表的含义是预定义的,且具有特殊含义。
由于第一关键词的语义指代性比较强,为了简化第一关键词的对应词向量的训练过程,可以事先建立所有属于第一词语类型的词语对应文本特征所对应的向量特征库,文本特征可以是文本向量或者文本矩阵,并在实际分类过程中,直接从向量特征库中查找与待查找信息中的第一关键词相匹配的第一文本特征,进而直接获得待查找信息中指代性较强的词语的文本特征,提高第一关键词的特征确定效率。
204:提取第二关键词对应的第二文本特征。
第二关键词为含义确定的普通词语,例如,对象的颜色、材质等信息。其 中,可以采用神经网络算法、Word2Vec等特征提取算法完成第二关键词的词嵌入处理,获得第二关键词对应的第二文本特征,第二文本特征可以是特征向量或者特征矩阵。
可选地,特征可以以特征向量或特征矩阵的形式表示。第一关键词可以包括至少一个,对应至少一个第一文本特征也即至少一个第一特征向量或者至少一个第一特征矩阵,第二关键词可以包括至少一个,对应至少一个第二文本特征,也即至少一个第二特征向量或者至少一个第二特征矩阵。
205:将第一文本特征以及第二文本特征进行融合,获得待识别特征。
将第一文本特征以及第二文本特征进行融合,获得待识别特征具体可以指将第一文本特征以及第二文本特征进行特征拼接,获得待识别特征。
第一文本特征包括至少一个第一特征向量以及第二文本特征包括至少一个第二特征向量时,将第一文本特征以及第二文本特征进行特征拼接具体可以是将至少一个第一特征向量以及至少一个第二特征向量按照每个特征向量对应识别词语在待识别详细中的顺序进行向量拼接,获得待识别特征。
第一文本特征包括至少一个第一特征矩阵以及第二文本特征包括至少一个第二特征矩阵时,将第一文本特征以及第二文本特征进行特征拼接具体可以是将至少一个第一特征矩阵以及至少一个第二特征矩阵按照每个特征矩阵对应识别词语在待识别详细中的顺序进行矩阵拼接,获得待识别特征。
可选地,由于第一关键词可以包括至少一个,第二关键词可以包括至少一个,每个关键词对应一个特征向量或特征矩阵。在对第一文本特征以及第二文本特征进行融合时,还可以将待识别信息按照第一关键词以及第二关键词的词语分类,将每类关键词对应的文本特征进行拼接之后,再将第一关键词对应的拼接文本特征以及第二关键词对应的拼接文本特征进行拼接,获得待识别特征。本发明实施例中提供的特征融合方式仅仅是示例性的,仅仅是为了便于对特征融合的实现方式进行解释说明,并非是限定文本特征的融合方式,任何一种词语排布、顺序设置和/或加权处理而形成的特征融合方式均属于本发明实施例所包含的融合方法,在此不再赘述。
206:基于所述待识别特征,从对象识别模型对应至少一个类目中识别所述待识别信息对应的目标类目。
所述至少一个类目为对象识别模型现有类目。以电子商务场景为例,至少一个类目可以为所有商品对应不同主题的主题名称,例如,电子产品、服装、食品等为不同的类目。
待识别特征中包含待识别信息中的特征属性,可以基于待识别特征确定待识别信息的目标类目。对象识别模型可以预先训练获得,对象识别模型可以基于待识别特征,对待识别信息进行分类处理,从至少一个类目中获取待识别信所属目标类目。
为了提高计算效率,对象识别模型对象识别模型中可以包含至少一个类目各自的分类特征,并将待识别特征与每个类目对应分类进行比较,将与待识别特征的特征差异最小的分类特征对应的类目作为目标类目。
对象识别模型可以基于至少一个类目对应的至少一个训练数据预先训练获得。
207:根据所述目标类目,输出至少一个目标对象至所述用户端,以供所述用户端展示所述至少一个目标对象。
本发明实施例中,服务端可以接收任一用户端发送的待识别信息,进而可以确定待识别信息对应待识别词语中属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词,以从向量特征库中查找与第一关键词相匹配的第一文本特征;提取所述第二关键词对应的第二文本特征,将待识别信息划分为两种关键词之后,可以采用不同方式确定每种关键词的文本特征。由于第一关键词采用向量特征库查找方式获取相应的第一文本特征,可以以更高效率获得更准确的第一文本特征,从而可以提高待识别特征的获取效率以及该特征的准确度,之后基于待识别特征,确定用户输入的信息所对应的目标类目,提高待分类特征的提取效率,以促进对象类目的确定效率,达到提高目标类目确定效率的目标。而从目标类目所对应的至少一个对象中,查找与所述待识别信息相匹配的至少一个目标对象。实现准确定位目标类目,以从目标类目对应的大量 对象中以更高效以及更准确的查找方式获得至少一个目标对象,提高对象查找效率以及准确度。
在图2所示的实施例中,在获得待识别信息的目标类目之后,直接将目标类目的所有对象,也即至少一个对象发送至用户端,由用户端输出。但是这种将所有对象一并发送至用户端输出的方式,对用户查找所需对象而言,实际对象的数量还是很大,展示效率比较低,不利于用户的浏览。
因此,作为一个实施例,所述根据所述目标类目,输出至少一个目标对象至所述用户端,以供所述用户端展示所述至少一个目标对象可以包括:
从所述目标类目对应至少一个对象中,查找与所述待识别特征相匹配的目标对象;
将所述至少一个目标对象发送至所述用户端,以供所述用户端输出所述至少一个目标对象。
而每个对象与待识别信息的匹配过程可以根据其各自的特征进行。作为一种可能的实现方式:所述从所述目标类目对应至少一个对象中,查找与所述待识别特征相匹配的目标对象可以包括:
确定所述目标类目的所述至少一个对象分别对应的对象特征;
基于所述待识别特征以及所述至少一个对象各自的对象特征,从所述至少一个对象中查找与所述待识别信息相匹配的目标对象。
在基于待识别特征以及至少一个对象各自的对象特征,从至少一个对象中查找与待识别信息相匹配的目标对象时,可以分别计算待识别特征与每个对象的对象特征的特征相似度,并按照特征相似度由大到小的顺序进行排序,选取其中相似度最高的至少一个特征相似度对应的对象为目标对象。
待识别特征可以包括第一关键词对应的第一文本特征,以及第二关键词对应的第二文本特征。任一对象的对象特征可以包括第五关键词对应的第五文本特征,以及第六关键词对应的第六文本特征。
在计算待识别特征与每个对象的对象特征的特征相似度时,具体可以是: 计算第一文本特征与每个第五文本特征的第一对象相似度;计算第二文本特征与每个第六文本特征的第二对象相似度;基于待识别特征与每个对象的第一对象相似度与第二对象相似度,确定待识别特征与每个对象特征的特征相似度。特征相似度可以利用第一对象相似度以及第二对象相似度加权求和获得。
而在实际应用中,由于用户输入的待识别信息中的第一关键词的数量可以是多个以及第二关键词的数量也可以是多个,每个对象的相关详细信息中对应第五关键词的数量可以是多个以及第六关键词的数量也可以是多个。因此,第一文本特征中可以包括至少一个第一关键词的特征向量或特征矩阵,第二文本特征中可以包括至少一个第二关键词的特征向量或者特征矩阵。同样,第五文本特征中可以包括至少一个第五关键词的特征向量或特征矩阵,第六文本特征中可以包括至少一个第六关键词的特征向量或特征矩阵。
第一词语类型的每个词语对应的特征向量或特征矩阵,与自身的点乘积为1,与其他特征向量或特征矩阵的点乘积为0,则计算第一文本特征与每个第五文本特征的第一对象相似度可以计算第一文本特征包含的至少一个第一特征向量与至少一个第五特征向量的点乘积,获得的计算结果,该计算结果即可以确定第一文本特征与第五文本特征的第一对象相似度。例如,假设待识别信息中包含两个第一关键词,这两个第一关键词的两个特征向量为A和B,第五文本特征中可以包括三个第五关键词,这三个第五关键词的三个特征向量分别为B、C和D,则两个第一特征向量与三个第五特征向量的点乘积为:
(A+B)*(B+C+D)=AB+AC+AD+B*B+B*C+BD≈1
其中,获得的计算结果1即代表待识别信息对应第一关键词与对象信息对应第五关键词相匹配的词语的数量,计算结果可以代表第一文本特征与第五文本特征的第一对象相似度,当然,计算结果的数量越大相似度越高,数量越小相似度越低。关于此实施例中特征向量的获取过程在下文的实施例中进行详细描述。
通过将目标类目对应至少一个对象中对象特征与待识别特征相似度较高的对象作为目标对象,输出到用户端,以对用户所需的对象执行了进一步的筛选, 可以提高输出的目标对象与用户的需求的匹配程度,识别效果更佳,精度更高。
在某些实施例中,所述第一词语类型包括具有特定词语含义的词语类型。第一关键词的词语含义的指代性明确。
所述第二词语类型包括具有普通词语含义的词语类型。
其中,具有特定含义的词语具体可以指:对象的品牌名称、型号等含义固定或者表达内容单一、含义特定不变的词语。例如,品牌A、型号B、品牌C即属于第一词语类型。
向量特征库可以是预先建立的符合第一词语类型相关特性的所有词语对应特征向量或者特征矩阵构成的数据库。
所述从向量特征库中查找与第一关键词相匹配的第一文本特征可以包括:
从向量特征库中查找与第一关键词相匹配的目标词语;获取所述目标词语在向量特征库中关联存储的特征向量或者特征矩阵,获得所述第一关键词的第一文本特征。
普通词语具体可以指无指代意义,语义明确的词语,例如,羊毛、红色即属于第二词语类型。
根据词语不同类型对待识别信息的待识别词语进行划分,由于某些词语的指代性较强,可以对其中的第一词语类型的各个词语进行特征向量或特征矩阵的预生成,并将特征向量或特征矩阵与对应词语关联存储至向量特征库,进而可以从向量特征库中,查找与第一关键词相匹配的第一文本特征,快速确定待查找信息中的部分特征,提高待查找信息的特征提取效率,进而提高分类效率。
作为一种可能的实现方式,所述向量特征库可以通过以下方式确定:
确定具有特定含义的至少一个词语;
为每个词语随机生成一个参考向量,获得至少一个参考向量;
将每个词语的参考向量进行向量内积归一处理,获得至少一个文本特征;
将所述至少一个词语以及每个词语对应文本特征关联存储,以构成所述向 量特征库。
可选地,被向量内积归一处理的参考向量具体可以指调整参考向量,使调整后的参考向量与其自身的向量内积等于1。当调整后的参考向量满足与自身向量内积等于1的条件时,确定该调整后的参考向量为对应词语的文本特征。向量内积可以指两个向量的数量积,将两个向量中对应位置的元素一一相乘之后求和。例如,假设调整后的参考向量
作为一种可能的实现方式,所述将每个词语的参考向量进行向量内积归一处理,获得至少一个文本特征包括:
基于每个参考向量的向量2范数,将所述至少一个参考向量进行向量内积归一处理,获得所述至少一个文本特征。
在某些实施例中,所述基于每个参考向量的向量2范数,将所述至少一个参考向量进行向量内积归一处理,获得所述至少一个文本特征包括:
计算每个参考向量的向量2范数;
遍历所述至少一个词语的参考向量,如果任一个词语的参考向量的向量2范数与1的差值小于第一阈值,确定所述参考向量为对应词语的文本特征;如果任一个词语的参考向量的向量2范数与1的差值大于所述第一阈值,基于所述向量2范数调整所述参考向量中的元素,获得所述参考向量对应词语的文本特征。
可选地,所述如果任一个词语的参考向量的向量2范数与1的差值大于所述第一阈值,基于所述向量2范数调整所述参考向量中的元素,获得所述参考向量对应词语的文本特征包括:
如果任一个词语的参考向量的向量2范数与1的差值大于所述第一阈值,计算所述参考向量中每个元素与所述向量2范数的商,获得目标向量,将所述目标向量作为所述参考向量对应词语的文本特征。
其中,第一阈值无限接近于0,可以根据实际对识别误差的要求而设定,例如,可以设置为0.001等,第一阈值越小,获得的词语的文本特征越准确,识别误差减小,第一阈值越大,获得的词语的特性信息越粗糙,识别误差增大。
当任一个词语的参考向量的向量2范数与1的差值小于第一阈值时,说明该参考向量的向量2范数接近等于1,此时,该参考向量与自身正交。例如,假设参考向量为A,调整后的参考向量为A’,A’与A’两个向量的向量2范数为1。
如果任一个词语的参考向量的向量2范数与1的差值小于范数阈值,将每个词语的参考向量作为该词语的文本特征,获得至少一个词语分别对应的文本特征。
如果任一个词语的参考向量的向量2范数与1的差值大于范数阈值,利用所述参考向量的向量2范数调整所述参考向量,将调整后的参考向量作为所述词语的文本特征,获得至少一个文本特征。
通过将每个词语的参考向量进行内积归一处理,可以使得每个词语的文本特征符合内积等于1的特征提取条件,进而可以基于每个词语的文本特征迅速确定与其匹配的目标类目,提高向量提取过程。
向量特征库是基于所有符合第一关键词条件的词语所对应的特征关联建立获得,其中,每个词语与其对应的特征向量或者特征矩阵关联存储。
在文本特征包括特征矩阵时,同样可以为每个词语随机生成一个参考矩阵,获得至少一个参考矩阵,将至少一个参考矩阵进行归一化处理,以获得至少一个文本特征。将至少一个词语以及每个词语对应文本特征关联存储,以构成向量特征库。
在基于待识别特征对待识别信息进行分类的过程中,由于某些人为因素,可能导致某些特征不能被对象识别模型识别,例如,对象分类信息属于一个新类目,而现有的对象识别模型中包含的至少一个类目不包括该新类目,如果仍然使用原有的对象识别模型,可能会对该待识别信息进行强制分类,获得并不精确的分类结果,出现错误分类。这一现象不但会导致对象识别模型的分类精度降低还会导致无效分类。因此,如果将对象识别模型中增加识别器,先对待识别信息是否满足分类条件进行判断,满足识别条件时,再执行进一步的分类。
作为一个实施例,所述对象识别模型可以包括分类器以及识别器。其中, 所述分类器包括至少一个类目。
所述基于所述待识别特征,从对象识别模型对应至少一个类目中识别所述待识别信息对应的目标类目包括:
将所述待识别特征输入所述对象识别模型的分类器,获得分类结果;
将所述待识别特征输入所述对象识别模型的识别器,获得识别结果;
如果所述识别结果满足识别条件,基于所述分类结果,从所述分类器对应至少一个类目中确定所述待识别信息对应的目标类目;
如果所述识别结果不满足识别条件,确定所述待识别信息的目标类目为空类目。
所述对象识别模型中的分类器以及识别器可以识别对象所属类别。其中,识别器可以判断待识别特征是否属于现有至少一个类目,以进行类目判断,进一步分类器可以对待识别特征进行分类,获得待识别信息所属的目标类目。在识别结果不满足识别条件时,说明待识别信息不属于现有至少一个类目中的任一个类目,可以将待识别信息划分到空类目中。将待分类的信息进行识别判断,可以使得对预期具有较高识别准确度,而对于预期具有较低识别度的待识别信息拒识,可以提高对待识别信息的识别精度。
对象识别模型中的识别器可以识别待识别信息是否可以被识别,是否属于现有至少一个类目中的任一个类目。为了便于理解,可以识别器对应的空类目命名为识别类目,该识别类目具体含义为与对象识别模型中的分类器现有的至少一个类目不同的类目,也即不能被识别的类目,也即可以理解为空类目。通过识别器中识别类目可以对待识别信息进行识别判断,以提高识别的准确度。
在某些实施例中,所述识别器可以包括识别类目;
所述将所述待识别特征输入所述对象识别模型的识别器,获得识别结果包括:
将所述待识别特征输入所述对象识别模型的识别器,获得所述待识别特 征对应所述识别类目的识别概率。
识别类目的设置可以实现对待识别信息的分类确定性预估,进而实现待识别信息的识别置信度进行确定,如识别概率较高,说明可被识别的置信度较高,此时可以基于分类结果,确定待识别信息的目标类目;如识别概率较低,说明可被识别的置信度较低,因此,可以确定该待识别信息不对应分类器中的任一个类目,可以将该待识别信息划分到空类目中。
作为一种可能的实现方式,可以通过设置识别阈值的方式确定识别概率属于高或者属于低,为了区别不同的阈值,可以将识别阈值命名为第二阈值。所述所述如果所述识别结果满足识别条件,基于所述分类结果,从所述分类器对应至少一个类目中确定所述待识别信息对应的目标类目包括:
如果所述识别概率大于第二阈值,基于所述分类结果,从所述分类器对应至少一个类目中确定所述待识别信息对应的目标类目。
在一种可能的设计中,所述如果所述识别结果不满足识别条件,确定所述待识别信息对应目标类目为空类目可以包括:
如果所述识别概率不大于所述第二阈值,确定所述待识别信息对应目标类目为空类目。
在实际应用中,对象识别模型可以预先训练获得,对象识别模型通常可以是神经网络模型、各种可学习模型等,通过训练对象识别模型,可以获得对象识别模型的分类器以及识别器。训练对象识别模型的识别器可以包括通过训练获得识别器对应的第一参考特征,第一参考特征可以代表识别器,可以直接利用第一参考特征特征与待识别特征进行特征相似度计算,以获得两种特征的相似度,从而获取待识别特征识别概率。
因此,作为一种可能的实现方式,所述别类目对应有第一参考特征;
所述将所述待识别特征输入所述对象识别模型的分类器,获得所述待识别特征对应所述识别类目的识别概率包括:
计算所述待识别特征与所述第一参考特征的第一相似度;
基于所述第一相似度,确定所述待识别特征对应所述识别类目的识别概 率。
通过计算待识别特征与第一参考特征的第一相似度,可以准确获得识别概率。
进一步,可选地,第一参考特征包括第一参考子特征;所述待识别特征包括至少一个待识别子特征;
所述计算所述待识别特征与所述第一参考特征的第一相似度可以包括:
分别计算每个待识别子特征,与所述至少一个第一参考子特征的第一特征相似度;
确定第一特征相似度中大于第一相似度阈值的第一目标相似度;
计算所述第一目标相似度的数量与所述第一特征相似度的总数量的第一比值;
确定所述第一比值为所述第一相似度;
所述基于所述第一相似度,确定所述待识别特征对应所述识别类目的识别概率包括:
计算数值1与所述第一相似度的差值,获得所述待识别特征对应所述识别类目的识别概率。
在特征提取时可以同时获得多个子特征,例如,采用滤波器对提取图像进行多尺度、多方向的特征提取,获得多个子特征。而待识别特征具体可以指通过特征提取、特征查找等方式获得,待识别特征中可以包括至少一个待识别子特征,用以通过不同的待识别子特征提取不同类别或者属性的文本特征。每个待识别子特征可以指特征向量或者特征矩阵,通过至少一个特征向量或者至少一个特征矩阵可以构成待识别特征。
识别器对应识别类目的第一参考特征是基于训练获得的,识别特征同样可以由至少一个第一参考子特征构成,以通过至少一个第一参考子特征进行识别判断。
计算任一待识别子特征与任一第一参考子特征的第一特征相似度时,具体可以计算待识别子特征与第一参考子特征的特征距离,获得第一特征相似 度。计算待识别子特征与第一参考子特征的特征距离时,可以计算两个特征的明氏距离、欧式距离、余弦距离、切比雪肤距离等。
在一些应用场景中,网络平台中包含的对象的类目已知,也即,分类器中所包含的类目已知,需要根据不同对象信息将相应对象划分到相应的类目中。因此,在一些实施例中,所述分类器可以包括至少一个类目;
所述将所述待识别特征输入所述对象识别模型的分类器,获得分类结果包括:
将所述待识别特征输入所述对象识别模型的分类器,获得所述识别特征分别对应至少一个类目的分类概率;
所述如果所述识别结果满足识别条件,基于所述分类结果,从所述分类器对应至少一个类目中确定所述待识别信息对应的目标类目包括:
如果所述识别结果满足识别条件,基于所述待识别特征分别对应至少一个类目的分类概率,确定所述待识别信息对应的目标类目。
分类器中可以包括至少一个类目,至少一个类目是现有的已知类目。需要说明的是,识别器中的识别类目,实际可以代表不存在的类目,为了表述清楚,将实际中不存在的类目命名为识别类目,也即空类目,通过识别类目对应的识别特征进行识别判别,以提高识别精度。
在实际应用中对象识别模型实际可以通过训练获得,而训练获得的分类器,实际是训练获得分类器中至少一个类目分别对应的第二参考特征,每个类目的第二参考特征特征均可以代表该类目,以对不同的待识别特征进行类目预估,获得分类结果。
因此,作为一个实施例,所述至少一个类目中的任一个类目对应有一个第二参考特征;
所述将所述待识别特征输入所述对象识别模型的分类器,获得所述识别特征分别对应至少一个类目的分类概率包括:
分别计算所述待识别特征与每个第二参考特征的第二相似度;
根据待识别特征与每个第二参考特征的第二相似度,确定所述待识别特征对应每个类目的分类概率,获得至少一个分类概率。
在特征提取过程中,可能同时获得多个子特征,因此,所述任一个第二参考特征包括至少一个第二参考子特征;所述待识别特征包括至少一个待识别子特征。所述分别计算所述待识别特征与每个第二参考特征的第二相似度可以包括:
分别计算每个待识别子特征,与每个第二参考特征对应至少一个第二参考子特征的第二特征相似度;
确定所有第二特征相似度中大于第二相似度阈值的第二目标相似度;
计算所述第二目标相似度的数量与所有第二特征相似度的总数量的第二比值;
确定所述第二比值为所述第二相似度。
所述分别计算所述待识别特征与每个第二参考特征的第二相似度还可以包括:
分别计算每个待识别子特征,与每个第二参考特征对应至少一个第二参考子特征的第二特征相似度;
确定至少一个待识别子特征与至少一个第二参考子特征之间的所有第二特征相似度;
获取所有第二特征相似度中,相似度的值大于第二相似度阈值的数量占所有第二特征相似度的总数量的第二比值;
确定所述第二比值为所述第二相似度。
每个第二参考子特征可以为一个特征向量或者特征矩阵,每个待识别子特征也可以为一个特征向量或者特征矩阵。因此,在计算任一待识别子特征与任一第二参考子特征的特征相似度具体可以是:计算待识别子特征与第二参考子特征的特征距离,获得第二特征相似度。计算待识别子特征与第二参考子特征 的特征距离时,具体可以计算两个特征的明氏距离、欧式距离、余弦距离、切比雪肤距离等。
在一些实施例中,分类器中可以包含至少一个类目,将待识别信息进行分类,具体指确定分类器所包含的至少一个类目中,该待识别信息所属的类目,获得目标类目。
在实际分类过程中,为了获得使目标类目范围更广泛,以供用户查看待识别信息的类目。作为一种可能的实现方式,所述如果所述识别结果满足识别条件,基于所述待识别特征分别对应至少一个类目的分类概率,确定所述待识别信息对应的目标类目可以包括:
如果所述识别结果满足识别条件,确定所述至少一个分类概率中大于第三阈值的目标分类概率;
确定所述目标分类概率对应的类目为所述待识别信息对应的目标类目。
在实际分类过程中,为了为用户展示准确度最高的类目,作为又一种可能的实现方式,所述如果所述识别结果满足识别条件,基于所述待识别特征分别对应至少一个类目的分类概率,确定所述待识别信息对应的目标类目可以包括:
如果所述识别结果满足识别条件,确定所述至少一个分类概率中的最大分类概率;
确定所述最大分类概率对应的类目为所述待识别信息对应的目标类目。
在一些实施例中,图2所示的实施例可以应用于服务端中,所述服务端可以指具有多端协同处理功能的服务端,例如,可以是CDN节点,其中,可以将部分词语的处理过程由距离用户端较近的服务端完成,部分词语的处理过程可以由距离用户端较远的服务端完成,以实现服务端更快速的响应用户端的识别访问,提高识别处理效率。
作为一种可能的实现方式,所述从向量特征库中查找与所述第一关键词 相匹配的第一文本特征可以包括:
确定所述第一关键词中的第一本地关键词以及第一边缘关键词;
从本地服务器的向量特征库中查找与所述第一本地关键词相匹配的第一文本子特征;
从边缘服务器的向量特征库中查找与所述第一本地关键词相匹配的第二文本子特征;
确定所述第一文本子特征以及所述第二文本子特征对应的第一文本特征。
作为又一种可能的实现方式,所述提取所述第二关键词对应第二文本特征包括:
确定所述第二关键词中的第二本地关键词以及第二边缘关键词;
在第二本地服务器中提取第二本地关键词对应的第三文本子特征;
在第二边缘服务器中提取第二边缘关键词对应的第四文本子特征;
确定所述第三文本子特征以及所述第四文本子特征对应的第二文本特征。
所述第一本地服务器与所述第二本地服务器可以相同也可以不同,可以根据实际处理需求而设定。
所述第一边缘服务器与所述第二边缘服务器可以相同也可以不同,可以根据实际处理需求而设定。
在一些实施例中,如果用户端检测到用户输入的图像信息或者语音信息,可以提取用户在用户端输入的图像信息或者语音信息对应的词语,此时可以将获得的词语发送至用户端,由用户端输出这些词语为用户展示,进而用户可以对词语进行确认,用户端可以检测用户确认的词语,并将用户确认的词语发送至服务端。此时,所述确定所述待识别信息对应待识别词语中,属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词包括:
发送所述待识别信息对应待识别词语至用户端,以供所述用户端输出所述待识别词语,检测用户针对待识别词语的选择操作,获得目标词语;
确定所述目标词语中属于所述第一词语类型的所述第一关键词以及属于所 述第二词语类型的第二关键词。
利用用户对语音识别或者图像处理获得的词语进行确认处理,可以提高待识别词语与用户需求的匹配度,促进类目的查找精度。
在一些实施例中,在接收任一用户端发送的待识别信息之后,所述方法还可以包括:
确定待识别信息对应待识别词语。
在一些可能的设计中,所述待识别信息可以包括文字信息、图像和/语音数据;
所述确定待识别信息对应待识别词语可以包括:
对所述文字信息进行语义分析,获得所述文字信息对应的文字关键词,对所述图像进行图像识别处理,获得所述图像中包含的图像信息对应的图像关键词,和/或,对所述语音数据进行语音识别处理,获得所述语音数据对应语音关键词;
确定所述文字关键词、所述图像关键词和/或所述语音关键词构成的待识别词语。
可选地,待识别信息可以为用户在用户端输入的文字形成的文字信息。在一些实施例中,用户端可以检测用户输入的商品文字、提供的商品图像、商品视频、商品语音数据等信息,从而从文字、图像、视频或者语音中提取与商品有关的词语,获得待查找商品的待识别词语,进而通过待识别词语查找相应的商品对象。
可选地,待识别信息还可以指通过用户端采集的语音数据对应的语音关键词所述语音数据可以是用户端可以通过麦克风采集的。用户端采集语音数据之后,可以将语音数据发送至服务端,由服务端通过语音信号处理获得语音关键词。
此外,待识别信息还可以是图像,用户可以将与待查找对象相关的图像输入用户端,由用户端将图像发送至服务端。服务端接收到图像之后,可以采用 文字识别算法、颜色提取算法和/或轮廓提取算法等提取图像中的图像特征,并利用提取到的图像特征进行图像识别处理,获得图像中包含的图像信息构成的相关词语,获得图像关键词。
用户可以通过文字信息、图像和/或语音数据进行对象的查找,以更全面的对象查找内容为用户提供查找服务,丰富本申请实施例的查找范围。
在一些可能的设计中,获得待识别信息对应的词语之后,可以对其词语按照一定需求进行筛选,例如,获得与预设词语含义相似的词语,获得获得具有某个属性的词语,进而使得获得的待识别词语可以与预设查找标准匹配度更高,提高查找精度。所述确定所述待识别信息对应待识别词语可以包括:
提取所述待识别信息对应的词语,获得至少一个词语;
确定所述至少一个词语中满足匹配条件的词语为所述待识别词语。
其中,至少一个词语中满足所述匹配条件的词语具体可以包括至少一个词语中与预设参考词语含义满足相似度阈值的词语,或者具有预设属性的词语。参考词语与至少一个词语中任一个词语的相似度阈值可以通过参考词语的词向量,以及该至少一个词语中任一个词语的词向量的向量距离确定。向量距离可以利用欧式距离等距离计算公式计算获得。至少一个词语中具有预设属性的词语具体可以指对至少一个词语进行语义分析,获得至少一个词语分别对应的语义分析结果,并基于每个词语对应的语义分析结果确定该词语是否具有预设属性。
在用户通过用户端发送待识别信息至服务端时,服务端可以获取到用户端对应用户的身份信息,此时,可以基于用户的身份信息,对用户的历史行为进行分析,以结合用户的历史行为,对用户进行相应的内容推荐,以提供与用户历史购物行为更准确的对象,提高识别精度。
作为一个实施例,所述方法还可以包括:
确定所述用户端对应用户的用户身份信息;
基于所述用户身份信息,获取所述用户的历史记录信息;
根据所述历史记录信息,生成历史关键词;
所述确定所述待识别信息对应待识别词语中,属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词包括:
确定所述待识别信息对应待识别词语以及所述历史关键词中,属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词。
由于不同词语的含义可能近似,但是,词语表述并不相同,例如,珍珠红、珊瑚红、西瓜红等词语描述的均为红色系的词语,每个词语的表述不同,因此,可以将表述不同且含义相近的词语预先建立词语表或者词语库,进而在获取到第一关键词以及第二关键词之后,还可以对第一关键词以及第二关键词进行词语范围的扩展,以扩大词语的识别范围,提高识别范围,为用户提供更多的识别对象供用户选择。
因此,作为一个实施例,所述方法还可以包括:
确定与所述第一关键词存在语义关联的第一关联关键词;
确定与所述第二关键词存在语义关联的第二关联关键词;
从所述向量特征库中查找与所述第一关联关键词相匹配的第一关联文本特征;
提取所述第二关联关键词对应的第二关联文本特征;
基于所述第一关联文本特征,从对象识别模型对应至少一个类目中识别第一关联关键词对应的第一关联类目;
基于所述第二关联文本特征,从对象识别模型对应至少一个类目中识别第二关联关键词对应的第二关联类目;
输出所述第一关联类目对应至少一个第一关联对象以及所述第二关联类目对应至少一个第二关联对象至所述用户端,以供所述用户端输出至少一个第一关联对象以及至少一个第二关联对象。
当然,可以分别针对第一关键词以及第二关键词进行关联处理,以扩展识别范围,提供更多识别对象供用户查阅。
在一种可能的设计中,所述方法还可以包括:
确定与第一关键词存在语义关联的第一关联关键词;
从文本特征库中查找与所述第一关联关键词相匹配的第一关联文本特征;
基于所述第一关联文本特征,从对象识别模型对应至少一个类目中识别第一关联文本特征对应的第一关联类目;
输出第一关联类目对应至少一个第一关联对象至用户端,以供用户端输出所述至少一个第一关联对象。
在一种可能的设计中,所述方法还可以包括:
确定与第二关键词存在语义关联的第二关联关键词;
提取第二关联关键词对应的第二关联文本特征;
基于第二关联文本特征,从对象识别模型对应至少一个类目中识别第二关联文本特征对应的第二关联类目;
输出第二关联类目对应至少一个第二关联对象至用户端,以供用户端输出至少一个第二关联对象。
第一关联关键词可以从与第一关键词相关的第一关联词库中查找,第二关联关键词可以从与第二关联词相关的第二关联词库中查找。
其中,第一关联词库中的词语属于具有特定词语含义的词语类型,第二关联词库中的词语属于具有普通词语含义的词语类型。
如果用户查找的类目已确定,为了提高用户针对对象的交易、点击等操作的概率,可以将与目标类目关联的对象推荐给用户。作为一个实施例,所述方法还可以包括:
确定与所述目标类目存在推荐关系的至少一个推荐对象;
发送所述至少一个推荐对象至所述用户端,以供所述用户端输出所述至少一个推荐对象。
其中,至少一个类目中存在推荐关系的对象可以预设,进而在确定目标类目之后,可以将与目标类目存在推荐关系的至少一个推荐对象发送至用户端,由用户端输出供用户查看。作为一种可能的实现方式,可以针对至少一个类目 分别对应的推荐对象建立推荐数据库,与目标类目存在推荐关系的至少一个推荐对象可以从推荐数据库中查询获得。
为了更清楚地展示本申请,以电子商务的应用场景为例对本发明的技术方案进行示意说明。如图3所示,在一为用户查找与用户输入的相关待识别信息,也即待识别商品的一个应用场景实施例的示意图。待识别信息具体可以指用户输入的待查找商品信息,而待查找的商品信息可以包括商品的型号、图像、品牌和/或类目等相关信息,例如,当用户输入“A品牌红色手机”的待查找信息时,本申请所述的用户端M4可以检测用户输入的“A品牌红色手机”的待识别信息,用户端M4可以将该待识别信息“A品牌红色手机”发送S301到服务端M5,服务端M5接收到待识别信息“A品牌红色手机”S302。
之后,服务端M5可以确定待识别信息所包含的词语“A品牌”“红色”“手机”中,属于第一词语类型的第一关键词“A品牌”,属于第二词语类型的第二关键词“红色”“手机”S303,进而从向量特征库中查找与“A品牌”相匹配的第一文本特征“a特征”S304;之后,分别提取“红色”“手机”的第二文本特征“b特征”“c特征”S305;之后,利用“a特征”“b特征”以及“c特征”进行融合S306,获得待识别特征“M特征”;基于待识别特征“M特征”,从对象识别模型中对应至少一个类目中识别待识别信息对应的目标类目S307,获取目标类目中满足M特征的M手机S308。
之后,服务端M5可以发送S309M手机至用户端M4。用户端M4可以接收服务端M5发送的M手机之后,可以展示M手机S310。
如图4所示,为本发明实施例提供的一种数据处理方法的一个实施例的流程图,所述方法可以包括以下几个步骤:
401:确定至少一个训练样本;其中,每个训练样本为一个待分类的样本信息,每个样本信息对应一个样本目标类目。
402:确定每个训练样本对应样本词语中,属于第一词语类型的第一关键 词以及属于第二词语类型的第二关键词。
样本词语可以通过提取每个训练样本中的关键词获得。其中,关键词可以来源于训练样本的文字描述、图像、SPU和/或SKU中提取的词语。
403:从所述向量特征库中查找与每个训练样本的所述第一关键词相匹配的第一样本特征。
其中,所述向量特征库包括属于第一词语类型的至少一个词语对应文本特征。
所述文本特征可以包括文本特征向量或文本特征矩阵。
404:提取每个训练样本的所述第二关键词对应的第二样本特征。
405:将每个训练样对应所述第一样本特征与所述第二样本特征进行融合,获得每个训练样本的样本特征。
406:构建所述对象识别模型。
407:基于所述至少一个训练样本分别对应的样本特征以及样本目标类目,训练所述对象识别模型的分类器以及识别器。
其中,所述分类器包括至少一个类目。
所述对象识别模型对应的至少一个类目已知。在确定至少一个训练样本时,可以基于已存在的至少一个类目确定。其中,每个类目可以对应有至少一个训练样本,每个类目的训练样本的样本目标类目即为该类目。
本发明实施例中,在确定至少一个训练样本之后,可以通过将每个训练样本中的数据进行词语类别划分,获得第一关键词以及第二关键词,进而可以从向量特征库中查找与每个训练样本的第一关键词相匹配的第一样本特征,以及提取每个训练样本的第二关键词对应的第二样本特征,可以提高样本特征的获取效率,降低特征误差,从而在将每个训练样本对应所述第一样本特征以及第二样本特征进行融合之后,可以获得每个训练样本的样本特征。之后,构建对象识别模型,并利用至少一个训练样本分别对应的样本特征以及样本目标类目,训练获得对象识别模型的分类器以及识别器。由于样本特征的获取效率比较高,且样本特征的误差较小,可以提高训练效率以及精度。
所述对象识别模型可以不断更新,以增加新的类目,或者剔除无效类目,确保分类的准确性。作为一个实施例,所述方法还可以包括:
确定所述对象识别模型的训练频率;
所述基于所述至少一个训练样本分别对应的样本特征以及样本目标类目,训练所述对象识别模型的分类器以及识别器;其中,所述分类器包括至少一个类目包括:
基于所述至少一个训练样本分别对应的样本特征以及样本目标类目,按照所述训练频率,训练所述对象识别模型的分类器以及识别器。
所述对象识别模型的分类器可以对应至少一个类目,所述至少一个类目为网络平台中包括的所有类目;其中,所述分类器包括至少一个类目。
在一些实施例中,可以采用监督式学习的方式训练获得对象识别模型的分类器以及识别器。所述监督式学习具体可以使用反向传播理论,将当前分类结果反馈到下一次训练过程,因此,所述基于所述至少一个训练样本分别对应的样本特征以及样本目标类目,训练所述对象识别模型的分类器以及识别器包括:
初始化所述对象识别模型的分类器以及识别器,获得参考分类器以及参考识别器;
将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器以及所述参考识别器,获得至少一个训练样本分别对应的参考类目;
基于至少一个训练样本分别对应的参考类目以及样本目标类目,确定识别误差;
如果所述识别误差满足误差条件,确定所述参考分类器为所述对象识别模型的分类器,以及所述参考识别器为所述对象识别模型的识别器;
如果所述识别误差不满足误差条件,基于所述识别误差,调整所述对象识别模型的参考分类器以及所述参考识别器,返回至所述将所述至少一个训 练样本分别对应的样本特征依次输入所述参考分类器以及所述参考识别器,获得至少一个训练样本分别对应的参考类目的步骤继续执行。
在训练对象识别模型时,确定对象识别模型的分类器以及识别器具体可以指随机初始化对象识别模型的分类器以及识别器,获得参考分类器以及参考识别器。通过随机初始化方式可以初步建立一个对象识别模型,之后可以利用参考分类器以及参考识别器进行识别分类,获得相应的参考类目。获得的参考类目可能与待识别信息实际所属的类目之间存在识别误差,因此可以参考类目以及训练样本的样本目标类目,确定识别误差,进而通过识别误差判断是否达到收敛条件,如果达到收敛条件即可以确定使用当前的参考分类器以及参考识别器进行分类时,分类结果与训练样本真实对应的样本目标类目的误差非常小,趋近于真实的分类结果,因此,获得最终的目标分类器以及目标识别器。而如果达不到收敛条件时,可以利用识别误差,更新参考识别模型以及参考分类模型,不断进行模型参数的迭代计算,以获得最终结果。
在一些实施例中,所述将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器以及所述参考识别器,获得至少一个训练样本分别对应的参考类目可以包括:
将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器,获得至少一个训练样本分别对应的分类结果;
将所述至少一个训练样本分类对应的样本特征依次输入所述参考识别器,获得至少一个训练样本分别对应的识别结果;
遍历所述至少一个训练样本,如果任一个训练样本对应的识别结果满足识别条件,基于所述训练样本对应分类结果,确定所述训练样本对应的参考类目;
遍历所述至少一个训练样本,如果任一个训练样本对应的识别结果不满足识别条件,确定所述训练样本对应的参考类目为空类目。
在利用训练样本计算获得分类结果以及识别结果时,可以基于参考分类 器获得分类结果,基于参考识别器获得识别结果,并利用至少一个训练样本对应的识别结果,判断该参考分类器对任一个训练样本的分类结果是否满足识别条件,满足识别条件时,说明该参考分类器可以进一步对所述训练样本进行分类预估,以基于训练样本对应分类结果,确定训练样本的参考类目,通过分类判断可以对参考分类器的实际分类结果进行准确性判断,可以提高分类的准确度。同样,遍历至少一个训练样本之后,如果识别结果不满足识别条件时,可以确定该训练样本对应的参考类目为空类目。此时可以利用获得的参考类目对对象识别模型的识别准确度进行衡量。
作为一个实施例,所述识别器包括识别类目。所述将所述至少一个训练样本分类对应的样本特征依次输入所述参考识别器,获得至少一个训练样本分别对应的识别结果可以包括:
将所述至少一个训练样本分别对应的样本特征依次输入所述参考识别器,获得所述至少一个训练样本分别对应所述识别类目的识别概率。
识别器对应的识别类目可以对应有识别特征,该识别特征可以基于初始化或者参数调整获得,将任一训练样本对应样本特征输入所述参考识别器,获得该训练样本对应该识别类目的识别概率。
所述识别概率可以通过所述训练样本的样本特征与所述参考识别器对应的第一参考特征的相似度获得,快速计算识别概率,提高训练效率。
可选地,所述遍历所述至少一个训练样本,如果任一个训练样本对应的识别结果满足识别条件,基于所述训练样本对应分类结果,确定所述训练样本对应的参考类目包括:
遍历所述至少一个训练样本,如果任一个训练样本对应的识别概率大于第二阈值,基于所述训练样本对应分类结果,确定所述训练样本对应的参考类目;
所述遍历所述至少一个训练样本,如果任一个训练样本对应的识别结果不满足识别条件,确定所述训练样本对应的参考类目为空类目包括:
遍历所述至少一个训练样本,如果任一个训练样本对应的识别概率不大于所述第二阈值,确定所述训练样本对应的参考类目为空类目。
可选地,所述识别类目对应有第一参考特征;所述如果所述识别误差不满足误差条件,基于所述识别误差,调整所述对象识别模型的参考分类器以及所述参考识别器,返回至所述将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器以及所述参考识别器,获得至少一个训练样本分别对应的参考类目的步骤继续执行可以包括:
如果所述识别误差不满足误差条件,基于所述识别误差,调整所述对象识别模型的参考分类器以及所述参考识别器对应识别类目的第一参考特征,返回至所述将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器以及所述参考识别器,获得至少一个训练样本分别对应的参考类目的步骤继续执行。
可选地,所述将所述至少一个训练样本分别对应的样本特征依次输入所述参考识别器,获得所述至少一个训练样本分别对应所述识别类目的识别概率可以包括:
分别计算所述至少一个训练样本各自的样本特征与所述第一参考特征的第三相似度;
基于每个训练样本分别对应的第三相似度,确定所述至少一个训练样本分别对应所述识别类目的识别概率。
进一步,可选地,每个训练样本的样本特征包括至少一个样本子特征,所述识别类目的第一参考特征包括至少一个第一参考子特征。
所述分别计算所述至少一个训练样本各自的样本特征与所述第一参考特征的第三相似度包括:
分别计算每个样本特征的至少一个样本子特征与所述至少一个第一参考子特征的第一特征相似度;
确定所述第一特征相似度中大于第一相似度阈值的第一目标相似度;
计算所述第一目标相似度对应的特征数量与所述第一特征相似度的总数 量的第一比值;
确定所述第一比值为所述第三相似度;
所述基于每个训练样本分别对应的第三相似度,确定所述至少一个训练样本分别对应所述识别类目的识别概率包括:
计算数值1与所述每个训练样本分别对应第三相似度的差值,获得所述至少一个训练样本分别对应所述识别类目的识别概率。
作为又一个实施例,所述参考分类器包括至少一个类目;
所述将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器,获得至少一个训练样本分别对应的分类结果包括:
将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器,获得每个训练样样本分别对应所述至少一个类目的分类概率;
所述遍历所述至少一个训练样本,如果任一个训练样本对应的识别结果满足识别条件,基于所述训练样本对应分类结果,确定所述训练样本对应的参考类目包括:
遍历所述至少一个训练样本,如果任一个训练样本对应的识别结果满足识别条件,基于所述训练样本对应所述至少一个类目的分类概率,确定所述训练样本对应的参考类目。
可选地,所述至少一个类目分别对应一个第二参考特征;
所述如果所述识别误差不满足误差条件,基于所述识别误差,调整所述对象识别模型的参考分类器以及所述参考识别器,返回至所述将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器以及所述参考识别器,获得至少一个训练样本分别对应的参考类目的步骤继续执行包括:
如果所述识别误差不满足误差条件,基于所述识别误差,调整所述对象识别模型的参考分类器对应至少一个类目各自的第二参考特征以及所述参考识别器,返回至所述将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器以及所述参考识别器,获得至少一个训练样本分别对应的参 考类目的步骤继续执行。
可选地,所述将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器,获得每个训练样样本分别对应所述至少一个类目的分类概率包括:
针对所述至少一个训练样本中任一个训练样本,计算所述训练样本的样本特征分别与至少一个第二参考特征的第四相似度,获得所述训练样本分别对应所述至少一个类目的分类概率;
获得每个训练样本分别对应所述至少一个类目的分类概率。
可选地,所述遍历所述至少一个训练样本,如果任一个训练样本对应的识别结果满足识别条件,基于所述训练样本对应所述至少一个类目的分类概率,确定所述训练样本对应的参考类目包括:
遍历所述至少一个训练样本,如果任一个训练样本对应识别结果满足识别条件,确定所述训练样本对应至少一个分类概率中大于第三阈值的第一分类概率,获得所述第一分类概率对应的类目为所述训练样本的参考类目。
可选地,所述遍历所述至少一个训练样本,如果任一个训练样本对应的识别结果满足识别条件,基于所述训练样本对应所述至少一个类目的分类概率,确定所述训练样本对应的参考类目包括:
遍历所述至少一个训练样本,如果任一个训练样本对应识别结果满足识别条件,确定所述训练样本对应至少一个分类概率中的最大分类概率,确定所述最大分类概率对应的类目为所述训练样本的参考类目。
进一步,可选地,每个训练样本的样本特征包括至少一个样本子特征,所述任一个第二参考特征包括至少一个第二参考子特征。
所述针对任一个训练样本,计算所述训练样本的样本特征分别与至少一个第二参考特征的第四相似度,获得所述训练样本对应所述至少一个分类类目各自的分类概率可以包括:
分别计算每个训练样本的至少一个样本子特征与每个参考分类特征对应的至少一个第二参考子特征的第二特征相似度;
确定所述第二特征相似度中大于第二相似度阈值的第二目标相似度;
计算所述第二目标相似度的数量与所有第二特征相似度的总数量的第二比值;
确定所述第二比值为所述第四相似度;
确定每个所述训练样本对应第四相似度,为所述训练样本对应所述至少一个分类类目各自的分类概率。
通过整个训练过程,可以获得准确的对象识别模型,以在任一需要对象识别模型进行对象类目识别的场景中使用。
如图5所示,为本发明实施例提供的一种信息识别方法的一个实施例的流程图,所述方法可以包括以下步骤:
501:接收商家端发送的待识别信息。
其中,所述待识别信息可以包括待分类对象的对象信息。所述待识别信息为所述商家端检测到商家输入的与待分类对象相关的文字描述信息。例如,待识别信息可以包含待分类对象的对象名称、型号、标题等对象信息。
可选地,待识别信息可以为商家在商家端输入的与对象的详细信息相关的文字,在一些实施例中,商家可以在网络平台上发布商品,商品即可以作为网络对象在网络交易平台上展示、交易。商家端检测到商家输入的商品文字信息,可以获得待上传对象的待识别信息,进而可以通过待识别信息确定商品类目,并完成商品也即对象的上传工作。
上传过程中,商家端需要先建立与服务端的网络连接,之后,商家端可以发送待查找信息至服务端,以供服务端确定待识别信息,并执行本发明实施例的技术方案,查找待识别信息的目标类目,将待识别信息对应的对象划分到相应的目标类目中,此外,服务端还可以将目标类目发送至商家端,由商家对对象的目标类目进行确认之后,将对象划分到目标类目中。
在电子商务场景中,商家端所发送的待识别信息中的待识别对象可以是商品对象,对象信息可以是商品信息,商家端通过将待识别商品的商品信息传输到服务端,由服务端对商品信息进行识别,获得商品所属的目标类目,并将该 商品对象保存至目标类目下,以便于后续用户查询到目标类目时,将商品对象展示给用户,完成商品的展示。
502:确定待识别信息对应待识别词语中,属于第一词语类型的第三关键词以及属于第二词语类型的第四关键词。
所述确定待识别信息对应待识别词语中,属于第一词语类型的第三关键词以及属于第二词语类型的第四关键词之前,所述方法还可以包括:确定待识别信息对应待识别词语。待识别词语为待识别信息中的关键词,可以从待识别信息中的文字描述信息、图像提取的文字信息、SPU和/或SKU等信息中提取。图像的文字信息可以使用轮廓识别、文字识别等识别算法提取。
503:从向量特征库中查找与第三关键词相匹配的第三文本特征。
其中,所述向量特征库包括属于第一词语类型的至少一个词语对应文本特征。
504:提取第四关键词对应的第四文本特征。
505:将第三文本特征以及第四文本特征进行融合,获得待识别特征。
506:将所述待识别特征输入对象识别模型获得所述待识别信息对应的目标类目。
507:增加所述待识别信息对应的待分类对象至所述目标类目中。
本发明实施例中的部分内容与图5所示的实施例中的内容相同,在此不再赘述。步骤507中的对象识别模型可以基于图4所示的实施例训练获得,可以直接使用已训练的对象识别模型完成待识别对象的类目识别。
可选地,所述增加所述待识别信息对应的待分类对象至所述目标类目之前,所述方法还可以包括:输出所述目标类目的提示信息,以供用户确认所述待识别信息所属目标类目。检测到商家端发送的确认操作,将所述待识别信息对应的待分类对象增加到所述目标类目中。通过商家确认目标类目,可提高类目的划分准确度。
为了更清楚地展示本申请,以电子商务的应用场景为例对本发明的技术方 案进行示意说明。如图6所示,为商家上传商品N到服务端的一个应用场景实施例的示意图。在此应用场景中,待识别信息具体可以指待识别商品信息,也即商家上传与商品N相关的商品信息,待识别商品信息可以包括商品的文字描述、SPU、SKU和/或图像等信息,例如,商家上传的待识别商品信息I可以包括:“碎屏服务:由于意外跌落、挤压、碰撞等事故出现屏幕碎裂情形时,将委派第三方服务商在指定区域内提供一次上门或寄送更换屏幕的服务”“100%正品保障”等文字描述信息,“B品牌C型号”的SPU,“B品牌C型号宝石蓝数量100价格1999”的SKU,“图像1、图像2”等图像信息。商家端M6可以检测商家上传的该待识别商品信息I S601,并将获得的待识别商品信息I发送至服务端M5 S602。服务端M5可以接收该待识别商品信息I S603,获得“碎屏服务:由于意外跌落、挤压、碰撞等事故出现屏幕碎裂情形时,将委派第三方服务商在指定区域内提供一次上门或寄送更换屏幕的服务”“100%正品保障”等文字描述信息,“B品牌C型号”的SPU,“B品牌C型号宝石蓝数量100价格1999”的SKU,“图像1、图像2”等图像信息。服务端M5还可以轮廓识别、文字提取等识别算法提取“图像1”“图像2”中的关键性词语S604,例如,识别到图像存在“D芯片”“E认证”等词语。
之后,服务端M5可以将确定待识别商品信息I对应的词语中,属于第一词语类型的第三关键词“B品牌”“C型号”“D芯片”“E认证”,以及属于第二词语类型的第四关键词“碎屏服务”“宝石蓝”“正品”S605。
服务端M5可以从向量特征库中查找分别与“B品牌”“C型号”“D芯片”“E认证”相匹配的第三文本特征“特征1”“特征2”“特征3”“特征4”S606,以及分别提取“碎屏服务”“宝石蓝”“正品”的第四文本特征“特征5”“特征6”“特征7”S607。之后,将特征1-特征4,以及特征5-特征7进行特征融合S608,获得待识别特征:N特征;基于待识别特征“N特征”,从对象识别模型中对应至少一个类目中识别待识别商品信息对应的目标类目S609;将商品N对应商品信息,如碎屏服务:由于意外跌落、挤压、碰撞等事故出现屏幕碎裂情形时,将委派第三方服务商在指定区域内提供一次上门或寄送更换屏幕的服务” 等文字描述信息,“B品牌C型号”的SPU,“B品牌C型号宝石蓝数量100价格1999”的SKU,“图像1、图像2”等图像信息,增加到该目标类目中S610。
以网络交易场景为例,如图7中所示为一种信息交互方法的一个实施例的示意图,第一用户,也即商家,可以通过商家端M6输入第一待识别信息,该第一待识别信息可以包含待识别商品信息。所述商品信息可以包括与商品详细信息相关的词语、短句或者图像等,商品的详细信息可以包括商品的图像、SPU、SKU、文字描述等信息。
商家端M6可以获取第一用户输入的第一待识别信息,并将第一待识别信息发送S701至服务端M5。
之后,服务端M5可以接收商家端M6发送的所述第一待识别信息S702;确定所述第一待识别信息对应待识别词语中,属于第一词语类型的第三关键词以及属于第二词语类型的第四关键词S703;从向量特征库中查找与所述第三关键词相匹配的第三文本特征S704;提取所述第四关键词对应的第四文本特征S705;将所述第三文本特征以及所述第四文本特征进行融合S706,获得第一待识别特征;基于所述第一待识别特征,从所述对象识别模型对应至少一个类目中识别所述第一待识别信息对应的目标类目S707;S708增加所述待识别商品的商品信息至所述目标类目中。
此外,第二用户,也即买家,可以通过用户端M4输入第二待识别信息,该第二待识别信息可以包括待查找商品信息,为与待查找的商品相关的信息。用户端M4可以发送第二待识别信息S709,也即待查找商品信息发送至服务端M5。
之后,服务端M5可以接收用户端发送的所述第二待识别信息S710;确定所述第二待识别信息对应待识别词语中,属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词S711;从向量特征库中查找与所述第一关键词相匹配的第一文本特征S712;提取所述第二关键词对应的第二特性信息S713;将所述第一文本特征以及所述第二文本特征进行融合S714,获得第二待识别特征;基于所述第二待识别特征,从所述对象识别模型对应至少一个类目中识别 所述第二待识别信息对应的目标类目S715;根据所述目标类目,输出至少一个商品的商品信息至所述用户端S716;
所述用户端M4接收所述服务端M5发送的所述至少一个商品的商品信息后,输出查找到的所述至少一个商品的商品信息。
其中,向量特征库包括属于第一词语类型的至少一个词语对应文本特征。
需要说明的是本发明实施例中所述的“第一”“第二”“第三”“第四”等描述仅仅是为了区分不同的待识别信息,并不具有顺序或者时间上的先后顺序,对词不作过多限定。
本申请中的用户端或者商家端可以是手机、平板电脑、个人计算机、笔记本或者智能音箱等具有音频采集功能、图像输入功能以及文字输入功能的智能设备。在一些应用示例中,智能音箱上可以配置有显示屏,该显示屏可以显示用户输入的文字、图像等信息,还可以显示获取到的目标对象或者商品上传的目标类目。
本发明实施例中,服务端可以接收商家端发送的第一待识别信息,以识别该信息中的商品信息所对应的目标类目,服务端还可以接收用户端发送的第二待识别信息,以识别该信息对应的目标类目,并将目标类目中的商品作为查找结果发送至用户端进行显示。在以上的交互场景中,服务端可以基于接收到的用户端发送的待识别信息,查找待识别信息中包括的第一关键词以及第二关键词,可以通过查找到的第一关键词,从向量特征库中迅速确定第一关键词对应的文本特征,结合提取到的第二关键词对应的文本特征,可以确定第一待识别特征以及第二待识别特征。待识别特征的确定方式避免全部使用传统的特征获取方式,其获取方式更高效、更准确,以目标类目的确定效率,达到提高目标类目确定效率的目标。
如图8所示,为本发明实施例提供的一种信息识别装置的一个实施例的结构示意图,所述装置可以包括:
第一接收模块801,用于接收任一用户端发送的待识别信息。
第一分类模块802,用于确定待识别信息对应待识别词语中,属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词。
第一查找模块803,用于从向量特征库中查找与所述第一关键词相匹配的第一文本特征。
其中,所述向量特征库包括属于第一词语类型的至少一个词语对应文本特征。
第一提取模块804,用于提取所述第二关键词对应的第二文本特征。
第一融合模块805,用于将所述第一文本特征以及所述第二文本特征进行融合,获得待识别特征。
第一识别模块806,将基于所述待识别特征,从对象识别模型对应至少一个类目中识别所述待识别信息对应的目标类目。
对象输出模块807,用于根据所述目标类目,输出至少一个目标对象至所述用户端,以供所述用户端展示所述至少一个目标对象。
作为一个实施例,所述第一词语类型包括具有特定词语含义的词语类型;所述第二词语类型包括具有普通词语含义的词语类型。
在一些实施例中,所述装置可以通过以下模块确定向量特征库:
词语构成模块,用于确定具有特定含义的至少一个词语;
向量生成模块,用于为每个词语随机生成一个参考向量,获得至少一个参考向量;
向量处理模块,用于将所述至少一个参考向量进行向量内积归一处理,获得至少一个文本特征;
向量库生成模块,用于将所述至少一个词语以及每个词语对应文本特征关联存储,以构成所述向量特征库。
作为一种可能的实现方式,所述向量处理模块可以包括:
向量处理单元,用于基于每个参考向量的向量2范数,将所述至少一个参考向量进行向量内积归一处理,获得所述至少一个文本特征。
可选地,所述向量处理单元具体可以用于:
计算所述每个参考向量的向量2范数;
遍历所述至少一个词语的参考向量,如果任一个词语的参考向量的向量2范数与1的差值小于第一阈值,确定所述参考向量为对应词语的文本特征,如果任一个词语的参考向量的向量2范数与1的差值大于所述第一阈值,基于所述向量2范数调整所述参考向量中的元素,获得所述参考向量对应词语的文本特征。
作为一个实施例,所述对象识别模型包括分类器以及识别器;其中,所述分类器包括至少一个类目;
所述第一识别模块可以包括:
第一分类单元,用于将所述待识别特征输入所述对象识别模型的分类器,获得分类结果;
第一识别单元,用于将所述待识别特征输入所述对象识别模型的识别器,获得识别结果;
第一确定单元,用于如果所述识别结果满足识别条件,基于所述分类结果,从所述分类器对应至少一个类目中确定所述待识别信息对应的目标类目;
第二确定单元,用于如果所述识别结果不满足识别条件,确定所述待识别信息的目标类目为空类目。
作为一种可能的实现方式,所述识别器包括识别类目;
所述第一识别单元可以包括:
第一识别子单元,用于将所述待识别特征输入所述对象识别模型的识别器,获得所述待识别特征对应所述识别类目的识别概率。在一些可能的设计中,所述第一确定单元可以包括:
第一确定子单元,用于如果所述识别概率大于第二阈值,基于所述分类结果,从所述分类器对应至少一个类目中确定所述待识别信息对应的目标类目。
所述第二确定单元可以包括:
第二确定子单元,用于如果所述识别结果不大于第二阈值,基于所述分 类结果,确定所述待识别信息的目标类目为空类目。
在又一些可能的设计中,所述识别类目对应有第一参考特征;
所述第一识别子单元可以包括:
第一计算模块,用于计算所述待识别特征与所述第一参考特征的第一相似度;
第一概率确定模块,用于基于所述第一相似度,确定所述待识别特征对应所述识别类目的识别概率。
进一步,可选地,所述第一参考特征包括第一参考子特征;所述待识别特征包括至少一个待识别子特征;
所述第一计算模块可以包括:
第一计算单元,用于分别计算每个待识别子特征,与所述至少一个第一参考子特征的第一特征相似度;
第一选择单元,用于确定第一特征相似度中大于第一相似度阈值的第一目标相似度;
第二计算单元,用于计算所述第一目标相似度的数量与所述第一特征相似度的总数量的第一比值;
相似度一单元,用于确定所述第一比值为所述第一相似度;
所述第一概率确定模块可以包括:
第一概率计算单元,用于计算数值1与所述第一相似度的差值,获得所述待识别特征对应所述识别类目的识别概率。
作为又一种可能的实现方式,所述第一分类单元,可以包括:
分类概率子单元,用于将所述待识别特征输入所述对象识别模型的分类器,获得所述识别特征分别对应至少一个类目的分类概率;
所述第一确定单元可以包括:
第一分类子单元,用于如果所述识别结果满足识别条件,基于所述待识别特征分别对应至少一个类目的分类概率,确定所述待识别信息对应的目标类目。
作为一种可能的实现方式,所述至少一个类目中的任一个类目对应有一个第二参考特征;
所述分类概率子单元可以包括:
第二计算模块,用于分别计算所述待识别特征与每个第二参考特征的第二相似度;
第二概率确定模块,用于根据待识别特征与每个第二参考特征的第二相似度,确定所述待识别特征对应每个类目的分类概率,获得至少一个分类概率。
进一步,可选地,所述任一个第二参考特征包括至少一个第二参考子特征;所述待识别特征包括至少一个待识别子特征;
所述第二计算模块可以包括:
第三计算单元,用于分别计算每个待识别子特征,与每个第二参考特征对应至少一个第二参考子特征的第二特征相似度;
第二选择单元,用于确定所有第二特征相似度中大于第二相似度阈值的第二目标相似度;
第四计算单元,用于计算所述第二目标相似度的数量与所有第二特征相似度的总数量的第二比值;
相似度二单元,用于确定所述第二比值为所述第二相似度。
作为又一种可能的实现方式,所述第一分类子单元可以包括:
第二概率确定模块,用于如果所述识别结果满足识别条件,确定所述至少一个分类概率中大于第三阈值的目标分类概率;
第一类目确定模块,用于确定所述目标分类概率对应的类目为所述待识别信息对应的目标类目。
作为一种可能的实现方式,所述第一分类子单元可以包括:
第三概率确定模块,用于如果所述识别结果满足识别条件,确定所述至少一个分类概率中的最大分类概率;
第二类目确定模块,用于确定所述最大分类概率对应的类目为所述待识 别信息对应的目标类目。
作为一个实施例,所述装置还包括:
对象查找模块,用于从所述目标类目对应至少一个对象中,查找与所述待识别信息相匹配的目标对象;
第一输出模块,用于将所述至少一个目标对象发送至所述用户端,以供所述用户端输出所述至少一个目标对象。
作为一种可能的实现方式,所述对象查找模块可以包括:
特征确定单元,用于确定所述目标类目的所述至少一个对象分别对应的对象特征;
对象查找单元,用于基于所述待识别特征以及所述至少一个对象各自的对象特征,从所述至少一个对象中查找与所述待识别信息相匹配的目标对象。
作为一种可能的实现方式,第一查找模块可以包括:
第一词划分单元,用于确定所述第一关键词中的第一本地关键词以及第一边缘关键词;
第一本地查找单元,用于从本地服务器的向量特征库中查找与所述第一本地关键词相匹配的第一文本子特征;
第一边缘查找单元,用于从边缘服务器的向量特征库中查找与所述第一本地关键词相匹配的第二文本子特征。
第一特征确定单元,用于确定所述第一文本子特征以及所述第二文本子特征对应的第一文本特征。
作为又一种可能的实现方式,所述第一提取模块可以包括:
第二词划分单元,用于确定所述第二关键词中的第二本地关键词以及第二边缘关键词;
第二本地查找单元,用于在第二本地服务器中提取第二本地关键词对应的第三文本子特征;
第二边缘查找单元,用于在第二边缘服务器中提取第二边缘关键词对应的第四文本子特征;
第二特征确定单元,用于确定所述第三文本子特征以及所述第四文本子特征对应的第二文本特征。
所述第一本地服务器与所述第二本地服务器可以相同也可以不同,可以根据实际处理需求而设定。
在一些实施例中,所述第一分类模块可以包括:
词语发送单元,用于发送所述待识别信息对应待识别词语至用户端,以供所述用户端输出所述待识别词语,检测用户针对待识别词语的选择操作,获得目标词语;
第一词语确定单元,用于确定所述目标词语中属于所述第一词语类型的所述第一关键词以及属于所述第二词语类型的第二关键词。
在一些实施例中,所述装置还可以包括:
词语确定模块,用于确定待识别信息对应待识别词语。
在一些可能的设计中,所述待识别信息可以包括文字信息、图像和/语音数据;
所述词语确定模块可以包括:
信息处理单元,用于对所述文字信息进行语义分析,获得所述文字信息对应的文字关键词,对所述图像进行图像识别处理,获得所述图像中包含的图像信息对应的图像关键词,和/或,对所述语音数据进行语音识别处理,获得所述语音数据对应语音关键词;
第二词语确定单元,用于确定所述文字关键词、所述图像关键词和/或所述语音关键词构成的待识别词语。
在一些可能的设计中,所述词语确定模块可以包括:
词语提取单元,用于提取所述待识别信息对应的词语,获得至少一个词语;
词语筛选单元,用于确定所述至少一个词语中满足匹配条件的词语为所述待识别词语。
作为一个实施例,所述装置还可以包括:
用户身份模块,用于确定所述用户端对应用户的用户身份信息;
历史信息模块,用于基于所述用户身份信息,获取所述用户的历史记录信息;
历史确定模块,用于根据所述历史记录信息,生成历史关键词。
所述第一分类模块可以包括:
综合分类模块,用于确定所述待识别信息对应待识别词语以及所述历史关键词中,属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词。
作为一个实施例,所述装置还可以包括:
第一关联模块,用于确定与所述第一关键词存在语义关联的第一关联关键词。
第二关联模块,用于确定与所述第二关键词存在语义关联的第二关联关键词。
第三查找模块,用于从所述向量特征库中查找与所述第一关联关键词相匹配的第一关联文本特征;
第三提取模块,用于提取所述第二关联关键词对应的第二关联文本特征;
第一关联识别模块,用于基于所述第一关联文本特征,从对象识别模型对应至少一个类目中识别第一关联关键词对应的第一关联类目;
第二关联识别模块,用于基于所述第二关联文本特征,从对象识别模型对应至少一个类目中识别第二关联关键词对应的第二关联类目;
关联输出模块,用于输出所述第一关联类目对应至少一个第一关联对象以及所述第二关联类目对应至少一个第二关联对象至所述用户端,以供所述用户端输出至少一个第一关联对象以及至少一个第二关联对象。
在一种可能的设计中,所述装置还可以包括:
第一关联模块,用于确定与第一关键词存在语义关联的第一关联关键词;
第三查找模块,用于从文本特征库中查找与所述第一关联关键词相匹配的第一关联文本特征;
第一关联识别模块,用于基于所述第一关联文本特征,从对象识别模型对应至少一个类目中识别第一关联文本特征对应的第一关联类目;
第一关联输出模块,用于输出第一关联类目对应至少一个第一关联对象至用户端,以供用户端输出所述至少一个第一关联对象。
在一种可能的设计中,所述装置还可以包括:
第二关联模块,用于确定与第二关键词存在语义关联的第二关联关键词;
第三提取模块,用于提取第二关联关键词对应的第二关联文本特征;
第二关联识别模块,基于第二关联文本特征,从对象识别模型对应至少一个类目中识别第二关联文本特征对应的第二关联类目;
第二关联输出模块,用于用于输出第二关联类目对应至少一个第二关联对象至用户端,以供用户端输出至少一个第二关联对象。
第一关联关键词可以从与第一关键词相关的第一关联词库中查找,第二关联关键词可以从与第二关联词相关的第二关联词库中查找。
作为一个实施例,所述装置还可以包括:
推荐确定模块,用于确定与所述目标类目存在推荐关系的至少一个推荐对象。
推荐展示模块,用于发送所述至少一个推荐对象至所述用户端,以供所述用户端输出所述至少一个推荐对象。
图8所述的信息识别装置可以执行图2实施例所述的信息识别方法,其实现原理和技术效果不再赘述。对于上述实施例中的信息识别装置其中的各个模块、单元、子单元所执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在一些可能的设计中,图8所述的信息识别装置可以实现为一信息识别设备,如图9所示,为本发明实施例提供的一种信息识别设备的一个实施例的结构示意图,所述设备可以包括:存储组件901以及处理组件902;所述存储组件901用于存储一条或多条计算机指令,所述一条或多条计算机指令用于被所述处理组件902调用;
所述处理组件902可以用于:
接收任一用户端发送的待识别信息;确定待识别信息对应待识别词语中属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词;从向量特征库中查找与所述第一关键词相匹配的第一文本特征;其中,所述向量特征库包括属于第一词语类型的至少一个词语对应文本特征;提取所述第二关键词对应的第二文本特征;将所述第一文本特征以及所述第二文本特征进行融合,获得待识别特征;基于所述待识别特征,从对象识别模型对应至少一个类目中识别所述待识别信息对应的目标类目;根据所述目标类目,输出至少一个目标对象至所述用户端,以供所述用户端展示所述至少一个目标对象。
作为一个实施例,所述第一词语类型包括具有特定词语含义的词语类型;所述第二词语类型包括具有普通词语含义的词语类型。
作为又一个实施例,所述向量特征库通过以下方式确定:
确定具有特殊含义的至少一个词语;
为每个词语随机生成一个参考向量,获得至少一个参考向量;
将所述至少一个参考向量进行向量内积归一处理,获得至少一个文本特征;
确定所述至少一个文本特征构成的向量特征库。
作为一种可能的实现方式,所述处理组件902将所述至少一个参考向量进行向量内积归一处理,获得至少一个文本特征具体可以是:
基于每个参考向量的向量2范数,将所述至少一个参考向量进行向量内积归一处理,获得所述至少一个文本特征。
作为一种可能的实现方式,所述处理组件基于每个参考向量的向量2范数,将所述至少一个参考向量进行向量内积归一处理,获得所述至少一个文本特征具体可以是:
计算所述每个参考向量的向量2范数;
遍历所述至少一个词语的参考向量,如果任一个词语的参考向量的向量2范数与1的差值小于第一阈值,确定所述参考向量为对应词语的文本特征,如果任一个词语的参考向量的向量2范数与1的差值大于所述第一阈值,基于所述向量2范数调整所述参考向量中的元素,获得所述参考向量对应词语的文本特征。
作为一个实施例,所述对象识别模型包括分类器以及识别器;其中,所述分类器包括至少一个类目;
所述处理组件基于所述待识别特征,从对象识别模型对应至少一个类目中识别所述待识别信息对应的目标类目具体可以是:
将所述待识别特征输入所述对象识别模型的分类器,获得分类结果;
将所述待识别特征输入所述对象识别模型的识别器,获得识别结果;
如果所述识别结果满足识别条件,基于所述分类结果,从所述分类器对应至少一个类目中确定所述待识别信息对应的目标类目;
如果所述识别结果不满足识别条件,确定所述待识别信息的目标类目为空类目。
在一些实施例中,所述识别器包括识别类目;
所述处理组件将所述待识别特征输入所述对象识别模型的识别器,获得识别结果具体可以是:
将所述待识别特征输入所述对象识别模型的识别器,获得所述待识别特征对应所述识别类目的识别概率。
作为一种可能的实现方式,所述处理组件处理如果所述识别结果满足识别条件,基于所述分类结果,从所述分类器对应至少一个类目中确定所述待识别信息对应的目标类目具体可以是:
如果所述识别概率大于第二阈值,基于所述分类结果,从所述分类器对应至少一个类目中确定所述待识别信息对应的目标类目。
所述处理组件处理如果所述识别结果不满足识别条件,确定所述待识别信息的目标类目为空类目具体可以是:
如果所述识别结果不大于第二阈值,基于所述分类结果,确定所述待识别信息的目标类目为空类目。
作为又一种可能的实现方式所述识别类目对应有第一参考特征;
所述处理组件将所述待识别特征输入所述对象识别模型的分类器,获得所述待识别特征对应所述识别类目的识别概率具体可以是:
计算所述待识别特征与所述第一参考特征的第一相似度;
基于所述第一相似度,确定所述待识别特征对应所述识别类目的识别概率。
进一步,可选地,所述第一参考特征包括第一参考子特征;所述待识别特征包括至少一个待识别子特征;
所述处理组件计算所述待识别特征与所述第一参考特征的第一相似度具体可以是:
分别计算每个待识别子特征,与所述至少一个第一参考子特征的第一特征相似度;
确定第一特征相似度中大于第一相似度阈值的第一目标相似度;
计算所述第一目标相似度的数量与所述第一特征相似度的总数量的第一比值;
确定所述第一比值为所述第一相似度;
所述处理组件基于所述第一相似度,确定所述待识别特征对应所述识别类目的识别概率具体可以是:
计算数值1与所述第一相似度的差值,获得所述待识别特征对应所述识别类目的识别概率。
在某些实施例中,所述处理组件将所述待识别特征输入所述对象识别模 型的分类器,获得分类结果具体可以是:
将所述待识别特征输入所述对象识别模型的分类器,获得所述识别特征分别对应至少一个类目的分类概率;
所述如果所述识别结果满足识别条件,基于所述分类结果,从所述分类器对应至少一个类目中确定所述待识别信息对应的目标类目包括:
如果所述识别结果满足识别条件,基于所述待识别特征分别对应至少一个类目的分类概率,确定所述待识别信息对应的目标类目。
作为一种可能的实现方式,所述至少一个类目中的任一个类目对应有一个第二参考特征;
所述处理组件将所述待识别特征输入所述对象识别模型的分类器,获得所述识别特征分别对应至少一个类目的分类概率具体可以是:
分别计算所述待识别特征与每个第二参考特征的第二相似度;
根据待识别特征与每个第二参考特征的第二相似度,确定所述待识别特征对应每个类目的分类概率,获得至少一个分类概率。
进一步,可选地,所述任一个第二参考特征包括至少一个第二参考子特征;所述待识别特征包括至少一个待识别子特征;
所述处理组件分别计算所述待识别特征与每个第二参考特征的第二相似度具体可以是:
分别计算每个待识别子特征,与每个第二参考特征对应至少一个第二参考子特征的第二特征相似度;
确定所有第二特征相似度中大于第二相似度阈值的第二目标相似度;
计算所述第二目标相似度的数量与所有第二特征相似度的总数量的第二比值;
确定所述第二比值为所述第二相似度。
作为又一种可能的实现方式,所述处理组件处理如果所述识别结果满足识别条件,基于所述待识别特征分别对应至少一个类目的分类概率,确定所述待识别信息对应的目标类目具体可以是:
如果所述识别结果满足识别条件,确定所述至少一个分类概率中大于第三阈值的目标分类概率;
确定所述目标分类概率对应的类目为所述待识别信息对应的目标类目。
在一些可能的设计中,所述处理组件处理如果所述识别结果满足识别条件,基于所述待识别特征分别对应至少一个类目的分类概率,确定所述待识别信息对应的目标类目具体可以是:
如果所述识别结果满足识别条件,确定所述至少一个分类概率中的最大分类概率;
确定所述最大分类概率对应的类目为所述待识别信息对应的目标类目。
作为又一个实施例,所述处理组件还可以用于:
从所述目标类目对应至少一个对象中,查找与所述待识别信息相匹配的目标对象;
将所述至少一个目标对象发送至所述用户端,以供所述用户端输出所述至少一个目标对象。
作为一种可能的实现方式,所述处理组件从所述目标类目对应至少一个对象中,查找与所述待识别信息相匹配的目标对象具体可以是:
确定所述目标类目的所述至少一个对象分别对应的对象特征;
基于所述待识别特征以及所述至少一个对象各自的对象特征,从所述至少一个对象中查找与所述待识别信息相匹配的目标对象。
在一些实施例中,所述处理组件从向量特征库中查找与所述第一关键词相匹配的第一文本特征具体可以是:
确定所述第一关键词中的第一本地关键词以及第一边缘关键词;
从本地服务器的向量特征库中查找与所述第一本地关键词相匹配的第一文本子特征;
从边缘服务器的向量特征库中查找与所述第一本地关键词相匹配的第二文本子特征;
确定所述第一文本子特征以及所述第二文本子特征对应的第一文本特征。
在一些实施例中,所述处理组件提取所述第二关键词对应第二文本特征具体可以是:
确定所述第二关键词中的第二本地关键词以及第二边缘关键词;
在第二本地服务器中提取第二本地关键词对应的第三文本子特征;
在第二边缘服务器中提取第二边缘关键词对应的第四文本子特征;
确定所述第三文本子特征以及所述第四文本子特征对应的第二文本特征。
在一些实施例中,所述处理组件确定所述待识别信息对应待识别词语中,属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词可以是:
发送所述待识别信息对应待识别词语至用户端,以供所述用户端输出所述待识别词语,检测用户针对待识别词语的选择操作,获得目标词语;
确定所述目标词语中属于所述第一词语类型的所述第一关键词以及属于所述第二词语类型的第二关键词。
在一些实施例中,所述处理组件还可以用于:
确定所述待识别信息对应的待识别词语。
在一些可能的设计中,所述待识别信息包括:文字信息、图像和/或语音数据;
所述处理组件确定所述待识别信息对应的待识别词语具体可以是:
对所述文字信息进行语义分析,获得所述文字信息对应的文字关键词,对所述图像进行图像识别处理,获得所述图像中包含的图像信息对应的图像关键词,和/或,对所述语音数据进行语音识别处理,获得所述语音数据对应语音关键词;
确定所述文字关键词、所述图像关键词和/或所述语音关键词构成的待识别词语。
在一些可能的设计中,所述处理组件确定所述待识别信息对应的待识别词语具体可以是:
提取所述待识别信息对应的词语,获得至少一个词语;
确定所述至少一个词语满足匹配条件的词语为所述待识别词语。
作为一个实施例,所述处理组件还可以用于:
确定所述用户端对应用户的用户身份信息;
基于所述用户身份信息,获取所述用户的历史记录信息;
根据所述历史记录信息,生成历史关键词;
所述确定所述待识别信息对应待识别词语中,属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词包括:
确定所述待识别信息对应待识别词语以及所述历史关键词中,属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词。
作为一个实施例,所述处理组件还可以用于:
确定与所述第一关键词存在语义关联的第一关联关键词;
确定与所述第二关键词存在语义关联的第二关联关键词;
从所述向量特征库中查找与所述第一关联关键词相匹配的第一关联文本特征;
提取所述第二关联关键词对应的第二关联文本特征;
基于所述第一关联文本特征,从对象识别模型对应至少一个类目中识别所述第一关联关键词对应的第一关联类目;
基于所述第二关联文本特征,从对象识别模型对应至少一个类目中识别所述第二关联关键词对应的第二关联类目;
输出所述第一关联类目对应至少一个第一关联对象以及所述第二关联类目对应至少一个第二关联对象至所述用户端,以供所述用户端输出所述至少一个第一关联对象以及所述至少一个第二关联对象。
在一种可能的设计中,所述处理组件还可以用于
确定与第一关键词存在语义关联的第一关联关键词;从文本特征库中查找与所述第一关联关键词相匹配的第一关联文本特征;基于所述第一关联文本特征,从对象识别模型对应至少一个类目中识别第一关联文本特征对应的第一关联类目;输出第一关联类目对应至少一个第一关联对象至用户端,以供用户端输出所述至少一个第一关联对象。
在又一种可能的设计中,所述处理组件还可以用于:
确定与第二关键词存在语义关联的第二关联关键词;提取第二关联关键词对应的第二关联文本特征;基于第二关联文本特征,从对象识别模型对应至少一个类目中识别第二关联文本特征对应的第二关联类目;输出第二关联类目对应至少一个第二关联对象至用户端,以供用户端输出至少一个第二关联对象。
第一关联关键词可以从与第一关键词相关的第一关联词库中查找,第二关联关键词可以从与第二关联词相关的第二关联词库中查找。
作为一个实施例,所述处理组件还可以用于:
确定与所述目标类目存在推荐关系的至少一个推荐对象;发送所述至少一个推荐对象至所述用户端,以供所述用户端输出所述至少一个推荐对象。
图9所述的信息识别设备可以执行图2实施例所述的信息识别方法,其实现原理和技术效果不再赘述。对于上述实施例中的信息识别设备其中的处理组件所执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
此外,本申请实施例还提供一种存储介质,所述存储介质为计算机可读存储介质,存储有计算机程序;所述计算机程序使计算机执行时实现上述图1所示实施例的信息识别方法。
如图10所示,为本发明实施例提供的一种数据处理装置的一个实施例的结构示意图,所述装置可以包括以下几个模块:
样本确定模块1001,用于确定至少一个训练样本;其中,每个训练样本为一个待分类的样本信息,每个样本信息对应一个样本目标类目;
样本分类模块1002,用于确定每个训练样本对应样本词语中属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词。
所述第一词语类型包括具有特定词语含义的词语类型;所述第二词语类 型包括具有普通词语含义的词语类型。
样本特征查找模块1003,用于从所述向量特征库中查找与每个训练样本的所述第一关键词相匹配的第一样本特征;其中,所述向量特征库包括属于第一词语类型的至少一个词语对应文本特征;
样本特征提取模块1004,用于提取每个训练样本的所述第二关键词对应的第二样本特征;
样本特征融合模块1005,用于将每个训练样对应所述第一样本特征与所述第二样本特征进行融合,获得每个训练样本的样本特征;
模型构建模块1006,用于构建对象识别模型;
模型训练模块1007,用于基于所述至少一个训练样本分别对应的样本特征以及样本目标类目,训练所述对象识别模型的分类器以及识别器;其中,所述分类器包括至少一个类目。
作为一个实施例,所述模型训练模块可以包括:
模块初始单元,用于初始化所述对象识别模型的分类器以及识别器,获得参考分类器以及参考识别器;
参数输入单元,用于将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器以及所述参考识别器,获得至少一个训练样本分别对应的参考类目;
误差确定单元,用于基于至少一个训练样本分别对应的参考类目以及样本目标类目,确定识别误差;
模型确定单元,用于如果所述识别误差满足误差条件,确定所述参考分类器为所述对象识别模型的目标分类器,以及所述参考识别器为所述对象识别模型的目标识别器;
模型更新单元,用于如果所述识别误差不满足误差条件,基于所述识别误差,调整所述对象识别模型的参考分类器以及所述参考识别器,返回至所述将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器以 及所述参考识别器,获得至少一个训练样本分别对应的参考类目的步骤继续执行。
作为一种可能的实现方式,所述参数输入单元可以包括:
第一输入子单元,用于将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器,获得至少一个训练样本分别对应的分类结果;
第二输入子单元,用于将所述至少一个训练样本分别对应的样本特征依次输入所述参考识别器,获得至少一个训练样本分别对应的识别结果;
第一遍历子单元,用于遍历所述至少一个训练样本,如果任一个训练样本对应的识别结果满足识别条件,基于所述训练样本对应分类结果,确定所述训练样本对应的参考类目;
第二遍历子单元,用于遍历所述至少一个训练样本,如果任一个训练样本对应的识别结果不满足识别条件,确定所述训练样本对应的参考类目为空类目。
在一些可能的设计中,所述识别器包括识别类目;
所述第二输入子单元可以包括:
第一输入模块,用于将所述至少一个训练样本分别对应的样本特征依次输入所述参考识别器,获得所述至少一个训练样本分别对应所述识别类目的识别概率。
作为一种可能的实现方式,所述第一遍历子单元可以包括:
第一遍历模块,用于遍历所述至少一个训练样本,如果任一个训练样本对应的识别概率大于第二阈值,基于所述训练样本对应分类结果,确定所述训练样本对应的参考类目;
所述第二遍历子单元可以包括:
第二遍历模块,用于遍历所述至少一个训练样本,如果任一个训练样本对应的识别概率不大于所述第二阈值,确定所述训练样本对应的参考类目为空类目。
进一步,可选地,所述识别类目对应有第一参考特征;
所述模型更新单元可以包括:
第一调整子单元,用于如果所述识别误差不满足误差条件,基于所述识别误差,调整所述对象识别模型的参考分类器以及所述参考识别器对应识别类目的第一参考特征,返回至所述将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器以及所述参考识别器,获得至少一个训练样本分别对应的参考类目的步骤继续执行。
进一步,可选地,所述第一输入模块可以包括:
第一相似度单元,用于分别计算所述至少一个训练样本各自的样本特征与所述第一参考特征的第三相似度;
第一概率单元,用于基于每个训练样本分别对应的第三相似度,确定所述至少一个训练样本分别对应所述识别类目的识别概率。
在又一些可能的设计中,所述参考分类器包括至少一个类目;
所述第一输入子单元可以包括:
第二输入模块,用于将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器,获得每个训练样样本分别对应所述至少一个类目的分类概率;
作为又一种可能的实现方式,所述第二遍历子单元可以包括:
第三遍历模块,用于遍历所述至少一个训练样本,如果任一个训练样本对应的识别结果满足识别条件,基于所述训练样本对应所述至少一个类目的分类概率,确定所述训练样本对应的参考类目。
进一步,可选地,所述至少一个类目分别对应一个第二参考特征;
所述模型更新单元可以包括:
第二调整子单元,用于如果所述识别误差不满足误差条件,基于所述识别误差,调整所述对象识别模型的参考分类器对应至少一个类目各自的第二参考特征以及所述参考识别器,返回至所述将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器以及所述参考识别器,获得至少一个训练样本分别对应的参考类目的步骤继续执行。
进一步,可选地,所述第二输入模块可以包括:
第二相似度单元,用于针对所述至少一个训练样本中任一个训练样本,计算所述训练样本的样本特征分别与至少一个第二参考特征的第四相似度,获得所述训练样本分别对应所述至少一个类目的分类概率;
第二概率单元,用于获得每个训练样本分别对应所述至少一个类目的分类概率。
作为又一种可能的实现方式,所述第三遍历模块可以包括:
第一类目获得单元,用于遍历所述至少一个训练样本,如果任一个训练样本对应识别结果满足识别条件,确定所述训练样本对应至少一个分类概率中大于第三阈值的第一分类概率,获得所述第一分类概率对应的类目为所述训练样本的参考类目。
作为又一种可能的实现方式,所述第三遍历模块可以包括:
第二类目获得单元,用于遍历所述至少一个训练样本,如果任一个训练样本对应识别结果满足识别条件,确定所述训练样本对应至少一个分类概率中的最大分类概率,确定所述最大分类概率对应的类目为所述训练样本的参考类目。
作为又一个实施例,所述设备还可以包括:
训练频率确定模块,用于确定所述对象识别模型的训练频率;
所述模型训练模块可以包括:
频率训练单元,用于基于所述至少一个训练样本分别对应的样本特征以及样本目标类目,按照所述训练频率,训练所述对象识别模型的分类器以及识别器;其中,所述分类器包括至少一个类目。
图10所述的数据处理装置可以执行图4实施例所述的数据处理方法,其实现原理和技术效果不再赘述。对于上述实施例中的数据处理装置其中的各个模块、单元、子单元所执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在一些可能的设计中,图10所示的数据处理装置可以实现为一数据处理设备,如图11所示,为本发明实施例提供的一种数据处理设备的一个实施例的结构示意图,所述设备可以包括:存储组件1101以及处理组件1102;所述存储组件1101用于存储一条或多条计算机指令,所述一条或多条计算机指令用于被所述处理组件1102调用;
所述处理组件1102可以用于:
确定至少一个训练样本;其中,每个训练样本为一个待分类的样本信息,每个样本信息对应一个样本目标类目;确定每个训练样本对应样本词语中属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词;从所述向量特征库中查找与每个训练样本的所述第一关键词相匹配的第一样本特征;其中,所述向量特征库包括属于第一词语类型的至少一个词语对应文本特征;提取每个训练样本的所述第二关键词对应的第二样本特征;将每个训练样对应所述第一样本特征与所述第二样本特征进行融合,获得每个训练样本的样本特征;构建对象识别模型;基于所述至少一个训练样本分别对应的样本特征以及样本目标类目,训练所述对象识别模型的分类器以及识别器;其中,所述分类器包括至少一个类目。
所述第一词语类型包括具有特定词语含义的词语类型;所述第二词语类型包括具有普通词语含义的词语类型。
作为一个实施例,所述处理组件1102基于所述至少一个训练样本分别对应的样本特征以及样本目标类目,训练所述对象识别模型的分类器以及识别器具体可以是:
初始化所述对象识别模型的分类器以及识别器,获得参考分类器以及参考识别器;
将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器以及所述参考识别器,获得至少一个训练样本分别对应的参考类目;
基于至少一个训练样本分别对应的参考类目以及样本目标类目,确定识别误差;
如果所述识别误差满足误差条件,确定所述参考分类器为所述对象识别模型的目标分类器,以及所述参考识别器为所述对象识别模型的目标识别器;
如果所述识别误差不满足误差条件,基于所述识别误差,调整所述对象识别模型的参考分类器以及所述参考识别器,返回至所述将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器以及所述参考识别器,获得至少一个训练样本分别对应的参考类目的步骤继续执行。
作为一种可能的实现方式,所述处理组件1102将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器以及所述参考识别器,获得至少一个训练样本分别对应的参考类目具体可以是:
将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器,获得至少一个训练样本分别对应的分类结果;
将所述至少一个训练样本分别对应的样本特征依次输入所述参考识别器,获得至少一个训练样本分别对应的识别结果;
遍历所述至少一个训练样本,如果任一个训练样本对应的识别结果满足识别条件,基于所述训练样本对应分类结果,确定所述训练样本对应的参考类目;
遍历所述至少一个训练样本,如果任一个训练样本对应的识别结果不满足识别条件,确定所述训练样本对应的参考类目为空类目。
作为又一种可能的实现方式,所述识别器包括识别类目;
所述处理组件1102将所述至少一个训练样本分别对应的样本特征依次输入所述参考识别器,获得至少一个训练样本分别对应的识别结果具体可以是:
将所述至少一个训练样本分别对应的样本特征依次输入所述参考识别器,获得所述至少一个训练样本分别对应所述识别类目的识别概率。
在某些实施例中,所述处理组件1102遍历所述至少一个训练样本,如果任一个训练样本对应的识别结果满足识别条件,基于所述训练样本对应分类结果,确定所述训练样本对应的参考类目具体可以是:
遍历所述至少一个训练样本,如果任一个训练样本对应的识别概率大于第二阈值,基于所述训练样本对应分类结果,确定所述训练样本对应的参考类目;
所述处理组件1102遍历所述至少一个训练样本,如果任一个训练样本对应的识别结果不满足识别条件,确定所述训练样本对应的参考类目为空类目具体可以是:
遍历所述至少一个训练样本,如果任一个训练样本对应的识别概率不大于所述第二阈值,确定所述训练样本对应的参考类目为空类目。
作为一个实施例,所述识别类目对应有第一参考特征;
所述处理组件1102处理如果所述识别误差不满足误差条件,基于所述识别误差,调整所述对象识别模型的参考分类器以及所述参考识别器,返回至所述将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器以及所述参考识别器,获得至少一个训练样本分别对应的参考类目的步骤继续执行具体可以是:
如果所述识别误差不满足误差条件,基于所述识别误差,调整所述对象识别模型的参考分类器以及所述参考识别器对应识别类目的第一参考特征,返回至所述将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器以及所述参考识别器,获得至少一个训练样本分别对应的参考类目的步骤继续执行。
作为一种可能的实现方式,所述将所述至少一个训练样本分别对应的样本特征依次输入所述参考识别器,获得所述至少一个训练样本分别对应所述识别类目的识别概率具体可以是:
分别计算所述至少一个训练样本各自的样本特征与所述第一参考特征的第三相似度;
基于每个训练样本分别对应的第三相似度,确定所述至少一个训练样本分别对应所述识别类目的识别概率。
作为又一个实施例,所述参考分类器包括至少一个类目;
所述处理组件1102将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器,获得至少一个训练样本分别对应的分类结果具体可以是:
将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器,获得每个训练样样本分别对应所述至少一个类目的分类概率;
所述处理组件1102遍历所述至少一个训练样本,如果任一个训练样本对应的识别结果满足识别条件,基于所述训练样本对应分类结果,确定所述训练样本对应的参考类目具体可以是:
遍历所述至少一个训练样本,如果任一个训练样本对应的识别结果满足识别条件,基于所述训练样本对应所述至少一个类目的分类概率,确定所述训练样本对应的参考类目。
作为一种可能的实现方式,所述至少一个类目分别对应一个第二参考特征;
所述处理组件1102处理如果所述识别误差不满足误差条件,基于所述识别误差,调整所述对象识别模型的参考分类器以及所述参考识别器,返回至所述将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器以及所述参考识别器,获得至少一个训练样本分别对应的参考类目的步骤继续执行具体可以是:
如果所述识别误差不满足误差条件,基于所述识别误差,调整所述对象识别模型的参考分类器对应至少一个类目各自的第二参考特征以及所述参考识别器,返回至所述将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器以及所述参考识别器,获得至少一个训练样本分别对应的参考类目的步骤继续执行。
作为一种可能的实现方式,所述处理组件1102将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器,获得每个训练样样本分别对应所述至少一个类目的分类概率具体可以是:
针对所述至少一个训练样本中任一个训练样本,计算所述训练样本的样 本特征分别与至少一个第二参考特征的第四相似度,获得所述训练样本分别对应所述至少一个类目的分类概率;
获得每个训练样本分别对应所述至少一个类目的分类概率。
在某些实施例中,所述处理组件1102遍历所述至少一个训练样本,如果任一个训练样本对应的识别结果满足识别条件,基于所述训练样本对应所述至少一个类目的分类概率,确定所述训练样本对应的参考类目具体可以是:
遍历所述至少一个训练样本,如果任一个训练样本对应识别结果满足识别条件,确定所述训练样本对应至少一个分类概率中大于第三阈值的第一分类概率,获得所述第一分类概率对应的类目为所述训练样本的参考类目。
在一些可能的设计中,所述处理组件1102遍历所述至少一个训练样本,如果任一个训练样本对应的识别结果满足识别条件,基于所述训练样本对应所述至少一个类目的分类概率,确定所述训练样本对应的参考类目具体可以是:
遍历所述至少一个训练样本,如果任一个训练样本对应识别结果满足识别条件,确定所述训练样本对应至少一个分类概率中的最大分类概率,确定所述最大分类概率对应的类目为所述训练样本的参考类目
作为一个实施例,所述处理组件还可以用于:
确定所述对象识别模型的训练频率;
所述处理组件基于所述至少一个训练样本分别对应的样本特征以及样本目标类目,训练所述对象识别模型的分类器以及识别器;其中,所述分类器包括至少一个类目具体可以是:
基于所述至少一个训练样本分别对应的样本特征以及样本目标类目,按照所述训练频率,训练所述对象识别模型的分类器以及识别器;其中,所述分类器包括至少一个类目。
图11所述的数据处理设备可以执行图4所示实施例所述的数据处理方法,其实现原理和技术效果不再赘述。对于上述实施例中的数据处理设备其中的处理组件所执行操作的具体方式已经在有关该方法的实施例中进行了详细描述, 此处将不做详细阐述说明。
此外,本申请实施例还提供一种存储介质,所述存储介质为计算机可读存储介质,存储有计算机程序;所述计算机程序使计算机执行时实现实现上述图4的实施例所述的数据处理方法。
如图12所示,为本发明实施例提供的一种信息识别装置的一个实施例的结构示意图,所述装置可以包括:
第二接收模块1201,用于接收商家端发送的待识别信息;其中,所述待识别信息包括待识别对象的对象信息;
第二分类模块1202,用于确定所述待识别信息对应待识别词语中,属于第一词语类型的第三关键词以及属于第二词语类型的第四关键词;
第二查找模块1203,用于从向量特征库中查找与所述第三关键词相匹配的第三文本特征;
第二提取模块1204,用于提取所述第四关键词对应的第四文本特征;
第二融合模块1205,用于将所述第三文本特征以及所述第四文本特征进行融合,获得待识别特征;
第二识别模块1206,用于基于所述待识别特征,从对象识别模型对应至少一个类目中识别所述待识别信息对应的目标类目;
对象增加模块1207,用于增加所述待识别信息对应待识别对象至所述目标类目中。
图12所述的信息识别装置可以执行图5实施例所述的信息识别方法,其实现原理和技术效果不再赘述。对于上述实施例中的信息识别装置其中的各个模块、单元、子单元所执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在一些可能的设计中,图12所示的信息识别装置可以设计为一信息识别设备,如图13所示,为本发明实施例提供的一种信息识别设备的一个实施例的结 构示意图,所述设备可以包括:存储组件1301以及处理组件1302;所述存储组件1301用于存储一条或多条计算机指令,所述一条或多条计算机指令用于被所述处理组件1302调用;
所述处理组件1302可以用于:
接收商家端发送的待识别信息;其中,所述待识别信息包括待识别对象的对象信息;确定所述待识别信息对应待识别词语中,属于第一词语类型的第三关键词以及属于第二词语类型的第四关键词;从向量特征库中查找与所述第三关键词相匹配的第三文本特征;提取所述第四关键词对应的第四文本特征;将所述第三文本特征以及所述第四文本特征进行融合,获得待识别特征;基于所述待识别特征,从所述对象识别模型对应至少一个类目中识别所述待识别信息对应的目标类目;增加所述待识别信息对应待识别对象至所述目标类目中。
图13所述的信息识别设备可以执行图5所示实施例所述的信息识别方法,其实现原理和技术效果不再赘述。对于上述实施例中的信息识别设备其中的处理组件所执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
此外,本申请实施例还提供一种存储介质,所述存储介质为计算机可读存储介质,存储有计算机程序;所述计算机程序使计算机执行时实现如图5所述的信息识别方法。
实施例未详细描述的部分,可参考对图2~图8所示实施例的相关说明。该技术方案的执行过程和技术效果参见图2~图8所示实施例中的描述,在此不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任 何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (46)

1.一种信息识别方法,其特征在于,包括:
接收任一用户端发送的待识别信息;
确定所述待识别信息对应待识别词语中,属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词;
从向量特征库中查找与所述第一关键词相匹配的第一文本特征;其中,所述向量特征库包括属于第一词语类型的至少一个词语对应文本特征;
提取所述第二关键词对应第二文本特征;
将所述第一文本特征以及所述第二文本特征进行融合,获得待识别特征;
基于所述待识别特征,从对象识别模型对应至少一个类目中识别所述待识别信息对应的目标类目;
根据所述目标类目,输出至少一个目标对象至所述用户端,以供所述用户端展示所述至少一个目标对象。
2.根据权利要求1所述的方法,其特征在于,所述第一词语类型包括具有特定词语含义的词语类型;所述第二词语类型包括具有普通词语含义的词语类型。
3.根据权利要求1所述的方法,其特征在于,所述向量特征库通过以下方式确定:
确定具有特定含义的至少一个词语;
为每个词语随机生成一个参考向量,获得至少一个参考向量;
将所述至少一个参考向量进行向量内积归一处理,获得至少一个文本特征;
将所述至少一个词语以及每个词语对应文本特征关联存储,以构成所述向量特征库。
4.根据权利要求2所述的方法,其特征在于,所述将所述至少一个参考向量进行向量内积归一处理,获得至少一个文本特征包括:
基于每个参考向量的向量2范数,将所述至少一个参考向量进行向量内积归一处理,获得所述至少一个文本特征。
5.根据权利要求4所述的方法,其特征在于,所述基于每个参考向量的向量2范数,将所述至少一个参考向量进行向量内积归一处理,获得所述至少一个文本特征包括:
计算所述每个参考向量的向量2范数;
遍历所述至少一个词语的参考向量,如果任一个词语的参考向量的向量2范数与1的差值小于第一阈值,确定所述参考向量为对应词语的文本特征,如果任一个词语的参考向量的向量2范数与1的差值大于所述第一阈值,基于所述向量2范数调整所述参考向量中的元素,获得所述参考向量对应词语的文本特征。
6.根据权利要求1所述的方法,其特征在于,所述对象识别模型包括分类器以及识别器;其中,所述分类器包括至少一个类目;
所述基于所述待识别特征,从对象识别模型对应至少一个类目中识别所述待识别信息对应的目标类目包括:
将所述待识别特征输入所述对象识别模型的分类器,获得分类结果;
将所述待识别特征输入所述对象识别模型的识别器,获得识别结果;
如果所述识别结果满足识别条件,基于所述分类结果,从所述分类器对应至少一个类目中确定所述待识别信息对应的目标类目;
如果所述识别结果不满足识别条件,确定所述待识别信息的目标类目为空类目。
7.根据权利要求6所述的方法,其特征在于,所述识别器包括识别类目;
所述将所述待识别特征输入所述对象识别模型的识别器,获得识别结果包括:
将所述待识别特征输入所述对象识别模型的识别器,获得所述待识别特征对应所述识别类目的识别概率。
8.根据权利要求7所述的方法,其特征在于,所述如果所述识别结果满足识别条件,基于所述分类结果,从所述分类器对应至少一个类目中确定所述待识别信息对应的目标类目包括:
如果所述识别概率大于第二阈值,基于所述分类结果,从所述分类器对应至少一个类目中确定所述待识别信息对应的目标类目;
所述如果所述识别结果不满足识别条件,确定所述待识别信息的目标类目为空类目包括:
如果所述识别结果不大于第二阈值,基于所述分类结果,确定所述待识别信息的目标类目为空类目。
9.根据权利要求7所述的方法,其特征在于,所述识别类目对应有第一参考特征;
所述将所述待识别特征输入所述对象识别模型的分类器,获得所述待识别特征对应所述识别类目的识别概率包括:
计算所述待识别特征与所述第一参考特征的第一相似度;
基于所述第一相似度,确定所述待识别特征对应所述识别类目的识别概率。
10.根据权利要求9所述的方法,其特征在于,所述第一参考特征包括第一参考子特征;所述待识别特征包括至少一个待识别子特征;
所述计算所述待识别特征与所述第一参考特征的第一相似度包括:
分别计算每个待识别子特征,与所述至少一个第一参考子特征的第一特征相似度;
确定第一特征相似度中大于第一相似度阈值的第一目标相似度;
计算所述第一目标相似度的数量与所述第一特征相似度的总数量的第一比值;
确定所述第一比值为所述第一相似度;
所述基于所述第一相似度,确定所述待识别特征对应所述识别类目的识别概率包括:
计算数值1与所述第一相似度的差值,获得所述待识别特征对应所述识别类目的识别概率。
11.根据权利要求6所述的方法,其特征在于,所述将所述待识别特征输入所述对象识别模型的分类器,获得分类结果包括:
将所述待识别特征输入所述对象识别模型的分类器,获得所述识别特征分别对应至少一个类目的分类概率;
所述如果所述识别结果满足识别条件,基于所述分类结果,从所述分类器对应至少一个类目中确定所述待识别信息对应的目标类目包括:
如果所述识别结果满足识别条件,基于所述待识别特征分别对应至少一个类目的分类概率,确定所述待识别信息对应的目标类目。
12.根据权利要求11所述的方法,其特征在于,所述至少一个类目中的任一个类目对应有一个第二参考特征;
所述将所述待识别特征输入所述对象识别模型的分类器,获得所述识别特征分别对应至少一个类目的分类概率包括:
分别计算所述待识别特征与每个第二参考特征的第二相似度;
根据待识别特征与每个第二参考特征的第二相似度,确定所述待识别特征对应每个类目的分类概率,获得至少一个分类概率。
13.根据权利要求12所述的方法,其特征在于,所述任一个第二参考特征包括至少一个第二参考子特征;所述待识别特征包括至少一个待识别子特征;
所述分别计算所述待识别特征与每个第二参考特征的第二相似度包括:
分别计算每个待识别子特征,与每个第二参考特征对应至少一个第二参考子特征的第二特征相似度;
确定所有第二特征相似度中大于第二相似度阈值的第二目标相似度;
计算所述第二目标相似度的数量与所有第二特征相似度的总数量的第二比值;
确定所述第二比值为所述第二相似度。
14.根据权利要求11所述的方法,其特征在于,所述如果所述识别结果满足识别条件,基于所述待识别特征分别对应至少一个类目的分类概率,确定所述待识别信息对应的目标类目包括:
如果所述识别结果满足识别条件,确定所述至少一个分类概率中大于第三阈值的目标分类概率;
确定所述目标分类概率对应的类目为所述待识别信息对应的目标类目。
15.根据权利要求11所述的方法,其特征在于,所述如果所述识别结果满足识别条件,基于所述待识别特征分别对应至少一个类目的分类概率,确定所述待识别信息对应的目标类目包括:
如果所述识别结果满足识别条件,确定所述至少一个分类概率中的最大分类概率;
确定所述最大分类概率对应的类目为所述待识别信息对应的目标类目。
16.根据权利要求1所述的方法,其特征在于,所述根据所述目标类目,输出至少一个目标对象至所述用户端,以供所述用户端展示所述至少一个对象包括:
从所述目标类目对应至少一个对象中,查找与所述待识别特征相匹配的至少一个目标对象;
将所述至少一个目标对象发送至所述用户端,以供所述用户端输出所述至少一个目标对象。
17.根据权利要求16所述的方法,其特征在于,所述从所述目标类目对应至少一个对象中,查找与所述待识别特征相匹配的目标对象包括:
确定所述目标类目的所述至少一个对象分别对应的对象特征;
基于所述待识别特征以及所述至少一个对象各自的对象特征,从所述至少一个对象中查找与所述待识别信息相匹配的目标对象。
18.根据权利要求1所述的方法,其特征在于,所述从向量特征库中查找与所述第一关键词相匹配的第一文本特征包括:
确定所述第一关键词中的第一本地关键词以及第一边缘关键词;
从本地服务器的向量特征库中查找与所述第一本地关键词相匹配的第一文本子特征;
从边缘服务器的向量特征库中查找与所述第一本地关键词相匹配的第二文本子特征;
确定所述第一文本子特征以及所述第二文本子特征对应的第一文本特征。
19.根据权利要求1所述的方法,其特征在于,所述提取所述第二关键词对应第二文本特征包括:
确定所述第二关键词中的第二本地关键词以及第二边缘关键词;
在第二本地服务器中提取第二本地关键词对应的第三文本子特征;
在第二边缘服务器中提取第二边缘关键词对应的第四文本子特征;
确定所述第三文本子特征以及所述第四文本子特征对应的第二文本特征。
20.根据权利要求1所述的方法,其特征在于,所述确定所述待识别信息对应待识别词语中,属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词包括:
发送所述待识别信息对应待识别词语至用户端,以供所述用户端输出所述待识别词语,检测用户针对待识别词语的选择操作,获得目标词语;
确定所述目标词语中属于所述第一词语类型的所述第一关键词以及属于所述第二词语类型的第二关键词。
21.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述待识别信息对应的待识别词语。
22.根据权利要求21所述的方法,其特征在于,所述待识别信息包括:文字信息、图像和/或语音数据;
所述确定所述待识别信息对应的待识别词语包括:
对所述文字信息进行语义分析,获得所述文字信息对应的文字关键词,对所述图像进行图像识别处理,获得所述图像中包含的图像信息对应的图像关键词,和/或,对所述语音数据进行语音识别处理,获得所述语音数据对应语音关键词;
确定所述文字关键词、所述图像关键词和/或所述语音关键词构成的待识别词语。
23.根据权利要求21所述的方法,其特征在于,所述确定所述待识别信息对应的待识别词语包括:
提取所述待识别信息对应的词语,获得至少一个词语;
确定所述至少一个词语满足匹配条件的词语为所述待识别词语。
24.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述用户端对应用户的用户身份信息;
基于所述用户身份信息,获取所述用户的历史记录信息;
根据所述历史记录信息,生成历史关键词;
所述确定所述待识别信息对应待识别词语中,属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词包括:
确定所述待识别信息对应待识别词语以及所述历史关键词中,属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词。
25.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定与所述第一关键词存在语义关联的第一关联关键词;
确定与所述第二关键词存在语义关联的第二关联关键词;
从所述向量特征库中查找与所述第一关联关键词相匹配的第一关联文本特征;
提取所述第二关联关键词对应的第二关联文本特征;
基于所述第一关联文本特征,从对象识别模型对应至少一个类目中识别所述第一关联关键词对应的第一关联类目;
基于所述第二关联文本特征,从对象识别模型对应至少一个类目中识别所述第二关联关键词对应的第二关联类目;
输出所述第一关联类目对应至少一个第一关联对象以及所述第二关联类目对应至少一个第二关联对象至所述用户端,以供所述用户端输出所述至少一个第一关联对象以及所述至少一个第二关联对象。
26.根据权利要求1所述的方法,其特征在于,还包括:
确定与所述目标类目存在推荐关系的至少一个推荐对象;
发送所述至少一个推荐对象至所述用户端,以供所述用户端输出所述至少一个推荐对象。
27.一种数据处理方法,其特征在于,包括:
确定至少一个训练样本;其中,每个训练样本为一个待分类的样本信息,每个样本信息对应一个样本目标类目;
确定每个训练样本对应样本词语中,属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词;
从所述向量特征库中查找与每个训练样本的所述第一关键词相匹配的第一样本特征;其中,所述向量特征库包括属于第一词语类型的至少一个词语对应文本特征;
提取每个训练样本的所述第二关键词对应的第二样本特征;
将每个训练样对应所述第一样本特征与所述第二样本特征进行融合,获得每个训练样本的样本特征;
构建对象识别模型;
基于所述至少一个训练样本分别对应的样本特征以及样本目标类目,训练所述对象识别模型的分类器以及识别器;其中,所述分类器包括至少一个类目。
28.根据权利要求27所述的方法,其特征在于,所述基于所述至少一个训练样本分别对应的样本特征以及样本目标类目,训练所述对象识别模型的分类器以及识别器包括:
初始化所述对象识别模型的分类器以及识别器,获得参考分类器以及参考识别器;
将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器以及所述参考识别器,获得至少一个训练样本分别对应的参考类目;
基于至少一个训练样本分别对应的参考类目以及样本目标类目,确定识别误差;
如果所述识别误差满足误差条件,确定所述参考分类器为所述对象识别模型的目标分类器,以及所述参考识别器为所述对象识别模型的目标识别器;
如果所述识别误差不满足误差条件,基于所述识别误差,调整所述对象识别模型的参考分类器以及所述参考识别器,返回至所述将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器以及所述参考识别器,获得至少一个训练样本分别对应的参考类目的步骤继续执行。
29.根据权利要求28所述的方法,其特征在于,所述将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器以及所述参考识别器,获得至少一个训练样本分别对应的参考类目包括:
将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器,获得至少一个训练样本分别对应的分类结果;
将所述至少一个训练样本分别对应的样本特征依次输入所述参考识别器,获得至少一个训练样本分别对应的识别结果;
遍历所述至少一个训练样本,如果任一个训练样本对应的识别结果满足识别条件,基于所述训练样本对应分类结果,确定所述训练样本对应的参考类目;
遍历所述至少一个训练样本,如果任一个训练样本对应的识别结果不满足识别条件,确定所述训练样本对应的参考类目为空类目。
30.根据权利要求29所述的方法,其特征在于,所述识别器包括识别类目;
所述将所述至少一个训练样本分别对应的样本特征依次输入所述参考识别器,获得至少一个训练样本分别对应的识别结果包括:
将所述至少一个训练样本分别对应的样本特征依次输入所述参考识别器,获得所述至少一个训练样本分别对应所述识别类目的识别概率。
31.根据权利要求30所述的方法,其特征在于,所述遍历所述至少一个训练样本,如果任一个训练样本对应的识别结果满足识别条件,基于所述训练样本对应分类结果,确定所述训练样本对应的参考类目包括:
遍历所述至少一个训练样本,如果任一个训练样本对应的识别概率大于第二阈值,基于所述训练样本对应分类结果,确定所述训练样本对应的参考类目;
所述遍历所述至少一个训练样本,如果任一个训练样本对应的识别结果不满足识别条件,确定所述训练样本对应的参考类目为空类目包括:
遍历所述至少一个训练样本,如果任一个训练样本对应的识别概率不大于所述第二阈值,确定所述训练样本对应的参考类目为空类目。
32.根据权利要求30所述的方法,其特征在于,所述识别类目对应有第一参考特征;
所述如果所述识别误差不满足误差条件,基于所述识别误差,调整所述对象识别模型的参考分类器以及所述参考识别器,返回至所述将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器以及所述参考识别器,获得至少一个训练样本分别对应的参考类目的步骤继续执行包括:
如果所述识别误差不满足误差条件,基于所述识别误差,调整所述对象识别模型的参考分类器以及所述参考识别器对应识别类目的第一参考特征,返回至所述将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器以及所述参考识别器,获得至少一个训练样本分别对应的参考类目的步骤继续执行。
33.根据权利要求32所述的方法,其特征在于,所述将所述至少一个训练样本分别对应的样本特征依次输入所述参考识别器,获得所述至少一个训练样本分别对应所述识别类目的识别概率包括:
分别计算所述至少一个训练样本各自的样本特征与所述第一参考特征的第三相似度;
基于每个训练样本分别对应的第三相似度,确定所述至少一个训练样本分别对应所述识别类目的识别概率。
34.根据权利要求29所述的方法,其特征在于,所述参考分类器包括至少一个类目;
所述将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器,获得至少一个训练样本分别对应的分类结果包括:
将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器,获得每个训练样样本分别对应所述至少一个类目的分类概率;
所述遍历所述至少一个训练样本,如果任一个训练样本对应的识别结果满足识别条件,基于所述训练样本对应分类结果,确定所述训练样本对应的参考类目包括:
遍历所述至少一个训练样本,如果任一个训练样本对应的识别结果满足识别条件,基于所述训练样本对应所述至少一个类目的分类概率,确定所述训练样本对应的参考类目。
35.根据权利要求34所述的方法,其特征在于,所述至少一个类目分别对应一个第二参考特征;
所述如果所述识别误差不满足误差条件,基于所述识别误差,调整所述对象识别模型的参考分类器以及所述参考识别器,返回至所述将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器以及所述参考识别器,获得至少一个训练样本分别对应的参考类目的步骤继续执行包括:
如果所述识别误差不满足误差条件,基于所述识别误差,调整所述对象识别模型的参考分类器对应至少一个类目各自的第二参考特征以及所述参考识别器,返回至所述将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器以及所述参考识别器,获得至少一个训练样本分别对应的参考类目的步骤继续执行。
36.根据权利要求35所述的方法,其特征在于,所述将所述至少一个训练样本分别对应的样本特征依次输入所述参考分类器,获得每个训练样样本分别对应所述至少一个类目的分类概率包括:
针对所述至少一个训练样本中任一个训练样本,计算所述训练样本的样本特征分别与至少一个第二参考特征的第四相似度,获得所述训练样本分别对应所述至少一个类目的分类概率;
获得每个训练样本分别对应所述至少一个类目的分类概率。
37.根据权利要求34所述的方法,其特征在于,所述遍历所述至少一个训练样本,如果任一个训练样本对应的识别结果满足识别条件,基于所述训练样本对应所述至少一个类目的分类概率,确定所述训练样本对应的参考类目包括:
遍历所述至少一个训练样本,如果任一个训练样本对应识别结果满足识别条件,确定所述训练样本对应至少一个分类概率中大于第三阈值的第一分类概率,获得所述第一分类概率对应的类目为所述训练样本的参考类目。
38.根据权利要求34所述的方法,其特征在于,所述遍历所述至少一个训练样本,如果任一个训练样本对应的识别结果满足识别条件,基于所述训练样本对应所述至少一个类目的分类概率,确定所述训练样本对应的参考类目包括:
遍历所述至少一个训练样本,如果任一个训练样本对应识别结果满足识别条件,确定所述训练样本对应至少一个分类概率中的最大分类概率,确定所述最大分类概率对应的类目为所述训练样本的参考类目。
39.根据权利要求27所述的方法,其特征在于,还包括:
确定所述对象识别模型的训练频率;
所述基于所述至少一个训练样本分别对应的样本特征以及样本目标类目,训练所述对象识别模型的分类器以及识别器;其中,所述分类器包括至少一个类目包括:
基于所述至少一个训练样本分别对应的样本特征以及样本目标类目,按照所述训练频率,训练所述对象识别模型的分类器以及识别器;其中,所述分类器包括至少一个类目。
40.一种信息识别方法,其特征在于,包括:
接收商家端发送的待识别信息;其中,所述待识别信息包括待识别对象的对象信息;
确定所述待识别信息对应待识别词语中,属于第一词语类型的第三关键词以及属于第二词语类型的第四关键词;
从向量特征库中查找与所述第三关键词相匹配的第三文本特征;其中,所述向量特征库包括属于第一词语类型的至少一个词语对应文本特征;
提取所述第四关键词对应的第四文本特征;
将所述第三文本特征以及所述第四文本特征进行融合,获得待识别特征;
基于所述待识别特征,从所述对象识别模型对应至少一个类目中识别所述待识别信息对应的目标类目;
增加所述待识别信息对应待识别对象至所述目标类目中。
41.一种信息交互方法,其特征在于,包括:
商家端获取第一用户输入的第一待识别信息,发送所述第一待识别信息至服务端;其中,所述第一待识别信息包括待识别商品的商品信息;
服务端接收商家端发送的所述第一待识别信息;确定所述第一待识别信息对应待识别词语中,属于第一词语类型的第三关键词以及属于第二词语类型的第四关键词;从向量特征库中查找与所述第三关键词相匹配的第三文本特征;提取所述第四关键词对应的第四文本特征;将所述第三文本特征以及所述第四文本特征进行融合,获得第一待识别特征;基于所述第一待识别特征,从所述对象识别模型对应至少一个类目中识别所述第一待识别信息对应的目标类目;增加所述待识别商品的商品信息至所述目标类目中;
用户端获取第二用户输入的第二待识别信息,发送第二待识别信息至服务端;其中,所述第二待识别信息包括与待查找商品相关的信息;
服务端接收用户端发送的所述第二待识别信息;确定所述第二待识别信息对应待识别词语中,属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词;从向量特征库中查找与所述第一关键词相匹配的第一文本特征;提取所述第二关键词对应的第二文本特征;将所述第一文本特征以及所述第二文本特征进行融合,获得第二待识别特征;基于所述第二待识别特征,从所述对象识别模型对应至少一个类目中识别所述第二待识别信息对应的目标类目;根据所述目标类目,输出至少一个商品的商品信息至所述用户端;
所述用户端接收所述服务端发送的所述至少一个商品的商品信息后,输出查找到的所述至少一个商品的商品信息;
其中,所述向量特征库包括属于第一词语类型的至少一个词语对应文本特征。
42.一种信息识别装置,其特征在于,包括:
第一接收模块,用于接收任一用户端发送的待识别信息;
第一分类模块,用于确定待识别信息对应待识别词语中,属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词;
第一查找模块,用于从向量特征库中查找与所述第一关键词相匹配的第一文本特征;其中,所述向量特征库包括属于第一词语类型的至少一个词语对应文本特征;
第一提取模块,用于提取所述第二关键词对应的第二文本特征;
第一融合模块,用于将所述第一文本特征以及所述第二文本特征进行融合,获得待识别特征;
第一识别模块,将基于所述待识别特征,从对象识别模型对应至少一个类目中识别所述待识别信息对应的目标类目;
对象输出模块,用于根据所述目标类目,输出至少一个目标对象至所述用户端,以供所述用户端展示所述至少一个目标对象。
43.一种数据处理装置,其特征在于,包括:
样本确定模块,用于确定至少一个训练样本;其中,每个训练样本为一个待分类的样本信息,每个样本信息对应一个样本目标类目;
样本分类模块,用于确定每个训练样本对应样本词语中,属于第一词语类型的第一关键词以及属于第二词语类型的第二关键词;
样本特征查找模块,用于从所述向量特征库中查找与每个训练样本的所述第一关键词相匹配的第一样本特征;其中,所述向量特征库包括属于第一词语类型的至少一个词语对应文本特征;
样本特征提取模块,用于提取每个训练样本的所述第二关键词对应的第二样本特征;
样本特征融合模块,用于将每个训练样对应所述第一样本特征与所述第二样本特征进行融合,获得每个训练样本的样本特征;
模型构建模块,用于构建对象识别模型;
模型训练模块,用于基于所述至少一个训练样本分别对应的样本特征以及样本目标类目,训练所述对象识别模型的分类器以及识别器;其中,所述分类器包括至少一个类目。
44.一种信息识别装置,其特征在于,包括:
第二接收模块,用于接收商家端发送的待识别信息;其中,所述待识别信息包括待识别对象的对象信息;
第二分类模块,用于确定所述待识别信息中对应待识别词语中,属于第一词语类型的第三关键词以及属于第二词语类型第四关键词;
第二查找模块,用于从向量特征库中查找与所述第三关键词相匹配的第三文本特征;其中,所述向量特征库包括属于第一词语类型的至少一个词语对应文本特征;
第二提取模块,用于提取所述第四关键词对应的第四文本特征;
第二融合模块,用于将所述第三文本特征以及所述第四文本特征进行融合,获得待识别特征;
第二识别模块,用于基于所述待识别特征,从对象识别模型对应至少一个类目中识别所述待识别信息对应的目标类目;
对象增加模块,用于增加所述待识别信息对应待识别对象至所述目标类目中。
45.一种信息识别设备,其特征在于,包括:存储组件以及处理组件;所述存储组件用于存储一条或多条计算机指令,所述一条或多条计算机指令用于被所述处理组件调用,以执行权利要求1~26以及权利要求40任一项所述的信息识别方法。
46.一种数据处理设备,其特征在于,包括:存储组件以及处理组件;所述存储组件用于存储一条或多条计算机指令,所述一条或多条计算机指令用于被所述处理组件调用,以执行权利要求27~39任一项所述的数据处理方法。
CN201910632610.6A 2019-07-14 2019-07-14 信息识别、数据处理方法、装置及设备、信息交互方法 Pending CN112307199A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910632610.6A CN112307199A (zh) 2019-07-14 2019-07-14 信息识别、数据处理方法、装置及设备、信息交互方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910632610.6A CN112307199A (zh) 2019-07-14 2019-07-14 信息识别、数据处理方法、装置及设备、信息交互方法

Publications (1)

Publication Number Publication Date
CN112307199A true CN112307199A (zh) 2021-02-02

Family

ID=74328708

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910632610.6A Pending CN112307199A (zh) 2019-07-14 2019-07-14 信息识别、数据处理方法、装置及设备、信息交互方法

Country Status (1)

Country Link
CN (1) CN112307199A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114187605A (zh) * 2021-12-13 2022-03-15 苏州方兴信息技术有限公司 一种数据集成方法、装置和可读存储介质
CN115205757A (zh) * 2022-07-28 2022-10-18 阿里巴巴(中国)有限公司 风险识别方法、装置、设备和存储介质
CN115708085A (zh) * 2021-08-09 2023-02-21 腾讯科技(深圳)有限公司 业务处理、神经网络模型的训练方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229684A (zh) * 2017-05-11 2017-10-03 合肥美的智能科技有限公司 语句分类方法、系统、电子设备、冰箱及存储介质
CN107491434A (zh) * 2017-08-10 2017-12-19 北京邮电大学 基于语义相关性的文本摘要自动生成方法及装置
CN108171276A (zh) * 2018-01-17 2018-06-15 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109635273A (zh) * 2018-10-25 2019-04-16 平安科技(深圳)有限公司 文本关键词提取方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229684A (zh) * 2017-05-11 2017-10-03 合肥美的智能科技有限公司 语句分类方法、系统、电子设备、冰箱及存储介质
CN107491434A (zh) * 2017-08-10 2017-12-19 北京邮电大学 基于语义相关性的文本摘要自动生成方法及装置
CN108171276A (zh) * 2018-01-17 2018-06-15 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109635273A (zh) * 2018-10-25 2019-04-16 平安科技(深圳)有限公司 文本关键词提取方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
EZREALMORE: "神经网络的结构解析及训练过程概述", 《CSDN》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115708085A (zh) * 2021-08-09 2023-02-21 腾讯科技(深圳)有限公司 业务处理、神经网络模型的训练方法、装置、设备及介质
CN114187605A (zh) * 2021-12-13 2022-03-15 苏州方兴信息技术有限公司 一种数据集成方法、装置和可读存储介质
CN115205757A (zh) * 2022-07-28 2022-10-18 阿里巴巴(中国)有限公司 风险识别方法、装置、设备和存储介质
CN115205757B (zh) * 2022-07-28 2024-04-16 阿里巴巴(中国)有限公司 风险识别方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN110188168B (zh) 语义关系识别方法和装置
CN108694225B (zh) 一种图像搜索方法、特征向量的生成方法、装置及电子设备
US20210382937A1 (en) Image processing method and apparatus, and storage medium
US8930288B2 (en) Learning tags for video annotation using latent subtags
CN107357793B (zh) 信息推荐方法和装置
WO2017100072A1 (en) Automatically classifying and enriching imported data records to ensure data integrity and consistency
CN113627447B (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN112364204B (zh) 视频搜索方法、装置、计算机设备及存储介质
CN112307199A (zh) 信息识别、数据处理方法、装置及设备、信息交互方法
CN113806588B (zh) 搜索视频的方法和装置
CN116601626A (zh) 个人知识图谱构建方法、装置及相关设备
CN115203498A (zh) 应用专家系统的数据信息推送分析方法及系统
CN112699667A (zh) 一种实体相似度确定方法、装置、设备和存储介质
CN113989476A (zh) 对象识别方法及电子设备
CN111612284B (zh) 数据的处理方法、装置及设备
CN113495987A (zh) 数据搜索方法、装置、设备和存储介质
KR102395876B1 (ko) 딥러닝을 이용하여 유사한 이미지를 필터링할 수 있는 상품 분류 시스템 및 방법
KR102393517B1 (ko) 풀필먼트 서비스를 제공하는 방법 및 그를 위한 서비스 시스템
CN113468332A (zh) 分类模型更新方法及其相应的装置、设备、介质
CN113256379A (zh) 一种为商品关联购物需求的方法
CN111611981A (zh) 信息识别方法和装置及信息识别神经网络训练方法和装置
CN117235234B (zh) 对象信息获取方法、装置、计算机设备和存储介质
CN116089614B (zh) 文本打标方法及装置
KR102363581B1 (ko) 풀필먼트 서비스를 제공하는 방법 및 그를 위한 서비스 시스템
CN117573145A (zh) 自动化游戏发布方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210202

RJ01 Rejection of invention patent application after publication