CN111523315A - 数据处理方法、文本识别方法、装置及计算机设备 - Google Patents

数据处理方法、文本识别方法、装置及计算机设备 Download PDF

Info

Publication number
CN111523315A
CN111523315A CN201910041335.0A CN201910041335A CN111523315A CN 111523315 A CN111523315 A CN 111523315A CN 201910041335 A CN201910041335 A CN 201910041335A CN 111523315 A CN111523315 A CN 111523315A
Authority
CN
China
Prior art keywords
node
vector
text
attribute
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910041335.0A
Other languages
English (en)
Other versions
CN111523315B (zh
Inventor
王剑
蒋卓人
孙常龙
刘晓钟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910041335.0A priority Critical patent/CN111523315B/zh
Publication of CN111523315A publication Critical patent/CN111523315A/zh
Application granted granted Critical
Publication of CN111523315B publication Critical patent/CN111523315B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种数据处理方法、一种文本识别方法、装置及一种计算机设备。本申请通过获取第一领域的第一文本样本及第二领域的第二文本样本并分别对所述第一文本样本及所述第二文本样本进行分词,获得多个属性特征。以所述多个属性特征为节点,以各个属性特征之间的关联关系为边,构建包括所述第一领域和所述第二领域的连通图,并确定所述连通图中每个节点的节点向量。基于所述第二文本样本命中所述连通图中的至少一个节点的节点向量及对应的至少一个属性标签,训练所述第二领域的分类模型,以至少基于所述分类模型及所述节点向量确定所述第二领域的待识别文本的识别结果。本申请技术方案大大提高第二领域属性识别的准确性。

Description

数据处理方法、文本识别方法、装置及计算机设备
技术领域
本申请实施例涉及网络技术领域,尤其涉及一种数据处理方法、一种文本识别方法、装置及一种计算机设备。
背景技术
随着计算机网络技术的日益发达,大量用户根据在互联网上的消费体验对该次消费的评论信息已经形成一个庞大的数据。目前,可以通过将某一领域商品(例如服装领域)大量的评论文本信息对该商品进行属性识别,从而深入挖掘用户对该商品的关注点及兴趣,以便基于用户对商品的关注点及兴趣引导用户的消费行为或引导商家确定该领域商品的研究方向及业务方向等。
现有技术中,可以通过该领域商品对应的分类模型识别该领域商品任一评论文本对应的属性标签,从而获知用户关注的属性维度。为了提高该分类模型的属性识别的准确性,该分类模型的训练样本需要通过对该领域商品的大量评论文本进行人工标注获得。具体是,首先通过人工定义该领域商品的属性标签体系,由人工标注根据每一个评论文本信息各自对应的至少一个属性标签,从而获得用于训练该领域商品的分类模型的训练样本。
但目前由于新领域商品(例如电子产品领域)的用户较少,因此相应评论文本信息较少,导致新领域商品的训练样本较少,难以获得准确性较好的训练模型。
发明内容
本申请实施例提供一种数据处理方法、一种文本识别方法、装置及一种计算机设备,结合已有足够数据量的第一文本样本,实现对第二领域分类模型进行模型训练,大大提高第二领域属性识别的准确性。
第一方面,本申请实施例中提供了一种数据处理方法,包括:
获取第一领域的第一文本样本及第二领域的第二文本样本;
分别对所述第一文本样本及所述第二文本样本进行分词,获得多个属性特征;
以所述多个属性特征为节点,以各个属性特征之间的关联关系为边,构建包括所述第一领域和所述第二领域的连通图,并确定所述连通图中每一个节点的节点向量;
基于所述第二文本样本命中所述连通图中的至少一个节点的节点向量及对应的至少一个属性标签,训练所述第二领域的分类模型,以至少基于所述分类模型及所述节点向量确定所述第二领域的待识别文本的识别结果。
第二方面,本申请实施例中提供了一种文本识别方法,包括:
获取第二领域的待识别文本;
确定所述待识别文本命中连通图中的至少一个节点的节点向量;其中,所述连通图基于第一领域的第一文本样本及所述第二领域的第二文本样本进行分词获得的多个属性特征作为节点,以各个属性特征之间的关联关系为边构建获得;每个节点的节点向量基于所述连通图学习获得;
基于所述待识别文本对应的至少一个节点向量及所述第二领域的分类模型,确定所述待识别文本的属性识别结果;其中,所述分类模型为基于所述第二文本样本对应所述连通图的至少一个节点的节点向量,以及对应的至少一个属性标签训练获得。
第三方面,本申请实施例中提供了一种数据处理装置,包括:
第一获取模块,用于获取第一领域的第一文本样本及第二领域的第二文本样本;
第二获取模块,用于分别对所述第一文本样本及所述第二文本样本进行分词,获得多个属性特征;
连通图生成模块,用于以所述多个属性特征为节点,以各个属性特征之间的关联关系为边,构建包括所述第一领域和所述第二领域的连通图;
第一确定模块,用于确定所述连通图中每一个节点的节点向量;
模型训练模块,用于基于所述第二文本样本命中所述连通图中的至少一个节点的节点向量及对应的至少一个属性标签,训练所述第二领域的分类模型,以至少基于所述分类模型及所述节点向量确定所述第二领域的待识别文本的识别结果。
第四方面,本申请实施例中提供了一种文本识别装置,包括:
文本获取模块,用于获取第二领域的待识别文本;
节点确定模块,用于确定所述待识别文本命中连通图中的至少一个节点的节点向量;其中,所述连通图基于第一领域的第一文本样本及所述第二领域的第二文本样本进行分词获得的多个属性特征作为节点,以各个属性特征之间的关联关系为边构建获得;每个节点的节点向量基于所述连通图学习获得;
文本识别模块,用于基于所述待识别文本对应的至少一个节点向量及所述第二领域的分类模型,确定所述待识别文本的属性识别结果;其中,所述分类模型为基于所述第二文本样本对应所述连通图的至少一个节点的节点向量,以及对应的至少一个属性标签训练获得。
第五方面,本申请实施例中提供了一种计算机设备,包括处理组件以及存储组件;所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行;
所述处理组件用于:
获取第一领域的第一文本样本及第二领域的第二文本样本;
分别对所述第一文本样本及所述第二文本样本进行分词,获得多个属性特征;
以所述多个属性特征为节点,以各个属性特征之间的关联关系为边,构建包括所述第一领域和所述第二领域的连通图,并确定所述连通图中每一个节点的节点向量;
基于所述第二文本样本命中所述连通图中的至少一个节点的节点向量及对应的至少一个属性标签,训练所述第二领域的分类模型,以至少基于所述分类模型及所述节点向量确定所述第二领域的待识别文本的识别结果。
第六方面,本申请实施例中提供了一种计算机设备,包括处理组件以及存储组件;所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行;
所述处理组件用于:
获取第二领域的待识别文本;
确定所述待识别文本命中连通图中的至少一个节点的节点向量;其中,所述连通图基于第一领域的第一文本样本及所述第二领域的第二文本样本进行分词获得的多个属性特征作为节点,以各个属性特征之间的关联关系为边构建获得;每个节点的节点向量基于所述连通图学习获得;
基于所述待识别文本对应的至少一个节点向量及所述第二领域的分类模型,确定所述待识别文本的属性识别结果;其中,所述分类模型为基于所述第二文本样本对应所述连通图的至少一个节点的节点向量,以及对应的至少一个属性标签训练获得。
与现有技术相比,本申请可以获得包括以下技术效果:
本申请实施例提供了一种数据处理方法、一种文本识别方法、装置及一种计算机设备。本申请实施例基于将第一领域的第一文本样本及第二领域的第二文本样本进行分词获得多个属性特征作为节点并以各个属性特征之间的关联关系为边,构建包括第一领域和第二领域的连通图,获得包含跨领域信息的连通图。从而使确定的连通图中每一个节点的节点向量都包含有大量第一领域及第二领域的有效信息。基于所述第二文本样本命中所述连通图中的至少一个节点的节点向量及对应的至少一个属性标签,训练所述第二领域的分类模型,使得该分类模型学习获得第一领域的属性识别能力,以至少基于所述分类模型及所述节点向量确定所述第二领域的待识别文本的识别结果。本申请实施例基于连通图学习获得的节点向量,可以将第一领域的有效信息迁移到第二领域中,帮助提高了第二领域训练模型的属性识别的准确性。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本申请提供的一种数据处理方法一个实施例的流程示意图;
图2示出了根据本申请提供的一种路径采样示意图;
图3示出了根据本申请提供的一种数据处理方法又一个实施例的流程示意图;
图4示出了根据本申请提供的一种文本识别方法一个实施例的流程示意图;
图5示出了根据本申请提供的一种数据处理装置一个实施例的结构示意图;
图6示出了根据本申请提供的一种数据处理装置又一个实施例的结构示意图;
图7示出了根据本申请提供的一种文本识别装置一个实施例的结构示意图;
图8示出了根据本申请提供的一种计算机设备一个实施例的结构示意图;
图9示出了根据本申请提供的一种计算机设备一个实施例的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在本申请的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
正如背景技术中所述,为了提高新领域分类模型的属性识别的准确性,需要首先获得大量该领域的文本样本进行分类模型的训练。但对于新领域来说,由于用户较少,产生的文本数据量较少,因此难以利用较少的文本样本训练获得准确性较好的训练模型。
因此,为了提高新领域分类模型的准确度,发明人经过一系列研究提出了本申请技术方案,在本申请实施例中,通过基于将第一领域的第一文本样本及第二领域的第二文本样本进行分词获得多个属性特征作为节点并以各个属性特征之间的关联关系为边,构建包括第一领域和第二领域构建连通图,获得包含跨领域信息的连通图。从而使确定的连通图中每一个节点的节点向量都包含有大量第一领域及第二领域的有效信息。基于所述第二文本样本命中所述连通图中的至少一个节点的节点向量及对应的至少一个属性标签,训练所述第二领域的分类模型,使得该分类模型学习获得第一领域的属性识别能力,以至少基于所述分类模型及所述节点向量确定所述第二领域的待识别文本的识别结果。本申请实施例基于连通图学习获得的节点向量,可以将第一领域的有效信息迁移到第二领域中,帮助提高了第二领域训练模型的属性识别的准确性。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种数据处理方法一个实施例的流程示意图。该方法可以包括以下几个步骤:
101:获取第一领域的第一文本样本及第二领域的第二文本样本。
实际应用中,该第一领域和第二领域可以是指根据同一行业中对不同类型的商品进行领域划分,也可以根据不同行业进行领域划分。例如,服装行业中可以进一步划分为衣服领域、鞋帽领域、配饰领域等。当然,对不同行业划分例如可以分为服装领域、电子设备领域、新闻媒体领域等,在此不做具体限定。
但可以理解的是,本申请实施实例中并未限定选取第一领域的数量,为了保证第一文本样本的丰富程度,实际选取多个领域的文本样本要优于仅选择一个领域的文本样本,但在实际应用中需要考虑到实际数据的处理性能以及处理效率,并不是第一领域选择越多越好,可根据实际需求进行选择。
每一个文本样本需要通过进行人工标注属性标签获得。即该领域商品的属性标签体系确定的情况下,需要人工分拣每一个文本对应的属性标签并进行人工标记获得文本样本。因此,实际文本样本的获得需要耗费大量的人力和时间。因此为了节省人工成本和时间,通常可以优先选择第一领域的第一文本样本为已经完成人工标注的文本样本。因此,仅需要通过人工标注第二领域少量的第二文本样本即可。
实际应用中,对于第二领域为新领域时,选择所述第一领域的第一文本样本的样本数量需要远大于所述第二领域第二文本样本的样本数量。但实际本申请实施例技术方案,并不仅限于对新领域的分类模型的训练,还可用于对第二领域为旧领域时的分类模型的优化训练。因此,对于进行第二领域模型优化时,并不限定第一领域的第一文本样本的样本数量与第二领域的第二文本样本的样本数量之间的关系,还可以是第一文本样本的样本数量小于第二文本样本的样本数量,也可以是第一文本样本的样本数量等于第二文本样本的样本数量,在此不做具体限定。
可以理解的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
另外,针对不同领域该文本样本,例如可以是用户通过互联网上的购物网站进行购物,对购买商品的评论信息或快递的评论信息;还可以是用户根据网上商品对已购买该商品用户的提问留言信息、或与评论用户进行沟通的留言信息等;例如,可以是用户进行网络约车、网约送餐消费等对司机或送餐人员的评论信息等。例如,可以是用户利用线上平台的线下消费对线下店铺及消费体验的评论信息等。当然,还可以应用到新闻媒体行业、例如对互联网新闻媒体、视频网站、技术论坛等用户的留言信息和评论信息等。
实际应用中,商家为了深入挖掘用户对商品的关注点和兴趣点,可以对商品定义其特定的属性标签体系。因此,商家通过用户的评论文本进行深入分析和挖掘获得用户对商品的关注点和兴趣点,可以基于用户对商品的关注点及兴趣引导用户的消费行为或引导商家确定该领域商品的研究方向及业务方向等。
例如,用户在服装领域中针对某件衣服的评论文本是“这件衣服很时尚、质量好、性价比高”,那么通过人工分析可以知道,该评论文本对应的属性标签可以包括时尚、质量、性价比等至少三个属性标签。可以认为该用户比较关注该商品的时尚、质量、性价这三个维度。因此,在生成文本样本时,将该条评论文本标注时尚、质量、性价比等至少三个属性标签。
通常相同领域的商品的属性标签体系可以通用,例如服装领域的商品,其属性标签可以包括款式、颜色、质量、时尚、性价比等。而不同领域的商品其属性标签体系之间存在一定差异。例如电子商品领域的属性标签可以包括质量、设备性能、设备功能,外观、时尚、性价比等。因此,对于不同领域具有相同属性标签时,对跨领域有效信息的迁移提供了可能,且领域越接近,通过迁移学习获得的有效信息就会越丰富。
102:分别对所述第一文本样本及所述第二文本样本进行分词,获得多个属性特征。
实际应用中,为了实现跨领域信息的有效迁移,需要将第一文本样本及第二文本样本划分为更小的词单元,基于各个词单元之间语义关系及关联关系等,从而将不同领域的文本样本进行融合。因此,需要将所述第一文本样本及所述第二文本样本进行分词。通过第一文本样本及所述第二文本样本分词获得的多个词,进行词性标注、句法分析等预处理对该多个词进行筛选,祛除其中例如“啊”,“呀”,“吗”等无实际意义的语气词或助词等,并将相同的词进行合并后,分别获得第一文本样本及所述第二文本样本中的多个属性特征。其中,该属性特征实际为可以表征文本样本特征的词,包括该文本样本标注的属性标签提取的属性特征。本申请实施例中,可以是利用现有技术中分词方法进行分词处理获得多个词,还可以是其它现有的词提取技术,在此不做具体限定。且如果文本样本为标注属性标签的评论文本时,对评论文本进行分词处理的同时,由于每个属性标签同样由至少一个词构成,因此还需要对属性标签进行属性特征的提取。
103:以所述多个属性特征为节点,以各个属性特征之间的关联关系为边,构建包括所述第一领域和所述第二领域的连通图。
可以理解的是,属性标签对应的词可能同样会出现在评论文本中,例如,评论文本为“这件衣服很时尚、质量好、性价比高”时,就会包含“时尚”、“质量”、“性价比”等至少三个属性标签对应的词,因此,将该评论文本进行属性特征提取可以获得“衣服”、“时尚”、“质量”、“性价比”、“好”、“高”等词。由于基于第一文本样本获得的多个词与基于第二文本样本获得多个属性特征,会存在部分相同的属性特征,因此,在构建连通图时,需要将相同的词进行合并获得多个属性特征,将合并后获得每一个属性特征作为一个节点,并根据各个属性特征之间的关联关系为边,构建连通图。
实际该各个属性特征之间的关联关系可以是词之间的共现关系。因此,作为一种可能的实现方式,第一文本样本包括第一领域商品标注属性标签的评论文本;第二文本样本包括第二领域商品标注属性标签的评论文本。所述将分别对所述第一文本样本及所述第二文本样本进行分词,获得的多个属性特征为节点,并以各个属性特征之间的关联关系为边,构建包括所述第一领域和所述第二领域的连通图可以包括:
分别将所述第一领域商品标注属性标签的评论文本及所述第二领域商品标注属性标签的评论文本进行分词处理,获得多个属性特征;
将所述多个属性特征作为节点并以各个属性特征词之间的共现关系为边,构建包括所述第一领域及所述第二领域的连通图。
本申请实施例中,由于通过将第一领域的第一文本样本与第二领域的第二文本样本分别进行分词处理,提取获得的多个属性特征之间存在相同的部分,通过连通图中的节点将两个领域的属性特征通过边进行关联,从而实现了跨领域有效信息的迁移。
104:确定所述连通图中每个节点的节点向量。
本申请实施例中可以通过现有的图表示学习方法或图映射学习方法等,例如采用wors2vec、skipgram等词向量学习模型,确定每个节点的节点向量,具体过程如下所述。
一种可实现的实施方式,所述确定所述连通图中每个节点的节点向量可以包括:
分别以所述连通图中的每个节点为起点进行路径采样,确定多条节点路径;
基于所述多条节点路径学习所述每个节点的节点向量。
实际应用中,每种节点向量学习模型可以是基于神经网络的学习,通过以每个节点为起点,遍历该连通图中的每一个节点,并确定每一个节点对应的一条节点路径。实际应用中,预先设置每个节点的初始节点向量,基于确定的节点路径及每个节点路径的初始节点向量进行模型训练,从而逐步优化学习每个节点的节点向量。其中,初始节点向量可以是随机设置的,也可以按照一定的预设规则设置的。
如图2所示为基于连通图的路径采样示意图,该连通图中包含A、B、C、D、E、F六个节点,每个节点之间通过边相连,分别以每个节点为起点可以至少确定六条节点路径,例如该六条节点路径分别可以是ABC,CBD,DBC,EBF,FBA,BA。
基于每个节点路径中包含的节点,可以基于词向量学习模型分别预测路径上的其它节点的节点向量,例如,路径ABC中,可以利用节点B的节点向量分别预测节点A和节点C的节点向量,同时,节点A还可以预测节点B和节点C的节点向量,从而基于每一次的预测结果来不断学习每个节点的节点向量。前述,节点向量的学习过程为现有技术,在此不做过多赘述。
实际应用中,在学习节点的节点向量时,会根据所需信息量的丰富程度设定节点向量的维度。例如设定每个节点向量的维度是固定的128维,每一个维度可以用实数值表示,在此不做具体限定。
可选地,在一种可实现实施方式中,所述分别以所述连通图中的每一个节点为起点进行路径采样,确定多条节点路径可以包括:
学习所述连通图中每个边的概率分布,以确定每个边的概率权重;
分别以所述连通图中的每一个节点为起点,基于所述每个边的概率权重依次选择下一个节点,确定多条节点路径。
如图2所述,实际与节点B相连的边有5个,每个边与一个节点相连。在路径选择中,本申请实施例可以学习每个边的概率分布,从而确定每个边的概率权重。实际学习中,首先需要为每个边设定一个初始概率权重,即如果节点A仅存在一个边,那么以节点A为起点会直接沿该边游走至节点B,但由于节点B包含多条边,因此如何确定下一个节点,在现有技术中,采用随机游走算法确定,即随机确定与节点B相连的任一个边游走至下一个节点。但本申请实施例实例用需要根据每个边的概率权重进行选择下一个节点。例如可以选择概率权重最大边游走,或概率权重最小的边游走,或接近平均概率权重的边游走等从而确定下一个节点,从而确定每个节点对应的节点路径。
本申请实施例中,利用现有的路径采样算法结合节点类别对应边的概率分部,来确定每个节点的节点路径。例如,现有RadomWalk算法、LINE算法、DeepWalk算法、MetaPath算法等经典路径采样算法,结合概率分布式学习方法得到不同边的概率权重。实际应用中,每个边的初始概率权重可以根据节点类型的概率分布确定也可以是随机设定。例如评论文本对应的节点之间以词的共现概率作为其边的初始概率权重,而实际在基于确定的节点路径学习每个节点的节点向量发生变化后,节点之间的概率分布会发生变化,其边的概率权重也会相应调整,从而学习获得每个边的概率权重。
可选地,在一种可实现实施方式中,所述分别以所述连通图中的每一个节点为起点,基于所述每个边的概率权重依次选择下一个节点,确定多条节点路径可以包括:
所述分别以所述连通图中的每一个节点为路径起点,优先选择概率权重最大的边游走至下一个节点;
判断任一路径游走步数是否满足步数阈值;
如果满足所述步数阈值,确定当前节点为路径终点;
基于所述路径起点及所述路径起点对应的路径终点,确定多条节点路径。
可以理解的是,由于第一文本样本及第二文本样本的样本数量很大,因此,构建连通图的节点也会很丰富,当连通图中包含节点数据量较大时,需要设置节点路径的步数阈值,以避免由于步数过长导致数据计算量过大。例如设置步数阈值为100步,当以任一个节点为起点,游走至第一百个节点时,将第一百个节点作为路径终点,从而获得节点路径。当然对于连通性较差的节点,可能实际最多游走50步,则将该地50个节点即作为路径终点,确定相应的节点路径。
其中,步数阈值可跟据分类模型的精度需求进行设定,当路径越长时实际每个节点学习到更多的有效信息,从而进行模型训练时获得的分类模型的准确地也会越高。但如果实际连通图较大,为在运算效率和精度之间获得平衡,设定步数阈值是一种优选方案。
可选地,所述确定所述连通图中每一个节点的节点向量可以包括:
确定所述连通图中每一个节点的语义向量。
语义向量可以表示该词出现在语句中上下文的向量,包含了该词构成语句时有效信息。语义向量学习与前述方法相同,在此不再赘述。
105:基于所述第二文本样本命中所述连通图中的至少一个节点的节点向量及对应的至少一个属性标签,训练所述第二领域的分类模型,以至少基于所述分类模型及所述节点向量确定所述第二领域的待识别文本的识别结果。
实际每一个第二文本样本均经过人工标注了属性标签,因此,基于每一个第二文本样本对应的至少一个属性标签作为分类模型的预设输出数据,以及对应的训练文本向量作为分类模型的输入数据,对该第二领域的分类模型进行模型训练。实际该分类模型训练过程采用现有结合有监督的机器学习方法实现,该分类模型可以现有任一分类模型,例如决策树分类模型拟合,选择树分类模型等。除了基于深度学习的方法外,还可以使用传统的分类统计模型,比如最大熵、SVW、随机森林等等。具体可根据实际需求进行选择,在此不做具体限定。
本申请实施例中,通过基于第一领域的第一文本样本以及第二领域的第二文本样本构建包括第一领域及第二领域的连通图,将基于图表示学习等方法学习连通图中每个节点的节点向量,实现有效信息的跨领域迁移学习。使得每个节点的节点向量均可包含大量的第一领域及第二领域的有效信息,可以大大提高了第二领域训练模型的属性识别的准确性。且分类模型仅在第二领域的训练数据中训练获得,因此该分类模型的输出空间可以仅仅在第二领域上,大大降低了分类器的学习难度。
此外,本申请实施例中利用现有的路径采样算法并结合概率分布式学习方法得到连同图中不同边的概率权重,从而基于边的概率权重选择下一个游走的节点从而确定节点路径。使得每个节点可以学习获得的节点向量的有效性大大提高,从而进一步提高了第二领域分类模型的属性识别的准确性。
图3为本申请实施例提供的一种数据处理方法的又一个实施例的流程示意图。该方法可以包括以下几个步骤:
301:获取第一领域的第一文本样本及第二领域的第二文本样本。
302:分别对所述第一文本样本及所述第二文本样本进行分词,获得多个属性特征。
303:分别获取所述第一领域的第一对象关联信息以及所述第二领域的第二对象关联信息。
304:确定所述第一对象关联信息及所述第二对象关联信息中的多个对象关联特征。
本申请实施例中,并不限定前述步骤的具体实施顺序。
其中,所述第一文本样本为所述第一领域商品标注属性标签的评论文本时,所述第一对象关联信息可以是所述第一领域商品的商品关联信息;所述第二文本样本为所述第二领域商品标注属性标签的评论文本时,所述第二对象关联信息可以是所述第二领域商品的商品关联信息。
实际应用中第一领域及第二领域的对象包括但不限于商品,还可以员工,例如网络打车领域的司机、快递配送领域的配送员或送餐员等员工,还可以是互联网视频或新闻媒体领域的某一类别的新闻或视频等,还可以是消费服务等,在此不做具体限定。
由于第一领域与第二领域在文本内容以及属性维度上具有一定的差异,因此使用单纯的文本信息构建的连通图的连通性不够。本申请实施例中,为了进一步提高连通图的连通性,以获得更加丰富的有效信息达到提高系统性能的目的,在除文本信息外,还增加了对象关联信息。
第一对象关联信息包括所述第一领域的第一对象信息、与所述第一对象信息关联的店铺信息及用户信息;所述第二对象关联信息包括所述第二领域的第二对象信息、与所述第二对象信息关联的店铺信息及用户信息。
实际应用中,所述对象关联信息可以包括所述对象信息、以及与所述对象信息关联的用户信息和店铺信息等。本申请实施例中,包括但不限于上述的对象关联信息,例如还可以包括商品品类信息、商品与其它商品的捆绑销售信息等。
所述确定所述第一对象关联信息及所述第二对象关联信息中的多个对象关联特征可以包括:
基于所述第一对象信息、所述与所述第一对象信息关联的店铺信息及用户信息以及所述第二对象信息、所述与所述第二对象信息关联的店铺信息及用户信息,确定多个对象特征、多个用户特征及多个店铺特征。
实际应用中根据领域划分的大小,不同领域中的对象数量不同,例如服装领域中的对象可以包括衣服、鞋子、帽子、袜子等;如果为鞋帽领域,则该领域的对象仅包括鞋子和帽子两个对象。因此,实际第一对象信息与第二对象信息的数量与第一领域及第二领域相关。进一步,确定了分别与第一对象信息及第二对象信息关联的店铺信息及用户信息。
其中,与对象关联信息关联的店铺信息可以是出售该对象的店铺,包括正在出售、预备出售、或以下架店铺的店铺信息;用户信息可以是浏览该对象或店铺、购买该对象或店铺、点击该对象或店铺、或写该对象的评论文本用户的用户信息等,在此不做具体限定。
305:分别以所述多个属性特征及所述多个对象关联特征为节点,以所述各个属性特征以及各个对象关联特征之间的关联关系为边,构建包括所述第一领域和所述第二领域的连通图。
作为一种可实现的实施方式,所述分别以所述多个属性特征及所述多个对象关联特征为节点,以所述各个属性特征以及各个对象关联特征之间的关联关系为边,构建包括所述第一领域和所述第二领域的连通图可以包括:
分别将所述属性特征作为词节点、将所述对象特征作为对象节点、将所述用户特征作为用户节点、将所述店铺特征作为店铺节点;
将所述词节点之间以属性特征之间的共现关系为边,将所述对象节点与所述词节点之间以文本数量关系为边,将所述店铺节点与所述对象节点之间以出售关系为边,将所述用户节点与所述对象节点、所述用户节点与所述店铺节点以及所述用户节点与所述词节点之间以用户行为关系为边,构建包括所述第一领域和所述第二领域的连通图。
除此之外,连接不通类型节点的边还可包括对象的品类信息、对象与对象之间是否具有协同使用、关联、捆绑促销等信息为对象节点之间边、以及词与词之间的上下位、同义词等信息为词节点之间的边等,当然可以理解的是,边的类型包括但不限于上述几种,具体边的类型可根据实际需求进行设定,边的类型越丰富,对应连通性就越高。
在此可不做具体限定,可根据信息的有效程度及关联程度进行适当选择。
可以理解的是,本申请实施例中所述的,用户行为可以包括但不限于购买、点击、浏览、写评论等,因此用户行为关系可以包括购买关系、点击关系、浏览关系、写评论关系等。具体可根据实际情况进行设定,在此不做具体限定。
通过定义多种节点与边的类型,可以实现将用户行为信息融合到连通图中。由于融合了用户行为以及店铺、商品等信息,可以使后续学习到的节点向量中包含由第一领域更多的有效信息,可进一步提高第一领域与第二领域之间迁移信息的丰富程度。例如,某一购买衣服时更多关注版型、款式等属性为“时尚”的用户,在购买其它领域商品时往往也会更多关注“时尚”属性。例如,融合用户信息的分类模型中,当遇到用户再次购买相同商品或不同领域商品的时候,其历史信息的丰富程度同样可以提高系统的分类性能。例如,一个店铺有时会同时出售不同领域的多种商品,同一个用户也会同时购买多个领域的不同商品。因此,通过融合店铺、商品、用户及用户行为等多位度特征信息的连通图,其连通性得到的极大的提高。
本申请实施例中,构建的连通图可以实现将不同类型节点之间建立关联,并基于不同类型节点之间的关联关系进一步挖掘用户行为信息,获得更丰富的有效信息,以进一步提高分类模型的识别性能。
306:确定所述连通图中每个节点的节点向量。
实际基于对象关联信息的类别,在学习获得128维的语义向量R后,同时可以学习到每个节点对象向量I,用户向量U,店铺向量S,且可以同时设定每一个主题语义分布向量也均为128位实数向量。此处仅为示意性描述,在此不做具体限定。
实际应用中,由前述可知,基于wors2vec、skipgram等节点向量学习模型,可以学习获得节点的语义向量,同时基于LDA(Latent Dirichlet Allocation,文档主题分布模型)的主题分布学习方法,可以基于确定的每个节点对应的节点路径进行学习获得每个节点的主题语义分布向量,该主体分布学习方法为现有技术在此不做赘述。
可选地,所述确定所述连通图中每个节点的节点向量可以包括:
确定所述连通图中每个节点各自对应的语义向量及主题语义分布向量。
其中,每一个节点对应一个语义向量及一个主题语义分布向量,该主题语义分部向量可以为[I,U,S],在此主题语义分部向量对应各个主题向量的排列顺序不做限定。
307:确定所述第二文本样本命中所述连通图中的至少一个节点对应的节点向量。
作为一种可实现的实施方式,所述节点向量包括语义向量及主题语义分布向量时,所述确定所述第二文本样本命中所述连通图中的至少一个节点对应的节点向量可以包括:
确定所述第二文本样本命中所述连通图中节点的至少一个语义向量及对应节点的至少一个主题语义分布向量。
308:将所述第二文本样本对应的至少一个节点向量进行向量融合,获得所述第二文本样本的训练文本向量。
实际应用中,如果文本样本为标注属性标签的评论文本,可以确定每个评论文本命中连通图中的至少一个节点。例如,前述评论文本为“这件衣服很时尚、质量好、性价比高”时,将该评论文本进行分词,可以提取获得“衣服”、“时尚”、“质量”、“性价比”、“好”、“高”“很”等属性特征,该属性特征分别对应的节点即为该评论文本命中的节点。可知,该评论文本可对应连通图中的至少七个节点的节点向量。
例如,以前述节点向量为128维为例,将该七个节点向量进行向量融合后获得该评论文本对应训练文本向量。实际向量融合方式可以采用多种方法,例如将七个节点向量对应维度取最大值,或最小值或者取平均值等方法,也可以基于前述至少两中方法结合进行灵活使用。以取最大值进行向量融合为例,如果为128维的节点向量,则依次确定该7个节点向量中第一维的最大值为训练文本向量的第一维,确定该7个节点向量中第二维的最大值为训练文本向量的第二维,……,确定该7个节点向量中第N维的最大值为训练文本向量的第N维,直至获得128维的训练文本向量。其中,取最小值或取平均值的向量融合方式与前述最最大值的向量融合方式相似,在此不再赘述。
基于上述过程从而可以确定第二文本样本中,每一个第二文本样本对应的训练文本向量。
作为一种可实现的实施方式,所述节点向量包括语义向量及主题语义分布向量;所述将所述第二文本样本对应的至少一个节点向量进行向量融合,获得所述第二文本样本的训练文本向量可以包括:
将所述至少一个语义向量对应维度值取平均值,获得训练文本第一子向量;
将所述至少一个主题语义分布向量对应维度值取最大值,获得训练文本第二子向量;
将所述训练文本第一子向量及所述训练文本第二子向量进行向量拼接,获得所述第二文本样本的训练文本向量。
该求平均值的向量融合方法及取最大值的向量融合方法与前述相同,在此不再赘述。
通过向量拼接将第一子向量R’与第二子向量[I’,U’,S’]融合为一个向量[R’,I’,U’,S’],从而扩大了训练文本向量的维度得到的训练文本向量。
309:基于所述训练文本向量及所述第二文本样本对应的至少一个属性标签,训练所述第二领域的分类模型,以至少基于所述分类模型及所述节点向量确定所述第二领域的待识别文本的识别结果。
作为一种可实现的实施方式,所述基于所述训练文本向量及所述第二文本样本对应的至少一个属性标签,训练所述第二领域的分类模型可以包括:
确定所述第二文本样本对应的至少一个属性标签的预设输出属性标签向量;
基于所述训练文本向量及所述预设输出属性标签向量,训练所述第二领域的分类模型。
将训练文本向量作为分类模型的输入值,实际训练文本向量对应的至少一个属性标签的预设输出标签向量,可以根据设定的属性标签体系中的像向量个数进行确定。
作为一种可选地实施方式,所述确定所述第二文本样本对应的至少一个属性标签的预设输出属性标签向量包括:
基于所述第二领域的属性标签的属性维数,确定以所述属性维数作为向量维数的属性标签向量;
确定每个属性标签在所述属性标签向量中各自对应的向量维度;
根据每个第二文本样本各自对应属性标签的向量维度,生成所述每个第二文本样本各自对应的预设输出属性标签向量。
例如,属性标签的属性维度有10个,则确定一个10维的属性标签向量,每一维度对应一个属性标签。如果某一评论文本标注有3个属性标签,则确定其对应属性标签的向量维度,获得预设输出属性标签向量可以表示为[1,0,1,0,0,0,0,1,0,0]。在此,预设输出属性标签向量仅为示意性描述,在此不做具体限定。
作为一种可选地实施方式,所述基于所述训练文本向量及所述第二文本样本对应的至少一个属性标签,训练所述第二领域的分类模型可以包括:
将所述训练文本向量输入至所述分类模型中,输出至少一个预测属性标签;
判断所述至少一个预测属性标签与所述第二文本样本对应的至少一个属性标签是否匹配;
如果是,获得所述第二领域的分类模型;
如果否,基于所述至少一个预测属性标签与所述至少一个属性标签的差值,优化所述分类模型的模型参数,直至所述至少一个预测属性标签与所述至少一个属性标签相匹配。
为了优化模型参数,需要比较分类模型的实际输出值与预设输出值的差距,当将训练文本向量作为分类模型的输入至分类模型后,所述判断所述至少一个预测属性标签与所述至少一个属性标签是否匹配可以是:
判断所述分类模型的实际输出属性标签向量与第二文本样本对应的所述预设输出属性标签向量的输出差值,是否满足差值阈值;
如果是,确定相匹配;如果否,确定不匹配。
其中,该差值阈值可以根据实际精度需求进行设定。因此,所述至少一个预测属性标签与所述至少一个属性标签的差值可以是所述分类模型实际输出属性标签向量与第一训练文本向量对应的所述预设输出属性标签向量的输出差值。基于所述输出差值所述逐步优化分类模型的模型参数。并通过优化模型参数使得分类模型的实际输出值越来越接近于预设输出值,直至输出差值满足基于系统精度需求设定的差值阈值后,确定训练获得的分类模型即为目标对象的分类模型。
实际应用中,本申请实施例在优化分类模型的模型参数的同时,会进一步优化连通图中每个节点的节点向量,以获得最优的训练文本向量值。通过反复训练,获得第二领域的分类模型,因此所述基于所述至少一个预测属性标签与所述至少一个属性标签的差值,优化所述分类模型的模型参数,直至所述至少一个预测属性标签与所述至少一个属性标签相匹配包括:
基于所述至少一个预测属性标签与所述至少一个属性标签的差值,优化所述连通图中每个节点的节点向量;
基于所述第二文本样本命中的节点优化后的节点向量,优化所述训练文本向量;
基于优化后的训练文本向量及所述第二文本样对应的至少一个属性标签,逐步优化所述分类模型的模型参数。
实际应用中,所述基于所述至少一个预测属性标签与所述至少一个属性标签的差值,优化所述连通图中每个节点的节点向量包括:
基于所述至少一个预测属性标签与所述至少一个属性标签的差值,优化所述连通图中每个边的概率权重;
分别以所述连通图中的每个节点为起点,基于所述每个边优化后的概率权重依次选择下一个节点,更新所述多条节点路径;
基于所述更新后的多条节点路径,优化所述每个节点的节点向量。
实际可以理解的是,在优化每个节点的节点向量的同时还会继续学习每个边的概率权重,通过反复优化学习,获得每个节点最优的节点向量,实际当输出差值满足差值阈值后,系统会将当前优化确定的节点向量作为最优节点向量进行存储,并将训练的获得模型参数进行存储,获得第二领域对应的分类模型及节点向量。
本申请实施例中,通过在连通图中有效融合了商品、店铺、用户购买行为等相关信息,获得不同节点类型构建的连通图。在进一步提高连通图的连通性的同时,使得在节点的表示学习过程中,通过学习主题语义的概率分布可以进一步捕获到一些用户、商品等之间的共性,并将其有效信息融合到节点的节点向量中,使得训练文本向量具有更多的信息量。进一步提高了分类模型的准确度。
此外,在进行模型训练过程中,在优化模型参数的同时还会优化连通图中每个节点的节点向量,使得优化获得的训练文本向量包含的有效信息丰富程度进一步提高,通过对分类模型的反复训练,获得第二领域的分类模型,使该分类模型的属性识别的准确度得到进一步优化和提高。
图4为本申请实施例提供的一种文本识别方法一个实施例的流程示意图。该方法可以包括以下几个步骤:
401:获取第二领域的待识别文本。
实际第二领域的待识别文本与文本样本的区别为没有经过人工标注属性标签。所述待识别文本,同样可以是用户通过互联网上的购物网站进行购物,对购买商品的评论信息或快递的评论信息;还可以是用户根据网上商品对已购买该商品用户的提问留言信息、或与评论用户进行沟通的留言信息等;例如,可以是用户进行网络约车、网约送餐消费等对司机或送餐人员的评论信息等。例如,可以是用户利用线上平台的线下消费对线下店铺及消费体验的评论信息等。当然,还可以应用到新闻媒体行业、例如对互联网新闻媒体、视频网站、技术论坛等用户的留言信息和评论信息等。,具体可以根据实际需求进行选取,在此不做具体限定。
402:确定所述待识别文本命中连通图中的至少一个节点的节点向量。
其中,所述连通图基于第一领域的第一文本样本及所述第二领域的第二文本样本进行分词获得的多个属性特征作为节点,以各个属性特征之间的关联关系为边构建获得;每个节点的节点向量基于所述连通图学习获得。
实际应用中,所述确定所述待识别文本命中连通图中的至少一个节点的节点向量可以包括:
对所述待识别文本进行分词,获得的至少一个待识别属性特征;
确定所述连通图中与所述至少一个待识别属性特征匹配的至少一个节点的节点向量。
实际该待识别文本的属性特征提取过程与前述相同,在此不再是赘述。
403:基于所述待识别文本对应的至少一个节点向量及所述第二领域的分类模型,确定所述待识别文本的属性识别结果。
其中,所述分类模型为基于所述第二文本样本命中所述连通图的至少一个节点的节点向量,以及对应的至少一个属性标签训练获得。
可选地,在某些实施例中,所述基于所述待识别文本对应的至少一个节点向量及所述第二领域的分类模型,确定所述待识别文本的属性识别结果可以包括:
将所述待识别文本对应的至少一个节点向量进行向量融合,获得待测文本向量;
将所述待测文本向量输入至所述第二领域的分类模型中进行属性识别,获得所述待识别文本对应的至少一个预测属性标签。
可选地,在某些实施例中,所述将将所述待测文本向量输入至所述第二领域的分类模型中进行属性识别,获得所述待识别文本对应的至少一个预测属性标签可以包括:
将所述待测文本向量输入至所述第二领域的分类模型中进行属性识别,获得所述待测文本向量对应的实际输出属性标签向量;
基于所述实际输出属性标签向量,确定所述待识别文本对应的至少一个预测属性标签。
可以理解的是,前述训练获得的分类模型构建了输入值与属性标签的函数映射关系。实际待测文本向量至分类模型中后,会基于构建的函数映射关系,输出相应的实际输出属性标签向量。基于该实际输出属性标签向量以及属性标签向量各向量维度对应的属性标签,即可获得每一个待识别文本对应的至少一个预测属性标签。
例如第二领域为服装行业下的属性标签分别有材质、上身效果、款式、版型、舒服度、触感等。构建属性标签向量各维度分别为[材质,上身效果,款式,版型,舒服度,触感]。如果输入任一待识别文本对应的待测文本向量,得到实际输出属性标签向量为[1,0,0,0,1,1],则可以确定该待识别文本对应的属性标签包括:材质,舒服度及触感。
通过预测大量待测文本对应的属性标签,并通过统计和分析可以进一步获得用户对第二领域商品的关注维度,从而引导用户的消费行为或可以引导商家确定该领域商品的研究方向及业务方向等。
例如,经过统计获得,针对服装领域商品用户关注各属性维度的比重分别为材质20,上身效果10,款式10,版型10,舒服度30,触感20。则可以确定用户更加关注该商品的材质是否舒服,触感是否良好,商家在设计服装时可以更多地偏向选择舒适度稿,触感更好的材质制作服装。
当然,如果待识别文本中增加的用户信息,则可进一步分析每个用户对该商品的关注维度,以实现基于不同用户的商品推荐,从而进一步引导用户的购买行为。
实际应用中,所述基于所述连通图学习获得的所述每个节点的节点向量包括语义向量。所述将所述至少一个节点的节点向量进行融合,获得待测文本向量可以包括:
将所述至少一个节点的语义向量对应维度值取平均值,获得所述待测文本向量。
实际应用中,所述连通图还包括基于第一领域的第一文本样本及所述第二领域的第二文本样本进行分词获得的多个属性特征、所述第一领域的第二对象关联信息及所述第二领域的第二对象关联信息中的多个对象关联特征作为节点,以所述各个属性特征及各个对象关联特征之间的关联关系为边构建获得;所述基于所述连通图学习获得的所述每个节点的节点向量包括语义向量及主题语义分布向量。
所述将所述至少一个节点的节点向量进行融合,获得待测文本向量包括:
将所述至少一个节点的语义向量对应维度值取平均值,获得待测文本第一子向量;
将所述至少一个节点的主题语义分布向量对应维度值取最大值,获得待测文本第二子向量;
将所述待测文本第一子向量及所述待测文本第二子向量进行向量拼接,获得所述待测文本向量。
实际待测文本向量采用的向量融合方法应与生成训练文本向量使用的向量融合方法相同,以保证向量维度一致,提高分类模型的属性识别的准确度。
前述已对本申请实施例的具体实施方式进行详细地描述,在此不再赘述。
本申请实施例中,基于前述训练获得第二领域的分类模型,对第二领域的待识别文本进行属性识别,以进一步获得用户对第二领域商品的关注点和兴趣点,从而为引导用户的消费行为或可以引导商家确定该领域商品的研究方向及业务方向等奠定基础。
图5为本申请实施例提供的一种数据处理装置一个实施例的结构示意图。
该装置可以包括:
第一获取模块501,用于获取第一领域的第一文本样本及第二领域的第二文本样本。
第二获取模块502,用于分别对所述第一文本样本及所述第二文本样本进行分词,获得多个属性特征。
连通图生成模块503,用于以所述多个属性特征为节点,以各个属性特征之间的关联关系为边,构建包括所述第一领域和所述第二领域的连通图。
第一确定模块504,用于确定所述连通图中每一个节点的节点向量。
模型训练模块505,用于基于所述第二文本样本命中所述连通图中的至少一个节点的节点向量及对应的至少一个属性标签,训练所述第二领域的分类模型,以至少基于所述分类模型及所述节点向量确定所述第二领域的待识别文本的识别结果。
实际该各个属性特征之间的关联关系可以是词之间的共现关系。因此,作为一种可能的实现方式,第一文本样本包括第一领域商品标注属性标签的评论文本;第二文本样本包括第二领域商品标注属性标签的评论文本。连通图生成模块503具体可以用于:
分别将所述第一领域商品标注属性标签的评论文本及所述第二领域商品标注属性标签的评论文本进行分词处理,获得多个属性特征;
将所述多个属性特征作为节点并以各个属性特征词之间的共现关系为边,构建包括所述第一领域及所述第二领域的连通图。
本申请实施例中,由于通过将第一领域的第一文本样本与第二领域的第二文本样本分别进行分词处理,提取获得的多个属性特征之间存在相同的部分,通过连通图中的节点将两个领域的属性特征通过边进行关联,从而实现了跨领域有效信息的迁移。
一种可实现的实施方式,所述第一确定模块504可以包括:
节点路径确定单元,用于分别以所述连通图中的每个节点为起点进行路径采样,确定多条节点路径;
节点向量确定单元,用于基于所述多条节点路径学习所述每个节点的节点向量。
可选地,在一种可实现实施方式中,所述节点路径确定单元具体可以用于:
学习所述连通图中每个边的概率分布,以确定每个边的概率权重;
分别以所述连通图中的每一个节点为起点,基于所述每个边的概率权重依次选择下一个节点,确定多条节点路径。
可选地,在一种可实现实施方式中,所述分别以所述连通图中的每一个节点为起点,基于所述每个边的概率权重依次选择下一个节点,确定多条节点路径具体可以用于:
所述分别以所述连通图中的每一个节点为路径起点,优先选择概率权重最大的边游走至下一个节点;
判断任一路径游走步数是否满足步数阈值;
如果满足所述步数阈值,确定当前节点为路径终点;
基于所述路径起点及所述路径起点对应的路径终点,确定多条节点路径。
可选地,所述第一确定模块504具体可以用于:
确定所述连通图中每一个节点的语义向量。
语义向量可以表示该词出现在语句中上下文的向量,包含了该词构成语句时有效信息。语义向量学习与前述方法相同,在此不再赘述。
前述已对本申请实施例的具体实施方式进行详细地描述,在此不再赘述。
本申请实施例中,通过基于第一领域的第一文本样本以及第二领域的第二文本样本构建包括第一领域及第二领域的连通图,将基于图表示学习等方法学习连通图中每个节点的节点向量,实现有效信息的跨领域迁移学习。使得每个节点的节点向量均可包含大量的第一领域及第二领域的有效信息,可以大大提高了第二领域训练模型的属性识别的准确性。且分类模型仅在第二领域的训练数据中训练获得,因此该分类模型的输出空间可以仅仅在第二领域上,大大降低了分类器的学习难度。
此外,本申请实施例中利用现有的路径采样算法并结合概率分布式学习方法得到连同图中不同边的概率权重,从而基于边的概率权重选择下一个游走的节点从而确定节点路径。使得每个节点可以学习获得的节点向量的有效性大大提高,从而进一步提高了第二领域分类模型的属性识别的准确性。
图6为本申请实施例提供的一种数据处理装置的一个实施例的结构示意图。该装置可以包括:
第一获取模块601,用于获取第一领域的第一文本样本及第二领域的第二文本样本。
第二获取模块602,用于分别对所述第一文本样本及所述第二文本样本进行分词,获得多个属性特征。
第三获取模块603,用于分别获取所述第一领域的第一对象关联信息以及所述第二领域的第二对象关联信息。
第四获取模块604,用于确定所述第一对象关联信息及所述第二对象关联信息中的多个对象关联特征。
本申请实施例中,并不限定各个模块的具体实施顺序。
所述第四获取模块604具体可以用于:
基于所述第一对象信息、所述与所述第一对象信息关联的店铺信息及用户信息以及所述第二对象信息、所述与所述第二对象信息关联的店铺信息及用户信息,确定多个对象特征、多个用户特征及多个店铺特征。
连通图生成模块605,用于分别以所述多个属性特征及所述多个对象关联特征为节点,以所述各个属性特征以及各个对象关联特征之间的关联关系为边,构建包括所述第一领域和所述第二领域的连通图。
连通图生成模块605具体可以用于:
分别将所述属性特征作为词节点、将所述对象特征作为对象节点、将所述用户特征作为用户节点、将所述店铺特征作为店铺节点;
将所述词节点之间以属性特征之间的共现关系为边,将所述对象节点与所述词节点之间以文本数量关系为边,将所述店铺节点与所述对象节点之间以出售关系为边,将所述用户节点与所述对象节点、所述用户节点与所述店铺节点以及所述用户节点与所述词节点之间以用户行为关系为边,构建包括所述第一领域和所述第二领域的连通图。
第一确定模块606,用于确定所述连通图中每个节点的节点向量。
可选地,所述节点向量确定模块606具体可以用于:
确定所述连通图中每个节点各自对应的语义向量及主题语义分布向量。
模型训练模块607,用于基于所述第二文本样本命中所述连通图中的至少一个节点的节点向量及对应的至少一个属性标签,训练所述第二领域的分类模型,以至少基于所述分类模型及所述节点向量确定所述第二领域的待识别文本的识别结果。
模型训练模块607可以包括:
节点向量确定单元611,用于确定所述第二文本样本命中所述连通图中的至少一个节点对应的节点向量。
作为一种可实现的实施方式,所述节点向量确定单元611具体可以用于:
确定所述第二文本样本命中所述连通图中节点的至少一个语义向量及对应节点的至少一个主题语义分布向量。
训练文本向量获取单元612,用于将所述第二文本样本对应的至少一个节点向量进行向量融合,获得所述第二文本样本的训练文本向量。
作为一种可实现的实施方式,所述节点向量包括语义向量及主题语义分布向量;所述训练文本向量获取单元612具体可以用于:
将所述至少一个语义向量对应维度值取平均值,获得训练文本第一子向量;
将所述至少一个主题语义分布向量对应维度值取最大值,获得训练文本第二子向量;
将所述训练文本第一子向量及所述训练文本第二子向量进行向量拼接,获得所述第二文本样本的训练文本向量。
分类模型训练单元613,用于基于所述训练文本向量及所述第二文本样本对应的至少一个属性标签,训练所述第二领域的分类模型,以至少基于所述分类模型及所述节点向量确定所述第二领域的待识别文本的识别结果。
作为一种可实现的实施方式,所述分类模型训练单元613可以包括:
预设输出向量单元,用于确定所述第二文本样本对应的至少一个属性标签的预设输出属性标签向量;
模型训练单元,用于基于所述训练文本向量及所述预设输出属性标签向量,训练所述第二领域的分类模型。
将训练文本向量作为分类模型的输入值,实际训练文本向量对应的至少一个属性标签的预设输出标签向量,可以根据设定的属性标签体系中的像向量个数进行确定。
作为一种可选地实施方式,所述预设输出向量单元具体可以用于:
基于所述第二领域的属性标签的属性维数,确定以所述属性维数作为向量维数的属性标签向量;
确定每个属性标签在所述属性标签向量中各自对应的向量维度;
根据每个第二文本样本各自对应属性标签的向量维度,生成所述每个第二文本样本各自对应的预设输出属性标签向量。
作为一种可选地实施方式,所述分类模型训练单元613具体可以包括:
输出预测标签单元,用于将所述训练文本向量输入至所述分类模型中,输出至少一个预测属性标签;
判断单元,用于判断所述至少一个预测属性标签与所述第二文本样本对应的至少一个属性标签是否匹配;如果是,触发分型模型获取单元;如果否,触发模型参数优化单元。触发分型模型获取单元,用于获得所述第二领域的分类模型;
模型参数优化单元,用于基于所述至少一个预测属性标签与所述至少一个属性标签的差值,优化所述分类模型的模型参数,直至所述至少一个预测属性标签与所述至少一个属性标签相匹配。
为了优化模型参数,需要比较分类模型的实际输出值与预设输出值的差距,当将训练文本向量作为分类模型的输入至分类模型后,所述判断单元具体可以用于:
判断所述分类模型的实际输出属性标签向量与第二文本样本对应的所述预设输出属性标签向量的输出差值,是否满足差值阈值;
如果是,确定相匹配;如果否,确定不匹配。
实际应用中,本申请实施例在优化分类模型的模型参数的同时,会进一步优化连通图中每个节点的节点向量,以获得最优的训练文本向量值。通过反复训练,获得第二领域的分类模型,因此所述模型参数优化单元具体可以用于:
基于所述至少一个预测属性标签与所述至少一个属性标签的差值,优化所述连通图中每个节点的节点向量;
基于所述第二文本样本命中的节点优化后的节点向量,优化所述训练文本向量;
基于优化后的训练文本向量及所述第二文本样对应的至少一个属性标签,逐步优化所述分类模型的模型参数。
实际应用中,所述基于所述至少一个预测属性标签与所述至少一个属性标签的差值,优化所述连通图中每个节点的节点向量具体可以用于:
基于所述至少一个预测属性标签与所述至少一个属性标签的差值,优化所述连通图中每个边的概率权重;
分别以所述连通图中的每个节点为起点,基于所述每个边优化后的概率权重依次选择下一个节点,更新所述多条节点路径;
基于所述更新后的多条节点路径,优化所述每个节点的节点向量。
前述已对本申请实施例的具体实施方式进行详细地描述,在此不再赘述。
本申请实施例中,通过在连通图中有效融合了商品、店铺、用户购买行为等相关信息,获得不同节点类型构建的连通图。在进一步提高连通图的连通性的同时,使得在节点的表示学习过程中,通过学习主题语义的概率分布可以进一步捕获到一些用户、商品等之间的共性,并将其有效信息融合到节点的节点向量中,使得训练文本向量具有更多的信息量。进一步提高了分类模型的准确度。
此外,在进行模型训练过程中,在优化模型参数的同时还会优化连通图中每个节点的节点向量,使得优化获得的训练文本向量包含的有效信息丰富程度进一步提高,通过对分类模型的反复训练,获得第二领域的分类模型,使该分类模型的属性识别的准确度得到进一步优化和提高。
图7为本申请实施例提供的一种文本识别装置一个实施例的结构示意图。
该装置可以包括:
文本获取模块701,用于获取第二领域的待识别文本。
节点确定模块702,用于确定所述待识别文本命中连通图中的至少一个节点的节点向量。
其中,所述连通图基于第一领域的第一文本样本及所述第二领域的第二文本样本进行分词获得的多个属性特征作为节点,以各个属性特征之间的关联关系为边构建获得;每个节点的节点向量基于所述连通图学习获得。
文本识别模块703,用于基于所述待识别文本对应的至少一个节点向量及所述第二领域的分类模型,确定所述待识别文本的属性识别结果。
其中,所述分类模型为基于所述第二文本样本命中所述连通图的至少一个节点的节点向量,以及对应的至少一个属性标签训练获得。
实际应用中,所述节点确定模块702具体可以用于:
对所述待识别文本进行分词,获得的至少一个待识别属性特征;
确定所述连通图中与所述至少一个待识别属性特征匹配的至少一个节点的节点向量。
可选地,在某些实施例中,所述文本识别模块703可以包括:
待测文本向量获取单元,用于将所述待识别文本对应的至少一个节点向量进行向量融合,获得待测文本向量;
文本识别单元,用于将所述待测文本向量输入至所述第二领域的分类模型中进行属性识别,获得所述待识别文本对应的至少一个预测属性标签。
可选地,在某些实施例中,所述文本识别单元具体可以用于:
将所述待测文本向量输入至所述第二领域的分类模型中进行属性识别,获得所述待测文本向量对应的实际输出属性标签向量;
基于所述实际输出属性标签向量,确定所述待识别文本对应的至少一个预测属性标签。
实际应用中,所述基于所述连通图学习获得的所述每个节点的节点向量包括语义向量。所述待测文本向量获取单元具体可以用于:
将所述至少一个节点的语义向量对应维度值取平均值,获得所述待测文本向量。
实际应用中,所述连通图还包括基于第一领域的第一文本样本及所述第二领域的第二文本样本进行分词获得的多个属性特征、所述第一领域的第二对象关联信息及所述第二领域的第二对象关联信息中的多个对象关联特征作为节点,以所述各个属性特征及各个对象关联特征之间的关联关系为边构建获得;所述基于所述连通图学习获得的所述每个节点的节点向量包括语义向量及主题语义分布向量。
待测文本向量获取单元具体可以用于:
将所述至少一个节点的语义向量对应维度值取平均值,获得待测文本第一子向量;
将所述至少一个节点的主题语义分布向量对应维度值取最大值,获得待测文本第二子向量;
将所述待测文本第一子向量及所述待测文本第二子向量进行向量拼接,获得所述待测文本向量。
前述已对本申请实施例的具体实施方式进行详细地描述,在此不再赘述。
本申请实施例中,基于前述训练获得第二领域的分类模型,对第二领域的待识别文本进行属性识别,以进一步获得用户对第二领域商品的关注点和兴趣点,从而为引导用户的消费行为或可以引导商家确定该领域商品的研究方向及业务方向等奠定基础。
图8为本申请实施例提供的一种计算机设备一个实施例的结构示意图,该计算机设备可以包括处理组件801以及存储组件802。
所述存储组件802用于存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件801调用执行。
所述处理组件801可以用于:
获取第一领域的第一文本样本及第二领域的第二文本样本;
分别对所述第一文本样本及所述第二文本样本进行分词,获得多个属性特征;
以所述多个属性特征为节点,以各个属性特征之间的关联关系为边,构建包括所述第一领域和所述第二领域的连通图,并确定所述连通图中每一个节点的节点向量;
基于所述第二文本样本命中所述连通图中的至少一个节点的节点向量及对应的至少一个属性标签,训练所述第二领域的分类模型,以至少基于所述分类模型及所述节点向量确定所述第二领域的待识别文本的识别结果。
其中,处理组件801可以包括一个或多个处理器来执行计算机指令,以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
存储组件802被配置为存储各种类型的数据以支持在服务器中的操作。存储组件可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
当然,该计算机设备必然还可以包括其他部件,例如输入/输出接口、通信组件等。
输入/输出接口为处理组件和外围接口模块之间提供接口,上述外围接口模块可以是输出设备、输入设备等。
通信组件被配置为便于服务器和其他设备之间有线或无线方式的通信,例如与终端之间的通信。
本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被计算机执行时可以实现上述图1及图3所示实施例的数据处理方法。
图9为本申请实施例提供的一种计算机设备一个实施例的结构示意图,该计算机设备可以包括处理组件901以及存储组件902。
所述存储组件902用于存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件901调用执行。
所述处理组件901可以用于:
获取第二领域的待识别文本;
确定所述待识别文本命中连通图中的至少一个节点的节点向量;其中,所述连通图基于第一领域的第一文本样本及所述第二领域的第二文本样本进行分词获得的多个属性特征作为节点,以各个属性特征之间的关联关系为边构建获得;每个节点的节点向量基于所述连通图学习获得;
基于所述待识别文本对应的至少一个节点向量及所述第二领域的分类模型,确定所述待识别文本的属性识别结果;其中,所述分类模型为基于所述第二文本样本命中所述连通图的至少一个节点的节点向量,以及对应的至少一个属性标签训练获得。
其中,处理组件901可以包括一个或多个处理器来执行计算机指令,以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
存储组件902被配置为存储各种类型的数据以支持在服务器中的操作。存储组件可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
当然,该计算机设备必然还可以包括其他部件,例如输入/输出接口、通信组件等。
输入/输出接口为处理组件和外围接口模块之间提供接口,上述外围接口模块可以是输出设备、输入设备等。
通信组件被配置为便于服务器和其他设备之间有线或无线方式的通信,例如与终端之间的通信。
本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被计算机执行时可以实现上述图4所示实施例的文本识别方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (27)

1.一种数据处理方法,其特征在于,包括:
获取第一领域的第一文本样本及第二领域的第二文本样本;
分别对所述第一文本样本及所述第二文本样本进行分词,获得多个属性特征;
以所述多个属性特征为节点,以各个属性特征之间的关联关系为边,构建包括所述第一领域和所述第二领域的连通图,并确定所述连通图中每个节点的节点向量;
基于所述第二文本样本命中所述连通图中的至少一个节点的节点向量及对应的至少一个属性标签,训练所述第二领域的分类模型,以至少基于所述分类模型及所述节点向量确定所述第二领域的待识别文本的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
分别获取所述第一领域的第一对象关联信息以及所述第二领域的第二对象关联信息;
确定所述第一对象关联信息及所述第二对象关联信息中的多个对象关联特征;
所述以所述多个属性特征为节点,以各个属性特征之间的关联关系为边,构建包括所述第一领域和所述第二领域的连通图,并确定所述连通图中每个节点的节点向量包括:
分别以所述多个属性特征及所述多个对象关联特征为节点,以所述各个属性特征以及各个对象关联特征之间的关联关系为边,构建包括所述第一领域和所述第二领域的连通图;
确定所述连通图中每个节点的节点向量。
3.根据权利要求2所述的方法,其特征在于,所述第一对象关联信息包括所述第一领域的第一对象信息、与所述第一对象信息关联的店铺信息及用户信息;所述第二对象关联信息包括所述第二领域的第二对象信息、与所述第二对象信息关联的店铺信息及用户信息;
所述确定所述第一对象关联信息及所述第二对象关联信息中的多个对象关联特征包括:
基于所述第一对象信息、所述与所述第一对象信息关联的店铺信息及用户信息以及所述第二对象信息、所述与所述第二对象信息关联的店铺信息及用户信息,确定多个对象特征、多个用户特征及多个店铺特征。
4.根据权利要求3所述的方法,其特征在于,所述分别以所述多个属性特征及所述多个对象关联特征为节点,以所述各个属性特征以及各个对象关联特征之间的关联关系为边,构建包括所述第一领域和所述第二领域的连通图包括:
分别将所述属性特征作为词节点、将所述对象特征作为对象节点、将所述用户特征作为用户节点、将所述店铺特征作为店铺节点;
将所述词节点之间以属性特征之间的共现关系为边,将所述对象节点与所述词节点之间以文本数量关系为边,将所述店铺节点与所述对象节点之间以出售关系为边,将所述用户节点与所述对象节点、所述用户节点与所述店铺节点以及所述用户节点与所述词节点之间以用户行为关系为边,构建包括所述第一领域和所述第二领域的连通图。
5.根据权利要求4所述的方法,其特征在于,所述用户行为关系包括购买关系、点击关系、浏览关系、写评论关系。
6.根据权利要求1所述的方法,其特征在于,所述确定所述连通图中每个节点的节点向量包括:
确定所述连通图中每个节点的语义向量。
7.根据权利要求2所述的方法,其特征在于,所述确定所述连通图中每个节点的节点向量包括:
确定所述连通图中每个节点各自对应的语义向量及主题语义分布向量。
8.根据权利要求1所述的方法,其特征在于,所述基于所述第二文本样本命中所述连通图中的至少一个节点的节点向量及对应的至少一个属性标签,训练所述第二领域的分类模型,以至少基于所述分类模型及所述节点向量确定所述第二领域的待识别文本的识别结果包括:
确定所述第二文本样本命中所述连通图中的至少一个节点对应的节点向量;
将所述第二文本样本对应的至少一个节点向量进行向量融合,获得所述第二文本样本的训练文本向量;
基于所述训练文本向量及所述第二文本样本对应的至少一个属性标签,训练所述第二领域的分类模型,以至少基于所述分类模型及所述节点向量确定所述第二领域的待识别文本的识别结果。
9.根据权利要求8所述的方法,其特征在于,所述节点向量包括语义向量及主题语义分布向量;所述将所述第二文本样本对应的至少一个节点向量进行向量融合,获得所述第二文本样本的训练文本向量包括:
将所述至少一个语义向量对应维度值取平均值,获得训练文本第一子向量;
将所述至少一个主题语义分布向量对应维度值取最大值,获得训练文本第二子向量;
将所述训练文本第一子向量及所述训练文本第二子向量进行向量拼接,获得所述第二文本样本的训练文本向量。
10.根据权利要求1所述的方法,其特征在于,所述确定所述连通图中每个节点的节点向量包括:
分别以所述连通图中的每个节点为起点进行路径采样,确定多条节点路径;
基于所述多条节点路径学习所述每个节点的节点向量。
11.根据权利要求10所述的方法,其特征在于,所述分别以所述连通图中的每个节点为起点进行路径采样,确定多条节点路径包括:
学习所述连通图中每个边的概率分布,以确定每个边的概率权重;
分别以所述连通图中的每一个节点为起点,基于所述每个边的概率权重依次选择下一个节点,确定多条节点路径。
12.根据权利要求11所述的方法,其特征在于,所述分别以所述连通图中的每个节点为起点,基于所述每个边的概率权重依次选择下一个节点,确定多条节点路径包括:
所述分别以所述连通图中的每个节点为路径起点,优先选择概率权重最大的边游走至下一个节点;
判断任一路径游走步数是否满足步数阈值;
如果满足所述步数阈值,确定当前节点为路径终点;
基于所述路径起点及所述路径起点对应的路径终点,确定多条节点路径。
13.根据权利要求8所述的方法,其特征在于,所述基于所述训练文本向量及所述第二文本样本对应的至少一个属性标签,训练所述第二领域的分类模型包括:
将所述训练文本向量输入至所述分类模型中,输出至少一个预测属性标签;
判断所述至少一个预测属性标签与所述第二文本样本对应的至少一个属性标签是否匹配;
如果是,获得所述第二领域的分类模型;
如果否,基于所述至少一个预测属性标签与所述至少一个属性标签的差值,优化所述分类模型的模型参数,直至所述至少一个预测属性标签与所述至少一个属性标签相匹配。
14.根据权利要求13所述的方法,其特征在于,所述基于所述至少一个预测属性标签与所述至少一个属性标签的差值,优化所述分类模型的模型参数,直至所述至少一个预测属性标签与所述至少一个属性标签相匹配包括:
基于所述至少一个预测属性标签与所述至少一个属性标签的差值,优化所述连通图中每个节点的节点向量;
基于所述第二文本样本命中的节点优化后的节点向量,优化所述训练文本向量;
基于优化后的训练文本向量及所述第二文本样对应的至少一个属性标签,逐步优化所述分类模型的模型参数。
15.根据权利要求14所述的方法,其特征在于,所述基于所述至少一个预测属性标签与所述至少一个属性标签的差值,优化所述连通图中每个节点的节点向量包括:
基于所述至少一个预测属性标签与所述至少一个属性标签的差值,优化所述连通图中每个边的概率权重;
分别以所述连通图中的每个节点为起点,基于所述每个边优化后的概率权重依次选择下一个节点,更新所述多条节点路径;
基于所述更新后的多条节点路径,优化所述每个节点的节点向量。
16.根据权利要求8所述的方法,其特征在于,所述基于所述训练文本向量及所述第二文本样本对应的至少一个属性标签,训练所述第二领域的分类模型包括:
确定所述第二文本样本对应的至少一个属性标签的预设输出属性标签向量;
基于所述训练文本向量及所述预设输出属性标签向量,训练所述第二领域的分类模型。
17.根据权利要求16所述的方法,其特征在于,所述确定所述第二文本样本对应的至少一个属性标签的预设输出属性标签向量包括:
基于所述第二领域的属性标签的属性维数,确定以所述属性维数作为向量维数的属性标签向量;
确定每个属性标签在所述属性标签向量中各自对应的向量维度;
根据每个第二文本样本各自对应属性标签的向量维度,生成所述每个第二文本样本各自对应的预设输出属性标签向量。
18.根据权利要去1所述的方法,其特征在于,所述第一文本样本的样本数量远大于所述第二文本样本的样本数量。
19.一种文本识别方法,其特征在于,包括:
获取第二领域的待识别文本;
确定所述待识别文本命中连通图中的至少一个节点的节点向量;其中,所述连通图基于第一领域的第一文本样本及所述第二领域的第二文本样本进行分词获得的多个属性特征作为节点,以各个属性特征之间的关联关系为边构建获得;每个节点的节点向量基于所述连通图学习获得;
基于所述待识别文本对应的至少一个节点向量及所述第二领域的分类模型,确定所述待识别文本的属性识别结果;其中,所述分类模型为基于所述第二文本样本命中所述连通图的至少一个节点的节点向量,以及对应的至少一个属性标签训练获得。
20.根据权利要求19所述的方法,其特征在于,所述基于所述待识别文本对应的至少一个节点向量及所述第二领域的分类模型,确定所述待识别文本的属性识别结果包括:
将所述待识别文本对应的至少一个节点向量进行向量融合,获得待测文本向量;
将所述待测文本向量输入至所述第二领域的分类模型中进行属性识别,获得所述待识别文本对应的至少一个预测属性标签。
21.根据权利要求19所述的方法,其特征在于,所述确定所述待识别文本命中连通图中的至少一个节点的节点向量包括:
对所述待识别文本进行分词,获得的至少一个待识别属性特征;
确定所述连通图中与所述至少一个待识别属性特征匹配的至少一个节点的节点向量。
22.根据权利要求19所述的方法,其特征在于,所述基于所述连通图学习获得的所述每个节点的节点向量包括语义向量;
所述将所述至少一个节点的节点向量进行融合,获得待测文本向量包括:
将所述至少一个节点的语义向量对应维度值取平均值,获得所述待测文本向量。
23.根据权利要求19所述的方法,其特征在于,所述连通图还包括基于所述第一领域的第一文本样本及所述第二领域的第二文本样本进行分词获得的多个属性特征、所述第一领域的第二对象关联信息及所述第二领域的第二对象关联信息中的多个对象关联特征作为节点,以所述各个属性特征及各个对象关联特征之间的关联关系为边构建获得;所述基于所述连通图学习获得的所述每个节点的节点向量包括语义向量及主题语义分布向量;
所述将所述至少一个节点的节点向量进行融合,获得待测文本向量包括:
将所述至少一个节点的语义向量对应维度值取平均值,获得待测文本第一子向量;
将所述至少一个节点的主题语义分布向量对应维度值取最大值,获得待测文本第二子向量;
将所述待测文本第一子向量及所述待测文本第二子向量进行向量拼接,获得所述待测文本向量。
24.一种数据处理装置,其特征在于,包括:
第一获取模块,用于获取第一领域的第一文本样本及第二领域的第二文本样本;
第二获取模块,用于分别对所述第一文本样本及所述第二文本样本进行分词,获得多个属性特征;
连通图生成模块,用于以所述多个属性特征为节点,以各个属性特征之间的关联关系为边,构建包括所述第一领域和所述第二领域的连通图;
第一确定模块,用于确定所述连通图中每一个节点的节点向量;
模型训练模块,用于基于所述第二文本样本命中所述连通图中的至少一个节点的节点向量及对应的至少一个属性标签,训练所述第二领域的分类模型,以至少基于所述分类模型及所述节点向量确定所述第二领域的待识别文本的识别结果。
25.一种文本识别装置,其特征在于,包括:
文本获取模块,用于获取第二领域的待识别文本;
节点确定模块,用于确定所述待识别文本命中连通图中的至少一个节点的节点向量;其中,所述连通图基于第一领域的第一文本样本及所述第二领域的第二文本样本进行分词获得的多个属性特征作为节点,以各个属性特征之间的关联关系为边构建获得;每个节点的节点向量基于所述连通图学习获得;
文本识别模块,用于基于所述待识别文本对应的至少一个节点向量及所述第二领域的分类模型,确定所述待识别文本的属性识别结果;其中,所述分类模型为基于所述第二文本样本命中所述连通图的至少一个节点的节点向量,以及对应的至少一个属性标签训练获得。
26.一种计算机设备,其特征在于,包括处理组件以及存储组件;所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行;
所述处理组件用于:
获取第一领域的第一文本样本及第二领域的第二文本样本;
分别对所述第一文本样本及所述第二文本样本进行分词,获得多个属性特征;
以所述多个属性特征为节点,以各个属性特征之间的关联关系为边,构建包括所述第一领域和所述第二领域的连通图,并确定所述连通图中每一个节点的节点向量;
基于所述第二文本样本命中所述连通图中的至少一个节点的节点向量及对应的至少一个属性标签,训练所述第二领域的分类模型,以至少基于所述分类模型及所述节点向量确定所述第二领域的待识别文本的识别结果。
27.一种计算机设备,其特征在于,包括处理组件以及存储组件;所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行;
所述处理组件用于:
获取第二领域的待识别文本;
确定所述待识别文本命中连通图中的至少一个节点的节点向量;其中,所述连通图基于第一领域的第一文本样本及所述第二领域的第二文本样本进行分词获得的多个属性特征作为节点,以各个属性特征之间的关联关系为边构建获得;每个节点的节点向量基于所述连通图学习获得;
基于所述待识别文本对应的至少一个节点向量及所述第二领域的分类模型,确定所述待识别文本的属性识别结果;其中,所述分类模型为基于所述第二文本样本命中所述连通图的至少一个节点的节点向量,以及对应的至少一个属性标签训练获得。
CN201910041335.0A 2019-01-16 2019-01-16 数据处理方法、文本识别方法、装置及计算机设备 Active CN111523315B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910041335.0A CN111523315B (zh) 2019-01-16 2019-01-16 数据处理方法、文本识别方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910041335.0A CN111523315B (zh) 2019-01-16 2019-01-16 数据处理方法、文本识别方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN111523315A true CN111523315A (zh) 2020-08-11
CN111523315B CN111523315B (zh) 2023-04-18

Family

ID=71900038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910041335.0A Active CN111523315B (zh) 2019-01-16 2019-01-16 数据处理方法、文本识别方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN111523315B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632286A (zh) * 2020-09-21 2021-04-09 北京合享智慧科技有限公司 一种文本属性特征的识别、分类及结构分析方法及装置
CN112819154A (zh) * 2021-01-20 2021-05-18 上海上湖信息技术有限公司 一种应用于图学习领域的预训练模型的生成方法及装置
CN113780098A (zh) * 2021-08-17 2021-12-10 北京百度网讯科技有限公司 文字识别方法、装置、电子设备以及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071310A1 (en) * 2003-09-30 2005-03-31 Nadav Eiron System, method, and computer program product for identifying multi-page documents in hypertext collections
JP2009251715A (ja) * 2008-04-02 2009-10-29 Nippon Telegr & Teleph Corp <Ntt> 事象認識システムおよび事象認識方法
US20160154803A1 (en) * 2014-11-28 2016-06-02 International Business Machines Corporation Text representation method and apparatus
CN106897309A (zh) * 2015-12-18 2017-06-27 阿里巴巴集团控股有限公司 一种相似词的聚合方法和装置
CN107229932A (zh) * 2016-03-25 2017-10-03 阿里巴巴集团控股有限公司 一种图像文本的识别方法和装置
CN108182295A (zh) * 2018-02-09 2018-06-19 重庆誉存大数据科技有限公司 一种企业知识图谱属性抽取方法及系统
CN108733778A (zh) * 2018-05-04 2018-11-02 百度在线网络技术(北京)有限公司 对象的行业类型识别方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071310A1 (en) * 2003-09-30 2005-03-31 Nadav Eiron System, method, and computer program product for identifying multi-page documents in hypertext collections
JP2009251715A (ja) * 2008-04-02 2009-10-29 Nippon Telegr & Teleph Corp <Ntt> 事象認識システムおよび事象認識方法
US20160154803A1 (en) * 2014-11-28 2016-06-02 International Business Machines Corporation Text representation method and apparatus
CN105701083A (zh) * 2014-11-28 2016-06-22 国际商业机器公司 文本表示方法和装置
CN106897309A (zh) * 2015-12-18 2017-06-27 阿里巴巴集团控股有限公司 一种相似词的聚合方法和装置
CN107229932A (zh) * 2016-03-25 2017-10-03 阿里巴巴集团控股有限公司 一种图像文本的识别方法和装置
CN108182295A (zh) * 2018-02-09 2018-06-19 重庆誉存大数据科技有限公司 一种企业知识图谱属性抽取方法及系统
CN108733778A (zh) * 2018-05-04 2018-11-02 百度在线网络技术(北京)有限公司 对象的行业类型识别方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
THOMAS M. BREUEL 等: "High Performance Text Recognition Using a Hybrid Convolutional-LSTM Implementation" *
刘红红;安海忠;高湘昀;: "基于文本复杂网络的内容结构特征分析" *
夏火松;甄化春;张颖烨;杨培;: "线上商品评论有效性分类专业领域知识模型的构建研究" *
巨瑜芳;雷小锋;戴斌;庄伟;宋丰泰;: "基于傅里叶变换和连通图的聚类分析方法" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632286A (zh) * 2020-09-21 2021-04-09 北京合享智慧科技有限公司 一种文本属性特征的识别、分类及结构分析方法及装置
CN112819154A (zh) * 2021-01-20 2021-05-18 上海上湖信息技术有限公司 一种应用于图学习领域的预训练模型的生成方法及装置
CN112819154B (zh) * 2021-01-20 2024-05-28 上海上湖信息技术有限公司 一种应用于图学习领域的预训练模型的生成方法及装置
CN113780098A (zh) * 2021-08-17 2021-12-10 北京百度网讯科技有限公司 文字识别方法、装置、电子设备以及存储介质
CN113780098B (zh) * 2021-08-17 2024-02-06 北京百度网讯科技有限公司 文字识别方法、装置、电子设备以及存储介质

Also Published As

Publication number Publication date
CN111523315B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111444334B (zh) 数据处理方法、文本识别方法、装置及计算机设备
CN110222272B (zh) 一种潜在客户挖掘与推荐方法
CN111339415B (zh) 一种基于多交互式注意力网络的点击率预测方法与装置
CN108960719B (zh) 选品方法和装置以及计算机可读存储介质
CN110363213B (zh) 服装图像的认知分析和分类的方法和系统
CN106708821A (zh) 基于用户个性化购物行为进行商品推荐的方法
US20220172258A1 (en) Artificial intelligence-based product design
CN112365283B (zh) 一种优惠券发放方法、装置、终端设备及存储介质
CN112991017A (zh) 基于用户评论解析的标签体系精准推荐方法
CN111523315B (zh) 数据处理方法、文本识别方法、装置及计算机设备
CN110163703B (zh) 一种分类模型建立方法、文案推送方法和服务器
US8793201B1 (en) System and method for seeding rule-based machine learning models
CN113689144B (zh) 产品描述的质量评定系统和方法
CN111966888B (zh) 融合外部数据的基于方面类别的可解释性推荐方法及系统
CN111598596A (zh) 数据处理方法、装置、电子设备及存储介质
CN113946754A (zh) 基于用户画像的权益推荐方法、装置、设备及存储介质
CN115147130A (zh) 问题预测方法、设备、存储介质及程序产品
CN111680213B (zh) 信息推荐方法、数据处理方法及装置
CN113781149A (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
CN113744019A (zh) 一种商品推荐方法、装置、设备及存储介质
CN118193806A (zh) 一种目标检索方法、装置、电子设备及存储介质
CN110647504B (zh) 司法文书的检索方法及装置
CN110851694B (zh) 基于用户记忆网络和树形结构的深度模型的个性化推荐系统
CN116823410B (zh) 数据处理方法、对象处理方法、推荐方法及计算设备
CN113065067A (zh) 一种物品推荐方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant