CN106294355A - 一种业务对象属性的确定方法及设备 - Google Patents

一种业务对象属性的确定方法及设备 Download PDF

Info

Publication number
CN106294355A
CN106294355A CN201510246531.3A CN201510246531A CN106294355A CN 106294355 A CN106294355 A CN 106294355A CN 201510246531 A CN201510246531 A CN 201510246531A CN 106294355 A CN106294355 A CN 106294355A
Authority
CN
China
Prior art keywords
vector
dimension
word
feature
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510246531.3A
Other languages
English (en)
Inventor
王国印
石志伟
郑恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510246531.3A priority Critical patent/CN106294355A/zh
Publication of CN106294355A publication Critical patent/CN106294355A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Development Economics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种业务对象属性的确定方法及设备,包括:从针对业务对象的评价文本中确定训练样本;基于预设分类器支持的向量格式,为训练样本生成对应的第一特征向量;使用预设分类器对第一特征向量以及第一特征向量对应训练样本包含的评估值进行训练,得到表征第一特征向量的各维度的特征词所占的权重;使用预设分类器,根据特征词以及权重为针对业务对象的待分类评价文本进行分类,得到每个待分类评价文本对业务对象真假属性的评估值;基于得到的对业务对象真假属性的评估值,确定业务对象的真假属性。本发明涉及数据挖掘技术领域。采用本发明确定的业务对象的真假属性更加准确。

Description

一种业务对象属性的确定方法及设备
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种业务对象属性的确定方法及设备。
背景技术
随着互联网技术和物流行业的飞速发展,越来越多的人通过电商提供的平台实现自己的创业梦,于此同时,越来越多的人足不出户即可完成购物体验。电商平台为用户提供了丰富的业务对象(可以为实物产品、服务等),但是,由于电商平台销售方式的限制,用户无法在购买业务对象之前确定业务对象的真假属性(例如,业务对象是否为假冒伪劣产品),而只能通过电商平台侧对业务对象的描述,确定业务对象的真假属性。
由于假冒伪劣产品成本低、出售假冒伪劣产品能够攫取到高额利润,使得使用电商平台的有些卖家铤而走险,最后给消费者造成损失,同时也损害电商平台的口碑。
因此,针对电商平台提供的产品,现有技术中提供了多种识别假冒伪劣产品的方法:
方法一、人工抽检法:
主要通过人工抽检的方式对假冒伪劣产品进行识别,具体实施时,可以以普通用户的身份通过电商平台购买需要抽检的产品,然后根据产品特征对产品做正品鉴定,其中,产品特征主要指产品的自然属性,例如:产品的价格、防伪标识、包装、材质、外观、气味、颜色等。
方法一的优点:识别出假冒伪劣产品的准确率高。
方法一的缺点:抽检的成本高(需要购买大量的产品供抽检)且抽样效率低下;不能够实时发现售假卖家;需要权威部门(厂家或政府质检机构)的鉴定。
可见,方法一的识别方式受成本因素制约大,抽检的范围小,而且需要品牌方的协助,不但难以实施而且效果不好。
方法二:机器自动识别法:
可以通过机器自动识别的方式对假冒伪劣产品进行识别,具体实施时,可以基于产品的价格特征和/或卖家特征等通过机器自动分析识别出假冒伪劣产品。例如:可以根据产品类型确定该类型产品对应的价格范围作为该类型产品的价格特征,将出售假冒伪劣产品较多的卖家的特征(例如:卖家登录地点、产品发货地等)收集起来作为出售假冒伪劣产品的卖家的特征,将待识别产品的当前价格与预先统计的该类型产品对应的价格特征进行匹配,将该待识别产品的当前卖家特征和预先统计的卖家特征进行匹配,从而识别出该待识别产品是否为假冒伪劣产品。
方法二的优点:解决了方法一中受成本因素制约很大,抽检的范围小,而且需要品牌方的协助的缺点;
方法二的缺点:预先统计出来的产品的价格特征和卖家特征准确率不高,会导致识别出的假冒伪劣产品准确率低。
发明内容
本发明实施例提供了一种业务对象属性的确定方法及设备,用以解决现有技术中对业务对象真假属性确定不准确的问题。
基于上述问题,本发明实施例提供了一种业务对象属性的确定方法,包括:
从针对业务对象的评价文本中确定训练样本,其中,所述训练样本包含对所述业务对象真假属性的评估值;
基于预设分类器支持的向量格式,为所述训练样本生成对应的所述预设分类器能够识别的第一特征向量;
使用所述预设分类器,对所述第一特征向量,以及所述第一特征向量对应训练样本所包含的评估值进行训练,得到表征所述第一特征向量的各维度的特征词在确定所述业务对象真假属性时所占的权重;
使用所述预设分类器,根据所述特征词以及所述权重,为针对所述业务对象的待分类评价文本进行分类,得到每个待分类评价文本对所述业务对象真假属性的评估值;
基于得到的对所述业务对象真假属性的评估值,确定业务对象的真假属性。
本发明实施例提供了一种业务对象属性的确定设备,包括:
样本确定模块,用于从针对业务对象的评价文本中确定训练样本,其中,所述训练样本包含对所述业务对象真假属性的评估值;
特征向量生成模块,用于基于预设分类器支持的向量格式,为所述样本确定模块确定的训练样本生成对应的所述预设分类器能够识别的第一特征向量;
训练模块,用于使用所述预设分类器,对所述第一特征向量,以及所述第一特征向量对应训练样本所包含的评估值进行训练,得到表征所述第一特征向量的各维度的特征词在确定所述业务对象真假属性时所占的权重;
分类模块,用于使用所述预设分类器,根据所述特征词以及所述权重,为针对所述业务对象的待分类评价文本进行分类,得到每个待分类评价文本对所述业务对象真假属性的评估值;
属性确定模块,用于基于所述分类模块得到的对所述业务对象真假属性的评估值,确定业务对象的真假属性。
本发明实施例的有益效果包括:
本发明实施例提供的一种业务对象属性的确定方法及设备,包括:从针对业务对象的评价文本中确定训练样本,其中,训练样本包含对所述业务对象真假属性的评估值;基于预设分类器支持的向量格式,为训练样本生成对应的预设分类器能够识别的第一特征向量;使用预设分类器,对第一特征向量,以及第一特征向量对应训练样本所包含的评估值进行训练,得到表征第一特征向量的各维度的特征词在确定业务对象真假属性时所占的权重;使用预设分类器,根据特征词以及权重,为针对业务对象的待分类评价文本进行分类,得到每个待分类评价文本对业务对象真假属性的评估值;基于得到的对所述业务对象真假属性的评估值,确定业务对象的真假属性。本发明实施例提供的业务对象属性的确定方法,以用户对业务对象的评价文本信息为依据,将包含有对业务对象真假属性评估值的评价文本作为训练样本,对训练样本进行解析处理得到预设分类器能够识别的第一特征向量,使用预设分类器对训练样本进行训练,得到表征第一特征向量的各维度的各特征词的权重值,使用预设分类器根据得到的权重值对待分类评价文本进行分类,得到待分类评价文本对业务对象真假属性的评估值,最后,基于训练样本和/或待分类评价文本对业务对象真假属性的评估值就能够确定出业务对象的真假属性。与现有技术方法一相比,不受成本因素制约,抽检范围大,不需要品牌方的协助。与现有技术方法二相比,基于用户对业务对象的评价信息确定业务对象的真假属性与基于业务对象的价格特征和/或卖家特征确定业务对象的真假属性相比,用户对业务对象的评价信息能够更加客观的反映业务对象的真假属性,并且本发明实施例中使用预设分类器先对训练对象进行训练再使用训练后的分类器对待分类评价文本进行分类,即使不包含真假属性评估值的待分类评价文本也能够客观地得到其表征的真假属性信息,得到的业务对象的真假属性更加准确。
附图说明
图1为本发明实施例提供的一种业务对象属性的确定方法的流程图;
图2为本发明实施例1提供的一种业务对象属性的确定方法的流程图;
图3为本发明实施例提供的获取的作为训练样本的评价文本的示例图;
图4为本发明实施例提供的文本分类原理示意图;
图5为本发明实施例提供的一种业务对象属性的确定系统的系统架构示意图;
图6为本发明实施例提供的基于一种业务对象属性的确定系统的系统的第一阶段训练阶段的流程示意图;
图7为本发明实施例提供的基于一种业务对象属性的确定系统的系统的第二阶段预测阶段的流程示意图;
图8为本发明实施例提供的一种业务对象属性的确定设备的结构示意图。
具体实施方式
本发明实施例提供了一种业务对象属性的确定方法及设备,以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明实施例提供一种业务对象属性的确定方法,如图1所示,包括:
S101、从针对业务对象的评价文本中确定训练样本;
其中,训练样本包含对业务对象真假属性的评估值。
S102、基于预设分类器支持的向量格式,为S101中确定的训练样本生成对应的所述预设分类器能够识别的第一特征向量;
S103、使用预设分类器,对第一特征向量,以及第一特征向量对应训练样本所包含的评估值进行训练,得到表征第一特征向量的各维度的特征词在确定业务对象真假属性时所占的权重;
S104、使用预设分类器,根据S102中确定的特征词以及S103中确定的权重,为针对业务对象的待分类评价文本进行分类,得到每个待分类评价文本对业务对象真假属性的评估值;
S105、基于得到的对业务对象真假属性的评估值,确定业务对象的真假属性。
进一步地,本发明实施例中采用的评价文本可以为用户购买业务对象之后在任意环节对业务对象进行评价的文本信息,例如:用户购买业务对象之后在业务对象的评价界面反馈的评价文本、用户购买业务对象之后决定退掉业务对象在退货界面反馈的评价文本、用户购买业务对象之后在维权界面反馈的评价文本、用户购买业务对象之后在投诉界面反馈的评价文本。可见,评价文本都是用户购买并使用业务对象之后对业务对象真实情况的客观反馈,本发明实施例以用户对业务对象的评价文本信息为依据,确定业务对象的真假属性能够客观地反映业务对象的真假,与现有技术相比更加准确。
下面结合附图,用具体实施例对本发明提供的方法及相关设备进行详细描述。
实施例1:
本发明实施例1中,提供一种业务对象属性的确定方法,可以将方法分为以下三个阶段:
第一阶段、训练阶段;
在训练阶段预设分类器对训练样本进行训练,得到训练后的预设分类器,由步骤S201~步骤S207实现;
第二阶段、预测阶段;
在预测阶段使用训练后的预设分类器对针对业务对象的待分类评价文本进行分类,得到待分类评价文本表征的对业务对象真假属性的评估值,由步骤S208~步骤S212实现;
第三阶段、业务对象真假属性确定阶段。
在该阶段中根据训练样本和/或待分类评价文本表征的对业务对象真假属性的评估值确定业务对象的真假属性,由步骤S213实现。
本发明实施例提供的一种业务对象属性的确定方法,如图2所示,具体包括如下步骤:
S201、从针对业务对象的评价文本中确定训练样本,
其中,训练样本包含对业务对象真假属性的评估值。
本步骤中,可以从多个维度(例如以下维度中的部分或全部维度:评价界面反馈的评价文本、用退货界面反馈的评价文本、维权界面反馈的评价文本、投诉界面反馈的评价文本)获取评价文本作为训练样本,但是,作为训练样本的评价文本需要包含对业务对象真假属性的评估值(或者根据训练样本描述的信息能够确定出对业务对象真假属性的评估值),即包含断定业务对象真假属性的标签,以便后续作为已知量对预设分类器进行训练,并使用经过训练学习的分类器,对包含或者未包含断定业务对象真假属性的标签的待分类评价文本进行分类,得到未包含断定业务对象真假属性的标签的待分类评价文本表征的对业务对象真假属性的评估值。
图3为获取的作为训练样本的评价文本的示例图。如图3所示,训练样本可以来自“评价”“退款”“维权”“投诉”等多个维度中的部分或全部维度,断定业务对象真假属性的标签(评估值)可以为对业务对象是否假货的直接断定(是假货,或者不是假货),训练样本的文本为用户对业务对象的客观描述、使用感受等。
可见,本发明实施例中,训练样本可以为用户使用过业务对象之后反馈的评价文本,并且该评价文本可以来自一个或多个具有接收评价文本功能的维度,例如:在评价界面、退款界面、维权界面、投诉界面都可以接收用户反馈的评价文本,因此,可以将从上述一个或多个维度获得的评价文本作为训练样本。进一步地,作为训练样本的评价文本中需要具有对业务对象的真假属性的判定信息,或者根据训练样本的文本信息能够确定出对业务对象的真假属性的判定信息。
如图3所示,来自“评价”维度的评价文本可以为:“非常好,包装也很仔细,绝对是正品”,该评价文本中包括的对业务对象的真假属性的判定为“不是假货”;来自“退款”维度的评价文本可以为:“是正品,但是我买的尺码太小了,不想买了,所以退款”,该评价文本中包括的对业务对象的真假属性的判定为“不是假货”;来自“维权”维度的评价文本可以为:“多次沟通,卖方无人回复”,该评价文本中未包括对业务对象为假货的判断,可以确定该评价文本对业务对象的真假属性的判定为“不是假货”;来自“投诉”维度的评价文本可以为:“手表是假货一分钟快了13秒”,该评价文本中包括的对业务对象的真假属性的判定为“是假货”。可见,可以将上述来自一个或多个维度的评价文本作为训练样本。
S202、使用预设分词工具对训练样本进行分词处理。
本步骤中,由于训练样本为评价文本,可以是词也可以是句子,本步骤中使用预设分词工具对训练样本进行分词处理,将评价文本划分为词,以便在后续的步骤中对构成每个训练样本的词进行特征提取。
对于来自“评价”维度的评价文本“非常好,包装也很仔细,绝对是正品”,分词之后可以得到将该评价文本划分成的词“非常、好、包装、也、很、仔细、绝对、是、正品”;
对于来自“退款”维度的评价文本“是正品,但是我买的尺码太小了,不想买了,所以退款”,分词之后可以得到将该评价文本划分成的词“是、正品、但是、我、买、的、尺码、太小、了、不、想买、了、所以、退款”;
对于来自“维权”维度的评价文本“多次沟通,卖方无人回复”,分词之后可以得到将该评价文本划分成的词“多次、沟通、卖方、无、人、回复”;
对于来自“投诉”维度的评价文本“手表是假货一分钟快了13秒”,分词之后可以得到将该评价文本划分成的词“手表、是、假货、一分钟、快、13秒”。
进一步地,本本步骤中得到的分词结果仅是举例,具体的分词结果可以由具体实施时使用的预设分词工具决定,而不限于本例。
在步骤S202之前,还可以包括对训练样本进行预处理的步骤,对训练样本预处理也就是说对训练样本对应的评价文本进行字符转换处理,得到预设分词工具能够处理的统一的字符形式,例如:繁体字符转换为简体字符的处理、全角字符转换为半角字符的处理、特殊字符的过滤处理、标点符号的过滤处理、英文大小写的转换处理等。
S203、针对每个完成分词处理的训练样本,对该训练样本进行特征提取,生成该训练样本对应的第一词组向量。
本步骤中,完成分词处理的训练样本仅是由预设分词工具,简单地将句子或者短语转换成了多个词,但是如果直接使用分词处理之后得到的词生成第一词组向量进行后续的分类器训练,可能使得得到的结果不够准确,并且存在冗余词,使得后续分类器训练耗费的系统资源较大,因为分词处理之后得到词仅是最简单的对词的划分,而对于一个句子或者短语来说,分词的方式可以有多种,一个句子或者短语中,可能紧邻的两个字被划分成一个词(这里可以称作一个特征),也可能紧邻的三个字、四个字被划分成一个词(这里可以称作一个特征),那么如何使生成的词成为后续训练分类器时的关键词,并且在对训练器进行训练时节省系统资源,还需要在本步骤中对步骤S202的分词步骤之后得到的词进行特征提取,对步骤S202分词步骤之后得到的词进行筛选,去掉一些不重要的特征,并且对已经生成的词进行进一步地划分或者合并,使得经过特征提取得到的词为训练分类器时的关键词。针对每个训练样本,使用特征提取之后得到的词生成对应的第一词组向量。
对于来自“评价”维度的评价文本“非常好,包装也很仔细,绝对是正品”,分词之后得到的词“非常、好、包装、也、很、仔细、绝对、是、正品”,经过特征提取得到对应的关键词可以包括“非常好、包装、很仔细、正品”;那么对于该训练样本,得到对应的第一词组向量可以为:{非常好包装很仔细正品};
对于来自“退款”维度的评价文本“是正品,但是我买的尺码太小了,不想买了,所以退款”,分词之后可以得的词“是、正品、但是、我、买、的、尺码、太小、了、不、想买、了、所以、退款”,经过特征提取得到对应的关键词可以包括“正品、尺码、太小、退款”;那么对于该训练样本,得到对应的第一词组向量可以为:{正品尺码太小退款};
对于来自“维权”维度的评价文本“多次沟通,卖方无人回复”,分词之后可以得到的词“多次、沟通、卖方、无、人、回复”,经过特征提取得到对应的关键词可以包括“沟通、卖方、无人、回复”;那么对于该训练样本,得到对应的第一词组向量可以为:{沟通卖方无人回复};
对于来自“投诉”维度的评价文本“手表是假货一分钟快了13秒”,分词之后可以得到的词“手表、是、假货、一分钟、快、13秒”,经过特征提取得到对应的关键词可以包括“手表、假货”;那么对于该训练样本,得到对应的第一词组向量可以为:{手表假货}。
进一步地,本本步骤中得到的特征提取结果仅是举例,具体的特征提取结果可以由具体实施时使用的预设特征提取算法决定,而不限于本例。
本步骤中,可以通过预设特征提取算法对训练样本进行特征提取,例如:n元模型(n-gram):若一个句子S由m个词构成(w1w2w3...wm),则n-gram定义为:{wiwi+l…wi+n-l|l≤i≤m-n+l}。
S204、根据预设分类器支持的向量格式,为构成各第一词组向量的不同的第一词分量生成对应的特征词。
本步骤中,如果预设分类器能够支持第一词组向量,那么可以直接根据各第一词组向量包括的不同词分量生成对应的特征词,并且基于第一词组向量继续后续的处理,而通常预设分类器不能够识别直接由词或者词组构成的第一词组向量,而是具有自身支持的向量格式,那么,本步骤中,根据预设分类器支持的向量格式,为第一词分量生成对应的特征词,也就是说,为不同的第一词分量分配对应的、预设分类器支持的特征词来标识不同的第一词分量,那么,可以使不同的第一词分量对应的不同特征词构成预设分类器支持的特征量化映射词典。
假设本实施例中预设分类器支持的向量格式为字母构成的向量,那么,对于来自“评价”维度的评价文本“非常好,包装也很仔细,绝对是正品”,对应的第一词组向量{非常好包装很仔细正品},可以为第一词分量“非常好”分配ID即特征词“a”,可以为第一词分量“包装”分配ID即特征词“b”,可以为第一词分量“很仔细”分配ID即特征词“c”,可以为第一词分量“正品”分配ID即特征词“d”;
对于来自“退款”维度的评价文本“是正品,但是我买的尺码太小了,不想买了,所以退款”,对应的第一词组向量{正品尺码太小退款},第一词分量“正品”已分配ID即特征词“d”,可以为第一词分量“尺码”分配ID即特征词“e”,可以为第一词分量“太小”分配ID即特征词“f”,可以为第一词分量“退款”分配ID即特征词“g”;
对于来自“维权”维度的评价文本“多次沟通,卖方无人回复”,对应的第一词组向量{沟通卖方无人回复},可以为第一词分量“沟通”分配ID即特征词“h”,可以为第一词分量“卖方”分配ID即特征词“i”,可以为第一词分量“无人”分配ID即特征词“j”,可以为第一词分量“回复”分配ID即特征词“k”;
对于来自“投诉”维度的评价文本“手表是假货一分钟快了13秒”,对应的第一词组向量{手表假货},可以为第一词分量“手表”分配ID即特征词“l”,可以为第一词分量“假货”分配ID即特征词“m”。
可见,针对上述分别来自“评价”、“退款”、“维权”、“投诉”四个维度的四个训练样本对应的四个第一词组向量,为构成该四个第一词组向量的不同的第一词分量生成的特征词包括:“a、b、c、…、m”,假设训练样本仅包括这四个评价文本,那么生成的特征量化映射词典包括的特征词为“a、b、c、…、m”。
进一步地,本本步骤中得到的特征词仅是举例,具体的特征词可以由具体实施时使用的预设分类器决定,而不限于本例。
S205、以S204中生成的不同的特征词表征不同的维度,或者以S204中生成的特征词与预设维度相叠加表征不同的维度,为各第一词组向量分别生成对应的第一特征向量。
为了便于后续预设分类器能够对第一词组向量进行处理,本步骤中,为第一词组向量生成对应的第一特征向量,可以由特征词表征第一特征向量的维度,第一特征向量的维度可以与特征词数量相等,也可以大于特征词数量。
步骤S205可以具体实施为:
步骤一、使生成的不同的特征词表征第一特征向量的不同的维度,或者使生成的特征词与预设维度相叠加表征第一特征向量的不同的维度;
步骤二、针对每个第一词组向量,基于该第一词组向量包含的各第一词分量在该第一词组向量对应的训练样本中分别出现的次数,确定为该第一词组向量生成的第一特征向量中各维度的值。
在步骤一中,为各第一词组向量生成具有相同维度的第一特征向量,第一特征向量的维度数由生成的特征词个数决定,可以等于特征词个数也可以大于特征词个数,并且第一特征向量的各维度分别由对应的特征词表征。
针对上述分别来自“评价”、“退款”、“维权”、“投诉”四个维度的四个训练样本对应的四个第一词组向量,为构成该四个第一词组向量的不同的第一词分量生成的特征词包括:“a、b、c、…、m”(共13个),那么,为第一词组向量生成的第一特征向量的维度可以为13维,也可以为13+n维,其中,n为预设维度,在后续生成第二特征向量的步骤中会具体讲解预设维度的作用。并且第一特征向量的13维分别由“a、b、c、…、m”表征。
在步骤二中,确定了每个第一词组向量转换的第一特征向量的各个维度的值。步骤二中,第一词组向量的在对应第一特征向量中各维度的值可以根据该第一词组向量中包含的第一词分量的情况确定。
具体实施时,可以步骤二的具体实施方式可以采用如下三种方式中任一种方式:
第一种方式:针对为每个第一词组向量生成的第一特征向量的每个维度,当表征该维度的特征词在该第一词组向量中具有对应的第一词分量时,将该维度的值确定为第一预设固定值;
当表征该维度的特征词在该第一词组向量中不具有对应的第一词分量时,将该维度的值确定为第二预设固定值。
在第一种方式中,可以确定两个预设的固定值,针对生成的每个第一特征向量的每个维度,确定该第一特征向量中表征该维度的特征词在该第一特征向量对应的第一词组向量中是否存在对应的第一词分量,若存在,不管存在一个还是多个,将该第一特征向量中该维度的值确定为第一预设固定值(例如:1),若不存在,则将该第一特征向量中该维度的值确定为第二预设固定值(例如:0)。
对于来自“评价”维度的评价文本“非常好,包装也很仔细,绝对是正品”,对应的第一词组向量{非常好包装很仔细正品},由于对于第一特征向量的13个维度来说,只有表征第一维至第四维的特征词(即a、b、c、d),在该第一词组向量中具有对应的第一词分量(即非常好、包装、很仔细、正),因此,为该第一词组向量生成的13维第一特征向量X1可以为X1=[1,1,1,1,0,0,0,0,0,0,0,0,0]T
对于来自“退款”维度的评价文本“是正品,但是我买的尺码太小了,不想买了,所以退款”,对应的第一词组向量{正品尺码太小退款},由于对于第一特征向量的13个维度来说,只有表征第四维至第七维的特征词(即d、e、f、g)在该第一词组向量中具有对应的第一词分量(即正品、尺码、太小、退款),因此,为该第一词组向量生成的13维第一特征向量X2可以为X2=[0,0,0,1,1,1,1,0,0,0,0,0,0]T
对于来自“维权”维度的评价文本“多次沟通,卖方无人回复”,对应的第一词组向量{沟通卖方无人回复},由于对于第一特征向量的13个维度来说,只有表征第八维至第十一维的特征词(即h、i、j、k),在该第一词组向量中具有对应的第一词分量(即沟通、卖方、无人、回复),因此,为该第一词组向量生成的13维第一特征向量X3可以为X3=[0,0,0,0,0,0,0,1,1,1,1,0,0]T
对于来自“投诉”维度的评价文本“手表是假货一分钟快了13秒”,对应的第一词组向量{手表假货},由于对于第一特征向量的13个维度来说,只有表征第十二维至第十三维的特征词(即l、m),在该第一词组向量中具有对应的第一词分量(即手表、假货),因此,为该第一词组向量生成的13维第一特征向量X4可以为X4=[0,0,0,0,0,0,0,0,0,0,0,1,1]T
进一步地,当第一特征向量为13+n维时,n维对应的值可以为0。本本步骤中第一特征向量的值仅是举例,具体的特征词可以由具体实施时设置的值决定,而不限于本例中的1和0。
第二种方式:针对每个第一词组向量,确定构成该第一词组向量的各第一词分量在该第一词组向量对应的训练样本中出现的词频;
针对为每个第一词组向量生成的第一特征向量的每个维度,将表征该维度的特征词对应的第一词分量在该第一词组向量对应的训练样本中出现的词频,确定为该维度的值。
本方式中,对于在对应维度词频为零的情况,则对应维度值可以直接为零。
对于来自“评价”维度的评价文本“非常好,包装也很仔细,绝对是正品”,对应的第一词组向量{非常好包装很仔细正品},由于对于第一特征向量的13个维度来说,表征第一维至第四维的特征词(即a、b、c、d)在该第一词组向量对应的训练样本中出现的词频为1,其他维度的特征词出现的词频为0,因此,为该第一词组向量生成的13维第一特征向量X1可以为X1=[1,1,1,1,0,0,0,0,0,0,0,0,0]T
对于来自“退款”维度的评价文本“是正品,但是我买的尺码太小了,不想买了,所以退款”,对应的第一词组向量{正品尺码太小退款},由于对于第一特征向量的13个维度来说,表征第四维至第七维的特征词(即d、e、f、g)在该第一词组向量对应的训练样本中出现的词频为1,其他维度的特征词出现的词频为0,因此,为该第一词组向量生成的13维第一特征向量X2可以为X2=[0,0,0,1,1,1,1,0,0,0,0,0,0]T
对于来自“维权”维度的评价文本“多次沟通,卖方无人回复”,对应的第一词组向量{沟通卖方无人回复},由于对于第一特征向量的13个维度来说,表征第八维至第十一维的特征词(即h、i、j、k),在该第一词组向量对应的训练样本中出现的词频为1,其他维度的特征词出现的词频为0,因此,为该第一词组向量生成的13维第一特征向量X3可以为X3=[0,0,0,0,0,0,0,1,1,1,1,0,0]T
对于来自“投诉”维度的评价文本“手表是假货一分钟快了13秒”,对应的第一词组向量{手表假货},由于对于第一特征向量的13个维度来说,表征第十二维至第十三维的特征词(即l、m),在该第一词组向量对应的训练样本中出现的词频为1,其他维度的特征词出现的词频为0,因此,为该第一词组向量生成的13维第一特征向量X4可以为X4=[0,0,0,0,0,0,0,0,0,0,0,1,1]T
第三种方式:针对每个第一词组向量,确定构成该第一词组向量的各第一词分量在该第一词组向量对应的训练样本中出现的词频;以及
针对构成各第一词组向量的不同第一词分量,确定包含该第一词分量的第一词组向量的个数;
针对为每个第一词组向量生成的第一特征向量的每个维度,将表征该维度的特征词对应的第一词分量在该第一词组向量对应的训练样本中出现的词频与指定商的乘积,确定为该维度的值,其中,指定商为基于第一词组向量的个数,与包含该第一词分量的第一词组向量的个数的商确定的。
可见,第一词分量在同一第一词组向量中出现的词频越高,且在其他第一词组向量中出现的次数越少,则该第一词分量在对应第一特征向量中对应维度的值越大。也就是说,在越多第一词组向量中出现的第一词分量说明越不是确定业务对象真假属性的关键词,应降低其在第一特征向量中对应维度的值,而在同一个训练样本中词频越高,则说明该第一词分量越是确定业务对象真假属性的关键词,应增大其在第一特征向量中对应维度的值,因此通过第一词分量的词频和包含该第一词分量的第一词组向量的个数共同确定该第一词分量在第一特征向量中对应维度的值,使得第一特征向量的值更加客观有效,从而得到的对业务对象的评估值更加客观有效。
对于来自“评价”维度的评价文本“非常好,包装也很仔细,绝对是正品”,对应的第一词组向量{非常好包装很仔细正品},由于对于第一特征向量的13个维度来说,表征第一维至第四维的特征词(即a、b、c、d)在该第一词组向量对应的训练样本中出现的词频为1,且包含第一维至第四维的特征词分别对应的第一词分量的第一词组向量的个数分别为1、1、1、2,因此,为该第一词组向量生成的13维第一特征向量X1可以为X1=[4,4,4,2,0,0,0,0,0,0,0,0,0]T
对于来自“退款”维度的评价文本“是正品,但是我买的尺码太小了,不想买了,所以退款”,对应的第一词组向量{正品尺码太小退款},由于对于第一特征向量的13个维度来说,表征第四维至第七维的特征词(即d、e、f、g)在该第一词组向量对应的训练样本中出现的词频为1,且包含第四维至第七维的特征词分别对应的第一词分量的第一词组向量的个数分别为2、1、1、1,因此,为该第一词组向量生成的13维第一特征向量X2可以为X2=[0,0,0,2,4,4,4,0,0,0,0,0,0]T
对于来自“维权”维度的评价文本“多次沟通,卖方无人回复”,对应的第一词组向量{沟通卖方无人回复},由于对于第一特征向量的13个维度来说,表征第八维至第十一维的特征词(即h、i、j、k),在该第一词组向量对应的训练样本中出现的词频为1,且包含第八维至第十一维的特征词分别对应的第一词分量的第一词组向量的个数分别为1、1、1、1,因此,为该第一词组向量生成的13维第一特征向量X3可以为X3=[0,0,0,0,0,0,0,4,4,4,4,0,0]T
对于来自“投诉”维度的评价文本“手表是假货一分钟快了13秒”,对应的第一词组向量{手表假货},由于对于第一特征向量的13个维度来说,表征第十二维至第十三维的特征词(即l、m),在该第一词组向量对应的训练样本中出现的词频为1,且包含第十二维至第十三维的特征词分别对应的第一词分量的第一词组向量的个数分别为1、1,因此,为该第一词组向量生成的13维第一特征向量X4可以为X4=[0,0,0,0,0,0,0,0,0,0,0,4,4]T
进一步地,指定商可以直接为所有第一词组向量的个数,与所有第一词组向量中包含该第一词分量的第一词组向量的个数的商,也可以为在保证所有第一词组向量中包含该第一词分量的第一词组向量的个数越多,指定商越小的前提下,该商的数学变形,例如:对该商取对数。
进一步地,为了进一步减小预设分类器处理的数据的规模,可以在步骤S205之前,步骤S204之后,执行如下步骤:
基于预设特征选择标准,对S204中得到的特征词进行特征选择和特征修剪,得到符合预设特征选择标准的特征词。
在步骤S202中对训练样本的分词处理直接将训练样本的句子或短语划分成词,在步骤S203中对分词步骤之后得到的词进行了特征提取,得到了与业务对象真假属性相关的词,再在步骤S204中将特征提取后得到的词(第一词分量)转换为特征词,本步骤中,可以进一步对S204中得到的特征词进行筛选和修剪,确定出与业务对象真假属性相关性更强的特征词,这样可以减小后续第一特征向量的维度,进一步节省系统资源并提高计算速度。
具体实施时,可以采用预设特征选择标准,进行特征选择和特征修剪,下面以卡方检验(Chi-square)为例进行说明:
为了降低预设分类器的运算规模,可以采用卡方检验做特征选择和特征修剪。卡方检验的基本思想可以为:通过对比观察值与理论值的偏差来确定假设正确与否。在文本分类中可以首先假设特征词W与类别L是独立的(即不相关的),基于特征词W和类别L计算卡方值,若计算出来的卡方值越大,则说明与原假设的偏离越大,原假设条件越不成立,也就说明词W与类别L是相关的,那么该特征词不能被剪掉。
进一步地,特征词W与类别L共现频率可以如表1所示:
表1
特征词 属于类别L 不属于类别L
包含W A B
不包含W C D
如表1所示,A表征训练样本中包含特征词W且属于类别L(例如:是假货)的训练样本个数;B表征训练样本中包含特征词W且不属于类别L(例如:不是假货)的训练样本个数;C表征训练样本中不包含特征词W且属于类别L的训练样本个数;D表征训练样本中不包含特征词W且不属于类别L的训练样本个数。
在确定出A、B、C、D之后,可以带入式(1)进行计算,得到特征词W与类别L之间的卡方值χ2(W,L):
χ 2 ( W , L ) = N ( AD - BC ) 2 ( A + C ) ( A + B ) ( B + D ) ( C + D ) ≈ ( AD - BC ) 2 ( A + B ) ( C + D ) 式(1)
其中,N表征训练样本总个数;
进一步地,可以按照式(2)针对每个特征词求出该特征词W与所有类别L之间的卡方和:
χ 2 ( W ) = Σ l ∈ L χ 2 ( W , l ) 式(2)
然后按照每个特征词的卡方值降序排序,在不明显影响准召率的情况下确定阈值λ,将低于此阈值的特征词剪掉,从而完成特征选择及修剪。
那么步骤S205可以具体实施为:
以符合所述标准的特征词表征不同的维度,或者以符合所述标准的特征词与预设维度相叠加表征不同的维度,为各第一词组向量分别生成对应的第一特征向量。
S206、基于预设分类器支持的特征向量、特征向量归属的类别、表征特征向量各维度的特征词对应的权重,构造预设分类器对应分类算法中的损失函数。
进一步地,本发明实施例中可以基于文本语义分析采用文本分类技术实现业务对象真假属性的确定,文本分类的基本思想可以为:从文本数据中训练一个文本分类模型或分类决策树,又称之为分类器(Classifier)。分类器对新的输入进行预测(Prediction),也称为分类(Classification),将分类器所有可能的输出称为类(Class)。可见,文本分类包括训练和分类两个过程。在训练过程中,根据已知的训练样本利用有效的学习方法训练一个分类器;在分类过程中,利用训练后的分类器对新的输入实例(待分类评价文本)进行分类。
图4为文本分类原理示意图,如图4所示,(x1,y1),(x2,y2)......(xN,yN)可以为训练样本(文本数据),xi(1≤i≤N)为第i个训练样本的特征向量表示,yi(1≤i≤N)为第i个训练样本所表征的类别(即各特征向量分别归属的类别)。学习系统401由训练样本训练一个分类器402,分类器402可以通过概率的形式P(Y|X)或者函数的形式Y=f(X)来表征;文本分类系统403通过训练后的分类器P(Y|X)或Y=f(X)402对新输入实例xN+1进行分类,预测输出的类别标记yN+1
本发明实施例中,预设分类器可以为任意一种分类器,例如:开源分类器线性分类器liblinear或支持向量机分类器libsvm或朴素贝叶斯分类器NaiveBayes等。下面以二分类线性分类器liblinear,对每个包含有对业务对象真假属性评估值的训练样本(xi,yi)进行训练为例,其中,1≤i≤N;xi表征训练样本i对应的特征向量,且xi∈Rn;yi表征训练样本i包含的对业务对象真假属性的评估值,且yi∈{-1,+1}。线性分类器liblinear解决的无约束优化问题可形式化为式(3):
min W 1 2 W T W + C Σ i = 1 N ξ ( W ; x i , y i ) 式(3)
式(3)中,C表征惩罚因子;W表征各特征词在确定业务对象真假属性时所占权重向量;N表征训练样本总个数;ξ(W;xi,yi)表征分类器liblinear对应分类算法中的损失函数;
损失函数ξ(W;xi,yi)可以包括三种:
第一种:0-1损失,对应的损失函数ξ(W;xi,yi)为:max(1-yiWTxi,0);
第二种:平方损失,对应的损失函数ξ(W;xi,yi)为:max(1-yiWTxi,0)2
第三种:对数损失,对应的损失函数ξ(W;xi,yi)为:
线性分类器训练算法的目标为求出权重向量W,得到训练后的用于为测试样本进行分类的决策函数sgn(WTX),其中,X表征特征向量变量。
较佳地,为了使预设分类器预测的结果更加灵活,本发明以逻辑回归,采用对数损失为损失函数的学习算法训练分类器,使得决策函数以概率分布的方式输出分类结果。那么,线性分类器liblinear解决的无约束优化问题可以形式化为式(4):
min W 1 2 W T W + C Σ i = 1 N log ( 1 + e - y i W T x i ) 式(4)
S207、将S205中确定的训练样本对应的各第一特征向量的值,以及各第一特征向量对应训练样本所包含的评估值作为所述损失函数的输入,采用分类算法对损失函数进行运算处理,得到表征第一特征向量的各维度的特征词在确定业务对象真假属性时所占的权重的值。
进一步地,以式(4)为损失函数,将S205中采用三种方式中的任一种方式确定的训练样本对应的第一特征向量(X1~X4)的值作为中的xi,第一特征向量对应训练样本所包含的评估值(1、1、1、-1)作为第一特征向量归属的类别,即中的yi,输入采用式(4)对进行运算处理,得到表征各特征词在确定业务对象真假属性时所占权重的权重向量W。那么,在W为已知量之后,输入未知的xi就可以得到对应的yi,也就是说,经过训练的预设分类器可以对输入的测试文本进行分类,得到该测试文本表征的业务对象的真假属性。
S208、使用预设分词工具对待分类评价文本进行分词处理。
进一步地,本发明实施例中,可以从一个或多个维度(评价界面反馈的评价文本、用退货界面反馈的评价文本、维权界面反馈的评价文本、投诉界面反馈的评价文本)获取评价文本作为待分类评价文本,并且作为待分类评价文本的评价文本可以不包含对业务对象真假属性的评估值。待分类评价文本可以为:来自“评价”维度的评价文本“不知道这包装该如何评价”,该待评价文本中不包含对业务对象真假属性的评估值,待分类评价文本也可以为:来自“退货”维度的评价文本“是正品,但尺码大了”,该待评价文本中包含对业务对象真假属性的评估值。
由于前述步骤已经得到训练后的预设分类器,将待分类评价文本输入训练后的预设分类器可以得到该待分类评价文本所属的类别,即待分类评价文本所表征的业务对象的真假属性。
进一步地,本步骤的执行与步骤S201~步骤S207的执行没有严格的先后顺序。
本步骤中,由于待分类评价文本为评价文本,可以是词也可以是句子,本步骤中使用预设分词工具对待分类评价文本进行分词处理,将待分类评价文本划分为词。具体分词结果可以参见步骤S202。
进一步地,在步骤S208之前,还可以包括对待分类评价文本进行预处理的步骤,对待分类评价文本预处理也就是说对待分类评价文本进行字符转换处理,得到预设分词工具能够处理的统一的字符形式,例如:繁体字符转换为简体字符的处理、全角字符转换为半角字符的处理、特殊字符的过滤处理、标点符号的过滤处理、英文大小写的转换处理等。
S209、针对每个完成分词处理的待分类评价文本,对待分类评价文本进行特征提取,生成该待分类评价文本对应的第二词组向量。
对于来自“评价”维度的待分类评价文本“不知道这包装该如何评价”,生成的第二词组向量可以为{包装,如何,评价};对于来自“退货”维度的待分类评价文本“是正品,但尺码大了”,生成的第二词组向量可以为{正品,尺码,大}。
进一步地,本步骤的具体实施方式可以参见步骤S203的具体实施方式,此处不再赘述。
S210、根据表征第一特征向量的各维度的特征词与构成各第一词组向量的不同的第一词分量之间的对应关系,将构成各第二词组向量的第二词分量与特征词进行匹配。
进一步地,本步骤中,特征量化映射词典包含的特征词是在训练阶段,根据各第一词组向量所包含的不同的第一词分量生成的,初始时特征量化映射词典为空,生成的过程主要为:在训练阶段的特征提取过程中,每生成一个当前特征量化映射词典中未包括的第一词分量,则为该第一词分量分配一个新的维度,即为该第一词分量分配一个预设分类器支持的标识(ID)或者词编号,直到所有第一词分量均具有对应的特征词。在预测阶段,第二词组向量包含多个不同的第二词分量,第二词分量可能与第一词分量相同或者不同,可以根据特征量化映射词典包含的特征词,将第二词分量与特征词进行匹配,并且为第二词组向量生成预设分类器支持的第二特征向量,第二特征向量与第一特征向量维度相同。那么第二特征向量的值可以根据第二词分量与特征词的匹配结果来确定。
对于训练阶段生成的特征词“a、b、c、…、m”,分别与第一词分量“非常好、包装、很仔细、正品、尺码、太小、退款、沟通、卖方、无人、回复、手表、假货”对应,根据该对应关系,对于来自“评价”维度的待分类评价文本“不知道这包装该如何评价”,对应的第二词分量“包装、如何、评价”,以及对于来自“退货”维度的待分类评价文本“是正品,但尺码大了”对应的第二词分量“正品,尺码,大”分别与训练阶段生成的特征词匹配,得到来自“评价”维度的待分类评价文本“不知道这包装该如何评价”匹配到的特征词为“b”,来自“退货”维度的待分类评价文本“是正品,但尺码大了”匹配到的特征词为“d、e”。
S211、根据得到的匹配结果,为各第二词组向量分别生成与第一特征向量具有相同维度的第二特征向量。
本步骤可以具体实施为:
针对构成每个第二词组向量的各第二词分量,当该第二词分量匹配到特征词时,则将该第二词分量对应的预设值确定为该第二词分量所在第二词组向量对应第二特征向量中匹配到的特征词所在维度的值;
其中,预设值为预设固定值,或者为该第二词分量在所在第二词组向量对应待分类评价文本中的词频,或者为该第二词分量在所在第二词组向量对应待分类评价文本中的词频与预设商的乘积,预设商为基于各第二词组向量的个数,与包含该第二词分量的第二词组向量的个数的商确定的;
当该第二词分量未匹配到特征词时,根据第二特征向量的维度,确定未匹配到特征词的第二词分量在第二特征向量中对应的维度。
进一步地,预设商可以直接为所有第二词组向量的个数,与所有第二词组向量中包含该第二词分量的第二词组向量的个数的商,也可以为在保证所有第二词组向量中包含该第二词分量的第二词组向量的个数越多,预设商越小的前提下,该商的数学变形,例如:对该商取对数。
本步骤中,当第二词分量匹配到特征词时,也就是说特征量化映射词典中包含该第二词分量对应的特征词,将预设值作为该第二词分量在第二特征向量中对应特征词所在维度的值。
当第二词分量未匹配到特征词时,也就是说特征量化映射词典中不包含该第二词分量对应的特征词,则说明在训练阶段第一词分量中并未出现过该第二词分量,也可以称该第二词分量为未登录词,可以根据第二特征向量的维度来确定该第二词分量在第二特征向量中对应的维度。也就是说,当第一特征向量的维度大于特征量化映射词典包含的特征词数量时,可以将该第二词分量与多出的预设维度相对应,将该第二词分量的预设值确定为该预设维度的值;当第一特征向量的维度等于特征量化映射词典包含的特征词数量时,可以将该第二词分量舍弃不处理。
较佳地,预设维度可以为1维,也就是说,第一特征向量或者第二特征向量的维度可以与特征量化词典包含的特征词数量相等,也可以为特征量化词典包含的特征词数量加1,那么,可以将该加1的维度确定为所有未登录词所在的维度,其值可以根据实际情况进行设置。
对于训练阶段生成的特征词“a、b、c、…、m”,针对第一特征向量为13维的情况,对于来自“评价”维度的待分类评价文本“不知道这包装该如何评价”匹配到的特征词为“b”,该待分类评价文本对应的13维第二特征向量中第二词分量“包装”对应的特征词“b”所在维度的值可以为预设固定值,例如1,那么该第二特征向量X1可以为X1=[0,1,0,0,0,0,0,0,0,0,0,0,0]T;第二词分量“包装”对应的特征词“b”所在维度的值还可以为第二词分量“包装”在该待分类评价文本中出现的词频1,那么该第二特征向量X1可以为X1=[0,1,0,0,0,0,0,0,0,0,0,0,0]T;第二词分量“包装”对应的特征词“b”所在维度的值还可以为第二词分量“包装”在该待分类评价文本中出现的词频1与预设商2的乘积2,那么该第二特征向量X1可以为X1=[0,2,0,0,0,0,0,0,0,0,0,0,0]T;未匹配到特征词的第二词分量“如何”和“评价”则不出现在第二特征向量中。如果第一特征向量为14维,那么第二特征向量为14维,可以将第二特征向量中的第14维设置值,表征未匹配到特征词的第二词分量;
对于来自“退货”维度的待分类评价文本“是正品,但尺码大了”匹配到的特征词为“d、e”。该待分类评价文本对应的13维第二特征向量中第二词分量“正品”和“尺码”分别对应的特征词“d”和“e”所在维度的值可以为预设固定值,例如1,那么该第二特征向量X2可以为X2=[0,0,0,1,1,0,0,0,0,0,0,0,0]T;第二词分量“正品”和“尺码”分别对应的特征词“d”和“e”所在维度的值还可以分别为第二词分量“正品”和“尺码”在该待分类评价文本中出现的词频1,那么该第二特征向量X2可以为X2=[0,0,0,1,1,0,0,0,0,0,0,0,0]T;第二词分量“正品”和“尺码”分别对应的特征词“d”和“e”所在维度的值还可以分别为第二词分量“正品”和“尺码”在该待分类评价文本中出现的词频1与预设商2的乘积2,那么该第二特征向量X2可以为X2=[0,0,0,2,2,0,0,0,0,0,0,0,0]T;未匹配到特征词的第二词分量“大”则不出现在第二特征向量中。如果第一特征向量为14维,那么第二特征向量为14维,可以将第二特征向量中的第14维设置值,表征未匹配到特征词的第二词分量。
针对第一特征向量的维度为特征词数量加n的情况,n可以为零或者大于零,较佳地,可以取1,由于在训练阶段,并没有特征词表征n所对应的维度,因此,在经过训练阶段得到每个特征词在确定业务对象真假属性时所占的权重时,并无法得到n所对应的维度所占的权重。在生成第二特征向量时,可能第二词分量并不能完全与特征词对应,不存在对应特征词的第二词分量就可以通过n所对应的维度来表征,而n所对应的维度对应的权重可以根据对应第二词分量在确定业务对象真假属性时的重要性进行设置,越重要设置权重越高。
S212、将各第二特征向量的值,以及特征词在确定业务对象真假属性时所占的权重的值作为损失函数的输入,采用预设分类器对应的分类算法对损失函数进行分类运算,得到第二特征向量对应的待分类评价文本表征的对业务对象的评估值。
进一步地,将确定的待分类评价文本对应的第二特征向量(X1~X2)的值作为中的xi,将得到的表征各特征词在确定业务对象真假属性时所占权重的权重向量W输入采用式(4)对进行分类处理,得到第二特征向量归属的类别,即中的yi,也就是待分类评价文本所表征的评估值。
S213、基于S212中得到的对业务对象真假属性的评估值,确定业务对象的真假属性。
进一步地,本步骤在具体实施时,可以预先设置比例阈值,当训练样本和/或待分类评价文本对业务对象真假属性的评估值中,假货的比例达到该比例阈值时,确定该预设对象的真假属性为假。
进一步地,本发明实施例提供了一种业务对象属性的确定系统的具体实施方式。图5为本发明实施例提供的一种业务对象属性的确定系统的系统架构示意图。如图5所示,业务对象属性的确定系统架构主要包括7个层次,下面按照从上到下的顺序依次进行介绍:
第一层:调用接口API层。
在第一层中提供了各种对业务对象属性的确定系统进行调用的调用接口,例如:命令行调用接口(CLI,Command Line Interface),数据仓库工具hive环境中自定义函数调用接口(hive UDF)等。
第二层:通过第一层的调用接口API接收到的评价文本数据(包括:训练样本、待分类评价文本等)。
第三层:分词处理层。
在第三层中提供了分词处理功能。通过预设分词工具对第二层接收到的评价文本数据进行分词处理。预设分词工具可以包括:基于词典与规则德尔分词器(MMSeg)、阿里分词(AliWS)等。
第四层:特征提取层。
在第四层中提供了特征提取功能。对第三层得到的完成分词的评价文本中提取用于后续分类处理的特征。得到词组向量(第一词组向量或第二词组向量)以及构成词组向量的词分量(第一词分量或第二词分量)的词频(tf,termfrequency),或者得到词分量的词频与逆文档频率(idf,inverse documentfrequency)的乘积(Tf*idf),逆文档频率为所有词组向量个数与出现该词分量的词组向量的个数的商。特征提取的方法可以包括:n元模型n-gram法。
第五层:格式转换层。
在第五层中提供了格式转换功能。将第四层得到的词组向量转换成预设分类器能够识别的向量格式。格式转换层为不同阶段提供不同的格式转换流程,针对训练阶段,格式转换层的功能主要包括将第一词组向量特征向量化,并生成特征量化映射词典,可选地,还可以包括对特征量化映射词典中包含的特征词进行进一步特征选择;针对分类阶段,格式转换层的功能主要包括基于生成的特征量化映射词典,将待分类第二词组向量特征向量化。
第六层:分类层。
分类层包括两个模块:训练模块和分类模块。训练模块用于按照预设分类器对应的分类算法(例如:liblinear或者libsvm或者NaiveBayes)对向量化后的训练样本进行训练,得到训练后的分类器;分类模块用于使用训练后的分类器,依据预设分类器对应的分类算法对待分类评价文本进行分类。
第七层:数据存储层。
第七层用于将第六层训练得到的文件,例如:生成的分类器模型文件、权重向量等,进行存储,以便进行分类时调用。
在使用本发明实施例提供的业务对象属性的确定系统确定业务对象真假属性时,主要包括如下流程:
第一阶段:训练阶段,训练阶段的流程可以离线完成。主要包括如下流程:
步骤一:通过第一层的调用接口接收带有对业务对象真假属性评估值的训练样本。
步骤二:对得到的训练样本进行预处理,即字符转换处理,得到分词处理层能够处理的统一的字符形式,例如:繁体字符转换为简体字符的处理、全角字符转换为半角字符的处理、特殊字符的过滤处理、标点符号的过滤处理、英文大小写的转换处理等,再通过第三层的分词处理层对字符转换处理后的训练样本进行分词处理。
步骤三:第四层的特征提取层对第三层分词后的训练样本进行特征提取,得到第一词组向量及构成第一词组向量的第一词分量的词频tf,或者得到第一词分量的词频与逆文档频率的乘积tf*idf。
步骤四:第五层格式转换层对第四层得到的第一词组向量进行格式转换,得到预设分类器能够识别的第一特征向量,以及生成特征量化映射词典;可选地,对特征量化映射词典进行特征筛选,从而减小预设分类器的运算规模。
步骤五:第六层分类层对第五层得到的第一特征向量进行训练,得到训练后的预设分类器,以及权重向量。
步骤六:第七层数据存储层将得到的训练后的预设分类器、权重向量、特征量化映射词典进行存储。
图6为第一阶段训练阶段的流程示意图。
第二阶段:预测阶段,预测阶段的流程主要包括如下流程:
步骤一:通过第一层的调用接口接收不带有对业务对象真假属性评估值的待分类评价文本。
步骤二:对得到的待分类评价文本进行预处理,即字符转换处理,得到分词处理层能够处理的统一的字符形式,再通过第三层的分词处理层对字符转换处理后的待分类评价文本进行分词处理。
步骤三:第四层的特征提取层对第三层分词后的待分类评价文本进行特征提取,得到第二词组向量及构成第二词组向量的第二词分量的词频tf,或者得到第二词分量的词频与逆文档频率的乘积tf*idf。
步骤四:第五层格式转换层根据训练阶段得到的特征量化映射词典、以及根据训练样本得到的第一特征向量,对第四层得到的第二词组向量进行格式转换,得到预设分类器能够识别的待分类评价文本对应的第二特征向量。
步骤五:第六层分类层根据存储的预设分类器文件、权重向量,对第五层得到的第二特征向量进行分类,得到待分类评价文本表征的对业务对象的评估值。
图7为第二阶段预测阶段的流程示意图。
基于同一发明构思,本发明实施例还提供了一种业务对象属性的确定设备,由于这些设备所解决问题的原理与前述一种业务对象属性的确定方法相似,因此该设备的实施可以参见前述方法的实施,重复之处不再赘述。
本发明实施例提供的一种业务对象属性的确定设备,如图8所示,包括:
样本确定模块801,用于从针对业务对象的评价文本中确定训练样本,其中,所述训练样本包含对所述业务对象真假属性的评估值;
特征向量生成模块802,用于基于预设分类器支持的向量格式,为所述样本确定模块801确定的训练样本生成对应的所述预设分类器能够识别的第一特征向量;
训练模块803,用于使用所述预设分类器,对所述第一特征向量,以及所述第一特征向量对应训练样本所包含的评估值进行训练,得到表征所述第一特征向量的各维度的特征词在确定所述业务对象真假属性时所占的权重;
分类模块804,用于使用所述预设分类器,根据所述特征词以及所述权重,为针对所述业务对象的待分类评价文本进行分类,得到每个待分类评价文本对所述业务对象真假属性的评估值;
属性确定模块805,用于基于所述分类模块804得到的对所述业务对象真假属性的评估值,确定业务对象的真假属性。
进一步地,所述特征向量生成模块802,具体用于使用预设分词工具对训练样本进行分词处理;针对每个完成分词处理的训练样本,对该训练样本进行特征提取,生成该训练样本对应的第一词组向量;根据所述预设分类器支持的向量格式,为构成各第一词组向量的不同的第一词分量生成对应的特征词;以生成的不同的特征词表征不同的维度,或者以生成的特征词与预设维度相叠加表征不同的维度,为各第一词组向量分别生成对应的第一特征向量。
进一步地,所述特征向量生成模块802,具体用于使生成的不同的特征词表征第一特征向量的不同的维度,或者使生成的特征词与预设维度相叠加表征第一特征向量的不同的维度;针对每个第一词组向量,基于该第一词组向量包含的各第一词分量在该第一词组向量对应的训练样本中分别出现的次数,确定为该第一词组向量生成的第一特征向量中各维度的值。
进一步地,所述特征向量生成模块802,具体用于针对为每个第一词组向量生成的第一特征向量的每个维度,当表征该维度的特征词在该第一词组向量中具有对应的第一词分量时,将该维度的值确定为第一预设固定值;当表征该维度的特征词在该第一词组向量中不具有对应的第一词分量时,将该维度的值确定为第二预设固定值。
进一步地,所述特征向量生成模块802,具体用于针对每个第一词组向量,确定构成该第一词组向量的各第一词分量在该第一词组向量对应的训练样本中出现的词频;针对为每个第一词组向量生成的第一特征向量的每个维度,将表征该维度的特征词对应的第一词分量在该第一词组向量对应的训练样本中出现的词频,确定为该维度的值。
进一步地,所述特征向量生成模块802,具体用于针对每个第一词组向量,确定构成该第一词组向量的各第一词分量在该第一词组向量对应的训练样本中出现的词频;针对为每个第一词组向量生成的第一特征向量的每个维度,将表征该维度的特征词对应的第一词分量在该第一词组向量对应的训练样本中出现的词频与指定商的乘积,确定为该维度的值,其中,所述指定商为基于第一词组向量的个数,与包含该第一词分量的第一词组向量的个数的商确定的。
进一步地,所述设备,还包括:特征选择模块806;
所述特征选择模块806,用于在所述特征向量生成模块802生成特征词之后,基于预设特征选择标准,对所述特征词进行特征选择和特征修剪,得到符合所述预设特征选择标准的特征词;
所述特征向量生成模块802,具体用于以符合所述标准的特征词表征不同的维度,或者以符合所述标准的特征词与预设维度相叠加表征不同的维度,为各第一词组向量分别生成对应的第一特征向量。
进一步地,所述训练模块803,具体用于基于所述预设分类器支持的特征向量、各特征向量分别归属的类别、表征特征向量各维度的特征词对应的权重,构造所述预设分类器对应分类算法中的损失函数;将所述训练样本对应的各第一特征向量的值,以及所述各第一特征向量对应训练样本所包含的评估值作为所述损失函数的输入,采用所述分类算法对所述损失函数进行运算处理,得到表征第一特征向量的各维度的特征词在确定所述业务对象真假属性时所占的权重的值。
进一步地,所述特征向量生成模块802,还用于在所述分类模块804为针对所述业务对象的待分类评价文本进行分类之前,使用预设分词工具对待分类评价文本进行分词处理;针对每个完成分词处理的待分类评价文本,对该待分类评价文本进行特征提取,生成该待分类评价文本对应的第二词组向量;根据表征所述第一特征向量的各维度的特征词与构成各第一词组向量的不同的第一词分量之间的对应关系,将构成各第二词组向量的第二词分量与所述特征词进行匹配;并根据得到的匹配结果,为各第二词组向量分别生成与所述第一特征向量具有相同维度的第二特征向量。
进一步地,所述特征向量生成模块802,具体用于针对构成每个第二词组向量的各第二词分量,当该第二词分量匹配到特征词时,则将该第二词分量对应的预设值确定为该第二词分量所在第二词组向量对应第二特征向量中匹配到的特征词所在维度的值;其中,所述预设值为预设固定值,或者为该第二词分量在所在第二词组向量对应待分类评价文本中的词频,或者为该第二词分量在所在第二词组向量对应待分类评价文本中的词频与预设商的乘积,其中,预设商为基于各第二词组向量的个数,与包含该第二词分量的第二词组向量的个数的商确定的;当该第二词分量未匹配到特征词时,根据第二特征向量的维度,确定未匹配到特征词的第二词分量在第二特征向量中对应的维度。
进一步地,所述分类模块804,具体用于将各第二特征向量的值,以及所述特征词在确定所述业务对象真假属性时所占的权重的值作为所述损失函数的输入,采用预设分类器对应的分类算法对所述损失函数进行分类运算,得到所述第二特征向量对应的待分类评价文本表征的对所述业务对象的评估值。
上述各单元的功能可对应于图1至图2所示流程中的相应处理步骤,在此不再赘述。
本发明实施例提供的一种业务对象属性的确定方法及设备,包括:从针对业务对象的评价文本中确定训练样本,其中,训练样本包含对所述业务对象真假属性的评估值;基于预设分类器支持的向量格式,为训练样本生成对应的预设分类器能够识别的第一特征向量;使用预设分类器,对第一特征向量,以及第一特征向量对应训练样本所包含的评估值进行训练,得到表征第一特征向量的各维度的特征词在确定业务对象真假属性时所占的权重;使用预设分类器,根据特征词以及权重,为针对业务对象的待分类评价文本进行分类,得到每个待分类评价文本对业务对象真假属性的评估值;基于得到的对所述业务对象真假属性的评估值,确定业务对象的真假属性。本发明实施例提供的业务对象属性的确定方法,以用户对业务对象的评价文本信息为依据,将包含有对业务对象真假属性评估值的评价文本作为训练样本,对训练样本进行解析处理得到预设分类器能够识别的第一特征向量,使用预设分类器对训练样本进行训练,得到表征第一特征向量的各维度的各特征词的权重值,使用预设分类器根据得到的权重值对待分类评价文本进行分类,得到待分类评价文本对业务对象真假属性的评估值,最后,基于训练样本和/或待分类评价文本对业务对象真假属性的评估值就能够确定出业务对象的真假属性。与现有技术方法一相比,不受成本因素制约,抽检范围大,不需要品牌方的协助。与现有技术方法二相比,基于用户对业务对象的评价信息确定业务对象的真假属性与基于业务对象的价格特征和/或卖家特征确定业务对象的真假属性相比,用户对业务对象的评价信息能够更加客观的反映业务对象的真假属性,并且本发明实施例中使用预设分类器先对训练对象进行训练再使用训练后的分类器对待分类评价文本进行分类,即使不包含真假属性评估值的待分类评价文本也能够客观地得到其表征的真假属性信息,得到的业务对象的真假属性更加准确。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明实施例可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本发明实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (22)

1.一种业务对象属性的确定方法,其特征在于,包括:
从针对业务对象的评价文本中确定训练样本,其中,所述训练样本包含对所述业务对象真假属性的评估值;
基于预设分类器支持的向量格式,为所述训练样本生成对应的所述预设分类器能够识别的第一特征向量;
使用所述预设分类器,对所述第一特征向量,以及所述第一特征向量对应训练样本所包含的评估值进行训练,得到表征所述第一特征向量的各维度的特征词在确定所述业务对象真假属性时所占的权重;
使用所述预设分类器,根据所述特征词以及所述权重,为针对所述业务对象的待分类评价文本进行分类,得到每个待分类评价文本对所述业务对象真假属性的评估值;
基于得到的对所述业务对象真假属性的评估值,确定所述业务对象的真假属性。
2.如权利要求1所述的方法,其特征在于,基于预设分类器支持的向量格式,为所述训练样本生成对应的所述预设分类器能够识别的第一特征向量,具体包括:
使用预设分词工具对训练样本进行分词处理;
针对每个完成分词处理的训练样本,对该训练样本进行特征提取,生成该训练样本对应的第一词组向量;
根据所述预设分类器支持的向量格式,为构成各第一词组向量的不同的第一词分量生成对应的特征词;
以生成的不同的特征词表征不同的维度,或者以生成的特征词与预设维度相叠加表征不同的维度,为各第一词组向量分别生成对应的第一特征向量。
3.如权利要求2所述的方法,其特征在于,以生成的不同的特征词表征不同的维度,或者以生成的特征词与预设维度相叠加表征不同的维度,为各第一词组向量分别生成对应的第一特征向量,具体包括:
使生成的不同的特征词表征第一特征向量的不同的维度,或者使生成的特征词与预设维度相叠加表征第一特征向量的不同的维度;
针对每个第一词组向量,基于该第一词组向量包含的各第一词分量在该第一词组向量对应的训练样本中分别出现的次数,确定为该第一词组向量生成的第一特征向量中各维度的值。
4.如权利要求3所述的方法,其特征在于,针对每个第一词组向量,基于该第一词组向量包含的各第一词分量在该第一词组向量对应的训练样本中分别出现的次数,确定为该第一词组向量生成的第一特征向量中各维度的值,具体包括:
针对为每个第一词组向量生成的第一特征向量的每个维度,当表征该维度的特征词在该第一词组向量中具有对应的第一词分量时,将该维度的值确定为第一预设固定值;
当表征该维度的特征词在该第一词组向量中不具有对应的第一词分量时,将该维度的值确定为第二预设固定值。
5.如权利要求3所述的方法,其特征在于,针对每个第一词组向量,基于该第一词组向量包含的各第一词分量在该第一词组向量对应的训练样本中分别出现的次数,确定为该第一词组向量生成的第一特征向量中各维度的值,具体包括:
针对每个第一词组向量,确定构成该第一词组向量的各第一词分量在该第一词组向量对应的训练样本中出现的词频;
针对为每个第一词组向量生成的第一特征向量的每个维度,将表征该维度的特征词对应的第一词分量在该第一词组向量对应的训练样本中出现的词频,确定为该维度的值。
6.如权利要求3所述的方法,其特征在于,针对每个第一词组向量,基于该第一词组向量包含的各第一词分量在该第一词组向量对应的训练样本中分别出现的次数,确定为该第一词组向量生成的第一特征向量中各维度的值,具体包括:
针对每个第一词组向量,确定构成该第一词组向量的各第一词分量在该第一词组向量对应的训练样本中出现的词频;以及
针对构成各第一词组向量的不同第一词分量,确定包含该第一词分量的第一词组向量的个数;
针对为每个第一词组向量生成的第一特征向量的每个维度,将表征该维度的特征词对应的第一词分量在该第一词组向量对应的训练样本中出现的词频与指定商的乘积,确定为该维度的值,
其中,所述指定商为基于第一词组向量的个数,与包含该第一词分量的第一词组向量的个数的商确定的。
7.如权利要求2所述的方法,其特征在于,在生成特征词之后,还包括:
基于预设特征选择标准,对所述特征词进行特征选择和特征修剪,得到符合所述预设特征选择标准的特征词;
以生成的不同的特征词表征不同的维度,或者以生成的特征词与预设维度相叠加表征不同的维度,为各第一词组向量分别生成对应的第一特征向量,具体包括:
以符合所述标准的特征词表征不同的维度,或者以符合所述标准的特征词与预设维度相叠加表征不同的维度,为各第一词组向量分别生成对应的第一特征向量。
8.如权利要求1-7任一项所述的方法,其特征在于,使用所述预设分类器,对所述第一特征向量,以及所述第一特征向量对应训练样本所包含的评估值进行训练,得到表征所述第一特征向量的各维度的特征词在确定所述业务对象真假属性时所占的权重,具体包括:
基于所述预设分类器支持的特征向量、各特征向量分别归属的类别、表征特征向量各维度的特征词对应的权重,构造所述预设分类器对应分类算法中的损失函数;
将所述训练样本对应的各第一特征向量的值,以及所述各第一特征向量对应训练样本所包含的评估值作为所述损失函数的输入,采用所述分类算法对所述损失函数进行运算处理,得到表征第一特征向量的各维度的特征词在确定所述业务对象真假属性时所占的权重的值。
9.如权利要求1-7任一项所述的方法,其特征在于,在使用所述预设分类器,根据所述特征词以及所述权重,为针对所述业务对象的待分类评价文本进行分类之前,还包括:
使用预设分词工具对待分类评价文本进行分词处理;
针对每个完成分词处理的待分类评价文本,对该待分类评价文本进行特征提取,生成该待分类评价文本对应的第二词组向量;
根据表征所述第一特征向量的各维度的特征词与构成各第一词组向量的不同的第一词分量之间的对应关系,将构成各所述第二词组向量的第二词分量与所述特征词进行匹配;并
根据得到的匹配结果,为各第二词组向量分别生成与所述第一特征向量具有相同维度的第二特征向量。
10.如权利要求9所述的方法,其特征在于,根据得到的匹配结果,为各所述第二词组向量分别生成与所述第一特征向量具有相同维度的第二特征向量,具体包括:
针对构成每个第二词组向量的各第二词分量,当该第二词分量匹配到特征词时,则将该第二词分量对应的预设值确定为该第二词分量所在第二词组向量对应第二特征向量中匹配到的特征词所在维度的值;
其中,所述预设值为预设固定值,或者为该第二词分量在所在第二词组向量对应待分类评价文本中的词频,或者为该第二词分量在所在第二词组向量对应待分类评价文本中的词频与预设商的乘积,其中,预设商为基于各第二词组向量的个数,与包含该第二词分量的第二词组向量的个数的商确定的;
当该第二词分量未匹配到特征词时,根据第二特征向量的维度,确定未匹配到特征词的第二词分量在第二特征向量中对应的维度。
11.如权利要求9所述的方法,其特征在于,使用所述预设分类器,根据所述特征词以及所述权重,为针对所述业务对象的待分类评价文本进行分类,得到每个待分类评价文本对所述业务对象真假属性的评估值,具体包括:
将各第二特征向量的值,以及所述特征词在确定所述业务对象真假属性时所占的权重的值作为所述损失函数的输入,采用预设分类器对应的分类算法对所述损失函数进行分类运算,得到所述第二特征向量对应的待分类评价文本表征的对所述业务对象的评估值。
12.一种业务对象属性的确定设备,其特征在于,包括:
样本确定模块,用于从针对业务对象的评价文本中确定训练样本,其中,所述训练样本包含对所述业务对象真假属性的评估值;
特征向量生成模块,用于基于预设分类器支持的向量格式,为所述样本确定模块确定的训练样本生成对应的所述预设分类器能够识别的第一特征向量;
训练模块,用于使用所述预设分类器,对所述第一特征向量,以及所述第一特征向量对应训练样本所包含的评估值进行训练,得到表征所述第一特征向量的各维度的特征词在确定所述业务对象真假属性时所占的权重;
分类模块,用于使用所述预设分类器,根据所述特征词以及所述权重,为针对所述业务对象的待分类评价文本进行分类,得到每个待分类评价文本对所述业务对象真假属性的评估值;
属性确定模块,用于基于所述分类模块得到的对所述业务对象真假属性的评估值,确定业务对象的真假属性。
13.如权利要求12所述的设备,其特征在于,所述特征向量生成模块,具体用于使用预设分词工具对训练样本进行分词处理;针对每个完成分词处理的训练样本,对该训练样本进行特征提取,生成该训练样本对应的第一词组向量;根据所述预设分类器支持的向量格式,为构成各第一词组向量的不同的第一词分量生成对应的特征词;以生成的不同的特征词表征不同的维度,或者以生成的特征词与预设维度相叠加表征不同的维度,为各第一词组向量分别生成对应的第一特征向量。
14.如权利要求13所述的设备,其特征在于,所述特征向量生成模块,具体用于使生成的不同的特征词表征第一特征向量的不同的维度,或者使生成的特征词与预设维度相叠加表征第一特征向量的不同的维度;针对每个第一词组向量,基于该第一词组向量包含的各第一词分量在该第一词组向量对应的训练样本中分别出现的次数,确定为该第一词组向量生成的第一特征向量中各维度的值。
15.如权利要求14所述的设备,其特征在于,所述特征向量生成模块具体用于针对为每个第一词组向量生成的第一特征向量的每个维度,当表征该维度的特征词在该第一词组向量中具有对应的第一词分量时,将该维度的值确定为第一预设固定值;当表征该维度的特征词在该第一词组向量中不具有对应的第一词分量时,将该维度的值确定为第二预设固定值。
16.如权利要求14所述的设备,其特征在于,所述特征向量生成模块,具体用于针对每个第一词组向量,确定构成该第一词组向量的各第一词分量在该第一词组向量对应的训练样本中出现的词频;针对为每个第一词组向量生成的第一特征向量的每个维度,将表征该维度的特征词对应的第一词分量在该第一词组向量对应的训练样本中出现的词频,确定为该维度的值。
17.如权利要求14所述的设备,其特征在于,所述特征向量生成模块,具体用于针对每个第一词组向量,确定构成该第一词组向量的各第一词分量在该第一词组向量对应的训练样本中出现的词频;以及针对构成各第一词组向量的不同第一词分量,确定包含该第一词分量的第一词组向量的个数;针对为每个第一词组向量生成的第一特征向量的每个维度,将表征该维度的特征词对应的第一词分量在该第一词组向量对应的训练样本中出现的词频与指定商的乘积,确定为该维度的值,其中,所述指定商为基于第一词组向量的个数,与包含该第一词分量的第一词组向量的个数的商确定的。
18.如权利要求13所述的设备,其特征在于,还包括:特征选择模块;
所述特征选择模块,用于在所述特征向量生成模块生成特征词之后,基于预设特征选择标准,对所述特征词进行特征选择和特征修剪,得到符合所述预设特征选择标准的特征词;
所述特征向量生成模块,具体用于以符合所述标准的特征词表征不同的维度,或者以符合所述标准的特征词与预设维度相叠加表征不同的维度,为各第一词组向量分别生成对应的第一特征向量。
19.如权利要求12-18任一项所述的设备,其特征在于,所述训练模块,具体用于基于所述预设分类器支持的特征向量、各特征向量分别归属的类别、表征特征向量各维度的特征词对应的权重,构造所述预设分类器对应分类算法中的损失函数;将所述训练样本对应的各第一特征向量的值,以及所述各第一特征向量对应训练样本所包含的评估值作为所述损失函数的输入,采用所述分类算法对所述损失函数进行运算处理,得到表征第一特征向量的各维度的特征词在确定所述业务对象真假属性时所占的权重的值。
20.如权利要求12-18任一项所述的设备,其特征在于,所述特征向量生成模块,还用于在所述分类模块为针对所述业务对象的待分类评价文本进行分类之前,使用预设分词工具对待分类评价文本进行分词处理;针对每个完成分词处理的待分类评价文本,对该待分类评价文本进行特征提取,生成该待分类评价文本对应的第二词组向量;根据表征所述第一特征向量的各维度的特征词与构成各第一词组向量的不同的第一词分量之间的对应关系,将构成各第二词组向量的第二词分量与所述特征词进行匹配;并根据得到的匹配结果,为各第二词组向量分别生成与所述第一特征向量具有相同维度的第二特征向量。
21.如权利要求20所述的设备,其特征在于,所述特征向量生成模块,具体用于针对构成每个第二词组向量的各第二词分量,当该第二词分量匹配到特征词时,则将该第二词分量对应的预设值确定为该第二词分量所在第二词组向量对应第二特征向量中匹配到的特征词所在维度的值;其中,所述预设值为预设固定值,或者为该第二词分量在所在第二词组向量对应待分类评价文本中的词频,或者为该第二词分量在所在第二词组向量对应待分类评价文本中的词频与预设商的乘积,其中,预设商为基于各第二词组向量的个数,与包含该第二词分量的第二词组向量的个数的商确定的;当该第二词分量未匹配到特征词时,根据第二特征向量的维度,确定未匹配到特征词的第二词分量在第二特征向量中对应的维度。
22.如权利要求20所述的设备,其特征在于,所述分类模块,具体用于将各第二特征向量的值,以及所述特征词在确定所述业务对象真假属性时所占的权重的值作为所述损失函数的输入,采用预设分类器对应的分类算法对所述损失函数进行分类运算,得到所述第二特征向量对应的待分类评价文本表征的对所述业务对象的评估值。
CN201510246531.3A 2015-05-14 2015-05-14 一种业务对象属性的确定方法及设备 Pending CN106294355A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510246531.3A CN106294355A (zh) 2015-05-14 2015-05-14 一种业务对象属性的确定方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510246531.3A CN106294355A (zh) 2015-05-14 2015-05-14 一种业务对象属性的确定方法及设备

Publications (1)

Publication Number Publication Date
CN106294355A true CN106294355A (zh) 2017-01-04

Family

ID=57631257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510246531.3A Pending CN106294355A (zh) 2015-05-14 2015-05-14 一种业务对象属性的确定方法及设备

Country Status (1)

Country Link
CN (1) CN106294355A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334888A (zh) * 2017-01-20 2018-07-27 微软技术许可有限责任公司 针对比特序列的压缩编码
CN109271460A (zh) * 2018-09-29 2019-01-25 阿里巴巴集团控股有限公司 对电子平台中的商户进行分类的方法和装置
CN109360052A (zh) * 2018-09-27 2019-02-19 北京亚联之星信息技术有限公司 一种基于机器学习算法的数据分类、数据处理方法及设备
CN110019808A (zh) * 2017-12-28 2019-07-16 北京京东尚科信息技术有限公司 一种预测信息属性的方法和装置
CN110264318A (zh) * 2019-06-26 2019-09-20 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及存储介质
CN110275956A (zh) * 2019-06-24 2019-09-24 成都数之联科技有限公司 一种人员识别方法及系统
WO2019179010A1 (zh) * 2018-03-22 2019-09-26 平安科技(深圳)有限公司 数据集获取方法、分类方法、装置、设备及存储介质
CN110555105A (zh) * 2018-03-26 2019-12-10 北京京东尚科信息技术有限公司 对象处理方法及系统、计算机系统及计算机可读存储介质
WO2020034880A1 (zh) * 2018-08-17 2020-02-20 菜鸟智能物流控股有限公司 物流对象信息处理方法、装置及计算机系统
WO2020052480A1 (zh) * 2018-09-12 2020-03-19 北京三快在线科技有限公司 无人驾驶行为决策及模型训练
CN114625873A (zh) * 2022-03-02 2022-06-14 四川大学 一种安全合规驱动的数据分类方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308457A (zh) * 2008-06-20 2008-11-19 北京大学 用户反馈可靠性保障方法
CN101833560A (zh) * 2010-02-02 2010-09-15 哈尔滨工业大学 基于互联网的厂商口碑自动排序系统
CN102682130A (zh) * 2012-05-17 2012-09-19 苏州大学 一种文本情感分类方法及系统
CN102708164A (zh) * 2012-04-26 2012-10-03 苏州大学 电影期望值的计算方法及系统
CN103020167A (zh) * 2012-11-26 2013-04-03 南京大学 一种计算机中文文本分类方法
CN103207913A (zh) * 2013-04-15 2013-07-17 武汉理工大学 商品细粒度语义关系的获取方法和系统
CN103365867A (zh) * 2012-03-29 2013-10-23 腾讯科技(深圳)有限公司 一种对用户评价进行情感分析的方法和装置
CN103577988A (zh) * 2012-07-24 2014-02-12 阿里巴巴集团控股有限公司 一种识别特定用户的方法和装置
CN103679462A (zh) * 2012-08-31 2014-03-26 阿里巴巴集团控股有限公司 一种评论数据处理方法和装置、一种搜索方法和系统
CN103984673A (zh) * 2013-02-11 2014-08-13 谷歌股份有限公司 与应用程序商店有关的欺骗性评级/评论的自动检测
US8885712B1 (en) * 2008-07-10 2014-11-11 Marvell International Ltd. Image frame management

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308457A (zh) * 2008-06-20 2008-11-19 北京大学 用户反馈可靠性保障方法
US8885712B1 (en) * 2008-07-10 2014-11-11 Marvell International Ltd. Image frame management
CN101833560A (zh) * 2010-02-02 2010-09-15 哈尔滨工业大学 基于互联网的厂商口碑自动排序系统
CN103365867A (zh) * 2012-03-29 2013-10-23 腾讯科技(深圳)有限公司 一种对用户评价进行情感分析的方法和装置
CN102708164A (zh) * 2012-04-26 2012-10-03 苏州大学 电影期望值的计算方法及系统
CN102682130A (zh) * 2012-05-17 2012-09-19 苏州大学 一种文本情感分类方法及系统
CN103577988A (zh) * 2012-07-24 2014-02-12 阿里巴巴集团控股有限公司 一种识别特定用户的方法和装置
CN103679462A (zh) * 2012-08-31 2014-03-26 阿里巴巴集团控股有限公司 一种评论数据处理方法和装置、一种搜索方法和系统
CN103020167A (zh) * 2012-11-26 2013-04-03 南京大学 一种计算机中文文本分类方法
CN103984673A (zh) * 2013-02-11 2014-08-13 谷歌股份有限公司 与应用程序商店有关的欺骗性评级/评论的自动检测
CN103207913A (zh) * 2013-04-15 2013-07-17 武汉理工大学 商品细粒度语义关系的获取方法和系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334888B (zh) * 2017-01-20 2022-03-11 微软技术许可有限责任公司 针对比特序列的压缩编码
CN108334888A (zh) * 2017-01-20 2018-07-27 微软技术许可有限责任公司 针对比特序列的压缩编码
CN110019808A (zh) * 2017-12-28 2019-07-16 北京京东尚科信息技术有限公司 一种预测信息属性的方法和装置
WO2019179010A1 (zh) * 2018-03-22 2019-09-26 平安科技(深圳)有限公司 数据集获取方法、分类方法、装置、设备及存储介质
CN110555105A (zh) * 2018-03-26 2019-12-10 北京京东尚科信息技术有限公司 对象处理方法及系统、计算机系统及计算机可读存储介质
WO2020034880A1 (zh) * 2018-08-17 2020-02-20 菜鸟智能物流控股有限公司 物流对象信息处理方法、装置及计算机系统
WO2020052480A1 (zh) * 2018-09-12 2020-03-19 北京三快在线科技有限公司 无人驾驶行为决策及模型训练
US11983245B2 (en) 2018-09-12 2024-05-14 Beijing Sankuai Online Technology Co., Ltd Unmanned driving behavior decision-making and model training
CN109360052A (zh) * 2018-09-27 2019-02-19 北京亚联之星信息技术有限公司 一种基于机器学习算法的数据分类、数据处理方法及设备
CN109271460A (zh) * 2018-09-29 2019-01-25 阿里巴巴集团控股有限公司 对电子平台中的商户进行分类的方法和装置
CN110275956A (zh) * 2019-06-24 2019-09-24 成都数之联科技有限公司 一种人员识别方法及系统
CN110264318A (zh) * 2019-06-26 2019-09-20 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及存储介质
CN114625873A (zh) * 2022-03-02 2022-06-14 四川大学 一种安全合规驱动的数据分类方法

Similar Documents

Publication Publication Date Title
CN106294355A (zh) 一种业务对象属性的确定方法及设备
CN108595696A (zh) 一种基于云平台的人机交互智能问答方法和系统
Kocoń et al. Learning personal human biases and representations for subjective tasks in natural language processing
Pinto et al. Real time sentiment analysis of political twitter data using machine learning approach
CN112579794B (zh) 一种为中英文单词对预测义原树的方法及系统
Nguyen et al. An ensemble of shallow and deep learning algorithms for Vietnamese sentiment analysis
Rani et al. Study and comparision of vectorization techniques used in text classification
Biswas et al. Sentiment analysis on user reaction for online food delivery services using bert model
Sayeed et al. BERT: A Review of Applications in Sentiment Analysis
Anees et al. Performance analysis of multiple classifiers using different term weighting schemes for sentiment analysis
CN116956068A (zh) 基于规则引擎的意图识别方法、装置、电子设备及介质
Abdullah et al. Text mining based sentiment analysis using a novel deep learning approach
CN116757773A (zh) 服装电子商务销售管理系统及其方法
Jabin et al. Comparison of different sentiment analysis techniques for bangla reviews
Rajat et al. A sentiment analysis of amazon review data using machine learning model
Sindhu et al. Sentiment analysis and opinion summarization of product feedback
Jayashree et al. Sentimental analysis on voice based reviews using fuzzy logic
Qian et al. Satiindicator: Leveraging user reviews to evaluate user satisfaction of sourceforge projects
Kafi et al. Feature-based mobile phone rating using sentiment analysis and machine learning approaches
Salim et al. Emotion classification through product consumer reviews
Zhu et al. A Performance Comparison of Fake News Detection Approaches
Soleman et al. Naïve Bayes Classifier and Word2Vec for Sentiment Analysis of Aspect Based on Indonesian Restaurant Review
Sindhu et al. Mapping Distinct Source and Target Domains on Amazon Product Customer Critiques with Cross Domain Sentiment Analysis
Mir et al. Sentimental Analysis of a Sentence
Papageorgiou et al. A method for optimizing text preprocessing and text classification using multiple cycles of learning with an application on shipbrokers emails

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170104

RJ01 Rejection of invention patent application after publication