CN110929021A - 文本信息生成方法和文本信息生成装置 - Google Patents
文本信息生成方法和文本信息生成装置 Download PDFInfo
- Publication number
- CN110929021A CN110929021A CN201811015508.3A CN201811015508A CN110929021A CN 110929021 A CN110929021 A CN 110929021A CN 201811015508 A CN201811015508 A CN 201811015508A CN 110929021 A CN110929021 A CN 110929021A
- Authority
- CN
- China
- Prior art keywords
- information
- commodity
- user
- attribute
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 102
- 238000012545 processing Methods 0.000 claims abstract description 73
- 238000010801 machine learning Methods 0.000 claims abstract description 68
- 230000011218 segmentation Effects 0.000 claims abstract description 36
- 239000013598 vector Substances 0.000 claims description 41
- 230000006399 behavior Effects 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 40
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000012552 review Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000008451 emotion Effects 0.000 description 7
- 239000004744 fabric Substances 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 5
- 230000002996 emotional effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000004075 alteration Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 229920004933 Terylene® Polymers 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010438 heat treatment Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 239000005020 polyethylene terephthalate Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000000919 ceramic Substances 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0282—Rating or review of business operators or products
Abstract
本申请公开了一种文本信息生成方法和文本信息生成装置。该文本信息生成方法包括:获取用户偏好信息和商品关联信息,所述商品关联信息包括商品的评论信息和/或描述信息;对所述商品关联信息分别进行分词处理和结构化处理;将所述用户偏好信息、分词处理后的商品关联信息和结构化处理后的商品关联信息输入机器学习模型,利用机器学习模型生成针对所述商品的文本信息。本发明实施例提出一种根据用户偏好信息生成针对商品的文本信息的方法和装置,能够生成符合用户偏好的文本信息,所生成的文本是按照用户偏好的维度有针对地对商品进行介绍,同时流利通顺。提高了用户根据文本信息获得商品相关信息的效率。
Description
技术领域
本申请涉及计算机处理领域,特别是涉及一种文本信息生成方法和文本信息生成装置。
背景技术
目前市场上的评论文本信息产品都是标签化的,通过分析大量评论中的评论维度和情感倾向,展示给用户通用的统计结果。但是这种通用的统计方式不能满足消费者的个性化展示需求。
现有的摘要生成方案主要包括下述几种:
1评论标签。通过分析大量评论中的评论维度和情感倾向,展示给用户通用的统计结果。缺点是不能根据消费者的偏好进行个性化展示,而且标签表达能力弱。
2抽取式摘要。常用于新闻领域,通过抽取篇章中的观点句,组合而成的摘要。抽取式摘要的缺点是不通顺连贯,同时也没有针对用户做个性化。
3模板式评论摘要。通过对评论进行结构化分析,获取其中的评论维度和情感倾向,根据行业特点以(属性,情感)序列为核心,最终以一段通顺的评论来展示。缺点是生成的摘要包含了行业的常用维度,数量繁多,不便浏览,即使截断,有可能会失去用户关注点的数据。总结起来就是没有个性化展示,用户浏览效率低。
评论标签是基于大量数据统计得到的通用标签,没有个性化;抽取式摘要从原文中抽取了重点语句,这种方式对文本的前后逻辑和连贯程度都没法保证;模板式评论摘要与本方案最相似,但是没有对展示的评论维度做个性化,用户浏览效率低。
发明内容
鉴于上述问题,本发明一实施例提出一种文本信息生成方法和文本信息生成装置,以解决现有技术存在的问题。
为了解决上述问题,本申请一实施例公开一种文本信息生成方法,包括:
依据用户偏好信息从商品的多个属性特征中选择至少一个属性特征;
从商品关联信息中获取与所选择的属性特征对应的特征信息。
利用所述属性特征和特征信息,通过机器学习模型生成针对所述商品的文本信息。
为了解决上述问题,本申请一实施例公开一种文本信息显示方法,包括:
将用户标识和当前商品对应的商品关联信息发送至服务端;
接收服务端发送的文本信息;
显示所述文本信息;
其中,所述文本信息是所述服务端利用所述用户标识对应的、针对当前商品信息的用户偏好信息、分词处理后的商品关联信息和结构化处理后的商品关联信息,基于机器学习模型生成的针对所述当前商品的文本信息。
为了解决上述问题,本申请一实施例公开一种文本信息生成方法,包括:
依据用户偏好信息从商品的多个属性特征中选择至少一个属性特征;
从商品关联信息中获取与所选择的属性特征对应的特征信息;
利用所述属性特征和特征信息,通过机器学习模型生成针对所述商品的文本信息。
为了解决上述问题,本申请一实施例公开一种文本信息生成装置,包括:
属性特征获取模块,用于依据用户偏好信息从商品的多个属性特征中选择至少一个属性特征;
特征信息提取模块,用于从商品关联信息中获取与所选择的属性特征对应的特征信息。
文本信息生成模块,用于利用所述属性特征和特征信息,通过机器学习模型生成针对所述商品的文本信息。
为了解决上述问题,本申请一实施例公开一种文本信息显示装置,包括:
发送模块,用于将用户标识和当前商品对应的商品关联信息发送至服务端;
接收模块,用于接收服务端发送的文本信息;
显示模块,用于显示所述文本信息;
其中,所述文本信息是所述服务端利用所述用户标识对应的、针对当前商品信息的用户偏好信息、分词处理后的商品关联信息和结构化处理后的商品关联信息,基于机器学习模型生成的针对所述当前商品的文本信息。
为了解决上述问题,本申请一实施例公开一种文本信息生成装置,包括:
属性特征获取模块,用于依据用户偏好信息从商品的多个属性特征中选择至少一个属性特征;
特征信息提取模块,用于从商品关联信息中获取与所选择的属性特征对应的特征信息;
文本信息生成模块,用于利用所述属性特征和特征信息,通过机器学习模型生成针对所述商品的文本信息。
本申请一实施例还公开一种终端设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述终端设备执行上述的方法。
本申请一实施例还公开一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得终端设备执行上述的方法。
由上述可知,本申请实施例包括以下优点:
本发明实施例提出一种根据用户偏好信息生成针对商品的文本信息的方法,能够生成符合用户偏好的文本信息,所生成的文本是按照用户偏好的维度有针对地对商品进行介绍,同时流利通顺。提高了用户根据文本信息获得商品相关信息的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1所示为本申请一实施例的核心构思的示意图。
图2是本申请第一实施例的文本信息生成方法的流程图。
图3是本申请第二实施例的文本信息生成方法的流程图。
图4是本申请第三实施例的文本信息生成方法的流程图。
图5是本申请第四实施例的文本信息生成方法的流程图。
图6所示为步骤S206包括的子步骤的示意图。
图7是本申请第五实施例的文本信息生成装置的方框图。
图8是本申请第六实施例的文本信息生成装置的方框图。
图9是本申请第七实施例的文本信息生成装置的方框图。
图10是本申请第八实施例的文本信息生成装置的方框图。
图11示意性地示出了用于执行根据本发明的方法的终端设备的框图;以及
图12示意性地示出了用于保持或者携带实现根据本发明的方法的程序代码的存储单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
图1所示为本申请一实施例的核心构思的示意图。如图1所示,本发明的核心构思之一,在于提出一种文本信息生成方法和装置,通过获取用户对某一类商品或者某一个商品的用户偏好信息和商品关联信息,从用户偏好信息中确定用户偏好的维度,利用商品关联信息(例如商品评论信息和描述信息至少其中之一),通过机器学习模型生成文本信息,供用户查看。如此一来所生成的文本信息中即包含了用户所偏好的各个特征,从而能对用户迅速了解该产品提供了帮助。
第一实施例
本发明第一实施例提出一种文本信息生成方法,该方法例如可以在服务器端执行。如图2所示,该方法包括如下步骤:
S1001,获取用户偏好信息和商品关联信息,所述商品关联信息包括商品的评论信息和/或描述信息;
在这一步骤中,服务器可以获取多种信息,用于生成文本信息。
用户偏好信息可以从用户特征集合中获取。用户特征集合可以为用户画像。用户画像可以根据用户的历史行为和当前线上输入的内容构建。
用户画像可以是根据淘宝用户的人口统计学信息和历史行为计算的用户偏好,主要包含了性别、年龄、购买力、属性偏好等。
对本方案最重要的用户画像信息是属性偏好,例如手机行业有3种属性,可以用一个向量表示为[外观,拍照功能,电池],用户A在于手机产品上的用户画像为[0.8,0.6,0.1],则表示该用户更关注外观,拍照功能,对电池不是特别在意。
现有技术提出了多种方法来构造用户画像,本领域技术人员可以明确获知构造用户画像的多种方式,在此不再赘述。
根据所构造的用户画像可以知道用户对评论维度的偏好,确定用户偏好信息。
针对某一商品类型或者具体的某个商品,可以选取用户的关注度排序为前若干个维度,生成用户偏好信息。例如,手机产品的属性可以用一个向量表示为[外观,拍照功能,电池],用户A在于手机产品上的用户画像为[0.8,0.6,0.1],那么,针对手机这一商品,用户A对外观和拍照功能的关注,远大于对电池的关注,则认为用户A的偏好信息为外观和拍照功能。
在一实施例中,用户偏好信息可以通过查表的方式获得,例如,预存每个用户的用户画像信息,在预存的用户画像信息中获取针对指定商品用户偏好的特征维度。另一种替代方案是通过离线+在线的方式实时更新用户特征集合,例如从用户行为轨迹中获知,用户搜索了某个关键词,例如“拍照手机”,通过搜索意图分析,就可以知道用户当前更关注手机的拍照功能,在构建的用户偏好信息中,可以通过算法把用户在拍照的维度权重增加。在线获取实时行为和更新模型的方式多种多样,可以行成多种替代方案,在此不再赘述。
所述商品关联信息包括商品的评论信息和/或描述信息,针对该商品的评论信息和描述信息可以从商品当前的链接中获得,也可以从交易平台中获取多个相同的商品的,从链接中获取商品的评论信息和/或描述信息。针对某一商品,评论信息和描述信息可以是大量的,商品的评论信息和描述信息可以提现出商品的属性特征,可以从这些评论信息或者描述信息中筛选出得分比较高的属性信息,作为商品的属性特征,将商品的属性特征输入步骤S1003中的机器学习模型,从而生成针对一段针对该商品的文本信息,该文本信息既体现了商品特征,又符合用户偏好,用于帮助用户快速了解商品信息。
S1002,对所述商品关联信息分别进行分词处理和结构化处理;
对商品关联信息的处理包括分词处理和结构化处理两部分,对于原始的商品关联信息,利用分词的方式,生成分词后的商品关联信息,再利用该原始的商品关联信息,利用结构化的方式,生成结构化后的商品关联信息。
针对分词处理,可以利用现有的多种方法对商品关联信息进行分词,并且,可以采用word2vec等词向量模型来将各个词转化为词向量。由分词获得的每一个词的词向量所组成的词向量序列均可以作为步骤S1003中的机器学习模型的输入,用以生成针对该商品的文本信息。
针对结构化处理,根据交易平台积累的行业词典、行业模型资源,通过多种算法模块将信息进行结构化,获得以属性和属性词为核心的多元组序列,例如[属性,属性词,开始位置,结束位置];上述开始位置用于标记属性和属性词至少其中之一的位置信息。在一些实施例中还可以包括情感词,情感极性等序列,在此不再赘述。属性和属性词用于与用户偏好信息,调整机器学习模型中各单元的权重。
S1003,将所述用户偏好信息、分词处理后的商品关联信息和结构化处理后的商品关联信息输入机器学习模型,利用机器学习模型生成针对所述商品的文本信息。
其中所述机器学习模型包括多个模型单元和对应的多个权重;所述多个单元来源于所述分词处理后的商品关联信息的多个字词单元,所述用户偏好信息和所述结构化处理后的商品关联信息用于修改所述多个权重。
在本发明一实施例中,所述结构化处理的商品关联信息包括商品的属性和属性值,所述机器学习模型为序列到序列模型,所述序列到序列模型包括注意力向量,所述注意力向量包括与所述用户偏好向量和所述商品的属性及属性值对应的多个维度。
在本发明一实施例中,所述方法还包括如下训练机器学习模型的步骤:
S1000,基于多个商品的历史数据训练所述机器学习模型
在这一步骤中,首先获取历史数据,根据历史数据生成训练样本。历史数据包括:用户偏好信息;分别经过分词处理和结构化处理的商品关联信息;生成的文本信息。由前述的用户画像可以确定用户针对某商品的用户偏好信息,从商品的链接中可以提取出商品关联信息(评论信息和/或描述信息),并对商品关联信息进行分词处理和结构化处理。生成的文本信息可以是商品的现有评论中符合上述用户偏好信息的评论,优选地,可以选择商品的现有评论中符合用户偏好且点赞数量较高的评论作为生成的文本信息。将获取到的用户偏好信息、经过分词处理和结构化处理的商品关联信息、生成的文本信息作为训练样本,训练机器学习模型。在一个实施例中,机器学习模型可以是“基于注意力机制的序列到序列模型”。
在基于注意力机制的序列到序列模型中,注意力向量用于提升模型中被标记的元素的权重。在本发明实施例中,注意力向量用于提升多个用户偏好的评论维度的权重,使得用户偏好的评论维度的权重增加。
例如用户偏好的评论维度显示用户对“质感”和“手感”这两个属性特征比较偏重,则可以利用注意力向量对这两个内容进行标记,在利用历史数据训练机器学习模型时,机器学习模型的“质感”和“手感”这两个属性特征及对应的“质感好”、“手感差”等用于描述该属性特征的特征信息的权重会增加。
机器学习模型从用户画像中提取用户偏好信息,用户画像例如包括针对不同商品或者商品种类的维度信息,这些信息均包括在一个向量中,例如[外观,拍照功能,电池,质感,面料,剪裁……]对应的偏好数据:[0.8,0.6,0.1,0.7,0.5,0.1……];
在根据商品信息从用户画像中确定用户感兴趣的用户偏好信息之后,该用户偏好信息可以用于生成机器学习模型的注意力向量,增加用户偏好的特征的权重。例如,针对衣服品类,用户偏好信息包括[质感,面料,剪裁]这三个维度,这些维度和对应的偏好数据[0.7,0.5,0.1]可以作为训练样本的一部分,输入机器学习模型。
分词处理后的商品关联信息作为语料输入机器学习模型,分词后的每一个字词单元对应于机器学习模型的一个节点,用于生成文本信息。每一个节点对应的权重作为机器学习模型训练的对象,其可以由大量的样本训练获得。在这一过程中,注意力向量用于增加部分节点的权重。注意力向量是一个维护词表中的多个词组成的向量,维护词表对应于上述的部分节点。
结构化处理后的商品描述信息和评论信息是利用前述的结构化方式,获得的四元组序列,四元组序列中包含属性和属性词(例如面料-涤纶”、“屏幕-5.7寸”等属性值对),还可以包括属性和属性词的位置,例如属性、属性词在商品的描述信息或评论信息中的开始和结束位置。结构化处理可以通过位置信息帮助机器学习模型把属性和属性词从原文中提取出来,提取后属性/属性词可以作为注意力机制维护的词表中的词。
利用上述基于注意力的序列到序列模型,可以充分考虑用户偏好于评论/商品描述文本中属性维度的关系,达到个性化的目的。
在本发明一实施例中,所述结构化处理后的商品关联信息包括:
商品关联信息对应的属性、属性值、开始位置、结束位置,所述开始位置和结束位置用于确定商品关联信息中的属性和/或属性值的位置。
在本发明一实施例中,步骤S1001中获取用户偏好信息的步骤包括:
S1001a,获取商品信息和用户特征集合;
S1001b,基于所述商品信息,从所述用户特征集合中提取用户偏好信息。
在上述步骤中,可以获取用户端当前浏览的商品的商品信息,以及用户特征集合。用户特征集合例如为用户画像,用户画像中可以包括多个画像维度,这些维度例如是用户偏好信息。具体地,这些维度可以包括用户对多种不同的商品或类别的用户偏好信息。
在本发明一实施例中,所述方法还可以包括将生成的文本信息发送至客户端的步骤:
S1004,将所述生成的文本信息发送至客户端显示。
在这一步骤中,客户端可以将获取的机器学习模型进行显示,供用户对当前浏览的商品信息进行有侧重的了解。
在本发明一实施例中,所述用户偏好信息包括用户历史偏好信息和利用用户的实时行为确定的用户当前偏好信息至少其中一者。所述用户历史偏好信息可以是根据用户信息和/或历史行为确定的。
由上述可知,本发明第一实施例提出的文本信息生成方法至少具有如下技术效果:
本发明实施例提出一种根据用户偏好信息生成针对商品的文本信息的方法,能够生成符合用户偏好的文本信息,所生成的文本信息按照用户偏好的信息维度有针对地对商品进行介绍,提高了用户根据文本信息获得商品相关信息的效率。
第二实施例
本发明第二实施例提出一种文本信息显示方法,应用于客户端。如图3所示为该实施例的流程图。该方法可以包括如下步骤:
S2001,将用户标识和当前商品信息发送至服务端;
在这一步骤中,客户端在浏览交易平台的某一商品时,客户端会将用户ID等用户标识,以及当前浏览的商品信息发送至服务器。在一个实施例中,客户端仅将用户标识和当前浏览的商品链接发送至服务器,由服务器根据商品链接来获取商品信息。服务器可以提取当前的商品对应的商品关联信息,包括评论信息和描述信息,对商品关联信息进行分词和结构化处理。
S2002,接收服务端发送的文本信息;
在这一步骤中,服务器将机器学习模型生成的文本信息发送至客户端。
其中,所述文本信息是所述服务端利用所述用户标识对应的针对当前商品信息的用户偏好信息、分词处理后的当前商品的商品关联信息和结构化处理后的当前商品的商品关联信息,基于机器学习模型生成的针对所述当前商品的文本信息。
S2003,显示所述文本信息;
在这一步骤中,客户端可以将获取的文本信息进行显示,供用户对当前浏览的商品信息进行有侧重的了解。
由上述可知,本发明第二实施例提出的文本信息生成方法至少具有如下技术效果:
本发明实施例提出一种文本信息显示方法,所生成的文本信息按照用户偏好的信息维度有针对地对商品进行介绍,提高了用户根据文本信息获得商品相关信息的效率。
第三实施例
本发明第三实施例提出一种文本信息生成方法。图4所示为本发明第三实施例的文本信息生成方法的步骤流程图。如图4所示,本发明实施例的文本信息生成方法包括如下步骤:
S101,依据用户偏好信息从商品的多个属性特征中选择至少一个属性特征;
在这一步骤中,可以根据用户的历史行为和当前线上输入的内容构建用户画像。
用户画像可以是根据淘宝用户的人口统计学信息和历史行为计算的用户偏好,主要包含了性别、年龄、购买力、属性偏好等。
用户偏好信息是用户画像信息中较为重要的信息,例如手机行业有3种属性,可以用一个向量表示为[外观,拍照功能,电池],用户A在于手机产品上的用户画像为[0.8,0.6,0.1],则表示该用户更关注外观,拍照功能,对电池不是特别在意。
现有技术提出了多种方法来构造用户画像,本领域技术人员可以明确获知构造用户画像的多种方式,在此不再赘述。
根据所构造的用户画像可以知道用户对评论维度的偏好,确定用户偏好信息。
针对某一商品类型或者具体的某个商品,可以选取用户的关注度排序为前若干个维度,生成用户偏好信息。例如针对手机,前述的用户对外观和拍照功能的关注,远大于对电池的关注,则认为该用户偏好信息为外观和拍照功能。
S102,从商品关联信息中获取与所选择的属性特征对应的特征信息。
在这一步骤中,商品关联信息例如可以包括该商品评论和商品描述。针对该商品评论可以从商品当前的链接中获得,也可以从交易平台中获取多个相同的商品的链接,根据每一个链接中的商品信息获得该商品的属性特征对应的特征信息。
例如,步骤S101中的商品为手机,所选择的属性特征包括外观和拍照功能;在这一步骤中,可以根据外观和拍照功能这两个属性特征,从该商品评论和商品描述中获得对应的特征信息。
例如,针对用户搜索的某一款手机,商品评论中具有针对外观和拍照功能的评价——外观很好看、拍照功能强大,商品描述中有针对拍照、镜头等参数的描述——徕卡镜头,1200万像素,在这一步骤中可以获得相应的评论和描述内容,对应到上述的属性特征中,例如:外观(属性):很好看(属性词)。拍照功能(属性):强大(属性词)。拍照功能(属性):徕卡镜头(属性词),1200万像素(属性词)。
在一可选实施例中,可以对商品评论和商品描述进行结构化。根据交易平台积累的行业词典、行业模型资源,通过多种算法模块将评论进行结构化,获得以属性词为核心的多元组序列,例如[属性,属性词,开始位置,结束位置];在一些实施例中还可以包括情感词,情感极性等序列,在此不再赘述。
这里的属性可以理解为评论维度,可能是通用的,例如物流、服务,也可能是跟行业相关的,例如服装行业中的上身效果、材质面料等。情感极性代表用户对该评论维度的褒贬情感。例如,如果某一条商品评论是“摸起来质感好”在这一条评论中,“摸起来”对应属性词,“质感”对应属性,“好”对应属性词。针对每一条评论,都可以结构化为多元组序列,以下介绍一种实现结构化的方法。
在一种实现方案中,针对一个给定的内容,可以用序列标注模型分析并输出结构化的结果。序列标注模型可以如下网站介绍的内容:
https://en.wikipedia.org/wiki/Sequence_labeling
例如当服务器接收到一个评论内容:
“收到手机啦,外观漂亮,屏幕尺寸也大,不过耗电有点快,总体来说还不错。”对应的结构化结果是:“收到[手机:产品词]啦,[外观:属性][漂亮:属性词],[屏幕尺寸:属性]也[大:属性词],不过[耗电:属性][有点快:属性词],总体来说[还不错:情感词]。”
具体的方法可以是,首先,对商品评论构建一个二元分类器(分类算法不局限),用来判断是否需要对商品评论进行结构化;其次,产出词表。对商品评论分词,基于word2vec等表示学习算法,将词映射成词向量,然后采用kmeans等聚类算法将属于同一种类别的词聚成簇。之后,基于交易平台的类目体系结构(cpv表)和聚类簇,选出一批训练语料,训练一个基于CRF的序列标注模型(不局限CRF模型),然后对需要结构化的内容进行预测,输出结构化的结果。
在评论结构化之后,可以对商品信息进行结构化,商品信息中很多内容都是已经完成了结构化的,例如商品的品牌、尺寸、面料等属性特征均在制作商品链接的阶段由商家完成了结构化,但也有商品相关的部分内容并未进行结构化。对于一些没有进行结构化的内容,可以利用上述相同或者相似的方法进行结构化,生成的结构化模型可以包括上述多个属性特征和特征信息,还可以包括该商品特有的其他属性特征和特征信息。
在这一步骤中,已经获知了用户偏好的属性特征,就可以从已经结构化的文本中,提取用户偏好的属性特征所对应的内容,例如用户偏好的属性特征,外观和拍照功能。可以从商品描述中提取对应的内容,例如评论a中描述的“拍照功能强大,外观精美”;评论b中描述的,“拍照功能不足,外观尚可”,评论c中描述的“拍照功能一般,外观漂亮”。执行主体例如服务器等可以将这些信息进行归因,并且进行打分。
例如,针对拍照功能这一属性特征进行打分时,评论中如有描述到拍照功能为正向描述,则加一分;拍照功能为负向描述则减一分,拍照功能为中立的描述则不打分。利用针对属性特征的打分模式,或者其他各种各样的衡量模式,可以分析、汇总、确定各个属性特征对应的特征信息。例如经过综合评判,前述例子中用户偏好的属性特征对应的特征信息分别是:“拍照功能强大,外观精美”。
在步骤S102之后可以执行步骤S103,如下:
S103,利用所述属性特征和特征信息,通过机器学习模型生成针对所述商品的文本信息。
在这一步骤中,可以利用上述的属性特征和特征信息生成文本信息文本。例如,可以将上述的多个属性特征和特征信息进行整理,按照用户偏好由高到低的顺序整合成为文本信息文本。
例如,可以通过一个流利度模型生成一段流利通顺的文本,利用流利度模型主要的目的是为现有的片段式的属性特征和特征信息增加语气词、连接词等,在此不再在赘述。
根据本发明第三实施例提出的方法,例如,当前用户A、B都在浏览某款手机,用户A更在意外观、拍照,用户B更在意性价比、流畅度,给用户A,B展示的评论文本信息分别是:A:手机不错,全陶瓷,手感外观真的很喜欢,屏幕是完美屏,无亮点。就是拍摄中噪点严重。物流比较快!B:很流畅,内存大的就是方便,性能强劲,价格很良心,快递也超级快。
由上述可知,本发明第三实施例提出的文本信息生成方法至少具有如下技术效果:
本发明实施例提出一种根据用户偏好信息生成针对商品的文本信息的方法,能够生成符合用户偏好的文本信息,所生成的文本是按照用户偏好的维度有针对地对商品进行介绍,同时流利通顺。提高了用户根据文本信息获得商品相关信息的效率。
第四实施例
本发明第四实施例提出一种文本信息生成方法。图5所示为本发明第四实施例的文本信息生成方法的步骤流程图。如图5所示,本发明实施例的文本信息生成方法如下步骤:
S205,依据用户偏好信息从商品的多个属性特征中选择至少一个属性特征;
S206,从商品关联信息中获取与所选择的属性特征对应的特征信息。
S207,利用所述属性特征和特征信息,通过机器学习模型生成针对所述商品的文本信息。
上述步骤S205至步骤S207与上一实施例的步骤S101至步骤S103相同或相似,在此不再赘述。本实施例重点说明与上一实施例的不同之处。
在本发明一实施例中,本发明提出的方法还可以包括如下步骤:
S201,获取历史数据,所述历史数据包括商品的历史关联信息和历史评论文本;
在这一步骤中,可以获取针对某个商品的历史关联信息和历史评论文本。该历史关联信息例如可以包括商品描述和商品评论。历史评论文本可以包括用户撰写的摘要。例如,针对某款手机,评论里点赞数较高的评论包括“音质好”和“屏幕大”等评价;商品描述中针对屏幕的描述为“比市面上手机的屏幕大5%”“电池容量高10%”等内容。用户撰写的摘要可能包括“这个手机效果很好,屏幕大,音质清晰”等内容。在后续步骤,可以将历史关联信息和历史评论文本作为样本数据训练机器学习模型。
S202,利用所述历史数据训练机器学习模型。
在这一步骤中,首先根据构建的用户画像和结构化的商品关联信息(评论信息和/或描述信息)可以获得用户偏好的评论维度。由于前述的用户画像中可以确定用户针对某商品或者某种类商品的用户偏好信息。可以利用偏好信息和商品关联信息生成注意力向量,利用历史数据训练“基于注意力机制的序列到序列模型”。
在基于注意力机制的序列到序列模型中,注意力向量用于提升模型中被标记的元素的权重。在本发明实施例中,注意力向量用于提升多个用户偏好的评论维度的权重,使得用户偏好的评论维度的权重增加。
例如用户偏好的评论维度显示用户对“质感”和“手感”这两个属性特征比较偏重,则可以利用注意力向量对这两个内容进行标记,在利用历史数据训练机器学习模型时,机器学习模型的“质感”和“手感”这两个属性特征及对应的“质感好”、“手感差”等用于描述该属性特征的特征信息的权重会增加。
在训练机器学习模型时,历史数据可以包括如下方面:
1,基于商品信息,从用户画像中提取的用户偏好信息;
2,分词处理后的商品关联信息;
3,结构化处理后的商品关联信息。
机器学习模型从用户画像中提取用户偏好信息,用户画像例如包括针对不同商品或者商品种类的维度信息,这些信息均包括在一个向量中,例如[外观,拍照功能,电池,质感,面料,剪裁……]对应的偏好数据:[0.8,0.6,0.1,0.7,0.5,0.1……];
在根据商品信息从用户画像中确定用户感兴趣的用户偏好信息之后,该用户偏好信息可以用于生成机器学习模型的注意力向量,增加用户偏好的特征的权重。例如,针对衣服品类,用户偏好信息包括[质感,面料,剪裁]这三个维度,这些维度和对应的偏好数据[0.7,0.5,0.1]可以作为训练样本的一部分,输入机器学习模型。
分词处理后的商品关联信息作为语料输入机器学习模型,分词后的每一个字词单元对应于机器学习模型的一个节点,用于生成文本信息。每一个节点对应的权重作为机器学习模型训练的对象,其可以由大量的样本训练获得。在这一过程中,注意力向量用于增加部分节点的权重。注意力向量是一个维护词表中的多个词组成的向量,维护词表对应于上述的部分节点。
结构化处理后的商品描述信息和评论信息是利用前述的结构化方式,获得的四元组序列,四元组序列中包含属性和属性词(例如面料-涤纶”、“屏幕-5.7寸”等属性值对),还可以包括属性和属性词的位置,例如开始和结束位置。结构化处理可以通过位置信息帮助机器学习模型把属性和属性词从原文中提取出来,提取后属性/属性词可以作为注意力机制维护的词表中的词。
利用上述基于注意力的序列到序列模型,可以充分考虑用户偏好于评论/商品描述文本中属性维度的关系,达到个性化的目的。
在上述基于注意力的序列到序列模型中,模型的编码部分和解码部分都是一段序列,即编码部分输入商品关联信息的描述文本,解码部分输出生成的文本信息。该模型的每一个元素是一个神经网络单元,后一个元素依赖前一个元素。编码部分每个单元的输入是商品关联信息分词后的一个单词的向量,该分词后的词向量可以由多种算法训练得到,例如word2vec,GloVe等;而解码部分每个单元的输出向量由两部分拼接而成,分别为词向量和用户向量,其中词向量跟编码部分的一样,用户向量包括用户偏好信息。
在本发明一实施例中,在依据用户偏好信息从商品的多个属性特征中选择至少一个属性特征的步骤之前,所述方法还可以包括如下步骤:
S203,提供用户特征集合,所述用户特征集合包括多个用户偏好信息;
在这一步骤中,可以利用交易平台获取的数据信息,构建用户特征集合。这些特征可以包括针对指定商品的用户偏好信息,以及用户本身的属性信息。
构建用户特征集合可以通过构建用户画像的方式实现。用户画像中可以包括多个画像维度,这些维度例如是用户偏好信息。具体地,这些维度可以包括用户对多种不同的商品或类别的用户偏好信息。
在一实施例中,可以利用用户的历史行为和当前的操作行为构建用户画像。例如可以根据用户历史输入的搜索内容、当前输入的搜索内容、用户过去的点评、用户针对搜索结果进行的点击等行为,来构建用户画像。
例如,用户过去搜索过“音质好的手机”,或者用户当前搜索“拍照手机”,或者用户曾经在多个搜索出的结果中,点击“屏幕大的手机”比其他手机的概率明显更高,或者用户过去点评某手机时说“对于本人更加注重的音质方面,表现差强人意”。因此可以利用用户相关的操作数据,构建用户画像。用户画像中可以包括每一个搜索类别里用户关注的属性特征和关注度,关注度例如可以用分值来表示。例如针对手机类别,用户画像中有3种属性,可以用一个向量表示为[外观,拍照功能,电池],用户A在于手机产品上的用户画像为[0.8,0.6,0.1],则表示该用户更关注外观,拍照功能,对电池不是特别在意。针对服装类别,用户画像中有3种属性,可以用一个向量表示为[版型,色差,耐穿度],用户A在于手机产品上的用户画像为[0.9,0.5,0.2],则表示该用户更关注有无色差和版型,对耐穿度不是特别在意。
S204,针对指定商品,从所述用户特征集合中选择对应的用户偏好信息;
在这一步骤中,针对交易平台所能提供的商品类别下的指定商品,通过获取商品评论、商品介绍、问大家等版块的数据,可以确定该商品的多种属性特征分别对应的特征信息,例如每一个用户关注的维度之下的评价信息等。
例如,该用户特征信息中包括N类信息,其中一类为用户自身的属性信息,包括[年龄,性别,购买力,居住地,婚否]等等维度;另一类为手机类别下用户偏好的属性特征,包括[外观,拍照功能,电池,流畅度,发热程度]等等维度;再一类为服装类别下用户偏好的属性特征,包括[版型,色差,耐穿度,薄厚,材质]等等维度。可以针对多种商品类别分别构建用户偏好的属性特征,在此不再赘述。
当用户在检索“手机”相关内容时,执行主体可以从用户画像中获取[外观,拍照功能,电池,流畅度,发热程度]等维度,并筛选出用户偏好的特征维度为[外观,拍照功能]。
在本发明一实施例中,所述用户特征集合包括的多个用户偏好信息包括用户历史偏好信息和利用用户的实时行为确定的用户当前偏好信息;
在一实施例中,用户偏好信息可以通过查表的方式获得,例如在预存的用户画像信息中获取针对指定商品用户偏好的特征维度。另一种替代方案是通过离线+在线的方式实时更新用户特征集合,例如从用户行为轨迹中获知,用户搜索了某个关键词,例如“拍照手机”,通过搜索意图分析,就可以知道用户当前更关注手机的拍照功能,在构建的用户偏好信息中,可以通过算法把用户在拍照的维度权重增加。在线获取实时行为和更新模型的方式多种多样,可以行成多种替代方案,在此不再赘述。
在本发明一实施例中,所述多个用户偏好信息包括用户历史偏好信息和利用用户的实时行为确定的用户当前偏好信息至少其中一者。
在这一步骤中,用户画像可以通过查表的方式获得。例如,可以根据用户的个人信息、过去的操作历史轨迹、收藏夹、所撰写的评论、对用户所贴的标签的内容等计算出用户的标签偏好。人口统计学信息可以
例如,用户经常搜索的内容包括“音质好的耳机”,“音质好的蓝牙音箱”等,则可以认为用户对音质的偏好比较强,因此用户的标签偏好,加上音质,再例如,当用户每次在主搜索框进行搜索时,输入的,内容常包含高端二字,所选择的价格范围也是高于平均价格的,则可以认为用户的购买能力比较强,追求产品的品质,因此用户的标签编号可以加上高端。
在本发明一实施例中,所述画像维度包括用户针对特定品类的属性偏好。
在这一步骤中,可以针对用户对指定品类,分别计算其属性偏好,例如,当用户在购买手机时,根据其历史行为可以判断该用户对手机的音质、屏幕大小、拍照效果有要求;则当用户再次搜索手机品类时,可以加上上述三个标签,作为其重点关注的维度。再例如,当用户在购买衣服时,根据其历史行为可以判断该用户对衣服的舒适程度、成分、版型有要求;则当用户再次搜索衣服品类时,可以加上上述三个标签,作为其重点关注的维度。
在本发明一实施例中,上述步骤S206,即评论信息和描述信息中获取所述属性特征对应的特征信息的步骤可以包括如下子步骤:
S2061,将商品关联的评论信息进行结构化,生成属性特征和对应的特征信息;
在这一步骤中,可以利用第三实施例中提出的方法,对商品关联的评论信息进行结构化。
即该模块的功能是给定一个用户生成内容,用序列标注模型分析并输出结构化的结果。在此不再赘述。
S2062,将商品关联的描述信息进行结构化,生成属性特征和对应的特征信息;
在这一步骤中,可以利用与评论结构化相同的方法,对信息进行结构化。由于商品信息中可以包括一些评论中没有的内容,例如对于衣服来说,评论中鲜少出现品牌、面料等内容、这些内容,可能已经是结构化过的,例如品牌;也可能是未经过结构化的,例如面料。在这一步骤中,可以将未经过结构化的商品信息进行结构化。
S2063,从结构化的评论信息和描述信息中获取所述属性特征对应的特征信息。
在这一步骤中,可以利用上一步骤进行结构化的文本,对文本进行综合分析,获取用户关心的维度对应的信息,例如,假使关于用户关心的音质问题,其中90个表示音质不错,10个表示音质一般,则可以认为大多数的评论对“音质”这个维度是正向的,因此可以利用机器学习模型,对该“音质”维度,输出“音质较佳”的信息。在步骤206结束之后,可以获得“音质较好”“拍照功能不错”“屏幕大”等信息。
在本发明一实施例中,所述方法还可以包括如下步骤:
S208,通过流利度模型生成文本信息。
在这一步骤中,当消费者浏览商品详情页时,在线就可以获取当前商品的描述信息,当前商品的所有历史评论,通过查表的方式可以得到用户的偏好向量,以此作为输入,使用前述的模型做在线预测,生成一条评论文本信息。该流利度模型可以包括连接词、副词等对内容进行连接,提高了可读性和流畅性。
综上所述,本实施例提出的文本信息生成方法至少具有如下优点:
本发明实施例提出一种根据用户偏好信息生成针对商品的文本信息的方法,能够生成符合用户偏好的文本信息,所生成的文本是按照用户偏好的维度有针对地对商品进行介绍,同时流利通顺。提高了用户根据文本信息获得商品相关信息的效率。
除此之外,本实施例提出的文本信息生成方法至少还包括如下优点:
本发明实施例提出的方案在构建生成模型的时候,充分考虑到了用户的属性偏好,会优先从评论文本中生成用户偏好的属性特征;另一方面,利用生成式模型生成出长文本,而不是标签,充分考虑到了前后文字的连贯性和流利程度。
根据本发明实施例提出的方案,本发明通过挖掘用户偏好,评论的不同维度和情感倾向,自动生成符合消费者关注偏好的流畅文本。在生成中,使用了普通的序列到序列模型等方式,兼具通顺性和针对性。
第五实施例
本发明第五实施例提出一种文本信息生成装置,如图7所示,该装置包括如下模块:
获取模块2001,用于获取用户偏好信息和商品关联信息,所述商品关联信息包括商品的评论信息和/或描述信息;
处理模块2002,用于对所述商品关联信息分别进行分词处理和结构化处理;
生成模块2003,用于将所述用户偏好信息、分词处理后的商品关联信息和结构化处理后的商品关联信息输入机器学习模型,利用机器学习模型生成针对所述商品的文本信息。
在一可选实施例中,所述结构化处理的商品关联信息包括商品的属性和属性值,所述机器学习模型为序列到序列模型,所述序列到序列模型包括注意力向量,所述注意力向量包括与所述用户偏好向量和所述商品的属性及属性值对应的多个维度。
在一可选实施例中,所述装置还包括:
模型训练模块2004,用于基于多个商品的历史数据训练所述机器学习模型,针对每一个商品,所述历史数据包括:
用户偏好信息;
分别经过分词处理和结构化处理的商品关联信息;
生成的文本信息。
在一可选实施例中,所述结构化处理后的商品关联信息包括:
商品关联信息对应的属性、属性值、开始位置、结束位置,所述开始位置和结束位置用于确定商品关联信息中的属性和/或属性值的位置。
在一可选实施例中,获取用户偏好信息,包括:
获取商品信息和用户特征集合;
基于所述商品信息,从所述用户特征集合中提取用户偏好信息。
在一可选实施例中,所述装置还包括:
显示模块2005,用于将所述生成的文本信息发送至客户端显示。
在一可选实施例中,所述用户偏好信息包括用户历史偏好信息和利用用户的实时行为确定的用户当前偏好信息至少其中一者。
在一可选实施例中,所述用户历史偏好信息是根据用户信息和/或历史行为确定的。
本发明实施例提出一种根据用户偏好信息生成针对商品的文本信息的装置,能够生成符合用户偏好的文本信息,所生成的文本是按照用户偏好的维度有针对地对商品进行介绍,同时流利通顺。提高了用户根据文本信息获得商品相关信息的效率。
第六实施例
本发明第六实施例提出一种文本信息显示装置,如图8所示,该装置包括如下模块:
发送模块3001,用于将用户标识和当前商品对应的商品关联信息发送至服务端;
接收模块3002,用于接收服务端发送的文本信息;
显示模块3003,用于显示所述文本信息;
其中,所述文本信息是所述服务端利用所述用户标识对应的、针对当前商品信息的用户偏好信息、分词处理后的商品关联信息和结构化处理后的商品关联信息,基于机器学习模型生成的针对所述当前商品的文本信息,
所述机器学习模型包括多个模型单元和对应的多个权重;所述多个单元来源于所述分词处理后的商品关联信息的多个字词单元,所述用户偏好信息和所述结构化处理后的商品关联信息用于修改所述多个权重。
本发明实施例提出一种根据用户偏好信息生成针对商品的文本信息的装置,能够生成符合用户偏好的文本信息,所生成的文本是按照用户偏好的维度有针对地对商品进行介绍,同时流利通顺。提高了用户根据文本信息获得商品相关信息的效率。
第七实施例
本发明第七实施例提出一种文本信息生成装置,如图9所示,该装置包括:
属性特征获取模块301,用于依据用户偏好信息从商品的多个属性特征中选择至少一个属性特征;
特征信息提取模块302,用于从商品关联信息中获取与所选择的属性特征对应的特征信息。
文本信息生成模块303,用于利用所述属性特征和特征信息,通过机器学习模型生成针对所述商品的文本信息。
综上所述,本实施例提出的文本信息生成装置至少具有如下优点:
本发明实施例提出一种根据用户偏好信息生成针对商品的文本信息的方法,能够生成符合用户偏好的文本信息,所生成的文本是按照用户偏好的维度有针对地对商品进行介绍,同时流利通顺。提高了用户根据文本信息获得商品相关信息的效率。
第八实施例
本发明第8实施例提出一种文本信息生成装置,如图10所示,该装置包括:
属性特征获取模块401,用于依据用户偏好信息从商品的多个属性特征中选择至少一个属性特征;
特征信息提取模块402,用于从商品关联信息中获取与所选择的属性特征对应的特征信息。
文本信息生成模块403,用于利用所述属性特征和特征信息,通过机器学习模型生成针对所述商品的文本信息。
在本发明一实施例中,所述装置还包括:
用户特征集合获取模块404,用于提供用户特征集合,所述用户特征集合包括多个用户偏好信息;
用户偏好信息获取模块405,用于针对指定商品,从所述用户特征集合中选择对应的用户偏好信息。
在本发明一实施例中,所述多个用户偏好信息包括用户历史偏好信息和利用用户的实时行为确定的用户当前偏好信息至少其中一者。
在本发明一实施例中,所述用户历史偏好信息是根据用户信息和/或历史行为计算的用户偏好。
在本发明一实施例中,所述特征信息提取模块402可以包括如下子模块:
第一结构化子模块,用于将商品关联的评论信息进行结构化,生成属性特征和对应的特征信息;
第二结构化子模块,用于将商品关联的描述信息进行结构化,生成属性特征和对应的特征信息;
特征信息获取子模块,用于从结构化的评论信息和描述信息中获取所述属性特征对应的特征信息。
在本发明一实施例中,所述装置还可以包括:
历史数据获取模块406,用于获取历史数据,所述历史数据包括商品的历史关联信息和历史评论文本;
模型训练模块407,用于利用所述历史数据训练机器学习模型。
在本发明一实施例中,所述历史数据获取模块406可以包括如下子模块:
关注维度获取模块,用于确定用户针对指定商品类别的用户偏好信息;
评论数据获取模块,用于从商品关联信息中选择符合所述用户偏好信息且符合评论指数的评论数据。
在本发明一实施例中,所述机器学习模型为基于注意力机制的序列到序列模型。
综上所述,本实施例提出的文本信息生成装置至少具有如下优点:
本发明实施例提出一种根据用户偏好信息生成针对商品的文本信息的方法,能够生成符合用户偏好的文本信息,所生成的文本是按照用户偏好的维度有针对地对商品进行介绍,同时流利通顺。提高了用户根据文本信息获得商品相关信息的效率。
除此之外,本实施例提出的文本信息生成装置至少还包括如下优点:
本发明实施例提出的方案在构建生成模型的时候,充分考虑到了用户的属性偏好,会优先从评论文本中生成用户偏好的属性特征;另一方面,利用生成式模型生成出长文本,而不是标签,充分考虑到了前后文字的连贯性和流利程度。
根据本发明实施例提出的方案,本发明通过挖掘用户偏好,评论的不同维度和情感倾向,自动生成符合消费者关注偏好的流畅文本。在生成中,使用了普通的序列到序列模型等方式,兼具通顺性和针对性。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
图11为本申请一实施例提供的终端设备的硬件结构示意图。如图11所示,该终端设备可以包括输入设备90、处理器91、输出设备92、存储器93和至少一个通信总线94。通信总线94用于实现元件之间的通信连接。存储器93可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,存储器93中可以存储各种程序,用于完成各种处理功能以及实现本实施例的方法步骤。
可选的,上述处理器91例如可以为中央处理器(Central Processing Unit,简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,该处理器91通过有线或无线连接耦合到上述输入设备90和输出设备92。
可选的,上述输入设备90可以包括多种输入设备,例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的,该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等);可选的,该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等);可选的,上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口,例如芯片的输入引脚接口或者输入接口等;可选的,上述收发信机可以是具有通信功能的射频收发芯片、基带处理芯片以及收发天线等。麦克风等音频输入设备可以接收语音数据。输出设备92可以包括显示器、音响等输出设备。
在本实施例中,该终端设备的处理器包括用于执行各设备中数据处理装置各模块的功能,具体功能和技术效果参照上述实施例即可,此处不再赘述。
图12为本申请另一实施例提供的终端设备的硬件结构示意图。图12是对图11在实现过程中的一个具体的实施例。如图12所示,本实施例的终端设备包括处理器101以及存储器102。
处理器101执行存储器102所存放的计算机程序代码,实现上述实施例中图1至图11的文本信息生成方法。
存储器102被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令,例如消息,图片,视频等。存储器102可能包含随机存取存储器(random access memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
可选地,处理器101设置在处理组件100中。该终端设备还可以包括:通信组件103,电源组件104,多媒体组件105,音频组件106,输入/输出接口107和/或传感器组件108。终端设备具体所包含的组件等依据实际需求设定,本实施例对此不作限定。
处理组件100通常控制终端设备的整体操作。处理组件100可以包括一个或多个处理器101来执行指令,以完成上述图1至图11方法的全部或部分步骤。此外,处理组件100可以包括一个或多个模块,便于处理组件100和其他组件之间的交互。例如,处理组件100可以包括多媒体模块,以方便多媒体组件105和处理组件100之间的交互。
电源组件104为终端设备的各种组件提供电力。电源组件104可以包括电源管理系统,一个或多个电源,及其他与为终端设备生成、管理和分配电力相关联的组件。
多媒体组件105包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中,显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板,显示屏可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
音频组件106被配置为输出和/或输入音频信号。例如,音频组件106包括一个麦克风(MIC),当终端设备处于操作模式,如语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或经由通信组件103发送。在一些实施例中,音频组件106还包括一个扬声器,用于输出音频信号。
输入/输出接口107为处理组件100和外围接口模块之间提供接口,上述外围接口模块可以是点击轮,按钮等。这些按钮可包括但不限于:音量按钮、启动按钮和锁定按钮。
传感器组件108包括一个或多个传感器,用于为终端设备提供各个方面的状态评估。例如,传感器组件108可以检测到终端设备的打开/关闭状态,组件的相对定位,用户与终端设备接触的存在或不存在。传感器组件108可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在,包括检测用户与终端设备间的距离。在一些实施例中,该传感器组件108还可以包括摄像头等。
通信组件103被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个实施例中,该终端设备中可以包括SIM卡插槽,该SIM卡插槽用于插入SIM卡,使得终端设备可以登录GPRS网络,通过互联网与服务端建立通信。
由上可知,在图12实施例中所涉及的通信组件103、音频组件106以及输入/输出接口107、传感器组件108均可以作为图11实施例中的输入设备的实现方式。
本申请实施例提供了一种终端设备,包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述终端设备执行如本申请实施例中一个或多个所述的方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种文本信息生成方法和文本信息生成装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (21)
1.一种文本信息生成方法,包括:
获取用户偏好信息和商品关联信息,所述商品关联信息包括商品的评论信息和/或描述信息;
对所述商品关联信息分别进行分词处理和结构化处理;
将所述用户偏好信息、分词处理后的商品关联信息和结构化处理后的商品关联信息输入机器学习模型,利用机器学习模型生成针对所述商品的文本信息。
2.根据权利要求1所述的方法,其中,所述结构化处理的商品关联信息包括商品的属性和属性值,所述机器学习模型为序列到序列模型,所述序列到序列模型包括注意力向量,所述注意力向量包括与所述用户偏好向量和所述商品的属性及属性值对应的多个维度。
3.根据权利要求1所述的方法,其中,所述方法还包括:
基于多个商品的历史数据训练所述机器学习模型,针对每一个商品,所述历史数据包括:
用户偏好信息;
分别经过分词处理和结构化处理的商品关联信息;
生成的文本信息。
4.根据权利要求1所述的方法,其中,所述结构化处理后的商品关联信息包括:
商品关联信息对应的属性、属性值、开始位置、结束位置,所述开始位置和结束位置用于确定商品关联信息中的属性和/或属性值的位置。
5.根据权利要求1所述的方法,其中,获取用户偏好信息,包括:
获取商品信息和用户特征集合;
基于所述商品信息,从所述用户特征集合中提取用户偏好信息。
6.根据权利要求1所述的方法,其中,所述方法还包括:
将所述生成的文本信息发送至客户端显示。
7.根据权利要求1所述的方法,其中,所述用户偏好信息包括用户历史偏好信息和利用用户的实时行为确定的用户当前偏好信息至少其中一者。
8.根据权利要求7所述的方法,其中,所述用户历史偏好信息是根据用户信息和/或历史行为确定的。
9.一种文本信息显示方法,包括:
将用户标识和当前商品对应的商品关联信息发送至服务端;
接收服务端发送的文本信息;
显示所述文本信息;
其中,所述文本信息是所述服务端利用所述用户标识对应的、针对当前商品信息的用户偏好信息、分词处理后的商品关联信息和结构化处理后的商品关联信息,基于机器学习模型生成的针对所述当前商品的文本信息。
10.一种文本信息生成方法,包括:
依据用户偏好信息从商品的多个属性特征中选择至少一个属性特征;
从商品关联信息中获取与所选择的属性特征对应的特征信息;
利用所述属性特征和特征信息,通过机器学习模型生成针对所述商品的文本信息。
11.根据权利要求10所述的方法,其中,所述方法还包括:
提供用户特征集合,所述用户特征集合包括多个用户偏好信息;
针对指定商品,从所述用户特征集合中选择对应的用户偏好信息。
12.根据权利要求10所述的方法,其中,所述多个用户偏好信息包括用户历史偏好信息和利用用户的实时行为确定的用户当前偏好信息至少其中一者。
13.根据权利要求12所述的方法,其中,所述用户历史偏好信息是根据用户信息和/或历史行为确定的用户偏好。
14.根据权利要求10所述的方法,其中,所述从商品关联信息中获取与所选择的属性特征对应的特征信息的步骤包括:
将商品关联的评论信息进行结构化,生成属性特征和对应的特征信息;
将商品关联的描述信息进行结构化,生成属性特征和对应的特征信息;
从结构化的评论信息和描述信息中获取所述属性特征对应的特征信息。
15.根据权利要求10所述的方法,其中,所述方法还包括:
获取历史数据,所述历史数据包括商品的历史关联信息和历史评论文本;
利用所述历史数据训练机器学习模型。
16.根据权利要求15所述的方法,其中,所述获取用户画像对应的历史评论数据的步骤包括:
确定用户针对指定商品类别的关注维度;
从商品关联信息中选择符合所述用户偏好信息且符合评论指数的评论数据。
17.一种文本信息生成装置,包括:
获取模块,用于获取用户偏好信息和商品关联信息,所述商品关联信息包括商品的评论信息和/或描述信息;
处理模块,用于对所述商品关联信息分别进行分词处理和结构化处理;
生成模块,用于将所述用户偏好信息、分词处理后的商品关联信息和结构化处理后的商品关联信息输入机器学习模型,利用机器学习模型生成针对所述商品的文本信息。
18.一种文本信息显示装置,包括:
发送模块,用于将用户标识和当前商品对应的商品关联信息发送至服务端;
接收模块,用于接收服务端发送的文本信息;
显示模块,用于显示所述文本信息;
其中,所述文本信息是所述服务端利用所述用户标识对应的、针对当前商品信息的用户偏好信息、分词处理后的商品关联信息和结构化处理后的商品关联信息,基于机器学习模型生成的针对所述当前商品的文本信息。
19.一种文本信息生成装置,包括:
属性特征获取模块,用于依据用户偏好信息从商品的多个属性特征中选择至少一个属性特征;
特征信息提取模块,用于从商品关联信息中获取与所选择的属性特征对应的特征信息;
文本信息生成模块,用于利用所述属性特征和特征信息,通过机器学习模型生成针对所述商品的文本信息。
20.一种终端设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述终端设备执行如权利要求1-16中一个或多个所述的方法。
21.一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得终端设备执行如权利要求1-16中一个或多个所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811015508.3A CN110929021A (zh) | 2018-08-31 | 2018-08-31 | 文本信息生成方法和文本信息生成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811015508.3A CN110929021A (zh) | 2018-08-31 | 2018-08-31 | 文本信息生成方法和文本信息生成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110929021A true CN110929021A (zh) | 2020-03-27 |
Family
ID=69854940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811015508.3A Pending CN110929021A (zh) | 2018-08-31 | 2018-08-31 | 文本信息生成方法和文本信息生成装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110929021A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111311385A (zh) * | 2020-05-15 | 2020-06-19 | 成都晓多科技有限公司 | 一种基于商品卖点的商品推荐话术生成方法及系统 |
CN111738778A (zh) * | 2020-07-20 | 2020-10-02 | 平安国际智慧城市科技股份有限公司 | 用户画像生成方法、装置、计算机设备及存储介质 |
CN111782956A (zh) * | 2020-07-08 | 2020-10-16 | 重庆帮企科技集团有限公司 | 一种基于用户行为和关键词分类的搜索方法 |
CN113553838A (zh) * | 2021-08-03 | 2021-10-26 | 稿定(厦门)科技有限公司 | 一种商品文案生成方法及装置 |
CN113657975A (zh) * | 2021-09-03 | 2021-11-16 | 广州微行网络科技有限公司 | 一种基于互联网电商直播平台的营销方法及系统 |
CN113688604A (zh) * | 2020-05-18 | 2021-11-23 | 北京沃东天骏信息技术有限公司 | 文本生成方法、装置、电子设备和介质 |
US20220084098A1 (en) * | 2020-09-11 | 2022-03-17 | Beijing Wodong Tianjun Information Technology Co., Ltd. | System and method for automatic generation of knowledge-powered content planning |
CN116151331A (zh) * | 2023-04-14 | 2023-05-23 | 京东科技信息技术有限公司 | 商品营销文本生成模型的训练方法及商品营销文本生成方法 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101324948A (zh) * | 2008-07-24 | 2008-12-17 | 阿里巴巴集团控股有限公司 | 一种信息推荐的方法及装置 |
CN103207914A (zh) * | 2013-04-16 | 2013-07-17 | 武汉理工大学 | 基于用户反馈评价的偏好向量生成方法和系统 |
JP2014167722A (ja) * | 2013-02-28 | 2014-09-11 | Nihon Unisys Ltd | 商品情報提供システムおよび商品情報提供用プログラム |
JP2015014887A (ja) * | 2013-07-04 | 2015-01-22 | 株式会社東芝 | 商品情報提供システム、商品情報提供方法、サーバおよびプログラム |
CN105450586A (zh) * | 2014-07-24 | 2016-03-30 | 阿里巴巴集团控股有限公司 | 信息推送方法、系统、服务器及客户端 |
CN105469263A (zh) * | 2014-09-24 | 2016-04-06 | 阿里巴巴集团控股有限公司 | 一种商品推荐方法及装置 |
CN105574003A (zh) * | 2014-10-10 | 2016-05-11 | 华东师范大学 | 一种基于评论文本和评分分析的信息推荐方法 |
US20160328785A1 (en) * | 2015-05-07 | 2016-11-10 | Alibaba Group Holding Limited | Device and method for targeted display of information |
WO2017041372A1 (zh) * | 2015-09-07 | 2017-03-16 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机交互方法和系统 |
CN106776860A (zh) * | 2016-11-28 | 2017-05-31 | 北京三快在线科技有限公司 | 一种搜索摘要生成方法及装置 |
CN107577759A (zh) * | 2017-09-01 | 2018-01-12 | 安徽广播电视大学 | 用户评论自动推荐方法 |
CN107609960A (zh) * | 2017-10-18 | 2018-01-19 | 口碑(上海)信息技术有限公司 | 推荐理由生成方法及装置 |
CN108228906A (zh) * | 2018-02-08 | 2018-06-29 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN108268450A (zh) * | 2018-02-27 | 2018-07-10 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
WO2018126740A1 (zh) * | 2017-01-04 | 2018-07-12 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN108319586A (zh) * | 2018-01-31 | 2018-07-24 | 天闻数媒科技(北京)有限公司 | 一种信息提取规则的生成和语义解析方法及装置 |
-
2018
- 2018-08-31 CN CN201811015508.3A patent/CN110929021A/zh active Pending
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101324948A (zh) * | 2008-07-24 | 2008-12-17 | 阿里巴巴集团控股有限公司 | 一种信息推荐的方法及装置 |
JP2014167722A (ja) * | 2013-02-28 | 2014-09-11 | Nihon Unisys Ltd | 商品情報提供システムおよび商品情報提供用プログラム |
CN103207914A (zh) * | 2013-04-16 | 2013-07-17 | 武汉理工大学 | 基于用户反馈评价的偏好向量生成方法和系统 |
JP2015014887A (ja) * | 2013-07-04 | 2015-01-22 | 株式会社東芝 | 商品情報提供システム、商品情報提供方法、サーバおよびプログラム |
CN105450586A (zh) * | 2014-07-24 | 2016-03-30 | 阿里巴巴集团控股有限公司 | 信息推送方法、系统、服务器及客户端 |
CN105469263A (zh) * | 2014-09-24 | 2016-04-06 | 阿里巴巴集团控股有限公司 | 一种商品推荐方法及装置 |
CN105574003A (zh) * | 2014-10-10 | 2016-05-11 | 华东师范大学 | 一种基于评论文本和评分分析的信息推荐方法 |
US20160328785A1 (en) * | 2015-05-07 | 2016-11-10 | Alibaba Group Holding Limited | Device and method for targeted display of information |
WO2017041372A1 (zh) * | 2015-09-07 | 2017-03-16 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机交互方法和系统 |
CN106776860A (zh) * | 2016-11-28 | 2017-05-31 | 北京三快在线科技有限公司 | 一种搜索摘要生成方法及装置 |
WO2018126740A1 (zh) * | 2017-01-04 | 2018-07-12 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN107577759A (zh) * | 2017-09-01 | 2018-01-12 | 安徽广播电视大学 | 用户评论自动推荐方法 |
CN107609960A (zh) * | 2017-10-18 | 2018-01-19 | 口碑(上海)信息技术有限公司 | 推荐理由生成方法及装置 |
CN108319586A (zh) * | 2018-01-31 | 2018-07-24 | 天闻数媒科技(北京)有限公司 | 一种信息提取规则的生成和语义解析方法及装置 |
CN108228906A (zh) * | 2018-02-08 | 2018-06-29 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN108268450A (zh) * | 2018-02-27 | 2018-07-10 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
Non-Patent Citations (3)
Title |
---|
潘利军;杨敏;: "基于大数据移动商务关联性推荐模型研究", no. 22, pages 66 * |
胡新明;夏火松;: "在线评论中用户商品属性偏好识别方法研究", no. 09, pages 201 - 205 * |
袁红;朱睿琪;: "用户信息搜索行为大数据分析框架及其关键技术", 图书馆学研究, no. 24, 31 December 2016 (2016-12-31) * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111311385B (zh) * | 2020-05-15 | 2020-08-04 | 成都晓多科技有限公司 | 一种基于商品卖点的商品推荐话术生成方法及系统 |
CN111311385A (zh) * | 2020-05-15 | 2020-06-19 | 成都晓多科技有限公司 | 一种基于商品卖点的商品推荐话术生成方法及系统 |
CN113688604A (zh) * | 2020-05-18 | 2021-11-23 | 北京沃东天骏信息技术有限公司 | 文本生成方法、装置、电子设备和介质 |
CN113688604B (zh) * | 2020-05-18 | 2024-04-16 | 北京沃东天骏信息技术有限公司 | 文本生成方法、装置、电子设备和介质 |
CN111782956A (zh) * | 2020-07-08 | 2020-10-16 | 重庆帮企科技集团有限公司 | 一种基于用户行为和关键词分类的搜索方法 |
CN111738778A (zh) * | 2020-07-20 | 2020-10-02 | 平安国际智慧城市科技股份有限公司 | 用户画像生成方法、装置、计算机设备及存储介质 |
CN111738778B (zh) * | 2020-07-20 | 2020-12-01 | 平安国际智慧城市科技股份有限公司 | 用户画像生成方法、装置、计算机设备及存储介质 |
US11551277B2 (en) * | 2020-09-11 | 2023-01-10 | Beijing Wodong Tianjun Information Technology Co., Ltd. | System and method for automatic generation of knowledge-powered content planning |
US20220084098A1 (en) * | 2020-09-11 | 2022-03-17 | Beijing Wodong Tianjun Information Technology Co., Ltd. | System and method for automatic generation of knowledge-powered content planning |
CN113553838A (zh) * | 2021-08-03 | 2021-10-26 | 稿定(厦门)科技有限公司 | 一种商品文案生成方法及装置 |
CN113657975A (zh) * | 2021-09-03 | 2021-11-16 | 广州微行网络科技有限公司 | 一种基于互联网电商直播平台的营销方法及系统 |
CN113657975B (zh) * | 2021-09-03 | 2024-03-26 | 西安稻叶山供应链管理有限公司 | 一种基于互联网电商直播平台的营销方法及系统 |
CN116151331A (zh) * | 2023-04-14 | 2023-05-23 | 京东科技信息技术有限公司 | 商品营销文本生成模型的训练方法及商品营销文本生成方法 |
CN116151331B (zh) * | 2023-04-14 | 2023-08-08 | 京东科技信息技术有限公司 | 商品营销文本生成模型的训练方法及商品营销文本生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929021A (zh) | 文本信息生成方法和文本信息生成装置 | |
CN110009401A (zh) | 基于用户画像的广告投放方法、装置和存储介质 | |
CN109801119B (zh) | 界面展示、信息提供、用户行为内容信息处理方法及设备 | |
US20160239865A1 (en) | Method and device for advertisement classification | |
CN107562939A (zh) | 垂直领域新闻推荐方法、装置及可读储存介质 | |
CN109241525B (zh) | 关键词的提取方法、装置和系统 | |
CN111241842B (zh) | 文本的分析方法、装置和系统 | |
WO2018035164A1 (en) | Description information generation and presentation systems, methods, and devices | |
KR20140035160A (ko) | 모바일 메시지 애플리케이션의 이미지 이모티콘 검색 방법 | |
CN110929138A (zh) | 推荐信息生成方法、装置、设备及存储介质 | |
CN109101505B (zh) | 一种推荐方法、推荐装置和用于推荐的装置 | |
CN110781307A (zh) | 目标物品关键词和标题生成方法、搜索方法以及相关设备 | |
CN112085568B (zh) | 商品和富媒体聚合显示方法及设备、电子设备和介质 | |
CN110598098A (zh) | 一种信息推荐方法、装置和用于信息推荐的装置 | |
Choudhary et al. | Sentiment analysis of text reviewing algorithm using data mining | |
CN115147130A (zh) | 问题预测方法、设备、存储介质及程序产品 | |
CN111310035A (zh) | 基于心理和行为特征的推荐方法及装置 | |
CN111787042B (zh) | 用于推送信息的方法和装置 | |
CN111523315B (zh) | 数据处理方法、文本识别方法、装置及计算机设备 | |
CN112445909A (zh) | 商品检索方法及装置 | |
CN113704630B (zh) | 一种信息推送方法、装置、可读存储介质和电子设备 | |
CN115618126A (zh) | 搜索处理方法、系统、计算机可读存储介质及计算机设备 | |
CN116205686A (zh) | 一种多媒体资源推荐的方法、装置、设备和存储介质 | |
CN113744019A (zh) | 一种商品推荐方法、装置、设备及存储介质 | |
CN114491213A (zh) | 基于图像的商品搜索方法和装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40026843 Country of ref document: HK |