CN109635383A

CN109635383A - 一种基于word2vec的车系相关度确定的方法及装置

Info

Publication number: CN109635383A
Application number: CN201811432873.4A
Authority: CN
Inventors: 陈希厚; 邹晓明; 马擘; 庞敏辉; 陈忠元; 邱慧
Original assignee: Best Faith Racket (beijing) Mdt Infotech Ltd
Current assignee: Best Faith Racket (beijing) Mdt Infotech Ltd
Priority date: 2018-11-28
Filing date: 2018-11-28
Publication date: 2019-04-16

Abstract

本发明公开了一种基于word2vec的车系相关度确定的方法及装置，所述方法包括：收集建模数据；对收集的建模数据进行过滤处理；根据过滤处理后的建模数据构建车系相关模型；计算车系相关模型的相关度；根据相关度展示相关车系。本发明的车系相关度方法及装置通过建模计算车系相关度的方法取代了人工确定车系的方法，处理过程省时省力。

Description

一种基于word2vec的车系相关度确定的方法及装置

技术领域

本发明属于计算机领域，特别涉及一种基于word2vec的车系相关度确定的方法及装置。

背景技术

目前，对车系的确定普遍采用人工确定的方法。这种方法由于人工参与，所以费时费力，这在二手车业务中表现的尤为突出。而且也存在其他诸多问题，例如：基于人工构建的相关车系在确定后不会在变化；对于某一车系，给出的相关车系个数较少，可能不会满足某些业务场景；对于相对冷门的车系，不能有效确定其相关车系；基于个人主观判断，可能不能完全反映用户所认可的相关车系。

为了解决人工参与而费时费力的问题，目前普遍采用基于计算机的自动化智能化手段来代替人工的方式。为了使计算机能够理解人们经常使用的文本信息，需要将文本信息切分为词，并将词转化为词向量，以数字的形式输入到计算机，做进一步的运算处理。word2vec是这种运算处理的一种较好的选择，其是利用浅层的神经网络来产生词向量的相关模型，训练得到词向量还能表示词义的相近。

目前，word2vec算法等神经网络算法已经成功的应用于解决机器学习及推荐搜索的问题中。但是由于车辆的复杂性，目前还没有一种方法能够基于word2vec算法来较好地替代人工。

发明内容

针对上述问题，本发明提供了一种基于word2vec的车系相关度确定的方法，所述方法包括：

收集建模数据；

对收集的建模数据进行过滤处理；

根据过滤处理后的建模数据构建车系相关模型；

计算车系相关模型的相关度；

根据相关度展示相关车系。

进一步地，所述建模数据包括：车系点击量数据、车源序列数据和车系序列数据。

进一步地，所述过滤处理包括删除数据处理和存储数据处理。

进一步地，所述删除数据包括删除不符合建模要求的数据；所述存储数据包括存储符合建模要求的数据。

进一步地，所述不符合建模要求包括用户的点击序列长度与其中所点击的不同的车系个数比值超过预定阈值。

进一步地，所述构建车系相关模型包括通过word2vec中的skip-gram模型建立车系相关模型和通过word2vec中的Hierarchical Softmax优化方法优化所述车系相关模型。

进一步地，在训练建立所述车系相关模型时，将过滤处理后的车系点击序列集合输入到所述skip-gram模型中，对所述skip-gram模型中用于获取输入输出的滑动窗口大小以及词向量的维度大小中的一个或多个进行调节。

进一步地，所述计算车系相关模型的相关度即基于词向量确定车系相关度。

进一步地，所述基于词向量确定车系相关度包括：

确定车系相关模型对应的词向量；

计算所述词向量表示的距离数值；

所述距离数值即为所述车系相关模型的相关度。

进一步地，所述展示相关车系即根据车系相关度提取展示车系相关度高的车系信息。

本发明还提供了一种确定车系相关度的装置，所述装置包括：

建模数据收集模块，用于收集建模数据；

数据处理模块，用于过滤收集到的建模数据；

模型构建模块，用于根据过滤处理后的建模数据构建车系相关模型；

计算模块，用于计算所述车系相关模型的车系相关度；

结果输出模块，用于提取所述计算模块计算保存的所述车系相关度和所述车系相关度对应的车系信息。

进一步地，所述建模数据收集模块用于收集车系点击量数据、车源序列数据和车系序列数据。

进一步地，所述数据处理模块包括数据删除模块和数据保存模块；

所述数据删除模块，用于删除不符合建模要求的数据；

所述数据保存模块，用于保存符合建模要求的数据。

进一步地，所述模型构建模块包括建模模块和模型优化模块；

所述建模模块，用于基于word2vec中的skip-gram模型构建所述车系相关模型；

所述模型优化模型，基于word2vec中的Hierarchical Softmax优化方法对所述车系相关模型进行优化。

进一步地，所述计算模块包括词向量提取模块和词向量计算模块；

所述词向量提取模块，用于提取所述车系相关模型对应的词向量；

所述词向量计算模块，用于计算所述词向量表示的距离数值，并且计算所得的所述距离数值即为所述车系相关模型对应的车系相关度。

进一步地，所述结果输出模块，还用于根据车系相关度搜索提取相应的相关车系的车系信息。

1、本发明通过软件系统建模计算车系相关度的方法取代了人工确定车系的方法，解放了劳动力，处理过程省时省力；

2、本发明通过动态更新的建模方式能取得更好的效果，使得模型满足不同的业务场景。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明实施例的方法的流程示意图；

图2示出了根据本发明实施例的第一模型训练样本的示意图；

图3示出了根据本发明实施例的第二模型训练样本的示意图；

图4示出了根据本发明实施例的模型训练过程示意图；

图5示出了根据本发明实施例的装置的结构示意图；

图6示出了根据本发明实施例的车系相关度反馈界面示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以二手车网上商城为例进行示例说明，但是本发明提出的方法和装置不仅仅适用于二手车网上商城，同样适用于其它软件系统。

图1示出了本发明实施例的方法的流程示意图。本发明中车系相关度确定的方法包括如下步骤：

步骤一：收集建模数据。建模数据包括：车系点击量数据、车源序列数据和车系序列数据。具体的，通过word2vec构建二手车车系相关模型的数据来源于真实的用户点击数据，对于每个用户，按照时间顺序，获取其点击的车源序列数据，车源用id号，即一串数字表示，所以车源序列数据就是多个id号按照顺序排列。根据车源与车系的映射关系，获取车系序列，即每一个车源可以对应到现实世界中的一辆车，所以有车型、车系等各种属性，取车源的车系属性便可构成车系序列数据。本发明实施例中，以下表车系为例进行示例性说明，但并非仅仅限于列表中的车系。

表1建模数据表

如表1所示为甲用户在2018年10月22日的点击阅读情况，甲用户在上午10：00，点击查阅了奥迪A4L车源信息，此时奥迪A4L车源信息用户点击量累计为145次；甲用户在上午10：30，点击查阅了宝马3系车源信息，此时宝马3系车源信息的用户点击量累计为121次；甲用户在上午11：20，点击查阅了大众迈腾车源信息，此时大众迈腾车源信息的用户点击量累计为103次。对应车源信息，系统导出车系ID，如上表所示车系ID分别为621、422和135。

本发明在误差分析的过程中，除了车系的固有特征，采用的用户对车系的点击次数作为评价相关的重要指标，对建模迭代过程可起到重要作用，能够提升模型预测准确度。

步骤二：对收集的数据进行过滤处理。过滤处理包括删除数据处理和存储数据处理。具体的，结合word2vec中训练算法的特点，过滤会影响模型效果的用户点击数据。示例性的，当用户的点击序列长度与其中所点击的不同的车系个数比值超过一定的阈值时，其中，点击序列长度即为在一段时间内，用户浏览车系时的点击次数；不同的车系个数即为在该段时间内，用户浏览的不同的车系的个数。本发明实施例中，设定当用户的点击序列长度与其中所点击的不同的车系个数比值大于等于5时(本发明实施例中可以根据实际情况调整该阈值范围)，即表示用户点击的车系比较集中，此类样本不能获取多个车系的相关性，还会影响模型效果，则将此类样本过滤删除。

表2不符合建模要求的数据表

如表2所示为乙用户在2018年10月22日10：00-10：40时间段内对奥迪A4L车系信息进行了五次点击查看，系统收集了五个车系序列数据，即在此时间段内，收集到乙用户的点击序列长度为5，而其点击查看的车系只有1个，导致乙用户的点击序列长度与其中所点击的不同的车系个数比值等于5，则该时间段内乙用户的点击阅读的车系信息不符合要求，并对该系统收集到的上述五个车系序列数据进行删除。

本发明根据一定时间段内的用户点击序列长度与用户点击的不同车系个数的比值作为过滤异常数据的条件，能有效获取不同车系间的相关性。

步骤三：构建车系相关模型。采用word2vec中的skip-gram模型建立车系相关模型，并通过word2vec中的Hierarchical Softmax优化方法对所述车系相关模型进行优化。

例如在二手车网上商城，可以将单个车系比作词，把用户所点击的车系序列比作文档，利用word2vec把车系转化词向量，获取词向量所表征的词的相关性，进而获取车系的相关性，所以word2vec同样适用在获取二手车车系的相关性方面。

如图2所示，本发明实施例中以输入数据为“the quick brown fox jumps overthe lazy dog.”为例对现有的模型训练进行示例性说明。当“the quick brown”在输入序列的固定窗口内，且“the”为模型词向量的起点时，则模型输出的训练样本为“(the，quick)(the，brown)”；当“the quick brownfox”在输入序列的固定窗口内，且“quick”为模型词向量的起点时，则模型输出的训练样本为“(quick，the)(quick，brown)(quick，fox)”；当“thequick brown fox jumps”在输入序列的固定窗口内，且“brown”为模型词向量的起点时，则模型输出的训练样本为“(brown，the)(brown，quick)(brown，fox)(brown，jumps)”；当“quick brown fox jumps over”在输入序列的固定窗口内，且“fox”为模型词向量的起点时，则模型输出的训练样本为“(fox，quick)(fox，brown)(fox，jumps)(fox，over)”。在建立车系相关模型时，将过滤后的车系点击序列集合输入到上述skip-gram模型中，即可获取对应得车系向量，建模过程中对skip-gram模型中用于获取输入输出的滑动窗口大小以及词向量的维度大小这两个参数进行调节，以取得最优效果。

示例性的，如图3所示，将“宝马大众奔驰奥迪凯迪拉克”输入到上述skip-gram模型中，调节skip-gram模型中用于获取输入输出的滑动窗口大小以及词向量的维度大小这两个参数，选定“宝马大众奔驰奥迪”在输入序列的固定窗口内，即此时窗口大小为4；选定“大众”为模型词向量的起点，则模型输出的训练样本为“(大众，宝马)(大众，奔驰)(大众，奥迪)”。

将生成的车系相关模型按照通过word2vec中的Hierarchical Softmax优化方法进行训练优化。示例性的，如图4所示，根据车系点击序列得到对应车系的固有特征信息，所有固有特征信息相互之间构成的不同维度的词向量的模型，维度组合训练相当于模型中间变化过程，对数据进行高阶抽象，多个维度组合可近似认为词向量矩阵，词向量矩阵包括生成不同词向量的方式。此处以300种维度为例，假设已收集到了1000个长度各不相同的车系序列，将这1000个车系序列分别通过这300种维度进行组合训练，模拟词向量矩阵的不同组合方式，每个车系都生成若干个词向量，此处假设1000个车系序列通过这300种维度进行组合训练，得到10000个词向量。当以其中一个车系为目标车系输入时，模型则会输出这10000个词向量，并输出这10000个词向量对应的车系相对于目标车系的概率值，例如图6中“count”字段即可表示为此概率值。

本发明在通过word2vec中的skip-gram模型实现车系相关模型的构建，并通过word2vec中的Hierarchical Softmax优化方法对车系相关模型进行优化，动态更新的建模方式能取得更好的效果，使得模型满足不同的业务场景。

步骤四：计算车系相关模型的相关度。确定车系相关模型对应的词向量，即车系间的相关性判断转化为其对应的车系词向量间的相关性判断。具体的，word2vec建模完成后，可直接输入车系获取其对应的车系词向量，从而可以对任意两个车系进行相关度计算。示例性的，根据上述步骤得到车系相关模型(621，422)，621为奥迪A4L的车系ID，422为宝马3系的车系ID，分别将车系ID映射到训练模型得到的词向量上，可以利用词向量间的相似性来表示车系的相关度。判断向量相关方法可以采用计算向量的欧氏距离、曼哈顿距离、夹角余弦等方法，但本发明实施例没有采用上述方法判断相似性，而是采用训练词向量过程中的中间结果作为衡量相似性的指标，如当模型输入为某个车系时，模型会为其他的所有车系都会输出一个概率值，通过概率值得大小来衡量其他车系与当前车系的相关度，如图6中“count”字段所示(值小于0是因为对概率值取对数)。

步骤五：根据相关度展示相关车系。二手车网上商城根据车系相关度提取展示车系相关度高的车系信息。

在上述方法的基础上，本发明实施例还提供了一种提供确定车系相关度的装置。如图5所示，所述装置包括：建模数据收集模块、数据处理模块、模型构建模块、计算模块和结果输出模块。其中：

建模数据收集模块，用于收集建模数据；数据处理模块，用于删除不符合建模要求的数据，并保存符合建模要求的数据；模型构建模块，用于基于word2vec训练所述符合建模要求的数据，并对训练后生成的车系相关模型保存；计算模块，用于计算所述车系相关模型表示的向量，并将计算结果作为车系相关度保存；结果输出模块，用于提取所述计算模块计算保存的所述车系相关度和所述车系相关度对应的车系信息，二手车网上商城并对所述车系相关度和所述车系信息进行展示。

所述数据处理模块包括数据删除模块和数据保存模块。所述数据删除模块，用于删除不符合建模要求的数据；所述数据保存模块，用于保存符合建模要求的数据。

所述模型构建模块包括建模模块和模型优化模块。所述建模模块，用于基于word2vec中的skip-gram模型构建所述车系相关模型；所述模型优化模型，基于word2vec中的Hierarchical Softmax优化方法对所述车系相关模型进行优化。

所述计算模块包括词向量提取模块和词向量计算模块。所述词向量提取模块，用于提取所述车系相关模型对应的词向量；所述词向量计算模块，用于计算所述词向量表示的距离数值，并且计算所得的所述距离数值即为所述车系相关模型对应的车系相关度。

具体的，上述装置在实现上述方法时，上述方法的每个步骤均迭代进行，在每一次迭代中提升模型预测准确度。

示例性的，此处以奥迪A4L车系为例进行示例性说明，如图6所示，按点击量pv再随机抽取了9个车系，通过上述装置按照上述方法建模计算后分别得出另外9个车系和奥迪A4L车系的车系相关度，即“打分”表示的数值。二手车网上商城根据车系相关度的大小，对10个车系依次进行展示。根据车系的固有特征，如车系价格区间、车辆级别、国别等以及用户对车辆的行为特征，如车系的点击量pv等，与相关车系比较，通过人工计算的方法得到的另外9个车系和奥迪A4L车系的车系相关度，即“打分”表示的数值。“打分”的数值和“count”的数值一致，则说明了本实施例中的10个车系，通过本发明提供的的车系相关度确定的方法计算得到的结果，基本符合车系相关度的计算要求。另外“打分”和“count”均是用来衡量与待确定相似车系的车系的相似性，其数值越大表示相似性越高，故“打分”或“count”的数值最高的就是待确定相似车系的车系。

本发明通过软件系统建模计算车系相关度的方法取代了人工确定车系的方法，解放了劳动力，处理过程省时省力。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于word2vec的车系相关度确定的方法，其中，所述方法包括：

收集建模数据；

对收集的建模数据进行过滤处理；

根据过滤处理后的建模数据构建车系相关模型；

计算车系相关模型的相关度；

根据相关度展示相关车系。

2.根据权利要求1所述的车系相关度确定的方法，其中，所述建模数据包括：车系点击量数据、车源序列数据和车系序列数据。

3.根据权利要求1所述的车系相关度确定的方法，其中，所述过滤处理包括删除数据处理和存储数据处理。

4.根据权利要求3所述的车系相关度确定的方法，其中，所述删除数据包括删除不符合建模要求的数据；所述存储数据包括存储符合建模要求的数据。

5.根据权利要求4所述的车系相关度确定的方法，其中，所述不符合建模要求包括用户的点击序列长度与其中所点击的不同的车系个数比值超过预定阈值。

6.根据权利要求1所述的车系相关度确定的方法，其中，所述构建车系相关模型包括通过word2vec中的skip-gram模型建立车系相关模型和通过word2vec中的HierarchicalSoftmax优化方法优化所述车系相关模型。

7.根据权利要求6所述的车系相关度确定的方法，其中，在训练建立所述车系相关模型时，将过滤处理后的车系点击序列集合输入到所述skip-gram模型中，对所述skip-gram模型中用于获取输入输出的滑动窗口大小以及词向量的维度大小中的一个或多个进行调节。

8.根据权利要求1所述的车系相关度确定的方法，其中，所述计算车系相关模型的相关度即基于词向量确定车系相关度。

9.根据权利要求8所述的车系相关度确定的方法，其中，所述基于词向量确定车系相关度包括：

确定车系相关模型对应的词向量；

计算所述词向量表示的距离数值；

所述距离数值即为所述车系相关模型的相关度。

10.根据权利要求1所述的车系相关度确定的方法，其中，所述展示相关车系即根据车系相关度提取展示车系相关度高的车系信息。

11.一种确定车系相关度的装置，其中，所述装置包括：

建模数据收集模块，用于收集建模数据；

数据处理模块，用于过滤收集到的建模数据；

计算模块，用于计算所述车系相关模型的车系相关度；

12.根据权利要求11所述的确定车系相关度的装置，其中，所述建模数据收集模块用于收集车系点击量数据、车源序列数据和车系序列数据。

13.根据权利要求11所述的确定车系相关度的装置，其中，所述数据处理模块包括数据删除模块和数据保存模块；

所述数据删除模块，用于删除不符合建模要求的数据；

所述数据保存模块，用于保存符合建模要求的数据。

14.根据权利要求11所述的确定车系相关度的装置，其中，所述模型构建模块包括建模模块和模型优化模块；

15.根据权利要求11所述的确定车系相关度的装置，其中，所述计算模块包括词向量提取模块和词向量计算模块；

16.根据权利要求11所述的确定车系相关度的装置，其中，所述结果输出模块，还用于根据车系相关度搜索提取相应的相关车系的车系信息。