CN110609961A

CN110609961A - 一种基于词嵌入的协同过滤推荐方法

Info

Publication number: CN110609961A
Application number: CN201810561270.8A
Authority: CN
Inventors: 何铁科; 廉昊; 严格; 陈振宇; 李玉莹
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-05-29
Filing date: 2018-05-29
Publication date: 2019-12-24

Abstract

本发明是一个解决司法研究中的罚金推断问题的推荐方法。该方法以两种方式来推断罚金，一是通过对法律案件进行聚类，然后通过多数投票策略获得目标案件的判罚；另一种是通过协同过滤，即查找目标案件的邻居，然后再次采用投票策略。引入了词嵌入技术，它将文档作为词矩阵进行处理，即嵌入法通过word2vec方法，用浅层神经网络语言模型来学习每个词的向量。本发明目的在于对法官们进行法律案件的最终判决和罚金数额的确定起到实际的指导作用，进而有利于司法事业的发展和社会效率的提高。

Description

一种基于词嵌入的协同过滤推荐方法

技术领域

本发明属于计算机技术中的机器学习领域，尤其是机器学习中数据分析领域，引入协同过滤的推荐方法，并采用Word2vec嵌入来考虑词的上下文信息，该技术可以对法官决定最终的罚款金额进行有效的推荐，进而有利于司法事业的发展和社会效率的提高。

背景技术

随着互联网的快速发展，我们进入了信息爆炸的时代，有必要使用能够过滤出可用数据并允许搜索合适数据的技术。在这种情况下，推荐系统似乎是一种实用的方法。推荐系统采用信息过滤来向用户推荐感兴趣的信息，并且被定义为在了解用户的偏好和要求后提出适当的产品或服务的系统。

司法研究在远程审判中的语音识别和计算机视觉以及数据压缩、存储和传输等方面取得了进展。然而，对法律案件的知识发现的研究却很少，而这是司法大数据中最关键的部分。法律案件主要包括对案件事实的描述、适用的法规或情形、原告和被告的基本信息，以及律师和法院信息。法律案件的最终决定对于法院来说一直是一项复杂的任务，它往往涉及很多谈判，并且涉及适用的法规或情形以及历史上类似的案例。这个过程的每一步都需要集中的人力和专业知识。因此，在某些步骤中提供援助可以大大有利于司法事业，从而提高整个司法系统的效率。我们首先推断处罚或罚款金额，这会对法官们进行法律案件的最终判决起到实际的指导作用。

传统的推荐方式包括分层聚类、kNN、k-means和传统的基于TF-IDF结果的协同过滤等方法。

层次聚类是一种简单而实用的聚类算法。它主要有自上而下和自下而上方法两种类型。当对标签执行层次聚类时，使用共现作为距离，层次聚类可以获得具有所选距离的相关标签集合，然后可以将其用作“主题”。在层次聚类中，每个单词或标签只能分配到一组标签或“主题”中。有两种相对新颖的层次聚类算法。BIRCH(利用层次结构的平衡迭代规约和聚类)主要用于数据量较大、数据类型为数值的情况。ROCK(分类属性的层次聚类算法)主要用于分类数据类型。层次聚类的优点主要体现在：(1)该算法中，距离和规则的相似性易于定义，限制较少；(2)算法不需要预先设定簇的数量；(3)可以找到类的层次关系。然而，层次聚类的缺点是计算复杂度高以及对奇异值敏感。

K-means算法是一种单一的迭代聚类算法，它将给定的数据集划分为用户指定数量的聚类，即K个。它的实现和运行很简单，也比较快速，容易也通常被应用于实践中。通过聚类算法，数据按照“接近度”或“相似度”的概念进行分组。在K-means中，接近度的默认度量是欧氏距离。K-means简单易懂，容易实现，时间复杂度低，但仅基于一个目标函数，通常用梯度法解决极值问题。还存在以下缺陷：(1)K-means需要手动输入类的数目，且对初始值的设置很敏感，因此有了K-means++、intelligent K-means和genetic K-means来弥补这一缺陷；(2)K-means对噪声和离群值非常敏感，因此可以使用K-medoids和K-median；(3)K-means仅用于数值类型数据，不用于分类数据。

KNN是一个基于实例的学习算法。常用于分类，也可用于估算和预测。给定一组训练数据，可以通过将新数据与训练数据集中最相似的数据进行比较来对新数据进行分类。构建KNN分类器的过程涉及识别k值，即训练数据集中要考虑的最相似类的数量。该过程还涉及基于距离函数的定义来测量相似度。最常用的距离函数是欧式距离。KNN算法具有较高的精确度，对离群值不敏感。它可以用于分类和回归，包括非线性分类。训练时间复杂度仅为O(n)。但是，该算法有一个缺点，它需要大量的存储内存。它还存在样本不平衡的问题(即某些类的样本容量很大，而其他类样本容量很小)。

协同过滤(CF)是推荐系统主要使用的技术。有两类协同过滤，基于用户和基于物品的协同过滤。基于用户的方法首先找几个与活跃用户相似的用户，然后对这些相似用户偏爱的物品进行聚合来生成推荐列表。基于物品的方法已被提出来解决基于用户的方法的可扩展性问题。已经有人提出了许多对最早的协同过滤的调整。

发明内容

为解决司法研究中的罚金推断问题，我们引入了推荐技术，并提出了一个处理该任务的推荐框架。

我们首先用经典的推荐方式，如分层聚类、kNN、k-means和传统的基于TF-IDF结果的协同过滤等方法。TF-IDF用于提取法律案件文本描述中的词汇，然后为每个法律案件生成一个词向量，作为后续聚类算法处理和相似度计算的基础。这种方法的缺点是除了单词根据文档或整个语料库占据的权重之外，忽略了它们在文档中具有上下文信息的事实。这导致了在生成推荐列表时推荐准确性的降低。

意识到这一点，我们引入了词嵌入技术，它将文档作为词矩阵进行处理，即嵌入法通过word2vec方法，用浅层神经网络语言模型来学习每个词的向量。具体来说，采用由输入层、投影层和输出层组成的神经网络体系结构(skip-gram模型)来预测附近采用的单词，然后通过这些矢量为每个文档构建矩阵。我们以两种方式来推断罚金，一是通过对法律案件进行聚类，然后通过多数投票策略获得目标案件的判罚；另一种是通过协同过滤，即查找目标案件的邻居，然后再次采用投票策略。

我们对司法数据集进行了大量实验，结果表明推荐框架是有效的，嵌入法优于所有的传统方法。

附图说明

图1为本发明提出的用于罚金推断的框架。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

图1为本发明提出的用于罚金推断的框架图。该框架由聚类方法和协同过滤两种方法组成。采用基于嵌入法的协同过滤方法可以提高推荐的准确性，它考虑了文档中单词的上下文信息，而不是像TF-IDF那样的传统方法将单词看成是独立于文档的。我们还对司法数据集进行了大量实验，结果表明推荐框架是有效的，嵌入法优于所有的传统方法。主要步骤如下：

1)首先，对原始文档执行一些数据预处理。将数据预处理视为分割，将停用词和属性标签过滤掉。我们放弃了词干的选项，因为之前有研究显示它具有较小的影响力。

先对文本描述执行分割。对于中文文档，分词的结果对整个任务的效果影响很大，我们比较了一系列中文词法分析器，最后选择了NLPIR做分词。得到分割的结果后，需要删除停用词。主要在这一步采用常用的中文停用词表。之后，采用NLPIR来给单词贴标签。在这一步中每个法律案件获得了一个原始特征空间。

2)接下来采用基于特征向量的方法和基于特征矩阵的方法进行处理。

在基于特征向量的方法中：

步骤1)我们选择TF-IDF来构造向量空间。首先计算所有单词的TF-IDF，即，在上一步选择出特征词之后，确定它们的权重，因为不同的词对法律案件的重要性不同，需要用数值表示它们的差异。通常情况下，对法律案件来说重要的词语应该有很大的价值，而那些不重要的词语会有很小的价值。采用TF-IDF来计算特征词的数值，TF-IDF既考虑到词频，也考虑到文档频率的影响，公式定义如下：

其中，tf_ik是法律案件k中特征词的频率，N是法律案件数量，df_i是所有法律案件中特征词的频率。通过这种方式，我们完成了为所有法律案件构建向量空间的过程。

步骤2)基于TF-IDF的结果，再采用层次聚类、kNN和k-means等聚类方法对所有法律案件进行聚类，然后通过投票策略，用聚类来推断目标法律案件的罚金。

技术细节如下。有两种主要类型的层次聚类，即自上而下和自下而上的方法。本发明采用了自下而上的方法。给定一组向量T＝{t₁，t₂，...，t_n}，t_i表示一个特定的向量。起初，每个词都放在一个单独的集群中，因此最初的一组集群是

C＝{c₁＝{t₁}，c₂＝{t₂}，...，c_n＝{t_n}}

在每次迭代中，使用一些距离测量来挑选出两个最近的聚类并聚合在一起。本发明的簇之间的距离是基于向量计算的。

基于kNN的方法推荐过程为：通过识别k值和训练数据集中要考虑的最相似类的数量来构建KNN分类器，其过程涉及到基于距离函数的定义来测量相似度，采用欧氏距离作为距离函数。一旦得到结果集群，对于测试案件，找到它的集群，然后应用投票策略来选择一个金额的类别，通过这个类别实现推荐。

基于K-means的推荐与基于kNN的方法最相似。通过聚类算法，数据按照“贴切度”或“相似度”的概念进行分组。使用欧式距离来测量贴切度。同样，我们得到结果集群，然后对于测试案件，我们找到它所属的集群，然后应用投票策略选择金额类别，这就是推荐过程。

基于文档向量的协同过滤推荐的技术细节如下。协同过滤(CF)已被广泛应用于商业环境中。CF方法由基于用户的CF、基于物品的CF和其他变体组成。CF的主要思想是相似的项目可能会有相似的偏好，相似度越高说明它们越像。给定法律案件列表U＝{u₁，u₂，...，u_n，}和特征列表{i₁，i₂，...，i_n}，案件u可以用其特征向量r＝(r_u，1，r_u，2，...，r_u，m)来表示。案件u和v之间的相似度可以用r_u和u_v之间的距离，使用余弦相似度来衡量。在计算出所有相似性之后，对于目标测试案件，k个相似案件被充分用来预测最终的罚金数额，接着就跟其他方法一样，使用投票策略来生成最终罚金的类别。

在基于特征矩阵的方法中：

步骤1)分词。删除停用词，并进行标记。

步骤2)采用词嵌入的迭代过程，通过这一过程生成一组词向量。

步骤3)行拼接，将每个文档(法律案件)组成一个矩阵。

步骤4)基于文档矩阵的协同过滤来生成最终的推荐列表。它是基于矩阵距离的，本发明使用词语移动损耗方法(word travel cost)来计算矩阵之间的距离。对于目标测试案件，k个相似案件被充分用来预测最终的罚金数额，接着使用投票策略来生成最终罚金的类别。

在对该框架进行评估的过程中，我们通过爬虫获得了法律案件的加密数据集，再通过过滤得到3,500个法律案件的文本描述作为数据集，将层次聚类、kNN、K-means、基于向量的协同过滤与基于矩阵的协同过滤(本文提出的基于词嵌入的协同过滤方法)进行比较。

根据轮次数和步骤、实验的设计、比较方法和实验组、度量指标、结果的讨论等方面，划分训练集和测试集的比例。将测试法律案件的罚款金额类别标出，然后通过所有的比较方法去计算推断出罚金数额所属的类别。

我们定义了如下的一些符号。Al是正确聚集到特定原始集群中的测试案件的数量，Bl是错误地分配给该特定集群的测试案件的数量，Cl是未分配到其原始的特定集群的测试案件的数量，而k是集群的数量。并且，我们通过以下方式定义精确率Precision和召回率Recall。

我们期望同时有好的Precision和Recall值。然而，他们通常相互冲突，改善一个通常需要牺牲另一个。因此，综合评价指标F₁被引入以结合Precision和Recall。F₁计算方法如下：

综上所述，本发明提出了一种用于司法研究的罚金推荐技术，该技术在帮助法官决定最终判罚或罚款金额方面很有效。我们还对这个基于词嵌入的协同过滤推荐方法进行了大量的实验来评估其在真实法律案件数据集上的表现。实验结果证明了该框架的优越性。

Claims

1.一种基于词嵌入的协同过滤推荐方法，其特征在于由聚类方法和协同过滤两种方法组成，采用基于嵌入法的协同过滤方法可以提高推荐的准确性，它考虑了文档中单词的上下文信息，而不是像TF-IDF那样的传统方法将单词看成是独立于文档的。在推荐准确性上优于层次聚类、kNN、k-means和传统的基于TF-IDF结果的协同过滤等方法。该方法包括下列步骤：

1)数据预处理。对原始文档进行分割。过滤掉停用词、属性标签，放弃词干等。在这一步中每个法律案件获得了一个原始特征空间。

2)采用基于特征向量的方法和基于特征矩阵的方法进行处理。

2.根据权利要求1所述的基于词嵌入的协同过滤推荐方法，其特征在于推荐准确性较高，在步骤1)中，采用NLPIR做分词，以及给单词贴标签。

3.根据权利要求1所述的基于词嵌入的协同过滤推荐方法，其特征在于采用了聚类方法和协同过滤两种方法，在步骤2)中，在基于特征向量的方法中：

步骤1)采用TF-IDF来计算特征词的数值

在基于特征矩阵的方法中：

步骤1)分词。删除停用词，并进行标记。

步骤3)行拼接，将每个文档(法律案件)组成一个矩阵。

步骤4)基于文档矩阵的协同过滤来生成最终的推荐列表。