CN110633363A

CN110633363A - 一种基于nlp和模糊多准则决策的文本实体推荐方法

Info

Publication number: CN110633363A
Application number: CN201910883202.8A
Authority: CN
Inventors: 钟艳如; 高宏; 赵蕾先; 郭秀艳; 甘才军; 李一媛; 罗笑南
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2019-12-31
Anticipated expiration: 2039-09-18
Also published as: CN110633363B

Abstract

本发明公开了一种基于NLP和模糊多准则决策的文本实体推荐方法，其特征在于，包括如下步骤：1）采用word2vec对文本进行词向量训练；2）对每个词向量进行相似度计算；3）构造模糊多准则决策的推荐过程；4）量化实体词向量相似度参数5）构造模糊决策标准矩阵；6）用相对比较法确定标准实体的权重；7）使用模糊聚合算子量化实体推荐过程的总体用户偏好；8）得到被推荐实体的排名，进行推荐。这种方法能缩短文本实体推荐时间、提高词向量相似度精度，同时具有推荐精度高、软件运算量低的特点，在保证文本相似度精度的前提下实现精准推荐的要求。

Description

一种基于NLP和模糊多准则决策的文本实体推荐方法

技术领域

本发明涉及自然语言处理、深度学习和多属性决策领域，尤其涉及一种基于NLP和模糊多准则决策的文本实体推荐方法。

背景技术

随着计算机应用领域的不断扩大，互联网上的数字信息越来越多，用户也越来越多，导致信息超载，这使得自然语言处理受到了人们的高度重视。机器翻译、语音识别以及信息检索等应用需求对计算机的自然语言处理能力提出了越来越高的要求。为了使计算机能够处理自然语言，首先需要对自然语言进行建模。自然语言建模方法经历了从基于规则的方法到基于统计方法的转变。从基于统计的建模方法得到的自然语言模型称为统计语言模型。有许多统计语言建模技术。在对自然语言进行建模的过程中，会出现维数灾难、词语相似性、模型泛化能力以及模型性能等问题。寻找上述问题的解决方案是推动统计语言模型不断发展的内在动力。在对统计语言模型进行研究的背景下，Google公司在2013年开放了Word2vec这一款用于训练词向量的软件工具。Word2Vec(Word to Vector)也被称为“Word Embedding”，一般被理解为“词向量”或“词嵌入”，是由托马斯·米科洛夫(TomasMikolov)团队在Bengio提出的神经网络语言模型(Neural Network Language Model)和Hinton提出的LogBilinear模型的基础上开源的一款用于计算词向量的深度学习工具，通过学习文本可以将字词转换为向量的形式并用词向量的方式表征词的语义信息，其思想是通过将单词从原先所属的空间嵌入到一个新的多维空间中，使得语义上相似的单词在该空间内呈现较近的距离，该过程实质上即是一个映射；Word2vec可以根据给定的语料库，通过优化后的训练模型快速有效地将一个词语表达成向量形式，为自然语言处理领域的应用研究提供了新的工具；Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入，前者基于给定上下文，来预测目标词信息，后者则是通过输入一个词，希望预测出现在其上下文的词，计算复杂度较高，语义精确。

决策是任何有目的的活动发生之前必不可少的一步。决策的主体是人，是决策者对所面临的决策问题的一个“动态的必理核算过程”。随着社会的发展，决策问题的复杂性和信息量的增大，仅仅依靠直觉和经验来决策已经不能做出准确的判断，决策分析学由此产生。当前决策者所面临的决策问题越来越复杂，所面临的决策问题往往需要均衡地综合考虑多个相互制约和矛盾的属性，而不同属性比较评价的标准通常是不同的，这就需要决策者综合考虑这些因素进行决策，由此产生了多属性决策。多属性决策理论是1957年由Churchman与Ackoff等人提出的，在现代决策中占有重要的地位，具有广泛的实际应用背景。对多属性决策的研究有长久深厚的历史背景，涉及的学科很多，如运筹学、管理学、经济学、地理学、市场学、应用统计学、决策学等等，当诸如属性权重、属性值等决策信息完全给定时，根据一些模型和方法比较容易得出评价结果。然而，在实际决策中存在大量的模糊性，决策者很难用确定数来表示多属性决策中的相关信息，因为有时候决策者处理信息的能力有限，特别是在复杂和不确定环境下的数值判断能力有限，有时一些属性是定性的，反映社会和环境的影响很难量化，有时要求的时间紧迫，而可参考的知识和数据比较缺乏，所模糊决策是决策科学发展的必然结果。美国计算机与控制论专家Zadeh教授于1965年首次提出了模糊集的概念，创造了研究模糊性或不确定性问题的理论方法。模糊理论如今已经较为完善，在某种程度上弥补了经典数学和数理统计与概率论的不足，能够较好地描述与效仿人类的思维方式，总结和反映人的体会与经验。1970年Zadeh首先根据模糊数学的知识给出模糊决策的基本模型，处理决策者不能用确定数表示的决策信息。模糊决策的理论更接近于现实，特别是对冲突的消除、群决策分析或难以达成预先设定的目标等问题，模糊数学的方法更是可靠的。

模糊多属性决策是与数学、运筹学、系统工程和管理科学等相关的一门交叉学科。近几十年来，学者们逐渐将数学模型引入到决策分析中，运用现代科学计算从不同角度解决了几类模糊多属性决策问题并取得了丰硕的研究成果，但是模糊多属性决策理论的研究工作缺乏系统性，无论从理论研究和实际应用方面，都不够成熟和完善。因此对模糊多属性决策方法的研究有重要的意义，不但可丰富决策理论的发展，还可加强其理论在经济、管理、军事和工程等领域的应用。

现有的文本实体相似度的研究已经很全面了，但是大数据下，任何关于实体相似度的研究都具有不确定性和相应的误差，而模糊集正好可以解决这一问题。通过将相似度用模糊数表示，在使用模糊多准则决策理论可以实现精准推荐，还可以给出相应的排名。

发明内容

本发明的目的是针对现有技术的不足，而提供一种基于NLP和模糊多准则决策的文本实体推荐方法。这种方法能缩短文本实体推荐时间、提高词向量相似度精度，同时具有推荐精度高、软件运算量低的特点，在保证文本相似度精度的前提下实现精准推荐的要求。

实现本发明目的的技术方案是：

一种基于NLP和模糊多准则决策的文本实体推荐方法，与现有技术不同处在于，包括如下步骤：

1)采用word2vec对文本进行词向量训练：在自然语言处理中，最细的粒度是词语，由词语再组成句子，段落，文章，所以处理自然语言处理问题时，怎么合理的表示词语就成了自然语言处理领域中最先需要解决的问题，为了将中文字符进行数字化特征处理，需要对文本语料进行训练，将词语转化成多维度的特征向量，在自然语言处理任务中，首先需要考虑词如何在计算机中表示，通常，有两种表示方式：独热表示和分布表示，由于获得具有连续特征的向量维度，需要对独热向量进行训练分布式训练，将文本词语转化成分布式表示，采用连续词袋模型(Continuous Bag-Of-Words，简称CBOW)并根据文本语料的原始输入完成文本语料分布式训练，并且转化成词向量,采用的连续词袋模型包括三层的神经网络；

2)对每个词向量进行相似度计算：将步骤1)中文本语料词向量训练得到的多维度向量进行相似度计算，如公式(1)所示：

其中，A＝(A₁，A₂,…,A_n)和B＝(B₁，B₂,…,B_n)为两个n维向量，||A||和||B||分别为向量A和B的模，对于两个多维度向量A和B，向量A和向量B的空间点积，然后除以两者的模，得到的结果便是两者向量之间的相似度cosθ；由于这些向量对应的是文本实体，因此经过步骤1)、步骤2)的语料转化为向量，再经过余弦相似度转化为相似度，并且得到的余弦相似度的取值范围为[0，1]；

3)构造模糊多准则决策的推荐过程：一个文本实体多准则决策(MultipleCriteria Decision Making，简称MCDM)问题描述为有一组备选实体A＝{A₁,A₂,…,A_m}，一组标准C＝{C₁,C₂,…,C_n}和一个决策矩阵M：

其中A₁，A₂，…，A_m是不同的选择，C₁，C₂，…，C_n是不同的标准，v_i,j(i＝1,2,…,m,j＝1,2,…,n)是选择i对于准则j的数值，根据集合A、集合C和矩阵M，将文本实体多准则决策问题描述为：在基于标准集合C和决策矩阵M的A级元素等级的帮助下做出决定，对于实体推荐问题，在文本中选出m个候选实体作为备选方案(A₁、A₂、…A_m)，这些实体的选择标准是n个不同的实体，C＝{C₁,C₂,…,C_n}，则数值v_i,j可表示为候选实体与标准实体之间的相似度，基于此，基于MCDM的实体推荐问题可以描述为：基于决策矩阵M和标准实体集合，从m个候选实体中选择出与n个标准实体总体相似度最大的实体；

4)量化实体词向量相似度参数：选择模糊数表示实体之间的相似度，而模糊数必须符合数值范围在0-1之间，所以量化数值v_i,j(i＝1,2,…,m,j＝1,2,…,n)到模糊数中，需要一个比率模型，其中每个v_i,j与作为A₁、A₂、…的表示的分母进行比较，最佳的比率模型是该分母的每个选择准则的平方和的平方根即如公式(2)所示：

其中i＝1，2，…，m，j＝1，2，…，n，r_ij是v_i,j的比值，0≤r_ij≤1.因此，数值v_i,j可以量化为模糊数<r_ij>；

5)构造模糊决策标准矩阵：在矩阵M中，因为数值v_i,j(i＝1,2,…,m,j＝1,2,…,n)已经被量化为模糊数<r_ij>(i＝1,2,…,m,j＝1,2,…,n)，矩阵M被转换成一个元素为模糊数的矩阵M_F，在此基础上，将模糊决策矩阵构造为：

每个多准则决策问题都有两种标准，即效益标准和成本标准，它们分别对决策产生正反两方面的影响，为了消除不同类型准则的影响，模糊决策矩阵M_F被标准化为公式(3)：

M_N＝[Θ_i,j]_m×n (3)

其中，Θ_i,j＝<r_ij>则C_j为效益标准，Θ_i,j＝<1-r_ij>则C_j为成本准则；

6)用相对比较法确定标准实体的权重：相对比较法是间接确定权重的一种方法，首先，将任意两个标准实体C_i,C_j进行相对重要性比较，得到一个相对评分，记为a_ij，采用两个实体之间的相似度表示相对评分a_ij，用0，0.1，0.2，0.4，0.5，0.6，0.8，0.9，1分别代表绝对不相似、明显不相似、相当不相似、略微不相似、同等相似、略微相似，相当相似、明显相似和绝对相似，由此，可得到判断矩阵：

其中，a_ij＝1-a_ji，

则标准实体C_i的权重w_i可表示为公式(4)：

7)使用模糊聚合算子量化实体推荐过程的总体用户偏好：用户偏好评估是基于该过程的执行的评估结果和候选实体推荐过程的排名结果的生成来量化每个推荐过程的总体用户偏好，通常通过聚合性能评估结果并在大多数现有推荐过程选择方法中比较聚合结果来实现，由于本技术方案所提出的方法中的过程性能评估的结果是模糊决策矩阵M_N，用户偏好可以通过聚合矩阵M_N中的每一行模糊数，并比较所有行的聚合结果来执行评估，采用模糊聚合算子的多准则决策方法来实现对候选实体的总体用户偏好的评估，用步骤5)和步骤6)中的标准化矩阵M_N和权值集w＝{w₁,w₂，…,w₃}中的权值作为输入，采用加权模糊聚合算子，量化n个候选推荐实体的用户偏好；

8)得到被推荐实体的排名，进行推荐：基于量化的总体用户偏好，可通过模糊数的比较规则生成候选实体排名序列，根据排名，选择最合适的实体用于推荐。

步骤1)中所述的连续词袋模型包括三层的神经网络，为一个用于快速训练得到词向量的神经网络模型,核心原理是中心词的前R个词和后R个词来预测中心词，假设中心词是w_i的上下文来训练其词向量，则有公式(5)：

C(w_i)＝{w_j|j∈[i-R,i)∩[i+1,i+R)} (5)

输入的是2R-1个上下文的平均值如公式(6)所示：

其中有e(w_i)则定义为词向量W_|V|*|D|中取出词w_i所对应的那一行或者那一列，|V|则是词典的大小，一般是|D|是选择的词向量的长度，其中W_|V|*|D|对应的是向量矩阵，X指的是经过窗口R滑动之后对应哪个词向量i维度的训练值，公式(5)、公式(6)表示取距离为R的窗口，对其进行一个滑动，将在前R个、包括自己文本的独热向量，以及后R个、包括自己的共2R-1个中文实体所对应的独热向量，所对应的维度累加并且对其求平均，最后循环迭代，得到一个多维度的词向量。

步骤8)中所述的比较规则定义为：设Θ₁＝(μ₁,v₁)andΘ₂＝(μ₂,v₂)为任意两个模糊数，S(Θ₁)和S(Θ₂)为对应的得分函数，A(Θ₁)和A(Θ₂)为精确度函数，则：

(1)如果S(Θ₁)>S(Θ₂),则Θ₁>Θ₂；

(2)如果S(Θ₁)＝S(Θ₂),则：

(2-1)若A(Θ₁)>A(Θ₂),则Θ₁>Θ₂；

(2-2)若A(Θ₁)＝A(Θ₂),则Θ₁＝Θ₂，

基于量化的总体用户偏好，也就是聚合成候选实体所对应模糊值，通过模糊数的比较规则生成候选实体排名序列。

这种方法缩短了文本实体推荐时间、提高了词向量相似度精度，同时具有推荐精度高、软件运算量低的特点，在保证文本相似度精度的前提下实现精准推荐的要求。

附图说明

图1为实施例中的方法流程图；

图2为实施例中实体推荐流程图；

图3为实施例中三层神经网络模型结构示意图。

具体实施方式

下面结合附图和实施例对本发明的内容作进一步的阐述，但不是对本发明的限定。

实施例：

参照图1，一种基于NLP和模糊多准则决策的文本实体推荐方法，包括如下步骤：

1)采用word2vec对文本进行词向量训练：在自然语言处理中，最细的粒度是词语，由词语再组成句子，段落，文章，所以处理自然语言处理问题时，怎么合理的表示词语就成了自然语言处理领域中最先需要解决的问题，为了将中文字符进行数字化特征处理，需要对文本语料进行训练，将词语转化成多维度的特征向量，在自然语言处理任务中，首先需要考虑词如何在计算机中表示，通常，有两种表示方式：独热表示和分布表示，由于获得具有连续特征的向量维度，需要对独热向量进行训练分布式训练，将文本词语转化成分布式表示，采用连续词袋模型根据文本语料的原始输入完成文本语料训练，并且转化成词向量，其为一个三层的神经网络；

3)构造模糊多准则决策的推荐过程：一个文本实体多准则决策问题描述为有一组备选实体A＝{A₁,A₂,…,A_m}，一组标准C＝{C₁,C₂,…,C_n}和一个决策矩阵M：

其中A₁，A₂，…，A_m是不同的选择，C₁，C₂，…，C_n是不同的标准，v_i,j(i＝1,2,…,m,j＝1,2,…,n)是选择i对于准则j的数值，根据集合A、集合C和矩阵M，将文本实体多准则决策问题描述为：在基于标准集合C和决策矩阵M的A级元素等级的帮助下做出决定，对于实体推荐问题，在文本中选出m个候选实体作为备选方案(A₁、A₂、…)，这些实体的选择标准是n个不同的实体，C＝{C₁,C₂,…,C_n}，则数值v_i,j可表示为候选实体与标准实体之间的相似度，基于此，实体推荐问题可以描述为：基于决策矩阵M和标准实体集合，从m个候选实体中选择出与n个标准实体总体相似度最大的实体；

5)构造模糊决策标准矩阵；在矩阵M中，因为数值v_i,j(i＝1,2,…,m,j＝1,2,…,n)已经被量化为模糊数<r_ij>(i＝1,2,…,m,j＝1,2,…,n)，矩阵M被转换成一个元素为模糊数的矩阵M_F，在此基础上，将模糊决策矩阵构造为：

M_N＝[Θ_i,j]_m×n (3)

其中，a_ij＝1-a_ji，

则标准实体C_i的权重w_i可表示为公式(4)：

7)使用模糊聚合算子量化实体推荐过程的总体用户偏好：用户偏好评估是基于该过程的执行的评估结果和候选实体推荐过程的排名结果的生成来量化每个推荐过程的总体用户偏好，通常通过聚合性能评估结果并在大多数现有推荐过程选择方法中比较聚合结果来实现，由于本例所提出的方法中的过程性能评估的结果是模糊决策矩阵M_N，用户偏好可以通过聚合矩阵M_N中的每一行模糊数，并比较所有行的聚合结果来执行评估，采用模糊聚合算子的多准则决策方法来实现对候选实体的总体用户偏好的评估，用步骤5)和步骤6)中的标准化矩阵M_N和权值集合w＝{w₁,w₂，…,w₃}中的权值作为输入，采用加权模糊聚合算子，量化n个候选推荐实体的用户偏好；

步骤1)中所述的连续词袋模型为三层的神经网络，其模型如图3所示，核心原理是中心词的前R个词和后R个词来预测中心词，假设中心词是w_i的上下文来训练其词向量，则有公式(5)：

C(w_i)＝{w_j|j∈[i-R,i)∩[i+1,i+R)} (5)

输入的是2R-1个上下文的平均值如公式(6)所示：

(1)如果S(Θ₁)>S(Θ₂),则Θ₁>Θ₂；

(2)如果S(Θ₁)＝S(Θ₂),则：

(2-1)若A(Θ₁)>A(Θ₂),则Θ₁>Θ₂；

(2-2)若A(Θ₁)＝A(Θ₂),则Θ₁＝Θ₂，

基于量化的总体用户偏好，也就是聚合成候选实体所对应模糊值，通过模糊数的比较规则生成候选实体排名序列，根据排名，选择最合适的实体用于推荐。

参照图2，文本实体推荐过程为：

将相似度模糊决策矩阵和标准实体权重作为输入，其中，相似度模糊决策矩阵为n(n个标准实体)*m(m个推荐实体)维，矩阵中元素为标准化后的实体相似度，标准实体权重采用相对比较法得到。上述输入通过模糊算子聚合成m维向量，对应推荐实体，然后通过模糊数之间的的比较规则可得到推荐实体的排名情况。

Claims

1.一种基于NLP和模糊多准则决策的文本实体推荐方法，其特征在于，包括如下步骤：

1)采用word2vec对文本进行词向量训练：采用连续词袋模型即CBOW并根据文本语料的原始输入完成文本语料分布式训练，并且转化成词向量，采用的连续词袋模型包括三层的神经网络；

其中，A＝(A₁，A₂,…,A_n)和B＝(B₁，B₂,…,B_n)为两个n维向量，||A||和||B||分别为向量A和B的模，对于两个多维度向量A和B，向量A和向量B的空间点积，然后除以两者的模，得到的结果便是两者向量之间的相似度cosθ；经过步骤1)、步骤2)的语料转化为向量，再经过余弦相似度转化为相似度，并且得到的余弦相似度的取值范围为[0，1]；

3)构造模糊多准则决策的推荐过程：一个文本实体多准则决策即MCDM问题描述为有一组备选实体A＝{A₁,A₂,…,A_m}，一组标准C＝{C₁,C₂,…,C_n}和一个决策矩阵M：

其中A₁，A₂，…，A_m是不同的选择，C₁，C₂，…，C_n是不同的标准，v_i,j(i＝1,2,…,m,j＝1,2,…,n)是选择i对于准则j的数值，根据集合A、集合C和矩阵M，将文本实体多准则决策问题描述为：在基于标准集合C和决策矩阵M的A级元素等级的帮助下做出决定，对于实体推荐问题，在文本中选出m个候选实体作为备选方案(A₁、A₂、…)，这些实体的选择标准是n个不同的实体，C＝{C₁,C₂,…,C_n}，则数值v_i,j可表示为候选实体与标准实体之间的相似度，基于此，实体推荐问题描述为：基于决策矩阵M和标准实体集合，从m个候选实体中选择出与n个标准实体总体相似度最大的实体；

4)量化实体词向量相似度参数：选择模糊数表示实体之间的相似度，而模糊数必须符合数值范围在0-1之间，量化数值v_i,j(i＝1,2,…,m,j＝1,2,…,n)到模糊数中，构造比率模型，其中每个v_i,j与作为A₁、A₂、…的表示的分母进行比较，最佳的比率模型是该分母的每个选择准则的平方和的平方根即如公式(2)所示：

其中i＝1，2，…，m，j＝1，2，…，n，r_ij是v_i,j的比值，0≤r_ij≤1，数值v_i,j可以量化为模糊数<r_ij>；

5)构造模糊决策标准矩阵：在矩阵M中，数值v_i,j(i＝1,2,…,m,j＝1,2,…,n)已经被量化为模糊数<r_ij>(i＝1,2,…,m,j＝1,2,…,n)，矩阵M被转换成一个元素为模糊数的矩阵M_F，将模糊决策矩阵构造为：

模糊决策矩阵M_F被标准化为公式(3)：

M_N＝[Θ_i,j]_m×n (3)

6)用相对比较法确定标准实体的权重：首先，将任意两个标准实体C_i,C_j进行相对重要性比较，得到一个相对评分，记为a_ij，采用两个实体之间的相似度表示相对评分a_ij，用0，0.1，0.2，0.4，0.5，0.6，0.8，0.9，1分别代表绝对不相似、明显不相似、相当不相似、略微不相似、同等相似、略微相似，相当相似、明显相似和绝对相似，得到判断矩阵：

其中，a_ij＝1-a_ji，

则标准实体C_i的权重w_i可表示为公式(4)：

7)使用模糊聚合算子量化实体推荐过程的总体用户偏好：采用模糊聚合算子的多准则决策方法来实现对候选实体的总体用户偏好的评估，用步骤5)和步骤6)中的标准化矩阵M_N和权值集w＝{w₁,w₂，…,w₃}中的权值作为输入，采用加权模糊聚合算子，量化n个候选推荐实体的用户偏好；

2.根据权利要求1所述的基于NLP和模糊多准则决策的文本实体推荐方法，其特征在于，步骤1)中所述的连续词袋模型包括三层神经网络，为一个用于快速训练得到词向量的神经网络模型,原理是中心词的前R个词和后R个词来预测中心词，假设中心词是w_i的上下文来训练其词向量，则有公式(5)：

C(w_i)＝{w_j|j∈[i-R,i)∩[i+1,i+R)} (5)

输入的是2R-1个上下文的平均值如公式(6)所示：

其中有e(w_i)则定义为词向量W_|V|*|D|中取出词w_i所对应的那一行或者那一列，|V|则是词典的大小，一般是|D|是选择的词向量的长度，其中W_|V|*|D|对应的是向量矩阵，X指的是经过窗口R滑动之后对应哪个词向量i维度的训练值，公式(5)、公式(6)表示取距离为R的窗口，对其进行一个滑动，将前R个、包括自己文本的独热向量，以及后R个、包括自己的共2R-1个中文实体所对应的独热向量，所对应的维度累加并且对其求平均，最后循环迭代，得到一个多维度的词向量。

3.根据权利要求1所述的基于NLP和模糊多准则决策的文本实体推荐方法，其特征在于，步骤8)中所述的比较规则定义为：设

Θ₁＝(μ₁,v₁)andΘ₂＝(μ₂,v₂)为任意两个模糊数，S(Θ₁)和S(Θ₂)为对应的得分函数，A(Θ₁)和A(Θ₂)为精确度函数，则：

(1)如果S(Θ₁)>S(Θ₂),则Θ₁>Θ₂；

(2)如果S(Θ₁)＝S(Θ₂),则：

(2-1)若A(Θ₁)>A(Θ₂),则Θ₁>Θ₂；

(2-2)若A(Θ₁)＝A(Θ₂),则Θ₁＝Θ₂，