CN108415953A

CN108415953A - 一种基于自然语言处理技术的不良资产经营知识管理方法

Info

Publication number: CN108415953A
Application number: CN201810110091.2A
Authority: CN
Inventors: 后其林; 万谊强; 仵伟强; 李峻; 范小芹; 路世伦
Original assignee: Huarong Fusion (beijing) Technology Co Ltd
Current assignee: Huarong Fusion (beijing) Technology Co Ltd
Priority date: 2018-02-05
Filing date: 2018-02-05
Publication date: 2018-08-17
Anticipated expiration: 2038-02-05
Also published as: CN108415953B

Abstract

本发明一种基于自然语言处理技术的资产管理公司不良资产经营管理方法，包括知识库构建中的数据导入、基于深度学习和PageRank的关键词抽取两部分。利用特定的词库和HMM发现新词模型来对不良资产经营知识进行分词处理，提高了文本分词的准确性，建立更加完善的文本词库；通过深度学习方法训练词向量，可以避免词向量表示的“维数灾难”现象，能充分挖掘词汇上下文的信息，可以获取词与词之间的关系；基于改进的PageRank算法，根据特定合同中的词序列关系获取词连接的拓扑矩阵，将词向量之间的余弦值作为词与词的连接权重，不仅充分利用了训练词库得到的词向量信息，而且挖掘了文本中的词汇相对位置关系，具有强有力的理论依据。

Description

一种基于自然语言处理技术的不良资产经营知识管理方法

技术领域

本发明一种基于自然语言处理技术的不良资产经营知识管理方法，涉及金融领域自然语言处理技术，具体涉及一种面向资产管理公司不良资产经营领域的知识管理方法。

背景技术

不良资产经营业务作为国内金融市场的组成部分，具有维护金融生态稳定，消弭系统性风险的重要作用，是国内经济平稳运行的稳定器和灭火器。由财政部发起成立的四大资产管理公司(AMC)为不良资产经营的主体，因此，在AMC公司中开展不良资产经营知识的知识管理，对整个不良资产处置、经营行业水平的提升，效率的提高以及不良资产处置手段的多样化具有重要意义。

由于行业的特殊性，不良资产经营领域的知识管理相对于传统行业的知识管理也具有特殊性，传统的知识管理方法和体系不能很好适应于不良资产经营行业。主要体现在以下几个方面：首先，作为知识管理的对象，不良资产经营知识结构相对复杂。不良资产通常以打包出售的方式由银行交予资产管理公司处置，作为以不良资产处置为主营业务的资产管理公司，在拿到不良资产包后进行处置的方式多种多样，如重组、债转股等，因此不良资产处置的交易结构呈现多样化特征，与不良资产处置相关的知识涵盖面广、构成复杂；其次，不良资产经营领域中知识相关的数据结构化程度低。由于处置方式的多种多样，且面向的客户以中大型企业为主，因此客户数量相对较少，交易记录数据等结构化数据规模不大，而尽调报告、逾期报告、管理方法、会议纪要、合同、安慰函均属于非结构化文本数据，且规模较大；第三，不良资产经营领域中知识具有特殊性和行业性。不良资产经营业务准入门槛高，市场化参与程度低，因此不良资产经营知识在金融领域中占有的比例较小，且不易从外界获取，更多依赖于本公司从业人员的经验积累，因此，在金融领域中通用的知识管理工具，如行业语义分析解决方案、行业知识组织和管理方案并不能完全适用于资产管理公司的不良资产经营知识管理。

基于以上问题，本发明提出一种基于自然语言处理技术的良资产经营知识管理方法，从分析资产管理公司沉淀的大量非结构化数据入手，将大量的非结构化数据进行统一格式，并进行预处理，进而利用深度学习技术对获取文本库中的词向量，利用自然语言分析技术中获取词在文本中的权值，以特征关键词方式抽取知识，完成非结构化数据的结构化处理，在此基础上展开对不良资产经营知识的管理。

发明内容

不良资产经营知识管理，是对资产管理公司中大量有价值的方案、合同、成果、经验等知识进行收集、分类存储、管理和分享，从而积累知识资产避免流失，有效降低资产管理公司的运营成本，强化核心竞争力。本发明提出了一种基于自然语言处理技术的不良资产经营知识管理方法，将自然语言处理技术应用到不良资产经营知识管理方法上，以业务引导技术走向，以技术推动业务发展，实现多目标、多功能的智能化知识管理技术，高效、精确地服务于不良资产经营知识管理，从而替代大量的人工成本和落后的手工技术。

为了实现上述目的，本发明一种基于自然语言处理技术的资产管理公司不良资产经营管理方法采用如下技术方案：

资产管理公司存在大量的非结构化文本，本发明旨在将这些纷杂的知识内容(尽调报告、逾期报告、管理方法、会议纪要、合同、安慰函)和格式(word、excel、pdf、txt)智能化批量导入系统中，构建不良资产经营管理知识库，基于该知识库，对特定文本进行分析，抽取其关键字作为索引以达到高速检索商业资料的方法。本发明主要包括知识库构建中的数据导入、基于深度学习和PageRank的关键词抽取两部分，具体如下：

一.数据导入

该部分将资产管理公司中纷杂的知识内容和格式转化为统一格式导入到知识库。导入数据内容包括尽调报告、逾期报告、管理方法、会议纪要、合同、安慰函，格式包括word、pdf、excel、txt，编码包括gbk、gb2312、gb18030、unicode、utf-8，这部分将资产管理公司中大量非结构化数据批量地读取，根据敏感词汇库去除敏感词汇，并保存为统一编码的txt格式，作为知识库的储存知识。该部分对库存知识进行了初步筛选处理生成的文本库，为构建不良资产经营管理知识库提供了基础数据。

二.基于深度学习和PageRank的关键词抽取

该部分通过挖掘上一步得到的文本库，来构建文本库中的词向量，并对单个文本中的关键词、关键信息进行抽取。本发明基于以下两个假设：

1)文本中的词语围绕着关键词展开，关键词即是文本的中心思想；

2)文本中大部分词语关键词在语义上有连接关系，少部分词与中心思想不相关。

基于上述假设，该部分利用图论方法和隐马尔可夫模型(Hidden Markov Model，HMM)对导入文本库进行分词得到不良资产经营管理的词库，对该词库利用连续词袋模型(Continuous Bag-of-Words Model,CBOW)充分挖掘词与词之间的上下文信息，输出一个二叉树来表征文本库中的词向量，最后对单个文本利用改进的PageRank算法得到每个词在该文本中的权重大小，根据权重大小的优先级抽取关键词。

2.1文本分词：

对于不良资产经营管理知识库中的文本库，对文本库所有文本的每个句子进行扫描分词处理。详细步骤共分为四步：生成有向无环图、查找最大切分组合、生成未登录词及去除停止词。

2.1.1有向无环图

对于特定的不良资产经营管理文本库，本发明采用互联网搜集到的法律专用词汇词库构建Trie树对文本中的句子进行扫描，生成句子中汉字所有可能成词的情况，并将生成的词按照顺序构建有向无环图，即对每个句子生成有向无环图。比如单句“有意见分歧”，生成的词为：“有”，“意”，“有意”，“见”，“意见”，“分”，“歧”，“分歧”，生成的有向无环图如图1所示。

2.1.2最大切分组合

对于每个单句构成的有向无环图，本发明利用动态规划查找最大概率路径。将每个词出现的次数转化为频率(出现次数\总数)，先查找待分词句子中已经分好的词语，对该词语查找该词语出现的频率，如果没有该词，就将词典中出现频率最小的那个词语的频率作为该词的频率，继而根据动态规划从后往左查找最大概率路径的方法。由于汉语句子的中心经常落在后面，就是落在右边，因此从右往左计算的正确率比从左往右计算的正确率要高。

2.1.3生成未登录词

对于法律专用词汇词库中未出现的词，本发明利用HMM模型进行分词，将句子作为一个观测序列，分词结果作为状态序列，通过对文本库训练，并利用Viterbi算法进行求解，得到最优的状态序列，然后再根据状态序列，输出分词结果。

对于每个词中的字符，根据字符在词中的位置可分为四种状态：Begin(字符处于词的开始位置)、Middle(字符处于词的中间位置)、End(字符处于词的结束位置)、Single(字符是单字成词)。由上可知，B后面只可能接M或者E，M后面只可能接M或者E，S后面只可能接S或者B，E后面只可能接S或者B，则可以构建HMM的三元组(Π,A₁,A₂)，其中Π＝(π_i)为初始化概率向量，为状态转移矩阵，为四个状态的转移矩阵，由经验给出，为混淆矩阵，为训练中获取。在得到HMM的三元组后，利用Viterbi算法即可得到最佳的隐藏状态序列。

2.1.4去除停止词

对于分词完成的不良资产文本库，本发明利用搜集到的停止词词库去除不良资产经营管理词库中包含的停止词，对文本库进行进一步清理。

2.2基于深度学习的词向量

该部分利用深度学习中的CBOW模型、分层softmax(Hierarchical Softmax)策略对分好词的文本库进行训练，根据资产管理公司的文本库大小灵活定义词向量的维度，根据上下文信息关联度来定义词相关的窗口值，最终输出文本库中的词向量。本发明采用分布式表达(Distributed Representation)形式作为词向量的表示形式，即令一个g维向量，如w_i＝[0.112 -0.410 … 0.698]^T，作为词w_i的输入形式。利用这种表示形式，可以避免词向量表示的“维数灾难”现象，并且可以获取词与词之间的关系。为了充分挖掘词汇上下文的信息，本发明采用HierarchicalSoftmax策略和CBOW模型对词向量进行建模。在模型中，目标函数从多个单词构成字符串是自然语言出发，即

其中，L为目标函数方程，p(s)为字符串s作为句子的概率，字符串s是一个由m个词组成的有序词序列s＝{w₁,w₂,…,w_m}，w_j为单个词，m≥j≥0，Context_i为词w_i的上下文信息，这里具体指字符串s中距离词w_i位置最近的一些词。

令maxL为目标函数。在实际操作处理中，由于p(w_i|Context_i)＝0或者p(w_i|Context_i)太小会造成目标函数为0或者计算机中计算误差太大，因此对目标函数进行对数化处理，作为新的目标函数，表达式为：

基于这种情况需要巨大的参数空间以及计算强度，在CBOW中将Context_i进行简化，即Context_i＝{w_i-c,w_i-c+1,w_i-1,w_i+1,w_i+c-1,w_i+c}，其中c为一个灵活变量整数。

在CBOW模型的网络结构中，共包括三层网络架构：输入层、投影层和输出层，如图2所示。以输入样本(Context(w),w)为例(Context(w)为输入文本中处于词w前后的c个词组成)。

1.输入层：包含Context(w)中2c个词向量Context(w)₁，Context(w)₂，…，Context(w)_2c。

2.投影层：将输入层的2c个向量作求和累加，即

3.输出层：输出层对应一颗Huffman树，其中叶子节点表示为词库中的词，各词在语料中出现的次数当作权值构造出来的Huffman树，则从每个叶子代表的词是确定的，即从根节点达到每个词的最短路径是确定的。

在输出层中，每一个非叶子节点表示与词向量相同维度的向量，非叶子节点的权重与叶子节点的权重均为训练值。对于投影层的向量x_w，与每个非叶子节点向量θ作用，被分为正类的概率是：

被分为负类的概率为：1-σ(x_w′θ)，根据每一层的非叶子节点进行二分类，从而获取最终所需的概率值，为

其中，p^w从根节点出发到达w对应叶子节点的路径，l^w为路径p^w中包含的节点个数，为路径p^w中第j个节点对应的编码，为路径p^w中非叶子节点对应的向量。

在对文本库训练时，利用最速下降法对目标函数进行迭代，训练权重，从而获取最终文本库中的词向量权重值。

2.3基于改进的PageRank方法抽取关键词

在获取文本库中的词向量后，为了能够充分利用这些词向量，本发明利用改进的搜索引擎排序算法对单个文本中的词进行权重计算，按照词权重的大小进行有限选取，作为单个文本的关键词。

传统的排序算法利用词汇在文本中的词频和在词库中的频率关系进行排序，这些算法较为简单，而且漏洞很大，很容易受非关键词的影响。本发明基于PageRank算法，根据特定合同中的词序列关系获取词连接的拓扑矩阵，将词向量之间的余弦值作为词与词的连接权重，从而得到单个文本中的词状态转移矩阵，并利用词状态转移矩阵进行词权重的信息传递，从而得到词在单个文本中的权重大小。这种获取词状态转移矩阵的方式即有效地利用了不良资产经营管理词库的信息，又利用了单个文本中词相对位置的信息，为获取文本的关键词提供了强有力的理论依据。

对于单个文本，本发明将每个句子作为一个整体，利用上述分词步骤处理后，得到每个句子的词序列，如s＝{v₁,v₂,…,v_m}，其中s为一个句子的词序列，v_i为第i个位置的词。则该句的连接拓扑可分为正向连接和反向连接，正向连接为：v₁→v₂→…→v_m，反向连接为v₁←v₂←…←v_m。

不妨设单个文本中有唯一词n个，词的状态转移矩阵为A＝[a_ij]_n×n，其中a_ij≠0，当存在某个句子使得词v_i和词v_j有v_i→v_j，根据词的正向连接和反向连接，可将词的状态转移矩阵分为正转移矩阵A_o、反转移矩阵A_n以及混合转移矩阵A_h，其中A_h＝αA_o+(1-α)A_n，0≤α≤1。α为灵活调节变量，可根据单个文本的特定结构进行相应的调整，当α＝0.5时，该混合转移矩阵中词连接为双向连接。以单句“资产管理公司属于非银行金融机构，总部位于北京市”，将其进行分词步骤后，得到由4个词组成的词序列：“资产管理公司”、“非银行金融机构”、“总部”、“北京市”。在词的正向连接时，如图3a所示，词的反向连接时，如图3b所示。令上述四个词的序列向量为：v＝{v₁,v₂,v₃,v₄}^T，则词的双向连接转移矩阵为：

在获取词的转移矩阵后，本发明设文本中每个词的初始权重值为0.5，则文本唯一词的初始权重向量为：x(0)＝{0.5,0.5,…,0.5}^T，则经过一次相似性迭代的词权重向量变化为：

x(1)＝Ax(0)

在第k次相似性迭代后，有

x(k)＝A^kx(0)

由于上述方法将不考虑词和词本身的联系，并且可能出现最终只有某些个词非零，因此本方案添加了每个词随机出现的可能性，即通过引入灵活变量γ(0<γ<1)，使得词权重向量每一次得迭代过程变为：

将上述迭代过程重复多次直到每个词的状态不再变化，即为每个词在该文本中的权重值。流程如图4所示。

本发明一种基于自然语言处理技术的资产管理公司不良资产经营知识管理方法，具体涉及面向不良资产经营领域的自然语言处理技术，与现有技术相比，其优点及功效在于：(1)相比于传统的动态规划分词，本发明利用特定的词库和HMM发现新词模型来对不良资产经营知识进行分词处理，提高了文本分词的准确性，建立更加完善的文本词库；(2)相比于传统的one-hot模型获取词向量，文本发明通过深度学习方法训练词向量，不仅可以避免词向量表示的“维数灾难”现象，而且能充分挖掘词汇上下文的信息，可以获取词与词之间的关系；(3)基于改进的PageRank算法，根据特定合同中的词序列关系获取词连接的拓扑矩阵，将词向量之间的余弦值作为词与词的连接权重，不仅充分利用了训练词库得到的词向量信息，而且挖掘了文本中的词汇相对位置关系，具有强有力的理论依据。

附图说明

图1是有向无环示意图。

图2是CBOW模型。

图3a和图3b词汇连接示意图。

图4是本发明提出的整体解决方案。

图5是测试文本的关键词权重值图。

具体实施方式

为了说明本发明专利的有效性，我们基于中国华融资产管理股份有限公司专有的管理经营方法文本数据进行验证。参见附件2。

一.数据导入

该文本数据中共包含24M文本，有34个数据集，格式包括word，excel，pdf；其中，格式为word的文件共有28个数据，内容包含各个业务工作规程以及各个信息系统的管理办法,编码为gbk、gb18030；excel共有3个数据，内容包括风险评分标准及测试表；pdf格式文件共有3个数据，内容包含华融的业务简介以及经营方法。

由于excel格式文件均为表结构，并且内容较少，因此人工将其清洗掉；pdf格式文件中有一个文件是图片格式，读取的字符为空，因此将其清洗掉。对于剩下的文本利用Python软件进行读取并保存为统一utf-8编码的txt文本，共得到1M文本数据，包含30个数据集。在文件格式转化过程中，根据敏感词汇库去掉加密字符、无效字符和敏感词。加密字符为：制度编号，制度日期，涉及金额等所有的数字和字母；无效字符为文本中的空格、制表符、软回车等不表示文本的字符；敏感词为本文中涉及黄色、反共、污秽等词汇。将处理后得到的30个数据集作为改不良资产经营管理知识库的库存知识。

二.基于深度学习和PageRank的关键词抽取

对于第一步得到的库存知识中每一个文本数据，按照字符“。”、“！”、“？”分割句子，将每个句子中的每个字符利用互联网搜集到的法律专用词汇词库进行扫描，生成所有可能的词汇以及每个词出现的频率，并根据该句包含的词汇构建该句的有向无环图。对每个句子构成的有向无环图从后向前进行扫描，利用动态规划的方法找到该句切分成词的最大概率，并将分词结果作为这个句子初步的分词结果。在初步得到分词结果后，利用HMM模型对句子的每个字符进行扫描，并通过建立五元组查看是否该句子包含未在词库中出现的词，对未出现词进行识别，进一步得到每个句子的分词结果。

通过从网上搜集到的停止词作为停止词词库，词性主要包括副词、语气词、动词、连词。利用停止词词库，对句子的分词结果进行扫描，如果句子中包含停止词词库中的词，则去除该词，最终得到每个句子的分词结果。

对第一步中的库存知识中所有的文本进行上述操作，得到每个句子的分词结果，并将所有句子的分词结果用空格进行连接，保存到一个txt文件中，作为训练词向量的文本数据，得到的训练词向量文本共有900K，包含128670个词。

利用训练文本进行词向量训练时，由于训练文本较少，因此对每个词出现不超过两次的词忽略不计，不考虑该词并且不将其作为上下文。对于训练文本进行词频统计，得到每个词的词频信息，并根据该词频信息构建Huffman树，以每个叶子节点表示一个词。定义每个词的维数为50维，且每个词与其前后不超过5个词具有相关性。随机给出每个叶子节点和非叶子节点的向量，从训练文本中顺序扫描词序信息进行迭代训练。

根据每个词的目标方程：其中，利用梯度上升法进行迭代计算，即每取一个样本(w_i,Context_i)，就对目标函数进行一次刷新，通过推理可得变量每次迭代的方程为：

对于训练文本重复迭代50次进行训练，最终得到每个词的词向量。如对于词“华融”，得到的词向量为：w[‘华融’]＝[0.02299291,-0.03811832,0.0246517,-0.03167871,0.01604236,0.0009977,…]。

在得到词向量后，将中国华融资产管理股份有限公司内部文件《关于印发“表外业务账务处理指引”(B版)的通知》作为需要的提取关键字的文本。参见附件1。

根据本专利方法，首先利用本专利提出的分词技术对文本进行分词，得到本文本的词序列，并根据停止词词库去除词序列中的停止词，用该词序列来表征该文本。首先统计词序列中的唯一词个数，为n＝537个。通过顺序扫描每个词之间的相邻情况以双向连接方式构建词的状态转移矩阵A＝[a_ij]_n×n。初始化词序列中每个词词的初始权重值为0.5，则文本唯一词的初始权重向量为：并取γ＝0.2，则经过多次词权重向量直至每个词的权重状态变化值小于0.005为止，从而得到了每个唯一词在文本中的权重大小。图5给出了该文本中权重最大的前8个词以及相应的权重值，分别为：操作，公司，风险，管理，业务，流程，导致，风险管理。

以上所述，仅为本发明的较佳实施样例，并非对本发明的技术范围做任何限制，故凡是依据本发明的技术实质对以上实施样例所做的任何细微修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于自然语言处理技术的不良资产经营知识管理方法，其特征在于：包括如下步骤：

一.数据导入

将资产管理公司中纷杂的知识内容和格式转化为统一格式，导入到知识库；导入数据内容包括尽调报告、逾期报告、管理方法、会议纪要、合同、安慰函，格式包括word、pdf、excel及txt；编码包括gbk、gb2312、gb18030、unicode及utf-8；将资产管理公司中大量非结构化数据批量地读取，根据敏感词汇库去除敏感词汇，并保存为统一编码的txt格式，作为知识库的储存知识；对库存知识进行了初步筛选处理生成的文本库，为构建不良资产经营管理知识库提供了基础数据；

二.基于深度学习和PageRank的关键词抽取

通过挖掘上一步得到的文本库，来构建文本库中的词向量，并对单个文本中的关键词、关键信息进行抽取；基于以下两个假设：

假设1：文本中的词语围绕着关键词展开，关键词即是文本的中心思想；

假设2：文本中大部分词语关键词在语义上有连接关系，少部分词与中心思想不相关；

基于上述假设，利用图论方法和隐马尔可夫模型HMM对导入文本库进行分词得到不良资产经营管理的词库，对该词库利用连续词袋模型CBOW充分挖掘词与词之间的上下文信息，输出一个二叉树来表征文本库中的词向量，最后对单个文本利用改进的PageRank算法得到每个词在该文本中的权重大小，根据权重大小的优先级抽取关键词；

2.1 文本分词：

对于不良资产经营管理知识库中的文本库，对文本库所有文本的每个句子进行扫描分词处理；详细步骤共分为四步：生成有向无环图、查找最大切分组合、生成未登录词及去除停止词；

2.1.1 有向无环图

对于特定的不良资产经营管理文本库，采用互联网搜集到的法律专用词汇词库构建Trie树对文本中的句子进行扫描，生成句子中汉字所有可能成词的情况，并将生成的词按照顺序构建有向无环图，即对每个句子生成有向无环图；

2.1.2 最大切分组合

对于每个单句构成的有向无环图，利用动态规划查找最大概率路径；将每个词出现的次数转化为频率，为出现次数\总数，先查找待分词句子中已经分好的词语，对该词语查找该词语出现的频率，如果没有该词，就将词典中出现频率最小的那个词语的频率作为该词的频率，继而根据动态规划从后往左查找最大概率路径的方法；由于汉语句子的中心经常落在后面，就是落在右边，因此，从右往左计算的正确率比从左往右计算的正确率要高；

2.1.3 生成未登录词

对于法律专用词汇词库中未出现的词，利用HMM模型进行分词，将句子作为一个观测序列，分词结果作为状态序列，通过对文本库训练，并利用Viterbi算法进行求解，得到最优的状态序列，然后再根据状态序列，输出分词结果；

对于每个词中的字符，根据字符在词中的位置分为四种状态：字符处于词的开始位置Begin、字符处于词的中间位置Middle、字符处于词的结束位置End、字符是单字成词Single；由上可知，B后面只能接M或者E，M后面只能接M或者E，S后面只能接S或者B，E后面只能接S或者B；构建HMM的三元组(Π,A₁,A₂)，其中Π＝(π_i)为初始化概率向量，为状态转移矩阵，为四个状态的转移矩阵，为混淆矩阵，为训练中获取；在得到HMM的三元组后，利用Viterbi算法即得到最佳的隐藏状态序列；

2.1.4 去除停止词

对于分词完成的不良资产文本库，利用搜集到的停止词词库去除不良资产经营管理词库中包含的停止词，对文本库进行进一步清理；

2.2 基于深度学习的词向量

利用深度学习中的CBOW模型、分层softmax策略对分好词的文本库进行训练，根据资产管理公司的文本库大小灵活定义词向量的维度，根据上下文信息关联度来定义词相关的窗口值，最终输出文本库中的词向量；采用分布式表达形式作为词向量的表示形式，即令一个g维向量，w_i＝[0.112 -0.410 … 0.698]^T，作为词w_i的输入形式；为了充分挖掘词汇上下文的信息，采用HierarchicalSoftmax策略和CBOW模型对词向量进行建模；在模型中，目标函数从多个单词构成字符串是自然语言出发，即

其中，L为目标函数方程，p(s)为字符串s作为句子的概率，字符串s是一个由m个词组成的有序词序列s＝{w₁,w₂,…,w_m}，w_j为单个词，m≥j≥0，Context_i为词w_i的上下文信息，这里具体指字符串s中距离词w_i位置最近的一些词；

令maxL为目标函数；在实际操作处理中，由于p(w_i|Context_i)＝0或者p(w_i|Context_i)太小会造成目标函数为0或者计算机中计算误差太大，因此对目标函数进行对数化处理，作为新的目标函数，表达式为：

基于这种情况需要巨大的参数空间以及计算强度，在CBOW中将Context_i进行简化，即Context_i＝{w_i-c,w_i-c+1,w_i-1,w_i+1,w_i+c-1,w_i+c}，其中c为一个灵活变量整数；

在CBOW模型的网络结构中，共包括三层网络架构：输入层、投影层和输出层；Context(w)为输入文本中处于词w前后的c个词组成；

输入层：包含Context(w)中2c个词向量Context(w)₁，Context(w)₂，…，Context(w)_2c；

投影层：将输入层的2c个向量作求和累加，即

输出层：输出层对应一颗Huffman树，其中，叶子节点表示为词库中的词，各词在语料中出现的次数当作权值构造出来的Huffman树，则从每个叶子代表的词是确定的，即从根节点达到每个词的最短路径是确定的；

在输出层中，每一个非叶子节点表示与词向量相同维度的向量，非叶子节点的权重与叶子节点的权重均为训练值；对于投影层的向量x_w，与每个非叶子节点向量θ作用，被分为正类的概率是：

其中，p^w从根节点出发到达w对应叶子节点的路径，l^w为路径p^w中包含的节点个数，为路径p^w中第j个节点对应的编码，为路径p^w中非叶子节点对应的向量；

在对文本库训练时，利用最速下降法对目标函数进行迭代，训练权重，从而获取最终文本库中的词向量权重值；

2.3 基于改进的PageRank方法抽取关键词

在获取文本库中的词向量后，为了能够充分利用这些词向量，利用改进的搜索引擎排序算法对单个文本中的词进行权重计算，按照词权重的大小进行有限选取，作为单个文本的关键词；

对于单个文本，将每个句子作为一个整体，利用分词步骤处理后，得到每个句子的词序列，s＝{v₁,v₂,…,v_m}，其中，s为一个句子的词序列，v_i为第i个位置的词；则该句的连接拓扑分为正向连接和反向连接，正向连接为：v₁→v₂→…→v_m，反向连接为v₁←v₂←…←v_m；

设单个文本中有唯一词n个，词的状态转移矩阵为A＝[a_ij]_n×n，其中a_ij≠0，当存在某个句子使得词v_i和词v_j有v_i→v_j，根据词的正向连接和反向连接，将词的状态转移矩阵分为正转移矩阵A_o、反转移矩阵A_n以及混合转移矩阵A_h，其中A_h＝αA_o+(1-α)A_n，0≤α≤1；α为灵活调节变量，根据单个文本的特定结构进行相应的调整，当α＝0.5时，该混合转移矩阵中词连接为双向连接；词的双向连接转移矩阵为：

在获取词的转移矩阵后，设文本中每个词的初始权重值为0.5，则文本唯一词的初始权重向量为：x(0)＝{0.5,0.5,…,0.5}^T，则经过一次相似性迭代的词权重向量变化为：

x(1)＝Ax(0)

在第k次相似性迭代后，有

x(k)＝A^kx(0)

由于不考虑词和词本身的联系，并且可能出现最终只有某些个词非零，因此本方案添加了每个词随机出现的可能性，即通过引入灵活变量γ，0<γ<1，使得词权重向量每一次得迭代过程变为：

将上述迭代过程重复多次直到每个词的状态不再变化，即为每个词在该文本中的权重值。