CN109657135A

CN109657135A - 一种基于神经网络的学者用户画像信息抽取方法及模型

Info

Publication number: CN109657135A
Application number: CN201811343553.1A
Authority: CN
Inventors: 林伟伟; 游德光; 吴梓明; 温昂展
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-11-13
Filing date: 2018-11-13
Publication date: 2019-04-19
Anticipated expiration: 2038-11-13
Also published as: CN109657135B

Abstract

本发明涉及一种基于神经网络的学者用户画像信息抽取方法，包含以下步骤：对网页进行文本预处理，并对网页进行结构调整和实体标注；对已识别网页所有文本节点及其字符分别构建词库表；对文本节点和前后节点的上下文特征进行提取，接着对文本节点序列进行训练，得到包含节点序列上下文信息的词向量h；对词向量输出进行解码计算，对应地得到每个词向量对目标标签的得分，计算节点序列的标签概率分布，对模型输出结果进行解码，使目标函数最小时即得到最优的预测标签序列，完成模型构建并进行模型训练。本发明能够实现模型的端到端训练，而且利用LSTM网络本身的序列记忆特性，有效地解决目标抽取实体间的长时期依赖关系问题。

Description

一种基于神经网络的学者用户画像信息抽取方法及模型

技术领域

本发明涉及画像信息抽取领域，特别涉及一种基于神经网络的学者用户画像信息抽取方法及模型。

背景技术

随着互联网、移动互联网、物联网等应用的飞速发展，全球数据量出现了大幅度增长，用户画像成为大数据技术背景下最为重要的应用之一。作为用户画像提取的首要环节，用户信息抽取为之后的用户画像挖掘和分析奠定了基础，在很大程度上决定了最终模型的准确性和完整性。近年来，随着大数据技术的发展，也涌现了许多关于用户信息抽取模型的研究。在学者信息抽取方面，目前大部分研究是将其抽象为序列标注(Sequence Label)问题加以解决。Tang等人最早提出了基于树形条件随机场(Conditional Random Field，CRF)的模型对学者用户画像信息进行抽取。Collobert等人最早提出了基于窗口和句子维度的两种神经网络结构构建的序列标注模型。Gu等人则将主页识别和用户信息抽取整合为一个步骤，通过自定义Web检索规则和一种马尔可夫概率模型对文本实体进行分类抽取。在构建学者用户画像时，传统的基于人工编写规则或机器学习方法的信息抽取模型所面临的技术挑战有：1)学者个人主页的格式各式各样，有的是自定义制作的，有的是统一模版编写的，还有的是由学术搜索引擎自动生成的，传统基于规则和CRF模型的抽取方法无法自适应多种学者主页类型；2)传统信息抽取技术对抽取长度较短且具有固定模版特征的网页较为有效，而在识别网页中所在片段距离较长的文本节点时效果较差。传统模型将无法发现所在片段间隔较远的实体之间的依赖关系。

现如今Web中学术数据爆炸式增长，其中只有3％的学术数据包括语义标注信息，语义严重缺失阻碍了学术大数据进一步的探究和发展，也给学者用户信息抽取带来了全新的挑战。人工编写规则的抽取方法需要针对每一类页面编写特定的规则，且依赖于特定的领域知识，因此通用性非常差；传统机器学习方法虽然在一定程度上对该问题有所改善，但依然没有办法很好地处理网页中距离较长的文本节点。随着Web网页越来越多样化和复杂化，这些问题也越来越凸显出来，现有的方法不能很好地实现学者用户信息抽取。

发明内容

本发明的目的在于克服现有技术方法的不足，提供一种基于神经网络的学者用户画像信息抽取方法，该方法基于Bi-LSTM-CRF神经网络，通过循环神经网络自动提取文本实体的字符级和上下文特征，实现模型的端到端训练，而且利用LSTM网络本身的序列记忆特性，有效地解决目标抽取实体间的长时期依赖关系问题。

本发明的另一目的在于提供一种基于神经网络的学者用户画像信息抽取模型。

本发明的目的通过以下的技术方案实现：

一种基于神经网络的学者用户画像信息抽取方法，所述神经网络为Bi-LSTM-CRF神经网络，包括以下步骤：

S1.通过文本预处理过滤掉网页中的文本信息，并删除空白和注释字符，提取得到简化后的内容体；网页文本嵌入在HTML格式标签中，且短文本节点对应一个实体，将标签的文本节点作为基本抽取单元；

S2.对已识别网页所有文本节点及其字符分别构建词库表，并将每个标签的文本节点转为一个n维向量，表示为词向量w；

S3.对文本节点和前后节点的上下文特征进行提取，接着对文本节点序列进行训练，得到包含节点序列上下文信息的词向量h；

S4.用一个全连接层对词向量输出进行解码计算，对应地得到每个词向量对目标标签的得分s，增加一层线性CRF层来计算节点序列的标签概率分布，对模型输出结果进行解码，使目标函数最小时即得到最优的预测标签序列，完成模型构建；

S5.采用优化算法进行模型训练。加快模型的学习速率，选取出效果最佳的优化算法。

所述步骤S2，具体包含以下步骤：

S201.采用Word2Vec算法对文本节点进行训练得到词向量w_w2v，w_w2v构成词向量的第一部分；

S202.通过Bi-LSTM网络对单词进行字母级别的映射，合并最后的隐状态输出，得到一个固定长度的词向量w_chars，该词向量代表了词语中字符级层面的特征，w_chars构成词向量第二部分；

S203.将w_w2v和w_chars合并得到一个n维词向量w。

步骤S202中，所述词语中字符级层面的特征包括首字母大小写、字母顺序。

所述步骤S4，具体包含以下步骤：

S401.假设已经定义好了r种学者用户目标标签类型，对应有偏置矩阵b∈R^r，有权重矩阵W∈R^r×k，每个词的得分向量为s∈R^r，计算公式s＝W×h+b；

S402.设输入为节点序列w₁，w₂，...，w_m∈Rⁿ，对应的得分向量为s₁，s₂，...，s_m，以及每个实体所对应的标签为y₁，y₂，...，y_m，在这里增加一层线性CRF层来计算节点序列的标签概率分布，线性CRF层的损失计算公式如下：

其中，b和e分别对应起始标签和结尾标签的特征向量，T是状态转移矩阵，表示相邻标签之间的关联和转换关系；

S403.利用该式的递归性质，采用动态规划算法进行求解，时间步[t+1，...，m]的解为每个时间步对应有r种状态转移，则时间步[t，...，m]的解可递归推算公式如下：

S404.将结果输入到softmax函数，得到标签序列的得分概率分布，定义所有可能序列的概率之和为下式：

设Z_t(y_t)为第t步时，以y_t为标签起始的序列，同样根据递归的性质，将该步的概率分布计算过程转换公式如下：

最后得到标签序列的概率计算公式

S405.设为正确的标注序列，定义模型的目标函数为上述序列概率的交叉熵(cross-entropy)，交叉熵计算公式为：

对模型输出结果进行解码，使目标函数最小时即得到最优的预测标签序列。

步骤S1中，所述文本信息包括头信息、无效标签、样式表、JS脚本。

本发明的另一目的通过以下的技术方案实现：

一种基于神经网络的学者用户画像信息抽取模型，包括输入层、词向量表示层、节点序列表示层、标签序列CRF计算层和输出层；其中，输入层负责接收预处理后的网页文本节点序列；词向量表示层将每个标签的文本节点转为一个n维向量，表示为词向量；节点序列表示层对文本节点和前后节点的上下文特征进行提取，对文本节点序列进行训练，得到包含节点序列上下文信息的词向量；标签序列CRF计算层计算节点序列的标签概率分布；输出层将模型输出训练；其中所述神经网络为Bi-LSTM-CRF神经网络。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明是基于Bi-LSTM-CRF神经网络，与传统信息抽取模型相比，本模型和方法利用长短期记忆网络(LSTM)本身具有序列特性，有效地解决了长文本网页中文本实体之间的长时期依赖关系问题。

(2)传统信息抽取模型依赖于模型特征和特定的领域知识，无法自适应多种学者网页类型，而本发明的模型无需人为定义模型特征，可以通过深度神经网络自动提取网页中文本节点的字符级和上下文特征，实现端到端的模型训练。

附图说明

图1为本发明所述一种基于神经网络的学者用户画像信息抽取方法的流程图。

图2为本发明所述一种基于神经网络的学者用户画像信息抽取方法的模型示意图。

图3为学者网页文本预处理示意图。

图4为标签文本节点表示为词向量示意图。

图5为标签序列CRF计算层计算标签概率示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，一种基于神经网络的学者用户画像信息抽取方法，所述神经网络为Bi-LSTM-CRF神经网络，包括以下步骤：

如图2所示，基于Bi-LSTM-CRF神经网络的学者用户画像信息抽取模型和方法可以概括为输入层、词向量表示层、节点序列表示层、标签序列CRF计算层和输出层。其中，输入层负责接收预处理后的网页文本节点序列；词向量表示层将每个标签的文本节点转为一个n维向量，表示为词向量；节点序列表示层对文本节点和前后节点的上下文特征进行提取，对文本节点序列进行训练，得到包含节点序列上下文信息的词向量；标签序列CRF计算层计算节点序列的标签概率分布；输出层将模型输出训练。

虽然学者主页没有固定的格式，但主页之间描述的实体结构却有较大的相似性。为了构建一种自适应多种主页类型的抽取模型，先对网页进行文本预处理，并根据高质量的词典对网页进行结构调整和实体标注。由于网页中含有大量的冗余信息，先通过文本预处理将网页中头信息、无效标签、样式表、JS脚本等文本过滤掉，并删除空白和注释字符，提取得到简化后的内容体。我们根据需要提取的学者属性设定标注类型，如图3所示，如果标注类型为学者所在国家、所在单位、职称和Email，则需要事先整理好高质量的国家、单位和职称词典，并定义一个通用性较强的Email正则表达式。为了便于程序进行处理，将标注类型作为属性label标记在对应的标签上。

在词向量表示层中，对所有文本节点及其字符分别构建词库表，并将每个标签的文本节点转为一个n维向量，表示为词向量w＝[w_w2v，w_chars]∈Rⁿ。如图4所示，该词向量由两部分组成，第一部分本文采用Word2Vec算法训练得到，即另一部分，是通过第一层Bi-LSTM网络对单词中每个字符特征进行提取生成的字符级别的词向量。定义单词w＝[c₁，c₂，...，c_p]，其中每一个字母表示为向量通过Bi-LSTM网络对单词进行字母级别的映射，合并最后的隐状态输出，得到一个固定长度的词向量其中满足|d₁|+|d₂|＝n。该词向量代表了词语中字符级层面的特征，如首字母大小写、字母顺序等。

文本节点所属标注类型还与其所处的网页位置有密切关系，因此在节点序列表示层中，模型对文本节点和前后节点的上下文特征进行提取。通过第二层Bi-LSTM网络对文本节点序列进行训练，得到包含节点序列上下文信息的词向量，表示为：h∈R^d。模型的每一个隐藏层对应一个输出，因此将节点序列作为模型输入，其中有m个文本节点：w₁，w₂，...w_m∈Rⁿ，对应输出m个词向量：h₁，h₂，...，h_m∈R^k，向量包含了每个节点的上下文信息。

假设已经定义好了r种学者用户目标标签类型，对应有偏置矩阵b∈R^r，有权重矩阵W∈R^r×k，每个词的得分向量为s∈R^r，计算公式s＝W×h+b；其中，得分向量中对应的各个维度值s[i]代表每个节点被标记为第i个标签的得分。最后，模型根据得到的得分向量给每个节点标注相应的标签，可以直接输入到softmax层得到各标签概率，取概率最高的标签作为实体标注，但这种方案没有考虑标签前后之间的联系。为了考虑当前节点的标签和其相邻节点的标签的内在关联，如图5所示，增加一层线性CRF层来计算节点序列的标签概率分布。

设输入为节点序列w₁，w₂，...，w_m∈Rⁿ，对应的得分向量为s₁，s₂，...，s_m，以及每个实体所对应的标签为y₁，y₂，...，y_m，在这里增加一层线性CRF层来计算节点序列的标签概率分布，线性CRF层的损失计算如式 b和e分别对应起始标签和结尾标签的特征向量，T是状态转移矩阵，表示相邻标签之间的关联和转换关系；利用该式的递归性质，采用动态规划算法进行求解，时间步[t+1，...，m]的解为每个时间步对应有r种状态转移，则时间步[t，...，m]的解可递归推算如式

将结果输入到softmax函数，得到标签序列的得分概率分布，定义所有可能序列的概率之和如式设Z_t(y_t)为第t步时，以y_t为标签起始的序列，同样根据递归的性质，将该步的概率分布计算过程转换为式最后得到标签序列的概率计算公式设为正确的标注序列，定义模型的目标函数为上述序列概率的交叉熵(cross-entropy)，交叉熵计算公式为对模型输出结果进行解码，使目标函数最小时即得到最优的预测标签序列。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于神经网络的学者用户画像信息抽取方法，其特征在于，所述神经网络为Bi-LSTM-CRF神经网络，包括以下步骤：

S5.采用优化算法进行模型训练。

2.根据权利要求1所述基于神经网络的学者用户画像信息抽取方法，其特征在于，所述步骤S2，具体包含以下步骤：

S203.将w_w2v和w_chars合并得到一个n维词向量w。

3.根据权利要求2所述基于神经网络的学者用户画像信息抽取方法，其特征在于，步骤S202中，所述词语中字符级层面的特征包括首字母大小写、字母顺序。

4.根据权利要求1所述基于神经网络的学者用户画像信息抽取方法，其特征在于，所述步骤S4，具体包含以下步骤：

S402.设输入为节点序列w₁,w₂,…,w_m∈Rⁿ，对应的得分向量为s₁,s₂,…,s_m，以及每个实体所对应的标签为y₁,y₂,…,y_m，在这里增加一层线性CRF层来计算节点序列的标签概率分布，线性CRF层的损失计算公式如下：

S403.利用该式的递归性质，采用动态规划算法进行求解，时间步[t+1,…,m]的解为每个时间步对应有r种状态转移，则时间步[t,…,m]的解可递归推算公式如下：

最后得到标签序列的概率计算公式

S405.设为正确的标注序列，定义模型的目标函数为上述序列概率的交叉熵，交叉熵计算公式为：

5.根据权利要求1所述基于神经网络的学者用户画像信息抽取方法，其特征在于，步骤S1中，所述文本信息包括头信息、无效标签、样式表、JS脚本。

6.一种基于神经网络的学者用户画像信息抽取模型，其特征在于：包括输入层、词向量表示层、节点序列表示层、标签序列CRF计算层和输出层；其中，输入层负责接收预处理后的网页文本节点序列；词向量表示层将每个标签的文本节点转为一个n维向量，表示为词向量；节点序列表示层对文本节点和前后节点的上下文特征进行提取，对文本节点序列进行训练，得到包含节点序列上下文信息的词向量；标签序列CRF计算层计算节点序列的标签概率分布；输出层将模型输出训练；其中所述神经网络为Bi-LSTM-CRF神经网络。