CN110059179A

CN110059179A - 一种基于深度学习的歌曲文本命名实体识别方法

Info

Publication number: CN110059179A
Application number: CN201910168707.6A
Authority: CN
Inventors: 孟海宁; 石月开; 朱磊; 王一川; 黑新宏; 姬文江; 陈毅; 姚燕妮; 方潇颖
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2019-03-06
Filing date: 2019-03-06
Publication date: 2019-07-26

Abstract

本发明公开了一种基于深度学习的歌曲文本命名实体识别方法，利用Bi‑LSTM‑CRF算法训练模型对输入的语料进行歌者信息的提取、生成歌者词典，同时实现主动学习并对歌者词典进行自动更新，最后依据更新的词库反复训练模型提高其识别的准确率，将深度学习的方法应用到音乐领域，当输入一段文本时能够对文本中的歌者信息进行提取，同时采用了机器学习中自学习模式对提取的信息在词典中进行查找，实现动态地对词典进行更新，提出了一种训练准确率更高的模型。

Description

一种基于深度学习的歌曲文本命名实体识别方法

技术领域

本发明属于计算机自然语言处理技术领域，具体涉及一种基于歌曲歌者文本命名实体识别方法。

背景技术

从计算机来到这个世界，语言已经不仅仅是人与人之间的工具，同时也是人与机器之间对话的基础。自然语言理解就是如何让计算机能够正确处理人类语言，并据此作出人们期待的各种正确响应。命名实体识别作为自然语言处理的一部分，它是正确理解文本的基础，其进行识别的主要任务就是识别出待处理文本中的人名、地名、机构名等专有名词。这就意味着有效的命名实体识别方法对于在海量数据中快速地理解文本中信息，高效、精确地获取并分析信息知识显得越来越重要。将命名实体识别应用到音乐领域就是对音乐领域中非结构化文本进行结构化处理的重要基础，通过其抽取的信息可以自动化分析歌者、歌曲等信息，从而构建音乐领域相关的搜索引擎和智能问答系统。目前关于对文本中的实体抽取方法目前主要存在三类分别是：基于规则和词典的方法、基于统计的方法、混合方法。面对着信息时代信息的不断扩充，命名实体识别技术将迎来自己的黄金期。

发明内容

本发明的目的是提供一种基于深度学习的歌曲文本命名实体识别方法，利用Bi-LSTM-CRF算法训练模型对输入的语料进行歌者信息的提取、生成歌者词典，同时实现主动学习并对歌者词典进行自动更新，最后依据更新的词库反复训练模型提高其识别的准确率。

本发明所采用的技术方案是，一种深度学习的歌曲文本命名实体识别方法，具体操作步骤如下：

步骤1，使用爬虫框架Scrapy对音乐领域中的歌者信息进行提取，生成歌者词典并用MySQL进行存储；

步骤2，获取歌者信息的相关语料，并将其分为歌者训练集及歌者测试集，其中歌者训练集是用来训练生成歌者信息识别模型，歌者测试集用来更新歌者词典；

步骤3，对步骤2中歌者训练集中的歌者信息依据现有的歌者词典进行基于匹配的词性标注；

步骤4，使用Bi-LSTM-CRF算法对步骤3中带标注的歌者训练集进行训练，生成歌者信息识别模型，该模型可以实现对音乐领域中的歌者信息进行提取；

步骤5，对步骤4中生成的歌者信息识别模型输入关于测试集或音乐领域中的语料信息，识别模型将实现对语料中的歌者信息进行提取；

步骤6，对步骤5中识别模型提取的歌手、歌曲、专辑等信息按序分类整合，实现对数据的融合，得到歌者信息识别的初步结果；

步骤7，对步骤6中得到的歌者信息识别的初步结果信息保存到文件1.txt中；

步骤8，获取步骤7中的文件1.txt，将文件中的歌者信息与歌者词典中的歌者信息进行比较，检测判断是否出现歌者词典中未记载的歌者信息，如果出现未记载的信息，则保存成为3.txt；若识别出的信息在歌者词典中存在，则保存成为2.txt；

步骤9，对步骤8中3.txt文件中的未记载信息进行自动化检验判断，获取正确的歌者信息并将其存储到4.txt文件中；

步骤10，对步骤8中识别出的且歌者词典中存在的信息2.txt与步骤9中歌者词典中不存在但是正确的歌者信息4.txt进行数据的融合，形成在步骤5输入语料中含有歌者相关信息的文本文件5.txt，并将其作为输出结果显示出来；

步骤11，对步骤9中4.txt文件中的歌者信息使用DICDIFF算法对歌者词典进行更新；

步骤12，定期重复步骤3、4，重新训练模型，提高歌者信息识别准确率。

本发明的特点还在于，

步骤1中构建歌者词典采用树形结构对歌者信息进行保存，并采用hash编码对保存的树形节点进行映射形成信息索引，最后将带有索引的树形的歌者词典保存到数据库中。

步骤3中采用基于深度学习的方法建立歌者信息识别模型，具体步骤如下：

步骤3.1，对步骤2中歌者训练集中的语料以句号进行划分；

步骤3.2，从歌者词典中查找歌者信息，对步骤3.1的每一句语料中的歌手姓名、歌曲、专辑等歌者信息进行提取；

步骤3.3，对步骤3.2中提取的歌者信息进行特征化标注，其余非歌者信息标注为“O”；

步骤3.4，将训练集中对文本标注的信息进行存储并形成一个新的文本1.txt；

步骤3.5，使用深度学习中的Bi-LSTM-CRF算法，导入步骤3.4中标注好的文本1.txt进行模型训练；

步骤3.6，生成能够在音乐领域中对歌者信息进行识别的模型。

步骤8中能够对歌者信息是否存在于歌者词典中进行主动分类，具体步骤如下：

步骤8.1，将步骤7中的文本1.txt中的每一项信息歌者信息通过hash映射在本地歌者词典库中进行查找；

步骤8.2，根据步骤8.1中信息的查找结果进行分类，若在歌者词典中存在相关信息则将其保存到文本2.txt中；若在词典中不存在则将其保存到文本3.txt中。

步骤9中对未记载的歌者信息进行自动化检验判断的具体步骤如下：

步骤9.1：编写爬虫文件，对爬虫文件进行相关配置，使其定向到百度百科界面；

步骤9.2：将含有未记载歌者信息的文件3.txt中的内容依据识别模型识别后产生的识别符号为间隔依次输入到爬虫文件中；

步骤9.3：启动爬虫文件，抓取每一项未记载信息产生的新的网页；

步骤9.4：对步骤9.3中抓取的网页进行内容识别，若内容中出现音乐领域的相关的触发词，我们便认为这一项未记载信息是正确的歌者信息，否则便将其视为无关信息进行丢弃；

步骤9.5：将步骤9.4中通过内容识别后属于歌者信息的未记载信息存储到文件4.txt中。

步骤11中使用DICDIFF算法对歌者词典进行动态更新具体步骤如下：

步骤11.1，执行hash算法对歌者信息文本4.txt中的每一个歌者的姓名建立索引，执行DICDIFF算法对每一个歌者的相关信息建立增量包；

步骤11.2，将步骤10.1中形成索引和与之对应的增量包添加到歌者词典中实现歌者词典的动态更新。

本发明的有益效果是：本发明的一种深度学习的歌曲文本命名实体识别方法，根据网络中歌者信息构建歌者词典，通过词典对语料中歌者信息的标注，使用深度学习Bi-LSTM-CRF算法建立对歌者信息提取模型。当新语料输入，该方法将识别出语料中的歌者信息，同时对词典库中不存在的歌者进行更新，最后依据更新后的歌者词典重新训练准确率更高的模型。

附图说明

图1为本发明一种基于深度学习的歌曲文本命名实体识别方法的总流程图；

图2为本发明深度学习算法Bi-LSTM-CRF建立歌者信息识别的模型流程图；

图3为本发明步骤8系统信息自动分类的流程图；

图4为本发明词库自动更新的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明的目的是提供一种基于深度学习的歌曲文本命名实体识别方法，具体流程如图1所示，利用Bi-LSTM-CRF算法训练模型对输入的语料进行歌者信息的提取，同时实现主动学习对歌者词典进行自动更新，包括以下步骤：

步骤2，获取歌者信息的相关语料，并将其分为歌者训练集及歌者测试集，其中歌者训练集是用来训练生成歌者信息识别模型(如图2所示)，歌者测试集可以用来更新歌者词典；

例如有这样一句语料：“我喜欢听周杰伦的菊花台。”，进行基于匹配的词性标注为：

我O喜O欢O听O周B-SINGER杰I-SINGER伦I-SINGER的O菊B-SONG花I-SONG台I-SONG。O

其中标注信息为“O”,“B-SINGER”，“I-SINGER”，“B-SONG”,“I-SONGER”。“O”代表非歌者相关信息，“B-SINGER”为歌手姓名中第一个字，“I-SINGER”代表歌手姓名中除开始字之外的其他字，“B-SONG”代表歌名的首字，“I-SONG”代表歌名除第一个字之外的其他字，为了区分不同的歌者信息我们采用不同的符号进行标注。

步骤5，在实际应用中是对步骤4中生成的歌者信息识别模型输入关于测试集或音乐领域中的语料信息，模型将实现对语料中的歌者信息进行提取。

步骤6，对步骤5中识别模型提取的歌手、歌曲、专辑等信息进行按序分类整合，实现对数据的融合，得到歌者信息识别的初步结果；

步骤8，如图3所示，获取步骤7中的文件1.txt，将文件中的歌者信息与歌者词典中的歌者信息进行比较，检测判断是否出现歌者词典中未记载的歌者信息，如果出现未记载的信息，则保存成为3.txt，若识别出的信息在歌者词典中存在，则保存成为2.txt；

步骤9，对步骤8中3.txt文件中的未记载信息进行自动化检验判断，获取正确的歌者信息并将其存储到4.txt文件中。

步骤10，对步骤8中识别出的且歌者词典中存在的信息2.txt与步骤9中歌者词典中不存在但是正确的歌者信息4.txt进行数据的融合，形成在步骤5输入语料中含有歌者相关信息的文本文件5.txt，并将其作为输出结果显示出来。

步骤11，对步骤9中4.txt文件中的歌者信息使用DICDIFF算法对歌者词典进行更新(如图4所示)；

步骤3中采用基于深度学习的方法建立歌者信息进行识别模型，具体步骤如下：

步骤3.1，对步骤2中歌者训练集中的语料以句号进行划分；

步骤3.3，对步骤3.2中提取的歌者信息进行特征化标注，其余非歌者信息标注为“O”。

步骤3.4，将训练集中对文本标注的信息进行存储并形成一个新的文本1.txt。

步骤3.5，使用深度学习中的Bi-LSTM-CRF算法，导入步骤3.4中标注好的文本1.txt进行模型训练。

步骤3伪代码如下：

步骤8.1，将步骤7中的文本1.txt中的每一项信息歌者信息通过hash映射在本地歌者词典库中进行查找。

步骤8.2，根据步骤8中信息的查找结果进行分类，若在歌者词典中存在相关信息则将其保存到文本2.txt中；若在词典中不存在则将其保存到文本3.txt中；

步骤8.2伪代码如下：

步骤11.2，将步骤10.1中形成索引和与之对应的增量包添加到歌者词典中实现歌者词典的动态更新；

步骤11.1伪代码如下：

Claims

1.一种基于深度学习的歌曲文本命名实体识别方法，其特征在于，具体操作步骤如下：

2.根据权利要求1所述的基于一种深度学习的歌曲文本命名实体识别方法，其特征在于，步骤1中构建歌者词典采用树形结构对歌者信息进行保存，并采用hash编码对保存的树形节点进行映射形成信息索引，最后将带有索引的树形的歌者词典保存到数据库中。

3.根据权利要求1所述的基于一种深度学习的歌曲文本命名实体识别方法，其特征在于，步骤3中采用基于深度学习的方法建立歌者信息进行识别模型，具体步骤如下：

步骤3.1，对步骤2中歌者训练集中的语料以句号进行划分；

4.根据权利要求1所述的基于一种深度学习的歌曲文本命名实体识别方法，其特征在于，步骤8中能够对歌者信息是否存在于歌者词典中进行主动分类，具体步骤如下：

5.根据权利要求1所述的一种基于深度学习的歌曲文本命名实体识别方法，其特征在于，步骤9中对未记载的歌者信息进行自动化检验判断的具体步骤如下：

6.根据权利要求1所述的一种基于深度学习的歌曲文本命名实体识别方法，其特征在于，步骤11中使用DICDIFF算法对歌者词典进行动态更新具体步骤如下：