CN116257616A - 面向音乐领域的实体关系抽取方法及系统 - Google Patents
面向音乐领域的实体关系抽取方法及系统 Download PDFInfo
- Publication number
- CN116257616A CN116257616A CN202310254368.XA CN202310254368A CN116257616A CN 116257616 A CN116257616 A CN 116257616A CN 202310254368 A CN202310254368 A CN 202310254368A CN 116257616 A CN116257616 A CN 116257616A
- Authority
- CN
- China
- Prior art keywords
- music
- entity
- text
- candidate sentences
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了面向音乐领域的实体关系抽取方法及系统;其中方法包括:获取待处理文本;对待处理文本进行句子过滤,得到候选句子;候选句子中包括至少两个音乐命名实体;对候选句子,进行降噪处理;将降噪处理后的候选句子,输入到训练后的实体关系抽取模型中,输出候选句子中包含的音乐实体关系;其中,所述训练后的实体关系抽取模型,是采用已标注实体关系的音乐文本进行训练得到的。使用自然语言处理技术来对文本中所包含的信息进行整理,通过关系抽取对一段音乐文本中的实体进行关系的提取,构造面向音乐领域的知识图谱,通过知识图谱将数据资源中的信息以及链接关系聚集成知识,使信息资源更易于计算、理解以及评价。
Description
技术领域
本发明涉及文本实体关系抽取技术领域,特别是涉及面向音乐领域的实体关系抽取方法及系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
随着信息的爆炸式增长,人们很难从海量信息中找到真实需要的信息。搜索引擎正是在这种情况下应运而生。然而由于HTML形式的网页缺乏语义,难以被计算机所理解,因此在它们在搜索准确度方面有着明显的缺陷。此外,随着社会由信息化向知识型转变,计算机应用也离不开学科专业知识支撑,音乐知识领域也是如此。如何快速、准确地从网络上海量的音乐信息获得自己想要的内容是值得研究的。
音乐是用组织音构成的听觉意象,来表达人们的思想感情与社会现实生活的一种艺术形式。面向音乐领域的知识图谱被广泛用于音乐检索、个性化音乐推荐以及音乐领域的智能问答系统等等。目前,随着音乐产业的不断蓬勃发展,积累了大量的音乐文本数据,而这些数据中蕴含了规模庞大、结构复杂且语义关联丰富的音乐领域相关知识,怎样获取知识、组织知识,以及如何基于这些知识提供智能化的信息服务是本发明需要解决的。
在中文研究环境下,用于实体链接的权威知识图谱、用于音乐资源组织的本体、用于音乐知识抽取和实体对齐的工具都相对缺乏。对于音乐领域数据,特别是音乐内容数据的处理、融合技术仍缺乏关注,数字基础设施支持不足,音乐知识图谱的构建研究及相关实践未能有效开展。此外,传统的关系抽取过程需要专家对于原始的文本数据进行标注,需要耗费巨大的人力物力以及财力。文本标注的准确性直接影响后续实体关系抽取的效果。通过手工从大量的自然文本中抽取某类二元关系是极其费时费力的,而对于抽取更多不同类别的二元关系,都通过手工方法来进行抽取是不可能的。因此,急需找到一种能在很大程度上自动而准确的完成关系抽取任务的方法,并且可以借助二元关系构建出多元关系,这对帮助人们迅速准确的获取关系从而节省时间,具有十分重要的意义。
发明内容
为了解决现有技术的不足,本发明提供了面向音乐领域的实体关系抽取方法及系统;本发明主要是面向开放音乐领域实体关系抽取的系统构建,通过数据挖掘获取音乐文本信息,使用自然语言处理技术来对文本中所包含的信息进行整理,通过关系抽取对一段音乐文本中的实体进行关系的提取,在知识图谱中以实体为节点,以关系为边,构造面向音乐领域的知识图谱,通过知识图谱将数据资源中的信息以及链接关系聚集成知识,使信息资源更易于计算、理解以及评价,从而提供开放的服务能力。
第一方面,本发明提供了面向音乐领域的实体关系抽取方法;
面向音乐领域的实体关系抽取方法,包括:
获取待处理文本;
对待处理文本进行句子过滤,得到候选句子;所述候选句子中包括至少两个音乐命名实体;
对候选句子,进行降噪处理;
将降噪处理后的候选句子,输入到训练后的实体关系抽取模型中,输出候选句子中包含的音乐实体关系;其中,所述训练后的实体关系抽取模型,是采用已标注实体关系的音乐文本进行训练得到的。
第二方面,本发明提供了面向音乐领域的实体关系抽取系统;
面向音乐领域的实体关系抽取系统,包括:
获取模块,其被配置为:获取待处理文本;
过滤模块,其被配置为:对待处理文本进行句子过滤,得到候选句子;所述候选句子中包括至少两个音乐命名实体;
降噪模块,其被配置为:对候选句子,进行降噪处理;
输出模块,其被配置为:将降噪处理后的候选句子,输入到训练后的实体关系抽取模型中,输出候选句子中包含的音乐实体关系;其中,所述训练后的实体关系抽取模型,是采用已标注实体关系的音乐文本进行训练得到的。
第三方面,本发明还提供了一种电子设备,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
第四方面,本发明还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
第五方面,本发明还提供了一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。
与现有技术相比,本发明的有益效果是:
本发明提出了一种面向开放音乐领域实体的关系抽取系统,能够很好地用于知识图谱的构建。音乐实体关系抽取以BERT-BIGRU-ATTENTION模型为核心。由于目前的关系抽取研究大多基于现有公开的数据集,因此本发明需要构建面向音乐领域的数据集来进行本发明的工作。通过爬虫和人工收集音乐领域的相关数据,对它进行一定的处理,按照一定的格式进行存储,成为后续关系抽取模型训练使用的数据集。本发明预先定义好音乐实体间的关系类别,用于后续音乐实体关系预测。经过关系抽取,本发明可以在一段音乐文本中获得所涉及实体对间的关系,在neo4j图数据库中以节点和边的形式进行存储,其中节点为音乐文本中所涉及的实体,边的值表示实体间的关系,从而完成音乐知识图谱的构建。
本发明所提出的音乐实体关系抽取模型为BERT-BIGRU-ATTENTION,它使用了近年来NLP(Natural Language Processing)领域最受欢迎的预训练模型BERT(BidirectionalEncoder Representation from Transformers)代替之前常用的word2vec,将它应用于模型的嵌入层,所生成的动态词向量能够更好地表达文本的语义。同时使用GRU(GatedRecurrent Unit)代替LSTM(Long Short-Term Memory)来提取音乐文本的时序特征,缩短了模型训练的时间,同时提升实验的效果。能够更好地识别出一段文本中所涉及的音乐实体以及它们之间的关系,获得本发明所需要的三元组。
预定义音乐实体类型时,本发明定义了8种实体,涵盖音乐领域的大部分实体,同时定义了13种关系类别,大致包含了音乐实体涉及的关系类别。因此可以极大丰富知识图谱中实体的属性,使之更能够投入到实际的应用中。
本发明所提出基于深度学习的关系自动抽取系统,能够在减少人为工作的基础上自动的对文本中的关系进行抽取,通过人来创建正确有效的本体,标注少量数据,利用数据增强等方式来训练深度学习模型,再利用模型处理有标注和无标注数据。最后人工查验,在保证标注精度的情况下最大程度减少人工干预。实验结果表明,本发明的方法能够极大减少对于信息获取时人工的干预,同时提高获取的信息的精度。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为实施例一的音乐知识图谱构建流程图;
图2为实施例一的实体关系抽取模型框架图;
图3为实施例一的音乐实体关系抽取流程图;
图4为实施例一的候选句子示意图;
图5为实施例一的模型训练向量维度变化示意图;
图6为实施例一的音乐实体关系边展示;
图7为实施例一的音乐知识图谱部分展示。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
为了解决上述问题,信息抽取(IE,Information Extraction)技术应运而生,即是从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。面向音乐领域的信息抽取技术即从一段音乐新闻报告中识别出音乐领域的实体以及他们之间的关系,比如在一段歌手发布专辑的新闻中,本发明需要识别出新闻中可能的实体,歌手、专辑、时间、歌曲等,在识别出实体后再抽取他们之间可能的关系,如作词,作曲,发布时间等。信息抽取同时也是知识图谱构建的重要一步,将存在于数据(数字、文本、图像等)中的反映客观世界的实体,经过提炼、加工建立实体之间的联系形成知识。
信息抽取主要包含三个子任务,命名实体识别、关系抽取以及事件抽取。命名实体识别用于识别文本中的实体;关系抽取是对文本中的实体进行关系的识别;事件抽取是从描述事件信息的文本中识别并抽取出事件信息并以结构化的形式呈现出来,包括发生的时间、地点、参与角色以及与之相关的动作或者状态的改变。
本发明便是聚焦于音乐实体间的关系抽取,通过输入预定义的实体,然后对于他们之间的关系进行分类。
关系抽取的发展一共经历三个阶段,
第一个阶段:模式抽取模型,即使用一些文本分析工具对语料进行分析,然后自动的构建一些模式规则。利用这些规则,就可以在新的语料中获得新的关系
在自动化构建模式的过程难免会出现错误,因而需要人类专家的勘误,这是昂贵的,这是基于模式匹配的方法最主要的局限;
第二个阶段:统计关系抽取模型,基于统计的方法能够有较大的覆盖范围和较少的人力干预,因而基于统计的关系抽取方法(Statistical Relation Extraction,SRE)一度非常的火热。主要使用的是一些传统的机器学习方法,比较典型的包括SVM,贝叶斯算法等;此外,也有一些图方法,通过将实体、文本和关系之间的依赖用图的形式来表示,进而得到正确的实体间关系。
而传统的机器学习方法同样离不开专家对于大规模数据进行标注,此外,传统的自然语言处理模型也离不开人工设计模型所需要的重要特征以及特征组合,这些都需要花费巨大的人力以及时间。
第三个阶段:神经网络模型(Neural Relation Extraction Models),得益于深度学习近些年来如火如荼的发展,它为上述的问题提供了一种可能的解决思路,有效的推动了自然语言处理的发展。深度学习通过多层非线性变换的神经网络结构,对数据的表示进行抽象和学习。
基于神经网络的模型能够更多的获取文本的语义信息,因而具有更强大的抽取能力。NRE的不同研究主要集中在设计和使用不同的网络架构来获取文本中的语义信息上,例如RNN,CNN,GNNs以及attention-based neural networks等网络,近年来基于Transformer和预训练模型的SRE效果更进一步。
对于大多数应用来说,仅仅识别出一段文本中的实体是不够的,本发明还需要对他们之间的关系进行抽取。例如在文本“沉默是金是由张国荣作曲,许冠杰作词的一首粤语歌曲。”本发明识别出实体为歌曲沉默是金,人物张国荣、许冠杰,而沉默是金与张国荣之间又构成作曲关系,沉默是金与许冠杰构成作词关系。
本发明所抽取出的实体间的关系可以用于音乐知识图谱的构建,垂直领域搜索引擎等。通过构建面向音乐领域的关系抽取系统来降低人们快速获取音乐信息的难度。
实施例一
本实施例提供了面向音乐领域的实体关系抽取方法;
如图1所示,面向音乐领域的实体关系抽取方法,包括:
S101:获取待处理文本;
S102:对待处理文本进行句子过滤,得到候选句子;所述候选句子中包括至少两个音乐命名实体;
S103:对候选句子,进行降噪处理;
S104:将降噪处理后的候选句子,输入到训练后的实体关系抽取模型中,输出候选句子中包含的音乐实体关系;其中,所述训练后的实体关系抽取模型,是采用已标注实体关系的音乐文本进行训练得到的。
进一步地,所述S101:获取待处理文本,采用网络爬虫的方式进行获取。
示例性地,采用网络爬虫获取音乐语料,其中,音乐语料的来源有QQ音乐、网易云音乐等音乐软件歌手概述,百度百科页面中包含歌手、音乐、专辑等信息的非结构化文本以及搜狐、新浪等相关新闻网页音乐频道所包含的音乐新闻。本发明通过爬虫爬取相关的页面,同时人工收集获得原始的音乐语料。
进一步地,如图4所示,所述S102:对待处理文本进行句子过滤,得到候选句子,具体包括:
S102-1:对待处理文本进行分句、分词和词性标注处理;
S102-2:对获得的句子进行过滤,对于包含至少两个音乐命名实体的句子进行保留,剩余句子予以删除。
进一步地,所述S103:对候选句子,进行降噪处理,具体包括:
对候选句子,去除停用词、删除特殊符号以及空格。
进一步地,如图2所示,所述S104:将降噪处理后的候选句子,输入到训练后的实体关系抽取模型中,输出候选句子中包含的音乐实体关系,其中,实体关系抽取模型,包括:
依次连接的词嵌入层、神经网络层、注意力机制层和输出层。
进一步地,如图3所示,所述S104:将降噪处理后的候选句子,输入到训练后的实体关系抽取模型中,输出候选句子中包含的音乐实体关系,其中,训练后的实体关系抽取模型,工作过程包括:
将降噪处理后的候选句子输入到词嵌入层的BERT模型中,词嵌入层的BERT模型对输入的候选句子进行编码生成词向量;
神经网络层的BiGRU模型对词向量进行处理,得到带有时序信息的文本表示;
注意力机制层,通过键值对计算序列中文本表示与关系类别的相关性,得到注意力权重,采用注意力权重对带有时序信息的文本表示进行加权求和,得到句子级的文本表示;
输出层,通过分类器对句子级的文本表示进行分类,输出最终的音乐实体关系类别。
示例性地,所述降噪处理后的候选句子,是一段包含实体对的音乐文本。
示例性地,词嵌入层,使用BERT预训练模型对输入的文本进行编码,来生成动态的词向量,充分利用实体对的位置信息,提升对于词汇以及文本语义的理解。相较于其他模型,BERT模型能够更加充分挖掘文本信息中的语义信息,考虑上下文关系,同时能够有效解决一词多义的问题。
示例性地,神经网络层,选择使用双向GRU模型来生成带有时序信息的文本表示。
示例性地,注意力机制层,即通过键值对计算序列中词汇与关系类别的相关性,并将它作为注意力权重。对于网络层生成的隐藏状态使用注意力权重进行加权求和,得到句子级的文本表示。
示例性地,输出层,为全连接层连接一个softmax分类器,通过softmax函数进行多分类。
示例性地,BERT是谷歌公司2018年所提出来的一种预训练的语言表征模型,它的提出引爆了整个NLP。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language model(MLM),以致能生成深度的双向语言表征。在使用BERT预训练模型后,NLP的相关任务获得了新的state-of-the-art的结果。
由于单独训练BERT模型会花费巨大的精力与物力,因此在实验中本发明使用开源的BERT模型。本发明使用哈工大讯飞实验室开源的基于中文的BERT-WWM-EXT模型代替谷歌之前开源的模型,提升了实验的效果。WWM即Whole Word Masking(对全词进行Mask),WWM-EXT是在WWM的基础上增加了训练集的大小以及训练步数。相比于BERT-Base-Chinese的改进是用Mask标签替换一个完整的词而不是字词,中文和英文不同,英文最小的token是一个单词,而中文中最小的token却是字,词是由一个或多个字组成,且每个词之间没有明显的分割,包含更多信息的是词,对全词mask就是对整个词都通过mask进行掩码。
表1WWM说明示例
BERT采用深层的transformer架构,能够联合模型的所有层中的上下文进行训练,使得词向量能够随着文本情景动态进行调整,因此在不同的语境中相同的词语具有不同的词嵌入,可以解决一词多义的问题,只需要微调就可以适应绝大多数的自然语言处理任务。
BERT模型的原始输入为一段文本s=[w1,w2,…,wm],输出为e=[x1,x2,…xn],wt代表输入文本第t个词,xt代表第t个词的词嵌入表示,文本输出向量的维度为128*768。
示例性地,获得文本的词向量表示后,将词向量矩阵通过BiGRU神经网络来获得文本的时序特征。
GRU门控循环单元是LSTM一种效果很好的变体,它将LSTM中的忘记门和输出门合并为一个单一的更新门,其中混合了细胞状态和隐藏状态。
LSTM和GRU都是通过各种门函数来将文本序列重要特征保存下来,在处理长文本序列时也能保证重要的信息不会被丢失,与LSTM相比,GRU的结构更加简单。
xt表示t时刻的输入,ht-1为t-1时刻隐藏层的状态,隐藏层状态包含了之前节点的相关信息。
zt和rt分别表示更新门和重置门,更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多。重置门控制前一状态有多少信息被写入到当前的候选集上,重置门越小,前一状态的信息被写入的越少。
rt=σ(Wr·[ht-1,xt]) (1)
zt=σ(Wz·[ht-1,xt]) (2)
σ为sigmoid激活函数,通过这个函数可以将数据变换为0-1范围内的数值,从而来充当门控信号,tanh函数将数据变换为-1到1的数值。
同样,本发明使用BiGRU在时间维以顺序和逆序依次处理序列,,并将每个时间步GRU的输出拼接成为最终的输出,这样可以保证不会忽略未来时刻的上下文信息。
在经过BiGRU编码后,本发明获得了特征矩阵G=[h1,h2,…ht],其中ht为第t个词汇的隐藏状态。
示例性地,关于注意力机制层,深度学习中注意力机制灵感来源于人类视觉的注意力机制,即人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其他无用信息。
本发明定义注意力机制层,对文本中的信息进行权重分配,以此来增加文本中关键词的关联程度占比。
主要分为四步:
(2)定义一个可学习的函数f,用于对输入文本函数的词汇进行打分(相似度计算);
(3)对于打分的结果进行归一化,得到每个词汇的权重;
(4)对每个词语进行加权求和,得到最终的句子特征表示r。
et=f(ht) (5)
示例性地,关于输出层,在输出层,本发明将获得的最终句子表示r通过全连接层,使用softmax函数来进行关系的抽取。因为实验中是对多种关系进行分类,因此损失函数本发明使用CCE(Categorical Cross Entropy)多分类交叉熵损失函数。
输入为注意力机制层输出的最终句子表示r,输出为分布概率最大的关系类别γt。
其中,wc,bc为权值和偏置项,在模型训练过程中不断学习得到。
为了获得最好的实验结果,本发明经过多次的实验,比较了各种参数取不同值时实验所获得的结果,确定了实验的最终参数,如表2所示,
表2实验参数设置
Epoch | 30 |
Batch_size | 16 |
Dropout | 0.2 |
Learning__rate | 3e-5 |
Word Embedding_dimension | 768 |
进一步地,模型提取的特征包括实体对,实体位置序列表示、文本以及关系类别。
进一步地,所述S104:将降噪处理后的候选句子,输入到训练后的实体关系抽取模型中,输出候选句子中包含的音乐实体关系,其中,训练后的实体关系抽取模型,模型训练过程包括:
S104-1:构建数据集,将数据集按照设定比例划分为训练集和测试集;
S104-2:将训练集输入到时态关系抽取模型中,对模型进行训练,当模型的损失函数值不再下降时,或者训练迭代次数超过设定次数时,停止训练,得到初步训练后的实体关系抽取模型;
S104-3:再对初步训练后的实体关系抽取模型,采用测试集进行测试,如果测试的准确度超过设定阈值,则得到训练后的实体关系抽取模型,如果测试的准确度低于设定阈值,则更换训练集,对模型再次进行训练。
进一步地,所述构建数据集,具体包括:
S104-11:对语料进行分句、分词和词性标注处理;对获得的句子进行过滤,对于包含至少两个音乐命名实体的句子作为候选句子进行保留,剩余句子予以删除;对候选句子进行降噪处理;
S104-12:定义音乐实体的类型以及音乐实体关系的类别,为音乐实体关系类别生成标签索引编号;
S104-13:形成音乐领域的数据集。
进一步地,所述对候选句子进行降噪处理,包括:去除停用词,删除无用标签,去除特殊符号以及空格。
示例性地,所述对候选句子进行降噪处理,包括:去除文本中不具有实际意义的停用词;删除句子中无用的标签;去除文本出现的特殊符号以及多余的空格;实体关系的抽取局限于单个句子之内,超过句子范畴的关系不进行处理;句中出现实体关系需显式或者直接表达出来;合并出现指代关系的词语。
上述技术方案的有益效果是:对于分句后得到的句子,并不是所有的句子都能够满足本发明实验的需求,因此,本发明需要对获得的句子进行过滤,仅保留哪些可能包含音乐实体关系的句子,这些句子被称之为候选句子。获得候选句子的方法是根据本发明对实体关系的定义,候选句子需要包含至少两个相互之间可能产生关系的音乐命名实体。
上述技术方案的有益效果还包括:通过网络爬虫所获得的原始音乐语料通常含有噪音,存在不规范的文本表达。因此本发明需要对原始的音乐文本进行处理,来减轻其中所包含的噪音,降低因数据集的精度而累计的实验误差。
进一步地,所述S104-12:定义音乐实体的类型以及音乐实体关系的类别,其中,所述音乐实体的类型,包括:人物、音乐、专辑、影视、机构、时间、游戏和别名;
所述人物,包括:歌手、组合、乐队、作词家、作曲家、编曲家;所述音乐,是指中文歌曲;所述专辑,是指音乐专辑;所述影视,是指电影、电视剧和动漫;所述机构,是指唱片公司;所述时间,是指歌曲或专辑的发行时间;所述游戏,是指手游或网游;所述别名,是指人物的昵称、别名和英文名。
示例性地,通常一段文本中可能不止一种或两种实体类型,可能存在三个及以上的不同实体。例如文本:明明白白我的心是由李宗盛作词作曲,成龙和陈淑桦演唱,收录于成龙1993年专辑《第一次》中。文本中所涉及的实体类型包括有人物、音乐以及专辑。
进一步地,所述S104-12:定义音乐实体的类型以及音乐实体关系的类别,其中,所述音乐实体关系的类别,包括:
别名、作词、作曲、编曲、艺术家-歌曲、艺术家-专辑、歌曲-专辑、插曲、唱片公司、合作、其他情况、专辑-发行时间、歌曲-发行时间;
其中,所述别名,是指歌手的昵称和外号;所述作词,是指作词家为某首歌曲作词;所述作曲,是指作曲家为某首歌曲作曲;所述艺术家-歌曲,表明某首歌曲是属于某个歌手、组合的作品;所述艺术家-专辑,是指某张专辑是属于某个歌手或组合的;所述歌曲-专辑,是指当前首歌是某张专辑的中的一首歌;
所述插曲,是指当前首歌是某个影视作品的主题曲、片尾曲或者插曲;所述唱片公司,是指歌手或者组合签约某家唱片公司;所述合作,是指两人共同创作或演唱某首歌,或参演同一部影视作品;所述其他情况,是指文本中所涉及的两个实体的关系未知或者不存在关系;所述专辑-发行时间,是指某张专辑的发行时间;所述歌曲-发行时间,是指某首歌曲的发行时间。
应理解地,同一种关系可能具有多种表达,如作词关系常用表达包括作词、填词、写下以及作词人等等。只要能够表达出预定义关系类型,均可作为相关关系文本。
进一步地,所述S104-12:为音乐实体关系类别生成标签索引编号,具体包括:
艺术家-歌曲的关系类别标签索引编号为0、作词的关系类别标签索引编号为1、作曲的关系类别标签索引编号为2、编曲的关系类别标签索引编号为3、歌曲-专辑的关系类别标签索引编号为4、艺术家-专辑的关系类别标签索引编号为5、合作的关系类别标签索引编号为6、插曲的关系类别标签索引编号为7、其他的关系类别标签索引编号为8、别名的关系类别标签索引编号为9、专辑发行时间的关系类别标签索引编号为10、歌曲发行时间的关系类别标签索引编号为11、唱片公司的关系类别标签索引编号为12。
示例性地,根据预定义的关系数目生成相应数量的标签索引,依据文本中涉及的关系类型生成对应的索引ID,生成类别型变量,存储在json文件中。
进一步地,所述S104-13:形成音乐领域的数据集,具体包括:
S104-131:设置文本长度的最大值,将文本长度低于最大值的通过零填充的方式来保证文本长度一致性;对于文本长度高于最大值的,通过切除多余部分,来保证文本长度一致性;
S104-132:按照设定格式进行存储,所述设定格式,包括:句子编号、实体对、实体对关系类别以及包含实体对的文本;
示例性地,所述S104-13:形成音乐领域的数据集,具体包括:
设置文本最大长度为128。对于长度不足128的文本,借助零填充来保证长度一致,对于文本长度超过128的,则切去多余部分。从而保证输入模型文本维度的一致性;
按照一定的格式进行存储,格式为输入句子number、实体对、关系类别以及包含实体对文本;
对于文本中出现的多对实体以及关系时,本发明对每一对实体以及关系进行分类,来尽可能的降低实验的误差。
进一步地,所述S104-2:将训练集输入到时态关系抽取模型之前,将音乐实体对以及原文本相结合,实体对之间通过$连接,将原文本中所涉及的实体使用特殊字符#代替。
举个例子,周杰伦$稻香$在那个夏天,###的一曲##治愈了多少人的心灵。
在模型测试阶段,预测获得的实验结果将成为三元组中的关系被以边的形式存储到neo4j中,方便用户进行查询两个实体的关系。
在模型的测试阶段,本发明输入一段包含音乐实体对的文本,经过softmax函数作用,输出在预定义关系集合中最大概率的关系类别。
比如,‘一路向北是周杰伦为电影献作中,最成功的一首具有英伦摇滚风格的流行情歌,是头文字D的插曲’。输入实体对<周杰伦一路向北>,模型将会输出‘艺术家-歌曲’这一关系类别,而对于实体对<一路向北头文字D>,则会输出‘插曲’。本发明将获得的音乐三元组存储在neo4j中,以此来完成音乐知识图谱的构建。
进一步地,所述输出候选句子中包含的音乐实体关系之后,还包括:
基于音乐实体关系,构建音乐知识图谱;
基于音乐知识图谱实现音乐知识问答、音乐搜索结果推荐。
关系抽取(Relation Extraction,RE),它是信息抽取(Information Extraction,IE)的子任务,主要是负责从文本中识别出实体,抽取实体间的语义关系。关系抽取的形式通常为三元组的形式,即<实体,关系,实体>。关系抽取可以为知识图谱的自动构建、搜索引擎、问答等下游任务提供支撑。同时它的应用领域也十分广泛,涉及金融行业、生物医学、风控社交等等,本发明便是将它应用于音乐知识图的构建。
编程语言的选择,本发明使用了目前深度学习的主流语言python,同时提出了以BERT-BIGRU-ATTENTION为核心的深度学习模型。
表3模型模块说明
对于一个模型的好坏,本发明通常会通过某些指标来进行评价。由于本发明所提出的模型为深度学习模型,因此评价指标本发明选择传统的Accuracy、Precision、Recall以及F1值。
对于多分类问题,本发明通常把它转化为多个二分类问题,然后在n个二分类混淆矩阵上综合考察评价指标。实验中本发明选择宏平均值(Macro-averaging)作为实验结果,即先对每一个类统计指标值,然后再对所有类求算术平均值。
其中i为关系的类别,L代表关系类别的数目,TPi为关系类别i预测为正的正样本,FPi为关系类别i预测为正的负样本,FNi为关系类别i预测为负的正样本,Precisioni,Recalli为关系类别i的精确率以及召回率,Macro_P,Macro_R,Macro_F1分别为关系类别i的精确率、召回率以及F1值的宏平均值。
使用宏平均值作为实验的结果,它可以降低实验中因数据集规模大小以及关系类别的占比不均而导致的一些误差。表7便是模型测试过程中对于每种关系类别所获得的P、R以及F1指标。
表7模型测试关系类别实验结果
将输入的实体以及通过关系抽取系统获得的关系类别在neo4j数据库中以节点和边的形式进行存储,同时使用cypher语言对知识图中的节点以及关系进行增、删、查、改。图5为实施例一的模型训练向量维度变化示意图;图6为实施例一的音乐实体关系边展示;图7为实施例一的音乐知识图谱部分展示。
本发明所提出的基于深度学习的音乐实体关系抽取系统,从音乐知识数据展开,获取原始数据,对数据进行加工处理生成模型训练所使用的数据集,然后提出自己的方案进行训练,通过输入实体对以及音乐文本获得实体间的关系,最终生成知识三元组。
模型以BERT-BIGRU-ATTENTION为核心,提高了从语料文本中获取音乐实体以及实体间关系的效率。首先是使用BERT模型将音乐文本转化为计算机能够理解的词向量形式,提取文本中所包含的特征。使用BIGRU来提取文本的时序特征,获得隐藏状态。ATTENTION机制能够提高文本中关键字的影响,最后对于关系进行输出。
本发明所提出的音乐实体关系自动抽取系统在一定程度上降低音乐知识图谱构建的门槛,帮助人们快速获取音乐文本中实体对之间的关系。对于网络上不断增加的音乐新闻信息,对音乐领域的大量半结构化和非结构化的文本进行深层次的挖掘,从中抽取有价值的信息,将之转化为结构化数据,为用户提供精确化、全方位的音乐检索结果,方便用户对于自己感兴趣的内容有更精确的把握。
实施例二
本实施例提供了面向音乐领域的实体关系抽取系统;
面向音乐领域的实体关系抽取系统,包括:
获取模块,其被配置为:获取待处理文本;
过滤模块,其被配置为:对待处理文本进行句子过滤,得到候选句子;所述候选句子中包括至少两个音乐命名实体;
降噪模块,其被配置为:对候选句子,进行降噪处理;
输出模块,其被配置为:将降噪处理后的候选句子,输入到训练后的实体关系抽取模型中,输出候选句子中包含的音乐实体关系;其中,所述训练后的实体关系抽取模型,是采用已标注实体关系的音乐文本进行训练得到的。
此处需要说明的是,上述获取模块、过滤模块、降噪模块和输出模块对应于实施例一中的步骤S101至S104,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
实施例四本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.面向音乐领域的实体关系抽取方法,其特征是,包括:
获取待处理文本;
对待处理文本进行句子过滤,得到候选句子;所述候选句子中包括至少两个音乐命名实体;
对候选句子,进行降噪处理;
将降噪处理后的候选句子,输入到训练后的实体关系抽取模型中,输出候选句子中包含的音乐实体关系;其中,所述训练后的实体关系抽取模型,是采用已标注实体关系的音乐文本进行训练得到的。
2.如权利要求1所述的面向音乐领域的实体关系抽取方法,其特征是,对待处理文本进行句子过滤,得到候选句子,具体包括:对待处理文本进行分句、分词和词性标注处理;对获得的句子进行过滤,对于包含至少两个音乐命名实体的句子进行保留,剩余句子予以删除;对候选句子,进行降噪处理,具体包括:对候选句子,去除停用词、删除特殊符号以及空格。
3.如权利要求1所述的面向音乐领域的实体关系抽取方法,其特征是,将降噪处理后的候选句子,输入到训练后的实体关系抽取模型中,输出候选句子中包含的音乐实体关系,其中,实体关系抽取模型,包括:依次连接的词嵌入层、神经网络层、注意力机制层和输出层。
4.如权利要求3所述的面向音乐领域的实体关系抽取方法,其特征是,将降噪处理后的候选句子,输入到训练后的实体关系抽取模型中,输出候选句子中包含的音乐实体关系,其中,训练后的实体关系抽取模型,工作过程包括:
将降噪处理后的候选句子输入到词嵌入层的BERT模型中,词嵌入层的BERT模型对输入的候选句子进行编码生成词向量;
神经网络层的BiGRU模型对词向量进行处理,得到带有时序信息的文本表示;
注意力机制层,通过键值对计算序列中文本表示与关系类别的相关性,得到注意力权重,采用注意力权重对带有时序信息的文本表示进行加权求和,得到句子级的文本表示;
输出层,通过分类器对句子级的文本表示进行分类,输出最终的音乐实体关系类别。
5.如权利要求1所述的面向音乐领域的实体关系抽取方法,其特征是,将降噪处理后的候选句子,输入到训练后的实体关系抽取模型中,输出候选句子中包含的音乐实体关系,其中,训练后的实体关系抽取模型,模型训练过程包括:
构建数据集,将数据集按照设定比例划分为训练集和测试集;
将训练集输入到时态关系抽取模型中,对模型进行训练,当模型的损失函数值不再下降时,或者训练迭代次数超过设定次数时,停止训练,得到初步训练后的实体关系抽取模型;
再对初步训练后的实体关系抽取模型,采用测试集进行测试,如果测试的准确度超过设定阈值,则得到训练后的实体关系抽取模型,如果测试的准确度低于设定阈值,则更换训练集,对模型再次进行训练。
6.如权利要求5所述的面向音乐领域的实体关系抽取方法,其特征是,所述构建数据集,具体包括:
对语料进行分句、分词和词性标注处理;对获得的句子进行过滤,对于包含至少两个音乐命名实体的句子作为候选句子进行保留,剩余句子予以删除;对候选句子进行降噪处理;
定义音乐实体的类型以及音乐实体关系的类别,为音乐实体关系类别生成标签索引编号;
形成音乐领域的数据集。
7.如权利要求6所述的面向音乐领域的实体关系抽取方法,其特征是,定义音乐实体的类型以及音乐实体关系的类别,其中,所述音乐实体的类型,包括:人物、音乐、专辑、影视、机构、时间、游戏和别名;
所述人物,包括:歌手、组合、乐队、作词家、作曲家、编曲家;所述音乐,是指中文歌曲;所述专辑,是指音乐专辑;所述影视,是指电影、电视剧和动漫;所述机构,是指唱片公司;所述时间,是指歌曲或专辑的发行时间;所述游戏,是指手游或网游;所述别名,是指人物的昵称、别名和英文名;
定义音乐实体的类型以及音乐实体关系的类别,其中,所述音乐实体关系的类别,包括:
别名、作词、作曲、编曲、艺术家-歌曲、艺术家-专辑、歌曲-专辑、插曲、唱片公司、合作、其他情况、专辑-发行时间、歌曲-发行时间;
其中,所述别名,是指歌手的昵称和外号;所述作词,是指作词家为某首歌曲作词;所述作曲,是指作曲家为某首歌曲作曲;所述艺术家-歌曲,表明某首歌曲是属于某个歌手、组合的作品;所述艺术家-专辑,是指某张专辑是属于某个歌手或组合的;所述歌曲-专辑,是指当前首歌是某张专辑的中的一首歌;
所述插曲,是指当前首歌是某个影视作品的主题曲、片尾曲或者插曲;所述唱片公司,是指歌手或者组合签约某家唱片公司;所述合作,是指两人共同创作或演唱某首歌,或参演同一部影视作品;所述其他情况,是指文本中所涉及的两个实体的关系未知或者不存在关系;所述专辑-发行时间,是指某张专辑的发行时间;所述歌曲-发行时间,是指某首歌曲的发行时间;
为音乐实体关系类别生成标签索引编号,具体包括:
艺术家-歌曲的关系类别标签索引编号为0、作词的关系类别标签索引编号为1、作曲的关系类别标签索引编号为2、编曲的关系类别标签索引编号为3、歌曲-专辑的关系类别标签索引编号为4、艺术家-专辑的关系类别标签索引编号为5、合作的关系类别标签索引编号为6、插曲的关系类别标签索引编号为7、其他的关系类别标签索引编号为8、别名的关系类别标签索引编号为9、专辑发行时间的关系类别标签索引编号为10、歌曲发行时间的关系类别标签索引编号为11、唱片公司的关系类别标签索引编号为12;
所述输出候选句子中包含的音乐实体关系之后,还包括:基于音乐实体关系,构建音乐知识图谱;基于音乐知识图谱实现音乐知识问答、音乐搜索结果推荐。
8.面向音乐领域的实体关系抽取系统,其特征是,包括:
获取模块,其被配置为:获取待处理文本;
过滤模块,其被配置为:对待处理文本进行句子过滤,得到候选句子;所述候选句子中包括至少两个音乐命名实体;
降噪模块,其被配置为:对候选句子,进行降噪处理;
输出模块,其被配置为:将降噪处理后的候选句子,输入到训练后的实体关系抽取模型中,输出候选句子中包含的音乐实体关系;其中,所述训练后的实体关系抽取模型,是采用已标注实体关系的音乐文本进行训练得到的。
9.一种电子设备,其特征是,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求1-7任一项所述的方法。
10.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当非暂时性计算机可读指令由计算机执行时,执行权利要求1-7任一项所述方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310254368.XA CN116257616A (zh) | 2023-03-14 | 2023-03-14 | 面向音乐领域的实体关系抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310254368.XA CN116257616A (zh) | 2023-03-14 | 2023-03-14 | 面向音乐领域的实体关系抽取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116257616A true CN116257616A (zh) | 2023-06-13 |
Family
ID=86687867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310254368.XA Pending CN116257616A (zh) | 2023-03-14 | 2023-03-14 | 面向音乐领域的实体关系抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116257616A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116662582A (zh) * | 2023-08-01 | 2023-08-29 | 成都信通信息技术有限公司 | 基于自然语言的特定领域业务知识检索方法及检索装置 |
-
2023
- 2023-03-14 CN CN202310254368.XA patent/CN116257616A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116662582A (zh) * | 2023-08-01 | 2023-08-29 | 成都信通信息技术有限公司 | 基于自然语言的特定领域业务知识检索方法及检索装置 |
CN116662582B (zh) * | 2023-08-01 | 2023-10-10 | 成都信通信息技术有限公司 | 基于自然语言的特定领域业务知识检索方法及检索装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kausar et al. | A sentiment polarity categorization technique for online product reviews | |
US11727915B1 (en) | Method and terminal for generating simulated voice of virtual teacher | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN112541337A (zh) | 一种基于递归神经网络语言模型的文档模板自动生成方法及系统 | |
Kshirsagar et al. | A review on application of deep learning in natural language processing | |
Sun et al. | Multi-channel CNN based inner-attention for compound sentence relation classification | |
CN116578705A (zh) | 基于预训练语言模型与集成神经网络的微博情感分类方法 | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN116257616A (zh) | 面向音乐领域的实体关系抽取方法及系统 | |
Vanni et al. | From text saliency to linguistic objects: learning linguistic interpretable markers with a multi-channels convolutional architecture | |
Samih et al. | Enhanced sentiment analysis based on improved word embeddings and XGboost. | |
Meenakshi et al. | Novel Shared Input Based LSTM for Semantic Similarity Prediction | |
Yang et al. | News text mining-based business sentiment analysis and its significance in economy | |
CN114443846A (zh) | 一种基于多层级文本异构图的分类方法、装置及电子设备 | |
Baboo et al. | Sentiment analysis and automatic emotion detection analysis of twitter using machine learning classifiers | |
CN113780418A (zh) | 一种数据的筛选方法、系统、设备和存储介质 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN113011126A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
CN116910251A (zh) | 基于bert模型的文本分类方法、装置、设备及介质 | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 | |
CN114239565A (zh) | 一种基于深度学习的情绪原因识别方法及系统 | |
Strømsvåg | Exploring the Why in AI: Investigating how Visual Question Answering models can be interpreted by post-hoc linguistic and visual explanations | |
Alvarado et al. | Detecting Disaster Tweets using a Natural Language Processing technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |