CN112883713A - 基于卷积神经网络的评价对象抽取方法及装置 - Google Patents
基于卷积神经网络的评价对象抽取方法及装置 Download PDFInfo
- Publication number
- CN112883713A CN112883713A CN202110205277.8A CN202110205277A CN112883713A CN 112883713 A CN112883713 A CN 112883713A CN 202110205277 A CN202110205277 A CN 202110205277A CN 112883713 A CN112883713 A CN 112883713A
- Authority
- CN
- China
- Prior art keywords
- word
- matrix
- context
- model
- evaluation object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0282—Rating or review of business operators or products
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Accounting & Taxation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Mathematical Physics (AREA)
- Development Economics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于卷积神经网络的评价对象抽取方法及装置,属于人工智能技术领域。该基于卷积神经网络的评价对象抽取方法包括:获取语句文本并根据所述语句文本中的各单词生成词向量矩阵;将词向量矩阵输入基于上文词向量矩阵、下文词向量矩阵和预设的卷积神经网络模型创建的词标签模型中,得到词标签得分矩阵;根据词标签得分矩阵确定各单词的词标签;其中,词标签包括评价对象词标签;抽取评价对象词标签对应的单词为评价对象。本发明可以提高抽取评价对象的效率和准确性。
Description
技术领域
本发明涉及人工智能技术领域,具体地,涉及一种基于卷积神经网络的评价对象抽取方法及装置。
背景技术
互联网的出现和普及带来了大量的信息,和其他数据一样,文本评论同样不断地从互联网当中产生。例如,淘宝、天猫和京东等众多电商平台允许用户对购买商品进行评价;网易云音乐、QQ音乐等音乐平台允许对歌手所发布的歌曲进行评价;Twitter、微博等大众社交平台允许用户之间各自的发文进行评价。其中,文本评论包含了用户对评价对象的情感倾向,即用户通过评论来表达对评价对象的喜好程度。因此对评论信息进行情感分析是辅助决策和优化评价对象的有效方法和途径。评价对象抽取在文本情感分析领域是一项基础且关键的任务,是指从评论文本中正确地提取构成目标评价对象的单词或者词组,也可视其为一种序列标注任务和一种细粒度的抽取任务,一条评论文本可能包含多个评价对象,完成正确的抽取有一定的难度,因此评价对象的抽取获得了广泛关注并存在较多的解决方案。近年来,随着词向量技术的发展,基于深度学习的方法能够自动地提取出文本的语义特征,避免了人工提取特征繁琐的过程以及不确定性,因此可以被广泛地应用于解决该领域的问题。基于深度学习的方法主要包括卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)两大类。其中,RNN模型具有记忆序列信息的能力,对序列建模上具备一定的优势,但一般RNN模型的参数较多,每一步的计算都需要前一步计算的结果,因此RNN模型未能充分发挥GPU的并行能力且训练时间相对较长,降低了抽取评价对象的效率;另外,RNN模型也无法融入评价对象的上下文特征并进行准确的识别。
发明内容
本发明实施例的主要目的在于提供一种基于卷积神经网络的评价对象抽取方法及装置,以提高抽取评价对象的效率和准确性。
为了实现上述目的,本发明实施例提供一种基于卷积神经网络的评价对象抽取方法,包括:
获取语句文本并根据所述语句文本中的各单词生成词向量矩阵;
将词向量矩阵输入基于上文词向量矩阵、下文词向量矩阵和预设的卷积神经网络模型创建的词标签模型中,得到词标签得分矩阵;
根据词标签得分矩阵确定各单词的词标签;其中,词标签包括评价对象词标签;
抽取评价对象词标签对应的单词为评价对象。
本发明实施例还提供一种基于卷积神经网络的评价对象抽取装置,包括:
词向量矩阵获取模块,用于获取语句文本并根据语句文本中的各单词生成词向量矩阵;
词标签得分矩阵模块,用于将词向量矩阵输入基于上文词向量矩阵、下文词向量矩阵和预设的卷积神经网络模型创建的词标签模型中,得到词标签得分矩阵;
词标签模块,用于根据词标签得分矩阵确定各单词的词标签;其中,词标签包括评价对象词标签;
评价对象抽取模块,用于抽取评价对象词标签对应的单词为评价对象。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,处理器执行计算机程序时实现所述的基于卷积神经网络的评价对象抽取方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现所述的基于卷积神经网络的评价对象抽取方法的步骤。
本发明实施例的基于卷积神经网络的评价对象抽取方法及装置先根据语句文本中的各单词生成词向量矩阵,然后将词向量矩阵输入词标签模型中,得到词标签得分矩阵以确定各单词的词标签,最后抽取评价对象词标签对应单词为评价对象,可以提高抽取评价对象的效率和准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中基于卷积神经网络的评价对象抽取方法的流程图;
图2是本发明具体实施例中抽取评价对象的功能示意图;
图3是本发明实施例中创建词标签模型的流程图;
图4是本发明另一实施例中创建词标签模型的流程图;
图5是本发明实施例中S201的流程图;
图6是本发明实施例中S301的流程图;
图7是本发明实施例中S302的流程图;
图8是本发明实施例中BIO标签标注的示意图;
图9是本发明实施例中划分评价对象对应的上文文本和下文文本的示意图;
图10是本发明实施例中生成上文词向量矩阵的示意图;
图11是本发明实施例中词标签模型的结构图;
图12是本发明实施例中基于卷积神经网络的评价对象抽取装置的结构框图;
图13是本发明另一实施例中词标签模型创建模块的结构框图;
图14是本发明实施例中计算机设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
鉴于现有技术主要使用循环神经网络来解决评价对象抽取问题,具有前项依赖性,即下一步计算需要依赖于上一步的计算结果,不能充分利用GPU并行计算能力,本发明实施例提供一种基于卷积神经网络的评价对象抽取方法,可以将评价对象上下文特征融入具有高效计算能力的CNN模型,充分发挥GPU并行运算能力,在加快模型训练速度的同时使得模型更具人性化特征,以此提高抽取评价对象的效率和准确性。
本发明旨在解决传统基于RNN的模型所产生的前项依赖问题。对于CNN模型而言,其模型结构相对简单且可并行化,能够充分发挥GPU的并行计算能力;另外,评价对象所在句子的上下文会对判断产生很大的影响。本发明充分利用CNN模型能够并行计算的处理能力,同时融入评价对象的上下文特征以丰富模型的特征表示,使抽取任务被更加快速有效地完成。
图1是本发明一实施例中基于卷积神经网络的评价对象抽取方法的流程图。图2是本发明具体实施例中抽取评价对象的功能示意图。如图1至图2所示,基于卷积神经网络的评价对象抽取报文异常识别方法包括:
S101:获取语句文本并根据语句文本中的各单词生成词向量矩阵。
例如,语句文本S′由m个单词构成,则S′={id1,id2,...,idm},S′中的元素为语料库词典中对语句文本中的各单词分配的随机id,则生成的词向量矩阵X为:
X={u1,u2,...,um},ui=eiWE;
其中,WE为语料库中所有单词对应的词嵌入向量(语料库单词嵌入矩阵),维度为[z,300],表示语料库中所有单词的词向量集合。z为语料库中单词的数量。ei={0,0,...,1,...,0}为一个独热向量,维度为[1,z],其中仅有一个位置为1,对应第i个单词idi在语料库单词字典中的编号,即根据idi在语料库单词字典中的编号创建ei。eiWE相当于从WE中取出第i个单词idi所在位置的词向量ui。
S102:将词向量矩阵输入基于上文词向量矩阵、下文词向量矩阵和预设的卷积神经网络模型创建的词标签模型中,得到词标签得分矩阵。
S103:根据词标签得分矩阵确定各单词的词标签。
其中,词标签包括评价对象词标签。词标签包括第一评价对象词标签B-A,第二评价对象词标签I-A和非评价对象词标签O;评价对象词标签包括第一评价对象词标签B-A和第二评价对象词标签I-A。
具体实施时,词标签模型输出词标签得分矩阵,根据词标签得分矩阵可以得到各单词的词标签得分。各单词均对应三个词标签得分,确定词标签得分中的最大值对应的词标签为对应单词的词标签。
S104:抽取评价对象词标签对应的单词为评价对象。
具体实施时,可以抽取B-A和I-A对应的单词为评价对象。
如图2所示,句子(Sentence),即语句文本,经过转化处理交由卷积神经网络模型(CNN Based Sys),抽取得到句子中的评价对象(Result)。
图1所示的基于卷积神经网络的评价对象抽取方法的执行主体可以为计算机。由图1所示的流程可知,本发明实施例的基于卷积神经网络的评价对象抽取方法先根据语句文本中的各单词生成词向量矩阵,然后将词向量矩阵输入词标签模型中,得到词标签得分矩阵以确定各单词的词标签,最后抽取评价对象词标签对应单词为评价对象,可以提高抽取评价对象的效率和准确性。
图3本发明实施例中创建词标签模型的流程图。图4是本发明另一实施例中创建词标签模型的流程图。如图4所示,具体实施时,可以为抽取任务设计一个分段卷积神经网络模型,以训练集的词向量矩阵作为模型的输入,抽取由评价对象所划分的句子上下文特征。将包含句子上下文信息的词向量矩阵输入一个条件随机场(CRF)算法以预测标签,训练模型;使用测试集测试训练好的模型,验证效果。如图3所示,创建词标签模型包括:
执行如下迭代处理:
S201:根据上文词向量矩阵、下文词向量矩阵以及卷积神经网络模型中的模型参数得到模型得分矩阵。
其中,模型参数包括:上文卷积过滤器、上文偏置项、下文卷积过滤器、下文偏置项、第一线性转换参数、第二线性转换参数、第三线性转换参数和得分偏置项。上文偏置项包括第一上文偏置项和第二上文偏置项;下文偏置项包括第一下文偏置项和第二下文偏置项。
一实施例中,在执行S201之前,还包括:
1、获取历史语句文本,将历史语句文本划分为该历史语句文本中的评价对象对应的上文文本和下文文本。
如图4所示,具体实施时,对于给定句子(历史语句文本和S101中的语句文本),可以采用分词工具等对其进行分词处理;另外,可以采用BIO方法对历史语句文本中的单词进行标签化处理。最后将分词结果序列化,根据评价对象将历史语句文本划分为上文文本和下文文本,并填充为相同的长度。
图8是本发明实施例中BIO标签标注的示意图。如图8所示,本发明将评价对象抽取任务视为对句子序列标注的问题,给定例句“华为mate40相机的拍摄效果相对于去年来说提升了不少”。首先,对于给定的句子,需要对其进行分词处理从而得到句子的序列组成结构。分词算法可以分为三大类,包括基于字符串的匹配方法、基于理解的分词方法以及基于统计的分词方法,在这三类方法的基础上衍生出了jieba、NLPIR、LTP等分词工具,优选的,本发明采用jieba分词工具对语料库中的语句文本进行分词处理。例如,对于给定例句,使用jieba工具按照词性分类得到的分词结果为:{华为/n,mate40/n,相机/n,的/u,拍摄效果/n,相比/v,于/p,去年/n,来说/v,提升/v,了/u,不少/a},其中标签n为名词词性,u为助词词性,p为介词词性,v为动词词性,a为形容词词性。
取得分词结果后,根据任务要求采用BIO方法对句子中的每个单词赋予相应的标签,其中包含了3个标签:[B-A,I-A,O],B-A表示组成评价对象的第一个词,I-A表示除B-A之外其他组成该评价对象的词,O表示句子中非组成评价对象的词。B-A和I-A组成评价对象。最后,将语料库中的句子的分词结果和对应的标签集合分成比例为8:2的训练集和测试集。S201中的上文词向量矩阵和下文词向量矩阵为训练集中的历史语句文本对应的数据。
图9是本发明实施例中划分评价对象对应的上文文本和下文文本的示意图。如图9所示,语料库由n个独立的句子组成S={S1,S2,...,Sn},选择其中某个句子St,假设该句子由m个单词构成,则St={id1,id2,...,idm},St中的元素为语料库词典中对组成该句子的单词分配的随机id。显然,一条语句文本当中可能包含多个评价对象,则各个句子(语句文本)所包含的评价对象数量所构成的集合为A={A1,A2,...,Av}。假设句子St(At=2)当中包含两个评价对象a1、a2,其在该句子中对应的位置起止下分别为标为[e1,s1]和[e2,s2],则句子St可由评价对象a1划分成两个部分up1和down1,其中up1={id1,...,s1}包含了评价对象a1的上文信息(上文文本),down1={e1,...,idm}包含了评价对象的下文信息(下文文本)。同理句子St亦可由评价对象a2划分成包含评价对象a2的上文文本up2和下文文本down2。
2、根据上文文本生成上文词向量矩阵,根据下文文本生成下文词向量矩阵。
具体实施时,可以通过加载预训练词嵌入向量将单词ID映射为向量的表示方式。将一个句子作为一个整体,形成句子的词向量矩阵作为模型输入。
为了更好的表示词所表达的语义特征,业界通过神经网络算法来训练语言模型,将词嵌入到一个维度较低且固定的空间当中,得到一种更为稠密且包含词语义的词嵌入向量表示。目前基于神经网络训练词嵌入的方式包括了最基本的神经语言模型(NeuralNetwork Language Model,NNLM),以及其优化方法包括了Word2Vec算法、GloVe算法以及FastText算法等。优选的,本发明选择GloVe算法预训练词向量,它是斯坦福大学提出的一种新的词矩阵生成的方法,综合运用词的全局统计信息和局部统计信息来生成语言模型和词的向量化表示。
图10是本发明实施例中生成上文词向量矩阵的示意图。如图10所示,以根据上文文本生成上文词向量矩阵为例,包含评价对象及其上文内容的上文文本序列为up={id1,id2,...,id5},则生成对应的上文词向量(上文嵌入矩阵)Xup的过程表示为:
Xup={u1,u2,...,u5},ui=eiWE;
其中,WE为语料库中所有单词对应的词嵌入向量(语料库单词嵌入矩阵),维度为[z,300],表示语料库中所有单词的词向量集合。z为语料库中单词的数量。ei={0,0,...,1,...,0}为一个独热向量,维度为[1,z],其中仅有一个位置为1,对应第i个单词idi在语料库单词字典中的编号。即根据idi在语料库单词字典中的编号创建ei。eiWE相当于从WE中取出第i个单词idi所在位置的词向量ui。显然,下文词向量矩阵Xdown亦可由该方法获取。该操作可由深度学习框架提供的词向量查找方法实现查找操作。
图5是本发明实施例中S201的流程图。如图5所示,S201包括:
S301:根据上文词向量矩阵、上文卷积过滤器、上文偏置项和第一线性转换参数得到上文特征矩阵。
图11是本发明实施例中词标签模型的结构图。如图11所示,图11包括针对上下文特征提取的卷积计算,融合上下文特征的线性转换以及由CRF抽取结果的过程。
图6是本发明实施例中S301的流程图。如图6所示,S301包括:
S401:根据上文词向量矩阵、上文卷积过滤器和第一上文偏置项得到上文特征图矩阵。
如图11所示,假设某个句子中包含两个评价对象a1,a2,则第一个评价对象a1对应的上文词向量矩阵为Xup 1,第一个评价对象a1对应的下文词向量矩阵为Xdown 1,第二个评价对象a2对应的上文词向量矩阵为Xup 2,第二个评价对象a2对应的下文词向量矩阵为Xdown 2。假设包含n个历史语句文本的语料库的句子最大长度为L,为满足模型的输入格式,需要用0向量将输入矩阵填充为相同的维度大小,将其填充维度统一为[L,300],则对于任意一个句子(历史语句文本)而言,获得评价对象上下文特征的卷积计算过程可以表示为:
其中,为第k个评价对象的上文特征图矩阵中第i行第j列的元素,f为非线性激活函数ReLU,*为卷积计算,Xup k为第k个评价对象的上文词向量矩阵,为第k个评价对象的上文卷积过滤器中第j列元素,bup k(j)为第k个评价对象的第一上文偏置项中第j列元素。的维度为[w,300],w为卷积窗口的大小(卷积核宽度),其取值为{3,5},目的是为了获取包含中心词不同上下文单词的语义特征。例如,当w=3时提取包含中心词和中心词上下各一个词的语义特征,w=5时则提取包含中心词和中心词上下各两个词的语义特征。bup k的卷积步长为1,用0填充上下文不足的首词和尾词,保证句子中的每一个词都涵盖在内。k∈[1,na],用来表示语句文本中的第几个评价对象,na为对应语句文本中评价对象的个数。i∈[1,L],表示特征图矩阵的行标,最大值为L,即为历史语句文本的最大长度。j∈[1,nconv],表示特征图矩阵的列标,nconv为特征图数量,采用多个卷积过滤器提取不同特征。
S402:根据上文特征图矩阵、第二上文偏置项和第一线性转换参数得到上文特征矩阵。
其中,上文特征矩阵U可通过如下公式,由上文特征图矩阵拼接并做线性转换后得到:
U为上文特征矩阵,W1为第一线性转换参数,b1为第二上文偏置项。
S302:根据下文词向量矩阵、下文卷积过滤器、下文偏置项和第二线性转换参数得到下文特征矩阵。
图7是本发明实施例中S302的流程图。如图7所示,S302包括:
S501:根据下文词向量矩阵、下文卷积过滤器和第一下文偏置项得到下文特征图矩阵。
一实施例中,可以通过如下公式得到下文特征图矩阵:
其中,为第k个评价对象的下文特征图矩阵中第i行第j列的元素,Xdown k为第k个评价对象的下文词向量矩阵,为第k个评价对象的下文卷积过滤器中第j列元素,bdown k(j)为第k个评价对象的第一下文偏置项中第j列元素。的维度为[w,300],w为卷积窗口的大小(卷积核宽度),其取值为{3,5}。bdown k的卷积步长为1,用0填充上下文不足的首词和尾词,保证句子中的每一个词都涵盖在内。
S502:根据下文特征图矩阵、第二下文偏置项和第二线性转换参数得到下文特征矩阵。
其中,下文特征矩阵D可通过如下公式,由下文特征图矩阵拼接并做线性转换后得到:
D为下文特征矩阵,W2为第二线性转换参数,b2为第二下文偏置项。
S303:根据上文特征矩阵、下文特征矩阵、第三线性转换参数和得分偏置项得到模型得分矩阵。
为了融合评价对象的上下文特征,上文特征矩阵U和下文特征矩阵D需经过矩阵拼接并再次经过线性映射,得到模型对句子单词中的每个标签预测的得分矩阵R,具体公式如下:
其中,R为模型得分矩阵,维度为[L,3],表示句子中的每个单词对应三个标签的得分,W为第三线性转换参数,b为得分偏置项。
S202:根据模型得分矩阵和转移得分矩阵确定损失函数。
一实施例中,可以通过计算转移得分来确定模型的损失函数,并根据损失函数进一步优化模型参数,此时S202包括:
1、根据模型得分矩阵和转移得分矩阵确定实际标签转移路径得分。
由于单凭模型预测的得分矩阵会产生标签之间转换不合理的问题,导致标签预测不够准确,因此需要CRF算法对标签之间的转移加以限制,让CRF算法通过训练来学习这些约束,不需要手动来建立约束,这将使得矩阵的迭代过程将会变得更加的合理化。
同上,设句子的最大长度为L,CRF算法以模型得分矩阵R和其定义的转移得分矩阵A来作为输入,其中A的维度为[L,L],在模型训练的可随机初始化。显然,长度为L的句子在评价对象抽取任务当中标签组合的结果有3L种,每一种不同的组合方式称为转移路径,CRF训练的目的是为了突出句子实际标签转移路径得分所占的比重,以此优化模型的参数。
以图8中语句文本为例,实际标签值y={y1,y2,...,y11}={O,O,O,B-A,I-A,O,...,O},设x={R1,O,R2,O,R3,O,R4,B-A,...,R11,O}为实际标签的模型输出得分,其中的元素表示句子中的单词为实际标签的得分值,可由模型输出结果得到。实际标签的转移路径可表示为{y1→y2,y2→y3,...,y10→y11},即{O->O,O->O,O->O,O->B-A,B-A->I-A,...,O->O}。则可由CRF算法计算得出的实际标签转移路径得分score(x,y),表示为转移得分矩阵A加上模型得分矩阵R:
2、根据实际标签转移路径得分确定损失函数。
其中,损失函数为标签序列的负对数似然函数,可以通过如下公式确定:
p(y|x)为在给定x的条件下y标签的概率,公式中Yx为句子当中所有标签转移路径的集合,则分子为实际标签的得分,分母表示除实际标签的转移路径之外的其他路径得分的总和。loss为负对数损失函数,底数为e。
在预测未知数据即测试集数据当中,用动态规划算法维特比算法(Viterbialgorithm)来选择得分最高的路径作为句子标签的预测结果。
S203:判断当前迭代次数是否达到预设迭代次数。
表1
表1是词标签模型参数表。本发明选择深度学习框架tensorflow搭建并训练模型,tensorflow深度学习框架是一个端到端的开源深度学习平台,能够使得开发者轻松地部署其所设计的不同结构的深度学习模型。其中,epoch表示模型要训练50次,即预设迭代次数为50,batchsize表示在一次训练的过程中,每次处理64个历史语句文本,直到语料库遍历完成。nconv为特征图数量,w为卷积核宽度,可以通过nconv和w设计提取不同的句子特征。
S204:当当前迭代次数达到预设迭代次数时,根据当前迭代中的模型参数创建词标签模型。
S201中的上文词向量矩阵和下文词向量矩阵为训练集中的数据。当当前迭代次数达到预设迭代次数时,可以采用测试集中的数据对词标签模型进行测试。由于标注方式包含三个标签,对每一个单词标注的过程可认为是一个三分类任务,所以本发明选择适合多分类任务的宏平均F1值micro-F1作为模型的评测指标,计算过程表示如下:
其中,表示平均真阳率,即正样本被成功预测为正样本;表示平均假阳率,即负样本被预测为正样本。表示平均假阴率,即正样本被预测为负样本。正样本对应的词标签包括B-A和I-A,负样本对应的词标签为O。该过程相当于首先计算每一个标签类别的准确率和召回率,取平均值得到微平均精确率micro-P和微平均召回率micro-R,最后计算得到micro-F1,模型训练到评测指标micro-F1收敛即可达到抽取评价对象的目的。
S205:当当前迭代次数没有达到预设迭代次数时,根据损失函数更新模型参数和转移得分矩阵,继续执行迭代处理。
具体实施时,可以根据损失函数、Adam算法学习率和dropout比率更新模型参数和转移得分矩阵,采用Adam算法学习率优化参数,利用dropout比率防止过拟合。
本发明实施例的具体流程如下:
1、获取历史语句文本,将历史语句文本划分为该历史语句文本中的评价对象对应的上文文本和下文文本。
2、根据上文文本生成上文词向量矩阵,根据下文文本生成下文词向量矩阵。
3、根据上文词向量矩阵、上文卷积过滤器和第一上文偏置项得到上文特征图矩阵。
4、根据上文特征图矩阵、第二上文偏置项和第一线性转换参数得到上文特征矩阵。
5、根据下文词向量矩阵、下文卷积过滤器和第一下文偏置项得到下文特征图矩阵。
6、根据下文特征图矩阵、第二下文偏置项和第二线性转换参数得到下文特征矩阵。
7、根据上文特征矩阵、下文特征矩阵、第三线性转换参数和得分偏置项得到模型得分矩阵。
8、根据模型得分矩阵和转移得分矩阵确定损失函数。
9、当当前迭代次数达到预设迭代次数时,根据当前迭代中的模型参数创建词标签模型,否则根据损失函数更新模型参数和转移得分矩阵,返回步骤2。
10、获取语句文本并根据所述语句文本中的各单词生成词向量矩阵。
11、将词向量矩阵输入词标签模型中,得到词标签得分矩阵。
12、根据词标签得分矩阵确定各单词的词标签,抽取评价对象词标签对应的单词为评价对象。
综上,现有技术主要使用循环神经网络来解决评价对象抽取问题,但该方法具有前项依赖性,即下一步计算需要依赖于上一步的计算结果,不能充分利用GPU的并行计算能力。本发明充分利用分段的卷积神经网络来解决评价对象抽取问题,提取包含评价对象上下文信息的特征,丰富模型的特征表现形式,能够充分发挥GPU的运算能力,提高模型训练效率,进而提高抽取评价对象的效率和准确性。
基于同一发明构思,本发明实施例还提供了一种基于卷积神经网络的评价对象抽取装置,由于该装置解决问题的原理与基于卷积神经网络的评价对象抽取方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
图12是本发明实施例中基于卷积神经网络的评价对象抽取装置的结构框图。图13是本发明另一实施例中词标签模型创建模块的结构框图。如图12-图13所示,基于卷积神经网络的评价对象抽取装置包括:
词向量矩阵获取模块,用于获取语句文本并根据语句文本中的各单词生成词向量矩阵;
词标签得分矩阵模块,用于将词向量矩阵输入基于上文词向量矩阵、下文词向量矩阵和预设的卷积神经网络模型创建的词标签模型中,得到词标签得分矩阵;
词标签模块,用于根据词标签得分矩阵确定各单词的词标签;其中,词标签包括评价对象词标签;
评价对象抽取模块,用于抽取评价对象词标签对应的单词为评价对象。
在其中一种实施例中,还包括:词标签模型创建模块,用于执行如下迭代处理:
根据上文词向量矩阵、下文词向量矩阵以及卷积神经网络模型中的模型参数得到模型得分矩阵;
根据模型得分矩阵和转移得分矩阵确定损失函数;
当当前迭代次数达到预设迭代次数时,根据当前迭代中的模型参数创建词标签模型,否则根据损失函数更新模型参数和转移得分矩阵,继续执行迭代处理。
在其中一种实施例中,模型参数包括:上文卷积过滤器、上文偏置项、下文卷积过滤器、下文偏置项、第一线性转换参数、第二线性转换参数、第三线性转换参数和得分偏置项;
词标签模型创建模块具体用于:
根据上文词向量矩阵、上文卷积过滤器、上文偏置项和第一线性转换参数得到上文特征矩阵;
根据下文词向量矩阵、下文卷积过滤器、下文偏置项和第二线性转换参数得到下文特征矩阵;
根据上文特征矩阵、下文特征矩阵、第三线性转换参数和得分偏置项得到模型得分矩阵。
如图13所示,在实际应用中,词标签模型创建模块包括数据预处理模块、句子向量化模块以及模型设计和训练模块。
综上,本发明实施例的基于卷积神经网络的评价对象抽取装置先根据语句文本中的各单词生成词向量矩阵,然后将词向量矩阵输入词标签模型中,得到词标签得分矩阵以确定各单词的词标签,最后抽取评价对象词标签对应单词为评价对象,可以提高抽取评价对象的效率和准确性。
本发明实施例还提供能够实现上述实施例中的基于卷积神经网络的评价对象抽取方法中全部步骤的一种计算机设备的具体实施方式。图14是本发明实施例中计算机设备的结构框图,参见图14,所述计算机设备具体包括如下内容:
处理器(processor)1401和存储器(memory)1402。
所述处理器1401用于调用所述存储器1402中的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中的基于卷积神经网络的评价对象抽取方法中的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
获取语句文本并根据所述语句文本中的各单词生成词向量矩阵;
将词向量矩阵输入基于上文词向量矩阵、下文词向量矩阵和预设的卷积神经网络模型创建的词标签模型中,得到词标签得分矩阵;
根据词标签得分矩阵确定各单词的词标签;其中,词标签包括评价对象词标签;
抽取评价对象词标签对应的单词为评价对象。
综上,本发明实施例的计算机设备先根据语句文本中的各单词生成词向量矩阵,然后将词向量矩阵输入词标签模型中,得到词标签得分矩阵以确定各单词的词标签,最后抽取评价对象词标签对应单词为评价对象,可以提高抽取评价对象的效率和准确性。
本发明实施例还提供能够实现上述实施例中的基于卷积神经网络的评价对象抽取方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的基于卷积神经网络的评价对象抽取方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
获取语句文本并根据所述语句文本中的各单词生成词向量矩阵;
将词向量矩阵输入基于上文词向量矩阵、下文词向量矩阵和预设的卷积神经网络模型创建的词标签模型中,得到词标签得分矩阵;
根据词标签得分矩阵确定各单词的词标签;其中,词标签包括评价对象词标签;
抽取评价对象词标签对应的单词为评价对象。
综上,本发明实施例的计算机可读存储介质先根据语句文本中的各单词生成词向量矩阵,然后将词向量矩阵输入词标签模型中,得到词标签得分矩阵以确定各单词的词标签,最后抽取评价对象词标签对应单词为评价对象,可以提高抽取评价对象的效率和准确性。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元,或装置都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
Claims (10)
1.一种基于卷积神经网络的评价对象抽取方法,其特征在于,包括:
获取语句文本并根据所述语句文本中的各单词生成词向量矩阵;
将所述词向量矩阵输入基于上文词向量矩阵、下文词向量矩阵和预设的卷积神经网络模型创建的词标签模型中,得到词标签得分矩阵;
根据所述词标签得分矩阵确定各单词的词标签;其中,所述词标签包括评价对象词标签;
抽取所述评价对象词标签对应的单词为评价对象。
2.根据权利要求1所述的基于卷积神经网络的评价对象抽取方法,其特征在于,创建词标签模型包括:
执行如下迭代处理:
根据所述上文词向量矩阵、所述下文词向量矩阵以及卷积神经网络模型中的模型参数得到模型得分矩阵;
根据所述模型得分矩阵和转移得分矩阵确定损失函数;
当当前迭代次数达到预设迭代次数时,根据当前迭代中的模型参数创建词标签模型,否则根据所述损失函数更新所述模型参数和所述转移得分矩阵,继续执行所述迭代处理。
3.根据权利要求2所述的基于卷积神经网络的评价对象抽取方法,其特征在于,所述模型参数包括:上文卷积过滤器、上文偏置项、下文卷积过滤器、下文偏置项、第一线性转换参数、第二线性转换参数、第三线性转换参数和得分偏置项;
根据所述上文词向量矩阵、所述下文词向量矩阵以及卷积神经网络模型中的模型参数得到模型得分矩阵包括:
根据所述上文词向量矩阵、所述上文卷积过滤器、所述上文偏置项和所述第一线性转换参数得到上文特征矩阵;
根据所述下文词向量矩阵、所述下文卷积过滤器、所述下文偏置项和所述第二线性转换参数得到下文特征矩阵;
根据所述上文特征矩阵、所述下文特征矩阵、所述第三线性转换参数和所述得分偏置项得到模型得分矩阵。
4.根据权利要求3所述的基于卷积神经网络的评价对象抽取方法,其特征在于,所述上文偏置项包括第一上文偏置项和第二上文偏置项;所述下文偏置项包括第一下文偏置项和第二下文偏置项;
根据所述上文词向量矩阵、所述上文卷积过滤器、所述上文偏置项和所述第一线性转换参数得到上文特征矩阵包括:
根据所述上文词向量矩阵、所述上文卷积过滤器和所述第一上文偏置项得到上文特征图矩阵;
根据所述上文特征图矩阵、所述第二上文偏置项和所述第一线性转换参数得到上文特征矩阵;
根据所述下文词向量矩阵、所述下文卷积过滤器、所述下文偏置项和所述第二线性转换参数得到下文特征矩阵包括:
根据所述下文词向量矩阵、所述下文卷积过滤器和所述第一下文偏置项得到下文特征图矩阵;
根据所述下文特征图矩阵、所述第二下文偏置项和所述第二线性转换参数得到下文特征矩阵。
5.根据权利要求1所述的基于卷积神经网络的评价对象抽取方法,其特征在于,还包括:
获取历史语句文本,将所述历史语句文本划分为该历史语句文本中的评价对象对应的上文文本和下文文本;
根据所述上文文本生成上文词向量矩阵,根据所述下文文本生成下文词向量矩阵。
6.一种基于卷积神经网络的评价对象抽取装置,其特征在于,包括:
词向量矩阵获取模块,用于获取语句文本并根据所述语句文本中的各单词生成词向量矩阵;
词标签得分矩阵模块,用于将所述词向量矩阵输入基于上文词向量矩阵、下文词向量矩阵和预设的卷积神经网络模型创建的词标签模型中,得到词标签得分矩阵;
词标签模块,用于根据所述词标签得分矩阵确定各单词的词标签;其中,所述词标签包括评价对象词标签;
评价对象抽取模块,用于抽取所述评价对象词标签对应的单词为评价对象。
7.根据权利要求6所述的基于卷积神经网络的评价对象抽取装置,其特征在于,还包括:词标签模型创建模块,用于执行如下迭代处理:
根据所述上文词向量矩阵、所述下文词向量矩阵以及卷积神经网络模型中的模型参数得到模型得分矩阵;
根据所述模型得分矩阵和转移得分矩阵确定损失函数;
当当前迭代次数达到预设迭代次数时,根据当前迭代中的模型参数创建词标签模型,否则根据所述损失函数更新所述模型参数和所述转移得分矩阵,继续执行所述迭代处理。
8.根据权利要求7所述的基于卷积神经网络的评价对象抽取装置,其特征在于,所述模型参数包括:上文卷积过滤器、上文偏置项、下文卷积过滤器、下文偏置项、第一线性转换参数、第二线性转换参数、第三线性转换参数和得分偏置项;
所述词标签模型创建模块具体用于:
根据所述上文词向量矩阵、所述上文卷积过滤器、所述上文偏置项和所述第一线性转换参数得到上文特征矩阵;
根据所述下文词向量矩阵、所述下文卷积过滤器、所述下文偏置项和所述第二线性转换参数得到下文特征矩阵;
根据所述上文特征矩阵、所述下文特征矩阵、所述第三线性转换参数和所述得分偏置项得到模型得分矩阵。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一项所述的基于卷积神经网络的评价对象抽取方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5任一项所述的基于卷积神经网络的评价对象抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110205277.8A CN112883713A (zh) | 2021-02-24 | 2021-02-24 | 基于卷积神经网络的评价对象抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110205277.8A CN112883713A (zh) | 2021-02-24 | 2021-02-24 | 基于卷积神经网络的评价对象抽取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112883713A true CN112883713A (zh) | 2021-06-01 |
Family
ID=76054291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110205277.8A Pending CN112883713A (zh) | 2021-02-24 | 2021-02-24 | 基于卷积神经网络的评价对象抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112883713A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114881029A (zh) * | 2022-06-09 | 2022-08-09 | 合肥工业大学 | 基于混合神经网络的中文文本可读性评价方法 |
CN116862318A (zh) * | 2023-09-04 | 2023-10-10 | 国电投华泽(天津)资产管理有限公司 | 基于文本语义特征提取的新能源项目评价方法和装置 |
-
2021
- 2021-02-24 CN CN202110205277.8A patent/CN112883713A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114881029A (zh) * | 2022-06-09 | 2022-08-09 | 合肥工业大学 | 基于混合神经网络的中文文本可读性评价方法 |
CN114881029B (zh) * | 2022-06-09 | 2024-03-01 | 合肥工业大学 | 基于混合神经网络的中文文本可读性评价方法 |
CN116862318A (zh) * | 2023-09-04 | 2023-10-10 | 国电投华泽(天津)资产管理有限公司 | 基于文本语义特征提取的新能源项目评价方法和装置 |
CN116862318B (zh) * | 2023-09-04 | 2023-11-17 | 国电投华泽(天津)资产管理有限公司 | 基于文本语义特征提取的新能源项目评价方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN108304375B (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN109840287A (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
CN112100354B (zh) | 人机对话方法、装置、设备及存储介质 | |
CN112906397B (zh) | 一种短文本实体消歧方法 | |
CN110134950B (zh) | 一种字词结合的文本自动校对方法 | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN111738002A (zh) | 基于Lattice LSTM的古文领域命名实体识别方法和系统 | |
CN110245349B (zh) | 一种句法依存分析方法、装置及一种电子设备 | |
CN112185361B (zh) | 一种语音识别模型训练方法、装置、电子设备及存储介质 | |
CN114818891A (zh) | 小样本多标签文本分类模型训练方法及文本分类方法 | |
CN111400584A (zh) | 联想词的推荐方法、装置、计算机设备和存储介质 | |
CN112883713A (zh) | 基于卷积神经网络的评价对象抽取方法及装置 | |
CN110874536A (zh) | 语料质量评估模型生成方法和双语句对互译质量评估方法 | |
CN115080750B (zh) | 基于融合提示序列的弱监督文本分类方法、系统和装置 | |
CN114896971B (zh) | 一种特定前后缀否定词识别方法、装置及存储介质 | |
CN114492460B (zh) | 基于衍生提示学习的事件因果关系抽取方法 | |
CN112394973A (zh) | 一种基于伪孪生网络的多语言代码剽窃检测方法 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
Göker et al. | Neural text normalization for turkish social media | |
WO2023169301A1 (zh) | 一种文本处理方法、装置及电子设备 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN114896966A (zh) | 一种中文文本语法错误定位方法、系统、设备及介质 | |
CN113012685B (zh) | 音频识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |