CN110276064A - 一种词性标注方法及装置 - Google Patents

一种词性标注方法及装置 Download PDF

Info

Publication number
CN110276064A
CN110276064A CN201810210178.7A CN201810210178A CN110276064A CN 110276064 A CN110276064 A CN 110276064A CN 201810210178 A CN201810210178 A CN 201810210178A CN 110276064 A CN110276064 A CN 110276064A
Authority
CN
China
Prior art keywords
word
marked
vector
default
submodel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810210178.7A
Other languages
English (en)
Other versions
CN110276064B (zh
Inventor
张鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Putian Information Technology Co Ltd
Original Assignee
Putian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Putian Information Technology Co Ltd filed Critical Putian Information Technology Co Ltd
Priority to CN201810210178.7A priority Critical patent/CN110276064B/zh
Publication of CN110276064A publication Critical patent/CN110276064A/zh
Application granted granted Critical
Publication of CN110276064B publication Critical patent/CN110276064B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种词性标注方法及装置。所述方法包括:获取待标注语料文本对应的字向量集合和词向量集合;根据所述字向量集合和词向量集合,获取所述待标注语料文本包括的各待标注词对应的联合特征向量;根据所述联合特征向量,按照预设模型获取所述各待标注词的词性标签和词频类型,根据所述词性标签对所述各待标注词进行词性标注,并根据所述词频类型对所述各待标注词进行词频标注;其中,所述预设模型包括第一预设子模型和第二预设子模型,所述第一预设子模型用于获取所述各待标注词的词性标签,所述第二预设子模型用于获取所述各待标注词的词频类型。所述装置用于执行上述方法。本发明提供的方法及装置提高了词性标注的准确性。

Description

一种词性标注方法及装置
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种词性标注方法及装置。
背景技术
词性标注(part-of-speech tagging,POS),对给定语料文本序列中的每个词判定词性并加以标注,它是深入处理自然语言处理的基石。为机器翻译,语音识别,信息检索等高层任务提供了基础,因此,对于词性标注的准确性的研究也越来越受到人们的关注。
现有技术条件下,一般基于BGRU+CNN+BLSTM+CRF神经网络模型进行词性标注,选用BGRU+CNN作为特征提取层,采用BLSTM作为主要非线性隐藏层,使用CRF作为输出层来对关联序列进行词性标注。虽然通过添加BGRU层对只包含正常词的文本进行特征词提取,达到对正常词及稀有词的特征分离,然而仅在输入层对稀有词和正常词进行分离,无法定量的最大化分离稀有词和正常词特征的分离程度,对于提高词性标注的准确性造成的一定的影响。
因此,提出一种方法提高词性标注的准确性是目前业界亟待解决的重要课题。
发明内容
针对现有技术中的缺陷,本发明实施例提供一种词性标注方法及装置。
一方面,本发明实施例提供一种词性标注方法,包括:
获取待标注语料文本对应的字向量集合和词向量集合;
根据所述字向量集合和词向量集合,获取所述待标注语料文本包括的各待标注词对应的联合特征向量;
根据所述联合特征向量,按照预设模型获取所述各待标注词的词性标签和词频类型,根据所述词性标签对所述各待标注词进行词性标注,并根据所述词频类型对所述各待标注词进行词频标注;其中,所述预设模型包括第一预设子模型和第二预设子模型,所述第一预设子模型用于获取所述各待标注词的词性标签,所述第二预设子模型用于获取所述各待标注词的词频类型。
第一预设子模型第二预设子模型
另一方面,本发明实施例提供一种词性标注装置,包括:
第一获取单元,用于获取待标注语料文本对应的字向量集合和词向量集合;
第二获取单元,用于根据所述字向量集合和词向量集合,获取所述待标注语料文本包括的各待标注词对应的联合特征向量;
标注单元,用于根据所述联合特征向量,按照预设模型获取所述各待标注词的词性标签和词频类型,根据所述词性标签对所述各待标注词进行词性标注,并根据所述词频类型对所述各待标注词进行词频标注;其中,所述预设模型包括第一预设子模型和第二预设子模型,所述第一预设子模型用于获取所述各待标注词的词性标签,所述第二预设子模型用于获取所述各待标注词的词频类型。第一预设子模型第二预设子模型
又一方面,本发明实施例提供一种电子设备,包括处理器、存储器和总线,其中:
所述处理器,所述存储器通过总线完成相互间的通信;
所述处理器可以调用存储器中的计算机程序,以执行上述方法的步骤。
再一方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
本发明实施例提供的词性标注方法及装置,通过根据获取到的待标注语料文本对应的字向量集合和词向量集合,获取所述待标注语料文本包括的各待标注词对应的联合特征向量,然后根据所述联合特征向量,按照预设模型获取所述各待标注词的词性标签和词频类型,根据所述词性标签对所述各待标注词进行词性标注,并根据所述词频类型对所述各待标注词进行词频标注第一预设子模型第二预设子模型,提高了词性标注的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的词性标注方法的流程示意图;
图2为本发明实施例提供CNN网络模型的示意图;
图3为本发明实施例提供的BGRU网络模型的示意图;
图4为本发明实施例提供的词性标注装置的结构示意图;
图5为本发明实施例提供的电子设备实体装置结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的词性标注方法的流程示意图,如图1所示,本实施例提供一种词性标注方法,包括:
S101、获取待标注语料文本对应的字向量集合和词向量集合;
具体地,当需要对某个预料文本进行词性标注时,用户输入所述待标注语料文本,词性标注装置将待标注语料文本读入到内存中,对所述待标注语料文本进行分词,获得多个待标注词,然后利用Word2Vec工具根据第一语料库获取各所述待标注词的字向量,根据第二语料库获取各所述待标注词的词向量,即根据不同的语料库分别将多个待标注词转化为字向量和词向量,其中,所述第二语料库为将所述第一语料库中包括的稀有词进行剔除并用预设标记向量对所述稀有词进行标记而获得的;所述待标注语料文本包括的各待标注词对应的字向量组成所述字向量集合,所述待标注语料文本包括的各待标注词对应的词向量组成所述词向量集合。可以理解的是,所述待标注语料文本可以是一句话,例如“我爱吃北京烤鸭”;所述字向量的维度可以为50维,所述词向量的维度可以为150维,当然还可以设置为其他维数,具体可以根据实际情况进行设置和调整,此处不做具体限定。
S102、根据所述字向量集合和词向量集合,获取所述待标注语料文本包括的各待标注词对应的联合特征向量;
具体地,所述装置根据所述字向量集合,获取所述各待标注词的第一特征向量,根据所述词向量集合,获取所述各待标注词第二特征向量,然后根据所述各待标注词的所述词向量、所述第一特征向量和所述第二特征向量,生成所述各待标注词的联合特征向量。
S103、根据所述联合特征向量,按照预设模型获取所述各待标注词的词性标签和词频类型,根据所述词性标签对所述各待标注词进行词性标注,并根据所述词频类型对所述各待标注词进行词频标注;其中,所述预设模型包括第一预设子模型和第二预设子模型,所述第一预设子模型用于获取所述各待标注词的词性标签,所述第二预设子模型用于获取所述各待标注词的词频类型。第一预设子模型
具体地,所述装置根据所述联合特征向量,按照预设模型获取所述各待标注词的词性标签和词频类型,根据所述词性标签对所述各待标注词进行词性标注,并根据所述词频类型对所述各待标注词进行词频标注,其中,所述预设模型包括第一预设子模型和第二预设子模型,所述第一预设子模型用于获取所述各待标注词的词性标签,所述第二预设子模型用于获取所述各待标注词的词频类型。也就是说,所述装置根据所述联合特征向量,按照第一预设子模型获取所述各待标注词的词性标签,并根据所述词性标签对所述各待标注词进行词性标注;其中,所述第一预设子模型可以为现有技术中常用的条件随机场(Conditional Random Fields,CRF)模型,具体的词性标注过程与现有技术一致,此处不再赘述。可以理解的是,对于正常词的词性标注包括名词、动词、代词、副词、形容词,还可以包括其他词性,具体可以根据实际情况进行设置和调整,此处不做具体限定;对于稀有词,则直接将其标记为稀有词,不会进行具体词性的标注。同时,所述装置根据所述联合特征向量,按照第二预设子模型计算所述各待标注词对应的词频分值向量,根据所述词频分值向量获取所述待标注词的词频类型,并根据所述词频类型对所述各待标注词进行词频标注;其中,所述词频类型包括正常词和稀有词。
第二预设子模型第二预设子模型第二预设子模型
本发明实施例提供的词性标注方法,通过根据获取到的待标注语料文本对应的字向量集合和词向量集合,获取所述待标注语料文本包括的各待标注词对应的联合特征向量,然后根据所述联合特征向量,按照预设模型获取所述各待标注词的词性标签和词频类型,根据所述词性标签对所述各待标注词进行词性标注,并根据所述词频类型对所述各待标注词进行词频标注,第一预设子模型第二预设子模型提高了词性标注的准确性。
在上述实施例的基础上,进一步地,所述获取待标注语料文本对应的字向量集合和词向量集合,包括:
对所述待标注语料文本进行分词,获得所述待标注语料文本包括的多个所述待标注词;
根据第一语料库获取各所述待标注词的字向量,根据所述各待标注词的字向量生成所述字向量集合;
根据第二语料库获取各所述待标注词的词向量,根据所述各待标注词的词向量生成所述词向量集合;
其中,所述第二语料库为将所述第一语料库中包括的稀有词进行剔除并用预设标记向量对所述稀有词进行标记而获得的。
具体地,所述第一语料库可以为人民日报词性标注语料库,当然也可以为其他语料库,具体可以根据实际情况进行设置和调整,此处不做具体限定。所述装置预先将人民日报词性标注语料库转化为字向量和词向量,对所述待标注语料文本进行分词,获得所述待标注语料文本包括的多个所述待标注词,然后将待标注语料文本中的字与所述语料库中的字向量进行匹配,得到与所述待标注语料文本包括的各待标注词对应的字向量。另外,所述装置将所述人民日报词性标注语料库中的稀有词剔除并用预设标记向量对所述稀有词进行标记从而获得所述第二语料库,将所述待标注语料文本中的词与所述第二语料库中的词向量进行匹配,得到与所述待标注语料文本包括的各待标注词对应的词向量。
在上述实施例的基础上,进一步地,所述根据所述字向量集合和词向量集合,获取所述待标注语料文本包括的各待标注词对应的联合特征向量,包括:
根据所述字向量集合,获取所述各待标注词的第一特征向量;
根据所述词向量集合,获取所述各待标注词的第二特征向量;
根据所述各待标注词的所述词向量、所述第一特征向量和所述第二特征向量,生成所述各待标注词的联合特征向量。
具体地,所述装置首先将所述字向量集合输入卷积神经网络(ConvolutionalNeural Network,CNN),CNN主要包括输入层、卷积层、池化(Pool)层。以“我爱吃北京烤鸭”为例,如图2所示,通过字嵌入获得的所述字向量集合输入所述输入层,然后字向量集合进入卷积层进行卷积操作,在卷积层中所述字向量被一个可学习的卷积核进行卷积,然后通过激活函数:f=Relu(Wx+b),就可以得到多个初始特征向量,其中,f为初始特征向量,Relu(Rectified Linear Units)为修正线性函数,W、b为预设权重和偏差值。为避免过拟合现象,采用最大池化函数来对初始特征向量进行取最大值操作,最终得到所述第一特征向量。接着,图3为本发明实施例提供的双向门循环单元神经网络模型(Bidirectional GatedRecurrent Unit,BGRU)的结构示意图,如图3所示,BGRU在隐藏层同时有一个正向GRU和反向GRU,将所述词向量输入到BGRU,正向GRU可以正向捕捉文本信息,反向GRU则从相反方向倒着捕捉文本信息,获得所述待标注语料文本包括的各待标注词对应的所述第二特征向量。应当说明的是,由于输入BGRU的所述词向量中稀有词部分被移除,因此采用BGRU来提取特征则可以减弱稀有词移除带来的不连续性影响,最大可能的提取正常词的词性特征。然后,所述装置针对每一个待标注词,将其所述词向量、所述第一特征向量和所述第二特征向量依次进行连接,生成所述各待标注词对应的联合特征向量。
例如,以“我爱吃北京烤鸭”中的“我”这个词为例,对应的联合特征向量为:W=[w1,w2,w3,…,wl,c1,c2,c3,…,cj,b1,b2,b3,…,bk],其中l为所述词向量的维度,j为CNN提取的所述第一特征向量的维度,k为BGRU提取的所述第二特征向量维度,则“我/爱/吃/北京烤鸭”就由五个类似这样的联合特征向量组成:input=[W,W,W,W北京烤鸭]。
在上述实施例的基础上,进一步地,所述根据所述联合特征向量,按照第二预设子模型获取各所述待标注词的词频类型,包括:
根据所述联合特征向量,按照第二预设子模型计算所述各待标注词对应的词频分值向量,并根据所述词频分值向量获取所述待标注词的词频类型。
具体地,所述装置根据所述联合特征向量按照第二预设子模型获取所述各待标注词对应的目标特征向量,根据所述目标特征向量计算所述各待标注词对应的词频分值向量,并根据所述词频分值向量获取所述待标注词的词频类型。应当说明的是,所述词频分值向量的维数与词频类型的个数相等,由于一般词频类型分为正常词和稀有词两类,因此所述词频分值向量为2维向量。
在上述实施例的基础上,进一步地,所述根据所述联合特征向量,按照第二预设子模型计算所述各待标注词对应的词频分值向量,包括:
根据所述联合特征向量,获取所述各待标注词对应的目标特征向量;
根据公式:Fi′=Fi×F*,计算所述各待标注词对应的词频分值向量;其中,Fi′为所述待标注语料文本的包括的第i个待标注词对应的词频分值向量,Fi为所述待标注语料文本的包括的第i个待标注词对应的联合特征向量,F*为神经网络参数矩阵,所述神经网络参数矩阵为m×n的矩阵,m与所述联合特征向量的列数相等,n与所述词频类型的个数相等。
具体地,所述装置将所述各待标注词对应的所述联合特征向量输入到双向长短期记忆网络(Bidirectional Long Short Term Memory,BLSTM),BLSTM由一个正向LSTM和一个反向的LSTM构成,分别从正向和反向开始读取所述待标注语料文本,输出所述各待标注词对应的目标特征向量。例如,仍然以“我爱吃北京烤鸭”为例,正向LSTM从“我”开始读取,一直到“北京烤鸭”,而反向LSTM从“北京烤鸭”开始读取,一直到“我”,这样可以同时兼顾到前后文的信息,针对每一个词,如“我”,输出是由正向和反向LSTM输出连接得到的,即:outputBLSTM=[BLSTMforward,BLSTMbackward]。假设所采用的神经网络隐藏单元数量为128个,那么向量outputBLSTM就应该是一个256维的目标特征向量outputBLSTM=[out1正,out2正,…,out128正,out1反,out2反,…,out128反],那么,对于“我/爱/吃/北京烤鸭”这四个词就有四个256维的目标特征向量。
由于词频是针对每一个词来说的,因此仅考虑每个词的目标特征向量,即单个256维目标特征向量的变化;并且,因为对于词频类型一般包括正常词和稀有词两种类型,用两个标签(“正常词”用0表示,“稀有词”用1表示)即可,因此所述目标特征向量也应当是一个2维向量,如freqencyscore=[f1,f2],其中,f1表示正常词的分值,同理f2表示稀有词的分值,则要用一个神经网络参数矩阵将所述各待标注词对应的目标特征向量转化为可以表示词频类型的词频分值向量,使得所述词频分值向量的维数与所述词频类型的个数相等,仅需要找一个中间矩阵进行线性代数变换即可。所述装置根据公式:Fi′=Fi×F*,计算所述各待标注词对应的词频分值向量;其中,Fi′为所述待标注语料文本的包括的第i个待标注词对应的词频分值向量,Fi为所述待标注语料文本的包括的第i个待标注词对应的联合特征向量,F*为神经网络参数矩阵,所述神经网络参数矩阵为m×n的矩阵,m与所述联合特征向量的列数相等,n与所述词频类型的个数相等。例如,对于outputBLSTM这个1×256维的目标特征向量,要想到1×2维的词频分值向量freqencyscore,只需在中间加入一个256×2维的中间矩阵(即神经网络参数矩阵)即可,该矩阵中的元素对应于神经网络的参数,参数直接输出的影响词频类型的准确性,因此可以通过机器学习模型不断调整该神经网络参数矩阵中的元素,不断提高输出的词频类型的准确性。
在上述实施例的基础上,进一步地,所述词频类型包括正常词和稀有词;相应地,所述根据所述词频分值向量获取所述待标注词的词频类型,包括:
根据所述各待标注词对应的词频分值向量,按照Soft max函数分别计算所述各待标注词对应的正常词的概率和稀有词的概率,并将概率高的词频类型作为所述待标注词的词频类型。
具体地,所述装置根据所述各待标注词对应的词频分值向量,按照Soft max函数分别计算所述各待标注词对应的正常词的概率和稀有词的概率,并将概率高的词频类型作为所述待标注词的词频类型。应当说明的是,所述概率均为归一化概率。
在上述各实施例中,所述方法还包括:
根据公式:L=LCRF(W,b)+Lfreq(p,q)计算标注损失函数;其中,L为标注损失,LCRF(W,b)为词性标注损失函数,W为预设权重,b为偏差值,Lfreq(p,q)为词频标注损失函数,p和q为熵损失变量;
根据所述标注损失函数对所述预设模型进行优化调整。
具体地,所述装置根据公式:L=LCRF(W,b)+Lfreq(p,q)计算标注损失函数;其中,L为标注损失,LCRF(W,b)为词性标注损失函数,W为预设权重,b为偏差值,Lfreq(p,q)为词频标注损失函数,p和q为熵损失变量;然后根据所述标注损失函数对所述预设模型进行优化调整。其中,词性标注损失函数可以为负对数似然函数,且可以与现有技术中词性标注损失函数一致,此处不再赘述;所述词频标注损失函数可以为交叉熵损失函数,具体可以表示为:Lfreq=-(p×log(q)+(1-p)×log(1-q),表示输出的词频类型与实际词频类型的差别。可以理解的是,负对数似然函数的值越小,则表示输出的词性标签准确率越高,同样,交叉熵损失函数的值越小则表示输出的词频类型的准确率越高,因此需要在所述负对数似然函数和所述交叉熵损失函数的取值为极小值或接近极小值附近的点时,获得此时的神经网络参数,并根据此时的神经网络参数对所述预设模型(包括所述第一预设子模型和所述第二预设子模型)进行优化调整。为了找到极小值或接近极小值附近的点,可以采用自适应矩估计(adaptive moment estimation,Adam)算法对损失函数进行优化,Adam算法根据所述交叉熵损失函数对所述预设模型中的每个神经网络参数的梯度的一阶矩估计和二阶矩估计动态调整针对于每个参数的学习速率。并且为了尽快收敛,还可以采用学习率指数衰减函数对学习速率进行衰减,来跨过前期的局部极值点同时具备后期的收敛能力,可以设置每3000步进行一次衰减,衰减率为0.1。
本发明实施例提供的词性标注方法,通过根据获取到的待标注语料文本对应的字向量集合和词向量集合,获取所述待标注语料文本包括的各待标注词对应的联合特征向量,然后根据所述联合特征向量,按照预设模型获取所述各待标注词的词性标签和词频类型,根据所述词性标签对所述各待标注词进行词性标注,并根据所述词频类型对所述各待标注词进行词频标注,提高了词性标注的准确性。
图4为本发明实施例提供的词性标注装置的结构示意图,如图4所示,本发明实施例提供一种词性标注装置,包括:第一获取单元201、第二获取单元202、标注单元203,其中:
第一获取单元201用于获取待标注语料文本对应的字向量集合和词向量集合;第二获取单元202用于根据所述字向量集合和词向量集合,获取所述待标注语料文本包括的各待标注词对应的联合特征向量;标注单元203用于根据所述联合特征向量,按照预设模型获取所述各待标注词的词性标签和词频类型,根据所述词性标签对所述各待标注词进行词性标注,并根据所述词频类型对所述各待标注词进行词频标注;其中,所述预设模型包括第一预设子模型和第二预设子模型,所述第一预设子模型用于获取所述各待标注词的词性标签,所述第二预设子模型用于获取所述各待标注词的词频类型。
本发明实施例提供的词性标注装置,通过根据获取到的待标注语料文本对应的字向量集合和词向量集合,获取所述待标注语料文本包括的各待标注词对应的联合特征向量,然后根据所述联合特征向量,按照预设模型获取所述各待标注词的词性标签和词频类型,根据所述词性标签对所述各待标注词进行词性标注,并根据所述词频类型对所述各待标注词进行词频标注,提高了词性标注的准确性。
本发明提供的装置的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
图5为本发明实施例提供的电子设备实体装置结构示意图,如图5所示,该电子设备可以包括:处理器(processor)301、存储器(memory)302和总线303,其中,处理器301,存储器302通过总线303完成相互间的通信。处理器301可以调用存储器302中的计算机程序,以执行如下方法:获取待标注语料文本对应的字向量集合和词向量集合;根据所述字向量集合和词向量集合,获取所述待标注语料文本包括的各待标注词对应的联合特征向量;根据所述联合特征向量,按照预设模型获取所述各待标注词的词性标签和词频类型,根据所述词性标签对所述各待标注词进行词性标注,并根据所述词频类型对所述各待标注词进行词频标注;其中,所述预设模型包括第一预设子模型和第二预设子模型,所述第一预设子模型用于获取所述各待标注词的词性标签,所述第二预设子模型用于获取所述各待标注词的词频类型。
本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取待标注语料文本对应的字向量集合和词向量集合;根据所述字向量集合和词向量集合,获取所述待标注语料文本包括的各待标注词对应的联合特征向量;根据所述联合特征向量,按照预设模型获取所述各待标注词的词性标签和词频类型,根据所述词性标签对所述各待标注词进行词性标注,并根据所述词频类型对所述各待标注词进行词频标注;其中,所述预设模型包括第一预设子模型和第二预设子模型,所述第一预设子模型用于获取所述各待标注词的词性标签,所述第二预设子模型用于获取所述各待标注词的词频类型。
本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取待标注语料文本对应的字向量集合和词向量集合;根据所述字向量集合和词向量集合,获取所述待标注语料文本包括的各待标注词对应的联合特征向量;根据所述联合特征向量,按照预设模型获取所述各待标注词的词性标签和词频类型,根据所述词性标签对所述各待标注词进行词性标注,并根据所述词频类型对所述各待标注词进行词频标注;其中,所述预设模型包括第一预设子模型和第二预设子模型,所述第一预设子模型用于获取所述各待标注词的词性标签,所述第二预设子模型用于获取所述各待标注词的词频类型。
此外,上述的存储器302中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种词性标注方法,其特征在于,包括:
获取待标注语料文本对应的字向量集合和词向量集合;
根据所述字向量集合和词向量集合,获取所述待标注语料文本包括的各待标注词对应的联合特征向量;
根据所述联合特征向量,按照预设模型获取所述各待标注词的词性标签和词频类型,根据所述词性标签对所述各待标注词进行词性标注,并根据所述词频类型对所述各待标注词进行词频标注;其中,所述预设模型包括第一预设子模型和第二预设子模型,所述第一预设子模型用于获取所述各待标注词的词性标签,所述第二预设子模型用于获取所述各待标注词的词频类型。
2.根据权利要求1所述的方法,其特征在于,所述获取待标注语料文本对应的字向量集合和词向量集合,包括:
对所述待标注语料文本进行分词,获得所述待标注语料文本包括的多个所述待标注词;
根据第一语料库获取各所述待标注词的字向量,根据所述各待标注词的字向量生成所述字向量集合;
根据第二语料库获取各所述待标注词的词向量,根据所述各待标注词的词向量生成所述词向量集合;
其中,所述第二语料库为将所述第一语料库中包括的稀有词进行剔除并用预设标记向量对所述稀有词进行标记而获得的。
3.根据权利要求1所述的方法,其特征在于,所述根据所述字向量集合和词向量集合,获取所述待标注语料文本包括的各待标注词对应的联合特征向量,包括:
根据所述字向量集合,获取所述各待标注词的第一特征向量;
根据所述词向量集合,获取所述各待标注词的第二特征向量;
根据所述各待标注词的所述词向量、所述第一特征向量和所述第二特征向量,生成所述各待标注词的联合特征向量。
4.根据权利要求3所述的方法,所述根据所述联合特征向量,按照预设模型获取所述各待标注词的词性标签和词频类型,第二预设子模型,包括:
根据所述联合特征向量,按照所述第二预设子模型计算所述各待标注词对应的词频分值向量,并根据所述词频分值向量获取所述待标注词的词频类型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述联合特征向量,按照所述第二预设子模型计算所述各待标注词对应的词频分值向量,包括:
根据所述联合特征向量,获取所述各待标注词对应的目标特征向量;
根据公式:Fi′=Fi×F*,计算所述各待标注词对应的词频分值向量;其中,Fi′为所述待标注语料文本的包括的第i个待标注词对应的词频分值向量,Fi为所述待标注语料文本的包括的第i个待标注词对应的目标特征向量,F*为神经网络参数矩阵,所述神经网络参数矩阵为m×n的矩阵,m与所述目标特征向量的列数相等,n与所述词频类型的个数相等。
6.根据权利要求4所述的方法,其特征在于,所述词频类型包括正常词和稀有词;相应地,所述根据所述词频分值向量获取所述待标注词的词频类型,包括:
根据所述各待标注词对应的词频分值向量,按照Soft max函数分别计算所述各待标注词对应的正常词的概率和稀有词的概率,并将概率高的词频类型作为所述待标注词的词频类型。
7.根据权利要求1-6任意一项所述的方法,其特征在于,所述方法还包括:
根据公式:L=LCRF(W,b)+Lfreq(p,q)计算标注损失函数;其中,L为标注损失,LCRF(W,b)为词性标注损失函数,W为预设权重,b为偏差值,Lfreq(p,q)为词频标注损失函数,p和q为熵损失变量;
根据所述标注损失函数对所述预设模型进行优化调整。
8.一种词性标注装置,其特征在于,包括:
第一获取单元,用于获取待标注语料文本对应的字向量集合和词向量集合;
第二获取单元,用于根据所述字向量集合和词向量集合,获取所述待标注语料文本包括的各待标注词对应的联合特征向量;
标注单元,用于根据所述联合特征向量,按照预设模型获取所述各待标注词的词性标签和词频类型,根据所述词性标签对所述各待标注词进行词性标注,并根据所述词频类型对所述各待标注词进行词频标注;其中,所述预设模型包括第一预设子模型和第二预设子模型,所述第一预设子模型用于获取所述各待标注词的词性标签,所述第二预设子模型用于获取所述各待标注词的词频类型。
9.一种电子设备,其特征在于,包括处理器、存储器和总线,其中:
所述处理器,所述存储器通过总线完成相互间的通信;
所述处理器可以调用存储器中的计算机程序,以执行如权利要求1-7任意一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任意一项所述方法的步骤。
CN201810210178.7A 2018-03-14 2018-03-14 一种词性标注方法及装置 Active CN110276064B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810210178.7A CN110276064B (zh) 2018-03-14 2018-03-14 一种词性标注方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810210178.7A CN110276064B (zh) 2018-03-14 2018-03-14 一种词性标注方法及装置

Publications (2)

Publication Number Publication Date
CN110276064A true CN110276064A (zh) 2019-09-24
CN110276064B CN110276064B (zh) 2023-06-23

Family

ID=67958399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810210178.7A Active CN110276064B (zh) 2018-03-14 2018-03-14 一种词性标注方法及装置

Country Status (1)

Country Link
CN (1) CN110276064B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968702A (zh) * 2019-11-29 2020-04-07 北京明略软件系统有限公司 一种事理关系提取方法及装置
CN112417126A (zh) * 2020-12-02 2021-02-26 车智互联(北京)科技有限公司 一种问答方法、计算设备以及存储介质
CN112528671A (zh) * 2020-12-02 2021-03-19 北京小米松果电子有限公司 语义分析方法、装置以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130179766A1 (en) * 2012-01-05 2013-07-11 Educational Testing Service System and Method for Identifying Organizational Elements in Argumentative or Persuasive Discourse
CN103902521A (zh) * 2012-12-24 2014-07-02 高德软件有限公司 一种中文语句识别方法和装置
CN104298662A (zh) * 2014-04-29 2015-01-21 中国专利信息中心 一种基于有机物命名实体的机器翻译方法及翻译系统
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN107480200A (zh) * 2017-07-17 2017-12-15 深圳先进技术研究院 基于词标签的词语标注方法、装置、服务器及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130179766A1 (en) * 2012-01-05 2013-07-11 Educational Testing Service System and Method for Identifying Organizational Elements in Argumentative or Persuasive Discourse
CN103902521A (zh) * 2012-12-24 2014-07-02 高德软件有限公司 一种中文语句识别方法和装置
CN104298662A (zh) * 2014-04-29 2015-01-21 中国专利信息中心 一种基于有机物命名实体的机器翻译方法及翻译系统
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN107480200A (zh) * 2017-07-17 2017-12-15 深圳先进技术研究院 基于词标签的词语标注方法、装置、服务器及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968702A (zh) * 2019-11-29 2020-04-07 北京明略软件系统有限公司 一种事理关系提取方法及装置
CN110968702B (zh) * 2019-11-29 2023-05-09 北京明略软件系统有限公司 一种事理关系提取方法及装置
CN112417126A (zh) * 2020-12-02 2021-02-26 车智互联(北京)科技有限公司 一种问答方法、计算设备以及存储介质
CN112528671A (zh) * 2020-12-02 2021-03-19 北京小米松果电子有限公司 语义分析方法、装置以及存储介质
CN112417126B (zh) * 2020-12-02 2024-01-23 车智互联(北京)科技有限公司 一种问答方法、计算设备以及存储介质

Also Published As

Publication number Publication date
CN110276064B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
US20230368024A1 (en) Neural architecture search
US20210042580A1 (en) Model training method and apparatus for image recognition, network device, and storage medium
US11138385B2 (en) Method and apparatus for determining semantic matching degree
CN108052588A (zh) 一种基于卷积神经网络的文档自动问答系统的构建方法
US20190385059A1 (en) Method and Apparatus for Training Neural Network and Computer Server
CN109711544A (zh) 模型压缩的方法、装置、电子设备及计算机存储介质
CN108509408A (zh) 一种句子相似度判断方法
US10747961B2 (en) Method and device for identifying a sentence
CN110276064A (zh) 一种词性标注方法及装置
CN109086423A (zh) 一种文本匹配方法及装置
CN106874292A (zh) 话题处理方法及装置
CN107463605A (zh) 低质新闻资源的识别方法及装置、计算机设备及可读介质
CN109325235A (zh) 一种基于词权的文本摘要提取方法及计算装置
CN103646074B (zh) 一种确定图片簇描述文本核心词的方法及装置
CN111126602A (zh) 一种基于卷积核相似性剪枝的循环神经网络模型压缩方法
CN106294505A (zh) 一种反馈答案的方法和装置
CN108647723A (zh) 一种基于深度学习网络的图像分类方法
CN107688583A (zh) 创建用于自然语言处理装置的训练数据的方法和设备
US20160098437A1 (en) Information retrieval method and apparatus
CN105956666A (zh) 一种机器学习方法及系统
CN109583586A (zh) 一种卷积核处理方法及装置
Qiu et al. Improving gradient-based adversarial training for text classification by contrastive learning and auto-encoder
CN109033073A (zh) 文本蕴含识别方法及装置
CN113965313B (zh) 基于同态加密的模型训练方法、装置、设备以及存储介质
CN109886402B (zh) 深度学习模型训练方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant