CN110298016A - 一种词性标注方法及装置 - Google Patents
一种词性标注方法及装置 Download PDFInfo
- Publication number
- CN110298016A CN110298016A CN201810235359.5A CN201810235359A CN110298016A CN 110298016 A CN110298016 A CN 110298016A CN 201810235359 A CN201810235359 A CN 201810235359A CN 110298016 A CN110298016 A CN 110298016A
- Authority
- CN
- China
- Prior art keywords
- text
- processed
- word
- vector group
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000013598 vector Substances 0.000 claims abstract description 163
- 230000011218 segmentation Effects 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 25
- 230000015654 memory Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 9
- 238000004364 calculation method Methods 0.000 description 17
- 241000272525 Anas platyrhynchos Species 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 241000272522 Anas Species 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000012888 cubic function Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种词性标注方法及装置。所述方法包括根据预先获取的待处理文本得到所述待处理文本的至少两组特征向量组;其中,所述待处理文本至少包括一个分词;对所有的特征向量通过加权求和得到输入向量组;根据所述输入向量组得到所述待处理文本中各个分词的词性标注,本发明实施例通过将得到的待处理文本的多个特征向量组进行加权求和得到输入向量组,从而能够在后续的计算过程中,更加快速、准确得得到待处理文本中每个分词的词性和词频。
Description
技术领域
本发明实施例涉及自然语言处理技术领域,尤其涉及一种词性标注方法及装置。
背景技术
词性标注是自然语言处理中的一项基础任务,在语音识别、信息检索及自然语言处理的许多领域都发挥着重要的作用。词性标注对于句子中的每个词都指派一个合适的词性,也就是要确定每个词是名词、动词、形容词或其他词性的过程,又称词类标注或者简称标注。
现在技术中对于词性标注的一种模型为基于词频的一种神经网络模型,至少包括BGRU(Bidirection Gated Recurrent Unit,双向门循环单元)、 CNN(ConvolutionalNeural Network,卷积神经网络)、BLSTM(Long Short-Term Memory,长短期记忆网络)和CRF(Conditional Random Field Algorithm,条件随机场算法)。该模型采用CNN与BGRU作为特征提取层,其中CNN用来提取词内部的字向量特征V2,BGRU用来提取不包含稀有词的词向量特征V3。而后将原始文本的词向量V1与V2、V3向量直接连接,即V=[V1,V2,V3]。将向量V输入到BLSTM隐藏层采用Sigmoid 作为激活函数进行非线性计算,最终结果一部分输出到CRF层用来进行词性预测,同时另一部分用来预测词频。
现有技术中对于提取到的特征向量采用直接输入的方式使模型的计算效率低且准确率不高。
发明内容
本发明实施例提供一种词性标注方法及装置,用以解决现有技术中对于提取到的特征向量采用直接输入的方式使模型的计算效率低且准确率不高。
第一方面,本发明实施例提供了一种词性标注方法,包括:
根据预先获取的待处理文本得到所述待处理文本的至少两组特征向量组;其中,所述待处理文本至少包括一个分词;
对所有的特征向量通过加权求和得到输入向量组;
根据所述输入向量组得到所述待处理文本中各个分词的词性标注。
第二方面,本发明实施例提供了一种用于词性标注方法的装置,包括:
输入模块,用于根据预先获取的待处理文本得到所述待处理文本的至少两组特征向量组;其中,所述待处理文本至少包括一个分词;
加权模块,用于对所有的特征向量通过加权求和得到输入向量组;
测算模块,用于根据所述输入向量组得到所述待处理文本中各个分词的词性标注。
第三方面,本发明实施例还提供了一种电子设备,包括:
处理器、存储器、通信接口和总线;其中,
所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述通信接口用于该电子设备的通信设备之间的信息传输;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:
根据预先获取的待处理文本得到所述待处理文本的至少两组特征向量组;其中,所述待处理文本至少包括一个分词;
对所有的特征向量通过加权求和得到输入向量组;
根据所述输入向量组得到所述待处理文本中各个分词的词性标注。
第四方面,本发明实施例还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如下方法:
根据预先获取的待处理文本得到所述待处理文本的至少两组特征向量组;其中,所述待处理文本至少包括一个分词;
对所有的特征向量通过加权求和得到输入向量组;
根据所述输入向量组得到所述待处理文本中各个分词的词性标注。
本发明实施例提供的词性标注方法及装置,通过将得到的待处理文本的多个特征向量组进行加权求和得到输入向量组,从而能够在后续的计算过程中,更加快速、准确得得到待处理文本中每个分词的词性和词频。
附图说明
图1为本发明实施例的词性标注方法流程图;
图2为本发明实施例的用于词性标注方法的装置结构图;
图3为本发明实施例的另一用于词性标注方法的装置结构图;
图4为本发明实施例的电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例的词性标注方法流程图,图2为本发明实施例的用于词性标注方法的装置结构图,如图1所示,所述方法包括:
步骤S01、根据预先获取的待处理文本得到所述待处理文本的至少两组特征向量组;其中,所述待处理文本至少包括一个分词。
本发明实施例的词性标注方法,主要通过建立并训练完成的词性标注模型来实现,最终能够将任意得到的待处理文本中进行分词处理并给出每个分词的词性和词频。其中所述词性标注模型可以是一种神经网络模型,并且根据实际的需要来对该模型进行分层和架构,对此并不作具体的限定,本发明实施例,也仅给出了其中的一种举例说明,将所述词性标注模型以四层神经网络模型架构为例,按先后顺序包括有输入层、第一隐藏层、第二隐藏层和输出层。
在获取待处理文本后,输入层会根据该待处理文本得到至少两组特征向量组。
进一步地,所述根据预先获取的待处理文本得到所述待处理文本的至少两组特征向量组,具体为:
根据预先获取的待处理文本得到待处理文本的第一词特征向量组、第二词特征向量组和字特征向量组;其中所述第二词特征向量由去除了所有稀有分词的待处理文本得到。
由输入层得到的至少两组特征向量组可以根据实际的需要由不同的分词工具和模块来获取,本发明实施例仅给出了其中的一种举例。通过输入层得到三组特征向量组,分别为第一词特征向量组,第二词特征向量组和第三字特征向量组。
先利用分词工具,例如Word2Vec等,对得到的待处理文本进行分词和向量嵌入,得到每个分词的词向量,例如,待处理文本为“我爱吃北京烤鸭”,则通过Word2Vec分词和向量嵌入,该处理文本可以被分为“我”、“爱”、“吃”、“北京烤鸭”四个分词,并分别得到每个分词的词向量a1,a2,a3,a4,将每个分词的词向量组合为第一词特征向量组V1。
所述第二词特征向量组,为所述待处理文本去除其中所有的稀有分词后得到的。同样以“我爱吃北京烤鸭”为例,经过分词后可以判断“北京烤鸭”为稀有分词,所以将北京烤鸭移除并采用Nan标识进行标记,得到的待处理文本为“我爱吃****”,将“我爱吃****”通过Word2Vec重新分词和向量嵌入后,得到的每个分词的词向量。将新得到的所有词向量再通过BGRU模块进行词特征提取工作就可以得到第二词特征向量组V3。
所述字特征向量组则是对所述将待处理文本进行分字和向量嵌入后得到的,即将待处理文本通过Word2Vec得到其中每个字,例如“我”、“爱”、“吃”、“北”、“京”、“烤”、“鸭”的字向量,将所有的字向量输入到CNN模块后进行特征提取工作就可以得到字特征向量组V2。
步骤S02、对所有的特征向量通过加权求和得到输入向量组。
现有技术中直接将得到的第一词特征向量组V1、第二词特征向量组V3和字特征向量组V2连接后得到输入向量组V=[V1,V2,V3],此时,得到的向量组的维数即为V1,V2,V3维数的相加,则后续的计算过程中就会因为维数过长而导致消耗大量的时间。另外,通过CNN和BGRU提取得到的第二特征向量组和字特征向量组与直接通过分词工具得到的第一特征向量组相比,往往占据辅助地位,且其中的特征向量互有重复。
为了解决上述的问题,可以先将所有的特征向量由所述第一隐藏层通过加权求和的方式来得到输入向量组V。具体可以由下式得到:
V=W11V1+W12V2+W13V3,
其中的权值W11、W12和W13可以通过标准语料库的前期训练得到。此时得到的输入向量组V既可以部分抵销三个特征向量组之间的重复特征,还可以大大降低输入向量组V的维度。
步骤S03、根据所述输入向量组得到所述待处理文本中各个分词的词性标注。
将得到的输入向量组V输入到所述第二隐藏层中,最后经过输出层的计算可以得到所述待处理文本中各个分词的词性和词频。具体的方法有很多,本发明实施例仅给出了其中的一种举例说明。
进一步地,如图2所示,所述第二隐藏层采用BLSTM网络,所述根据所述输入向量组得到所述待处理文本中各个分词的词性标注,具体为:
对所述输入向量组通过激活函数输入到BLSTM网络,再由CRF网络得到所述待处理文本中各个分词的词性,同时由所述Softmax函数模块得到所述待处理文本中各个分词的词频。
将BLSTM网络作为第二隐藏层,将CRF网络和SoftMax函数模块作为输出层。上述实施例中得到输入向量将通过激励函数输入到BLSTM网络中,通过计算后,得到的一部分输出进入到CRF网络中用来进行词性预测,以得到每个分词的词性,而另一部分输出则由Softmax函数模块得到每个分词的词频,进而转换成归一化的概率,即判断每个分词为稀有词和正常词的概率。若稀有词的概率高则输出1,正常词的概率高则输出0。
本发明实施例通过将得到的待处理文本的多个特征向量组进行加权求和得到输入向量组,从而能够在后续的计算过程中,更加快速、准确得得到待处理文本中每个分词的词性和词频。
基于上述实施例,进一步地,所述根据所述输入向量组得到所述待处理文本中各个分词的词性标注,具体为:
对所述输入向量组采用立方激活函数,并得到所述待处理文本中各个分词的词性标注。
为了能够进一步考量到三个特征向量组之间的相互作用,可以将立方函数作为BLSTM网络的激活函数,同时还可以在输入向量V上加上偏置b,用来加快对词性标注模型进行训练时的速度且增强网络的灵活性。
至此,BLSTM网络接收到的向量组Vin=(V+b)3。其中,所述偏置b可以为值为1的矩阵。
本发明实施例通过将得到的待处理文本的多个特征向量组进行加权求和得到输入向量组V,再加上偏置b,并采用立方函数作为激活函数输入到 BLSTM网络中从而能够在后续的计算过程中,更加快速、准确得得到待处理文本中每个分词的词性和词频。
基于上述实施例,进一步地,在所述步骤S01前还包括:
新建用于对所有的特征向量进行加权求和的加权求和公式,并初始化所述加权求和公式的权值;
获取标准语料库,并根据标准语料库对所述加权求和公式的权值进行训练。
在通过词性标注模型得对获取的待处理文本进行处理前,需要先根据自身的需要新建一个用于对所有的特征向量进行加权求和的加权求和公式,并初始化其中的权值,例如W11、W12和W13。
另一种方法,则是新建一个包含有该加权求和公式的词性标注模型,并对其中的各个参数进行初始化设置,所述参数中包括有该加权求和公式的权值。
然后获取标准语料库,例如人民日报1998年上半年词性标注语料库,其中包含有已经准确实现词性标注。利用该标准语料库就可以对新建的加权求和公式或者词性标注模型进行训练,通过对其中各个参数的不断校正使该词性标注模型能够对其它任意待处理文本进行准确的词性标注。
进一步地,所述根据标准语料库对所述加权求和公式的权值进行训练,具体为:
根据标准语料库,采用自适应转矩(Adaptive moment estimation,Adam) 算法对预设的损失函数进行优化。
具体的训练过程可以通过所述词性标注模型的对待处理文本的结果与标准语料库之间的损失函数,以最小化该损失函数为目标,采用Adam算法来对词性标注模型中的参数进行逐步跌代校准。
进一步地,所述损失函数为所述词性的负对数似然概率度量和所述词频的交叉熵损失函数之和。
其中所述损失函数可以由两部分组成,分别为由词频得到的交叉熵损失函数Lfreq和CRF的词性到的负对数似然概率度量LCRF。公式分别如下:
Lfreq=-(plogq+(1-p)log(1-q)),
Ltotal=Lfreq+LCRF。
其中,所述Adam算法可以采用每3000步学习率进行一次指数衰减,衰减基数为0.1。
本发明实施例通过获取到的标准语料库对新建的词性标注模型进行训练,进而全名词性标注模型能够将得到的待处理文本的多个特征向量组进行加权求和得到输入向量组,从而能够在后续的计算过程中,更加快速、准确得得到待处理文本中每个分词的词性和词频。
图3为本发明实施例的用于词性标注方法的装置结构示意图,如图3所示,所述装置至少包括:输入模块10,加权模块11和测算模块12,其中,
所述输入模块10用于根据预先获取的待处理文本得到所述待处理文本的至少两组特征向量组;其中,所述待处理文本至少包括一个分词;所述加权模块11用于对所有的特征向量通过加权求和得到输入向量组;所述测算模块12用于根据所述输入向量组得到所述待处理文本中各个分词的词性标注。
先由所述输入模块10获取待处理文本,然后根据该待处理文本得到至少两组特征向量组。
由输入模块10得到的至少两组特征向量组可以根据实际的需要由不同的分词工具和模块来获取,本发明实施例仅给出了其中的一种举例。通过输入模块10得到三组特征向量组,分别为第一词特征向量组,第二词特征向量组和第三字特征向量组。
先利用分词工具,例如Word2Vec等,对得到的待处理文本进行分词和向量嵌入,得到每个分词的词向量,例如,待处理文本为“我爱吃北京烤鸭”,则通过Word2Vec分词和向量嵌入,该处理文本可以被分为“我”、“爱”、“吃”、“北京烤鸭”四个分词,并分别得到每个分词的词向量a1,a2,a3,a4,将每个分词的词向量组合为第一词特征向量组V1。
所述第二词特征向量组,为所述待处理文本去除其中所有的稀有分词后得到的。同样以“我爱吃北京烤鸭”为例,经过分词后可以判断“北京烤鸭”为稀有分词,所以将北京烤鸭移除并采用Nan标识进行标记,得到的待处理文本为“我爱吃****”,将“我爱吃****”通过Word2Vec重新分词和向量嵌入后,得到的每个分词的词向量。将新得到的所有词向量再通过BGRU模块进行词特征提取工作就可以得到第二词特征向量组V3。
所述字特征向量组则是对所述将待处理文本进行分字和向量嵌入后得到的,即将待处理文本通过Word2Vec得到其中每个字,例如“我”、“爱”、“吃”、“北”、“京”、“烤”、“鸭”的字向量,将所有的字向量输入到CNN模块后进行特征提取工作就可以得到字特征向量组V2。
所述输入模块10将所有的特征向量输入到加权模块11,将所有的特征向量由所述第一隐藏层通过加权求和的方式来得到输入向量组V。具体可以由下式得到:
V=W11V1+W12V2+W13V3,
其中的权值W11、W12和W13可以通过标准语料库的前期训练得到。此时得到的输入向量组V既可以部分抵销三个特征向量组之间的重复特征,还可以大大降低输入向量组V的维度。
然后,所述加权模块11会将得到的输入向量组V发送给测算模块12。所述测算模块12经过计算可以得到所述待处理文本中各个分词的词性和词频。具体的方法有很多,本发明实施例仅给出了其中的一种举例说明。
将输入向量组通过激励函数输入到BLSTM网络中,通过计算后,得到的一部分输出进入到CRF网络中用来进行词性预测,以得到每个分词的词性,而另一部分输出则由Softmax函数模块得到每个分词的词频,进而转换成归一化的概率,即判断每个分词为稀有词和正常词的概率。若稀有词的概率高则输出1,正常词的概率高则输出0。
本发明实施例提供的装置用于执行上述方法,其功能具体参考上述方法实施例,其具体方法流程在此处不再赘述。
本发明实施例通过将得到的待处理文本的多个特征向量组进行加权求和得到输入向量组,从而能够在后续的计算过程中,更加快速、准确得得到待处理文本中每个分词的词性和词频。
图4为本发明实施例的电子设备结构示意图。如图4所示,所述电子设备,包括:处理器(processor)601、存储器(memory)602和总线603;
其中,所述处理器601和所述存储器602通过所述总线603完成相互间的通信;
所述处理器601用于调用所述存储器602中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:根据预先获取的待处理文本得到所述待处理文本的至少两组特征向量组;其中,所述待处理文本至少包括一个分词;对所有的特征向量通过加权求和得到输入向量组;根据所述输入向量组得到所述待处理文本中各个分词的词性标注。
进一步地,本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:根据预先获取的待处理文本得到所述待处理文本的至少两组特征向量组;其中,所述待处理文本至少包括一个分词;对所有的特征向量通过加权求和得到输入向量组;根据所述输入向量组得到所述待处理文本中各个分词的词性标注。
进一步地,本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:根据预先获取的待处理文本得到所述待处理文本的至少两组特征向量组;其中,所述待处理文本至少包括一个分词;对所有的特征向量通过加权求和得到输入向量组;根据所述输入向量组得到所述待处理文本中各个分词的词性标注。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的电子设备等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种词性标注方法,其特征在于,包括:
根据预先获取的待处理文本得到所述待处理文本的至少两组特征向量组;其中,所述待处理文本至少包括一个分词;
对所有的特征向量通过加权求和得到输入向量组;
根据所述输入向量组得到所述待处理文本中各个分词的词性标注。
2.根据权利要求1所述的方法,其特征在于,所述根据所述输入向量组得到所述待处理文本中各个分词的词性标注,具体为:
对所述输入向量组采用立方激活函数,并得到所述待处理文本中各个分词的词性标注。
3.根据权利要求1所述的方法,其特征在于,所述根据预先获取的待处理文本得到所述待处理文本的至少两组特征向量组,具体为:
根据预先获取的待处理文本得到待处理文本的第一词特征向量组、第二词特征向量组和字特征向量组;其中所述第二词特征向量由去除了所有稀有分词的待处理文本得到。
4.根据权利要求1所述的方法,其特征在于,所述根据所述输入向量组得到所述待处理文本中各个分词的词性标注,具体为:
对所述输入向量组通过激活函数输入到BLSTM网络,再由CRF网络得到所述待处理文本中各个分词的词性,同时由所述Softmax函数模块得到所述待处理文本中各个分词的词频。
5.根据权利要求1-4任一所述的方法,其特征在于,所述方法还包括:
新建用于对所有的特征向量进行加权求和的加权求和公式,并初始化所述加权求和公式的权值;
获取标准语料库,并根据标准语料库对所述加权求和公式的权值进行训练。
6.根据权利要求5所述方法,其特征在于,所述根据标准语料库对所述加权求和公式的权值进行训练,具体为:
根据标准语料库,采用自适应转矩(Adaptive moment estimation,Adam)算法对预设的损失函数进行优化。
7.根据权利要求6所述的方法,其特征在于,所述损失函数为所述词性的负对数似然概率度量和所述词频的交叉熵损失函数之和。
8.一种用于词性标注方法的装置,其特征在于,包括:
输入模块,用于根据预先获取的待处理文本得到所述待处理文本的至少两组特征向量组;其中,所述待处理文本至少包括一个分词;
加权模块,用于对所有的特征向量通过加权求和得到输入向量组;
测算模块,用于根据所述输入向量组得到所述待处理文本中各个分词的词性标注。
9.一种电子设备,其特征在于,包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810235359.5A CN110298016A (zh) | 2018-03-21 | 2018-03-21 | 一种词性标注方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810235359.5A CN110298016A (zh) | 2018-03-21 | 2018-03-21 | 一种词性标注方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110298016A true CN110298016A (zh) | 2019-10-01 |
Family
ID=68025475
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810235359.5A Pending CN110298016A (zh) | 2018-03-21 | 2018-03-21 | 一种词性标注方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110298016A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106547735A (zh) * | 2016-10-25 | 2017-03-29 | 复旦大学 | 基于深度学习的上下文感知的动态词或字向量的构建及使用方法 |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN107291693A (zh) * | 2017-06-15 | 2017-10-24 | 广州赫炎大数据科技有限公司 | 一种改进词向量模型的语义计算方法 |
-
2018
- 2018-03-21 CN CN201810235359.5A patent/CN110298016A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106547735A (zh) * | 2016-10-25 | 2017-03-29 | 复旦大学 | 基于深度学习的上下文感知的动态词或字向量的构建及使用方法 |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN107291693A (zh) * | 2017-06-15 | 2017-10-24 | 广州赫炎大数据科技有限公司 | 一种改进词向量模型的语义计算方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104615767B (zh) | 搜索排序模型的训练方法、搜索处理方法及装置 | |
CN110347835B (zh) | 文本聚类方法、电子装置及存储介质 | |
CN110110062B (zh) | 机器智能问答方法、装置与电子设备 | |
CN108763535B (zh) | 信息获取方法及装置 | |
CN104598611B (zh) | 对搜索条目进行排序的方法及系统 | |
CN109766418B (zh) | 用于输出信息的方法和装置 | |
CN109492217B (zh) | 一种基于机器学习的分词方法及终端设备 | |
WO2018068648A1 (zh) | 一种信息匹配方法及相关装置 | |
CN107977676A (zh) | 文本相似度计算方法及装置 | |
CN109299246B (zh) | 一种文本分类方法及装置 | |
CN114818729A (zh) | 一种训练语义识别模型、查找语句的方法、装置及介质 | |
CN110968697A (zh) | 文本分类方法、装置、设备及可读存储介质 | |
CN110489727B (zh) | 人名识别方法及相关装置 | |
CN110489552B (zh) | 一种微博用户自杀风险检测方法及装置 | |
CN111930941A (zh) | 一种辱骂内容识别方法及装置、服务器 | |
CN110046344B (zh) | 添加分隔符的方法及终端设备 | |
CN110276064B (zh) | 一种词性标注方法及装置 | |
CN111178082A (zh) | 一种句向量生成方法、装置及电子设备 | |
CN111241843A (zh) | 基于复合神经网络的语义关系推断系统和方法 | |
CN111881293B (zh) | 一种风险内容识别方法及装置、服务器、存储介质 | |
CN109446518B (zh) | 语言模型的解码方法及解码器 | |
CN108304366B (zh) | 一种上位词检测方法及设备 | |
CN110298016A (zh) | 一种词性标注方法及装置 | |
CN114970666A (zh) | 一种口语处理方法、装置、电子设备及存储介质 | |
CN113723108A (zh) | 一种事件提取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191001 |
|
RJ01 | Rejection of invention patent application after publication |