CN107729312B - 基于序列标注建模的多粒度分词方法及系统 - Google Patents

基于序列标注建模的多粒度分词方法及系统 Download PDF

Info

Publication number
CN107729312B
CN107729312B CN201710790736.7A CN201710790736A CN107729312B CN 107729312 B CN107729312 B CN 107729312B CN 201710790736 A CN201710790736 A CN 201710790736A CN 107729312 B CN107729312 B CN 107729312B
Authority
CN
China
Prior art keywords
granularity
word segmentation
sequence
word
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710790736.7A
Other languages
English (en)
Other versions
CN107729312A (zh
Inventor
张民
李正华
龚晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201710790736.7A priority Critical patent/CN107729312B/zh
Publication of CN107729312A publication Critical patent/CN107729312A/zh
Application granted granted Critical
Publication of CN107729312B publication Critical patent/CN107729312B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明涉及一种基于序列标注建模的多粒度分词方法与系统,提供了一种采用机器学习的方式获取多粒度标签序列的方法及系统,本发明所述的方法,包括:将至少一种单粒度标注数据集中的句子分别转化为遵守其他n‑1种分词规范的分词序列,将每一个句子对应的n种遵守不同规范分词序列转化为多粒度分词层次结构,根据预定的编码方法以及多粒度分词层次结构,得到每一个句子的每一个字的多粒度标签,进而得到每一个句子的多粒度标签序列;基于所述的包含句子和对应多粒度标签序列的数据集,通过训练序列标注模型,得到多粒度序列标注模型。本发明首次提出了多粒度分词的概念,能够快速、自动的获取多粒度分词层次结构。

Description

基于序列标注建模的多粒度分词方法及系统
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种基于序列标注建模的多粒度分词方法及系统。
背景技术
传统的分词任务都为单粒度分词,即一个连续的字序列只能按照一种指定的规范重新组合成唯一的一个词序列。多粒度分词是将一个连续字序列按照不同的规范划分成多种具有不同粒度的词序列。
目前,分词任务都为单粒度分词任务,同时,现有的人工标注分词数据也都为单粒度分词数据。因此,国内外尚不存在多粒度分词数据。多粒度分词的前提是有多粒度分词模型。进一步地,有了多粒度分词数据,才能有效训练多粒度分词模型。由于现有的分词数据都为单粒度分词数据,且目前尚未出现多粒度分词数据的获取方法,因此,若要获得多粒度分词数据,一种方法是通过人工标注的方法完成。然而人工标注的方法存在以下几个缺点:(1)制定多粒度分词标注规范的难度非常大,显然比制定一个单粒度分词标注规范更困难。(2)对标注者的要求更高,需要标注者学习一个更复杂的标注规范。(3)标注过程更复杂,标注结果从序列结构,变成层次结构。总之,人工标注多粒度分词数据的人力和时间成本非常高。
鉴于上述的缺陷,本设计人积极加以研究创新,以期创设一种基于序列标注建模的多粒度分词方法及系统,使其更具有产业上的利用价值。
发明内容
为解决上述技术问题,本发明的目的是提供一种利用机器学习的方式将句子的多粒度分词序列采用多粒度分词层次结构,进而得到多粒度分词标签,进而训练得到多粒度分词标签序列的基于序列标注建模的多粒度分词方法及系统。
为达到上述发明目的,本发明基于序列标注建模的多粒度分词方法,包括:
将至少一种单粒度标注数据集中的句子分别转化为遵守其他n-1种分词规范的分词序列,被转化后的句子对应n种不同规范的分词序列,其中n≥2,且n为正整数;
将每一个句子对应的n种遵守不同规范分词序列转化为多粒度分词层次结构,所述的多粒度分词层次结构各层分别为句子、不能进一步与词语合并成更粗粒度的词语、词语、字;
根据预定编码方法确定多粒度分词层次结构中每一个字的多粒度标签,进而得到每一个句子对应的多粒度标签序列;
根据句子对应的多粒度标签序列对序列标注模型进行数据训练,得到多粒度分词序列标注模型;
基于所述的多粒度分词序列标注模型得到句子的多粒度标签序列。
进一步地,还包括通过规则后处理,将句子的多粒度标签序列转化为多粒度分词层次结构。
进一步地,所述的预定编码方法包括:对于句子中每一个字,根据多粒度分词层次结构,自底向上遍历,得到包含这个字的不同粒度的所有词语,从而得到这个字在这些词语中的单粒度分词标签,进而将这些单粒度分词标签按照预定顺序合并在一起,构成该字的多粒度标签,其中所述预定顺序为按照分词粒度从细到粗的顺序,或是按照分词粒度从粗到细的顺序。
进一步地,根据句子对应的多粒度标签序列对基于离散特征的CRF序列标注模型或基于长短时记忆循环神经网络(Long-Short Term Memory,LSTM)的CRF序列标注模型进行数据训练,得到多粒度分词序列标注模型;
其中,根据句子对应的多粒度标签序列对基于离散特征的CRF序列标注模型具体包括:
给定一个句子,x=c1...cn,进行数据训练的目的是确定一个最好的多粒度标签序列y=y1...yn,其中yi是ci的多粒度标签,CRF定义一个标签序列的概率为:
Figure GDA0001542983900000031
Figure GDA0001542983900000032
其中score(x,y;θ)是表示分值的函数,f(x,i,yi-1,yi)是第i个字的特征向量,θ是特征权重向量;c0和cn+1是分别表示句子开始和结尾的两个特殊字符;其中T(ci)函数返回字符ci的类型,I(ci,cj)函数用来判断ci和cj两个字符是否相同。
设训练数据是
Figure GDA0001542983900000033
其中yi是句子xi的正确标签,D的对数似然是:
Figure GDA0001542983900000034
训练的目标是找到一个最优的参数θ来最大化对数似然;
根据句子对应的多粒度标签序列对基于LSTM的CRF序列标注模型进行数据训练,具体包括:
将句子中每一个字的一元字向量和二元字向量输入到BiLSTM神经网络模型中,一元字向量指用一个多维浮点型向量表示一个字,每个字对应唯一的一个多维浮点型向量,表示为eci,i=1,2,3…;二元字向量指将当前字的一元字向量与前一个字的一元字向量连结得到的向量,表示为ecici+1
句子中每个字的一元字向量与二元字向量通过第一层BiLSTM网络,前向传播得到输出f1 1,f2 1,f3 1…,后向传播,得到输出b1 1,b2 1,b3 1…;
将第一层双向LSTM网络BiLSTM1层的输出作为第二层双向LSTM网络BiLSTM2的输入,前向传播得到输出f1 2,f2 2,f3 2…,后向传播,得到输出b1 2,b2 2,b3 2…;
将两层双向LSTM前/后向传播的输出结果分别连结,即,将fi 1与fi 2,i=1,2,3…连结得到fi,i=1,2,3…,将bi 1与bi 2,i=1,2,3…连结得到bi,i=1,2,3…;
将fi和bi,i=1,2,3…连结起来得到hinput输入到一个隐含层中做非线性变换,然后将隐含层的输出结果做线性变换就得到了一个向量,表示标注序列的分值,该向量的维度与多粒度分词标签的个数相同;
CRF定义一个标签序列的概率为:
Figure GDA0001542983900000041
Figure GDA0001542983900000042
其中T表示多粒度标签的种类个数,score(t1,...,tn;c1,...,cn)是表示句子c1,...,cn的标签序列为t1,...,tn的分值的函数,
Figure GDA0001542983900000043
是第k个字符被标记为tk的神经网络输出的分值,
Figure GDA0001542983900000044
是一个转移矩阵。
训练的目的是找到最优的神经网络参数和转移矩阵来最大化对数似然函数,其中
Figure GDA0001542983900000045
表示正确的标签序列:
Figure GDA0001542983900000046
为达到上述发明目的,本发明基于序列标注建模的多粒度分词系统,包括:
分词数据获取单元,用于将至少一种单粒度标注数据集中的句子分别转化为遵守其他n-1种分词规范的分词序列,被转化后的句子对应n种不同规范的分词序列,其中n≥2,且n为正整数;
分词层次结构生成单元,用于将每一个句子对应的n种遵守不同规范分词序列转化为多粒度分词层次结构,所述的多粒度分词层次结构各层分别为句子、不能进一步与词语合并成更粗粒度的词语、词语、字;
标签生成单元,用于根据预定编码方法确定多粒度分词层次结构中每一个字的多粒度标签,进而得到每一个句子对应的多粒度标签序列;
序列标注模型训练单元,基于所述的包含句子和对应多粒度标签序列的数据集,通过训练序列标注模型,得到多粒度分词序列标注模型;
分词结果输出单元,用于基于所述的多粒度序列标注模型获得待分词句子的多粒度标签序列。
进一步地,还包括分词结果层次结构转化单元,基于规则后处理,将句子的多粒度标签序列转化为多粒度分词层次结构。
进一步地,标签生成单元包括标签提取模块、标签排序模块,所述标签提取模块,用于对于句子中每一个字,根据多粒度分词层次结构,自底向上遍历,得到包含这个字的不同粒度的所有词语,从而得到这个字在这些词语中的单粒度分词标签;所述标签排序模块,用于将获取的单粒度分词标签按照预定顺序合并在一起,构成该字的多粒度标签,其中所述预定顺序为按照分词粒度从细到粗的顺序,或是按照分词粒度从粗到细的顺序。
进一步地,序列标注模型训练单元包括:第一训练单元,用于根据句子对应的多粒度标签序列对基于离散特征的CRF序列标注模型进行数据训练,得到多粒度分词序列标注模型;第二训练单元,用于根据句子对应的多粒度标签序列对基于LSTM的CRF序列标注模型进行数据训练,得到多粒度分词序列标注模型。
借由上述方案,本发明基于序列标注建模的多粒度分词方法及系统至少具有以下优点:
第一,本发明充分利用已有的单粒度分词人工标注数据,进行两两转化,从而获得多粒度分词数据;
第二,本发明将一个句子的多粒度分词序列转化为多粒度分词层次结构,方便利用预定规则对句子中的每一个字赋予多粒度分词标签,进而得到该句子的多粒度标签序列。
第三,本发明多粒度分词可以表示出句子中不同粒度的词语,更好地服务上层应用。比如,粗粒度的词语能够抽取细致的特征,提供更多上下文和更全面准确的信息,进行更精确的匹配;细粒度的词语能表达更基本的信息,从而缓解统计机器学习方法面临的数据稀疏问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1是本发明基于序列标注建模的多粒度分词方法的实施例1的句子的多粒度分词层次结构;
图2是本发明基于序列标注建模的多粒度分词方法的实施例2的句子的多粒度分词层次结构;
图3是本发明基于序列标注建模的多粒度分词方法的实施例2的句子的多粒度分词层次结构;
图4是本发明基于序列标注建模的多粒度分词方法的两层BiLSTM神经网络结构;
在图1至图3的附图的多粒度分词层次结构中由上至下的第一层W也即为X。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
实施例1
本实施例基于序列标注建模的多粒度分词方法,包括:
选择三种不同规范的单粒度标注数据集,也即CTB、PPD、MSR三种分词规范;
将一种单粒度标注数据集中的句子分别转化为遵守其他2种分词规范的分词序列,被转化后的句子对应3种不同规范的分词序列;
将每一个句子对应的3种遵守不同规范分词序列转化为多粒度分词层次结构,所述的多粒度分词层次结构各层分别为句子、不能进一步与词语合并成更粗粒度的词语、词语、字;
根据预定编码方法确定多粒度分词层次结构中每一个字的多粒度标签,进而得到每一个句子对应的多粒度标签序列;
根据句子对应的多粒度标签序列对序列标注模型进行数据训练,得到多粒度分词序列标注模型;
基于所述的多粒度分词序列标注模型得到句子的多粒度标签序列。
本实施例中,选择三种不同规范的单粒度标注数据集,也即CTB、PPD、MSR三种分词规范;
将MSR中的句子转化为遵守PPD分词规范的分词序列;将MSR中的句子转化为遵守CTB分词规范的分词序列;这样每一个MSR的句子就有三种遵守不同规范的分词序列。
本实施例中,采用中国专利,申请号:201610463435.9所述的基于异构标注数据的快速序列标注方法将其中遵守其中一种分词规范的句子转化为遵守另一种分词规范的分词序列。给定MSR和PPD的单粒度分词数据作为输入,训练一个MSR和PPD数据的耦合序列标注模型。用同样的方法训练MSR和CTB数据的耦合序列标注模型以及PPD和CTB数据的耦合序列标注模型。
以“全国各地医学界专家走出医学大会堂”这个句子为例,如表1所示,MSR规范下它被分为“全国各地”“医学”“界”“专家”“走出”“医学大会堂”等词语,将它转化到PPD规范的单粒度分词数据后被分成“全国”“各地”“医学界”“专家”“走”“出”“医学”“大会堂”等词语。用同样的方法,可以将这句话从MSR规范的单粒度分词数据转化为CTB规范的单粒度分词数据,得到“全”“国”“各”“地”“医学界”“专家”“走出”“医学”“大会堂”的划分结果。
表1“全国各地医学界专家走出医学大会堂”这个句子的三种分词序列
Figure GDA0001542983900000081
图1所示,将上述“全国各地医学界专家走出医学大会堂”这句话的多粒度分词序列转化为多粒度分词层次结构,参见图1所示。这个句子中包含的词语有:“全”“国”“各”“地”“全国”“各地”“全国各地”“医学”“界”“医学界”“专家”“走”“出”“走出”“医学”“大会堂”“医学大会堂”。图1中的层次结构进行表示,其中C代表字,W代表词语,X代表不能进一步与其他词合并成更粗粒度的词语,J代表句子。
本实施例中,所述的预定编码方法包括:对于句子中每一个字,根据多粒度分词层次结构,自底向上遍历,得到包含这个字的不同粒度的所有词语,从而得到这个字在这些词语中的单粒度分词标签,进而将这些单粒度分词标签按照预定顺序合并在一起,构成该字的多粒度标签,其中所述预定顺序为按照分词粒度从细到粗的顺序。如表2所示,其中,B表示当前字是词语中的第一个字,E表示当前字是词语中的最后一个字,I表示当前字是词语中位于中间的字,S表示由当前单独的一个字即可组成词语。例如,“全国各地”这个字符串可以切分成三种不同粒度的词语,粒度由细到粗依次为:“全/国/各/地”,“全国/各地”和“全国各地”,因此“全”“国”“各”“地”四个字的多粒度标签分别表示为“SBB”“SEI”“SBI”和“SEE”。
表2多粒度分词标注结果
Figure GDA0001542983900000082
本实施例中,根据句子对应的多粒度标签序列对基于离散特征的CRF序列标注模型进行数据训练,得到多粒度分词序列标注模型,具体包括:
给定一个句子,x=c1...cn,进行数据训练的目的是确定一个最好的多粒度标签序列y=y1...yn,其中yi是ci的多粒度标签,如图2中的“SBB”“SEI”“SBI”等。CRF定义一个标签序列的概率为:
Figure GDA0001542983900000091
Figure GDA0001542983900000092
其中score(x,y;θ)是表示分值的函数,f(x,i,yi-1,yi)是第i个字的特征向量,θ是特征权重向量;c0和cn+1是分别表示句子开始和结尾的两个特殊字符;其中T(ci)函数返回字符ci的类型,如时间、数字、标点、特殊符号等。I(ci,cj)函数用来判断ci和cj两个字符是否相同。
表3f(x,i,yi-1,yi)的特征模板
Figure GDA0001542983900000093
设训练数据是
Figure GDA0001542983900000094
其中yi是句子xi的正确标签,D的对数似然是:
Figure GDA0001542983900000095
训练的目标是找到一个最优的参数θ来最大化对数似然。
实施例2
本实施例基于序列标注建模的多粒度分词方法,包括:
选择三种不同规范的单粒度标注数据集,也即CTB、PPD、MSR三种分词规范;
将2种单粒度标注数据集中的句子分别转化为遵守其他2种分词规范的分词序列,被转化后的句子对应3种不同规范的分词序列;
将每一个句子对应的3种遵守不同规范分词序列转化为多粒度分词层次结构,所述的多粒度分词层次结构各层分别为句子、不能进一步与词语合并成更粗粒度的词语、词语、字;
根据预定编码方法确定多粒度分词层次结构中每一个字的多粒度标签,进而得到每一个句子对应的多粒度标签序列;
根据句子对应的多粒度标签序列对序列标注模型进行数据训练,得到多粒度分词序列标注模型;
基于所述的多粒度分词序列标注模型得到句子的多粒度标签序列。
本实施例中,同样选择三种不同规范的单粒度标注数据集,也即CTB、PPD、MSR三种分词规范。本实施中,以CTB中的句子“这个跳水队在八十年代中期成立”转化为PPD、MSR两种规范下的数据,具体转化方式与上述实施例1相同,在此不再赘述。以PPD中的句子“近几年全省再就业人口增加”转化为CTB、MSR两种规范下的数据,具体转化方式与上述实施例1相同,在此不再赘述。具体转化结果参见表4、表5。
表4“这个跳水队在八十年代中期成立”的多粒度分词序列
Figure GDA0001542983900000101
表5“近几年全省再就业人口增加”的多粒度分词序列
Figure GDA0001542983900000111
如图2、3所示,将上述“这个跳水队在八十年代中期成立”、“近几年全省再就业人口增加”这两句话的多粒度分词序列分别转化为多粒度分词层次结构。
本实施例中,所述的预定编码方法包括:对于句子中每一个字,根据多粒度分词层次结构,自底向上遍历,得到包含这个字的不同粒度的所有词语,从而得到这个字在这些词语中的单粒度分词标签,进而将这些单粒度分词标签按照预定顺序合并在一起,构成该字的多粒度标签,其中所述预定顺序为按照分词粒度从细到粗的顺序。具体地多粒度标签序列如表6、7所示。在实际使用时,所述预定顺序也可以按照分词粒度从粗到细的顺序。
表6“这个跳水队在八十年代中期成立”的各个字的多粒度标签
Figure GDA0001542983900000112
表7“近几年全省再就业人口增加”的各个字的多粒度标签
Figure GDA0001542983900000113
本实施例中,根据句子对应的多粒度标签序列对基于长短时记忆循环神经网络(Long-Short Term Memory,LSTM)的CRF序列标注模型进行数据训练,得到多粒度分词序列标注模型,具体包括:
如图4所示,首先将句子中每一个字的一元字向量和二元字向量输入到BiLSTM神经网络模型中。一元字向量指用一个多维浮点型向量表示一个字,每个字对应唯一的一个多维浮点型向量,在图4中表示为eci,i=1,2,3…。二元字向量指将当前字的一元字向量与前一个字的一元字向量连结得到的向量,在图4中表示为ecici+1
句子中每个字的一元字向量与二元字向量通过第一层BiLSTM网络,即图4中的BiLSTM1,前向传播得到输出f1 1,f2 1,f3 1…,后向传播,得到输出b1 1,b2 1,b3 1…。
将第一层双向LSTM网络BiLSTM1层的输出作为第二层双向LSTM网络BiLSTM2的输入,前向传播得到输出f1 2,f2 2,f3 2…,后向传播,得到输出b1 2,b2 2,b3 2…。
将两层双向LSTM前/后向传播的输出结果分别连结,即,将fi 1与fi 2,i=1,2,3…连结得到fi,i=1,2,3…,将bi 1与bi 2,i=1,2,3…连结得到bi,i=1,2,3…。
将fi和bi,i=1,2,3…连结起来得到hinput输入到一个隐含层中做非线性变换,然后将隐含层的输出结果做线性变换就得到了一个向量,表示标注序列的分值,该向量的维度与多粒度分词标签的个数相同。
CRF定义一个标签序列的概率为:
Figure GDA0001542983900000121
Figure GDA0001542983900000122
其中T表示多粒度标签的种类个数,score(t1,...,tn;c1,...,cn)是表示句子c1,...,cn的标签序列为t1,...,tn的分值的函数,
Figure GDA0001542983900000123
是第k个字符被标记为tk的神经网络输出的分值,
Figure GDA0001542983900000124
是一个转移矩阵。
训练的目的是找到最优的神经网络参数和转移矩阵来最大化对数似然函数,
其中
Figure GDA0001542983900000125
表示正确的标签序列:
Figure GDA0001542983900000131
实施例3
本实施例基于序列标注建模的多粒度分词方法,与实施例1的不同之处在于,多粒度分词序列的获取上的不同,具体的分词序列的获取包括:
选择两种不同规范的单粒度标注数据集,也即PPD、CTB两种分词规范。本实施中,仅仅列举以PPD中的句子“这个跳水队在八十年代中期成立”转化为CTB规范下的数据的具体转化结果,在本实施例中,类似的还将遵守CTB规范的单粒度标注数据集中的句子“近几年全省再就业人口增加”转化为遵守PPD规范的分词序列,也即遵守PPD、CTB规范的单粒度标注数据集中的被转化的句子分别具有两种不同的分析序列,将这些分词序列合并,得到多粒度分词数据集。具体转化方式与上述实施例1相同,在此不再赘述。“这个跳水队在八十年代中期成立”具体多粒度分词序列参见表8所示。“近几年全省再就业人口增加”具体多粒度分词序列参见表9所示。
表8“这个跳水队在八十年代中期成立”的多粒度分词序列
Figure GDA0001542983900000132
表9“近几年全省再就业人口增加”的多粒度分词序列
Figure GDA0001542983900000133
上述各实施例中,首先,将将至少一种单粒度标注数据集中的句子分别转化为遵守其他1种分词规范的分词序列;然后根据该分词序列得到多粒度分词层次结构,根据该多粒度分词层次结构能够得到组成一个字符串的多个不同粒度的分词序列,根据预定的编码方法得到每一个句子的每一个字的多粒度标签;最后,对这些多粒度标签进行数据训练得到多粒度标签序列。
还包括以下步骤,以下步骤的方式和上述实施例1的方式相同,在此不再赘述。将每一个句子对应的2种遵守不同规范分词序列转化为多粒度分词层次结构,所述的多粒度分词层次结构各层分别为句子、不能进一步与词语合并成更粗粒度的词语、词语、字;
根据预定编码方法确定多粒度分词层次结构中每一个字的多粒度标签,进而得到每一个句子对应的多粒度标签序列;
根据句子对应的多粒度标签序列对序列标注模型进行数据训练,得到多粒度分词序列标注模型;
基于所述的多粒度分词序列标注模型得到句子的多粒度标签序列。
实施例4
本实施例基于序列标注建模的多粒度分词系统,用于采用上述各实施例中所述的方法运行,所述系统包括:
分词数据获取单元,用于将至少一种单粒度标注数据集中的句子分别转化为遵守其他n-1种分词规范的分词序列,被转化后的句子对应n种不同规范的分词序列,其中n≥2,且n为正整数;
分词层次结构生成单元,用于将每一个句子对应的n种遵守不同规范分词序列转化为多粒度分词层次结构,所述的多粒度分词层次结构各层分别为句子、不能进一步与词语合并成更粗粒度的词语、词语、字;
标签生成单元,用于根据预定编码方法确定多粒度分词层次结构中每一个字的多粒度标签,进而得到每一个句子对应的多粒度标签序列;
序列标注模型训练单元,基于所述的包含句子和对应多粒度标签序列的数据集,通过训练序列标注模型,得到多粒度分词序列标注模型;
分词结果输出单元,用于基于所述的多粒度序列标注模型获得待分词句子的多粒度标签序列。
本实施例中,序列标注模型训练单元包括:第一训练单元,用于根据句子对应的多粒度标签序列对基于离散特征的CRF序列标注模型进行数据训练,得到多粒度分词序列标注模型;第二训练单元,用于根据句子对应的多粒度标签序列对基于LSTM的CRF序列标注模型进行数据训练,得到多粒度分词序列标注模型。
上述各实施例中,还可以包括通过规则后处理,将句子的多粒度标签序列转化为多粒度分词层次结构。
上述各实施例中,获得的多粒度分词序列合并为一多粒度分词数据集,多粒度分词数据集中的数据可多、可少,单粒度分词规范的种类数量也是根据需要选择的,具体实施例的多少根据实际的需要设置,单粒度标注数据集中的句子转化为多粒度分词结果转化的多,则多粒度分词数据集中的数据多,单粒度标注数据集中的句子转化为多粒度分词结果转化的少,则多粒度分词数据集中的数据少。也即用于多粒度分词序列标注模型训练的多粒度标签序列的多少根据多粒度分词数据集中数据的多少决定。
以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (6)

1.一种基于序列标注建模的多粒度分词方法,其特征在于,包括:
将至少一种单粒度标注数据集中的句子分别转化为遵守其他n-1种分词规范的分词序列,被转化后的句子对应n种不同规范的分词序列,其中n≥2,且n为正整数;
将每一个句子对应的n种遵守不同规范分词序列转化为多粒度分词层次结构,所述的多粒度分词层次结构各层分别为句子、不能进一步与词语合并成更粗粒度的词语、词语、字;
根据预定编码方法确定多粒度分词层次结构中每一个字的多粒度标签,进而得到每一个句子对应的多粒度标签序列,所述的预定编码方法包括:对于句子中每一个字,根据多粒度分词层次结构,自底向上遍历,得到包含这个字的不同粒度的所有词语,从而得到这个字在这些词语中的单粒度分词标签,进而将这些单粒度分词标签按照预定顺序合并在一起,构成该字的多粒度标签,其中所述预定顺序为按照分词粒度从细到粗的顺序,或是按照分词粒度从粗到细的顺序;
根据句子对应的多粒度标签序列对序列标注模型进行数据训练,得到多粒度分词序列标注模型;
基于所述的多粒度分词序列标注模型得到句子的多粒度标签序列。
2.根据权利要求1所述的基于序列标注建模的多粒度分词方法,其特征在于,还包括通过规则后处理,将句子的多粒度标签序列转化为多粒度分词层次结构。
3.根据权利要求1所述的基于序列标注建模的多粒度分词方法,其特征在于,根据句子对应的多粒度标签序列对基于离散特征的CRF序列标注模型或基于长短时记忆循环神经网络(Long-Short Term Memory,LSTM)的CRF序列标注模型进行数据训练,得到多粒度分词序列标注模型;
其中,根据句子对应的多粒度标签序列对基于离散特征的CRF序列标注模型具体包括:
给定一个句子,x=c1...cn,进行数据训练的目的是确定一个最好的多粒度标签序列y=y1...yn,其中yi是ci的多粒度标签,CRF定义一个标签序列的概率为:
Figure FDA0002960057760000021
Figure FDA0002960057760000022
其中score(x,y;θ)是表示分值的函数;θ是特征权重向量;f(x,i,yi-1,yi)是第i个字的特征向量,
设训练数据是
Figure FDA0002960057760000023
其中yi是句子xi的正确标签,D的对数似然是:
Figure FDA0002960057760000024
训练的目标是找到一个最优的参数θ来最大化对数似然;
根据句子对应的多粒度标签序列对基于LSTM的CRF序列标注模型进行数据训练,具体包括:
将句子中每一个字的一元字向量和二元字向量输入到BiLSTM神经网络模型中,一元字向量指用一个多维浮点型向量表示一个字,每个字对应唯一的一个多维浮点型向量,表示为eci,i=1,2,3…;二元字向量指将当前字的一元字向量与前一个字的一元字向量连结得到的向量,表示为ecici+1
句子中每个字的一元字向量与二元字向量通过第一层BiLSTM网络,前向传播得到输出f1 1,f2 1,f3 1…,后向传播,得到输出b1 1,b2 1,b3 1…;
将第一层双向LSTM网络BiLSTM1层的输出作为第二层双向LSTM网络BiLSTM2的输入,前向传播得到输出f1 2,f2 2,f3 2…,后向传播,得到输出b1 2,b2 2,b3 2…;
将两层双向LSTM前/后向传播的输出结果分别连结,即,将fi 1与fi 2,i=1,2,3…连结得到fi,i=1,2,3…,将bi 1与bi 2,i=1,2,3…连结得到bi,i=1,2,3…;
将fi和bi,i=1,2,3…连结起来得到hinput输入到一个隐含层中做非线性变换,然后将隐含层的输出结果做线性变换就得到了一个分值向量,用来表示标注序列的分值,该分值向量的维度与多粒度分词标签的个数相同;
CRF定义一个标签序列的概率为:
Figure FDA0002960057760000031
Figure FDA0002960057760000032
其中T表示多粒度标签的种类个数,score(t1,...,tn;c1,...,cn)是表示句子c1,...,cn的标签序列为t1,...,tn的分值的函数,
Figure FDA0002960057760000033
是第k个字符被标记为tk的神经网络输出的分值,
Figure FDA0002960057760000034
是一个转移矩阵;
训练的目的是找到最优的神经网络参数和转移矩阵来最大化对数似然函数,
其中t1 *,...,tn *表示正确的标签序列:
Figure FDA0002960057760000035
4.一种基于序列标注建模的多粒度分词系统,其特征在于,包括:
分词数据获取单元,用于将至少一种单粒度标注数据集中的句子分别转化为遵守其他n-1种分词规范的分词序列,被转化后的句子对应n种不同规范的分词序列,其中n≥2,且n为正整数;
分词层次结构生成单元,用于将每一个句子对应的n种遵守不同规范分词序列转化为多粒度分词层次结构,所述的多粒度分词层次结构各层分别为句子、不能进一步与词语合并成更粗粒度的词语、词语、字;
标签生成单元,用于根据预定编码方法确定多粒度分词层次结构中每一个字的多粒度标签,进而得到每一个句子对应的多粒度标签序列,所述标签生成单元包括标签提取模块、标签排序模块,所述标签提取模块,用于对于句子中每一个字,根据多粒度分词层次结构,自底向上遍历,得到包含这个字的不同粒度的所有词语,从而得到这个字在这些词语中的单粒度分词标签;所述标签排序模块,用于将获取的单粒度分词标签按照预定顺序合并在一起,构成该字的多粒度标签,其中所述预定顺序为按照分词粒度从细到粗的顺序,或是按照分词粒度从粗到细的顺序;
序列标注模型训练单元,基于句子和对应多粒度标签序列,通过训练序列标注模型,得到多粒度分词序列标注模型;
分词结果输出单元,用于基于所述的多粒度分词序列标注模型获得待分词句子的多粒度标签序列。
5.根据权利要求4所述的基于序列标注建模的多粒度分词系统,其特征在于,还包括分词结果层次结构转化单元,基于规则后处理,将句子的多粒度标签序列转化为多粒度分词层次结构。
6.根据权利要求4所述的基于序列标注建模的多粒度分词系统,其特征在于,序列标注模型训练单元包括:第一训练单元,用于根据句子对应的多粒度标签序列对基于离散特征的CRF序列标注模型进行数据训练,得到多粒度分词序列标注模型;第二训练单元,用于根据句子对应的多粒度标签序列对基于LSTM的CRF序列标注模型进行数据训练,得到多粒度分词序列标注模型。
CN201710790736.7A 2017-09-05 2017-09-05 基于序列标注建模的多粒度分词方法及系统 Active CN107729312B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710790736.7A CN107729312B (zh) 2017-09-05 2017-09-05 基于序列标注建模的多粒度分词方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710790736.7A CN107729312B (zh) 2017-09-05 2017-09-05 基于序列标注建模的多粒度分词方法及系统

Publications (2)

Publication Number Publication Date
CN107729312A CN107729312A (zh) 2018-02-23
CN107729312B true CN107729312B (zh) 2021-04-20

Family

ID=61205654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710790736.7A Active CN107729312B (zh) 2017-09-05 2017-09-05 基于序列标注建模的多粒度分词方法及系统

Country Status (1)

Country Link
CN (1) CN107729312B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829683B (zh) * 2018-06-29 2022-06-10 北京百度网讯科技有限公司 混合标注学习神经网络模型及其训练方法、装置
CN109165284B (zh) * 2018-08-22 2020-06-16 重庆邮电大学 一种基于大数据的金融领域人机对话意图识别方法
CN109885702A (zh) * 2019-01-17 2019-06-14 哈尔滨工业大学(深圳) 自然语言处理中的序列标注方法、装置、设备及存储介质
CN109829156B (zh) * 2019-01-18 2023-11-14 北京惠每云科技有限公司 医学文本识别方法及装置
CN109800298B (zh) * 2019-01-29 2023-06-16 苏州大学 一种基于神经网络的中文分词模型的训练方法
CN110210035B (zh) * 2019-06-04 2023-01-24 苏州大学 序列标注方法、装置及序列标注模型的训练方法
CN110457478B (zh) * 2019-08-09 2022-07-26 泰康保险集团股份有限公司 文本合规性检查方法及装置、电子设备和计算机可读介质
CN111274392B (zh) * 2020-01-16 2024-03-15 创新工场(广州)人工智能研究有限公司 一种多频道联合处理方法和装置
CN112115717B (zh) * 2020-09-28 2022-03-15 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及可读存储介质
CN112199519A (zh) * 2020-11-18 2021-01-08 北京观微科技有限公司 一种基于Bert的实体关系流水线抽取方法和系统
CN112507109A (zh) * 2020-12-11 2021-03-16 重庆知识产权大数据研究院有限公司 一种基于语义分析与关键词识别的检索方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402502A (zh) * 2011-11-24 2012-04-04 北京趣拿信息技术有限公司 用于搜索引擎的分词处理方法和装置
CN102479191A (zh) * 2010-11-22 2012-05-30 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
CN103324626A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种建立多粒度词典的方法、分词的方法及其装置
CN106202030A (zh) * 2016-06-23 2016-12-07 苏州大学 一种基于异构标注数据的快速序列标注方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479191A (zh) * 2010-11-22 2012-05-30 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
CN102402502A (zh) * 2011-11-24 2012-04-04 北京趣拿信息技术有限公司 用于搜索引擎的分词处理方法和装置
CN103324626A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种建立多粒度词典的方法、分词的方法及其装置
CN106202030A (zh) * 2016-06-23 2016-12-07 苏州大学 一种基于异构标注数据的快速序列标注方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Adversarial Multi-Criteria Learning for Chinese Word Segmentation;Xinchi Chen et.al;《In Proceedings of the 55th Annual Meeting of the Association for Conputational Linguistics》;20170425;第1卷;第1193-1203页 *
Chinese Word Segmentation based on Conditional__Random Fields with Character Clustering;Liping DU et.al;《2016 International Conference on Asian Language Processing (IALP)》;20170313;第258-261页 *
Parsing Chinese Synthetic Words with a Character-based Dependency Model;Fei Cheng et al;《Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC"14)》;20140526;第67-72页 *
基于知识评价的快速汉语自动分词系统;张民等;《情报学报》;19990511;第15卷(第2期);第95-106页 *
面向词性标注的多资源转化研究;高恩婷等;《北京大学学报》;20150331;第51卷(第2期);第328-334页 *

Also Published As

Publication number Publication date
CN107729312A (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
CN107729312B (zh) 基于序列标注建模的多粒度分词方法及系统
CN107330109B (zh) 一种商标查询结果近似度评价和排序方法、装置
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN113128229B (zh) 一种中文实体关系联合抽取方法
CN110851596A (zh) 文本分类方法、装置及计算机可读存储介质
CN109543181B (zh) 一种基于主动学习和深度学习相结合的命名实体模型和系统
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN110598203A (zh) 一种结合词典的军事想定文书实体信息抽取方法及装置
CN108182295A (zh) 一种企业知识图谱属性抽取方法及系统
CN110909549B (zh) 对古汉语进行断句的方法、装置以及存储介质
CN115146488B (zh) 基于大数据的可变业务流程智能建模系统及其方法
CN107330074A (zh) 基于深度学习和哈希编码的图像检索方法
CN110442720A (zh) 一种基于lstm卷积神经网络的多标签文本分类方法
CN110457514A (zh) 一种基于深度哈希的多标签图像检索方法
CN113946685B (zh) 一种融合规则和深度学习的渔业标准知识图谱构建方法
CN108563725A (zh) 一种中文症状体征构成识别方法
CN109388805A (zh) 一种基于实体抽取的工商变更分析方法
CN110222338A (zh) 一种机构名实体识别方法
CN114238652A (zh) 一种用于端到端场景的工业故障知识图谱建立方法
CN109446523A (zh) 基于BiLSTM和条件随机场的实体属性抽取模型
CN113836891A (zh) 基于多元标注策略的结构化信息抽取方法和装置
CN111008215B (zh) 一种结合标签构建与社区关系规避的专家推荐方法
CN114254645A (zh) 一种人工智能辅助写作系统
CN114049501A (zh) 融合集束搜索的图像描述生成方法、系统、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant