CN112214994A - 基于多级词典的分词方法、装置、设备及可读存储介质 - Google Patents

基于多级词典的分词方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN112214994A
CN112214994A CN202011079701.0A CN202011079701A CN112214994A CN 112214994 A CN112214994 A CN 112214994A CN 202011079701 A CN202011079701 A CN 202011079701A CN 112214994 A CN112214994 A CN 112214994A
Authority
CN
China
Prior art keywords
character
word
representation
feature
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011079701.0A
Other languages
English (en)
Other versions
CN112214994B (zh
Inventor
李正华
周厚全
侯洋
周仕林
张民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202011079701.0A priority Critical patent/CN112214994B/zh
Publication of CN112214994A publication Critical patent/CN112214994A/zh
Priority to PCT/CN2021/088599 priority patent/WO2022073333A1/zh
Application granted granted Critical
Publication of CN112214994B publication Critical patent/CN112214994B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种基于多级词典的分词方法,该方法采用至少两个词典以辅助分词模型进行分词,在对字符进行表示的时候,不仅生成常规的向量表示,还生成该字符在至少两个词典中的特征表示,最终根据向量表示和特征表示确定该字符的成词标签。该方法通过区分不同词的地位和重要性,从而提升整体方案的分词性能,提升领域适应能力和分词准确性。此外,本申请还提供了一种基于多级词典的分词装置、设备及可读存储介质,其技术效果与上述方法的技术效果相对应。

Description

基于多级词典的分词方法、装置、设备及可读存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种基于多级词典的分词方法、装置、设备及可读存储介质。
背景技术
汉语分词是一个将输入的句子切分成词序列的过程。通常为模型提供额外词典,来缓解人工标注训练数据不足的问题。然而,目前的分词方案均采用单级词典,忽略了词典中不同词语的成词概率不同的问题,也忽略了同一字符串在一个领域成词,而在另一种领域不成词的问题,导致分词模型的分词效果较差。
基于单级词典的分词方法,还存在对实际分词效果影响不大的问题。主要原因就在于词典知识是以特征形式,作为软约束加到分词模型中,而词典中的词语成词概率千差万别,因此对于分词模型的影响有限。
可见,当前的分词模型均采用单级词典,导致分词效果较差,如何解决该问题,提升分词性能,是亟待本领域技术人员解决的问题。
发明内容
本申请的目的是提供一种基于多级词典的分词方法、装置、设备及可读存储介质,用以解决当前的分词模型均采用单级词典,导致分词性能较差的问题。其具体方案如下:
第一方面,本申请提供了一种基于多级词典的分词方法,包括:
针对目标语句,生成每个字符的向量表示,并生成每个字符在至少两个词典中的特征表示;
利用基于机器学习技术的分词模型,根据所述向量表示和所述特征表示,确定每个字符的成词标签,其中所述成词标签包括:当前字符是词的第一个字符、当前字符是词的最后一个字符、当前字符位于词的中间位置、当前字符单独成词;
根据所述每个字符的成词标签,对所述目标语句进行分词。
优选的,在所述针对目标语句,生成每个字符的向量表示,并生成每个字符在至少两个词典中的特征表示之前,还包括:
根据所属领域和/或成词概率,将目标词典划分为至少两个词典。
优选的,所述针对目标语句,生成每个字符的向量表示,包括:
针对目标语句,生成每个字符的字符n-gram特征、字符重复特征信息特征和字符类别特征,以作为该字符的向量表示;
相应的,所述根据所述向量表示和所述特征表示,确定每个字符的成词标签,包括:
利用基于传统离散特征的分词模型,根据所述向量表示和所述特征表示,确定每个字符的成词标签。
优选的,在所述基于传统离散特征的分词模型为CRF模型时,所述生成每个字符在至少两个词典中的特征表示,包括:
生成每个字符在至少两个词典中的单元特征和三元特征,以作为特征表示。
优选的,所述针对目标语句,生成每个字符的向量表示,包括:
随机生成嵌入向量表;针对目标语句,通过查询所述嵌入向量表确定每个字符的向量表示;
相应的,所述根据所述向量表示和所述特征表示,确定每个字符的成词标签,包括:
利用基于神经网络的分词模型,对所述向量表示和所述特征表示进行特征提取,得到每个字符的特征向量,并根据所述特征向量确定每个字符的成词标签。
优选的,在所述基于神经网络的分词模型为BiLSTM-CRF模型时,所述生成每个字符在至少两个词典中的特征表示,包括:
生成每个字符在至少两个词典中的2-gram特征、3-gram特征、4-gram特征、5-gram特征,以作为特征表示。
优选的,所述利用基于神经网络的分词模型,对所述向量表示和所述特征表示进行特征提取,得到每个字符的特征向量,包括:
分别对所述向量表示和所述特征表示进行特征提取,得到第一特征向量和第二特征向量;对所述第一特征向量和所述第二特征向量进行拼接,得到每个字符的特征向量;
或者,
对所述向量表示和所述特征表示进行拼接,并对拼接结果进行特征提取,得到每个字符的特征向量。
第二方面,本申请提供了一种基于多级词典的分词装置,包括:
表示模块:用于针对目标语句,生成每个字符的向量表示,并生成每个字符在至少两个词典中的特征表示;
标签确定模块:用于利用基于机器学习技术的分词模型,根据所述向量表示和所述特征表示,确定每个字符的成词标签,其中所述成词标签包括:当前字符是词的第一个字符、当前字符是词的最后一个字符、当前字符位于词的中间位置、当前字符单独成词;
分词模块:用于根据所述每个字符的成词标签,对所述目标语句进行分词。
第三方面,本申请提供了一种基于多级词典的分词设备,包括:
存储器:用于存储计算机程序;
处理器:用于执行所述计算机程序,以实现如上所述的基于多级词典的分词方法。
第四方面,本申请提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时用于实现如上所述的基于多级词典的分词方法。
本申请所提供的一种基于多级词典的分词方法,包括:针对目标语句,生成每个字符的向量表示,并生成每个字符在至少两个词典中的特征表示;利用基于机器学习技术的分词模型,根据向量表示和特征表示,确定每个字符的成词标签;根据每个字符的成词标签,对目标语句进行分词。
可见,该方法采用至少两个词典以辅助分词模型进行分词,在对字符进行表示的时候,不仅生成常规的向量表示,还生成该字符在至少两个词典中的特征表示,最终根据向量表示和特征表示确定该字符的成词标签。该方法本质上是通过区分不同词的地位和重要性,从而提升整体方案的分词性能,例如,当上述至少两个词典是按照领域划分得到的词典时,该方法能够让分词模型学习到词的所属领域这一信息,从而有效提升分词模型的领域适应能力;当上述至少两个词典是按照成词概率划分得到的词典时,该方法能够让分词模型学习到词的成词概率这一信息,从而显著提升分词模型的分词准确性;甚至可以同时按照领域和成词概率进行划分,从而同时提升领域适应能力和分词准确性。
此外,本申请还提供了一种基于多级词典的分词装置、设备及可读存储介质,其技术效果与上述方法的技术效果相对应,这里不再赘述。
附图说明
为了更清楚的说明本申请实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请所提供的一种基于多级词典的分词方法实施例一的实现流程图;
图2为本申请所提供的一种基于多级词典的分词方法实施例二的网络结构图;
图3为本申请所提供的一种基于多级词典的分词方法实施例三的网络结构图;
图4为本申请所提供的一种基于多级词典的分词装置实施例的功能框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前流行的分词方法多是基于统计的,该方法比之前基于词典的分词方法在性能上有较大提升。然而,当训练语料的领域与目标领域不一致时,基于统计的分词方法的性能会大幅下降。为了解决罕见词与领域相关词语的错误切分问题,一般在统计模型中融入词典信息,目前有两种解决方案:
(1)在传统机器学习领域,以CRF分词模型为例,对于每个字符,该模型不仅使用了中文分词中常用的基本特征,还加入了词典相关的特征。
(2)在神经网络领域,以BiLSTM-CRF模型为例,每个字符不仅需要自身的字符向量,还要基于词典和上下文构建词典特征向量。
然而,上述分词模型都是采用单级词典来进行分词,由于单级词典无法体现不同词之间的差异,导致分词模型的整体分词性能受到很大限制。
针对该问题,本申请提供了一种基于多级词典的分词方法、装置、设备及可读存储介质,采用至少两个词典以辅助分词模型进行分词,在对字符进行表示的时候,不仅生成常规的向量表示,还生成该字符在至少两个词典中的特征表示,最终根据向量表示和特征表示确定该字符的成词标签。最终通过区分不同词的地位和重要性,提升了整体方案的分词性能。
下面对本申请提供的一种基于多级词典的分词方法实施例一进行介绍,参见图1,实施例一包括:
S101、针对目标语句,生成每个字符的向量表示,并生成每个字符在至少两个词典中的特征表示;
具体的,上述生成每个字符在至少两个词典中的特征表示的过程,具体包括:对于每个词,生成其在每个词典中的特征表示,对该词在各个词典中的特征表示进行拼接,得到该词在至少两个词典中的特征表示。
上述至少两个词典,可以是按照所属领域划分得到的词典,也可以是按照成词概率划分得到的词典,甚至还可以是同时按照所属领域和成词概率划分得到的词典。作为一种优选的实施方式,在同时按照所属领域和成词概率划分词典时,对于关键的领域,可以从成词概率上按照更细粒度进行划分,以进一步提升分词模型的分词性能。例如,在领域A相较于领域B更为重要时,可以按照以下方式进行词典划分:词典1用于描述在领域A内成词概率为80%至100%的词,词典2用于描述在领域A内成词概率为60%至80%的词,词典3用于描述在领域B内成词概率为60%至100%的词。
S102、利用基于机器学习技术的分词模型,根据向量表示和特征表示,确定每个字符的成词标签;
可以理解的是,分词任务可以看作序列化标注任务,就是根据字符在词中的位置信息来对每个字符来进行标注,进而达到分词的目的。在实际应用中,可能存在不同的标注方式,相应的,也存在按照不同方式进行分类的成词标签,本实施例对选用何种成词标签不做限定。
此处提供一种常用的标注方法,即4-tag标注法,在该标注法中成词标签被划分为以下四种类型:当前字符是词的第一个字符、当前字符是词的最后一个字符、当前字符位于词的中间位置、当前字符单独成词。
上述利用基于机器学习技术的分词模型,包括但不限于基于传统离散特征的分词模型和基于神经网络的分词模型。
当选用基于传统离散特征的分词模型时,S101中生成每个字符的向量表示的过程,具体包括:采用特征工程技术,根据预先设置的特征模板,生成每个字符的向量表示。其中,特征模板用于挖掘命名实体内部的特征以及上下文之间的关联特征,作为一种具体的实施方式,特征模板可以设置为:字符n-gram特征、字符重复特征信息特征和字符类别特征。实际应用中,可以根据实际需求自行设置和调整特征模板,本实施例对特征模板中具体选用何种特征不做限定。
当选用基于神经网络的分词模型时,S101中生成每个字符的向量表示的过程,具体包括:随机生成嵌入向量表;针对目标语句,通过查询嵌入向量表确定每个字符的向量表示。
以上对在选用不同的分词模型时,如何生成常规的字符向量表示的过程进行了描述。可以理解的是,在选用不同的分词模型时,不仅常规的字符向量表示可能存在差异,字符在至少两个词典中的特征表示也可能存在差异。具体的,可以针对实际选用的分词模型,预先设置特征模板,然后根据特征模板,从至少两个词典中提取字符的特征表示。下面针对不同类型的分词模型,提供一种可行的从词典中提取字符特征表示的实现方式,可以理解的是,本实施例不局限于此:
当选用基于传统离散特征的分词模型时,S101中生成每个字符在至少两个词典中的特征表示的过程,具体包括:生成每个字符在至少两个词典中的单元特征和三元特征,以作为特征表示。
当选用基于神经网络的分词模型时,S101中生成每个字符在至少两个词典中的特征表示的过程,具体包括:生成每个字符在至少两个词典中的2-gram特征、3-gram特征、4-gram特征、5-gram特征,以作为特征表示。
S103、根据每个字符的成词标签,对目标语句进行分词。
根据成词标签对目标语句进行分词的过程,就是将语句转换为词序列的过程,本实施例不再展开描述该部分内容。
值得一提的是,当选用基于神经网络的分词模型时,S102中所述根据向量表示和特征表示,确定每个字符的成词标签的过程,具体包括:利用基于神经网络的分词模型,对向量表示和特征表示进行特征提取,得到每个字符的特征向量,并根据特征向量确定每个字符的成词标签。
其中,对于所述利用基于神经网络的分词模型,对向量表示和特征表示进行特征提取,得到每个字符的特征向量的过程,本实施例提供以下两种实现方式:
第一种实现方式:分别对向量表示和特征表示进行特征提取,得到第一特征向量和第二特征向量;对第一特征向量和第二特征向量进行拼接,得到每个字符的特征向量;
第二种实现方式:对向量表示和特征表示进行拼接,并对拼接结果进行特征提取,得到每个字符的特征向量。
理论上来讲,以上两种方式均可以实现本实施例的分词方案,但在实际测试过程中,上述第一种实现方式相较于第二种实现方式表现出更优异的分词性能,因此,本实施例将第一种实现方式作为一种更优选的方式。
本实施例所提供一种基于多级词典的分词方法,采用至少两个词典以辅助分词模型进行分词,在对字符进行表示的时候,不仅生成常规的向量表示,还生成该字符在至少两个词典中的特征表示,最终根据向量表示和特征表示确定该字符的成词标签。通过区分不同词的地位和重要性,提升了整体方案的分词性能。
如前文所述,分词任务可以看作序列化标注任务。以采用4-tag标注法为例,用B、M、E、W来对每个字符进行标注。其中,B表示该字符是词的第一个字符,E表示该字符是词的最后一个字符,M表示该字符位于词的中间位置,W表示该字符单独成词。
假设语句序列为S={c1,c2,c3...cn},标签序列为Y=(y1,y2,...,yn),其中ci表示目标语句中的第i个字符,yi表示第i个字符的标签,i∈[1,n],n表示字符总数,yi∈{B,M,E,W}。那么,分词过程就是对S中的每一个字符都找到最优的标记y*,使其满足下式的过程:
Figure BDA0002718319250000081
上面对分词任务进行了形象化描述,下面分别以CRF分词模型和基于BiLSTM-CRF的分词模型为基础,对本申请的实施过程进行详细说明。
首先对词典划分过程进行说明。此处以按照成词概率划分的二级词典为例,对词典划分过程进行描述,至于三级或三级以上词典,以及按照其他划分方式的词典划分过程,可以轻易扩展得到,此处不再举例说明。
根据单词的成词概率,将单词分成多个等级。比如,在二级词典中,可以将词典分为两级:第一级是成词概率100%的词,第二级是成词概率非100%的词。假设已有一个单级词典D,一些语料C。可以利用语料C,根据成词概率,将词典D划分为两级,一级词典D1,二级词典D2,具体如下:
二级词典D2:在语料C中出现,但不总是作为一个词出现,即成词概率非100%,将那些词放到D2中。
一级词典D1:在语料C中出现,且总是作为一个词出现,即成词概率为100%,将那些词放到D1中。
下面开始详细介绍本申请提供的一种基于多级词典的分词方法实施例二,实施例二以CRF分词模型为基础,根据前述二级词典,在传统CRF分词模型的基础上,为分词模型增加了多级词典特征,以提升分词性能。
本实施例中,如表1所示,CRF分词模型使用了中文分词中常用的基本特征:字符n-gram特征,字符重复特征信息特征和字符类别特征。除了上述三种特征,CRF分词模型中还融入了词典相关的特征。
对于给定输入序列S={c1,c2,c3...cn},模型预测输出序列Y=(y1,y2,...,yn),CRF分词模型的目标是找到Y,使得Y=argmaxP(Y|S),这里给出CRF中P(Y|S)的定义:
Figure BDA0002718319250000091
这里Z(S)是一个归一化因子:
Z(s)=∑Y′exp(Score(S,Y′))
其中Y’是指长度为S长度的所有可能输出序列。另外:
Figure BDA0002718319250000101
其中,f(S,i,yi-1,yi)为特征抽取函数返回特征向量,w为对应的权重向量。这里f(S,i,yi-1,yi)按照如下表1的特征模版来提取前述基本特征:
表1
Figure BDA0002718319250000102
其中,下标i表示距离当前字符的相对位置,ci表示相对当前字符位置为i的字符。例如,c0表示当前字符,c-1表示当前字符的前一个字符。Dup()表示两个字符是否相同,相同则返回1,不相同则返回0。Type(ci)用于表示字符的类型,这里的类型是指标点符号、英文数字、中文数字、字母等类别,而非4-tag中的{B,M,E,W}。
由于本实施例将单级词典划分为二级词典,因此需要相应修改字典特征模版来体现出词的成词概率信息。以从词典抽取单元特征和三元特征为例,单级词典的特征模板如表2所示:
表2
Figure BDA0002718319250000111
Figure BDA0002718319250000121
经过修改后,二级词典的特征模板如下表3所示:
表3
Figure BDA0002718319250000122
假设当前考虑的字符位于句子S的j位置,则:
[fB]i,L=fB(S,j+i,DL)
[fM]i,L=fM(S,j+i,DL)
[fE]i,L=fE(S,j+i,DL)
其中,DL表示使用的是第L级词典,L=1或者2。
在训练时,目标是极大化似然,一般可以取似然函数的相反数,然后采用随机梯度下降去训练去极小化,在计算条件概率的时候,可以使用前向后向算法,最后再用维特比算法解码。
基于实施例二,假设目标语句为“棒曲霉素的生产量”,将“的”作为当前字符,将“棒曲霉素”放入一级词典,而{生产,产量}放入二级词典。那么,依照表3提取特征,最终得到该字符在二级词典中的特征表示如表4所示:
表4
Figure BDA0002718319250000123
Figure BDA0002718319250000131
下面开始详细介绍本申请提供的一种基于多级词典的分词方法实施例三,实施例三以基于BiLSTM-CRF的分词模型为基础,并根据前述二级词典,为分词模型增加了多级词典特征,以提升分词性能。
使用BiLSTM-CRF作为基础模型,每个字符c不仅需要代表自身的字符向量e,还要基于二级词典和上下文构建词典特征向量t。该特征向量表示由c及其邻近字符组成的字符串是否构成一个单词,特征模板包含了2-gram到5-gram的字段,每个长度包含两种情况:字符是字段的首部或尾部,最终的特征向量是一个16维的0-1向量。
图3是BiLSTM-CRF模型的一个变体。一共分为三层:表示层,特征层和预测层。下面分别对每层进行介绍:
(1)表示层
在神经网络中,会随机初始化一个词嵌入向量表,每个向量都代表了一个字符,通过索引表,可以很方便得到每个字符的词嵌入表示。
对于一个句子S={c1,c2,c3…cn},ci表示句子中第i个字符,n表示句子的长度。对于句中每个字符ci,通过查表得到其对应的词嵌入表示ei
除了词嵌入表示,每个字符ci还要基于词典和上下文构建词典特征向量。首先基于特征模板为字符ci构建n-gram字符串,特征模板如表5所示:
表5
Figure BDA0002718319250000141
Figure BDA0002718319250000151
如果相应的字符或字符串在词典中,特征值为1,否则为0。
对于ci在特征模板中的每个字符串,都会产生一个二元值表示该字符串是否在词典中出现。
Figure BDA0002718319250000152
代表ci基于词典D对应于第k个模板的输出值。最终,ci基于词典D生成了一个8维的0-1向量ti。由于划分了两级词典,ci对应一级词典D1的特征向量为
Figure BDA0002718319250000153
对应二级词典D2的特征向量为
Figure BDA0002718319250000154
最终的词典特征向量由各级词典特征向量连接得到:
Figure BDA0002718319250000155
(2)特征层
LSTM由输入门、遗忘门、输出门和记忆单元四个部分组成,可以用来保存上下文有用的信息,同时解决长距离依赖问题。对于一个输入向量序列X={x1,x2,x3…xn}。由于LSTM可以有效地编码整个序列,所以通过LSTM对整个序列进行编码得到xi在序列中的全局信息
Figure BDA0002718319250000156
Figure BDA0002718319250000157
Figure BDA0002718319250000158
Figure BDA0002718319250000159
Figure BDA00027183192500001510
Figure BDA00027183192500001511
其中,
Figure BDA00027183192500001512
分别表示第i个字符对应的输入门,遗忘门,输出门和细胞状态的输出,
Figure BDA00027183192500001513
Figure BDA00027183192500001514
表示第i项对应的输入向量和隐藏层向量。σ表示sigmoid激活函数,W和b分别对应相应门的权重以及偏置。
对于一个句子,单向的LSTM仅仅能编码一个方向的句子信息。即对于句子中第i个字符,前向的
Figure BDA00027183192500001515
只包含前i个字符的信息,不包含第i个字符以后的序列信息。为了使句子中每个字符都能包含前后的信息,这里采用两个不同方向的LSTM对句子进行编码。最终,将前向后向的LSTM的隐层输出拼接,得到字符ci在整个句子序列中的双向表示
Figure BDA0002718319250000161
Figure BDA0002718319250000162
在表示层中,每个字符ci对应了2个向量:ei和ti。其中,ei代表ci的词嵌入向量,ti表示ci基于词典和上下文生成的词典特征向量,由一级词典和二级词典各自得到的向量连接而成。将这三个向量分别输入到一个Bi-LSTM中:
Figure BDA0002718319250000163
Figure BDA0002718319250000164
在输入到CRF层前,将两个隐藏层向量连接起来:
Figure BDA0002718319250000165
(3)预测层
预测层采用CRF进行最终的标签序列优化。
全标注数据中句子的每个汉字都有一个明确的分词标签。所以在包含N个句子的全标注数据集T中,对于一个长度为n的句子S而言,其所有可能的4n种分词切割路径中仅有一条正确的路径Y,那么全标注CRF的学习问题就是最大化权重θ下句子S被标记为Y的似然函数LL(T;θ)。其中,Score(S,Y)表示为句子S标记为序列Y的得分,Z(S)表示句子S的4n种可能得分之和,p(Y|S)表示句子S被标记为序列Y的概率:
Figure BDA0002718319250000166
Figure BDA0002718319250000167
Figure BDA0002718319250000168
最终训练目标为最大化似然函数LL(T;θ)。
基于实施例三,假设目标语句为“棒曲霉素的生产量”,对于单一词典的分词模型,模型使用的词典为{棒曲霉素,生产,产量},模型输入和输出如表6所示:
表6
Figure BDA0002718319250000171
对于同一目标语句,对于基于二级词典的分词模型,将“棒曲霉素”放入最高优先级的一级词典,而{生产,产量}放入次优先级的二级词典,得到的输出如表7所示:
表7
Figure BDA0002718319250000172
下面对本申请实施例提供的一种基于多级词典的分词装置进行介绍,下文描述的一种基于多级词典的分词装置与上文描述的一种基于多级词典的分词方法可相互对应参照。
如图4所示,本实施例的基于多级词典的分词装置,包括:
表示模块401:用于针对目标语句,生成每个字符的向量表示,并生成每个字符在至少两个词典中的特征表示;
标签确定模块402:用于利用基于机器学习技术的分词模型,根据向量表示和特征表示,确定每个字符的成词标签,其中所述成词标签包括:当前字符是词的第一个字符、当前字符是词的最后一个字符、当前字符位于词的中间位置、当前字符单独成词;
分词模块403:用于根据每个字符的成词标签,对目标语句进行分词。
本实施例的基于多级词典的分词装置用于实现前述的基于多级词典的分词方法,因此该装置中的具体实施方式可见前文中的基于多级词典的分词方法的实施例部分,例如,表示模块401、标签确定模块402、分词模块403,分别用于实现上述基于多级词典的分词方法中步骤S101,S102,S103。所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再展开介绍。
另外,由于本实施例的基于多级词典的分词装置用于实现前述的基于多级词典的分词方法,因此其作用与上述方法的作用相对应,这里不再赘述。
此外,本申请还提供了一种基于多级词典的分词设备,包括:
存储器:用于存储计算机程序;
处理器:用于执行计算机程序,以实现如上文所述的基于多级词典的分词方法。
最后,本申请提供了一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时用于实现如上文所述的基于多级词典的分词方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种基于多级词典的分词方法,其特征在于,包括:
针对目标语句,生成每个字符的向量表示,并生成每个字符在至少两个词典中的特征表示;
利用基于机器学习技术的分词模型,根据所述向量表示和所述特征表示,确定每个字符的成词标签,其中所述成词标签包括:当前字符是词的第一个字符、当前字符是词的最后一个字符、当前字符位于词的中间位置、当前字符单独成词;
根据所述每个字符的成词标签,对所述目标语句进行分词。
2.如权利要求1所述的方法,其特征在于,在所述针对目标语句,生成每个字符的向量表示,并生成每个字符在至少两个词典中的特征表示之前,还包括:
根据所属领域和/或成词概率,将目标词典划分为至少两个词典。
3.如权利要求1所述的方法,其特征在于,所述针对目标语句,生成每个字符的向量表示,包括:
针对目标语句,生成每个字符的字符n-gram特征、字符重复特征信息特征和字符类别特征,以作为该字符的向量表示;
相应的,所述根据所述向量表示和所述特征表示,确定每个字符的成词标签,包括:
利用基于传统离散特征的分词模型,根据所述向量表示和所述特征表示,确定每个字符的成词标签。
4.如权利要求3所述的方法,其特征在于,在所述基于传统离散特征的分词模型为CRF模型时,所述生成每个字符在至少两个词典中的特征表示,包括:
生成每个字符在至少两个词典中的单元特征和三元特征,以作为特征表示。
5.如权利要求1所述的方法,其特征在于,所述针对目标语句,生成每个字符的向量表示,包括:
随机生成嵌入向量表;针对目标语句,通过查询所述嵌入向量表确定每个字符的向量表示;
相应的,所述根据所述向量表示和所述特征表示,确定每个字符的成词标签,包括:
利用基于神经网络的分词模型,对所述向量表示和所述特征表示进行特征提取,得到每个字符的特征向量,并根据所述特征向量确定每个字符的成词标签。
6.如权利要求5所述的方法,其特征在于,在所述基于神经网络的分词模型为BiLSTM-CRF模型时,所述生成每个字符在至少两个词典中的特征表示,包括:
生成每个字符在至少两个词典中的2-gram特征、3-gram特征、4-gram特征、5-gram特征,以作为特征表示。
7.如权利要求5所述的方法,其特征在于,所述利用基于神经网络的分词模型,对所述向量表示和所述特征表示进行特征提取,得到每个字符的特征向量,包括:
分别对所述向量表示和所述特征表示进行特征提取,得到第一特征向量和第二特征向量;对所述第一特征向量和所述第二特征向量进行拼接,得到每个字符的特征向量;
或者,
对所述向量表示和所述特征表示进行拼接,并对拼接结果进行特征提取,得到每个字符的特征向量。
8.一种基于多级词典的分词装置,其特征在于,包括:
表示模块:用于针对目标语句,生成每个字符的向量表示,并生成每个字符在至少两个词典中的特征表示;
标签确定模块:用于利用基于机器学习技术的分词模型,根据所述向量表示和所述特征表示,确定每个字符的成词标签,其中所述成词标签包括:当前字符是词的第一个字符、当前字符是词的最后一个字符、当前字符位于词的中间位置、当前字符单独成词;
分词模块:用于根据所述每个字符的成词标签,对所述目标语句进行分词。
9.一种基于多级词典的分词设备,其特征在于,包括:
存储器:用于存储计算机程序;
处理器:用于执行所述计算机程序,以实现如权利要求1-7任意一项所述的基于多级词典的分词方法。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时用于实现如权利要求1-7任意一项所述的基于多级词典的分词方法。
CN202011079701.0A 2020-10-10 2020-10-10 基于多级词典的分词方法、装置、设备及可读存储介质 Active CN112214994B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011079701.0A CN112214994B (zh) 2020-10-10 2020-10-10 基于多级词典的分词方法、装置、设备及可读存储介质
PCT/CN2021/088599 WO2022073333A1 (zh) 2020-10-10 2021-04-21 基于多级词典的分词方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011079701.0A CN112214994B (zh) 2020-10-10 2020-10-10 基于多级词典的分词方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN112214994A true CN112214994A (zh) 2021-01-12
CN112214994B CN112214994B (zh) 2021-06-01

Family

ID=74053125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011079701.0A Active CN112214994B (zh) 2020-10-10 2020-10-10 基于多级词典的分词方法、装置、设备及可读存储介质

Country Status (2)

Country Link
CN (1) CN112214994B (zh)
WO (1) WO2022073333A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114065740A (zh) * 2021-09-29 2022-02-18 北京搜狗科技发展有限公司 语句的序列标注方法、装置、电子设备及存储介质
WO2022073333A1 (zh) * 2020-10-10 2022-04-14 苏州大学 基于多级词典的分词方法、装置、设备及可读存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5488366A (en) * 1993-10-12 1996-01-30 Industrial Technology Research Institute Segmented variable length decoding apparatus for sequentially decoding single code-word within a fixed number of decoding cycles
CN103530298A (zh) * 2012-07-06 2014-01-22 深圳市世纪光速信息技术有限公司 一种信息搜索方法和装置
CN106528536A (zh) * 2016-11-14 2017-03-22 北京赛思信安技术股份有限公司 一种基于词典与文法分析的多语种分词方法
CN106610955A (zh) * 2016-12-13 2017-05-03 成都数联铭品科技有限公司 基于词典的多维度情感分析方法
US20180018577A1 (en) * 2016-07-12 2018-01-18 International Business Machines Corporation Generating training data for machine learning
CN107844475A (zh) * 2017-10-12 2018-03-27 北京知道未来信息技术有限公司 一种基于lstm的分词方法
CN108124477A (zh) * 2015-02-02 2018-06-05 微软技术授权有限责任公司 基于伪数据改进分词器以处理自然语言
CN108647199A (zh) * 2018-03-23 2018-10-12 江苏速度信息科技股份有限公司 一种地名新词的发现方法
CN109492105A (zh) * 2018-11-10 2019-03-19 上海文军信息技术有限公司 一种基于多特征集成学习的文本情感分类方法
CN109800298A (zh) * 2019-01-29 2019-05-24 苏州大学 一种基于神经网络的中文分词模型的训练方法
CN110008475A (zh) * 2019-04-10 2019-07-12 出门问问信息科技有限公司 分词处理方法、装置、设备及存储介质
CN111209749A (zh) * 2020-01-02 2020-05-29 湖北大学 一种将深度学习应用于中文分词的方法
CN111666758A (zh) * 2020-04-15 2020-09-15 中国科学院深圳先进技术研究院 中文分词方法、训练设备以及计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019049873A (ja) * 2017-09-11 2019-03-28 株式会社Screenホールディングス 同義語辞書作成装置、同義語辞書作成プログラム及び同義語辞書作成方法
CN108268444B (zh) * 2018-01-10 2021-11-02 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法
CN111368541B (zh) * 2018-12-06 2024-06-11 北京搜狗科技发展有限公司 命名实体识别方法及装置
CN112214994B (zh) * 2020-10-10 2021-06-01 苏州大学 基于多级词典的分词方法、装置、设备及可读存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5488366A (en) * 1993-10-12 1996-01-30 Industrial Technology Research Institute Segmented variable length decoding apparatus for sequentially decoding single code-word within a fixed number of decoding cycles
CN103530298A (zh) * 2012-07-06 2014-01-22 深圳市世纪光速信息技术有限公司 一种信息搜索方法和装置
CN108124477A (zh) * 2015-02-02 2018-06-05 微软技术授权有限责任公司 基于伪数据改进分词器以处理自然语言
US20180018577A1 (en) * 2016-07-12 2018-01-18 International Business Machines Corporation Generating training data for machine learning
CN106528536A (zh) * 2016-11-14 2017-03-22 北京赛思信安技术股份有限公司 一种基于词典与文法分析的多语种分词方法
CN106610955A (zh) * 2016-12-13 2017-05-03 成都数联铭品科技有限公司 基于词典的多维度情感分析方法
CN107844475A (zh) * 2017-10-12 2018-03-27 北京知道未来信息技术有限公司 一种基于lstm的分词方法
CN108647199A (zh) * 2018-03-23 2018-10-12 江苏速度信息科技股份有限公司 一种地名新词的发现方法
CN109492105A (zh) * 2018-11-10 2019-03-19 上海文军信息技术有限公司 一种基于多特征集成学习的文本情感分类方法
CN109800298A (zh) * 2019-01-29 2019-05-24 苏州大学 一种基于神经网络的中文分词模型的训练方法
CN110008475A (zh) * 2019-04-10 2019-07-12 出门问问信息科技有限公司 分词处理方法、装置、设备及存储介质
CN111209749A (zh) * 2020-01-02 2020-05-29 湖北大学 一种将深度学习应用于中文分词的方法
CN111666758A (zh) * 2020-04-15 2020-09-15 中国科学院深圳先进技术研究院 中文分词方法、训练设备以及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YIJIA LIU: "Domain Adaptation for CRF-based Chinese Word Segmentation using Free Annotations", 《HTTPS://WWW.RESEARCHGATE.NET/PUBLICATION/270582526》 *
朱运: "基于弱标注数据的汉语分词领域移植", 《中文信息学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022073333A1 (zh) * 2020-10-10 2022-04-14 苏州大学 基于多级词典的分词方法、装置、设备及可读存储介质
CN114065740A (zh) * 2021-09-29 2022-02-18 北京搜狗科技发展有限公司 语句的序列标注方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2022073333A1 (zh) 2022-04-14
CN112214994B (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
US7493251B2 (en) Using source-channel models for word segmentation
CN110263325B (zh) 中文分词系统
CN110866401A (zh) 基于注意力机制的中文电子病历命名实体识别方法及系统
CN111666758B (zh) 中文分词方法、训练设备以及计算机可读存储介质
CN111611805B (zh) 一种基于图像的辅助写作方法、装置、介质及设备
CN112214994B (zh) 基于多级词典的分词方法、装置、设备及可读存储介质
CN113655893B (zh) 一种词句生成方法、模型训练方法及相关设备
CN116151132B (zh) 一种编程学习场景的智能代码补全方法、系统及储存介质
CN111309918A (zh) 一种基于标签关联性的多标签文本分类方法
CN113128203A (zh) 基于注意力机制的关系抽取方法、系统、设备及存储介质
CN114091568B (zh) 一种面向文本分类模型的字词双粒度对抗防御系统及方法
WO2023092960A1 (zh) 一种用于法律文书的命名实体识别的标注方法和装置
CN111274829A (zh) 一种利用跨语言信息的序列标注方法
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质
CN112699685A (zh) 基于标签引导的字词融合的命名实体识别方法
CN113065349A (zh) 基于条件随机场的命名实体识别方法
US11822887B2 (en) Robust name matching with regularized embeddings
CN114564912A (zh) 一种文档格式智能检查校正方法及系统
US11494431B2 (en) Generating accurate and natural captions for figures
Whitelaw et al. Named entity recognition using a character-based probabilistic approach
CN116029300A (zh) 一种强化中文实体语义特征的语言模型训练方法和系统
CN115906854A (zh) 一种基于多级对抗的跨语言命名实体识别模型训练方法
CN113723111B (zh) 一种小样本意图识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant