CN107977364B - 维语子词切分方法及装置 - Google Patents

维语子词切分方法及装置 Download PDF

Info

Publication number
CN107977364B
CN107977364B CN201711489210.1A CN201711489210A CN107977364B CN 107977364 B CN107977364 B CN 107977364B CN 201711489210 A CN201711489210 A CN 201711489210A CN 107977364 B CN107977364 B CN 107977364B
Authority
CN
China
Prior art keywords
letter
word
target
dimensional language
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711489210.1A
Other languages
English (en)
Other versions
CN107977364A (zh
Inventor
章杰
孟廷
刘俊华
魏思
胡国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201711489210.1A priority Critical patent/CN107977364B/zh
Publication of CN107977364A publication Critical patent/CN107977364A/zh
Application granted granted Critical
Publication of CN107977364B publication Critical patent/CN107977364B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种维语子词切分方法及装置,属于机器翻译技术领域。该方法包括:根据目标维语词语的词向量及目标维语词语中每一字母的字母向量,确定目标维语词语中每一字母对应的标签;根据目标维语词语中每一字母对应的标签,分别确定目标维语词语中词干的边界字母与词缀的边界字母;根据目标维语词语中词干的边界字母确定目标维语词语中的词干,根据目标维语词语中词缀的边界字母确定目标维语词语中的词缀。由于不需要预先进行大量人工标注及归纳工作,从而切分更为便捷且效率更高。另外,由于不需要依赖词干、词缀列表及切分规则,只需基于目标维语词语的词向量及目标维语词语中每一字母的字母向量,即可进行切分,从而适用范围更广。

Description

维语子词切分方法及装置
技术领域
本发明实施例涉及机器翻译技术领域,更具体地,涉及一种维语子词切分方法及装置。
背景技术
目前,维吾尔族在新疆人口中占有很大的比例。新疆地区官方语言是汉语和维语,由于维吾尔语语音特性,维语与汉语之间的语言差异很大,采用人工翻译解决语言沟通障碍,会出现翻译人力不足以及成本限制等问题,而机器翻译作为人工翻译的有益补充,为日常沟通交流提供了另一条途径。一个维语词语是由一个词干缀接多个词缀来表达丰富的语义。例如,对于一个拉丁的维语整词mEmEtNin (买买提的),它是由词干mEmEt和词缀Nin组成。其中,词缀Nin 用来修饰词干,表达词性信息,无实际含义。维语中同一个词干,根据语境的不同可搭配多种不同的词缀。在维汉机器翻译领域,将有着词干、词缀特性的维语整词切分为词干和词缀两个部分,对于翻译模型的压缩和翻译效率的提高起着至关重要的作用。
相关技术中提供了一种基于SRILM-ngram算法的维语子词切分方法,主要是预先搜集大量的维语词语,对每一维语词语的词干与词缀进行人工标注,并分别存储为词干表及词缀表,同时归纳维语子词的切分规则。后续在对维语词语进行切分时,可基于归纳的切分规则,按照词干表及词缀表对该维语词语进行子词切分。
由于对于预先标注过程中未涉及到的维语词语,或者切分规则未覆盖到的维语词语,则无法进行切分,甚至可能会出现将原维语词语直接输出的情况,从而无法高效且准确地切分维语子词。
发明内容
为了解决上述问题,本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的维语子词切分方法及装置。
根据本发明实施例的第一方面,提供了一种维语子词切分方法,该方法包括:
根据目标维语词语的词向量及目标维语词语中每一字母的字母向量,确定目标维语词语中每一字母对应的标签,目标维语词语为待切分的维语词语;
根据目标维语词语中每一字母对应的标签,分别确定目标维语词语中词干的边界字母与词缀的边界字母;
根据目标维语词语中词干的边界字母确定目标维语词语中的词干,根据目标维语词语中词缀的边界字母确定目标维语词语中的词缀。
本发明实施例提供的方法,通过根据目标维语词语的词向量及目标维语词语中每一字母的字母向量,确定目标维语词语中每一字母对应的标签。根据目标维语词语中每一字母对应的标签,分别确定目标维语词语中词干的边界字母与词缀的边界字母。根据目标维语词语中词干的边界字母确定目标维语词语中的词干,根据目标维语词语中词缀的边界字母确定目标维语词语中的词缀。由于在维语子词切分过程中,不需要预先进行大量人工标注及归纳工作,从而切分更为便捷且效率更高。另外,由于不需要依赖词干及词缀列表,且不依赖于切分规则,只需基于目标维语词语的词向量及目标维语词语中每一字母的字母向量,即可进行切分,从而适用范围更广。
结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,根据目标维语词语的词向量及目标维语词语中每一字母的字母向量,确定目标维语词语中每一字母对应的标签,包括:
根据目标维语词语的词向量及目标维语词语中每一字母的字母向量,确定目标维语词语中每一字母的前向表征及反向表征;
将目标维语词语中每一字母的前向表征及反向表征进行拼接,得到每一字母在目标维语词语中的表征向量;
根据预设激活函数及每一字母在目标维语词语中的表征向量,计算每一字母对应的标签预测结果,根据每一字母对应的标签预测结果,确定目标维语词语中每一字母对应的标签。
结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,标签包括子词切分边界标签及非子词切分边界标签;相应地,根据每一字母对应的标签预测结果,确定目标维语词语中每一字母对应的标签,包括:
对于目标维语词语中的任一字母,若任一字母对应的标签预测结果大于0,则确定任一字母对应的标签为子词切分边界标签,若任一字母对应的标签预测结果不大于0,则确定任一字母对应的标签为非子词切分边界标签。
结合第一方面的第三种可能的实现方式,在第四种可能的实现方式中,根据目标维语词语中每一字母对应的标签,分别确定目标维语词语中词干的边界字母与词缀的边界字母,包括:
若任一字母对应的标签为子词切分边界标签、且任一字母之前的字母中每一字母对应的标签均为非子词切分边界标签,则将任一字母及目标维语词语中的第一个字母作为目标维语词语中词干的边界字母;
若任一字母对应的标签为子词切分边界标签、且任一字母之前的字母中存在指定字母,则将任一字母及指定字母作为目标维语词语中词缀的边界字母;其中,指定字母对应的标签为非子词切分边界标签且指定字母的前一个字母对应的标签为子词切分边界标签。
结合第一方面的第一种可能的实现方式,在第五种可能的实现方式中,根据目标维语词语的词向量及目标维语词语中每一字母的字母向量,确定目标维语词语中每一字母对应的标签,包括:
将目标维语词语的词向量及目标维语词语中每一字母的字母向量输入至维语子词切分模型,输出目标维语词语中每一字母对应的标签。
结合第一方面的第五种可能的实现方式,在第六种可能的实现方式中,该方法还包括:将样本维语词语的词向量及样本维语词语中每一字母的字母向量输入至维语子词切分模型,以对样本维语词语中每一字母对应的标签进行预测,输出样本维语词语中每一字母对应预测后的标签;其中,样本维语词语中每一字母均有对应预先标注的标签;根据样本维语词语中每一字母对应预先标注的标签及每一字母对应预测后的标签,对维语子词切分模型中的模型参数进行更新。
结合第一方面的第六种可能的实现方式,在第七种可能的实现方式中,样本维语词语的类型包括人名或地名。
根据本发明实施例的第二方面,提供了一种维语子词切分装置,该装置包括:
第一确定模块,用于根据目标维语词语的词向量及目标维语词语中每一字母的字母向量,确定目标维语词语中每一字母对应的标签,目标维语词语为待切分的维语词语;
第二确定模块,用于根据目标维语词语中每一字母对应的标签,分别确定目标维语词语中词干的边界字母与词缀的边界字母;
第三确定模块,用于根据目标维语词语中词干的边界字母确定目标维语词语中的词干,根据目标维语词语中词缀的边界字母确定目标维语词语中的词缀。
根据本发明实施例的第三方面,提供了一种维语子词切分设备,包括:
至少一个处理器;以及
与处理器通信连接的至少一个存储器,其中:
存储器存储有可被处理器执行的程序指令,处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的维语子词切分方法。
根据本发明的第四方面,提供了一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的维语子词切分方法。
应当理解的是,以上的一般描述和后文的细节描述是示例性和解释性的,并不能限制本发明实施例。
附图说明
图1为本发明实施例的一种维语子词切分方法的流程示意图;
图2为本发明实施例的另一种维语子词切分方法的流程示意图;
图3为本发明实施例的一种维语子词切分模型的结构示意图;
图4为本发明实施例的一种维语子词切分装置的框图;
图5为本发明实施例的一种维语子词切分设备的框图。
具体实施方式
下面结合附图和实施例,对本发明实施例的具体实施方式作进一步详细描述。以下实施例用于说明本发明实施例,但不用来限制本发明实施例的范围。
目前维语子词的切分方式主要是基于SRILM-ngram算法,即通过归纳切分规则、构建词干列表及词缀列表来实现维语子词切分。该方式很大程度上依赖于人工标注的数据,需要花费大量人力进行标注工作和切分规则归纳工作。另外,对于标注过程中未涉及到的词以及词类型,或者切分规则未能涵盖到的词,则无法给出准确的切词结果,甚至可能直接进行整词的原样输出。
针对上述情形,本发明实施例提供了一种维语子词切分方法。参见图1,该方法包括:101、根据目标维语词语的词向量及目标维语词语中每一字母的字母向量,确定目标维语词语中每一字母对应的标签,目标维语词语为待切分的维语词语;102、根据目标维语词语中每一字母对应的标签,分别确定目标维语词语中词干的边界字母与词缀的边界字母;103、根据目标维语词语中词干的边界字母确定目标维语词语中的词干,根据目标维语词语中词缀的边界字母确定目标维语词语中的词缀。
在上述步骤101中,目标维语词语的词向量及目标维语词语中每一字母的字母向量可通过预训练的方式得到。具体地,可预先对大量样本维语词语进行训练,得到每一样本维语词语的词向量及每一样本维语词语中每一字母的字母向量。当获取到目标维语词语时,可从样本维语词语中查找该目标维语词语,若该目标维语词语之前被训练过,则可直接得到该目标维语词语的词向量及该目标维语词语中每一字母的字母向量。若该目标维语词语之前没有被训练过,则可通过Word2Vec 技术得到该目标维语词语的词向量及该目标维语词语中每一字母的字母向量,本发明实施例对此不作具体限定。
需要说明的是,由于后续还需要对目标维语词语进行维语子词切分,若将维语子词切分作为一个功能模块,则上述通过预训练的方式得到该目标维语词语相关向量的功能,可以集成至维语子词切分功能模块中,也可以独立存在,本发明实施例对此不作具体限定。
在得到目标维语词语的词向量及目标维语词语中每一字母的字母向量之后,可根据目标维语词语的词向量及目标维语词语中每一字母的字母向量,确定目标维语词语中每一字母对应的标签。由于维语词语主要由一个词干及若干个词缀组成,词干或词缀均为维语词语中一串连续的字母,而标签可以标示维语词语中每一字母是否为词干或词缀中的最后一个字母,从而根据目标维语词语中每一字母对应的标签,可分别确定目标维语词语中词干的边界字母与词缀的边界字母。其中,标签的形式可以为布尔值,也可以预设自定义的标识,本发明实施例对此不作具体限定。
在分别确定目标维语词语中词干的边界字母与词缀的边界字母之后,由于词干与词缀的边界字母均已确定,从而按照边界字母对目标维语词语进行切分,即可确定目标维语词语中的词干及词缀。
本发明实施例提供的方法,通过根据目标维语词语的词向量及目标维语词语中每一字母的字母向量,确定目标维语词语中每一字母对应的标签。根据目标维语词语中每一字母对应的标签,分别确定目标维语词语中词干的边界字母与词缀的边界字母。根据目标维语词语中词干的边界字母确定目标维语词语中的词干,根据目标维语词语中词缀的边界字母确定目标维语词语中的词缀。由于在维语子词切分过程中,不需要预先进行大量人工标注及归纳工作,从而切分更为便捷且效率更高。另外,由于不需要依赖词干及词缀列表,且不依赖于切分规则,只需基于目标维语词语的词向量及目标维语词语中每一字母的字母向量,即可进行切分,从而适用范围更广。
基于上述实施例的内容,从造词的角度上考虑,维语词语中每一字母之间通常会有联系,从而作为一种可选实施例,本发明实施例还提供了一种基于定词环境,确定目标维语词语中每一字母对应的标签的方法。参见图2,该方法包括:1011、根据目标维语词语的词向量及目标维语词语中每一字母的字母向量,确定目标维语词语中每一字母的前向表征及反向表征;1012、将目标维语词语中每一字母的前向表征及反向表征进行拼接,得到每一字母在目标维语词语中的表征向量; 1013、根据预设激活函数及每一字母在目标维语词语中的表征向量,计算每一字母对应的标签预测结果,根据每一字母对应的标签预测结果,确定目标维语词语中每一字母对应的标签。
具体地,对于目标维语词语中的第i个字母,可通过前向长短期记忆(Long Short-Term Memory,LSTM)神经网络得到第i个字母在看到历史字母信息下的前向表征
Figure BDA0001535304050000071
通过反向LSTM神经网络得到第i 个字母在看到未来字母信息下的反向表征
Figure BDA0001535304050000072
将第i个字母的前向表征
Figure BDA0001535304050000073
及反向表征
Figure BDA0001535304050000074
进行拼接,即可得到第i个字母在目标维语词语中的表征向量hi。在得到第i个字母在目标维语词语中的表征向量hi后,可根据第i个字母在目标维语词语中的表征向量hi及预设激活函数,可得到第i个字母对应的标签预测结果。
其中,激活函数可以为sigmoid函数,本发明实施例对此不作具体限定。在得到第i个字母对应的标签预测结果后,可根据第i个字母对应的标签预测结果,确定目标维语词语中第i个字母对应的标签。其中,标签包括子词切分边界标签及非子词切分边界标签,本发明实施例对此不作具体限定。相应地,本发明实施例还提供了一种根据每一字母对应的标签预测结果,确定目标维语词语中每一字母对应的标签的方法,该方法包括:对于目标维语词语中的任一字母,若该字母对应的标签预测结果大于0,则确定该字母对应的标签为子词切分边界标签,若该字母对应的标签预测结果不大于0,则确定该字母对应的标签为非子词切分边界标签。
具体地,以激活函数为sigmoid函数、标签包括子词切分边界标签及非子词切分边界标签、子词切分边界标签用1来表示且非子词切分边界标签用0来表示(也即通过布尔值进行表示)为例,相应地,sigmoid 函数输出标签的过程可参考如下公式:
Figure BDA0001535304050000081
在上述公式中,ti表示第i个字母通过sigmoid函数后的标签预测结果,hi表示第i个字母的表征向量。w为预设的参数矩阵,可通过预训练的方式得到。当第i个字母通过sigmoid函数后的标签预测结果ti>0时,则可将ti重置为1,即将第i个字母对应的标签确定为子词切分边界标签。当第i个字母通过sigmoid函数后的标签预测结果ti≤0时,则可将ti重置为0,即将第i个字母对应的标签确定为非子词切分边界标签。
本发明实施例提供的方法,通过根据目标维语词语的词向量及目标维语词语中每一字母的字母向量,确定目标维语词语中每一字母的前向表征及反向表征。将目标维语词语中每一字母的前向表征及反向表征进行拼接,得到每一字母在目标维语词语中的表征向量。根据预设激活函数及每一字母在目标维语词语中的表征向量,计算每一字母对应的标签预测结果,根据每一字母对应的标签预测结果,确定目标维语词语中每一字母对应的标签。由于结合了每一字母在目标维语词语中的定词环境,从而能够更准确地确定目标维语词语中每一字母对应的标签。
基于上述实施例的内容,作为一种可选实施例,本发明实施例还提供了一种分别确定目标维语词语中词干的边界字母与词缀的边界字母的方法,该方法包括:若任一字母对应的标签为子词切分边界标签、且任一字母之前的字母中每一字母对应的标签均为非子词切分边界标签,则将任一字母及目标维语词语中的第一个字母作为目标维语词语中词干的边界字母;若任一字母对应的标签为子词切分边界标签、且任一字母之前的字母中存在指定字母,则将任一字母及指定字母作为目标维语词语中词缀的边界字母;其中,指定字母对应的标签为非子词切分边界标签且指定字母的前一个字母对应的标签为子词切分边界标签。
具体地,以目标维语词语为“mEmEtNin”、标签包括子词切分边界标签及非子词切分边界标签,且子词切分边界标签及非子词切分边界标签分别用1、0表示为例。基于上述过程,可确定目标维语词语为“mEmEtNin”中每一字母对应的标签可具体为:“m/0、E/0、m/0、E/0、 t/1、N/0、i/0、n/1”为例。需要说明的是,鉴于目标维语词语中第一个字母与最后一个字母的特殊性,两者可存在对应的标签,也可不存在对应的标签,本发明实施例对此不作具体限定。
对于“mEmEtNin”中的第5个字母“t”,由于第5个字母对应的标签为子词切分边界标签1、且第5个字母之前的字母中每一字母对应的标签均为非子词切分边界标签0,从而可将第5个字母“t”及第1个字母“m”作为目标维语词语中词干的边界字母。
对于“mEmEtNin”中的最后一个字母“n”,由于最后一个字母对应的标签为子词切分边界标签1、且最后一个字母之前存在指定字母“N”,从而可将最后一个字母“n”及指定字母“N”作为目标维语词语中词缀的边界字母。其中,指定字母“N”对应的标签为非子词切分边界标签0且指定字母“N”的前一个字母“t”对应的标签为子词切分边界标签 1。
基于上述实施例的内容,作为一种可选实施例,上述确定目标维语词语中每一字母对应的标签的过程,还可通过训练模型实现。相应地,本发明实施例不对根据目标维语词语的词向量及目标维语词语中每一字母的字母向量,确定目标维语词语中每一字母对应的标签的方式作具体限定,该方法包括:将目标维语词语的词向量及目标维语词语中每一字母的字母向量输入至维语子词切分模型,输出目标维语词语中每一字母对应的标签。
其中,维语子切分模型可通过预先训练过程得到。另外,由上述实施例内容可知,若将维语子词切分作为一个功能模块,则上述通过预训练的方式得到该目标维语词语相关向量的功能,可以集成至维语子词切分功能模块中,也可以独立存在。因此,上述通过预训练的方式得到该目标维语词语相关向量的功能,还可集成至维语子切分模型中。相应地,可通过与维语子切分模型进行联合训练的方式获取词向量及字母向量,本发明实施例对此不作具体限定。
基于上述实施例的内容,本发明实施例还提供了一种训练或者更新维语子切分模型的方法,该方法包括:将样本维语词语的词向量及样本维语词语中每一字母的字母向量输入至维语子词切分模型,以对样本维语词语中每一字母对应的标签进行预测,输出样本维语词语中每一字母对应预测后的标签;其中,样本维语词语中每一字母均有对应预先标注的标签;根据样本维语词语中每一字母对应预先标注的标签及每一字母对应预测后的标签,对维语子词切分模型中的模型参数进行更新。
其中,上述方式可用于训练初始维语子词切分模型,也可以用于更新维语子词切分模型,本发明实施例对此不作具体限定。若上述过程为训练初始维语子词切分模型的过程,则在基于预先标注字母标签的样本维语词语,对初始维语子词切分模型中的模型参数进行初始训练,以得到维语子词切分模型后,可将没有预先标注字母标签的样本维语词语输入至维语子词切分模型,输出样本维语词语中字母对应的标签。将输出的标签作为没有预先标注字母标签样本的自动标注结果,从而可得到大量带有标签的样本数据,具体包括有预先标注字母标签的样本维语词语和没有预先标注字母标签的样本维语词语,再利用这些样本维语词语,依据样本维语词语的自动标注结果及人工标注结果对维语子词切分模型进行再次训练。从而使得后续切分结果越来越准确。
需要说明的是,利用初始维语子词切分模型对没有预先标注字母标签的样本维语词语预测得到的自动标注结果,可以由人工检查标注的准确性后,再与带有预先标注字母标签的样本维语词语一起对维语子词切分模型进行再次训练,从而进一步地提高切分结果的精准性。
另外,如图3所示,上述维语子词切分模型的拓扑结构包括划分可分为如下三层:输入层、信息表示层及输出层。具体地,输入层,用于输入维语词语的词向量及维语词语中每一字母的字母向量;信息表示层,用于确定每一字母在维语词语中的表征向量;输出层,用于根据每一字母在维语词语中的表征向量,确定并输出维语词语中每一字母对应的标签。在图3中,输入层主要用于输入词向量及字母向量, c1、c2…cn分别表示维语词语中每一字母的字母向量。信息表示层主要用于确定每一字母在维语词语中的表征向量,并将每一字母在维语词语中的表征向量传输至输出层。输出层主要用于根据每一字母在维语词语中的表征向量及参数矩阵w,确定并输出维语词语中每一字母对应的标签。其中,输入层、信息表示层及输出层对应的具体处理方式,可参考上述实施例的内容,此处不再赘述。
基于上述实施例的内容,考虑到维语中经常会出现人名及地名,为了提升对该类型维语词语的切分效果,作为一种可选实施例,样本维语词语的类型包括人名或地名。也即,在对维语子词切分模型进行训练时,可将人名或地名作为输入参数。
需要说明的是,上述所有可选实施例,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
基于上述实施例的内容,本发明实施例提供了一种维语子词切分装置,该维语子词切分装置用于执行上述方法实施例中的维语子词切分方法。参见图4,该装置包括:
第一确定模块401,用于根据目标维语词语的词向量及目标维语词语中每一字母的字母向量,确定目标维语词语中每一字母对应的标签,目标维语词语为待切分的维语词语;
第二确定模块402,用于根据目标维语词语中每一字母对应的标签,分别确定目标维语词语中词干的边界字母与词缀的边界字母;
第三确定模块403,用于根据目标维语词语中词干的边界字母确定目标维语词语中的词干,根据目标维语词语中词缀的边界字母确定目标维语词语中的词缀。
作为一种可选实施例,第一确定模块401,包括:
第一确定单元,用于根据目标维语词语的词向量及目标维语词语中每一字母的字母向量,确定目标维语词语中每一字母的前向表征及反向表征;
拼接单元,用于将目标维语词语中每一字母的前向表征及反向表征进行拼接,得到每一字母在目标维语词语中的表征向量;
第二确定单元,用于根据预设激活函数及每一字母在目标维语词语中的表征向量,计算每一字母对应的标签预测结果,根据每一字母对应的标签预测结果,确定目标维语词语中每一字母对应的标签。
作为一种可选实施例,标签包括子词切分边界标签及非子词切分边界标签;相应地,第二确定单元,用于对于目标维语词语中的任一字母,若任一字母对应的标签预测结果大于0,则确定任一字母对应的标签为子词切分边界标签,若任一字母对应的标签预测结果不大于0,则确定任一字母对应的标签为非子词切分边界标签。
作为一种可选实施例,第二确定模块402,用于当任一字母对应的标签为子词切分边界标签、且任一字母之前的字母中每一字母对应的标签均为非子词切分边界标签时,则将任一字母及目标维语词语中的第一个字母作为目标维语词语中词干的边界字母;若任一字母对应的标签为子词切分边界标签、且任一字母之前的字母中存在指定字母,则将任一字母及指定字母作为目标维语词语中词缀的边界字母;其中,指定字母对应的标签为非子词切分边界标签且指定字母的前一个字母对应的标签为子词切分边界标签。
作为一种可选实施例,第一确定模块401,用于将目标维语词语的词向量及目标维语词语中每一字母的字母向量输入至维语子词切分模型,输出目标维语词语中每一字母对应的标签。
作为一种可选实施例,该装置还包括:
切分模块,用于将样本维语词语的词向量及样本维语词语中每一字母的字母向量输入至维语子词切分模型,以对样本维语词语中每一字母对应的标签进行预测,输出样本维语词语中每一字母对应预测后的标签;其中,样本维语词语中每一字母均有对应预先标注的标签;
更新模块,用于根据样本维语词语中每一字母对应预先标注的标签及每一字母对应预测后的标签,对维语子词切分模型中的模型参数进行更新。
作为一种可选实施例,样本维语词语的类型包括人名或地名。
本发明实施例提供的装置,通过根据目标维语词语的词向量及目标维语词语中每一字母的字母向量,确定目标维语词语中每一字母对应的标签。根据目标维语词语中每一字母对应的标签,分别确定目标维语词语中词干的边界字母与词缀的边界字母。根据目标维语词语中词干的边界字母确定目标维语词语中的词干,根据目标维语词语中词缀的边界字母确定目标维语词语中的词缀。由于在维语子词切分过程中,不需要预先进行大量人工标注及归纳工作,从而切分更为便捷且效率更高。另外,由于不需要依赖词干及词缀列表,且不依赖于切分规则,只需基于目标维语词语的词向量及目标维语词语中每一字母的字母向量,即可进行切分,从而适用范围更广。
另外,通过根据目标维语词语的词向量及目标维语词语中每一字母的字母向量,确定目标维语词语中每一字母的前向表征及反向表征。将目标维语词语中每一字母的前向表征及反向表征进行拼接,得到每一字母在目标维语词语中的表征向量。根据预设激活函数及每一字母在目标维语词语中的表征向量,计算每一字母对应的标签预测结果,根据每一字母对应的标签预测结果,确定目标维语词语中每一字母对应的标签。由于结合了每一字母在目标维语词语中的定词环境,从而能够更准确地确定目标维语词语中每一字母对应的标签。
最后,通过将样本维语词语的词向量及样本维语词语中每一字母的字母向量输入至维语子词切分模型,以对样本维语词语中每一字母对应的标签进行预测,输出样本维语词语中每一字母对应预测后的标签。根据样本维语词语中每一字母对应预先标注的标签及每一字母对应预测后的标签,对维语子词切分模型中的模型参数进行更新。由于可反复对维语子词切分模型进行训练更新,从而可使得维语子词切分模型的切分结果越来越准确。
本发明实施例提供了一种维语子词切分设备。参见图5,该设备包括:处理器(processor)501、存储器(memory)502和总线503;
其中,处理器501及存储器502分别通过总线503完成相互间的通信;
处理器501用于调用存储器502中的程序指令,以执行上述实施例所提供的维语子词切分方法,例如包括:根据目标维语词语的词向量及目标维语词语中每一字母的字母向量,确定目标维语词语中每一字母对应的标签,目标维语词语为待切分的维语词语;根据目标维语词语中每一字母对应的标签,分别确定目标维语词语中词干的边界字母与词缀的边界字母;根据目标维语词语中词干的边界字母确定目标维语词语中的词干,根据目标维语词语中词缀的边界字母确定目标维语词语中的词缀。
本发明实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令使计算机执行上述实施例所提供的维语子词切分方法,例如包括:根据目标维语词语的词向量及目标维语词语中每一字母的字母向量,确定目标维语词语中每一字母对应的标签,目标维语词语为待切分的维语词语;根据目标维语词语中每一字母对应的标签,分别确定目标维语词语中词干的边界字母与词缀的边界字母;根据目标维语词语中词干的边界字母确定目标维语词语中的词干,根据目标维语词语中词缀的边界字母确定目标维语词语中的词缀。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的维语子词切分设备等实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分方法。
最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明实施例的保护范围。凡在本发明实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (10)

1.一种维语子词切分方法,其特征在于,包括:
获取目标维语词语的词向量及所述目标维语词语中每一字母的字母向量;
根据目标维语词语的词向量及所述目标维语词语中每一字母的字母向量,确定所述目标维语词语中每一字母对应的标签,所述标签用于标示所述目标维语词语中每一字母是否为词干或词缀中的最后一个字母,所述目标维语词语为待切分的维语词语;
根据所述目标维语词语中每一字母对应的标签,分别确定所述目标维语词语中词干的边界字母与词缀的边界字母;
根据所述目标维语词语中词干的边界字母确定所述目标维语词语中的词干,根据所述目标维语词语中词缀的边界字母确定所述目标维语词语中的词缀。
2.根据权利要求1所述的方法,其特征在于,所述根据目标维语词语的词向量及所述目标维语词语中每一字母的字母向量,确定所述目标维语词语中每一字母对应的标签,包括:
根据所述目标维语词语的词向量及所述目标维语词语中每一字母的字母向量,确定所述目标维语词语中每一字母的前向表征及反向表征;
将所述目标维语词语中每一字母的前向表征及反向表征进行拼接,得到每一字母在所述目标维语词语中的表征向量;
根据预设激活函数及每一字母在所述目标维语词语中的表征向量,计算每一字母对应的标签预测结果,根据每一字母对应的标签预测结果,确定所述目标维语词语中每一字母对应的标签。
3.根据权利要求2所述的方法,其特征在于,所述标签包括子词切分边界标签及非子词切分边界标签;相应地,所述根据每一字母对应的标签预测结果,确定所述目标维语词语中每一字母对应的标签,包括:
对于所述目标维语词语中的任一字母,若所述任一字母对应的标签预测结果大于0,则确定所述任一字母对应的标签为子词切分边界标签,若所述任一字母对应的标签预测结果不大于0,则确定所述任一字母对应的标签为非子词切分边界标签。
4.根据权利要求3所述的方法,其特征在于,所述根据所述目标维语词语中每一字母对应的标签,分别确定所述目标维语词语中词干的边界字母与词缀的边界字母,包括:
若所述任一字母对应的标签为子词切分边界标签、且所述任一字母之前的字母中每一字母对应的标签均为非子词切分边界标签,则将所述任一字母及所述目标维语词语中的第一个字母作为所述目标维语词语中词干的边界字母;
若所述任一字母对应的标签为子词切分边界标签、且所述任一字母之前的字母中存在指定字母,则将所述任一字母及所述指定字母作为所述目标维语词语中词缀的边界字母;其中,所述指定字母对应的标签为非子词切分边界标签且所述指定字母的前一个字母对应的标签为子词切分边界标签。
5.根据权利要求1所述的方法,其特征在于,所述根据目标维语词语的词向量及所述目标维语词语中每一字母的字母向量,确定所述目标维语词语中每一字母对应的标签,包括:
将所述目标维语词语的词向量及所述目标维语词语中每一字母的字母向量输入至维语子词切分模型,输出所述目标维语词语中每一字母对应的标签。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
将样本维语词语的词向量及所述样本维语词语中每一字母的字母向量输入至所述维语子词切分模型,以对所述样本维语词语中每一字母对应的标签进行预测,输出所述样本维语词语中每一字母对应预测后的标签;其中,所述样本维语词语中每一字母均有对应预先标注的标签;
根据所述样本维语词语中每一字母对应预先标注的标签及每一字母对应预测后的标签,对所述维语子词切分模型中的模型参数进行更新。
7.根据权利要求6所述的方法,其特征在于,所述样本维语词语的类型包括人名或地名。
8.一种维语子词切分装置,其特征在于,包括:
第一确定模块,用于根据目标维语词语的词向量及所述目标维语词语中每一字母的字母向量,确定所述目标维语词语中每一字母对应的标签,所述标签用于标示所述目标维语词语中每一字母是否为词干或词缀中的最后一个字母,所述目标维语词语为待切分的维语词语;
第二确定模块,用于根据所述目标维语词语中每一字母对应的标签,分别确定所述目标维语词语中词干的边界字母与词缀的边界字母;
第三确定模块,用于根据所述目标维语词语中词干的边界字母确定所述目标维语词语中的词干,根据所述目标维语词语中词缀的边界字母确定所述目标维语词语中的词缀;
所述第一确定模块还用于获取目标维语词语的词向量及所述目标维语词语中每一字母的字母向量。
9.一种维语子词切分设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。
CN201711489210.1A 2017-12-30 2017-12-30 维语子词切分方法及装置 Active CN107977364B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711489210.1A CN107977364B (zh) 2017-12-30 2017-12-30 维语子词切分方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711489210.1A CN107977364B (zh) 2017-12-30 2017-12-30 维语子词切分方法及装置

Publications (2)

Publication Number Publication Date
CN107977364A CN107977364A (zh) 2018-05-01
CN107977364B true CN107977364B (zh) 2022-02-25

Family

ID=62005503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711489210.1A Active CN107977364B (zh) 2017-12-30 2017-12-30 维语子词切分方法及装置

Country Status (1)

Country Link
CN (1) CN107977364B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325243B (zh) * 2018-10-22 2022-11-22 内蒙古大学 字符级基于序列模型的蒙古文切词方法及其切词系统
CN109871537B (zh) * 2019-01-31 2022-12-27 沈阳雅译网络技术有限公司 一种高精度的泰语分句方法
CN110688853B (zh) * 2019-08-12 2022-09-30 平安科技(深圳)有限公司 序列标注方法、装置、计算机设备和存储介质
CN111428509B (zh) * 2020-03-05 2020-12-22 北京一览群智数据科技有限责任公司 一种基于拉丁字母的维吾尔语处理方法和系统
CN113158693A (zh) * 2021-03-13 2021-07-23 中国科学院新疆理化技术研究所 基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质
CN116384414A (zh) * 2021-12-20 2023-07-04 中兴通讯股份有限公司 机器翻译方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103700367A (zh) * 2013-11-29 2014-04-02 安徽科大讯飞信息科技股份有限公司 实现黏着语文本韵律短语划分的方法及系统
CN104239295A (zh) * 2014-09-10 2014-12-24 华建宇通科技(北京)有限责任公司 维汉翻译系统的多层次维语词法分析方法
CN104933039A (zh) * 2015-06-04 2015-09-23 中国科学院新疆理化技术研究所 面向资源缺乏语言的实体链接系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080300861A1 (en) * 2007-06-04 2008-12-04 Ossama Emam Word formation method and system
CN103902523A (zh) * 2012-12-28 2014-07-02 新疆电力信息通信有限责任公司 维吾尔语句子相似度计算方法
CN103902522A (zh) * 2012-12-28 2014-07-02 新疆电力信息通信有限责任公司 维吾尔语词干提取方法
CN103902525B (zh) * 2012-12-28 2016-09-21 国网新疆电力公司信息通信公司 维吾尔语词性标注方法
CN107506345A (zh) * 2016-06-14 2017-12-22 科大讯飞股份有限公司 语言模型的构建方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103700367A (zh) * 2013-11-29 2014-04-02 安徽科大讯飞信息科技股份有限公司 实现黏着语文本韵律短语划分的方法及系统
CN104239295A (zh) * 2014-09-10 2014-12-24 华建宇通科技(北京)有限责任公司 维汉翻译系统的多层次维语词法分析方法
CN104933039A (zh) * 2015-06-04 2015-09-23 中国科学院新疆理化技术研究所 面向资源缺乏语言的实体链接系统

Also Published As

Publication number Publication date
CN107977364A (zh) 2018-05-01

Similar Documents

Publication Publication Date Title
CN107977364B (zh) 维语子词切分方法及装置
US11403680B2 (en) Method, apparatus for evaluating review, device and storage medium
CN108959242B (zh) 一种基于中文字符词性特征的目标实体识别方法及装置
CN106547737B (zh) 基于深度学习的自然语言处理中的序列标注方法
CN110705294A (zh) 命名实体识别模型训练方法、命名实体识别方法及装置
CN111310440B (zh) 文本的纠错方法、装置和系统
CN110222330B (zh) 语义识别方法及装置、存储介质、计算机设备
CN109471915A (zh) 一种文本评价方法、装置、设备以及可读存储介质
CN112860871B (zh) 自然语言理解模型训练方法、自然语言理解方法及装置
CN111414757A (zh) 一种文本识别方法及装置
CN113326702B (zh) 语义识别方法、装置、电子设备及存储介质
CN112633001A (zh) 文本命名实体识别方法、装置、电子设备及存储介质
CN113836303A (zh) 一种文本类别识别方法、装置、计算机设备及介质
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
JP2019144706A (ja) 関係性推定モデル学習装置、方法、及びプログラム
CN111597302B (zh) 文本事件的获取方法、装置、电子设备及存储介质
CN113934834A (zh) 一种问句匹配的方法、装置、设备和存储介质
CN107783958B (zh) 一种目标语句识别方法及装置
CN114970666B (zh) 一种口语处理方法、装置、电子设备及存储介质
CN114528851B (zh) 回复语句确定方法、装置、电子设备和存储介质
CN111241843A (zh) 基于复合神经网络的语义关系推断系统和方法
CN116304014A (zh) 训练实体类型识别模型的方法、实体类型识别方法及装置
CN115130475A (zh) 一种可扩展的通用端到端命名实体识别方法
CN114154497A (zh) 语病识别方法、装置、电子设备和存储介质
CN114676705A (zh) 一种对话关系处理方法、计算机及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant