CN111814433B - 一种维吾尔语实体识别的方法、装置和电子设备 - Google Patents

一种维吾尔语实体识别的方法、装置和电子设备 Download PDF

Info

Publication number
CN111814433B
CN111814433B CN202010840349.1A CN202010840349A CN111814433B CN 111814433 B CN111814433 B CN 111814433B CN 202010840349 A CN202010840349 A CN 202010840349A CN 111814433 B CN111814433 B CN 111814433B
Authority
CN
China
Prior art keywords
affix
entity
uygur
latin
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010840349.1A
Other languages
English (en)
Other versions
CN111814433A (zh
Inventor
钱泓锦
刘占亮
窦志成
刘家俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhiyuan Artificial Intelligence Research Institute
Original Assignee
Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhiyuan Artificial Intelligence Research Institute filed Critical Beijing Zhiyuan Artificial Intelligence Research Institute
Priority to CN202010840349.1A priority Critical patent/CN111814433B/zh
Publication of CN111814433A publication Critical patent/CN111814433A/zh
Application granted granted Critical
Publication of CN111814433B publication Critical patent/CN111814433B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/16Automatic learning of transformation rules, e.g. from examples
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种维吾尔语实体识别的方法、装置和电子设备。方法包括:将待识别的维吾尔语语句中的字符转换为拉丁字母,得到待识别的维吾尔语语句的拉丁字母表示形式;将拉丁字母表示形式输入到预先训练的字符级语言模型中,提取所述待识别的维吾尔语语句的语义特征;将所述语义特征输入到预先训练的实体识别模型中,得到所述待识别的维吾尔语语句的初步实体识别结果;从所述初步实体识别结果中提取实体词;对所述实体词进行去词缀处理,得到最终实体识别结果。本发明能够有效避免维吾尔字符变形带来的语义特征提取的复杂度,完全解决了维吾尔语词级别语言模型的缺陷。

Description

一种维吾尔语实体识别的方法、装置和电子设备
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种维吾尔语实体识别的方法、装置和电子设备。
背景技术
命名实体(named entity)是人名、机构名、地名以及其他所有以名称为标识的实体。更广泛的实体还包括数字、日期、货币、地址等等。命名实体识别(named entityrecognition,NER),又称作专名识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。
维吾尔语被广泛地应用在广播、电视和出版物等各个领域中。
现行维吾尔文有32个字母,每个字母按出现在词首、词中、词末的位置有不同的形式。字母表中的单式除代表该字母的独立形式外,一般出现在词末的不可连字母之后。前式出现在词首可连字母之前,中式出现在词中两个可连字母中间,末式出现在词末可连字母之后,有些字母只有单式和末式。这样维吾尔文32个字母实际共有126种写法。另外,维吾尔语是黏着语,词的构成是由词根和一个或多个词缀构成。词缀又根据其位置和作用的不同分为构词词缀、构型词缀、派生词缀、从属词缀等多种。词缀的数量高达数千种。这样的语言特性也使得维吾尔语的词汇变化万千,给命名实体抽取带来难度。
目前,对维吾尔语的命名实体抽取主要有以下一些方法:
(1)基于规则匹配;
(2)结合规则匹配和统计模型;
(3)利用深度学习模型。
其中,基于规则匹配和统计模型的方法受限于方法本身缺陷,识别效果较差,且泛化能力较差;使用深度学习模型进行维吾尔语实体识别的方法多是基于静态词向量的,很难解决诸如维吾尔语的黏着语系的诸多语言学特性带来的问题,比如实体抽取的方法是词粒度的,忽略了维吾尔语词缀和词根的关系,识别效果较差。
发明内容
为了解决上述问题,本发明的第一方面提供了一种维吾尔语实体识别的方法,包括:
将待识别的维吾尔语语句中的字符转换为拉丁字母,得到待识别的维吾尔语语句的拉丁字母表示形式;
将拉丁字母表示形式输入到预先训练的字符级语言模型中,提取所述待识别的维吾尔语语句的语义特征;
将所述语义特征输入到预先训练的实体识别模型中,得到所述待识别的维吾尔语语句的初步实体识别结果;
从所述初步实体识别结果中提取实体词;
对所述实体词进行去词缀处理,得到最终实体识别结果。
优选地,所述字符级语言模型和实体识别模型是通过如下步骤训练得到的:
获取包括维吾尔语语句的维吾尔语语料;
将维吾尔语语句中的字符转换为拉丁字母,得到拉丁字母语料;
利用所述拉丁字母语料训练得到所述字符级语言模型和实体识别模型。
优选地,通过预先建立的字典将维吾尔语语句中的字符转换为拉丁字母,所述字典包括维吾尔语字符和拉丁字母的对应映射关系。
优选地,所述利用所述拉丁字母语料训练得到所述字符级语言模型和实体识别模型包括:
基于所述拉丁字母语料训练得到所述字符级语言模型;
利用所述训练的字符级语言模型根据所述拉丁字母语料获得词向量语料;
利用所述词向量语料训练得到所述实体识别模型。
优选地,所述从所述初步实体识别结果中提取实体词,包括:
对所述初步实体识别结果的文本序列X,按照如下公式计算其中所有可能的标签序列的得分,选取得分最高的标签序列y∗:
Figure 214519DEST_PATH_IMAGE001
式中,
Figure 910074DEST_PATH_IMAGE002
表示所有可能的标签序列,
Figure 59295DEST_PATH_IMAGE003
表示其中一个可能的标签序列,
Figure 814893DEST_PATH_IMAGE004
表示标签序列的得分计算公式;
将所述得分最高的标签序列中与实体标签对应的词抽取出来,得到实体词。
优选地,所述对所述实体词进行去词缀处理,得到最终实体识别结果,包括:
将所述实体词的词缀与预设的词缀和字母进行匹配,以判断所述实体词的词缀是否为多余词缀;
如果为多余词缀,则对所述多余词缀进行去词缀处理,得到最终实体识别结果;
如果不为多余词缀,则将所述实体词作为最终实体识别结果。
优选地,所述对所述多余词缀进行去词缀处理之后,还包括:
判断去词缀处理之后的实体词是否完整;
如果不完整,则根据启发式规则补全所述实体词的字符。
本发明的第二方面提供了一种维吾尔语实体识别的装置,包括:
拉丁字母转换模块,用于将待识别的维吾尔语语句中的字符对应转换为拉丁字母,得到待识别的维吾尔语语句的拉丁字母表示形式;
语义特征提取模块,用于将拉丁字母表示形式输入到预先训练的字符级语言模型中,提取所述待识别的维吾尔语语句的语义特征;
初步实体识别模块,用于将所述语义特征输入到预先训练的实体识别模型中,得到所述待识别的维吾尔语语句的初步实体识别结果;
实体词提取模块,用于从所述初步实体识别结果中提取实体词;
去词缀处理模块,用于对所述实体词进行去词缀处理,得到最终实体识别结果。
本发明的第三方面提供了一种存储器,存储有多条指令,所述指令用于实现上述的方法。
本发明的第四方面提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行上述的方法。
本发明的有益效果是:本发明实施例提供的维吾尔语实体识别的方法、装置,考虑阿拉伯语系各种语言的拉丁字母映射关系,将维吾尔语语句中的字符先转化为拉丁字母,再利用语言模型进行语义特征提取,有效避免了维吾尔字符变形带来的语义特征提取的复杂度;由于维吾尔语自身特性,词干和词缀组合繁多,词汇量极大,基于词级别的语言模型很难训练以及语义特征提取,本发明基于字符级别的语言模型进行训练和语义特征提取,完全解决了维吾尔语词级别语言模型的缺陷;而且,本发明中对于提取出来的实体词,去除多余词缀,还原词根,获得的实体准确,识别效果好。
附图说明
图1为本发明所述维吾尔语实体识别的方法流程示意图;
图2为本发明所述维吾尔语语句的字符转换为拉丁字母表示形式的示例示意图;
图3为本发明所述语言模型的训练流程示意图;
图4为本发明所述词向量生成过程的示例示意图;
图5为本发明所述实体词的去词缀处理的示例示意图;
图6为本发明所述维吾尔语实体识别的装置结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器可用于存储指令、程序、代码、代码集或指令。
显示屏用于显示各个应用程序的用户界面。
除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
实施例一
如图1所示,本发明实施例提供了一种维吾尔语实体识别的方法,包括:
S101,将待识别的维吾尔语语句中的字符转换为拉丁字母,得到待识别的维吾尔语语句的拉丁字母表示形式;
S102,将拉丁字母表示形式输入到预先训练的字符级语言模型中,提取所述待识别的维吾尔语语句的语义特征;
S103,将所述语义特征输入到预先训练的实体识别模型中,得到所述待识别的维吾尔语语句的初步实体识别结果;
S104,从所述初步实体识别结果中提取实体词;
S105,对所述实体词进行去词缀处理,得到最终实体识别结果。
上述方法中,通过考虑阿拉伯语系各种语言的拉丁字母映射关系,将维吾尔语语句中的字符先转化为拉丁字母,从而将维吾尔语文本序列转换为拉丁字母表示的文本序列,则在进行语言模型的训练以及利用语言模型进行语义特征提取时,有效避免了由于维吾尔语字符万千变形造成的语言模型的复杂度,简化了执行过程,提高了准确度;而且,上述方法中,考虑到维吾尔语中词干和词缀组合繁多,词汇量极大的问题,如果采用词级别的语言模型,其训练和语义特征提取过程困难,所以,本发明采用了字符级的语言模型,完全解决了上述缺陷;另外,在维吾尔语中,同一词干与不同词缀组合语义上有很强的相似性,而维吾尔语中的实体词可能只是单词的一部分,采用现有技术的实体识别方法获得的实体词往往存在多余词缀,本发明提供的上述方法在得到初步的实体识别结果后,进行了进一步的处理:从初步的实体识别结果中提取实体词,并去除词缀,还原词干,获得了准确的实体词,因此,识别效果好。
在步骤S101中,通过预先建立的字典将待识别的维吾尔语语句中的字符转换为拉丁字母,得到待识别的维吾尔语语句的拉丁字母表示形式。本发明中,考虑阿拉伯语系各种语言的拉丁字母映射关系,根据维吾尔语字符和拉丁字母的映射关系,预先建立了字典,其中包括常见的拉丁字母,常见标点符号、数字,不在字典中的字符可以当作未知字符(unk)处理。在实际应用过程中,首先获取待识别的维吾尔语语句,然后根据该预先建立的字典中包括的维吾尔语字符和拉丁字母的映射关系,将维吾尔语字符转换为拉丁字母。其中,由于维吾尔语字符与拉丁字母是一一对应关系,所以,待识别的维吾尔语语句中包括多少个字符,转换后就得到多少个拉丁字母。而且,转换后的拉丁字母形式的语句与待识别的维吾尔语语句中包括的单词数也对应一致,语句的结构也对应一致,比如空格的位置,标点符号等都对应一致。只是将维吾尔语字符用拉丁字母表示出来。比如,如图2中,维吾尔语语句转换为拉丁字母形式的示例。
在本发明实施例中,字典可以基于拉丁维文建立。拉丁维文是于2000年发起的一套文字,使用较为标准的拉丁字母且能和维吾尔语较好对应。
在拉丁维文中,存在例如“zh”、“sh”这样的双字母表示,这种表示方法对于字符级语言模型容易产生歧义。因此,在该步骤中,为了解决该问题,对于将维吾尔语语句中的字符转换为拉丁字母后出现的例如“zh”、“sh”这样的双字母表示,使用土耳其字母代替。
由于维吾尔语的每个字母按出现在词首、词中、词末的位置有不同的形式,32个字母实际共有126种写法,这种特点使得语言模型变得很复杂,从而在其训练和使用过程中极大的增加了难度。所以,本发明中,通过将维吾尔语语句中的字符转换为拉丁字母,既有效避免了维吾尔字母的万千变形造成的语言模型的复杂度,也为使用基于字符的语言模型提供了基础,避免了使用基于词级别的语言模型,解决了由于维吾尔语词干和词缀组合繁多、词汇量极大,导致使用基于词级别的语言模型训练困难的问题。
步骤S102中,所述预先训练的字符级语言模型的类型可以为LSTM(long-shortterm memory,长短期记忆模型)模型。
语言模型是借由一个概率分布,给定词序S=W1,W2,……,Wk的概率P(S)的模型。通常基于大规模语料来训练。本发明实施例中,训练所述字符级语言模型的流程如图3所示,具体包括:
首先,获取包括维吾尔语语句的维吾尔语语料。可以从维吾尔语维基百科数据、天山新闻网、人民网维吾尔语版新闻等来源获得原始数据,并对其进行解析和清洗得到所述维吾尔语语料。
然后,将维吾尔语语句中的字符转换为拉丁字母,得到拉丁字母语料。具体的转换过程与执行步骤S101中将待识别的维吾尔语语句中的字符转换为拉丁字母的过程相同,在此不再赘述。
之后,利用所述拉丁字母语料训练得到所述字符级语言模型。具体地,将拉丁字母语料输入LSTM模型,模型将语料中每个字符编码成隐藏状态,通过线性转换后变为分值,然后采用softmax函数将分值映射到(0,1)区间作为字符预测值的概率分布。在获得当前字符的概率分布后,其解码生成的字符是概率分布中最大值所对应的字符,通过计算交叉熵损失和反向传播算法优化,迭代训练所述模型的参数并评测训练结果,当满足特定条件时结束训练,得到训练好的语言模型,以在执行步骤S102时使用。
在步骤S102中,对于转换为拉丁字母形式的待识别的维吾尔语语句,预先训练的语言模型的Encoder(编码器)为其中每一个拉丁字母预测一个隐藏状态,由于拉丁字母与维吾尔字符一一对应,所以,拉丁字母的隐藏状态相当于是对应的维吾尔字符的隐藏状态。则对于待识别的维吾尔语语句中的某个词w,其正向向量为其最后一个字符之后的隐藏状态输出,其反向向量为其第一个字符之前的隐藏状态输出。根据正向向量和反向向量即可得到词w的词向量。词向量可以作为语义特征用于自然语言处理任务中的实体识别的输入。
具体地,待识别的维吾尔语语句转换后对应的拉丁语形式序列为:
Figure 580724DEST_PATH_IMAGE005
,对于待识别的维吾尔语语句中的第
Figure 283231DEST_PATH_IMAGE006
个单词
Figure 818118DEST_PATH_IMAGE007
Figure 479038DEST_PATH_IMAGE008
表示其拉丁字母形式长度,
Figure 545214DEST_PATH_IMAGE009
为单词
Figure 831839DEST_PATH_IMAGE010
的拉丁字母表示在拉丁字母序列中的起始位置,语言模型对单词
Figure 34281DEST_PATH_IMAGE011
生成的正向向量
Figure 725156DEST_PATH_IMAGE012
和反向向量
Figure 950733DEST_PATH_IMAGE013
可以表示为:
Figure 181994DEST_PATH_IMAGE014
其中,
Figure 160314DEST_PATH_IMAGE015
Figure 428615DEST_PATH_IMAGE016
分别代表正向模型和反向模型生成的隐藏状态。
词向量的生成过程,可如图4所示,图4为“北京市海淀区”中“海淀”的词向量生成的示意图,其中,
Figure 656334DEST_PATH_IMAGE017
为正向模型的输出,
Figure 23776DEST_PATH_IMAGE018
为反向模型的输出。
在实际应用中,为了使得生成的词向量包含前后文信息,可以把正向模型和反向模型生成的隐藏状态连接在一起,可用公式表示为:
Figure 466389DEST_PATH_IMAGE019
作为一个实施例,比如,对于单词
Figure 154860DEST_PATH_IMAGE020
,其正向模型和反向模型的输出分别为
Figure 355028DEST_PATH_IMAGE021
Figure 662513DEST_PATH_IMAGE022
,则其正向反向连接可以表示为
Figure 881004DEST_PATH_IMAGE023
步骤S103中所述预先训练的实体识别模型为双向长短记忆单元网络和条件随机场(BiLSTM-CRF)模型。
在本发明的一个优选实施例中,按照下述方法训练得到所述实体识别模型:
在语言模型训练完成后,利用所述训练的字符级语言模型根据所述拉丁字母语料获得词向量语料;
利用所述词向量语料训练得到所述实体识别模型。
具体地,定义尺寸为
Figure 84584DEST_PATH_IMAGE024
的矩阵
Figure 506469DEST_PATH_IMAGE025
表示LSTM(即语言模型)的输出,其中
Figure 7857DEST_PATH_IMAGE026
表示标签的数量,定义转移矩阵
Figure 34850DEST_PATH_IMAGE027
,尺寸为
Figure 330702DEST_PATH_IMAGE028
。对于一个文本序列
Figure 239884DEST_PATH_IMAGE029
,其标签序列为
Figure 482646DEST_PATH_IMAGE030
,定义这个标签序列的得分为:
Figure 692042DEST_PATH_IMAGE031
实体识别模型的优化目标是最大化正确序列标签的得分。
Figure 158795DEST_PATH_IMAGE032
其中,
Figure 289693DEST_PATH_IMAGE033
表示正确序列的得分。
式中,
Figure 601726DEST_PATH_IMAGE034
表示所有可能的标签序列,
Figure 134470DEST_PATH_IMAGE035
表示其中一个可能的标签序列。
通过步骤S103得到初步实体识别结果后,再从中提取实体词,具体包括:
对所述初步实体识别结果的文本序列X,按照如下公式计算其中所有可能的标签序列的得分,选取得分最高的标签序列y∗:
Figure 788436DEST_PATH_IMAGE036
式中,
Figure 734526DEST_PATH_IMAGE037
表示所有可能的标签序列,
Figure 600982DEST_PATH_IMAGE038
表示其中一个可能的标签序列,
Figure 768659DEST_PATH_IMAGE039
表示标签序列的得分计算公式;
将所述得分最高的标签序列中与实体标签对应的词抽取出来,得到实体词。
执行步骤S105,对所述实体词进行去词缀处理,得到最终实体识别结果,具体包括:
将所述实体词的词缀与预设的词缀和字母进行匹配,以判断所述实体词的词缀是否为多余词缀;其中,如果所述实体词的词缀与所述预设的词缀匹配,或者所述实体词的词缀与所述预设的词缀和字母的组合匹配,则所述实体词的词缀为多余词缀。
如果为多余词缀,则对所述多余词缀进行去词缀处理,得到最终实体识别结果;
如果不为多余词缀,则将所述实体词作为最终实体识别结果。
由于维吾尔语是黏着语,很多其他语言中的介词、副词、连词以词缀的形式与词根结合组成复合结构。所以,在步骤S104中词粒度抽取到的实体往往会有很多附加成分。如果直接将词粒度抽取到的实体作为最终的识别结果,会导致实体抽取不够准确,识别效果不好。本发明实施例中,考虑了维吾尔语的上述语言特性,提取实体词后,进一步判断实体词的词缀是否为多余词缀,如果为多余词缀,则进行去词缀处理,从而使得到的最终实体识别结果更加准确,识别效果更好。
另外,本发明实施例中,考虑到维吾尔语中的词缀有时能单独成词或者构成词根的一部分,所以,如果直接用词缀匹配的方法判断是否为多余词缀,并进行去词缀处理的方法会带来一定的错误率。所以,本发明提供的方法预设了50多种在实体中最为常见的构型后缀以及一些字母,然后将实体词的词缀与预设的词缀和字母进行匹配;
如果所述实体词的词缀与所述预设的词缀匹配,则所述实体词的词缀为多余词缀;或者,如果所述实体词的词缀与所述预设的词缀和字母组合匹配,则所述实体词的词缀为多余词缀。
确定了实体词的词缀为多余词缀后,对多余词缀进行去词缀处理,还原词根,使得到的实体更加准确,识别效果更好。
在本发明的一个优选实施例中,去词缀处理之后,还包括:
判断去词缀处理之后的实体词是否完整;
如果不完整,则根据启发式规则补全实体词的字符。
按照上述方法进行去词缀处理的示例可如图5所示。图5中,四个带有不同词缀的实体词,采用本发明提供的方法进行去词缀处理后,得到了相同的词根。所以,采用本发明提供的方法,对实体词进行多余词缀的去词缀处理,可以使抽取得到的实体词更加准确,识别效果更好。
实施例二
如图6所示,本发明实施例提供了一种维吾尔语实体识别的装置,包括:
拉丁字母转换模块201,用于将待识别的维吾尔语语句中的字符对应转换为拉丁字母,得到待识别的维吾尔语语句的拉丁字母表示形式;
语义特征提取模块202,用于将拉丁字母表示形式输入到预先训练的字符级语言模型中,提取所述待识别的维吾尔语语句的语义特征;
初步实体识别模块203,用于将所述语义特征输入到预先训练的实体识别模型中,得到所述待识别的维吾尔语语句的初步实体识别结果;
实体词提取模块204,用于从所述初步实体识别结果中提取实体词;
去词缀处理模块205,用于对所述实体词进行去词缀处理,得到最终实体识别结果。
进一步地,还包括训练模块,用于获取包括维吾尔语语句的维吾尔语语料;
将维吾尔语语句中的字符转换为拉丁字母,得到拉丁字母语料;
利用所述拉丁字母语料训练得到所述字符级语言模型和实体识别模型。
进一步地,所述拉丁字母转换模块和所述训练模块具体地用于通过预先建立的字典将维吾尔语语句中的字符转换为拉丁字母,所述字典包括维吾尔语字符和拉丁字母的对应映射关系。
进一步地,所述训练模块用于基于所述拉丁字母语料训练得到所述字符级语言模型;
利用所述训练的字符级语言模型根据所述拉丁字母语料获得词向量语料;
利用所述词向量语料训练得到所述实体识别模型。
进一步地,所述实体词提取模块具体的用于
对所述初步实体识别结果的文本序列X,按照如下公式计算其中所有可能的标签序列的得分,选取得分最高的标签序列y∗:
Figure 796789DEST_PATH_IMAGE040
式中,
Figure 417126DEST_PATH_IMAGE041
表示所有可能的标签序列,
Figure 87273DEST_PATH_IMAGE042
表示其中一个可能的标签序列,
Figure 578297DEST_PATH_IMAGE043
表示标签序列的得分计算公式;
将所述得分最高的标签序列中与实体标签对应的词抽取出来,得到实体词。
进一步地,所述对所述实体词进行去词缀处理,得到最终实体识别结果,包括:
将所述实体词的词缀与预设的词缀和字母进行匹配,以判断所述实体词的词缀是否为多余词缀;其中,如果所述实体词的词缀与所述预设的词缀匹配,或者所述实体词的词缀与所述预设的词缀和字母的组合匹配,则所述实体词的词缀为多余词缀;
如果为多余词缀,则对所述多余词缀进行去词缀处理,得到最终实体识别结果;
如果不为多余词缀,则将所述实体词作为最终实体识别结果。
进一步地,所述去词缀处理模块还用于,判断去词缀处理之后的实体词是否完整;
如果不完整,则根据启发式规则补全所述实体词的字符。
本发明提供的上述装置可实现上述实施例一提供的维吾尔语实体识别方法,具体的方法可参见实施例一中的描述,在此不再赘述。
本发明还提供了一种存储器,存储有多条指令,所述指令用于实现上述的方法。
本发明还提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如实施例一所述的方法。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (5)

1.一种维吾尔语实体识别的方法,其特征在于,包括:
将待识别的维吾尔语语句中的字符转换为拉丁字母,得到待识别的维吾尔语语句的拉丁字母表示形式,包括通过预先建立的字典将维吾尔语语句中的字符转换为拉丁字母,所述字典包括维吾尔语字符和拉丁字母的对应映射关系;
将拉丁字母表示形式输入到预先训练的字符级语言模型中,提取所述待识别的维吾尔语语句的语义特征;
将所述语义特征输入到预先训练的实体识别模型中,得到所述待识别的维吾尔语语句的初步实体识别结果;
从所述初步实体识别结果中提取实体词;
对所述实体词进行去词缀处理,得到最终实体识别结果,包括:
将所述实体词的词缀与预设的词缀和字母进行匹配,以判断所述实体词的词缀是否为多余词缀,包括:
如果所述实体词的词缀与所述预设的词缀匹配,或者所述实体词的词缀与所述预设的词缀和字母的组合匹配,则所述实体词的词缀为多余词缀;
如果为多余词缀,则对所述多余词缀进行去词缀处理,得到最终实体识别结果;
如果不为多余词缀,则将所述实体词作为最终实体识别结果;
判断去词缀处理之后的实体词是否完整;
如果不完整,则根据启发式规则补全所述实体词的字符;
其中,所述字符级语言模型和实体识别模型是通过如下步骤训练得到的:
获取包括维吾尔语语句的维吾尔语语料;
将维吾尔语语句中的字符转换为拉丁字母,得到拉丁字母语料;
利用所述拉丁字母语料训练得到所述字符级语言模型和实体识别模型,包括:
基于所述拉丁字母语料训练得到所述字符级语言模型;
利用所述训练的字符级语言模型根据所述拉丁字母语料获得词向量语料;
利用所述词向量语料训练得到所述实体识别模型。
2.如权利要求1所述维吾尔语实体识别的方法,其特征在于,所述从所述初步实体识别结果中提取实体词,包括:
对所述初步实体识别结果的文本序列X,按照如下公式计算其中所有可能的标签序列的得分,选取得分最高的标签序列y∗:
Figure DEST_PATH_IMAGE001
式中,
Figure DEST_PATH_IMAGE002
表示所有可能的标签序列,
Figure DEST_PATH_IMAGE003
表示其中一个可能的标签序列,
Figure DEST_PATH_IMAGE004
表示标签序列的得分计算公式;
将所述得分最高的标签序列中与实体标签对应的词抽取出来,得到实体词。
3.一种维吾尔语实体识别的装置,其特征在于,包括:
拉丁字母转换模块,用于将待识别的维吾尔语语句中的字符对应转换为拉丁字母,得到待识别的维吾尔语语句的拉丁字母表示形式,包括通过预先建立的字典将维吾尔语语句中的字符转换为拉丁字母,所述字典包括维吾尔语字符和拉丁字母的对应映射关系;
语义特征提取模块,用于将拉丁字母表示形式输入到预先训练的字符级语言模型中,提取所述待识别的维吾尔语语句的语义特征;
初步实体识别模块,用于将所述语义特征输入到预先训练的实体识别模型中,得到所述待识别的维吾尔语语句的初步实体识别结果;
实体词提取模块,用于从所述初步实体识别结果中提取实体词;
去词缀处理模块,用于对所述实体词进行去词缀处理,得到最终实体识别结果,包括:将所述实体词的词缀与预设的词缀和字母进行匹配,以判断所述实体词的词缀是否为多余词缀,包括:如果所述实体词的词缀与所述预设的词缀匹配,或者所述实体词的词缀与所述预设的词缀和字母的组合匹配,则所述实体词的词缀为多余词缀;如果为多余词缀,则对所述多余词缀进行去词缀处理,得到最终实体识别结果;如果不为多余词缀,则将所述实体词作为最终实体识别结果;判断去词缀处理之后的实体词是否完整;如果不完整,则根据启发式规则补全所述实体词的字符;
还包括训练模块,用于获取包括维吾尔语语句的维吾尔语语料;将维吾尔语语句中的字符转换为拉丁字母,得到拉丁字母语料;利用所述拉丁字母语料训练得到所述字符级语言模型和实体识别模型,包括:基于所述拉丁字母语料训练得到所述字符级语言模型;利用所述训练的字符级语言模型根据所述拉丁字母语料获得词向量语料;利用所述词向量语料训练得到所述实体识别模型。
4.一种存储器,其特征在于,存储有多条指令,所述指令用于实现如权利要求1-2任一项所述的方法。
5.一种电子设备,其特征在于,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如权利要求1-2任一项所述的方法。
CN202010840349.1A 2020-08-20 2020-08-20 一种维吾尔语实体识别的方法、装置和电子设备 Active CN111814433B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010840349.1A CN111814433B (zh) 2020-08-20 2020-08-20 一种维吾尔语实体识别的方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010840349.1A CN111814433B (zh) 2020-08-20 2020-08-20 一种维吾尔语实体识别的方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN111814433A CN111814433A (zh) 2020-10-23
CN111814433B true CN111814433B (zh) 2022-02-18

Family

ID=72860445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010840349.1A Active CN111814433B (zh) 2020-08-20 2020-08-20 一种维吾尔语实体识别的方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN111814433B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164396A (zh) * 2011-12-19 2013-06-19 新疆新能信息通信有限责任公司 汉维哈柯电子辞典及其自动转译汉维哈柯语的方法
CN104933039A (zh) * 2015-06-04 2015-09-23 中国科学院新疆理化技术研究所 面向资源缺乏语言的实体链接系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210060676A (ko) * 2016-09-13 2021-05-26 매직 립, 인코포레이티드 감각 안경류
CN108829894B (zh) * 2018-06-29 2021-11-12 北京百度网讯科技有限公司 口语词识别和语义识别方法及其装置
CN111428509B (zh) * 2020-03-05 2020-12-22 北京一览群智数据科技有限责任公司 一种基于拉丁字母的维吾尔语处理方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164396A (zh) * 2011-12-19 2013-06-19 新疆新能信息通信有限责任公司 汉维哈柯电子辞典及其自动转译汉维哈柯语的方法
CN104933039A (zh) * 2015-06-04 2015-09-23 中国科学院新疆理化技术研究所 面向资源缺乏语言的实体链接系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于迁移学习的维吾尔语命名实体识别》;孔祥鹏 等;《东北师大学报(自然科学版)》;20200630;第52卷(第2期);第1-2部分 *

Also Published As

Publication number Publication date
CN111814433A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
CN109271631B (zh) 分词方法、装置、设备及存储介质
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN110287480B (zh) 一种命名实体识别方法、装置、存储介质及终端设备
CN110083710B (zh) 一种基于循环神经网络与潜变量结构的词语定义生成方法
CN111310470B (zh) 一种融合字词特征的中文命名实体识别方法
CN110851599A (zh) 一种中文作文自动评分方法及教辅系统
CN110276052B (zh) 一种古汉语自动分词及词性标注一体化方法及装置
CN110096572B (zh) 一种样本生成方法、装置及计算机可读介质
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN108304387B (zh) 文本中噪音词的识别方法、装置、服务器组及存储介质
CN111444720A (zh) 一种英文文本的命名实体识别方法
Shafi et al. UNLT: Urdu natural language toolkit
CN113255331A (zh) 文本纠错方法、装置及存储介质
CN111814433B (zh) 一种维吾尔语实体识别的方法、装置和电子设备
CN107168950B (zh) 一种基于双语语义映射的事件短语学习方法及装置
KR100487716B1 (ko) 단어레벨의 통계적 방법을 이용한 번역문 생성 방법 및 그장치
CN112966510A (zh) 一种基于albert的武器装备实体抽取方法、系统及存储介质
CN112632985A (zh) 语料的处理方法、装置、存储介质及处理器
Seresangtakul et al. Thai-Isarn dialect parallel corpus construction for machine translation
CN112417851A (zh) 文本纠错分词方法、系统及电子设备
Linn et al. Part of speech tagging for kayah language using hidden markov model
Jose et al. Lexical normalization model for noisy SMS text
KR101371649B1 (ko) 한글-한자 변환 방법 및 이를 적용한 단말 장치
JP2002334076A (ja) テキスト処理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant