CN115017902A - 基于深度学习的藏语短语结构识别模型的构建方法及装置 - Google Patents

基于深度学习的藏语短语结构识别模型的构建方法及装置 Download PDF

Info

Publication number
CN115017902A
CN115017902A CN202210646748.3A CN202210646748A CN115017902A CN 115017902 A CN115017902 A CN 115017902A CN 202210646748 A CN202210646748 A CN 202210646748A CN 115017902 A CN115017902 A CN 115017902A
Authority
CN
China
Prior art keywords
phrase structure
phrase
tibetan
tree
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210646748.3A
Other languages
English (en)
Inventor
仁青卓么
关白
尕藏卓玛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qinghai Normal University
Original Assignee
Qinghai Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qinghai Normal University filed Critical Qinghai Normal University
Priority to CN202210646748.3A priority Critical patent/CN115017902A/zh
Publication of CN115017902A publication Critical patent/CN115017902A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于深度学习的藏语短语结构识别模型的构建方法及装置,包括以单垂符或双垂符为标志从原始语料中获取多个藏语句子,抽取多个所述藏语句子中的部分藏语句子作为处理文本;对所述处理文本进行短语结构划分并标注,对标注后的处理文本进行分析,构成短语结构树;以所述短语结构树中的短语结构为训练文本,对非线性神经网络语言模型进行训练至模型收敛,得到藏语短语结构识别模型。本发明依据树库建立的模型提高了自动句法分析和机器翻译的准确率,推进了机器理解自然语言的步伐。藏语短语结构树库的构建,不仅可以快速有效大量处理相关数据,而且还能综合提高识别性能。

Description

基于深度学习的藏语短语结构识别模型的构建方法及装置
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于深度学习的藏语短语结构识别模型的构建方法及装置。
背景技术
树库是指对自然语言进行句法或语义标注后,以树形结构存储的一种语言资源。构建树库的过程实际上就是分析句子生成的过程,可以对不同层次的,构成句子的每一个成分进行特征与组合规则的详细描述。短语结构树库是依据句子的核心成分(即谓语),从大到小,从长到短的依次分析构成句子的各类短语,直至词层面为止,从而分析句子的构成过程,标注其句法结构或语义关系。树库的构建工作在任何一个语言当中都显得至关重要,尤其在自然语言处理领域,树库是很重要的语言知识资源,能够为语言研究和语言信息处理提供很好的数据平台。在目前,世界上成规模的树库主要有短语结构树库和依存结构树库两种类型。在中文领域,成规模的中文树库主要有宾州中文树库、Sinica中文树库、清华中文树库、国家语委中文树库、北大中文树库、哈工大中文依存树库及北师大句本位句式结构树库。
语料库是对语言知识的表示,而树库是对语料进行过深加工之后形成的资源库,既可作为对语言学和自然语言进行深入分析研究的重要依据,也是语料库语言学和自然语言处理技术发展到一定阶段的产物。标注树库是一项费时费力的工作,需要完善的标注体系和规范的标注流程以保证标注的质量。另一方面,由于标注规范的复杂性,需要标注者拥有相关的专业背景。即使这样,标注者对句子的不同理解也会产生不同的标注结果,这为树库的建设带来了一定的困难。由于藏语是谓语后置性语言,加之藏语虚词,即自由虚词和不自由虚词在句子中的功能非常强大,起着连接句子前后的纽带作用,因此,在进行藏语短语标注树库的建设时,在借鉴其他语言树库建设的理论和方法外,还要根据藏语自身的特点,进行细致入微的分析。因此,现有的藏语短语结构识别不够准确。
发明内容
有鉴于此,本发明的目的在于克服现有技术的不足,提供一种基于深度学习的藏语短语结构识别模型的构建方法及装置,以解决现有技术中藏语短语结构识别不够准确的问题。
为实现以上目的,本发明采用如下技术方案:一种基于深度学习的藏语短语结构识别模型的构建方法,包括:
以单垂符或双垂符为标志从原始语料中获取多个藏语句子,
对所述处理文本进行短语结构划分并标注,对标注后的处理文本进行分析,构成短语结构树;
以所述短语结构树中的短语结构为训练文本,对非线性神经网络语言模型进行训练至模型收敛,得到藏语短语结构识别模型。
进一步的,所述对所述处理文本进行短语结构划分并标注,包括:
将处理文本中由两个或两个以上词类形成的短语的左边和右边添加括号,形成相应的括号对,对所述括号对内的短语标记相应的短语结构类型的标记,并根据语言知识进行校对;
根据所述标注以构成各类短语的核心成分作为标志,获得短语结构的候选项,利用统计算法和短语规则库对所述候选项进行检测,提取短语结构。
进一步的,采用短语结构划分规则对所述处理文本进行短语结构划分并标注;所述短语结构划分规则,包括:
核心词的描述,用于分析短语结构中核心词的功能和语义搭配能力;
外部特征和功能描述,用于在较长的短语或者嵌套短语中,分析其组合特征和与其他短语间的从属关系和组合规则;
短语结构中的内部关系描述,用于分析短语结构中各组成成分间的语义关系。
进一步的,所述对所述处理文本进行短语结构划分并标注,包括:
先对处理文本进行词类的划分与词性的标注,再进行短语结构的标注;
对所述处理文本的句子层次和句法信息进行标注。
进一步的,采用短语结构语法对标注后的处理文本进行分析,得到的短语结构树由终节点、非终结点以及短语标记三部分组成;
采用依存语法对标注后的处理文本进行分析,得到的短语结构树由是有一定序列的集合组成的,描述句子中各成分之间的语法和语义关系来解释句法结构,即描述的是句子中词与词之间的支配关系,通常情况下是谓语作为句子的核心支配其他成分,而其本身不受任何成分的支配。
进一步的,所述藏语短语结构识别模型的输入是k元文法,输出是下一个词的概率分布,k个上下文词ω1:k当作一个单词窗口:每个词ω和词嵌入的v(ω)∈Rdω对应,输入向量x是k个词的串联井接;
x=[ν(ω1);ν(ω2);…;ν(ωk)];
输入的x之后被传给一个拥有一个或多个隐层的多层感知器:
y=P(ωi丨ω1:k=LM(ω1:k)=softmax(hW2+b2);
h=g(xW1+b1);
x=[ν(ω1);ν(ω2);…;ν(ωk)];
ν(ω)=E[ω];
其中,V是一个有限的词表,包括针对未登录单词的唯一标识UNK,句子开头的补齐符号<s>,以及序列结尾的标识</s>。
本申请实施例提供一种基于深度学习的藏语短语结构识别模型的构建装置,包括:
获取模块,用于以单垂符或双垂符为标志从原始语料中获取多个藏语句子,作为处理文本;
标注模块,用于对所述处理文本进行短语结构划分并标注,对标注后的处理文本进行分析,构成短语结构树;
训练模块,用于以所述短语结构树中的短语结构为训练文本,对非线性神经网络语言模型进行训练至模型收敛,得到藏语短语结构识别模型。
本发明采用以上技术方案,能够达到的有益效果包括:
本发明提供一种基于深度学习的藏语短语结构识别模型的构建方法及装置,依据树库建立的语言模型提高了自动句法分析和机器翻译的准确率,推进了机器理解自然语言的步伐。藏语短语结构树库的构建,可以对构成句子成分的每一个短语结构进行详细的观察,依托句子的环境定义短语的概念,划分短语的类别,进行大类之下一些小类短语的细致区分,明确句子和短语的区别,可填补有关藏语短语研究在传统文法中提及甚少,未详细定义的空白。对于短语的识别问题,采用基于深度学习的短语结构树的识别技术,不仅可以快速有效大量处理相关数据,而且还能综合提高识别性能。在自然语言处理领域中,短语的正确识别和分析对机器翻译、信息检索、文本分类以及句法分析都具有重要作用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于深度学习的藏语短语结构识别模型的构建方法的步骤示意图;
图2为本发明提供的藏语短语结构树示意图;
图3为本发明提供的藏语依存关系分析图;
图4为本发明基于深度学习的藏语短语结构识别模型的构建装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
在任何一种语言中,短语结构的分析与描述是进行句法研究的核心内容。如果我们把各类词组的结构和功能都足够详细地描述清楚了,那么句子的结构实际上也就描述清楚了,因为句子不过是独立的词组而已。短语是最重要的语法单位,在语言分析中起着举足轻重的作用。其构造原则同句子的构造原则基本一致,内部结构也比较稳定,往往作为一个整体与句子中的其他成分发生作用。在自然语言处理中,短语作为语言分析的一个层次,占有十分重要的位置。有效的短语分析对降低其后句法分析难度,缩小句法分析器的搜索空间,提高机器翻译的翻译正确率是很有帮助的。
在藏文传统文法中,有关短语的论述并不多,然而这并不表示在藏文文法体系完善,欠缺有关内容,而是没有在语言运用层面进行相应的分析研究。在藏文传统文法中,对藏语短语的名称和概念,以及分类等都没有形成一个统一的标准。关于短语的名称,藏族学者的看法有所不一,分别有
Figure BDA0003686231430000051
Figure BDA0003686231430000052
三种,其中以
Figure BDA0003686231430000053
居多;关于短语的定义,分别在五个藏文语法书中有所界定,基本都是根据短语的形式和功能进行的定义。根据本人之前做过的一些研究工作和进行的总结,藏语短语的概念可定义为:相关联的两个或两个以上的词用格助词进行连接,能区别意义的,充当句子成分的语言单位。这是依据短语在句子中的位置和功能进行的概念界定。而对短语的分类大多是依据藏语的四大根本词类进行相应的四类短语的划分,即动词短语,名词短语,数量词短语和形容词短语。
语料库是对语言知识的表示,而树库是对语料进行过深加工之后形成的资源库,既可作为对语言学和自然语言进行深入分析研究的重要依据,也是语料库语言学和自然语言处理技术发展到一定阶段的产物。标注树库是一项费时费力的工作,需要完善的标注体系和规范的标注流程以保证标注的质量。另一方面,由于标注规范的复杂性,需要标注者拥有相关的专业背景。即使这样,标注者对句子的不同理解也会产生不同的标注结果,这为树库的建设带来了一定的困难。由于藏语是谓语后置性语言,加之藏语虚词,即自由虚词和不自由虚词在句子中的功能非常强大,起着连接句子前后的纽带作用,因此,在进行藏语短语标注树库的建设时,在借鉴其他语言树库建设的理论和方法外,还要根据藏语自身的特点,进行细致入微的分析。
下面结合附图介绍本申请实施例中提供的一个具体的基于深度学习的藏语短语结构识别模型的构建方法及装置。
如图1所示,本申请实施例中提供的基于深度学习的藏语短语结构识别模型的构建方法,包括:
S101,以单垂符或双垂符为标志从原始语料中获取多个藏语句子,抽取多个所述藏语句子中的部分藏语句子作为处理文本;
藏语短语结构标注树库构建的基本流程为:首先,在保证藏语句子的完整性的前提下,借助表示一个藏语句子的单垂符或双垂符的标志,从大规模的藏文原始文本中抽取各类藏语句子作为处理文本;然后采用词类、短语划分与标注的国家标准对整理完成的文本进行词类和短语的划分与标注,进行人工校对。在建立短语结构树库时,采用人工标注的方式,并结合其他的一些标注工具进行5000句的短语结构树的构建工作,进行初步测试,之后再进行剩下5000句的短语结构树的构建工作,以便最后建立一个藏语短语结构树库的标注体系。
S102,对所述处理文本进行短语结构划分并标注,对标注后的处理文本进行分析,构成短语结构树;
S103,以所述短语结构树中的短语结构为训练文本,对非线性神经网络语言模型进行训练至模型收敛,得到藏语短语结构识别模型。
在进行短语结构的标注实践时,需要以完整的层次结构树为基础,通过对10000个藏语句子进行标注,首先完成对各种复杂的语言现象的分析和标记,进而对句法树上的每个短语结构节点进行两个标记,即成分标记和关系标记,形成双标记集的句法信息描述体系,进而制定藏语短语结构树库的标注体系。树库的标注工作是在对藏语短语结构的句法语义进行深入研究的基础上,通过对句子层次结构的标注实践过程,形成一个计算机可分析和研究的藏语短语结构规则库。
本文通过对涵盖各类体裁的10000个藏语句子进行短语结构的分类和标注,构建一个比较完备的藏语短语结构标注树库,并采用统计和规则相结合的方法,以形式化的方式对藏语短语的组合形式和结构规则进行全面描述,较为详细地归纳各类短语结构的句法语义信息,制定藏语短语结构树库的标注体系。在此基础上,采用深度学习的方法建立藏语短语结构分析模型,为全面分析藏语短语的句法信息,自动识别和提取藏语的各类短语结构提供有力支持。
一些实施例中,所述对所述处理文本进行短语结构划分并标注,包括:
将处理文本中由两个或两个以上词类形成的短语的左边和右边添加括号,形成相应的括号对,对所述括号对内的短语标记相应的短语结构类型的标记,并根据语言知识进行校对;
根据所述标注以构成各类短语的核心成分作为标志,获得短语结构的候选项,利用统计算法和短语规则库对所述候选项进行检测,提取短语结构
具体的,首先选取各类藏语句子进行短语结构的标注,目的在于建立一个较为完整的藏语短语结构树库。因为句子的长短不一,为了节省空间,便于标注,对短语结构的划分主要采用括号(bracket)标注的方式,将句子中由两个或以上词类形成的短语左右添加括号,形成相应的括号对后标记相应的短语结构类型的标记,依靠语言知识进行校对。而从短语结构标注语料中提取各类短语结构时,采用统计和规则相结合的方法,从各类短语的结构出发,以构成各类短语的核心成分作为标志,获得短语结构的候选项,利用统计算法和短语规则库对候选项进行检测,以获得各类短语结构。
一些实施例中,采用短语结构划分规则对所述处理文本进行短语结构划分并标注;所述短语结构划分规则,包括:
核心词的描述,用于分析短语结构中核心词的功能和语义搭配能力;
外部特征和功能描述,用于在较长的短语或者嵌套短语中,分析其组合特征和与其他短语间的从属关系和组合规则;
短语结构中的内部关系描述,用于分析短语结构中各组成成分间的语义关系。
一些实施例中,所述对所述处理文本进行短语结构划分并标注,包括:
先对处理文本进行词类的划分与词性的标注,再进行短语结构的标注;
对所述处理文本的句子层次和句法信息进行标注。
短语结构树可以对句子的不同层次的短语结构及其组成成分的特点进行细致入微的描述,但由于有些句子太长,层次太多,标注和分析会显得较为麻烦,而且在中心词(Head)的判定上会出现判定不准的情况。因此,在藏语短语结构标注的过程中兼顾对句子层次和句法信息的观察,以获取任一句子完整准确的句法层次树,从而制订藏语短语结构标注规范尤为重要。
一些实施例中,采用短语结构语法对标注后的处理文本进行分析,得到的短语结构树由终节点、非终结点以及短语标记三部分组成;
采用依存语法对标注后的处理文本进行分析,得到的短语结构树由是有一定序列的集合组成的,描述句子中各成分之间的语法和语义关系来解释句法结构,即描述的是句子中词与词之间的支配关系,通常情况下是谓语作为句子的核心支配其他成分,而其本身不受任何成分的支配。
具体的,句法分析和标注是对语料库进行深加工和处理的一个重要的环节。句法分析和标注的结果对进一步进行藏语句子语义关系等的分析和标注提供有力的支持。通过正确的和完整的句法信息的描述,借助一个语义知识库和自动标注工具,可以准确地标注出有关句子或短语等的语义信息。藏语短语结构标注树库的构建需要进行短语结构的划分和标注,因此,依据相关分析理论,应用一些实体标注工具和句法分析器主要进行句法信息的描述尤为重要。短语结构语法(Phrase Structure Grammar,PSG)和依存语法(Dependency Grammar,DG)是现有句法标注的两种理论。从自然语言处理的角度对藏语短语进行句法功能和语义关系等的描述时,使用这两种理论体系能够详细准确的标注出藏语短语的句法和语义关系。
在语料中对短语结构的标记形式如表1所示:
Figure BDA0003686231430000091
表1藏语短语的标记形式
即首先对句子进行词类的划分与词性的标注,然后进行短语结构的标注,这个句子是由一个准名词短语“老师”
Figure BDA0003686231430000092
和一个动词短语“给学生上课”
Figure BDA0003686231430000093
构成,而动词短语又可分为一个准名词短语“给学生”
Figure BDA0003686231430000094
和一个动词短语“上课”
Figure BDA0003686231430000095
其中,短语结构语法(Phrase Structure Grammar,PSG)和依存语法(DependencyGrammar,DG)的句法分析技术;
Chomsky将语言分成句法,语义,语音三个部分,其中,句法部分是最为重要的,它不仅构成了句子的深层结构,也能将其转换成表层结构。语义部分对句子的深层结构进行语义结构的说明,而语音部分对表层结构做出语音说明。Chomsky语言学的特点是更注重于语言的结构转换规则的研究。他认为,短语规则是形成句子的一套规则。短语结构的标注是通过句子层面到词层面,句子的外部结构到内部关系,从最长短语到最短短语(准短语)进行的描述出藏语句子的句法信息,覆盖藏语词,短语,句段等各个层次的句法单元。
(1)短语结构语法根据短语的结构和句子的树库来研究语言的结构,短语结构树由终节点、非终结点以及短语标记三部分组成。在句子
Figure BDA0003686231430000096
Figure BDA0003686231430000097
(吐蕃律法中有关军事的规定)”中,
Figure BDA0003686231430000098
规则(1)S→NP VP(2)NP→NP NP(3)VP→VP NP(4)NP→NP NP(5)NP→nn gi(6)NP→nn gi(7)VP→vt VP(8)NP→nn qj(9)VP→vu gi;
Figure BDA0003686231430000099
Figure BDA00036862314300000910
其短语结构树库如图2所示。
依存语法理论指出,句子是有一定序列的集合组成的,描述句子中各成分之间的语法和语义关系来解释句法结构,即描述的是句子中词与词之间的支配关系,通常情况下是谓语作为句子的核心支配其他成分,而其本身不受任何成分的支配。依存语法的结构没有非终结点,词与词之间直接发生依存关系,构成一个依存对,其中一个是核心词,也叫支配词,另一个叫修饰词,也叫从属词。依存关系用一个有向弧表示,叫做依存弧。例如,在句子
Figure BDA0003686231430000101
Figure BDA0003686231430000102
(扎西在森林用斧头砍柴。)其依存关系分析如图3所示。可知,进行依存关系标注时,通过标记依存句法标注关系,描述语言单位内成分间的依存关系,从而解释其句法结构。因而,依存句法标注关系的指定显得尤为重要。
近年来基于神经网路的语言模型也得到广泛应用,并取得了一定的成效。将深度学习的方法运用到构建藏语短语结构分析模型的工作中,需要把藏语短语句法结构标注树库作为语义知识资源,采用以句法功能为主,语义为辅的策略,先为短语中的每一个实词构造“词图”,然后合并“词图”而组成“短语图”,最后得到一个关于藏语短语结构信息和语义信息的知识图[19]。
非线性神经网络语言模型可以解决一些传统语言模型中的问题:它可以在增加上下文规模的同时参数仅呈线性增长,缓解了手工设计退避规则的需要,支持不同上下文的泛化性能。
神经网络的输入是k元文法ω1:k,输出是下一个词的概率分布。k个上下文词ω1:k当作一个单词窗口:每个词ω和词嵌入的v(ω)∈Rdω对应,输入向量x是k个词的串联井接。
x=[ν(ω1);ν(ω2);…;ν(ωk)]
输入的x之后被传给一个拥有一个或多个隐层的多层感知器(MLP):
y=P(ωi丨ω1:k=LM(ω1:k)=softmax(hW2+b2)
h=g(xW1+b1)
x=[ν(ω1);ν(ω2);…;ν(ωk)]
ν(ω)=E[ω]
V是一个有限的词表,包括针对未登录单词的唯一标识UNK,句子开头的补齐符号<s>,以及序列结尾的标识</s>。词表的大小|V丨在10000到1000000词之间,常见规模大概在70000左右。
本申请中树库为语言学家提供了基于真实语言的数据,为完善和验证传统的语言学理论奠定了坚实的基础;在计算语言学领域,依据树库建立的语言模型提高了自动句法分析和机器翻译的准确率,推进了机器理解自然语言的步伐。藏语短语结构树库的构建,可以对构成句子成分的每一个短语结构进行详细的观察,依托句子的环境定义短语的概念,划分短语的类别,进行大类之下一些小类短语的细致区分,明确句子和短语的区别,可填补有关藏语短语研究在传统文法中提及甚少,未详细定义的空白。对于短语的识别问题,采用基于深度学习的短语结构树的识别技术,不仅可以快速有效大量处理相关数据,而且还能综合提高识别性能。在自然语言处理领域中,短语的正确识别和分析对机器翻译、信息检索、文本分类以及句法分析都具有重要作用。
如图4所示,本申请实施例提供一种基于深度学习的藏语短语结构识别模型的构建装置,包括:
获取模块401,用于以单垂符或双垂符为标志从原始语料中获取多个藏语句子,作为处理文本;
标注模块402,用于对所述处理文本进行短语结构划分并标注,对标注后的处理文本进行分析,构成短语结构树;
训练模块403,用于以所述短语结构树中的短语结构为训练文本,对非线性神经网络语言模型进行训练至模型收敛,得到藏语短语结构识别模型。
本申请提供的基于深度学习的藏语短语结构识别模型的构建装置的工作原理为,获取模块401以单垂符或双垂符为标志从原始语料中获取多个藏语句子,抽取多个所述藏语句子中的部分藏语句子作为处理文本;标注模块402对所述处理文本进行短语结构划分并标注,对标注后的处理文本进行分析,构成短语结构树;训练模块403以所述短语结构树中的短语结构为训练文本,对非线性神经网络语言模型进行训练至模型收敛,得到藏语短语结构识别模型。
综上所述,本发明提供一种基于深度学习的藏语短语结构识别模型的构建方法及装置,在计算语言学领域,依据树库建立的语言模型提高了自动句法分析和机器翻译的准确率,推进了机器理解自然语言的步伐。藏语短语结构树库的构建,可以对构成句子成分的每一个短语结构进行详细的观察,依托句子的环境定义短语的概念,划分短语的类别,进行大类之下一些小类短语的细致区分,明确句子和短语的区别,可填补有关藏语短语研究在传统文法中提及甚少,未详细定义的空白。对于短语的识别问题,采用基于深度学习的短语结构树的识别技术,不仅可以快速有效大量处理相关数据,而且还能综合提高识别性能。在自然语言处理领域中,短语的正确识别和分析对机器翻译、信息检索、文本分类以及句法分析都具有重要作用。
可以理解的是,上述提供的方法实施例与上述的装置实施例对应,相应的具体内容可以相互参考,在此不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品,该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (7)

1.一种基于深度学习的藏语短语结构识别模型的构建方法,其特征在于,包括:
以单垂符或双垂符为标志从原始语料中获取多个藏语句子,作为处理文本;
对所述处理文本进行短语结构划分并标注,对标注后的处理文本进行分析,构成短语结构树;
以所述短语结构树中的短语结构为训练文本,对非线性神经网络语言模型进行训练至模型收敛,得到藏语短语结构识别模型。
2.根据权利要求1所述的方法,其特征在于,所述对所述处理文本进行短语结构划分并标注,包括:
将处理文本中由两个或两个以上词类形成的短语的左边和右边添加括号,形成相应的括号对,对所述括号对内的短语标记相应的短语结构类型的标记,并根据语言知识进行校对;
根据所述标注以构成各类短语的核心成分作为标志,获得短语结构的候选项,利用统计算法和短语规则库对所述候选项进行检测,提取短语结构。
3.根据权利要求1所述的方法,其特征在于,采用短语结构划分规则对所述处理文本进行短语结构划分并标注;所述短语结构划分规则,包括:
核心词的描述,用于分析短语结构中核心词的功能和语义搭配能力;
外部特征和功能描述,用于在较长的短语或者嵌套短语中,分析其组合特征和与其他短语间的从属关系和组合规则;
短语结构中的内部关系描述,用于分析短语结构中各组成成分间的语义关系。
4.根据权利要求1所述的方法,其特征在于,所述对所述处理文本进行短语结构划分并标注,包括:
先对处理文本进行词类的划分与词性的标注,再进行短语结构的标注;
对所述处理文本的句子层次和句法信息进行标注。
5.根据权利要求1所述的方法,其特征在于,
采用短语结构语法对标注后的处理文本进行分析,得到的短语结构树由终节点、非终结点以及短语标记三部分组成;
采用依存语法对标注后的处理文本进行分析,得到的短语结构树由是有一定序列的集合组成的,描述句子中各成分之间的语法和语义关系来解释句法结构,即描述的是句子中词与词之间的支配关系,通常情况下是谓语作为句子的核心支配其他成分,而其本身不受任何成分的支配。
6.根据权利要求1所述的方法,其特征在于,
所述藏语短语结构识别模型的输入是k元文法,输出是下一个词的概率分布,k个上下文词ω1:k当作一个单词窗口:每个词ω和词嵌入的v(ω)∈Rdω对应,输入向量x是k个词的串联井接;
x=[ν(ω1);ν(ω2);…;ν(ωk)];
输入的x之后被传给一个拥有一个或多个隐层的多层感知器:
y=P(ωi丨ω1:k=LM(ω1:k)=softmax(hW2+b2);
h=g(xW1+b1);
x=[ν(ω1);ν(ω2);…;ν(ωk)];
ν(ω)=E[ω];
其中,V是一个有限的词表,包括针对未登录单词的唯一标识UNK,句子开头的补齐符号<s>,以及序列结尾的标识</s>。
7.一种基于深度学习的藏语短语结构识别模型的构建装置,其特征在于,包括:
获取模块,用于以单垂符或双垂符为标志从原始语料中获取多个藏语句子,作为处理文本;
标注模块,用于对所述处理文本进行短语结构划分并标注,对标注后的处理文本进行分析,构成短语结构树;
训练模块,用于以所述短语结构树中的短语结构为训练文本,对非线性神经网络语言模型进行训练至模型收敛,得到藏语短语结构识别模型。
CN202210646748.3A 2022-06-09 2022-06-09 基于深度学习的藏语短语结构识别模型的构建方法及装置 Pending CN115017902A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210646748.3A CN115017902A (zh) 2022-06-09 2022-06-09 基于深度学习的藏语短语结构识别模型的构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210646748.3A CN115017902A (zh) 2022-06-09 2022-06-09 基于深度学习的藏语短语结构识别模型的构建方法及装置

Publications (1)

Publication Number Publication Date
CN115017902A true CN115017902A (zh) 2022-09-06

Family

ID=83072641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210646748.3A Pending CN115017902A (zh) 2022-06-09 2022-06-09 基于深度学习的藏语短语结构识别模型的构建方法及装置

Country Status (1)

Country Link
CN (1) CN115017902A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117973362A (zh) * 2024-01-18 2024-05-03 北京师范大学 内嵌语言学特征的人工智能句法关系判定方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020148A (zh) * 2012-11-23 2013-04-03 复旦大学 一种将中文短语结构树库转化为依存结构树库的系统和方法
CN103440236A (zh) * 2013-09-16 2013-12-11 中央民族大学 藏语句法和语义角色联合标注方法
CN107025220A (zh) * 2016-10-25 2017-08-08 西北民族大学 一种融合形式化语法和语言学语法的藏汉机器翻译方法
CN112507694A (zh) * 2021-01-25 2021-03-16 青海师范大学 藏语依存句法分析方法与系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020148A (zh) * 2012-11-23 2013-04-03 复旦大学 一种将中文短语结构树库转化为依存结构树库的系统和方法
CN103440236A (zh) * 2013-09-16 2013-12-11 中央民族大学 藏语句法和语义角色联合标注方法
CN107025220A (zh) * 2016-10-25 2017-08-08 西北民族大学 一种融合形式化语法和语言学语法的藏汉机器翻译方法
CN112507694A (zh) * 2021-01-25 2021-03-16 青海师范大学 藏语依存句法分析方法与系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
仁青卓么: ""基于语言信息处理的藏语动词短语结构研究"" *
柴伟: ""短语结构句法分析综述"" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117973362A (zh) * 2024-01-18 2024-05-03 北京师范大学 内嵌语言学特征的人工智能句法关系判定方法和装置

Similar Documents

Publication Publication Date Title
KR101678787B1 (ko) 자동질의응답 방법 및 그 장치
Leech The state of the art in corpus linguistics
JP3906356B2 (ja) 構文解析方法及び装置
Chen et al. Fast–an automatic generation system for grammar tests
CN109213995A (zh) 一种基于双语词嵌入的跨语言文本相似度评估技术
RU2011122784A (ru) Способ семантической обработки естественного языка с использованием графического языка-посредника
Roche Parsing with finite-state transducers
KR20040024619A (ko) 복수 언어의 대역 텍스트 입력에 의한 제 3 언어 텍스트생성 알고리즘, 장치 및 프로그램
CN115017902A (zh) 基于深度学习的藏语短语结构识别模型的构建方法及装置
Knight et al. Integrating knowledge bases and statistics in MT
Duan et al. Automatically build corpora for chinese spelling check based on the input method
Derczynski et al. Massively increasing TIMEX3 resources: a transduction approach
Saelan et al. Generating mind map from Indonesian text using natural language processing tools
Beridze et al. Georgian dialect corpus: Linguistic and encyclopedic information in online dictionaries
Wang et al. Design of an Intelligent Support System for English Writing Based on Rule Matching and Probability Statistics.
Amanov TEXT UNIT ANALYSIS IN TURKIC LANGUAGE FAMILY
Shquier et al. Fully automated Arabic to English machine translation system: transfer-based approach of AE-TBMT
Gunasekara et al. Using annotation projection for semantic role labeling of low-resourced language: Sinhala
Tohma et al. Challenges Encountered in Turkish Natural Language Processing Studies
Wushouer et al. Building contemporary Uyghur grammatical information dictionary
JP4033089B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Agirre et al. Towards the definition of a basic toolkit for HLT
JP2004318344A (ja) 機械翻訳システム及び機械翻訳方法、並びにコンピュータ・プログラム
Rhazi et al. A Complex Annotation-Based Approach for the Arabic Syntactic Analyzer using NooJ Text Annotation Structures
Winiwarter WILLIE–a web interface for a language learning and instruction environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination