CN110781667A - 面向神经网络机器翻译的日语动词识别、词性标注方法 - Google Patents

面向神经网络机器翻译的日语动词识别、词性标注方法 Download PDF

Info

Publication number
CN110781667A
CN110781667A CN201911028262.8A CN201911028262A CN110781667A CN 110781667 A CN110781667 A CN 110781667A CN 201911028262 A CN201911028262 A CN 201911028262A CN 110781667 A CN110781667 A CN 110781667A
Authority
CN
China
Prior art keywords
verb
character
candidate
japanese
ending
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911028262.8A
Other languages
English (en)
Other versions
CN110781667B (zh
Inventor
张孝飞
诸敏刚
葛昱晖
陈莉莉
周聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhong Xian Electronic Technology Development Co Ltd
Original Assignee
Beijing Zhong Xian Electronic Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhong Xian Electronic Technology Development Co Ltd filed Critical Beijing Zhong Xian Electronic Technology Development Co Ltd
Priority to CN201911028262.8A priority Critical patent/CN110781667B/zh
Publication of CN110781667A publication Critical patent/CN110781667A/zh
Application granted granted Critical
Publication of CN110781667B publication Critical patent/CN110781667B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及机器翻译技术领域,尤其涉及一种面向神经网络机器翻译的日语动词识别、词性标注方法及系统。该方法包括以下步骤:S100、删除日语文本中的左邻接标志和结尾标志的特殊词汇;S200、查找选取得到候选动词;S300、切分得到待还原候选动词,对候选动词进行还原,若验证其正确,则该候选动词还原成功;S400、对还原成功的动词及其变形词尾进行切分,标注词性及其语法意义。本发明通过加入二次判断机制及完善复合动词的识别处理规则,提高了动词识别的准确度;同时对动词及其变形词尾进行词干·词尾·可能表现·时·态·情态的切分,有效提高了词法分析的准确性,从而有效提升了译文质量。

Description

面向神经网络机器翻译的日语动词识别、词性标注方法
技术领域
本发明涉及机器翻译技术领域,尤其涉及一种面向神经网络机器翻译的日语动词识别、词性标注方法及系统。
背景技术
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。随着国际经济合作的日益增多,翻译行业的翻译质量和效率都遇到了很大的挑战,而随着人工智能的高速发展,机器翻译在翻译行业的巨大潜力开始逐步显现。人工翻译压力大,成本高,耗时久,从社会发展趋势来看,研发、推广能够初步取代人工、降低翻译成本的机器翻译引擎十分必要。
随着中日之间科技和文化交流的日益频繁,突破语言间的理解和转换障碍成为关键要素之一,及时准确地将日文信息翻译转换成可读可理解的汉语信息,不仅具有理论上的价值,更具有现实上的必要性和紧迫性。原有的统计机器翻译系统中,在对平行语料进行机器训练之前需要进行分词预处理操作,其质量好坏将直接影响翻译质量。由于日语动词存在大量活用形及词典收录不全等因素,基于词典的日语动词切分一直很难达到理想的效果。如何对动词进行正确的切分和识别,提高词对齐的效果,进而提升整体机器翻译质量,是目前亟待解决的问题之一。同时,机器翻译技术在历经规则、统计等算法模型的发展之后,进入了融合神经网络和深度学习的算法的阶段。为了提升翻译效果,更适用于神经网络系统的分词、识别及词性标注技术十分必要。
关于日语的分词及词性标注技术,现在比较通行的是日本的工藤拓在2006年开发的MeCab形态素解析工具。该形态素解析工具以词典为基准,可将词典收录的日语动词(基本形词条)正确地识别出。然而,在解析词典未曾收录的日语动词活用形词条时,会将其切分成两个、甚至多个词,而后分别对其进行词性标注,由此会降低双语对其效果,不利于翻译模型概率的计算,影响翻译质量。
专利号为201310569693.1的专利公开了一种面向神经网络机器翻译的日语动词识别方法,该方法基于规则系统,结合词典,可将文本中的动词完整地识别出来,并通过形态还原操作得到其基本形。该方法具有较强的适用性和鲁棒性,有效地提高了机器翻译中词法分析的准确性和双语词对齐效果,整体上提高了机器翻译的译文质量。然而,该方法从设计上来说,更适用于统计算法,不管是从对词法分析的细致度,还是从对神经网络深度学习所要求的数据降维这两个方面来说,都不能完全满足神经网络深度学习的需要。
因此,急需一种面向神经网络机器翻译的日语动词识别、词性标注方法及系统。
发明内容
本发明提供了一种面向神经网络机器翻译的日语动词识别、词性标注方法及系统,以便于能够准确的将日语动词识别并将其词性标注出来,提高机器翻译质量。
本发明的一个方面,提供了一种面向神经网络机器翻译的日语动词识别、词性标注方法,包括以下步骤:
S100、检索并标注日语文本中包含候选动词查找时的左邻接标志和结尾标志的特殊词汇,不参与后续的动词识别,其中,左邻接标志为字符或字符串,结尾标志为字符;
S200、检索左邻接标志和候选动词结尾标志,查找选取得到候选动词;
S300、将左邻接标志的下一个字符至S200中得到的候选动词结尾标志字符部分切分出来作为待还原候选动词,对候选动词进行还原,并通过查词典的方式验证其是否正确,若正确,则该候选动词还原成功;
S400、在确认还原成功后,对还原成功的动词及其变形词尾进行词干·词尾·可能表现·时·态·情态等语法意义上的切分,标注词性,并注明其语法意义。
进一步地,S100中进一步包括以下步骤:
S110、若特殊词汇的词性为动词或形容词,则对其做词形还原以及词干·词尾·时·态·情态等语法意义上的切分,并标注每部分的语法意义。
进一步地,S200中进一步包括以下步骤:
S210、检索出候选动词的左邻接标志;
S220、在左邻接标志后的指定范围内查找候选动词的结尾标志字符;若候选结尾标志字符为第一一般结尾字符,则进入S300;若候选结尾标志字符为特殊结尾标志字符,则进入S230;若在预设范围内,未查找到结尾标志字符,而查找到特殊左邻接标志字符,则进入S240。
S230、判断特殊结尾标志字符后面的预设范围内是否存在第二一般结尾字符,若存在,则需选取后者作为切分标志进入S300;若不存在,则选取特殊结尾标志字符作为动词的结尾标志字符,进入S300;
S240、判断特殊左邻接标志字符后面的预设范围内是否存在第二一般结尾字符,若存在,则需选取后者作为切分标志进入S300;若不存在,则选取特殊左邻接标志字符作为切分标志进入S300。
进一步地,S300进一步包含以下步骤:
S310、针对查找到的候选动词采用字符串前向最大匹配算法,检索出待还原候选动词的后缀;
S320、对检索出的候选动词的后缀,按其对应的还原规则进行还原处理;
S330、将还原后的词条信息与词典中的对应词条信息进行比对,验证识别的正确与否;
S340、若还原后的词条信息未在词典内查找到对应的词条信息时,对候选动词进行再次切分和还原处理,此时,若能够还原成功且在词典内查到还原后的词条,说明还原成功,否则不再对其进行处理;
S350、对S340中再切分后还原成功的动词,对其切分开的两部分分别进行一次还原处理,此时,若能够有任一及以上部分还原成功且在词典内查到还原后的词条,则还原成功,否则不再对其进行处理。
进一步地,S400进一步包含以下步骤:
S410、针对S350中判定还原成功的动词,对其每一个还原成功的部分进行词性以及语意的标注,对还原不成功的部分,做原样保留处理。
进一步地,S110中所述特殊词汇为动词词干或其变形中包含进行查找时的左邻接标志的动词或形容词;所述其他词汇为包含动词结尾标志字符的、既非动词也非形容词的其他词汇。
进一步地,S210中的左邻接标志为日语中预示动词或形容词即将出现的助词、助词组合或者连词。
进一步地,S220中的特殊左邻接标志为在日语中既可以做左邻接标志,又容易出现在单词本身中的特殊字符。
进一步地,S220中的第一一般结尾字符为日语中大概率其本身作为动词变形词尾的字符。
进一步地,S220中的特殊结尾字符为日语中大概率其后面还会出现其他一般结尾字符、但是本身也可以作为动词变形词尾的字符。
进一步地,S240中的第二一般结尾字符为日语中大概率其本身可以作为动词结尾字符,但也可能与特殊结尾字符进行组合作为动词变形词尾的字符。
进一步地,S310中的待还原候选动词的后缀为日语动词的活用形部分。
进一步地,S340中的再次切分和还原处理是指根据日语动词连用规律以及日语动词连用标志字符对其进行二次切分,将其切分为单个的词,然后再通过还原规则对所有部分分别进行还原。
进一步地,S400中标注的词性为名词或者动词或者形容词或者副词或者代词或者连词中的任一。
本发明的第二个方面,提供了一种实现如上述中任一所述方法的面向神经网络机器翻译的日语动词识别、词性标注系统,包括:
动词识别筛选模块,用于检索并标注日语文本中包含候选动词查找时的左邻接标志和结尾标志的特殊词汇并发送至候选动词查找模块,不参与后续的动词识别,其中,左邻接标志为字符或字符串,结尾标志为字符;
候选动词查找模块,用于检索左邻接标志和候选动词结尾标志,查找选取得到候选动词;
候选动词还原及验证模块,用于将左邻接标志的下一个字符至候选动词结尾标志字符部分切分出来作为待还原候选动词,对候选动词进行还原,并通过查词典的方式验证其是否正确,若正确,则该候选动词还原成功;
词性标注模块,用于在确认还原成功后,对还原成功的动词及其变形词尾进行词干·词尾·可能表现·时·态·情态等语法意义上的切分,标注词性,并注明其语法意义。
本发明提供的面向神经网络机器翻译的日语动词识别、词性标注方法及系统,与现有技术相比具有以下进步:
本发明通过对一部分不好处理的动词,加入了二次判断机制,并完善了复合动词的识别处理规则,提高了动词识别的准确度;同时再将文本中的日语动词完整地识别出来、并通过词形还原得到其基本型的基础上,对动词进行词干·词尾·可能表现·时·态·情态的切分,明确变形词尾中各层形态素的语法意义,这样,在保证使用一般词典即可完成动词识别的基础上,将语法意义细节化处理,有效提高了词法分析的准确性,尤其保证了多层结构情况下的语义的识别精确度,比传统方法更适用于神经网络深度学习,从而有效提升了译文质量。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例中面向神经网络机器翻译的日语动词识别、词性标注方法的步骤图;
图2为本发明实施例中面向神经网络机器翻译的日语动词识别、词性标注方法的器件连接图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整地传达给本领域的技术人员。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。
本实施例提供了一种面向神经网络机器翻译的日语动词识别、词性标注方法及系统。
如图1,本实施例的一种面向神经网络机器翻译的日语动词识别、词性标注方法,包括以下步骤:
S100、检索并标注日语文本中包含候选动词查找时的左邻接标志和结尾标志的特殊词汇,不参与后续的动词识别,其中,左邻接标志为字符或字符串,结尾标志为字符;
S200、检索左邻接标志和候选动词结尾标志,查找选取得到候选动词;
S300、将左邻接标志的下一个字符至S200中得到的候选动词结尾标志字符部分切分出来作为待还原候选动词,对候选动词进行还原,并通过查词典的方式验证其是否正确,若正确,则该候选动词还原成功;
S400、在确认还原成功后,对还原成功的动词及其变形词尾进行词干·词尾·可能表现·时·态·情态等语法意义上的切分,标注词性,并注明其语法意义;
其中,S100中进一步包括以下步骤:
S110、若特殊词汇的词性为动词或形容词,则对其做词形还原以及词干·词尾·时·态·情态等语法意义上的切分,并标注每部分的语法意义;
其中,S200中进一步包括以下步骤:
S210、检索出候选动词的左邻接标志;
S220、在左邻接标志后的指定范围内查找候选动词的结尾标志字符;若候选结尾标志字符为第一一般结尾字符,则进入S300;若候选结尾标志字符为特殊结尾标志字符,则进入S230;若在预设范围内,未查找到结尾标志字符,而查找到特殊左邻接标志字符,则进入S240;
S230、判断特殊结尾标志字符后面的预设范围内是否存在第二一般结尾字符,若存在,则需选取后者作为切分标志进入S300;若不存在,则选取特殊结尾标志字符作为动词的结尾标志字符,进入S300;
S240、判断特殊左邻接标志字符后面的预设范围内是否存在第二一般结尾字符,若存在,则需选取后者作为切分标志进入S300;若不存在,则选取特殊左邻接标志字符作为切分标志进入S300;
其中,S300进一步包含以下步骤:
S310、针对查找到的候选动词采用字符串前向最大匹配算法,检索出待还原候选动词的后缀;
S320、对检索出的候选动词的后缀,按其对应的还原规则进行还原处理;
S330、将还原后的词条信息与词典中的对应词条信息进行比对,验证识别的正确与否;
S340、若还原后的词条信息未在词典内查找到对应的词条信息时,对候选动词进行再次切分和还原处理,此时,若能够还原成功且在词典内查到还原后的词条,说明还原成功,否则不再对其进行处理;
S350、对S340中再切分后还原成功的动词,对其切分开的两部分分别进行一次还原处理,此时,若能够有任一及以上部分还原成功且在词典内查到还原后的词条,则还原成功,否则不再对其进行处理;
其中,S400进一步包含以下步骤:
S410、针对S350中判定还原成功的动词,对其每一个还原成功的部分进行词性以及语意的标注,对还原不成功的部分,做原样保留处理。
本发明通过对一部分不好处理的动词,加入了二次判断机制,并完善了复合动词的识别处理规则,提高了动词识别的准确度;同时再将文本中的日语动词完整地识别出来、并通过词形还原得到其基本型的基础上,对动词进行词干·词尾·可能表现·时·态·情态的切分,明确变形词尾中各层形态素的语法意义,这样,在保证使用一般词典即可完成动词识别的基础上,将语法意义细节化处理,有效提高了词法分析的准确性,尤其保证了多层结构情况下的语义的识别精确度,比传统方法更适用于神经网络深度学习,从而有效提升了译文质量。
具体实施时,S110中所述特殊词汇为动词词干或其变形中包含进行查找时的左邻接标志的动词或形容词;所述其他词汇为包含动词结尾标志字符的、既非动词也非形容词的其他词汇。
具体实施时,S210中的左邻接标志为日语中预示动词或形容词即将出现的助词、助词组合或者连词。
具体实施时,S220中的特殊左邻接标志为在日语中既可以做左邻接标志,又容易出现在单词本身中的特殊字符。
具体实施时,S220中的第一一般结尾字符为日语中大概率其本身作为动词变形词尾的字符。
具体实施时,S220中的特殊结尾字符为日语中大概率其后面还会出现其他一般结尾字符、但是本身也可以作为动词变形词尾的字符。
具体实施时,S240中的第二一般结尾字符为日语中大概率其本身可以作为动词结尾字符,但也可能与特殊结尾字符进行组合作为动词变形词尾的字符。
具体实施时,S310中的待还原候选动词的后缀为日语动词的活用形部分。
具体实施时,S340中的再次切分和还原处理是指根据日语动词连用规律以及日语动词连用标志字符对其进行二次切分,将其切分为单个的词,然后再通过还原规则对所有部分分别进行还原。
具体实施时,S400中标注的词性为名词或者动词或者形容词或者副词或者代词或者连词中的任一。
以上仅是作为举例说明,可以根据用户需要进行具体限定。
如图2,本实施例的一种实现如上述实施例中所述方法的面向神经网络机器翻译的日语动词识别、词性标注系统,包括:
动词识别筛选模块210,用于检索并标注日语文本中包含候选动词查找时的左邻接标志和结尾标志的特殊词汇并发送至候选动词查找模块,不参与后续的动词识别,其中,左邻接标志为字符或字符串,结尾标志为字符;
候选动词查找模块220,用于检索左邻接标志和候选动词结尾标志,查找选取得到候选动词;
候选动词还原及验证模块230,用于将左邻接标志的下一个字符至候选动词结尾标志字符部分切分出来作为待还原候选动词,对候选动词进行还原,并通过查词典的方式验证其是否正确,若正确,则该候选动词还原成功;
词性标注模块240,用于在确认还原成功后,对还原成功的动词及其变形词尾进行词干·词尾·可能表现·时·态·情态等语法意义上的切分,标注词性,并注明其语法意义。
本发明通过对一部分不好处理的动词,加入了二次判断机制,并完善了复合动词的识别处理规则,提高了动词识别的准确度;同时再将文本中的日语动词完整地识别出来、并通过词形还原得到其基本型的基础上,对动词进行词干·词尾·可能表现·时·态·情态的切分,明确变形词尾中各层形态素的语法意义,这样,在保证使用一般词典即可完成动词识别的基础上,将语法意义细节化处理,有效提高了词法分析的准确性,尤其保证了多层结构情况下的语义的识别精确度,比传统方法更适用于神经网络深度学习,从而有效提升了译文质量。
本具体实施方式描述的是对日文专利文献中的所有动词进行识别,所涉及的日文动词活用形态包括:基本形、过去式、被动式、使动式、完成式等。
本实施例的面向神经网络机器翻译的日语动词识别及词性标注方法的一个工作过程是:
步骤一、特殊词汇检索并标注。
根据用户总结的特殊词汇库进行特殊词汇的检索和标注,不参与后续的日语动词识别。现输入日文如下:
①すでに流路パイプ2には粉粒体が流れ始めている。
②画素電極15は、間隙を持たない面状電極である。
检索结果如下:
①すでに+++adv流路パイプ2には粉粒体が流れ始ぬている。
②画素電極15は、間隙を持たない+++(持たない|持つ|つない|たない|V,no)面状電極である。
句①的“すでに”为一非动词,其因包含动词结尾标志字符“で”,如果不事先将其检索出,会将其识别为动词,造成错误识别。句②中的“持たない”为一特殊动词,因其字符内包含动词查找左邻接标志“た”,如果不事先将其检索出,后续动词查找规则会把“持たない”切分为“持た/ない”两部分,造成错误识别,所以我们事先检索出这类特殊词汇并加以标注,不参与后续的动词识别。同时,对于如“持たない”这样的特殊动词形式,我们同样依照还原拆分规则对其进行动词的还原与词尾意义拆分,令机器自主学习,以提高效果。
步骤二、候选动词查找
特殊词汇检索和标注结束之后,开始根据候选动词左邻接标志(字符或字符串)、结尾标志字符查找范围、结尾标志字符来查找候选动词。
现输入日文如下:
①技術の向上により、社会発展の高速性を実現している。
②そのため、糖類や蜂蜜などと混合する状態としたり、
③さちに、この箱状体は、その内側に下側から順次に設けちれた。
④ヌ一ドルをフアブリツクで包んで、
⑤ワイヤ130を包んでおり、
①~⑤分别为步骤二可能出现的几种情况的示例。首先,情况①为结尾字符为第一一般结尾字符的情况,其检索结果如下:
表1情况①候选动词查找算法示例
日文字符(串) 実現している
序号 1 Ori-1 FIFST char~Ori-1
情况①中,上述序号中1表示左邻接标志字符编号为1(在此实施例中代表“を”)的字符,Ori-1表示第一一般结尾字符编号为1(在此实施例中代表“る”)的字符,在进行查找时,首先查找到左邻接标志字符编号1(在此实施例中代表“を”)的字符,然后在左邻接标志字符的(13,3)范围内查找结尾标志字符,所述(13,3)的范围为动词结尾标志字符可能出现的范围,即从左邻接标志字符开始,从左往右查找范围锁定在第3个到第13个字符的范围内,查找顺序则是从后向前,即从第13个字符开始向前查找直到第3个字符,查找到第一一般结尾字符编号为1(在此实施例中代表“る”)的字符之后,将左邻接标志字符或字符串之后的第一个字符即FIRST CHAR至第一一般结尾字符编号为1(在此实施例中代表“为”)的部分连接在一起,即为我们将要提取的待还原候选动词(在此实施例中代表“実現している”)的字符。
候选动词查找规则如下例:
1.を*->FIND(OR,(13,3),″る″|″う″|″く″|″ぐ″|″す″|″つ″|″ぬ″|″ぶ″|″む″|″ず″),INFLEX(),DEF()
……
5.において*->FIND(OR,(6,16),″た″|″だ″)
……
16.に*->FIND(OR,(3,13),″た″|″だ″)
……
情况②~③为结尾字符为特殊结尾字符的情况,其检索结果分别如下:
表2情况②候选动词查找算法示例
Figure BDA0002247845230000121
情况②中,上述序号中23表示左邻接标志字符编号为23(在此实施例中代表“と”)的字符,Spe-11表示特殊结尾字符编号为11(在此实施例中代表“た”)的字符,在进行查找时,首先查找左邻接标志字符编号为23(在此实施例中代表“上”)的字符,然后在左邻接标志字符的(13,3)范围内查找到特殊结尾字符编号为11(在此实施例中代表“た”)的字符,由于其为特殊字符,需进行二次判定,判定规则Ori2-1如下:
た*->FIND(0R,(1,1),″り″AND OR,(3,3),NOT″な″|″る″|″た″|″て″)
由于后续词尾为符合Ori2-1规则的第二一般结尾字符(在此实施例中代表“り”),所以选取“り”作为结尾标志字符,将FIFST CHAR至第二一般结尾字符编号为1(在此实施例中代表“り”)的部分连接在一起,即为我们将要提取的待还原候选动词(在此实施例中代表“したり”)的字符。
表3情况③候选动词查找算法示例
Figure BDA0002247845230000131
情况③与情况②相同,首次判定的结尾手符都是特殊结尾手符编号为11(在此实施例中代表“た”)的字符,但由于在二次判定时,情况③后面不存在第二一般结尾字符,因此取特殊结尾字符编号为11(在此实施例中代表“た”)的字符作为结尾标志字符,将FIFSTCHAR至特殊结尾字符编号为11(在此实施例中代表“た”)的部分连接在一起,即为我们将要提取的待还原候选动词(在此实施例中代表“設けられた”)的字符。
情况④~⑤为在预设范围内未找到结尾标志字符的情况。情况④候选动词检索情况如下:
表4情况④候选动词查找算法示例
Figure BDA0002247845230000132
情况④中,首先我们进行查找句中所有左标志的操作,共查找到3个左标志,“を”、“で”、“で”,在第二个左标志“で”至第三个左标志“で”之间,截取字段为“包ん”。该段字符不包含结尾标志字符。进入二次判定,判断预设范围内是否包含特殊左标志,适用判定规则如下:
で*->FIND(IL,(1,1),″ん″AND OR,(10,4),″で″AND$OR,(1,1),NOT″い″|″し″|″く″|″き″|″お″|″な″|″あ″|″も″)
$表示在后续字符中找到的特殊字符″で″。满足条件,因此取特殊左邻接标志编号为12(在此实施例中代表第二个“で”)的字符作为结尾标志字符,将FIFST CHAR(在此实施例中代表第一个“で”)至左邻接标志编号为12(在此实施例中代表第二个“で”)的部分连接在一起,即为我们将要提取的待还原候选动词(在此实施例中代表“包んで”)的字符。
情况⑤候选动词检索情况如下:
表5情况⑤候选动词查找算法示例
Figure BDA0002247845230000141
情况⑤中,首先我们进行查找句中所有左标志的操作,共查找到2个左标志,“を”、“で”、在第一个左标志“を”至第二个左标志“で”之间,截取字段为“包ん”。该段字符不包含结尾标志字符。进入二次判定,判断预设范围内是否包含特殊左标志,适用判定规则如下:
で*->FIND(IL,(1,1),″ん″AND OR,(10,4),″で″AND$OR,(1,1),″い″|″し″|″く″|″き″|″お″|″な″|″あ″|″も″)
满足条件,因此在预设范围内查找第二一般词尾,适用查找规则如下:
で*->FIND(0R,(8,2),″り″|″き″|″ぎ″|″し″|″ち″|″に″|″ひ″|″び″|″み″),INFLEX(),DEF()
满足条件,找到符合Ori2-1规则的第二一般结尾字符(在此实施例中代表“り”),所以选取“り”作为结尾标志字符,将FIFST CHAR至第二一般结尾字符编号为1(在此实施例中代表“り”)的部分连接在一起,即为我们将要提取的待还原候选动词(在此实施例中代表“包んでおり”)的字符。
步骤三、候选动词还原
现输入日文如下:
①技術の向上により、社会発展の高速性を実現している。
其中已查找出的待还原候选动词为“実現している”。
表6待还原候选动词还原算法示例
Figure BDA0002247845230000151
对于待还原候选动词“実現している”我们通过现有算法之前向最大匹配法,查找出“実現している”的后缀P199,即“している”,然后再将“実現している”按照第P129所在的第199条还原规则将“している”还原为I199即“する”,所述第199条规则为“*している->INFLEX(-,する)”,即首先查找到待还原候选动动词的后缀,在上述“実現している”一词中,查找出其后缀为“している”,再将“している”还原为“する”,进而得到新的词条信息“実現する”,最后通过查字典验证“実現する”这个词条是否存在,词典存在“実現する”这个词条,说明识别正确。
候选动词还原规则如下:
1*ぼう->INFLEX(-,ぶ)
……
129*ちれた->INFLEX(-,る)
……
199.*している->INFLEX(-,する)
……
上述实例描述了还原后的词条信息在词典内查到有一致词条的情况,如果还原后的词条未在词典内查到对应的词条,这时会对其进行再次切分和再次还原处理。
现输入日文如下:
⑥RAIDは、デ一タをビット/バイト単位、あるいはブロック単位で複数の記錄装置に分散して保存する+++V方法で、
根据上述候选动词查找规则查找到的待还原候选动词为“分散して保存穸る”该词通过上述还原规则还原后的新词条为“分散して保存”,但是,该词条在因为是两个动词的组合使用,所以无法在词典内查到该词条。针对这类词条,根据候选动词二次切分规则对其进行切分。
候选动词二次切分规则如下:
ん*->FIND(OR,(6,3),″て″)
……
ん*->FIND(OR,(6,3),″い″|″き″|″ぎ″|″し″|″じ″|″ち″|″み″|″り″|″れ″|″え″|″じ″|″け″|げ″|″せ″|″ぜ″|″ね″|″ベ″|″め″|″ば″)
……
其中,上述规则从前往后具有优先级、“ん”代表所有的候选动词左邻接标志,“OR”代表outside和right,意思为在“ん”的外部向右查找动词连用标志字符,我们根据“ん*->FIND(0R,(6,3),″て″)”规则,在对应的(6,3)的范围内查找到该词条“分散して保存穸る”的连用标志“て”,继而将该词分为“分散して”和“保存する”两个词,再根据上述候选动词还原规则对其进行还原,还原后通过查词典验证其还原正确与否,如果能够还原成功且在词典内查到还原后的词条,说明还原成功,如果其仍未在词典内查到其对应的词条,则词条保持原样,不做处理。
步骤四、语法意义切分与词性标注
在确认还原成功后,对还原成功的动词进行词干·词尾·可能表现·时·态·情态的切分,标注词性,并注明其语法意义。
本方法使用的词性标注符号如下:
表7词性标注符号
词性 副词 形容词 名词 动词 代词 连词
符号 adv adj N V pron col
本发明使用的动词活用形形态标记符号如下:
表8日语动词活用形形态标注符号
形态 符号 形态 符号
基本形 orl 使动形 cau
否定式 no 被动形 pas
假定形 if 完成式 over
过去式 past 中止形 Te
ている形 ing 持续形 con
ます形 masu 能动形 Can
此外,日语动词活用形形态还存在上述表中动词形态的组合情况,关于组合标记符号,不一一列举。在词尾变形意义为组合意义时,我们按照该意义排列顺序对语法意义进行组合标注。
例如“さらに、この箱状体は、その内側に下側かか順次こ設けられた。”
其最终还原及标注结果如下:
さらに、この箱状体は、その内側に下側から順次に設けられた+++[設ける|設けられた|V(pas_past)]。
对于二次还原的复合动词,需要对还原成功的两部分分别进行标注。例如“RAIDは、デ一タをビット/バイト単位、あるいはブロック単位で複数の記錄装置に分散して保存する方法で、”,其最终还原及标注结果如下:
RAIDは、デ一タをビット/バイト単位、あるいはブロック単位で複数の記錄装置に分散して+++[分散する|分散して|V(te)]保存する+++[保存する|V(ori)]方法で、
通过以上方法,即使词典未收录日语动词的活用形词条,也可将一个完整的动词(动词基本形和活用形)切分并识别出来。同时,对变形词尾词法意义的切分及语意信息的标注,能够有效提高机器对词语以及词关系学习的准确性,提高翻译效果。上述系统实施例中的改进也属于上述方法实施例的改进,方法实施例中不再赘述。且上述方法实施例和系统实施例中的同一字母代表的含义、取值均相同。
本实施例还提供一种适于实现上文描述的面向神经网络机器翻译的日语动词识别、词性标注方法的计算机系统。计算机系统包括处理器和计算机可读存储介质。该计算机系统可以执行根据本发明实施例的方法。
具体地,处理器例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器还可以包括用于缓存用途的板载存储器。处理器可以是用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
计算机可读存储介质,例如可以是非易失性的计算机可读存储介质,具体示例包括但不限于:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;等等。
计算机可读存储介质可以包括计算机程序,该计算机程序可以包括代码/计算机可执行指令,其在由处理器执行时使得处理器执行根据本发明实施例的方法或其任何变形。
计算机程序可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序中的代码可以包括一个或多个程序模块,例如包括动词识别筛选模块、候选动词查找模块、候选动词还原及验证模块和词性标注模块。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器执行时,使得处理器可以执行根据本发明实施例的方法或其任何变形。
根据本发明的实施例,上述模块中的至少一个可以实现为计算机程序模块,其在被处理器执行时,可以实现上面描述的相应操作。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。
根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (15)

1.一种面向神经网络机器翻译的日语动词识别、词性标注方法,其特征在于,包括以下步骤:
S100、检索并标注日语文本中包含候选动词查找时的左邻接标志和结尾标志的特殊词汇,不参与后续的动词识别,其中,左邻接标志为字符或字符串,结尾标志为字符;
S200、检索左邻接标志和候选动词结尾标志,查找选取得到候选动词;
S300、将左邻接标志的下一个字符至S200中得到的候选动词结尾标志字符部分切分出来作为待还原候选动词,对候选动词进行还原,并通过查词典的方式验证其是否正确,若正确,则该候选动词还原成功;
S400、在确认还原成功后,对还原成功的动词及其变形词尾进行词干·词尾·可能表现·时·态·情态等语法意义上的切分,标注词性,并注明其语法意义。
2.根据权利要求1所述的面向神经网络机器翻译的日语动词识别、词性标注方法,其特征在于,S100中进一步包括以下步骤:
S110、若特殊词汇的词性为动词或形容词,则对其做词形还原以及词干·词尾·时·态·情态等语法意义上的切分,并标注每部分的语法意义。
3.根据权利要求2所述的面向神经网络机器翻译的日语动词识别、词性标注方法,其特征在于,S200中进一步包括以下步骤:
S210、检索出候选动词的左邻接标志;
S220、在左邻接标志后的指定范围内查找候选动词的结尾标志字符;若候选结尾标志字符为第一一般结尾字符,则进入S300;若候选结尾标志字符为特殊结尾标志字符,则进入S230;若在预设范围内,未查找到结尾标志字符,而查找到特殊左邻接标志字符,则进入S240。
S230、判断特殊结尾标志字符后面的预设范围内是否存在第二一般结尾字符,若存在,则需选取后者作为切分标志进入S300;若不存在,则选取特殊结尾标志字符作为动词的结尾标志字符,进入S300;
S240、判断特殊左邻接标志字符后面的预设范围内是否存在第二一般结尾字符,若存在,则需选取后者作为切分标志进入S300;若不存在,则选取特殊左邻接标志字符作为切分标志进入S300。
4.根据权利要求3所述的面向神经网络机器翻译的日语动词识别、词性标注方法,其特征在于,S300进一步包含以下步骤:
S310、针对查找到的候选动词采用字符串前向最大匹配算法,检索出待还原候选动词的后缀;
S320、对检索出的候选动词的后缀,按其对应的还原规则进行还原处理;
S330、将还原后的词条信息与词典中的对应词条信息进行比对,验证识别的正确与否;
S340、若还原后的词条信息未在词典内查找到对应的词条信息时,对候选动词进行再次切分和还原处理,此时,若能够还原成功且在词典内查到还原后的词条,说明还原成功,否则不再对其进行处理;
S350、对S340中再切分后还原成功的动词,对其切分开的两部分分别进行一次还原处理,此时,若能够有任一及以上部分还原成功且在词典内查到还原后的词条,则还原成功,否则不再对其进行处理。
5.根据权利要求4所述的面向神经网络机器翻译的日语动词识别、词性标注方法,其特征在于,S400进一步包含以下步骤:
S410、针对S350中判定还原成功的动词,对其每一个还原成功的部分进行词性以及语意的标注,对还原不成功的部分,做原样保留处理。
6.根据权利要求5所述的面向神经网络机器翻译的日语动词识别、词性标注方法,其特征在于,S110中所述特殊词汇为动词词干或其变形中包含进行查找时的左邻接标志的动词或形容词;所述其他词汇为包含动词结尾标志字符的、既非动词也非形容词的其他词汇。
7.根据权利要求6所述的面向神经网络机器翻译的日语动词识别、词性标注方法,其特征在于,S210中的左邻接标志为日语中预示动词或形容词即将出现的助词、助词组合或者连词。
8.根据权利要求7所述的面向神经网络机器翻译的日语动词识别、词性标注方法,其特征在于,S220中的特殊左邻接标志为在日语中既可以做左邻接标志,又容易出现在单词本身中的特殊字符。
9.根据权利要求8所述的面向神经网络机器翻译的日语动词识别、词性标注方法,其特征在于,S220中的第一一般结尾字符为日语中大概率其本身作为动词变形词尾的字符。
10.根据权利要求9所述的面向神经网络机器翻译的日语动词识别、词性标注方法,其特征在于,S220中的特殊结尾字符为日语中大概率其后面还会出现其他一般结尾字符、但是本身也可以作为动词变形词尾的字符。
11.根据权利要求10所述的面向神经网络机器翻译的日语动词识别、词性标注方法,其特征在于,S240中的第二一般结尾字符为日语中大概率其本身可以作为动词结尾字符,但也可能与特殊结尾字符进行组合作为动词变形词尾的字符。
12.根据权利要求11所述的面向神经网络机器翻译的日语动词识别、词性标注方法,其特征在于,S310中的待还原候选动词的后缀为日语动词的活用形部分。
13.根据权利要求12所述的面向神经网络机器翻译的日语动词识别、词性标注方法,其特征在于,S340中的再次切分和还原处理是指根据日语动词连用规律以及日语动词连用标志字符对其进行二次切分,将其切分为单个的词,然后再通过还原规则对所有部分分别进行还原。
14.根据权利要求13所述的面向神经网络机器翻译的日语动词识别、词性标注方法,其特征在于,S400中标注的词性为名词或者动词或者形容词或者副词或者代词或者连词中的任一。
15.一种面向神经网络机器翻译的日语动词识别、词性标注系统,其特征在于,包括:
动词识别筛选模块,用于检索并标注日语文本中包含候选动词查找时的左邻接标志和结尾标志的特殊词汇并发送至候选动词查找模块,不参与后续的动词识别,其中,左邻接标志为字符或字符串,结尾标志为字符;
候选动词查找模块,用于检索左邻接标志和候选动词结尾标志,查找选取得到候选动词;
候选动词还原及验证模块,用于将左邻接标志的下一个字符至候选动词结尾标志字符部分切分出来作为待还原候选动词,对候选动词进行还原,并通过查词典的方式验证其是否正确,若正确,则该候选动词还原成功;
词性标注模块,用于在确认还原成功后,对还原成功的动词及其变形词尾进行词干·词尾·可能表现·时·态·情态等语法意义上的切分,标注词性,并注明其语法意义。
CN201911028262.8A 2019-10-25 2019-10-25 面向神经网络机器翻译的日语动词识别、词性标注方法 Active CN110781667B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911028262.8A CN110781667B (zh) 2019-10-25 2019-10-25 面向神经网络机器翻译的日语动词识别、词性标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911028262.8A CN110781667B (zh) 2019-10-25 2019-10-25 面向神经网络机器翻译的日语动词识别、词性标注方法

Publications (2)

Publication Number Publication Date
CN110781667A true CN110781667A (zh) 2020-02-11
CN110781667B CN110781667B (zh) 2021-10-08

Family

ID=69387088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911028262.8A Active CN110781667B (zh) 2019-10-25 2019-10-25 面向神经网络机器翻译的日语动词识别、词性标注方法

Country Status (1)

Country Link
CN (1) CN110781667B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1954292A (zh) * 2004-04-28 2007-04-25 富士通株式会社 语义任务计算
CN1991819A (zh) * 2005-12-30 2007-07-04 北京法国电信研发中心有限公司 语言形态分析器
CN101866337A (zh) * 2009-04-14 2010-10-20 日电(中国)有限公司 词性标注系统、用于训练词性标注模型的装置及其方法
CN102681981A (zh) * 2011-03-11 2012-09-19 富士通株式会社 自然语言词法分析方法、装置及分析器训练方法
CN103714053A (zh) * 2013-11-13 2014-04-09 北京中献电子技术开发中心 一种面向机器翻译的日语动词识别方法
CN104268132A (zh) * 2014-09-11 2015-01-07 北京交通大学 机器翻译方法及系统
CN106448344A (zh) * 2016-10-19 2017-02-22 杨盛亮 一种日语学习辅助装置
CN108334533A (zh) * 2017-10-20 2018-07-27 腾讯科技(深圳)有限公司 关键词提取方法和装置、存储介质及电子装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1954292A (zh) * 2004-04-28 2007-04-25 富士通株式会社 语义任务计算
CN1991819A (zh) * 2005-12-30 2007-07-04 北京法国电信研发中心有限公司 语言形态分析器
CN101866337A (zh) * 2009-04-14 2010-10-20 日电(中国)有限公司 词性标注系统、用于训练词性标注模型的装置及其方法
CN102681981A (zh) * 2011-03-11 2012-09-19 富士通株式会社 自然语言词法分析方法、装置及分析器训练方法
CN103714053A (zh) * 2013-11-13 2014-04-09 北京中献电子技术开发中心 一种面向机器翻译的日语动词识别方法
CN104268132A (zh) * 2014-09-11 2015-01-07 北京交通大学 机器翻译方法及系统
CN106448344A (zh) * 2016-10-19 2017-02-22 杨盛亮 一种日语学习辅助装置
CN108334533A (zh) * 2017-10-20 2018-07-27 腾讯科技(深圳)有限公司 关键词提取方法和装置、存储介质及电子装置

Also Published As

Publication number Publication date
CN110781667B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN111460787B (zh) 一种话题提取方法、装置、终端设备及存储介质
CN108763510B (zh) 意图识别方法、装置、设备及存储介质
US8266169B2 (en) Complex queries for corpus indexing and search
US8447588B2 (en) Region-matching transducers for natural language processing
CN101371253B (zh) 生成拼写建议的方法和系统
CN101706777B (zh) 机器翻译中抽取调序模板的方法及系统
US8510097B2 (en) Region-matching transducers for text-characterization
Warjri et al. Part-of-speech (POS) tagging using conditional random field (CRF) model for Khasi corpora
CN110853625B (zh) 语音识别模型分词训练方法、系统、移动终端及存储介质
Dien et al. POS-tagger for English-Vietnamese bilingual corpus
CN104375988A (zh) 一种词语对齐方法及装置
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及系统
Na et al. Phrase-based statistical model for korean morpheme segmentation and POS tagging
Kübler et al. Part of speech tagging for Arabic
CN112183073A (zh) 一种适用于法律热线语音识别的文本纠错和补全方法
CN110826301B (zh) 标点符号添加方法、系统、移动终端及存储介质
US20220019737A1 (en) Language correction system, method therefor, and language correction model learning method of system
Doush et al. Improving post-processing optical character recognition documents with Arabic language using spelling error detection and correction
Arora et al. Pre-processing of English-Hindi corpus for statistical machine translation
CN110781667B (zh) 面向神经网络机器翻译的日语动词识别、词性标注方法
US8977538B2 (en) Constructing and analyzing a word graph
Mukund et al. NE tagging for Urdu based on bootstrap POS learning
Tongtep et al. Multi-stage automatic NE and pos annotation using pattern-based and statistical-based techniques for thai corpus construction
CN110852099B (zh) 一种适用于神经网络机器翻译的汉语分词方法及装置
CN109960720B (zh) 针对半结构化文本的信息抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant