CN101930430A - 一种语言文本的处理装置及语言学习装置 - Google Patents

一种语言文本的处理装置及语言学习装置 Download PDF

Info

Publication number
CN101930430A
CN101930430A CN2009101488967A CN200910148896A CN101930430A CN 101930430 A CN101930430 A CN 101930430A CN 2009101488967 A CN2009101488967 A CN 2009101488967A CN 200910148896 A CN200910148896 A CN 200910148896A CN 101930430 A CN101930430 A CN 101930430A
Authority
CN
China
Prior art keywords
words
text
grammar
word
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009101488967A
Other languages
English (en)
Inventor
周泉
刘宏建
永松健司
国德峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to CN2009101488967A priority Critical patent/CN101930430A/zh
Publication of CN101930430A publication Critical patent/CN101930430A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种语言文本的处理装置及语言学习装置,处理装置包括:存储单元,用于存储语言的字词对应信息和语法对应信息;接收单元,用于接收用户的输入文本;字词处理单元,用于根据所述字词对应信息对所述输入文本中的字词进行处理,得到初步字词处理结果;语法处理单元,用于根据所述语法对应信息对所述输入文本中的语法结构进行处理,得到初步语法处理结果;融合反馈单元,用于对所述初步字词处理结果和所述初步语法处理结果进行融合处理,得到并输出最终处理结果。本发明能够对不同方言或语种中的特有字词和语法进行比较分析,能够对“一个意思可以有多种说法”的现象进行处理。

Description

一种语言文本的处理装置及语言学习装置
技术领域
本发明涉及不同语种及方言的文本处理技术,特别是涉及一种语言文本的处理装置及语言学习装置。
背景技术
目前,通过电子词典、PDA(个人数字助理)或语言学习机等电子装置可以进行语言的学习。这些电子装置可以从扬声器中输出句子及词语的正确发音,同时每一个句子的结构也可以通过显示屏显示出来。通过这种方式,用户就可以得到每一个句子的正确发音以及句子中的语法结构等有用的信息。
在实际应用中,各种方言或语种中存在着很多独具特色的词语。虽然通过电子词典这样的装置可以获得正确的读音,但是却因为没有上下文环境的配合而很难给用户带来非常深刻的记忆。除此之外,还存在着某些众不同的特殊语法,这些语法及其特殊,更使学习者无法理解。在这种情况下,用户希望能够根据方言的字词或语法这两个特别方面得到提醒。
除此之外,由于在很多语言中大量存在着“一个意思可以有多种说法”的现象。并且此时用词,语法有可能完全不一样。在这种情况下需要给用户必要的分析与解释。
基于上述背景,一种现有文本处理技术“便携式即时方言互译装置及其方法(CN1645363)”,其通过一个方言文法转换表来实现一种方言到另一种方言的转换。在这个技术中,没有对方言中的特殊词汇做处理,并且对方言文法转换的过程中采用完全匹配的方式,也就是说两者之间一定要完全一致才认为匹配成功。但是语言的方式是多种多样,在实际使用中不可能只有一种表达方式。
另一种现有文本处理技术,“在方言语音合成系统中进行文本方言化处理的方法(CN1815551)”,其通过概率训练的方式来实现一种方言到另一种方言的转换。在该技术中,没有对方言中特有的字词和语法进行比较分析,仅仅提出了一个转换方案。没有对“一个意思可以有多种说法”的现象进行处理。
发明内容
本发明实施例的目的是提供一种语言文本的处理装置及语言学习装置,能够对不同方言或语种中的特有字词和语法进行比较分析,能够减少目前方言学习中的字词和语法问题。
为了实现上述目的,一方面,提供了一种语言文本的处理装置,包括:
存储单元,用于存储语言的字词对应信息和语法对应信息;
接收单元,用于接收用户的输入文本;
字词处理单元,用于根据所述字词对应信息对所述输入文本中的字词进行处理,得到初步字词处理结果;
语法处理单元,用于根据所述语法对应信息对所述输入文本中的语法结构进行处理,得到初步语法处理结果;
融合反馈单元,用于对所述初步字词处理结果和所述初步语法处理结果进行融合处理,得到并输出最终处理结果。
优选地,上述的处理装置中,所述字词对应信息包括不同语种之间的字词对应关系和/或不同方言之间的字词对应关系;
所述语法对应信息包括不同语种之间的语法对应关系和/或不同方言之间的语法对应关系。
优选地,上述的处理装置中,所述字词处理单元具体包括:
分词和对齐模块,用于从所述输入文本中分出最小的独立词并确定对应位置;
字词分析模块,根据所述字词对应信息确定所述独立词的对应字词,根据共现概率确定所述对应字词是否合适,并将合适的对应字词作为所述初步字词处理结果。
优选地,上述的处理装置中,所述语法处理单元具体包括:
预处理模块,用于确定所述输入文本的当前语法结构;
语法分析模块,用于根据所述语法对应信息和共现概率确定所述当前语法结构的对应语法结构,将所述对应语法结构作为所述初步语法处理结果。
优选地,上述的处理装置中,所述融合反馈单元具体包括:
冲突分析单元,用于对所述初步字词处理结果和所述初步语法处理结果进行冲突分析,将没有冲突的初步字词处理结果和初步语法处理结果合并后作为所述最终处理结果并进行输出;
迭代单元,用于将有冲突的初步字词处理结果和初步语法处理结果进行合并得到合并文本,并将所述合并文本作为输入文本返回给所述字词处理单元和/或所述语法处理单元,获得新的初步字词处理结果和/或新的初步语法处理结果并发送给所述冲突分析单元。
本发明的另一个方面,提供一种语言学习装置,包括:
存储单元,用于预先存储作为翻译学习对象的对象文本和所述对象文本对应的翻译答案文本;
输出单元,用于显示所述对象文本;
输入单元,用于接收用户输入的针对所述对象文本的翻译文本;以及,
分析判断单元,用于将所述翻译答案文本与所述输入单元获取的翻译文本进行比较,获得用于指示所述翻译文本的正确程度的比较结果。
优选地,上述的语言学习装置中,所述分析判断单元包括字词处理单元和语法处理单元;
所述字词处理单元,用于,根据所述翻译答案文本确定所述翻译文本中的错译字词;
所述语法处理单元,用于,根据所述翻译答案文本确定所述翻译文本中的错译语法。
优选地,上述的语言学习装置中,所述分析判断单元还包括融合反馈单元,用于,将所述错译字词对应的正确字词,以及所述错译语法对应的正确语法带入所述翻译文本,获得新的翻译文本,并将所述新的翻译文本发送给所述字词处理单元和所述语法处理单元。
优选地,上述的语言学习装置中,所述字词处理单元,还用于,根据所述翻译答案文本,确定所述翻译文本中的具有更适合字词的独立词;
所述语法处理单元,还用于,根据所述翻译答案文本,确定所述翻译文本中的具有更适合语法的当前语法。
优选地,上述的语言学习装置中,还包括:输出单元,用于:将所述错译字词及对应的正确字词、所述错译语法及对应的正确语法、所述独立词及对应的更适合字词,以及所述当前语法及对应的更适合语法作为所述正确程度的比较结果进行输出。
优选地,上述的语言学习装置中,所述输出单元通过屏幕显示方式或通过语音方式进行输出。
优选地,上述的语言学习装置中,所述更适合字词为在所述独立词的对应字词中平方和权重大于所述独立词的字词;
所述更适合语法为在所述当前语法的对应语法中平方和权重大于所述当前语法的语法。
本发明实施例至少存在以下技术效果:
1)本发明提供了一种能分析和纠正方言中错误的装置和方法,其基于接收的文本向用户提供所接收的文本中的字词和语法信息的分析判断结果,能够减少目前方言学习中的字词和语法问题,
2)本发明通过一套字词和语法分析比较装置,自动判断输入句子中的字词和语法是否符合目标方言(或目标语种),如不符合给出正确提示,,并且本发明还通过融合反馈处理得到字词和语法的最佳适应结果,不但能提示错误字词,还能够根据权重提供更适合的字词和语法,能够对“一个意思可以有多种说法”的现象进行处理。
附图说明
图1为本发明的语言文本的处理装置的一个实施例的结构图;
图2为本发明进行语言文本处理的实施例的流程图;
图3为本发明字词处理单元102的处理流程图;
图4为本发明语法处理单元103的处理流程图;
图5为本发明融合反馈单元104的处理流程图;
图6a为本发明存储单元201中任意一种方言的组成图;
图6b表示任意一种方言的字典信息表样例的数据结构图;
图6c1-图6c6表示汉语和英语的语法树示意图以及相关符号表的结构图;
图6d1-图6d2分别表示粤语和英语的特殊字词信息表的结构图;
图6e1-图6e2分别表示粤语和英语的特殊语法信息表的结构图;
图6f1-图6f2分别表示粤语和英语的特殊字词关键字信息表的结构图;
图6g1-图6g 2分别表示粤语和英语的特殊语法关键字信息表的结构图;
图7表示在普通话到粤语实例应用中的翻译练习的场景流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对具体实施例进行详细描述。
本发明的语言文本的处理装置,包括:
存储单元,用于存储语言的字词对应信息和语法对应信息;
接收单元,用于接收用户的输入文本;
字词处理单元,用于根据所述字词对应信息对所述输入文本中的字词进行处理,得到初步字词处理结果;
语法处理单元,用于根据所述语法对应信息对所述输入文本中的语法结构进行处理,得到初步语法处理结果;
融合反馈单元,用于对所述初步字词处理结果和所述初步语法处理结果进行融合处理,得到并输出最终处理结果。
其中,所述融合反馈单元具体包括:冲突分析单元,用于对所述初步字词处理结果和所述初步语法处理结果进行冲突分析,将没有冲突的初步字词处理结果和初步语法处理结果合并后作为所述最终处理结果并进行输出;迭代单元,用于将有冲突的初步字词处理结果和初步语法处理结果进行合并得到合并文本,并将所述合并文本作为输入文本返回给所述字词处理单元和/或所述语法处理单元,获得新的初步字词处理结果和/或新的初步语法处理结果并发送给所述冲突分析单元。
图1为本发明的语言文本的处理装置的一个实施例的结构图,如图所示,整个处理装置有三部分组成:
一个是核心处理单元101,进行方言信息的处理;
第二是存储单元201,主要储存的是方言在字词和语法方面的相关信息;
第三是交互单元301,可以通过输入单元得到数据,可以通过输出单元输出数据。
其中,核心处理单元最为重要,用于进行字词和语法分析,产生各种提示信息。核心处理单元又细分为三个部分:字词处理单元102,主要进行各种特殊字词提示信息的最优选择;语法处理单元103,主要进行各种特殊语法结构提示信息的最优选择;融合反馈单元104,把字词处理单元和语法处理的分析结果进行融合,在两者有冲突时进行迭代反馈。
图2为本发明进行语言文本处理的实施例的流程图,如图所示,包括:
步骤21,用户首先输入自己给出的方言文本;
步骤22,根据本发明的算法进行字词分析和语法分析,并进行融合反馈,得到最终的分析判断结果作为最优结果,还对其中的特殊字词和语法进行提示;
步骤23,返回给用户最优结果。
图3是字词处理单元102的内部处理流程图;字词处理单元102根据用户输入文本中的特殊字词进行分析判断,并且找到最优的特殊字词。其过程如下:
首先,对用户输入的方言文本进行预处理,即调用外部字词处理系统,主要进行两方面的处理,分词和词对齐。分词就是找出输入文本中的最小分析单元,词对齐就是把输入文本中的词和原始文件中的词一一对齐。这两个功能处理都有比较成熟的实现。
然后,再根据存储单元201中的特殊字词信息表在输入文本寻找是否具体特殊字词或者说是否应该具有特殊字词并进行选择判断,要注意的是:根据不同应用可以按需要设置特殊字词,并不一定要分析特殊字词表里的所有信息。然后分两步:一,是在输入文本中寻找特殊字词,找不到进入下一步,找到的话看这个特殊字词用在这里是否合适。判断合适的方法是根据这个特殊字词所在句子里的其他字词作为关键词,计算共现概率来衡量(本文中“共现概率”所指的是两个物体在某种情况下同时出现的概率,也叫“同现概率”)。二,是在输入文本中寻找是否可以用特殊字词代替的字词,找不到进入下一步,找到分析使用哪个特殊字词比较合适。判断合适的方法是根据这个特殊字词所在句子里的其他字词作为关键词,计算共现概率来衡量。具体计算方法和过程在关键字计算样例中说明。
最后,根据字词分析,给出分析结果提示。
图4是语法处理单元103的内部流程图,即根据用户输入文本中的特殊语法进行分析判断,并且找到最优的语法结构。其过程如下:
首先,对用户输入的方言文本进行预处理,即调用外部语法处理系统,就是找出当前输入文本的语法结构。这个功能有比较成熟的实现。要注意的是:根据不同应用可以按需要设置特殊语法结构,并不一定要分析语法结构表里的所有信息。
然后,再根据存储单元201中的特殊语法信息表在输入文本寻找是否具体特殊语法或者说是否应该具有特殊语法并进行选择判断。这里分三步:一,是根据存储单元201中的方言语法信息表判断输入文本是否符合目标方言的语法结构,是的话,进入下一步,不是的话根据这个特殊语法所在句子里的其他字词作为关键词,计算共现概率来衡量,看是否能找到相似的语法结构,找不到返回正确结果,找到则进入下一步。二,是在输入文本中寻找特殊语法,找不到进入下一步,找到的话看这个特殊语法用在这里是否合适。判断合适的方法是根据这个特殊语法所在句子里的其他字词作为关键词,计算共现概率来衡量。具体计算方法和过程在关键字计算样例中说明。二,是在输入文本中寻找是否可以用特殊语法代替的语法结构,找不到进入下一步,找到分析使用哪个特殊语法比较合适。判断是否合适的方法是根据这个特殊语法所在句子里的其他字词作为关键词,通过计算共现概率来衡量。
最后,根据字词分析,给出分析结果提示。
图5是融合反馈单元104的内部流程图,即根据用户输入文本中的特殊字词和语法分析结果进行融合,并在需要的时候进行迭代反馈,最后返回融合结果。其过程如下:
首先,对字词分析结果和语法分析结果进行冲突分析。无冲突的话,把两者结果结合输出,有冲突的话进入下一步。
然后,依据冲突方,对另一方进行再次迭代,再进行冲突分析。直到冲突结束或者无法解决。例如,语法分析的结果,导致字词分析中的结果不正确,那么依据语法分析的结果,再次进行字词分析。然后再进行冲突分析,如果冲突存在,证明此路不通。如果不存在,则认为可行。最后在所有可行的方案中,根据这个所在句子里的其他字词作为关键词,计算共现概率来衡量。具体计算方法和过程在关键字计算样例中说明。
最后,根据最终融合结果,给出分析结果提示。
图6a表示类存储单元201中存储的任意一种方言(或语种)的信息表数据组成图。对于系统中任意一种方言,都需要有六种信息表数据。其中字典和语法字典属于公共资料,可以从外部获得。然后特殊字词,特殊语法表,以及特殊字词关键字列表和特殊语法关键字列表可以通过公开语料库训练得到。对于中文来说,字典,语法字典,公开语料库都可以从北京大学计算语言学研究所资源和《国家语委语料库》中获得。
图6b表示类存储单元201中任意一种方言的字典信息表样例的数据结构图;(用中文举例,中文字典信息表说明请查阅北京大学计算语言学研究所所著《现代汉语语法信息词典规格说明书》)。对于中文来说字典信息大致包含词语,词性和拼音。
图6c1-6c6表示类存储单元201中汉语和英语的语法树信息样例(中文语法信息表说明请查阅教育部语言文字应用研究所计算语言学研究室著《国家语委语料库》,英语语法信息参考The Penn Treebank Project)。一般来说在汉语语法结构中至少包含成分标记和关系标记。例如图6c1中DJ就是成分标记,表示单句句型,完整的成分标记表有图6c2表示;BH就是关系标记,表示标号结构完整的关系标记表有图6c3表示。在英语Penn Treebank语法结构中至少包含语法标记和功能标记。例如图6c4中NP,S,VP等就是语法标记,其中NP表示名词短语,完整的语法标记表有图6c5表示;SBJ就是功能标记,含义是表面主语,所有功能标记有图6c6表示。
图6d表示类存储单元201中任意一种方言的特殊字词信息样例(这里用6d1粤语和6d2英语举例)。特殊字词存在一一映射关系和一对多关系。例如粤语中“呢”表示“这”,“唔”表示“不”就是一对一映射关系。而一对多关系,在原始方言和目标方言相差很大时出现比较多。例如英语和汉语中,例如“Wisdom”至少表示“智慧”和“学识”两种意思。一般来说对于特殊字词信息,至少包含字词项目的发音,词性,映射字词等信息。
图6d的制作是基于具有相同含义的某种方言X和另一种方言Y语料库之上。分别对两个语料库进行分词(可以使用《国家语委语料库》提供的相关分词工具),然后进行词对齐之后就可以得到相应的映射词。词对齐技术已经有相关的实现例如:邓丹,刘群,俞鸿魁等人所著《基于双语词典的汉英词语对齐算法研究》中所提及的方法。
图6e表示类存储单元201中任意一种方言的特殊语法信息样例(这里用6e1粤语和6e2英语举例)。特殊语法也存在一一映射关系和一对多关系。例如英语语中定词后置结构和汉语中的动宾结构就是一种一一对应关系,而普通话和粤语中的动词副词结构倒置现象就是一对多的关系,例如粤语中副词可以放在动词后,也可以放在动词前,而普通话中则只能方在动词前面。一般在特殊语法信息表中至少包含语法结构信息,映射结构信息等。值得注意的是,表中语法特征指目标语言中存在的语法特征,例如图6e1中的语法特征是粤语的语法特征,图6e2中的语法特征是英语的语法特征。而语法特征的提取可以由语法信息库获得,其具体含义由图6c表示。
图6e的制作是基于具有相同含义的某种方言X和另一种方言Y语料库之上。分别对两个语料库进行句法分析(可以使用《国家语委语料库》提供的相关句法分析工具),然后进行句子对齐之后就可以得到相应的映射结果。句子对齐技术已经有相关的实现例如:张艳,柏冈秀纪等人所著《基于长度的扩展方法的汉英句子对齐》中所提及的方法。
图6f表示类存储单元201中任意一种方言的特殊字词关键字信息样例(这里用图6f1粤语和图6f2英语举例)。根据公开的语料库可以计算出特殊字词的所有可能关键字的频率,因此一般在特殊字词关键字信息表中,至少包含特殊字词信息,当前特殊字词对应的关键字列表,每个关键字的频率以及每个关键字距离特殊字词的距离列表。距离列表的格式是:逗号隔开每个关键字列表,冒号表示每种距离的可能性。例如图6f1中的特殊字词“细蚊仔”,有两个关键字,因此关键字距离列表形如“-2:2,-2:2”。第一个-2:2表示“顽皮”的距离列表,-2表示在特殊字词“细蚊仔”左边第二个词,2表示在特殊字词“细蚊仔”右边第二个词。
图6f的制作是基于某种方言X语料库之上。根据相应的特殊字词,计算所有关键字和特殊字词的共现概率和距离而得到。
图6g表示类存储单元201中任意一种方言的特殊语法关键字信息样例(这里用图6g1粤语和图6g2英语举例)。根据公开的语料库可以计算出特殊语法的所有可能关键字的频率,因此一般在特殊语法关键字信息表中,至少包含特殊语法信息,语法特征,当前特殊语法对应的关键字列表,每个关键字的频率以及每个关键字距离特殊字词的距离列表。距离列表的格式是:逗号隔开每个关键字列表,冒号表示每种距离的可能性。其中对应特征指用于计算关键字距离的起始点,定义为特殊语法结构的第一个部分的。例如not only...but also有两个部分,第一部分是not only。对于“the same as”本身只有一个部分,因此就是自己。
图6g的制作是基于某种方言X语料库之上。根据相应的特殊语法,计算所有关键字和特殊语法的共现概率和距离而得到。
具体实施形式的一个样例1。
为了更清晰的描述整个过程,这里用学习机中的普通话到粤语的翻译练习的场景为例。这个场景的流程如图7所示。首先假设此时学习机给出“他是一个顽皮的小孩”这个句子让学习者翻译,而此时学习者给出以下翻译结果“佢是一个顽皮嘅细路仔”。然后学习机接受到这个翻译之后,调用本发明装置开始对字词和语法开始分析判断。
根据图2,字词分析和语法分析同时做。这里先看左分支特殊字词分析。在这部分,又分成两部分:一是输入中有字应该使用特殊字词而没有使用的情况,此时分析对象为用户输入文本“佢是一个顽皮嘅细路仔”。本例中“是”应该用“喺”代替,并且根据图6d1这是一个一一对应关系,因此不需要分析关键字;二是输入中有哪些特殊字词,此时分析对象是学习机给出的文本“他是一个顽皮的小孩”。本例中,根据图6d1,使用了3个特殊字词,一个是“佢”,这个字与“他”是一一对应关系,因此没有错误。第二个是“是”,这个字于“喺”是一一对应关系。第三个特殊词是“细路仔”,这个词与“小孩”是多对一对应关系。因此需要根据关键字判断。这里关键字是指句子除了“细路仔”之外的其它词,对于本句来说有“他,是,一个,顽皮,的”。根据图6f1,在确定关键词距离得基础上以本句的关键字列表为原点对“细路仔”和“细蚊仔”两个字的关键字列表求平方和作为权重,得到“细路仔”:0和“细蚊仔”:0.04。这里比较权重大小,大的则认为比较合适,因此这里“细蚊仔”比“细路仔”合适。比较一和二的结果,得出字词分析中的总结果,一是本句的用户翻译有一个错误:“是”应该用“喺”代替。二是建议,本例中“细蚊仔”比“细路仔”更合适。根据结果一,结果二和图6g1,更改的内容没有影响到语法分析,左分支结束。
然后右分支特殊语法分析。这部分也分成两部分。一是输入文本有没有使用方言的特殊语法,本例中就是输入文本中有没有使用粤语的特殊语法,此时分析对象为用户输入文本“佢是一个顽皮嘅细路仔”。对比图6e1“特殊语法”列和本句,发现没有特殊语法被使用。二是看有没有特殊语法应该使用到本例的文本中。此时分析对象是学习机给出的文本“他是一个顽皮的小孩”。根据图6e1中特殊语法表的“映射结构”列,发现符合相应语法特征的语法结构“A+是+B”。此时根据相应的特殊语法“A+喺+B+嚟架”是一对一映射,因此不用进行关键字分析。因此,语法分析的结果是:应该使用特殊语法“A+喺+B+嚟架”代替“A+是+B”。
当同时做完左右分支后,就是融合反馈的过程。根据字词分析的结果和语法分析结果,“是”应该用“喺”代替和应该使用特殊语法“A+喺+B+嚟架”代替“A+是+B”没有冲突,并且互补。而两者结果都不会再次影响对方的结果。因此融合反馈完成,直接可以退出融合反馈单元。
最后本发明装置返回最后的结果.结论有二:一是本句的用户翻译有二个错误:“是”应该用“喺”代替,并应使用特殊语法“A+喺+B+嚟架”。二是建议,本例中“细蚊仔”比“细路仔”更合适。
于是学习机将这个结果反馈给学习者,使学习者在方言的字词使用和语法使用方面有更好的理解。
具体实施形式的一个样例2。
为了更清晰的描述跨语言支持的可能性,这里再用学习机中的普通话到英语的翻译练习的场景为例。这个场景的流程如图7所示。首先假设此时学习机给出“我和重视知识一样重视智慧”这个句子让学习者翻译,而此时学习者给出以下翻译结果“I pay attention to wisdom and knowledge”。然后学习机接受到这个翻译之后,调用本发明装置开始对字词和语法开始分析判断。
根据图2,字词分析和语法分析同时做。这里先看左分支特殊字词分析。在这部分,又分成两部分:
一是输入中有字应该使用特殊字词,此时分析对象为用户输入文本“我和重视知识一样重视智慧”。并且根据图6d2“映射词”列判断本句中特殊字词为“重视”和“智慧”。根据图6d2本例中“智慧”和“wisdom”是一一对应关系,因此不需要分析关键字。比对发现用户翻译结果正确。同时“重视”不是一一对应关系,因此需要分析关键字。这里关键字是指句子除了“pay attention to”之外的其它词,对于本句来说有“I,wisdom,knowledge”。根据图6f2,在确定关键词距离得基础上以本句的关键字列表为原点对“pay attention to”和“value”两个字的关键字列表求平方和作为权重,得到“pay attention to”:0和“value”:0.04。这里比较权重大小,大的则认为比较合适,因此这里“value”比“Pay attention to”更合适。
二是输入中有哪些特殊字词。此时分析对象为用户输入文本“I pay attention to wisdom and knowledge”。本例中,根据图6d-2“特殊字词”列,本句使用了2个特殊字词,其中“pay attention to”,这个词与“重视”是一一对应关系,因此没有错误。另外“wisdom”和“智慧”也是一一对应关系,因此没有错误。
因此在字词分析中,结果一用户翻译没有错误。结果二建议:“Pay attention to”在本句翻译中并没有错误,但是“value”比“pay attention to”更合适。左分支结束。
然后右分支特殊语法分析。这部分也分成两部分。一是输入文本有没有使用方言的特殊语法,此时分析对象为用户输入文本“I pay attention to wisdom and knowledge”。本例中根据6e-2“特殊语法”列就是输入文本中有没有使用英语的特殊语法,检测结果是没有使用。二是看有没有特殊语法应该使用到本例的文本中。,此时分析对象为用户输入文本“我和重视知识一样重视智慧”。根据图6e2中特殊语法表“映射结构”列,发现符合相应语法特征的语法结构有“和...一样”。并且是多对一关系,即有两个语法。“the same as”和“as wellas”。因此两者都正确,并且需要根据关键字进行权重比较选择更好的结果。对于本句来说有“I,pay attention to,wisdom,knowledge”。根据图6g-2,在确定关键词距离得基础上以本句的关键字列表为原点对“the same as”和“as well as”两个语法结构的关键字列表求平方和作为权重,得到“the same as”:0.04和“as well as”:0.1。这里比较权重大小,大的则认为比较合适,因此这里语法分析的结果是用户翻译的结构“A+and+B”有错误,“as well as”和“the same as”都可以,并且“as well as”比“the same as”更合适。
当同时做完左右分支后,就是融合反馈的过程。根据字词分析的结果和语法分析的结果,两者不存在冲突。因此按图2流程图不用返回到融合反馈单元,这部分直接结束。
最后本发明装置返回最后的结果.结论有二:一是用户翻译有错误,应该使用特殊语法“as well as”或者“the same as”,其中“as well as”比“the same as”更合适。二是建议,“pay attention to”在本句翻译中并没有错误,但是“value”比“pay attention to”更合适。
于是学习机将这个结果反馈给学习者,使学习者在方言的字词使用和语法使用方面有更好的理解。
关键字计算样例。
本装置中很多部分都涉及到了关键字计算,而他们的基本原理都类似。因此在这里以特殊字词的关键字计算为例,说明关键字计算的方法。具体例子就是用上面例子和图6f1中的数据。设当前句子的关键字列表是X={他,是,一个,顽皮,的},关键字距离列表为Y={-4,-3,-2,-1},而特殊字“细路仔”的关键字列表是A1={可爱},关键字距离列表是A2={-2:2};特殊字“细蚊仔”的关键字列表B1={顽皮,可爱},关键字距离列表是B2={-2:2,-2:2}。设决定选择的平方和权重为W,而W(X,A)表示X和A1,A2的权重。那么因为X中的所有关键字都没有在A1中出现,因此W(X,A)=0,而X中的关键字有一个“顽皮”在B1中出现,并且“顽皮”在Y中的距离为-2,同时在B2中-2也存在。根据图6f-1中“顽皮”的频率得到W(X,B)=0.22=0.04。然后比较W(X,A)和W(X,B)就可以得到结果。如果W(X,A)和W(X,B)相等,则认为两者都可行。
此外,本发明还提供了学习机(语言学习装置)的实施例,语言学习装置包括:存储单元,用于预先存储作为翻译学习对象的对象文本和所述对象文本对应的翻译答案文本;输出单元,用于显示所述对象文本;输入单元,用于接收用户输入的针对所述对象文本的翻译文本;以及,分析判断单元,用于将所述翻译答案文本与所述输入单元获取的翻译文本进行比较,获得用于指示所述翻译文本的正确程度的比较结果。
该学习机中,所述分析判断单元包括字词处理单元和语法处理单元;所述字词处理单元,用于,根据所述翻译答案文本确定所述翻译文本中的错译字词;所述语法处理单元,用于,根据所述翻译答案文本确定所述翻译文本中的错译语法。所述分析判断单元还包括融合反馈单元,用于,将所述错译字词对应的正确字词,以及所述错译语法对应的正确语法带入所述翻译文本,获得新的翻译文本,并将所述新的翻译文本发送给所述字词处理单元和所述语法处理单元。
其中,所述字词处理单元,还用于,根据所述翻译答案文本,确定所述翻译文本中的具有更适合字词的独立词;所述语法处理单元,还用于,根据所述翻译答案文本,确定所述翻译文本中的具有更适合语法的当前语法。所述输出单元通过屏幕显示方式或通过语音方式进行输出。所述更适合字词为在所述独立词的对应字词中平方和权重大于所述独立词的字词;所述更适合语法为在所述当前语法的对应语法中平方和权重大于所述当前语法的语法。
本发明的应用场景。
本发明可以使用在PDA,学习机,机器翻译器等场景。本发明可以作为单独的模块使用,在产品中完成语言转换,错误提示等功能。在这种情况中,输入输出借助于安装本发明产品的输入输出装置,本发明的字词,语法数据与此产品的数据相分离。
由上可知,本发明实施例具有以下优势:
1)本发明提供了一种能分析和纠正方言中错误的装置和方法,其基于接收的文本向用户提供所接收的文本中的字词和语法信息的分析判断结果,能够减少目前方言学习中的字词和语法问题,
2)本发明通过一套字词和语法分析比较装置,自动判断输入句子中的字词和语法是否符合目标方言(或目标语种),如不符合给出正确提示,,并且本发明还通过融合反馈处理得到字词和语法的最佳适应结果,不但能提示错误字词,还能够根据权重提供更适合的字词和语法,能够对“一个意思可以有多种说法”的现象进行处理。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种语言文本的处理装置,其特征在于,包括:
存储单元,用于存储语言的字词对应信息和语法对应信息;
接收单元,用于接收用户的输入文本;
字词处理单元,用于根据所述字词对应信息对所述输入文本中的字词进行处理,得到初步字词处理结果;
语法处理单元,用于根据所述语法对应信息对所述输入文本中的语法结构进行处理,得到初步语法处理结果;
融合反馈单元,用于对所述初步字词处理结果和所述初步语法处理结果进行融合处理,得到并输出最终处理结果。
2.根据权利要求1所述的处理装置,其特征在于,所述字词对应信息包括不同语种之间的字词对应关系和/或不同方言之间的字词对应关系;
所述语法对应信息包括不同语种之间的语法对应关系和/或不同方言之间的语法对应关系。
3.根据权利要求2所述的处理装置,其特征在于,所述字词处理单元具体包括:
分词和对齐模块,用于从所述输入文本中分出最小的独立词并确定对应位置;
字词分析模块,根据所述字词对应信息确定所述独立词的对应字词,根据共现概率确定所述对应字词是否合适,并将合适的对应字词作为所述初步字词处理结果。
4.根据权利要求3所述的处理装置,其特征在于,所述语法处理单元具体包括:
预处理模块,用于确定所述输入文本的当前语法结构;
语法分析模块,用于根据所述语法对应信息和共现概率确定所述当前语法结构的对应语法结构,将所述对应语法结构作为所述初步语法处理结果。
5.根据权利要求4所述的处理装置,其特征在于,所述融合反馈单元具体包括:
冲突分析单元,用于对所述初步字词处理结果和所述初步语法处理结果进行冲突分析,将没有冲突的初步字词处理结果和初步语法处理结果合并后作为所述最终处理结果并进行输出;
迭代单元,用于将有冲突的初步字词处理结果和初步语法处理结果进行合并得到合并文本,并将所述合并文本作为输入文本返回给所述字词处理单元和/或所述语法处理单元,获得新的初步字词处理结果和/或新的初步语法处理结果并发送给所述冲突分析单元。
6.一种语言学习装置,其特征在于,包括:
存储单元,用于预先存储作为翻译学习对象的对象文本和所述对象文本对应的翻译答案文本;
输出单元,用于显示所述对象文本;
输入单元,用于接收用户输入的针对所述对象文本的翻译文本;以及,
分析判断单元,用于将所述翻译答案文本与所述输入单元获取的翻译文本进行比较,获得用于指示所述翻译文本的正确程度的比较结果。
7.根据权利要求6所述的语言学习装置,其特征在于,所述分析判断单元包括字词处理单元和语法处理单元;
所述字词处理单元,用于,根据所述翻译答案文本确定所述翻译文本中的错译字词;
所述语法处理单元,用于,根据所述翻译答案文本确定所述翻译文本中的错译语法。
8.根据权利要求7所述的语言学习装置,其特征在于,所述分析判断单元还包括融合反馈单元,用于,将所述错译字词对应的正确字词,以及所述错译语法对应的正确语法带入所述翻译文本,获得新的翻译文本,并将所述新的翻译文本发送给所述字词处理单元和所述语法处理单元。
9.根据权利要求8所述的语言学习装置,其特征在于,所述字词处理单元,还用于,根据所述翻译答案文本,确定所述翻译文本中的具有更适合字词的独立词;
所述语法处理单元,还用于,根据所述翻译答案文本,确定所述翻译文本中的具有更适合语法的当前语法。
10.根据权利要求9所述的语言学习装置,其特征在于,还包括:输出单元,用于:将所述错译字词及对应的正确字词、所述错译语法及对应的正确语法、所述独立词及对应的更适合字词,以及所述当前语法及对应的更适合语法作为所述正确程度的比较结果进行输出。
11.根据权利要求10所述的语言学习装置,其特征在于,所述输出单元通过屏幕显示方式或通过语音方式进行输出。
12.根据权利要求9或10所述的语言学习装置,其特征在于,
所述更适合字词为在所述独立词的对应字词中平方和权重大于所述独立词的字词;
所述更适合语法为在所述当前语法的对应语法中平方和权重大于所述当前语法的语法。
CN2009101488967A 2009-06-19 2009-06-19 一种语言文本的处理装置及语言学习装置 Pending CN101930430A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101488967A CN101930430A (zh) 2009-06-19 2009-06-19 一种语言文本的处理装置及语言学习装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101488967A CN101930430A (zh) 2009-06-19 2009-06-19 一种语言文本的处理装置及语言学习装置

Publications (1)

Publication Number Publication Date
CN101930430A true CN101930430A (zh) 2010-12-29

Family

ID=43369612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101488967A Pending CN101930430A (zh) 2009-06-19 2009-06-19 一种语言文本的处理装置及语言学习装置

Country Status (1)

Country Link
CN (1) CN101930430A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678270A (zh) * 2012-08-31 2014-03-26 富士通株式会社 语义单元抽取方法和语义单元抽取设备
CN104598443A (zh) * 2013-10-31 2015-05-06 腾讯科技(深圳)有限公司 语言服务提供方法、装置及系统
CN106598937A (zh) * 2015-10-16 2017-04-26 阿里巴巴集团控股有限公司 用于文本的语种识别方法、装置和电子设备
CN108595431A (zh) * 2018-04-28 2018-09-28 海信集团有限公司 语音交互文本纠错方法、装置、终端及存储介质
CN109753553A (zh) * 2018-12-03 2019-05-14 广东工业大学 自然语言的处理系统及方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678270A (zh) * 2012-08-31 2014-03-26 富士通株式会社 语义单元抽取方法和语义单元抽取设备
CN104598443A (zh) * 2013-10-31 2015-05-06 腾讯科技(深圳)有限公司 语言服务提供方法、装置及系统
CN106598937A (zh) * 2015-10-16 2017-04-26 阿里巴巴集团控股有限公司 用于文本的语种识别方法、装置和电子设备
CN106598937B (zh) * 2015-10-16 2019-10-18 阿里巴巴集团控股有限公司 用于文本的语种识别方法、装置和电子设备
CN108595431A (zh) * 2018-04-28 2018-09-28 海信集团有限公司 语音交互文本纠错方法、装置、终端及存储介质
CN109753553A (zh) * 2018-12-03 2019-05-14 广东工业大学 自然语言的处理系统及方法

Similar Documents

Publication Publication Date Title
CA3063006A1 (en) Neural paraphrase generator
Said et al. A hybrid approach for Arabic diacritization
Rei et al. Auxiliary objectives for neural error detection models
CN101930430A (zh) 一种语言文本的处理装置及语言学习装置
Ahmadi et al. An analysis of lexical bundles in research article abstracts by Iranian and native English-speaking authors of applied linguistics articles
Soto et al. Crowdsourcing universal part-of-speech tags for code-switching
Jantunen et al. Is There Any Hope for Developing Automated Translation Technology for Sign Languages?
US11216617B2 (en) Methods, computer readable media, and systems for machine translation between Arabic and Arabic sign language
Alosaimy et al. Tagging classical Arabic text using available morphological analysers and part of speech taggers
Anthes Automated translation of indian languages
Yessenbayev et al. KazNLP: A pipeline for automated processing of texts written in Kazakh language
Ganji et al. Novel textual features for language modeling of intra-sentential code-switching data
Mesch et al. From meaning to signs and back: Lexicography and the Swedish Sign Language Corpus
KR20120045906A (ko) 코퍼스 오류 교정 장치 및 그 방법
Prasad et al. Computational evidence that Hindi and Urdu share a grammar but not the lexicon
KR20150029304A (ko) 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 장치 및 방법
CN113822053A (zh) 一种语法错误检测方法、装置、电子设备及存储介质
CN109446537B (zh) 一种针对机器翻译的译文评估方法及装置
Jitta et al. “nee intention enti?” towards dialog act recognition in code-mixed conversations
Alberts Meeting them halfway: Altering language conventions to facilitate human-robot interaction
Htun et al. Statistical Machine Translation System Combinations on Phrase-based, Hierarchical Phrase-based and Operation Sequence Model for Burmese and Pa’O Language Pair
Wu et al. Correcting serial grammatical errors based on n-grams and syntax
Elia et al. From the concept of transformation in Harris and Chomsky to the Lexique-Grammaire of Maurice Gross
Birshert et al. Call Larisa Ivanovna: Code-Switching Fools Multilingual NLU Models
Rösener A linguistic intelligent system for technology enhanced learning in vocational training–the ILLU project

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20101229