CN102043770A - 依据语言单元的词性建立类别的翻译系统及其方法 - Google Patents
依据语言单元的词性建立类别的翻译系统及其方法 Download PDFInfo
- Publication number
- CN102043770A CN102043770A CN2009101781905A CN200910178190A CN102043770A CN 102043770 A CN102043770 A CN 102043770A CN 2009101781905 A CN2009101781905 A CN 2009101781905A CN 200910178190 A CN200910178190 A CN 200910178190A CN 102043770 A CN102043770 A CN 102043770A
- Authority
- CN
- China
- Prior art keywords
- speech
- unit
- classification
- attribute
- order
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种依据语言单元的词性建立类别的翻译系统及其方法,其通过将来源资料剖析为语言单元后,依据各个语言单元的第一词性,判断出来源资料的句型并建立相对应的第一类别,之后在依据来源资料的句型产生第二词性后,依据第二词性的排列顺序,组合相对应的第二类别中所记录的语义为目标资料的技术手段,可以准确翻译,并达成判断来源资料的文法是否正确的技术功效。
Description
技术领域
本发明涉及一种翻译系统及其方法,特别涉及一种依据语言单元的词性建立类别的翻译系统及其方法。
背景技术
翻译软件会对输入的来源资料进行分析,然后将属于第一语言的来源资料翻译为属于第二语言的目标资料,基本上这是一种自然语言理解的应用,也是自然语言处理技术的一项主要目标。
目前的翻译软件大多是先将来源资料中所包含的单词进行翻译后,再以预定的排列方式排列翻译后的资料,如此便可以将属于第一语言的来源资料转变为属于第二语言的目标资料,但是翻译软件所翻出来的目标资料通常没有办法直接理解,例如来源资料为「我在一家公司上班」时,翻译软件翻译产生的目标资料为「I go to work at a company」,明显的,使用者还需要自行解读后才可以获得其所需要的目标资料。另外,目前的翻译软件也无法将意思相同,且组成相似的来源资料翻译出相同的目标资料,例如来源资料为「狗追树」时,翻译软件产生的目标资料为「Dog chasing the tree」,来源资料为「狗追赶树」时,翻译软件产生的目标资料为「Tree chasing a dog」,来源资料为「狗追赶着树」时,翻译软件产生的目标资料为「The dog to catch up with the tree」,这将造成使用者无法获得正确的目标资料。
综上所述,可知现有技术中长期以来一直存在翻译技术无法将来源资料准确的翻译为目标资料的问题,因此有必要提出改进的技术手段,来解决此一问题。
发明内容
有鉴于现有技术存在无法准确进行翻译的问题,本发明遂提供一种依据语言单元的词性建立类别的翻译系统及其方法,其中:
本发明所提供的依据语言单元的词性建立类别的翻译系统,至少包含:输入模块,用以输入属于第一语言的一来源资料;模型建立模块,其中更包含:语言剖析单元,用以将来源资料剖析为复数语言单元;词性判断单元,用以判断各语言单元的第一词性;第一类别建立单元,用以分别建立包含词性属性及第一语义属性的各第一类别,及用以将各语言单元的语义分别设定为各第一类别所包含的第一语义属性,其中,各第一类别所包含的词性属性与各第一词性相同;句型判断单元,用以依据各第一词性的排列顺序判断来源资料的一句型;一模型解除模块,其中更包含:词性产生单元,用以依据句型产生以特定顺序排列的复数第二词性;第二类别建立单元,用以依据各第二词性分别建立包含词性属性的各第二类别,其中,各第二类别所包含的词性属性与各第二词性相同;语意查找单元,用以依据各第一类别包含的第一语义属性查找第二语言中的相同的语义,使第二类别建立单元将语意查找单元所查找出的各语义分别设定为各第二类别的第二语义属性;语义组合单元,用以依据各第二词性的排列顺序,排列各第二类别,及用以组合以排序的各第二类别包含的第二语义属性所记录的各语义为目标资料;输出模块,用以输出目标资料。
本发明所提供的依据语言单元的词性建立类别的翻译方法,其步骤至少包括:输入属于第一语言的来源资料;剖析来源资料为复数语言单元;判断各语言单元的第一词性;分别建立包含词性属性的各第一类别,各第一类别所包含的词性属性与各第一词性相同;分别设定各语言单元的语义为各第一类别所包含的第一语义属性;依据各第一词性的排列顺序判断来源资料的句型;依据来源资料的句型产生以特定顺序排列的复数第二词性;依据各第二词性分别建立包含词性属性的各第二类别,各第二类别所包含的词性属性与各第二词性相同;依据各第一类别包含的第一语义属性查找第二语言中的相同的语义;分别设定各语义为各第二类别的第二语义属性;依据各第二词性的排列顺序排列各第二类别;组合以排序的各第二类别包含的第二语义属性所记录的各语义为目标资料;输出目标资料。
本发明所提供的系统与方法如上,与现有技术之间的差异在于本发明通过将来源资料剖析为语言单元后,依据各个语言单元对应第一语言的第一词性,判断出来源资料的句型并建立相对应的第一类别,之后在依据来源资料的句型产生对应第二语言的第二词性后,依据第二词性的排列顺序,组合相对应的第二类别中所记录的语义为目标资料,借以解决现有技术所存在的问题,并可以达成判断来源资料的文法是否正确的技术功效。
附图说明
图1A为本发明所提的依据语言单元的词性建立类别的翻译系统架构图。
图1B为本发明所提的模型建立模块的组件示意图。
图1C为本发明所提的模型解除模块的组件示意图。
图2A为本发明所提的依据语言单元的词性建立类别的翻译方法流程图。
图2B为本发明所提的汇编语言单元的方法流程图。
图2C为本发明所提的附加翻译方法流程图。
图2D为本发明所提的设定第二类别的属性的附加方法流程图。
图3为本发明实施例所提的描绘图像的示意图。
【主要组件符号说明】
110输入模块
120模型建立模块
121语言剖析单元
122词性判断单元
125第一类别建立单元
126句型判断单元
129逻辑判断单元
130模型解除模块
132词性产生单元
135第二类别建立单元
136语义查找单元
137语义组合单元
138语义筛选单元
139时态调整单元
140输出模块
410第一图像
420第二图像
430第三图像
440第四图像
450第五图像
具体实施方式
以下将配合图式及实施例来详细说明本发明的特征与实施方式,内容足以使任何本领域技术人员能够轻易地充分理解本发明解决技术问题所应用的技术手段并据以实施,借此实现本发明可达成的功效。
本发明所提的第一语言以及第二语言通常属于不同语种的语言,但本发明并不以此为限,例如第一语言为中文,第二语言则为英文,但本发明所提的第一语言、第二语言并不分别以中文、英文为限,也可以是日文、德文等。
以下先以图1A本发明所提的依据语言单元的词性建立类别的翻译系统的系统架构图来说明本发明的系统运作。如图1A所示,本发明的系统含有输入模块110、模型建立模块120、模型解除模块130、以及输出模块140。其中,模型建立模块120如图1B所示,更包含语言剖析单元121、词性判断单元122、第一类别建立单元125、以及句型判断单元126;模型解除模块130如图1C所示,更包含词性产生单元132、第二类别建立单元135、语义查找单元136、以及语义组合单元137。
输入模块110负责输入属于第一语言的来源资料,被输入模块110所输入的来源资料通常为一个句子,但本发明并不以此为限,也可以是一段文章等。一般而言,来源资料由输入模块110提供使用者输入。
语言剖析单元121负责将来源资料剖析为多个语言单元。语言剖析单元121每一次只会提取(fetch)来源资料中的一个语言元素,语言剖析单元121每次所提取的语言元素在不同的语言中可能会有不同,例如,中文为一个「字」、英文可能为一个「字母」或是一个「单字」、日文为一个「音」或一个「单词」等,但本发明所提的语言元素并不以此为限。
在大部分的情况下,语言剖析单元121会将每次所提取的语言元素定义为一个语言单元,但若语言剖析单元121在提取语言元素并定义语言单元后,判断最后定义的语言元素可以与先前所定义的语言元素组合,则会改变原先的定义,而改以将多个语言元素定义为一个语言单元。其中,语言剖析单元121判断是否要将多个语言单元定义为一个语言单元的条件如下举例,但本发明并不以此为限。
语言剖析单元121会依据最后定义的语言单元与先前历次定义的语言单元组合后是否成为完整的单字或单词,判断是否要将多个语言单元定义为一个语言单元,例如语言剖析单元121最后定义的语言单元为「b」,的前两次定义的语言单元分别为「t」、「a」,则语言剖析单元121可以通过预先建立的字典,判断出最近三次定义的语言单元的组合「tab」有意义之后,重新定义最近三次定义的语言单元「t」、「a」、「b」为一个语言单元「tab」。
语言剖析单元121也能够依据最后定义的语言单元与前次定义的语言单元组合后的语义是否仍与前次定义的语言单元的语义相同,判断是否要将多个语言单元定义为一个语言单元,例如语言剖析单元121最后定义的语言单元为「取」,而前次定义的语言单元为「读」,语言剖析单元121可以通过预先建立的语义资料库,判断出「读」以及「读取」的语义相同后,重新定义前次与最后定义的语言单元「读取」为一个语言单元。
语言剖析单元121还可以依据最后定义的语言单元与先前数次定义的语言单元是否可以组合为一个具有特定词性的词组,判断是否要将多个语言单元定义为一个语言单元,例如,将「我提水桶追狗」中的「我提水桶」定义为一个语言单元,其中「我提水桶」的词性为名词。
语言剖析单元121也可以依据第一语言的特性,将多个语言单元定义为一个语言单元,例如当第一语言属于西欧语系时,如「英文」,当语言剖析单元121提取到的语言元素为空白、「,」或「.」等符号时,语言剖析单元121可以将前次提取到的语言元素间所定义出的语言单元(如「i」、「s」)重新定义为一个语言单元「is」。
词性判断单元122负责判断语言剖析单元121所剖析出的语言单元的第一词性,语言单元的第一词性例如「名词」、「动词」、「形容词」、「副词」、「介词」、「数词」、「量词」等,词性判断单元122所判断出的第一词性甚至可以更为细分,例如将「名词」再细分为「动物名词」、「植物名词」等,但本发明并不以此为限。
一般而言,词性判断单元122会依据语言剖析单元121所剖析出的全部或部分的语言单元或语言单元的语义等条件或来判断第一词性,但词性判断单元122判断第一词性的方式并不以此为限。例如,当语言剖析单元121所剖析出的语言单元为「一」、「家」以及「饭店」时,词性判断单元122会依据语言单元「一」的语义判断出语言单元「一」的第一词性为「数词」,若词性判断单元122由语言单元「家」的语义(数量单位、亲属生活的地方等)判断第一词性,则词性判断单元122可能无法判定语言单元「家」的第一词性为「量词」或是「名词」等,但若词性判断单元122依据排列于语言单元「家」之前的语言单元「一」的第一词性「数词」来判断语言单元「家」的第一词性,则词性判断单元122可以判断出语言单元「家」的第一词性应为「量词」。
第一类别建立单元125负责依据词性判断单元122对各语言单元判断出的各个第一词性分别建立与各语言单元相对应的第一类别,被第一类别建立单元125建立的第一类别至少包含词性属性以及第一语义属性,其中,词性属性预设与第一类别对应的语言单元的第一词性相同。第一类别建立单元125在第一类别建立后,还会将语言单元的语义设定为相对应的第一类别所包含的第一语义属性的资料。
一般而言,第一类别建立单元125中预存有词性属性为各种词性的类别,在需要建立第一类别时,第一类别建立单元125会以复制词性属性与语言单元的第一词性相同的类别的方式建立第一类别,但第一类别建立单元125建立第一类别的方式并不以此为限。其中,预存于第一类别建立单元125中的类别所包含的属性以及方法会随着词性属性不同而有不同。例如,词性属性为「名词」的类别包含名称为「moveable」的属性,而词性属性不为「名词」的类别将不会有名称为「moveable」的属性。又如,词性属性为「动词」的类别包含「引入」的方法,以及相对应的参数,而词性属性不为「动词」的类别则没有方法「引入」。
另外,第一类别建立单元125更可以依据与被建立的第一类别对应的第一词性设定该第一类别中的其它属性或该第一类别中的方法的参数,例如,当第一词性为「动物名词」时,第一类别建立单元125可以设定属性「moveable」为「true」,而当第一词性为「植物名词」时,第一类别建立单元125可以设定属性「moveable」为「false」,但本发明并不以此为限,又如,当第一词性为「动词」时,第一类别建立单元125可以设定对应方法「引入」的参数为「moveable,moveable」。
句型判断单元126负责依据语言剖析单元121所剖析出的各语言单元在来源资料中的排列顺序,以及依据词性判断单元122对各个语言单元的第一词性判断来源资料的句型。一般而言,句型判断单元126在依据各语言单元的排列顺序排列各语言单元的第一词性后,会以排列后的第一词性的组合比对预设的句型对应表中的资料,借以判断出来源资料的句型,但句型判断单元126判断来源资料的句型的方式并不以此为限。例如,句型判断单元126会依据来源资料「你打我」中的各个语言单元「你」、「打」、「我」的第一词性「名词」、「动词」、「名词」的组合至资料表中查找出来源资料的句型为「什么对什么做什么」。事实上,由于各第一类别所包含的词性属性记录相对应的语言单元被词性判断单元122所判断出的第一词性,故句型判断单元126也可以依据第一类别建立单元125所建立的第一类别的顺序以及各个第一类别所包含的词性属性判断来源资料的句型。
句型判断单元126除了依据各语言单元的排列顺序排列各语言单元的第一词性判断来源资料的句型外,若包含词性为「副词」、「介词」等词性的语言单元,则句型判断单元126可能还需要依据该语言单元的语义来判断来源资料的句型。例如,来源资料「我正在工作」中的各个语言单元「我」、「正在」、「工作」的第一词性为「名词」、「副词」、「动词」,则句型判断单元126需要以「名词」、「副词:正在」、「动词」的组合才能够至资料表中查找出来源资料的句型为「什么正在做什么」。
句型判断单元126除了依据各语言单元的排列顺序排列各语言单元的第一词性判断来源资料的句型外,若包含词性为「数词」、「量词」等词性的语言单元时,由于该些词性并不会影响来源资料的句型,因此句型判断单元126在判断来源资料的句型时,会忽略该些词性。例如,来源资料「我在一家公司中」中的各个语言单元「我」、「在」、「一」、「家」、「公司」的第一词性为「名词」、「副词」、「数词」、「量词」、「名词」时,其句型与「我在公司中」相同,因此句型判断单元126只需要以「名词」、「副词」、「名词」的组合便能够至资料表中查找出来源资料的句型为「什么在什么地方」。
经由语言剖析单元121、词性判断单元122、第一类别建立单元125、以及句型判断单元126的运作,模型建立模块120便可以依据来源资料建立多个第一类别以及取得来源资料的句型,借以将各个第一类别以及来源资料的句型提供给模型解除模块130使用。
另外,模型建立模块120更可以额外附加逻辑判断模块129,逻辑判断模块129会依据第一类别建立单元125所建立的第一类别中的各个属性以及方法来判断来源资料的语法是否正确。例如当来源资料为「狗追树」,第一类别建立单元125将建立第一语义属性为「狗」、词性属性为「名词」、属性「moveable」为「true」的第一类别、第一语义属性为「追」、词性属性为「动词」、对应方法「引入」的参数为「moveable,moveable」的第一类别、以及第一语义属性为「树」、词性属性为「名词」、属性「moveable」为「false」的第一类别等三个第一类别,如此,逻辑判断模块129将可以依据第一语义属性为「追」的第一类别的方法「引入」所对应的参数「moveable,moveable」判断第一语义属性为「追」的第一类别的前后需要是「moveable」属性「true」的第一类别,由于第一语义属性为「狗」的第一类别的「moveable」属性「true」、第一语义属性为「树」的第一类别的「moveable」属性「false」,故逻辑判断模块129将会判断出来源资料「狗追树」的逻辑有误。
词性产生单元132负责依据模型建立模块120所提供的来源资料的句型产生以特定顺序排列的多个第二词性(以下称为「第二词性组」)。词性产生单元132所产生的各个第二词性通常会分别与第一词性有一对一的关系。
一般而言,词性产生单元132会至与第二语言对应的预设的词性对应表中查找与来源资料的句型对应的第二词性组,但词性产生单元132产生第二词性组的方式并不以此为限。例如,当来源资料的句型为「什么在做什么」时,若第二语言为「英文」,则词性产生单元132会以来源资料的句型为「什么正在做什么」至与第二语言「英文」对应的词性对应表中查找出相对应的第二词性组,组成被查找出的第二词性组的第二词性依序为「名词」、「Be动词」、「一般动词」。其中,第二词性「名词」、「Be动词」、「一般动词」分别与第一词性的「名词」、「副词」、「动词」对应。
第二类别建立单元135负责依据词性产生单元132所产生的各个第二词性分别建立包含的词性属性与第二词性相同的第二类别。第二类别建立单元135与第一类别建立单元125相似,会预存有词性属性为各种词性的类别,在需要建立第二类别时,第二类别建立单元135会以复制词性属性与第二词性相同的类别的方式建立第二类别,但第二类别建立单元135建立第二类别的方式并不以此为限。其中,预存于第二类别建立单元135中的类别所包含的属性以及方法会随着词性属性不同而有不同。
语义查找单元136负责在第二类别建立单元135建立第二类别后,依据第一类别包含的第一语义属性所记录的语义,至资料库中查找在使用第二语言所表示的意义相同的语义,并提供查找出的语义给第二类别建立单元135,使第二类别建立单元135依据第一词性以及第二词性的对应关系,将被查找出来的语义设定为第二类别中与第二语言对应的第二语义属性。
例如,当第二词性「名词」、「Be动词」、「一般动词」分别与第一词性「名词」、「副词」、「动词」对应时,语义查找单元136会依据词性属性为「名词」的第一类别包含的第一语义属性所记录的语义「我」,查找出在第二语言中相同的语义「I」,之后,第二类别建立单元135会依据第一词性以及第二词性间的对应关系,判断出第一词性「名词」与第二词性「名词」对应,所以设定词性属性为「名词」的第二类别所包含的第二语义属性为「I」。
另外,在语义查找单元136查找出词性属性为「副词」的第一类别包含的第一语义属性所记录的语义「正在」在第二语言中的语义为「am」/「are」/「is」后,若本发明中还包含语义筛选单元138,则在语义筛选单元138依据词性属性为「名词」的第二类别所包含的第二语义属性为「I」选择出最适合的语义「am」后,第二类别建立单元135会依据第一词性「副词」对应第二词性「Be动词」,设定词性属性为「Be动词」的第二类别包含的第二语义属性为「am」。事实上,语义筛选单元138除了可以选择最适合主词的动词之外,也可以由所表示的意义相同的多个语义中,选出最适合者,例如由具有相同中文意义的英文单词中选择其中之一。
而在语义查找单元136查找出词性属性为「动词」的第一类别包含的第一语义属性所记录的语义「工作」在第二语言中的语义为「work」后,若本发明中还包含时态调整单元139,则在时态调整单元139依据各第二词性的排列顺序判断排列于「一般动词」前的第二词性为「Be动词」后,会将语义查找单元136所查找出的语义「work」调整为时态最适合的语义「working」,并提供给第二类别建立单元135,使第二类别建立单元135将词性属性为「一般动词」的第二类别包含的第二语义属性设定为「working」。事实上,时态调整单元139除了调整动词的时态之外,若第二语言不为「英文」而为其它语言时,则可能需要调整主词等词性的时态,如西班牙文或日文等。
语义组合单元137负责依据词性产生单元132所产生的各个第二词性的排列顺序,依序读取词性属性为各第二词性的第二类别所包含的第二语义属性所记录的语意后,组合读出的语义为目标资料。例如,当第二词性组依序为「名词」、「Be动词」、「一般动词」时,语义组合单元137会依序读取词性属性为「名词」、「Be动词」、「一般动词」的第二类别所包含的第二语义属性中所记录的语义「I」、「am」、「working」,之后将读出的语义「I」、「am」、「working」组合为目标资料「I am working」,但语义组合单元137读取各第二类别包含的第二语义属性所记录的资料的方式并不以此为限,语义组合单元137也可以先读出所有第二类别包含的第二语义属性所记录的语义后,再依据各第二词性的排列顺序,分别排列词性属性与各第二词性相同的第二类别,借以将各个第二类别包含的第二语义属性所记录的语义排列为目标资料。
通过词性产生单元132、第二类别建立单元135、语义查找单元136、以及语义组合单元137,模型解除模块130便可以依据模型建立模块120所提供的各个第一类别以及来源资料的句型产生属于第二语言的目标资料。
输出模块140负责输出属于第二语言的目标资料。输出模块140可以显示的方式输出目标资料,也可以将目标资料传递给本发明之外的软件或硬件的方式输出,但输出模块140输出目标资料的方式并不以此为限。
接着以一个实施例来解说本发明的运作系统与方法,并请参照图2A本发明所提的依据语言单元的词性建立类别的翻译方法的方法流程图。本实施例描述中文翻译为英文的过程,也就是说,在本实施例中,第一语言为「中文」,第二语言为「英文」,但本发明所提的第一语言以及第二语言并不仅限于「中文」以及「英文」。
当使用者使用本发明时,首先会通过输入模块110输入「中文(第一语言)」的来源资料(步骤301)。假设在本实施例中,使用者所输入的来源资料为「我在一家公司上班」,但本发明所提的来源资料并不以此为限。
在输入模块110输入来源资料(步骤301)后,与「中文」对应的模型建立模块120会开始运作。模型建立模块120中的语言剖析单元121会将来源资料剖析为多个语言单元(步骤311)。由于在本实施例中,来源资料为「我在一家公司上班」,因此语言剖析单元121首先会提取到一个字(语言元素)「我」,并定义「我」为一个语言单元,而后,语言剖析单元121会逐次提取出「在」、「一」、「家」、「公」、「司」、「上」、「班」的语言元素,借以定义出各个语言单元。事实上,语言剖析单元121更可以如图2B所示,进一步判断出「公」、「司」以及「上」、「班」两组语言元素在合并后将成为完整的单词(步骤312),因此会分别将被定义为「公」、「司」以及「上」、「班」的语言单元合并后,定义被合并产生的单词「公司」以及「上班」为新的语言单元,所以语言剖析单元121会由来源资料「我在一家公司上班」中剖析出「我」、「在」、「一」、「家」、「公司」、「上班」等语言单元。值得一提的是,语言剖析单元121将两个以上的语言单元合并并定义为新的语言单元的步骤312并非为本发明的必要步骤。
在模型建立模块120中的语言剖析单元121将来源资料剖析为多个语言单元(步骤311)后,模型建立模块120中的词性判断单元122会判断语言剖析单元121所剖析出的各个语言单元的第一词性(步骤320)。在本实施例中,词性判断单元122会依据语言单元「我」、「在」、「一」、「公司」的语义,直接判断出语言单元「我」、「在」、「一」、「公司」的第一词性分别为「名词」、「介词」、「数词」、「名词」,而词性判断单元122依据语言单元「家」语义判断出其可能为「量词」或「名词」后,会进一步依据排列于其之前的语言单元「一」的第一词性为「数词」而判断出此处的语言单元「家」为「量词」,另外,虽然词性判断单元122由语言单元「上班」的语义可以判断出其可能为「名词」或「动词」后,因为无法用其它适合的条件来判断出语言单元「上班」的词性,故词性判断单元122会先行忽略,而保留语言单元「上班」的词性为「名词」或「动词」。
在模型建立模块120中的词性判断单元122完成各个语言单元的第一词性的判断(步骤320)后,模型建立模块120中的句型判断单元126会依据各个语言单元在来源资料中的排列顺序,排列各个语言单元的第一词性,并再依据排列后的第一词性判断来源资料的句型(步骤340)。在本实施例中,句型判断单元126会依据词性判断单元122判断出的第一词性的排列顺序「名词」、「介词(在)」、「数词」、「量词」、「名词」、「名词/动词」,判断出来源资料「我在一家公司上班」的句型为「什么在什么地方做什么」。其中,句形判断单元126更可以将「数词」「量词」「名词」的排列组合定义为一组名词后,依据「名词」、「介词(在)」、「名词」、「名词/动词」的组合,判断出来源资料「我在一家公司上班」的句型为「什么在什么地方做什么」。
值得一提的是,在来源资料「我在一家公司上班」的句型被判断出来之后,词性判断单元122更可以依据句型「什么在什么地方做什么」中的「做什么」判断出无法确定第一词性的语言单元「上班」的第一词性为「动词」(请参考图2C步骤335)。
在模型建立模块120中的词性判断单元122判断出各个语言单元的第一词性(步骤320)后,模型建立模块120中的第一类别建立单元125会依据各个语言单元的第一词性,建立包含的词性属性与各第一词性相同的第一类别(步骤331),并将各语言单元的语义设定至各第一类别所包含的第一语义属性中(步骤332)。在本实施例中,若第一类别建立单元125所建立的第一类别至少包含「第一语义属性」、「词性属性」、「图像属性」等属性,则第一类别建立单元125所建立的第一类别分别继承自名词类别、介词类别、数词类别、量词类别、名词类别、动词类别,则第一类别的词性属性将分别为「名词」、「介词」、「数词」、「量词」、「名词」、「动词」,且第一类别包含的「第一语义属性」将分别为「我」、「在」、「一」、「家」、「公司」、「上班」。其中,「词性属性」不同的第一类别则可能会有不同的属性,例如继承名词类别的第一类别可能会包含有「地点」属性等,如此,当第一类别建立单元125在建立词性属性为「名词」的第一类别后,更可以依据来源资料的句型,将第一语义属性为「公司」的第一类别的「地点」属性设定为「true」(图2C步骤336),借以提供模型解除模块130使用。
另外,由于在本实施例中,第一类别更包含「图像属性」,因此当第一类别被建立时,模型建立模块120中将会描绘出各个第一类别的图像属性中所记录的对象,也就是说,在第一语义属性为「我」的第一类别被建立时,模型建立模块120将会描绘出第一图像410,而当第一语义属性为「在」、「一」、「公司」、「上班」的第一类别依序被建立后,模型建立模块120将会描绘的第二图像420至第五图像450将如图3所示,但本发明并不以此为限。其中,由于词性属性为「量词」(第一语义属性为「家」)的第一类别所包含的图像属性不会有资料,因此模型建立模块120没有描绘出任何的图像。
若模型建立模块120中还包含逻辑判断单元129,则此时逻辑判断单元129会依据各个第一类别的各个属性以及方法来判断来源资料「我在一家公司上班」的逻辑是否正确(步骤350)。
在模型建立模块120中的句型判断单元126依据各第一词性的排列顺序判断来源资料的句型(步骤340)以及模型建立模块120中的第一类别建立单元125完成第一类别的建立以及属性的设定(步骤331、步骤332)后,与英文(第二语言)对应的模型解除模块130会开始运作。
模型解除模块130中的词性产生单元132会先依据模型建立模块120所提供的来源资料的句型产生以特定顺序排列的第二词性(步骤360)。由于在本实施例中,来源资料的句型为「什么在什么地方做什么」,因此词性产生单元132会产生依序为「名词」、「动词」、「介词」、「名词」的第二词性。
在词性产生单元132依据来源资料的句型产生以特定顺序排列的第二词性(步骤360)后,第二类别建立模块135会依据词性产生单元132所产生的各第二词性,分别建立包含的词性属性与各个第二词性相同的第二类别(步骤371)。在本实施例中,假设第二类别建立单元135所建立的第二类别至少包含「第二语义属性」、「词性属性」等属性,且第二类别建立单元135会依据各个第二词性,以继承名词类别、数词类别、介词类别、名词类别的方式建立词性属性分别为「名词」、「动词」、「介词」、「名词」的第二类别。
在第二类别建立模块135建立包含的词性属性与各个第二词性相同的第二类别(步骤371)后,语义查找单元136会依据各第一类别包含的第一语义属性所记录的属于第一语言的语义,查找出属于第二语言的相同语义(步骤372)。在本实施例中,语义查找单元136查找与各个第一类别包含的第一语义属性所记录的属于「中文」的语义「我」、「在」、「一家公司」、「上班」相同的属于「英文」的语义「I」、「in」、「a company」、「work」。
若模型解除模块130中还包含语义筛选单元138时,则如图2D的流程所示,在语义查找单元136依据属于第一语言的语义查找出多个属于第二语言的相同语义后,语义筛选单元138会由多个属于第二语言的语义中筛选出最适合的一个(步骤375),例如,语义查找单元136所查找出的与「中文」语义「公司」相同的「英文」语义为「company」、「corporation」、「firm」,则语义筛选单元138会由其中筛选出最常用的语义「company」来做为最适合的语义,但语义筛选单元138筛选语义的方式并不以此为限。
而若模型解除模块130中包含时态调整单元139,则同样会如图2D的流程所示,在语义查找单元136依据属于第一语言的语义查找出属于第二语言的相同语义后,时态调整单元139会将需要改变时态的语义进行调整(步骤376),例如,语义查找单元136所查找出的与「中文」语义「工作」相同的「英文」语义为「work」,若时态调整单元139判断第二词性中包含「Be动词」、「时间副词」或是与语义「work」相邻的语义为第三人称单数时,时态调整单元139会将语义「work」修改为最合适的时态,由于时态调整单元139判断出第二词性中没有包含「Be动词」以及「时间副词」,且与语义「work」相邻的第二词性为「名词」的语义「I」不为第三人称,故时态调整单元139在本实施例中不会调整语义「work」的时态,但时态调整单元139调整时态的方式并不以此为限。
在语义查找单元136依据各第一类别包含的第一语义属性所记录的属于第一语言的语义,查找出属于第二语言的相同语义(步骤372)后,第二类别建立模块135会将各个语义设定为各个第二类别的第二语义属性(步骤378)。在本实施例中,语义查找单元136查找出的属于「英文」的语义「I」、「in」、「a company」、「work」会分别被设定为词性属性为「名词」、「介词」、「名词」、「动词」的第二类别包含只第二语义属性中。
在第二类别建立模块135将各个语义设定为各个第二类别的第二语义属性(步骤378)后,语义组合单元137会依据词性产生单元132所产生的第二词性的排列顺序,排列包含的词性属性与第二词性相同的第二类别(步骤391),并依照排列后的顺序,将以排序的第二类别包含的第二语义属性所记录的语义组合为目标资料(步骤392)。例如,在本实施例中,语义组合单元137会依照词性产生单元132所产生的第二词性的排列顺序「名词」、「动词」、「介词」、「名词」来排列第二类别。不过因为在本实施例中,包含两个词性属性为「名词」的第二类别,故语义组合单元137还需要判断两个包含的词性属性相同的第二类别的次序,假设在本实施例中,继承自名词类别的第二类别中更包含有「大小」的属性,则若第二类别建立单元135在建立第二语义属性为「1」的第二类别时,还有设定第二类别的「大小」属性为「0.5-1立方米」,而第二类别建立单元135在建立第二语义属性为「company」的第二类别时,还有设定第二类别的「大小」属性为「10 100立方米」,则语义组合单元137会依据第二类别包含的「大小」属性判断出第二语义属性「I」的大小小于第二语义属性「company」,所以语义组合单元137会将「大小」属性较低的第二类别排列在词性属性为「动词」的第二类别之前,并将「大小」属性较大的第二类别排列在词性属性为「介词」的第二类别之后,最后再依序读出各个第二类别包含的第二语义属性所记录的语义「I」、「work」、「in」、「a company」,并组合为目标资料「I work in a company」。其中,值得一提的是,语义组合单元137需要判断两个包含的词性属性相同的第二类别的次序的步骤并不是必须的,在没有词性属性相同的第二类别的情况下,语义组合单元137可以省略此步骤。
在语义组合单元137将排序后的第二类别包含的第二语义属性所记录的语义组合为目标资料(步骤392)后,输出模块140会输出目标资料(步骤395),假设在本实施例中,输出模块140会以显示的方式输出目标资料,则使用者便可以观看到本发明将来源资料「我在一家公司工作」翻译为目标资料「I work in a company」的结果。
综上所述,可知本发明与现有技术之间的差异在于具有将来源资料剖析为语言单元后,依据各个语言单元对应第一语言的第一词性,判断出来源资料的句型并建立相对应的第一类别,之后在依据来源资料的句型产生对应第二语言的第二词性后,依据第二词性的排列顺序,组合相对应的第二类别中所记录的语义为目标资料的技术手段,借由此一技术手段可以解决现有技术所存在法准确进行翻译的问题,进而达成判断来源资料的文法是否正确的技术功效。
再者,本发明的依据语言单元的词性建立类别的翻译方法,可实现于硬件、软件或硬件与软件的组合中,亦可在计算机系统中以集中方式实现或以不同组件散布于若干互连的计算机系统的分散方式实现。
虽然本发明所提供的实施方式如上,但所述的内容并非用以直接限定本发明的专利保护范围。任何本领域技术人员,在不脱离本发明所公开的精神和范围的前提下,对本发明的实施的形式上及细节上作些许的更动润饰,均属于本发明的专利保护范围。本发明的专利保护范围,仍须以所附的权利要求所界定者为准。
Claims (10)
1.一种依据语言单元的词性建立类别的翻译方法,其特征在于,该翻译方法至少包含下列步骤:
输入属于一第一语言的一来源资料;
剖析该来源资料为复数语言单元;
判断各该语言单元的第一词性;
分别建立包含一词性属性的各第一类别,各该第一类别所包含的该词性属性与各该第一词性相同;
分别设定各该语言单元的语义为各该第一类别所包含的第一语义属性;
依据各该第一词性的排列顺序判断该来源资料的一句型;
依据该句型产生以特定顺序排列的复数第二词性;
依据各该第二词性分别建立包含一词性属性的各第二类别,各该第二类别所包含的该词性属性与各该第二词性相同;
依据各该第一类别包含的第一语义属性查找一第二语言中的相同的语义;
分别设定各该语义为各该第二类别的第二语义属性;
依据各该第二词性的排列顺序排列各该第二类别;
组合以排序的各该第二类别包含的第二语义属性所记录的各该语义为一目标资料;及
输出该目标资料。
2.如权利要求1所述的依据语言单元的词性建立类别的翻译方法,其特征在于,该翻译方法于该剖析该来源资料为各该语言单元的步骤后,更包含组合合并后的语义不变、合并后成为完整的单字或单词、或合并后成为词组的复数语言单元为一新语言单元的步骤。
3.如权利要求1所述的依据语言单元的词性建立类别的翻译方法,其特征在于,该依据各该第二词性的排列顺序排列各该第二类别的步骤更包含判断词性属性相同的该些第二类别的排列顺序的步骤。
4.如权利要求1所述的依据语言单元的词性建立类别的翻译方法,其特征在于,该翻译方法于该依据各该第一类别包含的第一语义属性查找该第二语言中的相同的语义的步骤后,更包含由查找出的复数语意中选择最适合者的步骤。
5.如权利要求1所述的依据语言单元的词性建立类别的翻译方法,其特征在于,翻译方法于该依据各该第一类别包含的第一语义属性查找该第二语言中的相同的语义的步骤后,更包含调整各该第二类别包含的第二语义属性所记录的语义的时态的步骤。
6.一种依据语言单元的词性建立类别的翻译系统,其特征在于,该翻译系统至少包含:
一输入模块,用以输入属于一第一语言的一来源资料;
一模型建立模块,包含:
一语言剖析单元,用以将该来源资料剖析为复数语言单元;
一词性判断单元,用以判断各该语言单元的第一词性;
一第一类别建立单元,用以分别建立包含一词性属性及一第一语义属性的各第一类别,及用以将各该语言单元的语义分别设定为各该第一类别所包含的该第一语义属性,其中,各该第一类别所包含的该词性属性与各该第一词性相同;及
一句型判断单元,用以依据各该第一词性的排列顺序判断该来源资料的一句型;
一模型解除模块,包含:
一词性产生单元,用以依据该句型产生以特定顺序排列的复数第二词性;
一第二类别建立单元,用以依据各该第二词性分别建立包含一词性属性的各第二类别,其中,各该第二类别所包含的该词性属性与各该第二词性相同;
一语意查找单元,用以依据各该第一类别包含的第一语义属性查找一第二语言中的相同的语义,使该第二类别建立单元将该语意查找单元所查找出的各该语义分别设定为各该第二类别的第二语义属性;及
一语义组合单元,用以依据各该第二词性的排列顺序,排列各该第二类别,及用以组合以排序的各该第二类别包含的第二语义属性所记录的各该语义为一目标资料;及
一输出模块,用以输出该目标资料。
7.如权利要求6所述的依据语言单元的词性建立类别的翻译系统,其特征在于,该语言剖析单元更用以组合合并后的语义不变、合并后成为完整的单字或单词、或合并后成为词组的复数语言单元为一新语言单元。
8.如权利要求6所述的依据语言单元的词性建立类别的翻译系统,其特征在于,该语义组合单元更用以判断词性属性相同的该些第二类别的排列顺序。
9.如权利要求6所述的依据语言单元的词性建立类别的翻译系统,其特征在于,该模型解除模块更包含一语义筛选单元,用以由该语意查找单元所查找出的复数语意中选择最适合者。
10.如权利要求6所述的依据语言单元的词性建立类别的翻译系统,其特征在于,该模型解除模块更包含一时态调整单元,用以调整各该第二类别包含的第二语义属性所记录的语义的时态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009101781905A CN102043770A (zh) | 2009-10-19 | 2009-10-19 | 依据语言单元的词性建立类别的翻译系统及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009101781905A CN102043770A (zh) | 2009-10-19 | 2009-10-19 | 依据语言单元的词性建立类别的翻译系统及其方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102043770A true CN102043770A (zh) | 2011-05-04 |
Family
ID=43909914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009101781905A Pending CN102043770A (zh) | 2009-10-19 | 2009-10-19 | 依据语言单元的词性建立类别的翻译系统及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102043770A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614624A (zh) * | 2018-12-12 | 2019-04-12 | 广东小天才科技有限公司 | 一种英文语句的识别方法及电子设备 |
CN110489763A (zh) * | 2019-07-18 | 2019-11-22 | 深圳市轱辘汽车维修技术有限公司 | 一种视频翻译方法及装置 |
-
2009
- 2009-10-19 CN CN2009101781905A patent/CN102043770A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614624A (zh) * | 2018-12-12 | 2019-04-12 | 广东小天才科技有限公司 | 一种英文语句的识别方法及电子设备 |
CN110489763A (zh) * | 2019-07-18 | 2019-11-22 | 深圳市轱辘汽车维修技术有限公司 | 一种视频翻译方法及装置 |
CN110489763B (zh) * | 2019-07-18 | 2023-03-10 | 深圳市轱辘车联数据技术有限公司 | 一种视频翻译方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7885807B2 (en) | Text analysis, transliteration and translation method and apparatus for hieroglypic, hieratic, and demotic texts from ancient Egyptian | |
US8494839B2 (en) | Apparatus, method, and recording medium for morphological analysis and registering a new compound word | |
CN101361064A (zh) | 文本编辑装置和方法 | |
CN112380877B (zh) | 一种用于篇章级英译中机器翻译测试集的构建方法 | |
Ortmann et al. | Variation between different discourse types: Literate vs. oral | |
CN112597307A (zh) | 人物动作相关数据的提取方法、装置、设备及存储介质 | |
Kumar et al. | Automated ontology generation from a plain text using statistical and NLP techniques | |
CN109815503B (zh) | 一种人机交互翻译方法 | |
JP6952967B2 (ja) | 自動翻訳装置 | |
KR20200068769A (ko) | 속성 지식 확장 시스템 및 속성 지식 확장 방법 | |
US20080097741A1 (en) | Text analysis, transliteration and translation method and apparatus for hieroglypic, hieratic, and demotic texts from ancient egyptian | |
KR20100041019A (ko) | 문서 번역 장치 및 그 방법 | |
Messiant | A subcategorization acquisition system for French verbs | |
CN116843488B (zh) | 一种审计模型建立方法及系统 | |
CN102043770A (zh) | 依据语言单元的词性建立类别的翻译系统及其方法 | |
JP2003208307A (ja) | ソースプログラム生成システム | |
CN109800430B (zh) | 一种语义理解方法及系统 | |
US20020129066A1 (en) | Computer implemented method for reformatting logically complex clauses in an electronic text-based document | |
van Halteren et al. | Identification of differences between Dutch language varieties with the VarDial 2018 Dutch-Flemish subtitle data | |
Hiltmann et al. | Digital Methods in Practice: The Epistemological Implications of Applying Text Re-Use Analysis to the Bloody Accounts of the Conquest of Jerusalem (1099) | |
CN104866607B (zh) | 一种东巴文释读数据库建立方法 | |
CN115796194A (zh) | 一种基于机器学习的英语翻译系统 | |
JP4793931B2 (ja) | 相互に関係する固有表現の組抽出装置及びその方法 | |
CN114970543A (zh) | 一种众包设计资源的语义分析方法 | |
CN109783820B (zh) | 一种语义解析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20110504 |