CN107451129A - 非常规词语或非常规短句的判断以及翻译方法及其系统 - Google Patents
非常规词语或非常规短句的判断以及翻译方法及其系统 Download PDFInfo
- Publication number
- CN107451129A CN107451129A CN201710677904.1A CN201710677904A CN107451129A CN 107451129 A CN107451129 A CN 107451129A CN 201710677904 A CN201710677904 A CN 201710677904A CN 107451129 A CN107451129 A CN 107451129A
- Authority
- CN
- China
- Prior art keywords
- chinese
- word
- short sentence
- translation
- unconventional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明提供了一种非常规词语或非常规短句的判断以及翻译方法,包括获取待翻译对象、判断该中文词语或者中文短句是否属于非常规词语或者非常规短句、语义切分、在至少一个预先建立的外文语料库中进行检索,获得与所述汉语拼音对应的至少一个外文翻译词汇以及显示翻译结果等步骤。本发明还公开了执行上述方法的系统。由于采取了主流媒体作为翻译语料库,翻译结果可信度高;此外,在面对多个检索结果时,本发明还给出了具体的翻译结果选择方法,从而选择出准确度最高的翻译结果,避免了传统互联网检索翻译的杂乱无章。
Description
技术领域
本申请涉及翻译技术领域,具体的涉及一种非常规词语或非常规短句的判断以及翻译方法,以及实现该方法的系统。
背景技术
由于全球化进程以及互联网技术的发展,信息的传播速度比任何时候都快。随着我国经济、政治影响力的进一步提升,汉语的文化输出越来越明显,汉语的国际影响力也越来越大。为了更好的推广汉语文化,大量的汉语书籍已经被翻译为外文走向世界。然而,由于知识量的爆炸性增长,单纯的人工翻译已经远远不能满足需要,于是产生了各种翻译辅助工具,包括翻译词典、在线词典、在线翻译工具甚至自动语音翻译工作,极大的减轻了翻译工作量,加快了翻译速度。
然而,上述传统的翻译辅助工具针对的翻译对象都是传统的中文词语、中文短句或者句子,其翻译原理均是基于已有的短语-外文对照表,例如各种权威词典,从中选择最合适的翻译结果。一旦要翻译的对象不在上述对照表中,上述翻译工具就会找不到翻译结果;有鉴于此,有些翻译工具还会连接上互联网,采用互联网搜索的方式得到可能的翻译结果,但是互联网搜索的结果往往千差万别,对同一个词语的翻译可能得到几十种甚至上百种不同的翻译结果,从而依然无法得到准确的翻译结果;特别是对一些非常规词语、非常规短句而言,由于其出现的频率较低,出现的时间较短,传统的翻译工具所以依靠的词典尚未收录,而单纯依靠搜索引擎得到的结果依然会不准确。
因此,需要针对非常规词语或非常规短句的判断以及翻译提出一种有效的技术方案。
发明内容
本发明提供了一种非常规词语或非常规短句的判断以及翻译方法,该方法包括如下步骤:
S1:获取待翻译的中文词语或者中文短句;
S2:判断该中文词语或者中文短句是否属于非常规词语或者非常规短句,
S3:如果该中文词语或者中文短句不属于非常规词语或者非常规短句,则采用常规翻译方法获得翻译结果,进入步骤S7;否则进入步骤S4:
S4:如果是中文词语,对其进行语义分析,将中文词语转化为汉语拼音;如果是中文短句,则对该短句进行语义切分,将短句切分成至少一个中文词语,将所述中文词语进行语义分析,并将所述中文词语转化为汉语拼音;
S5:根据所述汉语拼音,在至少一个预先建立的外文语料库中进行检索,获得与所述汉语拼音对应的至少一个外文翻译词汇;
S6:从所述至少一个外文翻译词汇中,选择一个词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果;
S7:显示所述待翻译的中文词语或者中文短句翻译结果。
在本发明中,“非常规词语”或者“非常规短句”是指区别于已有的常规词语和常规短句的其他待翻译对象。本领域技术人员可以理解,常规词语或者常规短句至少具备以下含义:(1)主流的、常见的短句、词语;(2)已经被普通翻译工具收录的短句、词语。
这两类词语或者短句,由于其已经是常见的类型,极大可能已经被翻译工具收录,因此,如果待翻译的对象属于常规短句或者词语,则采用常规的翻译工具即可获得较为准确的翻译结果;
除上述两类外,还有一种类型的短句或者短语,在本发明中也被归为“常规”的短句或者词语,即互联网上已经出现的时间较久的热词。热词的含义在于:首先,相对于主流词汇,其是新出现的,在传统的知识库中并没有出现,而是由于互联网的发展,逐渐在互联网上流行,时间久了就为社会大众所接受;其次,虽然是新出现的词,但是其流行程度高,出现频率高,大众使用次数多;最后,其出现的时间已经较长。
之所以将热词也归为“常规”,是因为其由于出现时间较长,大众已经认同了其基本的含义,因此,相应的主流媒体或者词典工具,均会及时的将其收录。因此,如果待翻译对象属于热词,也可以根据现有的词典工具获得其较准确的翻译。
本发明的方法首先判断待翻译对象是否属于常规对象,也能够避免重复工作。
有鉴于此,本发明判断待翻译对象是否属于非常规词语或者非常规短句,是指(A)判断该中文词语或者中文短句首次出现的时间是否晚于某一个预设时间节点,和/或,(B)判断该中文词语或者中文短句在某一预设时间段内出现的频率是否低于某一个预设值。
上述标准(A)、标准(B)可以分别判断,也可以结合一起判断。
有别于常规短句或者词语,如果待翻译对象首次出现的时间很晚,例如,最近三个月才出现、最近半年才出现,则该词或者短句会被判定为非常规。此处,将首次出现的时间设定为一个时间点,该时间点可以根据翻译工作的时效性来确定,例如三个月以内、半年以内等等;同时,还可以考虑待翻译对象所在领域,综合考虑该领域的词汇更新速度,来确定该时间点。
此外,有别于常规短句或者词语,如果一个词汇在某一段时间内出现的频率很低,则也可以判定为非常规。出现的频率低,则代表其不是热词,或者至少还没有成为热词。此处,“很低”的标准在于频率的高低,本领域技术人员可以根据实际需要,例如,翻译时效性需要、待翻译对象的领域更新速度等因素,来设置一个比较阈值。
因此,根据上述标准(A)和/或(B),就可以判断出待翻译对象的属性。
需要指出的是,待翻译对象的属性不是一成不变的。在判断的时间节点或者时间段内,待翻译对象的属性可能是非常规,但是经过一段时间之后,其属性就有可能发生变化。例如,某个词汇最近一个月才新出现,其使用频率很低,此时对其翻译,其属性就被判断为非常规;可能过了一段时间,例如,一年后或者六个月后,该词汇得到了充分流行,已经成为流行词或者热词,此时,若再次对其翻译,其属性已经变为常规。
在确定待翻译对象为非常规词语或者短句后,需要对其进行语义分析。由于待翻译对象属于非常规,本领域尚未对其有确定的翻译。因此,在对其进行外文表达时,主流媒体通常首先采用其汉语拼音形式进行介绍,然后给出相应的英文解释,以便于对外交流。基于这一点,本发明首先需要将待翻译对象转化为汉语拼音。
具体来说,如果待翻译对象是中文词语,可直接对其进行语义分析,将中文词语转化为汉语拼音;如果是中文短句,则对该短句进行语义切分,将短句切分成至少一个中文词语,将所述中文词语进行语义分析,并将所述中文词语转化为汉语拼音。
得到汉语拼音之后,就可以在语料库中检索,获得与所述汉语拼音对应的至少一个外文翻译词汇。
由于语料库可能有多个,不同的语料库可能检索得出不同的检索结果,因此,还需要从中选择出最合适的结果作为翻译结果。
本发明针对不同的检索情形,给出了相应的选择方法:
如果该汉语拼音来自于中文词语,则按照如下方式之一确定该中文词语的翻译结果:
如果不同外文语料库中检索得到多个不同外文翻译词汇,则统计每个外文翻译词汇在每个外文语料库中出现的次数,选择出现次数最多的外文翻译词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果;
或者:
如果该汉语拼音来自于中文短句的某一个切分中文词语,则继续获取由步骤S4得到的该中文短句的其他切分中文词语的翻译结果,从多个中文词语的翻译结果综合得出该中文短句的翻译结果。
在本发明中,需要预先建立检索使用的外文语料库。所述预先建立的外文语料库,是指利用网络爬虫程序,以所述预设时间节点为起点,在互联网外文语料中采集该预设时间节点之后出现的外文词汇;和/或,利用网络爬虫程序,在互联网外文语料中采集该预设时间段内出现的外文词汇。
需要指出的是,所述预先建立的外文语料库的内容不是一成不变的,其根据预设时间点的不同,预设时间段的不同,领域的更新速度不同等而更新;其可以自动更新,也可以手动更新。
优选的,所述外文语料库主要采集主流媒体的外文新闻稿,包括国内媒体的外文新闻稿以及国外媒体的外文新闻稿。例如,新华社、中国新闻社、CCTV、中国日报、人民日报、环球时报、CRI国际在线等媒体的海外版、推特账户、脸书账户;路透社、美联社、法新社、BBC等海外主流媒体。
发明人经过大量观察和语料分析发现,主流媒体的报道相对严肃客观,可信度较高,用词较为规范,因此,优选上述语料库的语料可以更准确的确定待翻译对象的翻译结果。
当然,如果在主流媒体中无法检索到相应的结果,则说明待翻译对象的“非常规”度非常高,以至于主流媒体尚未注意和报道,此时,可以考虑其他语料来源,例如各种社交网络,包括微博海外用户、海外论坛以及海外的社交网络论坛。
不过,本领域技术人员应当知晓,主流媒体之外的其他语料来源仅仅是作为参考,其可信度不如主流媒体高;但是,如果待翻译的文稿来自特定领域,例如,游戏领域,则可以采用主流媒体之外的其他语料来源。
本发明还公开了实施上述方法的系统,包括获取单元、判断单元、语义单元、转化单元、检索单元、选择单元以及结果显示单元;
所述获取单元,用于获取待翻译的中文词语或者中文短句;
所述判断单元,用于判断该中文词语或者中文短句是否属于非常规词语或者非常规短句;
所述语义单元,用于对所述中文词语进行语义分析,或者对所述中文短句进行语义切分得到至少一个中文词语之后进行语义分析;
所述转换单元,用于将所述中文词语转化为对应的汉语拼音;
所述检索单元,用于根据所述汉语拼音,在至少一个预先建立的外文语料库中进行检索,获得与所述汉语拼音对应的至少一个外文翻译词汇;
所述选择单元,用于从所述至少一个外文翻译词汇中,选择一个词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果;
所述结果显示单元,用于显示所述待翻译的中文词语或者中文短句翻译结果;
其特征在于:
所述判断单元判断该中文词语或者中文短句是否属于非常规词语或者非常规短句,是指判断该中文词语或者中文短句首次出现的时间是否晚于某一个预设时间节点;
和/或,
判断该中文词语或者中文短句在某一预设时间段内出现的频率是否低于某一个预设值。
所述检索单元根据所述汉语拼音,在至少一个预先建立的外文语料库中进行检索,获得与所述汉语拼音对应的至少一个外文翻译词汇,具体包括:
所述预先建立的外文语料库,是指利用网络爬虫程序,以所述预设时间节点为起点,在互联网外文语料中采集该预设时间节点之后出现的外文词汇;
和/或,
利用网络爬虫程序,在互联网外文语料中采集该预设时间段内出现的外文词汇。
所述选择单元从所述至少一个外文翻译词汇中,选择一个词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果,进一步包括:如果该汉语拼音来自于中文词语,则按照如下方式之一确定该中文词语的翻译结果:
如果不同外文语料库中检索得到多个不同外文翻译词汇,则统计每个外文翻译词汇在每个外文语料库中出现的次数,选择出现次数最多的外文翻译词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果;
或者:
选择所有外文语料库中出现时间最晚的外文翻译词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果。
所述选择单元从所述至少一个外文翻译词汇中,选择一个词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果,进一步包括:如果该汉语拼音来自于中文短句的某一个切分中文词语,则继续获取由所述语义单元得到的该中文短句的其他切分中文词语的翻译结果。
本发明的有益效果
通过本发明,本领域技术人员可以针对各种不同待翻译对象均获得有效的翻译结果。获得待翻译对象之后,通过判断其属性来选择不同的方法。如果是常规对象,则采取常规方法即可获得翻译结果;否则,则进入非常规对象翻译流程。所述判断过程能够及时甄别出非常规对象,从而采取有效的翻译方法;同时,由于采取了主流媒体作为翻译语料库,翻译结果可信度高;此外,在面对多个检索结果时,本发明还给出了具体的翻译结果选择方法,从而选择出准确度最高的翻译结果,避免了传统互联网检索翻译的杂乱无章。
附图说明
图1是本发明的方法流程图。
图2是本发明的系统结构框架图
具体实施方式
如附图1所示,本发明的一种非常规词语或非常规短句的判断以及翻译方法包括如下步骤:
S1:获取待翻译的中文词语或者中文短句;
S2:判断该中文词语或者中文短句是否属于非常规词语或者非常规短句,
S3:如果该中文词语或者中文短句不属于非常规词语或者非常规短句,则采用常规翻译方法获得翻译结果,进入步骤S7;否则进入步骤S4:
54:如果是中文词语,对其进行语义分析,将中文词语转化为汉语拼音;如果是中文短句,则对该短句进行语义切分,将短句切分成至少一个中文词语,将所述中文词语进行语义分析,并将所述中文词语转化为汉语拼音;
S5:根据所述汉语拼音,在至少一个预先建立的外文语料库中进行检索,获得与所述汉语拼音对应的至少一个外文翻译词汇;
S6:从所述至少一个外文翻译词汇中,选择一个词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果;
S7:显示所述待翻译的中文词语或者中文短句翻译结果。
其中,步骤S2判断该中文词语或者中文短句是否属于非常规词语或者非常规短句,其判断条件包括如下二者:
(I)判断该中文词语或者中文短句首次出现的时间是否晚于某一个预设时间节点,
(II)判断该中文词语或者中文短句在某一预设时间段内出现的频率是否低于某一个预设值。
上述标准(I)、标准(II)可以分别判断,也可以结合一起判断。
例如,可以设定预设时间点为2016年10月1日。针对一个待翻译对象“石乐志”,其首次出现的时间大约在2017年2月,晚于上述时间点,因此,判断翻译对象“石乐志”为非常规词语;
还可以预设时间段,通过判断该中文词语或者中文短句在某一预设时间段内出现的频率是否低于某一个预设值来决定。例如,可以设定时间段为2015年-2016年。针对一个待翻译对象“大乘”,该词语起源于2015年很早的表情图,然而,在2015-2016年间,该词一直以表情图的形式出现,并没有形成“大乘”的词语大规模出现。因此,出现频率很低,判断其为非常规词语。
需要指出的是,待翻译对象的属性不是一成不变的。在判断的时间节点或者时间段内,待翻译对象的属性可能是非常规,但是经过一段时间之后,其属性就有可能发生变化。例如,前述待翻译对象“石乐志”以及“大乘”,如果以2017年为时间节点,则已经变成了网络热词,从而不再是非常规词语。
在确定待翻译对象为非常规词语或者短句后,需要对其进行语义分析。由于待翻译对象属于非常规,本领域尚未对其有确定的翻译。因此,在对其进行外文表达时,主流媒体通常首先采用其汉语拼音形式进行介绍,然后给出相应的英文解释,以便于对外交流。
发明人之所以提出以上翻译构思,主要是经过长期观察得出的,例如,由于中国两会影响力的扩大,大量外媒每年都会来进行专访。最初,大部分主流外媒对于“两会”的介绍,就直接采用的“lianghui”的表达,随后才有其他的正式翻译。这一点尚未被其他翻译工具所注意到,发明人首次提出这一发明构思进行翻译,具有独创性。
基于这一点,本发明首先需要将待翻译对象转化为汉语拼音。
具体来说,如果待翻译对象是中文词语,可直接对其进行语义分析,将中文词语转化为汉语拼音;如果是中文短句,则对该短句进行语义切分,将短句切分成至少一个中文词语,将所述中文词语进行语义分析,并将所述中文词语转化为汉语拼音。
得到汉语拼音之后,就可以在语料库中检索,获得与所述汉语拼音对应的至少一个外文翻译词汇。
由于语料库可能有多个,不同的语料库可能检索得出不同的检索结果,因此,还需要从中选择出最合适的结果作为翻译结果。
本发明针对不同的检索情形,给出了相应的选择方法:
如果该汉语拼音来自于中文词语,则按照如下方式之一确定该中文词语的翻译结果:
如果不同外文语料库中检索得到多个不同外文翻译词汇,则统计每个外文翻译词汇在每个外文语料库中出现的次数,选择出现次数最多的外文翻译词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果;
或者:
如果该汉语拼音来自于中文短句的某一个切分中文词语,则继续获取由步骤S4得到的该中文短句的其他切分中文词语的翻译结果,从多个中文词语的翻译结果综合得出该中文短句的翻译结果。
在本发明中,需要预先建立检索使用的外文语料库。所述预先建立的外文语料库,是指利用网络爬虫程序,以所述预设时间节点为起点,在互联网外文语料中采集该预设时间节点之后出现的外文词汇;和/或,利用网络爬虫程序,在互联网外文语料中采集该预设时间段内出现的外文词汇。
需要指出的是,所述预先建立的外文语料库的内容不是一成不变的,其根据预设时间点的不同,预设时间段的不同,领域的更新速度不同等而更新;其可以自动更新,也可以手动更新。
优选的,所述外文语料库主要采集主流媒体的外文新闻稿,包括国内媒体的外文新闻稿以及国外媒体的外文新闻稿。例如,新华社、中国新闻社、CCTV、中国日报、人民日报、环球时报、CRI国际在线等媒体的海外版、推特账户、脸书账户;路透社、美联社、法新社、BBC等海外主流媒体。
发明人注意到,,主流媒体的报道相对严肃客观,可信度较高,用词较为规范,因此,优选上述语料库的语料可以更准确的确定待翻译对象的翻译结果。
当然,如果在主流媒体中无法检索到相应的结果,则说明待翻译对象的“非常规”度非常高,以至于主流媒体尚未注意和报道,此时,可以考虑其他语料来源,例如各种社交网络,包括微博海外用户、海外论坛以及海外的社交网络论坛。
例如,对于前述提到的“石乐志”的翻译,发明人注意到,主流媒体通常不会关注或者采用该表达,而仅仅在一些社交媒体、网络论坛中才会使用,该词的实际表达为“失了智”,采用该表达,才非主流外文媒体上检索才能得到相应的检索结果。
附图2是实现上述方法的系统的结构框架图。
如附图2所示,本发明还公开了实施上述方法的系统,包括获取单元、判断单元、语义单元、转化单元、检索单元、选择单元以及结果显示单元;
所述获取单元,用于获取待翻译的中文词语或者中文短句;
所述判断单元,用于判断该中文词语或者中文短句是否属于非常规词语或者非常规短句;
所述语义单元,用于对所述中文词语进行语义分析,或者对所述中文短句进行语义切分得到至少一个中文词语之后进行语义分析;
所述转换单元,用于将所述中文词语转化为对应的汉语拼音;
所述检索单元,用于根据所述汉语拼音,在至少一个预先建立的外文语料库中进行检索,获得与所述汉语拼音对应的至少一个外文翻译词汇;
所述选择单元,用于从所述至少一个外文翻译词汇中,选择一个词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果;
所述结果显示单元,用于显示所述待翻译的中文词语或者中文短句翻译结果;
其特征在于:
所述判断单元判断该中文词语或者中文短句是否属于非常规词语或者非常规短句,是指判断该中文词语或者中文短句首次出现的时间是否晚于某一个预设时间节点;
和/或,
判断该中文词语或者中文短句在某一预设时间段内出现的频率是否低于某一个预设值。
所述检索单元根据所述汉语拼音,在至少一个预先建立的外文语料库中进行检索,获得与所述汉语拼音对应的至少一个外文翻译词汇,具体包括:
所述预先建立的外文语料库,是指利用网络爬虫程序,以所述预设时间节点为起点,在互联网外文语料中采集该预设时间节点之后出现的外文词汇;
和/或,
利用网络爬虫程序,在互联网外文语料中采集该预设时间段内出现的外文词汇。
所述选择单元从所述至少一个外文翻译词汇中,选择一个词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果,进一步包括:如果该汉语拼音来自于中文词语,则按照如下方式之一确定该中文词语的翻译结果:
如果不同外文语料库中检索得到多个不同外文翻译词汇,则统计每个外文翻译词汇在每个外文语料库中出现的次数,选择出现次数最多的外文翻译词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果;
或者:
选择所有外文语料库中出现时间最晚的外文翻译词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果。
所述选择单元从所述至少一个外文翻译词汇中,选择一个词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果,进一步包括:如果该汉语拼音来自于中文短句的某一个切分中文词语,则继续获取由所述语义单元得到的该中文短句的其他切分中文词语的翻译结果。
本领域技术人员可知晓,说明书实施例中具体实例仅仅作为一种示例;除特别限定外,本领域技术人员在实现本发明的系统中,可以对多个模块进行组合或者调换;可以采用计算机形式的流程模块实现,还可以实现为计算机可读介质,用于存储执行所述方法的指令。
Claims (10)
1.一种非常规词语或非常规短句的判断以及翻译方法,该方法包括如下步骤:
S1:获取待翻译的中文词语或者中文短句;
S2:判断该中文词语或者中文短句是否属于非常规词语或者非常规短句,
S3:如果该中文词语或者中文短句不属于非常规词语或者非常规短句,则采用常规翻译方法获得翻译结果,进入步骤S7;否则进入步骤S4:
S4:如果是中文词语,对其进行语义分析,将中文词语转化为汉语拼音;如果是中文短句,则对该短句进行语义切分,将短句切分成至少一个中文词语,将所述中文词语进行语义分析,并将所述中文词语转化为汉语拼音;
S5:根据所述汉语拼音,在至少一个预先建立的外文语料库中进行检索,获得与所述汉语拼音对应的至少一个外文翻译词汇;
S6:从所述至少一个外文翻译词汇中,选择一个词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果;
S7:显示所述待翻译的中文词语或者中文短句翻译结果;
其特征在于:步骤S2中判断该中文词语或者中文短句是否属于非常规词语或者非常规短句,是指判断该中文词语或者中文短句首次出现的时间是否晚于某一个预设时间节点,
和/或,
判断该中文词语或者中文短句在某一预设时间段内出现的频率是否低于某一个预设值。
2.如权利要求1所述的方法,步骤S5中,所述根据所述汉语拼音,在至少一个预先建立的外文语料库中进行检索,获得与所述汉语拼音对应的至少一个外文翻译词汇,具体包括:
所述预先建立的外文语料库,是指利用网络爬虫程序,以所述预设时间节点为起点,在互联网外文语料中采集该预设时间节点之后出现的外文词汇;
和/或,
利用网络爬虫程序,在互联网外文语料中采集该预设时间段内出现的外文词汇。
3.如权利要求1所述的方法,步骤S6中,从所述至少一个外文翻译词汇中,选择一个词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果,进一步包括:如果该汉语拼音来自于中文词语,则按照如下方式之一确定该中文词语的翻译结果:
如果不同外文语料库中检索得到多个不同外文翻译词汇,则统计每个外文翻译词汇在每个外文语料库中出现的次数,选择出现次数最多的外文翻译词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果;
或者:
选择所有外文语料库中出现时间最晚的外文翻译词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果。
4.如权利要求1所述的方法,步骤S6中,从所述至少一个外文翻译词汇中,选择一个词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果,进一步包括:如果该汉语拼音来自于中文短句的某一个切分中文词语,则继续获取由步骤S4得到的该中文短句的其他切分中文词语的翻译结果。
5.如权利要求1-4任一项所述的方法,所述互联网外文语料库选自发布外文新闻的主流新闻媒体。
6.一种非常规词语或非常规短句的判断以及翻译系统,包括获取单元、判断单元、语义单元、转化单元、检索单元、选择单元以及结果显示单元;
所述获取单元,用于获取待翻译的中文词语或者中文短句;
所述判断单元,用于判断该中文词语或者中文短句是否属于非常规词语或者非常规短句;
所述语义单元,用于对所述中文词语进行语义分析,或者对所述中文短句进行语义切分得到至少一个中文词语之后进行语义分析;
所述转换单元,用于将所述中文词语转化为对应的汉语拼音;
所述检索单元,用于根据所述汉语拼音,在至少一个预先建立的外文语料库中进行检索,获得与所述汉语拼音对应的至少一个外文翻译词汇;
所述选择单元,用于从所述至少一个外文翻译词汇中,选择一个词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果;
所述结果显示单元,用于显示所述待翻译的中文词语或者中文短句翻译结果;
其特征在于:
所述判断单元判断该中文词语或者中文短句是否属于非常规词语或者非常规短句,是指判断该中文词语或者中文短句首次出现的时间是否晚于某一个预设时间节点;
和/或,
判断该中文词语或者中文短句在某一预设时间段内出现的频率是否低于某一个预设值。
7.如权利要求6所述的系统,所述检索单元根据所述汉语拼音,在至少一个预先建立的外文语料库中进行检索,获得与所述汉语拼音对应的至少一个外文翻译词汇,具体包括:所述预先建立的外文语料库,是指利用网络爬虫程序,以所述预设时间节点为起点,在互联网外文语料中采集该预设时间节点之后出现的外文词汇;
和/或,
利用网络爬虫程序,在互联网外文语料中采集该预设时间段内出现的外文词汇。
8.如权利要求7所述的系统,所述选择单元从所述至少一个外文翻译词汇中,选择一个词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果,进一步包括:如果该汉语拼音来自于中文词语,则按照如下方式之一确定该中文词语的翻译结果:
如果不同外文语料库中检索得到多个不同外文翻译词汇,则统计每个外文翻译词汇在每个外文语料库中出现的次数,选择出现次数最多的外文翻译词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果;
或者:
选择所有外文语料库中出现时间最晚的外文翻译词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果。
9.如权利要求7所述的系统,所述选择单元从所述至少一个外文翻译词汇中,选择一个词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果,进一步包括:如果该汉语拼音来自于中文短句的某一个切分中文词语,则继续获取由所述语义单元得到的该中文短句的其他切分中文词语的翻译结果。
10.如权利要求6-9任一项所述的系统,所述互联网外文语料库选自发布外文新闻的主流新闻媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710677904.1A CN107451129B (zh) | 2017-08-08 | 2017-08-08 | 非常规词语或非常规短句的判断以及翻译方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710677904.1A CN107451129B (zh) | 2017-08-08 | 2017-08-08 | 非常规词语或非常规短句的判断以及翻译方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107451129A true CN107451129A (zh) | 2017-12-08 |
CN107451129B CN107451129B (zh) | 2020-09-25 |
Family
ID=60491803
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710677904.1A Active CN107451129B (zh) | 2017-08-08 | 2017-08-08 | 非常规词语或非常规短句的判断以及翻译方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107451129B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818707A (zh) * | 2021-01-19 | 2021-05-18 | 传神语联网网络科技股份有限公司 | 基于逆向文本共识的多翻引擎协作语音翻译系统与方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1558341A (zh) * | 2003-07-10 | 2004-12-29 | 国际商业机器公司 | 汉字/拼音/英文翻译方法 |
CN101216819A (zh) * | 2007-12-28 | 2008-07-09 | 北京邮电大学 | 基于领域本体的名片信息中译英自动翻译方法 |
CN101419592A (zh) * | 2007-10-26 | 2009-04-29 | 英业达股份有限公司 | 电脑可执行的网络新用语翻译系统及其方法 |
CN101425087A (zh) * | 2008-09-16 | 2009-05-06 | 网易有道信息技术(北京)有限公司 | 构建词典的方法和系统 |
CN101950309A (zh) * | 2010-10-08 | 2011-01-19 | 华中师范大学 | 一种面向学科领域的新专业词汇识别方法 |
CN102479208A (zh) * | 2010-11-26 | 2012-05-30 | 苗玉水 | 汉语语音码多样网页信息搜索转换翻译方法 |
US20120278062A1 (en) * | 2009-12-31 | 2012-11-01 | Guangyuan Cheng | Machine translation method and system |
CN103823879A (zh) * | 2014-02-28 | 2014-05-28 | 中国科学院计算技术研究所 | 面向在线百科的知识库自动更新方法及系统 |
-
2017
- 2017-08-08 CN CN201710677904.1A patent/CN107451129B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1558341A (zh) * | 2003-07-10 | 2004-12-29 | 国际商业机器公司 | 汉字/拼音/英文翻译方法 |
CN101419592A (zh) * | 2007-10-26 | 2009-04-29 | 英业达股份有限公司 | 电脑可执行的网络新用语翻译系统及其方法 |
CN101216819A (zh) * | 2007-12-28 | 2008-07-09 | 北京邮电大学 | 基于领域本体的名片信息中译英自动翻译方法 |
CN101425087A (zh) * | 2008-09-16 | 2009-05-06 | 网易有道信息技术(北京)有限公司 | 构建词典的方法和系统 |
US20120278062A1 (en) * | 2009-12-31 | 2012-11-01 | Guangyuan Cheng | Machine translation method and system |
CN101950309A (zh) * | 2010-10-08 | 2011-01-19 | 华中师范大学 | 一种面向学科领域的新专业词汇识别方法 |
CN102479208A (zh) * | 2010-11-26 | 2012-05-30 | 苗玉水 | 汉语语音码多样网页信息搜索转换翻译方法 |
CN103823879A (zh) * | 2014-02-28 | 2014-05-28 | 中国科学院计算技术研究所 | 面向在线百科的知识库自动更新方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818707A (zh) * | 2021-01-19 | 2021-05-18 | 传神语联网网络科技股份有限公司 | 基于逆向文本共识的多翻引擎协作语音翻译系统与方法 |
CN112818707B (zh) * | 2021-01-19 | 2024-02-27 | 传神语联网网络科技股份有限公司 | 基于逆向文本共识的多翻引擎协作语音翻译系统与方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107451129B (zh) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dam | On the option between form-based and meaning-based interpreting: The effect of source text difficulty on lexical target text form in simultaneous interpreting | |
Lim | Tone in singlish: Substrate features from Sinitic and Malay | |
CN110083837A (zh) | 一种关键词生成方法及装置 | |
CN102541837A (zh) | 一种校正输入中文拼写的方法 | |
Barbiers | Where is syntactic variation | |
CN106649293A (zh) | 一种翻译方法及系统 | |
CN107451129A (zh) | 非常规词语或非常规短句的判断以及翻译方法及其系统 | |
CN110990540A (zh) | 一种基于正则表达式的同义词抽取方法及装置 | |
Fang et al. | Exploring shifts in translating English nominal groups modified by embedded clauses: a corpus-based approach | |
Tang et al. | Method of Chinese Grammar rules automatically access based on mining association rules | |
Jiang et al. | A Tibetan Ontology Concept Acquisition Method Based on HowNet and Chinese-Tibetan Dictionary | |
De Vogelaer et al. | The functional nature of pronominal change: Innovative plural pronouns in English and Dutch | |
Dose | Patterns of growing standardisation and interference in interpreted German discourse | |
CN101499092A (zh) | 利用同音字查询字汇的方法及装置 | |
Li | China English or Chinese English?: The Coming of Age of an Indigenized Variety | |
TWI480743B (zh) | 將目標資料拆分至伺服器與客戶端翻譯之系統及其方法 | |
Ji | What is the starting point? In search of a working definition of Chinese idioms | |
Lüdeling | A corpus linguistics perspective on language documentation, data, and challenge of small corpora | |
CN102063440A (zh) | 一种建立大型中文语料库的方法 | |
Xiangzhen et al. | Structural Design and Implementation of Tibetan-English-Chinese Electronic Dictionary | |
Ansaldo et al. | English in Asia | |
Sultanbekova et al. | Development of the educational concept of Kazakh neologisms: methods of identification, criteria and trends for school and university students | |
Wang et al. | Analysis of Research Literature on Biography Translation Under CiteSpace | |
Avery | Explaining China to the World: Huang Youyi and the Role of the Translator in Chinese Foreign Policy | |
Aksan et al. | A corpus-based word frequency list of Turkish: Evidence from the subcorpora of Turkish National Corpus project |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Judgment, translation methods and systems of unconventional words and sentences Effective date of registration: 20221228 Granted publication date: 20200925 Pledgee: Guanggu Branch of Wuhan Rural Commercial Bank Co.,Ltd. Pledgor: TRANSN IOL TECHNOLOGY Co.,Ltd. Registration number: Y2022420000396 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |