CN107590132B - 一种自动更正部分文字的方法-由英文词性判断 - Google Patents
一种自动更正部分文字的方法-由英文词性判断 Download PDFInfo
- Publication number
- CN107590132B CN107590132B CN201710963826.1A CN201710963826A CN107590132B CN 107590132 B CN107590132 B CN 107590132B CN 201710963826 A CN201710963826 A CN 201710963826A CN 107590132 B CN107590132 B CN 107590132B
- Authority
- CN
- China
- Prior art keywords
- characters
- specific
- text
- word
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明避免了采用计算机判断中文词汇是否为定语/状语/补语的难题,创造性的将翻译文档句子和原文句子对齐,利用原文句子中对应的语料词汇的词性来做出判断。具体来说,原文为英文,翻译文档为中文时,由于英文单词的词汇可以通过语料库/分词工具/词汇库等其他第三方工具准确确定其词性,例如,形容词或者动词,然后结合对应的语料词汇的词性连接属性,即可得出相应的翻译文档中应当采用“的、地、得”的哪一种。
Description
技术领域
本发明属于文档处理技术领域,尤其涉及一种自动更正部分文字的方法。
背景技术
在中文语法中,“的”、“得”、“地”用作虚词时,是连接文章中词与词,字与字之间的重要桥梁,在各种书面表达中使用十分广泛。然而,很多人并没有清楚的知晓三者的区别,通常相互混用,甚至全部用“的”代替。
但是,在逻辑性很强的论述性、说明性语言中,如法律条款、学术论著、外文译著、教科书等情形中,必须严格区分三者的使用情况,才能保证书面语言的精确。特别是将上述相关的外文材料,例如法律条款/新闻稿/公文,翻译成中文时,为了保证原文的准确性,更是不能混淆。
但是,当前大多数翻译人员在翻译时并没有注意到这一问题,经常出现翻译错误,或者随意的给出“的”、“得”、“地”的某一种翻译,而没有兼顾原文的准确含义;另外,在翻译时如果一一准确推敲该采用哪一种表达,又会导致翻译效率低下,因此,译员也有可能选择翻译时不严格推敲,事后再校对的方法,但是这种方式并不能保证结果的准确性,同时也耗费译员精力。
简单来说,“的、地、得”在普通话里都读轻声“de”,但在书面语中有必要写成三个不同的字:在定语后面写作“的”,在状语后面写作“地”,在补语前写作“得”。这样做的好处,就是可使书面语言精确化。
虽然这一使用规则为语言学者所熟知,但是对于译员来说,其需要再给出中文句子翻译结果之后才能使用上述规则,在文档翻译量巨大的情形下,一一人工甄别是不现实的;另外,大部分翻译工作者不是严格掌握语法规则的研究人员,其注重的可能更多是实质内容本身,而不会重视这三个字的重要性;更重要的是,“的、地、得”只有在做虚词的时候才会出现上述情况,处于实词构成部分的“的、地、得”是不需要考虑上述问题的,因此,简单采用三字查找的方式,徒增工作量。
另外,即使知晓了上述“的、地、得”的使用规则,但是在中文语料中,对于所谓定语/状语/补语的定义,由于计算机并不能严格定义其特征,因此,无法直接将上述判断方法计算机流程化实现。
发明内容
为了解决文档中有关“的、地、得”错误使用的问题,本发明提供了一种自动更正方法。该方法首先定位出翻译文档中所有作为虚词使用的“的、地、得”,然后根据相应的规则,对其进行更正。所述方法以翻译文档原有的原文文档为基础进行词性判断,从而能够在计算机上流程化实现。
该方法具体描述如下
一种自动更正部分文字的方法,用于更正翻译文档中的特定文字,所述方法包括如下步骤:
S1. 将所述翻译文档与原文文档进行双语语料对齐;
S2. 提取所述翻译文档中包含所述特定文字的句子,将其依序存储到序列表中;
S3. 从所述序列表中依序读取句子作为当前待更正句子,获取当前待更正句子中的所述特定文字,以及该特定文字前的第一预定数量个文字和该特定文字后的第二预定数量个文字;
S4. 根据所述第一预定数量个文字和该特定文字的第一组合特性,和/或,所述第二预定数量个文字和该特定文字的第二组合特性,判断所述特定文字是否需要进行更正;
S5. 如果需要进行更正,则查找当前待更正句子在原文文档中对应的语料句子原文,并将二者进行语料对齐,然后按照预定策略对所述特定文字进行更正;
所述第一组合特性,包括所述第一预定数量个文字和该特定文字组合成实词的第一概率,所述第二组合特性,包括所述第二预定数量个文字和该特定文字组合成实词的第二概率;
判断所述特定文字是否需要进行更正,是指判断所述第一概率是否大于第一阈值,和/或,判断所述第二概率是否大于第二阈值。
如前所述,在进行更正之前,首先需要明确哪些“的、地、得”是需要更正的。因为在实际使用中,并不是所有出现的“的、地、得”都是更正的对象。例如“有的放矢”,“土地”“得到”这些实词,虽然包含“的、地、得”,但是此处的“的、地、得”使用不会出现错误,不需要考虑更正问题。因为这些“的、地、得”前后构成了具备实际含义的实词/固定搭配/词组。在本发明中,将其概括为预定数量个文字和上述特定文字的组合特性。这种组合特性包括:预定数量个文字和上述特定文字组成固定词语/实词的概率。这种组合概率可以采用多种方式来计算,例如,采用语料库查找技术,在大数据语料库中分析组合概率。此为本领域的公知技术,在此不再赘述。
另一方面,这种组合特性还可以是所述预定数量个文字和所述特定文字同在一个句子中出现的概率;所述预定数量个文字和所述特定文字在同一个句子中相邻出现的概率;所述预定数量个文字和所述特定文字在同一个句子中距离小于一定阈值的概率。这里的所述预定数量个文字,包括前述特定文字前的第一预定数量个文字,和/或,该特定文字后的第二预定数量个文字。
通过判断相关概率是否大于一定阈值,即可得出此时的“的、地、得”是虚词还是实词。例如,第一概率大于第一阈值,和/或,所述第二概率大于第二阈值,则认为此处的“的、地、得”为实词,不需要进行更正。
进一步的,所述步骤S5中按照预定策略对所述特定文字进行更正,具体包括:
识别所述特定文字、所述第一预定数量个文字、所述第二预定数量个文字在所述原文文档中对应的语料文字,根据所述语料文字的词性对所述特定文字进行更正。
其中,根据所述语料文字的词性对所述特定文字进行更正,具体包括:
若所述语料文字为形容词+名词的形式,则将所述特定文字更正为“的”;
若所述语料文字为动词+副词的形式,则将所述特定文字更正为“地”或者“得”。
需要注意的是,此处的形容词+名词,或者动词+副词的形式,可以理解为:两个相邻词汇,或者两个词汇位于一个句子中的预定距离的位置,或者其他合理的语法位置。本领域技术人员可以知晓,中文和英文语料对应时,并不是中文单词和英文单词一一位置严格对应,特别是在英文句子中,原本体现在中文中相邻的两个文字或者单词,在英文句子中可能距离一段距离。
优选的,其中,将所述特定文字更正为“地”或者“得”之后,进一步包括:识别该特定文字前的第一个字或者词的第一词性,如果第一词性为形容词,则将所述特定文字更正为“地”;如果第一词性为动词,将所述特定文字更正为“得”。
为便于翻译人员重视,所述方法进一步包括,如果判断结果为需要将所述特定文字更正为“得”,则在所述翻译文档中突出显示所述特定文字以及该特定文字前的第一预定数量个文字和该特定文字后的第二预定数量个文字。
作为一个优选,本发明的方法可以采用如下步骤:
步骤一:将双语文档进行语料对齐。
步骤二:找出带有“de”字的中文句子所在双语语料。
步骤三:将找出的双语语料进行词对齐。
步骤四:英文为形+名,可直接判断中文‘de’为“的”。
步骤五:英文为动+副,可判断中文‘de’为“地”或者“得”。例如smile happily,对应的中文可能是开心地笑,或者笑得很开心。
步骤六:英文为动+副时,要对中文进行进一步的判断。将这些句子提取出来,利用分词工具进行分词。并确定“de”前一个词的词性(分词工具会标注词性),走右分支流程。若修饰词为形容词,则确定用“地”,若修饰词为动词,则确定用“得”。
可见,本发明避免了采用计算机判断中文词汇是否为定语/状语/补语的难题,创造性的将翻译文档句子和原文句子对齐,利用原文句子中对应的语料词汇的词性来做出判断。具体来说,原文为英文,翻译文档为中文时,由于英文单词的词汇可以通过语料库/分词工具/词汇库等其他第三方工具准确确定其词性,例如,形容词或者动词,然后结合对应的语料词汇的词性连接属性,即可得出相应的翻译文档中应当采用“的、地、得”的哪一种。
附图说明
图1是本发明的自动更正部分文字的方法流程图
图2是本发明的自动更正部分文字的流程分支框架图
具体实施方式
图1是本发明的更正方法的主流程图,具体包括如下步骤:
S1. 将所述翻译文档与原文文档进行双语语料对齐;
S2.提取所述翻译文档中包含所述特定文字的句子,将其依序存储到序列表中;
S3. 从所述序列表中依序读取句子作为当前待更正句子,获取当前待更正句子中的所述特定文字,以及该特定文字前的第一预定数量个文字和该特定文字后的第二预定数量个文字;
S4. 根据所述第一预定数量个文字和该特定文字的第一组合特性,和/或,所述第二预定数量个文字和该特定文字的第二组合特性,判断所述特定文字是否需要进行更正;
S5. 如果需要进行更正,则查找当前待更正句子在原文文档中对应的语料句子原文,并将二者进行语料对齐,然后按照预定策略对所述特定文字进行更正。
在具体实现上,所述第一组合特性,包括所述第一预定数量个文字和该特定文字组合成实词的第一概率,所述第二组合特性,包括所述第二预定数量个文字和该特定文字组合成实词的第二概率;
判断所述特定文字是否需要进行更正,是指判断所述第一概率是否大于第一阈值,和/或,判断所述第二概率是否大于第二阈值。
本实施例的方法流程可以概括如下:首先检测出文档中所有包含“的”、“得”、“地”的句子。根据分词方法判断其属于实词还是虚词。当判断“的”、“得”、“地”属于实词的时候,直接跳过,不需要根据后续规则判断用法是否正确,例如“有的放矢”,“土地”“得到”这些实词;否则,则进入后续修正流程。
图2具体显示了上述判断方法流程,具体包括:
1.检测出文档中所有的“的”、“得”、“地”,判断是虚词还是实词;
2.如果是实词,则略过不做更正。
如前所述,在进行更正之前,首先需要明确哪些“的、地、得”是需要更正的。因为在实际使用中,并不是所有出现的“的、地、得”都是更正的对象。例如“有的放矢”,“土地”“得到”这些实词,虽然包含“的、地、得”,但是此处的“的、地、得”使用不会出现错误,不需要考虑更正问题。因为这些“的、地、得”前后构成了具备实际含义的实词/固定搭配/词组。在本发明中,将其概括为预定数量个文字和上述特定文字的组合特性。这种组合特性包括:预定数量个文字和上述特定文字组成固定词语/实词的概率。这种组合概率可以采用多种方式来计算,例如,采用语料库查找技术,在大数据语料库中分析组合概率。此为本领域的公知技术,在此不再赘述。
另一方面,这种组合特性还可以是所述预定数量个文字和所述特定文字同在一个句子中出现的概率;所述预定数量个文字和所述特定文字在同一个句子中相邻出现的概率;所述预定数量个文字和所述特定文字在同一个句子中距离小于一定阈值的概率。
通过判断相关概率是否大于一定阈值,即可得出此时的“的、地、得”是虚词还是实词。例如,第一概率大于第一阈值,和/或,所述第二概率大于第二阈值,则认为此处的“的、地、得”为实词,不需要进行更正。
3.如果非实词,则应当进入后续判断以及更正流程,具体包括:
通过词对齐找到特定文字以及前后预定数量的文字所对应的英文词汇;
根据对应英文词汇词性采取修正规则;
如果是“形+名”结构,则按照规则自动更正中文de:判断中文‘de’为“的”;
否则,需要进一步进行如下判断,并按照相应的规则自动中文的“de”:
识别该特定文字前的第一个字或者词的第一词性,如果第一词性为形容词,则将所述特定文字更正为“地”;如果第一词性为动词,将所述特定文字更正为“得”。
具体实现时,本发明所述的语料对其/词汇对齐技术可以采用本领域常见的训练及对齐技术,该技术主要包括如下要点:
·词对齐的训练:利用GIZA++对双语平行语料库进行词对齐模型训练
·语法映射的假设:如果语言A的一句话和语言B的一句话之间是互为译文(表达的同一个意思),这两句话在句法层次上面也应该是对等的。适用于形+名结构
·如果英文“Dear Teacher”可以通过词对齐模型对齐到中文“敬爱的老师”,则“Dear Teacher”的句法关系(名词短语:形容词+名词)可以映射到“敬爱的老师”
·非形+名结构,采用词性计算确定修饰词词性
·利用已映射到中文的句法关系结合规则进行“的地得”的判断。
Claims (7)
1.一种自动更正部分文字的方法,用于更正翻译文档中的特定文字,其特征在于:
所述方法包括如下步骤:
S1.将所述翻译文档与原文文档进行双语语料对齐;
S2.提取所述翻译文档中包含所述特定文字的句子,将其依序存储到序列表中;
S3.从所述序列表中依序读取句子作为当前待更正句子,获取当前待更正句子中的所述特定文字,以及该特定文字前的第一预定数量个文字和该特定文字后的第二预定数量个文字;
S4.根据所述第一预定数量个文字和该特定文字的第一组合特性,和/或,所述第二预定数量个文字和该特定文字的第二组合特性,判断所述特定文字是否需要进行更正;
所述特定文字包括“的”、“得”、“地”;
所述第一组合特性,包括所述第一预定数量个文字和该特定文字组合成实词的第一概率;
所述第二组合特性,包括所述第二预定数量个文字和该特定文字组合成实词的第二概率;
所述判断所述特定文字是否需要进行更正,是指判断所述第一概率是否大于第一阈值,和/或,判断所述第二概率是否大于第二阈值;
如果所述第一概率大于第一阈值,和/或,所述第二概率大于第二阈值,则不需要进行更正;
否则,进入下一步;
S5.查找当前待更正句子在原文文档中对应的语料句子原文,并将二者进行语料对齐,然后按照预定策略对所述特定文字进行更正。
2.如权利要求1所述的方法,所述步骤S5中按照预定策略对所述特定文字进行更正,具体包括:
识别所述特定文字、所述第一预定数量个文字、所述第二预定数量个文字在所述原文文档中对应的语料文字,根据所述语料文字的词性对所述特定文字进行更正。
3.如权利要求2所述的方法,其特征在于,根据所述语料文字的词性对所述特定文字进行更正,具体包括:
若所述语料文字为形容词+名词的形式,则将所述特定文字更正为“的”;
若所述语料文字为动词+副词的形式,则将所述特定文字更正为“地”或者“得”。
4.如权利要求3所述的方法,其特征在于,将所述特定文字更正为“地”或者“得”之后,进一步包括:识别该特定文字前的第一个字或者词的第一词性,如果第一词性为形容词,则将所述特定文字更正为“地”;如果第一词性为动词,将所述特定文字更正为“得”。
5.如权利要求4所述的方法,其特征在于,如果判断结果为需要将所述特定文字更正为“得”,则在所述翻译文档中突出显示所述特定文字以及该特定文字前的第一预定数量个文字和该特定文字后的第二预定数量个文字。
6.如权利要求1所述的方法,其特征在于,所述第一组合特性,还包括所述第一预定数量个文字和该特定文字组成词语/句子的第三概率;所述第二组合特性,包括所述第二预定数量个文字和该特定文字组成词语/句子的第四概率;判断所述特定文字是否需要进行更正,还包括:判断所述第三概率是否大于第三阈值,和/或,判断所述第四概率是否大于第四阈值。
7.一种自动更正部分文字的系统,其包含处理器和存储器,其特征在于,所述处理器和存储器存储有计算机可读指令,用于执行如权利要求1-6任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710963826.1A CN107590132B (zh) | 2017-10-17 | 2017-10-17 | 一种自动更正部分文字的方法-由英文词性判断 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710963826.1A CN107590132B (zh) | 2017-10-17 | 2017-10-17 | 一种自动更正部分文字的方法-由英文词性判断 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107590132A CN107590132A (zh) | 2018-01-16 |
CN107590132B true CN107590132B (zh) | 2020-08-11 |
Family
ID=61053416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710963826.1A Active CN107590132B (zh) | 2017-10-17 | 2017-10-17 | 一种自动更正部分文字的方法-由英文词性判断 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107590132B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657244B (zh) * | 2018-12-18 | 2023-04-18 | 语联网(武汉)信息技术有限公司 | 一种英文长句自动切分方法及系统 |
CN111783479A (zh) * | 2020-05-13 | 2020-10-16 | 耿建超 | 一种中英文交互的数据处理方法、装置、设备及存储介质 |
CN114742078A (zh) * | 2022-04-18 | 2022-07-12 | 新译信息科技(北京)有限公司 | 对照展示方法、终端设备及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101520779A (zh) * | 2009-04-17 | 2009-09-02 | 哈尔滨工业大学 | 一种机器翻译自动诊断评价方法 |
CN105701089A (zh) * | 2015-12-31 | 2016-06-22 | 成都数联铭品科技有限公司 | 一种机器翻译错词修正的后编辑处理方法 |
CN105740218A (zh) * | 2015-12-31 | 2016-07-06 | 成都数联铭品科技有限公司 | 一种机器翻译后编辑处理方法 |
CN106874263A (zh) * | 2017-01-17 | 2017-06-20 | 中译语通科技(北京)有限公司 | 一种基于多维度数据分析和语义的中英语料库校对方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104899322B (zh) * | 2015-06-18 | 2021-09-17 | 百度在线网络技术(北京)有限公司 | 搜索引擎及其实现方法 |
-
2017
- 2017-10-17 CN CN201710963826.1A patent/CN107590132B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101520779A (zh) * | 2009-04-17 | 2009-09-02 | 哈尔滨工业大学 | 一种机器翻译自动诊断评价方法 |
CN105701089A (zh) * | 2015-12-31 | 2016-06-22 | 成都数联铭品科技有限公司 | 一种机器翻译错词修正的后编辑处理方法 |
CN105740218A (zh) * | 2015-12-31 | 2016-07-06 | 成都数联铭品科技有限公司 | 一种机器翻译后编辑处理方法 |
CN106874263A (zh) * | 2017-01-17 | 2017-06-20 | 中译语通科技(北京)有限公司 | 一种基于多维度数据分析和语义的中英语料库校对方法 |
Non-Patent Citations (1)
Title |
---|
译后编辑错误类型研究_基于科技文本英汉机器翻译;崔启亮 等;《中国科技翻译》;20151130;第28卷(第4期);第19-22页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107590132A (zh) | 2018-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5362353B2 (ja) | 文書中のコロケーション誤りを処理すること | |
Derczynski et al. | Microblog-genre noise and impact on semantic annotation accuracy | |
Pettersson et al. | An SMT approach to automatic annotation of historical text | |
US20140288915A1 (en) | Round-Trip Translation for Automated Grammatical Error Correction | |
KR101500617B1 (ko) | 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법 | |
KR101495240B1 (ko) | 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법 | |
Ehsan et al. | Grammatical and context‐sensitive error correction using a statistical machine translation framework | |
US20070213974A1 (en) | Syntax analysis program, syntax analysis method, syntax analysis device, and computer-readable medium storing syntax analysis program | |
Scherrer et al. | Modernising historical Slovene words | |
CN107590132B (zh) | 一种自动更正部分文字的方法-由英文词性判断 | |
CN103034625A (zh) | 侦测及校正中文错字的系统及方法 | |
Wu et al. | Sentence correction incorporating relative position and parse template language models | |
JP5107556B2 (ja) | 改善された中国語−英語翻訳ツール | |
Mansouri et al. | State-of-the-art english to persian statistical machine translation system | |
Ganfure et al. | Design and implementation of morphology based spell checker | |
CN112380877B (zh) | 一种用于篇章级英译中机器翻译测试集的构建方法 | |
US8977538B2 (en) | Constructing and analyzing a word graph | |
Jian et al. | TANGO: Bilingual collocational concordancer | |
Sennrich et al. | A tree does not make a well-formed sentence: Improving syntactic string-to-tree statistical machine translation with more linguistic knowledge | |
JP2006004366A (ja) | 機械翻訳システム及びそのためのコンピュータプログラム | |
Lu et al. | Language model for Mongolian polyphone proofreading | |
Grundkiewicz | Automatic extraction of polish language errors from text edition history | |
CN107729318B (zh) | 一种自动更正部分文字的方法-由中文词性判断 | |
Pishartoy et al. | Extending capabilities of English to Marathi machine translator | |
Hosoda | Hawaiian morphemes: Identification, usage, and application in information retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |