CN107832308B - 一种机器翻译的断句方法及系统、计算机程序、计算机 - Google Patents

一种机器翻译的断句方法及系统、计算机程序、计算机 Download PDF

Info

Publication number
CN107832308B
CN107832308B CN201711310547.1A CN201711310547A CN107832308B CN 107832308 B CN107832308 B CN 107832308B CN 201711310547 A CN201711310547 A CN 201711310547A CN 107832308 B CN107832308 B CN 107832308B
Authority
CN
China
Prior art keywords
sentence
max
segmentation
sentences
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711310547.1A
Other languages
English (en)
Other versions
CN107832308A (zh
Inventor
宗浩
程国艮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Global Tone Communication Technology Co ltd
Original Assignee
Global Tone Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Global Tone Communication Technology Co ltd filed Critical Global Tone Communication Technology Co ltd
Priority to CN201711310547.1A priority Critical patent/CN107832308B/zh
Publication of CN107832308A publication Critical patent/CN107832308A/zh
Application granted granted Critical
Publication of CN107832308B publication Critical patent/CN107832308B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于计算机软件技术领域,公开了一种机器翻译的断句方法及系统、计算机程序、计算机,包括:给出输入文本的语言种类;使用断句方法进行文本的句子切分。本发明可以提高长句子或者篇章文本的翻译质量,断句后分开翻译再组合回来的译文质量明显优于未断句的质量;还可以解决超长句子翻译时间过长的问题,通过断句分发翻译请求来达到提高翻译响应速度的效果。本发明针对机器翻译实际应用中可能存在的句子切分问题,提出了机器翻译的句子切分方法。在实际应用测试中,提高了句子翻译准确性在BLEU(Bilingual Evaluation Understudy)上平均有0.8左右的提升,在翻译效率上也有约7%左右的提升。

Description

一种机器翻译的断句方法及系统、计算机程序、计算机
技术领域
本发明属于计算机软件技术领域,尤其涉及一种机器翻译的断句方法及系统、计算机程序、计算机。
背景技术
机器翻译是利用计算机算法自动地将一种源语言句子翻译成为另一种目标语言句子的过程。机器翻译是人工智能的一个研究方向,具有十分重要的科研价值和实用价值。伴随着全球化进程的不断深化和互联网的迅速发展,机器翻译技术在国内外政治、经济、社会、文化交流等方面发挥着越来越重要的作用。目前,大部分机器翻译使用的断句方法均为简单的以句号、问号、感叹号进行切分,不会针对引号进行单独处理;百度没有对引号中的句子单独处理,如果使用本文提出的句子切分方法,则不会出现百度类似的问题,错误的将引号中的句子断开。由于错误的将句子断开,百度翻译还多译出了一个引号,增加了翻译的忠实度错误。此外,如果翻译中存在小数点,标题点,网址,域名,路径等容易引发断句错误从而使得翻译结果不佳。遇到这种情况,机器翻译往往需要耗费更多的时间对这种不符合语法的冗长句子进行翻译。如果将其切分成更小的碎片可以有效的减少翻译时间。
综上所述,现有技术中存在的问题是:目前机器翻译没有句子切分;对于引号中存在多句话;句子中存在小数点、标题点、网址、域名、路径和缩写等情况时往往表现不佳。
发明内容
针对现有技术存在的问题,本发明提供了一种机器翻译的断句方法及系统、计算机程序、计算机。
本发明是这样实现的,一种机器翻译的断句方法,所述机器翻译的断句方法包括:
步骤一,给出输入文本的语言种类;
步骤二,使用断句方法进行文本的句子切分。
进一步,所述步骤二包括:中文句子切分、英文句子切分、所有输入句子强制保留。
进一步,所述中文句子切分具体包括:
(1)句子的最大长度Lmax;可切分的标点符号集合Pstop,可切分的标点符号包括句号、问号、感叹号和分号,暨Pstop={,?!;};次级切分优先级序列Psub=[......,:]优先级的顺序依次为省略号、逗号和分号;
(2)句子长度小于Lmax个字符:
句子内不存在引号,则按照Pstop进行切分;
句子内存在引号,在保证引号内句子不断开的情况下按照(1)进行切分;
(3)句子长度大于等于Lmax个字符:
检索句子前Lmax个字符中是否有其他标点符号,有则按照Psub的优先级进行切分;
句子前Lmax个字符中均无其他标点符号,在Lmax位置进行切分;对切分后长度小于Lmax使用(2)进行切分。
进一步,所述英文句子切分具体包括:
(1)允许句子的最大长度Lmax;可切分的标点符号集合Pstop可切分的标点符号包括句号、问号、感叹号,暨Pstop={.?!};设定次级切分优先级序列Psub=[...,]优先级的顺序依次为省略号、逗号和分号;
(2)句子长度小于Lmax个单词:
句子内不存在引号,则按照Pstop进行切分;
句子内存在引号,在保证引号内句子不断开的情况下按照(1)进行切分;
(3)句子长度大于等于Lmax个单词:
1)检索句子前Lmax个单词中是否有其他标点符号,有则按照Psub的优先级进行切分;
2)句子前Lmax个单词中均无其他标点符号,则强制在Lmax位置进行切分;对切分后长度小于Lmax使用(2)进行切分。
进一步,所述所有输入句子强制保留具体包括:
(1)英语数字中的小数点或标题点,不会被切分开;
(2)以http,https,ftp,feed开始的网址不会被且分开;
(3)以www开始的域名不会被切分开;
(4)以.com,.cn,.org,.net,.edu,.us,.ai结尾的域名不会被断开;
(5)邮件地址不会被断开;
(6)UNIX路径不会断开;
(7)Windows路径不会被断开;
(8)句子中存在缩写点,不会被断开。
本发明的另一目的在于提供一种所述机器翻译的断句方法的机器翻译的断句系统,所述机器翻译的断句系统包括:
输入模块,用于给出输入文本的语言种类;
句子切分模块,用于使用本断句方法进行文本的句子切分。
所述句子切分模块进一步包括:
中文切分单元,用于对于中文句子切分;
英文切分单元,用于对于英文句子切分:
保留单元,用于对于所有输入句子里面强制保留。
本发明的另一目的在于提供一种实现所述机器翻译的断句方法的计算机程序。
本发明的另一目的在于提供一种搭载有所述计算机程序的计算机。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的机器翻译的断句方法。
本发明可以提高长句子或者篇章文本的翻译质量,断句后分开翻译再组合回来的译文质量明显优于未断句的质量;还可以解决超长句子翻译时间过长的问题,通过断句分发翻译请求来达到提高翻译响应速度的效果。本发明针对机器翻译实际应用中可能存在的句子切分问题,提出了机器翻译的句子切分方法。在实际应用测试中,提高了句子翻译准确性在BLEU(Bilingual Evaluation Understudy)上平均有0.8左右的提升,在翻译效率上也有约7%左右的提升。
附图说明
图1是本发明实施例提供的机器翻译的断句方法流程图。
图2是本发明实施例提供的机器翻译的断句系统结构示意图;
图中:1、输入模块;2、句子切分模块;2-1、中文切分单元;2-2、英文切分单元;2-3、保留单元。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的机器翻译的断句方法包括以下步骤:
S101:给出输入文本的语言种类;
S102:使用本断句方法进行文本的句子切分。
在本发明的优选实施例中:对于中文句子使用如下规则进行切分:
(1)设定允许句子的最大长度Lmax;设定可切分的标点符号集合Pstop在本发明中可切分的标点符号一般包括句号、问号、感叹号和分号,暨Pstop={,?!;};设定次级切分优先级序列Psub=[......,:]优先级的顺序依次为省略号、逗号和分号;
(2)若句子长度小于Lmax个字符:
若句子内不存在引号,则按照Pstop进行切分;
若句子内存在引号,在保证引号内句子不断开的情况下按照规则a进行切分;
(3)若句子长度大于等于Lmax个字符:
检索句子前Lmax个字符中是否有其他标点符号,若有则按照Psub的优先级进行切分;
若句子前Lmax个字符中均无其他标点符号,则强制在Lmax位置进行切分;然后对切分后长度小于Lmax使用规则(2)进行切分;
在本发明的优选实施例中:对于英文句子使用如下规则进行切分:
(1)设定允许句子的最大长度Lmax;设定可切分的标点符号集合Pstop在本发明中可切分的标点符号一般包括句号、问号、感叹号,暨Pstop={.?!};设定次级切分优先级序列Psub=[...,]优先级的顺序依次为省略号、逗号和分号;
(2)若句子长度小于Lmax个单词:
若句子内不存在引号,则按照Pstop进行切分;
若句子内存在引号,在保证引号内句子不断开的情况下按照规则(1)进行切分;
(3)若句子长度大于等于Lmax个单词:
1)检索句子前Lmax个单词中是否有其他标点符号,若有则按照Psub的优先级进行切分;
2)若句子前Lmax个单词中均无其他标点符号,则强制在Lmax位置进行切分;然后对切分后长度小于Lmax使用规则2进行切分;
在本发明的优选实施例中:对于所有输入句子里面使用如下规则进行强制保留(保留的部分不会被切分开):
(1)英语数字中的小数点或标题点,例如1.2,3.4;1.2.等,不会被切分开;
(2)以http,https,ftp,feed等开始的网址不会被且分开;
(3)以www开始的域名不会被切分开;
(4)以.com,.cn,.org,.net,.edu,.us,.ai等结尾的域名不会被断开;
(5)所有的邮件地址(形如xxx@xxx.xxx)不会被断开;
(6)UNIX路径不会断开(形如/home/gtct.com/sentencec);
(7)Windows路径不会被断开(形如C:\\gtct.com\sentence);
(8)句子中存在缩写点,不会被断开,例如(Mr.Mss.)输出切分好的句子。
如图2所示,本发明实施例提供的机器翻译的断句系统包括:
输入模块1,用于给出输入文本的语言种类;
句子切分模块2,用于使用本断句方法进行文本的句子切分。
句子切分模块2进一步包括:
中文切分单元2-1,用于对于中文句子切分;
英文切分单元2-2,用于对于英文句子切分:
保留单元2-3,用于对于所有输入句子里面强制保留。
下面结合具体实施例对本发明的应用原理作进一步的描述。
现有需要翻译的文本中文:
1.他说:“我今天终于知道了真相。我恨你!”然后走了。
按照本发明的方法,参考中文切分方法的2b可以得到切分结果。
1.他说:“我今天终于知道了真相。我恨你!”然后走了。
市面上只用句号、问号、感叹号作为切分则会切分成三句:
1.他说:“我今天终于知道了真相。
2.我恨你!
3.”然后走了。
然后将整句发送给机器翻译系统进行翻译再返回给用户。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种机器翻译的断句方法,其特征在于,所述机器翻译的断句方法包括:
步骤一,给出输入文本的语言种类;
步骤二,使用断句方法进行文本的句子切分;
所述步骤二包括:中文句子切分、英文句子切分、所有输入句子强制保留;
所述中文句子切分具体包括:
(1)句子的最大长度Lmax;可切分的标点符号集合Pstop,可切分的标点符号包括句号、问号、感叹号和分号,即Pstop={。?!;};次级切分优先级序列Psub=[......,:],优先级的顺序依次为省略号、逗号和冒号;
(2)句子长度小于Lmax个字符:
句子内不存在引号,则按照Pstop进行切分;
句子内存在引号,在保证引号内句子不断开的情况下按照(1)进行切分;
(3)句子长度大于等于Lmax个字符:
检索句子前Lmax个字符中是否有其他标点符号,有则按照Psub的优先级进行切分;
句子前Lmax个字符中均无其他标点符号,在Lmax位置进行切分;对切分后长度小于Lmax使用(2)进行切分。
2.如权利要求1所述的机器翻译的断句方法,其特征在于,所述英文句子切分具体包括:
[1]允许句子的最大长度Lmax;可切分的标点符号集合Pstop’,可切分的标点符号包括句号、问号、感叹号,即Pstop’=[.?!};设定次级切分优先级序列Psub’=[...,;],优先级的顺序依次为省略号、逗号和分号;
[2]句子长度小于Lmax个单词:
句子内不存在引号,则按照Pstop’进行切分;
句子内存在引号,在保证引号内句子不断开的情况下按照[1]进行切分;
[3]句子长度大于等于Lmax个单词:
检索句子前Lmax个单词中是否有其他标点符号,有则按照Psub’的优先级进行切分;
句子前Lmax个单词中均无其他标点符号,则强制在Lmax位置进行切分;对切分后长度小于Lmax使用[2]进行切分。
3.如权利要求1所述的机器翻译的断句方法,其特征在于,所述所有输入句子强制保留具体包括:
(1)英语数字中的小数点或标题点,不会被切分开;
(2)以http,https,ftp,feed开始的网址不会被切分开;
(3)以www开始的域名不会被切分开;
(4)以.com,.cn,.org,.net,.edu,.us,.ai结尾的域名不会被切分开;
(5)邮件地址不会被切分开;
(6)UNIX路径不会被切分开;
(7)Windows路径不会被切分开;
(8)句子中存在缩写点,不会被切分开。
4.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-3任意一项所述的机器翻译的断句方法。
CN201711310547.1A 2017-12-11 2017-12-11 一种机器翻译的断句方法及系统、计算机程序、计算机 Active CN107832308B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711310547.1A CN107832308B (zh) 2017-12-11 2017-12-11 一种机器翻译的断句方法及系统、计算机程序、计算机

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711310547.1A CN107832308B (zh) 2017-12-11 2017-12-11 一种机器翻译的断句方法及系统、计算机程序、计算机

Publications (2)

Publication Number Publication Date
CN107832308A CN107832308A (zh) 2018-03-23
CN107832308B true CN107832308B (zh) 2021-06-04

Family

ID=61642810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711310547.1A Active CN107832308B (zh) 2017-12-11 2017-12-11 一种机器翻译的断句方法及系统、计算机程序、计算机

Country Status (1)

Country Link
CN (1) CN107832308B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002434A (zh) * 2018-05-31 2018-12-14 青岛理工大学 客服问答匹配方法、服务器及存储介质
CN109325237B (zh) * 2018-10-22 2023-06-13 传神语联网网络科技股份有限公司 用于机器翻译的完整句识别方法与系统
CN110321532A (zh) * 2019-06-06 2019-10-11 数译(成都)信息技术有限公司 语言预处理断句方法、计算机设备及计算机可读存储介质
CN111046649A (zh) * 2019-11-22 2020-04-21 北京捷通华声科技股份有限公司 一种文本分割方法和装置
CN113051889A (zh) * 2021-04-09 2021-06-29 中译语通科技股份有限公司 一种面向波斯语机器翻译的断句方法、系统及应用
CN113377276A (zh) * 2021-05-19 2021-09-10 深圳云译科技有限公司 速录转译的系统、方法、装置、电子设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1928854A (zh) * 2005-09-08 2007-03-14 中国科学院自动化研究所 一种基于标点处理的层次化汉语长句句法分析方法及装置
CN101206643A (zh) * 2006-12-21 2008-06-25 中国科学院计算技术研究所 一种融合了句型模板和统计机器翻译技术的翻译方法
CN101464855A (zh) * 2009-01-13 2009-06-24 吴长林 含有汉语的字符串的分词方法及在字符串中检索词的方法
CN101488126A (zh) * 2008-12-31 2009-07-22 深圳市点通数据有限公司 双语语句对齐方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7562008B2 (en) * 2004-06-23 2009-07-14 Ning-Ping Chan Machine translation method and system that decomposes complex sentences into two or more sentences

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1928854A (zh) * 2005-09-08 2007-03-14 中国科学院自动化研究所 一种基于标点处理的层次化汉语长句句法分析方法及装置
CN101206643A (zh) * 2006-12-21 2008-06-25 中国科学院计算技术研究所 一种融合了句型模板和统计机器翻译技术的翻译方法
CN101488126A (zh) * 2008-12-31 2009-07-22 深圳市点通数据有限公司 双语语句对齐方法及装置
CN101464855A (zh) * 2009-01-13 2009-06-24 吴长林 含有汉语的字符串的分词方法及在字符串中检索词的方法

Also Published As

Publication number Publication date
CN107832308A (zh) 2018-03-23

Similar Documents

Publication Publication Date Title
CN107832308B (zh) 一种机器翻译的断句方法及系统、计算机程序、计算机
WO2020253389A1 (zh) 页面转译方法、装置、介质及电子设备
US8364463B2 (en) Optimizing a language/media translation map
AU2014214652B2 (en) Systems and methods for multi-user multi-lingual communications
US20170124064A1 (en) Reply information recommendation method and apparatus
US20130159847A1 (en) Dynamic Personal Dictionaries for Enhanced Collaboration
US20100223335A1 (en) Dynamically Managing Online Communication Groups
US20140172413A1 (en) Short phrase language identification
JP2015201169A (ja) 多様な意味カテゴリに基づいた翻訳結果提供方法およびシステム
WO2014117553A1 (en) Method and system of adding punctuation and establishing language model
US11019012B2 (en) File sending in instant messaging application
US11714840B2 (en) Method and apparatus for information query and storage medium
US11683283B2 (en) Method for electronic messaging
CN108664142B (zh) 具有文档间自学习功能的输入法
WO2017114193A1 (zh) 一种文本资源文件的比对方法及装置
US20140214406A1 (en) Method and system of adding punctuation and establishing language model
US20190213249A1 (en) Intelligent Copy and Paste
US8296785B2 (en) Providing links between application programs
KR101646414B1 (ko) 장문 번역 서비스 장치 및 방법
CN109710952B (zh) 基于人工智能的翻译历史检索方法、装置、设备和介质
CN112148958A (zh) 用于信息推荐的方法、设备和计算机存储介质
KR20170109404A (ko) IoT 서비스 상호 연동을 위한 온톨로지 관리 방법 및 시스템
US20230325715A1 (en) Systems and methods for self-training a communication document parser
KR20190090636A (ko) 문서 자동 편집 방법
US10733389B2 (en) Computer aided input segmentation for machine translation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant