CN113051889A - 一种面向波斯语机器翻译的断句方法、系统及应用 - Google Patents

一种面向波斯语机器翻译的断句方法、系统及应用 Download PDF

Info

Publication number
CN113051889A
CN113051889A CN202110380070.4A CN202110380070A CN113051889A CN 113051889 A CN113051889 A CN 113051889A CN 202110380070 A CN202110380070 A CN 202110380070A CN 113051889 A CN113051889 A CN 113051889A
Authority
CN
China
Prior art keywords
sentence
gaussian
machine translation
segmentation
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110380070.4A
Other languages
English (en)
Inventor
刘清民
程国艮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Global Tone Communication Technology Co ltd
Original Assignee
Global Tone Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Global Tone Communication Technology Co ltd filed Critical Global Tone Communication Technology Co ltd
Priority to CN202110380070.4A priority Critical patent/CN113051889A/zh
Publication of CN113051889A publication Critical patent/CN113051889A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于机器翻译断句处理技术领域,公开了一种面向波斯语机器翻译的断句方法、系统及应用,获取待处理的波斯语句子,对句子进行预处理,将其中波斯语数字转成阿拉伯数字;前向规则切分:利用正向匹配的方法,遇小数进行判断的方式,通过句子分隔符将波斯语句子进行初步切分;采取分类的方式,将句子长度分成两类进行细化切分;采用2000句测试集,尝试多种分句参数,选择机器翻译效果、翻译准确率较高的为最后的标准参数,得出分句模型;所述系统包括:语料获取模块、语料预处理模块、前向规则切分模块、细化切分模块、分句模型获取模块。本发明通过规则与分类处理方法,将波斯语进行分句,提高波斯语的翻译效果与准确率。

Description

一种面向波斯语机器翻译的断句方法、系统及应用
技术领域
本发明属于机器翻译断句处理技术领域,尤其涉及一种面向波斯语机器翻译的断句方法、系统及应用。
背景技术
目前,在自然语言处理中,句子是大于词存在的具有整体表达意义的单位。在进行机器翻译训练和翻译时,进行句子分句有很大的意义。对于理解波斯语的人来说,能够很容易地阅读和理解波斯语句子并进行分句,但是对于计算机来说,从何处进行分句,还有一定的难度。在利用波斯语有某些固定标点符号的基础上,采用规则加分类的方法,将波斯语分句成适合机器翻译训练与翻译的结果。
然而现有技术有一些固有的缺点:虽然在进行分句的基础上可以提升翻译效果,但是存在强制断句,会造成翻译生硬。因此,亟需一种新的面向波斯语机器翻译的断句方法、系统及应用。
通过上述分析,现有技术存在的问题及缺陷为:现有技术虽然在进行分句的基础上可以提升翻译效果,但是存在强制断句,造成翻译生硬。
解决以上问题及缺陷的难度为:存在强制断句,会造成源语句子不完整,上下句翻译效果不好。
解决以上问题及缺陷的意义为:因为会存在过长的句子,这种情况比较常见,不能完全避免强制切分,但是可以寻找强制切分较好的句长来减少强制断句造成翻译效果较差的情况。
发明内容
针对现有技术存在的问题,本发明提供了一种面向波斯语机器翻译的断句方法、系统及应用。
本发明是这样实现的,一种面向波斯语机器翻译的断句方法,所述面向波斯语机器翻译的断句方法包括以下步骤:
步骤一,获取待处理的波斯语句子,对句子进行预处理,将其中波斯语数字转成阿拉伯数字;
步骤二,前向规则切分:利用正向匹配的方法,遇小数进行判断的方式,通过句子分隔符将波斯语句子进行初步切分;
步骤三,采取分类的方式,将句子长度分成两类进行细化切分:(1)对于含有:،:؛؟可以进行再次分句的符号,采用一种句长的处理方式;(2)对于句子过长的句子,在表示分句处进行切分,如果没有,则在固定长度出进行后向强制切分。
步骤四,采用2000句测试集,尝试多种分句参数,选择机器翻译效果、翻译准确率较高的为最后的标准参数,得出分句模型。
进一步,步骤一中,所述对句子进行预处理包括:波斯语中,存在波斯语表示的数字,通过语料预处理将波斯语数字转成阿拉伯数字。
进一步,步骤三中,所述采取分类的方式,将句子长度分成两类进行细化切分,包括:
(1)对于含有“:”的可以进行再次分句的符号,按照约定句长根据符号进行切分;
(2)对于句子过长的句子,在表示分句处进行切分;如果没有,则在固定长度出进行后向强制切分。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
获取待处理的波斯语句子,并对语料进行预处理;
前向规则切分:利用正向匹配的方法,遇小数进行判断的方式,将波斯语句子进行初步切分;
采取分类的方式,将句子长度分成两类进行细化切分;
采用2000句测试集,尝试多种分句参数,选择机器翻译效果、翻译准确率较高的为最后的标准参数,得出分句模型。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
获取待处理的波斯语句子,并对语料进行预处理;
前向规则切分:利用正向匹配的方法,遇小数进行判断的方式,将波斯语句子进行初步切分;
采取分类的方式,将句子长度分成两类进行细化切分;
采用2000句测试集,尝试多种分句参数,选择机器翻译效果、翻译准确率较高的为最后的标准参数,得出分句模型。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的面向波斯语机器翻译的断句方法。
本发明的另一目的在于提供一种实施所述的面向波斯语机器翻译的断句方法的面向波斯语机器翻译的断句系统,所述面向波斯语机器翻译的断句系统,包括:
语料获取模块,用于获取待处理的波斯语句子;
语料预处理模块,用于将波斯语数字转成阿拉伯数字;
前向规则切分模块,用于利用正向匹配的方法,遇小数进行判断的方式,将波斯语句子进行初步切分;
细化切分模块,用于采取分类的方式,将句子长度分成两类进行细化切分;
分句模型获取模块,用于采用2000句测试集,尝试多种分句参数,选择机器翻译效果、翻译准确率较高的为最后的标准参数,得出分句模型。
本发明的另一目的在于提供一种神经网络机器翻译系统,所述神经网络机器翻译系统用于实现所述的面向波斯语机器翻译的断句方法。
本发明的另一目的在于提供一种机器翻译断句处理终端,所述机器翻译断句处理终端用于实现所述的面向波斯语机器翻译的断句方法。
本发明的另一目的在于提供一种语言处理终端,所述语言处理终端用于实现所述的面向波斯语机器翻译的断句方法。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供的面向波斯语机器翻译的断句方法,通过规则与分类处理的方法,将波斯语进行分句,从而提高波斯语的翻译效果与准确率,可以提高0.5个BLEU(Bilingual Evaluation Understudy,双语互译质量辅助工具)。同时,本发明提供的面向波斯语机器翻译的断句方法,面向波斯语机器翻译时,对波斯语进行分句,能够提升翻译效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的面向波斯语机器翻译的断句方法流程图。
图2是本发明实施例提供的面向波斯语机器翻译的断句方法原理图。
图3是本发明实施例提供的面向波斯语机器翻译的断句系统结构框图;
图中:1、语料获取模块;2、语料预处理模块;3、前向规则切分模块;4、细化切分模块;5、分句模型获取模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种面向波斯语机器翻译的断句方法、系统及应用,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的面向波斯语机器翻译的断句方法包括以下步骤:
S101:获取待处理的波斯语句子,对句子进行预处理,将其中波斯语数字转成阿拉伯数字;
S102:前向规则切分:利用正向匹配的方法,遇小数进行判断的方式,通过句子分隔符将波斯语句子进行初步切分;
S103:采取分类的方式,将句子长度分成两类进行细化切分:(1)对于含有:،:؛؟可以进行再次分句的符号,采用一种句长的处理方式;(2)对于句子过长的句子,在表示分句处进行切分,如果没有,则在固定长度出进行后向强制切分;
S104:采用2000句测试集,尝试多种分句参数,选择机器翻译效果、翻译准确率较高的为最后的标准参数,得出分句模型。
本发明提供的面向波斯语机器翻译的断句方法业内的普通技术人员还可以采用其他的步骤实施,图1的本发明提供的面向波斯语机器翻译的断句方法仅仅是一个具体实施例而已。
本发明实施例提供的面向波斯语机器翻译的断句方法原理图如图2所示。
如图3所示,本发明实施例提供的面向波斯语机器翻译的断句系统,包括:
语料获取模块1,用于获取待处理的波斯语句子;
语料预处理模块2,用于将波斯语数字转成阿拉伯数字;
前向规则切分模块3,用于利用正向匹配的方法,遇小数进行判断的方式,将波斯语句子进行初步切分;
细化切分模块4,用于采取分类的方式,将句子长度分成两类进行细化切分;
分句模型获取模块5,用于采用2000句测试集,尝试多种分句参数,选择机器翻译效果、翻译准确率较高的为最后的标准参数,得出分句模型。
下面结合实施例对本发明的技术方案作进一步的描述。
本发明主要是通过规则与分类处理的方法,将波斯语进行分句,从而提高波斯语的翻译效果与准确率,可以提高0.5个BLEU(Bilingual Evaluation Understudy,双语互译质量辅助工具)。
本发明旨在解决波斯语分句的问题,处理的步骤为:
1.波斯语中,存在波斯语表示的数字,需要将波斯语数字转成阿拉伯数字,这样不会将带有小数的进行错误切分。
2.利用正向匹配的方法,遇小数进行判断的方式,将句子进行初步切分。
3.较长句子会产生翻译漏译现象,这里采取分类的方式,将句子长度分成两类进行细化切分:(1)对于含有“:”可以进行再次分句的符号,采用一种句长的处理方式。(2)对于句子过长的句子,在表示分句处进行切分,如果没有,则在固定长度出进行后向强制切分。
4.采用2000句测试集,尝试多种分句参数,选择机器翻译效果、翻译准确率较高的为最后的标准参数,得出分句模型。
本发明的欲保护点为:波斯语数字转为阿拉伯数字的预处理,规则与分类的分句方法。
本发明主要是通过规则与分类处理的方法,将波斯语进行分句,从而提高波斯语的翻译效果与准确率,可以提高0.5个BLEU(Bilingual Evaluation Understudy,双语互译质量辅助工具)。
本发明提供的面向波斯语机器翻译的断句方法,面向波斯语机器翻译时,对波斯语进行分句,能够提升翻译效果。
原句: تحلیل این گزارش نشان می دهد: نزدیک به نیمی ازمصاحبهشوندگان معتقدند، مردان رهبران سیاسی برتری هستندو بیش از ۴۰ در صد مصاحبهشوندگان معتقدند که مردان می توانند مدیران تجاری بهتر باشند。
切分后: تحلیل این گزارش نشان می دهد: نزدیک به نیمیاز مصاحبهشوندگان معتقدند، مردان رهبران سیاسی برتری هستند و بیش از ۴۰ در صد مصاحبهشوندگان معتقدند که مردان می توانند مدیران تجاری بهتر باشند。
结果是有助于翻译效果的提升。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种面向波斯语机器翻译的断句方法,其特征在于,所述面向波斯语机器翻译的断句方法包括:
获取待处理的波斯语句子,对句子进行预处理,将其中波斯语数字转成阿拉伯数字;
前向规则切分:利用正向匹配的方法,遇小数进行判断的方式,通过句子分隔符将波斯语句子进行初步切分;
采取分类的方式,将句子长度分成两类进行细化切分;
采用多句测试集,尝试多种分句参数,选择机器翻译效果、翻译准确率高的为最后的标准参数,得出分句模型。
2.如权利要求1所述的面向波斯语机器翻译的断句方法,其特征在于,所述对句子进行预处理包括:波斯语中,存在波斯语表示的数字,通过语料预处理将波斯语数字转成阿拉伯数字。
3.如权利要求1所述的面向波斯语机器翻译的断句方法,其特征在于,所述采取分类的方式,将句子长度分成两类进行细化切分,包括:
(1)对于含有:،:؛؟进行再次分句的符号,采用一种句长的处理方式;
(2)对于句子过长的句子,在表示分句处进行切分,如果没有,则在固定长度出进行后向强制切分。
4.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
获取待处理的波斯语句子,并对语料进行预处理;
前向规则切分:利用正向匹配的方法,遇小数进行判断的方式,将波斯语句子进行初步切分;
采取分类的方式,将句子长度分成两类进行细化切分;
采用2000句测试集,尝试多种分句参数,选择机器翻译效果、翻译准确率高的为最后的标准参数,得出分句模型。
5.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
获取待处理的波斯语句子,并对语料进行预处理;
前向规则切分:利用正向匹配的方法,遇小数进行判断的方式,将波斯语句子进行初步切分;
采取分类的方式,将句子长度分成两类进行细化切分;
采用2000句测试集,尝试多种分句参数,选择机器翻译效果、翻译准确率高的为最后的标准参数,得出分句模型。
6.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现权利要求1~3任意一项所述的面向波斯语机器翻译的断句方法。
7.一种实施权利要求1~3任意一项所述的面向波斯语机器翻译的断句方法的面向波斯语机器翻译的断句系统,其特征在于,所述面向波斯语机器翻译的断句系统,包括:
语料获取模块,用于获取待处理的波斯语句子;
语料预处理模块,用于将波斯语数字转成阿拉伯数字;
前向规则切分模块,用于利用正向匹配的方法,遇小数进行判断的方式,将波斯语句子进行初步切分;
细化切分模块,用于采取分类的方式,将句子长度分成两类进行细化切分;
分句模型获取模块,用于采用2000句测试集,尝试多种分句参数,选择机器翻译效果、翻译准确率较高的为最后的标准参数,得出分句模型。
8.一种神经网络机器翻译系统,其特征在于,所述神经网络机器翻译系统用于实现权利要求1~3任意一项所述的面向波斯语机器翻译的断句方法。
9.一种机器翻译断句处理终端,其特征在于,所述机器翻译断句处理终端用于实现权利要求1~3任意一项所述的面向波斯语机器翻译的断句方法。
10.一种语言处理终端,其特征在于,所述语言处理终端用于实现权利要求1~3任意一项所述的面向波斯语机器翻译的断句方法。
CN202110380070.4A 2021-04-09 2021-04-09 一种面向波斯语机器翻译的断句方法、系统及应用 Pending CN113051889A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110380070.4A CN113051889A (zh) 2021-04-09 2021-04-09 一种面向波斯语机器翻译的断句方法、系统及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110380070.4A CN113051889A (zh) 2021-04-09 2021-04-09 一种面向波斯语机器翻译的断句方法、系统及应用

Publications (1)

Publication Number Publication Date
CN113051889A true CN113051889A (zh) 2021-06-29

Family

ID=76519019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110380070.4A Pending CN113051889A (zh) 2021-04-09 2021-04-09 一种面向波斯语机器翻译的断句方法、系统及应用

Country Status (1)

Country Link
CN (1) CN113051889A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101625845A (zh) * 2008-07-07 2010-01-13 阿尔派株式会社 显示方法及显示装置
CN107832308A (zh) * 2017-12-11 2018-03-23 中译语通科技股份有限公司 一种机器翻译的断句方法及系统、计算机程序、计算机
CN111178061A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种基于编码转换的多国语分词方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101625845A (zh) * 2008-07-07 2010-01-13 阿尔派株式会社 显示方法及显示装置
CN107832308A (zh) * 2017-12-11 2018-03-23 中译语通科技股份有限公司 一种机器翻译的断句方法及系统、计算机程序、计算机
CN111178061A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种基于编码转换的多国语分词方法

Similar Documents

Publication Publication Date Title
US10657325B2 (en) Method for parsing query based on artificial intelligence and computer device
EP4141733A1 (en) Model training method and apparatus, electronic device, and storage medium
WO2018205389A1 (zh) 语音识别方法、系统、电子装置及介质
US11521603B2 (en) Automatically generating conference minutes
CN114610845B (zh) 基于多系统的智能问答方法、装置和设备
CN110516203B (zh) 争议焦点分析方法、装置、电子设备及计算机可存储介质
CN112347241A (zh) 一种摘要提取方法、装置、设备及存储介质
CN113986864A (zh) 日志数据处理方法、装置、电子设备及存储介质
CN111950301A (zh) 一种中译英的英语译文质量分析方法及系统
JP7309811B2 (ja) データ注釈方法、装置、電子機器および記憶媒体
CN116012481A (zh) 图像生成处理方法、装置、电子设备及存储介质
CN110704638A (zh) 一种基于聚类算法的电力文本词典构造方法
CN113408660A (zh) 图书聚类方法、装置、设备和存储介质
CN111626055B (zh) 文本处理方法及装置、计算机存储介质、电子设备
WO2024051196A1 (zh) 恶意代码检测方法、装置、电子设备及存储介质
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN112711943A (zh) 一种维吾尔文语种识别方法、装置及存储介质
CN112528640A (zh) 一种基于异常子图检测的领域术语自动抽取方法
CN116955075A (zh) 一种基于日志的解析语句生成方法、装置、设备及介质
CN113051889A (zh) 一种面向波斯语机器翻译的断句方法、系统及应用
CN113254578B (zh) 用于数据聚类的方法、装置、设备、介质和产品
CN114647727A (zh) 应用于实体信息识别的模型训练方法、装置和设备
CN114239562A (zh) 文档中程序代码块的识别方法、装置和设备
CN113971403A (zh) 一种考虑文本语义信息的实体识别方法及系统
CN114385794A (zh) 企业知识图谱的生成方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210629