CN113988047A - 一种语料筛选方法和装置 - Google Patents

一种语料筛选方法和装置 Download PDF

Info

Publication number
CN113988047A
CN113988047A CN202111130345.5A CN202111130345A CN113988047A CN 113988047 A CN113988047 A CN 113988047A CN 202111130345 A CN202111130345 A CN 202111130345A CN 113988047 A CN113988047 A CN 113988047A
Authority
CN
China
Prior art keywords
word
length
word unit
sentence
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111130345.5A
Other languages
English (en)
Inventor
刘绍孔
李健
武卫东
陈明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sinovoice Technology Co Ltd
Original Assignee
Beijing Sinovoice Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sinovoice Technology Co Ltd filed Critical Beijing Sinovoice Technology Co Ltd
Priority to CN202111130345.5A priority Critical patent/CN113988047A/zh
Publication of CN113988047A publication Critical patent/CN113988047A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种语料筛选方法和装置,其中方法包括以下步骤:对原始语料数据进行数据清洗,得到候选语料数据,对候选语料数据中的语句进行分词,得到若干个词单元,计算语句对应的词单元列表长度和词单元集合长度的比例,判断语句是否符合预设条件,将符合预设条件的语句加入语料训练数据库。本发明通过计算语句的词单元列表长度和集合长度的比例,判断语句是否符合预设条件,过滤不符合预设条件的语句,将符合预设条件的语句加入语料训练数据库,用于神经网络机器翻译模型的再次训练,降低经过神经网络机器翻译后,得到的语句中同一个token连续重复出现的概率,提高神经网络机器的翻译体验,改善神经网络机器的翻译效果。

Description

一种语料筛选方法和装置
技术领域
本发明涉及语音处理技术领域,特别是涉及一种语料筛选方法和装置。
背景技术
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。机器翻译为达到较好的效果,需要使用大量的语料,当语料来源于网络时,语料的质量时常得不到保障,在单语料或者平行语料中,存在一定比例的包含单个token(词单元,包括字、词、符号)重复出现遇到一个token连续重复出现的现象,严重影响机器翻译的体验。因此,针对上述情况,从语料开始优化,从而改善翻译效果非常有必要。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语料筛选方法、以及相应的一种语料筛选装置。
为了解决上述问题,一方面,本发明实施例公开了一种语料筛选方法,包括:
获取原始语料数据;
对所述原始语料数据进行数据清洗,得到候选语料数据,所述候选语料数据包含多个语句,对多个所述语句进行分词,得到若干个词单元;
根据所述若干个词单元,确定词单元列表和词单元集合,所述词单元集合为去除所述词单元列表中重复的词单元后的集合;
计算所述语句对应的词单元列表长度和词单元集合长度,所述词单元列表长度为所述语句中所述词单元的个数,所述词单元集合长度为去除所述词单元列表中重复的词单元后的所述词单元的个数;
计算所述语句对应的所述词单元列表长度和所述词单元集合长度的比例,判断所述语句是否符合预设条件;
过滤不符合预设条件的语句,将符合预设条件的语句加入语料训练数据库。
进一步地,所述候选语料数据包括单语料语句,所述计算所述语句的词单元列表长度和词单元集合长度,包括:
计算所述单语料语句的第一词单元列表长度和第一词单元集合长度,所述第一词单元列表长度为所述单语料语句中所述词单元的个数,所述第一词单元集合长度为去除所述第一词单元列表中重复的词单元后的所述第一词单元的个数。
进一步地,所述计算所述语句对应的所述词单元列表长度和所述词单元集合长度的比例,判断所述语句是否符合预设条件包括:
计算所述单语料语句的第一分词长度比例,所述第一分词长度比例为所述第一词单元列表长度与所述第一词单元集合长度的比值;
判断所述第一分词长度比例是否小于预设第一阈值。
进一步地,所述候选语料数据包括平行语料语句,所述平行语料语句包括源语言语句和目标语言语句,所述计算所述语句对应的词单元列表长度和词单元集合长度,包括:
计算所述源语言语句的第二词单元列表长度和第二词单元集合长度,所述第二词单元列表长度为所述源语言语句中所述词单元的个数,所述第二词单元集合长度为去除所述第二词单元列表中重复的词单元后的所述第二词单元的个数;
计算所述目标语言语句的第三词单元列表长度和第三词单元集合长度,所述第三词单元列表长度为所述目标语言语句中所述词单元的个数,所述第三词单元集合长度为去除所述第三词单元列表中重复的词单元后的所述第三词单元的个数。
进一步地,所述计算所述语句对应的所述词单元列表长度和所述词单元集合长度的比例,判断所述语句是否符合预设条件包括:
计算所述源语言语句的第二分词长度比例,所述第二分词长度比例为所述第二词单元列表长度与所述第二词单元集合长度的比值;
计算所述目标语言语句的第三分词长度比例,所述第三分词长度比例为所述第三词单元列表长度与所述第三词单元集合长度的比值;
计算所述平行语料语句的第四分词长度比例,所述第四分词长度比例为所述第二词单元列表长度与所述第三词单元列表长度的比值;
判断所述第二分词长度比例是否小于预设第二阈值、判断所述第三分词长度比例是否小于预设第三阈值、以及判断所述第四分词长度比例是否位于预设第四阈值区间。
另一方面,本发明还提供了一种语料筛选装置,包括:
原始语料数据获取模块,用于获取原始语料数据;
第一词单元获取模块,用于对所述原始语料数据进行数据清洗,得到候选语料数据,所述候选语料数据包含多个语句,对多个所述语句进行分词,得到若干个词单元;
第二词单元获取模块,用于根据所述若干个词单元,确定词单元列表和词单元集合,所述词单元集合为去除所述词单元列表中重复的词单元后的集合;
第三词单元获取模块,用于计算所述语句对应的词单元列表长度和词单元集合长度,所述词单元列表长度为所述语句中所述词单元的个数,所述词单元集合长度为去除所述词单元列表中重复的词单元后的所述词单元的个数;
判断模块,用于计算所述语句对应的所述词单元列表长度和所述词单元集合长度的比例,判断所述语句是否符合预设条件;
语料训练数据库获取模块,用于过滤不符合预设条件的语句,将符合预设条件的语句加入语料训练数据库。
进一步地,所述候选语料数据包括单语料语句,所述第三词单元获取模块包括:
第一词单元获取子模块,用于计算所述单语料语句的第一词单元列表长度和第一词单元集合长度,所述第一词单元列表长度为所述单语料语句中所述词单元的个数,所述第一词单元集合长度为去除所述第一词单元列表中重复的词单元后的所述第一词单元的个数。
进一步地,所述判断模块包括:
第一计算子模块,用于计算第一分词长度比例,所述第一分词长度比例为所述第一词单元列表长度与所述第一词单元集合长度的比值;
第一判断子模块,用于判断所述第一分词长度比例是否小于预设第一阈值。
进一步地,所述候选语料数据包括平行语料语句,所述平行语料语句包括源语言语句和目标语言语句,所述第三词单元获取模块包括:
第二词单元获取子模块,用于计算所述源语言语句的第二词单元列表长度和第二词单元集合长度,所述第二词单元列表长度为所述源语言语句中所述词单元的个数,所述第二词单元集合长度为去除所述第二词单元列表中重复的词单元后的所述第二词单元的个数;
第三词单元获取子模块,用于计算所述目标语言语句的第三词单元列表长度和第三词单元集合长度,所述第三词单元列表长度为所述目标语言语句中所述词单元的个数,所述第三词单元集合长度为去除所述第三词单元列表中重复的词单元后的所述第三词单元的个数。
进一步地,所述判断模块包括:
第二计算子模块,用于计算第二分词长度比例,所述第二分词长度比例为所述第二词单元列表长度与所述第二词单元集合长度的比值;
第二判断子模块,用于判断所述第二分词长度比例是否小于预设第二阈值;
第三计算子模块,用于计算第三分词长度比例,所述第三分词长度比例为所述第三词单元列表长度与所述第三词单元集合长度的比值;
第三判断子模块,用于判断所述第三分词长度比例是否小于预设第三阈值;
第四计算子模块,用于计算第四分词长度比例,所述第四分词长度比例为所述第二词单元列表长度与所述第三词单元列表长度的比值;
第四判断子模块,用于判断所述第四分词长度比例是否位于预设第四阈值区间。
另一方面,本发明的实施例还提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现该语料筛选方法的步骤。
另一方面,本发明的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现该语料筛选方法的步骤。
本发明实施例包括以下优点:本发明通过对原始语料数据进行数据清洗,得到候选语料数据,对候选语料数据中的语句进行分词,得到若干个词单元,计算语句对应的词单元列表长度和词单元集合长度的比例,判断语句是否符合预设条件,将符合预设条件的语句加入语料训练数据库,用于神经网络机器翻译模型的再次训练,降低经过神经网络机器翻译后,得到的语句中同一个token连续重复出现的概率,提高神经网络机器的翻译体验,改善神经网络机器的翻译效果。
附图说明
图1为本发明实施例提供的一种语料筛选方法的步骤流程图;
图2为本发明实施例中一种英文翻译为中文的示意图;
图3为本发明实施例中一种中文翻译为英文的示意图;
图4为本发明实施例提供的一种语料筛选装置的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为本发明实施例提供的一种语料筛选方法的步骤流程图,使用该方法筛选后,符合预设条件的语料可应用于神经网络机器翻译模型的训练,该方法包括以下步骤:
步骤101、获取原始语料数据;
于本实施例中,原始语料数据可来源于用户的备选语料库,也可通过网络采集相应原始语料,本申请对原始语料数据的来源不做具体限定。
步骤102、对所述原始语料数据进行数据清洗,得到候选语料数据,所述候选语料数据包含多个语句,对多个所述语句进行分词,得到若干个词单元;
对所述原始语料数据进行数据清洗是指将原始语料数据中的语言标准进行统一,例如英文的大写变为小写,中文的全角字符转为半角字符,删除语料训练数据中的停用词。
需要进一步举例说明的是,在进行语言标准统一的过程中,部分专有名称不转换英文的大小写,例如Mr、Scottland等专有名词保持不变。
需要进一步举例说明的是,在数据清洗的过程中,将缩写短语转换成全写短语,例如将I’ll转换成Iwill,将she’s转化成sheis。
需要进一步举例说明的是,在数据清洗的过程中,将意思相同但写法不同的词或短语转换成预设的词或短语,例如:USA和America都是表示美国的意思,则全部统一转换成America。
采用自然语言处理工具对原始语料数据进行分句和分词,使得原始语料数据以语句和所述语句对应的词单元(token)呈现。示例的,对语句“发明人对语句进行分词处理,并统计语句分词列表和分词集合的长度”进行分词,得到的词单元为:发明人、对、语句、进行、分词、处理、并、统计、语句、分词、列表、和、分词、集合、的、长度。
步骤103、根据所述若干个词单元,确定词单元列表和词单元集合,所述词单元集合为去除所述词单元列表中重复的词单元后的集合;
步骤104、计算所述语句对应的词单元列表长度和词单元集合长度,所述词单元列表长度为所述语句中所述词单元的个数,所述词单元集合长度为去除所述词单元列表中重复的词单元后的所述词单元的个数;
步骤105、计算所述语句对应的所述词单元列表长度和所述词单元集合长度的比例,判断所述语句是否符合预设条件;
示例的,语句“发明人对语句进行分词处理,并统计语句分词列表和分词集合的长度”分词后的词单元列表为(发明人、对、语句、进行、分词、处理、并、统计、语句、分词、列表、和、分词、集合、的、长度),该语句对应的词单元列表长度为16,该语句分词后的词单元集合为(发明人、对、语句、进行、分词、处理、并、统计、列表、和、集合、的、长度),该语句对应的词单元集合长度为13,相应的,该语句对应的所述词单元列表长度和所述词单元集合长度的比例16/13。本领域技术人员可以根据依据实际需求设定一预设阈值,计算语句对应的词单元列表长度和词单元集合长度的比例,当该比例的数值小于预定阈值时,判定该语句满足预设条件,当该比例的数值大于或等于预设阈值时,判定该语句不满足预设条件。
步骤106、过滤不符合预设条件的语句,将符合预设条件的语句加入语料训练数据库。
本发明通过对原始语料数据进行数据清洗,得到候选语料数据,对候选语料数据中的语句进行分词,得到若干个词单元,计算语句对应的词单元列表长度和词单元集合长度的比例,判断语句是否符合预设条件,将符合预设条件的语句加入语料训练数据库,并将其用于神经网络机器翻译模型的再次训练,降低经过神经网络机器翻译后,得到的语句中同一个token连续重复出现的概率,提高神经网络机器的翻译体验,改善神经网络机器的翻译效果。
在一种可选实施例中,候选语料数据为单语料语句,单语料语句为包含一种语言的语句,计算所述单语料语句的第一词单元列表长度和第一词单元集合长度,所述第一词单元列表长度为所述单语料语句中所述词单元的个数,所述第一词单元集合长度为去除所述第一词单元列表中重复的词单元后的所述第一词单元的个数;计算第一分词长度比例,所述第一分词长度比例为所述第一词单元列表长度与所述第一词单元集合长度的比值。
示例的,语句“候选语料数据为单语料语句,单语料语句为包含一种语言的语句”分词后的词单元列表为(候选、语料、数据、为、单语料、语句、单语料、语句、为、包含、一种、语言、的、语句)。需要特别说明的是,因发明人使用的自然语言分词工具不同或分词标准不同,得到的token(词单元)会存在差异,如本实施例中将“语料”和“单语料”视为两个不同的token,该语句对应的第一词单元列表长度为14,该语句分词后的词单元集合为(候选、语料、数据、为、单语料、语句、包含、一种、语言、的),该语句对应的第一词单元集合长度为10,相应的,该语句对应的第一分词长度比例为1.4。本领域技术人员可以根据依据实际需求设定预设第一阈值,计算单语料语句对应的第一词单元列表长度和第一词单元集合长度的比例,当该比例的数值小于预设第一阈值时,判定该语句满足预设条件,当该比例的数值大于或等于预设第一阈值时,判定该语句不满足预设条件。
在一种可选实施例中,所述候选语料数据包括平行语料语句,所述平行语料为使用不同语言撰写、相互间具有翻译关系的语句。
以中文-英文互译为例(源文:甲乙丙丁;译文:ABCD),图2为本发明实施例提供的一种英文翻译为中文的示意图,图3为本发明实施例提供的一种中文翻译为英文的示意图。神经机器翻译模型的框架一般选用Encoder-Decoder框架,Encoder(编码模块)包含一层或若干层神经网络,Decoder(解码模块)也包含一层或若干层神经网络,其中<EOS>为翻译结束标志符。Encoder用于将输入编码模块的语句的信息提取出来,使用一个抽象的语义来代替原来的语句,而Decoder(解码模块)用于将抽象的语义转换成目标语言的语句,并使得生成的句子能完美的表达原语句的含义,并符合目标语言的逻辑习惯。
当平行语料只包含两种语言时,本实施例将所述两种语言视为源语言语句和目标语言语句,计算所述源语言语句的第二词单元列表长度和第二词单元集合长度,所述第二词单元列表长度为所述源语言语句中所述词单元的个数,所述第二词单元集合长度为去除所述第二词单元列表中重复的词单元后的所述第二词单元的个数;计算所述目标语言语句的第三词单元列表长度和第三词单元集合长度,所述第三词单元列表长度为所述目标语言语句中所述词单元的个数,所述第三词单元集合长度为去除所述第三词单元列表中重复的词单元后的所述第三词单元的个数;计算第二分词长度比例,所述第二分词长度比例为所述第二词单元列表长度与所述第二词单元集合长度的比值;判断所述第二分词长度比例是否小于预设第二阈值;计算第三分词长度比例,所述第三分词长度比例为所述第三词单元列表长度与所述第三词单元集合长度的比值;判断所述第三分词长度比例是否小于预设第三阈值;计算第四分词长度比例,所述第四分词长度比例为所述第二词单元列表长度与所述第三词单元列表长度的比值;判断所述第四分词长度比例是否位于预设第四阈值区间。
第二分词长度比例src_ratio=src_list_len/src_set_len,
第三分词长度比例tgt_ratio=tgt_list_len/tgt_set_len,
第四分词长度比例src_tgt_ratio=src_list_len/tgt_list_len
其中,src_ratio为源语言语句对应的第二分词长度比例,src_list_len为源语言语句对应的第二词单元列表长度,src_set_len为源语言语句对应的第二词单元集合长度,tgt_ratio为目标语言语句对应的第三分词长度比例,tgt_list_len为目标语言语句对应的第三词单元列表长度,tgt_set_len为目标语言语句对应的第三词单元集合长度,src_tgt_ratio为平行语料语句对应的第四分词长度比例,src_list_len为源语言语句对应的第二词单元列表长度,src_set_len为目标语言语句对应的第三词单元列表长度。
本领域技术人员可以根据依据实际需求设定预设第二阈值,当第二分词长度比例小于预设第二阈值时,判定该源语言语句满足预设条件,当该比例的数值大于或等于预设第二阈值时,判定该源语言语句不满足预设条件。
本领域技术人员可以根据依据实际需求设定预设第三阈值,当第三分词长度比例小于预设第三阈值时,判定该目标语言语句满足预设条件,当该比例的数值大于或等于预设第三阈值时,判定该目标语言语句不满足预设条件。
本领域技术人员可以根据依据实际需求设定预设第四阈值区间,当第四分词长度比例位于预设第四阈值区间时,判定该平行语料语句满足预设条件,当该比例的数值不在预设第四阈值区间时,判定该平行语料语句不满足预设条件。示例的,以一条包含中文语句和英文语句的平行语料为例,分别对中文语句和英文语句进行分词操作,统计后得出中文词句词单元列表长度为a,英文语句词单元列表长度为b,设定最小长度比μ和最大长度比λ,当μ<a/b<λ时,所述平行语料符合预设条件,否则视为无价值平行语料进行过滤。
在一种可选实施例中,上述语料筛选方法还包括:
当候选语料数据为平行语料时,计算所述平行语料的互译匹配率;根据所述互译匹配率判断所述平行语料是否符合预设条件。
以一条包含中文语句和英文语句的平行语料为例,分别对中文语句和英文语句进行分词操作,分词后的中文语句中存在X个词单元,从中抽取出x(x<X)个词单元,通过词典或通用翻译工具将这x个词单元翻译成对应的x个英语词单元,这x个英语词单元在已分词的英文语句中存在y个能与之完全匹配的词单元,那么第一互译匹配率p1=x/y。同理,分词后的英文语句中存在Y个词单元,从中抽取出m个词单元,通过词典或通用翻译工具将这m个词单元翻译成对应的m个中文词单元,这m个英语词单元在已分词的中文语句中存在n个能与之完全匹配的词单元,那么第二互译匹配率p2=m/n,所述平行语料的互译匹配率为p=(p1+p2)/2。本领域技术人员可以根据实际需要设定预设第五阈值,当平行语料的互译匹配率大于预设第五阈值时,判断平行语料满足预设条件,否则对该平行语料进行过滤处理。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
为了实现上述语料筛选方法,本发明实施例还提供了一种语料筛选装置,包括:
原始语料数据获取模块201,用于获取原始语料数据;
第一词单元获取模块202,用于对所述原始语料数据进行数据清洗,得到候选语料数据,所述候选语料数据包含多个语句,对多个所述语句进行分词,得到若干个词单元;
第二词单元获取模块203,用于根据所述若干个词单元,确定词单元列表和词单元集合,所述词单元集合为去除所述词单元列表中重复的词单元后的集合;
第三词单元获取模块204,用于计算所述语句对应的词单元列表长度和词单元集合长度,所述词单元列表长度为所述语句中所述词单元的个数,所述词单元集合长度为去除所述词单元列表中重复的词单元后的所述词单元的个数;
判断模块205,用于计算所述语句对应的所述词单元列表长度和所述词单元集合长度的比例,判断所述语句是否符合预设条件;
语料训练数据库获取模块206,用于过滤不符合预设条件的语句,将符合预设条件的语句加入语料训练数据库。
在一种可选实施例中,所述候选语料数据包括单语料语句,所述第三词单元获取模块204可以包括:
第一词单元获取子模块,用于计算所述单语料语句的第一词单元列表长度和第一词单元集合长度,所述第一词单元列表长度为所述单语料语句中所述词单元的个数,所述第一词单元集合长度为去除所述第一词单元列表中重复的词单元后的所述第一词单元的个数。
在一种可选实施例中,所述判断模块205可以包括:
第一计算子模块,用于计算第一分词长度比例,所述第一分词长度比例为所述第一词单元列表长度与所述第一词单元集合长度的比值;
第一判断子模块,用于判断所述第一分词长度比例是否小于预设第一阈值。
在一种可选实施例中,所述候选语料数据包括平行语料语句,所述平行语料语句包括源语言语句和目标语言语句,所述第三词单元获取模块204可以包括:
第二词单元获取子模块,用于计算所述源语言语句的第二词单元列表长度和第二词单元集合长度,所述第二词单元列表长度为所述源语言语句中所述词单元的个数,所述第二词单元集合长度为去除所述第二词单元列表中重复的词单元后的所述第二词单元的个数;
第三词单元获取子模块,用于计算所述目标语言语句的第三词单元列表长度和第三词单元集合长度,所述第三词单元列表长度为所述目标语言语句中所述词单元的个数,所述第三词单元集合长度为去除所述第三词单元列表中重复的词单元后的所述第三词单元的个数。
在一种可选实施例中,所述判断模块205可以包括:
第二计算子模块,用于计算第二分词长度比例,所述第二分词长度比例为所述第二词单元列表长度与所述第二词单元集合长度的比值;
第二判断子模块,用于判断所述第二分词长度比例是否小于预设第二阈值;
第三计算子模块,用于计算第三分词长度比例,所述第三分词长度比例为所述第三词单元列表长度与所述第三词单元集合长度的比值;
第三判断子模块,用于判断所述第三分词长度比例是否小于预设第三阈值;
第四计算子模块,用于计算第四分词长度比例,所述第四分词长度比例为所述第二词单元列表长度与所述第三词单元列表长度的比值;
第四判断子模块,用于判断所述第四分词长度比例是否位于预设第四阈值区间。
基于上述说明,本发明通过对原始语料数据进行数据清洗,得到候选语料数据,对候选语料数据中的语句进行分词,得到若干个词单元,计算语句对应的词单元列表长度和词单元集合长度的比例,判断语句是否符合预设条件,将符合预设条件的语句加入语料训练数据库,并将其用于神经网络机器翻译模型的再次训练,降低经过神经网络机器翻译后,得到的语句中同一个token连续重复出现的概率,提高神经网络机器的翻译体验,改善神经网络机器的翻译效果。
本发明实施例还提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述语料筛选实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述语料筛选方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种语料筛选方法和一种语料筛选装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种语料筛选方法,其特征在于,包括:
获取原始语料数据;
对所述原始语料数据进行数据清洗,得到候选语料数据,所述候选语料数据包含多个语句,对多个所述语句进行分词,得到若干个词单元;
根据所述若干个词单元,确定词单元列表和词单元集合,所述词单元集合为去除所述词单元列表中重复的词单元后的集合;
计算所述语句对应的词单元列表长度和词单元集合长度,所述词单元列表长度为所述语句中所述词单元的个数,所述词单元集合长度为去除所述词单元列表中重复的词单元后的所述词单元的个数;
计算所述语句对应的所述词单元列表长度和所述词单元集合长度的比例,判断所述语句是否符合预设条件;
过滤不符合预设条件的语句,将符合预设条件的语句加入语料训练数据库。
2.根据权利要求1所述的方法,其特征在于,所述候选语料数据包括单语料语句,所述计算所述语句的词单元列表长度和词单元集合长度,包括:
计算所述单语料语句的第一词单元列表长度和第一词单元集合长度,所述第一词单元列表长度为所述单语料语句中所述词单元的个数,所述第一词单元集合长度为去除所述第一词单元列表中重复的词单元后的所述第一词单元的个数。
3.根据权利要求2所述的方法,其特征在于,所述计算所述语句对应的所述词单元列表长度和所述词单元集合长度的比例,判断所述语句是否符合预设条件包括:
计算所述单语料语句的第一分词长度比例,所述第一分词长度比例为所述第一词单元列表长度与所述第一词单元集合长度的比值;
判断所述第一分词长度比例是否小于预设第一阈值。
4.根据权利要求1所述的方法,其特征在于,所述候选语料数据包括平行语料语句,所述平行语料语句包括源语言语句和目标语言语句,所述计算所述语句对应的词单元列表长度和词单元集合长度,包括:
计算所述源语言语句的第二词单元列表长度和第二词单元集合长度,所述第二词单元列表长度为所述源语言语句中所述词单元的个数,所述第二词单元集合长度为去除所述第二词单元列表中重复的词单元后的所述第二词单元的个数;
计算所述目标语言语句的第三词单元列表长度和第三词单元集合长度,所述第三词单元列表长度为所述目标语言语句中所述词单元的个数,所述第三词单元集合长度为去除所述第三词单元列表中重复的词单元后的所述第三词单元的个数。
5.根据权利要求4所述的方法,其特征在于,所述计算所述语句对应的所述词单元列表长度和所述词单元集合长度的比例,判断所述语句是否符合预设条件包括:
计算所述源语言语句的第二分词长度比例,所述第二分词长度比例为所述第二词单元列表长度与所述第二词单元集合长度的比值;
计算所述目标语言语句的第三分词长度比例,所述第三分词长度比例为所述第三词单元列表长度与所述第三词单元集合长度的比值;
计算所述平行语料语句的第四分词长度比例,所述第四分词长度比例为所述第二词单元列表长度与所述第三词单元列表长度的比值;
判断所述第二分词长度比例是否小于预设第二阈值、判断所述第三分词长度比例是否小于预设第三阈值、以及判断所述第四分词长度比例是否位于预设第四阈值区间。
6.一种语料筛选装置,其特征在于,包括:
原始语料数据获取模块,用于获取原始语料数据;
第一词单元获取模块,用于对所述原始语料数据进行数据清洗,得到候选语料数据,所述候选语料数据包含多个语句,对多个所述语句进行分词,得到若干个词单元;
第二词单元获取模块,用于根据所述若干个词单元,确定词单元列表和词单元集合,所述词单元集合为去除所述词单元列表中重复的词单元后的集合;
第三词单元获取模块,用于计算所述语句对应的词单元列表长度和词单元集合长度,所述词单元列表长度为所述语句中所述词单元的个数,所述词单元集合长度为去除所述词单元列表中重复的词单元后的所述词单元的个数;
判断模块,用于计算所述语句对应的所述词单元列表长度和所述词单元集合长度的比例,判断所述语句是否符合预设条件;
语料训练数据库获取模块,用于过滤不符合预设条件的语句,将符合预设条件的语句加入语料训练数据库。
7.根据权利要求6所述的装置,其特征在于,所述候选语料数据包括单语料语句,所述第三词单元获取模块包括:
第一词单元获取子模块,用于计算所述单语料语句的第一词单元列表长度和第一词单元集合长度,所述第一词单元列表长度为所述单语料语句中所述词单元的个数,所述第一词单元集合长度为去除所述第一词单元列表中重复的词单元后的所述第一词单元的个数。
8.根据权利要求7所述的装置,其特征在于,所述判断模块包括:
第一计算子模块,用于计算第一分词长度比例,所述第一分词长度比例为所述第一词单元列表长度与所述第一词单元集合长度的比值;
第一判断子模块,用于判断所述第一分词长度比例是否小于预设第一阈值。
9.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-5中任一项所述的语料筛选方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的语料筛选方法的步骤。
CN202111130345.5A 2021-09-26 2021-09-26 一种语料筛选方法和装置 Pending CN113988047A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111130345.5A CN113988047A (zh) 2021-09-26 2021-09-26 一种语料筛选方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111130345.5A CN113988047A (zh) 2021-09-26 2021-09-26 一种语料筛选方法和装置

Publications (1)

Publication Number Publication Date
CN113988047A true CN113988047A (zh) 2022-01-28

Family

ID=79736750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111130345.5A Pending CN113988047A (zh) 2021-09-26 2021-09-26 一种语料筛选方法和装置

Country Status (1)

Country Link
CN (1) CN113988047A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114817517A (zh) * 2022-05-30 2022-07-29 北京海天瑞声科技股份有限公司 一种语料获取方法、装置、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114817517A (zh) * 2022-05-30 2022-07-29 北京海天瑞声科技股份有限公司 一种语料获取方法、装置、电子设备和存储介质
CN114817517B (zh) * 2022-05-30 2022-12-20 北京海天瑞声科技股份有限公司 一种语料获取方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
TWI636452B (zh) 語音識別方法及系統
KR101498331B1 (ko) 텍스트 세그먼트를 가진 문서로부터 용어를 추출하기 위한 시스템
CN106445915B (zh) 一种新词发现方法及装置
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN114580382A (zh) 文本纠错方法以及装置
CN111539229A (zh) 神经机器翻译模型训练方法、神经机器翻译方法及装置
JP6427466B2 (ja) 同義語ペア獲得装置、方法、及びプログラム
CN106372053B (zh) 句法分析的方法和装置
CN113988047A (zh) 一种语料筛选方法和装置
Chennoufi et al. Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization
CN109657244B (zh) 一种英文长句自动切分方法及系统
CN112151021A (zh) 语言模型的训练方法、语音识别方法、装置及电子设备
CN110610006A (zh) 基于笔画和字形的形态学双通道中文词嵌入方法
CN111310457B (zh) 词语搭配不当识别方法、装置、电子设备和存储介质
CN115994544A (zh) 平行语料筛选方法、平行语料筛选设备和可读存储介质
CN115796141A (zh) 文本数据增强方法和装置、电子设备、存储介质
CN114861628A (zh) 训练机器翻译模型的系统、方法、电子设备及存储介质
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
Mekki et al. COTA 2.0: An automatic corrector of tunisian Arabic social media texts
CN112989816B (zh) 文本内容质量评估方法及系统
CN115496070A (zh) 平行语料数据处理方法、装置、设备及介质
CN110188330B (zh) 确定相似文本信息的方法、装置、电子设备及存储介质
CN111090720B (zh) 一种热词的添加方法和装置
CN112966510A (zh) 一种基于albert的武器装备实体抽取方法、系统及存储介质
CN116341543B (zh) 一种人名识别与纠错的方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination