CN115496070A - 平行语料数据处理方法、装置、设备及介质 - Google Patents

平行语料数据处理方法、装置、设备及介质 Download PDF

Info

Publication number
CN115496070A
CN115496070A CN202211065203.XA CN202211065203A CN115496070A CN 115496070 A CN115496070 A CN 115496070A CN 202211065203 A CN202211065203 A CN 202211065203A CN 115496070 A CN115496070 A CN 115496070A
Authority
CN
China
Prior art keywords
sub
target
statement
source
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211065203.XA
Other languages
English (en)
Inventor
张文
费一楠
胡婷
扈林芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHINA PATENT INFORMATION CENTER
Original Assignee
CHINA PATENT INFORMATION CENTER
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHINA PATENT INFORMATION CENTER filed Critical CHINA PATENT INFORMATION CENTER
Priority to CN202211065203.XA priority Critical patent/CN115496070A/zh
Publication of CN115496070A publication Critical patent/CN115496070A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种平行语料数据处理方法、装置、设备及介质。在该方法中,根据标点符号集合,对待训练的平行语料中的源语句和目标语句进行划分,进而将通过划分得到的子源语句和子目标语句输入预设语义模型,得到每个子源语句和每个子目标语句语义向量。再根据语义向量计算得到每个子源语句和每个子目标语句对应的目标余弦相似距离,最后根据目标余弦相似距离和预设距离阈值,对平行语料进行过滤处理。本方案通过对待训练的平行语料进行划分,计算目标余弦相似距离,实现了在源语句和目标语句存在语义不相关的语料,且源语句和目标语句的整体长度相差较小的情况下,对平行语料进行过滤处理。

Description

平行语料数据处理方法、装置、设备及介质
技术领域
本申请涉及机器翻译领域,尤其涉及一种平行语料数据处理方法、装置、设备及介质。
背景技术
目前主流的机器翻译模型是神经网络模型,其训练需要大量的双语平行语料,所以语料的质量会影响模型的翻译效果。为了让语料的质量达到用于模型训练的标准,需要对语料进行清洗过滤,去除语料中的噪声数据。
平行语料中的噪声数据包括:源语句和目标语句中存在语义不相关的语料。具体分三种情况:源语句与目标语句中存在个别词语无法对应;源语句和目标语句存在语义不相关的语料,且源语句和目标语句的整体长度相差较大;源语句和目标语句存在语义不相关的语料,且源语句和目标语句的整体长度相差较小。现有技术中,对于第一种情况,目前可以通过双语词典的方法进行映射匹配来解决此类问题。对于第二种情况,可以采用长度比过滤的方式达到语料清洗过滤的目的。
综上所述,目前还没有一种方案可以实现在源语句和目标语句存在语义不相关的语料,且源语句和目标语句的整体长度相差较小的情况下,对平行语料进行过滤处理。
发明内容
本申请实施例提供一种平行语料数据处理方法、装置、设备及介质,用于解决目前还没有一种方案可以实现在源语句和目标语句存在语义不相关的语料,且源语句和目标语句的整体长度相差较小的情况下,对平行语料进行过滤处理的问题。
第一方面,本申请实施例提供一种平行语料数据处理方法,包括:
根据标点符号集合,对待训练的平行语料中的源语句和目标语句进行划分,得到子源语句和子目标语句;
将所述子源语句和所述子目标语句输入预设语义模型,获取每个子源语句和每个子目标语句对应的语义向量;
根据所述语义向量,计算每个子源语句和每个子目标语句对应的目标余弦相似距离;
根据所述目标余弦相似距离和预设距离阈值,对所述平行语料进行过滤处理。
在一种具体实施方式中,所述根据所述语义向量,计算每个子源语句和每个子目标语句对应的目标余弦相似距离,包括:
对于每个子源语句,根据所述子源语句的语义向量和每个子目标语句对应的语义向量,计算所述子源语句与每个子目标语句的第一余弦相似距离;
将所述第一余弦相似距离中的最大值,确定为所述子源语句对应的目标余弦相似距离;
对于每个子目标语句,根据所述子目标语句的语义向量和每个源目标语句对应的语义向量,计算所述子目标语句与每个子源语句的第二余弦相似距离;
将所述第二余弦相似距离中的最大值,确定为所述子目标语句对应的目标余弦相似距离。
在一种具体实施方式中,所述根据所述目标余弦相似距离和预设距离阈值,对所述平行语料进行过滤,包括:
对于每个子源语句,若所述子源语句对应的目标余弦相似距离小于或等于所述预设距离阈值,则将所述平行语料中的所述子源语句删除;
对于每个子目标语句,若所述子目标语句对应的目标余弦相似距离小于或等于所述预设距离阈值,则将所述平行语料中的所述子目标语句删除。
在一种具体实施方式中,所述根据标点符号集合,对平行语料中的源语句和目标语句进行划分,得到子源语句和子目标语句之后,所述方法还包括:
对每个子源语句和每个子目标语句进行分词处理,获取每个子源语句和每个子目标语句对应的分词数量;
根据分词数量和预设数量阈值对子源语句和子目标语句分别进行合并,得到更新后的子源语句和更新后的子目标语句,所述更新后的子源语句和所述更新后的子目标语句对应的分词数量大于或等于所述预设数量阈值。
在一种具体实施方式中,所述标点符号集合中的标点符号包括:中文逗号、中文句号、中文问号、中文感叹号、中文顿号、中文分号、英文逗号、英文句号、英文问号、英文感叹号、英文分号。
在一种具体实施方式中,所述预设语义模型包括:语言无关基于转换器的双向编码表征句子嵌入LaBSE语义模型。
第二方面,本申请实施例提供一种平行语料数据处理装置,包括:
划分模块,用于根据标点符号集合,对待训练的平行语料中的源语句和目标语句进行划分,得到子源语句和子目标语句;
获取模块,用于将所述子源语句和所述子目标语句输入预设语义模型,获取每个子源语句和每个子目标语句对应的语义向量;
处理模块,用于:
根据所述语义向量,计算每个子源语句和每个子目标语句对应的目标余弦相似距离;
根据所述目标余弦相似距离和预设距离阈值,对所述平行语料进行过滤处理。
第三方面,本申请实施例提供一种电子设备,包括:
处理器,存储器,通信接口;
所述存储器用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行第一方面任一项所述的平行语料数据处理方法。
第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一项所述的平行语料数据处理方法。
第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时用于实现第一方面任一项所述的平行语料数据处理方法。
本申请实施例提供的平行语料数据处理方法、装置、设备及介质,通过对待训练的平行语料中的源语句和目标语句进行划分,进而将通过划分得到的子源语句和子目标语句输入预设语义模型,得到每个子源语句和每个子目标语句语义向量。再根据语义向量计算得到每个子源语句和每个子目标语句对应的目标余弦相似距离,最后根据目标余弦相似距离和预设距离阈值,对平行语料进行过滤处理。本方案通过对待训练的平行语料进行划分,计算目标余弦相似距离,实现了在源语句和目标语句存在语义不相关的语料,且源语句和目标语句的整体长度相差较小的情况下,对平行语料进行过滤处理。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单的介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的平行语料数据处理方法实施例一的流程示意图;
图2为本申请提供的平行语料数据处理方法实施例二的流程示意图;
图3为本申请提供的平行语料数据处理方法实施例三的流程示意图;
图4为本申请提供的平行语料数据处理装置实施例的结构示意图;
图5为本申请提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在根据本实施例的启示下作出的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
随着科技的迅速发展,翻译领域越来越多地使用机器翻译,而机器翻译所使用的模型为神经网络模型,需要使用平行语料进行训练。为了使得神经网络模型的准确率更高,通常会对训练所使用的平行语料进行过滤,去除语料中的噪声数据。
平行语料中的噪声数据可分为以下几种形式:与语义不相关的符号,如超文本标记语言(Hyper Text Markup Language,简称:HTML)标签等;不可识别的乱码;源语句与目标语句中对应的字符不一致;源语句和目标语句中存在语义不相关的语料。
前三种形式的噪声数据通常可以通过一些基于规则的方法进行清洗过滤,但对于第四种形式,即源语句和目标语句中存在语义不相关语料的情况,不太容易通过基于规则的方法达到清洗过滤的效果。
第四种形式的噪声数据具体分三种情况:源语句与目标语句中存在个别词语无法对应;源语句和目标语句存在语义不相关的语料,且源语句和目标语句的整体长度相差较大;源语句和目标语句存在语义不相关的语料,且源语句和目标语句的整体长度相差较小。
现有技术中,对于第一种情况,目前可以通过双语词典的方法进行映射匹配来解决此类问题。对于第二种情况,可以采用长度比过滤的方式达到语料清洗过滤的目的。目前还没有一种方案可以实现在源语句和目标语句存在语义不相关的语料,且源语句和目标语句的整体长度相差较小的情况下,对平行语料进行过滤。
针对现有技术中存在的问题,发明人在对平行语料数据处理方法进行研究的过程中发现,可通过语义模型和计算余弦相似距离识别出源语句和目标语句存在语义不相关的语料,对平行语料进行过滤。可根据标点符号集合,对平行语料中的源语句和目标语句进行划分,得到子源语句和子目标语句;进而将子源语句和子目标语句输入预设语义模型,得到每个子源语句和每个子目标语句对应的语义向量,进而可计算得到每个子源语句和每个子目标语句对应的目标余弦相似距离,若目标余弦相似距离小于或等于预设距离阈值,说明该目标余弦相似距离对应的子源语句或子目标语句为语义不相关的语料,将其删除。可实现在源语句和目标语句存在语义不相关的语料,且源语句和目标语句的整体长度相差较小的情况下,对平行语料进行过滤。基于上述发明构思,设计了本申请中的平行语料数据处理方案。
本申请中平行语料数据处理方法的执行主体可以是计算机,还可以是服务器、终端设备等可以进行语料过滤的设备,本申请不对其进行限定,下面以计算机为例进行说明。
下面对本申请实施例提供的平行语料数据处理方法的应用场景进行说明。
示例性的,在该应用场景中,为了使得用于翻译的神经网络模型的翻译结果更加精准,需要在神经网络模型训练前,将用于模型训练的平行语料进行过滤,去除语料中的噪声数据。
用户将待训练的平行语料输入计算机后,计算机就可对平行语料进行过滤。首先根据标点符号集合,对平行语料中的源语句和目标语句进行划分,得到子源语句和子目标语句。
进而使用预设语义模型,可得到每个子源语句和每个子目标语句对应的语义向量。再对每个子源语句和每个子目标语句,计算对应的目标余弦相似距离。
将小于或等于预设距离阈值的目标余弦相似距离对应的子源语句或子目标语句删除,实现对平行语料的过滤处理。即可使用过滤处理后的平行语料进行模型训练。
需要说明的是,预设距离阈值可以是0.35、0.4,还可以是0.42、0.47等,本申请实施例不对预设距离阈值进行限定,可根据实际情况进行设置。
需要说明的是,上述场景仅是本申请实施例提供的一种应用场景的示例,本申请实施例不对该场景中包括的各种设备的实际形态进行限定,在方案的具体应用中,可以根据实际需求设定。
下面,通过具体实施例对本申请的技术方案进行详细说明。需要说明的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
图1为本申请提供的平行语料数据处理方法实施例一的流程示意图,本申请实施例对计算机对待训练的平行语料进行划分,进而将划分得到的子源语句和子目标语句输入预设语义模型,得到语义向量,再计算得到每个子源语句和每个子目标语句对应的目标余弦相似距离,对平行语料进行过滤处理的情况进行说明。本实施例中的方法可以通过软件、硬件或者软硬件结合的方式来实现。如图1所示,该平行语料数据处理方法具体包括以下步骤:
S101:根据标点符号集合,对待训练的平行语料中的源语句和目标语句进行划分,得到子源语句和子目标语句。
为了使得用于翻译的神经网络模型的翻译结果更加精准,需要将用于模型训练的平行语料进行过滤。
在本步骤中,用户将待训练的平行语料输入计算机后,计算机首先根据标点符号集合,对平行语料中的源语句和目标语句进行划分,得到子源语句和子目标语句。
示例性的,标点符号集合中的标点符号包括:中文逗号、中文句号、中文问号、中文感叹号、中文顿号、中文分号、英文逗号、英文句号、英文问号、英文感叹号、英文分号。本申请实施例不对标点符号集合中的标点符号进行限定,可根据实际情况进行选择。
示例性的,源语句为“According to the sensor and the method,a specialimpact force structure mode is used to provide impact voltage,the sensitivitycan reach 80V/1MPa,and the sensor has the characteristics of high impact,highload,high sensitivity and the like.”。目标语句为“本发明使用特殊的冲击力的结构方式提供一个冲击电压,灵敏度可达80V/1MPa,具有高冲击高载荷以及超高灵敏度等特点。”。
进行划分后,子源语句为“According to the sensor and the method”、“aspecial impact force structure mode is used to provide impact voltage”、“thesensitivity can reach 80V/1MPa”、“and the sensor has the characteristics ofhigh impact”、“high load,high sensitivity and the like”。子目标语句为“本发明使用特殊的冲击力的结构方式提供一个冲击电压”、“灵敏度可达80V/1MPa”、“具有高冲击高载荷以及超高灵敏度等特点”。
需要说明的是,上述例子仅是对源语句和目标语句进行划分,得到子源语句和子目标语句的过程进行示例,本申请实施例不对源语句、目标语句、子源语句和子目标语句进行限定,可根据实际情况进行确定。
S102:将子源语句和子目标语句输入预设语义模型,获取每个子源语句和每个子目标语句对应的语义向量。
在本步骤中,计算机获取到子源语句和子目标语句后,为了确定子源语句和子目标语句之间的语义相似度,首先要将子源语句和子目标语句输入预设语义模型,获取每个子源语句和每个子目标语句对应的语义向量。
需要说明的是,预设语义模型是在本方案执行前,由工作人员设置在计算机中的,用于输入子源语句或子目标语句,输出源语句对应的语义向量或子目标语句对应的语义向量。预设语义模型可以是语言无关基于转换器的双向编码表征句子嵌入(Language-agnostic BERT Sentence Embedding,简称:LaBSE)语义模型,还可以是m~USE语义模型、LASER语义模型等。本申请实施例不对预设语义模型进行限定,可根据实际情况进行设置。
S103:根据语义向量,计算每个子源语句和每个子目标语句对应的目标余弦相似距离。
在本步骤中,计算机获取到每个子源语句和每个子目标语句对应的语义向量后,计算每个子源语句和每个子目标语句之间的相似度,也就是计算余弦相似距离,每个子源语句和每个子目标语句都对应至少一个余弦相似距离,将其中的最大值作为目标余弦相似距离。
S104:根据目标余弦相似距离和预设距离阈值,对平行语料进行过滤处理。
在本步骤中,计算机计算得到每个子源语句和每个子目标语句对应的目标余弦相似距离后,由于子源语句与子目标语句的语义向量间的夹角的余弦值越大,也就是余弦相似距离越大,表示子源语句与子目标语句的语义相似度越高,所以可根据目标余弦相似距离和预设距离阈值,对平行语料进行过滤处理。
对于每个子源语句,若该子源语句对应的目标余弦相似距离小于或等于预设距离阈值,说明该子源语句与每一个子目标语句的语义相似度都很低,该子源语句就是噪声数据,则将平行语料中的该子源语句删除。
对于每个子目标语句,若该子目标语句对应的目标余弦相似距离小于或等于预设距离阈值,说明该子目标语句与每一个子源语句的语义相似度都很低,该子目标语句就是噪声数据,则将平行语料中的该子目标语句删除。
需要说明的是,预设距离阈值是在本方案执行前,由工作人员设置在计算机中的,用于对平行语料进行过滤。预设距离阈值可以是0.3、0.35,还可以是0.4、0.42、0.47等,本申请实施例不对预设距离阈值进行限定,可根据实际情况进行设置。
本实施例提供的平行语料数据处理方法,将源语句和目标语句进行划分后,将划分得到的子源语句和子目标语句输入预设语义模型,可获取到每个子源语句和每个子目标语句对应的语义向量,进而可计算得到每个子源语句和每个子目标语句对应的目标余弦相似距离,再结合预设距离阈值即可对平行语料进行过滤,实现了在源语句和目标语句存在语义不相关的语料,且源语句和目标语句的整体长度相差较小的情况下,对平行语料进行过滤处理。另外,使用过滤处理后的平行语料进行翻译模型训练,可提高翻译模型的翻译精确率。
图2为本申请提供的平行语料数据处理方法实施例二的流程示意图,在上述实施例的基础上,本申请实施例对计算机根据语义向量,确定每个子源语句与每个子目标语句的余弦相似距离,进而确定出每个子源语句和每个子目标语句对应的目标余弦相似距离的情况进行说明。如图2所示,该平行语料数据处理方法具体包括以下步骤:
S201:对于每个子源语句,根据子源语句的语义向量和每个子目标语句对应的语义向量,计算子源语句与每个子目标语句的第一余弦相似距离。
在本步骤中,计算机获取到每个子源语句和每个子目标语句对应的语义向量后,对于每个子源语句,根据子源语句的语义向量和每个子目标语句对应的语义向量,计算子源语句与每个子目标语句的第一余弦相似距离。
具体的,可根据公式
Figure BDA0003828092220000091
计算第一余弦相似距离,其中,D表示第一余弦相似距离,θ表示子源语句对应的语义向量与子目标语句对应的语义向量的夹角,A表示子源语句对应的语义向量,B表示子目标语句对应的语义向量。
S202:将第一余弦相似距离中的最大值,确定为子源语句对应的目标余弦相似距离。
在本步骤中,计算机确定出子源语句与每个子目标语句的第一余弦相似距离后,可将第一余弦相似距离中的最大值,确定为子源语句对应的目标余弦相似距离。
若该子源语句对应的目标余弦相似距离小于或等于预设距离阈值,说明该子源语句与每个子目标语句的第一余弦相似距离也小于或等于预设距离阈值,说明该子源语句与每个子目标语句的语义相似度较小。
若该子源语句对应的目标余弦相似距离大于预设距离阈值,说明子源语句与某个子目标语句的语义相似度较大。
S203:对于每个子目标语句,根据子目标语句的语义向量和每个源目标语句对应的语义向量,计算子目标语句与每个子源语句的第二余弦相似距离。
在本步骤中,计算机获取到每个子源语句和每个子目标语句对应的语义向量后,对于每个子目标语句,根据子目标语句的语义向量和每个子源语句对应的语义向量,计算子目标语句与每个子源语句的第二余弦相似距离。
具体的,可根据公式
Figure BDA0003828092220000101
计算第二余弦相似距离,其中,D表示第二余弦相似距离,θ表示子源语句对应的语义向量与子目标语句对应的语义向量的夹角,A表示子源语句对应的语义向量,B表示子目标语句对应的语义向量。
S204:将第二余弦相似距离中的最大值,确定为子目标语句对应的目标余弦相似距离。
在本步骤中,计算机确定出子目标语句与每个子源语句的第二余弦相似距离后,可将第二余弦相似距离中的最大值,确定为子目标语句对应的目标余弦相似距离。
若该子目标语句对应的目标余弦相似距离小于或等于预设距离阈值,说明该子目标语句与每个子源语句的第二余弦相似距离也小于或等于预设距离阈值,说明该子目标语句与每个子源语句的语义相似度较小。
若该子目标语句对应的目标余弦相似距离大于预设距离阈值,说明子目标语句与某个子源语句的语义相似度较大。
需要说明的是,步骤S201至步骤S204的执行顺序可以是先执行步骤S201和步骤S202,再执行步骤S203和步骤S204;还可以是先执行步骤S203和步骤S204,再执行步骤S201和步骤S202;还可以是S201和步骤S202、步骤S203和步骤S204同时执行,本申请实施例不对步骤S201至步骤S204的执行顺序进行限定,可根据实际情况进行选择。
本实施例提供的平行语料数据处理方法,通过计算子源语句与每个子目标语句的第一余弦相似距离后,将其中最大值确定为子源语句对应的目标余弦相似距离。计算子目标语句与每个子源语句的第二余弦相似距离后,将其中最大值确定为子目标语句对应的目标余弦相似距离。后续使用目标余弦相似距离对平行语料进行过滤处理,可提高过滤效率。
图3为本申请提供的平行语料数据处理方法实施例三的流程示意图,在上述实施例的基础上,本申请实施例对计算机获取到子源语句和子目标语句之后,对子源语句和子目标语句进行分词和合并,获取到更新后的子源语句和子目标语句的情况进行说明。如图3所示,该平行语料数据处理方法具体包括以下步骤:
S301:对每个子源语句和每个子目标语句进行分词处理,获取每个子源语句和每个子目标语句对应的分词数量。
在本步骤中,计算机获取到子源语句和子目标语句之后,为了使得通过预设语义模型获取的语义向量更加准确,可先对每个子源语句和每个子目标语句进行分词处理,获取每个子源语句和每个子目标语句对应的分词数量。
需要说明的是,对于中文语句可使用预设分词工具进行分词,预设分词工具可以是jieba分词工具、ltp分词工具,还可以是ir分词工具。对于英文语句,可按空格进行分词。本申请实施例不对分词工具进行限定,可根据实际情况进行选择。
示例性的,子目标语句为“灵敏度可达80V/1MPa”,进行分词后得到的分词为“灵敏度”、“可达”、“80”、“V/”、“1”、“MPa”,分词数量为6。子目标语句为“具有高冲击高载荷以及超高灵敏度等特点”,进行分词后得到的分词为“具有”、“高冲击”、“高载荷”、“以及”、“超高”、“灵敏度”、“等”、“特点”,分词数量为8。
需要说明的是,上述例子仅是对子目标语句和分词进行示例,本申请实施例不对子目标语句和分词进行限定,可根据实际情况进行确定。
S302:根据分词数量和预设数量阈值对子源语句和子目标语句分别进行合并,得到更新后的子源语句和更新后的子目标语句。
在本步骤中,计算机获取到每个子源语句和每个子目标语句对应的分词数量后,由于输入到预设语义模型中的语句太短,会造成输出的语义向量不准确,所以需要根据分词数量和预设数量阈值对子源语句和子目标语句分别进行合并,得到更新后的子源语句和更新后的子目标语句。更新后的子源语句和更新后的子目标语句对应的分词数量大于或等于预设数量阈值。
若子源语句的分词数量小于预设数量阈值,将该子源语句与其后面的子源语句进行合并,使得更新后的子源语句对应的分词数量大于或等于预设数量阈值。
若子目标语句的分词数量小于预设数量阈值,将该子目标语句与其后面的子目标语句进行合并,使得更新后的子目标语句对应的分词数量大于或等于预设数量阈值。
示例性的,在上述例子的基础上,预设数量阈值为7,对于子目标语句为“灵敏度可达80V/1MPa”,该子目标语句的分词数量为6,在平行语料中,该子目标语句后面的子目标语句为“具有高冲击高载荷以及超高灵敏度等特点”,可将该子目标语句与其后面的子目标语句合并,得到更新后的子目标语句:“灵敏度可达80V/1MPa,具有高冲击高载荷以及超高灵敏度等特点”。
需要说明的是,上述例子仅是对子目标语句合并的过程进行示例,其中的预设数量阈值还可以是5、8、10,本申请实施例不对目标语句合并的过程、预设数量阈值进行限定,可根据实际情况进行确定。
本实施例提供的平行语料数据处理方法,通过对每个子源语句和每个子目标语句进行分词处理,并将分词数量较少的子源语句进行合并,将分词数量较少的子目标语句进行合并,得到更新后的子源语句和更新后的子目标语句,使用更新后的子源语句和更新后的子目标语句输入预设语义模型,有效提高输出语义向量的准确性。
下面通过一个具体的示例,来对本发明实施例提供的平行语料数据处理方法进行示例说明。
待训练的平行语料中的源语句为“According to the sensor and the method,aspecial impact force structure mode is used to provide impact voltage,thesensitivity can reach 80V/1MPa,and the sensor has the characteristics of highimpact,high load,high sensitivity and the like.”。
待训练的平行语料中的目标语料为“本发明使用特殊的冲击力的结构方式提供一个冲击电压,灵敏度可达80V/1MPa,具有高冲击高载荷以及超高灵敏度等特点。”
经过划分、分词、合并后的子源语句为“According to the sensor and themethod”、“a special impact force structure mode is used to provide impactvoltage”、“the sensitivity can reach 80V/1MPa,and the sensor has thecharacteristics of high impact”、“high load,high sensitivity and the like”。
经过划分、分词、合并后的子目标语句为“本发明使用特殊的冲击力的结构方式提供一个冲击电压”、“灵敏度可达80V/1MPa,具有高冲击高载荷以及超高灵敏度等特点”。
将子源语句和子目标语句输入LaBSE语义模型得到语义向量后,进而计算得到每个子源语句与每个子目标语句之间的余弦相似距离。示例性的,表1为本申请实施例提供的子源语句与子目标语句的余弦相似距离表。
表1
Figure BDA0003828092220000131
Figure BDA0003828092220000141
根据表1,可得到每个子源语句对应的目标余弦相似距离。示例性的,表2为本申请实施例提供的子源语句对应的目标余弦相似距离表。
表2
Figure BDA0003828092220000142
根据表1,还可得到每个子目标语句对应的目标余弦相似距离。示例性的,表3为本申请实施例提供的子目标语句对应的目标余弦相似距离表。
表3
Figure BDA0003828092220000143
Figure BDA0003828092220000151
预设距离阈值为0.42,则子源语句“According to the sensor and the method”的目标余弦相似距离小于0.42,说明该子源语句为噪声数据,将其从平行语料中删除。
本实施例提供的平行语料数据处理方法,在源语句和目标语句进行划分、分词、合并后,将得到的子源语句和子目标语句输入预设语义模型,进而计算得到每个子源语句和每个子目标语句对应的目标余弦相似距离,再结合预设距离阈值即可对平行语料进行过滤,实现了在源语句和目标语句存在语义不相关的语料,且源语句和目标语句的整体长度相差较小的情况下,对平行语料进行过滤处理。
下面对本方案提供的实验结果进行说明。
以1000条随机抽取的待训练的平行语料作为测试集,其中具有源语句和目标语句存在语义不相关的语料,且源语句和目标语句的整体长度相差较小的问题的平行语料有101条,采用本申请的方案实现的实验结果如下:
表4为本申请实施例提供的实验结果表。
表4
最小语句长度 阈值 精确率 召回率 F1-score
5 0.35 83.82% 57% 67.85%
6 0.42 61.00% 35.64% 44.99%
7 0.35 84.21% 18.81% 30.87%
7 0.42 93.9% 76.23% 84.14%
8 0.42 71.42% 24.75% 36.75%
在表4中,最小语句长度表示子源语句和子目标语句的语句长度中最小的语句长度。精确率为本方案确定出有问题的平行语料中真实存在问题的平行语料数量,与本方案确定出有问题的平行语料数量的比值。召回率为本方案确定出有问题的平行语料中真实存在问题的平行语料数量,与真实存在问题的平行语料数量的比值。
Figure BDA0003828092220000152
其中,P表示精确率,R表示召回率。F1-score是对精确率和召回率的综合评估。精确率、召回率、F1-score越高,表示本方案的效果越好。
上述实验结果表明,当最小句子长度为7,阈值为0.42时,精确率为93.9%,召回率为76.23%,总体F1-score为84.14%。因此,本申请提出的平行语料过滤方法,能够针对源语句和目标语句存在语义不相关的语料,且源语句和目标语句的整体长度相差较小的情况,准确过滤掉一定量语义不相关的噪声数据,使整体数据集的质量得到进一步提升。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图4为本申请提供的平行语料数据处理装置实施例的结构示意图。如图4所示,该平行语料数据处理装置40包括:
划分模块41,用于根据标点符号集合,对待训练的平行语料中的源语句和目标语句进行划分,得到子源语句和子目标语句;
获取模块42,用于将所述子源语句和所述子目标语句输入预设语义模型,获取每个子源语句和每个子目标语句对应的语义向量;
处理模块43,用于:
根据所述语义向量,计算每个子源语句和每个子目标语句对应的目标余弦相似距离;
根据所述目标余弦相似距离和预设距离阈值,对所述平行语料进行过滤处理。
进一步地,所述处理模块43,具体用于:
对于每个子源语句,根据所述子源语句的语义向量和每个子目标语句对应的语义向量,计算所述子源语句与每个子目标语句的第一余弦相似距离;
将所述第一余弦相似距离中的最大值,确定为所述子源语句对应的目标余弦相似距离;
对于每个子目标语句,根据所述子目标语句的语义向量和每个源目标语句对应的语义向量,计算所述子目标语句与每个子源语句的第二余弦相似距离;
将所述第二余弦相似距离中的最大值,确定为所述子目标语句对应的目标余弦相似距离。
进一步地,所述处理模块43,具体用于:
对于每个子源语句,若所述子源语句对应的目标余弦相似距离小于或等于所述预设距离阈值,则将所述平行语料中的所述子源语句删除;
对于每个子目标语句,若所述子目标语句对应的目标余弦相似距离小于或等于所述预设距离阈值,则将所述平行语料中的所述子目标语句删除。
进一步地,所述处理模块43,还用于:
对每个子源语句和每个子目标语句进行分词处理,获取每个子源语句和每个子目标语句对应的分词数量;
根据分词数量和预设数量阈值对子源语句和子目标语句分别进行合并,得到更新后的子源语句和更新后的子目标语句,所述更新后的子源语句和所述更新后的子目标语句对应的分词数量大于或等于所述预设数量阈值。
进一步地,所述标点符号集合中的标点符号包括:中文逗号、中文句号、中文问号、中文感叹号、中文顿号、中文分号、英文逗号、英文句号、英文问号、英文感叹号、英文分号。
进一步地,所述预设语义模型包括LaBSE语义模型。
本实施例提供的平行语料数据处理装置,用于执行前述任一方法实施例中的技术方案,其实现原理和技术效果类似,在此不再赘述。
图5为本申请提供的一种电子设备的结构示意图。如图5所示,该电子设备50包括:
处理器51,存储器52,以及通信接口53;
所述存储器52用于存储所述处理器51的可执行指令;
其中,所述处理器51配置为经由执行所述可执行指令来执行前述任一方法实施例中的技术方案。
可选的,存储器52既可以是独立的,也可以跟处理器51集成在一起。
可选的,当所述存储器52是独立于处理器51之外的器件时,所述电子设备50还可以包括:
总线54,存储器52和通信接口53通过总线54与处理器51连接并完成相互间的通信,通信接口53用于和其他设备进行通信。
可选的,通信接口53具体可以通过收发器实现。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(random access memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
总线54可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
上述的处理器可以是通用处理器,包括中央处理器CPU、网络处理器(networkprocessor,NP)等;还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
该电子设备用于执行前述任一方法实施例中的技术方案,其实现原理和技术效果类似,在此不再赘述。
本申请实施例还提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述任一方法实施例提供的技术方案。
本申请实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时用于实现前述任一方法实施例提供的技术方案。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种平行语料数据处理方法,其特征在于,包括:
根据标点符号集合,对待训练的平行语料中的源语句和目标语句进行划分,得到子源语句和子目标语句;
将所述子源语句和所述子目标语句输入预设语义模型,获取每个子源语句和每个子目标语句对应的语义向量;
根据所述语义向量,计算每个子源语句和每个子目标语句对应的目标余弦相似距离;
根据所述目标余弦相似距离和预设距离阈值,对所述平行语料进行过滤处理。
2.根据权利要求1所述的方法,其特征在于,所述根据所述语义向量,计算每个子源语句和每个子目标语句对应的目标余弦相似距离,包括:
对于每个子源语句,根据所述子源语句的语义向量和每个子目标语句对应的语义向量,计算所述子源语句与每个子目标语句的第一余弦相似距离;
将所述第一余弦相似距离中的最大值,确定为所述子源语句对应的目标余弦相似距离;
对于每个子目标语句,根据所述子目标语句的语义向量和每个源目标语句对应的语义向量,计算所述子目标语句与每个子源语句的第二余弦相似距离;
将所述第二余弦相似距离中的最大值,确定为所述子目标语句对应的目标余弦相似距离。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述目标余弦相似距离和预设距离阈值,对所述平行语料进行过滤,包括:
对于每个子源语句,若所述子源语句对应的目标余弦相似距离小于或等于所述预设距离阈值,则将所述平行语料中的所述子源语句删除;
对于每个子目标语句,若所述子目标语句对应的目标余弦相似距离小于或等于所述预设距离阈值,则将所述平行语料中的所述子目标语句删除。
4.根据权利要求3所述的方法,其特征在于,所述根据标点符号集合,对平行语料中的源语句和目标语句进行划分,得到子源语句和子目标语句之后,所述方法还包括:
对每个子源语句和每个子目标语句进行分词处理,获取每个子源语句和每个子目标语句对应的分词数量;
根据分词数量和预设数量阈值对子源语句和子目标语句分别进行合并,得到更新后的子源语句和更新后的子目标语句,所述更新后的子源语句和所述更新后的子目标语句对应的分词数量大于或等于所述预设数量阈值。
5.根据权利要求4所述的方法,其特征在于,所述标点符号集合中的标点符号包括:中文逗号、中文句号、中文问号、中文感叹号、中文顿号、中文分号、英文逗号、英文句号、英文问号、英文感叹号、英文分号。
6.根据权利要求5所述的方法,其特征在于,所述预设语义模型包括:语言无关基于转换器的双向编码表征句子嵌入LaBSE语义模型。
7.一种平行语料数据处理装置,其特征在于,包括:
划分模块,用于根据标点符号集合,对待训练的平行语料中的源语句和目标语句进行划分,得到子源语句和子目标语句;
获取模块,用于将所述子源语句和所述子目标语句输入预设语义模型,获取每个子源语句和每个子目标语句对应的语义向量;
处理模块,用于:
根据所述语义向量,计算每个子源语句和每个子目标语句对应的目标余弦相似距离;
根据所述目标余弦相似距离和预设距离阈值,对所述平行语料进行过滤处理。
8.一种电子设备,其特征在于,包括:
处理器,存储器,通信接口;
所述存储器用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至6任一项所述的平行语料数据处理方法。
9.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述的平行语料数据处理方法。
10.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器执行时用于实现权利要求1至6任一项所述的平行语料数据处理方法。
CN202211065203.XA 2022-09-01 2022-09-01 平行语料数据处理方法、装置、设备及介质 Pending CN115496070A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211065203.XA CN115496070A (zh) 2022-09-01 2022-09-01 平行语料数据处理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211065203.XA CN115496070A (zh) 2022-09-01 2022-09-01 平行语料数据处理方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN115496070A true CN115496070A (zh) 2022-12-20

Family

ID=84468351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211065203.XA Pending CN115496070A (zh) 2022-09-01 2022-09-01 平行语料数据处理方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115496070A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117271438A (zh) * 2023-07-17 2023-12-22 乾元云硕科技(深圳)有限公司 用于大数据的智能存储系统及其方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117271438A (zh) * 2023-07-17 2023-12-22 乾元云硕科技(深圳)有限公司 用于大数据的智能存储系统及其方法

Similar Documents

Publication Publication Date Title
JP7223785B2 (ja) 時系列ナレッジグラフ生成方法、装置、デバイス及び媒体
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN107247706B (zh) 文本断句模型建立方法、断句方法、装置及计算机设备
WO2018120889A1 (zh) 输入语句的纠错方法、装置、电子设备及介质
WO2018157805A1 (zh) 一种自动问答处理方法及自动问答系统
WO2019084867A1 (zh) 自动回答方法、装置、存储介质及电子设备
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
CN111460148A (zh) 文本分类方法、装置、终端设备及存储介质
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN110210028A (zh) 针对语音转译文本的领域特征词提取方法、装置、设备及介质
JP6427466B2 (ja) 同義語ペア獲得装置、方法、及びプログラム
CN108052509A (zh) 一种文本相似度计算方法、装置及服务器
CN111177375A (zh) 一种电子文档分类方法及装置
CN115496070A (zh) 平行语料数据处理方法、装置、设备及介质
CN110245361B (zh) 短语对提取方法、装置、电子设备及可读存储介质
CN107391504B (zh) 新词识别方法与装置
CN108804550B (zh) 一种查询词拓展方法、装置以及电子设备
CN110929514B (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
CN112287077A (zh) 用于文档的结合rpa和ai的语句提取方法、装置、存储介质及电子设备
CN110956043A (zh) 基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质
Doughman et al. Time-aware word embeddings for three Lebanese news archives
CN111368061A (zh) 短文本过滤方法、装置、介质及计算机设备
CN113988047A (zh) 一种语料筛选方法和装置
CN113836918A (zh) 文档搜索方法、装置、计算机设备及计算机可读存储介质
CN114492390A (zh) 基于关键词识别的数据扩充方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination