CN114997162B - 一种训练数据提取方法和装置 - Google Patents
一种训练数据提取方法和装置 Download PDFInfo
- Publication number
- CN114997162B CN114997162B CN202210581671.6A CN202210581671A CN114997162B CN 114997162 B CN114997162 B CN 114997162B CN 202210581671 A CN202210581671 A CN 202210581671A CN 114997162 B CN114997162 B CN 114997162B
- Authority
- CN
- China
- Prior art keywords
- similarity
- sentence
- training data
- language
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 139
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000013075 data extraction Methods 0.000 title claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 27
- 238000004364 calculation method Methods 0.000 claims abstract description 22
- 230000011218 segmentation Effects 0.000 claims description 29
- 238000013519 translation Methods 0.000 claims description 28
- 230000002457 bidirectional effect Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 18
- 230000001537 neural effect Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000003860 storage Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种训练数据提取方法和装置,可用于人工智能技术领域,所述方法包括:对第一语言的第一文档和第二语言的第二文档进行编码计算,得到第一语言的第一向量表征和第二语言的第二向量表征;对第一语言的第一向量表征和第二语言的第二向量表征进行排列组合,生成多个语句对;基于裕度算法,从多个语句对中提取出训练数据,通过从文档中自动提取出训练数据,能够增加训练模型的学习任务难度,从而大幅度提示训练模型的训练效果。
Description
技术领域
本发明涉及自然语言技术领域,特别涉及人工智能技术领域,尤其涉及一种训练数据提取方法和装置。
背景技术
在目前的课程学习研究中,一般是从最好的数据分布中进行训练数据的选择,包括训练数据的顺序和训练难度等方面;通过认为选择出的数据进行训练模型。但在这种训练方式中,训练数据是人为提前准备好的,这样会降低学习任务的难度,导致训练模型的训练效果较差,对训练模型的提升幅度有限。
发明内容
本发明的一个目的在于提供一种训练数据提取方法,通过从文档中自动提取出训练数据,能够增加训练模型的学习任务难度,从而大幅度提示训练模型的训练效果。本发明的另一个目的在于提供一种训练数据提取装置。本发明的再一个目的在于提供一种计算机可读介质。本发明的还一个目的在于提供一种计算机设备。
为了达到以上目的,本发明一方面公开了一种训练数据提取方法,包括:
对第一语言的第一文档和第二语言的第二文档进行编码计算,得到第一语言的第一向量表征和第二语言的第二向量表征;
对第一语言的第一向量表征和第二语言的第二向量表征进行排列组合,生成多个语句对;
基于裕度算法,从多个语句对中提取出训练数据。
优选的,对第一语言的第一文档和第二语言的第二文档进行编码计算,得到第一语言的第一向量表征和第二语言的第二向量表征,包括:
对第一文档和第二文档分别进行预处理,得到第一语言的第一分词和第一语句以及第二语言的第二分词和第二语句;
通过自监督的神经机器翻译,对第一分词和第一语句以及第二分词和第二语句进行编码计算,得到第一语言的第一词嵌入向量和第一编码向量以及第二语言的第一词嵌入向量和第一编码向量;
对第一词嵌入向量和第一编码向量以及第一词嵌入向量和第一编码向量进行选取,得到第一向量表征和第二向量表征。
优选的,对第一文档和第二文档分别进行预处理,得到第一语言的第一分词和第一语句以及第二语言的第二分词和第二语句,包括:
通过指定切分工具,对第一文档和第二文档分别进行切分处理,得到第一语句和第二语句;
通过指定分词工具对第一语句和第二语句分别进行分词处理,得到第一分词和第二分词。
优选的,语句对包括第一向量表征和第二向量表征;
基于裕度算法,从多个语句对中提取出训练数据,包括:
基于裕度算法,对语句对进行计算,得到每个语句对的双向评分;
按照双向评分,从多个语句对中提取出训练数据。
优选的,双向评分包括第一相似度评分和第二相似度评分;基于裕度算法,对语句对进行计算,得到每个语句对的双向评分,包括:
对第一向量表征、第二向量表征、第一语句和第二语句进行计算,得到双向平均相似度,双向平均相似度包括第一平均相似度和第二平均相似度,第一平均相似度包括第一词嵌入平均相似度和第一编码平均相似度,第二平均相似度包括第二词嵌入平均相似度和第二编码平均相似度;
对第一向量表征和第二向量表征进行计算,得到余弦相似度,余弦相似度包括词嵌入余弦相似度和编码余弦相似度;
对第一词嵌入平均相似度、第二词嵌入平均相似度和词嵌入余弦相似度进行计算,得到第一相似度评分;
对第一编码平均相似度、第二编码平均相似度和编码余弦相似度进行计算,得到第二相似度评分。
优选的,双向评分包括第一相似度评分和第二相似度评分;按照双向评分,从多个语句对中提取出训练数据,包括:
按照第一相似度评分对多个语句对进行排序,将序列中指定排序的多个语句对确定为第一排序语句对集;
按照第二相似度评分对多个语句对进行排序,将序列中指定排序的多个语句对确定为第二排序语句对集;
对第一排序语句对集和第二排序语句对集取并集;
若并集为空集,按照第一相似度评分对多个语句对进行排序,将最高的第一相似度评分对应的语句对作为训练数据;
若并集不为空集,将并集中的语句对作为训练数据。
优选的,在基于裕度算法,从多个语句对中提取出训练数据之后,还包括:
统计训练数据的数量;
若训练数据的数量达到设置的数量阈值,根据训练数据,生成训练数据集。
优选的,在根据训练数据,生成训练数据集之后,还包括:
根据训练数据集,对神经机器翻译模型进行训练,得到自监督的神经机器翻译模型。
本发明还公开了一种训练数据提取装置,包括:
编码单元,用于对第一语言的第一文档和第二语言的第二文档进行编码计算,得到第一语言的第一向量表征和第二语言的第二向量表征;
排列组合单元,用于对第一语言的第一向量表征和第二语言的第二向量表征进行排列组合,生成多个语句对;
提取单元,用于基于裕度算法,从多个语句对中提取出训练数据。
本发明还公开了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述方法。
本发明还公开了一种计算机设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,所述处理器执行所述程序时实现如上所述方法。
本发明还公开了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如上所述方法。
本发明对第一语言的第一文档和第二语言的第二文档进行编码计算,得到第一语言的第一向量表征和第二语言的第二向量表征;对第一语言的第一向量表征和第二语言的第二向量表征进行排列组合,生成多个语句对;基于裕度算法,从多个语句对中提取出训练数据,通过从文档中自动提取出训练数据,能够增加训练模型的学习任务难度,从而大幅度提示训练模型的训练效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种训练数据提取方法的流程图;
图2为本发明实施例提供的又一种训练数据提取方法的流程图;
图3为本发明实施例提供的一种训练数据提取装置的结构示意图;
图4为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本申请公开的一种训练数据提取方法和装置可用于人工智能技术领域,也可用于除人工智能技术领域之外的任意领域,本申请公开的一种训练数据提取方法和装置的应用领域不做限定。
为了便于理解本申请提供的技术方案,下面先对本申请技术方案的相关内容进行说明。模型训练可以应用至机器翻译的场景下,机器翻译是一种利用计算机实现自然语言翻译的技术。神经机器翻译(NMT)模型是采用单一的神经网络来最大化机器翻译性能的技术。为了提高任务学习难度,使得模型可以自主选择训练数据,本发明采用自监督的神经机器翻译模型(SSNMT),在自监督的神经机器翻译模型(SSNMT)中,需要训练两个任务,其中主要任务是机器翻译,辅助任务是数据提取。本发明将自我引导的课程学习和自监督的神经机器翻译模型(SSNMT)相结合,不对所选训练数据的分布情况和难度进行人为的干预,可以从主题相近的不同语言的语料库中自动选取训练数据,通过选取出的训练数据训练NMT模型。这种方法可以增加学习任务的难度,使数据选择和机器翻译两个任务能够相互提升各自的表现,可以充分利用单语语料库中的有监督信号,并使NMT模型具有较好的翻译表现。
下面以训练数据提取装置作为执行主体为例,说明本发明实施例提供的训练数据提取方法的实现过程。可理解的是,本发明实施例提供的训练数据提取方法的执行主体包括但不限于训练数据提取装置。
图1为本发明实施例提供的一种训练数据提取方法的流程图,如图1所示,该方法包括:
步骤101、对第一语言的第一文档和第二语言的第二文档进行编码计算,得到第一语言的第一向量表征和第二语言的第二向量表征。
步骤102、对第一语言的第一向量表征和第二语言的第二向量表征进行排列组合,生成多个语句对。
步骤103、基于裕度算法,从多个语句对中提取出训练数据。
本发明实施例提供的技术方案中,对第一语言的第一文档和第二语言的第二文档进行编码计算,得到第一语言的第一向量表征和第二语言的第二向量表征;对第一语言的第一向量表征和第二语言的第二向量表征进行排列组合,生成多个语句对;基于裕度算法,从多个语句对中提取出训练数据,通过从文档中自动提取出训练数据,能够增加训练模型的学习任务难度,从而大幅度提示训练模型的训练效果。
图2为本发明实施例提供的又一种训练数据提取方法的流程图,如图2所示,该方法包括:
步骤201、对第一语言的第一文档和第二语言的第二文档进行编码计算,得到第一语言的第一向量表征和第二语言的第二向量表征。
本发明实施例中,各步骤由训练数据提取装置执行。
本发明实施例中,步骤201具体包括:
步骤2011、对第一文档和第二文档分别进行预处理,得到第一语言的第一分词和第一语句以及第二语言的第二分词和第二语句。
本发明实施例中,第一文档和第二文档是从相似语料库中获取的,相似语料库包括多个相同主题的不同语言文档。第一文档(DL1)和第二文档(DL2)为相同主题,第一文档的语言为第一语言,第二文档的语言为第二语言,第一语言不同于第二语言。
具体地,通过指定切分工具,对第一文档和第二文档分别进行切分处理,得到第一语句和第二语句;通过指定分词工具对第一语句和第二语句分别进行分词处理,得到第一分词和第二分词。作为一种可选方案,相似语料库为维基百科语料库,指定切分工具为维基剪裁(WikiTailor)工具,指定分词工具为字节对编码(byte pair encoding,简称:BPE)工具。
本发明实施例中,对第一文档和第二文档分别进行预处理后得到第一分词、第一语句、第二分词和第二语句,为后续编码计算提供编码基础,从而提高SSNMT模型的训练效果。
步骤2012、通过自监督的神经机器翻译(SSNMT),对第一分词和第一语句以及第二分词和第二语句进行编码计算,得到第一语言的第一词嵌入向量和第一编码向量以及第二语言的第一词嵌入向量和第一编码向量。
本发明实施例中,SSNMT模型包括深度自注意力网络(Transformer)编码器。
具体地,将第一分词输入SSNMT模型,输出第一词嵌入wt1,词嵌入表示一个单词对应的列向量;通过对第一词嵌入wt1进行求和计算,得到第一词嵌入向量Cw1。其中,t为输出时刻。
具体地,将第一语句输入Transformer编码器进行编码,输出第一定长向量ht1。通过对第一定长向量ht1进行求和计算,得到第一编码向量Ch1。其中,t为输出时刻。
具体地,将第二分词输入SSNMT模型,输出第二词嵌入wt2,词嵌入表示一个单词对应的列向量;通过对第二词嵌入wt2进行求和计算,得到第二词嵌入向量Cw2。其中,t为输出时刻。
具体地,将第二语句输入Transformer编码器进行编码,输出第二定长向量ht2。通过对第二定长向量ht2进行求和计算,得到第二编码向量Ch2。其中,t为输出时刻。
步骤2013、对第一词嵌入向量和第一编码向量以及第一词嵌入向量和第一编码向量进行选取,得到第一向量表征和第二向量表征。
本发明实施例中,将第一词嵌入向量确定为第一向量表征,且将第二词嵌入向量确定为第二向量表征,继续执行步骤202。
本发明实施例中,将第一编码向量确定为第一向量表征,且将第二编码向量确定为第二向量表征,继续执行步骤202。
本发明实施例中,将词嵌入向量和编码向量分别进行后续语句相似性计算,能够选取出高质量的训练数据集,以供训练出高准确率的SSNMT模型。
步骤202、对第一语言的第一向量表征和第二语言的第二向量表征进行排列组合,生成多个语句对。
本发明实施例中,语句对包括第一向量表征sL1和第二向量表征sL2。其中,第一向量表征sL1为第一语言的向量表征,第二向量表征sL2为第二语言的向量表征。
本发明实施例中,对第一向量表征sL1和第二向量表征sL2进行排列组合,生成多个语句对(sL1×sL2||sL1∈DL1且sL2∈DL2)。
本发明实施例中,排列组合得到多个语句对,以后
步骤203、基于裕度算法,从多个语句对中提取出训练数据。
本发明实施例中,每个语句对包括第一向量表征sL1和第二向量表征sL2。
本发明实施例中,步骤203具体包括:
步骤2031、基于裕度算法,对语句对进行计算,得到每个语句对的双向评分,双向评分包括选取的向量表征为词嵌入向量的第一相似度评分和选取的向量表征为编码向量的第二相似度评分。
本发明实施例中,对第一向量表征、第二向量表征、第一语句和第二语句进行计算,得到双向平均相似度,双向平均相似度包括第一平均相似度和第二平均相似度,第一平均相似度包括第一词嵌入平均相似度和第一编码平均相似度,第二平均相似度包括第二词嵌入平均相似度和第二编码平均相似度。具体地,通过对第一向量表征sL1和第二语句P进行计算,得到第一平均相似度avrkNN(SL1,Pk)。当第一向量表征的取值为第一词嵌入向量时,得到的平均相似度为第一词嵌入平均相似度;当第一向量表征的取值为第一编码向量时,得到的平均相似度为第一编码平均相似度。其中,第二语句P为第二文档中的语句,Pk为第二文档中的第k个语义最相近的句子,kNN是k近邻算法。通过kNN算法可以找出与第一向量表征sL1语义最相近的k个句子。
同理,通过对第二向量表征sL2和第一语句Q进行计算,得到第二平均相似度avrkNN(SL2,Qk)。当第二向量表征的取值为第二词嵌入向量时,得到的平均相似度为第二词嵌入平均相似度;当第二向量表征的取值为第二编码向量时,得到的平均相似度为第二编码平均相似度。其中,第一语句Q为第一文档中的语句,Qk为第一文档中的第k个语义最相近的句子,kNN是k近邻算法。通过kNN算法可以找出与第二向量表征sL2语义最相近的k个句子。
本发明实施例中,对第一向量表征和第二向量表征进行计算,得到余弦相似度。
具体地,通过对第一向量表征sL1和第二向量表征sL2进行计算,得到余弦相似度sim(SL1,SL2),余弦相似度包括词嵌入余弦相似度和编码余弦相似度。值得说明的是,若第一向量表征的取值为第一词嵌入向量,第二向量表征的取值为第二词嵌入向量,计算得到余弦相似度为词嵌入余弦相似度;若第一向量表征的取值为第一编码向量,第二向量表征的取值为第二编码向量,计算得到余弦相似度为编码余弦相似度。
本发明实施例中,对第一词嵌入平均相似度、第二词嵌入平均相似度和词嵌入余弦相似度进行计算,得到第一相似度评分。
具体地,当第一向量表征的取值为第一词嵌入向量,第二向量表征的取值为第二词嵌入向量时,通过对第一词嵌入平均相似度avrkNN(SL1,Pk)、第二词嵌入平均相似度avrkNN(SL2,Qk)和词嵌入余弦相似度sim(SL1,SL2)进行计算,得到第一相似度评分margin(SL1,SL2)。
以及,当第一向量表征的取值为第一编码向量,第二向量表征的取值为第二编码向量时,通过对第一编码平均相似度avrkNN(SL1,Pk)、第二编码平均相似度avrkNN(SL2,Qk)和编码余弦相似度sim(SL1,SL2)进行计算,得到第二相似度评分margin(SL1,SL2)。
步骤2032、按照双向评分,从多个语句对中提取出训练数据。
具体地,按照第一相似度评分对多个语句对进行排序,将序列中指定排序的多个语句对确定为第一排序语句对集;按照第二相似度评分对多个语句对进行排序,将序列中指定排序的多个语句对确定为第二排序语句对集;对第一排序语句对集和第二排序语句对集取并集;若并集为空集,表明并集中的语句对在正反翻译方向中至少一个方向得分不是最高,按照第一相似度评分对多个语句对进行排序,将最高的第一相似度评分对应的语句对作为训练数据;若并集不为空集,表明并集中的语句对在正反翻译方向中的得分均最高,将并集中的语句对作为训练数据。其中,指定排序的多个语句对可以跟据实际情况进行设置,作为一种可选方案,指定排序的多个语句对为相似度评分最高的3个语句对。
本发明实施例中,语句对的双向评分最高表明一对不同语言的语句的语义足够相近,仅将在正反翻译方向中的得分均最高的语句对选入后续训练SSNMT模型的训练数据,能够使得SSNMT模型的翻译结果更加准确,有效提升SSNMT模型的翻译表现。
步骤204、统计训练数据的数量。
本发明实施例中,可以实时或按照指定时间间隔统计训练数据的数量,以便及时训练SSNMT模型。
步骤205、若训练数据的数量达到设置的数量阈值,根据训练数据,生成训练数据集。
本发明实施例中,数量阈值可以根据实际情况进行设置,本发明实施例对此不作限定。作为一种可选方案,数量阈值为15对。
本发明实施例中,若训练数据的数量达到数量阈值,将训练数据组成为训练数据集;通过训练数据集对SSNMT模型进行多次迭代训练。
本发明实施例中,将自我引导的课程学习方法应用于神经网络机器翻译(NMT)任务中,可以有效利用单语语料库对SSNMT模型进行训练。具体地,根据训练数据集,对NMT模型进行训练,得到SSNMT模型,能够使SSNMT模型充分利用单语语料库中的有监督信号,从而有助于提升SSNMT模型的翻译准确率和翻译效率。
本发明实施例提供的训练数据提取方法的技术方案中,对第一语言的第一文档和第二语言的第二文档进行编码计算,得到第一语言的第一向量表征和第二语言的第二向量表征;对第一语言的第一向量表征和第二语言的第二向量表征进行排列组合,生成多个语句对;基于裕度算法,从多个语句对中提取出训练数据,能够增加训练模型的学习任务难度,从而大幅度提示训练模型的训练效果。
图3为本发明实施例提供的一种训练数据提取装置的结构示意图,该装置用于执行上述训练数据提取方法,如图3所示,该装置包括:编码单元11、排列组合单元12和提取单元13。
编码单元11用于对第一语言的第一文档和第二语言的第二文档进行编码计算,得到第一语言的第一向量表征和第二语言的第二向量表征。
排列组合单元12用于对第一语言的第一向量表征和第二语言的第二向量表征进行排列组合,生成多个语句对。
提取单元13用于基于裕度算法,从多个语句对中提取出训练数据。
本发明实施例中,编码单元11具体用于对第一文档和第二文档分别进行预处理,得到第一语言的第一分词和第一语句以及第二语言的第二分词和第二语句;通过自监督的神经机器翻译,对第一分词和第一语句以及第二分词和第二语句进行编码计算,得到第一语言的第一词嵌入向量和第一编码向量以及第二语言的第一词嵌入向量和第一编码向量;对第一词嵌入向量和第一编码向量以及第一词嵌入向量和第一编码向量进行选取,得到第一向量表征和第二向量表征。
本发明实施例中,编码单元11具体用于通过指定切分工具,对第一文档和第二文档分别进行切分处理,得到第一语句和第二语句;通过指定分词工具对第一语句和第二语句分别进行分词处理,得到第一分词和第二分词。
本发明实施例中,语句对包括第一向量表征和第二向量表征;提取单元13具体用于基于裕度算法,对语句对进行计算,得到每个语句对的双向评分;按照双向评分,从多个语句对中提取出训练数据。
本发明实施例中,双向评分包括第一相似度评分和第二相似度评分;提取单元13具体用于对第一向量表征、第二向量表征、第一语句和第二语句进行计算,得到双向平均相似度,双向平均相似度包括第一平均相似度和第二平均相似度,第一平均相似度包括第一词嵌入平均相似度和第一编码平均相似度,第二平均相似度包括第二词嵌入平均相似度和第二编码平均相似度;对第一向量表征和第二向量表征进行计算,得到余弦相似度,余弦相似度包括词嵌入余弦相似度和编码余弦相似度;对第一词嵌入平均相似度、第二词嵌入平均相似度和词嵌入余弦相似度进行计算,得到第一相似度评分;对第一编码平均相似度、第二编码平均相似度和编码余弦相似度进行计算,得到第二相似度评分。
本发明实施例中,双向评分包括第一相似度评分和第二相似度评分;提取单元13具体用于按照第一相似度评分对多个语句对进行排序,将序列中指定排序的多个语句对确定为第一排序语句对集;按照第二相似度评分对多个语句对进行排序,将序列中指定排序的多个语句对确定为第二排序语句对集;对第一排序语句对集和第二排序语句对集取并集;若并集为空集,按照第一相似度评分对多个语句对进行排序,将最高的第一相似度评分对应的语句对作为训练数据;若并集不为空集,将并集中的语句对作为训练数据。
本发明实施例中,该装置还包括:统计单元14和生成单元15。
统计单元14用于统计训练数据的数量。
生成单元15用于若训练数据的数量达到设置的数量阈值,根据训练数据,生成训练数据集。
本发明实施例中,该装置还包括:训练单元16。
训练单元16用于根据训练数据集,对神经机器翻译模型进行训练,得到自监督的神经机器翻译模型。
本发明实施例的方案中,对第一语言的第一文档和第二语言的第二文档进行编码计算,得到第一语言的第一向量表征和第二语言的第二向量表征;对第一语言的第一向量表征和第二语言的第二向量表征进行排列组合,生成多个语句对;基于裕度算法,从多个语句对中提取出训练数据,能够增加训练模型的学习任务难度,从而大幅度提示训练模型的训练效果。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机设备,具体的,计算机设备例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
本发明实施例提供了一种计算机设备,包括存储器和处理器,存储器用于存储包括程序指令的信息,处理器用于控制程序指令的执行,程序指令被处理器加载并执行时实现上述训练数据提取方法的实施例的各步骤,具体描述可参见上述训练数据提取方法的实施例。
下面参考图4,其示出了适于用来实现本申请实施例的计算机设备600的结构示意图。
如图4所示,计算机设备600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的工作和处理。在RAM603中,还存储有计算机设备600操作所需的各种程序和数据。CPU601、ROM602、以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶反馈器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡,调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装如存储部分608。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包括用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (9)
1.一种训练数据提取方法,其特征在于,所述方法包括:
对第一语言的第一文档和第二语言的第二文档进行编码计算,得到第一语言的第一向量表征和第二语言的第二向量表征;
对第一语言的第一向量表征和第二语言的第二向量表征进行排列组合,生成多个语句对;
基于裕度算法,从多个所述语句对中提取出训练数据;
所述语句对包括第一向量表征和第二向量表征;
所述基于裕度算法,从多个所述语句对中提取出训练数据,包括:
基于裕度算法,对所述语句对进行计算,得到每个语句对的双向评分;
按照所述双向评分,从多个所述语句对中提取出训练数据;
所述双向评分包括第一相似度评分和第二相似度评分;
所述基于裕度算法,对所述语句对进行计算,得到每个语句对的双向评分,包括:
对所述第一向量表征、第二向量表征、第一语句和第二语句进行计算,得到双向平均相似度,所述双向平均相似度包括第一平均相似度和第二平均相似度,所述第一平均相似度包括第一词嵌入平均相似度和第一编码平均相似度,所述第二平均相似度包括第二词嵌入平均相似度和第二编码平均相似度;
对所述第一向量表征和第二向量表征进行计算,得到余弦相似度,所述余弦相似度包括词嵌入余弦相似度和编码余弦相似度;
对所述第一词嵌入平均相似度、第二词嵌入平均相似度和词嵌入余弦相似度进行计算,得到第一相似度评分;
对第一编码平均相似度、第二编码平均相似度和编码余弦相似度进行计算,得到第二相似度评分;
所述按照所述双向评分,从多个所述语句对中提取出训练数据,包括:
按照第一相似度评分对多个语句对进行排序,将序列中指定排序的多个语句对确定为第一排序语句对集;
按照第二相似度评分对多个语句对进行排序,将序列中指定排序的多个语句对确定为第二排序语句对集;
对所述第一排序语句对集和第二排序语句对集取并集;
若所述并集为空集,按照第一相似度评分对多个语句对进行排序,将最高的第一相似度评分对应的语句对作为训练数据;
若所述并集不为空集,将所述并集中的语句对作为训练数据。
2.根据权利要求1所述的训练数据提取方法,其特征在于,所述对第一语言的第一文档和第二语言的第二文档进行编码计算,得到第一语言的第一向量表征和第二语言的第二向量表征,包括:
对所述第一文档和所述第二文档分别进行预处理,得到第一语言的第一分词和第一语句以及第二语言的第二分词和第二语句;
通过自监督的神经机器翻译,对所述第一分词和第一语句以及所述第二分词和第二语句进行编码计算,得到第一语言的第一词嵌入向量和第一编码向量以及第二语言的第一词嵌入向量和第一编码向量;
对所述第一词嵌入向量和第一编码向量以及第一词嵌入向量和第一编码向量进行选取,得到第一向量表征和第二向量表征。
3.根据权利要求2所述的训练数据提取方法,其特征在于,所述对所述第一文档和所述第二文档分别进行预处理,得到第一语言的第一分词和第一语句以及第二语言的第二分词和第二语句,包括:
通过指定切分工具,对所述第一文档和第二文档分别进行切分处理,得到所述第一语句和第二语句;
通过指定分词工具对所述第一语句和第二语句分别进行分词处理,得到所述第一分词和第二分词。
4.根据权利要求1所述的训练数据提取方法,其特征在于,在所述基于裕度算法,从多个所述语句对中提取出训练数据之后,还包括:
统计所述训练数据的数量;
若所述训练数据的数量达到设置的数量阈值,根据所述训练数据,生成训练数据集。
5.根据权利要求4所述的训练数据提取方法,其特征在于,在所述根据所述训练数据,生成训练数据集之后,还包括:
根据所述训练数据集,对神经机器翻译模型进行训练,得到自监督的神经机器翻译模型。
6.一种训练数据提取装置,其特征在于,所述装置包括:
编码单元,用于对第一语言的第一文档和第二语言的第二文档进行编码计算,得到第一语言的第一向量表征和第二语言的第二向量表征;
排列组合单元,用于对第一语言的第一向量表征和第二语言的第二向量表征进行排列组合,生成多个语句对;
提取单元,用于基于裕度算法,从多个所述语句对中提取出训练数据;
所述语句对包括第一向量表征和第二向量表征;
所述提取单元,具体用于基于裕度算法,对所述语句对进行计算,得到每个语句对的双向评分;按照所述双向评分,从多个所述语句对中提取出训练数据;
所述双向评分包括第一相似度评分和第二相似度评分;
所述提取单元,具体用于对所述第一向量表征、第二向量表征、第一语句和第二语句进行计算,得到双向平均相似度,所述双向平均相似度包括第一平均相似度和第二平均相似度,所述第一平均相似度包括第一词嵌入平均相似度和第一编码平均相似度,所述第二平均相似度包括第二词嵌入平均相似度和第二编码平均相似度;对所述第一向量表征和第二向量表征进行计算,得到余弦相似度,所述余弦相似度包括词嵌入余弦相似度和编码余弦相似度;对所述第一词嵌入平均相似度、第二词嵌入平均相似度和词嵌入余弦相似度进行计算,得到第一相似度评分;对第一编码平均相似度、第二编码平均相似度和编码余弦相似度进行计算,得到第二相似度评分;所述双向评分包括第一相似度评分和第二相似度评分;
所述提取单元,具体用于按照第一相似度评分对多个语句对进行排序,将序列中指定排序的多个语句对确定为第一排序语句对集;按照第二相似度评分对多个语句对进行排序,将序列中指定排序的多个语句对确定为第二排序语句对集;对所述第一排序语句对集和第二排序语句对集取并集;若所述并集为空集,按照第一相似度评分对多个语句对进行排序,将最高的第一相似度评分对应的语句对作为训练数据;若所述并集不为空集,将所述并集中的语句对作为训练数据。
7.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至5任一项所述的训练数据提取方法。
8.一种计算机设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,其特征在于,所述程序指令被处理器加载并执行时实现权利要求1至5任一项所述的训练数据提取方法。
9.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至5任一项所述的训练数据提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210581671.6A CN114997162B (zh) | 2022-05-26 | 2022-05-26 | 一种训练数据提取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210581671.6A CN114997162B (zh) | 2022-05-26 | 2022-05-26 | 一种训练数据提取方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114997162A CN114997162A (zh) | 2022-09-02 |
CN114997162B true CN114997162B (zh) | 2024-06-14 |
Family
ID=83029522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210581671.6A Active CN114997162B (zh) | 2022-05-26 | 2022-05-26 | 一种训练数据提取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114997162B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108287858A (zh) * | 2017-03-02 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 自然语言的语义提取方法及装置 |
CN113221545A (zh) * | 2021-05-10 | 2021-08-06 | 北京有竹居网络技术有限公司 | 一种文本处理方法、装置、设备及介质、程序产品 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108345580B (zh) * | 2017-01-22 | 2020-05-15 | 创新先进技术有限公司 | 一种词向量处理方法及装置 |
CN110889289B (zh) * | 2018-08-17 | 2022-05-06 | 北大方正集团有限公司 | 信息明确度评估方法、装置、设备及计算机可读存储介质 |
CN110472040B (zh) * | 2019-06-26 | 2024-08-20 | 平安科技(深圳)有限公司 | 评价信息的提取方法及装置、存储介质、计算机设备 |
US11080491B2 (en) * | 2019-10-14 | 2021-08-03 | International Business Machines Corporation | Filtering spurious knowledge graph relationships between labeled entities |
CN110826329A (zh) * | 2019-11-13 | 2020-02-21 | 创意信息技术股份有限公司 | 一种基于困惑度的自动作文评分方法 |
CN111475633B (zh) * | 2020-04-10 | 2022-06-10 | 复旦大学 | 基于座席语音的话术支持系统 |
CN111563384B (zh) * | 2020-04-22 | 2022-10-25 | 华南理工大学 | 面向电商产品的评价对象识别方法、装置及存储介质 |
CN111695361A (zh) * | 2020-04-29 | 2020-09-22 | 平安科技(深圳)有限公司 | 中英双语语料库的构建方法、及其相关设备 |
-
2022
- 2022-05-26 CN CN202210581671.6A patent/CN114997162B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108287858A (zh) * | 2017-03-02 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 自然语言的语义提取方法及装置 |
CN113221545A (zh) * | 2021-05-10 | 2021-08-06 | 北京有竹居网络技术有限公司 | 一种文本处理方法、装置、设备及介质、程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN114997162A (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287479B (zh) | 命名实体识别方法、电子装置及存储介质 | |
CN109063174B (zh) | 查询答案的生成方法及装置、计算机存储介质、电子设备 | |
CN111930894B (zh) | 长文本匹配方法及装置、存储介质、电子设备 | |
CN111858843B (zh) | 一种文本分类方法及装置 | |
CN109740158B (zh) | 一种文本语义解析方法及装置 | |
CN110990555B (zh) | 端到端检索式对话方法与系统及计算机设备 | |
JP7417679B2 (ja) | 情報抽出方法、装置、電子機器及び記憶媒体 | |
CN110188158B (zh) | 关键词及话题标签生成方法、装置、介质及电子设备 | |
CN110909181A (zh) | 一种面向多类型海洋数据的跨模态检索方法及系统 | |
CN108491812B (zh) | 人脸识别模型的生成方法和装置 | |
CN112434533B (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
CN113761868A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN116127060A (zh) | 一种基于提示词的文本分类方法及系统 | |
CN114065771A (zh) | 一种预训练语言处理方法及设备 | |
CN112307738B (zh) | 用于处理文本的方法和装置 | |
CN113723077A (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
CN118015639A (zh) | 表格关系分析方法、装置、计算机设备及存储介质 | |
CN113505595A (zh) | 文本短语抽取方法、装置、计算机设备及存储介质 | |
CN116127925B (zh) | 基于对文本进行破坏处理的文本数据增强方法及装置 | |
CN114997162B (zh) | 一种训练数据提取方法和装置 | |
CN117197268A (zh) | 图像生成方法、装置及存储介质 | |
CN115203378B (zh) | 基于预训练语言模型的检索增强方法、系统及存储介质 | |
CN113704466B (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 | |
CN115712739A (zh) | 舞蹈动作生成方法、计算机设备及存储介质 | |
CN113157896B (zh) | 一种语音对话生成方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |