CN115169370B - 语料数据增强方法、装置、计算机设备及介质 - Google Patents

语料数据增强方法、装置、计算机设备及介质 Download PDF

Info

Publication number
CN115169370B
CN115169370B CN202211068445.4A CN202211068445A CN115169370B CN 115169370 B CN115169370 B CN 115169370B CN 202211068445 A CN202211068445 A CN 202211068445A CN 115169370 B CN115169370 B CN 115169370B
Authority
CN
China
Prior art keywords
corpus
training
data
parallel
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211068445.4A
Other languages
English (en)
Other versions
CN115169370A (zh
Inventor
周艺恺
林余楚
古树桦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Star Universe Digital Technology Zhuhai Co ltd
Original Assignee
Star Universe Digital Technology Zhuhai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Star Universe Digital Technology Zhuhai Co ltd filed Critical Star Universe Digital Technology Zhuhai Co ltd
Priority to CN202211068445.4A priority Critical patent/CN115169370B/zh
Publication of CN115169370A publication Critical patent/CN115169370A/zh
Application granted granted Critical
Publication of CN115169370B publication Critical patent/CN115169370B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语料数据增强方法、装置、计算机设备及介质,包括:通过构建垂直领域术语库,基于垂直领域术语库进行数据筛选,得到包含术语关键字的单语语句,将包含术语关键字的单语语句作为初始语料,采用初始语料对初始预训练模型进行训练,得到平行语料分类器,平行语料分类器包括语料生成器和语料判别器,采用语料生成器生成单语数据,得到第一源语言数据,通过反向翻译模型对第一源语言数据进行翻译,得到垂直领域的第一目标语言数据,将第一源语言数据和第一目标语言数据作为平行语料对输入到平行语料分类器进行分类,并将分类结果中符合预设条件的平行语料对作为目标平行语料对。采用本发明提高了增广得到的语料数据对的质量。

Description

语料数据增强方法、装置、计算机设备及介质
技术领域
本发明涉及自然语言处理领域,尤其涉及一种语料数据增强方法、装置、计算机设备及介质。
背景技术
随着人工智能化技术的飞速发展,自然语言处理技术也应用于越来越多的场景,机器翻译是自然语言处理技术中一种广泛应用的技术,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程,现阶段以基于人工神经网络的神经机器翻译为主,但是,在机器翻译低资源场景中,如生命科学垂直领域,由于垂直领域的专业性、门槛高等天然特性,使得平行语料相对稀缺且难以获取,往往会出现低资源的场景,其中,低资源是指所处的任务场景中训练数据相对稀少的情况。
目前,在低资源场景中,数据增强技术已被广泛视为一种有效扩充训练数据集规模及提升机器学习性能的高性价比方法。在机器翻译垂直领域低资源场景中,即平行训练语料相对较少的垂直领域场景中,往往会采用数据增强技术来增加训练数据集的数量。现有方式中,主要包括基于模板的数据增强方法和基于反向翻译的数据增强方法。
发明人在实现本发明的过程中,意识到现有技术至少存在如下技术问题:现有方式中,主要采用基于模板的数据增强方法,该方法本身是基于原有数据集所做的数据增强,不具备泛化能力,容易出现句式生硬或词不达意的情况,尤其是在垂直领域,特别是同义词不够准确时,容易出现语义大幅度漂移的现象,即句意发生了变化,进行了错误的表达,导致得到的增强数据质量不佳;现有方式中,也有采用反向翻译的数据增强方法,但是,在低资源场景中,由于平行语料不足,使得基于低资源平行语料训练的反向翻译模型性能不高,而反向翻译本身存在一定的错误率,该特性在反向翻译模型训练数据不足的情况下会被进一步放大,可能产生质量较低的数据。基于这些数据进行翻译模型训练,甚至可能会对模型性能产生负面影响,同时,垂直领域中反向翻译模型的生成内容的领域相关性较差,反向翻译模型往往未对输入数据进行严格把控,通用型的单语数据对于垂直领域的翻译而言,甚至可能会出现常识引导错误,例如,针对金融领域“bank”会翻译为“银行”,而如果是通用型的数据,那么“bank”则有可能被翻译为“堤岸”。
综上,现有方式进行低资源场景的数据增强,存在增强得到的数据质量不高的问题。
发明内容
本发明实施例提供一种语料数据增强方法、装置、计算机设备和存储介质,以提高数据增强得到的语料数据的质量。
为了解决上述技术问题,本申请实施例提供一种语料数据增强方法,包括:
构建垂直领域术语库;
基于所述垂直领域术语库进行数据筛选,得到包含术语关键字的单语语句,将所述包含术语关键字的单语语句作为初始语料;
采用所述初始语料对初始预训练模型进行训练,得到所述平行语料分类器,所述平行语料分类器包括语料生成器和语料判别器;
采用所述语料生成器生成单语数据,得到第一源语言数据;
通过反向翻译模型对所述第一源语言数据进行翻译,得到垂直领域的第一目标语言数据;
将所述第一源语言数据和所述第一目标语言数据作为平行语料对输入到所述平行语料分类器进行分类,并将分类结果中符合预设条件的平行语料对作为目标平行语料对。
可选地,所述初始预训练模型包括第一预训练模型和第二预训练模型,所述采用所述初始语料对初始预训练模型进行训练,得到所述平行语料分类器包括:
采用所述初始语料对第一预训练模型进行训练,得到第二预训练模型,并将所述第二预训练模型作为垂直领域的语料生成器,所述第一预训练模型为Generative Pre-Training模型;
采用所述初始语料对第三预训练模型进行训练,得到第四预训练模型,并将所述第四预训练模型作为垂直领域的语料判别器,所述第三预训练模型为Bert模型;
采用低资源垂直领域平行语料和通用平行语料,对所述语料生成器和所述语料判别器进行生成对抗训练,得到垂直领域的所述平行语料分类器。
可选地,所述采用所述初始语料对第一预训练模型进行训练,得到第二预训练模型包括:
采用依存句法分析的方式,对所述初始语料进行句法分析,得到依存句法分析结果;
将所述依存句法分析结果和所述初始语料进行拼接得到训练语料;
采用所述训练语料对所述第一预训练模型进行训练,得到所述第二预训练模型。
可选地,所述依存句法分析结果为依存句法分析树,所述将所述依存句法分析结果和所述初始语料进行拼接得到训练语料包括:
从所述依存句法分析树中随机获取预设数量的子树,作为候选子树;
采用通用占位符对所述候选子树进行替换,得到更新后的依存句法分析树;
采用句子连接符对所述更新后的依存句法分析树和所述初始语料进行拼接,得到所述训练语料。
可选地,所述反向翻译模型基于通用平行语料和低资源垂直领域平行数据训练得到。
为了解决上述技术问题,本申请实施例还提供一种语料数据增强装置,包括:
术语库构建模块,用于构建垂直领域术语库;
语料筛选模块,用于基于所述垂直领域术语库进行数据筛选,得到包含术语关键字的单语语句,将所述包含术语关键字的单语语句作为初始语料;
分类器训练模块,用于采用所述初始语料对初始预训练模型进行训练,得到所述平行语料分类器,所述平行语料分类器包括语料生成器和语料判别器;
数据生成模块,用于采用所述语料生成器生成单语数据,得到第一源语言数据;
数据翻译模块,用于通过反向翻译模型对所述第一源语言数据进行翻译,得到垂直领域的第一目标语言数据;
语料对选取模块,用于将所述第一源语言数据和所述第一目标语言数据作为平行语料对输入到所述平行语料分类器进行分类,并将分类结果中符合预设条件的平行语料对作为目标平行语料对。
可选地,所述分类器训练模块包括:
第一训练子模块,用于采用所述初始语料对第一预训练模型进行训练,得到第二预训练模型,并将所述第二预训练模型作为垂直领域的语料生成器,所述第一预训练模型为Generative Pre-Training模型;
第二训练子模块,用于采用所述初始语料对第三预训练模型进行训练,得到第四预训练模型,并将所述第四预训练模型作为垂直领域的语料判别器,所述第三预训练模型为Bert模型;
生成对抗训练子模块,用于采用低资源垂直领域平行语料和通用平行语料,对所述语料生成器和所述语料判别器进行生成对抗训练,得到垂直领域的所述平行语料分类器。
可选地,所述第一训练子模块包括:
句法分析单元,用于采用依存句法分析的方式,对所述初始语料进行句法分析,得到依存句法分析结果;
句子拼接单元,用于将所述依存句法分析结果和所述初始语料进行拼接得到训练语料;
训练单元,用于采用所述训练语料对所述第一预训练模型进行训练,得到所述第二预训练模型。
可选地,所述依存句法分析结果为依存句法分析树,所述句子拼接单元包括:
候选子树选取子单元,用于从所述依存句法分析树中随机获取预设数量的子树,作为候选子树;
句法分析树更新子单元,用于采用通用占位符对所述候选子树进行替换,得到更新后的依存句法分析树;
句子拼接子单元,用于采用句子连接符对所述更新后的依存句法分析树和所述初始语料进行拼接,得到所述训练语料。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语料数据增强方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语料数据增强方法的步骤。
本发明实施例提供的语料数据增强方法、装置、计算机设备及存储介质,通过通过构建垂直领域术语库,基于垂直领域术语库进行数据筛选,得到包含术语关键字的单语语句,将包含术语关键字的单语语句作为初始语料,进而采用初始语料对初始预训练模型进行训练,得到平行语料分类器,平行语料分类器包括语料生成器和语料判别器,再采用语料生成器生成单语数据,得到第一源语言数据,通过反向翻译模型对第一源语言数据进行翻译,得到垂直领域的第一目标语言数据,最后将第一源语言数据和第一目标语言数据作为平行语料对输入到平行语料分类器进行分类,并将分类结果中符合预设条件的平行语料对作为目标平行语料对。实现通过提取垂直领域的初始语料对预训练模型进行训练,得到具备垂直领域语料生成和分类的平行语料分类器,进而通过该平行语料分类器和初始语料进行数据增广,提高了增广得到的语料数据对的质量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是本申请的语料数据增强方法的一个实施例的流程图;
图3是根据本申请的语料数据增强装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3 ( Moving Picture Experts GroupAudio Layer III,动态影像专家压缩标准音频层面3 ) 播放器、MP4( Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的语料数据增强方法由服务器执行,相应地,语料数据增强装置设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器,本申请实施例中的终端设备101、102、103具体可以对应的是实际生产中的应用系统。
首先对本申请实施例中所涉及到的一些技术术语进行介绍。
自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。具体而言,自然语言处理是对自然语言(随文化演进的语言,如普通话、方言、少数民族语言)进行认知、理解或者生成的技术。基于NLP技术的人工智能(artificialintelligence,AI)应用可以应用于不同领域的多种应用场景,例如机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR、词性标注、句法分析、手写体识别和资讯检索等。
预训练主要分为两大分支,一支是自编码语言模型(Autoencoder LanguageModel),自回归语言模型(Autoregressive Language Model)。
其中,自回归语言模型(Autoregressive Language Model),是根据上文内容预测下一个可能的单词,就是常说的自左向右的语言模型任务,或者反过来也行,就是根据下文预测前面的单词。GPT(Generative Pre-Training)就是典型的自回归语言模型。
其中,自编码语言模型是对输入的句子随机Mask其中的单词,然后预训练过程的主要任务之一是根据上下文单词来预测这些被Mask掉的单词,那些被Mask掉的单词就是在输入侧加入的噪音。BERT就是典型的自编码类语言模型。
请参阅图2,图2示出本发明实施例提供的一种语料数据增强方法,以该方法应用在图1中的服务端为例进行说明,详述如下:
S201:构建垂直领域术语库。
其中,垂直领域就是在一个大领域下,垂直细分出的小领域。垂直指纵向延伸,而不是横向扩展,细分则是在垂直行业板块里面,再挑选主要的业务深度发展。本实施例中,具体指某个细分领域,例如
其中,术语库以计算机读出的形式将术语及有关资料存在磁介质上形成的一种有序的术语资料集合,相当于一个自动化操作的词典。术语数据库是为满足用户特殊需要而设计的,一般是按专业领域搜集术语,数据库中每条术语记录包括与术语有关的资料单元(如术语的定义、对应语种的术语、注释、相关术语、广义术语、狭义术语、反义术语、术语的语境、术语出处和输入日期等)。
具体地,构建垂直领域术语库具体可以通过从垂直领域对应的专业论坛、词典、学术报告中进行关键词爬取,进而进行语义识别,得到垂直领域的相关内容,继而根据垂直领域的相关内容进行构建垂直领域术语库。
S202:基于垂直领域术语库进行数据筛选,得到包含术语关键字的单语语句,将包含术语关键字的单语语句作为初始语料。
S203:采用初始语料对初始预训练模型进行训练,得到平行语料分类器,平行语料分类器包括语料生成器和语料判别器。
可选地,初始预训练模型包括第一预训练模型和第二预训练模型,采用初始语料对初始预训练模型进行训练,得到平行语料分类器包括:
采用初始语料对第一预训练模型进行训练,得到第二预训练模型,并将第二预训练模型作为垂直领域的语料生成器,第一预训练模型为Generative Pre-Training模型;
采用初始语料对第三预训练模型进行训练,得到第四预训练模型,并将第四预训练模型作为垂直领域的语料判别器,第三预训练模型为Bert模型;
采用低资源垂直领域平行语料和通用平行语料,对语料生成器和语料判别器进行生成对抗训练,得到垂直领域的平行语料分类器。
其中,Generative Pre-Training(GPT)是实现对多义词建模的语义模型,在GPT中,采用了两阶段的过程,第一阶段是利用无监督的方式对语言模型进行预训练,第二阶段通过监督的方式在具体语言任务上进行Fine-tuning(调整优化)。在GPT中采用的特征提取算法是transformer,且是单向的语言模型,采用初始语料对第一预训练模型进行训练,得到的垂直领域的语料生成器,具备了垂直领域相关的判断识别能力。
其中,BERT 模型的全称是 BidirectionalEncoder Representations fromTransformer,基于Transformer的双向编码器表示,是一个预训练的语言表征模型,它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的 masked language model(MLM),以致能生成深度的双向语言表征。BERT 模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation,即:文本的语义表示,然后将文本的语义表示在特定NLP任务中作微调,最终应用于该NLP任务。
本实施例中,两者基于生成对抗网络进行训练,具体而言随机将原始数据,即筛选过的单语垂直领域数据,或生成器所生成的数据作为判别器的数据,由判别器进行判断,其中原始数据标记为正类,生成数据标记为负类。如果分类正确,则判别器不进行更新,对生成器进行更新,反之则对判别器进行更新。
需要说明的是,本实施例中,语料生成器是用于进行垂直领域的语料生成,采用GPT有利于提高生成效率,语料判别器用于对语料是否为垂直领域进行判断分类,需要结合上下文语义进行识别,因而采用BERT模型可以有效提高分类的准确性。
可选地,采用初始语料对第一预训练模型进行训练,得到第二预训练模型包括:
采用依存句法分析的方式,对初始语料进行句法分析,得到依存句法分析结果;
将依存句法分析结果和初始语料进行拼接得到训练语料;
采用训练语料对第一预训练模型进行训练,得到第二预训练模型。
其中,依存句法分析是一种中高级NLP任务,用来分析句子的依存语法。通常根据句子的词语和词性,生成一颗依存句法树。
目前常用的依存句法分析方法是:基于转移的依存句法分析。基于转移的依存句法分析属于监督学习的范畴,其涉及许多组件。我们先定义一台虚拟的机器,这台机器会根据自身的状态和输入的词语预测下一步要执行的转移动作,然后根据转移动作拼装句法树。该类算法中比较经典的是:Arc-Eager。在依存句法分析中,句子中词与词之间存在一种二元不等价关系:主从关系。在句子中,如果一个词修饰另一个词,则称修饰词为从属词(dependent),被修饰词成为支配词(head),两者之间的语法关系就是依存关系(dependency relation)。
可选地,依存句法分析结果为依存句法分析树,将依存句法分析结果和初始语料进行拼接得到训练语料包括:
从依存句法分析树中随机获取预设数量的子树,作为候选子树;
采用通用占位符对候选子树进行替换,得到更新后的依存句法分析树;
采用句子连接符对更新后的依存句法分析树和初始语料进行拼接,得到训练语料。
其中,通用占位符可根据实际应用需求进行设定,此处不做具体限定。
本实施例中,依存句法分析结果随机隐藏部分子树,即将部分子树使用通用占位符代替,以增加模型的数据鲁棒性和泛化能力。
S204:采用语料生成器生成单语数据,得到第一源语言数据。
S205:通过反向翻译模型对第一源语言数据进行翻译,得到垂直领域的第一目标语言数据。
可选地,反向翻译模型基于通用平行语料和低资源垂直领域平行数据训练得到。
S206:将第一源语言数据和第一目标语言数据作为平行语料对输入到平行语料分类器进行分类,并将分类结果中符合预设条件的平行语料对作为目标平行语料对。
其中,预设条件具体可以是分类结果为正向。
本实施例中,通过构建垂直领域术语库,基于垂直领域术语库进行数据筛选,得到包含术语关键字的单语语句,将包含术语关键字的单语语句作为初始语料,进而采用初始语料对初始预训练模型进行训练,得到平行语料分类器,平行语料分类器包括语料生成器和语料判别器,再采用语料生成器生成单语数据,得到第一源语言数据,通过反向翻译模型对第一源语言数据进行翻译,得到垂直领域的第一目标语言数据,最后将第一源语言数据和第一目标语言数据作为平行语料对输入到平行语料分类器进行分类,并将分类结果中符合预设条件的平行语料对作为目标平行语料对。实现通过提取垂直领域的初始语料对预训练模型进行训练,得到具备垂直领域语料生成和分类的平行语料分类器,进而通过该平行语料分类器和初始语料进行数据增广,提高了增广得到的语料数据对的质量。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图3示出与上述实施例语料数据增强方法一一对应的语料数据增强装置的原理框图。如图3所示,该语料数据增强装置包括术语库构建模块31、语料筛选模块32、分类器训练模块33、数据生成模块34、数据翻译模块35和语料对选取模块36。各功能模块详细说明如下:
术语库构建模块31,用于构建垂直领域术语库;
语料筛选模块32,用于基于垂直领域术语库进行数据筛选,得到包含术语关键字的单语语句,将包含术语关键字的单语语句作为初始语料;
分类器训练模块33,用于采用初始语料对初始预训练模型进行训练,得到平行语料分类器,平行语料分类器包括语料生成器和语料判别器;
数据生成模块34,用于采用语料生成器生成单语数据,得到第一源语言数据;
数据翻译模块35,用于通过反向翻译模型对第一源语言数据进行翻译,得到垂直领域的第一目标语言数据;
语料对选取模块36,用于将第一源语言数据和第一目标语言数据作为平行语料对输入到平行语料分类器进行分类,并将分类结果中符合预设条件的平行语料对作为目标平行语料对。
可选地,分类器训练模块包括:
第一训练子模块,用于采用初始语料对第一预训练模型进行训练,得到第二预训练模型,并将第二预训练模型作为垂直领域的语料生成器,第一预训练模型为GenerativePre-Training模型;
第二训练子模块,用于采用初始语料对第三预训练模型进行训练,得到第四预训练模型,并将第四预训练模型作为垂直领域的语料判别器,第三预训练模型为Bert模型;
生成对抗训练子模块,用于采用低资源垂直领域平行语料和通用平行语料,对语料生成器和语料判别器进行生成对抗训练,得到垂直领域的平行语料分类器。
可选地,第一训练子模块包括:
句法分析单元,用于采用依存句法分析的方式,对初始语料进行句法分析,得到依存句法分析结果;
句子拼接单元,用于将依存句法分析结果和初始语料进行拼接得到训练语料;
训练单元,用于采用训练语料对第一预训练模型进行训练,得到第二预训练模型。
可选地,依存句法分析结果为依存句法分析树,句子拼接单元包括:
候选子树选取子单元,用于从依存句法分析树中随机获取预设数量的子树,作为候选子树;
句法分析树更新子单元,用于采用通用占位符对候选子树进行替换,得到更新后的依存句法分析树;
句子拼接子单元,用于采用句子连接符对更新后的依存句法分析树和初始语料进行拼接,得到训练语料。
关于语料数据增强装置的具体限定可以参见上文中对于语料数据增强方法的限定,在此不再赘述。上述语料数据增强装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件连接存储器41、处理器42、网络接口43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器 (Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如电子文件的控制的程序代码等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据,例如运行电子文件的控制的程序代码。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的语料数据增强方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (8)

1.一种语料数据增强方法,其特征在于,所述语料数据增强方法包括:
构建垂直领域术语库;
基于所述垂直领域术语库进行数据筛选,得到包含术语关键字的单语语句,将所述包含术语关键字的单语语句作为初始语料;
采用所述初始语料对初始预训练模型进行训练,得到平行语料分类器,所述平行语料分类器包括语料生成器和语料判别器;
采用所述语料生成器生成单语数据,得到第一源语言数据;
通过反向翻译模型对所述第一源语言数据进行翻译,得到垂直领域的第一目标语言数据;
将所述第一源语言数据和所述第一目标语言数据作为平行语料对输入到所述平行语料分类器进行分类,并将分类结果中符合预设条件的平行语料对作为目标平行语料对;
其中,所述初始预训练模型包括第一预训练模型和第二预训练模型,所述采用所述初始语料对初始预训练模型进行训练,得到所述平行语料分类器包括:
采用所述初始语料对第一预训练模型进行训练,得到第二预训练模型,并将所述第二预训练模型作为垂直领域的语料生成器,所述第一预训练模型为Generative Pre-Training模型;
采用所述初始语料对第三预训练模型进行训练,得到第四预训练模型,并将所述第四预训练模型作为垂直领域的语料判别器,所述第三预训练模型为Bert模型;
采用低资源垂直领域平行语料和通用平行语料,对所述语料生成器和所述语料判别器进行生成对抗训练,得到垂直领域的所述平行语料分类器。
2.如权利要求1所述的语料数据增强方法,其特征在于,所述采用所述初始语料对第一预训练模型进行训练,得到第二预训练模型包括:
采用依存句法分析的方式,对所述初始语料进行句法分析,得到依存句法分析结果;
将所述依存句法分析结果和所述初始语料进行拼接得到训练语料;
采用所述训练语料对所述第一预训练模型进行训练,得到所述第二预训练模型。
3.如权利要求2所述的语料数据增强方法,其特征在于,所述依存句法分析结果为依存句法分析树,所述将所述依存句法分析结果和所述初始语料进行拼接得到训练语料包括:
从所述依存句法分析树中随机获取预设数量的子树,作为候选子树;
采用通用占位符对所述候选子树进行替换,得到更新后的依存句法分析树;
采用句子连接符对所述更新后的依存句法分析树和所述初始语料进行拼接,得到所述训练语料。
4.如权利要求1至3任一项所述的语料数据增强方法,其特征在于,所述反向翻译模型基于通用平行语料和低资源垂直领域平行数据训练得到。
5.一种语料数据增强装置,其特征在于,所述语料数据增强装置包括:
术语库构建模块,用于构建垂直领域术语库;
语料筛选模块,用于基于所述垂直领域术语库进行数据筛选,得到包含术语关键字的单语语句,将所述包含术语关键字的单语语句作为初始语料;
分类器训练模块,用于采用所述初始语料对初始预训练模型进行训练,得到平行语料分类器,所述平行语料分类器包括语料生成器和语料判别器;
数据生成模块,用于采用所述语料生成器生成单语数据,得到第一源语言数据;
数据翻译模块,用于通过反向翻译模型对所述第一源语言数据进行翻译,得到垂直领域的第一目标语言数据;
语料对选取模块,用于将所述第一源语言数据和所述第一目标语言数据作为平行语料对输入到所述平行语料分类器进行分类,并将分类结果中符合预设条件的平行语料对作为目标平行语料对;
其中,所述分类器训练模块包括:
第一训练子模块,用于采用所述初始语料对第一预训练模型进行训练,得到第二预训练模型,并将所述第二预训练模型作为垂直领域的语料生成器,所述第一预训练模型为Generative Pre-Training模型;
第二训练子模块,用于采用所述初始语料对第三预训练模型进行训练,得到第四预训练模型,并将所述第四预训练模型作为垂直领域的语料判别器,所述第三预训练模型为Bert模型;
生成对抗训练子模块,用于采用低资源垂直领域平行语料和通用平行语料,对所述语料生成器和所述语料判别器进行生成对抗训练,得到垂直领域的所述平行语料分类器。
6.如权利要求5所述的语料数据增强装置,其特征在于,所述第一训练子模块包括:
句法分析单元,用于采用依存句法分析的方式,对所述初始语料进行句法分析,得到依存句法分析结果;
句子拼接单元,用于将所述依存句法分析结果和所述初始语料进行拼接得到训练语料;
训练单元,用于采用所述训练语料对所述第一预训练模型进行训练,得到所述第二预训练模型。
7.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的语料数据增强方法。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的语料数据增强方法。
CN202211068445.4A 2022-09-02 2022-09-02 语料数据增强方法、装置、计算机设备及介质 Active CN115169370B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211068445.4A CN115169370B (zh) 2022-09-02 2022-09-02 语料数据增强方法、装置、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211068445.4A CN115169370B (zh) 2022-09-02 2022-09-02 语料数据增强方法、装置、计算机设备及介质

Publications (2)

Publication Number Publication Date
CN115169370A CN115169370A (zh) 2022-10-11
CN115169370B true CN115169370B (zh) 2022-12-13

Family

ID=83480892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211068445.4A Active CN115169370B (zh) 2022-09-02 2022-09-02 语料数据增强方法、装置、计算机设备及介质

Country Status (1)

Country Link
CN (1) CN115169370B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117093715B (zh) * 2023-10-18 2023-12-29 湖南财信数字科技有限公司 词库扩充方法、系统、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852117A (zh) * 2019-11-08 2020-02-28 沈阳雅译网络技术有限公司 一种提升神经机器翻译效果的有效数据增强方法
CN112836525A (zh) * 2021-01-13 2021-05-25 江苏金陵科技集团有限公司 一种基于人机交互机器翻译系统及其自动优化方法
CN113378513A (zh) * 2021-06-11 2021-09-10 电子科技大学 一种面向领域关系抽取的标注语料生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460838B (zh) * 2020-04-23 2023-09-22 腾讯科技(深圳)有限公司 智能翻译模型的预训练方法、装置和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852117A (zh) * 2019-11-08 2020-02-28 沈阳雅译网络技术有限公司 一种提升神经机器翻译效果的有效数据增强方法
CN112836525A (zh) * 2021-01-13 2021-05-25 江苏金陵科技集团有限公司 一种基于人机交互机器翻译系统及其自动优化方法
CN113378513A (zh) * 2021-06-11 2021-09-10 电子科技大学 一种面向领域关系抽取的标注语料生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Improving the performance of low-resource SMT using neural-inspired sentence generator;Nirmal Kumar et al.;《2nd International Conference on Computer, Communication, and Signal Processing (ICCCSP 2018)》;20180222;第1-4页 *
面向司法领域的高质量开源藏汉平行语料库构建;沙九 等;《中文信息学报》;20211130;第35卷(第11期);第51-59页 *

Also Published As

Publication number Publication date
CN115169370A (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
US11238232B2 (en) Written-modality prosody subsystem in a natural language understanding (NLU) framework
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
JP2021168124A (ja) 実体リンキング方法、装置、電子機器、記憶媒体およびコンピュータプログラム
AU2016210590B2 (en) Method and System for Entity Relationship Model Generation
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
CN111046656B (zh) 文本处理方法、装置、电子设备及可读存储介质
US20230023789A1 (en) Method for identifying noise samples, electronic device, and storage medium
CN111814465A (zh) 基于机器学习的信息抽取方法、装置、计算机设备及介质
CN111694937A (zh) 基于人工智能的面试方法、装置、计算机设备及存储介质
CN113987169A (zh) 基于语义块的文本摘要生成方法、装置、设备及存储介质
CN112528654A (zh) 自然语言处理方法、装置及电子设备
CN113779062A (zh) Sql语句生成方法、装置、存储介质及电子设备
CN113360654A (zh) 文本分类方法、装置、电子设备及可读存储介质
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN115169370B (zh) 语料数据增强方法、装置、计算机设备及介质
CN116701574A (zh) 文本语义相似度计算方法、装置、设备及存储介质
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN114722832A (zh) 一种摘要提取方法、装置、设备以及存储介质
CN112417875B (zh) 配置信息的更新方法、装置、计算机设备及介质
CN114792092B (zh) 一种基于语义增强的文本主题抽取方法及装置
CN116483314A (zh) 一种自动化智能活动图生成方法
CN116167382A (zh) 意图事件提取方法及装置、电子设备、存储介质
CN111753540B (zh) 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统
CN113191140A (zh) 文本处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant