CN114462397B - 一种语种识别模型训练方法、语种识别方法、装置及电子设备 - Google Patents

一种语种识别模型训练方法、语种识别方法、装置及电子设备 Download PDF

Info

Publication number
CN114462397B
CN114462397B CN202210064596.6A CN202210064596A CN114462397B CN 114462397 B CN114462397 B CN 114462397B CN 202210064596 A CN202210064596 A CN 202210064596A CN 114462397 B CN114462397 B CN 114462397B
Authority
CN
China
Prior art keywords
text
training
model
language
language identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210064596.6A
Other languages
English (en)
Other versions
CN114462397A (zh
Inventor
侯兴翠
王化楠
王愚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lianlian Hangzhou Information Technology Co ltd
Original Assignee
Lianlian Hangzhou Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lianlian Hangzhou Information Technology Co ltd filed Critical Lianlian Hangzhou Information Technology Co ltd
Priority to CN202210064596.6A priority Critical patent/CN114462397B/zh
Publication of CN114462397A publication Critical patent/CN114462397A/zh
Application granted granted Critical
Publication of CN114462397B publication Critical patent/CN114462397B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种语种识别模型训练方法、语种识别方法、装置及电子设备,该语种识别模型训练方法包括:将训练文本集输入第一语种识别模型,得到其中每个训练文本的词向量、对应的多个语种及每个语种的比例数据;基于训练文本集和词向量对特征获取子模型进行训练,得到训练好的特征获取子模型;将训练文本集输入训练好的特征获取子模型,得到每个训练文本的第一文本特征信息;基于多个语种、每个训练文本的第一文本特征信息、每个语种的比例数据和预设目标距离数据对预设聚类子模型进行训练,得到训练好的聚类子模型;将训练好的特征获取子模型和聚类子模型确定为第二语种识别模型。本发明可以高效准确的确定文本所属语种。

Description

一种语种识别模型训练方法、语种识别方法、装置及电子设备
技术领域
本发明涉及电子信息技术领域,具体涉及深度学习技术,特别涉及一种语种识别模型训练方法、语种识别方法。
背景技术
在经济全球化发展的今天,各国交往日益密切。在这一环境下,面临多语种数据带来的对文本理解的挑战,高效准确识别文本所属语种对于理解文本至关重要。为了解决多语种文本理解的难题,通过语种训练模型提取语言文本的表征向量,基于该文本的表征向量与各类语种的语种标准向量的相似度经训练模型计算可得到文本语种。但是现有技术所采用的语种识别方案准确率低,可靠性差,速度慢,不能满足当前对语种识别的需求。
发明内容
本发明的目的是提供一种语种识别模型训练方法、语种识别方法、装置及电子设备,可以通过算法技术高效处理大数据量的同时大大提高语种识别的准确度。
一方面,本发明提供了一种语种识别模型训练方法,包括:
将训练文本集输入第一语种识别模型,得到训练文本集中每个训练文本的词向量、对应的多个语种,以及每个语种的比例数据;
基于训练文本集、词向量对特征获取子模型进行训练,得到训练好的特征获取子模型;训练文本集中的训练文本携带有第一语种标签;
将训练文本集输入训练好的特征获取子模型,得到每个训练文本的第一文本特征信息;第一文本特征信息包括每个训练文本的词向量、词位置向量和文本向量;
基于多个语种、每个训练文本的第一文本特征信息、每个语种的比例数据和预设目标距离数据对预设聚类子模型进行训练,得到训练好的聚类子模型;
基于训练好的特征获取子模型和聚类子模型确定第二语种识别模型。
在一个可选的实施例中,基于多个语种、每个训练文本的第一文本特征信息、每个语种的比例数据和预设目标距离数据对预设聚类子模型进行训练,得到训练好的聚类子模型,包括:
确定语种平衡因子矩阵;
基于语种平衡因子矩阵和每个语种的比例数据确定初始权值矩阵;
基于多个语种设置预设聚类子模型;
根据初始权值矩阵、每个训练文本的第一文本特征信息和预设目标距离数据对预设聚类子模型进行训练,得到训练好的聚类子模型。
在一个可选的实施例中,将将训练文本集输入第一语种识别模型,得到训练文本集中每个训练文本的词向量、对应的多个语种,以及每个语种的比例数据之前,还包括:
获取待处理文本集;
确定待处理文本集中每个待处理文本的文本长度;
基于预设长度阈值和每个待处理文本的文本长度从待处理文本集中确定出训练文本集。
在一个可选的实施例中,基于预设长度阈值和每个待处理文本的文本长度从待处理文本集中确定出训练文本集,包括:
基于预设长度阈值和每个待处理文本的文本长度从待处理文本集中确定出过渡文本集;
对过渡文本集中的过渡文本进行符号数字删除处理,得到训练文本集。
在一个可选的实施例中,基于训练文本集和词向量对特征获取子模型进行训练,得到训练好的特征获取子模型,包括:
构建深度学习模型;
将每个训练文本和每个训练文本对应的词向量输入深度学习模型,得到每个训练文本的第二语种标签;
基于第一语种标签和第二语种标签确定损失值;
基于损失值对深度学习模型进行训练;
从训练好的深度学习模型中确定训练好的特征获取子模型。
第二方面,本发明还提供了一种语种识别方法,包括:
获取待识别文本;
将待识别文本输入上述任一语种识别模型训练方法训练得到的第二语种识别模型,对待识别文本进行语种识别,确定待识别文本的所属语种。
第三方面,本发明还提供了一种语种识别模型训练装置,包括:
预训练模块,用于将训练文本集输入第一语种识别模型,得到训练文本集中每个训练文本的词向量、对应的多个语种,以及每个语种的比例数据;
第一训练模块,用于基于训练文本集、词向量对特征获取子模型进行训练,得到训练好的特征获取子模型;训练文本集中的训练文本携带有第一语种标签;
特征信息确定模块,用于将训练文本集输入训练好的特征获取子模型,得到每个训练文本的第一文本特征信息;第一文本特征信息包括每个训练文本的词向量、词位置向量和文本向量;
第二训练模块,用于基于多个语种、每个训练文本的第一文本特征信息、每个语种的比例数据和预设目标距离数据对预设聚类子模型进行训练,得到训练好的聚类子模型;
模型确定模块,用于基于训练好的特征获取子模型和聚类子模型确定为第二语种识别模型。
第四方面,本发明还提供了一种语种识别装置,包括:
待识别文本确定模块,用于获取待识别文本;
语种识别模块,用于将待识别文本输入上述任一语种识别模型训练方法训练得到的第二语种识别模型,对待识别文本进行语种识别,确定待识别文本的所属语种。
第五方面,本发明还提供了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器用于执行指令,以实现上述语种识别模型训练方法或上述语种识别方法。
第六方面,本发明还提供了一种存储介质,当存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述语种识别模型训练方法或上述语种识别方法。
第七方面,本发明还提供了一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序存储在可读存储介质中,计算机设备的至少一个处理器从可读存储介质读取并执行计算机程序,使得设备执行上述语种识别模型训练方法或上述语种识别方法。
本申请实施例提供的一种语种识别模型训练方法、语种识别方法、装置及电子设备,具有如下技术效果:
将训练文本集输入第一语种识别模型,得到训练文本集中每个训练文本的词向量、对应的多个语种,以及每个语种的比例数据;基于训练文本集、词向量对特征获取子模型进行训练,得到训练好的特征获取子模型;训练文本集中的训练文本携带有第一语种标签;将训练文本集输入训练好的特征获取子模型,得到每个训练文本的第一文本特征信息;第一文本特征信息包括每个训练文本的词向量、词位置向量和文本向量;基于多个语种、每个训练文本的第一文本特征信息、每个语种的比例数据和预设目标距离数据对预设聚类子模型进行训练,得到训练好的聚类子模型;基于训练好的特征获取子模型和聚类子模型确定为第二语种识别模型。
本发明基于跨境电商场景大规模的多语言语料库,能够高度覆盖该领域的词汇的同时,使得所训练的语种识别模型适应性更强,且能更好的应用大批量数据,相比较其他语种识别方法,本发明依托于多个模型结合的训练方法将使得识别结果更加准确。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的实施环境示意图;
图2是根据一示例性实施例示出的一种语种识别模型训练方法的流程图;
图3是根据一示例性实施例示出的一种特征获取子模型的流程图;
图4是根据一示例性实施例示出的一种聚类子模型的流程图;
图5是根据一示例性实施例示出的一种训练文本集获取方法的流程图;
图6是根据一示例性实施例示出的一种语种识别方法流程图;
图7是根据一示例性实施例示出的一种语种识别模型训练装置框图;
图8是根据一示例性实施例示出的一种语种识别装置框图。
图9是根据一示例性实施例示出的一种用于语种识别模型训练或用于语种识别的电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
请参阅图1,图1是根据一示例性实施例示出的一种应用环境的示意图,如图1所示,该应用环境可以包括服务器01和终端02。
在一个可选的实施例中,服务器01可以用于训练语种识别模型进行语种识别。具体的,服务器01可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一个可选的实施例中,终端02可以结合服务器01训练出的语种识别模型进行语种识别处理。具体的,终端02可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、智能可穿戴设备等类型的电子设备。可选的,电子设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux系统、windows系统、Unix系统等。
此外,需要说明的是,图1所示的仅仅是本公开提供的一种应用环境,在实际应用中,还可以包括其他应用环境,例如语种识别模型的训练,也可以在终端02上实现。
本说明书实施例中,上述服务器01以及终端02可以通过有线或无线通信方式进行直接或间接地连接,本公开在此不做限制。
图2是根据一示例性实施例示出的一种语种识别模型训练方法的流程图,如图2所示,语种识别模型训练方法可以应用于服务器、终端,包括以下步骤。
步骤S201:将训练文本集输入第一语种识别模型,得到训练文本集中每个训练文本的词向量、对应的多个语种,以及每个语种的比例数据。
本公开实施例中,一种可选的第一语种识别模型是FastText。FastText是一个快速的文本分类算法,适合大型数据,能够在使用标准多核CPU的情况下10分钟内处理超过10亿个词汇,能将训练时间由数天缩短到几秒钟,在保持高精度的情况下加快了训练和测试速度。FastText架构虽然只有1层神经网络,但是效果并不差,而且具备学习和预测速度快的优势。通过FastText训练后,可以得到训练文本集中每个训练文本的词向量、对应的多个语种,以及每个语种的比例数据。
例如,将训练文本集输入FastText模型,可以得到该训练文本集中每个训练文本的词向量、对应的多个语种,以及每个语种的比例数据。该训练文本集中每个训练文本的词向量可以被表示为一个多维向量。若训练文本集中的单词经去重后有10000个,则可得到10000条词向量。可选的,该词向量的维度可以是100维、200维或300维,本实施例中不对该多维向量的维度做出限定。通过FastText模型得到的该训练文本集中对应的多个语种包括语中的类别和语种的数量,该训练文本集中每个训练文本对应一个语种。可选的,若某一训练文本为英语,则被标记为“label_en”,若某一训练文本为德语,则被标记为“label_de”。以上标记仅为实施例中可采用的一种标记方式,不代表训练结果中唯一的标记方式,其他可区别不同语种的标记方式均在本申请的保护范围内。通过统计不同标签在所有标签中的占比,可以得到每个标签的占比,通过不同标签对应的不同语种,可以得到训练文本集对应的每个语种的比例数据。可选的,该每个语种的比例数据可以使用0-1之间的数值来表示的,也就是说,每个语种的比例数据是在0-1之间。
步骤S202:基于训练文本集、词向量对特征获取子模型进行训练,得到训练好的特征获取子模型;训练文本集中的训练文本携带有第一语种标签。
图3是根据一示例性实施例示出的特征获取子模型的流程图,如图3所示,包括以下步骤:
步骤S2021:构建深度学习模型。
本公开实施例中,构建深度学习模型,包括确定该机器学习模型的初始参数及损失函数。
可选的,上述深度学习模型可以是BERT模型,还可以是其他类型的深度学习模型。
本申请实施例中,BERT(Bidirectional Encoder Representations fromTransformers)是google在2018年提出的一种预训练语言表示的方法,他将自然语言处理(Natural Language Processing,NLP)模型的建立分为预训练和微调两个阶段。预训练是为了在大量文本语料上训练一个通用的“语言理解”模型,然后用这个模型去执行想做的NLP任务。微调则是在具体的NLP任务上进行相应的微调学习。BERT模型结构主要采用了转换(Transformer)的编码结构,其主要创新点在于其采用了以下两种训练方法:一是在训练双向语言模型时,以减少的概率把少量的词替换成Mask或者另一个随机的词;二是增加了一个预测下一句的损失值(loss),迫使模型学习到句子之间的关系。BERT自提出后,凭借Transformer强大的特征学习能力以及通过掩码语言模型实现的双向编码,其大幅地提高了各项NLP任务的基准表现。
可选的,该深度学习模型的初始参数包括输出的特征信息的向量维度、学习率、网络层数等。
步骤S2022:将每个训练文本和每个训练文本对应的词向量输入深度学习模型,得到每个训练文本的第二语种标签。
本公开实施例中,深度学习模型中包括特征获取子模型,特征获取子模型用于获取文本特征信息。训练文本输入深度学习模型后,经深度学习模型中的特征获取子模型处理可得到词位置向量和文本向量。进一步地,得到词位置向量过程可以包括模型将每个训练文本分割成单个词汇,根据词汇在文本中的位置得到词位置向量;进一步地,得到文本向量过程可以包括模型将每个训练文本整体转化为一个向量,该向量为文本向量。
将经步骤S201得到的每个训练文本对应的词向量和上述词位置向量、文本向量相加可得到一个多维向量,该多维向量为通过深度学习模型中的特征获取子模型处理得到的每条文本的第二文本特征信息。
可选的,若训练文本集中有10000条文本,可将这10000条文本全部输入模型,则得到10000条文本的第二文本特征信息。
可选的,若训练文本集中有10000条文本,可将这10000条文本中的部分文本,如其中的2000条输入模型,则得到这2000条文本的第二文本特征信息。
将得到的第二文本特征信息编为矩阵,矩阵中每一行向量对应一条文本的第二文本特征信息,深度学习模型对该矩阵进行计算,计算后的输出的矩阵中每一列对应一个预测语种,根据计算后的矩阵中每一行向量中最大的数所在列对应的预测语种确定该行向量对应的文本的第二语种标签,因此也就得到了每个训练文本的第二语种标签。
可选的,也可以将计算后的矩阵中相邻多列对应一个预测语种,根据计算后的矩阵中每一行向量中相邻多列数的平均数最大的多个数所在的列对应的预测语种确定该行向量对应的文本的第二语种标签,因此也就得到了每个训练文本的第二语种标签。
可选的,上述预测语种可以是通过步骤S201得到的全部语种。
可选的,上述预测语种可以是通过步骤S201得到的语种中的部分语种。
步骤S2023:基于第一语种标签和第二语种标签确定损失值。
本公开实施例中,第一语种标签是训练文本集中的训练文本携带有的,该标签是训练文本实际的所属语种,由于第二语种标签是经深度学习模型预测得到的,与实际的所属语种存在偏差,如某一文本实际语种是英语,而预测得到的语种是德语。因此,通过将得到的每条文本的第二语种标签与第一语种标签比对,可以检验深度学习模型的准确性,并基于此确定深度学习模型的损失值。
步骤S2024:基于损失值对深度学习模型进行训练。
本公开实施例中,若损失值过大,则根据损失值反馈给深度学习模型,对深度学习模型进行微调(Finetune)后重复步骤S2022-步骤S2023,直至损失值满足条件。
步骤S2025:从训练好的深度学习模型中确定训练好的特征获取子模型。
本公开实施例中,深度学习模型中包括特征获取子模型,由于深度学习模型整体已训练好,因此其中的特征获取子模型也已训练好,从训练好的深度学习模型中确定训练好的特征获取子模型。
步骤S203:将训练文本集输入训练好的特征获取子模型,得到每个训练文本的第一文本特征信息;第一文本特征信息包括每个训练文本的词向量、词位置向量和文本向量。
本公开实施例中,将训练文本集输入训练好的特征获取子模型,训练文本集中每一个文本可以转化为一个表征向量,该表征向量即为第一文本特征信息,由此,可得到每个训练文本的第一文本特征信息。具体的,特征获取子模型将每个训练文本的词向量、词位置向量和文本向量相加得到一个表征向量,该表征向量即为第一文本特征信息。
上述实施例中,第一文本特征信息和第二文本特征信息都是由模型输出的的表征向量。第一文本特征信息是由训练好的模型输出的,第二文本特征信息是由还未训练好的模型,即训练中的模型输出的。“第一”、“第二”仅用于区别不同过程中输出的表征向量,而不必用于描述特定的顺序或先后次序,在适当情况下可以互换。
步骤S204:基于多个语种、每个训练文本的第一文本特征信息、每个语种的比例数据和预设目标距离数据对预设聚类子模型进行训练,得到训练好的聚类子模型。
图4是根据一示例性实施例示出的聚类子模型的流程图,如图4所示,包括以下步骤:
步骤S2041:确定语种平衡因子矩阵。
本公开实施例中,上述语种平衡因子矩阵A为一个伪随机数矩阵,该矩阵的行数等于上述训练文本集中所包含的文本个数,该矩阵的列数等于上述训练文本集中所包含的语种的个数。该语种平衡因子矩阵是为了防止某一语种占比过大而导致训练结果偏向该语种,因此,起到了减小训练误差的作用。
步骤S2042:基于语种平衡因子矩阵和每个语种的比例数据确定初始权值矩阵。
本公开实施例中,基于语种平衡因子矩阵和比例数据确定初始权值矩阵具体包括:将上述每个语种的比例数据列为一个行向量,该向量中每一列的数字对应一个语种的占比,可选的,每个语种的占比可以使用0-1之间的数值来表示的,也就是说,每个语种的占比是在0-1之间,该行向量中所有数字相加之和等于1。将上述行向量扩展为一个与上述语种平衡因子矩阵同行同列的矩阵B,该矩阵中第一行向量为上述行向量,第一行下的每一行向量都与第一行相同,将该矩阵与上述语种平衡因子矩阵点乘,得到的矩阵即为初始权值矩阵Y’。
步骤S2043:基于多个语种设置预设聚类子模型。
本公开实施例中,预设聚类子模型为类中心,每个语种对应一个类中心,因此,多个语种中每个语种对应一个预设聚类子模型,多个语种的语种数量对应预设聚类子模型的数量。
步骤S2044:根据初始权值矩阵、每个训练文本的第一文本特征信息和预设目标距离数据对预设聚类子模型进行训练,得到训练好的聚类子模型。
本公开实施例中,根据初始权值矩阵、每个训练文本的第一文本特征信息和预设目标距离数据对预设聚类子模型进行训练,得到训练好的聚类子模型具体包括:上述初始权值矩阵Y’中每一行的每一个元素与上述每个训练文本的第一文本特征信息所对应的行向量相乘,再经计算后得到更新后的权值矩阵Y,权值矩阵Y的行数与初始权值矩阵Y的行数相同,权值矩阵Y的列数与初始权值矩阵Y的列数相同。
例如,上述初始权值矩阵第一行第一列的元素y11乘以上述每个训练文本的特征信息中第一行向量[0.14,0.15,0.2,0.55,0.3,0.7,0.9,0.2,0.8,0.2],表示为y11[0.14,0.15,0.2,0.55,0.3,0.7,0.9,0.2,0.8,0.2];上述初始权值矩阵第一行第二列的元素y12乘以上述每个训练文本的特征信息中第一行向量[0.14,0.15,0.2,0.55,0.3,0.7,0.9,0.2,0.8,0.2],表示为y12[0.14,0.15,0.2,0.55,0.3,0.7,0.9,0.2,0.8,0.2],再经计算后得到权值矩阵Y第一行[0.1,0.2,0.3,0.4,0.5,0.6]。
随后,根据权值矩阵Y和预设目标距离数据对预设聚类子模型进行训练,具体包括:将预设聚类子模型C确定为首次迭代的聚类中心,将权值矩阵Y根据预设目标距离数据进行聚类,得到首次迭代后的权值矩阵Y1和首次迭代后的聚类子模型C1,再将首次迭代后的聚类子模型C1确定为第二次迭代的聚类中心,将权值矩阵Y1根据预设目标距离数据进行聚类,得到第二次迭代后的权值矩阵Y2和第二次后的聚类子模型C2,重复迭代多次后直至语种权值矩阵和聚类子模型不再变化或变化很小,取最后一次迭代计算后得到的聚类子模型Cn作为训练好的聚类子模型。
步骤S205:基于训练好的特征获取子模型和聚类子模型确定第二语种识别模型。
本公开实施例中,将经过前述步骤得到的训练好的特征获取子模型和聚类子模型合并即可得到第二语种识别模型。
在前述步骤S201之前还包括获取训练文本集。
图5是根据一示例性实施例示出的获取训练文本集的流程图,如图5所示,包括以下步骤:
步骤S501:获取待处理文本集。
本公开实施例中,可以利用python和spark提取多个平台及全量站点的多语言商品材料文本来获取待识别文本集,待识别文本集中包括多个语种的待识别文本。多个平台及全量站点包括但不限于多个跨境电商平台。跨境电商平台分为国际版、国内版等多个版本,以上不同版本平台均包括在本申请的提取范围内。
本公开实施例中,上述电商平台的商品材料文本可以是实体商品的材料文本,如服装、食品等,也可以是虚拟商品的材料文本,如音乐、电子文档等。多语言商品材料文本包括但不限于商品的名称、使用方法介绍、产地介绍、商品保质期及顾客的评论等。上述商品材料文本可以是英语、汉语、法语、日语等多个语种。如此,可以使得提取得到的文本数量更多,涵盖领域更大,语种更丰富。
步骤S502:确定待处理文本集中每个待处理文本的文本长度。
本公开实施例中,待处理文本集中每个待处理文本都是由字符组成,可以通过每个待处理文本所包含的字符量来确定每个待处理文本的文本长度。
步骤S503:基于预设长度阈值和每个待处理文本的文本长度从待处理文本集中确定出待识别文本集。
本公开实施例中,具体还包括:
基于预设长度阈值和每个待处理文本的文本长度从待处理文本集中确定出过渡文本集。
本公开实施例中,由于每个待处理文本的文本长度不一,长度较短的商品文本所包含的语言特征较少,若不同的两个或两个以上的语种属于同一语系,则文本长度较短时会存在类似,甚至相同的情况,这就导致在对文本语种判断时产生错误;长度过长的商品文本不便后续处理。基于此,可以将每个待处理文本的文本长度与预设长度阈值相比较。若文本长度在预设长度阈值内,则留下;若文本长度在预设长度阈值外,则去掉。这样可以避免或减少文本语种判断时产生错误,确定出过渡文本集。
可选的,预设长度阈值可以是10-521个字符,则留下文本长度在10-521个字符内的,去掉文本长度小于10个字符和大于521个字符的。上述的预设长度阈值只是一个示例,并不能对本申请实施例做出限制。
对过渡文本集中的过渡文本进行符号数字删除处理,得到待识别文本集。
本公开实施例中,由于文本中的符号和数字在不同的语种中写法相同,如标点符号逗号“,”、冒号“:”,数学符号百分号“%”,阿拉伯数字“1”、“2”、“3”等,因此可以对过渡文本集中的过渡文本进行符号数字删除处理,得到待识别文本集。
上述实施例中,通过基于跨境电商场景建立的大规模多语言语料库,能够高度覆盖该领域的词汇的同时所训练的语种识别模型适应性更强,且能更好的应用大批量数据,相比较其他预训练的语种识别模型,本发明的语种识别模型训练方法识别结果更加准确。
基于上述语种识别模型训练方法的实施例,以下介绍本公开一种语种识别方法的实施例中,图6是根据一示例性实施例示出的一种语种识别方法的流程图,参照图6,该方法可以应用于服务器、终端,包括以下步骤。
步骤S601:获取待识别文本。
步骤S602:将待识别语种输入上述语种识别模型训练方法训练得到的第二语种识别模型,对待识别文本进行语种识别,确定待识别文本的语种信息。
上述实施例中,通过本申请已训练好的语种识别模型对文本语种进行识别,大大提高对文本语种识别的准确度,相比较其他语种识别方法,本发明的语种识别方法识别结果更加准确。
图7是根据一示例性实施例示出的一种语种识别模型训练装置框图。参照图7,该装置包括预训练模块701、第一训练模块702、特征信息确定模块703、第二训练模块704、第二语种识别模型确定模块705,其中,
预训练模块701,用于将训练文本集输入第一语种识别模型,得到训练文本集中每个训练文本的第一特征信息、对应的多个语种,以及每个语种的比例数据;
第一训练模块702,用于基于训练文本集和第一特征信息对特征获取子模型进行训练,得到训练好的特征获取子模型;
特征信息确定模块703,用于将训练文本集输入训练好的特征获取子模型,得到每个训练文本的第二特征信息;
第二训练模块704,用于基于多个语种、每个训练文本的第一文本特征信息、每个语种的比例数据和预设目标距离数据对预设聚类子模型进行训练,得到训练好的聚类子模型;
第二语种识别模型确定模块705,用于基于训练好的特征获取子模型和聚类子模型确定第二语种识别模型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图8是根据一示例性实施例示出的一种语种识别装置框图。参照图8,该装置包括待识别文本确定模块801和识别模块802,其中,
待识别文本确定模块801,用于获取待识别文本;
语种识别模块802,用于将待识别文本输入根据上述任一语种识别模型训练方法训练得到的第二语种识别模型,对待识别文本进行语种识别,确定待识别文本的所属语种。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在示例性实施例中,还提供了一种电子设备,包括:处理器;用于存储该处理器可执行指令的存储器;其中,该处理器用于该指令,以实现如本公开实施例中的语种识别模型训练或语种识别方法。
图9是根据一示例性实施例示出的一种用于语种识别模型训练或用于语种识别的电子设备的框图,该电子设备可以是终端,其内部结构图可以如图9所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语种识别模型训练方法或语种识别方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在示例性实施例中,还提供了一种存储介质,当该存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行本公开实施例中的语种识别模型训练或语种识别方法。
在示例性实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行本公开实施例中的语种识别模型训练或语种识别方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本公开所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (9)

1.一种语种识别模型训练方法,其特征在于,所述方法包括:
将训练文本集输入第一语种识别模型,得到所述训练文本集中每个训练文本的词向量、对应的多个语种,以及每个语种的比例数据;
基于所述训练文本集和所述词向量对特征获取子模型进行训练,得到训练好的特征获取子模型;所述训练文本集中的训练文本携带有第一语种标签;
将所述训练文本集输入所述训练好的特征获取子模型,得到所述每个训练文本的第一文本特征信息;所述第一文本特征信息包括所述每个训练文本的词向量、词位置向量和文本向量;
确定语种平衡因子矩阵;
基于所述语种平衡因子矩阵和所述每个语种的比例数据确定初始权值矩阵;
基于所述多个语种设置预设聚类子模型;
根据所述初始权值矩阵、所述每个训练文本的第一文本特征信息和预设目标距离数据对所述预设聚类子模型进行训练,得到训练好的聚类子模型;
基于所述训练好的特征获取子模型和所述聚类子模型确定第二语种识别模型。
2.根据权利要求1所述的方法,其特征在于,所述将训练文本集输入第一语种识别模型,得到所述训练文本集中每个训练文本的词向量、对应的多个语种,以及每个语种的比例数据之前,还包括:
获取待处理文本集;
确定所述待处理文本集中每个待处理文本的文本长度;
基于预设长度阈值和所述每个待处理文本的文本长度从所述待处理文本集中确定出训练文本集。
3.根据权利要求2所述的方法,其特征在于,所述基于预设长度阈值和所述每个待处理文本的文本长度从所述待处理文本集中确定出训练文本集,包括:
基于预设长度阈值和所述每个待处理文本的文本长度从所述待处理文本集中确定出过渡文本集;
对所述过渡文本集中的过渡文本进行符号数字删除处理,得到所述训练文本集。
4.根据权利要求1所述的方法,其特征在于,所述基于所述训练文本集、所述词向量对特征获取子模型进行训练,得到训练好的特征获取子模型,包括:
构建深度学习模型;
将所述每个训练文本和所述每个训练文本对应的词向量输入所述深度学习模型,得到每个训练文本的第二语种标签;
基于所述第一语种标签和所述第二语种标签确定损失值;
基于所述损失值对所述深度学习模型进行训练;
从训练好的所述深度学习模型中确定所述训练好的特征获取子模型。
5.一种语种识别方法,其特征在于,包括:
获取待识别文本;
将所述待识别文本输入根据权利要求1至4任一语种识别模型训练方法训练得到的第二语种识别模型,对所述待识别文本进行语种识别,确定所述待识别文本的所属语种。
6.一种语种识别模型训练装置,其特征在于,包括:
预训练模块,用于将训练文本集输入第一语种识别模型,得到所述训练文本集中每个训练文本的词向量、对应的多个语种,以及每个语种的比例数据;
第一训练模块,用于基于所述训练文本集、所述词向量对特征获取子模型进行训练,得到训练好的特征获取子模型;所述训练文本集中的训练文本携带有第一语种标签;
特征信息确定模块,用于将所述训练文本集输入所述训练好的特征获取子模型,得到所述每个训练文本的第一文本特征信息;所述第一文本特征信息包括所述每个训练文本的词向量、词位置向量和文本向量;
第二训练模块,用于确定语种平衡因子矩阵;基于所述语种平衡因子矩阵和所述每个语种的比例数据确定初始权值矩阵;基于所述多个语种设置预设聚类子模型;根据所述初始权值矩阵、所述每个训练文本的第一文本特征信息和预设目标距离数据对所述预设聚类子模型进行训练,得到训练好的聚类子模型;
模型确定模块,用于基于所述训练好的特征获取子模型和所述聚类子模型确定为第二语种识别模型。
7.一种语种识别装置,其特征在于,包括:
待识别文本确定模块,用于获取待识别文本;
语种识别模块,用于将所述待识别文本输入根据权利要求1至4任一语种识别模型训练方法训练得到的第二语种识别模型,对所述待识别文本进行语种识别,确定所述待识别文本的所属语种。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器用于所述指令,以实现如权利要求1至4中任一项所述的语种识别模型训练方法,或实现如权利要求5所述的语种识别方法。
9.一种存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至4中任一项所述的语种识别模型训练方法,或实现如权利要求5所述的语种识别方法。
CN202210064596.6A 2022-01-20 2022-01-20 一种语种识别模型训练方法、语种识别方法、装置及电子设备 Active CN114462397B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210064596.6A CN114462397B (zh) 2022-01-20 2022-01-20 一种语种识别模型训练方法、语种识别方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210064596.6A CN114462397B (zh) 2022-01-20 2022-01-20 一种语种识别模型训练方法、语种识别方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN114462397A CN114462397A (zh) 2022-05-10
CN114462397B true CN114462397B (zh) 2023-09-22

Family

ID=81410466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210064596.6A Active CN114462397B (zh) 2022-01-20 2022-01-20 一种语种识别模型训练方法、语种识别方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN114462397B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021842A (zh) * 2007-03-09 2007-08-22 清华大学 汉语基本块描述规则的自动学习和扩展进化处理方法
JP2007233149A (ja) * 2006-03-02 2007-09-13 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
CN105335350A (zh) * 2015-10-08 2016-02-17 北京理工大学 一种基于集成学习的语种识别方法
CN107256378A (zh) * 2017-04-24 2017-10-17 北京航空航天大学 语种识别方法及装置
CN107945805A (zh) * 2017-12-19 2018-04-20 程海波 一种智能化跨语言语音识别转化方法
CN111027528A (zh) * 2019-11-22 2020-04-17 华为技术有限公司 语种识别方法、装置、终端设备及计算机可读存储介质
CN111445898A (zh) * 2020-03-17 2020-07-24 科大讯飞股份有限公司 语种识别方法、装置、电子设备和存储介质
CN111640419A (zh) * 2020-05-26 2020-09-08 合肥讯飞数码科技有限公司 语种识别方法、系统、电子设备及存储介质
CN111783437A (zh) * 2020-06-03 2020-10-16 广州云趣信息科技有限公司 基于深度学习实现语种识别的方法
CN112017630A (zh) * 2020-08-19 2020-12-01 北京字节跳动网络技术有限公司 一种语种识别方法、装置、电子设备及存储介质
CN112966712A (zh) * 2021-02-01 2021-06-15 北京三快在线科技有限公司 语言模型训练方法、装置、电子设备和计算机可读介质
CN113362810A (zh) * 2021-05-28 2021-09-07 平安科技(深圳)有限公司 语音处理模型的训练方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007233149A (ja) * 2006-03-02 2007-09-13 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
CN101021842A (zh) * 2007-03-09 2007-08-22 清华大学 汉语基本块描述规则的自动学习和扩展进化处理方法
CN105335350A (zh) * 2015-10-08 2016-02-17 北京理工大学 一种基于集成学习的语种识别方法
CN107256378A (zh) * 2017-04-24 2017-10-17 北京航空航天大学 语种识别方法及装置
CN107945805A (zh) * 2017-12-19 2018-04-20 程海波 一种智能化跨语言语音识别转化方法
CN111027528A (zh) * 2019-11-22 2020-04-17 华为技术有限公司 语种识别方法、装置、终端设备及计算机可读存储介质
CN111445898A (zh) * 2020-03-17 2020-07-24 科大讯飞股份有限公司 语种识别方法、装置、电子设备和存储介质
CN111640419A (zh) * 2020-05-26 2020-09-08 合肥讯飞数码科技有限公司 语种识别方法、系统、电子设备及存储介质
CN111783437A (zh) * 2020-06-03 2020-10-16 广州云趣信息科技有限公司 基于深度学习实现语种识别的方法
CN112017630A (zh) * 2020-08-19 2020-12-01 北京字节跳动网络技术有限公司 一种语种识别方法、装置、电子设备及存储介质
CN112966712A (zh) * 2021-02-01 2021-06-15 北京三快在线科技有限公司 语言模型训练方法、装置、电子设备和计算机可读介质
CN113362810A (zh) * 2021-05-28 2021-09-07 平安科技(深圳)有限公司 语音处理模型的训练方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN114462397A (zh) 2022-05-10

Similar Documents

Publication Publication Date Title
CN110765763A (zh) 语音识别文本的纠错方法、装置、计算机设备和存储介质
CN110334179B (zh) 问答处理方法、装置、计算机设备和存储介质
CN110688853B (zh) 序列标注方法、装置、计算机设备和存储介质
CN109858010A (zh) 领域新词识别方法、装置、计算机设备和存储介质
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN111914825B (zh) 文字识别方法、装置及电子设备
CN113887229A (zh) 地址信息的识别方法、装置、计算机设备及存储介质
CN113657098B (zh) 文本纠错方法、装置、设备及存储介质
CN112949320B (zh) 基于条件随机场的序列标注方法、装置、设备及介质
CN111079432A (zh) 文本检测方法、装置、电子设备及存储介质
CN111191028A (zh) 样本标注方法、装置、计算机设备和存储介质
CN111091004A (zh) 一种语句实体标注模型的训练方法、训练装置及电子设备
CN116070632A (zh) 一种非正式文本实体标签识别方法和装置
CN110705211A (zh) 文本重点内容标记方法、装置、计算机设备及存储介质
CN117725960A (zh) 基于知识蒸馏的语言模型训练方法、文本分类方法及设备
CN116469111B (zh) 一种文字生成模型训练方法及目标文字生成方法
CN113591469A (zh) 一种基于词语解释的文本增强的方法和系统
CN112307749A (zh) 文本检错方法、装置、计算机设备和存储介质
CN114462397B (zh) 一种语种识别模型训练方法、语种识别方法、装置及电子设备
CN116089605A (zh) 基于迁移学习和改进词袋模型的文本情感分析方法
CN115618849A (zh) 错别字检测方法、装置、设备及存储介质
Jung et al. Feature structure distillation with Centered Kernel Alignment in BERT transferring
CN114638229A (zh) 笔录数据的实体识别方法、装置、介质及设备
CN115309862A (zh) 基于图卷积网络和对比学习的因果关系识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant