CN117556812A - 语种识别模型的获取、语种识别方法、装置、设备及介质 - Google Patents

语种识别模型的获取、语种识别方法、装置、设备及介质 Download PDF

Info

Publication number
CN117556812A
CN117556812A CN202210918596.8A CN202210918596A CN117556812A CN 117556812 A CN117556812 A CN 117556812A CN 202210918596 A CN202210918596 A CN 202210918596A CN 117556812 A CN117556812 A CN 117556812A
Authority
CN
China
Prior art keywords
text
target
vector
feature vector
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210918596.8A
Other languages
English (en)
Inventor
郭豪
刘文强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210918596.8A priority Critical patent/CN117556812A/zh
Publication of CN117556812A publication Critical patent/CN117556812A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种语种识别模型的获取、语种识别方法、装置、设备及介质,属于计算机技术领域。方法包括:获取第一文本、第二文本、第三文本和初始语种识别模型,第一文本和第二文本的语种相同,第一文本和第三文本的语种不同;调用初始语种识别模型,获取第一文本对应的第一特征向量、第二文本对应的第二特征向量和第三文本对应的第三特征向量,第一特征向量、第二特征向量和第三特征向量分别表征第一文本、第二文本和第三文本的语种;根据第一特征向量、第二特征向量和第三特征向量,确定第一损失值;基于第一损失值大于损失阈值,对初始语种识别模型进行更新,得到目标语种识别模型。该方法提高了语种识别的准确性,使得语种识别效果较好。

Description

语种识别模型的获取、语种识别方法、装置、设备及介质
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种语种识别模型的获取、语种识别方法、装置、设备及介质。
背景技术
语种识别是指计算机设备根据输入的文本数据,自动判断该文本数据所属的语言种类,例如,汉语、英语、法语和日语等。
相关技术中,获取待进行语种识别的目标文本,对目标文本进行分段处理,得到多个片段;在多个片段中确定能够代表目标文本的目标片段;确定目标片段对应的特征向量,特征向量用于表征目标片段的语种;根据目标片段对应的特征向量,确定目标文本对应的语种。
然而,当目标文本的字数较少,和/或目标文本的语种为低资源语种,即小语种时,根据上述方法确定出的目标文本对应的语种与目标文本的真实语种之间的匹配度较低,进而使得语种识别的准确性较差。
发明内容
本申请实施例提供了一种语种识别模型的获取、语种识别方法、装置、设备及介质,可用于解决相关技术中语种识别的准确性较差的问题。所述技术方案如下:
第一方面,本申请实施例提供了一种语种识别模型的获取方法,所述方法包括:
获取第一文本、第二文本、第三文本和初始语种识别模型,所述第一文本和所述第二文本的语种相同,所述第一文本和所述第三文本的语种不同;
调用所述初始语种识别模型,获取所述第一文本对应的第一特征向量、所述第二文本对应的第二特征向量和所述第三文本对应的第三特征向量,所述第一特征向量、所述第二特征向量和所述第三特征向量分别表征所述第一文本、所述第二文本和所述第三文本的语种,各个文本对应的特征向量基于所述各个文本包括的各个片段的片段向量、所述各个文本包括的各个片段的位置向量以及所述各个文本的长度向量确定;
根据所述第一特征向量、所述第二特征向量和所述第三特征向量,确定第一损失值,所述第一损失值用于表征第一相似度和第二相似度之间的关系,所述第一相似度为所述第一文本和所述第二文本的语种之间的相似度,所述第二相似度为所述第一文本和所述第三文本的语种之间的相似度;
基于所述第一损失值大于损失阈值,对所述初始语种识别模型进行更新,得到目标语种识别模型,所述目标语种识别模型用于识别文本对应的语种。
第二方面,本申请实施例提供了一种语种识别方法,所述方法包括:
获取待进行语种识别的目标文本和目标语种识别模型,所述目标语种识别模型通过第一方面所述的语种识别模型的获取方法获取到;
调用所述目标语种识别模型获取所述目标文本对应的目标特征向量,所述目标特征向量用于表征所述目标文本的语种,所述目标特征向量基于所述目标文本包括的各个片段的片段向量、所述目标文本包括的各个片段的位置向量以及所述目标文本的长度向量确定;
根据所述目标特征向量,确定所述目标文本对应的语种。
第三方面,本申请实施例提供了一种语种识别模型的获取装置,所述装置包括:
获取模块,用于获取第一文本、第二文本、第三文本和初始语种识别模型,所述第一文本和所述第二文本的语种相同,所述第一文本和所述第三文本的语种不同;
所述获取模块,还用于调用所述初始语种识别模型,获取所述第一文本对应的第一特征向量、所述第二文本对应的第二特征向量和所述第三文本对应的第三特征向量,所述第一特征向量、所述第二特征向量和所述第三特征向量分别表征所述第一文本、所述第二文本和所述第三文本的语种,各个文本对应的特征向量基于所述各个文本包括的各个片段的片段向量、所述各个文本包括的各个片段的位置向量以及所述各个文本的长度向量确定;
确定模块,用于根据所述第一特征向量、所述第二特征向量和所述第三特征向量,确定第一损失值,所述第一损失值用于表征第一相似度和第二相似度之间的关系,所述第一相似度为所述第一文本和所述第二文本的语种之间的相似度,所述第二相似度为所述第一文本和所述第三文本的语种之间的相似度;
更新模块,用于基于所述第一损失值大于损失阈值,对所述初始语种识别模型进行更新,得到目标语种识别模型,所述目标语种识别模型用于识别文本对应的语种。
在一种可能的实现方式中,所述获取模块,用于调用所述初始语种识别模型,获取所述第一文本对应的第一文本特征向量,所述第一文本特征向量中包括所述第一文本的第一长度向量、所述第一文本中的各个片段对应的第一片段向量和所述第一文本中的各个片段对应的第一位置向量;根据所述第一长度向量、所述各个片段对应的第一片段向量和所述各个片段对应的第一位置向量,确定所述第一文本对应的第一特征向量。
在一种可能的实现方式中,所述获取模块,用于根据所述第一长度向量和所述各个片段对应的第一片段向量,获取权重向量,所述权重向量中包括所述各个片段对应的权重,所述各个片段对应的权重用于表征所述各个片段的重要程度;根据所述权重向量、所述各个片段对应的第一片段向量和所述各个片段对应的第一位置向量,确定所述第一文本对应的第一特征向量。
在一种可能的实现方式中,所述获取模块,用于对所述第一长度向量进行非线性化处理,得到第一参考特征向量;将所述第一参考特征向量分别和所述各个片段对应的第一片段向量进行叉乘,得到所述权重向量。
在一种可能的实现方式中,所述获取模块,用于根据所述各个片段对应的第一片段向量和所述各个片段对应的第一位置向量,确定第二参考特征向量,所述第二参考特征向量用于表征所述第一文本的语种;将所述权重向量和所述第二参考特征向量中位于相同维度的数值相乘,得到所述第一文本对应的第一特征向量。
在一种可能的实现方式中,所述获取模块,用于根据所述各个片段对应的第一片段向量和所述各个片段对应的第一位置向量,确定所述各个片段对应的目标向量,所述各个片段对应的目标向量用于表征所述各个片段;将所述各个片段对应的目标向量组成所述第二参考特征向量。
在一种可能的实现方式中,所述获取模块,用于对于所述各个片段中的任一个片段,将所述任一个片段对应的第一片段向量和所述任一个片段对应的第一位置向量中位于相同维度的数值相加,得到所述任一个片段对应的中间向量;根据所述任一个片段对应的中间向量,获取所述任一个片段对应的目标向量。
在一种可能的实现方式中,所述确定模块,用于根据所述第一特征向量和所述第二特征向量,确定第一相似度,所述第一相似度用于指示所述第一文本的语种和所述第二文本的语种之间的相似度;根据所述第一特征向量和所述第三特征向量,确定第二相似度,所述第二相似度用于指示所述第一文本的语种和所述第三文本的语种之间的相似度;根据所述第一相似度和所述第二相似度,调用目标损失函数,确定所述第一损失值。
在一种可能的实现方式中,所述更新模块,用于基于所述第一损失值大于所述损失阈值,对所述初始语种识别模型进行更新,得到中间语种识别模型;调用所述中间语种识别模型,获取所述第一文本对应的第一中间向量、所述第二文本对应的第二中间向量和所述第三文本对应的第三中间向量,所述第一中间向量、所述第二中间向量和所述第三中间向量分别表征所述第一文本、所述第二文本和所述第三文本的语种;根据所述第一中间向量、所述第二中间向量和所述第三中间向量,确定第二损失值;基于所述第二损失值不大于所述损失阈值,将所述中间语种识别模型作为所述目标语种识别模型。
第四方面,本申请实施例提供了一种语种识别装置,所述装置包括:
获取模块,用于获取待进行语种识别的目标文本和目标语种识别模型,所述目标语种识别模型通过第三方面所述的语种识别模型的获取装置获取到;
所述获取模块,还用于调用所述目标语种识别模型获取所述目标文本对应的目标特征向量,所述目标特征向量用于表征所述目标文本的语种,所述目标特征向量基于所述目标文本包括的各个片段的片段向量、所述目标文本包括的各个片段的位置向量以及所述目标文本的长度向量确定;
确定模块,用于根据所述目标特征向量,确定所述目标文本对应的语种。
在一种可能的实现方式中,所述获取模块,用于调用所述目标语种识别模型获取所述目标文本对应的目标文本特征向量,所述目标文本特征向量中包括所述目标文本的目标长度向量、所述目标文本中的各个片段对应的目标片段向量和所述目标文本中的各个片段对应的目标位置向量;根据所述目标长度向量、所述各个片段对应的目标片段向量和所述各个片段对应的目标位置向量,确定所述目标文本对应的目标特征向量。
第五方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以使计算机设备实现上述第一方面或第一方面的任一种可能的实现方式所述的语种识别模型的获取方法,或者以使计算机设备实现上述第二方面或第二方面的任一种可能的实现方式所述的语种识别方法。
第六方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以使计算机实现上述第一方面或第一方面的任一种可能的实现方式所述的语种识别模型的获取方法,或者以使计算机实现上述第二方面或第二方面的任一种可能的实现方式所述的语种识别方法。
第七方面,还提供了一种计算机程序或计算机程序产品,所述计算机程序或计算机程序产品中存储有至少一条计算机指令,所述至少一条计算机指令由处理器加载并执行,以使计算机实现上述第一方面或第一方面的任一种可能的实现方式所述的语种识别模型的获取方法,或者以使计算机实现上述第二方面或第二方面的任一种可能的实现方式所述的语种识别方法。
本申请实施例提供的技术方案至少带来如下有益效果:
本申请实施例提供的技术方案确定的各个文本对应的特征向量是基于文本包括的各个片段的片段向量、各个文本包括的各个片段的位置向量以及各个文本的长度向量所确定的,考虑的因素较多,使得文本对应的特征向量与文本的匹配度更高,能够更好的表征文本。且由于文本对应的特征向量与文本的匹配度较高,通过各个文本对应的特征向量确定的损失值的准确性也较高,进而使得基于损失值确定的目标语种识别模型的识别准确性也较高。
此外,由于第一文本的语种和第二文本的语种相同,第一文本的语种和第三文本的语种不同,因此,根据第一文本、第二文本和第三文本分别对应的特征向量对初始语种识别模型进行更新,得到的目标语种识别模型能够拉近相同语种之间的距离,拉远不同语种之间的距离,从而使得目标语种识别模型的语种识别的准确性更高,语种识别的效果更好。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境示意图;
图2是本申请实施例提供的一种语种识别模型的获取方法的流程图;
图3是本申请实施例提供的一种游戏对应的文本的语言分布示意图;
图4是本申请实施例提供的一种游戏对应的文本的字数分布图;
图5是本申请实施例提供的第一文本对应的第一特征向量的确定过程的示意图;
图6是本申请实施例提供的一种第一损失值的确定过程的示意图;
图7是本申请实施例提供的一种语种识别方法的流程图;
图8是本申请实施例提供的一种语种识别方法的流程图;
图9是本申请实施例提供的一种语种识别提升曲线图;
图10是本申请实施例提供的一种语种识别模型的获取装置的结构示意图;
图11是本申请实施例提供的一种语种识别装置的结构示意图;
图12是本申请实施例提供的一种终端设备的结构示意图;
图13是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
需要说明的是,本申请中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在示例性实施例中,本申请实施例提供的语种识别模型的获取方法以及语种识别方法可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶、游戏等。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
本申请实施例提供的方案涉及人工智能技术中的机器学习技术,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
图1是本申请实施例提供的一种实施环境示意图,如图1所示,该实施环境可以包括:终端设备101和服务器102。
本申请实施例提供的语种识别模型的获取方法可以由终端设备101执行,也可以由服务器102执行,还可以由终端设备101和服务器102共同执行,本申请实施例对此不进行限定。对于本申请实施例提供的语种识别模型的获取方法由终端设备101和服务器102共同执行的情况,服务器102承担主要计算工作,终端设备101承担次要计算工作;或者,服务器102承载次要计算工作,终端设备101承担主要计算工作;或者,服务器102和终端设备101二者之间采用分布式计算架构进行协同计算。
本申请实施例提供的语种识别方法可以由终端设备101执行,也可以由服务器102执行,还可以由终端设备101和服务器102共同执行,本申请实施例对此不进行限定。对于本申请实施例提供的语种识别方法由终端设备101和服务器102共同执行的情况,服务器102承担主要计算工作,终端设备101承担次要计算工作;或者,服务器102承载次要计算工作,终端设备101承担主要计算工作;或者,服务器102和终端设备101二者之间采用分布式计算架构进行协同计算。
需要说明的是,语种识别模型的获取方法的执行设备与语种识别方法的执行设备可以相同,也可以不同,本申请实施例对此不加以限定。
可选地,终端设备101可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人家交互的电子产品。终端设备101包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。服务器102为一台服务器,或者为多台服务器组成的服务器集群,或者为云计算平台和虚拟化中心中的任意一种,本申请实施例对此不加以限定。服务器102与终端设备101通过有线网络或无线网络进行通信连接。服务器102具有数据接收功能、数据处理功能和数据发送功能。当然,服务器102还可以具有其他功能,本申请实施例对此不加以限定。
本领域技术人员应能理解上述终端设备101和服务器102仅为举例说明,其他现有的或者今后可能出现的终端设备或服务器,如可适用于本申请,也应包含在本申请的保护范围之内,并在此以引用方式包含于此。
本申请实施例提供了一种语种识别模型的获取方法,该方法可应用于上述图1所示的实施环境。该语种识别模型的获取方法由计算机设备执行,该计算机设备可以是终端设备101,也可以是服务器102,本申请实施例对此不进行限定。以图2所示的本申请实施例提供的一种语种识别模型的获取方法的流程图为例,该方法包括下述步骤201至步骤204。
在步骤201中,获取第一文本、第二文本、第三文本和初始语种识别模型,第一文本和第二文本的语种相同,第一文本和第三文本的语种不同。
本申请实施例对第一文本、第二文本和第三文本的获取方式不进行限定。可选地,计算机设备的存储空间中存储有多个文本以及各个文本对应的语种,计算机设备从其存储空间中随机选择一个文本作为第一文本,在与第一文本的语种相同的文本中随机选择一个文本作为第二文本。在与第一文本的语种不同的文本中随机选择至少一个文本作为第三文本。
需要说明的是,第三文本的数量可以为一个,也可以为多个,本申请实施例对此不进行限定。当第三文本的数量为多个时,多个第三文本的语种可以相同,也可以不同,本申请实施例对此也不进行限定。示例性地,获取到32个文本,其中,一个文本为第一文本,一个文本为第二文本,剩余的30个文本为第三文本,第一文本的语种为汉语、第二文本的语种为汉语,第三文本的语种均为英语。又例如,第一文本的语种为汉语、第二文本的语种为汉语、30个第三文本中任意两个第三文本的语种均不相同。
在一种可能的实现方式中,还可以将用户输入的多个文本分别作为第一文本、第二文本和第三文本。示例性地,计算机设备显示有输入页面,输入页面中显示有至少三个输入框,其中,第一个输入框为第一文本的输入框,第二个输入框为第二文本的输入框,剩下的至少一个输入框为第三文本的输入框。将用户在第一输入框中输入的内容作为第一文本,将用户在第二输入框中输入的内容作为第二文本,将用户在其他输入框中输入的内容作为第三文本,计算机设备由此获取到第一文本、第二文本和至少一个第三文本。
在一种可能的实现方式中,还可以由计算机设备从浏览器中获取第一文本、第二文本和至少一个第三文本。
需要说明的是,可以选择上述任一种方式获取第一文本、第二文本和第三文本,本申请实施例对第一文本、第二文本和第三文本的获取方式不进行限定。
可选地,初始语种识别模型为能够确定文本对应的语种的模型,初始语种识别模型包括对比学习模块和语种分类模块。其中,对比学习模块用于获取用于表征文本对应的语种的特征向量,语种分类模块用于根据文本对应的特征向量,确定文本对应的语种。
在游戏领域中,每个游戏所对应的文本的语言分布需要展示给用户,这也是语种识别在产品功能上的应用之一,只有在识别出每条文本的语种后才能进行统计展示分析,给用户提供语言视角上的分析。如图3所示为本申请实施例提供的一种游戏对应的文本的语言分布示意图。在图3中,游戏所对应的文本的语言主要包括汉语、英语、西班牙语、葡萄牙语、日语、法语、土耳其语、阿拉伯语、泰语和其他语言。图3中仅示出了汉语、英语和泰语的时间分布图,其他语言的时间分布图暂未示出。
游戏所对应的文本中短文本占多数,如图4所示为本申请实施例提供的一种游戏对应的文本的字数分布图。在图4中,字数为60的文本超过400000条,字数为120的文本超过100000条,字数为180的文本在100000条以内,字数为250的文本在100000条以内,字数大于250的文本在100000条以内。
在步骤202中,调用初始语种识别模型,获取第一文本对应的第一特征向量、第二文本对应的第二特征向量和第三文本对应的第三特征向量。
其中,第一特征向量、第二特征向量和第三特征向量分别表征第一文本、第二文本和第三文本的语种。各个文本对应的特征向量基于各个文本包括的各个片段的片段向量、各个文本包括的各个片段的位置向量以及各个文本的长度向量确定。也即是,第一特征向量基于第一文本包括的各个片段的片段向量、第一文本包括的各个片段的位置向量以及第一文本的长度向量确定。第二特征向量基于第二文本包括的各个片段的片段向量、第二文本包括的各个片段的位置向量以及第二文本的长度向量确定。第三特征向量基于第三文本包括的各个片段的片段向量、第三文本包括的各个片段的位置向量以及第三文本的长度向量确定。
调用初始语种识别模型获取第二文本对应的第二特征向量的过程、调用初始语种识别模型获取第三文本对应的第三特征向量的过程均与调用初始语种识别模型获取第一文本对应的第一特征向量的过程是类似的。本申请实施例仅以调用初始语种识别模型获取第一文本对应的第一特征向量的过程为例进行说明。
在一种可能的实现方式中,调用初始语种识别模型获取第一文本对应的第一特征向量的过程包括:调用初始语种识别模型,获取第一文本对应的第一文本特征向量,第一文本特征向量中包括第一文本的第一长度向量、第一文本中的各个片段对应的第一片段向量和第一文本中的各个片段对应的第一位置向量,各个片段中包括的文字的数量相同,各个片段中包括的文本数量均不大于第一文本的总字数。根据第一长度向量、各个片段对应的第一片段向量和各个片段对应的第一位置向量,确定第一文本对应的第一特征向量。
可选地,初始语种识别模型对第一文本进行分段处理,得到多个片段,进而确定各个片段对应的第一片段向量和各个片段对应的第一位置向量。其中,分段处理时可以将目标数值个字数作为一个片段,目标数值不大于第一文本的总字数。目标数值可以基于经验进行设置,也可以根据实施环境进行调整,本申请实施例对此不进行限定。示例性地,目标数值为1。又例如,目标数值为2。
示例性地,第一文本为“将这段文字翻译为英文”,目标数值为1,则对第一文本进行分段处理,得到多个片段分别为“将”、“这”、“段”、“文”、“字”、“翻”、“译”、“为”、“英”、“文”。
又例如,第一文本为“将这段文字翻译为英文”,目标数值为2,则对第一文本进行分段处理,得到多个片段分别为“将这”、“这段”、“段文”、“文字”、“字翻”、“翻译”、“译为”、“为英”、“英文”。
又例如,第一文本为“将这段文字翻译为英文”,目标数值为3,则对第一文本进行分段处理,得到多个片段分别为“将这段”、“这段文”、“段文字”、“文字翻”、“字翻译”、“翻译为”、“译为英”、“为英文”。
需要说明的是,第一片段向量的维度和第一位置向量的维度相同,第一长度向量的维度小于第一片段向量的维度。示例性地,第一片段向量的维度和第一位置向量的维度均为64维,第一长度向量的维度为16维。
在一种可能的实现方式中,根据第一长度向量、各个片段对应的第一片段向量和各个片段对应的第一位置向量,确定第一文本对应的第一特征向量的过程包括:根据第一长度向量和各个片段对应的第一片段向量,获取权重向量,权重向量中包括各个片段对应的权重,各个片段对应的权重用于表征各个片段的重要程度;根据权重向量、各个片段对应的第一片段向量和各个片段对应的第一位置向量,确定第一文本对应的第一特征向量。
其中,片段对应的权重与片段的重要程度呈正比。也即是,片段对应的权重越高,片段越重要,反之,片段对应的权重越低,片段越不重要。
在一种可能的实现方式中,根据第一长度向量和各个片段对应的第一片段向量,获取权重向量的过程包括:对第一长度向量进行非线性化处理,得到第一参考特征向量;将第一参考特征向量分别和各个片段对应的第一片段向量进行叉乘,得到各个片段对应的权重;根据各个片段对应的权重,获取权重向量。
可选地,初始语种识别模型包括全连接层(fully connected layers,FC),将第一长度向量输入FC,得到第一参考特征向量。第一参考特征向量相对于第一长度向量的表征能力更好。第一参考特征向量的维度和第一长度向量的维度相同。全连接层主要用来对第一长度向量进行映射操作。
示例性地,按照下述公式(1)确定第一参考特征向量。
L=tanh(WWP+bW) 公式(1)
在上述公式(1)中,L为第一参考特征向量,tanh为非线性化函数,P为第一长度向量,WW为第一模型参数,bW为第二模型参数。第一模型参数和第二模型参数均基于经验进行设置,或者根据实施环境进行调整,本申请实施例对此不进行限定。
可选地,根据第一参考特征向量和各个片段对应的第一片段向量,按照下述公式(2)确定各个片段对应的权重。
Wi=softmax(UL) 公式(2)
在上述公式(2)中,Wi为第i个片段对应的权重,softmax为一种激活函数,U为第i个片段的第一片段向量,L是第一参考特征向量。
需要说明的是,每个片段对应的权重的确定过程均可以按照上述公式(2)的方式确定,在此不一一进行赘述。
获取到各个片段对应的权重之后,根据各个片段在第一文本中的位置,确定各个片段对应的权重在权重向量中的位置,按照各个片段对应的权重在权重向量中的位置,获取权重向量,各个片段对应的权重在权重向量中的位置与各个片段在第一文本中的位置相同。
示例性地,第一文本包括的多个片段分别为“将”、“这”、“段”、“文”、“字”、“翻”、“译”、“为”、“英”、“文”,其中,片段“将”对应的权重为0.1、片段“这”对应的权重为0.2、片段“段”对应的权重为0.3、片段“文”对应的权重为0.4、片段“字”对应的权重为0.5、片段“翻”对应的权重为0.6、片段“译”对应的权重为0.7、片段“为”对应的权重为0.8、片段“英”对应的权重为0.9、片段“文”对应的权重为0.1。进而,根据各个片段的位置和各个片段对应的权重,得到权重向量为(0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,0.1)。
可选地,获取到各个片段对应的权重之后,还可以根据各个片段对应的权重和各个片段在第一文本中的位置,确定候选向量,各个片段对应的权重在候选向量中的位置与各个片段在第一文本中的位置相同,对候选向量进行归一化处理,得到权重向量。
本申请实施例对根据权重向量、各个片段对应的第一片段向量和各个片段对应的第一位置向量,确定第一文本对应的第一特征向量的过程不进行限定。在一种可能的实现方式中,根据各个片段对应的第一片段向量和各个片段对应的第一位置向量,确定第二参考特征向量,第二参考特征向量用于表征第一文本的语种;将权重向量和第二参考特征向量中位于相同维度的数值相乘,得到第一文本对应的第一特征向量。
其中,根据各个片段对应的第一片段向量和各个片段对应的第一位置向量,确定第二参考特征向量的过程包括:根据各个片段对应的第一片段向量和各个片段对应的第一位置向量,确定各个片段对应的目标向量,各个片段对应的目标向量用于表征各个片段;将各个片段对应的目标向量组成第二参考特征向量。
本申请实施例不对各个片段对应的目标向量的确定过程进行限定。对于各个片段中的任一个片段对应的目标向量,将任一个片段对应的第一片段向量和任一个片段对应的第一位置向量中位于相同维度的数值相加,得到任一个片段对应的中间向量,根据任一个片段对应的中间向量,获取任一个片段对应的目标向量。
可选地,初始语种识别模型包括卷积层。根据任一个片段对应的中间向量,获取任一个片段对应的目标向量的过程包括:将任一个片段对应的中间向量输入卷积层,得到任一个片段对应的目标向量。卷积层主要用来对中间向量进行卷积操作提取特征。
示例性地,任一个片段对应的第一片段向量为(1,2,3,3,4,5),任一个片段对应的第一位置向量为(0,1,0,0,0,0),则任一个片段对应的中间向量为(1,3,3,3,4,5)。
确定出各个片段对应的目标向量之后,将各个片段对应的目标向量组成第二参考特征向量的过程包括:按照各个片段在第一文本中的位置,对各个片段对应的目标向量进行拼接,得到第二参考特征向量。
可选地,根据权重向量和第二参考特征向量,按照下述公式(3)确定第一文本对应的第一特征向量。第一特征向量为考虑到第一文本中包括的各个片段的重要程度之后得到的用于表征第一文本的语种的向量。
Z=H*W=(W1Q1,W2Q2,W3Q3,…,WNQN) 公式(3)
在上述公式(3)中,Z为第一文本对应的第一特征向量,H为第二参考特征向量,W为权重向量,权重向量为(W1,W2,W3,…,WN),第二参考特征向量为(Q1,Q2,Q3,…,QN)。
需要说明的是,第二文本对应的第二特征向量、第三文本对应的第三特征向量的确定过程与上述第一文本对应的第一特征向量的确定过程是类似的,在此不再一一赘述。
如图5所示为本申请实施例提供的第一文本对应的第一特征向量的确定过程的示意图,在图5中,获取第一文本中的各个片段对应的第一片段向量、各个片段对应的第一位置向量和第一文本的第一长度向量;将第一长度向量输入FC层,得到第一参考特征向量(L向量)。将各个片段对应的第一片段向量和各个片段对应的第一位置向量加和,输入卷积层,得到第二参考特征向量(H向量);将H向量和L向量输入注意力层(attention层),得到第一文本对应的第一特征向量。其中,注意力层可以替换为门。
在步骤203中,根据第一特征向量、第二特征向量和第三特征向量,确定第一损失值。
其中,第一损失值用于表征第一相似度和第二相似度之间的关系,第一相似度为第一文本和第二文本的语种之间的相似度,第二相似度为第一文本和第三文本的语种之间的相似度。第一损失值越小,表示第一相似度和第二相似度之间的差距较大,第一损失值越大,表示第一相似度和第二相似度之间的差距较小。
可选地,根据第一特征向量、第二特征向量和第三特征向量,确定第一损失值的过程包括:根据第一特征向量和第二特征向量,确定第一相似度,第一相似度用于指示第一文本的语种和第二文本的语种之间的相似度;根据第一特征向量和第三特征向量,确定第二相似度,第二相似度用于指示第一文本的语种和第三文本的语种之间的相似度;根据第一相似度和第二相似度,调用目标损失函数,确定第一损失值。其中,目标损失函数可以为任意一个损失函数,本申请实施例对此不进行限定。示例性地,目标损失函数为对数损失(Log-likelihood Loss)函数,log函数也称逻辑斯谛回归损失(Logistic Loss)函数或交叉熵损失(cross-entropy Loss)函数,是一种0-1损失函数。
在一种可能的实现方式中,根据第一特征向量、第二特征向量和第三特征向量,按照下述公式(4)确定第一损失值。
在上述公式(4)中,Loss为第一损失值,ri为第一特征向量,rj为第二特征向量,rk为第三特征向量,τ为模型参数,sim为相似度,2N为第三特征向量的个数。
图6所示为本申请实施例提供的一种第一损失值的确定过程的示意图,如图6所示,通过编码层和池化层,获取第一文本对应的第一特征向量、第二文本对应的第二特征向量和第三文本对应的第三特征向量。进而根据第一特征向量和第二特征向量确定第一相似度、根据第一特征向量和第三特征向量确定第二相似度,根据第一相似度和第二相似度确定第一损失值。
在步骤204中,基于第一损失值大于损失阈值,对初始语种识别模型进行更新,得到目标语种识别模型。
其中,目标语种识别模型用于识别文本对应的语种。损失阈值基于经验进行设置,或者根据实施环境进行调整,本申请实施例对此不进行限定。示例性地,损失阈值为0.8。
可选地,基于第一损失值大于损失阈值,对初始语种识别模型进行更新,得到目标语种识别模型的过程包括:基于第一损失值大于损失阈值,对初始语种识别模型进行更新,得到中间语种识别模型;调用中间语种识别模型,获取第一文本对应的第一中间向量、第二文本对应的第二中间向量和第三文本对应的第三中间向量,第一中间向量、第二中间向量和第三中间向量分别表征第一文本、第二文本和第三文本的语种,各个中间向量基于各个文本包括的各个片段的片段向量、各个文本包括的各个片段的位置向量以及各个文本的长度向量确定;根据第一中间向量、第二中间向量和第三中间向量,确定第二损失值,第二损失值用于表征第一相似度与第二相似度之间的关系;基于第二损失值不大于损失阈值,将中间语种识别模型作为目标语种识别模型。基于第二损失值仍大于损失阈值,则继续对中间语种识别模型进行更新,直至基于更新得到的语种识别模型对第一文本、第二文本、第三文本进行处理,得到各个文本对应的向量,基于各个文本对应的向量确定的损失值不大于损失阈值,将更新得到的语种识别模型作为目标语种识别模型。
可选地,基于第一损失值大于损失阈值,对初始语种识别模型进行更新,得到中间语种识别模型的过程包括:基于第一损失值大于损失阈值,对初始语种识别模型中的对比学习模块包括的参数进行更新,得到中间语种识别模型。
上述方法确定的各个文本对应的特征向量是基于文本包括的各个片段的片段向量、各个文本包括的各个片段的位置向量以及各个文本的长度向量所确定的,考虑的因素较多,使得文本对应的特征向量与文本的匹配度更高,能够更好的表征文本。且由于文本对应的特征向量与文本的匹配度较高,通过各个文本对应的特征向量确定的损失值的准确性也较高,进而使得基于损失值确定的目标语种识别模型的识别准确性也较高。
此外,由于第一文本的语种和第二文本的语种相同,第一文本的语种和第三文本的语种不同,因此,根据第一文本、第二文本和第三文本分别对应的特征向量对初始语种识别模型进行更新,得到的目标语种识别模型能够拉近相同语种之间的距离,拉远不同语种之间的距离,从而使得目标语种识别模型的语种识别的准确性更高,语种识别的效果更好。
本申请实施例提供了一种语种识别方法,该方法可应用于上述图1所示的实施环境。该语种识别方法由计算机设备执行,该计算机设备可以是终端设备101,也可以是服务器102,本申请实施例对此不进行限定。以图7所示的本申请实施例提供的一种语种识别方法的流程图为例,该方法包括下述步骤701至步骤703。
在步骤701中,获取待进行语种识别的目标文本和目标语种识别模型,目标语种识别模型通过上述图2所示的实施例提供的语种识别模型的获取方法获取到。
本申请实施例对目标文本的获取方式不进行限定。示例性地,有下述四种获取目标文本的方式。
方式一、计算机设备的存储空间中存储有多个待进行语种识别的候选文本,在计算机设备的存储空间中随机确定一个候选文本作为目标文本。
示例性地,计算机设备的存储空间中存储有三条候选文本,在三条候选文本中随机确定一条候选文本作为目标文本。
方式二、将用户输入的文本作为目标文本。
可选地,显示文本输入框和确认控件,文本输入框用于用户输入文本,响应于针对确认控件的操作指令,计算机设备检测文本输入框中是否存在内容,基于文本输入框中存在内容,计算机设备将文本输入框中存在的内容作为目标文本。
方式三、从浏览器中确定一个文本作为目标文本。
方式四、获取目标语音,对目标语音进行转换,得到目标语音对应的文本,将目标语音对应的文本作为目标文本。
本申请实施例对目标语音进行转换的方式不进行限定。可选地,计算机设备中安装和运行有用于语音转文字的应用程序,调用该应用程序对目标语音进行转换,得到目标语音对应的文本。
其中,该应用程序可以是任意类型的应用程序,该应用程序可以是一个需要下载安装的应用程序,也可以是指依赖宿主程序运行的嵌入型程序,如小程序,本申请实施例对此不进行限定。嵌入型程序是一种基于编程语言开发完成、依赖于宿主程序运行的应用程序。嵌入型程序不需要下载安装,只需要在宿主程序中动态加载即可运行。用户可以通过搜索、扫一扫等方式找到自己所需要的嵌入型程序,点开即可应用,用完关闭后不会占用终端的内存,十分方便。
需要说明的是,可以选择上述任一种方式获取目标文本,本申请实施例对此不进行限定。
在步骤702中,调用目标语种识别模型获取目标文本对应的目标特征向量,目标特征向量用于表征目标文本的语种。
可选地,目标特征向量基于目标文本包括的各个片段的片段向量、目标文本包括的各个片段的位置向量以及目标文本的长度向量确定。调用目标语种识别模型,获取目标文本对应的目标特征向量的过程包括:调用目标语种识别模型获取目标文本对应的目标文本特征向量,目标文本特征向量中包括目标文本的目标长度向量、目标文本中的各个片段对应的目标片段向量和目标文本中的各个片段对应的目标位置向量,各个片段中包括的文字的数量相同,且不大于目标文本的总字数。根据目标长度向量、各个片段对应的目标片段向量和各个片段对应的目标位置向量,确定目标文本对应的目标特征向量。
其中,调用目标语种识别模型,获取目标文本对应的目标文本特征向量的过程与上述步骤202中调用初始语种识别模型,获取第一文本对应的第一文本特征向量的过程类似,根据目标长度向量、各个片段对应的目标片段向量和各个片段对应的目标位置向量,确定目标文本对应的目标特征向量的过程与上述步骤202中根据第一长度向量、各个片段对应的第一片段向量和各个片段对应的第一位置向量,确定第一文本对应的第一特征向量的过程类似,在此均不再进行赘述。
在步骤703中,根据目标特征向量,确定目标文本对应的语种。
在一种可能的实现方式中,根据目标特征向量,获取目标文本对应的语种的过程包括:目标语种识别模型中存在各个语种对应的语种特征向量,确定目标特征向量分别和各个语种特征向量之间的相似度,将与目标特征向量的相似度满足相似要求的语种特征向量对应的语种作为目标文本对应的语种。
其中,与目标特征向量的相似度满足相似要求的语种特征向量是指与目标特征向量的相似度最高的语种特征向量。
上述方法中获取到的目标语种识别模型的识别准确性较高,识别效果较高,因此,采用识别准确性较高、识别效果较好的目标语种识别模型对目标文本进行识别,使得得到的目标文本对应的语种的准确性较高。
图8所示为本申请实施例提供的一种语种识别方法的流程图。该方法包括训练阶段和预测阶段。在训练阶段,将标注文本(标注有语种的文本)送入对比学习模块,进行特征向量的预训练,这一步主要目的是从特征向量层拉开相似语言之间的距离,对比学习模块的输入是标注有语种的文本,输入的是预训练好的文本对应的特征向量。通过对比学习模块,获取到文本对应的特征向量,基于文本对应的特征向量进行分类模型的训练,本模块的输入是文本对应的特征向量,输出是分类模型,以便预测文本对应的语种。
在预测阶段,对于大量的未标注文本(未标注有语种的文本),通过训练阶段得到的模型进行预测,进而得到文本对应的语种。
图9是本申请实施例提供的一种语种识别提升曲线图。由图9可知,基线模型的识别准确率为0.5,预处理模型的识别准确率为0.64,挖掘低频模型的识别准确率为0.72,数据增强模型的识别准确率为0.78,对比学习模型的识别准确率为0.81。
如下述表1为本申请实施例提供的各种语言识别模型在各种语种上的识别准确率。
表1
由上述表1可知,基线模型在英文上的识别准确率为0.47,在印尼语上的识别准确率为0.73,在意大利语上的识别准确率为0.29,在德语上的识别准确率为0.75,在波斯语上的识别准确率为0.46,在荷兰语上的识别准确率为0.33,基线模型的平均识别准确率为0.5。其他模型在各个语种上的识别准确率和平均之别准确率见上述表1所示,在此不再进行赘述。
需要说明的是,预处理模型的平均识别准确率相较于基线模型的平均识别准确率提高了0.14。挖掘低频模型的平均识别准确率相较于预处理模型的平均识别准确率提高了0.086。数据增强模型的平均识别准确率相较于挖掘低频模型的平均识别准确率提高了0.062。对比学习模型的平均识别准确率相较于数据增强模型的平均识别准确率提高了0.023。
图10所示为本申请实施例提供的一种语种识别模型的获取装置的结构示意图,如图10所示,该装置包括:
获取模块1001,用于获取第一文本、第二文本、第三文本和初始语种识别模型,第一文本和第二文本的语种相同,第一文本和第三文本的语种不同;
获取模块1001,还用于调用初始语种识别模型,获取第一文本对应的第一特征向量、第二文本对应的第二特征向量和第三文本对应的第三特征向量,第一特征向量、第二特征向量和第三特征向量分别表征第一文本、第二文本和第三文本的语种,各个文本对应的特征向量基于各个文本包括的各个片段的片段向量、各个文本包括的各个片段的位置向量以及各个文本的长度向量确定;
确定模块1002,用于根据第一特征向量、第二特征向量和第三特征向量,确定第一损失值,第一损失值用于表征第一相似度和第二相似度之间的关系,第一相似度为第一文本和第二文本的语种之间的相似度,第二相似度为第一文本和第三文本的语种之间的相似度;
更新模块1003,用于基于第一损失值大于损失阈值,对初始语种识别模型进行更新,得到目标语种识别模型,目标语种识别模型用于识别文本对应的语种。
在一种可能的实现方式中,获取模块1001,用于调用初始语种识别模型,获取第一文本对应的第一文本特征向量,第一文本特征向量中包括第一文本的第一长度向量、第一文本中的各个片段对应的第一片段向量和第一文本中的各个片段对应的第一位置向量;根据第一长度向量、各个片段对应的第一片段向量和各个片段对应的第一位置向量,确定第一文本对应的第一特征向量。
在一种可能的实现方式中,获取模块1001,用于根据第一长度向量和各个片段对应的第一片段向量,获取权重向量,权重向量中包括各个片段对应的权重,各个片段对应的权重用于表征各个片段的重要程度;根据权重向量、各个片段对应的第一片段向量和各个片段对应的第一位置向量,确定第一文本对应的第一特征向量。
在一种可能的实现方式中,获取模块1001,用于对第一长度向量进行非线性化处理,得到第一参考特征向量;将第一参考特征向量分别和各个片段对应的第一片段向量进行叉乘,得到权重向量。
在一种可能的实现方式中,获取模块1001,用于根据各个片段对应的第一片段向量和各个片段对应的第一位置向量,确定第二参考特征向量,第二参考特征向量用于表征第一文本的语种;将权重向量和第二参考特征向量中位于相同维度的数值相乘,得到第一文本对应的第一特征向量。
在一种可能的实现方式中,获取模块1001,用于根据各个片段对应的第一片段向量和各个片段对应的第一位置向量,确定各个片段对应的目标向量,各个片段对应的目标向量用于表征各个片段;将各个片段对应的目标向量组成第二参考特征向量。
在一种可能的实现方式中,获取模块1001,用于对于各个片段中的任一个片段,将任一个片段对应的第一片段向量和任一个片段对应的第一位置向量中位于相同维度的数值相加,得到任一个片段对应的中间向量;根据任一个片段对应的中间向量,获取任一个片段对应的目标向量。
在一种可能的实现方式中,确定模块1002,用于根据第一特征向量和第二特征向量,确定第一相似度,第一相似度用于指示第一文本的语种和第二文本的语种之间的相似度;根据第一特征向量和第三特征向量,确定第二相似度,第二相似度用于指示第一文本的语种和第三文本的语种之间的相似度;根据第一相似度和第二相似度,调用目标损失函数,确定第一损失值。
在一种可能的实现方式中,更新模块1003,用于基于第一损失值大于损失阈值,对初始语种识别模型进行更新,得到中间语种识别模型;调用中间语种识别模型,获取第一文本对应的第一中间向量、第二文本对应的第二中间向量和第三文本对应的第三中间向量,第一中间向量、第二中间向量和第三中间向量分别表征第一文本、第二文本和第三文本的语种;根据第一中间向量、第二中间向量和第三中间向量,确定第二损失值;基于第二损失值不大于损失阈值,将中间语种识别模型作为目标语种识别模型。
上述装置确定的各个文本对应的特征向量是基于文本包括的各个片段的片段向量、各个文本包括的各个片段的位置向量以及各个文本的长度向量所确定的,考虑的因素较多,使得文本对应的特征向量与文本的匹配度更高,能够更好的表征文本。且由于文本对应的特征向量与文本的匹配度较高,通过各个文本对应的特征向量确定的损失值的准确性也较高,进而使得基于损失值确定的目标语种识别模型的识别准确性也较高。
此外,由于第一文本的语种和第二文本的语种相同,第一文本的语种和第三文本的语种不同,因此,根据第一文本、第二文本和第三文本分别对应的特征向量对初始语种识别模型进行更新,得到的目标语种识别模型能够拉近相同语种之间的距离,拉远不同语种之间的距离,从而使得目标语种识别模型的语种识别的准确性更高,语种识别的效果更好。
图11所示为本申请实施例提供的一种语种识别装置的结构示意图,如图11所示,该装置包括:
获取模块1101,用于获取待进行语种识别的目标文本和目标语种识别模型,目标语种识别模型通过图10所示的语种识别模型的获取装置获取到;
获取模块1101,还用于调用目标语种识别模型获取目标文本对应的目标特征向量,目标特征向量用于表征目标文本的语种,目标特征向量基于目标文本包括的各个片段的片段向量、目标文本包括的各个片段的位置向量以及目标文本的长度向量确定;
确定模块1102,用于根据目标特征向量,确定目标文本对应的语种。
在一种可能的实现方式中,获取模块1101,用于调用目标语种识别模型获取目标文本对应的目标文本特征向量,目标文本特征向量中包括目标文本的目标长度向量、目标文本中的各个片段对应的目标片段向量和目标文本中的各个片段对应的目标位置向量;根据目标长度向量、各个片段对应的目标片段向量和各个片段对应的目标位置向量,确定目标文本对应的目标特征向量。
上述装置中获取到的目标语种识别模型的识别准确性较高,识别效果较高,因此,采用识别准确性较高、识别效果较好的目标语种识别模型对目标文本进行识别,使得得到的目标文本对应的语种的准确性较高。
应理解的是,上述提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图12示出了本申请一个示例性实施例提供的终端设备1200的结构框图。该终端设备1200可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端设备1200还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端设备1200包括有:处理器1201和存储器1202。
处理器1201可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1201可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1201可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1201还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1202可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1202中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1201所执行以实现本申请图2所示的方法实施例提供的语种识别模型的获取方法,和/或,以实现本申请图7所示的方法实施例提供的语种识别方法。
在一些实施例中,终端设备1200还可选包括有:外围设备接口1203和至少一个外围设备。处理器1201、存储器1202和外围设备接口1203之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1203相连。具体地,外围设备包括:射频电路1204、显示屏1205、摄像头组件1206、音频电路1207和电源1209中的至少一种。
外围设备接口1203可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1201和存储器1202。在一些实施例中,处理器1201、存储器1202和外围设备接口1203被集成在同一芯片或电路板上;在一些其他实施例中,处理器1201、存储器1202和外围设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1204用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1204包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1204可以通过至少一种无线通信协议来与其它终端设备进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1204还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1205用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1205是触摸显示屏时,显示屏1205还具有采集在显示屏1205的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1201进行处理。此时,显示屏1205还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1205可以为一个,设置在终端设备1200的前面板;在另一些实施例中,显示屏1205可以为至少两个,分别设置在终端设备1200的不同表面或呈折叠设计;在另一些实施例中,显示屏1205可以是柔性显示屏,设置在终端设备1200的弯曲表面上或折叠面上。甚至,显示屏1205还可以设置成非矩形的不规则图形,也即异形屏。显示屏1205可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1206用于采集图像或视频。可选地,摄像头组件1206包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端设备1200的前面板,后置摄像头设置在终端设备1200的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1206还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1207可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1201进行处理,或者输入至射频电路1204以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端设备1200的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1201或射频电路1204的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1207还可以包括耳机插孔。
电源1209用于为终端设备1200中的各个组件进行供电。电源1209可以是交流电、直流电、一次性电池或可充电电池。当电源1209包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端设备1200还包括有一个或多个传感器1210。该一个或多个传感器1210包括但不限于:加速度传感器1211、陀螺仪传感器1212、压力传感器1213、光学传感器1215以及接近传感器1216。
加速度传感器1211可以检测以终端设备1200建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1211可以用于检测重力加速度在三个坐标轴上的分量。处理器1201可以根据加速度传感器1211采集的重力加速度信号,控制显示屏1205以横向视图或纵向视图进行用户界面的显示。加速度传感器1211还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1212可以检测终端设备1200的机体方向及转动角度,陀螺仪传感器1212可以与加速度传感器1211协同采集用户对终端设备1200的3D动作。处理器1201根据陀螺仪传感器1212采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1213可以设置在终端设备1200的侧边框和/或显示屏1205的下层。当压力传感器1213设置在终端设备1200的侧边框时,可以检测用户对终端设备1200的握持信号,由处理器1201根据压力传感器1213采集的握持信号进行左右手识别或快捷操作。当压力传感器1213设置在显示屏1205的下层时,由处理器1201根据用户对显示屏1205的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
光学传感器1215用于采集环境光强度。在一个实施例中,处理器1201可以根据光学传感器1215采集的环境光强度,控制显示屏1205的显示亮度。具体地,当环境光强度较高时,调高显示屏1205的显示亮度;当环境光强度较低时,调低显示屏1205的显示亮度。在另一个实施例中,处理器1201还可以根据光学传感器1215采集的环境光强度,动态调整摄像头组件1206的拍摄参数。
接近传感器1216,也称距离传感器,通常设置在终端设备1200的前面板。接近传感器1216用于采集用户与终端设备1200的正面之间的距离。在一个实施例中,当接近传感器1216检测到用户与终端设备1200的正面之间的距离逐渐变小时,由处理器1201控制显示屏1205从亮屏状态切换为息屏状态;当接近传感器1216检测到用户与终端设备1200的正面之间的距离逐渐变大时,由处理器1201控制显示屏1205从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图12中示出的结构并不构成对终端设备1200的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图13为本申请实施例提供的服务器的结构示意图,该服务器1300可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(Central Processing Units,CPU)1301和一个或多个的存储器1302,其中,该一个或多个存储器1302中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器1301加载并执行以实现上述图2所示的方法实施例提供的语种识别模型的获取方法,和/或,以实现上述图7所示的方法实施例提供的语种识别方法。当然,该服务器1300还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器1300还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,该存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以使计算机实现上述图2所示的方法实施例提供的语种识别模型的获取方法,和/或,以实现上述图7所示的方法实施例提供的语种识别方法。
可选地,上述计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-OnlyMemory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品中存储有至少一条计算机指令,该至少一条计算机指令由处理器加载并执行,以使计算机实现上述图2所示的方法实施例提供的语种识别模型的获取方法,和/或,以实现上述图7所示的方法实施例提供的语种识别方法。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的文本都是在充分授权的情况下获取的。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种语种识别模型的获取方法,其特征在于,所述方法包括:
获取第一文本、第二文本、第三文本和初始语种识别模型,所述第一文本和所述第二文本的语种相同,所述第一文本和所述第三文本的语种不同;
调用所述初始语种识别模型,获取所述第一文本对应的第一特征向量、所述第二文本对应的第二特征向量和所述第三文本对应的第三特征向量,所述第一特征向量、所述第二特征向量和所述第三特征向量分别表征所述第一文本、所述第二文本和所述第三文本的语种,各个文本对应的特征向量基于所述各个文本包括的各个片段的片段向量、所述各个文本包括的各个片段的位置向量以及所述各个文本的长度向量确定;
根据所述第一特征向量、所述第二特征向量和所述第三特征向量,确定第一损失值,所述第一损失值用于表征第一相似度和第二相似度之间的关系,所述第一相似度为所述第一文本和所述第二文本的语种之间的相似度,所述第二相似度为所述第一文本和所述第三文本的语种之间的相似度;
基于所述第一损失值大于损失阈值,对所述初始语种识别模型进行更新,得到目标语种识别模型,所述目标语种识别模型用于识别文本对应的语种。
2.根据权利要求1所述的方法,其特征在于,所述调用所述初始语种识别模型,获取所述第一文本对应的第一特征向量,包括:
调用所述初始语种识别模型,获取所述第一文本对应的第一文本特征向量,所述第一文本特征向量中包括所述第一文本的第一长度向量、所述第一文本中的各个片段对应的第一片段向量和所述第一文本中的各个片段对应的第一位置向量;
根据所述第一长度向量、所述各个片段对应的第一片段向量和所述各个片段对应的第一位置向量,确定所述第一文本对应的第一特征向量。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一长度向量、所述各个片段对应的第一片段向量和所述各个片段对应的第一位置向量,确定所述第一文本对应的第一特征向量,包括:
根据所述第一长度向量和所述各个片段对应的第一片段向量,获取权重向量,所述权重向量中包括所述各个片段对应的权重,所述各个片段对应的权重用于表征所述各个片段的重要程度;
根据所述权重向量、所述各个片段对应的第一片段向量和所述各个片段对应的第一位置向量,确定所述第一文本对应的第一特征向量。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一长度向量和所述各个片段对应的第一片段向量,获取权重向量,包括:
对所述第一长度向量进行非线性化处理,得到第一参考特征向量;
将所述第一参考特征向量分别和所述各个片段对应的第一片段向量进行叉乘,得到所述权重向量。
5.根据权利要求3所述的方法,其特征在于,所述根据所述权重向量、所述各个片段对应的第一片段向量和所述各个片段对应的第一位置向量,确定所述第一文本对应的第一特征向量,包括:
根据所述各个片段对应的第一片段向量和所述各个片段对应的第一位置向量,确定第二参考特征向量,所述第二参考特征向量用于表征所述第一文本的语种;
将所述权重向量和所述第二参考特征向量中位于相同维度的数值相乘,得到所述第一文本对应的第一特征向量。
6.根据权利要求5所述的方法,其特征在于,所述根据所述各个片段对应的第一片段向量和所述各个片段对应的第一位置向量,确定第二参考特征向量,包括:
根据所述各个片段对应的第一片段向量和所述各个片段对应的第一位置向量,确定所述各个片段对应的目标向量,所述各个片段对应的目标向量用于表征所述各个片段;
将所述各个片段对应的目标向量组成所述第二参考特征向量。
7.根据权利要求6所述的方法,其特征在于,所述根据所述各个片段对应的第一片段向量和所述各个片段对应的第一位置向量,确定所述各个片段对应的目标向量,包括:
对于所述各个片段中的任一个片段,将所述任一个片段对应的第一片段向量和所述任一个片段对应的第一位置向量中位于相同维度的数值相加,得到所述任一个片段对应的中间向量;
根据所述任一个片段对应的中间向量,获取所述任一个片段对应的目标向量。
8.根据权利要求1至7任一所述的方法,其特征在于,所述根据所述第一特征向量、所述第二特征向量和所述第三特征向量,确定第一损失值,包括:
根据所述第一特征向量和所述第二特征向量,确定第一相似度,所述第一相似度用于指示所述第一文本的语种和所述第二文本的语种之间的相似度;
根据所述第一特征向量和所述第三特征向量,确定第二相似度,所述第二相似度用于指示所述第一文本的语种和所述第三文本的语种之间的相似度;
根据所述第一相似度和所述第二相似度,调用目标损失函数,确定所述第一损失值。
9.根据权利要求1至7任一所述的方法,其特征在于,所述基于所述第一损失值大于损失阈值,对所述初始语种识别模型进行更新,得到目标语种识别模型,包括:
基于所述第一损失值大于所述损失阈值,对所述初始语种识别模型进行更新,得到中间语种识别模型;
调用所述中间语种识别模型,获取所述第一文本对应的第一中间向量、所述第二文本对应的第二中间向量和所述第三文本对应的第三中间向量,所述第一中间向量、所述第二中间向量和所述第三中间向量分别表征所述第一文本、所述第二文本和所述第三文本的语种;
根据所述第一中间向量、所述第二中间向量和所述第三中间向量,确定第二损失值;
基于所述第二损失值不大于所述损失阈值,将所述中间语种识别模型作为所述目标语种识别模型。
10.一种语种识别方法,其特征在于,所述方法包括:
获取待进行语种识别的目标文本和目标语种识别模型,所述目标语种识别模型通过权利要求1至权利要求9任一所述的语种识别模型的获取方法获取到;
调用所述目标语种识别模型获取所述目标文本对应的目标特征向量,所述目标特征向量用于表征所述目标文本的语种,所述目标特征向量基于所述目标文本包括的各个片段的片段向量、所述目标文本包括的各个片段的位置向量以及所述目标文本的长度向量确定;
根据所述目标特征向量,确定所述目标文本对应的语种。
11.根据权利要求10所述的方法,其特征在于,所述调用所述目标语种识别模型获取所述目标文本对应的目标特征向量,包括:
调用所述目标语种识别模型获取所述目标文本对应的目标文本特征向量,所述目标文本特征向量中包括所述目标文本的目标长度向量、所述目标文本中的各个片段对应的目标片段向量和所述目标文本中的各个片段对应的目标位置向量;
根据所述目标长度向量、所述各个片段对应的目标片段向量和所述各个片段对应的目标位置向量,确定所述目标文本对应的目标特征向量。
12.一种语种识别模型的获取装置,其特征在于,所述装置包括:
获取模块,用于获取第一文本、第二文本、第三文本和初始语种识别模型,所述第一文本和所述第二文本的语种相同,所述第一文本和所述第三文本的语种不同;
所述获取模块,还用于调用所述初始语种识别模型,获取所述第一文本对应的第一特征向量、所述第二文本对应的第二特征向量和所述第三文本对应的第三特征向量,所述第一特征向量、所述第二特征向量和所述第三特征向量分别表征所述第一文本、所述第二文本和所述第三文本的语种,各个文本对应的特征向量基于所述各个文本包括的各个片段的片段向量、所述各个文本包括的各个片段的位置向量以及所述各个文本的长度向量确定;
确定模块,用于根据所述第一特征向量、所述第二特征向量和所述第三特征向量,确定第一损失值,所述第一损失值用于表征第一相似度和第二相似度之间的关系,所述第一相似度为所述第一文本和所述第二文本的语种之间的相似度,所述第二相似度为所述第一文本和所述第三文本的语种之间的相似度;
更新模块,用于基于所述第一损失值大于损失阈值,对所述初始语种识别模型进行更新,得到目标语种识别模型,所述目标语种识别模型用于识别文本对应的语种。
13.一种语种识别装置,其特征在于,所述装置包括:
获取模块,用于获取待进行语种识别的目标文本和目标语种识别模型,所述目标语种识别模型通过权利要求12所述的语种识别模型的获取装置获取到;
所述获取模块,还用于调用所述目标语种识别模型获取所述目标文本对应的目标特征向量,所述目标特征向量用于表征所述目标文本的语种,所述目标特征向量基于所述目标文本包括的各个片段的片段向量、所述目标文本包括的各个片段的位置向量以及所述目标文本的长度向量确定;
确定模块,用于根据所述目标特征向量,确定所述目标文本对应的语种。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以使所述计算机设备实现如权利要求1至9任一所述的语种识别模型的获取方法,或者,以使所述计算机设备实现如权利要求10或11所述的语种识别方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以使计算机实现如权利要求1至9任一所述的语种识别模型的获取方法,或者,以使计算机实现如权利要求10或11所述的语种识别方法。
CN202210918596.8A 2022-08-01 2022-08-01 语种识别模型的获取、语种识别方法、装置、设备及介质 Pending CN117556812A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210918596.8A CN117556812A (zh) 2022-08-01 2022-08-01 语种识别模型的获取、语种识别方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210918596.8A CN117556812A (zh) 2022-08-01 2022-08-01 语种识别模型的获取、语种识别方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN117556812A true CN117556812A (zh) 2024-02-13

Family

ID=89811576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210918596.8A Pending CN117556812A (zh) 2022-08-01 2022-08-01 语种识别模型的获取、语种识别方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN117556812A (zh)

Similar Documents

Publication Publication Date Title
CN110110145B (zh) 描述文本生成方法及装置
US20220172737A1 (en) Speech signal processing method and speech separation method
CN110135336B (zh) 行人生成模型的训练方法、装置及存储介质
CN111243668B (zh) 分子结合位点检测方法、装置、电子设备及存储介质
CN110147533B (zh) 编码方法、装置、设备及存储介质
CN110162604B (zh) 语句生成方法、装置、设备及存储介质
CN111753498B (zh) 文本处理方法、装置、设备及存储介质
CN113763933B (zh) 语音识别方法、语音识别模型的训练方法、装置和设备
CN110147532B (zh) 编码方法、装置、设备及存储介质
CN111581958A (zh) 对话状态确定方法、装置、计算机设备及存储介质
CN113763931B (zh) 波形特征提取方法、装置、计算机设备及存储介质
CN114281936A (zh) 分类方法、装置、计算机设备及存储介质
CN110990549B (zh) 获取答案的方法、装置、电子设备及存储介质
CN113569042A (zh) 文本信息分类方法、装置、计算机设备及存储介质
CN117454954A (zh) 模型训练方法、装置、计算机设备及存储介质
CN115168643B (zh) 音频处理方法、装置、设备及计算机可读存储介质
CN116956814A (zh) 标点预测方法、装置、设备及存储介质
CN115130456A (zh) 语句解析、匹配模型的训练方法、装置、设备及存储介质
CN111597823B (zh) 中心词提取方法、装置、设备及存储介质
CN114281937A (zh) 嵌套实体识别模型的训练方法、嵌套实体识别方法及装置
CN114328815A (zh) 文本映射模型的处理方法、装置、计算机设备及存储介质
CN114328948A (zh) 文本标准化模型的训练方法、文本标准化方法及装置
CN117556812A (zh) 语种识别模型的获取、语种识别方法、装置、设备及介质
CN113822084A (zh) 语句翻译方法、装置、计算机设备及存储介质
CN110263171B (zh) 文档分类方法、装置及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination