CN113065333A - 分词语种的识别方法及装置 - Google Patents

分词语种的识别方法及装置 Download PDF

Info

Publication number
CN113065333A
CN113065333A CN202010002031.6A CN202010002031A CN113065333A CN 113065333 A CN113065333 A CN 113065333A CN 202010002031 A CN202010002031 A CN 202010002031A CN 113065333 A CN113065333 A CN 113065333A
Authority
CN
China
Prior art keywords
language
participle
text
detected
monolingual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010002031.6A
Other languages
English (en)
Inventor
李辰
包祖贻
刘恒友
徐光伟
李林琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010002031.6A priority Critical patent/CN113065333A/zh
Publication of CN113065333A publication Critical patent/CN113065333A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种分词语种的识别方法及装置。其中,该方法包括:获取待检测文本,其中,待检测文本中至少包括两种不同语种的语料;将待检测文本的多个分词输入混合语言模型进行分析,得到待检测文本中每个分词至少一个分词的第一评分指标,其中,第一评分指标用于指示每个分词至少一个分词属于目标语种的概率;基于第一评分指标判断每个分词至少一个分词属于第一语种的概率是否大于至少一个分词属于第二语种的概率;确定待检测文本中至少一个分词的前一个分词所属的语种;依据判断结果以及前一个分词所属的语种确定至少一个分词的语言模型;基于确定的语言模型确定至少一个分词的第二评分指标。

Description

分词语种的识别方法及装置
技术领域
本申请涉及智能识别领域,具体而言,涉及一种分词语种的识别方法及装置。
背景技术
随着互联网的发展,全球的数据和信息融合,语言表达已不局限于一种语言,比如以一种主要语言和其他辅助语言(中文为主,英文术语为辅),或者两种语言紧密结合(印度语与英语)。在口语表达中,中国人也越来越多融合了英文的词汇、短语、整句引用的表达,这给语言模型建模提出了新的挑战。对多语种的混合,也叫语码转换或者语码混合,成为自然语言处理一个重要的研究问题。
相关技术中,采用对一种或者多种语言之间进行翻译的机器翻译组件,生成能够接受使用一种或者多种语言的语言学输入的过程。其依赖已有的特定语向的翻译模型,将输入从其语言翻译成锚语言。该方法依赖翻译模型,需要预先使用平行语料训练翻译模型,无法在没有平行语料的语向上使用。同时因为翻译模型和目标语言建模的数据存在差异,该方法处理新词汇(翻译模型无法翻译的词汇)和多义词汇(一个词语在不同上下文下有多种含义,例如苹果是一种水果还是一家公司)的效率较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种分词语种的识别方法及装置,以至少解决现有的翻译模型识别新词汇以及多义词汇的准确度较低的技术问题。
根据本申请实施例的一个方面,提供了一种分词语种的识别方法,包括:获取待检测文本,其中,待检测文本中至少包括两种不同语种的语料;将待检测文本的多个分词输入混合语言模型进行分析,得到待检测文本中至少一个分词的第一评分指标,其中,第一评分指标用于计算至少一个分词属于目标语种的概率。
基于第一评分指标判断至少一个分词属于第一语种的概率是否大于至少一个分词属于第二语种的概率,其中,第二语种包括除第一语种之外的任意一个语种;确定待检测文本中指定分词的所属的语种,其中,指定分词包括待检测文本中与至少一个分词不同的分词;依据判断结果以及指定分词所属的语种确定至少一个分词的语言模型;基于确定的语言模型确定至少一个分词的第二评分指标,其中,第二评分指标用于指示至少一个分词属于目标语种的概率;并基于第二评分指标确定至少一个分词所属的语种。
根据本申请实施例的另一个方面,提供了一种分词语种的识别方法,包括:获取待检测文本,其中,待检测文本中至少包括两种不同语种的语料;将待检测文本的多个分词输入混合语言模型进行分析,得到待检测文本中至少一个分词的第一评分指标,其中,第一评分指标用于指示至少一个分词属于目标语种的概率;基于第一评分指标确定至少一个分词的语言模型;基于确定的语言模型对至少一个分词进行识别。
根据本申请实施例的另一方面,还提供了一种分词语种的识别装置,包括:获取模块,用于获取待检测文本,其中,待检测文本中至少包括两种不同语种的语料;分析模块,用于将待检测文本的多个分词输入混合语言模型进行分析,得到待检测文本中至少一个分词的第一评分指标,其中,第一评分指标用于指示至少一个分词属于目标语种的概率;判断模块,用于基于第一评分指标判断至少一个分词属于第一语种的概率是否大于至少一个分词属于第二语种的概率;第一确定模块,用于确定待检测文本中至少一个分词的前一个分词所属的语种;第二确定模块,依据判断结果以及前一个分词所属的语种确定至少一个分词的语言模型;第三确定模块,基于确定的语言模型确定至少一个分词的第二评分指标。
根据本申请实施例的另一方面,还提供了一种分词语种的确定方法,包括:在展示界面中展示用于触发上传待检测文本的第一控件,其中,待检测文本中至少包括两种不同语种的语料;输出将待检测文本的多个分词输入混合语言模型进行分析后得到的待检测文本中至少一个分词的第一评分指标,其中,第一评分指标用于计算至少一个分词属于目标语种的概率;输出以下至少之一:基于第一评分指标确定的至少一个分词属于不同语种的概率;待检测文本中指定分词的所属的语种,其中,指定分词包括待检测文本中与至少一个分词不同的分词;其中,概率以及指定分词所属的语种用于确定至少一个分词对应的语言模型;输出基于语言模型确定的至少一个分词的第二评分指标,输出依据第二评分指标确定的至少一个分词所属的语种,其中,第二评分指标用于指示至少一个分词属于目标语种的概率。
根据本申请实施例的另一方面,还提供了一种分词语种的识别方法,包括:在用户端设备的展示界面中展示用于上传待检测文本的第三控件,其中,待检测文本中至少包括两种不同语种的语料;在展示界面中展示后台设备输出的待检测文本的多个分词;在展示界面中展示依据混合语言模型对至少一个分词进行分析后得到的第一评分指标,其中,第一评分指标用于计算至少一个分词属于目标语种的概率;在展示界面中展示基于第一评分指标确定的不同语种的概率,以及待检测文本中指定分词的所属的语种,其中,指定分词包括待检测文本中与至少一个分词不同的分词;其中,概率以及指定分词所属的语种用于确定至少一个分词对应的语言模型;在展示界面中展示基于语言模型确定的至少一个分词的第二评分指标,以及依据第二评分指标确定的至少一个分词所属的语种,其中,第二评分指标用于指示至少一个分词属于目标语种的概率。
根据本申请实施例的另一个方面,提供了一种分词语种的识别方法,包括:获取待检测文本,其中,待检测文本中至少包括两种不同语种的语料;获取待检测文本中各个语种出现的概率;基于概率确定待检测文本中至少一个分词对应的语言模型;基于语言模型对至少一个分词进行评估,得到评分指标,其中,该评分指标用于指示至少一个分词属于目标语种的概率。
根据本申请实施例的另一个方面,提供一种模型训练方法,包括:获取多个语种的单语语料;确定多个语种的单语语料中指定字符占比大于预设阈值的目标单语语料,其中,指定字符占比为单语语料中与第一语种不同的第二语种的字符在单语语料中的比例,其中,第一语种的语料在单语语料中的比例大于第二语种的字符在单语语料中的比例;基于目标单语语料和多个语种的单语语料进行预处理,得到目标混合语料;采用目标混合语料中的单语语料训练单语语言模型,得到与第一语种对应的第一单语语言模型和与第二语种对应的第二单语语言模型;采用目标混合语料中的混合语料训练,得到混合语言模型,其中,混合语料包括第一语种的语料和第二语种的语料。
在本申请实施例中,采用获取待检测文本,其中,待检测文本中至少包括两种不同语种的语料;将待检测文本的多个分词输入混合语言模型进行分析,得到待检测文本中至少一个分词的第一评分指标,其中,第一评分指标用于指示至少一个分词属于目标语种的概率;基于第一评分指标判断至少一个分词属于第一语种的概率是否大于至少一个分词属于第二语种的概率;确定待检测文本中至少一个分词的指定分词所属的语种;依据判断结果以及指定分词所属的语种确定至少一个分词的语言模型;基于确定的语言模型确定至少一个分词的第二评分指标的方式,通过将待检测文本的多个分词输入混合语言模型进行分析,获取待检测文中至少一个分词的第一评分指标,根据第一评分指标确定各个分词对应的语言模型的目的,从而实现了基于混合语言模型以及至少一个分词对应的语言模型的选择,提高文本的识别准确度的技术效果,进而解决了现有的翻译模型识别新词汇以及多义词汇的准确度较低的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种计算设备的硬件结构框图;
图2a是根据本申请实施例的一种可选的分词语种的识别方法的流程示意图;
图2b是根据本申请实施例的一种可选的分词语种的识别方法的应用场景示意图;
图3是根据本申请实施例一的可选的分词语种的识别方法的流程图;
图4是根据本申请实施例的一种可选的分词语种的识别方法的流程示意图;
图5是根据本申请实施例的一种可选的分词语种的识别装置的结构示意图;
图6是根据本申请实施例的一种可选的计算机设备的结构示意图;
图7是根据本申请实施例的一种分词语种的确定方法的流程图;
图8是根据本申请实施例的另一种分词语种的识别方法的流程图;
图9是根据本申请实施例的一种模型训练方法的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
语言模型Language Model(LM):语言模型是一种机器学习模型,用于建模一段连续序列的概率分布的模型。
语码转换Code-Switch(CS):文字从一种语言形式转化成另一种语言形式。
语码混合Code-Mix(CM):渗杂两种语言甚至多种语言变体和语码。
字节对编码Byte-pair Encoding(BPE):对双语词汇使用BPE算法进行联合编码,可以获得更小的词表。
实施例1
根据本申请实施例,还提供了一种分词语种的识别方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算设备或者类似的运算装置中执行。图1示出了一种用于实现分词语种的识别方法的计算设备(或移动设备)的硬件结构框图。如图1所示,计算设备10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算设备10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算设备10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中的分词语种的识别方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的分词语种的识别方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输模块106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备10的通信供应商提供的无线网络。在一个实例中,传输模块106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算设备10(或移动设备)的用户界面进行交互。
在上述运行环境下,本申请提供了如图2a所示的分词语种的识别方法。图2a是根据本申请实施例一的分词语种的识别方法的流程图,该方法包括以下处理流程:
步骤S202,获取待检测文本,其中,待检测文本中至少包括两种不同语种的语料。
可选地,待检测文本为语言模型预测的混合文本T=(t_1,t_2,...t_n):文本T可以由n个BPE片段组成。混合文本为至少包括两种不同语种的语料的文本。
步骤S204,将待检测文本的多个分词输入混合语言模型进行分析,得到待检测文本中至少一个分词的第一评分指标,其中,第一评分指标用于计算至少一个分词属于目标语种的概率。
可选地,混合语言模型可以为图3中的步骤S314中的M_ab:使用M_ab对文本中第t个BPE片段进行语言模型打分P(t_i|t_i-1),其中,分数P(t_i|t_i-1)即为第一评价指标。
步骤S206,基于第一评分指标判断至少一个分词属于第一语种的概率是否大于至少一个分词属于第二语种的概率,其中,第二语种包括除第一语种之外的任意一个语种。在一个实施例中,待检测文本中可以包括多个语种,例如:“我有一个joli和lovely doll”包括三个语种,其中,“我有一个”属于中文,“joli”为法文,“lovely doll”为英文。也就是说,第一语种为中文时,第二语种可以为法文或英文。
例如:图3中的步骤S316,判断语言模型概率中a语种的概率是否大于b语种;判断语言模型概率中a语种的概率是否大于b语种可以为:判断各个分词属于a语种的概率是否大于属于b语种的概率。
步骤S208,确定待检测文本中指定分词所属的语种,其中,上述指定分词包括但不限于待检测文件中与上述至少一个分词不同的分词,例如,该指定分词包括:待检测文本中至少一个分词的前一个分词,其中,该前一个分词是指在待检测文本中按照预设排列顺序排列的多个分词中,位于当前分词(即上述至少一个分词)前面的一个分词;又例如,上述指定分词还可以包括:至少一个分词的前面的第N个分词,N大于1。
步骤S210,依据判断结果以及前一个分词所属的语种确定至少一个分词的语言模型。
步骤S212,基于确定的语言模型确定至少一个分词的第二评分指标,其中,第二评分指标用于指示至少一个分词属于目标语种的概率;并基于第二评分指标确定至少一个分词所属的语种。
将待检测文本的多个分词输入混合语言模型进行分析之前,上述方法还需执行以下过程:获取多个语种的单语语料;获取多语种的目标混合语料;采用目标混合语料中的单语语料训练单语语言模型,得到与第一语种对应的第一单语语言模型和与第二语种对应的第二单语语言模型;采用目标混合语料对预设混合语言模型进行训练,得到混合语言模型,其中,目标混合语料包括第一语种的语料和第二语种的语料。具体地,上述过程可以表现为步骤S2042至步骤S2048所示的实现过程:
步骤S2042,获取多个语种的单语语料。
可选地,获取多个语种的单语语料D_a和D_b,例如:分别获取中文和英文的语料。中文数据如百度百科、人民日报新闻等,作为D_a数据。英文数据如维基百科、美联社新闻、电影字幕等中的数据,作为D_b数据。
例如图3中的步骤S302,获取多语种的单语语料D_a和D_b<src,tgt=””></src,>。
步骤S2044,确定多个语种的单语语料中指定字符占比大于预设阈值的目标单语语料,其中,指定字符占比为单语语料中与第一语种不同的第二语种的字符在单语语料中的比例,其中,第一语种的语料在单语语料中的比例大于第二语种的字符在单语语料中的比例;从目标单语语料中提取多语种部分的语料,并基于多语种部分的语料确定目标混合语料,其中,多语言部分的语料中至少包括多个语种的语料。
基于上述过程可知,获取的单语语料中可能会有其他语言,第一语种可以为中文,对应中文的单语语料中,可能会有其他语言,当第二语种的字符在单语语料中所在的比例大于预设阈值时,则确认该包含第一语种与第二语种的语料为目标单语语料。
例如图3中的步骤S304,获取多语种的混合语料D_ab,该D_ab则为目标单语语料。
例如:将获取的单语语料中,包含多语言输入的部分根据字符集和占比进行过滤。例如:预设阈值为20%时,当中文对应的单语语料中,若英文指定字符占比>20%,则将该英文字符所在的单语语料作为目标单语语料。
步骤S2046,基于目标单语语料和多个语种的单语语料进行预处理,得到目标混合语料;可选地,基于目标单语语料和多个语种的单语语料进行预处理,得到目标混合语料可以通过以下方式进行实现:对多语种部分的语料进行分词处理,得到多个分词;对多个分词使用字节对编码算法进行处理,得到高频子词;基于高频子词确定多个语种的通用词表,并将通用词表作为目标混合语料。
如图3中的步骤S306,对语料进行预处理,得到处理后的目标混合语料D_a’,D_b’,D_ab’和BPE字典Dic,其中,D_a’、D_b’、D_ab’分别为对D_a、D_b,以及D_ab进行预处理后得到的语料。
步骤S2048,采用目标混合语料中的单语语料训练单语语言模型,得到与第一语种对应的第一单语语言模型和与第二语种对应的第二单语语言模型;采用目标混合语料中的混合语料训练,得到混合语言模型,其中,混合语料包括第一语种的语料和第二语种的语料。
具体地,第一单语语言模型与第二单语语言模型,以及混合语言模型都可以为ngram或者RNNLM语言模型。
可选地,采用目标混合语料中的单语语料训练单语语言模型,得到与第一语种对应的第一单语语言模型和与第二语种对应的第二单语语言模型如图3中的步骤S308,将单语语料训练得到单语语料模型M_a和模型M_b,其中,模型M_a可以为第一单语语言模型,模型M_b可以为第二单语语言模型。
可选地,上述D_a’用于训练模型M_a,D_b’用于训练模型M_b。
可选地,采用目标混合语料中的混合语料训练,得到混合语言模型如图3中的步骤S310,将混合语料训练得到的混合语言模型M_ab。
可选地,D_ab’用于训练模型M_ab。
在本申请的一些可选的实施例中,依据判断结果以及前一个分词所属的语种确定至少一个分词的语言模型,可以通过以下方式进行实现:
在判断结果指示至少一个分词属于第一语种的概率大于属于第二语种的概率,并且至少一个分词的前一个分词属于第一语种时,确定采用第一单语语言模型计算至少一个分词的第二评分指标;
在判断结果指示至少一个分词属于第一语种的概率大于属于第二语种的概率,且至少一个分词的前一个分词属于第二语种时,确定采用第二单语语言模型和混合语言模型对至少一个分词的第二评分指标进行计算;
在判断结果指示至少一个分词属于第一语种的概率小于属于第二语种的概率,且前一个分词属于第一语种时,确定采用第一单语语言模型和混合语言模型对至少一个分词的第二评分指标进行计算;
在判断结果指示至少一个分词属于第一语种的概率小于属于第二语种的概率,且前一个分词属于第二语种时,确定采用第二单语语言模型对至少一个分词的第二评分指标进行计算。
可选地,确定采用第二单语语言模型和混合语言模型对至少一个分词的第二评分指标进行计算,可以通过以下方式进行实现:分别采用第二单语语言模型和混合语言模型计算至少一个分词的初始评分指标;并将采用第二单语语言模型和混合语言模型计算得到的初始评分指标进行加权运算,得到第二评分指标。
可选地,如图3中的步骤S316、步骤S318、步骤S320所示,第一语种可以为a语种,第二语种可以为b语种,当语言模型概率中a语种的概率大于b语种时,则判断当前分词的前一个分词是否属于a语种,若是,则使用M_a作为语言模型打分。
可选地,如图3中的步骤S316、步骤S318、步骤S322所示,第一语种可以为a语种,第二语种可以为b语种,当语言模型概率中a语种的概率大于b语种时,则判断当前分词的前一个分词是否属于a语种,若否,则使用M_b和M_ab的加权分作为该字的语言模型打分。
可选地,如图3中的步骤S316、步骤S324、步骤S326所示,第一语种可以为a语种,第二语种可以为b语种,当语言模型概率中a语种的概率不大于b语种时,则判断当前分词的前一个分词是否属于a语种,若是,则使用M_a和M_ab的加权分作为该字的语言模型打分。
可选地,如图3中的步骤S316、步骤S324、步骤S328所示,第一语种可以为a语种,第二语种可以为b语种,当语言模型概率中a语种的概率不大于b语种时,则判断当前分词的前一个分词是否属于a语种,若否,则使用使用M_b作为语言模型打分。
可选地,将待检测文本的多个分词输入混合语言模型进行分析之前,上述方法还需执行以下步骤:对待检测文本采用BPE算法进行分词处理,得到子词,将子词作为输入混合语言模型的分词。
本申请的方案通过分别训练单语和混合语言的语言模型,减少训练翻译模型对数据的依赖。同时得到的语言模型词汇可以覆盖平行语料中没有覆盖的词汇,对于该部分的语言模型预测更加准确。基于易于获取的单语语料,以及灵活的方式构建用以训练多语言语言模型的混合语料。使用BPE算法构建的词汇,更好的覆盖两种语言的词汇,减少了OOV(out-of-vocabulary)的情况,对于相似语种可以得到具有语义相似度的子词(subword)。通过多语言混合的语言模型打分,作为基准去选择合适的混合方式,得到更加准确的语言模型得分。从而实现了基于混合语言模型以及至少一个分词对应的语言模型的选择,提高文本的识别准确度的技术效果。
为了更好地理解上述实施例,以下结合一个应用场景详细说明:
如图2b所示,用户终端提供运行有用于翻译的应用程序,该应用程序具有图2b所示的翻译界面,该翻译界面中有文本输入框和用于展示翻译结果的翻译结果框,在文本输入框中输入“我有一个joli和lovely doll”后,通过图2b中间的步骤S1确定每个分词所属的语种,其中,步骤S1可以通过图2a所示的方案实现,此处不再赘述;然后通过步骤S2确定与语种对应的语言翻译模型,并基于确定的语言翻译模型对每个分词进行翻译,并输出翻译结果;然后将输出的翻译结果在翻译结果框中进行展示。其中,步骤S1和S2可以由用户终端的后台程序执行,也可以由与用户终端进行通信的服务器执行。
图3是根据本申请实施例一的可选的分词语种的识别方法的流程图,该方法包括以下步骤:
步骤S302,获取多语种的单语语料D_a和D_b<src,tgt=””></src,>;
步骤S304,获取多语种的混合语料D_ab;
步骤S306,对语料进行预处理,得到处理后的混合语料D_a’,D_b’,D_ab’和BPE字典Dic;
步骤S308,将单语语料训练得到单语语料模型M_a和模型M_b;
步骤S310,将混合语料训练得到的混合语言模型M_ab;
步骤S312,获取需要进行语言模型预测的混合文本T=(t_1,t_2,…t_n);
步骤S314,使用M_ab对文本中第t个BPE片段进行语言模型打分P(t_i|t_i-1);
步骤S316,判断语言模型概率中a语种的概率是否大于b语种,若是,则执行步骤S318,若否,则执行步骤S324;
步骤S318,判断前一个词是否为a语种,若是,则执行以下步骤S320,若否,则执行以下步骤S322;
步骤S320,使用M_a作为语言模型打分;
步骤S322,使用M_b和M_ab的加权分作为该字的语言模型打分;
步骤S324,判断前一个词是否为a语种,若是,则执行以下步骤S326,若否,则执行以下步骤S328;
步骤S326,使用M_a和M_ab的加权分作为该字的语言模型打分;
步骤S328,使用M_b作为语言模型打分。
在本申请实施例中,采用获取待检测文本,其中,待检测文本中至少包括两种不同语种的语料;将待检测文本的多个分词输入混合语言模型进行分析,得到待检测文本中至少一个分词的第一评分指标,其中,第一评分指标用于指示至少一个分词属于目标语种的概率;基于第一评分指标判断至少一个分词属于第一语种的概率是否大于至少一个分词属于第二语种的概率;确定待检测文本中至少一个分词的前一个分词所属的语种;依据判断结果以及前一个分词所属的语种确定至少一个分词的语言模型;基于确定的语言模型确定至少一个分词的第二评分指标的方式,通过将待检测文本的多个分词输入混合语言模型进行分析,获取待检测文中至少一个分词的第一评分指标,根据第一评分指标确定各个分词对应的语言模型的目的,从而实现了基于混合语言模型以及至少一个分词对应的语言模型的选择,提高文本的识别准确度的技术效果,进而解决了现有的翻译模型识别新词汇以及多义词汇的准确度较低的技术问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
实施例2
根据本申请实施例,还提供了一种分词语种的识别方法,如图4所示,图4是根据本申请实施例2的分词语种的识别方法的流程图,该方法包括以下处理流程:
步骤S402,获取待检测文本,其中,待检测文本中至少包括两种不同语种的语料。
可选地,待检测文本为语言模型预测的混合文本T=(t_1,t_2,...t_n):文本T可以由n个BPE片段组成。混合文本为至少包括两种不同语种的语料的文本。
步骤S404,将待检测文本的多个分词输入混合语言模型进行分析,得到待检测文本中至少一个分词的第一评分指标,其中,第一评分指标用于指示至少一个分词属于目标语种的概率。
可选地,混合语言模型可以为图3中的步骤S314中的M_ab,步骤S314为:使用M_ab对文本中第t个BPE片段进行语言模型打分P(t_i|t_i-1),其中,分数P(t_i|t_i-1)即为第一评价指标。
步骤S406,基于第一评分指标确定至少一个分词的语言模型。
基于第一评分指标确定至少一个分词的语言模型可以通过以下方式进行实现:基于第一评分指标判断至少一个分词属于第一语种的概率是否大于至少一个分词属于第二语种的概率;确定待检测文本中至少一个分词的前一个分词所属的语种;依据判断结果以及前一个分词所属的语种确定至少一个分词的语言模型。
例如:图3中的步骤S316,判断语言模型概率中a语种的概率是否大于b语种;判断语言模型概率中a语种的概率是否大于b语种可以为:判断各个分词属于a语种的概率是否大于属于b语种的概率。
将待检测文本的多个分词输入混合语言模型进行分析之前,方法还需执行以下步骤S2042至步骤S2048:
步骤S2042,获取多个语种的单语语料。
可选地,获取多个语种的单语语料D_a和D_b,例如:分别获取中文和英文的语料。中文数据如百度百科、人民日报新闻等,作为D_a数据。英文数据如维基百科、美联社新闻、电影字幕等中的数据,作为D_b数据。
例如图3中的步骤S302,获取多语种的单语语料D_a和D_b<src,tgt=””></src,>。
步骤S2044,确定多个语种的单语语料中指定字符占比大于预设阈值的目标单语语料,其中,指定字符占比为单语语料中与第一语种不同的第二语种的字符在单语语料中的比例,其中,第一语种的语料在单语语料中的比例大于第二语种的字符在单语语料中的比例。
具体的,获取的单语语料中可能会有其他语言,第一语种可以为中文,对应中文的单语语料中,可能会有其他语言,当第二语种的字符在单语语料中所在的比例大于预设阈值时,则确认该包含第一语种与第二语种的语料为目标单语语料。
例如图3中的步骤S304,获取多语种的混合语料D_ab,该D_ab则为目标单语语料。
例如:将获取的单语语料中,包含多语言输入的部分根据字符集和占比进行过滤。例如:预设阈值为20%时,当中文对应的单语语料中,若英文指定字符占比>20%,则将该英文字符所在的单语语料作为目标单语语料。
步骤S2046,基于目标单语语料和多个语种的单语语料进行预处理,得到目标混合语料;可选地,基于目标单语语料和多个语种的单语语料进行预处理,得到目标混合语料可以通过以下方式进行实现:对多个语种的单语语料进行分词处理,得到多个分词;对多个分词使用字节对编码BPE算法进行处理,得到高频子词;基于高频子词确定多个语种的通用词表,并将通用词表作为目标混合语料。
如图3中的步骤S306,对语料进行预处理,得到处理后的目标混合语料D_a’,D_b’,D_ab’和BPE字典Dic,其中,D_a’、D_b’、D_ab’分别为对D_a、D_b,以及D_ab进行预处理后得到的语料。
步骤S2048,采用目标混合语料中的单语语料训练单语语言模型,得到与第一语种对应的第一单语语言模型和与第二语种对应的第二单语语言模型;采用目标混合语料中的混合语料训练,得到混合语言模型,其中,混合语料包括第一语种的语料和第二语种的语料。
具体地,第一单语语言模型与第二单语语言模型,以及混合语言模型都可以为N-Gram语言模型或者基于循环神经网络的语言模型(Neural Network Based LanguageModel,简称为RNNLM)。
其中,N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,称之为汉语语言模型(CLM,Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息,可以实现到汉字的自动转换。汉语语言模型利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,避开了许多汉字对应一个相同的拼音(或笔划串,或数字串)的重码问题。该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。
其中,循环神经网络(Recurrent neural network,简称为RNN)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。RNNLM则是基于RNN的用于语言识别的机器学习模型。
可选地,采用目标混合语料中的单语语料训练单语语言模型,得到与第一语种对应的第一单语语言模型和与第二语种对应的第二单语语言模型如图3中的步骤S308,将单语语料训练得到单语语料模型M_a和模型M_b,其中,模型M_a可以为第一单语语言模型,模型M_b可以为第二单语语言模型。
可选地,上述D_a’用于训练模型M_a,D_b’用于训练模型M_b。
可选地,采用目标混合语料中的混合语料训练,得到混合语言模型如图3中的步骤S310,将混合语料训练得到的混合语言模型M_ab。
可选地,D_ab’用于训练模型M_ab。
在本申请的一些可选的实施例中,由于语言模型的识别规则是从前到后的,因此,上述指定分词为位于当前分词(即上述至少一个分词)前方的分词,此时,上述指定分词包括但不限于:上述至少一个分词的前一个分词,或者,上述至少一个分词前面的第N个分词(N大于1),对于后者,N可以取值为2、3、4等中的任意一个。
在本申请的一些实施例中,为了保证识别结果的准确率,可以将上述至少一个分词的前一个分词作为指定分词,此时可以通过以下方式确定分词的语言模型:
在判断结果指示至少一个分词属于第一语种的概率大于属于第二语种的概率,并且至少一个分词的前一个分词属于第一语种时,确定采用第一单语语言模型计算至少一个分词的第二评分指标;
在判断结果指示至少一个分词属于第一语种的概率大于属于第二语种的概率,且至少一个分词的前一个分词属于第二语种时,确定采用第二单语语言模型和混合语言模型对至少一个分词的第二评分指标进行计算;
在判断结果指示至少一个分词属于第一语种的概率小于属于第二语种的概率,且前一个分词属于第一语种时,确定采用第一单语语言模型和混合语言模型对至少一个分词的第二评分指标进行计算;
在判断结果指示至少一个分词属于第一语种的概率小于属于第二语种的概率,且前一个分词属于第二语种时,确定采用第二单语语言模型对至少一个分词的第二评分指标进行计算。
可选地,确定采用第二单语语言模型和混合语言模型对至少一个分词的第二评分指标进行计算,可以通过以下方式进行实现:分别采用第二单语语言模型和混合语言模型计算至少一个分词的初始评分指标;并将采用第二单语语言模型和混合语言模型计算得到的初始评分指标进行加权运算,得到第二评分指标。
可选地,如图3中的步骤S316、步骤S318、步骤S320所示,第一语种可以为a语种,第二语种可以为b语种,当语言模型概率中a语种的概率大于b语种时,则判断当前分词的前一个分词是否属于a语种,若是,则使用M_a作为语言模型打分。
可选地,如图3中的步骤S316、步骤S318、步骤S322所示,第一语种可以为a语种,第二语种可以为b语种,当语言模型概率中a语种的概率大于b语种时,则判断当前分词的前一个分词是否属于a语种,若否,则使用M_b和M_ab的加权分作为该字的语言模型打分。
可选地,如图3中的步骤S316、步骤S324、步骤S326所示,第一语种可以为a语种,第二语种可以为b语种,当语言模型概率中a语种的概率不大于b语种时,则判断当前分词的前一个分词是否属于a语种,若是,则使用M_a和M_ab的加权分作为该字的语言模型打分。
可选地,如图3中的步骤S316、步骤S324、步骤S328所示,第一语种可以为a语种,第二语种可以为b语种,当语言模型概率中a语种的概率不大于b语种时,则判断当前分词的前一个分词是否属于a语种,若否,则使用M_b作为语言模型打分。
可选地,将待检测文本的多个分词输入混合语言模型进行分析之前,方法还需执行以下步骤:对待检测文本采用BPE算法进行分词处理,得到子词,将子词作为输入混合语言模型的分词。
步骤S408,基于确定的语言模型对至少一个分词进行识别。
实施例3
根据本申请实施例,还提供了一种用于实施上述分词语种的识别方法的分词语种的识别装置,如图5所示,该装置包括:获取模块52、分析模块54、判断模块56、第一确定模块58、第二确定模块510、第三确定模块512;其中:
获取模块52,用于获取待检测文本,其中,待检测文本中至少包括两种不同语种的语料;
分析模块54,用于将待检测文本的多个分词输入混合语言模型进行分析,得到待检测文本中至少一个分词的第一评分指标,其中,第一评分指标用于指示至少一个分词属于目标语种的概率;
判断模块56,用于基于第一评分指标判断至少一个分词属于第一语种的概率是否大于至少一个分词属于第二语种的概率,其中,第二语种包括除第一语种之外的任意一个语种;
第一确定模块58,用于确定待检测文本中指定分词的所属的语种,其中,指定分词包括待检测文本中与至少一个分词不同的分词;
第二确定模块510,用于依据判断结果以及前一个分词所属的语种确定至少一个分词的语言模型;
第三确定模块512,用于基于确定的语言模型确定至少一个分词的第二评分指标,其中,第二评分指标用于指示至少一个分词属于目标语种的概率;并基于第二评分指标确定至少一个分词所属的语种。
将待检测文本的多个分词输入混合语言模型进行分析之前,装置还用于获取多个语种的单语语料;确定多个语种的单语语料中指定字符占比大于预设阈值的目标单语语料,其中,指定字符占比为单语语料中与第一语种不同的第二语种的字符在单语语料中的比例,其中,第一语种的语料在单语语料中的比例大于第二语种的字符在单语语料中的比例;基于目标单语语料和多个语种的单语语料进行预处理,得到目标混合语料;采用目标混合语料中的单语语料训练单语语言模型,得到与第一语种对应的第一单语语言模型和与第二语种对应的第二单语语言模型;采用目标混合语料中的混合语料训练,得到混合语言模型,其中,混合语料包括第一语种的语料和第二语种的语料。
装置还用于对多个语种的单语语料进行分词处理,得到多个分词;对多个分词使用字节对编码BPE算法进行处理,得到高频子词;基于高频子词确定多个语种的通用词表,并将通用词表作为目标混合语料。
第二确定模块510,用于在判断结果指示至少一个分词属于第一语种的概率大于属于第二语种的概率,并且至少一个分词的前一个分词属于第一语种时,确定采用第一单语语言模型计算至少一个分词的第二评分指标;在判断结果指示至少一个分词属于第一语种的概率大于属于第二语种的概率,且至少一个分词的前一个分词属于第二语种时,确定采用第二单语语言模型和混合语言模型对至少一个分词的第二评分指标进行计算;在判断结果指示至少一个分词属于第一语种的概率小于属于第二语种的概率,且前一个分词属于第一语种时,确定采用第一单语语言模型和混合语言模型对至少一个分词的第二评分指标进行计算;在判断结果指示至少一个分词属于第一语种的概率小于属于第二语种的概率,且前一个分词属于第二语种时,确定采用第二单语语言模型对至少一个分词的第二评分指标进行计算。
第二确定模块510用于分别采用第二单语语言模型和混合语言模型计算至少一个分词的初始评分指标;并将采用第二单语语言模型和混合语言模型计算得到的初始评分指标进行加权运算,得到第二评分指标。
将待检测文本的多个分词输入混合语言模型进行分析之前,装置还用于对待检测文本采用BPE算法进行分词处理,得到子词,将子词作为输入混合语言模型的分词。
此处需要说明的是,上述获取模块52、分析模块54、判断模块56、第一确定模块58、第二确定模块510、第三确定模块512分别与实施例1中的步骤S202、步骤S204、步骤S206、步骤S208、步骤S210、步骤S212所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算设备10中。
实施例4
本申请的实施例可以提供一种计算机设备,该计算机设备可以是计算机设备群中的任意一个计算机设备。可选地,在本实施例中,上述计算机设备也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机设备可以执行应用程序的分词语种的识别方法中以下步骤的程序代码:获取待检测文本,其中,待检测文本中至少包括两种不同语种的语料;将待检测文本的多个分词输入混合语言模型进行分析,得到待检测文本中至少一个分词的第一评分指标,其中,第一评分指标用于指示至少一个分词属于目标语种的概率;基于第一评分指标判断至少一个分词属于第一语种的概率是否大于至少一个分词属于第二语种的概率;确定待检测文本中至少一个分词的前一个分词所属的语种;依据判断结果以及前一个分词所属的语种确定至少一个分词的语言模型;基于确定的语言模型确定至少一个分词的第二评分指标。
可选地,图6是根据本申请实施例的一种计算机设备的结构框图。如图6所示,该计算机设备600可以包括:一个或多个(图中仅示出一个)处理器602、存储器604。
其中,存储器604可用于存储软件程序以及模块,如本申请实施例中的分词语种的识别方法和装置对应的程序指令/模块,处理器602通过运行存储在存储器604内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的分词语种的识别方法。存储器604可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器604可进一步包括相对于处理器602远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器602可以通过传输模块调用存储器604存储的信息及应用程序,以执行下述步骤:
获取待检测文本,其中,待检测文本中至少包括两种不同语种的语料;将待检测文本的多个分词输入混合语言模型进行分析,得到待检测文本中至少一个分词的第一评分指标,其中,第一评分指标用于指示至少一个分词属于目标语种的概率;基于第一评分指标判断至少一个分词属于第一语种的概率是否大于至少一个分词属于第二语种的概率;确定待检测文本中至少一个分词的前一个分词所属的语种;依据判断结果以及前一个分词所属的语种确定至少一个分词的语言模型;基于确定的语言模型确定至少一个分词的第二评分指标。
可选地,上述处理器602还可以执行如下步骤的程序代码:获取多个语种的单语语料;确定多个语种的单语语料中指定字符占比大于预设阈值的目标单语语料,其中,指定字符占比为单语语料中与第一语种不同的第二语种的字符在单语语料中的比例,其中,第一语种的语料在单语语料中的比例大于第二语种的字符在单语语料中的比例;基于目标单语语料和多个语种的单语语料进行预处理,得到目标混合语料;采用目标混合语料中的单语语料训练单语语言模型,得到与第一语种对应的第一单语语言模型和与第二语种对应的第二单语语言模型;采用目标混合语料中的混合语料训练,得到混合语言模型,其中,混合语料包括第一语种的语料和第二语种的语料。
可选地,上述处理器602还可以执行如下步骤的程序代码:对多个语种的单语语料进行分词处理,得到多个分词;对多个分词使用字节对编码BPE算法进行处理,得到高频子词;基于高频子词确定多个语种的通用词表,并将通用词表作为目标混合语料。
可选地,上述处理器602还可以执行如下步骤的程序代码:在判断结果指示至少一个分词属于第一语种的概率大于属于第二语种的概率,并且至少一个分词的前一个分词属于第一语种时,确定采用第一单语语言模型计算至少一个分词的第二评分指标;在判断结果指示至少一个分词属于第一语种的概率大于属于第二语种的概率,且至少一个分词的前一个分词属于第二语种时,确定采用第二单语语言模型和混合语言模型对至少一个分词的第二评分指标进行计算;在判断结果指示至少一个分词属于第一语种的概率小于属于第二语种的概率,且前一个分词属于第一语种时,确定采用第一单语语言模型和混合语言模型对至少一个分词的第二评分指标进行计算;在判断结果指示至少一个分词属于第一语种的概率小于属于第二语种的概率,且前一个分词属于第二语种时,确定采用第二单语语言模型对至少一个分词的第二评分指标进行计算。
可选地,上述处理器602还可以执行如下步骤的程序代码:分别采用第二单语语言模型和混合语言模型计算至少一个分词的初始评分指标;并将采用第二单语语言模型和混合语言模型计算得到的初始评分指标进行加权运算,得到第二评分指标。
可选地,上述处理器602还可以执行如下步骤的程序代码:对待检测文本采用BPE算法进行分词处理,得到子词,将子词作为输入混合语言模型的分词。
本领域普通技术人员可以理解,图6所示的结构仅为示意,计算机设备600也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图6其并不对上述电子装置的结构造成限定。例如,计算机设备600还可包括比图6中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图6所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
本申请的实施例还提供了一种处理器,该处理器用于运行以下程序代码:
获取待检测文本,其中,待检测文本中至少包括两种不同语种的语料;将待检测文本的多个分词输入混合语言模型进行分析,得到待检测文本中至少一个分词的第一评分指标,其中,第一评分指标用于指示至少一个分词属于目标语种的概率;基于第一评分指标判断至少一个分词属于第一语种的概率是否大于至少一个分词属于第二语种的概率;确定待检测文本中至少一个分词的前一个分词所属的语种;依据判断结果以及前一个分词所属的语种确定至少一个分词的语言模型;基于确定的语言模型确定至少一个分词的第二评分指标。
本申请的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的分词语种的识别方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算设备群中的任意一个计算设备中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
获取待检测文本,其中,待检测文本中至少包括两种不同语种的语料;将待检测文本的多个分词输入混合语言模型进行分析,得到待检测文本中至少一个分词的第一评分指标,其中,第一评分指标用于指示至少一个分词属于目标语种的概率;基于第一评分指标判断至少一个分词属于第一语种的概率是否大于至少一个分词属于第二语种的概率;确定待检测文本中至少一个分词的前一个分词所属的语种;依据判断结果以及前一个分词所属的语种确定至少一个分词的语言模型;基于确定的语言模型确定至少一个分词的第二评分指标。
实施例5
本实施例提供一种分词语种的确定方法,如图7所示,该方法包括:
步骤S702,在展示界面中展示用于触发上传待检测文本的第一控件,其中,待检测文本中至少包括两种不同语种的语料;
步骤S704,输出将待检测文本的多个分词输入混合语言模型进行分析后得到的待检测文本中至少一个分词的第一评分指标,其中,第一评分指标用于计算至少一个分词属于目标语种的概率;
步骤S706,输出以下至少之一:基于第一评分指标确定的至少一个分词属于不同语种的概率;待检测文本中指定分词的所属的语种,其中,指定分词包括待检测文本中与至少一个分词不同的分词;其中,概率以及指定分词所属的语种用于确定至少一个分词对应的语言模型;
步骤S708,输出基于语言模型确定的至少一个分词的第二评分指标,输出依据第二评分指标确定的至少一个分词所属的语种,其中,第二评分指标用于指示至少一个分词属于目标语种的概率。
在本申请的一些实施例中,可以利用输出的识别结果进行后续的应用,例如,可以人工干预识别结果,对识别错误的识别结果进行纠正;或者,利用识别结果对数据进行标注或者作为训练数据对模型进行训练等;或者,利用输出的识别结果调用相应的语言翻译模型进行翻译或者纠正翻译应用的错误等。
例如,对于识别结果进行纠正的实现过程可以表现为以下实现过程:在展示界面中展示第二控件;在检测到第二控件被触发时,展示用于输入语种类型的编辑界面;通过编辑界面接收用户输入的语种类型,并使用用户输入的语种类型更新至少一个分词所属的语种。
又例如,将识别结果用于纠正翻译应用的错误的翻译过程中时,可以表现为以下实现过程:目标翻译应用调用上述语言模型对待翻译文本进行识别,得到第一识别结果;目标翻译应用利用第一识别结果指示的语种确定相应的语言翻译模型;并利用确定的语言翻译模型对待翻译文本进行翻译;或者
目标翻译应用利用本地的机器学习模型对待翻译文本的语种进行识别,得到第二识别结果;目标翻译应用调用上述语言模型对待翻译文本进行识别,得到第一识别结果获取上述输出的识别结果;目标翻译应用判断第一识别结果和第二识别结果指示的语种是否相同;如果相同,目标翻译应用则调用相应的语言翻译模型对待翻译文本进行翻译;如果不相同,则向用户展示提示信息,该提示信息用于提示用户目前的语种识别出现错误;并向用户展示下一步操作的引导信息,例如,提示用户自行选择所需要的语种,以确定相应的语言翻译模型。
本申请实施例还提供另外一种分词语种的识别方法,该识别方法用于向用户展示语种识别过程中涉及的一些参数,如图8所示,该识别方法包括:
步骤S802,在用户端设备的展示界面中展示用于上传待检测文本的第三控件,其中,待检测文本中至少包括两种不同语种的语料;
步骤S804,在展示界面中展示后台设备输出的待检测文本的多个分词;
步骤S806,在展示界面中展示依据混合语言模型对至少一个分词进行分析后得到的第一评分指标,其中,第一评分指标用于计算至少一个分词属于目标语种的概率;
步骤S808,在展示界面中展示基于第一评分指标确定的不同语种的概率,以及待检测文本中指定分词的所属的语种,其中,指定分词包括待检测文本中与至少一个分词不同的分词;其中,概率以及指定分词所属的语种用于确定至少一个分词对应的语言模型;
步骤S810,在展示界面中展示基于语言模型确定的至少一个分词的第二评分指标,以及依据第二评分指标确定的至少一个分词所属的语种,其中,第二评分指标用于指示至少一个分词属于目标语种的概率。
需要说明的是,本申请实施例中的优选实施方式可以参见实施例1至4中的相关描述,此处不再赘述。
实施例6
本申请实施例还提供一种对语言模型进行训练的方案,具体地,如图9所示,本申请实施例提供的一种模型训练方法,包括:
步骤S902,获取多个语种的单语语料;
步骤S904,确定多个语种的单语语料中指定字符占比大于预设阈值的目标单语语料,其中,指定字符占比为单语语料中与第一语种不同的第二语种的字符在单语语料中的比例,其中,第一语种的语料在单语语料中的比例大于第二语种的字符在单语语料中的比例;
步骤S906,基于目标单语语料和多个语种的单语语料进行预处理,得到目标混合语料;
步骤S908,采用目标混合语料中的单语语料训练单语语言模型,得到与第一语种对应的第一单语语言模型和与第二语种对应的第二单语语言模型;
步骤S910,采用目标混合语料中的混合语料训练,得到混合语言模型,其中,混合语料包括第一语种的语料和第二语种的语料。
需要说明的是,步骤S908和S910的执行顺序是可选的,即可以先执行步骤S908,然后再执行步骤910;或者,先执行步骤S910,然后再执行步骤S908;或者,同时执行步骤S908和S910。
在本申请的一些实施例中,上述预处理过程可以通过以下方式实现,但不限于此:对多个语种的单语语料进行分词处理,得到多个分词;对多个分词使用字节对编码算法进行处理,得到高频子词;基于高频子词确定多个语种的通用词表,并将通用词表作为目标混合语料。
需要说明的是,本申请实施例中的优选实施方式可以参见实施例1至5中的相关描述,此处不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (17)

1.一种分词语种的识别方法,其特征在于,包括:
获取待检测文本,其中,所述待检测文本中至少包括两种不同语种的语料;
将所述待检测文本的多个分词输入混合语言模型进行分析,得到待检测文本中至少一个分词的第一评分指标,其中,所述第一评分指标用于计算所述至少一个分词属于目标语种的概率;
基于所述第一评分指标判断所述至少一个分词属于第一语种的概率是否大于所述至少一个分词属于第二语种的概率,其中,所述第二语种包括除所述第一语种之外的任意一个语种;
确定所述待检测文本中指定分词的所属的语种,其中,所述指定分词包括所述待检测文本中与所述至少一个分词不同的分词;
依据判断结果以及所述指定分词所属的语种确定所述至少一个分词的语言模型;
基于确定的语言模型确定所述至少一个分词的第二评分指标,其中,所述第二评分指标用于指示所述至少一个分词属于目标语种的概率;并基于所述第二评分指标确定所述至少一个分词所属的语种。
2.根据权利要求1所述的方法,其特征在于,所述指定分词包括:所述待检测文本中所述至少一个分词的前一个分词。
3.根据权利要求1所述的方法,其特征在于,将所述待检测文本的多个分词输入混合语言模型进行分析之前,所述方法还包括:
获取多个语种的单语语料;
获取多语种的目标混合语料;
采用所述目标混合语料中的单语语料训练单语语言模型,得到与所述第一语种对应的第一单语语言模型和与所述第二语种对应的第二单语语言模型;采用所述目标混合语料对预设混合语言模型进行训练,得到所述混合语言模型,其中,所述目标混合语料包括所述第一语种的语料和第二语种的语料。
4.根据权利要求3所述的方法,其特征在于,获取多语种的目标混合语料,包括:
确定所述多个语种的单语语料中指定字符占比大于预设阈值的目标单语语料,其中,所述指定指定字符占比为所述多个语种的单语语料中与第一语种不同的第二语种的字符在所述单语语料中的比例,其中,所述第一语种的语料在所述单语语料中的比例大于所述第二语种的字符在所述单语语料中的比例;
从所述目标单语语料中提取多语种部分的语料,并基于所述多语种部分的语料确定所述目标混合语料,其中,所述多语言部分的语料中至少包括多个语种的语料。
5.根据权利要求4所述的方法,其特征在于,基于所述多语种部分的语料确定所述目标混合语料包括:
对所述多语种部分的语料进行分词处理,得到多个分词;对所述多个分词使用字节对编码算法进行处理,得到高频子词;基于所述高频子词确定所述多个语种的通用词表,并将所述通用词表作为所述目标混合语料。
6.根据权利要求3所述的方法,其特征在于,依据判断结果以及所述指定分词所属的语种确定所述至少一个分词的语言模型,包括:
在所述指定分词包括所述待检测文本中所述至少一个分词的前一个分词的情况下,在判断结果指示所述至少一个分词属于第一语种的概率大于属于第二语种的概率,并且所述至少一个分词的前一个分词属于第一语种时,确定采用所述第一单语语言模型计算所述至少一个分词的第二评分指标;
在判断结果指示所述至少一个分词属于第一语种的概率大于属于第二语种的概率,且所述至少一个分词的前一个分词属于第二语种时,确定采用所述第二单语语言模型和所述混合语言模型对所述至少一个分词的第二评分指标进行计算;
在所述判断结果指示所述至少一个分词属于第一语种的概率小于属于第二语种的概率,且所述前一个分词属于第一语种时,确定采用所述第一单语语言模型和所述混合语言模型对所述至少一个分词的第二评分指标进行计算;
在所述判断结果指示所述至少一个分词属于第一语种的概率小于属于第二语种的概率,且所述前一个分词属于第二语种时,确定采用所述第二单语语言模型对所述至少一个分词的第二评分指标进行计算。
7.根据权利要求6所述的方法,其特征在于,确定采用所述第二单语语言模型和所述混合语言模型对所述至少一个分词的第二评分指标进行计算,包括:
分别采用所述第二单语语言模型和所述混合语言模型计算所述至少一个分词的初始评分指标;并将采用所述第二单语语言模型和所述混合语言模型计算得到的初始评分指标进行加权运算,得到所述第二评分指标。
8.根据权利要求1所述的方法,其特征在于,将所述待检测文本的多个分词输入混合语言模型进行分析之前,所述方法还包括:
对所述待检测文本采用字节对编码算法进行分词处理,得到子词,将所述子词作为所述输入所述混合语言模型的分词。
9.一种分词语种的确定方法,其特征在于,包括:
在展示界面中展示用于触发上传待检测文本的第一控件,其中,所述待检测文本中至少包括两种不同语种的语料;
输出将所述待检测文本的多个分词输入混合语言模型进行分析后得到的待检测文本中至少一个分词的第一评分指标,其中,所述第一评分指标用于计算所述至少一个分词属于目标语种的概率;
输出以下至少之一:基于所述第一评分指标确定的所述至少一个分词属于不同语种的概率;所述待检测文本中指定分词的所属的语种,其中,所述指定分词包括所述待检测文本中与所述至少一个分词不同的分词;其中,所述概率以及所述指定分词所属的语种用于确定所述至少一个分词对应的语言模型;
输出基于所述语言模型确定的所述至少一个分词的第二评分指标,输出依据所述第二评分指标确定的所述至少一个分词所属的语种,其中,所述第二评分指标用于指示所述至少一个分词属于目标语种的概率。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
在所述展示界面中展示第二控件;
在检测到所述第二控件被触发时,展示用于输入语种类型的编辑界面;
通过所述编辑界面接收用户输入的语种类型,并使用所述用户输入的语种类型更新所述至少一个分词所属的语种。
11.一种分词语种的识别方法,其特征在于,包括:
在用户端设备的展示界面中展示用于上传待检测文本的第三控件,其中,所述待检测文本中至少包括两种不同语种的语料;
在所述展示界面中展示后台设备输出的所述待检测文本的多个分词;
在所述展示界面中展示依据混合语言模型对至少一个分词进行分析后得到的第一评分指标,其中,所述第一评分指标用于计算所述至少一个分词属于目标语种的概率;
在所述展示界面中展示基于所述第一评分指标确定的所述不同语种的概率,以及所述待检测文本中指定分词的所属的语种,其中,所述指定分词包括所述待检测文本中与所述至少一个分词不同的分词;其中,所述概率以及所述指定分词所属的语种用于确定所述至少一个分词对应的语言模型;
在所述展示界面中展示基于所述语言模型确定的所述至少一个分词的第二评分指标,以及所述依据第二评分指标确定的所述至少一个分词所属的语种,其中,所述第二评分指标用于指示所述至少一个分词属于目标语种的概率。
12.一种分词语种的识别方法,其特征在于,包括:
获取待检测文本,其中,所述待检测文本中至少包括两种不同语种的语料;
获取所述待检测文本中各个语种出现的概率;
基于所述概率确定所述待检测文本中至少一个分词对应的语言模型;
基于所述语言模型对所述至少一个分词进行评估,得到评分指标,其中,该评分指标用于指示所述至少一个分词属于目标语种的概率。
13.一种分词语种的识别方法,其特征在于,包括:
获取待检测文本,其中,所述待检测文本中至少包括两种不同语种的语料;
将所述待检测文本的多个分词输入混合语言模型进行分析,得到待检测文本中至少一个分词的第一评分指标,其中,所述第一评分指标用于指示所述至少一个分词属于目标语种的概率;
基于所述第一评分指标确定所述至少一个分词对应的语言模型;
基于确定的语言模型对所述至少一个分词所属的语种进行识别。
14.一种模型训练方法,其特征在于,包括:
获取多个语种的单语语料;
确定所述多个语种的单语语料中指定字符占比大于预设阈值的目标单语语料,其中,所述指定字符占比为单语语料中与第一语种不同的第二语种的字符在所述单语语料中的比例,其中,所述第一语种的语料在所述单语语料中的比例大于所述第二语种的字符在所述单语语料中的比例;
基于所述目标单语语料和所述多个语种的单语语料进行预处理,得到目标混合语料;
采用所述目标混合语料中的单语语料训练单语语言模型,得到与所述第一语种对应的第一单语语言模型和与所述第二语种对应的第二单语语言模型;采用所述目标混合语料中的混合语料训练,得到所述混合语言模型,其中,所述混合语料包括所述第一语种的语料和第二语种的语料。
15.根据权利要求14所述的方法,其特征在于,基于所述目标单语语料和所述多个语种的单语语料进行预处理,得到目标混合语料包括:
对所述多个语种的单语语料进行分词处理,得到多个分词;对所述多个分词使用字节对编码算法进行处理,得到高频子词;基于所述高频子词确定所述多个语种的通用词表,并将所述通用词表作为所述目标混合语料。
16.一种分词语种的识别装置,其特征在于,包括:
获取模块,用于获取待检测文本,其中,所述待检测文本中至少包括两种不同语种的语料;
分析模块,用于将所述待检测文本的多个分词输入混合语言模型进行分析,得到待检测文本中至少一个分词的第一评分指标,其中,所述第一评分指标用于计算所述至少一个分词属于目标语种的概率;
判断模块,用于基于所述第一评分指标判断所述至少一个分词属于第一语种的概率是否大于所述至少一个分词属于第二语种的概率,其中,所述第二语种包括除所述第一语种之外的任意一个语种;
第一确定模块,用于确定所述待检测文本中指定分词的所属的语种,其中,所述指定分词包括所述待检测文本中与所述至少一个分词不同的分词;
第二确定模块,用于依据判断结果以及前一个分词所属的语种确定所述至少一个分词的语言模型;
第三确定模块,用于基于确定的语言模型确定所述至少一个分词的第二评分指标,其中,所述第二评分指标用于指示所述至少一个分词属于目标语种的概率;并基于所述第二评分指标确定所述至少一个分词所属的语种。
17.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至8中任意一项所述的分词语种的识别方法。
CN202010002031.6A 2020-01-02 2020-01-02 分词语种的识别方法及装置 Pending CN113065333A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010002031.6A CN113065333A (zh) 2020-01-02 2020-01-02 分词语种的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010002031.6A CN113065333A (zh) 2020-01-02 2020-01-02 分词语种的识别方法及装置

Publications (1)

Publication Number Publication Date
CN113065333A true CN113065333A (zh) 2021-07-02

Family

ID=76558207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010002031.6A Pending CN113065333A (zh) 2020-01-02 2020-01-02 分词语种的识别方法及装置

Country Status (1)

Country Link
CN (1) CN113065333A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117236347A (zh) * 2023-11-10 2023-12-15 腾讯科技(深圳)有限公司 交互文本翻译的方法、交互文本的显示方法和相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140067361A1 (en) * 2012-08-28 2014-03-06 Xerox Corporation Lexical and phrasal feature domain adaptation in statistical machine translation
US20170357640A1 (en) * 2016-06-10 2017-12-14 Apple Inc. Multilingual word prediction
CN110147558A (zh) * 2019-05-28 2019-08-20 北京金山数字娱乐科技有限公司 一种翻译语料处理的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140067361A1 (en) * 2012-08-28 2014-03-06 Xerox Corporation Lexical and phrasal feature domain adaptation in statistical machine translation
US20170357640A1 (en) * 2016-06-10 2017-12-14 Apple Inc. Multilingual word prediction
CN110147558A (zh) * 2019-05-28 2019-08-20 北京金山数字娱乐科技有限公司 一种翻译语料处理的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姚亮;洪宇;刘昊;刘乐;姚建民;: "基于语义分布相似度的翻译模型领域自适应研究", 山东大学学报(理学版), no. 07 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117236347A (zh) * 2023-11-10 2023-12-15 腾讯科技(深圳)有限公司 交互文本翻译的方法、交互文本的显示方法和相关装置
CN117236347B (zh) * 2023-11-10 2024-03-05 腾讯科技(深圳)有限公司 交互文本翻译的方法、交互文本的显示方法和相关装置

Similar Documents

Publication Publication Date Title
CN110852087B (zh) 中文纠错方法和装置、存储介质及电子装置
CN110825875B (zh) 文本实体类型识别方法、装置、电子设备和存储介质
CN110532573A (zh) 一种翻译方法和系统
CN114580382A (zh) 文本纠错方法以及装置
CN111950303B (zh) 医疗文本翻译方法、装置及存储介质
CN111310440A (zh) 文本的纠错方法、装置和系统
CN114757176A (zh) 一种获取目标意图识别模型的方法以及意图识别方法
CN115438650B (zh) 融合多源特征的合同文本纠错方法、系统、设备及介质
CN112530404A (zh) 一种语音合成方法、语音合成装置及智能设备
CN113065333A (zh) 分词语种的识别方法及装置
CN110852066A (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN115034209A (zh) 文本分析方法、装置、电子设备以及存储介质
CN114861628A (zh) 训练机器翻译模型的系统、方法、电子设备及存储介质
CN110956034B (zh) 词语的获取方法及装置、商品搜索方法
CN112530406A (zh) 一种语音合成方法、语音合成装置及智能设备
CN110929504A (zh) 语句诊断方法、装置和系统
Shetty et al. An approach to identify Indic languages using text classification and natural language processing
CN113822053A (zh) 一种语法错误检测方法、装置、电子设备及存储介质
CN110929508B (zh) 词向量的生成方法、装置和系统
CN111898387B (zh) 翻译方法及装置、存储介质、计算机设备
CN112101016B (zh) 分词器获得方法、装置及电子设备
KR101288900B1 (ko) 단어의 중의성 해소 방법, 중의성 해소 시스템, 및 이를 이용한 수화 시스템
CN113673702B (zh) 一种预训练语言模型的评测方法、装置以及存储介质
RKDMP et al. Real-Time Sign Language Translator
CN114841174A (zh) 分析对象释义的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination