CN106959943A - 语种识别更新方法及装置 - Google Patents
语种识别更新方法及装置 Download PDFInfo
- Publication number
- CN106959943A CN106959943A CN201610015056.3A CN201610015056A CN106959943A CN 106959943 A CN106959943 A CN 106959943A CN 201610015056 A CN201610015056 A CN 201610015056A CN 106959943 A CN106959943 A CN 106959943A
- Authority
- CN
- China
- Prior art keywords
- languages
- inquiry data
- feature
- stand
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种语种识别更新方法及装置。语种识别更新方法包括:获取语种识别系统对至少一个查询数据进行语种识别输出的结果数据;根据语种识别系统对至少一个查询数据进行语种识别输出的结果数据,对语种识别系统进行更新。本申请通过对语种识别系统进行更新,可以使语种识别系统适应需要识别的查询数据的动态改变,有利于保证语种识别的精准度。
Description
【技术领域】
本申请涉及互联网技术领域,尤其涉及一种语种识别更新方法及装置。
【背景技术】
在国际化的互联网领域,多语言处理是一个重要的技术领域,而语种识别是多语言处理的第一步。只有准确知道要处理的文本是什么语种,才能进行正确的后续处理,例如翻译或搜索等。例如,以大型国际电子商务网站为例,每秒钟会收到上千甚至上万的查询词(query),这些查询词代表了用户的检索购买意图,可能是任何一种语言。为了准确理解用户意图,需要识别这些查询词属于哪个语种。
现有文本语种识别方法一般基于语言模型技术,即:对于待识别文本,利用线下训练好的各个语种的语言模型进行各个语种的评分,然后取高分者作为最终判别的语种。
在实际应用中,以大型国际电子商务网站为例,其收到的查询词会随时间、人群、地域等的不同而动态改变,但目前利用线下训练好的语言模型进行语种识别的方法无法很好的适应查询词的动态改变,导致语种识别的精准度不高。
【发明内容】
本申请的多个方面提供一种语种识别更新方法及装置,用以提高语种识别的精准度。
本申请的一方面,提供一种语种识别更新方法,包括:
获取语种识别系统对至少一个查询数据进行语种识别输出的结果数据;
根据所述语种识别系统对至少一个查询数据进行语种识别输出的结果数据,对所述语种识别系统进行更新。
本申请的另一方面,提供一种语种识别更新装置,包括:
获取模块,用于获取语种识别系统对至少一个查询数据进行语种识别输出的结果数据;
更新模块,用于根据所述语种识别系统对至少一个查询数据进行语种识别输出的结果数据,对所述语种识别系统进行更新。
由上述技术方案可知,本申请通过获取语种识别系统对至少一个查询数据进行语种识别输出的结果数据,将所获取的结果数据反馈到语种识别系统,实现对语种识别系统的更新,使得语种识别系统能够适应查询词的动态改变,提高语种识别的精准度。
【附图说明】
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的语种识别更新方法的流程示意图;
图2为本申请一实施例提供的语种、语种特征及其权重的对应关系的存储示意图;
图3为本申请一实施例提供的多层机器识别模型的构架示意图;
图4为本申请另一实施例提供的语种识别更新装置的结构示意图;
图5为本申请又一实施例提供的语种识别更新装置的结构示意图。
【具体实施方式】
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请一实施例提供的语种识别更新方法的流程示意图。如图1所示,该方法包括:
101、获取语种识别系统对至少一个查询数据进行语种识别输出的结果数据。
102、根据语种识别系统对至少一个查询数据进行语种识别输出的结果数据,对语种识别系统进行更新。
在本实施例中,语种识别系统用于对接收到的查询数据进行语种识别。为了使语种识别系统能够适应查询数据的动态改变,本实施例获取语种识别系统对至少一个查询数据进行语种识别输出的结果数据,将所获取的语种识别系统对至少一个查询数据进行语种识别输出的结果数据反馈到语种识别系统,然后对语种识别系统进行更新。本实施例可以自助式地实现语种识别系统的动态更新,以更好地适应线上输入的查询数据的动态改变,有利于提高语种识别的精准度。
可选的,查询数据可以是文本类型的数据(简称为文本数据),但不限于此,还可以是其它类型的数据,例如语音类型。
在一可选实施方式中,可以获取语种识别系统在一段时间内进行语种识别输出的结果数据,并将语种识别系统在该段时间内所识别的查询数据作为上述的至少一个查询数据。这里的一段时间可以是近期一小时、五小时、一天、三天、一星期等。
在一可选实施方式中,上述语种识别系统依次包括干预词表识别模型、编码识别模型、品牌/型号词表识别模型和机器识别模型中的至少一个识别模型。
优选的,上述语种识别系统包括机器识别模型。
其中,使用机器识别模型进行语种识别的过程是:从待识别查询数据中抽取出语种特征;将抽取出的语种特征作为机器识别模型的输入,通过机器识别模型计算获取待识别查询数据所属语种。
在通过机器识别模型进行语种识别的各个技术层次中,最重要的就是模型特征的设计。本申请技术方案的发明人所提出的语种特征包括千万数量级的语种特征,其中大部分语种特征属于N元连续词特征、N元连续字符特征或词缀特征,这几类语种特征是基本的语种特征。此外,发明人还设计了以下几种类别的语种特征,包括:统计特征,例如,词数和平均词长;品牌词特征和型号词特征;语种特有字符特征和语种特有词缀特征;业务特征,例如,IP地址,国别,站点,区域设置等。下面分别对上述各类语种特征进行简要说明。
1)N元连续词特征
N元连续词特征是基于N-Gram理论设计的一类语种特征。例如,待识别查询数据为:iphone 6s case从中能够抽取出的连续词特征包括:
4个1元连续词特征:iphone、6s、case、
3个2元连续词特征:iphone 6s、6s case、case
2个3元连续词特征:iphone 6s case、6s case
1个4元连续词特征:iphone 6s case
基于N-Gram理论构建待识别查询数据的语种特征,并在此基础上实现语种识别,能够对各种在互联网中广泛使用的查询数据进行语种自动识别。实验结果表明,基于N元连续词特征进行语种识别有较高且稳定的正确识别率。
2)N元连续字符特征
在实际应用中,语种识别的一个主要应用场景是搜索场景。在搜索场景中,用户输入的查询词一般都比较短,通常一个查询词只包含1至3个单词,而且词汇之间的顺序也没有限制。由于现有技术对短文本的语言模型得分的稳定性不够好,因此现在技术存在识别短文本的语种时正确识别率较低的问题。因此,一般自然语言处理技术中常用的基于词的N元语言模型技术便不适用。
本申请实施例提出了基于字符的N-Gram技术,即:采用N元连续词特征。N元连续字符特征是基于N-Gram理论设计的又一类语种特征,与上述N元连续词特征的不同之处在于:N元连续字符特征的单位是一个字符。例如,从上例的待识别查询数据iphone 6s case中抽取出的3元连续字符特征包括:iph、pho和one等。
此外,为了能够体现出N元连续字符在单词的位置,例如,首尾位置或者中间连接位置,本申请实施例所述的N元连续字符特征还包括N元连续字符在单词的位置。在本实施中,采用“HEAD_”词缀表示词首,“TAIL_”表示词尾,“_HYP_”表示连接。例如,从上例的待识别文本iphone 6s case中抽取出的3元连续字符特征为:HEAD_iph、HEAD_cas、HEAD_for、TAIL_one、TAIL_ase、和e_HYP_6s等。通过在N元连续字符特征中加入位置信息,能够基于更细粒度的N元连续字符特征进行语种识别,从而达到提高正确识别率的效果。
特别的,考虑到较短的连续字符特征(例如,1元连续字符特征或2元连续字符特征)对于语种的区分度很低,发明人还提出采用高阶连续字符特征(3元以上连续字符特征)作为N元连续字符特征。实验结果表明,基于高阶N元连续字符特征的语种识别有较高且稳定的正确识别率。
3)词缀特征
本申请实施例所述的词缀特征是指各语种中常见的词缀所形成的特征,包括前缀特征和后缀特征,例如,英语中pre等字符串属于前缀特征,ing等字符串属于后缀特征。在实现过程中,可以根据预先存储的词缀表从待识别文本中抽取出词缀特征。
4)统计特征
本申请实施例所述的统计特征是指通过各种统计方法获取的语种特征。由于不同语种的文本在组成文本的词数量上或平均词长度方面均有各自的特征,也可以问题回复作为语种识别的依据,因此,本申请实施例所述的统计特征包括从待识别查询数据包括的词的总数量或各个词的平均词长度等统计特征。
5)品牌词特征及型号词特征
在实际应用中,待识别查询数据中可能混杂一些品牌词、型号词或一般的描述词信息,因而加大了语种识别难度。特别的,对于包括品牌词、型号词或一般的描述词信息的短文本(例如,查询词),其语种识别难度非常大。本申请实施例提供的方法,通过设计品牌词特征及型号词特征,能够在识别文本语种时考虑到待识别查询数据是否混杂品牌词、型号词或一般的描述词信息,由此也能够起到提高正确识别率的作用。在实现过程中,可以根据预先存储的品牌/型号词表从待识别查询数据中抽取出品牌词特征及型号词特征。
6)语种特有字符特征和语种特有词缀特征
现有技术基于的语言模型是从大量语料中训练获得的,而相似度高的语种所对应的训练语料的相似度也极高。此外,有些语种之间本身就存在极大的相似度。因此,现有技术对于相似度高的语种存在识别性能较差的问题。
为了解决这个问题,本申请技术方案的发明人设计了语种特有字符特征和语种特有词缀特征等新的语种特征。本申请实施例所述的语种特有字符特征和语种特有词缀是指,能够将一种语种与其它语种区分开的该语种独有的字符特征和词缀特征。例如,字符是葡萄牙语特有的一个字符特征,可以将其设计为这个特征来表达。
实验结果表明,基于语种特有字符特征和语种特有词缀的语种识别,可以很好地解决相似度高的语种存在识别性能较差的问题,从而达到提高相似语种的辨识度的效果。
7)业务特征
目前,国际电子商务网站一般都有很多实时的线上业务特征,例如,查询对应的cookie信息、locale信息以及IP地址信息等。本申请实施例所述的业务特征对语种识别可以提供很好的信息,例如,来自中国地区IP地址的查询词,该查询词为中文的可能性更大。实验结果表明,通过采用业务特征的机制,可以在不同业务场景下,特定地优化语种识别的准确度。
需要说明的是,考虑到英文语种识别的重要性以及英文查询在各个站点的普遍性,通常在仅识别英文文本的文本语种分类器中无需采用业务特征。
以上部分对本实施例中机器识别模型所使用的各类语种特征进行了说明。
其中,使用机器识别模型进行语种识别过程中的第二步骤,即将从待识别查询数据中抽取出的语种特征作为机器识别模型的输入,通过机器识别模型计算获取待识别查询数据所属语种的过程包括以下步骤:
以抽取出的语种特征为检索条件,在预先生成的语种、语种特征及其权重的对应关系中检索获取语种特征在各个候选语种中的特征权重;
根据检索获取的语种特征在各个候选语种中的特征权重,计算待识别查询数据分别属于各个候选语种的得分;
将得分大于预设阈值的候选语种作为待识别查询数据所属的语种。
在上述实施例中,所述的语种、语种特征及其权重的对应关系是指,基于给定语料库训练得到的机器识别模型使用的参数模型,这些对应关系可存储于语种特征词表中。所述的语种、语种特征及其权重的对应关系包括各个候选语种、各个语种特征及其特征权重的三元组集合。
其中,预先生成语种、语种特征及其权重的对应关系包括如下步骤:
获取已标注所属语种的文本集;
从各个已标注所属语种的文本中抽取出语种特征,并统计语种特征在各个候选语种中分别出现的次数;
根据抽取出的各个已标注所属语种的文本的语种特征及统计出的语种特征在各个候选语种中分别出现的次数,计算获取各个语种特征在各个候选语种中分别出现的次数、与在所有候选语种中出现总次数的比值,作为各个语种特征在各个候选语种中的特征权重;
将各个候选语种、各个语种特征和特征权重的三元组集合,作为语种、语种特征及其权重的对应关系。
上述已标注所属语种的文本集包括能够识别的各个候选语种的文本。例如,训练语料文本1为:en|||iphone 4s case plastic、训练语料文本2为:es|||iphone4s caso plástico、训练语料文本3为:en|||iphone 6s screen等。
当获取到已标注所属语种的文本集后,需要从每一个训练语料中抽取出语种特征,这些语种特征与从待识别查询数据中抽取的语种特征为相同概念。在从训练语料中抽取语种特征的同时,还需要统计各个语种特征在每一个候选语种中的出现次数。例如,1元连续词iphone在英语语料中出现了500次,或者1元连续词caso在西班牙语中出现了300次等。
在对所有的训练语料抽取完成语种特征、且统计完成各个语种特征在各个候选语种中分别出现的次数后,还需要计算每一个语种特征在所有训练语料中出现的总次数。最后,将各个语种特征在每一个候选语种中出现的次数、与其在所有候选语种中出现的总次数的比值,作为各个语种特征在每一个候选语种中的特征权重。例如,训练语料库中涉及3种语言(英语、西班牙语和葡萄牙语)的文本,其中,1元连续词iphone在英语语料中出现了500次,在西班牙语料中出现了200次,在葡萄牙语料中出现了260次,因此iphone在该语料库中共出现了960次,则iphone这个语种特征在英语中的特征权重为500/960,在西班牙语中的特征权重为200/960,在葡萄牙语中的特征权重为260/960。由此可见,本申请实施例所述的特征权重是基于判别式的方法计算获取的,而现有技术仅计算每个词在其所属语种中出现的词相对频度,即现有技术基于产生式的方法计算获取词频度。由于本申请实施例中机器识别模型采用判别式方法计算特征权重,因而能够达到提高正确识别率的效果。
通过上述步骤获取到在各个候选语种下各个语种特征的特征权重,将各个候选语种、各个语种特征和特征权重的三元组集合,作为上述语种、语种特征及其权重的对应关系。
请参见表1,其为采用上述方法生成的语种、语种特征及其权重的对应关系的示例表。
表1
需要注意的是,在实际应用中,由于训练获取的语种、语种特征及其权重的对应关系包含千万级以上的语种特征,因此语种特征搜索步骤的速度将对整个语种识别的性能造成较大影响。为了提高特征检索的速度,本申请实施例提出从两个方面优化存储所述语种、语种特征及其权重的对应关系,下面对这两种存储方式进行说明。
1)存储方式一:采用字典树的数据结构存储所述N元连续词特征和所述N元连续字符特征。
本申请实施例所述的字典树又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。
本申请实施例提出利用字典树对N元连续词特征和N元连续字符特征进行存储,使得当某个语种特征x没有得到匹配时,就可以直接放弃x+a(a表示任意串)特征的搜索。实验结果表明,这种存储策略对于N元连续词特征和N元连续字符特征的效果非常明显。
2)存储方式二:针对语种、语种特征及其权重的对应关系中的各个语种特征,将语种特征及其权重不为零的所有候选语种对应存储。
一般在多语种的文本语种分类器的特征搜索中,对于每个语种特征x,会对每个候选语种y,进行组合(x+y)的搜索。因此,每个语种特征都需要进行L次特征集搜索(L为候选语种个数)。本申请实施例提出对文本语种分类器的参数模型中的语种特征及其对应的所有候选语种进行类似倒排索引的方式进行存储。
请参考图2,其为本申请的用于文本的语种识别方法实施例生成的语种、语种特征及其权重的对应关系的存储示意图。通过图2所示的存储方式,每个语种特征只需要检索一遍,就可以返回所有可能匹配的候选语种,整体检索效率能够提高L倍。
在训练生成上述语种、语种特征及其权重的对应关系后,就能够以从待识别文本中抽取出的语种特征为检索条件,在上述语种、语种特征及其权重的对应关系中检索获取语种特征在各个候选语种中的特征权重。例如,待识别查询数据为:iphone 5s plástico model,从中抽取出的语种特征包括(这里只列举1元连续词特征):iphone、5s、plástico和model,那么,在上述表1所述的模型中进行检索后,被激活的语种特征如表2所示:
表2
语种 | 特征字符串 | 特征权重 |
En | iphone | 0.1 |
Es | iphone | 0.05 |
Es | plástico | 1 |
通过表2可见,由于词5s是一个型号词,在预处理阶段被过滤掉,词model代表有些语种特征在参数模型中是检索不到的,对语种判别不起作用。
通过上述步骤获取到待识别文件的各个语种特征在各个候选语种中的特征权重后,就可以根据这些特征权重计算待识别文本分别属于各个候选语种的得分。
本申请实施例所述的机器识别模型可以是对英文语种或俄语语种等单一语种进行语种识别的模型,简称为单语种机器识别模型;也可以是对多个候选语种进行识别的模型,简称为多语种机器识别模型,取决于训练语料库中包括的文本语种数量。下面分别对单语种机器识别模型和多语种机器识别模型进行说明。
1)单语种机器识别模型
当本申请实施例所述机器识别模型为单语种机器识别模型时,上述步骤,即根据检索获取的语种特征在各个候选语种中的特征权重,计算待识别查询数据分别属于各个候选语种的得分,可以采用如下公式进行计算:
其中,Y为所述待识别查询数据所属语种的随机变量;P为所述待识别查询数据属于特定语种的得分;x为由从所述待识别查询数据中抽取出的所述语种特征组成的特征向量;w为由与x中的各个语种特征对应的特征权重组成的权重向量。
在本实施例中,若单语种机器识别模型用于对英语语种进行识别,则P(Y=1)表示待识别查询数据是英语的概率。本申请实施例提供的单语种机器识别模型采用逻辑回归模型。在实际应用中,还可以采用其它机器学习模型,例如:支持向量机,CRF,决策树等。上述各种不同的机器学习模型都只是具体实施方式的变更,都不偏离本申请的核心,因此都在本申请的保护范围之内。
2)多语种机器识别模型
当本申请实施例所述的机器识别模型为多语种机器识别模型时,上述步骤,即根据检索获取的语种特征在各个候选语种中的特征权重,计算待识别查询数据分别属于所述各个候选语种的得分,可以采用如下公式进行计算:
其中,xi为所述待识别查询数据,pj为所述待识别查询数据属于特定候选语种j的得分;f(xi)为从所述待识别查询数据中抽取出的所述语种特征,λ1j到λmj为f(xi)在所述特定候选语种j中的特征权重;z为所述各个候选语种的得分之和,采用如下公式计算:
在上述公式中,n为多语种机器识别模型能够识别的语种数量。
本申请实施例提供的多语种机器识别模型采用最大熵模型(MaximumEntropy Model)。最大熵模型是一种机器学习方法,在自然语言处理的许多领域(如词性标注、中文分词、句子边界识别、浅层句法分析及文本分类等)都有比较好的应用效果。最大熵模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果。实验结果表明基于最大熵模型的语种识别方法是行之有效的。它不但能得到最一致的分布,而且保证了语种识别的查准率和查全率。同样的,在实际应用中,还可以采用其它机器学习模型,例如:支持向量机,CRF,决策树等。上述各种不同的机器学习模型都只是具体实施方式的变更,都不偏离本申请的核心,因此都在本申请的保护范围之内。
通过上述步骤获取到待识别查询数据分别属于各个候选语种的得分,在此基础上,将得分大于预设阈值的候选语种作为待识别查询数据所属的语种。在实际应用中,通常将得分最高的候选语种作为待识别查询数据所属的语种。例如,根据上述表2中被激活的特征计算获取不同候选语种的得分,其结果如下所示:es语种得分为:0.05+1=1.05,en语种得分为:0.1,由于es语种得分大于en语种得分,因此判定待识别查询数据属于es语种。
在实际应用中,语种识别系统在采用上述机器识别模型进行语种识别的基础上,还可以采用一些优化策略,以提高语种识别的正确率。下面对语种识别采用的一些优化策略分别进行说明。
1)优化策略一
在实际应用中,对语料库进行训练以获取所述语种、语种特征及其权重的对应关系是一个非常耗时的操作,可见实时对语料库进行训练并不具有实用性。然而,这种非实时训练的方法可能带来的问题是:无法及时从较新的历史识别结果中学习到更准确的文本语种分类器参数模型。
一个实用的在线语种识别服务,需要对线上错误现象具备快速反应机制。为了解决上述问题,对突发的错误现象达到快速干预的效果,本申请实施例通过预先生成的干预词表对具体线上应用系统中突发的错误现象进行快速干预,以提高文本语种的正确识别率。
本申请实施例所述的干预词表记录了一批已标注过正确语种的标注文本及其所属语种之间的对应关系。这些标注文本可以包括:历史上被错误识别的查询数据。
优化策略一的方案是:基于干预词表形成干预词表识别模型,并将干预词表识别模型应用于语种识别系统中。采用干预词表识别模型进行语种识别的过程是:将待识别查询数据为检索条件,在预先生成的干预词表中进行检索匹配,以判断该待识别查询数据是否存在于干预词表中;若判断结果为是,则将待识别查询数据在干预词表中对应的语种作为待识别查询数据所属的语种。其中,具体可以采用精确整体匹配、部分匹配、加权匹配等匹配策略。
优选的,干预词表识别模型作为语种识别系统中的第一个识别模型。这样待识别查询数据首先要经过干预词表识别模型,如果干预词表识别模型能够直接判定待识别查询数据所属的语种,则无需通过后续识别模型,有利于提高语种识别的效率,实现对线上突发的错误现象的快速干预。
2)优化策略二
一般大型国际电子商务网站所支持的语种在10个以上。因此,语种识别技术至少要支持10种以上类别的语种识别需求。由于大部分语言都存在和其它语种共用字符的现象,因此,大部分的语种识别需要用本申请实施例提供的机器识别模型进行语种识别。然而,有些语言的字符表在Unicode编码表中具有独自的码段,对这样的语言可以直接凭借Unicode编码来进行判断,例如,俄语,俄文字符一般在:0x0400~0x052F码段。
优化策略二的方案是:在语种识别系统中增加编码识别模型。采用编码识别模型进行语种识别的过程是:以待识别查询数据包括的字符为检索条件,在预先生成的特定语种字符码表中检索是否存在待识别查询数据包括的字符;若上述判断结果为是,则将待识别查询数据包括的字符在所述特定语种字符码表中对应的所属语种作为所述待识别查询数据所属的语种。
目前,编码识别模型可以处理的语种包括:俄语、希伯来语、韩语、泰语、阿拉伯语等,实验结果表明,其正确识别率在99%以上。机器识别模型可以处理的语种包括:英语、葡语、西班牙语、德语、法语、意大利语、土耳其语、越南语、印尼语、荷兰语。实验结果表明,除葡语和西班牙语外,F1测度均在90%以上,其中英文98%。
优选的,编码识别模型位于干预词表识别模型之后,并位于机器识别模型之前。在语种识别系统中,在机器识别模型之前使用编码识别模型对待识别查询数据进行语种识别,有利于提高语种识别的效率。
3)优化策略三
在实际应用中,由于用户输入的查询词一般比较自由,因此可能包含品牌词、型号词以及各种描述性词汇,例如,iPhone 5S,Cannon D70等。品牌词、型号词一般是国际通用的英文写法。而且,英文查询在国际电子商务网站的流量中站较大比重,即使是非英语国家的用户,输入英文查询的情况也很常见。这些特殊词汇对语种识别会产生很大的噪音,因而对语种识别的准确度影响很大。例如,“Cannon D70盒子”这个文本串,其本身是一个中文文本,但是其中含有品牌词、型号词,因此很容易被识别成英文。然而,现有技术并没有针对这些特殊词汇进行特殊设计。
优化策略三是:在语种识别系统中增加品牌/型号词表识别模型。采用品牌/型号词表识别模型进行语种识别的过程是:根据预先生成的品牌/型号词表,从待识别查询数据中去除预设品牌词或型号词。
优选的,品牌/型号词表识别模型位于机器识别模型之前,并位于编码识别模型之后。在语种识别系统中,通过对品牌词、型号词等特殊词汇进行特殊处理,特别是对英文查询做出特殊的考虑,从而可以提高语种识别的正确率。
4)优化策略四
现有技术通常基于单层构架进行语种识别,即:对所有候选语种统一考虑,并没有针对特定语种进行特殊优化的考虑。在实际应用中,英语等语种是常见查询文本,为了能够优化常见语种文本的语种识别,本申请实施例提出的优化策略四是:采用多层次的语种识别架构,其中专门设计了常见语种的单语种识别层,例如:专门针对英语的语种识别层。通过采用多层次的语种识别构架,能够提供特定语种的特殊优化能力。
在实际应用中,可以针对实际需要优化的语种进行类似的分层设计,甚至扩展为多层的逐级判别模型,每个层次还可以实现两类或三类的语种判别。上述各种不同的多层次的语种识别架构都只是具体实施方式的变更,都不偏离本申请的核心,因此都在本申请的保护范围之内。
请参考图3,其为本申请的用于文本的语种识别方法实施例多层识别构架的示意图。图3中前面几层(A-X)是针对特定语种的单语种机器识别模型,仅仅给出“是”或者“不是”某类特定语种;如果待识别查询数据不属于前面几种特定语种,则可以再通过最后的多语种机器识别模型,从多个候选语种中给出最优的语种类别。需要注意的是,在多语种机器识别模型的输出结果数据中,仍然可以指定是否输出前面已经判别过的“A-X”这些语种类别。
在上述的实施例中,重点介绍了本申请实施例中语种识别系统的结构以及进行语种识别的方法流程。下面将重点针对上述介绍的各语种识别系统详细说明对语种识别系统的更新过程。
在介绍具体更新过程之前,首先说明:本申请实施例中,语种识别系统对至少一个查询数据进行语种识别输出的结果数据包括:至少一个查询数据中各查询数据所属的语种以及各查询数据在其所属语种下的得分。
进一步,根据上面介绍的语种识别系统中各语种识别模型进行语种识别的原理可知,机器识别模型可以输出查询数据在其所属语种下的得分,而干预词表识别模型和编码识别模型由于未能用到查询数据在其所属语种下的得分,故对于查询数据所属的语种是由干预词表识别模型或编码识别模型识别出的,则可以设置查询数据在其所属语种下的得分为最大得分值,例如可以1。
在一种情况下:语种识别系统中包括干预词表识别模型和/或机器识别模型,则根据语种识别系统对至少一个查询数据进行语种识别输出的结果数据,对语种识别系统中的干预词表识别模型或机器识别模型进行更新的过程包括:
根据各查询数据所属的语种以及各查询数据在其所属语种下的得分,从各查询数据中确定可信查询数据及其所属的语种;
将确定的可信查询数据及其所属的语种形成对应关系,添加到干预词表识别模型使用的干预词表中或机器识别模型使用的语种特征表中。
该实施例的核心思想是:获取被语种识别系统以高概率识别为某个语种的查询数据(即可信查询数据)及查询数据所属的语种,根据这些查询数据及其所属的语种对语种识别系统进行更新。这样干预词表识别模型或机器识别模型会随着时间的推移不断更新,能够适应需要识别的查询数据的改动,有利于提高语种识别系统对后续查询数据进行语种识别时的精准度。
在一可选实施方式中,根据各查询数据所属的语种以及各查询数据在其所属语种下的得分,从各查询数据中确定可信查询数据及其所属的语种的过程包括:
根据各查询数据所属的语种以及各查询数据在其所属语种下的得分,从各查询数据中获取得分大于指定得分阈值的查询数据及其所属的语种。例如,得分阈值可以是0.9,但不限于此。
在另一可选实施方式中,根据各查询数据所属的语种以及各查询数据在其所属语种下的得分,从各查询数据中确定可信查询数据及其所属的语种的过程包括:
根据各查询数据所属的语种以及各查询数据在其所属语种下的得分,计算各查询数据对标准峰度指标的影响度;
从各查询数据中,获取对标准峰度指标的影响度大于指定范围的查询数据及其所属的语种。
在统计学中,峰度(Kurtosis)衡量实数随机变量概率分布的峰态。峰度高就意味着方差增大是由低频度的大于或小于平均值的极端差值引起的。基于此,可以将各查询数据所属的语种以及各查询数据在其所属语种下的得分作为样本数据,统计各样本数据的峰度作为对标准峰度指标的影响度。例如,可以根据以下公式,计算查询数据样本数据的峰度。
在上述公式中,β2表示峰度,μ4表示四阶中心距,σ表示方差。除上述公式之外,还可以将峰度定义为:四阶中心距除以方差的四次方减去3,如下公式所示。其中,减去3的目的是为了让正太分布的峰度为0,这样更加便于观察各查询数据对标准峰度指标的影响度。
值得说明的是,峰度计算属于现有技术,具体原理可参见现有技术,本申请仅进行了简单说明。
在另一种情况下:语种识别系统中包括品牌/型号词表识别模型,则根据语种识别系统对至少一个查询数据进行语种识别输出的结果数据,对语种识别系统中的品牌/型号词表识别模型进行更新的过程包括:
分别统计各查询数据在各种语种中出现的概率;
将在各语种中出现的概率均大于指定概率门限的查询数据作为品牌/型号词,添加到品牌/型号词表识别模型使用的品牌/型号词表中。
该实施例的核心思想是:如果某个查询数据在各语种中都大量存在,则这个查询数据很可能是品牌词/型号词,故可以将其识别为品牌/型号词并添加到品牌/型号词表。这样品牌/型号词表会随着时间的推移不断更新,能够适应需要识别的查询数据的改动,有利于提高语种识别系统对后续查询数据进行语种识别时的精准度。
在又一种情况下:语种识别系统中包括机器识别模型,则根据语种识别系统对至少一个查询数据进行语种识别输出的结果数据,对语种识别系统中的机器识别模型进行更新的过程包括:
根据各查询数据以及各查询数据所属的语种,获取待用语种特征、待用语种特征的初始特征权重以及待用语种特征所属的语种;
根据待用语种特征、待用语种特征的初始特征权重以及待用语种特征所属的语种,对机器识别模型使用的语种特征表进行更新。
上述待用语种特征主要是指从各查询数据中提取出的语种特征,用于对语种识别系统中的机器识别模型进行更新。提取待用语种特征的原理主要是:将各查询数据作为已标注所属语种的文本集,从已标注所属语种的查询数据中提取待用语种特征,并统计待用语种特征在各该文本集涉及的语种中分别出现的次数,根据待用语种特征在各语种中分别出现的次数,与在所有语种中出现的总次数的比值,作为待用语种特征的初始特征权重。提取待用语种特征的原理与前面描述的生成语种、语种特征及其权重的对应关系的原理相类似,不再赘述。
在一种具体实施方式中,可以判断至少一个查询数据的数量是否大于预设数量门限;若判断结果为是,意味着查询数据的数量较多,因此可以采用模型训练的方式提取待用语种特征,于是将各查询数据以及各查询数据所属的语种作为训练语料进行模型训练,以获得待用语种特征、待用语种特征的初始特征权重以及待用语种特征所属的语种。
若判断结果为否,意味着查询数据的数量相对较少,不便于采用模型训练的方式提取待用语种特征,于是可以直接根据各查询数据以及各查询数据所属的语种进行特征提取,以获得待用语种特征及所述待用语种特征所属的语种,并为所述待用语种特征配置初始特征权重。
进一步,可以预先设定用于模型训练的训练周期和用于特征提取的提取周期,且训练周期大于提取周期。例如,训练周期可以为1周,提取周期可以为1小时,但不限于此。基于此,具体可以在每个训练周期到达时,判断上述至少一个查询数据的数量是否大于预设数量门限;若判断结果为是,则执行将各查询数据以及各查询数据所属的语种作为训练语料进行模型训练,以获得待用语种特征、待用语种特征的初始特征权重以及待用语种特征所属的语种的操作;若判断结果为否,则按照预设的提取周期,周期性的执行根据各查询数据以及各查询数据所属的语种进行特征提取,以获得待用语种特征及待用语种特征所属的语种,并为所述待用语种特征配置初始特征权重的操作。
进一步,上述根据所述待用语种特征、待用语种特征的特征权重以及待用语种特征所属的语种,对机器识别模型使用的语种特征表进行更新的过程包括:
若上述待用语种特征不属于语种特征表,说明待用语种特征是新的语种特征,需要更新到语种特征表中,但是也要控制新的语种特征对已有语种特征的影响不至于过大,于是可以预先设定一调整系数,称为第一调整系统,则可以根据预设的第一调整系数和所述待用语种特征的初始特征权重,获得所述待用语种特征的特征权重,并将所述待用语种特征、待用语种特征的特征权重以及待用语种特征所属的语种形成对应关系,添加到机器识别模型使用的语种特征表中。举例说明,若待用语种特征的初始特征权重为0.3,第一调整系数为0.1,则待用语种特征的特征权重为0.3*0.1=0.03。
若上述待用语种特征属于语种特征表,说明该待用语种特征不是新的语种特征,但是需要调整其在语种特征表中的权重,以提升或降低该语种特征的地位,但是这种调整也应该是微调,于是可以设置一调整系数,称为第二调整系数,则可以根据预设的第二调整系数和所述待用语种特征的初始特征权重,调整所述待用语种特征在所述语种特征表中的权重。若待用语种特征的初始特征权重为0.3,第二调整系数为0.1,则待用语种特征的特征权重为a+0.3*0.1,a表示更新之前待用语种特征在语种特征表中的特征权重。
在上述实施方式中,主要描述的是对语种识别系统进行增量更新的过程。除了进行增量更新之外,还可以对语种识别系统中的机器识别模型进行全量更新。
具体的,当满足预设全量更新条件时,将各查询数据以及各查询数据所属的语种作为新增训练语料,根据新增训练语料和已有训练语料进行模型训练,以输出新的语种特征表,并用新的语种特征表替换更新之前的语种特征表。考虑到全量更新的代价较大,可以间隔较长时间执行一次,例如可以每个月执行一次,在保证机器识别模型的精确度的情况下,尽量降低更新机器识别模型的代价。
例如,全量更新条件可以是查询数据的数量累计到一定程度,或者是距离上次更新的时间间隔大于指定间隔,等等。
在一可选实施方式中,根据语种识别系统对至少一个查询数据进行语种识别输出的结果数据,对语种识别系统进行更新之前,还可以统计各查询数据在按照语种识别系统识别出的语种进行使用时的使用效果;根据各查询数据的使用效果,对各查询数据进行过滤。具体的,查询数据的使用效果可以通过转化率、点击率和点击量中的至少一个来表示。基于此,可以统计各查询数据在按照语种识别系统识别出的语种进行使用时的转化率、点击率和点击量中的至少一个;去除转化率、点击率和点击量中的至少一个不符合预设条件的查询数据,实现对查询数据的过滤。
在对查询数据过滤之后,可以基于过滤后的查询数据对语种识别系统进行更新,具体更新过程可参见上述实施例。基于过滤后的查询数据对语种识别系统进行更新的过程与前述实施例的区别在于:仅仅在于对语种识别系统进行更新使用的数据有所不同,一个是经过过滤之后剩余的查询数据,一个是未经过过滤处理的查询数据。通过根据查询数据的使用效果对查询数据进行过滤,可以将一些识别错误的查询数据过滤掉,提高更新使用的查询数据的精准度,从而使得在基于过滤后的查询数据对语种识别系统进行更新后能够提高更新后语种识别系统的精准度。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图4为本申请一实施例提供的语种识别更新装置的结构示意图。如图4所示,该装置包括:获取模块41和更新模块42。
获取模块41,用于获取语种识别系统对至少一个查询数据进行语种识别输出的结果数据。
更新模块42,用于根据获取模块41获取的语种识别系统对至少一个查询数据进行语种识别输出的结果数据,对语种识别系统进行更新。
可选的,语种识别系统依次包括干预词表识别模型、编码识别模型、品牌/型号词表识别模型和机器识别模型中的至少一个识别模型。
基于上述,更新模块42具体可用于:
根据获取模块41获取的语种识别系统对至少一个查询数据进行语种识别输出的结果数据,语种识别系统中的干预词表识别模型、品牌/型号词表识别模型和机器识别模型中的至少一个进行更新。
进一步,语种识别系统对至少一个查询数据进行语种识别输出的结果数据包括:至少一个查询数据中各查询数据所属的语种以及各查询数据在其所属语种下的得分。
基于上述,更新模块42在对干预词表识别模型或机器识别模型进行更新时,具体可用于:
根据各查询数据所属的语种以及各查询数据在其所属语种下的得分,从各查询数据中确定可信查询数据及其所属的语种;
将确定的可信查询数据及其所属的语种形成对应关系,添加到干预词表识别模型使用的干预词表中或机器识别模型使用的语种特征表中。
进一步,更新模块42在根据各查询数据所属的语种以及各查询数据在其所属语种下的得分,从各查询数据中确定可信查询数据及其所属的语种时,具体可用于:
根据各查询数据所属的语种以及各查询数据在其所属语种下的得分,从各查询数据中获取得分大于指定得分阈值的查询数据及其所属的语种。
进一步,更新模块42在根据各查询数据所属的语种以及各查询数据在其所属语种下的得分,从各查询数据中确定可信查询数据及其所属的语种时,具体可用于:
根据各查询数据所属的语种以及各查询数据在其所属语种下的得分,计算各查询数据对标准峰度指标的影响度;
从各查询数据中,获取对标准峰度指标的影响度大于指定范围的查询数据及其所属的语种。
可选的,更新模块42在对品牌/型号词表识别模型进行更新时,具体可用于:
分别统计各查询数据在各种语种中出现的概率;
将在各语种中出现的概率均大于指定概率门限的查询数据作为品牌/型号词,添加到品牌/型号词表识别模型使用的品牌/型号词表中。
可选的,更新模块42在对机器识别模型进行更新时,具体可用于:
根据各查询数据以及各查询数据所属的语种,获取待用语种特征、待用语种特征的初始特征权重以及待用语种特征所属的语种;
根据待用语种特征、待用语种特征的初始特征权重以及待用语种特征所属的语种,对机器识别模型使用的语种特征表进行更新。
进一步,更新模块42在根据各查询数据以及各查询数据所属的语种,获取待用语种特征、待用语种特征的初始特征权重以及待用语种特征所属的语种时,具体可用于:
判断至少一个查询数据的数量是否大于预设数量门限;
若判断结果为是,则将各查询数据以及各查询数据所属的语种作为训练语料进行模型训练,以获得待用语种特征、待用语种特征的初始特征权重以及待用语种特征所属的语种;
若判断结果为否,则根据各查询数据以及各查询数据所属的语种进行特征提取,以获得待用语种特征及待用语种特征所属的语种,并为待用语种特征配置初始特征权重。
进一步,更新模块42具体可用于:
在预设训练周期到达时,判断至少一个查询数据的数量是否大于预设数量门限;
若判断结果为是,则将各查询数据以及各查询数据所属的语种作为训练语料进行模型训练,以获得待用语种特征、待用语种特征的初始特征权重以及待用语种特征所属的语种;
若判断结果为否,则按照预设提取周期,周期性的根据各查询数据以及各查询数据所属的语种进行特征提取,以获得待用语种特征及所述待用语种特征所属的语种,并为待用语种特征配置初始特征权重;
其中,训练周期大于提取周期。例如,训练周期可以为1周,提取周期可以为1小时,但不限于此。
进一步,更新模块42在根据待用语种特征、待用语种特征的初始特征权重以及待用语种特征所属的语种,对机器识别模型使用的语种特征表进行更新时,具体可用于:
若待用语种特征不属于语种特征表,则根据预设的第一调整系数和待用语种特征的初始特征权重,获得待用语种特征的特征权重,并将待用语种特征、待用语种特征的特征权重以及待用语种特征所属的语种形成对应关系,添加到语种特征表中;
若待用语种特征属于语种特征表,则根据预设的第二调整系数和待用语种特征的初始特征权重,调整待用语种特征在语种特征表中的权重。
进一步,更新模块42还用于:
当满足预设全量更新条件时,将各查询数据以及各查询数据所属的语种作为新增训练语料,根据新增训练语料和已有训练语料进行模型训练,以输出新的语种特征表,并用新的语种特征表替换更新之前的语种特征表。
进一步,如图5所示,该装置还包括:分值设置模块43。
分值设置模块,用于在查询数据所属的语种是由干预词表识别模型、编码识别模型或品牌/型号词表识别模型识别出的时,则设置查询数据在其所属语种下的得分为最大得分值。
进一步,如图5所示,该装置还包括:统计模块44和过滤模块45。
统计模块44,用于在更新模块42对语种识别系统进行更新之前,统计各查询数据在按照语种识别系统识别出的语种进行使用时的使用效果。
过滤模块45,用于根据统计模块44统计出的各查询数据的使用效果,对各查询数据进行过滤。
具体的,统计模块44具体可用于:统计各查询数据在按照语种识别系统识别出的语种进行使用时的转化率、点击率和点击量中的至少一个。相应的,过滤模块45具体用于:去除转化率、点击率和点击量中的至少一个不符合预设条件的查询数据。更新模块42具体可用于:根据过滤模块45过滤后的查询数据以及查询数据所属的语种对语种识别系统进行过滤。
本实施例提供的语种识别更新装置,通过获取语种识别系统对至少一个查询数据进行语种识别输出的结果数据,将所获取的结果数据反馈到语种识别系统,实现对语种识别系统的更新,使得语种识别系统能够适应查询词的动态改变,提高语种识别的精准度。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (30)
1.一种语种识别更新方法,其特征在于,包括:
获取语种识别系统对至少一个查询数据进行语种识别输出的结果数据;
根据所述语种识别系统对至少一个查询数据进行语种识别输出的结果数据,对所述语种识别系统进行更新。
2.根据权利要求1所述的方法,其特征在于,所述语种识别系统对至少一个查询数据进行语种识别输出的结果数据包括:所述至少一个查询数据中各查询数据所属的语种以及各查询数据在其所属语种下的得分。
3.根据权利要求2所述的方法,其特征在于,所述语种识别系统依次包括干预词表识别模型、编码识别模型、品牌/型号词表识别模型和机器识别模型中的至少一个识别模型;
所述根据所述语种识别系统对至少一个查询数据进行语种识别输出的结果数据,对所述语种识别系统进行更新,包括:
根据所述语种识别系统对至少一个查询数据进行语种识别输出的结果数据,对所述语种识别系统中的干预词表识别模型、品牌/型号词表识别模型和机器识别模型中的至少一个进行更新。
4.根据权利要求3所述的方法,其特征在于,所述根据所述语种识别系统对至少一个查询数据进行语种识别输出的结果数据,对所述语种识别系统中的干预词表识别模型或机器识别模型进行更新,包括:
根据所述各查询数据所属的语种以及各查询数据在其所属语种下的得分,从所述各查询数据中确定可信查询数据及其所属的语种;
将所述确定的可信查询数据及其所属的语种形成对应关系,添加到所述干预词表识别模型使用的干预词表中或所述机器识别模型使用的语种特征表中。
5.根据权利要求4所述的方法,其特征在于,所述根据所述各查询数据所属的语种以及各查询数据在其所属语种下的得分,从所述各查询数据中确定可信查询数据及其所属的语种,包括:
根据所述各查询数据所属的语种以及所述各查询数据在其所属语种下的得分,从所述各查询数据中获取得分大于指定得分阈值的查询数据及其所属的语种。
6.根据权利要求4所述的方法,其特征在于,所述根据所述各查询数据所属的语种以及各查询数据在其所属语种下的得分,从所述各查询数据中确定可信查询数据及其所属的语种,包括:
根据所述各查询数据所属的语种以及所述各查询数据在其所属语种下的得分,计算所述各查询数据对标准峰度指标的影响度;
从所述各查询数据中,获取对标准峰度指标的影响度大于指定范围的查询数据及其所属的语种。
7.根据权利要求1所述的方法,其特征在于,所述根据所述语种识别系统对至少一个查询数据进行语种识别输出的结果数据,对所述语种识别系统中的品牌/型号词表识别模型进行更新,包括:
分别统计所述各查询数据在各种语种中出现的概率;
将在各语种中出现的概率均大于指定概率门限的查询数据作为品牌/型号词,添加到所述品牌/型号词表识别模型使用的品牌/型号词表中。
8.根据权利要求3所述的方法,其特征在于,所述根据所述语种识别系统对至少一个查询数据进行语种识别输出的结果数据,对所述语种识别系统中的机器识别模型进行更新,包括:
根据所述各查询数据以及所述各查询数据所属的语种,获取待用语种特征、待用语种特征的初始特征权重以及待用语种特征所属的语种;
根据所述待用语种特征、待用语种特征的初始特征权重以及待用语种特征所属的语种,对所述机器识别模型使用的语种特征表进行更新。
9.根据权利要求8所述的方法,其特征在于,所述根据所述各查询数据以及所述各查询数据所属的语种,获取待用语种特征、待用语种特征的初始特征权重以及待用语种特征所属的语种,包括:
判断所述至少一个查询数据的数量是否大于预设数量门限;
若判断结果为是,则将所述各查询数据以及所述各查询数据所属的语种作为训练语料进行模型训练,以获得所述待用语种特征、待用语种特征的初始特征权重以及待用语种特征所属的语种;
若判断结果为否,则根据所述各查询数据以及所述各查询数据所属的语种进行特征提取,以获得所述待用语种特征及所述待用语种特征所属的语种,并为所述待用语种特征配置初始特征权重。
10.根据权利要求9所述的方法,其特征在于,所述判断所述至少一个查询数据的数量是否大于预设数量门限,包括:
在预设训练周期到达时,判断所述至少一个查询数据的数量是否大于预设数量门限;
所述根据所述各查询数据以及所述各查询数据所属的语种进行特征提取,以获得所述待用语种特征及所述待用语种特征所属的语种,并为所述待用语种特征配置初始特征权重,包括:
按照预设提取周期,周期性的根据所述各查询数据以及所述各查询数据所属的语种进行特征提取,以获得所述待用语种特征及所述待用语种特征所属的语种,并为所述待用语种特征配置初始特征权重;
其中,所述训练周期大于所述提取周期。
11.根据权利要求8所述的方法,其特征在于,所述根据所述待用语种特征、待用语种特征的特征权重以及待用语种特征所属的语种,对所述机器识别模型使用的语种特征表进行更新,包括:
若所述待用语种特征不属于所述语种特征表,则根据预设的第一调整系数和所述待用语种特征的初始特征权重,获得所述待用语种特征的特征权重,并将所述待用语种特征、待用语种特征的特征权重以及待用语种特征所属的语种形成对应关系,添加到所述语种特征表中;
若所述待用语种特征属于所述语种特征表,则根据预设的第二调整系数和所述待用语种特征的初始特征权重,调整所述待用语种特征在所述语种特征表中的权重。
12.根据权利要求9所述的方法,其特征在于,还包括:
当满足预设全量更新条件时,将所述各查询数据以及所述各查询数据所属的语种作为新增训练语料,根据所述新增训练语料和已有训练语料进行模型训练,以输出新的语种特征表,并用所述新的语种特征表替换更新之前的语种特征表。
13.根据权利要求3所述的方法,其特征在于,还包括:
若查询数据所属的语种是由所述干预词表识别模型、编码识别模型或品牌/型号词表识别模型识别出的,则设置所述查询数据在其所属语种下的得分为最大得分值。
14.根据权利要求1-13任一项所述的方法,其特征在于,所述根据所述语种识别系统对至少一个查询数据进行语种识别输出的结果数据,对所述语种识别系统进行更新之前,包括:
统计所述各查询数据在按照所述语种识别系统识别出的语种进行使用时的使用效果;
根据所述各查询数据的使用效果,对所述各查询数据进行过滤。
15.根据权利要求14所述的方法,其特征在于,所述统计所述各查询数据在按照所述语种识别系统识别出的语种进行使用时的使用效果,包括:
统计所述各查询数据在按照所述语种识别系统识别出的语种进行使用时的转化率、点击率和点击量中的至少一个;
所述根据所述各查询数据的使用效果,对所述各查询数据进行过滤,包括:
去除转化率、点击率和点击量中的至少一个不符合预设条件的查询数据。
16.一种语种识别更新装置,其特征在于,包括:
获取模块,用于获取语种识别系统对至少一个查询数据进行语种识别输出的结果数据;
更新模块,用于根据所述语种识别系统对至少一个查询数据进行语种识别输出的结果数据,对所述语种识别系统进行更新。
17.根据权利要求16所述的装置,其特征在于,所述语种识别系统对至少一个查询数据进行语种识别输出的结果数据包括:所述至少一个查询数据中各查询数据所属的语种以及各查询数据在其所属语种下的得分。
18.根据权利要求17所述的装置,其特征在于,所述语种识别系统依次包括干预词表识别模型、编码识别模型、品牌/型号词表识别模型和机器识别模型中的至少一个识别模型;
所述更新模块具体用于:
根据所述语种识别系统对至少一个查询数据进行语种识别输出的结果数据,对所述语种识别系统中的干预词表识别模型、品牌/型号词表识别模型和机器识别模型中的至少一个进行更新。
19.根据权利要求18所述的装置,其特征在于,所述更新模块具体用于:
根据所述各查询数据所属的语种以及各查询数据在其所属语种下的得分,从所述各查询数据中确定可信查询数据及其所属的语种;
将所述确定的可信查询数据及其所属的语种形成对应关系,添加到所述干预词表识别模型使用的干预词表中或所述机器识别模型使用的语种特征表中。
20.根据权利要求19所述的装置,其特征在于,所述更新模块具体用于:
根据所述各查询数据所属的语种以及所述各查询数据在其所属语种下的得分,从所述各查询数据中获取得分大于指定得分阈值的查询数据及其所属的语种。
21.根据权利要求19所述的装置,其特征在于,所述更新模块具体用于:
根据各查询数据所属的语种以及所述各查询数据在其所属语种下的得分,计算所述各查询数据对标准峰度指标的影响度;
从所述各查询数据中,获取对标准峰度指标的影响度大于指定范围的查询数据及其所属的语种。
22.根据权利要求16所述的装置,其特征在于,所述更新模块具体用于:
分别统计所述各查询数据在各种语种中出现的概率;
将在各语种中出现的概率均大于指定概率门限的查询数据作为品牌/型号词,添加到所述品牌/型号词表识别模型使用的品牌/型号词表中。
23.根据权利要求18所述的装置,其特征在于,所述更新模块具体用于:
根据所述各查询数据以及所述各查询数据所属的语种,获取待用语种特征、待用语种特征的初始特征权重以及待用语种特征所属的语种;
根据所述待用语种特征、待用语种特征的初始特征权重以及待用语种特征所属的语种,对所述机器识别模型使用的语种特征表进行更新。
24.根据权利要求23所述的装置,其特征在于,所述更新模块具体用于:
判断所述至少一个查询数据的数量是否大于预设数量门限;
若判断结果为是,则将所述各查询数据以及所述各查询数据所属的语种作为训练语料进行模型训练,以获得所述待用语种特征、待用语种特征的初始特征权重以及待用语种特征所属的语种;
若判断结果为否,则根据所述各查询数据以及所述各查询数据所属的语种进行特征提取,以获得所述待用语种特征及所述待用语种特征所属的语种,并为所述待用语种特征配置初始特征权重。
25.根据权利要求24所述的装置,其特征在于,所述更新模块具体用于:
在预设训练周期到达时,判断所述至少一个查询数据的数量是否大于预设数量门限;
若判断结果为是,则将所述各查询数据以及所述各查询数据所属的语种作为训练语料进行模型训练,以获得所述待用语种特征、待用语种特征的初始特征权重以及待用语种特征所属的语种;
若判断结果为否,则按照预设提取周期,周期性的根据所述各查询数据以及所述各查询数据所属的语种进行特征提取,以获得所述待用语种特征及所述待用语种特征所属的语种,并为所述待用语种特征配置初始特征权重;
其中,所述训练周期大于所述提取周期。
26.根据权利要求23所述的装置,其特征在于,所述更新模块具体用于:
若所述待用语种特征不属于所述语种特征表,则根据预设的第一调整系数和所述待用语种特征的初始特征权重,获得所述待用语种特征的特征权重,并将所述待用语种特征、待用语种特征的特征权重以及待用语种特征所属的语种形成对应关系,添加到所述语种特征表中;
若所述待用语种特征属于所述语种特征表,则根据预设的第二调整系数和所述待用语种特征的初始特征权重,调整所述待用语种特征在所述语种特征表中的权重。
27.根据权利要求23所述的装置,其特征在于,所述更新模块还用于:
当满足预设全量更新条件时,将所述各查询数据以及所述各查询数据所属的语种作为新增训练语料,根据所述新增训练语料和已有训练语料进行模型训练,以输出新的语种特征表,并用所述新的语种特征表替换更新之前的语种特征表。
28.根据权利要求18所述的装置,其特征在于,还包括:
分值设置模块,用于在查询数据所属的语种是由所述干预词表识别模型、编码识别模型或品牌/型号词表识别模型识别出的时,则设置所述查询数据在其所属语种下的得分为最大得分值。
29.根据权利要求16-28任一项所述的装置,其特征在于,还包括:
统计模块,用于统计所述各查询数据在按照所述语种识别系统识别出的语种进行使用时的使用效果;
过滤模块,用于根据所述各查询数据的使用效果,对所述各查询数据进行过滤。
30.根据权利要求29所述的装置,其特征在于,所述统计模块具体用于:
统计所述各查询数据在按照所述语种识别系统识别出的语种进行使用时的转化率、点击率和点击量中的至少一个;
所述过滤模块具体用于:
去除转化率、点击率和点击量中的至少一个不符合预设条件的查询数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610015056.3A CN106959943B (zh) | 2016-01-11 | 2016-01-11 | 语种识别更新方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610015056.3A CN106959943B (zh) | 2016-01-11 | 2016-01-11 | 语种识别更新方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106959943A true CN106959943A (zh) | 2017-07-18 |
CN106959943B CN106959943B (zh) | 2020-10-30 |
Family
ID=59480540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610015056.3A Active CN106959943B (zh) | 2016-01-11 | 2016-01-11 | 语种识别更新方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106959943B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391500A (zh) * | 2017-08-21 | 2017-11-24 | 阿里巴巴集团控股有限公司 | 文本翻译方法、装置及设备 |
CN108648747A (zh) * | 2018-03-21 | 2018-10-12 | 清华大学 | 语种识别系统 |
CN109741734A (zh) * | 2019-03-08 | 2019-05-10 | 北京猎户星空科技有限公司 | 一种语音评测方法、装置和可读介质 |
CN111079408A (zh) * | 2019-12-26 | 2020-04-28 | 北京锐安科技有限公司 | 一种语种识别方法、装置、设备及存储介质 |
CN112528682A (zh) * | 2020-12-23 | 2021-03-19 | 北京百度网讯科技有限公司 | 语种检测方法、装置、电子设备和存储介质 |
CN113065333A (zh) * | 2020-01-02 | 2021-07-02 | 阿里巴巴集团控股有限公司 | 分词语种的识别方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6167369A (en) * | 1998-12-23 | 2000-12-26 | Xerox Company | Automatic language identification using both N-gram and word information |
CN101702314A (zh) * | 2009-10-13 | 2010-05-05 | 清华大学 | 基于语种对的鉴别式语种识别模型建立方法 |
CN101894548A (zh) * | 2010-06-23 | 2010-11-24 | 清华大学 | 一种用于语种识别的建模方法及装置 |
US20110231423A1 (en) * | 2006-04-19 | 2011-09-22 | Google Inc. | Query Language Identification |
CN106598937A (zh) * | 2015-10-16 | 2017-04-26 | 阿里巴巴集团控股有限公司 | 用于文本的语种识别方法、装置和电子设备 |
-
2016
- 2016-01-11 CN CN201610015056.3A patent/CN106959943B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6167369A (en) * | 1998-12-23 | 2000-12-26 | Xerox Company | Automatic language identification using both N-gram and word information |
US20110231423A1 (en) * | 2006-04-19 | 2011-09-22 | Google Inc. | Query Language Identification |
CN101702314A (zh) * | 2009-10-13 | 2010-05-05 | 清华大学 | 基于语种对的鉴别式语种识别模型建立方法 |
CN101894548A (zh) * | 2010-06-23 | 2010-11-24 | 清华大学 | 一种用于语种识别的建模方法及装置 |
CN106598937A (zh) * | 2015-10-16 | 2017-04-26 | 阿里巴巴集团控股有限公司 | 用于文本的语种识别方法、装置和电子设备 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391500A (zh) * | 2017-08-21 | 2017-11-24 | 阿里巴巴集团控股有限公司 | 文本翻译方法、装置及设备 |
CN108648747A (zh) * | 2018-03-21 | 2018-10-12 | 清华大学 | 语种识别系统 |
CN108648747B (zh) * | 2018-03-21 | 2020-06-02 | 清华大学 | 语种识别系统 |
CN109741734A (zh) * | 2019-03-08 | 2019-05-10 | 北京猎户星空科技有限公司 | 一种语音评测方法、装置和可读介质 |
CN111079408A (zh) * | 2019-12-26 | 2020-04-28 | 北京锐安科技有限公司 | 一种语种识别方法、装置、设备及存储介质 |
CN111079408B (zh) * | 2019-12-26 | 2023-05-30 | 北京锐安科技有限公司 | 一种语种识别方法、装置、设备及存储介质 |
CN113065333A (zh) * | 2020-01-02 | 2021-07-02 | 阿里巴巴集团控股有限公司 | 分词语种的识别方法及装置 |
CN112528682A (zh) * | 2020-12-23 | 2021-03-19 | 北京百度网讯科技有限公司 | 语种检测方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106959943B (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106227722B (zh) | 一种基于上市公司公告摘要的自动提取方法 | |
CN106598937B (zh) | 用于文本的语种识别方法、装置和电子设备 | |
CN105824922B (zh) | 一种融合深层特征和浅层特征的情感分类方法 | |
CN106959943A (zh) | 语种识别更新方法及装置 | |
CN103164454B (zh) | 关键词分组方法及系统 | |
CN107463607B (zh) | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 | |
CN107038158B (zh) | 对译语料库制作方法、装置、记录介质以及机器翻译系统 | |
CN103488648B (zh) | 一种多语种混合检索方法和系统 | |
CN105022725A (zh) | 一种应用于金融Web领域的文本情感倾向分析方法 | |
CN107609052A (zh) | 一种基于语义三角的领域知识图谱的生成方法及装置 | |
CN110717332B (zh) | 基于非对称孪生网络的新闻与案件相似度计算方法 | |
CN108763362A (zh) | 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法 | |
CN107870901A (zh) | 从翻译源原文生成相似文的方法、程序、装置以及系统 | |
CN103324621B (zh) | 一种泰语文本拼写纠正方法及装置 | |
CN103268339A (zh) | 微博消息中命名实体识别方法及系统 | |
CN106649282A (zh) | 基于统计的机器翻译方法、装置及电子设备 | |
CN113761218A (zh) | 一种实体链接的方法、装置、设备及存储介质 | |
CN107180026B (zh) | 一种基于词嵌入语义映射的事件短语学习方法及装置 | |
CN104216876A (zh) | 信息文本过滤方法及系统 | |
CN106383836A (zh) | 将可操作属性归于描述个人身份的数据 | |
CN110750646B (zh) | 一种旅店评论文本的属性描述提取方法 | |
CN108388554A (zh) | 基于协同过滤注意力机制的文本情感识别系统 | |
CN108563766A (zh) | 食品检索的方法及装置 | |
Youssef et al. | MoArLex: an Arabic sentiment lexicon built through automatic lexicon expansion | |
CN107967302A (zh) | 基于深度神经网络的游戏客服对话系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211119 Address after: No. 699, Wangshang Road, Binjiang District, Hangzhou, Zhejiang Patentee after: Alibaba (China) Network Technology Co.,Ltd. Address before: Box 847, four, Grand Cayman capital, Cayman Islands, UK Patentee before: ALIBABA GROUP HOLDING Ltd. |
|
TR01 | Transfer of patent right |