CN116663538A - 基于文本的语种识别方法、相关装置,设备以及存储介质 - Google Patents
基于文本的语种识别方法、相关装置,设备以及存储介质 Download PDFInfo
- Publication number
- CN116663538A CN116663538A CN202210151651.5A CN202210151651A CN116663538A CN 116663538 A CN116663538 A CN 116663538A CN 202210151651 A CN202210151651 A CN 202210151651A CN 116663538 A CN116663538 A CN 116663538A
- Authority
- CN
- China
- Prior art keywords
- language
- resource
- feature distribution
- character
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 107
- 238000009826 distribution Methods 0.000 claims abstract description 397
- 239000013598 vector Substances 0.000 claims description 192
- 238000012545 processing Methods 0.000 claims description 26
- 238000013507 mapping Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 17
- 230000009286 beneficial effect Effects 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 27
- 230000001186 cumulative effect Effects 0.000 description 22
- 230000006870 function Effects 0.000 description 19
- 230000008569 process Effects 0.000 description 16
- 238000013461 design Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 230000001960 triggered effect Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本申请公开了一种基于文本的语种识别方法,涉及网络媒体以及视频搜索领域,应用场景至少包括各类终端。本申请包括获取目标搜索文本;根据目标搜索文本获取K个关联资源;根据每个关联资源所对应的至少一个语种标签,生成资源语种特征分布;根据目标搜索文本生成字符特征分布;根据资源语种特征分布以及字符特征分布,确定语种识别结果。本申请还提供了一种相关装置,设备以及存储介质。本申请利用关联资源的语种标签,并结合目标搜索文本,能够为资源搜索提供更加可靠的语种线索,从而有利于提升语种识别的准确性。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及基于文本的语种识别方法、相关装置,设备以及存储介质。
背景技术
随着现代社会信息的全球化,文本的语种识别成为识别技术研究热点之一。在全球化背景下,世界范围内产生的交互越来越多。因此,在对文本进行识别的过程中,不仅需要对中文进行识别,还需要对其他语种的文本进行识别,以适应全球化浪潮。
在资源搜索场景下,搜索文本的语种与得到的搜索结果的语种是一致的。目前,对于用户输入的搜索文本,可对每个字符进行编码,再根据编码结果获取各个字符的语言标签特征,由此,基于语言标签特征预测搜索文本的语种识别结果。
虽然根据用户输入的搜索文本能够预测其对应的语种识别结果。但在实际用于中,发明人发现现有方案中至少存在如下问题,仅利用搜索文本进行语种识别,得到的语种识别结果准确率并不理想,因此,对语种识别方法进行优化显得尤为必要。
发明内容
本申请实施例提供了一种基于文本的语种识别方法、相关装置,设备以及存储介质。本申请利用关联资源的语种标签,并结合目标搜索文本,能够为资源搜索提供更加可靠的语种线索,从而有利于提升语种识别的准确性。
有鉴于此,本申请一方面提供一种基于文本的语种识别方法,包括:
获取目标搜索文本;
根据目标搜索文本获取K个关联资源,其中,每个关联资源具有已标注的至少一个语种标签,K为大于或等于1的整数;
根据每个关联资源所对应的至少一个语种标签,生成资源语种特征分布,其中,资源语种特征分布表示K个关联资源属于M个语种标签的分布情况,M为大于1的整数;
根据目标搜索文本生成字符特征分布,其中,字符特征分布表示目标搜索文本针对各个预设字符的分布情况;
根据资源语种特征分布以及字符特征分布,确定语种识别结果。
本申请另一方面提供一种基于文本的语种识别方法,包括:
获取目标搜索文本;
根据目标搜索文本,获取针对目标对象的Q个历史资源,其中,目标对象为输入目标搜索文本的对象,Q个历史资源为目标对象在历史时段内触达过的资源,每个历史资源具有已标注的至少一个语种标签,Q为大于或等于1的整数;
根据每个历史资源所对应的至少一个语种标签,生成对象语种特征分布,其中,对象语种特征分布表示Q个历史资源属于M个语种标签的分布情况,M为大于1的整数;
根据目标搜索文本生成字符特征分布,其中,字符特征分布表示目标搜索文本针对各个预设字符的分布情况;
根据对象语种特征分布以及字符特征分布,确定语种识别结果。
本申请另一方面提供一种语种识别装置,包括:
获取模块,用于获取目标搜索文本;
获取模块,还用于根据目标搜索文本获取K个关联资源,其中,每个关联资源具有已标注的至少一个语种标签,K为大于或等于1的整数;
生成模块,用于根据每个关联资源所对应的至少一个语种标签,生成资源语种特征分布,其中,资源语种特征分布表示K个关联资源属于M个语种标签的分布情况,M为大于1的整数;
生成模块,还用于根据目标搜索文本生成字符特征分布,其中,字符特征分布表示目标搜索文本针对各个预设字符的分布情况;
识别模块,用于根据资源语种特征分布以及字符特征分布,确定语种识别结果。
在一种可能的设计中,在本申请实施例的另一方面的第一种实现方式中,
生成模块,具体用于根据每个关联资源所对应的至少一个语种标签,统计M个语种标签中每个语种标签所对应的第一累计数量;
根据M个语种标签中每个语种标签所对应的第一累计数量,生成资源语种特征分布。
在一种可能的设计中,在本申请实施例的另一方面的第一种实现方式中,
生成模块,具体用于对每个关联资源所对应的至少一个语种标签进行并集处理,得到第一语种标签集;
针对第一语种标签集中的每个语种标签,获取具有相同语种标签的关联资源集;
针对第一语种标签集中的每个语种标签,获取关联资源集中每个关联资源的第一相关参数,其中,第一相关参数包括以下一项或多项:关联资源与目标搜索文本的相似度,关联资源的播放热度;
针对第一语种标签集中的每个语种标签,根据关联资源集中每个关联资源的第一相关参数,计算得到语种概率值;
根据第一语种标签集中每个语种标签所对应的语种概率值,生成资源语种特征分布。
在一种可能的设计中,在本申请实施例的另一方面的第一种实现方式中,
生成模块,具体用于将目标搜索文本划分为字符序列,其中,字符序列包括T个字符,T为大于或等于1的字符;
采用字符词典对字符序列中的每个字符进行匹配,得到T个字符编码向量,其中,每个字符编码向量对应于一个字符,且,每个字符编码向量包括N个元素,字符词典包括N个预设字符;
对T个字符编码向量中对应位置上的元素进行或运算,得到字符特征分布。
在一种可能的设计中,在本申请实施例的另一方面的第一种实现方式中,
识别模块,具体用于基于资源语种特征分布,通过语种识别模型所包括的资源语种网络,获取资源语种特征向量;
基于字符特征分布,通过语种识别模型所包括的文本语种网络,获取文本特征向量;
根据资源语种特征向量以及文本特征向量,生成目标特征向量;
基于目标特征向量,通过语种识别模型所包括的语种分类输出网络,获取语种概率分布;
根据语种概率分布确定语种识别结果。
在一种可能的设计中,在本申请实施例的另一方面的第一种实现方式中,
识别模块,具体用于基于资源语种特征分布,通过资源语种网络所包括的语种向量映射关系,获取资源语种特征表示,其中,资源语种网络属于语种识别模型;
基于资源语种特征表示,通过资源语种网络所包括的全连接层,获取资源语种特征向量。
在一种可能的设计中,在本申请实施例的另一方面的第一种实现方式中,
识别模块,具体用于基于字符特征分布,通过文本语种网络所包括的字符向量映射关系,获取字符嵌入表示,其中,文本语种网络包含于语种识别模型;
基于字符嵌入表示,通过文本语种网络所包括的文本编码网络,获取文本深度表示;
基于文本深度表示,通过文本语种网络所包括的全连接层,获取文本特征向量。
在一种可能的设计中,在本申请实施例的另一方面的第一种实现方式中,
获取模块,还用于获取针对目标对象的Q个历史资源,其中,目标对象为输入目标搜索文本的对象,Q个历史资源为目标对象在历史时段内触达过的资源,每个历史资源具有已标注的至少一个语种标签,Q为大于或等于1的整数;
生成模块,还用于根据每个历史资源所对应的至少一个语种标签,生成对象语种特征分布,其中,对象语种特征分布表示Q个历史资源属于M个语种标签的分布情况;
识别模块,具体用于基于资源语种特征分布、字符特征分布以及对象语种特征分布,通过语种识别模型确定语种识别结果。
在一种可能的设计中,在本申请实施例的另一方面的第一种实现方式中,
生成模块,具体用于根据每个历史资源所对应的至少一个语种标签,统计M个语种标签中每个语种标签所对应的第二累计数量;
根据M个语种标签中每个语种标签所对应的第二累计数量,生成对象语种特征分布。
在一种可能的设计中,在本申请实施例的另一方面的第一种实现方式中,
生成模块,具体用于对每个历史资源所对应的至少一个语种标签进行并集处理,得到第二语种标签集;
针对第二语种标签集中的每个语种标签,获取具有相同语种标签的历史资源集;
针对第二语种标签集中的每个语种标签,获取历史资源集中每个历史资源的第二相关参数,其中,第二相关参数包括以下一项或多项:历史资源的播放完成度,历史资源的播放间隔时长;
针对第二语种标签集中的每个语种标签,根据历史资源集中每个历史资源的第二相关参数,计算得到语种概率值;
根据第二语种标签集中每个语种标签所对应的语种概率值,生成对象语种特征分布。
在一种可能的设计中,在本申请实施例的另一方面的第一种实现方式中,
识别模块,具体用于基于资源语种特征分布,通过语种识别模型所包括的资源语种网络,获取资源语种特征向量;
基于字符特征分布,通过语种识别模型所包括的文本语种网络,获取文本特征向量;
基于对象语种特征分布,通过语种识别模型所包括的对象语种网络,获取对象语种特征向量;
根据资源语种特征向量、文本特征向量以及对象语种特征向量,生成目标特征向量;
基于目标特征向量,通过语种识别模型所包括的语种分类输出网络,获取语种概率分布;
根据语种概率分布确定语种识别结果。
在一种可能的设计中,在本申请实施例的另一方面的第一种实现方式中,
识别模块,具体用于基于对象语种特征分布,通过对象语种网络所包括的语种向量映射关系,获取对象语种特征表示,其中,对象语种网络属于语种识别模型;
基于对象语种特征表示,通过对象语种网络所包括的全连接层,获取对象语种特征向量。
在一种可能的设计中,在本申请实施例的另一方面的第一种实现方式中,语种识别装置还包括发送模块;
获取模块,具体用于接收终端发送的资源搜索请求,其中,资源搜索请求携带目标搜索文本;
根据资源搜索请求,获取目标搜索文本;
发送模块,用于根据资源语种特征分布以及字符特征分布,确定语种识别结果之后,响应资源搜索请求,向终端发送与语种识别结果匹配的资源搜索结果,以使终端显示资源搜索结果。
本申请另一方面提供一种语种识别装置,包括:
获取模块,用于获取目标搜索文本;
获取模块,还用于根据目标搜索文本,获取针对目标对象的Q个历史资源,其中,目标对象为输入目标搜索文本的对象,Q个历史资源为目标对象在历史时段内触达过的资源,每个历史资源具有已标注的至少一个语种标签,Q为大于或等于1的整数;
生成模块,用于根据每个历史资源所对应的至少一个语种标签,生成对象语种特征分布,其中,对象语种特征分布表示Q个历史资源属于M个语种标签的分布情况,M为大于1的整数;
生成模块,还用于根据目标搜索文本生成字符特征分布,其中,字符特征分布表示目标搜索文本针对各个预设字符的分布情况;
识别模块,用于根据对象语种特征分布以及字符特征分布,确定语种识别结果。
在一种可能的设计中,在本申请实施例的另一方面的第一种实现方式中,
获取模块,还用于根据目标搜索文本获取K个关联资源,其中,每个关联资源具有已标注的至少一个语种标签,K为大于或等于1的整数;
生成模块,还用于根据每个关联资源所对应的至少一个语种标签,生成资源语种特征分布,其中,资源语种特征分布表示K个关联资源属于M个语种标签的分布情况;
识别模块,具体用于基于资源语种特征分布、字符特征分布以及对象语种特征分布,通过语种识别模型确定语种识别结果。
本申请另一方面提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述各方面的方法。
本申请的另一方面提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方面的方法。
本申请的另一个方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方面的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,提供了一种基于文本的语种识别方法,获取目标搜索文本,然后根据目标搜索文本获取K个关联资源,再根据每个关联资源所对应的至少一个语种标签,生成资源语种特征分布,基于此,可根据目标搜索文本生成字符特征分布,最后,根据资源语种特征分布以及字符特征分布,确定语种识别结果。通过上述方式,利用目标搜索文本,从资源平台中获取与目标搜索文本相关的K个关联资源,这些关联资源具有一个或多个语种标签。因此,基于这些关联资源的语种标签,并结合目标搜索文本,能够为资源搜索提供更加可靠的语种线索,从而有利于提升语种识别的准确性。
附图说明
图1为本申请实施例中语种识别系统的一个架构示意图;
图2为本申请实施例中基于视频搜索的一个语种识别流程示意图;
图3为本申请实施例中语种识别方法的一个流程示意图;
图4为本申请实施例中语种识别系统的一个框架示意图;
图5为本申请实施例中构建资源语种特征向量的一个示意图;
图6为本申请实施例中构建文本特征向量的一个示意图;
图7为本申请实施例中语种识别系统的另一个框架示意图;
图8为本申请实施例中构建对象语种特征向量的一个示意图;
图9为本申请实施例中基于语种识别的一个输入页面示意图;
图10为本申请实施例中基于语种识别的一个搜索页面示意图;
图11为本申请实施例中语种识别方法的另一个流程示意图;
图12为本申请实施例中语种识别系统的另一个框架示意图;
图13为本申请实施例中语种识别装置的一个示意图;
图14为本申请实施例中语种识别装置的另一个示意图;
图15为本申请实施例中服务器的一个结构示意图;
图16为本申请实施例中终端的一个结构示意图。
具体实施方式
本申请实施例提供了一种基于文本的语种识别方法、相关装置,设备以及存储介质。本申请利用关联资源的语种标签,并结合目标搜索文本,能够为资源搜索提供更加可靠的语种线索,从而有利于提升语种识别的准确性。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
国际版的应用程序(application,APP)通常包含多个语种的版本,这些版本可面向全球用户开放。当用户进入APP进行内容搜索时,所使用的文字可以是任何一种语言。为了准确理解用户意图,首先需要解决的问题是自动识别出用户输入的搜索文本所属的语种,即进行文本语种识别。只有准确知道要处理的搜索文本是什么语种,才能进行正确的后续处理,例如,翻译或搜索等处理。由于海外语言文化差异大,构建一套完备的语种识别能力势在必行。通过结合用户个性化与业务专有的个性化数据,相比单纯只对用户输入内容进行建模,可大大提高语种识别的精确率,提升产品在国际市场的竞争能力。
为了提升语种识别的精确率,本申请提出了一种基于文本的语种识别方法,该方法应用于图1所示的语种识别系统,如图所示,语种识别系统包括服务器和终端,且客户端部署于终端上,其中,客户端可以通过浏览器的形式运行于终端上,也可以通过独立的应用程序(application,APP)的形式运行于终端上等,对于客户端的具体展现形式,此处不做限定。本申请涉及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能(Artificial Intelligence,AI)平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑、智能电视、智能手表、车载设备、可穿戴设备等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。服务器和终端的数量也不做限制。本申请提供的方案可以由终端独立完成,也可以由服务器独立完成,还可以由终端与服务器配合完成,对此,本申请并不做具体限定。
基于图1所示的语种识别系统,为了便于理解,请参阅图2,图2为本申请实施例中基于视频搜索的一个语种识别流程示意图,如图所示,具体地,用户可通过国际版APP输入文本内容用于进行资源搜索,APP向服务器反馈用户输入的文本内容。基于此,服务器可基于用户个性化特征构建对象语种特征分布;基于用户输入内容与应用平台中多语种资源匹配情况,构建资源语种特征分布;并对用户输入的内容构建字符特征分布。其中,对象语种特征分布与用户个性化特征相关,资源语种特征分布与应用平台多语种资源相关,字符特征分布与用户当前输入的内容。由此,结合这些特征分布可进行语种识别,最后,基于识别的语种进行后续相关的功能。
可以理解的是,本申请涉及的语种识别方法涉及基于AI的机器学习(MachineLearning,ML)技术,其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是AI的核心,是使计算机具有智能的根本途径,其应用遍及AI的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,AI是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。AI也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
AI技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。AI基础技术一般包括如传感器、专用AI芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。AI软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
结合上述介绍,下面将对本申请中基于文本的语种识别方法进行介绍,请参阅图3,本申请实施例中语种识别方法可以由计算机设备执行,该计算机设备可以是终端或服务器,包括:
110、获取目标搜索文本;
在一个或多个实施例中,目标对象(即,触发搜索操作的用户)可通过APP输入文本内容(即,目标搜索文本),由此,语种识别装置获取该目标搜索文本。
120、根据目标搜索文本获取K个关联资源,其中,每个关联资源具有已标注的至少一个语种标签,K为大于或等于1的整数;
在一个或多个实施例中,语种识别装置预先为各个资源构建好对应的语种标签、资源名称和资源简介等信息,然后根据各个语种对应的文本信息(例如,资源名称和资源简介等),对资源平台的各个资源构建倒排检索索引。例如,采用分布式全文检索(ElasticSearch,ES)构建倒排索引。基于此,在语种识别装置获取到目标搜索文本之后,通过ES返回与目标搜索文本有关的资源作为关联资源,由此,得到K个关联资源。其中,每个关联资源标注有至少一个语种标签。
具体地,ES使用倒排索引的结构,可适用于快速的全文搜索。一个倒排索引由资源中不重复词语的列表构成,对于每个词语而言,有一个包含该词语的资源列表。即,倒排索引建立的是词语和资源之间的映射关系。因此,基于目标搜索文本所包括的词语,可返回K个关联资源。
需要说明的是,本申请所涉及的资源可以是视频资源、音频资源或者文章资源等,此处不做限定。
130、根据每个关联资源所对应的至少一个语种标签,生成资源语种特征分布,其中,资源语种特征分布表示K个关联资源属于M个语种标签的分布情况,M为大于1的整数;
在一个或多个实施例中,语种识别装置基于K个关联资源中每个关联资源所对应的至少一个语种标签,构建资源语种特征分布。这里的资源语种特征分布可表示为一个M维的向量,每个维度对应于一个语种标签,且,每个维度对应的元素即为对应语种标签的出现情况。例如,有3个关联资源均具有语种标签为“汉语”,那么“汉语”语种标签对应位置的元素可设置为“1”。又例如,K个关联资源不具有语种标签“俄语”,那么“俄语”语种标签对应位置的元素可设置为“0”。
140、根据目标搜索文本生成字符特征分布,其中,字符特征分布表示目标搜索文本针对各个预设字符的分布情况;
在一个或多个实施例中,语种识别装置对目标搜索文本进行符号(token)化处理,以此得到至少一个字符。由于各个语种分词算法差异较大,为了提升模型的语种适用范围,可直接使用统一码(unicode)字符进行切分。基于此,将切分得到的字符与各个预设字符进行匹配,根据字符匹配情况,生成相应的字符特征分布。
可以理解的是,字符特征分布表示目标搜索文本针对各个预设字符的分布情况。假设目标搜索文本中有10个字符命中预设字符,那么这10个预设字符对应位置的元素可设置为“1”,而未命中的预设字符对应位置的元素可设置为“0”。
150、根据资源语种特征分布以及字符特征分布,确定语种识别结果。
在一个或多个实施例中,语种识别装置将资源语种特征分布以及字符特征分布作为语种识别模型的输入,通过语种识别模型输出语种概率分布。最后,根据语种概率分布确定对应的语种识别结果。
本申请实施例中,提供了一种基于文本的语种识别方法。通过上述方式,利用目标搜索文本,从资源平台中获取与目标搜索文本相关的K个关联资源,这些关联资源具有一个或多个语种标签。因此,基于这些关联资源的语种标签,并结合目标搜索文本,能够为资源搜索提供更加可靠的语种线索,从而有利于提升语种识别的准确性。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,根据每个关联资源所对应的至少一个语种标签,生成资源语种特征分布,具体可以包括:
根据每个关联资源所对应的至少一个语种标签,统计M个语种标签中每个语种标签所对应的第一累计数量;
根据M个语种标签中每个语种标签所对应的第一累计数量,生成资源语种特征分布。
在一个或多个实施例中,介绍了一种生成资源语种特征分布的方式。由前述实施例可知,K个关联资源中每个关联资源所对应的至少一个语种标签,因此,可统计各个语种标签在K个关联资源中出现的累计数量(即,第一累计数量)。
具体地,假设共有7个语种标签(即,M等于7),分别为汉语、英语、法语、俄语、泰语、日语和德语。假设K个关联资源为5个视频资源,为了便于理解,请参阅表1,表1为各个关联资源对应语种标签的一个示意。
表1
由表1可见,语种标签为“汉语”的第一累计数量为3,语种标签为“英语”的第一累计数量为4,语种标签为“法语”的第一累计数量为2,语种标签为“俄语”的第一累计数量为0,语种标签为“泰语”的第一累计数量为1,语种标签为“日语”的第一累计数量为2,语种标签为“德语”的第一累计数量为1。基于此,其特征分布可表示为(3,4,2,0,1,2,1)。
示例性地,一种方式为,可直接将该特征分布作为资源语种特征分布。即,资源语种特征分布可表示为(3,4,2,0,1,2,1)。
示例性地,另一种方式为,可将第一累计数量大于或等于数量阈值的语种标签对应的元素设置为“1”,而第一累计数量小于数量阈值的语种标签对应的元素设置为“0”。假设数量阈值为2,基于此,资源语种特征分布可表示为(1,1,1,0,0,1,0)。
其次,本申请实施例中,提供了一种生成资源语种特征分布的方式。通过上述方式,可对K个关联资源的语种标签进行统计,根据统计结果生成对应的资源语种特征分布,从而使资源语种特征分布贴近于各个资源在不同语种上的分布情况。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,根据每个关联资源所对应的至少一个语种标签,生成资源语种特征分布,具体可以包括:
对每个关联资源所对应的至少一个语种标签进行并集处理,得到第一语种标签集;
针对第一语种标签集中的每个语种标签,获取具有相同语种标签的关联资源集;
针对第一语种标签集中的每个语种标签,获取关联资源集中每个关联资源的第一相关参数,其中,第一相关参数包括以下一项或多项:关联资源与目标搜索文本的相似度,关联资源的播放热度;
针对第一语种标签集中的每个语种标签,根据关联资源集中每个关联资源的第一相关参数,计算得到语种概率值;
根据第一语种标签集中每个语种标签所对应的语种概率值,生成资源语种特征分布。
在一个或多个实施例中,介绍了另一种生成资源语种特征分布的方式。由前述实施例可知,当前用户输入的目标搜索文本,可能会与资源的特定语种名称相关,如果当前用户输入的目标搜索文本能够匹配到关联资源的语种标签,则该语种标签可能是待识别的目标语种之一。
具体地,对K个关联资源中每个关联资源的语种标签进行并集处理,得到第一语种标签集。为了便于理解,请再次参阅表1,第一语种标签集包括“汉语”、“英语”、“日语”、“法语”、“德语”和“泰语”。于是,可进一步从K个关联资源中获取具有相同语种标签的关联资源集。例如,具有“汉语”语种标签的关联资源集包括“视频资源A”、“视频资源B”和“视频资源E”,又例如,具有“英语”语种标签的关联资源集包括“视频资源A”、“视频资源C”、“视频资源D”和“视频资源E”。为了便于理解,以第一语种标签集中某个语种标签(例如,“汉语”语种标签)对应的关联资源集为例进行介绍。获取某个语种标签对应的关联资源集中每个关联资源的第一相关参数,其中,第一相关参数包括关联资源与目标搜索文本的相似度,和/或,关联资源的播放热度。由此,可根据关联资源集中每个关联资源的第一相关参数,采用如下三种方式计算语种标签所对应的语种概率值。
方式一:
Q_j=sum_i(similairty_i×hot_i);
其中,Q_j表示第j个语种标签所对应的语种概率值。similairty_i表示关联资源集中第i个关联资源与目标搜索文本的相似度。hot_i表示关联资源集中第i个关联资源的播放热度。sum_i表示对关联资源集中各个关联资源进行求和。
方式二:
Q_j=sum_i(similairty_i);
其中,Q_j表示第j个语种标签所对应的语种概率值。similairty_i表示关联资源集中第i个关联资源与目标搜索文本的相似度。sum_i表示对关联资源集中各个关联资源进行求和。
方式三:
Q_j=sum_i(hot_i);
其中,Q_j表示第j个语种标签所对应的语种概率值。hot_i表示关联资源集中第i个关联资源的播放热度。sum_i表示对关联资源集中各个关联资源进行求和。
基于此,得到各个语种标签所对应的语种概率值,进一步地,可对这些语种概率值进行归一化处理,假设归一化后的特征分布为(0.1,0.2,0,0,0.5,0,0.2),假设大于或等于0.2的元素设置为1,基于此,资源语种特征分布可表示为(0,1,0,0,1,0,1)。
可以理解的是,关联资源的播放热度可以是关联资源的点击量、关联资源的播放量或关联资源的转发量等,也可以采用如下方式计算关联资源的播放热度:
hot_i=times_i×completed_i/C;
其中,hot_i表示关联资源集中第i个关联资源的播放热度。times_i表示关联资源集中第i个关联资源以第j个语种进行播放的次数。completed_i表示关联资源集中第i个关联资源以第j个语种进行播放的完成度。C表示资源平台的最大播放次数。
可以理解的是,可采用最匹配(Best Matching 25,BM25)算法获取关联资源与目标搜索文本之间相似度,或,采用词频-逆向文件频率(term frequency–inverse documentfrequency,TF-IDF)算法获取关联资源与目标搜索文本之间相似度,或,将关联资源的资源名称与目标搜索文本的语义相似度作为关联资源与目标搜索文本之间相似度。
其次,本申请实施例中,提供了另一种生成资源语种特征分布的方式。通过上述方式,可结合各个关联资源与目标搜索文本之间的相似度以及关联资源的播放热度,构建资源语种特征分布,从而使资源语种特征分布更贴近于资源在热度和相似度上的分布情况。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,根据目标搜索文本生成字符特征分布,具体可以包括:
将目标搜索文本划分为字符序列,其中,字符序列包括T个字符,T为大于或等于1的字符;
采用字符词典对字符序列中的每个字符进行匹配,得到T个字符编码向量,其中,每个字符编码向量对应于一个字符,且,每个字符编码向量包括N个元素,字符词典包括N个预设字符;
对T个字符编码向量中对应位置上的元素进行或运算,得到字符特征分布。
在一个或多个实施例中,介绍了一种基于字符词典生成字符特征分布的方式。由前述实施例可知,对目标搜索文本进行token化处理后,得到字符序列,其中,字符序列包括T个已切分好的字符。基于此,将切分得到的字符与字符词典中各个预设字符进行匹配,根据字符匹配情况,生成相应的字符特征分布。
具体地,以字符词典中包括7个预设字符为例,每个预设字符对应于一个元素位置,为了便于理解,请参阅表2,表2为字符词典中各个预设字符与对应元素位置的一个示意。
表2
预设字符 | 元素位置 |
A | 1 |
B | 2 |
C | 3 |
D | 4 |
E | 5 |
F | 6 |
G | 7 |
假设目标搜索文本经过字符切分之后,得到4个字符,分别为“A”、“D”、“C”和“W”。其中,“A”、“D”和“C”命中预设字符。分别对这三个字符进行独热(one-hot)编码,由此,得到如下三个字符编码向量:
字符“A”的字符编码向量为(1,0,0,0,0,0,0);
字符“D”的字符编码向量为(0,0,0,1,0,0,0);
字符“C”的字符编码向量为(0,0,1,0,0,0,0);
基于上述三个字符编码向量,可将对应位置的元素进行或运算,从而得到字符特征分布为(1,0,0,0,0,0,0)。其中,或运算表示参与运算的元素中有一个值为“1”,则其结果为“1”。
需要说明的是,在实际应用中,可字符词典中可设置几万个预设字符,假设有10000个预设字符,那么字符特征分布可表示为一个10000维的向量。
其次,本申请实施例中,提供了一种基于字符词典生成字符特征分布的方式。通过上述方式,利用预先构建的字符词典对用户输入的文本内容进行匹配,由于字符词典会根据语种的特点进行构建,因此,生成的字符特征分布能够更好地体现用户输入的文本内容与语种之间的相关性。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,根据资源语种特征分布以及字符特征分布,确定语种识别结果,具体可以包括:
基于资源语种特征分布,通过语种识别模型所包括的资源语种网络,获取资源语种特征向量;
基于字符特征分布,通过语种识别模型所包括的文本语种网络,获取文本特征向量;
根据资源语种特征向量以及文本特征向量,生成目标特征向量;
基于目标特征向量,通过语种识别模型所包括的语种分类输出网络,获取语种概率分布;
根据语种概率分布确定语种识别结果。
在一个或多个实施例中,介绍了一种基于语种识别模型确定语种识别结果的方式。由前述实施例可知,一方面,在获取用户当前输入的目标搜索文本之后,可将目标搜索文本与资源平台中各个资源进行匹配,由此构建资源语种特征分布。另一方面,对目标搜索文本进行token化处理,按字符进行切分,由此构建字符特征分布。
具体地,为了便于理解,请参阅图4,图4为本申请实施例中语种识别系统的一个框架示意图,如图所示,语种识别模型包括资源语种网络以及文本语种网络。资源语种特征分布可表示为(1,0,0,1,1,0,0),将资源语种特征分布作为资源语种网络的输入,通过资源语种网络输出资源语种特征向量。字符特征分布可表示为(0,1,1,0,1,0,1),将字符特征分布作为文本语种网络的输入,通过文本语种网络输出文本特征向量。基于此,将资源语种特征向量和文本特征向量进行组合,从而生成目标特征向量。
将目标特征向量作为语种分类输出网络的输入,其中,语种分类输出网络使用语种向量的参数,由此,可以降低模型的参数量,同时提升模型的建模能力。通过语种分类输出网络输出语种概率分布,语种概率分布表示在M个语种标签的分布概率。因此,可将语种概率分布中最大概率值所对应的语种标签作为语种识别结果。
可以理解的是,资源语种特征向量和文本特征向量的组合方式包含但不仅限于拼接(concat)处理,加权求和处理,加权平均处理等。
其次,本申请实施例中,提供了一种基于语种识别模型确定语种识别结果的方式。通过上述方式,利用资源语种网络和文本语种网络分别输出的特征向量,生成目标特征向量。可见,目标特征向量融合了文本和资源在语种分布上的特征,从而使得语种识别能力更加完备,为资源搜索提供更加精准的语种特征,降低多语种用户使用资源搜索功能时手动切换语种的操作代价,提升用户使用体验。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,基于资源语种特征分布,通过语种识别模型所包括的资源语种网络,获取资源语种特征向量,具体可以包括:
基于资源语种特征分布,通过资源语种网络所包括的语种向量映射关系,获取资源语种特征表示,其中,资源语种网络属于语种识别模型;
基于资源语种特征表示,通过资源语种网络所包括的全连接层,获取资源语种特征向量。
在一个或多个实施例中,介绍了一种基于资源语种网络获取资源语种特征向量的方式。由前述实施例可知,将目标搜索文本与资源平台中各个资源进行匹配,由此,构建资源语种特征分布。
具体地,为了便于理解,请参阅图5,图5为本申请实施例中构建资源语种特征向量的一个示意图,如图所示,基于构建好的资源语种特征分布查询语种向量表(lookuptable,LT),其中,语种向量表用于表示语种向量映射关系。然后,根据资源语种特征分布以及语种向量映射关系进行加权求和,得到资源语种特征表示。为了便于理解,请参阅表3,表3为语种向量映射关系的一个示意。
表3
语种标签 | 语种向量 |
汉语 | v1 |
英语 | v2 |
法语 | v3 |
俄语 | v4 |
泰语 | v5 |
日语 | v6 |
德语 | v7 |
示例性地,假设资源语种特征分布为(1,0,0,1,1,0,0),基于此,经过加权求和之后得到的资源语种特征表示,即,(v1,0,0,v4,v5,v6,v7)。由此,将资源语种特征表示作为全连接层的输入,通过全连接层输出资源语种特征向量。
再次,本申请实施例中,提供了一种基于资源语种网络获取资源语种特征向量的方式。通过上述方式,可利用资源语种网络输出资源语种特征向量,由此,提升方案的可行性和可操作性。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,基于字符特征分布,通过语种识别模型所包括的文本语种网络,获取文本特征向量,具体可以包括:
基于字符特征分布,通过文本语种网络所包括的字符向量映射关系,获取字符嵌入表示,其中,文本语种网络包含于语种识别模型;
基于字符嵌入表示,通过文本语种网络所包括的文本编码网络,获取文本深度表示;
基于文本深度表示,通过文本语种网络所包括的全连接层,获取文本特征向量。
在一个或多个实施例中,介绍了一种基于文本语种网络获取文本特征向量的方式。由前述实施例可知,对目标搜索文本进行token化处理,按字符进行切分,由此,构建字符特征分布。
具体地,为了便于理解,请参阅图6,图6为本申请实施例中构建文本特征向量的一个示意图,如图所示,基于构建好的字符特征分布查询字符向量表(lookup table,LT),其中,字符向量表用于表示字符向量映射关系。然后,根据字符特征分布以及字符向量映射关系进行加权求和,得到字符嵌入表示。为了便于理解,请参阅表4,表4为字符向量映射关系的一个示意。
表4
示例性地,假设字符特征分布为(0,1,1,0,1,0,1),基于此,经过加权求和之后得到的字符嵌入表示,即,(0,v21,v31,0,v51,0,v7)。将字符嵌入表示作为文本编码网络的输入。可以理解的是,文本编码网络可采用基于变换器的双向编码器(BidirectionalEncoder Representations from Transformers,BERT)。文本编码网络输出的字符表示经过最大池化层之后,构建出文本深度表示。由此,将文本深度表示作为全连接层的输入,通过全连接层输出文本特征向量。
需要说明的是,模型训练的过程中,语种向量映射关系和字符向量映射关系会自动进行参数更新。
再次,本申请实施例中,提供了一种基于文本语种网络获取文本特征向量的方式。通过上述方式,可利用文本语种网络输出文本特征向量,由此,提升方案的可行性。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,还可以包括:
获取针对目标对象的Q个历史资源,其中,目标对象为输入目标搜索文本的对象,Q个历史资源为目标对象在历史时段内触达过的资源,每个历史资源具有已标注的至少一个语种标签,Q为大于或等于1的整数;
根据每个历史资源所对应的至少一个语种标签,生成对象语种特征分布,其中,对象语种特征分布表示Q个历史资源属于M个语种标签的分布情况;
根据资源语种特征分布以及字符特征分布,确定语种识别结果,具体可以包括:
基于资源语种特征分布、字符特征分布以及对象语种特征分布,通过语种识别模型确定语种识别结果。
在一个或多个实施例中,介绍了另一种基于文本的语种识别方法。由前述实施例可知,获取目标对象(即,触发搜索操作的用户)在历史时段内触达过的资源,从而得到Q个历史资源。其中,语种识别装置预先为各个资源构建好对应的语种标签,因此,可获取每个历史资源所对应的至少一个语种标签。
可以理解的是,触达资源的方式包含但不仅限于播放资源,查看资源,搜索资源等,此处不做限定。
具体地,基于Q个历史资源中每个历史资源所对应的至少一个语种标签,构建对象语种特征分布。这里的对象语种特征分布可表示为一个M维的向量,每个维度对应于一个语种标签,且,每个维度对应的元素即为对应语种标签的出现概率。基于此,将对象语种特征分布以及字符特征分布作为语种识别模型的输入,通过语种识别模型输出语种概率分布。最后,根据语种概率分布确定对应的语种识别结果。
其次,本申请实施例中,提供了另一种基于文本的语种识别方法。通过上述方式,通过增强用户个性化特征,结合多语种资源,对用户输入的内容进行深度建模,提升对用户搜索输入的语种识别能力。当用户在输入过程中,出现输入内容较少或语种歧义问题明显的情况,能够为搜索输入建议和纠错,并构建更加精准的语种特征。为资源搜索提供更加精准的语种特征,降低多语种用户使用资源搜索功能时手动切换语种的操作代价,提升用户使用体验。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,根据每个历史资源所对应的至少一个语种标签,生成对象语种特征分布,具体可以包括:
根据每个历史资源所对应的至少一个语种标签,统计M个语种标签中每个语种标签所对应的第二累计数量;
根据M个语种标签中每个语种标签所对应的第二累计数量,生成对象语种特征分布。
在一个或多个实施例中,介绍了一种生成对象语种特征分布的方式。由前述实施例可知,Q个历史资源中每个历史资源所对应的至少一个语种标签,因此,可统计各个语种标签在Q个历史资源中出现的累计数量(即,第二累计数量)。
具体地,假设共有7个语种标签(即,M等于7),分别为汉语、英语、法语、俄语、泰语、日语和德语。假设Q个历史资源为5个视频资源,为了便于理解,请参阅表5,表5为各个历史资源对应语种标签的一个示意。
表5
历史资源 | 语种标签 |
视频资源X | 汉语、英语 |
视频资源Y | 汉语、日语 |
视频资源Z | 英语、法语、德语 |
视频资源N | 英语、泰语、法语、日语 |
视频资源M | 汉语、英语 |
由表5可见,语种标签为“汉语”的第二累计数量为3,语种标签为“英语”的第二累计数量为4,语种标签为“法语”的第二累计数量为2,语种标签为“俄语”的第二累计数量为0,语种标签为“泰语”的第二累计数量为1,语种标签为“日语”的第二累计数量为2,语种标签为“德语”的第二累计数量为1。基于此,其特征分布可表示为(3,4,2,0,1,2,1)。
示例性地,一种方式为,可直接将该特征分布作为对象语种特征分布。即,对象语种特征分布可表示为(3,4,2,0,1,2,1)。
示例性地,另一种方式为,可将第二累计数量大于或等于数量阈值的语种标签对应的元素设置为“1”,而第二累计数量小于数量阈值的语种标签对应的元素设置为“0”。假设数量阈值为2,基于此,对象语种特征分布可表示为(1,1,1,0,0,1,0)。
再次,本申请实施例中,提供了一种生成对象语种特征分布的方式。通过上述方式,可对Q个历史资源的语种标签进行统计,根据统计结果生成对应的对象语种特征分布,从而使对象语种特征分布贴近于用户个性化的资源播放情况。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,根据每个历史资源所对应的至少一个语种标签,生成对象语种特征分布,具体可以包括:
对每个历史资源所对应的至少一个语种标签进行并集处理,得到第二语种标签集;
针对第二语种标签集中的每个语种标签,获取具有相同语种标签的历史资源集;
针对第二语种标签集中的每个语种标签,获取历史资源集中每个历史资源的第二相关参数,其中,第二相关参数包括以下一项或多项:历史资源的播放完成度,历史资源的播放间隔时长;
针对第二语种标签集中的每个语种标签,根据历史资源集中每个历史资源的第二相关参数,计算得到语种概率值;
根据第二语种标签集中每个语种标签所对应的语种概率值,生成对象语种特征分布。
在一个或多个实施例中,介绍了另一种生成资源语种特征分布的方式。由前述实施例可知,基于目标对象(即,触发搜索操作的用户)的历史个性化触达资源(例如,播放视频资源),为用户构建出一个比较准确的对象语种特征分布。
具体地,对Q个历史资源中每个历史资源的语种标签进行并集处理,得到第二语种标签集。为了便于理解,请再次参阅表5,第二语种标签集包括“汉语”、“英语”、“日语”、“法语”、“德语”和“泰语”。于是,可进一步从Q个历史资源中获取具有相同语种标签的历史资源集。例如,具有“汉语”语种标签的历史资源集包括“视频资源X”、“视频资源Y”和“视频资源M”,又例如,具有“英语”语种标签的历史资源集包括“视频资源X”、“视频资源Z”、“视频资源N”和“视频资源M”。为了便于理解,以第二语种标签集中某个语种标签(例如,“汉语”语种标签)对应的历史资源集为例进行介绍。获取某个语种标签对应的历史资源集中每个历史资源的第二相关参数,其中,第二相关参数包括历史资源的播放完成度,和/或,历史资源的播放间隔时长。由此,可根据历史资源集中每个历史资源的第二相关参数,采用如下三种方式计算语种标签所对应的语种概率值。
方式一:
U_j=sum_i(completeplay_i/log(time+T));
其中,U_j表示目标对象针对第j个语种标签的语种概率值。completeplay_i表示目标对象采用第j个语种播放第i个历史资源的完成度。time表示目标对象采用第j个语种播放第i个历史资源距离当前时间的间隔时长(例如,天数或者小时数等)。T为大于1的常数。sum_i表示对历史资源集中各个历史资源进行求和。
方式二:
U_j=sum_i(completeplay_i);
其中,U_j表示目标对象针对第j个语种标签的语种概率值。completeplay_i表示目标对象采用第j个语种播放第i个历史资源的完成度。sum_i表示对历史资源集中各个历史资源进行求和。
方式三:
U_j=sum_i(log(time+T));
其中,U_j表示目标对象针对第j个语种标签的语种概率值。time表示目标对象采用第j个语种播放第i个历史资源距离当前时间的间隔时长(例如,天数或者小时数等)。T为大于1的常数。sum_i表示对历史资源集中各个历史资源进行求和。
基于此,得到各个语种标签所对应的语种概率值,进一步地,可对这些语种概率值进行归一化处理,假设归一化后的特征分布为(0.1,0.2,0,0,0.5,0,0.2),假设大于或等于0.2的元素设置为1,基于此,对象语种特征分布可表示为(0,1,0,0,1,0,1)。
其次,本申请实施例中,提供了另一种生成资源语种特征分布的方式。通过上述方式,可结合用户个性化的历史触达情况,构建资源语种特征分布,从而使对象语种特征分布贴近于用户个性化的资源播放情况。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,基于资源语种特征分布、字符特征分布以及对象语种特征分布,通过语种识别模型确定语种识别结果,具体可以包括:
基于资源语种特征分布,通过语种识别模型所包括的资源语种网络,获取资源语种特征向量;
基于字符特征分布,通过语种识别模型所包括的文本语种网络,获取文本特征向量;
基于对象语种特征分布,通过语种识别模型所包括的对象语种网络,获取对象语种特征向量;
根据资源语种特征向量、文本特征向量以及对象语种特征向量,生成目标特征向量;
基于目标特征向量,通过语种识别模型所包括的语种分类输出网络,获取语种概率分布;
根据语种概率分布确定语种识别结果。
在一个或多个实施例中,介绍了另一种基于语种识别模型确定语种识别结果的方式。由前述实施例可知,一方面,在获取用户当前输入的目标搜索文本之后,可将目标搜索文本与资源平台中各个资源进行匹配,由此构建资源语种特征分布。另一方面,对目标搜索文本进行token化处理,按字符进行切分,由此构建字符特征分布。还有一方面,在获取目标对象(即,触发搜索操作的用户)当前输入的目标搜索文本之后,可获取该目标对象在历史时段内触达过的资源,构建对象语种特征分布。
具体地,为了便于理解,请参阅图7,图7为本申请实施例中语种识别系统的另一个框架示意图,如图所示,语种识别模型包括对象语种网络、资源语种网络以及文本语种网络。对象语种特征分布可表示为(0,1,0,1,0,0,0),将对象语种特征分布作为对象语种网络的输入,通过对象语种网络输出对象语种特征向量。资源语种特征分布可表示为(1,0,0,1,1,0,0),将资源语种特征分布作为资源语种网络的输入,通过资源语种网络输出资源语种特征向量。字符特征分布可表示为(0,1,1,0,1,0,1),将字符特征分布作为文本语种网络的输入,通过文本语种网络输出文本特征向量。基于此,将对象语种特征向量、资源语种特征向量和文本特征向量进行组合,从而生成目标特征向量。
将目标特征向量作为语种分类输出网络的输入,其中,语种分类输出网络使用语种向量的参数,由此,可以降低模型的参数量,同时提升模型的建模能力。通过语种分类输出网络输出语种概率分布,语种概率分布表示在M个语种标签的分布概率。因此,可将语种概率分布中最大概率值所对应的语种标签作为语种识别结果。
可以理解的是,资源语种特征向量、文本特征向量以及对象语种特征向量的组合方式包含但不仅限于concat处理,加权求和处理,加权平均处理等。
再次,本申请实施例中,提供了另一种基于语种识别模型确定语种识别结果的方式。通过上述方式,利用资源语种网络、对象语种网络和文本语种网络分别输出的特征向量,生成目标特征向量。可见,目标特征向量融合了文本、资源以及用户个性化搜索在语种分布上的特征,从而使得语种识别能力更加完备,为资源搜索提供更加精准的语种特征,降低多语种用户使用资源搜索功能时手动切换语种的操作代价,提升用户使用体验。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,基于对象语种特征分布,通过语种识别模型所包括的对象语种网络,获取对象语种特征向量,具体可以包括:
基于对象语种特征分布,通过对象语种网络所包括的语种向量映射关系,获取对象语种特征表示,其中,对象语种网络属于语种识别模型;
基于对象语种特征表示,通过对象语种网络所包括的全连接层,获取对象语种特征向量。
在一个或多个实施例中,介绍了一种基于对象语种网络获取对象语种特征向量的方式。由前述实施例可知,可根据目标对象(即,触发搜索操作的用户)在历史时段内触达过的资源,构建对象语种特征分布。
具体地,为了便于理解,请参阅图8,图8为本申请实施例中构建对象语种特征向量的一个示意图,如图所示,基于构建好的对象语种特征分布查询语种向量表(lookuptable,LT),其中,语种向量表用于表示语种向量映射关系。然后,根据对象语种特征分布以及语种向量映射关系进行加权求和,得到对象语种特征表示。为了便于理解,请再次参阅表3,示例性地,假设对象语种特征分布为(0,1,0,1,0,0,0),基于此,经过加权求和之后得到的对象语种特征表示,即,(0,v2,0,v4,0,0,0)。由此,将对象语种特征表示作为全连接层的输入,通过全连接层输出对象语种特征向量。
进一步地,本申请实施例中,提供了一种基于对象语种网络获取对象语种特征向量的方式。通过上述方式,可利用对象语种网络输出对象语种特征向量,由此,提升方案的可行性和可操作性。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,获取目标搜索文本,具体可以包括:
接收终端发送的资源搜索请求,其中,资源搜索请求携带目标搜索文本;
根据资源搜索请求,获取目标搜索文本;
根据资源语种特征分布以及字符特征分布,确定语种识别结果之后,还可以包括:
响应资源搜索请求,向终端发送与语种识别结果匹配的资源搜索结果,以使终端显示资源搜索结果。
在一个或多个实施例中,介绍了一种基于语种识别的搜索方式。由前述实施例可知,目标对象(即,触发搜索操作的用户)可通过终端输入目标搜索文本,然后向服务器发送携带目标搜索文本的资源搜索请求。服务器解析资源搜索请求之后,即可获得目标搜索文本。基于此,服务器根据目标搜索文本进行语种识别,根据识别结果向终端反馈相应的资源搜索结果,由终端展示资源搜索结果。
具体地,为了便于理解,请参阅图9,图9为本申请实施例中基于语种识别的一个输入页面示意图,如图所示,以视频平台为例,在输入页面上输入目标搜索文本,例如,目标搜索文本为“Saat Kita M”,视频平台对用户输入的目标搜索文本进行语种识别,然后基于语种识别结果提示推荐词,例如,“Saat Kita Menikah”和“Saat Kita Menulis KisahCinta”。
进一步地,用户可选择一个搜索词,例如,选择“Saat Kita Menikah”,由此,显示如图10所示的界面,请参阅图10,图10为本申请实施例中基于语种识别的一个搜索页面示意图,视频平台可识别用户当前输入的是语种识别结果为印尼语,基于此,重点为用户展示印尼语相关信息。可见,准确识别用户当前输入内容的语种能够提升搜索使用体验。
其次,本申请实施例中,提供了一种基于语种识别的搜索方式。通过上述方式,可提升资源搜索输入时的语种识别能力,一定程度上降低多语种用户手动切换语种的代价,为用户提供更加友好地资源搜索体验。
结合上述介绍,下面将对本申请中基于文本的语种识别方法进行介绍,请参阅图11,本申请实施例中语种识别方法可以由计算机设备执行,该计算机设备可以是终端或服务器,包括:
210、获取目标搜索文本;
在一个或多个实施例中,目标对象(即,触发搜索操作的用户)可通过APP输入文本内容(即,目标搜索文本),由此,语种识别装置获取该目标搜索文本。
220、根据目标搜索文本,获取针对目标对象的Q个历史资源,其中,目标对象为输入目标搜索文本的对象,Q个历史资源为目标对象在历史时段内触达过的资源,每个历史资源具有已标注的至少一个语种标签,Q为大于或等于1的整数;
在一个或多个实施例中,语种识别装置获取目标对象(即,触发搜索操作的用户)在历史时段内触达过的资源,从而得到Q个历史资源。其中,语种识别装置预先为各个资源构建好对应的语种标签,因此,可获取每个历史资源所对应的至少一个语种标签。
可以理解的是,触达资源的方式包含但不仅限于播放资源,查看资源,搜索资源等,此处不做限定。本申请所涉及的资源可以是视频资源、音频资源或者文章资源等,此处不做限定。
230、根据每个历史资源所对应的至少一个语种标签,生成对象语种特征分布,其中,对象语种特征分布表示Q个历史资源属于M个语种标签的分布情况,M为大于1的整数;
在一个或多个实施例中,语种识别装置基于Q个历史资源中每个历史资源所对应的至少一个语种标签,构建对象语种特征分布。这里的对象语种特征分布可表示为一个M维的向量,每个维度对应于一个语种标签,且,每个维度对应的元素即为对应语种标签的出现概率。其中,M为大于1的整数。
240、根据目标搜索文本生成字符特征分布,其中,字符特征分布表示目标搜索文本针对各个预设字符的分布情况;
在一个或多个实施例中,语种识别装置对目标搜索文本进行token化处理,以此得到至少一个字符。由于各个语种分词算法差异较大,为了提升模型的语种适用范围,可直接使用unicode字符进行切分。基于此,将切分得到的字符与各个预设字符进行匹配,根据字符匹配情况,生成相应的字符特征分布。
可以理解的是,字符特征分布表示目标搜索文本针对各个预设字符的分布情况。假设目标搜索文本中有10个字符命中预设字符,那么这10个预设字符对应位置的出现概率为“1”,而未命中的预设字符对应位置的出现概率为“0”。
250、根据对象语种特征分布以及字符特征分布,确定语种识别结果。
在一个或多个实施例中,语种识别装置将对象语种特征分布以及字符特征分布作为语种识别模型的输入,通过语种识别模型输出语种概率分布。最后,根据语种概率分布确定对应的语种识别结果。
具体地,为了便于理解,请参阅图12,图12为本申请实施例中语种识别系统的另一个框架示意图,如图所示,语种识别模型包括对象语种模型以及文本语种网络。对象语种特征分布可表示为(0,1,0,1,0,0,0),将对象语种特征分布作为对象语种模型的输入,通过对象语种模型输出对象语种特征向量。字符特征分布可表示为(0,1,1,0,1,0,1),将字符特征分布作为文本语种网络的输入,通过文本语种网络输出文本特征向量。基于此,将对象语种特征向量和文本特征向量进行组合,从而生成目标特征向量。
将目标特征向量作为语种分类输出网络的输入,其中,语种分类输出网络使用语种向量的参数,由此,可以降低模型的参数量,同时提升模型的建模能力。通过语种分类输出网络输出语种概率分布,语种概率分布表示在M个语种标签的分布概率。因此,可将语种概率分布中最大概率值所对应的语种标签作为语种识别结果。
可以理解的是,对象语种特征向量和文本特征向量的组合方式包含但不仅限于concat处理,加权求和处理,加权平均处理等。
本申请实施例中,提供了一种基于文本的语种识别方法。通过上述方式,利用目标搜索文本,从资源平台中获取用户在过去一段时间内触达过的Q个历史资源,这些历史资源具有一个或多个语种标签。因此,基于这些历史资源的语种标签,并结合目标搜索文本,能够为资源搜索提供更加可靠的语种线索,从而有利于提升语种识别的准确性。
可选地,在上述图11对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,还可以包括:
根据目标搜索文本获取K个关联资源,其中,每个关联资源具有已标注的至少一个语种标签,K为大于或等于1的整数;
根据每个关联资源所对应的至少一个语种标签,生成资源语种特征分布,其中,资源语种特征分布表示K个关联资源属于M个语种标签的分布情况;
根据对象语种特征分布以及字符特征分布,确定语种识别结果,包括:
基于资源语种特征分布、字符特征分布以及对象语种特征分布,通过语种识别模型确定语种识别结果。
在一个或多个实施例中,介绍了一种基于文本的语种识别方法。由前述实施例可知,预先为各个资源构建好对应的语种标签、资源名称和资源简介等信息,然后根据各个语种对应的资源名称和资源简介等,采用ES对资源平台的各个资源构建倒排检索索引。基于此,在获取到目标搜索文本之后,通过ES返回与目标搜索文本有关的资源作为关联资源,由此,得到K个关联资源。其中,每个关联资源标注有至少一个语种标签。
具体地,倒排索引建立的是词语和资源之间的映射关系。因此,基于目标搜索文本所包括的词语,可返回K个关联资源。基于K个关联资源中每个关联资源所对应的至少一个语种标签,构建资源语种特征分布。这里的资源语种特征分布可表示为一个M维的向量,每个维度对应于一个语种标签,且,每个维度对应的元素即为对应语种标签的出现情况。基于此,将资源语种特征分布、字符特征分布以及对象语种特征分布作为语种识别模型的输入,通过语种识别模型输出语种概率分布。由此,可基于语种概率分布确定对应的语种识别结果。
其次,本申请实施例中,提供了一种基于文本的语种识别方法。通过上述方式,利用目标搜索文本,从资源平台中获取与目标搜索文本相关的K个关联资源,这些关联资源具有一个或多个语种标签。因此,基于这些关联资源的语种标签,并结合目标搜索文本以及Q个历史资源,能够为资源搜索提供更加可靠的语种线索,从而有利于提升语种识别的准确性。
下面对本申请中的语种识别装置进行详细描述,请参阅图13,图13为本申请实施例中语种识别装置的一个实施例示意图,语种识别装置30包括:
获取模块310,用于获取目标搜索文本;
获取模块310,还用于根据目标搜索文本获取K个关联资源,其中,每个关联资源具有已标注的至少一个语种标签,K为大于或等于1的整数;
生成模块320,用于根据每个关联资源所对应的至少一个语种标签,生成资源语种特征分布,其中,资源语种特征分布表示K个关联资源属于M个语种标签的分布情况,M为大于1的整数;
生成模块320,还用于根据目标搜索文本生成字符特征分布,其中,字符特征分布表示目标搜索文本针对各个预设字符的分布情况;
识别模块330,用于根据资源语种特征分布以及字符特征分布,确定语种识别结果。
本申请实施例中,提供了一种语种识别装置。采用上述装置,利用目标搜索文本,从资源平台中获取与目标搜索文本相关的K个关联资源,这些关联资源具有一个或多个语种标签。因此,基于这些关联资源的语种标签,并结合目标搜索文本,能够为资源搜索提供更加可靠的语种线索,从而有利于提升语种识别的准确性。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的语种识别装置30的另一实施例中,
生成模块320,具体用于根据每个关联资源所对应的至少一个语种标签,统计M个语种标签中每个语种标签所对应的第一累计数量;
根据M个语种标签中每个语种标签所对应的第一累计数量,生成资源语种特征分布。
本申请实施例中,提供了一种语种识别装置。采用上述装置,可对K个关联资源的语种标签进行统计,根据统计结果生成对应的资源语种特征分布,从而使资源语种特征分布贴近于各个资源在不同语种上的分布情况。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的语种识别装置30的另一实施例中,
生成模块320,具体用于对每个关联资源所对应的至少一个语种标签进行并集处理,得到第一语种标签集;
针对第一语种标签集中的每个语种标签,获取具有相同语种标签的关联资源集;
针对第一语种标签集中的每个语种标签,获取关联资源集中每个关联资源的第一相关参数,其中,第一相关参数包括以下一项或多项:关联资源与目标搜索文本的相似度,关联资源的播放热度;
针对第一语种标签集中的每个语种标签,根据关联资源集中每个关联资源的第一相关参数,计算得到语种概率值;
根据第一语种标签集中每个语种标签所对应的语种概率值,生成资源语种特征分布。
本申请实施例中,提供了一种语种识别装置。采用上述装置,可结合各个关联资源与目标搜索文本之间的相似度以及关联资源的播放热度,构建资源语种特征分布,从而使资源语种特征分布更贴近于资源在热度和相似度上的分布情况。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的语种识别装置30的另一实施例中,
生成模块320,具体用于将目标搜索文本划分为字符序列,其中,字符序列包括T个字符,T为大于或等于1的字符;
采用字符词典对字符序列中的每个字符进行匹配,得到T个字符编码向量,其中,每个字符编码向量对应于一个字符,且,每个字符编码向量包括N个元素,字符词典包括N个预设字符;
对T个字符编码向量中对应位置上的元素进行或运算,得到字符特征分布。
本申请实施例中,提供了一种语种识别装置。采用上述装置,利用预先构建的字符词典对用户输入的文本内容进行匹配,由于字符词典会根据语种的特点进行构建,因此,生成的字符特征分布能够更好地体现用户输入的文本内容与语种之间的相关性。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的语种识别装置30的另一实施例中,
识别模块330,具体用于基于资源语种特征分布,通过语种识别模型所包括的资源语种网络,获取资源语种特征向量;
基于字符特征分布,通过语种识别模型所包括的文本语种网络,获取文本特征向量;
根据资源语种特征向量以及文本特征向量,生成目标特征向量;
基于目标特征向量,通过语种识别模型所包括的语种分类输出网络,获取语种概率分布;
根据语种概率分布确定语种识别结果。
本申请实施例中,提供了一种语种识别装置。采用上述装置,利用资源语种网络和文本语种网络分别输出的特征向量,生成目标特征向量。可见,目标特征向量融合了文本和资源在语种分布上的特征,从而使得语种识别能力更加完备,为资源搜索提供更加精准的语种特征,降低多语种用户使用资源搜索功能时手动切换语种的操作代价,提升用户使用体验。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的语种识别装置30的另一实施例中,
识别模块330,具体用于基于资源语种特征分布,通过资源语种网络所包括的语种向量映射关系,获取资源语种特征表示,其中,资源语种网络属于语种识别模型;
基于资源语种特征表示,通过资源语种网络所包括的全连接层,获取资源语种特征向量。
本申请实施例中,提供了一种语种识别装置。采用上述装置,可利用资源语种网络输出资源语种特征向量,由此,提升方案的可行性和可操作性。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的语种识别装置30的另一实施例中,
识别模块330,具体用于基于字符特征分布,通过文本语种网络所包括的字符向量映射关系,获取字符嵌入表示,其中,文本语种网络包含于语种识别模型;
基于字符嵌入表示,通过文本语种网络所包括的文本编码网络,获取文本深度表示;
基于文本深度表示,通过文本语种网络所包括的全连接层,获取文本特征向量。
本申请实施例中,提供了一种语种识别装置。采用上述装置,可利用文本语种网络输出文本特征向量,由此,提升方案的可行性。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的语种识别装置30的另一实施例中,
获取模块310,还用于获取针对目标对象的Q个历史资源,其中,目标对象为输入目标搜索文本的对象,Q个历史资源为目标对象在历史时段内触达过的资源,每个历史资源具有已标注的至少一个语种标签,Q为大于或等于1的整数;
生成模块320,还用于根据每个历史资源所对应的至少一个语种标签,生成对象语种特征分布,其中,对象语种特征分布表示Q个历史资源属于M个语种标签的分布情况;
识别模块330,具体用于基于资源语种特征分布、字符特征分布以及对象语种特征分布,通过语种识别模型确定语种识别结果。
本申请实施例中,提供了一种语种识别装置。采用上述装置,通过增强用户个性化特征,结合多语种资源,对用户输入的内容进行深度建模,提升对用户搜索输入的语种识别能力。当用户在输入过程中,出现输入内容较少或语种歧义问题明显的情况,能够为搜索输入建议和纠错,并构建更加精准的语种特征。为资源搜索提供更加精准的语种特征,降低多语种用户使用资源搜索功能时手动切换语种的操作代价,提升用户使用体验。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的语种识别装置30的另一实施例中,
生成模块320,具体用于根据每个历史资源所对应的至少一个语种标签,统计M个语种标签中每个语种标签所对应的第二累计数量;
根据M个语种标签中每个语种标签所对应的第二累计数量,生成对象语种特征分布。
本申请实施例中,提供了一种语种识别装置。采用上述装置,可对Q个历史资源的语种标签进行统计,根据统计结果生成对应的对象语种特征分布,从而使对象语种特征分布贴近于用户个性化的资源播放情况。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的语种识别装置30的另一实施例中,
生成模块320,具体用于对每个历史资源所对应的至少一个语种标签进行并集处理,得到第二语种标签集;
针对第二语种标签集中的每个语种标签,获取具有相同语种标签的历史资源集;
针对第二语种标签集中的每个语种标签,获取历史资源集中每个历史资源的第二相关参数,其中,第二相关参数包括以下一项或多项:历史资源的播放完成度,历史资源的播放间隔时长;
针对第二语种标签集中的每个语种标签,根据历史资源集中每个历史资源的第二相关参数,计算得到语种概率值;
根据第二语种标签集中每个语种标签所对应的语种概率值,生成对象语种特征分布。
本申请实施例中,提供了一种语种识别装置。采用上述装置,可结合用户个性化的历史触达情况,构建资源语种特征分布,从而使对象语种特征分布贴近于用户个性化的资源播放情况。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的语种识别装置30的另一实施例中,
识别模块330,具体用于基于资源语种特征分布,通过语种识别模型所包括的资源语种网络,获取资源语种特征向量;
基于字符特征分布,通过语种识别模型所包括的文本语种网络,获取文本特征向量;
基于对象语种特征分布,通过语种识别模型所包括的对象语种网络,获取对象语种特征向量;
根据资源语种特征向量、文本特征向量以及对象语种特征向量,生成目标特征向量;
基于目标特征向量,通过语种识别模型所包括的语种分类输出网络,获取语种概率分布;
根据语种概率分布确定语种识别结果。
本申请实施例中,提供了一种语种识别装置。采用上述装置,利用资源语种网络、对象语种网络和文本语种网络分别输出的特征向量,生成目标特征向量。可见,目标特征向量融合了文本、资源以及用户个性化搜索在语种分布上的特征,从而使得语种识别能力更加完备,为资源搜索提供更加精准的语种特征,降低多语种用户使用资源搜索功能时手动切换语种的操作代价,提升用户使用体验。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的语种识别装置30的另一实施例中,
识别模块330,具体用于基于对象语种特征分布,通过对象语种网络所包括的语种向量映射关系,获取对象语种特征表示,其中,对象语种网络属于语种识别模型;
基于对象语种特征表示,通过对象语种网络所包括的全连接层,获取对象语种特征向量。
本申请实施例中,提供了一种语种识别装置。采用上述装置,可利用对象语种网络输出对象语种特征向量,由此,提升方案的可行性和可操作性。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的语种识别装置30的另一实施例中,语种识别装置30还包括发送模块340;
获取模块310,具体用于接收终端发送的资源搜索请求,其中,资源搜索请求携带目标搜索文本;
根据资源搜索请求,获取目标搜索文本;
发送模块340,用于根据资源语种特征分布以及字符特征分布,确定语种识别结果之后,响应资源搜索请求,向终端发送与语种识别结果匹配的资源搜索结果,以使终端显示资源搜索结果。
本申请实施例中,提供了一种语种识别装置。采用上述装置,可提升资源搜索输入时的语种识别能力,一定程度上降低多语种用户手动切换语种的代价,为用户提供更加友好地资源搜索体验。
下面对本申请中的语种识别装置进行详细描述,请参阅图14,图14为本申请实施例中语种识别装置的另一个实施例示意图,语种识别装置40包括:
获取模块410,用于获取目标搜索文本;
获取模块410,还用于根据目标搜索文本,获取针对目标对象的Q个历史资源,其中,目标对象为输入目标搜索文本的对象,Q个历史资源为目标对象在历史时段内触达过的资源,每个历史资源具有已标注的至少一个语种标签,Q为大于或等于1的整数;
生成模块420,用于根据每个历史资源所对应的至少一个语种标签,生成对象语种特征分布,其中,对象语种特征分布表示Q个历史资源属于M个语种标签的分布情况,M为大于1的整数;
生成模块420,还用于根据目标搜索文本生成字符特征分布,其中,字符特征分布表示目标搜索文本针对各个预设字符的分布情况;
识别模块430,用于根据对象语种特征分布以及字符特征分布,确定语种识别结果。
本申请实施例中,提供了一种语种识别装置。采用上述装置,利用目标搜索文本,从资源平台中获取用户在过去一段时间内触达过的Q个历史资源,这些历史资源具有一个或多个语种标签。因此,基于这些历史资源的语种标签,并结合目标搜索文本,能够为资源搜索提供更加可靠的语种线索,从而有利于提升语种识别的准确性。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的语种识别装置40的另一实施例中,
获取模块410,还用于根据目标搜索文本获取K个关联资源,其中,每个关联资源具有已标注的至少一个语种标签,K为大于或等于1的整数;
生成模块420,还用于根据每个关联资源所对应的至少一个语种标签,生成资源语种特征分布,其中,资源语种特征分布表示K个关联资源属于M个语种标签的分布情况;
识别模块430,具体用于基于资源语种特征分布、字符特征分布以及对象语种特征分布,通过语种识别模型确定语种识别结果。
本申请实施例中,提供了一种语种识别装置。采用上述装置,利用目标搜索文本,从资源平台中获取与目标搜索文本相关的K个关联资源,这些关联资源具有一个或多个语种标签。因此,基于这些关联资源的语种标签,并结合目标搜索文本以及Q个历史资源,能够为资源搜索提供更加可靠的语种线索,从而有利于提升语种识别的准确性。
请参阅图15,图15是本申请实施例提供的一种服务器结构示意图,该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)522(例如,一个或一个以上处理器)和存储器532,一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器522可以设置为与存储介质530通信,在服务器500上执行存储介质530中的一系列指令操作。
服务器500还可以包括一个或一个以上电源526,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口558,和/或,一个或一个以上操作系统541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图15所示的服务器结构。
本申请实施例还提供了一种终端,如图16所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。在本申请实施例中,以终端为智能手机为例进行说明:
图16示出的是与本申请实施例提供的终端相关的智能手机的部分结构的框图。参考图16,智能手机包括:射频(radio frequency,RF)电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、无线保真(wireless fidelity,WiFi)模块670、处理器680、以及电源690等部件。本领域技术人员可以理解,图16中示出的智能手机结构并不构成对智能手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图16对智能手机的各个构成部件进行具体的介绍:
RF电路610可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器680处理;另外,将设计上行的数据发送给基站。通常,RF电路610包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier,LNA)、双工器等。此外,RF电路610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystem of mobile communication,GSM)、通用分组无线服务(general packet radioservice,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution,LTE)、电子邮件、短消息服务(short messaging service,SMS)等。
存储器620可用于存储软件程序以及模块,处理器680通过运行存储在存储器620的软件程序以及模块,从而执行智能手机的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元630可用于接收输入的数字或字符信息,以及产生与智能手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元630可包括触控面板631以及其他输入设备632。触控面板631,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板631可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器680,并能接收处理器680发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631,输入单元630还可以包括其他输入设备632。具体地,其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、鼠标、操作杆等中的一种或多种。
显示单元640可用于显示由用户输入的信息或提供给用户的信息以及智能手机的各种菜单。显示单元640可包括显示面板641,可选的,可以采用液晶显示器(liquidcrystal display,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板641。进一步的,触控面板631可覆盖显示面板641,当触控面板631检测到在其上或附近的触摸操作后,传送给处理器680以确定触摸事件的类型,随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图16中,触控面板631与显示面板641是作为两个独立的部件来实现智能手机的输入和输入功能,但是在某些实施例中,可以将触控面板631与显示面板641集成而实现智能手机的输入和输出功能。
智能手机还可包括至少一种传感器650,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板641的亮度,接近传感器可在智能手机移动到耳边时,关闭显示面板641和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别智能手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于智能手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路660、扬声器661,传声器662可提供用户与智能手机之间的音频接口。音频电路660可将接收到的音频数据转换后的电信号,传输到扬声器661,由扬声器661转换为声音信号输出;另一方面,传声器662将收集的声音信号转换为电信号,由音频电路660接收后转换为音频数据,再将音频数据输出处理器680处理后,经RF电路610以发送给比如另一智能手机,或者将音频数据输出至存储器620以便进一步处理。
WiFi属于短距离无线传输技术,智能手机通过WiFi模块670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图16示出了WiFi模块670,但是可以理解的是,其并不属于智能手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器680是智能手机的控制中心,利用各种接口和线路连接整个智能手机的各个部分,通过运行或执行存储在存储器620内的软件程序和/或模块,以及调用存储在存储器620内的数据,执行智能手机的各种功能和处理数据。可选的,处理器680可包括一个或多个处理单元;可选的,处理器680可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器680中。
智能手机还包括给各个部件供电的电源690(比如电池),可选的,电源可以通过电源管理系统与处理器680逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,智能手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
上述实施例中由终端所执行的步骤可以基于该图16所示的终端结构。
本申请实施例中还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,该处理器执行计算机程序时,实现前述各个实施例描述方法的步骤。
本申请实施例中还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现前述各个实施例描述方法的步骤。
本申请实施例中还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,实现前述各个实施例描述方法的步骤。
可以理解的是,在本申请的具体实施方式中,涉及到用户信息和历史触达资源等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (20)
1.一种基于文本的语种识别方法,其特征在于,包括:
获取目标搜索文本;
根据所述目标搜索文本获取K个关联资源,其中,每个关联资源具有已标注的至少一个语种标签,所述K为大于或等于1的整数;
根据所述每个关联资源所对应的至少一个语种标签,生成资源语种特征分布,其中,所述资源语种特征分布表示所述K个关联资源属于M个语种标签的分布情况,所述M为大于1的整数;
根据所述目标搜索文本生成字符特征分布,其中,所述字符特征分布表示所述目标搜索文本针对各个预设字符的分布情况;
根据所述资源语种特征分布以及所述字符特征分布,确定语种识别结果。
2.根据权利要求1所述的语种识别方法,其特征在于,所述根据所述每个关联资源所对应的至少一个语种标签,生成资源语种特征分布,包括:
根据所述每个关联资源所对应的至少一个语种标签,统计所述M个语种标签中每个语种标签所对应的第一累计数量;
根据所述M个语种标签中每个语种标签所对应的第一累计数量,生成所述资源语种特征分布。
3.根据权利要求1所述的语种识别方法,其特征在于,所述根据所述每个关联资源所对应的至少一个语种标签,生成资源语种特征分布,包括:
对所述每个关联资源所对应的至少一个语种标签进行并集处理,得到第一语种标签集;
针对所述第一语种标签集中的每个语种标签,获取具有相同语种标签的关联资源集;
针对所述第一语种标签集中的每个语种标签,获取所述关联资源集中每个关联资源的第一相关参数,其中,所述第一相关参数包括以下一项或多项:关联资源与所述目标搜索文本的相似度,关联资源的播放热度;
针对所述第一语种标签集中的每个语种标签,根据所述关联资源集中每个关联资源的第一相关参数,计算得到语种概率值;
根据所述第一语种标签集中每个语种标签所对应的语种概率值,生成所述资源语种特征分布。
4.根据权利要求1所述的语种识别方法,其特征在于,所述根据所述目标搜索文本生成字符特征分布,包括:
将所述目标搜索文本划分为字符序列,其中,所述字符序列包括T个字符,所述T为大于或等于1的字符;
采用字符词典对所述字符序列中的每个字符进行匹配,得到T个字符编码向量,其中,每个字符编码向量对应于一个字符,且,所述每个字符编码向量包括N个元素,所述字符词典包括N个预设字符;
对所述T个字符编码向量中对应位置上的元素进行或运算,得到所述字符特征分布。
5.根据权利要求1所述的语种识别方法,其特征在于,所述根据所述资源语种特征分布以及所述字符特征分布,确定语种识别结果,包括:
基于所述资源语种特征分布,通过语种识别模型所包括的资源语种网络,获取资源语种特征向量;
基于所述字符特征分布,通过所述语种识别模型所包括的文本语种网络,获取文本特征向量;
根据所述资源语种特征向量以及所述文本特征向量,生成目标特征向量;
基于所述目标特征向量,通过所述语种识别模型所包括的语种分类输出网络,获取语种概率分布;
根据所述语种概率分布确定语种识别结果。
6.根据权利要求5所述的语种识别方法,其特征在于,所述基于所述资源语种特征分布,通过语种识别模型所包括的资源语种网络,获取资源语种特征向量,包括:
基于所述资源语种特征分布,通过所述资源语种网络所包括的语种向量映射关系,获取资源语种特征表示,其中,所述资源语种网络属于所述语种识别模型;
基于所述资源语种特征表示,通过所述资源语种网络所包括的全连接层,获取所述资源语种特征向量。
7.根据权利要求5所述的语种识别方法,其特征在于,所述基于所述字符特征分布,通过所述语种识别模型所包括的文本语种网络,获取文本特征向量,包括:
基于所述字符特征分布,通过所述文本语种网络所包括的字符向量映射关系,获取字符嵌入表示,其中,所述文本语种网络包含于所述语种识别模型;
基于所述字符嵌入表示,通过所述文本语种网络所包括的文本编码网络,获取文本深度表示;
基于所述文本深度表示,通过所述文本语种网络所包括的全连接层,获取所述文本特征向量。
8.根据权利要求1所述的语种识别方法,其特征在于,所述方法还包括:
获取针对目标对象的Q个历史资源,其中,所述目标对象为输入所述目标搜索文本的对象,所述Q个历史资源为所述目标对象在历史时段内触达过的资源,每个历史资源具有已标注的至少一个语种标签,所述Q为大于或等于1的整数;
根据所述每个历史资源所对应的至少一个语种标签,生成对象语种特征分布,其中,所述对象语种特征分布表示所述Q个历史资源属于所述M个语种标签的概率分布;
所述根据所述资源语种特征分布以及所述字符特征分布,确定语种识别结果,包括:
基于所述资源语种特征分布、所述字符特征分布以及所述对象语种特征分布,通过语种识别模型确定语种识别结果。
9.根据权利要求8所述的语种识别方法,其特征在于,所述根据所述每个历史资源所对应的至少一个语种标签,生成对象语种特征分布,包括:
根据所述每个历史资源所对应的至少一个语种标签,统计所述M个语种标签中每个语种标签所对应的第二累计数量;
根据所述M个语种标签中每个语种标签所对应的第二累计数量,生成所述对象语种特征分布。
10.根据权利要求8所述的语种识别方法,其特征在于,所述根据所述每个历史资源所对应的至少一个语种标签,生成对象语种特征分布,包括:
对所述每个历史资源所对应的至少一个语种标签进行并集处理,得到第二语种标签集;
针对所述第二语种标签集中的每个语种标签,获取具有相同语种标签的历史资源集;
针对所述第二语种标签集中的每个语种标签,获取所述历史资源集中每个历史资源的第二相关参数,其中,所述第二相关参数包括以下一项或多项:历史资源的播放完成度,历史资源的播放间隔时长;
针对所述第二语种标签集中的每个语种标签,根据所述历史资源集中每个历史资源的第二相关参数,计算得到语种概率值;
根据所述第二语种标签集中每个语种标签所对应的语种概率值,生成所述对象语种特征分布。
11.根据权利要求8所述的语种识别方法,其特征在于,所述基于所述资源语种特征分布、所述字符特征分布以及所述对象语种特征分布,通过语种识别模型确定语种识别结果,包括:
基于所述资源语种特征分布,通过语种识别模型所包括的资源语种网络,获取资源语种特征向量;
基于所述字符特征分布,通过所述语种识别模型所包括的文本语种网络,获取文本特征向量;
基于所述对象语种特征分布,通过所述语种识别模型所包括的对象语种网络,获取对象语种特征向量;
根据所述资源语种特征向量、所述文本特征向量以及所述对象语种特征向量,生成目标特征向量;
基于所述目标特征向量,通过所述语种识别模型所包括的语种分类输出网络,获取语种概率分布;
根据所述语种概率分布确定语种识别结果。
12.根据权利要求11所述的语种识别方法,其特征在于,所述基于所述对象语种特征分布,通过所述语种识别模型所包括的对象语种网络,获取对象语种特征向量,包括:
基于所述对象语种特征分布,通过所述对象语种网络所包括的语种向量映射关系,获取对象语种特征表示,其中,所述对象语种网络属于所述语种识别模型;
基于所述对象语种特征表示,通过所述对象语种网络所包括的全连接层,获取所述对象语种特征向量。
13.根据权利要求1至12中任一项所述的语种识别方法,其特征在于,所述获取目标搜索文本,包括:
接收终端发送的资源搜索请求,其中,所述资源搜索请求携带所述目标搜索文本;
根据所述资源搜索请求,获取所述目标搜索文本;
所述根据所述资源语种特征分布以及所述字符特征分布,确定语种识别结果之后,所述方法还包括:
响应所述资源搜索请求,向所述终端发送与所述语种识别结果匹配的资源搜索结果,以使所述终端显示所述资源搜索结果。
14.一种基于文本的语种识别方法,其特征在于,包括:
获取目标搜索文本;
根据所述目标搜索文本,获取针对目标对象的Q个历史资源,其中,所述目标对象为输入所述目标搜索文本的对象,所述Q个历史资源为所述目标对象在历史时段内触达过的资源,每个历史资源具有已标注的至少一个语种标签,所述Q为大于或等于1的整数;
根据所述每个历史资源所对应的至少一个语种标签,生成对象语种特征分布,其中,所述对象语种特征分布表示所述Q个历史资源属于M个语种标签的分布情况,所述M为大于1的整数;
根据所述目标搜索文本生成字符特征分布,其中,所述字符特征分布表示所述目标搜索文本针对各个预设字符的分布情况;
根据所述对象语种特征分布以及所述字符特征分布,确定语种识别结果。
15.根据权利要求14所述的语种识别方法,其特征在于,所述方法还包括:
根据所述目标搜索文本获取K个关联资源,其中,每个关联资源具有已标注的至少一个语种标签,所述K为大于或等于1的整数;
根据所述每个关联资源所对应的至少一个语种标签,生成资源语种特征分布,其中,所述资源语种特征分布表示所述K个关联资源属于所述M个语种标签的概率分布;
所述根据所述对象语种特征分布以及所述字符特征分布,确定语种识别结果,包括:
基于所述资源语种特征分布、所述字符特征分布以及所述对象语种特征分布,通过语种识别模型确定语种识别结果。
16.一种语种识别装置,其特征在于,包括:
获取模块,用于获取目标搜索文本;
所述获取模块,还用于根据所述目标搜索文本获取K个关联资源,其中,每个关联资源具有已标注的至少一个语种标签,所述K为大于或等于1的整数;
生成模块,用于根据所述每个关联资源所对应的至少一个语种标签,生成资源语种特征分布,其中,所述资源语种特征分布表示所述K个关联资源属于M个语种标签的分布情况,所述M为大于1的整数;
所述生成模块,还用于根据所述目标搜索文本生成字符特征分布,其中,所述字符特征分布表示所述目标搜索文本针对各个预设字符的分布情况;
识别模块,用于根据所述资源语种特征分布以及所述字符特征分布,确定语种识别结果。
17.一种语种识别装置,其特征在于,包括:
获取模块,用于获取目标搜索文本;
所述获取模块,还用于根据所述目标搜索文本,获取针对目标对象的Q个历史资源,其中,所述目标对象为输入所述目标搜索文本的对象,所述Q个历史资源为所述目标对象在历史时段内触达过的资源,每个历史资源具有已标注的至少一个语种标签,所述Q为大于或等于1的整数;
生成模块,用于根据所述每个历史资源所对应的至少一个语种标签,生成对象语种特征分布,其中,所述对象语种特征分布表示所述Q个历史资源属于M个语种标签的分布情况,所述M为大于1的整数;
所述生成模块,还用于根据所述目标搜索文本生成字符特征分布,其中,所述字符特征分布表示所述目标搜索文本针对各个预设字符的分布情况;
识别模块,用于根据所述对象语种特征分布以及所述字符特征分布,确定语种识别结果。
18.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至13中任一项所述的方法的步骤,或,实现权利要求14至15中任一项所述的方法的步骤。
19.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至13中任一项所述的方法的步骤,或,实现权利要求14至15中任一项所述的方法的步骤。
20.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至13中任一项所述的方法的步骤,或,实现权利要求14至15中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210151651.5A CN116663538A (zh) | 2022-02-18 | 2022-02-18 | 基于文本的语种识别方法、相关装置,设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210151651.5A CN116663538A (zh) | 2022-02-18 | 2022-02-18 | 基于文本的语种识别方法、相关装置,设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116663538A true CN116663538A (zh) | 2023-08-29 |
Family
ID=87726561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210151651.5A Pending CN116663538A (zh) | 2022-02-18 | 2022-02-18 | 基于文本的语种识别方法、相关装置,设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116663538A (zh) |
-
2022
- 2022-02-18 CN CN202210151651.5A patent/CN116663538A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108280458B (zh) | 群体关系类型识别方法及装置 | |
CN104239535A (zh) | 一种为文字配图的方法、服务器、终端及系统 | |
CN110334344A (zh) | 一种语义意图识别方法、装置、设备及存储介质 | |
CN110209810B (zh) | 相似文本识别方法以及装置 | |
CN110704661A (zh) | 一种图像分类方法和装置 | |
CN111709398A (zh) | 一种图像识别的方法、图像识别模型的训练方法及装置 | |
CN110069769B (zh) | 应用标签生成方法、装置及存储设备 | |
CN111597804B (zh) | 一种实体识别模型训练的方法以及相关装置 | |
WO2022257840A1 (zh) | 信息显示方法、装置、电子设备及可读存储介质 | |
CN111143543A (zh) | 一种对象推荐方法、装置、设备及介质 | |
CN110825863B (zh) | 一种文本对融合方法及装置 | |
CN112685578B (zh) | 一种多媒体信息内容提供方法及装置 | |
CN109543014B (zh) | 人机对话方法、装置、终端及服务器 | |
CN114357278B (zh) | 一种话题推荐方法、装置及设备 | |
CN111738000B (zh) | 一种短语推荐的方法以及相关装置 | |
CN112307198B (zh) | 一种单文本的摘要确定方法和相关装置 | |
CN116975295B (zh) | 一种文本分类方法、装置及相关产品 | |
CN111611369B (zh) | 基于人工智能的交互方法和相关装置 | |
CN112328783A (zh) | 一种摘要确定方法和相关装置 | |
CN116758362A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN110781274A (zh) | 一种问答对生成的方法与装置 | |
CN114840563B (zh) | 一种字段描述信息的生成方法、装置、设备及存储介质 | |
CN114840499B (zh) | 一种表描述信息的生成方法、相关装置、设备及存储介质 | |
CN116663538A (zh) | 基于文本的语种识别方法、相关装置,设备以及存储介质 | |
CN114462539A (zh) | 一种内容分类模型的训练方法、内容分类的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40091024 Country of ref document: HK |