CN108734212A - 一种确定分类结果的方法以及相关装置 - Google Patents
一种确定分类结果的方法以及相关装置 Download PDFInfo
- Publication number
- CN108734212A CN108734212A CN201810475313.0A CN201810475313A CN108734212A CN 108734212 A CN108734212 A CN 108734212A CN 201810475313 A CN201810475313 A CN 201810475313A CN 108734212 A CN108734212 A CN 108734212A
- Authority
- CN
- China
- Prior art keywords
- data
- poi
- text
- classification results
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 239000013598 vector Substances 0.000 claims description 126
- 238000012545 processing Methods 0.000 claims description 71
- 238000012549 training Methods 0.000 claims description 41
- 230000011218 segmentation Effects 0.000 claims description 39
- 241001269238 Data Species 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 4
- 239000013589 supplement Substances 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 26
- 235000013399 edible fruits Nutrition 0.000 description 15
- 239000011159 matrix material Substances 0.000 description 12
- 238000011176 pooling Methods 0.000 description 11
- 238000003745 diagnosis Methods 0.000 description 9
- 230000003612 virological effect Effects 0.000 description 9
- 239000000047 product Substances 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- WGZDBVOTUVNQFP-UHFFFAOYSA-N N-(1-phthalazinylamino)carbamic acid ethyl ester Chemical compound C1=CC=C2C(NNC(=O)OCC)=NN=CC2=C1 WGZDBVOTUVNQFP-UHFFFAOYSA-N 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 235000015278 beef Nutrition 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 235000012149 noodles Nutrition 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 235000011888 snacks Nutrition 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种确定分类结果的方法,包括:获取待预测兴趣点POI数据,待预测POI数据包括待预测文本数据以及待预测图片数据;通过POI分类模型获取待预测POI数据所对应的N个可选POI分类结果,每个可选POI分类结果对应一个类别概率,POI分类模型为根据文本数据集合以及图片数据集合训练得到的,N为大于或等于1的整数;根据N个可选POI分类结果,将类别概率最大的可选POI分类结果确定为目标分类结果,目标分类结果用于表示待预测POI数据的分类结果。本发明实施例还公开了一种分类结果确定装置。本发明实施例中可以将图片数据作为文本数据的补充,从而丰富了POI数据的特征,由此提升POI数据的分类精度。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种确定分类结果的方法以及相关装置。
背景技术
在电子地图场景中,需要对兴趣点(Point of Interest,POI)数据进行计算和分类,电子地图上一般采用气泡图标来表示POI,比如电子地图上的景点、政府机构、公司、商场以及饭馆等。
对于POI而言,反映POI类型的一个重要特征是POI名称。目前,一种常用的POI分类方式为,首先,提取POI名称的文本特征,然后将POI名称的文本特征输入至分类模型,最后,由分类模型输出相应的分类结果。
然而,虽然有些POI名称能够反映POI类型,比如“好再来牛肉拉面馆”的POI名称可以自动标注“小吃”类型。但是很多情况下,POI名称难以反映出POI类型,比如“星美乐”这样的POI名称可能会出现分类错误的情况,从而降低了分类的准确性,导致分类效果不理想。
发明内容
本发明实施例提供了一种确定分类结果的方法以及相关装置,POI分类模型是由文本数据和图片数据共同训练得到的,待预测的POI数据也包括了文本数据和图片数据,因此,可以将图片数据作为文本数据的补充,从而丰富了POI数据的特征,由此提升POI数据的分类精度。
有鉴于此,本发明的第一方面提供了一种确定分类结果的方法,包括:
获取待预测兴趣点POI数据,其中,所述待预测POI数据包括待预测文本数据以及待预测图片数据;
通过POI分类模型获取所述待预测POI数据所对应的N个可选POI分类结果,其中,每个可选POI分类结果对应一个类别概率,所述POI分类模型为根据文本数据集合以及图片数据集合训练得到的,所述N为大于或等于1的整数;
根据所述N个可选POI分类结果,将类别概率最大的可选POI分类结果确定为目标分类结果,其中,所述目标分类结果用于表示所述待预测POI数据的分类结果。
本发明的第二方面提供了一种分类结果确定装置,包括:
获取模块,用于获取待预测兴趣点POI数据,其中,所述待预测POI数据包括待预测文本数据以及待预测图片数据;
所述获取模块,还用于通过POI分类模型获取所述待预测POI数据所对应的N个可选POI分类结果,其中,每个可选POI分类结果对应一个类别概率,所述POI分类模型为根据文本数据集合以及图片数据集合训练得到的,所述N为大于或等于1的整数;
确定模块,用于根据所述获取模块获取的所述N个可选POI分类结果,将类别概率最大的可选POI分类结果确定为目标分类结果,其中,所述目标分类结果用于表示所述待预测POI数据的分类结果。
本发明的第三方面提供了一种分类结果确定装置,所述分类结果确定装置包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取待预测兴趣点POI数据,其中,所述待预测POI数据包括待预测文本数据以及待预测图片数据;
通过POI分类模型获取所述待预测POI数据所对应的N个可选POI分类结果,其中,每个可选POI分类结果对应一个类别概率,所述POI分类模型为根据文本数据集合以及图片数据集合训练得到的,所述N为大于或等于1的整数;
根据所述N个可选POI分类结果,将类别概率最大的可选POI分类结果确定为目标分类结果,其中,所述目标分类结果用于表示所述待预测POI数据的分类结果;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,提供了一种确定分类结果的方法,首先分类结果确定装置需要获取待预测兴趣点POI数据,其中,待预测POI数据包括待预测文本数据以及待预测图片数据,然后通过POI分类模型获取待预测POI数据所对应的N个可选POI分类结果,其中,每个可选POI分类结果对应一个类别概率,POI分类模型为根据文本数据集合以及图片数据集合训练得到的,最后,分类结果确定装置可以根据N个可选POI分类结果,将类别概率最大的可选POI分类结果确定为目标分类结果,其中,目标分类结果用于表示待预测POI数据的分类结果。通过上述方式,将待预测的POI数据输入至POI分类模型,且该POI分类模型是由文本数据和图片数据共同训练得到的,相应地,待预测的POI数据也包括了文本数据和图片数据,将图片数据作为文本数据的补充,从而丰富了POI数据的特征,由此提升POI数据的分类精度。
附图说明
图1为本发明实施例中分类结果确定系统的一个架构示意图;
图2为本发明实施例中展示POI分类结果的一个界面示意图;
图3为本发明实施例中确定分类结果的整体方案示意图;
图4为本发明实施例中确定分类结果的方法一个实施例示意图;
图5为本发明实施例中生成第一词向量以及第二词向量的一个示意图;
图6为本发明实施例中生成文本特征数据的一个示意图;
图7为本发明实施例中待处理图片数据与图片数据的一个对比示意图;
图8为本发明实施例中生成图片特征数据的一个示意图;
图9为本发明实施例中输出目标预测结果的一个示意图;
图10为本发明应用场景中确定分类结果的一个流程示意图;
图11为本发明实施例中分类结果确定装置的一个实施例示意图;
图12为本发明实施例中分类结果确定装置的另一个实施例示意图;
图13为本发明实施例中分类结果确定装置的另一个实施例示意图;
图14为本发明实施例中分类结果确定装置的一个结构示意图。
具体实施方式
本发明实施例提供了一种确定分类结果的方法以及相关装置,POI分类模型是由文本数据和图片数据共同训练得到的,待预测的POI数据也包括了文本数据和图片数据,因此,可以将图片数据作为文本数据的补充,从而丰富了POI数据的特征,由此提升POI数据的分类精度。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。
应理解,本发明所提供的确定分类结果的方法可以应用于电子地图,在电子地图中通常会使用POI分类,最终在用户界面(User Interface,UI)上呈现出的POI分类结果,POI分类结果的准确性直接影响了用户体验。电子地图的后台数据库每天都会收到大量不同来源的POI数据,通过POI分类服务可以为每条POI数据贴上POI分类结果,后续POI分类结果还可以供其他应用程序调用。
请参阅图1,图1为本发明实施例中分类结果确定系统的一个架构示意图,如图所示,本发明所提供的分类结果确定装置部署于服务器,而分类结果确定装置输出的分类结果可以呈现于终端设备的UI上。终端设备可以包含但不仅限于手机、笔记本电脑、平板电脑、个人电脑以及掌上电脑,图1中各个终端设备的数量和类型仅为一个示意,不应理解为对本发明的限定。
在终端设备的UI上可展示POI分类结果,请参阅图2,图2为本发明实施例中展示POI分类结果的一个界面示意图,如图所示,以电子地图界面为例,当用户输入的POI分类为“美食”时,可以在用户设定的范围内显示出与“美食”相关的POI基础信息,POI基础信息可以包括门店名称、品类、电话、地址以及坐标等。比如,“黄记煌”在被划为为“美食”这一POI分类结果之前,在服务器中采用本发明提供的分类结果确定的方法,可以预测出“黄记煌”所属的分类结果,具体可以是“美食”分类。
为了便于理解,请参阅图3,图3为本发明实施例中确定分类结果的整体方案示意图,如图所示,整个方案可以分为三个部分,分别为词向量预训练,离线训练以及线上预测。在词向量预训练的过程中又包括三个步骤,步骤S1中获取全量的POI数据,从全量的POI数据中过滤掉名称不规范、下线(比如某条POI数据已经不存在了)以及低置信度的数据。在步骤S2中对符合要求的POI数据进行分词处理,然后得到分词语料库。步骤S3中使用Word2Vector工具包,训练得到每个词的向量化表示,并保存为文本文件,便于后续使用。
在离线训练的过程中,步骤S4中获取POI文本数据,步骤S5中获取POI图片数据。然后在步骤S6中,利用POI文本数据和POI图片数据训练得到两个不同的神经网络模型,可以理解的是,神经网络模型包含但不仅限于卷积神经网络(Convolutional Neural Network,CNN)模型、循环神经网络(Recurrent Neural Network,RNN)模型或者深度神经网络(DeepNeural Network,DNN)。最后,在步骤S7中,将生成的神经网络模型保存到服务器上,具体可以保证到CEPH上,CEPH是一个软件分布式存储平台,可运行在商用硬件上。CEPH开发的主要目标是提供高可扩展性和提供对象存储、块存储和文件系统的存储机制。
在线上预测的过程中,在步骤S8中先获取待预测的POI数据,然后在步骤S9中将待预测的POI数据输入至线上平台,最后,在步骤S10中利用训练好的神经网络模型可以针对单条POI数据进行类别预测。
下面将从分类结果确定装置的角度,对本发明中确定分类结果的方法进行介绍,请参阅图4,本发明实施例中确定分类结果的方法一个实施例包括:
101、获取待预测兴趣点POI数据,其中,待预测POI数据包括待预测文本数据以及待预测图片数据;
本实施例中,首先分类结果确定装置可以获取一条待预测POI数据,其中,分类结果确定装置可以获取一条待预测POI数据的方式可以是,由用户通过线上平台输入该条待预测POI数据,也可以由分类结果确定装置从数据库中直接调用的,此处不做限定。
待预测POI数据包含两个部分的内容,分别为待预测文本数据(比如中文、英文、日文或者德文等)以及待预测图片数据(比如照片或者图像等)。
102、通过POI分类模型获取待预测POI数据所对应的N个可选POI分类结果,其中,每个可选POI分类结果对应一个类别概率,POI分类模型为根据文本数据集合以及图片数据集合训练得到的,N为大于或等于1的整数;
本实施例中,分类结果确定装置利用预先训练得到的POI分类模型,将待预测POI数据输入至该POI分类模型,然后由POI分类模型输出相应的N个可选POI分类结果,N为大于或等于1的整数。而POI分类模型是通文本数据集合以及图片数据集合训练得到的,每个集合中包含大量的数据。
具体地,假设待预测POI数据中的待预测文本数据为“来一份茶餐厅”,且待预测图片数据为一张包括咖啡杯的照片,那么将待预测POI数据输入至POI分类模型之后可以得到5个可选POI分类结果,且每个可选POI分类结果对应一个类别概率,为了便于理解,请参阅表1,表1为可选POI分类结果与类别概率的关系示意。
表1
可选POI分类结果 | 类别概率 |
餐厅 | 50% |
商场 | 20% |
加油站 | 1% |
学校 | 7% |
写字楼 | 22% |
可以理解的是,表1仅为一个示意,并不应理解为对本发明的限定。
103、根据N个可选POI分类结果,将类别概率最大的可选POI分类结果确定为目标分类结果,其中,目标分类结果用于表示待预测POI数据的分类结果。
本实施例中,分类结果确定装置从N个可选POI分类结果中选择概率最大的可选POI分类结果确定为目标分类结果。请再次参阅表1所描述的内容,根据表1所示,可以确定类别概率最大值为50%,且该类别概率对应“餐厅”,因此,可以将“餐厅”确定为待预测POI数据所对应的分类结果。
本发明实施例中,提供了一种确定分类结果的方法,首先分类结果确定装置需要获取待预测兴趣点POI数据,其中,待预测POI数据包括待预测文本数据以及待预测图片数据,然后通过POI分类模型获取待预测POI数据所对应的N个可选POI分类结果,其中,每个可选POI分类结果对应一个类别概率,POI分类模型为根据文本数据集合以及图片数据集合训练得到的,最后,分类结果确定装置可以根据N个可选POI分类结果,将类别概率最大的可选POI分类结果确定为目标分类结果,其中,目标分类结果用于表示待预测POI数据的分类结果。通过上述方式,将待预测的POI数据输入至POI分类模型,且该POI分类模型是由文本数据和图片数据共同训练得到的,相应地,待预测的POI数据也包括了文本数据和图片数据,将图片数据作为文本数据的补充,从而丰富了POI数据的特征,由此提升POI数据的分类精度。
可选地,在上述图4对应的实施例的基础上,本发明实施例提供的病毒检测的方法第一个可选实施例中,通过POI分类模型获取待预测POI数据所对应的N个可选POI分类结果之前,还可以包括:
获取文本数据集合,其中,文本数据集合中包括多个文本数据;
获取图片数据集合,其中,图片数据集合中包括多个图片数据;
对文本数据集合中的各个文本数据进行处理,得到文本特征数据集合,其中,文本特征数据集合包括多个文本特征数据;
对图片数据集合中的各个图片数据进行处理,得到图片特征数据集合,其中,图片特征数据集合包括多个图片特征数据;
根据文本特征数据集合以及图片特征数据集合训练得到POI分类模型。
本实施例中,在利用POI分类模型之前,需要先利用大量的数据进行模型训练,这样才能提升模型的精确度。
具体地,首先使用原有服务的分类结果作为类别标签,比如,类别标签包括“美食”标签、“写字楼”标签以及“学校”标签,且不同的标签包括不同数量的POI数据。假设“美食”标签下的POI数据有5000条,“写字楼”标签下的POI数据有1000条,“学校”标签下的POI数据有500条,为了保证训练的准确度,需要按照不同的类别标签从数据库均匀抽取POI数据,也就是说每个类别标签下的POI数据都需要被抽取,且应采用随机抽取的方式。
需要说明的是,这里的POI数据包括文本数据以及图片数据,而大量的文本数据组成了文本数据集合,大量的图片数据组成了图片数据集合。在对文本数据集合中的各个文本数据进行处理,得到文本特征数据集合,以及对图片数据集合中的各个图片数据进行处理,得到图片特征数据集合。通过文本特征数据集合以及图片特征数据集合训练得到POI分类模型。
可以理解的是,文本数据中可以包括POI名称(POI name)、POI来源(POI source)以及其他信息(addi_info)。
通常情况下,在训练得到POI分类模型后还需要对其进行测试,假设采用9000条POI数据用于POI分类模型的训练,那么还可以采用1000条POI数据用于POI分类模型的测试,由此提升模型的精度。
其次,本发明实施例中,介绍了一种训练得到POI分类模型的方法,即利用文本数据集合以及图片数据集合,分别处理得到文本特征数据集合以及图片特征数据集合,再将文本特征数据集合以及图片特征数据集合放入神经网络模型中进行训练,最后得到POI分类模型。通过上述方式,采用深度学习模型进行POI数据的训练和分类,无需对文本数据集合以及图片数据集合进行繁琐的特征工程,很大程度上节省了技术人员的时间成本,从而提升了方案的实用性。
可选地,在上述图4对应的第一个实施例的基础上,本发明实施例提供的病毒检测的方法第二个可选实施例中,获取文本数据集合之后,还可以包括:
对文本数据集合中的每个文本数据进行分词处理,得到每个待处理文本数据所对应的分词结果;
若分词结果与词向量文件不匹配,则对分词结果进行随机赋值,以生成每个待处理文本数据所对应的第一词向量;
若分词结果与词向量文件匹配,则生成每个待处理文本数据所对应的第一词向量。
本实施例中,嵌入(embedding)层加载预先选了得到的词向量文件,然后对每条文本数据的分词结果进行词向量矩阵的转换。其中,分词处理是指对一个文本数据中的词语进行切分,例如对“中国技术交易大厦”进行分词处理后可以得到的分词结果为“中国”、“技术”、“交易”和“大厦”,再对分词结果进行词向量矩阵的转换,如果某个分词结果在词向量文件中没有找到,则进行高斯随机化赋值,随后生成第一词向量。如果某个分词结果在词向量文件中找到了,则直接生成第一词向量。需要说明的是,第一词向量可以表示为200维的行向量,在实际应用中,还可以是其他维度的行向量。而高斯随机化赋值可以对随机赋予-0.1至0.1之间的任意值,实际应用中,还可以是其他赋值区间的任意值。
训练神经网络的过程中,词语能通过embedding层转换成向量。比如文本数据为“deep learning is very deep”,那么使用embedding层可以通过索引对该句子进行编码,给每一个不同的句子分配一个索引,于是“deep learning is very deep”的索引即为“1 23 4 1”。接下来会创建嵌入矩阵,决定每一个索引需要分配多少个因子,也就意味着需要多长的向量,embedding层把每个词语用向量来表达,被替换为用于查找嵌入矩阵中向量的索引,从而形成第一词向量。
再次,本发明实施例中,分类结果确定装置在获取文本数据集合之后,还需要对文本数据集合中的每个文本数据进行处理,并且将每个文本数据转换为第一词向量。通过上述方式,能够将文本数据进行词向量矩阵的转换,以得到第一词向量,从而能够采用第一词向量进行POI分类模型的训练,由此提升方案的实用性和可行性。
可选地,在上述图4对应的第二个实施例的基础上,本发明实施例提供的病毒检测的方法第三个可选实施例中,获取文本数据集合之前,还可以包括:
获取待处理文本数据集合,其中,待处理文本数据集合包括多个待处理文本数据;
对待处理文本数据集合中的每个待处理文本数据进行分词处理,得到每个待处理文本数据所对应的词语;
根据每个待处理文本数据所对应的词语,生成词向量文件,其中,词向量文件中包括每个词语的向量。
本实施例中,还可以预先生成词向量文件,首先,从数据库中待处理文本数据集合,其中,待处理文本数据集合包括多个待处理文本数据,且这里的待处理文本数据是指已经过滤掉名称不规范的、下线的以及低置信度的POI文本数据。名称不规范的情况可以是“HIU水FAS果813店”。下线的情况可以是指某个店家倒闭之后,该店铺的名称就不存在了。低置信度的情况可以是指名称为某个不具有信誉度用户提供的。
类似地,也需要先对待处理文本数据集合中的每个待处理文本数据进行分词处理,得到每个待处理文本数据所对应的词语。最后可以使用Word2Vector工具包训练得到每个词的向量化表示,并保存为词向量文件。
需要说明的是,词向量文件中的每个词向量可以表示为200维的行向量,在实际应用中,还可以是其他维度的行向量。
Word2Vector工具包是一款将词表征为实数值向量的高效工具,利用深度学习的思想,可以通过训练,把对文本内容的处理简化为多维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。Word2Vector工具包输出的词向量可以被用来做很多神经语言程序学(Neuro-Linguistic Programming,NLP)相关的工作,比如聚类、找同义词以及词性分析等等。如果把词语当做特征,那么Word2Vector工具包就可以把特征映射到多维向量空间,可以为文本数据寻求更加深层次的特征表示。
进一步地,本发明实施例中,分类结果确定装置还可以对词向量进行预训练,首先获取待处理文本数据集合,然后对待处理文本数据集合中的每个待处理文本数据进行分词处理,得到每个待处理文本数据所对应的词语,最后根据每个待处理文本数据所对应的词语,生成词向量文件。通过上述方式,能够便于后续生成第一词向量,从而提升方案的可操作性和实用性。
可选地,在上述图4对应的第一个实施例的基础上,本发明实施例提供的病毒检测的方法第四个可选实施例中,获取文本数据集合之后,还可以包括:
对文本数据集合中的每个文本数据进行分析处理,得到每个文本数据所对应的标签信息,其中,标签信息包括角色标签、句法标签以及语义标签中的至少一项,角色标签用于表示文本数据中各个词语的类型,句法标签用于表示文本数据中各个词语之间的从属关系,语义标签用于表示文本数据中各个词语的重要程度;
采用独热编码onehot对每个文本数据所对应的标签信息进行处理,得到每个文本数据所对应的第二词向量。
本实施例中,将介绍如何对每个文本数据进行分析处理,首先,需要获取每个文本数据对应的标签信息,也就是角色标签、句法标签以及语义标签中的至少一项。角色标签用于表示文本数据中各个词语的类型,以文本数据为“中国技术交易大厦”为例,“中国”这个词语的角色标签为国家名,“技术”和“交易”这两个词语的角色标签均为专用名,“大厦”这个词语的角色标签为类别名。句法标签用于表示文本数据中各个词语之间的从属关系,以“好望角(深圳)有限公司”为例,“好望角有限公司”的句法标签为一级名称,“(深圳)”的句法标签为二级名称。语义标签用于表示文本数据中各个词语的重要程度,以“腾讯科技大厦”为例,“科技”的语义标签为主词,“大厦”的语义标签为从词。
在得到每个文件数据的标签信息之后,采用onehot进行编码处理,从而生成第二词向量。需要说明的是,第二词向量为稀疏向量,可以表示为65维的行向量,在实际应用中,还可以是其他维度的行向量,此处不做限定。
onehot又称为一位有效编码,主要是采用X位状态寄存器来对X个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。在实际的机器学习的应用任务中,特征有时候并不总是连续值,有可能是一些分类值,如性别可分为“male”和“female”。在机器学习任务中,对于这样的特征,通常我们需要对其进行特征数字化,如下面的例子:
有如下三个特征属性:
性别:["male","female"];
地区:["Europe","US","Asia"];
浏览器:["Firefox","Chrome","Safari","Internet Explorer"];
对于某一个样本,如["male","US","Internet Explorer"],需要将这个分类值的特征数字化,最直接的方法,我们可以采用序列化的方式表示为[0,1,3]。
然而,性别的属性是二维的,同理,地区是三维的,浏览器则是四维的,采用onehott编码的方式对上述的样本“["male","US","Internet Explorer"]”进行编码,“male”则对应着[1,0],“US”对应着[0,1,0],而“Internet Explorer”对应着[0,0,0,1]。则完整的特征数字化的结果为:[1,0,0,1,0,0,0,0,1]。这样导致的一个结果就是数据会变得非常的稀疏。
再次,本发明实施例中,分类结果确定装置在获取文本数据集合之后,还需要对文本数据集合中的每个文本数据进行分析处理,得到每个文本数据所对应的标签信息,然后采用onehot对每个文本数据所对应的标签信息进行处理,得到每个文本数据所对应的第二词向量。通过上述方式,能够将文本数据进行onehot编码,以得到第二词向量,从而能够采用第二词向量进行POI分类模型的训练,由此提升方案的实用性和可行性。
可选地,在上述图4对应的第二个至第四个实施例中任一项的基础上,本发明实施例提供的病毒检测的方法第五个可选实施例中,对文本数据集合中的各个文本数据进行处理,得到文本特征数据集合,可以包括:
根据第一词向量以及第二词向量确定文本卷积核;
采用文本卷积核对每个文本数据进行卷积处理,得到每个文本数据对应的第一卷积输出结果;
根据第一卷积输出结果中的目标卷积处理结果,生成每个文本数据对应的文本特征数据,其中,目标卷积处理结果为卷积数据结果中的最大值;
根据每个文本数据对应的文本特征数据确定文本特征数据集合。
本实施例中,将结合图5和图6介绍分类结果确定装置如何生成文本特征数据集合。请参阅图5,图5为本发明实施例中生成第一词向量以及第二词向量的一个示意图,如图所示,文本数据中可以包括POI name、POI source以及addi_info。其中,POI name表示POI名称,如“腾讯科技大厦”。POI source表示POI来源,比如是从地图测绘公司获取的POI,或者从其他电子地图上中获取的。addi_info表示从不同应用程序中获取的信息,比如,某个美食点评上的用户评论“这里的火锅特别赞”,addi_info能够丰富信息类型。对文本数据进行分词处理,得到多个分词结果,如W1、W2……Wn,同时,对文本数据进行名称分析处理,得到每个分词的标签,如角色标签R1、R2……Rn,句法标签S1、S2……Sn,语义标签E1、E2……En。接下来,将角色标签、句法标签和语义标签采用onehot处理,转化为a维的稀疏向量(第二词向量)。此外,根据词向量文件对分词结果进行赋值,得到b维的向量(第一词向量),最后将a维的稀疏向量和b维的向量进行拼接,得到(a+b)维的输入向量。
接下来,可以根据第一词向量以及第二词向量确定文本卷积核,假设第一词向量为200维,第二词向量为65维,那么输入向量为265维,为了便于介绍,请参阅图6,图6为本发明实施例中生成文本特征数据的一个示意图,若文本卷积层采用宽度为265,高度分别为2、3和4的三种一维文本卷积核,如图6所示,每个卷积核可以有两个输出,高度为4的文本卷积核有1号卷积核和2号卷积核,高度为3的文本卷积核有3号卷积核和4号卷积核,高度为2的文件卷积核有5号卷积核和6号卷积核,对卷积核的每个元素(即图6中的每个小格子)值进行随机初始化,符合截断正态分布,随机赋值的范围可以在±0.1之间。卷积核沿着高度方向移动,每次移动步长为1,与词向量矩阵做点乘求和操作。然后,文本池化(pooling)层可以采用1-max pooling,分词结果数量不同的文本数据经过pooling层之后能够定长表示。由pooling层输出第一卷积输出结果。
以6个卷积核输出的结果为例,由1号卷积核、2号卷积核、3号卷积核、4号卷积核、5号卷积核和6号卷积核分别输出6个卷积输出结果,这些卷积输出结果称为第一卷积输出结果,于是需要从每个卷积输出结果中选择出卷积输出值中最大的一个,作为目标卷积处理结果,即1号卷积的目标卷积处理结果为a、2号卷积核的目标卷积处理结果为b、3号卷积核的目标卷积处理结果为c、4号卷积核的目标卷积处理结果为d、5号卷积核的目标卷积处理结果为e以及6号卷积核的目标卷积处理结果为f。最后,将a、b、c、d、e和f拼接后得到文本特征数据。
可以理解的是,多个文本特征数据即为文本特征数据集合。
更进一步地,本发明实施例中,分类结果确定装置采用第一词向量和第二词向量进行卷积处理,然后对第一卷积输出结果进行池化处理,最后生成文本特征数据。通过上述方式,能够采用第一词向量和第二词向量得到文本特征数据,从而提升方案的可行性和实用性。
可选地,在上述图4对应的第一个实施例的基础上,本发明实施例提供的病毒检测的方法第六个可选实施例中,获取图片数据集合之前,还可以包括:
获取待处理图片数据集合,其中,待处理图片数据集合包括多个待处理图片数据;
对待处理图片数据集合中的每个待处理图片数据进行剪裁处理,得到每个待处理图片数据所对应的关键图片数据;
对关键图片数据进行灰度处理,得到每个待处理图片数据对应的图片数据。
本实施例中,分类结果确定装置还需要预先对待处理图片数据集合进行处理,通常情况下,待处理图片数据集合中所包含的待处理图片数据是原始图片,为了便于介绍,请参阅图7,图7为本发明实施例中待处理图片数据与图片数据的一个对比示意图,如图所示,上方即为待处理图片数据(需要说明的是,待处理图片数据通常是彩色图像)。由于每个待处理图片数据的大小可能不同,因此,首先需要对每个待处理图片数据进行剪裁处理,比如统一剪裁成90×256像素的关键图片数据,剪裁的原则为,保留待处理图片数据中的关键数据。比如说某个待处理图片数据中包括一个明显的“咖啡杯”图案,那么剪裁后的关键图片数据中也应该保留“咖啡杯”的图案。
在处理得到关键图片数据之后,还需进一步进行灰度处理,最后呈现的图片数据如图7所示。
再次,本发明实施例中,分类结果确定装置还需要对待处理图片数据集合中的各个待处理图片数据进行预处理,从而生成图片数据。通过上述方式,能够压缩图片数据的数据量,从而提升训练的效率,另一方面,可以得到更多具有代表性的有效图片数据,由此,有利于提升模型训练的准确度。
可选地,在上述图4对应的第一个或第六个实施例的基础上,本发明实施例提供的病毒检测的方法第七个可选实施例中,对图片数据集合中的各个图片数据进行处理,得到图片特征数据集合,可以包括:
采用图片卷积核对每个图片数据进行卷积处理,得到每个图片数据对应的第二卷积输出结果;
根据第二卷积输出结果,生成每个图片数据对应的图片特征数据;
根据每个图片数据对应的图片特征数据确定图片特征数据集合。
本实施例中,将结合图8介绍分类结果确定装置如何生成图片特征数据集合。请参阅图8,图8为本发明实施例中生成图片特征数据的一个示意图,如图所示,假设图片数据的像素为90×256,若图片卷积层中采用3x3的图片卷积核(如1号卷积核、2号卷积核以及3号卷积核)检测图片数据中的类别特征。
可以理解的是,图片卷积核中卷积核值的初始化、步长及个数可以与文本卷积层中卷积核值的初始化、步长及个数相同,这样的话,能够更高效地融合文本特征数据和图片特征数据。不同的是图片卷积核既沿着宽度方向移动,又沿着高度方向移动,同时需要在边界处做补零处理。
图片池化层同样可以采用最大pooling的方式,采用pooling的大小为2x2,步长为1。最终对提取出的图片特征进行维度变换,得到图片特征数据,从将图片特征数据作为文本特征特征的补充。
可以理解的是,多个图片特征数据即为图片特征数据集合。
进一步地,本发明实施例中,分类结果确定装置得到图片特征数据集合的过程可以是,先采用图片卷积核对每个图片数据进行卷积处理,得到每个图片数据对应的第二卷积输出结果,然后根据第二卷积输出结果,生成每个图片数据对应的图片特征数据,最后根据每个图片数据对应的图片特征数据确定图片特征数据集合。通过上述方式,可以采用图片数据得到图片特征数据,从而提升方案的可行性和实用性。
可选地,在上述图4对应的第一个实施例的基础上,本发明实施例提供的病毒检测的方法第八个可选实施例中,根据文本特征数据集合以及图片特征数据集合训练得到POI分类模型,可以包括:
对每个文本数据对应的文本特征数据以及每个图片数据对应的图片特征数据进行组合,得到文本图片特征矩阵;
将文本图片特征矩阵输入至全连接层,输出目标预测结果;
对目标预测结果以及文本图片特征矩阵进行训练,得到POI分类模型。
本实施例中,将结合图9介绍如何获取目标预测结果,为了便于理解,请参阅图9,图9为本发明实施例中输出目标预测结果的一个示意图,如图所示,首先,可以将两个通道提取出的文本特征数据和图片特征数据组合为宽度为1的文本图片特征矩阵,并将文本图片特征矩阵作为文本-图片全连接层(fully connected layers,FC)层的输入。接下来,文本-图片FC层采用SoftMax函数对输入的文本-图片特征进行计算,得到最终各个类别可能的概率。最后,选取结果概率最大的类别作为目标预测结果。
其中,SoftMax算法可以用于处理多分类问题,在多分类过程中,SoftMax算法将多个神经元的输出映射到(0,1)的区间内,可以看成概率来理解,从而来进行多分类。
再次,本发明实施例中,分类结果确定装置训练得到POI分类模型的过程中,首先需要对每个文本数据对应的文本特征数据以及每个图片数据对应的图片特征数据进行组合,得到文本图片特征矩阵,然后将文本图片特征矩阵输入至全连接层,输出目标预测结果,最后利用目标预测结果以及文本图片特征矩阵,训练得到POI分类模型。通过上述方式,结合文本特征数据以及图片特征数据得到信息量更丰富的文本图片特征矩阵,再利用文本图片特征矩阵训练得到POI分类模型,使得该POI分类模型具有更好的可靠性以及更高的精度。
可选地,在上述图4对应的第八个实施例的基础上,本发明实施例提供的病毒检测的方法第九个可选实施例中,将文本图片特征矩阵输入至全连接层,输出目标预测结果,可以包括:
在全连接层中采用目标函数对文本图片特征矩阵进行计算,得到Q个可选预测结果概率,其中,Q为大于或等于1的整数;
从Q个可选预测结果概率中选择概率最大的可选预测结果;
将概率最大的可选预测结果确定为目标预测结果,输出目标预测结果。
本实施例中,在分类结果确定装置将文本图片特征矩阵输入至全连接层,输出目标预测结果的过程中,首先,需要在全连接层中采用目标函数对文本图片特征矩阵进行计算,并得到Q个可选预测结果以及每个可选预测结果所对应的概率。其中,FC层在整个卷积神经网络中起到了分类器的作用,FC层的每一个结点都与上一层的所有结点相连,用来把之前提取到的特征综合起来。由于其全相连的特性,FC层的参数也是最多的。
然后从Q个可选预测结果中选择概率最大的一个可选预测结果作为目标预测结果。
进一步地,本发明实施例中,分类结果确定装置还可以在全连接层中采用目标函数对文本图片特征矩阵进行计算,得到Q个可选预测结果概率,再从Q个可选预测结果概率中选择概率最大的可选预测结果,最后将概率最大的可选预测结果确定为目标预测结果,输出目标预测结果。通过上述方式,能够准确地获取预测结果,使得预测结果的准确度大幅提升,从而增强方案的实用性和可操作性。
为了便于理解,下面将结合一个流程图对本发明中的分类结果确定方法进行介绍,请参阅图10,图10为本发明应用场景中确定分类结果的一个流程示意图,如图所示,具体地:
步骤A1中,从数据库中导出全量的POI数据,过滤掉名称不规范的、下线的或者低置信度的数据,并从合理的POI数据中获取POI文本数据,POI文本数据包括POI名称、POI来源以及其他信息;
步骤A2中,对每一条POI文本数据进行分词处理,并且还需要对每一条POI文本数据进行分析,由此得到分词结果,以及角色标签、句法标签以及语义标签;
步骤A3中,embedding层加载预训练得到的词向量文件,对每条POI数据的分词结果进行词向量矩阵的转换。若某个分词结果在词向量文件中没有找到,则进行高斯随机化赋值,得到a维的行向量。同时将名称分析所得到的角色标签、句法标签以及语义标签采用onehot,转化为b维的稀疏向量;最后将词向量和onehot向量拼接为(a+b)维的输入向量;
步骤A4中,调用数据库中的POI数据,对每一条POI数据的名称进行分词处理,使用Word2Vector工具包,训练得到每个词的向量化表示,并保存为词向量文件,便于后续使用;
步骤A5中,文本卷积层采用宽度为(a+b),高度分别为(x,y,z)的三种一维卷积核,每种卷积核有至少一个输出。卷积核的每个元素值随机初始化,符合截断正态分布。卷积核沿着高度方向移动,每次移动步长为n,与词向量矩阵做点乘求和操作;
步骤A6中,文本pooling层采用最大pooling,分词个数不同的文本数据经过pooling层之后能够定长表示,得到文本特征数据;
步骤B1中,从数据库中导出全量的POI数据,过滤掉名称不规范的、下线的或者低置信度的数据,并从合理的POI数据中获取POI图片数据;
步骤B2中,对POI图片进行预处理,裁剪出图片中与POI有关的重点信息,并进行灰度处理;
步骤B3中,图片卷积层中采用m×m的卷积核,检测图片中的类别特征。卷积核值的初始化、步长及个数可以与文本卷积层中的相同,不同的是卷积核既沿着宽度方向移动也沿着高度方向移动,在边界处做补零处理;
步骤B4中,图片池化层同样采用最大pooling方式,pooling的大小为k×k,步长为1,对最终对提取出的特征进行维度变换,得到图片特征数据,作为文本特征数据的补充。
步骤C1中,将两个通道提取出的文本特征数据和图片特征数据组合为宽度为1的特征矩阵,作为文本-图片全连接层的输入;
步骤C2中,文本-图片全连接层采用SoftMax函数对输入的文本特征数据和图片特征数据进行计算,得到最终各个类别可能的概率,选取结果概率最大的类别作为预测结果。
下面对本发明中的分类结果确定装置进行详细描述,请参阅图11,图11为本发明实施例中分类结果确定装置一个实施例示意图,分类结果确定装置20包括:
获取模块201,用于获取待预测兴趣点POI数据,其中,所述待预测POI数据包括待预测文本数据以及待预测图片数据;
所述获取模块201,还用于通过POI分类模型获取所述待预测POI数据所对应的N个可选POI分类结果,其中,每个可选POI分类结果对应一个类别概率,所述POI分类模型为根据文本数据集合以及图片数据集合训练得到的,所述N为大于或等于1的整数;
确定模块202,用于根据所述获取模块获取的所述N个可选POI分类结果,将类别概率最大的可选POI分类结果确定为目标分类结果,其中,所述目标分类结果用于表示所述待预测POI数据的分类结果。
本实施例中,获取模块201获取待预测兴趣点POI数据,其中,所述待预测POI数据包括待预测文本数据以及待预测图片数据,所述获取模块201通过POI分类模型获取所述待预测POI数据所对应的N个可选POI分类结果,其中,每个可选POI分类结果对应一个类别概率,所述POI分类模型为根据文本数据集合以及图片数据集合训练得到的,所述N为大于或等于1的整数,确定模块202根据所述获取模块获取的所述N个可选POI分类结果,将类别概率最大的可选POI分类结果确定为目标分类结果,其中,所述目标分类结果用于表示所述待预测POI数据的分类结果。
本发明实施例中,提供了一种分类结果确定装置,首先分类结果确定装置需要获取待预测兴趣点POI数据,其中,待预测POI数据包括待预测文本数据以及待预测图片数据,然后通过POI分类模型获取待预测POI数据所对应的N个可选POI分类结果,其中,每个可选POI分类结果对应一个类别概率,POI分类模型为根据文本数据集合以及图片数据集合训练得到的,最后,分类结果确定装置可以根据N个可选POI分类结果,将类别概率最大的可选POI分类结果确定为目标分类结果,其中,目标分类结果用于表示待预测POI数据的分类结果。通过上述方式,将待预测的POI数据输入至POI分类模型,且该POI分类模型是由文本数据和图片数据共同训练得到的,相应地,待预测的POI数据也包括了文本数据和图片数据,将图片数据作为文本数据的补充,从而丰富了POI数据的特征,由此提升POI数据的分类精度。
可选地,在上述图11所对应的实施例的基础上,请参阅图12,本发明实施例提供的分类结果确定装置20的另一实施例中,所述分类结果确定装置20还包括处理模块203以及训练模块204;
所述获取模块201,还用于在通过POI分类模型获取所述待预测POI数据所对应的N个可选POI分类结果之前,获取所述文本数据集合,其中,所述文本数据集合中包括多个文本数据;
所述获取模块201,还用于获取所述图片数据集合,其中,所述图片数据集合中包括多个图片数据;
所述处理模块203,用于对所述获取模块201获取的所述文本数据集合中的各个文本数据进行处理,得到文本特征数据集合,其中,所述文本特征数据集合包括多个文本特征数据;
所述处理模块203,还用于对所述获取模块201获取的所述图片数据集合中的各个图片数据进行处理,得到图片特征数据集合,其中,所述图片特征数据集合包括多个图片特征数据;
所述训练模块204,用于根据所述处理模块203处理得到的所述文本特征数据集合以及所述图片特征数据集合训练得到所述POI分类模型。
其次,本发明实施例中,介绍了一种训练得到POI分类模型的方法,即利用文本数据集合以及图片数据集合,分别处理得到文本特征数据集合以及图片特征数据集合,再将文本特征数据集合以及图片特征数据集合放入神经网络模型中进行训练,最后得到POI分类模型。通过上述方式,采用深度学习模型进行POI数据的训练和分类,无需对文本数据集合以及图片数据集合进行繁琐的特征工程,很大程度上节省了技术人员的时间成本,从而提升了方案的实用性。
可选地,在上述图12所对应的实施例的基础上,请参阅图13,本发明实施例提供的分类结果确定装置20的另一实施例中,所述分类结果确定装置20还包括生成模块205;
所述处理模块203,还用于所述获取模块201获取所述文本数据集合之后,对所述文本数据集合中的每个文本数据进行分词处理,得到所述每个待处理文本数据所对应的分词结果;
所述生成模块205,用于若所述处理模块203处理得到的所述分词结果与词向量文件不匹配,则对所述分词结果进行随机赋值,以生成所述每个待处理文本数据所对应的第一词向量;
所述生成模块205,还用于若所述处理模块203处理得到的所述分词结果与词向量文件匹配,则生成所述每个待处理文本数据所对应的第一词向量。
再次,本发明实施例中,分类结果确定装置在获取文本数据集合之后,还需要对文本数据集合中的每个文本数据进行处理,并且将每个文本数据转换为第一词向量。通过上述方式,能够将文本数据进行词向量矩阵的转换,以得到第一词向量,从而能够采用第一词向量进行POI分类模型的训练,由此提升方案的实用性和可行性。
可选地,在上述图13所对应的实施例的基础上,本发明实施例提供的分类结果确定装置20的另一实施例中,
所述获取模块201,还用于获取所述文本数据集合之前,获取待处理文本数据集合,其中,所述待处理文本数据集合包括多个待处理文本数据;
所述处理模块203,还用于对所述获取模块201获取的所述待处理文本数据集合中的每个待处理文本数据进行分词处理,得到所述每个待处理文本数据所对应的词语;
所述生成模块205,还用于根据所述处理模块203处理得到的所述每个待处理文本数据所对应的词语,生成所述词向量文件,其中,所述词向量文件中包括每个词语的向量。
进一步地,本发明实施例中,分类结果确定装置还可以对词向量进行预训练,首先获取待处理文本数据集合,然后对待处理文本数据集合中的每个待处理文本数据进行分词处理,得到每个待处理文本数据所对应的词语,最后根据每个待处理文本数据所对应的词语,生成词向量文件。通过上述方式,能够便于后续生成第一词向量,从而提升方案的可操作性和实用性。
可选地,在上述图12所对应的实施例的基础上,本发明实施例提供的分类结果确定装置20的另一实施例中,
所述处理模块203,还用于所述获取模块201获取所述文本数据集合之后,对所述文本数据集合中的每个文本数据进行分析处理,得到所述每个文本数据所对应的标签信息,其中,所述标签信息包括角色标签、句法标签以及语义标签中的至少一项,所述角色标签用于表示文本数据中各个词语的类型,所述句法标签用于表示文本数据中各个词语之间的从属关系,所述语义标签用于表示所述文本数据中各个词语的重要程度;
所述处理模块203,还用于采用独热编码onehot对所述每个文本数据所对应的标签信息进行处理,得到所述每个文本数据所对应的第二词向量。
再次,本发明实施例中,分类结果确定装置在获取文本数据集合之后,还需要对文本数据集合中的每个文本数据进行分析处理,得到每个文本数据所对应的标签信息,然后采用onehot对每个文本数据所对应的标签信息进行处理,得到每个文本数据所对应的第二词向量。通过上述方式,能够将文本数据进行onehot编码,以得到第二词向量,从而能够采用第二词向量进行POI分类模型的训练,由此提升方案的实用性和可行性。
可选地,在上述图12或图13所对应的实施例的基础上,本发明实施例提供的分类结果确定装置20的另一实施例中,
所述处理模块203,具体用于根据所述第一词向量以及所述第二词向量确定文本卷积核;
采用所述文本卷积核对所述每个文本数据进行卷积处理,得到所述每个文本数据对应的第一卷积输出结果;
根据所述第一卷积输出结果中的目标卷积处理结果,生成所述每个文本数据对应的文本特征数据,其中,所述目标卷积处理结果为所述卷积数据结果中的最大值;
根据所述每个文本数据对应的文本特征数据确定所述文本特征数据集合。
更进一步地,本发明实施例中,分类结果确定装置采用第一词向量和第二词向量进行卷积处理,然后对第一卷积输出结果进行池化处理,最后生成文本特征数据。通过上述方式,能够采用第一词向量和第二词向量得到文本特征数据,从而提升方案的可行性和实用性。
可选地,在上述图12所对应的实施例的基础上,本发明实施例提供的分类结果确定装置20的另一实施例中,
所述获取模块201,还用于获取所述图片数据集合之前,获取待处理图片数据集合,其中,所述待处理图片数据集合包括多个待处理图片数据;
所述处理模块203,还用于对所述获取模块201获取的所述待处理图片数据集合中的每个待处理图片数据进行剪裁处理,得到所述每个待处理图片数据所对应的关键图片数据;
所述处理模块203,还用于对所述关键图片数据进行灰度处理,得到所述每个待处理图片数据对应的图片数据。
再次,本发明实施例中,分类结果确定装置还需要对待处理图片数据集合中的各个待处理图片数据进行预处理,从而生成图片数据。通过上述方式,能够压缩图片数据的数据量,从而提升训练的效率,另一方面,可以得到更多具有代表性的有效图片数据,由此,有利于提升模型训练的准确度。
可选地,在上述图12所对应的实施例的基础上,本发明实施例提供的分类结果确定装置20的另一实施例中,
所述处理模块203,具体用于采用图片卷积核对所述每个图片数据进行卷积处理,得到所述每个图片数据对应的第二卷积输出结果;
根据所述第二卷积输出结果,生成所述每个图片数据对应的图片特征数据;
根据所述每个图片数据对应的图片特征数据确定所述图片特征数据集合。
进一步地,本发明实施例中,分类结果确定装置得到图片特征数据集合的过程可以是,先采用图片卷积核对每个图片数据进行卷积处理,得到每个图片数据对应的第二卷积输出结果,然后根据第二卷积输出结果,生成每个图片数据对应的图片特征数据,最后根据每个图片数据对应的图片特征数据确定图片特征数据集合。通过上述方式,可以采用图片数据得到图片特征数据,从而提升方案的可行性和实用性。
可选地,在上述图12所对应的实施例的基础上,本发明实施例提供的分类结果确定装置20的另一实施例中,
所述训练模块204,具体用于对所述每个文本数据对应的文本特征数据以及所述每个图片数据对应的图片特征数据进行组合,得到文本图片特征矩阵;
将所述文本图片特征矩阵输入至全连接层,输出目标预测结果;
对所述目标预测结果以及所述文本图片特征矩阵进行训练,得到所述POI分类模型。
再次,本发明实施例中,分类结果确定装置训练得到POI分类模型的过程中,首先需要对每个文本数据对应的文本特征数据以及每个图片数据对应的图片特征数据进行组合,得到文本图片特征矩阵,然后将文本图片特征矩阵输入至全连接层,输出目标预测结果,最后利用目标预测结果以及文本图片特征矩阵,训练得到POI分类模型。通过上述方式,结合文本特征数据以及图片特征数据得到信息量更丰富的文本图片特征矩阵,再利用文本图片特征矩阵训练得到POI分类模型,使得该POI分类模型具有更好的可靠性以及更高的精度。
可选地,在上述图12所对应的实施例的基础上,本发明实施例提供的分类结果确定装置20的另一实施例中,
所述训练模块204,具体用于在所述全连接层中采用目标函数对所述文本图片特征矩阵进行计算,得到Q个可选预测结果概率,其中,所述Q为大于或等于1的整数;
从所述Q个可选预测结果概率中选择概率最大的可选预测结果;
将所述概率最大的可选预测结果确定为所述目标预测结果,输出所述目标预测结果。
进一步地,本发明实施例中,分类结果确定装置还可以在全连接层中采用目标函数对文本图片特征矩阵进行计算,得到Q个可选预测结果概率,再从Q个可选预测结果概率中选择概率最大的可选预测结果,最后将概率最大的可选预测结果确定为目标预测结果,输出目标预测结果。通过上述方式,能够准确地获取预测结果,使得预测结果的准确度大幅提升,从而增强方案的实用性和可操作性。
图14是本发明实施例提供的一种分类结果确定装置结构示意图,该服务器300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在分类结果确定装置300上执行存储介质330中的一系列指令操作。
服务器300还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图14所示的服务器结构。
本实施例中,CPU 322用于执行如下步骤:
获取待预测兴趣点POI数据,其中,所述待预测POI数据包括待预测文本数据以及待预测图片数据;
通过POI分类模型获取所述待预测POI数据所对应的N个可选POI分类结果,其中,每个可选POI分类结果对应一个类别概率,所述POI分类模型为根据文本数据集合以及图片数据集合训练得到的,所述N为大于或等于1的整数;
根据所述N个可选POI分类结果,将类别概率最大的可选POI分类结果确定为目标分类结果,其中,所述目标分类结果用于表示所述待预测POI数据的分类结果。
可选地,CPU 322还用于执行如下步骤:
获取所述文本数据集合,其中,所述文本数据集合中包括多个文本数据;
获取所述图片数据集合,其中,所述图片数据集合中包括多个图片数据;
对所述文本数据集合中的各个文本数据进行处理,得到文本特征数据集合,其中,所述文本特征数据集合包括多个文本特征数据;
对所述图片数据集合中的各个图片数据进行处理,得到图片特征数据集合,其中,所述图片特征数据集合包括多个图片特征数据;
根据所述文本特征数据集合以及所述图片特征数据集合训练得到所述POI分类模型。
可选地,CPU 322还用于执行如下步骤:
对所述文本数据集合中的每个文本数据进行分词处理,得到所述每个待处理文本数据所对应的分词结果;
若所述分词结果与词向量文件不匹配,则对所述分词结果进行随机赋值,以生成所述每个待处理文本数据所对应的第一词向量;
若所述分词结果与词向量文件匹配,则生成所述每个待处理文本数据所对应的第一词向量。
可选地,CPU 322还用于执行如下步骤:
获取待处理文本数据集合,其中,所述待处理文本数据集合包括多个待处理文本数据;
对所述待处理文本数据集合中的每个待处理文本数据进行分词处理,得到所述每个待处理文本数据所对应的词语;
根据所述每个待处理文本数据所对应的词语,生成所述词向量文件,其中,所述词向量文件中包括每个词语的向量。
可选地,CPU 322还用于执行如下步骤:
对所述文本数据集合中的每个文本数据进行分析处理,得到所述每个文本数据所对应的标签信息,其中,所述标签信息包括角色标签、句法标签以及语义标签中的至少一项,所述角色标签用于表示文本数据中各个词语的类型,所述句法标签用于表示文本数据中各个词语之间的从属关系,所述语义标签用于表示所述文本数据中各个词语的重要程度;
采用独热编码onehot对所述每个文本数据所对应的标签信息进行处理,得到所述每个文本数据所对应的第二词向量。
可选地,CPU 322具体用于执行如下步骤:
根据所述第一词向量以及所述第二词向量确定文本卷积核;
采用所述文本卷积核对所述每个文本数据进行卷积处理,得到所述每个文本数据对应的第一卷积输出结果;
根据所述第一卷积输出结果中的目标卷积处理结果,生成所述每个文本数据对应的文本特征数据,其中,所述目标卷积处理结果为所述卷积数据结果中的最大值;
根据所述每个文本数据对应的文本特征数据确定所述文本特征数据集合。
可选地,CPU 322还用于执行如下步骤:
获取待处理图片数据集合,其中,所述待处理图片数据集合包括多个待处理图片数据;
对所述待处理图片数据集合中的每个待处理图片数据进行剪裁处理,得到所述每个待处理图片数据所对应的关键图片数据;
对所述关键图片数据进行灰度处理,得到所述每个待处理图片数据对应的图片数据。
可选地,CPU 322具体用于执行如下步骤:
采用图片卷积核对所述每个图片数据进行卷积处理,得到所述每个图片数据对应的第二卷积输出结果;
根据所述第二卷积输出结果,生成所述每个图片数据对应的图片特征数据;
根据所述每个图片数据对应的图片特征数据确定所述图片特征数据集合。
可选地,CPU 322具体用于执行如下步骤:
对所述每个文本数据对应的文本特征数据以及所述每个图片数据对应的图片特征数据进行组合,得到文本图片特征矩阵;
将所述文本图片特征矩阵输入至全连接层,输出目标预测结果;
对所述目标预测结果以及所述文本图片特征矩阵进行训练,得到所述POI分类模型。
可选地,CPU 322具体用于执行如下步骤:
在所述全连接层中采用目标函数对所述文本图片特征矩阵进行计算,得到Q个可选预测结果概率,其中,所述Q为大于或等于1的整数;
从所述Q个可选预测结果概率中选择概率最大的可选预测结果;
将所述概率最大的可选预测结果确定为所述目标预测结果,输出所述目标预测结果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (13)
1.一种确定分类结果的方法,其特征在于,包括:
获取待预测兴趣点POI数据,其中,所述待预测POI数据包括待预测文本数据以及待预测图片数据;
通过POI分类模型获取所述待预测POI数据所对应的N个可选POI分类结果,其中,每个可选POI分类结果对应一个类别概率,所述POI分类模型为根据文本数据集合以及图片数据集合训练得到的,所述N为大于或等于1的整数;
根据所述N个可选POI分类结果,将类别概率最大的可选POI分类结果确定为目标分类结果,其中,所述目标分类结果用于表示所述待预测POI数据的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述通过POI分类模型获取所述待预测POI数据所对应的N个可选POI分类结果之前,所述方法还包括:
获取所述文本数据集合,其中,所述文本数据集合中包括多个文本数据;
获取所述图片数据集合,其中,所述图片数据集合中包括多个图片数据;
对所述文本数据集合中的各个文本数据进行处理,得到文本特征数据集合,其中,所述文本特征数据集合包括多个文本特征数据;
对所述图片数据集合中的各个图片数据进行处理,得到图片特征数据集合,其中,所述图片特征数据集合包括多个图片特征数据;
根据所述文本特征数据集合以及所述图片特征数据集合训练得到所述POI分类模型。
3.根据权利要求2所述的方法,其特征在于,所述获取所述文本数据集合之后,所述方法还包括:
对所述文本数据集合中的每个文本数据进行分词处理,得到所述每个待处理文本数据所对应的分词结果;
若所述分词结果与词向量文件不匹配,则对所述分词结果进行随机赋值,以生成所述每个待处理文本数据所对应的第一词向量;
若所述分词结果与词向量文件匹配,则生成所述每个待处理文本数据所对应的第一词向量。
4.根据权利要求3所述的方法,其特征在于,获取所述文本数据集合之前,所述方法还包括:
获取待处理文本数据集合,其中,所述待处理文本数据集合包括多个待处理文本数据;
对所述待处理文本数据集合中的每个待处理文本数据进行分词处理,得到所述每个待处理文本数据所对应的词语;
根据所述每个待处理文本数据所对应的词语,生成所述词向量文件,其中,所述词向量文件中包括每个词语的向量。
5.根据权利要求2所述的方法,其特征在于,所述获取所述文本数据集合之后,所述方法还包括:
对所述文本数据集合中的每个文本数据进行分析处理,得到所述每个文本数据所对应的标签信息,其中,所述标签信息包括角色标签、句法标签以及语义标签中的至少一项,所述角色标签用于表示文本数据中各个词语的类型,所述句法标签用于表示文本数据中各个词语之间的从属关系,所述语义标签用于表示所述文本数据中各个词语的重要程度;
采用独热编码onehot对所述每个文本数据所对应的标签信息进行处理,得到所述每个文本数据所对应的第二词向量。
6.根据权利要求3至5中任一项所述的方法,其特征在于,所述对所述文本数据集合中的各个文本数据进行处理,得到文本特征数据集合,包括:
根据所述第一词向量以及所述第二词向量确定文本卷积核;
采用所述文本卷积核对所述每个文本数据进行卷积处理,得到所述每个文本数据对应的第一卷积输出结果;
根据所述第一卷积输出结果中的目标卷积处理结果,生成所述每个文本数据对应的文本特征数据,其中,所述目标卷积处理结果为所述卷积数据结果中的最大值;
根据所述每个文本数据对应的文本特征数据确定所述文本特征数据集合。
7.根据权利要求2所述的方法,其特征在于,所述获取所述图片数据集合之前,所述方法还包括:
获取待处理图片数据集合,其中,所述待处理图片数据集合包括多个待处理图片数据;
对所述待处理图片数据集合中的每个待处理图片数据进行剪裁处理,得到所述每个待处理图片数据所对应的关键图片数据;
对所述关键图片数据进行灰度处理,得到所述每个待处理图片数据对应的图片数据。
8.根据权利要求2或7所述的方法,其特征在于,所述对所述图片数据集合中的各个图片数据进行处理,得到图片特征数据集合,包括:
采用图片卷积核对所述每个图片数据进行卷积处理,得到所述每个图片数据对应的第二卷积输出结果;
根据所述第二卷积输出结果,生成所述每个图片数据对应的图片特征数据;
根据所述每个图片数据对应的图片特征数据确定所述图片特征数据集合。
9.根据权利要求2所述的方法,其特征在于,所述根据所述文本特征数据集合以及所述图片特征数据集合训练得到所述POI分类模型,包括:
对所述每个文本数据对应的文本特征数据以及所述每个图片数据对应的图片特征数据进行组合,得到文本图片特征矩阵;
将所述文本图片特征矩阵输入至全连接层,输出目标预测结果;
对所述目标预测结果以及所述文本图片特征矩阵进行训练,得到所述POI分类模型。
10.根据权利要求9所述的方法,其特征在于,所述将所述文本图片特征矩阵输入至全连接层,输出目标预测结果,包括:
在所述全连接层中采用目标函数对所述文本图片特征矩阵进行计算,得到Q个可选预测结果概率,其中,所述Q为大于或等于1的整数;
从所述Q个可选预测结果概率中选择概率最大的可选预测结果;
将所述概率最大的可选预测结果确定为所述目标预测结果,输出所述目标预测结果。
11.一种分类结果确定装置,其特征在于,所述分类结果确定装置包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取待预测兴趣点POI数据,其中,所述待预测POI数据包括待预测文本数据以及待预测图片数据;
通过POI分类模型获取所述待预测POI数据所对应的N个可选POI分类结果,其中,每个可选POI分类结果对应一个类别概率,所述POI分类模型为根据文本数据集合以及图片数据集合训练得到的,所述N为大于或等于1的整数;
根据所述N个可选POI分类结果,将类别概率最大的可选POI分类结果确定为目标分类结果,其中,所述目标分类结果用于表示所述待预测POI数据的分类结果;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
12.根据权利要求11所述的分类结果确定装置,其特征在于,所述处理器还用于执行如下功能:
获取所述文本数据集合,其中,所述文本数据集合中包括多个文本数据;
获取所述图片数据集合,其中,所述图片数据集合中包括多个图片数据;
对所述文本数据集合中的各个文本数据进行处理,得到文本特征数据集合,其中,所述文本特征数据集合包括多个文本特征数据;
对所述图片数据集合中的各个图片数据进行处理,得到图片特征数据集合,其中,所述图片特征数据集合包括多个图片特征数据;
根据所述文本特征数据集合以及所述图片特征数据集合训练得到所述POI分类模型。
13.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810475313.0A CN108734212B (zh) | 2018-05-17 | 2018-05-17 | 一种确定分类结果的方法以及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810475313.0A CN108734212B (zh) | 2018-05-17 | 2018-05-17 | 一种确定分类结果的方法以及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108734212A true CN108734212A (zh) | 2018-11-02 |
CN108734212B CN108734212B (zh) | 2024-06-04 |
Family
ID=63938576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810475313.0A Active CN108734212B (zh) | 2018-05-17 | 2018-05-17 | 一种确定分类结果的方法以及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108734212B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543690A (zh) * | 2018-11-27 | 2019-03-29 | 北京百度网讯科技有限公司 | 用于提取信息的方法和装置 |
CN109657710A (zh) * | 2018-12-06 | 2019-04-19 | 北京达佳互联信息技术有限公司 | 数据筛选方法、装置、服务器及存储介质 |
CN110347777A (zh) * | 2019-07-17 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 一种兴趣点poi的分类方法、装置、服务器及存储介质 |
CN110457917A (zh) * | 2019-01-09 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 滤除区块链数据中的非法内容的方法及相关装置 |
CN111209961A (zh) * | 2020-01-03 | 2020-05-29 | 广州海洋地质调查局 | 一种冷泉区海底生物识别方法及处理终端 |
CN111242146A (zh) * | 2018-11-09 | 2020-06-05 | 蔚来汽车有限公司 | 基于卷积神经网络的poi信息分类 |
CN112818972A (zh) * | 2020-12-25 | 2021-05-18 | 北京百度网讯科技有限公司 | 兴趣点图像的检测方法、装置、电子设备及存储介质 |
CN115687625A (zh) * | 2022-11-14 | 2023-02-03 | 五邑大学 | 文本分类方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919680A (zh) * | 2017-02-28 | 2017-07-04 | 山东师范大学 | 一种利用poi数据进行地表覆盖分类的方法及系统 |
US20170308790A1 (en) * | 2016-04-21 | 2017-10-26 | International Business Machines Corporation | Text classification by ranking with convolutional neural networks |
CN107679110A (zh) * | 2017-09-15 | 2018-02-09 | 广州唯品会研究院有限公司 | 结合文本分类与图片属性提取完善知识图谱的方法及装置 |
CN107862322A (zh) * | 2017-09-15 | 2018-03-30 | 广州唯品会研究院有限公司 | 结合图片和文本进行图片属性分类的方法、装置及系统 |
-
2018
- 2018-05-17 CN CN201810475313.0A patent/CN108734212B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170308790A1 (en) * | 2016-04-21 | 2017-10-26 | International Business Machines Corporation | Text classification by ranking with convolutional neural networks |
CN106919680A (zh) * | 2017-02-28 | 2017-07-04 | 山东师范大学 | 一种利用poi数据进行地表覆盖分类的方法及系统 |
CN107679110A (zh) * | 2017-09-15 | 2018-02-09 | 广州唯品会研究院有限公司 | 结合文本分类与图片属性提取完善知识图谱的方法及装置 |
CN107862322A (zh) * | 2017-09-15 | 2018-03-30 | 广州唯品会研究院有限公司 | 结合图片和文本进行图片属性分类的方法、装置及系统 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242146A (zh) * | 2018-11-09 | 2020-06-05 | 蔚来汽车有限公司 | 基于卷积神经网络的poi信息分类 |
CN111242146B (zh) * | 2018-11-09 | 2023-08-25 | 蔚来(安徽)控股有限公司 | 基于卷积神经网络的poi信息分类 |
CN109543690A (zh) * | 2018-11-27 | 2019-03-29 | 北京百度网讯科技有限公司 | 用于提取信息的方法和装置 |
CN109543690B (zh) * | 2018-11-27 | 2020-04-07 | 北京百度网讯科技有限公司 | 用于提取信息的方法和装置 |
CN109657710A (zh) * | 2018-12-06 | 2019-04-19 | 北京达佳互联信息技术有限公司 | 数据筛选方法、装置、服务器及存储介质 |
CN110457917A (zh) * | 2019-01-09 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 滤除区块链数据中的非法内容的方法及相关装置 |
CN110347777B (zh) * | 2019-07-17 | 2023-03-14 | 腾讯科技(深圳)有限公司 | 一种兴趣点poi的分类方法、装置、服务器及存储介质 |
CN110347777A (zh) * | 2019-07-17 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 一种兴趣点poi的分类方法、装置、服务器及存储介质 |
CN111209961A (zh) * | 2020-01-03 | 2020-05-29 | 广州海洋地质调查局 | 一种冷泉区海底生物识别方法及处理终端 |
CN111209961B (zh) * | 2020-01-03 | 2020-10-09 | 广州海洋地质调查局 | 一种冷泉区海底生物识别方法及处理终端 |
CN112818972A (zh) * | 2020-12-25 | 2021-05-18 | 北京百度网讯科技有限公司 | 兴趣点图像的检测方法、装置、电子设备及存储介质 |
CN112818972B (zh) * | 2020-12-25 | 2024-03-22 | 北京百度网讯科技有限公司 | 兴趣点图像的检测方法、装置、电子设备及存储介质 |
CN115687625A (zh) * | 2022-11-14 | 2023-02-03 | 五邑大学 | 文本分类方法、装置、设备及介质 |
CN115687625B (zh) * | 2022-11-14 | 2024-01-09 | 五邑大学 | 文本分类方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108734212B (zh) | 2024-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108734212A (zh) | 一种确定分类结果的方法以及相关装置 | |
CN113159095B (zh) | 一种训练模型的方法、图像检索的方法以及装置 | |
CN111026842B (zh) | 自然语言处理方法、自然语言处理装置及智能问答系统 | |
CN110533045B (zh) | 一种结合注意力机制的行李x光违禁品图像语义分割方法 | |
CN110489755A (zh) | 文本生成方法和装置 | |
CN109559300A (zh) | 图像处理方法、电子设备及计算机可读存储介质 | |
CN108229478A (zh) | 图像语义分割及训练方法和装置、电子设备、存储介质和程序 | |
CN106980867A (zh) | 将嵌入空间中的语义概念建模为分布 | |
CN107168992A (zh) | 基于人工智能的文章分类方法及装置、设备与可读介质 | |
CN108038183A (zh) | 结构化实体收录方法、装置、服务器和存储介质 | |
CN112949647B (zh) | 三维场景描述方法、装置、电子设备和存储介质 | |
CN106980868A (zh) | 用于具有多个文本标签的图像的嵌入空间 | |
CN107251060A (zh) | 针对序列标签器的预训练和/或迁移学习 | |
CN107861938A (zh) | 一种poi文案生成方法及装置,电子设备 | |
CN108921198A (zh) | 基于深度学习的商品图像分类方法、服务器及系统 | |
CN108280451A (zh) | 语义分割及网络训练方法和装置、设备、介质、程序 | |
CN106354701A (zh) | 汉字处理方法和装置 | |
CN108737530A (zh) | 一种内容分享方法及系统 | |
CN109857844A (zh) | 基于点餐对话文本的意图识别方法、装置、电子设备 | |
CN110457677A (zh) | 实体关系识别方法及装置、存储介质、计算机设备 | |
US20210279279A1 (en) | Automated graph embedding recommendations based on extracted graph features | |
CN110377905A (zh) | 语句的语义表示处理方法及装置、计算机设备及可读介质 | |
CN110222330A (zh) | 语义识别方法及装置、存储介质、计算机设备 | |
CN115131698B (zh) | 视频属性确定方法、装置、设备及存储介质 | |
CN112800225B (zh) | 一种微博评论情绪分类方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20190124 Address after: Room 1601-1608, Floor 16, Yinke Building, 38 Haidian Street, Haidian District, Beijing Applicant after: Tencent Technology (Beijing) Co.,Ltd. Address before: 518057 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 floors Applicant before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |