CN105426356A - 一种目标信息识别方法和装置 - Google Patents

一种目标信息识别方法和装置 Download PDF

Info

Publication number
CN105426356A
CN105426356A CN201510726804.4A CN201510726804A CN105426356A CN 105426356 A CN105426356 A CN 105426356A CN 201510726804 A CN201510726804 A CN 201510726804A CN 105426356 A CN105426356 A CN 105426356A
Authority
CN
China
Prior art keywords
data
feature vector
text
vector
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510726804.4A
Other languages
English (en)
Other versions
CN105426356B (zh
Inventor
吕志高
邹国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Jiuyan Technology Co Ltd
Original Assignee
Hangzhou Jiuyan Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Jiuyan Technology Co Ltd filed Critical Hangzhou Jiuyan Technology Co Ltd
Priority to CN201510726804.4A priority Critical patent/CN105426356B/zh
Publication of CN105426356A publication Critical patent/CN105426356A/zh
Application granted granted Critical
Publication of CN105426356B publication Critical patent/CN105426356B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种目标信息识别方法和装置。该方法包括:获取检测内容中包括的待识别数据;根据所述待识别数据的类型,计算与所述待识别数据对应的目标特征向量;根据计算得到的所述目标特征向量,识别所述检测内容中包括的目标信息。本发明实施例所提供的技术方案,根据待识别数据的类型计算对应的目标特征向量,对待识别数据进行识别,可以识别多种数据类型的待识别数据,针对性地识别目标信息,使得目标信息识别的有效性及准确性更高。

Description

一种目标信息识别方法和装置
技术领域
本发明涉及网络安全技术领域,尤其涉及一种目标信息识别方法和装置。
背景技术
随着互联网及移动网络的迅速发展,借由网络传播消息的快捷性,越来越多的用户选择通过互联网平台与他人交流,共享信息,如可以通过网站或终端应用软件等方式。伴随而来也会产生许多不符合互联网安全使用环境,甚至是违反国家法律法规的内容,如政治敏感、淫秽色情的图像或词汇等等,导致相关的网站存在安全运营风险;某些商贩为了提升自身店铺/商品的曝光度,会在各互联网环境下,通过文本或文本结合图像形式,疯狂宣传自家产品,使得网站或应用软件的用户体验极差,甚至出现利用广告信息进行诈骗等不良现象,给互联网安全管理工作带来了非常大的压力。因此,为了保证网络环境的安全以及用户的良好体验,有必要采用技术手段对目标信息(典型的,广告类信息)进行识别。
然而,现有的目标信息识别方法往往只能识别某一种类型的数据(图像或文本),通用性不强,无法满足人们日益增长的目标信息识别需求。
发明内容
有鉴于此,本发明实施例提供一种目标信息识别方法和装置,以解决现有目标信息识别技术只能识别某一种类型的数据的问题。
第一方面,本发明实施例提供了一种目标信息识别方法,包括:
获取检测内容中包括的待识别数据;
根据所述待识别数据的类型,计算与所述待识别数据对应的目标特征向量;
根据计算得到的所述目标特征向量,识别所述检测内容中包括的目标信息。
第二方面,本发明实施例提供了一种目标信息识别装置,包括:
待识别数据获取模块,用于获取检测内容中包括的待识别数据;
特征向量计算模块,用于根据所述待识别数据的类型,计算与所述待识别数据对应的目标特征向量;
目标信息识别模块,用于根据计算得到的所述目标特征向量,识别所述检测内容中包括的目标信息。
本发明实施例所提供的技术方案,根据获取的待识别数据的类型计算对应的目标特征向量,对待识别数据进行识别,可以识别多种数据类型的待识别数据,针对性地识别目标信息,使得目标信息识别的有效性及准确性更高。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明实施例一提供的一种目标信息识别方法的流程图;
图2是本发明实施例二提供的一种目标信息识别方法的流程图;
图3是本发明实施例三提供的一种目标信息识别装置的结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
实施例一
图1为本发明实施例一提供的一种目标信息识别方法的流程图。本实施例的方法具体可用于终端或服务器内对所获取的数据中目标信息进行识别的情况,尤其适用于网页敏感信息的识别。本实施例的方法可以由目标信息识别装置来执行,该装置可独立的配置在终端中,或者分布式配置在终端和服务器中,两者配合实现本实施例的方法。
本实施例的方法包括:
S110、获取检测内容中包括的待识别数据。
待识别数据可以是检测内容的全部也可以是检测内容的一部分。示例性的,如果本实施例的方法应用于终端内对所下载或者打开的网页进行识别的情况,检测内容可以是设定网页,待识别数据可以是该网页展示给用户的界面中包括的全部或部分数据内容信息。
如果本实施例的方法应用于网站服务器对终端用户上传的内容进行识别的情况,检测内容可以是用户通过PC(PersonalComputer,个人计算机)或移动终端上传至该网站的内容,待识别数据则可以是该上传内容中包括的全部或部分数据内容。
S120、根据所述待识别数据的类型,计算与所述待识别数据对应的目标特征向量。
其中,待识别数据的类型包括文本、图像、文本与图像结合等。特征向量用于表述所提取的特征,特征提取的主要目的是将原始样本投影到一个低维特征空间,得到最能反应样本本质或进行样本区分的低维样本特征。
相应的,如果待识别数据的类型为文本,计算与所述待识别数据对应的目标特征向量可以包括:计算与所述文本数据对应的文本特征向量;如果待识别数据的类型为图像,计算与所述待识别数据对应的目标特征向量可以包括:计算与所述图像数据对应的图像特征向量;如果待识别数据的类型为文本和图像,计算与所述待识别数据对应的目标特征向量可以包括:计算同时与所述文本数据和所述图像数据对应的多数据特征向量。
其中,可以通过一种或多种现有的文本特征提取方法或者图像特征提取方法来计算与文本数据对应的文本特征向量以及与图像数据对应的图像特征向量,这里并不进行限制。
S130、根据计算得到的所述目标特征向量,识别所述检测内容中包括的目标信息。
示例性的,可选用机器学习中监督学习进行分类和预测(regression&classify),在机器学习过程中提供对错指示,通过算法减少误差。监督学习可以从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。进而,根据计算得到的所述目标特征向量,识别所述检测内容中包括的目标信息。
优选的,可以通过模型比对的方式,来识别检测内容中包括的目标信息。例如:将得到的目标特征向量与预先训练好的模型进行相关度计算,当计算结果超过一个设定的相关度阈值时,确定与所述目标特征向量对应的待识别数据中包含有目标信息。
综上,本实施所提供的技术方案,根据获取的待识别数据的类型计算对应的目标特征向量,对待识别数据进行识别,可以识别多种数据类型的待识别数据,针对性地识别目标信息,使得目标信息识别的有效性及准确性更高。
实施例二
图2为本发明实施例二提供的一种目标信息识别方法的流程图。本实施例所提供的技术方案是在上述实施例的基础上进一步的优化,该方法包括:
S210、获取检测内容中包括的待识别数据。
S220、判断所述待识别数据的类型是否为一项:若是,执行S230;否则,执行S240。
示例性的,可以判断所述待识别数据是仅包括图像数据或者文本数据,还是同时包括图像数据和文本数据。进而,根据所述待识别数据的类型,计算与所述待识别数据对应的数据特征向量作为所述目标特征向量。
S230、计算与所述待识别数据对应的单数据特征向量作为所述目标特征向量。
所述待识别数据的数据类型为一项,可以是只包含文本信息或者只包含图像信息中的一项。在计算与所述待识别数据对应的单数据特征向量作为所述目标特征向量之前,需要进一步判断当前待识别数据为文本还是图像,如果待识别数据的类型仅包含文本数据,则计算与所述待识别文本数据对应的文本特征向量作为所述目标特征向量;如果待识别数据的类型仅包含图像数据,则计算与所述待识别文本数据对应的图像特征向量作为所述目标特征向量。
文本特征的提取通常是将从文本中抽取出的特征词进行量化来表示文本信息转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。
在本实施例的一个优选实施方式中,当待识别数据的类型仅包含文本数据时,计算与所述待识别文本数据对应的文本特征向量作为所述目标特征向量具体可以包括:
对所述文本数据进行预处理,生成第一文本信息;提取所述第一文本信息中包括的多个词向量;对所提取的第一文本信息中包括的多个词向量直接进行降维,并将降维后的结果作为文本特征向量,进行目标信息识别。
其中,由于获取的文本数据量较大,而用于表示文本的特征理论上应该数量上尽量少,出现频率适中,冗余少,噪音少,且与其所属类别语义相关,含义尽量明确,因此,为了降低计算量,优选是对文本信息进行预处理,为文本特征提取做好准备。预处理的方法可以包括:文本排重,中文分词,去停用词等,对此并不进行限制。
另外,对文本特征最简单直接的表示就是单个的词,但由于文本数据中包含很多的词,而且有些词的出现频率很高,却与文本所传达信息并不相关,或者说是噪音数据,词向量提取目的是找出有用的词特征集,剔除无用的特征集,从而提高分类效率和分类精度。
优选的,可以基于将单词转换成向量形式的word2vec工具,提取所述文本的词向量,结合上下文语境,提升词向量表述能力。
在本实施例的另一个优选实施方式中,当待识别数据的类型仅包含文本数据时,计算与所述待识别文本数据对应的文本特征向量作为所述目标特征向量具体还可以包括:
对所述文本数据进行预处理,生成第一文本信息;提取所述第一文本信息中包括的多个词向量;基于设定句向量融合算法,将所述多个词向量融合为句向量,并将所述句向量作为与所述文本数据对应的文本特征向量。
与前一优选实施方式相比,本优选实施方式通过将词向量融合为句向量的方式,进一步地挖掘了文本上下文语义关系,使得最终得到的文本特征向量更能代表所述文本数据。
其中,将多个词向量融合为句向量的方法具体可以为:通过对词向量每个维度进行加权求和生成对应的句向量。
例如,假设某一语料库提取所述第一文本信息中包括的词向量后,产生N个词向量D={D1,D2,...,DN},且每一个词向量为M维,即Di={Vi1,Vi2,...,ViM},1≤i≤N;一条文本经过分词并搜寻词向量D后,有n个词在语料库中被找到,其词向量分别为d={d1,d2,...,dn},且每个词向量为M维,即dj={dj1,dj2,...,djM},1≤j≤n,同时每个词出现频率与逆向文件频率,分别为tf={tf1,tf2,...,tfn},idf={idf1,idf2,...,idfn}其中,逆向文件频率idf主要用于分析词的类别区分能力,如果包含设定词的文本越少,idf越大,则说明该设定词具有很好的类别区分能力,反之,就说明该设定词的类别区分能力相对较差。
通过对词向量每个维度进行加权求和生成M维的句向量为S={S1,S2,...,SM},取句向量中某一维Sk,1≤k≤M,其表述公式为:
S k = 1 n Σ j = 1 n ( tf k · idf k · d j k ) , 1 ≤ j ≤ n , 1 ≤ k ≤ M ;
由于每个词向量是单独的个体,具体数值具有语义信息,上述公式的缺陷在于,其会直接破坏多个词向量的语义,不能根据待识别文本数据的具体应用场景,结合上下句语义进行句向量融合,使得最终对待识别文本数据的特征表述产生较大影响,为了解决该问题,在本优选实施方式中,创造性的提出了一种将多个词向量融合为句向量的方法,具体包括:
根据公式:
S k = 1 n Σ j = 1 n ( tf k · idf k · d i s ( d j k , D k ) ) , 1 ≤ j ≤ n , 1 ≤ k ≤ N
计算第一句向量Sk;其中:
d i s ( d j k , D k ) = < d j k , D k > | | d j k | | &CenterDot; | | D k | | , 1 &le; j &le; n , 1 &le; k &le; N ,
其中,
Dk为所述第一文本信息中包括的第一词向量的集合D中的元素,
djk为对词向量D通过语料库查找后所生成第二词向量的集合d中的元素,
n为d中第二词向量的个数,
N为语料库中的词向量的个数,
tfk为d中每个词出现的频率的集合tf中的元素,
idfk为d中每个词的逆向文件频率的集合idf中的元素。
由于每条文本会产生多个词向量,采用上述基于文本多组词向量融合为句向量的方法,所有词向量维度固定,而且可以使得每条文本信息转换为一条词向量,充分考虑到多组词向量的语义。
进一步的,通过上述方法得到的第一句向量Sk通常比较高维,试验时千万条用户文本语料信息,产生句向量维度高达10万维,因此,优选是,对生成的第一句向量Sk进行降维后作为文本特征向量,进行目标信息识别。
在本实施例的一个优选实施方式中,当待识别数据的类型仅包含图像数据时,计算与所述待识别图像数据对应的文本特征向量作为所述目标特征向量具体可以包括:对所述图像数据进行预处理,生成第一图像信息;基于设定的图像特征提取算法,提取所述第一图像信息中包括的第一图像特征向量,并将所述第一图像特征向量作为与所述图像信息对应的图像特征向量。
由于用户上传图像进行过一定美化,偶尔图像边缘存在白边与黑边,故需对其进行图像边缘滤除,降低图像噪声干扰,消除图像中无关的信息,恢复有用的真实信息,增强有关信息的可检测性和最大限度地简化数据,仅保留有效图像内容,从而改进特征抽取、图像分割、匹配和识别的可靠性。预处理过程一般有数字化、几何变换、归一化、平滑、复原和增强等步骤。其中,在对图像进行降噪等处理时,可以根据图像特征提取选用的算法进行相应处理,例如,图像特征提取基于深度学习Deeplearning中的图像分类模型为视觉几何组VGG分类模型的vgg-16模型时,为满足vgg-16模型需求,还需对图片进行尺度归一化等处理。
图像特征提取是通过检查每个像素来确定该像素是否代表一个特征,若是,则从图像中被提取,其结果被称为特征描述或者特征向量。一般图像特征可以分为直观性特征、灰度统计特征、变换系数特征与代数特征等。典型的,可以基于Deeplearning的图像特征算法提取所述第一图像信息中包括的第一图像特征向量;进一步的,可以采用vgg-16模型,提取fc7层特征,计算出特征维度4096维。
其中,采用基于端对端的deeplearning图像特征提取方法,保证了识别效果与性能不随图像内容影响而发生改变,同时避免繁琐而低效的图片预处理与底层特征提取过程。
S240、计算与所述待识别数据对应的多数据特征向量作为所述目标特征向量。
所述待识别数据的数据类型包括:文本和图像;相应的,计算与所述待识别数据对应的多数据特征向量作为所述目标特征向量具体包括:
计算与文本数据对应的文本特征向量;计算与图像数据对应的图像特征向量;将所述文本特征向量与所述图像特征向量进行向量融合,生成多数据特征向量。
将文本特征向量与所述图像特征向量特征层面进行向量融合,而非结果的融合,可以提升目标信息识别的效果。
需要说明的是,计算与文本数据对应的文本特征向量和计算与图像数据对应的图像特征向量,并不限定执行顺序,可以是先计算与文本数据对应的文本特征向量,也可以是计算与图像数据对应的图像特征向量,还可以同步执行或根据待识别数据信息的排布顺序依次进行执行。
计算与文本数据对应的文本特征向量以及计算与图像数据对应的图像特征向量的方法在S230中已描述,此处不再赘述。
当所述待识别数据的数据类型包括文本和图像时,图像特征向量与文本特征向量均存在,为使两类特征向量综合表述能力得到加强,可分别对图像特征向量和文本特征向量进行相应加权。
具体的,将所述文本特征向量与所述图像特征向量进行向量融合,生成多数据特征向量可以包括:
根据公式:Output={w1I1,w1I2,...,w1Ip,w2S1,w2S2,...,w2Sq}对所述文本特征向量以及所述图像特征向量进行向量融合,生成多数据特征向量Output,
其中,w1+w2=1,0≤w1≤1,0≤w2≤1,
I1~Ip为图像特征向量,
w1为图像特征向量的权值,
S1~Sq为文本特征向量值,
w2为文本特征向量权值。
其中,权值w1与w2的选取,可根据具体实验数据而定。
由于之前产生的第一句向量,通常比较高维,优选是按照设定降维算法,对所述第一句向量进行降维处理,生成所述文本特征向量。同时,为了与图像特征更好融合,避免相互影响,优选是所述文本特征向量与所述图像特征向量的维度相同。例如可以将句向量特征与图像特征维度降维至4096维,保持一致。即:使得生成图像特征向量I={I1,I2,...,I4096},文本特征向量S={S1,S2,...,S4096}。
S250、获取计算得到的与目标特征向量类型相匹配的目标训练模型。
目标训练模型是机器学习中所使用的模型,需要在具体的场景中,使用具体的数据,选择合适的模型,如回归、分类、概率估计等,通过学习训练的过程,得到相应模型的参数,让最终的模型能够最好的模拟场景,供预测、分类等。例如,可以使用LIBLINEAR进行模型训练与分类预测任务。
在本实施例中,如果待识别数据的类型仅包含图像数据,则目标特征向量为图像特征向量,因此,需要选择与该图像特征向量对应的目标训练模型;如果待识别数据的类型仅包含文字数据,则目标特征向量为文字特征向量,因此,需要选择与该文字特征向量对应的目标训练模型;如果待识别数据的类型包含图像数据与文字数据,则目标特征向量为多数据特征向量,因此,需要选择与该多数据特征向量对应的目标训练模型。
S260、将所述目标特征向量与所述目标训练模型进行比对,并根据比对结果识别所述检测内容中包括的目标信息。
为满足目标信息为一项或多项时均能正常预测、识别,则需要对获取的目标特征向量根据数据类型的不同分别进行处理,进而,根据比对结果采用相应的方案进行识别。示例性的,如果目标信息只包含图像数据,则可以将图像特征向量与目标训练模型进行比对,当比对结果满足一定条件时,可视为疑似目标信息,例如,当一定时间内,同一网页或同一用户所上传的图像数据所被识别出的疑似目标信息累计到一定数量时,进行批量的有针对性的处理;如果目标信息只包含文本数据,则可根据文本特征向量进行识别;如果目标信息包含文本数据和图像数据时,可根据文本特征向量与所述图像特征向量进行向量融合后生成的多数据特征向量进行识别。
综上,采用本实施例所提供的技术方案,根据待识别数据的类型计算对应的目标特征向量,对待识别数据进行识别,可以识别多种数据类型的待识别数据,针对性地识别目标信息,充分考虑目标信息所处的具体场景,使得目标信息识别的有效性及准确性更高。
实施例三
图3为本发明实施例三提供的一种终端数据处理装置的结构框图。如图3所示,该装置包括:
待识别数据获取模块3100,用于获取检测内容中包括的待识别数据;
特征向量计算模块3200,用于根据所述待识别数据的类型,计算与所述待识别数据对应的目标特征向量;
目标信息识别模块3300,用于根据计算得到的所述目标特征向量,识别所述检测内容中包括的目标信息。
进一步的,特征向量计算模块3200包括:
单数据特征向量计算模块3400,用于如果所述待识别数据的数据类型为一项,则计算与所述待识别数据对应的单数据特征向量作为所述目标特征向量;
多数据特征向量计算模块3500,用于如果所述待识别数据的数据类型为多项,则计算与所述待识别数据对应的多数据特征向量作为所述目标特征向量。
进一步的,所述待识别数据的数据类型包括:文本和图像;
相应的,多特征向量计算模块3500具体包括:
文本特征向量计算模块3410,用于计算与文本数据对应的文本特征向量;
图像特征向量计算模块3420,用于计算与图像数据对应的图像特征向量;
多数据特征向量融合模块3430,用于将所述文本特征向量与所述图像特征向量进行向量融合,生成多数据特征向量。
进一步的,文本特征向量计算模块3410具体包括:
文本预处理模块3411,用于对所述文本数据进行预处理,生成第一文本信息;
词向量提取模块3412,用于提取所述第一文本信息中包括的多个词向量;
句向量融合模块3413,用于基于设定句向量融合算法,将所述多个词向量融合为句向量,并将所述句向量作为与所述文本数据对应的文本特征向量。
进一步的,基于句向量融合模块3413具体包括:
第一句向量计算模块3414,用于根据公式:
S k = 1 n &Sigma; j = 1 n ( tf k &CenterDot; idf k &CenterDot; d i s ( d j k , D k ) ) , 1 &le; j &le; n , 1 &le; k &le; N
计算第一句向量Sk;其中:
d i s ( d j k , D k ) = < d j k , D k > | | d j k | | &CenterDot; | | D k | | , 1 &le; j &le; n , 1 &le; k &le; N ,
其中,
Dk为所述第一文本信息中包括的第一词向量的集合D中的元素,
djk为对词向量D通过语料库查找后所生成第二词向量的集合d中的元素,
n为d中第二词向量的个数,
N为语料库中的词向量的个数,
tfk为d中每个词出现的频率的集合tf中的元素,
idfk为d中每个词的逆向文件频率的集合idf中的元素。
第一句向量降维模块3415,用于按照设定降维算法,对所述第一句向量进行降维处理,生成所述文本特征向量。
进一步的,图像特征向量计算模块3420包括:
图像数据预处理模块3421,用于对所述图像数据进行预处理,生成第一图像信息;
第一图像特征向量获取模块3422,用于基于设定的图像特征提取算法,提取所述第一图像信息中包括的第一图像特征向量,并将所述第一图像特征向量作为与所述图像信息对应的图像特征向量。
进一步的,多数据特征向量融合模块3430具体用于:
根据公式:Output={w1I1,w1I2,...,w1Ip,w2S1,w2S2,...,w2Sq}对所述文本特征向量以及所述图像特征向量进行向量融合,生成多数据特征向量Output,
其中,w1+w2=1,0≤w1≤1,0≤w2≤1,
Ip为图像特征向量,
w1为图像特征向量的权值,
Sq为文本特征向量,
w2为文本特征向量权值。
进一步的,目标信息识别模块3300包括:
模型训练模块3310,用于获取计算得到的与目标特征向量类型相匹配的目标训练模型;
信息比对模块3320,用于将所述目标特征向量与所述目标训练模型进行比对,并根据比对结果识别所述检测内容中包括的目标信息。
综上,采用本实施例所提供的目标信息识别装置,根据待识别数据的类型计算对应的目标特征向量,对待识别数据进行识别,可以识别多种数据类型的待识别数据,针对性地识别目标信息,充分考虑目标信息所处的具体场景,使得目标信息识别的有效性及准确性更高。
本发明实施例所提供的目标信息识别装置可用于执行本发明实施例所提供的目标信息识别方法,具备相应的功能和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (13)

1.一种目标信息识别方法,其特征在于,包括:
获取检测内容中包括的待识别数据;
根据所述待识别数据的类型,计算与所述待识别数据对应的目标特征向量;
根据计算得到的所述目标特征向量,识别所述检测内容中包括的目标信息。
2.根据权利要求1所述的方法,其特征在于,根据所述待识别数据的类型,计算与所述待识别数据对应的目标特征向量包括:
如果所述待识别数据的数据类型为一项,则计算与所述待识别数据对应的单数据特征向量作为所述目标特征向量;
如果所述待识别数据的数据类型为多项,则计算与所述待识别数据对应的多数据特征向量作为所述目标特征向量。
3.根据权利要求2所述的方法,其特征在于,所述待识别数据的数据类型包括:文本和图像;
相应的,计算与所述待识别数据对应的多数据特征向量作为所述目标特征向量具体包括:
计算与文本数据对应的文本特征向量;
计算与图像数据对应的图像特征向量;
将所述文本特征向量与所述图像特征向量进行向量融合,生成多数据特征向量。
4.根据权利要求3所述的方法,其特征在于,计算与文本数据对应的文本特征向量具体包括:
对所述文本数据进行预处理,生成第一文本信息;
提取所述第一文本信息中包括的多个词向量;
基于设定句向量融合算法,将所述多个词向量融合为句向量,并将所述句向量作为与所述文本数据对应的文本特征向量。
5.根据权利要求4所述的方法,其特征在于,基于设定句向量融合算法,将所述多个词向量融合为句向量,并将所述句向量作为与所述文本数据对应的文本特征向量具体包括:
根据公式:
S k = 1 n &Sigma; j = 1 n ( tf k &CenterDot; idf k &CenterDot; d i s ( d j k , D k ) ) , 1 &le; j &le; n , 1 &le; k &le; N
计算第一句向量Sk;其中:
d i s ( d j k , D k ) = < d j k , D k > | | d j k | | &CenterDot; | | D k | | , 1 &le; j &le; n , 1 &le; k &le; N ,
Dk为所述第一文本信息中包括的第一词向量的集合D中的元素,
djk为对词向量D通过语料库查找后所生成第二词向量的集合d中的元素,
n为d中第二词向量的个数,
N为语料库中的词向量的个数,
tfk为d中每个词出现的频率的集合tf中的元素,
idfk为d中每个词的逆向文件频率的集合idf中的元素;
按照设定降维算法,对所述第一句向量进行降维处理,生成所述文本特征向量。
6.根据权利要求3所述的方法,其特征在于,计算与图像数据对应的图像特征向量包括:
对所述图像数据进行预处理,生成第一图像信息;
基于设定的图像特征提取算法,提取所述第一图像信息中包括的第一图像特征向量,并将所述第一图像特征向量作为与所述图像信息对应的图像特征向量。
7.根据权利要求3-6任一项所述的方法,其特征在于,将所述文本特征向量与所述图像特征向量进行向量融合,生成多数据特征向量包括:
根据公式:Output={w1I1,w1I2,...,w1Ip,w2S1,w2S2,...,w2Sq}对所述文本特征向量{I1,I2,…,Ip}以及所述图像特征向量{S1,S2,…,Sq}进行向量融合,生成多数据特征向量Output,
其中,w1+w2=1,0≤w1≤1,0≤w2≤1,
I1~Ip为图像特征向量值,
w1为图像特征向量的权值,
S1~Sq为文本特征向量值,
w2为文本特征向量权值。
8.根据权利要求2所述的方法,其特征在于,根据计算得到的所述目标特征向量,识别所述检测内容中包括的目标信息包括:
获取计算得到的与目标特征向量类型相匹配的目标训练模型;
将所述目标特征向量与所述目标训练模型进行比对,并根据比对结果识别所述检测内容中包括的目标信息。
9.一种目标信息识别装置,其特征在于,包括:
待识别数据获取模块,用于获取检测内容中包括的待识别数据;
特征向量计算模块,用于根据所述待识别数据的类型,计算与所述待识别数据对应的目标特征向量;
目标信息识别模块,用于根据计算得到的所述目标特征向量,识别所述检测内容中包括的目标信息。
10.根据权利要求9所述的装置,其特征在于,特征向量计算模块包括:
单数据特征向量计算模块,用于如果所述待识别数据的数据类型为一项,则计算与所述待识别数据对应的单数据特征向量作为所述目标特征向量;
多数据特征向量计算模块,用于如果所述待识别数据的数据类型为多项,则计算与所述待识别数据对应的多数据特征向量作为所述目标特征向量。
11.根据权利要求10所述的装置,其特征在于,所述待识别数据的数据类型包括:文本和图像;
相应的,特征向量计算模块具体包括:
文本特征向量计算模块,用于计算与文本数据对应的文本特征向量;
图像特征向量计算模块,用于计算与图像数据对应的图像特征向量;
多数据特征向量融合模块,用于将所述文本特征向量与所述图像特征向量进行向量融合,生成多数据特征向量。
12.根据权利要求11所述的装置,其特征在于,文本特征向量计算模块具体包括:
文本预处理模块,用于对所述文本数据进行预处理,生成第一文本信息;
词向量提取模块,用于提取所述第一文本信息中包括的多个词向量;
句向量融合模块,用于基于设定句向量融合算法,将所述多个词向量融合为句向量,并将所述句向量作为与所述文本数据对应的文本特征向量。
13.根据权利要求12所述的装置,其特征在于,基于句向量融合模块具体包括:
第一句向量计算模块,用于根据公式:
S k = 1 n &Sigma; j = 1 n ( tf k &CenterDot; idf k &CenterDot; d i s ( d j k , D k ) ) , 1 &le; j &le; n , 1 &le; k &le; N
计算第一句向量Sk;其中:
d i s ( d j k , D k ) = < d j k , D k > | | d j k | | &CenterDot; | | D k | | , 1 &le; j &le; n , 1 &le; k &le; N ,
其中,
Dk为所述第一文本信息中包括的第一词向量的集合D中的元素,
djk为对词向量D通过语料库查找后所生成第二词向量的集合d中的元素,
n为d中第二词向量的个数,
N为语料库中的词向量的个数,
tfk为d中每个词出现的频率的集合tf中的元素,
idfk为d中每个词的逆向文件频率的集合idf中的元素;
第一句向量降维模块,用于按照设定降维算法,对所述第一句向量进行降维处理,生成所述文本特征向量。
CN201510726804.4A 2015-10-29 2015-10-29 一种目标信息识别方法和装置 Expired - Fee Related CN105426356B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510726804.4A CN105426356B (zh) 2015-10-29 2015-10-29 一种目标信息识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510726804.4A CN105426356B (zh) 2015-10-29 2015-10-29 一种目标信息识别方法和装置

Publications (2)

Publication Number Publication Date
CN105426356A true CN105426356A (zh) 2016-03-23
CN105426356B CN105426356B (zh) 2019-05-21

Family

ID=55504570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510726804.4A Expired - Fee Related CN105426356B (zh) 2015-10-29 2015-10-29 一种目标信息识别方法和装置

Country Status (1)

Country Link
CN (1) CN105426356B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301411A (zh) * 2016-04-14 2017-10-27 科大讯飞股份有限公司 数学公式识别方法及装置
CN107402999A (zh) * 2017-07-21 2017-11-28 成都澳海川科技有限公司 景点数据库建立方法及装置
CN107480289A (zh) * 2017-08-24 2017-12-15 成都澳海川科技有限公司 用户属性获取方法及装置
CN107480261A (zh) * 2017-08-16 2017-12-15 上海荷福人工智能科技(集团)有限公司 一种基于深度学习细粒度人脸图像快速检索方法
CN107832765A (zh) * 2017-09-13 2018-03-23 百度在线网络技术(北京)有限公司 对包括文字内容和图像内容的图片识别
CN107862322A (zh) * 2017-09-15 2018-03-30 广州唯品会研究院有限公司 结合图片和文本进行图片属性分类的方法、装置及系统
WO2018090641A1 (zh) * 2016-11-15 2018-05-24 平安科技(深圳)有限公司 识别保险单号码的方法、装置、设备及计算机可读存储介质
CN108764114A (zh) * 2018-05-23 2018-11-06 腾讯音乐娱乐科技(深圳)有限公司 一种信号识别方法及其设备、存储介质、终端
CN108763325A (zh) * 2018-05-04 2018-11-06 北京达佳互联信息技术有限公司 一种网络对象处理方法及装置
CN108804472A (zh) * 2017-05-04 2018-11-13 腾讯科技(深圳)有限公司 一种网页内容抽取方法、装置及服务器
CN109377203A (zh) * 2018-09-13 2019-02-22 平安医疗健康管理股份有限公司 医疗结算数据处理方法、装置、计算机设备和存储介质
CN110069650A (zh) * 2017-10-10 2019-07-30 阿里巴巴集团控股有限公司 一种搜索方法和处理设备
CN110162628A (zh) * 2019-05-06 2019-08-23 腾讯科技(深圳)有限公司 一种内容识别方法及装置
CN110322011A (zh) * 2018-03-28 2019-10-11 普天信息技术有限公司 面向推理模型的对象关系构造方法及装置
CN110322037A (zh) * 2018-03-28 2019-10-11 普天信息技术有限公司 基于推理模型的流量预测方法及装置
CN110334720A (zh) * 2018-03-30 2019-10-15 百度在线网络技术(北京)有限公司 业务数据的特征提取方法、装置、服务器和存储介质
CN110619252A (zh) * 2018-06-19 2019-12-27 百度在线网络技术(北京)有限公司 识别图片中表单数据的方法、装置、设备及存储介质
CN111652622A (zh) * 2020-05-26 2020-09-11 支付宝(杭州)信息技术有限公司 一种风险网址的识别方法、装置及电子设备
CN115373688A (zh) * 2022-09-23 2022-11-22 曹昭强 一种软件开发线程的优化方法、系统及云平台
TWI832640B (zh) * 2022-08-09 2024-02-11 大陸商中國銀聯股份有限公司 一種資料匹配方法、裝置、系統、設備及介質

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007052957A1 (en) * 2005-11-05 2007-05-10 Colorzip Media, Inc. Device and method of classifying an image
CN101231634A (zh) * 2007-12-29 2008-07-30 中国科学院计算技术研究所 一种多文档自动文摘方法
CN104391860A (zh) * 2014-10-22 2015-03-04 安一恒通(北京)科技有限公司 内容类别检测方法及装置
CN104778158A (zh) * 2015-03-04 2015-07-15 新浪网技术(中国)有限公司 一种文本表示方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007052957A1 (en) * 2005-11-05 2007-05-10 Colorzip Media, Inc. Device and method of classifying an image
CN101231634A (zh) * 2007-12-29 2008-07-30 中国科学院计算技术研究所 一种多文档自动文摘方法
CN104391860A (zh) * 2014-10-22 2015-03-04 安一恒通(北京)科技有限公司 内容类别检测方法及装置
CN104778158A (zh) * 2015-03-04 2015-07-15 新浪网技术(中国)有限公司 一种文本表示方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王庆 等: "基于词共现矩阵的项目关键词词库和关键词语义网络", 《计算机应用》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301411B (zh) * 2016-04-14 2020-07-10 科大讯飞股份有限公司 数学公式识别方法及装置
CN107301411A (zh) * 2016-04-14 2017-10-27 科大讯飞股份有限公司 数学公式识别方法及装置
WO2018090641A1 (zh) * 2016-11-15 2018-05-24 平安科技(深圳)有限公司 识别保险单号码的方法、装置、设备及计算机可读存储介质
CN108804472A (zh) * 2017-05-04 2018-11-13 腾讯科技(深圳)有限公司 一种网页内容抽取方法、装置及服务器
CN107402999A (zh) * 2017-07-21 2017-11-28 成都澳海川科技有限公司 景点数据库建立方法及装置
CN107480261A (zh) * 2017-08-16 2017-12-15 上海荷福人工智能科技(集团)有限公司 一种基于深度学习细粒度人脸图像快速检索方法
CN107480261B (zh) * 2017-08-16 2020-06-16 上海荷福人工智能科技(集团)有限公司 一种基于深度学习细粒度人脸图像快速检索方法
CN107480289A (zh) * 2017-08-24 2017-12-15 成都澳海川科技有限公司 用户属性获取方法及装置
CN107480289B (zh) * 2017-08-24 2020-06-30 成都澳海川科技有限公司 用户属性获取方法及装置
CN107832765A (zh) * 2017-09-13 2018-03-23 百度在线网络技术(北京)有限公司 对包括文字内容和图像内容的图片识别
CN107862322A (zh) * 2017-09-15 2018-03-30 广州唯品会研究院有限公司 结合图片和文本进行图片属性分类的方法、装置及系统
CN107862322B (zh) * 2017-09-15 2022-01-07 广州品唯软件有限公司 结合图片和文本进行图片属性分类的方法、装置及系统
CN110069650B (zh) * 2017-10-10 2024-02-09 阿里巴巴集团控股有限公司 一种搜索方法和处理设备
CN110069650A (zh) * 2017-10-10 2019-07-30 阿里巴巴集团控股有限公司 一种搜索方法和处理设备
CN110322037A (zh) * 2018-03-28 2019-10-11 普天信息技术有限公司 基于推理模型的流量预测方法及装置
CN110322011A (zh) * 2018-03-28 2019-10-11 普天信息技术有限公司 面向推理模型的对象关系构造方法及装置
CN110334720A (zh) * 2018-03-30 2019-10-15 百度在线网络技术(北京)有限公司 业务数据的特征提取方法、装置、服务器和存储介质
CN108763325A (zh) * 2018-05-04 2018-11-06 北京达佳互联信息技术有限公司 一种网络对象处理方法及装置
CN108764114A (zh) * 2018-05-23 2018-11-06 腾讯音乐娱乐科技(深圳)有限公司 一种信号识别方法及其设备、存储介质、终端
CN108764114B (zh) * 2018-05-23 2022-09-13 腾讯音乐娱乐科技(深圳)有限公司 一种信号识别方法及其设备、存储介质、终端
CN110619252B (zh) * 2018-06-19 2022-11-04 百度在线网络技术(北京)有限公司 识别图片中表单数据的方法、装置、设备及存储介质
CN110619252A (zh) * 2018-06-19 2019-12-27 百度在线网络技术(北京)有限公司 识别图片中表单数据的方法、装置、设备及存储介质
CN109377203A (zh) * 2018-09-13 2019-02-22 平安医疗健康管理股份有限公司 医疗结算数据处理方法、装置、计算机设备和存储介质
CN110162628A (zh) * 2019-05-06 2019-08-23 腾讯科技(深圳)有限公司 一种内容识别方法及装置
CN110162628B (zh) * 2019-05-06 2023-11-10 腾讯科技(深圳)有限公司 一种内容识别方法及装置
CN111652622A (zh) * 2020-05-26 2020-09-11 支付宝(杭州)信息技术有限公司 一种风险网址的识别方法、装置及电子设备
TWI832640B (zh) * 2022-08-09 2024-02-11 大陸商中國銀聯股份有限公司 一種資料匹配方法、裝置、系統、設備及介質
CN115373688A (zh) * 2022-09-23 2022-11-22 曹昭强 一种软件开发线程的优化方法、系统及云平台

Also Published As

Publication number Publication date
CN105426356B (zh) 2019-05-21

Similar Documents

Publication Publication Date Title
CN105426356B (zh) 一种目标信息识别方法和装置
CN105426354B (zh) 一种句向量的融合方法和装置
CN109299228B (zh) 计算机执行的文本风险预测方法及装置
CN116994069B (zh) 一种基于多模态信息的图像解析方法及系统
CN112541476B (zh) 一种基于语义特征提取的恶意网页识别方法
CN110955750A (zh) 评论区域和情感极性的联合识别方法、装置、电子设备
CN111046679A (zh) 翻译模型的质量信息获取方法、装置及计算机设备
CN111177367B (zh) 案件分类方法、分类模型训练方法及相关产品
CN114155529A (zh) 结合文字视觉特征和文字内容特征的违规广告识别方法
CN117351336A (zh) 图像审核方法和相关设备
CN115036022A (zh) 健康风险评估方法和评估系统、计算机设备、存储介质
CN113918936A (zh) Sql注入攻击检测的方法以及装置
CN108304366B (zh) 一种上位词检测方法及设备
CN114528908B (zh) 网络请求数据分类模型训练方法、分类方法及存储介质
CN112732908B (zh) 试题新颖度评估方法、装置、电子设备和存储介质
CN110309285B (zh) 自动问答方法、装置、电子设备和存储介质
CN113836297A (zh) 文本情感分析模型的训练方法及装置
CN114067362A (zh) 基于神经网络模型的手语识别方法、装置、设备及介质
CN113901817A (zh) 文档分类方法、装置、计算机设备和存储介质
CN117332039B (zh) 文本检测方法、装置、设备和存储介质
CN115618843B (zh) 文本检测方法、装置、电子设备及存储介质
CN118171273B (zh) 恶意代码的检测方法及其系统
CN118245982B (zh) 一种基于人工智能对伪装应用程序进行识别的方法及装置
Mulyana et al. Pornographic images classification using CNN methods on Android-based smartphone devices
CN117057361A (zh) 文本敏感语义的识别方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190521

Termination date: 20191029