CN107656760A - 数据处理方法及装置、电子设备 - Google Patents
数据处理方法及装置、电子设备 Download PDFInfo
- Publication number
- CN107656760A CN107656760A CN201710906000.1A CN201710906000A CN107656760A CN 107656760 A CN107656760 A CN 107656760A CN 201710906000 A CN201710906000 A CN 201710906000A CN 107656760 A CN107656760 A CN 107656760A
- Authority
- CN
- China
- Prior art keywords
- data
- image
- text
- user
- destination multimedia
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 230000002452 interceptive effect Effects 0.000 claims abstract description 101
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000012216 screening Methods 0.000 claims abstract description 15
- 238000004458 analytical method Methods 0.000 abstract description 29
- 238000005457 optimization Methods 0.000 abstract description 7
- 239000011159 matrix material Substances 0.000 description 52
- 230000000875 corresponding effect Effects 0.000 description 35
- 230000008451 emotion Effects 0.000 description 13
- 238000012549 training Methods 0.000 description 13
- 238000012015 optical character recognition Methods 0.000 description 9
- 238000003860 storage Methods 0.000 description 8
- 230000004913 activation Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 235000012054 meals Nutrition 0.000 description 4
- 238000003012 network analysis Methods 0.000 description 4
- 241001269238 Data Species 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/44—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种数据处理方法及装置、电子设备,所述方法包括:获取交互信息,交互信息包括用于筛选目标多媒体数据的信息;基于交互信息,确定目标多媒体数据的图像特征;基于目标多媒体数据的图像特征,确定候选多媒体数据,候选多媒体数据中至少包括目标多媒体数据。采用本发明实施例的技术方案,可以自动对用户使用场景进行分析,结合影像资源识别、文本分析以及用户影像资源使用习惯进行深层分析,优化影像资源上传时列表的排列顺序,并且,在使用过程中系统不断地自行修正,从而越来越符合该用户的使用习惯,本发明实施例的技术方案通过系统自行复杂的处理,减少了用户的操作,并能为用户提供合适的待上传影像资源,从而提升了用户使用上的便捷性。
Description
技术领域
本发明涉及数据处理技术,具体涉及一种数据处理方法及装置、电子设备。
背景技术
在人工智能领域中,对于诸如照片、文件、视频这样的多媒体数据来说,由于数量较多、类型较复杂,通常会导致在电子设备本地存储得杂乱无序。在一些应用场景下,举个例子,在进行考试报名时,通常会出现一段诸如“请上传身份证/准考证”的指令,或者,针对用户输入的“请查找近期在故宫拍摄的照片”的指令,需要用户从图库中进行特定多媒体数据的逐一筛选,耗时又耗力。即使预先对多媒体数据进行了分类,在进行查找时,也需要先找到存储有对应类型多媒体数据的文件夹,再从该文件夹下进行特定图片的查找,查找过程较繁琐。如何进行多媒体数据的自动且快速查找成为了目前的研究热点之一。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种数据处理方法及装置、电子设备。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种数据处理方法,包括:
获取交互信息,所述交互信息包括用于筛选目标多媒体数据的信息;
基于所述交互信息,确定目标多媒体数据的图像特征;
基于所述目标多媒体数据的图像特征,确定候选多媒体数据,所述候选多媒体数据中至少包括所述目标多媒体数据。
本发明实施例中,所述基于交互信息,确定目标多媒体数据的图像特征,包括:
对交互信息进行识别,得到交互信息对应的文本数据;
对文本数据进行解析,得到文本数据的文本特征;
基于文本数据的文本特征,确定目标多媒体数据的图像特征。
本发明实施例中,所述基于文本数据的文本特征,确定目标多媒体数据的图像特征,包括:
获取文本数据中的各个文本元素;
获取各个文本元素的图像特征;
基于文本数据中的各个文本元素以及各个文本元素的图像特征,确定目标多媒体数据的图像特征。
本发明实施例中,所述对文本数据进行解析,得到文本数据的文本特征,包括:
基于文本数据中的各个文本元素,确定各个文本元素的特征;
基于各个文本元素的特征,确定文本数据的文本特征。
本发明实施例中,基于目标多媒体数据的图像特征,确定候选多媒体数据,包括:
获取多媒体数据的图像特征;
基于多媒体数据的图像特征,从多媒体数据中筛选出与目标多媒体数据的图像特征匹配度高于阈值的多媒体数据;
确定所筛选出的多媒体数据为候选多媒体数据。
本发明实施例中,所述基于各个文本元素的特征,确定文本数据的文本特征,包括:
确定各个文本元素所属的类别;
确定各个元素在所属类别下的特征;
确定各个元素在所属类别下的图像特征;
基于各个元素在所属类别下的特征以及各个元素在所属类别下的图像特征,确定文本数据的文本特征。
本发明实施例中,所述候选多媒体数据中的任一多媒体数据相对于所述候选多媒体数据之外的至少一个其他多媒体数据排列位置靠前。
本发明实施例还提供一种数据处理装置,包括:
获取单元,用于获取交互信息,所述交互信息包括用于筛选目标多媒体数据的信息;
第一确定单元,用于基于所述交互信息,确定目标多媒体数据的图像特征;
第二确定单元,用于基于所述目标多媒体数据的图像特征,确定候选多媒体数据,所述候选多媒体数据中至少包括所述目标多媒体数据。
本发明实施例还提供一种电子设备,包括:
处理器,用于获取交互信息,基于所述交互信息,确定目标多媒体数据的图像特征;基于所述目标多媒体数据的图像特征,确定候选多媒体数据;其中,所述交互信息包括用于筛选目标多媒体数据的信息;所述候选多媒体数据中至少包括所述目标多媒体数据。
本发明实施例中,所述处理器,还用于对交互信息进行识别,得到交互信息对应的文本数据;对文本数据进行解析,得到文本数据的文本特征;基于文本数据的文本特征,确定目标多媒体数据的图像特征。
本发明实施例的技术方案,首先获取交互信息,所述交互信息包括用于筛选目标多媒体数据的信息;基于所述交互信息,确定目标多媒体数据的图像特征;基于所述目标多媒体数据的图像特征,确定候选多媒体数据,所述候选多媒体数据中至少包括所述目标多媒体数据。采用本发明实施例的技术方案,可以自动对用户使用场景进行分析,结合影像资源识别、文本分析以及用户影像资源使用习惯进行深层分析,优化影像资源上传时列表的排列顺序,并且,在使用过程中系统不断地自行修正,从而越来越符合该用户的使用习惯,本发明实施例的技术方案通过系统自行复杂的处理,减少了用户的操作,并能为用户提供合适的待上传影像资源,从而提升了用户使用上的便捷性。
附图说明
图1为本发明实施例一的数据处理方法的流程示意图;
图2为本发明实施例二的数据处理方法的流程示意图;
图3为本发明实施例三的数据处理方法的流程示意图;
图4为本发明实施例四的数据处理装置的组成结构示意图;
图5为本发明实施例五的电子设备的组成结构示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行详细说明,应当理解,以下所说明的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1为本发明实施例一的数据处理方法的流程示意图,如图1所示,本发明实施例的数据处理方法至少包括以下处理步骤:
步骤101:获取交互信息。
本发明实施例中,所述交互信息包括用于筛选目标多媒体数据的信息。
本发明实施例中,所述交互信息包括用户对应用的操作动作,激活应用或应用的相关控件的意图,如何使用了应用或应用的相关控件的操作规程等,通过用户的这些操作动作,获取用户与待操作对应如电子设备中的相关引用的交互信息,从而基于所获取的交互信息确定用户是否需要上传多媒体数据,如影像资料、或音视频资料等。通过对用户的交互信息的分析,能确定出用户是否有上传多媒体数据的意图。
本发明实施例中,上述的交互信息也包含用户的语音输入信息,如用户输入的语音指令或用户基于语音与应用或其他用户之间的交互语音信息,如用户可以基于语音与安装了相关应用的电子设备之间进行语音交互,电子设备接收用户输入的语音,并对语音信息进行解析,并基于解析后的语音响应于用户的语音输入,实现与用户之间的交互。当然,上述的语音信息也可以是用户基于电子设备中的相关应用与其他用户之间交互的语音信息,电子设备通过获取交互双方用户之间输入的语音信息进行相关解析,同样可以获取这些交互语音信息。
需要说明的是,上述的语音信息也可以是用户自己输出的语音信息,即用户并非是与电子设备或其他用户之间的交互语音,但电子设备自身将用户的语音信息直接作为交互信息进行存储和解析,只是在存储和解析后不必向用户输出响应语音。如即使是用户自言自语的语音输入,仍将其作为语音交互信息的一种进行存储和解析。
本发明实施例中并不限定交互信息的输入方式和交互信息的格式。
步骤102:基于所述交互信息,确定目标多媒体数据的图像特征。
本发明实施例中,当获取了用户的交互信息后,需要基于交互信息的分析结果确定多媒体数据的图像特征。
本发明实施例通过,对影像资源内容进行识别并自动标注影像资源内容属性信息,其中的属性信息包括:位置、天气、情感、内容等。如通过图像识别技术对用户影像资源内容进行识别,并为其打上上述的属性标签。
根据用户软件使用情况,利用OCR以及文本内容分析技术分析记录用户场景情况。判断用户是否需要使用影像资料以及何时、何地、什么场景下使用影像资料。
当用户上传影像资源时解析文本内容,根据影像属性、更新程度、使用频率等用户影像资源使用习惯进行实时排序,方便户准确快速的找到要上传的影像资源。
步骤103:基于所述目标多媒体数据的图像特征,确定候选多媒体数据。
本发明实施例中,所述候选多媒体数据中至少包括所述目标多媒体数据。
具体地,当获取到多媒体数据的图像特征后,基于多媒体数据的图像特征,从多媒体数据中筛选出与目标多媒体数据的图像特征匹配度高于阈值的多媒体数据;确定所筛选出的多媒体数据为候选多媒体数据。
也就是说,当需要为用户确定待上传的多媒体数据时,需要基于多媒体数据的图像特征确定出待上传的目标多媒体数据的图像特征,在多媒体数据库中查找出与该目标多媒体数据的图像特征匹配的所有多媒体数据,作为用户待上传的候选多媒体数据,这样可以大大缩小用户待上传的多媒体数据的选择范围,甚至当用户输入的交互信息足够详细的话,候选多媒体数据中仅包含目标多媒体数据,这样可以直接省去用户针对多媒体数据的挑选操作。
采用本发明实施例的技术方案,可以自动对用户使用场景进行分析,结合影像资源识别、文本分析以及用户影像资源使用习惯进行深层分析,优化影像资源上传时列表的排列顺序,并且,在使用过程中系统不断地自行修正,从而越来越符合该用户的使用习惯,本发明实施例的技术方案通过系统自行复杂的处理,减少了用户的操作,并能为用户提供合适的待上传影像资源,从而提升了用户使用上的便捷性。
图2为本发明实施例二的数据处理方法的流程示意图,如图2所示,本发明实施例的数据处理方法至少包括以下处理步骤:
步骤201:获取交互信息。
本发明实施例中,所述交互信息包括用于筛选目标多媒体数据的信息。
本发明实施例中,所述交互信息包括用户对应用的操作动作,激活应用或应用的相关控件的意图,如何使用了应用或应用的相关控件的操作规程等,通过用户的这些操作动作,获取用户与待操作对应如电子设备中的相关引用的交互信息,从而基于所获取的交互信息确定用户是否需要上传多媒体数据,如影像资料、或音视频资料等。通过对用户的交互信息的分析,能确定出用户是否有上传多媒体数据的意图。
本发明实施例中,上述的交互信息也包含用户的语音输入信息,如用户输入的语音指令或用户基于语音与应用或其他用户之间的交互语音信息,如用户可以基于语音与安装了相关应用的电子设备之间进行语音交互,电子设备接收用户输入的语音,并对语音信息进行解析,并基于解析后的语音响应于用户的语音输入,实现与用户之间的交互。当然,上述的语音信息也可以是用户基于电子设备中的相关应用与其他用户之间交互的语音信息,电子设备通过获取交互双方用户之间输入的语音信息进行相关解析,同样可以获取这些交互语音信息。
需要说明的是,上述的语音信息也可以是用户自己输出的语音信息,即用户并非是与电子设备或其他用户之间的交互语音,但电子设备自身将用户的语音信息直接作为交互信息进行存储和解析,只是在存储和解析后不必向用户输出响应语音。如即使是用户自言自语的语音输入,仍将其作为语音交互信息的一种进行存储和解析。
本发明实施例中并不限定交互信息的输入方式和交互信息的格式。
步骤202:基于所述交互信息,确定目标多媒体数据的图像特征。
具体地,对交互信息进行识别,得到交互信息对应的文本数据;对文本数据进行解析,得到文本数据的文本特征;基于文本数据的文本特征,确定目标多媒体数据的图像特征。获取文本数据中的各个文本元素;获取各个文本元素的图像特征;基于文本数据中的各个文本元素以及各个文本元素的图像特征,确定目标多媒体数据的图像特征。
本发明实施例中,当获取了用户的交互信息后,需要基于交互信息的分析结果确定多媒体数据的图像特征。
以下以影像资料为例,阐述获取其图像特征的方式。
本发明实施例中,通过实时捕捉用户软件操作动作以及控件激活情况来判断使用意图,当用户点击添加影像资料按钮进入影像资源列表时,系统通过截屏和光学字符识别(OCR,Optical Character Recognition)技术分析读取屏幕内容。
影像资源处理与排序的处理方式示例如下:
对用户的每个影像资料特征进行分析记录f={a1,a2,a3,...,am},ai包含影像资源的地理位置、天气情况、拍摄时间、影像资源组成元素、色彩色调、情感倾向等影像资源特征。
分析用户历史对每个影像资源的使用习惯h={b1,b2,b3,...,bn},bi包含影像资源使用频率、文本感情色彩与影像资源感情色彩的搭配特征等用户使用习惯特征;
同一影像资源的影像资源物理特征数据集f={a1,a2,a3,...,am}和用户使用习惯数据集h={b1,b2,b3,...,bn}进行组合,得到影像资源特征v=f+h,进而得到影像资源特征数据集V={v1,v2,v3,...,vo};
获取用户上传影像资料的影像筛选文本信息(系统文字、用户编辑文字、上下文对话等)提取文本元素t={c1,c2,c3...cp},ti包括时间、天气、影像资源内容要素、使用场景、文本情感等文本内容要素;
根据大量文本元素及其所属类别的数据,训练出文本元素所属类别的概率矩阵Mp*q,其中p为文本向量的维度,q为类别的维度;同样地,根据大量类别和影像资源特征的数据,训练出类别及其对应影像资源特征的概率矩阵Nq*(m+n);利用矩阵的SVD分解,得到文本元素和对应影像资源特征的概率矩阵Q=M*N;
将文本元素向量t和矩阵Q做乘积得到向量t’,t’的维度为m+n,从而将文本元素向量t映射到对应的文本元素对应的图像特征t’;
训练得到排序模型,得到排序模型的方式具体如下:
首先,给定训练数据集合D={(qi,V,yi)}(i=1,2,3,...,N),其中qi为文本元素对应的图像特征,V为影像资源集合,yi为对候选影像资源集合中影像资源的标注集合;对于yi={yi1,yi2,yi3,...,yiM},我们采用人工标注,分为3级,即{相关,部分相关,不相关}。
然后,使用Point-wise Learning的方法,直接把机器学习中的回归方法应用到排序学习中来,即把每一个查询-影像对(qi,vi)当做输入,对应的标签yi当做输出,学习到线性排序函数其中w为模型参数。
对于此模型,需要说明的是:查询只考虑得分的相对值大小,而不考虑绝对值大小;分数只在查询的内部比较,跨查询的比较没有意义。
依据影像资源特征数据集V={v1,v2,v3,...vo}、文本元素t={c1,c2,c3,...,cp},排序模型参数W={w1,w2,w3,...,wr};输入算法Algorithm1输出一次上传时影像资源的排列顺序O={o1,o2,o3,...,oo}。
输入(Input):影像特征数据集V={v1,v2,v3,...,vo},文本元素t={c1,c2,c3,...,cp},文本元素所属类别的概率矩阵Mp*q,类别及其对应影像特征的概率矩阵Nq*(m+n),影像排序模型的参数w={w1,w2,w3,...,wr},排序模型f;
输出(Output):更新后上传时影像的排列序列O={o1,o2,o3,...,oo}
首先,利用矩阵的SVD分解,将文本元素所属类别的概率矩阵Mp*q和类别及其对应影像特征的概率矩阵Nq*(m+n)做矩阵乘法,得到文本元素和对应影像特征的概率矩阵Q=M*N;接着,将文本元素t与Q矩阵做矩阵乘法,得到文本元素对应的图像特征t’;然后,利用排序模型f和模型参数w,以及影像特征数据集V,得到各个查询-影像对的分数s;最后,根据分数s的相对数值,从大到小对影像进行排序,得到更新后上传时影像的排列序列O。
利用M和N,得到Q=M*N;
利用Q,得到t’=t*Q;
For vi in V:
根据模型进行打分,得到查询-影像对的分数si;
根据si的数值,从小到大进行排序,得到更新后上传时影像的排列序列O。
步骤203:基于所述目标多媒体数据的图像特征,确定候选多媒体数据。
本发明实施例中,所述候选多媒体数据中至少包括所述目标多媒体数据。
具体地,当获取到多媒体数据的图像特征后,基于多媒体数据的图像特征,从多媒体数据中筛选出与目标多媒体数据的图像特征匹配度高于阈值的多媒体数据;确定所筛选出的多媒体数据为候选多媒体数据。
也就是说,当需要为用户确定待上传的多媒体数据时,需要基于多媒体数据的图像特征确定出待上传的目标多媒体数据的图像特征,在多媒体数据库中查找出与该目标多媒体数据的图像特征匹配的所有多媒体数据,作为用户待上传的候选多媒体数据,这样可以大大缩小用户待上传的多媒体数据的选择范围,甚至当用户输入的交互信息足够详细的话,候选多媒体数据中仅包含目标多媒体数据,这样可以直接省去用户针对多媒体数据的挑选操作。
采用本发明实施例的技术方案,可以自动对用户使用场景进行分析,结合影像资源识别、文本分析以及用户影像资源使用习惯进行深层分析,优化影像资源上传时列表的排列顺序,并且,在使用过程中系统不断地自行修正,从而越来越符合该用户的使用习惯,本发明实施例的技术方案通过系统自行复杂的处理,减少了用户的操作,并能为用户提供合适的待上传影像资源,从而提升了用户使用上的便捷性。
图3为本发明实施例三的数据处理方法的流程示意图,如图3所示,本发明实施例的数据处理方法至少包括以下处理步骤:
步骤301:获取交互信息。
本发明实施例中,所述交互信息包括用于筛选目标多媒体数据的信息。
本发明实施例中,所述交互信息包括用户对应用的操作动作,激活应用或应用的相关控件的意图,如何使用了应用或应用的相关控件的操作规程等,通过用户的这些操作动作,获取用户与待操作对应如电子设备中的相关引用的交互信息,从而基于所获取的交互信息确定用户是否需要上传多媒体数据,如影像资料、或音视频资料等。通过对用户的交互信息的分析,能确定出用户是否有上传多媒体数据的意图。
本发明实施例中,上述的交互信息也包含用户的语音输入信息,如用户输入的语音指令或用户基于语音与应用或其他用户之间的交互语音信息,如用户可以基于语音与安装了相关应用的电子设备之间进行语音交互,电子设备接收用户输入的语音,并对语音信息进行解析,并基于解析后的语音响应于用户的语音输入,实现与用户之间的交互。当然,上述的语音信息也可以是用户基于电子设备中的相关应用与其他用户之间交互的语音信息,电子设备通过获取交互双方用户之间输入的语音信息进行相关解析,同样可以获取这些交互语音信息。
需要说明的是,上述的语音信息也可以是用户自己输出的语音信息,即用户并非是与电子设备或其他用户之间的交互语音,但电子设备自身将用户的语音信息直接作为交互信息进行存储和解析,只是在存储和解析后不必向用户输出响应语音。如即使是用户自言自语的语音输入,仍将其作为语音交互信息的一种进行存储和解析。
本发明实施例中并不限定交互信息的输入方式和交互信息的格式。
步骤302:基于所述交互信息,确定目标多媒体数据的图像特征。
具体地,对交互信息进行识别,得到交互信息对应的文本数据;对文本数据进行解析,得到文本数据的文本特征;基于文本数据的文本特征,确定目标多媒体数据的图像特征。获取文本数据中的各个文本元素;获取各个文本元素的图像特征;基于文本数据中的各个文本元素以及各个文本元素的图像特征,确定目标多媒体数据的图像特征。
本发明实施例中,当获取了用户的交互信息后,需要基于交互信息的分析结果确定多媒体数据的图像特征。
以下以影像资料为例,阐述获取其图像特征的方式。
本发明实施例中,通过实时捕捉用户软件操作动作以及控件激活情况来判断使用意图,当用户点击添加影像资料按钮进入影像资源列表时,系统通过截屏和光学字符识别(OCR,Optical Character Recognition)技术分析读取屏幕内容。
影像资源处理与排序的处理方式示例如下:
对用户的每个影像资料特征进行分析记录f={a1,a2,a3,...,am},ai包含影像资源的地理位置、天气情况、拍摄时间、影像资源组成元素、色彩色调、情感倾向等影像资源特征。
分析用户历史对每个影像资源的使用习惯h={b1,b2,b3,...,bn},bi包含影像资源使用频率、文本感情色彩与影像资源感情色彩的搭配特征等用户使用习惯特征;
同一影像资源的影像资源物理特征数据集f={a1,a2,a3,....,am}和用户使用习惯数据集h={b1,b2,b3,...,bn}进行组合,得到影像资源特征v=f+h,进而得到影像资源特征数据集V={v1,v2,v3,...,vo};
获取用户上传影像资料的影像筛选文本信息(系统文字、用户编辑文字、上下文对话等)提取文本元素t={c1,c2,c3...cp},ti包括时间、天气、影像资源内容要素、使用场景、文本情感等文本内容要素;
根据大量文本元素及其所属类别的数据,训练出文本元素所属类别的概率矩阵Mp*q,其中p为文本向量的维度,q为类别的维度;同样地,根据大量类别和影像资源特征的数据,训练出类别及其对应影像资源特征的概率矩阵Nq*(m+n);利用矩阵的SVD分解,得到文本元素和对应影像资源特征的概率矩阵Q=M*N;
将文本元素向量t和矩阵Q做乘积得到向量t’,t’的维度为m+n,从而将文本元素向量t映射到对应的文本元素对应的图像特征t’;
训练得到排序模型,得到排序模型的方式具体如下:
首先,给定训练数据集合D={(qi,V,yi)}(i=1,2,3,...,N),其中qi为文本元素对应的图像特征,V为影像资源集合,yi为对候选影像资源集合中影像资源的标注集合;对于yi={yi1,yi2,yi3,...,yiM},我们采用人工标注,分为3级,即{相关,部分相关,不相关}。
然后,使用Point-wise Learning的方法,直接把机器学习中的回归方法应用到排序学习中来,即把每一个查询-影像对(qi,vi)当做输入,对应的标签yi当做输出,学习到线性排序函数其中w为模型参数。
对于此模型,需要说明的是:查询只考虑得分的相对值大小,而不考虑绝对值大小;分数只在查询的内部比较,跨查询的比较没有意义。
依据影像资源特征数据集V={v1,v2,v3,...vo}、文本元素t={c1,c2,c3,...,cp},排序模型参数W={w1,w2w3,...,wr};输入算法Algorithm1输出一次上传时影像资源的排列顺序O={o1,o2,o3,...,oo}。
输入(Input):影像特征数据集V={v1,v2,v3,...,vo},文本元素t={c1,c2,c3,...,cp},文本元素所属类别的概率矩阵Mp*q,类别及其对应影像特征的概率矩阵Nq*(m+n),影像排序模型的参数w={w1,w2,w3,...,wr},排序模型f;
输出(Output):更新后上传时影像的排列序列O={o1,o2,o3,...,oo}
首先,利用矩阵的SVD分解,将文本元素所属类别的概率矩阵Mp*q和类别及其对应影像特征的概率矩阵Nq*(m+n)做矩阵乘法,得到文本元素和对应影像特征的概率矩阵Q=M*N;接着,将文本元素t与Q矩阵做矩阵乘法,得到文本元素对应的图像特征t’;然后,利用排序模型f和模型参数w,以及影像特征数据集V,得到各个查询-影像对的分数s;最后,根据分数s的相对数值,从大到小对影像进行排序,得到更新后上传时影像的排列序列O。
利用M和N,得到Q=M*N;
利用Q,得到t’=t*Q;
For vi in V:
根据模型进行打分,得到查询-影像对的分数si;
根据si的数值,从小到大进行排序,得到更新后上传时影像的排列序列O。
步骤303:基于所述目标多媒体数据的图像特征,确定候选多媒体数据。
本发明实施例中,所述候选多媒体数据中至少包括所述目标多媒体数据。
本发明实施例的基于各个文本元素的特征,确定文本数据的文本特征,包括:确定各个文本元素所属的类别;确定各个元素在所属类别下的特征;确定各个元素在所属类别下的图像特征;基于各个元素在所属类别下的特征以及各个元素在所属类别下的图像特征,确定文本数据的文本特征。。
也就是说,当需要为用户确定待上传的多媒体数据时,需要基于多媒体数据的图像特征确定出待上传的目标多媒体数据的图像特征,在多媒体数据库中查找出与该目标多媒体数据的图像特征匹配的所有多媒体数据,作为用户待上传的候选多媒体数据,这样可以大大缩小用户待上传的多媒体数据的选择范围,甚至当用户输入的交互信息足够详细的话,候选多媒体数据中仅包含目标多媒体数据,这样可以直接省去用户针对多媒体数据的挑选操作。
本发明实施例中,通过上述方式所确定的候选多媒体数据中的任一多媒体数据相对于所述候选多媒体数据之外的至少一个其他多媒体数据排列位置靠前。候选多媒体数据处于待上传多媒体数据的前列,以方便用户上传目标多媒体数据。
采用本发明实施例的技术方案,可以自动对用户使用场景进行分析,结合影像资源识别、文本分析以及用户影像资源使用习惯进行深层分析,优化影像资源上传时列表的排列顺序,并且,在使用过程中系统不断地自行修正,从而越来越符合该用户的使用习惯,本发明实施例的技术方案通过系统自行复杂的处理,减少了用户的操作,并能为用户提供合适的待上传影像资源,从而提升了用户使用上的便捷性。
应用示例1
用户Ida想用移动工具办理理财业务系统检测该软件类型输入分组L中的软件。
Ida用移动工具办理理财业务,实名登记的时候,系统提示上传身份证正反面,当点击添加影像资源按钮时,系统对当前页面文本进行读取分析,此时系统分析文本信息得到ti为“实名登记”、“身份证”,通过Algorithm1运算使曾经拍摄的最新证件照片排列在其他照片位置前,Ida轻松选择要上传的照片完成操作;
实名登记结束后下一步要进行身份测试,此时系统提示上传免冠近照。于是Ida再次打开手机相册,系统分析出ti为“免冠”、“近照”,Algorithm1根据单人照片、面部出现频率(同是单人照片,某一面容多次出现的频率较高,则该面容是此用户的可能性较高)、免冠、近期、照片使用频率等对所有照片进行打分,最终单人、Ida本人、近期、使用频率较高的照片被排列到最前边。
应用示例2:
用户Ida正在用某社交软件与好友Lisa进行聊天,系统检测该软件类型输入分组H中的软件,因此当屏幕数据发生变化时,系统就对其进行屏幕文字读取和语义分析。
聊天过程中Lisa希望Ida能把今天在某某商场吃饭时拍摄的合照发送给她,此时系统分析聊天上下文得到t={c1,c2,c3...cp}为“今天”、“某某商场”、“吃饭”、“合照”,运行Algorithm1使符合要求的照片排列在照片集的前方,Ida轻松选择希望传给Lisa的今天吃饭时的合照。
聊天过程中Lisa说:“我前天下雨的时候在某某餐厅吃饭时还拍了下雨的视频很美呢。”Ida说:“那发我看看吧。”此时系统分析聊天上下文得到t={c1,c2,c3...cp}为“前天”、“下雨”、“某某餐厅”、“视频”,通过Algorithm1运算得到视频排列顺序,Lisa选取了选择排列在第三的餐厅室内外拍摄的视频发送给了Ida。
鉴于b中照片排序不准的情况,Ida请求个性化修正模型。于是,我们通过邮件将部分类似查询以及影像资源库通过电子邮件的方式发送给Ida,Ida完成选择标注后将结果返回。根据Ida的选择标注情况,更新训练数据集,训练出新的模型,并将原模型替换。
图4为本发明实施例四的数据处理装置的组成结构示意图,如图4所示,本发明实施例的数据处理装置包括:
获取单元40,用于获取交互信息,所述交互信息包括用于筛选目标多媒体数据的信息;
第一确定单元41,用于基于所述交互信息,确定目标多媒体数据的图像特征;
第二确定单元42,用于基于所述目标多媒体数据的图像特征,确定候选多媒体数据,所述候选多媒体数据中至少包括所述目标多媒体数据。
第一确定单元41,还用于对交互信息进行识别,得到交互信息对应的文本数据;对文本数据进行解析,得到文本数据的文本特征;基于文本数据的文本特征,确定目标多媒体数据的图像特征。
具体地,第一确定单元41,获取文本数据中的各个文本元素;获取各个文本元素的图像特征;基于文本数据中的各个文本元素以及各个文本元素的图像特征,确定目标多媒体数据的图像特征。
或者,第一确定单元41,基于文本数据中的各个文本元素,确定各个文本元素的特征;基于各个文本元素的特征,确定文本数据的文本特征。
对应地,第二确定单元42,获取多媒体数据的图像特征;基于多媒体数据的图像特征,从多媒体数据中筛选出与目标多媒体数据的图像特征匹配度高于阈值的多媒体数据;确定所筛选出的多媒体数据为候选多媒体数据。
或者,第二确定单元42,确定各个文本元素所属的类别;确定各个元素在所属类别下的特征;确定各个元素在所属类别下的图像特征;基于各个元素在所属类别下的特征以及各个元素在所属类别下的图像特征,确定文本数据的文本特征。
本发明实施例中,所述候选多媒体数据中的任一多媒体数据相对于所述候选多媒体数据之外的至少一个其他多媒体数据排列位置靠前。
本发明实施例中,当获取单元40获取了用户的交互信息后,第一确定单元41及第二确定单元42需要基于交互信息的分析结果确定多媒体数据的图像特征。
以下以影像资料为例,阐述第一确定单元41获取其图像特征的方式,以及第二确定单元42是如何确定出候选多媒体数据的。
本发明实施例中,通过实时捕捉用户软件操作动作以及控件激活情况来判断使用意图,当用户点击添加影像资料按钮进入影像资源列表时,系统通过截屏和光学字符识别(OCR,Optical Character Recognition)技术分析读取屏幕内容。
影像资源处理与排序的处理方式示例如下:
对用户的每个影像资料特征进行分析记录f={a1,a2,a3,...,am},ai包含影像资源的地理位置、天气情况、拍摄时间、影像资源组成元素、色彩色调、情感倾向等影像资源特征。
分析用户历史对每个影像资源的使用习惯h={b1,b2,b3,...,bn},bi包含影像资源使用频率、文本感情色彩与影像资源感情色彩的搭配特征等用户使用习惯特征;
同一影像资源的影像资源物理特征数据集f={a1,a2,a3,...,am}和用户使用习惯数据集h={b1,b2,b3,...,bn}进行组合,得到影像资源特征v=f+h,进而得到影像资源特征数据集V={v1,v2,v3,...,vo};
获取用户上传影像资料的影像筛选文本信息(系统文字、用户编辑文字、上下文对话等)提取文本元素t={c1,c2,c3...cp},ti包括时间、天气、影像资源内容要素、使用场景、文本情感等文本内容要素;
根据大量文本元素及其所属类别的数据,训练出文本元素所属类别的概率矩阵Mp*q,其中p为文本向量的维度,q为类别的维度;同样地,根据大量类别和影像资源特征的数据,训练出类别及其对应影像资源特征的概率矩阵Nq*(m+n);利用矩阵的SVD分解,得到文本元素和对应影像资源特征的概率矩阵Q=M*N;
将文本元素向量t和矩阵Q做乘积得到向量t’,t’的维度为m+n,从而将文本元素向量t映射到对应的文本元素对应的图像特征t’;
训练得到排序模型,得到排序模型的方式具体如下:
首先,给定训练数据集合D={(qi,V,yi)}(i=1,2,3,...,N),其中qi为文本元素对应的图像特征,V为影像资源集合,yi为对候选影像资源集合中影像资源的标注集合;对于yi={yi1,yi2,yi3,...,yiM},我们采用人工标注,分为3级,即{相关,部分相关,不相关}。
然后,使用Point-wise Learning的方法,直接把机器学习中的回归方法应用到排序学习中来,即把每一个查询-影像对(qi,vi)当做输入,对应的标签yi当做输出,学习到线性排序函数其中w为模型参数。
对于此模型,需要说明的是:查询只考虑得分的相对值大小,而不考虑绝对值大小;分数只在查询的内部比较,跨查询的比较没有意义。
依据影像资源特征数据集V={v1,v2,v3,...vo}、文本元素t={c1,c2,c3,...,cp},排序模型参数W={w1,w2,w3,...,wr};输入算法Algorithm1输出一次上传时影像资源的排列顺序O={o1,o2,o3,...,oo}。
输入(Input):影像特征数据集V={v1,v2,v3,...,vo},文本元素t={c1,c2,c3,...,cp},文本元素所属类别的概率矩阵Mp*q,类别及其对应影像特征的概率矩阵Nq*(m+n),影像排序模型的参数w={w1,w2,w3,...,wr},排序模型f;
输出(Output):更新后上传时影像的排列序列O={o1,o2,o3,...,oo}
首先,利用矩阵的SVD分解,将文本元素所属类别的概率矩阵Mp*q和类别及其对应影像特征的概率矩阵Nq*(m+n)做矩阵乘法,得到文本元素和对应影像特征的概率矩阵Q=M*N;接着,将文本元素t与Q矩阵做矩阵乘法,得到文本元素对应的图像特征t’;然后,利用排序模型f和模型参数w,以及影像特征数据集V,得到各个查询-影像对的分数s;最后,根据分数s的相对数值,从大到小对影像进行排序,得到更新后上传时影像的排列序列O。
利用M和N,得到Q=M*N;
利用Q,得到t’=t*Q;
For vi in V:
根据模型进行打分,得到查询-影像对的分数si;
根据si的数值,从小到大进行排序,得到更新后上传时影像的排列序列O。
采用本发明实施例的技术方案,可以自动对用户使用场景进行分析,结合影像资源识别、文本分析以及用户影像资源使用习惯进行深层分析,优化影像资源上传时列表的排列顺序,并且,在使用过程中系统不断地自行修正,从而越来越符合该用户的使用习惯,本发明实施例的技术方案通过系统自行复杂的处理,减少了用户的操作,并能为用户提供合适的待上传影像资源,从而提升了用户使用上的便捷性。
图5为本发明实施例五的电子设备的组成结构示意图,如图5所示,本发明实施例的电子设备包括:显示屏53、存储介质52和处理器50等,显示屏53、存储介质52和处理器50通过总线51连接,其中,总线51至少包括地址总线及控制总线等;其中:
处理器50,用于获取交互信息,基于所述交互信息,确定目标多媒体数据的图像特征;基于所述目标多媒体数据的图像特征,确定候选多媒体数据;其中,所述交互信息包括用于筛选目标多媒体数据的信息;所述候选多媒体数据中至少包括所述目标多媒体数据。
存储器用于存储执行处理器50所运行的前述方法的相关程序,以及处理器在执行相关程序时的中间运算结果及最终运算结果,如存储前述的交互信息,多媒体数据等。
显示屏53用于向用户显示执行相关程序的相关结果。该显示屏53可以是触摸屏等输出输入设备,也可以是仅作为输出设备的显示器。
总线51至少包括地址总线及控制总线等,用于在显示屏53、存储介质52和处理器50等元器件之间进行数据或指令的传输。
所述处理器50,还用于对交互信息进行识别,得到交互信息对应的文本数据;对文本数据进行解析,得到文本数据的文本特征;基于文本数据的文本特征,确定目标多媒体数据的图像特征。
所述处理器50,还用于获取文本数据中的各个文本元素;获取各个文本元素的图像特征;
基于文本数据中的各个文本元素以及各个文本元素的图像特征,确定目标多媒体数据的图像特征。
所述处理器50,还用于基于文本数据中的各个文本元素,确定各个文本元素的特征;基于各个文本元素的特征,确定文本数据的文本特征。
所述处理器50,还用于获取多媒体数据的图像特征;基于多媒体数据的图像特征,从多媒体数据中筛选出与目标多媒体数据的图像特征匹配度高于阈值的多媒体数据;确定所筛选出的多媒体数据为候选多媒体数据。
所述处理器50,还用于确定各个文本元素所属的类别;确定各个元素在所属类别下的特征;确定各个元素在所属类别下的图像特征;基于各个元素在所属类别下的特征以及各个元素在所属类别下的图像特征,确定文本数据的文本特征。
本发明实施例中,所述候选多媒体数据中的任一多媒体数据相对于所述候选多媒体数据之外的至少一个其他多媒体数据排列位置靠前。
本发明实施例中,所述处理器50获取了用户的交互信息后,需要基于交互信息的分析结果确定多媒体数据的图像特征。
以下以影像资料为例,阐述所述处理器50是如何确定出候选多媒体数据的。
本发明实施例中,通过实时捕捉用户软件操作动作以及控件激活情况来判断使用意图,当用户点击添加影像资料按钮进入影像资源列表时,系统通过截屏和光学字符识别(OCR,Optical Character Recognition)技术分析读取屏幕内容。
影像资源处理与排序的处理方式示例如下:
对用户的每个影像资料特征进行分析记录f={a1,a2,a3,...,am},ai包含影像资源的地理位置、天气情况、拍摄时间、影像资源组成元素、色彩色调、情感倾向等影像资源特征。
分析用户历史对每个影像资源的使用习惯h={b1,b2,b3,...,bn},bi包含影像资源使用频率、文本感情色彩与影像资源感情色彩的搭配特征等用户使用习惯特征;
同一影像资源的影像资源物理特征数据集f={a1,a2,a3,...,am}和用户使用习惯数据集h={b1,b2,b3,...,bn}进行组合,得到影像资源特征v=f+h,进而得到影像资源特征数据集V={v1,v2,v3,...,vo};
获取用户上传影像资料的影像筛选文本信息(系统文字、用户编辑文字、上下文对话等)提取文本元素t={c1,c2,c3...cp},ti包括时间、天气、影像资源内容要素、使用场景、文本情感等文本内容要素;
根据大量文本元素及其所属类别的数据,训练出文本元素所属类别的概率矩阵Mp*q,其中p为文本向量的维度,q为类别的维度;同样地,根据大量类别和影像资源特征的数据,训练出类别及其对应影像资源特征的概率矩阵Nq*(m+n);利用矩阵的SVD分解,得到文本元素和对应影像资源特征的概率矩阵Q=M*N;
将文本元素向量t和矩阵Q做乘积得到向量t’,t’的维度为m+n,从而将文本元素向量t映射到对应的文本元素对应的图像特征t’;
训练得到排序模型,得到排序模型的方式具体如下:
首先,给定训练数据集合D={(qi,V,yi)}(i=1,2,3,...,N),其中qi为文本元素对应的图像特征,V为影像资源集合,yi为对候选影像资源集合中影像资源的标注集合;对于yi={yi1,yi2,yi3,...,yiM},我们采用人工标注,分为3级,即{相关,部分相关,不相关}。
然后,使用Point-wise Learning的方法,直接把机器学习中的回归方法应用到排序学习中来,即把每一个查询-影像对(qi,vi)当做输入,对应的标签yi当做输出,学习到线性排序函数其中w为模型参数。
对于此模型,需要说明的是:查询只考虑得分的相对值大小,而不考虑绝对值大小;分数只在查询的内部比较,跨查询的比较没有意义。
依据影像资源特征数据集V={v1,v2,v3,...vo}、文本元素t={c1,c2,c3,...,cp},排序模型参数W={w1,w2,w3,...,wr};输入算法Algorithm1输出一次上传时影像资源的排列顺序O={o1,o2,o3,...,oo}。
输入(Input):影像特征数据集V={v1,v2,v3,...,vo},文本元素t={c1,c2,c3,...,cp},文本元素所属类别的概率矩阵Mp*q,类别及其对应影像特征的概率矩阵Nq*(m+n),影像排序模型的参数w={w1,w2,w3,...,wr},排序模型f;
输出(Output):更新后上传时影像的排列序列O={o1,o2,o3,...,oo}
首先,利用矩阵的SVD分解,将文本元素所属类别的概率矩阵Mp*q和类别及其对应影像特征的概率矩阵Nq*(m+n)做矩阵乘法,得到文本元素和对应影像特征的概率矩阵Q=M*N;接着,将文本元素t与Q矩阵做矩阵乘法,得到文本元素对应的图像特征t’;然后,利用排序模型f和模型参数w,以及影像特征数据集V,得到各个查询-影像对的分数s;最后,根据分数s的相对数值,从大到小对影像进行排序,得到更新后上传时影像的排列序列O。
利用M和N,得到Q=M*N;
利用Q,得到t’=t*Q;
For vi in V:
根据模型进行打分,得到查询-影像对的分数si;
根据si的数值,从小到大进行排序,得到更新后上传时影像的排列序列O。
采用本发明实施例的技术方案,可以自动对用户使用场景进行分析,结合影像资源识别、文本分析以及用户影像资源使用习惯进行深层分析,优化影像资源上传时列表的排列顺序,并且,在使用过程中系统不断地自行修正,从而越来越符合该用户的使用习惯,本发明实施例的技术方案通过系统自行复杂的处理,减少了用户的操作,并能为用户提供合适的待上传影像资源,从而提升了用户使用上的便捷性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
获取交互信息,所述交互信息包括用于筛选目标多媒体数据的信息;
基于所述交互信息,确定目标多媒体数据的图像特征;
基于所述目标多媒体数据的图像特征,确定候选多媒体数据,所述候选多媒体数据中至少包括所述目标多媒体数据。
2.根据权利要求1所述的方法,其特征在于,所述基于交互信息,确定目标多媒体数据的图像特征,包括:
对交互信息进行识别,得到交互信息对应的文本数据;
对文本数据进行解析,得到文本数据的文本特征;
基于文本数据的文本特征,确定目标多媒体数据的图像特征。
3.根据权利要求2所述的方法,其特征在于,所述基于文本数据的文本特征,确定目标多媒体数据的图像特征,包括:
获取文本数据中的各个文本元素;
获取各个文本元素的图像特征;
基于文本数据中的各个文本元素以及各个文本元素的图像特征,确定目标多媒体数据的图像特征。
4.根据权利要求2所述的方法,其特征在于,所述对文本数据进行解析,得到文本数据的文本特征,包括:
基于文本数据中的各个文本元素,确定各个文本元素的特征;
基于各个文本元素的特征,确定文本数据的文本特征。
5.根据权利要求1至4任一项所述的方法,其特征在于,基于目标多媒体数据的图像特征,确定候选多媒体数据,包括:
获取多媒体数据的图像特征;
基于多媒体数据的图像特征,从多媒体数据中筛选出与目标多媒体数据的图像特征匹配度高于阈值的多媒体数据;
确定所筛选出的多媒体数据为候选多媒体数据。
6.根据权利要求4所述的方法,其特征在于,所述基于各个文本元素的特征,确定文本数据的文本特征,包括:
确定各个文本元素所属的类别;
确定各个元素在所属类别下的特征;
确定各个元素在所属类别下的图像特征;
基于各个元素在所属类别下的特征以及各个元素在所属类别下的图像特征,确定文本数据的文本特征。
7.根据权利要求1所述的方法,其特征在于,所述候选多媒体数据中的任一多媒体数据相对于所述候选多媒体数据之外的至少一个其他多媒体数据排列位置靠前。
8.一种数据处理装置,其特征在于,所述装置包括:
获取单元,用于获取交互信息,所述交互信息包括用于筛选目标多媒体数据的信息;
第一确定单元,用于基于所述交互信息,确定目标多媒体数据的图像特征;
第二确定单元,用于基于所述目标多媒体数据的图像特征,确定候选多媒体数据,所述候选多媒体数据中至少包括所述目标多媒体数据。
9.一种电子设备,其特征在于,所述电子设备包括:
处理器,用于获取交互信息,基于所述交互信息,确定目标多媒体数据的图像特征;基于所述目标多媒体数据的图像特征,确定候选多媒体数据;其中,所述交互信息包括用于筛选目标多媒体数据的信息;所述候选多媒体数据中至少包括所述目标多媒体数据。
10.根据权利要求9所述的电子设备,其特征在于,所述处理器,还用于对交互信息进行识别,得到交互信息对应的文本数据;对文本数据进行解析,得到文本数据的文本特征;基于文本数据的文本特征,确定目标多媒体数据的图像特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710906000.1A CN107656760A (zh) | 2017-09-28 | 2017-09-28 | 数据处理方法及装置、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710906000.1A CN107656760A (zh) | 2017-09-28 | 2017-09-28 | 数据处理方法及装置、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107656760A true CN107656760A (zh) | 2018-02-02 |
Family
ID=61117529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710906000.1A Pending CN107656760A (zh) | 2017-09-28 | 2017-09-28 | 数据处理方法及装置、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107656760A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI655552B (zh) * | 2018-03-23 | 2019-04-01 | 劉謹銘 | Fast image sorting method |
WO2021164151A1 (zh) * | 2020-02-18 | 2021-08-26 | 深圳传音控股股份有限公司 | 图库搜索方法、终端及计算机存储介质 |
CN113515633A (zh) * | 2021-07-02 | 2021-10-19 | 福州大学 | 基于计算机视觉的屏幕浏览场景分类方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005578A (zh) * | 2015-05-21 | 2015-10-28 | 中国电子科技集团公司第十研究所 | 多媒体目标信息可视化分析系统 |
-
2017
- 2017-09-28 CN CN201710906000.1A patent/CN107656760A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005578A (zh) * | 2015-05-21 | 2015-10-28 | 中国电子科技集团公司第十研究所 | 多媒体目标信息可视化分析系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI655552B (zh) * | 2018-03-23 | 2019-04-01 | 劉謹銘 | Fast image sorting method |
WO2021164151A1 (zh) * | 2020-02-18 | 2021-08-26 | 深圳传音控股股份有限公司 | 图库搜索方法、终端及计算机存储介质 |
CN113515633A (zh) * | 2021-07-02 | 2021-10-19 | 福州大学 | 基于计算机视觉的屏幕浏览场景分类方法 |
CN113515633B (zh) * | 2021-07-02 | 2023-08-08 | 福州大学 | 基于计算机视觉的屏幕浏览场景分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11088977B1 (en) | Automated image processing and content curation | |
US20210182611A1 (en) | Training data acquisition method and device, server and storage medium | |
Karayev et al. | Recognizing image style | |
CN104063683B (zh) | 一种基于人脸识别的表情输入方法和装置 | |
US11394675B2 (en) | Method and device for commenting on multimedia resource | |
CN110364146B (zh) | 语音识别方法、装置、语音识别设备及存储介质 | |
CN109919244B (zh) | 用于生成场景识别模型的方法和装置 | |
CN113569088B (zh) | 一种音乐推荐方法、装置以及可读存储介质 | |
CN109684513B (zh) | 一种低质量视频识别方法及装置 | |
CN111507097B (zh) | 一种标题文本处理方法、装置、电子设备及存储介质 | |
CN110750656A (zh) | 一种基于知识图谱的多媒体检测方法 | |
CN104933113A (zh) | 一种基于语义理解的表情输入方法和装置 | |
CN107153838A (zh) | 一种照片自动分级方法及装置 | |
CN110008378A (zh) | 基于人工智能的语料收集方法、装置、设备及存储介质 | |
CN110489578A (zh) | 图片处理方法、装置及计算机设备 | |
US11601391B2 (en) | Automated image processing and insight presentation | |
CN113434716B (zh) | 一种跨模态信息检索方法和装置 | |
CN111309940A (zh) | 一种信息展示方法、系统、装置、电子设备及存储介质 | |
CN113395578A (zh) | 一种提取视频主题文本的方法、装置、设备及存储介质 | |
US11768871B2 (en) | Systems and methods for contextualizing computer vision generated tags using natural language processing | |
JP6787831B2 (ja) | 検索結果による学習が可能な対象検出装置、検出モデル生成装置、プログラム及び方法 | |
CN107656760A (zh) | 数据处理方法及装置、电子设备 | |
CN110210299A (zh) | 语音训练数据生成方法、装置、设备及可读存储介质 | |
CN111259257A (zh) | 一种信息展示方法、系统、装置、电子设备及存储介质 | |
CN110169055A (zh) | 一种生成镜头信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180202 |
|
RJ01 | Rejection of invention patent application after publication |