CN110363206B - 数据对象的聚类、数据处理及数据识别方法 - Google Patents

数据对象的聚类、数据处理及数据识别方法 Download PDF

Info

Publication number
CN110363206B
CN110363206B CN201810253522.0A CN201810253522A CN110363206B CN 110363206 B CN110363206 B CN 110363206B CN 201810253522 A CN201810253522 A CN 201810253522A CN 110363206 B CN110363206 B CN 110363206B
Authority
CN
China
Prior art keywords
data
characteristic information
data object
word
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810253522.0A
Other languages
English (en)
Other versions
CN110363206A (zh
Inventor
樊珈珮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810253522.0A priority Critical patent/CN110363206B/zh
Publication of CN110363206A publication Critical patent/CN110363206A/zh
Application granted granted Critical
Publication of CN110363206B publication Critical patent/CN110363206B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种数据对象的聚类、数据处理及数据识别方法。所述数据对象的聚类方法包括:确定数据对象中与数据对象属性对应的数据元素,获取所述数据对象的第一特征信息,所述第一特征信息根据所述数据元素的第二特征信息确定,根据所述第一特征信息对所述数据对象进行聚类处理。本申请能够准确地对数据对象进行聚类,提高了对数据对象进行聚类的准确性和效率。

Description

数据对象的聚类、数据处理及数据识别方法
技术领域
本申请涉及数据处理技术领域,特别是涉及一种数据对象的聚类、数据处理及数据识别方法。
背景技术
随着生活和生产的自动化程度的不断提高,在各方面的应用中,需要通过计算机等机器进行数据处理的数据对象的种类和数目也越来越多,比如,电子商城中的各商品、多媒体网站中的多媒体节目或社交网站中的用户发帖等。由于不同的数据对象可能具有不同的特征,因此在数据处理过程中,为了按照不同数据对象所具有的特征对数据对象进行管理或处理,需要按照数据对象所具有的特征,对数据对象进行种类划分,即对数据对象进行聚类。
现有技术中,通常可以事先针对数据对象确定多个种类,由用户或相关技术人员按照不同的种类对数据对象进行标记,从而将数据对象划分为不同的种类。但由于需要依赖用户或相关技术人员对数据对象的主观经验,对数据对象进行标记,难以满足对大量数据对象进行分类的需求,分类效率和准确性低下。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的数据对象的聚类、数据处理及数据识别方法。
本申请提供了一种数据对象的聚类方法,包括:
确定数据对象中与数据对象属性对应的数据元素;
获取所述数据对象的第一特征信息,所述第一特征信息根据所述数据元素的第二特征信息确定;
根据所述第一特征信息对所述数据对象进行聚类处理。
可选的,所述确定数据对象中与数据对象属性对应的数据元素包括:
识别所述数据对象对应的数据结构,所述数据结构由至少一种数据对象属性构成;
按照所述数据结构,确定所述数据对象中与所述数据对象属性对应的数据元素。
可选的,在所述确定数据对象中与数据对象属性对应的数据元素之前,所述方法还包括:
对所述数据对象进行分词;
所述按照所述数据结构,确定所述数据对象中与所述数据对象属性对应的数据元素包括:
按照所述数据结构,确定所述数据对象中与所述数据对象属性对应的至少一个分词,作为与所述数据对象属性对应的数据元素。
可选的,所述识别所述数据对象对应的数据结构包括:
采用数据结构识别模型识别所述数据对象对应的数据结构。
可选的,所述方法还包括:
根据标记有数据结构的数据对象样本生成所述数据结构识别模型。
可选的,所述获取所述数据对象的第一特征信息包括:
确定所述数据对象包括的数据元素对应的元素权重;
根据所述数据元素的元素权重和所述第二特征信息,确定所述数据对象的第一特征信息。
可选的,在所述获取所述数据对象的第一特征信息之前,所述方法还包括:
获取所述数据元素的第二特征信息。
可选的,所述数据元素包括至少一个分词,所述获取所述数据元素的第二特征信息包括:
确定所述至少一个分词的第三特征信息;
根据所述至少一个分词的第三特征信息,确定所述数据元素的第二特征信息。
可选的,所述根据所述至少一个分词的第三特征信息,确定所述数据元素的第二特征信息包括:
提取所述至少一个分词的第三特征信息中特征最强的第三特征信息,作为所述数据元素的第二特征信息。
可选的,所述第三特征信息包括分词对应的词向量;
所述提取所述至少一个分词的第三特征信息中特征最强的第三特征信息包括:
在所述至少一个分词对应的词向量中,提取各个维度的最大值构建新的词向量,作为所述数据元素的第二特征信息。
可选的,所述根据所述至少一个分词的第三特征信息,确定所述数据元素的第二特征信息包括:
对所述至少一个分词的第三特征信息进行均值处理,将均值作为所述数据元素的第二特征信息。
可选的,所述第三特征信息包括分词对应的词向量;
所述对所述至少一个分词的第三特征信息进行均值处理,将均值作为所述数据元素的第二特征信息包括:
确定所述至少一个分词对应的词向量的均值,作为所述数据元素的第二特征信息。
可选的,所述根据所述第一特征信息对所述数据对象进行聚类处理包括:
对所述第一特征信息进行k-means聚类处理,将同类的第一特征信息对应的数据对象划分至同类。
可选的,所述方法还包括:
针对划分至同类的数据对象,按照至少一种数据对象属性进行再次聚类处理。
可选的,所述针对划分至同类的数据对象,按照至少一种数据对象属性进行再次聚类处理包括:
以所述数据对象为顶点,以所述数据对象属性对应的数据元素为边,构建连通图;
提取所述连通图的封闭多边形,将所述封闭多边形对应的数据对象划分至同类。
本申请还提供了一种数据处理方法,包括:
获取对象标题;
确定所述对象标题中与对象属性对应的分词;
根据所述分词的词向量,确定所述对象标题的标题向量;
根据所述标题向量,识别所述对象标题是否属于预设类型数据。
本申请还提供了一种数据识别方法,包括:
获取网络数据;
确定所述网络数据中与数据对象属性对应的数据元素;
根据所述数据元素的第二特征信息,确定所述网络数据的第一特征信息;
根据所述网络数据的第一特征信息,识别所述网络数据是否归属于预设类型数据。
本申请还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前述的一个或多个的方法。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述的一个或多个的方法。
在本申请实施例中,由于数据元素为构成数据对象的组成部分,进而具有数据对象的部分特征,对应于数据对象所具有的数据对象属性,因此确定数据对象中与数据对象属性对应的数据元素,即可根据表征数据元素的特征的第二特征信息,准确地确定表征数据对象的特征的第一特征信息,进而能够在不需要人工参与的情况下,根据第一特征信息准确地对数据对象进行聚类,提高了对数据对象进行聚类的准确性和效率。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其它的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本申请一个实施例一的一种数据对象的聚类方法流程图;
图2示出了根据本申请一个实施例二的一种数据对象的聚类方法流程图;
图3示出了根据本申请一个实施例二的一种聚类结果示意图;
图4示出了根据本申请一个实施例二的另一种聚类结果示意图;
图5示出了根据本申请一个实施例三的一种数据处理方法流程图;
图6示出了根据本申请一个实施例四的一种数据识别方法流程图;
图7示出了根据本申请一个实施例的一种数据对象的聚类方法流程图;
图8示出了根据本申请一个实施例五的一种数据对象的聚类装置的结构框图;
图9示出了根据本申请一个实施例六的一种数据处理装置的结构框图;
图10示出了根据本申请一个实施例七的一种数据识别装置的结构框图;
图11示出了根据本申请一个实施例的一种示例性系统的结构框图。
具体实施方式
下面将参照附图更详细地描述本申请示例性实施例。虽然附图中显示了本申请示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
为了便于本领域技术人员深入理解本申请实施例,以下将首先介绍本申请实施例中所涉及的专业术语的定义。
数据对象指需要进行数据处理的对象,该数据对象可以由用户提交得到,或者,可以由机器(比如计算机等电子设备)自动生成。该数据对象可以包括字符串。比如,在电子商务应用中,数据对象可以包括购物网站中的商品的商品标题、商品简介或用户评价中的至少一个;在多媒体内容提供应用中,数据对象可以包括多媒体网站中多媒体节目的节目标题、节目摘要或节目简介中的至少一个;在社交通讯应用中,数据对象可以包括用户名称、用户群组名称、用户文章和用户回帖中的至少一个;在勘探测量应用中,数据对象可以包括各种测量数据。当然,在实际应用中,在不同方面的应用中,数据对象还可以包括其它种类的对象。
其中,为了清楚简洁,下述中仅以数据对象包括商品标题为例,对所提供的数据对象的聚类方法进行说明。
数据对象属性为数据对象所具有的特征所属的种类,可以根据数据对象或聚类方法的应用场景确定。该数据对象属性可以是事先设定的(比如由人工定义,并接收提交的对象数据属性),当然,也可以是对数据对象进行处理的过程中自动生成的。比如,以数据对象为商品标题为例,数据对象属性可以包括品牌、描述、品类和服务中的至少一个。其中,品牌可以包括商品的注册商标,描述可以包括针对商品外观、性能、用途、注意事项等至少一方面的说明,品类可以包括商品所属的类别,服务可以包括与交易商品有关的服务,比如包邮或优惠等。另外,在实际应用中,根据数据对象以及其应用场景的不同,数据对象属性还可以包括其它的属性,比如,在对数据进行风险识别的场景中,数据对象属性可以包括疑似风险或存在风险,或者,可以包括至少一种风险类型等。
数据元素为构成数据对象的组成部分,该数据元素可以包括所属的数据对象中的部分字符,从而具有数据对象的部分特征,即具有至少一个数据对象所具有的数据对象属性。数据元素可以作为上述数据对象属性的属性值,即与该数据对象属性对应。
数据对象所具有的数据属性的集合,即为该数据对象的数据结构,该数据结构可以由至少一种数据对象属性构成。当然,在实际应用中,数据结构还可以包括数据对象属性在所属数据对象中的次序。
例如,当数据对象为购物网站中的标题时,可以由人工事先对商品标题可能具有的数据对象属性进行定义,得到“服务”、“品牌”、“品类”和“描述”等四个数据对象属性。对于商品标题“包邮A品牌水枪”,该商品标题的数据结构即为“服务”+“品牌”+“品类”,其中包括服务、品牌和品类三个数据对象属性,且数据对象属性“服务”对应的数据元素为“包邮”,数据对象属性“品牌”对应的数据元素为“A品牌”,数据对象属性“品类”对应的数据元素为“水枪”。或者,当数据对象为人名时,人名可以的数据结构为“姓”+“名”,或,“名”+“姓”,其中,包括两个数据对象属性分别为“姓”和“名”,且对于不同的国家和地区,该两个数据对象属性在数据对象中的顺序不一致。对于中国地区的人名“张三”,数据对象属性“姓”对应的数据元素为“张”,数据对象属性“名”对应的数据元素为“三”
第一特征信息为数据对象的特征信息,能够表征数据对象所具有的特征。
第二特征信息为数据元素的特征信息,能够表征数据元素所具有的特征。
聚类处理,指将多个数据对象的集合,按照数据对象之间的相似性,将数据对象划分为不同种类的子集合,子集合中的数据对象可以具有至少一个相同或相似的特征,或者,与其它任一子集合中的数据对象不具有任何相同或相似的特征。
电子设备可以包括手机、智能手表、VR(Virtual Reality,虚拟现实)设备、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3,)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。该电子设备能够与远程服务器进行交互,获取客户端、插件、数据对象的聚类服务,且包括下图8-11的任一装置,实施图1-2和图5-6中的任一方式,从而对数据对象进行聚类处理。
客户端可以包括至少一个应用程序。该客户端能够运行在电子设备中,从而实现本申请实施例提供的数据对象的聚类方法。
插件可以包括在运行于电子设备的应用程序中,从而实现本申请实施例提供的数据对象的聚类方法。
本申请实施例可以应用于对数据对象进行聚类处理的场景。由于现有技术中,通过人工按照事先确定的种类对数据对象进行标记的方式,容易受到人工经验的限制,对数据对象进行分类的效率和准确性低下,因此,为改善这一状况,本申请实施例提供了一种数据对象的聚类方法。由于数据对象可以包括数据元素,且数据元素能够说明数据对象所具有的至少一个特征,从而对应于该数据对象所具有的数据对象属性,因此,可以确定数据对象中与数据对象属性对应的数据元素,根据数据元素的第二特征信息,确定数据对象的第一特征信息,从而充分根据数据对象所包括的数据元素所具有的特征,精准地确定数据对象所具有的特征,之后,按照数据对象所具有的第一特征信息对数据对进行聚类,从即能够准确地根据数据对象所具有的特征,将具有相同或相似特征的数据对象划分至同一类。在上述聚类处理过程中,能够充分根据数据对象所包括的数据元素所具有的特征准确确定数据对象所具有的特征,也不需要人工参与,提高了对数据对象进行分类的准确性和效率。
本申请实施例可以实现为客户端或插件,电子设备可以从远程服务器获取并安装该客户端或插件,从而通过该客户端或插件来实施本申请实施例所提供的数据对象的聚类方法。当然,本申请实施例也可以以地址定位软件的形式部署在远程服务器上,电子设备可以通过访问该远程服务器从而获取数据对象的聚类服务。
实施例一
参照图1,示出了根据本申请一个实施例的一种数据对象的聚类方法流程图,具体步骤包括:
步骤101,确定数据对象中与数据对象属性对应的数据元素。
由于数据元素为构成数据对象的组成部分,且数据元素具有数据对象的部分特征,从而对应于数据对象所具有的某个数据对象属性,因此,为了便于后续准确确定数据对象所具有的特征,进而确保准确高效地对数据对象进行聚类处理,可以确定数据对象中与数据对象属性对应的数据元素。
可以通过对数据对象进行语法和/语义识别,从而确定得到数据对象中包括的数据元素。但由于数据对象可能并不具有语法结构,且语义与可能与一般情况下的自然语言有所差别,比如商品标题可能由多个名词、形容词和动词等堆砌而成,因此,在本申请的另一可选实施例中,为了充分保留各数据对象属性对应的有效信息,确保能够确定数据对象中包括的数据元素,即提高识别数据对象中数据元素的准确性和可靠性,可以通过识别数据对象的数据结构,从而根据该数据结构,确定数据对象所具有的数据对象属性、以及对应与各数据对象属性的数据元素。
在本申请实施例中,可选的,为了自动提取数据对象所具有的数据对象属性,减少由人工事先设定数据对象属性并根据设定的数据对象属性对数据对象进行识别而导致的识别准确性和效率较低的问题,提高识别数据结构的准确性和效率,进而提高确定数据对象中包括的数据元素的准确性和效率,可以通过事先确定的数据结构识别模型对数据对象进行识别,从而确定该数据对象的数据结构。
数据结构模型可以包括CRF(Conditional Random Field,条件随机场)模型。该数据结构模型可以接收输入的数据对象,并输出该数据对象所包括的数据结构,包括基于数据对象属性对数据对象进行标记的结果、或者,对数据对象进行拆分得到的对应不同数据对象属性的数据元素。
其中,CRF模型具有很强的推理能力,能够使用复杂、有重叠性和非独立的特征进行训练和推理,能够充分地利用上下文信息作为特征,还可以任意地添加其他外部特征,使得模型能够获取到非常丰富的信息,且能够避免标记偏置问题,从而达到较好的识别效果。
可以事先获取数据对象,并基于数据对象属性对数据对象进行标记(比如人工标记),然后将标记后的数据对象作为训练样本,对数据结构模型进行训练。
当然,在实际应用中,数据结构模型还可以包括其它的机器模型。比如,可以包括深度学习模型。深度学习模型能够拟合任意复杂的函数,具有泛化能力,灵活性较高,能够通过模型的深度从而进行更加灵活精确的识别。
其中,与深度学习模型相比,CRF模型需要的训练样本较少,可以减少收集训练样本所需的成本。
步骤102,获取所述数据对象的第一特征信息,所述第一特征信息根据所述数据元素的第二特征信息确定。
由于数据对象包括数据元素,且数据元素可能具有数据对象的部分特征,从而对应于数据对象的数据对象属性,因此,为了能够充分根据数据对象所包括的数据元素所具有的特征准确确定数据对象所具有的特征,不需要人工参与,提高对数据对象进行聚类的准确性和效率,可以根据该数据对象所包括的数据元素的第二特征信息,确定数据对象的第一特征信息。
在本申请实施例中,可选的,为了便于将文本类型的数据对象转换为可量化的数据,从而实现自动根据数据对象进行聚类,减少对人工的依赖,提高对数据对象进行分类的效率和准确性,可以通过word2vec(word to vector)等文本向量化算法或模型,对数据对象进行向量化处理,第二特征信息即可以为数据元素对应的词向量,相应的,第一特征信息可以为由数据对象所包括的数据元素对应的词向量计算得到的数据(比如所有数据元素对应的词向量的总和或均值等),即标题向量。
可以创建构建多个维度(比如预先收集数据对象,数据对象包括多个字符,对字符进行排序,构建对应的多个维度,或者按照实际需求构建多个维度),然后确定各数据对象在多个维度下的维度特征,然后根据有序的多个维度特征,生成数据对象中的数据元素的词向量。
维度特征可以包括字符的id特征(标识)或tf-idf特征(term frequency–inversedocument frequency,词频-逆向文件频率)。其中,id特征为字符在构建的各维度下的有无,tf-idf特征为字符在各维度下的tf-idf值。
当然,在实际应用中,第一特征信息或第二特征信息还可以为其它形式的数据,比如字符或数值等。
步骤103,根据所述第一特征信息对所述数据对象进行聚类处理。
由于第一特征信息能够准确地说明数据对象所具有的特征,因而可以根据数据对象的第一特征信息,对数据对象进行聚类处理,从而将具有相同或相似特征的数据对象划分至同一类。
可以通过k-means(即k均值)算法或层次聚类算法等聚类算法,根据第一特征信息对数据对象进行聚类处理。其中,k-means算法能够随机地选择预设数目(比如k个数据对象,每个数据对象初始地代表了一个类的平均值或中心,即选择k个初始质心;对剩余的每个数据对象,根据其与各类中心的距离,将它赋给最近的类;然后重新计算每个类的平均值。这个过程不断重复,直到准则函数收敛,质心不发生明显的变化。k-means算法的原理简单,易于实现,时间复杂度低,能够提高对数据对象进行聚类的效率。层次聚类算法能够先计算数据对象之间的距离,每次将距离最近的数据对象合并至一个类,然后计算类与类之间的距离,将距离最近的类合并为一个大类,直至不存在合并条件的类。层次聚类算法不需要事先设定聚类的数目,聚类规则容易定义。
当然,在实际应用中,还可以通过其它方式根据第一特征信息对数据对象进行聚类处理。
在本申请实施例中,由于数据元素为构成数据对象的组成部分,进而具有数据对象的部分特征,对应于数据对象所具有的数据对象属性,因此确定数据对象中与数据对象属性对应的数据元素,即可根据表征数据元素的特征的第二特征信息,准确地确定表征数据对象的特征的第一特征信息,进而能够在不需要人工参与的情况下,根据第一特征信息准确地对数据对象进行聚类,提高了对数据对象进行聚类的准确性和效率。
实施例二
参照图2,示出了根据本申请一个实施例的一种数据对象的聚类方法流程图,具体步骤包括:
步骤201,获取数据对象。
为了确保后续对数据对象进行聚类处理的可靠性,可以获取数据对象。
可以通过接收用户提交、从本地获取、或者从数据系统获取等至少一种方式,获取数据对象。
数据系统可以包括服务器或服务器集群。
以数据对象为商品标题为例,可以从至少一个客户端获取商家提交的商品标题,或者,从电子商城对应的服务器中获取商品标题。
例如,从购物网站的某个商品展示网页中获取得到的商品标题为“<title>包邮琥珀投影二次元动漫机器人
Figure BDA0001608406650000121
”。
步骤202,对所述数据对象进行预处理。
由于获取到的数据对象的可能不是纯文本格式,也可能包括非文本类型的或无意义的字符或符号,比如,数据对象可以是HTML(HyperText Markup Language,超级文本标记语言)格式的数据,或者,该数据对象中包括表情符、无意义的字符画,因此,为了便于后续对数据对象进行向量化和聚类处理,需要对数据对象进行预处理。
可以对数据对象进行格式转换,从而将数据对象转换为纯文本格式的数据;可以按照纯文本格式,对数据对象进行过滤,从而滤除非文本类型的字符;可以对数据对象语法和/或语义分析,或基于事先确定的无意义字符语料库与数据对象包括的字符进行过滤,从而确定数据对象中的无意义字符,并将确定的字符进行删除。
其中,可以事先收集数据对象中无意义的字符,并存储至无意义字符语料库。
例如,获取到的商品标题为:“<title>包邮琥珀投影二次元动漫机器人
Figure BDA0001608406650000122
”,其中,“<title>”为HTML中的标签,/>
Figure BDA0001608406650000123
为表情符号,因此,可以对商品标题进行预处理,删除“<title>”和/>
Figure BDA0001608406650000124
得到预处理之后的商品标题为“包邮琥珀投影二次元动漫机器人”。
在本申请的另一可选实施例中,可能获取到的数据对象就是纯文本格式的数据,或者不包括无意义的字符,也就不需要再对数据对象进行预处理,因此可以不执行步骤202,即该步骤为可选的步骤。
步骤203,对所述数据对象进行分词。
由于商品标题等数据对象可以包括一个连续的字符串,该字符串通常为自然语言,不便于机器后续对数据对象进行文本向量化或聚类等处理,因此,为了确保后续能够通过机器自动对数据对象进行聚类处理,可以对数据对象进行分词。
可以根据事先确定的分词语料库,对数据对象进行分词。
其中,可以对数据对象中包括的分词进行统计,从而得到分词语料库。
当然,在实际应用中,也可以在其它时机通过其它方式,对数据对象进行分词,比如,以商品标题为例,在接收用户提交的商品标题时,即可以接收用户的分词操作,从根据该分词操作对所提交的商品标题进行分词;或者,可以在向用户提供的商品标题提交入口中设置多个针对分词的子入口,通过子入口接收到的即为一个分词,相应的通过商品标题提交入口接收到的即为分词之后的商品标题;或者,提示用户提交商品标题时,在两个连续的分词之间输入分词符号,从而能够将两个分词符号之间的字符作为一个分词,即根据分词符号对商品标题进行分词。
分词操作为对商品标题等数据对象进行分词的操作,可以由用户触发。
分词符号为将相邻的像个分词进行隔离的符号,该分词符号可以由电子设备事先确定,比如接收指定的符号作为分词符号。
例如,对商品标题“包邮琥珀投影二次元动漫机器人”进行分词后得到“包邮琥珀投影二次元动漫机器人”。
步骤204,确定所述数据对象中与数据对象属性对应的数据元素。
其中,对数据对象进行分词之后,每个分词即可作为一个数据元素。
在本申请实施例中,可选的,为了能够从可能不具有正常的语法结构或语义与一般情况下的自然语言有所差别的数据对象中,确定其所包括的数据元素,从而提高确定数据元素的准确性和可靠性,可以识别所述数据对象对应的数据结构,所述数据结构由至少一种数据对象属性构成,按照所述数据结构,确定所述数据对象中与所述数据对象属性对应的数据元素。
可以将数据对象展示给用户,接收用户对数据对象的标记操作,根据该标记操作确定数据对象的数据结构。
其中,所展示的数据对象可以为分词后的数据对象,当然,也可以是未进行分词的数据对象。
标记操作为对数据对象的数据结构标记的操作。
在本申请实施例中,可选的,为了自动提取数据对象所具有的数据对象属性,减少由人工事先设定数据对象属性并根据设定的数据对象属性对数据对象进行识别而导致的识别准确性和效率较低的问题,提高识别数据结构的准确性和效率,进而提高确定数据对象中包括的数据元素的准确性和效率,可以采用数据结构识别模型识别所述数据对象对应的数据结构。
数据结构识别模型可以通过事先获取得到,比如接收提交的模型、或者事先通过数据对象进行训练得到。
其中,通过数据结构识别模型识别数据对象对应的数据结构的方式,可以参见前述中的相关描述,此处不再一一赘述。
在本申请实施例中,为了提高数据结构识别模型的准确性和可靠性,进而提高识别数据对象对应的数据结构的准确性和可靠性,可以根据标记有数据结构的数据对象样本生成所述数据结构识别模型。
可以事先获取多个数据对象,通过人工对数据对象进行标记,确定数据对象的数据结构,包括确定数据对象所包括的数据对象属性以及数据对象属性所对应的数据元素,将标记之后的数据对象作为样本,以数据对象包括的数据元素(即分词)、数据元素所对应的数据对象属性、数据元素在数据对象中的位置、数据元素在数据对象中的词频作为样本特征,对数据结构识别模型进行训练。
以数据对象为商品标题为例,若商品标题为“包邮A品牌新款加菲猫沙滩背包水枪玩具抽拉式高压戏水射程远水枪”,按照该商品标题所具有的数据对象属性对该商品标题进行标记,可得“品牌:A品牌,描述:新款加菲猫沙滩背包抽拉式高压戏水射程远,品类:水枪玩具,服务:包邮”。
在本申请实施例中,可选的,由于在按照本申请所提供的数据对象的聚类方法对数据对象进行聚类处理时,可能获取到的数据对象的数目很多,比如百万甚至更多,因此,可以不事先收集样本,而是在获取到的数据对象中获取特定比例或数目的数据对象进行标记以作为样本,对数据结构识别模型进行训练,通过训练得到地数据结构识别模型对剩余的或所有的数据对象进行聚类处理。
其中,特定比例或数据可以通过事先确定,比如接收提交的数值确定等。
在本申请实施例中,可选的,由前述中可知,可以对数据对象进行分词,因此,为了能够准确确定数据对象中与数据对象属性对应的数据元素,可以按照所述数据结构,确定所述数据对象中与所述数据对象属性对应的至少一个分词,作为与所述数据对象属性对应的数据元素。
以数据对象为商品标题为例,若分词后的商品标题为“包邮琥珀投影二次元动漫机器人”,经过识别确定所包括的数据结构为“品牌:琥珀,描述:投影二次元动漫,品类:机器人,服务:包邮”,因此可以确定该商品对象具有“品牌”、“描述”、“品类”和“服务”等四种数据对象属性,其中,与“品牌”对应的分词(即与“品牌”对应的数据元素)为“琥珀”,与“描述”对应的分词(即与“描述”对应的数据元素)为“投影二次元动漫”,与“品类”对应的分词(即与“品类”对应的数据元素)为“机器人”,与“服务”对应的分词(即与“服务”对应的数据元素)为“包邮”。
步骤205,获取所述数据元素的第二特征信息。
由于数据元素为数据对象中的一部分,因此,为了便于后续准确确定数据对象所具有的特征,进而提高对数据对象进行聚类处理的准确性,可以获取数据元素的第二特征信息。
在本申请实施例中,可选的,所述数据元素包括至少一个分词,各分词可能会从至少一个方面说明数据对象所具有的特征,因此,为了使获取的到得到第二特征信息能够准确说明数据元素所对应的数据对象属性,从而便于后续准确根据数据对象的数据对象属性对数据对象进行聚类处理,可以确定所述至少一个分词的第三特征信息,根据所述至少一个分词的第三特征信息,确定所述数据元素的第二特征信息。
可以确定至少一个各分词与所对应的数据对象属性的符合程度,从而将最能说明该特征的第三特征信息作为该数据元素的第二特征信息;或者,根据各分词的第三特征信息,将各分词的第三特征信息的中值或均值确定为第二特征信息。
其中,第三特征信息可以包括分词对应的词向量。
在本申请实施例中,可选的,为了能够使数据元素的第二特征信息能够更加突出显著的表示该数据亚元素所对应的数据对象属性,增大不同数据对象在该数据对象属性的特征差异,进而使后续根据该数据元素对应的数据对象属性对数据对象进行聚类处理时更容易,即提高对数据对象进行聚类处理的效率,可以提取所述至少一个分词的第三特征信息中特征最强的第三特征信息,作为所述数据元素的第二特征信息。
若第三特征信息为数字或向量等能够直接区分大小的数据,可以对第三特征信息进行排序,从而将其中最大或最小的第三特征信息作为特征最强的第三特征信息,其中,当第三特征信息为向量时,可以在分别各列(或行)中,选择最大的值,重新构建向量作为特征最强的第三特征信息;若第三特征信息难以直接区分大小的数据,将第三特征信息转换(比如映射)为数字或向量,然后按照上述方式提取特征最强的第三特征信息。当然,在实际应用中,还可以通过其它提取特征最强的第三特征信息,比如,可以将至少一个分词以及对应的数据对象属性展示给用户,从而在接收到用户针对任一分词的选择操作时,提取该分词的第二特征信作为特征最强的第三特征信息;或者,可以将至少一个分词、各分词的词向量以及对应的数据对象属性提供给深度学习模型等机器模型(记为第一机器模型),将输出的词向量作为特征最强的第三特征信息。
在本申请实施例中,可选的,由前述可知,所述第三特征信息包括分词对应的词向量,因此,为了提高准确根据各分词的词向量,确定数据元素的第二特征信息,即提高确定第二特征信息的准确性和可靠性,可以在所述至少一个分词对应的词向量中,提取各个维度的最大值构建新的词向量,作为所述数据元素的第二特征信息。
例如,在商品标题中“包邮琥珀投影二次元动漫机器人”,“描述”对应的分词包括“投影二次元动漫”,其中,“投影”对应的词向量为[1,6,7],“二次元”对应的词向量为[2,5,8],“动漫”对应的词向量为[3,4,9],且在各词向量,每列分别代表一个维度。在上述3个分词对应的词向量中,第一列(即第一维度)的最大值为词向量3中“3”,第二列的最大值为词向量1中的“6”,第三列的最大值为词向量3中的“9”,因此,提取上述各列最大值,重新构建词向量为[3,6,9],即为数据元素的第二特征信息。
在本申请实施例中,可选的,为了使数据元素的第二特征信息能够综地、尽可能准确地符合该数据元素所对应的数据对象属性,进而更加符合该数据元素对应的数据对象属性,提高后续确定第一特征信息的准确性,以及提高对数据对象进行聚类处理的准确性,可以对所述至少一个分词的第三特征信息进行均值处理,将均值作为所述数据元素的第二特征信息。
若第三特征信息为数字或向量等能够直接区分大小的数据,可以对第三特征信息进行均值计算,将得到的数据确定为第二特征信息,其中,当第三特征信息为向量时,可以在分别各列(或行)中,计算平均值,重新构建向量作为第二特征信息;若第三特征信息难以直接区分大小的数据,将第二特征信息转换(比如映射)为数字或向量,然后按照上述方式确定第二特征信息。当然,在实际应用中,还可以通过其它确定第二特征信息,比如,可以将至少一个分词以及对应的数据对象属性展示给用户,从而在接收到用户针对任一分词的选择操作时,提取该分词的第二特征信作为特征最强的第三特征信息;或者,可以将至少一个分词、各分词的词向量以及对应的数据对象属性提供给深度学习模型等机器模型(记为第二机器模型),将输出的词向量作为第二特征信息。
在本申请实施例中,可选的,由前述可知,所述第三特征信息包括分词对应的词向量,因此,为了提高准确根据各分词的词向量,确定数据元素的第二特征信息,即提高确定第二特征信息的准确性和可靠性,可以确定所述至少一个分词对应的词向量的均值,作为所述数据元素的第二特征信息。
例如,在商品标题中“包邮琥珀投影二次元动漫机器人”,“描述”对应的分词包括“投影二次元动漫”,其中,“投影”对应的词向量为[1,6,7],“二次元”对应的词向量为[2,5,8],“动漫”对应的词向量为[3,4,9],且在各词向量,每列分别代表一个维度。在上述3个分词对应的词向量中,第一列(即第一维度)平均值为“2”,第二列的平均值为“5”,第三列的平均值为“8”,因此,提取上述各列最大值,重新构建词向量为[2,5,8],即为数据元素的第二特征信息。
例如,对于商品标题“包邮琥珀投影二次元动漫机器人”,经过上述步骤确定数据元素的第二特征信息,最终可得,“品牌”包括的数据元素的第二特征信息(即数据对象属性“品牌”对应的向量)为[1,3,2]、“描述”包括的数据元素的第二特征信息(即数据对象属性“描述”对应的向量)为[2,5,8]、“品类”包括的数据元素的第二特征信息(即数据对象属性“品类”对应的向量)[4,1,7]和“服务”包括的数据元素的第二特征信息(即数据对象属性“服务”对应的向量)为[7,6,9]。
在本步骤中,能够在某个数据对象属性对应于多个数据元素时,确定得到一个第二特征信息,则所得到的第二特征信息也即是与该数据对象属性对应的。因此,在上述的步骤中,能够确定数据对象包括的各数据对象属性对应的第二特征信息,因而可以通过下述步骤,根据确定的第二特征信息,确定该数据对象的第一特征信息,并对数据对象进行聚类处理。
步骤206,获取所述数据对象的第一特征信息。
在本申请实施例中,可选的,由于不同的数据对象可能具有不同的数据结构,即所包括的数据对象属性可能不同,各数据对象属性的重要性也可能会有所差异,从而能够影响到后续对数据对象的聚类结果,因此,为了提高对数据对象进行聚类的准确性,可以确定所述数据对象包括的数据元素对应的元素权重,根据所述数据元素的元素权重和所述第二特征信息,确定所述数据对象的第一特征信息。
元素权重为数据元素的第二特征信息在第一特征信息中所占的比重。
可以对待聚类的数据对象中的数据元素进行统计,将所有数据对象中该数据元素的数目,与所有数据对象中所有数据元素的数目之间的比值,确定为该数据元素的元素权重;或者,可以对待聚类的数据对象的数据元素按照所对应的数据对象属性进行统计,将属于该数据对象属性的数据元素的数目,与所有数据对象中所有数据元素的数目之间的比值,确定为对应于该数据对象属性的权重,也即是,对应于归属于该数据对象属性的数据元素的元素权重;或者,可以通过接收针对各数据元素提交的权重作为各数据元素的元素权重,或者,可以通过接收针对数据对象属性的权重,将该权重作为归属于该数据对象属性的数据元素的元素权重。当然,在实际应用中,也可以通过其它方式来确定元素权重,比如根据数据元素中包括的字符的tf-idf值确定等。
可以将第二特征信息与对应的元素权重相乘之后进行加和,之后除以数据元素所具有的数据对象属性的数目,所计算得到结果即为该数据对象的第一特征信息。
例如,“品牌”包括的数据元素所对应的元素权重为0.1,“描述”包括的数据元素所对应的元素权重为0.2,“品类”包括的数据元素所对应的元素权重为0.6,“服务”包括的数据元素所对应的元素权重为0.1。对于商品标题“包邮A品牌新款加菲猫沙滩水枪玩具”,可以计算得到商品标题的第一特征信息(即与商品标题对应的向量)为{[1,3,2]*0.1+[2,5,8]*0.2+[4,1,7]*0.6+[7,6,9]*0.1}/4=[0.9,0.625,1.725]。
当然,在实际应用中,也可以通过其它方式来确定数据对象的第一特征信息,比如将前述中确定的各第二特征信息的总和、中值、平均值等中的至少一个,作为该数据对象的第一特征信息。
步骤207,根据所述第一特征信息对所述数据对象进行聚类处理。
在本申请实施例中,可选的,由于k-means算法具有原理简单,易于实现,时间复杂度低等优点,因此,为了提高对数据对象进行聚类处理的效率,可以对所述第一特征信息进行k-means聚类处理,将同类的第一特征信息对应的数据对象划分至同类。
在进行聚类处理之后,处于同一类的点所表示的数据对象即为同一类的数据对象,比如,以数据对象为商品标题为例,处于同一类的点所对应的商品标题即为同一类的商品标题,相应的,同一类商品标题对应的商品即为同一类的商品。
在本申请实施例中,可选的,为了提高聚类的准确性,可以针对划分至同类的数据对象,按照至少一种数据对象属性进行再次聚类处理。
其中,按照至少一种数据对象属性进行再次聚类处理所采用的聚类方法,可以与亲属中对第一特征信息进行聚类处理所采用地聚类方法相同,此处不再一一赘述。
在本申请实施例中,可选的,为了提高聚类的准确性,同时直观地表示聚类结果,可以以所述数据对象为顶点,以所述数据对象属性对应的数据元素为边,构建连通图,提取所述连通图的封闭多边形,将所述封闭多边形对应的数据对象划分至同类。
其中,数据对象属性可以包括前述中的任一种数据对象属性。对于任意顶点,若同一聚类结果中存在另一顶点,与该顶点具有相同的数据元素(比如前述中确定对应于品类的同一分词),则将该两个顶点连接,所得到的图结构即为该连通图。
可以将图中所有的顶点用最少的边将其连接,其中所连通的子图中的数据对象即为相似的数据对象,也即是,同一类的数据对象。
例如,按照前述方式,基于等多个商品标题的第一特征信息,对该多个商品标题进行聚类之后,得到与“包邮琥珀投影二次元动漫机器人”处于同一类的聚类结果如图3所示,如下表1所示的10个商品标题被分为同一类,其中,图3中个点分别表示如下表1中对应id的商品标题,下表1中商品标题id可以为商品标题的序号,商品标题即为商品的标题,品类词即为商品标题中对应于“品类”这一数据对象属性的分词。由表1可知,聚类之后,表1中的10个商品标题被聚为同一类,但实际上,商品标题id为9和10的商品的品类为“机器人”,与前8个商品标题所表示的商品并不属于同一品类,因此,为了提高聚类的准确性,可以根据品类,对该10个商品标题再次进行聚类。以各商品标题为点,以共同拥有同一品类为边,若任一两个标题中包括相同的品类词,即确定两个商品标题对应的点之间存在一条边,最终得到连通图如图4所示。由图4可知,对应于商品标题9和10的两个点构成一个子图,而另外8个商品标题所对应的点构成另一子图,即可以确定商品标题9和10,与商品标题1-8属于同一品类,相应的,商品标题9和10对应的商品,亦与商品标题1-8对应的商品不是同一品类的商品。
表1
Figure BDA0001608406650000211
在本申请实施例中,还可以通过其它方式来构建连通图,比如,以数据对象为顶点,以数据元素的相似程度或者数据对象的相似程度来构造边,包括确定该两个顶点对应的数据对象中数据元素的相似程度或数据对象的相似程度,并与预设相似度进行比较,若大于该预设相似度,则确定将对应的两个顶点连接,否则不连接。
其中,数据元素相似度为对应于同一数据对象属性的数据元素的相似程度,数据对象的相似程度为数据对象的文本的相似程度。
预设相似度可以通过事先确定得到,比如接收提交的数值确定。
在本申请实施例中,可选的,为了便于相关技术人员对聚类后的数据对象进行后续处理,比如对数据对象进行分析或者进一步分类,可以将聚类结果,包括至少一类的数据对象进行展示。
在本申请实施例中,首先,由于数据元素为构成数据对象的组成部分,进而具有数据对象的部分特征,对应于数据对象所具有的数据对象属性,因此确定数据对象中与数据对象属性对应的数据元素,即可根据表征数据元素的特征的第二特征信息,准确地确定表征数据对象的特征的第一特征信息,进而能够在不需要人工参与的情况下,根据第一特征信息准确地对数据对象进行聚类,提高了对数据对象进行聚类的准确性和效率。
其次,能够识别数据对象中的数据结构,根据数据结构确定数据对象中与数据对象属性对应的数据元素,确保了能够在数据对象不具有正常的语法结构或语义与一般情况下的自然语言有所差别的情况下,准确地确定数据对象对应于数据对象属性的数据元素,提高了确定数据元素的准确性和可可靠性。
另外,能够通过训练的数据结构识别模型,识别数据对象对应的数据结构,从而确保了能够自动提取数据对象所具有的数据对象属性,减少由人工事先设定数据对象属性并根据设定的数据对象属性对数据对象进行识别而导致的识别准确性和效率较低的问题,提高识别数据结构的准确性和效率,进而提高确定数据对象中包括的数据元素的准确性和效率。
另外,若数据元素包括分词,可以根据至少一个分词的第三特征信息,确定数据元素的第二特征信息,包括对第三特征信息进行均值处理或选择出特征最强的第三特征信息,确保了使获取的到得到第二特征信息能够准确说明数据元素所对应的数据对象属性,从而便于后续准确根据数据对象的数据对象属性对数据对象进行聚类处理,即能够通过提高第二特征信息的准确性,提高对数据对象进行聚类的准确性。
另外,能够对聚类结果进行再次聚类,包括以数据对象为顶点、以数据对象属性对应的数据元素为边构建连通图,并提取连通图内封闭多边形所对应的数据对象作为一类,即通过连通图的形式直观地表示聚类结果,进一步提高了对数据进行聚类的准确性。
实施例三
参照图5,示出了根据本申请一个实施例的一种数据处理方法流程图,具体步骤包括:
步骤501,获取对象标题。
由于对象标题能够说明对象所具有的特点,而在对对象进行管理等操作的过程中,需要根据对象所具有的特点,对对象进行分类管理,或者,从多个对象中识别出具有特定特点或和属性的对象,因此,为了便于后续对对象标题或对象进行分类识别,可以获取对象标题。
对象标题为对象标题,该对象标题可以包括前述中的数据对象。比如,对象标题可以包括商品标题,相应的,对象即为商品;或者,对象可以包括人名或证件号码,相应的,对象即为人或证件;或者,对象标题可以包括文章标题,相应的,对象即为文章。当然,在实际应用中,对象标题也可以包括其它的文本信息。
可以通过接收用户提交、或者,从存储有对象标题的数据服务器获取得到对象标题。比如,当对象标题包括商品标题时,即可以从购物网站对应的服务器中获取商品标题。
步骤502,确定所述对象标题中与对象属性对应的分词。
分词为构成对象标题的组成部分,从而可以说明对象的部分特点,也即是,对象标题通过多个分词的集合,不同的分词可以对应于不同的对象属性,从而来说明对象不同方面的特点,因此,为了后续准确确定对象的特点,从而对准确地对对象标题进行分类识别,可以确定对象标题中与对象属性对应的分词。
其中,可以识别对象标题的数据结构,并根据该数据结构确定对象标题中与对象属性对应的分词。且识别对象标题的数据结构,并根据该数据结构确定对象标题中与对象属性对应的分词的方式,可以与前述中识别数据对象对应的数据结构,按照数据结构,确定数据对象中与数据对象属性对应的数据元素的方式相同,此处不再一一赘述。
步骤503,根据所述分词的词向量,确定所述对象标题的标题向量。
由前述可知,对象标题通过多个分词的集合,来说明对象不同方面的特点,但该多个分词之间可能关联性较小,即各分词仅是单一地从某个方面说明对象的特点,所以为了对对象标题包括的多个分词进行整合,以概括地准确地说明对象所具有的特点,从而确保能够根据对象标题,准确地对对象标题或对象进行识别分类,即提高对对象标题进行分类识别的准确性,可以根据分词的词向量,确定对象标题的标题向量。
其中,根据分词的词向量确定对象标题的标题向量的方式,可以与前述中根据数据元素的第二特征信息,确定商品的第一特征信息的方式相同,此处不再一一赘述。
步骤504,根据所述标题向量,识别所述对象标题是否属于预设类型数据。
为了对具有特定特点的对象或对象标题进行管理等操作,可以根据标题向量,来识别对象标题是否属于预设类型数据。
预设类型数据可以通过事先根据对象标题或对象来确定,比如,当对象标题包括商品标题时,预设类型数据可以为特定品类的商品的商品标题。
可以按照标题向量,对对象标题进行聚类处理,将聚类结果提供给用户,以由用户对聚类得到的每一类进行识别,当接收到用户将聚类结果中的至少一类确定为预设类型数据的反馈消息时,确定该至少一类中包括的对象标题属于预设类型数据。或者,可以事先获取属于预设类型数据的对象标题作为样本,将该样本与待识别的对象标题进行聚类处理,确定聚类结果中与该样本处于同一类中的对象标题属于该预设类型数据。
其中,可以通过接收用户针对预设类型数据提交的对象标题,从而获取得到属于该预设类型数据的对象标题;或者,可以向用户展示多个对象标题,接收用户对各对象标题的标记操作,将用户标记为预设类型数据的对象标题确定为属于该预设类型数据的对象标题;或者,若存储有已识别的对象标题,可以从已识别的对象标题中,获取属于预设数据类型的对象标题。
例如,以对象标题为商品标题为例,某次聚类处理的10个商品标题如上表1所示,其中,商品标题8,“[转卖]拉卡拉智能手环运动计步器放水支付刷公交地铁安卓苹果”为事先确定的属于预设类型数据的对商品标题(即品类包括手环),在对上述10个商品标题进行聚类处理之后,商品标题1-8被分至同一类,商品标题9-10为分至同一类,则可以确定商品标题1-7均属于预设类型数据。
另外,由于上述对对象标题进行识别的过程不需要人工参与,也提高了对对象标题进行处理的效率。
在本申请实施例中,由于对象标题由分词构成,不同的分词对应不同的对象数据,从而从说明对象在不同方面的特点,因此,可以获取对象标题,确定对象标题中与对象属性对应的分词,根据分词的词向量确定对象标题的标题向量,该标题向量既能够概括且准确地说明对象所具有的特点,因而根据标题的标题向量,即能够对准确地对标题进行分类识别,得到属于预设类型数据的标题向量,从而便于对对象标题或对象进行管理等操作,提高了对标题进行分类识别的准确性。
实施例四
参照图6,示出了根据本申请一个实施例的一种数据识别方法流程图,具体步骤包括:
步骤601,获取网络数据。
为了便于后续对网络数据进行识别,以便于对不具有不同特点的网络数据进行管理等操作,比如确定网络数据是否存在风险并对可能存在风险的网络数据进行处理,可以获取网络数据。
其中,网络数据即可作为前述中的数据对象。该网络数据可以包括URL(UniformResource Locator,统一资源定位符)等访问地址,或者可以包括网络或网页中的程序代码,当然,在实际应用中,网络数据还可以包括其它的数据。
例如,获取到的网络数据为“www.123.com/img/123_85bba3887.svg”。
步骤602,确定所述网络数据中与数据对象属性对应的数据元素。
由于数据元素为构成网络数据的组成部分,且数据元素具有网络数据的部分特征,从而对应于网络数据所具有的某个数据对象属性,因此,为了便于后续准确确定网络数据所具有的特征,进而确保后续准确高效地对网络数据进行识别,可以确定网络数据中与数据对象属性对应的数据元素。
其中,确定所述网络数据中与数据对象属性对应的数据元素的方式,可以与前述中确定数据对象中与数据对象属性对应的数据元素的方式相同,此处不再一一赘述。
在本申请实施例中,可选的,数据对象属性可以包括疑似风险或存在风险,或者,可以包括至少一种风险类型。
例如,可以事先确定网络数据可以具有的数据对象属性包括域名、目录、资源名称和资源格式。其中,访问地址可以为所需获取资源在网络中的地址;目录可以为该资源在该域名所对应的设备(比如服务器)中的目录;资源名称可以为该资源的名称;资源格式可以为该资源的格式。因此,对于网络数据“www.123.com/img/123_85bba3887.svg”,即可确定该网络数据包括“访问地址”、“目录”、“资源名称”、“资源格式”等四个数据对象属性,且与“访问地址”对应的数据元素为“www.123.com”,与“目录”对应的数据元素为“img”,与“资源名称”对应的数据元素为“123_85bba3887”,与“资源格式”对应的数据元素为“svg”。
步骤603,根据所述数据元素的第二特征信息,确定所述网络数据的第一特征信息。
由于网络数据包括数据元素,且数据元素可能具有网络数据的部分特征,从而对应于网络数据的数据对象属性,因此,为了能够充分根据网络数据所包括的数据元素所具有的特征准确确定网络数据所具有的特征,不需要人工参与,提高对网络数据进行识别的准确性和效率,可以根据该网络数据所包括的数据元素的第二特征信息,确定网络数据的第一特征信息。
其中,根据数据元素的第二特征信息确定网络数据的第一特征信息的方式,可以与前述中根据数据元素的第二特征信息确定数据对象的第一特征信息的方式相同,此处不再一一赘述。
例如,对于网络数据“www.123.com/img/123_85bba3887.svg”,确定得到“访问地址”包括的数据元素的第二特征信息为[7.3,5.5,4.3],“目录”包括的数据元素的第二特征信息为[4.4,2.5,4.3],“资源名称”包括的数据元素的第二特征信息为[1.2,7.5,3.3],“资源格式”包括的数据元素的第二特征信息为[6.7,2.1,8.3],且“访问地址”、“目录”、“资源名称”、“资源格式”包括数据元素对应的元素权重均为0.25,则网络数据“www.123.com/img/123_85bba3887.svg”的第一特征信息可以为{[7.3,5.5,4.3]*0.25+[4.4,2.5,4.3]*0.25+[1.2,7.5,3.3]*0.25+[6.7,2.1,8.3]*0.25}/4=[1.225,1.1,1.2625]。
步骤604,根据所述网络数据的第一特征信息,识别所述网络数据是否归属于预设类型数据。
由于第一特征信息能够准确地说明网络数据所具有的特征,因而可以根据网络特征的第一特征信息,对网络数据进行识别,从而准确地确定该网络数据是否属于预设类型数据。
预设类型数据可以通过事先确定,比如,可以通过接收用户提交得到。
例如,预设类型数据可以包括风险网络数据。
以风险网络数据为例,可以事先获取存在网络风险的网络数据作为样本,并按照前述方式确定该网络数据的第一特征信息,之后,将该样本与待识别的网络数据进行聚类处理,若该待识别的网络数据与该样本被聚为同一类,则确定该网络数据属于风险网络数据。
其中,可以事先获取多个待识别的网络数据进行聚类,然后将聚类结果展示给用户,基于用户针对任一类网络数据的风险确定操作,将该类网络数据确定为风险网络数据集合中的风险网络数据,即作为前述中的样本。
例如,以识别网络数据是否归属于风险网络数据为例,可以事先获取数据风险网络数据“www.333.com/img/12a3887.inf”,将该风险网络数据作为样本,与包括“www.123.com/img/123_85bba3887.svg”的多个网络数据进行聚类处理,聚类完成之后,若“www.123.com/img/123_85bba3887.svg”与“ww w.333.com/img/12a3887.inf”处于同一类,则确定“www.123.com/img/23_85bb a3887.svg”风险网络数据,否则,确定“www.123.com/img/123_85bba 887.svg”不属于风险网络数据。
在本申请实施例中,由于数据元素为构成网络数据的组成部分,进而具有网络数据的部分特征,对应于网络数据所具有的数据对象属性,因此确定网络数据与数据对象属性对应的数据元素,即可根据表征数据元素的特征的第二特征信息,准确地确定表征网络数据的特征的第一特征信息,进而能够在不需要人工参与的情况下,根据第一特征信息准确地对网络数据进行识别,确定该网络数据是否属于预设类型属性,便于对不具有不同特点的网络数据进行管理等操作,提高了对网络数据进行识别的准确性和效率。
本领域的技术人员应可理解,上述实施例中的方法步骤并非每一个都必不可少,在具体状况下,可以省略其中的一个或多个步骤,只要能够实现数据对象的聚类、数据处理或数据识别的技术目的。本发明并不限定的实施例中步骤的数量及其顺序,本发明的保护范围当以权利要求书的限定为准。
为了便于本领域技术人员更好地理解本申请,以下通过一个具体的示例对本申请实施例的一种数据对象的聚类方法进行说明,具体包括如下步骤:
一种数据对象的聚类方法流程图如图7所示。
步骤S1,从商品标题中进行内容获取,得到标题文本内容;
其中,可以包括去除商品标题中的其它非文本格式的数据,比如HTML格式和表情符号。
步骤S2.1,对标题文本内容进行分词,得到分词结果;
步骤S2.2,根据标题文本内容确定结构体(即数据对象属性,比如前述中的品牌、描述、品类和服务),包括确定得到数据结构识别模型;确定针对各结构体权重;
其中,可以将获取到的商品标题中的部分商品标题进行人工标记,确定标题中的结构体以及结构体对应的分词,然后作为样本,将分词、缝隙的词性(即对应的结构体)、分词在标题中的位置和分词在标题中的词频作为特征,对CRF模型进行训练,即得到数据结构识别模型。
步骤S3,通过word2vec对标题分词结果进行文本向量化处理,得到每个分词的向量;
步骤S4,根据步骤S2.2中确定的数据结构识别模型,识别对应各结构体的分词,并根据识别的各分词的向量确定结构体向量,即对属于各结构体的分词进行整合;
步骤S5,根据步骤S2.2中确定的结构体权重,以及各结构体向量,确定标题向量;
步骤S6,根据多个标题向量,对商品标题进行聚类,得到聚类结果;
步骤S7,根据聚类结果,以及商品的品类,确定品类连通图;
其中,可以以每个标题为点,与另一标题共有的同一品类词为边,对同一类结果中的标题进行连接,所得到的图结构即为品类连通图。
步骤S8,根据品类连通图,展示相似数据(即相似的商品标题)。
其中,可以把品类连通图中所有的点用最少的边连接,确定其中连通的子图,该子图中的点对应的商品标题即为最相似的商品标题。
实施例五
参照图8,示出了根据本申请一个实施例的一种数据对象的聚类装置的结构框图,该装置包括:
数据元素确定模块801,用于确定数据对象中与数据对象属性对应的数据元素;
第一特征信息获取模块802,用于获取所述数据对象的第一特征信息,所述第一特征信息根据所述数据元素的第二特征信息确定;
第一聚类模块803,用于根据所述第一特征信息对所述数据对象进行聚类处理。
可选的,所述数据元素确定模块包括:
数据结构识别子模块,用于识别所述数据对象对应的数据结构,所述数据结构由至少一种数据对象属性构成;
数据元素识别子模块,用于按照所述数据结构,确定所述数据对象中与所述数据对象属性对应的数据元素。
可选的,所述装置还包括:
分词模块,用于对所述数据对象进行分词;
所述数据元素识别子模块还用于:
按照所述数据结构,确定所述数据对象中与所述数据对象属性对应的至少一个分词,作为与所述数据对象属性对应的数据元素。
可选的,所述数据结构识别子模块还用于:
采用数据结构识别模型识别所述数据对象对应的数据结构。
可选的,所述数据结构识别子模块还用于:
根据标记有数据结构的数据对象样本生成所述数据结构识别模型。
可选的,所述第一特征信息获取模块包括:
元素权重确定子模块,用于确定所述数据对象包括的数据元素对应的元素权重;
第一特征信息确定子模块,用于根据所述数据元素的元素权重和所述第二特征信息,确定所述数据对象的第一特征信息。
可选的,所述装置还包括:
第二特征信息获取模块,用于获取所述数据元素的第二特征信息。
可选的,所述数据元素包括至少一个分词,所述第二特征信息获取模块包括:
第三特征信息确定子模块,用于确定所述至少一个分词的第三特征信息;
第二特征信息确定子模块,用于根据所述至少一个分词的第三特征信息,确定所述数据元素的第二特征信息。
可选的,所述第二特征信息确定子模块还用于:
提取所述至少一个分词的第三特征信息中特征最强的第三特征信息,作为所述数据元素的第二特征信息。
可选的,所述第三特征信息包括分词对应的词向量;
所述第二特征信息确定子模块还用于:
在所述至少一个分词对应的词向量中,提取各个维度的最大值构建新的词向量,作为所述数据元素的第二特征信息。
可选的,所述第二特征信息确定子模块还用于:
对所述至少一个分词的第三特征信息进行均值处理,将均值作为所述数据元素的第二特征信息。
可选的,所述第三特征信息包括分词对应的词向量;
所述第二特征信息确定子模块还用于:
确定所述至少一个分词对应的词向量的均值,作为所述数据元素的第二特征信息。
可选的,所述第一聚类模块包括:
聚类子模块,用于对所述第一特征信息进行k-means聚类处理,将同类的第一特征信息对应的数据对象划分至同类。
可选的,所述装置还包括:
第二聚类模块,用于针对划分至同类的数据对象,按照至少一种数据对象属性进行再次聚类处理。
可选的,所述第二聚类模块包括:
连通图构建子模块,用于以所述数据对象为顶点,以所述数据对象属性对应的数据元素为边,构建连通图;
数据对象划分子模块,用于提取所述连通图的封闭多边形,将所述封闭多边形对应的数据对象划分至同类。
在本申请实施例中,由于数据元素为构成数据对象的组成部分,进而具有数据对象的部分特征,对应于数据对象所具有的数据对象属性,因此确定数据对象中与数据对象属性对应的数据元素,即可根据表征数据元素的特征的第二特征信息,准确地确定表征数据对象的特征的第一特征信息,进而能够在不需要人工参与的情况下,根据第一特征信息准确地对数据对象进行聚类,提高了对数据对象进行聚类的准确性和效率。
实施例六
参照图9,示出了根据本申请一个实施例的一种数据处理装置的结构框图,该装置包括:
对象标题获取模块901,用于获取对象标题;
分词确定模块902,用于确定所述对象标题中与对象属性对应的分词;
标题向量确定模块903,用于根据所述分词的词向量,确定所述对象标题的标题向量;
对象标题识别模块904,用于根据所述标题向量,识别所述对象标题是否属于预设类型数据。
在本申请实施例中,由于对象标题由分词构成,不同的分词对应不同的对象数据,从而从说明对象在不同方面的特点,因此,可以获取对象标题,确定对象标题中与对象属性对应的分词,根据分词的词向量确定对象标题的标题向量,该标题向量既能够概括且准确地说明对象所具有的特点,因而根据标题的标题向量,即能够对准确地对标题进行分类识别,得到属于预设类型数据的标题向量,从而便于对对象标题或对象进行管理等操作,提高了对标题进行分类识别的准确性。
实施例七
参照图10,示出了根据本申请一个实施例的一种数据识别装置的结构框图,该装置包括:
网络数据获取模块1001,用于获取网络数据;
数据元素确定模块1002,用于确定所述网络数据中与数据对象属性对应的数据元素;
第一特征信息确定模块1003,用于根据所述数据元素的第二特征信息,确定所述网络数据的第一特征信息;
网络数据识别模块1004,用于根据所述网络数据的第一特征信息,识别所述网络数据是否归属于预设类型数据。
在本申请实施例中,由于数据元素为构成网络数据的组成部分,进而具有网络数据的部分特征,对应于网络数据所具有的数据对象属性,因此确定网络数据与数据对象属性对应的数据元素,即可根据表征数据元素的特征的第二特征信息,准确地确定表征网络数据的特征的第一特征信息,进而能够在不需要人工参与的情况下,根据第一特征信息准确地对网络数据进行识别,确定该网络数据是否属于风险网络数据集合,预设类型属性,便于对不具有不同特点的网络数据进行管理等操作,提高了对网络数据进行识别的准确性和效率。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的系统。图11示意性地示出了可被用于实现本申请中所述的各个实施例的示例性系统(或装置)1100。
对于一个实施例,图11示出了示例性系统1100,该系统具有一个或多个处理器1102、被耦合到(一个或多个)处理器1102中的至少一个的系统控制模块(芯片组)1104、被耦合到系统控制模块1104的系统存储器1106、被耦合到系统控制模块1104的非易失性存储器(NVM)/存储设备1108、被耦合到系统控制模块1104的一个或多个输入/输出设备1110,以及被耦合到系统控制模块1106的网络接口1112。
处理器1102可包括一个或多个单核或多核处理器,处理器1102可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,系统1100能够作为本申请实施例中所述的电子设备。
在一些实施例中,系统1100可包括具有指令的一个或多个计算机可读介质(例如,系统存储器1106或NVM/存储设备1108)以及与该一个或多个计算机可读介质相合并被配置为执行指令以实现模块从而执行本申请中所述的动作的一个或多个处理器1102。
对于一个实施例,系统控制模块1104可包括任意适当的接口控制器,以向(一个或多个)处理器1102中的至少一个和/或与系统控制模块1104通信的任意适当的设备或组件提供任意适当的接口。
系统控制模块1104可包括存储器控制器模块,以向系统存储器1106提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
系统存储器1106可被用于例如为系统1100加载和存储数据和/或指令。对于一个实施例,系统存储器1106可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,系统存储器1106可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,系统控制模块1104可包括一个或多个输入/输出控制器,以向NVM/存储设备1108及(一个或多个)输入/输出设备1110提供接口。
例如,NVM/存储设备1108可被用于存储数据和/或指令。NVM/存储设备1108可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备1108可包括在物理上作为系统1100被安装在其上的设备的一部分的存储资源,或者其可被该设备访问而不必作为该设备的一部分。例如,NVM/存储设备1108可通过网络经由(一个或多个)输入/输出设备1110进行访问。
(一个或多个)输入/输出设备1110可为系统1100提供接口以与任意其他适当的设备通信,输入/输出设备1110可以包括通信组件、音频组件、传感器组件等。网络接口1112可为系统1100提供接口以通过一个或多个网络通信,系统1100可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合进行无线通信。
对于一个实施例,(一个或多个)处理器1102中的至少一个可与系统控制模块1104的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器1102中的至少一个可与系统控制模块1104的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器1102中的至少一个可与系统控制模块1104的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器1102中的至少一个可与系统控制模块1104的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,系统1100可以但不限于是:工作站、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中,系统1100可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,系统1100包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
其中,如果显示器包括触摸面板,显示屏可以被实现为触屏显示器,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在终端设备时,可以使得该终端设备执行本申请实施例中各方法步骤的指令(instructions)。
在一个示例中提供了一种装置,包括:一个或多个处理器;和,其上存储的有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行如本申请实施例中电子设备执行的方法。
在一个示例中还提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如本申请实施例中电子设备执行的方法。
本申请实施例公开了一种数据对象的聚类、数据处理及数据识别方法。
示例1、一种数据对象的聚类方法,包括:
确定数据对象中与数据对象属性对应的数据元素;
获取所述数据对象的第一特征信息,所述第一特征信息根据所述数据元素的第二特征信息确定;
根据所述第一特征信息对所述数据对象进行聚类处理。
示例2可包括示例1所述的方法,所述确定数据对象中与数据对象属性对应的数据元素包括:
识别所述数据对象对应的数据结构,所述数据结构由至少一种数据对象属性构成;
按照所述数据结构,确定所述数据对象中与所述数据对象属性对应的数据元素。
示例3可包括示例2所述的方法,在所述确定数据对象中与数据对象属性对应的数据元素之前,所述方法还包括:
对所述数据对象进行分词;
所述按照所述数据结构,确定所述数据对象中与所述数据对象属性对应的数据元素包括:
按照所述数据结构,确定所述数据对象中与所述数据对象属性对应的至少一个分词,作为与所述数据对象属性对应的数据元素。
示例4可包括示例2所述的方法,所述识别所述数据对象对应的数据结构包括:
采用数据结构识别模型识别所述数据对象对应的数据结构。
示例5可包括示例4所述的方法,所述方法还包括:
根据标记有数据结构的数据对象样本生成所述数据结构识别模型。
示例6可包括示例1所述的方法,所述获取所述数据对象的第一特征信息包括:
确定所述数据对象包括的数据元素对应的元素权重;
根据所述数据元素的元素权重和所述第二特征信息,确定所述数据对象的第一特征信息。
示例7可包括示例1所述的方法,在所述获取所述数据对象的第一特征信息之前,所述方法还包括:
获取所述数据元素的第二特征信息。
示例8可包括示例7所述的方法,所述数据元素包括至少一个分词,所述获取所述数据元素的第二特征信息包括:
确定所述至少一个分词的第三特征信息;
根据所述至少一个分词的第三特征信息,确定所述数据元素的第二特征信息。
示例9可包括示例8所述的方法,所述根据所述至少一个分词的第三特征信息,确定所述数据元素的第二特征信息包括:
提取所述至少一个分词的第三特征信息中特征最强的第三特征信息,作为所述数据元素的第二特征信息。
示例10可包括示例9所述的方法,所述第三特征信息包括分词对应的词向量;
所述提取所述至少一个分词的第三特征信息中特征最强的第三特征信息包括:
在所述至少一个分词对应的词向量中,提取各个维度的最大值构建新的词向量,作为所述数据元素的第二特征信息。
示例11可包括示例8所述的方法,所述根据所述至少一个分词的第三特征信息,确定所述数据元素的第二特征信息包括:
对所述至少一个分词的第三特征信息进行均值处理,将均值作为所述数据元素的第二特征信息。
示例12可包括示例11所述的方法,所述第三特征信息包括分词对应的词向量;
所述对所述至少一个分词的第三特征信息进行均值处理,将均值作为所述数据元素的第二特征信息包括:
确定所述至少一个分词对应的词向量的均值,作为所述数据元素的第二特征信息。
示例13可包括示例1所述的方法,所述根据所述第一特征信息对所述数据对象进行聚类处理包括:
对所述第一特征信息进行k-means聚类处理,将同类的第一特征信息对应的数据对象划分至同类。
示例14可包括示例1所述的方法,所述方法还包括:
针对划分至同类的数据对象,按照至少一种数据对象属性进行再次聚类处理。
示例15可包括示例14所述的方法,所述针对划分至同类的数据对象,按照至少一种数据对象属性进行再次聚类处理包括:
以所述数据对象为顶点,以所述数据对象属性对应的数据元素为边,构建连通图;
提取所述连通图的封闭多边形,将所述封闭多边形对应的数据对象划分至同类。
示例16、一种数据处理方法,包括:
获取对象标题;
确定所述对象标题中与对象属性对应的分词;
根据所述分词的词向量,确定所述对象标题的标题向量;
根据所述标题向量,识别所述对象标题是否属于预设类型数据。
示例17、一种数据识别方法,包括:
获取网络数据;
确定所述网络数据中与数据对象属性对应的数据元素;
根据所述数据元素的第二特征信息,确定所述网络数据的第一特征信息;
根据所述网络数据的第一特征信息,识别所述网络数据是否归属于预设类型数据。
示例18、一种装置,包括:一个或多个处理器;和其上存储的有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行如示例1-示例17一个或多个的方法。
示例19、一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如示例1-示例17一个或多个的方法。
虽然某些实施例是以说明和描述为目的的,各种各样的替代、和/或、等效的实施方案、或计算来达到同样的目的实施例示出和描述的实现,不脱离本申请的实施范围。本申请旨在覆盖本文讨论的实施例的任何修改或变化。因此,显然本文描述的实施例仅由权利要求和它们的等同物来限定。

Claims (16)

1.一种数据对象的聚类方法,其特征在于,包括:
对文本类型的数据对象进行分词,确定所述数据对象中与数据对象属性对应的至少一个分词,并将所述至少一个分词确定为对应的所述数据对象属性的数据元素;
确定所述至少一个分词的第三特征信息;其中,所述第三特征信息包括所述至少一个分词对应的词向量;
根据所述至少一个分词的第三特征信息,确定对应的所述数据元素的第二特征信息;
根据所述数据元素的第二特征信息,确定对应的所述数据对象的第一特征信息;
根据所述第一特征信息对所述数据对象进行聚类处理。
2.根据权利要求1所述的方法,其特征在于,所述确定所述数据对象中与数据对象属性对应的至少一个分词包括:
识别所述数据对象对应的数据结构,所述数据结构由至少一种数据对象属性构成;
按照所述数据结构,确定所述数据对象中与所述数据对象属性对应的至少一个分词。
3.根据权利要求2所述的方法,其特征在于,所述识别所述数据对象对应的数据结构包括:
采用数据结构识别模型识别所述数据对象对应的数据结构。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据标记有数据结构的数据对象样本生成所述数据结构识别模型。
5.根据权利要求1所述的方法,其特征在于,所述根据所述数据元素的第二特征信息,确定对应的所述数据对象的第一特征信息包括:
确定所述数据对象包括的数据元素对应的元素权重;
根据所述数据元素的元素权重和所述第二特征信息,确定所述数据对象的第一特征信息。
6.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个分词的第三特征信息,确定对应的所述数据元素的第二特征信息包括:
提取所述至少一个分词的第三特征信息中特征最强的第三特征信息,作为所述数据元素的第二特征信息。
7.根据权利要求6所述的方法,其特征在于,所述提取所述至少一个分词的第三特征信息中特征最强的第三特征信息包括:
在所述至少一个分词对应的词向量中,提取各个维度的最大值构建新的词向量,作为所述数据元素的第二特征信息。
8.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个分词的第三特征信息,确定对应的所述数据元素的第二特征信息包括:
对所述至少一个分词的第三特征信息进行均值处理,将均值作为所述数据元素的第二特征信息。
9.根据权利要求8所述的方法,其特征在于,所述对所述至少一个分词的第三特征信息进行均值处理,将均值作为所述数据元素的第二特征信息包括:
确定所述至少一个分词对应的词向量的均值,作为所述数据元素的第二特征信息。
10.根据权利要求1所述的方法,其特征在于,所述根据所述第一特征信息对所述数据对象进行聚类处理包括:
对所述第一特征信息进行k-means聚类处理,将同类的第一特征信息对应的数据对象划分至同类。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对划分至同类的数据对象,按照至少一种数据对象属性进行再次聚类处理。
12.根据权利要求11所述的方法,其特征在于,所述针对划分至同类的数据对象,按照至少一种数据对象属性进行再次聚类处理包括:
以所述数据对象为顶点,以所述数据对象属性对应的数据元素为边,构建连通图;
提取所述连通图的封闭多边形,将所述封闭多边形对应的数据对象划分至同类。
13.一种数据处理方法,其特征在于,包括:
获取对象标题,对所述对象标题进行分词,确定所述对象标题中与对象属性对应的分词,并将所述分词确定为对应的所述对象属性的数据元素;
确定所述分词的词向量;
根据所述分词的词向量,确定对应的所述数据元素的词向量;
根据所述数据元素的词向量,确定对应的所述对象标题的标题向量;
根据所述标题向量,识别所述对象标题是否属于预设类型数据。
14.一种数据识别方法,其特征在于,包括:
获取网络数据,对所述网络数据进行分词,确定所述网络数据中与数据对象属性对应的至少一个分词,并将所述至少一个分词确定为对应的所述数据对象属性的数据元素;
确定所述至少一个分词的第三特征信息;其中,所述第三特征信息包括所述至少一个分词对应的词向量;
根据所述至少一个分词的第三特征信息,确定对应的所述数据元素的第二特征信息;
根据所述数据元素的第二特征信息,确定对应的所述网络数据的第一特征信息;
根据所述网络数据的第一特征信息,识别所述网络数据是否归属于预设类型数据。
15.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-14任一项所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-14任一项所述的方法。
CN201810253522.0A 2018-03-26 2018-03-26 数据对象的聚类、数据处理及数据识别方法 Active CN110363206B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810253522.0A CN110363206B (zh) 2018-03-26 2018-03-26 数据对象的聚类、数据处理及数据识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810253522.0A CN110363206B (zh) 2018-03-26 2018-03-26 数据对象的聚类、数据处理及数据识别方法

Publications (2)

Publication Number Publication Date
CN110363206A CN110363206A (zh) 2019-10-22
CN110363206B true CN110363206B (zh) 2023-06-27

Family

ID=68212773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810253522.0A Active CN110363206B (zh) 2018-03-26 2018-03-26 数据对象的聚类、数据处理及数据识别方法

Country Status (1)

Country Link
CN (1) CN110363206B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597928B (zh) * 2018-12-05 2022-12-16 云南电网有限责任公司信息中心 支持用户策略配置的基于Web网络的非结构化文本获取方法
CN111914536B (zh) * 2020-08-06 2021-12-17 北京嘀嘀无限科技发展有限公司 观点分析方法、装置、设备及存储介质
CN112597284B (zh) * 2021-03-08 2021-06-15 中邮消费金融有限公司 公司名称的匹配方法、装置、计算机设备及存储介质
CN117951466B (zh) * 2024-03-21 2024-05-28 深圳市康索特软件有限公司 数据治理方法、装置、介质和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095791A (zh) * 2016-01-31 2016-11-09 长源动力(山东)智能科技有限公司 一种基于上下文的抽象样本信息检索系统及其抽象样本特征化表示方法
CN106095939A (zh) * 2016-06-12 2016-11-09 腾讯科技(深圳)有限公司 账户权限的获取方法和装置
CN106202293A (zh) * 2016-06-30 2016-12-07 北京奇艺世纪科技有限公司 一种突发事件语料库的更新方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778186B (zh) * 2014-01-15 2018-06-22 阿里巴巴集团控股有限公司 将商品对象挂载到标准产品单元的方法及系统
US10248718B2 (en) * 2015-07-04 2019-04-02 Accenture Global Solutions Limited Generating a domain ontology using word embeddings
US20170075877A1 (en) * 2015-09-16 2017-03-16 Marie-Therese LEPELTIER Methods and systems of handling patent claims
CN106021361A (zh) * 2016-05-10 2016-10-12 中国空间技术研究院 一种基于序列比对的自适应应用层网络协议报文聚类方法
CN107633007B (zh) * 2017-08-09 2021-09-28 五邑大学 一种基于层次化ap聚类的商品评论数据标签化系统和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095791A (zh) * 2016-01-31 2016-11-09 长源动力(山东)智能科技有限公司 一种基于上下文的抽象样本信息检索系统及其抽象样本特征化表示方法
CN106095939A (zh) * 2016-06-12 2016-11-09 腾讯科技(深圳)有限公司 账户权限的获取方法和装置
CN106202293A (zh) * 2016-06-30 2016-12-07 北京奇艺世纪科技有限公司 一种突发事件语料库的更新方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于线性判别分析和二分K均值的高维数据自适应聚类方法;汪万紫;裘国永;张兵权;;郑州轻工业学院学报(自然科学版)(第02期);第106-110页 *

Also Published As

Publication number Publication date
CN110363206A (zh) 2019-10-22

Similar Documents

Publication Publication Date Title
Liu et al. Classifying urban land use by integrating remote sensing and social media data
US10726208B2 (en) Consumer insights analysis using word embeddings
KR101856120B1 (ko) 이미지로부터 상가 발견
US11182806B1 (en) Consumer insights analysis by identifying a similarity in public sentiments for a pair of entities
US10685183B1 (en) Consumer insights analysis using word embeddings
US10198635B2 (en) Systems and methods for associating an image with a business venue by using visually-relevant and business-aware semantics
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
CN110363206B (zh) 数据对象的聚类、数据处理及数据识别方法
CN107844565B (zh) 商品搜索方法和装置
CN107833082B (zh) 一种商品图片的推荐方法和装置
US10509863B1 (en) Consumer insights analysis using word embeddings
CN107832338B (zh) 一种识别核心产品词的方法和系统
US9251395B1 (en) Providing resources to users in a social network system
CN110827112B (zh) 深度学习的商品推荐方法、装置、计算机设备及存储介质
US11030539B1 (en) Consumer insights analysis using word embeddings
CN110874534A (zh) 数据处理方法和数据处理装置
Zhang et al. Image clustering: An unsupervised approach to categorize visual data in social science research
US12086543B2 (en) Rule-based machine learning classifier creation and tracking platform for feedback text analysis
CN113806588A (zh) 搜索视频的方法和装置
CN112948575A (zh) 文本数据处理方法、装置和计算机可读存储介质
CN114792246B (zh) 一种基于主题集成聚类的产品典型性特质挖掘方法及系统
CN114357184A (zh) 事项推荐方法及相关装置、电子设备和存储介质
CN112883719A (zh) 一种品类词识别方法、模型训练方法、装置及系统
WO2015047921A1 (en) Determining images of article for extraction
KR20150101846A (ko) 스케치를 기반으로 하는 영상 분류 서비스 시스템, 사용자 장치, 서비스 제공 장치, 그 서비스 방법 및 컴퓨터 프로그램이 기록된 기록매체

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40016161

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant