CN110134791B - 一种数据处理方法、电子设备及存储介质 - Google Patents

一种数据处理方法、电子设备及存储介质 Download PDF

Info

Publication number
CN110134791B
CN110134791B CN201910424547.7A CN201910424547A CN110134791B CN 110134791 B CN110134791 B CN 110134791B CN 201910424547 A CN201910424547 A CN 201910424547A CN 110134791 B CN110134791 B CN 110134791B
Authority
CN
China
Prior art keywords
information
clustering
generalized
cluster
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910424547.7A
Other languages
English (en)
Other versions
CN110134791A (zh
Inventor
宁超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Teddy Bear Mobile Technology Co ltd
Beijing Teddy Future Technology Co ltd
Original Assignee
Beijing Teddy Bear Mobile Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Teddy Bear Mobile Technology Co ltd filed Critical Beijing Teddy Bear Mobile Technology Co ltd
Priority to CN201910424547.7A priority Critical patent/CN110134791B/zh
Publication of CN110134791A publication Critical patent/CN110134791A/zh
Application granted granted Critical
Publication of CN110134791B publication Critical patent/CN110134791B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法。所述数据处理方法包括:对初始文本信息进行泛化处理,形成泛化文本信息;对泛化文本信息集合进行聚类处理,形成聚类簇信息;及对所述聚类组信息进行范式提取操作,形成聚类语义范式。本发明还公开了一种电子设备及存储介质。所述数据处理方法提供了有效的数据聚类处理方法,并且也加快了聚类的速度并提高了聚类的准确性。

Description

一种数据处理方法、电子设备及存储介质
技术领域
本发明属于电子数据技术领域,尤其涉及一种数据处理方法、电子设备及存储介质。
背景技术
电子智能设备的应用越来越广泛,已经成为人们日常不可缺少的工具,如笔记本电脑、手机、平板电脑、智能手表等等。网络技术的发展进一步将电子智能设备的作用扩展至社会生活的方方面面。人们在使用电子智能设备产生了大量的数据,这些数据中不可避免会出现相近似或重复的数据。例如,移动通信运营商会给用户发送的大量类似通知短信,公司在不同网购平台发布产品的相似或相同简介信息。因此,如何处理这些相同或近似数据,更有效便利的利用数据,成为需要解决的问题。
发明内容
本发明提供一种数据处理方法。所述数据处理方法包括:对初始文本信息进行泛化处理,形成泛化文本信息;对泛化文本信息集合进行聚类处理,形成聚类簇信息;及对所述聚类组信息进行范式提取操作,形成聚类语义范式。
本发明另一方面提供一种电子设备,包括至少一处理器,用于实现各程序;至少一存储器,用于存储至少一个程序;所述至少一个程序被所述至少一处理器执行时,所述电子设备实现本发明提供的数据处理方法。
本发明另一方面提供一种存储介质,存储有程序,所述程序被处理器执行时实现本发明提供的数据处理方法。
本发明提供的处理方法,通过对短文本进行泛化处理,并对泛化后的文本进行聚类处理,进而从聚类组信息中进行范式提出操作,最终形成聚类语义范式,提供了有效的数据聚类处理方法,并且也加快了聚类的速度并提高了聚类的准确性。
附图说明
图1为本发明实施例提供的数据处理方法的流程图。
图2为所述数据处理方法的NER泛化处理示例示意图。
图3为所述数据处理方法的聚类处理的流程图。
图4为所述聚类处理的形成短文本聚类簇信息的流程示意图。
图5为所述聚类处理的示意图。
图6为所述数据处理方法的范式提取操作的示意图。
图7为所述数据处理方法的示例示意图。
图8为本发明实施例提供的电子设备的示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1所示为采用本发明实施例提供的一种数据处理方法的流程。所述数据处理方法可应用于各种电子设备,包括智能手机、电脑、网络服务器等。所述数据处理方法包括以下步骤310,步骤320及步骤330。
步骤310,对初始文本信息进行泛化处理,形成泛化文本信息。
在一实施例中,采用NER泛化对初始文本信息进行泛化处理。NER泛化是使用基于深度学习的命名实体识别模型,发现短文本中包含的诸如人名、地名与时间等实体,并对这些实体进行泛化处理。通过泛化处理,对短文本可能包含的一些涉及隐私的信息或者符合其他特定排除条件的信息进行了消除。此外,泛化处理还可使短文本的特征更为显著,提到后续处理的准确性。
如图2所示,通过NER泛化处理,原短文本信息中的“赵先生”、“北京”、“18888888888”、“2019年4月17日”被泛化处理掉。在处理后的短文本信息中分别以“@人名@”、“@地址@”、“@电话@”、“@时间@”代替已形成泛化文本信息。
步骤320,对泛化文本信息集合进行聚类处理,形成聚类簇信息。
在一实施例中,如图3所示的聚类处理步骤320进一步包括以下具体步骤。
步骤322,将泛化文本信息集合中的各泛化文本信息转化为基于向量空间模型的向量表示。
步骤324,采用二分KMeans聚类算法进行文本相似度聚类,形成聚类簇信息。
其中,如步骤324进一步包括以下更为具体的步骤。
步骤241,对泛化文本信息划分,形成短文本聚类簇。
步骤242,判断是否挖掘出更细粒度的具有相似语义意图的短文本信息,若判断结果为是,则流程进入步骤243,若判断结果为否,则流程返回步骤241。
步骤243,进行合并,以生成聚类簇信息。
图5进一步对聚类处理进行示意说明,具体分为划分步骤与合并步骤。首先对泛化文本信息集合转化为基于向量空间模型的向量表示,然后采用二分KMeans聚类算法进行文本相似度聚类。图5进行了多次划分,其中第一次划分步骤241产生了短文本聚类簇A和短文本聚类簇B;第二次划分步骤242产生了短文本聚类簇A1和短文本聚类簇A2;第三次划分步骤243产生了短文本聚类簇B1和短文本聚类簇B2;第四次划分步骤244产生了短文本聚类簇A21和短文本聚类簇A22。之后进行了一次合并步骤245,找出之前划分步骤中产生的聚类碎片,并对碎片进行归并,进而产生了短文本聚类簇C。最后形成了短文本聚类簇A1、短文本聚类簇A21、短文本聚类簇C及短文本聚类簇B2。因此,通过聚类处理,形成了聚类簇信息。
步骤330,对聚类簇信息进行范式提取操作,形成聚类语义范式。
范式提取操作包括步骤:对聚类簇对中包含至少两条短文本信息的聚类簇,逐个提取最长公共子序列;将最长公共子序列作为聚类簇的聚类语义范式。图6是一示例,说明范式提取操作。其中,提取步骤332对包含至少两条短文本信息的短文本聚类簇A1、短文本聚类簇A21、短文本聚类簇C逐个提取最长公共子序列,从而形成聚类语义范式a1、聚类语义范式a21以及聚类语义范式c,从而保留了聚类簇中短文本的最频繁特征。同时,步骤334对短文本聚类簇B2进行了舍弃操作,从而舍弃了非频繁特征。最终形成了聚类语义范式。
图7为一具体示例,说明采用本发明数据处理方法各步骤处理结果的表现形式。其中,初始文本信息400包括来自某某电力、某某银行、某某移动的多项初始文本信息。经过步骤310泛化处理后形成了泛化文本信息410,原短文本信息中的相应实体在处理后的短文本信息中分别以“@人名@”、“@地址@”、“@电话@”、“@时间@”、“@金额@”代替。接下来,经过步骤320聚类处理,形成了聚类簇信息420,包括序号1聚类簇信息、序号2聚类簇信息、序号3聚类簇信息、以及序号4聚类簇信息。最后,经过步骤330范式提取操作,形成了聚类语义范式430,包括序号1聚类语义范式、序号2聚类语义范式、以及序号3聚类语义范式,并对原序号4聚类簇信息进行了舍弃。
本发明提供的处理方法,通过对短文本进行泛化处理,并对泛化后的文本进行聚类处理,进而从聚类组信息中进行范式提出操作,最终形成聚类语义范式,提供了有效的数据聚类处理方法,并且也加快了聚类的速度并提高了聚类的准确性。
图8为本发明实施例提供的电子设备900的示意图。电子设备900采用本发明的数据处理方法。电子设备900包括处理器910及存储器920。其中,处理器910用于实现各程序。存储器920用于存储至少一个程序,所述至少一个程序被处理器910执行时,电子设备900可实现本发明提供的数据处理方法。
此外,本发明实施例还提供一种存储介质存储有程序,所述程序被处理器执行时实现本发明提供的数据处理方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
发现初始文本信息中包含的人名、地名与时间的实体,将初始文本信息中包含的涉及隐私的信息或者符合其他特定排除条件的信息进行消除,形成泛化文本信息;
将泛化文本信息集合中的各泛化文本信息转化为基于向量空间模型的向量表示,对向量表示的泛化文本信息进行划分,形成短文本聚类簇;确定挖掘出更细粒度的具有相似语义意图的短文本信息时,进行合并,形成聚类簇信息;及
对所述聚类簇信息进行范式提取操作,形成聚类语义范式。
2.根据权利要求1所述数据处理方法,其特征在于,所述初始文本信息包括至少一条初始文本语料。
3.根据权利要求2所述数据处理方法,对初始文本信息进行泛化处理,形成泛化文本信息包括:
基于深度信息的命名实体识别模型,对所述至少一条初始文本语料中待泛化实体进行NER泛化处理。
4.根据权利要求3所述数据处理方法,其特征在于,所述待泛化实体包括人名、地名、时间中的至少一个。
5.根据权利要求4所述数据处理方法,其特征在于,所述泛化文本信息集合包括至少一所述泛化文本信息。
6.根据权利要求5所述数据处理方法,其特征在于,对泛化文本信息集合进行聚类处理,形成聚类簇信息包括:
将所述泛化文本信息转化为基于向量空间模型的向量表示;及
采用二分KMeans聚类算法进行文本相似度聚类,形成聚类簇信息。
7.根据权利要求6所述数据处理方法,其特征在于,所述采用二分KMeans聚类算法进行文本相似度聚类,形成聚类簇信息包括:
对所述泛化文本信息划分,形成短文本聚类簇;
判断是否挖掘出最细粒度的具有相似意图的短文本信息;
若判断结果为是,则进行合并,以生成聚类簇信息;
若判断结果为否,则继续进入步骤对所述泛化文本信息划分,形成短文本聚类簇。
8.根据权利要求7所述数据处理方法,其特征在于,所述对所述聚类簇信息进行范式提取操作,形成聚类语义范式包括:
对所述聚类簇信息中包含至少两条短文本信息的第一聚类簇,逐个提取最长公共子序列;
将所述最长公共子序列作为所述第一聚类簇的聚类语义范式。
9.一种电子设备,包括:
至少一处理器,用于实现各程序;
至少一存储器,用于存储至少一个程序;
所述至少一个程序被所述至少一处理器执行时,所述电子设备实现如权利要求1-8中任一所述的方法。
10.一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN201910424547.7A 2019-05-21 2019-05-21 一种数据处理方法、电子设备及存储介质 Active CN110134791B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910424547.7A CN110134791B (zh) 2019-05-21 2019-05-21 一种数据处理方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910424547.7A CN110134791B (zh) 2019-05-21 2019-05-21 一种数据处理方法、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110134791A CN110134791A (zh) 2019-08-16
CN110134791B true CN110134791B (zh) 2022-03-08

Family

ID=67572057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910424547.7A Active CN110134791B (zh) 2019-05-21 2019-05-21 一种数据处理方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110134791B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945244A (zh) * 2012-09-24 2013-02-27 南京大学 基于句号特征字串的中文网页重复文档检测和过滤方法
CN103823809A (zh) * 2012-11-16 2014-05-28 百度在线网络技术(北京)有限公司 一种对查询短语分类的方法、分类优化的方法及其装置
CN104091054A (zh) * 2014-06-26 2014-10-08 中国科学院自动化研究所 面向短文本的群体性事件预警方法和系统
WO2016158768A1 (ja) * 2015-03-30 2016-10-06 株式会社メガチップス クラスタリング装置及び機械学習装置
CN107451187A (zh) * 2017-06-23 2017-12-08 天津科技大学 基于互约束主题模型的半结构短文本集中子话题发现方法
CN107516110A (zh) * 2017-08-22 2017-12-26 华南理工大学 一种基于集成卷积编码的医疗问答语义聚类方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5359399B2 (ja) * 2009-03-11 2013-12-04 ソニー株式会社 テキスト分析装置および方法、並びにプログラム
CN102831128B (zh) * 2011-06-15 2015-03-25 富士通株式会社 一种对互联网上的同名人物信息进行分类的方法及装置
US20160335544A1 (en) * 2015-05-12 2016-11-17 Claudia Bretschneider Method and Apparatus for Generating a Knowledge Data Model
CN106610965A (zh) * 2015-10-21 2017-05-03 北京瀚思安信科技有限公司 确定文本串公共子序列的方法和设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945244A (zh) * 2012-09-24 2013-02-27 南京大学 基于句号特征字串的中文网页重复文档检测和过滤方法
CN103823809A (zh) * 2012-11-16 2014-05-28 百度在线网络技术(北京)有限公司 一种对查询短语分类的方法、分类优化的方法及其装置
CN104091054A (zh) * 2014-06-26 2014-10-08 中国科学院自动化研究所 面向短文本的群体性事件预警方法和系统
WO2016158768A1 (ja) * 2015-03-30 2016-10-06 株式会社メガチップス クラスタリング装置及び機械学習装置
CN107451187A (zh) * 2017-06-23 2017-12-08 天津科技大学 基于互约束主题模型的半结构短文本集中子话题发现方法
CN107516110A (zh) * 2017-08-22 2017-12-26 华南理工大学 一种基于集成卷积编码的医疗问答语义聚类方法

Also Published As

Publication number Publication date
CN110134791A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN106250513B (zh) 一种基于事件建模的事件个性化分类方法及系统
Uysal et al. The impact of feature extraction and selection on SMS spam filtering
EP3508990A1 (en) Natural language library generation method and device
US10671813B2 (en) Performing actions based on determined intent of messages
CN105022733B (zh) Dinfo‑oec文本分析挖掘方法与设备
CN107644106B (zh) 自动挖掘业务中间人的方法、终端设备及存储介质
CN108616654A (zh) 消息提醒的方法、装置、终端及计算机可读存储介质
CN109716370B (zh) 用于在消息应用中传送响应的系统和方法
CN107832440B (zh) 一种数据挖掘方法、装置、服务器及计算机可读存储介质
CN111078742B (zh) 用户分类模型训练方法、用户分类方法及装置
Yoo et al. Classification scheme of unstructured text document using TF-IDF and naive bayes classifier
CN110442733A (zh) 一种主题生成方法、装置和设备及介质
CN112184169A (zh) 用户待办事项的动态规划方法、装置、设备及存储介质
CN112632215A (zh) 一种基于词对语义主题模型的社区发现方法及系统
CN104424187A (zh) 一种向客户端用户推荐好友的方法及装置
CN114861746A (zh) 基于大数据的反欺诈识别方法、装置及相关设备
CN111415196A (zh) 一种广告召回方法、装置、服务器及存储介质
CN110134791B (zh) 一种数据处理方法、电子设备及存储介质
Kaliyar et al. SMS spam filtering on multiple background datasets using machine learning techniques: A novel approach
CN116597443A (zh) 素材标签处理方法、装置、电子设备及介质
CN110738048A (zh) 一种关键词提取方法、装置及终端设备
CN113011152B (zh) 文本处理方法、装置、设备及计算机可读存储介质
CN113868410A (zh) 一种基于用户兴趣的短信拦截方法、装置、设备及介质
CN104881395A (zh) 一种获取矩阵中向量相似度的方法和系统
Urmi et al. A Proposal of Systematic SMS Spam Detection Model Using Supervised Machine Learning Classifiers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: East of 1st floor, No.36 Haidian Street, Haidian District, Beijing, 100080

Patentee after: Beijing Teddy Future Technology Co.,Ltd.

Address before: East of 1st floor, No.36 Haidian Street, Haidian District, Beijing, 100080

Patentee before: Beijing Teddy Bear Mobile Technology Co.,Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: East of 1st floor, No.36 Haidian Street, Haidian District, Beijing, 100080

Patentee after: Beijing Teddy Bear Mobile Technology Co.,Ltd.

Address before: 100085 07a36, block D, 7 / F, No.28, information road, Haidian District, Beijing

Patentee before: BEIJING TEDDY BEAR MOBILE TECHNOLOGY Co.,Ltd.