CN116821347A - 一种文本数据的归类方法、装置、设备及存储介质 - Google Patents
一种文本数据的归类方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116821347A CN116821347A CN202310899629.3A CN202310899629A CN116821347A CN 116821347 A CN116821347 A CN 116821347A CN 202310899629 A CN202310899629 A CN 202310899629A CN 116821347 A CN116821347 A CN 116821347A
- Authority
- CN
- China
- Prior art keywords
- text data
- keyword
- keywords
- nodes
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000013507 mapping Methods 0.000 claims abstract description 16
- 238000004590 computer program Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 15
- 238000012545 processing Methods 0.000 abstract description 8
- 239000000047 product Substances 0.000 description 25
- 230000006870 function Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 230000036541 health Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 201000010099 disease Diseases 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002565 electrocardiography Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理领域及数字医疗领域,尤其涉及一种文本数据的归类方法、装置、设备及存储介质,可应用于医疗领域中的对保险产品的文本数据进行归类。通过获取待归类文本数据集,提取关键词对应的近义词集合,基于预先标定的文本数据与关键词之间的映射关系以及关键词对应的近义词集合构建文本数据关键词节点并查集,遍历文本数据节点并查集中对应的连通块,按照各节点与根节点间的关联关系,对关键词节点进行分组,以根据分组结果确定文本数据的关键词类别,将得到关键词进行归类存入数据库中。利用近义词来实现并查集的连通块进行匹配,降低了分类过程的时间复杂度和空间复杂度,提高文本数据的处理效率,保证用户匹配对应的医疗保险产品。
Description
技术领域
本发明涉及数据处理领域及数字医疗领域,尤其涉及一种文本数据的归类方法、装置、设备及存储介质。
背景技术
随着互联网的快速发展,互联网医疗已经被广大民众所接受,可以支持疾病辅助诊断、健康管理、远程会诊等功能,医生通过网络对患者进行问诊、开处方等正逐渐成为一种趋势。与此同时,随着大众对健康险和重疾险认知的加强,商业医疗保险正成为社会医疗保险的重要补充,将个人健康风险和患病风险与商业医疗保险联系在一起,可以有效缓解个人在突发重大疾病时医疗费用不足的困境,因此,需要对医疗领域保险产品的文本数据进行归类,以便根据保险产品的文本数据的类型使用户匹配对应的保险产品。
现有技术中,对医疗领域保险产品的文本数据进行归类的方法大多是DBSCAN和tf-idf组合完成。通过切词工具(jieba)来对一篇文本数据的标题切词,利用tf-idf算法计算提取关键词并将其转化为向量,最后通过K-means聚类算法,形成内容相近的K个簇。但是DBSCAN算法需要传入聚类半径和最少聚类个数,这里的聚类半径也不太好确定,半径大了会将不相似的文本数据聚类到一个簇,半径小了相似的文本数据可能会被分到两个簇中。因此,如何对保险产品的文本数据进行归类,以提高保险产品的文本数据分类的效率,优化了整个文本数据分类过程的时间复杂度和空间复杂度,已成为本领域技术人员亟待解决的技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种文本数据的归类方法、装置、设备、介质及产品,以解决现有技术文本数据分类过程的时间复杂度和空间复杂度过大,以实现更加容易对保险产品的文本数据进行归类的问题。
本申请实施例的第一方面提供了一种文本数据的归类方法,所述文本数据的归类方法包括:
获取待归类文本数据集,提取所述待归类文本数据数据集中的关键词对应的近义词集合;
基于预先标定的文本数据与关键词之间的映射关系以及所述关键词对应的近义词集合构建文本数据关键词节点并查集;
遍历所述文本数据节点并查集中对应的连通块,按照各节点与根节点间的关联关系,对所述文本数据关键词节点并查集中的关键词节点进行分组,以根据分组结果确定文本数据的关键词类别;
根据文本数据的关键词类别,将得到关键词进行归类存入数据库中。
本申请实施例的第二方面提供了一种文本数据的归类装置,所述文本数据的归类装置包括:
获取模块,用于获取待归类文本数据集,提取所述待归类文本数据数据集中的关键词对应的近义词集合;
构建模块,用于基于预先标定的文本数据与关键词之间的映射关系以及所述关键词对应的近义词集合构建文本数据关键词节点并查集;
分组模块,用于遍历所述文本数据节点并查集中对应的连通块,按照各节点与根节点间的关联关系,对所述文本数据关键词节点并查集中的关键词节点进行分组,以根据分组结果确定文本数据的关键词类别;
存入模块,用于根据文本数据的关键词类别,将得到关键词进行归类存入数据库中。
第三方面,本发明实施例提供了一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的文本数据的归类方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的文本数据的归类方法。
综上所述,本发明提供了一种文本数据的归类方法、装置、设备及存储介质,可应用于医疗领域中的对保险产品的文本数据进行归类。通过获取待归类文本数据集,提取待归类文本数据数据集中的关键词对应的近义词集合,基于预先标定的文本数据与关键词之间的映射关系以及关键词对应的近义词集合构建文本数据关键词节点并查集,然后遍历文本数据节点并查集中对应的连通块,按照各节点与根节点间的关联关系,对文本数据关键词节点并查集中的关键词节点进行分组,以根据分组结果确定文本数据的关键词类别,将得到关键词进行归类存入数据库中。因此,本申请采用近义词来实现并查集的连通块进行匹配,以此降低了分类过程的时间复杂度和空间复杂度,无需重复计算,进一步的,通过根据文本数据的关键词类别,将得到关键词进行归类存入数据库中,直接确定下一篇文本数据的所属类型,提高了文本数据关键词的处理效率,提升了用户体验,保证用户匹配对应的医疗保险产品。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种文本数据的归类方法的一应用环境示意图;
图2是本发明一实施例提供的一种文本数据的归类方法的流程示意图;
图3是本发明一实施例提供的一种文本数据的归类装置的结构示意图;
图4是本发明一实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本发明说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本发明说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本发明说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
应理解,以下实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
为了说明本发明的技术方案,下面通过具体实施例来进行说明。
本发明一实施例提供的一种文本数据的归类方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等计算机设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现,通过服务器可以上传下载医疗数据,如个人健康档案、处方、检查报告等。
参见图2,是本发明一实施例提供的文本数据的归类方法的流程示意图,上述文本数据的归类方法可以应用于图1中的服务端,上述服务端连接相应的客户端,如图2所示,该文本数据的归类方法可以包括以下步骤。
S201:获取待归类文本数据集,提取所述待归类文本数据数据集中的关键词对应的近义词集合。
在步骤S201中,本申请实施例提供的文本数据的归类方法可以应用于自然语言处理场景(Natural Language Processing,简称NLP)中,应用于医疗领域,通过区块链可以存储医疗文本数据,如个人健康档案、处方、检查报告等数据,业务系统可以通过外部输入或是在线获取的方式获取保险产品的待归类文本数据集。业务系统可以对保险产品的待归类文本数据集进行关键词提取,基于关键词创建对应的近义词集合。其中,所述业务系统可为用于存储医疗保险产品信息的核心系统,企业内部的所有医疗保险产品信息均存储于该核心系统中。在该核心系统中按照不同的保障方案形成不同的医疗保险产品信息文档进行存储。该医疗保险产品信息文档中存储有产品名称、商品编码、产品编码、险种编码、保障金额、保障期限、缴费期限、保费、产品介绍、险种类别、测保规则、核保规则、承保规则、及保单签收规则等信息。所述关联系统可为用于将医疗保险产品发布至第三方电商平台的发布系统,例如为编程系统,该编程系统用于编辑程序代码以发布医疗保险产品。
在一种可能的实现方式中,所述数据是医疗数据,如个人健康档案、处方、检查报告等数据。
在一种可能的实现方式中,所述自然语言文本为医疗文本数据,所述医疗文本数据可以是医疗电子记录(Electronic Healthcare Record),电子化的个人健康记录,包括病历、心电图、医学影像等一系列具备保存备查价值的电子化记录。
信息查询或者关键词提取成为很多场景中用户快速获取所需信息的渠道。例如在医疗领域中,可以基于人工智能模型从海量的电子病历中查询或者通过关键词提取用户所需的病历信息,有助于为用户提供病历参考,以此保证医疗文本数据的安全性。
进一步地,通过提取文本数据的关键词,以此得到关键词对应的近义词集合。其中,所述关键词为体现文本数据主题思想的词汇,或出现在文本数据的题目,或出现在文本数据的首段和尾段。其中,提取文本数据的关键词是通过识别文本数据题目,并获取文本数据的题目所包含的词语,将文本数据的题目所包含的词语作为文本数据的关键词。具体地,先将关键词与事先存储于数据库内的词汇相匹配,并根据匹配到的词汇的性质确定关键词的性质,其中数据库中存储的词汇的性质事先已经进行了界定,所述近义词集合可以是运动-健身、旅游-旅行、美食-吃货、保险-投保、疾病-吃药等,本实施例中不做具体限定。
可选地,提取所述待归类文本数据集中的关键词对应的近义词集合,包括:
对所述关键词进行特征提取,得到所述关键词的关键词特征;
判断每两个关键词的关键词特征的相似度是否小于预设的相似阈值;
若每两个关键词的关键词特征的相似度小于预设的相似阈值,则确定这两个关键词为近义词,直至文本数据中所有的关键词完成为止,以此确定归类文本数据集中的关键词对应的近义词集合。
具体地,通过对待归类文本数据集进行提取关键词的特征,根据关键词的关键词特征,来判断每两个关键词的关键词特征的相似度是否小于预设的相似阈值,若每两个关键词的关键词特征的相似度小于预设的相似阈值,则确定这两个关键词为近义词,对所待归类文本数据集中所有的关键词进行相似度比较,直至文本数据中所有的关键词完成为止,以此确定归类文本数据集中的关键词对应的近义词集合。若每两个关键词的关键词特征的相似度不小于预设的相似阈值,则流程结束,也就是说,如果不小于预设的相似阈值态,那么将不再执行文本数据的归类方法的后续步骤。即构建近义词集合,需要人工标注,例如【运动-健身】这个近义词对,我们会存起来,另一个近义词对【健身-健美】,此时我们可以通过并查集将【运动-健美】关联起来。我们需要将对于人工难以判断的,近义词的判断可以增加Embedding技术,即利用word2vec算法,计算出两个单词的向量,同时计算两个向量之间的距离,当该距离小于设置的阈值t时,判断两个单词为近义词。
本申请实施例中,提取待归类文本数据数据集中的关键词对应的近义词集合,以便为后续工作利用采用近义词来实现并查集的连通块匹配,进而对文本数据进行更快速的归类。
S202:基于预先标定的文本数据与关键词之间的映射关系以及所述关键词对应的近义词集合构建文本数据关键词节点并查集。
在步骤S202中,本申请中通过基于预先标定的文本数据与关键词之间的映射关系,结合所述关键词对应的近义词集合,进行构建文本数据关键词节点并查集。
可选地,构建文本数据关键词节点并查集,包括:
创建文本数据的全量内容表,所述全量内容表包括关键词、时间、标识以及存储位置;
基于预先标定的文本数据与关键词之间的映射关系,判断所述文本数据的全量内容表中关键词与所述关键词对应的近义词集合是否一致;
若所述文本数据的全量内容表中关键词与所述关键词对应的近义词集合一致,则将所对应的关键词提取出来,并构建文本数据关键词节点并查集。
可以理解的是,本申请中通过创建文本数据的全量内容表,所述全量内容表是已发布的所有文章的内容表,存在hive数据库中,包括关键词、时间、内容、标题以及存储位置,文本数据的全量内容表是多样化的,以医疗领域位例,文本数据的全量内容表可以包括医疗保险的产品名称、价格、性别、保障方案、保障年龄、保障期限、数量等关键词所对应的信息,基于预先标定的文本数据与关键词之间的映射关系,判断文本数据的全量内容表中关键词与关键词对应的近义词集合是否一致,若文本数据的全量内容表中关键词与关键词对应的近义词集合一致,则将所对应的关键词提取出来,并构建文本数据关键词节点并查集,若文本数据的全量内容表中关键词与关键词对应的近义词集合不一致,则流程结束,也就是说将不再执行文本数据的归类方法的后续步骤。对于全量内容表,每篇文本数据的关键词可能最多两个,首先提取每篇文本数据对应的item的关键词列表vector:【keyword1、keyword2】。其中keyword表示文本数据的中心思想关键词,如【运动、健身】。采用Python自带的分词库:jieba对关键词keyword的提取,构成文本数据item和vector列表对应关系——item:vector1,如一篇文本数据item1对应的vector是【运动、健身】等关键词,则存储形式为——item1:【运动、健身】。例如,jieba工具是对文本数据的标题进行分词提取。例如一篇文章的标题是“羽毛球运动是一项很好的健身项目”,通过jieba分词提取出来的关键词为【羽毛球,运动,健身】。
本申请实施例中,通过基于预先标定的文本数据与关键词之间的映射关系以及关键词对应的近义词集合构建文本数据关键词节点并查集,使得关键词提取更加准确,没有复杂的深度学习模型,以便于后续对关键词的处理以及根据关键词类型都对文本数据进行分类打好基础。
S203:遍历所述文本数据节点并查集中对应的连通块,按照各节点与根节点间的关联关系,对所述文本数据关键词节点并查集中的关键词节点进行分组,以根据分组结果确定文本数据的关键词类别。
在步骤S203中,再创建并查集之后,系统遍历文本数据节点并查集中对应的连通块,按照并查集中每个关键词各节点与根节点间的关联关系,对文本数据关键词节点并查集中的关键词节点进行分组,以根据分组结果确定文本数据的关键词类别,所对应的其并查集(Union-Find)是一种计算连通性的算法。首先初始化时每个节点都是指向自己的,如果节点u和节点v联通,那么他们一定拥有相同的根节点,这个过程是由find函数来完成的,find函数的主要功能是从某个节点递归遍历到树根。例如上面的近义词,运动和健身在加入并查集后是属于同一个连通块的,并且指向同一个根节点。当某一篇文章中的关键词出现运动或健身时,通过find函数查找,就能找到所属的根节点,用一个哈希表记录该根节点对应的文章就可完成分类。其连通块里面包含了所有近义词,且每个词的节点指向同一个根节点。
可选地,在遍历文本数据节点并查集中对应的连通块之前,包括:
初始化所述文本数据关键词节点并查集;
从所述文本数据关键词节点并查集中确定第一关键词节点与第二关键词节点,其中,所述第一关键词节点与所述第二关键词节点为通过连边相连的两个文本数据关键词拓扑节点;
搜索所述第一关键词节点与所述第二关键词节点的根节点,并将所述第一关键词节点的根节点与所述第二关键词节点的根节点合并。
遍历所述文本数据关键词节点并查集中的所有节点连边关系,确定所有第一节点、第二节点的根节点合并结果。
本实施例中,通过初始化文本数据关键词节点并查集,根据关键词节点并查集中的关键词拓扑节点,分别将各个关键词拓扑节点的根节点设为关键词拓扑节点本身。读取关键词拓扑节点,将节点node_id存储在字典集合Grid_dus中并进行初始化,使Grid_dus[node_id]=node_id。即初始化时,关键词所有节点的根节点均为该节点本身。设总节点数为N,则初始化后,Grid_dus中的根节点数量也为N。对于关键词中一条连接了节点m和节点n的连边e,分别查找m和n所指向的根节点记为rm和rn,令Grid_dus[rm]=rn。即通过关键词中连边e的连接关系,将节点m的根节点指向节点n的根节点。然后对关键词节点并查集中的任意一个起始节点,其根节点的查找过程如下:判断起始节点对应的根节点值是否等于起始节点,若是,则起始节点为自身的根节点。若否,则将起始节点对应的根节点更新为起始节点,然后继续执行查找。以此遍历所述文本数据关键词节点并查集中的所有节点连边关系,确定所有第一节点、第二节点的根节点合并结果。
可选地,按照各节点与根节点间的关联关系,对文本数据节点并查集中的关键词节点进行分组,包括:
遍历所述文本数据关键词节点并查集中对应的连通块,按照文本数据关键词节点并查集中各节点与根节点间的关联关系,判断当前的关键词是否与文本数据关键词节点并查集中对应的连通块一致;
若当前的关键词与文本数据关键词节点并查集中对应的连通块一致,则对所述文本数据节点并查集中的关键词节点进行分组,进而得到分组结果。
具体地,通过遍历文本数据关键词节点并查集中对应的连通块,按照文本数据关键词节点并查集中各节点与根节点间的关联关系,判断当前的关键词是否与文本数据关键词节点并查集中对应的连通块一致,若当前的关键词与文本数据关键词节点并查集中对应的连通块一致,则对文本数据节点并查集中的关键词节点进行分组,进而得到分组结果,若当前的关键词与文本数据关键词节点并查集中对应的连通块不一致,则流程结束,也就是说将不再执行文本数据的归类方法的后续步骤。即当针对上述文本数据item1对应的两个关键词,分别去并查集中查找对应的联通块,通过find函数查找对应的根节点,说明关键词运动或健身是和属于同一个联通块的,同时说明文本数据item1是找到了分类,此时利用哈希表将文章item1加入到根节点root对应的列表中:map[root].append(item1)。这样最后执行完并查集后就能清晰地知道哪些文章属于一个类了。
例如,本申请并查集连通块计算的流程:
1、将所有已知的词汇(假设有n个),从1到n编号,同时创建一个大小为n的并查集数组parent,里面每个位置存放一个词,令每个元素的父节点指向自己,即parent[i]=i。
2、如果两个单词是近义词,且他们的下标分别为i和j,则可以利用union函数将i和j联通起来,即parent[find(i)]=find(j),这样就能让两个索引的父节点指向同一个根节点,同时让i和j属于同一个连通块。
需要说明的是,最后遍历文本数据节点并查集中对应的连通块,对每个根节点,将所有指向该根节点的节点归为一组,每一组即对应一个关键词,由此即可得到文本数据的关键词分组结果。
可选地,根据分组结果确定文本数据的关键词类别,包括:
根据分组结果,确定文本数据的关键词的地域性特征以及权重;
根据所述关键词的地域性特征以及权重,确定文本数据的关键词类别。
具体地,通过关键词的分组结果,确定关键词中携带地域性特征以及关键词文本数据中所占的权重,地域特征是指关键词在文本数据中能够表征地域性的语义信息,例如,发布文本数据的所在地,文本数据中的地名、文本数据的发布主体的所在地,例如,文本数据的发布主体可以是某地保险公司、某地电视台等。文本数据的发布主体可以具有地域性,也可以不具有地域性。例如,当文本数据的发布主体是某地保险公司时,某地保险公司为地方性保险公司,通常仅针对当地事件进行报道,那么,文本数据的发布主体具有地域性,即文本数据为地域性文章。当文本数据的发布主体是全国性保险公司时,通常针对全国事件进行报道,那么,文本数据不具有地域性,文本数据为非地域性文章。权重是指关键词在文本数据中所占的比例,比如20%、60%或者90%等,本申请不做任何限定,以此通过根据关键词的地域性特征以及权重,确定文本数据的关键词类别。
本实施例中,通过并查集对文本数据关键词节点并查集中的关键词节点进行分组,以根据分组结果确定文本数据的关键词类别,以确保采用并查集时间复杂度则降低为了O(N*α(N)),没有复杂的深度学习模型,并查集实现方式更加简单,以此提高了文本数据关键词的处理效率,降低了系统复杂性和空间复杂度。
S204:根据文本数据的关键词类别,将得到关键词进行归类存入数据库中。
在步骤S204中,在确定文本数据的关键词类别后,将得到关键词进行归类存入数据库中,这样新来一篇文本数据就可以直接通过关键词来查找并查集中联通块,即可找到文章所属类,无需全量重复计算。
可选地,根据文本数据的关键词类别,将得到关键词进行归类存入数据库中,包括:
根据文本数据的关键词类别,判断下一篇的文本数据的关键词类别是否属于违反预设规则的关键词类别;
若下一篇的文本数据的关键词类别属于违反预设规则的关键词类别,则对下一篇的文本数据进行屏蔽;
若下一篇的文本数据的关键词类别不属于违反预设规则的关键词类别,则将得到关键词进行归类存入数据库中,且直接确定下一篇文本数据的所属类型。
具体地,根据文本数据的关键词类别,判断下一篇的文本数据的关键词类别是否属于违反预设规则的关键词类别,即判断下一篇的文本数据的关键词类别是否属于偏离医疗保险宗旨的关键词类别,若下一篇的文本数据的关键词类别属于偏离医疗保险宗旨的文章类别,则判定下一篇的文本数据的关键词类别属于违反预设规则的文章,并将下一篇的文本数据的关键词标记为偏离医疗保险宗旨文章类别,以此对下一篇的文本数据进行屏蔽,若下一篇的文本数据的关键词类别不属于违反预设规则的关键词类别,则将得到关键词进行归类存入数据库中,且直接确定下一篇文本数据的所属类型,这样新来一篇的文本数据就可以直接通过关键词来查找并查集中联通块,即可找到文章所属类,无需全量重复计算。
本实施例中,通过根据文本数据的关键词类别,将得到关键词进行归类存入数据库中,无需采用K-means和DBSCAN来聚类,进行全量重复计算,只需要并查集计算完后结果可以保存,使新来的文本数据可以通过find函数在已保存的关键词中查找根节点,大大优化了整个分类过程的时间复杂度和空间复杂度,提高了对文本数据归类的准确率。
综上所述,本发明提供了一种文本数据的归类方法、装置、设备及存储介质,可应用于医疗领域中的对保险产品的文本数据进行归类。通过获取待归类文本数据集,提取待归类文本数据数据集中的关键词对应的近义词集合,基于预先标定的文本数据与关键词之间的映射关系以及关键词对应的近义词集合构建文本数据关键词节点并查集,然后遍历文本数据节点并查集中对应的连通块,按照各节点与根节点间的关联关系,对文本数据关键词节点并查集中的关键词节点进行分组,以根据分组结果确定文本数据的关键词类别,将得到关键词进行归类存入数据库中。因此,本申请采用近义词来实现并查集的连通块进行匹配,以此降低了分类过程的时间复杂度和空间复杂度,无需重复计算,进一步的,通过根据文本数据的关键词类别,将得到关键词进行归类存入数据库中,直接确定下一篇文本数据的所属类型,提高了文本数据关键词的处理效率,提升了用户体验,保证用户匹配对应的医疗保险产品。
请参阅图3,图3是本发明实施例提供的文本数据的归类装置的结构示意图。本实施例中该终端包括的各单元用于执行图2对应的实施例中的各步骤。具体请参阅图2以及图2所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图3,文本数据的归类装置30包括:获取模块31,构建模块32,分组模块33,存入模块34。
获取模块31,用于获取待归类文本数据集,提取所述待归类文本数据数据集中的关键词对应的近义词集合;
构建模块32,用于基于预先标定的文本数据与关键词之间的映射关系以及所述关键词对应的近义词集合构建文本数据关键词节点并查集;
分组模块33,用于遍历所述文本数据节点并查集中对应的连通块,按照各节点与根节点间的关联关系,对所述文本数据关键词节点并查集中的关键词节点进行分组,以根据分组结果确定文本数据的关键词类别;
存入模块34,用于根据文本数据的关键词类别,将得到关键词进行归类存入数据库中。
可选地,上述获取模块31具体用于:
对所述关键词进行特征提取,得到所述关键词的关键词特征;
判断每两个关键词的关键词特征的相似度是否小于预设的相似阈值;
若每两个关键词的关键词特征的相似度小于预设的相似阈值,则确定这两个关键词为近义词,直至文本数据中所有的关键词完成为止,以此确定归类文本数据集中的关键词对应的近义词集合。
可选地,上述构建模块32具体用于:
创建文本数据的全量内容表,所述全量内容表包括关键词、时间、标识以及存储位置;
基于预先标定的文本数据与关键词之间的映射关系,判断所述文本数据的全量内容表中关键词与所述关键词对应的近义词集合是否一致;
若所述文本数据的全量内容表中关键词与所述关键词对应的近义词集合一致,则将所对应的关键词提取出来,并构建文本数据关键词节点并查集。
可选地,上述分组模块33之前具体用于:
初始化所述文本数据关键词节点并查集;
从所述文本数据关键词节点并查集中确定第一关键词节点与第二关键词节点,其中,所述第一关键词节点与所述第二关键词节点为通过连边相连的两个文本数据关键词拓扑节点;
搜索所述第一关键词节点与所述第二关键词节点的根节点,并将所述第一关键词节点的根节点与所述第二关键词节点的根节点合并。
遍历所述文本数据关键词节点并查集中的所有节点连边关系,确定所有第一节点、第二节点的根节点合并结果。
可选地,上述分组模块33具体用于:
遍历所述文本数据关键词节点并查集中对应的连通块,按照文本数据关键词节点并查集中各节点与根节点间的关联关系,判断当前的关键词是否与文本数据关键词节点并查集中对应的连通块一致;
若当前的关键词与文本数据关键词节点并查集中对应的连通块一致,则对所述文本数据节点并查集中的关键词节点进行分组,进而得到分组结果。
可选地,上述分组模块33还用于:
根据分组结果,确定文本数据的关键词的地域性特征以及权重;
根据所述关键词的地域性特征以及权重,确定文本数据的关键词类别。
可选地,上述存入模块34具体用于:
根据文本数据的关键词类别,判断下一篇的文本数据的关键词类别是否属于违反预设规则的关键词类别;
若下一篇的文本数据的关键词类别属于违反预设规则的关键词类别,则对下一篇的文本数据进行屏蔽;
若下一篇的文本数据的关键词类别不属于违反预设规则的关键词类别,则将得到关键词进行归类存入数据库中,且直接确定下一篇文本数据的所属类型。
需要说明的是,上述单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
图4是本发明实施例提供的一种计算机设备的结构示意图。如图4所示,该实施例的该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行计算机程序时实现上述任意各个文本数据的归类方法实施例中的步骤。
该计算机设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图4仅仅是计算机设备的举例,并不构成对计算机设备的限定,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括网络接口、显示屏和输入装置等。
在一实施例中,提供了一种计算机可读存储介质,当计算机可读存储介质中的指令由计算机设备中的处理器执行时,使得计算机设备能够执行如本发明公开的文本数据的归类方法的任一实施例的各个步骤,在此不重复赘述。所述计算机可读存储介质可以是非易失性,也可以是易失性。
所称处理器可以是CPU,该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器包括可读存储介质、内存储器等,其中,内存储器可以是计算机设备的内存,内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。可读存储介质可以是计算机设备的硬盘,在另一些实施例中也可以是计算机设备的外部存储设备,例如,计算机设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,该其他程序如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种文本数据的归类方法,其特征在于,包括:
获取待归类文本数据集,提取所述待归类文本数据数据集中的关键词对应的近义词集合;
基于预先标定的文本数据与关键词之间的映射关系以及所述关键词对应的近义词集合构建文本数据关键词节点并查集;
遍历所述文本数据节点并查集中对应的连通块,按照各节点与根节点间的关联关系,对所述文本数据关键词节点并查集中的关键词节点进行分组,以根据分组结果确定文本数据的关键词类别;
根据文本数据的关键词类别,将得到关键词进行归类存入数据库中。
2.如权利要求1所述的文本数据的归类方法,其特征在于,所述遍历所述文本数据节点并查集中对应的连通块之前,包括:
初始化所述文本数据关键词节点并查集;
从所述文本数据关键词节点并查集中确定第一关键词节点与第二关键词节点,其中,所述第一关键词节点与所述第二关键词节点为通过连边相连的两个文本数据关键词拓扑节点;
搜索所述第一关键词节点与所述第二关键词节点的根节点,并将所述第一关键词节点的根节点与所述第二关键词节点的根节点合并。
遍历所述文本数据关键词节点并查集中的所有节点连边关系,确定所有第一节点、第二节点的根节点合并结果。
3.如权利要求1所述的文本数据的归类方法,其特征在于,所述提取所述待归类文本数据集中的关键词对应的近义词集合,包括:
对所述关键词进行特征提取,得到所述关键词的关键词特征;
判断每两个关键词的关键词特征的相似度是否小于预设的相似阈值;
若每两个关键词的关键词特征的相似度小于预设的相似阈值,则确定这两个关键词为近义词,直至文本数据中所有的关键词完成为止,以此确定归类文本数据集中的关键词对应的近义词集合。
4.如权利要求1所述的文本数据的归类方法,其特征在于,所述遍历所述文本数据关键词节点并查集中对应的连通块,按照各节点与根节点间的关联关系,对所述文本数据节点并查集中的关键词节点进行分组,包括:
遍历所述文本数据关键词节点并查集中对应的连通块,按照文本数据关键词节点并查集中各节点与根节点间的关联关系,判断当前的关键词是否与文本数据关键词节点并查集中对应的连通块一致;
若当前的关键词与文本数据关键词节点并查集中对应的连通块一致,则对所述文本数据节点并查集中的关键词节点进行分组,进而得到分组结果。
5.如权利要求1所述的文本数据的归类方法,其特征在于,所述根据分组结果确定文本数据的关键词类别,包括:
根据分组结果,确定文本数据的关键词的地域性特征以及权重;
根据所述关键词的地域性特征以及权重,确定文本数据的关键词类别。
6.如权利要求1所述的文本数据的归类方法,其特征在于,所述基于预先标定的文本数据与关键词之间的映射关系以及所述关键词对应的近义词集合构建文本数据关键词节点并查集,包括:
创建文本数据的全量内容表,所述全量内容表包括关键词、时间、标识以及存储位置;
基于预先标定的文本数据与关键词之间的映射关系,判断所述文本数据的全量内容表中关键词与所述关键词对应的近义词集合是否一致;
若所述文本数据的全量内容表中关键词与所述关键词对应的近义词集合一致,则将所对应的关键词提取出来,并构建文本数据关键词节点并查集。
7.如权利要求1所述的文本数据的归类方法,其特征在于,所述根据文本数据的关键词类别,将得到关键词进行归类存入数据库中,包括:
根据文本数据的关键词类别,判断下一篇的文本数据的关键词类别是否属于违反预设规则的关键词类别;
若下一篇的文本数据的关键词类别属于违反预设规则的关键词类别,则对下一篇的文本数据进行屏蔽;
若下一篇的文本数据的关键词类别不属于违反预设规则的关键词类别,则将得到关键词进行归类存入数据库中,且直接确定下一篇文本数据的所属类型。
8.一种文本数据的归类装置,其特征在于,包括:
获取模块,用于获取待归类文本数据集,提取所述待归类文本数据数据集中的关键词对应的近义词集合;
构建模块,用于基于预先标定的文本数据与关键词之间的映射关系以及所述关键词对应的近义词集合构建文本数据关键词节点并查集;
分组模块,用于遍历所述文本数据节点并查集中对应的连通块,按照各节点与根节点间的关联关系,对所述文本数据关键词节点并查集中的关键词节点进行分组,以根据分组结果确定文本数据的关键词类别;
存入模块,用于根据文本数据的关键词类别,将得到关键词进行归类存入数据库中。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的文本数据的归类方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的文本数据的归类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310899629.3A CN116821347A (zh) | 2023-07-20 | 2023-07-20 | 一种文本数据的归类方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310899629.3A CN116821347A (zh) | 2023-07-20 | 2023-07-20 | 一种文本数据的归类方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116821347A true CN116821347A (zh) | 2023-09-29 |
Family
ID=88127563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310899629.3A Pending CN116821347A (zh) | 2023-07-20 | 2023-07-20 | 一种文本数据的归类方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116821347A (zh) |
-
2023
- 2023-07-20 CN CN202310899629.3A patent/CN116821347A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2866421B1 (en) | Method and apparatus for identifying a same user in multiple social networks | |
Velardi et al. | Ontolearn reloaded: A graph-based algorithm for taxonomy induction | |
US20220237230A1 (en) | System and method for automated file reporting | |
CN111639190A (zh) | 医疗知识图谱构建方法 | |
CN112015917A (zh) | 基于知识图谱的数据处理方法、装置及计算机设备 | |
CN108509484B (zh) | 分类器构建及智能问答方法、装置、终端及可读存储介质 | |
CN105378731A (zh) | 从被回答问题关联语料库/语料值 | |
CN110569349B (zh) | 基于大数据的患教文章推送方法、系统、设备及存储介质 | |
CN113449187A (zh) | 基于双画像的产品推荐方法、装置、设备及存储介质 | |
WO2022121163A1 (zh) | 用户行为倾向识别方法、装置、设备及存储介质 | |
WO2020215675A1 (zh) | 医疗数据库的构建方法、装置、计算机设备和存储介质 | |
CN112035614B (zh) | 测试集生成方法、装置、计算机设备和存储介质 | |
US11625935B2 (en) | Systems and methods for classification of scholastic works | |
CN112395875A (zh) | 一种关键词提取方法、装置、终端以及存储介质 | |
Wanyan et al. | Deep learning with heterogeneous graph embeddings for mortality prediction from electronic health records | |
CN111696656B (zh) | 一种互联网医疗平台的医生评价方法、装置 | |
CN111177356A (zh) | 一种酸碱指标医疗大数据分析方法及系统 | |
WO2022227171A1 (zh) | 关键信息提取方法、装置、电子设备及介质 | |
CN109144999B (zh) | 一种数据定位方法、装置及存储介质、程序产品 | |
CN113988878B (zh) | 一种基于图数据库技术的反欺诈方法及系统 | |
CN111986815B (zh) | 基于共现关系的项目组合挖掘方法及相关设备 | |
US20170293863A1 (en) | Data analysis system, and control method, program, and recording medium therefor | |
CN116821347A (zh) | 一种文本数据的归类方法、装置、设备及存储介质 | |
CN114067343A (zh) | 一种数据集的构建方法、模型训练方法和对应装置 | |
Yoon et al. | Ontology population from unstructured and semi-structured texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |