CN112069318B - 基于lda的母婴问题聚类分析方法、装置、计算机存储介质 - Google Patents
基于lda的母婴问题聚类分析方法、装置、计算机存储介质 Download PDFInfo
- Publication number
- CN112069318B CN112069318B CN202010931361.3A CN202010931361A CN112069318B CN 112069318 B CN112069318 B CN 112069318B CN 202010931361 A CN202010931361 A CN 202010931361A CN 112069318 B CN112069318 B CN 112069318B
- Authority
- CN
- China
- Prior art keywords
- topic
- topics
- value
- initial
- information value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000007621 cluster analysis Methods 0.000 title claims abstract description 53
- 230000008774 maternal effect Effects 0.000 title claims abstract description 52
- 238000004364 calculation method Methods 0.000 claims abstract description 60
- 238000004458 analytical method Methods 0.000 claims abstract description 52
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 37
- 230000002776 aggregation Effects 0.000 claims abstract description 18
- 238000004220 aggregation Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 230000010354 integration Effects 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 22
- 208000024891 symptom Diseases 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 8
- 230000008569 process Effects 0.000 abstract description 9
- 238000007781 pre-processing Methods 0.000 description 8
- 230000000052 comparative effect Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 235000013336 milk Nutrition 0.000 description 6
- 210000004080 milk Anatomy 0.000 description 6
- 239000008267 milk Substances 0.000 description 6
- 206010012735 Diarrhoea Diseases 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 230000008451 emotion Effects 0.000 description 5
- 208000031361 Hiccup Diseases 0.000 description 4
- 206010067171 Regurgitation Diseases 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 210000001015 abdomen Anatomy 0.000 description 3
- 230000009849 deactivation Effects 0.000 description 3
- 239000006041 probiotic Substances 0.000 description 3
- 235000018291 probiotics Nutrition 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 210000004251 human milk Anatomy 0.000 description 2
- 235000020256 human milk Nutrition 0.000 description 2
- 230000000699 topical effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 206010010774 Constipation Diseases 0.000 description 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 206010020751 Hypersensitivity Diseases 0.000 description 1
- 208000026935 allergic disease Diseases 0.000 description 1
- 230000007815 allergy Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 229920000912 exopolymer Polymers 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
- G06F18/21322—Rendering the within-class scatter matrix non-singular
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供的一种基于LDA的母婴问题聚类分析方法、装置、计算机存储介质;先后进行依存句法分析、核心主体词抽取等处理形成聚类语料;在初始主题数的条件下结合LDA算法对聚类语料库实施建模求解得到各主题以及主题下的关键词集合;计算各个主题与整体所有主题的相关性数值(外聚整合计算)再进行计算同一主题下任意两个关键词之间互信息值(内聚计算);相关性数值和互信息值进行加权得到各主题的信息值:不断验算修改后的初始主题数直至满足预设目标条件,验算得到目标主题数以及最优聚类分析结果;通过上述聚类分析方法,可实现对母婴领域聚类语料库实现精准高效聚类分析,进而对聚类语料库具有重要意义。
Description
技术领域
本发明涉及母婴问题互联网信息分析技术领域,具体地涉及一种基于LDA的母婴问题聚类分析方法、装置、计算机存储介质。
背景技术
当今社会,互联网已经渗透到人们的日常生活中,微博、论坛、博客等即时通信工具已经成为人们获取信息,进而发表看法、传播信息的重要渠道。同时借助移动终端网络的发展,多种应用APP也得到了迅速的发展;伴随着母婴类应用APP的发展,带来的后果是文本信息呈现爆炸式增长,其中母婴类应用APP其基本都是母婴相关信息,涉及到的母婴问题占据了相当重要的比例。但是,如何从众多母婴问题中快速获取到主题类别,从而有效的捕捉热门主题就变得尤为重要。我研究人员发现,由于中文句子语法结构的复杂,语义的多变性等特点以及凭借直觉手动对聚类主题数进行设置与调整,使得获得最优聚类结果,大大增加难度。
常规的现有技术技术方案涉及中文句子的语义分析方法,检索如下:举例说明,现有技术中存在一种短文本聚类分析方法(对比专利1:CN201811517917.3短文本聚类分析方法、装置和终端设备);对比专利1所涉及方法包括:获取待聚类的短文本数据集,并对短文本数据集进行预处理得到包括至少三种词性的初始词集;对初始词集进行特征提取得到包括主题特征词集和主题关联词集的特征词集;根据主题特征词集和主题关联词集的相关性确定预设个数的主题特征词和主题关联词,主题特征词与主题关联词一一对应组成知识对;将预设个数的知识对输入到LDA中进行聚类并确定该待聚类的短文本数据集的情感主题。上述对比专利1优化了文本分析算法,能够更准确地进行短文本的情感主题聚类,提高短文本聚类的效率。
常规的现有技术技术方案还涉及了文本聚类分析方法,举例说明如对比专利2:CN201410432539.4一种基于文本分类和聚类分析的网络热点事件发现方法;将物理或抽象对象的集合分成由类似对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。话题发现与跟踪技术是一项针对新闻信息进行话题的提取和后续跟踪的信息处理技术。对比专利2认为热点事件发现是要发现某个以前未知的热点话题,它实际上是一个聚类过程,聚类形成的每个簇都表示一个话题,话题可以通过不同的聚类方法来发现。不过,单纯通过聚类发现热点事件,存在准确率不高和效率低下的问题。对比专利2提出的一种准确率高且效率高达方法,包括利用训练语料库通过特征词提取和特征选择为各类别文本分别选取特征词,再采用向量空间模型法将每个训练文本和测试文本表示为在所有特征空间中的向量,并确定向量中每一维的权重,然后对各个测试文本进行分类,再对分好类的各个类别的测试文本分别进行聚类分析,得到各个类别的热点簇,再分析得到代表热点事件的特征词,进而分析热点各个特征词的词性等,再利用相关语言知识,通过必要的语言组织生成热点事件的描述。
终上所述,专家学者们提出了采用相似度的方法对主题间各关键词的相似度进行计算,但是,现有技术的上述操作并没有考虑主题内部关键词的相关性。同时,由于母婴问题中通常包含多个干扰词,并且通常干扰词涉及多个类别,这在一定程度上影响聚类的精度,研究发现应用上述现有方法聚类分析母婴问题可能出现较大偏差,聚类精度不高。
发明内容
有鉴于此,本发明提供一种基于LDA的母婴问题聚类分析方法、装置、计算机存储介质,用以解决上述技术问题。
一方面,本发明实施例提供了一种基于LDA的母婴问题聚类分析方法,包括:
基于LTP对面向母婴领域的语料库中的待聚类文本进行依存句法分析,得到依存句法分析结果;根据预设核心要素在所述依存句法分析结果中位置进行核心主体词抽取操作,得到当前待聚类文本中的核心主体词集合从而形成聚类语料;收集海量的所述聚类预料形成聚类语料库,随机设置初始主题数,在初始主题数的条件下结合LDA算法对所述聚类语料库实施建模求解得到各主题以及主题下的关键词集合;其中,所述预设核心要素包括月龄、人群、症状;
基于上述处理得到多个所述主题下的关键词集合,计算任意两个主题词之间的相似度,得到任意两个主题间的相似度值,汇总多个任意两个主题间的相似度值得到各主题间的相似度值;
基于任意两个主题间的相似度值的结果,同时参考第一平均绝对误差方式计算得到当前主题与整体所有主题的相关性数值;汇总得到各个主题与整体所有主题的相关性数值;
计算同一主题下任意两个关键词之间互信息值,同时参考第二平均绝对误差方式,计算得到当前主题的内部关键词的互信值,从而计算得到各主题的内部关键词的互信息值;
通过以上步骤计算的各个主题与整体所有主题的相关性数值和各主题的内部关键词的互信息值,对当前主题对应的所述相关性数值以及所述互信息值这两个值进行加权,得到各主题的信息值:
在初始主题数的条件下,判断计算所述初始主题数下对应的所有主题的信息值均值I(N)是否满足预设目标条件;若否,则根据预设步长,在所述初始主题数基础上以所述预设步长为单位增量修改增加所述初始主题数的数值,不断验算修改后的初始主题数对应的所有主题的信息值均值I(N)是否满足预设目标条件,直至验算在满足预设目标条件时对应的修改后的初始主题数为目标主题数,且所述目标主题数为最优主题个数,且所述目标主题数对应的当前得到的结果也是最优聚类结果;
其中,所述预设目标条件为所有主题的信息值均值I(N)小于主题信息值阈值或者所有主题的信息值均值I(N)达到稳定状态。
另一方面,本发明还提供了一种基于LDA的母婴问题聚类分析装置,所述装置包括初始计算模块、外聚计算模块、外聚整合处理模块、内聚计算模块、信息值加权计算模块、迭代验算求解模块,其中:
初始计算模块,用于基于LTP对面向母婴领域的语料库中的待聚类文本进行依存句法分析,得到依存句法分析结果;根据预设核心要素在所述依存句法分析结果中位置进行核心主体词抽取操作,得到当前待聚类文本中的核心主体词集合从而形成聚类语料;收集海量的所述聚类预料形成聚类语料库,随机设置初始主题数,在初始主题数的条件下结合LDA算法对所述聚类语料库实施建模求解得到各主题以及主题下的关键词集合;其中,所述预设核心要素包括月龄、人群、症状;
外聚计算模块,用于基于上述处理得到多个所述主题下的关键词集合,计算任意两个主题词之间的相似度,得到任意两个主题间的相似度值,汇总多个任意两个主题间的相似度值得到各主题间的相似度值;
外聚整合处理模块,用于基于任意两个主题间的相似度值的结果,同时参考第一平均绝对误差方式计算得到当前主题与整体所有主题的相关性数值;汇总得到各个主题与整体所有主题的相关性数值;
内聚计算模块,用于计算同一主题下任意两个关键词之间互信息值,同时参考第二平均绝对误差方式,计算得到当前主题的内部关键词的互信值,从而计算得到各主题的内部关键词的互信息值;
信息值加权计算模块,用于通过以上步骤计算的各个主题与整体所有主题的相关性数值和各主题的内部关键词的互信息值,对当前主题对应的所述相关性数值以及所述互信息值这两个值进行加权,得到各主题的信息值:
迭代验算求解模块,用于在初始主题数的条件下,判断计算所述初始主题数下对应的所有主题的信息值均值I(N)是否满足预设目标条件;若否,则根据预设步长,在所述初始主题数基础上以所述预设步长为单位增量修改增加所述初始主题数的数值,不断验算修改后的初始主题数对应的所有主题的信息值均值I(N)是否满足预设目标条件,直至验算在满足预设目标条件时对应的修改后的初始主题数为目标主题数,且所述目标主题数为最优主题个数,且所述目标主题数对应的当前得到的结果也是最优聚类结果;其中,所述预设目标条件为所有主题的信息值均值I(N)小于主题信息值阈值或者所有主题的信息值均值I(N)达到稳定状态。
相应地,本发明还提供了一种计算机存储介质,所述计算机存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机存储介质所在设备执行上述基于LDA的母婴问题聚类分析方法。
与现有技术相比本发明实施例至少存在如下方面的技术优势:
如何从众多母婴问题中快速获取到主题类别,从而有效的捕捉热门主题就变得尤为重要。然而,由于中文句子语法结构的复杂,语义的多变性等特点,以及凭借直觉手动对聚类主题数进行设置与调整,使得获得最优聚类结果,大大增加难度。
鉴于此,本发明实施例提供的技术方案中,本发明实施例提供了基于LDA的母婴问题聚类分析,其首先,对聚类文本进行分词,去停用词等预处理操作,并对聚类文本进行句法分析,基于一定的句法规则,保留待聚类文本中能表达文本核心思想的主体词,得到聚类语料库;然后采用LDA模型和初始主题个数,对聚类语料进行建模和求解,从而得到文本-主题矩阵和主题-词矩阵;然后,针对得到的主题-词矩阵,采用word2vec算法,得到各主题间的关键词相似度;基于聚类语料以及互信息方法得到主题内部关键词的相似度;本发明实施例提供的基于LDA的母婴问题聚类分析,兼具主题外聚分析计算,外聚整合计算,内聚计算最后创造性得到一个新的技术概念(各主题的信息值),最后通过不断迭代主题个数,计算主题与整体所有主题的相关性数值以及各主题的内部关键词的互信息值(主题的信息值由主题与整体所有主题的相关性数值和各主题的内部关键词的互信息值决定),获取到最优主题数以及最优聚类结果。
附图说明
图1是本发明实施例一所提供的基于LDA的母婴问题聚类分析方法的流程图;
图2是本发明实施例一应用LTP进行句法分析的结果图;
图3是本发明实施例一所提供的基于LDA的母婴问题聚类分析方法中的一具体操作流程图;
图4是本发明实施例一所提供的基于LDA的母婴问题聚类分析方法中的另一具体操作流程图;
图5是本发明实施例二所提供的基于LDA的母婴问题聚类分析方法的流程图;
图6是本发明实施例三所提供的基于LDA的母婴问题聚类分析装置的结构原理示意图;
图7为本发明实施例五提供的计算机的原理示意图。
标号:初始计算模块11;外聚计算模块12;外聚整合处理模块13;内聚计算模块14;信息值加权计算模块15;迭代验算求解模块16;计算机设备4;处理器41;存储器42。
具体实施方式
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一
图1为本发明一实施例一提供的一种基于LDA的母婴问题聚类分析方法的流程图,如图1所示,该方法包括:
步骤S101:基于LTP对面向母婴领域的语料库中的待聚类文本进行依存句法分析,得到依存句法分析结果;根据预设核心要素在所述依存句法分析结果中位置进行核心主体词抽取操作,得到当前待聚类文本中的核心主体词集合从而形成聚类语料;收集海量的所述聚类预料形成聚类语料库,随机设置初始主题数,在初始主题数的条件下结合LDA算法对所述聚类语料库实施建模求解得到各主题以及主题下的关键词集合;其中,所述预设核心要素包括月龄、人群、症状;(本发明实施例所应用的步骤S101涉及了,基于LTP对面向母婴领域的语料库中的文本进行依存句法分析,得到依存句法分析结果;同时参照月龄,人群,症状等要素在句子中充当的句法成分,总结句法规则,保留文本中的核心主体词,形成聚类语料,参与聚类操作。在得到聚类语料后(聚类语料库),并结合LDA算法和初始主题数,建模求解得到各主题以及主题下的关键词集合);
步骤S102:基于上述处理得到多个所述主题下的关键词集合,计算任意两个主题词之间的相似度,得到任意两个主题间的相似度值,汇总多个任意两个主题间的相似度值得到各主题间的相似度值;即步骤S102执行对任意两个主题间的相关性计算,研究人员总结为外聚计算操作;
步骤S103:基于任意两个主题间的相似度值的结果,同时参考第一平均绝对误差方式计算得到当前主题与整体所有主题的相关性数值;汇总得到各个主题与整体所有主题的相关性数值(即步骤S103执行对外聚整合计算操作,研究人员发现简单计算两个主题间的相似度值并不能直接且准确代表主题与主题的相关性,对此本实施例根据两个主题间的相似度值的结果,同时参考平均绝对误差的思想,得到当前主题与整体所有主题间的的相关性数值来代表当前主题与其他主题的相关性关系(即实际上为主题关键词之间),减少了单一两个主题之间计算的误差影响);
步骤S104:计算同一主题下任意两个关键词之间互信息值,同时参考第二平均绝对误差方式,计算得到当前主题的内部关键词的互信值,从而计算得到各主题的内部关键词的互信息值(即步骤S104执行计算得到各主题内部关键词的相关性,本实施例的研究人员总结为外聚计算操作;同理在计算同一主题下的内部关键词的相关性时也参考了平均绝对误差思想);
步骤S105:通过以上步骤计算的各个主题与整体所有主题的相关性数值和各主题的内部关键词的互信息值,对当前主题对应的所述相关性数值以及所述互信息值这两个值进行加权,得到各主题的信息值(即步骤S105执行,采用特定的加权策略对上述两个值进行加权,得到主题的信息值,利用主题的信息值来进行初始主题数下最优聚类结果的验证);
步骤S106:在初始主题数的条件下,判断计算所述初始主题数下对应的所有主题的信息值均值I(N)是否满足预设目标条件;若否,则根据预设步长,在所述初始主题数基础上以所述预设步长为单位增量修改增加所述初始主题数的数值,不断验算修改后的初始主题数对应的所有主题的信息值均值I(N)是否满足预设目标条件,直至验算在满足预设目标条件时对应的修改后的初始主题数为目标主题数,且所述目标主题数为最优主题个数,且所述目标主题数对应的当前得到的结果也是最优聚类结果;
其中,所述预设目标条件为所有主题的信息值均值I(N)小于主题信息值阈值或者所有主题的信息值均值I(N)达到稳定状态。
在上述步骤S101之前还包括执行对待聚类文本进行预处理的操作;
步骤S100:预处理包括对待聚类文本进行分词和去停用词的处理操作。需要说明的是,上述预处理即对面向母婴领域的语料库中的待聚类文本进行预处理(分词和去停用词的处理操作);分词是将整段待聚类文本进行词分割处理;另外去停用词操作,将待聚类文本中没有实际意义得干扰数据进行丢弃,如:一些表情符号等,上述分词以及去停用词的处理操作为常规技术手段,对此本发明实施例不再赘述。对待聚类文本进行分词和去停用词的处理操作后实际上是为了后续的依存句法分析提供基础。
举例说明:如图2所示的,待聚类文本为“三个月的宝宝,出现吐奶和打嗝,怎么办”。然后进行分词和去停用词处理得到,“三个月,宝宝,吐奶,打嗝,怎么办”;然后基于LTP的依存句法分析,对聚类语料库中文本进行句法分析。本发明实施例中的文本聚类分类过程实际上是对文本的模式特征进行识别,其中前处理过程包括预处理、特征提取、求解得到各主题以及主题下的关键词集合、设置初始主题数,以及求解初始主题数条件下的对应的聚类结果;随后再进行后续的相关性分析以及相关性验证操作。
参见图3,在上述步骤S101中,根据预设核心要素在根据依存句法分析结果中位置进行核心主体词抽取操作,得到当前待聚类文本中的核心主体词集合从而形成聚类语料,具体包括如下操作步骤:
步骤S1011:获取依存句法分析结果,根据预设核心要素在依存句法分析结果中位置,得到当前待聚类文本中的主体核心词遵循的句法规则;
步骤S1012:然后按照上述句法规则,对当前待聚类文本中对应的核心主体词进行抽取操作,抽取后得到当前待聚类文本中的核心主体词集合就是聚类语料。
同样参见图2,获取句法分析结果如图2所示;根据母婴领域独特特点,研究人员根据大量实验验证,认为月龄,人群,症状是重要的核心要求,可以作为预设核心要素使用;然后根据预设核心要素在依存句法分析结果中位置,就可以得到当前待聚类文本中的主体核心词遵循的句法规则;如图2所示,具体句法规则为HED→SBV→ATT,HED→VOB,HED→VOB→COO;然后根据以上三条句法规则直接获取有关月龄,人群,症状要素集合,得到当前待聚类文本中对应的核心主体词集合(即“三个月,吐奶,打嗝”);抽取后得到当前待聚类文本中的核心主体词集合就是聚类语料,可参与后续的聚类操作;即上述案例的三个核心主题词为“三个月,吐奶,打嗝”;然后收集海量的聚类预料形成聚类语料库,随后在初始主题数条件下对该聚类语料库进行聚类分析,验证得到一个初始的聚类结果,最后反复迭代修改初始主题数并验证,最终得到一个最优主题数(本发明实施例所应用的基于LDA的母婴问题聚类分析方法是对特定的聚类语料库形成特定的聚类分析方法)。
参见图4,在上述步骤S101具体执行中,在初始主题数的条件下结合LDA算法对聚类语料库实施建模求解得到各主题以及主题下的关键词集合,具体包括如下操作步骤:
步骤S1013:对聚类语料库进行向量化操作,得到文本向量矩阵和词袋模型(对聚类语料库进行向量化操作可得到文本向量矩阵和词袋模型属于常规技术,对此不再赘述);
步骤S1014:然后结合LDA算法对文本向量矩阵进行建模和矩阵求解,从而得到初始主题数对应的文本-主题矩阵和主题-词矩阵(该操作可以得到初始主题数对应的聚类结果),并结合词袋模型获得各主题下的关键词集合(利用词袋模型获得各主题下的关键词集合属于常规技术,对此不再赘述)。
至此执行步骤S101流程结束。
在步骤S101中,本实施例上述聚类语料的形成过程具有特定的技术意义:根据预设核心要素在依存句法分析结果中位置进行核心主体词抽取操作,得到当前待聚类文本中的核心主体词集合从而形成聚类语料;收集海量的聚类预料形成聚类语料库(根据核心要素计算核心主体词集合最终形成的聚类语料,特别适用母婴领域的问题聚类分析);
在步骤S101中,关于初始主题数需要说明的是:在形成聚类语料库后,可以随机对该聚类语料库的初始主题数进行设计,然后进行聚类以及验算操作;上述初始主题数是随机进行设置的;例如:某个实施例情况下,随机设置的初始主题数是三个(例如:主题1,主题2以及主题3),在执行步骤S101时结合LDA算法,在三个初始主题数的条件下求解主题1的关键词集合,主题2的关键词集合以及主题3下的关键词集合;举例说明,初始设置主题个数为3,采用LDA算法得到的各主题下的关键词集合为(上述步骤在某个案例说明):Topic1(大便,腹泻,肚子,益生菌);Topic2(睡觉,母乳,吐奶,夜醒);Topic3(辅食,拉肚子,便秘,过敏)。上述Topic1为主题1,Topic2为主题2,Topic3为主题3,且上述主题后面括号内容为该主题下的关键词集合。
关于LDA算法:LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,包含词、主题和文档(或称文本)三层结构。LDA模型的生成可以理解为:LDA模型认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。关于LDA算法在本发明实施例中的应用,通过引入LDA模型对聚类语料进行向量化、建模和矩阵求解,从而得到主题-词的映射关系,进一步获得各主题下的关键词集合。同样初始主题数为3为例,以即在本发明实施例{3个主题数的条件下}则得到主题1,主题2,主题3下的关键词集合;本发明实施例应用的LDA算法是常规技术手段,对此不再赘述。
关于相关词语解释:上述“主题”与“核心主体词”没有直接关系;“核心主体词”是语料中的核心词,即人群,月龄,症状等;然而,上述“主题”是经过算法聚类之后的结果,且“主题”下的关键词是核心主体词集合的子集。
在步骤S102中,基于上述处理得到多个主题下的关键词集合,计算任意两个主题词之间的相似度,得到任意两个主题间的相似度值,具体包括如下操作步骤:
步骤S1021:基于上述处理得到多个主题下的关键词集合,对任意两个主题下的关键词集合进行相似度计算,从而得到任意两个主题间的相似度值。
在本发明实施例的具体技术方案中,在针对两个主题的相关性,用两个主题下的关键词集合的相似度来体现。当然,本实施例采用多种方式来求解主题间的相似度值,举例说明,本发明实施例可按照混合策略的中文文本相似度算法计算两个主题下关键词集合的相似度值,进而得到两个主题间的相关性值。当然采用其他相似度算法进行计算,同样适用于本发明实施例,对此本发明实施例不再赘述。
在上述步骤S103具体执行中,基于任意两个主题间的相似度值的结果,同时参考第一平均绝对误差方式计算得到当前主题与整体所有主题的相关性数值,具体包括如下操作步骤:
步骤S1031:基于任意两个主题间的相似度值的结果进行计算,其中1-N共计有N个主题(即N也等于初始主题数),所有主题表示为(Topic1,...,TopicN);simi(Topici,Topicj)表示为任意两个主题(Topici,Topicj)的相似度值;上述Topici,Topicj代表任意两个主题;
步骤S1032:将上述任意两个主题间的相似度值参考第一平均绝对误差方式求解平均值,得到当前主题对于整体所有主题的相关性数值为:
上述Topici,Topicj代表任意两个主题;
至此执行步骤S103的操作结束。
在本发明实施例步骤S103所涉及的具体技术方案中,本发明实施例还采用的特定的技术手段,例如采用了主题与整体所有主题的相关性数值来进行外聚整合计算操作;同样以上述初始主题数为3的案例情况下,如果基于步骤S102中的方法,得到simi(Topic1,Topic2)=0.3代表主题1与主题2的相似度值,simi(Topic1,Topic3)=0.7代表主题1与主题3的相似度值,则Topic1与所有主题的相关性为:
利用上述步骤S103的执行操作可以理解为主题Topic1(也称主题1)与整体所有主题的相关性。
在上述步骤S104具体执行中,计算同一主题下任意两个关键词之间互信息值,同时参考第二平均绝对误差方式,计算得到当前主题的内部关键词的互信值,从而计算得到各主题的内部关键词的互信息值,具体包括如下操作步骤:
步骤S1041:计算同一主题下任意两个关键词之间互信息值,其中中的H表达为互信息值;
步骤S1042:同时参考第二平均绝对误差方式,计算得到当前主题的内部关键词的互信值为:
其中,上述其中/>代表当前某个主题内部的任意两个关键词;M为当前某个主题内部关键词的总个数。
至此执行步骤S104的操作结束。
在本发明实施例步骤S104所涉及的具体技术方案中,计算同一主题下任意两个关键词之间互信息值,是对主题内部的关键词相关性进行的计算(即本实施例认定其为内聚计算操作);基于母婴领域语料,考虑关键词的共现次数,计算主题下的任意两个关键词的互信息值;然后同样参考平均绝对误差的思想,得到各主题内部关键词的相关性(即计算得到当前主题的内部关键词的互信值)。同样以上述初始主题数为3的案例情况下,具体地,针对主题下关键词集合C1中的关键词从而计算得到两个关键词的互信息值同样参考平均绝对误差的思想,针对主题下的关键词集合C1则这个主题内部关键词的相关性为:/>
需要解释的是,上述C1是Topic1主题下的关键词集合,且只是表示,关键词C1集合中的任意一个关键词;
例如:以上述步骤S101中列举的主题实例继续说明,则Topic1(大便,腹泻,肚子,益生菌)内部关键词的相关性可以用公式表示为:
其中各个子项H(大便,腹泻)等具体的值,可以基于语料库以及互信息值的计算公式得到,从而得到主题Topic1内部的关键词的相关性。
在上述步骤S105具体执行中,通过以上步骤计算的各个主题与整体所有主题的相关性数值和各主题的内部关键词的互信息值,对当前主题对应的相关性数值以及互信息值这两个值进行加权,得到各主题的信息值,具体包括如下操作步骤:
步骤S1051:基于以上步骤计算的得到当前主题对于整体所有主题的相关性数值simi(Topici,(Topic1,…,TopicN))和各主题的内部关键词的互信息值
步骤S1052:对当前主题对应的相关性数值以及互信息值这两个值进行加权,得到当前主题的信息值 其中R表达主题的信息值,δ为权重调节因子,H表达为互信息值。
至此执行步骤S105的操作结束。
在本发明实施例步骤S105所涉及的具体技术方案中,上述实施例在执行步骤S105实际上是对主题的信息值的计算过程,该计算方式是本实施例的重要技术创新点之一(在母婴领域特定技术条件下的实施的主题聚类分析技术点之一);
鉴于最优聚类效果的表现为各主题间相关性低,各主题内部的相关性高,但是,考虑到语料的完整性可能影响互信息值计算得精确性,所以按照不同的权值对两部分结果进行加权,得到主题信息值。加权计算公式为
其中R表达主题的信息值,δ为权重调节因子,H表达为互信息值。
因此是上述主题信息值是本实施例的创新概念之一,其实际上是一种加权后优化的数值。主题对于整体所有主题的相关性值为simi(Topici,(Topic1,…,TopicN))和各主题内部关键词的互信息值为鉴于最优聚类效果的表现为各主题间相关性低,各主题内部的相关性高,但是,考虑到语料的完整性可能影响互信息值计算得精确性,所以按照不同的权值对两部分结果进行加权,得到主题信息值;若主题信息值越小,则说明当前主题越符合“高内聚低耦合”的标准,此主题为一个真正主题的可能性更大。本发明实施例采用δ作为权重调节因子,得到主题的信息值/> 其中R表达主题的信息值,δ为权重调节因子,H表达为互信息值。因为互信息的计算,依赖语料的完整性;所以为了降低此部分的误差,通过加权因子,采用加权的方法获得信息值。
同时继续上述具体案例进行说明例如:基于步骤S103和步骤S104中得到的当前主题与所有主题的相关性值,以及当前主题内部关键词的相关性值,然后利用上述步骤S105加权计算主题的信息值;即如果H(大便,腹泻,肚子,益生菌)=0.5,δ取值为0.6,则当前主题Topic1的信息值可以表示为R(Topic1)=simi(Topic1,(Topic1,Topic2,Topic3))*δ+
基于步骤S103和步骤S104中得到的Topic2与所有主题的相关性值然后基于上述步骤S105加权得到Topic2主题的信息值,H(睡觉,母乳,吐奶,夜醒)=0.5,则当前主题Topic2的信息值可以表示为/>
在上述步骤S106具体执行中,在初始主题数的条件下,判断计算初始主题数下对应的所有主题的信息值均值I(N)是否满足预设目标条件,若否,则根据预设步长,在初始主题数基础上以预设步长为单位增量修改增加初始主题数的数值,不断验算修改后的初始主题数对应的所有主题的信息值均值I(N)是否满足预设目标条件,直至验算在满足预设目标条件时对应的修改后的初始主题数为目标主题数,且目标主题数为最优主题个数,且目标主题数对应的当前得到的结果也是最优聚类结果,具体包括如下操作步骤:
步骤S1061:在初始主题数的条件下,汇总所有主题(Topic1,…,TopicN)得到各个主题的信息值R(Topici);
步骤S1062:对当前初始主题数下对应的所有主题的信息值进行取均值操作,初始主题数下对应的所有主题的信息值均值I(N),其中 N为初始主题数;
步骤S1063:判断初始主题数下对应的所有主题的信息值均值I(N)是否小于主题信息值阈值或者达到稳定状态;若否则根据预设步长,在初始主题数基础上以预设步长为单位增量修改增加初始主题数的数值,不断验算修改后的初始主题数对应的所有主题的信息值均值I(N)是否满足预设目标条件,直至满足预设目标条件后,此时修改后的初始主题数为目标主题数;
目标主题数其所获取的文本-主题矩阵和主题-词矩阵即为最优聚类结果;
在所述预设目标条件中,所述主题信息值阈值为r,其中r为常数(即下面的案例该常数r=0.5);
在所述预设目标条件中,所有主题的信息值均值I(N)达到稳定状态,即连续L个不同主题数下,所有主题的信息值均值I(N)之间的差值绝对值不大于0.001,即达到稳定状态,其中L为常数(即下面的案例该L常数等于3);处于稳定状态时,取所有主题的信息值均值I(N)值最小时对应的主题数为目标主题数。
然而在本实施例的上述具体方案中,其中,所谓的达到稳定的状态,本发明认为当连续3个不同主题数下,I(N)之间的差值绝对值不大于0.001,即达到稳定状态,处于稳定状态时,且I(N)值最小时,对应的主题数为最优主题数。同时,上述主题信息值阈值为0.5;
至此执行步骤S106的操作结束。
在本发明实施例步骤S106所涉及的具体技术方案中,步骤S106是本发明实施例的特定技术点之一,其通过不断迭代方式获得不同的初始主题数,然后在不同初始主题数条件下反复验证聚类语料库的最优聚类分析结果,求解最优聚类分析结果(即同样可理解为:通过不断迭代主题数,重新计算主题间的主题词相似度以及主题内部关键词的互信息值(或者初始主题数下对应的所有主题的信息值均值I(N)满足预设目标条件),获取到最优主题数以及最优聚类结果。);具体地,基于以上的方法,针对所有主题(Topic1,…,TopicN),得到各个主题的信息值R(Topici),采用均值思想,获得当前主题数下,当前所有主题的信息值均值其中N为初始主题数;之后设置逐渐增长步长,不断迭代主题个数,然后获得各主题数下的信息值均值I(N),当信息值均值I(N)小于某个阈值r或者达到稳定状态,则判定所对应的主题数即为最优主题个数,获取的文本-主题矩阵的映射关系和主题-词矩阵映射关系即为最优聚类结果(即判定当前主题个数下获得了最优聚类结果)。其中,所谓的达到稳定的状态,本发明认为当连续L个不同主题数下,主题的信息值均值I(N)之间的差值绝对值不大于某个阈值(本专利推荐此阈值取0.001),即达到稳定状态,处于稳定状态时,且I(N)值最小时,对应的主题数为最优主题数,可选的,本实施例推荐上述常数L取值为3,常数r取值为0.5。
综上所述,本实施例的基于LDA的母婴问题聚类分析方法(继续,在初始主题数为3条件下进行说明),分为几种主要的分析判断过程;
在应用本实施例的基于LDA的母婴问题聚类分析方法后续操作时,基于多个主题下的关键词集合,计算任意两个主题词之间的相似度,得到任意两个主题间的相似度值,得到各主题间的相似度值;参考第一平均绝对误差方式计算得到当前主题与整体所有主题的相关性数值(即主题1与整体所有主题的相关性数值;主题2与整体所有主题的相关性数值;主题3与整体所有主题的相关性数值);随后计算同一主题下任意两个关键词之间互信息值,同时参考第二平均绝对误差方式,计算得到各主题的内部关键词的互信息值(例如主题1的内部关键词的互信息值、主题2的内部关键词的互信息值、主题3的内部关键词的互信息值);
然后执行步骤S105:即对当前主题对应的相关性数值以及互信息值这两个值进行加权,得到各主题的信息值(即主题1的信息值、主题2的信息值以及主题3的信息值):
然后执行步骤S106:在初始主题数的条件下,判断计算初始主题数下(3个)对应的所有主题的信息值均值I(N)是否满足预设目标条件;如果对所有主题的信息值进行计算,且分别为:R(Topic1)=1.196(即主题1的信息值),R(Topic2)=1.1(即主题2的信息值),R(Topic3)=1.05(即主题3的信息值),则计算当前3个初始主题数条件下所有主题的信息值均值 认为发现初始主题数(3个)时既不满足小于主题信息值阈值(即主题信息值阈值为0.5)要求,也不满足稳定状态要求,因此要设置逐渐增长步长,不断迭代主题个数(增加修改初始主题数),然后获得各主题数下的信息值均值I(N)直至其满足预设目标条件才可以迭代停止,从而得到目标主题数(即最优主题数)。
在上述操作步骤中,获得最优聚类结果的条件是满足主题信息值阈值的预设目标条件,预设目标条件为所有主题的信息值均值I(N)是否小于主题信息值阈值或者所有主题的信息值均值I(N)达到稳定状态则认定符合预设目标条件,此时的目标主题数为最优主题个数,此时该目标主题数对应的聚类结果就是最优聚类结果(即目标主题数下的主题-词映射即为最优聚类结果,具体为目标主题数下的文本-主题矩阵和主题-词矩阵)。
例如案例1:预设目标条件为所有主题的信息值均值I(N)小于主题信息值阈值,即举例说明,例如:根据S105的步骤,如果对所有主题的信息值进行计算,且分别为:R(Topic1)=1.196,R(Topic2)=1.1,R(Topic3)=1.05,则当前所有主题的信息值均值 如果步长设置为2,主题信息值阈值为0.5,初始主题个数为3,则主题个数的变化为:(3,5,7,…),即每次调整增加两个主题个数的步长;基于不同的主题个数,得到对应主题数下的当前所有主题的信息值均值I(N),I(N)取值为[1.109,1.11001,0.4,…]分析发现明显在主题数为7时,对应的I(N)<0.5时(主题信息值阈值为0.5),则7为最优主题个数,而当前得到的结果也是最优聚类结果;
例如案例2:所述预设目标条件为所有主题的信息值均值I(N)达到稳定状态。如果随着不同的主题数变化,I(N)取值为[1.109,1.11001,1.1106,…],明显在3个连续主题数下,I(N)之间的差值绝对值不大于0.001(即明显连续主题个数为3,5,7,对应的I(N)差值绝对值就符合了要求),所以当前3个主题数下,I(N)取值最小时对应的主题数为最优主题数,即主题数为3时,I(N)取值最小,则3为最优主题数下,对应的结果也是最优聚类结果。
相反,如果主题在3个连续主题个数下,I(N)之间的差值绝对值大于0.001,则标志着当前主题个数下处于不稳定状态,那么此时将会反馈修改聚类主题个数的变化范围,即分析主题个数的变化为:(3,5,7,9,11,13,。。。)时,对应的I(N)值变化;如果得到的各主题个数下的部分信息值,如下表所示,则可以得出,连续主题个数为(9,11,13)时,对应的3个信息值均值I(N)突然符合了稳定状态,则此时判定I(N)取值最小时对应的主题个数为11,即为最优主题数;对应的聚类结果则为最优聚类结果。
主题个数 | 3 | 5 | 7 | 9 | 11 | 13 |
I(N) | 1.109 | 1.11001 | 1.1221 | 1.105 | 1.104 | 1.1061 |
实施例二
图5为本发明一实施例二提供的一种基于LDA的母婴问题聚类分析方法的流程图,如图5所示,该方法包括:
步骤S201:基于LTP对面向母婴领域的语料库中的待聚类文本进行依存句法分析,得到依存句法分析结果;根据预设核心要素在所述依存句法分析结果中位置进行核心主体词抽取操作,得到当前待聚类文本中的核心主体词集合从而形成聚类语料;
步骤S202:收集海量的所述聚类预料形成聚类语料库,随机设置初始主题数,在初始主题数的条件下结合LDA算法对所述聚类语料库实施建模求解得到各主题以及主题下的关键词集合;
步骤S203:基于上述处理得到多个所述主题下的关键词集合,计算任意两个主题词之间的相似度,得到任意两个主题间的相似度值,汇总多个任意两个主题间的相似度值得到各主题间的相似度值;
步骤S204:基于任意两个主题间的相似度值的结果,同时参考第一平均绝对误差方式计算得到当前主题与整体所有主题的相关性数值;汇总得到各个主题与整体所有主题的相关性数值;
步骤S205:计算同一主题下任意两个关键词之间互信息值,同时参考第二平均绝对误差方式,计算得到当前主题的内部关键词的互信值,从而计算得到各主题的内部关键词的互信息值;
步骤S206:通过以上步骤计算的各个主题与整体所有主题的相关性数值和各主题的内部关键词的互信息值,对当前主题对应的所述相关性数值以及所述互信息值这两个值进行加权,得到各主题的信息值:
步骤S207:在初始主题数的条件下,判断计算所述初始主题数下对应的所有主题的信息值均值I(N)是否满足预设目标条件;
若是则执行步骤208;
步骤208:确定当前初始主题数为目标主题数,从而获取目标主题数以及最优聚类结果;
若否,则执行步骤S209;
步骤S209:根据预设步长,在所述初始主题数基础上以所述预设步长为单位增量修改增加所述初始主题数的数值,不断验算修改后的初始主题数然后继续步骤S202;直至验算在满足预设目标条件时对应的修改后的初始主题数为目标主题数,且所述目标主题数为最优主题个数,且所述目标主题数对应的当前得到的结果也是最优聚类结果;
本发明实施例一以及本发明实施例二相对于对比专利1具有如下区别技术:一、对比专利1中,进行聚类的初始数据集中,根据初始预料,只根据词性规则,筛选输入算法的特征词集;然而在本发明实施例的方案中,输入算法的特征词集,首先,考虑了原始文本的句法结构,根据句法结构以及母婴领域的独有特点(同种症状,不同月龄以及不同人群的处理方法不同)将月龄,以及人群,以及症状特征词,作为输入算法的特征词集。二、对比专利1中的聚类算法,通过两个算法的叠加,最终获取主题下的情感,先采用LDA进行聚类得到初步结果,再采用kmeans算法对初步结果进行二次聚类,最终获取主题下的情感结果;本发明实施例是采用LDA算法获取聚类结果,通过类内点互信息值以及类间相似度值(即),对当前主题个数参数是否是最佳进行评判,通过迭代不同的主题个数,即LDA算法的参数,进行迭代,获取最终结果;三、对比专利1中,采用词性规则,以及共现思想获取算法的输入数据集;本发明实施例充分考虑,母婴领域独特的特点(人群,月龄,症状)三要素,获取算法的输入数据集;四、对比专利1中,采用LDA+kmeans算法组合,获取文本情感主题,采用准确率等指标对结果进行评估;然而本发明实施例再经过LDA算法聚类之后,采用“高内聚低耦合”的思想对聚类出来的效果进行评估,并且通过效果评估值(即所谓效果评估值)对LDA算法输入参数的调整,最终获取最佳效果以及最佳主题个数;五、同时对比专利1还公开了如下内容:计算特征词子集中的每个词与其他特征词子集中的每个词之间的词共现度,并根据所述词共现度确定主题特征词集和主题关联词集(该技术特征与本实施例中的内聚计算处理方式也不同);虽然都是采用的共现度的思想,但是,对比专利1中是通过共现度,从词性初步候选集中,获取具有更显著特征的特征词集合,参与到聚类算法中;然而本发明实施例中是获取聚类结果之后,采用共现思想,筛选两个词是否属于一个集合;上述专利1与本实施例方案采用的公式都不同;具体而言,对比专利1中采用得共现逻辑处理方式为,词共现度A=(两个词共同出现得次数/词1出现得次数)+(两个词共同出现次数/词2出现得次数),然后再取平均,即结果为:A/2;本发明实施例的共现:A=两个词共现次数/(词1出现次数+词2出现次数)从而最终结果为:log(A)。
本发明实施例相对于对比专利2具有如下区别技术:上述对比专利2中采用KNN+k-means算法进行热点事件的发现;然而本发明实施例的技术方案与对比专利2只有一个思想,就是聚类思想,采用的算法以及处理方式则完全不同,对此不再赘述。
本发明实施例利用复合聚类方式获取初始主题数以及对应聚类结果,同时不断验算反复修正初始主题数以及对应聚类结果,最终得到具有稳健性强、效果好的聚类分析结果。利用外聚计算、外聚整合计算,内聚计算以及复合加权方式建立母婴问题聚类分析方法,相比较于传统其他聚类分析估算,准确度更高,聚类分析更全面(聚类分析不仅有外聚而且是优化后的外聚计算,而且还设计有内聚计算等操作),最终得到最优化的聚类分析结果,可以更清楚了解母婴问题。
传统技术的聚类分析方法虽然种类方式繁多,但是聚类分析很粗糙,尤其针对母婴问题的聚类分析理论尚不完善;本发明实施例涉及的分析方法聚焦主题更深层次的数据相似性(通过外聚整合计算和内聚计算等方式实现更深层数据相似性计算),对于衡量文本数据源间的相似性具有重要意义以及积极效果。
实施例三
图6是本发明实施例三所提供的基于LDA的母婴问题聚类分析装置的结构原理示意图;上述实施例三提供了一种基于LDA的母婴问题聚类分析装置,所述装置包括初始计算模块11、外聚计算模块12、外聚整合处理模块13、内聚计算模块14、信息值加权计算模块15、迭代验算求解模块16,其中:
初始计算模块11,用于基于LTP对面向母婴领域的语料库中的待聚类文本进行依存句法分析,得到依存句法分析结果;根据预设核心要素在所述依存句法分析结果中位置进行核心主体词抽取操作,得到当前待聚类文本中的核心主体词集合从而形成聚类语料;收集海量的所述聚类预料形成聚类语料库,随机设置初始主题数,在初始主题数的条件下结合LDA算法对所述聚类语料库实施建模求解得到各主题以及主题下的关键词集合;其中,所述预设核心要素包括月龄、人群、症状;
外聚计算模块12,用于基于上述处理得到多个所述主题下的关键词集合,计算任意两个主题词之间的相似度,得到任意两个主题间的相似度值,汇总多个任意两个主题间的相似度值得到各主题间的相似度值;
外聚整合处理模块13,用于基于任意两个主题间的相似度值的结果,同时参考第一平均绝对误差方式计算得到当前主题与整体所有主题的相关性数值;汇总得到各个主题与整体所有主题的相关性数值;
内聚计算模块14,用于计算同一主题下任意两个关键词之间互信息值,同时参考第二平均绝对误差方式,计算得到当前主题的内部关键词的互信值,从而计算得到各主题的内部关键词的互信息值;
信息值加权计算模块15,用于通过以上步骤计算的各个主题与整体所有主题的相关性数值和各主题的内部关键词的互信息值,对当前主题对应的所述相关性数值以及所述互信息值这两个值进行加权,得到各主题的信息值:
迭代验算求解模块16,用于在初始主题数的条件下,判断计算所述初始主题数下对应的所有主题的信息值均值I(N)是否满足预设目标条件;若否,则根据预设步长,在所述初始主题数基础上以所述预设步长为单位增量修改增加所述初始主题数的数值,不断验算修改后的初始主题数对应的所有主题的信息值均值I(N)是否满足预设目标条件,直至验算在满足预设目标条件时对应的修改后的初始主题数为目标主题数,且所述目标主题数为最优主题个数,且所述目标主题数对应的当前得到的结果也是最优聚类结果;其中,所述预设目标条件为所有主题的信息值均值I(N)小于主题信息值阈值或者所有主题的信息值均值I(N)达到稳定状态。
实施例四
相应地,本发明实施例四还提供了一种计算机存储介质,所述计算机存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机存储介质所在设备执行上述基于LDA的母婴问题聚类分析方法。其中,在程序运行时控制存储介质所在设备执行上述基于LDA的母婴问题聚类分析方法的实施例的各步骤,具体描述可参见上述基于LDA的母婴问题聚类分析方法的实施例。
实施例五
图7为本发明实施例五提供的一种计算机设备的示意图。如图4所示,该实施例的计算机设备4包括:处理器41、存储器42以及存储在存储42中并可在处理器41上运行的计算机程序43,该计算机程序43被处理器41执行时实现实施例中的应用于基于LDA的母婴问题聚类分析方法,为避免重复,此处不一一赘述。或者,该计算机程序被处理器41执行时实现实施例中应用于鸟类栖息地承载量计算装置中各模型/单元的功能,为避免重复,此处不一一赘述。
上述计算机设备4包括,但不仅限于,处理器41、存储器42。本领域技术人员可以理解,图4仅仅是计算机设备4的示例,并不构成对计算机设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备4还可以包括输入输出设备、网络接入设备、总线等。
所称处理器41可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所称存储器42可以是计算机4的内部存储单元,例如计算机4的硬盘或内存。存储器42也可以是计算机4的外部存储设备,例如计算机4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器42还可以既包括计算机4的内部存储单元也包括外部存储设备。存储器42用于存储计算机程序以及计算机4所需的其他程序和数据。存储器42还可以用于暂时地存储已经输出或者将要输出的数据。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种基于LDA的母婴问题聚类分析方法,其特征在于,包括:
基于LTP对面向母婴领域的语料库中的待聚类文本进行依存句法分析,得到依存句法分析结果;根据预设核心要素在所述依存句法分析结果中位置进行核心主体词抽取操作,得到当前待聚类文本中的核心主体词集合从而形成聚类语料;收集海量的所述聚类预料形成聚类语料库,随机设置初始主题数,在初始主题数的条件下结合LDA算法对所述聚类语料库实施建模求解得到各主题以及主题下的关键词集合;其中,所述预设核心要素包括月龄、人群、症状;
基于上述处理得到多个所述主题下的关键词集合,计算任意两个主题词之间的相似度,得到任意两个主题间的相似度值,汇总多个任意两个主题间的相似度值得到各主题间的相似度值;
基于任意两个主题间的相似度值的结果,同时参考第一平均绝对误差方式计算得到当前主题与整体所有主题的相关性数值;汇总得到各个主题与整体所有主题的相关性数值;
计算同一主题下任意两个关键词之间互信息值,同时参考第二平均绝对误差方式,计算得到当前主题的内部关键词的互信值,从而计算得到各主题的内部关键词的互信息值;
通过以上步骤计算的各个主题与整体所有主题的相关性数值和各主题的内部关键词的互信息值,对当前主题对应的所述相关性数值以及所述互信息值这两个值进行加权,得到各主题的信息值:
在初始主题数的条件下,判断计算所述初始主题数下对应的所有主题的信息值均值I(N)是否满足预设目标条件;N为初始主题数;若否,则根据预设步长,在所述初始主题数基础上以所述预设步长为单位增量修改增加所述初始主题数的数值,不断验算修改后的初始主题数对应的所有主题的信息值均值I(N)是否满足预设目标条件,直至验算在满足预设目标条件时对应的修改后的初始主题数为目标主题数,且所述目标主题数为最优主题个数,且所述目标主题数对应的当前得到的结果也是最优聚类结果;
其中,所述预设目标条件为所有主题的信息值均值I(N)小于主题信息值阈值或者所有主题的信息值均值I(N)达到稳定状态。
2.根据权利要求1所述的基于LDA的母婴问题聚类分析方法,其特征在于,所述根据预设核心要素在根据依存句法分析结果中位置进行核心主体词抽取操作,得到当前待聚类文本中的核心主体词集合从而形成聚类语料,具体包括如下操作步骤:
获取依存句法分析结果,根据预设核心要素在所述依存句法分析结果中位置,得到所述当前待聚类文本中的主体核心词遵循的句法规则;
然后按照上述句法规则,对所述当前待聚类文本中对应的核心主体词进行抽取操作,抽取后得到所述当前待聚类文本中的核心主体词集合就是聚类语料。
3.根据权利要求2所述的基于LDA的母婴问题聚类分析方法,其特征在于,在初始主题数的条件下结合LDA算法对所述聚类语料库实施建模求解得到各主题以及主题下的关键词集合,具体包括如下操作步骤:
对所述聚类语料库进行向量化操作,得到文本向量矩阵和词袋模型;
然后结合LDA算法对所述文本向量矩阵进行建模和矩阵求解,从而得到所述初始主题数对应的文本-主题矩阵和主题-词矩阵,并结合所述词袋模型获得各主题下的关键词集合。
4.根据权利要求3所述的基于LDA的母婴问题聚类分析方法,其特征在于,基于上述处理得到多个所述主题下的关键词集合,计算任意两个主题词之间的相似度,得到任意两个主题间的相似度值,具体包括如下操作步骤:
基于上述处理得到多个所述主题下的关键词集合,对任意两个所述主题下的关键词集合进行相似度计算,从而得到任意两个主题间的相似度值。
5.根据权利要求4所述的基于LDA的母婴问题聚类分析方法,其特征在于,基于任意两个主题间的相似度值的结果,同时参考第一平均绝对误差方式计算得到当前主题与整体所有主题的相关性数值,具体包括如下操作步骤:
基于任意两个主题间的相似度值的结果进行计算,其中1-N共计有N个主题,所有主题表示为(Topic 1,…,Topic N);simi(Topic i,Topic j)表示为任意两个主题Topic i,Topic j的相似度值;上述Topic i,Topic j代表任意两个主题;
将上述任意两个主题间的相似度值参考第一平均绝对误差方式求解平均值,得到当前主题对于整体所有主题的相关性数值为:上述Topic i,Topic j代表任意两个主题。
6.如权利要求5所述的基于LDA的母婴问题聚类分析方法,其特征在于,计算同一主题下任意两个关键词之间互信息值,同时参考第二平均绝对误差方式,计算得到当前主题的内部关键词的互信值,从而计算得到各主题的内部关键词的互信息值,具体包括如下操作步骤:
计算同一主题下任意两个关键词之间互信息值,其中中的H表达为互信息值;
同时参考第二平均绝对误差方式,计算得到当前主题的内部关键词的互信值为:
其中,上述其中的代表当前主题内部的任意两个关键词;M为当前主题内部关键词的总个数。
7.如权利要求6所述的基于LDA的母婴问题聚类分析方法,其特征在于,所述通过以上步骤计算的各个主题与整体所有主题的相关性数值和各主题的内部关键词的互信息值,对当前主题对应的所述相关性数值以及所述互信息值这两个值进行加权,得到各主题的信息值,具体包括如下操作步骤:
基于以上步骤计算的得到当前主题对于整体所有主题的相关性数值simi(Topic i,(Topic 1,…,Topic N))和各主题的内部关键词的互信息值
对当前主题对应的所述相关性数值以及所述互信息值这两个值进行加权,得到当前主题的信息值其中R表达主题的信息值,δ为权重调节因子,H表达为互信息值。
8.如权利要求7所述的基于LDA的母婴问题聚类分析方法,其特征在于,在初始主题数的条件下,判断计算所述初始主题数下对应的所有主题的信息值均值I(N)是否满足预设目标条件,若否,则根据预设步长,在所述初始主题数基础上以所述预设步长为单位增量修改增加所述初始主题数的数值,不断验算修改后的初始主题数对应的所有主题的信息值均值I(N)是否满足预设目标条件,直至验算在满足预设目标条件时对应的修改后的初始主题数为目标主题数,且所述目标主题数为最优主题个数,且所述目标主题数对应的当前得到的结果也是最优聚类结果,具体包括如下操作步骤:
在初始主题数的条件下,汇总所有主题(Topic 1,…,Topic N)得到各个主题的信息值R(Topic i);
对当前初始主题数下对应的所有主题的信息值进行取均值操作,所述初始主题数下对应的所有主题的信息值均值I(N),其中n为初始主题数;
判断初始主题数下对应的所有主题的信息值均值I(N)是否小于主题信息值阈值或者达到稳定状态;若否则根据预设步长,在所述初始主题数基础上以所述预设步长为单位增量修改增加所述初始主题数的数值,不断验算修改后的初始主题数对应的所有主题的信息值均值I(N)是否满足预设目标条件,直至满足所述预设目标条件后,此时修改后的初始主题数为目标主题数;
所述目标主题数其所获取的文本-主题矩阵和主题-词矩阵即为最优聚类结果;
在所述预设目标条件中,所述主题信息值阈值为r,其中r为常数;
在所述预设目标条件中,所有主题的信息值均值I(N)达到稳定状态,即连续L个不同主题数下,所有主题的信息值均值I(N)之间的差值绝对值不大于0.001,即达到稳定状态,其中L为常数;处于稳定状态时,取所有主题的信息值均值I(N)值最小时对应的主题数为目标主题数。
9.一种基于LDA的母婴问题聚类分析装置,其特征在于,所述装置包括初始计算模块、外聚计算模块、外聚整合处理模块、内聚计算模块、信息值加权计算模块、迭代验算求解模块,其中:
初始计算模块,用于基于LTP对面向母婴领域的语料库中的待聚类文本进行依存句法分析,得到依存句法分析结果;根据预设核心要素在所述依存句法分析结果中位置进行核心主体词抽取操作,得到当前待聚类文本中的核心主体词集合从而形成聚类语料;收集海量的所述聚类预料形成聚类语料库,随机设置初始主题数,在初始主题数的条件下结合LDA算法对所述聚类语料库实施建模求解得到各主题以及主题下的关键词集合;其中,所述预设核心要素包括月龄、人群、症状;
外聚计算模块,用于基于上述处理得到多个所述主题下的关键词集合,计算任意两个主题词之间的相似度,得到任意两个主题间的相似度值,汇总多个任意两个主题间的相似度值得到各主题间的相似度值;
外聚整合处理模块,用于基于任意两个主题间的相似度值的结果,同时参考第一平均绝对误差方式计算得到当前主题与整体所有主题的相关性数值;汇总得到各个主题与整体所有主题的相关性数值;
内聚计算模块,用于计算同一主题下任意两个关键词之间互信息值,同时参考第二平均绝对误差方式,计算得到当前主题的内部关键词的互信值,从而计算得到各主题的内部关键词的互信息值;
信息值加权计算模块,用于通过以上步骤计算的各个主题与整体所有主题的相关性数值和各主题的内部关键词的互信息值,对当前主题对应的所述相关性数值以及所述互信息值这两个值进行加权,得到各主题的信息值:
迭代验算求解模块,用于在初始主题数的条件下,判断计算所述初始主题数下对应的所有主题的信息值均值I(N)是否满足预设目标条件;若否,则根据预设步长,在所述初始主题数基础上以所述预设步长为单位增量修改增加所述初始主题数的数值,不断验算修改后的初始主题数对应的所有主题的信息值均值I(N)是否满足预设目标条件,直至验算在满足预设目标条件时对应的修改后的初始主题数为目标主题数,且所述目标主题数为最优主题个数,且所述目标主题数对应的当前得到的结果也是最优聚类结果;其中,所述预设目标条件为所有主题的信息值均值I(N)小于主题信息值阈值或者所有主题的信息值均值I(N)达到稳定状态。
10.一种计算机存储介质,其特征在于,所述计算机存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机存储介质所在设备执行权利要求1至8中任意一项所述的基于LDA的母婴问题聚类分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010931361.3A CN112069318B (zh) | 2020-09-07 | 2020-09-07 | 基于lda的母婴问题聚类分析方法、装置、计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010931361.3A CN112069318B (zh) | 2020-09-07 | 2020-09-07 | 基于lda的母婴问题聚类分析方法、装置、计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112069318A CN112069318A (zh) | 2020-12-11 |
CN112069318B true CN112069318B (zh) | 2024-01-12 |
Family
ID=73664101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010931361.3A Active CN112069318B (zh) | 2020-09-07 | 2020-09-07 | 基于lda的母婴问题聚类分析方法、装置、计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112069318B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180307680A1 (en) * | 2015-12-29 | 2018-10-25 | Guangzhou Shenma Mobile Information Technology Co., Ltd. | Keyword recommendation method and system based on latent dirichlet allocation model |
CN109299280A (zh) * | 2018-12-12 | 2019-02-01 | 河北工程大学 | 短文本聚类分析方法、装置和终端设备 |
CN110851602A (zh) * | 2019-11-13 | 2020-02-28 | 精硕科技(北京)股份有限公司 | 一种主题聚类的方法及装置 |
-
2020
- 2020-09-07 CN CN202010931361.3A patent/CN112069318B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180307680A1 (en) * | 2015-12-29 | 2018-10-25 | Guangzhou Shenma Mobile Information Technology Co., Ltd. | Keyword recommendation method and system based on latent dirichlet allocation model |
CN109299280A (zh) * | 2018-12-12 | 2019-02-01 | 河北工程大学 | 短文本聚类分析方法、装置和终端设备 |
CN110851602A (zh) * | 2019-11-13 | 2020-02-28 | 精硕科技(北京)股份有限公司 | 一种主题聚类的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112069318A (zh) | 2020-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vega-Oliveros et al. | A multi-centrality index for graph-based keyword extraction | |
CN108052593B (zh) | 一种基于主题词向量和网络结构的主题关键词提取方法 | |
CN106372061B (zh) | 基于语义的短文本相似度计算方法 | |
CN105045812B (zh) | 文本主题的分类方法及系统 | |
Skabar et al. | Clustering sentence-level text using a novel fuzzy relational clustering algorithm | |
Li et al. | Learning query intent from regularized click graphs | |
CN111898366B (zh) | 文献主题词聚合方法、装置、计算机设备及可读存储介质 | |
CN101710333B (zh) | 基于遗传算法的网络文本分割方法 | |
CN105183833B (zh) | 一种基于用户模型的微博文本推荐方法及其推荐装置 | |
Yang et al. | Enhancing sentence-level clustering with ranking-based clustering framework for theme-based summarization | |
CN107908669A (zh) | 一种基于并行lda的大数据新闻推荐方法、系统及装置 | |
Chen et al. | Automated feature weighting in naive bayes for high-dimensional data classification | |
Tang et al. | An integration model based on graph convolutional network for text classification | |
CN113988053A (zh) | 一种热词提取方法及装置 | |
Wang et al. | Research on improved text classification method based on combined weighted model | |
CN113032573A (zh) | 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统 | |
CN114077661A (zh) | 信息处理装置、信息处理方法和计算机可读介质 | |
CN110929509B (zh) | 一种基于louvain社区发现算法的领域事件触发词聚类方法 | |
Austin et al. | Community topic: topic model inference by consecutive word community discovery | |
CN112069318B (zh) | 基于lda的母婴问题聚类分析方法、装置、计算机存储介质 | |
Chen et al. | Research on text categorization model based on LDA—KNN | |
CN117057349A (zh) | 新闻文本关键词抽取方法、装置、计算机设备和存储介质 | |
CN111581984A (zh) | 一种基于任务贡献度的语句表示方法 | |
CN114969324B (zh) | 基于主题词特征扩展的中文新闻标题分类方法 | |
CN112463974A (zh) | 知识图谱建立的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room 01, Clubhouse 2, 2nd Floor, Building 2, No.1 Xidawang Road, Chaoyang District, Beijing, 100020 Applicant after: Beijing yuxueyuan Health Management Center Co.,Ltd. Address before: 408, floor 4, building 1, yard 16, Taiyanggong Middle Road, Chaoyang District, Beijing Applicant before: BEIJING CUIYUTAO CHILDREN HEALTH MANAGEMENT CENTER Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |