CN110765762B - 一种大数据背景下在线评论文本最佳主题提取系统和方法 - Google Patents

一种大数据背景下在线评论文本最佳主题提取系统和方法 Download PDF

Info

Publication number
CN110765762B
CN110765762B CN201910933579.XA CN201910933579A CN110765762B CN 110765762 B CN110765762 B CN 110765762B CN 201910933579 A CN201910933579 A CN 201910933579A CN 110765762 B CN110765762 B CN 110765762B
Authority
CN
China
Prior art keywords
word
text
module
comment
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910933579.XA
Other languages
English (en)
Other versions
CN110765762A (zh
Inventor
杨根福
严康铖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Hangzhou Dianzi University Shangyu Science and Engineering Research Institute Co Ltd
Original Assignee
Hangzhou Dianzi University Shangyu Science and Engineering Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University Shangyu Science and Engineering Research Institute Co Ltd filed Critical Hangzhou Dianzi University Shangyu Science and Engineering Research Institute Co Ltd
Priority to CN201910933579.XA priority Critical patent/CN110765762B/zh
Publication of CN110765762A publication Critical patent/CN110765762A/zh
Application granted granted Critical
Publication of CN110765762B publication Critical patent/CN110765762B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开一种大数据背景下在线评论文本最佳主题提取系统和方法。首先,在在线评论主题模型语料库的准备过程中,通过词频统计结果对语料库的预处理、规范化及文本向量化等环节进行了优化,提高了语料库向量的可靠性与质量;其次,在主题提取的迭代过程中,将主题一致性值作为关键控制参数,优化模型,确定了最佳的主题数量;再次,利用主题代表性文档、主题与文档分布信息推断主题的意义,弥补只分析关键词带来的不足。

Description

一种大数据背景下在线评论文本最佳主题提取系统和方法
技术领域
本发明涉及大数据信息处理与分析领域,具体地,涉及一种大数据背景下在线评论文本最佳主题提取系统和方法。
背景技术
近年来,随着计算机和通信技术的快速发展,人类产生的数据呈指数级增长。其中有大量的数据为非结构化的文本数据,如博客、在线评论、报纸或网络文章、研究论文和专利申请等等。其中,在线评论是一种重要的用户生成内容,它以定性的方式描述了用户使用在线产品和服务的过程及体验。各个领域的人们期待从这些数据中发现有用的信息,了解使用者的偏好及需求。然而,由于在线评论文本数据量大、非结构化、多语言等特征,并存在大量噪声,仅通过人工定性分析存在不小的难度。因而,急需更高效且有效的方法从大量评论文中提取高质量有价值的信息。
文本挖掘也称“文本分析”,是使用计算机通过机器学习、自然语言处理等方法对大量定性或非结构化文本数据进行分析以便生成高质量信息的过程或实践。主题提取研究也称为主题建模研究,是文本挖掘的一种高级应用,主要目的是从大量非结构化文本语料中提取潜在语义或主题。隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)是一种最先进的主题建模工具,常运用于执行主题识别任务,通过计算潜在的主题,在线评论的定性分析就可以量化。
虽然,LDA是目前最为有效的主题建模工具,但其算法复杂、流程环节多,其研究结果受众多因素影响。传统的LDA主题研究因其对文本数据利用不充分、主题稳定性差而大受研究人员诟病。在在线评论领域,LDA研究方法也未能发挥其应有的作用。因此,如何利用LDA构建合理的主题模型、优化流程与方法,从大量非结构化在线评论中挖掘清晰、有意义的主题就显得尤为重要。
发明内容
本发明所要解决的技术问题是提供一种大数据背景下在线评论文本最佳主题提取系统和方法。
本发明系统包括文本数据采集模块、文本数据抽取模块、文本预处理模块、词频统计模块、文本规范化模块、文本向量化模块、主题提取模块。
所述的文本数据采集模块用于采集各互联网资源网站中的评论信息,构成在线评论文档集合。
所述的文本数据抽取模块用于加载在线评论文档集合,判断文件格式,并根据文件格式从文件中抽取文本信息,生成在线评论语料库,并输出到文本规范化处理模块和词频统计模块。
所述的文本预处理模块用于对文本抽取模块所抽取的在线评论文本进行语言检测、文本清洗和词语切分。文本预处理模块首先对输入的文本数据进行语言编码检测与筛选;接着实施文本清洗,删除标点符号、换行符、Email等特殊符号;最后将评论文本分割为单个单词,生成单词集合,并将结果输出到词频统计模块和文本规范化模块。
所述的词频统计模块用于接收从文本预处理模块输出的单词集合,统计每个单词出现的次数或频率,即单频。
所述的文本规范化模块用于根据词频统计模块统计得到的单频,对文本预处理模块输出的单词集合进行去停止词、去极高频与极低频词,然后进行形词形转换处理,只保留动词、名词、形容词和副词,得到新的单词集合,并输出到文本向量化模块。
所述的文本向量化模块以词频统计模块输出的单频结果为依据,从文本规范化模块处理后的单词集合中构建单词词典,并计算独立单词数;同时构建语料库向量,对每个单词进行编号,统计单词在每条评论中的分布情况,最后将单词词典和语料库向量输出到主题提取模块。
所述的主题提取模块以文本向量化模块中输出的单词词典、语料库向量作为主题建模的参数输入,经过多次迭代提取不同主题数量时的在线评论主题,计算主题一致性值,并通过一致性确定最佳主题数量,最后提取主题,并统计主题代表性评论及主题与文档分布。
根据本发明提供的一种大数据背景下在线评论文本最佳主题提取方法,包括如下步骤:
步骤1:文本数据采集模块采集各互联网资源网站中的评论信息,构成在线评论文档集合D={d1,d2,d3,…,dm}。其中D是文档总数,dm为第m个文档。
步骤2:文本数据抽取模块加载在线文档集合D,判断文件格式,根据其从文档中抽取的文本内容,生成在线评论集R={r1,r2,r3,…,rn},并输出到文本规范化处理模块和词频统计模块。其中R是评论总数,rn是第n条评论。
优选地,所述步骤2包括如下步骤:
步骤2.1:导入在线评论语料库或文件,判断文件格式,如果格式不正确,则提醒支持的格式为纯文本txt、csv及josn;如果格式正确则进入步骤2.2;
步骤2.2:根据识别出文件格式对文本内容进行抽取,并生成在线评论语料库R={r1,r2,r3,…,rn}。
步骤3:文本预处理模块对在线评论集R中的在线评论文本进行预处理,包括语言检测、文本清洗、词语切分;经过预处理后得到单词集合W={wr1,wr2,wr3,…3wrn},并输出到词频统计模块和文本规范化模块。其中wrn是第rn条评论中的所有单词。
优选地,所述步骤3包括如下步骤:
步骤3.1:语言检测
对从步骤2中输入的在线评论集R进行语言编码检测,采用正则表达式规则,删除非英语和非汉语评论,得到新的在线评论语料库R’。
步骤3.2:文本清洗
采用正则表达式将R’中大量无关和不必要的标识和字符去除,如标点符号、Email和换行符。正则表达式需要检测评论中包含“@”的词语,及“\”和各类标点符号,将其删除,得到清洗后的文本R”。
步骤3.3:词语切分
将清洗后的R”切分为单个单词。根据语言编码采用不同的分词规则,将句子分割为单词集合W={wr1,wr2,wr3,…,wrn}。
步骤4:词频统计模块统计W中每个单词出现的次数,发现极高频与极低频词;并将结果输出到文本规范化模块和文本向量化模块。
所述的词频是指每个独立的单词在在线评论中出现的次数或频率。词频统计的结果可以用于分析在线评论中用户对产品或服务最关注点的识别,并作为主题提取中极高频词与极低频词剔除的依据。
步骤5:文本规范化模块依据词频统计模块输出的结果从W中删除极高频与极低频词,并执行去停止词处理;接下来并对单词进行词形转换处理,只保留动词、名词、形容词和副词,得到规范化后新的单词集合W’={w’r1,w’r2,w’r3,…3,’rn},并将结果输出到文本向量化模块。
步骤6:根据词频统计模块统计的W中每个单词出现的次数,文本向量化模块从文本规范化模块传送的新单词集合W’中构建单词词典Wdic和单词向量语料库Wcor,作为主题建模的输入。
Wdic=[w1,w2,w3,…wn],其中wn为第n个独立单词。
Wcor={[r1,[(id1,f1),(id2,f2),(id3,f3),(id数的n,fn)]],[r2,[(id1,f1),(id2,f2),(id3,f3),(idr的n,fn)]],[r3,[(id1,f1),(id2,f2),(id3,f3),(idr的n,fn)]],dr的输n,[(id1,f1),(id2,f2),(id3,f3),(idr的n,fn)]]},其中rn为第n条评论,idn为rn中每个单词的编号,fn为单词出现的次数。
步骤7:利用主题提取模块提取最佳主题。
将由步骤6输出的单词词典Wdic和单词向量语料库Wcor作为主题模型的输入参数,推断主题序列Z={Z1,Z2,……Zt},其中主题数量Kt≤域值Kmax。从主题Z计算每个主题的一致性值Coherence,以及Kt时主题一致性平均值CV,生成不同主题数量Kt时的一致性值词典CVdic,并筛选确定最佳主题数量Kb,最后提取最佳主题,统计主题-评论分布,得到每个主题的代表性评论。
优选地,所述步骤7是构建改进LDA主题模型:
对于一个确定的主题数量Kt,模型以单词词典Wdic、语料库Wcor、模型超参数α和β作为输入,设置最大迭代次数T,对模型进行迭代训练,推断主题序列Z={Z1,Zr,……Zt},其中每个主题Z由一组单词集合组成。计算每个主题的一致性值Coherence,以及对应Kt个主题一致性值Coherence的聚合值CV,并根据不同Kt时的CV值确定最佳主题数量Kt;具体是:
步骤7.1:初始化主题数量Kt
步骤7.2:构建一致性词典CVdic
步骤7.2.1:将Kt、单词词典Wdic和单词向量语料库Wcor作为LDA模型输入参数,通过模型超参数α和β推断主题分布参数θr和主题与单词分布参数φk,θr
Figure BDA0002220941060000041
符合Dirichlet先验分布,过程如下:
(1)对于每条评论r,随机生成第r条评论的主题分布参数θr~Dir(α);
(2)对于每个主题k,生成主题k的单词分布
Figure BDA0002220941060000042
(3)对当前评论的每个单词的位置:
根据主题分布参数θr生成当前单词所属主题Zrn,Zrn表示第r条评论第n个单词对应的主题;根据当前位置的主题Zrn,以及主题与单词分布参数
Figure BDA0002220941060000053
生成第r条评论第n个单词对应的单词分布Wkn
迭代执行步骤7.2.1中的(1)-(3),直到遍历所有评论的所有单词,待估计参数θr
Figure BDA0002220941060000054
进入平稳,由Zrn和Wkn得到主题序列Z={Z1,Z2,……Zt},其中每一个主题Z包含一组单词。
步骤7.2.2:计算每个主题的一致性值coherence。主题一致性值coherence通过测量主题中得分高的单词之间的语义相似程度来衡量主题的得分,计算公式如下:
Figure BDA0002220941060000051
其中Zi是一组词描述的主题,1≤i≤t,ε是平滑因子,coherence是一致性。Score是Zi中单词对ωij同时出现的概率值,基于评论计算两个单词共现的得分,公式如下。
Figure BDA0002220941060000052
其中,R(x,y)表示包含单词x和y的评论数,R(x)表示包含x的评论数。平滑因子ε用于评估一致性值达到稳定值。
步骤7.2.3:计算当前Kt时所有主题一致性值coherence的平均值CVt,并将Kt和CVt加入一致性词典CVdic={(Kt1,CV2),(Kt2,CV4),(Kt3,CV6),…,(Kmax,CVmax)}。
步骤7.2.4:判断主题数量Kt是否大于Kmax,若是则迭代结束,进入步骤7.3;反之令Kt=Kt+Ki,Ki表示递增量,进入步骤7.2.1。
步骤7.3:从一致性词典CVdic中筛选出一致性CVt最大时的主题数Kb,并将单词词典Wdic、语料库Wcor输入模型,输出Kb时的主题序列Z={Z1,Zr,……Zb},同时统计主题-评论分布,得到每个主题的代表性评论及评论集合。
本发明提供的方法,能从大量非结构化在线评论文本中提取清晰、有意义的高质量主题,创新点体现在以下几个方面。首先,在在线评论主题模型语料库的准备过程中,通过词频统计结果对语料库的预处理、规范化及文本向量化等环节进行了优化,提高了语料库向量的可靠性与质量;其次,在主题提取的迭代过程中,将主题一致性值作为关键控制参数,优化模型,确定了最佳的主题数量;再次,利用主题代表性文档、主题与文档分布信息推断主题的意义,弥补只分析关键词带来的不足。
本发明提供的方法能从在线评论中提取稳定的高质量主题,充分挖掘在线评论文本内容知识与价值。
附图说明
图1为本发明所述大数据背景下在线评论文本高质量主题提取系统的整体结构示意图;
图2为本发明所述的最佳主题提取模块示意图。
具体实施方式
下面结合附图对本发明的优选实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
如图1所示为本发明所述面向文本挖掘的处理系统的整体结构示意图。本系统整体架构包括:文本数据采集模块101、文本数据抽取模块102、文本预处理模块103、词频统计模块104、文本规范化模块105、文本向量化模块106、主题建模模块107。本发明以大规模在线课程(MOOCs)在线评论主题提取为例,来说明具体实施方式。
步骤1:通过文本数据采集模块101采集大规模在线课程网站中学习者评论,并保存为txt、csv或json等格式,构成在线评论文档集合D={d1,d2,d3,…,dn}。其中dn表示第n门课程的评论集合。例如,从Coursera和Class Central网站上采集了“如何学习:学习困难科目的实用思维方法”课程共20312名学习者评论,其中Coursera上12592条,Class Central上7720条。此时D={d1,d2},n=2。其中,文档d1中包含12592条评论条评论,档d2中包含7720条评论,总评论数Rdn={12592,7720}=20312。
步骤2:由文本数据抽取模块102加载在线文档集合D,判断文件格式,根据其从文档中抽取文本内容,生成在线评论语料库R={r1,r2,r3,…,rn},并输出到文本预处理模块103。在此实施例中,R=12592+7720=20312。表1为由102模块抽取的“如何学习:学习困难科目的实用思维方法”课程学习者评论示例(其中5条评论)。
表1 MOOC学习者评论示例
Figure BDA0002220941060000061
Figure BDA0002220941060000071
步骤3:利用文本预处理模块103对语料库R中的在线评论文本进行语言检测、文本清洗、词语切分,并输出到词频统计模块104和文本规范化模块104。步骤3.1:语言检测采用正则表达式规则对在线评论语料库R进行语言编码检测。在本实施例中,由于学习者评论的主要语言为英语,因此,删除了少量西班牙语、阿拉伯语、汉语、俄语等非英语评论,实施语言检测后得到新的在线评论语料库R’;步骤3.2:采用正则表达式对R’进行文本清洗,删除无关和不必要的标识和字符,如标点符号、Email和换行符。并剔除评论单词数少于3的评论,实施文本清洗后得到R”=16277;步骤3.3:将清洗后的R”根据语言编码采用不同的分词规则将句子分割为单词,得到单词集合W={wr1,wr2,wr3,…,wrn},其中wrn是第rn条评论中的所有单词。如表1中的第1条评论分词后得到单词集合wr1=['you’ve','got','the','art','of','transforming','difficult','things','in','accessible',…]。
步骤4:利用词频统计模块104统计W中每个单词出现的次数,发现极高频与极低频词,并将结果输出到文本规范化模块105和文本向量化模块106。表2为本实施的词频统计示例。
表2词频统计示例(前30个单词)
Figure BDA0002220941060000072
步骤5:文本规范化模块105依据词频统计模块104输出的结果从W中删除极高频与极低频词,并去除停止词(如“the”、“are”、“have”等);如本实施例中单词“course”出现次数远大于其它词汇,因此将其删除。接下来并对单词进行词形转换处理,只保留动词、名词、形容词和副词,得到规范化后新的单词集合W’={w’r1,w’r2,w’r3,…,w’rn},并将结果输出到文本向量化模块106。如表1中的第1条评论在实施文本规范化后的单词集合w’r1=['have','get','art','transform','difficult','thing','accessible','thing',…]。
步骤6:文本向量化模块106依据文本规范化模块105和词频统计模块104输出的结果从单词集合W’中构建单词词典Wdic和单词向量语料库Wcor,作为主题建模的输入。Wdic=[w1,w2,w3,…wn],其中wn为第n个独立单词,本实施例中Wdic=['accessible','art','bravo','difficult','get',…]。
Wcor={[r1,[(id1,f1),(id2,f2),(id3,f3),…,(idn,fn)]],[r2,[(id1,f1),(id2,f2),(id3,f3),…,(idn,fn)]],[r3,[(id1,f1),(id2,f2),(id3,f3),…,(idn,fn)]],…,[rn,[(id1,f1),(id2,f2),(id3,f3),…,(idn,fn)]]},其中rn为第n条评论,idn为rn中每个单词的编号,fn为单词出现的次数。本实施例中第r1条评论的向量为:[(0,1),(1,1),(2,1),(3,1),(4,1),(5,1),(6,1),(7,1),(8,1),(9,1),(10,1),(11,2),(12,1)]。
步骤7:利用主题提取模块提取最佳主题。如图2。
步骤7.1:初始化主题数量Kt=0,为Kt设置域值Kmax=40,以及递增量Ki=2;
步骤7.2:构建一致性词典CVdic
步骤7.2.1:将Kt、Wdic、Wcor作为LDA模型输入参数,设置最大迭代次数为1000,通过模型超参数α和β推断主题分布参数θr和主题与单词分布参数
Figure BDA0002220941060000081
θr
Figure BDA0002220941060000082
符合Dirichlet先验分布,过程如下:
(1)对于每条评论r,随机生成第r条评论的主题分布参数θr~Dir(α);
(2)对于每个主题k,生成第k个主题的单词分布
Figure BDA0002220941060000083
(3)对当前评论的每个单词的位置:
(a)根据主题分布参数θr生成当前单词所属主题:Zrn,Zrn表示第r条评论第n个单词对应的主题;
(b)根据当前位置的主题,以及主题与单词分布参数φk,生成第r条评论第n个单词对应的单词分布Wkn
迭代执行步骤7.2.1中的(1)-(3),直到遍历所有评论的所有单词,待估计参数θr
Figure BDA0002220941060000094
进入平稳,由Zrn和Wkn得到主题序列Z={Z1,Zr,……Zt},其中每一个Z包含一组单词。
步骤7.2.2:计算每个主题的一致性值coherence。主题一致性值coherence通过测量主题中得分高的单词之间的语义相似程度来衡量主题的得分,计算公式如下:
Figure BDA0002220941060000091
其中Zi是一组词描述的主题,ε是平滑因子,coherence是一致性。Score是Zi中单词对出现的概率值,基于在线评论计算两个单词共现的得分,公式如下。
Figure BDA0002220941060000092
其中,R(x,y)表示包含单词x和y的评论数,R(x)表示包含x的评论数。平滑因子ε用于评估一致性值达到稳定值。
步骤7.2.3:计算当前Kt时所有主题一致性值coherence的平均值CVt,并将Kt和CVt加入一致性词典CVdic={(Kt1,CV2),(Kt2,CV4),(Kt3,CV6),…,(Kmax,CVmax)}。
步骤7.2.4:判断主题数量Kt是否大于Kmax,如果是则迭代结束,进入步骤7.3;反之令Kt=Kt+Ki;则进入步骤7.2.1;
步骤7.3:从一致性词典CVdic中筛选出一致性最大时的主题数Kb,并将单词词典Wdic、语料库Wcor输入模型,输出Kb时的主题序列Z={Z1,Zr,……Zb},以及代表每个主题的单词集合。本实施例中,当主题数量为9时,主题一致性值为0.5184,达到最高值,如表3所示。
表3主题一致性值
Figure BDA0002220941060000093
将最佳主题数量9、单词词典Wdic、语料库Wcor作为参数输入模型,迭代后得到在线评论的最佳主题序列Z={Z1,Z2,……Z9},表4为其中5个主题的关键词及代表性评论。
表4主题关键词示及代表性评论(部分主题示例)
Figure BDA0002220941060000101
以上描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。

Claims (4)

1.一种大数据背景下在线评论文本最佳主题提取方法,其特征在于包括以下步骤:
步骤1:文本数据采集模块采集各互联网资源网站中的评论信息,构成在线评论文档集合D={d1,d2,d3,…,dm};其中D是文档总数,dm为第m个文档;
步骤2:文本数据抽取模块加载在线文档集合D,判断文件格式,根据其从文档中抽取的文本内容,生成在线评论集R={r1,r2,r3,…,rn},并输出到文本规范化处理模块和词频统计模块;其中R是评论总数,rn是第n条评论;
步骤3:文本预处理模块对在线评论集R中的在线评论文本进行预处理,包括语言检测、文本清洗、词语切分;经过预处理后得到单词集合W={wr1,wr2,wr3,…3wrn},并输出到词频统计模块和文本规范化模块;其中wrn是第rn条评论中的所有单词;
步骤4:词频统计模块统计W中每个单词出现的次数,发现极高频与极低频词;并将结果输出到文本规范化模块和文本向量化模块;
步骤5:文本规范化模块依据词频统计模块输出的结果从W中删除极高频与极低频词,并执行去停止词处理;接下来并对单词进行词形转换处理,只保留动词、名词、形容词和副词,得到规范化后新的单词集合W’={w’r1,w’r2,w’r3,…3,’rn},并将结果输出到文本向量化模块;
步骤6:根据词频统计模块统计的W中每个单词出现的次数,文本向量化模块从文本规范化模块传送的新单词集合W’中构建单词词典Wdic和单词向量语料库Wcor,作为主题建模的输入;
Wdic=[w1,w2,w3,…wn],其中wn为第n个独立单词;
Wcor={[r1,[(id1,f1),(id2,f2),(id3,f3),(id数的n,fn)]],[r2,[(id1,f1),(id2,f2),(id3,f3),(idr的n,fn)]],[r3,[(id1,f1),(id2,f2),(id3,f3),(idr的n,fn)]],dr的输n,[(id1,f1),(id2,f2),(id3,f3),(idr的n,fn)]]},其中rn为第n条评论,idn为rn中每个单词的编号,fn为单词出现的次数;
步骤7:利用主题提取模块提取最佳主题;
步骤7.1:初始化主题数量Kt
步骤7.2:构建一致性词典CVdic
步骤7.2.1:将Kt、单词词典Wdic和单词向量语料库Wcor作为LDA模型输入参数,通过模型超参数α和β推断主题分布参数θr和主题与单词分布参数φk,θr
Figure FDA0004080293720000021
符合Dirichlet先验分布,过程如下:
(1)对于每条评论r,随机生成第r条评论的主题分布参数θr~Dir(α);
(2)对于每个主题k,生成主题k的单词分布
Figure FDA0004080293720000022
(3)对当前评论的每个单词的位置:
根据主题分布参数θr生成当前单词所属主题Zrn,Zrn表示第r条评论第n个单词对应的主题;根据当前位置的主题Zrn,以及主题与单词分布参数
Figure FDA0004080293720000023
生成第r条评论第n个单词对应的单词分布Wkn
迭代执行步骤7.2.1中的(1)-(3),直到遍历所有评论的所有单词,待估计参数θr
Figure FDA0004080293720000024
进入平稳,由Zrn和Wkn得到主题序列Z={Z1,Z2,……Zt},其中每一个主题Z包含一组单词;
步骤7.2.2:计算每个主题的一致性值coherence;主题一致性值coherence通过测量主题中得分高的单词之间的语义相似程度来衡量主题的得分,计算公式如下:
Figure FDA0004080293720000025
其中Zi是一组词描述的主题,1≤i≤t,ε是平滑因子,coherence是一致性;Score是Zi中单词对ωij同时出现的概率值,基于评论计算两个单词共现的得分,公式如下;
Figure FDA0004080293720000026
其中,R(x,y)表示包含单词x和y的评论数,R(x)表示包含x的评论数;平滑因子ε用于评估一致性值达到稳定值;
步骤7.2.3:计算当前Kt时所有主题一致性值coherence的平均值CVt,并将Kt和CVt加入一致性词典CVdic={(Kt1,CV2),(Kt2,CV4),(Kt3,CV6),…,(Kmax,CVmax)};
步骤7.2.4:判断主题数量Kt是否大于Kmax,若是则迭代结束,进入步骤7.3;反之令Kt=Kt+Ki,Ki表示递增量,进入步骤7.2.1;
步骤7.3:从一致性词典CVdic中筛选出一致性CVt最大时的主题数Kb,并将单词词典Wdic、语料库Wcor输入模型,输出Kb时的主题序列Z={Z1,Zr,……Zb},同时统计主题-评论分布,得到每个主题的代表性评论及评论集合。
2.如权利要求1所述的方法,其特征在于所述步骤2包括如下步骤:
步骤2.1:导入在线评论语料库或文件,判断文件格式,如果格式不正确,则提醒支持的格式为纯文本txt、csv及josn;如果格式正确则进入步骤2.2;
步骤2.2:根据识别出文件格式对文本内容进行抽取,并生成在线评论语料库R={r1,r2,r3,…,rn}。
3.如权利要求1或2所述的方法,其特征在于所述步骤3包括如下步骤:
步骤3.1:语言检测
对从步骤2中输入的在线评论集R进行语言编码检测,采用正则表达式规则,删除非英语和非汉语评论,得到新的在线评论语料库R’;
步骤3.2:文本清洗
采用正则表达式将R’中大量无关和不必要的标识和字符去除,如标点符号、Email和换行符;正则表达式需要检测评论中包含“@”的词语,及“\”和各类标点符号,将其删除,得到清洗后的文本R”;
步骤3.3:词语切分
将清洗后的R”切分为单个单词;根据语言编码采用不同的分词规则,将句子分割为单词集合W={wr1,wr2,wr3,…,wrn}。
4.一种大数据背景下在线评论文本最佳主题提取系统,其特征在于包括文本数据采集模块、文本数据抽取模块、文本预处理模块、词频统计模块、文本规范化模块、文本向量化模块、主题提取模块;
所述的文本数据采集模块用于采集各互联网资源网站中的评论信息,构成在线评论文档集合;
所述的文本数据抽取模块用于加载在线评论文档集合,判断文件格式,并根据文件格式从文件中抽取文本信息,生成在线评论语料库,并输出到文本规范化处理模块和词频统计模块;
所述的文本预处理模块用于对文本抽取模块所抽取的在线评论文本进行语言检测、文本清洗和词语切分;文本预处理模块首先对输入的文本数据进行语言编码检测与筛选;接着实施文本清洗,删除标点符号、换行符和Email;最后将评论文本分割为单个单词,生成单词集合,并将结果输出到词频统计模块和文本规范化模块;
所述的词频统计模块用于接收从文本预处理模块输出的单词集合,统计每个单词出现的次数或频率,即单频;
所述的文本规范化模块用于根据词频统计模块统计得到的单频,对文本预处理模块输出的单词集合进行去停止词、去极高频与极低频词,然后进行形词形转换处理,只保留动词、名词、形容词和副词,得到新的单词集合,并输出到文本向量化模块;
所述的文本向量化模块以词频统计模块输出的单频结果为依据,从文本规范化模块处理后的单词集合中构建单词词典,并计算独立单词数;同时构建语料库向量,对每个单词进行编号,统计单词在每条评论中的分布情况,最后将单词词典和语料库向量输出到主题提取模块;
所述的主题提取模块以文本向量化模块中输出的单词词典、语料库向量作为主题建模的参数输入,经过多次迭代提取不同主题数量时的在线评论主题,计算主题一致性值,并通过一致性确定最佳主题数量,最后提取主题,并统计主题代表性评论及主题与文档分布。
CN201910933579.XA 2019-09-29 2019-09-29 一种大数据背景下在线评论文本最佳主题提取系统和方法 Active CN110765762B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910933579.XA CN110765762B (zh) 2019-09-29 2019-09-29 一种大数据背景下在线评论文本最佳主题提取系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910933579.XA CN110765762B (zh) 2019-09-29 2019-09-29 一种大数据背景下在线评论文本最佳主题提取系统和方法

Publications (2)

Publication Number Publication Date
CN110765762A CN110765762A (zh) 2020-02-07
CN110765762B true CN110765762B (zh) 2023-04-18

Family

ID=69329074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910933579.XA Active CN110765762B (zh) 2019-09-29 2019-09-29 一种大数据背景下在线评论文本最佳主题提取系统和方法

Country Status (1)

Country Link
CN (1) CN110765762B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899832B (zh) * 2020-08-13 2024-03-29 东北电力大学 基于上下文语义分析的医疗主题管理系统与方法
CN112507064B (zh) * 2020-11-09 2022-05-24 国网天津市电力公司 一种基于主题感知的跨模态序列到序列生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004185135A (ja) * 2002-11-29 2004-07-02 Mitsubishi Electric Corp 話題変化抽出方法とその装置及び話題変化抽出プログラムとその情報記録伝送媒体
KR20160077446A (ko) * 2014-12-23 2016-07-04 고려대학교 산학협력단 시맨틱 엔티티 토픽 추출 방법
CN108513176A (zh) * 2017-12-06 2018-09-07 北京邮电大学 一种基于话题模型的社会化视频主题提取系统及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8180755B2 (en) * 2009-09-04 2012-05-15 Yahoo! Inc. Matching reviews to objects using a language model
US10296837B2 (en) * 2015-10-15 2019-05-21 Sap Se Comment-comment and comment-document analysis of documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004185135A (ja) * 2002-11-29 2004-07-02 Mitsubishi Electric Corp 話題変化抽出方法とその装置及び話題変化抽出プログラムとその情報記録伝送媒体
KR20160077446A (ko) * 2014-12-23 2016-07-04 고려대학교 산학협력단 시맨틱 엔티티 토픽 추출 방법
CN108513176A (zh) * 2017-12-06 2018-09-07 北京邮电大学 一种基于话题模型的社会化视频主题提取系统及方法

Also Published As

Publication number Publication date
CN110765762A (zh) 2020-02-07

Similar Documents

Publication Publication Date Title
Yasen et al. Movies reviews sentiment analysis and classification
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
CN102622338A (zh) 一种短文本间语义距离的计算机辅助计算方法
CN110879831A (zh) 基于实体识别技术的中医药语句分词方法
Singh et al. Sentiment analysis of Twitter data using TF-IDF and machine learning techniques
Sarwadnya et al. Marathi extractive text summarizer using graph based model
CN113360647B (zh) 一种基于聚类的5g移动业务投诉溯源分析方法
CN106202065A (zh) 一种跨语言话题检测方法及系统
Manjari Extractive summarization of Telugu documents using TextRank algorithm
CN110765762B (zh) 一种大数据背景下在线评论文本最佳主题提取系统和方法
CN107451116B (zh) 一种移动应用内生大数据统计分析方法
Britzolakis et al. A review on lexicon-based and machine learning political sentiment analysis using tweets
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
Munnes et al. Examining sentiment in complex texts. A comparison of different computational approaches
Hao et al. SCESS: a WFSA-based automated simplified chinese essay scoring system with incremental latent semantic analysis
Alnajran et al. A heuristic based pre-processing methodology for short text similarity measures in microblogs
US11599580B2 (en) Method and system to extract domain concepts to create domain dictionaries and ontologies
Setiawan et al. Social media emotion analysis in indonesian using fine-tuning bert model
CN117291190A (zh) 一种基于情感词典和lda主题模型的用户需求计算方法
Patel et al. Influence of Gujarati STEmmeR in supervised learning of web page categorization
Wang et al. Sentence-Ranking-Enhanced Keywords Extraction from Chinese Patents.
Medagoda et al. Keywords based temporal sentiment analysis
Kuş et al. An Extractive Text Summarization Model for Generating Extended Abstracts of Medical Papers in Turkish
Shaikh et al. An intelligent framework for e-recruitment system based on text categorization and semantic analysis
CN115238093A (zh) 一种模型训练的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231025

Address after: 312300 No. 77, Fuxing West Road, phase 1, Shangyu Industry Education Integration Innovation Park, waiwujia village, Wuxing West Road, Cao'e street, Shangyu District, Shaoxing City, Zhejiang Province (residence declaration)

Patentee after: SHANGYU SCIENCE AND ENGINEERING RESEARCH INSTITUTE CO., LTD. OF HANGZHOU DIANZI University

Patentee after: HANGZHOU DIANZI University

Address before: Room 810, A2 / F, Zhejiang University network new science and Technology Park, 2288 Jiangxi Road, Cao'e street, Shangyu District, Shaoxing City, Zhejiang Province, 312300

Patentee before: SHANGYU SCIENCE AND ENGINEERING RESEARCH INSTITUTE CO., LTD. OF HANGZHOU DIANZI University

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 310000 Xiasha Higher Education Park, Hangzhou City, Zhejiang Province

Patentee after: HANGZHOU DIANZI University

Country or region after: China

Patentee after: SHANGYU SCIENCE AND ENGINEERING RESEARCH INSTITUTE CO., LTD. OF HANGZHOU DIANZI University

Address before: 312300 No. 77, Fuxing West Road, phase 1, Shangyu Industry Education Integration Innovation Park, waiwujia village, Wuxing West Road, Cao'e street, Shangyu District, Shaoxing City, Zhejiang Province (residence declaration)

Patentee before: SHANGYU SCIENCE AND ENGINEERING RESEARCH INSTITUTE CO., LTD. OF HANGZHOU DIANZI University

Country or region before: China

Patentee before: HANGZHOU DIANZI University