CN110765762B

CN110765762B - 一种大数据背景下在线评论文本最佳主题提取系统和方法

Info

Publication number: CN110765762B
Application number: CN201910933579.XA
Authority: CN
Inventors: 杨根福; 严康铖
Original assignee: Hangzhou Dianzi University Shangyu Science and Engineering Research Institute Co Ltd
Current assignee: Hangzhou Dianzi University; Hangzhou Dianzi University Shangyu Science and Engineering Research Institute Co Ltd
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2023-04-18
Anticipated expiration: 2039-09-29
Also published as: CN110765762A

Abstract

本发明公开一种大数据背景下在线评论文本最佳主题提取系统和方法。首先，在在线评论主题模型语料库的准备过程中，通过词频统计结果对语料库的预处理、规范化及文本向量化等环节进行了优化，提高了语料库向量的可靠性与质量；其次，在主题提取的迭代过程中，将主题一致性值作为关键控制参数，优化模型，确定了最佳的主题数量；再次，利用主题代表性文档、主题与文档分布信息推断主题的意义，弥补只分析关键词带来的不足。

Description

一种大数据背景下在线评论文本最佳主题提取系统和方法

技术领域

本发明涉及大数据信息处理与分析领域，具体地，涉及一种大数据背景下在线评论文本最佳主题提取系统和方法。

背景技术

近年来，随着计算机和通信技术的快速发展，人类产生的数据呈指数级增长。其中有大量的数据为非结构化的文本数据，如博客、在线评论、报纸或网络文章、研究论文和专利申请等等。其中，在线评论是一种重要的用户生成内容，它以定性的方式描述了用户使用在线产品和服务的过程及体验。各个领域的人们期待从这些数据中发现有用的信息，了解使用者的偏好及需求。然而，由于在线评论文本数据量大、非结构化、多语言等特征，并存在大量噪声，仅通过人工定性分析存在不小的难度。因而，急需更高效且有效的方法从大量评论文中提取高质量有价值的信息。

文本挖掘也称“文本分析”，是使用计算机通过机器学习、自然语言处理等方法对大量定性或非结构化文本数据进行分析以便生成高质量信息的过程或实践。主题提取研究也称为主题建模研究，是文本挖掘的一种高级应用，主要目的是从大量非结构化文本语料中提取潜在语义或主题。隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)是一种最先进的主题建模工具，常运用于执行主题识别任务，通过计算潜在的主题，在线评论的定性分析就可以量化。

虽然，LDA是目前最为有效的主题建模工具，但其算法复杂、流程环节多，其研究结果受众多因素影响。传统的LDA主题研究因其对文本数据利用不充分、主题稳定性差而大受研究人员诟病。在在线评论领域，LDA研究方法也未能发挥其应有的作用。因此，如何利用LDA构建合理的主题模型、优化流程与方法，从大量非结构化在线评论中挖掘清晰、有意义的主题就显得尤为重要。

发明内容

本发明所要解决的技术问题是提供一种大数据背景下在线评论文本最佳主题提取系统和方法。

本发明系统包括文本数据采集模块、文本数据抽取模块、文本预处理模块、词频统计模块、文本规范化模块、文本向量化模块、主题提取模块。

所述的文本数据采集模块用于采集各互联网资源网站中的评论信息，构成在线评论文档集合。

所述的文本数据抽取模块用于加载在线评论文档集合，判断文件格式，并根据文件格式从文件中抽取文本信息，生成在线评论语料库，并输出到文本规范化处理模块和词频统计模块。

所述的文本预处理模块用于对文本抽取模块所抽取的在线评论文本进行语言检测、文本清洗和词语切分。文本预处理模块首先对输入的文本数据进行语言编码检测与筛选；接着实施文本清洗，删除标点符号、换行符、Email等特殊符号；最后将评论文本分割为单个单词，生成单词集合，并将结果输出到词频统计模块和文本规范化模块。

所述的词频统计模块用于接收从文本预处理模块输出的单词集合，统计每个单词出现的次数或频率，即单频。

所述的文本规范化模块用于根据词频统计模块统计得到的单频，对文本预处理模块输出的单词集合进行去停止词、去极高频与极低频词，然后进行形词形转换处理，只保留动词、名词、形容词和副词，得到新的单词集合，并输出到文本向量化模块。

所述的文本向量化模块以词频统计模块输出的单频结果为依据，从文本规范化模块处理后的单词集合中构建单词词典，并计算独立单词数；同时构建语料库向量，对每个单词进行编号，统计单词在每条评论中的分布情况，最后将单词词典和语料库向量输出到主题提取模块。

所述的主题提取模块以文本向量化模块中输出的单词词典、语料库向量作为主题建模的参数输入，经过多次迭代提取不同主题数量时的在线评论主题，计算主题一致性值，并通过一致性确定最佳主题数量，最后提取主题，并统计主题代表性评论及主题与文档分布。

根据本发明提供的一种大数据背景下在线评论文本最佳主题提取方法，包括如下步骤：

步骤1：文本数据采集模块采集各互联网资源网站中的评论信息，构成在线评论文档集合D＝{d₁,d₂,d₃,…,d_m}。其中D是文档总数，d_m为第m个文档。

步骤2：文本数据抽取模块加载在线文档集合D，判断文件格式，根据其从文档中抽取的文本内容，生成在线评论集R＝{r₁,r₂,r₃,…,r_n}，并输出到文本规范化处理模块和词频统计模块。其中R是评论总数，r_n是第n条评论。

优选地，所述步骤2包括如下步骤：

步骤2.1：导入在线评论语料库或文件，判断文件格式，如果格式不正确，则提醒支持的格式为纯文本txt、csv及josn；如果格式正确则进入步骤2.2；

步骤2.2：根据识别出文件格式对文本内容进行抽取，并生成在线评论语料库R＝{r₁,r₂,r₃,…,r_n}。

步骤3：文本预处理模块对在线评论集R中的在线评论文本进行预处理，包括语言检测、文本清洗、词语切分；经过预处理后得到单词集合W＝{w_r1,w_r2,w_r3,…3w_rn}，并输出到词频统计模块和文本规范化模块。其中w_rn是第r_n条评论中的所有单词。

优选地，所述步骤3包括如下步骤：

步骤3.1：语言检测

对从步骤2中输入的在线评论集R进行语言编码检测，采用正则表达式规则，删除非英语和非汉语评论，得到新的在线评论语料库R’。

步骤3.2：文本清洗

采用正则表达式将R’中大量无关和不必要的标识和字符去除，如标点符号、Email和换行符。正则表达式需要检测评论中包含“@”的词语，及“\”和各类标点符号，将其删除，得到清洗后的文本R”。

步骤3.3：词语切分

将清洗后的R”切分为单个单词。根据语言编码采用不同的分词规则，将句子分割为单词集合W＝{w_r1,w_r2,w_r3,…,w_rn}。

步骤4：词频统计模块统计W中每个单词出现的次数，发现极高频与极低频词；并将结果输出到文本规范化模块和文本向量化模块。

所述的词频是指每个独立的单词在在线评论中出现的次数或频率。词频统计的结果可以用于分析在线评论中用户对产品或服务最关注点的识别，并作为主题提取中极高频词与极低频词剔除的依据。

步骤5：文本规范化模块依据词频统计模块输出的结果从W中删除极高频与极低频词，并执行去停止词处理；接下来并对单词进行词形转换处理，只保留动词、名词、形容词和副词，得到规范化后新的单词集合W’＝{w’_r1,w’_r2,w’_r3,…3,’_rn}，并将结果输出到文本向量化模块。

步骤6：根据词频统计模块统计的W中每个单词出现的次数，文本向量化模块从文本规范化模块传送的新单词集合W’中构建单词词典W_dic和单词向量语料库W_cor，作为主题建模的输入。

W_dic＝[w₁,w₂,w₃,…w_n],其中w_n为第n个独立单词。

W_cor＝{[r₁,[(id₁,f₁),(id₂,f₂),(id₃,f₃),(id数的_n,f_n)]],[r₂,[(id₁,f₁),(id₂,f₂),(id₃,f₃),(idr的_n,f_n)]],[r₃,[(id₁,f₁),(id₂,f₂),(id₃,f₃),(idr的_n,f_n)]],dr的输_n,[(id₁,f₁),(id₂,f₂),(id₃,f₃),(idr的_n,f_n)]]},其中r_n为第n条评论，id_n为r_n中每个单词的编号，f_n为单词出现的次数。

步骤7：利用主题提取模块提取最佳主题。

将由步骤6输出的单词词典W_dic和单词向量语料库W_cor作为主题模型的输入参数，推断主题序列Z＝{Z₁，Z₂，……Z_t}，其中主题数量K_t≤域值K_max。从主题Z计算每个主题的一致性值Coherence，以及K_t时主题一致性平均值C_V，生成不同主题数量K_t时的一致性值词典CV_dic，并筛选确定最佳主题数量K_b，最后提取最佳主题，统计主题-评论分布，得到每个主题的代表性评论。

优选地，所述步骤7是构建改进LDA主题模型：

对于一个确定的主题数量K_t，模型以单词词典W_dic、语料库W_cor、模型超参数α和β作为输入，设置最大迭代次数T，对模型进行迭代训练，推断主题序列Z＝{Z₁，Z_r，……Z_t}，其中每个主题Z由一组单词集合组成。计算每个主题的一致性值Coherence，以及对应K_t个主题一致性值Coherence的聚合值CV，并根据不同K_t时的CV值确定最佳主题数量K_t；具体是：

步骤7.1:初始化主题数量K_t。

步骤7.2:构建一致性词典CV_dic

步骤7.2.1:将K_t、单词词典W_dic和单词向量语料库W_cor作为LDA模型输入参数，通过模型超参数α和β推断主题分布参数θ_r和主题与单词分布参数φ_k，θ_r和

符合Dirichlet先验分布，过程如下：

(1)对于每条评论r，随机生成第r条评论的主题分布参数θ_r～Dir(α)；

(2)对于每个主题k，生成主题k的单词分布

(3)对当前评论的每个单词的位置：

根据主题分布参数θ_r生成当前单词所属主题Z_rn，Z_rn表示第r条评论第n个单词对应的主题；根据当前位置的主题Z_rn，以及主题与单词分布参数

生成第r条评论第n个单词对应的单词分布W_kn。

迭代执行步骤7.2.1中的(1)-(3)，直到遍历所有评论的所有单词，待估计参数θ_r和

进入平稳，由Z_rn和W_kn得到主题序列Z＝{Z₁，Z₂，……Z_t},其中每一个主题Z包含一组单词。

步骤7.2.2:计算每个主题的一致性值coherence。主题一致性值coherence通过测量主题中得分高的单词之间的语义相似程度来衡量主题的得分，计算公式如下：

其中Z_i是一组词描述的主题，1≤i≤t,ε是平滑因子，coherence是一致性。Score是Z_i中单词对ω_i,ω_j同时出现的概率值，基于评论计算两个单词共现的得分，公式如下。

其中，R(x，y)表示包含单词x和y的评论数，R(x)表示包含x的评论数。平滑因子ε用于评估一致性值达到稳定值。

步骤7.2.3:计算当前K_t时所有主题一致性值coherence的平均值CV_t，并将K_t和CV_t加入一致性词典CV_dic＝{(K_t1,CV₂)，(K_t2,CV₄)，(K_t3,CV₆)，…，(K_max,CV_max)}。

步骤7.2.4:判断主题数量K_t是否大于K_max，若是则迭代结束，进入步骤7.3；反之令K_t＝K_t+K_i，K_i表示递增量，进入步骤7.2.1。

步骤7.3：从一致性词典CV_dic中筛选出一致性CV_t最大时的主题数K_b，并将单词词典W_dic、语料库W_cor输入模型，输出K_b时的主题序列Z＝{Z₁，Z_r，……Z_b}，同时统计主题-评论分布，得到每个主题的代表性评论及评论集合。

本发明提供的方法，能从大量非结构化在线评论文本中提取清晰、有意义的高质量主题，创新点体现在以下几个方面。首先，在在线评论主题模型语料库的准备过程中，通过词频统计结果对语料库的预处理、规范化及文本向量化等环节进行了优化，提高了语料库向量的可靠性与质量；其次，在主题提取的迭代过程中，将主题一致性值作为关键控制参数，优化模型，确定了最佳的主题数量；再次，利用主题代表性文档、主题与文档分布信息推断主题的意义，弥补只分析关键词带来的不足。

本发明提供的方法能从在线评论中提取稳定的高质量主题，充分挖掘在线评论文本内容知识与价值。

附图说明

图1为本发明所述大数据背景下在线评论文本高质量主题提取系统的整体结构示意图；

图2为本发明所述的最佳主题提取模块示意图。

具体实施方式

下面结合附图对本发明的优选实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

如图1所示为本发明所述面向文本挖掘的处理系统的整体结构示意图。本系统整体架构包括：文本数据采集模块101、文本数据抽取模块102、文本预处理模块103、词频统计模块104、文本规范化模块105、文本向量化模块106、主题建模模块107。本发明以大规模在线课程(MOOCs)在线评论主题提取为例，来说明具体实施方式。

步骤1：通过文本数据采集模块101采集大规模在线课程网站中学习者评论，并保存为txt、csv或json等格式，构成在线评论文档集合D＝{d₁,d₂,d₃,…,d_n}。其中d_n表示第n门课程的评论集合。例如，从Coursera和Class Central网站上采集了“如何学习：学习困难科目的实用思维方法”课程共20312名学习者评论，其中Coursera上12592条，Class Central上7720条。此时D＝{d₁，d₂}，n＝2。其中，文档d₁中包含12592条评论条评论,档d₂中包含7720条评论，总评论数R_dn＝{12592,7720}＝20312。

步骤2：由文本数据抽取模块102加载在线文档集合D，判断文件格式，根据其从文档中抽取文本内容，生成在线评论语料库R＝{r₁,r₂,r₃,…,r_n}，并输出到文本预处理模块103。在此实施例中，R＝12592+7720＝20312。表1为由102模块抽取的“如何学习：学习困难科目的实用思维方法”课程学习者评论示例(其中5条评论)。

表1 MOOC学习者评论示例

步骤3：利用文本预处理模块103对语料库R中的在线评论文本进行语言检测、文本清洗、词语切分，并输出到词频统计模块104和文本规范化模块104。步骤3.1：语言检测采用正则表达式规则对在线评论语料库R进行语言编码检测。在本实施例中，由于学习者评论的主要语言为英语，因此，删除了少量西班牙语、阿拉伯语、汉语、俄语等非英语评论，实施语言检测后得到新的在线评论语料库R’；步骤3.2：采用正则表达式对R’进行文本清洗，删除无关和不必要的标识和字符，如标点符号、Email和换行符。并剔除评论单词数少于3的评论，实施文本清洗后得到R”＝16277；步骤3.3：将清洗后的R”根据语言编码采用不同的分词规则将句子分割为单词，得到单词集合W＝{w_r1,w_r2,w_r3,…,w_rn}，其中w_rn是第r_n条评论中的所有单词。如表1中的第1条评论分词后得到单词集合w_r1＝['you’ve','got','the','art','of','transforming','difficult','things','in','accessible',…]。

步骤4：利用词频统计模块104统计W中每个单词出现的次数，发现极高频与极低频词，并将结果输出到文本规范化模块105和文本向量化模块106。表2为本实施的词频统计示例。

表2词频统计示例(前30个单词)

步骤5：文本规范化模块105依据词频统计模块104输出的结果从W中删除极高频与极低频词，并去除停止词(如“the”、“are”、“have”等)；如本实施例中单词“course”出现次数远大于其它词汇，因此将其删除。接下来并对单词进行词形转换处理，只保留动词、名词、形容词和副词，得到规范化后新的单词集合W’＝{w’_r1,w’_r2,w’_r3,…,w’_rn}，并将结果输出到文本向量化模块106。如表1中的第1条评论在实施文本规范化后的单词集合w’_r1＝['have','get','art','transform','difficult','thing','accessible','thing',…]。

步骤6：文本向量化模块106依据文本规范化模块105和词频统计模块104输出的结果从单词集合W’中构建单词词典W_dic和单词向量语料库W_cor，作为主题建模的输入。W_dic＝[w₁,w₂,w₃,…w_n],其中w_n为第n个独立单词,本实施例中W_dic＝['accessible','art','bravo','difficult','get',…]。

W_cor＝{[r₁,[(id₁,f₁),(id₂,f₂),(id₃,f₃),…,(id_n,f_n)]],[r₂,[(id₁,f₁),(id₂,f₂),(id₃,f₃),…,(id_n,f_n)]],[r₃,[(id₁,f₁),(id₂,f₂),(id₃,f₃),…,(id_n,f_n)]],…,[r_n,[(id₁,f₁),(id₂,f₂),(id₃,f₃),…,(id_n,f_n)]]},其中r_n为第n条评论，id_n为r_n中每个单词的编号，f_n为单词出现的次数。本实施例中第r₁条评论的向量为:[(0,1),(1,1),(2,1),(3,1),(4,1),(5,1),(6,1),(7,1),(8,1),(9,1),(10,1),(11,2),(12,1)]。

步骤7：利用主题提取模块提取最佳主题。如图2。

步骤7.1:初始化主题数量K_t＝0，为K_t设置域值K_max＝40，以及递增量K_i＝2；

步骤7.2:构建一致性词典CV_dic

步骤7.2.1:将K_t、W_dic、W_cor作为LDA模型输入参数，设置最大迭代次数为1000，通过模型超参数α和β推断主题分布参数θ_r和主题与单词分布参数

θ_r和

符合Dirichlet先验分布，过程如下：

(2)对于每个主题k，生成第k个主题的单词分布

(3)对当前评论的每个单词的位置：

(a)根据主题分布参数θ_r生成当前单词所属主题：Z_rn，Z_rn表示第r条评论第n个单词对应的主题；

(b)根据当前位置的主题，以及主题与单词分布参数φ_k，生成第r条评论第n个单词对应的单词分布W_kn。

进入平稳，由Z_rn和W_kn得到主题序列Z＝{Z₁，Z_r，……Z_t},其中每一个Z包含一组单词。

其中Z_i是一组词描述的主题，ε是平滑因子，coherence是一致性。Score是Z_i中单词对出现的概率值，基于在线评论计算两个单词共现的得分，公式如下。

步骤7.2.4:判断主题数量K_t是否大于K_max，如果是则迭代结束，进入步骤7.3；反之令K_t＝K_t+K_i；则进入步骤7.2.1；

步骤7.3：从一致性词典CV_dic中筛选出一致性最大时的主题数K_b，并将单词词典W_dic、语料库W_cor输入模型，输出K_b时的主题序列Z＝{Z₁，Z_r，……Z_b}，以及代表每个主题的单词集合。本实施例中，当主题数量为9时，主题一致性值为0.5184，达到最高值,如表3所示。

表3主题一致性值

将最佳主题数量9、单词词典Wdic、语料库Wcor作为参数输入模型，迭代后得到在线评论的最佳主题序列Z＝{Z1，Z2，……Z9}，表4为其中5个主题的关键词及代表性评论。

表4主题关键词示及代表性评论(部分主题示例)

以上描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种大数据背景下在线评论文本最佳主题提取方法，其特征在于包括以下步骤：

步骤1：文本数据采集模块采集各互联网资源网站中的评论信息，构成在线评论文档集合D＝{d₁,d₂,d₃,…,d_m}；其中D是文档总数，d_m为第m个文档；

步骤2：文本数据抽取模块加载在线文档集合D，判断文件格式，根据其从文档中抽取的文本内容，生成在线评论集R＝{r₁,r₂,r₃,…,r_n}，并输出到文本规范化处理模块和词频统计模块；其中R是评论总数，r_n是第n条评论；

步骤3：文本预处理模块对在线评论集R中的在线评论文本进行预处理，包括语言检测、文本清洗、词语切分；经过预处理后得到单词集合W＝{w_r1,w_r2,w_r3,…3w_rn}，并输出到词频统计模块和文本规范化模块；其中w_rn是第r_n条评论中的所有单词；

步骤4：词频统计模块统计W中每个单词出现的次数，发现极高频与极低频词；并将结果输出到文本规范化模块和文本向量化模块；

步骤5：文本规范化模块依据词频统计模块输出的结果从W中删除极高频与极低频词，并执行去停止词处理；接下来并对单词进行词形转换处理，只保留动词、名词、形容词和副词，得到规范化后新的单词集合W’＝{w’_r1,w’_r2,w’_r3,…3,’_rn}，并将结果输出到文本向量化模块；

步骤6：根据词频统计模块统计的W中每个单词出现的次数，文本向量化模块从文本规范化模块传送的新单词集合W’中构建单词词典W_dic和单词向量语料库W_cor，作为主题建模的输入；

W_dic＝[w₁,w₂,w₃,…w_n],其中w_n为第n个独立单词；

W_cor＝{[r₁,[(id₁,f₁),(id₂,f₂),(id₃,f₃),(id数的_n,f_n)]],[r₂,[(id₁,f₁),(id₂,f₂),(id₃,f₃),(idr的_n,f_n)]],[r₃,[(id₁,f₁),(id₂,f₂),(id₃,f₃),(idr的_n,f_n)]],dr的输_n,[(id₁,f₁),(id₂,f₂),(id₃,f₃),(idr的_n,f_n)]]},其中r_n为第n条评论，id_n为r_n中每个单词的编号，f_n为单词出现的次数；

步骤7：利用主题提取模块提取最佳主题；

步骤7.1:初始化主题数量K_t；

步骤7.2:构建一致性词典CV_dic

符合Dirichlet先验分布，过程如下：

(2)对于每个主题k，生成主题k的单词分布

(3)对当前评论的每个单词的位置：

生成第r条评论第n个单词对应的单词分布W_kn；

进入平稳，由Z_rn和W_kn得到主题序列Z＝{Z₁，Z₂，……Z_t},其中每一个主题Z包含一组单词；

步骤7.2.2:计算每个主题的一致性值coherence；主题一致性值coherence通过测量主题中得分高的单词之间的语义相似程度来衡量主题的得分，计算公式如下：

其中Z_i是一组词描述的主题，1≤i≤t,ε是平滑因子，coherence是一致性；Score是Z_i中单词对ω_i,ω_j同时出现的概率值，基于评论计算两个单词共现的得分，公式如下；

其中，R(x，y)表示包含单词x和y的评论数，R(x)表示包含x的评论数；平滑因子ε用于评估一致性值达到稳定值；

步骤7.2.3:计算当前K_t时所有主题一致性值coherence的平均值CV_t，并将K_t和CV_t加入一致性词典CV_dic＝{(K_t1,CV₂)，(K_t2,CV₄)，(K_t3,CV₆)，…，(K_max,CV_max)}；

步骤7.2.4:判断主题数量K_t是否大于K_max，若是则迭代结束，进入步骤7.3；反之令K_t＝K_t+K_i，K_i表示递增量，进入步骤7.2.1；

2.如权利要求1所述的方法，其特征在于所述步骤2包括如下步骤：

3.如权利要求1或2所述的方法，其特征在于所述步骤3包括如下步骤：

步骤3.1：语言检测

对从步骤2中输入的在线评论集R进行语言编码检测，采用正则表达式规则，删除非英语和非汉语评论，得到新的在线评论语料库R’；

步骤3.2：文本清洗

采用正则表达式将R’中大量无关和不必要的标识和字符去除，如标点符号、Email和换行符；正则表达式需要检测评论中包含“@”的词语，及“\”和各类标点符号，将其删除，得到清洗后的文本R”；

步骤3.3：词语切分

将清洗后的R”切分为单个单词；根据语言编码采用不同的分词规则，将句子分割为单词集合W＝{w_r1,w_r2,w_r3,…,w_rn}。

4.一种大数据背景下在线评论文本最佳主题提取系统，其特征在于包括文本数据采集模块、文本数据抽取模块、文本预处理模块、词频统计模块、文本规范化模块、文本向量化模块、主题提取模块；

所述的文本数据采集模块用于采集各互联网资源网站中的评论信息，构成在线评论文档集合；

所述的文本数据抽取模块用于加载在线评论文档集合，判断文件格式，并根据文件格式从文件中抽取文本信息，生成在线评论语料库，并输出到文本规范化处理模块和词频统计模块；

所述的文本预处理模块用于对文本抽取模块所抽取的在线评论文本进行语言检测、文本清洗和词语切分；文本预处理模块首先对输入的文本数据进行语言编码检测与筛选；接着实施文本清洗，删除标点符号、换行符和Email；最后将评论文本分割为单个单词，生成单词集合，并将结果输出到词频统计模块和文本规范化模块；

所述的词频统计模块用于接收从文本预处理模块输出的单词集合，统计每个单词出现的次数或频率，即单频；

所述的文本规范化模块用于根据词频统计模块统计得到的单频，对文本预处理模块输出的单词集合进行去停止词、去极高频与极低频词，然后进行形词形转换处理，只保留动词、名词、形容词和副词，得到新的单词集合，并输出到文本向量化模块；

所述的文本向量化模块以词频统计模块输出的单频结果为依据，从文本规范化模块处理后的单词集合中构建单词词典，并计算独立单词数；同时构建语料库向量，对每个单词进行编号，统计单词在每条评论中的分布情况，最后将单词词典和语料库向量输出到主题提取模块；