CN111104793A - 一种短文本主题确定方法 - Google Patents
一种短文本主题确定方法 Download PDFInfo
- Publication number
- CN111104793A CN111104793A CN201911317926.2A CN201911317926A CN111104793A CN 111104793 A CN111104793 A CN 111104793A CN 201911317926 A CN201911317926 A CN 201911317926A CN 111104793 A CN111104793 A CN 111104793A
- Authority
- CN
- China
- Prior art keywords
- short text
- topic
- short
- lexical item
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种短文本主题确定方法,涉及深度学习中的自然语言处理和文本主题模型构建领域,包括如下步骤:对收集的短文本进行预处理;对预处理过的短文本提取特征,对预处理后的数据降维,并计算局部词项权重和全局词项权重,以及设定主题分类,计算各词项对于各主题分类的隶属度,根据隶属度确定收集的短文本的精确主题。本发明通过提出一种新的基于模糊视角的短文本主题模型生成方法,解决了短文本数据的稀疏性问题,改善了传统主题模型带来的噪声问题,使得短文本在进行主题发现、分类和聚类等文本挖掘任务上的性能得到提升。
Description
【技术领域】
本发明涉及深度学习中的自然语言处理和文本主题模型构建领域,具体涉及基于一种短文本主题确定方法。
【背景技术】
论坛、网络小纸条、咨询问答和即时聊天记录等短文本在互联网上越来越多,越来越普遍。从短文本数据集中提取潜在主题是许多基于内容的应用程序的一项重要任务,比如内容的特征提取、主题勘测、热点发现以及用户兴趣概况等。
短文本文档的稀疏性给主题建模带来了挑战。传统的主题建模技术,如潜在狄利克雷分配算法(LDA)认为一篇文档的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的。一些统计技术,比如吉布斯抽样,被用来根据单词出现的共现模式发现各种文档中的隐含主题。因此,这些标准的主题模型对于普通文本具有强大的作用,但是由于每个文档中单词的稀疏共现模式,使得它们在短文本中失去了有效性。而且,在短文本内容中确定词频任务因缺乏具有识别性的信息性单词,从而使得在短文本中很难分辨出哪些单词更相关。此外,内容越少,在短文本中识别不确定词的语义就越困难。
【发明内容】
为解决前述问题,本发明提供了一种短文本主题确定方法,能够有效地解决短文本数据的稀疏性问题,改善了传统主题模型带来的噪声问题,使得短文本在进行主题发现、分类和聚类等文本挖掘任务上的性能得到提升。
为了达到上述目的,本发明采用如下技术方案:
一种短文本主题确定方法,包括如下步骤:
对收集的短文本进行预处理;
对预处理过的短文本提取特征;
对经过上述处理后得到的数据进行降维处理,并计算短文本中词项的局部词项权重和全局词项权重,
根据所述局部词项权重和全局词项权重设定主题分类;
对收集的短文本中的各词项计算对于各主题分类的隶属度,根据隶属度确定收集的短文本的精确主题。
可选的,对收集的短文本进行预处理具体包括:
确定短文本的主题;
去除收集的短文本中的表情符号、标志符号以及非语言文字部分;
利用结巴分词以及人为加入的和主题匹配的分词库对剩余的文本进行分词操作;
根据停用词表去除短文本中的停用词以及标点符号;
删除短文本中停用词以外的无意义词。
可选的,对经过上述处理后得到的数据进行降维处理具体包括:
用词袋模型提取预处理过的短文本的特征,对提取出的特征进行归一化处理,再统计短文本中出现的词项。
可选的,计算短文本中词项的局部词项权重具体包括:
用FreqDist方法对单篇短文本进行词频统计,得到词项在单篇短文本中的局部词频,用频率法对得到的局部词频计算局部词项权重。
可选的,计算短文本中词项的全局词项权重具体包括:
采用TF一元、TF熵、TF-IDF和TF-IDF平滑四种方法中的一种或几种计算词项在所有短文本中的全局词项权重。
可选的,通过优化目标函数对收集的短文本中的各词项计算对于各主题分类的隶属度。
可选的,根据隶属度确定收集的短文本的精确主题具体包括:
步骤1:计算每个主题分类的质心,所述质心由每个词项对于主题分类的隶属度作为权重进行加权平均所确定;
步骤2:根据所述质心对收集的短文本进行分类,并重新设定主题分类;
步骤3:根据重新设定的主题分类重新计算各词项对于新的主题分类的隶属度;
步骤4:重复步骤1至步骤3,直至隶属度不变。
本发明所提供的方法具有如下有益效果:
本发明所提供的短文本主题确定方法,融合了模糊理论的精髓,利用词项加权和模糊聚类在一定程度上改善了传统的标准主题模型。其中的隶属度被赋予每一个词项,局部词项权重和全局词项权重发现单词的共现性,以检测短文本文档中的信息性单词。这些词与模糊聚类的共同出现,从短文本文档中发现了更加精确的主题。因此,本发明解决了传统主题方法中由于短文本的稀疏性所导致的无法获得主题中的单词共现模式问题,进而改善了数据噪声问题,提供了更加灵活的聚类效果。
本发明的这些特点和优点将会在下面的具体实施方式以及附图中进行详细的揭露。本发明最佳的实施方式或手段将结合附图来详尽表现,但并非是对本发明技术方案的限制。另外,在每个下文和附图中出现的这些特征、要素和组件是具有多个,并且为了表示方便而标记了不同的符号或数字,但均表示相同或相似构造或功能的部件。
【附图说明】
下面结合附图对本发明作进一步说明:
图1为本发明实施例的流程图;
图2为本发明实施例的实例图;
图3为本发明实施例中词袋模型的实例图。
【具体实施方式】
下面结合本发明实施例的附图对本发明实施例的技术方案进行解释和说明,但下述实施例仅为本发明的优选实施例,并非全部。基于实施方式中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得其他实施例,都属于本发明的保护范围。
在本说明书中引用的“一个实施例”或“实例”或“例子”意指结合实施例本身描述的特定特征、结构或特性可被包括在本专利公开的至少一个实施例中。短语“在一个实施例中”在说明书中的各位置的出现不必都是指同一个实施例。
实施例
本实施例提供了一种短文本主题确定方法,如图1所示,包括如下步骤:
对收集的短文本进行预处理,具体包括:
确定短文本的主题;
去除收集的短文本中的表情符号、标志符号以及非语言文字部分;
利用结巴分词以及人为加入的和主题匹配的分词库对剩余的文本进行分词操作,其他实施例中没还可以引入其他合适的分词库;
根据停用词表去除短文本中的停用词以及标点符号,停用词表为本领域的公知技术,此处不再赘述;
删除短文本中停用词以外的无意义词,停用词以外的无意义词指类似不定式中的“to”、定语从句中的“where”、“what”等。
对于短文本的预处理,可以减少数据冗余,对数据进行规范化。
对预处理过的短文本提取特征,具体包括:用词袋模型提取预处理过的短文本的特征,例如,有四个短文本中的词项需要统计其在文档中出现的情况,四个短文本分别是:
Document 1:Peter likes football and eating mango.
Document 2:John doesn’tlike football,he alsolikes eating out.
Document 3:Mary likes eating out with Peter but not with John.
Document4:John doesn’tlike eating out.
上述文档中出现的词项被转换成矢量,出现的词展现在下述表格中:
Words | Document 1 | Document 2 | Document 3 | Document 4 |
Peter | 1 | 0 | 1 | 0 |
Likes | 1 | 1 | 1 | 0 |
Football | 1 | 1 | 0 | 0 |
And | 1 | 0 | 0 | 0 |
Eating | 1 | 1 | 1 | 1 |
Mango | 1 | 0 | 0 | 0 |
John | 0 | 1 | 1 | 1 |
Doesn’t | 0 | 1 | 0 | 1 |
Like | 0 | 1 | 0 | 1 |
He | 0 | 1 | 0 | 0 |
Also | 0 | 1 | 1 | 0 |
Out | 0 | 1 | 0 | 1 |
Mary | 0 | 0 | 1 | 0 |
With | 0 | 0 | 2 | 0 |
But | 0 | 0 | 1 | 0 |
Not | 0 | 0 | 1 | 0 |
对提取出的特征进行归一化处理,再统计短文本中出现的词项。
对经过上述处理后得到的数据进行降维处理。由词袋模型产生的数据具有高维特征,在实际应用中容易产生执行时间长、计算速度慢等问题,为了减少数据维数,在此步骤中利用主成分分析法对数据进行降维处理,去除噪声和不重要的特征,从而达到提升数据处理速度的目的,在降维处理后,计算短文本中词项的局部词项权重和全局词项权重,计算短文本中词项的局部词项权重采用FreqDist方法对单篇短文本进行词频统计,得到词项在单篇短文本中的局部词频,用频率法对得到的局部词频计算局部词项权重,数值设置为从0到1,1代表着最重要的词项,0代表与主题无关的词项;计算短文本中词项的全局词项权重采用TF一元、TF熵、TF-IDF和TF-IDF平滑四种方法中的一种或几种计算词项在所有短文本中的全局词项权重。
根据局部词项权重和全局词项权重设定主题分类;
通过优化目标函数对收集的短文本中的各词项计算对于各主题分类的隶属度。优化目标函数为本领域的公知技术,此处不再赘述。
在计算机语言中只能区分0和1,但是在现实生活中很多情况无法仅使用0或1来表征,因此,这些场合下就需要引入隶属度函数的概念,打破了经典数学“非0即1”的局限性,用[0,1]之间的实数来描述中间状态,把只取1或0二值(属于/不属于)的普通集合概念推广0~1区间内的多个取值,即隶属度。用“隶属度”来描述元素和集合之间的关系。
根据隶属度确定收集的短文本的精确主题,具体包括:
步骤1:计算每个主题分类的质心,质心由每个词项对于主题分类的隶属度作为权重进行加权平均所确定;
步骤2:根据质心对收集的短文本进行分类,并重新设定主题分类;
步骤3:根据重新设定的主题分类重新计算各词项对于新的主题分类的隶属度;
步骤4:重复步骤1至步骤3,直至隶属度不变。
每个短文本样本数据赋予属于每个簇的隶属度函数。通过隶属度值大小来将短文本归类,从而将它划分更精确的主题中。
例如,在给定的文档中,本实施例所提供的方法发现了四个主题,如图2所示。左侧(A部分)的词项与一些主题相关,本实施例所提供的方法处理后,这些词项与最相关的主题之间的关联得到了确认。在此过程中,对每个主题赋予词项一定的隶属度,有三种颜色的圆圈表示从低(浅灰色)到高(深灰色)级别的隶属度。
本实施例所提供的短文本主题确定方法,融合了模糊理论的精髓,利用词项加权和模糊聚类在一定程度上改善了传统的标准主题模型。其中的隶属度被赋予每一个词项,局部词项权重和全局词项权重发现单词的共现性,以检测短文本文档中的信息性单词。这些词与模糊聚类的共同出现,从短文本文档中发现了更加精确的主题。因此,本实施例解决了传统主题方法中由于短文本的稀疏性所导致的无法获得主题中的单词共现模式问题,进而改善了数据噪声问题,提供了更加灵活的聚类效果。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,熟悉该本领域的技术人员应该明白本发明包括但不限于附图和上面具体实施方式中描述的内容。任何不偏离本发明的功能和结构原理的修改都将包括在权利要求书的范围中。
Claims (7)
1.一种短文本主题确定方法,其特征在于:所述短文本主题确定方法包括如下步骤:
对收集的短文本进行预处理;
对预处理过的短文本提取特征;
对经过上述处理后得到的数据进行降维处理,并计算短文本中词项的局部词项权重和全局词项权重,
根据所述局部词项权重和全局词项权重设定主题分类;
对收集的短文本中的各词项计算对于各主题分类的隶属度,根据隶属度确定收集的短文本的精确主题。
2.根据权利要求1所述的智能电容器预警方法,其特征在于:对收集的短文本进行预处理具体包括:
确定短文本的主题;
去除收集的短文本中的表情符号、标志符号以及非语言文字部分;
利用结巴分词以及人为加入的和主题匹配的分词库对剩余的文本进行分词操作;
根据停用词表去除短文本中的停用词以及标点符号;
删除短文本中停用词以外的无意义词。
3.根据权利要求1所述的短文本主题确定方法,其特征在于:对经过上述处理后得到的数据进行降维处理具体包括:
用词袋模型提取预处理过的短文本的特征,对提取出的特征进行归一化处理,再统计短文本中出现的词项。
4.根据权利要求1所述的短文本主题确定方法,其特征在于:计算短文本中词项的局部词项权重具体包括:
用FreqDist方法对单篇短文本进行词频统计,得到词项在单篇短文本中的局部词频,用频率法对得到的局部词频计算局部词项权重。
5.根据权利要求1所述的短文本主题确定方法,其特征在于:计算短文本中词项的全局词项权重具体包括:
采用TF一元、TF熵、TF-IDF和TF-IDF平滑四种方法中的一种或几种计算词项在所有短文本中的全局词项权重。
6.根据权利要求1所述的短文本主题确定方法,其特征在于:通过优化目标函数收集的短文本中的各词项计算对于各主题分类的隶属度。
7.根据权利要求1所述的短文本主题确定方法,其特征在于:根据隶属度确定收集的短文本的精确主题具体包括:
步骤1:计算每个主题分类的质心,所述质心由每个词项对于主题分类的隶属度作为权重进行加权平均所确定;
步骤2:根据所述质心对收集的短文本进行分类,并重新设定主题分类;
步骤3:根据重新设定的主题分类重新计算各词项对于新的主题分类的隶属度;
步骤4:重复步骤1至步骤3,直至隶属度不变。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911317926.2A CN111104793A (zh) | 2019-12-19 | 2019-12-19 | 一种短文本主题确定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911317926.2A CN111104793A (zh) | 2019-12-19 | 2019-12-19 | 一种短文本主题确定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111104793A true CN111104793A (zh) | 2020-05-05 |
Family
ID=70422588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911317926.2A Pending CN111104793A (zh) | 2019-12-19 | 2019-12-19 | 一种短文本主题确定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111104793A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304114A (zh) * | 2023-05-11 | 2023-06-23 | 青岛市黄岛区中心医院 | 基于外科护理的智能数据处理方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170147676A1 (en) * | 2015-11-24 | 2017-05-25 | Adobe Systems Incorporated | Segmenting topical discussion themes from user-generated posts |
CN107122352A (zh) * | 2017-05-18 | 2017-09-01 | 成都四方伟业软件股份有限公司 | 一种基于k‑means、word2vec的抽取关键词的方法 |
CN107357785A (zh) * | 2017-07-05 | 2017-11-17 | 浙江工商大学 | 主题特征词抽取方法及系统、情感极性判断方法及系统 |
CN109635081A (zh) * | 2018-11-23 | 2019-04-16 | 上海大学 | 一种基于词频幂律分布特性的文本关键词权重计算方法 |
CN109766408A (zh) * | 2018-12-04 | 2019-05-17 | 上海大学 | 综合词位置因素和词频因素的文本关键词权重计算方法 |
-
2019
- 2019-12-19 CN CN201911317926.2A patent/CN111104793A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170147676A1 (en) * | 2015-11-24 | 2017-05-25 | Adobe Systems Incorporated | Segmenting topical discussion themes from user-generated posts |
CN107122352A (zh) * | 2017-05-18 | 2017-09-01 | 成都四方伟业软件股份有限公司 | 一种基于k‑means、word2vec的抽取关键词的方法 |
CN107357785A (zh) * | 2017-07-05 | 2017-11-17 | 浙江工商大学 | 主题特征词抽取方法及系统、情感极性判断方法及系统 |
CN109635081A (zh) * | 2018-11-23 | 2019-04-16 | 上海大学 | 一种基于词频幂律分布特性的文本关键词权重计算方法 |
CN109766408A (zh) * | 2018-12-04 | 2019-05-17 | 上海大学 | 综合词位置因素和词频因素的文本关键词权重计算方法 |
Non-Patent Citations (5)
Title |
---|
N. AKHTAR等: "Topic Modelling with Fuzzy Document Representation", pages 577 - 587 * |
何伟林;谢红玲;奉国和;: "潜在狄利克雷分布模型研究综述", no. 01 * |
吉翔华;陈超;邵正荣;俞能海;: "基于主题子空间的文本模糊C均值聚类方法", no. 12 * |
周源 等: "基于主题变迁的领域发展路径智能化识别", pages 62 - 71 * |
赵永强: "成像偏振光谱遥感及应用", 国防工业出版社, pages: 211 - 212 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304114A (zh) * | 2023-05-11 | 2023-06-23 | 青岛市黄岛区中心医院 | 基于外科护理的智能数据处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rashid et al. | Fuzzy topic modeling approach for text mining over short text | |
Zhao et al. | Cyberbullying detection based on semantic-enhanced marginalized denoising auto-encoder | |
CN110287328B (zh) | 一种文本分类方法、装置、设备及计算机可读存储介质 | |
US7711673B1 (en) | Automatic charset detection using SIM algorithm with charset grouping | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN112231477A (zh) | 一种基于改进胶囊网络的文本分类方法 | |
CN110019776B (zh) | 文章分类方法及装置、存储介质 | |
CN110728151A (zh) | 基于视觉特征的信息深度处理方法及系统 | |
CN111221968A (zh) | 基于学科树聚类的作者消歧方法及装置 | |
CN111144106A (zh) | 一种不平衡数据集下的两阶段文本特征选择方法 | |
Ma et al. | The impact of weighting schemes and stemming process on topic modeling of arabic long and short texts | |
CN114707517B (zh) | 一种基于开源数据事件抽取的目标跟踪方法 | |
CN112417152A (zh) | 涉案舆情的话题检测方法和装置 | |
CN112115712A (zh) | 基于话题的群体情感分析方法 | |
Bizzoni et al. | The fractality of sentiment arcs for literary quality assessment: The case of Nobel laureates | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
CN114896398A (zh) | 一种基于特征选择的文本分类系统及方法 | |
Park et al. | Improving the accuracy and diversity of feature extraction from online reviews using keyword embedding and two clustering methods | |
Yang et al. | Research on Chinese text classification based on Word2vec | |
CN110046255A (zh) | 一种基于抗噪移动时间势能聚类的文本分类方法 | |
CN110019763B (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
Trisal et al. | K-RCC: A novel approach to reduce the computational complexity of KNN algorithm for detecting human behavior on social networks | |
CN111104793A (zh) | 一种短文本主题确定方法 | |
Baboo et al. | Sentiment analysis and automatic emotion detection analysis of twitter using machine learning classifiers | |
CN117216687A (zh) | 一种基于集成学习的大语言模型生成文本检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |