CN113591473B - 一种基于BTM主题模型和Doc2vec的文本相似度计算方法 - Google Patents
一种基于BTM主题模型和Doc2vec的文本相似度计算方法 Download PDFInfo
- Publication number
- CN113591473B CN113591473B CN202110824750.0A CN202110824750A CN113591473B CN 113591473 B CN113591473 B CN 113591473B CN 202110824750 A CN202110824750 A CN 202110824750A CN 113591473 B CN113591473 B CN 113591473B
- Authority
- CN
- China
- Prior art keywords
- text
- model
- vector
- data
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 74
- 238000012549 training Methods 0.000 claims abstract description 28
- 230000011218 segmentation Effects 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 5
- 238000010276 construction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于BTM主题模型和Doc2vec的文本相似度计算方法,首先进行数据预处理与基础模型训练,使用大规模语料库对基础Doc2vec模型进行训练,对待检测的文本数据,进行分词处理,用于下一阶段Doc2vec模型的数据输入;其次进行模型的数据训练处理,使用分词后的数据对Doc2vec模型进行训练,得到文本向量集合,同时使用BTM主题模型对待检测文本数据进行训练,得到文本主题集合。最后进行数据相似度的计算,在文本向量集合基础上,结合文本主题信息,得到主题向量集合,将文本向量与主题向量进行融合得到表征数据的距离向量,针对距离向量使用余弦相似度计算公式计算得到数据相似度值。本发明提出的检测模型提升了计算效率与文本之间相似度计算的准确度。
Description
技术领域
本发明属于自然语言处理技术领域,具体涉及一种文本相似度计算方法。
背景技术
在自然语言处理、数据挖掘等领域,文本之间的相似度是一个重要的研究内容,随着大数据时代的到来,信息增长迅速,造成了大量数据冗余的问题,通过准确计算数据之间的相似度,来对冗余数据进行删除,可以有效解决这一问题。主题模型由于可以深度发掘文本之间的语义信息,对各文本的语义信息以主题的形式进行总结表述,可通过两本文之间的代表性的主题内容进行数据比对,因而较为广泛用于文本相似度的计算,传统的主题模型主要是通过计算词语在文档中的重要程度来进行模型建立,当语料较短时难以计算词语的重要性,导致数据稀疏。针对这一缺陷,BTM主题模型应运而生。
自2003年词向量提出以来,深度学习的方法广泛应用于文本相似度计算之中,Doc2vec模型作为一种无监督的训练模型,不需要依赖于标签数据信息就可以计算文本间的语义相似度。但由于无监督的深度学习模型需要大规模的数据进行训练,并且无法有效利用标签数据的信息,存在训练时间过长,检测准确率低等问题。
因此本发明使用BTM主题模型与Doc2vec模型相结合,将主题信息引入无监督训练模型之中,BTM模型提取本文中的主题信息,与Doc2vec模型处理得到的词向量信息相结合,更加准确地表征出数据内涵,最后使用余弦相似度计算公式,计算得到文本相似度值。
发明内容
为了克服现有技术的不足,本发明提供了一种基于BTM主题模型和Doc2vec的文本相似度计算方法,首先进行数据预处理与基础模型训练,使用大规模语料库对基础Doc2vec模型进行训练,对待检测的文本数据,进行分词处理,用于下一阶段Doc2vec模型的数据输入;其次进行模型的数据训练处理,使用分词后的数据对Doc2vec模型进行训练,得到文本向量集合,同时使用BTM主题模型对待检测文本数据进行训练,得到文本主题集合。最后进行数据相似度的计算,在文本向量集合基础上,结合文本主题信息,得到主题向量集合,将文本向量与主题向量进行融合得到表征数据的距离向量,针对距离向量使用余弦相似度计算公式计算得到数据相似度值。本发明提出的检测模型提升了计算效率与文本之间相似度计算的准确度。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:模型定义与数据预处理;
首先对如表1所示的基础Doc2vec模型参数进行定义,再使用语料库对Doc2vec基础模型进行训练;
对于待检测的文本数据d{d1,d2,...,dn},使用分词工具,对待检测文本数据进行分词处理,处理后的数据项用于进行下一阶段的模型训练处理;
表1Doc2vec基础模型参数
步骤2:模型训练;
使用处理后的数据项对经过语料库训练后的Doc2vec模型再次进行训练,得到数据的文本向量集合{v(d1),v(d2),...,v(dn)};
构建BTM主题模型,使用BTM主题模型对待检测文本数据进行文本主题信息的检测,得到文本主题数据集合{t1,t2,...,tn};
步骤3:相似度计算;
在文本向量集合的基础上,结合文本主题数据集合进行向量数据筛选,得到主题向量集合,随后将主题向量信息与文本向量信息结合,计算得到文本相似度,相似度计算的具体过程如下:
步骤3-1:对每个文本主题中的高频词进行权重标注,将高频词出现的概率设定为主题权重,并且与文本向量集合中对应该文本主题的文本向量进行结合,得到主题向量集合,计算公式如下所示:
其中,v(di)表示该文本主题的向量表示,表示主题权重,h为主题向量总数,m为主题向量序号;
步骤3-2:使用式(2)将文本向量与主题向量相结合,用两个向量之间的的距离来表征数据项的特征。
dis(v(di),v(ti))=|v(di)-v(ti)| (2)
步骤3-3:针对两个数据项的文本向量与主题向量,使用余弦相似度计算公式,计算公式如式(3):
得到两个文本数据项之间的相似度值。
优选地,所述A=200,B=3,C=200,D=1,E=4。
优选地,所述分词工具为jieba分词工具。
本发明的有益效果如下:
本发明将文本主题模型与深度学习网络模型相结合,Doc2vec模型采用无监督学习的模式,不需要人工标注就可对语料数据进行训练学习,大大减少了传统人工标记工作方式的工作量,同时结合BTM主题模型,通过计算出文本的主题信息,将主题信息与文本向量进行结合,得到表征数据内涵的距离向量,针对距离向量使用余弦相似度计算公式进行计算得到文本相似度值,与直接使用两种算法进行重复数据检测相比,本发明提出的检测模型提升了计算效率与文本之间相似度计算的准确度。
附图说明
图1为本发明进行文本相似度计算的架构图1。
图2为本发明BTM主题模型构建原理图。
图3为本发明Doc2vec模型构建原理图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,一种基于BTM主题模型和Doc2vec的文本相似度计算方法,包括如下步骤:
步骤1:模型定义与数据预处理;
首先对如表1所示的基础Doc2vec模型参数进行定义,再使用大规模语料库对Doc2vec基础模型进行训练;
对于待检测的文本数据d{d1,d2,...,dn},使用当前应用最为广泛的jieba分词工具,对待检测文本数据进行分词处理,处理后的数据项用于进行下一阶段的模型训练处理;
表1 Doc2vec基础模型参数
步骤2:模型训练;
使用处理后的数据项对经过语料库训练后的Doc2vec模型再次进行训练,得到数据的文本向量集合{v(d1),v(d2),...,v(dn)};
构建BTM主题模型,使用BTM主题模型对待检测文本数据进行文本主题信息的检测,得到文本主题数据集合{t1,t2,...,tn};
步骤3:相似度计算;
在文本向量集合的基础上,结合文本主题数据集合进行向量数据筛选,得到主题向量集合,随后将主题向量信息与文本向量信息结合,计算得到文本相似度,相似度计算的具体过程如下:
步骤3-1:对每个文本主题中的高频词进行权重标注,将高频词出现的概率设定为主题权重,并且与文本向量集合中对应该文本主题的文本向量进行结合,得到主题向量集合,计算公式如下所示:
其中,v(di)表示该文本主题的向量表示,表示主题权重,h为主题向量总数,m为主题向量序号;
步骤3-2:使用式(2)将文本向量与主题向量相结合,用两个向量之间的的距离来表征数据项的特征。
dis(v(di),v(ti))=|v(di)-v(ti)| (2)
步骤3-3:针对两个数据项的文本向量与主题向量,使用余弦相似度计算公式,计算公式如式(3):
得到两个文本数据项之间的相似度值。
如图2所示,BTM模型的思想是对训练集中的同一上下文共同出现的一对无序的词语进行建模。通过分析建模的结果,两个词语是否属于同一类别取决于它们的共现次数。在BTM模型中,假设多个主题模型的混合分布产生全部的训练集,全局的主题分布中产生每个主题。
如图3所示为Doc2vec模型构建原理,每个段落/句子都被映射到向量空间中,可以用矩阵的一列来表示。每个单词同样被映射到向量空间,可以用矩阵的一列来表示。然后将段落向量和词向量级联或者求取平均得到特征,预测句子中的下一个单词。
Claims (3)
1.一种基于BTM主题模型和Doc2vec的文本相似度计算方法,其特征在于,包括以下步骤:
步骤1:模型定义与数据预处理;
首先对如表1所示的基础Doc2vec模型参数进行定义,再使用语料库对Doc2vec基础模型进行训练;
对于待检测的文本数据d{d1,d2,...,dn},使用分词工具,对待检测文本数据进行分词处理,处理后的数据项用于进行下一阶段的模型训练处理;
表1 Doc2vec基础模型参数
步骤2:模型训练;
使用处理后的数据项对经过语料库训练后的Doc2vec模型再次进行训练,得到数据的文本向量集合{v(d1),v(d2),...,v(dn)};
构建BTM主题模型,使用BTM主题模型对待检测文本数据进行文本主题信息的检测,得到文本主题数据集合{t1,t2,...,tn};
步骤3:相似度计算;
在文本向量集合的基础上,结合文本主题数据集合进行向量数据筛选,得到主题向量集合,随后将主题向量信息与文本向量信息结合,计算得到文本相似度,相似度计算的具体过程如下:
步骤3-1:对每个文本主题中的高频词进行权重标注,将高频词出现的概率设定为主题权重,并且与文本向量集合中对应该文本主题的文本向量进行结合,得到主题向量集合,计算公式如下所示:
其中,v(di)表示该文本主题的向量表示,表示主题权重,h为主题向量总数,m为主题向量序号;
步骤3-2:使用式(2)将文本向量与主题向量相结合,用两个向量之间的的距离来表征数据项的特征,
dis(v(di),v(ti))=|v(di)-v(ti)| (2)
步骤3-3:针对两个数据项的文本向量与主题向量,使用余弦相似度计算公式,计算公式如式(3):
得到两个文本数据项之间的相似度值。
2.根据权利要求1所述的一种基于BTM主题模型和Doc2vec的文本相似度计算方法,其特征在于,所述A=200,B=3,C=200,D=1,E=4。
3.根据权利要求1所述的一种基于BTM主题模型和Doc2vec的文本相似度计算方法,其特征在于,所述分词工具为jieba分词工具。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110824750.0A CN113591473B (zh) | 2021-07-21 | 2021-07-21 | 一种基于BTM主题模型和Doc2vec的文本相似度计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110824750.0A CN113591473B (zh) | 2021-07-21 | 2021-07-21 | 一种基于BTM主题模型和Doc2vec的文本相似度计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113591473A CN113591473A (zh) | 2021-11-02 |
CN113591473B true CN113591473B (zh) | 2024-03-12 |
Family
ID=78248817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110824750.0A Active CN113591473B (zh) | 2021-07-21 | 2021-07-21 | 一种基于BTM主题模型和Doc2vec的文本相似度计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113591473B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919557A (zh) * | 2017-02-22 | 2017-07-04 | 中山大学 | 一种结合主题模型的文档向量生成方法 |
CN109376226A (zh) * | 2018-11-08 | 2019-02-22 | 合肥工业大学 | 投诉文本的分类模型、构建方法、系统、分类方法和系统 |
CN110222347A (zh) * | 2019-06-20 | 2019-09-10 | 首都师范大学 | 一种作文离题检测方法 |
CN110851714A (zh) * | 2019-11-07 | 2020-02-28 | 安徽大学 | 基于异构主题模型和词嵌入模型的文本推荐方法和系统 |
CN111368072A (zh) * | 2019-08-20 | 2020-07-03 | 河北工程大学 | 基于BTM和GloVe相似度线性融合的微博热点话题发现算法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200134511A1 (en) * | 2018-10-30 | 2020-04-30 | Intuit Inc. | Systems and methods for identifying documents with topic vectors |
CN109740143B (zh) * | 2018-11-28 | 2022-08-23 | 平安科技(深圳)有限公司 | 基于机器学习的句子距离映射方法、装置和计算机设备 |
US11568266B2 (en) * | 2019-03-15 | 2023-01-31 | Baidu Usa Llc | Systems and methods for mutual learning for topic discovery and word embedding |
-
2021
- 2021-07-21 CN CN202110824750.0A patent/CN113591473B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919557A (zh) * | 2017-02-22 | 2017-07-04 | 中山大学 | 一种结合主题模型的文档向量生成方法 |
CN109376226A (zh) * | 2018-11-08 | 2019-02-22 | 合肥工业大学 | 投诉文本的分类模型、构建方法、系统、分类方法和系统 |
CN110222347A (zh) * | 2019-06-20 | 2019-09-10 | 首都师范大学 | 一种作文离题检测方法 |
CN111368072A (zh) * | 2019-08-20 | 2020-07-03 | 河北工程大学 | 基于BTM和GloVe相似度线性融合的微博热点话题发现算法 |
CN110851714A (zh) * | 2019-11-07 | 2020-02-28 | 安徽大学 | 基于异构主题模型和词嵌入模型的文本推荐方法和系统 |
Non-Patent Citations (2)
Title |
---|
基于HybridDL模型的文本相似度检测方法;肖晗;毛雪松;朱泽德;;电子技术应用;20200606(06);全文 * |
基于主题模型及其扩展的短文本算法评述;侯再恩 等;计算机应用与软件;20200112(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113591473A (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11631007B2 (en) | Method and device for text-enhanced knowledge graph joint representation learning | |
CN109857990B (zh) | 一种基于文档结构与深度学习的金融类公告信息抽取方法 | |
CN107862343B (zh) | 基于规则和神经网络的商品评论属性级情感分类方法 | |
CN111160037B (zh) | 一种支持跨语言迁移的细粒度情感分析方法 | |
CN110532554A (zh) | 一种中文摘要生成方法、系统及存储介质 | |
CN110569508A (zh) | 融合词性和自注意力机制的情感倾向性分类方法及系统 | |
WO2018153215A1 (zh) | 一种自动生成语义相近句子样本的方法 | |
CN111324742B (zh) | 一种数字人文知识图谱的构建方法 | |
CN106326212A (zh) | 一种基于层次深度语义的隐式篇章关系分析方法 | |
CN110245229A (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN110489523B (zh) | 一种基于网购评价的细粒度情感分析方法 | |
CN110309306A (zh) | 一种基于wsd层级记忆网络的文档建模分类方法 | |
CN113591474B (zh) | 一种基于加权融合的Loc2vec模型的重复数据检测方法 | |
CN111259153B (zh) | 一种完全注意力机制的属性级情感分析方法 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
CN112051986B (zh) | 基于开源知识的代码搜索推荐装置及方法 | |
CN110674296B (zh) | 一种基于关键词的资讯摘要提取方法及系统 | |
CN114139533A (zh) | 一种面向中文小说领域的文本内容审核方法 | |
CN111159332A (zh) | 一种基于bert的文本多意图识别方法 | |
TWI828928B (zh) | 高擴展性、多標籤的文本分類方法和裝置 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
CN110321434A (zh) | 一种基于词义消歧卷积神经网络的文本分类方法 | |
CN113360647A (zh) | 一种基于聚类的5g移动业务投诉溯源分析方法 | |
CN111104508B (zh) | 基于容错粗糙集的词袋模型文本表示方法、系统及介质 | |
CN113591473B (zh) | 一种基于BTM主题模型和Doc2vec的文本相似度计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |