CN113792544B - 顾及地理空间分布的文本情感分类方法及装置 - Google Patents
顾及地理空间分布的文本情感分类方法及装置 Download PDFInfo
- Publication number
- CN113792544B CN113792544B CN202110762367.7A CN202110762367A CN113792544B CN 113792544 B CN113792544 B CN 113792544B CN 202110762367 A CN202110762367 A CN 202110762367A CN 113792544 B CN113792544 B CN 113792544B
- Authority
- CN
- China
- Prior art keywords
- text
- space
- geospatial
- texts
- vector representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 43
- 239000013598 vector Substances 0.000 claims abstract description 90
- 239000011159 matrix material Substances 0.000 claims abstract description 54
- 230000004927 fusion Effects 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000010276 construction Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 9
- 241000588771 Morganella <proteobacterium> Species 0.000 claims description 4
- 230000000644 propagated effect Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000001902 propagating effect Effects 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 230000000052 comparative effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种顾及地理空间分布的文本情感分类方法及装置,该方法包括:使用莫兰指数对文本情感得分在空间中的自相关性进行分析;根据文本间的地理位置距离设定文本空间位置权重矩阵;使用两种不同的构图方式对文本的语义信息和地理空间分布信息进行融合;在顾及地理空间位置信息的同时进行文本的表示学习,得到融合后的文本向量表示;将融合后的文本向量表示进行文本情感预测。本发明引入地理空间位置关系来建模文本与文本之间的信息,可以更加深入地捕获文本间的相似性,从而能够更好的对文本的情感进行分析预测。
Description
技术领域
本发明涉及文本情感分析领域,具体涉及一种顾及地理空间分布的文本情感分类方法及装置。
背景技术
情感分析也称为意见挖掘,是自然语言处理的经典任务,也是文本分类的任务之一。其目的是分析人们对于诸如时事、个人、商品、服务、组织等实体及其属性的情感类别或情感倾向。其在舆论检测,舆情分析,电影评论分析等领域有着广泛的应用。
由于情感分析在日常业务中的重要性,近年来涌现了大量有关情感分析的工作。其中图神经网络因为其在文本分类领域的高效而被广泛关注。例如GCN等一系列使用图神经网络进行文本分类的工作,都取得了较为理想的效果。但这些工作均只从文本语义以及词频的角度去考虑,采用语法依赖,外部知识补充,知识图谱等方式进行文本分类以提高性能。而忽略了文本本身地理空间分布特征的隐含信息。地理第一定律指出:“任何事物都是与其他事物相关的,只不过相近的事物关联更紧密“。例如餐厅评论文本,旅游景点推荐文本等,除了文本自身内容所蕴含的信息外,文本的位置信息也是值得关注的。
因此,传统的文本分类方法忽略了文本本身地理空间分布特征的隐含信息是亟待解决的技术问题。
发明内容
为了解决传统文本分类方法忽略了文本本身地理空间分布特征的隐含信息的技术问题,本发明创新性地引入地理空间位置关系来建模文本与文本之间的信息,可以更加深入地捕获文本间的相似性,从而能够更好的对文本的情感进行分析预测。
为了实现上述目的,本发明提供了一种顾及地理空间分布的文本情感分类方法,包括以下步骤:
根据文本间的地理位置距离设定文本的空间位置权重矩阵;
根据所述空间位置权重矩阵,融合文本语义信息和文本地理空间分布关系构建得到一个文本空间关系语义图;
将所述文本空间关系语义图进行传播更新,得到所述文本空间关系语义图的文本向量表示X1;
根据文本语义信息和文本地理空间分布关系分别构建得到一个文本语义图和一个文本地理空间分布图;
将所述文本语义图和所述文本地理空间分布图分别进行传播更新,并进行文本向量融合,得到融合语义与文本地理空间关系的文本向量表示X2;
将所述文本空间关系语义图的向量表示X1和所述融合语义与文本地理空间关系的文本向量表示X2进行融合,得到融合后的文本向量表示X;
根据所述融合后的文本向量表示X进行文本情感预测,得到文本的情感分类结果。
优选地,在所述根据文本间的地理位置距离设定文本的空间位置权重矩阵的步骤之前,还包括:
使用莫兰指数对文本情感得分在空间中的自相关性进行分析,得到文本情感得分的空间自相关性和距离阈值dτ;
根据所述空间自相关性得到文本地理空间分布关系。
优选地,所述使用莫兰指数对文本情感得分在空间中的自相关性进行分析,得到文本情感得分的空间自相关性和距离阈值dτ的步骤,包括:
将文本的情感得分作为莫兰指数的属性值a;
根据文本的经纬度坐标计算得到的文本间的空间距离;
将所述空间距离的倒数的平方作为莫兰指数的空间权重矩阵wij;
根据莫兰指数计算公式计算得到文本情感得分的空间自相关性,以及距离阈值dτ;
所述莫兰指数计算公式为:
其中,I为莫兰指数值,其取值通常在[-1,1]之间,越接近于1表示文本情感得分在空间上分布越聚集,即相关性越强;下标i与j表示的是第i个与第j个文本;表示属性值a的平均值;U表示文本集合;N表示文本的总数。
优选地,所述根据文本间的地理位置距离设定文本的空间位置权重矩阵的步骤,包括:
由文本的经纬度坐标计算文本间的空间距离;
将所述空间距离的倒数进行归一化处理,作为文本间的空间位置权重矩阵。
优选地,所述根据空间位置权重矩阵,融合文本语义信息和文本地理空间分布关系构建得到一个文本空间关系语义图的步骤,包括:
统计单词与单词之间的共现情况,用tf-idf计算结果作为边eww的权重;
统计单词与文本之间的共现情况,用pmi计算结果作为边ewd的权重;
统计文本与文本之间的地理距离,若小于所述距离阈值dτ,则建立边edd,并用空间位置权重矩阵作为边edd的权重,否则不建立边,最终得到一个文本空间关系语义图。
优选地,所述将文本空间关系语义图进行传播更新,得到所述文本空间关系语义图的文本向量表示X1的步骤,包括:
分别设置所述文本空间关系语义图的参数矩阵W1,W2,W3,由于构建的为异构图,所有参数矩阵相互独立,且邻接矩阵分别为A1,A2,A3;
其中,A1表示由单词之间的共现关系构建的邻接矩阵,A2表示单词与文本之间共现关系构成的邻接矩阵,A3为由地理空间分布关系构建的邻接矩阵,取值范围为[0,1],由经纬度坐标距离计算结果的倒数归一化得到;
将所述文本空间关系语义图进行传播更新,根据公式得到每个节点更新后的向量表示X1;
其中,表示第l层第i种类型关系下的向量表示,/>表示第i种类型关系下的归一化后的邻接矩阵,Wi表示第i个参数矩阵。
优选地,所述根据文本语义信息和所述文本地理空间分布关系分别构建得到一个文本语义图和一个文本地理空间分布图的步骤,包括:
根据单词,文本两类节点中的词共现关系和文本词频关系,构建一个文本语义图;
文本作为唯一节点,文本与文本之间根据地理空间分布关系建立边:首先计算文本与文本之间的经纬度坐标的距离,若大于所述距离阈值dτ,则在文本与文本之间建立边,并将所述空间位置权重矩阵作为边权重;若小于距离阈值dτ,则不建立边;
最终构建一个同构无向的文本地理空间分布图。
优选地,所述将文本语义图和所述文本地理空间分布图分别进行传播更新,并进行文本向量融合,得到融合语义与文本地理空间关系的文本向量表示X2的步骤,包括:
将所述文本语义图进行节点更新,得到文本语义图的文本向量表示;
文本地理空间分布图将所述空间位置权重矩阵作为邻接矩阵A的值,通过图卷积算法进行节点更新,得到文本地理空间分布图的文本节点向量表示;
将所述文本语义图的文本向量表示和所述文本地理空间分布图的文本节点向量表示,得到融合语义与文本地理空间关系的文本向量表示X2。
此外,为了实现上述目的,本发明还提供了一种顾及地理空间分布的文本情感分类装置,包括以下模块:
设定模块,用于根据文本间的地理位置距离设定文本的空间位置权重矩阵;
构建模块,用于根据所述空间位置权重矩阵,融合文本语义信息和文本地理空间分布关系构建得到一个文本空间关系语义图;
向量表示模块,用于将所述文本空间关系语义图进行传播更新,得到所述文本空间关系语义图的文本向量表示X1;
所述构建模块,还用于根据文本语义信息和文本地理空间分布关系分别构建得到一个文本语义图和一个文本地理空间分布图;
所述向量表示模块,还用于将所述文本语义图和所述文本地理空间分布图分别进行传播更新,分别得到所述文本语义图和所述文本地理空间分布的文本向量表示;
融合模块,用于将所述文本语义图和所述文本地理空间分布的文本向量表示进行融合,得到融合语义和文本地理空间关系的文本向量表示X2;还用于融合所述文本空间关系语义图的向量表示X1和所述融合语义和文本地理空间关系的文本向量表示X2,得到融合后的文本向量表示X;
预测分类模块,用于根据所述融合后的文本向量表示X进行文本情感预测,得到文本的情感分类结果。
优选地,所述文本情感分类装置还包括:
分析模块,用于使用莫兰指数对文本情感得分在空间中的自相关性进行分析,得到文本情感得分的空间自相关性和距离阈值dτ,并根据所述空间自相关性得到文本地理空间分布关系。
本发明提供的技术方案所带来的有益效果是:
本发明创新性地引入地理空间位置关系来建模文本与文本之间的信息,可以更加深入地捕获文本间的相似性,从而能够更好的对文本的情感进行分析预测,卷积神经网络采用的数据量为161916,预测精确度为40.5%,本发明方法采用的数据量为10000,预测精确度为63.9%,实验数据验证了本发明相对于传统情感分类方法,在使用更少的数据量的情况下依然能够得到更好的效果。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明一种顾及地理空间分布的文本情感分类方法的执行流程图;
图2是本发明一种顾及地理空间分布的文本情感分类装置的结构图;
图3是本发明向量空间分布图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
参考图1,图1是本发明一种顾及地理空间分布的文本情感分类方法的执行流程图;本实施例中,一种顾及地理空间分布的文本情感分类方法包括以下步骤:
S1、使用莫兰指数对文本情感得分在空间中的自相关性进行分析,得到文本情感得分的空间自相关性和距离阈值dτ;根据所述空间自相关性得到文本地理空间分布关系;
S2、根据文本间的地理位置距离设定文本的空间位置权重矩阵;
S3、根据所述空间位置权重矩阵,融合文本语义信息和所述文本地理空间分布关系构建得到一个文本空间关系语义图;
S4、将所述文本空间关系语义图进行传播更新,得到所述文本空间关系语义图的文本向量表示X1X1;
S5、根据文本语义信息和所述文本地理空间分布关系分别构建得到一个文本语义图和一个文本地理空间分布图;
S6、将所述文本语义图和所述文本地理空间分布图分别进行传播更新,并进行文本向量融合,得到融合语义与文本地理空间关系的文本向量表示X2;
S7、将所述文本空间关系语义图的向量表示X1和所述融合语义与文本地理空间关系的文本向量表示X2进行融合,得到融合后的文本向量表示X;
S8、根据所述融合后的文本向量表示X进行文本情感预测,得到文本的情感分类结果。
在本实施例中,S1具体包括:
S11、将文本的情感得分作为莫兰指数的属性值a;
S12、根据文本的经纬度坐标计算得到的文本间的空间距离;
S13、将所述空间距离的倒数的平方作为莫兰指数的空间权重矩阵wij;
S14、根据莫兰指数计算公式计算得到文本情感得分的空间自相关性,以及距离阈值dτ;
具体地,S14中,所述莫兰指数计算公式为:
其中,I为莫兰指数值,其取值通常在[-1,1]之间,越接近于1表示文本情感得分在空间上分布越聚集,即相关性越强;下标i与j表示的是第i个与第j个文本;表示属性值a的平均值;U表示文本集合;N表示文本的总数。
在本实施例中,S2具体包括:
S21、由文本的经纬度坐标计算文本间的空间距离;
S22、将所述空间距离的倒数进行归一化处理,作为文本间的空间位置权重矩阵。
在本实施例中,S3具体包括:
S31、统计单词与单词之间的共现情况,用tf-idf计算结果作为边eww的权重;
S32、统计单词与文本之间的共现情况,用pmi计算结果作为边ewd的权重;
S33、统计文本与文本之间的地理距离,若小于所述距离阈值dτ,则建立边edd,并用空间位置权重矩阵作为边edd的权重,否则不建立边,最终得到一个文本空间关系语义图。
在本实施例中,S4具体包括:
S41、分别设置所述文本空间关系语义图的参数矩阵W1,W2,W3,由于构建的为异构图,所有参数矩阵相互独立,且邻接矩阵分别为A1,A2,A3;
其中,A1表示由单词之间的共现关系构建的邻接矩阵,A2表示单词与文本之间共现关系构成的邻接矩阵,A3为由地理空间分布关系构建的邻接矩阵,取值范围为[0,1],由经纬度坐标距离计算结果的倒数归一化得到;
S42、将所述文本空间关系语义图进行传播更新,根据公式得到每个节点更新后的向量表示X1;
其中,表示第l层第i种类型关系下的向量表示,/>表示第i种类型关系下的归一化后的邻接矩阵,Wi表示第i个参数矩阵。
在本实实施例中,S5具体包括:
S51、根据单词,文本两类节点中的词共现关系和文本词频关系,构建一个文本语义图;
S52、文本作为唯一节点,文本与文本之间根据地理空间分布关系建立边:具体地,首先计算文本与文本之间的经纬度坐标的距离,若大于所述距离阈值dτ,则在文本与文本之间建立边,并将所述空间位置权重矩阵作为边权重;若小于距离阈值dτ,则不建立边;
S53、最终构建一个同构无向的文本地理空间分布图。
在本实施例中,S6具体包括:
S61、将所述文本语义图进行节点更新,得到文本语义图的文本向量表示;
S62、文本地理空间分布图将所述空间位置权重矩阵作为邻接矩阵A的值,通过图卷积算法进行节点更新,得到文本地理空间分布图的文本节点向量表示;
S63、将所述文本语义图的文本向量表示和所述文本地理空间分布图的文本节点向量表示,得到融合语义与文本地理空间关系的文本向量表示X2。
此外,为了实施上述的一种顾及地理空间分布的文本情感分类方法,本实施还提供了一种顾及地理空间分布的文本情感分类装置。
参考图2,本实施例一种顾及地理空间分布的文本情感分类装置包括以下模块:
分析模块1,用于使用莫兰指数对文本情感得分在空间中的自相关性进行分析,得到文本情感得分的空间自相关性和距离阈值dτ,并根据所述空间自相关性得到文本地理空间分布关系;
设定模块2,用于根据文本间的地理位置距离设定文本的空间位置权重矩阵;
构建模块3,用于根据所述空间位置权重矩阵,融合文本语义信息和所述文本地理空间分布关系构建得到一个文本空间关系语义图;
向量表示模块4,用于将所述文本空间关系语义图进行传播更新,得到所述文本空间关系语义图的文本向量表示X1;
所述构建模块3,还用于根据文本语义信息和所述文本地理空间分布关系分别构建得到一个文本语义图和一个文本地理空间分布图;
所述向量表示模块4,还用于将所述文本语义图和所述文本地理空间分布图分别进行传播更新,分别得到所述文本语义图和所述文本地理空间分布的文本向量表示;
融合模块5,用于将所述文本语义图和所述文本地理空间分布的文本向量表示进行融合,得到融合语义与文本地理空间关系的文本向量表示X2;还用于将所述文本空间关系语义图的向量表示X1和所述融合语义与文本地理空间关系的文本向量表示X2进行融合,得到融合后的文本向量表示X;
预测分类模块6,用于根据所述融合后的文本向量表示X进行文本情感预测,得到文本的情感分类结果。
为了证明本发明技术方案的有益效果,在本实施例中,进行了相关实验验证。
参考图3,图3为本发明向量空间分布图,图3展示了通过本发明方法得到的向量表示在二维向量空间下的分布特征,图中灰色和黑色分别表示两种不同的情感极性。可以看到,经过该方法得到的向量能够很好的区分出不同的情感极性。灰色节点相对集中在左半部,而黑色节点相对集中在右半部。
此外,本实施例还将本发明所用方法与传统方法进行了对比实验,对比实验结果如表1所示。本实验选择的参考方法为卷积神经网络(CNN),是深度学习中十分经典的模型,在深度学习各领域都有着极佳的表现。本实验采用的数据为yelp数据,该数据是美国的一个大众点评数据,主要为对一些餐饮和娱乐设施服务的点评打分,为英文数据集。该数据因为是口语化的评论所以分析难度相对较大,因此传统方法效果都欠佳。本发明所采用的方法在使用更少的数据量的情况下能够得到更好的效果,证明了本发明的实际效益。
表1对比实验结果
方法 | 数据量 | 精确度 |
卷积神经网络(CNN) | 161916 | 40.5% |
本发明所用方法 | 10000 | 63.9% |
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这些词语解释为标识。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (4)
1.一种顾及地理空间分布的文本情感分类方法,其特征在于,包括以下步骤:
使用莫兰指数对文本情感得分在空间中的自相关性进行分析,得到文本情感得分的空间自相关性和距离阈值dτ,具体包括:
将文本的情感得分作为莫兰指数的属性值a;
根据文本的经纬度坐标计算得到的文本间的空间距离;
将所述空间距离的倒数的平方作为莫兰指数的空间权重矩阵wij;
根据莫兰指数计算公式计算得到文本情感得分的空间自相关性,以及距离阈值dτ;
所述莫兰指数计算公式为:
其中,I为莫兰指数值,其取值在[-1,1]之间,越接近于1表示文本情感得分在空间上分布越聚集,即相关性越强;下标i与j表示的是第i个与第j个文本;表示属性值a的平均值;U表示文本集合;N表示文本的总数;
根据所述空间自相关性得到文本地理空间分布关系;
根据文本间的地理位置距离设定文本的空间位置权重矩阵,具体包括:
由文本的经纬度坐标计算文本间的空间距离;
将所述空间距离的倒数进行归一化处理,作为文本间的空间位置权重矩阵;
根据所述空间位置权重矩阵,融合文本语义信息和文本地理空间分布关系构建得到一个文本空间关系语义图,具体包括:
统计单词与单词之间的共现情况,用tf-idf计算结果作为边eww的权重;
统计单词与文本之间的共现情况,用pmi计算结果作为边ewd的权重;
统计文本与文本之间的地理距离,若小于所述距离阈值dτ,则建立边edd,并用空间位置权重矩阵作为边edd的权重,否则不建立边,最终得到一个文本空间关系语义图;
将所述文本空间关系语义图进行传播更新,得到所述文本空间关系语义图的文本向量表示X1;
根据所述文本语义信息和所述文本地理空间分布关系分别构建得到一个文本语义图和一个文本地理空间分布图;
将所述文本语义图和所述文本地理空间分布图分别进行传播更新,并进行文本向量融合,得到融合语义与文本地理空间关系的文本向量表示X2,具体包括:
将所述文本语义图进行节点更新,得到文本语义图的文本向量表示;
文本地理空间分布图将所述空间位置权重矩阵作为邻接矩阵A的值,通过图卷积算法进行节点更新,得到文本地理空间分布图的文本节点向量表示;
将所述文本语义图的文本向量表示和所述文本地理空间分布图的文本节点向量表示进行文本向量融合,得到融合语义与文本地理空间关系的文本向量表示X2;
将所述文本空间关系语义图的向量表示X1和所述融合语义与文本地理空间关系的文本向量表示X2进行融合,得到融合后的文本向量表示X;
根据所述融合后的文本向量表示X进行文本情感预测,得到文本的情感分类结果。
2.如权利要求1所述的顾及地理空间分布的文本情感分类方法,其特征在于,所述将文本空间关系语义图进行传播更新,得到所述文本空间关系语义图的文本向量表示X1的步骤,包括:
分别设置所述文本空间关系语义图的参数矩阵W1,W2,W3,由于构建的为异构图,所有参数矩阵相互独立,且邻接矩阵分别为A1,A2,A3;
其中,A1表示由单词之间的共现关系构建的邻接矩阵,A2表示单词与文本之间共现关系构成的邻接矩阵,A3为由地理空间分布关系构建的邻接矩阵,取值范围为[0,1],由经纬度坐标距离计算结果的倒数归一化得到;
将所述文本空间关系语义图进行传播更新,根据公式得到每个节点更新后的向量表示X1;
其中,表示第l层第i种类型关系下的向量表示,/>表示第i种类型关系下的归一化后的邻接矩阵,Wi表示第i个参数矩阵。
3.如权利要求1所述的顾及地理空间分布的文本情感分类方法,其特征在于,所述根据文本语义信息和所述文本地理空间分布关系分别构建得到一个文本语义图和一个文本地理空间分布图的步骤,包括:
根据单词,文本两类节点中的词共现关系和文本词频关系,构建一个文本语义图;
文本作为唯一节点,文本与文本之间根据地理空间分布关系建立边:首先计算文本与文本之间的经纬度坐标的距离,若大于所述距离阈值dτ,则在文本与文本之间建立边,并将所述空间位置权重矩阵作为边权重;若小于距离阈值dτ,则不建立边;
最终构建一个同构无向的文本地理空间分布图。
4.一种顾及地理空间分布的文本情感分类装置,其特征在于,包括以下模块:
分析模块,用于使用莫兰指数对文本情感得分在空间中的自相关性进行分析,得到文本情感得分的空间自相关性和距离阈值dτ,具体包括:
将文本的情感得分作为莫兰指数的属性值a;
根据文本的经纬度坐标计算得到的文本间的空间距离;
将所述空间距离的倒数的平方作为莫兰指数的空间权重矩阵wij;
根据莫兰指数计算公式计算得到文本情感得分的空间自相关性,以及距离阈值dτ;
所述莫兰指数计算公式为:
其中,I为莫兰指数值,其取值在[-1,1]之间,越接近于1表示文本情感得分在空间上分布越聚集,即相关性越强;下标i与j表示的是第i个与第j个文本:表示属性值a的平均值;U表示文本集合;N表示文本的总数;
根据所述空间自相关性得到文本地理空间分布关系;
设定模块,用于根据文本间的地理位置距离设定文本的空间位置权重矩阵,具体包括:
由文本的经纬度坐标计算文本间的空间距离;
将所述空间距离的倒数进行归一化处理,作为文本间的空间位置权重矩阵;
构建模块,用于根据所述空间位置权重矩阵,融合文本语义信息和文本地理空间分布关系构建得到一个文本空间关系语义图,具体包括:
统计单词与单词之间的共现情况,用tf-idf计算结果作为边eww的权重;
统计单词与文本之间的共现情况,用pmi计算结果作为边ewd的权重;
统计文本与文本之间的地理距离,若小于所述距离阈值dτ,则建立边edd,并用空间位置权重矩阵作为边edd的权重,否则不建立边,最终得到一个文本空间关系语义图;
向量表示模块,用于将所述文本空间关系语义图进行传播更新,得到所述文本空间关系语义图的文本向量表示X1;
所述构建模块,还用于根据所述文本语义信息和所述文本地理空间分布关系分别构建得到一个文本语义图和一个文本地理空间分布图;
所述向量表示模块,还用于将所述文本语义图和所述文本地理空间分布图分别进行传播更新,分别得到所述文本语义图和所述文本地理空间分布的文本向量表示;
融合模块,用于将所述文本语义图和所述文本地理空间分布的文本向量表示进行融合,得到融合语义与文本地理空间关系的文本向量表示X2,具体包括:
将所述文本语义图进行节点更新,得到文本语义图的文本向量表示;
文本地理空间分布图将所述空间位置权重矩阵作为邻接矩阵A的值,通过图卷积算法进行节点更新,得到文本地理空间分布图的文本节点向量表示;
将所述文本语义图的文本向量表示和所述文本地理空间分布图的文本节点向量表示进行文本向量融合,得到融合语义与文本地理空间关系的文本向量表示X2;
所述融合模块,还用于将所述文本空间关系语义图的向量表示X1和所述融合语义与文本地理空间关系的文本向量表示X2进行融合,得到融合后的文本向量表示X;
预测分类模块,用于根据所述融合后的文本向量表示X进行文本情感预测,得到文本的情感分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110762367.7A CN113792544B (zh) | 2021-07-06 | 2021-07-06 | 顾及地理空间分布的文本情感分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110762367.7A CN113792544B (zh) | 2021-07-06 | 2021-07-06 | 顾及地理空间分布的文本情感分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113792544A CN113792544A (zh) | 2021-12-14 |
CN113792544B true CN113792544B (zh) | 2023-08-29 |
Family
ID=79180978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110762367.7A Active CN113792544B (zh) | 2021-07-06 | 2021-07-06 | 顾及地理空间分布的文本情感分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113792544B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117521628B (zh) * | 2023-11-20 | 2024-05-28 | 中诚华隆计算机技术有限公司 | 基于人工智能的剧本创作方法、装置、设备及芯片 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893352A (zh) * | 2016-04-15 | 2016-08-24 | 苏州爱诺信信息科技有限公司 | 一种基于社交网络大数据的空气质量预警和监测分析系统 |
US10169707B1 (en) * | 2015-06-02 | 2019-01-01 | Predata, Inc. | System and method for generating predictions of geopolitical events |
CN109299284A (zh) * | 2018-08-31 | 2019-02-01 | 中国地质大学(武汉) | 一种基于结构信息与文本描述的知识图谱表示学习方法 |
CN110457472A (zh) * | 2019-07-16 | 2019-11-15 | 天津大学 | 基于som聚类算法的针对电商产品评论的情感关联分析方法 |
CN110472066A (zh) * | 2019-08-07 | 2019-11-19 | 北京大学 | 一种城市地理语义知识图谱的构建方法 |
CN111091454A (zh) * | 2019-11-05 | 2020-05-01 | 新华智云科技有限公司 | 一种基于知识图谱的金融舆情推荐方法 |
CN111914085A (zh) * | 2020-06-18 | 2020-11-10 | 华南理工大学 | 文本细粒度情感分类方法、系统、装置及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012167399A1 (en) * | 2011-06-08 | 2012-12-13 | Hewlett-Packard Development Company, L.P. | Sentiment trend visualization relating to an event occurring in a particular geographic region |
GB2502037A (en) * | 2012-02-10 | 2013-11-20 | Qatar Foundation | Topic analytics |
US9652473B2 (en) * | 2013-01-25 | 2017-05-16 | Adobe Systems Incorporated | Correlating social media data with location information |
US20160110381A1 (en) * | 2014-10-17 | 2016-04-21 | Fuji Xerox Co., Ltd. | Methods and systems for social media-based profiling of entity location by associating entities and venues with geo-tagged short electronic messages |
US11176325B2 (en) * | 2017-06-26 | 2021-11-16 | International Business Machines Corporation | Adaptive evaluation of meta-relationships in semantic graphs |
US20210192552A1 (en) * | 2019-12-18 | 2021-06-24 | International Business Machines Corporation | Clothing design attribute identification for geographical regions |
-
2021
- 2021-07-06 CN CN202110762367.7A patent/CN113792544B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10169707B1 (en) * | 2015-06-02 | 2019-01-01 | Predata, Inc. | System and method for generating predictions of geopolitical events |
CN105893352A (zh) * | 2016-04-15 | 2016-08-24 | 苏州爱诺信信息科技有限公司 | 一种基于社交网络大数据的空气质量预警和监测分析系统 |
CN109299284A (zh) * | 2018-08-31 | 2019-02-01 | 中国地质大学(武汉) | 一种基于结构信息与文本描述的知识图谱表示学习方法 |
CN110457472A (zh) * | 2019-07-16 | 2019-11-15 | 天津大学 | 基于som聚类算法的针对电商产品评论的情感关联分析方法 |
CN110472066A (zh) * | 2019-08-07 | 2019-11-19 | 北京大学 | 一种城市地理语义知识图谱的构建方法 |
CN111091454A (zh) * | 2019-11-05 | 2020-05-01 | 新华智云科技有限公司 | 一种基于知识图谱的金融舆情推荐方法 |
CN111914085A (zh) * | 2020-06-18 | 2020-11-10 | 华南理工大学 | 文本细粒度情感分类方法、系统、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
采用社交媒体的慕课分布模式研究;李圣文;周伟;叶亚琴;;科教导刊(中旬刊)(06);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113792544A (zh) | 2021-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145219B (zh) | 基于互联网文本挖掘的兴趣点有效性判断方法和装置 | |
CN109508385B (zh) | 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法 | |
Xie et al. | A novel text mining approach for scholar information extraction from web content in Chinese | |
Lei et al. | Patent analytics based on feature vector space model: A case of IoT | |
CN104731962A (zh) | 一种社交网络中基于相似社团的好友推荐方法及系统 | |
CN111325243B (zh) | 一种基于区域注意力学习机制的视觉关系检测方法 | |
CN113051927B (zh) | 基于多模态图卷积神经网络的社交网络突发事件检测方法 | |
CN108959305A (zh) | 一种基于互联网大数据的事件抽取方法及系统 | |
Mewada et al. | Research on False Review Detection Methods: A state-of-the-art review | |
WO2019227581A1 (zh) | 兴趣点识别方法、装置、终端设备及存储介质 | |
CN111125367A (zh) | 一种基于多层次注意力机制的多种人物关系抽取方法 | |
CN112559658B (zh) | 一种地址匹配方法及装置 | |
Utomo et al. | Geolocation prediction in social media data using text analysis: A review | |
CN111159409A (zh) | 基于人工智能的文本分类方法、装置、设备、介质 | |
WO2023050470A1 (zh) | 一种基于多层图注意力网络的事件检测方法及装置 | |
CN113449084A (zh) | 基于图卷积的关系抽取方法 | |
Xu et al. | Effective community division based on improved spectral clustering | |
CN113792544B (zh) | 顾及地理空间分布的文本情感分类方法及装置 | |
CN107832319B (zh) | 一种基于语义关联网络的启发式查询扩展方法 | |
CN116932661A (zh) | 一种面向网络安全的事件知识图谱构建方法 | |
Mbunge et al. | Deep learning and machine learning techniques for analyzing travelers' online reviews: a review | |
Muthukrishnan et al. | Aspect-based sentiment analysis for tourist reviews | |
CN114722810A (zh) | 一种基于信息抽取和多属性决策的房地产客户画像方法和系统 | |
Tao et al. | Boosting computational effectiveness in big spatial flow data analysis with intelligent data reduction | |
CN113569118A (zh) | 自媒体推送方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |