CN113792142B - 基于多语义因素与特征聚合的目标用户隐性关系分类方法 - Google Patents
基于多语义因素与特征聚合的目标用户隐性关系分类方法 Download PDFInfo
- Publication number
- CN113792142B CN113792142B CN202111046995.1A CN202111046995A CN113792142B CN 113792142 B CN113792142 B CN 113792142B CN 202111046995 A CN202111046995 A CN 202111046995A CN 113792142 B CN113792142 B CN 113792142B
- Authority
- CN
- China
- Prior art keywords
- semantic
- feature
- words
- event text
- target user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002776 aggregation Effects 0.000 title claims abstract description 32
- 238000004220 aggregation Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 59
- 230000008451 emotion Effects 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 16
- 230000006399 behavior Effects 0.000 claims description 13
- 230000009471 action Effects 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000005259 measurement Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 230000015654 memory Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 230000002996 emotional effect Effects 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 230000019771 cognition Effects 0.000 abstract 1
- 230000003542 behavioural effect Effects 0.000 description 8
- 230000006872 improvement Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于多语义因素与特征聚合的目标用户隐性关系分类方法,包括以下步骤:(1)对已知目标用户事件文本进行三类局部语义特征提取;(2)对已知目标用户事件文本进行全局语义特征提取;(3)将事件文本的三类局部语义特征池化处理并加权融合后输入自注意力网络得到文本的多语义因素聚合特征向量;(4)将多语义因素聚合特征和全局语义特征输入训练好的分类器,对输出特征softmax后得到目标用户之间的关系类别。本发明提出了基于多语义因素与特征聚合的目标用户隐性关系分类方法,可以有效地挖掘电子商务活动涉及的用户之间的隐性关系,提高推荐系统对目标用户关系的认知和分析效率。
Description
技术领域
本发明属于数据挖掘技术领域,更具体地,涉及一种基于多语义因素与特征聚合的目标用户隐性关系分类方法。
背景技术
电子商务平台的用户数量繁多,且这些用户具有多样化的属性特征和行为活动,并且用户之间具有各种无法直接通过显式信息获得的联系,挖掘使用电子商务平台的用户之间的隐性关系逐渐成为个性化推荐领域的一项重要需求。随着电子商务活动越来越繁多和复杂,出于分析用户社群和优化推荐等目的,对电子商务涉及的目标用户分析方面的各类研究也越来越广泛,其中主流方法之一是对目标用户关系进行分类。
目标用户间关系抽取研究包括基于模式匹配的方法和基于机器学习的方法。传统的模式匹配方法提取目标用户间关系依赖于制定的规则和初始的种子,会存在数据的稀疏性等问题,而机器学习方法依赖人工标注目标用户背景知识数据集的大小、质量和手工特征设计的合理性,效果均不佳。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于多语义因素与特征聚合的目标用户隐性关系分类方法,基于多语义因素与特征聚合的目标用户隐性关系分类方法能够更好地捕捉原始描述文本的整体特征,并通过融合目标用户的局部语义特征和全局语义特征对目标用户关系进行分类,为社群的发现以及社群关系的挖掘提供支撑。
为实现上述目的,按照本发明的一个方面,提供了一种基于多语义因素与特征聚合的目标用户隐性关系分类方法,包括:
步骤S1:从已知目标用户的事件文本提取情境语义特征、行为语义特征和情感语义特征三类局部语义特征;
步骤S2:将三类局部语义特征进行加权融合,引入自注意力机制,得到事件文本的多语义因素聚合特征;
步骤S3:对目标用户的事件文本信息通过双向长短期记忆网络进行全局语义特征提取;
步骤S4:将多语义因素聚合特征和全局语义特征输入训练好的分类器,对输出特征softmax后得到目标用户之间的关系类别。
本发明的一个实施例中,所述步骤S1包括:
对含有目标用户相关事件的文本数据进行采集,对采集的事件文本进行分词,从分词后的文本中提取事件的“情境词”、“行为词”和“情感词”;
使用卷积核学习每类词的局部语义嵌入。
本发明的一个实施例中,从分词后的文本中提取事件的“情境词”、“行为词”和“情感词”,包括:
每条事件文本的“行为词”是通过词性分类器提取事件文本中的动词得到,“情感词”是通过知网Hownet情感词典定位事件文本中的积极情感词和消极情感词得到,“情境词”是通过预先训练好的隐含狄利克雷分布(LDA,Latent Dirichlet Allocation)模型得到。
本发明的一个实施例中,使用卷积核学习每类词的局部语义嵌入,具体为:
对一条含有目标用户的事件文本,通过词性分类器、词典定位、LDA模型分别得到事件文本中的所有情境词、行为词和情感词,记为情境词集合{BG}、行为词集合{AC}和情感词集合{EM};使用卷积核学习每类词的局部语义嵌入:
其中,r表示非线性激活函数ReLU,W[t;t+k]表示{BG}、{AC}和{EM}每类中第t到t+k个词的词向量序列,n表示{BG}、{AC}和{EM}每类中词的数量,Hk表示尺度为k的卷积核,上式将每条事件文本的三类词汇集合分别进行特征提取,得到每条事件文本数据中情境词集合{BG}第i个词的语义嵌入w1i,行为词集合{AC}第i个词的语义嵌入w2i,情感词集合{EM}第i个词的语义嵌入w3i,三类词集合中所有词的语义嵌入分别形成这条事件文本的情境语义特征向量行为语义特征向量/> 和情感语义特征向量/>向量长度l、m、n由卷积核的窗口尺寸和一条事件文本中每类词的词汇个数决定。
本发明的一个实施例中,所述步骤S2中,将三类局部语义特征进行加权融合,包括:
对事件文本的背景语义特征行为语义特征/>情感语义特征/>计算每条事件文本三种局部语义向量的权重:/>
对于每条事件文本的三种向量的权重,将S1、S2、S3进行归一化,得到三个权重k1、k2、k3,通过池化层得到加权的三维向量,作为一条事件文本的语义特征向量其中p()为池化函数,用于把向量降为一维。
本发明的一个实施例中,所述步骤S2中,引入自注意力机制,得到事件文本的多语义因素聚合特征,包括:
加入自注意力机制,将作为每条事件文本的嵌入输入,经过自注意力网络得到每条事件文本的多语义因素聚合特征/>
所述步骤S3包括:
对采集到的包含目标用户的事件文本数据,将每条事件文本通过dictionarize得到词汇的预训练字典索引向量后,将向量输入双向长短时记忆网络(Bi-LSTM),分别得到每条事件文本数据的全局语义特征向量
本发明的一个实施例中,所述步骤S4包括:
训练关系分类器,输入训练数据包括目标用户相关的事件文本和所有已知的用户关系类别,通过融合两个目标用户相应事件对应的多语义因素聚合特征向量和全局特征向量/>训练得出最佳的分类参数;
根据目标用户相应事件对应的多语义因素聚合特征向量和全局特征向量/>得到两个目标用户之间的关系分类,得到关系类别。
本发明的一个实施例中,训练关系分类器的目标函数如下:
其中,R是距离度量函数,S和Y是关系度量函数,θ和γ是需要训练得出的分类器参数,通过S和Y相加得到两个用户之间的关系表示,经过softmax后输出具体的关系分类,L是两个用户之间的已有的关系类别。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:
(1)直接基于用户事件文本提取文本特征,能充分保留用户事件文本的信息,更精确、灵活地挖掘语义信息;
(2)结合局部和整体文本特征全面构建对用户事件文本的语义特征模型,是对已知信息的扩充挖掘,能够缓解数据的稀疏性问题;
(3)通过用户相关事件文本来推断用户关系,突破了传统方法通过用户个人信息来获取关系而现实中用户个人真实信息难以获取的限制,同时只利用公开事件文本进行关系分析也满足越来越严格的网络安全要求。
附图说明
图1是本发明提出的基于多语义因素与特征聚合的目标用户隐性关系分类方法。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明提供了一种基于多语义因素与特征聚合的目标用户隐性关系分类方法,包括以下步骤:
步骤S1:从已知目标用户的事件文本提取情境语义特征、行为语义特征和情感语义特征三类局部语义特征;步骤S1包括:
首先对含有目标用户相关事件的文本数据进行采集,对采集的事件文本进行分词,通过不同的方法从分词后的文本中提取事件的“情境词”、“行为词”和“情感词”。每条事件文本的“行为词”是通过词性分类器提取事件文本中的动词得到,“情感词”是通过知网Hownet情感词典定位事件文本中的积极情感词和消极情感词得到,“情境词”通过预先训练好的隐含狄利克雷分布(LDA,Latent Dirichlet Allocation)模型得到。
对一条含有目标用户的事件文本,通过上述词性分类器、词典定位、LDA模型分别得到事件文本中的所有情境词、行为词和情感词,记为情境词集合{BG}、行为词集合{AC}和情感词集合{EM}。使用卷积核学习每类词的局部语义嵌入。具体如下式:
其中,r表示非线性激活函数ReLU,W[t;t+k]表示{BG}、{AC}和{EM}每类中第t到t+k个词的词向量序列,n表示{BG}、{AC}和{EM}每类中词的数量,Hk表示尺度为k的卷积核,bias是激活函数的偏置项。上式将每条事件文本的三类词汇集合分别进行特征提取,得到每条事件文本数据中情境词集合{BG}第i个词的语义嵌入w1i,行为词集合{AC}第i个词的语义嵌入w2i,情感词集合{EM}第i个词的语义嵌入w3i。三类词集合中所有词的语义嵌入分别形成这条事件文本的情境语义特征向量行为语义特征向量/>和情感语义特征向量/> 向量长度l、m、n由卷积核的窗口尺寸和一条事件文本中每类词的词汇个数决定;
步骤S2:将三类局部语义特征进行加权融合,引入自注意力机制,得到事件文本的多语义因素聚合特征;步骤S2包括:
对于得到的事件文本的背景语义特征行为语义特征/>情感语义特征/>计算每条事件文本三种局部语义向量的权重:
对于每条事件文本的三种向量的权重,将S1、S2、S3进行归一化,得到三个权重k1、k2、k3。通过池化层得到加权的三维向量,作为一条事件文本的语义特征向量:
其中p()为池化函数,用于把向量降为一维。
加入自注意力机制,将作为每条事件文本的嵌入输入,经过自注意力网络得到每条事件文本的多语义因素聚合特征/>
步骤S3:对目标用户的事件文本信息通过双向长短期记忆网络(Bi-LSTM,Bi-directional Long Short-Term Memory)进行全局语义特征提取;步骤S3包括:
对采集到的包含目标用户的事件文本数据,将每条事件文本通过dictionarize得到词汇的预训练字典索引向量后,将向量输入双向长短时记忆网络(Bi-LSTM),分别得到每条事件文本数据的全局语义特征向量
步骤S4:将多语义因素聚合特征和全局语义特征输入训练好的分类器,对输出特征softmax后得到目标用户之间的关系类别;步骤S4包括:
首先训练关系分类器。输入训练数据包括目标用户相关的事件文本和所有已知的用户关系类别,通过融合两个目标用户相应事件对应的多语义因素聚合特征向量和全局特征向量/>训练得出最佳的分类参数,训练的目标函数如下:
其中,R是距离度量函数,S和Y是关系度量函数,θ和γ是需要训练得出的分类器参数,通过S和Y相加得到两个用户之间的关系表示,经过softmax后输出具体的关系分类,L是两个用户之间的已有的关系类别。
得到关系分类器后,可以根据目标用户相应事件对应的多语义因素聚合特征向量和全局特征向量/>得到两个目标用户之间的关系分类,得到的关系类别属于已有的关系中的一种。
以下以一具体实施例说明本发明技术方案:
(1)采集含有目标用户的相关事件的文本数据,通过卷积核提取事件文本的背景语义特征、行为语义特征和情感语义特征:
首先对含有目标用户相关事件的文本数据进行采集,对采集的事件文本进行分词,通过不同的方法从分词后的文本中提取事件的“情境词”、“行为词”和“情感词”。每条事件文本的“行为词”是通过词性分类器提取事件文本中的动词得到,“情感词”是通过知网Hownet情感词典定位事件文本中的积极情感词和消极情感词得到,“情境词”通过预先训练好的LDA模型得到,LDA模型的主题类型设为20,每类主题的词汇数量设为3,选择“情境词”时,选择一条事件文本输出的主题结果中分布概率最大的前5类主题的相应词汇作为这条事件文本的“情境词”。
对一条含有目标用户的事件文本,通过词性分类器得到事件文本中的所有情境词、行为词和情感词,记为情境词集合{BG}、行为词集合{AC}和情感词集合{EM}。例如输入文本“……a和b经常于X地会面……”,利用分词方法分为“a/和/b/经常/于/X地/会面”,得到情境词“X地”“会面”,行为词“会面”和情感词“经常”。
使用卷积核提取每类词的局部语义特征。具体如下式:
其中,r表示非线性激活函数ReLU,W[t;t+k]表示{BG}、{AC}和{EM}每类中第t到t+k个词的词向量序列,Hk表示尺度为k的卷积核。上式将每条事件文本的三类词汇集合分别进行特征提取,得到每条事件文本数据中情境词集合{BG}第i个词的语义特征w1i,行为词集合{AC}第i个词的语义特征w2i,情感词集合{EM}第i个词的语义特征w3i。三类词集合中所有词的语义特征分别形成这条事件文本的背景语义特征向量 行为语义特征向量/>和情感语义特征向量/>向量长度l、m、n由卷积核的窗口尺寸和一条事件文本中每类词的词汇个数决定。
在“……a和b经常于X地会面……”中,通过卷积核分别提取句子的三类局部语义特征。背景语义特征中包含“X地”“会面”的词汇嵌入,行为语义特征包含“会面”的词汇嵌入,情感语义特征包含“经常”的词汇嵌入。
(2)对原始文本进行全局语义特征提取;
对于得到的事件文本的背景语义特征行为语义特征/>情感语义特征/>计算每个词的三种局部语义向量的权重:
对于每条事件文本的三种向量的权重,将S1、S2、S3进行归一化,得到三个权重k1、k2、k3。通过池化层得到加权的三维向量,作为一条事件文本的语义特征向量
其中p()为池化函数,能够把向量降为一维。加入自注意力机制,将作为每条事件文本的嵌入输入,经过自注意力网络得到每条事件文本的多语义因素聚合特征向量/>
(3)引入自注意力机制,加权求和得到多语义因素聚合特征;
对采集到的包含目标用户的事件文本数据,将每条事件文本通过dictionarize得到字典索引向量后,将向量输入双向长短时记忆网络(Bi-LSTM),分别得到每条事件文本数据的全局语义特征向量
例如,对于事件“a和b于X地会面”和“b和c在Y公司供职”,获得两个事件分别的
(4)输入分类器,得到目标目标用户之间的关系类别;
首先训练关系分类器。输入训练数据包括目标用户相关的事件文本和所有已知的用户关系类别,通过融合两个目标用户相应事件对应的多语义因素聚合特征向量和全局特征向量/>训练得出最佳的分类参数,目标函数如下:
其中,R是距离度量函数,S和Y是关系度量函数,θ和γ是需要训练得出的分类器参数,通过S和Y相加得到两个用户之间的关系表示,经过softmax后输出具体的关系分类,L是两个用户之间的已有的关系类别。
得到关系分类器后,可以根据目标用户相应事件对应的多语义因素聚合特征向量和全局特征向量/>得到两个目标用户之间的关系分类,得到的关系类别属于已有的关系中的一种。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于多语义因素与特征聚合的目标用户隐性关系分类方法,其特征在于,包括:
步骤S1:从已知目标用户的事件文本提取情境语义特征、行为语义特征和情感语义特征三类局部语义特征;
步骤S2:将三类局部语义特征进行加权融合,引入自注意力机制,得到事件文本的多语义因素聚合特征;
步骤S3:对目标用户的事件文本信息通过双向长短期记忆网络进行全局语义特征提取;
步骤S4:将多语义因素聚合特征和全局语义特征输入训练好的分类器,对输出特征softmax后得到目标用户之间的关系类别;所述步骤S4包括:
训练关系分类器,输入训练数据包括目标用户相关的事件文本和所有已知的用户关系类别,通过融合两个目标用户相应事件对应的多语义因素聚合特征向量和全局特征向量/>训练得出最佳的分类参数;
根据目标用户相应事件对应的多语义因素聚合特征向量和全局特征向量得到两个目标用户之间的关系分类,得到关系类别。
2.如权利要求1所述的基于多语义因素与特征聚合的目标用户隐性关系分类方法,其特征在于,所述步骤S1包括:
对含有目标用户相关事件的文本数据进行采集,对采集的事件文本进行分词,从分词后的文本中提取事件的“情境词”、“行为词”和“情感词”;
使用卷积核学习每类词的局部语义嵌入。
3.如权利要求2所述的基于多语义因素与特征聚合的目标用户隐性关系分类方法,其特征在于,从分词后的文本中提取事件的“情境词”、“行为词”和“情感词”,包括:
每条事件文本的“行为词”是通过词性分类器提取事件文本中的动词得到,“情感词”是通过知网Hownet情感词典定位事件文本中的积极情感词和消极情感词得到,“情境词”是通过预先训练好的隐含狄利克雷分布(LDA,Latent Dirichlet Allocation)模型得到。
4.如权利要求3所述的基于多语义因素与特征聚合的目标用户隐性关系分类方法,其特征在于,使用卷积核学习每类词的局部语义嵌入,具体为:
对一条含有目标用户的事件文本,通过词性分类器、词典定位、LDA模型分别得到事件文本中的所有情境词、行为词和情感词,记为情境词集合{BG}、行为词集合{AC}和情感词集合{EM};使用卷积核学习每类词的局部语义嵌入:
其中,r表示非线性激活函数ReLU,W[t;t+k]表示{BG}、{AC}和{EM}每类中第t到t+k个词的词向量序列,n表示{BG}、{AC}和{EM}每类中词的数量,Hk表示尺度为k的卷积核,上式将每条事件文本的三类词汇集合分别进行特征提取,得到每条事件文本数据中情境词集合{BG}第i个词的语义嵌入w1i,行为词集合{AC}第i个词的语义嵌入w2i,情感词集合{EM}第i个词的语义嵌入w3i,三类词集合中所有词的语义嵌入分别形成这条事件文本的情境语义特征向量行为语义特征向量/> 和情感语义特征向量/>向量长度l、m、n由卷积核的窗口尺寸和一条事件文本中每类词的词汇个数决定。
5.如权利要求1或2所述的基于多语义因素与特征聚合的目标用户隐性关系分类方法,其特征在于,所述步骤S2中,将三类局部语义特征进行加权融合,包括:
对事件文本的背景语义特征行为语义特征/>情感语义特征/>计算每条事件文本三种局部语义向量的权重:/>
对于每条事件文本的三种向量的权重,将S1、S2、S3进行归一化,得到三个权重k1、k2、k3,通过池化层得到加权的三维向量,作为一条事件文本的语义特征向量其中p()为池化函数,用于把向量降为一维。
6.如权利要求1或2所述的基于多语义因素与特征聚合的目标用户隐性关系分类方法,其特征在于,所述步骤S2中,引入自注意力机制,得到事件文本的多语义因素聚合特征,包括:
加入自注意力机制,将作为每条事件文本的嵌入输入,经过自注意力网络得到每条事件文本的多语义因素聚合特征/>
7.如权利要求1或2所述的基于多语义因素与特征聚合的目标用户隐性关系分类方法,其特征在于,所述步骤S3包括:
对采集到的包含目标用户的事件文本数据,将每条事件文本通过dictionarize得到词汇的预训练字典索引向量后,将向量输入双向长短时记忆网络(Bi-LSTM),分别得到每条事件文本数据的全局语义特征向量
8.如权利要求1所述的基于多语义因素与特征聚合的目标用户隐性关系分类方法,其特征在于,训练关系分类器的目标函数如下:
其中,R是距离度量函数,S和Y是关系度量函数,θ和γ是需要训练得出的分类器参数,通过S和Y相加得到两个用户之间的关系表示,经过softmax后输出具体的关系分类,L是两个用户之间的已有的关系类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111046995.1A CN113792142B (zh) | 2021-09-07 | 2021-09-07 | 基于多语义因素与特征聚合的目标用户隐性关系分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111046995.1A CN113792142B (zh) | 2021-09-07 | 2021-09-07 | 基于多语义因素与特征聚合的目标用户隐性关系分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113792142A CN113792142A (zh) | 2021-12-14 |
CN113792142B true CN113792142B (zh) | 2024-02-27 |
Family
ID=78879722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111046995.1A Active CN113792142B (zh) | 2021-09-07 | 2021-09-07 | 基于多语义因素与特征聚合的目标用户隐性关系分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113792142B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503049A (zh) * | 2016-09-22 | 2017-03-15 | 南京理工大学 | 一种基于svm融合多种情感资源的微博情感分类方法 |
CN108536870A (zh) * | 2018-04-26 | 2018-09-14 | 南京大学 | 一种融合情感特征和语义特征的文本情感分类方法 |
CN108733653A (zh) * | 2018-05-18 | 2018-11-02 | 华中科技大学 | 一种基于融合词性和语义信息的Skip-gram模型的情感分析方法 |
CN112560503A (zh) * | 2021-02-19 | 2021-03-26 | 中国科学院自动化研究所 | 融合深度特征和时序模型的语义情感分析方法 |
WO2021109671A1 (zh) * | 2019-12-02 | 2021-06-10 | 广州大学 | 一种支持跨语言迁移的细粒度情感分析方法 |
-
2021
- 2021-09-07 CN CN202111046995.1A patent/CN113792142B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503049A (zh) * | 2016-09-22 | 2017-03-15 | 南京理工大学 | 一种基于svm融合多种情感资源的微博情感分类方法 |
CN108536870A (zh) * | 2018-04-26 | 2018-09-14 | 南京大学 | 一种融合情感特征和语义特征的文本情感分类方法 |
CN108733653A (zh) * | 2018-05-18 | 2018-11-02 | 华中科技大学 | 一种基于融合词性和语义信息的Skip-gram模型的情感分析方法 |
WO2021109671A1 (zh) * | 2019-12-02 | 2021-06-10 | 广州大学 | 一种支持跨语言迁移的细粒度情感分析方法 |
CN112560503A (zh) * | 2021-02-19 | 2021-03-26 | 中国科学院自动化研究所 | 融合深度特征和时序模型的语义情感分析方法 |
Non-Patent Citations (1)
Title |
---|
基于DCNNs-LSTM模型的维吾尔语突发事件识别研究;黎红;禹龙;田生伟;吐尔根・依布拉音;赵建国;;中文信息学报(06);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113792142A (zh) | 2021-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241255A (zh) | 一种基于深度学习的意图识别方法 | |
CN107861951A (zh) | 智能客服中的会话主题识别方法 | |
CN107391760A (zh) | 用户兴趣识别方法、装置及计算机可读存储介质 | |
CN110245229A (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN111966917A (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
CN112836509B (zh) | 一种专家系统知识库构建方法及系统 | |
CN112905739B (zh) | 虚假评论检测模型训练方法、检测方法及电子设备 | |
CN110807084A (zh) | 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法 | |
Briliani et al. | Hate speech detection in indonesian language on instagram comment section using K-nearest neighbor classification method | |
CN112732916A (zh) | 一种基于bert的多特征融合模糊文本分类模型 | |
CN109446423B (zh) | 一种新闻以及文本的情感判断系统及方法 | |
CN110750648A (zh) | 一种基于深度学习和特征融合的文本情感分类方法 | |
CN107688870A (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
CN112667813B (zh) | 用于裁判文书的敏感身份信息的识别方法 | |
CN114417851B (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN114971730A (zh) | 文案素材提取方法及其装置、设备、介质、产品 | |
CN112256866A (zh) | 一种基于深度学习的文本细粒度情感分析方法 | |
CN103473380A (zh) | 一种计算机文本情感分类方法 | |
CN115859980A (zh) | 一种半监督式命名实体识别方法、系统及电子设备 | |
CN114077836A (zh) | 一种基于异构神经网络的文本分类方法及装置 | |
CN114328841A (zh) | 问答模型训练方法及装置、问答方法及装置 | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN115659947A (zh) | 基于机器阅读理解及文本摘要的多项选择答题方法及系统 | |
CN110245234A (zh) | 一种基于本体和语义相似度的多源数据样本关联方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |