CN110909116B - 一种面向社交媒体的实体集合扩展方法及系统 - Google Patents
一种面向社交媒体的实体集合扩展方法及系统 Download PDFInfo
- Publication number
- CN110909116B CN110909116B CN201911189192.4A CN201911189192A CN110909116B CN 110909116 B CN110909116 B CN 110909116B CN 201911189192 A CN201911189192 A CN 201911189192A CN 110909116 B CN110909116 B CN 110909116B
- Authority
- CN
- China
- Prior art keywords
- entity
- item
- pattern
- candidate
- seed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种面向社交媒体的实体集合扩展的方法及系统,所述方法包括:在推特文本语料数据集上建立推特文本的词向量空间模型,基于该词向量空间模型得到推文中词的向量表示;基于推文中词的向量表示,计算词之间的相似度,根据相似度为初始种子实体集合中的每个种子生成对应的扩展集合,将所有种子的扩展集合合并得到候选实体集合;分别按照语义相似度特征值、上下文模式特征值和前缀组合特征值对候选实体集合进行排序,得到三个排序结果;根据综合排序模型对三个排序结果进行综合排序,最终得到扩展的候选实体集合。本发明的方法可以有效地挖掘出社交媒体文本中潜在的实体知识,且具有较高的正确率。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及社交媒体中的信息抽取技术领域,具体涉及一种面向社交媒体的实体集合扩展的方法及系统。
背景技术
实体集合扩展是实体抽取中的一种经典方法,其以几个在语义上有某种关联的实体作为种子形成初始的集合,在一个文本语料集上对此集合进行扩展,从而得到一个包含有更多相关实体的集合。
针对实体集合扩展的任务,如今国内外团队的研究重点根据文本数据的来源与类型、集合扩展的方法以及系统评价标准而有所不同。大多数解决此问题的一般思路可以分为产生实体候选集合、对候选集合进行筛选排序两个阶段。在第一阶段常用的方法有基于语料的方法、基于上下文模式的自展法等。在第二阶段,在已获取到候选实体集合的基础上,可以将问题转化为在候选集合上的二类分类问题,并进一步转化为排序问题,常用的方法有基于概率模型的方法、分布式相似度法、PU-学习法等。实体集合扩展研究已经非常广泛,目前也取得了较好的效果,但这些研究大都面向传统新闻文档和网络文本。
随着近几年网络社交媒体的兴起,来自于社交媒体的文本数据资源日益丰富,这些数据中毋庸置疑潜藏着大量有价值的信息。社交媒体文本具有面向开放领域、数据规模巨大、更新速度快、语言词汇非正式化、冗杂和嘈杂的信息较多等特性,在社交媒体文本上进行实体集合扩展,进而发掘更多的潜在实体知识,具有十分重要的意义。但目前研究在社交媒体文本上进行实体集合扩展的国内外团队尚且较少,将传统方法应用于社交媒体文本上存在着许多障碍和困难。
发明内容
本发明的目的在于,克服当前传统面向传统新闻文档和网络文本实体集合扩展方法无法有效适用于面向社交媒体的实体集合扩展任务这一需求难题,针对具有语言词汇非正式化、冗杂和嘈杂的信息较多等特征社交媒体文本,提出了一种不同于传统方法的、具有较高准确率的实体集合扩展方法。
为实现上述目的,本发明提供了一种面向社交媒体的实体集合扩展的方法,所述方法包括:
在推特文本语料数据集上建立推特文本的词向量空间模型,基于该词向量空间模型得到推文中词的向量表示;
基于推文中词的向量表示,计算词之间的相似度,根据相似度为初始种子实体集合中的每个种子生成对应的扩展集合,将所有种子的扩展集合合并得到候选实体集合;
分别按照语义相似度特征值、上下文模式特征值和前缀组合特征值对候选实体集合进行排序,得到三个排序结果;
根据综合排序模型对三个排序结果进行综合排序,最终得到扩展的候选实体集合。
作为上述方法的一种改进,所述在推特文本语料数据集上建立推特文本的词向量空间模型;基于该词向量空间模型得到推文中词的向量表示;具体包括:
爬取推特文本数据,构造推特文本语料数据集;
对通过组块分析识别出的全部名词短语进行处理,将短语中多个单词之间的空格去掉,从而将多个单词的短语转化为一个整体的单词;
在经过预处理后得到的推特文本语料数据集上,采用Word2Vec文本深度表示词向量空间模型并进行训练。
作为上述方法的一种改进,所述基于推文中词的向量表示,计算词之间的相似度,根据相似度为初始种子实体集合中的每个种子生成对应的扩展集合,将所有种子的扩展集合合并得到候选实体集合;具体包括:
对于初始种子实体集合S={s1,…,sn}中的每个种子实体si,基于词向量空间模型,选择与之相似度最大的ri个单词项构成该种子实体对应的扩展集合di:
其中,1≤i≤n;
将所有种子实体所对应的扩展集合合并得到候选实体集合D:
其中,w为候选单词项的总数。
作为上述方法的一种改进,所述方法还包括:对候选实体集合进行过滤的步骤,具体为:去除候选实体集合中,全部以“http”开头的超链接、以“#”开头的HashTag、以“@”开头的AT和以纯数字构成的候选单词项,剩余候选单词项构成过滤后的候选实体集合。
作为上述方法的一种改进,所述方法还包括:基于同类实体的同现性假设,利用初始种子实体集合中的种子实体,在推特文本语料集合上识别并归纳得到连接符号集合和前缀组合集合;具体包括:
基于推特文本语料集合,建立Twitter文本中常见的连接符号集合ConSet:
ConSet=
{and、or、,、&、+、-、x、X、/、*、>、<、|、vs、VS、.、;、//、-、\、\\、=、>>和<<};
对于连接符号集合ConSet中的每个连接符号cp,从初始种子实体集合S中取实体对Pairk=(sk1,sk2),分别构造反向对称的两个“检索模式”pattern(k,p)1和pattern(k,p)2:
pattern(k,p)1="sk1cpsk2"
pattern(k,p)2="sk2cpsk1"
统计pattern(k,p)1和pattern(k,p)2在推特文本语料数据集中出现的频数f(k,p)1和f(k,p)2,其总和作为此对“检索模式”中cp对应的频数f(k,p);
计算每个连接符号cp的权值Wpatternp:
其中,1≤p≤24;
建立4种推特中“@”与“#”前缀的两两组合构成的前缀组合集合PreSet:
(@,@):种子实体@si,候选单词项@item;
(@,#):种子实体@si,候选单词项#item;
(#,@):种子实体#si,候选单词项@item;
(#,#):种子实体#si,候选单词项#item;
对于前缀组合集合PreSet中的每对前缀(prem1,prem2),从初始种子实体集合S中取实体对Pairk=(sk1,sk2),sk1,sk2∈S;分别构造得到一对“检索模式”pattern(k,m)1和pattern(k,m)2:
pattern(k,m)1=prem1sk1
pattern(k,m)2="prem2sk2"
统计pattern(k,m)1和pattern(k,m)2在推特文本语料数据集中出现在同一条推特文本中的频数,为前缀组合(prem1,prem2)对应这一组“检索模式”的频数f(k,m);
计算每组前缀组合(prem1,prem2)∈PreSet的权值Wprefixm:
其中,1≤m≤4。
作为上述方法的一种改进,所述语义相似度特征得分的计算步骤包括:
计算候选实体集合D中的第j个候选单词项itemj与集合S的语义相似度特征得分shiilarity(itemj,S):
其中,similarity(itemj,si)为itemj与S中第i个种子实体si相似度;首先通过词向量空间模型得到itemj和si的词向量,然后根据词向量计算相似度;1≤j≤w。
作为上述方法的一种改进,所述上下文模式特征得分的计算步骤,具体为:
对于候选实体集合D中的第j个候选单词项itemj,1≤j≤w,从连接符号集合ConSet中取连接符号cp,从初始种子实体集合S中取种子实体si,分别构造得到反向对称的两个“匹配模式”pattern(i,p,j)1和pattern(i,p,j)2:
pattern(i,p,j)1="sicpitemj"
pattern(i,p,j)2="itemjcpsk"
统计pattern(i,p,j)1和pallern(i,p,j)2在推特文本语料数据集中出现的频数f(i,p,j)1和f(i,p,j)2,其总和作为此对“匹配模式”的频数f(i,p,j);
计算第j个候选单词项itemj在上下文模式特征上的得分值SCpatternj:
作为上述方法的一种改进,所述前缀组合特征得分的计算步骤,
对于候选实体集合D中的第j个候选单词项itemj,1≤j≤w,从前缀组合集合PreSet中前缀组合(prem1,prem2)∈PreSet,从初始种子实体集合S中取实体si,分别构造得到两个“匹配模式”pattern(i,m,j)1和pattern(i,m,j)2:
pattern(i,m,j)1="prem1si"
pattern(i,m,j)2="prem2itemj"
统计pattern(i,m,j)1和pattern(i,m,j)2在推特文本语料数据集中同一条文本中同时出现的频数,既为此对“匹配模式”的频数f(i,m,j);
计算第j个候选单词项itemj在前缀规则特征上的得分值SCprefixj:
作为上述方法的一种改进,所述根据综合排序模型对三个排序结果进行综合排序,最终得到扩展的候选实体集合,具体为:
对于候选实体集合D中的第j个候选单词项itemj,根据其语义相似度特征得分排序结果,得到其语义相似度特征排名值为Rsimilarityj;根据其上下文模式特征得分排序结果,得到其上下文模式特征排名值为Rpatternj;根据其前缀规则特征得分排序结果,得到其前缀规则特征排名值为Rprefixj;
根据综合排序模型R,计算第j个候选单词项itemj的综合排序值R(itemj):
R(itemj)=α1Rsimilarityj+α2Rpatternj+α3Rprefixj
根据综合排序值对候选实体集合进行综合排序,最终得到扩展的候选实体集合。
本发明还提供了一种面向社交媒体的实体集合扩展的系统,所述系统包括:
词向量生成模块,用于在推特文本语料数据集上建立推特文本的词向量空间模型,基于该词向量空间模型得到推文中词的向量表示;
候选实体集合生成模块,用于基于推文中词的向量表示,计算词之间的相似度,根据相似度为初始种子实体集合中的每个种子生成对应的扩展集合,将所有种子的扩展集合合并得到候选实体集合;
初步排序模块,用于分别按照语义相似度特征得分、上下文模式特征得分和前缀组合特征得分对候选实体集合进行排序,得到三个排序结果;
综合排序模块,用于根据综合排序模型对三个排序结果进行综合排序,最终得到扩展的候选实体集合。
本发明的优势在于:
1、本发明的方法克服了当前传统面向传统新闻文档和网络文本实体集合扩展方法无法有效适用于面向社交媒体的实体集合扩展任务这一需求难题,首次提出了采用基于神经网络的词向量空间模型的方法产生候选实体集合,再利用具有社交媒体特征的上下文模式规则对候选实体进行筛选和排序的方法;实验结果表明可以非常有效地挖掘出社交媒体文本中潜在的实体知识,且具有较高的正确率;
2、通过本发明的方法可以有效地识别出海量推文中的新实体,将为该实体所属领域的研究人员提供许多研究线索。
附图说明
图1为本发明的面向社交媒体的实体集合扩展的方法的流程图。
具体实施方式
下面结合附图对本发明的技术方案进行详细的说明。
本发明公开了一种面向社交媒体的实体集合扩展的方法,所述的方法包括:在推特文本语料集上建立词向量空间模型,并通过计算语义相似度的方法产生候选实体集合;基于同类实体的同现性假设,利用初始集合中的种子实体,在语料集上识别并归纳得到一些模式规则;基于前述模式规则,可以进一步对候选实体集合进行筛选和排序,并最终得到实体扩展集合。本方法面向社交媒体文本,首次提出了采用基于神经网络的词向量空间模型的方法产生候选实体集合,再利用具有社交媒体特征的上下文模式规则对候选实体进行筛选和排序,实验结果表明可以非常有效地挖掘出社交媒体文本中潜在的实体知识,且具有较高的正确率。
如图1所示,本发明的实施例1提出了一种面向社交媒体的实体集合扩展方法,所述方法包括:
步骤1:推文文本数据预处理
1.1构造数据集:
爬取推文数据,构造得到本发明所需的英文推特文本语料数据集。
1.2文本预处理:
预处理最后一步,对通过组块分析识别出的全部名词短语进行处理,将短语中多个单词之间的空格去掉,从而将多个单词的短语转化为一个整体的单词。
步骤2:基于词向量模型产生候选实体集合
2.1构建词向量空间模型:
在经过预处理后得到的文本语料数据集上,本发明采用Word2Vec文本深度表示模型来训练得到词向量空间模型。
2.2构建初始种子实体集合:
初始种子实体集合为S={s1,…,sn},其中si为第i个种子实体,1≤i≤n;n为种子实体的总数。
2.3扩展产生候选实体集合:
利用基于词向量空间模型计算单词之间向量距离(语义相似度)的方法来产生候选实体集合。对于初始种子实体集合的每个种子实体si,在向量空间上选择与之向量距离最近(相似度最大)的ri个单词项构成该种子实体对应的扩展集合di:
将所有种子实体所对应的扩展集合合并得到候选实体集合D:
步骤3:计算候选实体集合D中的每个单词项的语义相似度特征值
候选实体集合D中的每个单词项itemk与该初始种子实体集合S的相似度定义为itemk与S中全部种子实体语义相似度特征值:
其中,similarity(itemj,si)为itemj与S中第i个种子实体si相似度;首先通过词向量空间模型得到itemj和si的词向量,然后根据词向量计算相似度;1≤j≤w。
步骤4:计算候选实体集合D中的每个单词项的上下文模式特征值和前缀组合特征值;
4.1上下文模式与前缀规则的发现与归纳:
基于Sarmento在2007年研究中提到的“同现性假设”:利用“and”、“or”以及“,”等连词来发现具有同位关系的实体。
4.1.1基于连接符号的上下文模式归纳:
通过对文本语料数据的观察,本发明给出一个Twitter文本中常见的连接符号集合ConSet,其中包括了24个连接符号,如表1所示。
表1
对于连接符号集合ConSet中的每个连接符号ci∈ConSet,从初始的种子实体集合S中取实体对Pairk=(sk1,sk2),分别构造得到反向对称的两个“检索模式”:pattern(k,i)1="sk1cisk2"、pattern(k,i)2="sk2cisk1"。统计pattern(k,i)1和pattern(k,i)2在文本语料中出现的频数f(k,i)1和f(k,i)2,其总和作为此对“检索模式”pattern(k,i)中ci对应的频数f(k,i)。则每个连接符号ci∈ConSet的权值有以下定义:
4.1.2基于前缀规则的归纳:
除此之外,根据观察所发现的前缀规则,本发明给出由4种Twitter中“@”(at)与“#”(hashtag)前缀的两两组合构成的集合PreSet,如表2所示:
表2
前缀组合 | 种子实体 | 候选单词项 |
(@,@) | @s<sub>i</sub> | @item |
(@,#) | @s<sub>i</sub> | #item |
(#,@) | #s<sub>i</sub> | @item |
(#,#) | #s<sub>i</sub> | #item |
对于前缀组合集合PreSet中的每对前缀(prei1,prei2),从初始的种子实体集合S中取实体对Pairk=(sk1,sk2),分别构造得到一组“检索模式”:pattern(k,i)1="prei1sk1"、pattern(k,i)2="prei2sk2"。统计pattern(k,i)1和pattern(k,i)2在文本语料中出现在同一条推文中的频数,既为前缀组合(prei1,prei2)对应这一组“检索模式”的频数f(k,i)。则每组前缀组合(prei1,prei2)∈PreSet的权值有以下定义:
4.2利用模式计算候选实体的特征值:
4.2.1计算候选单词项的上下文模式特征值
对于候选实体集合中的每个候选单词项itemj∈D,从连接符号集合ConSet中取连接符号ci∈ConSet,从初始的种子实体集合S中取实体sk,分别构造得到反向对称的两个“匹配模式”:pattern(k,i,j)1="skciitemj"、pattern(k,i,j)2="itemjcisk"。统计pattern(k,i,j)1和pattern(k,i,j)2在文本语料中出现的频数f(k,i,j)1和f(k,i,j)2,其总和作为此对“匹配模式”pattern(k,i,j)的频数f(k,i,j)。则每个候选单词项itemj∈D在上下文模式特征值有以下定义:
4.2.2计算候选单词项在前缀规则特征值
对于候选实体集合中的每个候选单词项itemj∈D,从前缀组合集合PreSet中前缀组合(prei1,prei2)∈PreSet,从初始的种子实体集合S中取实体sk,分别构造得到两个“匹配模式”:pattern(k,i,j)1="prei1sk"、pattern(k,i,j)2="prei2itemj"。统计pattern(k,i,j)1和pattern(k,i,j)2在文本语料中同一条推文中同时出现的频数,既为此对“匹配模式”pattern(k,i,j)的频数f(k,i,j)。则每个候选单词项itemj∈D在前缀规则特征值有以下定义:
步骤5排序质量函数与特征加权排序法
根据步骤3获得了候选实体集合中每个候选单词项的语义相似度特征值;根据4.2.1获得了候选实体集合中每个候选单词项的上下文模式特征值;根据4.2.2获得了候选实体集合中每个候选单词项的前缀组合特征上值。在本步骤将综合这三个维度的特征值对候选实体集合进行筛选和排序。
5.1候选实体集合筛选
在对候选实体集合进行筛选时,去除全部以“http”开头的超链接、以“#”开头的HashTag、以“@”开头的AT和以纯数字构成的候选单词项,剩余候选单词项构成精简后的候选实体集合。
5.2排序模型算法
在排序阶段,首先分别根据语义相似度特征值SCsimilarity、上下文模式特征值SCpattern和前缀组合特征特征值SCprefix对候选实体集合D={item1,item2,…,itemw|w≤m*n}分别按照从大到小的顺序进行排序,得到语义相似度特征上的排序Rsimilarity、上下文模式特征上的排序Rpattern和前缀组合特征上的排序Rprefix。因此对于候选单词项itemi∈D,其对应的三个特征上的排名值分别为Rsimilarityi、Rpatterni和Rprefixi。对于排名第一的单词项,其排名值为1,最后一名的排名值为w。
推特文本集合:通过Twitter官方的开发者streaming sample API爬取(Tweepypython包),获取的推文为全量推文的1%采样数据。爬取得到的数据为JSON格式文件,文件的每一行记录了一条推文信息。该JSON格式的推文信息包含了许多不同的字段,如值为该推文唯一标识的“id”字段、值为推文文本内容的“text”字段、值为发布时间的“created_at”字段、值为该推文发布者信息的“user”字段以及该推文所用语言的“lang”字段等。通过选取JSON中“lang”字段值为“en”过滤出语言为英语的推文。在此基础上,进一步提取出“text”字段所对应的值,从而构造得到本发明所用的推特文本语料数据集。
本方法中运用主流的Word2Vec词嵌入技术,基于待训练的文本数据集,通过预先训练,获得这一数据集的词嵌入向量词典。
文本预处理(名词短语识别及处理):采用Alan Ritter团队在2011年开发的Twitter NLP工具对前述数据集进行组块分析,识别出推文中的名词短语。
构建词向量空间模型:本方法中运用主流的Word2Vec词嵌入技术,基于构建的推特文本数据集,通过预先训练,获得这一数据集的词嵌入向量词典。在训练模型的参数设置上,将向量空间的维度设置为200维,窗口大小设置为5,最小的词频统计限制设置为5。最终经过在1,398,511条英文推文文本上的训练,得到了一个200维的词向量空间模型。该模型对83986个词进行了向量表示,且其中包括我们在预处理过程中整合的名词短语。
扩展产生候选实体集合:扩展产生候选实体集合的算法伪代码如下:
基于连接符号的上下文模式归纳:完整的归纳并统计上下文模式的算法伪代码如下:
基于前缀规则的归纳:完整的归纳并统计前缀规则的算法伪代码如下:
计算候选单词项在上下文模式特征上得分:完整的计算候选单词项在前缀规则特征上得分的算法伪代码如下:
计算候选单词项在前缀规则特征上得分:伪代码如下:
综合排序算法参数学习:
对于排序模型R的参数α1、α2、α3学习,本发明选择MAP(Mean Average Precision)度量法来定义排序的性能指标函数。对于给定的一个实体分类ci,其对应的候选实体排序Yi以及在候选实体集合Di上的置换πi,ci的平均准确率定义如下:
此处yij取值为0或1,0代表该itemij为负例,1代表该itemij为正例。且Pi(j)为itemij所在位置处的正确率:
此处πi(j)表示itemij所在的位置。
本发明的学习综合排序模型的算法最多共循环T次,每轮迭代首先判断性能指标函数是否已经达到收敛。判断收敛的条件为,用当前学习得到的排序模型ft进行排序,对排名计算得出的平均准确率值AvgPtt低于上一轮的排序模型ft-1对应的平均准确率值AvgPt-1。若已经达到收敛,则结束循环,上一轮的排序模型ft-1即为所求得的综合排序模型算法开始时,首先初始化三个特征排序模型所对应的权值为相同大小。每轮根据每个特征排序模型与当前综合排序模型的相对排序质量,来对其相应的权值进行更新。其中符号解释如表3所示:
表3
完整的学习综合模型排序算法的伪代码如下:
本发明的实验选取了36个实体分类集合作为训练数据集对此综合排序模型进行监督学习,最终得到的特征权值向量为:
本方法采用基于Wikipedia的集合评价方法可对本发明的集合扩展的效果进行评价。
评价方法描述:本方法选取在Twitter平台上用户大众讨论较多的实体分类,找到英文Wikipedia中描述该分类的表单(如List of teams of NBA、List of vegetables等),将表单中的实体作为该分类下实体集合的“黄金标准”,且保留全部别名或缩写等信息。得到了实体分类的“黄金标准”集合,我们既可以将扩展得到的实体集合中的元素与标准集合进行对比,从而评价扩展实体集合的质量。一种常用的评价实体集合扩展算法的度量是排名-准确率值,既R-precision。R-precision的定义为:实体集合中排名在前R的分类正确实体所占的百分比。
评价方法具体实施:本方法选择了45个在Twitter平台上用户大众讨论较多的实体分类,借助Wikipedia中的“List of...”页面中的实体知识信息,构造得到了面向开放领域分类的47个实体集合,作为本文实验的“黄金标准”集合。在构造的过程中,针对于存在别名、缩写、俗称等的实体,我们同时也将该实体的全部其他表达方式加入标准实体集合,以在一定程度上规避评价过程中的误判情况。此“黄金标准”实体集合共包含4981个元素,其中最多的集合包含357个元素,最少的包含23个元素,平均每个集合包含105.9个元素。我们在“黄金标准”集合的基础上,从每个实体分类集合中选取了最具分类代表性的部分实体构成该分类下的初始种子实体集合。
针对具体如何在每个分类下选择构建初始种子实体集合:选择方法包括随机法、最大相似度或最高词频法。随机法即以随机的方式从候选中产生n个种子实体构造产生初始集合。最大相似度法利用构建的词向量空间,在候选中选择向量距离最近,既相似度最大的n个种子实体构造产生初始集合。最高词频法则在候选中选择在文本语料数据中出现频率最高的n个种子实体构造产生初始集合。
基于上述评价方法,通过多组对比实验,关于本发明的方法有如下结论:
1、采用最大词频法构造初始种子实体集合的实验结果最好。且在扩展集合较小范围内,初始种子集合中种子实体数量为3时,本文方法进行实体集合扩展的质量最好。
2、当扩大文本语料数据集的规模时,能够有效地提高实体集合扩展算法的准确率。且在一定范围内,实体集合扩展的效果随候选实体集合中候选项数量的增大而有所提升,但当候选项个数增加到一定数目时,效果的提升将趋于停滞。
3、基于上述评价方法的具体评价度量指标结果如下:实体集合扩展正确率R-precision在排名前5位内可达到0.93,排名前10位可达到0.87,排名前20位可达到0.74,排名前50位可达到0.60,排名前100位可达到0.46;实验表明,本发明可以有效面向社交媒体文本进行实体集合扩展。
本发明的实施例2提出了一种面向社交媒体的实体集合扩展的系统,所述系统包括:
词向量生成模块,用于在推特文本语料数据集上建立推特文本的词向量空间模型,基于该词向量空间模型得到推文中词的向量表示;
候选实体集合生成模块,用于基于推文中词的向量表示,计算词之间的相似度,根据相似度为初始种子实体集合中的每个种子生成对应的扩展集合,将所有种子的扩展集合合并得到候选实体集合;
初步排序模块,用于分别按照语义相似度特征得分、上下文模式特征得分和前缀组合特征得分对候选实体集合进行排序,得到三个排序结果;
综合排序模块,用于根据综合排序模型对三个排序结果进行综合排序,最终得到扩展的候选实体集合。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种面向社交媒体的实体集合扩展的方法,所述方法包括:
在推特文本语料数据集上建立推特文本的词向量空间模型,基于该词向量空间模型得到推文中词的向量表示;
基于推文中词的向量表示,计算词之间的相似度,根据相似度为初始种子实体集合中的每个种子生成对应的扩展集合,将所有种子的扩展集合合并得到候选实体集合;
分别按照语义相似度特征值、上下文模式特征值和前缀组合特征值对候选实体集合进行排序,得到三个排序结果;
根据综合排序模型对三个排序结果进行综合排序,最终得到扩展的候选实体集合;
所述在推特文本语料数据集上建立推特文本的词向量空间模型;基于该词向量空间模型得到推文中词的向量表示;具体包括:
爬取推特文本数据,构造推特文本语料数据集;
对通过组块分析识别出的全部名词短语进行处理,将短语中多个单词之间的空格去掉,从而将多个单词的短语转化为一个整体的单词;
在经过预处理后得到的推特文本语料数据集上,采用Word2Vec文本深度表示词向量空间模型并进行训练;
所述基于推文中词的向量表示,计算词之间的相似度,根据相似度为初始种子实体集合中的每个种子生成对应的扩展集合,将所有种子的扩展集合合并得到候选实体集合;包括:基于同类实体的同现性假设,利用初始种子实体集合中的种子实体,在推特文本语料集合上识别并归纳得到连接符号集合和前缀组合集合;具体包括:
基于推特文本语料集合,建立Twitter文本中常见的连接符号集合ConSet:
ConSet={and、or、,、&、+、-、x、X、/、*、>、<、|、vs、VS、.、;、//、-、\、\\、=、>>和<<};
对于连接符号集合ConSet中的每个连接符号cp,从初始种子实体集合S中取实体对Pairk=(sk1,sk2),分别构造反向对称的两个“检索模式”pattern(k,p)1和pattern(k,p)2:
pattern(k,p)1="sk1cpsk2"
pattern(k,p)2="sk2cpsk1"
统计pattern(k,p)1和pattern(k,p)2在推特文本语料数据集中出现的频数f(k,p)1和f(k,p)2,其总和作为此对“检索模式”中cp对应的频数f(k,p);
计算每个连接符号cp的权值Wpatternp:
其中,1≤p≤24;
建立4种推特中“@”与“#”前缀的两两组合构成的前缀组合集合PreSet:
(@,@):种子实体@si,候选单词项@item;
(@,#):种子实体@si,候选单词项#item;
(#,@):种子实体#si,候选单词项@item;
(#,#):种子实体#si,候选单词项#item;
对于前缀组合集合PreSet中的每对前缀(prem1,prem2),从初始种子实体集合S中取实体对Pairk=(sk1,sk2),sk1,sk2∈S;分别构造得到一对“检索模式”pattern(k,m)1和pattern(k,m)2:
pattern(k,m)1=prem1sk1
pattern(k,m)2="prem2sk2"
统计pattern(k,m)1和pattern(k,m)2在推特文本语料数据集中出现在同一条推特文本中的频数,为前缀组合(prem1,prem2)对应这一组“检索模式”的频数f(k,m);
计算每组前缀组合(prem1,prem2)∈PreSet的权值Wprefixm:
其中,1≤m≤4。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:对候选实体集合进行过滤的步骤,具体为:去除候选实体集合中,全部以“http”开头的超链接、以“#”开头的HashTag、以“@”开头的AT和以纯数字构成的候选单词项,剩余候选单词项构成过滤后的候选实体集合。
5.根据权利要求4所述的方法,其特征在于,所述上下文模式特征得分的计算步骤,具体为:
对于候选实体集合D中的第j个候选单词项itemj,1≤j≤w,从连接符号集合ConSet中取连接符号cp,从初始种子实体集合S中取种子实体si,分别构造得到反向对称的两个“匹配模式”pattern(i,p,j)1和pattern(i,p,j)2:
pattern(i,p,j)1="sicpitemj"
pattern(i,p,j)2="itemjcpsk"
统计pattern(i,p,j)1和pattern(i,p,j)2在推特文本语料数据集中出现的频数f(i,p,j)1和f(i,p,j)2,其总和作为此对“匹配模式”的频数f(i,p,j);
计算第j个候选单词项itemj在上下文模式特征上的得分值SCpatternj:
6.根据权利要求5所述的方法,其特征在于,所述前缀组合特征得分的计算步骤,
对于候选实体集合D中的第j个候选单词项itemj,1≤j≤w,从前缀组合集合PreSet中前缀组合(prem1,prem2)∈PreSet,从初始种子实体集合S中取实体si,分别构造得到两个“匹配模式”pattern(i,m,j)1和pattern(i,m,j)2:
pattern(i,m,j)1="prem1si"
pattern(i,m,j)2="prem2itemj"
统计pattern(i,m,j)1和pattern(i,m,j)2在推特文本语料数据集中同一条文本中同时出现的频数,既为此对“匹配模式”的频数f(i,m,j);
计算第j个候选单词项itemj在前缀规则特征上的得分值SCprefixj:
7.根据权利要求6所述的方法,其特征在于,所述根据综合排序模型对三个排序结果进行综合排序,最终得到扩展的候选实体集合,具体为:
对于候选实体集合D中的第j个候选单词项itemj,根据其语义相似度特征得分排序结果,得到其语义相似度特征排名值为Rsimilarityj;根据其上下文模式特征得分排序结果,得到其上下文模式特征排名值为Rpatternj;根据其前缀规则特征得分排序结果,得到其前缀规则特征排名值为Rprefixj;
根据综合排序模型R,计算第j个候选单词项itemj的综合排序值R(itemj):
R(itemj)=α1Rsimilarityj+α2Rpatternj+α3Rprefixj
根据综合排序值对候选实体集合进行综合排序,最终得到扩展的候选实体集合。
8.一种面向社交媒体的实体集合扩展的系统,其特征在于,所述系统包括:
词向量生成模块,用于在推特文本语料数据集上建立推特文本的词向量空间模型,基于该词向量空间模型得到推文中词的向量表示;
候选实体集合生成模块,用于基于推文中词的向量表示,计算词之间的相似度,根据相似度为初始种子实体集合中的每个种子生成对应的扩展集合,将所有种子的扩展集合合并得到候选实体集合;
初步排序模块,用于分别按照语义相似度特征得分、上下文模式特征得分和前缀组合特征得分对候选实体集合进行排序,得到三个排序结果;
综合排序模块,用于根据综合排序模型对三个排序结果进行综合排序,最终得到扩展的候选实体集合;
所述词向量生成模块具体包括:
爬取推特文本数据,构造推特文本语料数据集;
对通过组块分析识别出的全部名词短语进行处理,将短语中多个单词之间的空格去掉,从而将多个单词的短语转化为一个整体的单词;
在经过预处理后得到的推特文本语料数据集上,采用Word2Vec文本深度表示词向量空间模型并进行训练;
所述候选实体集合生成模块包括:
基于推特文本语料集合,建立Twitter文本中常见的连接符号集合ConSet:
ConSet={and、or、,、&、+、-、x、X、/、*、>、<、|、vs、VS、.、;、//、-、\、\\、=、>>和<<};
对于连接符号集合ConSet中的每个连接符号cp,从初始种子实体集合S中取实体对Pairk=(sk1,sk2),分别构造反向对称的两个“检索模式”pattern(k,p)1和pattern(k,p)2:
pattern(k,p)1="sk1cpsk2"
pattern(k,p)2="sk2cpsk1"
统计pattern(k,p)1和pattern(k,p)2在推特文本语料数据集中出现的频数f(k,p)1和f(k,p)2,其总和作为此对“检索模式”中cp对应的频数f(k,p);
计算每个连接符号cp的权值Wpatternp:
其中,1≤p≤24;
建立4种推特中“@”与“#”前缀的两两组合构成的前缀组合集合PreSet:
(@,@):种子实体@si,候选单词项@item;
(@,#):种子实体@si,候选单词项#item;
(#,@):种子实体#si,候选单词项@item;
(#,#):种子实体#si,候选单词项#item;
对于前缀组合集合PreSet中的每对前缀(prem1,prem2),从初始种子实体集合S中取实体对Pairk=(sk1,sk2),sk1,sk2∈S;分别构造得到一对“检索模式”pattern(k,m)1和pattern(k,m)2:
pattern(k,m)1=prem1sk1
pattern(k,m)2="prem2sk2"
统计pattern(k,m)1和pattern(k,m)2在推特文本语料数据集中出现在同一条推特文本中的频数,为前缀组合(prem1,prem2)对应这一组“检索模式”的频数f(k,m);
计算每组前缀组合(prem1,prem2)∈PreSet的权值Wprefixm:
其中,1≤m≤4。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911189192.4A CN110909116B (zh) | 2019-11-28 | 2019-11-28 | 一种面向社交媒体的实体集合扩展方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911189192.4A CN110909116B (zh) | 2019-11-28 | 2019-11-28 | 一种面向社交媒体的实体集合扩展方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110909116A CN110909116A (zh) | 2020-03-24 |
CN110909116B true CN110909116B (zh) | 2022-12-23 |
Family
ID=69820057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911189192.4A Active CN110909116B (zh) | 2019-11-28 | 2019-11-28 | 一种面向社交媒体的实体集合扩展方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110909116B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488467B (zh) * | 2020-04-30 | 2022-04-05 | 北京建筑大学 | 地理知识图谱的构建方法、装置、存储介质及计算机设备 |
CN112650817A (zh) * | 2020-12-08 | 2021-04-13 | 清华大学 | 关键词汇扩展方法及系统、电子设备及存储介质 |
CN112463914B (zh) * | 2021-02-01 | 2021-04-16 | 中国人民解放军国防科技大学 | 一种用于互联网服务的实体链接方法、装置及存储介质 |
CN113297213B (zh) * | 2021-04-29 | 2023-09-12 | 军事科学院系统工程研究院网络信息研究所 | 一种实体对象的动态多属性匹配方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101630314A (zh) * | 2008-07-16 | 2010-01-20 | 中国科学院自动化研究所 | 一种基于领域知识的语义查询扩展方法 |
US20120330976A1 (en) * | 2010-02-26 | 2012-12-27 | National Institute Of Information And Communications Technology | Relationship information expansion apparatus, relationship information expansion method, and program |
CN104765769A (zh) * | 2015-03-06 | 2015-07-08 | 大连理工大学 | 一种基于词矢量的短文本查询扩展及检索方法 |
CN106484829A (zh) * | 2016-09-29 | 2017-03-08 | 中国国防科技信息中心 | 一种微博排序模型的建立及微博多样性检索方法 |
CN108491462A (zh) * | 2018-03-05 | 2018-09-04 | 昆明理工大学 | 一种基于word2vec的语义查询扩展方法及装置 |
CN108763192A (zh) * | 2018-04-18 | 2018-11-06 | 达而观信息科技(上海)有限公司 | 用于文本处理的实体关系抽取方法及装置 |
CN110162770A (zh) * | 2018-10-22 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种词扩展方法、装置、设备及介质 |
-
2019
- 2019-11-28 CN CN201911189192.4A patent/CN110909116B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101630314A (zh) * | 2008-07-16 | 2010-01-20 | 中国科学院自动化研究所 | 一种基于领域知识的语义查询扩展方法 |
US20120330976A1 (en) * | 2010-02-26 | 2012-12-27 | National Institute Of Information And Communications Technology | Relationship information expansion apparatus, relationship information expansion method, and program |
CN104765769A (zh) * | 2015-03-06 | 2015-07-08 | 大连理工大学 | 一种基于词矢量的短文本查询扩展及检索方法 |
CN106484829A (zh) * | 2016-09-29 | 2017-03-08 | 中国国防科技信息中心 | 一种微博排序模型的建立及微博多样性检索方法 |
CN108491462A (zh) * | 2018-03-05 | 2018-09-04 | 昆明理工大学 | 一种基于word2vec的语义查询扩展方法及装置 |
CN108763192A (zh) * | 2018-04-18 | 2018-11-06 | 达而观信息科技(上海)有限公司 | 用于文本处理的实体关系抽取方法及装置 |
CN110162770A (zh) * | 2018-10-22 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种词扩展方法、装置、设备及介质 |
Non-Patent Citations (2)
Title |
---|
Semantic querysuggestionusingTwitterEntities;Ioannis Anagnostopoulos 等;《Neurocomputing》;20150321;第139-142页的第3节 * |
基于排序学习模型的微博多样性检索问题研究;王莹,等;《计算机工程》;20121130;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110909116A (zh) | 2020-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909116B (zh) | 一种面向社交媒体的实体集合扩展方法及系统 | |
CN107480143B (zh) | 基于上下文相关性的对话话题分割方法和系统 | |
CN108132927B (zh) | 一种融合图结构与节点关联的关键词提取方法 | |
CN110543639A (zh) | 一种基于预训练Transformer语言模型的英文句子简化算法 | |
CN108255813B (zh) | 一种基于词频-逆文档与crf的文本匹配方法 | |
Naseem et al. | Dice: Deep intelligent contextual embedding for twitter sentiment analysis | |
CN107273352B (zh) | 一种基于Zolu函数的词嵌入学习模型及训练方法 | |
US20220114340A1 (en) | System and method for an automatic search and comparison tool | |
CN109299357B (zh) | 一种老挝语文本主题分类方法 | |
CN108733652B (zh) | 基于机器学习的影评情感倾向性分析的测试方法 | |
Sousa et al. | Word sense disambiguation: an evaluation study of semi-supervised approaches with word embeddings | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN116127099A (zh) | 基于图卷积网络的联合文本增强的表实体与类型注释方法 | |
Niyozmatova et al. | Classification Based On Decision Trees And Neural Networks | |
JP5812534B2 (ja) | 質問応答装置、方法、及びプログラム | |
CN112989803B (zh) | 一种基于主题向量学习的实体链接预测方法 | |
CN112860898B (zh) | 一种短文本框聚类方法、系统、设备及存储介质 | |
CN112711944B (zh) | 一种分词方法、系统、分词器生成方法及系统 | |
CN113158667A (zh) | 基于实体关系级别注意力机制的事件检测方法 | |
ALQARALEH | Turkish Sentiment Analysis System via Ensemble Learning | |
CN116757188A (zh) | 一种基于对齐查询实体对的跨语言信息检索训练方法 | |
CN117057346A (zh) | 一种基于加权TextRank和K-means的领域关键词抽取方法 | |
JP6232358B2 (ja) | 次発話候補ランキング装置、方法、及びプログラム | |
CN113468311B (zh) | 一种基于知识图谱的复杂问句问答方法、装置及存储介质 | |
CN112699831B (zh) | 基于弹幕情感的视频热点片段检测方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |