CN103226580A - 一种面向交互文本的话题识别方法 - Google Patents
一种面向交互文本的话题识别方法 Download PDFInfo
- Publication number
- CN103226580A CN103226580A CN2013101140989A CN201310114098A CN103226580A CN 103226580 A CN103226580 A CN 103226580A CN 2013101140989 A CN2013101140989 A CN 2013101140989A CN 201310114098 A CN201310114098 A CN 201310114098A CN 103226580 A CN103226580 A CN 103226580A
- Authority
- CN
- China
- Prior art keywords
- degree
- correlation
- sentence
- sen2
- sen1
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种面向交互文本的话题识别方法,按照三个大步骤实施:I、词语语义相关度计算阶段,采用了一种基于知识词典和主题模型相结合的词语相关度计算方法;II、句子相关度计算阶段,分别计算句子在关键词特征、词语语义特征、依存句法特征三个层面的相关度,将三个特征融合后计算句子间相关度;III、交互文本话题识别阶段,采用一种基于句子相关度计算的话题识别方法,识别出交互文本中不同话轮是否属于同一话题。
Description
技术领域
本发明属于信息技术领域,涉及一种信息检索、抽取与管理以及自然语言处理技术,尤其是一种面向交互文本的话题识别方法。
背景技术
随着互联网技术应用的日趋广泛,基于交互式文本的网络应用不断发展,已经成为人们获取和发布信息的主要手段之一,例如网络聊天室、微博等典型的交互文本应用。这些文本中蕴含着大量丰富的信息资源,如何实现对这些交互文本应用中发生的事件按话题内容查找、组织和利用,成为当务之急。比如自动识别网络学习者的情感变化事件,从而调节其学习效率;识别各种社会敏感的突发事件或者新事件等。申请人经过查新,未检索本发明相关的专利。但是找相似的几篇文章,分别是:
1)基于频繁模式的消息文本聚类研究。胡吉祥,中国科学院研究生院(计算技术研究所)。
2)用于聊天词汇的权重计算方法CDTF_IDF。高鹏,曹先彬,计算机仿真,2007.12。
文章1)作者发现了频繁模式(称之为关键频繁模式)包含了词序和邻近上下文等更多的语义信息对交互文本特征抽取的关键性,提出了一种无指导的基于频繁模式的特征选择算法,应用于文本分类和聚类。
文章2)主要针对聊天室的内容监控应用,通过分别离线计算词汇在不同数据源中的权值并汇总、并对重点词汇提高权重等方式来计算聊 天数据的词汇权重,从而达到识别聊天室主题的目的。
根据上述查新可知:首先现有技术的研究对象为以整个新闻或者段落;现有技术识别的结果仅为整个新闻(事件)或段落是否属于哪一类主题,以及相关的新闻(事件)发生,即主题级的识别;在交互文本的特征表示方面,现有技术离线收集仅为当前新闻(事件)的词频特征进行计算。现有方法以无监督的概率潜在语义分析方法为主。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供一种面向交互文本的话题识别方法,该方法针对话轮级别,提出了基于多特征融合的句子相关度算法,并将其应用于话题识别过程中,采用发现词语语义特性和句子结构特性,引入词语语义特征和依存句法特征来实现话题识别。
本发明的目的是通过以下技术方案来解决的:
这种面向交互文本的话题识别方法,包括以下步骤:
第一步:词语相关度计算:
(1)基于知网,计算词语在知识词典层面的相关度
基于知网的语义相关度计算依据知识词典中的记录信息,每一个记录包含的4项信息中,利用三项信息:词语概念W_X、词语词性G_X和概念定义DEF;
对于词语w1和w2,如果与w1对应的有m个概念,分别为C11,C12,...,C1m,w2有n个概念,分别为C21,C22,...,C2n,设w1和w2的相关度为各个概念的相关度之最大值,也就是说:
其中,wpos为词性相关权重系数,当概念词性相同时,wpos=1,当概念词性不同时,wpos=0.5;
(2)采用PLSA主题模型计算词语在大规模语料统计层面的相关度
用词语在某个主题中的共现率来计算关联程度;对于词语wi,wj,由PLSA模型得到主题在wi和wj上的概率分布向量为Vi=(pi1,pi2,pi3,...),Vj=(pj1,pj2,pj3,...),计算两个向量V1,V2之间距离,计算公式如下:
(3)主题模型与知识词典相融合的词语相关度计算
假设两个词语的相关度为Word Rele(A,B),通过知识词典计算得出的相关度为Dic Rele(A,B),通过主题模型计算得出的相关度为Statis Rele(A,B),则:
Word Rele(A,B)=a*Dic Rele(A,B)+b*Statis Rele(A,B)
其中:a,b为调整系数,0<a,b<1,a+b=1;
第二步,句子相关度计算阶段:
(1)基于关键词特征的句子相关度计算
对于两个句子Sen1和Sen2,抽取出的关键词分别为,w11,w12,...w1m与w21,w22,...w2n,formRele(Sen1,Sen2)表示句子在关键词特征层面的相关度。
formRele(Sen1,Sen2)=2*SameWord(Sen1,Sen2)/(Len(Sen1)+Len(Sen2))其中,SameWord(Sen1,Sen2)为句子Sen1和Sen2中共同出现的关键词个数;
Len(Sen1)、Len(Sen2)分别为句子Sen1和Sen2的关键词个数;
(2)基于词语语义特征的句子相关度计算
假设semanticRele(Sen1,Sen2)为句子Sen1和Sen2在词语语义特征层面 的相关度,那么,
其中:ai=max(s(w1i,w21),s(w1i,w22),...,s(w1i,w2n)),
bi=max(s(w2i,w11),s(w2i,w12),...,s(w2i,w1m));
s(wi,wj)为句子Sen1中词语wi和句子Sen2中词语wj在语义特征层面的相关度;
(3)基于依存句法的句子相关度计算;
对于句子Sen1和Sen2,在依存句法层面的相关度为:
其中,Wi为有效搭配对匹配的权重之和;PairCount1,PairCount2分别为句子Sen1,Sen2的有效搭配对数;
(4)多特征信息的融合
通过引入遗传算法的方式确定最优权重,将这关键词特征、词语语义特征、依存句法特征三个层面的信息融合起来,最后得到一个可靠、准确的句子相关度计算方法;多特征融合的形式化表示为如下公式:
Rele(Sen1,Sen2)=a*formRele(Sen1,Sen2)+
b*semanticRele(Sen1,Sen2)+c*syntaxRele(Sen1,Sen2)
其中,
Rele(Sen1,Sen2)为句子Sen1和句子Sen2的相关度;
formRele(Sen1,Sen2)为句子Sen1和句子Sen2的在关键词层面的相关度;
semanticRele(Sen1,Sen2)为句子Sen1和句子Sen2的在词语语义层面的相关度;
syntaxRele(Sen1,Sen2)为句子Sen1和句子Sen2的在依存句法层面的相关度;
a,b,c分别为对应特征的权重系数;
第三步:面向交互文本的话题识别过程为:
针对交互文本中话题的动态性、交叉性、稀疏性和发散性,设计基于第二步中句子相关度的话题识别算法,即选取聊天数据中的第一个话轮为第一个话题,对于后面的所有话轮分别计算其与已存在话题的句子相关度,然后和阈值进行比较,确定它是属于某一个已存在的话题还是属于一个新发起的话题,用此方法来进行话题的识别。
进一步的,以上第一步中步骤(1)的概念的相关度计算过程为:
概念是由一个语义表达式来描述的,要计算实词概念之间的相关度就是要计算两个语义表达式的相关度;具体地,采用以下方式:
(1)将任何义原或具体词与空值的相似度定义为一个小的常数δ;
(2)对于实词概念的语义表达式,将其分成三个部分,然后计算两个表达式中对应每个部分的相关度;
a)普通义原,将这一部分的相关度记为Rel1(C1,C2),按照如下步骤对其进行分组;
i.先把两个表达式的所有普通义原任意配对,计算出所有配对的义原相关度;
ii.取相关度最大的一对,并将它们归为一组;
iii.在剩下的普通义原的配对相关度中,取最大的一对,并归为一组,如此反复,直到所有普通义原都完成分组为止;
b)关系义原,将这一部分的相关度记为Rel2(C1,C2),把关系义原相 同的描述式分为一组,并计算其相关度;
c)符号义原,将这一部分的相关度记为Rel3(C1,C2),把关系符号相同的描述式分为一组,并计算其相关度;
(3)将概念表达式相关度计算归结到计算两个义原间的语义相关度,在这里用两个义原的语义距离表示:
其中,p1,p2表示两个义原,d为p1,p2在义原层次体系中的路径长度,是一个正整数,α是一个可调节的参数;
(4)两个概念语义表达式的整体相关度为:
其中:βi是可调节的参数,1<i<3,β1+β2+β3=1,β1≥β2≥β3。
进一步,第二步中步骤(1)、(2)抽取关键词的过程具体为:
Step1、依存树剪枝,剪枝规则如下:
Step1.1、提取到依存树的第二级;
Step1.2、如果第二级为“的”等助词,则需要提取该助词下的第三级或更高级;
Step1.3、如果第二级为动词,则需要提取该动词下的第三级;
Step2、在剪枝后的依存树中抽取关键词;关键词抽取规则是,只提取关键词,除去关键词以外的所有词,并将提取出来的关键词以依存树的形式保存。
进一步,以上话题识别的计算过程为:
Step1、语料中第一个话轮为一个新的话题;
Step2、测试后续话轮与所有主题句的相关度:
Step2.1、如果相关度大于阈值,则将其归入相关度最高的话题;
Step2.2、如果相关度小于阈值,且为完整句,则将其作为新的话题;
Step2.3、如果相关度小于阈值,且为非完整句,则将其归入最近的话题;
Step3、重复Step2、Step3,直到所有话轮处理完成。
与现有技术相比,本发明具有以下有益效果:
1.现有技术的研究对象为以整个新闻或者段落,而本发明针对话轮级别。
2.现有技术识别的结果仅为整个新闻(事件)或段落是否属于哪一类主题,以及相关的新闻(事件)发生,即主题级的识别;而本发明的主要是发现交互双方讨论的话题是否一致,即对单一、具体话题的识别。
3.在交互文本的特征表示方面,现有技术离线收集仅为当前新闻(事件)的词频特征进行计算,而本发明的方法发现了词语语义特性和句子结构特性,引入词语语义特征和依存句法特征来进行话题识别。
4.现有方法以无监督的概率潜在语义分析方法为主,而本发明提出了基于多特征融合的句子相关度算法,并将其应用于话题识别过程中。
附图说明
图1交互文本字数统计图;
图2话题识别流程图;
图3基于多特征融合的句子相关度计算原理图。
具体实施方式
本发明面向交互文本的话题识别方法,包括如下步骤:
第一步:词语相关度计算阶段:
(1)基于知网,计算词语在知识词典层面的相关度。
基于知网的语义相关度计算主要依据知识词典中的记录信息,每一个记录包含的4项信息中,因为目前词语例子E_X这一项还不可用,只能利用剩下的三项信息,词语概念W_X、词语词性G_X和概念定义DEF。
对于词语w1和w2,如果与w1对应的有m个概念,分别为C11,C12,...,C1m,w2有n个概念,分别为C21,C22,...,C2n,规定,w1和w2的相关度为各个概念的相关度之最大值,也就是说:
其中,wpos为词性相关权重系数,当概念词性相同时,wpos=1,当概念词性不同时,wpos=0.5;
所述的概念相关度计算过程为:
概念是由一个语义表达式来描述的,要计算实词概念之间的相关度就是要计算两个语义表达式的相关度。具体地,采用以下规则:
A.将任何义原(或具体词)与空值的相似度定义为一个比较小的常数(δ);
B.对于实词概念的语义表达式,我们将其分成三个部分,然后计算两个表达式中对应每个部分的相关度。
a)普通义原,将这一部分的相关度记为Rel1(C1,C2),因为普通义原一般不止一个,而且没有固定的分组规则,很难找出对应关系,本文按照如下步骤对其进行分组:
a-1先把两个表达式的所有普通义原任意配对,计算出所有可能的配对的义原相关度;
a-2取相关度最大的一对,并将它们归为一组;
a-3在剩下的普通义原的配对相关度中,取最大的一对,并归为一组,如此反复,直到所有普通义原都完成分组。
b)关系义原,将这一部分的相关度记为Rel2(C1,C2),把关系义原相同的描述式分为一组,并计算其相关度;
c)符号义原,将这一部分的相关度记为Rel3(C1,C2),符号义原描述式的配对分组与关系义原描述式类似,本发明把关系符号相同的描述式分为一组,并计算其相关度;
C.将概念表达式相关度计算又归结到计算两个义原间的语义相关度,在这里用两个义原的语义距离表示:
其中,p1,p2表示两个义原(primitive),d为p1,p2在义原层次体系中的路径长度,是一个正整数,α是一个可调节的参数。
D.两个概念语义表达式的整体相关度为:
其中:βi是可调节的参数,1<i<3,β1+β2+β3=1,β1≥β2≥β3。后者反映了Rel1(C1,C2)到Rel3(C1,C2)对于总体相关度所起到的作用依次递减。
(2)采用PLSA主题模型计算词语在大规模语料统计层面的相关度。用词语在某个主题中的共现率来计算关联程度。对于词语wi,wj,由PLSA模型得到主题在wi和wj上的概率分布向量为Vi=(pi1,pi2,pi3,...),Vj=(pj1,pj2,pj3,...),计算两个向量V1,V2之间距离的方法有余弦距离,计算公式如下:
(3)主题模型与知识词典相融合的词语相关度计算。假设两个词语的相关度为WordRele(A,B),通过知识词典计算得出的相关度为DicRele(A,B),通过主题模型计算得出的相关度为StatisRele(A,B),则WordRele(A,B)=a*DicRele(A,B)+b*StatisRele(A,B)
其中:a,b为调整系数,0<a,b<1,a+b=1。
第二步,句子相关度计算阶段:
(1)基于关键词特征的句子相关度计算;
对于两个句子Sen1和Sen2,抽取出的关键词分别为,w11,w12,...w1m与w21,w22,...w2n,formRele(Sen1,Sen2)表示句子在关键词特征层面的相关度。
formRele(Sen1,Sen2)=2*SameWord(Sen1,Sen2)/(Len(Sen1)+Len(Sen2))
其中,
SameWord(Sen1,Sen2)为句子Sen1和Sen2中共同出现的关键词个数;
Len(Sen1)、Len(Sen2)分别为句子Sen1和Sen2的关键词个数。
(2)基于词语语义特征的句子相关度计算;
假设semanticRele(Sen1,Sen2)为句子Sen1和Sen2在词语语义特征层面的 相关度,那么,
其中,ai=max(s(w1i,w21),s(w1i,w22),...,s(w1i,w2n)),
bi=max(s(w2i,w11),s(w2i,w12),...,s(w2i,w1m))。
s(wi,wj)为句子Sen1中词语wi和句子Sen2中词语wj在语义特征层面的相关度,步骤一介绍了求解s(wi,wj)的过程。
(3)基于依存句法的句子相关度计算;
对于句子Sen1和Sen2,在依存句法层面的相关度为:
其中,
Wi为有效搭配对匹配的权重之和;
PairCount1,PairCount2分别为句子Sen1,Sen2的有效搭配对数。
(5)多特征信息的融合。通过引入遗传算法的方式确定最优权重,将这关键词特征、词语语义特征、依存句法特征三个层面的信息融合起来,最后得到一个可靠、准确的句子相关度计算方法。多特征融合的形式化表示为如下公式:
Rele(Sen1,Sen2)=a*formRele(Sen1,Sen2)+
b*semanticRele(Sen1,Sen2)+c*syntaxRele(Sen1,Sen2)
其中,
Rele(Sen1,Sen2)为句子Sen1和句子Sen2的相关度;
formRele(Sen1,Sen2)为句子Sen1和句子Sen2的在关键词层面的相关度;
semanticRele(Sen1,Sen2)为句子Sen1和句子Sen2的在词语语义层面的相关度;
syntaxRele(Sen1,Sen2)为句子Sen1和句子Sen2的在依存句法层面的相关度;
a,b,c分别为对应特征的权重系数。
以上步骤(1)、(2)中抽取关键词的过程为:
Step1、依存树剪枝,剪枝规则如下:
Step1.1、一般情况下提取到依存树的第二级;
Step1.2、如果第二级为“的”等助词,则需要提取该助词下的第三级或更高级;
Step1.3、如果第二级为动词,则需要提取该动词下的第三级。
Step2、在剪枝后的依存树中抽取关键词。关键词抽取规则是,只提取关键词(名词、动词、形容词),除去关键词以外的所有词,并将提取出来的关键词以依存树的形式保存。
第三步:面向交互文本的话题识别过程为:
针对交互文本中话题的动态性、交叉性、稀疏性和发散性,设计基于第二步中句子相关度的话题识别算法,即选取聊天数据中的第一个话轮为第一个话题,对于后面的所有话轮分别计算其与已存在话题的句子相关度,然后和阈值进行比较,确定它是属于某一个已存在的话题还是属于一个新发起的话题,用此方法来进行话题的识别。其计算过程包括以下步骤:
Step1、语料中第一个话轮为一个新的话题;
Step2、测试后续话轮与所有主题句的相关度;
Step2.1、如果相关度大于阈值,则将其归入相关度最高的话题;
Step2.2、如果相关度小于阈值,且为完整句,则将其作为新的话题;
Step2.3、如果相关度小于阈值,且为非完整句,则将其归入最近的话题。
Step3、重复Step2、Step3,直到所有话轮处理完成。
为了更清楚的理解本发明,以下结合附图对本发明作进一步的详细描述。
1、本发明采用的是先进行词语语义相关度计算,再将词语语义相关度引入句子相关度计算过程,分别计算句子在关键词特征、词语语义特征、依存句法特征三个层面的相关度,将三个特征融合后计算句子间相 关度。最后将句子相关度计算引入交互文本话题识别算法过程进行交互文本话题识别。其流程图如图1所示。
本发明将用户输入的Turn归属到相应的话题中。即时交互文本相比于博客、评论、小说等单篇文档,其除继承了自然语言文本具有的歧义性和非规范性等特点外,还具有自己独特的特性:
(1)交互性。信息通过发言者(Speaker)与受众(Acceptor)之间的(内容和情感)双向互动传播。其交互性包括两个重要的特征:一是话轮(Turn)特征,即多(大于两人)成员参与并发言。发言过程蕴含组织特征,即对话参与人的角色(例如远程实时课堂中的教师和学生)、组织的生命周期(如实时课堂从开始讨论到结束);二是对话内容和情感的互动性。发言者发布信息,受众有选择地接收、评价或反馈信息,从而形成在认知层次上面向问题或任务的讨论;
(2)句子短,特征稀疏。每次话轮的内容少,句子短,这样必然会导致特征稀疏。在图1中,44.6%的话轮少于10个字,78.1%的话轮少于20个字,可以看出大多数的话轮包含的字数都是非常少的,即话轮是非常短的。
这些都给交互文本的处理技术带来了更大的挑战。在交互文本的话题识别研究中,需要通过交互文本和传统文本的对比分析,从交互文本自身的特性出发,提出有针对性的方法,具体分析如下:
1)交互性。交互性中一个特征是话轮特征,另外一个是对话内容和情感的互动性,针对这两个特征,采用了基于句子相关度计算的关联检测方法。关联检测是话题检测和跟踪的五大核心任务之一,主要工作是判断报道所属的话题。要判断一篇报道属于哪个话题,就需要计算这篇报道与所有已知话题的相似度,然后将最高相似度与阈值进行比较,以判断该报道是属于已知相似度最高的话题还是属于一个新话题。而这种关联检测方法在交互文本中很难得到实际应用,这是因为交互文本的交互性、话轮特征使得在交互文本环境进行关联检测时,不能以文档相似度计算为基础,而需要以句子相关度计算为基础。句子相关度计算就是判断两个句子是否是围绕同一话题展开。
2)句子短,语义特征稀疏。在任意单个话轮中存在的文本较短,这导致了单轮发言有效语义信息含量少,可直接利用信息不足的问题,致使交互文本中的句子相关度检测难度增大。因此,如何有效的从已有 发言文本中挖掘可用语义信息,补充拓展语义信息含量,设计出适应交互文本的句子相关度计算方法是解决该问题的关键。对此,设计了一种基于多特征融合的句子相关度算法,研究句子在主题词、词语语义、句法层面的相关度计算方法,最后进行多特征融合。其中,词语语义在挖掘交互文本深层语义信息方面所占有的比重最大,因此,深入研究词语语义相关度计算方法,提出基于知识词典和主题模型相结合的词语相关度计算方法。
通过以上分析,本发明采用一种基于句子相关度计算的交互文本话题识别方法,流程图如图2所示,具体工作机制如下:
Step1、语料中第一个话轮为一个新的话题;
Step2、测试后续话轮与所有主题句的相关度;
Step2.1、如果相关度大于阈值,则将其归入相关度最高的话题;
Step2.2、如果相关度小于阈值,且为完整句,则将其作为新的话题;
Step2.3、如果相关度小于阈值,且为非完整句,则将其归入最近的话题。
Step3、重复Step2、Step3,直到所有话轮处理完成。
2、句子相关度计算机制
研究目的:计算句子之间的关联程度,以便于进行话轮之间关联程度的检测,从而识别出两个不同的话轮是否属于同一个话题。
研究背景:交互文本中每次话轮的内容少,句子短,这样必然会导致特征稀疏,那么通过多特征融合的句子相关度计算方法,可以在一定程度上克服内容少,句子短这些缺点。
本发明采用了一种基于多特征融合的句子相关度算法,研究句子在主题词、词语语义、句法层面的相关度计算方法,最后进行多特征融合。其示意图如图3所示,具体的工作机制如下:
(1)基于关键词特征的句子相关度计算;
对于两个句子Sen1和Sen2,抽取出的关键词分别为,w11,w12,...w1m与w21,w22,...w2n,formRele(Sen1,Sen2)表示句子在关键词特征层面的相关度。
formRele(Sen1,Sen2)=2*SameWord(Sen1,Sen2)/(Len(Sen1)+Len(Sen2))
其中,
SameWord(Sen1,Sen2)为句子Sen1和Sen2中共同出现的关键词个数;
Len(Sen1)、Len(Sen2)分别为句子Sen1和Sen2的关键词个数。
(2)基于词语语义特征的句子相关度计算;
假设semanticRele(Sen1,Sen2)为句子Sen1和Sen2在词语语义特征层面的相关度那么,
其中,ai=max(s(w1i,w21),s(w1i,w22),...,s(w1i,w2n)),bi=max(s(w2i,w11),s(w2i,w12),...,s(w2i,w1m))。
s(wi,wj)为句子Sen1中词语wi和句子Sen2中词语wj在语义特征层面的相关度,步骤一介绍了求解s(wi,wj)的过程。
(3)基于依存句法的句子相关度计算;
对于句子Sen1和Sen2,在依存句法层面的相关度为:
其中,
Wi为有效搭配对匹配的权重之和;
PairCount1,PairCount2分别为句子Sen1,Sen2的有效搭配对数。
(4)多特征信息的融合。通过引入遗传算法的方式确定最优权重,将这关键词特征、词语语义特征、依存句法特征三个层面的信息融合起来,最后得到一个可靠、准确的句子相关度计算方法。多特征融合的形式化表示为如下公式:
Rele(Sen1,Sen2)=a*formRele(Sen1,Sen2)+
b*semanticRele(Sen1,Sen2)+c*syntaxRele(Sen1,Sen2)
其中,
Rele(Sen1,Sen2)为句子Sen1和句子Sen2的相关度;
formRele(Sen1,Sen2)为句子Sen1和句子Sen2的在关键词层面的相关度;
semanticRele(Sen1,Sen2)为句子Sen1和句子Sen2的在词语语义层面的相关度;
syntaxRele(Sen1,Sen2)为句子Sen1和句子Sen2的在依存句法层面的相关度;
a,b,c分别为对应特征的权重系数。
3、词语语义相关度计算机制
研究目的:计算词语语义相关度,以应用于句子相关度计算中。
研究背景:词语语义可以挖掘交互文本深层语义信息,在基于多特征融合的句子相关度计算中所占比重最大,因此,需要深入研究词语语义相关度计算方法。
本发明采用了一种基于知识词典和主题模型相结合的词语相关度计算方法。具体工作机制如下:
(1)基于知网,计算词语在知识词典层面的相关度。基于知网的语义相关度计算主要依据知识词典中的记录信息,每一个记录包含的4项信息中,因为目前词语例子E_X这一项还不可用,只能利用剩下的三项信息,词语概念W_X、词语词性G_X和概念定义DEF。
对于词语w1和w2,如果与w1对应的有m个概念,分别为C11,C12,...,C1m,w2有n个概念,分别为C21,C22,...,C2n,规定,w1和w2的相关度为各个概念的相关度之最大值,也就是说:
其中,wpos为词性相关权重系数,当概念词性相同时,wpos=1,当概念词性不同时,wpos=0.5。
概念是由一个语义表达式来描述的,要计算实词概念之间的相关度就是要计算两个语义表达式的相关度。具体地,采用以下规则:
1)将任何义原(或具体词)与空值的相似度定义为一个比较小的常数(δ);
2)对于实词概念的语义表达式,我们将其分成三个部分,然后计算两个表达式中对应每个部分的相关度。
a)普通义原,将这一部分的相关度记为Rel1(C1,C2),因为普通义原一般不止一个,而且没有固定的分组规则,很难找出对应关系,本发明按照如下步骤对其进行分组;
(a)先把两个表达式的所有普通义原任意配对,计算出所有可能的配对的义原相关度;
(b)取相关度最大的一对,并将它们归为一组;
(c)在剩下的普通义原的配对相关度中,取最大的一对,并归为一组,如此反复,直到所有普通义原都完成分组。
b)关系义原,将这一部分的相关度记为Rel2(C1,C2),我们把关系义原相同的描述式分为一组,并计算其相关度;
c)符号义原,将这一部分的相关度记为Rel3(C1,C2),符号义原描述式的配对分组与关系义原描述式类似,本文把关系符号相同的描述式分为一组,并计算其相关度;
3)将概念表达式相关度计算又归结到计算两个义原间的语义相关度,在这里用两个义原的语义距离表示:
其中,p1,p2表示两个义原(primitive),d为p1,p2在义原层次体系中的路径长度,是一个正整数,α是一个可调节的参数。
4)两个概念语义表达式的整体相关度为:
其中:βi是可调节的参数,1<i<3,β1+β2+β3=1,β1≥β2≥β3。后者反映了Rel1(C1,C2)到Rel3(C1,C2)对于总体相关度所起到的作用依次递减。
(2)采用PLSA主题模型计算词语在大规模语料统计层面的相关度。用词语在某个主题中的共现率来计算关联程度。对于词语wi,wj,由PLSA模型得到主题在wi和wj上的概率分布向量为Vi=(pi1,pi2,pi3,...),Vj=(pj1,pj2,pj3,...),计算两个向量V1,V2之间距离的方法有余弦距离,计算公式如下:
(3)主题模型与知识词典相融合的词语相关度计算。假设两个词语的相关度为WordRele(A,B),通过知识词典计算得出的相关度为DicRele(A,B),通过主题模型计算得出的相关度为StatisRele(A,B),则
WordRele(A,B)=a*DicRele(A,B)+b*StatisRele(A,B)
其中:a,b为调整系数,0<a,b<1,a+b=1。
Claims (4)
1.一种面向交互文本的话题识别方法,其特征在于,包括以下步骤:
第一步:词语相关度计算:
(1)基于知网,计算词语在知识词典层面的相关度
基于知网的语义相关度计算依据知识词典中的记录信息,每一个记录包含的4项信息中,利用三项信息:词语概念W_X、词语词性G_X和概念定义DEF;
对于词语w1和w2,如果与w1对应的有m个概念,分别为C11,C12,...,C1m,w2有n个概念,分别为C21,C22,...,C2n,设w1和w2的相关度为各个概念的相关度之最大值,也就是说:
其中,wPOS为词性相关权重系数,当概念词性相同时,wpos=1,当概念词性不同时,wpos=0.5;
(2)采用PLSA主题模型计算词语在大规模语料统计层面的相关度
用词语在某个主题中的共现率来计算关联程度;对于词语wi,wj,由PLSA模型得到主题在wi和wj上的概率分布向量为Vi=(pi1,pi2,pi3,...),Vj=(pj1,pj2,pj3,...),计算两个向量V1,V2之间距离,计算公式如下:
(3)主题模型与知识词典相融合的词语相关度计算
假设两个词语的相关度为WordRele(A,B),通过知识词典计算得出的相关度为DicRele(A,B),通过主题模型计算得出的相关度为StatisRele(A,B),则:
WordRele(A,B)=a*DicRele(A,B)+b*StatisRele(A,B)
其中:a,b为调整系数,0<a,b<1,a+b=1;
第二步,句子相关度计算阶段:
(1)基于关键词特征的句子相关度计算
对于两个句子Sen1和Sen2,抽取出的关键词分别为,w11,w12,...w1m与w21,w22,...w2n,formRele(Sen1,Sen2)表示句子在关键词特征层面的相关度;
formRele(Sen1,Sen2)=2*SameWord(Sen1,Sen2)/(Len(Sen1)+Len(Sen2))其中,SameWord(Sen1,Sen2)为句子Sen1和Sen2中共同出现的关键词个数;
Len(Sen1)、Len(Sen2)分别为句子Sen1和Sen2的关键词个数;
(2)基于词语语义特征的句子相关度计算
假设semanticRele(Sen1,Sen2)为句子Sen1和Sen2在词语语义特征层面的相关度,那么,
其中:ai=max(s(w1i,w21),s(w1i,w22),...,s(w1i,w2n)),
bi=max(s(w2i,w11),s(w2i,w12),...,s(w2i,w1m));
s(wi,wj)为句子Sen1中词语wi和句子Sen2中词语wj在语义特征层面的相关度;
(3)基于依存句法的句子相关度计算;
对于句子Sen1和Sen2,在依存句法层面的相关度为:
其中,Wi为有效搭配对匹配的权重之和;PairCount1,PairCount2分别为句子Sen1,Sen2的有效搭配对数;
(4)多特征信息的融合
通过引入遗传算法的方式确定最优权重,将这关键词特征、词语语义特征、依存句法特征三个层面的信息融合起来,最后得到一个可靠、准确的句子相关度计算方法;多特征融合的形式化表示为如下公式:
Rele(Sen1,Sen2)=a*formRele(Sen1,Sen2)+
b*semanticRele(Sen1,Sen2)+c*syntaxRele(Sen1,Sen2)
其中,
Rele(Sen1,Sen2)为句子Sen1和句子Sen2的相关度;
formRele(Sen1,Sen2)为句子Sen1和句子Sen2的在关键词层面的相关度;
semanticRele(Sen1,Sen2)为句子Sen1和句子Sen2的在词语语义层面的相关度;
syntaxRele(Sen1,Sen2)为句子Sen1和句子Sen2的在依存句法层面的相关度;
a,b,c分别为对应特征的权重系数;
第三步:面向交互文本的话题识别过程为:
针对交互文本中话题的动态性、交叉性、稀疏性和发散性,设计基于第二步中句子相关度的话题识别算法,即选取聊天数据中的第一个话轮为第一个话题,对于后面的所有话轮分别计算其与已存在话题的句子相关度,然后和阈值进行比较,确定它是属于某一个已存在的话题还是属于一个新发起的话题,用此方法来进行话题的识别。
2.根据权利要求1所述的面向交互文本的话题识别方法,其特征在于,第一步中步骤(1)的概念的相关度计算过程为:
概念是由一个语义表达式来描述的,要计算实词概念之间的相关度就是要计算两个语义表达式的相关度;具体地,采用以下方式:
(1)将任何义原或具体词与空值的相似度定义为一个小的常数δ;
(2)对于实词概念的语义表达式,将其分成三个部分,然后计算两个表达式中对应每个部分的相关度;
a)普通义原,将这一部分的相关度记为Rel1(C1,C2),按照如下步骤对其进行分组;
i.先把两个表达式的所有普通义原任意配对,计算出所有配对的义原相关度;
ii.取相关度最大的一对,并将它们归为一组;
iii.在剩下的普通义原的配对相关度中,取最大的一对,并归为一组,如此反复,直到所有普通义原都完成分组为止;
b)关系义原,将这一部分的相关度记为Rel2(C1,C2),把关系义原相同的描述式分为一组,并计算其相关度;
c)符号义原,将这一部分的相关度记为Rel3(C1,C2),把关系符号相同的描述式分为一组,并计算其相关度;
(3)将概念表达式相关度计算归结到计算两个义原间的语义相关度,在这里用两个义原的语义距离表示:
其中,p1,p2表示两个义原,d为p1,p2在义原层次体系中的路径长度,是一个正整数,α是一个可调节的参数;
(4)两个概念语义表达式的整体相关度为:
其中:βi是可调节的参数,1<i<3,β1+β2+β3=1,β1≥β2≥β3。
3.根据权利要求1所述的面向交互文本的话题识别方法,其特征在于,第二步中步骤(1)、(2)抽取关键词的过程具体为:
Step1、依存树剪枝,剪枝规则如下:
Step1.1、提取到依存树的第二级;
Step1.2、如果第二级为“的”等助词,则需要提取该助词下的第三级或更高级;
Step1.3、如果第二级为动词,则需要提取该动词下的第三级;
Step2、在剪枝后的依存树中抽取关键词;关键词抽取规则是,只提取关键词,除去关键词以外的所有词,并将提取出来的关键词以依存树的形式保存。
4.根据权利要求1所述的面向交互文本的话题识别方法,其特征在于,
话题识别的计算过程为:
Step1、语料中第一个话轮为一个新的话题;
Step2、测试后续话轮与所有主题句的相关度:
Step2.1、如果相关度大于阈值,则将其归入相关度最高的话题;
Step2.2、如果相关度小于阈值,且为完整句,则将其作为新的话题;
Step2.3、如果相关度小于阈值,且为非完整句,则将其归入最近的话题;
Step3、重复Step2、Step3,直到所有话轮处理完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310114098.9A CN103226580B (zh) | 2013-04-02 | 2013-04-02 | 一种面向交互文本的话题识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310114098.9A CN103226580B (zh) | 2013-04-02 | 2013-04-02 | 一种面向交互文本的话题识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103226580A true CN103226580A (zh) | 2013-07-31 |
CN103226580B CN103226580B (zh) | 2016-03-30 |
Family
ID=48837026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310114098.9A Expired - Fee Related CN103226580B (zh) | 2013-04-02 | 2013-04-02 | 一种面向交互文本的话题识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103226580B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927176A (zh) * | 2014-04-18 | 2014-07-16 | 扬州大学 | 一种基于层次主题模型的程序特征树的生成方法 |
CN104052654A (zh) * | 2014-06-25 | 2014-09-17 | 金硕澳门离岸商业服务有限公司 | 实现网络聊天的方法及系统 |
CN105260356A (zh) * | 2015-10-10 | 2016-01-20 | 西安交通大学 | 基于多任务学习的中文交互文本情感与话题识别方法 |
CN105608136A (zh) * | 2015-12-17 | 2016-05-25 | 华中师范大学 | 一种基于汉语复句的语义相关度计算方法 |
CN105718492A (zh) * | 2014-12-05 | 2016-06-29 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN106485525A (zh) * | 2015-08-31 | 2017-03-08 | 百度在线网络技术(北京)有限公司 | 信息处理方法及装置 |
CN106598999A (zh) * | 2015-10-19 | 2017-04-26 | 北京国双科技有限公司 | 一种计算文本主题归属度的方法及装置 |
CN106776828A (zh) * | 2016-11-24 | 2017-05-31 | 竹间智能科技(上海)有限公司 | 用于保持对话系统对话连贯性的方法及系统 |
CN107369098A (zh) * | 2016-05-11 | 2017-11-21 | 华为技术有限公司 | 社交网络中数据的处理方法和装置 |
WO2018018626A1 (en) * | 2016-07-29 | 2018-02-01 | Microsoft Technology Licensing, Llc. | Conversation oriented machine-user interaction |
CN108170699A (zh) * | 2017-11-13 | 2018-06-15 | 北京零秒科技有限公司 | 话题检测方法及装置 |
CN108595413A (zh) * | 2018-03-22 | 2018-09-28 | 西北大学 | 一种基于语义依存树的答案抽取方法 |
CN109101493A (zh) * | 2018-08-01 | 2018-12-28 | 东北大学 | 一种基于对话机器人的智能购房助手 |
CN109145114A (zh) * | 2018-08-29 | 2019-01-04 | 电子科技大学 | 基于Kleinberg在线状态机的社交网络事件检测方法 |
CN110209772A (zh) * | 2019-06-17 | 2019-09-06 | 科大讯飞股份有限公司 | 一种文本处理方法、装置、设备及可读存储介质 |
CN110225207A (zh) * | 2019-04-29 | 2019-09-10 | 厦门快商通信息咨询有限公司 | 一种融合语义理解的防骚扰方法、系统、终端及存储介质 |
CN110246049A (zh) * | 2018-03-09 | 2019-09-17 | 北大方正集团有限公司 | 话题检测方法、装置、设备及可读存储介质 |
CN111061845A (zh) * | 2018-10-16 | 2020-04-24 | 北京默契破冰科技有限公司 | 管理聊天室的聊天主题的方法、设备和计算机存储介质 |
CN111859980A (zh) * | 2020-06-16 | 2020-10-30 | 中国科学院自动化研究所 | 讽刺类型的文本识别方法、装置、设备及计算机可读介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101377777A (zh) * | 2007-09-03 | 2009-03-04 | 北京百问百答网络技术有限公司 | 一种自动问答方法和系统 |
CN101520802A (zh) * | 2009-04-13 | 2009-09-02 | 腾讯科技(深圳)有限公司 | 一种问答对的质量评价方法和系统 |
CN102004724A (zh) * | 2010-12-23 | 2011-04-06 | 哈尔滨工业大学 | 文档段落分割方法 |
-
2013
- 2013-04-02 CN CN201310114098.9A patent/CN103226580B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101377777A (zh) * | 2007-09-03 | 2009-03-04 | 北京百问百答网络技术有限公司 | 一种自动问答方法和系统 |
CN101520802A (zh) * | 2009-04-13 | 2009-09-02 | 腾讯科技(深圳)有限公司 | 一种问答对的质量评价方法和系统 |
CN102004724A (zh) * | 2010-12-23 | 2011-04-06 | 哈尔滨工业大学 | 文档段落分割方法 |
Non-Patent Citations (2)
Title |
---|
王宝勋等: "基于论坛话题段落划分的答案识别", 《自动化学报》, vol. 39, no. 1, 31 January 2013 (2013-01-31), pages 11 - 20 * |
田野等: "短信息的会话检测及组织", 《软件学报》, 31 October 2012 (2012-10-31), pages 2586 - 2599 * |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927176B (zh) * | 2014-04-18 | 2017-02-22 | 扬州大学 | 一种基于层次主题模型的程序特征树的生成方法 |
CN103927176A (zh) * | 2014-04-18 | 2014-07-16 | 扬州大学 | 一种基于层次主题模型的程序特征树的生成方法 |
CN104052654A (zh) * | 2014-06-25 | 2014-09-17 | 金硕澳门离岸商业服务有限公司 | 实现网络聊天的方法及系统 |
CN105718492A (zh) * | 2014-12-05 | 2016-06-29 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN106485525A (zh) * | 2015-08-31 | 2017-03-08 | 百度在线网络技术(北京)有限公司 | 信息处理方法及装置 |
CN105260356B (zh) * | 2015-10-10 | 2018-02-06 | 西安交通大学 | 基于多任务学习的中文交互文本情感与话题识别方法 |
CN105260356A (zh) * | 2015-10-10 | 2016-01-20 | 西安交通大学 | 基于多任务学习的中文交互文本情感与话题识别方法 |
CN106598999B (zh) * | 2015-10-19 | 2020-02-04 | 北京国双科技有限公司 | 一种计算文本主题归属度的方法及装置 |
CN106598999A (zh) * | 2015-10-19 | 2017-04-26 | 北京国双科技有限公司 | 一种计算文本主题归属度的方法及装置 |
CN105608136A (zh) * | 2015-12-17 | 2016-05-25 | 华中师范大学 | 一种基于汉语复句的语义相关度计算方法 |
CN105608136B (zh) * | 2015-12-17 | 2019-03-19 | 华中师范大学 | 一种基于汉语复句的语义相关度计算方法 |
CN107369098A (zh) * | 2016-05-11 | 2017-11-21 | 华为技术有限公司 | 社交网络中数据的处理方法和装置 |
WO2018018626A1 (en) * | 2016-07-29 | 2018-02-01 | Microsoft Technology Licensing, Llc. | Conversation oriented machine-user interaction |
US11068519B2 (en) | 2016-07-29 | 2021-07-20 | Microsoft Technology Licensing, Llc | Conversation oriented machine-user interaction |
CN106776828A (zh) * | 2016-11-24 | 2017-05-31 | 竹间智能科技(上海)有限公司 | 用于保持对话系统对话连贯性的方法及系统 |
CN106776828B (zh) * | 2016-11-24 | 2020-12-15 | 竹间智能科技(上海)有限公司 | 用于保持对话系统对话连贯性的方法及系统 |
CN108170699B (zh) * | 2017-11-13 | 2020-11-27 | 北京零秒科技有限公司 | 话题检测方法及装置 |
CN108170699A (zh) * | 2017-11-13 | 2018-06-15 | 北京零秒科技有限公司 | 话题检测方法及装置 |
CN110246049A (zh) * | 2018-03-09 | 2019-09-17 | 北大方正集团有限公司 | 话题检测方法、装置、设备及可读存储介质 |
CN108595413A (zh) * | 2018-03-22 | 2018-09-28 | 西北大学 | 一种基于语义依存树的答案抽取方法 |
CN108595413B (zh) * | 2018-03-22 | 2021-11-09 | 西北大学 | 一种基于语义依存树的答案抽取方法 |
CN109101493B (zh) * | 2018-08-01 | 2022-04-01 | 东北大学 | 一种基于对话机器人的智能购房助手 |
CN109101493A (zh) * | 2018-08-01 | 2018-12-28 | 东北大学 | 一种基于对话机器人的智能购房助手 |
CN109145114A (zh) * | 2018-08-29 | 2019-01-04 | 电子科技大学 | 基于Kleinberg在线状态机的社交网络事件检测方法 |
CN109145114B (zh) * | 2018-08-29 | 2021-08-03 | 电子科技大学 | 基于Kleinberg在线状态机的社交网络事件检测方法 |
CN111061845A (zh) * | 2018-10-16 | 2020-04-24 | 北京默契破冰科技有限公司 | 管理聊天室的聊天主题的方法、设备和计算机存储介质 |
CN110225207A (zh) * | 2019-04-29 | 2019-09-10 | 厦门快商通信息咨询有限公司 | 一种融合语义理解的防骚扰方法、系统、终端及存储介质 |
CN110225207B (zh) * | 2019-04-29 | 2021-08-06 | 厦门快商通信息咨询有限公司 | 一种融合语义理解的防骚扰方法、系统、终端及存储介质 |
CN110209772B (zh) * | 2019-06-17 | 2021-10-08 | 科大讯飞股份有限公司 | 一种文本处理方法、装置、设备及可读存储介质 |
CN110209772A (zh) * | 2019-06-17 | 2019-09-06 | 科大讯飞股份有限公司 | 一种文本处理方法、装置、设备及可读存储介质 |
CN111859980A (zh) * | 2020-06-16 | 2020-10-30 | 中国科学院自动化研究所 | 讽刺类型的文本识别方法、装置、设备及计算机可读介质 |
CN111859980B (zh) * | 2020-06-16 | 2024-04-09 | 中国科学院自动化研究所 | 讽刺类型的文本识别方法、装置、设备及计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103226580B (zh) | 2016-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103226580B (zh) | 一种面向交互文本的话题识别方法 | |
Zhang et al. | Irony detection via sentiment-based transfer learning | |
Ren et al. | Context-augmented convolutional neural networks for twitter sarcasm detection | |
Sahu et al. | Sentiment analysis of movie reviews: A study on feature selection & classification algorithms | |
Saif et al. | Alleviating data sparsity for twitter sentiment analysis | |
CN101599071B (zh) | 对话文本主题的自动提取方法 | |
Hamdan et al. | Experiments with DBpedia, WordNet and SentiWordNet as resources for sentiment analysis in micro-blogging | |
Ahmadvand et al. | Contextual dialogue act classification for open-domain conversational agents | |
Madabushi et al. | CxGBERT: BERT meets construction grammar | |
Huang et al. | A topic BiLSTM model for sentiment classification | |
Zhang et al. | Short text classification based on feature extension using the n-gram model | |
CN102411611A (zh) | 一种面向即时交互文本的事件识别与跟踪方法 | |
CN110175221A (zh) | 利用词向量结合机器学习的垃圾短信识别方法 | |
Khan et al. | Genetic semantic graph approach for multi-document abstractive summarization | |
Chang et al. | A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING. | |
Ke et al. | A novel approach for cantonese rumor detection based on deep neural network | |
Vychegzhanin et al. | A new method for stance detection based on feature selection techniques and ensembles of classifiers | |
Fei et al. | Sentiment word identification using the maximum entropy model | |
Hussein et al. | NLP_Passau at SemEval-2020 Task 12: Multilingual neural network for offensive language detection in English, Danish and Turkish | |
Qu et al. | Emotion Classification for Spanish with XLM-RoBERTa and TextCNN. | |
Wu et al. | A text category detection and information extraction algorithm with deep learning | |
Shi et al. | Attention-based bidirectional hierarchical LSTM networks for text semantic classification | |
Lin et al. | Multilingual text classification for dravidian languages | |
Chen et al. | A topic detection method based on Semantic Dependency Distance and PLSA | |
Alharahseheh et al. | A survey on textual entailment: Benchmarks, approaches and applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160330 Termination date: 20210402 |