CN102663123B - 基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统 - Google Patents
基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统 Download PDFInfo
- Publication number
- CN102663123B CN102663123B CN201210118461.XA CN201210118461A CN102663123B CN 102663123 B CN102663123 B CN 102663123B CN 201210118461 A CN201210118461 A CN 201210118461A CN 102663123 B CN102663123 B CN 102663123B
- Authority
- CN
- China
- Prior art keywords
- attribute
- pseudo
- seed
- context
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Abstract
基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统,涉及信息检索技术领域,具体涉及语义检索技术。本发明解决了现有基于上下文相似度和查询日志的语义属性词自动识别方法存在的人工介入程度高、种子属性上下文分布和语料中潜在属性词不匹配的问题。本发明首先根据待检索的语义类信息过滤查询日志提取伪种子属性;同时,根据待检索的语义类遍历检索日志生成候选属性或伪种子属性及其上下文候选数据的集合;并根据获得的候选属性或伪种子属性及其全部上下文构建属性-上下文图;最后采用基于随机漫步的权重传播算法计算所有候选属性的权重,并根据所述权重排序,抽取前Y个候选属性作为待检索的语义类对应的语义属性。
Description
技术领域
本发明涉及信息检索技术领域,具体涉及语义检索技术。本发明旨在从查询日志中自动识别命名实体的属性词,其结果可以作为一种知识库应用于检索过程中的查询推荐、词义消歧、结果重排序等子任务。
背景技术
语义检索是一种新兴的网页检索需求。万维网的丰富内容中蕴含着大量的语义知识,而深入挖掘这些知识,将使得现有的基于关键词的网页检索系统朝着“语义化”的方向转变。虽然基于现有计算机技术对自然语言充分理解还不现实,现有工作对万维网语义信息挖掘得并不充分,但是依然有相当数量的网页检索应用可以从较易挖掘的语义知识中获益,语义属性即为其中一种。
语义属性描述了给定实体所具备的基本性质,例如“首都”是“中国”的属性、“价格”是“佳能5D MarkII”(一种数码相机)的属性,等等。严格地说,这种语义属性一般附着于一个更加完整的语义类,而不仅仅是某个单独个体。所谓语义类是一个名实体的集合,由若干共享共一个上下位关系的名实体构成。例如“国家”这个语义类中包含“中国”、“美国”、“俄罗斯”等。也就是说,语义属性抽取的研究主要关注一类实体所共有的属性。例如“国家”的属性包括“首都”、“人口”、“面积”等等。
在具体技术手段上,语义属性词的自动识别(也称为语义属性自动抽取,本申请中也常使用这种说法)的现有手段一般是根据事先给定的少量“种子”属性,对其所处的上下文建立模型。而后,对于处于相似上下文中的词语,根据其上下文与种子属性的上下文间的相似度,对这些词语进行筛选。最后,选取列表中的前N个词语作为语义属性词的输出结果。研究表明,这种基于上下文相似度的方法具有一定自由度和自适应性,且依赖的指导信息更少。
查询日志作为语义属性词自动识别的一个新知识源,近年来受到较多的关注,例如:文献[1]:Pasca M.2007.Organizing and searching the World Wide Web of facts-step two:harnessing the wisdom of the crowds.In Proceedings ofthe 16th International World Wide WebConference.101-110;文献[2]:Pasca M.and Durme B.2007.What you seek is what you get:extraction of class attributes from query logs.In Proceedings ofthe 20th International JointConference on Artificial Intelligence.2832-2837;文献[5]:Pasca M.,Alfonseca E,Robledo-Arnuncio E,Martin-Brualla R.,and Hall K.2010.The role of query sessions inextracting instance attributes from Web search queries.In Proceedings ofthe 32nd EuropeanConference on Information Retrieval.62-74;文献[6]:Alfonseca E,Pasca M.,andRobledo-Arnuncio E.2010.Acquisition of instance attributes via labeled and related instances.InProceedings ofthe 33rd Annual International A CM SIGIR Conference onResearch andDevelopment in Information Retrieval.58-65;文献[7]:Pasca M.and Durme B.2008.Weakly-supervised acquisition of open-domain classes and class attributes from Web documentsand query logs.In The 46th Annual Meeting ofthe Association for Computational Linguistics.19-27等。其中,文献[1](题名译文:在WWW网络中组织与检索事件-第二步:驾驭群体智能)指出,查询日志中的查询文本蕴含着用户的既有知识。当用户需要获取新知识的时候,会利用这些知识来构造查询。具体到语义属性抽取工作上,当用户想要知道某个实体的某项属性,例如某种疾病的“症状”的时候,必然会构造形如“某疾病症状”的查询。如果可以从大量用户提交的查询文本中收集这样的知识,那么就能构造出一个基于搜索用户群体知识的语义属性库。
当前,基于上下文相似度方法以及查询日志的语义属性抽取方法主要面临两个问题需要解决:
第一,种子属性的选取需要人工介入。基于上下文相似度的语义属性抽取需要人工提供至少一个种子属性作为指导,而种子属性越多,抽取的效果就越好例如,文献[1]所介绍。但是,对于大量的语义类,尤其是未知的语义类,为其中的每一个都赋予种子属性事实上并不现实,因此该方法的实用价值大大降低。
第二,种子属性的上下文分布不一定能和语料中其他属性词的上下文分布达到最优的匹配。也就是说,对某一个语义类而言,人工提供的种子属性,不一定是语料中最有代表性的语义属性词,因此其方法的性能也受到明显的制约。
发明内容
本发明为了解决现有基于上下文相似度和查询日志的语义属性词自动识别方法存在的人工介入程度高、种子属性上下文分布和语料中潜在属性词不匹配的问题,本申请提出了一种基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统。
基于伪种子属性和随机漫步排序的语义属性自动抽取方法的过程为:
首先,根据待检索的语义类信息过滤查询日志,提取伪种子属性,获得伪种子属性集合S,该伪种子属性集合中的伪种子属性的权重作为随机漫步算法的初始状态参数;
同时,根据待检索的语义类遍历检索日志,生成候选属性或伪种子属性及其上下文候选数据的集合;并根据获得的候选属性或伪种子属性及其全部上下文,构建属性-上下文图;
然后,根据伪种子属性以及属性上下文图,采用基于随机漫步的权重传播算法计算所有候选属性的权重,然后根据所述权重对所有候选属性进行排序,然后抽取前Y个候选属性作为待检索的语义类对应的语义属性,所述Y为正整数。
实现上述方法的基于伪种子属性和随机漫步排序的语义属性自动抽取系统包括查询日志存储单元、伪种子属性抽取单元、候选属性排序单元、候选属性生成和上下文统计单元、候选属性/上下文数据库以及属性/上下文图构建单元,其中:
查询检索日志存储单元,用于存储查询检索日志;
伪种子属性抽取单元,用于根据外部输入的待检索的语义类信息,过滤查询日志,进而提取伪种子属性;还用于将提取的伪种子属性发送给候选属性排序单元;
候选属性排序单元,用于根据伪种子属性和属性/上下文图,采用基于随机漫步的权重传播算法计算所有候选属性的权重,并根据所述权重对所有候选属性进行排序,还用于将排序结果作为待检索的语义类的属性词列表输出;
候选属性生成和上下文统计单元,用于根据待检索的语义类遍历查询日志,生成候选属性或伪种子属性及其上下文候选数据的集合;还用于将所述候选属性或伪种子属性及其上下文候选数据的集合存储至候选属性/上下文数据库;
候选属性/上下文数据库,用于存储候选属性以及上下文的数据;
属性/上下文图构建单元,用于根据获得的候选属性或伪种子属性的全部上下文,构建属性-上下文图。
图1展示了本发明提出的语义属性词抽取系统的架构。系统的输入为给定的语义类以及查询日志;系统的输出为对应输入语义类的属性词列表。整个系统由候选属性生成和上下文统计、伪种子属性抽取、属性/下文图构建,以及随机漫步排序等四个主要模块构成。
本发明所述的系统能够实现不依赖、或最小程度地依赖人工指导而实现语义属性词自动识别。在“最小程度依赖”的情况下,人工指导仅止于用户可以选择在系统层面上提供个别简单的语义属性抽取模式。本发明所述的系统能够有效提高语义属性词的识别速度和准确度。
附图说明
图1是本发明所述的基于伪种子属性和随机漫步排序的语义属性词自动识别系统的结构示意图。
图2是随机漫步算法中权重传播过程的示意图。
图3是随机漫步算法中属性节点权重更新过程的示意图。
图4表示四种组合系统在22个语义类上的平均PrecisionK曲线,其中,曲线A1表示采用相似度方法结合人工种子对应的平均PrecisionK曲线;曲线A2表示采用相似度方法结合伪种子对应的平均PrecisionK曲线;曲线A3表示采用权重传播方法结合人工种子对应的平均PrecisionK曲线,曲线A4表示本发明所述的采用权重传播方法结合伪种子对应的平均PrecisionK曲线。
图5表示采用相似度计算法结合人工种子的方法在22个语义类上的平均PrecisionK曲线,其中,曲线B1表示阈值为10时对应的平均PrecisionK曲线;曲线B2表示阈值为20时对应的平均PrecisionK曲线;曲线B3表示阈值为50时对应的平均PrecisionK曲线;曲线B4表示阈值为100时对应的平均PrecisionK曲线。
图6表示采用相似度计算法结合伪种子的方法在22个语义类上的平均PrecisionK曲线,其中,曲线C1表示阈值为10时对应的平均PrecisionK曲线;曲线C2表示阈值为20时对应的平均PrecisionK曲线;曲线C3表示阈值为50时对应的平均PrecisionK曲线;曲线C4表示阈值为100时对应的平均PrecisionK曲线。
图7表示采用权重传播法结合人工种子的方法在22个语义类上的平均PrecisionK曲线,其中,曲线D1表示阈值为10时对应的平均PrecisionK曲线;曲线D2表示阈值为20时对应的平均PrecisionK曲线;曲线D3表示阈值为50时对应的平均PrecisionK曲线;曲线D4表示阈值为100时对应的平均PrecisionK曲线。
图8表示采用权重传播法结合伪种子的方法在22个语义类上的平均PrecisionK曲线,其中,曲线E1表示阈值为10时对应的平均PrecisionK曲线;曲线E2表示阈值为20时对应的平均PrecisionK曲线;曲线E3表示阈值为50时对应的平均PrecisionK曲线;曲线E4表示阈值为100时对应的平均PrecisionK曲线。
具体实施方式
具体实施方式一、本实施方式所述的基于伪种子属性和随机漫步排序的语义属性自动抽取方法的过程为:
首先,根据待检索的语义类信息过滤查询日志,提取伪种子属性,获得伪种子属性集合S,该伪种子属性集合中的伪种子属性的权重作为随机漫步算法的初始状态参数;
同时,根据待检索的语义类遍历检索日志,生成候选属性或伪种子属性及其上下文候选数据的集合;并根据获得的候选属性或伪种子属性及其全部上下文,构建属性-上下文图;
然后,根据伪种子属性以及属性上下文图,采用基于随机漫步的权重传播算法计算所有候选属性的权重,然后根据所述权重对所有候选属性进行排序,然后抽取前Y个候选属性作为待检索的语义类对应的语义属性,所述Y为正整数。
具体实施方式二、本实施方式是对具体实施方式一所述的基于伪种子属性和随机漫步排序的语义属性自动抽取方法的进一步限定,本实施方式中,根据伪种子属性以及属性上下文图,采用基于随机漫步的权重传播算法计算所有候选属性的权重的过程中,将伪种子属性节点拥有的权重作为权重传播算法计算过程中的初始状态下的权重,例如:所述权重为1。
具体实施方式三、本实施方式是对具体实施方式一所述的基于伪种子属性和随机漫步排序的语义属性自动抽取方法的进一步限定,本实施方式中,基于随机漫步的权重传播算法中,权重传播在随机漫步的过程中传播过程为:
第一步,从候选属性节点漫步至与该候选属性对应的上下文节点:
公式中,n为根据待检索的语义类信息获得的所有候选属性的总数,m为获得的上下文的总数,φ1(i)表示t=1时刻第i个上下文的得分,w(vk,ui)表示第i个候选属性节点ui与第k个上下文节点vk之间的共现强度,ψ0(k)表示t=0时刻第k个候选属性的得分;
第二步,从上下文节点漫步回属性节点:
公式中,ψ1(j)表示t=1时刻第j个候选属性的得分,w(uk,vj)表示与第k个上下文节点vk和第i个候选属性节点ui之间的共现强度,φ1(k)表示t=1时刻第k个上下文的得分;
上述过程参见图2和3所示,其中图2表示第一步结束后权重传播的过程,其中黑色节点为种子属性节点;图3表示第二步中属性节点的权重更新过程。
根据ψ1(j)获得候选属性的得分向量ψ1,其中,ψ1的第j个分量即为ψ1(j),代表第j个属性的得分。
具体实施方式四、本实施方式是对具体实施方式一所述的基于伪种子属性和随机漫步排序的语义属性自动抽取方法的进一步限定,本实施方式中,在遍历查询日志的过程中,采用如下列模式之一的模式进行查询:
[实例][上下文][候选属性或伪种子属性]
[实例][候选属性或伪种子属性][上下文]
[实例][上下文-1][候选属性或伪种子属性][上下文-2]
[实例][候选属性或伪种子属性]
在满足上述模式之一的查询中,用占位符“-”表示实际查询中的[实例]以及[候选属性或伪种子属性],形成对应[候选属性或伪种子属性]上下文,与上述四种模式对应的上下文形式分别是:
“-[上下文]-”
“--[上下文]”
“-[上下文]-[上下文]”,
“--”。
具体实施方式五、本实施方式是对具体实施方式一所述的基于伪种子属性和随机漫步排序的语义属性自动抽取方法的进一步限定,本实施方式中,所述候选属性生成和上下文统计单元根据待检索的语义类遍历查询日志,生成候选属性或伪种子属性及其上下文候选数据的集合的过程为:
在第一次遍历查询日志的过程中,对每个以语义类中以某个实例开头且频率大于θ1的实例进行查询,然后从查询文本中除去该实例,剩余部分即为该语义类对应的候选属性,最后,保留该所有候选属性中频率大于θ2次的候选属性。参数θ1和θ2的引入目的在于控制总计算量,以及过滤低频的、参考意义不大的查询或候选属性,θ1和θ2的取值范围在1~10之间。
同时,记录由抽取模式“实例的X”抽取出的伪种子属性及其频率,X表示……;对每个语义类,保留频率最高的5个伪种子属性,当抽取模式“实例的X”抽出的伪种子属性不足5个时,用频率最高的候选属性补足;
再次遍历查询日志,寻找所有同时包含一个语义类实例以及一个候选属性或伪种子属性的查询;而后,将该语义类实例及候选属性或伪种子属性从查询文本中除去,剩余的部分即构成该候选属性或伪种子属性的一个上下文。
具体实施方式六、本实施方式是对具体实施方式一所述的基于伪种子属性和随机漫步排序的语义属性自动抽取方法的进一步说明,本实施方式中,所述属性/上下文图构建单元根据获得的候选属性或伪种子属性的全部上下文,构建属性-上下文图的过程为:
根据获得的一个候选属性或伪种子属性的全部上下文,为该候选属性或伪种子属性建立一个上下文向量,所述上下文向量的每个分量代表一个上下文,而分量的值定义为候选属性或伪种子属性和该上下文的共现次数;然后,根据所述候选属性或伪种子属性及其对应的上下文向量构建属性-上下文图G=(U,E,V),U是属性节点u的集合,每个属性节点u的邻居节点全部是上下文节点v;V是上下文节点v的集合,每个上下文节点v的邻居全部是属性节点,E为带权边(u,v)的集合。
权值可根据实际情况灵活设置,其大小应与对应的属性/上下文的共现强度呈正相关关系,亦即共现强度愈强,对应的边权重越高。共现强度可以用共现次数来表示。
具体实施方式七、参见图1所示说明本实施方式。本实施方式所述的基于伪种子属性和随机漫步排序的语义属性自动抽取系统包括查询日志存储单元、伪种子属性抽取单元、候选属性排序单元、候选属性生成和上下文统计单元、候选属性/上下文数据库以及属性/上下文图构建单元,其中:
查询检索日志存储单元,用于存储查询检索日志;
伪种子属性抽取单元,用于根据外部输入的待检索的语义类信息,过滤查询日志,进而提取伪种子属性;还用于将提取的伪种子属性发送给候选属性排序单元;
候选属性排序单元,用于根据伪种子属性和属性/上下文图,采用基于随机漫步的权重传播算法计算所有候选属性的权重,并根据所述权重对所有候选属性进行排序,还用于将排序结果作为待检索的语义类的属性词列表输出;
候选属性生成和上下文统计单元,用于根据待检索的语义类遍历查询日志,生成候选属性或伪种子属性及其上下文候选数据的集合;还用于将所述候选属性或伪种子属性及其上下文候选数据的集合存储至候选属性/上下文数据库;
候选属性/上下文数据库,用于存储候选属性以及上下文的数据;
属性/上下文图构建单元,用于根据获得的候选属性或伪种子属性的全部上下文,构建属性-上下文图。
具体实施方式八、本实施方式是对具体实施方式七所述的基于伪种子属性和随机漫步排序的语义属性自动抽取系统的进一步说明,本实施方式中,伪种子属性抽取单元用于根据该语义类,过滤查询日志,进而提取伪种子属性的方法为:在过滤查询日志过程中,只保留以该语义类的某个实例开头的查询,并保存这种查询中除去语义类实例后的剩余部分为候选属性,并根据简单的匹配模式提取伪种子属性;所述实例是指元素。
具体实施方式九、本实施方式是对具体实施方式七所述的基于伪种子属性和随机漫步排序的语义属性自动抽取系统的进一步说明,本实施方式中,所述候选属性排序单元根据伪种子属性和属性/上下文图,采用基于随机漫步的权重传播算法计算所有候选属性的权重,是指根据权重传播在随机漫步的过程中传播过程获得每个候选属性的向量ψ1。
本发明与现有方法的不同在于:第一,本发明所采用的种子属性(伪种子属性)由固定的抽取模式自动抽取,无需人工干预;第二,本发明采用了基于随机漫步的权重传播算法对候选属性进行排序。
通过使用伪种子属性,本发明最大程度地降低了构造指导信息所需的人工开销,这在大规模数据的处理过程中是很重要的。同时,通过“具体实施方式”部分中的性能分析结果,可以看到伪种子属性的上下文分布和语料中其他属性词的上下文分布之间的匹配性要好于人工提供的种子属性,这在一定程度上缓解了“种子属性的上下文分布不一定能和语料中其他属性词的上下文分布达到最优的匹配”这一问题。另一方面,实验结果还表明本发明提出的基于随机漫步的权重传播算法能够进一步减轻种子属性和候选属性之间上下文分布差异的负面影响,在使用人工种子属性、伪种子属性时,其性能均好于基于上下文相似度的现有候选属性排序方法。
具体实施方式十、本实施方式是对具体实施方式一所述的基于伪种子属性和随机漫步排序的语义属性自动抽取方法的举例说明:
根据随机漫步排序方法对候选属性进行排序。这里给出权值函数和属性节点初始权重分布的一种实现。
设|U|=n,|V|=m,ui∈U,vj∈V,则权值函数w(·,·)的定义如下:
其中Oij标识ui和vj的共现次数。显然Oij=Oji,且每个节点的出度和为1。
为了实现候选属性的排序,我们采用随机漫步的方法来传播权重。设记录t时刻属性节点的权重,给定伪种子属性集合S,定义初始属性节点权重为:
性能分析
在上述设置下,下文通过实验,根据事先给定的若干个语义类上语义属性抽取效果来比较本发明提出的系统与已有系统的性能。实验采用来自维基百科的22个人工编辑的语义类,语义类名称及示例元素如表1所示:
表1实验中语义类及元素示例
实验采用的查询日志为为期三天的来自一主要中文搜索引擎的查询日志,独立查询约12亿个。
实践中,对每个语义类抽取至多N个属性,由人工给出0、0.5、1三档评价,评价示例如表2所示,其中粗体字代表语义类名。最终性能计算方法采用PrecsionK、MAP以及松弛MAP(0.5分被看作1分)。
表2人工评价示例
对一个语义类而言,属性抽取结果的PrecisionK指标定义为:
其中1≤K≤N,Score(ak)表示抽取结果中第k个属性的人工评分。
另一方面,属性抽取结果的MAP指标定义为:
其中C为语义类总数,取22;Ai为第i个语义类的属性抽取结果集合,最多包含N个属性;当且仅当第i个语义类的第k个属性aik的人工评分等于1时,I(Score(aik))为1,否则I(Score(aik))为0。如果放宽这一限制,使得I(Score(aik))在aik大于零时取1,否则为0,则(6)式就变为一个更加宽松的指标,我们称其为松弛MAP指标。
表3四种组合系统的MAP/松弛MAP指标
人工种子 | 伪种子 | |
相似度计算法 | 0.343/0.433 | 0.383/0.471 |
权重传播法 | 0.431/0.511 | 0.443/0.526 |
要比较本发明提出的系统与传统方法的性能,需要考虑两个方面:(1)伪种子属性相对于传统方法中人工种子属性对整体性能的影响;以及(2)权重传播方法相对于传统方法中相似度计算法对整体性能的影响。
为了对比伪种子属性和人工种子属性,每个语义类另由人工给出5个种子属性。传统方法中的相似度计算排序方法直接计算种子属性与候选属性的归一化上下文向量(如果有多个种子属性,将种子属性的上下文向量取平均,从而形成一个向量)间的相似度,根据计算结果,与种子属性愈接近的候选属性,其排序愈靠前。在一个当前最优的属性抽取系统中,向量间相似度的计算方法采用了Jensen-Shannon距离。在下面的实验中,我们亦采用了该相似度度量。
图4显示了传统的相似度计算法和本发明提出的权重传播法在使用人工种子或伪种子时,在22个语义类上的平均PrecsionK曲线,图中四条曲线代表四种不同的排序方法/种子属性的组合方式。表3显示了上述四种组合的MAP与松弛MAP指标。注意“相似度计算法+人工种子”这一组合代表了当前的一个最优的语义属性抽取系统。从图4可以看到,伪种子属性能够有效地提升基于相似度的排序方法的性能,意味着伪种子属性所代表的上下文分布与语料中的其他语义属性的上下文分布更加匹配。另外基于随机漫步的权重传播方法一致地优于基于相似度的排序方法,而且在人工种子属性上体现出较强的稳定性,说明其对上下文分布的差异并不敏感。
由于上下文相似度的统计本质,使其对低频候选属性及上下文的敏感度大,因此,为了减轻数据稀疏对上下文相似度的影响,分别在排除频率低于一定阈值T的候选属性之后,获得相应的四种组合系统的PrecisionK曲线。图5、6、7和8分别是四种组合系统中,阈值分别取值为10、20、50和100情况下获得的曲线。每个图示中的四条曲线分别代表取上述四种不同阈值时的性能变化趋势。表4所示为这四种情况下系统的MAP/松弛MAP指标。
表4四种组合系统在不同候选属性频率阈值下的MAP/松弛MAP指标
阈值 | 10 | 20 | 50 | 100 |
相似度计算法+人工种子 | 0.343/0.433 | 0.371/0.463 | 0.373/0.470 | 0.304/0.378 |
相似度计算法+伪种子 | 0.383/0.471 | 0.385/0.469 | 0.388/0.473 | 0.344/0.418 |
权重传播法+人工种子 | 0.431/0.511 | 0.419/0.498 | 0.391/0.466 | 0.340/0.403 |
权重传播法+伪种子 | 0.443/0.526 | 0.428/0.507 | 0.399/0.477 | 0.347/0.416 |
根据图5-8以及表4可以获知,当排除适量的低频候选属性后,基于相似度的排序方法性能有一定的提升,而权重传播方法的性能下降。这表明低频候选属性的确影响了基于相似度的排序方法的工作,而权重传播方法能够充分利用低频候选属性中蕴含的信息。而且,表5显示了在使用优化的候选频率阈值时各个系统的性能比较,可以看出,即使采用了优化的阈值,基于相似度的排序方法仍然不如权重传播方法性能优越。
表5使用优化的候选频率阈值时各系统的评价PrecisionK比较
rank K | 1 | 5 | 10 | 20 | 50 |
相似度计算法+人工种子 | 0.886 | 0.855 | 0.807 | 0.699 | 0.550 |
相似度计算法+伪种子 | 0.932 | 0.845 | 0.795 | 0.702 | 0.555 |
权重传播法+人工种子 | 0.955 | 0.918 | 0.809 | 0.715 | 0.546 |
权重传播法+伪种子 | 0.909 | 0.891 | 0.814 | 0.735 | 0.616 |
二、语义属性词在网络信息检索中的应用
在网络信息检索领域中,属性词有着广泛的应用前景。下面就检索过程中的三个子任务:查询推荐、词义消歧,以及结果重排序来说明语义属性的在网络信息检索中的应用。
1.查询推荐
语义属性信息可以直接服务于查询推荐任务。将预先抽取的语义属性数据库作为推荐系统的额外输入,当查询词是命名实体时,可以检索其语义属性,并生成相应的推荐查询。传统的查询推荐是基于查询频率工作的,一般仅推荐与原始查询相关的较高频的查询;而使用语义属性进行查询推荐可以从新的角度丰富查询推荐结果。例如,一个用户若意图了解关于“袋鼠”的有关知识,则其可能直接将“袋鼠”作为查询,也可能构造其感兴趣的某个侧面,如“袋鼠习性”作为查询。无论哪种情况,如果推荐系统掌握了“袋鼠”与“动物”语义类之间的成员关系以及“动物”的一系列属性词,就可以有针对性地向用户推荐更多有关原始查询的新查询,有效地提示用户有关“袋鼠”的主要信息点(如原产国、平均寿命、食用价值,等等),尤其是用户当前未知的新信息点。
2.词义消歧
在检索过程中,系统经常需要面对歧义的查询。但是,当歧义查询词与其属性词一起出现在查询文本中时,语义属性信息则可以帮助检索系统识别查询的真正含义。具体地,对形如“名实体+属性”的查询,检索事先生成的语义属性数据,如果命中,那么可以根据语义属性信息中的语义类归属情况判断查询中名实体的含义。该消歧过程实际上是给定语义类实例及其属性,反查语义类名的应用情况。例如,当用户输入查询“苹果价格”时,检索系统并不清楚该查询是针对“苹果手机”,还是“水果”;但如果用户随即输入“苹果营养价值”,那么根据事先收集的语义属性资源(若命中),基本可以确定当前用户的信息需求是围绕“水果”的;于是,如果短时间内用户再次输入查询“苹果价格”,检索系统即可重点返回关于“水果”的价格信息。
3.结果重排序
对于形如“名实体+属性”的查询,如果能够根据语义属性数据,正确识别名实体的后续词为其语义属性词,那么很自然地该属性词在文档排序过程中应该发挥更重要的作用。根据语义属性信息指导检索结果的重排序,可以使得检索结果更加贴近用户的查询意图。例如,对于查询“Intel i7主频资料”,如果能够识别“主频”乃是“Intel i7”的一个属性,则检索系统可以降低查询词“资料”的权重,而另一方面提高“Intel i7主频”两个查询词的权重,以得到更加有针对性的检索结果。
Claims (9)
1.基于伪种子属性和随机漫步排序的语义属性自动抽取方法,其特征在于该方法的过程为:
首先,根据待检索的语义类信息过滤查询日志,提取伪种子属性,获得伪种子属性集合S,该伪种子属性集合中的伪种子属性的权重作为随机漫步算法的初始状态参数;
同时,根据待检索的语义类遍历检索日志,生成候选属性或伪种子属性及其上下文候选数据的集合;并根据获得的候选属性或伪种子属性及其全部上下文,构建属性/上下文图;
然后,根据伪种子属性以及属性/上下文图,采用基于随机漫步的权重传播算法计算所有候选属性的权重,然后根据所述权重对所有候选属性进行排序,然后抽取前Y个候选属性作为待检索的语义类对应的语义属性,所述Y为正整数。
2.根据权利要求1所述的基于伪种子属性和随机漫步排序的语义属性自动抽取方法,其特征在于,根据伪种子属性以及属性/上下文图,采用基于随机漫步的权重传播算法计算所有候选属性的权重的过程中,将伪种子属性节点拥有的权重作为权重传播算法计算过程中的初始状态下的权重,所述权重为1。
3.根据权利要求1所述的基于伪种子属性和随机漫步排序的语义属性自动抽取方法,其特征在于,基于随机漫步的权重传播算法中,权重传播在随机漫步的过程中传播过程为:
第一步,从候选属性节点漫步至与该候选属性对应的上下文节点:
公式中,n为根据待检索的语义类信息获得的所有候选属性的总数,m为获得的上下文的总数,φ1(i)表示t=1时刻第i个上下文的得分,w(vk,ui)表示第i个候选属性节点ui与第k个上下文节点vk之间的共现强度,ψ0(k)表示t=0时刻第k个候选属性的得分;
第二步,从上下文节点漫步回属性节点:
公式中,ψ1(j)表示t=1时刻第j个候选属性的得分,w(uk,vj)表示与第j个上下文节点vj和第k个候选属性节点uk之间的共现强度,φ1(k)表示t=1时刻第k个上下文的得分。
4.根据权利要求1所述的基于伪种子属性和随机漫步排序的语义属性自动抽取方法,其特征在于,在遍历查询日志的过程中,采用如下列模式之一的模式进行查询:
[实例][上下文][候选属性或伪种子属性]
[实例][候选属性或伪种子属性][上下文]
[实例][上下文-1][候选属性或伪种子属性][上下文-2]
[实例][候选属性或伪种子属性]
在满足上述模式之一的查询中,用占位符“-”表示实际查询中的[实例]以及[候选属性或伪种子属性],形成对应[候选属性或伪种子属性]上下文,与上述四种模式对应的上下文形式分别是:
“-[上下文]-”
“--[上下文]”
“-[上下文]-[上下文]”,
“--”。
5.根据权利要求1所述的基于伪种子属性和随机漫步排序的语义属性自动抽取方法,其特征在于,所述候选属性生成和上下文统计单元根据待检索的语义类遍历查询日志,生成候选属性或伪种子属性及其上下文候选数据的集合的过程为:
在第一次遍历查询日志的过程中,对每个以语义类中以某个实例开头且频率大于θ1的实例进行查询,然后从查询文本中除去该实例,剩余部分即为该语义类对应的候选属性,最后,保留该所有候选属性中频率大于θ2次的候选属性。参数θ1和θ2的引入目的在于控制总计算量,以及过滤低频的、参考意义不大的查询或候选属性,θ1和θ2的取值范围在1~10之间。
同时,记录由抽取模式“实例的X”抽取出的伪种子属性及其频率,X表示……;对每个语义类,保留频率最高的5个伪种子属性,当抽取模式“实例的X”抽出的伪种子属性不足5个时,用频率最高的候选属性补足;
再次遍历查询日志,寻找所有同时包含一个语义类实例以及一个候选属性或伪种子属性的查询;而后,将该语义类实例及候选属性或伪种子属性从查询文本中除去,剩余的部分即构成该候选属性或伪种子属性的一个上下文。
6.根据权利要求1所述的基于伪种子属性和随机漫步排序的语义属性自动抽取方法,其特征在于,所述属性/上下文图构建单元根据获得的候选属性或伪种子属性的全部上下文,构建属性/上下文图的过程为:
根据获得的一个候选属性或伪种子属性的全部上下文,为该候选属性或伪种子属性建立一个上下文向量,所述上下文向量的每个分量代表一个上下文,而分量的值定义为候选属性或伪种子属性和该上下文的共现次数;然后,根据所述候选属性或伪种子属性及其对应的上下文向量构建属性/上下文图G=(U,E,V),U是属性节点u的集合,每个属性节点u的邻居节点全部是上下文节点v;V是上下文节点v的集合,每个上下文节点v的邻居全部是属性节点,E为带权边(u,v)的集合。
7.基于伪种子属性和随机漫步排序的语义属性自动抽取系统,其特征在于该系统包括查询日志存储单元、伪种子属性抽取单元、候选属性排序单元、候选属性生成和上下文统计单元、候选属性/上下文数据库以及属性/上下文图构建单元,其中:
查询检索日志存储单元,用于存储查询检索日志;
伪种子属性抽取单元,用于根据外部输入的待检索的语义类信息,过滤查询日志,进而提取伪种子属性;还用于将提取的伪种子属性发送给候选属性排序单元;
候选属性排序单元,用于根据伪种子属性和属性/上下文图,采用基于随机漫步的权重传播算法计算所有候选属性的权重,并根据所述权重对所有候选属性进行排序,还用于将排序结果作为待检索的语义类的属性词列表输出;
候选属性生成和上下文统计单元,用于根据待检索的语义类遍历查询日志,生成候选属性或伪种子属性及其上下文候选数据的集合;还用于将所述候选属性或伪种子属性及其上下文候选数据的集合存储至候选属性/上下文数据库;
候选属性/上下文数据库,用于存储候选属性以及上下文的数据;
属性/上下文图构建单元,用于根据获得的候选属性或伪种子属性的全部上下文,构建属性/上下文图。
8.根据权利要求7所述的基于伪种子属性和随机漫步排序的语义属性自动抽取系统,其特征在于,伪种子属性抽取单元用于根据该语义类,过滤查询日志,进而提取伪种子属性的方法为:在过滤查询日志过程中,只保留以该语义类的某个实例开头的查询,并保存这种查询中除去语义类实例后的剩余部分为候选属性,并根据简单的匹配模式提取伪种子属性;所述实例是指元素。
9.根据权利要求7所述的基于伪种子属性和随机漫步排序的语义属性自动抽取系统,其特征在于,所述候选属性排序单元根据伪种子属性和属性/上下文图,采用基于随机漫步的权重传播算法计算所有候选属性的权重,是指根据权重传播在随机漫步的过程中传播过程获得每个候选属性的向量ψ1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210118461.XA CN102663123B (zh) | 2012-04-20 | 2012-04-20 | 基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210118461.XA CN102663123B (zh) | 2012-04-20 | 2012-04-20 | 基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102663123A CN102663123A (zh) | 2012-09-12 |
CN102663123B true CN102663123B (zh) | 2014-09-03 |
Family
ID=46772614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210118461.XA Active CN102663123B (zh) | 2012-04-20 | 2012-04-20 | 基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102663123B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108897843B (zh) * | 2018-06-27 | 2021-12-24 | 吉安职业技术学院 | 一种基于中心法的文本自适应推荐方法 |
JP7055764B2 (ja) * | 2019-03-13 | 2022-04-18 | 株式会社東芝 | 対話制御システム、対話制御方法及びプログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102254014A (zh) * | 2011-07-21 | 2011-11-23 | 华中科技大学 | 一种网页特征自适应的信息抽取方法 |
-
2012
- 2012-04-20 CN CN201210118461.XA patent/CN102663123B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102254014A (zh) * | 2011-07-21 | 2011-11-23 | 华中科技大学 | 一种网页特征自适应的信息抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102663123A (zh) | 2012-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111737495B (zh) | 基于领域自分类的中高端人才智能推荐系统及其方法 | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答系统构建方法 | |
CN110909164A (zh) | 一种基于卷积神经网络的文本增强语义分类方法及系统 | |
CN103838833A (zh) | 基于相关词语语义分析的全文检索系统 | |
US11775594B2 (en) | Method for disambiguating between authors with same name on basis of network representation and semantic representation | |
CN102597991A (zh) | 文档分析与关联系统及方法 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
Fu et al. | Bag of meta-words: A novel method to represent document for the sentiment classification | |
Martínez-Cruz et al. | Flexible queries on relational databases using fuzzy logic and ontologies | |
Halevy et al. | Discovering structure in the universe of attribute names | |
CN112559723A (zh) | 一种基于深度学习的faq检索式问答构建方法及系统 | |
Miao et al. | A dynamic financial knowledge graph based on reinforcement learning and transfer learning | |
Xun et al. | A survey on context learning | |
Abuhay et al. | Analysis of computational science papers from iccs 2001-2016 using topic modeling and graph theory | |
CN102663123B (zh) | 基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统 | |
Ramaprabha et al. | Survey on sentence similarity evaluation using deep learning | |
CN116244497A (zh) | 一种基于异质数据嵌入的跨域论文推荐方法 | |
CN112507097B (zh) | 一种提高问答系统泛化能力的方法 | |
Elhalwany et al. | Enhancements to knowledge discovery framework of sophia textual case-based reasoning | |
Kang et al. | TDN: An integrated representation learning model of knowledge graphs | |
Yuan et al. | SSF: sentence similar function based on Word2vector similar elements | |
Gjorgjevska et al. | Content engineering for state-of-the-art SEO digital strategies by using NLP and ML | |
Beck-Fernández et al. | Identification and extraction of memes represented as semantic networks from free text online forums | |
ElGindy et al. | Capturing place semantics on the geosocial web | |
Lu et al. | Overview of knowledge mapping construction technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211104 Address after: 214000 room 102-52, 2 Jiangda Science Park, No. 99 Jinxi Road, Binhu District, Wuxi City, Jiangsu Province Patentee after: Wuxi Ruiwen Technology Co.,Ltd. Address before: 150001 No. 92 West straight street, Nangang District, Heilongjiang, Harbin Patentee before: HARBIN INSTITUTE OF TECHNOLOGY |
|
TR01 | Transfer of patent right |