CN110390106A - 基于双向关联的语义消歧方法、装置、设备及存储介质 - Google Patents

基于双向关联的语义消歧方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110390106A
CN110390106A CN201910675358.7A CN201910675358A CN110390106A CN 110390106 A CN110390106 A CN 110390106A CN 201910675358 A CN201910675358 A CN 201910675358A CN 110390106 A CN110390106 A CN 110390106A
Authority
CN
China
Prior art keywords
noun
history
words
candidate
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910675358.7A
Other languages
English (en)
Other versions
CN110390106B (zh
Inventor
尹帆
聂梦妍
李子茂
帖军
郑禄
吴立锋
陈思敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South Central Minzu University
Original Assignee
South Central University for Nationalities
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South Central University for Nationalities filed Critical South Central University for Nationalities
Priority to CN201910675358.7A priority Critical patent/CN110390106B/zh
Publication of CN110390106A publication Critical patent/CN110390106A/zh
Application granted granted Critical
Publication of CN110390106B publication Critical patent/CN110390106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于双向关联的语义消歧方法、装置、设备及存储介质,所述方法包括:从待消歧文本信息中获取待消歧名词,并将所述待消歧名词添加至待消歧名词集合中;根据所述待消歧名词集合确定对应的当前候选名词信息集合;根据所述待消歧名词从所述待消歧文本信息中提取上下文语境名词,并将所述上下文语境名词添加至当前上下文语境名词集合中;根据所述当前候选名词信息集合以及所述当前上下文语境名词集合通过预设名词相关图模型得到所述当前候选名词信息集合中各个当前候选名词信息的目标相关度值;根据所述目标相关度值从所述当前候选名词信息集合中选取目标名词信息,以实现语义消歧,达到提高语义识别的准确性的目的。

Description

基于双向关联的语义消歧方法、装置、设备及存储介质
技术领域
本发明涉及语义识别技术领域,尤其涉及一种基于双向关联的语义消歧方法、装置、设备及存储介质。
背景技术
在一般情况下,在构建的实体相关图中通过随机游走算法进行消歧,但是只考虑候选实体之间的路径关联度,导致语义识别的准确性不高。
发明内容
本发明的主要目的在于提出一种基于双向关联的语义消歧方法、装置、设备及存储介质,旨在提高语义识别的准确性。
为实现上述目的,本发明提供一种基于双向关联的语义消歧方法,所述基于双向关联的语义消歧方法包括以下步骤:
从待消歧文本信息中获取待消歧名词,并将所述待消歧名词添加至待消歧名词集合中;
根据所述待消歧名词集合确定对应的当前候选名词信息集合;
根据所述待消歧名词从所述待消歧文本信息中提取上下文语境名词,并将所述上下文语境名词添加至当前上下文语境名词集合中;
根据所述当前候选名词信息集合以及所述当前上下文语境名词集合通过预设名词相关图模型得到所述当前候选名词信息集合中各个当前候选名词信息的目标相关度值;
根据所述目标相关度值从所述当前候选名词信息集合中选取目标名词信息,以实现对所述待消歧文本信息的语义消歧。
优选地,所述根据所述当前候选名词信息集合以及所述当前上下文语境名词集合通过预设名词相关图模型得到所述当前候选名词信息集合中各个候选名词的目标相关度值之前,所述方法还包括:
获取历史有歧义的名词集合以及对应的历史候选名词集合;
根据历史有歧义的名词集合以及对应的历史候选名词集合计算历史候选名词集合的流行度;
获取历史上下文语境名词集合,根据所述历史候选名词集合以及历史上下文语境名词集合计算所述历史候选名词集合的候选相似度;
根据所述流行度以及候选相似度得到所述历史候选名词集合的历史置信度;
根据所述历史置信度从所述历史候选名词集合中选取历史目标候选名词集合;
将所述历史目标候选名词集合中的各个历史目标候选名词作为预设名词相关图模型的历史顶点;
获取所述历史顶点之间的历史相关度值;
根据所述历史相关度值构建预设名词相关图模型的历史边;
根据所述历史顶点和历史边生成预设名词相关图模型。
优选地,所述根据历史有歧义的名词集合以及对应的历史候选名词集合计算历史候选名词集合的流行度,包括:
根据历史有歧义的名词集合以及对应的历史候选名词集合获取历史候选名词集合中各个历史参考候选名词的超链接数目;
根据所述历史候选名词集合以及所述超链接数目得到所述历史候选名词集合的流行度。
优选地,所述获取历史上下文语境名词集合,根据所述历史候选名词集合以及历史上下文语境名词集合计算所述历史候选名词集合的候选相似度,包括:
获取历史上下文语境名词集合,根据所述历史上下文语境名词集合得到语境向量信息;
根据所述历史候选名词集合得到候选向量信息;
根据所述语境向量信息以及所述候选向量信息得到候选相似度。
优选地,所述获取所述历史顶点之间的历史相关度值,包括:
获取所述历史顶点的文本向量信息,根据所述文本向量信息得到文本相似度;
获取历史顶点之间的前项路径长度反比与反向路径长度反比;
选取所述前项路径长度反比与反向路径长度反比的平均数;
根据所述文本相似度以及所述平均数得到历史顶点之间的历史权重,将所述历史权重作为历史相关度值。
优选地,所述根据所述当前候选名词信息集合以及所述当前上下文语境名词集合通过预设名词相关图模型得到所述当前候选名词信息集合中各个当前候选名词信息的目标相关度值,包括:
根据所述当前候选名词信息集合以及所述当前上下文语境名词集合通过预设名词相关图模型得到当前顶点信息;
获取所述当前顶点信息中当前顶点之间的当前权重以及对应的领域信息;
根据所述当前权重以及领域信息得到带权转移概率;
将所述带权转移概率构成转移概率矩阵;
获取所述当前候选名词信息集合的当前置信度;
根据所述转移概率矩阵以及当前置信度得到目标相关度值。
优选地,所述根据所述目标相关度值从所述当前候选名词信息集合中选取目标名词信息,以实现对所述待消歧文本信息的语义消歧之后,所述方法还包括:
对所述当前置信度进行更新,判断更新后的当前置信度与所述目标相关度值之间的距离信息;
将所述距离信息满足预设条件时,将更新后的当前置信度对应的当前候选名词信息作为更新后的目标名词信息。
此外,为实现上述目的,本发明还一种基于双向关联的语义消歧装置,所述基于双向关联的语义消歧装置包括:
获取模块,用于从待消歧文本信息中获取待消歧名词,并将所述待消歧名词添加至待消歧名词集合中;
确定模块,用于根据所述待消歧名词集合确定对应的当前候选名词信息集合;
提取模块,用于根据所述待消歧名词从所述待消歧文本信息中提取上下文语境名词,并将所述上下文语境名词添加至当前上下文语境名词集合中;
得到模块,用于根据所述当前候选名词信息集合以及所述当前上下文语境名词集合通过预设名词相关图模型得到所述当前候选名词信息集合中各个当前候选名词信息的目标相关度值;
选取模块,用于根据所述目标相关度值从所述当前候选名词信息集合中选取目标名词信息,以实现对所述待消歧文本信息的语义消歧。
此外,为实现上述目的,本发明还提出一种基于双向关联的语义消歧设备,所述基于双向关联的语义消歧设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于双向关联的语义消歧程序,所述基于双向关联的语义消歧程序配置为实现如上所述的基于双向关联的语义消歧方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有基于双向关联的语义消歧程序,所述基于双向关联的语义消歧程序被处理器执行时实现如上文所述的基于双向关联的语义消歧方法的步骤。
本发明提出的基于双向关联的语义消歧方法,通过从待消歧文本信息中获取待消歧名词,并将所述待消歧名词添加至待消歧名词集合中;根据所述待消歧名词集合确定对应的当前候选名词信息集合;根据所述待消歧名词从所述待消歧文本信息中提取上下文语境名词,并将所述上下文语境名词添加至当前上下文语境名词集合中;根据所述当前候选名词信息集合以及所述当前上下文语境名词集合通过预设名词相关图模型得到所述当前候选名词信息集合中各个当前候选名词信息的目标相关度值;根据所述目标相关度值从所述当前候选名词信息集合中选取目标名词信息,以实现对所述待消歧文本信息的语义消歧,从而结合候选名词和上下文语境名词进行分析,并通过预设名词相关图模型获取相关度,根据相关度从候选名词中选取最佳的语义信息,达到提高语义识别的准确性的目的。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明基于双向关联的语义消歧方法第一实施例的流程示意图;
图3为本发明基于双向关联的语义消歧方法一实施例的整体流程示意图;
图4为本发明基于双向关联的语义消歧方法第二实施例的流程示意图;
图5为本发明基于双向关联的语义消歧方法一实施例构建的预设名词相关图模型的结构示意图;
图6为本发明基于双向关联的语义消歧方法第三实施例的流程示意图;
图7为本发明基于双向关联的语义消歧装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
如图1所示,该设备可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如按键,可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于双向关联的语义消歧程序。
在图1所示的设备中,网络接口1004主要用于连接外网,与其他网络设备进行数据通信;用户接口1003主要用于连接用户设备,与设备进行数据通信;本发明设备通过处理器1001调用存储器1005中存储的基于双向关联的语义消歧程序,并执行本发明实施例提供的基于双向关联的语义消歧的实施方法。
基于上述硬件结构,提出本发明基于双向关联的语义消歧方法实施例。
参照图2,图2为本发明基于双向关联的语义消歧方法第一实施例的流程示意图。
在第一实施例中,所述基于双向关联的语义消歧方法包括以下步骤:
步骤S10,从待消歧文本信息中获取待消歧名词,并将所述待消歧名词添加至待消歧名词集合中。
需要说明的是,本实施例的执行主体为基于双向关联的语义消歧设备,还可为其他可实现相同或相似功能的设备,本实施例对此不作限制,在本实施例中,以基于双向关联的语义消歧设备为例进行说明。
在本实施例中,所述待消歧文本信息为任意给定的文本信息,对任意一个给定的文本D进行实体消歧,首先要做的是对该文本进行预处理,以获得待消歧的命名实体指称,例如苹果公司新产品新闻发布会在东湖酒店召开,其中,苹果以及东湖为待消歧的命名实体指称,命名实体包括:人名、地名、机构名等实体,使用斯坦福命名实体识别Stanford(Named Entity Recognizer,NER)工具对查询文本进行命名实体识别,得到待消歧的实体指称集合,记为M={m1,m2,...}。
步骤S20,根据所述待消歧名词集合确定对应的当前候选名词信息集合。
需要说明的是,将集合M中的命名实体指称在本地知识库中采用模糊查询和精确匹配相结合的方式生成候选实体集合,记为:
N={{m11,m12,...,m1x},{m21,m22,...,m2x},{m31,m32,...,m3z},...};
其中实体指称mi生成候选实体集合为Ni={mi1,mi2,...,mij},Ni∈N。
步骤S30,根据所述待消歧名词从所述待消歧文本信息中提取上下文语境名词,并将所述上下文语境名词添加至当前上下文语境名词集合中。
需要说明的是,上下文语境词在消除实体歧义中起着至关重要的作用,语境词对一个实体指称起着重要的证据作用,相较于其他词性,名词能携带更丰富的信息,因此,使用Stanford NER工具从除去实体指称集合M的文本D中提取出名词,得到文本D的上下文语境词集合,记为C={c1,c2,...}。
步骤S40,根据所述当前候选名词信息集合以及所述当前上下文语境名词集合通过预设名词相关图模型得到所述当前候选名词信息集合中各个当前候选名词信息的目标相关度值。
本实施例通过将实体指称对应的候选实体作为顶点,构建实体相关图模型进行实体消歧,首先对每篇文档构建一个特定的实体相关图,使用无向图G=(V,E)表达实体相关图,其中,符号V表示顶点集合,顶点元素为集合N中元素;E表示边集合,边集合表示顶点间的语义相关性,从而根据所述当前候选名词信息集合得到所述当前候选名词信息集合中各个当前候选名词信息的目标相关度值。
步骤S50,根据所述目标相关度值从所述当前候选名词信息集合中选取目标名词信息,以实现对所述待消歧文本信息的语义消歧。
可以理解的是,例如苹果公司新产品新闻发布会在东湖酒店召开中的苹果的候选名词信息包括公司以及水果,通过预设名词相关图模型得到公司的相关度值为0.85,水果的相关度值为0.3,从而可知,目标名词应为公司,从而实现对语义的消歧。
如图3所示的基于双向语义的集成实体消歧算法框架示意图,由图3中可知,整体流程中包括数据预处理、候选实体生成、实体相关图模型构建以及候选实体排序过程,其中,数据预处理过程包括查询文本、命名实体识别以及实体指称项,候选实体生成过程包括实体指称项、知识库以及候选实体集合,实体相关图模型构建过程包括候选实体集合、双向语义相关度计算预计实体相关图,候选实体排序过程包括实体相关图、基于图的排序算法以及实体消歧结果等过程。
本实施例通过上述方案,通过从待消歧文本信息中获取待消歧名词,并将所述待消歧名词添加至待消歧名词集合中;根据所述待消歧名词集合确定对应的当前候选名词信息集合;根据所述待消歧名词从所述待消歧文本信息中提取上下文语境名词,并将所述上下文语境名词添加至当前上下文语境名词集合中;根据所述当前候选名词信息集合以及所述当前上下文语境名词集合通过预设名词相关图模型得到所述当前候选名词信息集合中各个当前候选名词信息的目标相关度值;根据所述目标相关度值从所述当前候选名词信息集合中选取目标名词信息,以实现对所述待消歧文本信息的语义消歧,从而结合候选名词和上下文语境名词进行分析,并通过预设名词相关图模型获取相关度,根据相关度从候选名词中选取最佳的语义信息,达到提高语义识别的准确性的目的。
进一步地,如图4所示,基于第一实施例提出本发明基于双向关联的语义消歧方法第二实施例,在本实施例中,所述步骤S40之前,所述方法还包括:
步骤S401,获取历史有歧义的名词集合以及对应的历史候选名词集合。
在本实施例中,所述历史有歧义的名词集合为一系列带有歧义的名词信息,对应的历史候选名词集合为带有歧义的名词信息对应的候选名词信息,例如上文中提到的苹果,在当时语境中为代表公司的意思,从而根据这以系列的对应关系建立预设名词相关图模型,实现对语义的正确识别。
实体相关图模型中的顶点集合定义为:与给定文本D中出现的命名实体指称对应的所有候选实体集合N。实体相关图G中的顶点用(mi,mij)实体对来表示,其中mi表示D中的第i个实体指称项,mij表示与实体指称mi相对应的第j个候选实体,顶点V集合的数学定义为:
V={(mi,mij)|mi∈D,mij∈Ni}。
步骤S402,根据历史有歧义的名词集合以及对应的历史候选名词集合计算历史候选名词集合的流行度。
在本实施例中,流行度用Pop(Va)表示,Pop(Va)指实体相关图中顶点Va所代表的候选实体的流行度。
进一步地,所述步骤S402,包括:
根据历史有歧义的名词集合以及对应的历史候选名词集合获取历史候选名词集合中各个历史参考候选名词的超链接数目;根据所述历史候选名词集合以及所述超链接数目得到所述历史候选名词集合的流行度。
在具体实现中,顶点(mi,mij)的Pop(mij)的计算方式如下:
其中,Ni表示实体指称mi的候选实体集合,mij表示mi相对应的第j个候选实体,indge(mij)表示在维基百科中指向mij且文本内容为mi的超链接数目。
步骤S403,获取历史上下文语境名词集合,根据所述历史候选名词集合以及历史上下文语境名词集合计算所述历史候选名词集合的候选相似度。
在本实施例中,候选相似度用SimCon(va)表示,SimCon(va)指顶点Va所代表的候选实体在维基百科知识库中文本描述信息与给定文本D的上下文信息C的相似度,相似度可通过将候选实体的文本描述信息和上下文语境词C在训练好的Word2Vec模型中计算得到,
进一步地,所述步骤S403,包括:
获取历史上下文语境名词集合,根据所述历史上下文语境名词集合得到语境向量信息;根据所述历史候选名词集合得到候选向量信息;根据所述语境向量信息以及所述候选向量信息得到候选相似度。
在具体实现中,SimCon(mij)的计算方式如下:将上下文语境词集合C通过Word2Vec工具向量表示为TC(tc1,tc2,...),将mij的文本描述信息通过Word2Vec工具向量表示为TMij(tmij1,tmij2,...),使用训练好的Word2Vec模型计算计算候选实体mij与对应文本的上下文信息的相似度如下:
步骤S404,根据所述流行度以及候选相似度得到所述历史候选名词集合的历史置信度。
在本实施例中,为了利用实体指称项和候选实体的已知上下文信息,为图中每个顶点赋予一个置信度(Confidence Measure,CM),为避免图模型过于复杂,选择候选实体的CM排名前q个的候选实体参与图模型的构建。
在具体实现中,候选实体置信度CM的计算方式如下:其中,α是取值范围的值由实验数据决定。
CM(va)=aPop(va)+(1-a)SimCon(va)。
步骤S405,根据所述历史置信度从所述历史候选名词集合中选取历史目标候选名词集合。
步骤S406,将所述历史目标候选名词集合中的各个历史目标候选名词作为预设名词相关图模型的历史顶点。
步骤S407,获取所述历史顶点之间的历史相关度值。
需要说明的是,所述预设名词相关图模型中的边由候选实体之间的相关度构成。相关度由候选实体之间的文本描述信息的语义相似度和候选实体在知识库中节点的路径距离决定。需要注意的是,对于同一实体指称对应的多个候选实体(顶点),不考虑其相互之间的关联关系,即实体相关图中同一实体指称项所对应的候选实体顶点间不存在关系边。Wightab表示顶点va到vb的边的权重,其计算方式如下:
Weightab=βSimText(va,vb)+(1-β)SimPath(va,vb);
其中,SimText(va,vb)指顶点va与顶点vb分别所代表的候选实体文本描述的相似度,SimPath(va,vb)表示两个候选实体概念在知识库中节点的路径距离反比,β表示调节因子。
进一步地,所述步骤S407,包括:
获取所述历史顶点的文本向量信息,根据所述文本向量信息得到文本相似度。
其中SimText(va,vb)指顶点va与顶点vb分别所代表的候选实体文本描述的相似度,若两者之间相似度低于某一阈值,则记SimText(va,vb)=0;分别将顶点va与顶点vb所代表的候选实体的文本描述通过Word2Vec工具向量表示TA(ta1,ta2,...)、TB(tb1,tb2,...),则SimText(va,vb)表示为:
获取历史顶点之间的前项路径长度反比与反向路径长度反比;选取所述前项路径长度反比与反向路径长度反比的平均数;根据所述文本相似度以及所述平均数得到历史顶点之间的历史权重,将所述历史权重作为历史相关度值。
在本实施例中,SimPath(va,vb)表示两个候选实体概念在知识库中节点的路径距离反比,若二者距离长度超过某阈值,则记SimPath(va,vb)=0,SimPath(va,vb)表示如下:
Fpath(va,vb)表示前向路径长度反比,即在知识库中从顶点va到顶点vb的最短路径长度的反比,Bpath(va,vb)表示反向路径长度反比,即在知识库中从顶点vb到顶点va的最短路径长度的反比,path(va,vb)表示在知识库中顶点va到顶点vb的最短路径长度;path(vb,va)表示在知识库中顶点vb到顶点va的最短路径长度,需要注意的是path(va,vb)≠path(vb,va)。SimPath取前向路径长度反比与反向路径长度反比的平均数。
步骤S408,根据所述历史相关度值构建预设名词相关图模型的历史边。
步骤S409,根据所述历史顶点和历史边生成预设名词相关图模型。
如图5所示的构建的预设名词相关图模型的结构示意图,将候选名词作为顶点,候选名词与上文之间的相关度作为边以及相应的权重值,构建预设名词相关图模型,例如顶点va以及顶点vb等,还包括顶点之间的权重值,例如顶点va1以及顶点vc1的权重值为0.421。
本实施例通过上述方案,首先根据历史有歧义的名词集合以及对应的历史候选名词集合计算历史候选名词集合的流行度;获取历史上下文语境名词集合,根据所述历史候选名词集合以及历史上下文语境名词集合计算所述历史候选名词集合的候选相似度;根据所述流行度以及候选相似度得到所述历史候选名词集合的历史置信度;根据所述历史置信度从所述历史候选名词集合中选取历史目标候选名词集合;将所述历史目标候选名词集合中的各个历史目标候选名词作为预设名词相关图模型的历史顶点;获取所述历史顶点之间的历史相关度值;根据所述历史相关度值构建预设名词相关图模型的历史边;根据所述历史顶点和历史边生成预设名词相关图模型,从而实现预设名词相关图模型的构建。
进一步地,如图6所示,基于第一实施例或第二实施例提出本发明基于双向关联的语义消歧方法第三实施例,在本实施例中,基于第一实施例进行说明,所述步骤S40,包括:
步骤S410,根据所述当前候选名词信息集合以及所述当前上下文语境名词集合通过预设名词相关图模型得到当前顶点信息。
在完成实体相关图的构造之后,即可针对给定文本D进行实体消歧的推理运算,本实施例提出一种新的推理判据,称之为双向语义判据(bidirectio semantic criterion,BSC),该判据由候选实体之间的相关度和候选实体的置信度两部分组成。其中,候选实体之间的关联性表示候选实体在同一文本中具有语义一致性,本实施例基于对PageRank算法的改进,提出一种新的候选实体重要性计算方法,称之为重要性排序(importance rank,IR)算法,以更好的发掘和利用实体相关图的拓扑结构信息在实体消歧任务中的价值,如表1中展示各个参数的符号以及含义信息。
标记名 含义
G(V,E) 以顶点的集合V以及边的集合E构成的实体相关图
T(b,a) 从顶点v<sub>a</sub>到顶点v<sub>b</sub>的带权转移概率
TT 顶点转移概率矩阵
CM(v<sub>a</sub>) 顶点v<sub>a</sub>的CM值
CM’(v<sub>a</sub>) 游走过程中顶点v<sub>a</sub>的CM值
TCM 实体相关图G(V,E)中每个顶点CM值构成的分布向量
TCM’ 随机游走过程中实体相关图G中顶点的分布向量
IR(V<sub>a</sub>) 随机游走过程中实体相关图G中顶点IR值
TIR(V<sub>a</sub>) 实体相关图G中每个稳定状态顶点IR值
TIR 实体相关图G中每个稳定状态顶点IR值构成的分布向量
表1
步骤S411,获取所述当前顶点信息中当前顶点之间的当前权重以及对应的领域信息。
步骤S412,根据所述当前权重以及领域信息得到带权转移概率。
需要说明的是,T(b,a)表示在实体相关图G中从顶点va到顶点vb的带权转移概率:
其中,weightba表示图G中边(va,vb)的权重,Nh(vb)表示顶点vb的邻域,即图G中直接与vb相邻的顶点集合。
步骤S413,将所述带权转移概率构成转移概率矩阵。
在本实施例中,将所有候选实体的带权转移概率构成转移概率矩阵TT。
步骤S414,获取所述当前候选名词信息集合的当前置信度。
步骤S415,根据所述转移概率矩阵以及当前置信度得到目标相关度值。
IR算法的数学公式如下;
IR(va)=λ∑T(b,a)×IR(vb)+(1-λ)CM(va);
其中,IR(va)表示候选实体顶点va与相应实体指称项在当前上下文中的相关度,其初始值为顶点va的置信度CM(va),所有候选实体的CM值构成TCM向量组;T(b,a)表示在实体相关图G中从顶点va到顶点vb的带权转移概率,λ为阻尼因子,按照网页排名PageRank算法的一般惯例取值为0.85。
进一步地,所述步骤S50之后,所述方法还包括:
对所述当前置信度进行更新,判断更新后的当前置信度与所述目标相关度值之间的距离信息,将所述距离信息满足预设条件时,将更新后的当前置信度对应的当前候选名词信息作为更新后的目标名词信息。
在本实施例中,所述预设条件为distance<=0.00001,其中,distance=TCM’-TIR,通过输入:构建的图模型G(V,E),TCM,λ=0.85,输出:稳定状态的TIR
在具体实现中,(I)令TCM’=TCM;(Ⅱ)根据图中顶点的带权概率转移,生成矩阵TT;(Ⅲ)计算distance=TCM’-TIR;(Ⅳ)令TCM'=TIR;(Ⅴ)循环(III)(IV)直到distance<=0.00001。
根据算法得到的TIR分布向量,则N中每个候选实体的IR值,IR值越大的候选实体则代表着当前候选实体具备链接的最大可能性,即
Link(mi,mij)=argmax(IR((mi,mij)));
其中Link(mi,mij)是指当IR(mi,mij)取最大值时,实体指称对(mi,mij)所代表的候选实体mij。每一个实体指称的最佳链接候选实体组成最佳候选集合SetLink,则SetLink即为所求。也就是说,文本D中实体指称项mi链接到维基百科中具有最高IR值的候选实体mij之上。
本实施例通过上述方案,通过结合候选实体之间的相关度和候选实体的置信度两部分,从候选实体名称中选取语义一致的目标名称,从而提高语义识别的正确性。
本发明进一步提供一种基于双向关联的语义消歧装置。
参照图7,图7为本发明基于双向关联的语义消歧装置第一实施例的功能模块示意图。
本发明基于双向关联的语义消歧装置第一实施例中,该基于双向关联的语义消歧装置包括:
获取模块10,用于从待消歧文本信息中获取待消歧名词,并将所述待消歧名词添加至待消歧名词集合中。
在本实施例中,所述待消歧文本信息为任意给定的文本信息,对任意一个给定的文本D进行实体消歧,首先要做的是对该文本进行预处理,以获得待消歧的命名实体指称,例如苹果公司新产品新闻发布会在东湖酒店召开,其中,苹果以及东湖为待消歧的命名实体指称,命名实体包括:人名、地名、机构名等实体,使用斯坦福命名实体识别Stanford(Named Entity Recognizer,NER)工具对查询文本进行命名实体识别,得到待消歧的实体指称集合,记为M={m1,m2,...}。
确定模块20,用于根据所述待消歧名词集合确定对应的当前候选名词信息集合。
需要说明的是,将集合M中的命名实体指称在本地知识库中采用模糊查询和精确匹配相结合的方式生成候选实体集合,记为:
N={{m11,m12,...,m1x},{m21,m22,...,m2x},{m31,m32,...,m3z},...};
其中实体指称mi生成候选实体集合为Ni={mi1,mi2,...,mij},Ni∈N。
提取模块30,用于根据所述待消歧名词从所述待消歧文本信息中提取上下文语境名词,并将所述上下文语境名词添加至当前上下文语境名词集合中。
需要说明的是,上下文语境词在消除实体歧义中起着至关重要的作用,语境词对一个实体指称起着重要的证据作用,相较于其他词性,名词能携带更丰富的信息,因此,使用Stanford NER工具从除去实体指称集合M的文本D中提取出名词,得到文本D的上下文语境词集合,记为C={c1,c2,...}。
得到模块40,用于根据所述当前候选名词信息集合以及所述当前上下文语境名词集合通过预设名词相关图模型得到所述当前候选名词信息集合中各个当前候选名词信息的目标相关度值。
本实施例通过将实体指称对应的候选实体作为顶点,构建实体相关图模型进行实体消歧,首先对每篇文档构建一个特定的实体相关图,使用无向图G=(V,E)表达实体相关图,其中,符号V表示顶点集合,顶点元素为集合N中元素;E表示边集合,边集合表示顶点间的语义相关性,从而根据所述当前候选名词信息集合得到所述当前候选名词信息集合中各个当前候选名词信息的目标相关度值。
选取模块50,用于根据所述目标相关度值从所述当前候选名词信息集合中选取目标名词信息,以实现对所述待消歧文本信息的语义消歧。
可以理解的是,例如苹果公司新产品新闻发布会在东湖酒店召开中的苹果的候选名词信息包括公司以及水果,通过预设名词相关图模型得到公司的相关度值为0.85,水果的相关度值为0.3,从而可知,目标名词应为公司,从而实现对语义的消歧。
如图3所示的基于双向语义的集成实体消歧算法框架示意图,由图3中可知,整体流程中包括数据预处理、候选实体生成、实体相关图模型构建以及候选实体排序过程,其中,数据预处理过程包括查询文本、命名实体识别以及实体指称项,候选实体生成过程包括实体指称项、知识库以及候选实体集合,实体相关图模型构建过程包括候选实体集合、双向语义相关度计算预计实体相关图,候选实体排序过程包括实体相关图、基于图的排序算法以及实体消歧结果等过程。
本实施例通过上述方案,通过从待消歧文本信息中获取待消歧名词,并将所述待消歧名词添加至待消歧名词集合中;根据所述待消歧名词集合确定对应的当前候选名词信息集合;根据所述待消歧名词从所述待消歧文本信息中提取上下文语境名词,并将所述上下文语境名词添加至当前上下文语境名词集合中;根据所述当前候选名词信息集合以及所述当前上下文语境名词集合通过预设名词相关图模型得到所述当前候选名词信息集合中各个当前候选名词信息的目标相关度值;根据所述目标相关度值从所述当前候选名词信息集合中选取目标名词信息,以实现对所述待消歧文本信息的语义消歧,从而结合候选名词和上下文语境名词进行分析,并通过预设名词相关图模型获取相关度,根据相关度从候选名词中选取最佳的语义信息,达到提高语义识别的准确性的目的。
此外,为实现上述目的,本发明还提出一种基于双向关联的语义消歧设备,所述基于双向关联的语义消歧设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于双向关联的语义消歧程序,所述基于双向关联的语义消歧程序配置为实现如上文所述的基于双向关联的语义消歧方法的步骤。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有基于双向关联的语义消歧程序,所述基于双向关联的语义消歧程序被处理器执行如上文所述的基于双向关联的语义消歧方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台智能终端设备(可以是手机,计算机,终端设备,空调器,或者网络终端设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于双向关联的语义消歧方法,其特征在于,所述基于双向关联的语义消歧方法包括:
从待消歧文本信息中获取待消歧名词,并将所述待消歧名词添加至待消歧名词集合中;
根据所述待消歧名词集合确定对应的当前候选名词信息集合;
根据所述待消歧名词从所述待消歧文本信息中提取上下文语境名词,并将所述上下文语境名词添加至当前上下文语境名词集合中;
根据所述当前候选名词信息集合以及所述当前上下文语境名词集合通过预设名词相关图模型得到所述当前候选名词信息集合中各个当前候选名词信息的目标相关度值;
根据所述目标相关度值从所述当前候选名词信息集合中选取目标名词信息,以实现对所述待消歧文本信息的语义消歧。
2.如权利要求1所述的基于双向关联的语义消歧方法,其特征在于,所述根据所述当前候选名词信息集合以及所述当前上下文语境名词集合通过预设名词相关图模型得到所述当前候选名词信息集合中各个候选名词的目标相关度值之前,所述方法还包括:
获取历史有歧义的名词集合以及对应的历史候选名词集合;
根据历史有歧义的名词集合以及对应的历史候选名词集合计算历史候选名词集合的流行度;
获取历史上下文语境名词集合,根据所述历史候选名词集合以及历史上下文语境名词集合计算所述历史候选名词集合的候选相似度;
根据所述流行度以及候选相似度得到所述历史候选名词集合的历史置信度;
根据所述历史置信度从所述历史候选名词集合中选取历史目标候选名词集合;
将所述历史目标候选名词集合中的各个历史目标候选名词作为预设名词相关图模型的历史顶点;
获取所述历史顶点之间的历史相关度值;
根据所述历史相关度值构建预设名词相关图模型的历史边;
根据所述历史顶点和历史边生成预设名词相关图模型。
3.如权利要求2所述的基于双向关联的语义消歧方法,其特征在于,所述根据历史有歧义的名词集合以及对应的历史候选名词集合计算历史候选名词集合的流行度,包括:
根据历史有歧义的名词集合以及对应的历史候选名词集合获取历史候选名词集合中各个历史参考候选名词的超链接数目;
根据所述历史候选名词集合以及所述超链接数目得到所述历史候选名词集合的流行度。
4.如权利要求2所述的基于双向关联的语义消歧方法,其特征在于,所述获取历史上下文语境名词集合,根据所述历史候选名词集合以及历史上下文语境名词集合计算所述历史候选名词集合的候选相似度,包括:
获取历史上下文语境名词集合,根据所述历史上下文语境名词集合得到语境向量信息;
根据所述历史候选名词集合得到候选向量信息;
根据所述语境向量信息以及所述候选向量信息得到候选相似度。
5.如权利要求2所述的基于双向关联的语义消歧方法,其特征在于,所述获取所述历史顶点之间的历史相关度值,包括:
获取所述历史顶点的文本向量信息,根据所述文本向量信息得到文本相似度;
获取历史顶点之间的前项路径长度反比与反向路径长度反比;
选取所述前项路径长度反比与反向路径长度反比的平均数;
根据所述文本相似度以及所述平均数得到历史顶点之间的历史权重,将所述历史权重作为历史相关度值。
6.如权利要求1至5中任一项所述的基于双向关联的语义消歧方法,其特征在于,所述根据所述当前候选名词信息集合以及所述当前上下文语境名词集合通过预设名词相关图模型得到所述当前候选名词信息集合中各个当前候选名词信息的目标相关度值,包括:
根据所述当前候选名词信息集合以及所述当前上下文语境名词集合通过预设名词相关图模型得到当前顶点信息;
获取所述当前顶点信息中当前顶点之间的当前权重以及对应的领域信息;
根据所述当前权重以及领域信息得到带权转移概率;
将所述带权转移概率构成转移概率矩阵;
获取所述当前候选名词信息集合的当前置信度;
根据所述转移概率矩阵以及当前置信度得到目标相关度值。
7.如权利要求6所述的基于双向关联的语义消歧方法,其特征在于,所述根据所述目标相关度值从所述当前候选名词信息集合中选取目标名词信息,以实现对所述待消歧文本信息的语义消歧之后,所述方法还包括:
对所述当前置信度进行更新,判断更新后的当前置信度与所述目标相关度值之间的距离信息;
将所述距离信息满足预设条件时,将更新后的当前置信度对应的当前候选名词信息作为更新后的目标名词信息。
8.一种基于双向关联的语义消歧装置,其特征在于,所述基于双向关联的语义消歧装置包括:
获取模块,用于从待消歧文本信息中获取待消歧名词,并将所述待消歧名词添加至待消歧名词集合中;
确定模块,用于根据所述待消歧名词集合确定对应的当前候选名词信息集合;
提取模块,用于根据所述待消歧名词从所述待消歧文本信息中提取上下文语境名词,并将所述上下文语境名词添加至当前上下文语境名词集合中;
得到模块,用于根据所述当前候选名词信息集合以及所述当前上下文语境名词集合通过预设名词相关图模型得到所述当前候选名词信息集合中各个当前候选名词信息的目标相关度值;
选取模块,用于根据所述目标相关度值从所述当前候选名词信息集合中选取目标名词信息,以实现对所述待消歧文本信息的语义消歧。
9.一种基于双向关联的语义消歧设备,其特征在于,所述基于双向关联的语义消歧设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于双向关联的语义消歧程序,所述基于双向关联的语义消歧程序配置为实现如权利要求1至7中任一项所述的基于双向关联的语义消歧方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有基于双向关联的语义消歧程序,所述基于双向关联的语义消歧程序被处理器执行时实现如权利要求1至7中任一项所述的基于双向关联的语义消歧方法的步骤。
CN201910675358.7A 2019-07-24 2019-07-24 基于双向关联的语义消歧方法、装置、设备及存储介质 Active CN110390106B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910675358.7A CN110390106B (zh) 2019-07-24 2019-07-24 基于双向关联的语义消歧方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910675358.7A CN110390106B (zh) 2019-07-24 2019-07-24 基于双向关联的语义消歧方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110390106A true CN110390106A (zh) 2019-10-29
CN110390106B CN110390106B (zh) 2023-04-21

Family

ID=68287260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910675358.7A Active CN110390106B (zh) 2019-07-24 2019-07-24 基于双向关联的语义消歧方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110390106B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414763A (zh) * 2020-02-28 2020-07-14 长沙千博信息技术有限公司 一种针对手语计算的语义消歧方法、装置、设备及存储装置
CN112256885A (zh) * 2020-10-23 2021-01-22 上海恒生聚源数据服务有限公司 一种标签消歧方法、装置、设备和计算机可读存储介质
CN113010633A (zh) * 2019-12-20 2021-06-22 海信视像科技股份有限公司 一种信息交互方法及设备
CN113761218A (zh) * 2021-04-27 2021-12-07 腾讯科技(深圳)有限公司 一种实体链接的方法、装置、设备及存储介质
CN114818736A (zh) * 2022-05-31 2022-07-29 北京百度网讯科技有限公司 文本处理方法、用于短文本的链指方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090144609A1 (en) * 2007-10-17 2009-06-04 Jisheng Liang NLP-based entity recognition and disambiguation
CN105045826A (zh) * 2015-06-29 2015-11-11 华东师范大学 一种基于图模型的实体链接算法
CN108280061A (zh) * 2018-01-17 2018-07-13 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN108959461A (zh) * 2018-06-15 2018-12-07 东南大学 一种基于图模型的实体链接方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090144609A1 (en) * 2007-10-17 2009-06-04 Jisheng Liang NLP-based entity recognition and disambiguation
CN105045826A (zh) * 2015-06-29 2015-11-11 华东师范大学 一种基于图模型的实体链接算法
CN108280061A (zh) * 2018-01-17 2018-07-13 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN108959461A (zh) * 2018-06-15 2018-12-07 东南大学 一种基于图模型的实体链接方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010633A (zh) * 2019-12-20 2021-06-22 海信视像科技股份有限公司 一种信息交互方法及设备
CN113010633B (zh) * 2019-12-20 2023-01-31 海信视像科技股份有限公司 一种信息交互方法及设备
CN111414763A (zh) * 2020-02-28 2020-07-14 长沙千博信息技术有限公司 一种针对手语计算的语义消歧方法、装置、设备及存储装置
CN112256885A (zh) * 2020-10-23 2021-01-22 上海恒生聚源数据服务有限公司 一种标签消歧方法、装置、设备和计算机可读存储介质
CN112256885B (zh) * 2020-10-23 2023-10-27 上海恒生聚源数据服务有限公司 一种标签消歧方法、装置、设备和计算机可读存储介质
CN113761218A (zh) * 2021-04-27 2021-12-07 腾讯科技(深圳)有限公司 一种实体链接的方法、装置、设备及存储介质
CN113761218B (zh) * 2021-04-27 2024-05-10 腾讯科技(深圳)有限公司 一种实体链接的方法、装置、设备及存储介质
CN114818736A (zh) * 2022-05-31 2022-07-29 北京百度网讯科技有限公司 文本处理方法、用于短文本的链指方法、装置及存储介质
CN114818736B (zh) * 2022-05-31 2023-06-09 北京百度网讯科技有限公司 文本处理方法、用于短文本的链指方法、装置及存储介质

Also Published As

Publication number Publication date
CN110390106B (zh) 2023-04-21

Similar Documents

Publication Publication Date Title
CN110390106A (zh) 基于双向关联的语义消歧方法、装置、设备及存储介质
CN107609101B (zh) 智能交互方法、设备及存储介质
CN110704743B (zh) 一种基于知识图谱的语义搜索方法及装置
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN110334179B (zh) 问答处理方法、装置、计算机设备和存储介质
CN103778227A (zh) 从检索图像中筛选有用图像的方法
US11481560B2 (en) Information processing device, information processing method, and program
CN109933708A (zh) 信息检索方法、装置、存储介质及计算机设备
CN106796600A (zh) 相关项目的计算机实现的标识
CN112732870B (zh) 基于词向量的搜索方法、装置、设备及存储介质
CN109255012B (zh) 机器阅读理解以及减少候选数据集规模的方法、装置
CN110162681B (zh) 文本识别、文本处理方法、装置、计算机设备和存储介质
CN109710732B (zh) 信息查询方法、装置、存储介质和电子设备
US11397740B2 (en) Method and apparatus for providing information by using degree of association between reserved word and attribute language
CN110147494B (zh) 信息搜索方法、装置,存储介质及电子设备
CN110619050A (zh) 意图识别方法及设备
KR102663908B1 (ko) 시맨틱 분석을 통한 의미 검색 서비스 제공 방법
CN110083683A (zh) 基于随机游走的实体语义标注方法
CN105868261A (zh) 一种关联信息的获取与排序方法和系统
CN108628821B (zh) 一种词汇挖掘方法及装置
CN104317416B (zh) 一种输入的方法和装置
CN115033772A (zh) 一种基于语义网络的创意激发方法及装置
CN111880668A (zh) 输入显示方法、装置及电子设备
CN114328798A (zh) 搜索文本的处理方法、装置、设备、存储介质和程序产品
KR101955920B1 (ko) 속성 언어를 이용한 검색 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant