CN105589976A - 基于语义相关度的目标实体确定方法及装置 - Google Patents
基于语义相关度的目标实体确定方法及装置 Download PDFInfo
- Publication number
- CN105589976A CN105589976A CN201610129768.8A CN201610129768A CN105589976A CN 105589976 A CN105589976 A CN 105589976A CN 201610129768 A CN201610129768 A CN 201610129768A CN 105589976 A CN105589976 A CN 105589976A
- Authority
- CN
- China
- Prior art keywords
- entity
- current
- user
- word
- communicated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了基于语义相关度的目标实体确定方法及装置,方法包括:根据用户实体及其当前语境在预设的实体关系库中确定用户实体对应的用户连通词集合,通过连通词的连通路径确定待定目标实体。根据用户实体与当前待定目标实体各个连通路径对应的路径权值,经综合计算后确定用户实体与当前待定目标实体之间的语义相关度,根据该语义相关度确定用户实体对应的目标实体。本发明中实体关系库通过搜索引擎动态生成和增长,可以实现实体信息的快速更新。在判断实体间语义相关度时,能结合语境区分歧义。
Description
技术领域
本发明涉及信息处理领域,尤其涉及一种基于语义相关度的目标实体确定方法及装置。
背景技术
命名实体指的是人名、机构名、地名以及其他所有以名称为标识的实体,如“老人与海”、“清华大学”、“北医三院”等。更广泛的命名实体还包括数字、日期、货币、地址等。随着语义研究以及命名实体(以下简称实体)研究技术的深入发展,多数情况下都需要在获知当前实体的情况下,根据语义相关度计算求解得到当前实体对应的目标实体。
例如,随着互联网搜索技术的发展,对用户输入的实体进行语义分析,得出用户输入的实体与其他实体之间的关系度,将关系度较大的实体确定为用户输入的实体对应的目标实体,并将目标实体推荐给用户,从而为用户提供更多需要的信息。再如,随着实体语义聚类研究的发展,可利用语义相关度对目标实体进行实体聚类分析,进而还可实现对短文本的语义聚类分析。再如,在已知当前实体时,对当前实体进行语义分析,得到当前实体与任意一个实体之间的语义关系连接词,可为判断两实体间的语义关系提供帮助。
现有技术确定目标实体的方法一般两种,一种是基于语义词典的语义相关度计算方法;另一种是基于已分类的语料库或知识库的语义相关度计算方法。两者的基本原理是,首先获知当前实体,然后利用人工或机器预先构建并做好归类的实体的词典或知识库,通过类属关系计算当前实体与其他实体之间的语义相关度,根据计算出的语义相关度的情况确定当前实体对应的目标实体。其中,计算语义关系包括实体间的关系度和确定实体间的语义关系连接词。
发明人在研究中发现,现有技术无法应对以下情况:当获知的当前实体有多重含义时,如“人大”,既能够表示“中国人民大学”,也能够表示“人民代表大会”,则利用现有技术确定当前实体对应的目标实体时,有时会将“人大”判定成“中国人民大学”,从“中国人民大学”的角度出发进行语义分析,确定“人大”对应的目标实体,有时将“人大”判定成“人民代表大会”,从“人民代表大会”的角度出发进行语义分析,确定“人大”对应的目标实体。这种实体含义判定的不确定性导致语义相关度分析不准确,进而使得求解得到的目标实体不够准确。
可见,现有技术在确定目标实体时,当前实体有多重含义时,无法合理确定当前实体的含义,导致无法准确确定与当前实体对应的目标实体。
发明内容
本发明提供了一种基于语义相关度的目标实体确定方法及装置,当前实体有多重含义时,能够合理确定实体的含义,进而准确确定与当前实体对应的目标实体。
第一方面,本发明实施例提供了基于语义相关度的目标实体确定方法,所述方法包括:从用户的信息中确定用户实体,以及所述用户实体的当前语境;判断预设的实体关系库是否包含所述用户实体,若所述预设的实体关系库不包含所述用户实体,则根据所述用户实体动态更新所述预设的实体关系库;其中,所述预设的实体关系库包括多个实体,所述多个实体之间通过关联词连通,所述实体与所述关联词之间的连通线段具有对应的权值;根据所述用户实体的当前语境在更新后的所述预设的实体关系库中确定所述用户实体对应的用户连通词集合;将所述用户连通词连通的实体中除所述用户实体以外的其他实体依次确定为待定目标实体,并分别确定各个待定目标实体对应的目标连通词集合;在所述预设的实体关系库中逐一选定各个待定目标实体,根据所述用户连通词集合和当前待定目标实体的目标连通词集合,确定所述用户实体与所述当前待定目标实体之间的多个连通路径;分别计算各个所述连通路径对应的路径权值,根据各个所述连通路径对应的路径权值确定所述用户实体与所述当前待定目标实体之间的语义相关度;根据所述用户实体与各个所述待定目标实体之间的语义相关度确定所述用户实体对应的目标实体。
结合第一方面,本发明实施例提供了第一方面第一种可能的实施方式,其中,根据所述用户实体的当前语境在更新后的所述预设的实体关系库中确定所述用户实体对应的用户连通词集合,包括:根据所述当前语境确定与所述用户实体相关的用户相关词集合,在预设的实体关系库中确定与所述用户实体直接连通的用户连通词集合;利用所述用户相关词集合对所述用户连通词集合进行优化,将优化后的所述用户连通词集合作为所述用户实体对应的用户连通词集合。
结合第一方面,本发明实施例提供了第一方面第二种可能的实施方式,其中,根据所述用户连通词集合和当前待定目标实体的目标连通词集合,确定所述用户实体与所述当前待定目标实体之间的多个连通路径,包括:检测所述用户连通词集合中的词与当前待定目标实体的目标连通词集合中的词的连通关系;当所述用户连通词集合中的第一词与所述目标连通词集合中的第二词连通时,将所述用户实体与所述当前待定目标实体之间的包含所述第一词和所述第二词的路径确定为所述用户实体与所述当前待定目标实体之间的连通路径。
结合第一方面,本发明实施例提供了第一方面第三种可能的实施方式,其中,分别计算各个所述连通路径对应的路径权值,根据各个所述连通路径对应的路径权值确定所述用户实体与所述当前待定目标实体之间的语义相关度,包括:对于所述用户实体与所述当前待定目标实体之间的当前连通路径,计算组成所述当前连通路径的各个连通线段对应的权值之和,以及组成所述当前连通路径的词数量之和,根据所述权值之和所述词数量之和,确定所述当前连通路径的路径权值;将各个所述连通路径的路径权值加和,得到所述用户实体与所述当前待定目标实体之间的关系度。
结合第一方面,本发明实施例提供了第一方面第四种可能的实施方式,其中,分别计算各个所述连通路径对应的路径权值,根据各个所述连通路径对应的路径权值确定所述用户实体与所述当前待定目标实体之间的语义相关度,包括:对于所述用户实体与所述当前待定目标实体之间的当前连通路径,计算组成所述当前连通路径的各个连通线段对应的权值的倒数之和,将所述倒数之和确定为所述当前连通路径的路径权值;比较各个所述连通路径的路径权值大小,选择所述路径权值最小的连通路径;将选择的所述连通路径包括的词作为所述用户实体与所述当前待定目标实体之间的语义关系连接词。
结合第一方面上述的实施方式,本发明实施例提供了第一方面第五种可能的实施方式,其中,在从用户的信息中确定用户实体之前,所述方法还包括:确定归入所述预设的实体关系库的多个实体,并逐一选定各个实体;根据所述当前实体进行搜索,根据所述搜索结果确定所述当前实体对应的多个候选关联词,以及各个所述候选关联词对应的初始权值,根据所述多个候选关联词以及所述初始权值建立所述当前实体的候选关联词表;根据各个所述候选关联词在所述候选关联词表中的重要程度,以及各个所述候选关联词在已存储的关联词表中的重要程度,确定各个所述候选关联词的最终权值,根据所述最终权值建立所述当前实体的关联词表;将所述各个实体的关联词表拼接起来,获得所述预设的实体关系库。
结合第一方面第五种可能的实施方式,本发明实施例提供了第一方面第六种可能的实施方式,其中,根据所述搜索结果确定所述当前实体对应的多个候选关联词,以及各个所述候选关联词对应的初始权值,包括:在所述搜索结果中提取包含所述当前实体的多条句子文本和所述多条句子文本各自对应的链接地址;两两比较所述多条句子文本,获取两字以上的重复语块,将所述重复语块确定为所述当前实体对应的候选关联词;比较所述候选关联词所在句子文本对应的链接地址的重复情况,根据所述重复情况对所述候选关联词赋初值,将所述初值作为所述候选关联词对应的初始权值。
结合第一方面第五种可能的实施方式,本发明实施例提供了第一方面第七种可能的实施方式,其中,根据各个所述候选关联词在所述候选关联词表中的重要程度,以及各个所述候选关联词在已存储的关联词表中的重要程度,确定各个所述候选关联词的最终权值,包括:对所述候选关联词表中的当前候选关联词,计算所述当前候选关联词的初始权值与各个所述候选关联词的初始权值之和的比值,将所述比值作为所述当前候选关联词的第一部分权值因子;在已存储的关联词表中,根据包含所述当前候选关联词的关联词表数量和已存储的关联词表总数,确定所述当前候选关联词的第二部分权值因子;结合所述第一部分权值因子和所述第二部分权值因子确定所述当前候选关联词的最终权值。
第二方面,本发明实施例提供了基于语义相关度的目标实体确定装置,所述装置包括:用户实体确定模块,用于从用户的信息中确定用户实体,以及所述用户实体的当前语境;实体关系库优化模块,用于判断预设的实体关系库是否包含所述用户实体,若所述预设的实体关系库不包含所述用户实体,则根据所述用户实体动态更新所述预设的实体关系库;其中,所述预设的实体关系库包括多个实体,所述多个实体之间通过关联词连通,所述实体与所述关联词之间的连通线段具有对应的权值;用户连通词集合生成模块,用于根据所述用户实体的当前语境在更新后的所述预设的实体关系库中确定所述用户实体对应的用户连通词集合;待定目标实体确定模块,用于将所述用户连通词连通的实体中除所述用户实体以外的其他实体依次确定为待定目标实体,并分别确定各个待定目标实体对应的目标连通词集合;连通路径生成模块,用于在所述预设的实体关系库中逐一选定各个待定目标实体,根据所述用户连通词集合和当前待定目标实体的目标连通词集合,确定所述用户实体与所述当前待定目标实体之间的多个连通路径;语义相关度分析模块,用于分别计算各个所述连通路径对应的路径权值,根据各个所述连通路径对应的路径权值确定所述用户实体与所述当前待定目标实体之间的语义相关度;目标实体确定模块,用于根据所述用户实体与各个所述待定目标实体之间的语义相关度确定所述用户实体对应的目标实体。
结合第二方面,本发明实施例提供了第二方面第一种可能的实施方式,其中,所述装置还包括:实体选定模块,用于确定归入所述预设的实体关系库的多个实体,并逐一选定各个实体;候选关联词表生成模块,用于根据所述当前实体进行搜索,根据所述搜索结果确定所述当前实体对应的多个候选关联词,以及各个所述候选关联词对应的初始权值,根据所述多个候选关联词以及所述初始权值建立所述当前实体的候选关联词表;关联词表生成模块,用于根据各个所述候选关联词在所述候选关联词表中的重要程度,以及各个所述候选关联词在已存储的关联词表中的重要程度,确定各个所述候选关联词的最终权值,根据所述最终权值建立所述当前实体的关联词表;实体关系库建立模块,用于将所述各个实体的关联词表拼接起来,获得所述预设的实体关系库。
通过本实施例中的基于语义相关度的目标实体确定方法及装置,能够利用用户实体所在的语境,在预设的实体关系库中准确计算用户实体与待定目标实体之间的语义相关度,从而准确确定用户实体对应的目标实体。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出本发明第一实施例所提供的基于语义相关度的目标实体确定方法的流程示意图;
图2示出本发明第一实施例所提供的实体关系库的示意图;
图3示出本发明第一实施例所提供的实体关系库生成方法的流程示意图;
图4示出本发明第二实施例所提供的基于语义相关度的目标实体确定装置的结构示意图;
图5示出本发明第二实施例所提供的实体关系库生成装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
考虑到现有技术在确定目标实体时,当前实体有多重含义时,无法合理确定当前实体的含义,导致无法准确确定与当前实体对应的目标实体,本发明提供了一种基于语义相关度的目标实体确定方法及装置,当前实体有多重含义时,能够合理确定实体的含义,进而准确确定与当前实体对应的目标实体。下面通过实施例进行详细描述。
实施例一
如图1所示,本发明第一实施例提供了一种基于语义相关度的目标实体确定方法,该方法能够由确定目标实体的后台服务器执行,该方法至少包括以下步骤:
步骤102,从用户的信息中确定用户实体,以及用户实体的当前语境。
用户的信息可以是用户预先输入的信息,或者用户当前正在搜索的信息,或者用户的历史搜索记录。用户的信息可以是一句话、或者一个文本段落,还可以是一篇文档。任何与用户有关的信息均可以作为用户的信息。当从用户的信息中提取得到多个实体时,优选将其中最具代表性的实体、或者含义最明确的实体或用户直接指定的实体作为用户实体。用户实体的当前语境可以是用户实体的上下文内容,或者用户实体所在的文章题目、或者用户实体所在的文章类别。
步骤104,判断预设的实体关系库是否包含上述用户实体,若预设的实体关系库不包含上述用户实体,则根据上述用户实体动态更新预设的实体关系库;其中,预设的实体关系库包括多个实体,多个实体之间通过关联词连通,实体与关联词之间的连通线段具有对应的权值。
通过步骤104,实体关系库能够动态生成和增长,从而实现实体信息的快速更新,对于新出现的实体,能够第一时间将其归入实体关系库,从而避免现有技术中依赖固有的语言库,不能对新生的实体进行语义相关度分析的问题。
步骤106,根据用户实体的当前语境在更新后的预设的实体关系库中确定用户实体对应的用户连通词集合。
实体关系库可以包括如图2所示的图式的表征各个实体之间的连通关系的实体关系库,还可以包括表征各个实体之间的连通关系的数据表格。以图2所示的实体关系库为例,图中“填四川”、“海上传奇”、“边城”、“开埠”为各个实体,其余词为与各个实体连通的关联词,连通线段上的数值表示从连通线段起始端的实体指向连通线段终止端的实体对应的权值大小。
需要说明的是,以当前实体为例,当研究对象为当前实体时,与当前实体直接连通的关联词的词类型可以是实体类,也可以是非实体类。即,当研究对象为当前实体时,与当前实体直接连通的其他实体也作为关联词对待。
根据图2中的实体关系库能够看出,每个实体都有与其直接连通的多个关联词。考虑到实体的当前含义不同时,与其直接连通的对应同一含义的关联词也会不同,步骤106中,根据用户实体的当前语境在更新后的预设的实体关系库中确定用户实体对应的用户连通词集合,包括:(1)根据当前语境确定与用户实体相关的用户相关词集合,在预设的实体关系库中确定与用户实体直接连通的用户连通词集合。其中,用户相关词集合由用户实体的上下文包括的词组成,用户连通词集合由预设的实体关系库中直接与用户实体连通的词组成。考虑到用户实体的上下文内容较多时,在用户实体的上下文中,提取用户实体之前的s/2个词,用户实体之后的s/2个词,提取到的s个词组成用户相关词集合,s可以根据需要选取。(2)利用用户相关词集合对用户连通词集合进行优化,将优化后的用户连通词集合作为用户实体对应的用户连通词集合。其中,优化方式可以是将用户相关词集与用户连通词集合取交集,对用户连通词集合中的用户连通词进行过滤,过滤得到的用户连通词集合作为用户实体对应的用户连通词集合。
以用户实体是实体“填四川”、用户的信息是“王雨最新小说《填四川》已经出版了”为例,过程(1)中,根据“填四川”的上下文确定与“填四川”相关的用户相关词集合为:王雨、小说、出版。并且,如图2所示,过程(1)中,确定与“填四川”直接连通的用户关联词集合为:王雨、小说、秦岚、清朝、黄海冰、连续剧、电视剧、长篇小说。过程(2)中,将集合“王雨、小说、出版”与集合“王雨、小说、秦岚、清朝、黄海冰、连续剧、电视剧、长篇小说”取交集,将用户连通词集合优化为“王雨、小说”作为最终的用户连通词集合。步骤106中,根据当前语境确定用户连通集合,能够根据当前语境明确用户实体的含义,从而在预设的实体关系库中提取出对应同一含义的用户连通词集合,进而准确确定与用户实体对应的目标实体。
步骤108,将用户连通词连通的实体中除用户实体以外的其他实体依次确定为待定目标实体,并分别确定各个待定目标实体对应的目标连通词集合。
用户连通词集合中包括的词称为用户连通词,在预设的实体关系库中,用户连通词可以通过一条线段与其他实体连通,还可以通过多条线段与其他实体连通,将用户连通词连通的除用户实体以外的实体均确定为待定目标实体,用户实体对应的目标实体在待定目标实体中选择出。基于预设的实体关系库的连通性,还能够确定各个待定目标实体对应的目标连通词集合,其中,对于当前待定目标实体而言,目标连通词集合是与当前待定目标实体直接连通的词集合。
以图2为例,设定用户实体为“填四川”,设定用户连通词集合为:“王雨、小说”,即,用户连通词为“王雨、小说”。图2中,“王雨”与实体“海上传奇”连通,“王雨”通过关联词“作家”和“沈从文”与实体“边城”连通,“王雨”与实体“开埠”连通,“小说”与实体“边城”连通,则能够确定,对于用户实体“填四川”而言,待定目标实体有“海上传奇”、“边城”和“开埠”。待定目标实体“海上传奇”对应的目标连通词集合为:“上海”、“贾樟柯”、“电影”、“王雨”;待定目标实体“边城”对应的目标连通词集合为:“小说”、“沈从文”;待定目标实体“开埠”对应的目标连通词集合为:“王雨”、“长篇小说”、“重庆”、“作品”。
步骤110,在预设的实体关系库中逐一选定各个待定目标实体,根据用户连通词集合和当前待定目标实体的目标连通词集合,确定用户实体与当前待定目标实体之间的多个连通路径。
一种优选的实施例中,根据用户连通词集合和当前待定目标实体的目标连通词集合,确定用户实体与当前待定目标实体之间的多个连通路径,包括:(1)检测用户连通词集合中的词与当前待定目标实体的目标连通词集合中的词的连通关系;(2)当用户连通词集合中的第一词与目标连通词集合中的第二词连通时,将用户实体与当前待定目标实体之间的包含该第一词和该第二词的路径确定为用户实体与当前待定目标实体之间的连通路径。
以图2为例,设定用户实体为“填四川”,设定用户连通词集合为:“王雨、小说”,设定待定目标实体包括“海上传奇”、“边城”。待定目标实体“海上传奇”对应的目标连通词集合为:“上海”、“贾樟柯”、“电影”、“王雨”;待定目标实体“边城”对应的目标连通词集合为:“小说”、“沈从文”。根据“填四川”的用户连通词集合和“海上传奇”的目标连通词集合,能够确定“填四川”和“海上传奇”之间存在一条连通路径“填四川-王雨-海上传奇”。根据“填四川”的用户连通词集合和“边城”的目标连通词集合,能够确定“填四川”和“边城”之间存在多条连通路径,分别为“填四川-王雨-作家-沈从文-边城”、“填四川-小说-边城”。通过步骤110,能够确定用户实体与各个待定目标实体之间的连通路径,从而为计算语义相关度做准备。
步骤112,分别计算各个连通路径对应的路径权值,根据各个连通路径对应的路径权值确定用户实体与当前待定目标实体之间的语义相关度。
本发明实施例中语义相关度包括实体之间的关系度和实体之间的语义关系连接词两种含义。当需要确定用户实体与当前待定目标实体之间的关系度时,步骤112中,分别计算各个连通路径对应的路径权值,根据各个连通路径对应的路径权值确定用户实体与当前待定目标实体之间的语义相关度,包括:(1)对于用户实体与当前待定目标实体之间的当前连通路径,计算组成当前连通路径的各个连通线段对应的权值之和,以及组成当前连通路径的词数量之和,根据权值之和词数量之和,确定当前连通路径的路径权值;(2)将各个连通路径的路径权值加和,得到用户实体与当前待定目标实体之间的关系度。
以图2为例,设定用户实体为“填四川”,设定待定目标实体包括“海上传奇”、“边城”,“填四川”和“海上传奇”之间存在一条连通路径“填四川-王雨-海上传奇”;“填四川”和“边城”之间存在多条连通路径,分别为“填四川-王雨-作家-沈从文-边城”、“填四川-小说-边城”。以计算“填四川”和“边城”之间的关系度为例,过程(1)中,首先确定当前连通路径为“填四川-王雨-作家-沈从文-边城”,计算组成当前连通路径的各个连通线段对应的权值之和为0.042+0.012+0.041+0.077=0.172。计算权值之和时,如果同一路径上两个方向均有权值,取最大值计算。过程(1)中,还确定组成当前连通路径的词数量之和为5(实体也是词的一种)。过程(1)中,根据权值之和词数量之和,确定当前连通路径的路径权值是将词数量之和减2之后的值作为2的次方数,计算得到转换系数,用权值之和比上该转换系数,将得到的结果作为路径权值,即用0.172/2^(5-2),得到当前连通路径的路径权值为0.0215。
同理,当前连通路径为“填四川-小说-边城”时,通过过程(1)能够计算得到路径权值为(0.013+0.031)/2^(3-2)=0.022。过程(2)中,将各个连通路径的路径权值加和,得到用户实体与当前待定目标实体之间的关系度。则“填四川”和“边城”之间的关系度为0.0215+0.022=0.0435,取0.044。
通过步骤112,能够结合预设的实体关系库计算用户实体与当前待定目标实体之间的关系度,从而分别计算用户实体与各个待定目标实体之间的关系度。当待定目标实体为多个时,能够将关系度最大的待定目标实体确定为用户实体对应的目标实体,当用户搜索用户实体时,将目标实体与搜索结果一同推荐给用户,从而为用户提供更多需要的信息。
另外,当需要确定用户实体与当前待定目标实体之间的语义关系连接词时,步骤112中,分别计算各个连通路径对应的路径权值,根据各个连通路径对应的路径权值确定用户实体与当前待定目标实体之间的语义相关度,包括:(1)对于用户实体与当前待定目标实体之间的当前连通路径,计算组成当前连通路径的各个连通线段对应的权值的倒数之和,将倒数之和确定为当前连通路径的路径权值;(2)比较各个连通路径的路径权值大小,选择路径权值最小的连通路径;(3)将选择的连通路径包括的词作为用户实体与当前待定目标实体之间的语义关系连接词。
再次以计算图2中“填四川”和“边城”之间的语义关系连接词为例,过程(1)中,首先确定当前连通路径为“填四川-王雨-作家-沈从文-边城”,计算组成当前连通路径的各个连通线段对应的权值的倒数之和为1/0.023+1/0.012+1/0.041+1/0.077=164.2。计算权值之和时,如果同一路径上两个方向均有权值,取最小值计算。将该倒数之和164.2作为当前连通路径的路径权值。同理,当前连通路径为“填四川-小说-边城”时,计算组成当前连通路径的各个连通线段对应的权值的倒数之和为1/0.013+1/0.031=109.2,将该倒数之和109.2作为当前连通路径的路径权值。过程(2)中,经过比较之后选择路径权值最小的连通路径为“填四川-小说-边城”。过程(3)中,将过程(2)选择的连通路径“填四川-小说-边城”中包括的词“小说”作为“填四川”和“边城”之间的语义关系连接词。
通过步骤112,还能够确定用户实体与当前待定目标实体之间的语义关系连接词,从而分别确定用户实体与各个待定目标实体之间的语义关系连接词。当待定目标实体为多个时,能够将语义关系连接词符合要求的待定目标实体确定为用户实体对应的目标实体,根据该目标实体进行用户实体的聚类分析工作。
步骤114,根据用户实体与各个待定目标实体之间的语义相关度确定用户实体对应的目标实体。
当通过上述步骤102至步骤112,计算出用户实体与各个待定目标实体之间的关系度时,步骤114中,能够将关系度最大的待定目标实体确定为用户实体对应的目标实体。当通过上述步骤102至步骤112,计算出用户实体与各个待定目标实体之间的语义关系连接词时,步骤114中,能够将语义关系连接词符合要求的待定目标实体确定为用户实体对应的目标实体。
本实施例中,确定用户实体对应的目标实体之后,能够将目标实体推荐给用户,为用户提供更多与目标实体有关的信息,还能够根据目标实体对用户实体进行聚类分析工作。
一种实施方式中,当确定求实体A与实体B、C、D、E、F之间的关系度分别为20、25、10、5、3时,聚类BC和DEF,BC与A关系最近的组,DEF远之。
应用上述提到的步骤102至步骤114中的方法,计算图2中“填四川”与“开埠”两实体之间的关系度为:(<“填四川”,“王雨”>+<“开埠”,“王雨”>)/2+(<“填四川”,“长篇小说”>+<“开埠”,“长篇小说”>)/2,即(0.042+0.056)/2+(0.052+0.071)/2=0.11,语义关系连接词为“长篇小说”。
应用上述提到的步骤102至步骤114中的方法,计算图2中“填四川”与“海上传奇”两实体之间的关系度为:(<“填四川”,“王雨”>+<“海上传奇”,“王雨”>)/2,即(0.042+0.011)/2=0.026,语义关系连接词为“王雨”。
根据前述内容可知,“填四川”和“边城”之间的关系度为0.044,比较“填四川”分别与“开埠”、“边城”、“海上传奇”之间的关系度可知,由于“填四川”、“开埠”、“边城”均为小说,“海上传奇”为电影,因此“填四川”与“海上传奇”之间的关系度最低。
通过上述步骤102至步骤114中的方法,还能够计算预设的实体关系库中任意的两实体之间的关系度,根据关系度大小判断实体之间的相关性大小。例如,实体A与实体B之间的关系度大于实体A与实体C之间的关系度,说明实体A与实体B之间语义接近度高。
当计算预设的实体关系库中任意的两实体A与B之间的关系度大小时,不需要结合语境,能够直接确定与A直接连通的连通词集合,直接确定与B直接连通的连通词集合,将这两个连通词集合分别作为用户连通词集合和当前待定目标实体的目标连通词集合,通过上述步骤110和步骤112,确定用户实体、即实体A,与当前待定目标实体、即实体B之间的语义相关度。
综上,上述步骤102至步骤114中的基于语义相关度的目标实体确定方法,能够利用用户实体所在的语境,在预设的实体关系库中准确计算用户实体与待定目标实体之间的语义相关度,从而准确确定用户实体对应的目标实体。
本实施例中的方法解决了以下技术问题:
1、现有技术主要有两种方法:一种是语言方法的专家采用人工的方式,根据词义相近性和日常经验,人工构建实体语义知识库,此种方法构建速度慢,不能满足实际需要。而本实施例则完全由机器生成,构建和更新速度快;另一种为机器抽取实体间语义相关度,方法是在同一个上下文中,通过关联动词、关联名词特征,或通过相关词的余玄值求得相似度度量,来计算实体间的关系,并加以分类。这种方法计算的前提是,两个实体在相近的上下文中同时出现,且实体间具有明确的结构关系,否则就无法推测两实体间关系。本实施例中的方法,用户实体和目标实体不需要在相近的上下文中同时出现,提高了计算的灵活性。
2、现有技术不能有效区分实体的歧义。如“人大”,可能指的中国人民大学,也可能指人民代表大会,在不同的上下文语境中,实体可能存在不同的含义。本实施例中的方法能够根据用户实体的语境确定用户实体的含义,从而更加准确的进行语义分析与目标实体的确定。
3、现有技术建立在有限的词典库、知识库或语料库基础上,或者通过固化的语料库学习而得的模型,不能快速计算各类新出现的实体(如“十八届五中全会”)。本实施例中的方法基于预设的实体关系库,该实体关系库能够动态实时更新,因此能够计算各类新出现的实体。
4、现有技术往往针对某类主题文本进行训练,如医学类主题、历史学类主题等,从而实现对主题内的实体进行关系计算,但不能适应其它各类主题环境。本实施例中的方法基于预设的实体关系库,该实体关系库包含各类实体和关联词,能够适应各类主题环境。
本实施例中的方法具有如下用途:
1、语义相关度计算对于机器翻译、信息检索、文本分析等自然语言处理研究任务具有重要意义。在机器自然语言翻译中,例如要翻译“这个鸡腿堡很好吃”这句话,通过语料库检索得到相似的翻译:
(1)这个汉堡很好吃/Thishamburgertastegood
(2)这个人很好吃/Thismanlikeseating
首先通过计算词语的相关度,我们发现“鸡腿堡”和“汉堡包”的语义相关度比“鸡腿堡”和“人”的语义相关度高很多,我们用“这个汉堡很好吃”这个实例进行类比翻译,得到翻译的结果为:Thischickenburgertastegood。如果我们选用第二个例子作为实例,将得到错误的译文:Thischickenburgerlikeseating。
2、在用户兴趣建模过程中,通过分析用户浏览过或者分享过的历史文本(如新闻资讯等)来提取用户实体,再从库中挑选语义相关度接近的目标实体,将目标实体可以当作关键字或者标签,为用户进行更精准的兴趣建模;
3、网站或应用软件,为了提升用户阅读体验,一些应用场景中增加了针对文本中实体的、用户可能感兴趣的内容链接,这些链接可能指向实体相关的一个商品或者指向另一篇与此实体接近的主题新闻或知识参考,以帮助用户了解更多的信息;
4、用于对多个实体的聚类。如在无学习的基础上通过计算实体之间的语义相关度,根据语义相关度的大小,可实现对多实体的聚类。
本发明实施例还提供了如图3所示的方法,通过该方法能够生成预设的实体关系库,如图3所示,该方法包括:
步骤202,确定归入预设的实体关系库的多个实体,并逐一选定各个实体。
由于预设的实体关系库是基于很多个实体建立的,因此首先确定归入预设的实体关系库的多个实体,并逐一选定各个实体进行后续处理。例如,多个实体包括“填四川”、“边城”、“开埠”、“海上传奇”。
步骤204,根据当前实体进行搜索,根据搜索结果确定当前实体对应的多个候选关联词,以及各个候选关联词对应的初始权值,根据上述多个候选关联词以及上述初始权值建立当前实体的候选关联词表。
通过搜索引擎对当前实体进行搜索。其中,根据搜索结果确定当前实体对应的多个候选关联词,以及各个候选关联词对应的初始权值,包括以下过程:(1)在搜索结果中提取包含当前实体的多条句子文本和多条句子文本各自对应的链接地址;(2)两两比较多条句子文本,获取两字以上的重复语块,将重复语块确定为当前实体对应的候选关联词;(3)比较候选关联词所在句子文本对应的链接地址的重复情况,根据重复情况对候选关联词赋初值,将该初值作为候选关联词对应的初始权值。
过程(1)中,在搜索结果中提取包含当前实体的不重复的前n条句子文本,以及该n条句子文本各自对应的链接地址,其中,n为大于1的整数。过程(2)中,首先在提取到的n条句子文本中分别去除当前实体,并用空格代替;然后将这n条句子文本两两比较,获取等于或者大于两个字的重复出现的语块,不含空格和标点符号,并将该语块确定为候选关联词。过程(3)中,确定每个候选关联词对应的链接地址。两两比较链接地址的重复情况,若两个候选关联词的链接地址的一级域名不同,则对这两个候选关联词均赋值1,若一级域名相同,则对这两个候选关联词均赋值1/2,若二级域名相同,则对这两个候选关联词均赋值1/3,若三级域名相同,则对这两个候选关联词均赋值1/4,以此类推。比较结束后,对每个候选关联词的赋值进行累加计算,计算结果为该候选关联词的初始权值。
通过过程(1)(2)(3),确定当前实体对应的多个候选关联词,以及各个候选关联词对应的初始权值后,步骤204中,还根据多个候选关联词以及各自的初始权值建立当前实体的候选关联词表,该候选关联词表包括当前实体的多个候选关联词,以及各个候选关联词对应的初始权值。
步骤206,根据各个候选关联词在候选关联词表中的重要程度,以及各个候选关联词在已存储的关联词表中的重要程度,确定各个候选关联词的最终权值,根据该最终权值建立当前实体的关联词表。
考虑到仅通过链接地址的重复情况确定候选关联词的权值不够可靠,步骤206中,还根据各个候选关联词在候选关联词表中的重要程度,以及各个候选关联词在已存储的关联词表中的重要程度,确定各个候选关联词的最终权值,具体包括:(1)对候选关联词表中的当前候选关联词,计算当前候选关联词的初始权值与各个候选关联词的初始权值之和的比值,将该比值作为当前候选关联词的第一部分权值因子;(2)在已存储的关联词表中,根据包含当前候选关联词的关联词表数量和已存储的关联词表总数,确定当前候选关联词的第二部分权值因子;(3)结合第一部分权值因子和第二部分权值因子确定当前候选关联词的最终权值。
过程(1)中,对于当前候选关联词,首选确定当前候选关联词的初始权值T,然后确定候选关联词表中所有候选关联词的初始权值之和F,最后计算T与F的比值,将该比值STF=T/F作为当前候选关联词的第一部分权值因子。过程(2)中,首先确定已经存储的建立好的关联词表数量M,然后对于当前候选关联词,在已存储的关联词表中,计算出包含当前候选关联词的关联词表的数量N,最后利用公式IDF=logM/N计算IDF,将IDF确定为当前候选关联词的第二部分权值因子。过程(3)中,利用公式W=STF*IDF计算W,将W作为当前候选关联词的最终权值。重复过程(1)(2)(3),能够计算出候选关联词表中各个候选关联词的最终权值。
步骤206中,在算出当前实体的候选关联词表中各个候选关联词的最终权值之后,将最终权值从高到低排序,选择前v个候选关联词作为当前实体的关联词,建立当前实体的关联词表,该关联词表包括多个关联词以及各个对应关联词对应权值。其中,v为大于1的整数。
通过上述步骤204至步骤206,能够建立各个实体对应的关联词表,以实体名“填四川”为例,通过上述步骤204至步骤206能够得到其关联词表如下:
步骤208,将上述各个实体的关联词表拼接起来,获得前述预设的实体关系库。例如,将“填四川”、“边城”、“开埠”、“海上传奇”的关联词表拼接起来,得到如图2所示的实体关系库。
能够理解,以“填四川”为实体,确定“填四川”的关联词以及各个关联词对应的权值后,在建立如图2所示的实体关系库时,各个关联词对应的权值就是实体“填四川”与各个关联词之间的连通线段对应的权值,并且,“填四川”与各个关联词之间的连通线段由“填四川”出发,指向各个关联词。
图2中,以“填四川”为实体,计算出关联词包括“王雨”,且“填四川”到“王雨”的权值为0.042,反之,以“王雨”为实体,计算出关联词包括“填四川”,且“王雨”到“填四川”的权值为0.023,因此图2中,“王雨”与“填四川”之间存在两条方向相反的连通线段,且各自权值不同。
通过上述步骤202至步骤208,能够建立预设的实体关系库,从而为执行步骤102至步骤114,计算用户实体与多个待定目标实体之间的语义相关度,在多个待定目标实体中确定目标实体做准备。
另外,在前述步骤104中,根据上述用户实体动态更新预设的实体关系库时,可以将用户实体作为当前实体,采用步骤202至步骤208相同的方式执行,如:(1)通过搜索引擎对用户实体进行搜索;(2)根据搜索结果确定用户实体对应的多个候选关联词,以及各个候选关联词对应的初始权值,根据多个候选关联词以及初始权值建立用户实体的候选关联词表;(3)根据各个候选关联词在候选关联词表中的重要程度,以及各个候选关联词在已存储的关联词表中的重要程度,确定各个候选关联词的最终权值,根据最终权值建立用户实体的关联词表;(4)将用户实体的关联词表与预设的实体关系库进行拼接,得到更新后的预设的实体关系库。
利用用户实体更新实体关系库的过程与通过步骤202至步骤208建立实体关系库的过程相类似,具体过程可以参照上述步骤202至步骤208的描述,因此这里不再赘述。
本实施例中,在维护实体关系库时,能够实时添加新的实体,并根据新的实体的搜索结果,更新实体关系库,从而做到实时动态更新实体关系库,使实体关系库包括各种类别的实体,并且包括各种新出现的实体,满足根据用户实体确定目标实体的需求。
实施例二
为了进一步说明实施例一中的基于语义相关度的目标实体确定方法,如图4所示,本发明第二实施例提供了一种基于语义相关度的目标实体确定装置,用于执行上述方法,该装置包括:
用户实体确定模块41,用于从用户的信息中确定用户实体,以及用户实体的当前语境;
实体关系库优化模块42,用于判断预设的实体关系库是否包含用户实体,若预设的实体关系库不包含用户实体,则根据用户实体动态更新预设的实体关系库;其中,预设的实体关系库包括多个实体,多个实体之间通过关联词连通,实体与关联词之间的连通线段具有对应的权值;
用户连通词集合生成模块43,用于根据用户实体的当前语境在更新后的预设的实体关系库中确定用户实体对应的用户连通词集合;
待定目标实体确定模块44,用于将用户连通词连通的实体中除用户实体以外的其他实体依次确定为待定目标实体,并分别确定各个待定目标实体对应的目标连通词集合;
连通路径生成模块45,用于在预设的实体关系库中逐一选定各个待定目标实体,根据用户连通词集合和当前待定目标实体的目标连通词集合,确定用户实体与当前待定目标实体之间的多个连通路径;
语义相关度分析模块46,用于分别计算各个连通路径对应的路径权值,根据各个连通路径对应的路径权值确定用户实体与当前待定目标实体之间的语义相关度;
目标实体确定模块47,用于根据用户实体与各个待定目标实体之间的语义相关度确定用户实体对应的目标实体。
通过本实施例中的基于语义相关度的目标实体确定装置,能够利用用户实体所在的语境,在预设的实体关系库中准确计算用户实体与待定目标实体之间的语义相关度,从而准确确定用户实体对应的目标实体。
优选地,上述用户连通词集合生成模块43包括:初步确定单元,用于根据当前语境确定与用户实体相关的用户相关词集合,在预设的实体关系库中确定与用户实体直接连通的用户连通词集合;集合优化单元,用于利用用户相关词集合对用户连通词集合进行优化,将优化后的用户连通词集合作为用户实体对应的用户连通词集合。
本实施例中,通过用户连通词集合生成模块43中的初步确定单元和集合优化单元,根据当前语境确定用户连通集合,能够根据当前语境明确用户实体的含义,从而在预设的实体关系库中提取出对应同一含义的用户连通词集合,进而准确确定与用户实体对应的目标实体。
优选地,连通路径生成模块45包括:连通关系检测单元,用于检测用户连通词集合中的词与当前待定目标实体的目标连通词集合中的词的连通关系;连通路径确定单元,用于当用户连通词集合中的第一词与目标连通词集合中的第二词连通时,将用户实体与当前待定目标实体之间的包含第一词和第二词的路径确定为用户实体与当前待定目标实体之间的连通路径。
优选地,语义相关度分析模块46包括:路径权值第一计算单元,用于对于用户实体与当前待定目标实体之间的当前连通路径,计算组成当前连通路径的各个连通线段对应的权值之和,以及组成当前连通路径的词数量之和,根据权值之和词数量之和,确定当前连通路径的路径权值;关系度计算单元,将各个连通路径的路径权值加和,得到用户实体与当前待定目标实体之间的关系度。
本实施例中,通过语义相关度分析模块46、路径权值第一计算单元、关系度计算单元,能够结合预设的实体关系库计算用户实体与当前待定目标实体之间的关系度,从而分别计算用户实体与各个待定目标实体之间的关系度。当待定目标实体为多个时,能够将关系度最大的待定目标实体确定为用户实体对应的目标实体。应用中,当用户搜索用户实体时,将目标实体与搜索结果一同推荐给用户,从而为用户提供更多需要的信息。
优选地,语义相关度分析模块46包括:路径权值第二计算单元,用于对于用户实体与当前待定目标实体之间的当前连通路径,计算组成当前连通路径的各个连通线段对应的权值的倒数之和,将倒数之和确定为当前连通路径的路径权值;路径权值比较单元,用于比较各个连通路径的路径权值大小,选择路径权值最小的连通路径;语义关系连接词确定单元,用于将选择的连通路径包括的词作为用户实体与当前待定目标实体之间的语义关系连接词。
本实施例中,通过语义相关度分析模块46、路径权值第二计算单元、路径权值比较单元和语义关系连接词确定单元,能够确定用户实体与当前待定目标实体之间的语义关系连接词,从而分别确定用户实体与各个待定目标实体之间的语义关系连接词。当待定目标实体为多个时,能够将语义关系连接词符合要求的待定目标实体确定为用户实体对应的目标实体,根据该目标实体可进行用户实体的语义聚类分析工作。
如图5所示,本实施例中的装置还包括以下模块,通过以下模块能够生成实体关系库:
实体选定模块51,用于确定归入预设的实体关系库的多个实体,并逐一选定各个实体;
候选关联词表生成模块52,用于根据当前实体进行搜索,根据搜索结果确定当前实体对应的多个候选关联词,以及各个候选关联词对应的初始权值,根据多个候选关联词以及初始权值建立当前实体的候选关联词表;
关联词表生成模块53,用于根据各个候选关联词在候选关联词表中的重要程度,以及各个候选关联词在已存储的关联词表中的重要程度,确定各个候选关联词的最终权值,根据最终权值建立当前实体的关联词表;
实体关系库建立模块54,用于将各个实体的关联词表拼接起来,获得预设的实体关系库。
通过图5所示的模块,能够建立预设的实体关系库,从而为计算用户实体与多个待定目标实体之间的语义相关度,在多个待定目标实体中确定目标实体做准备。本实施例中,在维护实体关系库时,能够实时添加新的实体,并根据新的实体的搜索结果,更新实体关系库,从而做到实时动态更新实体关系库,使实体关系库包括各种类别的实体,并且包括各种新出现的实体,满足根据用户实体确定目标实体的需求。
优选地,候选关联词表生成模块52包括:句子文本提取单元,用于在搜索结果中提取包含当前实体的多条句子文本和多条句子文本各自对应的链接地址;候选关联词确定单元,用于两两比较多条句子文本,获取两字以上的重复语块(不含空格和标点),将重复语块确定为当前实体对应的候选关联词;初始权值确定单元,用于比较候选关联词所在句子文本对应的链接地址的重复情况,根据重复情况对候选关联词赋初值,将初值作为候选关联词对应的初始权值。
优选地,关联词表生成模块53包括:第一部分权值因子计算单元,用于对候选关联词表中的当前候选关联词,计算当前候选关联词的初始权值与各个候选关联词的初始权值之和的比值,将比值作为当前候选关联词的第一部分权值因子;第二部分权值因子计算单元,用于在已存储的关联词表中,根据包含当前候选关联词的关联词表数量和已存储的关联词表总数,确定当前候选关联词的第二部分权值因子;最终权值计算单元,用于结合第一部分权值因子和第二部分权值因子确定当前候选关联词的最终权值。
本发明实施例所提供的基于语义相关度的目标实体确定装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.基于语义相关度的目标实体确定方法,其特征在于,所述方法包括:
从用户的信息中确定用户实体,以及所述用户实体的当前语境;
判断预设的实体关系库是否包含所述用户实体,若所述预设的实体关系库不包含所述用户实体,则根据所述用户实体动态更新所述预设的实体关系库;其中,所述预设的实体关系库包括多个实体,所述多个实体之间通过关联词连通,所述实体与所述关联词之间的连通线段具有对应的权值;
根据所述用户实体的当前语境在更新后的所述预设的实体关系库中确定所述用户实体对应的用户连通词集合;
将所述用户连通词连通的实体中除所述用户实体以外的其他实体依次确定为待定目标实体,并分别确定各个待定目标实体对应的目标连通词集合;
在所述预设的实体关系库中逐一选定各个待定目标实体,根据所述用户连通词集合和当前待定目标实体的目标连通词集合,确定所述用户实体与所述当前待定目标实体之间的多个连通路径;
分别计算各个所述连通路径对应的路径权值,根据各个所述连通路径对应的路径权值确定所述用户实体与所述当前待定目标实体之间的语义相关度;
根据所述用户实体与各个所述待定目标实体之间的语义相关度确定所述用户实体对应的目标实体。
2.根据权利要求1所述的方法,其特征在于,根据所述用户实体的当前语境在更新后的所述预设的实体关系库中确定所述用户实体对应的用户连通词集合,包括:
根据所述当前语境确定与所述用户实体相关的用户相关词集合,在预设的实体关系库中确定与所述用户实体直接连通的用户连通词集合;
利用所述用户相关词集合对所述用户连通词集合进行优化,将优化后的所述用户连通词集合作为所述用户实体对应的用户连通词集合。
3.根据权利要求1所述的方法,其特征在于,根据所述用户连通词集合和当前待定目标实体的目标连通词集合,确定所述用户实体与所述当前待定目标实体之间的多个连通路径,包括:
检测所述用户连通词集合中的词与当前待定目标实体的目标连通词集合中的词的连通关系;
当所述用户连通词集合中的第一词与所述目标连通词集合中的第二词连通时,将所述用户实体与所述当前待定目标实体之间的包含所述第一词和所述第二词的路径确定为所述用户实体与所述当前待定目标实体之间的连通路径。
4.根据权利要求1所述的方法,其特征在于,分别计算各个所述连通路径对应的路径权值,根据各个所述连通路径对应的路径权值确定所述用户实体与所述当前待定目标实体之间的语义相关度,包括:
对于所述用户实体与所述当前待定目标实体之间的当前连通路径,计算组成所述当前连通路径的各个连通线段对应的权值之和,以及组成所述当前连通路径的词数量之和,根据所述权值之和所述词数量之和,确定所述当前连通路径的路径权值;
将各个所述连通路径的路径权值加和,得到所述用户实体与所述当前待定目标实体之间的关系度。
5.根据权利要求1所述的方法,其特征在于,分别计算各个所述连通路径对应的路径权值,根据各个所述连通路径对应的路径权值确定所述用户实体与所述当前待定目标实体之间的语义相关度,包括:
对于所述用户实体与所述当前待定目标实体之间的当前连通路径,计算组成所述当前连通路径的各个连通线段对应的权值的倒数之和,将所述倒数之和确定为所述当前连通路径的路径权值;
比较各个所述连通路径的路径权值大小,选择所述路径权值最小的连通路径;
将选择的所述连通路径包括的词作为所述用户实体与所述当前待定目标实体之间的语义关系连接词。
6.根据权利要求1至5任一项所述的方法,其特征在于,在从用户的信息中确定用户实体之前,所述方法还包括:
确定归入所述预设的实体关系库的多个实体,并逐一选定各个实体;
根据所述当前实体进行搜索,根据所述搜索结果确定所述当前实体对应的多个候选关联词,以及各个所述候选关联词对应的初始权值,根据所述多个候选关联词以及所述初始权值建立所述当前实体的候选关联词表;
根据各个所述候选关联词在所述候选关联词表中的重要程度,以及各个所述候选关联词在已存储的关联词表中的重要程度,确定各个所述候选关联词的最终权值,根据所述最终权值建立所述当前实体的关联词表;
将所述各个实体的关联词表拼接起来,获得所述预设的实体关系库。
7.根据权利要求6所述的方法,其特征在于,根据所述搜索结果确定所述当前实体对应的多个候选关联词,以及各个所述候选关联词对应的初始权值,包括:
在所述搜索结果中提取包含所述当前实体的多条句子文本和所述多条句子文本各自对应的链接地址;
两两比较所述多条句子文本,获取两字以上的重复语块,将所述重复语块确定为所述当前实体对应的候选关联词;
比较所述候选关联词所在句子文本对应的链接地址的重复情况,根据所述重复情况对所述候选关联词赋初值,将所述初值作为所述候选关联词对应的初始权值。
8.根据权利要求6所述的方法,其特征在于,根据各个所述候选关联词在所述候选关联词表中的重要程度,以及各个所述候选关联词在已存储的关联词表中的重要程度,确定各个所述候选关联词的最终权值,包括:
对所述候选关联词表中的当前候选关联词,计算所述当前候选关联词的初始权值与各个所述候选关联词的初始权值之和的比值,将所述比值作为所述当前候选关联词的第一部分权值因子;
在已存储的关联词表中,根据包含所述当前候选关联词的关联词表数量和已存储的关联词表总数,确定所述当前候选关联词的第二部分权值因子;
结合所述第一部分权值因子和所述第二部分权值因子确定所述当前候选关联词的最终权值。
9.基于语义相关度的目标实体确定装置,其特征在于,所述装置包括:
用户实体确定模块,用于从用户的信息中确定用户实体,以及所述用户实体的当前语境;
实体关系库优化模块,用于判断预设的实体关系库是否包含所述用户实体,若所述预设的实体关系库不包含所述用户实体,则根据所述用户实体动态更新所述预设的实体关系库;其中,所述预设的实体关系库包括多个实体,所述多个实体之间通过关联词连通,所述实体与所述关联词之间的连通线段具有对应的权值;
用户连通词集合生成模块,用于根据所述用户实体的当前语境在更新后的所述预设的实体关系库中确定所述用户实体对应的用户连通词集合;
待定目标实体确定模块,用于将所述用户连通词连通的实体中除所述用户实体以外的其他实体依次确定为待定目标实体,并分别确定各个待定目标实体对应的目标连通词集合;
连通路径生成模块,用于在所述预设的实体关系库中逐一选定各个待定目标实体,根据所述用户连通词集合和当前待定目标实体的目标连通词集合,确定所述用户实体与所述当前待定目标实体之间的多个连通路径;
语义相关度分析模块,用于分别计算各个所述连通路径对应的路径权值,根据各个所述连通路径对应的路径权值确定所述用户实体与所述当前待定目标实体之间的语义相关度;
目标实体确定模块,用于根据所述用户实体与各个所述待定目标实体之间的语义相关度确定所述用户实体对应的目标实体。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
实体选定模块,用于确定归入所述预设的实体关系库的多个实体,并逐一选定各个实体;
候选关联词表生成模块,用于根据所述当前实体进行搜索,根据所述搜索结果确定所述当前实体对应的多个候选关联词,以及各个所述候选关联词对应的初始权值,根据所述多个候选关联词以及所述初始权值建立所述当前实体的候选关联词表;
关联词表生成模块,用于根据各个所述候选关联词在所述候选关联词表中的重要程度,以及各个所述候选关联词在已存储的关联词表中的重要程度,确定各个所述候选关联词的最终权值,根据所述最终权值建立所述当前实体的关联词表;
实体关系库建立模块,用于将所述各个实体的关联词表拼接起来,获得所述预设的实体关系库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610129768.8A CN105589976B (zh) | 2016-03-08 | 2016-03-08 | 基于语义相关度的目标实体确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610129768.8A CN105589976B (zh) | 2016-03-08 | 2016-03-08 | 基于语义相关度的目标实体确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105589976A true CN105589976A (zh) | 2016-05-18 |
CN105589976B CN105589976B (zh) | 2019-03-12 |
Family
ID=55929555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610129768.8A Expired - Fee Related CN105589976B (zh) | 2016-03-08 | 2016-03-08 | 基于语义相关度的目标实体确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105589976B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108334528A (zh) * | 2017-03-02 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 一种信息推荐方法和装置 |
CN110020126A (zh) * | 2017-07-26 | 2019-07-16 | 谷歌有限责任公司 | 电子内容的内容选择和呈现 |
CN110321446A (zh) * | 2019-07-08 | 2019-10-11 | 深圳市华云中盛科技有限公司 | 相关数据推荐方法、装置、计算机设备及存储介质 |
CN111191003A (zh) * | 2019-12-26 | 2020-05-22 | 东软集团股份有限公司 | 确定文本关联类型的方法、装置、存储介质和电子设备 |
CN113806558A (zh) * | 2021-09-22 | 2021-12-17 | 湖北天天数链技术有限公司 | 问题选择方法、知识图谱构建方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7325010B1 (en) * | 1999-12-22 | 2008-01-29 | Chungtae Kim | Information modeling method and database searching method using the information modeling method |
CN101630314A (zh) * | 2008-07-16 | 2010-01-20 | 中国科学院自动化研究所 | 一种基于领域知识的语义查询扩展方法 |
CN103544242A (zh) * | 2013-09-29 | 2014-01-29 | 广东工业大学 | 面向微博的情感实体搜索系统 |
CN104239513A (zh) * | 2014-09-16 | 2014-12-24 | 西安电子科技大学 | 一种面向领域数据的语义检索方法 |
CN105005554A (zh) * | 2015-06-30 | 2015-10-28 | 北京信息科技大学 | 一种词汇语义相关度的计算方法 |
CN105183770A (zh) * | 2015-08-06 | 2015-12-23 | 电子科技大学 | 一种基于图模型的中文集成实体链接方法 |
-
2016
- 2016-03-08 CN CN201610129768.8A patent/CN105589976B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7325010B1 (en) * | 1999-12-22 | 2008-01-29 | Chungtae Kim | Information modeling method and database searching method using the information modeling method |
CN101630314A (zh) * | 2008-07-16 | 2010-01-20 | 中国科学院自动化研究所 | 一种基于领域知识的语义查询扩展方法 |
CN103544242A (zh) * | 2013-09-29 | 2014-01-29 | 广东工业大学 | 面向微博的情感实体搜索系统 |
CN104239513A (zh) * | 2014-09-16 | 2014-12-24 | 西安电子科技大学 | 一种面向领域数据的语义检索方法 |
CN105005554A (zh) * | 2015-06-30 | 2015-10-28 | 北京信息科技大学 | 一种词汇语义相关度的计算方法 |
CN105183770A (zh) * | 2015-08-06 | 2015-12-23 | 电子科技大学 | 一种基于图模型的中文集成实体链接方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108334528A (zh) * | 2017-03-02 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 一种信息推荐方法和装置 |
CN108334528B (zh) * | 2017-03-02 | 2020-12-01 | 腾讯科技(深圳)有限公司 | 一种信息推荐方法和装置 |
CN110020126A (zh) * | 2017-07-26 | 2019-07-16 | 谷歌有限责任公司 | 电子内容的内容选择和呈现 |
US11663277B2 (en) | 2017-07-26 | 2023-05-30 | Google Llc | Content selection and presentation of electronic content |
CN110020126B (zh) * | 2017-07-26 | 2023-10-13 | 谷歌有限责任公司 | 电子内容的内容选择和呈现 |
CN110321446A (zh) * | 2019-07-08 | 2019-10-11 | 深圳市华云中盛科技有限公司 | 相关数据推荐方法、装置、计算机设备及存储介质 |
CN111191003A (zh) * | 2019-12-26 | 2020-05-22 | 东软集团股份有限公司 | 确定文本关联类型的方法、装置、存储介质和电子设备 |
CN111191003B (zh) * | 2019-12-26 | 2023-04-18 | 东软集团股份有限公司 | 确定文本关联类型的方法、装置、存储介质和电子设备 |
CN113806558A (zh) * | 2021-09-22 | 2021-12-17 | 湖北天天数链技术有限公司 | 问题选择方法、知识图谱构建方法、装置及电子设备 |
CN113806558B (zh) * | 2021-09-22 | 2024-03-26 | 湖北天天数链技术有限公司 | 问题选择方法、知识图谱构建方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN105589976B (zh) | 2019-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105589976A (zh) | 基于语义相关度的目标实体确定方法及装置 | |
CN109933686B (zh) | 歌曲标签预测方法、装置、服务器及存储介质 | |
CN105393248A (zh) | 非事实类提问应答系统以及方法 | |
US20200218779A1 (en) | Cognitive analysis of criteria when ingesting data to build a knowledge graph | |
Pablos et al. | V3: Unsupervised generation of domain aspect terms for aspect based sentiment analysis | |
JP2011221794A (ja) | 画像選定装置 | |
El-Shishtawy et al. | Keyphrase based Arabic summarizer (KPAS) | |
WO2023057988A1 (en) | Generation and use of content briefs for network content authoring | |
Siklósi | Using embedding models for lexical categorization in morphologically rich languages | |
Sanchez-Gomez et al. | Sentiment-oriented query-focused text summarization addressed with a multi-objective optimization approach | |
Nikas et al. | Open domain question answering over knowledge graphs using keyword search, answer type prediction, SPARQL and pre-trained neural models | |
Lefever et al. | Evaluation of automatic hypernym extraction from technical corpora in English and Dutch | |
Chenze et al. | Iterative approach for novel entity recognition of foods in social media messages | |
Eger et al. | How to probe sentence embeddings in low-resource languages: On structural design choices for probing task evaluation | |
Fahad et al. | Design and develop semantic textual document clustering model | |
JP2013222418A (ja) | パッセージ分割方法、装置、及びプログラム | |
Chinea-Rios et al. | Aspect on: an interactive solution for post-editing the aspect extraction based on online learning | |
CN104392002B (zh) | 一种大规模网页集合的近似重复查找方法 | |
Hätty et al. | Compound or Term Features? Analyzing Salience in Predicting the Difficulty of German Noun Compounds across Domains | |
Tong et al. | Topic-adaptive sentiment analysis on tweets via learning from multi-sources data | |
Leitão et al. | SRXCRM: Discovering Association Rules Between System Requirements and Product Specifications. | |
Del Tredici et al. | Assessing the potential of metaphoricity of verbs using corpus data | |
Pandi et al. | Corpus Linguistic Rules Based Review Sentence Selection for Opinion Targets Extraction and Opinion Orientation: A Distant Supervision Approach. | |
Cimiano | Ontology Learning Using Corpus-Derived Formal Contexts | |
KR102695536B1 (ko) | 부정/불량 식품 모니터링 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190312 Termination date: 20210308 |