CN113535883B - 商业场所实体链接方法、系统、电子设备及存储介质 - Google Patents
商业场所实体链接方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113535883B CN113535883B CN202110805305.XA CN202110805305A CN113535883B CN 113535883 B CN113535883 B CN 113535883B CN 202110805305 A CN202110805305 A CN 202110805305A CN 113535883 B CN113535883 B CN 113535883B
- Authority
- CN
- China
- Prior art keywords
- business
- name
- commercial
- names
- linked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013507 mapping Methods 0.000 claims abstract description 33
- 238000012216 screening Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims description 19
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 9
- 230000002441 reversible effect Effects 0.000 claims description 8
- 230000007704 transition Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000007425 progressive decline Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9558—Details of hyperlinks; Management of linked annotations
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种商业场所实体链接方法、系统、电子设备及存储介质。所述商业场所实体链接方法包括:获取文本中待链接的商业场所名称和对应的地理信息;从所述商业场所名称中解析出核心名;根据预先建立的商业场所与核心名的映射关系,确定与所述商业场所名称的核心名相匹配的初始候选商业场所;利用所述地理信息对所述初始候选商业场所进行筛选,以保留所述待链接商业场所所在城市的候选商业场所;根据所述商业场所名称和所述地理信息对所述候选商业场所进行相似度预测,将相似度符合预设要求的候选商业场确定为目标商业场所;将所述目标商业场与所述文本中待链接的商业场所名称进行链接。该方法实现了对文本中商业场所名称的实体链接的自动化。
Description
技术领域
本发明涉及大数据技术领域,特别涉及一种商业场所实体链接方法、系统、电子设备及存储介质。
背景技术
在对产品进行展示的文章中,内容化之所以有意义,是因为通过图文等各种形式充分展现了产品的特色和价值。但是对于OTA(Online Travel Agency,在线旅游社)网站的大部分的文章而言,在撰写的过程中并没有直接的跟对应的商业场所实体产生关联,也就是说,通过文章无法直接找到可以下单的商业场所,中间需要通过搜索等方式人为进行关联,从而提高了用户的费力度。为了有效改善用户使用体验,能够在阅读、种草的过程中轻松找到对应的商业场所,文章和产品的结合是必然。
实体链接是将一段文本中的提到的实体映射到知识库中对应的实体上。但是由于文章的数据较大,单纯通过人工对OTA网站的文本进行实体链接需要耗费大量的人力,也是不现实的。
发明内容
本发明要解决的技术问题是为了克服现有技术中单纯通过人工对网站的文本进行实体链接是不现实的缺陷,提供一种商业场所实体链接方法、系统、电子设备及存储介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供一种商业场所实体链接方法,所述商业场所实体链接方法包括:
获取文本中待链接的商业场所名称和对应于所述商业场所名称的待链接商业场所的地理信息;
从所述商业场所名称中解析出核心名,所述核心名为从商业场所名称中去除表征所述商业场所所在地区的前缀名和表征所述商业场所商业属性的后缀名后得到的商业场所的核心名称;
根据预先建立的商业场所与核心名的映射关系,确定与所述商业场所名称的核心名相匹配的初始候选商业场所;
利用所述地理信息对所述初始候选商业场所进行筛选,以保留所述待链接商业场所所在城市的候选商业场所;
根据所述商业场所名称和所述地理信息对所述候选商业场所进行相似度预测,将相似度符合预设要求的候选商业场确定为目标商业场所;
将所述目标商业场所在知识库中的实体与所述文本中待链接的商业场所名称进行链接。
较佳地,所述商业场所实体链接方法还包括:
以商业场所的核心名的N-gram序列为检索关键词建立倒排索引;
所述倒排索引用于表征所述商业场所与所述核心名的映射关系。
较佳地,所述根据预先建立的商业场所与核心名的映射关系,确定与所述商业场所名称的核心名相匹配的初始候选商业场所的步骤包括:
利用所述待链接商业场所核心名的N-gram序列在所述倒排索引进行检索;
召回倒排索引中N-gram命中率大于第二阈值的商业场所作为候选商业场所;
所述N-gram命中率为所述候选商业场所命中所述待链接商业场所核心名的N-gram序列的次数与所述待链接商业场所核心名的N-gram序列的个数的比值。
较佳地,所述根据所述商业场所名称和所述地理信息对所述候选商业场所进行相似度预测的步骤包括:
将所述待链接商业场所的城市编码的编码长度与所述待链接商业场所和所述候选商业场所的编码长度总和的比值作为前缀名相似度;
将商业场所名称的后缀名经统计得到的转移概率作为后缀名相似度;
将商业场所核心名的字符串编辑距离作为商业场所核心名相似度;
根据所述前缀名相似度、所述后缀名相似度和所述商业场所核心名相似度确定所述候选商业场所的相似度。
较佳地,在所述获取文本中待链接的商业场所名称和对应于所述商业场所名称的待链接商业场所的地理信息的步骤之后,所述商业场所实体链接方法还包括:
对所述待链接商业场所名称进行大小写转换;和/或,
将所述待链接商业场所名称的方言用语转换为标准用语;和/或,
删除所述待链接商业场所名称的特殊字符。
本发明还提供一种商业场所实体链接系统,所述商业场所实体链接系统包括:
文本处理模块,用于获取文本中待链接的商业场所名称和对应于所述商业场所名称的待链接商业场所的地理信息;
核心名解析模块,用于从所述商业场所名称中解析出核心名,所述核心名为从商业场所名称中去除表征所述商业场所所在地区的前缀名和表征所述商业场所商业属性的后缀名后得到的商业场所的核心名称;
初始候选确定模块,用于根据预先建立的商业场所与核心名的映射关系,确定与所述商业场所名称的核心名相匹配的初始候选商业场所;
初始候选筛选模块,用于利用所述地理信息对所述初始候选商业场所进行筛选,以保留所述待链接商业场所所在城市的候选商业场所;
相似度预测模块,用于根据所述商业场所名称和所述地理信息对所述候选商业场所进行相似度预测,将相似度符合预设要求的候选商业场确定为目标商业场所;
实体链接模块,用于将所述目标商业场所在知识库中的实体与所述文本中待链接的商业场所名称进行链接。
较佳地,所述商业场所实体链接系统还包括:
倒排索引建立模块,用于以商业场所的核心名的N-gram序列为检索关键词建立倒排索引;
所述倒排索引用于表征所述商业场所与所述核心名的映射关系。
较佳地,初始候选确定模块还用于利用所述待链接商业场所核心名的N-gram序列在所述倒排索引进行检索;
初始候选确定模块还用于召回倒排索引中N-gram命中率大于第二阈值的商业场所作为候选商业场所;
所述N-gram命中率为所述候选商业场所命中所述待链接商业场所核心名的N-gram序列的次数与所述待链接商业场所核心名的N-gram序列的个数的比值。
较佳地,所述相似度预测模块还用于将所述待链接商业场所的城市编码的编码长度与所述待链接商业场所和所述候选商业场所的编码长度总和的比值作为前缀名相似度;
所述相似度预测模块还用于将商业场所名称的后缀名经统计得到的转移概率作为后缀名相似度;
所述相似度预测模块还用于将商业场所核心名的字符串编辑距离作为商业场所核心名相似度;
所述相似度预测模块还用于根据所述前缀名相似度、所述后缀名相似度和所述商业场所核心名相似度确定所述候选商业场所的相似度。
较佳地,所述商业场所实体链接系统还包括规范处理模块;
所述规范处理模块用于对所述待链接商业场所名称进行大小写统一;和/或,
所述规范处理模块还用于将所述待链接商业场所名称的方言用语转换为标准用语;和/或,
所述规范处理模块还用于删除所述待链接商业场所名称的特殊字符。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的商业场所实体链接方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的商业场所实体链接方法。
本发明的积极进步效果在于:
本发明的商业场所实体链接方法通过从文本中待链接的商业场所名称中解析出核心名,利用在知识库中预先建立核心名与商业场所实体的映射关系确定初始候选商业场所,先利用文本中待链接商业场所的城市进行初筛,再对候选商业场所进行相似度预测,将相似度符合预设要求的目标商业场所在知识库中的实体与待链接商业场所进行链接,实现了对文本中能获取到地理信息的待链接的商业场所名称的实体链接的自动化,提高了实体链接的效率和准确性,大大减少了人力资源,提高了用户的阅读体验。
附图说明
图1为本发明实施例1的商业场所实体链接方法的流程图。
图2为本发明实施例2的商业场所实体链接方法的流程图。
图3为本发明实施例3的商业场所实体链接系统的结构框图。
图4为本发明实施例4的商业场所实体链接系统的结构框图。
图5为本发明实施例5的电子设备的硬件结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
如图1所示,本实施例提供一种商业场所实体链接方法。所述商业场所实体链接方法包括:
S101、获取文本中待链接的商业场所名称和对应于商业场所名称的待链接商业场所的地理信息。
文本中通常除了包括待链接的商业场所名称,还包括对应于商业场所名称的待链接商业场所的地理信息。对于连锁的商业场所,文本中的地理信息可以有效地提高对待链接商业场所识别的准确性。
待链接商业场所的地理信息可以但不限于结合文本中的上下文而确定。
S102、从商业场所名称中解析出核心名,核心名为从商业场所名称中去除表征商业场所所在地区的前缀名和表征商业场所商业属性的后缀名后得到的商业场所的核心名称。
商业场所的核心名由于其不可数、命名规则不确定的特性,很难被直接提取,可以先进行前缀及后缀名解析,再把剩余部分作为核心名,因此,本实施例中将去除前缀名与后缀名之后剩余的部分为商业场所名称的根本表征,提高了后续消歧的效率。
对于前缀名的解析,可以结合地理信息,利用地理区划/景点POI(Point ofInterest,兴趣点),且按照行政区划等级依次递减进行递归解析,形式上采用前缀树+城市编码。对于后缀名的解析,可以根据统计结果得到商业场所的表征商业属性的后缀名称,如酒店、旅馆、山庄、宾馆等,或者描述性词汇,如沙滩、阳光、度假等,利用这些词汇对商业场所名称进行递归解析。例如,“上海嘉定喜来登酒店”中,“上海-嘉定”是表征商业场所所在地区的前缀名,“酒店”是表征商业场所商业属性的后缀名,去除前缀名和后缀名后得到的“喜来登”为商业场所的核心名。
S103、根据预先建立的商业场所与核心名的映射关系,确定与商业场所名称的核心名相匹配的初始候选商业场所。
在知识库中建立核心名与商业场所的映射关系,例如,建立“喜来登”与知识库中所有名称中包括喜来登的实体的映射关系。这种映射关系可以是一对一的映射关系,即一个核心名对应一个实体,这种情况下,商业场所不是采用连锁经营的方式;也可以是一对多的映射关系,即一个核心名对应多个不同的实体,这种情况下,商业场所采用连锁经营的方式。根据映射关系在知识库中确定与核心名相匹配的若干初始候选商业场所。
具体地,映射关系可以是以核心名为检索关键词在知识库中进行检索。目前最主流的方法是建立倒排索引,但索引粒度的设置会直接影响到召回效果。具体来说,在商业场所实体链接场景下,根据选用的基本单元不同可以分为基于字、基于词、基于整体三种,基于字的检索容易导致更多的误召回,例如名称为AB的实体,在检索BA的时候也会被召回。基于词的检索在理论上能够很好地取得未召回、冗余召回之间的平衡,但实际应用中,很难找到一个可以完美、规则统一地将核心名切分成适当词汇的分词器。基于核心名整体的召回避免了绝大多数的误召回,但对噪声的鲁棒性过差。
在一种实施方式中,将知识库中所有实体以国家为粒度、以核心名为检索关键词建立一个倒排索引,当给定一个实体名称时,利用核心名依次遍历字典,将满足预设条件的候选项保留。这样,既可以避免AB、BA类主观上可以轻易分辨出的误召回,又可以降低对分词器的压力。
S104、利用地理信息对初始候选商业场所进行筛选,以保留待链接商业场所所在城市的候选商业场所。
确定初始候选商业场所后利用城市信息对初始候选商业场所进行筛选,考虑到不同平台、不同酒店的城市粒度不一定相同,有的城市信息的行政区划到市级别,有的城市信息的行政区划到区级别。筛选后保留有目标城市编码前缀的候选。
S105、根据商业场所名称和地理信息对候选商业场所进行相似度预测,将相似度符合预设要求的候选商业场确定为目标商业场所。
所述预设要求可以是相似度最高且大于预设的阈值。
具体地,对于实体链接中的相似度预测,目前大多数情况下采用的都是监督学习方法,具体包括基于分类的方法、基于排序的方法和基于图的方法。基于分类的方法将实体链接转化为二分类问题,以目标实体与每个候选实体作为模型输入,分类器输出为正时代表两者相同,反之不同。但如果仅关注分类器输出的二值化结果,在多个结果为正时就无法彻底完成实体链接,此时需要利用其它信息做进一步筛选,例如使用置信度进行排序等。排序方法通过对候选集进行打分排序,将分数最高的结果作为链接结果,根据打分排序的逻辑不同,基于排序的方法可以细分为Pointwise(一种处理自然语言的算法)、Pairwise(一种处理自然语言的算法)、Listwise(一种处理自然语言的算法)三种。Pointwise对候选项分别、独立进行打分;Pairwise将候选项成对组合,通过比较每对候选项之间的相对排名给出最终的排序结果;Listwise方法则是综合考虑整个候选集。基于图的方法旨在利用不同实体之间的主题相关性,同时完成文本中多实体链接的任务。本实施例中可以选择使用基于分类的方法,利用Pointwise结合logistics regression(逻辑回归)进行排序,可快速的获取到一个相对的打分结果。
S106、将目标商业场所在知识库中的实体与文本中待链接的商业场所名称进行链接。
本实施例的商业场所实体链接方法通过从文本中待链接的商业场所名称中解析出核心名,利用在知识库中预先建立核心名与商业场所实体的映射关系确定初始候选商业场所,先利用文本中待链接商业场所的城市进行初筛,再对候选商业场所进行相似度预测,将相似度符合预设要求的目标商业场所在知识库中的实体与待链接商业场所进行链接,实现了对文本中能获取到地理信息的待链接的商业场所名称的实体链接的自动化,提高了实体链接的效率和准确性,大大减少了人力资源,提高了用户的阅读体验。
实施例2
如图2所示,本实施例的商业场所实体链接方法是对实施例1的进一步改进,具体地:
商业场所实体链接方法还包括:
S201、以商业场所的核心名的N-gram序列为检索关键词建立倒排索引;倒排索引用于表征商业场所与核心名的映射关系。
优选地,在知识库中,以国家为粒度,以商业场所核心名的2-gram序列为检索关键词建立倒排索引。
N-gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。
步骤S103包括:
S10301、利用待链接商业场所核心名的N-gram序列在倒排索引进行检索。
S10302、召回倒排索引中N-gram命中率大于第二阈值的商业场所作为候选商业场所。
N-gram命中率为候选商业场所命中待链接商业场所核心名的N-gram序列的次数与待链接商业场所核心名的N-gram序列的个数的比值。
步骤S105包括:
S10501、将待链接商业场所的城市编码的编码长度与待链接商业场所和候选商业场所的编码长度总和的比值作为前缀名相似度。
S10502、将商业场所名称的后缀名经统计得到的转移概率作为后缀名相似度。
S10503、将商业场所核心名的字符串编辑距离作为商业场所核心名相似度。
S10504、根据前缀名相似度、后缀名相似度和商业场所核心名相似度确定候选商业场所的相似度。
S10505、将相似度符合预设要求的候选商业场确定为目标商业场所。
根据是否使用到文本中上下文信息,特征可以分为文本无关特征与文本相关特征。
具体地,加入前缀名相似度主要是为了避免核心名和后缀名都相同、前缀名粒度不同导致误匹配的情况,将待链接商业场所的城市编码的编码长度与待链接商业场所和候选商业场所的编码长度总和的比值作为前缀名相似度,如果前缀名缺省,则利用所在城市信息生成一个城市编码。
由于后缀名表述的多样性,即使在同类别下也有多种相似而不相同的表述方式,例如“体育馆”和“体育中心”在一定的统计频率下等同,因此本实施例将统计得到的转移概率作为后缀名相似度。
核心名相似度可以使用编辑距离来作为通用的字符串相似性度量算法。热度作为类似场景下较为通用的特征,相当于某候选实体被链接的先验概率,用于降低大量相似但关注度低的实体对正确候选项造成的干扰,整体上对链接效果有一定的提升。地址作为一种容易获取、区分度较高的特征,能够有效地对候选商业场所进行区分。本实施例的特点在于,将地址进行分解,并分别把地址文本相似度、地址数字相似度、二者交叉结果作为独立的三个特征。经纬度作为比地址更规范、更直观的特征,同样能够起到较好的效果,但该特征与电话号码类似,不是一定能够获取到的特征。
此外,在步骤S101之后,商业场所实体链接方法还包括:
S10101、对待链接商业场所名称进行大小写统一。
S10102、将待链接商业场所名称的方言用语转换为标准用语。
S10103、删除待链接商业场所名称的特殊字符。
上述步骤也可以单独适用,或者两两组合适用。
本实施例的商业场所实体链接方法通过从文本中待链接的商业场所名称中解析出核心名,利用在知识库中预先建立以核心名为检索关键词的倒排索引召回满足预设条件的初始候选商业场所,先利用文本中待链接商业场所的城市进行初筛,再对候选商业场所进行相似度预测,将相似度符合预设要求的目标商业场所在知识库中的实体与待链接商业场所进行链接,实现了对文本中能获取到地理信息的待链接的商业场所名称的实体链接的自动化,提高了实体链接的效率和准确性,大大减少了人力资源,提高了用户的阅读体验。
实施例3
如图3所示,本实施例提供一种商业场所实体链接系统。所述商业场所实体链接系统包括:
文本处理模块1,用于获取文本中待链接的商业场所名称和对应于商业场所名称的待链接商业场所的地理信息;
文本中通常除了包括待链接的商业场所名称,还包括对应于商业场所名称的待链接商业场所的地理信息。对于连锁的商业场所,文本中的地理信息可以有效地提高对待链接商业场所识别的准确性。
待链接商业场所的地理信息可以但不限于结合文本中的上下文而确定。
核心名解析模块2,用于从商业场所名称中解析出核心名,核心名为从商业场所名称中去除表征商业场所所在地区的前缀名和表征商业场所商业属性的后缀名后得到的商业场所的核心名称;
商业场所的核心名由于其不可数、命名规则不确定的特性,很难被直接提取,可以先进行前缀及后缀名解析,再把剩余部分作为核心名,因此,本实施例中将去除前缀名与后缀名之后剩余的部分为商业场所名称的根本表征,提高了后续消歧的效率。
对于前缀名的解析,可以结合地理信息,利用地理区划/景点POI,且按照行政区划等级依次递减进行递归解析,形式上采用前缀树+城市编码。对于后缀名的解析,可以根据统计结果得到商业场所的表征商业属性的后缀名称,如酒店、旅馆、山庄、宾馆等,或者描述性词汇,如沙滩、阳光、度假等,利用这些词汇对商业场所名称进行递归解析。例如,“上海嘉定喜来登酒店”中,“上海-嘉定”是表征商业场所所在地区的前缀名,“酒店”是表征商业场所商业属性的后缀名,去除前缀名和后缀名后得到的“喜来登”为商业场所的核心名。
初始候选确定模块3,用于根据预先建立的商业场所与核心名的映射关系,确定与商业场所名称的核心名相匹配的初始候选商业场所;
在知识库中建立核心名与商业场所的映射关系,例如,建立“喜来登”与知识库中所有名称中包括喜来登的实体的映射关系。这种映射关系可以是一对一的映射关系,即一个核心名对应一个实体,这种情况下,商业场所不是采用连锁经营的方式;也可以是一对多的映射关系,即一个核心名对应多个不同的实体,这种情况下,商业场所采用连锁经营的方式。根据映射关系在知识库中确定与核心名相匹配的若干初始候选商业场所。
具体地,映射关系可以是以核心名为检索关键词在知识库中进行检索。目前最主流的方法是建立倒排索引,但索引粒度的设置会直接影响到召回效果。具体来说,在商业场所实体链接场景下,根据选用的基本单元不同可以分为基于字、基于词、基于整体三种,基于字的检索容易导致更多的误召回,例如名称为AB的实体,在检索BA的时候也会被召回。基于词的检索在理论上能够很好地取得未召回、冗余召回之间的平衡,但实际应用中,很难找到一个可以完美、规则统一地将核心名切分成适当词汇的分词器。基于核心名整体的召回避免了绝大多数的误召回,但对噪声的鲁棒性过差。
在一种实施方式中,将知识库中所有实体以国家为粒度、以核心名为检索关键词建立一个倒排索引,当给定一个实体名称时,利用核心名依次遍历字典,将满足预设条件的候选项保留。这样,既可以避免AB、BA类主观上可以轻易分辨出的误召回,又可以降低对分词器的压力。
初始候选筛选模块4,用于利用地理信息对初始候选商业场所进行筛选,以保留待链接商业场所所在城市的候选商业场所;
确定初始候选商业场所后利用城市信息对初始候选商业场所进行筛选,考虑到不同平台、不同酒店的城市粒度不一定相同,有的城市信息的行政区划到市级别,有的城市信息的行政区划到区级别。筛选后保留有目标城市编码前缀的候选。
相似度预测模块5,用于根据商业场所名称和地理信息对候选商业场所进行相似度预测,将相似度符合预设要求的候选商业场确定为目标商业场所;
所述预设要求可以是相似度最高且大于预设的阈值。
具体地,对于实体链接中的相似度预测,目前大多数情况下采用的都是监督学习方法,具体包括基于分类的方法、基于排序的方法和基于图的方法。基于分类的方法将实体链接转化为二分类问题,以目标实体与每个候选实体作为模型输入,分类器输出为正时代表两者相同,反之不同。但如果仅关注分类器输出的二值化结果,在多个结果为正时就无法彻底完成实体链接,此时需要利用其它信息做进一步筛选,例如使用置信度进行排序等。排序方法通过对候选集进行打分排序,将分数最高的结果作为链接结果,根据打分排序的逻辑不同,基于排序的方法可以细分为Pointwise、Pairwise、Listwise三种。Pointwise对候选项分别、独立进行打分;Pairwise将候选项成对组合,通过比较每对候选项之间的相对排名给出最终的排序结果;Listwise方法则是综合考虑整个候选集。基于图的方法旨在利用不同实体之间的主题相关性,同时完成文本中多实体链接的任务。本实施例中可以选择使用基于分类的方法,利用Pointwise结合logistics regression进行排序,可快速的获取到一个相对的打分结果。
实体链接模块6,用于将目标商业场所在知识库中的实体与文本中待链接的商业场所名称进行链接。
本实施例的商业场所实体链接系统通过从文本中待链接的商业场所名称中解析出核心名,利用在知识库中预先建立核心名与商业场所实体的映射关系确定初始候选商业场所,先利用文本中待链接商业场所的城市进行初筛,再对候选商业场所进行相似度预测,将相似度符合预设要求的目标商业场所在知识库中的实体与待链接商业场所进行链接,实现了对文本中能获取到地理信息的待链接的商业场所名称的实体链接的自动化,提高了实体链接的效率和准确性,大大减少了人力资源,提高了用户的阅读体验。
实施例4
如图4所示,本实施例的商业场所实体链接系统是对实施例3的进一步改进,具体地:
商业场所实体链接系统还包括:
倒排索引建立模块7,用于以商业场所的核心名的N-gram序列为检索关键词建立倒排索引;倒排索引用于表征商业场所与核心名的映射关系。
优选地,在知识库中,以国家为粒度,以商业场所核心名的2-gram序列为检索关键词建立倒排索引。
N-gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。
初始候选实体确定模块3还用于利用待链接商业场所核心名的N-gram序列在倒排索引进行检索。
初始候选确定模块3还用于召回倒排索引中N-gram命中率大于第二阈值的商业场所作为候选商业场所。
N-gram命中率为候选商业场所命中待链接商业场所核心名的N-gram序列的次数与待链接商业场所核心名的N-gram序列的个数的比值。
相似度预测模块5还用于将待链接商业场所的城市编码的编码长度与待链接商业场所和候选商业场所的编码长度总和的比值作为前缀名相似度。
相似度预测模块5还用于将商业场所名称的后缀名经统计得到的转移概率作为后缀名相似度。
相似度预测模块5还用于将商业场所核心名的字符串编辑距离作为商业场所核心名相似度。
相似度预测模块5还用于根据前缀名相似度、后缀名相似度和商业场所核心名相似度确定候选商业场所的相似度。
根据是否使用到文本中上下文信息,特征可以分为文本无关特征与文本相关特征。
具体地,加入前缀名相似度主要是为了避免核心名和后缀名都相同、前缀名粒度不同导致误匹配的情况,将待链接商业场所的城市编码的编码长度与待链接商业场所和候选商业场所的编码长度总和的比值作为前缀名相似度,如果前缀名缺省,则利用所在城市信息生成一个城市编码。
由于后缀名表述的多样性,即使在同类别下也有多种相似而不相同的表述方式,例如“体育馆”和“体育中心”在一定的统计频率下等同,因此本实施例将统计得到的转移概率作为后缀名相似度。
核心名相似度可以使用编辑距离来作为通用的字符串相似性度量算法。热度作为类似场景下较为通用的特征,相当于某候选实体被链接的先验概率,用于降低大量相似但关注度低的实体对正确候选项造成的干扰,整体上对链接效果有一定的提升。地址作为一种容易获取、区分度较高的特征,能够有效地对候选商业场所进行区分。本实施例的特点在于,将地址进行分解,并分别把地址文本相似度、地址数字相似度、二者交叉结果作为独立的三个特征。经纬度作为比地址更规范、更直观的特征,同样能够起到较好的效果,但该特征与电话号码类似,不是一定能够获取到的特征。
此外,商业场所实体链接系统还包括规范处理模块8;规范处理模块8用于对待链接商业场所名称进行大小写统一;规范处理模块8还用于将待链接商业场所名称的方言用语转换为标准用语;规范处理模块8还用于删除待链接商业场所名称的特殊字符。
本实施例的商业场所实体链接系统通过从文本中待链接的商业场所名称中解析出核心名,利用在知识库中预先建立以核心名为检索关键词的倒排索引召回满足预设条件的初始候选商业场所,先利用文本中待链接商业场所的城市进行初筛,再对候选商业场所进行相似度预测,将相似度符合预设要求的目标商业场所在知识库中的实体与待链接商业场所进行链接,实现了对文本中能获取到地理信息的待链接的商业场所名称的实体链接的自动化,提高了实体链接的效率和准确性,大大减少了人力资源,提高了用户的阅读体验。
实施例5
图5为本发明实施例5提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例1或实施例2的商业场所实体链接方法。图5显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
总线33包括数据总线、地址总线和控制总线。
存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1的协议机票创单方法。
电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例6
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1或实施例2的商业场所实体链接方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1的协议机票创单方法的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (10)
1.一种商业场所实体链接方法,其特征在于,所述商业场所实体链接方法包括:
获取文本中待链接的商业场所名称和对应于所述商业场所名称的待链接商业场所的地理信息;
从所述商业场所名称中解析出核心名,所述核心名为从商业场所名称中去除表征所述商业场所所在地区的前缀名和表征所述商业场所商业属性的后缀名后得到的商业场所的核心名称;
根据预先建立的商业场所与核心名的映射关系,确定与所述商业场所名称的核心名相匹配的初始候选商业场所;
利用所述地理信息对所述初始候选商业场所进行筛选,以保留所述待链接商业场所所在城市的候选商业场所;
根据所述商业场所名称和所述地理信息对所述候选商业场所进行相似度预测,将相似度符合预设要求的候选商业场确定为目标商业场所;
将所述目标商业场所在知识库中的实体与所述文本中待链接的商业场所名称所进行链接;
所述根据所述商业场所名称和所述地理信息对所述候选商业场所进行相似度预测的步骤包括:
将所述待链接商业场所的城市编码的编码长度与所述待链接商业场所和所述候选商业场所的编码长度总和的比值作为前缀名相似度;
将商业场所名称的后缀名经统计得到的转移概率作为后缀名相似度;
将商业场所核心名的字符串编辑距离作为商业场所核心名相似度;
根据所述前缀名相似度、所述后缀名相似度和所述商业场所核心名相似度确定所述候选商业场所的相似度。
2.如权利要求1所述商业场所实体链接方法,其特征在于,还包括:
以商业场所的核心名的N-gram序列为检索关键词建立倒排索引;
所述倒排索引用于表征所述商业场所与所述核心名的映射关系。
3.如权利要求2所述商业场所实体链接方法,其特征在于,所述根据预先建立的商业场所与核心名的映射关系,确定与所述商业场所名称的核心名相匹配的初始候选商业场所的步骤包括:
利用所述待链接商业场所核心名的N-gram序列在所述倒排索引进行检索;
召回倒排索引中N-gram命中率大于第二阈值的商业场所作为候选商业场所;
所述N-gram命中率为所述候选商业场所命中所述待链接商业场所核心名的N-gram序列的次数与所述待链接商业场所核心名的N-gram序列的个数的比值。
4.如权利要求1所述商业场所实体链接方法,其特征在于,在所述获取文本中待链接的商业场所名称之后,所述商业场所实体链接方法还包括:
对所述待链接商业场所名称进行大小写统一;和/或,
将所述待链接商业场所名称的方言用语转换为标准用语;和/或,删除所述待链接商业场所名称的特殊字符。
5.一种商业场所实体链接系统,其特征在于,所述商业场所实体链接系统包括:
文本处理模块,用于获取文本中待链接的商业场所名称和对应于所述商业场所名称的待链接商业场所的地理信息;
核心名解析模块,用于从所述商业场所名称中解析出核心名,所述核心名为从商业场所名称中去除表征所述商业场所所在地区的前缀名和表征所述商业场所商业属性的后缀名后得到的商业场所的核心名称;
初始候选确定模块,用于根据预先建立的商业场所与核心名的映射关系,确定与所述商业场所名称的核心名相匹配的初始候选商业场所;
初始候选筛选模块,用于利用所述地理信息对所述初始候选商业场所进行筛选,以保留所述待链接商业场所所在城市的候选商业场所;
相似度预测模块,用于根据所述商业场所名称和所述地理信息对所述候选商业场所进行相似度预测,将相似度符合预设要求的候选商业场确定为目标商业场所;
实体链接模块,用于将所述目标商业场所在知识库中的实体与所述文本中待链接的商业场所名称进行链接;
所述相似度预测模块还用于将所述待链接商业场所的城市编码的编码长度与所述待链接商业场所和所述候选商业场所的编码长度总和的比值作为前缀名相似度;
所述相似度预测模块还用于将商业场所名称的后缀名经统计得到的转移概率作为后缀名相似度;
所述相似度预测模块还用于将商业场所核心名的字符串编辑距离作为商业场所核心名相似度;
所述相似度预测模块还用于根据所述前缀名相似度、所述后缀名相似度和所述商业场所核心名相似度确定所述候选商业场所的相似度。
6.如权利要求5所述商业场所实体链接系统,其特征在于,还包括:
倒排索引建立模块,用于以商业场所的核心名的N-gram序列为检索关键词建立倒排索引;
所述倒排索引用于表征所述商业场所与所述核心名的映射关系。
7.如权利要求6所述商业场所实体链接系统,其特征在于,初始候选确定模块还用于利用所述待链接商业场所核心名的N-gram序列在所述倒排索引进行检索;
初始候选确定模块还用于召回倒排索引中N-gram命中率大于第二阈值的商业场所作为候选商业场所;
所述N-gram命中率为所述候选商业场所命中所述待链接商业场所核心名的N-gram序列的次数与所述待链接商业场所核心名的N-gram序列的个数的比值。
8.如权利要求5所述商业场所实体链接系统,其特征在于,所述商业场所实体链接系统还包括规范处理模块;
所述规范处理模块用于对所述待链接商业场所名称进行大小写统一;和/或,
所述规范处理模块还用于将所述待链接商业场所名称的方言用语转换为标准用语;和/或,
所述规范处理模块还用于删除所述待链接商业场所名称的特殊字符。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的商业场所实体链接方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的商业场所实体链接方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110805305.XA CN113535883B (zh) | 2021-07-16 | 2021-07-16 | 商业场所实体链接方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110805305.XA CN113535883B (zh) | 2021-07-16 | 2021-07-16 | 商业场所实体链接方法、系统、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113535883A CN113535883A (zh) | 2021-10-22 |
CN113535883B true CN113535883B (zh) | 2023-10-31 |
Family
ID=78128395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110805305.XA Active CN113535883B (zh) | 2021-07-16 | 2021-07-16 | 商业场所实体链接方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113535883B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779432B (zh) * | 2021-11-12 | 2022-03-08 | 微脉技术有限公司 | 一种本地化机构搜索的方法、电子设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462126A (zh) * | 2013-09-22 | 2015-03-25 | 富士通株式会社 | 一种实体链接方法及装置 |
CN106202382A (zh) * | 2016-07-08 | 2016-12-07 | 南京缘长信息科技有限公司 | 链接实体方法和系统 |
CN108415902A (zh) * | 2018-02-10 | 2018-08-17 | 合肥工业大学 | 一种基于搜索引擎的命名实体链接方法 |
CN108959433A (zh) * | 2018-06-11 | 2018-12-07 | 北京大学 | 一种从软件项目数据中提取知识图谱并问答的方法与系统 |
CN110569328A (zh) * | 2019-07-31 | 2019-12-13 | 平安科技(深圳)有限公司 | 实体链接方法、电子装置及计算机设备 |
CN111737430A (zh) * | 2020-06-16 | 2020-10-02 | 北京百度网讯科技有限公司 | 实体链接方法、装置、设备以及存储介质 |
CN112100356A (zh) * | 2020-09-17 | 2020-12-18 | 武汉纺织大学 | 一种基于相似性的知识库问答实体链接方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7647344B2 (en) * | 2003-05-29 | 2010-01-12 | Experian Marketing Solutions, Inc. | System, method and software for providing persistent entity identification and linking entity information in an integrated data repository |
CN101542475B (zh) * | 2005-11-23 | 2013-05-29 | 邓百氏公司 | 用于对具有象形表意内容的数据进行搜索和匹配的系统和方法 |
-
2021
- 2021-07-16 CN CN202110805305.XA patent/CN113535883B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462126A (zh) * | 2013-09-22 | 2015-03-25 | 富士通株式会社 | 一种实体链接方法及装置 |
JP2015062117A (ja) * | 2013-09-22 | 2015-04-02 | 富士通株式会社 | 実体のリンク付け方法及び実体のリンク付け装置 |
CN106202382A (zh) * | 2016-07-08 | 2016-12-07 | 南京缘长信息科技有限公司 | 链接实体方法和系统 |
CN108415902A (zh) * | 2018-02-10 | 2018-08-17 | 合肥工业大学 | 一种基于搜索引擎的命名实体链接方法 |
CN108959433A (zh) * | 2018-06-11 | 2018-12-07 | 北京大学 | 一种从软件项目数据中提取知识图谱并问答的方法与系统 |
CN110569328A (zh) * | 2019-07-31 | 2019-12-13 | 平安科技(深圳)有限公司 | 实体链接方法、电子装置及计算机设备 |
CN111737430A (zh) * | 2020-06-16 | 2020-10-02 | 北京百度网讯科技有限公司 | 实体链接方法、装置、设备以及存储介质 |
CN112100356A (zh) * | 2020-09-17 | 2020-12-18 | 武汉纺织大学 | 一种基于相似性的知识库问答实体链接方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于BiLSTM-CRF的细粒度知识图谱问答;张楚婷;常亮;王文凯;陈红亮;宾辰忠;;计算机工程(02);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113535883A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6901816B2 (ja) | エンティティ関係データ生成方法、装置、機器、及び記憶媒体 | |
KR101276602B1 (ko) | 표의문자적 내용을 가지는 데이터를 서치하고 매칭하기위한 시스템 및 방법 | |
CN108628811B (zh) | 地址文本的匹配方法和装置 | |
CN107229668B (zh) | 一种基于关键词匹配的正文抽取方法 | |
KR102324048B1 (ko) | 커뮤니티 질의 응답 데이터의 검증 방법, 장치, 컴퓨터 기기 및 저장 매체 | |
CN111831802B (zh) | 一种基于lda主题模型的城市领域知识检测系统及方法 | |
US8271495B1 (en) | System and method for automating categorization and aggregation of content from network sites | |
CN108388559A (zh) | 地理空间应用下的命名实体识别方法及系统、计算机程序 | |
WO2021174812A1 (zh) | 用于画像的数据的清洗方法、装置、介质及电子设备 | |
CN110990520B (zh) | 一种地址编码方法、装置、电子设备和存储介质 | |
WO2008022581A1 (fr) | Procédé et dispositif d'obtention de mots nouveaux et système et procédé de saisie | |
CN108932218B (zh) | 一种实例扩展方法、装置、设备和介质 | |
CN110968654A (zh) | 文本数据的地址类目确定方法、设备以及系统 | |
US20080281827A1 (en) | Using structured database for webpage information extraction | |
CN111090771B (zh) | 歌曲搜索方法、装置及计算机存储介质 | |
CN107908783B (zh) | 检索文本相关性的评估方法、装置、服务器和存储介质 | |
Christen et al. | A probabilistic geocoding system based on a national address file | |
CN111680506A (zh) | 数据库表的外键映射方法、装置、电子设备和存储介质 | |
CN111259262A (zh) | 一种信息检索方法、装置、设备及介质 | |
CN110688434B (zh) | 一种兴趣点处理方法、装置、设备和介质 | |
CN110110218B (zh) | 一种身份关联方法及终端 | |
CN113535883B (zh) | 商业场所实体链接方法、系统、电子设备及存储介质 | |
CN115168401A (zh) | 数据分级处理方法及装置、电子设备及计算机可读介质 | |
CN111930891A (zh) | 基于知识图谱的检索文本扩展方法及相关装置 | |
CN116629215A (zh) | 教学文档生成方法、装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |