CN113204643A - 一种实体对齐方法、装置、设备及介质 - Google Patents
一种实体对齐方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113204643A CN113204643A CN202110695614.6A CN202110695614A CN113204643A CN 113204643 A CN113204643 A CN 113204643A CN 202110695614 A CN202110695614 A CN 202110695614A CN 113204643 A CN113204643 A CN 113204643A
- Authority
- CN
- China
- Prior art keywords
- entity
- category
- standard
- recognition
- entities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种实体对齐方法、装置、设备及介质,包括以下步骤:获取目标产品领域中产品的评论文本对应的至少一个类别下的识别实体;针对每个类别下的每一个识别实体,判断该识别实体是否属于该类别;若否,则删除该类别下的该识别实体;若是,则根据所述产品所属的目标产品领域,确定该识别实体对应的第一词向量和标准实体词库中该识别实体对应的类别下每个标准实体的第二词向量;根据所述第一词向量和第二词向量,从所述标准实体词库该类别下的标准实体中,确定与所述识别实体对齐的目标标准实体,从而提升目标产品领域中产品的评论文本中识别实体对齐的准确率。
Description
技术领域
本申请涉及自然语言处理领域,具体而言,涉及一种实体对齐方法、装置、设备及介质。
背景技术
电商和社区分享类网站存在大量的产品评价内容,这些产品评价内容从各个产品的功能、效果、客户的需求等多方面全面而真实的反映了产品相关信息。有效理解产品评价内容,不仅能够丰富产品画像、优化网站的推荐系统,也能够提高品牌厂商对用户需求的理解、从而更好地营销和研发新产品。
实体对齐是有效理解产品评价内容过程中不可或缺的一环。原始的评论文本经过命名实体识别模块处理之后,得到了对评论文本对应的识别实体;在和已有的知识库进行融合打通之前,需要完成实体对齐,实体对齐的准确率对有效理解产品评价内容起着十分重要的作用。
发明内容
有鉴于此,本申请的目的在于提供一种实体对齐方法、装置、设备及介质,能够提高美妆数据中实体对齐的准确率。
本申请实施例提供的一种实体对齐方法,所述方法包括:
获取目标产品领域中产品的评论文本对应的至少一个类别下的识别实体;
针对每个类别下的每一个识别实体,判断该识别实体是否属于该类别;
若否,则删除该类别下的该识别实体;
若是,则根据所述产品所属的目标产品领域,确定该识别实体对应的第一词向量和标准实体词库中该识别实体对应的类别下每个标准实体的第二词向量;
根据所述第一词向量和第二词向量,从所述标准实体词库该类别下的标准实体中,确定与所述识别实体对齐的目标标准实体。
在一些实施例中,针对每个类别下的每一个识别实体,判断该识别实体是否属于该类别包括:同时将多个类别中的识别实体输入多个二分类模型,每个二分类模型对应一种类别的识别实体,判断该识别实体是否属于其对应类别;所述二分类模型通过目标产品领域中对应类别的训练集训练得到。
在一些实施例中,所述多个二分类模型的阈值不同,每个二分类模型的阈值通过目标产品领域中对应类别的训练集训练得到。
在一些实施例中,根据所述产品所属的目标产品领域,确定该识别实体对应的第一词向量和所述产品对应的标准实体词库中该识别实体相同类别下标准实体的第二词向量,包括:
利用训练好的词向量模型,得到识别实体对应的第一词向量和标准实体词库中该识别实体对应的类别下每个标准实体的第二词向量;所述训练好的词向量模型是通过产品所属的目标产品领域的训练集训练得到的。
在一些实施例中,根据所述第一词向量和第二词向量,从所述标准实体词库该类别下的标准实体中,确定与所述识别实体对齐的目标标准实体后,还包括:
若所述标准实体词库该类别下的标准实体中,不存与所述识别实体对齐的目标标准实体,则将所述识别实体作为候选识别实体;
对该类别下的候选识别实体进行聚类,得到若干个簇,所述簇中的候选识别实体均不满足预设离群条件;
根据所述簇中的候选识别实体,确定簇的标准实体及其类别,并将簇的标准实体作为与簇中候选识别实体对齐的目标标准实体。
在一些实施例中,在确定簇的标准实体及其类别之后,所述方法还包括:将簇的标准实体增加至标准实体词库对应的类别中,以更新标准实体词库。
在一些实施例中,更新标准实体词库后,所述方法还包括:
构建异常实体集;所述异常实体集中的异常实体包括判断后得到的不属于其对应类别的识别实体和聚类得到的满足预设离群条件的候选识别实体;
利用二分类模型对所述异常实体进行重新分类,得到所述异常实体的类别;
获取异常实体对应的第一词向量和更新后的标准实体词库中该识别实体对应的类别下每个标准实体的第二词向量;
根据所述第一词向量和第二词向量,从所述更新后的标准实体词库该异常实体对应的类别下的标准实体中,确定与所述异常实体对齐的目标标准实体。
在一些实施例中,还提供一种实体对齐装置, 包括:
获取模块,用于获取目标产品领域中产品的评论文本对应的至少一个类别下的识别实体;
判断模块,用于针对每个类别下的每一个识别实体,判断该识别实体是否属于该类别;
删除模块,用于在判断该识别实体不属于该类别后,删除该类别下的该识别实体;
第一确定模块,用于在判断识别实体属于其对应类别后,则根据所述产品所属的目标产品领域,确定该识别实体对应的第一词向量和标准实体词库中该识别实体对应的类别下每个标准实体的第二词向量;
第二确定模块,用于根据所述第一词向量和第二词向量,从所述标准实体词库该类别下的标准实体中,确定与所述识别实体对齐的目标标准实体。
在一些实施例中,还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行所述的实体对齐方法的步骤。
在一些实施例中,还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行所述的实体对齐方法的步骤。
本申请所述的实体对齐方法,从目标产品领域中产品的评论文本中获取各个类别下的识别实体,并计算各个类别下的标准实体和识别实体的向量相似度,降低了需要进行向量相似度计算的标准实体和识别实体的对数,提升了大数据量下实体对齐的效率;对上游任务命名实体识别模块识别得到的识别实体是否准确进行判断,筛除每个类别中错误的识别实体,有效解决了上游任务的识别错误给实体对齐过程带来的错误传递的问题,从第一方面提升了实体对齐的准确率;且标准实体和目标实体的词向量均根据产品所属的目标产品领域得到,词向量中包含了目标产品领域的语义信息,更加准确的表征标准实体、目标实体的真实含义,从而更加准确的判断标准实体、识别实体的相似度,从第二方面提升了实体对齐的准确率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的一种实体对齐方法的流程图;
图2示出了本申请实施例提供的确定无法与已有标准实体对齐的识别实体的目标标准实体的方法流程图;
图3示出了本申请实施例提供的对异常实体进行重新分类的方法流程图;
图4示出了本申请实施例所述实体对齐装置的结构示意图;
图5示出了本申请实施例所述电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。 应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。 此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
实体对齐技术旨在发现实体名称不同却指向同一对象的那些实体,并通过OWL:sameAs等共指链接的构建将这些实体链接为一个具有统一化的全局唯一标识的对象,实现数据源之间的高质量链接,推进知识图谱构建。
目前,实体对齐方法主要分为两大类,一类是基于属性相似度的实体对齐方法,另一类是基于知识表示学习对齐实体关系进行推断。基于属性相似度的推断主要依据待对齐实体之间是否具有相同的属性及相应属性值的集合来判断的。基于表示学习的推断使用建模方法将知识图谱中的实体和关系映射到低维稠密向量空间中,然后进行计算和推理。
对于评论文本而言,大多数情况下,实体对齐要解决的技术问题多词一义,人们在对商品进行评论时,通常不会使用标准名称,而是经常随个人习惯使用俗称;不同的人对进行评价时,即使评价的意思相同,也会使用不同的表达。以美妆领域的产品来说:例如“品牌A 精华乳”俗称“QQQ”,用户也经常将其叫做“品牌A QQQ”,“WW QQQ”。这四种形式的表达均需要对齐到知识库当中的“品牌A 精华乳”实体上。以产品的效果来说吗:例如“抗衰老”这一效果,用户在评论中也经常描述为:“抗老”、“抗衰”、“抗老化”等等。有些描述在描述语具有相似性,有些描述在描述语相似度很低,例如:品牌B 精华露,很多人在评论中将其描述为“EEE”。
现有的实体对齐方法在针对产品的评论文本时准确率较低,原因如下:评论文本具有一词多义的特点,以及评论文本中采用的描述词的多种多样,使得命名实体识别模块提取出的识别中存在大量错误的识别实体,这些错误的识别实体造成错误传递,使得后续的实体对齐过程精确率低;评论文本中的很多词在对应的产品领域有着特殊的含义,而非其通用的含义,采用通用的模型推断实体之间的对应关系时容易出错。
为解决上述问题,如图1所示,本申请提出一种实体对齐方法,所述方法包括:
S101、获取目标产品领域中产品的评论文本对应的至少一个类别下的识别实体;
S102、针对每个类别下的每一个识别实体,判断该识别实体是否属于该类别;
S103、若否,则删除该类别下的该识别实体;
S104、若是,则根据所述产品所属的目标产品领域,确定该识别实体对应的第一词向量和标准实体词库中该识别实体对应的类别下每个标准实体的第二词向量;
S105、根据所述第一词向量和第二词向量,从所述标准实体词库该类别下的标准实体中,确定与所述识别实体对齐的目标标准实体。
在步骤S101中,“产品”为电商交易的产品,其可以属于多种产品领域,也即目标产品领域可以为多种,比如,美妆领域,日用品领域、汽车领域等;需要说明的是,本申请中不限定于上述领域,本申请实施例中,以应用于美妆领域进行说明。
将目前产品领域中,将产品的所有评论文本输入至命名实体识别模块(又称NER模块)中,按照业务需求识别出预设类别下的所有识别实体。
识别实体指的通过命名实体识别模块从评论文本中提取出的具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。
命名实体识别模块就是从非结构化的评论文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,例如,在美妆领域中,识别出产品、品牌、品类、功效、肤质等类别下的所有识别实体。
由于命名实体识别模块本身固有的边界检测等问题,S101中获取的每个类别下的识别实体存在错误。所述错误的识别实体主要分为两类,一类是识别实体本身能够具有特定含义,但是类别识别错误,比如将属于品牌类别的“欧莱雅”识别为“产品”,将“宝马”识别为美妆领域的“品牌”;另一类是识别实体本身错误,在所属的目标产品领域本不具有业务所需的特定含义,例如错误的判断“大宝贝”这一词汇具有“大宝”这一特定含义而将其提取至“品牌”类别。
因此,在步骤S102中,针对每个类别下的每一个识别实体,判断该识别实体是否属于该类别,筛除命名实体识别模块识别效果不佳而不属于其对应类别的识别实体,减少了错误的识别实体,减少了因错误的识别实体导致的错误传递,提高了后续的实体对齐过程精确率低。
本实施例中,具体的,通过训练好的TextCNN网络作为去噪模型,softmax作为TextCNN网络的损失函数,进行将识别实体输入训练好的去噪模型,提取识别实体的特征,判断识别实体是否属于其对应的类别。
步骤S104所述则根据所述产品所属的目标产品领域,确定该识别实体对应的第一词向量和标准实体词库中该识别实体对应的类别下每个标准实体的第二词向量,包括:利用训练好的词向量模型,得到识别实体对应的第一词向量和标准实体词库中该识别实体对应的类别下每个标准实体的第二词向量;所述训练好的词向量模型是通过产品所属的目标产品领域的训练集训练得到的。
所述标准实体词库是基于目标产品领域构建的,所述标准实体词库中的标准实体的类别与产品对应的识别实体的类别相同。
标准实体词库中的每个标准实体的含义既包括该标准实体对应的标准描述,也包括同义描述,例如“品牌A 精华乳”作为标准实体,所包含的信息既包括“品牌A 精华乳”这一标准描述,又包含 “QQQ”、 “品牌A QQQ”、“WW QQQ”等同义描述。
具体的,所述词向量模型的选择有多种,比如word2vec模型,fasttext模型,计算资源比较丰富的也可以尝试用bert模型、albert模型等模型进行字、词向量的训练。
选择好词向量模型后,获取所述目标产品领域海量的评论文本,将其进行去停词、去特殊字符等预处理,得到的语料作为目标产品领域的训练集,训练词向量模块,以得到与目标产品领域对应的词向量模型。现有的词向量,不仅能够表征单个词的含义,更能够联系上下文表示语义。因此,将目标产品领域海量的评论文本作为语料,得到训练好的词向量模型,从而得到的第一词向量、第二词向量能够更加准确的表征识别实体和标准实体,例如,将表征“小灯泡”的第一词向量,其矩阵更多的与美白、护肤SKII等美妆领域的词语相关,而非与“房屋”“装修”等建筑行业的词语相关,从而结合目标产品领域的语义准确表征识别实体和标准实体。
本实施例中,具体采用通过gensim训练得到的word2vec模型下的60维的词向量表征识别实体和标准实体。
所述步骤S105中,根据所述第一词向量和第二词向量,计算每个类别中的每个识别实体和所述标准实体词库该类别下的每个标准实体的向量相似度,得到若干组向量相似度满足预设条件的标准实体和识别实体,确定每组的标准实体为与该组中的识别实体对齐的目标标准实体。
本实施例中,第一词向量和第二词向量的向量相似度具体采用向量距离表示,通过矩阵计算提升大量识别实体和标准实体的向量相似度的计算效率。
实体对齐对于问答场景、品牌洞察、信息检索等产品推广业务、产品分析业务都具有重要意义。
品牌商能够根据实体对齐结果,从产品的评论文本中获取更加丰富、透彻的产品反馈,例如,品牌A QQQ,能够将评论文本中提及功效的识别实体均与功效类标准实体对齐,判断客户对于其美白效果的真实评价;将评论文本中提及品牌识别实体均与品牌类标准实体对齐,判断客户对对家品牌的相关评论。
客户可以向客服提出问题,例如:头发毛躁用什么洗发露;头发干燥用什么洗发露;头发枯黄用什么洗发露等。
AI客服可以根据毛躁、干燥、枯黄的标准实体,准确命中问答库中的问句,给出更加精准的答复。
客户在手机等终端上搜索产品时,不可能准确搜索产品的名称,当实现实体对齐后,能够更加精准、全面的显示搜索结果,例如客户搜索“QQQ”、 “品牌A QQQ”、“WW QQQ”,均能展现“品牌A 精华乳”这一产品。
确定与识别实体对齐的目标标准实体,链接识别实体和目标标准实体,构建目标产品领域的知识库,将知识库储存于服务器中,客户通过终端实现与服务器的数据交互,实现智能问答、品牌洞察、信息检索等业务。
本申请所述的实体对齐方法,从目标产品领域中产品的评论文本中获取各个类别下的识别实体,并计算各个类别下的标准实体和识别实体的向量相似度,降低了需要进行向量相似度计算的标准实体和识别实体的对数,提升了大数据量下实体对齐的效率;对上游任务命名实体识别模块识别得到的识别实体是否准确进行判断,筛除每个类别中错误的识别实体,有效解决了上游任务的识别错误给实体对齐过程带来的错误传递的问题,从第一方面提升了实体对齐的准确率;且标准实体和目标实体的词向量均根据产品所属的目标产品领域得到,词向量中包含了目标产品领域的语义信息,更加准确的表征标准实体、目标实体的真实含义,从而更加准确的判断标准实体、识别实体的相似度,从第二方面提升了实体对齐的准确率。
本实施例中,针对每个类别下的每一个识别实体,判断该识别实体是否属于该类别,包括:同时将多个类别中的识别实体输入多个二分类模型,每个二分类模型对应一种类别的识别实体,判断该识别实体是否属于其对应类别;所述二分类模型通过目标产品领域中对应类别的训练集训练得到。
本实施例中,所述二分类模型可以为TextCNN网络。
针对每个类别,对每个二分类模型进行单独训练;相应地,对每个二分类模型选取目标产品领域对应类别下的训练集,所述训练集中包括的正样本和副样本。其中,正样本的标签为对应二分类模型的类别,负样本的标签为与对应二分类模型的类别不同的类别。以美妆领域为例,正样本的标签的二分类模型的单个类别名,例如“品牌”,负样本的标签为肤质、产品等美妆领域下其他类别、不属于美妆领域的类别等非品牌的类别名。相应地,正样本和负样本的实体为其标签对应的实体。
训练之后的二分类模型可以输出识别实体属于对应类别的概率。
本实施例中,不同目标产品领域的二分类模型的阈值不同,同一个产品领域中的多个二分类模型的阈值不同,每个二分类模型的阈值通过目标产品领域中对应类别的训练集训练得到。将单个类别下的识别实体输入至对应的二分类模型,若二分类模型判定该识别实体大于设定的阈值,则该识别实体属于其对应的类别;反之,则该识别实体不属于其对应的类别。
二分类模型的本质,是区分识别实体是否属于对应的类别。对于命名实体识别模块识别得到的各个类别下的识别实体而言,有些类别中的识别实体之间相似度较低,有些类别中的识别实体之间相似度较高,若简单的将阈值设置为0.5,则对于相似度较高的识别实体而言,二分类模型容易将一些不属于对应类别的识别实体判断为属于该对应类别。对于相似度较低的识别实体而言,二分类模型容易将一些属于对应类别的识别实体判断为不属于该对应类别。
一些通用领域的通用性的类别,比如场景类别和人群类别,不同类别之间的相似度较低,因此设置的阈值也相对较低;而偏美妆领域的类别,比如品类,与其他类别相似度较高,因此设置的阈值也相对较高。
例如美妆产品领域中,“产品”类别中包括:品牌C紧致抗皱礼盒、品牌C紧致淡纹水乳套、品牌C抚纹精华液、品牌C肌初净颜洁面乳、品牌C紧肤精华水、品牌C紧肤焕颜乳、品牌C眼部精华液、品牌C抗皱菁华霜、品牌C紧致菁萃面膜;
“品类”类别则包括:礼盒、水乳套、精华液、洁面乳、精华水、焕颜乳、精华液、菁华霜、面膜;
“功效”类别则包括:紧致抗皱、紧致淡纹、抚纹、肌初净颜、紧肤、抗皱、紧致。
若“产品”类别中混合有“品类”类别或“功效”类别,则很难将其区分开来,需要设置较高的阈值。
“品牌”类别中包括:品牌A、品牌B、品牌C、品牌D、品牌E、品牌F、品牌G、品牌H、品牌M。
若“品牌”类别中包括“功效”类别、 “品类”类别中的实体,“品牌”类别中的各个实体差别较大,与其他类别中的实体的差异更是较大,需要设置更低的阈值,以防止错误将某个“品牌”筛除出去。例如润百颜与功效类别中的实体更为相似,有较大可能被判定为不属于品牌。
因此,各个二分类模型基于其对应类别的训练集,通过训练分别得到训练好的二分类模型以及更加准确的阈值,从而更加精准的判断并筛选各个类别下的识别实体,筛除每个类别中错误的识别实体,更加有效的解决了上游任务的识别错误给实体对齐过程带来的错误传递的问题,提升了实体对齐的准确率;同时将多个类别中的识别实体输入多个二分类模型,每个二分类模型对应一种类别的识别实体,多个二分类模型并行以同时判断并筛选多个类别中的识别实体,提升了大数据量下识别实体的判断效率,从而进一步提升大数据量下实体对齐的效率。
根据所述第一词向量和第二词向量,从所述标准实体词库该类别下的标准实体中,确定与所述识别实体对齐的目标标准实体后,通过以下步骤确定无法与已有标准实体对齐的识别实体的目标标准实体,如图2所示,所述步骤包括:
S201、若所述标准实体词库该类别下的标准实体中,不存与所述识别实体对齐的目标标准实体,则将所述识别实体作为候选识别实体;
S202、对该类别下的候选识别实体进行聚类,得到若干个簇,所述簇中的候选识别实体均不满足预设离群条件;
S203、根据所述簇中的候选识别实体,确定簇的标准实体及其类别,并将簇的标准实体作为与簇中候选识别实体对齐的目标标准实体。
步骤S105中,基于现有的标准实体词库确定识别实体的标准实体后,由于现有的标准实体词库中的标准实体数量有限,而目标产品领域中不断涌现新的产品、品牌等,因此,存在很大一部分无法同现有的标准实体词库中已有的标准实体对齐的候选识别实体。
针对所述候选识别实体,通过聚类将具有很大的相似性的候选识别实体聚集到同一个簇中,则不同簇间的候选识别实体有很大的相异性。一个簇中的候选识别实体很大概率包含了相同的信息。因此,确定簇的标准实体及其类别,就确定了该簇中所有候选识别实体的目标标准实体,实现了该簇中所有候选识别实体的实体对齐。
确定簇的标准实体及其类别时,可以根据输入的指令确定簇的标准实体及其类别;也可以将簇中最靠近中心位置的候选识别实体极其类别作为簇的标准实体及其类别。
在确定簇的标准实体及其类别之后,将簇的标准实体增加至标准实体词库对应的类别中,以更新标准实体词库,更新后的更新标准实体词库所包含的标准实体更为丰富,降低了如今互联网背景下,产品更新换代快给实体对齐的准确度带来的影响,进一步提升实体对齐的准确率。
进行聚类时,聚类算法可以选用DBSCAN、Kmeans、HDBSCAN等以向量为基础的算法。
针对字符较长的token,比如产品(Olay Prox 肌源活颜舒纹精华乳)、问题等类别,可以基于新词发现的思路,获得候选识别实体当中重要性比较高的部分字符,再基于连通图的思想,得到候选识别实体之间共同的字符,从而进行归类。这种聚类算法所构建的聚类模型简单,容易训练。
同理,也可以基于连通图的思想实现识别实体和标准实体的对齐。
本申请中,在步骤S104中已经根据所述产品所属的目标产品领域,确定该识别实体对应的第一词向量和标准实体词库中该识别实体对应的类别下每个标准实体的第二词向量,因此,优选采用选用聚类HDBSCAN进行无监督的聚类,HDBSCAN算法的优点是不用指定类别,同时兼顾了层次化聚类的特点;考虑到大数据量下聚类速度的因素,可以使用通过PCA算法对第一词向量和第二词向量进行降维,以提升聚类速度。
进行聚类时,根据预设离群条件判断候选识别实体是否属于簇,满足预设离群条件的候选识别实体则为不属于簇的离群点,反之则属于簇。
预设离群条件可以为候选识别识别距离簇的中心点的距离,也可以为其他离群度算法计算得到的离群度。
通过聚类确定候选识别实体的标准实体后,有两类识别实体作为异常实体被筛除,一类是在步骤S102中,判断后得到的不属于其对应类别的识别实体;一类是作为离群点的候选识别实体。这两类识别实体中,一部分是类别识别错误,导致不能二分类模型将其筛除或不能确定与对应的标准实体;比如将属于品牌类别的“欧莱雅”识别为“产品”,可能在二分类模型中将其筛除了,也可能将其保留,但是在步骤S105和聚类后,均不能找到与之对应的标准实体;但是如果将其分类至“品牌”类别,则毫无疑问能够确定其标准实体。
更新标准实体词库后,如图3所示,对异常实体进行重新分类,包括:
S301、构建异常实体集;所述异常实体集中的异常实体包括判断后得到的不属于其对应类别的识别实体和聚类得到的满足预设离群条件的候选识别实体;
S302、利用二分类模型对所述异常实体进行重新分类,得到所述异常实体的类别;
S303、获取异常实体对应的第一词向量和更新后的标准实体词库中该识别实体对应的类别下每个标准实体的第二词向量;
S304、根据所述第一词向量和第二词向量,从所述更新后的标准实体词库该异常实体对应的类别下的标准实体中,确定与所述异常实体对齐的目标标准实体。
S302中,利用二分类模型对所述异常实体进行重新分类,得到所述异常实体的类别;包括:利用各个二分类模型判断所述异常实体属于各个类别的概率,将最大概率对应的类别确定为所述异常实体的类别。
S303和S304再针对重新确定类别的异常实体,基于更新后的标准实体词库中更加丰富的标准实体确定与异常实体对齐的标准实体,从而能够重新确定原类别分类错误的异常实体的目标标准实体,补充识别实体的标准实体,提升评论文本的识别实体的实体对齐准确率,进一步丰富标准实体的含义。
所述的对异常实体进行重新分类,既可以仅在在步骤S102判断得到不属于其对应类别的识别实体后,对不属于其对应类别的识别实体进行分类;也可以仅在聚类后,对聚类得到的满足预设离群条件的候选识别实体进行重新分类;或者在未更新标准实体词库之前,再次确定异常实体与所述异常实体对齐的目标标准实体。
本实施例所述的对异常实体进行重新分类,同时对判断后得到的不属于其对应类别的识别实体和聚类得到的满足预设离群条件的候选识别实体进行重新分类,步骤简单,且利用更新后的标准实体词库,进一步提升从标准实体词库中找到所述异常实体对应的标准实体词库的概率。
如图4所示,本申请实施例还提供一种实体对齐装置,包括:
获取模块401,用于获取目标产品领域中产品的评论文本对应的至少一个类别下的识别实体;
判断模块402,用于针对每个类别下的每一个识别实体,判断该识别实体是否属于该类别;
删除模块403,用于在判断该识别实体不属于该类别后,删除该类别下的该识别实体;
第一确定模块404,用于在判断识别实体属于其对应类别后,则根据所述产品所属的目标产品领域,确定该识别实体对应的第一词向量和标准实体词库中该识别实体对应的类别下每个标准实体的第二词向量;
第二确定模块405,用于根据所述第一词向量和第二词向量,从所述标准实体词库该类别下的标准实体中,确定与所述识别实体对齐的目标标准实体。
如图5所示,本申请实施例还提供一种电子设备,包括:处理器501、存储器502和总线503,所述存储器502存储有所述处理器501可执行的机器可读指令,当电子设备运行时,所述处理器501与所述存储器502之间通过总线503通信,所述机器可读指令被所述处理器501执行时执行所述的实体对齐方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行所述的实体对齐方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,平台服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种实体对齐方法,其特征在于,所述方法包括:
获取目标产品领域中产品的评论文本对应的至少一个类别下的识别实体;
针对每个类别下的每一个识别实体,判断该识别实体是否属于该类别;
若否,则删除该类别下的该识别实体;
若是,则根据所述产品所属的目标产品领域,确定该识别实体对应的第一词向量和标准实体词库中该识别实体对应的类别下每个标准实体的第二词向量;
根据所述第一词向量和第二词向量,从所述标准实体词库该类别下的标准实体中,确定与所述识别实体对齐的目标标准实体。
2.根据权利要求1所述的实体对齐方法,其特征在于,针对每个类别下的每一个识别实体,判断该识别实体是否属于该类别,包括:同时将多个类别中的识别实体输入多个二分类模型,每个二分类模型对应一种类别的识别实体,判断该识别实体是否属于其对应类别;所述二分类模型通过目标产品领域中对应类别的训练集训练得到。
3.根据权利要求2所述的实体对齐方法,其特征在于,所述多个二分类模型的阈值不同,每个二分类模型的阈值通过目标产品领域中对应类别的训练集训练得到。
4.根据权利要求1所述的实体对齐方法,其特征在于,根据所述产品所属的目标产品领域,确定该识别实体对应的第一词向量和所述产品对应的标准实体词库中该识别实体相同类别下标准实体的第二词向量,包括:
利用训练好的词向量模型,得到识别实体对应的第一词向量和标准实体词库中该识别实体对应的类别下每个标准实体的第二词向量;所述训练好的词向量模型是通过产品所属的目标产品领域的训练集训练得到的。
5.根据权利要求1所述的实体对齐方法,其特征在于,根据所述第一词向量和第二词向量,从所述标准实体词库该类别下的标准实体中,确定与所述识别实体对齐的目标标准实体,还包括:
若所述标准实体词库该类别下的标准实体中,不存与所述识别实体对齐的目标标准实体,则将所述识别实体作为候选识别实体;
对该类别下的候选识别实体进行聚类,得到若干个簇,所述簇中的候选识别实体均不满足预设离群条件;
根据所述簇中的候选识别实体,确定簇的标准实体及其类别,并将簇的标准实体作为与簇中候选识别实体对齐的目标标准实体。
6.根据权利要求5所述的实体对齐方法,其特征在于,
在确定簇的标准实体及其类别之后,所述方法还包括:
将簇的标准实体增加至标准实体词库对应的类别中,以更新标准实体词库。
7.根据权利要求6所述的实体对齐方法,其特征在于,
更新标准实体词库后,所述方法还包括:
构建异常实体集;所述异常实体集中的异常实体包括判断后得到的不属于其对应类别的识别实体和聚类得到的满足预设离群条件的候选识别实体;
利用二分类模型对所述异常实体进行重新分类,得到所述异常实体的类别;
获取异常实体对应的第一词向量和更新后的标准实体词库中该识别实体对应的类别下每个标准实体的第二词向量;
根据所述第一词向量和第二词向量,从所述更新后的标准实体词库该异常实体对应的类别下的标准实体中,确定与所述异常实体对齐的目标标准实体。
8.一种实体对齐装置,其特征在于, 包括:
获取模块,用于获取目标产品领域中产品的评论文本对应的至少一个类别下的识别实体;
判断模块,用于针对每个类别下的每一个识别实体,判断该识别实体是否属于该类别;
删除模块,用于在判断该识别实体不属于该类别后,删除该类别下的该识别实体;
第一确定模块,用于在判断识别实体属于其对应类别后,则根据所述产品所属的目标产品领域,确定该识别实体对应的第一词向量和标准实体词库中该识别实体对应的类别下每个标准实体的第二词向量;
第二确定模块,用于根据所述第一词向量和第二词向量,从所述标准实体词库该类别下的标准实体中,确定与所述识别实体对齐的目标标准实体。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任意一项所述的实体对齐方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任意一项所述的实体对齐方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110695614.6A CN113204643B (zh) | 2021-06-23 | 2021-06-23 | 一种实体对齐方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110695614.6A CN113204643B (zh) | 2021-06-23 | 2021-06-23 | 一种实体对齐方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113204643A true CN113204643A (zh) | 2021-08-03 |
CN113204643B CN113204643B (zh) | 2021-11-02 |
Family
ID=77022624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110695614.6A Active CN113204643B (zh) | 2021-06-23 | 2021-06-23 | 一种实体对齐方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113204643B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113987192A (zh) * | 2021-12-28 | 2022-01-28 | 中国电子科技网络信息安全有限公司 | 一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法 |
CN115545809A (zh) * | 2022-12-02 | 2022-12-30 | 广州数说故事信息科技有限公司 | 电商商品的标品库构建方法、数据对齐方法、装置和设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138515A (zh) * | 2015-09-02 | 2015-12-09 | 百度在线网络技术(北京)有限公司 | 命名实体识别方法和装置 |
CN106202041A (zh) * | 2016-07-01 | 2016-12-07 | 北京奇虎科技有限公司 | 一种解决知识图谱中的实体对齐问题的方法和装置 |
CN108959252A (zh) * | 2018-06-28 | 2018-12-07 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
US20190197166A1 (en) * | 2017-12-27 | 2019-06-27 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, terminal device and storage medium for mining entity description tag |
CN110188359A (zh) * | 2019-05-31 | 2019-08-30 | 成都火石创造科技有限公司 | 一种文本实体抽取方法 |
US20190311275A1 (en) * | 2018-04-10 | 2019-10-10 | Beijing Baidu Netcome Science and Technology Co., Ltd. | Method and apparatus for recommending entity |
CN110659368A (zh) * | 2019-09-20 | 2020-01-07 | 北京明略软件系统有限公司 | 知识图谱构建方法、装置、电子设备及可读存储介质 |
CN110795572A (zh) * | 2019-10-29 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 一种实体对齐方法、装置、设备及介质 |
CN111144118A (zh) * | 2019-12-26 | 2020-05-12 | 携程计算机技术(上海)有限公司 | 口语化文本中命名实体的识别方法、系统、设备和介质 |
CN112241453A (zh) * | 2020-10-20 | 2021-01-19 | 虎博网络技术(上海)有限公司 | 情感属性确定方法、装置及电子设备 |
CN112417167A (zh) * | 2020-11-20 | 2021-02-26 | 中国平安人寿保险股份有限公司 | 保险知识图谱的构建方法、装置、计算机设备及存储介质 |
-
2021
- 2021-06-23 CN CN202110695614.6A patent/CN113204643B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138515A (zh) * | 2015-09-02 | 2015-12-09 | 百度在线网络技术(北京)有限公司 | 命名实体识别方法和装置 |
CN106202041A (zh) * | 2016-07-01 | 2016-12-07 | 北京奇虎科技有限公司 | 一种解决知识图谱中的实体对齐问题的方法和装置 |
US20190197166A1 (en) * | 2017-12-27 | 2019-06-27 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, terminal device and storage medium for mining entity description tag |
US20190311275A1 (en) * | 2018-04-10 | 2019-10-10 | Beijing Baidu Netcome Science and Technology Co., Ltd. | Method and apparatus for recommending entity |
CN108959252A (zh) * | 2018-06-28 | 2018-12-07 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
CN110188359A (zh) * | 2019-05-31 | 2019-08-30 | 成都火石创造科技有限公司 | 一种文本实体抽取方法 |
CN110659368A (zh) * | 2019-09-20 | 2020-01-07 | 北京明略软件系统有限公司 | 知识图谱构建方法、装置、电子设备及可读存储介质 |
CN110795572A (zh) * | 2019-10-29 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 一种实体对齐方法、装置、设备及介质 |
CN111144118A (zh) * | 2019-12-26 | 2020-05-12 | 携程计算机技术(上海)有限公司 | 口语化文本中命名实体的识别方法、系统、设备和介质 |
CN112241453A (zh) * | 2020-10-20 | 2021-01-19 | 虎博网络技术(上海)有限公司 | 情感属性确定方法、装置及电子设备 |
CN112417167A (zh) * | 2020-11-20 | 2021-02-26 | 中国平安人寿保险股份有限公司 | 保险知识图谱的构建方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
黄峻福等: "中文异构百科知识库实体对齐", 《计算机应用》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113987192A (zh) * | 2021-12-28 | 2022-01-28 | 中国电子科技网络信息安全有限公司 | 一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法 |
CN113987192B (zh) * | 2021-12-28 | 2022-04-01 | 中国电子科技网络信息安全有限公司 | 一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法 |
CN115545809A (zh) * | 2022-12-02 | 2022-12-30 | 广州数说故事信息科技有限公司 | 电商商品的标品库构建方法、数据对齐方法、装置和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113204643B (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102310487B1 (ko) | 속성 단위 리뷰 분석 장치 및 방법 | |
CN110069709B (zh) | 意图识别方法、装置、计算机可读介质及电子设备 | |
CN112164391A (zh) | 语句处理方法、装置、电子设备及存储介质 | |
Li et al. | Discover and mitigate unknown biases with debiasing alternate networks | |
CN110309114B (zh) | 媒体信息的处理方法、装置、存储介质和电子装置 | |
CN110929525B (zh) | 一种网贷风险行为分析检测方法、装置、设备和存储介质 | |
CN113204643B (zh) | 一种实体对齐方法、装置、设备及介质 | |
CN111783903B (zh) | 文本处理方法、文本模型的处理方法及装置、计算机设备 | |
CN109087205A (zh) | 舆情指数的预测方法及装置、计算机设备和可读存储介质 | |
CN107944911A (zh) | 一种基于文本分析的推荐系统的推荐方法 | |
CN113392179A (zh) | 文本标注方法及装置、电子设备、存储介质 | |
CN113282762A (zh) | 知识图谱构建方法、装置、电子设备和存储介质 | |
CN112818227A (zh) | 内容推荐方法、装置、电子设备及存储介质 | |
Li et al. | A novel label-based multimodal topic model for social media analysis | |
CN110765276A (zh) | 知识图谱中的实体对齐方法及装置 | |
CN111783425B (zh) | 基于句法分析模型的意图识别方法及相关装置 | |
CN117609612A (zh) | 资源推荐方法、装置、存储介质及电子设备 | |
CN113065329A (zh) | 数据的处理方法和装置 | |
CN113988878B (zh) | 一种基于图数据库技术的反欺诈方法及系统 | |
CN115730079A (zh) | 基于知识图谱的虚假新闻辨识方法、装置、设备及介质 | |
CN113378826B (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN117933260A (zh) | 一种文本质量分析方法、装置、设备及存储介质 | |
CN114491076A (zh) | 基于领域知识图谱的数据增强方法、装置、设备及介质 | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
CN113807920A (zh) | 基于人工智能的产品推荐方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |