CN112528644B - 实体挂载的方法、装置、设备以及存储介质 - Google Patents
实体挂载的方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN112528644B CN112528644B CN202011550086.7A CN202011550086A CN112528644B CN 112528644 B CN112528644 B CN 112528644B CN 202011550086 A CN202011550086 A CN 202011550086A CN 112528644 B CN112528644 B CN 112528644B
- Authority
- CN
- China
- Prior art keywords
- entity
- candidate
- category
- term
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 abstract description 8
- 238000001914 filtration Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 230000008520 organization Effects 0.000 description 7
- 238000002372 labelling Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000013145 classification model Methods 0.000 description 5
- 235000013399 edible fruits Nutrition 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种实体挂载的方法、装置、设备以及存储介质,涉及大数据以及知识图谱技术领域。具体实现方案为:获取给定文本的多个候选实体和各候选实体的所属类别;基于各候选实体在对应的所属类别下的IDF值,从多个候选实体中确定出待挂载实体;从词条图谱中确定出与待挂载实体对应的目标义项;将待挂载实体挂载至目标义项。根据本公开的技术方案,无需对模型进行监督训练,即可将从给定文本中提取出的实体挂载至词条图谱中相应的义项上,具有人力成本低、投入使用快的优点。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及大数据以及知识图谱领域。
背景技术
相关技术中的实体链接技术,通常采用消歧模型或端到端的实体链接模型,以上两种模型都是基于有监督学习方法,需要根据预先定义好的实体类别,并采用标注语料训练实体链接模型的参数。基于此,相关技术中的实体链接技术存在人工标注成本高、训练周期长的缺陷。
发明内容
本公开提供了一种用于实体挂载的方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种实体挂载的方法,包括:
获取给定文本的多个候选实体和各候选实体的所属类别;
基于各候选实体在对应的所属类别下的IDF值,从多个候选实体中确定出待挂载实体;
从词条图谱中确定出与待挂载实体对应的目标义项;
将待挂载实体挂载至目标义项。
根据本公开的另一方面,提供了一种实体挂载的装置,包括:
候选实体获取模块,用于获取给定文本的多个候选实体和各候选实体的所属类别;
待挂载实体确定模块,用于基于各候选实体在对应的所属类别下的IDF值,从多个候选实体中确定出待挂载实体;
目标义项确定模块,用于从词条图谱中确定出与待挂载实体对应的目标义项;
挂载模块,用于将待挂载实体挂载至目标义项。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开任一实施例中的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行本公开任一实施例中的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本公开任一实施例中的方法。
根据本公开的技术方案,无需对模型进行监督训练,即可将从给定文本中提取出的实体挂载至词条图谱中相应的义项上,因而具有人力成本低、投入使用快的优点。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开一方面实施例的实体挂载的方法的流程图;
图2是根据本公开一方面实施例的确定待挂载实体的具体流程图;
图3是根据本公开一方面实施例的确定目标义项的具体流程图;
图4是根据本公开一方面实施例的计算主题相关度的具体流程图;
图5是根据本公开一方面实施例的计算词语级别相关度的具体流程图;
图6是根据本公开一方面实施例的计算分类相关度的具体流程图;
图7是根据本公开一方面实施例的计算类型匹配相关度的具体流程图;
图8是根据本公开一方面实施例的将待挂载实体挂载至目标义项的具体流程图;
图9是根据本公开一方面实施例的实体挂载的装置的示意图;
图10是用来实现本公开实施例的实体挂载的方法的电子设备的框图;
图11是可以实现本公开实施例的实体挂载的方法中生成待挂载实体数据的示意图;
图12是可以实现本公开实施例的实体挂载的方法中的计算流程的示意图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
文本作为信息的载体,是用户获取信息的最主要形式。用户在浏览资讯时,对文本中提到的某些概念、地点、人物等实体可能会希望有进一步了解。在不打断用户浏览信息的原则上,在用户可能感兴趣的地方应用实体链接(Entity Linking)技术,即把文本中的提及实体(mention)链接到知识库中的基本真相实体(entity)。用户通过点击提及实体,即可查看其在知识库中的解释,这样既有利于用户延展阅读,又不打扰用户获取信息。目前普通的新闻网站很少有在文本中链接实体的产品出现,而在各大百科类的产品中,实体的挂载通常是由UGC(User Generated Content,用户生成内容)进行编辑实现。
相关技术中的实体链接技术通常采用消歧模型或端到端的实体链接模型,以上两种模型都是基于有监督学习方法,需要根据预先定义好的实体类别,并采用标注语料训练实体链接模型的参数。而在实际的应用场景中,我们面对的资源类型繁多,仅利用有限的语料会面对准确率和召回率不足的问题。如果要想提升准确率和召回率,则需要耗费大量人力,花费很长时间来完善样本标注。而工业界产品上线和更新周期都很快,这样的流程无法在实际场景中落地。
基于此,相关技术中的实体链接技术存在以下缺陷:(1)有监督学习模型依赖于大规模的训练语料来提升模型的准确率和召回率,存在人工标注成本高、训练周期长的缺陷;(2)现有监督模型在更换语料类型后存在大幅度的性能下降,导致无法分析目标类别之外的实体,存在适用范围小的缺陷。
为了解决相关技术中的实体链接技术所存在的上述中的至少一个技术问题,本公开实施例提供了一种实体挂载的方法,该方法在实际应用场景下可直接落地使用,无需标注训练数据,并且具有较高的准确率和召回率。
图1示出根据本公开实施例的实体挂载的方法的流程图,该方法涉及人工智能技术领域,可以应用在大数据以及知识图谱领域。
如图1所示,本公开实施例的实体挂载的方法可以包括如下步骤:
步骤S101:获取给定文本的多个候选实体和各候选实体的所属类别;
步骤S102:基于各候选实体在对应的所属类别下的IDF(Inverse DocumentFrequency,逆文本频率指数)值,从多个候选实体中确定出待挂载实体;
步骤S103:从词条图谱中确定出与待挂载实体对应的目标义项;
步骤S104:将待挂载实体挂载至目标义项。
示例性地,在步骤S101中,可以通过训练好的命名实体识别(Named EntityRecognition,NER)模型,对给定文本中的多个实体提及进行识别,以得到给定文本的多个候选实体以及各候选实体对应的所属类别。其中,候选实体及其对应的所属类别,可以通过序列标注的形式表达。例如,从给定文本中获取到的某个候选实体可以为<苹果,组织机构>,其中,“苹果”为该候选实体的名称,“组织机构”为该候选实体的所属类别。需要说明的是,以上描述仅为示例性地,不能理解为对本公开的限制,候选实体的表达方式可以为任意形式,例如,通过命名实体识别模型获取到的候选实体,除了候选实体本体及其所属类别,还可以包括候选实体在给定文本中的所在的语句或上下文信息等其他属性。
示例性地,在步骤S102中,候选实体的在对应的所属类别下的IDF值可以通过如下方式计算得到:计算词条图谱中的所有义项的总数与包含该所属类别下的候选实体的义项的数量的比值,并对该比值取以10为底的对数,从而得到候选实体在对应的所属类别下的IDF值。基于候选实体在对应的所属类别下的IDF值,可以衡量候选实体在对应的所属类别下的普遍重要性程度。可以理解的是,IDF值越大,则说明候选实体在对应的所属类别下,在词条图谱的所有义项中出现的次数较少,因而该候选实体在对应的所属类别下的普遍性较低;IDF值越小,则说明该候选实体在对应的所属类别下,在词条图谱的所有义项中出现的次数较多,因而该候选实体的普遍性较高。其中,候选实体在对应的所属类别下在词条图谱的所有义项中出现的频率越高,即候选实体在对应的所属类别下的IDF值越小,则说明用户对该候选实体的了解程度相应较高,即用户对该候选实体的进一步了解的期望越低。
例如,候选实体的名称为“苹果”,在其对应的所属类别为“水果”的情况下,“苹果”作为“水果”在词条图谱中的所有义项中出现的频率较高,并且用户对其进一步了解的期望较低,计算得到的IDF值相应较小;但是,在其对应的所属类别为“组织机构”的情况下,“苹果”作为“组织机构”在词条图谱中的所有义项中出现的频率较低,并且用户对其进一步了解的期望较高,计算得到的IDF值相应较大。
由此,根据计算得到的候选实体在对应的所属类别下的IDF值,可以对步骤S101中得到的多个候选实体进行初步过滤,以过滤掉可能对用户理解给定文本没有帮助的常见的词条,并保留对用户理解给定文本有帮助的不常见的候选实体,作为给定文本的待挂载实体。并且,在计算IDF值时通过融合候选实体对应的所属类别,可以避免具有多个所属类别的候选实体被无区别对待,从而在对多个候选实体进行过滤的过程中,可以对候选实体在其对应的当前所属类别下的重要程度进行衡量,进而使过滤后得到的待挂载实体更符合用户对其进一步了解的实际期望。
此外,在本公开的其他示例中,还可以通过预设的实体黑名单对多个候选实体进行过滤,以得到待挂载实体。其中,实体黑名单中可以包括多个常用词条。
需要说明的是,在本公开实施例中,词条图谱可以为知识图谱(Knowledge Graph,KG)或知识库(Knowledge Base,KB)。具体地,词条图谱可以理解为一种预先建立好的语义网络,旨在描述客观世界的概念实体及其之间的关系。词条图谱中可以包括多个词条,其中的部分词条可以为多义词,即该词条的具有多个义项。例如,“苹果”作为词条可以具有多种语义,“苹果”作为“水果”可以具有相应的义项,“苹果”作为“组织机构”也具有相应的义项。
示例性地,在步骤S103中,可以将待挂载实体输入至词条图谱进行搜索和匹配,在词条图谱中匹配到与待挂载实体对应的词条之后,从词条图谱中召回与待挂载实体对应的多个义项,再从与待挂载实体对应词条的多个义项中确定出与待挂载实体相关度最高的义项,作为待挂载实体的目标义项,最后将待挂载实体挂载至对应的目标义项。由此,用户通过点击给定文本中与待挂载实体对应的相关实体,即可打开词条图谱中与该待挂载实体相对应的目标义项的内容,以帮助用户延展阅读。
根据本公开实施例的实体挂载的方法,通过获取给定文本的多个候选实体及各候选实体的所属类别,基于各候选实体在对应的所属类别下的IDF值,确定出待挂载实体,并从词条图谱中确定出与待挂载实体对应的目标义项,最终将待挂载实体挂载至目标义项。由此,本公开实施例的实体挂载的方法无需构建训练样本以及对模型进行监督训练,即可将从给定文本中提取出的实体挂载至词条图谱中相应的义项上,因而本公开实施例的方法可以在实际场景中直接应用,具有人力成本低、投入使用快的优点。
再者,通过基于候选实体在对应的所属类别下的IDF值确定出待挂载实体,可以对候选实体在其对应的当前所属类别下的重要程度进行衡量,避免具有多个所属类别的候选实体被无区别对待,进而使过滤后得到的待挂载实体更符合用户对其进一步了解的实际期望,具有准确率和召回率高的优点,有利于提高用户的使用体验。
如图2所示,在一种实施方式中,步骤S102可以包括:
步骤S201:计算候选实体在对应的所属类别下的IDF值;
步骤S202:在IDF值达到与候选实体的所属类别对应的预设阈值的情况下,将候选实体确定为待挂载实体。
示例性地,在步骤S201中,计算候选实体在对应的所属类别下的IDF值,可以通过如下公式计算:
其中,IDFi表示第i个候选实体在对应的所属类别下的IDF值,|D|表示词条图谱中所有义项的总数;|{j:ti∈dj}|表示词条图谱中该候选实体在对应的所属类别下在所有义项中出现的次数。
示例性地,在步骤S102中,可以根据各候选实体的所属类别,设置与各候选实体在对应的所属类别下的过滤阈值。通过比较各候选实体在对应的所属类别下的IDF值与对应的过滤阈值,对多个候选实体进行过滤。在某个候选实体在对应的所属类别下的IDF值达到对应的过滤阈值的情况下,保留该候选实体并将其确定为待挂载实体;在某个候选实体在对应的所属类别下的IDF值未达到对应的过滤阈值的情况下,则将该候选实体过滤掉。
需要说明的是,同一候选实体在不同的所属类别下的过滤阈值可以不同。例如,候选实体的名称为“苹果”,在候选实体的所属类别为“水果”的情况下,“苹果”的过滤阈值在“水果”的所属类别下可以设置的较小;在“苹果”的所属类别为“组织机构”的情况下,“苹果”的过滤阈值在“组织机构”的所属类别下可以设置的较大。由此,根据候选实体在不同所属类别下设置不同的过滤阈值,可以在过滤过程中针对候选实体的所属类别进行区分,避免具有多个语义的候选实体被无区别对待,从而使得到的待挂载实体更加符合用户进一步了解的期望。
如图3所示,在一种实施方式中,步骤S103可以包括如下步骤:
步骤S301:从词条图谱中确定出与待挂载实体对应的多个候选义项;
步骤S302:对于各候选义项,计算待挂载实体与候选义项之间的相关度;
步骤S303:根据各候选义项对应的至少一个相关度,从多个候选义项中确定出目标义项。
示例性地,在步骤S301中,可以将多个候选实体输入至词条图谱进行匹配。在词条图谱存在与候选实体相匹配的词条的情况下,将与候选实体对应词条的多个义项进行召回。其中,召回的义项可以包括该义项对应的文本内容、义项类别等其他属性信息。
在步骤S302中,根据给定文本和待挂载实体以及与待挂载实体对应词条的多个义项,构建文本级别的特征、句子级别的特征以及词语级别的特征,基于以上特征中的至少部分特征,计算待挂载实体与各候选义项之间的相关度。其中,相关度可以包括主题相关度、词语级别相关度、分类相关度以及类型匹配相关度中的至少一个。
在步骤S303中,根据步骤S302计算得到的各候选义项对应的相关度,判断各候选义项对应的相关度是否达到预设的相关阈值。在从达到预设的相关阈值的多个候选义项中,选择相关度最高的候选义项,作为待挂载实体的目标义项。
示例性地,在步骤S302中计算的各候选义项对应的相关度可以为多个,在步骤S303中,可以根据各候选义项对应的多个相关度计算得到综合相关度,并根据各候选义项对应的综合相关度,从待挂载实体对应词条的多个候选义项中确定出目标义项。
根据上述实施方式,通过利用给定文本、待挂载实体以及与待挂载实体对应词条的多个义项,构建文本级别的特征、句子级别的特征以及词语级别的特征,并基于上述特征计算待挂载实体与其对应词条的多个候选义项之间的至少一个相关度,根据各候选实体对应的至少一个相关度从多个候选义项中确定出目标义项。由此,不仅利用了词语级别以及句子级别的特征,还利用了文本的上下文特征,从而提高了从多个候选义项中确定出目标义项的准确率和召回率。
如图4所示,在一种实施方式中,相关度包括主题相关度,步骤S302包括:
步骤S401:提取给定文本中包含待挂载实体的上下文语句,作为待挂载实体的描述信息;
步骤S402:提取候选义项的描述信息,候选义项的描述信息包括词条名称、义项解释、义项类别、义项简介和义项内容中的至少一个;
步骤S403:计算待挂载实体的描述信息与候选义项的描述信息之间的线性相关度,得到待挂载实体与候选义项之间的主题相关度。
示例性地,在步骤S401中,对于待挂载实体,分别提取给定文本中包含待挂载实体的语句,以及该语句的上下文语句作为待挂载实体的描述信息。
在步骤S402中,对于与待挂载实体对应词条的各候选义项,从词条图谱中分别提取与各候选义项的描述信息。
在步骤S403中,可以通过线性判别式分析(Linear Discriminant Analysis,LDA)算法,计算待挂载实体的描述信息与候选义项的描述信息之间的线性相关度。
由此,基于给定文本中包含待挂载实体的上下文信息与对应词条的各候选义项的描述信息,计算得到各候选实体对应的主题相关度,从而可以基于给定文本的整体内容上,衡量各候选义项与待挂载实体的主题相关度,有利于进一步提高从多个候选义项中确定出目标义项的准确率以及召回率。
如图5所示,在一种实施方式中,相关度包括词语级别相关度,步骤S302包括:
步骤S501:对待挂载实体的描述信息提取关键词,得到待挂载实体关键词;
步骤S502:对候选义项的描述信息提取关键词,得到候选义项关键词;
步骤S503:基于待挂载实体关键词的权重值和候选义项关键词的权重值,计算待挂载实体与候选义项之间的词语级别相关度。
示例性地,针对每个待挂载实体,对待挂载实体在给定文本中的描述信息进行关键词进行提取,并返回对应的待挂载实体关键词的权重值。针对与待挂载实体对应的每个候选义项,对候选义项的描述信息进行关键词提取,并返回对应的候选义项关键词的权重值。优选地,在对提取待挂载实体关键词和候选义项关键词的过程中,需要注意关键词的提取粒度,对于分割粒度不合理的关键词进行合并或者拆分处理,同时权重值也做相应的调整。
可以理解的是,通过基于待挂载实体关键词的权重值和候选义项关键词的权重值,计算得到待挂载实体与候选义项之间的词语级别相关度,可以衡量待挂载实体的描述信息中的关键词以及各候选实体的描述信息中的关键词的相关度,从而可以在词语级别的维度计算待挂载实体与各候选义项之间的相关性。
如图6所示,在一种实施方式中,相关度包括分类相关度,步骤S302包括:
步骤S601:获取给定文本的所属类别和候选义项的义项类别;
步骤S602:根据给定文本的所属类别与候选义项的义项类别,计算待挂载实体与候选义项的分类相关度。
示例性地,在步骤S601中,针对给定文本的所属类别和待挂载实体对应的各候选义项的义项类别,可以分别通过训练好的文本分类模型得到。其中,文本分类模型可以为快速文本分类模型(FastText)、文本卷积分类模型(TextCNN)或字符分类模型(char-CNN)等模型。在步骤S602中,将给定文本的所属类别和各候选义项的义项类别进行映射,计算得到待挂载实体与各候选义项的分类相关度。
由此,可以基于待挂载实体对应的给定文本的以及各候选义项的类别维度,对待挂载实体与各候选义项的相关度进行计算。
如图7所示,在一种实施方式中,相关度包括类型匹配相关度,步骤S302包括:
步骤S701:获取待挂载实体的所属类别和候选义项的义项类别;
步骤S702:根据待挂载实体的所属类别与候选义项的义项类别,计算待挂载实体与候选义项的类型匹配相关度。
示例性地,在步骤S701中,待挂载实体的所属类别可以在步骤S101中,通过将给定文本输入命名实体识别模型识别得到。候选义项的义项类别可以通过步骤S301,即从词条图谱中确定出与待挂载实体对应的多个候选义项时,通过将候选义项的相关信息进行召回得到。在步骤S702中,将待挂载的所属类别和各候选义项的义项类别进行映射,计算得到待挂载实体与各候选义项的类型匹配相关度。
由此,可以基于待挂载实体与各候选义项的类别维度,对待挂载实体与各候选义项的类型匹配相关度进行计算。
在一种实施方式中,步骤S303可以包括:根据与待挂载实体对应的各候选义项所对应的主题相关度、词语级别相关度、分类相关度以及类型匹配相关度,得到各候选义项所对应的综合相关度;基于各候选义项所对应的综合相关度,从多个候选义项中选择综合相关度最高的候选义项,确定为与待挂载实体对应的目标义项。
由此,可以针对文本级别、语句级别、词语级别以及所属类别多个维度计算待挂载实体与各候选义项之间的综合相关度,从而进一步提高确定出目标义项的准确率和召回率。
需要说明的是,在一些给定文本中,会出现很多待挂载实体,如果将每个待挂载实体均挂载对应的目标义项,则会导致给定文本的界面显示杂乱,从而影响用户的浏览体验。因此需要在所有的待挂载实体中,选择部分待挂载实体作为目标挂载实体,并将目标挂载实体挂载至对应的目标义项。
基于此,如图8所示,在一种实施方式中,待挂载实体为多个,步骤S104包括:
步骤S801:基于待挂载实体与对应的目标义项的主题相关度,对多个待挂载实体按照降序排列;
步骤S802:从多个待挂载实体中选取至少一个目标挂载实体,其中,目标挂载实体的总字数小于或等于给定文本的总字数的5%;
步骤S803:将各目标挂载实体分别挂载至对应的目标义项。
示例性地,在步骤S801中,待挂载实体与对应的目标义项的主题相关度,可以通过与上述的步骤S401、步骤S402以及步骤S403相同或相类似的方法得到,此处不再赘述。基于待挂载实体与对应的目标义项的主题相关度,将多个待挂载实体按照主题相关度从大到小的顺序排列。
在步骤S802中,从多个待挂载实体中截取一定数量的待挂载实体作为目标挂载实体,且一定数量的目标挂载实体的总字数不大于给定文本总字数的5%。
可选地,对于目标义项相同的多个待挂载实体,从多个待挂载实体中选择在给定文本中首次出现的待挂载实体,确定为目标挂载实体,并将目标挂载实体挂载至与其对应的目标义项。
通过上述方案,可以从多个待挂载实体中,选择出与给定文本的主题相关性较高的待挂载实体作为目标挂载实体并进行挂载,从而优化给定文本的界面显示,提高用户的浏览体验。
下面参照图11和图12描述根据本公开实施例的实体挂载的方法的一个具体示例。
如图11所示,通过命名实体识别模型对待挂载文本(即给定文本)进行识别,得到多个候选实体及其对应的类型。基于多个候选实体在其对应所述类别下的IDF值,对多个候选实体进行过滤,得到多个待挂载实体。进一步地,分别判断各待挂载实体是否在预设的实体黑名单中,并将在实体黑名单中的待挂载实体进行过滤,将不在实体黑名单中的待挂载实体及其对应的类型输入百度百科词条数据库(即词条图谱)进行匹配,并召回百度百科词条数据中与待挂载实体对应词条的所有义项信息(即候选实体)。
如图12所示,获取待计算数据,待计算数据包括待挂载文本、待挂载实体和与其对应的类型、以及与待挂载实体对应的所有义项信息。对待计算数据进行特征提取,得到待挂载文本的篇章分类信息、待挂载实体对应句子的关键词及权重、各义项的关键词及权重、以及义项的分类信息。基于提取到的特征进行相关度计算,具体包括计算分类相关度、实体类型与义项类型的匹配相关度、LDA相关度以及关键词相似度。根据上述计算得到的各个相关度对待挂载实体进行筛选,具体地,基于上述相关度计算得到待挂载实体与各义项的整体相关度,根据预先设置的相关度阈值,调整待挂载实体的显示分布,并将最终确定的目标挂载实体挂载至对应的目标义项。
根据本公开的实施例,本公开还提供一种实体挂载的装置900。
如图9所示,该装置900包括:
候选实体获取模块901,用于获取给定文本的多个候选实体和各候选实体的所属类别;
待挂载实体确定模块902,用于基于各候选实体在对应的所属类别下的IDF值,从多个候选实体中确定出待挂载实体;
目标义项确定模块903,用于从词条图谱中确定出与待挂载实体对应的目标义项;
挂载模块904,用于将待挂载实体挂载至目标义项。
在一种实施方式中,待挂载实体确定模块902包括:
IDF值计算子模块,用于计算候选实体在对应的所属类别下的IDF值;
待挂载实体确定子模块,在IDF值达到与候选实体的所属类别对应的预设阈值的情况下,将候选实体确定为待挂载实体。
在一种实施方式中,目标义项确定模块903包括:
候选义项确定子模块,用于从词条图谱中确定出与待挂载实体对应的多个候选义项;
相关度计算子模块,对于各候选义项,计算待挂载实体与候选义项之间的相关度;
目标义项确定子模块,根据各候选义项对应的至少一个相关度,从多个候选义项中确定出目标义项。
在一种实施方式中,相关度包括主题相关度,相关度计算子模块包括:
待挂载实体描述信息提取单元,用于提取给定文本中包含待挂载实体的上下文语句,作为待挂载实体的描述信息;
候选义项描述信息提取单元,用于提取候选义项的描述信息,候选义项的描述信息包括词条名称、义项解释、义项类别、义项简介和义项内容中的至少一个;
主题相关度计算单元,用于计算待挂载实体的描述信息与候选义项的描述信息之间的线性相关度,得到待挂载实体与候选义项之间的主题相关度。
在一种实施方式中,相关度包括词语级别相关度,相关度计算子模块包括:
待挂载实体关键词提取单元,用于对待挂载实体的描述信息提取关键词,得到待挂载实体关键词;
候选义项关键词提取单元,用于对候选义项的描述信息提取关键词,得到候选义项关键词;
词语级别相关度计算单元,用于基于待挂载实体关键词的权重值和候选义项关键词的权重值,计算待挂载实体与候选义项之间的词语级别相关度。
在一种实施方式中,相关度包括分类相关度,相关度计算子模块包括:
第一类别获取单元,用于获取给定文本的所属类别和候选义项的义项类别;
分类相关度计算单元,用于根据给定文本的所属类别与候选义项的义项类别,计算待挂载实体与候选义项的分类相关度。
在一种实施方式中,相关度包括类型匹配相关度,相关度计算子模块包括:
第二类别获取单元,用于获取待挂载实体的所属类别和候选义项的义项类别;
类型匹配相关度计算单元,用于根据待挂载实体的所属类别与候选义项的义项类别,计算待挂载实体与候选义项的类型匹配相关度。
在一种实施方式中,待挂载实体为多个,挂载模块904包括:
待挂载实体排列子模块,用于基于待挂载实体与对应的目标义项的主题相关度,对多个待挂载实体按照降序排列;
目标挂载实体选取子模块,用于从多个待挂载实体中选取至少一个目标挂载实体,其中,目标挂载实体的总字数小于或等于给定文本的总字数的5%;
挂载子模块,用于将各目标挂载实体分别挂载至对应的目标义项。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或要求的本公开的实现。
如图10所示,设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序来执行各种适当的动作和处理。在RAM 1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入输出(I/O)接口1005也连接至总线1004。
设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各方法和处理,例如实体挂载的方法。例如,在一些实施例中,实体挂载的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的实体挂载的方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行实体挂载的方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (15)
1.一种实体挂载的方法,包括:
获取给定文本的多个候选实体和各所述候选实体的所属类别;
基于各所述候选实体在对应的所属类别下的IDF值,从多个所述候选实体中确定出待挂载实体;
从词条图谱中确定出与所述待挂载实体对应的目标义项;
将所述待挂载实体挂载至所述目标义项;
其中,从词条图谱中确定出与所述待挂载实体对应的目标义项,包括:
从词条图谱中确定出与所述待挂载实体对应的多个候选义项;
对于各所述候选义项,计算所述待挂载实体与所述候选义项之间的相关度;
根据各所述候选义项对应的至少一个相关度,从多个所述候选义项中确定出所述目标义项;
其中,所述待挂载实体为多个,将所述待挂载实体挂载至所述目标义项,包括:
基于所述待挂载实体与对应的目标义项的主题相关度,对多个所述待挂载实体按照降序排列;
从多个所述待挂载实体中选取至少一个目标挂载实体,其中,所述目标挂载实体的总字数小于或等于所述给定文本的总字数的5%;
将各所述目标挂载实体分别挂载至对应的目标义项。
2.根据权利要求1所述的方法,其中,基于各所述候选实体的IDF值和所属类别,从多个所述候选实体中确定出待挂载实体,包括:
计算所述候选实体在对应的所属类别下的IDF值;
在所述IDF值达到与所述候选实体的所属类别对应的预设阈值的情况下,将所述候选实体确定为待挂载实体。
3.根据权利要求1所述的方法,其中,所述相关度包括主题相关度,计算所述待挂载实体与所述候选义项之间的相关度,包括:
提取所述给定文本中包含所述待挂载实体的上下文语句,作为所述待挂载实体的描述信息;
提取所述候选义项的描述信息,所述候选义项的描述信息包括词条名称、义项解释、义项类别、义项简介和义项内容中的至少一个;
计算所述待挂载实体的描述信息与所述候选义项的描述信息之间的线性相关度,得到所述待挂载实体与所述候选义项之间的主题相关度。
4.根据权利要求1所述的方法,其中,所述相关度包括词语级别相关度,计算所述待挂载实体与所述候选义项之间的相关度,包括:
对所述待挂载实体的描述信息提取关键词,得到所述待挂载实体关键词;
对所述候选义项的描述信息提取关键词,得到所述候选义项关键词;
基于所述待挂载实体关键词的权重值和所述候选义项关键词的权重值,计算所述待挂载实体与所述候选义项之间的词语级别相关度。
5.根据权利要求1所述的方法,其中,所述相关度包括分类相关度,计算所述待挂载实体与所述候选义项之间的相关度,包括:
获取所述给定文本的所属类别和所述候选义项的义项类别;
根据所述给定文本的所属类别与所述候选义项的义项类别,计算所述待挂载实体与所述候选义项的分类相关度。
6.根据权利要求1所述的方法,其中,所述相关度包括类型匹配相关度,计算所述待挂载实体与所述候选义项之间的相关度,包括:
获取所述待挂载实体的所属类别和所述候选义项的义项类别;
根据所述待挂载实体的所属类别与所述候选义项的义项类别,计算所述待挂载实体与所述候选义项的类型匹配相关度。
7.一种实体挂载的装置,包括:
候选实体获取模块,用于获取给定文本的多个候选实体和各所述候选实体的所属类别;
待挂载实体确定模块,用于基于各所述候选实体在对应的所属类别下的IDF值,从多个所述候选实体中确定出待挂载实体;
目标义项确定模块,用于从词条图谱中确定出与所述待挂载实体对应的目标义项;
挂载模块,用于将所述待挂载实体挂载至所述目标义项;
其中,所述目标义项确定模块包括:
候选义项确定子模块,用于从词条图谱中确定出与所述待挂载实体对应的多个候选义项;
相关度计算子模块,对于各所述候选义项,计算所述待挂载实体与所述候选义项之间的相关度;
目标义项确定子模块,根据各所述候选义项对应的至少一个相关度,从多个所述候选义项中确定出所述目标义项;
其中,所述待挂载实体为多个,挂载模块包括:
待挂载实体排列子模块,用于基于所述待挂载实体与对应的目标义项的主题相关度,对多个所述待挂载实体按照降序排列;
目标挂载实体选取子模块,用于从多个所述待挂载实体中选取至少一个目标挂载实体,其中,所述目标挂载实体的总字数小于或等于所述给定文本的总字数的5%;
挂载子模块,用于将各所述目标挂载实体分别挂载至对应的目标义项。
8.根据权利要求7所述的装置,其中,所述待挂载实体确定模块包括:
IDF值计算子模块,用于计算所述候选实体在对应的所属类别下的IDF值;
待挂载实体确定子模块,在所述IDF值达到与所述候选实体的所属类别对应的预设阈值的情况下,将所述候选实体确定为待挂载实体。
9.根据权利要求7所述的装置,其中,所述相关度包括主题相关度,所述相关度计算子模块包括:
待挂载实体描述信息提取单元,用于提取所述给定文本中包含所述待挂载实体的上下文语句,作为所述待挂载实体的描述信息;
候选义项描述信息提取单元,用于提取所述候选义项的描述信息,所述候选义项的描述信息包括词条名称、义项解释、义项类别、义项简介和义项内容中的至少一个;
主题相关度计算单元,用于计算所述待挂载实体的描述信息与所述候选义项的描述信息之间的线性相关度,得到所述待挂载实体与所述候选义项之间的主题相关度。
10.根据权利要求7所述的装置,其中,所述相关度包括词语级别相关度,所述相关度计算子模块包括:
待挂载实体关键词提取单元,用于对所述待挂载实体的描述信息提取关键词,得到所述待挂载实体关键词;
候选义项关键词提取单元,用于对所述候选义项的描述信息提取关键词,得到所述候选义项关键词;
词语级别相关度计算单元,用于基于所述待挂载实体关键词的权重值和所述候选义项关键词的权重值,计算所述待挂载实体与所述候选义项之间的词语级别相关度。
11.根据权利要求7所述的装置,其中,所述相关度包括分类相关度,所述相关度计算子模块包括:
第一类别获取单元,用于获取所述给定文本的所属类别和所述候选义项的义项类别;
分类相关度计算单元,用于根据所述给定文本的所属类别与所述候选义项的义项类别,计算所述待挂载实体与所述候选义项的分类相关度。
12.根据权利要求7所述的装置,其中,所述相关度包括类型匹配相关度,所述相关度计算子模块包括:
第二类别获取单元,用于获取所述待挂载实体的所属类别和所述候选义项的义项类别;
类型匹配相关度计算单元,用于根据所述给定文本的所属类别与所述候选义项的义项类别,计算所述待挂载实体与所述候选义项的类型匹配相关度。
13. 一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行权利要求1-6中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011550086.7A CN112528644B (zh) | 2020-12-24 | 2020-12-24 | 实体挂载的方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011550086.7A CN112528644B (zh) | 2020-12-24 | 2020-12-24 | 实体挂载的方法、装置、设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112528644A CN112528644A (zh) | 2021-03-19 |
CN112528644B true CN112528644B (zh) | 2024-04-12 |
Family
ID=74976204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011550086.7A Active CN112528644B (zh) | 2020-12-24 | 2020-12-24 | 实体挂载的方法、装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112528644B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113420166A (zh) * | 2021-03-26 | 2021-09-21 | 阿里巴巴新加坡控股有限公司 | 商品挂载、检索、推荐、训练处理方法、装置及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202041A (zh) * | 2016-07-01 | 2016-12-07 | 北京奇虎科技有限公司 | 一种解决知识图谱中的实体对齐问题的方法和装置 |
WO2018075372A1 (en) * | 2016-10-21 | 2018-04-26 | Microsoft Technology Licensing, Llc | Project entity extraction with efficient search and processing of projects |
CN108241613A (zh) * | 2018-01-03 | 2018-07-03 | 新华智云科技有限公司 | 一种提取关键词的方法及设备 |
CN109522551A (zh) * | 2018-11-09 | 2019-03-26 | 天津新开心生活科技有限公司 | 实体链接方法、装置、存储介质及电子设备 |
CN111651570A (zh) * | 2020-05-13 | 2020-09-11 | 深圳追一科技有限公司 | 文本语句处理方法、装置、电子设备以及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376309B (zh) * | 2018-12-28 | 2022-05-17 | 北京百度网讯科技有限公司 | 基于语义标签的文档推荐方法和装置 |
-
2020
- 2020-12-24 CN CN202011550086.7A patent/CN112528644B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202041A (zh) * | 2016-07-01 | 2016-12-07 | 北京奇虎科技有限公司 | 一种解决知识图谱中的实体对齐问题的方法和装置 |
WO2018075372A1 (en) * | 2016-10-21 | 2018-04-26 | Microsoft Technology Licensing, Llc | Project entity extraction with efficient search and processing of projects |
CN108241613A (zh) * | 2018-01-03 | 2018-07-03 | 新华智云科技有限公司 | 一种提取关键词的方法及设备 |
CN109522551A (zh) * | 2018-11-09 | 2019-03-26 | 天津新开心生活科技有限公司 | 实体链接方法、装置、存储介质及电子设备 |
CN111651570A (zh) * | 2020-05-13 | 2020-09-11 | 深圳追一科技有限公司 | 文本语句处理方法、装置、电子设备以及存储介质 |
Non-Patent Citations (2)
Title |
---|
Exploring Technology-Enhanced Learning Key Terms using TF-IDF Weighting;Amalia R.等;2019 Fourth International Conference on Informatics and Computing (ICIC);20200210;全文 * |
基于网络语义标签的多源知识库实体对齐算法;王雪鹏 等;计算机学报;20170331;第40卷(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112528644A (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753167B (zh) | 搜索处理方法、装置、计算机设备和介质 | |
CN114861889B (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
CN113660541B (zh) | 新闻视频的摘要生成方法及装置 | |
CN112506864B (zh) | 文件检索的方法、装置、电子设备及可读存储介质 | |
CN114116997A (zh) | 知识问答方法、装置、电子设备及存储介质 | |
CN116028618B (zh) | 文本处理、文本检索方法、装置、电子设备及存储介质 | |
CN112989235A (zh) | 基于知识库的内链构建方法、装置、设备和存储介质 | |
CN113988157A (zh) | 语义检索网络训练方法、装置、电子设备及存储介质 | |
CN113806660A (zh) | 数据评估方法、训练方法、装置、电子设备以及存储介质 | |
CN113378015B (zh) | 搜索方法、装置、电子设备、存储介质和程序产品 | |
CN112528644B (zh) | 实体挂载的方法、装置、设备以及存储介质 | |
CN114048315A (zh) | 确定文档标签的方法、装置、电子设备和存储介质 | |
CN113806483A (zh) | 数据处理方法、装置、电子设备及计算机程序产品 | |
CN116226533A (zh) | 基于关联性预测模型的新闻关联推荐方法、装置及介质 | |
CN114201607B (zh) | 一种信息处理的方法和装置 | |
CN112926297B (zh) | 处理信息的方法、装置、设备和存储介质 | |
CN113792230B (zh) | 服务链接方法、装置、电子设备和存储介质 | |
CN112860626B (zh) | 一种文档排序方法、装置及电子设备 | |
CN112784046B (zh) | 文本聚簇的方法、装置、设备及存储介质 | |
CN114647739A (zh) | 实体链指方法、装置、电子设备及存储介质 | |
CN112784600A (zh) | 信息排序方法、装置、电子设备和存储介质 | |
CN112818221A (zh) | 实体的热度确定方法、装置、电子设备及存储介质 | |
CN113377921B (zh) | 用于匹配信息的方法、装置、电子设备以及介质 | |
CN113377922B (zh) | 用于匹配信息的方法、装置、电子设备以及介质 | |
CN116610782B (zh) | 文本检索方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |