CN108280061A - 基于歧义实体词的文本处理方法和装置 - Google Patents

基于歧义实体词的文本处理方法和装置 Download PDF

Info

Publication number
CN108280061A
CN108280061A CN201810044364.8A CN201810044364A CN108280061A CN 108280061 A CN108280061 A CN 108280061A CN 201810044364 A CN201810044364 A CN 201810044364A CN 108280061 A CN108280061 A CN 108280061A
Authority
CN
China
Prior art keywords
entity
text
vector
neural network
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810044364.8A
Other languages
English (en)
Other versions
CN108280061B (zh
Inventor
冯知凡
陆超
朱勇
李莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810044364.8A priority Critical patent/CN108280061B/zh
Publication of CN108280061A publication Critical patent/CN108280061A/zh
Priority to KR1020180115856A priority patent/KR102117160B1/ko
Priority to JP2018201850A priority patent/JP6643555B2/ja
Priority to EP18215238.9A priority patent/EP3514702A1/en
Priority to US16/236,570 priority patent/US11455542B2/en
Application granted granted Critical
Publication of CN108280061B publication Critical patent/CN108280061B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于歧义实体词的文本处理方法和装置,其中,方法包括:获取待消歧文本的上下文,以及待消歧文本表征的至少两个候选实体,通过训练的词向量模型生成上下文的语义向量,通过训练的无监督神经网络模型,生成至少两个候选实体的第一实体向量,计算上下文与每一个候选实体之间的相似度,确定出待消歧文本在上下文中所表征的目标实体。通过已学习得到各实体文本语义以及各实体之间关系的无监督神经网络模型,使得生成的候选实体的第一实体向量也包含了候选实体的文本语义以及与各实体之间的关系,使得待消歧文本的实体信息得以完整刻画,再与上下文语义向量计算相似度,确定目标实体,提高了待消歧文本消歧的准确度。

Description

基于歧义实体词的文本处理方法和装置
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于歧义实体词的文本处理方法和装置。
背景技术
随着移动互联网的普及,微博、贴吧及各大新闻网站等极大的方便了人们的生活,但这些平台上的数据绝大部分都是以非结构化或半结构化的形式存在,导致这些知识库中的数据存在着大量的歧义实体词,通过对歧义实体词进行消歧处理,可以辨别在不同上下文中该实体词真实指示哪个事物,为后续的具体应用提供便利。
但相关技术中,一种方式可以利用现有知识库数据,计算文本重叠度和相关度,进行消歧;另一种方式利用现有知识库数据,进行无监督或半监督的模型训练,依据语义对歧义实体词进行消歧。但这两种方式,消歧效果较差。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于歧义实体词的文本处理方法,训练完成的无监督神经网络模型已学习得到各实体的文本语义以及各实体之间的关系,通过无进度神经网络模型对候选实体进行处理,生成第一实体向量,使得第一实体向量也包含了候选实体的文本语义以及与各实体之间的关系,使得实体信息刻画较完整,再将第一实体向量和上下文语义向量计算相似度,确定目标实体,提高了待消歧文本消歧的准确度。
本发明的第二个目的在于提出一种基于歧义实体词的文本处理装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种基于歧义实体词的文本处理方法,包括:
获取待消歧文本的上下文,以及所述待消歧文本表征的至少两个候选实体;其中,所述至少两个候选实体具有不同语义;
根据经过训练的词向量模型,生成所述上下文的语义向量;
根据经过训练的无监督神经网络模型,生成所述至少两个候选实体的第一实体向量;其中,所述无监督神经网络模型已学习得到各实体的文本语义以及各实体之间的关系;
根据所述上下文的语义向量和所述至少两个候选实体的第一实体向量,确定所述上下文与每一个候选实体之间的相似度;
根据所述上下文与每一个候选实体之间的相似度,从至少两个候选实体中,确定出所述待消歧文本在所述上下文中所表征的目标实体。
本发明实施例的基于歧义实体词的文本处理方法中,获取待消歧文本的上下文,以及待消歧文本表征的至少两个候选实体,将上下文通过训练的词向量模型生成上下文的语义向量,将至少两个候选实体通过训练的无监督神经网络模型,生成第一实体向量,根据上下文的语义向量和至少两个候选实体的第一实体向量,计算上下文与每一个候选实体之间的相似度,根据该相似度,从至少两个候选实体中,确定出待消歧文本在上下文中所表征的目标实体。通过已学习得到各实体的文本语义以及各实体之间关系的无监督神经网络模型,对候选实体进行处理,生成第一实体向量,候选实体的第一实体向量也包含了候选实体的文本语义以及与各实体之间的关系,再将第一实体向量和待消歧文本的上下文语义向量计算相似度,确定待消歧文本在上下文中所表征的目标文本,提高了待消歧文本消歧的准确度和效率,解决了相关技术中,无法同时获取各实体的文本语义,以及各实体之间的关系,致使知识库中实体消歧的准确度较低的问题。
为达上述目的,本发明第二方面实施例提出了一种基于歧义实体词的文本处理装置,包括:
获取模块,用于获取待消歧文本的上下文,以及所述待消歧文本表征的至少两个候选实体;其中,所述至少两个候选实体具有不同语义;
生成模块,用于根据经过训练的词向量模型,生成所述上下文的语义向量;根据经过训练的无监督神经网络模型,生成所述至少两个候选实体的第一实体向量;其中,所述无监督神经网络模型已学习得到各实体的文本语义以及各实体之间的关系;
第一确定模块,用于根据所述上下文的语义向量和所述至少两个候选实体的第一实体向量,确定所述上下文与每一个候选实体之间的相似度;
第一处理模块,用于根据所述上下文与每一个候选实体之间的相似度,从至少两个候选实体中,确定出所述待消歧文本在所述上下文中所表征的目标实体。
本发明实施例的基于歧义实体词的文本处理装置中,获取模块用于获取待消歧文本的上下文,以及待消歧文本表征的至少两个候选实体,生成模块用于将上下文通过训练的词向量模型生成上下文的语义向量,将至少两个候选实体通过训练的无监督神经网络模型,生成第一实体向量,第一确定模块用于根据上下文的语义向量和至少两个候选实体的第一实体向量,计算上下文与每一个候选实体之间的相似度,第一处理模块用于根据该相似度,从至少两个候选实体中,确定出待消歧文本在上下文中所表征的目标实体。通过已学习得到各实体的文本语义以及各实体之间关系的无监督神经网络模型,对候选实体进行处理,生成第一实体向量,候选实体的第一实体向量也包含了候选实体的文本语义以及与各实体之间的关系,使得实体信息刻画较完整,再将第一实体向量和待消歧文本的上下文语义向量计算相似度,确定待消歧文本在上下文中所表征的目标文本,提高了待消歧文本消歧的准确度,解决了相关技术中,无法同时获取各实体的文本语义,以及各实体之间的关系,实体信息刻画不完整,致使知识库中实体消歧的准确度较低的问题。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如第一方面所述的基于歧义实体词的文本处理方法。
为达上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,当该程序被处理器执行时,实现第一方面所述的基于歧义实体词的文本处理方法。
为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,实现如第一方面所述的基于歧义实体词的文本处理方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的一种基于歧义实体词的文本处理方法的流程示意图;
图2为本发明实施例所提供的另一种基于歧义实体词的文本处理方法的流程示意图;
图3A为本发明实施例所提供的又一种基于歧义实体词的文本处理方法的流程示意图;
图3B为本发明实施例所提供的基于百度知识库的各模型之间的策略框架图;
图4为本发明实施例所提供的再一种基于歧义实体词的文本处理方法的流程示意图;
图5为本发明实施例提供的一种基于歧义实体词的文本处理装置的结构示意图;
图6为本发明实施例所提供的另一种基于歧义实体词的文本处理装置的结构示意图;以及
图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于歧义实体词的文本处理方法和装置。
图1为本发明实施例所提供的一种基于歧义实体词的文本处理方法的流程示意图。
如图1所示,该方法包括如下步骤:
步骤101,获取待消歧文本的上下文,以及待消歧文本表征的至少两个候选实体。
具体地,从知识库中获取包含待消歧文本的文本集,并对文本集采用分词算法进行处理,作为一种可能的实现方式,可采用汉语分词系统(Ictclas)算法,对文本集进行词性标注和分词,然后根据停用词表去除停用词,获得多个字或词,组成一个实体集合,以待消歧文本为中心,取一个固定窗口中的词为该待消歧文本的上下文,可将该待消歧文本的上下文用矩阵A表示A=[w1 w2 w3 w4 ··· wN],其中,N为待消歧文本的上下文的长度。对知识库进行搜索,比较待消歧文本所表征的实体,和知识库中文本所表征的实体,若相同,则将知识库中所表征的实体作为待消歧文本表征的候选实体,候选实体的个数至少为两个,其中,2个候选实体具有不同语义,例如,候选实体为2个,分别为表征手机的苹果和表征水果的苹果,两个候选实体虽然都为苹果,但是2个实体的语义不同。
步骤102,根据经过训练的词向量模型,生成上下文的语义向量。
具体地,将待消歧文本的上下文输入经过训练的词向量模型,经过训练的词向量模型中已经生成了对应知识库的所有实体的语义向量表,查表即可获得待消歧文本的上下文中每一个词对应的语义向量,作为一种可能的实现方式,本实施例中的词向量模型可为词向量(word2vec)模型,通过word2vec模型可将词表征为实数值的向量,例如:明星,用词向量可以表示为[0.792,-0.177,-0.107,0.109,-0.542,…]。
需要说明的是,对于词向量模型的解释说明,在下述实施例中会详细介绍。
步骤103,根据经过训练的无监督神经网络模型,生成至少两个候选实体的第一实体向量。
具体地,将至少两个候选实体输入训练完成的无监督神经网络模型,分别生成对应两个候选实体的向量,因本实施例中有无监督的神经网络模型和有监督的神经网络模型,为了便于区分,将无监督的神经网络模型生成的向量称为第一实体向量,而将有监督神经网络模型生成的向量称为第二实体向量。
需要说明的是,经过训练的无监督神经网络模型已学习得到各实体的文本语义以及各实体之间的关系,这是因为,虽然无监督神经网络用于利用实体与实体之间的关系,来刻画实体潜在的语义信息,但是无监督神经网络模型是在有监督神经网络模型生成的数据的基础上进一步训练得到的,而有监督神经网络模型可以利用实体的相关关键信息,来刻画实体的文本语义信息,从而,可利用有监督神经网络模型生成的实体文本语义数据,对无监督神经网络模型进行训练,从而使得无监督神经网络模型可学习得到各实体的文本语义以及各实体之间的关系,使得实体信息刻画较完整。后续实施例会对有监督神经网络和无监督神经网络的生成和训练过程进行详细解释。
步骤104,根据上下文的语义向量和至少两个候选实体的第一实体向量,确定上下文与每一个候选实体之间的相似度。
具体地,计算上下文与每一个候选实体之间的相似度之前,需要将获取得到的上下文的语义向量输入到无监督神经网络模型中,其中,无监督神经网络模型包含三层,分别为输入层、隐层和输出层,将上下文的语义向量输入到无监督的神经网络模型的输入层,将该模型的输出层的权重作为上下文对应的第一实体向量,根据上下文对应的第一实体向量与每一个候选实体的第一实体向量计算相似度,作为一种可能的实现方式,激活层(LogisticRegression)模型,即训练无监督的神经网络模型的输出层,直接计算获取。
需要说明的是,将上下文的语义向量输入到无监督的神经网络模型中,得到上下文对应的第一实体向量,从而使得上下文对应的第一实体向量和候选实体对应的第一实体向量,是在同一向量空间,便于进行相似度计算。
步骤105,根据上下文与每一个候选实体之间的相似度,从至少两个候选实体中,确定出待消歧文本在上下文中所表征的目标实体。
具体地,通过计算得到上下文与每一个候选实体之间的相似度,确定出与上下文相似度最高的候选实体,将该候选实体作为待消歧文本在上下文中所表征的目标实体,即还原了待消歧文本本来的意思,实现了实体的消歧。
本实施例的基于歧义实体词的文本处理方法中,获取待消歧文本的上下文,以及待消歧文本表征的至少两个候选实体,将上下文通过训练的词向量模型生成上下文的语义向量,将至少两个候选实体通过训练的无监督神经网络模型,生成第一实体向量,根据上下文的语义向量和至少两个候选实体的第一实体向量,计算上下文与每一个候选实体之间的相似度,根据该相似度,从至少两个候选实体中,确定出待消歧文本在上下文中所表征的目标实体。通过已学习得到各实体的文本语义以及各实体之间关系的无监督神经网络模型,对候选实体进行处理,生成第一实体向量,候选实体的第一实体向量也包含了候选实体的文本语义以及与各实体之间的关系,实现了实体信息的完整刻画,再将第一实体向量与待消歧文本的上下文语义向量计算相似度,提高了待消歧文本消歧的准确度,解决了相关技术中,无法同时获取各实体的文本语义,以及各实体之间的关系,致使知识库中实体消歧的准确度较低的问题。
在采用词向量模型生成上下文的语义向量之前,需要先根据应用场景,对词向量模型进行训练,得到符合应用场景的词向量模型,为此,本实施例对这一过程进行解释。
为此,本发明提出了另一种可能的基于歧义实体词的文本处理方法,图2为本发明实施例所提供的另一种基于歧义实体词的文本处理方法的流程示意图,进一步清楚解释了生成词向量模型的过程,如图2所示,基于上一实施例,步骤102之前,该方法可以包括如下步骤:
步骤201,针对不同的应用场景,分别生成对应的训练语料。
具体地,不同的应用场景,采用不同的训练语料,例如,搜索应用中,我们需要利用搜索日志来构建对应的训练语料;在网页文本理解应用中,我们需要利用网页来构建训练语料。作为一种可能的实现方式,本实施例可基于百度的用户搜索日志,以及百度的知识库数据,在不同的应用场景下,生成对应的训练语料,因基于的百度的用户搜索日志和百度的知识库数据,数据量较大,使得训练预料较丰富,可以调高训练的效果。
步骤202,采用各应用场景对应的训练语料进行词向量模型训练,以得到各应用场景适用的词向量模型。
具体地,根据应用场景确定好对应的训练语料后,对训练语料进行分词处理,作为一种可能的实现方式,可采用汉语分词系统(Ictclas)分词算法,对训练语料中的多个文档,进行分词处理,并利用停用词表去除停用词,从而得到多个字、词的片段,每个片段就是一个词条(term),即每个term代表一个词或一个字,每个term用空格分开,例如,为了便于区分,对不同的片段进行编号,可表示为term1 term2 term3 term4 term5 ······。
进而,采用词向量模型进行训练,做一种可能的实现方式,词向量模型可为word2vec模型,该模型是将词表征为实数值向量的一种高效的算法模型,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为K维向量空间中的向量,进而通过向量间的运算获取向量空间上的相似度,而向量空间上的相似度可以用来表示文本语义上的相似度。本实施例中具体可采用word2vec模型中的skipgram方式,对对应应用场景的训练语料进行训练,得到对应不同应用场景的词的语义向量表,从而得到各应用场景适用的词向量模型。
本实施例的基于歧义实体词的文本处理方法中,根据应用场景对词向量模型进行训练,得到适用于各应用场景的词向量模型,以使得在对应不同应用场景需要进行消歧处理时,可对待消歧文本对应的上下文进行处理,通过查表生成上下文对应的语义向量,同时对待消歧文本表征的至少两个候选实体,通过已学习得到各实体的文本语义以及各实体之间的关系的无监督神经网络模型生成候选实体的第一实体向量,使得实体信息刻画较为完整,进而根据上下文的语义向量和候选实体的第一实体向量进行相似度计算,根据相似度计算的结果,从候选实体中确定出待消歧文本在上下文中所表征的目标实体,使得消歧的准确度较高,同时,对词向量模型进行训练是基于最大的中文知识库,对同名不同义的多歧义实体的消歧效果较好。
上述实施例中,候选实体输入到经过训练的无监督神经网络模型中,得到第一实体向量,其中,无监督神经网络模型训练过程中需要用到有监督神经网络模型输出的数据,为此,接下来通过实施例解释说明有监督神经网络模型生成和训练的过程,以及在有监督神经网络模型训练完成后,对无监督神经网络模型进行训练的过程。
基于上述实施例,本发明还提出了一种基于歧义实体词的文本处理方法的可能的实现方式,图3A为本发明实施例所提供的又一种基于歧义实体词的文本处理方法的流程示意图,如图3A所示,步骤103之前还可以包括如下步骤:
步骤301,生成有监督神经网络模型的训练样本的正例和负例。
对于训练样本的正例的生成方法,具体为:知识库中每一个实体都有相关的属性,及属性值,同时对应每一个实体还有会该实体的介绍信息,根据知识库中各实体的属性,以及各实体的介绍信息提取关键字,生成训练样本的正例。例如,实体:刘德华,他具有很多属性,例如,刘德华有老婆的属性,女儿的属性,老婆的属性值则为朱丽倩,而女儿的属性值则为刘向蕙,相关的属性有很多,此处不一一列举。
对于刘德华,还有相关的介绍信息,例如,刘德华,1961年9月27日出生于香港,演员、歌手、制片人、作词人,代表作有《神雕侠侣》、《无间道》、《拆弹专家》等等。通过该介绍信息,可提取出实体刘德华的关键字,如演员、歌手、作品《无间道》等。
从而,可将朱丽倩、刘向蕙、演员、歌手、作品《无间道》等,作为实体刘德华的训练样本的正例。
对于训练样本的负例的生成方法,具体为:对知识库中各实体的全部文本描述信息进行切词处理后,对切词得到的各词条进行词频统计,根据各词条的词频,对各词条进行负采样,得到训练样本的负例。发明人在实际测试中发现,采用通过词频进行负采样确定的负例,比完全随机进行负采样确定的负例,进行训练的效果要好,提高了模型训练的速度和模型训练的效果。
例如,可将各词条及各词条出现的频率生成一个词条及词条频率表,并按照词频由大到小的顺利进行排列,如下表1所示:
词条 词频
老师 113132
警察 100099
网站 10000
爱情 9502
演出 8000
悲伤 4119
··· ···
表1词条及词条频率表
作为一种可能的实现方式,可根据表1的词条及词条频率表,依据频率进行负采样,将负采样结果确定的词条作为训练的负样本,该方式相较于随机的负采样,使得模型训练的效果更好。
步骤302,根据训练样本对有监督神经网络模型进行训练。
其中,有监督的神经网络模型包括两层:用于输入训练样本中各文本的语义向量的第一层,以及用于预测第一层输入文本所描述实体的第二层,作为一种可能的实现方式,可以采用文章向量(Doc2vec)的技术来连接和训练这两层,具体地,有监督神经网络模型的输入,即第一层的输入,为训练样本中各文本的语义向量,即将训练样本对应的实体的文本输入到图2对应实施例中的词向量模型中,生成对应该实体的文本语义向量,将该文本语义向量输入到有监督神经网络模型的第一层中,然后,通过第二层来预测第一层输入的文本所描述的实体。
步骤303,当有监督神经网络模型中,第一层输入的训练样本中文本用于描述第二层输出的实体时,确定有监督神经网络模型训练完成。
具体地,当有监督神经网络模型中,第一层输入的训练样本中的文本,是用于描述第二层输出的实体时,则说明第二层的参数可用于准确预测第一层输入的训练样本的文本用于描述的实体,该参数的训练效果较好,确定第二层的参数,同时确定有监督神经网络模型训练完成。有监督神经网络模型两层的设置方式,可使得有监督神经网络模型训练完成后,已学习得到各实体的语义,确定了文本和实体之间的对应关系。
步骤304,采用经过训练的有监督神经网络模型,生成知识库中各实体的第二实体向量。
具体地,经过训练的有监督神经网络模型,确定了第二层的参数,将知识库的中各实体,输入经过训练的有监督神经网络模型中,利用第二层的参数可生成对应知识库中各实体的第二实体向量。
步骤305,根据知识库中各实体的第二实体向量,对无监督神经网络模型输出的各实体的第一实体向量进行初始化。
具体地,无监督神经网络模型的输入为知识库中的各实体,各实体输入到未训练的无监督的神经网络模型中后,生成对应各实体的第一实体向量,该第一实体向量是随机生成的随机数序列,该各实体的第一实体向量,需要在后续训练过程中中不断更新,最终得到符合目标要求的第一实体向量。而将有监督神经网络模型输出的知识库中各实体的第二实体向量,输入到无监督的神经网络模型中,对无监督的神经网络模型输出的各实体的第一实体向量进行初始化,即将无监督的神经网络模型的输出替换为各实体的第二实体向量,可降低无监督神经网络模型训练时迭代的次数,提高训练速度和训练效果,同时第二实体向量已经学习到了文本和实体之间的关系,再输入到无监督的神经网络模型中,进行训练,还可以利用无监督神经网络模型学习得到实体和实体之间的关系,从而可最终输出包含文本和实体之间的关系,以及实体和实体之间关系的第一实体向量。
步骤306,根据实体间关联关系,对初始化后的无监督神经网络模型进行训练。
具体地,根据知识库中存在关联关系的各实体,和/或,根据搜索日志中存在共现关系的实体,对初始化后的无监督神经网络模型进行训练,当无监督神经网络模型输出的第一实体向量之间的距离相对应于实体之间关系的紧密程度时,无监督神经网络模型训练完成。
为了进一步说明上述过程,图3B为本发明实施例所提供的基于百度知识库的各模型之间的策略框架图,如图3B所示,词向量模型基于百度的用户搜索日志和百度知识库数据,生成词条向量,有监督的神经网络模型基于百度额知识库数据,生成训练样本,并将训练样本通过词向量模型生成训练样本对应的词向量,将训练样本的词向量输入有监督的神经网络模型中,生成已学习到各实体的语义的实体语义向量,即各实体的第二实体向量。
进而,有监督的神经网络模型将生成的第二实体向量输入大无监督的神经网络模型中,对无监督的神经网络模型的第一实体向量进行初始化,然后通过训练,生成已学习到各实体语义以及各实体之间关系的第一实体向量,使得对实体信息实现了完整刻画,提高了消歧处理的准确度。
本实施例的基于歧义实体词的文本处理方法中,通过对有监督神经网络模型进行训练,使得有监督神经网络模型学习到各实体的语义,再将有监督神经网络模型生成的各实体的第二实体向量对无监督的神经网络模型进行初始化,使得无监督神经网络模型可学习得到各实体的文本语义以及各实体之间关系,使得数据利用更充分,完整的刻画了实体的信息,利用无监督的神经网络模型对候选实体进行处理,生成第一实体向量,再将第一实体向量和待消歧文本的上下文语义向量,计算相似度,提高了待消歧文本消歧的准确度。
基于上述实施例,本发明实施例还提出了一种可能的基于歧义实体词的文本处理方法,图4为本发明实施例所提供的再一种基于歧义实体词的文本处理方法的流程示意图,如图4所示,步骤103之后,还可以包括如下步骤:
步骤401,根据至少两个候选实体的第一实体向量,确定不同候选实体之间的相似度。
作为一种可能的实现方式,根据至少两个候选实体的第一实体向量,可采用余弦距离算法,计算任意两个候选实体的第一实体向量之间的相似度。
步骤402,根据不同候选实体之间的相似度,进行实体关系挖掘或实体推荐。
具体地,根据计算得到不同候选实体之间的相似度,作为一种可能的实现方式,将相似度和预设的阈值对比,对于相似度的值超过阈值的相似度,认为其对应的两个不同的候选实体之间存在实体关系,在知识图谱中增加实体的边关系,该边关于可以用于实体推荐,例如,在搜索应用场景中,当用户搜索一个实体时,可推荐相关的另一个实体,提高了检索的效率。
本实施例的基于歧义实体词的文本处理方法中,获取待消歧文本的上下文,以及待消歧文本表征的至少两个候选实体,将上下文通过训练的词向量模型生成上下文的语义向量,将至少两个候选实体通过训练的无监督神经网络模型,生成第一实体向量,根据上下文的语义向量和至少两个候选实体的第一实体向量,计算上下文与每一个候选实体之间的相似度,根据该相似度,从至少两个候选实体中,确定出待消歧文本在上下文中所表征的目标实体。通过已学习得到各实体的文本语义以及各实体之间关系的无监督神经网络模型,对候选实体进行处理,生成第一实体向量,候选实体的第一实体向量也包含了候选实体的文本语义以及与各实体之间的关系,再将第一实体向量和待消歧文本的上下文语义向量,计算相似度,提高了待消歧文本消歧的准确度和效率,同时,根据生成的第一实体向量,计算不同候选实体之间的相似度,可用于对实体关系进行挖掘和实体推荐,增加了实体的边关系。
为了实现上述实施例,本发明还提出一种基于歧义实体词的文本处理装置。
图5为本发明实施例提供的一种基于歧义实体词的文本处理装置的结构示意图。
如图5所示,该装置包括:获取模块61、生成模块62、第一确定模块63和第一处理模块64。
获取模块61,用于获取待消歧文本的上下文,以及待消歧文本表征的至少两个候选实体,其中,至少两个候选实体具有不同语义。
生成模块62,用于根据经过训练的词向量模型,生成上下文的语义向量,根据经过训练的无监督神经网络模型,生成至少两个候选实体的第一实体向量,其中,无监督神经网络模型已学习得到各实体的文本语义以及各实体之间的关系。
第一确定模块63,用于根据上下文的语义向量和至少两个候选实体的第一实体向量,确定上下文与每一个候选实体之间的相似度。
第一处理模块64,用于根据上下文与每一个候选实体之间的相似度,从至少两个候选实体中,确定出待消歧文本在上下文中所表征的目标实体。
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
本实施例的基于歧义实体词的文本处理装置中,获取模块用于获取待消歧文本的上下文,以及待消歧文本表征的至少两个候选实体,生成模块用于将上下文通过训练的词向量模型生成上下文的语义向量,将至少两个候选实体通过训练的无监督神经网络模型,生成第一实体向量,第一确定模块用于根据上下文的语义向量和至少两个候选实体的第一实体向量,计算上下文与每一个候选实体之间的相似度,第一处理模块用于根据该相似度,从至少两个候选实体中,确定出待消歧文本在上下文中所表征的目标实体。通过已学习得到各实体的文本语义以及各实体之间关系的无监督神经网络模型,对候选实体进行处理,生成第一实体向量,候选实体的第一实体向量也包含了候选实体的文本语义以及与各实体之间的关系,再将第一实体向量和待消歧文本的上下文语义向量计算相似度,确定待消歧文本在上下文中所表征的目标文本,提高了待消歧文本消歧的准确度和效率,解决了相关技术中,无法同时获取各实体的文本语义,以及各实体之间的关系,实体信息刻画不完整,致使实体消歧的准确度较低的问题。
基于上述实施例,本发明实施例还提供了一种基于歧义实体词的文本处理装置的可能的实现方式,图6为本发明实施例所提供的另一种基于歧义实体词的文本处理装置的结构示意图,如图6所示,在上一实施例的基础上,该装置还包括:第一训练模块65、第二训练模块66、第三训练模块67、第二确定模块68和第二处理模块69。
第一训练模块65,用于针对不同的应用场景,分别生成对应的训练语料,采用各应用场景对应的训练语料进行词向量模型训练,以得到各应用场景适用的词向量模型。
第二训练模块66,用于根据知识库中各实体的属性,以及各实体的介绍信息提取的关键字,生成训练样本的正例,根据知识库中各实体的全部文本描述信息,生成训练样本的负例,根据训练样本,对有监督神经网络模型进行训练。其中,有监督神经网络模型包括:用于输入训练样本中各文本的语义向量的第一层,以及用于预测第一层输入文本所描述实体的第二层,其中,第二层的参数,用于生成第二实体向量。当有监督神经网络模型中,第一层输入的训练样本中文本用于描述第二层输出的实体时,确定有监督的神经网络模型训练完成。
作为一种可能的实现方式,第二训练模块66,还可以用于,对知识库中各实体的全部文本描述信息进行切词处理后,对切词得到的各词条进行词频统计,根据各词条的词频,对各词条进行负采样,得到训练样本的负例。
第三训练模块67,用于采用经过训练的有监督神经网络模型,生成知识库中各实体的第二实体向量,其中,有监督神经网络模型已学习得到各实体的语义,根据知识库中各实体的第二实体向量,对无监督神经网络模型输出的各实体的第一实体向量进行初始化,根据实体间关联关系,对初始化后的无监督神经网络模型进行训练。
作为一种可能的实现方式,第三训练模块67,还可以用于:根据知识库中存在关联关系的各实体,和/或,根据搜索日志中存在共现关系的实体,对初始化后的无监督神经网络模型进行训练,当无监督神经网络模型输出的第一实体向量之间的距离相对应于实体之间关系紧密程度时,无监督神经网络模型训练完成。
第二确定模块68,根据至少两个候选实体的第一实体向量,确定不同候选实体之间的相似度。
第二处理模块69,根据不同候选实体之间的相似度,进行实体关系挖掘或实体推荐。
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
本实施例的基于歧义实体词的文本处理装置中,获取模块用于获取待消歧文本的上下文,以及待消歧文本表征的至少两个候选实体,生成模块用于将上下文通过训练的词向量模型生成上下文的语义向量,将至少两个候选实体通过训练的无监督神经网络模型,生成第一实体向量,第一确定模块用于根据上下文的语义向量和至少两个候选实体的第一实体向量,计算上下文与每一个候选实体之间的相似度,第一处理模块用于根据该相似度,从至少两个候选实体中,确定出待消歧文本在上下文中所表征的目标实体。通过已学习得到各实体的文本语义以及各实体之间关系的无监督神经网络模型,对候选实体进行处理,生成第一实体向量,候选实体的第一实体向量也包含了候选实体的文本语义以及与各实体之间的关系,再将第一实体向量和待消歧文本的上下文语义向量计算相似度,确定待消歧文本在上下文中所表征的目标文本,提高了待消歧文本消歧的准确度和效率,解决了相关技术中,无法同时获取各实体的文本语义,以及各实体之间的关系,实体信息刻画不完整,致使实体消歧的准确度较低的问题。
为了实现上述实施例,本发明还提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现前述方法实施例所述的基于歧义实体词的文本处理方法。
为了实现上述实施例,本发明还提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,当该程序被处理器执行时,实现前述方法实施例所述的基于歧义实体词的文本处理方法。
为了实现上述实施例,本发明还提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,实现前述方法实施例所述的基于歧义实体词的文本处理方法。
图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图7显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (11)

1.一种基于歧义实体词的文本处理方法,其特征在于,包括以下步骤:
获取待消歧文本的上下文,以及所述待消歧文本表征的至少两个候选实体;其中,所述至少两个候选实体具有不同语义;
根据经过训练的词向量模型,生成所述上下文的语义向量;
根据经过训练的无监督神经网络模型,生成所述至少两个候选实体的第一实体向量;其中,所述无监督神经网络模型已学习得到各实体的文本语义以及各实体之间的关系;
根据所述上下文的语义向量和所述至少两个候选实体的第一实体向量,确定所述上下文与每一个候选实体之间的相似度;
根据所述上下文与每一个候选实体之间的相似度,从至少两个候选实体中,确定出所述待消歧文本在所述上下文中所表征的目标实体。
2.根据权利要求1所述的文本处理方法,其特征在于,所述根据经过训练的无监督神经网络模型,生成所述至少两个候选实体的第一实体向量之前,还包括:
采用经过训练的有监督神经网络模型,生成预设知识库中各实体的第二实体向量;所述有监督神经网络模型已学习得到各实体的语义;
根据所述知识库中各实体的第二实体向量,对所述无监督神经网络模型输出的各实体的第一实体向量进行初始化;
根据实体间关联关系,对初始化后的无监督神经网络模型进行训练。
3.根据权利要求2所述的文本处理方法,其特征在于,所述采用经过训练的有监督神经网络模型,生成所述知识库中各实体的第二实体向量之前,还包括:
根据知识库中各实体的属性,以及各实体的介绍信息提取的关键字,生成训练样本的正例;
根据所述知识库中各实体的全部文本描述信息,生成训练样本的负例;
根据所述训练样本,对有监督神经网络模型进行训练;其中,所述有监督神经网络模型包括:用于输入训练样本中各文本的语义向量的第一层,以及用于预测第一层输入文本所描述实体的第二层;所述第二层的参数,用于生成所述第二实体向量;
当所述有监督神经网络模型中,第一层输入的训练样本中文本用于描述所述第二层输出的实体时,确定所述有监督的神经网络模型训练完成。
4.根据权利要求3所述的文本处理方法,其特征在于,所述根据所述知识库中各实体的全部文本描述信息,生成训练样本的负例,包括:
对所述知识库中各实体的全部文本描述信息进行切词处理后,对切词得到的各词条进行词频统计;
根据各词条的词频,对各词条进行负采样,得到所述训练样本的负例。
5.根据权利要求2所述的文本处理方法,其特征在于,所述根据实体间关系,对初始化后的无监督神经网络模型进行训练,包括:
根据知识库中存在关联关系的各实体,和/或,根据搜索日志中存在共现关系的实体,对初始化后的无监督神经网络模型进行训练;
当所述无监督神经网络模型输出的第一实体向量之间的距离相对应于所述实体之间关系紧密程度时,所述无监督神经网络模型训练完成。
6.根据权利要求1-5任一项所述的文本处理方法,其特征在于,所述根据经过训练的词向量模型,生成所述上下文的语义向量之前,还包括:
针对不同的应用场景,分别生成对应的训练语料;
采用各应用场景对应的训练语料进行词向量模型训练,以得到各应用场景适用的词向量模型。
7.根据权利要求1-5任一项所述的文本处理方法,其特征在于,所述生成所述至少两个候选实体的第一实体向量之后,还包括:
根据所述至少两个候选实体的第一实体向量,确定不同候选实体之间的相似度;
根据不同候选实体之间的相似度,进行实体关系挖掘或实体推荐。
8.一种基于歧义实体词的文本处理装置,其特征在于,包括:
获取模块,用于获取待消歧文本的上下文,以及所述待消歧文本表征的至少两个候选实体;其中,所述至少两个候选实体具有不同语义;
生成模块,用于根据经过训练的词向量模型,生成所述上下文的语义向量;根据经过训练的无监督神经网络模型,生成所述至少两个候选实体的第一实体向量;其中,所述无监督神经网络模型已学习得到各实体的文本语义以及各实体之间的关系;
第一确定模块,用于根据所述上下文的语义向量和所述至少两个候选实体的第一实体向量,确定所述上下文与每一个候选实体之间的相似度;
第一处理模块,用于根据所述上下文与每一个候选实体之间的相似度,从至少两个候选实体中,确定出所述待消歧文本在所述上下文中所表征的目标实体。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-7中任一项所述的基于歧义实体词的文本处理方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的基于歧义实体词的文本处理方法。
11.一种计算机程序产品,其特征在于,当所述计算机程序产品中的指令由处理器执行时,执行如权利要求1-7中任一项所述的基于歧义实体词的文本处理方法。
CN201810044364.8A 2018-01-17 2018-01-17 基于歧义实体词的文本处理方法和装置 Active CN108280061B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201810044364.8A CN108280061B (zh) 2018-01-17 2018-01-17 基于歧义实体词的文本处理方法和装置
KR1020180115856A KR102117160B1 (ko) 2018-01-17 2018-09-28 모호한 엔티티 단어에 기반한 텍스트 처리 방법과 장치
JP2018201850A JP6643555B2 (ja) 2018-01-17 2018-10-26 曖昧なエンティティワードに基づくテキスト処理方法及び装置
EP18215238.9A EP3514702A1 (en) 2018-01-17 2018-12-21 Text processing method and device based on ambiguous entity words
US16/236,570 US11455542B2 (en) 2018-01-17 2018-12-30 Text processing method and device based on ambiguous entity words

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810044364.8A CN108280061B (zh) 2018-01-17 2018-01-17 基于歧义实体词的文本处理方法和装置

Publications (2)

Publication Number Publication Date
CN108280061A true CN108280061A (zh) 2018-07-13
CN108280061B CN108280061B (zh) 2021-10-26

Family

ID=62803839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810044364.8A Active CN108280061B (zh) 2018-01-17 2018-01-17 基于歧义实体词的文本处理方法和装置

Country Status (5)

Country Link
US (1) US11455542B2 (zh)
EP (1) EP3514702A1 (zh)
JP (1) JP6643555B2 (zh)
KR (1) KR102117160B1 (zh)
CN (1) CN108280061B (zh)

Cited By (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920467A (zh) * 2018-08-01 2018-11-30 北京三快在线科技有限公司 多义词词义学习方法及装置、搜索结果显示方法
CN109614610A (zh) * 2018-11-27 2019-04-12 新华三大数据技术有限公司 相似文本识别方法及装置
CN109614615A (zh) * 2018-12-04 2019-04-12 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN109635114A (zh) * 2018-12-17 2019-04-16 北京百度网讯科技有限公司 用于处理信息的方法和装置
CN109783651A (zh) * 2019-01-29 2019-05-21 北京百度网讯科技有限公司 提取实体相关信息的方法、装置、电子设备和存储介质
CN109857873A (zh) * 2019-02-21 2019-06-07 北京百度网讯科技有限公司 推荐实体的方法和装置、电子设备、计算机可读介质
CN109902186A (zh) * 2019-03-12 2019-06-18 北京百度网讯科技有限公司 用于生成神经网络的方法和装置
CN109933785A (zh) * 2019-02-03 2019-06-25 北京百度网讯科技有限公司 用于实体关联的方法、装置、设备和介质
CN110096573A (zh) * 2019-04-22 2019-08-06 腾讯科技(深圳)有限公司 一种文本解析方法及相关设备
CN110134965A (zh) * 2019-05-21 2019-08-16 北京百度网讯科技有限公司 用于信息处理的方法、装置、设备和计算机可读存储介质
CN110162753A (zh) * 2018-11-08 2019-08-23 腾讯科技(深圳)有限公司 用于生成文本模板的方法、装置、设备和计算机可读介质
CN110210018A (zh) * 2019-05-14 2019-09-06 北京百度网讯科技有限公司 挂号科室的匹配方法和装置
CN110245357A (zh) * 2019-06-26 2019-09-17 北京百度网讯科技有限公司 主实体识别方法和装置
CN110287910A (zh) * 2019-06-28 2019-09-27 北京百度网讯科技有限公司 用于获取信息的方法及装置
CN110390106A (zh) * 2019-07-24 2019-10-29 中南民族大学 基于双向关联的语义消歧方法、装置、设备及存储介质
CN110427612A (zh) * 2019-07-02 2019-11-08 平安科技(深圳)有限公司 基于多语言的实体消歧方法、装置、设备和存储介质
CN110502613A (zh) * 2019-08-12 2019-11-26 腾讯科技(深圳)有限公司 一种模型训练方法、智能检索方法、装置和存储介质
CN110516073A (zh) * 2019-08-30 2019-11-29 北京百度网讯科技有限公司 一种文本分类方法、装置、设备和介质
CN110555208A (zh) * 2018-06-04 2019-12-10 北京三快在线科技有限公司 一种信息查询中的歧义消除方法、装置及电子设备
CN110580337A (zh) * 2019-06-11 2019-12-17 福建奇点时空数字科技有限公司 一种基于实体相似度计算的专业实体消歧实现方法
CN110580294A (zh) * 2019-09-11 2019-12-17 腾讯科技(深圳)有限公司 实体融合方法、装置、设备及存储介质
CN110674304A (zh) * 2019-10-09 2020-01-10 北京明略软件系统有限公司 实体消歧方法、装置、可读存储介质及电子设备
CN110705292A (zh) * 2019-08-22 2020-01-17 成都信息工程大学 一种基于知识库和深度学习的实体名称提取方法
CN110852106A (zh) * 2019-11-06 2020-02-28 腾讯科技(深圳)有限公司 基于人工智能的命名实体处理方法、装置及电子设备
CN110929507A (zh) * 2018-08-31 2020-03-27 中国移动通信有限公司研究院 一种文本信息处理的方法、装置及存储介质
CN110991187A (zh) * 2019-12-05 2020-04-10 北京奇艺世纪科技有限公司 一种实体链接的方法、装置、电子设备及介质
CN111191466A (zh) * 2019-12-25 2020-05-22 中国科学院计算机网络信息中心 一种基于网络表征和语义表征的同名作者消歧方法
CN111241838A (zh) * 2020-01-15 2020-06-05 北京百度网讯科技有限公司 文本实体的语义关系处理方法、装置及设备
CN111259671A (zh) * 2020-01-15 2020-06-09 北京百度网讯科技有限公司 文本实体的语义描述处理方法、装置及设备
CN111310475A (zh) * 2020-02-04 2020-06-19 支付宝(杭州)信息技术有限公司 词义消歧模型的训练方法及装置
CN111401049A (zh) * 2020-03-12 2020-07-10 京东方科技集团股份有限公司 一种实体链接方法及装置
CN111428507A (zh) * 2020-06-09 2020-07-17 北京百度网讯科技有限公司 实体链指方法、装置、设备以及存储介质
CN111523323A (zh) * 2020-04-26 2020-08-11 梁华智能科技(上海)有限公司 一种中文分词的消歧处理方法和系统
CN111737406A (zh) * 2020-07-28 2020-10-02 腾讯科技(深圳)有限公司 文本检索方法、装置及设备、文本检索模型的训练方法
CN111931509A (zh) * 2020-08-28 2020-11-13 北京百度网讯科技有限公司 实体链指方法、装置、电子设备及存储介质
CN112232059A (zh) * 2020-12-14 2021-01-15 北京声智科技有限公司 文本纠错方法、装置、计算机设备及存储介质
CN112287680A (zh) * 2020-10-23 2021-01-29 微医云(杭州)控股有限公司 一种问诊信息的实体抽取方法、装置、设备及存储介质
CN112434533A (zh) * 2020-11-16 2021-03-02 广州视源电子科技股份有限公司 实体消歧方法、装置、电子设备及计算机可读存储介质
CN112699667A (zh) * 2020-12-29 2021-04-23 京东数字科技控股股份有限公司 一种实体相似度确定方法、装置、设备和存储介质
CN112926329A (zh) * 2021-03-10 2021-06-08 招商银行股份有限公司 文本生成方法、装置、设备及计算机可读存储介质
CN113010633A (zh) * 2019-12-20 2021-06-22 海信视像科技股份有限公司 一种信息交互方法及设备
CN113672795A (zh) * 2020-05-14 2021-11-19 Sap欧洲公司 术语解释的自动支持
CN113743104A (zh) * 2021-08-31 2021-12-03 合肥智能语音创新发展有限公司 实体链接方法及相关装置、电子设备、存储介质
CN113761218A (zh) * 2021-04-27 2021-12-07 腾讯科技(深圳)有限公司 一种实体链接的方法、装置、设备及存储介质
CN113947087A (zh) * 2021-12-20 2022-01-18 太极计算机股份有限公司 一种基于标签的关系构建方法、装置、电子设备及存储介质
CN113971216A (zh) * 2021-10-22 2022-01-25 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和存储器
CN114818736A (zh) * 2022-05-31 2022-07-29 北京百度网讯科技有限公司 文本处理方法、用于短文本的链指方法、装置及存储介质
CN115293158A (zh) * 2022-06-30 2022-11-04 撼地数智(重庆)科技有限公司 基于标签辅助的消歧方法及装置
CN115828915A (zh) * 2022-09-07 2023-03-21 北京百度网讯科技有限公司 实体消歧方法、装置、电子设备和存储介质
CN116127053A (zh) * 2023-02-14 2023-05-16 北京百度网讯科技有限公司 实体词消歧、知识图谱生成和知识推荐方法以及装置
WO2023207096A1 (zh) * 2022-04-29 2023-11-02 浪潮电子信息产业股份有限公司 一种实体链接方法、装置、设备及非易失性可读存储介质

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190083629A (ko) * 2019-06-24 2019-07-12 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
CN110688452B (zh) * 2019-08-23 2022-09-13 重庆兆光科技股份有限公司 一种文本语义相似度评估方法、系统、介质和设备
CN110532557B (zh) * 2019-08-29 2023-07-28 北京计算机技术及应用研究所 一种无监督的文本相似度计算方法
CN110543636B (zh) * 2019-09-06 2023-05-23 出门问问创新科技有限公司 一种对话系统的训练数据选择方法
CN110909531B (zh) * 2019-10-18 2024-03-22 平安科技(深圳)有限公司 信息安全的甄别方法、装置、设备及存储介质
CN112711642A (zh) * 2019-10-24 2021-04-27 阿里巴巴集团控股有限公司 一种药物名称匹配方法和装置
CN111143521B (zh) * 2019-10-28 2023-08-15 广州恒巨信息科技有限公司 基于知识图谱的法条检索方法、系统、装置及存储介质
CN110781670B (zh) * 2019-10-28 2023-03-03 合肥工业大学 基于百科知识库和词向量的中文地名语义消歧方法
CN110825875B (zh) * 2019-11-01 2022-12-06 科大讯飞股份有限公司 文本实体类型识别方法、装置、电子设备和存储介质
CN110956033A (zh) * 2019-12-04 2020-04-03 北京中电普华信息技术有限公司 一种文本相似度计算方法及装置
CN111198932B (zh) * 2019-12-30 2023-03-21 北京明略软件系统有限公司 三元组获取方法、装置、电子设备及可读存储介质
CN111241298B (zh) * 2020-01-08 2023-10-10 腾讯科技(深圳)有限公司 信息处理方法、装置和计算机可读存储介质
CN111241282B (zh) * 2020-01-14 2023-09-08 北京百度网讯科技有限公司 文本主题生成方法、装置及电子设备
CN111428044B (zh) * 2020-03-06 2024-04-05 中国平安人寿保险股份有限公司 多模态获取监管识别结果的方法、装置、设备及存储介质
CN111523324B (zh) * 2020-03-18 2024-01-26 大箴(杭州)科技有限公司 命名实体识别模型的训练方法及装置
CN111460096B (zh) * 2020-03-26 2023-12-22 北京金山安全软件有限公司 一种碎片文本的处理方法、装置及电子设备
CN111460102B (zh) * 2020-03-31 2022-09-09 成都数之联科技股份有限公司 一种基于自然语言处理的图表推荐系统及方法
US20210312901A1 (en) * 2020-04-02 2021-10-07 Soundhound, Inc. Automatic learning of entities, words, pronunciations, and parts of speech
CN111522887B (zh) * 2020-04-03 2023-09-12 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111523326B (zh) * 2020-04-23 2023-03-17 北京百度网讯科技有限公司 实体链指方法、装置、设备以及存储介质
CN113627135B (zh) * 2020-05-08 2023-09-29 百度在线网络技术(北京)有限公司 一种招聘岗位描述文本的生成方法、装置、设备及介质
CN111581975B (zh) * 2020-05-09 2023-06-20 北京明朝万达科技股份有限公司 案件的笔录文本的处理方法、装置、存储介质和处理器
CN111539220B (zh) * 2020-05-12 2022-06-28 北京百度网讯科技有限公司 语义相似度模型的训练方法、装置、电子设备及存储介质
CN112749553B (zh) * 2020-06-05 2023-07-25 腾讯科技(深圳)有限公司 视频文件的文本信息处理方法、装置和服务器
CN111695359B (zh) * 2020-06-12 2023-10-03 腾讯科技(深圳)有限公司 生成词向量的方法、装置、计算机存储介质和电子设备
CN111753024B (zh) * 2020-06-24 2024-02-20 河北工程大学 一种面向公共安全领域的多源异构数据实体对齐方法
CN112001180A (zh) * 2020-07-14 2020-11-27 北京百度网讯科技有限公司 多模态预训练模型获取方法、装置、电子设备及存储介质
US20220027409A1 (en) * 2020-07-23 2022-01-27 Vmware, Inc. Entity to vector representation from graphs in a computing system
CN111949767A (zh) * 2020-08-20 2020-11-17 深圳市卡牛科技有限公司 一种文本关键词的查找方法、装置、设备和存储介质
CN111984790B (zh) * 2020-08-26 2023-07-25 南京柯基数据科技有限公司 一种实体关系抽取方法
CN112232085B (zh) * 2020-10-15 2021-10-08 海南大学 面向本质计算与推理的跨dikw模态文本歧义处理方法
CN112256828B (zh) * 2020-10-20 2023-08-08 平安科技(深圳)有限公司 医学实体关系抽取方法、装置、计算机设备及可读存储介质
CN112270184B (zh) * 2020-10-23 2023-11-14 平安科技(深圳)有限公司 自然语言处理方法、装置及存储介质
CN112364624B (zh) * 2020-11-04 2023-09-26 重庆邮电大学 基于深度学习语言模型融合语义特征的关键词提取方法
CN112633000A (zh) * 2020-12-25 2021-04-09 北京明略软件系统有限公司 一种文本中实体的关联方法、装置、电子设备及存储介质
CN113221561A (zh) * 2021-01-27 2021-08-06 北京云天互联科技有限公司 基于nlp结合上下文的实体识别方法
CN112836013A (zh) * 2021-01-29 2021-05-25 北京大米科技有限公司 一种数据标注的方法、装置、可读存储介质和电子设备
CN112860866B (zh) * 2021-02-09 2023-09-19 北京百度网讯科技有限公司 语义检索方法、装置、设备以及存储介质
CN113822013B (zh) * 2021-03-08 2024-04-05 京东科技控股股份有限公司 用于文本数据的标注方法、装置、计算机设备及存储介质
CN112883730B (zh) * 2021-03-25 2023-01-17 平安国际智慧城市科技股份有限公司 相似文本匹配方法、装置、电子设备及存储介质
CN113221577A (zh) * 2021-04-28 2021-08-06 西安交通大学 一种教育文本知识归纳方法、系统、设备及可读存储介质
CN113239192B (zh) * 2021-04-29 2024-04-16 湘潭大学 一种基于滑动窗口和随机离散采样的文本结构化技术
CN113361253B (zh) * 2021-05-28 2024-04-09 北京金山数字娱乐科技有限公司 识别模型训练方法及装置
CN113283240B (zh) * 2021-06-18 2023-07-07 竹间智能科技(上海)有限公司 共指消解方法及电子设备
CN113377930B (zh) * 2021-08-13 2021-11-30 中国科学院自动化研究所 面向中文短文本的实体识别与实体链接方法
CN113806552B (zh) * 2021-08-30 2022-06-14 北京百度网讯科技有限公司 信息提取方法、装置、电子设备和存储介质
KR20230089056A (ko) * 2021-12-13 2023-06-20 삼성전자주식회사 데이터 결합을 위한 전자 장치 및 이의 제어 방법
CN114239583B (zh) * 2021-12-15 2023-04-07 北京百度网讯科技有限公司 实体链指模型的训练及实体链指方法、装置、设备及介质
KR20230102882A (ko) * 2021-12-30 2023-07-07 삼성전자주식회사 전자 장치 및 그 제어 방법
CN114386424B (zh) * 2022-03-24 2022-06-10 上海帜讯信息技术股份有限公司 行业专业文本自动标注方法、装置、终端及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101566998A (zh) * 2009-05-26 2009-10-28 华中师范大学 一种基于神经网络的中文问答系统
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法
CN105630901A (zh) * 2015-12-21 2016-06-01 清华大学 一种知识图谱表示学习方法
CN105894088A (zh) * 2016-03-25 2016-08-24 苏州赫博特医疗信息科技有限公司 基于深度学习及分布式语义特征医学信息抽取系统及方法
CN106055675A (zh) * 2016-06-06 2016-10-26 杭州量知数据科技有限公司 一种基于卷积神经网络和距离监督的关系抽取方法
CN106295796A (zh) * 2016-07-22 2017-01-04 浙江大学 基于深度学习的实体链接方法
CN106855853A (zh) * 2016-12-28 2017-06-16 成都数联铭品科技有限公司 基于深度神经网络的实体关系抽取系统
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331515A (ja) * 2000-05-23 2001-11-30 Sigmatics Inc 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品
JP2002230021A (ja) * 2001-01-30 2002-08-16 Canon Inc 情報検索装置及び情報検索方法並びに記憶媒体
US20070106657A1 (en) * 2005-11-10 2007-05-10 Brzeski Vadim V Word sense disambiguation
JP5146979B2 (ja) * 2006-06-02 2013-02-20 株式会社国際電気通信基礎技術研究所 自然言語における多義解消装置及びコンピュータプログラム
US10289957B2 (en) * 2014-12-30 2019-05-14 Excalibur Ip, Llc Method and system for entity linking
WO2016210203A1 (en) * 2015-06-26 2016-12-29 Microsoft Technology Licensing, Llc Learning entity and word embeddings for entity disambiguation
KR101806151B1 (ko) * 2016-07-21 2017-12-07 숭실대학교산학협력단 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101566998A (zh) * 2009-05-26 2009-10-28 华中师范大学 一种基于神经网络的中文问答系统
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法
CN105630901A (zh) * 2015-12-21 2016-06-01 清华大学 一种知识图谱表示学习方法
CN105894088A (zh) * 2016-03-25 2016-08-24 苏州赫博特医疗信息科技有限公司 基于深度学习及分布式语义特征医学信息抽取系统及方法
CN106055675A (zh) * 2016-06-06 2016-10-26 杭州量知数据科技有限公司 一种基于卷积神经网络和距离监督的关系抽取方法
CN106295796A (zh) * 2016-07-22 2017-01-04 浙江大学 基于深度学习的实体链接方法
CN106855853A (zh) * 2016-12-28 2017-06-16 成都数联铭品科技有限公司 基于深度神经网络的实体关系抽取系统
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈万礼: "基于语义表示与正则的实体链接研究", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》 *

Cited By (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555208B (zh) * 2018-06-04 2021-11-19 北京三快在线科技有限公司 一种信息查询中的歧义消除方法、装置及电子设备
CN110555208A (zh) * 2018-06-04 2019-12-10 北京三快在线科技有限公司 一种信息查询中的歧义消除方法、装置及电子设备
CN108920467A (zh) * 2018-08-01 2018-11-30 北京三快在线科技有限公司 多义词词义学习方法及装置、搜索结果显示方法
CN110929507A (zh) * 2018-08-31 2020-03-27 中国移动通信有限公司研究院 一种文本信息处理的方法、装置及存储介质
CN110929507B (zh) * 2018-08-31 2023-07-21 中国移动通信有限公司研究院 一种文本信息处理的方法、装置及存储介质
CN110162753B (zh) * 2018-11-08 2022-12-13 腾讯科技(深圳)有限公司 用于生成文本模板的方法、装置、设备和计算机可读介质
CN110162753A (zh) * 2018-11-08 2019-08-23 腾讯科技(深圳)有限公司 用于生成文本模板的方法、装置、设备和计算机可读介质
CN109614610A (zh) * 2018-11-27 2019-04-12 新华三大数据技术有限公司 相似文本识别方法及装置
CN109614615A (zh) * 2018-12-04 2019-04-12 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN109635114A (zh) * 2018-12-17 2019-04-16 北京百度网讯科技有限公司 用于处理信息的方法和装置
CN109783651A (zh) * 2019-01-29 2019-05-21 北京百度网讯科技有限公司 提取实体相关信息的方法、装置、电子设备和存储介质
CN109783651B (zh) * 2019-01-29 2022-03-04 北京百度网讯科技有限公司 提取实体相关信息的方法、装置、电子设备和存储介质
CN109933785A (zh) * 2019-02-03 2019-06-25 北京百度网讯科技有限公司 用于实体关联的方法、装置、设备和介质
CN109933785B (zh) * 2019-02-03 2023-06-20 北京百度网讯科技有限公司 用于实体关联的方法、装置、设备和介质
CN109857873A (zh) * 2019-02-21 2019-06-07 北京百度网讯科技有限公司 推荐实体的方法和装置、电子设备、计算机可读介质
US11620532B2 (en) 2019-03-12 2023-04-04 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating neural network
CN109902186B (zh) * 2019-03-12 2021-05-11 北京百度网讯科技有限公司 用于生成神经网络的方法和装置
CN109902186A (zh) * 2019-03-12 2019-06-18 北京百度网讯科技有限公司 用于生成神经网络的方法和装置
CN110096573B (zh) * 2019-04-22 2022-12-27 腾讯科技(深圳)有限公司 一种文本解析方法及装置
CN110096573A (zh) * 2019-04-22 2019-08-06 腾讯科技(深圳)有限公司 一种文本解析方法及相关设备
CN110210018A (zh) * 2019-05-14 2019-09-06 北京百度网讯科技有限公司 挂号科室的匹配方法和装置
CN110210018B (zh) * 2019-05-14 2023-07-11 北京百度网讯科技有限公司 挂号科室的匹配方法和装置
CN110134965A (zh) * 2019-05-21 2019-08-16 北京百度网讯科技有限公司 用于信息处理的方法、装置、设备和计算机可读存储介质
CN110134965B (zh) * 2019-05-21 2023-08-18 北京百度网讯科技有限公司 用于信息处理的方法、装置、设备和计算机可读存储介质
CN110580337A (zh) * 2019-06-11 2019-12-17 福建奇点时空数字科技有限公司 一种基于实体相似度计算的专业实体消歧实现方法
CN110245357A (zh) * 2019-06-26 2019-09-17 北京百度网讯科技有限公司 主实体识别方法和装置
CN110245357B (zh) * 2019-06-26 2023-05-02 北京百度网讯科技有限公司 主实体识别方法和装置
CN110287910A (zh) * 2019-06-28 2019-09-27 北京百度网讯科技有限公司 用于获取信息的方法及装置
CN110427612A (zh) * 2019-07-02 2019-11-08 平安科技(深圳)有限公司 基于多语言的实体消歧方法、装置、设备和存储介质
CN110427612B (zh) * 2019-07-02 2023-04-28 平安科技(深圳)有限公司 基于多语言的实体消歧方法、装置、设备和存储介质
CN110390106A (zh) * 2019-07-24 2019-10-29 中南民族大学 基于双向关联的语义消歧方法、装置、设备及存储介质
CN110390106B (zh) * 2019-07-24 2023-04-21 中南民族大学 基于双向关联的语义消歧方法、装置、设备及存储介质
CN110502613A (zh) * 2019-08-12 2019-11-26 腾讯科技(深圳)有限公司 一种模型训练方法、智能检索方法、装置和存储介质
CN110502613B (zh) * 2019-08-12 2022-03-08 腾讯科技(深圳)有限公司 一种模型训练方法、智能检索方法、装置和存储介质
CN110705292A (zh) * 2019-08-22 2020-01-17 成都信息工程大学 一种基于知识库和深度学习的实体名称提取方法
CN110705292B (zh) * 2019-08-22 2022-11-29 成都信息工程大学 一种基于知识库和深度学习的实体名称提取方法
CN110516073A (zh) * 2019-08-30 2019-11-29 北京百度网讯科技有限公司 一种文本分类方法、装置、设备和介质
CN110580294A (zh) * 2019-09-11 2019-12-17 腾讯科技(深圳)有限公司 实体融合方法、装置、设备及存储介质
CN110580294B (zh) * 2019-09-11 2022-11-29 腾讯科技(深圳)有限公司 实体融合方法、装置、设备及存储介质
CN110674304A (zh) * 2019-10-09 2020-01-10 北京明略软件系统有限公司 实体消歧方法、装置、可读存储介质及电子设备
CN110852106B (zh) * 2019-11-06 2024-05-03 腾讯科技(深圳)有限公司 基于人工智能的命名实体处理方法、装置及电子设备
CN110852106A (zh) * 2019-11-06 2020-02-28 腾讯科技(深圳)有限公司 基于人工智能的命名实体处理方法、装置及电子设备
CN110991187B (zh) * 2019-12-05 2024-03-08 北京奇艺世纪科技有限公司 一种实体链接的方法、装置、电子设备及介质
CN110991187A (zh) * 2019-12-05 2020-04-10 北京奇艺世纪科技有限公司 一种实体链接的方法、装置、电子设备及介质
CN113010633A (zh) * 2019-12-20 2021-06-22 海信视像科技股份有限公司 一种信息交互方法及设备
CN113010633B (zh) * 2019-12-20 2023-01-31 海信视像科技股份有限公司 一种信息交互方法及设备
CN111191466A (zh) * 2019-12-25 2020-05-22 中国科学院计算机网络信息中心 一种基于网络表征和语义表征的同名作者消歧方法
CN111259671B (zh) * 2020-01-15 2023-10-31 北京百度网讯科技有限公司 文本实体的语义描述处理方法、装置及设备
CN111241838B (zh) * 2020-01-15 2023-10-31 北京百度网讯科技有限公司 文本实体的语义关系处理方法、装置及设备
US11669690B2 (en) 2020-01-15 2023-06-06 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for processing sematic description of text entity, and storage medium
CN111241838A (zh) * 2020-01-15 2020-06-05 北京百度网讯科技有限公司 文本实体的语义关系处理方法、装置及设备
CN111259671A (zh) * 2020-01-15 2020-06-09 北京百度网讯科技有限公司 文本实体的语义描述处理方法、装置及设备
CN111310475B (zh) * 2020-02-04 2023-03-10 支付宝(杭州)信息技术有限公司 词义消歧模型的训练方法及装置
CN111310475A (zh) * 2020-02-04 2020-06-19 支付宝(杭州)信息技术有限公司 词义消歧模型的训练方法及装置
US11914959B2 (en) 2020-03-12 2024-02-27 Boe Technology Group Co., Ltd. Entity linking method and apparatus
CN111401049A (zh) * 2020-03-12 2020-07-10 京东方科技集团股份有限公司 一种实体链接方法及装置
CN111523323A (zh) * 2020-04-26 2020-08-11 梁华智能科技(上海)有限公司 一种中文分词的消歧处理方法和系统
CN111523323B (zh) * 2020-04-26 2022-08-12 梁华智能科技(上海)有限公司 一种中文分词的消歧处理方法和系统
CN113672795A (zh) * 2020-05-14 2021-11-19 Sap欧洲公司 术语解释的自动支持
CN111428507A (zh) * 2020-06-09 2020-07-17 北京百度网讯科技有限公司 实体链指方法、装置、设备以及存储介质
US11727216B2 (en) 2020-06-09 2023-08-15 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, device, and storage medium for linking entity
CN111737406A (zh) * 2020-07-28 2020-10-02 腾讯科技(深圳)有限公司 文本检索方法、装置及设备、文本检索模型的训练方法
CN111931509A (zh) * 2020-08-28 2020-11-13 北京百度网讯科技有限公司 实体链指方法、装置、电子设备及存储介质
CN112287680B (zh) * 2020-10-23 2024-04-09 微医云(杭州)控股有限公司 一种问诊信息的实体抽取方法、装置、设备及存储介质
CN112287680A (zh) * 2020-10-23 2021-01-29 微医云(杭州)控股有限公司 一种问诊信息的实体抽取方法、装置、设备及存储介质
CN112434533A (zh) * 2020-11-16 2021-03-02 广州视源电子科技股份有限公司 实体消歧方法、装置、电子设备及计算机可读存储介质
CN112434533B (zh) * 2020-11-16 2024-04-23 广州视源电子科技股份有限公司 实体消歧方法、装置、电子设备及计算机可读存储介质
CN112232059A (zh) * 2020-12-14 2021-01-15 北京声智科技有限公司 文本纠错方法、装置、计算机设备及存储介质
CN112699667B (zh) * 2020-12-29 2024-05-21 京东科技控股股份有限公司 一种实体相似度确定方法、装置、设备和存储介质
CN112699667A (zh) * 2020-12-29 2021-04-23 京东数字科技控股股份有限公司 一种实体相似度确定方法、装置、设备和存储介质
CN112926329A (zh) * 2021-03-10 2021-06-08 招商银行股份有限公司 文本生成方法、装置、设备及计算机可读存储介质
CN112926329B (zh) * 2021-03-10 2024-02-20 招商银行股份有限公司 文本生成方法、装置、设备及计算机可读存储介质
CN113761218A (zh) * 2021-04-27 2021-12-07 腾讯科技(深圳)有限公司 一种实体链接的方法、装置、设备及存储介质
CN113761218B (zh) * 2021-04-27 2024-05-10 腾讯科技(深圳)有限公司 一种实体链接的方法、装置、设备及存储介质
CN113743104A (zh) * 2021-08-31 2021-12-03 合肥智能语音创新发展有限公司 实体链接方法及相关装置、电子设备、存储介质
CN113743104B (zh) * 2021-08-31 2024-04-16 合肥智能语音创新发展有限公司 实体链接方法及相关装置、电子设备、存储介质
CN113971216A (zh) * 2021-10-22 2022-01-25 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和存储器
CN113947087A (zh) * 2021-12-20 2022-01-18 太极计算机股份有限公司 一种基于标签的关系构建方法、装置、电子设备及存储介质
WO2023207096A1 (zh) * 2022-04-29 2023-11-02 浪潮电子信息产业股份有限公司 一种实体链接方法、装置、设备及非易失性可读存储介质
CN114818736B (zh) * 2022-05-31 2023-06-09 北京百度网讯科技有限公司 文本处理方法、用于短文本的链指方法、装置及存储介质
CN114818736A (zh) * 2022-05-31 2022-07-29 北京百度网讯科技有限公司 文本处理方法、用于短文本的链指方法、装置及存储介质
CN115293158B (zh) * 2022-06-30 2024-02-02 撼地数智(重庆)科技有限公司 基于标签辅助的消歧方法及装置
CN115293158A (zh) * 2022-06-30 2022-11-04 撼地数智(重庆)科技有限公司 基于标签辅助的消歧方法及装置
CN115828915B (zh) * 2022-09-07 2023-08-22 北京百度网讯科技有限公司 实体消歧方法、装置、电子设备和存储介质
CN115828915A (zh) * 2022-09-07 2023-03-21 北京百度网讯科技有限公司 实体消歧方法、装置、电子设备和存储介质
CN116127053B (zh) * 2023-02-14 2024-01-02 北京百度网讯科技有限公司 实体词消歧、知识图谱生成和知识推荐方法以及装置
CN116127053A (zh) * 2023-02-14 2023-05-16 北京百度网讯科技有限公司 实体词消歧、知识图谱生成和知识推荐方法以及装置

Also Published As

Publication number Publication date
US20190220749A1 (en) 2019-07-18
KR102117160B1 (ko) 2020-06-01
JP2019125343A (ja) 2019-07-25
CN108280061B (zh) 2021-10-26
JP6643555B2 (ja) 2020-02-12
EP3514702A1 (en) 2019-07-24
US11455542B2 (en) 2022-09-27
KR20190094078A (ko) 2019-08-12

Similar Documents

Publication Publication Date Title
CN108280061A (zh) 基于歧义实体词的文本处理方法和装置
US11216504B2 (en) Document recommendation method and device based on semantic tag
Wang et al. Combining Knowledge with Deep Convolutional Neural Networks for Short Text Classification.
Xi et al. Multimodal sentiment analysis based on multi-head attention mechanism
CN109670029A (zh) 用于确定问题答案的方法、装置、计算机设备及存储介质
CN103154936A (zh) 用于自动化文本校正的方法和系统
CN107480143A (zh) 基于上下文相关性的对话话题分割方法和系统
US20160132589A1 (en) Context based passage retreival and scoring in a question answering system
CN109408802A (zh) 一种提升句向量语义的方法、系统及存储介质
CN106649250A (zh) 一种情感新词的识别方法及装置
CN109670185A (zh) 基于人工智能的文本生成方法和装置
CN116561592B (zh) 文本情感识别模型的训练方法和文本情感识别方法及装置
Kumar et al. BERT based semi-supervised hybrid approach for aspect and sentiment classification
Alhindi et al. " Sharks are not the threat humans are": Argument Component Segmentation in School Student Essays
Dadas et al. Evaluation of sentence representations in polish
US20180365210A1 (en) Hybrid approach for short form detection and expansion to long forms
Jian et al. English text readability measurement based on convolutional neural network: A hybrid network model
CN107122378A (zh) 对象处理方法及装置
CN110717316A (zh) 字幕对话流的主题分割方法及装置
Chakma et al. 5W1H-Based semantic segmentation of tweets for event detection using BERT
Andrabi et al. A Comprehensive Study of Machine Translation Tools and Evaluation Metrics
Das et al. Semantic segmentation of MOOC lecture videos by analyzing concept change in domain knowledge graph
Moudjari et al. An Embedding-based Approach for Irony Detection in Arabic tweets.
Shtekh et al. Exploring influence of topic segmentation on information retrieval quality
CN113536790A (zh) 基于自然语言处理的模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant