CN114625889A - 一种语义消歧方法、装置、电子设备及存储介质 - Google Patents
一种语义消歧方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114625889A CN114625889A CN202210305889.9A CN202210305889A CN114625889A CN 114625889 A CN114625889 A CN 114625889A CN 202210305889 A CN202210305889 A CN 202210305889A CN 114625889 A CN114625889 A CN 114625889A
- Authority
- CN
- China
- Prior art keywords
- semantic
- result
- entity
- candidate
- disambiguation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明实施例公开了一种语义消歧方法、装置、电子设备及存储介质,包括:获取用户输入的文本数据,对文本数据中每个分词进行实体链接以及知识图谱模式要素的链接,得到各个分词的链接结果;根据链接结果确定至少两个语义组合,分别生成各个语义组合对应的候选子图;根据每个候选子图中的节点之间的关系对应的分值,分别计算每个候选子图的分数,根据分数满足预设条件的目标候选子图确定消歧后的语义组合;根据消歧后的语义组合确定文本数据的语义消歧结果。通过同时链接知识图谱模式要素和候选子图要素进行语义消歧,并通过对多种语义组合构建对应的候选子图,并计算每个候选子图的分数进而对语义组合进行消歧,从而提高语义消歧的准确度和效率。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种语义消歧方法、装置、电子设备及存储介质。
背景技术
基于知识图谱的问答系统(Knowledge-based Question Answering,KBQA)是信息检索系统的一种高级形式,其目的在于使用简洁的自然语言回答用户用自然语言提出的问题。当前KBQA的主要处理流程包括问句预处理、实体链接、实体和语义消歧、意图识别、答案查询与返回。由于自然语言本身的复杂性和歧义性,造成了系统很难准确理解用户的意图,如果输入的问句存在歧义,系统无法识别和消歧,会造成无法给出答案,或者给出错误的答案。
目前常见的KBQA系统中对于语义消歧部分没有给出很好的解决方法,常规做法一是对语句中提及的实体进行消歧,基于建立的实体映射词典或者根据问句与实体的语义相似度特征来进行消歧。但是这种方法无法对语句中提及的其他知识图谱模式要素进行消歧;二是将语义提及的要素根据已构建的知识图谱生成子图,通过计算文本数据与候选子图的相似度,对候选子图进行排序,选取相似度最高的候选子图做为消歧的结果。这种方法的问题在于结果存在一定的误差,在对结果准确度要求高的场景下无法使用。因此,现有的语义消歧方法准确度较低,效率不高,急需改进。
发明内容
本发明提供了一种语义消歧方法、装置、电子设备及存储介质,以提高语义消歧的准确度和语义消歧的效率。
根据本发明的一方面,提供了一种语义消歧方法,包括:获取用户输入的文本数据,对所述文本数据中每个分词进行实体链接以及知识图谱模式要素的链接,得到各个分词的链接结果;
根据所述链接结果确定至少两个语义组合,分别生成各个所述语义组合对应的候选子图;
根据每个所述候选子图中的节点之间的关系对应的分值,分别计算每个所述候选子图的分数,根据所述分数满足预设条件的目标候选子图确定消歧后的语义组合;
根据所述消歧后的语义组合确定所述文本数据的语义消歧结果。
根据本发明的另一方面,提供了一种语义消歧装置,包括:链接结果获取模块,用于获取用户输入的文本数据,对所述文本数据中每个分词进行实体链接以及知识图谱模式要素的链接,得到各个分词的链接结果;
候选子图确定模块,用于根据所述链接结果确定至少两个语义组合,分别生成各个所述语义组合对应的候选子图;
分值计算模块,用于根据每个所述候选子图中的节点之间的关系对应的分值,分别计算每个所述候选子图的分数,根据所述分数满足预设条件的目标候选子图确定消歧后的语义组合;
语义消歧结果确定模块,用于根据所述消歧后的语义组合确定所述文本数据的语义消歧结果。
根据本发明的另一方面,提供了一种电子电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的一种语义消歧方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的一种语义消歧方法。
本发明实施例的技术方案可以同时链接知识图谱模式要素和候选子图要素进行语义消歧,并通过对多种语义组合构建对应的候选子图,并通过计算候选子图的分数进而对语义组合进行消歧,从而提高了语义消歧的准确度和效率。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种语义消歧方法的流程图;
图2是本发明实施例提供的一种语义消歧方法的适用场景图;
图3是本发明实施例提供的一种语义消歧方法的适用场景图;
图4是本发明实施例提供的一种语义消歧方法的适用场景图;
图5是本发明实施例提供的一种语义消歧方法的适用场景图;
图6是根据本发明实施例二提供的一种语义消歧方法的流程图;
图7是根据本发明实施例三提供的一种语义消歧方法的流程图;
图8是根据本发明实施例四提供的一种语义消歧装置的结构示意图;
图9是实现本发明实施例五提供的一种语义消歧方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或电子设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或电子设备固有的其它步骤或单元。
实施例一
图1为本发明实施例一提供了一种语义消歧方法的流程图,本实施例可适用于语义消歧场景,该方法可以由一种语义消歧装置来执行,该语义消歧装置可以采用硬件和/或软件的形式实现,该语义消歧装置可集成配置于电子设备中。如图1所示,该方法包括:
S110、获取用户输入的文本数据,对文本数据中每个分词进行实体链接以及知识图谱模式要素的链接,得到各个分词的链接结果。
其中,本实施例中的文本数据可以是指问句文本数据;其文本数据的来源可以是对音视频或者图像进行解析得到的一段文字数据;也可以是用户在搜索引擎中输入的搜索问句;还可以是用户在KBQA系统中输入的问句。本实施例在此不做具体限制。
可以理解的是,对文本数据进行分词处理之前,需要先对文本数据进行预处理,即,对文本数据去除文本数据中的特殊字符和标点符号,仅仅保留文本部分,然后再进行分词处理。一组文本数据可以得到至少两个分词结果。通常采用的分词算法可以包括但不限于,最短路径算法、新词发现算法和最大切割算法等,本实施例在此不做具体限制。
本实施例中,实体链接可以指对文本数据中的实体名称进行识别,并将其链接到知识图谱模式要素中。其中,知识图谱可以是存储着包括实体-属性-实体知识的三元组,知识图谱可以是Freebase知识图谱,还可以是Wordnet知识图谱,还可以是YAGO知识图谱,还可以是其他知识图谱,本实施例对此不做具体限制。将实体名称链接到知识图谱模式要素中是将实体名称映射在知识图谱上用以表示实体间相互关系。
示例性地,S110可以包括:获取用户输入的文本数据,对文本数据进行分词处理,得到文本数据对应的分词列表,依次将分词列表中的每个分词进行实体链接以及知识图谱模式要素的链接,得到各个分词的链接结果;其中,链接结果包括下述元素中的至少一项:实体类型、实体名称、实体属性、关系类型和关系属性。
具体地,链接结果包括实体类型、实体名称、实体属性、关系类型和关系属性的排列组合。
本实施例中可以将“苹果的高管有哪些?”作为一个例子进行说明,首先去除文本数据中的问号,即“?”再去除一些不具有实体意义的词,即“的”、“有”和“哪些”,再对文本数据进行分词处理可以得到“苹果”和“高管”两个分词,将得到的分词存放在分词列表中。
其中,实体类型可以是文本数据中涉及到的语义要素的类型;实体名称可以理解为实体类型的具体下位描述;实体属性为实体包含的特征、关系类型可以是实体与实体之间存在的关联关系,关系属性可以是实体与实体之间存在的关联关系的相关属性信息。
本实施例以图2为例,当用户输入的问号文本数据为:“苹果的高管有哪些?”,将该问号文本数据经过分词处理后的每个分词进行实体链接以及知识图谱模式要素的链接之后,可以得到“苹果”的链接结果为“实体名称”分别对应一个企业和一种水果,“高管”链接到了“关系类型”,同时也链接到一个“实体名称”。
进一步的,如图3所示,当用户输入:“苹果的高管有哪些?、“乔布斯和库克是什么关系?”、“乔布斯和库克喜欢什么?”和“腾讯的高管是谁?喜欢什么?”,其可以得到“企业”的链接结果为“实体名称”,其可以分别对应“腾讯”和“苹果”,相应的,其人物的链接结果可以分别为“乔布斯”、“库克”和“马化腾”,相应的,“喜欢”可以链接到“关系类型”,同时也链接到了相应的“关系属性”。
S120、根据链接结果确定至少两个语义组合,分别生成各个语义组合对应的候选子图。
本实施例中可以根据链接的结果判断用户输入的文本数据是否产生语义歧义,具体的,当一个分词进行实体链接以及知识图谱模式要素的链接之后,得到的链接结果对应多个不同元素的链接结果时,判断当前文本数据产生语义歧义,进一步的,可以根据链接结果确定至少两个语义组合。比如:存在语义歧义的语义组合可以是{"苹果":["实体名称"]}和{"高管":["关系类型","实体名称"]}进行组合,就可以得到两组结果,分别是{"苹果":"实体名称","高管":"关系类型"}和{"苹果":"实体名称","高管":"实体名称"}。
进一步的,可以将各个语义组合按照已有的知识图谱模式转换成对应的候选子图。本实施例以图4为例对知识图谱模式转换成对应的候选子图进行说明,其中,r1至r5分别表示不同语义关系对应的标识,候选子图可以包括节点和边,其节点可以分别对应不同的链接结果中的元素,即,实体类型、实体名称、实体属性、关系类型、关系属性。
示例性地,S120可以包括:将链接结果中的元素按照预设组合方式进行组合,得到组合结果;若组合结果为至少两个语义组合,则基于链接结果之间的预设关系确定各个语义组合中各个要素之间的关系;以各个语义组合的实体名称为中心,各个要素之间的关系为边生成各个语义组合对应的候选子图。
其中,预设组合方式可以是笛卡尔积运算的方式。进一步的,可以利用表1确定各个语义组合中各个要素之间的关系。
表1中各个语义组合中各个组成要素之间的关系
进一步的,图5可以表示以“苹果的高管有哪些?”为例,得到的四个类型不一样的候选子图。以A图为例,其对应着{"苹果":"实体名称","高管":"关系类型"},“苹果”的实体类型是“企业”,“高管”与“企业”有关系,因此可以得到r2这样一条关系。
S130、根据每个候选子图中的节点之间的关系对应的分值,分别计算每个候选子图的分数,根据分数满足预设条件的目标候选子图确定消歧后的语义组合。
其中,可以预先对每个候选子图中节点之间关系对应的分值进行定义,然后通过如下公式对候选子图的分数进行计算:
scoresub_graph=∑scorer
示例性地,S130可以包括:匹配候选子图中的节点之间的关系与预设关系,根据匹配结果为候选子图的边赋值;根据候选子图的边的分值计算候选子图的分数,对分数结果进行降序排序,将分数最高的候选子图对应的目标语义组合确定为消歧后的语义组合。
例如将上述步骤中,将语义标识关系r1、r2、r3、r4、r5对应的分数分别定义为50,40,30,20,10。而其余关系分数均为0,其次,将候选子图中的所有关系进行求和,将所有候选子图对应的分数结果进行降序排序,选取分数最高的候选子图确定为消歧后的语义组合。
S140、根据消歧后的语义组合确定文本数据的语义消歧结果。
本实施例中将候选子图的最高分数对应的目标语义组合确定为消歧后的语义组合,从而,根据文本数据中分词的顺序组合各个分词对应的消歧后的语义组合,确定文本数据的语义消歧结果。
其中,语义消歧结果对应相应的查询语句,用户可以在图数据库中查询相关的答案,并将语义消歧结果以显示界面的方式展现给用户。
本发明实施例可以结合知识图谱模式要素和候选子图的问答系统进行语义消歧,同时通过对多种语义组合构建对应的子图,并设计路径分数来计算候选子图的路径得分进而对语义进行消歧,从而提高了语义消歧的准确度和效率。
实施例二
图6为本发明实施例二提供的一种语义消歧方法的流程图,本实施例在步骤在得到各个分词的链接结果之后,还包括:将存在歧义的实体名称作为候选实体,并根据消歧后的语义组合确定文本数据的语义消歧结果。其中与上述各实施例相同或相应的术语的解释在此不再赘述。参见图6,本实施例提供的一种语义消歧方法具体包括以下步骤:
S610、获取用户输入的文本数据,对文本数据中每个分词进行实体链接以及知识图谱模式要素的链接,得到各个分词的链接结果。
S620、将至少一个存在歧义的实体名称作为候选实体。
其中,存在歧义的实体名称可以是文本数据链接的结果为多个实体名称,却不包含知识图谱模式的要素的实体,且其实体名称也存在歧义。
S630、根据候选实体与链接结果中不具有歧义的其它实体名称的关系对应的分值,计算候选实体的分数。
其中,计算候选实体中的每个实体与不具有歧义的其他实体名称是否存在关系,例如:一度关系得分10,两度关系得分5,三度及以上的关系得分为0。
S640、根据分数满足预设条件的目标候选实体确定消歧后的实体名称。
求出每个候选实体的得分,选取得分最高的作为消歧后的实体即可。例如,当用户输入“苹果和乔布斯?”,“苹果”在图谱中有两个实体,作为企业的“苹果”和作为“水果”的苹果,由于类型为“企业”的“苹果”和“乔布斯”存在一度关系,而类型为“水果”的“苹果”和“乔布斯”没有关系,因此前者得分大于后者,保留前者作为语义消歧结果。
S650、根据消歧后的语义组合确定文本数据的语义消歧结果,包括:根据消歧后的实体名称以及消歧后的语义组合确定文本数据的语义消歧结果。
本发明实施例还可以通过对文本数据中的实体进行消歧,不仅仅针对知识图谱模式要素的消歧,从而达到整体消歧的效果,因此消歧的准确度高,效果可以预期,进一步提升了问答系统的效果和质量。
实施例三
图7为本发明实施例三提供的一种语义消歧方法的流程图,本实施例在步骤将至少一个存在歧义的实体名称作为候选实体之前,还包括:判断链接结果是否仅包含实体名称,并根据判断结果执行相应步骤。其中与上述各实施例相同或相应的术语的解释在此不再赘述。参见图7,本实施例提供的一种语义消歧方法具体包括以下步骤:
S710、获取用户输入的文本数据,对文本数据中每个分词进行实体链接以及知识图谱模式要素的链接,得到各个分词的链接结果。
S720、判断链接结果是否仅包含实体名称,若否,则执行S730,否则执行S780。
其中,当链接结果只包含实体名称元素时,表示该实体名称所属实体类型确定实体名称存在语义歧义。
S730、将链接结果中的元素按照预设组合方式进行组合,得到组合结果。
S740、判断组合结果是否为一个语义组合,若是,则执行S780,否则执行S750。
S750、若组合结果为至少两个语义组合,则基于链接结果之间的预设关系确定各个语义组合中各个要素之间的关系。
S760、以各个语义组合的实体名称为中心,各个要素之间的关系为边生成各个语义组合对应的候选子图。
S770、根据每个候选子图中的节点之间的关系对应的分值,分别计算每个候选子图的分数,根据分数满足预设条件的目标候选子图确定消歧后的语义组合。
S780、基于实体名称所属实体类型确定实体名称是否存在歧义,若是,则执行S790,否则执行S7120。
S790、将链接结果中的至少一个存在歧义的实体名称作为候选实体。
S7100、根据候选实体与链接结果中不具有歧义的其它实体名称的关系对应的分值,计算候选实体的分数。
S7110、根据分数满足预设条件的目标候选实体确定消歧后的实体名称。
S7120、链接结果中的实体名称不存在歧义。S7130、根据消歧后的实体名称以及消歧后的语义组合确定文本数据的语义消歧结果。
本发明实施例还可以通过判断链接结果是否仅包含实体名称,对实体消歧的判断结果更为准确,因此消歧的准确度高,效果可以预期,进一步提升了问答系统的效果和质量。
实施例四
图8为本发明实施例四提供的一种语义消歧装置的结构示意图。如图8所示,该装置包括:
链接结果获取模块810,用于获取用户输入的文本数据,对文本数据中每个分词进行实体链接以及知识图谱模式要素的链接,得到各个分词的链接结果;
候选子图确定模块820,用于根据链接结果确定至少两个语义组合,分别生成各个语义组合对应的候选子图;
分值计算模块830,用于根据每个候选子图中的节点之间的关系对应的分值,分别计算每个候选子图的分数,根据分数满足预设条件的目标候选子图确定消歧后的语义组合;
语义消歧结果确定模块840,用于根据消歧后的语义组合确定文本数据的语义消歧结果。
可选的,在链接结果获取模块810之后,可以包括:
候选实体确认模块,用于将至少一个存在歧义的实体名称作为候选实体;
候选实体分数计算模块,用于根据候选实体与链接结果中不具有歧义的其它实体名称的关系对应的分值,计算候选实体的分数;
消歧后的实体名称确定模块,用于根据分数满足预设条件的目标候选实体确定消歧后的实体名称;
实体消歧结果确定模块,根据消歧后的语义组合确定文本数据的语义消歧结果,包括:根据消歧后的实体名称以及消歧后的语义组合确定文本数据的语义消歧结果。
可选的,在候选实体确认模块之前可以包括:
链接结果判断模块,用于判断链接结果是否仅包含实体名称;若是,则基于实体名称所属实体类型确定实体名称是否存在歧义;在链接结果中的至少一个实体名称存在歧义时,执行基于实体名称所属实体类型确定实体名称是否存在歧义步骤。
可选的,链接结果获取模块810可以包括:
分词链接结果确定单元,用于获取用户输入的文本数据,对文本数据进行分词处理,得到文本数据对应的分词列表,依次将分词列表中的每个分词进行实体链接以及知识图谱模式要素的链接,得到各个分词的链接结果;
其中,链接结果包括下述元素中的至少一项:实体类型、实体名称、实体属性、关系类型和关系属性。
可选的,候选子图确定模块820可以包括:组合单元,用于将链接结果中的元素按照预设组合方式进行组合,得到组合结果;
要素之间关系确定单元,用于若组合结果为至少两个语义组合,则基于链接结果之间的预设关系确定各个语义组合中各个要素之间的关系;
候选子图生成单元,以各个语义组合的实体名称为中心,各个要素之间的关系为边生成各个语义组合对应的候选子图。
可选的,在组合单元之后可以包括:
候选实体语义消歧子单元,用于若组合结果为一个语义组合,则执行将至少一个存在歧义的实体名称作为候选实体步骤。
可选的,分值计算模块830可以包括:
匹配单元,用于匹配候选子图中的节点之间的关系与预设关系,根据匹配结果为候选子图的边赋值;
语义组合消歧确定单元,用于根据候选子图的边的分值计算候选子图的分数,对分数结果进行降序排序,将分数最高的候选子图对应的目标语义组合确定为消歧后的语义组合。
本发明实施例所提供的一种语义消歧装置可执行本发明任意实施例所提供的一种语义消歧方法,具备执行方法相应的功能模块和有益效果。
实施例五
图9为本发明实施例五提供的一种电子电子设备的结构示意图。如图9所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法时实现:
获取用户输入的文本数据,对文本数据中每个分词进行实体链接以及知识图谱模式要素的链接,得到各个分词的链接结果;
根据链接结果确定至少两个语义组合,分别生成各个语义组合对应的候选子图;
根据每个候选子图中的节点之间的关系对应的分值,分别计算每个候选子图的分数,根据分数满足预设条件的目标候选子图确定消歧后的语义组合;
根据消歧后的语义组合确定文本数据的语义消歧结果。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或电子设备使用或与指令执行系统、装置或电子设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或电子设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存电子设备、磁储存电子设备、或上述内容的任何合适组合。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种语义消歧方法,其特征在于,包括:
获取用户输入的文本数据,对所述文本数据中每个分词进行实体链接以及知识图谱模式要素的链接,得到各个分词的链接结果;
根据所述链接结果确定至少两个语义组合,分别生成各个所述语义组合对应的候选子图;
根据每个所述候选子图中的节点之间的关系对应的分值,分别计算每个所述候选子图的分数,根据所述分数满足预设条件的目标候选子图确定消歧后的语义组合;
根据所述消歧后的语义组合确定所述文本数据的语义消歧结果。
2.根据权利要求1所述的方法,其特征在于,在得到各个分词的链接结果之后,还包括:
将至少一个存在歧义的实体名称作为候选实体;
根据所述候选实体与所述链接结果中不具有歧义的其它实体名称的关系对应的分值,计算所述候选实体的分数;
根据所述分数满足预设条件的目标候选实体确定消歧后的实体名称;
以及,根据所述消歧后的语义组合确定所述文本数据的语义消歧结果,包括:
根据所述消歧后的实体名称以及所述消歧后的语义组合确定所述文本数据的语义消歧结果。
3.根据权利要求2所述的方法,其特征在于,在将至少一个存在歧义的实体名称作为候选实体之前,还包括:
判断所述链接结果是否仅包含实体名称;
若是,则基于所述实体名称所属实体类型确定所述实体名称是否存在歧义;
在所述链接结果中的至少一个实体名称存在歧义时,执行将至少一个存在歧义的实体名称作为候选实体步骤。
4.根据权利要求1所述的方法,其特征在于,所述获取用户输入的文本数据,对所述文本数据中每个分词进行实体链接以及知识图谱模式要素的链接,得到各个分词的链接结果,包括:
获取用户输入的文本数据,对所述文本数据进行分词处理,得到所述文本数据对应的分词列表,依次将所述分词列表中的每个分词进行实体链接以及知识图谱模式要素的链接,得到各个分词的链接结果;
其中,所述链接结果包括下述元素中的至少一项:实体类型、实体名称、实体属性、关系类型和关系属性。
5.根据权利要求3所述的方法,其特征在于,所述根据所述链接结果确定至少两个语义组合,分别生成各个所述语义组合对应的候选子图,包括:
将所述链接结果中的元素按照预设组合方式进行组合,得到组合结果;
若所述组合结果为至少两个语义组合,则基于所述链接结果之间的预设关系确定各个所述语义组合中各个要素之间的关系;
以各个所述语义组合的实体名称为中心,所述各个要素之间的关系为边生成各个所述语义组合对应的候选子图。
6.根据权利要求5所述的方法,其特征在于,在将所述链接结果中的元素按照预设组合方式进行组合,得到组合结果之后,还包括:
若所述组合结果为一个语义组合,则执行基于所述实体名称所属实体类型确定所述实体名称是否存在歧义步骤。
7.根据权利要求1中所述的方法,其特征在于,所述根据每个所述候选子图中的节点之间的关系对应的分值,分别计算每个所述候选子图的分数,根据所述分数满足预设条件的目标候选子图确定消歧后的语义组合,包括:
匹配所述候选子图中的节点之间的关系与预设关系,根据匹配结果为所述候选子图的边赋值;
根据所述候选子图的边的分值计算所述候选子图的分数,对分数结果进行降序排序,将分数最高的候选子图对应的目标语义组合确定为消歧后的语义组合。
8.一种语义消歧装置,其特征在于,包括:
链接结果获取模块,用于获取用户输入的文本数据,对所述文本数据中每个分词进行实体链接以及知识图谱模式要素的链接,得到各个分词的链接结果;
候选子图确定模块,用于根据所述链接结果确定至少两个语义组合,分别生成各个所述语义组合对应的候选子图;
分值计算模块,用于根据每个所述候选子图中的节点之间的关系对应的分值,分别计算每个所述候选子图的分数,根据所述分数满足预设条件的目标候选子图确定消歧后的语义组合;
语义消歧结果确定模块,用于根据所述消歧后的语义组合确定所述文本数据的语义消歧结果。
9.一种电子电子设备,其特征在于,所述电子电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的语义消歧方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的语义消歧方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210305889.9A CN114625889A (zh) | 2022-03-25 | 2022-03-25 | 一种语义消歧方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210305889.9A CN114625889A (zh) | 2022-03-25 | 2022-03-25 | 一种语义消歧方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114625889A true CN114625889A (zh) | 2022-06-14 |
Family
ID=81903841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210305889.9A Pending CN114625889A (zh) | 2022-03-25 | 2022-03-25 | 一种语义消歧方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114625889A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115828915A (zh) * | 2022-09-07 | 2023-03-21 | 北京百度网讯科技有限公司 | 实体消歧方法、装置、电子设备和存储介质 |
-
2022
- 2022-03-25 CN CN202210305889.9A patent/CN114625889A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115828915A (zh) * | 2022-09-07 | 2023-03-21 | 北京百度网讯科技有限公司 | 实体消歧方法、装置、电子设备和存储介质 |
CN115828915B (zh) * | 2022-09-07 | 2023-08-22 | 北京百度网讯科技有限公司 | 实体消歧方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10956464B2 (en) | Natural language question answering method and apparatus | |
CN106649742B (zh) | 数据库维护方法和装置 | |
US20230142217A1 (en) | Model Training Method, Electronic Device, And Storage Medium | |
US10831796B2 (en) | Tone optimization for digital content | |
CN106776544B (zh) | 人物关系识别方法及装置和分词方法 | |
US20190294676A1 (en) | Written-modality prosody subsystem in a natural language understanding (nlu) framework | |
US11210468B2 (en) | System and method for comparing plurality of documents | |
US10430469B2 (en) | Enhanced document input parsing | |
US20140351228A1 (en) | Dialog system, redundant message removal method and redundant message removal program | |
US20190228320A1 (en) | Method, system and terminal for normalizing entities in a knowledge base, and computer readable storage medium | |
WO2018045646A1 (zh) | 基于人工智能的人机交互方法和装置 | |
US8719025B2 (en) | Contextual voice query dilation to improve spoken web searching | |
CN113051362B (zh) | 数据的查询方法、装置和服务器 | |
CN110727839A (zh) | 自然语言查询的语义解析 | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
US20220245353A1 (en) | System and method for entity labeling in a natural language understanding (nlu) framework | |
CN114579104A (zh) | 数据分析场景的生成方法、装置、设备及存储介质 | |
CN116303537A (zh) | 数据查询方法及装置、电子设备、存储介质 | |
CN114625889A (zh) | 一种语义消歧方法、装置、电子设备及存储介质 | |
CN116932730B (zh) | 基于多叉树和大规模语言模型的文档问答方法及相关设备 | |
RU2546064C1 (ru) | Распределенная система и способ языкового перевода | |
CN116610810A (zh) | 基于调控云知识图谱血缘关系的智能搜索方法及系统 | |
CN108170679B (zh) | 基于计算机可识别自然语言描述的语义匹配方法及系统 | |
CN116090450A (zh) | 一种文本处理方法及计算设备 | |
US20220237383A1 (en) | Concept system for a natural language understanding (nlu) framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |