CN111930891A - 基于知识图谱的检索文本扩展方法及相关装置 - Google Patents
基于知识图谱的检索文本扩展方法及相关装置 Download PDFInfo
- Publication number
- CN111930891A CN111930891A CN202010763043.0A CN202010763043A CN111930891A CN 111930891 A CN111930891 A CN 111930891A CN 202010763043 A CN202010763043 A CN 202010763043A CN 111930891 A CN111930891 A CN 111930891A
- Authority
- CN
- China
- Prior art keywords
- retrieval
- text
- search
- expansion
- expanded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000011156 evaluation Methods 0.000 claims description 25
- 238000013507 mapping Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 5
- 238000013210 evaluation model Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 208000032839 leukemia Diseases 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请是关于一种基于知识图谱的检索文本扩展方法及相关装置,属于人工智能技术领域,该方法包括:对接收到的检索文本进行解析,得到所述检索文本中的检索要素;确定所述检索要素的图谱结构类型,并根据所述图谱结构类型确定所述检索要素的扩展规则,所述图谱结构类型表示知识图谱中的数据结构类型,所述扩展规则表示所述知识图谱中检索要素的替换内容查询策略;根据所述扩展规则,利用目标知识图谱查询扩展所述检索要素得到扩展后的检索要素;利用所述扩展后的检索要素替换所述检索文本中的检索要素,得到扩展后的检索文本。本申请有效提升检索文本的多样性,进而有效保证检索内容的完整性和检索深度。
Description
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种基于知识图谱的检索文本扩展方法及相关装置。
背景技术
随着互联网时代的蓬勃发展,网络上涌现出大量的数据,需要使用检索系统来满足用户所需。召回模块是检索系统必不可少的模块,用于从大量的数据集合中召回小部分数据用于更精准的排序计算。所以召回模块需要在召回的小部分数据中尽可能多而全的返回正确的结果,使后续排序模块能够得到正确的结果。
传统的召回模块大部分使用原始的检索文本或者对检索文本进行简单的同义词替换来进行召回,这样会导致检索文本单一,缺少多样性,很容易丢失掉一些检索内容,且检索内容通常只局限在表面的含义。
发明内容
本申请的目的在于提供一种基于知识图谱的检索文本扩展方案,进而至少在一定程度上有效提升检索文本的多样性,进而有效保证检索内容的完整性和检索深度。
根据本申请的一个方面,提供一种基于知识图谱的检索文本扩展方法,包括:
对接收到的检索文本进行解析,得到所述检索文本中的检索要素;
确定所述检索要素的图谱结构类型,并根据所述图谱结构类型确定所述检索要素的扩展规则,所述图谱结构类型表示知识图谱中的数据结构类型,所述扩展规则表示所述知识图谱中检索要素的替换内容查询策略;
根据所述扩展规则,利用目标知识图谱查询扩展所述检索要素得到扩展后的检索要素;
利用所述扩展后的检索要素替换所述检索文本中的检索要素,得到扩展后的检索文本。
在本申请的一种示例性实施方式中,所述确定所述检索要素的图谱结构类型,并根据所述图谱结构类型确定所述检索要素的扩展规则,包括:
获取所述检索文本的文本特征,所述文本特征为所述检索文本的文本来源场景特征;
根据所述文本特征确定所述检索要素对应的预扩展要素,所述预扩展要素为所述文本来源场景特征下所述扩展要素的修正要素;
根据所述预扩展要素的图谱结构类型,确定所述预扩展要素的扩展规则作为所述检索要素的扩展规则。
在本申请的一种示例性实施方式中,所述获取所述检索文本的文本特征,所述文本特征为所述检索文本的文本来源场景特征,包括:
获取所述检索文本来源的检索场景的场景特征,所述场景特征至少包括检索用户属性特征、检索位置属性特征及检索设备属性特征;
将所述检索场景的场景特征确定为所述检索文本的文本特征。
在本申请的一种示例性实施方式中,所述根据所述文本特征确定所述检索要素对应的预扩展要素,包括:
基于预设的评价模型,获取所述检索文本的第一检索专业性评价值及各所述检索要素的第二检索专业性评价值;
根据所述文本特征及所述第一检索专业性评价值,从预设扩展方向表中查找所述检索文本的扩展方向;
根据所述扩展方向及所述第二检索专业性评价值,从所述预设扩展方向表中查找每个所述检索要素的预扩展要素。
在本申请的一种示例性实施方式中,所述根据所述预扩展要素的图谱结构类型,确定所述预扩展要素的扩展规则作为所述检索要素的扩展规则,包括:
根据所述预扩展要素的图谱结构类型,利用扩展规则映射表确定所述预扩展要素的扩展规则作为所述检索要素的扩展规则。
在本申请的一种示例性实施方式中,所述根据所述扩展规则,利用目标知识图谱查询扩展所述检索要素得到扩展后的检索要素,包括:
对接收到的检索文本进行解析,得到所述检索文本的目标检索领域;
获取所述目标检索领域所对应的领域知识图谱,作为所述目标知识图谱;
在所述目标知识图谱中根据所述扩展规则查询扩展所述检索要素得到扩展后的检索要素。
在本申请的一种示例性实施方式中,所述根据所述扩展规则,利用目标知识图谱查询扩展所述检索要素得到扩展后的检索要素,包括:
将所述扩展规则及所述文本特征输入预先训练好的扩展查询类型确定模型,得到所述检索文本中每个检索要素的目标扩展规则;
根据所述目标扩展规则,利用所述知识图谱查询扩展所述检索要素得到扩展后的检索要素。
根据本申请的一个方面,一种基于知识图谱的检索文本扩展装置,其特征在于,包括:
解析模块,用于对接收到的检索文本进行解析,得到所述检索文本中的检索要素;
确定模块,用于确定所述检索要素的图谱结构类型,并根据所述图谱结构类型确定所述检索要素的扩展规则,所述图谱结构类型表示知识图谱中的数据结构类型,所述扩展规则表示所述知识图谱中检索要素的替换内容查询策略;
扩展模块,用于根据所述扩展规则,利用目标知识图谱查询扩展所述检索要素得到扩展后的检索要素;
替换模块,用于利用所述扩展后的检索要素替换所述检索文本中的检索要素,得到扩展后的检索文本。
根据本申请的一个方面,提供一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现上述任一项所述的方法。
根据本申请的一个方面,提供一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的程序指令;其中,所述处理器配置为经由执行所述程序指令来执行上述任一项所述的方法。
本申请一种基于知识图谱的检索文本扩展方法及相关装置。
首先,对接收到的检索文本进行解析,得到检索文本中的检索要素;然后,确定检索要素的图谱结构类型,并根据图谱结构类型确定检索要素的扩展规则,图谱结构类型表示知识图谱中的数据结构类型,扩展规则表示知识图谱中检索要素的替换内容查询策略;根据扩展规则,利用目标知识图谱查询扩展检索要素得到扩展后的检索要素;利用扩展后的检索要素替换检索文本中的检索要素,得到扩展后的检索文本。
进而,根据检索要素的图谱结构类型可以可靠地确定知识图谱中检索要素的替换内容查询策略,然后,基于知识图谱对检索文本进行多队列扩展,增加了用户检索文本的多样性,并可以获取更深层次含义的解析,可以使召回的检索内容更丰富、完整,更符合用户需求。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出一种基于知识图谱的检索文本扩展方法的流程图。
图2示意性示出一种基于知识图谱的检索文本扩展方法的应用场景示例图。
图3示意性示出一种检索要素扩展的方法流程图。
图4示意性示出一种基于知识图谱的检索文本扩展装置的方框图。
图5示意性示出一种用于实现上述基于知识图谱的检索文本扩展方法的电子设备示例框图。
图6示意性示出一种用于实现上述基于知识图谱的检索文本扩展方法的计算机可读存储介质。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本申请的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本申请的各方面变得模糊。
此外,附图仅为本申请的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本示例实施方式中首先提供了基于知识图谱的检索文本扩展方法,该基于知识图谱的检索文本扩展方法可以运行于服务器,也可以运行于服务器集群或云服务器等,当然,本领域技术人员也可以根据需求在其他平台运行本发明的方法,本示例性实施例中对此不做特殊限定。参考图1所示,该基于知识图谱的检索文本扩展方法可以包括以下步骤:
步骤S110,对接收到的检索文本进行解析,得到所述检索文本中的检索要素;
步骤S120,确定所述检索要素的图谱结构类型,并根据所述图谱结构类型确定所述检索要素的扩展规则,所述图谱结构类型表示知识图谱中的数据结构类型,所述扩展规则表示所述知识图谱中检索要素的替换内容查询策略;
步骤S130,根据所述扩展规则,利用目标知识图谱查询扩展所述检索要素得到扩展后的检索要素;
步骤S140,利用所述扩展后的检索要素替换所述检索文本中的检索要素,得到扩展后的检索文本。
上述基于知识图谱的检索文本扩展方法中,根据检索要素的图谱结构类型可以可靠地确定知识图谱中检索要素的替换内容查询策略,然后,基于目标知识图谱对检索文本进行多队列扩展,增加了用户检索文本的多样性,并可以获取更深层次含义的解析,可以使召回的检索内容更丰富、完整,更符合用户需求。
下面,将结合附图对本示例实施方式中上述基于知识图谱的检索文本扩展方法中的各步骤进行详细的解释以及说明。
在步骤S110,对接收到的检索文本进行解析,得到所述检索文本中的检索要素。
在本示例的实施方式中,参考图2所示,服务器210可以从服务器220接收检索文本,然后,服务器210可以对接收到的检索文本进行解析,得到检索文本中的检索要素。其中,服务器210、服务器220可以是电脑、手机等各种具有指令处理功能、数据存储功能的终端设备,在此不做特殊限定。
检索要素可以包括实体类型要素和关系类型要素,实体类型要素例如人物、地名、公司、电话、动物等,关系类型要素例如朋友、同学等。
对接收到的检索文本进行解析,可以通过检索文本分词,得到检索文本中的词;然后,一种方式中,通过预先训练的检索要素确定模型(机器学习模型)确定各个词的中的检索要素,检索要素确定模型(机器学习模型)是根据检索文本样本中的词作为输入,检索要素所对应词的标签作为期望输出训练得到的。一种方式中,可以通过检索要素的预设关键词与分词得到的词进行相似度比较,确定各个词的中的检索要素。
在步骤S120,确定所述检索要素的图谱结构类型,并根据所述图谱结构类型确定所述检索要素的扩展规则,所述图谱结构类型表示知识图谱中的数据结构类型,所述扩展规则表示所述知识图谱中检索要素的替换内容查询策略。
在本示例的实施方式中,知识图谱是一种基于图的数据结构(实体对应的节点和关系对应的边),由节点(point)和边(Edge)组成,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”。图谱结构类型表示知识图谱中的数据结构类型,进而,图谱结构类型可以包括节点(point)和边(Edge)。
同时,如前陈述检索要素可以包括实体类型要素和关系类型要素,实体类型要素例如人物、地名、公司、电话、动物等,关系类型要素例如朋友、同学等。
进而,可以根据检索要素的类型确定检索要素的图谱结构类型,例如,某个检索要素为“公司”时,“公司”的类型为实体类型要素,进而可以确定检索要素“公司”的图谱结构类型为“节点”。
扩展规则表示知识图谱中检索要素的替换内容查询策略,即如何从知识图谱中查找检索要素的替换内容(扩展内容)。
根据图谱结构类型确定检索要素的扩展规则,可以根据预设的扩展规则映射表(其中,保存了各种扩展规则与图谱结构类型的映射关系)确定扩展要素的扩展规则。
一实施方式中,当某个检索要素的图谱结构类型为“边”时,检索要素对应的扩展规则可以是“专业知识定义”,“专业知识定义”含义为:获取与该检索要素对应的属性为“定义(例如朋友的定义)”的实体(即获取与A检索要素的属性关系为“定义”的实体词),并获取实体相关的专业知识解释。当某个检索要素为“节点”时,检索要素对应的扩展规则可以是“上下位关系”,“上下位关系”含义为:获取知识图谱中与实体关系为“属于”的实体。也可以是“别称”,“别称”含义为:获取知识图谱中与实体关系为“别名”的实体e;也可以是“实体并列相似性”,“实体并列相似性”含义为:在知识图谱中,获取实体存在多种并列关系的实体。
一种实施例中,参考图3所示,确定所述检索要素的图谱结构类型,并根据所述图谱结构类型确定所述检索要素的扩展规则,包括:
步骤S310,获取所述检索文本的文本特征,所述文本特征为所述检索文本的文本来源场景特征;
步骤S320,根据所述文本特征确定所述检索要素对应的预扩展要素,所述预扩展要素为所述文本来源场景特征下所述扩展要素的修正要素;
步骤S330,根据所述预扩展要素的图谱结构类型,确定所述预扩展要素的扩展规则作为所述检索要素的扩展规则。
检索文本的文本来源场景特征例如检索用户属性特征、检索位置属性特征及检索设备属性特征等,可以可靠反映检索文本的场景特点。
预扩展要素为文本来源场景特征下扩展要素的修正要素,即预扩展要素用于为预设的不同文本来源场景特征下的修正要素,可以对检索要素进行修正,例如,某个检索要素为“等待时间”,检索文本的文本特征包括检索设备属性特征:理赔设备,则对应的预扩展要素为“等待期”。
根据文本特征确定检索要素对应的预扩展要素,可以根据预设的预扩展要素确定表查询检索要素在不同文本特征下的预扩展要素。
进而可以根据预扩展要素的图谱结构类型,确定预扩展要素的扩展规则作为检索要素的扩展规则,进一步保证获取的扩展规则的准确性。
一种实施例中,获取所述检索文本的文本特征,所述文本特征为所述检索文本的文本来源场景特征,包括:
获取所述检索文本来源的检索场景的场景特征,所述场景特征至少包括检索用户属性特征、检索位置属性特征及检索设备属性特征;
将所述检索场景的场景特征确定为所述检索文本的文本特征。
检索用户属性特征例如用户性别等;检索位置属性特征例如医院或者某企业等;检索设备属性特征例如用户个人手机等。
一种实施例中,获取检索文本来源的检索场景的场景特征,可以是首先获取用户选定的检索文本的检索场景,例如,用户在提交检索文本时,通过选定某个检索场景对应的按钮,提交检索文本的同时提交检索场景的信息;然后,利用预设的特性映射表(其中保存检索场景与场景特征名称的映射关系)确定该检索场景下的场景特征名称,然后,利用从检索文本所来源的终端通过预定协议获取场景特征名称对应的检索用户属性特征、检索位置属性特征及检索设备属性特征。
一种实施例中,获取检索文本来源的检索场景的场景特征,可以是用户提交检索文本的同时提交各类型检索文本通用的检索场景的场景特征。
一种实施例中,根据所述文本特征确定所述检索要素对应的预扩展要素,包括:
基于预设的评价模型,获取所述检索文本的第一检索专业性评价值及各所述检索要素的第二检索专业性评价值;
根据所述文本特征及所述第一检索专业性评价值,从预设扩展方向表中查找所述检索文本的扩展方向;
根据所述扩展方向及所述第二检索专业性评价值,从所述预设扩展方向表中查找每个所述检索要素的预扩展要素。
预设的评价模型为预先训练好的机器学习模型,通过将检索文本样本和检索文本样本中的检索要素样本作为输入,检索文本样本的第一检索专业性评价值标签及各检索要素样本的第二检索专业性评价值标签作为期望输出训练得到。
第一检索专业性评价值、第二检索专业性评价值用于分别从检索文本全局整体及各要素个体评价用户检索的专业性程度,例如,不同用户的检索能力具有差别。第一检索专业性评价值、第二检索专业性评价值越高,说明用户检索的专业性程度越高,越容易检索到满足要求的检索内容。
检索文本的扩展方向用于描述不同场景特征下、检索文本全局角度下检索要素对应的预扩展要素的查找方向,体现为预设扩展方向表中扩展方向字段中的内容,可以指示跳转至目标字段,该目标字段中的内容为预扩展要素。
预设扩展方向表中,扩展方向字段中的内容与场景特征及第一检索专业性评价值所在的评价值范围一一对应;目标字段中的内容与第二检索专业性评价值所在的范围一一对应。
进而可以从预设扩展方向表中查找到检索文本的场景特征及第一检索专业性评价值所在的评价值范围对应的扩展方向;然后,结合扩展方向及第二检索专业性评价值所在的评价值范围,从预设扩展方向表中扩展方向指示的目标字段中,根据第二检索专业性评价值所在的评价值范围查找每个检索要素的预扩展要素。基于专业的预扩展要素,进一步保证后续步骤中扩展的准确性。
一种实施例中,根据所述预扩展要素的图谱结构类型,确定所述预扩展要素的扩展规则作为所述检索要素的扩展规则,包括:
根据所述预扩展要素的图谱结构类型,利用扩展规则映射表确定所述预扩展要素的扩展规则作为所述检索要素的扩展规则。
扩展规则映射表中保存图谱结构类型与扩展规则的映射关系。
在步骤S130,根据所述扩展规则,利用目标知识图谱查询扩展所述检索要素得到扩展后的检索要素。
在本示例的实施方式中,例如,根据检索要素的扩展规则:专业知识定义,可以对于检索文本中抽取出来的关系类型检索要素r,获取与r对应的属性为“定义”的实体eri,利用目标知识图谱查询获取实体eri相关的专业知识解释作为扩展后的检索要素。例如,r为等待期,获取的相关的专业知识解释可以为:多久之后可以申请理赔。
根据检索要素的扩展规则:上下位关系,可以利用目标知识图谱查询获取知识图谱中与实体类型检索要素es关系为“属于”的实体eof作为扩展后的检索要素,例如,实体es为白血病,与实体es关系为“属于”的实体eof为癌症。
根据检索要素的扩展规则:别称,可以利用目标知识图谱查询获取知识图谱中与实体类型检索要素et关系为“别名”的实体eoa作为扩展后的检索要素,基于别称替换可以构成问题Qua。例如,实体et为白血病,与实体et关系为“别名”的实体eoa为血癌。
根据检索要素的扩展规则:实体并列相似性,利用目标知识图谱查询与实体类型检索要素eg存在多种并列关系的实体egs作为扩展后的检索要素,由于并列实体存在一定的相似性,因此可形成问题Qus。例如,实体egs为百万任我行,与实体egs存在多种并列关系的实体ess可以为一年期交通意外险。
一种实施例中,根据所述扩展规则,利用目标知识图谱查询扩展所述检索要素得到扩展后的检索要素,包括:
对接收到的检索文本进行解析,得到所述检索文本的目标检索领域;
获取所述目标检索领域所对应的领域知识图谱,作为所述目标知识图谱;
根据所述扩展规则,利用目标知识图谱查询扩展所述检索要素得到扩展后的检索要素。
对接收到的检索文本进行解析,得到检索文本的目标检索领域,可以是根据文件相似性计算检索文本相似的文本样本,得到文本样本对应的目标检索领域;也可以是解析接收到的检索文本中预先选定的目标检索领域标签。
确定目标检索领域所对应的知识图谱扩展检索要素,可以有效保证查询扩展效率和精确性。
一种实施例中,根据所述扩展规则,利用目标知识图谱查询扩展所述检索要素得到扩展后的检索要素,包括:
将所述扩展规则及所述文本特征输入预先训练好的扩展查询类型确定模型,得到所述检索文本中每个检索要素的目标扩展规则;
根据所述目标扩展规则,利用所述知识图谱查询扩展所述检索要素得到扩展后的检索要素。
预先训练好的扩展查询类型确定模型是根据检索文本样本对应的扩展规则样本及文本特征样本作为输入,检索文本样本对应的目标扩展规则作为期望输出训练得到的机器学习模型。
目标扩展规则为检索文本在其文本特征下的全局角度的较优的多个扩展规则组合。每个检索要素可以对应多个扩展规则,同时检索文件可以包括多个检索要素,通过预先训练好的扩展查询类型确定模型可以确定出基于每个检索要素的扩展规则确定出较优的多个扩展规则组合,作为目标扩展规则。进而,可以根据目标扩展规则,利用知识图谱查询扩展检索要素得到扩展后的检索要素,进一步保证扩展的合理性。
在步骤S140,利用所述扩展后的检索要素替换所述检索文本中的检索要素,得到扩展后的检索文本。
在本示例的实施方式中,利用扩展后的检索要素替换检索文本中的检索要素,得到扩展后的检索文本,可以增加用户检索文本的多样性,并可以获取更深层次含义的解析,可以使召回的检索内容更丰富、完整,更符合用户需求。
一种实施例中还包括:基于接收到的检索文本及所述扩展后的检索文本进行检索,得到检索内容。
基于用户本身的问题,以及基于知识图谱对用户问题进行多队列扩展得到的扩展后的检索文本,增加了用户问题的多样性,得到的检索内容更丰富,更符合用户需求。
本申请还提供了一种基于知识图谱的检索文本扩展装置。参考图4所示,该基于知识图谱的检索文本扩展装置可以包括解析模块410、确定模块420、扩展模块430、以及替换模块440。其中:
解析模块410用于对接收到的检索文本进行解析,得到所述检索文本中的检索要素;
确定模块420用于确定所述检索要素的图谱结构类型,并根据所述图谱结构类型确定所述检索要素的扩展规则,所述图谱结构类型表示知识图谱中的数据结构类型,所述扩展规则表示所述知识图谱中检索要素的替换内容查询策略;
扩展模块430用于根据所述扩展规则,利用目标知识图谱查询扩展所述检索要素得到扩展后的检索要素;
替换模块440用于利用所述扩展后的检索要素替换所述检索文本中的检索要素,得到扩展后的检索文本。
上述基于知识图谱的检索文本扩展装置中各模块的具体细节已经在对应的基于知识图谱的检索文本扩展方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本申请实施方式的方法。
在本申请的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图5来描述根据本发明的这种实施方式的电子设备500。图5显示的电子设备500仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于:上述至少一个处理器510、上述至少一个存储器520、连接不同系统组件(包括存储器520和处理器510)的总线530。
其中,所述存储器存储有程序代码,所述程序代码可以被所述处理器510执行,使得所述处理器510执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理器510可以执行如图1中所示的步骤S110,对接收到的检索文本进行解析,得到所述检索文本中的检索要素;步骤S120,确定所述检索要素的图谱结构类型,并根据所述图谱结构类型确定所述检索要素的扩展规则,所述图谱结构类型表示知识图谱中的数据结构类型,所述扩展规则表示所述知识图谱中检索要素的替换内容查询策略;步骤S130,根据所述扩展规则,利用目标知识图谱查询扩展所述检索要素得到扩展后的检索要素;步骤S140,利用所述扩展后的检索要素替换所述检索文本中的检索要素,得到扩展后的检索文本。
存储器520可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)5201和/或高速缓存存储器5202,还可以进一步包括只读存储器(ROM)5203。
存储器520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204,这样的程序模块5205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线530可以为表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。
电子设备500也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得客户能与该电子设备500交互的设备通信,和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口550进行,还可以包括与输入/输出(I/O)接口550连接的显示单元540。并且,电子设备500还可以通过网络适配器560与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器560通过总线530与电子设备500的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。
在本申请的示例性实施例中,参考图6所示,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
参考图6所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品600,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在客户计算设备上执行、部分地在客户设备上执行、作为一个独立的软件包执行、部分在客户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到客户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其他实施例。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求指出。
Claims (10)
1.一种基于知识图谱的检索文本扩展方法,其特征在于,包括:
对接收到的检索文本进行解析,得到所述检索文本中的检索要素;
确定所述检索要素的图谱结构类型,并根据所述图谱结构类型确定所述检索要素的扩展规则,所述图谱结构类型表示知识图谱中的数据结构类型,所述扩展规则表示所述知识图谱中检索要素的替换内容查询策略;
根据所述扩展规则,利用目标知识图谱查询扩展所述检索要素得到扩展后的检索要素;
利用所述扩展后的检索要素替换所述检索文本中的检索要素,得到扩展后的检索文本。
2.根据权利要求1所述的方法,其特征在于,所述确定所述检索要素的图谱结构类型,并根据所述图谱结构类型确定所述检索要素的扩展规则,包括:
获取所述检索文本的文本特征,所述文本特征为所述检索文本的文本来源场景特征;
根据所述文本特征确定所述检索要素对应的预扩展要素,所述预扩展要素为所述文本来源场景特征下所述扩展要素的修正要素;
根据所述预扩展要素的图谱结构类型,确定所述预扩展要素的扩展规则作为所述检索要素的扩展规则。
3.根据权利要求2所述的方法,其特征在于,所述获取所述检索文本的文本特征,所述文本特征为所述检索文本的文本来源场景特征,包括:
获取所述检索文本来源的检索场景的场景特征,所述场景特征至少包括检索用户属性特征、检索位置属性特征及检索设备属性特征;
将所述检索场景的场景特征确定为所述检索文本的文本特征。
4.根据权利要求2或3所述的方法,其特征在于,所述根据所述文本特征确定所述检索要素对应的预扩展要素,包括:
基于预设的评价模型,获取所述检索文本的第一检索专业性评价值及各所述检索要素的第二检索专业性评价值;
根据所述文本特征及所述第一检索专业性评价值,从预设扩展方向表中查找所述检索文本的扩展方向;
根据所述扩展方向及所述第二检索专业性评价值,从所述预设扩展方向表中查找每个所述检索要素的预扩展要素。
5.根据权利要求2所述的方法,其特征在于,所述根据所述预扩展要素的图谱结构类型,确定所述预扩展要素的扩展规则作为所述检索要素的扩展规则,包括:
根据所述预扩展要素的图谱结构类型,利用扩展规则映射表确定所述预扩展要素的扩展规则作为所述检索要素的扩展规则。
6.根据权利要求1所述的方法,其特征在于,所述根据所述扩展规则,利用目标知识图谱查询扩展所述检索要素得到扩展后的检索要素,包括:
对接收到的检索文本进行解析,得到所述检索文本的目标检索领域;
获取所述目标检索领域所对应的领域知识图谱,作为所述目标知识图谱;
在所述目标知识图谱中根据所述扩展规则查询扩展所述检索要素得到扩展后的检索要素。
7.根据权利要求3所述的方法,其特征在于,所述根据所述扩展规则,利用目标知识图谱查询扩展所述检索要素得到扩展后的检索要素,包括:
将所述扩展规则及所述文本特征输入预先训练好的扩展查询类型确定模型,得到所述检索文本中每个检索要素的目标扩展规则;
根据所述目标扩展规则,利用所述知识图谱查询扩展所述检索要素得到扩展后的检索要素。
8.一种基于知识图谱的检索文本扩展装置,其特征在于,包括:
解析模块,用于对接收到的检索文本进行解析,得到所述检索文本中的检索要素;
确定模块,用于确定所述检索要素的图谱结构类型,并根据所述图谱结构类型确定所述检索要素的扩展规则,所述图谱结构类型表示知识图谱中的数据结构类型,所述扩展规则表示所述知识图谱中检索要素的替换内容查询策略;
扩展模块,用于根据所述扩展规则,利用目标知识图谱查询扩展所述检索要素得到扩展后的检索要素;
替换模块,用于利用所述扩展后的检索要素替换所述检索文本中的检索要素,得到扩展后的检索文本。
9.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1-7任一项所述的方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的程序指令;其中,所述处理器配置为经由执行所述程序指令来执行权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010763043.0A CN111930891B (zh) | 2020-07-31 | 2020-07-31 | 基于知识图谱的检索文本扩展方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010763043.0A CN111930891B (zh) | 2020-07-31 | 2020-07-31 | 基于知识图谱的检索文本扩展方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111930891A true CN111930891A (zh) | 2020-11-13 |
CN111930891B CN111930891B (zh) | 2024-02-02 |
Family
ID=73315605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010763043.0A Active CN111930891B (zh) | 2020-07-31 | 2020-07-31 | 基于知识图谱的检索文本扩展方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111930891B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116028597A (zh) * | 2023-03-27 | 2023-04-28 | 南京燧坤智能科技有限公司 | 对象检索方法、装置、非易失性存储介质及计算机设备 |
WO2024011813A1 (zh) * | 2022-07-15 | 2024-01-18 | 山东海量信息技术研究院 | 一种文本扩展方法、装置、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090012778A1 (en) * | 2007-07-05 | 2009-01-08 | Nec (China) Co., Ltd. | Apparatus and method for expanding natural language query requirement |
CN104199875A (zh) * | 2014-08-20 | 2014-12-10 | 百度在线网络技术(北京)有限公司 | 一种搜索推荐方法及装置 |
CN105653706A (zh) * | 2015-12-31 | 2016-06-08 | 北京理工大学 | 一种基于文献内容知识图谱的多层引文推荐方法 |
US20180060421A1 (en) * | 2016-08-26 | 2018-03-01 | International Business Machines Corporation | Query expansion |
CN109522465A (zh) * | 2018-10-22 | 2019-03-26 | 国家电网公司 | 基于知识图谱的语义搜索方法及装置 |
CN110134796A (zh) * | 2019-04-19 | 2019-08-16 | 平安科技(深圳)有限公司 | 基于知识图谱的临床试验检索方法、装置、计算机设备及存储介质 |
CN111191046A (zh) * | 2019-12-31 | 2020-05-22 | 北京明略软件系统有限公司 | 一种实现信息搜索的方法、装置、计算机存储介质及终端 |
-
2020
- 2020-07-31 CN CN202010763043.0A patent/CN111930891B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090012778A1 (en) * | 2007-07-05 | 2009-01-08 | Nec (China) Co., Ltd. | Apparatus and method for expanding natural language query requirement |
CN104199875A (zh) * | 2014-08-20 | 2014-12-10 | 百度在线网络技术(北京)有限公司 | 一种搜索推荐方法及装置 |
CN105653706A (zh) * | 2015-12-31 | 2016-06-08 | 北京理工大学 | 一种基于文献内容知识图谱的多层引文推荐方法 |
US20180060421A1 (en) * | 2016-08-26 | 2018-03-01 | International Business Machines Corporation | Query expansion |
CN109522465A (zh) * | 2018-10-22 | 2019-03-26 | 国家电网公司 | 基于知识图谱的语义搜索方法及装置 |
CN110134796A (zh) * | 2019-04-19 | 2019-08-16 | 平安科技(深圳)有限公司 | 基于知识图谱的临床试验检索方法、装置、计算机设备及存储介质 |
CN111191046A (zh) * | 2019-12-31 | 2020-05-22 | 北京明略软件系统有限公司 | 一种实现信息搜索的方法、装置、计算机存储介质及终端 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024011813A1 (zh) * | 2022-07-15 | 2024-01-18 | 山东海量信息技术研究院 | 一种文本扩展方法、装置、设备及介质 |
CN116028597A (zh) * | 2023-03-27 | 2023-04-28 | 南京燧坤智能科技有限公司 | 对象检索方法、装置、非易失性存储介质及计算机设备 |
CN116028597B (zh) * | 2023-03-27 | 2023-07-21 | 南京燧坤智能科技有限公司 | 对象检索方法、装置、非易失性存储介质及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111930891B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107256267B (zh) | 查询方法和装置 | |
CN106919655B (zh) | 一种答案提供方法和装置 | |
WO2020077824A1 (zh) | 异常问题的定位方法、装置、设备及存储介质 | |
CN109508361B (zh) | 用于输出信息的方法和装置 | |
CN110390094B (zh) | 对文档进行分类的方法、电子设备和计算机程序产品 | |
CN110135590B (zh) | 信息处理方法、装置、介质及电子设备 | |
CN114840671A (zh) | 对话生成方法、模型的训练方法、装置、设备及介质 | |
CN110765247A (zh) | 一种用于问答机器人的输入提示方法及装置 | |
CN108228567B (zh) | 用于提取组织机构的简称的方法和装置 | |
WO2020123689A1 (en) | Suggesting text in an electronic document | |
US20220300543A1 (en) | Method of retrieving query, electronic device and medium | |
US20220121668A1 (en) | Method for recommending document, electronic device and storage medium | |
CN111737443B (zh) | 答案文本的处理方法和装置、关键文本的确定方法 | |
CN111143556A (zh) | 软件功能点自动计数方法、装置、介质及电子设备 | |
CN111930891B (zh) | 基于知识图谱的检索文本扩展方法及相关装置 | |
CN111209351B (zh) | 对象关系预测、对象推荐方法及装置、电子设备、介质 | |
CN107885875B (zh) | 检索词的同义变换方法、装置及服务器 | |
Alsudais | Quantifying the offline interactions between hosts and guests of Airbnb | |
CN110245357B (zh) | 主实体识别方法和装置 | |
CN110083677B (zh) | 联系人的搜索方法、装置、设备及存储介质 | |
CN110059172B (zh) | 基于自然语言理解的推荐答案的方法和装置 | |
CN110162518B (zh) | 数据分组方法、装置、电子设备及存储介质 | |
CN112506864A (zh) | 文件检索的方法、装置、电子设备及可读存储介质 | |
CN110471708B (zh) | 基于可重用组件的配置项获取的方法及装置 | |
US20230142351A1 (en) | Methods and systems for searching and retrieving information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |