CN114116997A - 知识问答方法、装置、电子设备及存储介质 - Google Patents
知识问答方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114116997A CN114116997A CN202111248491.8A CN202111248491A CN114116997A CN 114116997 A CN114116997 A CN 114116997A CN 202111248491 A CN202111248491 A CN 202111248491A CN 114116997 A CN114116997 A CN 114116997A
- Authority
- CN
- China
- Prior art keywords
- answer
- candidate
- entity
- question
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
Abstract
本公开提出了知识问答方法、装置、电子设备和存储介质,涉及人工智能技术领域,具体涉及知识图谱、自然语言处理技术领域。方案为:确定待处理的问题,以及问题中的目标实体信息,其中,目标实体信息包括:目标实体以及对应的属性;确定与目标实体匹配的描述文本;根据属性查找描述文本,以获取问题的候选答案;从候选答案中选择与问题对应的答案。由此,根据目标实体进行实体检索,可确定出整合了结构化数据源和非结构化数据源的描述文本,实现了实体搜索与知识信息检索的分离,同时,通过对候选答案的精准控制,确定出待处理问题对应的答案,提高了知识解答的准确度和覆盖度。
Description
技术领域
本公开涉及人工智能技术领域,具体涉及知识图谱、自然语言处理技术领域,尤其涉及知识问答方法、装置、电子设备和存储介质。
背景技术
近年来,随着人工智能的飞速发展,自动问答受到越来越多的关注。在检索场景中,问答需求长期存在,如何对问题进行解答是非常重要的。
发明内容
本公开提供了一种用于知识问答的方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种知识问答方法,包括:确定待处理的问题,以及所述问题中的目标实体信息,其中,所述目标实体信息包括:目标实体以及对应的属性;确定与所述目标实体匹配的描述文本;根据所述属性查找所述描述文本,以获取所述问题的候选答案;从所述候选答案中选择与所述问题对应的答案。
根据本公开的另一方面,提供了一种知识问答装置,包括:第一确定模块,用于确定待处理的问题,以及所述问题中的目标实体信息,其中,所述目标实体信息包括:目标实体以及对应的属性;第二确定模块,用于确定与所述目标实体匹配的描述文本;获取模块,用于根据所述属性查找所述描述文本,以获取所述问题的候选答案;选择模块,用于从所述候选答案中选择与所述问题对应的答案。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开第一方面实施例所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开第一方面实施例所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开第一方面实施例所述方法的步骤。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本公开第一实施例的示意图;
图2是根据本公开实施例的应用场景示意图;
图3是根据本公开第二实施例的示意图;
图4是根据本公开第三实施例的示意图;
图5是根据本公开实施例的描述文本示意图;
图6是根据本公开第四实施例的示意图;
图7是根据本公开第五实施例的示意图;
图8是根据本公开第六实施例的示意图;
图9是根据本公开第七实施例的示意图;
图10是根据本公开第八实施例的示意图;
图11是根据本公开第九实施例的示意图;
图12是根据本公开实施例的知识问答方法的流程示意图;
图13是根据本公开第十实施例的示意图;
图14示出了可以用来实施本公开的实施例的示例电子设备1400的示意性框图。
附图标记:501:标题;502:简介;503:结构化文本部分;504:非结构化文本部分。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
近年来,随着人工智能的飞速发展,自动问答受到越来越多的关注。在检索场景中,问答需求长期存在,如何对问题进行解答是非常重要的。
相关技术中,主要采用以下三种方法对问题进行解答,第一种方式是,基于FAQ(Frequently Asked Questions,常见问题解答)常见问题集进行问题解答;第二种方式是,基于结构化知识的问答,依赖于结构化知识的构建进行问答;第三种方式是,基于纯文本匹配获取问答网站资源中的匹配问题,抽取匹配问题的答案;但是,上述第一方式,常见问题集仅能覆盖高热常见问答问题,且依赖于人工整理,导致解答正确率降低;上述第二种方式,结构化知识的挖掘准召较低,部分知识很难直接用三元组等结构化存储方式表示,由于自然语言的多样性,归一技术往往难以穷尽每一种表达;上述第三种方式,依赖于开放问答网站资源以及网友的人工答案正确性,对于长尾知识问答、用户无回答的问题,该方法则无法覆盖。
因此针对上述存在的问题,本公开提出一种知识问答方法、装置、电子设备及存储介质。
图1是根据本公开第一实施例的示意图。需要说明的是,本公开实施例的知识问答方法可应用于本公开实施例的知识问答装置,该装置可被配置于电子设备中。其中,该电子设备可以是移动终端,例如,手机、平板电脑、个人数字助理等具有各种操作系统的硬件设备。
需要了解的是,如图2所示,按照任务定义来说,闲聊类问答,任务型对话问答和知识型问答有较大不同,本公开实施例的知识问答方法可解决图2中的知识类问答和实体知识查询,可应用于搜索、智能机器人等场合。
如图1所示,该知识问答方法可包括如下步骤:
步骤101,确定待处理的问题,以及问题中的目标实体信息,其中,目标实体信息包括:目标实体以及对应的属性。
在本公开实施例中,可对候选问题进行问题类型解析,根据候选问题的类型解析结果确定候选问题是否为待处理的问题。其中,候选问题可为用户输入的问题,或者,线上采集的问题,比如可以通过网络爬虫技术,在线采集的问题,或者,候选问题也可以为线下采集的问题,等等,本公开实施例对此并不做限制。
对待处理的问题进行字段解析,根据解析结果确定待处理的问题中的目标实体信息,其中,目标实体信息可包括目标实体以及对应的属性。比如,待处理的问题为“刘某某的妻子是谁?”,目标实体为“刘某某”,属性为“妻子”。其中,需要说明的是,对于待处理的问题中的同一个属性,用户会有多种表述,可将同一个属性的多种表述进行属性归一化,可将不同的属性进行归一化,比如,将“出生日期”、“生日”、“生日哪天”与“哪天出生的”进行属性归一化,可归一化为“出生日期”。
步骤102,确定与目标实体匹配的描述文本。
进一步地,可根据目标实体从实体知识库中确定与目标实体对应的实体知识,将实体知识对应的描述文本作为与目标实体匹配的描述文本。
步骤103,根据属性查找描述文本,以获取问题的候选答案。
在本公开实施例中,描述文本可包括结构化文本和/或非结构化文本,描述文本的类型不同,对应的,根据属性查找描述文本的方式也不同。
作为一种示例,可在结构化文本中(如,键-值结构),确定与该属性匹配的关键项,将关键项的内容作为候选答案。
作为另一种示例,可在非结构化文本中,获取包括该属性的文本片段,可根据待处理问题以及答案抽取模型,从文本片段中抽取候选答案。
作为另一种示例,描述文本包括结构化文本和非结构化文本,可从结构化文本中,确定与该属性匹配的关键项,将匹配的关键项的内容,确定为第一候选答案,同时,在非结构化文本中,获取包括该属性的文本片段,可根据待处理问题以及答案抽取模型,从文本片段中抽取第二候选答案,将第一候选答案与第二候选答案作为候选答案。
步骤104,从候选答案中选择与问题对应的答案。
在本公开实施例中,可对候选答案进行精准控制,以从候选答案中选择与问题对应的答案,比如,可针对每个候选答案,确定该候选答案的实体置信度以及候选答案的答案置信度,根据候选答案的实体置信度以及候选答案的答案置信度,从候选答案中选择与待处理的问题对应的答案。
综上,通过确定待处理的问题,以及问题中的目标实体信息,其中,目标实体信息包括:目标实体以及对应的属性;确定与目标实体匹配的描述文本;根据属性查找描述文本,以获取问题的候选答案;从候选答案中选择与问题对应的答案。由此,根据目标实体进行实体检索,可确定出整合了结构化数据源和非结构化数据源的描述文本,实现了实体搜索与知识信息检索的分离,同时,通过对候选答案的精准控制,确定出待处理问题对应的答案,提高了知识解答的准确度和覆盖度。
为了准确地确定待处理的问题以及问题中的目标实体信息,如图3所示,图3是根据本公开第二实施例的示意图,在本公开实施例中,可对候选问题进行问题类型解析,在候选问题的问题类型为三元组类型时,确定候选问题是为待处理的问题,对待处理的问题进行三元组字段解析,以确定问题中的目标实体以及目标实体对应的属性,图3所示实施例可包括如下步骤:
步骤301,获取候选问题,以及候选问题的问题类型。
在本公开实施例中,候选问题可为用户输入的问题,或者,线上采集的问题,比如可以通过网络爬虫技术,在线采集的问题,或者,候选问题也可以为线下采集的问题。
进一步地,可根据候选问题的问题内容以及候选问题的呈现方式,对候选问题进行问题类型分析,以确定候选问题的问题类型。比如,候选问题为“明天是否为晴天?”,该候选问题为是否类,又如,“演员刘某某的妻子是谁?”,该问题为三元组类型。
步骤302,在问题类型为三元组类型时,确定候选问题为待处理的问题。
进一步地,在问题类型为三元组类型时,可将该候选问题作为待处理的问题,其中,需要说明的是,三元组类型可为不包括宾语的三元组类型,比如,“刘某某的妻子是朱某某吗?”该候选问题为包括宾语的三元组类型,“刘某某的妻子是谁?”,则该候选问题为不包括宾语的三元组类型。
步骤303,对待处理的问题进行三元组字段解析,以获取问题中的目标实体以及目标实体对应的属性。
可选地,对待处理的问题进行三元组字段解析,以获取问题中的至少一个候选实体,以及每个候选实体对应的属性;对问题进行目标类型解析,确定问题的目标实体类型;将至少一个候选实体中与目标实体类型匹配的候选实体,确定为目标实体。
也就是说,为了准确地确定目标实体,可对待处理的问题进行三元组字段解析,确定待处理的问题中的候选实体。接着,可根据上位路径对待处理的问题进行类型解析,确定该问题的目标实体类型。
步骤304,确定与目标实体匹配的描述文本。
步骤305,根据属性查找描述文本,以获取问题的候选答案。
步骤306,从候选答案中选择与问题对应的答案。
需要说明的是,步骤304至306的执行过程可以分别采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
综上,通过获取候选问题,以及候选问题的问题类型;在问题类型为三元组类型时,确定候选问题为待处理的问题;对待处理的问题进行三元组字段解析,以获取问题中的目标实体以及目标实体对应的属性,由此,通过对所述待处理的问题进行三元组字段解析,可准确地从多个实体中确定出目标实体以及目标实体对应的属性。
为了准确地确定与目标实体匹配的描述文本,如图4所示,图4是根据本公开第三实施例的示意图,在本公开实施例中,可根据目标实体查询预设的实体知识库,从实体知识库中获取与目标实体匹配的实体知识,将实体知识对应的描述文本,作为与目标实体匹配的描述文本,图4所述实施例可包括如下步骤:
步骤401,确定待处理的问题,以及问题中的目标实体信息,其中,所述目标实体信息包括:目标实体以及对应的属性。
步骤402,根据目标实体查询预设的实体知识库,以获取实体知识库中与目标实体匹配的实体知识。
在本公开实施例中,可根据目标实体查询预设的实体知识库,从实体知识库中获取与目标实体匹配的实体知识。也就是说,在预设的实体知识库中,可预先建立实体id(索引),以查询包含目标实体的实体知识。
比如,以目标实体为“刘某某”,可在预设的实体知识库中获取与“刘某某”匹配的实体知识,比如,香港演员“刘某某”,歌手“刘某某”等。
步骤403,将实体知识库中匹配的实体知识对应的描述文本,确定为与目标实体匹配的描述文本。
进一步地,将实体知识库中匹配的实体知识对应的描述文本,确定为与目标实体匹配的描述文本,比如,可将香港演员“刘某某”,歌手“刘某某”分别对应的描述信息作为与目标实体匹配的描述文本。其中,需要说明的是,描述文本可包括:结构化文本部分和/或非结构化文本部分。
需要了解的是,如图5所示,描述文本中可包括结构化文本部分503和非结构化文本部分504对应的标题501,简介502。对于实体知识库中的结构化文本,可预先建立索引(如,id)字段,以便于根据目标实体确定与其匹配的结构化文本。
对于实体知识库中的非结构化文本,可对非结构化文本部分中的文本片段建立段落编号、目录,以便从文本段落中抽取候选答案。
步骤404,根据属性查找描述文本,以获取问题的候选答案。
步骤405,从候选答案中选择与问题对应的答案。
需要说明的是,步骤401、404至405的执行过程可以分别采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
综上,通过根据目标实体查询预设的实体知识库,以获取实体知识库中与目标实体匹配的实体知识;将实体知识库中匹配的实体知识对应的描述文本,确定为与目标实体匹配的描述文本。由此,根据与目标实体匹配的实体知识对应的描述文本,可准确地确定与目标实体匹配的描述文本。
为了准确地从描述文本中确定待处理的问题的候选答案,如图6所示,图6是根据本公开第四实施例的示意图,在本公开实施例中,可根据描述文本的类型不同,采用不同的方式从描述文本中确定待处理的问题的候选答案,作为一种实例,描述文本包括:结构化文本部分,可根据属性查找结构化文本部分,以获取与属性匹配的关键项,将关键项的内容作为候选答案。图6所示实施例可包括如下步骤:
步骤601,确定待处理的问题,以及问题中的目标实体信息,其中,所述目标实体信息包括:目标实体以及对应的属性。
步骤602,确定与目标实体匹配的描述文本,其中,描述文本包括:结构化文本部分。
步骤603,根据属性查找结构化文本部分,以获取结构化文本部分中与属性匹配的关键项。
在本公开实施例中,可根据属性在结构化文本部分(如,键值对结构)查找与该属性相关度较高的关键项,其中,关键项至少为一个。
步骤604,将匹配的关键项的内容,确定为候选答案。
进一步地,将关键项对应的内容作为候选答案。
步骤605,从候选答案中选择与问题对应的答案。
需要说明的是,步骤601至602的执行过程可以分别采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
综上,通过根据属性查找结构化文本部分,以获取结构化文本部分中与属性匹配的关键项;将匹配的关键项的内容,确定为候选答案。由此,根据结构化文本中与属性匹配的关键项,可准确地从结构化文本部分中,确定候选答案。
为了准确地从描述文本中确定待处理的问题的候选答案,如图7所示,图7是根据本公开第五实施例的示意图,作为另一种实例,描述文本包括:非结构化文本部分,可从非结构化文本中获取包括属性的文本片段,从文本片段中抽取候选答案,图7所示实施例可包括如下步骤:
步骤701,确定待处理的问题,以及问题中的目标实体信息,其中,目标实体信息包括:目标实体以及对应的属性。
步骤702,确定与目标实体匹配的描述文本,其中,描述文本包括:非结构化文本部分。
步骤703,根据属性查找非结构化文本部分,以获取非结构化文本部分中包括属性的文本片段。
在本公开实施例中,可根据属性在非结构化文本部分中查找并获取包括该属性的文本片段,其中,需要说明的是,文本片段可预先设置段落索引,以便获取包含属性的文本片段。比如,属性为“颜色”,可从非结构化文本部分中获取包括“颜色”的文本段落。
步骤704,根据问题,从文本片段中抽取候选答案。
在本公开实施例中,可将待处理的问题以及包括属性的文本片段,输入设定的答案抽取模型中,该答案抽取模型可输出候选答案。
步骤705,从候选答案中选择与问题对应的答案。
需要说明的是,步骤701至702、步骤705的执行过程可以分别采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
综上,通过根据属性查找非结构化文本部分,以获取非结构化文本部分中包括属性的文本片段,根据问题,从文本片段中抽取候选答案,由此,在描述文本中包括非结构化文本部分时,可根据问题,准确地从包括属性的文本片段中抽取候选答案。
为了准确地从描述文本中确定待处理的问题的候选答案,如图8所示,图8是根据本公开第六实施例的示意图,作为另一种实例,描述文本包括:结构化文本部分和非结构化文本部分,在结构化文本部分中获取与属性匹配的关键项,将关键项的内容确定为候选答案,同时,在非结构化部分中获取包括属性的文本片段,根据问题从文本片段中抽取候选答案,图8所示实施例可包括如下步骤:
步骤801,确定待处理的问题,以及问题中的目标实体信息,其中,目标实体信息包括:目标实体以及对应的属性。
步骤802,确定与目标实体匹配的描述文本。其中,描述文本包括结构化文本部分和非结构化文本部分。
步骤803,根据属性查找结构化文本部分,以获取结构化文本部分中与属性匹配的关键项。
步骤804,将匹配的关键项的内容,确定为候选答案。
步骤805,根据属性查找非结构化文本部分,以获取非结构化文本部分中包括属性的文本片段。
步骤806,根据问题,从文本片段中抽取候选答案。
步骤807,从候选答案中选择与问题对应的答案。
需要说明的是,步骤801至807的执行过程可以分别采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
综上,通过确定与目标实体匹配的描述文本。其中,描述文本包括结构化文本部分和非结构化文本部分;根据属性查找结构化文本部分,以获取结构化文本部分中与属性匹配的关键项;将匹配的关键项的内容,确定为候选答案;根据属性查找非结构化文本部分,以获取非结构化文本部分中包括属性的文本片段,根据问题,从文本片段中抽取候选答案。由此,在描述文本包括结构化文本部分和非结构化文本部分时,可根据结构化文本中与属性匹配的关键项,可准确地从结构化文本部分中,确定候选答案,同时,在描述文本中包括非结构化文本部分时,可根据问题,准确地从包括属性的文本片段中抽取候选答案。
为了在描述文本中未获取到候选答案时,无法确定候选答案,如图9所示,图9是根据本公开第七实施例的示意图,在本公开实施例中,若未获取到问题的候选答案,可根据目标实体以及属性查找属性的可选项列表,将可选项列表中与目标实体以及属性匹配的可选项,确定为候选答案。图9所示实施例可包括如下步骤:
步骤901,确定待处理的问题,以及问题中的目标实体信息,其中,目标实体信息包括:目标实体以及对应的属性。
步骤902,确定与目标实体匹配的描述文本。
步骤903,根据属性查找描述文本,以获取问题的候选答案。
步骤904,若未获取到问题的候选答案,且属性的可选项数量为有限个,确定属性的可选项列表。
比如,待处理问题为“花木兰是哪个朝代的”,由于“朝代”是一个有限集合,对于结构化文本部分,无法获取到对应的关键项,对于非结构化文本部分,无法获取到对应的文本片段,进而,可获取“朝代”的可选项列表,从可选项列表中确定与目标实体以及属性匹配的可选项。
步骤905,根据目标实体以及属性查找可选项列表,以获取可选项列表中与目标实体以及属性匹配的可选项。
比如,可根据目标实体“花木兰”以及属性“朝代”查找“朝代”的可选项列表,在“朝代”的可选项列表中获取与目标实体“花木兰”以及属性“朝代”匹配的可选项。比如,匹配的可选项为“北魏”。
步骤906,将可选项,确定为候选答案。
比如,将可选项“北魏”作为候选答案。
步骤907,从候选答案中选择与问题对应的答案。
需要说明的是,步骤901至903、步骤907的执行过程可以分别采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
综上,若未获取到问题的候选答案,且属性的可选项数量为有限个,确定属性的可选项列表;根据目标实体以及属性查找可选项列表,以获取可选项列表中与目标实体以及属性匹配的可选项,将可选项,确定为候选答案,由此,通过在属性的可选项列表中获取与目标实体以及属性匹配的可选项,可在描述文本中未获取到候选答案时,准确地确定候选答案。
为了准确地从候选答案中选择与待处理的问题对应的答案,如图10所示,图10是根据本公开第八实施例的示意图,在本公开实施例中,可根据候选答案的实体置信度以及答案置信度对候选答案进行精准控制,以从候选答案中选择与问题对应的答案,图10所示实施例可包括如下步骤:
步骤1001,确定待处理的问题,以及问题中的目标实体信息,其中,目标实体信息包括:目标实体以及对应的属性。
步骤1002,确定与目标实体匹配的描述文本。
步骤1003,根据属性查找所述描述文本,以获取问题的候选答案。
步骤1004,针对每个候选答案,根据候选答案的来源文本部分对应的实体知识与目标实体,确定候选答案的实体置信度。
在本公开实施例中,针对每个候选答案,可根据该候选答案的来源文本部分对应的实体知识与目标实体之间的匹配度,确定候选答案的实体置信度。其中,匹配度可包括以下至少一种:字符重合度、语义相似度、领域类型相关度。需要说明的是,匹配度包括字符重合度、语义相似度、领域类型相关度中的两种或两种以上时,可将多个匹配度进行加权求和,将加权求和的结果作为候选答案的实体置信度。
步骤1005,根据候选答案以及问题,确定候选答案的答案置信度。
在本公开实施例中,针对每个候选答案确定候选答案与问题之间的匹配度,其中,匹配度包括以下至少一种:问题与候选答案的字符重合度、问题与候选答案的语义相似度、问题的答案类型与候选答案的类型之间的类型相关度、候选答案为结构化文本部分中关键项的内容时候选答案与关键项之间的匹配度、问题中答案相关限定与候选答案的匹配度,根据候选答案与问题之间的匹配度,确定候选答案的答案置信度。
步骤1006,根据至少一个候选答案的实体置信度以及答案置信度,从至少一个候选答案中选择与问题对应的答案。
可选地,针对每个候选答案,根据候选答案的实体置信度以及答案置信度,确定候选答案的置信度;根据置信度对至少一个候选答案进行降序排序,得到排序结果;将排序结果中排序在前的候选答案,确定为问题对应的答案。
也就是说,为了准确地确定问题对应的答案,针对每个候选答案,可根据候选答案的实体置信度以及答案置信度,结合对应的权重,确定候选答案的置信度,根据各个候选答案的置信度,对各个候选答案进行降序排序,得到排序结果,接着,将排序结果中排序在前的候选答案,确定为待处理的问题对应的答案。其中,需要说明的是,具有推理关系的候选答案之间可进行置信度合并,比如,候选答案A为“2019年6月”,候选答案B为“2019年”,候选答案A与候选答案B为可推理关系,可将候选答案A的置信度赋予候选答案B。
需要说明的是,步骤1001至1003的执行过程可以分别采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
综上,通过针对每个候选答案,根据候选答案的来源文本部分对应的实体知识与目标实体,确定候选答案的实体置信度;根据候选答案以及问题,确定候选答案的答案置信度;根据至少一个候选答案的实体置信度以及答案置信度,从至少一个候选答案中选择与问题对应的答案。由此,根据候选答案的实体置信度以及答案置信度对候选答案进行精准控制,可以从候选答案中准确地选择出与待处理的问题对应的答案。
为了准确地确定候选答案的实体置信度以及答案置信度,如图11所示,图11是根据本公开第九实施例的示意图,在本公开实施例中,可根据候选答案的来源文本部分对应的实体知识与目标实体之间的匹配度,确定候选答案的实体置信度,同时,可根据候选答案与问题之间的匹配度,确定候选答案的答案置信度,图11所示实施例可包括如下步骤:
步骤1101,确定待处理的问题,以及问题中的目标实体信息,其中,目标实体信息包括:目标实体以及对应的属性。
步骤1102,确定与目标实体匹配的描述文本。
步骤1103,根据属性查找描述文本,以获取问题的候选答案。
步骤1104,针对每个候选答案,确定候选答案的来源文本部分对应的实体知识与目标实体之间的匹配度,其中,匹配度包括以下至少一种:字符重合度、语义相似度、领域类型相关度。
在本公开实施例中,可通过实体知识与目标实体之间的字符重复个数,以及字符重合个数占实体知识字符长度的比率,字符重合个数占目标实体字符长度的比率,确定实体知识与目标实体之间的字符重合度。
比如,实体知识为“黑米”,目标实体为“大米”,实体知识与目标实体之间的字符重合度可通过如下公式进行计算:
ratio=min(ratio1,ratio2)<thresh?min(ratio1,ratio2):ratio1+ratio2;
ratio1=dup/len_s1;
ratio2=dup/len_s2;
其中,thresh为设定的阈值,dup为实体知识与目标实体字符重复的个数,len_s1为实体知识的字符长度,len_s2为目标实体的字符长度,ratio1为字符重合个数占实体知识字符长度的比率,ratio2为字符重合个数占目标实体字符长度的比率。
在本公开实施例中,可将实体知识和目标实体分别输入语义向量模型中,获取实体知识对应的语义向量以及目标实体对应的语义向量,接着,可根据语义向量相似度算法计算实体知识对应的语义向量与目标实体对应的语义向量之间的语义相似度,其中,语义向量相似度算法可包括:余弦相似度算法、欧式距离算法与曼哈顿距离算法等。
在本公开实施例中,可根据问题所属的领域以及候选答案所属的领域之间的领域相关度、目标实体的类型以及实体知识之间的类型相关度,确定目标实体与实体知识之间的领域类型相关度。
可选地,确定问题所属的领域,以及目标实体的类型;确定候选答案所属的领域,以及实体知识的类型;根据问题所属的领域以及候选答案所属的领域,确定领域相关度;根据目标实体的类型以及实体知识的类型,确定类型相关度;根据领域相关度和类型相关度,确定实体知识与目标实体之间的领域类型相关度。
也就是说,为了准确地确定实体知识与目标实体之间的领域类型相关度,可基于深度学习模型对问题进行领域分类,以确定问题所属的领域,其中,领域比如为,教育、新闻、历史知识或歌曲,接着,可根据目标实体以及目标实体的上位路径上的大概念确定目标实体的类型,同理,可基于深度学习模型对候选答案进行领域分类,根据实体知识以及实体知识的上位路径上的大概念确定实体知识的类型,进而,可计算问题所属的领域以及候选答案所属的领域之间的领域相关度,计算目标实体的类型以及实体知识的类型之间的类型相关度,根据领域相关度和类型相关度,以及对应的权重进行加权求和,将加权求和的结果作为实体知识与目标实体之间的领域类型相关度。
步骤1105,根据匹配度,确定候选答案的实体置信度。
在本公开实施例中,匹配度包括以下至少一种:字符重合度、语义相似度、领域类型相关度,匹配度包括的种类的数量不同,对应的,确定候选答案的实体置信度的方式也不同。
作为一种示例,在匹配度包括:字符重合度、语义相似度、领域类型相关度中的一种时,可将匹配度作为候选答案的实体置信度。
作为另一种示例,在匹配度包括字符重合度、语义相似度、领域类型相关度中的至少两种时,可根据匹配度以及匹配度对应的权重,进行加权求和,将加权求和结果作为候选答案的实体置信度。
步骤1106,针对每个候选答案,确定候选答案与问题之间的匹配度,其中,匹配度包括以下至少一种:问题与候选答案的字符重合度、问题与候选答案的语义相似度、问题的答案类型与候选答案的类型之间的类型相关度、候选答案为结构化文本部分中关键项的内容时候选答案与关键项之间的匹配度、问题中答案相关限定与候选答案的匹配度。
在本公开实施例中,可根据候选答案与问题中的核心词之间的字符重合数,确定问题与候选答案的字符重合度。
作为一种示例,可确定问题中的核心词,将候选答案与核心词的字符重合数与核心词的比值作为问题与候选答案的字符重合度,比如,问题中的核心词为“回国”,候选答案为“某某归国”,候选答案与核心词的字符重合数为1,问题与候选答案的字符重合度为1/2。
在本公开实施例中,可将问题中的核心词与候选答案输入语义向量模型中,获取问题核心词对应的语义向量以及候选答案对应的语义向量,接着,可根据语义向量相似度算法计算核心词对应的语义向量以及候选答案对应的语义向量之间的语义相似度。
在本公开实施例中,可根据问题中的目标实体和属性通过设定的类型抽取模型进行类型抽取和分类,以确定问题的答案类型,其中,问题的答案类型可包括时间类、空间类、实体类以及人物类。比如,对问题中的“刘某某”和“妻子”进行类型抽取和分类,可确定问题的答案类型为人物类。接着,采用类型抽取模型对候选答案进行类型的抽取和分类,以获取候选答案的类型,进而,计算问题的答案类型与候选答案的类型之间的相关度,以确定问题的答案类型与候选答案的类型之间的类型相关度。
可选地,在候选答案为结构化文本部分中关键项的内容时,可候选答案与关键项通过异常点检测算法进行异常点检测,以确定候选答案与关键项之间的匹配度,其中,需要说明的是,候选答案与关键项之间的匹配度越高,异常匹配检测分数越低。比如,候选答案分别为“2月20日”,“03-20”、“3月20日”以及“不知道”,关键项为生日,通过异常检测匹配,可确定“不知道”为异常候选答案。
在本公开实施例中,可在候选答案中对问题中的相关限定进行判断打分,以确定问题中答案相关限定与候选答案的匹配度。比如,在候选答案中寻找问题中的相关限定的依据,根据依据得分确定问题中答案相关限定与候选答案的匹配度。
步骤1107,根据候选答案与问题之间的匹配度,确定候选答案的答案置信度。
作为一种示例,在候选答案与问题之间的匹配度包括问题与候选答案的字符重合度、问题与候选答案的语义相似度、问题的答案类型与候选答案的类型之间的类型相关度、候选答案为结构化文本部分中关键项的内容时候选答案与关键项之间的匹配度以及问题中答案相关限定与候选答案的匹配度中的一种时,可将候选答案与问题之间的匹配度,作为候选答案的答案置信度。
作为另一种示例,在候选答案与问题之间的匹配度包括问题与候选答案的字符重合度、问题与候选答案的语义相似度、问题的答案类型与候选答案的类型之间的类型相关度、候选答案为结构化文本部分中关键项的内容时候选答案与关键项之间的匹配度以及问题中答案相关限定与候选答案的匹配度中的至少两种时,可根据候选答案与问题之间的匹配度,以及对应的权重,进行加权求和,将加权求和结果作为候选答案的答案置信度。
步骤1108,根据至少一个候选答案的实体置信度以及答案置信度,从至少一个所述候选答案中选择与问题对应的答案。
需要说明的是,步骤1101至1103、步骤1108的执行过程可以分别采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
综上,针对每个候选答案,确定候选答案的来源文本部分对应的实体知识与目标实体之间的匹配度,其中,匹配度包括以下至少一种:字符重合度、语义相似度、领域类型相关度;根据匹配度,确定候选答案的实体置信度;针对每个候选答案,确定候选答案与问题之间的匹配度,其中,匹配度包括以下至少一种:问题与候选答案的字符重合度、问题与候选答案的语义相似度、问题的答案类型与候选答案的类型之间的类型相关度、候选答案为结构化文本部分中关键项的内容时候选答案与关键项之间的匹配度、问题中答案相关限定与候选答案的匹配度;根据候选答案与问题之间的匹配度,确定候选答案的答案置信度。由此,可准确地确定候选答案的实体置信度以及答案置信度,以提高知识解答的准确度。
为了使本领域技术人员更加清楚地了解本公开,现举例进行说明。
举例而言,如图12所示,通过对待处理问题进行问题分类和字段解析,以确定问题中的目标实体和属性,接着,对目标实体进行实体检索,以确定与目标实体对应的描述文本(包括结构化文本部分和非结构化文本部分),接着,根据属性对描述文本进行候选答案的抽取,最后,根据候选答案置信度,从候选答案中确定问题对应的答案。
本公开实施例的知识问答方法,通过确定待处理的问题,以及问题中的目标实体信息,其中,目标实体信息包括:目标实体以及对应的属性;确定与目标实体匹配的描述文本;根据属性查找描述文本,以获取问题的候选答案;从候选答案中选择与问题对应的答案。由此,根据目标实体进行实体检索,可确定出整合了结构化数据源和非结构化数据源的描述文本,实现了实体搜索与知识信息检索的分离,同时,根据候选答案置信度,确定出待处理问题对应的答案,提高了知识解答的准确度和覆盖度
为了实现上述实施例,本公开还提出一种知识问答装置。图13是根据本公开第十实施例的示意图。
如图13所示,知识问答装置1300包括:第一确定模块1310、第二确定模块1320、获取模块1330和选择模块1340。
其中,第一确定模块1310,用于确定待处理的问题,以及问题中的目标实体信息,其中,目标实体信息包括:目标实体以及对应的属性;第二确定模块1320,用于确定与目标实体匹配的描述文本;获取模块1330,用于根据属性查找描述文本,以获取问题的候选答案;选择模块1340,用于从候选答案中选择与问题对应的答案。
作为本公开实施例的一种可能实现方式,第一确定模块1310,具体用于:获取候选问题,以及候选问题的问题类型;在问题类型为三元组类型时,确定候选问题为待处理的问题;对待处理的问题进行三元组字段解析,以获取问题中的目标实体以及目标实体对应的属性。
作为本公开实施例的一种可能实现方式,第一确定模块1310,还用于:对待处理的问题进行三元组字段解析,以获取问题中的至少一个候选实体,以及每个所述候选实体对应的属性;对问题进行目标类型解析,确定问题的目标实体类型;将至少一个候选实体中与目标实体类型匹配的候选实体,确定为目标实体。
作为本公开实施例的一种可能实现方式,第二确定模块1320,具体用于:根据目标实体查询预设的实体知识库,以获取实体知识库中与目标实体匹配的实体知识;将实体知识库中匹配的实体知识对应的描述文本,确定为与目标实体匹配的描述文本。
作为本公开实施例的一种可能实现方式,描述文本包括:结构化文本部分;获取模块1330,具体用于:根据属性查找结构化文本部分,以获取结构化文本部分中与属性匹配的关键项;将匹配的关键项的内容,确定为候选答案。
作为本公开实施例的一种可能实现方式,描述文本包括:非结构化文本部分,获取模块1330,还用于:根据属性查找非结构化文本部分,以获取非结构化文本部分中包括属性的文本片段;根据问题,从文本片段中抽取候选答案。
作为本公开实施例的一种可能实现方式,知识问答装置1300还包括:第三确定模块、查找模块和第三确定模块。
其中,第三确定模块,用于若未获取到问题的候选答案,且属性的可选项数量为有限个,确定属性的可选项列表;查找模块,用于根据目标实体以及属性查找可选项列表,以获取可选项列表中与目标实体以及属性匹配的可选项;第三确定模块,用于将可选项,确定为候选答案。
作为本公开实施例的一种可能实现方式,选择模块1340,具体用于:针对每个候选答案,根据候选答案的来源文本部分对应的实体知识与所述目标实体,确定候选答案的实体置信度;根据所述候选答案以及所述问题,确定所述候选答案的答案置信度;根据至少一个所述候选答案的所述实体置信度以及所述答案置信度,从至少一个所述候选答案中选择与所述问题对应的答案。
作为本公开实施例的一种可能实现方式,选择模块1340,还用于:针对每个候选答案,确定所述候选答案的来源文本部分对应的实体知识与所述目标实体之间的匹配度,其中,所述匹配度包括以下至少一种:字符重合度、语义相似度、领域类型相关度;根据匹配度,确定候选答案的实体置信度。
作为本公开实施例的一种可能实现方式,匹配度包括领域类型相关度;选择模块1340,还用于:确定问题所属的领域,以及目标实体的类型;确定候选答案所属的领域,以及实体知识的类型;根据问题所属的领域以及候选答案所属的领域,确定领域相关度;根据目标实体的类型以及实体知识的类型,确定类型相关度;根据领域相关度和类型相关度,确定实体知识与目标实体之间的领域类型相关度。
作为本公开实施例的一种可能实现方式,选择模块1340,还用于:针对每个候选答案,确定候选答案与问题之间的匹配度,其中,匹配度包括以下至少一种:问题与候选答案的字符重合度、问题与候选答案的语义相似度、问题的答案类型与候选答案的类型之间的类型相关度、候选答案为结构化文本部分中关键项的内容时候选答案与关键项之间的匹配度、问题中答案相关限定与候选答案的匹配度;根据候选答案与问题之间的匹配度,确定候选答案的答案置信度。
作为本公开实施例的一种可能实现方式,选择模块1340,还用于:针对每个候选答案,根据候选答案的实体置信度以及答案置信度,确定候选答案的置信度;根据置信度对至少一个候选答案进行降序排序,得到排序结果;将排序结果中排序在前的候选答案,确定为问题对应的答案。
本公开实施例的知识问答装置,通过确定待处理的问题,以及问题中的目标实体信息,其中,目标实体信息包括:目标实体以及对应的属性;确定与目标实体匹配的描述文本;根据属性查找描述文本,以获取问题的候选答案;从候选答案中选择与问题对应的答案。由此,根据目标实体进行实体检索,可确定出整合了结构化数据源和非结构化数据源的描述文本,实现了实体搜索与知识信息检索的分离,同时,根据候选答案置信度,确定出待处理问题对应的答案,提高了知识解答的准确度和覆盖度。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均在征得用户同意的前提下进行,并且均符合相关法律法规的规定,且不违背公序良俗。
为了实现上述实施例,本公开还提出一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述实施例所述的方法。
为了实现上述实施例,本公开还提出一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使所述计算机执行上述实施例所述的方法。
为了实现上述实施例,本公开还提出一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述实施例所述方法的步骤。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图14示出了可以用来实施本公开的实施例的示例电子设备1400的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图14所示,设备1400包括计算单元1401,其可以根据存储在只读存储器(ROM)1402中的计算机程序或者从存储单元1408加载到随机访问存储器(RAM)1403中的计算机程序,来执行各种适当的动作和处理。在RAM 1403中,还可存储设备1400操作所需的各种程序和数据。计算单元1401、ROM 1402以及RAM 1403通过总线1404彼此相连。输入/输出(I/O)接口1405也连接至总线1404。
设备1400中的多个部件连接至I/O接口1405,包括:输入单元1406,例如键盘、鼠标等;输出单元1407,例如各种类型的显示器、扬声器等;存储单元1408,例如磁盘、光盘等;以及通信单元1409,例如网卡、调制解调器、无线通信收发机等。通信单元1409允许设备1400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1401执行上文所描述的各个方法和处理,例如知识问答方法。例如,在一些实施例中,基于视频的目标检测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1402和/或通信单元1409而被载入和/或安装到设备1400上。当计算机程序加载到RAM1403并由计算单元1401执行时,可以执行上文描述的知识问答方法的一个或多个步骤。备选地,在其他实施例中,计算单元1401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行知识问答方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (27)
1.一种知识问答方法,包括:
确定待处理的问题,以及所述问题中的目标实体信息,其中,所述目标实体信息包括:目标实体以及对应的属性;
确定与所述目标实体匹配的描述文本;
根据所述属性查找所述描述文本,以获取所述问题的候选答案;
从所述候选答案中选择与所述问题对应的答案。
2.根据权利要求1所述的方法,其中,所述确定待处理的问题,以及所述问题中的目标实体信息,包括:
获取候选问题,以及所述候选问题的问题类型;
在所述问题类型为三元组类型时,确定所述候选问题为所述待处理的问题;
对所述待处理的问题进行三元组字段解析,以获取所述问题中的所述目标实体以及所述目标实体对应的属性。
3.根据权利要求2所述的方法,其中,所述对所述待处理的问题进行三元组字段解析,以获取所述问题中的所述目标实体以及所述目标实体对应的属性,包括:
对所述待处理的问题进行三元组字段解析,以获取所述问题中的至少一个候选实体,以及每个所述候选实体对应的属性;
对所述问题进行目标类型解析,确定所述问题的目标实体类型;
将所述至少一个候选实体中与所述目标实体类型匹配的候选实体,确定为所述目标实体。
4.根据权利要求1所述的方法,其中,所述确定与所述目标实体匹配的描述文本,包括:
根据所述目标实体查询预设的实体知识库,以获取所述实体知识库中与所述目标实体匹配的实体知识;
将所述实体知识库中所述匹配的实体知识对应的描述文本,确定为与所述目标实体匹配的描述文本。
5.根据权利要求1所述的方法,其中,所述描述文本包括:结构化文本部分;
所述根据所述属性查找所述描述文本,以获取所述问题的候选答案,包括:
根据所述属性查找所述结构化文本部分,以获取所述结构化文本部分中与所述属性匹配的关键项;
将所述匹配的关键项的内容,确定为所述候选答案。
6.根据权利要求1或5所述的方法,其中,所述描述文本包括:非结构化文本部分;
所述根据所述属性查找所述描述文本,以获取所述问题的候选答案,包括:
根据所述属性查找所述非结构化文本部分,以获取所述非结构化文本部分中包括所述属性的文本片段;
根据所述问题,从所述文本片段中抽取候选答案。
7.根据权利要求1所述的方法,其中,还包括:
若未获取到所述问题的候选答案,且所述属性的可选项数量为有限个,确定所述属性的可选项列表;
根据所述目标实体以及所述属性查找所述可选项列表,以获取所述可选项列表中与所述目标实体以及所述属性匹配的可选项;
将所述可选项,确定为所述候选答案。
8.根据权利要求1所述的方法,其中,所述从所述候选答案中选择与所述问题对应的答案,包括:
针对每个候选答案,根据所述候选答案的来源文本部分对应的实体知识与所述目标实体,确定所述候选答案的实体置信度;
根据所述候选答案以及所述问题,确定所述候选答案的答案置信度;
根据至少一个所述候选答案的所述实体置信度以及所述答案置信度,从至少一个所述候选答案中选择与所述问题对应的答案。
9.根据权利要求8所述的方法,其中,所述针对每个候选答案,根据所述候选答案的来源文本部分对应的实体知识与所述目标实体,确定所述候选答案的实体置信度,包括:
针对每个候选答案,确定所述候选答案的来源文本部分对应的实体知识与所述目标实体之间的匹配度,其中,所述匹配度包括以下至少一种:字符重合度、语义相似度、领域类型相关度;
根据所述匹配度,确定所述候选答案的实体置信度。
10.根据权利要求9所述的方法,其中,所述匹配度包括领域类型相关度;
所述针对每个候选答案,确定所述候选答案的来源文本部分对应的实体知识与所述目标实体之间的匹配度,包括:
确定所述问题所属的领域,以及所述目标实体的类型;
确定所述候选答案所属的领域,以及所述实体知识的类型;
根据所述问题所属的领域以及所述候选答案所属的领域,确定领域相关度;
根据所述目标实体的类型以及所述实体知识的类型,确定类型相关度;
根据所述领域相关度和所述类型相关度,确定所述实体知识与所述目标实体之间的领域类型相关度。
11.根据权利要求8所述的方法,其中,所述根据所述候选答案以及所述问题,确定所述候选答案的答案置信度,包括:
针对每个候选答案,确定所述候选答案与所述问题之间的匹配度,其中,所述匹配度包括以下至少一种:所述问题与所述候选答案的字符重合度、所述问题与所述候选答案的语义相似度、所述问题的答案类型与所述候选答案的类型之间的类型相关度、所述候选答案为结构化文本部分中关键项的内容时所述候选答案与关键项之间的匹配度、所述问题中答案相关限定与所述候选答案的匹配度;
根据所述候选答案与所述问题之间的匹配度,确定所述候选答案的答案置信度。
12.根据权利要求8所述的方法,其中,所述根据至少一个所述候选答案的所述实体置信度以及所述答案置信度,从至少一个所述候选答案中选择与所述问题对应的答案,包括:
针对每个候选答案,根据所述候选答案的所述实体置信度以及所述答案置信度,确定所述候选答案的置信度;
根据所述置信度对至少一个所述候选答案进行降序排序,得到排序结果;
将所述排序结果中排序在前的候选答案,确定为所述问题对应的答案。
13.一种知识问答装置,包括:
第一确定模块,用于确定待处理的问题,以及所述问题中的目标实体信息,其中,所述目标实体信息包括:目标实体以及对应的属性;
第二确定模块,用于确定与所述目标实体匹配的描述文本;
获取模块,用于根据所述属性查找所述描述文本,以获取所述问题的候选答案;
选择模块,用于从所述候选答案中选择与所述问题对应的答案。
14.根据权利要求13所述的装置,其中,所述第一确定模块,具体用于:
获取候选问题,以及所述候选问题的问题类型;
在所述问题类型为三元组类型时,确定所述候选问题为所述待处理的问题;
对所述待处理的问题进行三元组字段解析,以获取所述问题中的所述目标实体以及所述目标实体对应的属性。
15.根据权利要求14所述的装置,其中,所述第一确定模块,还用于:
对所述待处理的问题进行三元组字段解析,以获取所述问题中的至少一个候选实体,以及每个所述候选实体对应的属性;
对所述问题进行目标类型解析,确定所述问题的目标实体类型;
将所述至少一个候选实体中与所述目标实体类型匹配的候选实体,确定为所述目标实体。
16.根据权利要求13所述的装置,其中,所述第二确定模块,具体用于:
根据所述目标实体查询预设的实体知识库,以获取所述实体知识库中与所述目标实体匹配的实体知识;
将所述实体知识库中所述匹配的实体知识对应的描述文本,确定为与所述目标实体匹配的描述文本。
17.根据权利要求13所述的装置,其中,所述描述文本包括:结构化文本部分;
所述获取模块,具体用于:
根据所述属性查找所述结构化文本部分,以获取所述结构化文本部分中与所述属性匹配的关键项;
将所述匹配的关键项的内容,确定为所述候选答案。
18.根据权利要求13或17所述的装置,其中,所述描述文本包括:非结构化文本部分;
所述获取模块,还用于:
根据所述属性查找所述非结构化文本部分,以获取所述非结构化文本部分中包括所述属性的文本片段;
根据所述问题,从所述文本片段中抽取候选答案。
19.根据权利要求13所述的装置,其中,所述装置还包括:
第三确定模块,用于若未获取到所述问题的候选答案,且所述属性的可选项数量为有限个,确定所述属性的可选项列表;
查找模块,用于根据所述目标实体以及所述属性查找所述可选项列表,以获取所述可选项列表中与所述目标实体以及所述属性匹配的可选项;
第三确定模块,用于将所述可选项,确定为所述候选答案。
20.根据权利要求13所述的装置,其中,所述选择模块,具体用于:
针对每个候选答案,根据所述候选答案的来源文本部分对应的实体知识与所述目标实体,确定所述候选答案的实体置信度;
根据所述候选答案以及所述问题,确定所述候选答案的答案置信度;
根据至少一个所述候选答案的所述实体置信度以及所述答案置信度,从至少一个所述候选答案中选择与所述问题对应的答案。
21.根据权利要求20所述的装置,其中,所述选择模块,还用于:
针对每个候选答案,确定所述候选答案的来源文本部分对应的实体知识与所述目标实体之间的匹配度,其中,所述匹配度包括以下至少一种:字符重合度、语义相似度、领域类型相关度;
根据所述匹配度,确定所述候选答案的实体置信度。
22.根据权利要求21所述的装置,其中,所述匹配度包括领域类型相关度;
所述选择模块,还用于:
确定所述问题所属的领域,以及所述目标实体的类型;
确定所述候选答案所属的领域,以及所述实体知识的类型;
根据所述问题所属的领域以及所述候选答案所属的领域,确定领域相关度;
根据所述目标实体的类型以及所述实体知识的类型,确定类型相关度;
根据所述领域相关度和所述类型相关度,确定所述实体知识与所述目标实体之间的领域类型相关度。
23.根据权利要求20所述的方法,其中,所述选择模块,还用于:
针对每个候选答案,确定所述候选答案与所述问题之间的匹配度,其中,所述匹配度包括以下至少一种:所述问题与所述候选答案的字符重合度、所述问题与所述候选答案的语义相似度、所述问题的答案类型与所述候选答案的类型之间的类型相关度、所述候选答案为结构化文本部分中关键项的内容时所述候选答案与关键项之间的匹配度、所述问题中答案相关限定与所述候选答案的匹配度;
根据所述候选答案与所述问题之间的匹配度,确定所述候选答案的答案置信度。
24.根据权利要求20所述的装置,其中,所述选择模块,还用于:
针对每个候选答案,根据所述候选答案的所述实体置信度以及所述答案置信度,确定所述候选答案的置信度;
根据所述置信度对至少一个所述候选答案进行降序排序,得到排序结果;
将所述排序结果中排序在前的候选答案,确定为所述问题对应的答案。
25.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-12中任一项所述的方法。
26.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-12中任一项所述的方法。
27.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-12中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111248491.8A CN114116997A (zh) | 2021-10-26 | 2021-10-26 | 知识问答方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111248491.8A CN114116997A (zh) | 2021-10-26 | 2021-10-26 | 知识问答方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114116997A true CN114116997A (zh) | 2022-03-01 |
Family
ID=80376841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111248491.8A Pending CN114116997A (zh) | 2021-10-26 | 2021-10-26 | 知识问答方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114116997A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115169364A (zh) * | 2022-06-17 | 2022-10-11 | 北京百度网讯科技有限公司 | 智能问答方法、装置、设备以及存储介质 |
CN115292461A (zh) * | 2022-08-01 | 2022-11-04 | 北京伽睿智能科技集团有限公司 | 基于语音识别的人机交互学习方法及系统 |
-
2021
- 2021-10-26 CN CN202111248491.8A patent/CN114116997A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115169364A (zh) * | 2022-06-17 | 2022-10-11 | 北京百度网讯科技有限公司 | 智能问答方法、装置、设备以及存储介质 |
CN115169364B (zh) * | 2022-06-17 | 2024-03-08 | 北京百度网讯科技有限公司 | 智能问答方法、装置、设备以及存储介质 |
CN115292461A (zh) * | 2022-08-01 | 2022-11-04 | 北京伽睿智能科技集团有限公司 | 基于语音识别的人机交互学习方法及系统 |
CN115292461B (zh) * | 2022-08-01 | 2024-03-12 | 北京伽睿智能科技集团有限公司 | 基于语音识别的人机交互学习方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11334635B2 (en) | Domain specific natural language understanding of customer intent in self-help | |
EP3958145A1 (en) | Method and apparatus for semantic retrieval, device and storage medium | |
US20220300543A1 (en) | Method of retrieving query, electronic device and medium | |
CN114116997A (zh) | 知识问答方法、装置、电子设备及存储介质 | |
CN113988157A (zh) | 语义检索网络训练方法、装置、电子设备及存储介质 | |
CN110245357B (zh) | 主实体识别方法和装置 | |
CN113836316B (zh) | 三元组数据的处理方法、训练方法、装置、设备及介质 | |
US11514258B2 (en) | Table header detection using global machine learning features from orthogonal rows and columns | |
Wei et al. | Online education recommendation model based on user behavior data analysis | |
CN116501960B (zh) | 内容检索方法、装置、设备及介质 | |
CN112506864A (zh) | 文件检索的方法、装置、电子设备及可读存储介质 | |
US20230274161A1 (en) | Entity linking method, electronic device, and storage medium | |
EP3992814A2 (en) | Method and apparatus for generating user interest profile, electronic device and storage medium | |
CN112926297B (zh) | 处理信息的方法、装置、设备和存储介质 | |
CN113326438A (zh) | 信息查询方法、装置、电子设备以及存储介质 | |
CN112528644A (zh) | 实体挂载的方法、装置、设备以及存储介质 | |
CN112784046A (zh) | 文本聚簇的方法、装置、设备及存储介质 | |
CN114925185B (zh) | 交互方法、模型的训练方法、装置、设备及介质 | |
CN113971216B (zh) | 数据处理方法、装置、电子设备和存储器 | |
CN116610782B (zh) | 文本检索方法、装置、电子设备及介质 | |
CN114201607B (zh) | 一种信息处理的方法和装置 | |
CN116244740B (zh) | 一种日志脱敏方法、装置、电子设备及存储介质 | |
CN113656393B (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
CN113656592B (zh) | 基于知识图谱的数据处理方法、装置、电子设备和介质 | |
CN116910229A (zh) | 针对指标的智能查询方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |